CN110321760A

CN110321760A - 一种医疗单据识别方法和装置

Info

Publication number: CN110321760A
Application number: CN201810271810.9A
Authority: CN
Inventors: 沈燕妮; 潘多志; 王如章
Original assignee: Beijing Gentle Medical Technology Co Ltd
Current assignee: Beijing Gentle Medical Technology Co Ltd
Priority date: 2018-03-29
Filing date: 2018-03-29
Publication date: 2019-10-11

Abstract

本申请实施例公开了一种医疗单据识别方法，包括获取医疗单据图像，对医疗单据图像进行切割得到各个词块图像，根据各个词块图像所属类别，分别采用汉字识别模型和字符识别模型对汉字词块图像以及字符块图像进行识别，将汉字识别结果与字符识别结果逐行合并，对合并结果进行分词和标注，得到对应各分词结果的标注结果，可以根据标注结果获得识别结果。由于汉字识别模型可以对汉字进行针对性识别，字符识别模型可以对单个字符进行针对识别，如此可以保证医疗单据中汉字和字符的识别准确率，因而基于汉字识别结果和字符识别结果合并进行分词和标注，并根据标注结果所获得的识别结果也相应地具有较高的准确率。

Description

一种医疗单据识别方法和装置

技术领域

本申请涉及图像处理领域，尤其涉及一种医疗单据识别方法和装置。

背景技术

光学字符识别(Optical Character Recognition，OCR)是一种通过图像处理和模式识别对光学字符进行识别的技术，通过与图像输入设备如扫描仪等进行配合可以将图像信息转换为文本信息，从而实现文字自动录入。

目前，OCR技术发展日益成熟，已广泛应用于银行票据、车牌、名片、个人证件、报刊、档案等信息的识别。相比于传统的手工录入方式，OCR技术明显提高了人们对资料的存储和检索效率。

但是，OCR技术在医疗行业的应用还不够成熟，如对医疗单据等进行识别，还存在难以识别或识别不准确等问题。

发明内容

有鉴于此，本申请第一方面提供了一种医疗单据识别方法，所述方法包括：

获取医疗单据图像，对所述医疗单据图像按照词块进行切割得到各个词块图像；

对所述各个词块图像进行分类，得到所述各个词块图像的分类结果；

若所述词块图像的分类结果为汉字类型，则将所述词块图像输入预先训练的汉字识别模型，得到汉字识别结果；若词块图像的分类结果为字符类型，则将所述词块图像切割得到字符块图像，并将所述字符块图像输入到预先训练的字符识别模型，得到字符识别结果；

将所述汉字识别结果与所述字符识别结果逐行合并，对合并结果进行分词和标注，得到对应各分词结果的标注结果，根据所述标注结果获得所述医疗单据图像的识别结果。

可选的，所述对所述各个词块图像进行分类包括：

利用预先训练的分类模型对所述各个词块图像进行分类；所述分类模型为卷积神经网络模型。

可选的，所述分类模型通过如下方式训练得到：

获取第一训练样本；所述第一训练样本包括对医疗单据图像进行切割得到的词块图像和所述词块图像对应的第一真实标签；所述第一真实标签表征所述词块图像的类别；

将所述第一训练样本输入第一初始模型，得到所述第一初始模型对所述第一训练样本的第一预测标签；所述第一初始模型为卷积神经网络模型；

根据所述第一真实标签和所述第一预测标签更新所述第一初始模型的模型参数；

若更新后的第一初始模型满足第一预设条件，则将更新后的第一初始模型确定为分类模型。

可选的，所述根据所述第一真实标签和所述第一预测标签更新所述第一初始模型的模型参数包括：

根据所述第一真实标签和所述第一预测标签确定所述第一初始模型的损失函数；

根据所述损失函数更新所述第一初始模型的模型参数；

所述若更新后的第一初始模型满足预设条件，则将所述更新后的第一初始模型确定为分类模型包括：

若更新后的第一初始模型的损失函数最小，则将所述更新后的第一初始模型确定为分类模型。

可选的，所述汉字识别模型通过如下方式训练得到：

获取第二训练样本；所述第二训练样本包括对医疗单据图像进行切割得到的汉字词块图像和所述汉字词块图像对应的第二真实标签；所述第二真实标签表征所述汉字词块图像对应的汉字；

将所述第二训练样本输入第二初始模型，得到所述第二初始模型对所述第二训练样本的第二预测标签；所述第二初始模型为卷积神经网络模型；

根据所述第二真实标签和所述第二预测标签更新所述第二初始模型的模型参数；

若更新后的第二初始模型满足第二预设条件，则将更新后的第二初始模型确定为汉字识别模型。

可选的，所述字符识别模型通过如下方式训练得到：

获取第三训练样本；所述第三训练样本包括对医疗单据图像中的字符词块图像切割得到的字符块图像和所述字符块图像对应的第三真实标签；所述第三真实标签表征所述字符块图像对应的字符；

将所述第三训练样本输入第三初始模型，得到所述第三初始模型对所述第三训练样本的第三预测标签；所述第三初始模型为卷积神经网络模型；

根据所述第三真实标签和所述第三预测标签更新所述第三初始模型的模型参数；

若更新后的第三初始模型满足第三预设条件，则将更新后的第三初始模型确定为字符识别模型。

可选的，所述对合并结果进行分词和标注包括：

利用预先训练的CRF模型对合并结果进行分词，得到分词结果，并对各分词结果进行标注，得到对应所述分词结果的标注结果。

可选的，所述CRF模型通过如下方法训练得到：

根据标注数据生成训练数据和测试数据；所述标注数据为对医疗单据的合并结果按照所属结构进行标注得到的数据；

利用所述训练数据对CRF特征模板进行训练得到初始CRF模型；

采用初始CRF模型对所述测试数据进行测试；

根据测试结果优化所述CRF特征模板，得到最优CRF特征模板；

利用所述标注数据训练所述最优CRF特征模板，得到CRF模型。

可选的，对所述医疗单据图像进行切割得到各个词块图像包括：

对所述医疗单据图像进行预处理，提取医疗单据表格区域；

对所述医疗单据表格区域进行切割，得到各个词块图像。

可选的，所述对所述医疗单据图像进行预处理包括：

对所述医疗单据图像进行二值化，得到二值化图像；

则所述提取医疗单据表格区域包括：

对所述二值化图像进行边缘检测，并对所述边缘进行纵向膨胀处理；

对膨胀后图像采用霍夫曼变换方法检测得到所述医疗单据的表格头尾两条横线，所述两条横线中间的区域为医疗单据表格区域。

可选的，对膨胀后图像采用霍夫曼变换方法检测得到所述医疗单据的表格头尾两条横线包括：

利用霍夫曼变换方法检测到所有横向直线；

对所述横向直线中的任意两条进行判断，如果存在两条横向直线交叉且距离相近，则将所述两条横向直线合并为一条横向直线；

判断任意两条横向直线之间的纵向距离，将所述纵向距离最大的两条横向直线确定为医疗单据的表格头尾两条横线。

可选的，所述方法还包括：

若所述医疗单据的表格头尾两条横线的长度的差值大于或等于预设阈值；

则将所述医疗单据的表格头尾两条横线中角度的较短的横线延长，直至与所述两条横线中较长的横线平齐；

将延长后的横线与较长的横线中间的区域确定为医疗单据表格区域。

可选的，所述方法还包括：

将膨胀后的图像旋转90°，利用霍夫曼变换方法检测旋转后的图像；

若旋转后的图像中检测到横向直线，则所述医疗单据表格区域被分为至少两列；

所述将所述汉字识别结果与所述字符识别结果逐行合并包括：

按列对所述汉字识别结果与所述字符识别结果逐行合并。

可选的，所述对所述医疗单据表格区域进行切割，得到各个词块图像包括：

对所述医疗单据表格区域计算行的灰度和，得到行灰度直方图，根据所述行灰度直方图按行进行切割得到行切割图像；

对切割后的行图像计算列的灰度和，得到列灰度直方图，根据所述列灰度直方图按列进行切割得到各个词块图像。

可选的，所述方法还包括：

根据所述识别结果，将所述医疗单据表格化。

本申请第二方面提供一种医疗单据识别装置，所述装置包括：

获取单元，用于获取医疗单据图像，对所述医疗单据图像按照词块进行切割得到各个词块图像；

分类单元，用于对所述各个词块图像进行分类，得到所述各个词块图像的分类结果；

识别单元，用于若所述词块图像的分类结果为汉字类型，则将所述词块图像输入预先训练的汉字识别模型，得到汉字识别结果；若词块图像的分类结果为字符类型，则将所述词块图像切割得到字符块图像，并将所述字符块图像输入到预先训练的字符识别模型，得到字符识别结果；

标注单元，用于将所述汉字识别结果与所述字符识别结果逐行合并，对合并结果进行分词和标注，得到对应各分词结果的标注结果，根据所述标注结果获得所述医疗单据图像的识别结果。

可选的，所述分类单元具体用于：

可选的，所述分类模型通过如下方式训练得到：

根据所述损失函数更新所述第一初始模型的模型参数；

可选的，所述汉字识别模型通过如下方式训练得到：

可选的，所述字符识别模型通过如下方式训练得到：

可选的，所述标注单元具体用于：

可选的，所述CRF模型通过如下方法训练得到：

利用所述训练数据对CRF特征模板进行训练得到初始CRF模型；

采用初始CRF模型对所述测试数据进行测试；

根据测试结果优化所述CRF特征模板，得到最优CRF特征模板；

利用所述标注数据训练所述最优CRF特征模板，得到CRF模型。

可选的，所述获取单元包括：

提取子单元，用于对所述医疗单据图像进行预处理，提取医疗单据表格区域；

切割子单元，用于对所述医疗单据表格区域进行切割，得到各个词块图像。

可选的，所述提取子单元具体用于：

对所述医疗单据图像进行二值化，得到二值化图像；

可选的，所述提取子单元具体用于：

利用霍夫曼变换方法检测到所有横向直线；

可选的，所述提取子单元还用于：

则所述标注单元具体用于：

按列对所述汉字识别结果与所述字符识别结果逐行合并。

可选的，所述获取单元具体用于：

可选的，所述装置还包括：

表格生成单元，用于根据所述识别结果，将所述医疗单据表格化。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例中，提供了一种医疗单据识别方法，包括获取医疗单据图像，对医疗单据图像进行切割得到各个词块图像，对各个词块图像进行分类，得到各个词块图像的分类结果，若词块图像的分类结果为汉字，则将词块图像输入预先训练的汉字识别模型，得到汉字识别结果，若词块图像的分类结果为字符，则词块图像切割得到字符块图像，并将字符块图像输入到预先训练的字符识别模型，得到字符识别结果，将汉字识别结果与字符识别结果逐行合并，对合并结果进行分词和标注，得到对应各分词结果的标注结果，可以根据标注结果获得识别结果。

在本申请实施例中，将各个词块图像分为汉字词块图像和字符词块图像，针对汉字词块图像采用预先训练的汉字识别模型进行识别，针对字符词块图像，首先进行切割得到包含单个字符的字符块图像，并利用预先训练的字符识别模型进行识别，与传统的OCR识别相比，本申请实施例中的汉字识别模型可以对汉字进行针对性识别，字符识别模型可以对单个字符进行针对识别，如此可以保证医疗单据中汉字和字符的识别准确率，因而基于汉字识别结果和字符识别结果合并进行分词和标注，并根据标注结果所获得的识别结果也相应地具有较高的准确率。

附图说明

图1为本申请实施例提供的一种医疗单据识别方法的流程图；

图2为本申请实施例提供的化验单图像的示意图；

图3为本申请实施例提供的医疗单据识别方法对化验单图像进行表格化处理得到的医疗单据表格的示意图；

图4为本申请实施例提供的一种分类模型的训练方法的流程图；

图5为本申请实施例提供的一种汉字识别模型的训练方法的流程图；

图6为本申请实施例提供的一种字符识别模型的训练方法的流程图；

图7为本申请实施例提供的一种CRF模型的训练方法的流程图；

图8为本申请实施例提供的一种医疗单据识别装置的结构示意图。

具体实施方式

在医疗领域，常常需要对医疗单据中的信息进行结构化的存储，以方便减索和查找。为此，需要对医疗单据图像进行识别，提取医疗单据中的信息。传统的OCR技术在医疗领域应用并不成熟，对医疗单据图像识别准确度欠佳，因而难以将医疗单据中的结构化信息提取出来，影响了对医疗单据资料的存储和检索。

医疗单据包括化验单、药品清单以及处方单等等。本申请以化验单作为示例对本申请的技术方案进行说明，应当理解，这些示例并不够成对本申请技术方案的限定。

化验单中包括化验项、化验项对应的指标数值、参考范围、单位等等信息。其中，化验项名称存在不常见的专业医疗词汇和中英结合，化验单上的单位、范围以及对结果高低的提示等含有大量特殊符号，这些都影响常规OCR技术对化验单的识别。

有鉴于此，本申请实施例提供了一种医疗单据识别方法，包括获取医疗单据图像，对医疗单据图像按照词块进行切割得到各个词块图像，对各个词块图像进行分类，得到各个词块图像的分类结果，若词块图像的分类结果为汉字，则将词块图像输入预先训练的汉字识别模型，得到汉字识别结果，若词块图像的分类结果为字符，则词块图像切割得到字符块图像，并将字符块图像输入到预先训练的字符识别模型，得到字符识别结果，将汉字识别结果与字符识别结果逐行合并，对合并结果进行分词和标注，得到对应各分词结果的标注结果，可以根据标注结果获得识别结果。

与传统的OCR识别相比，本申请实施例中的汉字识别模型可以对汉字进行针对性识别，字符识别模型可以对单个字符进行针对识别，如此可以保证医疗单据中汉字和字符的识别准确率，因而基于汉字识别结果和字符识别结果合并进行分词和标注，并根据标注结果所获得的识别结果也相应地具有较高的准确率。

为了使本申请提供的医疗单据的识别方法更清楚，下面将结合附图对本申请的具体实现方式进行详细说明。

图1为为本申请实施例提供的一种医疗单据识别方法的流程图，参见图1，该方法包括：

S101：获取医疗单据图像，对所述医疗单据图像按照词块进行切割得到各个词块图像。

医疗单据图像是指医疗领域使用的单据对应的图像。医疗单据图像可以是化验单图像，可以是药品清单图像，也可以是处方单图像。

获取医疗单据图像可以有多种实现方式。在本申请实施例一些可能的实现方式中，可以通过扫描仪对医疗单据进行扫描得到医疗单据图像，也可以通过照相机对医疗单据进行拍摄得到医疗单据图像，还可以在生成医疗单据时另存为图像格式，从而得到医疗单据图像。

为了方便理解本申请的技术方案，本实施例以化验单图像进行示例性说明，其他医疗单据图像的处理方式可以参照化验单图像的处理方式，这里不再赘述。

可以理解，化验单本质上属于表单，而表单往往由词语构成。针对化验单图像，各个词语在图像中以块状进行显示，可以将各个词语所在的块称之为词块。需要说明，本实施例中的词语可以是汉字词语，也可以是汉字与英文字母的合成词，还可以是数字，或者是数字与字符的合成词。

在获得化验单图像后，可以按照词块对化验单图像进行切割得到词块图像。在化验单图像中，词块区域与非词块区域的灰度值存在明显的差异，词块区域灰度值更高，因此可以根据灰度值对化验单图像进行切割，得到词块图像。

在本申请实施例一些可能的实现方式中，可以按照如下步骤进行切割得到词块图像：

S1011：对所述医疗单据图像进行预处理，提取医疗单据表格区域。

可以理解，医疗单据中包括表格区域，也包括非表格区域。以化验单为例，除了中间的化验单表格区域，在表格区域上方还包括就诊人相关信息，表格区域下方还包括检验者相关信息。为了提取出与化验单相关信息，可以先将化验单表格区域提取出来。

基于此，可以对医疗单据图像进行预处理，例如，对所述医疗单据图像进行二值化，如此，可以对所述二值化图像进行边缘检测，并对所述边缘进行纵向膨胀处理，通过对膨胀后图像采用霍夫曼变换方法检测得到所述医疗单据的表格头尾两条横线，所述两条横线中间的区域即为医疗单据表格区域，从而实现医疗单据表格区域提取。

其中，检测所述医疗单据的表格头尾两条横线可以通过如下方式实现，具体的，可以利用霍夫曼变换方法检测到所有横向直线，然后对所述横向直线中的任意两条进行判断，如果存在两条横向直线交叉且距离相近，则将所述两条横向直线合并为一条横向直线，接着判断任意两条横向直线之间的纵向距离，将所述纵向距离最大的两条横向直线确定为医疗单据的表格头尾两条横线。

在有些情况下，可能存在表头表尾两条横线长短不一的情况，如果直接根据这两条横线提取表格区域，难以提取到完整的表格区域。基于此，可以在医疗单据的表格头尾两条横线的长度的差值大于或等于预设阈值时，将所述医疗单据的表格头尾两条横线中角度的较短的横线延长，直至与所述两条横线中较长的横线平齐；将延长后的横线与较长的横线中间的区域确定为医疗单据表格区域。

在本申请实施例一些可能的实现方式中，在检测到表格区域首尾两条横线后，还可以将膨胀后的图像旋转90°，利用利用霍夫曼变换方法检测旋转后的图像是否存在横线，以确定表格区域是否分为至少两列。若旋转后的图像中间检测到横线直线，则所述医疗单据表格区域至少被分为两列。

需要说明的是，对图像进行二值化处理，并结合霍夫曼变换方法提取医疗单据表格区域仅为本申请的一个示例，并不构成对本申请技术方案的限定。

S1012：对所述医疗单据表格区域进行切割，得到各个词块图像。

在提取到医疗单据表格区域后，可以对医疗表格区域进行切割，而不是对整个医疗单据图像进行切割，如此可以提高切割效率，并减小识别词块图像的计算量。

在本申请实施例一些可能的实现方式中，可以对所述医疗单据表格区域计算行的灰度和，得到行灰度直方图，根据所述行灰度直方图按行进行切割得到行切割图像；然后对切割后的行图像计算列的灰度和，得到列灰度直方图，根据所述列灰度直方图按列进行切割得到各个词块图像。

具体地，为了方便表述，以row_shadow表示行灰度直方图。设置行灰度阈值为30*255，逐像素判断若row_shadow[i-1]未超过行灰度阈值，而row_shadow[i]超过行灰度阈值，则标记i-3为行切割的起点；找到起点后，若row_shadow[i-2]和row_shadow[i-1]之和超过2倍行灰度阈值，且row_shadow[i]和row_shadow[i+1]之和低于2倍行灰度阈值，则标记i+2为行切割的终点。获得全部待切割行的起点终点后，排除距离小于12像素的起点终点对，按剩余的起点终点对进行切割，得到行切割图像。

对行切割图像计算列的灰度和，得到列灰度直方图，以col_shadow进行表示。设置列灰度阈值为2*255，逐像素判断，若col_shadow[i-1]未超过列灰度阈值，而col_shadow[i+width/200]超过列灰度阈值，其中width为表格区域的像素宽度，则标记i为列切割的起点；找到起点后，若col_shadow[i-width/200]至col_shadow[i]之和超过列灰度阈值，且col_shadow[i]至col_shadow[i+width/70]之和低于列灰度阈值，且i和起点距离大于8像素，则标记i为本次切割终点。在获得全部待切割块的起点和终点，根据起点和终点进行列切割，得到各词块图像。

S102：对所述各个词块图像进行分类，得到所述各个词块图像的分类结果。

在切割得到词块图像后，可以对各个词块图像进行分类，得到各个词块图像的分类结果。在本实施例中，若词块为汉字，汉字与英文字母组合，或者汉字与字符组合，则该词块图像的分类结果为汉字类型；若词块为字符，如数字、符号，英文单词或者其中任意两种的组合等，则该词块图像的分类为字符类型。通过将词块图像进行分类，可以分别对不同词块图像进行针对性地识别，如此可以提供识别准确率。

为了便于理解，下面结合具体示例对词块图像的分类结果进行说明。图2示出了一张化验单，在该化验单中，数字“1”构成了词块，该词块图像的分类结果为字符类型，“白细胞”构成了词块，该词块图像的分类结果为汉字类型，“3.5-9.5”构成了词块，该词块为数字和符号构成，因此，该词块图像的分类结果为字符类型，类似的，“红细胞分布宽度SD”也构成了词块，该词块为汉字与英文字母的组合，该词块图像的分类结果为汉字类型。

对上述各个词块图像进行分类有多种实现方式。在一些可能的实现方式中，可以利用预先训练的分类模型对所述各个词块图像进行分类。其中，分类模型可以为卷积神经网络模型。在图像处理领域，卷积神经网络模型由于局部连接、权值共享的特性，模型训练参数大大减小，进而减小了模型训练的难度，提高了模型训练效率，可以对卷积神经网络进行训练，得到分类模型，并将该分类模型应用于对词块图像进行分类。

与传统的分类方式相比，本实施例采用卷积神经网络模型训练得到的分类模型能够学习汉字以及字符的特征，通过大量的训练样本进行训练使得模型在对词块图像按汉字或字符进行分类时具有较高的准确率。

S103：若所述词块图像的分类结果为汉字类型，则将所述词块图像输入预先训练的汉字识别模型，得到汉字识别结果；若词块图像的分类结果为字符类型，则将所述词块图像切割得到字符块图像，并将所述字符块图像输入到预先训练的字符识别模型，得到字符识别结果。

在对词块图像进行分类后，可以根据分类结果对词块图像中的内容进行识别。具体的，若词块图像的分类结果为汉字类型，则将词块图像输入预先训练的汉字识别模型，得到汉字识别结果。若词块图像的分类结果为字符类型，则可以对词块图像中的字符进行识别。

在医疗领域，常用的字符主要用于表示数值和单位，其中，数值的组合方式可以是任意的，如果对字符类型的词块图像整体进行识别，需要较多的训练样本对模型进行训练。如果对单个字符进行识别，则仅需要将单个的数字、符号等作为训练样本对模型进行训练，而不需要对数字、符号的组合进行训练，如此，不仅可以节省训练模型的时间，提供训练模型的效率，而且训练得到的模型对字符具有较高的识别率。基于此，若词块图像的分类结果为字符类型，则可以将词块图像切割得到字符块图像，将字符块图像输入到预先训练的字符识别模型，得到字符识别结果。

为了便于理解，下面结合具体示例进行说明。

针对词块图像“白细胞”，其分类结果为汉字类型，将词块图像“白细胞”输入到预先训练的汉字识别模型，可以得到汉字识别结果为“白细胞”；针对词块图像“3.5-9.5”，对该词块图像进行切割，可以得到“3”、“.”、“5”、“-”、“9”、“.”和“5”等字符块图像，将这些字符块图像输入到预先训练的字符识别模型，可以得到与字符块图像对应的字符识别结果。

需要说明，词块图像所属类型为字符类型时，对词块图像切割得到字符块图像，可以参照对化验单图像切割得到词块图像的过程。在本申请实施例一些可能的实现方式中，可以计算词块图像的列的灰度和，得到灰度直方图，根据灰度直方图对词块图像进行切割得到词块图像中各字符对应的字符块图像。

具体的，对于字符类型的词块图像，计算列的灰度和，得到灰度直方图。为了方便表述，采用shadow进行表示，设置灰度阈值为1*255，逐像素判断，若shadow[i]超过灰度阈值则标记i为切割的起点，然后继续判断，若shadow[i]低于灰度阈值，则标记i为本次切割的终点。在获得全部待切割的起点和终点后，根据坐标切割得到各字符的字符块图像。

S104：将所述汉字识别结果与所述字符识别结果逐行合并，对合并结果进行分词和标注，得到对应各分词结果的标注结果，根据所述标注结果获得所述医疗单据图像的识别结果。

可以理解，上述步骤中所获取的汉字识别结果和字符识别结果只是将医疗单据中的汉字或字符抽取出来，由于采用了预先的汉字识别模型和字符识别模型分别进行识别，对于汉字和单个的字符具有较高的识别准确率。而单独的汉字识别结果或字符识别结果并不体现医疗单据所包含的信息，为了准确识别医疗单据中的结构化信息，可以将汉字识别结果与字符识别结果逐行合并，通过对合并结果进行分词和标注。在标注过程中，按照医疗单据的结构进行标注，根据标注结果可以确定被标注对象的结构信息，该结构信息可以作为医疗单据图像的识别结果。也就是说，根据标注结果可以获得医疗单据图像的识别结果。

以化验单图像为例，将第一行的汉字识别结果与字符识别结果合并，可以得到第一行对应的合并结果为“1白细胞5.623.5-9.510^9/L”，对该合并结果进行分词，具体为“1/白细胞/5.62/3.5-9.5/10^9/L”，可以得到分词结果为“1”、“白细胞”“5.62”、“3.5-9.5”和“10^9/L”，对上述分词结果进行标注，得到分词结果“白细胞”的标注结果为“项目”，分词结果“5.62”的标注结果为“结果”，分词结果“3.5-9.5”的标注结果为“范围”，分词结果“10^9/L”的标注结果为“单位”。类似的，可以按照相同的方式对第二行、第三行……第N行等分别进行合并，对各行的合并结果分别进行分词，并对各行的分词结果分别进行标注，得到各分词结果对应的标注结果，如对第7行合并得到合并结果为“7平均血红蛋白浓度312↓316-362g/L”，对第7行合并结果分词，具体为“7/平均血红蛋白浓度/312/↓/316-362/g/L”，得到分词结果分别为“7”、“平均血红蛋白浓度”、“312”、“↓”、“316-362”和“g/L”。对各个分词结果进行标注，可以得到“平均血红蛋白浓度”的标注结果为“项目”，“312”的标注结果为“结果”，“↓”的标注结果为“提示”，“316-362”的标注结果为“范围”，“g/L”的标注结果为“单位”。

需要说明，当医疗单据的表格区域存在多列时，并且列与列之间的结构相同或相似时，可以按照列对各行进行合并。例如，医疗单据的表格区域包含2列时，在进行行合并时，可以按照列对汉字识别结果与字符识别结果进行逐行合并。

下面结合具体示例进行说明。在图2所示的化验单中，对第1行进行合并时，可以分别合并左列和右列中的内容，如此可以得到2个合并结果，具体为“1白细胞5.623.5-9.510^9/L”和“17单核细胞计数0.400.1-0.610^9/L”。

由上可知，本申请实施例提供了一种医疗单据识别方法，包括获取医疗单据图像，对医疗单据图像进行切割得到各个词块图像，对各个词块图像进行分类，得到各个词块图像的分类结果，若词块图像的分类结果为汉字，则将词块图像输入预先训练的汉字识别模型，得到汉字识别结果，若词块图像的分类结果为字符，则词块图像切割得到字符块图像，并将字符块图像输入到预先训练的字符识别模型，得到字符识别结果，将汉字识别结果与字符识别结果逐行合并，对合并结果进行分词和标注，得到对应各分词结果的标注结果，可以根据标注结果获得识别结果。本申请实施例中的汉字识别模型可以对汉字进行针对性识别，字符识别模型可以对单个字符进行针对识别，如此可以保证医疗单据中汉字和字符的识别准确率，因而基于汉字识别结果和字符识别结果合并进行分词和标注，并根据标注结果所获得的识别结果也相应地具有较高的准确率。

在根据标注结果获得医疗单据图像的识别结果后，还可以根据识别结果对医疗单据进行表格化。具体的，可以将各行的分词结果按照标注结果填充到表格中，如针对第一行的合并结果对应的分词结果与标注结果，将第一行中的“项目”也即“白细胞”填充到表格的“项目”列中，类似的，将第一行中的“结果”也即“5.62”填充到表格的“结果”列中，具体填充过程可以参照第一行的填充过程，在此不再一一赘述。图3示出了对化验单图像的识别结果进行表格化的示意图，参见图3，可以获取各个项目对应的结果、范围、单位以及提示等信息。

由此可见，通过标注结果可以实现对医疗单据结构化信息提取，通过结构化的信息存储，可以提高对医疗单据资料的存储和检索效率，给医生诊断等带来帮助。

在上述实施例中，对词块图像进行分类是通过分类模型实现的，其中，分类模型可以通过对初始模型进行训练得到。下面结合附图，对本申请中分类模型的训练方法进行介绍。

图4所示为本申请实施例提供的一种分类模型的训练方法的流程图，参见图4，该方法包括：

S401：获取第一训练样本；所述第一训练样本包括对医疗单据图像进行切割得到的词块图像和所述词块图像对应的第一真实标签；所述第一真实标签表征所述词块图像的类别。

在机器学习领域，为了得到模型，常常需要获取样本数据进行训练。具体到本实施例，为了获得对词块图像进行分类的分类模型，可以首先获取包括词块图像以及词块图像对应的第一真实标签的第一训练样本。

词块图像已在上文进行说明，此处不再赘述。词块图像对应的第一真实标签是指该词块图像的真实类型，表征该词块图像的类别，即该词块图像实际为汉字类型还是字符类型。若该词块图像实际为汉字类型，则该词块图像的第一真实标签为汉字类型，若该词块图像实际为字符类型，则该词块图像的第一真实标签为字符类型。

例如，针对词块图像“白细胞”，其第一真实标签为汉字类型，针对词块图像“5.62”，其第一真实标签为“字符类型”，还需要说明的是，当词块图像为汉字夹杂少许字符或字符时，该词块图像的第一真实标签为“汉字类型”，以词块图像“红细胞分布宽度CV”作为示例，尽管该词块图像中也包括英文字母，但该词块图像的第一真实标签仍为“汉字类型”。

在本实施例中，第一训练样本可以从预先建立的第一训练样本的样本集中获取。其中，第一训练样本的样本集可以通过网络爬虫的方式，也可以通过人工采集的方式建立得到，本申请实施例对此不做限定。

S402：将所述第一训练样本输入第一初始模型，得到所述第一初始模型对所述第一训练样本的第一预测标签；所述第一初始模型为卷积神经网络模型。

在获取到第一训练样本后，可以利用第一训练样本对第一初始模型进行训练。由于本实施例中所要训练的模型为分类模型，而卷积神经网络模型由于局部连接、权值共享的特性，在模式识别或分类问题上具有天然的优势，因此可以采用卷积神经网络模型作为第一初始模型，通过对该卷积神经网络模型进行训练以得到分类模型。

利用第一训练样本对第一初始模型进行训练，具体包括将第一训练样本输入第一初始模型，得到第一初始模型对第一训练样本的第一预测标签，其中，第一预测标签是指第一初始模型对第一训练样本的标签的预测值。如，将某词块图像输入到第一初始模型，模型预测该词块图像为汉字，则第一预测标签即为“汉字类型”。

S403:根据所述第一真实标签和所述第一预测标签更新所述第一初始模型的模型参数。

根据第一真实标签和第一初始模型对第一训练样本所属类别预测得到的第一预测标签，可以确定第一初始模型预测的偏差程度，根据该偏差程度，可以对第一初始模型的参数进行优化。

在本申请实施例一些可能的实现方式中，可以根据第一真实标签和第一预测标签确定第一初始模型的损失函数，该损失函数能够表征模型预测的偏差程度，接着，可以根据损失函数更新第一初始模型的模型参数。其中，损失函数包括逻辑回归损失函数、对数损失函数等不同种类的损失函数，可以根据模型的实际需求选择对应的损失函数，例如可以采用交叉熵方法定义损失函数。在确定损失函数后，可以计算损失函数的梯度，利用梯度下降法等方法更新第一初始模型的模型参数，实现对第一初始模型的优化。

S404:若更新后的第一初始模型满足第一预设条件，则将更新后的第一初始模型确定为分类模型。

在训练模型的过程中，需要采用大量的训练样本进行迭代训练。具体到本实施例，采用大量的第一训练样本对第一初始模型进行迭代训练，相应地，第一初始模型的参数也会更新多次。在有些情况下，更新后的第一初始模型满足第一预设条件时，则可以将更新后的第一初始模型确定为分类模型。该分类模型可以用于对词块图像进行分类。

其中，第一预设条件是对第一初始模型进行评估、衡量的一种条件，作为一种可能的实现方式，第一预设条件可以是针对第一初始模型的损失函数的条件。更新后的第一初始模型满足预设条件，可以为更新后的第一初始模型的损失函数最小，当损失函数最小时，表明第一初始模型预测偏差程度达到最小，如此可将更新后的第一初始模型确定为分类模型。

以上为本申请实施例提供的一种分类模型的训练方法的具体实现方式，通过利用第一训练样本对第一初始模型进行训练，根据第一真实标签和第一预测标签更新第一初始模型的参数，当第一初始模型满足预设条件时，将其确定为分类模型。该分类模型采用了大量训练样本进行训练得到，在对词块图像进行识别时，能够充分利用学习词块图像的特征，根据这些特征能够较为准确地判断出词块图像所属类型，相较于传统分类方法具有较高的准确率。

在通过分类模型对词块图像进行分类后，还可以根据预先训练的汉字识别模型和字符识别模型对汉字类型的词块图像以及字符类型的词块图像进行识别。

首先，结合附图，对本申请实施例提供的汉字识别模型的训练方法进行介绍。

图5所示为本申请实施例提供的汉字识别模型的训练方法的流程图，参见图5，该方法包括：

S501：获取第二训练样本；所述第二训练样本包括对医疗单据图像进行切割得到的汉字词块图像和所述汉字词块图像对应的第二真实标签；所述第二真实标签表征所述汉字词块图像对应的汉字。

本实施例主要目的在于训练汉字识别模型，用于识别汉字词块图像。因此，用于训练汉字识别模型的训练样本包括对医疗单据图像进行切割得到的汉字词块图像。由于采用有监督学习方式，用于训练汉字识别模型的训练样本还包括汉字词块图像对应第二真实标签，该第二真实标签表征汉字词块图像对应的汉字。为了方便表述，可以将用于训练汉字识别模型的训练样本称为第二训练样本。

下面以图2的化验单作为示例进行说明。对图2的化验单图像进行切割，可以得到“白细胞”、“红细胞”、“血红蛋白”等汉字词块图像，针对以上各个词块图像，分别对应一个第二真实标签，其中，词块图像“白细胞”对应的第二真实标签为汉字“白细胞”，词块图像“红细胞”对应的第二真实标签为汉字“红细胞”，词块图像“白细胞”与汉字“白细胞”构成一个第二训练样本，词块图像“红细胞”与汉字“红细胞”也构成一个第二训练样本。

与第一训练样本的获取方式类似，第二训练样本也可以从预先建立的第二训练样本的样本集中获取。第二训练样本的样本集的建立可以参照第一训练样本的样本集。

S502：将所述第二训练样本输入第二初始模型，得到所述第二初始模型对所述第二训练样本的第二预测标签；所述第二初始模型为卷积神经网络模型。

在获取到第二训练样本后，可以利用第二训练样本对第二初始模型进行训练。由于本实施例中所要训练的模型为汉字识别模型，而卷积神经网络模型由于局部连接、权值共享的特性，在模式识别或分类问题上具有天然的优势，因此可以采用卷积神经网络模型作为第二初始模型，通过对该卷积神经网络模型进行训练以得到汉字识别模型。

利用第二训练样本对第二初始模型进行训练，具体包括将第二训练样本输入第二初始模型，得到第二初始模型对第二训练样本的第二预测标签，其中，第二预测标签是指第二初始模型对第二训练样本的标签的预测值。

S503：根据所述第二真实标签和所述第二预测标签更新所述第二初始模型的模型参数。

S504：若更新后的第二初始模型满足第二预设条件，则将更新后的第二初始模型确定为汉字识别模型。

其中，S503-S504的具体实现与S403-S404类似，可以利用第二真实标签和第二预测标签确定第二初始模型的损失函数，根据该损失函数更新第二初始模型的模型参数。当更新后的第二初始模型满足预设条件时，如第二初始模型的损失函数最小时，可以将第二初始模型确定为汉字识别模型。S603-S604的详细实现过程不再赘述。

以上为本申请实施例提供的一种汉字识别模型的训练方法的具体实现方式，通过利用第二训练样本对第二初始模型进行训练，根据第二真实标签和第二预测标签更新第二初始模型的参数，当第二初始模型满足预设条件时，将其确定为汉字识别模型。该汉字识别模型采用了大量关于汉字词块图像的训练样本进行训练得到，在对汉字词块图像进行识别时，能够充分利用学习汉字词块图像的特征，根据这些特征能够较为准确地判断出词块图像对应的标签，由于对汉字词块图像进行了针对性地识别，相较于传统识别方式具有较高的准确率。

接下来，结合附图对本申请实施例提供的一种字符识别模型的训练方法进行介绍。

图6所示为本申请实施例提供的字符识别模型的训练方法的流程图，参见图6，该方法包括：

S601:获取第三训练样本；所述第三训练样本包括对医疗单据图像中的字符词块图像切割得到的字符块图像和所述字符块图像对应的第三真实标签；所述第三真实标签表征所述字符块图像对应的字符。

第三训练样本为用于训练字符识别模型的训练样本。由于该模型是对医疗单据图像中的单个字符进行识别，故第三训练样本至少包括对对医疗单据图像中的字符词块图像切割得到的字符块图像。在本实施例中，采用有监督学习的方式训练模型，故，第三训练样本还包括与字符块图像对应的第三真实标签，该第三真实标签表征字符块图像对应的字符。

为了便于理解，结合图2的化验单图像进行说明。针对图2的化验单，字符词块图像包括“5.62”、“3.5-9.5”等，对这些字符块图像进行切割得到的字符块图像包括“5”、“.”、“6”、“2”以及“3”、“.”、“5”、“—”、“9”、“.”、“5”等，则可以将字符块图像“5”及其对应的字符“5”作为第三训练样本，类似的，字符块图像“.”及其对应的字符“.”也构成了第三训练样本。

获取第三训练样本的过程与获取第一训练样本、第二训练样本的过程类似，这里不再赘述。

S602：将所述第三训练样本输入第三初始模型，得到所述第三初始模型对所述第三训练样本的第三预测标签；所述第三初始模型为卷积神经网络模型。

在获取到第三训练样本后，可以利用第三训练样本对第三初始模型进行训练。由于本实施例中所要训练的模型为字符识别模型，而卷积神经网络模型由于局部连接、权值共享的特性，在模式识别或分类问题上具有天然的优势，因此可以采用卷积神经网络模型作为第三初始模型，通过对该卷积神经网络模型进行训练以得到字符识别模型。

利用第三训练样本对第三初始模型进行训练，具体包括将第三训练样本输入第三初始模型，得到第三初始模型对第三训练样本的第三预测标签，其中，第三预测标签是指第三初始模型对第三训练样本的标签的预测值。

S603：根据所述第三真实标签和所述第三预测标签更新所述第三初始模型的模型参数。

S604：若更新后的第三初始模型满足第三预设条件，则将更新后的第三初始模型确定为字符识别模型。

其中，S603-S604的具体实现与S403-S404以及S503-S504类似，可以利用第三真实标签和第三预测标签确定第三初始模型的损失函数，根据该损失函数更新第三初始模型的模型参数。当更新后的第三初始模型满足预设条件时，如第三初始模型的损失函数最小时，可以将第三初始模型确定为汉字识别模型。S603-S604的详细实现过程不再赘述。

以上为本申请实施例提供的一种字符识别模型的训练方法的具体实现方式，通过利用第三训练样本对第三初始模型进行训练，根据第三真实标签和第三预测标签更新第三初始模型的参数，当第三初始模型满足预设条件时，将其确定为汉字识别模型。该汉字识别模型采用了大量关于字符块图像的训练样本进行训练得到，在对字符块图像进行识别时，能够充分利用学习字符块图像的特征，根据这些特征能够较为准确地判断出字符块图像对应的标签，由于对字符块图像进行了针对性地识别，相较于传统识别方式具有较高的准确率。

在通过预先建立的汉字识别模型和字符识别模型对医疗单据中的汉字及字符分别进行识别后，可以将识别汉字识别结果以及字符识别结果按行合并，然后对合并结果进行分词和标注，从而实现对医疗单据的识别。

在本申请实施例一些可能的实现方式中，对合并结果进行分词和标注可以为利用预先训练的条件随机场算法(Conditional Random Field，CRF)模型对合并结果进行分词，得到分词结果，并对各分词结果进行标注，得到对应分词结果的标注结果。

其中，CRF模型可以通过设计特征模板，对特征模板进行训练得到。下面结合附图对本申请实施例提供的CRF模型的训练方法进行介绍。

图7所示为本申请实施例提供的字符识别模型的训练方法的流程图，参见图7，该方法包括：

S701：根据标注数据生成训练数据和测试数据；所述标注数据为对医疗单据的合并结果按照所属结构进行标注得到的数据。

本实施例主要目的在于训练CRF模型，而CRF模型的功能为分词和标注，因此用于训练CRF模型的数据样本包括医疗单据中行内容对应的分词结果及标注结果。为了方便表述，可以将训练CRF模型的数据样本称为标注数据。该标注数据为对医疗单据按照所属结构进行标注得到的数据。

为了便于理解，举例说明标注数据。针对图2的化验单，可以对第一行“1白细胞5.623.5-9.510^9/L”进行分词和标注，本实施例制定的结构化数据为化验项目、化验结果、范围、单位、高低，分别用字母代替，具体为化验项目-E、化验结果-A、范围-B、单位-C、高低-D、其他-O，则对第一行分词，可以为“1，白细胞，5.62，3.5-9.5，10^9/L”，其中“白细胞”标注为“项目”、“5.62”标注为“结果”、“3.5-9.5”标注为“范围”，“10^9/L”标注为“单位”，用字母标注即为“O，EEE，AAAA，BBBBBBB，CCCCCC”，如此，可以构成一组标注数据，类似的，可以对第二行内容进行标注，得到另一组标注数据。

在本实施例中，标注数据除了用于训练，还可以用于测试，因此，可以将标注数据分为训练数据和测试数据两类。也即根据标注数据生成训练数据和测试数据，其中，生成训练数据和测试数据可以根据需求进行生成，例如可以按照预设比例，如4:1，从标注数据中抽取训练数据，剩余的作为测试数据。

S702：利用所述训练数据对CRF特征模板进行训练得到初始CRF模型。

特征模板是用来配置特征的。在CRF特征模板中，使用的特征函数是已知的，模型训练的参数只是各特征的权重。由于医疗单据如化验单中包括的信息主要为项目、结果、范围、单位、提示等，不同医疗机构的医疗单据的版式可能略有不同，但总体框架是相同的，因此，在获取到医疗单据后，可以明确医疗单据的特征。

可以通过设计特征模板来训练模型，可以实现对医疗单据的分词及标注。作为一个示例，可以采用官方提供的template_chunking为模板，用训练数据训练得到初始CRF模型test_model。相较于基于深度学习进行分词和标注，基于特征模板的训练方法可以利用已知的特征，具有更高的训练效率。

需要说明，本步骤采用了训练数据CRF特征模板进行训练，训练得到的模型的为初始CRF模型，其准确率等指标有待检验。

S703：采用初始CRF模型对所述测试数据进行测试。

在获得初始CRF模型后，可以利用测试数据来测试初始CRF模型的性能。其中，初始CRF模型的性能可以从精确率、召回率、F1值(精确率和召回率的调和均值)等方面进行衡量。可以利用预先生成的测试数据计算初始CRF模型的精确率、召回率、F1值等参数。

S704：根据测试结果优化所述CRF特征模板，得到最优CRF特征模板。

在计算出初始CRF模型的精确率、召回率、F1值等参数后，可以根据精确率、召回率、F1值等，对初始CRF模型的特征模板进行优化，得到最优CRF特征模板。

S705：利用所述标注数据训练所述最优CRF特征模板，得到CRF模型。

在获得最优特征模板后，可以利用标注数据，包括训练数据和测试数据对最优CRF特征模板进行训练，得到CRF模型。该CRF模型可以对医疗单据的各行内容进行分词和标注，得到医疗单据的结构化信息。

如此，可以对汉字识别结构、字符识别结果进行区分，确定其所属结构。例如，可以确定其于化验项目、数值结果、参考范围、单位或提示，进而可以得到表格化的医疗单据。

以上为本申请实施例提供的一种CRF模型的训练方法，包括对医疗单据按照所属结构进行标注得到标注数据，根据标注数据生成训练数据和测试数据，利用所述训练数据对CRF特征模板进行训练得到初始CRF模型，采用初始CRF模型对所述测试数据进行测试，根据测试结果优化所述CRF特征模板，得到最优CRF特征模板，利用所述标注数据训练所述最优CRF特征模板，得到CRF模型。该方法可以有效利用医疗单据的结构特征，基于已知特征进行模型训练，具有较高的训练效率。并且，通过该方法训练出的CRF模型能够对医疗单据的表格内容进行分词，并对分词结果按照表格结构进行标注，可以实现信息结构化，通过该结构化的信息，可以将医疗单据表格化，以便用户存储和检索。

以上为本申请实施例提供的一种医疗单据识别方法的具体实现方式，基于此，本申请实施例还提供了一种医疗单据识别装置，下面从功能模块化的角度对本申请实施例提供的医疗单据识别装置进行介绍。

图8所示为本申请实施例提供的一种医疗单据识别装置的结构示意图，参照图8，该装置800包括：

获取单元810，用于获取医疗单据图像，对所述医疗单据图像按照词块进行切割得到各个词块图像；

分类单元820，用于对所述各个词块图像进行分类，得到所述各个词块图像的分类结果；

识别单元830，用于若所述词块图像的分类结果为汉字类型，则将所述词块图像输入预先训练的汉字识别模型，得到汉字识别结果；若词块图像的分类结果为字符类型，则将所述词块图像切割得到字符块图像，并将所述字符块图像输入到预先训练的字符识别模型，得到字符识别结果；

标注单元840，用于将所述汉字识别结果与所述字符识别结果逐行合并，对合并结果进行分词和标注，得到对应各分词结果的标注结果，根据所述标注结果获得所述医疗单据图像的识别结果。

可选的，所述分类单元820具体用于：

可选的，所述分类模型通过如下方式训练得到：

根据所述损失函数更新所述第一初始模型的模型参数；

可选的，所述汉字识别模型通过如下方式训练得到：

可选的，所述字符识别模型通过如下方式训练得到：

可选的，所述标注单元840具体用于：

可选的，所述CRF模型通过如下方法训练得到：

利用所述训练数据对CRF特征模板进行训练得到初始CRF模型；

采用初始CRF模型对所述测试数据进行测试；

根据测试结果优化所述CRF特征模板，得到最优CRF特征模板；

利用所述标注数据训练所述最优CRF特征模板，得到CRF模型。

可选的，所述获取单元810包括：

可选的，所述提取子单元具体用于：

对所述医疗单据图像进行二值化，得到二值化图像；

可选的，所述提取子单元具体用于：

利用霍夫曼变换方法检测到所有横向直线；

可选的，所述提取子单元还用于：

则所述标注单元840具体用于：

按列对所述汉字识别结果与所述字符识别结果逐行合并。

可选的，所述获取单元810具体用于：

可选的，所述装置还包括：

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文全称：Read-OnlyMemory，英文缩写：ROM)、随机存取存储器(英文全称：Random Access Memory，英文缩写：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

Claims

1.一种医疗单据识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述各个词块图像进行分类包括：

3.根据权利要求2所述的方法，其特征在于，所述分类模型通过如下方式训练得到：

4.根据权利要求3所述的方法，其特征在于，所述根据所述第一真实标签和所述第一预测标签更新所述第一初始模型的模型参数包括：

根据所述损失函数更新所述第一初始模型的模型参数；

5.根据权利要求1到4任意一项所述的方法，其特征在于，所述汉字识别模型通过如下方式训练得到：

6.根据权利要求1到4任意一项所述的方法，其特征在于，所述字符识别模型通过如下方式训练得到：

7.根据权利要求1到4任意一项所述的方法，其特征在于，所述对合并结果进行分词和标注包括：

8.根据权利要求7所述的方法，其特征在于，所述CRF模型通过如下方法训练得到：

利用所述训练数据对CRF特征模板进行训练得到初始CRF模型；

采用初始CRF模型对所述测试数据进行测试；

根据测试结果优化所述CRF特征模板，得到最优CRF特征模板；

利用所述标注数据训练所述最优CRF特征模板，得到CRF模型。

9.根据权利要求1到4任意一项所述的方法，其特征在于，所述方法还包括：

根据所述识别结果，将所述医疗单据表格化。

10.一种医疗单据识别装置，其特征在于，所述装置包括：