CN110321760A - 一种医疗单据识别方法和装置 - Google Patents
一种医疗单据识别方法和装置 Download PDFInfo
- Publication number
- CN110321760A CN110321760A CN201810271810.9A CN201810271810A CN110321760A CN 110321760 A CN110321760 A CN 110321760A CN 201810271810 A CN201810271810 A CN 201810271810A CN 110321760 A CN110321760 A CN 110321760A
- Authority
- CN
- China
- Prior art keywords
- model
- block image
- character
- image
- medical document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 86
- 230000011218 segmentation Effects 0.000 claims abstract description 36
- 238000005267 amalgamation Methods 0.000 claims abstract description 30
- 238000012549 training Methods 0.000 claims description 194
- 238000012360 testing method Methods 0.000 claims description 30
- 238000005520 cutting process Methods 0.000 claims description 29
- 238000013527 convolutional neural network Methods 0.000 claims description 28
- 238000012512 characterization method Methods 0.000 claims description 9
- 230000001537 neural effect Effects 0.000 claims 1
- 230000006870 function Effects 0.000 description 32
- 238000009533 lab test Methods 0.000 description 19
- 239000000126 substance Substances 0.000 description 11
- 238000000605 extraction Methods 0.000 description 10
- 238000012015 optical character recognition Methods 0.000 description 9
- 238000012545 processing Methods 0.000 description 9
- 235000013399 edible fruits Nutrition 0.000 description 8
- 210000003743 erythrocyte Anatomy 0.000 description 7
- 238000003860 storage Methods 0.000 description 7
- 239000000284 extract Substances 0.000 description 6
- 102000001554 Hemoglobins Human genes 0.000 description 5
- 108010054147 Hemoglobins Proteins 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000003708 edge detection Methods 0.000 description 4
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000003909 pattern recognition Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 150000001875 compounds Chemical class 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 229940079593 drug Drugs 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- LWCVWGNRFYSORH-UHFFFAOYSA-N BBBBBBB Chemical compound BBBBBBB LWCVWGNRFYSORH-UHFFFAOYSA-N 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000005429 filling process Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 210000001616 monocyte Anatomy 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/20—Image enhancement or restoration using local operators
- G06T5/30—Erosion or dilatation, e.g. thinning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/13—Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
- G06V10/225—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on a marking or identifier characterising the area
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本申请实施例公开了一种医疗单据识别方法,包括获取医疗单据图像,对医疗单据图像进行切割得到各个词块图像,根据各个词块图像所属类别,分别采用汉字识别模型和字符识别模型对汉字词块图像以及字符块图像进行识别,将汉字识别结果与字符识别结果逐行合并,对合并结果进行分词和标注,得到对应各分词结果的标注结果,可以根据标注结果获得识别结果。由于汉字识别模型可以对汉字进行针对性识别,字符识别模型可以对单个字符进行针对识别,如此可以保证医疗单据中汉字和字符的识别准确率,因而基于汉字识别结果和字符识别结果合并进行分词和标注,并根据标注结果所获得的识别结果也相应地具有较高的准确率。
Description
技术领域
本申请涉及图像处理领域,尤其涉及一种医疗单据识别方法和装置。
背景技术
光学字符识别(Optical Character Recognition,OCR)是一种通过图像处理和模式识别对光学字符进行识别的技术,通过与图像输入设备如扫描仪等进行配合可以将图像信息转换为文本信息,从而实现文字自动录入。
目前,OCR技术发展日益成熟,已广泛应用于银行票据、车牌、名片、个人证件、报刊、档案等信息的识别。相比于传统的手工录入方式,OCR技术明显提高了人们对资料的存储和检索效率。
但是,OCR技术在医疗行业的应用还不够成熟,如对医疗单据等进行识别,还存在难以识别或识别不准确等问题。
发明内容
有鉴于此,本申请第一方面提供了一种医疗单据识别方法,所述方法包括:
获取医疗单据图像,对所述医疗单据图像按照词块进行切割得到各个词块图像;
对所述各个词块图像进行分类,得到所述各个词块图像的分类结果;
若所述词块图像的分类结果为汉字类型,则将所述词块图像输入预先训练的汉字识别模型,得到汉字识别结果;若词块图像的分类结果为字符类型,则将所述词块图像切割得到字符块图像,并将所述字符块图像输入到预先训练的字符识别模型,得到字符识别结果;
将所述汉字识别结果与所述字符识别结果逐行合并,对合并结果进行分词和标注,得到对应各分词结果的标注结果,根据所述标注结果获得所述医疗单据图像的识别结果。
可选的,所述对所述各个词块图像进行分类包括:
利用预先训练的分类模型对所述各个词块图像进行分类;所述分类模型为卷积神经网络模型。
可选的,所述分类模型通过如下方式训练得到:
获取第一训练样本;所述第一训练样本包括对医疗单据图像进行切割得到的词块图像和所述词块图像对应的第一真实标签;所述第一真实标签表征所述词块图像的类别;
将所述第一训练样本输入第一初始模型,得到所述第一初始模型对所述第一训练样本的第一预测标签;所述第一初始模型为卷积神经网络模型;
根据所述第一真实标签和所述第一预测标签更新所述第一初始模型的模型参数;
若更新后的第一初始模型满足第一预设条件,则将更新后的第一初始模型确定为分类模型。
可选的,所述根据所述第一真实标签和所述第一预测标签更新所述第一初始模型的模型参数包括:
根据所述第一真实标签和所述第一预测标签确定所述第一初始模型的损失函数;
根据所述损失函数更新所述第一初始模型的模型参数;
所述若更新后的第一初始模型满足预设条件,则将所述更新后的第一初始模型确定为分类模型包括:
若更新后的第一初始模型的损失函数最小,则将所述更新后的第一初始模型确定为分类模型。
可选的,所述汉字识别模型通过如下方式训练得到:
获取第二训练样本;所述第二训练样本包括对医疗单据图像进行切割得到的汉字词块图像和所述汉字词块图像对应的第二真实标签;所述第二真实标签表征所述汉字词块图像对应的汉字;
将所述第二训练样本输入第二初始模型,得到所述第二初始模型对所述第二训练样本的第二预测标签;所述第二初始模型为卷积神经网络模型;
根据所述第二真实标签和所述第二预测标签更新所述第二初始模型的模型参数;
若更新后的第二初始模型满足第二预设条件,则将更新后的第二初始模型确定为汉字识别模型。
可选的,所述字符识别模型通过如下方式训练得到:
获取第三训练样本;所述第三训练样本包括对医疗单据图像中的字符词块图像切割得到的字符块图像和所述字符块图像对应的第三真实标签;所述第三真实标签表征所述字符块图像对应的字符;
将所述第三训练样本输入第三初始模型,得到所述第三初始模型对所述第三训练样本的第三预测标签;所述第三初始模型为卷积神经网络模型;
根据所述第三真实标签和所述第三预测标签更新所述第三初始模型的模型参数;
若更新后的第三初始模型满足第三预设条件,则将更新后的第三初始模型确定为字符识别模型。
可选的,所述对合并结果进行分词和标注包括:
利用预先训练的CRF模型对合并结果进行分词,得到分词结果,并对各分词结果进行标注,得到对应所述分词结果的标注结果。
可选的,所述CRF模型通过如下方法训练得到:
根据标注数据生成训练数据和测试数据;所述标注数据为对医疗单据的合并结果按照所属结构进行标注得到的数据;
利用所述训练数据对CRF特征模板进行训练得到初始CRF模型;
采用初始CRF模型对所述测试数据进行测试;
根据测试结果优化所述CRF特征模板,得到最优CRF特征模板;
利用所述标注数据训练所述最优CRF特征模板,得到CRF模型。
可选的,对所述医疗单据图像进行切割得到各个词块图像包括:
对所述医疗单据图像进行预处理,提取医疗单据表格区域;
对所述医疗单据表格区域进行切割,得到各个词块图像。
可选的,所述对所述医疗单据图像进行预处理包括:
对所述医疗单据图像进行二值化,得到二值化图像;
则所述提取医疗单据表格区域包括:
对所述二值化图像进行边缘检测,并对所述边缘进行纵向膨胀处理;
对膨胀后图像采用霍夫曼变换方法检测得到所述医疗单据的表格头尾两条横线,所述两条横线中间的区域为医疗单据表格区域。
可选的,对膨胀后图像采用霍夫曼变换方法检测得到所述医疗单据的表格头尾两条横线包括:
利用霍夫曼变换方法检测到所有横向直线;
对所述横向直线中的任意两条进行判断,如果存在两条横向直线交叉且距离相近,则将所述两条横向直线合并为一条横向直线;
判断任意两条横向直线之间的纵向距离,将所述纵向距离最大的两条横向直线确定为医疗单据的表格头尾两条横线。
可选的,所述方法还包括:
若所述医疗单据的表格头尾两条横线的长度的差值大于或等于预设阈值;
则将所述医疗单据的表格头尾两条横线中角度的较短的横线延长,直至与所述两条横线中较长的横线平齐;
将延长后的横线与较长的横线中间的区域确定为医疗单据表格区域。
可选的,所述方法还包括:
将膨胀后的图像旋转90°,利用霍夫曼变换方法检测旋转后的图像;
若旋转后的图像中检测到横向直线,则所述医疗单据表格区域被分为至少两列;
所述将所述汉字识别结果与所述字符识别结果逐行合并包括:
按列对所述汉字识别结果与所述字符识别结果逐行合并。
可选的,所述对所述医疗单据表格区域进行切割,得到各个词块图像包括:
对所述医疗单据表格区域计算行的灰度和,得到行灰度直方图,根据所述行灰度直方图按行进行切割得到行切割图像;
对切割后的行图像计算列的灰度和,得到列灰度直方图,根据所述列灰度直方图按列进行切割得到各个词块图像。
可选的,所述方法还包括:
根据所述识别结果,将所述医疗单据表格化。
本申请第二方面提供一种医疗单据识别装置,所述装置包括:
获取单元,用于获取医疗单据图像,对所述医疗单据图像按照词块进行切割得到各个词块图像;
分类单元,用于对所述各个词块图像进行分类,得到所述各个词块图像的分类结果;
识别单元,用于若所述词块图像的分类结果为汉字类型,则将所述词块图像输入预先训练的汉字识别模型,得到汉字识别结果;若词块图像的分类结果为字符类型,则将所述词块图像切割得到字符块图像,并将所述字符块图像输入到预先训练的字符识别模型,得到字符识别结果;
标注单元,用于将所述汉字识别结果与所述字符识别结果逐行合并,对合并结果进行分词和标注,得到对应各分词结果的标注结果,根据所述标注结果获得所述医疗单据图像的识别结果。
可选的,所述分类单元具体用于:
利用预先训练的分类模型对所述各个词块图像进行分类;所述分类模型为卷积神经网络模型。
可选的,所述分类模型通过如下方式训练得到:
获取第一训练样本;所述第一训练样本包括对医疗单据图像进行切割得到的词块图像和所述词块图像对应的第一真实标签;所述第一真实标签表征所述词块图像的类别;
将所述第一训练样本输入第一初始模型,得到所述第一初始模型对所述第一训练样本的第一预测标签;所述第一初始模型为卷积神经网络模型;
根据所述第一真实标签和所述第一预测标签更新所述第一初始模型的模型参数;
若更新后的第一初始模型满足第一预设条件,则将更新后的第一初始模型确定为分类模型。
可选的,所述根据所述第一真实标签和所述第一预测标签更新所述第一初始模型的模型参数包括:
根据所述第一真实标签和所述第一预测标签确定所述第一初始模型的损失函数;
根据所述损失函数更新所述第一初始模型的模型参数;
所述若更新后的第一初始模型满足预设条件,则将所述更新后的第一初始模型确定为分类模型包括:
若更新后的第一初始模型的损失函数最小,则将所述更新后的第一初始模型确定为分类模型。
可选的,所述汉字识别模型通过如下方式训练得到:
获取第二训练样本;所述第二训练样本包括对医疗单据图像进行切割得到的汉字词块图像和所述汉字词块图像对应的第二真实标签;所述第二真实标签表征所述汉字词块图像对应的汉字;
将所述第二训练样本输入第二初始模型,得到所述第二初始模型对所述第二训练样本的第二预测标签;所述第二初始模型为卷积神经网络模型;
根据所述第二真实标签和所述第二预测标签更新所述第二初始模型的模型参数;
若更新后的第二初始模型满足第二预设条件,则将更新后的第二初始模型确定为汉字识别模型。
可选的,所述字符识别模型通过如下方式训练得到:
获取第三训练样本;所述第三训练样本包括对医疗单据图像中的字符词块图像切割得到的字符块图像和所述字符块图像对应的第三真实标签;所述第三真实标签表征所述字符块图像对应的字符;
将所述第三训练样本输入第三初始模型,得到所述第三初始模型对所述第三训练样本的第三预测标签;所述第三初始模型为卷积神经网络模型;
根据所述第三真实标签和所述第三预测标签更新所述第三初始模型的模型参数;
若更新后的第三初始模型满足第三预设条件,则将更新后的第三初始模型确定为字符识别模型。
可选的,所述标注单元具体用于:
利用预先训练的CRF模型对合并结果进行分词,得到分词结果,并对各分词结果进行标注,得到对应所述分词结果的标注结果。
可选的,所述CRF模型通过如下方法训练得到:
根据标注数据生成训练数据和测试数据;所述标注数据为对医疗单据的合并结果按照所属结构进行标注得到的数据;
利用所述训练数据对CRF特征模板进行训练得到初始CRF模型;
采用初始CRF模型对所述测试数据进行测试;
根据测试结果优化所述CRF特征模板,得到最优CRF特征模板;
利用所述标注数据训练所述最优CRF特征模板,得到CRF模型。
可选的,所述获取单元包括:
提取子单元,用于对所述医疗单据图像进行预处理,提取医疗单据表格区域;
切割子单元,用于对所述医疗单据表格区域进行切割,得到各个词块图像。
可选的,所述提取子单元具体用于:
对所述医疗单据图像进行二值化,得到二值化图像;
对所述二值化图像进行边缘检测,并对所述边缘进行纵向膨胀处理;
对膨胀后图像采用霍夫曼变换方法检测得到所述医疗单据的表格头尾两条横线,所述两条横线中间的区域为医疗单据表格区域。
可选的,所述提取子单元具体用于:
利用霍夫曼变换方法检测到所有横向直线;
对所述横向直线中的任意两条进行判断,如果存在两条横向直线交叉且距离相近,则将所述两条横向直线合并为一条横向直线;
判断任意两条横向直线之间的纵向距离,将所述纵向距离最大的两条横向直线确定为医疗单据的表格头尾两条横线。
可选的,所述提取子单元还用于:
若所述医疗单据的表格头尾两条横线的长度的差值大于或等于预设阈值;
则将所述医疗单据的表格头尾两条横线中角度的较短的横线延长,直至与所述两条横线中较长的横线平齐;
将延长后的横线与较长的横线中间的区域确定为医疗单据表格区域。
可选的,所述提取子单元还用于:
将膨胀后的图像旋转90°,利用霍夫曼变换方法检测旋转后的图像;
若旋转后的图像中检测到横向直线,则所述医疗单据表格区域被分为至少两列;
则所述标注单元具体用于:
按列对所述汉字识别结果与所述字符识别结果逐行合并。
可选的,所述获取单元具体用于:
对所述医疗单据表格区域计算行的灰度和,得到行灰度直方图,根据所述行灰度直方图按行进行切割得到行切割图像;
对切割后的行图像计算列的灰度和,得到列灰度直方图,根据所述列灰度直方图按列进行切割得到各个词块图像。
可选的,所述装置还包括:
表格生成单元,用于根据所述识别结果,将所述医疗单据表格化。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请实施例中,提供了一种医疗单据识别方法,包括获取医疗单据图像,对医疗单据图像进行切割得到各个词块图像,对各个词块图像进行分类,得到各个词块图像的分类结果,若词块图像的分类结果为汉字,则将词块图像输入预先训练的汉字识别模型,得到汉字识别结果,若词块图像的分类结果为字符,则词块图像切割得到字符块图像,并将字符块图像输入到预先训练的字符识别模型,得到字符识别结果,将汉字识别结果与字符识别结果逐行合并,对合并结果进行分词和标注,得到对应各分词结果的标注结果,可以根据标注结果获得识别结果。
在本申请实施例中,将各个词块图像分为汉字词块图像和字符词块图像,针对汉字词块图像采用预先训练的汉字识别模型进行识别,针对字符词块图像,首先进行切割得到包含单个字符的字符块图像,并利用预先训练的字符识别模型进行识别,与传统的OCR识别相比,本申请实施例中的汉字识别模型可以对汉字进行针对性识别,字符识别模型可以对单个字符进行针对识别,如此可以保证医疗单据中汉字和字符的识别准确率,因而基于汉字识别结果和字符识别结果合并进行分词和标注,并根据标注结果所获得的识别结果也相应地具有较高的准确率。
附图说明
图1为本申请实施例提供的一种医疗单据识别方法的流程图;
图2为本申请实施例提供的化验单图像的示意图;
图3为本申请实施例提供的医疗单据识别方法对化验单图像进行表格化处理得到的医疗单据表格的示意图;
图4为本申请实施例提供的一种分类模型的训练方法的流程图;
图5为本申请实施例提供的一种汉字识别模型的训练方法的流程图;
图6为本申请实施例提供的一种字符识别模型的训练方法的流程图;
图7为本申请实施例提供的一种CRF模型的训练方法的流程图;
图8为本申请实施例提供的一种医疗单据识别装置的结构示意图。
具体实施方式
在医疗领域,常常需要对医疗单据中的信息进行结构化的存储,以方便减索和查找。为此,需要对医疗单据图像进行识别,提取医疗单据中的信息。传统的OCR技术在医疗领域应用并不成熟,对医疗单据图像识别准确度欠佳,因而难以将医疗单据中的结构化信息提取出来,影响了对医疗单据资料的存储和检索。
医疗单据包括化验单、药品清单以及处方单等等。本申请以化验单作为示例对本申请的技术方案进行说明,应当理解,这些示例并不够成对本申请技术方案的限定。
化验单中包括化验项、化验项对应的指标数值、参考范围、单位等等信息。其中,化验项名称存在不常见的专业医疗词汇和中英结合,化验单上的单位、范围以及对结果高低的提示等含有大量特殊符号,这些都影响常规OCR技术对化验单的识别。
有鉴于此,本申请实施例提供了一种医疗单据识别方法,包括获取医疗单据图像,对医疗单据图像按照词块进行切割得到各个词块图像,对各个词块图像进行分类,得到各个词块图像的分类结果,若词块图像的分类结果为汉字,则将词块图像输入预先训练的汉字识别模型,得到汉字识别结果,若词块图像的分类结果为字符,则词块图像切割得到字符块图像,并将字符块图像输入到预先训练的字符识别模型,得到字符识别结果,将汉字识别结果与字符识别结果逐行合并,对合并结果进行分词和标注,得到对应各分词结果的标注结果,可以根据标注结果获得识别结果。
与传统的OCR识别相比,本申请实施例中的汉字识别模型可以对汉字进行针对性识别,字符识别模型可以对单个字符进行针对识别,如此可以保证医疗单据中汉字和字符的识别准确率,因而基于汉字识别结果和字符识别结果合并进行分词和标注,并根据标注结果所获得的识别结果也相应地具有较高的准确率。
为了使本申请提供的医疗单据的识别方法更清楚,下面将结合附图对本申请的具体实现方式进行详细说明。
图1为为本申请实施例提供的一种医疗单据识别方法的流程图,参见图1,该方法包括:
S101:获取医疗单据图像,对所述医疗单据图像按照词块进行切割得到各个词块图像。
医疗单据图像是指医疗领域使用的单据对应的图像。医疗单据图像可以是化验单图像,可以是药品清单图像,也可以是处方单图像。
获取医疗单据图像可以有多种实现方式。在本申请实施例一些可能的实现方式中,可以通过扫描仪对医疗单据进行扫描得到医疗单据图像,也可以通过照相机对医疗单据进行拍摄得到医疗单据图像,还可以在生成医疗单据时另存为图像格式,从而得到医疗单据图像。
为了方便理解本申请的技术方案,本实施例以化验单图像进行示例性说明,其他医疗单据图像的处理方式可以参照化验单图像的处理方式,这里不再赘述。
可以理解,化验单本质上属于表单,而表单往往由词语构成。针对化验单图像,各个词语在图像中以块状进行显示,可以将各个词语所在的块称之为词块。需要说明,本实施例中的词语可以是汉字词语,也可以是汉字与英文字母的合成词,还可以是数字,或者是数字与字符的合成词。
在获得化验单图像后,可以按照词块对化验单图像进行切割得到词块图像。在化验单图像中,词块区域与非词块区域的灰度值存在明显的差异,词块区域灰度值更高,因此可以根据灰度值对化验单图像进行切割,得到词块图像。
在本申请实施例一些可能的实现方式中,可以按照如下步骤进行切割得到词块图像:
S1011:对所述医疗单据图像进行预处理,提取医疗单据表格区域。
可以理解,医疗单据中包括表格区域,也包括非表格区域。以化验单为例,除了中间的化验单表格区域,在表格区域上方还包括就诊人相关信息,表格区域下方还包括检验者相关信息。为了提取出与化验单相关信息,可以先将化验单表格区域提取出来。
基于此,可以对医疗单据图像进行预处理,例如,对所述医疗单据图像进行二值化,如此,可以对所述二值化图像进行边缘检测,并对所述边缘进行纵向膨胀处理,通过对膨胀后图像采用霍夫曼变换方法检测得到所述医疗单据的表格头尾两条横线,所述两条横线中间的区域即为医疗单据表格区域,从而实现医疗单据表格区域提取。
其中,检测所述医疗单据的表格头尾两条横线可以通过如下方式实现,具体的,可以利用霍夫曼变换方法检测到所有横向直线,然后对所述横向直线中的任意两条进行判断,如果存在两条横向直线交叉且距离相近,则将所述两条横向直线合并为一条横向直线,接着判断任意两条横向直线之间的纵向距离,将所述纵向距离最大的两条横向直线确定为医疗单据的表格头尾两条横线。
在有些情况下,可能存在表头表尾两条横线长短不一的情况,如果直接根据这两条横线提取表格区域,难以提取到完整的表格区域。基于此,可以在医疗单据的表格头尾两条横线的长度的差值大于或等于预设阈值时,将所述医疗单据的表格头尾两条横线中角度的较短的横线延长,直至与所述两条横线中较长的横线平齐;将延长后的横线与较长的横线中间的区域确定为医疗单据表格区域。
在本申请实施例一些可能的实现方式中,在检测到表格区域首尾两条横线后,还可以将膨胀后的图像旋转90°,利用利用霍夫曼变换方法检测旋转后的图像是否存在横线,以确定表格区域是否分为至少两列。若旋转后的图像中间检测到横线直线,则所述医疗单据表格区域至少被分为两列。
需要说明的是,对图像进行二值化处理,并结合霍夫曼变换方法提取医疗单据表格区域仅为本申请的一个示例,并不构成对本申请技术方案的限定。
S1012:对所述医疗单据表格区域进行切割,得到各个词块图像。
在提取到医疗单据表格区域后,可以对医疗表格区域进行切割,而不是对整个医疗单据图像进行切割,如此可以提高切割效率,并减小识别词块图像的计算量。
在本申请实施例一些可能的实现方式中,可以对所述医疗单据表格区域计算行的灰度和,得到行灰度直方图,根据所述行灰度直方图按行进行切割得到行切割图像;然后对切割后的行图像计算列的灰度和,得到列灰度直方图,根据所述列灰度直方图按列进行切割得到各个词块图像。
具体地,为了方便表述,以row_shadow表示行灰度直方图。设置行灰度阈值为30*255,逐像素判断若row_shadow[i-1]未超过行灰度阈值,而row_shadow[i]超过行灰度阈值,则标记i-3为行切割的起点;找到起点后,若row_shadow[i-2]和row_shadow[i-1]之和超过2倍行灰度阈值,且row_shadow[i]和row_shadow[i+1]之和低于2倍行灰度阈值,则标记i+2为行切割的终点。获得全部待切割行的起点终点后,排除距离小于12像素的起点终点对,按剩余的起点终点对进行切割,得到行切割图像。
对行切割图像计算列的灰度和,得到列灰度直方图,以col_shadow进行表示。设置列灰度阈值为2*255,逐像素判断,若col_shadow[i-1]未超过列灰度阈值,而col_shadow[i+width/200]超过列灰度阈值,其中width为表格区域的像素宽度,则标记i为列切割的起点;找到起点后,若col_shadow[i-width/200]至col_shadow[i]之和超过列灰度阈值,且col_shadow[i]至col_shadow[i+width/70]之和低于列灰度阈值,且i和起点距离大于8像素,则标记i为本次切割终点。在获得全部待切割块的起点和终点,根据起点和终点进行列切割,得到各词块图像。
S102:对所述各个词块图像进行分类,得到所述各个词块图像的分类结果。
在切割得到词块图像后,可以对各个词块图像进行分类,得到各个词块图像的分类结果。在本实施例中,若词块为汉字,汉字与英文字母组合,或者汉字与字符组合,则该词块图像的分类结果为汉字类型;若词块为字符,如数字、符号,英文单词或者其中任意两种的组合等,则该词块图像的分类为字符类型。通过将词块图像进行分类,可以分别对不同词块图像进行针对性地识别,如此可以提供识别准确率。
为了便于理解,下面结合具体示例对词块图像的分类结果进行说明。图2示出了一张化验单,在该化验单中,数字“1”构成了词块,该词块图像的分类结果为字符类型,“白细胞”构成了词块,该词块图像的分类结果为汉字类型,“3.5-9.5”构成了词块,该词块为数字和符号构成,因此,该词块图像的分类结果为字符类型,类似的,“红细胞分布宽度SD”也构成了词块,该词块为汉字与英文字母的组合,该词块图像的分类结果为汉字类型。
对上述各个词块图像进行分类有多种实现方式。在一些可能的实现方式中,可以利用预先训练的分类模型对所述各个词块图像进行分类。其中,分类模型可以为卷积神经网络模型。在图像处理领域,卷积神经网络模型由于局部连接、权值共享的特性,模型训练参数大大减小,进而减小了模型训练的难度,提高了模型训练效率,可以对卷积神经网络进行训练,得到分类模型,并将该分类模型应用于对词块图像进行分类。
与传统的分类方式相比,本实施例采用卷积神经网络模型训练得到的分类模型能够学习汉字以及字符的特征,通过大量的训练样本进行训练使得模型在对词块图像按汉字或字符进行分类时具有较高的准确率。
S103:若所述词块图像的分类结果为汉字类型,则将所述词块图像输入预先训练的汉字识别模型,得到汉字识别结果;若词块图像的分类结果为字符类型,则将所述词块图像切割得到字符块图像,并将所述字符块图像输入到预先训练的字符识别模型,得到字符识别结果。
在对词块图像进行分类后,可以根据分类结果对词块图像中的内容进行识别。具体的,若词块图像的分类结果为汉字类型,则将词块图像输入预先训练的汉字识别模型,得到汉字识别结果。若词块图像的分类结果为字符类型,则可以对词块图像中的字符进行识别。
在医疗领域,常用的字符主要用于表示数值和单位,其中,数值的组合方式可以是任意的,如果对字符类型的词块图像整体进行识别,需要较多的训练样本对模型进行训练。如果对单个字符进行识别,则仅需要将单个的数字、符号等作为训练样本对模型进行训练,而不需要对数字、符号的组合进行训练,如此,不仅可以节省训练模型的时间,提供训练模型的效率,而且训练得到的模型对字符具有较高的识别率。基于此,若词块图像的分类结果为字符类型,则可以将词块图像切割得到字符块图像,将字符块图像输入到预先训练的字符识别模型,得到字符识别结果。
为了便于理解,下面结合具体示例进行说明。
针对词块图像“白细胞”,其分类结果为汉字类型,将词块图像“白细胞”输入到预先训练的汉字识别模型,可以得到汉字识别结果为“白细胞”;针对词块图像“3.5-9.5”,对该词块图像进行切割,可以得到“3”、“.”、“5”、“-”、“9”、“.”和“5”等字符块图像,将这些字符块图像输入到预先训练的字符识别模型,可以得到与字符块图像对应的字符识别结果。
需要说明,词块图像所属类型为字符类型时,对词块图像切割得到字符块图像,可以参照对化验单图像切割得到词块图像的过程。在本申请实施例一些可能的实现方式中,可以计算词块图像的列的灰度和,得到灰度直方图,根据灰度直方图对词块图像进行切割得到词块图像中各字符对应的字符块图像。
具体的,对于字符类型的词块图像,计算列的灰度和,得到灰度直方图。为了方便表述,采用shadow进行表示,设置灰度阈值为1*255,逐像素判断,若shadow[i]超过灰度阈值则标记i为切割的起点,然后继续判断,若shadow[i]低于灰度阈值,则标记i为本次切割的终点。在获得全部待切割的起点和终点后,根据坐标切割得到各字符的字符块图像。
S104:将所述汉字识别结果与所述字符识别结果逐行合并,对合并结果进行分词和标注,得到对应各分词结果的标注结果,根据所述标注结果获得所述医疗单据图像的识别结果。
可以理解,上述步骤中所获取的汉字识别结果和字符识别结果只是将医疗单据中的汉字或字符抽取出来,由于采用了预先的汉字识别模型和字符识别模型分别进行识别,对于汉字和单个的字符具有较高的识别准确率。而单独的汉字识别结果或字符识别结果并不体现医疗单据所包含的信息,为了准确识别医疗单据中的结构化信息,可以将汉字识别结果与字符识别结果逐行合并,通过对合并结果进行分词和标注。在标注过程中,按照医疗单据的结构进行标注,根据标注结果可以确定被标注对象的结构信息,该结构信息可以作为医疗单据图像的识别结果。也就是说,根据标注结果可以获得医疗单据图像的识别结果。
以化验单图像为例,将第一行的汉字识别结果与字符识别结果合并,可以得到第一行对应的合并结果为“1白细胞5.623.5-9.510^9/L”,对该合并结果进行分词,具体为“1/白细胞/5.62/3.5-9.5/10^9/L”,可以得到分词结果为“1”、“白细胞”“5.62”、“3.5-9.5”和“10^9/L”,对上述分词结果进行标注,得到分词结果“白细胞”的标注结果为“项目”,分词结果“5.62”的标注结果为“结果”,分词结果“3.5-9.5”的标注结果为“范围”,分词结果“10^9/L”的标注结果为“单位”。类似的,可以按照相同的方式对第二行、第三行……第N行等分别进行合并,对各行的合并结果分别进行分词,并对各行的分词结果分别进行标注,得到各分词结果对应的标注结果,如对第7行合并得到合并结果为“7平均血红蛋白浓度312↓316-362g/L”,对第7行合并结果分词,具体为“7/平均血红蛋白浓度/312/↓/316-362/g/L”,得到分词结果分别为“7”、“平均血红蛋白浓度”、“312”、“↓”、“316-362”和“g/L”。对各个分词结果进行标注,可以得到“平均血红蛋白浓度”的标注结果为“项目”,“312”的标注结果为“结果”,“↓”的标注结果为“提示”,“316-362”的标注结果为“范围”,“g/L”的标注结果为“单位”。
需要说明,当医疗单据的表格区域存在多列时,并且列与列之间的结构相同或相似时,可以按照列对各行进行合并。例如,医疗单据的表格区域包含2列时,在进行行合并时,可以按照列对汉字识别结果与字符识别结果进行逐行合并。
下面结合具体示例进行说明。在图2所示的化验单中,对第1行进行合并时,可以分别合并左列和右列中的内容,如此可以得到2个合并结果,具体为“1白细胞5.623.5-9.510^9/L”和“17单核细胞计数0.400.1-0.610^9/L”。
由上可知,本申请实施例提供了一种医疗单据识别方法,包括获取医疗单据图像,对医疗单据图像进行切割得到各个词块图像,对各个词块图像进行分类,得到各个词块图像的分类结果,若词块图像的分类结果为汉字,则将词块图像输入预先训练的汉字识别模型,得到汉字识别结果,若词块图像的分类结果为字符,则词块图像切割得到字符块图像,并将字符块图像输入到预先训练的字符识别模型,得到字符识别结果,将汉字识别结果与字符识别结果逐行合并,对合并结果进行分词和标注,得到对应各分词结果的标注结果,可以根据标注结果获得识别结果。本申请实施例中的汉字识别模型可以对汉字进行针对性识别,字符识别模型可以对单个字符进行针对识别,如此可以保证医疗单据中汉字和字符的识别准确率,因而基于汉字识别结果和字符识别结果合并进行分词和标注,并根据标注结果所获得的识别结果也相应地具有较高的准确率。
在根据标注结果获得医疗单据图像的识别结果后,还可以根据识别结果对医疗单据进行表格化。具体的,可以将各行的分词结果按照标注结果填充到表格中,如针对第一行的合并结果对应的分词结果与标注结果,将第一行中的“项目”也即“白细胞”填充到表格的“项目”列中,类似的,将第一行中的“结果”也即“5.62”填充到表格的“结果”列中,具体填充过程可以参照第一行的填充过程,在此不再一一赘述。图3示出了对化验单图像的识别结果进行表格化的示意图,参见图3,可以获取各个项目对应的结果、范围、单位以及提示等信息。
由此可见,通过标注结果可以实现对医疗单据结构化信息提取,通过结构化的信息存储,可以提高对医疗单据资料的存储和检索效率,给医生诊断等带来帮助。
在上述实施例中,对词块图像进行分类是通过分类模型实现的,其中,分类模型可以通过对初始模型进行训练得到。下面结合附图,对本申请中分类模型的训练方法进行介绍。
图4所示为本申请实施例提供的一种分类模型的训练方法的流程图,参见图4,该方法包括:
S401:获取第一训练样本;所述第一训练样本包括对医疗单据图像进行切割得到的词块图像和所述词块图像对应的第一真实标签;所述第一真实标签表征所述词块图像的类别。
在机器学习领域,为了得到模型,常常需要获取样本数据进行训练。具体到本实施例,为了获得对词块图像进行分类的分类模型,可以首先获取包括词块图像以及词块图像对应的第一真实标签的第一训练样本。
词块图像已在上文进行说明,此处不再赘述。词块图像对应的第一真实标签是指该词块图像的真实类型,表征该词块图像的类别,即该词块图像实际为汉字类型还是字符类型。若该词块图像实际为汉字类型,则该词块图像的第一真实标签为汉字类型,若该词块图像实际为字符类型,则该词块图像的第一真实标签为字符类型。
例如,针对词块图像“白细胞”,其第一真实标签为汉字类型,针对词块图像“5.62”,其第一真实标签为“字符类型”,还需要说明的是,当词块图像为汉字夹杂少许字符或字符时,该词块图像的第一真实标签为“汉字类型”,以词块图像“红细胞分布宽度CV”作为示例,尽管该词块图像中也包括英文字母,但该词块图像的第一真实标签仍为“汉字类型”。
在本实施例中,第一训练样本可以从预先建立的第一训练样本的样本集中获取。其中,第一训练样本的样本集可以通过网络爬虫的方式,也可以通过人工采集的方式建立得到,本申请实施例对此不做限定。
S402:将所述第一训练样本输入第一初始模型,得到所述第一初始模型对所述第一训练样本的第一预测标签;所述第一初始模型为卷积神经网络模型。
在获取到第一训练样本后,可以利用第一训练样本对第一初始模型进行训练。由于本实施例中所要训练的模型为分类模型,而卷积神经网络模型由于局部连接、权值共享的特性,在模式识别或分类问题上具有天然的优势,因此可以采用卷积神经网络模型作为第一初始模型,通过对该卷积神经网络模型进行训练以得到分类模型。
利用第一训练样本对第一初始模型进行训练,具体包括将第一训练样本输入第一初始模型,得到第一初始模型对第一训练样本的第一预测标签,其中,第一预测标签是指第一初始模型对第一训练样本的标签的预测值。如,将某词块图像输入到第一初始模型,模型预测该词块图像为汉字,则第一预测标签即为“汉字类型”。
S403:根据所述第一真实标签和所述第一预测标签更新所述第一初始模型的模型参数。
根据第一真实标签和第一初始模型对第一训练样本所属类别预测得到的第一预测标签,可以确定第一初始模型预测的偏差程度,根据该偏差程度,可以对第一初始模型的参数进行优化。
在本申请实施例一些可能的实现方式中,可以根据第一真实标签和第一预测标签确定第一初始模型的损失函数,该损失函数能够表征模型预测的偏差程度,接着,可以根据损失函数更新第一初始模型的模型参数。其中,损失函数包括逻辑回归损失函数、对数损失函数等不同种类的损失函数,可以根据模型的实际需求选择对应的损失函数,例如可以采用交叉熵方法定义损失函数。在确定损失函数后,可以计算损失函数的梯度,利用梯度下降法等方法更新第一初始模型的模型参数,实现对第一初始模型的优化。
S404:若更新后的第一初始模型满足第一预设条件,则将更新后的第一初始模型确定为分类模型。
在训练模型的过程中,需要采用大量的训练样本进行迭代训练。具体到本实施例,采用大量的第一训练样本对第一初始模型进行迭代训练,相应地,第一初始模型的参数也会更新多次。在有些情况下,更新后的第一初始模型满足第一预设条件时,则可以将更新后的第一初始模型确定为分类模型。该分类模型可以用于对词块图像进行分类。
其中,第一预设条件是对第一初始模型进行评估、衡量的一种条件,作为一种可能的实现方式,第一预设条件可以是针对第一初始模型的损失函数的条件。更新后的第一初始模型满足预设条件,可以为更新后的第一初始模型的损失函数最小,当损失函数最小时,表明第一初始模型预测偏差程度达到最小,如此可将更新后的第一初始模型确定为分类模型。
以上为本申请实施例提供的一种分类模型的训练方法的具体实现方式,通过利用第一训练样本对第一初始模型进行训练,根据第一真实标签和第一预测标签更新第一初始模型的参数,当第一初始模型满足预设条件时,将其确定为分类模型。该分类模型采用了大量训练样本进行训练得到,在对词块图像进行识别时,能够充分利用学习词块图像的特征,根据这些特征能够较为准确地判断出词块图像所属类型,相较于传统分类方法具有较高的准确率。
在通过分类模型对词块图像进行分类后,还可以根据预先训练的汉字识别模型和字符识别模型对汉字类型的词块图像以及字符类型的词块图像进行识别。
首先,结合附图,对本申请实施例提供的汉字识别模型的训练方法进行介绍。
图5所示为本申请实施例提供的汉字识别模型的训练方法的流程图,参见图5,该方法包括:
S501:获取第二训练样本;所述第二训练样本包括对医疗单据图像进行切割得到的汉字词块图像和所述汉字词块图像对应的第二真实标签;所述第二真实标签表征所述汉字词块图像对应的汉字。
本实施例主要目的在于训练汉字识别模型,用于识别汉字词块图像。因此,用于训练汉字识别模型的训练样本包括对医疗单据图像进行切割得到的汉字词块图像。由于采用有监督学习方式,用于训练汉字识别模型的训练样本还包括汉字词块图像对应第二真实标签,该第二真实标签表征汉字词块图像对应的汉字。为了方便表述,可以将用于训练汉字识别模型的训练样本称为第二训练样本。
下面以图2的化验单作为示例进行说明。对图2的化验单图像进行切割,可以得到“白细胞”、“红细胞”、“血红蛋白”等汉字词块图像,针对以上各个词块图像,分别对应一个第二真实标签,其中,词块图像“白细胞”对应的第二真实标签为汉字“白细胞”,词块图像“红细胞”对应的第二真实标签为汉字“红细胞”,词块图像“白细胞”与汉字“白细胞”构成一个第二训练样本,词块图像“红细胞”与汉字“红细胞”也构成一个第二训练样本。
与第一训练样本的获取方式类似,第二训练样本也可以从预先建立的第二训练样本的样本集中获取。第二训练样本的样本集的建立可以参照第一训练样本的样本集。
S502:将所述第二训练样本输入第二初始模型,得到所述第二初始模型对所述第二训练样本的第二预测标签;所述第二初始模型为卷积神经网络模型。
在获取到第二训练样本后,可以利用第二训练样本对第二初始模型进行训练。由于本实施例中所要训练的模型为汉字识别模型,而卷积神经网络模型由于局部连接、权值共享的特性,在模式识别或分类问题上具有天然的优势,因此可以采用卷积神经网络模型作为第二初始模型,通过对该卷积神经网络模型进行训练以得到汉字识别模型。
利用第二训练样本对第二初始模型进行训练,具体包括将第二训练样本输入第二初始模型,得到第二初始模型对第二训练样本的第二预测标签,其中,第二预测标签是指第二初始模型对第二训练样本的标签的预测值。
S503:根据所述第二真实标签和所述第二预测标签更新所述第二初始模型的模型参数。
S504:若更新后的第二初始模型满足第二预设条件,则将更新后的第二初始模型确定为汉字识别模型。
其中,S503-S504的具体实现与S403-S404类似,可以利用第二真实标签和第二预测标签确定第二初始模型的损失函数,根据该损失函数更新第二初始模型的模型参数。当更新后的第二初始模型满足预设条件时,如第二初始模型的损失函数最小时,可以将第二初始模型确定为汉字识别模型。S603-S604的详细实现过程不再赘述。
以上为本申请实施例提供的一种汉字识别模型的训练方法的具体实现方式,通过利用第二训练样本对第二初始模型进行训练,根据第二真实标签和第二预测标签更新第二初始模型的参数,当第二初始模型满足预设条件时,将其确定为汉字识别模型。该汉字识别模型采用了大量关于汉字词块图像的训练样本进行训练得到,在对汉字词块图像进行识别时,能够充分利用学习汉字词块图像的特征,根据这些特征能够较为准确地判断出词块图像对应的标签,由于对汉字词块图像进行了针对性地识别,相较于传统识别方式具有较高的准确率。
接下来,结合附图对本申请实施例提供的一种字符识别模型的训练方法进行介绍。
图6所示为本申请实施例提供的字符识别模型的训练方法的流程图,参见图6,该方法包括:
S601:获取第三训练样本;所述第三训练样本包括对医疗单据图像中的字符词块图像切割得到的字符块图像和所述字符块图像对应的第三真实标签;所述第三真实标签表征所述字符块图像对应的字符。
第三训练样本为用于训练字符识别模型的训练样本。由于该模型是对医疗单据图像中的单个字符进行识别,故第三训练样本至少包括对对医疗单据图像中的字符词块图像切割得到的字符块图像。在本实施例中,采用有监督学习的方式训练模型,故,第三训练样本还包括与字符块图像对应的第三真实标签,该第三真实标签表征字符块图像对应的字符。
为了便于理解,结合图2的化验单图像进行说明。针对图2的化验单,字符词块图像包括“5.62”、“3.5-9.5”等,对这些字符块图像进行切割得到的字符块图像包括“5”、“.”、“6”、“2”以及“3”、“.”、“5”、“—”、“9”、“.”、“5”等,则可以将字符块图像“5”及其对应的字符“5”作为第三训练样本,类似的,字符块图像“.”及其对应的字符“.”也构成了第三训练样本。
获取第三训练样本的过程与获取第一训练样本、第二训练样本的过程类似,这里不再赘述。
S602:将所述第三训练样本输入第三初始模型,得到所述第三初始模型对所述第三训练样本的第三预测标签;所述第三初始模型为卷积神经网络模型。
在获取到第三训练样本后,可以利用第三训练样本对第三初始模型进行训练。由于本实施例中所要训练的模型为字符识别模型,而卷积神经网络模型由于局部连接、权值共享的特性,在模式识别或分类问题上具有天然的优势,因此可以采用卷积神经网络模型作为第三初始模型,通过对该卷积神经网络模型进行训练以得到字符识别模型。
利用第三训练样本对第三初始模型进行训练,具体包括将第三训练样本输入第三初始模型,得到第三初始模型对第三训练样本的第三预测标签,其中,第三预测标签是指第三初始模型对第三训练样本的标签的预测值。
S603:根据所述第三真实标签和所述第三预测标签更新所述第三初始模型的模型参数。
S604:若更新后的第三初始模型满足第三预设条件,则将更新后的第三初始模型确定为字符识别模型。
其中,S603-S604的具体实现与S403-S404以及S503-S504类似,可以利用第三真实标签和第三预测标签确定第三初始模型的损失函数,根据该损失函数更新第三初始模型的模型参数。当更新后的第三初始模型满足预设条件时,如第三初始模型的损失函数最小时,可以将第三初始模型确定为汉字识别模型。S603-S604的详细实现过程不再赘述。
以上为本申请实施例提供的一种字符识别模型的训练方法的具体实现方式,通过利用第三训练样本对第三初始模型进行训练,根据第三真实标签和第三预测标签更新第三初始模型的参数,当第三初始模型满足预设条件时,将其确定为汉字识别模型。该汉字识别模型采用了大量关于字符块图像的训练样本进行训练得到,在对字符块图像进行识别时,能够充分利用学习字符块图像的特征,根据这些特征能够较为准确地判断出字符块图像对应的标签,由于对字符块图像进行了针对性地识别,相较于传统识别方式具有较高的准确率。
在通过预先建立的汉字识别模型和字符识别模型对医疗单据中的汉字及字符分别进行识别后,可以将识别汉字识别结果以及字符识别结果按行合并,然后对合并结果进行分词和标注,从而实现对医疗单据的识别。
在本申请实施例一些可能的实现方式中,对合并结果进行分词和标注可以为利用预先训练的条件随机场算法(Conditional Random Field,CRF)模型对合并结果进行分词,得到分词结果,并对各分词结果进行标注,得到对应分词结果的标注结果。
其中,CRF模型可以通过设计特征模板,对特征模板进行训练得到。下面结合附图对本申请实施例提供的CRF模型的训练方法进行介绍。
图7所示为本申请实施例提供的字符识别模型的训练方法的流程图,参见图7,该方法包括:
S701:根据标注数据生成训练数据和测试数据;所述标注数据为对医疗单据的合并结果按照所属结构进行标注得到的数据。
本实施例主要目的在于训练CRF模型,而CRF模型的功能为分词和标注,因此用于训练CRF模型的数据样本包括医疗单据中行内容对应的分词结果及标注结果。为了方便表述,可以将训练CRF模型的数据样本称为标注数据。该标注数据为对医疗单据按照所属结构进行标注得到的数据。
为了便于理解,举例说明标注数据。针对图2的化验单,可以对第一行“1白细胞5.623.5-9.510^9/L”进行分词和标注,本实施例制定的结构化数据为化验项目、化验结果、范围、单位、高低,分别用字母代替,具体为化验项目-E、化验结果-A、范围-B、单位-C、高低-D、其他-O,则对第一行分词,可以为“1,白细胞,5.62,3.5-9.5,10^9/L”,其中“白细胞”标注为“项目”、“5.62”标注为“结果”、“3.5-9.5”标注为“范围”,“10^9/L”标注为“单位”,用字母标注即为“O,EEE,AAAA,BBBBBBB,CCCCCC”,如此,可以构成一组标注数据,类似的,可以对第二行内容进行标注,得到另一组标注数据。
在本实施例中,标注数据除了用于训练,还可以用于测试,因此,可以将标注数据分为训练数据和测试数据两类。也即根据标注数据生成训练数据和测试数据,其中,生成训练数据和测试数据可以根据需求进行生成,例如可以按照预设比例,如4:1,从标注数据中抽取训练数据,剩余的作为测试数据。
S702:利用所述训练数据对CRF特征模板进行训练得到初始CRF模型。
特征模板是用来配置特征的。在CRF特征模板中,使用的特征函数是已知的,模型训练的参数只是各特征的权重。由于医疗单据如化验单中包括的信息主要为项目、结果、范围、单位、提示等,不同医疗机构的医疗单据的版式可能略有不同,但总体框架是相同的,因此,在获取到医疗单据后,可以明确医疗单据的特征。
可以通过设计特征模板来训练模型,可以实现对医疗单据的分词及标注。作为一个示例,可以采用官方提供的template_chunking为模板,用训练数据训练得到初始CRF模型test_model。相较于基于深度学习进行分词和标注,基于特征模板的训练方法可以利用已知的特征,具有更高的训练效率。
需要说明,本步骤采用了训练数据CRF特征模板进行训练,训练得到的模型的为初始CRF模型,其准确率等指标有待检验。
S703:采用初始CRF模型对所述测试数据进行测试。
在获得初始CRF模型后,可以利用测试数据来测试初始CRF模型的性能。其中,初始CRF模型的性能可以从精确率、召回率、F1值(精确率和召回率的调和均值)等方面进行衡量。可以利用预先生成的测试数据计算初始CRF模型的精确率、召回率、F1值等参数。
S704:根据测试结果优化所述CRF特征模板,得到最优CRF特征模板。
在计算出初始CRF模型的精确率、召回率、F1值等参数后,可以根据精确率、召回率、F1值等,对初始CRF模型的特征模板进行优化,得到最优CRF特征模板。
S705:利用所述标注数据训练所述最优CRF特征模板,得到CRF模型。
在获得最优特征模板后,可以利用标注数据,包括训练数据和测试数据对最优CRF特征模板进行训练,得到CRF模型。该CRF模型可以对医疗单据的各行内容进行分词和标注,得到医疗单据的结构化信息。
如此,可以对汉字识别结构、字符识别结果进行区分,确定其所属结构。例如,可以确定其于化验项目、数值结果、参考范围、单位或提示,进而可以得到表格化的医疗单据。
以上为本申请实施例提供的一种CRF模型的训练方法,包括对医疗单据按照所属结构进行标注得到标注数据,根据标注数据生成训练数据和测试数据,利用所述训练数据对CRF特征模板进行训练得到初始CRF模型,采用初始CRF模型对所述测试数据进行测试,根据测试结果优化所述CRF特征模板,得到最优CRF特征模板,利用所述标注数据训练所述最优CRF特征模板,得到CRF模型。该方法可以有效利用医疗单据的结构特征,基于已知特征进行模型训练,具有较高的训练效率。并且,通过该方法训练出的CRF模型能够对医疗单据的表格内容进行分词,并对分词结果按照表格结构进行标注,可以实现信息结构化,通过该结构化的信息,可以将医疗单据表格化,以便用户存储和检索。
以上为本申请实施例提供的一种医疗单据识别方法的具体实现方式,基于此,本申请实施例还提供了一种医疗单据识别装置,下面从功能模块化的角度对本申请实施例提供的医疗单据识别装置进行介绍。
图8所示为本申请实施例提供的一种医疗单据识别装置的结构示意图,参照图8,该装置800包括:
获取单元810,用于获取医疗单据图像,对所述医疗单据图像按照词块进行切割得到各个词块图像;
分类单元820,用于对所述各个词块图像进行分类,得到所述各个词块图像的分类结果;
识别单元830,用于若所述词块图像的分类结果为汉字类型,则将所述词块图像输入预先训练的汉字识别模型,得到汉字识别结果;若词块图像的分类结果为字符类型,则将所述词块图像切割得到字符块图像,并将所述字符块图像输入到预先训练的字符识别模型,得到字符识别结果;
标注单元840,用于将所述汉字识别结果与所述字符识别结果逐行合并,对合并结果进行分词和标注,得到对应各分词结果的标注结果,根据所述标注结果获得所述医疗单据图像的识别结果。
可选的,所述分类单元820具体用于:
利用预先训练的分类模型对所述各个词块图像进行分类;所述分类模型为卷积神经网络模型。
可选的,所述分类模型通过如下方式训练得到:
获取第一训练样本;所述第一训练样本包括对医疗单据图像进行切割得到的词块图像和所述词块图像对应的第一真实标签;所述第一真实标签表征所述词块图像的类别;
将所述第一训练样本输入第一初始模型,得到所述第一初始模型对所述第一训练样本的第一预测标签;所述第一初始模型为卷积神经网络模型;
根据所述第一真实标签和所述第一预测标签更新所述第一初始模型的模型参数;
若更新后的第一初始模型满足第一预设条件,则将更新后的第一初始模型确定为分类模型。
可选的,所述根据所述第一真实标签和所述第一预测标签更新所述第一初始模型的模型参数包括:
根据所述第一真实标签和所述第一预测标签确定所述第一初始模型的损失函数;
根据所述损失函数更新所述第一初始模型的模型参数;
所述若更新后的第一初始模型满足预设条件,则将所述更新后的第一初始模型确定为分类模型包括:
若更新后的第一初始模型的损失函数最小,则将所述更新后的第一初始模型确定为分类模型。
可选的,所述汉字识别模型通过如下方式训练得到:
获取第二训练样本;所述第二训练样本包括对医疗单据图像进行切割得到的汉字词块图像和所述汉字词块图像对应的第二真实标签;所述第二真实标签表征所述汉字词块图像对应的汉字;
将所述第二训练样本输入第二初始模型,得到所述第二初始模型对所述第二训练样本的第二预测标签;所述第二初始模型为卷积神经网络模型;
根据所述第二真实标签和所述第二预测标签更新所述第二初始模型的模型参数;
若更新后的第二初始模型满足第二预设条件,则将更新后的第二初始模型确定为汉字识别模型。
可选的,所述字符识别模型通过如下方式训练得到:
获取第三训练样本;所述第三训练样本包括对医疗单据图像中的字符词块图像切割得到的字符块图像和所述字符块图像对应的第三真实标签;所述第三真实标签表征所述字符块图像对应的字符;
将所述第三训练样本输入第三初始模型,得到所述第三初始模型对所述第三训练样本的第三预测标签;所述第三初始模型为卷积神经网络模型;
根据所述第三真实标签和所述第三预测标签更新所述第三初始模型的模型参数;
若更新后的第三初始模型满足第三预设条件,则将更新后的第三初始模型确定为字符识别模型。
可选的,所述标注单元840具体用于:
利用预先训练的CRF模型对合并结果进行分词,得到分词结果,并对各分词结果进行标注,得到对应所述分词结果的标注结果。
可选的,所述CRF模型通过如下方法训练得到:
根据标注数据生成训练数据和测试数据;所述标注数据为对医疗单据的合并结果按照所属结构进行标注得到的数据;
利用所述训练数据对CRF特征模板进行训练得到初始CRF模型;
采用初始CRF模型对所述测试数据进行测试;
根据测试结果优化所述CRF特征模板,得到最优CRF特征模板;
利用所述标注数据训练所述最优CRF特征模板,得到CRF模型。
可选的,所述获取单元810包括:
提取子单元,用于对所述医疗单据图像进行预处理,提取医疗单据表格区域;
切割子单元,用于对所述医疗单据表格区域进行切割,得到各个词块图像。
可选的,所述提取子单元具体用于:
对所述医疗单据图像进行二值化,得到二值化图像;
对所述二值化图像进行边缘检测,并对所述边缘进行纵向膨胀处理;
对膨胀后图像采用霍夫曼变换方法检测得到所述医疗单据的表格头尾两条横线,所述两条横线中间的区域为医疗单据表格区域。
可选的,所述提取子单元具体用于:
利用霍夫曼变换方法检测到所有横向直线;
对所述横向直线中的任意两条进行判断,如果存在两条横向直线交叉且距离相近,则将所述两条横向直线合并为一条横向直线;
判断任意两条横向直线之间的纵向距离,将所述纵向距离最大的两条横向直线确定为医疗单据的表格头尾两条横线。
可选的,所述提取子单元还用于:
若所述医疗单据的表格头尾两条横线的长度的差值大于或等于预设阈值;
则将所述医疗单据的表格头尾两条横线中角度的较短的横线延长,直至与所述两条横线中较长的横线平齐;
将延长后的横线与较长的横线中间的区域确定为医疗单据表格区域。
可选的,所述提取子单元还用于:
将膨胀后的图像旋转90°,利用霍夫曼变换方法检测旋转后的图像;
若旋转后的图像中检测到横向直线,则所述医疗单据表格区域被分为至少两列;
则所述标注单元840具体用于:
按列对所述汉字识别结果与所述字符识别结果逐行合并。
可选的,所述获取单元810具体用于:
对所述医疗单据表格区域计算行的灰度和,得到行灰度直方图,根据所述行灰度直方图按行进行切割得到行切割图像;
对切割后的行图像计算列的灰度和,得到列灰度直方图,根据所述列灰度直方图按列进行切割得到各个词块图像。
可选的,所述装置还包括:
表格生成单元,用于根据所述识别结果,将所述医疗单据表格化。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文全称:Read-OnlyMemory,英文缩写:ROM)、随机存取存储器(英文全称:Random Access Memory,英文缩写:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
Claims (10)
1.一种医疗单据识别方法,其特征在于,所述方法包括:
获取医疗单据图像,对所述医疗单据图像按照词块进行切割得到各个词块图像;
对所述各个词块图像进行分类,得到所述各个词块图像的分类结果;
若所述词块图像的分类结果为汉字类型,则将所述词块图像输入预先训练的汉字识别模型,得到汉字识别结果;若词块图像的分类结果为字符类型,则将所述词块图像切割得到字符块图像,并将所述字符块图像输入到预先训练的字符识别模型,得到字符识别结果;
将所述汉字识别结果与所述字符识别结果逐行合并,对合并结果进行分词和标注,得到对应各分词结果的标注结果,根据所述标注结果获得所述医疗单据图像的识别结果。
2.根据权利要求1所述的方法,其特征在于,所述对所述各个词块图像进行分类包括:
利用预先训练的分类模型对所述各个词块图像进行分类;所述分类模型为卷积神经网络模型。
3.根据权利要求2所述的方法,其特征在于,所述分类模型通过如下方式训练得到:
获取第一训练样本;所述第一训练样本包括对医疗单据图像进行切割得到的词块图像和所述词块图像对应的第一真实标签;所述第一真实标签表征所述词块图像的类别;
将所述第一训练样本输入第一初始模型,得到所述第一初始模型对所述第一训练样本的第一预测标签;所述第一初始模型为卷积神经网络模型;
根据所述第一真实标签和所述第一预测标签更新所述第一初始模型的模型参数;
若更新后的第一初始模型满足第一预设条件,则将更新后的第一初始模型确定为分类模型。
4.根据权利要求3所述的方法,其特征在于,所述根据所述第一真实标签和所述第一预测标签更新所述第一初始模型的模型参数包括:
根据所述第一真实标签和所述第一预测标签确定所述第一初始模型的损失函数;
根据所述损失函数更新所述第一初始模型的模型参数;
所述若更新后的第一初始模型满足预设条件,则将所述更新后的第一初始模型确定为分类模型包括:
若更新后的第一初始模型的损失函数最小,则将所述更新后的第一初始模型确定为分类模型。
5.根据权利要求1到4任意一项所述的方法,其特征在于,所述汉字识别模型通过如下方式训练得到:
获取第二训练样本;所述第二训练样本包括对医疗单据图像进行切割得到的汉字词块图像和所述汉字词块图像对应的第二真实标签;所述第二真实标签表征所述汉字词块图像对应的汉字;
将所述第二训练样本输入第二初始模型,得到所述第二初始模型对所述第二训练样本的第二预测标签;所述第二初始模型为卷积神经网络模型;
根据所述第二真实标签和所述第二预测标签更新所述第二初始模型的模型参数;
若更新后的第二初始模型满足第二预设条件,则将更新后的第二初始模型确定为汉字识别模型。
6.根据权利要求1到4任意一项所述的方法,其特征在于,所述字符识别模型通过如下方式训练得到:
获取第三训练样本;所述第三训练样本包括对医疗单据图像中的字符词块图像切割得到的字符块图像和所述字符块图像对应的第三真实标签;所述第三真实标签表征所述字符块图像对应的字符;
将所述第三训练样本输入第三初始模型,得到所述第三初始模型对所述第三训练样本的第三预测标签;所述第三初始模型为卷积神经网络模型;
根据所述第三真实标签和所述第三预测标签更新所述第三初始模型的模型参数;
若更新后的第三初始模型满足第三预设条件,则将更新后的第三初始模型确定为字符识别模型。
7.根据权利要求1到4任意一项所述的方法,其特征在于,所述对合并结果进行分词和标注包括:
利用预先训练的CRF模型对合并结果进行分词,得到分词结果,并对各分词结果进行标注,得到对应所述分词结果的标注结果。
8.根据权利要求7所述的方法,其特征在于,所述CRF模型通过如下方法训练得到:
根据标注数据生成训练数据和测试数据;所述标注数据为对医疗单据的合并结果按照所属结构进行标注得到的数据;
利用所述训练数据对CRF特征模板进行训练得到初始CRF模型;
采用初始CRF模型对所述测试数据进行测试;
根据测试结果优化所述CRF特征模板,得到最优CRF特征模板;
利用所述标注数据训练所述最优CRF特征模板,得到CRF模型。
9.根据权利要求1到4任意一项所述的方法,其特征在于,所述方法还包括:
根据所述识别结果,将所述医疗单据表格化。
10.一种医疗单据识别装置,其特征在于,所述装置包括:
获取单元,用于获取医疗单据图像,对所述医疗单据图像按照词块进行切割得到各个词块图像;
分类单元,用于对所述各个词块图像进行分类,得到所述各个词块图像的分类结果;
识别单元,用于若所述词块图像的分类结果为汉字类型,则将所述词块图像输入预先训练的汉字识别模型,得到汉字识别结果;若词块图像的分类结果为字符类型,则将所述词块图像切割得到字符块图像,并将所述字符块图像输入到预先训练的字符识别模型,得到字符识别结果;
标注单元,用于将所述汉字识别结果与所述字符识别结果逐行合并,对合并结果进行分词和标注,得到对应各分词结果的标注结果,根据所述标注结果获得所述医疗单据图像的识别结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810271810.9A CN110321760A (zh) | 2018-03-29 | 2018-03-29 | 一种医疗单据识别方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810271810.9A CN110321760A (zh) | 2018-03-29 | 2018-03-29 | 一种医疗单据识别方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110321760A true CN110321760A (zh) | 2019-10-11 |
Family
ID=68110909
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810271810.9A Pending CN110321760A (zh) | 2018-03-29 | 2018-03-29 | 一种医疗单据识别方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110321760A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111291726A (zh) * | 2020-03-12 | 2020-06-16 | 泰康保险集团股份有限公司 | 医疗票据分拣方法、装置、设备和介质 |
CN112115907A (zh) * | 2020-09-27 | 2020-12-22 | 北京捷通华声科技股份有限公司 | 固定版面证件结构化信息提取方法、装置、设备及介质 |
CN112364790A (zh) * | 2020-11-16 | 2021-02-12 | 中国民航大学 | 基于卷积神经网络的机场工作单信息识别方法及系统 |
CN112507909A (zh) * | 2020-12-15 | 2021-03-16 | 信号旗智能科技(上海)有限公司 | 基于ocr识别的单证数据提取方法、装置、设备及介质 |
CN112766248A (zh) * | 2021-04-09 | 2021-05-07 | 苏州艾隆科技股份有限公司 | 一种结构化处方图片识别方法及装置 |
CN113255583A (zh) * | 2021-06-21 | 2021-08-13 | 中国平安人寿保险股份有限公司 | 数据标注方法、装置、计算机设备和存储介质 |
CN113255566A (zh) * | 2021-06-11 | 2021-08-13 | 支付宝(杭州)信息技术有限公司 | 表格图像识别方法及装置 |
CN114429542A (zh) * | 2021-12-10 | 2022-05-03 | 北京航空航天大学 | 针对医疗化验单的结构化识别方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101697200A (zh) * | 2009-09-25 | 2010-04-21 | 华南理工大学 | 一种旋转无关的手写中文草书词组识别方法 |
CN105654072A (zh) * | 2016-03-24 | 2016-06-08 | 哈尔滨工业大学 | 一种低分辨率医疗票据图像的文字自动提取和识别系统与方法 |
CN105809170A (zh) * | 2016-03-04 | 2016-07-27 | 东软集团股份有限公司 | 字符识别方法和装置 |
CN107220648A (zh) * | 2017-04-11 | 2017-09-29 | 平安科技(深圳)有限公司 | 理赔单据的字符识别方法及服务器 |
CN107301414A (zh) * | 2017-06-23 | 2017-10-27 | 厦门商集企业咨询有限责任公司 | 一种自然场景图像中的中文定位、分割和识别方法 |
CN107491730A (zh) * | 2017-07-14 | 2017-12-19 | 浙江大学 | 一种基于图像处理的化验单识别方法 |
-
2018
- 2018-03-29 CN CN201810271810.9A patent/CN110321760A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101697200A (zh) * | 2009-09-25 | 2010-04-21 | 华南理工大学 | 一种旋转无关的手写中文草书词组识别方法 |
CN105809170A (zh) * | 2016-03-04 | 2016-07-27 | 东软集团股份有限公司 | 字符识别方法和装置 |
CN105654072A (zh) * | 2016-03-24 | 2016-06-08 | 哈尔滨工业大学 | 一种低分辨率医疗票据图像的文字自动提取和识别系统与方法 |
CN107220648A (zh) * | 2017-04-11 | 2017-09-29 | 平安科技(深圳)有限公司 | 理赔单据的字符识别方法及服务器 |
CN107301414A (zh) * | 2017-06-23 | 2017-10-27 | 厦门商集企业咨询有限责任公司 | 一种自然场景图像中的中文定位、分割和识别方法 |
CN107491730A (zh) * | 2017-07-14 | 2017-12-19 | 浙江大学 | 一种基于图像处理的化验单识别方法 |
Non-Patent Citations (6)
Title |
---|
中国中文信息学会: ""中文信息处理发展报告(2016) 第十七章 文字识别研究进展、现状及趋势"", 《中文信息处理发展报告(2016)》 * |
王璐: ""基于MATLAB的车牌识别系统研究"", 《中国优秀硕士学位论文全文数据库·信息科技辑》 * |
王耀南等著: "《计算机图像处理与识别技术》", 30 June 2001, 北京:高等教育出版社 * |
裔隽等著: "《Python机器学习实战》", 31 January 2018, 北京:科学技术文献出版社 * |
陈鄞主编: "《自然语言处理基本理论和方法》", 31 August 2013, 哈尔滨:哈尔滨工业大学出版社 * |
龙从军等著: "《藏文自动分词的理论与方法研究》", 31 March 2016, 北京:知识产权出版社 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111291726A (zh) * | 2020-03-12 | 2020-06-16 | 泰康保险集团股份有限公司 | 医疗票据分拣方法、装置、设备和介质 |
CN111291726B (zh) * | 2020-03-12 | 2023-08-08 | 泰康保险集团股份有限公司 | 医疗票据分拣方法、装置、设备和介质 |
CN112115907A (zh) * | 2020-09-27 | 2020-12-22 | 北京捷通华声科技股份有限公司 | 固定版面证件结构化信息提取方法、装置、设备及介质 |
CN112364790A (zh) * | 2020-11-16 | 2021-02-12 | 中国民航大学 | 基于卷积神经网络的机场工作单信息识别方法及系统 |
CN112364790B (zh) * | 2020-11-16 | 2022-10-25 | 中国民航大学 | 基于卷积神经网络的机场工作单信息识别方法及系统 |
CN112507909A (zh) * | 2020-12-15 | 2021-03-16 | 信号旗智能科技(上海)有限公司 | 基于ocr识别的单证数据提取方法、装置、设备及介质 |
CN112766248A (zh) * | 2021-04-09 | 2021-05-07 | 苏州艾隆科技股份有限公司 | 一种结构化处方图片识别方法及装置 |
CN113255566A (zh) * | 2021-06-11 | 2021-08-13 | 支付宝(杭州)信息技术有限公司 | 表格图像识别方法及装置 |
CN113255583A (zh) * | 2021-06-21 | 2021-08-13 | 中国平安人寿保险股份有限公司 | 数据标注方法、装置、计算机设备和存储介质 |
CN113255583B (zh) * | 2021-06-21 | 2023-02-03 | 中国平安人寿保险股份有限公司 | 数据标注方法、装置、计算机设备和存储介质 |
CN114429542A (zh) * | 2021-12-10 | 2022-05-03 | 北京航空航天大学 | 针对医疗化验单的结构化识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110321760A (zh) | 一种医疗单据识别方法和装置 | |
CN111753767B (zh) | 一种作业自动批改的方法、装置、电子设备和存储介质 | |
CN109086756B (zh) | 一种基于深度神经网络的文本检测分析方法、装置及设备 | |
CN107463658B (zh) | 文本分类方法及装置 | |
CN112185520B (zh) | 一种医疗病理报告图片的文本结构化处理系统和方法 | |
US10963685B2 (en) | Generating variations of a known shred | |
US20220237230A1 (en) | System and method for automated file reporting | |
CN109376796A (zh) | 基于主动半监督学习的图像分类方法 | |
JP2005182730A (ja) | ドキュメントの自動分離 | |
US20170076152A1 (en) | Determining a text string based on visual features of a shred | |
CN109213866A (zh) | 一种基于深度学习的税务商品编码分类方法和系统 | |
CN114663904A (zh) | 一种pdf文档布局检测方法、装置、设备及介质 | |
CN112036295A (zh) | 票据图像处理方法、装置、存储介质及电子设备 | |
CN110457471A (zh) | 基于A-BiLSTM神经网络的文本分类方法和装置 | |
CN114065848A (zh) | 一种基于预训练情感嵌入的中文方面级别情感分类方法 | |
CN117831698B (zh) | 用于护理病历的智能质量控制系统及方法 | |
CN105938547B (zh) | 一种纸质水文年鉴数字化方法 | |
CN112784601B (zh) | 关键信息提取方法、装置、电子设备和存储介质 | |
CN104899551B (zh) | 一种表单图像分类方法 | |
CN109657710B (zh) | 数据筛选方法、装置、服务器及存储介质 | |
CN115357718B (zh) | 主题集成服务重复材料发现方法、系统、设备和存储介质 | |
US20230023636A1 (en) | Methods and systems for preparing unstructured data for statistical analysis using electronic characters | |
CN112560849B (zh) | 基于神经网络算法的文理分割方法及系统 | |
CN113361584B (zh) | 模型训练的方法及装置、肺动脉高压的测量方法及装置 | |
JP2004171316A (ja) | Ocr装置及び文書検索システム及び文書検索プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191011 |