CN111090990B - 一种医疗体检报告单文字识别及纠正方法 - Google Patents

一种医疗体检报告单文字识别及纠正方法 Download PDF

Info

Publication number
CN111090990B
CN111090990B CN201911258459.0A CN201911258459A CN111090990B CN 111090990 B CN111090990 B CN 111090990B CN 201911258459 A CN201911258459 A CN 201911258459A CN 111090990 B CN111090990 B CN 111090990B
Authority
CN
China
Prior art keywords
text
text boxes
boxes
medical
box
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911258459.0A
Other languages
English (en)
Other versions
CN111090990A (zh
Inventor
杨青川
宋滢滢
夏惟德
何帆
周振
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Power Health Cloud Technology Co ltd
Original Assignee
China Power Health Cloud Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Power Health Cloud Technology Co ltd filed Critical China Power Health Cloud Technology Co ltd
Priority to CN201911258459.0A priority Critical patent/CN111090990B/zh
Publication of CN111090990A publication Critical patent/CN111090990A/zh
Application granted granted Critical
Publication of CN111090990B publication Critical patent/CN111090990B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/158Segmentation of character regions using character size, text spacings or pitch estimation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H15/00ICT specially adapted for medical reports, e.g. generation or transmission thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Primary Health Care (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种医疗体检报告单文字识别及纠正方法,涉及文字识别技术领域,本发明包括对医疗体检报告单图像进行文本检测,得到多个第一文本框;对不符合预设高宽比条件的第一文本框进行删除,对剩下的第一文本框进行合并,得到多个第二文本框;将符合预设横向距离的两第二文本框按列合并,得到多个列文本框;判断第二文本框的行数和列数;将第二文本框中包含的文字进行截图,记录每一小图在大图中的位置;利用训练好的CRNN对大图进行文字识别,得到文字识别结果和文字检测定位结果,将文字识别结果添加到数据表的相应位置,输入到Excel中;利用NLP技术对Excel中的文字进行纠正,得到最终识别报告单,本发明具有识别准确率高,表格格式还原度高的优点。

Description

一种医疗体检报告单文字识别及纠正方法
技术领域
本发明涉及文字识别技术领域,更具体的是涉及一种医疗体检报告单文字识别及纠正方法。
背景技术
随着科学技术的进步,医疗领域也在逐渐走向数字化,许多医疗体检报告单是通过纸质形式进行存储的,这就意味着不同医院之间的患者病例数据是独立的,不利于各医院间的信息交互,因此,如何实现表格文字识别,使得纸质的医疗体检报告单数字化很有必要。
目前,市面上存在一些表格文字识别APP,通过透视变换对医疗体检报告单图像进行矫正,再经过相关处理识别出文本框中的文字并输出Excel,但是这类APP无法定位所有文本框,并且文字识别错误率极高,也并不能有效地按格式将图片表格输入Excel中。
发明内容
本发明的目的在于:为了解决现有的表格文字识别APP无法定位所有文本框,并且文字识别错误率极高的问题,本发明提供一种医疗体检报告单文字识别及纠正方法。
本发明为了实现上述目的具体采用以下技术方案:
一种医疗体检报告单文字识别及纠正方法,包括:
S1:拍摄医疗体检报告单,对其进行内容提取及透视变换,得到医疗体检报告单图像;
S2:采用PSE Net技术对医疗体检报告单图像进行文本检测,得到多个第一文本框;
S3:根据每个第一文本框的高宽比对不符合预设高宽比条件的第一文本框进行删除,根据每两第一文本框的横向间距和纵向间距对剩下的第一文本框进行合并,得到多个第二文本框;
S4:根据第二文本框之间的横向距离,将符合预设横向距离的两第二文本框按列合并,得到多个列文本框;
S5:根据预设的行判断条件判断第二文本框的行数,同时,根据预设的列判断条件判断当前第二文本框属于的列文本框,得到第二文本框的列数;
S6:将第二文本框中包含的文字按小图形式进行截图,按顺序保存到同一张大图中,并记录每一小图在大图中的位置;
S7:利用训练好的CRNN对大图进行文字识别,得到的识别结果包括文字识别结果和文字检测定位结果,将S6中记录的位置与文字检测定位结果进行比对,将对应的文字识别结果添加到数据表的相应位置,然后将数据表中的文字输入到Excel中;
S8:利用NLP技术对Excel中的文字进行纠正,得到最终识别报告单。
进一步的,所述S3中,预设高宽比条件为第一文本框的高/宽小于等于2。
进一步的,所述S3中,根据每两第一文本框的横向间距和纵向间距对剩下的第一文本框进行合并,得到第二文本框,具体为:取所有第一文本框的高度的中位数作为一个字节长宽,若两第一文本框的横向间距小于1倍字节长宽并且纵向间距小于0.5倍字节长宽,则合并两第一文本框,得到第二文本框。
进一步的,所述S4中,将符合预设横向距离的两第二文本框按列合并,得到多个列文本框,具体为:若两第二文本框的横向距离小于2.5倍字节长宽,则判断两第二文本框为一列合并为大框,遍历所有的第二文本框,即得到多个列文本框。
进一步的,所述S5具体为:
S5.1:设第二文本框分别为box1,box2,...,boxn,其中n为第二文本框个数,boxn(xn,yn,wn,hn),x和y分别是对应的第二文本框的左上角的横坐标和纵坐标,w和h分别是对应的第二文本框的宽度和高度,将n个第二文本框按纵坐标升序排列;
S5.2:定义每一行的上边界y_top为该行第一个第二文本框的y,每一行的下边界y_bottom为该行第一个第二文本框的y+h,若上边界y_top和下边界y_bottom与下一个第二文本框的y和y+h的差分别小于1.5倍字节长宽,或下一个第二文本框的中心(y+y+h)/2与上边界和下边界的中心(y_top+y_bottom)/2的间距小于0.5倍字节长宽,则判断两第二文本框属于同一行,得到第二文本框的行数;
若判断为不属于同一行,则更新上边界y_top和下边界y_bottom为下一行的第一个第二文本框的y和y+h;
S5.3:若第二文本框在列文本框的右侧且左间距不超过2.5倍字节长宽,则判断该第二文本框属于的该列文本框,得到第二文本框的列数;
S5.4:将第二文本框的行数和列数存储为str格式。
进一步的,所述S7中,将S6中记录的位置与文字检测定位结果进行比对,将对应的文字识别结果添加到数据表的相应位置,具体为:若文字检测定位结果与记录的位置一致,且定位处有文字识别结果,则将文字识别结果添加到DataFrame的对应位置中,否则将not_readable添加到DataFrame的对应位置中。
进一步的,所述S8具体为:
S8.1:准备数据源,将医疗体检报告单中出现的各类实体名称、检查数据格式和检查结果文本结构化后整理入知识库,所述知识库为三元关系组,包括检查项、关系和数值结果;
S8.2:基于相似度对检测出的实体名称进行纠正;
S8.3:对数值结果进行纠正;
S8.4:基于BERT-BiLSTM-CRF神经网络和相似度对结构化后的检查结果文本进行修正,得到最终识别报告单。
进一步的,所述7.2具体为:所述实体名称包括检查项题目,寻找检查项题目,将其与知识库中的各实体名称进行匹配,计算两者的编辑距离,比较相似度,输出相似度最高的匹配结果对检查项题目进行修正。
进一步的,所述S8.3具体为:对于数值结果的数据格式,根据数据格式的特殊字符和数据格式所对应的实体名称与知识库中的数据格式进行匹配;对于数值结果的数字,通过图像比对的方法,将识别出的数字与输入的数字进行图像相似度计算,若相似度低于阈值,则计算该数字与0-9数字之间的相似度,输出最高相似度对应的数字作为结果。
进一步的,所述S8.4具体为:
S8.4.1:准备训练数据,选择一段自然语言文本,其中包括医学实体和实体间的关系,所述关系与知识库的三元关系组相同,并标注将该段自然语言文本中的医学实体和实体间的关系;
S8.4.2:将训练数据通过字符编码方式转换成编码向量,训练BERT-BiLSTM-CRF神经网络,实现对自然语言文本的自动医学实体的识别;
S8.4.3:将识别出的医学实体与知识库中的实体名称相匹配,计算编辑距离并比较相似度,输出相似度最高的匹配结果对自然语言文本中的医学实体进行修正;
S8.4.4:基于训练好的BERT-BiLSTM-CRF神经网络对结构化后的检查结果文本进行自动医学实体标注,然后通过S8.4.3完成纠正。
本发明的有益效果如下:
1、本发明通过对医疗体检报告单图像进行版面分析,有效地对医疗体检报告单图像的文本框及表格进行分割,使得输出的最终识别报告单与医疗体检报告单图像表格一致,且通过NLP技术进行文字纠正,确保了文字识别正确率,取得了精确的文字识别效果。
附图说明
图1是本发明具体实施方式含有第一文本框的医疗体检报告单图像示意图。
图2是本发明具体实施方式含有第二文本框的医疗体检报告单图像示意图。
图3是本发明具体实施方式含有列文本框的医疗体检报告单图像示意图。
具体实施方式
为了本技术领域的人员更好的理解本发明,下面结合附图和以下实施例对本发明作进一步详细描述。
实施例1
本实施例提供一种医疗体检报告单文字识别及纠正方法,包括:
S1:拍摄医疗体检报告单,对其进行内容提取及透视变换,得到医疗体检报告单图像,具体的:
拍摄具有各种背景信息的原始医疗体检报告单照片,对原始医疗体检报告单照片的内容区域标记为1,背景区域标记为0,利用DeepLab-V3Plus+CRF技术训练语义分割神经网络,使得语义分割神经网络能够准确提取原始医疗体检报告单照片内容区域,利用语义分割神经网络分割出原始医疗体检报告单的内容区域后,通过分割出的内容区域的位置信息做透视变换,对内容区域进行矫正,将倾斜的内容区域摆正,并且将倾斜变形的文字矫正,得到医疗体检报告单图像;
S2:采用PSE Net技术对医疗体检报告单图像进行文本检测,得到如图1所示的多个第一文本框;
S3:根据每个第一文本框的高宽比对不符合预设高宽比条件的第一文本框进行删除,由于一个文字的高宽比接近1:1且表格中的文字皆是横向排列的,因此本实施例中预设高宽比条件为第一文本框的高/宽小于等于2,根据每两第一文本框的横向间距和纵向间距对剩下的第一文本框进行合并,得到如图2所示的多个第二文本框,具体的:
由于中位数受极大极小值的影响较小,因为为了确保方法的稳定性和普适性,本实施例取所有第一文本框的高度的中位数作为一个字节长宽,若两第一文本框的横向间距小于1倍字节长宽并且纵向间距小于0.5倍字节长宽,则合并两第一文本框,得到第二文本框;
S4:根据第二文本框之间的横向距离,将符合预设横向距离的两第二文本框按列合并,得到如图3所示的多个列文本框,具体的:若两第二文本框的横向距离小于2.5倍字节长宽,则判断两第二文本框为一列合并为大框,遍历所有的第二文本框,即得到多个列文本框;
S5:根据预设的行判断条件判断第二文本框的行数,同时,根据预设的列判断条件判断当前第二文本框属于的列文本框,得到第二文本框的列数,具体的:
S5.1:设第二文本框分别为box1,box2,...,boxn,其中n为第二文本框个数,boxn(xn,yn,wn,hn),x和y分别是对应的第二文本框的左上角的横坐标和纵坐标,w和h分别是对应的第二文本框的宽度和高度,将n个第二文本框按纵坐标升序排列;
S5.2:定义每一行的上边界y_top为该行第一个第二文本框的y,每一行的下边界y_bottom为该行第一个第二文本框的y+h,若上边界y_top和下边界y_bottom与下一个第二文本框的y和y+h的差分别小于1.5倍字节长宽,或下一个第二文本框的中心(y+y+h)/2与上边界和下边界的中心(y_top+y_bottom)/2的间距小于0.5倍字节长宽,则判断两第二文本框属于同一行,得到第二文本框的行数;
若判断为不属于同一行,则更新上边界y_top和下边界y_bottom为下一行的第一个第二文本框的y和y+h;
S5.3:若第二文本框在列文本框的右侧且左间距不超过2.5倍字节长宽,则判断该第二文本框属于的该列文本框,得到第二文本框的列数;
S5.4:将第二文本框的行数和列数存储为str格式,如“1405”代表第十五行第六列;
S6:将第二文本框中包含的文字按小图形式进行截图,按顺序保存到同一张大图中,本实施例中该大图的大小为4096*4096,并记录每一小图在大图中的位置,此处所记录的位置的表达方式与S5.1中第二文本框的表达方式一致;
S7:利用训练好的CRNN对大图进行文字识别,得到的识别结果包括文字识别结果和文字检测定位结果,将S6中记录的位置与文字检测定位结果进行比对,将对应的文字识别结果添加到数据表的相应位置,然后将数据表中的文字输入到Excel中,具体的:
若文字检测定位结果与记录的位置一致,且定位处有文字识别结果,则将文字识别结果添加到DataFrame的对应位置中,否则将not_readable添加到DataFrame的对应位置中;
S8:利用NLP技术对Excel中的文字进行纠正,得到如表一所示的最终识别报告单;
所述S8具体为:
S8.1:准备数据源,将医疗体检报告单中出现的各类实体名称(如“淋巴细胞百分率”、“中间细胞百分值”等体检表格中的题目,每一个检查项都是一个实体名称;体检报告里医生总结病情的文段中也会出现医疗相关名词,这些都是实体名称)、检查数据格式和检查结果文本结构化后整理入知识库,所述知识库为三元关系组,包括检查项、关系和数值结果,如:血小板计数(检查项)-检查结果(关系)-190(数值结果);血液分析(检查项)-包含(关系)-白细胞计数(检查项);
S8.2:基于相似度对检测出的实体名称进行纠正,所述实体名称包括检查项题目,寻找检查项题目,将其与知识库中的各实体名称进行匹配,计算两者的编辑距离,比较相似度,编辑距离最小的相似度最高,输出相似度最高的匹配结果对检查项题目进行修正,所述编辑距离是由其中一个词转换为另一个词所需要的最少单字符编辑操作次数;
S8.3:对数值结果进行纠正,对于数值结果的数据格式,根据数据格式的特殊字符和数据格式所对应的实体名称与知识库中的数据格式进行匹配,如“g/L”被识别成“g|L”;在识别结果表格中找到它所对应的题目为横:血红蛋白,竖:单位;根据知识库中的三元关系组知道血红蛋白的单位格式应该为“g/L”,对其进行纠正;
对于数值结果的数字,通过图像比对的方法,将识别出的数字与输入的数字进行图像相似度计算,若相似度低于阈值,则计算该数字与0-9数字之间的相似度,输出最高相似度对应的数字作为结果;
S8.4:基于BERT-BiLSTM-CRF神经网络和相似度对结构化后的检查结果文本进行修正,得到最终识别报告单,具体为:
S8.4.1:准备训练数据,选择一段自然语言文本,其中包括医学实体和实体间的关系,所述关系与知识库的三元关系组相同,并标注将该段自然语言文本中的医学实体和实体间的关系,如:“xxx血脂过高,要注意饮食清淡”中标注出“血脂过高(症状)-注意事项(关系)-饮食清淡(生活方式)”;
S8.4.2:将训练数据通过字符编码方式转换成编码向量,训练BERT-BiLSTM-CRF神经网络,实现对自然语言文本的自动医学实体的识别;
S8.4.3:将识别出的医学实体与知识库中的实体名称相匹配,计算编辑距离并比较相似度,输出相似度最高的匹配结果对自然语言文本中的医学实体进行修正;
S8.4.4:基于训练好的BERT-BiLSTM-CRF神经网络对结构化后的检查结果文本进行自动医学实体标注,然后通过S8.4.3完成纠正。
表一
值得注意的是,本实施例中对于高宽比的设定、字节长宽、横向间距、纵向间距以及横向距离等超参数的选择,均是可以根据实际情况进行调整的,本实施例仅是提供了其中一种参考选择,并不用以限制本发明。
以上所述,仅为本发明的较佳实施例,并不用以限制本发明,本发明的专利保护范围以权利要求书为准,凡是运用本发明的说明书及附图内容所作的等同结构变化,同理均应包含在本发明的保护范围内。

Claims (9)

1.一种医疗体检报告单文字识别及纠正方法,其特征在于,包括:
S1:拍摄医疗体检报告单,对其进行内容提取及透视变换,得到医疗体检报告单图像;
S2:采用PSE Net技术对医疗体检报告单图像进行文本检测,得到多个第一文本框;
S3:根据每个第一文本框的高宽比对不符合预设高宽比条件的第一文本框进行删除,根据每两第一文本框的横向间距和纵向间距对剩下的第一文本框进行合并,得到多个第二文本框;
S4:根据第二文本框之间的横向距离,将符合预设横向距离的两第二文本框按列合并,得到多个列文本框;
S5:根据预设的行判断条件判断第二文本框的行数,同时,根据预设的列判断条件判断当前第二文本框属于的列文本框,得到第二文本框的列数;
S6:将第二文本框中包含的文字按小图形式进行截图,按顺序保存到同一张大图中,并记录每一小图在大图中的位置;
S7:利用训练好的CRNN对大图进行文字识别,得到的识别结果包括文字识别结果和文字检测定位结果,将S6中记录的位置与文字检测定位结果进行比对,将对应的文字识别结果添加到数据表的相应位置,然后将数据表中的文字输入到Excel中;
S8:利用NLP技术对Excel中的文字进行纠正,得到最终识别报告单;
所述S5具体为:
S5.1:设第二文本框分别为box1,box2,...,boxn,其中n为第二文本框个数,boxn(xn,yn,wn,hn),x和y分别是对应的第二文本框的左上角的横坐标和纵坐标,w和h分别是对应的第二文本框的宽度和高度,将n个第二文本框按纵坐标升序排列;
S5.2:定义每一行的上边界y_top为该行第一个第二文本框的y,每一行的下边界y_bottom为该行第一个第二文本框的y+h,若上边界y_top和下边界y_bottom与下一个第二文本框的y和y+h的差分别小于1.5倍字节长宽,或下一个第二文本框的中心(y+y+h)/2与上边界和下边界的中心(y_top+y_bottom)/2的间距小于0.5倍字节长宽,则判断两第二文本框属于同一行,得到第二文本框的行数;
若判断为不属于同一行,则更新上边界y_top和下边界y_bottom为下一行的第一个第二文本框的y和y+h;
S5.3:若第二文本框在列文本框的右侧且左间距不超过2.5倍字节长宽,则判断该第二文本框属于的该列文本框,得到第二文本框的列数;
S5.4:将第二文本框的行数和列数存储为str格式。
2.根据权利要求1所述的一种医疗体检报告单文字识别及纠正方法,其特征在于,所述S3中,预设高宽比条件为第一文本框的高/宽小于等于2。
3.根据权利要求1所述的一种医疗体检报告单文字识别及纠正方法,其特征在于,所述S3中,根据每两第一文本框的横向间距和纵向间距对剩下的第一文本框进行合并,得到第二文本框,具体为:取所有第一文本框的高度的中位数作为一个字节长宽,若两第一文本框的横向间距小于1倍字节长宽并且纵向间距小于0.5倍字节长宽,则合并两第一文本框,得到第二文本框。
4.根据权利要求3所述的一种医疗体检报告单文字识别及纠正方法,其特征在于,所述S4中,将符合预设横向距离的两第二文本框按列合并,得到多个列文本框,具体为:若两第二文本框的横向距离小于2.5倍字节长宽,则判断两第二文本框为一列合并为大框,遍历所有的第二文本框,即得到多个列文本框。
5.根据权利要求1所述的一种医疗体检报告单文字识别及纠正方法,其特征在于,所述S7中,将S6中记录的位置与文字检测定位结果进行比对,将对应的文字识别结果添加到数据表的相应位置,具体为:若文字检测定位结果与记录的位置一致,且定位处有文字识别结果,则将文字识别结果添加到DataFrame的对应位置中,否则将not_readable添加到DataFrame的对应位置中。
6.根据权利要求1所述的一种医疗体检报告单文字识别及纠正方法,其特征在于,所述S8具体为:
S8.1:准备数据源,将医疗体检报告单中出现的各类实体名称、检查数据格式和检查结果文本结构化后整理入知识库,所述知识库为三元关系组,包括检查项、关系和数值结果;
S8.2:基于相似度对检测出的实体名称进行纠正;
S8.3:对数值结果进行纠正;
S8.4:基于BERT-BiLSTM-CRF神经网络和相似度对结构化后的检查结果文本进行修正,得到最终识别报告单。
7.根据权利要求6所述的一种医疗体检报告单文字识别及纠正方法,其特征在于,步骤S8.2具体为:所述实体名称包括检查项题目,寻找检查项题目,将其与知识库中的各实体名称进行匹配,计算两者的编辑距离,比较相似度,输出相似度最高的匹配结果对检查项题目进行修正。
8.根据权利要求6所述的一种医疗体检报告单文字识别及纠正方法,其特征在于,所述S8.3具体为:对于数值结果的数据格式,根据数据格式的特殊字符和数据格式所对应的实体名称与知识库中的数据格式进行匹配;对于数值结果的数字,通过图像比对的方法,将识别出的数字与输入的数字进行图像相似度计算,若相似度低于阈值,则计算该数字与0-9数字之间的相似度,输出最高相似度对应的数字作为结果。
9.根据权利要求6所述的一种医疗体检报告单文字识别及纠正方法,其特征在于,所述S8.4具体为:
S8.4.1:准备训练数据,选择一段自然语言文本,其中包括医学实体和实体间的关系,所述关系与知识库的三元关系组相同,并标注将该段自然语言文本中的医学实体和实体间的关系;
S8.4.2:将训练数据通过字符编码方式转换成编码向量,训练BERT-BiLSTM-CRF神经网络,实现对自然语言文本的自动医学实体的识别;
S8.4.3:将识别出的医学实体与知识库中的实体名称相匹配,计算编辑距离并比较相似度,输出相似度最高的匹配结果对自然语言文本中的医学实体进行修正;
S8.4.4:基于训练好的BERT-BiLSTM-CRF神经网络对结构化后的检查结果文本进行自动医学实体标注,然后通过S8.4.3完成纠正。
CN201911258459.0A 2019-12-10 2019-12-10 一种医疗体检报告单文字识别及纠正方法 Active CN111090990B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911258459.0A CN111090990B (zh) 2019-12-10 2019-12-10 一种医疗体检报告单文字识别及纠正方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911258459.0A CN111090990B (zh) 2019-12-10 2019-12-10 一种医疗体检报告单文字识别及纠正方法

Publications (2)

Publication Number Publication Date
CN111090990A CN111090990A (zh) 2020-05-01
CN111090990B true CN111090990B (zh) 2024-02-02

Family

ID=70394779

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911258459.0A Active CN111090990B (zh) 2019-12-10 2019-12-10 一种医疗体检报告单文字识别及纠正方法

Country Status (1)

Country Link
CN (1) CN111090990B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111680686B (zh) * 2020-06-08 2023-05-12 Oppo(重庆)智能科技有限公司 招牌信息识别方法、装置、终端及存储介质
CN111652176B (zh) * 2020-06-11 2024-05-21 商汤国际私人有限公司 信息提取方法、装置、设备及存储介质
CN112364857B (zh) * 2020-10-23 2024-04-26 中国平安人寿保险股份有限公司 基于数值抽取的图像识别方法、装置及存储介质
CN112115238B (zh) * 2020-10-29 2022-11-15 电子科技大学 一种基于bert和知识库的问答方法和系统
CN112396459A (zh) * 2020-11-19 2021-02-23 上海源慧信息科技股份有限公司 一种用于购物凭证核销的云审核方法
CN112686258A (zh) * 2020-12-10 2021-04-20 广州广电运通金融电子股份有限公司 体检报告信息结构化方法、装置、可读存储介质和终端
CN112990212A (zh) * 2021-02-05 2021-06-18 开放智能机器(上海)有限公司 热成像温度图的读数方法、装置、电子设备和存储介质
CN116882383A (zh) * 2023-07-26 2023-10-13 中信联合云科技有限责任公司 基于文本分析的数字化智能校对系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104915668A (zh) * 2015-05-29 2015-09-16 深圳泓数科技有限公司 医学影像中的文字信息识别方法及装置
CN106355177A (zh) * 2016-08-17 2017-01-25 天津德闻数据科技有限公司 一种医疗检验单的检验项信息自动提取方法
CN107808124A (zh) * 2017-10-09 2018-03-16 平安科技(深圳)有限公司 电子装置、医疗文本实体命名的识别方法及存储介质
CN109800749A (zh) * 2019-01-17 2019-05-24 湖南师范大学 一种文字识别方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090299977A1 (en) * 2008-05-28 2009-12-03 Siemens Medical Solutions Usa, Inc. Method for Automatic Labeling of Unstructured Data Fragments From Electronic Medical Records
US10509889B2 (en) * 2014-11-06 2019-12-17 ezDI, Inc. Data processing system and method for computer-assisted coding of natural language medical text

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104915668A (zh) * 2015-05-29 2015-09-16 深圳泓数科技有限公司 医学影像中的文字信息识别方法及装置
CN106355177A (zh) * 2016-08-17 2017-01-25 天津德闻数据科技有限公司 一种医疗检验单的检验项信息自动提取方法
CN107808124A (zh) * 2017-10-09 2018-03-16 平安科技(深圳)有限公司 电子装置、医疗文本实体命名的识别方法及存储介质
WO2019071661A1 (zh) * 2017-10-09 2019-04-18 平安科技(深圳)有限公司 电子装置、医疗文本实体命名的识别方法、系统及存储介质
CN109800749A (zh) * 2019-01-17 2019-05-24 湖南师范大学 一种文字识别方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Wenyuan Xue ; Qingyong Li ; Zhen Zhang ; Yulei Zhao ; Hao Wang. Table Analysis and Information Extraction for Medical Laboratory Reports.《2018 IEEE 16th Intl Conf on Dependable, Autonomic and Secure Computing, 16th Intl Conf on Pervasive Intelligence and Computing, 4th Intl Conf on Big Data Intelligence and Computing and Cyber Science and Technology Congress(DASC/PiCom/DataCom/CyberSciTech)》.2018,全文. *
邵文良.基于深度学习的医疗单据图文识别关键技术研究与实现.《中国优秀硕士学位论文全文数据库 信息科技辑》.2019,I138-1153页. *

Also Published As

Publication number Publication date
CN111090990A (zh) 2020-05-01

Similar Documents

Publication Publication Date Title
CN111090990B (zh) 一种医疗体检报告单文字识别及纠正方法
CN111259897B (zh) 知识感知的文本识别方法和系统
US8750616B2 (en) Character image extracting apparatus and character image extracting method
JP2004139484A (ja) 帳票処理装置、該装置実行のためのプログラム、及び、帳票書式作成プログラム
CN112434691A (zh) 基于智能解析识别的hs编码匹配、展示方法、系统及存储介质
CN112446351A (zh) 医疗票据智能识别系统解决方法
US20040139384A1 (en) Removal of extraneous text from electronic documents
CN101354727A (zh) 一种建立数字文档目录与正文之间链接的方法及装置
CN112434690A (zh) 动态解析文本图像特征现象的元素自动捕获理解方法、系统及存储介质
CN113962201A (zh) 一种单证的文本结构化与抽取方法
CN114023414A (zh) 一种体检报告多层次结构录入方法、系统以及存储介质
CN115953797A (zh) 表格识别、文档获取方法和存储介质
Wick et al. Staff, symbol and melody detection of medieval manuscripts written in square notation using deep fully convolutional networks
US20230394317A1 (en) System and method for text mining
JP2023510667A (ja) キャラクタ取得、ページ処理と知識グラフ構築方法及び装置、媒体
CN114429542A (zh) 针对医疗化验单的结构化识别方法
CN111783416B (zh) 一种利用先验知识构建文档图像数据集的方法
CN116343237A (zh) 基于深度学习和知识图谱的票据识别方法
CN113283231A (zh) 获取签章位的方法、设置系统、签章系统及存储介质
CN112818693A (zh) 一种电子元器件型号词的自动提取方法及系统
TWI285849B (en) Optical character recognition device, document searching system, and document searching program
JPH11232439A (ja) 文書画像構造解析方法
CN112560849B (zh) 基于神经网络算法的文理分割方法及系统
CN115376152A (zh) 一种流程图的查重方法
CN115050025A (zh) 基于公式识别的知识点抽取方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant