CN112364857A - 基于数值抽取的图像识别方法、装置及存储介质 - Google Patents
基于数值抽取的图像识别方法、装置及存储介质 Download PDFInfo
- Publication number
- CN112364857A CN112364857A CN202011152155.9A CN202011152155A CN112364857A CN 112364857 A CN112364857 A CN 112364857A CN 202011152155 A CN202011152155 A CN 202011152155A CN 112364857 A CN112364857 A CN 112364857A
- Authority
- CN
- China
- Prior art keywords
- text
- data
- structured
- field data
- value data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 47
- 238000000034 method Methods 0.000 title claims abstract description 45
- 239000012634 fragment Substances 0.000 claims abstract description 75
- 238000012163 sequencing technique Methods 0.000 claims abstract description 14
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 238000013507 mapping Methods 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 5
- 238000004422 calculation algorithm Methods 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 abstract description 11
- 238000012545 processing Methods 0.000 abstract description 5
- 239000008280 blood Substances 0.000 description 16
- 210000004369 blood Anatomy 0.000 description 16
- WQZGKKKJIJFFOK-GASJEMHNSA-N Glucose Natural products OC[C@H]1OC(O)[C@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-GASJEMHNSA-N 0.000 description 10
- 239000008103 glucose Substances 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 7
- 101100481876 Danio rerio pbk gene Proteins 0.000 description 6
- 101100481878 Mus musculus Pbk gene Proteins 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 4
- 238000012935 Averaging Methods 0.000 description 2
- 101100153581 Bacillus anthracis topX gene Proteins 0.000 description 2
- 101150041570 TOP1 gene Proteins 0.000 description 2
- 210000001015 abdomen Anatomy 0.000 description 2
- 238000009534 blood test Methods 0.000 description 2
- 238000009535 clinical urine test Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000008602 contraction Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 239000012528 membrane Substances 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000002040 relaxant effect Effects 0.000 description 2
- 101150035983 str1 gene Proteins 0.000 description 2
- 230000008961 swelling Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/08—Insurance
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Abstract
本发明涉及数据处理,揭露一种基于数值抽取的图像识别方法,包括:获取体检报告单图像,将体检报告单图像转换为多个片段文本并获取对应的文本坐标,将每个片段文本结构化得到多个结构化文本并按照文本坐标进行排列,通过预设的类型判别模型依次判断排列中的每个结构化文本所属的文本类型,根据文本类型逐一将结构化文本转换为字段数据和数值数据,识别字段数据和数值数据之间的关联关系,根据关联关系对字段数据和数值数据进行排序并输出到预设的数据表格中。本发明可应用于数字医疗领域,通过图像文本识别技术和预设的类型判别模型获取文档图像的关键信息,便于工作人员准确快速地获取文档图像中所需要的信息,提升了工作效率。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于数值抽取的图像识别方法、电子装置及计算机可读存储介质。
背景技术
目前,在医疗保险领域,保险公司为了判断一名客户是否能够投保医疗保险产品,首先需要得到客户详细的身体状况信息,该信息往往从客户的体检单中提取。当保险公司需要进行批量核保时,则需要根据大量客户的体检单图片进行信息录入。然而,据统计一份体检单的页数一般在10到20张左右,若通过人眼观察、手工录入获取客户详细的身体状况信息,将直接消耗大量的人力成本,同时可能存在大量的录入错误。而通过OCR技术识别体检单图像的文字信息时,容易出现大量无用的冗余重复信息,无法快速筛选出有用信息。
发明内容
鉴于以上内容,有必要提供一种基于数值抽取的图像识别方法,用于准确而高效地识别图像的文字信息,并从识别结果中获取所需信息。
本发明提供的基于数值抽取的图像识别方法,包括:
获取体检报告单图像,将所述体检报告单图像转换为多个片段文本,并获取每个片段文本在所述体检报告单图像中的文本坐标;
将所述每个片段文本结构化得到多个结构化文本,将所有结构化文本按照所述每个结构化文本对应的片段文本在所述体检报告单图像中的文本坐标进行排列;
通过预设的类型判别模型依次判断所述排列中的每个结构化文本所属的文本类型,根据每个结构化文本的文本类型逐一将所述结构化文本转换为字段数据和数值数据;
根据所述字段数据和数值数据对应的所述结构化文本在所述排列中的位置识别所述字段数据和数值数据之间的关联关系;
根据所述字段数据和数值数据之间的关联关系对所述字段数据和数值数据进行排序,将排序后的字段数据和数值数据输出到预设的数据表格中。
可选地,在将所述每个片段文本结构化得到多个结构化文本之前,该方法还包括:
对转换时出现错误的片段文本进行纠错。
可选地,所述将所述每个片段文本结构化得到多个结构化文本包括:
通过最小二乘图像复原算法将所述片段文本结构化得到结构化文本。
可选地,所述预设的类型判别模型为基于Xgboost+人工特征工程的判别模型。
可选地,所述结构化文本为按行排列的片段数据。
可选地,所述根据所述字段数据和数值数据对应的所述结构化文本在所述排列中的位置识别所述字段数据和数值数据之间的关联关系包括:
对所述排列中的一行片段数据从后向前逐一执行片段扫描,当扫描到被判别为数值数据的片段时继续向前扫描直至发现被判别为字段数据的片段,将同一行中所述被判别为字段数据的片段和所述被判别为数值数据的片段射为一组有关联关系的数据。
可选地,所述根据所述字段数据和数值数据之间的关联关系对所述字段数据和数值数据进行排序,将排序后的字段数据和数值数据输出到预设的数据表格中包括:
当得到一组有关联关系的数据后,根据数据对应的所述结构化文本的文本类型以及通过预设的类型判别模型计算获取的字段数据的关联特征,将该字段数据和关联的数值数据输出到预设的数据表格中对应的位置。
此外,为实现上述目的,本发明还提供一种电子装置,该电子装置包括:存储器、处理器,所述存储器上存储有可在所述处理器上运行的基于数值抽取的图像识别程序,所述基于数值抽取的图像识别程序被所述处理器执行时实现如下所述的基于数值抽取的图像识别方法的步骤:
获取体检报告单图像,将所述体检报告单图像转换为多个片段文本,并获取每个片段文本在所述体检报告单图像中的文本坐标;
将所述每个片段文本结构化得到多个结构化文本,将所有结构化文本按照所述每个结构化文本对应的片段文本在所述体检报告单图像中的文本坐标进行排列;
通过预设的类型判别模型依次判断所述排列中的每个结构化文本所属的文本类型,根据每个结构化文本的文本类型逐一将所述结构化文本转换为字段数据和数值数据;
根据所述字段数据和数值数据对应的所述结构化文本在所述排列中的位置识别所述字段数据和数值数据之间的关联关系;
根据所述字段数据和数值数据之间的关联关系对所述字段数据和数值数据进行排序,将排序后的字段数据和数值数据输出到预设的数据表格中。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有基于数值抽取的图像识别程序,所述基于数值抽取的图像识别程序可被一个或者多个处理器执行,以实现如下所述的基于数值抽取的图像识别方法的步骤:
获取体检报告单图像,将所述体检报告单图像转换为多个片段文本,并获取每个片段文本在所述体检报告单图像中的文本坐标;
将所述每个片段文本结构化得到多个结构化文本,将所有结构化文本按照所述每个结构化文本对应的片段文本在所述体检报告单图像中的文本坐标进行排列;
通过预设的类型判别模型依次判断所述排列中的每个结构化文本所属的文本类型,根据每个结构化文本的文本类型逐一将所述结构化文本转换为字段数据和数值数据;
根据所述字段数据和数值数据对应的所述结构化文本在所述排列中的位置识别所述字段数据和数值数据之间的关联关系;
根据所述字段数据和数值数据之间的关联关系对所述字段数据和数值数据进行排序,将排序后的字段数据和数值数据输出到预设的数据表格中。
此外,为实现上述目的,本发明还提供一种基于数值抽取的图像识别装置,该装置包括:
信息抽取模块,用于获取体检报告单图像,将所述体检报告单图像转换为多个片段文本,并获取每个片段文本在所述体检报告单图像中的文本坐标;
预处理模块,用于将所述每个片段文本结构化得到多个结构化文本,将所有结构化文本按照所述每个结构化文本对应的片段文本在所述体检报告单图像中的文本坐标进行排列;
数据转换模块,用于通过预设的类型判别模型依次判断所述排列中的每个结构化文本所属的文本类型,根据每个结构化文本的文本类型逐一将所述结构化文本转换为字段数据和数值数据;
关联映射模块,用于根据所述字段数据和数值数据对应的所述结构化文本在所述排列中的位置识别所述字段数据和数值数据之间的关联关系;
排序输出模块,用于根据所述字段数据和数值数据之间的关联关系对所述字段数据和数值数据进行排序,将排序后的字段数据和数值数据输出到预设的数据表格中。
相较现有技术,本发明通过图像识别技术将图像转换为片段文本并获取对应的文本坐标,对所述片段文本进行结构化得到结构化文本,采用预设的类型判别模型获取结构化文本对应的字段数据和数值数据,识别字段数据和数值数据之间的关联关系并进行排序得到输出数据。本发明通过图像文本识别技术和预设的类型判别模型获取文档图像的关键信息,便于工作人员准确快速地获取文档图像中所需要的信息,提升了工作效率。
附图说明
图1为本发明基于数值抽取的图像识别方法一实施例的流程图;
图2为本发明电子装置一实施例的示意图;
图3为本发明基于数值抽取的图像识别装置一实施例的模块示意图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
如图1所示,为本发明基于数值抽取的图像识别方法一实施例的流程图,该基于数值抽取的图像识别方法,包括步骤S1-S5。
S1、获取体检报告单图像,将所述体检报告单图像转换为多个片段文本,并获取每个片段文本在所述体检报告单图像中的文本坐标。
在一实施例中,通过OCR图像识别技术将所述体检报告单图像转换为多个片段文本,并获取每个片段文本在所述体检报告单图像中的文本坐标。具体地,所述图像识别技术将所述体检报告单图像识别为多个离散片段,每个离散片段包括一个片段文本和所述片段文本在所述体检报告单图像中的文本坐标。
S2、将所述每个片段文本结构化得到多个结构化文本,将所有结构化文本按照所述每个结构化文本对应的片段文本在所述体检报告单图像中的文本坐标进行排列。
在一实施例中,在将所述每个片段文本结构化得到多个结构化文本之前,还包括:对转换时出现错误的片段文本进行纠错。
在一实施例中,通过最小二乘图像复原算法将所述片段文本结构化得到结构化文本。
S3、通过预设的类型判别模型依次判断所述排列中的每个结构化文本所属的文本类型,根据每个结构化文本的文本类型逐一将所述结构化文本转换为字段数据和数值数据。
在一实施例中,所述预设的类型判别模型为基于人工特征工程的判别模型。
具体地,所述人工特征工程包括基础特征和关联特征。所述基础特征包括:
1)片段长度:即所述结构化文本字符个数;
2)片段中数字字符个数占比:即所述结构化文本数字字符个数/片段长度;
3)片段中中文字符个数占比:即所述结构化文本中文字符个数/片段长度;
4)片段中英文字符个数占比:即所述结构化文本英文字符个数/片段长度;
5)片段类别:使用“关键词+正则”判别所述结构化文本的片段类别。所述关键词包括但不限于“chineseValue”、“date”、“rangeValue”、“checkValue”、“idValue”、“other”。其中,“chineseValue”代表“无肿大”、“正常”、“齐”等文本类片段,通过正则匹配判断;“date”代表“2020-6-12”等日期类片段,采用正则匹配识别;“rangeValue”代表“0-1mol/L”等参考范围类片段,采用正则匹配识别;“checkValue”代表“6.02”、“6.0Z”、“6.0乙”、“1”、“]”等数值类片段,其中出现的中英文及特殊符号是ocr可能识别出的错误,因此采用规则识别,适当放宽条件提高覆盖范围;“idValue”代表保单号、用户号等id类型,如“XGZ000000001”等,与checkValue类似但受到字符数量限制。
6)字段别名表字符命中分数topK:
预设一份字段别名表词典,包含各个字段可能出现的不同说法,如“血糖”在不同医院的说法不同,可能包括“葡萄糖”、“空膜血糖”、“空腹血糖”等,以便于对各个字段尽可能全的不同专业名词进行识别。
对各个字段的别名按字符拆解,统计各字符在该字段的出现概率分数,针对“血糖”字段举例说明详细的计算方式如下:
将该字段的所有词按字符级别拆解,并分别统计字频,如“糖”字出现7次;统计该字段包含中文的别名个数,为7;计算“糖”字在“血糖”字段的出现概率分数,7/7=1.0;同理计算英文字符的出现概率分数,如“G”为3/3=1.0;
计算所述结构化文本在各个字段上的中、英文字符命中分数,以“空腹血糖”在字段“血糖”上的命中分数为例:分别得到“空”、“腹”、“血”、“糖”在该字段的出现概率分数;所有中文字符的分数相加/所述结构化文本中文字符数之和
同理计算所有字段上的命中分数,同时计算英文字符命中分数,选出topk作为命中分数特征;
7)字符串相似度分数top1:
找到所述结构化文本的中、英文命中分数topk所对应的字段:
字符串相似度需要遍历所有别名分别计算字符串编辑距离,耗时切浪费计算资源,因为我们只需跟最相关的几个字段计算字符串相似度即可;
遍历计算字符串相似度,选出top1,并记录top1所对应的字段;
字符串相似度计算公式为,其中edit代表编辑距离,len()代表字符个数,max()代表取最大的一个:
1-edit/max(len(str1),len(str2))
所述关联特征包括:
1)当前所述结构化文本与表头“项目名称”的x、y归一化距离:
通过当前图片字符所占像素点个数估算图片分辨率水平:距离归一化可以降低图片分辨率对特征计算的影响,比如一张高分辨率图片的某一个字符高度为25个像素点,当此图片收到压缩处理后(如截图),同样的字符高度可能降低为10个像素点。
计算当前图片所有片段(根据ocr输出,所有的识别片段只包含一行文本信息,不考虑ocr检测框伸缩带来的误差)在y轴上的高度,即一个字符高度在图片中占有的像素个数,再取平均作为当前图片的分辨率标准,并以此进行归一化。
从所述结构化文本向上逐行搜索表头,采用关键词正则匹配识别,找到“名称”、“结果”所在片段,分别计算与当前所述结构化文本的x、y归一化距离,不存在表头则置为空值。
2)加入所述结构化文本的上、下、左、右四个片段特征,作为关联特征,上下左右片段通过结构化输出得到。
本实施例中,所述预设的类型判别模型通过上述基础特征和关联特征判断所述结构化文本的类型,所述类型包括字段和数值。
S4、根据所述字段数据和数值数据对应的所述结构化文本在所述排列中的位置识别所述字段数据和数值数据之间的关联关系。
在一实施例中,所述结构化文本为按行排列的片段数据。
具体地,根据所述字段数据和数值数据对应的所述结构化文本在所述排列中的位置识别所述字段数据和数值数据之间的关联关系包括:对所述排列中的一行片段数据从后向前逐一执行片段扫描,当扫描到被判别为数值数据的片段时继续向前扫描直至发现被判别为字段数据的片段,将同一行中所述被判别为字段数据的片段和所述被判别为数值数据的片段射为一组有关联关系的数据。
S5、根据所述字段数据和数值数据之间的关联关系对所述字段数据和数值数据进行排序,将排序后的字段数据和数值数据输出到预设的数据表格中。
在一实施例中,当得到一组有关联关系的数据后,根据数据对应的所述结构化文本的文本类型以及通过预设的类型判别模型计算获取的字段数据的关联特征(例如定性或定量,以及血检或尿检),将该字段数据和关联的数值数据输出到预设的数据表格中对应的位置。
由上述实施例可知,本发明提出的基于数值抽取的图像识别方法,通过图像识别技术将图像转换为片段文本并获取对应的文本坐标,对所述片段文本进行结构化得到结构化文本,采用预设的类型判别模型获取结构化文本对应的字段数据和数值数据,识别字段数据和数值数据之间的关联关系并进行排序得到输出数据。本发明可应用于数字医疗领域,通过图像文本识别技术和预设的类型判别模型获取文档图像的关键信息,便于工作人员准确快速地获取文档图像中所需要的信息,提升了工作效率。
如图2所示,为本发明电子装置1一实施例的示意图。电子装置1是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。所述电子装置1可以是计算机、也可以是单个网络服务器、多个网络服务器组成的服务器组或者基于云计算的由大量主机或者网络服务器构成的云,其中云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。
在本实施例中,电子装置1包括,但不仅限于,可通过系统总线相互通信连接的存储器11、处理器12、网络接口13,该存储器11中存储有基于数值抽取的图像识别程序10,所述基于数值抽取的图像识别程序10可被所述处理器12执行。图1仅示出了具有组件11-13以及基于数值抽取的图像识别程序10的电子装置1,本领域技术人员可以理解的是,图1示出的结构并不构成对电子装置1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
其中,存储器11包括内存及至少一种类型的可读存储介质。内存为电子装置1的运行提供缓存;可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等的非易失性存储介质。在一些实施例中,可读存储介质可以是电子装置1的内部存储单元,例如该电子装置1的硬盘;在另一些实施例中,该非易失性存储介质也可以是电子装置1的外部存储设备,例如电子装置1上配备的插接式硬盘,智能存储卡(SmartMediaCard,SMC),安全数字(SecureDigital,SD)卡,闪存卡(FlashCard)等。本实施例中,存储器11的可读存储介质主要包括存储程序区和存储数据区,其中,存储程序区通常用于存储安装于电子装置1的操作系统和各类应用软件,例如存储本发明一实施例中的基于数值抽取的图像识别程序10的代码等;存储数据区可存储根据区块链节点的使用所创建的数据等,例如已经输出或者将要输出的各类数据。
处理器12在一些实施例中可以是中央处理器(CentralProcessingUnit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述电子装置1的总体操作,例如执行与其他设备进行数据交互或者通信相关的控制和处理等。本实施例中,所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据,例如运行基于数值抽取的图像识别程序10等。
网络接口13可包括无线网络接口或有线网络接口,该网络接口13用于在所述电子装置1与客户端(图中未画出)之间建立通信连接。
可选的,所述电子装置1还可以包括用户接口,用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。可选的,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(OrganicLight-EmittingDiode,OLED)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子装置1中处理的信息以及用于显示可视化的用户界面。
在本发明的一实施例中,所述基于数值抽取的图像识别程序10被所述处理器12执行时实现如下步骤S1-S5。
S1、获取体检报告单图像,将所述体检报告单图像转换为多个片段文本,并获取每个片段文本在所述体检报告单图像中的文本坐标。
在一实施例中,通过OCR图像识别技术将所述体检报告单图像转换为多个片段文本,并获取每个片段文本在所述体检报告单图像中的文本坐标。具体地,所述图像识别技术将所述体检报告单图像识别为多个离散片段,每个离散片段包括一个片段文本和所述片段文本在所述体检报告单图像中的文本坐标。
S2、将所述每个片段文本结构化得到多个结构化文本,将所有结构化文本按照所述每个结构化文本对应的片段文本在所述体检报告单图像中的文本坐标进行排列。
在一实施例中,在将所述每个片段文本结构化得到多个结构化文本之前,还包括:对转换时出现错误的片段文本进行纠错。
在一实施例中,通过最小二乘图像复原算法将所述片段文本结构化得到结构化文本。
S3、通过预设的类型判别模型依次判断所述排列中的每个结构化文本所属的文本类型,根据每个结构化文本的文本类型逐一将所述结构化文本转换为字段数据和数值数据。
在一实施例中,所述预设的类型判别模型为基于人工特征工程的判别模型。
具体地,所述人工特征工程包括基础特征和关联特征。所述基础特征包括:
1)片段长度:即所述结构化文本字符个数;
2)片段中数字字符个数占比:即所述结构化文本数字字符个数/片段长度;
3)片段中中文字符个数占比:即所述结构化文本中文字符个数/片段长度;
4)片段中英文字符个数占比:即所述结构化文本英文字符个数/片段长度;
5)片段类别:使用“关键词+正则”判别所述结构化文本的片段类别。所述关键词包括但不限于“chineseValue”、“date”、“rangeValue”、“checkValue”、“idValue”、“other”。其中,“chineseValue”代表“无肿大”、“正常”、“齐”等文本类片段,通过正则匹配判断;“date”代表“2020-6-12”等日期类片段,采用正则匹配识别;“rangeValue”代表“0-1mol/L”等参考范围类片段,采用正则匹配识别;“checkValue”代表“6.02”、“6.0Z”、“6.0乙”、“1”、“]”等数值类片段,其中出现的中英文及特殊符号是ocr可能识别出的错误,因此采用规则识别,适当放宽条件提高覆盖范围;“idValue”代表保单号、用户号等id类型,如“XGZ000000001”等,与checkValue类似但受到字符数量限制。
6)字段别名表字符命中分数topK:
预设一份字段别名表词典,包含各个字段可能出现的不同说法,如“血糖”在不同医院的说法不同,可能包括“葡萄糖”、“空膜血糖”、“空腹血糖”等,以便于对各个字段尽可能全的不同专业名词进行识别。
对各个字段的别名按字符拆解,统计各字符在该字段的出现概率分数,针对“血糖”字段举例说明详细的计算方式如下:
将该字段的所有词按字符级别拆解,并分别统计字频,如“糖”字出现7次;统计该字段包含中文的别名个数,为7;计算“糖”字在“血糖”字段的出现概率分数,7/7=1.0;同理计算英文字符的出现概率分数,如“G”为3/3=1.0;
计算所述结构化文本在各个字段上的中、英文字符命中分数,以“空腹血糖”在字段“血糖”上的命中分数为例:分别得到“空”、“腹”、“血”、“糖”在该字段的出现概率分数;所有中文字符的分数相加/所述结构化文本中文字符数之和
同理计算所有字段上的命中分数,同时计算英文字符命中分数,选出topk作为命中分数特征;
7)字符串相似度分数top1:
找到所述结构化文本的中、英文命中分数topk所对应的字段:
字符串相似度需要遍历所有别名分别计算字符串编辑距离,耗时切浪费计算资源,因为我们只需跟最相关的几个字段计算字符串相似度即可;
遍历计算字符串相似度,选出top1,并记录top1所对应的字段;
字符串相似度计算公式为,其中edit代表编辑距离,len()代表字符个数,max()代表取最大的一个:
1-edit/max(len(str1),len(str2))
所述关联特征包括:
1)当前所述结构化文本与表头“项目名称”的x、y归一化距离:
通过当前图片字符所占像素点个数估算图片分辨率水平:距离归一化可以降低图片分辨率对特征计算的影响,比如一张高分辨率图片的某一个字符高度为25个像素点,当此图片收到压缩处理后(如截图),同样的字符高度可能降低为10个像素点。
计算当前图片所有片段(根据ocr输出,所有的识别片段只包含一行文本信息,不考虑ocr检测框伸缩带来的误差)在y轴上的高度,即一个字符高度在图片中占有的像素个数,再取平均作为当前图片的分辨率标准,并以此进行归一化。
从所述结构化文本向上逐行搜索表头,采用关键词正则匹配识别,找到“名称”、“结果”所在片段,分别计算与当前所述结构化文本的x、y归一化距离,不存在表头则置为空值。
2)加入所述结构化文本的上、下、左、右四个片段特征,作为关联特征,上下左右片段通过结构化输出得到。
本实施例中,所述预设的类型判别模型通过上述基础特征和关联特征判断所述结构化文本的类型,所述类型包括字段和数值。
S4、根据所述字段数据和数值数据对应的所述结构化文本在所述排列中的位置识别所述字段数据和数值数据之间的关联关系。
在一实施例中,所述结构化文本为按行排列的片段数据。
具体地,根据所述字段数据和数值数据对应的所述结构化文本在所述排列中的位置识别所述字段数据和数值数据之间的关联关系包括:对所述排列中的一行片段数据从后向前逐一执行片段扫描,当扫描到被判别为数值数据的片段时继续向前扫描直至发现被判别为字段数据的片段,将同一行中所述被判别为字段数据的片段和所述被判别为数值数据的片段射为一组有关联关系的数据。
S5、根据所述字段数据和数值数据之间的关联关系对所述字段数据和数值数据进行排序,将排序后的字段数据和数值数据输出到预设的数据表格中。
在一实施例中,当得到一组有关联关系的数据后,根据数据对应的所述结构化文本的文本类型以及通过预设的类型判别模型计算获取的字段数据的关联特征(例如定性或定量,以及血检或尿检),将该字段数据和关联的数值数据输出到预设的数据表格中对应的位置。
由上述实施例可知,本发明提出的电子装置1,通过图像识别技术将图像转换为片段文本并获取对应的文本坐标,对所述片段文本进行结构化得到结构化文本,采用预设的类型判别模型获取结构化文本对应的字段数据和数值数据,识别字段数据和数值数据之间的关联关系并进行排序得到输出数据。本发明通过图像文本识别技术和预设的类型判别模型获取文档图像的关键信息,便于工作人员准确快速地获取文档图像中所需要的信息,提升了工作效率。
在其他实施例中,基于数值抽取的图像识别程序10还可以被分割为一个或者多个模块,一个或者多个模块被存储于存储器11中,并由一个或多个处理器(本实施例为处理器12)所执行以完成本发明,本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段,用于描述基于数值抽取的图像识别程序10在电子装置1中的执行过程。
如图3所示,为本发明基于数值抽取的图像识别装置10一实施例的模块示意图。
在本发明的一实施例中,基于数值抽取的图像识别装置10,包括信息抽取模块110、预处理模块120、数据转换模块130、关联映射模块140及排序输出模块150,示例性地:
所述信息抽取模块110,用于获取体检报告单图像,将所述体检报告单图像转换为多个片段文本,并获取每个片段文本在所述体检报告单图像中的文本坐标;
所述预处理模块120,用于将所述每个片段文本结构化得到多个结构化文本,将所有结构化文本按照所述每个结构化文本对应的片段文本在所述体检报告单图像中的文本坐标进行排列;
所述数据转换模块130,用于通过预设的类型判别模型依次判断所述排列中的每个结构化文本所属的文本类型,根据每个结构化文本的文本类型逐一将所述结构化文本转换为字段数据和数值数据;
所述关联映射模块140,用于根据所述字段数据和数值数据对应的所述结构化文本在所述排列中的位置识别所述字段数据和数值数据之间的关联关系;
所述排序输出模块150,用于根据所述字段数据和数值数据之间的关联关系对所述字段数据和数值数据进行排序,将排序后的字段数据和数值数据输出到预设的数据表格中。
上述信息抽取模块110、预处理模块120、数据转换模块130、关联映射模块140及排序输出模块150等模块被执行时所实现的功能或操作步骤与上述实施例大体相同,在此不再赘述。
此外,本发明实施例还提出一种计算机可读存储介质,计算机可读存储介质可以是硬盘、多媒体卡、SD卡、闪存卡、SMC、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器等中的任意一种或者几种的任意组合。计算机可读存储介质中包括基于数值抽取的图像识别程序10,所述基于数值抽取的图像识别程序10被处理器执行时实现如下操作:
A1、获取体检报告单图像,将所述体检报告单图像转换为多个片段文本,并获取每个片段文本在所述体检报告单图像中的文本坐标;
A2、将所述每个片段文本结构化得到多个结构化文本,将所有结构化文本按照所述每个结构化文本对应的片段文本在所述体检报告单图像中的文本坐标进行排列;
A3、通过预设的类型判别模型依次判断所述排列中的每个结构化文本所属的文本类型,根据每个结构化文本的文本类型逐一将所述结构化文本转换为字段数据和数值数据;
A4、根据所述字段数据和数值数据对应的所述结构化文本在所述排列中的位置识别所述字段数据和数值数据之间的关联关系;
A5、根据所述字段数据和数值数据之间的关联关系对所述字段数据和数值数据进行排序,将排序后的字段数据和数值数据输出到预设的数据表格中。
本发明之计算机可读存储介质的具体实施方式与上述基于数值抽取的图像识别方法以及电子装置的一实施例的具体实施方式大致相同,在此不再赘述。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种基于数值抽取的图像识别方法,其特征在于,包括:
获取体检报告单图像,将所述体检报告单图像转换为多个片段文本,并获取每个片段文本在所述体检报告单图像中的文本坐标;
将所述每个片段文本结构化得到多个结构化文本,将所有结构化文本按照所述每个结构化文本对应的片段文本在所述体检报告单图像中的文本坐标进行排列;
通过预设的类型判别模型依次判断所述排列中的每个结构化文本所属的文本类型,根据每个结构化文本的文本类型逐一将所述结构化文本转换为字段数据和数值数据;
根据所述字段数据和数值数据对应的所述结构化文本在所述排列中的位置识别所述字段数据和数值数据之间的关联关系;
根据所述字段数据和数值数据之间的关联关系对所述字段数据和数值数据进行排序,将排序后的字段数据和数值数据输出到预设的数据表格中。
2.如权利要求1所述的基于数值抽取的图像识别方法,其特征在于,在将所述每个片段文本结构化得到多个结构化文本之前,该方法还包括:
对转换时出现错误的片段文本进行纠错。
3.如权利要求1所述的基于数值抽取的图像识别方法,其特征在于,所述将所述每个片段文本结构化得到多个结构化文本包括:
通过最小二乘图像复原算法将所述片段文本结构化得到结构化文本。
4.如权利要求1所述的基于数值抽取的图像识别方法,其特征在于,所述预设的类型判别模型为基于Xgboost+人工特征工程的判别模型。
5.如权利要求1所述的基于数值抽取的图像识别方法,其特征在于,所述结构化文本为按行排列的片段数据。
6.如权利要求5所述的基于数值抽取的图像识别方法,其特征在于,所述根据所述字段数据和数值数据对应的所述结构化文本在所述排列中的位置识别所述字段数据和数值数据之间的关联关系包括:
对所述排列中的一行片段数据从后向前逐一执行片段扫描,当扫描到被判别为数值数据的片段时继续向前扫描直至发现被判别为字段数据的片段,将同一行中所述被判别为字段数据的片段和所述被判别为数值数据的片段射为一组有关联关系的数据。
7.如权利要求1所述的基于数值抽取的图像识别方法,其特征在于,所述根据所述字段数据和数值数据之间的关联关系对所述字段数据和数值数据进行排序,将排序后的字段数据和数值数据输出到预设的数据表格中包括:
当得到一组有关联关系的数据后,根据数据对应的所述结构化文本的文本类型以及通过预设的类型判别模型计算获取的字段数据的关联特征,将该字段数据和关联的数值数据输出到预设的数据表格中对应的位置。
8.一种电子装置,其特征在于,该电子装置包括:存储器、处理器,所述存储器上存储有可在所述处理器上运行的基于数值抽取的图像识别程序,所述基于数值抽取的图像识别程序被所述处理器执行时实现如下所述的基于数值抽取的图像识别方法的步骤:
获取体检报告单图像,将所述体检报告单图像转换为多个片段文本,并获取每个片段文本在所述体检报告单图像中的文本坐标;
将所述每个片段文本结构化得到多个结构化文本,将所有结构化文本按照所述每个结构化文本对应的片段文本在所述体检报告单图像中的文本坐标进行排列;
通过预设的类型判别模型依次判断所述排列中的每个结构化文本所属的文本类型,根据每个结构化文本的文本类型逐一将所述结构化文本转换为字段数据和数值数据;
根据所述字段数据和数值数据对应的所述结构化文本在所述排列中的位置识别所述字段数据和数值数据之间的关联关系;
根据所述字段数据和数值数据之间的关联关系对所述字段数据和数值数据进行排序,将排序后的字段数据和数值数据输出到预设的数据表格中。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有基于数值抽取的图像识别程序,所述基于数值抽取的图像识别程序可被一个或者多个处理器执行,以实现如下所述的基于数值抽取的图像识别方法的步骤:
获取体检报告单图像,将所述体检报告单图像转换为多个片段文本,并获取每个片段文本在所述体检报告单图像中的文本坐标;
将所述每个片段文本结构化得到多个结构化文本,将所有结构化文本按照所述每个结构化文本对应的片段文本在所述体检报告单图像中的文本坐标进行排列;
通过预设的类型判别模型依次判断所述排列中的每个结构化文本所属的文本类型,根据每个结构化文本的文本类型逐一将所述结构化文本转换为字段数据和数值数据;
根据所述字段数据和数值数据对应的所述结构化文本在所述排列中的位置识别所述字段数据和数值数据之间的关联关系;
根据所述字段数据和数值数据之间的关联关系对所述字段数据和数值数据进行排序,将排序后的字段数据和数值数据输出到预设的数据表格中。
10.一种基于数值抽取的图像识别装置,其特征在于,该装置包括:
信息抽取模块,用于获取体检报告单图像,将所述体检报告单图像转换为多个片段文本,并获取每个片段文本在所述体检报告单图像中的文本坐标;
预处理模块,用于将所述每个片段文本结构化得到多个结构化文本,将所有结构化文本按照所述每个结构化文本对应的片段文本在所述体检报告单图像中的文本坐标进行排列;
数据转换模块,用于通过预设的类型判别模型依次判断所述排列中的每个结构化文本所属的文本类型,根据每个结构化文本的文本类型逐一将所述结构化文本转换为字段数据和数值数据;
关联映射模块,用于根据所述字段数据和数值数据对应的所述结构化文本在所述排列中的位置识别所述字段数据和数值数据之间的关联关系;
排序输出模块,用于根据所述字段数据和数值数据之间的关联关系对所述字段数据和数值数据进行排序,将排序后的字段数据和数值数据输出到预设的数据表格中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011152155.9A CN112364857B (zh) | 2020-10-23 | 2020-10-23 | 基于数值抽取的图像识别方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011152155.9A CN112364857B (zh) | 2020-10-23 | 2020-10-23 | 基于数值抽取的图像识别方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112364857A true CN112364857A (zh) | 2021-02-12 |
CN112364857B CN112364857B (zh) | 2024-04-26 |
Family
ID=74512078
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011152155.9A Active CN112364857B (zh) | 2020-10-23 | 2020-10-23 | 基于数值抽取的图像识别方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112364857B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114783559A (zh) * | 2022-06-23 | 2022-07-22 | 浙江太美医疗科技股份有限公司 | 医学影像报告信息抽取方法、装置、电子设备和存储介质 |
CN116246788A (zh) * | 2023-05-12 | 2023-06-09 | 天津医科大学朱宪彝纪念医院(天津医科大学代谢病医院、天津代谢病防治中心) | 基于体检报告整合分析的无创风险糖尿病预测系统 |
Citations (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11250041A (ja) * | 1998-02-27 | 1999-09-17 | Toshiba Corp | 文書処理装置および文書処理方法 |
US20130232157A1 (en) * | 2012-03-05 | 2013-09-05 | Tammer Eric Kamel | Systems and methods for processing unstructured numerical data |
US20140324501A1 (en) * | 2013-04-30 | 2014-10-30 | The Glassbox Incorporated | Method and system for automated template creation and rollup |
US20170068866A1 (en) * | 2015-09-07 | 2017-03-09 | Abbyy Development Llc | Method and system for data extraction from images of semi-structured documents |
US20180107801A1 (en) * | 2016-10-17 | 2018-04-19 | International Business Machines Corporation | Automatic disease detection from unstructured textual reports |
CN109840519A (zh) * | 2019-01-25 | 2019-06-04 | 青岛盈智科技有限公司 | 一种自适应的智能单据识别录入装置及其使用方法 |
US20190205636A1 (en) * | 2018-01-02 | 2019-07-04 | Bank Of America Corporation | Artificial Intelligence Based Smart Data Engine |
CN110610430A (zh) * | 2019-08-13 | 2019-12-24 | 平安医疗健康管理股份有限公司 | 票据信息处理方法、装置、计算机设备和存储介质 |
CN110716952A (zh) * | 2019-09-24 | 2020-01-21 | 中国电子科技集团公司电子科学研究院 | 一种多源异构数据处理方法、装置和存储介质 |
US10546054B1 (en) * | 2018-02-28 | 2020-01-28 | Intuit Inc. | System and method for synthetic form image generation |
CN110738203A (zh) * | 2019-09-06 | 2020-01-31 | 中国平安财产保险股份有限公司 | 字段结构化输出方法、装置及计算机可读存储介质 |
WO2020051325A1 (en) * | 2018-09-05 | 2020-03-12 | Baxter International Inc. | Medical fluid delivery system including a mobile platform for patient engagement and treatment compliance |
CN110889412A (zh) * | 2019-11-01 | 2020-03-17 | 泰康保险集团股份有限公司 | 体检报告中的医学长文定位与分类方法及装置 |
US20200097713A1 (en) * | 2018-09-24 | 2020-03-26 | International Business Machines Corporation | Method and System for Accurately Detecting, Extracting and Representing Redacted Text Blocks in a Document |
CN111090990A (zh) * | 2019-12-10 | 2020-05-01 | 中电健康云科技有限公司 | 一种医疗体检报告单文字识别及纠正方法 |
CN111144210A (zh) * | 2019-11-26 | 2020-05-12 | 泰康保险集团股份有限公司 | 图像的结构化处理方法及装置、存储介质及电子设备 |
CN111401007A (zh) * | 2020-03-03 | 2020-07-10 | 厦门亿禄信息科技有限公司 | 一种非结构化数据向结构化数据的转换方法 |
CN111461062A (zh) * | 2020-04-23 | 2020-07-28 | 国网吉林省电力有限公司 | 一种票据图像文本信息的结构化抽取方法 |
CN111611990A (zh) * | 2020-05-22 | 2020-09-01 | 北京百度网讯科技有限公司 | 用于识别图像中表格的方法和装置 |
CN111695518A (zh) * | 2020-06-12 | 2020-09-22 | 北京百度网讯科技有限公司 | 结构化文档信息标注的方法、装置及电子设备 |
CN111709339A (zh) * | 2020-06-09 | 2020-09-25 | 北京百度网讯科技有限公司 | 一种票据图像识别方法、装置、设备及存储介质 |
-
2020
- 2020-10-23 CN CN202011152155.9A patent/CN112364857B/zh active Active
Patent Citations (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11250041A (ja) * | 1998-02-27 | 1999-09-17 | Toshiba Corp | 文書処理装置および文書処理方法 |
US20130232157A1 (en) * | 2012-03-05 | 2013-09-05 | Tammer Eric Kamel | Systems and methods for processing unstructured numerical data |
US20140324501A1 (en) * | 2013-04-30 | 2014-10-30 | The Glassbox Incorporated | Method and system for automated template creation and rollup |
US20170068866A1 (en) * | 2015-09-07 | 2017-03-09 | Abbyy Development Llc | Method and system for data extraction from images of semi-structured documents |
US20180107801A1 (en) * | 2016-10-17 | 2018-04-19 | International Business Machines Corporation | Automatic disease detection from unstructured textual reports |
US20190205636A1 (en) * | 2018-01-02 | 2019-07-04 | Bank Of America Corporation | Artificial Intelligence Based Smart Data Engine |
US10546054B1 (en) * | 2018-02-28 | 2020-01-28 | Intuit Inc. | System and method for synthetic form image generation |
WO2020051325A1 (en) * | 2018-09-05 | 2020-03-12 | Baxter International Inc. | Medical fluid delivery system including a mobile platform for patient engagement and treatment compliance |
US20200097713A1 (en) * | 2018-09-24 | 2020-03-26 | International Business Machines Corporation | Method and System for Accurately Detecting, Extracting and Representing Redacted Text Blocks in a Document |
CN109840519A (zh) * | 2019-01-25 | 2019-06-04 | 青岛盈智科技有限公司 | 一种自适应的智能单据识别录入装置及其使用方法 |
CN110610430A (zh) * | 2019-08-13 | 2019-12-24 | 平安医疗健康管理股份有限公司 | 票据信息处理方法、装置、计算机设备和存储介质 |
CN110738203A (zh) * | 2019-09-06 | 2020-01-31 | 中国平安财产保险股份有限公司 | 字段结构化输出方法、装置及计算机可读存储介质 |
CN110716952A (zh) * | 2019-09-24 | 2020-01-21 | 中国电子科技集团公司电子科学研究院 | 一种多源异构数据处理方法、装置和存储介质 |
CN110889412A (zh) * | 2019-11-01 | 2020-03-17 | 泰康保险集团股份有限公司 | 体检报告中的医学长文定位与分类方法及装置 |
CN111144210A (zh) * | 2019-11-26 | 2020-05-12 | 泰康保险集团股份有限公司 | 图像的结构化处理方法及装置、存储介质及电子设备 |
CN111090990A (zh) * | 2019-12-10 | 2020-05-01 | 中电健康云科技有限公司 | 一种医疗体检报告单文字识别及纠正方法 |
CN111401007A (zh) * | 2020-03-03 | 2020-07-10 | 厦门亿禄信息科技有限公司 | 一种非结构化数据向结构化数据的转换方法 |
CN111461062A (zh) * | 2020-04-23 | 2020-07-28 | 国网吉林省电力有限公司 | 一种票据图像文本信息的结构化抽取方法 |
CN111611990A (zh) * | 2020-05-22 | 2020-09-01 | 北京百度网讯科技有限公司 | 用于识别图像中表格的方法和装置 |
CN111709339A (zh) * | 2020-06-09 | 2020-09-25 | 北京百度网讯科技有限公司 | 一种票据图像识别方法、装置、设备及存储介质 |
CN111695518A (zh) * | 2020-06-12 | 2020-09-22 | 北京百度网讯科技有限公司 | 结构化文档信息标注的方法、装置及电子设备 |
Non-Patent Citations (1)
Title |
---|
吴欢;应俊;王逸飞;胡华宇;徐洪丽;郑一琼;: "乳腺癌病理文本的结构化信息提取", 解放军医学院学报, no. 07, pages 746 - 751 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114783559A (zh) * | 2022-06-23 | 2022-07-22 | 浙江太美医疗科技股份有限公司 | 医学影像报告信息抽取方法、装置、电子设备和存储介质 |
CN116246788A (zh) * | 2023-05-12 | 2023-06-09 | 天津医科大学朱宪彝纪念医院(天津医科大学代谢病医院、天津代谢病防治中心) | 基于体检报告整合分析的无创风险糖尿病预测系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112364857B (zh) | 2024-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210073531A1 (en) | Multi-page document recognition in document capture | |
CN111581976B (zh) | 医学术语的标准化方法、装置、计算机设备及存储介质 | |
CN109657738B (zh) | 字符识别方法、装置、设备及存储介质 | |
CN108876636B (zh) | 理赔智能风控方法、系统、计算机设备及存储介质 | |
CN111325110A (zh) | 基于ocr的表格版式恢复方法、装置及存储介质 | |
JP7225548B2 (ja) | 画像処理装置、画像処理方法および画像処理プログラム | |
JP6357621B1 (ja) | 会計処理装置、会計処理システム、会計処理方法及びプログラム | |
CN111310426A (zh) | 基于ocr的表格版式恢复方法、装置及存储介质 | |
CN112364857B (zh) | 基于数值抽取的图像识别方法、装置及存储介质 | |
US20200057801A1 (en) | Populating data fields in electronic documents | |
CN108920661B (zh) | 国际疾病分类标记方法、装置、计算机设备及存储介质 | |
US20110161303A1 (en) | System and method for analyzing official notices of electronically filed patent applications | |
CN111553334A (zh) | 问卷图像识别方法、电子装置及存储介质 | |
CN114005126A (zh) | 表格重构方法、装置、计算机设备及可读存储介质 | |
CN113642562A (zh) | 基于图像识别的数据解读方法、装置、设备及存储介质 | |
CN112396048B (zh) | 图片信息提取方法、装置、计算机设备及存储介质 | |
WO2021143058A1 (zh) | 基于图像的信息比对方法、装置、电子设备及计算机可读存储介质 | |
CN111177387A (zh) | 用户名单信息处理方法、电子装置及计算机可读存储介质 | |
CN111460959A (zh) | 一种单据管理的方法及相关装置 | |
JP2014006758A (ja) | 保存文書出庫管理システム及び保存文書出庫管理方法 | |
CN114743209A (zh) | 处方的识别校验方法、系统、电子设备和存储介质 | |
JP2586372B2 (ja) | 情報検索装置及び情報検索方法 | |
CN113806472A (zh) | 一种对文字图片和图像型扫描件实现全文检索的方法及设备 | |
JP2020009323A (ja) | 配達顧客管理システム | |
CN112560676A (zh) | 图像文本抽取方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |