CN114241487A

CN114241487A - 一种ocr识别方法

Info

Publication number: CN114241487A
Application number: CN202111558913.1A
Authority: CN
Inventors: 李栋栋; 刘邦长; 常德杰; 赵红文; 谷书锋; 赵进; 罗晓斌; 庄博然; 张平
Original assignee: Beijing Miaoyijia Health Technology Group Co ltd
Current assignee: Beijing Miaoyijia Health Technology Group Co ltd
Priority date: 2021-12-20
Filing date: 2021-12-20
Publication date: 2022-03-25
Anticipated expiration: 2041-12-20
Also published as: CN114241487B

Abstract

一种OCR识别方法,其特征在于，包括如下步骤：步骤1，收集非结构化形式的文本；步骤2，从所述非结构化形式的文本中提取文字信息和坐标信息；步骤3，根据所述坐标信息对所述文字信息进行对齐；步骤4，格式化输出步骤3形成的对齐的文字信息。

Description

一种OCR识别方法

技术领域

本发明涉及OCR识别领域，特别是一种OCR识别方法。

背景技术

目前的OCR识别主要是针对PDF格式、jpg格式等非结构化的文本进行数字化的转化，但是通常获得的信息并没有进行结构化处理，更没有给出重要的信息提示，因此这样的数字信息中会埋下很多隐患，尤其是在医疗领域中数量多，信息敏感更需要解决以上问题。

发明内容

本技术方案主要解决体检报告结构化的问题，非结构化的体检报告主要是以图像、pdf及url等方式进行存储，接收到该数据后，对数据处理进行初步处理，最终通过该系统进行结构化。ocr提示识别办法主要包括两套机制，首先会对接收到的请求进行转发，转发后用于识别体检报告的文字部分，返回的信息包括文字还有其坐标，接着，对返回的信息进行处理，也就是对齐的过程，此过程会将信息进行对齐，最终把识别结果格式化输出。

体检报告的固定格式基本上是一样的，主要组成部分大概如下分成三种，第一种是比较标准的体检项展示，一般是定量检查，如白细胞、红细胞等，第二种是超声类，主要是超声名称、检查描述和检查结论，第三种多是定性类的体检项，如牙齿、咽喉、心电图等。

针对上述问题及现有方案的缺点，本专利提出一种OCR识别方法,包括如下步骤：

步骤1，收集非结构化形式的文本；

步骤2，从所述非结构化形式的文本中提取文字信息和坐标信息；

步骤3，根据所述坐标信息对所述文字信息进行对齐；

步骤4，格式化输出步骤3形成的对齐的文字信息。

优选地，所述非结构化形式包括以下一种或者多种：图像形式，PDF形式和url形式。

最好，所述格式化包括以下一种或者多种：标准体检项展示格式，超声类展示格式和定性类体检项展示格式。

优选地，所述步骤2中还包括步骤21，识别所述文字信息中的至少包括字段和值两个部分。

最好，所述步骤21还包括步骤211，基于分隔符标准字典库检索所述文字信息中是或否含有分隔符；步骤212，根据分隔符确认其左侧为字段，右侧为值；步骤213，根据字段和值的坐标判断所述字段和所述值之间的关系。

最好，所述步骤21在所述步骤213之后还包括步骤214，当所述字段的坐标与所述值的行坐标接近距离为预定的经验值时，则确定二者对应。

最好，所述步骤21在所述步骤214后还包括步骤215，根据标准字典库查找所述字段与所述值是否正确对应以提高所述对齐的文字信息的精准度。

本发明还涉及一种OCR识别方法，包括如下步骤：

步骤1，收集非结构化形式的文本；

步骤3，识别所述文字信息中的字段，并根据所识别的坐标横向搜索和纵向搜索该字段对应的值。

本发明还涉及一种OCR识别方法，包括如下步骤：

步骤1，收集非结构化形式的文本；

步骤3，对于所述文字信息根据所述坐标信息进行横向搜索直至该行末尾；

步骤4，当识别到异常值时则采用所述文字信息；

步骤5，当未识别到异常值时则判断所述文字信息的元素数目并根据经验数值确定采用所述文字信息，否则省略所述文字信息。

最好，所述步骤5还包括步骤51，识别单位信息和参考范围信息，并根据所述参考范围信息是否符合单位信息的标准而对调所述单位信息和所述参考范围信息的位置。

专利方案优点包括：将非结构化体检报告，如图像、pdf及url等方式的体检报告进行OCR识别成规范的数字格式，以便于管理和数字化。

附图说明

图1为本发明一个优选实施例中需要进行OCR扫描的情形；

图2为本发明的一个优选实施例对图1所示的情形处理后的效果示意图；

图3为本发明的一个实施例的编码示意；

图4为本发明的实施例的手工修改的情形；

图5为本发明的实施例的给出别名的情形；

图6示出了本发明针对的体检报告的示意图；

图7示出了本发明装置布局简视图；

图8示出了本发明的一个实施例的推荐情形示意图；

图9示出了本发明的一个实施例的简示图；

图10示出了本发明的优选实施例的流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加的清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。本申请的一个实施例是通过体检项key及value智能分割实现OCR识别。该技术解决的体检项key和value由于坐标位置离得太近从而识别为一个元素的问题，智能分割算法，如图1所示，对key＝姓名，value＝***进行分割，然后将key和value提取，算法如下：基于分隔符标准字典库来检索识别结果中是否含有分隔符，如：，-＝等；根据分隔符来分割key与value，默认分隔符左右两侧分别是key和value；验证，通过key和value的坐标locations来判断key和value的位置关系，要求key和value的top坐标即行坐标必须接近，衡量标准为数千份体检报告统计结果，一般为8-10个坐标像素；若前面均符合，则通过标准字典库查找key和value是否正确对应，如key＝性别，则值只能为男、女、未知，其他的则不予校验通过，如图2是识别后的结果。

本发明还提出了一种空间语义搜索的方法以实现OCR识别，如图9所示为空间语义搜索算法的结构图，该算法主要解决当key无法找到或者是key已经找到，如何通过体检报告上已经识别的坐标信息找到该key对应的value。

第一种情况，key已经找到，如何找到对应的value，算法如下：找到key后，该key经过对比，符合标准字典中结果，如白细胞计数，则通过该key的坐标，去搜索对应的value，搜索方式为两种，横向搜索和纵向搜索；横向搜索，拿到该key的横坐标，以横坐标为出发点，往右侧进行搜索，对右侧最靠近的字符搜索后，再次进行校验，每个key对于value值的范围、数据类型等有明确标识，若符合则直接将字符赋值给value，若不符合则继续横向搜索，若搜索范围超过该体检报告平均像素间距，则放弃搜索；纵向搜索，若前面经过横向搜索仍旧未搜索到，则启用纵向搜索，以纵坐标为出发点，往下进行搜索，依旧是进行校验，通过后则给出结果，反之，继续；经过上面搜索后，若value值仍旧为空，则默认未搜索到结果，此时，会给出默认value＝“-”，并返回结果，需要人工审核。

第二种情况，key未找到，如何找到key和value，算法如下：key未找到，则说明识别出来的key和标准字典库中的key无法匹配，但是有可能是标准字典库中某一个体检项的别名，比如标准字典库中为“白细胞数目”，但是有的医院或者是结构可能称为“白细胞计数”、“白细胞个数”、“白细胞绝对值”等等，则此处需要启用模糊匹配算法，该部分实现分为两个，一个是基于子串匹配的算法，一个是基于fasttext的分类算法；假设识别的key为abcdef(一个字母代表一个汉字)，该key在通用字典中名称为abcdkp，即后面两个汉字是对不上的，则此时会启用如下两种推荐算法；子串匹配算法，该算法会将abcdef分割为单个字符，共计6个字符，然后从f开始往前依次进行子串删减，变成abcde、abcd...，然后将该子串对通用字典进行中的key进行子串搜索，发现abcde不是abcdkp的子串，abcd为abcdkp的子串，则直接推荐abcdkp为推荐项，经过搜索后，该推荐项目可能会有多个，比如abcd也为abcdmf的子串，则此时会根据匹配个数进行排序，个数越多越靠前，该子串匹配算法，不仅限于从后开始，也可以从头从后同时开始，比如，abcdef可以直接变为bcde作为子串去匹配，但是该处有一个截取比例的限制，一般子串/完整串>0.6，从而限制那种只有一两个字匹配的情况；以上步骤完成以后，会对每个体检项再次进行横向和纵向搜索，查找对应的值，然后再次进行校验，只有值的范围、类型通过校验，才会给出结果，否则该推荐项不予采用。

本申请的优选实施例的另一个变形是通过异常检测算法实现OCR识别。

异常检测算法主要解决的是检测体检项异常，比如白细胞，红细胞等定量值或者是尿蛋白等定性数据是否是偏低，偏高和正常等。横向搜索，需要传入体检项，并使用空间语义搜索算法，横向搜索直到末尾，横向搜索需要控制top坐标，top差值需要控制在4-6个像素，从而保证不串行。异常值检测，异常值检测为检测该行体检项异常信息的过程，识别的常见符号如↑、↓、偏低、偏高、L、H等，如果识别到则采用该结果，如果未识别到，则进行下一步，未识别到异常值，则要进行体检项分割，需要对体检项后面的识别信息进行分割，分割之前需要判断识别到的元素数目，如果等于3项，即结果值，单位和参考范围则继续下一步，否则结束，返回结果为空；体检项分割后等于3项，则再次判断单位是否符合标准单位要求，在判断的过程中同时判断参考范围是否符合标准单位要求，如果参考范围符合，说明单位和参考范围的顺序有误，立刻交换二者顺序，并跳出循环。上面流程结束，则单位已经完成校准，且参考范围也已经分割出来，此时，再对参考范围进行分割，分割符为“-”、“--”、“～”，不在此范围内的参考范围不予处理，异常值为空。分割后判断参考范围两侧是否为浮点类型，不是的话，返回为空，均是则比较该结果值是否大于最大，小于最小，处于中间，返回结果为H、L、N；上面流程结束，直接返回单位、参考范围和异常标志。图3示出了实现上述方案的Python伪代码。通过本申请的方法可以获得如下文本。如图4所示，对于标准字典集中存在的体检项，都会通过系统正确识别，对于识别结果有误差或者名称需要调整的，可以手工进行修改。如图5所示，对于无法直接匹配标准字典的，会给出可能的别名，图8所示，对于标准字典中没有的，则给出推荐项。

在图6和图7中示出了本专利OCR识别方法所采取的装置布局从而识别出结构化的体检报告，本专利解决体检报告结构化的问题，非结构化的体检报告主要是以图像、pdf及url等方式进行存储，接收到该数据后，对数据处理进行初步处理，最终通过该系统进行结构化。ocr提示识别办法主要包括两套机制，首先会对接收到的请求进行转发，转发后用于识别体检报告的文字部分，返回的信息包括文字还有其坐标，接着，对返回的信息进行处理，也就是对齐的过程，此过程会将信息进行对齐，最终把识别结果格式化输出。

图6示出了标准的体检报告，从上到下示出了标准体检项，超声类体检项和定性类体检项。从图7可以看到针对图6的体检报告所进行的OCR识别过程，首先利用智能对齐模块7003从OSS服务器7001获取图片，该对齐模块7003会对目标图片进行大图切割和语义对齐等操作，同时还能对体检报告进行语义空间搜索(如图9所示)，在体检报告标准字典库的支撑下实现智能对齐，通过智能对齐模块的处理后，处理结果通过文字识别而由OCR识别模块7004进行运算，比如二值化操作，边缘检测操作，同时还进行文字检测和文字识别。

经由OCR识别模块7004处理的结果返回给智能对齐模块7003，然后智能对齐模块7003以标准格式形成体检报告并自动传到OSS(对象存储服务)服务器7001并对其进行永久存储。图7中体检报告的标准输出格式包括jpg格式、PDF格式和Base64格式等。

图9中示出本专利的空间语义搜索算法，其中体检报告中包括如下指标：白细胞计数、RBC、淋巴细胞个数、胆固醇和大便等，在标准体检项字典的支撑下，对于标准体检匹配项、体检项结果及单位推断、一对多相似度排序和别名搜索进行精准识别；而对于字子串匹配和词嵌入模型预测进行推荐识别；对于噪音及无关项不予识别。

在图9中还给出了体检报告坐标系，其中包括X轴，Y轴和Z轴以便进行横向搜索和纵向搜索，以保证结果对齐。

图10示出了本发明的一个优选实施例，一种OCR识别方法,包括如下步骤：

步骤1，收集非结构化形式的文本1001；

步骤2，从所述非结构化形式的文本中提取文字信息和坐标信息1002；

步骤3，根据所述坐标信息对所述文字信息进行对齐1003；

步骤4，格式化输出步骤3形成的对齐的文字信息1004。

上述各实施例仅是本发明的优选实施方式，在本技术领域内，凡是基于本发明技术方案上的变化和改进，不应排除在本发明的保护范围之外。

Claims

1.一种OCR识别方法,其特征在于，包括如下步骤：

步骤1，收集非结构化形式的文本；

步骤3，根据所述坐标信息对所述文字信息进行对齐；

步骤4，格式化输出步骤3形成的对齐的文字信息。

2.根据权利要求1所述的OCR识别方法，其特征在于，所述非结构化形式包括以下一种或者多种：图像形式，PDF形式和url形式。

3.根据权利要求2所述的OCR识别方法，其特征在于，所述格式化包括以下一种或者多种：标准体检项展示格式，超声类展示格式和定性类体检项展示格式。

4.根据权利要求3所述的OCR识别方法，其特征在于，所述步骤2中还包括步骤21，识别所述文字信息中的至少包括字段和值两个部分。

5.根据权利要求4所述的OCR识别方法，其特征在于，所述步骤21还包括步骤211，基于分隔符标准字典库检索所述文字信息中是或否含有分隔符；步骤212，根据分隔符确认其左侧为字段，右侧为值；步骤213，根据字段和值的坐标判断所述字段和所述值之间的关系。

6.根据权利要求5所述的OCR识别方法，其特征在于，所述步骤21在所述步骤213之后还包括步骤214，当所述字段的坐标与所述值的行坐标接近距离为预定的经验值时，则确定二者对应。

7.根据权利要求6所述的OCR识别方法，其特征在于，所述步骤21在所述步骤214后还包括步骤215，根据标准字典库查找所述字段与所述值是否正确对应以提高所述对齐的文字信息的精准度。

8.根据权利要求7所述的OCR识别方法，其特征在于，所述步骤3还包括步骤31，识别所述文字信息中的字段，并根据所识别的坐标横向搜索和纵向搜索该字段对应的值。

9.根据权利要求8所述的OCR识别方法，其特征在于，所述步骤3还包括：

步骤32，对于所述文字信息根据所述坐标信息进行横向搜索直至该行末尾；

步骤33，当识别到异常值时则采用所述文字信息；

步骤34，当未识别到异常值时则判断所述文字信息的元素数目并根据经验数值确定采用所述文字信息，否则省略所述文字信息。

10.根据权利要求9所述的OCR识别方法，其特征在于，所述步骤5还包括步骤51，识别单位信息和参考范围信息，并根据所述参考范围信息是否符合单位信息的标准而对调所述单位信息和所述参考范围信息的位置。