CN109344730A

CN109344730A - 数据提取方法、装置及计算机可读存储介质

Info

Publication number: CN109344730A
Application number: CN201811048056.9A
Authority: CN
Inventors: 彭少毅; 吕稚童; 杜耀宏
Original assignee: Concord Health Cloud Services Ltd
Current assignee: Concord Health Cloud Services Ltd
Priority date: 2018-09-06
Filing date: 2018-09-06
Publication date: 2019-02-15

Abstract

本发明公开了一种数据提取方法、装置及计算机可读存储介质，数据提取方法包括：分别通过两套光学字符识别系统对原始图片进行字符识别，基于两者的识别结果，得到第一合并结果和第二合并结果，然后对第一合并结果和第二合并结果进行纠错，然后从纠错得到识别结果中提取可信度较高的内容，得到最终识别结果。本发明通过第一光学字符识别系统以及第二光学字符识别系统联合，降低单一光学字符识别系统的漏识率以及错识率，且通过纠错机制对光学字符识别结果进行纠错，进一步提高了最终识别结果的准确性。

Description

数据提取方法、装置及计算机可读存储介质

技术领域

本发明涉及数据处理技术领域，尤其涉及数据提取方法、装置及计算机可读存储介质。

背景技术

目前，在医疗行业，一般通过单一的光学字符识别系统(OCR)对体检报告、化验单、检验单等进行文字识别，实现对体检报告、化验单或检验单上的文字信息提取。

通常的光学字符识别系统对文字的识别准确度难以达到100％，使得最终提取到的文字信息难免存在漏识或错识。

发明内容

本发明的主要目的在于提供一种数据提取方法、装置及计算机可读存储介质，旨在解决现有技术中通过单一的光学字符识别系统(OCR)对体检报告、化验单、检验单等进行文字识别，识别准确度不够高的技术问题。

为实现上述目的，本发明提供一种数据提取方法，所述数据提取方法包括以下步骤：

分别通过第一光学字符识别系统以及第二光学字符识别系统，对原始图片进行字符识别，得到第一识别结果以及第二识别结果；

确定所述第一识别结果以及所述第二识别结果的第一相同部分，并基于所述第一相同部分确定原始图片中的待二次识别区域；

分别通过第一光学字符识别系统以及第二光学字符识别系统，对所述待二次识别区域进行字符识别，得到第三识别结果以及第四识别结果；

基于所述第一相同部分、所述第三识别结果以及所述第四识别结果，得到第一合并结果以及第二合并结果；

对所述第一合并结果进行纠错处理，得到第五识别结果，对所述第二合并结果进行纠错处理，得到第六识别结果；

确定所述第五识别结果以及所述第六识别结果的第二相同部分，获取所述第五识别结果中所述第二相同部分之外的第一内容对应的第一可信度结果，获取所述第六识别结果中所述第二相同部分之外的第二内容对应的第二可信度结果；

基于所述第一可信度结果以及所述第二可信度结果，从所述第一内容或所述第二内容中提取目标内容，组合所述第二相同部分以及所述目标内容，得到最终识别结果。

可选的，所述基于所述第一相同部分确定原始图片中的待二次识别区域的步骤包括：

确定所述第一相同部分在所述原始图片中对应的第一区域；

将所述原始图片中所述第一区域之外的区域作为待二次识别区域。

可选的，所述基于所述相同部分、所述第三识别结果以及所述第四识别结果，得到第一合并结果以及第二合并结果的步骤包括：

组合所述第一相同部分以及所述第三识别结果，得到第一合并结果，组合所述第一相同部分以及所述第四识别结果，得到第二合并结果。

可选的，所述对所述第一合并结果进行纠错处理，得到第五识别结果的步骤包括：

对所述第一合并结果进行分词处理，得到第一元素组，其中，所述第一元素组包含若干个元素；

基于与每个元素相邻的元素，确定每个元素的正确概率值；

基于预置的标准元素库，对正确概率值低于预设阈值的元素进行纠错，得到第五识别结果。

可选的，所述基于所述第一可信度结果以及所述第二可信度结果，从所述第一内容或所述第二内容中提取目标内容，组合所述第二相同部分以及所述目标内容，得到最终识别结果的步骤包括：

若所述第一可信度结果高于所述第二可信度结果，则从所述第一内容中提取目标内容，合所述第二相同部分以及所述目标内容，得到最终识别结果；

若所述第二可信度结果高于所述第一可信度结果，则从所述第二内容中提取目标内容，合所述第二相同部分以及所述目标内容，得到最终识别结果。

此外，为实现上述目的，本发明还提供一种数据提取装置，所述数据提取装置包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据提取程序，所述数据提取程序被所述处理器执行时实现如上所述的数据提取方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有数据提取程序，所述数据提取程序被处理器执行时实现如上所述的数据提取方法的步骤。

本发明中，分别通过第一光学字符识别系统以及第二光学字符识别系统，对原始图片进行字符识别，得到第一识别结果以及第二识别结果；确定所述第一识别结果以及所述第二识别结果的第一相同部分，并基于所述第一相同部分确定原始图片中的待二次识别区域；分别通过第一光学字符识别系统以及第二光学字符识别系统，对所述待二次识别区域进行字符识别，得到第三识别结果以及第四识别结果；基于所述第一相同部分、所述第三识别结果以及所述第四识别结果，得到第一合并结果以及第二合并结果；对所述第一合并结果进行纠错处理，得到第五识别结果，对所述第二合并结果进行纠错处理，得到第六识别结果；确定所述第五识别结果以及所述第六识别结果的第二相同部分，获取所述第五识别结果中所述第二相同部分之外的第一内容对应的第一可信度结果，获取所述第六识别结果中所述第二相同部分之外的第二内容对应的第二可信度结果；基于所述第一可信度结果以及所述第二可信度结果，从所述第一内容或所述第二内容中提取目标内容，组合所述第二相同部分以及所述目标内容，得到最终识别结果。通过本发明，通过第一光学字符识别系统以及第二光学字符识别系统联合，降低单一光学字符识别系统的漏识率以及错识率，且通过纠错机制对光学字符识别结果进行纠错，进一步提高了最终识别结果的准确性。

附图说明

图1为本发明实施例方案涉及的硬件运行环境的数据提取装置结构示意图；

图2为本发明数据提取方法第一实施例的流程示意图；

图3为本发明数据提取方法一实施例中第一识别结果以及所述第二识别结果的示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，图1为本发明实施例方案涉及的硬件运行环境的数据提取装置结构示意图。

如图1所示，该数据提取装置可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的数据提取装置结构并不构成对数据提取装置的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及数据提取程序。

在图1所示的数据提取装置中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的数据提取程序，并执行以下操作：

进一步地，处理器1001可以调用存储器1005中存储的数据提取程序，还执行以下操作：

确定所述第一相同部分在所述原始图片中对应的第一区域；

基于与每个元素相邻的元素，确定每个元素的正确概率值；

参照图2，图2为本发明数据提取方法第一实施例的流程示意图。

在一实施例中，所述数据提取方法包括：

步骤S10，分别通过第一光学字符识别系统以及第二光学字符识别系统，对原始图片进行字符识别，得到第一识别结果以及第二识别结果；

本实施例中，存在两套不同的光学字符识别系统，分别称作第一光学字符识别系统以及第二光学字符识别系统。通过第一光学字符识别系统对原始图片(例如体检报告的图片、化验单的图片或检验单的图片等，在此不作限制)进行字符识别，得到第一识别结果；通过第二光学字符识别系统对原始图片进行字符识别，得到第一识别结果。

其中，依赖的技术为OCR识别技术，OCR(Optical Character Recognition，光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程；即，针对印刷体字符，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。

步骤S20，确定所述第一识别结果以及所述第二识别结果的第一相同部分，并基于所述第一相同部分确定原始图片中的待二次识别区域；

本实施例中，所述基于所述第一相同部分确定原始图片中的待二次识别区域的步骤包括：

确定所述第一相同部分在所述原始图片中对应的第一区域；

本实施例中，由于第一光学字符识别系统以及第二光学字符识别系统无法保证对原始图片做到100％识别，且第一光学字符识别系统以及第二光学字符识别系统的识别准确度不同，导致第一识别结果与第二识别结果会存在差别。参照图3，图3为本发明数据提取方法一实施例中第一识别结果以及所述第二识别结果的示意图。如图3所示，第一识别结果中A1部分与第二识别结果中B1部分相同，称作第一相同部分。将该第一相同部分在原始图片中对应的区域称作区域X，即通过第一光学字符识别系统以及第二光学字符识别系统对区域X进行字符识别后，得到的均是上述第一相同部分，因此，认为该第一相同部分属于准确的识别结果，但在原始图片中除区域X以外的区域(即待二次识别区域)，经过第一光学字符识别系统以及第二光学字符识别系统进行字符识别后，得到了不同的识别结果，则说明第一识别结果中除A1以外的部分A2，以及第二识别结果中除B1以外的部分B2，可能存在错识，因此需要再次对原始图片中除区域X以外的区域(即待二次识别区域)进行识别。

步骤S30，分别通过第一光学字符识别系统以及第二光学字符识别系统，对所述待二次识别区域进行字符识别，得到第三识别结果以及第四识别结果；

本实施例中，再次对待二次识别区域进行识别的方式为：通过第一光学字符识别系统对待二次识别区域进行字符识别，得到第三识别结果；通过第二光学字符识别系统对待二次识别区域进行字符识别，得到第四识别结果。

本实施例中，采用大津分割法，分离出待二次识别区域的前景和背景，并将待二次识别区域中第一次通过第一光学字符识别系统识别出来的部分用背景覆盖，然后再通过第一光学字符识别系统对待二次识别区域进行字符识别，将此次识别到的结果与第一次通过第一光学字符识别系统识别的结果合并，得到第三识别结果；同理，将待二次识别区域中第一次通过第二光学字符识别系统识别出来的部分用背景覆盖，然后再通过第二光学字符识别系统对待二次识别区域进行字符识别，将此次识别到的结果与第一次通过第二光学字符识别系统识别的结果合并，得到第四识别结果。

步骤S40，基于所述第一相同部分、所述第三识别结果以及所述第四识别结果，得到第一合并结果以及第二合并结果；

本实施例中，将第一相同部分以及第三识别结果组合，得到第一合并结果，将第一相同部分以及第四识别结果组合，得到第二合并结果。

本实施例中，第一合并结果与第一识别结果相比，其中，除第一相同部分之外的内容，第一合并结果中是第二次对待二次识别区域进行字符识别得到的，第一识别结果中是第一次对待二次识别区域进行字符识别得到的，第一合并结果相较于第一识别结果，漏识率更低，同理，第二合并结果与第二识别结果相比，其中，除第一相同部分之外的内容，第二合并结果中是第二次对待二次识别区域进行字符识别得到的，第二识别结果中是第一次对待二次识别区域进行字符识别得到的，第二合并结果相较于第二识别结果，漏识率更低。

步骤S50，对所述第一合并结果进行纠错处理，得到第五识别结果，对所述第二合并结果进行纠错处理，得到第六识别结果；

本实施例中，所述对所述第一合并结果进行纠错处理，得到第五识别结果的步骤包括：

基于与每个元素相邻的元素，确定每个元素的正确概率值；

本实施例中，首先对第一合并结果进行分词处理，得到第一元素组，第一元素组中包含若干个元素。例如，在第一合并结果中，有一行文本信息为“红细胞计数(RBC)”，通过分词处理后，得到两个元素，分别为“红细胞计数”以及“RBC”。起先，设置检测每个元素在标准元素库中是否存在，将2011年卫生部颁布的行业标准文件：WS363(卫生信息数据元目录)和WS364(卫生信息数据元值域代码)作为标准元素库。若存在，则将元素的正确概率值设置为0.5，若不存在，则将元素的概率值设置为0。由于“红细胞计数”与“RBC”在标准元素库中存在，则“红细胞计数”与“RBC”的正确概率值均为0.5，又因为“红细胞计数”与“RBC”是相邻的元素，且“红细胞计数”与“RBC”在标准元素库中是相邻出现的，因此，将“RBC”与“RBC”的正确概率值均提升到1。若一实施例中，第一元素组中某个元素为“红细胞计”，由于标准元素库中不存在这一元素，则将该元素的概率值设置为0。

本实施例中，预设阈值可以设置为0.5，即在确定每个元素的正确概率值后，对正确概率值低于0.5的元素进行纠错。例如，对元素“红细胞计”，可通过计算元素“红细胞计”与标准元素库中各个元素的编辑距离，若在标准元素库中存在元素A以及元素B与元素“红细胞计”的编辑距离最短，且元素A在标准元素库中相邻的元素与元素“红细胞计”在第一合并结果中相邻的元素相同，则以元素A替代元素“红细胞计”，完成对元素“红细胞计”的纠错。以此类推，按照上述方法对第一合并结果中每个正确概率值低于预设阈值的元素进行纠错，得到第五识别结果。

参照上述对第一合并结果进行纠错的实施例，以类似的方式对第二合并结果进行纠错，得到第六识别结果，在此不做赘述。

步骤S60，确定所述第五识别结果以及所述第六识别结果的第二相同部分，获取所述第五识别结果中所述第二相同部分之外的第一内容对应的第一可信度结果，获取所述第六识别结果中所述第二相同部分之外的第二内容对应的第二可信度结果；

本实施例中，若第五识别结果以及第六识别结果中存在部分内容相同，称作第二相同部分，则可以确认，该第二相同部分的识别准确度很高，然后进一步获取第五识别结果中第二相同部分之外的第一内容对应的第一可信度结果，获取第六识别结果中第二相同部分之外的第二内容对应的第二可信度结果。本实施例中，可以以第一光学字符识别系统的识别准确度作为第一可信度结果，以第二光学字符识别系统的识别准确度作为第二可信度结果。

步骤S70，基于所述第一可信度结果以及所述第二可信度结果，从所述第一内容或所述第二内容中提取目标内容，组合所述第二相同部分以及所述目标内容，得到最终识别结果。

本实施例中，步骤S70包括：

本实施例中，若第一可信度结果高于第二可信度结果，则说明第一内容的准确度更高，便可将第一内容作为目标内容，并组合第二相同部分以及目标内容，得到最终识别结果。

本实施例中，若第二可信度结果高于第一可信度结果，则说明第二内容的准确度更高，便可将第二内容作为目标内容，并组合第二相同部分以及目标内容，得到最终识别结果。

本实施例中，分别通过第一光学字符识别系统以及第二光学字符识别系统，对原始图片进行字符识别，得到第一识别结果以及第二识别结果；确定所述第一识别结果以及所述第二识别结果的第一相同部分，并基于所述第一相同部分确定原始图片中的待二次识别区域；分别通过第一光学字符识别系统以及第二光学字符识别系统，对所述待二次识别区域进行字符识别，得到第三识别结果以及第四识别结果；基于所述第一相同部分、所述第三识别结果以及所述第四识别结果，得到第一合并结果以及第二合并结果；对所述第一合并结果进行纠错处理，得到第五识别结果，对所述第二合并结果进行纠错处理，得到第六识别结果；确定所述第五识别结果以及所述第六识别结果的第二相同部分，获取所述第五识别结果中所述第二相同部分之外的第一内容对应的第一可信度结果，获取所述第六识别结果中所述第二相同部分之外的第二内容对应的第二可信度结果；基于所述第一可信度结果以及所述第二可信度结果，从所述第一内容或所述第二内容中提取目标内容，组合所述第二相同部分以及所述目标内容，得到最终识别结果。通过本实施例，通过第一光学字符识别系统以及第二光学字符识别系统联合，降低单一光学字符识别系统的漏识率以及错识率，且通过纠错机制对光学字符识别结果进行纠错，进一步提高了最终识别结果的准确性。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有数据提取程序，所述数据提取程序被处理器执行时实现如上所述的数据提取方法的步骤。

本发明计算机可读存储介质的具体实施例与上述数据提取方法的各个实施例基本相同，在此不做赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种数据提取方法，其特征在于，所述数据提取方法包括以下步骤：

2.如权利要求1所述的数据提取方法，其特征在于，所述基于所述第一相同部分确定原始图片中的待二次识别区域的步骤包括：

确定所述第一相同部分在所述原始图片中对应的第一区域；

3.如权利要求1所述的数据提取方法，其特征在于，所述基于所述相同部分、所述第三识别结果以及所述第四识别结果，得到第一合并结果以及第二合并结果的步骤包括：

4.如权利要求1所述的数据提取方法，其特征在于，所述对所述第一合并结果进行纠错处理，得到第五识别结果的步骤包括：

基于与每个元素相邻的元素，确定每个元素的正确概率值；

5.如权利要求1所述的数据提取方法，其特征在于，所述基于所述第一可信度结果以及所述第二可信度结果，从所述第一内容或所述第二内容中提取目标内容，组合所述第二相同部分以及所述目标内容，得到最终识别结果的步骤包括：

6.一种数据提取装置，其特征在于，所述数据提取装置包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据提取程序，所述数据提取程序被所述处理器执行时实现如下步骤：

7.如权利要求6所述的数据提取装置，其特征在于，所述数据提取程序被所述处理器执行时还实现如下步骤：

确定所述第一相同部分在所述原始图片中对应的第一区域；

8.如权利要求6所述的数据提取装置，其特征在于，所述数据提取程序被所述处理器执行时还实现如下步骤：

9.如权利要求6所述的数据提取装置，其特征在于，所述数据提取程序被所述处理器执行时还实现如权利要求4或5所述的数据提取方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有数据提取程序，所述数据提取程序被处理器执行时实现如权利要求1至5中任一项所述的数据提取方法的步骤。