CN111695439A

CN111695439A - 图像结构化数据提取方法、电子装置及存储介质

Info

Publication number: CN111695439A
Application number: CN202010431403.7A
Authority: CN
Inventors: 施伟斌; 刘鹏; 刘玉宇
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-05-20
Filing date: 2020-05-20
Publication date: 2020-09-22
Anticipated expiration: 2040-05-20
Also published as: WO2021151270A1; CN111695439B

Abstract

本发明涉及数据处理技术，提供了一种图像结构化数据提取方法、电子装置及存储介质。该方法将待提取结构化数据的图像输入位置检测模型，得到图像中各个待识别区域的坐标，切割待识别区域后执行变换处理，将变换前及变换后的待识别区域均输入识别模型，得到初始识别结果，从初始识别结果中筛选中各个待识别区域的目标识别结果，根据各目标识别结果的字符与词库中各类别的字符的相似度，选取出类别结果，根据各类别结果与目标识别结果生成结构化数据文件。本发明可以准确提取图像识别结果中的结构化数据。另外，本发明还涉及人工智能中的图像识别技术以及区块链技术，且本发明可应用于智慧政务、智慧教育等领域中，从而推动智慧城市的建设。

Description

图像结构化数据提取方法、电子装置及存储介质

技术领域

本发明涉及数据处理领域，尤其涉及一种图像结构化数据提取方法、电子装置及存储介质。

背景技术

传统的光学字符识别(Optical Character Recognition，OCR)模型需要对每个字段都单独训练一个模型，如果所要处理的图片数据字段类型比较多，则需要大量的标注数据来训练多个模型，开发周期较长，模型训练时所占内存空间也较大，且由于传统的OCR识别模型仅识别文字的信息，不能提取识别结果中的结构化数据，这是本领域技术人员亟待解决的问题。

发明内容

鉴于以上内容，本发明提供一种图像结构化数据提取方法、电子装置及存储介质，其目的在于解决现有技术中传统的OCR识别模型不能提取识别结果中的结构化数据的技术问题。

为实现上述目的，本发明提供一种图像结构化数据提取方法，该方法包括：

接收步骤：接收用户发出的提取图像结构化数据的请求，获取所述请求中携带的待提取结构化数据的原始图像；

识别步骤：将所述原始图像输入预先训练好的位置检测模型，得到所述原始图像中多个待识别区域的位置坐标信息，基于所述位置坐标信息对所述多个待识别区域进行切割，对切割后的待识别区域执行图像变换处理，将执行变换处理前及执行变换处理后的待识别区域，输入预先训练好的识别模型，得到各个所述待识别区域对应的初始识别结果，基于预设筛选规则从各个所述初始识别结果中筛选中各个待识别区域对应的目标识别结果；及

提取步骤：利用预设算法计算各个待识别区域的目标识别结果对应的字符与预设词库中各类别的字符的相似度，选取最大相似度值对应的类别字符作为该待识别区域的类别结果，将各类别结果与目标识别结果填充至预设模板文件生成所述原始图像的结构化数据文件，并将所述结构化数据文件反馈至所述用户。

优选的，所述对切割后的待识别区域执行图像变换处理包括：

分别提取各个待识别区域的高维向量，将各所述高维向量分别与预设的低维向量库进行匹配，若匹配到对应的低维向量，则生成配对样本作为该待识别区域变换处理后的特征向量；

若未匹配到对应的低维向量，则选取所述低维向量库中预设的低维向量作为该待识别区域变换处理后的特征向量。

优选的，所述基于预设筛选规则从各个所述初始识别结果中筛选中各个待识别区域对应的目标识别结果包括：

分别读取各待识别区域的执行变换处理前的初始识别结果的置信度和执行变换处理后的初始识别结果的置信度，当执行变换处理前的初始识别结果的置信度大于或等于预设阈值时，将执行变换处理前的初始识别结果作为所述目标识别结果；

当执行变换处理前的初始识别结果的置信度小于预设阈值，且当执行变换处理后的初始识别结果的置信度大于执行变换处理前的初始识别结果的置信度时，将执行变换处理后的初始识别结果作为所述目标识别结果。

优选的，所述提取步骤还包括：

验证各所述待识别区域的类别结果是否符合预设的验证条件，当所述待识别区域的类别结果不符合预设的验证条件时，基于该待识别区域的目标识别结果的字符分别构建正则表达式，将该正则表达式与预设词库中各类字符进行匹配，得到匹配结果作为该待识别区域的类别结果。

优选的，所述对切割后的待识别区域执行图像变换处理还包括：对切割后的待识别区域执行上采样处理、亮度均衡处理或随机透视变换处理。

为实现上述目的，本发明还提供一种电子装置，该电子装置包括：存储器及处理器，所述存储器上存储图像结构化数据提取程序，所述图像结构化数据提取程序被所述处理器执行，实现如下步骤：

优选的，所述提取步骤还包括：

为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质中包括图像结构化数据提取程序，所述图像结构化数据提取程序被处理器执行时，实现如上所述图像结构化数据提取方法中的任意步骤。

本发明提出的图像结构化数据提取方法、电子装置及存储介质，通过对检测模型的输出结果进行图像变换处理，扩展同一待识别区域的数据，再将未变换处理和变换处理后的待识别图像均输入识别模型中，对不同识别结果进行进一步的筛选比对，得到最优的结果作为输出结果，可以提高识别模型输出结果的准确率，通过正则匹配和数据库查找的方法弥补了识别模型在获取结构化数据方面的不足，相对于传统OCR方案，模型训练所需要的训练数据相对较少，节省了系统内存。

附图说明

图1为本发明电子装置较佳实施例的示意图；

图2为图1中图像结构化数据提取程序较佳实施例的模块示意图；

图3为本发明图像结构化数据提取方法较佳实施例的流程图；

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参照图1所示，为本发明电子装置1较佳实施例的示意图。

该电子装置1包括但不限于：存储器11、处理器12、显示器13及网络接口14。所述电子装置1通过网络接口14连接网络，获取原始数据。其中，所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobilecommunication，GSM)、宽带码分多址(Wideband Code Division Multiple Access，WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi、通话网络等无线或有线网络。

其中，存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器11可以是所述电子装置1的内部存储单元，例如该电子装置1的硬盘或内存。在另一些实施例中，所述存储器11也可以是所述电子装置1的外部存储设备，例如该电子装置1配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，所述存储器11还可以既包括所述电子装置1的内部存储单元也包括其外部存储设备。本实施例中，存储器11通常用于存储安装于所述电子装置1的操作系统和各类应用软件，例如图像结构化数据提取程序10的程序代码等。此外，存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器12在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述电子装置1的总体操作，例如执行数据交互或者通信相关的控制和处理等。本实施例中，所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据，例如运行图像结构化数据提取程序10的程序代码等。

显示器13可以称为显示屏或显示单元。在一些实施例中显示器13可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-EmittingDiode，OLED)触摸器等。显示器13用于显示在电子装置1中处理的信息以及用于显示可视化的工作界面，例如显示数据统计的结果。

网络接口14可选地可以包括标准的有线接口、无线接口(如WI-FI接口)，该网络接口14通常用于在所述电子装置1与其它电子设备之间建立通信连接。

图1仅示出了具有组件11-14以及图像结构化数据提取程序10的电子装置1，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

可选地，所述电子装置1还可以包括用户接口，用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard)，可选的用户接口还可以包括标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode，OLED)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在电子装置1中处理的信息以及用于显示可视化的用户界面。

该电子装置1还可以包括射频(Radio Frequency，RF)电路、传感器和音频电路等等，在此不再赘述。

在上述实施例中，处理器12执行存储器11中存储的图像结构化数据提取程序10时可以实现如下步骤：

所述存储设备可以为电子装置1的存储器11，也可以为与电子装置1通讯连接的其它存储设备。

关于上述步骤的详细介绍，请参照下述图2关于图像结构化数据提取程序10实施例的程序模块图以及图3关于图像结构化数据提取方法实施例的流程图的说明。

在其他实施例中，所述图像结构化数据提取程序10可以被分割为多个模块，该多个模块被存储于存储器11中，并由处理器12执行，以完成本发明。本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段。

参照图2所示，为图1中图像结构化数据提取程序10一实施例的程序模块图。在本实施例中，所述图像结构化数据提取程序10可以被分割为：初始化模块110、识别模块120及提取模块130。

接收模块110，用于接收用户发出的提取图像结构化数据的请求，获取所述请求中携带的待提取结构化数据的原始图像。

在本实施例中，在接收到用户发出的提取图像结构化数据的请求后，解析该请求，获取请求中携带的待提取结构化数据的原始图像，其中，请求中可以包括待提取结构化数据的原始图像，也可以包括待提取结构化数据的原始图像的存储路径及原始图像的唯一标识。也就是说，原始图像可以是用户在提交请求时一并录入的，也可以是用户提交图像结构化数据提取请求之后从请求指定的地址中获取的，原始图像可以是身份证件图像、发票图像等。

识别模块120，用于将所述原始图像输入预先训练好的位置检测模型，得到所述原始图像中多个待识别区域的位置坐标信息，基于所述位置坐标信息对所述多个待识别区域进行切割，对切割后的待识别区域执行图像变换处理，将执行变换处理前及执行变换处理后的待识别区域，输入预先训练好的识别模型，得到各个所述待识别区域对应的初始识别结果，基于预设筛选规则从各个所述初始识别结果中筛选中各个待识别区域对应的目标识别结果。

在本实施例中，将原始图像输入预先训练好的位置检测模型，得到原始图像的多个待识别区域的位置坐标信息，位置检测模型的深度学习模型可以由Faster-RCNN、SSD或Yolo等训练得到，在训练位置检测模型时，可以利用预设的标注工具(例如，Label Imag工具)以矩形框的形式，分别标注出各原始图像的待识别区域，并生成与各原始图像对应的预设格式的标注文件，预设格式的标注文件可以为可扩展标记语言(Extensible MarkupLanguage，XML)格式，通过生成XML格式的标注文件，可使计算机能读取到原始图像的信息，例如，原始图像中各个待识别区域的坐标信息等。

原始图像输入位置检测模型，可以得到每个待识别区域在原图中所对应的坐标信息，根据坐标信息可在原图中切割出相应的待识别区域对切割后的待识别区域执行图像变换处理，进一步地，对切割后的待识别区域执行图像变换处理包括：分别提取各个待识别区域的高维向量，将各所述高维向量分别与预设的低维向量库进行匹配，若匹配到对应的低维向量，则生成配对样本作为该待识别区域变换处理后的特征向量；若未匹配到对应的低维向量，则选取所述低维向量库中预设的低维向量作为该待识别区域变换处理后的特征向量。

通过对位置检测模型的输出结果进行图像变换处理，扩展同一待识别区域的数据，再将变换处理后的待识别区域输入识别模型中，对不同识别结果进行进一步的筛选比对，得到最优的结果作为输出结果，可以提升后续识别模型输出结果的准确率。

在一个实施例中，对切割后的待识别区域执行图像变换处理还包括：对切割后的待识别区域执行上采样处理、亮度均衡处理或随机透视变换处理。若原始图像比较模糊或者待识别区域比较模糊，可以通过对待识别区域进行上采样变换，补充待识别区域的信息，再进行裁剪可以使图片变得更加易于识别模型的计算，从而得出相应的识别结果。对于识别模型而言，光照比较影响识别的效果，如果待识别区域一部分被强光照射或存在反光等现象，这样的待识别区域的图片就不利于识别出准确的结果，因此还可以对待识别区域的图片进行亮度均衡处理。

之后，将执行变换处理前及执行变换处理后的待识别区域，均输入预先训练好的识别模型，得到各待识别区域对应的初始识别结果，基于预设筛选规则从各所述初始识别结果中筛选中各个待识别区域对应的目标识别结果。

识别模型可以通过卷积循环神经网络模型训练的得到。其中，还可以预先将待识别区域分为“重要”、“次要”两个级别，例如对于身份证，通常业务逻辑里面，姓名、身份证号和地址相对于其他字段更重要，对于精度的要求也更高，实际应用场景中，可对这三个字段进行专有检测和识别模型的定制，其余字段不做定制，直接使用通用识别模型。由于执行了图像变换处理，识别模型的输出结果将会增多，具体表现在同一待识别区域会对应输出多个初始识别结果。

在一个实施例中，所述基于预设筛选规则从各个所述初始识别结果中筛选中各个待识别区域对应的目标识别结果包括：

当执行变换处理前的初始识别结果的置信度大于或等于预设阈值(例如，90％)，说明识别的准确性高，可直接选取执行变换处理前的识别结果作为目标结果，若小于预设阈值，则与执行变换处理后的识别结果比较置信度大小再选取目标识别结果，可提高选取的识别结果的准确性。

提取模块130，用于利用预设算法计算各个待识别区域的目标识别结果对应的字符与预设词库中各类别的字符的相似度，选取最大相似度值对应的类别字符作为该待识别区域的类别结果，将各类别结果与目标识别结果填充至预设模板文件生成所述原始图像的结构化数据文件，并将所述结构化数据文件反馈至所述用户。

在本实施例中，识别模型仅把每个待识别区域的内容识别出来，无法判断的目标识别结果中的语义或所属类别，即不能获取原始图像的结构化数据，获取结构化数据是指获取每个待识别区域的目标识别结果的对应的类别属性。可以利用预设算法(例如，余弦相似度算法)计算各个待识别区域的目标识别结果对应的字符与预设词库中各类别的字符的相似度，预设词库包含各类别的关键字信息，例如，原始图像为身份证件为例，预设词库包含大量的姓名、性别、出生日期、身份证号、地址等类别信息及与类别信息对应的字符信息，选取相似度值最大的类别字符作为待识别区域的类别结果，将各个类别结果与目标识别结果填充至预设模板文件生成原始图像的结构化数据文件，并将所述结构化数据文件反馈至用户。

在一个实施例中，还可以对类别结果进行验证，例如，目标识别结果为“上海市第六入民医院”，该结果中存在错字，而预设词库里中的名称都是标准正确的，即当相似度值大于99％，且识别结果和预设词库的名称不一样时，则可以将预设词库的名称替代该识别结果进行纠错，进一步提升输出结果的准确率。

具体地，验证各所述待识别区域的类别结果是否符合预设的验证条件，当所述待识别区域的类别结果不符合预设的验证条件时，基于该待识别区域的目标识别结果的字符分别构建正则表达式，将该正则表达式与预设词库中各类字符进行匹配，得到匹配结果作为该待识别区域的类别结果。

例如：以原始图像为身份证图像为例，若某个待识别区域的目标识别结果是单字，构建的正则表达式匹配到预设词库中的“男”或“女”的字符，则该待识别区域的类别结果为“性别”；若某个待识别区域的目标识别结果构建的正则表达式为“*省*市*”，匹配到预设词库中的“省”、“市”，则该待识别区域的类别结果为“住址”。

此外，本发明还提供一种图像结构化数据提取方法。参照图3所示，为本发明图像结构化数据提取方法的实施例的方法流程示意图。电子装置1的处理器12执行存储器11中存储的图像结构化数据提取程序10时实现图像结构化数据提取方法的如下步骤：

步骤S10：接收用户发出的提取图像结构化数据的请求，获取所述请求中携带的待提取结构化数据的原始图像。

步骤S20：将所述原始图像输入预先训练好的位置检测模型，得到所述原始图像中多个待识别区域的位置坐标信息，基于所述位置坐标信息对所述多个待识别区域进行切割，对切割后的待识别区域执行图像变换处理，将执行变换处理前及执行变换处理后的待识别区域，输入预先训练好的识别模型，得到各个所述待识别区域对应的初始识别结果，基于预设筛选规则从各个所述初始识别结果中筛选中各个待识别区域对应的目标识别结果。

步骤S30：利用预设算法计算各个待识别区域的目标识别结果对应的字符与预设词库中各类别的字符的相似度，选取最大相似度值对应的类别字符作为该待识别区域的类别结果，将各类别结果与目标识别结果填充至预设模板文件生成所述原始图像的结构化数据文件，并将所述结构化数据文件反馈至所述用户。

此外，本发明实施例还提出一种计算机可读存储介质，该计算机可读存储介质可以是硬盘、多媒体卡、SD卡、闪存卡、SMC、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器等等中的任意一种或者几种的任意组合。所述计算机可读存储介质中包括图像结构化数据提取程序10，所述图像结构化数据提取程序10被处理器执行时实现如下操作：

在一实施例中，本发明所提供的图像结构化数据提取方法可应用于智慧政务、智慧教育等领域中，从而推动智慧城市的建设。

在另一实施例中，本发明所提供的图像结构化数据提取方法，为进一步保证上述所有出现的数据的私密和安全性，上述所有数据还可以存储于一区块链的节点中。例如待提取结构化数据的原始图像、或结构化数据文件等等，这些数据均可存储在区块链节点中。

需要说明的是，本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

本发明之计算机可读存储介质的具体实施方式与上述图像结构化数据提取方法的具体实施方式大致相同，在此不再赘述。

需要说明的是，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，电子装置，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种图像结构化数据提取方法，应用于电子装置，其特征在于，所述方法包括：

2.如权利要求1所述的图像结构化数据提取方法，其特征在于，所述对切割后的待识别区域执行图像变换处理包括：

3.如权利要求1所述的图像结构化数据提取方法，其特征在于，所述基于预设筛选规则从各个所述初始识别结果中筛选中各个待识别区域对应的目标识别结果包括：

4.如权利要求1所述的图像结构化数据提取方法，其特征在于，所述提取步骤还包括：

5.如权利要求1所述的图像结构化数据提取方法，其特征在于，所述对切割后的待识别区域执行图像变换处理还包括：对切割后的待识别区域执行上采样处理、亮度均衡处理或随机透视变换处理。

6.一种电子装置，该电子装置包括存储器及处理器，其特征在于，所述存储器上存储图像结构化数据提取程序，所述图像结构化数据提取程序被所述处理器执行，实现如下步骤：

7.如权利要求6所述的电子装置，其特征在于，所述对切割后的待识别区域执行图像变换处理包括：

8.如权利要求6所述的电子装置，其特征在于，所述基于预设筛选规则从各个所述初始识别结果中筛选中各个待识别区域对应的目标识别结果包括：

9.如权利要求8所述的电子装置，其特征在于，所述提取步骤还包括：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中包括图像结构化数据提取程序，所述图像结构化数据提取程序被处理器执行时，实现如权利要求1至5中任一项所述图像结构化数据提取方法的步骤。