CN106844767B

CN106844767B - 格式文档关键信息块配准及提取的方法及装置

Info

Publication number: CN106844767B
Application number: CN201710100063.8A
Authority: CN
Inventors: 史存召; 何坤; 肖柏华; 贾馥溪; 王春恒
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2017-02-23
Filing date: 2017-02-23
Publication date: 2019-12-13
Anticipated expiration: 2037-02-23
Also published as: CN106844767A

Abstract

本发明涉及一种格式文档关键信息块配准及提取的方法及装置，所述方法：对格式文档的灰度图像进行模式定义；根据标签部件的位置、标签域构建弹性框架；根据标签部件的图像像素占空比，确定弹性框架的配准目标的候选集合；根据标签部件的图像特征对弹性框架进行粗配准，确定价值部件的初始矩形框；根据标签部件的位置对价值部件的初始矩形框进行精确配准，确定价值部件的精准矩形框；根据所述标签部件的位置、字符属性信息及价值部件的精准矩形框确定格式文档关键信息块。本发明格式文档关键信息块配准及提取的方法通过构建弹性框架、多次配准，从而能够准确提取价值部件的精准矩形框内容提取准确，便于数据库的统一管理。

Description

格式文档关键信息块配准及提取的方法及装置

技术领域

本发明涉及格式文档配准领域，更具体地，涉及一种格式文档关键信息块配准及提取的方法及装置。

背景技术

近年来，随着网络技术的迅猛发展，人类已经进入了信息划时代，传统的信息获取方法，如书籍、报纸以及期刊等由于携带的不方便性，同时存放需要大量的空间，不便于编辑整理和传播。人们越来越倾向于使用磁盘等电子设备来存储，因此将纸质材料文字信息快速输入计算机有很重要的意义，OCR(Optical Character Recognition，光学字符识别)技术由此产生。OCR技术能够实现文字信息的告高速、自动的输入，节约了大量的人力资源，目前已经得到广泛的应用。

任何有特定模板、方便提取特定格式的资料都可以称为有格式的文档，比如票据流水单、报表、身份证、名片等。格式文档的数字化应用十分广泛。作为现代经济核心的金融领域，各大商业公司，特别是商业银行，都有着大量的新增或遗留的业务报表需要处理，面临着各项业务中核对转账支票、批量业务数据、提交表和进账单是否相符等大量业务需求的压力，而格式文档的自动识别将会解决很大问题。

发明内容

为了解决现有技术中的上述问题，即为了解决格式文档关键信息块自动识别的问题，本发明提供了一种格式文档关键信息块配准及提取的方法及装置。

为实现上述目的，本发明提供了如下方案：

一种格式文档关键信息块配准及提取的方法，所述方法包括：

对格式文档的灰度图像进行模式定义，确定所述格式文档的部件信息；所述部件信息包括各标签部件的位置、标签域、图像特征和图像像素占空比，及各价值部件的位置；其中，所述格式文档中内容不变部分为标签部件，内容可变部分为价值部件，且各所述标签部件与价值部件一一对应；

根据所述标签部件的位置、标签域构建弹性框架；

根据所述标签部件的图像像素占空比，确定所述弹性框架的配准目标的候选集合；

在所述候选集合中，根据所述标签部件的图像特征对所述弹性框架进行粗配准，确定价值部件的初始矩形框；

根据所述标签部件的位置对所述价值部件的初始矩形框进行精确配准，确定价值部件的精准矩形框；

根据所述标签部件的位置、字符属性信息及价值部件的精准矩形框确定所述格式文档关键信息块。

可选的，根据以下公式确定各所述标签部件的图像像素占空比：

其中，Area_rect为所述标签部件的矩形框rect的面积，Area_front为所述标签部件的矩形框rect中前景像素的面积。

可选的，所述根据所述标签部件的位置、标签域构建弹性框架具体包括：

根据各所述标签部件的位置，确定各所述标签部件的相对位置；

根据所述标签部件的标签域确定所述标签部件的大小；

根据所述标签部件的相对位置和大小构建所述弹性框架。

可选的，所述确定所述弹性框架的配准目标的候选集合具体包括：

对所述格式文档的灰度图像进行二值化处理，得到处理后的图像；

对所述处理后的图像提取连通域；

根据提取的连通域提取超像素点；

根据所述超像素点确定所述配准目标的候选位置，形成候选集合。

可选的，所述根据所述超像素点确定所述配准目标的候选位置具体包括：

采用滑窗遍历的方法，将所述弹性框架在所述灰度图像上滑动，确定所述弹性框架的多个整体位置OP，各所述OP为弹性框架在滑动过程中左上部件的左上顶点的位置；

对于各所述OP，根据所述图像像素的占空比和图像特征信息，确定当前OP对应的所有标签部件中的各匹配标签部件的位置组合PPs，用(OP+PPs)表示所述配准目标的候选位置。

可选的，所述确定各匹配标签部件的位置组合PPs具体包括：

通过第i个标签部件在对应标签域中滑动，确定所述第i个标签部件内的矩形框rect的位置PP，当前OP对应的所有标签部件内的矩形框rect形成集合localrects；所述PP为所述第i个标签部件内的矩形框rect 的左上顶点的位置；

计算所述集合localrects中各所述矩形框的占空比；

分别比较各所述矩形框的占空比与占空比阈值的大小，若小于，则删除所述集合localrects内对应的矩形框；否则保留；

根据以下公式选择多个与模式定义形成匹配的匹配标签部件的矩形框rect_y：

其中，recttemp在模式定义中对应localrects的模板部件， dis()为计算两个rect的特征距离函数，hog[i]为第i个局部弹性部件的hog 特征；

根据各所述匹配标签部件的矩形框rect_y的位置，形成当前OP 对应的所有标签部件中的匹配标签部件的位置组合PPs。

可选的，所述根据所述标签部件的图像特征对所述弹性框架进行粗配准具体包括：

计算各候选集合中所有标签部件的特征距离之和，确定特征距离之和中最小的候选位置：

其中，rect_ys为每种候选位置对应的全部矩形框组合，RC 为所有配准目标的各候选位置对应的矩形框的集合，Rects表示弹性框架的粗配准结果；

根据所述弹性框架的粗配准结果及对应标签部件的相对位置确定价值部件的初始矩形框。

可选的，所述确定价值部件的精准矩形框具体包括：

1)根据每个价值部件的初始矩形框的周围信息进行收缩；和/或

2)基于广度优先的方式对每个价值部件的初始矩形框进行像素补缺。

可选的，所述每个价值部件的初始矩形框的周围信息进行收缩具体包括：从上下左右四个方向分别向对应价值部件的初始矩形框rect 的中心收缩，直到遇到前景像素则停止对应方向的收缩；

所述基于广度优先的方式对每个价值部件的初始矩形框 rect进行像素补缺具体包括：沿着对应价值部件的初始矩形框rect的中心向外的方向扩展像素，每一步仅仅扩展一个方向并且同时扩展所有的初始矩形框rect，以设定步长在扩展方向上扩展，如果对应矩形框rect新扩展的区域无前景像素或者与其他矩形框rect有重叠，则便停止对应矩形框rect在对应方向的扩展；直到所有的矩形框rect在每个方向均扩展完毕。

根据本发明的实施例，本发明公开了以下技术效果：

本发明格式文档关键信息块配准及提取的方法通过对格式文档的灰度图像进行模式定义，可准确确定格式文档的部件信息；通过构建弹性框架、多次配准，从而能够准确提取价值部件的精准矩形框；通过标签label部件的位置、字符属性信息及价值部件的精准矩形框可确定格式文档关键信息块，内容提取准确，便于数据库的统一管理。

为实现上述目的，本发明提供了如下方案：

一种格式文档关键信息块配准及提取的系统，所述系统包括：

定义模块，用于对格式文档的灰度图像进行模式定义，确定所述格式文档的部件信息；所述部件信息包括各标签部件的位置、标签域、图像特征和图像像素占空比，及各价值部件的位置；其中，所述格式文档中内容不变部分为标签部件，内容可变部分为价值部件，且各所述标签部件与价值部件一一对应；

构建模块，用于根据所述标签部件的位置、标签域构建弹性框架；

确定模块，用于根据所述标签部件的图像像素占空比，确定所述弹性框架的配准目标的候选集合；

粗配模块，用于在所述候选集合中，根据所述标签部件的图像特征对所述弹性框架进行粗配准，确定价值部件的初始矩形框；

精配模块，用于根据所述标签部件的位置对所述价值部件的初始矩形框进行精确配准，确定价值部件的精准矩形框；

输出模块，用于输出所述标签部件的位置、字符属性信息及价值部件的精准矩形框，以确定所述格式文档关键信息块。

根据本发明的实施例，本发明公开了以下技术效果：

本发明格式文档关键信息块配准及提取的系统通过设置定义模块，对格式文档的灰度图像进行模式定义，可准确确定格式文档的部件信息；通过设置构建模块、确定模块、粗配模块和精配模块，可构建弹性框架、多次配准，从而能够准确提取价值部件的精准矩形框；通过输出模块，可根据标签label部件的位置、字符属性信息及价值部件的精准矩形框确定格式文档关键信息块，内容提取准确，便于数据库的统一管理。

附图说明

图1是本发明格式文档关键信息块配准及提取的方法的流程图；

图2是模式定义流程图；

图3是格式文档的样例图像；

图4是模式定义说明图像；

图5是弹性框架示意图图像；

图6是连通域提取示意图图像；

图7是超像素表示示意图图像；

图8是弹性框架配准示意图图像；

图9是粗配准结果图像；

图10是精确配准结果图像；

图11是本发明格式文档关键信息块配准及提取的系统的模块结构示意图。

符号说明：

定义模块—1，构建模块—2，确定模块—3，粗配模块—4，精配模块—5，输出模块—6。

具体实施方式

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

如图1所示，本发明格式文档关键信息块配准及提取的方法包括：

步骤100：对格式文档的灰度图像进行模式定义，确定所述格式文档的部件信息；所述部件信息包括各标签label部件的位置、label 域、图像特征和图像像素占空比，及各价值value部件的位置；其中，所述格式文档中内容不变部分为label部件，内容可变部分为value部件，且各所述label部件与value部件一一对应。

步骤200：根据所述标签部件的位置、标签域构建弹性框架；

步骤300：根据所述标签部件的图像像素占空比，确定所述弹性框架的配准目标的候选集合；

步骤400：在所述候选集合中，根据所述标签部件的图像特征对所述弹性框架进行粗配准，确定价值部件的初始矩形框；

步骤500：根据所述标签部件的位置对所述价值部件的初始矩形框进行精确配准，确定价值部件的精准矩形框；

步骤600：根据所述标签部件的位置、字符属性信息及价值部件的精准矩形框确定所述格式文档关键信息块。

如图2所示，所述对对格式文档的灰度图像进行模式定义具体包括：输入格式文档的灰度图像；对所述灰度图像进行二值化处理；根据处理后的结果确定部件信息，记录label(标签)-value(价值)对的信息；重复上述操作，直至信息处理完毕后，存储所述部件信息。

如图3所示为一个格式文档的灰度图像的样例，从众多的此类格式文档中可以归纳出格式的共同点：每一种格式文档，都有内容不变的部分，记为标签label；其对应着内容变化的部分，记为价值value；label 与value均称之为部件(如图4所示)；所有label部件的相对位置关系是确定不变的，value与其对应的label位置关系也是固定的，只是value尺寸是变化的。

label部件信息包括：(1)位置信息(上、下、左、右)， (2)label域，(3)图像特征信息及(4)图像像素占空比信息。所述value 部件的特征信息包括：位置信息(上，下，左，右)。

如图5所示，每个label部件均有属于自己的label域，其为一个弹性移动域，为了克服图像形变所引起的位置偏差，在本方法中移动域设置为以当前矩形框rect为基础，左右两个方向分别增加a长度，上下两个方向分别增加a/2长度，a设置为矩形框rect的高度。

在本发明中，采用的是梯度直方图hog(Histogram of Oriented Gradients)特征为图像特征，根据文献【Dalal N,Triggs B.Histograms of oriented gradients forhuman detection[C]//2005IEEE Computer Society Conference on Computer Visionand Pattern Recognition(CVPR'05).IEEE, 2005,1:886-893.】提取hog特征。

根据公式(1)确定各所述标签部件的图像像素占空比：

其中，Area_rect为所述标签部件的矩形框rect的面积， Area_front为所述标签部件的矩形框rect中前景像素(即文字区域)的面积。

在步骤200中，所述根据所述标签部件的位置、标签域构建弹性框架具体包括：

步骤201：根据各所述label部件的位置，确定各所述label部件的相对位置；步骤202：根据所述label部件的label域确定所述标签部件的大小；根据所述label部件的相对位置和大小构建所述弹性框架。

在步骤300中，所述确定所述弹性框架的配准目标的候选集合具体包括：

步骤301：对所述格式文档的灰度图像进行二值化处理，得到处理后的图像；步骤302：对所述处理后的图像提取连通域；步骤303：根据提取的连通域提取超像素点；步骤304：根据所述超像素点确定所述配准目标的候选位置，形成候选集合。

每个连通域使用一个矩形框rect表示，如图6所示，每个字符可能包含一个或多个矩形框rect。在提取的矩形框rect的基础之上，进行超像素点的提取，每个矩形框rect均可以看作一个超像素点，用其左上顶点进行表示，如图7所示。

进一步地，在步骤304中，所述根据所述超像素点确定所述配准目标的候选位置具体包括：

步骤3041：采用滑窗遍历的方法，将所述弹性框架在所述灰度图像上滑动，确定所述弹性框架的多个整体位置OP，各所述OP为弹性框架在滑动过程中左上部件的左上顶点的位置。其中，滑动方向为从上到下，从左到右。

步骤3042：对于各所述OP，根据所述图像像素的占空比和图像特征信息，确定当前OP对应的所有标签部件中的各匹配标签部件的位置组合PPs，用(OP+PPs)表示所述配准目标的候选位置，以PPs为左上顶点的label部件的矩形框rect构成弹性框架的候选集合candirects。

其中，在步骤3042中，所述确定各匹配标签部件的位置组合 PPs具体包括：

步骤3042a：通过第i个标签部件在对应标签域中滑动，确定所述第i个标签部件内的矩形框rect的位置PP，当前OP对应的所有标签部件内的矩形框rect形成集合localrects；所述PP为所述第i个标签部件内的矩形框rect的左上顶点的位置。

步骤3042b：根据公式(1)计算所述集合localrects中各所述矩形框的占空比。

步骤3042c：分别比较各所述矩形框的占空比与占空比阈值的大小，若小于，则删除所述集合localrects内对应的矩形框；否则保留。

其中，所述占空比阈值根据所述label部件的图像像素占空比设置，在本实施例中，所述占空比阈值为所述label部件的图像像素占空比的0.5倍，即，当所述集合localrects内的各个矩形框的占空比小于0.5 倍的label部件的图像像素占空比，则删除对应的矩形框，从而实现对集合localrects的过滤。

步骤3042d：根据公式(2)从过滤后的集合localrects中选择多个与模式定义形成匹配的匹配label部件的矩形框rect_y：

其中，recttemp在模式定义中对应localrects的模板部件，dis()为计算两个rect的特征距离函数，hog[i]为第i个局部弹性部件的hog 特征。

步骤3042e：根据各所述匹配标签部件的矩形框rect_y的位置，形成当前OP对应的所有标签部件中的匹配标签部件的位置组合PPs。

如果集合localrects内没有合格的矩形框，所述集合 localrects包含0个rect_y，则当前OP淘汰，对下一个OP进行同样操作。

在步骤400中，所述根据所述标签部件的图像特征对所述弹性框架进行粗配准具体包括：

步骤401：计算各候选集合中所有标签部件的特征距离之和，确定特征距离之和中最小的候选位置，如公式(3)所示：

其中，rect_ys为每种候选位置对应的全部矩形框组合，RC 为所有配准目标的各候选位置对应的矩形框的集合，Rects表示弹性框架的粗配准结果(如图8所示)。

步骤402：根据所述弹性框架的粗配准结果及对应label部件的相对位置确定价值部件的初始矩形框(如图9所示)。

针对弹性框架的粗配准结果Rects，鉴于图像形变，需要进行精准配准策略。具体的，在步骤500中，所述确定价值部件的精准矩形框具体包括：

1)根据每个价值部件的初始矩形框的周围信息进行收缩；和/或2)基于广度优先的方式对每个价值部件的初始矩形框进行像素补缺。

进一步地，所述每个价值部件的初始矩形框的周围信息进行收缩具体包括：从上下左右四个方向分别向对应价值部件的初始矩形框 rect的中心收缩，直到遇到前景像素则停止对应方向的收缩。

所述基于广度优先的方式对每个价值部件的初始矩形框 rect进行像素补缺具体包括：沿着对应价值部件的初始矩形框rect的中心向外的方向扩展像素，每一步仅仅扩展一个方向并且同时扩展所有的初始矩形框rect，以设定步长在扩展方向上扩展，如果对应矩形框rect新扩展的区域无前景像素或者与其他矩形框rect有重叠，则便停止对应矩形框rect在对应方向的扩展；直到所有的矩形框rect在每个方向均扩展完毕。通过对所述value部件的进行精确配准，得到如图10所示的value部件精准矩形框的具体大小。

在步骤600中，在分别对label部件和value部件的矩形框rect 进行精确的提取后，可输出value部件的位置、精准矩形框，以及对应的 label部件的字符属性。根据所述label部件的位置、字符属性信息及value 部件的精准矩形框可确定所述格式文档关键信息块，准确度高，识别效果好；同时便于数据库的统一存储管理。

此外，本发明还提供一种格式文档关键信息块配准及提取的系统，可实现对格式文档关键信息块的自动识别。如图11所示，本发明格式文档关键信息块配准及提取的系统包括定义模块1、构建模块2、确定模块3、粗配模块4、精配模块5及输出模块6。

其中，所述定义模块1用于对格式文档的灰度图像进行模式定义，确定所述格式文档的部件信息。所述部件信息包括各label部件的位置、label域、图像特征和图像像素占空比，及各value部件的位置；其中，所述格式文档中内容不变部分为label部件，内容可变部分为value部件，且各所述label部件与value部件一一对应。

所述构建模块2与定义模块1连接，所述构建模块2根据所述标签部件的位置、标签域构建弹性框架。

所述确定模块3分别与所述定义模块1和构建模块22连接；所述确定模块3根据所述label部件的图像像素占空比，确定所述弹性框架的配准目标的候选集合。

所述粗配模块4分别与所述定义模块1和确定模块3连接；在所述候选集合中，所述粗配模块4根据所述label部件的图像特征对所述弹性框架进行粗配准，确定value部件的初始矩形框。

所述精配模块5分别与所述定义模块1和粗配模块4连接；所述精配模块5根据所述label部件的位置对所述value部件的初始矩形框进行精确配准，确定value部件的精准矩形框。

所述输出模块6分别与所述定义模块1和精配模块5连接；所述输出模块6输出所述标签部件的位置、字符属性信息及价值部件的精准矩形框，以确定所述格式文档关键信息块。

相对于现有技术，本发明格式文档关键信息块配准及提取的系统与上述格式文档关键信息块配准及提取的方法的有益效果相同，在此不再赘述。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的模块及方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种格式文档关键信息块配准及提取的方法，其特征在于，所述方法包括：

根据所述标签部件的位置、标签域构建弹性框架；

根据所述标签部件的位置、字符属性信息及价值部件的精准矩形框确定所述格式文档关键信息块；

其中，标签部件在对应的标签域中滑动；

其中，根据以下公式确定各所述标签部件的图像像素占空比：

2.根据权利要求1所述的格式文档关键信息块配准及提取的方法，其特征在于，所述根据所述标签部件的位置、标签域构建弹性框架具体包括：

根据所述标签部件的标签域确定所述标签部件的大小；

根据所述标签部件的相对位置和大小构建所述弹性框架。

3.根据权利要求1所述的格式文档关键信息块配准及提取的方法，其特征在于，所述确定所述弹性框架的配准目标的候选集合具体包括：

对所述处理后的图像提取连通域；

根据提取的连通域提取超像素点；

4.根据权利要求3所述的格式文档关键信息块配准及提取的方法，其特征在于，所述根据所述超像素点确定所述配准目标的候选位置具体包括：

5.根据权利要求4所述的格式文档关键信息块配准及提取的方法，其特征在于，所述确定各匹配标签部件的位置组合PPs具体包括：

通过第i个标签部件在对应标签域中滑动，确定所述第i个标签部件内的矩形框rect的位置PP，当前OP对应的所有标签部件内的矩形框rect形成集合localrects；所述PP为所述第i个标签部件内的矩形框rect的左上顶点的位置；

计算所述集合localrects中各所述矩形框的占空比；

其中，recttemp在模式定义中对应localrects的模板部件，dis()为计算两个rect的特征距离函数，hog[i]为第i个局部弹性部件的hog特征；

根据各所述匹配标签部件的矩形框rect_y的位置，形成当前OP对应的所有标签部件中的匹配标签部件的位置组合PPs。

6.根据权利要求5所述的格式文档关键信息块配准及提取的方法，其特征在于，所述根据所述标签部件的图像特征对所述弹性框架进行粗配准具体包括：

其中，rect_ys为每种候选位置对应的全部矩形框组合，RC为所有配准目标的各候选位置对应矩形框的集合，Rects表示弹性框架的粗配准结果；

7.根据权利要求6所述的格式文档关键信息块配准及提取的方法，其特征在于，所述确定价值部件的精准矩形框具体包括：

8.根据权利要求7所述的格式文档关键信息块配准及提取的方法，其特征在于，所述每个价值部件的初始矩形框的周围信息进行收缩具体包括：从上下左右四个方向分别向对应价值部件的初始矩形框rect的中心收缩，直到遇到前景像素则停止对应方向的收缩；

所述基于广度优先的方式对每个价值部件的初始矩形框rect进行像素补缺具体包括：沿着对应价值部件的初始矩形框rect的中心向外的方向扩展像素，每一步仅仅扩展一个方向并且同时扩展所有的初始矩形框rect，以设定步长在扩展方向上扩展，如果对应矩形框rect新扩展的区域无前景像素或者与其他矩形框rect有重叠，则便停止对应矩形框rect在对应方向的扩展；直到所有的矩形框rect在每个方向均扩展完毕。

9.一种格式文档关键信息块配准及提取的系统，其特征在于，所述系统包括：

输出模块，用于输出所述标签部件的位置、字符属性信息及价值部件的精准矩形框，以确定所述格式文档关键信息块；

其中，标签部件在对应的标签域中滑动；