CN113762244A

CN113762244A - 文档信息的提取方法及装置

Info

Publication number: CN113762244A
Application number: CN202010506442.9A
Authority: CN
Inventors: 邱效辉
Original assignee: Beijing MetarNet Technologies Co Ltd
Current assignee: Beijing MetarNet Technologies Co Ltd
Priority date: 2020-06-05
Filing date: 2020-06-05
Publication date: 2021-12-07

Abstract

本发明实施例提供一种文档信息的提取方法及装置，其中方法包括：确定待提取的文档图像中作为锚点区域的区域，将待提取轮廓的图像调整为预设的模板图像大小，获得目标图像，将区域调整为预设的模板锚点大小，获得目标锚点；确定目标锚点在目标图像中的位置，结合模板图像预先定义的感兴趣区域与模板锚点的相对位置，获得目标图像中感兴趣区域的位置；根据模板图像中预先定义的感兴趣区域的大小，结合感兴趣区域的位置，从目标图像中提取感兴趣区域；其中，模板图像根据待提取的文档图像定义。本发明实施例特别适合大量固定格式文档图像中文档信息的提取。

Description

文档信息的提取方法及装置

技术领域

本发明涉及图像处理技术领域，更具体地，涉及文档信息的提取方法及装置。

背景技术

数字化时代,大量的纸质文档需要进行数字化存档，文档拍照存档是个简单有效的方式；但是对海量的照片内容和质量进行检测的却是一个问题。

现有的文档识别通常包括定制模板、类型区分、匹配定位、区域识别以及识别后处理等步骤，首先对需要识别的文档定制识别模板，包括分类特征和识别要素信息，在识别过程中，对待识别表单图像进行特征提取，根据提取的特征在模板库里筛选匹配的模板，并确定最佳匹配位置，从而完成指定区域的识别。

现有技术在在计算线段和线段之间的匹配关系时，需要逐线段的进行匹配，运算量很大，容错率低。

发明内容

本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的文档信息的提取方法及装置。

第一个方面，本发明实施例提供一种文档信息的提取方法，包括：

确定待提取的文档图像中作为锚点区域的区域，将待提取轮廓的图像调整为预设的模板图像大小，获得目标图像，将所述区域调整为预设的模板锚点大小，获得目标锚点；

确定所述目标锚点在所述目标图像中的位置，结合所述模板图像预先定义的感兴趣区域与模板锚点的相对位置，获得所述目标图像中感兴趣区域的位置；

根据所述模板图像中预先定义的所述感兴趣区域的大小，结合所述感兴趣区域的位置，从所述目标图像中提取感兴趣区域；其中，所述模板图像根据所述待提取的文档图像定义。

进一步地，所述从所述目标图像中提取感兴趣区域，之后还包括：

将所述感兴趣区域转换为灰度图，对所述灰度图进行边缘提取；

将边缘提取的结果进行轮廓检测，获得所述灰度图中包含的轮廓数量；

保留轮廓数量超过预设阈值的感兴趣区域。

进一步地，所述确定待提取的图像中作为锚点的区域，之前还包括：

定义模板图像，根据待提取的文档图像的文档格式确定所述模板图像中的感兴趣区域和模板锚点。

进一步地，所述感兴趣区域为文档图像中的表格区域。

进一步地，所述确定所述模板图像中的感兴趣区域，之后还包括：

定义表征感兴趣区域的像素点和表征锚点区域的像素点；

计算表征感兴趣区域的像素点和表征锚点区域的像素点间的相对位置作为感兴趣区域和模板锚点区域的相对位置；

确定模板锚点以及感兴趣区域的大小。

进一步地，所述感兴趣区域为矩形、圆形以及椭圆形中的一种或多种；

对于矩形的感兴趣区域，以矩形的宽度和高度表征感兴趣区域的大小；

对于圆形的感兴趣区域，以圆形的半径表征感兴趣区域的大小；

对于椭圆的感兴趣区域，以椭圆标准方程的参数表征感兴趣区域的大小。

进一步地，所述对所述灰度图进行边缘提取，具体为：

计算所述灰度图的像素灰度的均值和标准方差；

确定灰度阈值范围，将所述灰度阈值范围输入canny边缘检测算子进行边缘提取；

其中，所述灰度阈值范围的最大值为255与标准方差的差值，最小值为所述最大值的三分之一。

第二个方面，本发明实施例提供一种文档信息的提取装置，包括：

匹配模块，用于确定待提取的文档图像中作为锚点区域的区域，将待提取轮廓的图像调整为预设的模板图像大小，获得目标图像，将所述区域调整为预设的模板锚点大小，获得目标锚点；

位置确定模块，用于确定所述目标锚点在所述目标图像中的位置，结合所述模板图像预先定义的感兴趣区域与模板锚点的相对位置，获得所述目标图像中感兴趣区域的位置；

区域提取模块，用于根据所述模板图像中预先定义的所述感兴趣区域的大小，结合所述感兴趣区域的位置，从所述目标图像中提取感兴趣区域；其中，所述模板图像根据所述待提取的文档图像定义。

第三方面，本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所提供的方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。

本发明实施例提供的文档信息的提取方法及装置，通过定义模板图像，并在模板图像中定义锚点以及感兴趣区域与锚点的相对位置，锚点表示模板图像中一个指示性的区域，通过将待提取的文档图像调整为模板图像的大小，再确定文档图像中锚点的位置，进一步结合感兴趣区域的大小和相对位置即可获得文档图像中的感兴趣区域，由于模板图像本身是基于待提取的文档图像定义的，因此特别适合大量固定格式文档图像中文档信息的提取。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的文档信息的提取方法的流程示意图；

图2为本发明实施例提供的文档信息的提取装置的结构示意图；

图3为本发明实施例提供的电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了克服现有技术的上述问题，本发明实施例的发明构思为：通过定义模板图像，并在模板图像中定义锚点以及感兴趣区域与锚点的相对位置，锚点表示模板图像中一个指示性的区域，通过将待提取的文档图像调整为模板图像的大小，再确定文档图像中锚点的位置，进一步结合感兴趣区域的大小和相对位置即可获得文档图像中的感兴趣区域，由于模板图像本身是基于待提取的文档图像定义的，因此特别适合大量固定格式文档图像中文档信息的提取。

图1为本发明实施例的文档信息的提取方法的流程示意图，如图1所示，该提取方法包括：

S101、确定待提取的文档图像中作为锚点区域的区域，将待提取轮廓的图像调整为预设的模板图像大小，获得目标图像，将所述区域调整为预设的模板锚点大小，获得目标锚点。

需要说明的是，锚点是网页制作中的技术名词，表示超级链接，通过定义锚点，可以快速将访问者带到指定位置。本发明实施例基于“锚点”的概念，在待提取的文档图像中创建了“锚点区域”的概念，锚点区域是为了快速定位模板图像以及文档图像中感兴趣区域的一个区域，该区域只有一个，而感兴趣区域则不可以不止一个，从而将感兴趣区域的位置以距离锚点区域的相对位置进行表征。

可以理解的是，对于一个待提取文档信息的文档图像，可以预先大致确定想要提取哪些信息，比如某通信运营商的开通专线业务的测试报告文档，文档中记录了客户名称、装机场景、地址、接入方式、测试方法等等信息，这些信息显然是想要提取的信息，而该文档中通信运营商的品牌logo等信息则是不需要提取的信息，所以本发明实施例可以将文档图像中不需要提取或者不感兴趣的信息作为锚点区域。

本发明实施例在确定锚点区域后，进一步将锚点区域的大小调整为预设的模板锚点的大小，将待提取轮廓的图像调整为预设的模板图像。应当理解的是，本发明实施例的模板图像根据所述待提取的文档图像定义，本发明实施例的应用场景是提取大量具有同一文档格式的文档图像中文档信息的场景，比如提取具有同一简历格式的海量简历中的信息场景，以此场景为例，由于简历格式是预先知晓的，所以可以根据简历格式构建一个简历模板，确定简历模板的长度和宽度，并将简历模板中各个单元格作为感兴趣的区域，比如姓名单元格(用于填写姓名)、联系方式单元格(用于填写联系方式)、学历单元格(用于填写学历)等等，将简历模板中不感兴趣的区域，例如简历模板上的一些用于装饰、美化的图案作为模板锚点，并确定模板锚点的长度和宽度，之后分别确定每个感兴趣区域与模板锚点的相对位置，比如感兴趣区域1：与模板锚点横向偏移dx1距离，纵向偏移dy1距离。

S102、确定所述目标锚点在所述目标图像中的位置，结合所述模板图像预先定义的感兴趣区域与模板锚点的相对位置，获得所述目标图像中感兴趣区域的位置。

具体地，本发明实施例可以通过模板匹配算法确定目标锚点在目标图像上的位置，模板匹配算法是在一幅图像中寻找一个特定目标的方法之一，这种方法的原理简单，通过遍历图像中的每一个可能的位置，比较各处与模板是否“相似”，当相似度足够高时，就认为找到了目标。常见的模板匹配算法包括平方差匹配法、归一化平方差匹配法、相关匹配法、归一化相关匹配法、相关系数匹配法以及归一化相关系数匹配法，本发明实施例对具体的模板匹配算法不作进一步的限定。

S103、根据所述模板图像中预先定义的所述感兴趣区域的大小，结合所述感兴趣区域的位置，从所述目标图像中提取感兴趣区域；

应当理解的是，感兴趣区域的位置是以感兴趣区域中的某一个点来表征的，例如感兴趣区域的左上顶点，那么由于本发明预先定义了感兴趣区域的大小，就可以迅速确定目标图像中的感兴趣区域。例如感兴趣区域的大小为宽度5像素，高度3像素，左上顶点的位置在目标图像中的(10,20)像素点位置，其中10表示左上顶点的横坐标为目标图像的第10列像素，20表示左上顶点的纵坐标为目标图像的第20行像素，那么感兴趣区域的范围为：左上顶点(10,20)、右上顶点(15,20)、左下顶点(13,17)、右下顶点(15,17)共四个顶点组成的矩形范围。可以理解的是，对于矩形的感兴趣区域，本发明如果确定了位置为左上顶点，可以预先确定目标图像中的坐标轴以左上角的像素点为原点。

可选地，本发明的感兴趣区域还可以为圆形或者椭圆形，对于圆形的感兴趣区域，感兴趣区域的大小通过圆形的半径表征，对于椭圆形的感兴趣区域，感兴趣区域的大小通过椭圆标准方程的相关参数表征。可以理解的是，椭圆标准方程中的相关参数包括长半轴和短半轴的长度以及交点位于x轴还是y轴，其中x轴和y轴可以根据对模板图像中建立的坐标轴确定。

本发明实施例的文档信息的提取方法，通过定义模板图像，并在模板图像中定义锚点以及感兴趣区域与锚点的相对位置，锚点表示模板图像中一个指示性的区域，通过将待提取的文档图像调整为模板图像的大小，再确定文档图像中锚点的位置，进一步结合感兴趣区域的大小和相对位置即可获得文档图像中的感兴趣区域，由于模板图像本身是基于待提取的文档图像定义的，因此特别适合大量固定格式文档图像中文档信息的提取。

本发明实施例在确定感兴趣的区域后，还会对感兴趣区域中是否记录有文字进行识别，并将具有文字且超过一定阈值的感兴趣区域进行保存，从而实现文档中有效信息的提取。具体地，在上述各实施例的基础上，作为一种可选实施例，所述从所述目标图像中提取感兴趣区域，之后还包括：

S104、将所述感兴趣区域转换为灰度图，对所述灰度图进行边缘提取；

S105、将边缘提取的结果进行轮廓检测，获得所述灰度图中包含的轮廓数量；

S106、保留轮廓数量超过预设阈值的感兴趣区域。

本发明实施例将边缘提取应用于文字提取领域，边缘提取是指数字图像处理中，对于图片轮廓的一个处理。对于边界处，灰度值变化比较剧烈的地方，就定义为边缘。在文档中，文字的灰度值要明显区别与空白处的灰度值，所以本发明以边缘提取的方式，将查找到的边缘作为文字的表征，从而确定感兴趣区域中是否具有文字。

边缘检测的基本思想首先是利用边缘增强算子，突出图像中的局部边缘，然后定义象素的“边缘强度”，通过设置阈值的方法提取边缘点集。在进行边缘检测之后，需要通过轮廓跟踪来将离散的边缘串接起来。轮廓跟踪又分为八邻域和四邻域两种。

轮廓跟踪的实现步骤包括：

1、灰度化并进行Canny边缘检测；

2、按照预先设定的跟踪方向(顺时针)进行边缘跟踪；

3、每次跟踪的终止条件为：4领域或者8邻域都不存在轮廓。

可以理解是，输出的轮廓个数越多说明感兴趣区域中的文字数量越多，于是本发明实施例根据轮廓数量判断感兴趣轮廓是否保留。

在上述各实施例的基础上，作为一种可选实施例，所述确定待提取的图像中作为锚点的区域，之前还包括：

定义模板图像，根据待提取的文档图像的文档格式确定所述模板图像中的感兴趣区域和模板锚点，具体地，本发明实施例将文档中的表格区域作为感兴趣的区域，在确定感兴趣的区域之后，进一步定义表征感兴趣区域的像素点和表征锚点区域的像素点，并计算表征感兴趣区域的像素点和表征锚点区域的像素点间的相对位置，作为感兴趣区域和模板锚点区域的相对位置；还要进一步确定模板锚点的大小。

在上述各实施例的基础上，作为一种可选实施例，所述对所述灰度图进行边缘提取，具体为：

计算所述灰度图的像素灰度的均值和标准方差；

图2为本发明实施例提供的文档信息的提取装置的结构示意图，如图2所示，该文档信息的提取装置包括：匹配模块201、位置确定模块202、区域提取模块203，其中：

匹配模块201，用于确定待提取的文档图像中作为锚点区域的区域，将待提取轮廓的图像调整为预设的模板图像大小，获得目标图像，将所述区域调整为预设的模板锚点大小，获得目标锚点；

位置确定模块202，用于确定所述目标锚点在所述目标图像中的位置，结合所述模板图像预先定义的感兴趣区域与模板锚点的相对位置，获得所述目标图像中感兴趣区域的位置；

区域提取模块203，用于根据所述模板图像中预先定义的所述感兴趣区域的大小，结合所述感兴趣区域的位置，从所述目标图像中提取感兴趣区域；其中，所述模板图像根据所述待提取的文档图像定义。

本发明实施例提供的文档信息的提取装置，具体执行上述各文档信息的提取方法实施例流程，具体请详见上述各文档信息的提取方法实施例的内容，在此不再赘述。本发明实施例提供的文档信息的提取装置通过定义模板图像，并在模板图像中定义锚点以及感兴趣区域与锚点的相对位置，锚点表示模板图像中一个指示性的区域，通过将待提取的文档图像调整为模板图像的大小，再确定文档图像中锚点的位置，进一步结合感兴趣区域的大小和相对位置即可获得文档图像中的感兴趣区域，由于模板图像本身是基于待提取的文档图像定义的，因此特别适合大量固定格式文档图像中文档信息的提取。

图3为本发明实施例提供的电子设备的实体结构示意图，如图3所示，该电子设备可以包括：处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340，其中，处理器310，通信接口320，存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储在存储器330上并可在处理器310上运行的计算机程序，以执行上述各实施例提供的文档信息的提取方法，例如包括：确定待提取的文档图像中作为锚点区域的区域，将待提取轮廓的图像调整为预设的模板图像大小，获得目标图像，将所述区域调整为预设的模板锚点大小，获得目标锚点；确定所述目标锚点在所述目标图像中的位置，结合所述模板图像预先定义的感兴趣区域与模板锚点的相对位置，获得所述目标图像中感兴趣区域的位置；根据所述模板图像中预先定义的所述感兴趣区域的大小，结合所述感兴趣区域的位置，从所述目标图像中提取感兴趣区域；其中，所述模板图像根据所述待提取的文档图像定义。

此外，上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的文档信息的提取方法，例如包括：确定待提取的文档图像中作为锚点区域的区域，将待提取轮廓的图像调整为预设的模板图像大小，获得目标图像，将所述区域调整为预设的模板锚点大小，获得目标锚点；确定所述目标锚点在所述目标图像中的位置，结合所述模板图像预先定义的感兴趣区域与模板锚点的相对位置，获得所述目标图像中感兴趣区域的位置；根据所述模板图像中预先定义的所述感兴趣区域的大小，结合所述感兴趣区域的位置，从所述目标图像中提取感兴趣区域；其中，所述模板图像根据所述待提取的文档图像定义。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种文档信息的提取方法，其特征在于，包括：

2.根据权利要求1所述的文档信息的提取方法，其特征在于，所述从所述目标图像中提取感兴趣区域，之后还包括：

保留轮廓数量超过预设阈值的感兴趣区域。

3.根据权利要求1或2所述的文档信息的提取方法，其特征在于，所述确定待提取的图像中作为锚点的区域，之前还包括：

4.根据权利要求3所述的文档信息的提取方法，其特征在于，所述感兴趣区域为文档图像中的表格区域。

5.根据权利要求3所述的文档信息的提取方法，其特征在于，所述确定所述模板图像中的感兴趣区域，之后还包括：

定义表征感兴趣区域的像素点和表征锚点区域的像素点；

确定模板锚点以及感兴趣区域的大小。

6.根据权利要求5所述的文档信息的提取方法，其特征在于，所述感兴趣区域为矩形、圆形以及椭圆形中的一种或多种；

7.根据权利要求2所述的文档信息的提取方法，其特征在于，所述对所述灰度图进行边缘提取，具体为：

计算所述灰度图的像素灰度的均值和标准方差；

8.一种文档信息的提取装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述文档信息的提取方法的步骤。

10.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如权利要求1至7中任意一项所述的文档信息的提取方法。