CN114170423B

CN114170423B - 一种图像文档版面识别方法、装置及其系统

Info

Publication number: CN114170423B
Application number: CN202210131297.XA
Authority: CN
Inventors: 不公告发明人
Original assignee: Chengdu Shuzhilian Technology Co Ltd
Current assignee: Chengdu Shuzhilian Technology Co Ltd
Priority date: 2022-02-14
Filing date: 2022-02-14
Publication date: 2022-06-28
Anticipated expiration: 2042-02-14
Also published as: CN114170423A

Abstract

本发明提供了一种图像文档版面识别方法、装置及其系统。其中，所述方法提高了难以划分的区域的各子模块识别的准确率，且能够针对于小段落间距的段落群组予以拆分并识别，大幅度提高段落识别的准确率，为图像文档版面的识别工作提供了方便。

Description

一种图像文档版面识别方法、装置及其系统

技术领域

本发明涉及图像文字识别技术领域，更具体地说，涉及一种图像文档版面识别方法、装置及其系统。

背景技术

文字是人类社会交流通信的必不可少的信息载体，在社会生活和互联网上大量存在。随着时代的发展，人们认识到了纸质文档传播和分享的复杂性，因此开始使用传真、扫描等设备将纸质文档转换为电子文档、在电脑、移动设备端创建电子文档，使得这些电子文档随着网络科技的不断发展，其传播和分享也随之迅速发展开来。由于存储、文档再处理、编辑、管理等需要，对于以图像形式保存的电子文档的图像处理和分析，即文档版面分析技术几乎在各行各业，甚至于普通人群的日常生活中均得到了广泛应用，且发挥了越来越重要的作用。文档版面分析技术是指对以图像存储的文档中的内容进行结构化语义理解，包括对文档图像的段落、表格、图片等子栏目信息及其位置关系进行自动解析、识别和理解的过程。文档版面分析技术应用广泛，可用于文档还原、文档对比、文档录入等任务，可以提高生产效率。

现有的文档版面分析技术中，由于图像文档版面之间存在较大差异，在实际应用过程中识别准确率存在一些缺陷。例如现有技术中，有的是在文本检测的基础上，用分类模型做版面分析，但其只能解决单行文本分类的问题，对于段落、表格这种一个实例包含多行多列文本的情况，效果不佳；有的技术为，通过图像特征和语义特征融合来进行版面分析，但涉及模块众多，包含图像特征提取，语义特征提取，特征融合再分类，性能较慢，况且涉及语义特征的提取，需要大量的数据作为支撑，否则泛化能力差；还有的采用通过标号区域和文本块区域的位置信息进行聚类，当段落间距和文本行间距相同时，通过聚类这种基于距离的方法来进行计算，容易将多个相邻的段落识别为同一段落，造成识别准确度降低。

总之，现有的版面识别方法中，只能解决单行单列文本的分类和识别、涉及模块多、程序复杂、泛化能力差，并且存在段落间距和文本行间距相同就将相邻段落识别为同一段落的问题，识别准确率低，无法适应对多种图像具有差异的文档版面的识别工作，为文档版面分析处理工作带来了巨大不便。

发明内容

有鉴于此，本发明提供一种图像文档版面识别方法，包括：

获取待处理文档对应的目标图像；

对所述目标图像进行实例分割，得到通过所述实例分割划分出的目标区域；

对所述目标图像进行文本检测，定位出所述目标图像中的文本框；

确定所述文本框对应所在的所述目标区域，其中，所述目标区域包括段落片区；

采用序列标注方法对所述段落片区分段，得到段落信息；

根据所述目标区域和所述段落信息，对所述目标图像进行分割并获得所述目标图像中的独立分割单元。

优选地，所述对所述目标图像进行实例分割，得到通过所述实例分割划分出的目标区域包括：

对所述目标图像进行语义分割，得到所述目标图像的版面分析特征图；

对所述版面分析特征图进行膨胀腐蚀及合并，取得所述版面分析特征图的最外层轮廓；

根据所述版面分析特征图的所述最外层轮廓确定所述目标区域。

优选地，所述根据所述版面分析特征图的所述最外层轮廓确定所述目标区域包括：

确定所述最外层轮廓所包围区域的轮廓类别；

根据所述轮廓类别，得出不同所述最外层轮廓的最小外接矩形框，及所述最小外接矩形框对应的顶点坐标，并以所述最小外接矩形框和其对应的所述顶点坐标确定所述目标区域。

优选地，所述确定所述文本框对应所在的所述目标区域包括：

计算所述文本框对应的中心点坐标；

判断所述中心点坐标是否落入所述目标图像内的其中一个所述目标区域的坐标范围内；

若是，则判定所述中心点坐标的所述文本框，与被落入坐标范围内的该目标区域对应。

优选地，所述计算所述文本框对应的中心点坐标包括：

获取所述文本框的四个顶点的顶点坐标，包括四个顶点横坐标和四个顶点纵坐标；

计算四个顶点横坐标之和并除以4，得到中心横坐标；并且，计算四个顶点纵坐标之和并除以4，得到中心纵坐标；

将所述中心横坐标和所述中心纵坐标作为所述文本框的中心点坐标。

优选地，所述采用序列标注方法对所述段落片区分段，得到段落信息包括：

将所述段落片区内的文本框按照中心点垂直方向排序，获得有序文本框；

对所述有序文本框匹配对应的段落标签；

将所述段落标签依据所述有序文本框的顺序组合成标签排列，并将所述标签排列拆分为能够独立成段的段落排列；

将每个所述段落排列中的所述段落标签对应的文本框合并，得到所述段落信息。

优选地，所述段落标签包括起标识、止标识和非起止标识；

所述将所述段落标签依据所述有序文本框的顺序组合成标签排列，并将所述标签排列拆分为能够独立成段的段落排列包括：

将所述段落标签组合成标签排列；

依据所述有序文本框的顺序，基于预设的成段规则对所述标签排列拆分，得到能够独立成段的段落排列；其中，

所述成段规则为：

判断所述标签排列中是否同时存在所述起标识和所述止标识；并且，所述起标识和所述止标识之间的所述段落标签中不存在其他的起标识和止标识；

若是，则判定该起标识、该止标识，以及该起标识和止标识之间的段落标签构成一组能够独立成段的段落排列。

此外，为解决上述问题，本申请还提供一种图像文档版面识别装置，包括：

获取模块，用于获取待处理文档对应的目标图像；

分割检测模块，用于对所述目标图像进行实例分割，得到通过所述实例分割划分出的目标区域；

定位模块，用于对所述目标图像进行文本检测，定位出所述目标图像中的文本框；

确定模块，用于确定所述文本框对应所在的所述目标区域；所述目标区域包括段落片区；

判断模块，用于判断采用序列标注方法对所述段落片区分段，得到段落信息；

所述获取模块，还用于根据所述目标区域和所述段落信息，对所述目标图像进行分割并获得所述目标图像中的独立分割单元。

此外，为解决上述问题，本申请还提供一种图像文档版面识别系统，包括存储器以及处理器，所述存储器用于存储图像文档版面识别程序，所述处理器运行所述图像文档版面识别程序以使所述图像文档版面识别系统执行如上述所述图像文档版面识别方法。

此外，为解决上述问题，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有图像文档版面识别程序，所述图像文档版面识别程序被处理器执行时实现如上述所述图像文档版面识别方法。

本发明提供的一种图像文档版面识别方法及其装置。其中，所述方法包括获取待处理文档对应的目标图像；对图像进行实例分割，划分出目标区域；通过文本检测，定位出目标图像中的文本框；确定文本框所属目标区域；文本框落在同一段落片区中，采用序列标注的方法进行分段；最后分割出文档图像中的段落、表格、图片、公式等。本发明采用实例分割的方法对于图像中的目标区域做初步的划分，能够对于部分难以划分的区域做较细的划分，可以提升各子模块识别的准确率；并且，在段落间距较小时，多个段落采用实例分割容易划分为一个段落，当多个段落划分为一个段落时，采用自然语言处理中的序列标注模型，将段落内部的文本行进行拆分，可以提升段落识别的准确率。

总之，本发明提高了难以划分的区域的各子模块识别的准确率，且能够针对于小段落间距的段落群组予以拆分并识别，大幅度提高段落识别的准确率，为图像文档版面的识别工作提供了方便。

附图说明

图1为本发明图像文档版面识别方法实施例方案涉及的硬件运行环境的结构示意图；

图2为本发明图像文档版面识别方法第一实施例的流程示意图；

图3为本发明图像文档版面识别方法第二实施例步骤S200细化的流程示意图；

图4为本发明图像文档版面识别方法第二实施例步骤S210和步骤S220，以及步骤S230细化的流程示意图；

图5为本发明图像文档版面识别方法第三实施例中步骤S400细化的流程示意图；

图6为本发明图像文档版面识别方法第三实施例中步骤S420和步骤S430，以及步骤S410细化的流程示意图；

图7为本发明图像文档版面识别方法第四实施例中步骤S500细化的流程示意图；

图8为本发明图像文档版面识别方法第四实施例中步骤S510、步骤S520和步骤S540，以及步骤S530细化的流程示意图；

图9为本发明图像文档版面识别方法第四实施例中步骤S532中成段规则细化的流程示意图；

图10为本发明图像文档版面识别方法第五实施例的流程示意图；

图11为本发明图像文档版面识别方法第五实施例的序列标注模型工作流程示意图；

图12为本发明图像文档版面识别方法第五实施例的示例原图；

图13为本发明图像文档版面识别方法第五实施例的语义分割得到版面分析特征图的示例；

图14为本发明图像文档版面识别方法第五实施例的膨胀腐蚀及合并后，确定目标区域的示例；

图15为本发明图像文档版面识别方法第五实施例的DBNet文本检测结果；

图16为本发明图像文档版面识别方法第五实施例的段落区域内垂直方向排序结果；

图17为本发明图像文档版面识别方法第五实施例的序列标注分段预测结果；

图18为本发明图像文档版面识别方法第五实施例的版面分析分割结果；

图19为本发明图像文档版面识别装置的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面详细描述本发明的实施例，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，图1是本发明实施例方案涉及的终端的硬件运行环境的结构示意图。

本发明实施例图像文档版面识别系统，可以为PC，也可以是智能手机、平板电脑或者便携计算机等可移动式终端设备等。如图1所示，该图像文档版面识别系统中可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏、输入单元比如键盘、遥控器，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口（如WI-FI接口）。存储器1005可以是高速RAM存储器，也可以是稳定的存储器，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。可选地，图像文档版面识别系统还可以包括RF（RadioFrequency，射频）电路、音频电路、WiFi模块等等。此外，该图像文档版面识别系统还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

本领域技术人员可以理解，图1中示出的图像文档版面识别系统并不构成对其的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。如图1所示，作为一种计算机可读存储介质的存储器1005中可以包括操作系统、数据接口控制程序、网络连接程序以及图像文档版面识别程序。

本发明提供的一种图像文档版面识别方法及其装置。其中，所述方法提高了难以划分的区域的各子模块识别的准确率，且能够针对于小段落间距的段落群组予以拆分并识别，大幅度提高段落识别的准确率，为图像文档版面的识别工作提供了方便。

实施例1：

参照图2，本发明第一实施例提供一种图像文档版面识别方法，包括：

步骤100，获取待处理文档对应的目标图像；

上述，待处理文档可以为扫描、拍摄、影印翻拍等等通过不同的图像获取方式所得到的图像文档文件。例如可以为扫描文件、图片文档等。

上述，目标图像为通过对待处理文档进行处理所得到的一个或者多个与待处理文档对应的图像。

进一步的，所述步骤100，获取待处理文档对应的目标图像还可以包括：

步骤110，对所述待处理文档进行分页拆分，得到拆分单元页；

步骤120，将所述拆分单元页灰度处理，得到所述目标图像。

其中，所述目标图像可以为多个。

步骤200，对所述目标图像进行实例分割，得到通过所述实例分割划分出的目标区域；

上述，目标区域，即为通过实例分割后，目标图像中所包含的单元。

需要说明的是，基于深度学习的图像分割技术主要分为两类：语义分割及实例分割。图像实例分割（即为实例分割）是在对象检测的基础上进一步细化，分离对象的前景与背景，实现像素级别的对象分离。所以实例分割是基于对象检测的基础上进一步提升。而实例分割作为像素级别的语义分割，对图像中的每个像素都划分出对应的类别，能够实现像素级别的分类。

其中，类的具体对象，即为实例，实例分割时不但要进行像素级别的分类，还需在具体的类别基础上区别开不同的实例。比如说图像有多个人甲、乙、丙，那边他们的语义分割结果都是人，即将人体与背景拆分；而实例分割结果，却是不同的对象，不光将人体与背景拆分，并且将不同人体进行拆分。

例如，本实施例中，在对待处理文档进行分页拆分，得到拆分单元页（由多页连接形式成为单页形式）；并且将拆分单元页灰度处理，得到目标图像X（灰度后的单页）。该目标图像X中包括2个段落、1个表格、3个位置较近图片。下一步对目标图像X进行实例分割，则X可以被拆分为：1、段落A；2、段落B；3、表格A；4、图片A；5、图片B；6、图片C。如果语义分割，则可以被拆分为：1、段落区、2、表格区、3、图片区；或者拆分为：段落+表格+图片整体大区。

总之，语义分割会为图像中的每个像素分配一个类别，但是同一类别之间的对象不会区分。而实例分割，只对特定的物体进行分类。

步骤300，对所述目标图像进行文本检测，定位出所述目标图像中的文本框；

文本检测目标图像，其中，目标图像中可以包含有多段文字、表格、图片、公式等等，其中包含元素众多，需要进一步进行拆分，以便于重组，并更准确的确认其中的单体元素。

文本框，即为包含有一定文字、图像、表格内容、公式等的特定区域。例如一个段落在版面中为3行中文文字，则可以在文本检测后，定位出文本框包括：行A、行B、行C。

再例如，表格有3列2行，第一行为表头（3个），下面对应的为数据（3个），则在文本检测后，定位出一共6个文本框包括：表头1、表头2、表头3、数据1、数据2、数据3；其中每个表头对应一个数据。

本实施例中，通过文本检测模型对目标图像进行文本检测，定位文档图像中的文本框，文本框四个顶点坐标分别为X_j1,Y_j1；X_j2,Y_j2；X_j3,Y_j3；X_j4,Y_j4；（本实施例中顶点坐标按顺时针排序），其中j表示第j个文本框。

需要说明的是，上述，步骤300和步骤200两个步骤的顺序可以同时进行，也可以步骤300和步骤200任意一个作为前一步先予执行，两个步骤的先后顺序再此并不予以限定。

步骤400，确定所述文本框对应所在的所述目标区域，其中，所述目标区域包括段落片区；

上述，文本框是包含有文字、图像、表格的单元。其所在位置处于实例分割后的目标图像中，具体的本实施例中需要确认其所在的目标区域。

目标区域，可以包括有段落片区，此外还可以具体根据版面内容包括但不限于图片片区、公式片区、表格片区。其中，某个片区并不是指整个包含有该类别内容的全部片区，而是指在实例分割后的目标区域。具体的，在一个目标图像X中只包含有一个自然段A和一个表格B，则目标区域可以是段落A对应的段落片区或者表格B对应的表格片区。

例如，目标图像X中包括2个段落。下一步对目标图像X进行实例分割，则X可以被拆分为：1、段落A；2、段落B。而段落A中包含3行中文文字，在文本检测后，定位出段落A的文本框包括：行A、行B、行C；基于步骤400，对行A进行依次（或者循环）遍历整个目标图像中，则能够最终确定文本框行A对应所在的目标区域为段落A；其中，段落A作为目标区域就是一个独立的段落片区，而不是其他的段落片区或者图片片区、表格片区。

以上是识别准确的前提下，但是在版面图像识别中，可能会出现一个被识别后的段落片区内包含有多个段落的问题。例如上述例子中，就可能将X识别为只有段落A一个段落片区，该段落片区包含有两个紧密相连的自然段，进一步在确定的时候，行A确定其所在目标区域为段落A，即只知道行A是目标区域的，但是文中有两段话，并未识别出在那一段中。

步骤500，采用序列标注方法对所述段落片区分段，得到段落信息；

需要说明的是，序列标注，简单的来说就是给定一个序列，对序列中的每个元素做一标记，或为每个元素打一标签。其中，中文命名实体识别、中文分词和词性标注等上述基本的NLP任务都属于序列标注的范畴。

而本实施例中，一个段落片区可以为一段话，也可以由于识别准确性问题包括有多段话，同理，一个图片片区可以为一张图片，或者被识别后实际上里面有两张相邻的图片。所以，以自然段为例，需要在确定文本框所在段落片区之后，针对于该段落片区内具体有几个自然段，利用序列标注方法对段落片区（包含有多个自然段的一个段落片区）进行拆分分段，通过在序列标注的算法，以分段为目的，对不同自然段的内容、不同大小文本框打上不同的标签，从而进一步区分得到该段落片区中的具体的自然段。

步骤600，根据所述目标区域和所述段落信息，对所述目标图像进行分割并获得所述目标图像中的独立分割单元。

针对于包含有多个自然段的一个段落片区，进行了序列标注后，根据其所在的目标区域，以及具体的段落信息，对该目标图像进行进一步分割，从而能够得到目标图像中的、且在该段落片区中的若干个独立分割单元。

例如，目标图像X中的一个段落片区A，其中包含有段落B和段落C，BC段间距接近，所以在识别时成为一个段落片区A中，进行序列标注后，能够识别其所在目标图像X中，根据序列标注结果，将段落片区A拆分为与段落B对应的独立分割单元b，与段落C对应的独立分割单元c。

需要说明的是，目前文档版面分析技术虽然发展很快，却仍然存在着一些问题。由于不同文档的子栏目中字大小、字体形状、字间距、行间距、表格稀疏程度不同，现有的版面分析方法无法精准的区分，容易出错，尤其是同类型子栏目间距很小时，如段落间距同行间距相同时，容易识别成同一段落，影响版面分析的效果。因此，文档版面分析技术还有待进一步提升。

例如1，图像文件的版面分析方法、装置、计算机设备和存储介质（CN202110648937.X）中公开了如下技术方案：（1）获取待识别的图像文件；（2）对待识别的图像文件进行字符识别，得到对应的字符识别结果；（3）根据字符识别结果，获取待识别的图像文件对应的文本信息和坐标信息；（4）根据文本信息、坐标信息进行字段编码，生成对应的字段输入向量；（5）根据训练好的文本分类模型对字段输入向量进行分类处理，得到与待识别的图像文件对应的版面分析结果。该方案在文本检测的基础上，用分类模型做版面分析，速度快，针对各种票据，识别出发票类型、发票抬头、开票时间、金额明细等效果很好。但是该方案只能解决单行文本分类的问题，对于段落、表格这种一个实例包含多行多列文本的情况，效果不佳。本实施例通过实例分割，识别出不同的文本区域，如段落、表格、图片等，再通过序列标注模型在文本区域内部进行拆分，然后结合字符识别结果输出文本区域实例，其中实例可以包含多行多列文本的情况。

例如2：文档版面分析方法、模型训练方法、装置和设备（CN202110697993.2）公开了如下技术方案：（1）通过使用卷积神经网络对待处理文档图像进行特征计算来获取图像特征图；（2）确定待处理文档图像所包含的文本内容以及文本内容对应的位置信息，以及文本内容和位置信息生成的语义特征图；（3）对所述图像特征图和所述语义特征图通过基于语义的深度学习模型和基于图像的深度学习模型进行特征融合；（4）基于融合后的特征图，使用经训练的版面分析模型来确定所述文本位置信息和文本类型信息。该方案通过图像特征和语义特征融合来进行版面分析，准确率非常高。但是该技术涉及模块众多，包含图像特征提取，语义特征提取，特征融合再分类，性能较慢，况且涉及语义特征的提取，需要大量的数据作为支撑，否则泛化能力差。而本实施例通过获取主要依靠图像特征，依赖数据相对较少，也能达到很好的效果。

例如3，版面分析方法、装置、设备及存储介质（CN202011325013.8）公开了如下技术方案：（1）获取文本图像；（2）检测得到所述文本图像中的文本块区域和标号区域；（3）聚类合并所述标号区域和与所述标号区域相关联的文本块区域，得到与所述标号对应的文本单元区域；（4）返回所述文本图像的版面分析结果，所述版面分析结果包括所述文本单元区域的位置信息。该方案采用聚类合并所述标号区域和与所述标号区域相关联的文本块区域（文本块区域为所述文本图像中含有一行或一列字符的区域），得到的与所述标号对应的文本单元区域仅包括文本块区域、标号区域以及这些区域之间的区域，而不会包括文本单元之间的空白区域，从而提高了版面分析方法的准确度。但是该方案通过所述标号区域和所述文本块区域的位置信息进行聚类，当段落间距和文本行间距相同时，通过聚类这种基于距离的方法来进行计算，容易将多个相邻的段落识别为同一段落。而本实施例中通过实例分割，初步识别出不同的文本区域，如段落、表格、图片等，再采用自然语言处理中的序列标注模型，将段落内部的文本行进行拆分，可以提升段落识别的准确率。

本实施例提供一种图像文档版面识别方法及，包括获取待处理文档对应的目标图像；对图像进行实例分割，划分出目标区域；通过文本检测，定位出目标图像中的文本框；确定文本框所属目标区域；文本框落在同一段落片区中，采用序列标注的方法进行分段；最后分割出文档图像中的段落、表格、图片、公式等。本实施例采用实例分割的方法对于图像中的目标区域做初步的划分，能够对于部分难以划分的区域做较细的划分，可以提升各子模块识别的准确率；并且，在段落间距较小时，多个段落采用实例分割容易划分为一个段落，当多个段落划分为一个段落时，采用自然语言处理中的序列标注模型，将段落内部的文本行进行拆分，可以提升段落识别的准确率。

总之，本实施例提高了难以划分的区域的各子模块识别的准确率，且能够针对于小段落间距的段落群组予以拆分并识别，大幅度提高段落识别的准确率，为图像文档版面的识别工作提供了方便。

实施例2：

参照图3-4，本发明第二实施例提供一种图像文档版面识别方法，基于上述实施例1，所述步骤200，对所述目标图像进行实例分割，得到通过所述实例分割划分出的目标区域包括：

步骤210，对所述目标图像进行语义分割，得到所述目标图像的版面分析特征图；

需要说明的是，语义分割，在识别过程中会为图像中的每个像素分配一个类别，但是同一类别之间的对象不会区分。

版面分析特征图，是在对目标图像X语义分割后得到的针对于其中内容的分割后的若干个部分，一个目标图像中可以包含有多个版面分析特征图，每个版面分析特征图代表其中一个被识别出来的特征区。

上述，目标图像X可以包括有段落、表格（其中包含有数据、公式、文字），进行语义分割后，得到的版面分析特征图。

在识别过程中，可能通过语义分割后，将表格中的数据、公式或文字，甚至部分表格线框识别为不同的版面分析特征图。

步骤220，对所述版面分析特征图进行膨胀腐蚀及合并，取得所述版面分析特征图的最外层轮廓；

需要说明的是，针对于图像的腐蚀和膨胀的主要作用为：消除噪声；分割出独立的图像元素，在图像中连接相邻的元素、寻找图像中的极大值或者极小值区域；求出图像的梯度。

其中，膨胀就是求局部最大值的操作。

其中，腐蚀，其与膨胀是相反的操作，腐蚀是求局部最小值的操作。腐蚀操作会使图像中的高亮区逐渐减小。

本实施例中，每个版面分析特征图即为一个掩码图，针对于每个掩码图（mask图）进行腐蚀膨胀，再合并不同的mask图，进行连通域轮廓计算，寻找并取得该版面分析特征图的最外层轮廓。

步骤230，根据所述版面分析特征图的所述最外层轮廓确定所述目标区域。

确定版面分析特征图，对应的具体的目标区域。建立二者的对应关系。

进一步的，所述步骤230，根据所述版面分析特征图的所述最外层轮廓确定所述目标区域包括：

步骤231，确定所述最外层轮廓所包围区域的轮廓类别；

上述，通过计算确定最外层轮廓所包围区域的分类得分，分类得分代表最外层轮廓的轮廓类别，其中，得到轮廓的类别（分类得分）包括但不限于：段落、表格、图片、公式等。

步骤232，根据所述轮廓类别，得出不同所述最外层轮廓的最小外接矩形框，及所述最小外接矩形框对应的顶点坐标，并以所述最小外接矩形框和其对应的所述顶点坐标确定所述目标区域。

基于上一步骤所得到的轮廓类别（分类得分），计算出不同轮廓的最小外接矩形框及对应的顶点坐标。

例如，目标区域四个顶点坐标为：X_i1,Y_i1；X_i2,Y_i2；X_i3,Y_i3；X_i4,Y_i4；本实施例中顶点坐标按顺时针排序），其中i可以表示第i个目标区域。具体的，左上角顶点的坐标可以为：X_i1,Y_i1；右下角的坐标可以为X_i3,Y_i3。

本实施例中，采用实例分割的方式，对目标图像进行分割，从而得到目标区域。具体的，首先进行语义分割，在对分割后的掩码图进行膨胀腐蚀与合并，确定最外层轮廓后，再计算对应的分类得分，进一步得到最小外界矩形框以及其对应的顶点坐标，从而能够最终确定最小外界矩形框对应的目标区域。利用实例分割方法，能够有效对版面图像中的文字所对应的目标区域进行确定，从而从整体上提高了文字识别的准确度和效率。

实施例3：

参照图5-6，本实施例提供一种图像文档版面识别方法，基于上述实施例1，所述步骤400，确定所述文本框对应所在的所述目标区域包括：

步骤410，计算所述文本框对应的中心点坐标；

每个文本框所在位置进行计算，根据其矩形的四个顶点坐标能够得出该文本框的中心点坐标。

上述，文本框为符合文字书写习惯所定义的包含有文字内容的方框，中心点坐标，为文本框利用四个顶点坐标所能计算得出的位于该文本框的中心位置的坐标。

进一步的，所述步骤410，计算所述文本框对应的中心点坐标包括：

步骤411，获取所述文本框的四个顶点的顶点坐标，包括四个顶点横坐标和四个顶点纵坐标；

上述，每个文本框设有一对应的标签，例如j，为第j个文本框。

上述，对于所有的文本框，计算其中心点坐标，本实施例中可以以第j个文本框作为举例。

j文本框四个顶点坐标分别为X_j1,Y_j1；X_j2,Y_j2；X_j3,Y_j3；X_j4,Y_j4；（本实施例中顶点坐标按顺时针排序）。其中，左上角顶点坐标为X_j1,Y_j1；右上角顶点坐标为X_j2,Y_j2；左下角顶点坐标为X_j3,Y_j3；右下角顶点坐标为X_j4,Y_j4。每个坐标分别包括一横坐标X和一纵坐标Y。

步骤412，计算四个顶点横坐标之和并除以4，得到中心横坐标；并且，计算四个顶点纵坐标之和并除以4，得到中心纵坐标；

上述，中心点坐标计算时，分别计算中心横坐标X_jc和中心纵坐标Y_jc，计算方法为：

X _jc=(X _j1+ X _j2+ X _j3+ X _j4)/4；Y _{jc =}(Y _j1+ Y _j2+ Y _j3+ Y _j4)/4；

步骤413，将所述中心横坐标和所述中心纵坐标作为所述文本框的中心点坐标。

上述，将文本框的中心横坐标和中心纵坐标组合作为中心点坐标（X_jc,Y_jc）。

步骤420，判断所述中心点坐标是否落入所述目标图像内的其中一个所述目标区域的坐标范围内；

步骤430，若是，则判定所述中心点坐标的所述文本框，与被落入坐标范围内的该目标区域对应。

在已知所有文本框的中心点坐标基础上，对所有文本框依次执行上述步骤即步骤420、430，即为，循环遍历所有目标图像的目标区域，分别一一进行匹配，判断中心点坐标是否落入到该目标区域的坐标范围内。

上述，目标区域的坐标范围，定义为横坐标（X_i1, X_i4）到横坐标（X_i2, X_i3）之间，与纵坐标（Y_i1 ,Y_i2）到纵坐标（Y_i3 ,Y_i4）之间的区域。

因此，所述步骤420，判断所述中心点坐标是否落入所述目标图像内的其中一个所述目标区域的坐标范围内，所述步骤430若是，则判定所述中心点坐标的所述文本框，与被落入坐标范围内的该目标区域对应，可以包括：

步骤420（1）判断X_jc,Y_jc是否符合max(X_i1, X_i4)＜X_jc＜min(X_i2, X_i3)，并且max(Y_i1,Y_i2)＜Y_jc＜min(Y_i3 ,Y_i4)；

步骤430（2）若是，即X_jc,Y_jc符合max(X_i1, X_i4)＜X_jc＜min(X_i2, X_i3)且max(Y_i1 ,Y_i2)＜Y_jc＜min(Y_i3 ,Y_i4)条件，则判定，第j个文本框，即该文本框（其中心点坐标为X_jc,Y_jc）属于第i个目标区域；并且执行（4）；

步骤440（3）若否，则继续遍历，直至找到文本框所属目标区域或者目标区域遍历完毕；

步骤450（4）重复执行（1）-（2），直至所有文本框遍历完毕。

本实施例中，首先通过计算得出每个文本框的中心点坐标，再遍历所有目标区域，通过判断确定每个文本框的中心点坐标落入在对应的目标区域中，从而建立每个文本框与其所在的目标区域的对应关系，能够将成段、成片、成区域的文字内容或其他内容予以拆分后，再进行分别定位出确定的目标区域，有助于进一步的图像版面的识别处理，提高了段落识别的准确率。

实施例4：

参照图7-9，本实施例提供一种图像文档版面识别方法，基于上述实施例1，所述步骤500，采用序列标注方法对所述段落片区分段，得到段落信息包括：

步骤510，将所述段落片区内的文本框按照中心点垂直方向排序，获得有序文本框；

需要说明的是，同一所述段落片区内可能存在包含有多个所述文本框的情形，即为在识别后，一个段落片区中有2个或以上的段落，此时该识别结果即为出现识别误差，进而通过步骤500进行对该段落片区的进一步识别以解决该问题。

针对该段落片区内，将所有文本框按照沿着中心点的垂直方向（纵向y_c）进行排序。

步骤520，对所述有序文本框匹配对应的段落标签；

匹配对应的段落标签，即为对有序文本框定义其具体的状态，定义一个对应的标签。

步骤530，将所述段落标签依据所述有序文本框的顺序组合成标签排列，并将所述标签排列拆分为能够独立成段的段落排列；

上述，段落标签表明文本框在段落中所处位置或其本身的段落特征，通过每个文本框的这些表明段落特征或位置的标签进行排列，就可以得到标签排列；进而，将标签排列进行按顺序的拆分，从头至尾，拆分成多个能够独立成段的段落排列。

进一步的，所述段落标签包括起标识、止标识和非起止标识；

上述，起标识，可以定义为“B”，表示一个段落的开始；止标识为“E”，表示一个段落的结束；非起止表示为“O”，表示其他非开始且非结束的中间部分的文本框。

所述步骤530，将所述段落标签依据所述有序文本框的顺序组合成标签排列，并将所述标签排列拆分为能够独立成段的段落排列包括：

步骤531，将所述段落标签组合成标签排列；

上述，标签排列即为所有段落标签依据原有的现有顺序组成的排列。

步骤532，依据所述有序文本框的顺序，基于预设的成段规则对所述标签排列拆分，得到能够独立成段的段落排列；其中，

所述步骤532中的所述成段规则为：

步骤532-1，判断所述标签排列中是否同时存在所述起标识和所述止标识；并且，所述起标识和所述止标识之间的所述段落标签中不存在其他的起标识和止标识；

步骤532-2，若是，则判定该起标识、该止标识，以及该起标识和止标识之间的段落标签构成一组能够独立成段的段落排列。

上述，在判断时，针对通过序列标注分段模型输出的结果，在同一段落区域内，文本框标注需要，即为段落标签从B到E位一个实际段落。例如，一个标签排列如下所述：BOOOEBEBOOEBOOOOOOOEBOE；其中，根据条件进行判断：

1、标签排列中同时存在所述起标识和所述止标识；

2、起标识和止标识之间的段落标签中，不存在其他的起标识和止标识。

则上述标签排列可以拆分为5组能够独立成段的段落排列：

1、BOOOE；2、BE；3、BOOE；4、BOOOOOOOE；5、BOE。

上述，5个段落排列因为同时满足上述两个条件（既同时存在BE，并且BE之间不存在其他BE），因此均独立成段。

步骤540，将每个所述段落排列中的所述段落标签对应的文本框合并，得到所述段落信息。

本实施例中，可以利用序列标注模型进行识别判断，将排序后的文本框，即为有序文本框的标签排列，输入序列标注模型进行识别。

例如，（1）将有序文本框的标签排列（即为排序后的文本框），输入至序列标注模型中，其中，文本框的四个顶点坐标为：X_j1,Y_j1；X_j2,Y_j2；X_j3,Y_j3；X_j4,Y_j4；

（2）通过一层全连接层fc（fully connected layers），转化为高维特征;

（3）输入双向长短时间记忆网络BiLSTM（Bi-directional Long Short-TermMemory）；

（4）输入一层全连接层fc，最后通过条件随机场CRF（Conditional RandomFields）输出文本框序列的标签。

其中，采用起标识B，止标识E和非起止标识O作为段落标签。在判断时，针对通过序列标注分段模型输出的结果，在同一段落区域内，文本框标注需要，即为段落标签从B到E位一个实际段落。

（5）结合上述实例分割的结果、段落区域内文本框组合的结果，最终分割出段落信息，即为每个文档图像中的独立的段落；此外，也可以包括但不限于表格、图片和公式等等。

本实施例中，通过将文本框进行中心点垂直方向的排序，对应匹配的段落标签，在将由所有段落标签依据先后顺序组成的标签排列根据段落规则进行拆分，得到了若干个能够独立成段的段落排列，再将其对应的文本框分别依据段落排列组合，从而得到若干个与段落排列对应且独立的段落信息。本实施例能够针对段落间距较小时，多个相近段落（或表格图片）采用实例分割被错误识别划分为一个段落的问题，当出现多个段落划分为一个段落的问题，采用自然语言处理中的序列标注模型，将段落内部的文本行进行拆分，可以提升段落识别的准确率。并且，本实施例采用实例分割的方法对于图像中的目标区域做初步的划分，然后对于部分难以划分的区域做较细的划分，可以提升各子模块识别的准确率。

实施例5：

参照图10-18，本实施例提供一种图像文档版面识别方法，基于上述实施例1-4，为了更好的理解本申请中所提供的方法，本实施例中根据上述实施例的逻辑步骤提供如下具体实施例。本实施例中所提供的图像文档版面识别方法，包括如下步骤（参考图10）：

步骤一：将待处理文档中的图片从RGB图片转化为灰度图（参考图12），作为目标图像；

步骤二：对所述目标图像进行实例分割，划分出目标区域，包括但不限于段落区域、表格区域、图片区域等；

进一步的，步骤二包括：

（1）首先采用实例分割模型（如FCN或者Unet系列神经网络）进行特征提取，得到所述目标图像的版面分析特征图，设置特征点阈值为0.5，计算出所有特征点类别分值大于0.5的轮廓的最小外接矩形，如附图13所示，图中位于上方的并列的两个框表示段落区域、图中位于下方的框表示表格区域；

（2）由附图13内位于下方的框中可看出，表格区域内，由于内容较为稀疏，有部分特征点被判断为图片区域，所以对版面分析特征图中不同类型的mask图进行膨胀腐蚀操作，合并不同的mask图，进行连通域轮廓计算，寻找最外层轮廓；

（3）然后计算最外层轮廓所包围区域的不同类别得分并设置特征点阈值为0.6，取得分最高的类别作为包围区域的最终类别，结果如附图14所示；

（4）计算出每一个目标区域的最小外接矩形框及对应的顶点坐标。

步骤三：采用文本检测模型DBNet做文本检测，定位出目标图像中的文本框，如附图15所示；

步骤四：计算所有文本框所属目标区域

（1）对于所有的文本框，用文本框四个顶点坐标，计算中心点坐标，如正文第一行文本“□□□□□□□□□□”的坐标为（220，190，500，190，500，220，220，220），中心点坐标为（X _C=360，Y _C=215）；

（2）用上述文本框，匹配第一个段落区域，第一个段落区域的坐标为（176，188，502，186，504，510，178，512），

max(176,178)＜X _c=360＜min(502,504)，且max(188,186)＜Y _c=215＜min(510,512)；因此正文第一行文本属于第一个段落区域。

（3）依次类推，计算所有文本框的所属目标区域。

步骤五：计算落在同一段落区域中的文本框，采用序列标注的方法进行分段，对段落区域进行细分；具体的参考图11，包括：

（1）选择其中一个段落区域，及其对应的文本框，如附图16所示1号段落区域；

（2）文本框按照中心点垂直方向（y _c）进行排序，排序结果如附图16垂直方向排序所示，绿色数字为排序结果；

（3）通过排序后的文本框，如附图17所示，按文本框序号将文本框的四个顶点坐标输入序列标注分段预测模型，输出文本框序列的预测标签，其中“B”表示段落的开始，“E”表示段落的结束，“O”表示其他非开始或结束文本框；

（4）通过序列标注分段预测模型的输出结果，对多个文本框进行合并组合成一个段落信息，即为一个段落，如1号段落区域中文本框按排序后的预测结果为（B，O，O，O，E，B，O，E），则1号段落区域拆分成2组段落信息，依次是{（B，O，O，O,E），(B，O，E)}；

（5）依次类推，对所有段落区域内的文本框进行合并。

步骤六：结合实例分割结果和段落区域内文本框组合结果，最后分割出文档图像中的段落、表格、图片，分割结果如附图18所示。

此外，参考附图19，本申请还提供一种图像文档版面识别装置，包括：

获取模块，用于获取待处理文档对应的目标图像；

此外，本申请还提供一种图像文档版面识别系统，包括存储器以及处理器，所述存储器用于存储图像文档版面识别程序，所述处理器运行所述图像文档版面识别程序以使所述图像文档版面识别系统执行如上述所述图像文档版面识别方法。

此外，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有图像文档版面识别程序，所述图像文档版面识别程序被处理器执行时实现如上述所述图像文档版面识别方法。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种图像文档版面识别方法，其特征在于，包括：

获取待处理文档对应的目标图像；

采用序列标注方法对所述段落片区分段，得到段落信息；

根据所述目标区域和所述段落信息，对所述目标图像进行分割并获得所述目标图像中的独立分割单元；

所述采用序列标注方法对所述段落片区分段，得到段落信息包括：

对所述有序文本框匹配对应的段落标签；

将每个所述段落排列中的所述段落标签对应的文本框合并，得到所述段落信息；

所述段落标签包括起标识、止标识和非起止标识；

将所述段落标签组合成标签排列；

所述成段规则为：

2.如权利要求1所述图像文档版面识别方法，其特征在于，所述对所述目标图像进行实例分割，得到通过所述实例分割划分出的目标区域包括：

3.如权利要求2所述图像文档版面识别方法，其特征在于，所述根据所述版面分析特征图的所述最外层轮廓确定所述目标区域包括：

确定所述最外层轮廓所包围区域的轮廓类别；

4.如权利要求1所述图像文档版面识别方法，其特征在于，所述确定所述文本框对应所在的所述目标区域包括：

计算所述文本框对应的中心点坐标；

5.如权利要求4所述图像文档版面识别方法，其特征在于，所述计算所述文本框对应的中心点坐标包括：

6.一种图像文档版面识别装置，其特征在于，包括：

获取模块，用于获取待处理文档对应的目标图像；

所述获取模块，还用于根据所述目标区域和所述段落信息，对所述目标图像进行分割并获得所述目标图像中的独立分割单元；

其中，所述采用序列标注方法对所述段落片区分段，得到段落信息包括：

对所述有序文本框匹配对应的段落标签；

所述段落标签包括起标识、止标识和非起止标识；

将所述段落标签组合成标签排列；

所述成段规则为：

7.一种图像文档版面识别系统，其特征在于，包括存储器以及处理器，所述存储器用于存储图像文档版面识别程序，所述处理器运行所述图像文档版面识别程序以使所述图像文档版面识别系统执行如权利要求1-5中任一项所述图像文档版面识别方法。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有图像文档版面识别程序，所述图像文档版面识别程序被处理器执行时实现如权利要求1-5中任一项所述图像文档版面识别方法。