CN114332884B

CN114332884B - 文档元素的识别方法、装置、设备及存储介质

Info

Publication number: CN114332884B
Application number: CN202210221314.9A
Authority: CN
Inventors: 徐士戈; 胡益清; 吴云飞; 刘兵; 姜德强
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-03-09
Filing date: 2022-03-09
Publication date: 2022-06-21
Anticipated expiration: 2042-03-09
Also published as: CN114332884A

Abstract

本申请涉及计算机领域，特别涉及人工智能领域，提供了一种文档元素的识别方法、装置、设备及存储介质，本申请实施例可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景中。该方法包括：通过在相应的文档图像模板的元素显示区域填充新的元素数据，得到大量类似真实文档图像，解决了模型泛化性差的问题。在每轮训练中，基于训练样本集合，使用具有相同文档内容，且具有不同图像尺寸的两个文档图像进行多尺度预测，将小尺度的广视野优势与大尺度的边界定位优势相结合，获得第一文档图像的预测识别结果，再使用预测识别结果与相应的处理后的标注结果调整模型参数，解决了边界识别不精准的问题，提高了模型的文档元素识别准确率。

Description

文档元素的识别方法、装置、设备及存储介质

技术领域

本申请涉及计算机领域，特别涉及人工智能领域，提供了一种文档元素的识别方法、装置、设备及存储介质。

背景技术

在日常生活中，特别是工作办公时，常会遇到下载的文件为图像格式的情况，那么，为了获取到文本格式的文件，需要借助于文档格式转换工具，实现图片转文字的功能。

目前，先通过文档格式转换工具的文档元素识别算法，识别出图像上各文档元素的元素显示区域，再使用光学字符识别（Optical Character Recognition，OCR）、自然语言理解等方法识别相应区域的文字内容。

但是，因文档元素提取方法的精度较低，在处理包含图片、表格、边框线等细粒度文档元素的复杂文档图像时，难以准确划分出各元素显示区域，存在较多的边界重合区域，增加了OCR、自然语言理解方法的文字识别难度，提高了漏检、误检的风险，降低了文字识别效率与准确率。而且，文档元素识别算法的泛化能力差，无法满足通用文档场景中识别不同版式文档的需求。

发明内容

本申请实施例提供了一种文档元素的识别方法、装置、设备及存储介质，以解决识别方法泛化性差、文档元素识别准确率低的问题。

第一方面，本申请实施例提供了一种文档元素的识别方法，包括：

获取包含了真实文档图像与类似真实文档图像的训练样本集合，其中，每个类似真实文档图像，是在相应的文档图像模板的元素显示区域，填充新的元素数据得到的；

基于所述训练样本集合，以循环迭代方式进行模型训练，输出训练完毕的文档元素识别模型，其中，一轮训练过程如下：

基于所述训练样本集合，获得具有相同文档内容，且具有不同图像尺寸的第一文档图像和第二文档图像；

基于分别对所述第一文档图像和所述第二文档图像进行编解码处理后，获得的各候选识别结果，分别确定所述第一文档图像上各文档元素的元素显示区域及元素类别，获得相应的预测识别结果；

基于所述预测识别结果及相应的处理后的标注结果，调整所述文档元素识别模型的模型参数。

第二方面，本申请实施例还提供了一种文档元素的识别装置，包括：

样本获取单元，用于获取包含了真实文档图像与类似真实文档图像的训练样本集合，其中，每个类似真实文档图像，是在相应的文档图像模板的元素显示区域，填充新的元素数据得到的；

处理单元，用于基于所述训练样本集合，获得具有相同文档内容，且具有不同图像尺寸的第一文档图像和第二文档图像；

参数调整单元，用于基于所述预测识别结果及相应的处理后的标注结果，调整所述文档元素识别模型的模型参数。

可选的，所述一个文档图像模板的各元素显示区域包括图片区域、表格区域、文本区域和分割线区域；

在按照规定的模板排列逻辑，将获得的各新的元素数据，填充到所述一个文档图像模板的各元素显示区域之前，所述样本获取单元还用于：

当所述图片区域与所述表格区域间的数量比例不满足设定阈值时，将部分图片区域转换为所述表格区域，或将部分表格区域转换为所述图片区域，以使调整后的所述图片区域与所述表格区域间的数量比例满足设定阈值。

可选的，所述样本获取单元用于：

按照各所述图片区域的高宽比，调整符合图片尺寸要求的各图片的高宽比，并将调整后的各所述图片，填充到相应的图片区域中；以及，

按照各所述表格区域的高宽比，调整符合表格尺寸要求的各表格的高宽比，并将调整后的各所述表格，填充到相应的表格区域中；以及，

调整各文本的字体、字号与粗细中的至少一种，并将调整后的各所述文本，填充到相应的文本区域中；以及，

调整各分割线的线条长度与线条宽度，并将调整后的各所述分割线，填充到相应的分割线区域中。

可选的，所述样本获取单元用于：

按照各所述图片区域的高宽比，对与各所述图片区域的高宽比接近的图片进行随机缩放、随机拉伸中的至少一种，以使各所述图片的高宽比不超过相应的图片区域的高宽比。

可选的，所述分割线区域的位置为以下至少一种：

位于所述一个文档图像模板的上方区域；

位于所述一个文档图像模板的下方区域；

位于所述一个文档图像模板的左侧区域；

位于所述一个文档图像模板的右侧区域；

位于图注或表注的上方区域；

位于图注或表注的下方区域。

可选的，所述处理后的标注结果是通过缩减原始标注结果中的各元素显示区域得到的。

可选的，所述处理单元通过执行以下操作，获得所述第一文档图像的处理后的标注结果：

使用结构元遍历所述第一文档图像上的各像素点，以获得所述第一文档图像中缩减后的各所述元素显示区域；其中，每遍历一个像素点，将所述结构元覆盖区域中的最小像素值，作为当前遍历的所述一个像素点的新像素值。

可选的，所述处理单元用于通过执行以下操作，获得所述第一文档图像的候选识别结果：

通过对所述第一文档图像进行编码处理，获得底层图像特征与高层图像特征；

通过对融合的底层图像特征与高层图像特征进行解码处理，获得编解码图像特征，并基于获得的编解码图像特征，分别确定所述第一文档图像上各文档元素的元素显示区域及元素类别，获得相应的候选识别结果。

可选的，所述处理单元用于：

使用深度残差网络对所述第一文档图像进行第一编码处理，获得所述底层图像特征与所述中间层图像特征，其中，所述底层图像特征是通过所述深度残差网络的前n个残差块，对所述第一文档图像或前一个残差块输出的图像特征进行第一编码处理获得的，所述中间层图像特征是通过所述深度残差网络的后n个残差块，对前一个残差块输出的图像特征进行第一编码处理获得的；

分别使用不同空洞率的卷积核，对所述中间层图像特征进行第二编码处理，获得多个尺度的空洞图像特征，并基于拼接的空洞图像特征集合，获得所述高层图像特征。

第三方面，本申请实施例还提供了一种计算机设备，包括处理器和存储器，其中，所述存储器存储有程序代码，当所述程序代码被所述处理器执行时，使得所述处理器执行上述任意一种文档元素的识别方法的步骤。

第四方面，本申请实施例还提供了一种计算机可读存储介质，其包括程序代码，当程序产品在计算机设备上运行时，所述程序代码用于使所述计算机设备执行上述任意一种文档元素的识别方法的步骤。

本申请有益效果如下：

本申请实施例提供了一种文档元素的识别方法、装置、设备及存储介质，该方法包括：获取包含了真实文档图像与类似真实文档图像的训练样本集合，基于训练样本集合训练文档元素识别模型，其中，在每轮训练中，基于训练样本集合获得具有相同文档内容，且具有不同图像尺寸的第一文档图像和第二文档图像，基于对上述两个文档图像编解码处理后得到的各候选识别结果，获得第一文档图像的预测识别结果，再基于预测识别结果与相应的处理后的标注结果，调整该模型的模型参数。

通过在相应的文档图像模板的元素显示区域中，填充新的元素数据得到大量类似真实文档图像，增加了训练样本的数据量，丰富了训练样本内包含的文档元素，弥补了因训练样本的数量不足，带来的模型泛化性差的问题。

在每轮训练中，采用具有相同文档内容，且具有不同图像尺寸的两个文档图像进行多尺度预测，将小尺度的广视野优势与大尺度的边界定位优势相结合，获得第一文档图像的预测识别结果，再使用预测识别结果与相应的处理后的标注结果，共同调整模型参数，解决了模型无法精准识别各元素显示区域边界的问题，在不过多增加推断时间的情况下，提升模型的识别能力，进而提高了模型的文档元素识别准确率。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1a为基于现有的文档元素提取方法，获得的文档图像的预测识别结果示意图；

图1b为基于现有的文档元素提取方法，获得的另一张文档图像的预测识别结果示意图；

图2为本申请实施例中一种应用场景的一个可选的示意图；

图3a为本申请实施例提供的文档元素识别模型的架构示意图；

图3b为本申请实施例提供的深度残差网络的结构示意图；

图3c为本申请实施例提供的深度可分离卷积的卷积计算示意图；

图4a为本申请实施例提供的训练文档元素识别模型的流程示意图；

图4b为本申请实施例提供的训练文档元素识别模型的逻辑示意图；

图4c为基于现有的文档元素提取方法，获得的文档图像的预测识别结果的示意图；

图4d为基于网络结构优化的文档元素识别模型，获得的文档图像的预测识别结果示意图；

图4e为本申请实施例提供的使用版面构造引擎，获得的一个类似真实文档图像的示意图；

图4f为本申请实施例提供的对位于（1,2）的像素点进行腐蚀化处理的逻辑示意图；

图4g为本申请实施例提供的对第一文档图像进行腐蚀化处理的逻辑示意图；

图4h为本申请实施例提供的使用标签腐蚀的前后分割效果对比图；

图4i为本申请实施例提供的使用不同策略得到的分割线识别结果的示意图；

图5为本申请实施例提供的使用文档元素识别模型的流程示意图；

图6为本申请实施例提供的一种文档元素的识别装置的结构示意图；

图7为本申请实施例中提供的一种计算机设备的组成结构示意图；

图8为本申请实施例中的一个计算装置的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请技术方案的一部分实施例，而不是全部的实施例。基于本申请文件中记载的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请技术方案保护的范围。

以下对本申请实施例中的部分用语进行解释说明，以便于本领域技术人员理解。

1、人工智能（Artificial Intelligence，AI）：

人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术；人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

随着人工智能技术研究和进步，人工智能在多个领域展开研究和应用，例如常见的智能家居、智能客服、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、机器人、智能医疗等，相信随着技术的发展，人工智能将在更多的领域得到应用，并发挥越来越重要的价值。

2、机器学习：

机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。

机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍布人工智能的各个领域，包括深度学习、强化学习、迁移学习、归纳学习、式教学习等技术。

3、计算机视觉是一门集计算机科学、信号处理、物理学、应用数学、统计学、神经生理学等多学科于一身的综合性学科，也是科学领域中一个富有挑战性的重要研究方向。该学科使用各种成像系统代替视觉器官作为输入手段，由计算机代替大脑完成处理和解释，使得计算机可以具备像人类一样通过视觉的方式观察、理解世界的能力。

其中，计算机视觉的子领域包括场景重建、事件检测、对象识别、3D姿态估计、学习、索引、运动估计和图像恢复等。

4、数学形态学（Mathematical morphology）是一门建立在格论和拓扑学基础之上的图像分析学科，是数学形态学图像处理的基本理论。其基本的运算包括：二值腐蚀和膨胀、二值开闭运算、骨架抽取、极限腐蚀、击中击不中变换、形态学梯度、Top-hat变换、颗粒分析、流域变换、灰值腐蚀和膨胀、灰值开闭运算、灰值形态学梯度等。

5、文档图像指的是包含文本、图片、表格、超文本链接等文档元素，且文件格式为png，jpg，bmp，gif，tiff，emf等图片格式的文件。如，为了实现在设备未安装便携式文档格式（Portable Document Format，PDF）解析器的情况下，仍可读取PDF文档内容的功能，可将PDF的文件格式转换为JPG格式的图像。

下面对本申请实施例的设计思想进行简要介绍：

目前，先通过文档格式转换工具的文档元素识别算法，识别出图像上各文档元素的元素显示区域，再使用OCR、自然语言理解等方法识别相应区域的文字内容。

但是，因文档元素提取方法的精度较低，在处理包含图片、表格、边框线等细粒度文档元素的复杂文档图像时，如图1a~1b所示，难以准确划分出各元素显示区域，存在较多的边界重合区域，增加了OCR、自然语言理解方法的文字识别难度，提高了漏检、误检的风险，降低了文字识别效率与准确率。而且，文档元素识别算法的泛化能力差，无法满足通用文档场景中识别不同版式文档的需求。

有鉴于此，本申请实施例提出了一种文档元素的识别方法、装置、设备及存储介质。该方法包括：获取包含了真实文档图像与类似真实文档图像的训练样本集合，基于训练样本集合训练文档元素识别模型，其中，在每轮训练中，基于训练样本集合获得具有相同文档内容，且具有不同图像尺寸的第一文档图像和第二文档图像，基于对上述两个文档图像编解码处理后得到的各候选识别结果，获得第一文档图像的预测识别结果，再基于预测识别结果与相应的处理后的标注结果，调整该模型的模型参数。

以下结合说明书附图对本申请的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本申请，并不用于限定本申请，并且在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本申请实施例可应用于各种场景，包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。图2示出了其中一种应用场景的示意图。该应用场景下包括两部物理终端设备210和一台服务器230，两部物理终端设备210均通过有线网络或者无线网络，与服务器230之间建立通信连接。

本申请实施例中的物理终端设备210为用户使用的计算机设备。计算机设备包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、飞行器等。

本申请实施例中的服务器230可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络（Content DeliveryNetwork，CDN）、以及大数据和人工智能平台等基础云计算服务的云服务器，本申请在此不做限制。

在服务器230上部署文档元素识别模型，使用包含了真实文档图像和类似文档图像的训练样本集合，以循环迭代方式进行模型训练，获得训练完毕的文档元素识别模型，其中，在每轮训练过程中，采用具有相同文档内容，且具有不同图像尺寸的两个文档图像进行多尺度预测，将小尺度的广视野优势与大尺度的边界定位优势相结合，获得第一文档图像的预测识别结果，再使用预测识别结果与相应的处理后的标注结果，共同调整模型参数。

在获得训练完毕的文档元素识别模型之后，目标对象通过物理终端设备210的访问界面220，向服务器230发送待识别的文档图像，服务器230将获得的文档图像输入训练完毕的文档元素识别模型中，经过深度残差网络、金字塔池化网络的编码处理与反卷积核的解码处理，确定文档图像上各文档元素的元素显示区域及元素类别，物理终端设备210获取服务器230发送的预测识别结果，并将该结果展示给目标对象。

或者，服务器230基于预测识别结果进行OCR、自然语言理解等方法识别相应区域的文字内容，实现图像转文字的功能，物理终端设备210获取服务器230发送的文字识别结果，并将该结果展示给目标对象。

如图3a所示，文档元素识别模型包括由深度残差网络、金字塔池化网络组成的编码器，和由多个反卷积核组成的解码器，其中，解码器的反卷积核与深度残差网络所使用的卷积核成映射关系。

根据图3a可以看出，解码器用于生成表达能力较弱的底层图像特征，与表达能力较强的高层图像特征，而解码器用于融合底层图像特征与高层图像特征，精准定位出文档图像中各文档元素的元素显示区域，与识别出各文档元素的元素类别。

如图3b所示，深度残差网络包括多个层（layer）、多个含有数量不等神经元的全连接层（如含有12个神经元的全连接层，与含有256个神经元的全连接层）以及重构层、最大池化层。其中，每个layer包含数量不等的多个残差块（block），每个残差块包括卷积层、批标准化层、非线性激活层。如，深度残差网络共分为4层，第1~4层含有的残差块块数依次是（3,4,23,3）。

在本申请实施例中，采用空洞全卷积（dilated convolution）调整深度残差网络的多个残差块，使用基于空洞率的卷积核替换步长stride为2的卷积核，确保同一layer的若干个残差块使用同一空洞率的卷积核，至少有两个layer的若干个残差块使用不同空洞率的卷积核，以获得不同尺度的图像特征。

基于空间金字塔池化方法（Atrous Spatial Pyramid Pooling, ASPP）构建空间金字塔池化网络，但是，为了进一步提高模型的识别准确度，本申请实施例对空间金字塔池化网络进行了以下两点改进，分别是：

改进点1：将深度可分离卷积（depthwise deparable convolution）的思想应用在空间金字塔池化网络中。

如图3c所示，深度可分离卷积的卷积计算分为两部分，首先分别对各通道（深度）进行空间卷积（depthwise convolution），并对各通道（深度）的卷积结果进行拼接，随后使用单位卷积核进行通道卷积（pointwise convolution）以得到特征图。

因此，将其应用在空间金字塔池化网络中，先使用多个卷积层分别进行空间卷积，获得多个尺度的图像特征，以及使用一个池化层进行池化处理，获得相应的图像特征，再将各层的输出拼接在一起，使用3×3卷积核进行通道卷积，获得高层图像特征。

深度可分离卷积通过拆分空间维度和通道（深度）维度的相关性，减少了卷积计算所需要的参数个数，提升了卷积核参数的使用效率，提高了模型训练速度。

改进点2：将卷积层的1×1卷积核替换为3×3卷积核，或基于不同空洞率的3×3卷积核。

由于高层图像特征包含了更有效的信息，为了缩短模型的卷积计算时间，提高模型的识别准确度，应对低层级的图像特征进行通道压缩，减少了低层图像特征的比重。使用3×3卷积核或基于不同空洞率的3×3卷积核，替代原网络结构的1×1卷积核，在不影响通道压缩效果的情况下，提升了压缩速度如，使用3×3卷积核对1024维的低层图像特征进行通道压缩，得到128维的低层图像特征。

其次，使用3×3卷积核或基于不同空洞率的3×3卷积核，还有利于增大感受野，在训练阶段起到提升模型训练速度的作用，在使用阶段起到提高模型性能的作用。

最后，使用基于不同空洞率的3×3卷积核，可生成不同尺度的图像特征。其中，小尺度的图像特征有利于确定元素显示区域的中心点，大尺度的图像特征有利于定位元素显示区域的边界，通过结合小尺度的广视野优势与大尺度的边界定位优势，提高了模型的边界分割准确度，减少出现边界重合区域的次数。

高层图像特征输入解码器之前，对其进行上采样处理（如，进行4倍上采样处理），确保高层图像特征的分辨率与底层图像特征的分辨率保持一致，方便对底层图像特征和高层图像特征进行融合，而融合表达能力不同的图像特征，也可以起到提高模型的边界分割准确度的作用，减少出现边界重合区域的次数。

参阅图4a示出的流程示意图和图4b示出的逻辑示意图，介绍使用本申请实施例提出的文档元素的识别方法，训练文档元素识别模型的过程。

S401：获取包含了真实文档图像与类似真实文档图像的训练样本集合，其中，每个类似真实文档图像，是在相应的文档图像模板的元素显示区域，填充新的元素数据得到的。

图4c是基于现有的文档元素提取方法，获得的文档图像的预测识别结果，因该方法的精度较低，在处理包含图片、表格、边框线等细粒度文档元素的复杂文档图像时，难以准确划分出各元素显示区域，特别是对距离较近的归属于不同元素类别的文档元素间的边界区分度较低，导致预测识别结果中存在较多的边界重合区域。如，图片与图注之间的界限不明确，边界分割结果不连续，难以形成准确的区域包围框。

图4d是基于网络结构优化的文档元素识别模型，获得的文档图像的预测识别结果，相较于现有的文档元素提取方法而言，网络结构优化的文档元素识别模型输出的预测识别结果，语义丰富，且识别精度有所提升。但是，仅从网络结构方面优化模型，还是无法解决清晰分割距离较近的归属于不同元素类别的文档元素间的边界，和精准识别分割线等细粒度文档元素的元素显示区域、元素类别的问题。

因此，本申请实施例从训练样本与训练算法两个角度，进行针对性优化。而步骤401正是体现了对训练样本的优化过程。

（一）优化训练样本。

针对训练样本的泛化性不足、图表排版比例不均衡、细粒度文档元素的数量较少、训练样本的整体数量不足等问题，除了采集各真实文档图像外，还会按照文档图像模板的模板排列逻辑，将获得各个新的元素数据，填充到文档图像模板上的对应区域内，从而构造大量的类似真实文档图像，增加了训练样本的数据量，丰富了训练样本内包含的文档元素，解决训练样本存在的各种问题。

其中，获取新的元素数据的方式包括但不限于以下几种：

从多种公开数据集的文档图像模板中搜集图片、表格等开源的元素数据，并将其作为新的元素数据进行数据填充操作；

将自行构造的图片、表格、文本等元素数据作为新的元素数据，使用这些数据进行数据填充操作。

其中，获得一个类似真实文档图像的过程如下：

获取一个文档图像模板，按照规定的模板排列逻辑，将获得的各新的元素数据，填充到该文档图像模板的各元素显示区域；再将已填充元素数据的文档图像模板，确定为一个类似真实文档图像。

如图4e左侧所示，一个文档图像模板的各元素显示区域包括图片区域、表格区域、文本区域和分割线区域，而文本区域又包含文本、图注、表注、标题、公式、页眉页脚等。通过版面构造引擎将图片、表格、文本等数据填充到相应的区域中，可获得如图4e右侧所示的类似真实文档图像。

为了改善图表排版比例不均衡的情况，在进行数据填充之前，先通过筛查、统计与计算文档图像模板上图片区域与表格区域间的数量比例不满足设定阈值时，将部分图片区域转换为表格区域，或将部分表格区域转换为图片区域，以使调整后的图片区域与表格区域间的数量比例满足设定阈值。

如，当文档图像模板上的图片区域的数量，远超于表格区域的数量，将其中20%的图片区域转换为表格区域，以使调整后的图表分布比例接近1:1。

又如，一个文档图像模板上共有4个图片区域，1个表格区域，将其中一个图片区域转换为表格区域，调整后的图片区域与表格区域的数量比值接近1：1。

由于不同元素类别的元素显示区域，所对应的填充规则有所不同，下面将一一介绍各元素显示区域的填充规则。

（1）针对图片区域的填充规则：按照各图片区域的高宽比，调整符合图片尺寸要求的各图片的高宽比，并将调整后的各图片，填充到相应的图片区域中。

按照各图片区域的高宽比，优选选择与各图片区域的高宽比接近的图片，并对这些图片进行随机缩放、随机拉伸中的至少一种，以使各图片的高宽比不超过相应的图片区域的高宽比。这样做，在保证图片数据真实性的基础上，又增加了版面的泛化性，有利于改训练样本泛化性不足的情况。

（2）针对表格区域的填充规则：按照各表格区域的高宽比，调整符合表格尺寸要求的各表格的高宽比，并将调整后的各表格，填充到相应的表格区域中。

与填充图片的过程类似，按照各表格区域的高宽比，优选选择与各表格区域的高宽比接近的表格，并对这些表格进行随机缩放、随机拉伸中的至少一种，以使各表格的高宽比不超过相应的表格区域的高宽比。这样做，在保证表格数据真实性的基础上，又增加了版面的泛化性，有利于改善训练样本泛化性不足的情况。

（3）针对文本区域的填充规则：调整各文本的字体、字号与粗细中的至少一种，并将调整后的各文本，填充到相应的文本区域中。

调整各文本的字体、字号与粗细中的至少一种，并将其填充到相应的文本区域中，能够进一步提升模型的鲁棒性，降低异常数据对模型性能的影响程度。

（4）针对分割线区域的填充规则：调整各分割线的线条长度与线条宽度，并将调整后的各分割线，填充到相应的分割线区域中。

针对细粒度文档元素的数量较少的问题，本申请实施例增加了分割线区域的填充比例，使模型得到了更多针对分割线区域的训练，覆盖更多复杂文档图像的识别场景。

为了进一步提升训练样本的泛化性，在构造分割线区域时，其位置为以下至少一种：

位于一个文档图像模板的上方区域；

位于一个文档图像模板的下方区域；

位于一个文档图像模板的左侧区域；

位于一个文档图像模板的右侧区域；

位于图注或表注的上方区域；

位于图注或表注的下方区域。

在本申请实施例中，分割线的线条颜色以黑色为主，在一定范围内随机调整各分割线的线条长度与线条宽度，将调整后的分割线填充到相应的分割线区域中。

（二）对训练样本的原识别结果进行腐蚀化处理，获得相应的处理后的标注结果。

图像的膨胀（Dilation）和腐蚀（Erosion）是两种基本的形态学运算，主要用来寻找图像中的极大区域和极小区域。其中，膨胀类似于“领域扩张”，将图像中的高亮区域或白色部分进行扩张，其运行结果图比原图的高亮区域更大；腐蚀类似于“领域被蚕食”，将图像中的高亮区域或白色部分进行缩减细化，其运行结果图比原图的高亮区域更小。

使用结构元遍历第一文档图像上的各像素点，以获得第一文档图像中缩减后的各元素显示区域；其中，每遍历一个像素点，将结构元覆盖区域中的最小像素值，作为当前遍历的一个像素点的新像素值。

这里的结构元，实际上是一个由二进制数01构成的二值矩阵。结构元可以是矩形结构，也可以是椭圆形结构、十字交叉形结构等。

假设第一文档图像为

，结构元为十字交叉结构。如图4f 所示，在对位于（1,2）的像素点进行腐蚀化处理时，十字交叉结构元的覆盖区域为

，运算结果为

，最小值为11，因此，位于（1,2）的像素点的新像素值为11。

如图4g所示，对真实文档图像或类似真实文档图像的原始标注结果进行腐蚀化处理，以各元素显示区域的中心点为中心，缩小各元素显示区域的区域范围，让图像中比较亮的区域面积会变小，比较暗的区域面积增大，获得相应的处理后的标注结果。其中，原始标注结果指的是人工标注真实文档图像或类似真实文档图像上，各元素显示区域原本的区域范围和元素类型；处理后的标注结果指的是重新标注真实文档图像或类似真实文档图像上，各元素显示区域腐蚀后的区域范围和元素类型。

考虑到图片、表格、文本等文档元素的边缘特征与背景特征比较相似，能在一定程度上避免背景特征的干扰，同时各元素显示区域间的边界，拥有了较为明显的区分度，有助于模型分割距离接近的归属于不同元素类别的文档元素间的边界，以及相同元素类别的元素显示区域间的边界。

图4h为使用标签腐蚀的前后分割效果对比图，左图为标签腐蚀前的分割效果图，右图为标签腐蚀后的分割效果图，可以看出使用腐蚀化处理后的处理后的标注结果训练模型，有效提升了模型对图片图注、表格表注、分割线等距离相近，且归属于不同元素类别的元素显示区域的边界分割准确度，

S402：基于训练样本集合，获得具有相同文档内容，且具有不同图像尺寸的第一文档图像和第二文档图像。

采用具有相同文档内容，且具有不同图像尺寸的两个文档图像进行多尺度预测，将小尺度的广视野优势与大尺度的边界定位优势相结合，有助于提高模型的识别精准度。

如，第一文档图像的图像尺寸为1024*768，将第一文档图像的图像尺寸缩小一半，得到图像尺寸为512*384的第二文档图像，因为只调整了第一文档图像的图像尺寸，所以第一文档图像与第二文档图像是具有相同文档内容，但具有不同图像尺寸的图像。

S403：基于分别对第一文档图像和第二文档图像进行编解码处理后，获得的各候选识别结果，分别确定第一文档图像上各文档元素的元素显示区域及元素类别，获得相应的预测识别结果。

将第一文档图像与第二文档图像一齐输入文档元素识别模型中，模型对每个文档图像的处理过程是相同的，为了便于描述，以第一文档图像为例，介绍下获得第一文档图像的候选识别结果的过程。

通过对第一文档图像进行编码处理，获得底层图像特征与高层图像特征，再通过对融合的底层图像特征与高层图像特征进行解码处理，获得编解码图像特征，并基于获得的编解码图像特征，分别确定第一文档图像上各文档元素的元素显示区域及元素类别，获得相应的候选识别结果。

具体地，在对第一文档图像进行编码处理时，先使用深度残差网络对第一文档图像进行第一编码处理，获得底层图像特征与中间层特征，其中，底层图像特征是通过深度残差网络的前n个残差块，对第一文档图像或前一个残差块输出的图像特征进行第一编码处理获得的，中间层图像特征是通过深度残差网络的后n个残差块，对前一个残差块输出的图像特征进行第一编码处理获得的。

将底层图像特征传递到解码器中，将中间层图像特征传递到空间金字塔池化网络中，分别使用不同空洞率的卷积核对中间层图像特征进行第二编码处理，获得多个尺度的空洞图像特征，并基于拼接的空洞图像特征集合，获得高层图像特征。

使用基于不同空洞率的卷积核，可生成不同尺度的图像特征。其中，小尺度的图像特征有利于确定元素显示区域的中心点，大尺度的图像特征有利于定位元素显示区域的边界，通过结合小尺度的广视野优势与大尺度的边界定位优势，提高了模型的边界分割准确度，减少出现边界重合区域的次数。

为了让高层图像特征的分辨率与底层图像特征的分辨率保持一致，在将高层图像特征传递到解码器之前，先对其进行上采样处理。

使用解码器对底层图像特征进行第二编码处理，获得卷积后的底层图像特征，再融合卷积后的底层图像特征与高层图像特征，通过融合表达能力不同的图像特征，起到提高模型的边界分割准确度的作用，减少出现边界重合区域的次数。

对融合后的图像特征进行第二编码处理，获得相应的编解码图像特征，基于该编解码图像特征，可确定第一文档图像上各文档元素的元素显示区域及元素类别，获得相应的候选识别结果。

采用同样的方式，获得第二文档图像的候选识别结果。将两个文档图像上处于相同位置的元素显示区域的类别预测值进行加权平均，确定第一文档图像上各文档元素的元素显示区域及元素类别，获得相应的目标识别结果。

为了解决针对细粒度文档元素的识别效果较差的问题，在基于多尺度的候选识别结果，确定第一文档图像的目标识别结果时，使用加权平均策略替代原本的绝对平均策略，促使原图尺寸的分割线等细粒度文档元素的类别预测值的占比更多。从图4i所示的对比图中可以看出，采用加权平均策略，能够减轻难以在小尺度化图像中分割细粒度文档元素的情况。

S404：基于预测识别结果及相应的处理后的标注结果，调整文档元素识别模型的模型参数。

其中，处理后的标注结果是通过缩减原始标注结果中的各元素显示区域得到的。

S405：判断是否满足迭代停止条件，若是，输出训练完毕的文档元素识别模型；否则，返回步骤402。

当模型满足以下任意一种迭代停止条件时，输出训练完毕的文档元素识别模型。其中，迭代停止条件包括但不限于：训练次数达到设定轮次，全部训练样本均处理完毕，模型的损失值稳定在设定损失范围内。

在介绍完模型的训练过程后，参阅图5示出的流程示意图，继续介绍模型的使用过程。

S501：获取待识别的文档图像，并通过模型的深度残差网络对待识别的文档图像进行第一编码处理，获得底层图像特征和中间层图像特征；

S502：将底层图像特征传递到解码器的同时，将中间层图像特征传递到空间金字塔池化网络中；

S503：通过空间金字塔池化网络的不同空洞率的卷积核，分别对中间层图像特征进行第二编码处理，获得不同尺度的空洞图像特征，以及通过空间金字塔池化网络的图像池化层对中间层图像特征进行池化处理，获得相应的池化图像特征；

S504：将获得的多个空洞图像特征及池化图像特征进行拼接，获得图像特征集合，并通过对图像特征集合进行第二编码处理，获得高层图像特征；

S505：对高层图像特征进行4倍上采样，并将上采样后的高层图像特征传递到解码器中；

S506：通过解码器对底层图像特征进行二次解码处理，获得解码后的底层图像特征；

S507：通过对融合的底层图像特征与高层图像特征进行解码处理，获得编解码图像特征，对编解码图像特征进行4倍上采样，并基于上采样后的编解码图像特征，确定待识别的文档图像上各文档元素的元素显示区域及元素类别，获得相应的目标识别结果。

与上述方法实施例基于同一发明构思，本申请实施例还提供了一种文档元素的识别装置。参阅图6示出的结构示意图。文档元素的识别装置600包括：

样本获取单元601，用于获取包含了真实文档图像与类似真实文档图像的训练样本集合，其中，每个类似真实文档图像，是在相应的文档图像模板的元素显示区域，填充新的元素数据得到的；

基于训练样本集合，以循环迭代方式进行模型训练，输出训练完毕的文档元素识别模型，其中，一轮训练过程如下：

处理单元602，用于基于训练样本集合，获得具有相同文档内容，且具有不同图像尺寸的第一文档图像和第二文档图像；

基于分别对第一文档图像和第二文档图像进行编解码处理后，获得的各候选识别结果，分别确定第一文档图像上各文档元素的元素显示区域及元素类别，获得相应的预测识别结果；

参数调整单元603，用于基于预测识别结果及相应的处理后的标注结果，调整文档元素识别模型的模型参数。

可选的，样本获取单元601通过执行以下操作，获得一个类似真实文档图像：

获取一个文档图像模板；

按照规定的模板排列逻辑，将获得的各新的元素数据，填充到一个文档图像模板的各元素显示区域；

将已填充元素数据的文档图像模板，确定为一个类似真实文档图像。

可选的，一个文档图像模板的各元素显示区域包括图片区域、表格区域、文本区域和分割线区域；

在按照规定的模板排列逻辑，将获得的各新的元素数据，填充到一个文档图像模板的各元素显示区域之前，样本获取单元601还用于：

当图片区域与表格区域间的数量比例不满足设定阈值时，将部分图片区域转换为表格区域，或将部分表格区域转换为图片区域，以使调整后的图片区域与表格区域间的数量比例满足设定阈值。

可选的，样本获取单元601用于：

按照各图片区域的高宽比，调整符合图片尺寸要求的各图片的高宽比，并将调整后的各图片，填充到相应的图片区域中；以及，

按照各表格区域的高宽比，调整符合表格尺寸要求的各表格的高宽比，并将调整后的各表格，填充到相应的表格区域中；以及，

调整各文本的字体、字号与粗细中的至少一种，并将调整后的各文本，填充到相应的文本区域中；以及，

调整各分割线的线条长度与线条宽度，并将调整后的各分割线，填充到相应的分割线区域中。

可选的，样本获取单元601用于：

按照各图片区域的高宽比，对与各图片区域的高宽比接近的图片进行随机缩放、随机拉伸中的至少一种，以使各图片的高宽比不超过相应的图片区域的高宽比。

可选的，分割线区域的位置为以下至少一种：

位于一个文档图像模板的上方区域；

位于一个文档图像模板的下方区域；

位于一个文档图像模板的左侧区域；

位于一个文档图像模板的右侧区域；

位于图注或表注的上方区域；

位于图注或表注的下方区域。

可选的，处理后的标注结果是通过缩减原始标注结果中的各元素显示区域得到的。

可选的，处理单元602通过执行以下操作，获得第一文档图像的处理后的标注结果：

可选的，处理单元602用于通过执行以下操作，获得第一文档图像的候选识别结果：

通过对第一文档图像进行编码处理，获得底层图像特征与高层图像特征；

通过对融合的底层图像特征与高层图像特征进行解码处理，获得编解码图像特征，并基于获得的编解码图像特征，分别确定第一文档图像上各文档元素的元素显示区域及元素类别，获得相应的候选识别结果。

可选的，处理单元602用于：

使用深度残差网络对第一文档图像进行第一编码处理，获得底层图像特征与中间层图像特征，其中，底层图像特征是通过深度残差网络的前n个残差块，对第一文档图像或前一个残差块输出的图像特征进行第一编码处理获得的，中间层图像特征是通过深度残差网络的后n个残差块，对前一个残差块输出的图像特征进行第一编码处理获得的；

分别使用不同空洞率的卷积核，对中间层图像特征进行第二编码处理，获得多个尺度的空洞图像特征，并基于拼接的空洞图像特征集合，获得高层图像特征。

为了描述的方便，以上各部分按照功能划分为各模块（或单元）分别描述。当然，在实施本申请时可以把各模块（或单元）的功能在同一个或多个软件或硬件中实现。

在介绍了本申请示例性实施方式的文档元素的识别方法和装置之后，接下来，介绍根据本申请的另一示例性实施方式的计算机设备。

所属技术领域的技术人员能够理解，本申请的各个方面可以实现为系统、方法或程序产品。因此，本申请的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式（包括固件、微代码等），或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

与上述方法实施例基于同一发明构思，本申请实施例中还提供了一种计算机设备，参阅图7所示，计算机设备700可以至少包括处理器701、以及存储器702。其中，存储器702存储有程序代码，当程序代码被处理器701执行时，使得处理器701执行上述任意一种文档元素的识别方法的步骤。

在一些可能的实施方式中，根据本申请的计算装置可以至少包括至少一个处理器、以及至少一个存储器。其中，存储器存储有程序代码，当程序代码被处理器执行时，使得处理器执行本说明书上述描述的根据本申请各种示例性实施方式的文档元素的识别方法中的步骤。例如，处理器可以执行如图4a中所示的步骤。

下面参照图8来描述根据本申请的这种实施方式的计算装置800。图8的计算装置800仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图8所示，计算装置800以通用计算装置的形式表现。计算装置800的组件可以包括但不限于：上述至少一个处理单元801、上述至少一个存储单元802、连接不同系统组件（包括存储单元802和处理单元801）的总线803。

总线803表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。

存储单元802可以包括易失性存储器形式的可读介质，例如随机存取存储器（RAM）8021和/或高速缓存存储单元8022，还可以进一步包括只读存储器（ROM）8023。

存储单元802还可以包括具有一组（至少一个）程序模块8024的程序/实用工具8025，这样的程序模块8024包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

计算装置800也可以与一个或多个外部设备804（例如键盘、指向设备等）通信，还可与一个或者多个使得用户能与计算装置800交互的设备通信，和/或与使得该计算装置800能与一个或多个其它计算装置进行通信的任何设备（例如路由器、调制解调器等等）通信。这种通信可以通过输入/输出（I/O）接口805进行。并且，计算装置800还可以通过网络适配器806与一个或者多个网络（例如局域网（LAN），广域网（WAN）和/或公共网络，例如因特网）通信。如图所示，网络适配器806通过总线803与用于计算装置800的其它模块通信。应当理解，尽管图中未示出，可以结合计算装置800使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

与上述方法实施例基于同一发明构思，本申请提供的文档元素的识别方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序代码在计算机设备上运行时，程序代码用于使计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的文档元素的识别方法中的步骤，例如，计算机设备可以执行如图4a中所示的步骤。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种文档元素的识别方法，其特征在于，包括：

分别对所述第一文档图像和所述第二文档图像进行编解码处理，获得各候选识别结果，其中，通过对所述第一文档图像进行编码处理，获得底层图像特征与高层图像特征，所述底层图像特征是通过深度残差网络的前n个残差块，对所述第一文档图像进行第一编码处理获得的，所述高层图像特征是通过空间金字塔池化网络，对中间层图像特征进行第二编码处理获得的，所述第二编码处理包括多尺度空间卷积、池化融合与通道卷积；通过对融合的底层图像特征与所述高层图像特征进行解码处理，获得编解码图像特征，并基于获得的编解码图像特征，分别确定所述第一文档图像上各文档元素的元素显示区域及元素类别，获得相应的候选识别结果；

基于获得的各候选识别结果，分别确定所述第一文档图像上各文档元素的元素显示区域及元素类别，获得相应的预测识别结果；

基于所述预测识别结果及相应的处理后的标注结果，调整所述文档元素识别模型的模型参数；

其中，所述处理后的标注结果是通过执行以下操作获得的：使用结构元遍历所述第一文档图像上的各像素点，以获得所述第一文档图像中缩减后的各所述元素显示区域；其中，每遍历一个像素点，将所述结构元覆盖区域中的最小像素值，作为当前遍历的所述一个像素点的新像素值。

2.如权利要求1所述的识别方法，其特征在于，通过执行以下操作，获得一个类似真实文档图像：

获取一个文档图像模板；

按照规定的模板排列逻辑，将获得的各新的元素数据，填充到所述一个文档图像模板的各元素显示区域；

将已填充元素数据的文档图像模板，确定为所述一个类似真实文档图像。

3.如权利要求2所述的识别方法，其特征在于，所述一个文档图像模板的各元素显示区域包括图片区域、表格区域、文本区域和分割线区域；

在按照规定的模板排列逻辑，将获得的各新的元素数据，填充到所述一个文档图像模板的各元素显示区域之前，还包括：

4.如权利要求3所述的识别方法，其特征在于，所述按照规定的模板排列逻辑，将获得的各新的元素数据，填充到所述一个文档图像模板的各元素显示区域，包括：

5.如权利要求3所述的识别方法，其特征在于，所述按照各所述图片区域的高宽比，调整与各所述图片区域的高宽比接近的图片的高宽比，包括：

6.如权利要求3所述的识别方法，其特征在于，所述分割线区域的位置为以下至少一种：

位于所述一个文档图像模板的上方区域；

位于所述一个文档图像模板的下方区域；

位于所述一个文档图像模板的左侧区域；

位于所述一个文档图像模板的右侧区域；

位于图注或表注的上方区域；

位于图注或表注的下方区域。

7.如权利要求1所述的识别方法，其特征在于，所述通过对所述第一文档图像进行编码处理，获得底层图像特征与高层图像特征，包括：

使用深度残差网络对所述第一文档图像进行第一编码处理，获得所述底层图像特征与所述中间层图像特征，其中，所述中间层图像特征是通过所述深度残差网络的后n个残差块，对前一个残差块输出的图像特征进行第一编码处理获得的；

8.一种文档元素的识别装置，其特征在于，包括：

参数调整单元，用于基于所述预测识别结果及相应的处理后的标注结果，调整所述文档元素识别模型的模型参数；

9.如权利要求8所述的识别装置，其特征在于，所述样本获取单元通过执行以下操作，获得一个类似真实文档图像：

获取一个文档图像模板；

10.一种计算机设备，其特征在于，其包括处理器和存储器，其中，所述存储器存储有程序代码，当所述程序代码被所述处理器执行时，使得所述处理器执行权利要求1~7中任一项所述识别方法的步骤。

11.一种计算机可读存储介质，其特征在于，其包括程序代码，当所述程序代码在计算机设备上运行时，所述程序代码用于使所述计算机设备执行权利要求1~7中任一项所述识别方法的步骤。