CN111046784B

CN111046784B - 文档版面分析识别方法、装置、电子设备和存储介质

Info

Publication number: CN111046784B
Application number: CN201911251289.3A
Authority: CN
Inventors: 陈明军
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2019-12-09
Filing date: 2019-12-09
Publication date: 2024-02-20
Anticipated expiration: 2039-12-09
Also published as: CN111046784A

Abstract

本发明实施例提供一种文档版面分析识别方法、装置、电子设备和存储介质，其中方法包括：确定待识别文档图像；将待识别文档图像输入至文档版面分析识别模型中，得到文档版面分析识别模型输出的版面识别结果；其中，文档版面分析识别模型是基于样本文档图像，以及样本文档图像中各子栏目的位置信息、类别信息和文本序列训练得到的；文档版面分析识别模型用于基于待识别文档图像的图像特征和语言特征进行版面分析，并基于版面分析结果进行版面识别。本发明实施例提供的方法、装置、电子设备和存储介质，基于待识别文档图像的图像特征和语言特征进行版面分析，通过应用丰富的语言特征，能优化子栏目类别判断的准确性，提升文档版面分析识别效果。

Description

文档版面分析识别方法、装置、电子设备和存储介质

技术领域

本发明涉及图像识别技术领域，尤其涉及一种文档版面分析识别方法、装置、电子设备和存储介质。

背景技术

文档图像电子化在提高信息的传播和使用效率中占据非常重要的作用，在如今高速发展的信息化时代下，越来越多的应用场景突显出其对文档电子化的强烈需求。

传统的文档版面分析识别方法主要分为两个模块实现。其中，版面分析模块用于分析文档中的各个子栏目的位置及其类别，识别模块用于识别各个子栏目所包含的文本，从而完成整篇文档的电子化。

当某些文档中不同子栏目的字体形状、大小、纹理等信息非常接近时，现有的方法中，版面分析模块无法精确区分各个子栏目，很容易出现分类错误，影响文档版面分析识别效果。

发明内容

本发明实施例提供一种文档版面分析识别方法、装置、电子设备和存储介质，用以解决现有的版面分析无法精确区分各个子栏目，文档版面分析识别效果欠佳的问题。

第一方面，本发明实施例提供一种文档版面分析识别方法，包括：

确定待识别文档图像；

将所述待识别文档图像输入至文档版面分析识别模型中，得到所述文档版面分析识别模型输出的版面识别结果；

其中，所述文档版面分析识别模型是基于样本文档图像，以及所述样本文档图像中各子栏目的位置信息、类别信息和文本序列训练得到的；所述文档版面分析识别模型用于基于所述待识别文档图像的图像特征和语言特征进行版面分析，并基于版面分析结果进行版面识别。

优选地，所述将所述待识别文档图像输入至文档版面分析识别模型中，得到所述文档版面分析识别模型输出的版面识别结果，具体包括：

将所述待识别文档图像的第一图像特征和语言特征输入至所述文档版面分析识别模型中的版面分析层，得到所述版面分析层输出的子栏目类别嵌入特征；

将所述待识别文档图像的第二图像特征、子栏目的掩模与所述子栏目类别嵌入特征输入至所述文档版面分析识别模型中的文字解码层，得到所述文字解码层输出的版面识别结果。

优选地，所述将所述待识别文档图像的第一图像特征和语言特征输入至所述文档版面分析识别模型中的版面分析层，得到所述版面分析层输出的子栏目类别嵌入特征，之前还包括：

将所述待识别文档图像输入至所述文档版面分析识别模型中的图像编码层，得到所述图像编码层输出的所述第一图像特征、所述第二图像特征以及所述语言特征。

优选地，所述将所述待识别文档图像输入至所述文档版面分析识别模型中的图像编码层，得到所述图像编码层输出的所述第一图像特征、所述第二图像特征以及所述语言特征，具体包括：

将所述待识别文档图像输入至所述图像编码层的卷积特征输出层中，得到所述卷积特征输出层输出的所述第一图像特征和所述第二图像特征；

将所述第二图像特征输入所述图像编码层的语言分类层中，得到所述语言特征。

优选地，所述将所述待识别文档图像输入至所述图像编码层的卷积特征输出层中，得到所述第一图像特征和所述第二图像特征，具体包括：

将所述待识别文档图像输入至所述卷积特征输出层的多尺度卷积层中，得到所述多尺度卷积层输出的小尺度图像特征和大尺度图像特征；

基于所述大尺度图像特征，以及所述小尺度图像特征的下采样信息，确定所述第一图像特征；

基于所述小尺度图像特征，以及所述大尺度图像特征的上采样信息，确定所述第二图像特征。

优选地，所述语言分类层中应用的分类参数与所述文字解码层中应用的分类参数一致。

优选地，所述将所述待识别文档图像的第一图像特征和语言特征输入至所述文档版面分析识别模型中的版面分析层，得到所述版面分析层输出的子栏目类别嵌入特征，具体包括：

将所述待识别文档图像的第一图像特征和语言特征输入至所述版面分析层中的特征分类层，得到所述待识别文档图像中每一像素的子栏目类别概率；

基于每一像素的子栏目类别概率，确定所述子栏目类别嵌入特征。

优选地，所述将所述待识别文档图像的第一图像特征和语言特征输入至所述版面分析层中的特征分类层，得到所述待识别文档图像中每一像素的子栏目类别概率，具体包括：

将所述待识别文档图像的第一图像特征和语言特征输入至所述特征分类层中的反卷积层，得到所述反卷积层输出的所述待识别文档图像大小的放大特征；

将所述放大特征输入至所述特征分类层中的子栏目类别分类层，得到所述子栏目类别分类层输出的每一像素的子栏目类别概率。

优选地，所述基于每一像素的子栏目类别概率，确定所述子栏目类别嵌入特征，具体包括：

基于所述每一像素的子栏目类比概率，以及所述子栏目类别分类层的参数，确定所述子栏目类别嵌入特征。

优选地，所述将所述待识别文档图像的第二图像特征、子栏目的掩模与所述子栏目类别嵌入特征输入至所述文档版面分析识别模型中的文字解码层，得到所述文字解码层输出的版面识别结果，具体包括：

将所述待识别文档图像中任一子栏目的掩模输入至所述文字解码层的卷积层中，得到所述卷积层输出的所述任一子栏目的掩模特征；

将所述任一子栏目的掩模特征与融合特征中对应于所述任一子栏目的部分进行拼接，得到所述任一子栏目的拼接特征；其中，所述融合特征是对所述第二图像特征和所述子栏目类别嵌入特征进行融合得到的；

将所述任一子栏目的拼接特征输入至所述文字解码层的解码层中，得到所述解码层输出的所述任一子栏目的文字序列。

优选地，所述将所述任一子栏目的拼接特征输入至所述文字解码层的解码层中，得到所述解码层输出的所述任一子栏目的文字序列，具体包括：

基于注意力机制，确定所述任一子栏目的拼接特征所对应的注意力特征；

基于所述任一子栏目的注意力特征，确定所述任一子栏目的文字序列。

第二方面，本发明实施例提供一种文档版面分析识别装置，包括：

图像确定单元，用于确定待识别文档图像；

分析识别单元，用于将所述待识别文档图像输入至文档版面分析识别模型中，得到所述文档版面分析识别模型输出的版面识别结果；

第三方面，本发明实施例提供一种电子设备，包括处理器、通信接口、存储器和总线，其中，处理器，通信接口，存储器通过总线完成相互间的通信，处理器可以调用存储器中的逻辑指令，以执行如第一方面所提供的方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。

本发明实施例提供的一种文档版面分析识别方法、装置、电子设备和存储介质，通过文档版面分析识别模型，基于待识别文档图像的图像特征和语言特征进行版面分析，通过应用丰富的语言特征，能够有效优化子栏目类别判断的准确性，从而提升文档版面分析识别效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的文档版面分析识别方法的流程示意图；

图2为本发明实施例提供的文档版面分析识别模型的运行流程图；

图3为本发明实施例提供的图像编码方法的流程示意图；

图4为本发明实施例提供的版面分析方法的流程示意图；

图5为本发明实施例提供的文字解码方法的流程示意图；

图6为本发明实施例提供的文档版面分析识别模型的结构示意图；

图7为本发明实施例提供的文档版面分析识别装置的结构示意图；

图8为本发明实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

文档图像电子化在提高信息的传播和使用效率中占据非常重要的作用，在如今高速发展的信息化时代下，越来越多的应用场景突显出其对文档电子化的强烈需求。例如在教育场景中，自动批改系统可大幅提高老师和学生的工作和学习效率，学生只需简单地将其作业上传至自动批改系统即可迅速获得其对应的得分，系统还可根据其错题情况，为学生推荐个性化学习内容，而老师也可根据自动阅卷系统中反馈的学生对知识点的掌握情况，针对性地为学生补充知识，从而实现真正的因材施教；在财务报销等场景中，票据电子化可以极大地提高财务处理报销效率，在报销环节将增值税发票、出租车票、火车票和其他票据结构化识别后录入系统，自动完成财务数据核对，从而减少人工校验成本；而对于普通的消费者来说，文档电子化同样具有重要的作用，学习和工作时记下的笔记完全可以由机器实现自动的电子化，不仅保存和传阅起来方便，还可对电子化后的笔记在任意位置上进行修改。

传统的文档版面分析识别方法主要分为两个模块实现。其中，版面分析模块用于分析文档中的各个子栏目的位置及其类别，例如对于普通的学术论文来说，子栏目的类型包括标题(可分不同层级)、作者、机构、联系方式、摘要、关键词、正文、图片、表格等，版面分析模块不仅需要给出各个子栏目的具体位置，还需要给出各个子栏目的类别；识别模块用于识别各个子栏目所包含的文本，从而完成整篇文档的电子化。

其中，版面分析模块主要包括子栏目检测网络和子栏目内的文本行检测网络，版面识别模块的核心网络是文本行识别网络，这三个网络均是独立训练的，按串联的顺序测试，具体流程包括：先将文档图像规整到固定尺寸，然后将图像输入子栏目检测网络预测各个子栏目的位置以及其对应的类别，然后根据预测的位置从原始的文档图像中裁剪出各个子栏目的图像，再使用文本行检测网络检测出子栏目中的文本行，根据图像形态学处理算法估计文本行的平均字符高度，在图像保持宽高比不变的情况下将其平均字符高度规整到固定的尺寸，最后，将规整后的文本行图像输入文本行识别网络中完成文本识别。

由上述流程可知，版面识别是在版面分析结束后执行，也就是说，现有的版面分析模块无法接触到语言层面的任何信息，只包含字体形状、大小、纹理等图像层面的视觉信息，而版面识别模块的输入是由文本行检测网络检测出的文本行，也就是说同一子栏目的不同文本行是分别输入文本行识别网络的，且不同文本行之间并无任何信息交互，显然，这破坏了同一子栏目中不同文本行之间的语言层面的关联，而一篇文档的上下文通常具有非常强的语言层面的关联。因此，传统的版面分析与识别方案存在极大的弊端，当某些文档中不同子栏目的字体形状、大小、纹理等信息非常接近时，现有的方案很容易出现分类错误的问题。

对此，本发明实施例提供一种文档版面分析识别方法。图1为本发明实施例提供的文档版面分析识别方法的流程示意图，如图1所示，该方法包括：

步骤11，确定待识别文档图像。

此处，待识别文档图像即需要进行文档版面分析识别的图像，待识别图像中可以包含一个或者多个子栏目，每一子栏目中存在若干行文本。待识别图像可以是通过拍照、扫描的方式获取，本发明实施例对此不作具体限定。

步骤12，将待识别文档图像输入至文档版面分析识别模型中，得到文档版面分析识别模型输出的版面识别结果；其中，文档版面分析识别模型是基于样本文档图像，以及样本文档图像中各子栏目的位置信息、类别信息和文本序列训练得到的；文档版面分析识别模型用于基于待识别文档图像的图像特征和语言特征进行版面分析，并基于版面分析结果进行版面识别。

具体地，文档版面分析识别模型是一个对输入的待识别文档图像进行版面分析和版面识别，并输出版面识别结果的端到端的模型。此处，版面识别结果可以包括待识别文档图像中每一子栏目的位置信息、类别信息以及每一子栏目中包含的文本序列，还可以是包括由每一子栏目的位置信息、类别信息以及文本序列构成的结构化信息，本发明实施例对此不作具体限定。

区别于传统的文档版面分析识别方法在进行版面分析时仅应用图像层面的视觉信息，而忽略了文档在语言层面上的信息，本发明实施例中，文档版面分析识别模型在进行版面分析时，不仅考虑到待识别文档图像的图像特征，还结合了待识别文档图像的语言特征。其中，图像特征是指待识别文档图像在图像层面上的特征，图像特征能够反映例如字体形状、大小、颜色、间距等信息。语言特征是指待识别文档图像在语言层面上的特征，语言特征能够反映例如文档的语义、上下文等信息。在两个子栏目的图像特征非常相似的情况下，语言特征对于区分子栏目类别，实现版面分析至关重要。从图像和语言两个层面上进行分析，能够实现更为准确的子栏目区分，并在此基础上行版面识别，能够提升文档版面分析识别效果。

在执行步骤12之前，还可以预先训练得到文本版面分析识别模型，具体可以通过如下方式训练得到文本版面分析识别模型：首先，收集大量样本文档图像，并通过人工标注样本文档图像中各个子栏目的位置信息、类别信息和文本序列。其中，各个子栏目的位置信息可以通过最小外接矩形或者多边形等表示，类别信息可以是标题、作者、机构、联系方式、摘要、关键词、正文、图片、表格等，文本序列即子栏目中包含的文本。随即，基于样本文档图像，以及样本文档图像中各个子栏目的位置信息、类别信息和文本序列对初始模型进行训练，从而得到文本版面分析识别模型。需要说明的是，初始模型可以由一个神经网络或者多个神经网络构成，本发明实施例对比不作具体限定。

本发明实施例提供的方法，通过文档版面分析识别模型，基于待识别文档图像的图像特征和语言特征进行版面分析，通过应用丰富的语言特征，能够有效优化子栏目类别判断的准确性，从而提升文档版面分析识别效果。

基于上述实施例，文档版面分析识别模型包括版面分析层和文字解码层。图2为本发明实施例提供的文档版面分析识别模型的运行流程图，如图2所示，该方法中，步骤12具体包括：

步骤121，将待识别文档图像的第一图像特征和语言特征输入至文档版面分析识别模型中的版面分析层，得到版面分析层输出的子栏目类别嵌入特征。

具体地，文档版面分析识别模型中，版面分析层用于根据输入的待识别文档图像的第一图像特征和语言特征，分析待识别文档图像中各个子栏目的位置信息和类别信息，并输出子栏目类别嵌入特征。此处，第一图像特征为待识别文档图像在图像层面的特征，语言特征是待识别文档图像在语言层面的特征，第一图像特征和语言特征是在执行步骤121之前对待识别文档图像进行特征提取得到的。子栏目类别嵌入特征用于表征待识别文档图像中各像素所归属的子栏目类别。

步骤122，将待识别文档图像的第二图像特征、子栏目的掩模与子栏目类别嵌入特征输入至文档版面分析识别模型中的文字解码层，得到文字解码层输出的版面识别结果。

具体地，文档版面分析识别模型中，文字解码层用于根据输入的待识别文档图像的第二图像特征、子栏目的掩模与子栏目类别嵌入特征，对待识别文档图像中子栏目内的文本进行解码识别，得到子栏目对应的文本序列，并输出版面识别结果。此处，第二图像特征为待识别文档图像在图像层面的特征，子栏目的掩模可以是根据预先标注的子栏目的位置确定的，也可以是根据版面分析层输出待识别文档图像中各像素所归属的子栏目类别确定的，本发明实施例对此不作具体限定。

在文字解码层，不仅应用了第二图像特征、子栏目的掩模进行文字识别，还应用了版面分析层输出的子栏目类别嵌入特征进行文字识别。子栏目类别嵌入特征在文字解码层的应用，实现了文档版面分析识别模型中，版面分析层和文字解码层在信息上的交互，有效利用了上下文语言的关联性，能够提高文档版面分析识别的准确性。

需要说明的是，步骤121和步骤122中的第一图像特征和第二图像特征均为针对于待识别文档图像的在图像层面上的特征，第一图像特征和第二图像特征可以是相同的图像特征，也可以是不同的图像特征，例如针对于版面分析选择尺度更大的图像特征，针对于文字解码选择尺度更小的图像特征。此处的“第一”、“第二”用于区分图像特征是输入至版面分析层还是文字解码层。

本发明实施例提供的方法，将版面分析层输出的子栏目类别嵌入特征作为文字解码层的输入，实现了版面分析层和文字解码层在信息上的交互，能够有效提高文档版面分析识别的准确性。

基于上述任一实施例，文档版面分析识别模型还包括图像编码层；对应地，步骤12中，步骤121之前还包括：步骤120，将待识别文档图像输入至文档版面分析识别模型中的图像编码层，得到图像编码层输出的第一图像特征、第二图像特征以及语言特征。

具体地，文档版面分析识别模型中，图像编码层用于根据对输入的待识别文档图像进行图像层面和语言层面上的特征提取，并输出第一图像特征、第二图像特征以及语言特征。其中，第一图像特征和语言特征是版面分析层的输入，第二图像特征是文字解码层的输入。

本发明实施例提供的方法，通过图像编码层实现版面分析层和文字解码层的输入，使得版面分析层和文字解码层可以共享图像编码层的网络结构和参数，可以在降低参数量的同时提升运行效率。

基于上述任一实施例，图像编码层包括卷积特征输出层和语言分类层；对应地，图3为本发明实施例提供的图像编码方法的流程示意图，如图3所示，步骤120具体包括：

步骤1201，将待识别文档图像输入至图像编码层的卷积特征输出层中，得到卷积特征输出层输出的第一图像特征和第二图像特征。

具体地，图像编码层中，卷积特征输出层用于对输入的待识别文档图像进行卷积抽象，从而得到适用于版面分析的第一图像特征和适用于文字解码的第二图像特征。进一步地，第一图像特征相比与第二图像特征尺度更大、粒度更粗。

步骤1202，将第二图像特征输入图像编码层的语言分类层中，得到语言特征。

具体地，对于版面分析而言，除了需要输入字体、字形、纹理等图像层面的第一图像特征之外，还需要输入语言特征。本发明实施例中，对第二图像特征进行逐个元素的分类，此处语言分类层使用的参数/> 其中d_enc表示/>的特征维度，V_word表示文本词典大小，W_enc的实际含义是指词典中所有词对应的嵌入特征，也是图像特征到语言特征的映射矩阵，再经过Softmax得到规整后的概率P_enc，使用概率P_enc与W_enc进行矩阵相乘，得到加权求和后的词嵌入式特征，这个特征中包含了/>中每个像素位置处的语言特征/>

将语言特征与第一图像特征/>相加即可得到融合了图像和语言两种类型的特征F_anl，该特征可以作为版面分析层A的输入。用简化后的数学公式概括整个图像编码层的输入与输出之间的关系，具体形式如下：

其中，X表示输入的文档图像，E(·)概括了整个图像编码层E的计算过程，θ_E表示E的网络参数(包括W_enc)，F_anl和是图像编码层E的输出，分别是版面分析层A和文字解码层D的输入特征。

基于上述任一实施例，卷积特征输出层包括多尺度卷积层；对应地，步骤1201具体包括：将待识别文档图像输入至卷积特征输出层的多尺度卷积层中，得到多尺度卷积层输出的小尺度图像特征和大尺度图像特征；基于大尺度图像特征，以及小尺度图像特征的下采样信息，确定第一图像特征；基于小尺度图像特征，以及大尺度图像特征的上采样信息，确定第二图像特征。

具体地，版面分析层和文字解码层对于图像特征的尺度具有不同的要求，因此本发明实施例中采用残差连接实现了多尺度的融合，通过多尺度卷积层输出小尺度图像特征和大尺度图像特征，且此处的小尺度图像特征和大尺度图像特征为相对概念。例如多尺度卷积层包括顺次连接的Conv1、Conv2、Conv3和Conv4，当Conv2的输出为小尺度图像特征时，Conv3和Conv4的输出即为大尺度图像特征；当Conv4的输出为大尺度图像特征时，Conv2和Conv3的输出即为小尺度图像特征。

版面分析层A需要对整个版面作分析，因此对尺度的要求更大，信息粒度的要求较粗，但是为了防止特征经过下采样后信息会过度丢失，本发明实施例将小尺度图像特征经过下采样后与大尺度图像特征相加得到的融合特征作为第一图像特征。例如，将具有比Conv4输出特征在尺度上更小、在粒度上更细的Conv2和Conv3输出特征经过下采样后，和具有较大尺度且较粗粒度的Conv4的输出特征相加，得到第一图像特征用于版面分析层A。由于/>的主要特征仍然是较大尺度和较粗粒度的特征，但兼具了较小尺度和细粒度的特征，可以防止部分较小的子栏目在版面分析网络中被错误分类。

文字解码层D需要解码具体的每个字符，所以需要更小尺度更细粒度的信息，但是由于文字解码层D和版面分析层A共用同一个图像编码层E，难免出现不同子栏目的信息边界在特征中无法显式地切分的情况，为了让文字解码层D具有更大的感受野，以防止文字解码层D在解码的时候因看不到子栏目之间的边界而出现文字被重复识别或者漏识别的问题，本发明实施例将大尺度图像特征经过上采样后与小尺度图像特征相加得到的融合特征作为第二图像特征。例如，将具有比Conv2输出特征在尺度上更大的Conv3和Conv4输出特征经过上采样后，和具有小尺度细粒度的Conv2的输出特征相加，得到融合后的特征作为第二图像特征。

基于上述任一实施例，该方法中，语言分类层中应用的分类参数与文字解码层中应用的分类参数一致。

具体地，图像编码层E中，语言分类层提取语言特征的关键在于逐个像素的分类参数W_enc的学习。由于逐像素的文本人工标注成本非常高，因此图像编码层E中的语言特征提取是没有对应的标签的，也就无法借助交叉熵损失函数和反向传播算法学习W_enc，而W_enc本质上表示的是图像特征空间到语言特征空间的映射关系，文字解码层D中同样也需要对文本作分类，且文字解码层D可以使用标注的子栏目的文本内容作为标签，并借助交叉熵损失函数和反向传播算法学习该分类参数。因此，本发明实施例中通过让文字解码层D和图像编码层E共用同样的分类参数W_enc，使得图像编码层E能够实现逐像素的文本分类。

需要说明的是，训练是一个不断迭代的过程，在训练初期，W_enc学习地还不是很好，图像编码层E提取到的语言特征不是很准确，但是版面分析层A在前期已经可以完成大部分数据的版面分析，等到训练的中后期，文档版面分析识别模型需要精细化调整的时候，部分需要靠语言特征才能解决的难例会成为主要问题，而在训练中后期W_enc已经学习地很好了，此时图像编码层E的逐像素分类也就更准确，提取到的语言特征也更准确，将语言特征送入版面分析层A中，会更有助于解决训练初期难例样本中无法解决的问题。

基于上述任一实施例，图4为本发明实施例提供的版面分析方法的流程示意图，如图4所示，步骤121具体包括：

步骤1211，将待识别文档图像的第一图像特征和语言特征输入至版面分析层中的特征分类层，得到待识别文档图像中每一像素的子栏目类别概率。

具体地，特征分类层用于对输入的第一图像特征和语言特征进行逐个像素的分类，以预测每一像素所归属的子栏目类别的概率，并输出每一像素的子栏目类别概率。在此过程中，可以将第一图像特征和语言特征相加得到融合后的特征，并基于融合后的特征进行逐个像素的分类。

步骤1212，基于每一像素的子栏目类别概率，确定子栏目类别嵌入特征。

具体地，在得到每一像素的子栏目类别概率后，可以通过矩阵相乘等方法将每一像素的子栏目类别概率转换为子栏目类别嵌入特征，作为文字解码层的输入，承担版面分析层与文字解码层之间进行前向传播和反向传播的信息交互桥梁的作用。

基于上述任一实施例，特征分类层包括反卷积层和子栏目类别分类层；对应地，步骤1211具体包括：将待识别文档图像的第一图像特征和语言特征输入至特征分类层中的反卷积层，得到反卷积层输出的待识别文档图像大小的放大特征；将放大特征输入至特征分类层中的子栏目类别分类层，得到子栏目类别分类层输出的每一像素的子栏目类别概率。

具体地，反卷积层用于将图像编码层输出的第一图像特征和语言特征进行放大至待识别文档图像大小，从而得到放大特征。此处，放大特征是指将第一图像特征和语言特征融合后放大至待识别文档图像大小的特征。

子栏目类别分类层用于对放大特征进行逐个像素的分类，预测每个像素所归属的子栏目类别概率P_anl。子栏目类别分类层使用的参数为其中d_anl表示版面分析层中待分类特征的维度，V_col表示子栏目类别大小，W_anl表示的是子栏目类别的嵌入特征，需要说明的是，在训练阶段，本发明实施例可以使用交叉熵函数计算P_anl与样本文档图像中各子栏目的类别信息对应标签Y_anl的损失L_anl，具体的计算公式如下式所示：

其中，H、W分别表示输入的文档图像的高和宽，表示文档图像中在高度上第i行、在宽度上第j列的像素点对应于第v个子栏目类别的概率。使用上式得到损失后，可使用反向传播和梯度下降算法对图像编码层和版面分析层的参数进行更新。

对应地，步骤1212具体包括：基于每一像素的子栏目类比概率，以及子栏目类别分类层的参数，确定子栏目类别嵌入特征。

具体地，为了使得文字解码层能够获得版面分层的子栏目类别相关的特征，本发明实施例中使用子栏目分类类别概率P_anl与子栏目类别分类层参数W_anl进行矩阵相乘，得到加权求和后的子栏目类别嵌入特征

由此，用简化后的数学公式概括版面分析层的输入与输出之间的关系，具体形式如下：

其中，F_anl是对图像编码层E输出的第一图像特征和语言特征进行融合后的特征，A(·)概括了整个版面分析层A的计算过程，θ_A表示版面分析层A的网络参数(包括W_anl)，P_anl是预测得到的每个像素所归属的子栏目类别概率，是版面分析层A输出的子栏目类别嵌入特征。

基于上述任一实施例，文字解码层包括卷积层和解码层；对应地，图5为本发明实施例提供的文字解码方法的流程示意图，如图5所示，步骤122具体包括：

步骤1221，将待识别文档图像中任一子栏目的掩模输入至文字解码层的卷积层中，得到卷积层输出的该子栏目的掩模特征。

步骤1222，将该子栏目的掩模特征与融合特征中对应于该子栏目的部分进行拼接，得到该子栏目的拼接特征；其中，融合特征是对第二图像特征和子栏目类别嵌入特征进行融合得到的。

具体地，融合特征F_dec可以是将第二图像特征与子栏目类别嵌入特征/>相加得到的，融合特征中包含了所有子栏目类别的嵌入特征和图像特征，而不同的子栏目之间是不需要任何语言层面的顺序关系的，因此，需要分别对不同的子栏目中的文本内容进行解码。

假设任一子栏目为第i个子栏目，第i个子栏目的掩模为M_i，卷积层用于提取M_i的特征，得到第i个子栏目的掩模特征。在现有的文字解码方法中，通常是直接根据子栏目的掩模M_i从待识别文档图像中裁剪出对应区域，而本发明实施例中则是将任一子栏目的掩模M_i经过卷积层提取特征后与融合特征F_dec沿着通道维度拼接，从而获得与该子栏目相关的拼接特征对任一子栏目的掩模提取特征后再拼接的方式相较于传统方案直接裁剪对应区域的好处是，拼接是一种比裁剪更“软”的方式，裁剪会很容易因裁剪的误差造成解码也无法挽回的错误，而拼接可以保留了解码的自主选择权。

步骤1223，将该子栏目的拼接特征输入至文字解码层的解码层中，得到解码层输出的该子栏目的文字序列。

具体地，文字解码层中，解码层用于根据输入的子栏目的拼接特征，对子栏目中包含的文字进行解码识别，以输出该子栏目的文字序列。

本发明实施例提供的方法，通过掩模提取特征后再拼接的方式得到掩模的拼接特征，用于文字解码，能够完整保留解码的掩模相关信息，从而提高解码精度。

基于上述任一实施例，该方法中，步骤1223具体包括：基于注意力机制，确定该子栏目的拼接特征所对应的注意力特征；基于该子栏目的注意力特征，确定该子栏目的文字序列。

具体地，在通过掩模提取特征后再拼接的方式得到拼接特征保留了解码的自主选择权的前提下，基于注意力机制，可以从拼接特征中选择需要的特征用于文字解码识别。此处，注意力特征即从子栏目的拼接特征中选取出的用于文字解码识别的特征。

基于注意力特征进行文字解码识别，可以通过长短时记忆网络LSTM实现，本发明实施例对此不作具体限定。

进一步地，对于任一子栏目i，在解码该子栏目内部的第t个字符时，从对应的拼接特征中获得的关于该字符的特征/>的具体计算公式如下：

其中，w表示注意力特征空间维度到注意力概率空间维度的投影向量，T表示转置，W^F、W^h、W^y分别表示输入的拼接特征上一时刻隐状态h_t-1以及词/>经过嵌入编码W_enc矩阵编码后的特征/>的投影矩阵，L表示输入的拼接特征/>的空间维度的序列长度(即宽乘以高)。获得/>之后，再经过LSTM单元编码，然后使用词嵌入矩阵分类，最后经过Softmax函数归一化概率即可获得子栏目i在当前时刻t下的输出概率/>其具体计算公式如下式所示：

其中，W_enc表示词嵌入特征，表示从第i个子栏目的特征/>中获得的关于第t个字符的特征/>本发明实施例中，可以使用交叉熵函数计算所有子栏目中所有预测字符与样本文档图像中各子栏目的文本序列对应标签的交叉熵损失L_dec：

其中，表示第i个子栏目中的第t个字符的标签，T_i表示第i个子栏目的文本序列长度，I表示整张图像中包含的子栏目的个数。计算得到L_dec后就可以利用反向传播算法和梯度下降算法对图像编码层E、版面分析层A、文字解码层D三个网络的参数θ_E、θ_A、θ_D进行更新，从而真正实现整套文档版面分析与识别网络的端到端训练。用简化后的数学公式概括测试阶段整个文字解码层D的输入与输出之间的关系，具体形式如下：

其中，D(·)概括了整个文字解码层的计算过程，M是子栏目的位置掩模，是图像编码层E输出的用于解码的第二图像特征，/>是版面分析层A输出的子栏目类别嵌入特征，θ_D表示解码网络D的网络参数(包括W_enc)，P_dec表示在子栏目中预测的字符概率。

基于上述任一实施例，该方法中，文档版面分析识别模型的损失函数包括子栏目的类别损失函数和文本损失函数。

具体地，类别损失函数用于衡量文档版面分析识别模型输出的子栏目类别嵌入特征与标注的子栏目类别信息对应的嵌入特征之间的损失L_anl。文本损失函数用于衡量文档版面分析识别模型输出的子栏目的文本序列与标注的子栏目文本序列之间的损失L_dec。

进一步地，文档版面分析识别模型的训练方法包括：

设置初始迭代次数变量n＝0，最大迭代次数为N。

1、从训练集中随机采样(随机采样是指从图像集中随机选择一张图像)得到文档图像X，随机初始化图像编码层E、版面分析层A、文字解码层D的所有待优化的网络参数θ_E、θ_A、θ_D。

2、将X输入图像编码层E中，获得侧重大尺度的第一图像特征和语言特征的融合特征F_anl，以及侧重小尺度的第二图像特征/>

3、将F_anl输入版面分析层A中，获得子栏目类别嵌入特征和子栏目分类交叉熵损失L_anl。

4、将与/>相加，得到第二图像特征与子栏目类别嵌入特征融合的特征F_dec，选择样本中的每个子栏目，根据人工标注的子栏目位置标签计算每个子栏目的掩模，将每个子栏目i的掩模M_i经过卷积层提取特征后与F_dec沿着通道维度拼接，再经过注意力单元和LSTM单元获得对应子栏目下文本序列，以及文本序列的交叉熵损失L_dec。

5、将L_dec和L_anl相加后，进行反向传播，计算网络参数θ_E、θ_A、θ_D的梯度，并使用梯度下降算法对θ_E、θ_A、θ_D进行迭代更新。

6、更新迭代次数n＝n+1，判断n是否等于N，如果是，停止迭代，如果否，转回1继续迭代。

基于上述任一实施例，图6为本发明实施例提供的文档版面分析识别模型的结构示意图，如图6所示，文档版面分析识别模型包括图像编码层E、版面分析层A和文字解码层D。其中图像编码层E主要是由卷积特征输出层和语言分类层构成，版面分析层A主要由反卷积层和分类层构成，文字解码层D由卷积层、分类层、注意力(Attention)单元以及长短时记忆(LSTM)单元构成。

图6中，使用点划线表示用于版面分析层A的输入输出连接，使用虚线表示用于文字解码层D的输入输出连接，在图像编码层E中的点划线表示的含义是该连接指向的输出将用于版面分析层A，虚线表示的含义是该连接指向的输出将用于文字解码层D。此外，图6中，*表示矩阵相乘操作，表示矩阵逐元素相加，圆圈中加斜线表示沿通道维度拼接，/>表示矩阵逐元素相乘，W为类别嵌入矩阵，Conv为卷积层，Deconv为反卷积层，Attention为注意力机制，LSTM为长短时记忆单元，Softmax为概率归一化函数，α为注意力权重，h为LSTM的隐状态，c为经过加权后的编码特征，M_i为子栏目i的位置掩模。

使用图6示出的文档版面分析识别模型对待识别文档图像进行版面分析和识别的步骤如下：

1、获得待识别文档图像X，将X输入图像编码层E中，获得侧重大尺度的第一图像特征与语言特征融合后的特征F_anl以及侧重小尺度的第二图像特征

2、将F_anl输入版面分析层A中，获得子栏目类别嵌入特征和子栏目分类概率P_anl，并根据P_anl的最大概率对应的子栏目类别得到掩模，不同子栏目对应的掩模所表示的区域就是该子栏目类别区域，至此，版面分析完成；

3、将与/>相加得到第二图像特征与子栏目类别嵌入特征融合的特征F_dec，选择版面分析得到的每个子栏目，将每个子栏目i的掩模M_i经过卷积层提取特征后与F_dec沿着通道维度拼接，再经过Attention单元和LSTM单元获得对应子栏目下文本序列的概率P_dec，经过常用的最优路径搜索算法Beam Search获得最优解码序列，即该子栏目内部的文本识别结果，至此，文本识别完成。

本发明实施例提供的可有效利用上下文语言关联的文档版面分析识别方法，通过完全端到端的方式，可以让版面分析层和文字解码层在前向传播阶段和反向传播阶段都存在信息上的交互。另外，本发明实施例通过分析不同层对尺度的不同要求，构建了图像编码层，使得版面分析层和文字解码层可以共享图像编码层的网络结构和参数，可在降低参数量的同时提升运行效率。

基于上述任一实施例，图7为本发明实施例提供的文档版面分析识别装置的结构示意图，如图7所示，该装置包括图像确定单元710和分析识别单元720；

其中，图像确定单元710用于确定待识别文档图像；

分析识别单元720用于将所述待识别文档图像输入至文档版面分析识别模型中，得到所述文档版面分析识别模型输出的版面识别结果；

本发明实施例提供的装置，通过文档版面分析识别模型，基于待识别文档图像的图像特征和语言特征进行版面分析，通过应用丰富的语言特征，能够有效优化子栏目类别判断的准确性，从而提升文档版面分析识别效果。

基于上述任一实施例，该装置中，分析识别单元720包括：

版面分析子单元，用于将所述待识别文档图像的第一图像特征和语言特征输入至所述文档版面分析识别模型中的版面分析层，得到所述版面分析层输出的子栏目类别嵌入特征；

文字解码子单元，用于将所述待识别文档图像的第二图像特征、子栏目的掩模与所述子栏目类别嵌入特征输入至所述文档版面分析识别模型中的文字解码层，得到所述文字解码层输出的版面识别结果。

基于上述任一实施例，该装置中，分析识别单元720还包括：

图像编码子单元，用于将所述待识别文档图像输入至所述文档版面分析识别模型中的图像编码层，得到所述图像编码层输出的所述第一图像特征、所述第二图像特征以及所述语言特征。

基于上述任一实施例，该装置中，所述图像编码子单元包括：

图像特征输出模块，用于将所述待识别文档图像输入至所述图像编码层的卷积特征输出层中，得到所述卷积特征输出层输出的所述第一图像特征和所述第二图像特征；

语言特征输出模块，用于将所述第二图像特征输入所述图像编码层的语言分类层中，得到所述语言特征。

基于上述任一实施例，该装置中，所述图像特征输出模块具体用于：

基于上述任一实施例，该装置中，所述语言分类层中应用的分类参数与所述文字解码层中应用的分类参数一致。

基于上述任一实施例，该装置中，所述版面分析子单元包括：

特征分类模块，用于将所述待识别文档图像的第一图像特征和语言特征输入至所述版面分析层中的特征分类层，得到所述待识别文档图像中每一像素的子栏目类别概率；

类别特征输出模块，用于基于每一像素的子栏目类别概率，确定所述子栏目类别嵌入特征。

基于上述任一实施例，该装置中，所述特征分类模块具体用于：

基于上述任一实施例，该装置中，所述类别特征输出模块具体用于：

基于上述任一实施例，该装置中，所述文字解码子单元包括：

掩模特征提取模块，用于将所述待识别文档图像中任一子栏目的掩模输入至所述文字解码层的卷积层中，得到所述卷积层输出的所述任一子栏目的掩模特征；

特征融合模块，用于将所述任一子栏目的掩模特征与融合特征中对应于所述任一子栏目的部分进行拼接，得到所述任一子栏目的拼接特征；其中，所述融合特征是对所述第二图像特征和所述子栏目类别嵌入特征进行融合得到的；

解码模块，用于将所述任一子栏目的拼接特征输入至所述文字解码层的解码层中，得到所述解码层输出的所述任一子栏目的文字序列。

基于上述任一实施例，该装置中，所述解码模块具体用于：

基于上述任一实施例，该装置中，所述文档版面分析识别模型的损失函数包括子栏目的类别损失函数和文本损失函数。

图8为本发明实施例提供的电子设备的结构示意图，如图8所示，该电子设备可以包括：处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令，以执行如下方法：确定待识别文档图像；将所述待识别文档图像输入至文档版面分析识别模型中，得到所述文档版面分析识别模型输出的版面识别结果；其中，所述文档版面分析识别模型是基于样本文档图像，以及所述样本文档图像中各子栏目的位置信息、类别信息和文本序列训练得到的；所述文档版面分析识别模型用于基于所述待识别文档图像的图像特征和语言特征进行版面分析，并基于版面分析结果进行版面识别。

此外，上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的方法，例如包括：确定待识别文档图像；将所述待识别文档图像输入至文档版面分析识别模型中，得到所述文档版面分析识别模型输出的版面识别结果；其中，所述文档版面分析识别模型是基于样本文档图像，以及所述样本文档图像中各子栏目的位置信息、类别信息和文本序列训练得到的；所述文档版面分析识别模型用于基于所述待识别文档图像的图像特征和语言特征进行版面分析，并基于版面分析结果进行版面识别。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种文档版面分析识别方法，其特征在于，包括：

确定待识别文档图像；

其中，所述文档版面分析识别模型是基于样本文档图像，以及所述样本文档图像中各子栏目的位置信息、类别信息和文本序列训练得到的；所述文档版面分析识别模型用于基于所述待识别文档图像的图像特征和语言特征进行版面分析，并基于版面分析结果进行版面识别；

所述语言特征是所述待识别文档图像在语言层面上的特征，所述语言特征用于反映所述待识别文档的语义信息和上下文信息；所述语言特征基于所述待识别文档的图像特征中适用于文字解码的第二图像特征确定；

所述将所述待识别文档图像输入至文档版面分析识别模型中，得到所述文档版面分析识别模型输出的版面识别结果，具体包括：

2.根据权利要求1所述的文档版面分析识别方法，其特征在于，所述将所述待识别文档图像的第一图像特征和语言特征输入至所述文档版面分析识别模型中的版面分析层，得到所述版面分析层输出的子栏目类别嵌入特征，之前还包括：

3.根据权利要求2所述的文档版面分析识别方法，其特征在于，所述将所述待识别文档图像输入至所述文档版面分析识别模型中的图像编码层，得到所述图像编码层输出的所述第一图像特征、所述第二图像特征以及所述语言特征，具体包括：

4.根据权利要求3所述的文档版面分析识别方法，其特征在于，所述将所述待识别文档图像输入至所述图像编码层的卷积特征输出层中，得到所述第一图像特征和所述第二图像特征，具体包括：

5.根据权利要求3所述的文档版面分析识别方法，其特征在于，所述语言分类层中应用的分类参数与所述文字解码层中应用的分类参数一致。

6.根据权利要求1所述的文档版面分析识别方法，其特征在于，所述将所述待识别文档图像的第一图像特征和语言特征输入至所述文档版面分析识别模型中的版面分析层，得到所述版面分析层输出的子栏目类别嵌入特征，具体包括：

7.根据权利要求6所述的文档版面分析识别方法，其特征在于，所述将所述待识别文档图像的第一图像特征和语言特征输入至所述版面分析层中的特征分类层，得到所述待识别文档图像中每一像素的子栏目类别概率，具体包括：

8.根据权利要求7所述的文档版面分析识别方法，其特征在于，所述基于每一像素的子栏目类别概率，确定所述子栏目类别嵌入特征，具体包括：

9.根据权利要求1至8中任一项所述的文档版面分析识别方法，其特征在于，所述将所述待识别文档图像的第二图像特征、子栏目的掩模与所述子栏目类别嵌入特征输入至所述文档版面分析识别模型中的文字解码层，得到所述文字解码层输出的版面识别结果，具体包括：

10.根据权利要求9所述的文档版面分析识别方法，其特征在于，所述将所述任一子栏目的拼接特征输入至所述文字解码层的解码层中，得到所述解码层输出的所述任一子栏目的文字序列，具体包括：

11.一种文档版面分析识别装置，其特征在于，包括：

图像确定单元，用于确定待识别文档图像；

所述分析识别单元包括：

12.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至10中任一项所述的文档版面分析识别方法的步骤。

13.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至10中任一项所述的文档版面分析识别方法的步骤。