CN113807218B

CN113807218B - 版面分析方法、装置、计算机设备和存储介质

Info

Publication number: CN113807218B
Application number: CN202111033018.8A
Authority: CN
Inventors: 宋时德; 胡加学; 张建树; 朱辉辉
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2021-09-03
Filing date: 2021-09-03
Publication date: 2024-02-20
Anticipated expiration: 2041-09-03
Also published as: CN113807218A

Abstract

本申请涉及一种版面分析方法、装置、计算机设备和存储介质。方法包括：获取目标文本图像中每一文本行的空间转换特征、位置特征及图像特征；根据每一文本行的空间转换特征与位置特征，获取每一文本行的关系编码特征，将每一文本行的关系编码特征与每一文本行的图像特征进行拼接，得到每一文本行的融合特征；对每一文本行的融合特征进行解码，得到每一文本行的版面信息类型。由于同时结合了空间转换特征及图像特征对文本图像的内容进行理解，而不是单一基于一种特征，从而分析结果比较精准。另外，每一文本行在分析时均结合了图像特征及空间转换特征，在其中一项特征识别错误的情况下，另一项特征也能够作为分析依据，从而提高了版面分析的容错率。

Description

版面分析方法、装置、计算机设备和存储介质

技术领域

本申请涉及文本及图像识别技术领域，特别是涉及一种版面分析方法、装置、计算机设备和存储介质。

背景技术

文本图像电子化是一种将文本图像中的文本信息提取为电子信息的技术，在如今高速发展的信息化时代下，文本图像电子化能够显著提高信息的传播和使用效率。传统的文本图像识别主要包括两个阶段：版面分析阶段和文本识别阶段；其中，版面分析阶段用于通过不同的策略和方法，分析文本中的各个文本单元(如普通文本中的段落及试卷文本中的试题等)的位置及其类别；文本识别阶段则识别各个文本单元所包含的文本，从而完成整篇文本的电子化。其中，版面分析阶段中，文本单元可以反映文本图像中字符和字符串的成组关系，从而支持文本识别阶段的语义分析功能。

近年来，随着神经网络技术在人工智能领域的大热，将神经网络应用于文本图像的版面分析技术也有了长足的发展。在相关技术中，主要是基于单一信息源获取版面分析结果，如仅从图像角度进行分析。由于信息源单一，从而造成分析结果不够精准。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高版面分析精准性的版面分析方法、装置、计算机设备和存储介质。

一种版面分析方法，该方法包括：

获取目标文本图像，并获取目标文本图像中每一文本行的空间转换特征、位置特征及图像特征，空间转换特征是对每一文本行的OCR解码特征进行空间特征转换得到的；

根据每一文本行的空间转换特征与位置特征，获取每一文本行的关系编码特征，将每一文本行的关系编码特征与每一文本行的图像特征进行拼接，得到每一文本行的融合特征；

对每一文本行的融合特征进行解码，得到每一文本行的版面信息类型。

在其中一个实施例中，根据每一文本行的空间转换特征与位置特征，获取每一文本行的关系编码特征，包括：

对于任一文本行，根据每一文本行的位置特征，获取该文本行与每一其它文本行之间的边向量；其中，其它文本行指的是目标文本图像中除该文本行之外的文本行，边向量用于表征该文本行与其它文本行之间的相对位置；

基于图卷积神经网络模型，对该文本行的空间转换特征、每一其它文本行的空间转换特征以及该文本行与每一其它文本行之间的边向量进行关系编码，得到该文本行的关系编码特征。

在其中一个实施例中，位置特征包括该文本行中的锚点在目标文本图像中的横坐标及纵坐标；相应地，边向量包括该文本行中锚点与其它文本行中锚点之间的横坐标差值及纵坐标差值。

在其中一个实施例中，边向量还用于表征该文本行中字体与其它文本行中字体之间的相对大小；相应地，边向量还包括其它文本行的高度与该文本行的高度之间的比值。

在其中一个实施例中，边向量还包括其它文本行的宽度与该文本行的高度之间的比值以及该文本行的宽度与该文本行的高度之间的比值。

在其中一个实施例中，对每一文本行的融合特征进行解码，得到每一文本行的版面信息类型，包括：

基于目标文本图像中文本行的排布顺序，依次将每一文本行的融合特征输入至图解码器，输出每一文本行的版面信息类型；其中，图解码器是基于树状层级结构构建得到的，树状层级结构用于表征版面信息类型之间的从属层级关系。

在其中一个实施例中，依次将每一文本行的融合特征输入至图解码器，输出每一文本行的版面信息类型，包括：

对于任一文本行，若该文本行存在前一文本行，则将该文本行的融合特征及前一文本行的版面信息类型输入至图解码器，输出该文本行的版面信息类型。

在其中一个实施例中，对每一文本行的融合特征进行解码，得到每一文本行的版面信息类型之前，还包括：

获取目标文本图像中每一文本行的文本特征；

将每一文本行的文本特征与每一文本行的融合特征进行拼接，将拼接后得到的特征作为每一文本行的融合特征。

一种版面分析装置，该装置包括：

第一获取模块，用于获取目标文本图像，并获取目标文本图像中每一文本行的空间转换特征、位置特征及图像特征，空间转换特征是对每一文本行的OCR解码特征进行空间特征转换得到的；

第二获取模块，用于根据每一文本行的空间转换特征与位置特征，获取每一文本行的关系编码特征；

第一拼接模块，用于将每一文本行的关系编码特征与每一文本行的图像特征进行拼接，得到每一文本行的融合特征；

解码模块，用于对每一文本行的融合特征进行解码，得到每一文本行的版面信息类型。

一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现以下步骤：

一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

上述版面分析方法、装置、计算机设备和存储介质，通过获取目标文本图像，并获取目标文本图像中每一文本行的空间转换特征、位置特征及图像特征。根据每一文本行的空间转换特征与位置特征，获取每一文本行的关系编码特征，将每一文本行的关系编码特征与每一文本行的图像特征进行拼接，得到每一文本行的融合特征。对每一文本行的融合特征进行解码，得到每一文本行的版面信息类型。由于同时结合了空间转换特征及图像特征对文本图像的内容进行理解，而不是单一片面的基于一种特征，从而分析结果比较精准。另外，每一文本行在分析时均结合了图像特征及与文本内容关联的空间转换特征，在其中一项特征识别错误的情况下，另外一项特征也能够作为分析依据，从而提高了版面分析的容错率。

附图说明

图1为一个实施例中电子合同的版面分析结果示意图；

图2为一个实施例中版面分析方法的应用场景示意图；

图3为一个实施例中版面分析方法的流程示意图；

图4为另一个实施例中版面分析方法的流程示意图；

图5为一个实施例中树状层级结构的结构示意图；

图6为一个实施例中特征融合的流程示意图；

图7为一个实施例中自回归解码过程的流程示意图；

图8为一个实施例中版面分析装置的结构框图；

图9为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

可以理解，本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种专业名词，但除非特别说明，这些专业名词不受这些术语限制。这些术语仅用于将一个专业名词与另一个专业名词区分。举例来说，在不脱离本申请的范围的情况下，第三预设阈值与第四预设阈值可以相同可以不同。

文本图像主要指的是图像格式的文本，如对合同进行扫描或拍照所得到的图像。文本图像电子化是一种将文本图像中的文本信息提取为电子信息的技术，在如今高速发展的信息化时代下，文本图像电子化能够显著提高信息的传播和使用效率。传统的文本图像识别主要包括两个阶段：版面分析阶段和文本识别阶段；其中，版面分析阶段用于通过不同的策略和方法，分析文本中各个文本单元(如普通文本中的段落)的位置及其类别。在版面分析阶段中，文本单元可以反映文本图像中字符和字符串的成组关系，从而支持文本识别阶段的语义分析功能。文本识别阶段则识别各个文本单元所包含的文本，从而完成整篇文本的电子化。

在版面分析阶段，若文本图像记录的文本中存在标记文本单元的标号，则可以基于标号的位置进行版面分析。例如，在文本图像为试卷图像时，每一题目所在区域即为不同的文本单元。以题号所在行的位置为起始位置，以下一题号所在行的位置为终点位置，得到的区域即为题目所在的区域，也即该题目对应的文本单元，该区域的位置信息即为该题目的位置信息，

但在近年来，随着神经网络技术在人工智能领域的大热，将神经网络应用于文本图像的版面分析技术也有了长足的发展。在相关技术中，主要是采用如下两种方法实现文本图像的版面分析。第一种方法，对文本图像中每一像素进行分类。具体地，可预先确定文本图像中存在哪些类型的文本单元，再将整张图象输入至神经网络模型中，输出每一像素属于每种类型的概率值，选取概率值最大的分类作为每一像素的分类。其中，属于同一类型的像素即对应文本图像中的同一文本单元。通过先确定文本图像中可能存在几个文本单元，再确定文本图像中每一像素属于哪一文本单元，从而完成文本图像的版面分析。

第二种方法，首先利用OCR(Optical Character Recognition，光学字符识别)技术得到文本图像中的文本信息。其中，OCR是指电子设备检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程。将文本信息转化为待理解语义的文本分词，得到每一文本分词的词向量，再逐一将词向量输入至预先训练好的循环神经网络中，输出每一词向量的序列标注。其中，序列标注指的是针对由词向量组成的序列，为序列中每一词向量标注标签。上述过程实则是对词向量进行分类，被分为一类的词向量对应的是同一文本单元。由于词向量与文本图像中组成词向量对应分词的像素相对应，从而可以将像素分类至不同的文本单元。

上述两种方法中，第一种方法是采用文本图像作为信息源，第二种方法是采用文本图像转化后得到的文本信息作为信息源。无论哪一种方法，都是采用单一信息源。单纯从图像本身进行分析，无法获取语义上的信息，会存在语义识别错误的传递累积。单纯对图像识别内容进行语义分析，无法获取图像本身的信息，会存在图像识别错误的传递累积。因此，可能会导致版面分析结果比较片面。

而作为人工智能领域中最重要的两个方向，图像和自然语言理解技术，一直是相关领域研究人员研究的热点。特别是近年来，随着移动互联网技术的迅速发展，信息化程度日益提高，人们越发需要机器理解图像和自然语言，从而实现减少人工投入、海量数据共享等目标。结合上述场景，针对上述相关技术中存在的问题，本发明实施例提供了一种版面分析方法，该方法可以应用于服务器，当然除了服务器之外，还可以应用于包括但不限于个人计算机、笔记本电脑及移动终端等实体设备。需要说明的是，本申请各实施例中提及的“多个”等的数量均指代“至少两个”的数量，比如，“多个”指“至少两个”。

在对本发明实施例提供的方法进行陈述之前，现对本发明实施例所适用的应用场景进行说明，本发明实施例提供的方法可以适用于电子文档的版面分析，电子文档主要指的是文本图像，版面分析主要指的是解析出电子文档中的版面信息类型。其中，不同类型的电子文档中所涵盖的版面信息类型是不同的。例如，试卷的文本图像与合同的文本图像均为电子文档，但各自所覆盖的版面信息类型显然通常是不同的。试卷中通常会涵盖试卷名称、试题板块标题(如选择题、简单题或翻译题等)、题干及填写答题内容板块等版面信息类型。而合同通常会涵盖文档名称、文档目录、文档标题、页眉及页脚等版面信息类型。为了便于理解，本发明实施例提供的方法以电子文档为合同为例，对本发明实施例提供的方法进行解释说明。其中，合同版面样貌可参考图1，图1中每一虚线框选中的内容均为一个具体的版面信息板块，而本发明实施例提供的方法，则是要识别这些具体的版面信息板块对应的版面信息类型。

另外，站在交互的角度，本发明实施例提供的方法可以如下交互场景：终端拍摄合同得到文本图像，并将文本图像发送至服务器，或者由终端直接将既有的文本图像发送至服务器，由服务器执行本发明实施例提供的方法。其中，终端可以手持终端，上述过程对应的交互场景示意图可参考图2。

结合上述说明，在一个实施例中，参见图3，提供了一种版面分析方法。以该方法应用于终端，且执行主体为终端为例进行说明，该方法包括如下步骤：

301、获取目标文本图像，并获取目标文本图像中每一文本行的空间转换特征、位置特征及图像特征，空间转换特征是对每一文本行的OCR解码特征进行空间特征转换得到的；

302、根据每一文本行的空间转换特征与位置特征，获取每一文本行的关系编码特征，将每一文本行的关系编码特征与每一文本行的图像特征进行拼接，得到每一文本行的融合特征；

303、对每一文本行的融合特征进行解码，得到每一文本行的版面信息类型。

在上述步骤101中，目标文本图像指的是对电子文档进行拍照后得到的图像，文本图像中按行划分内容即为文本行。在实际实施过程中，通过OCR(Optical CharacterRecognition，光学字符识别)模型，可以获取每一文本行的位置特征、图像特征以及OCR解码特征。OCR模型通常是由CNN(Convolutional Neural Networks，卷积神经网络)层、RNN(Rerrent Neural Network，循环神经网络)层及解码层构成。在CNN层，用于提取图像特征。在RNN层，用双向LSTM(Long Short-Term Memory，长短期记忆网络)识别图像特征，得到每个字符的图像特征的概率分布。在解码层，利用CTC(Connectionist temporalclassification，基于神经网络的时序类分类)和前向后向算法求解概率最优的文本内容。其中，上述OCR解码特征即为OCR模型中解码层在识别解码时的特征信息。

其中，通过OCR模型对目标文本图像进行图像内容的识别，可获得每一文本行的文本内容、每一文本行的位置特征以及每一文本行的图像特征。如图1所示，拆分成文本行图像实际上是虚线框截取出的框体图像。由此，根据文本行图像中左上角像素及右下角像素在目标文本图像中的坐标，可确定每一文本行在目标文本图像中的位置，也即每一文本行的位置特征。

在上述步骤102中，之所以需要以文本行的空间转换特征及位置特征，作为得到关系编码特征的基础，是因为文本行的空间转换特征与文本行的文本内容相关联。由此，在文本内容上有所关联的文本行，可以体现在彼此间空间转换特征的关联上。例如，某一段文字中相邻的两行，由于该两行同属于该段文字，从而该两行的文本内容会有所共性。比如，该两行的文本内容可能对应同一主题或者内容上有衔接。而这种共性可以体现在两者的空间转换特征上，如两者空间转换特征的相似性也比较高。由此，空间转换特征可以作为表征文本行之间关联关系的关系编码特征的获取依据。

由于内容相关联的文本行，其在目标文本图像中位置也会比较接近，比如某一段文字中相邻的两行，该两行在目标文本图像中纵坐标位置会比较接近。因此，位置特征可以作为表征文本行之间关联关系的关系编码特征的获取依据。另外，可通过对每一文本行的空间转换特征与位置特征进行组合，得到每一文本行的关系编码特征。关系编码特征与图像特征均为特征向量矩阵，将两个特征向量矩阵进行合并，即可完成两者的拼接。

在上述步骤103中，在对每一文本行的融合特征进行解码时，可以通过将融合特征输入至图解码器，从而输出每一文本行的版面信息类型。其中，图解码器可以基于文本图像样本训练得到。具体可采用监督式的训练方式，在已知文本图像样本中文本行的版面信息类型的前提下，训练得到上述图解码器。

本发明实施例提供的方法，通过获取目标文本图像，并获取目标文本图像中每一文本行的空间转换特征、位置特征及图像特征。根据每一文本行的空间转换特征与位置特征，获取每一文本行的关系编码特征，将每一文本行的关系编码特征与每一文本行的图像特征进行拼接，得到每一文本行的融合特征。对每一文本行的融合特征进行解码，得到每一文本行的版面信息类型。由于同时结合了空间转换特征及图像特征对文本图像的内容进行理解，而不是单一片面的基于一种特征，从而分析结果比较精准。另外，每一文本行在分析时均结合了图像特征及与文本内容关联的空间转换特征，在其中一项特征识别错误的情况下，另外一项特征也能够作为分析依据，从而提高了版面分析的容错率。

结合上述说明，在一个实施例中，参见图4，本发明实施例不对根据每一文本行的空间转换特征与位置特征，获取每一文本行的关系编码特征的方式作具体限定，包括但不限于：

401、对于任一文本行，根据每一文本行的位置特征，获取该文本行与每一其它文本行之间的边向量；其中，其它文本行指的是目标文本图像中除该文本行之外的文本行，边向量用于表征该文本行与其它文本行之间的相对位置；

402、基于图卷积神经网络模型，对该文本行的空间转换特征、每一其它文本行的空间转换特征以及该文本行与每一其它文本行之间的边向量进行关系编码，得到该文本行的关系编码特征。

在上述步骤401中，以任一文本行为第i个文本行，目标文本图像中除第i个文本行之外的某一其它文本行记为第j个文本行为例，该两个文本行之间的边向量，可以是该两个文本行中的像素之间的距离。例如，可以为第i个文本行中左上角像素与第j个文本行中左上角像素之间的距离，以及第i个文本行中右下角像素与第j个文本行中右下角像素之间的距离。由此，边向量可以为二维的向量。

在上述步骤402中，将第i个文本行与第j个文本行之间的边向量记为r_ij，将第i个文本行的空间转换特征记为t_i，将第j个文本行的空间转换特征记为t_j，则第i个文本行与第j个文本行之间的关系编码特征可以记为h_ij，h_ij可以表示为h_ij＝g(t_i,r_ij,t_j)。

本发明实施例提供的方法，对于任一文本行，通过根据每一文本行的位置特征，获取该文本行与每一其它文本行之间的边向量。基于图卷积神经网络模型，对该文本行的空间转换特征、每一其它文本行的空间转换特征以及该文本行与每一其它文本行之间的边向量进行关系编码，得到该文本行的关系编码特征。由于边向量可以表征文本行之间的相对位置，而文本行之间的相对位置可以表征文本行之间关联程度，从而基于由边向量得到的关系编码特征对文本图像的内容进行理解，能够使得分析结果比较精准。

应该理解的是，虽然图3及图4的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图3及图4中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

结合上述说明，在一个实施例中，位置特征包括该文本行中的锚点在目标文本图像中的横坐标及纵坐标；相应地，边向量包括该文本行中锚点与其它文本行中锚点之间的横坐标差值及纵坐标差值。

由于需要获知文本行在目标文本图像中的相对位置，从而在本发明实施例中，可以先确定文本行中的锚点。其中，锚点是可以用于定位文本行在目标文本图像中所处位置的点。比如，文本行左上角与右下角的像素点可以作为锚点。文本行作为框体，其中中心点也可以作为锚点，本发明实施例对此不作具体限定。以任一文本行为第i个文本行，目标文本图像中除第i个文本行之外的某一其它文本行记为第j个文本行，以文本行的锚点为中心点为例，第i个文本行中锚点与第j个文本行中锚点之间的横坐标差值可记为x_ij，第i个文本行中锚点与第j个文本行中锚点之间的纵坐标差值可记为y_ij。

若x_ij为0，则表明第i个文本行与第j个文本行在目标文本图像中位于同列。若y_ij为0，则表明第i个文本行与第j个文本行在目标文本图像中为位于同行。若x_ij为0而y_ij不为0，则表明第i个文本行与第j个文本行在目标文本图像中为位于同行但不位于同列，也即第i个文本行与第j个文本行分别位于同行的不同位置上。此时，第i个文本行与第j个文本存在较大可能属于同一版面信息板块，也即两者对应同一版面信息类型。

本发明实施例提供的方法，由于文本行中各自锚点之间的横坐标差值与纵坐标差值可以表征文本行之间的相对位置，而文本行之间的相对位置可以表征文本行之间关联程度，且边向量是根据位置特征得到的，从而基于由边向量得到的关系编码特征对文本图像的内容进行理解，能够使得分析结果比较精准。

在文本图像中，除了文本行之间的相对位置能够表征文本行之间是否存在关联之外，文本行中字体大小也能够表征文本行之间是否存在关联。例如，两个文本行若属于同一版面信息模块，比如同属于一个段落，则该两个文本行中字体大小应当是一致的。结合上述说明，在一个实施例中，边向量还用于表征该文本行中字体与其它文本行中字体之间的相对大小；相应地，边向量还包括其它文本行的高度与该文本行的高度之间的比值。

其中，文本行中字体大小可以通过文本行的高度近似表示。如图1所示，对于只有一行文字的文本行而言，拆分出的文本行高度即为虚线框的高度，而虚线框的高度近似等于文本行的实际高度。由此，可以用虚线框的高度作为文本行的实际高度。而每一文本行内字体大小通常是相同的，从而文本行的实际高度为字体的高度。因此，文本行中字体的高度可以利用文本行的高度进行近似表示。而在文字形态中，如汉字，汉字字体的宽高通常是近似相同的。因此，若需要表示文本行中的字体大小，则可以利用该文本行的高度来表示。

本发明实施例提供的方法，由于文本行中各自文本行高度之间的比值，能够用于表征文本行中各自字体之间的相对大小，而文本行中各自字体之间的相对大小可以表征文本行之间关联程度，且边向量包括表征上述相对大小的比值，从而基于由边向量得到的关系编码特征对文本图像的内容进行理解，能够使得分析结果比较精准。

上述实施例的过程主要是由文本行之间字体的相对大小来表征文本行之间的关联程度，并通过比值的形式呈现在边向量中。而字体大小是由文本行的高度进行表示的，从而边向量实际上覆盖了两个文本行各自的高度。而实际实施过程中，对于任一文本行，则与该文本行有所关联的其它文本行通常也会存在一些共性。比如，该文本行与其它文本行的自身宽高也会存在一些共性。例如，如图1所示，左下角合同供方单位签字处，可以看出该虚线框所框选的段落中，实际上存在多个文本行，且该多个文本行宽高基本上是一致的。因此，文本行的自身宽高可以作为文本行之间存在关联的对外呈现。结合上述说明，在一个实施例中，边向量还包括其它文本行的宽度与该文本行的高度之间的比值以及该文本行的宽度与该文本行的高度之间的比值。

其中，对于任一文本行，其它文本行的宽度与该文本行的高度之间的比值，即覆盖了其它文本行的宽度。而由上述实施例可知，边向量还可以包括其它文本行的高度与该文本行的高度之间的比值，也即边向量也同时覆盖了其它文本行的高度。两个比值均以该文本行的高度作为分母，而分子为其它文本行的高度及宽度。

需要说明的是，之所以本发明实施例不直接将其它文本行的宽度作为边向量包括的内容之一，是因为边向量已存在两个文本行之间高度比作为其中一项内容。为使得后续对数据处理过程存在一个统一的基准，由此上述两个比值可以视为对其它文本行的宽度及高度进行归一化的结果，也即使用其它文本行的宽高分别除以该文本行的高度，将得到的比值作为边向量所包括的内容，以实现数据归一化。

由上述说明可知，对于任一文本行及某一其它文本行，目前该文本行与该其它文本行之间的边向量中可以覆盖该其它文本行的宽高。而由于采用了该文本行的高度对该其它文本行的宽高进行归一化，实际上边向量还覆盖了该文本行的高度。而由上述实施例的内容可知，若该文本行与该其它文本行之间存在关联，则该文本行与其它文本行的自身宽高也会存在一些共性。而为了对共性进行呈现，边向量中还可以覆盖该文本行的宽度，而基于归一化考虑，边向量中可以包括该文本行的宽度与该文本行的高度之间的比值。

本发明实施例提供的方法，由于文本行的宽高，能够用于表征文本行之间关联程度，且边向量可以包括表征文本行宽高的比值，从而基于由边向量得到的关系编码特征对文本图像的内容进行理解，能够使得分析结果比较精准。另外，由于边向量在覆盖文本行宽高的同时且实现了归一化，从而便于后续对边向量中包括的数据进行处理。

结合上述说明，在一个实施例中，关于对每一文本行的融合特征进行解码，得到每一文本行的版面信息类型的方式，本发明实施例对此不作具体限定，包括但不限于：基于目标文本图像中文本行的排布顺序，依次将每一文本行的融合特征输入至图解码器，输出每一文本行的版面信息类型；其中，图解码器是基于树状层级结构构建得到的，树状层级结构用于表征版面信息类型之间的从属层级关系。

其中，目标文本图像作为一种电子文档，树状层级结构与电子文档的类型相关。例如，以电子合同为例，电子合同通常包括合同名称(也即文档名称)，而在文档名称之下，包括不同层级的文档标题，如1级文档标题及2级文档标题等。在最后一级文档标题下存在具体内容，具体内容通常以段落的形式出现，段落中包括不同的具体内容，如图片、表格、印章及手写体等。上述层级结构可具体参考图5，图5即为电子合同通常的树状层级结构。

在对目标文本图像进行文本行拆分时，通常是按照目标文本图像的版面从上至下进行拆分的。由此，拆分得到的文本行即存在排布顺序，而树状层级结构实际上也是按照电子文档的版面从上至下构建得到的，从而该排布顺序与树状层级结构是相照应的。

本发明实施例提供的方法，通过基于目标文本图像中文本行的排布顺序，依次将每一文本行的融合特征输入至图解码器，输出每一文本行的版面信息类型。由于对文本行的融合特征进行解码时是按照文本行的排布顺序，而文本行的排布顺序与树状层级结构是相照应的，树状层级结构又能够反映电子文档中版面信息类型的实际分布，从而通过图解码器进行解码，能够参考电子文档中版面信息类型的实际分布，进而能够提高解码结果的准确率。

结合上述说明，在一个实施例中，本发明实施例不对依次将每一文本行的融合特征输入至图解码器，输出每一文本行的版面信息类型的方式作具体限定，包括但不限于：对于任一文本行，若该文本行存在前一文本行，则将该文本行的融合特征及前一文本行的版面信息类型输入至图解码器，输出该文本行的版面信息类型。

其中，图解码器可以使用自回归解码器，自回归解码器可以采用LSTM(LongShort-Term Memory，长短期记忆网络)结构。由此，利用LSTM的时序性，在解码出每一文本行的版面信息类型时，不仅可以基于当前待解码文本行的融合特征，还可以融合上一个文本行的解码结果，以输出每一文本行的版面信息类型。在得到每一文本行的版面信息类型后，由于上述实施例中已得到文本行的排布顺序，从而依据文本行的排布顺序，对连续且同类型的文本行进行合并，以使得连续且同类型的文本行作为一个版面信息板块。最终，可以按照如图1所示的框选方式，输出文本目标图像的版面分析结果。

本发明实施例提供的方法，对于任一文本行，通过在该文本行存在前一文本行时，则将该文本行的融合特征及前一文本行的版面信息类型输入至图解码器，输出该文本行的版面信息类型。由于在输出每一文本行的版面信息类型时，均可以结合目标文本图像中该文本行的前一文本行的输出结果进行辅助判断，而前一文本行与该文本行存在排布顺序上的连续性，两者各自所属的版面信息类型之间的关联程度比较高，从而利用前一文本行的输出结果，能够提高判断结果的精准性。

结合上述说明，在一个实施例中，在对每一文本行的融合特征进行解码，得到每一文本行的版面信息类型之前，还包括：获取目标文本图像中每一文本行的文本特征；将每一文本行的文本特征与每一文本行的融合特征进行拼接，将拼接后得到的特征作为每一文本行的融合特征。

由上述实施例的内容可知，通过OCR模型可以得到每一文本行的文本内容。通过将每一文本行的文本内容输入至NLP(Natural Language Processing,自然语言处理)模型，即可输出得到每一文本行的文本特征。其中，NLP模型可以具体为BERT(BidirectionalEncoder Representations from Transformers，基于转换器的双向编码表征)预训练模型，本发明实施例对此不作具体限定。通过将每一文本行的文本特征与每一文本行的融合特征进行拼接，可将拼接后的特征重新作为每一文本行的融合特征，并作为解码对象。

本发明实施例提供的方法，通过获取目标文本图像中每一文本行的文本特征。将每一文本行的文本特征与每一文本行的融合特征进行拼接，将拼接后得到的特征作为每一文本行的融合特征。由于在对融合特征进行拼接之前，融合特征本身就覆盖有与文本内容相关联的空间转换特征，空间转换特征是对OCR解码特征进行空间转换得到的，而由NLP模型识别出的文本特征则为文本识别中的通用特征，通过两种与文本内容相关联的特征相互结合，从而能提高后续判断版面信息类型时的精准性。

在上述实施例中，获取文本行的空间转换特征、位置特征及图像特征的过程、融合上述多个特征的过程以及解码过程，是分多个模型分开实现的。在实际实施过程中，上述三个过程还可以由同一个分析模型实现，该分析模型可以分为OCR识别层、特征融合层及图解码层。若考虑后续对排布顺序连续且版面信息类型相同的文本行进行合并，以及输出合并结果的过程，则该模型还可以包括输出层。

在对模型各个层执行过程进行阐述之前，可以先收集文本图像样本，用于对模型进行训练。其中，收集样本类型可以与待分析的文本图像类型相关链。例如，如果是需要对电子合同进行版面分析，则可以收集大量电子合同的文本图像作为样本，如金融领域的合同样本，并标注文本图像中每一文本行的版面信息类型。在分析模型仅包含OCR识别层、特征融合层及图解码层的前提下，将分析模型训练前的模型记为初始模型，则可以通过将文本图像样本作为初始模型的输入，将文本图像样本中每一文本行的版面信息类型作为初始模型的输出，即可对初始模型进行训练，得到分析模型。

需要说明的是，实际实施过程中，可以先利用大量文本图像样本将OCR初始模型训练至收敛，得到一个通用的OCR识别模型。将OCR识别模型作为OCR识别层所使用的模型，并在实际对目标文本图像进行版面分析时，则可以根据分析结果与实际结果对OCR识别层中的OCR识别模型进行微调，以实现多任务学习的端到端模型，进而提升OCR识别效果。

其中，OCR识别模型在训练时所使用的损失函数，可参考如下公式(1)：

在上述公式(1)中，m表示OCR识别模型中LSTM网络层的层数，T表示每一LSTM网络层中LSTM网络的个数，表示识别预测的结果，/>表示真实的识别结果。

图解码层所使用的图解码器，其所使用的损失函数，可参考如下公式(2)：

在上述公式(2)中，m表示图解码器中LSTM网络层的层数，T表示每一LSTM网络层中LSTM网络的个数，表示每一文本行的分类预测结果，/>表示每一文本行的真实分类结果。若将OCR识别层、特征融合层及图解码层作为一个整体的分析模型，则对该分析模型进行训练时的损失函数可以为如下公式(3)：

loss＝loss1+loss2； (3)

为了便于理解，现结合该模型不同的层划分，对本发明实施例提供的方法进行解释说明：

1、OCR识别层：输入需要识别的目标文本图像，OCR对图片信息进行获取，输出解码得到的每一文本行的OCR解码特征、每一文本行的位置特征(即在目标文本图像中的坐标信息)以及每一文本行图像的图像特征。

2、特征融合层：通过全连接层，可以对上述OCR解码特征进行空间特征转换。空间特征转换主要是为了实现单个网络中一部分中间层的特征作仿射变换，以使得版面信息分类任务能够自适应地将不同特征进行对齐或空间变换，从而减少由于特征变换对版面信息分类任务的影响，提升整个模型的学习能力。

将空间转换特征、位置特征及图像特征进行特征层面的融合，具体过程可参考图6。首先基于空间转换特征与位置特征，构建出图6所示的邻接图，邻接图中主要是呈现每两个文本行之间的连接关系，邻接图中的边可以用上述实施例提及的边向量进行表示。在构建完邻接图后，可以根据每两个文本行之间的连接关系，采用图卷积神经网络进行关系编码。具体地，可以将每一文本行作为上述邻接图中的一个节点，每个节点都与其他所有节点有连接，每个节点自身的特征即为上述空间转换特征，每个节点之间的连接关系用每个节点之间边的特征进行表示。以第i个文本行与第j个文本行为例，两个文本行之间边的特征可以按照如下公式(4)表示：

在上述公式(4)中，r_ij即表示边的特征，也即对应上述实施例中提及的边向量，x_ij表示两个文本行的横坐标差值，y_ij表示两个文本行的纵坐标差值，w_i与h_i分别表示第i个文本行的宽与高，而w_j与h_j分别表示第j个文本行的宽与高。其中，边的特征主要是用于表征邻居文本行与当前文本行之间的相对位置，以及该两个文本行各自的宽高信息。需要说明的是，使用h_i作为比值的分母，主要是为了进行数据归一化，以使得具有仿射不变性。

再得到边向量之后，可以利用图卷积神经网络得到具有相互关系的每一文本行的表示，也即对应上述实施例中提及的关系编码特征。接着，将获得的具有相互关系的表示与OCR识别层输出的图像特征进行拼接，形成具备图像、位置和文本相融合的特征，也即对应上述实施例中提及的融合特征。在得到每一文本行的融合特征后，可将上述OCR识别层识别出的每一文本行的文本内容输入至BERT预训练模型，得到每一文本行的文本特征。将每一文本行的融合特征与每一文本行的文本特征进行拼接，再将拼接后得到的特征作为每一文本行的融合特征。此时，得到的每一文本行的融合特征即为后续图解码层的解码对象。

3、图解码层：由于在对版面进行分析时，版面信息类型是具有一定层级关系的。电子合同常见的版面信息类型包括13类，分别为文档名称、文档目录、文档标题、段落、页眉、页脚、图片、表格、印章、手写体、水印、选择项、勾选框。其中，版面信息类型常见的层级关系可参考图5，电子合同通常不会脱离图5所示的层级关系。由此，图解码层可以基于图5所示的树状层次结构构建，并可以采用自回归解码方案对每一文本行的版面信息类型进行分析。具体过程可如图7所示，基于LSTM的时序性，在判断每一文本行的版面信息类型时，不光会基于每一文本行的融合特征，还会融合每一文本行的前一文本行的版面信息类型进行辅助判断。

4、输出层：在得到目标文本图像中每一文本行的版面信息类型后，可对连续且同类型的文本行进行合并，形成一个整体的版面信息板块，从而最终解析出目标文本图像的版面。以电子合同为例，最终版面分析结果可参考图1。

需要说明的是，上述阐述的技术方案在实际实施过程中可以作为独立实施例来实施，也可以彼此之间进行组合并作为组合实施例实施。另外，在对上述本发明实施例内容进行阐述时，仅基于方便阐述的思路，按照相应顺序对不同实施例进行阐述，如按照数据流流向的顺序，而并非是对不同实施例之间的执行顺序进行限定。相应地，在实际实施过程中，若需要实施本发明提供的多个实施例，则不一定需要按照本发明阐述实施例时所提供的执行顺序，而是可以根据需求安排不同实施例之间的执行顺序。

结合上述实施例的内容，在一个实施例中，如图8所示，提供了一种声纹判别装置，包括：第一获取模块801、第二获取模块802、第一拼接模块803及解码模块804，其中：

第一获取模块801，用于获取目标文本图像，并获取目标文本图像中每一文本行的空间转换特征、位置特征及图像特征，空间转换特征是对每一文本行的OCR解码特征进行空间特征转换得到的；

第二获取模块802，用于根据每一文本行的空间转换特征与位置特征，获取每一文本行的关系编码特征；

第一拼接模块803，用于将每一文本行的关系编码特征与每一文本行的图像特征进行拼接，得到每一文本行的融合特征；

解码模块804，用于对每一文本行的融合特征进行解码，得到每一文本行的版面信息类型。

在一个实施例中，第二获取模块802，用于对于任一文本行，根据每一文本行的位置特征，获取该文本行与每一其它文本行之间的边向量；其中，其它文本行指的是目标文本图像中除该文本行之外的文本行，边向量用于表征该文本行与其它文本行之间的相对位置；

在一个实施例中，位置特征包括该文本行中的锚点在目标文本图像中的横坐标及纵坐标；相应地，边向量包括该文本行中锚点与其它文本行中锚点之间的横坐标差值及纵坐标差值。

在一个实施例中，边向量还用于表征该文本行中字体与其它文本行中字体之间的相对大小；相应地，边向量还包括其它文本行的高度与该文本行的高度之间的比值。

在一个实施例中，边向量还包括其它文本行的宽度与该文本行的高度之间的比值以及该文本行的宽度与该文本行的高度之间的比值。

在一个实施例中，解码模块804，用于基于目标文本图像中文本行的排布顺序，依次将每一文本行的融合特征输入至图解码器，输出每一文本行的版面信息类型；其中，图解码器是基于树状层级结构构建得到的，树状层级结构用于表征版面信息类型之间的从属层级关系。

在一个实施例中，解码模块804，用于对于该文本行，若该文本行存在前一文本行，则将该文本行的融合特征及前一文本行的版面信息类型输入至图解码器，输出该文本行的版面信息类型。

在一个实施例中，该装置还包括：

第三获取模块，用于获取目标文本图像中每一文本行的文本特征；

拼接模块，用于将每一文本行的文本特征与每一文本行的融合特征进行拼接，将拼接后得到的特征作为每一文本行的融合特征。

本发明实施例提供的装置，通过获取目标文本图像，并获取目标文本图像中每一文本行的空间转换特征、位置特征及图像特征。根据每一文本行的空间转换特征与位置特征，获取每一文本行的关系编码特征，将每一文本行的关系编码特征与每一文本行的图像特征进行拼接，得到每一文本行的融合特征。对每一文本行的融合特征进行解码，得到每一文本行的版面信息类型。由于同时结合了空间转换特征及图像特征对文本图像的内容进行理解，而不是单一片面的基于一种特征，从而分析结果比较精准。另外，每一文本行在分析时均结合了图像特征及与文本内容关联的空间转换特征，在其中一项特征识别错误的情况下，另外一项特征也能够作为分析依据，从而提高了版面分析的容错率。

关于版面分析装置的具体限定可以参见上文中对于版面分析方法的限定，在此不再赘述。上述版面分析装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储预设阈值。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种版面分析方法。

本领域技术人员可以理解，图9中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

在一个实施例中，计算机程序被处理器执行时，位置特征包括该文本行中的锚点在目标文本图像中的横坐标及纵坐标；相应地，边向量包括该文本行中锚点与其它文本行中锚点之间的横坐标差值及纵坐标差值。

在一个实施例中，计算机程序被处理器执行时，边向量还用于表征该文本行中字体与其它文本行中字体之间的相对大小；相应地，边向量还包括其它文本行的高度与该文本行的高度之间的比值。

在一个实施例中，计算机程序被处理器执行时，边向量还包括其它文本行的宽度与该文本行的高度之间的比值以及该文本行的宽度与该文本行的高度之间的比值。

获取目标文本图像中每一文本行的文本特征；

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

获取目标文本图像中每一文本行的文本特征；

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种版面分析方法，其特征在于，所述方法包括：

获取目标文本图像，并获取所述目标文本图像中每一文本行的空间转换特征、位置特征及图像特征，所述空间转换特征是对每一文本行的OCR解码特征进行空间特征转换得到的；

对于任一文本行，根据每一文本行的位置特征，获取所述任一文本行与每一其它文本行之间的边向量；其中，其它文本行指的是所述目标文本图像中除所述任一文本行之外的文本行，所述边向量用于表征所述任一文本行与其它文本行之间的相对位置；

基于图卷积神经网络模型，对所述任一文本行的空间转换特征、每一其它文本行的空间转换特征以及所述任一文本行与每一其它文本行之间的边向量进行关系编码，得到所述任一文本行的关系编码特征；

将每一文本行的关系编码特征与每一文本行的图像特征进行拼接，得到每一文本行的融合特征；

2.根据权利要求1所述的方法，其特征在于，所述位置特征包括所述任一文本行中的锚点在所述目标文本图像中的横坐标及纵坐标；相应地，所述边向量包括所述任一文本行中锚点与其它文本行中锚点之间的横坐标差值及纵坐标差值。

3.根据权利要求2所述的方法，其特征在于，所述边向量还用于表征所述任一文本行中字体与其它文本行中字体之间的相对大小；相应地，所述边向量还包括其它文本行的高度与所述任一文本行的高度之间的比值。

4.根据权利要求3所述的方法，其特征在于，所述边向量还包括其它文本行的宽度与所述任一文本行的高度之间的比值以及所述任一文本行的宽度与所述任一文本行的高度之间的比值。

5.根据权利要求1所述的方法，其特征在于，所述对每一文本行的融合特征进行解码，得到每一文本行的版面信息类型，包括：

基于所述目标文本图像中文本行的排布顺序，依次将每一文本行的融合特征输入至图解码器，输出每一文本行的版面信息类型；其中，图解码器是基于树状层级结构构建得到的，所述树状层级结构用于表征版面信息类型之间的从属层级关系。

6.根据权利要求5所述的方法，其特征在于，所述依次将每一文本行的融合特征输入至图解码器，输出每一文本行的版面信息类型，包括：

对于任一文本行，若所述任一文本行存在前一文本行，则将所述任一文本行的融合特征及所述前一文本行的版面信息类型输入至所述图解码器，输出所述任一文本行的版面信息类型。

7.根据权利要求1至6中任一项所述的方法，其特征在于，所述对每一文本行的融合特征进行解码，得到每一文本行的版面信息类型之前，还包括：

获取所述目标文本图像中每一文本行的文本特征；

8.一种版面分析装置，其特征在于，所述装置包括：

第一获取模块，用于获取目标文本图像，并获取所述目标文本图像中每一文本行的空间转换特征、位置特征及图像特征，所述空间转换特征是对每一文本行的OCR解码特征进行空间特征转换得到的；

第二获取模块，用于对于任一文本行，根据每一文本行的位置特征，获取所述任一文本行与每一其它文本行之间的边向量；其中，其它文本行指的是所述目标文本图像中除所述任一文本行之外的文本行，所述边向量用于表征所述任一文本行与其它文本行之间的相对位置；基于图卷积神经网络模型，对所述任一文本行的空间转换特征、每一其它文本行的空间转换特征以及所述任一文本行与每一其它文本行之间的边向量进行关系编码，得到所述任一文本行的关系编码特征；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。