CN116797784A

CN116797784A - 版面块排序的方法、装置，以及电子设备

Info

Publication number: CN116797784A
Application number: CN202210340475.XA
Authority: CN
Inventors: 黄荔; 刘正珍; 王亚萌; 韦秋华
Original assignee: Hanwang Technology Co Ltd
Current assignee: Hanwang Technology Co Ltd
Priority date: 2022-04-02
Filing date: 2022-04-02
Publication date: 2023-09-22

Abstract

本申请公开了一种版面块排序的方法，属于光学字符识别领域，有助于提升工作流执行的效率。所述方法包括：根据目标图像进行版面块切割得到至少两个待排序版面块的空间信息，生成版面块空间信息序列；通过预先训练的神经网络模型的编码网络模块，对版面块空间信息序列进行特征提取和编码处理，获取版面块空间信息序列对应的特征编码序列，该特征编码序列中的每个版面块特征向量与待排序版面块一一对应；通过该神经网络模型的解码网络模块，对该特征编码序列进行排序预测，得到各待排序版面块的排序结果。本方法通过神经网络模型对版面块的空间信息和版面块排序位置之间复杂的映射关系进行学习，并应用于版面块排序中，提升了版面块排序的准确率。

Description

版面块排序的方法、装置，以及电子设备

技术领域

本申请涉及光学字符识别领域，特别是涉及版面块排序的方法、装置，以及，电子设备及计算机可读存储介质。

背景技术

在光学字符识别(OCR)应用中，版面分析是至关重要的一步。版面分析主要对图像中的文本，图像，表格信息等进行分析和理解。通常，版面分析首先会切分出图像中的属于文本，图像，表格的区域，这些区域被称为版面块。通过版面分析切分出的版面块是孤立的区域，各个版面块之间缺乏合适的逻辑结构，需要通过对版面块进行排序，之后，基于有序的版面块进行版面内容的理解。可见，版面块排序结果对后续的版面内容分析会产生一定影响。

现有技术中的版面块排序方法主要包括以下两种：第一种，考虑所有版面块之间全局最小距离，按照行主顺序迭代地版面块进行合并；第二种，按照行主顺序扫描光学字符识别文本块得到版面块，并选择当前版面块的最近版面块作为下一个链接版面块。然而，现有技术中的版面块排序方法，对版面块的位置坐标比较敏感，仅适用于版面块布局相对固定的图像，对于某些相关内容分布在距离较远的版面块中的情况，排序准确率较低。

可见，现有技术中的版面块排序方法还需要改进。

发明内容

本申请实施例提供一种版面块排序的方法，有助于提升版面块排序的准确率。

第一方面，本申请实施例提供了一种版面块排序的方法，包括：

根据至少两个待排序版面块的空间信息，生成版面块空间信息序列，其中，所述至少两个待排序版面块是对一幅目标图像进行版面块切割得到的；

通过预先训练的神经网络模型的编码网络模块，对所述版面块空间信息序列进行特征提取和编码处理，获取所述版面块空间信息序列对应的特征编码序列，其中，所述特征编码序列中的每个版面块特征向量与所述待排序版面块一一对应；

通过所述神经网络模型的解码网络模块，对所述特征编码序列进行排序预测，得到各所述待排序版面块的排序结果。

第二方面，本申请实施例提供了一种版面块排序的装置，包括：

版面块空间信息序列生成模块，用于根据至少两个待排序版面块的空间信息，生成版面块空间信息序列，其中，所述至少两个待排序版面块是对一幅目标图像进行版面块切割得到的；

特征编码序列获取模块，用于通过预先训练的神经网络模型的编码网络模块，对所述版面块空间信息序列进行特征提取和编码处理，获取所述版面块空间信息序列对应的特征编码序列，其中，所述特征编码序列中的每个版面块特征向量与所述待排序版面块一一对应；

排序模块，用于通过所述神经网络模型的解码网络模块，对所述特征编码序列进行排序预测，得到各所述待排序版面块的排序结果。

第三方面，本申请实施例还公开了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本申请实施例所述的版面块排序的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时本申请实施例公开的版面块排序的方法的步骤。

本申请实施例公开的版面块排序的方法，通过根据至少两个待排序版面块的空间信息，生成版面块空间信息序列，其中，所述至少两个待排序版面块是对一幅目标图像进行版面块切割得到的；通过预先训练的神经网络模型的编码网络模块，对所述版面块空间信息序列进行特征提取和编码处理，获取所述版面块空间信息序列对应的特征编码序列，其中，所述特征编码序列中的每个版面块特征向量与所述待排序版面块一一对应；通过所述神经网络模型的解码网络模块，对所述特征编码序列进行排序预测，得到各所述待排序版面块的排序结果，有助于提升版面块排序的准确率。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1是本申请实施例一的版面块排序的方法流程示意图；

图2是图像切割得到的版面块示意图；

图3是本申请实施例一中所述的神经网络模型结构示意图；

图4是本申请实施例一中神经网络模型的解码网络模块结构示意图；

图5是本申请实施例一的版面块排序的方法另一流程示意图；

图6是采用现有技术中的版面块排序的方法对图2中所示的版面块进行排序的排序结果示意图；

图7是采用本申请实施例公开的版面块排序的方法对图2中所示的版面块进行排序的排序结果示意图；

图8是本申请实施例二的版面块排序的装置结构示意图之一；

图9是本申请实施例二的版面块排序的装置结构示意图之二

图10示意性地示出了用于执行根据本申请的方法的电子设备的框图；以及

图11示意性地示出了用于保持或者携带实现根据本申请的方法的程序代码的存储单元。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

实施例一

本申请实施例公开的一种版面块排序的方法，如图1所示，所述方法包括：步骤110至步骤130。

步骤110，根据至少两个待排序版面块的空间信息，生成版面块空间信息序列，其中，所述至少两个待排序版面块是对一幅目标图像进行版面块切割得到的。

本申请实施例中所述的版面块排序的方法，用于对光学字符识别领域中，对一副图像进行扫描和版面块切割后，得到的若干版面块进行排序，便于后续任务基于排序的版面块进行图像内容识别，或者执行其他操作。

本申请实施例中，对从一幅目标图像中切割得到版面块的具体实施方式不做限定。该目标图像经过图像扫描和版面切割处理后，可以得到该图像内包括的各个版面块的空间信息。本申请的一些实施例中，版面块的空间信息用于标识版面块在图像中矩形区域的位置和尺寸，例如：所述空间信息可以表示为版面块的左上角和右下角坐标；还可以表示为版面块左下角和右上角坐标；又或者，还可以表示为版面块的任意3个顶点坐标；再或者，可以表示为版面块的中心坐标和尺寸等。

本申请实施例中所述的版面块的空间信息，为归一化处理后的空间信息。例如，对从一幅目标图像中切割得到版面块的位置坐标和/或尺寸首先进行归一化处理，将位置坐标和/或尺寸映射到指定尺寸图像范围内，之后，把归一化处理后的位置坐标和/或尺寸，作为版面块的空间信息。

以图2所示的目标图像为例，该目标图像经过版面块切割后，得到9个版面块，即图2中的版面块210至290。

本申请的实施例中，以一副图像中版面块切割得到的各个版面块的空间信息，作为版面块的特征，基于版面块的空间信息，通过预先训练的神经网络模型对版面块进行排序。因此，对于某一图像进行版面块切割得到的多个版面块(即待排序版面块)，首先将各个版面块的空间信息依次排列，生成版面块空间信息序列。以空间信息通过版面块的左上角坐标(x1,y1)和右下角坐标(x2,y2)表示为例，某一版面块的空间信息可以表示为“x1,y1，x2,y2”，即每个版面块的空间信息可以通过长度为4的一组数据表示。那么，n个版面块的空间信息依次排列后，将得到一个长度为n×4的版面块空间信息序列。所述版面块空间信息序列中，每组空间信息对应一个待排序版面块。

步骤120，通过预先训练的神经网络模型的编码网络模块，对所述版面块空间信息序列进行特征提取和编码处理，获取所述版面块空间信息序列对应的特征编码序列。

其中，所述特征编码序列中的每个版面块特征向量与所述待排序版面块一一对应。

接下来，将获取的版面块空间信息序列(下文中使用符号“PointArray”表示)输入至预先训练的神经网络模型，通过所述神经网络模型对所述版面块空间信息序列PointArray进行特征提取，以及，特征编码、解码处理，最后，输出所述版面块空间信息序列PointArray中每个所述版面块空间信息对应的待排序版面块的排序结果。

如图3所示，本申请的一些实施例中，所述神经网络模型包括：编码网络模块310和解码网络模块320。其中，所述：编码网络模块310用于基于训练阶段学习到的特征映射关系，对输入的版面块空间信息序列PointArray中每个所述版面块的空间信息进行特征提取，以及，特征编码，并输出版面块空间信息序列PointArray的编码向量；所述解码网络模块320用于基于训练阶段学习到的特征映射关系对所述编码网络模块310输出的编码向量进行解码，并输出对所述编码向量的解码结果，即输出版面块空间信息序列PointArray中每个所述版面块的空间信息对应的排序结果，该排序结果即是版面块空间信息序列PointArray中每个所述版面块的空间信息对应的待排序版面块的排序结果。

本申请的一些实施例中，所述编码网络模块310进一步包括：特征嵌入子模块和特征编码子模块。

其中，特征嵌入子模块用于对输入的版面块空间信息序列PointArray进行特征提取和维度变换，将输入的版面块空间信息序列PointArray转换为特征向量序列。本申请的一些实施力中，所述特征嵌入子模块可以采用线性变换层来实现。特征嵌入子模块对输入的版面块空间信息序列PointArray进行线性变换之后，得到版面块空间信息序列PointArray对应的高维向量，例如记为“PointArrayF1”。例如，对于前述长度为n×4的版面块空间信息序列，经过特征嵌入子模块进行线性变换之后，所述特征嵌入子模块将输出一个长度为n×K的特征向量序列，其中，K的取值取决于线性变换层的维度，例如，K的取值可以为256或者512。

本申请的一些实施例中，特征编码子模块用于对特征嵌入子模块输出的特征向量序列PointArrayF1，进一步进行特征提取，以提取所述特征向量序列中用于排序的相关特征，建立序列的前后关系。本申请的一些实施例中，所述特征编码子模块可以使用包括但不限于以下任意一种网络结构：双向长短记忆力(Long short-term memory,LSTM)网络、多层感知机(MLP，Multilayer Perceptron)网络,以及，transformer网络。经过对特征向量序列PointArrayF1进行进一步特征提取，所述特征编码子模块将输出与该特征向量序列PointArrayF1对应的一个特征编码序列，下文中记为“PointArrayF2”。特征编码子模块对特征嵌入子模块输出的特征向量进行进一步特征提取后，对于前述长度为n×4的版面块空间信息序列(即由n个待排序版面块的空间信息构成的版面块空间信息序列)，特征编码子模块将输出长度n×m的特征编码序列,其中，m的取值取决于特征编码子模块的结构。其中，n表示特征编码的组数，每组特征编码对应一组空间信息，每组特征编码对应一个待排序版面块；m表示每个待排序版面块对应的特征编码的维度，特征编码序列PointArrayF2进一步可以表示为：Z_v1、Z_v2、…Z_vn，其中，Z_vn表示。

以图2中所述的待排序版面块210至290为例，如果版面块空间信息序列中待排序版面块210、220、230、…、290的空间信息从前到后依次排列，则相应的。编码网络模块输出的特征编码序列中，待排序版面块210、220、230、…、290的特征编码从前到后依次排列。

步骤130，通过所述神经网络模型的解码网络模块，对所述特征编码序列进行排序预测，得到各所述待排序版面块的排序结果。

本申请的一些实施例中，所述解码网络模块320基于所述编码网络模块310输出的特征编码序列PointArrayF2中每个待排序版面块的特征编码，进行排序预测，分别输出每个待排序版面块的排序结果。

本申请的一些实施例中，所述解码网络模块为指针网络。例如，所述解码网络模块可以采用传统的Sequence2Sequence加注意力机制网络的结构。传统的注意力机制网络中，在计算完权重之后，会对编码器的输出状态(state)进行加权，求得一个向量C。而在指针网络中，计算权重之后，选择概率最大的编码器状态(encoder state)作为输出。指针网络得到预测结果的方式就是，输出一个概率分布，亦即所谓的指针。在指针网络进行解码预测时，每个时间步会找到当前输入序列中权重最大的那个元素，而由于输出结果完全来自于输入序列，因此，指针网络可以适应输入序列的长度变化。具体到版面块排序而言，不同的图像中切割得到的版面块的数量可能不同，通过指针网络对版面块的空间信息序列的编码结果进行解码预测，可以适应变化长度的版面块空间信息序列，从而可以基于每个待排序版面块的性能，对版面块进行排序。

本申请的一些实施例中，通过所述神经网络模型的解码网络模块，对所述特征编码序列进行排序预测，得到各所述待排序版面块的排序结果，包括：通过所述神经网络模型的解码网络模块，基于注意力机制对所述特征编码序列进行排序预测，得到所述各所述待排序版面块的排序结果。如前所述，所述解码网络模块可以采用传统的Sequence2Sequence加注意力机制网络的结构，其中，在解码过程中，注意力机制网络用于计算各个节点与前次输出的相关性，即注意力权重。

本申请的一些实施例中，所述通过所述神经网络模型的解码网络模块，基于注意力机制对所述特征编码序列进行排序预测，得到所述各所述待排序版面块的排序结果，包括：对所述特征编码序列中的版面块特征向量进行平均池化处理，得到所述特征编码序列的全局特征向量；以所述全局特征向量、动态确定的第一向量和所述特征编码序列，作为所述解码网络模块的输入，通过所述神经网络模型的解码网络模块对所述特征编码序列进行N轮次排序预测，分别得到进行每轮次所述排序预测输出的一个所述待排序版面块的排序结果；其中，N的取值等于所述待排序版面块数量减一；进行第一轮次排序预测时，所述第一向量为零向量；进行第M轮次排序预测时，所述第一向量为对各所述版面块特征向量以对应权重进行加权求和得到的，其中，各所述版面块特征向量对应的权重为：进行第M-1轮次排序预测时计算得到的与所述版面块特征向量匹配的注意力系数,M为大于1小于等于N的整数；聚合进行每轮次所述排序预测得到的所述一个所述待排序版面块的排序结果，得到所述至少两个待排序版面块的排序结果，其中，每轮次所述排序预测得到的所述一个所述待排序版面块的排序结果用于：指示与当前轮次匹配的版面块排序位置处的所述待排序版面块。

下面，结合图4所示的解码网络模块的解码原理示意图，对解码过程(即排序预测过程)进行举例说明。

如前所述，在指针网络进行解码预测时，每个时间步会找到当前输入序列中权重最大的那个元素。因此，本申请实施例中，通过指针网络进行排序预测时，对于由n个待排序版面块的空间信息构成的空间信息序列的编码结果，需要执行n-1次(即需要经过n-1个时间步)预测，才能得到n个待排序版面块的排序结果。

仍以特征编码序列PointArrayF2表示为：Z_v1、Z_v2、…Z_vn，其中，Z_vn为例，其中，Z_v1、Z_v2、…Z_vn分别为版面块序列中第1个至第n个空间信息所属待排序版面块的版面块特征向量。在进行解码预测时，首先对版面块特征向量Z_v1、Z_v2、…Z_vn进行平均池化处理(例如，对版面块特征向量Z_v1、Z_v2、…Z_vn进行加权平均)，得到所述特征编码序列的全局特征向量(本文中以符号“Z^G”表示)。然后，以所述全局特征向量、动态确定的第一向量和所述特征编码序列，作为所述解码网络模块的输入，通过Sequence2Sequence模型，结合注意力机制，对所述特征编码序列PointArrayF2进行n-1轮次排序预测，每个轮次排序预测将选择一个权重最大的所述待排序版面块，作为相应轮次排序预测输出的排序结果。这样，经过n-1个轮次排序预测，n-1个所述待排序版面块依次被选出，即完成了n个所述待排序版面块的排序预测。

本申请的一些实施例中，Sequence2Sequence模型中的注意力机制需要以前一时间步的输出作为当前时间步的输入，并结合前述全局特征向量和所述特征编码序列，进行当前步排序预测。本申请的一些实施例中动态确定的第一向量则由前一步的输出计算得到。对于第1步预测，本申请实施例中，将第一向量设置为零向量；对于第2步预测，本申请实施例中，根据神经网络模型的第1步的隐层输出进行计算，得到第一向量；对于第3步预测，根据神经网络模型的第2步的隐层输出进行计算，得到第一向量；依此类推，对于第n-1步预测，根据神经网络模型的第n-2步的隐层输出进行计算，得到第一向量。

本申请的一些实施例中，以所述全局特征向量、动态确定的第一向量和所述特征编码序列，作为所述解码网络模块的输入，通过所述神经网络模型的解码网络模块对所述特征编码序列进行一个轮次的排序预测，包括：对动态确定的第一向量和所述全局特征向量进行拼接，得到用于当前轮次排序预测的第二向量；通过所述神经网络模型的解码网络模块中的注意力机制网络，分别计算所述特征编码序列中每个版面块特征向量与所述第二向量的相关性得分；根据所述相关性得分，获取与相应版面块特征向量匹配的注意力系数；将取值最大的所述注意力系数匹配的所述版面块特征向量，确定为目标版面块特征向量，将所述目标版面块特征向量对应的所述待排序版面块，确定为当前轮次排序预测输出的待排序版面块的排序结果。

如图4所示，以当前步预测为第1轮次(即第1个时间步)预测为例，此时，设置第一向量V^input为零向量，然后，将第一向量V^input和全局特征向量Z^G进行拼接，得到用于当前轮次(即第1轮次)排序预测的第二向量h^c。

之后，通过所述神经网络模型的解码网络模块中的注意力机制网络，分别计算所述特征编码序列PointArrayF2中每个版面块特征向量(即前述Z_v1、Z_v2、…Z_vn)与所述第二向量h^c的相关性得分。

本申请的一些实施例中，所述通过所述神经网络模型的解码网络模块中的注意力机制网络，分别计算所述特征编码序列中每个版面块特征向量与所述第二向量的相关性得分，包括：通过所述神经网络模型的解码网络模块中的注意力机制网络，对所述第二向量进行计算，得到当前轮次排序预测的单次查询；以及，通过所述注意力机制网络，对所述特征编码序列中每个版面块特征向量分别进行计算，得到当前轮次排序预测中对应每个所述版面块特征向量的键值；对于每个所述版面块特征向量，通过以下方法确定所述版面块特征向量与所述第二向量的相关性得分：响应于所述版面块特征向量对应的所述待排序版面块的排序结果为已输出，将所述版面块特征向量与所述第二向量的相关性得分设置为负值，使得所述版面块特征向量匹配的注意力系数为0；响应于所述版面块特征向量对应的所述待排序版面块的排序结果为未输出，根据所述版面块特征向量对应的所述键值和所述单次查询，计算所述版面块特征向量与所述第二向量的相关性得分。

本申请的一些实施例中，所述注意力机制网络通过以下方法计算每个版面块特征向量与所述第二向量h^c的相关性得分。

首先，利用注意力机制网络中可学习网络参数W^Q和W^K，在每一步预测时分别计算单次查询q_c，以及，计算在每一步预测时每个节点的键值k_i，计算公式分别如下所示：

q_c＝W^Q·h^c；k_i＝W^k·Z^vi；

其中，i表示特征向量序列中特征向量的序号，Z^vi表示特征向量序列中第i个特征向量。以前述特征向量序列中包括n个特征向量为例，i的取值范围可以为(1，n)。

在计算得到单次查询q_c和各个节点的键值后，计算每个未输出节点与查询q_c的相关性分数，并将该相关性分数作为相应节点在当前步预测中的注意力系数。本申请的一些实施例中，第i个节点与单次查询q_c的相关性分数a_c，i的计算公式如下所示：

其中，d_h代表节点特征向量的维度，T为矩阵转置，s代表预测的步数(即预测轮次)，s’表示已经输出的节点。由上述公式可以看出，在计算各个节点与查询q_c的相关性分数时，当该节点为已经输出的节点时，其相关性分数被设置为一个负值。

这样，通过对该相关性分数进行线性映射(如经过softmax层)之后，得到每个节点的相关性分数对应一个注意力系数，而对于取值为-inf的相关性分数，对应的注意力系数为0，对应其他相关性分数值的注意力系数为大于0小于1的一个数。

在第1轮次预测计算相关性分数时，因为还没有已经输出的节点，因此，将得到n个大于0的相关性分数。通过对相关性分数进行线性映射，可以得到n个取值为0至1之间的注意力系数，且这n个注意力系数之和等于1。接下来，将取值最大的所述注意力系数对应的节点作为当前轮次的输出节点，即取值最大的所述注意力系数匹配的所述版面块特征向量，选择作为当前轮次输出的排序结果。对于第1轮次(即第1个时间步)预测而言，输出的节点对应的所述版面块特征向量，将作为版面块序列中首个版面块。例如，当第2个节点匹配的注意力系数最大时，版面块特征向量Z_v2所属待排序版面块将被选择作为待生成的版面块序列的首个版面块。

接下来，执行第2轮次(即第2个时间步)的预测。此时，需要根据第1轮次预测时计算得到的每个节点的注意力系数，对所述特征编码序列PointArrayF2中每个版面块特征向量(即前述Z_v1、Z_v2、…Z_vn)进行加权求和，并将加权求和得到的向量作为本轮次预测输入的第一向量。本申请的一些实施例中，被输出过的节点在后续预测步骤中不再计算注意力系数，并且不会再被输出。然后，将第一向量V^input和全局特征向量Z^G进行拼接，得到用于当前轮次(即第2轮次)排序预测的第二向量h^c；之后，通过所述神经网络模型的解码网络模块中的注意力机制网络，分别计算所述特征编码序列PointArrayF2中每个版面块特征向量(即前述Z_v1、Z_v2、…Z_vn)与所述第二向量h^c的相关性得分。

在第2个轮次预测过程中，计算相关性分数时，由于在第1轮次预测后已经输出了一个节点(如前述版面块特征向量Z_v2对应的节点)，则在计算相关性分数时，该节点对应的相关性分数将不再计算，而是设置为一个负值，这样，该节点对应的注意力系数将为0，从而达到在后续预测过程中，该节点不再被输出的效果。

按照前述每个轮次的预测方法，n个版面块特征向量经过n-1个轮次预测，依序确定待生成的版面块系列中从前向后排列的第1至第n-1个版面块，至此，即完成了n个所述待排序版面块的排序预测。

本申请的一些实施例中，所述神经网络模型是预先训练的。如图5所示，所述通过预先训练的神经网络模型的编码网络模块，对所述版面块空间信息序列进行特征提取和编码处理，获取所述版面块空间信息序列对应的特征编码序列之前，还包括：步骤100。

步骤100，基于若干训练样本，训练神经网络模型。

为了便于读者理解本申请的方案，下面对基于若干训练样本，训练神经网络模型的具体实施方式进行举例说明。

本申请的一些实施例中，每个所述训练样本的样本数据为版面块空间信息序列，所述版面块空间信息序列由至少两个待排序版面块的空间信息构成，所述两个待排序版面块是对一幅样本图像进行版面块切割得到的；每个所述训练样本的样本标签为相应版面块空间信息序列对应的版面块排序位置真实值序列，所述版面块排序位置真实值序列中与相应所述版面块空间信息序列中对应位置的信息，属于同一待排序版面块。

版面块空间信息序列的生成方法，参见前文描述，此处不再赘述。

本申请的一些实施例中，所述样本标签可以采用数字序列表示。例如，对于一幅样本图像进行版面块切割得到L个版面块，通过人工处理，对这L个版面块排序，可以人工标注每个版面块的序号，例如，人工标注第1至第L个版面块。之后，按照标注的序号从1到L的顺序，将相应序号的版面块的空间信息从前向后排列，得到该图像对应的版面块空间信息序列，作为样本数据。之后，将所述序号1至L从小到大排列，得到序号序列，并将该序号序列作为所述版面块空间信息序列对应的样本标签。

本申请的一些实施例中，所述训练神经网络模型，包括：对于每个所述训练样本，分别执行以下排序预测操作，得到所述训练样本的预测损失：通过所述神经网络模型的编码网络模块，对所述训练样本的版面块空间信息序列进行特征提取和编码处理，获取所述版面块空间信息序列对应的特征编码序列，其中，所述特征编码序列中的每个版面块特征向量与所述待排序版面块一一对应；通过所述神经网络模型的解码网络模块，对所述特征编码序列进行排序预测，得到各所述待排序版面块的排序结果预测值；根据所述训练样本中各待排序版面块的排序结果预测值和所述训练样本的样本标签，计算所述训练样本的预测损失；根据所有所述训练样本的所述预测损失，计算所述神经网络模型的模型损失，并以优化所述模型损失为目标，对所述神经网络模型进行迭代训练。

通过所述神经网络模型的编码网络模块，对所述训练样本的版面块空间信息序列进行特征提取和编码处理时，得到所述训练样本的版面块空间信息序列对应的特征编码序列。通过所述神经网络模型的编码网络模块，对所述训练样本的版面块空间信息序列进行特征提取和编码处理的具体实施方式，参见前文步骤120中通过所述神经网络模型的编码网络模块，对所述目标图像的版面块空间信息序列进行特征提取和编码处理的相关描述，此处不再赘述。

通过所述神经网络模型的解码网络模块，对训练样本的所述特征编码序列进行排序预测，得到相应训练样本中各所述待排序版面块的排序结果预测值的具体实施方式，参见前文步骤130中通过所述神经网络模型的解码网络模块，对目标图像的所述特征编码序列进行排序预测的相关描述，此处不再赘述。

在训练阶段，对于输入至所述神经网络模型的每个训练样本的版面块空间信息序列，所述神经网络模型的解码网络模块会输出对应的排序结果，此时，输出的排序结果为相应训练样本中各待排序版面块的排序结果预测值。进一步的，根据每个训练样本中各待排序版面块的排序结果预测值和排序结果真实值(即相应训练样本的样本标签中指示的各待排序版面块的标注排序位置)之间的误差(例如，所述误差可以通过排序结果预测值和排序结果真实值之间的交叉熵表示)，计算所述神经网络模型对相应训练样本的预测损失。最后，根据所述神经网络模型对所有训练样本的预测损失，计算所述神经网络模型的模型损失，并以所述神经网络模型的模型损失最小为目标，通过误差前向传导等方法，对所述神经网络模型的参数进行优化，并迭代训练所述神经网络模型，直至所述神经网络模型的模型损失收敛。

通过所述神经网络模型的训练过程可知，所述神经网络模型通过训练过程学习了版面块的空间信息和版面块排序位置之间的映射关系，因此，在应用阶段，对于输入的版面块空间信息序列，所述神经网络模型可以预测出版面块空间信息序列对应的版面块排序位置。

本申请实施例公开的版面块排序的方法，通过神经网络模型对版面块的空间信息和版面块排序位置之间复杂的映射关系进行学习，并应用于版面块排序中，能够适应更多的版面块分布情况，相比于仅结合行的主顺序和距离判断的排序方式，大大提升了复杂版面的版面块排序的准确率。

以图2所示的图像为例，采用现有技术中的版面块排序的方法对版面块210至290进行排序，得到的排序结果如图6所示。而采用本申请实施例中的版面块排序的方法对版面块210至290进行排序，得到的排序结果如图7所示。由图6和图7对比可以看出，对于不在同一行但内容相关，且距离较近的版面块，采用现有技术中的版面块排序的方法进行排序时，没有被排序为关联版面块，这样会增加后续版面块内容分析的难度。而采用本申请实施例中公开的版面块排序的方法，则可以对版面块进行准确排序。

实施例二

本申请实施例公开的一种版面块排序的装置，如图8所示，包括：

版面块空间信息序列生成模块810，用于根据至少两个待排序版面块的空间信息，生成版面块空间信息序列，其中，所述至少两个待排序版面块是对一幅目标图像进行版面块切割得到的；

特征编码序列获取模块820，用于通过预先训练的神经网络模型的编码网络模块，对所述版面块空间信息序列进行特征提取和编码处理，获取所述版面块空间信息序列对应的特征编码序列，其中，所述特征编码序列中的每个版面块特征向量与所述待排序版面块一一对应；

排序模块830，用于通过所述神经网络模型的解码网络模块，对所述特征编码序列进行排序预测，得到各所述待排序版面块的排序结果。

本申请的一些实施例中，所述解码网络模块基于指针网络搭建，所述排序模块830，进一步用于：

通过所述神经网络模型的解码网络模块，基于注意力机制对所述特征编码序列进行排序预测，得到所述各所述待排序版面块的排序结果。

本申请的一些实施例中，所述通过所述神经网络模型的解码网络模块，基于注意力机制对所述特征编码序列进行排序预测，得到所述各所述待排序版面块的排序结果，包括：

对所述特征编码序列中的版面块特征向量进行平均池化处理，得到所述特征编码序列的全局特征向量；

以所述全局特征向量、动态确定的第一向量和所述特征编码序列，作为所述解码网络模块的输入，通过所述神经网络模型的解码网络模块对所述特征编码序列进行N轮次排序预测，分别得到进行每轮次所述排序预测输出的一个所述待排序版面块的排序结果；其中，N的取值等于所述待排序版面块数量减一；进行第一轮次排序预测时，所述第一向量为零向量；进行第M轮次排序预测时，所述第一向量为对各所述版面块特征向量以对应权重进行加权求和得到的，其中，各所述版面块特征向量对应的权重为：进行第M-1轮次排序预测时计算得到的与所述版面块特征向量匹配的注意力系数,M为大于1小于等于N的整数；

聚合进行每轮次所述排序预测得到的所述一个所述待排序版面块的排序结果，得到所述至少两个待排序版面块的排序结果，其中，每轮次所述排序预测得到的所述一个所述待排序版面块的排序结果用于：指示与当前轮次匹配的版面块排序位置处的所述待排序版面块。

本申请的一些实施例中，以所述全局特征向量、动态确定的第一向量和所述特征编码序列，作为所述解码网络模块的输入，通过所述神经网络模型的解码网络模块对所述特征编码序列进行一个轮次的排序预测，包括：

对动态确定的第一向量和所述全局特征向量进行拼接，得到用于当前轮次排序预测的第二向量；

通过所述神经网络模型的解码网络模块中的注意力机制网络，分别计算所述特征编码序列中每个版面块特征向量与所述第二向量的相关性得分；

根据所述相关性得分，获取与相应版面块特征向量匹配的注意力系数；

将取值最大的所述注意力系数匹配的所述版面块特征向量，确定为目标版面块特征向量，将所述目标版面块特征向量对应的所述待排序版面块，确定为当前轮次排序预测输出的待排序版面块的排序结果。

本申请的一些实施例中，所述通过所述神经网络模型的解码网络模块中的注意力机制网络，分别计算所述特征编码序列中每个版面块特征向量与所述第二向量的相关性得分，包括：

通过所述神经网络模型的解码网络模块中的注意力机制网络，对所述第二向量进行计算，得到当前轮次排序预测的单次查询；以及，通过所述注意力机制网络，对所述特征编码序列中每个版面块特征向量分别进行计算，得到当前轮次排序预测中对应每个所述版面块特征向量的键值；

对于每个所述版面块特征向量，通过以下方法确定所述版面块特征向量与所述第二向量的相关性得分：

响应于所述版面块特征向量对应的所述待排序版面块的排序结果为已输出，将所述版面块特征向量与所述第二向量的相关性得分设置为负值，使得所述版面块特征向量匹配的注意力系数为0；

响应于所述版面块特征向量对应的所述待排序版面块的排序结果为未输出，根据所述版面块特征向量对应的所述键值和所述单次查询，计算所述版面块特征向量与所述第二向量的相关性得分。

本申请的一些实施例中，如图9所示，所述装置，还包括：

神经网络模型训练模块800，用于基于若干训练样本，训练神经网络模型；其中，每个所述训练样本的样本数据为版面块空间信息序列，所述版面块空间信息序列由至少两个待排序版面块的空间信息构成，所述两个待排序版面块是对一幅样本图像进行版面块切割得到的；每个所述训练样本的样本标签为相应版面块空间信息序列对应的版面块排序位置真实值序列，所述版面块排序位置真实值序列中与相应所述版面块空间信息序列中对应位置的信息，属于同一待排序版面块；

所述训练神经网络模型，包括：

对于每个所述训练样本，分别执行以下排序预测操作，得到所述训练样本的预测损失：

通过所述神经网络模型的编码网络模块，对所述训练样本的版面块空间信息序列进行特征提取和编码处理，获取所述版面块空间信息序列对应的特征编码序列，其中，所述特征编码序列中的每个版面块特征向量与所述待排序版面块一一对应；

通过所述神经网络模型的解码网络模块，对所述特征编码序列进行排序预测，得到各所述待排序版面块的排序结果预测值；

根据所述训练样本中各待排序版面块的排序结果预测值和所述训练样本的样本标签，计算所述训练样本的预测损失；

根据所有所述训练样本的所述预测损失，计算所述神经网络模型的模型损失，并以优化所述模型损失为目标，对所述神经网络模型进行迭代训练。

本申请实施例公开的版面块排序的装置，用于实现本申请实施例一中所述的版面块排序的方法，装置的各模块的具体实施方式不再赘述，可参见方法实施例相应步骤的具体实施方式。

本申请实施例公开的版面块排序的装置，通过根据至少两个待排序版面块的空间信息，生成版面块空间信息序列，其中，所述至少两个待排序版面块是对一幅目标图像进行版面块切割得到的；通过预先训练的神经网络模型的编码网络模块，对所述版面块空间信息序列进行特征提取和编码处理，获取所述版面块空间信息序列对应的特征编码序列，其中，所述特征编码序列中的每个版面块特征向量与所述待排序版面块一一对应；通过所述神经网络模型的解码网络模块，对所述特征编码序列进行排序预测，得到各所述待排序版面块的排序结果，有助于提升版面块排序的准确率。

本申请实施例公开的版面块排序的装置，通过神经网络模型对版面块的空间信息和版面块排序位置之间复杂的映射关系进行学习，并应用于版面块排序中，能够适应更多的版面块分布情况，相比于仅结合行的主顺序和距离判断的排序方式，大大提升了复杂版面的版面块排序的准确率。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上对本申请提供的一种版面块排序的方法及方法进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其一种核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

本申请的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的电子设备中的一些或者全部部件的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本申请的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

例如，图10示出了可以实现根据本申请的方法的电子设备。所述电子设备可以为PC机、移动终端、个人数字助理、平板电脑等。该电子设备传统上包括处理器1010和存储器1020及存储在所述存储器1020上并可在处理器1010上运行的程序代码1030，所述处理器1010执行所述程序代码1030时实现上述实施例中所述的方法。所述存储器1020可以为计算机程序产品或者计算机可读介质。存储器1020可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器1020具有用于执行上述方法中的任何方法步骤的计算机程序的程序代码1030的存储空间10201。例如，用于程序代码1030的存储空间10201可以包括分别用于实现上面的方法中的各种步骤的各个计算机程序。所述程序代码1030为计算机可读代码。这些计算机程序可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘，紧致盘(CD)、存储卡或者软盘之类的程序代码载体。所述计算机程序包括计算机可读代码，当所述计算机可读代码在电子设备上运行时，导致所述电子设备执行根据上述实施例的方法。

本申请实施例还公开了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请实施例一所述的版面块排序的方法的步骤。

这样的计算机程序产品可以为计算机可读存储介质，该计算机可读存储介质可以具有与图10所示的电子设备中的存储器1020类似布置的存储段、存储空间等。程序代码可以例如以适当形式进行压缩存储在所述计算机可读存储介质中。所述计算机可读存储介质通常为如参考图11所述的便携式或者固定存储单元。通常，存储单元包括计算机可读代码1030’，所述计算机可读代码1030’为由处理器读取的代码，这些代码被处理器执行时，实现上面所描述的方法中的各个步骤。

本文中所称的“一个实施例”、“实施例”或者“一个或者多个实施例”意味着，结合实施例描述的特定特征、结构或者特性包括在本申请的至少一个实施例中。此外，请注意，这里“在一个实施例中”的词语例子不一定全指同一个实施例。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本申请的实施例可以在没有这些具体细节的情况下被实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种版面块排序的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述解码网络模块基于指针网络搭建，所述通过所述神经网络模型的解码网络模块，对所述特征编码序列进行排序预测，得到各所述待排序版面块的排序结果，包括：

3.根据权利要求2所述的方法，其特征在于，所述通过所述神经网络模型的解码网络模块，基于注意力机制对所述特征编码序列进行排序预测，得到所述各所述待排序版面块的排序结果，包括：

4.根据权利要求3所述的方法，其特征在于，以所述全局特征向量、动态确定的第一向量和所述特征编码序列，作为所述解码网络模块的输入，通过所述神经网络模型的解码网络模块对所述特征编码序列进行一个轮次的排序预测，包括：

5.根据权利要求4所述的方法，其特征在于，所述通过所述神经网络模型的解码网络模块中的注意力机制网络，分别计算所述特征编码序列中每个版面块特征向量与所述第二向量的相关性得分，包括：

6.根据权利要求1至5任一项所述的方法，其特征在于，所述通过预先训练的神经网络模型的编码网络模块，对所述版面块空间信息序列进行特征提取和编码处理，获取所述版面块空间信息序列对应的特征编码序列之前，还包括：

基于若干训练样本，训练神经网络模型；其中，每个所述训练样本的样本数据为版面块空间信息序列，所述版面块空间信息序列由至少两个待排序版面块的空间信息构成，所述两个待排序版面块是对一幅样本图像进行版面块切割得到的；每个所述训练样本的样本标签为相应版面块空间信息序列对应的版面块排序位置真实值序列，所述版面块排序位置真实值序列中与相应所述版面块空间信息序列中对应位置的信息，属于同一待排序版面块；

所述训练神经网络模型，包括：

7.一种版面块排序的装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，所述解码网络模块基于指针网络搭建，所述排序模块，进一步用于：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在处理器上运行的程序代码，其特征在于，所述处理器执行所述程序代码时实现权利要求1至6任一项所述的版面块排序的方法。

10.一种计算机可读存储介质，其上存储有程序代码，其特征在于，该程序代码被处理器执行时实现权利要求1至6任一项所述的版面块排序的方法的步骤。