CN112069961B

CN112069961B - 一种基于度量学习的少样本文档版面分析方法

Info

Publication number: CN112069961B
Application number: CN202010884195.6A
Authority: CN
Inventors: 徐行; 赖逸; 张鹏飞; 邵杰; 陈李江
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-08-28
Filing date: 2020-08-28
Publication date: 2022-06-14
Anticipated expiration: 2040-08-28
Also published as: CN112069961A

Abstract

本发明公开了一种基于度量学习的少样本文档版面分析方法，通过提取的文档图像的原始特征图来构建不同区域的位置注意力特征以及通道注意力特征，利用卷积网络的融合能够充分利用这些特征图中不同区域的表征特征；同时，以融合得到的表征特征来进行原型构建，以及利用分割得到的结果采用对齐操作，从而达到利用少量的数据来进行文档内容分割，同时提高分割精度。

Description

一种基于度量学习的少样本文档版面分析方法

技术领域

本发明属于计算机视觉中的语义分割技术领域，更为具体地讲，涉及一种基于度量学习的少样本文档版面分析方法。

背景技术

在移动互联时代，电子文档的获取和分享变得十分方便，对文档版面进行分析能够有效的提取具有价值的信息。随着文档的数量不断增多，文档的内容更加多样，对文档的版面内容进行分析成为语义分割的新趋势。对文档版面分析目标是将文档图像中的不同区域进行分类，得到具有不同标签信息的分割结果。

现有的对文档版面进行分析结果比较好的方法是基于深度网络的语义分割，以深度网络为基础的语义分割方法主要有两种基本的网络结构：

1)全卷积网络FCN：该结构不包含全连接层，使得网络能接受任意尺寸的图像作为输入。同时使用了池化层来减少特征图的尺寸来增大感受野，以及能够增大特征图尺寸的反卷积层，用以提高结果的准确性。但是由于池化层减小了特征图的尺寸使得网络会丢失部分空间信息；

2)空洞卷积dilated convolution：空洞卷积不使用池化层，而是通过增大卷积网络的卷积核来变相地减小特征图的尺寸，同时不会丢失图像的空间信息。

虽然基于上述两种方法以及衍生了许多新的效果显著的深度语义分割网络，但是这些网络都存在同一个严重的问题：这些网络都需要大量的精细标注的数据用来训练。但是训练数据需要的是逐像素的标记，这使得训练数据的获取是一个十分耗时费力的事，尤其是在文档内容比较复杂的情况下。一种延缓的办法是使用弱监督学习进行训练，但是任然需要许多的弱标记的训练数据。

少样本文档版面分析采用的方法主要受到元学习和少样本学习的启发，目标是在具有很少的精细标记文档样本的前提下进行文档分割。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于度量学习的少样本文档版面分析方法，通过度量学习方法降低文档版面分析时需要的大量数据依赖，同时提高文档内容分割精度。

为实现上述发明目的，本发明一种基于度量学习的少样本文档版面分析方法，其特征在于，包括以下步骤：

(0)、构建训练集

从现有的多个文档中下载大量的support图像与query图像，其中，每K张support图像和一张query图像作为单个训练任务，在每一张support图像中，标记有每个位置与给定掩码的配对组合，通过给定掩码值标记出support图像中每个位置的类别；在每一张query图像中，同样标记有每个位置与给定掩码的配对组合，通过给定掩码值标记出query图像中每个位置的类别；

(1)、特征提取

(1.1)、随机选取一个训练任务输入至卷积神经网络；

(1.2)、K张support图像输入后，利用卷积神经网络提取每一张support图像的原始特征图，记为

其中，s代表support图像，k＝1,2,…,K，C、H、W分别表示原始特征图的通道数、高度和宽度；

(1.3)、单张query图像输入后，利用卷积网络提取单张query图像的原始特征图，记为

其中，q代表query图像；

(2)、生成带有位置注意力的特征图和带有通道注意力的特征图；

(2.1)、将每一张原始特征图

进行一次reshape操作，使

的维度由C×H×W转换为C×(HW)，记新的特征图为

再次对

进行一次reshape操作将原始特征图维度C×H×W转换为C×(HW)，然后再进行一次transpose操作将维度进行交换为(HW)×C，记新的特征图为

(2.2)、将

与

进行矩阵乘法操作得到矩阵

再将

与

进行矩阵乘法操作得到矩阵

然后对

进行reshape操作，将其维度恢复为C×H×W，最后再与

相加，得到带有位置注意力的特征图

(2.3)将

与

进行矩阵乘法操作得到矩阵

再将

与

进行矩阵乘法操作得到矩阵

通过对

进行reshape操作，将其维度恢复为C×H×W，最后再与

相加，得到带有通道注意力的特征图

(2.4)、同理，按照步骤(2.1)-(2.3)的方法对原始特征图

进行处理，得到带有位置注意力的特征图

和带有通道注意力的特征图

(3)、将带有位置注意力和通道注意力的特征图进行特征融合；

将带有位置注意力的特征图

和通道注意力的特征图

通过执行逐元素相加来完成特征融合，再通过一个1×1的卷积层，从而输出融合后的特征图

同理，按照上述方法对

和

进行特征融合后，得到特征图

(4)、提取特征图

的前景原型与背景原型并合成

(4.1)、设置类别集合B＝{1,2,…,j,…,b}，总类别数为b；从所有的特征图

中提取每个类别下的前景原型；

其中，

表示类别j的第k张特征图

在(x,y)处的向量，其维度为C×1×1；

表示类别j的第k张特征图

在(x,y)处的给定掩码值；

为指示函数，当

时，指示函数的取值为1，否则为0；

(4.2)、从所有的特征图

中提取背景原型；

其中，g代表背景；

(4.3)、将前景原型与背景原型合成原型集合P_s，P_s＝{P_s,j|j∈B}∪{P_s,g}；

(5)、在特征图

中计算每个像素位置最终类别所属的掩码值；

(5.1)、利用余弦距离计算公式计算特征图

中每个位置(x,y)处的向量与原型集合中各原型之间的距离

再通过softmax来计算每个类别下的概率；

其中，α为权衡因子，

表示类别j下特征图

在(x,y)处的向量；

(5.2)、通过argmax方法计算每个像素位置最终类别所属的预测掩码值；

(6)、根据掩码值

提取特征图

的前景原型与背景原型并合成；

(6.1)、从特征图

中提取每个类别下的前景原型；

(6.2)、从特征图

中提取背景原型；

(6.3)、将前景原型与背景原型合成原型集合P_q，P_q＝{P_q,j|j∈B}∪{P_q,g}；

(7)、在所有的特征图

计算每个位置最终类别所属的掩码值；

(7.1)、利用余弦距离计算公式计算特征图

中每个位置(x,y)处的向量与原型集合中各原型之间的距离

再通过softmax计算每个类别下的概率；

其中，α为权衡因子；

(7.2)、通过argmax方法计算每个位置最终类别所属的预测掩码值；

(8)、采用反向传播对特征提取的卷积神经网络的权重进行更新，得到用于特征提取的标准卷积神经网络；

(8.1)、根据预测掩码值

构建损失函数L_seg；

其中，

表示类别j下特征图

在(x,y)处的给定掩码值；

(8.2)、根据预测掩码值

构建损失函数L_q-s；

其中，N表示特征图

中像素点数目；

(8.3)、定义总损失函数L＝L_seg+λL_q-s，λ为平衡因子；

(8.4)、先通过对总损失函数L进行梯度求解，再判断然后用反向传播算法对用于特征提取的卷积神经网络的权重进行更新，然后选取下一个训练任务，以更新后的网络权重继续训练卷积神经网络，当总损失函数L达到最小时完成训练，从而得到标准卷积神经网络模型；

(9)、利用标准卷积神经网络模型对待分析文档进行版面分析

将待分析文档以图像形式输入至标准卷积神经网络模型，从而输出每个位置对应的掩码值，然后按照掩码值划分每个位置对应的类别，将同一类别的位置划分为同一板块，表示这些位置对应的像素点属于同一板块。

本发明的发明目的是这样实现的：

本发明基于度量学习的少样本文档版面分析方法，通过提取的文档图像的原始特征图来构建不同区域的位置注意力特征以及通道注意力特征，利用卷积网络的融合能够充分利用这些特征图中不同区域的表征特征；同时，以融合得到的表征特征来进行原型构建，以及利用分割得到的结果采用对齐操作，从而达到利用少量的数据来进行文档内容分割，同时提高分割精度。

同时，本发明基于度量学习的少样本文档版面分析方法还具有以下有益效果：

(1)、根据特征图中当前位置与全局位置之间的关系，构建位置注意力特征来增强模型对于全局信息的掌控，用来解决原有图像处理只关注当前位置的周围局部的信息之间的关系，同时利用位置与通道注意力特征的融合来进一步丰富提取到的特征内容。

(2)、根据特征图中当前通道与其他通道之间的关系，构建通道注意力特征来增强模型对于特征图中整体通道信息的掌控，用来解决不同通道所表征的特征之间过于相似的问题，能够有效地增大不同通道所表征的特点之间的差异，同时利用位置与通道注意力特征的融合来进一步丰富提取到的特征内容。

(3)、在原有模型的训练步骤中，加入了对齐操作。在训练过程中，模型得到分割结果后，通过一次对齐操作，让模型能够充分理解当前原型的构建与真实标注之间的差异，进行对特征提取和原型的构建添加一个约束条件。由于对齐操作只会在训练时使用，不会影响模型的推理速度。

附图说明

图1是本发明基于度量学习的少样本文档版面分析方法流程图；

图2是对原始特征进行提取位置注意力特征的结构图；

图3是对原始特征进行提取通道注意力特征的结构图；

图4是利用原型计算每个位置掩码值的结构图；

图5是本发明基于度量学习的少样本文档版面分析方法框架图；

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

实施例

为了方便描述，先对具体实施方式中出现的相关专业术语进行说明：

Support图像：支持图像

Query图像：查询图像

COS(cosine)：余弦距离

VGG-16(Visual Geometry Group Network-16)：视觉几何群网络

RGB(Red-Green-Blue)：RGB色彩模式

Maxpool：最大池化

Conv(convolution)：卷积

Reshape：重塑

Transpose：转置

Softmax：对数函数

Argmax：参数最大函数

k-shot：k张图片

DSSE-200(Document semantic structure extraction)：文档语义结构提取数据集

Layout Analysis Dataset：布局分析数据集

PASCAL-5i：PASCAL-5i数据集

SG-One(Similarity guidance network for one-shot semanticsegmentation)：一次语义分割的相似性指导网络

图1是本发明基于度量学习的少样本文档版面分析方法流程图。

在本实施例中，结合图5对本发明一种基于度量学习的少样本文档版面分析方法进行展开说明，具体如图1所示，包括以下步骤：

S0、构建训练集

从现有的多个文档中下载大量的support图像与query图像，其中，support图像用来对文档版面分析进行指导，query图像为实际文档版面分析对象，每K张support图像和一张query图像作为单个训练任务，在每一张support图像中，标记有每个位置与给定掩码的配对组合，通过给定掩码值标记出support图像中每个位置的类别；在每一张query图像中，同样标记有每个位置与给定掩码的配对组合，通过给定掩码值标记出query图像中每个位置的类别；

S1、特征提取

文档图像通常是由RGB三个颜色通道进行存储的，不适合直接进行图像分割。因此，需要首先对文档的图像利用卷积网络进行特征提取；

S1.1、随机选取一个训练任务输入至卷积神经网络；

S1.2、K张support图像输入后，利用卷积神经网络提取每一张support图像的原始特征图，记为

在本实施例中，采用的是VGG-16作为基础卷积网络骨架来提取图像的特征，其中，网络的前5个卷积块作为主要的特征提取层，同时，maxpool4层的步长设置为1。将conv5块替换为空洞卷积，并设置空洞为2；

S1.3、单张query图像输入后，利用卷积网络提取单张query图像的原始特征图，记为

其中，q代表query图像；

S2、生成带有位置注意力的特征图和带有通道注意力的特征图；

文档版面的内容通常由于其位置不同而所属与不同的类别，例如：考虑表格中的文字和正文段落中的内容，这二者之间的文字字体和文字大小都极为相似。如果仅仅靠分类来对不同区域进行区分是很难得。

所以本实施例中构造了位置注意力模块和通道注意力模块，通过这两个模块来对原始特征图来提取出包含位置注意力和通道注意力特征图。

S2.1、如图2所示，对原始特征图进行提取位置注意力特征图的操作方法如下：将每一张原始特征图

进行一次reshape操作，使

的维度由C×H×W转换为C×(HW)，记新的特征图为

再次对

S2.2、位置注意力模块用来对原始特征图进行提取富含位置信息的特征图，因此，我们将

与

进行矩阵乘法操作得到矩阵

再将

与

进行矩阵乘法操作得到矩阵

然后对

进行reshape操作，将其维度恢复为C×H×W，最后再与

相加，得到带有位置注意力的特征图

具有位置注意力信息的特征图在进行卷积推理时，会尽可能多地注意当前位置与全局位置之间的关系，能够有效地对不同区域进行区分；

S2.3、如图3所示，对原始特征图进行提取通道注意特征图的操作方法如下：通道注意力模块用来对原始特征图进行提取富含通道信息的特征图，因此，我们将

与

进行矩阵乘法操作得到矩阵

再将

与

进行矩阵乘法操作得到矩阵

通过对

进行reshape操作，将其维度恢复为C×H×W，最后再与

相加，得到带有通道注意力的特征图

不同的通道表示不同风格的特征。具有通道注意力信息的特征图在进行卷积推理时，会尽可能多地注意当前特征图通道与其他通道之间的关系，能够有效的整合和区分不同通道的特征；

S2.4、同理，按照步骤S2.1-S2.3的方法对原始特征图

进行处理，得到带有位置注意力的特征图

和带有通道注意力的特征图

S3、将带有位置注意力和通道注意力的特征图进行特征融合；

将带有位置注意力的特征图

和通道注意力的特征图

同理，按照上述方法对

和

进行特征融合后，得到特征图

S4、提取特征图

的前景原型与背景原型并合成

原有的推理过程是利用已有的分割标注样例来构造原型，再对待分割的文档进行处理。但如果仅仅包含这些步骤会导致一些问题：如果模型构造原型时出错，则会导致对后续的文档分割相应出错。因为没有对构造原型时进行相应的约束，原型的构造适合与否都很难进行约束。

S4.1、设置类别集合B＝{1,2,…,j,…,b}，总类别数为b；从所有的特征图

中提取每个类别下的前景原型；

其中，

表示类别j的第k张特征图

在(x,y)处的向量，其维度为C×1×1；

表示类别j的第k张特征图

在(x,y)处的给定掩码值；

为指示函数，当

时，指示函数的取值为1，否则为0；

S4.2、从所有的特征图

中提取背景原型；

其中，g代表背景；

S4.3、将前景原型与背景原型合成原型集合P_s，P_s＝{P_s,j|j∈B}∪{P_s,g}；

S5、在特征图

中计算每个位置最终类别所属的掩码值；

如图4所示，通过原型计算掩码值的具体操作如下：将query图像的特征图与原型计算距离，通过对文档分割的结果进行对齐操作，其中，对齐操作是指：通过对模型的分割结果作为新的标注样例来构造新的原型，然后对已经有分割标注的样例进行重新分割。通过比较重新分割的结果和原有的标注来判断模型的原型构建是否合理。下面采用逆向操作进行优化原型构建；

S5.1、利用余弦距离计算公式计算特征图

中每个位置(x,y)处的向量与原型集合中各原型之间的距离

再通过softmax来计算每个类别下的概率；

其中，α为权衡因子，

表示类别j下特征图

在(x,y)处的向量；

S5.2、通过argmax方法计算每个像素位置最终类别所属的预测掩码值；

S6、根据掩码值

提取特征图

的前景原型与背景原型并合成；

在本实施例中，通过对齐操作，将分割得到的结果重新提取特征，得到新的原型，然后计算原始特征图每个位置与新原型的距离；

S6.1、从特征图

中提取每个类别下的前景原型；

S6.2、从特征图

中提取背景原型；

S6.3、将前景原型与背景原型合成原型集合P_q，P_q＝{P_q,j|j∈B}∪{P_q,g}；

S7、在所有的特征图

计算每个位置最终类别所属的预测掩码值；

S7.1、利用余弦距离计算公式计算特征图

中每个位置(x,y)处的向量与原型集合中各原型之间的距离

再通过softmax计算每个类别下的概率；

其中，α为权衡因子；

S7.2、通过argmax方法计算每个位置最终类别所属的预测掩码值；

S8、采用反向传播对特征提取的卷积神经网络的权重进行更新，得到用于特征提取的标准卷积神经网络；

S8.1、根据预测掩码值

构建损失函数L_seg；

其中，

表示类别j下特征图

在(x,y)处的给定掩码值；

S8.2、根据预测掩码值

构建损失函数L_q-s；

其中，N表示特征图

中像素点数目；

S8.3、定义总损失函数L＝L_seg+λL_q-s，λ为平衡因子；

S8.4、先通过对总损失函数L进行梯度求解，再判断然后用反向传播算法对用于特征提取的卷积神经网络的权重进行更新，然后选取下一个训练任务，以更新后的网络权重继续训练卷积神经网络，当总损失函数L达到最小时完成训练，从而得到标准卷积神经网络模型；

S9、利用标准卷积神经网络模型对待分析文档进行版面分析

采用k-shot指标来评估我们的模型。k-shot是指在训练和测试的时候在对support图像构建原型时所提供的原始图像的张数。在本实例中，k分别为1和5。

在本实例中，使用到的数据集包括DSSE-200、Layout Analysis Dataset以及PASCAL-5i。具体的，DSSE-200数据集包含200张图像，其中的文档内容选自杂志和学术论文；Layout Analysis Dataset从实际文档中选择多个版面页面作为数据，从而反映出版面分析中的各种挑战，尤其是杂志以及技术或科学出版物；PASCAL-5i包含20个类别，在本实例中用来起到增加类别多样性的作用，只是用于训练，在测试时不使用此数据集。

具体的，我们将文档的内容分类了6个类别：图片、表格、标题、章节、列表和段落。我们采用将6个类别分为两部分，每一部分分别3个类，同时，当一个部分用作训练时，另一个部分用作测试。我们在1-shot条件下通过比较使用或不适用注意力模块的结果，以及与一个需要大量数据进行训练的模型进行对比，测试比较结果如下表1所示，其中基础方法表示不使用注意力模块，直接使用特征提取网络得到的特征图：

方法	分割1	分割2	均值
				基础方法	15.6	20.0	20.8
加入自注意力	17.1	30.1	23.6
				SG-One	9.1	27.3	18.2

表1

从表1中可以看出，本发明加入自注意力机制后，在原有基础模型方法上平均效果提升了2.6，同时在于传统的需要大数据量的分割方法SG-One比较，平均效果提升了5.4，可以看出使用了注意力模块可以在基本特征提取网络的基础桑更好地提高模型的输出结果。同时，可以看到当一个需要大量数据进行训练的模型在当前训练数据较少的数据集上的效果较差，但我们的方法很好的克服了这个问题，测试结果有了很大的提升。

此外，我们还对使用不同数量的support图像进行训练并测试，测试比较结果如下表2所示：

方法	分割1	分割2	均值
				1-shot	22.0	35.6	28.8
5-shot	24.9	38.4	31.7

表2

从表2可以看出，当把suport图像的训练张数从1张提高到5张时，平均效果提升了2.9，表明适当提高训练时support图像的数量对结果有很好的提升，同时也说明了模型不需要依赖大量的训练数据。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。