CN112069961B - 一种基于度量学习的少样本文档版面分析方法 - Google Patents

一种基于度量学习的少样本文档版面分析方法 Download PDF

Info

Publication number
CN112069961B
CN112069961B CN202010884195.6A CN202010884195A CN112069961B CN 112069961 B CN112069961 B CN 112069961B CN 202010884195 A CN202010884195 A CN 202010884195A CN 112069961 B CN112069961 B CN 112069961B
Authority
CN
China
Prior art keywords
prototype
feature map
category
feature
characteristic diagram
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010884195.6A
Other languages
English (en)
Other versions
CN112069961A (zh
Inventor
徐行
赖逸
张鹏飞
邵杰
陈李江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202010884195.6A priority Critical patent/CN112069961B/zh
Publication of CN112069961A publication Critical patent/CN112069961A/zh
Application granted granted Critical
Publication of CN112069961B publication Critical patent/CN112069961B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features

Abstract

本发明公开了一种基于度量学习的少样本文档版面分析方法,通过提取的文档图像的原始特征图来构建不同区域的位置注意力特征以及通道注意力特征,利用卷积网络的融合能够充分利用这些特征图中不同区域的表征特征;同时,以融合得到的表征特征来进行原型构建,以及利用分割得到的结果采用对齐操作,从而达到利用少量的数据来进行文档内容分割,同时提高分割精度。

Description

一种基于度量学习的少样本文档版面分析方法
技术领域
本发明属于计算机视觉中的语义分割技术领域,更为具体地讲,涉及一种基于度量学习的少样本文档版面分析方法。
背景技术
在移动互联时代,电子文档的获取和分享变得十分方便,对文档版面进行分析能够有效的提取具有价值的信息。随着文档的数量不断增多,文档的内容更加多样,对文档的版面内容进行分析成为语义分割的新趋势。对文档版面分析目标是将文档图像中的不同区域进行分类,得到具有不同标签信息的分割结果。
现有的对文档版面进行分析结果比较好的方法是基于深度网络的语义分割,以深度网络为基础的语义分割方法主要有两种基本的网络结构:
1)全卷积网络FCN:该结构不包含全连接层,使得网络能接受任意尺寸的图像作为输入。同时使用了池化层来减少特征图的尺寸来增大感受野,以及能够增大特征图尺寸的反卷积层,用以提高结果的准确性。但是由于池化层减小了特征图的尺寸使得网络会丢失部分空间信息;
2)空洞卷积dilated convolution:空洞卷积不使用池化层,而是通过增大卷积网络的卷积核来变相地减小特征图的尺寸,同时不会丢失图像的空间信息。
虽然基于上述两种方法以及衍生了许多新的效果显著的深度语义分割网络,但是这些网络都存在同一个严重的问题:这些网络都需要大量的精细标注的数据用来训练。但是训练数据需要的是逐像素的标记,这使得训练数据的获取是一个十分耗时费力的事,尤其是在文档内容比较复杂的情况下。一种延缓的办法是使用弱监督学习进行训练,但是任然需要许多的弱标记的训练数据。
少样本文档版面分析采用的方法主要受到元学习和少样本学习的启发,目标是在具有很少的精细标记文档样本的前提下进行文档分割。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于度量学习的少样本文档版面分析方法,通过度量学习方法降低文档版面分析时需要的大量数据依赖,同时提高文档内容分割精度。
为实现上述发明目的,本发明一种基于度量学习的少样本文档版面分析方法,其特征在于,包括以下步骤:
(0)、构建训练集
从现有的多个文档中下载大量的support图像与query图像,其中,每K张support图像和一张query图像作为单个训练任务,在每一张support图像中,标记有每个位置与给定掩码的配对组合,通过给定掩码值标记出support图像中每个位置的类别;在每一张query图像中,同样标记有每个位置与给定掩码的配对组合,通过给定掩码值标记出query图像中每个位置的类别;
(1)、特征提取
(1.1)、随机选取一个训练任务输入至卷积神经网络;
(1.2)、K张support图像输入后,利用卷积神经网络提取每一张support图像的原始特征图,记为
Figure GDA0003551325250000021
其中,s代表support图像,k=1,2,…,K,C、H、W分别表示原始特征图的通道数、高度和宽度;
(1.3)、单张query图像输入后,利用卷积网络提取单张query图像的原始特征图,记为
Figure GDA0003551325250000022
其中,q代表query图像;
(2)、生成带有位置注意力的特征图和带有通道注意力的特征图;
(2.1)、将每一张原始特征图
Figure GDA0003551325250000023
进行一次reshape操作,使
Figure GDA0003551325250000024
的维度由C×H×W转换为C×(HW),记新的特征图为
Figure GDA0003551325250000025
再次对
Figure GDA0003551325250000026
进行一次reshape操作将原始特征图维度C×H×W转换为C×(HW),然后再进行一次transpose操作将维度进行交换为(HW)×C,记新的特征图为
Figure GDA0003551325250000027
(2.2)、将
Figure GDA0003551325250000028
Figure GDA0003551325250000029
进行矩阵乘法操作得到矩阵
Figure GDA00035513252500000210
再将
Figure GDA00035513252500000211
Figure GDA00035513252500000212
进行矩阵乘法操作得到矩阵
Figure GDA00035513252500000213
然后对
Figure GDA00035513252500000214
进行reshape操作,将其维度恢复为C×H×W,最后再与
Figure GDA00035513252500000215
相加,得到带有位置注意力的特征图
Figure GDA00035513252500000216
(2.3)将
Figure GDA00035513252500000217
Figure GDA00035513252500000218
进行矩阵乘法操作得到矩阵
Figure GDA00035513252500000219
再将
Figure GDA00035513252500000220
Figure GDA0003551325250000031
进行矩阵乘法操作得到矩阵
Figure GDA0003551325250000032
通过对
Figure GDA0003551325250000033
进行reshape操作,将其维度恢复为C×H×W,最后再与
Figure GDA0003551325250000034
相加,得到带有通道注意力的特征图
Figure GDA0003551325250000035
(2.4)、同理,按照步骤(2.1)-(2.3)的方法对原始特征图
Figure GDA0003551325250000036
进行处理,得到带有位置注意力的特征图
Figure GDA0003551325250000037
和带有通道注意力的特征图
Figure GDA0003551325250000038
(3)、将带有位置注意力和通道注意力的特征图进行特征融合;
将带有位置注意力的特征图
Figure GDA0003551325250000039
和通道注意力的特征图
Figure GDA00035513252500000310
通过执行逐元素相加来完成特征融合,再通过一个1×1的卷积层,从而输出融合后的特征图
Figure GDA00035513252500000311
同理,按照上述方法对
Figure GDA00035513252500000312
Figure GDA00035513252500000313
进行特征融合后,得到特征图
Figure GDA00035513252500000314
(4)、提取特征图
Figure GDA00035513252500000315
的前景原型与背景原型并合成
(4.1)、设置类别集合B={1,2,…,j,…,b},总类别数为b;从所有的特征图
Figure GDA00035513252500000316
中提取每个类别下的前景原型;
Figure GDA00035513252500000317
其中,
Figure GDA00035513252500000318
表示类别j的第k张特征图
Figure GDA00035513252500000319
在(x,y)处的向量,其维度为C×1×1;
Figure GDA00035513252500000320
表示类别j的第k张特征图
Figure GDA00035513252500000321
在(x,y)处的给定掩码值;
Figure GDA00035513252500000322
为指示函数,当
Figure GDA00035513252500000323
时,指示函数的取值为1,否则为0;
(4.2)、从所有的特征图
Figure GDA00035513252500000324
中提取背景原型;
Figure GDA00035513252500000325
其中,g代表背景;
(4.3)、将前景原型与背景原型合成原型集合Ps,Ps={Ps,j|j∈B}∪{Ps,g};
(5)、在特征图
Figure GDA00035513252500000326
中计算每个像素位置最终类别所属的掩码值;
(5.1)、利用余弦距离计算公式计算特征图
Figure GDA00035513252500000327
中每个位置(x,y)处的向量与原型集合中各原型之间的距离
Figure GDA00035513252500000328
再通过softmax来计算每个类别下的概率;
Figure GDA0003551325250000041
其中,α为权衡因子,
Figure GDA0003551325250000042
表示类别j下特征图
Figure GDA0003551325250000043
在(x,y)处的向量;
(5.2)、通过argmax方法计算每个像素位置最终类别所属的预测掩码值;
Figure GDA0003551325250000044
(6)、根据掩码值
Figure GDA0003551325250000045
提取特征图
Figure GDA0003551325250000046
的前景原型与背景原型并合成;
(6.1)、从特征图
Figure GDA0003551325250000047
中提取每个类别下的前景原型;
Figure GDA0003551325250000048
(6.2)、从特征图
Figure GDA0003551325250000049
中提取背景原型;
Figure GDA00035513252500000410
(6.3)、将前景原型与背景原型合成原型集合Pq,Pq={Pq,j|j∈B}∪{Pq,g};
(7)、在所有的特征图
Figure GDA00035513252500000411
计算每个位置最终类别所属的掩码值;
(7.1)、利用余弦距离计算公式计算特征图
Figure GDA00035513252500000412
中每个位置(x,y)处的向量与原型集合中各原型之间的距离
Figure GDA00035513252500000413
再通过softmax计算每个类别下的概率;
Figure GDA00035513252500000414
其中,α为权衡因子;
(7.2)、通过argmax方法计算每个位置最终类别所属的预测掩码值;
Figure GDA00035513252500000415
(8)、采用反向传播对特征提取的卷积神经网络的权重进行更新,得到用于特征提取的标准卷积神经网络;
(8.1)、根据预测掩码值
Figure GDA00035513252500000416
构建损失函数Lseg
Figure GDA0003551325250000051
其中,
Figure GDA0003551325250000052
表示类别j下特征图
Figure GDA0003551325250000053
在(x,y)处的给定掩码值;
(8.2)、根据预测掩码值
Figure GDA0003551325250000054
构建损失函数Lq-s
Figure GDA0003551325250000055
其中,N表示特征图
Figure GDA0003551325250000056
中像素点数目;
(8.3)、定义总损失函数L=Lseg+λLq-s,λ为平衡因子;
(8.4)、先通过对总损失函数L进行梯度求解,再判断然后用反向传播算法对用于特征提取的卷积神经网络的权重进行更新,然后选取下一个训练任务,以更新后的网络权重继续训练卷积神经网络,当总损失函数L达到最小时完成训练,从而得到标准卷积神经网络模型;
(9)、利用标准卷积神经网络模型对待分析文档进行版面分析
将待分析文档以图像形式输入至标准卷积神经网络模型,从而输出每个位置对应的掩码值,然后按照掩码值划分每个位置对应的类别,将同一类别的位置划分为同一板块,表示这些位置对应的像素点属于同一板块。
本发明的发明目的是这样实现的:
本发明基于度量学习的少样本文档版面分析方法,通过提取的文档图像的原始特征图来构建不同区域的位置注意力特征以及通道注意力特征,利用卷积网络的融合能够充分利用这些特征图中不同区域的表征特征;同时,以融合得到的表征特征来进行原型构建,以及利用分割得到的结果采用对齐操作,从而达到利用少量的数据来进行文档内容分割,同时提高分割精度。
同时,本发明基于度量学习的少样本文档版面分析方法还具有以下有益效果:
(1)、根据特征图中当前位置与全局位置之间的关系,构建位置注意力特征来增强模型对于全局信息的掌控,用来解决原有图像处理只关注当前位置的周围局部的信息之间的关系,同时利用位置与通道注意力特征的融合来进一步丰富提取到的特征内容。
(2)、根据特征图中当前通道与其他通道之间的关系,构建通道注意力特征来增强模型对于特征图中整体通道信息的掌控,用来解决不同通道所表征的特征之间过于相似的问题,能够有效地增大不同通道所表征的特点之间的差异,同时利用位置与通道注意力特征的融合来进一步丰富提取到的特征内容。
(3)、在原有模型的训练步骤中,加入了对齐操作。在训练过程中,模型得到分割结果后,通过一次对齐操作,让模型能够充分理解当前原型的构建与真实标注之间的差异,进行对特征提取和原型的构建添加一个约束条件。由于对齐操作只会在训练时使用,不会影响模型的推理速度。
附图说明
图1是本发明基于度量学习的少样本文档版面分析方法流程图;
图2是对原始特征进行提取位置注意力特征的结构图;
图3是对原始特征进行提取通道注意力特征的结构图;
图4是利用原型计算每个位置掩码值的结构图;
图5是本发明基于度量学习的少样本文档版面分析方法框架图;
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
实施例
为了方便描述,先对具体实施方式中出现的相关专业术语进行说明:
Support图像:支持图像
Query图像:查询图像
COS(cosine):余弦距离
VGG-16(Visual Geometry Group Network-16):视觉几何群网络
RGB(Red-Green-Blue):RGB色彩模式
Maxpool:最大池化
Conv(convolution):卷积
Reshape:重塑
Transpose:转置
Softmax:对数函数
Argmax:参数最大函数
k-shot:k张图片
DSSE-200(Document semantic structure extraction):文档语义结构提取数据集
Layout Analysis Dataset:布局分析数据集
PASCAL-5i:PASCAL-5i数据集
SG-One(Similarity guidance network for one-shot semanticsegmentation):一次语义分割的相似性指导网络
图1是本发明基于度量学习的少样本文档版面分析方法流程图。
在本实施例中,结合图5对本发明一种基于度量学习的少样本文档版面分析方法进行展开说明,具体如图1所示,包括以下步骤:
S0、构建训练集
从现有的多个文档中下载大量的support图像与query图像,其中,support图像用来对文档版面分析进行指导,query图像为实际文档版面分析对象,每K张support图像和一张query图像作为单个训练任务,在每一张support图像中,标记有每个位置与给定掩码的配对组合,通过给定掩码值标记出support图像中每个位置的类别;在每一张query图像中,同样标记有每个位置与给定掩码的配对组合,通过给定掩码值标记出query图像中每个位置的类别;
S1、特征提取
文档图像通常是由RGB三个颜色通道进行存储的,不适合直接进行图像分割。因此,需要首先对文档的图像利用卷积网络进行特征提取;
S1.1、随机选取一个训练任务输入至卷积神经网络;
S1.2、K张support图像输入后,利用卷积神经网络提取每一张support图像的原始特征图,记为
Figure GDA0003551325250000071
其中,s代表support图像,k=1,2,…,K,C、H、W分别表示原始特征图的通道数、高度和宽度;
在本实施例中,采用的是VGG-16作为基础卷积网络骨架来提取图像的特征,其中,网络的前5个卷积块作为主要的特征提取层,同时,maxpool4层的步长设置为1。将conv5块替换为空洞卷积,并设置空洞为2;
S1.3、单张query图像输入后,利用卷积网络提取单张query图像的原始特征图,记为
Figure GDA0003551325250000081
其中,q代表query图像;
S2、生成带有位置注意力的特征图和带有通道注意力的特征图;
文档版面的内容通常由于其位置不同而所属与不同的类别,例如:考虑表格中的文字和正文段落中的内容,这二者之间的文字字体和文字大小都极为相似。如果仅仅靠分类来对不同区域进行区分是很难得。
所以本实施例中构造了位置注意力模块和通道注意力模块,通过这两个模块来对原始特征图来提取出包含位置注意力和通道注意力特征图。
S2.1、如图2所示,对原始特征图进行提取位置注意力特征图的操作方法如下:将每一张原始特征图
Figure GDA0003551325250000082
进行一次reshape操作,使
Figure GDA0003551325250000083
的维度由C×H×W转换为C×(HW),记新的特征图为
Figure GDA0003551325250000084
再次对
Figure GDA0003551325250000085
进行一次reshape操作将原始特征图维度C×H×W转换为C×(HW),然后再进行一次transpose操作将维度进行交换为(HW)×C,记新的特征图为
Figure GDA0003551325250000086
S2.2、位置注意力模块用来对原始特征图进行提取富含位置信息的特征图,因此,我们将
Figure GDA0003551325250000087
Figure GDA0003551325250000088
进行矩阵乘法操作得到矩阵
Figure GDA0003551325250000089
再将
Figure GDA00035513252500000810
Figure GDA00035513252500000811
进行矩阵乘法操作得到矩阵
Figure GDA00035513252500000812
然后对
Figure GDA00035513252500000813
进行reshape操作,将其维度恢复为C×H×W,最后再与
Figure GDA00035513252500000814
相加,得到带有位置注意力的特征图
Figure GDA00035513252500000815
具有位置注意力信息的特征图在进行卷积推理时,会尽可能多地注意当前位置与全局位置之间的关系,能够有效地对不同区域进行区分;
S2.3、如图3所示,对原始特征图进行提取通道注意特征图的操作方法如下:通道注意力模块用来对原始特征图进行提取富含通道信息的特征图,因此,我们将
Figure GDA00035513252500000816
Figure GDA00035513252500000817
进行矩阵乘法操作得到矩阵
Figure GDA00035513252500000818
再将
Figure GDA00035513252500000819
Figure GDA00035513252500000820
进行矩阵乘法操作得到矩阵
Figure GDA00035513252500000821
通过对
Figure GDA00035513252500000822
进行reshape操作,将其维度恢复为C×H×W,最后再与
Figure GDA00035513252500000823
相加,得到带有通道注意力的特征图
Figure GDA00035513252500000824
不同的通道表示不同风格的特征。具有通道注意力信息的特征图在进行卷积推理时,会尽可能多地注意当前特征图通道与其他通道之间的关系,能够有效的整合和区分不同通道的特征;
S2.4、同理,按照步骤S2.1-S2.3的方法对原始特征图
Figure GDA0003551325250000091
进行处理,得到带有位置注意力的特征图
Figure GDA0003551325250000092
和带有通道注意力的特征图
Figure GDA0003551325250000093
S3、将带有位置注意力和通道注意力的特征图进行特征融合;
将带有位置注意力的特征图
Figure GDA0003551325250000094
和通道注意力的特征图
Figure GDA0003551325250000095
通过执行逐元素相加来完成特征融合,再通过一个1×1的卷积层,从而输出融合后的特征图
Figure GDA0003551325250000096
同理,按照上述方法对
Figure GDA0003551325250000097
Figure GDA0003551325250000098
进行特征融合后,得到特征图
Figure GDA0003551325250000099
S4、提取特征图
Figure GDA00035513252500000910
的前景原型与背景原型并合成
原有的推理过程是利用已有的分割标注样例来构造原型,再对待分割的文档进行处理。但如果仅仅包含这些步骤会导致一些问题:如果模型构造原型时出错,则会导致对后续的文档分割相应出错。因为没有对构造原型时进行相应的约束,原型的构造适合与否都很难进行约束。
S4.1、设置类别集合B={1,2,…,j,…,b},总类别数为b;从所有的特征图
Figure GDA00035513252500000911
中提取每个类别下的前景原型;
Figure GDA00035513252500000912
其中,
Figure GDA00035513252500000913
表示类别j的第k张特征图
Figure GDA00035513252500000914
在(x,y)处的向量,其维度为C×1×1;
Figure GDA00035513252500000915
表示类别j的第k张特征图
Figure GDA00035513252500000916
在(x,y)处的给定掩码值;
Figure GDA00035513252500000917
为指示函数,当
Figure GDA00035513252500000918
时,指示函数的取值为1,否则为0;
S4.2、从所有的特征图
Figure GDA00035513252500000919
中提取背景原型;
Figure GDA00035513252500000920
其中,g代表背景;
S4.3、将前景原型与背景原型合成原型集合Ps,Ps={Ps,j|j∈B}∪{Ps,g};
S5、在特征图
Figure GDA00035513252500000921
中计算每个位置最终类别所属的掩码值;
如图4所示,通过原型计算掩码值的具体操作如下:将query图像的特征图与原型计算距离,通过对文档分割的结果进行对齐操作,其中,对齐操作是指:通过对模型的分割结果作为新的标注样例来构造新的原型,然后对已经有分割标注的样例进行重新分割。通过比较重新分割的结果和原有的标注来判断模型的原型构建是否合理。下面采用逆向操作进行优化原型构建;
S5.1、利用余弦距离计算公式计算特征图
Figure GDA0003551325250000101
中每个位置(x,y)处的向量与原型集合中各原型之间的距离
Figure GDA0003551325250000102
再通过softmax来计算每个类别下的概率;
Figure GDA0003551325250000103
其中,α为权衡因子,
Figure GDA0003551325250000104
表示类别j下特征图
Figure GDA0003551325250000105
在(x,y)处的向量;
S5.2、通过argmax方法计算每个像素位置最终类别所属的预测掩码值;
Figure GDA0003551325250000106
S6、根据掩码值
Figure GDA0003551325250000107
提取特征图
Figure GDA0003551325250000108
的前景原型与背景原型并合成;
在本实施例中,通过对齐操作,将分割得到的结果重新提取特征,得到新的原型,然后计算原始特征图每个位置与新原型的距离;
S6.1、从特征图
Figure GDA0003551325250000109
中提取每个类别下的前景原型;
Figure GDA00035513252500001010
S6.2、从特征图
Figure GDA00035513252500001011
中提取背景原型;
Figure GDA00035513252500001012
S6.3、将前景原型与背景原型合成原型集合Pq,Pq={Pq,j|j∈B}∪{Pq,g};
S7、在所有的特征图
Figure GDA00035513252500001013
计算每个位置最终类别所属的预测掩码值;
S7.1、利用余弦距离计算公式计算特征图
Figure GDA00035513252500001014
中每个位置(x,y)处的向量与原型集合中各原型之间的距离
Figure GDA00035513252500001015
再通过softmax计算每个类别下的概率;
Figure GDA0003551325250000111
其中,α为权衡因子;
S7.2、通过argmax方法计算每个位置最终类别所属的预测掩码值;
Figure GDA0003551325250000112
S8、采用反向传播对特征提取的卷积神经网络的权重进行更新,得到用于特征提取的标准卷积神经网络;
S8.1、根据预测掩码值
Figure GDA0003551325250000113
构建损失函数Lseg
Figure GDA0003551325250000114
其中,
Figure GDA0003551325250000115
表示类别j下特征图
Figure GDA0003551325250000116
在(x,y)处的给定掩码值;
S8.2、根据预测掩码值
Figure GDA0003551325250000117
构建损失函数Lq-s
Figure GDA0003551325250000118
其中,N表示特征图
Figure GDA0003551325250000119
中像素点数目;
S8.3、定义总损失函数L=Lseg+λLq-s,λ为平衡因子;
S8.4、先通过对总损失函数L进行梯度求解,再判断然后用反向传播算法对用于特征提取的卷积神经网络的权重进行更新,然后选取下一个训练任务,以更新后的网络权重继续训练卷积神经网络,当总损失函数L达到最小时完成训练,从而得到标准卷积神经网络模型;
S9、利用标准卷积神经网络模型对待分析文档进行版面分析
将待分析文档以图像形式输入至标准卷积神经网络模型,从而输出每个位置对应的掩码值,然后按照掩码值划分每个位置对应的类别,将同一类别的位置划分为同一板块,表示这些位置对应的像素点属于同一板块。
采用k-shot指标来评估我们的模型。k-shot是指在训练和测试的时候在对support图像构建原型时所提供的原始图像的张数。在本实例中,k分别为1和5。
在本实例中,使用到的数据集包括DSSE-200、Layout Analysis Dataset以及PASCAL-5i。具体的,DSSE-200数据集包含200张图像,其中的文档内容选自杂志和学术论文;Layout Analysis Dataset从实际文档中选择多个版面页面作为数据,从而反映出版面分析中的各种挑战,尤其是杂志以及技术或科学出版物;PASCAL-5i包含20个类别,在本实例中用来起到增加类别多样性的作用,只是用于训练,在测试时不使用此数据集。
具体的,我们将文档的内容分类了6个类别:图片、表格、标题、章节、列表和段落。我们采用将6个类别分为两部分,每一部分分别3个类,同时,当一个部分用作训练时,另一个部分用作测试。我们在1-shot条件下通过比较使用或不适用注意力模块的结果,以及与一个需要大量数据进行训练的模型进行对比,测试比较结果如下表1所示,其中基础方法表示不使用注意力模块,直接使用特征提取网络得到的特征图:
方法 分割1 分割2 均值
基础方法 15.6 20.0 20.8
加入自注意力 17.1 30.1 23.6
SG-One 9.1 27.3 18.2
表1
从表1中可以看出,本发明加入自注意力机制后,在原有基础模型方法上平均效果提升了2.6,同时在于传统的需要大数据量的分割方法SG-One比较,平均效果提升了5.4,可以看出使用了注意力模块可以在基本特征提取网络的基础桑更好地提高模型的输出结果。同时,可以看到当一个需要大量数据进行训练的模型在当前训练数据较少的数据集上的效果较差,但我们的方法很好的克服了这个问题,测试结果有了很大的提升。
此外,我们还对使用不同数量的support图像进行训练并测试,测试比较结果如下表2所示:
方法 分割1 分割2 均值
1-shot 22.0 35.6 28.8
5-shot 24.9 38.4 31.7
表2
从表2可以看出,当把suport图像的训练张数从1张提高到5张时,平均效果提升了2.9,表明适当提高训练时support图像的数量对结果有很好的提升,同时也说明了模型不需要依赖大量的训练数据。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (1)

1.一种基于度量学习的少样本文档版面分析方法,其特征在于,包括以下步骤:
(0)、构建训练集
从现有的多个文档中下载大量的support图像与query图像,其中,每K张support图像和一张query图像作为单个训练任务,在每一张support图像中,标记有每个位置与给定掩码的配对组合,通过给定掩码值标记出support图像中每个位置的类别;在每一张query图像中,同样标记有每个位置与给定掩码的配对组合,通过给定掩码值标记出query图像中每个位置的类别;
(1)、特征提取
(1.1)、随机选取一个训练任务输入至卷积神经网络;
(1.2)、K张support图像输入后,利用卷积神经网络提取每一张support图像的原始特征图,记为
Figure FDA0003551325240000011
其中,s代表support图像,k=1,2,…,K,C、H、W分别表示原始特征图的通道数、高度和宽度;
(1.3)、单张query图像输入后,利用卷积网络提取单张query图像的原始特征图,记为
Figure FDA0003551325240000012
其中,q代表query图像;
(2)、生成带有位置注意力的特征图和带有通道注意力的特征图;
(2.1)、将每一张原始特征图
Figure FDA0003551325240000013
进行一次reshape操作,使
Figure FDA0003551325240000014
的维度由C×H×W转换为C×(HW),记新的特征图为
Figure FDA0003551325240000015
再次对
Figure FDA0003551325240000016
进行一次reshape操作将原始特征图维度C×H×W转换为C×(HW),然后再进行一次transpose操作将维度进行交换为(HW)×C,记新的特征图为
Figure FDA0003551325240000017
(2.2)、将
Figure FDA0003551325240000018
Figure FDA0003551325240000019
进行矩阵乘法操作得到矩阵
Figure FDA00035513252400000110
再将
Figure FDA00035513252400000111
Figure FDA00035513252400000112
进行矩阵乘法操作得到矩阵
Figure FDA00035513252400000113
然后对
Figure FDA00035513252400000114
进行reshape操作,将其维度恢复为C×H×W,最后再与
Figure FDA00035513252400000115
相加,得到带有位置注意力的特征图
Figure FDA00035513252400000116
(2.3)将
Figure FDA00035513252400000117
Figure FDA00035513252400000118
进行矩阵乘法操作得到矩阵
Figure FDA00035513252400000119
再将
Figure FDA00035513252400000120
Figure FDA00035513252400000121
进行矩阵乘法操作得到矩阵
Figure FDA00035513252400000122
通过对
Figure FDA00035513252400000123
进行reshape操作,将其维度恢复为C×H×W,最后再与
Figure FDA00035513252400000124
相加,得到带有通道注意力的特征图
Figure FDA0003551325240000021
(2.4)、同理,按照步骤(2.1)-(2.3)的方法对原始特征图
Figure FDA0003551325240000022
进行处理,得到带有位置注意力的特征图
Figure FDA0003551325240000023
和带有通道注意力的特征图
Figure FDA0003551325240000024
(3)、将带有位置注意力和通道注意力的特征图进行特征融合;
将带有位置注意力的特征图
Figure FDA0003551325240000025
和通道注意力的特征图
Figure FDA0003551325240000026
通过执行逐元素相加来完成特征融合,再通过一个1×1的卷积层,从而输出融合后的特征图
Figure FDA0003551325240000027
同理,按照上述方法对
Figure FDA0003551325240000028
Figure FDA0003551325240000029
进行特征融合后,得到特征图
Figure FDA00035513252400000210
(4)、提取特征图
Figure FDA00035513252400000211
的前景原型与背景原型并合成
(4.1)、设置类别集合B={1,2,…,j,…,b},总类别数为b;从所有的特征图
Figure FDA00035513252400000212
中提取每个类别下的前景原型;
Figure FDA00035513252400000213
其中,
Figure FDA00035513252400000214
表示类别j的第k张特征图
Figure FDA00035513252400000215
在(x,y)处的向量,其维度为C×1×1;
Figure FDA00035513252400000216
表示类别j的第k张特征图
Figure FDA00035513252400000217
在(x,y)处的给定掩码值;
Figure FDA00035513252400000218
为指示函数,当
Figure FDA00035513252400000219
时,指示函数的取值为1,否则为0;
(4.2)、从所有的特征图
Figure FDA00035513252400000220
中提取背景原型;
Figure FDA00035513252400000221
其中,g代表背景;
(4.3)、将前景原型与背景原型合成原型集合Ps,Ps={Ps,j|j∈B}∪{Ps,g};
(5)、在特征图
Figure FDA00035513252400000222
中计算每个像素位置最终类别所属的掩码值;
(5.1)、利用余弦距离计算公式计算特征图
Figure FDA00035513252400000223
中每个位置(x,y)处的向量与原型集合中各原型之间的距离
Figure FDA00035513252400000224
再通过softmax来计算每个类别下的概率;
Figure FDA00035513252400000225
其中,α为权衡因子,
Figure FDA0003551325240000031
表示类别j下特征图
Figure FDA0003551325240000032
在(x,y)处的向量;
(5.2)、通过argmax方法计算每个像素位置最终类别所属的预测掩码值;
Figure FDA0003551325240000033
(6)、根据掩码值
Figure FDA0003551325240000034
提取特征图
Figure FDA0003551325240000035
的前景原型与背景原型并合成;
(6.1)、从特征图
Figure FDA0003551325240000036
中提取每个类别下的前景原型;
Figure FDA0003551325240000037
(6.2)、从特征图
Figure FDA0003551325240000038
中提取背景原型;
Figure FDA0003551325240000039
(6.3)、将前景原型与背景原型合成原型集合Pq,Pq={Pq,j|j∈B}∪{Pq,g};
(7)、在所有的特征图
Figure FDA00035513252400000310
计算每个位置最终类别所属的掩码值;
(7.1)、利用余弦距离计算公式计算特征图
Figure FDA00035513252400000311
中每个位置(x,y)处的向量与原型集合中各原型之间的距离
Figure FDA00035513252400000312
再通过softmax计算每个类别下的概率;
Figure FDA00035513252400000313
其中,α为权衡因子;
(7.2)、通过argmax方法计算每个位置最终类别所属的预测掩码值;
Figure FDA00035513252400000314
(8)、采用反向传播对特征提取的卷积神经网络的权重进行更新,得到用于特征提取的标准卷积神经网络;
(8.1)、根据预测掩码值
Figure FDA00035513252400000315
构建损失函数Lseg
Figure FDA00035513252400000316
其中,
Figure FDA00035513252400000317
表示类别j下特征图
Figure FDA00035513252400000318
在(x,y)处的给定掩码值;
(8.2)、根据预测掩码值
Figure FDA00035513252400000319
构建损失函数Lq-s
Figure FDA0003551325240000041
其中,N表示特征图
Figure FDA0003551325240000042
中像素点数目;
(8.3)、定义总损失函数L=Lseg+λLq-s,λ为平衡因子;
(8.4)、先通过对总损失函数L进行梯度求解,再判断然后用反向传播算法对用于特征提取的卷积神经网络的权重进行更新,然后选取下一个训练任务,以更新后的网络权重继续训练卷积神经网络,当总损失函数L达到最小时完成训练,从而得到标准卷积神经网络模型;
(9)、利用标准卷积神经网络模型对待分析文档进行版面分析
将待分析文档以图像形式输入至标准卷积神经网络模型,从而输出每个位置对应的掩码值,然后按照掩码值划分每个位置对应的类别,将同一类别的位置划分为同一板块,表示这些位置对应的像素点属于同一板块。
CN202010884195.6A 2020-08-28 2020-08-28 一种基于度量学习的少样本文档版面分析方法 Active CN112069961B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010884195.6A CN112069961B (zh) 2020-08-28 2020-08-28 一种基于度量学习的少样本文档版面分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010884195.6A CN112069961B (zh) 2020-08-28 2020-08-28 一种基于度量学习的少样本文档版面分析方法

Publications (2)

Publication Number Publication Date
CN112069961A CN112069961A (zh) 2020-12-11
CN112069961B true CN112069961B (zh) 2022-06-14

Family

ID=73659516

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010884195.6A Active CN112069961B (zh) 2020-08-28 2020-08-28 一种基于度量学习的少样本文档版面分析方法

Country Status (1)

Country Link
CN (1) CN112069961B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113052209B (zh) * 2021-03-10 2022-04-01 天津城建大学 融合胶囊相似性的单样本语义分割方法
CN113011337B (zh) * 2021-03-19 2022-08-30 山东大学 一种基于深度元学习的汉字字库生成方法及系统
CN114581425B (zh) * 2022-03-10 2022-11-01 四川大学 一种基于深度神经网络的心肌段缺损图像处理方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106096532A (zh) * 2016-06-03 2016-11-09 山东大学 一种基于张量联立判别分析的跨视角步态识别方法
CN106096528A (zh) * 2016-06-03 2016-11-09 山东大学 一种基于二维耦合边距Fisher分析的跨视角步态识别方法
CN107330397A (zh) * 2017-06-28 2017-11-07 苏州经贸职业技术学院 一种基于大间隔相对距离度量学习的行人重识别方法
CN110427813A (zh) * 2019-06-24 2019-11-08 中国矿业大学 基于姿态指导行人图像生成的孪生生成式对抗网络的行人重识别方法
CN110866915A (zh) * 2019-11-22 2020-03-06 郑州智利信信息技术有限公司 基于度量学习的圆形砚台质量检测方法
CN110879989A (zh) * 2019-11-22 2020-03-13 四川九洲电器集团有限责任公司 基于小样本机器学习模型的ads-b信号目标识别方法
CN111476292A (zh) * 2020-04-03 2020-07-31 北京全景德康医学影像诊断中心有限公司 医学图像分类处理人工智能的小样本元学习训练方法
CN111507213A (zh) * 2020-04-03 2020-08-07 北京三快在线科技有限公司 图像识别方法、装置、存储介质及电子设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106096532A (zh) * 2016-06-03 2016-11-09 山东大学 一种基于张量联立判别分析的跨视角步态识别方法
CN106096528A (zh) * 2016-06-03 2016-11-09 山东大学 一种基于二维耦合边距Fisher分析的跨视角步态识别方法
CN107330397A (zh) * 2017-06-28 2017-11-07 苏州经贸职业技术学院 一种基于大间隔相对距离度量学习的行人重识别方法
CN110427813A (zh) * 2019-06-24 2019-11-08 中国矿业大学 基于姿态指导行人图像生成的孪生生成式对抗网络的行人重识别方法
CN110866915A (zh) * 2019-11-22 2020-03-06 郑州智利信信息技术有限公司 基于度量学习的圆形砚台质量检测方法
CN110879989A (zh) * 2019-11-22 2020-03-13 四川九洲电器集团有限责任公司 基于小样本机器学习模型的ads-b信号目标识别方法
CN111476292A (zh) * 2020-04-03 2020-07-31 北京全景德康医学影像诊断中心有限公司 医学图像分类处理人工智能的小样本元学习训练方法
CN111507213A (zh) * 2020-04-03 2020-08-07 北京三快在线科技有限公司 图像识别方法、装置、存储介质及电子设备

Also Published As

Publication number Publication date
CN112069961A (zh) 2020-12-11

Similar Documents

Publication Publication Date Title
CN112069961B (zh) 一种基于度量学习的少样本文档版面分析方法
US10963632B2 (en) Method, apparatus, device for table extraction based on a richly formatted document and medium
EP2741254B1 (en) Color determination device, color determination system, color determination method, information recording medium, and program
CN108830209B (zh) 基于生成对抗网络的遥感图像道路提取方法
CN110569738B (zh) 基于密集连接网络的自然场景文本检测方法、设备和介质
CN103810299B (zh) 基于多特征融合的图像检索方法
Kopczewska Applied spatial statistics and econometrics: data analysis in R
CN111914107B (zh) 一种基于多通道注意力区域扩展的实例检索方法
CN102262642B (zh) 一种Web图像搜索引擎及其实现方法
CN111489357A (zh) 一种图像分割方法、装置、设备及存储介质
Yang et al. TTL-IQA: Transitive transfer learning based no-reference image quality assessment
CN113487629B (zh) 一种基于结构化场景和文本描述的图像属性编辑方法
CN106203483A (zh) 一种基于语义相关多模态映射方法的零样本图像分类方法
CN111428457A (zh) 数据表的自动格式化
Richter et al. (Input) size matters for CNN classifiers
CN111931867B (zh) 基于轻量级模型的新冠肺炎x射线图像分类方法及系统
CN111739037A (zh) 一种针对室内场景rgb-d图像的语义分割方法
CN101344928B (zh) 用于确定图像区域和对图像进行分类的方法和设备
CN115359304A (zh) 一种面向单幅图像特征分组的因果不变性学习方法及系统
Bach et al. Analyzing classifiers: Fisher vectors and deep neural networks
Lindner et al. Semantic-improved color imaging applications: It is all about context
Ye et al. A multi-attribute controllable generative model for histopathology image synthesis
CN113920377A (zh) 对图像进行分类的方法、计算机设备、存储介质
CN103530656B (zh) 基于隐结构学习的图像摘要生成方法
Huang Semi-supervised color decomposition for histopathological images using exclusive component analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant