CN112069961A - 一种基于度量学习的少样本文档版面分析方法 - Google Patents

一种基于度量学习的少样本文档版面分析方法 Download PDF

Info

Publication number
CN112069961A
CN112069961A CN202010884195.6A CN202010884195A CN112069961A CN 112069961 A CN112069961 A CN 112069961A CN 202010884195 A CN202010884195 A CN 202010884195A CN 112069961 A CN112069961 A CN 112069961A
Authority
CN
China
Prior art keywords
prototype
feature map
category
feature
characteristic diagram
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010884195.6A
Other languages
English (en)
Other versions
CN112069961B (zh
Inventor
徐行
赖逸
张鹏飞
邵杰
陈李江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202010884195.6A priority Critical patent/CN112069961B/zh
Publication of CN112069961A publication Critical patent/CN112069961A/zh
Application granted granted Critical
Publication of CN112069961B publication Critical patent/CN112069961B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于度量学习的少样本文档版面分析方法,通过提取的文档图像的原始特征图来构建不同区域的位置注意力特征以及通道注意力特征,利用卷积网络的融合能够充分利用这些特征图中不同区域的表征特征;同时,以融合得到的表征特征来进行原型构建,以及利用分割得到的结果采用对齐操作,从而达到利用少量的数据来进行文档内容分割,同时提高分割精度。

Description

一种基于度量学习的少样本文档版面分析方法
技术领域
本发明属于计算机视觉中的语义分割技术领域,更为具体地讲,涉及一种基于度量学习的少样本文档版面分析方法。
背景技术
在移动互联时代,电子文档的获取和分享变得十分方便,对文档版面进行分析能够有效的提取具有价值的信息。随着文档的数量不断增多,文档的内容更加多样,对文档的版面内容进行分析成为语义分割的新趋势。对文档版面分析目标是将文档图像中的不同区域进行分类,得到具有不同标签信息的分割结果。
现有的对文档版面进行分析结果比较好的方法是基于深度网络的语义分割,以深度网络为基础的语义分割方法主要有两种基本的网络结构:
1)全卷积网络FCN:该结构不包含全连接层,使得网络能接受任意尺寸的图像作为输入。同时使用了池化层来减少特征图的尺寸来增大感受野,以及能够增大特征图尺寸的反卷积层,用以提高结果的准确性。但是由于池化层减小了特征图的尺寸使得网络会丢失部分空间信息;
2)空洞卷积dilated convolution:空洞卷积不使用池化层,而是通过增大卷积网络的卷积核来变相地减小特征图的尺寸,同时不会丢失图像的空间信息。
虽然基于上述两种方法以及衍生了许多新的效果显著的深度语义分割网络,但是这些网络都存在同一个严重的问题:这些网络都需要大量的精细标注的数据用来训练。但是训练数据需要的是逐像素的标记,这使得训练数据的获取是一个十分耗时费力的事,尤其是在文档内容比较复杂的情况下。一种延缓的办法是使用弱监督学习进行训练,但是任然需要许多的弱标记的训练数据。
少样本文档版面分析采用的方法主要受到元学习和少样本学习的启发,目标是在具有很少的精细标记文档样本的前提下进行文档分割。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于度量学习的少样本文档版面分析方法,通过度量学习方法降低文档版面分析时需要的大量数据依赖,同时提高文档内容分割精度。
为实现上述发明目的,本发明一种基于度量学习的少样本文档版面分析方法,其特征在于,包括以下步骤:
(0)、构建训练集
从现有的多个文档中下载大量的support图像与query图像,其中,每K张support图像和一张query图像作为单个训练任务,在每一张support图像中,标记有每个位置与给定掩码的配对组合,通过给定掩码值标记出support图像中每个位置的类别;在每一张query图像中,同样标记有每个位置与给定掩码的配对组合,通过给定掩码值标记出query图像中每个位置的类别;
(1)、特征提取
(1.1)、随机选取一个训练任务输入至卷积神经网络;
(1.2)、K张support图像输入后,利用卷积神经网络提取每一张support图像的原始特征图,记为
Figure BDA0002655049930000021
其中,s代表support图像,k=1,2,…,K,C、H、W分别表示原始特征图的通道数、高度和宽度;
(1.3)、单张query图像输入后,利用卷积网络提取单张query图像的原始特征图,记为
Figure BDA0002655049930000022
其中,q代表query图像;
(2)、生成带有位置注意力的特征图和带有通道注意力的特征图;
(2.1)、将每一张原始特征图
Figure BDA0002655049930000023
进行一次reshape操作,使
Figure BDA0002655049930000024
的维度由C×H×W转换为C×(HW),记新的特征图为
Figure BDA0002655049930000025
再次对
Figure BDA0002655049930000026
进行一次reshape操作将原始特征图维度C×H×W转换为C×(HW),然后再进行一次transpose操作将维度进行交换为(HW)×C,记新的特征图为
Figure BDA0002655049930000027
(2.2)、将
Figure BDA0002655049930000028
Figure BDA0002655049930000029
进行矩阵乘法操作得到矩阵
Figure BDA00026550499300000210
再将
Figure BDA00026550499300000211
Figure BDA00026550499300000212
进行矩阵乘法操作得到矩阵
Figure BDA00026550499300000213
然后对
Figure BDA00026550499300000214
进行reshape操作,将其维度恢复为C×H×W,最后再与
Figure BDA00026550499300000215
相加,得到带有位置注意力的特征图
Figure BDA00026550499300000216
(2.3)将
Figure BDA00026550499300000217
Figure BDA00026550499300000218
进行矩阵乘法操作得到矩阵
Figure BDA00026550499300000219
再将
Figure BDA00026550499300000220
Figure BDA0002655049930000031
进行矩阵乘法操作得到矩阵
Figure BDA0002655049930000032
通过对
Figure BDA0002655049930000033
进行reshape操作,将其维度恢复为C×H×W,最后再与
Figure BDA0002655049930000034
相加,得到带有通道注意力的特征图
Figure BDA0002655049930000035
(2.4)、同理,按照步骤(2.1)-(2.3)的方法对原始特征图
Figure BDA0002655049930000036
进行处理,得到带有位置注意力的特征图
Figure BDA0002655049930000037
和带有通道注意力的特征图
Figure BDA0002655049930000038
(3)、将带有位置注意力和通道注意力的特征图进行特征融合;
将带有位置注意力的特征图
Figure BDA0002655049930000039
和通道注意力的特征图
Figure BDA00026550499300000310
通过执行逐元素相加来完成特征融合,再通过一个1×1的卷积层,从而输出融合后的特征图
Figure BDA00026550499300000311
同理,按照上述方法对
Figure BDA00026550499300000312
Figure BDA00026550499300000313
进行特征融合后,得到特征图
Figure BDA00026550499300000314
(4)、提取特征图
Figure BDA00026550499300000315
的前景原型与背景原型并合成
(4.1)、设置类别集合B={1,2,…,j,…,b},总类别数为b;从所有的特征图
Figure BDA00026550499300000316
中提取每个类别下的前景原型;
Figure BDA00026550499300000317
其中,
Figure BDA00026550499300000318
表示类别j的第k张特征图
Figure BDA00026550499300000319
在(x,y)处的向量,其维度为C×1×1;
Figure BDA00026550499300000320
表示类别j的第k张特征图
Figure BDA00026550499300000321
在(x,y)处的给定掩码值;
Figure BDA00026550499300000322
为指示函数,当
Figure BDA00026550499300000323
时,指示函数的取值为1,否则为0;
(4.2)、从所有的特征图
Figure BDA00026550499300000324
中提取背景原型;
Figure BDA00026550499300000325
其中,g代表背景;
(4.3)、将前景原型与背景原型合成原型集合Ps,Ps={Ps,j|j∈B}∪{Ps,g};
(5)、在特征图
Figure BDA00026550499300000326
中计算每个像素位置最终类别所属的掩码值;
(5.1)、利用余弦距离计算公式计算特征图
Figure BDA00026550499300000327
中每个位置(x,y)处的向量与原型集合中各原型之间的距离
Figure BDA00026550499300000328
再通过softmax来计算每个类别下的概率;
Figure BDA0002655049930000041
其中,α为权衡因子,表示类别j下特征图
Figure BDA0002655049930000043
在(x,y)处的向量;
(5.2)、通过argmax方法计算每个像素位置最终类别所属的预测掩码值;
Figure BDA0002655049930000044
(6)、根据掩码值
Figure BDA0002655049930000045
提取特征图
Figure BDA0002655049930000046
的前景原型与背景原型并合成;
(6.1)、从特征图
Figure BDA0002655049930000047
中提取每个类别下的前景原型;
Figure BDA0002655049930000048
(6.2)、从特征图
Figure BDA0002655049930000049
中提取背景原型;
Figure BDA00026550499300000410
(6.3)、将前景原型与背景原型合成原型集合Pq,Pq={Pq,j|j∈B}∪{Pq,g};
(7)、在所有的特征图
Figure BDA00026550499300000411
计算每个位置最终类别所属的掩码值;
(7.1)、利用余弦距离计算公式计算特征图
Figure BDA00026550499300000412
中每个位置(x,y)处的向量与原型集合中各原型之间的距离
Figure BDA00026550499300000413
再通过softmax计算每个类别下的概率;
Figure BDA00026550499300000414
其中,α为权衡因子;
(7.2)、通过argmax方法计算每个位置最终类别所属的预测掩码值;
Figure BDA00026550499300000415
(8)、采用反向传播对特征提取的卷积神经网络的权重进行更新,得到用于特征提取的标准卷积神经网络;
(8.1)、根据预测掩码值
Figure BDA00026550499300000416
构建损失函数Lseg
Figure BDA00026550499300000417
其中,
Figure BDA0002655049930000051
表示类别j下特征图
Figure BDA0002655049930000052
在(x,y)处的给定掩码值;
(8.2)、根据预测掩码值
Figure BDA0002655049930000053
构建损失函数Lq-s
Figure BDA0002655049930000054
其中,N表示特征图
Figure BDA0002655049930000055
中像素点数目;
(8.3)、定义总损失函数L=Lseg+λLq-s,λ为平衡因子;
(8.4)、先通过对总损失函数L进行梯度求解,再判断然后用反向传播算法对用于特征提取的卷积神经网络的权重进行更新,然后选取下一个训练任务,以更新后的网络权重继续训练卷积神经网络,当总损失函数L达到最小时完成训练,从而得到标准卷积神经网络模型;
(9)、利用标准卷积神经网络模型对待分析文档进行版面分析
将待分析文档以图像形式输入至标准卷积神经网络模型,从而输出每个位置对应的掩码值,然后按照掩码值划分每个位置对应的类别,将同一类别的位置划分为同一板块,表示这些位置对应的像素点属于同一板块。
本发明的发明目的是这样实现的:
本发明基于度量学习的少样本文档版面分析方法,通过提取的文档图像的原始特征图来构建不同区域的位置注意力特征以及通道注意力特征,利用卷积网络的融合能够充分利用这些特征图中不同区域的表征特征;同时,以融合得到的表征特征来进行原型构建,以及利用分割得到的结果采用对齐操作,从而达到利用少量的数据来进行文档内容分割,同时提高分割精度。
同时,本发明基于度量学习的少样本文档版面分析方法还具有以下有益效果:
(1)、根据特征图中当前位置与全局位置之间的关系,构建位置注意力特征来增强模型对于全局信息的掌控,用来解决原有图像处理只关注当前位置的周围局部的信息之间的关系,同时利用位置与通道注意力特征的融合来进一步丰富提取到的特征内容。
(2)、根据特征图中当前通道与其他通道之间的关系,构建通道注意力特征来增强模型对于特征图中整体通道信息的掌控,用来解决不同通道所表征的特征之间过于相似的问题,能够有效地增大不同通道所表征的特点之间的差异,同时利用位置与通道注意力特征的融合来进一步丰富提取到的特征内容。
(3)、在原有模型的训练步骤中,加入了对齐操作。在训练过程中,模型得到分割结果后,通过一次对齐操作,让模型能够充分理解当前原型的构建与真实标注之间的差异,进行对特征提取和原型的构建添加一个约束条件。由于对齐操作只会在训练时使用,不会影响模型的推理速度。
附图说明
图1是本发明基于度量学习的少样本文档版面分析方法流程图;
图2是对原始特征进行提取位置注意力特征的结构图;
图3是对原始特征进行提取通道注意力特征的结构图;
图4是利用原型计算每个位置掩码值的结构图;
图5是本发明基于度量学习的少样本文档版面分析方法框架图;
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
实施例
为了方便描述,先对具体实施方式中出现的相关专业术语进行说明:
Support图像:支持图像
Query图像:查询图像
COS(cosine):余弦距离
VGG-16(Visual Geometry Group Network-16):视觉几何群网络
RGB(Red-Green-Blue):RGB色彩模式
Maxpool:最大池化
Conv(convolution):卷积
Reshape:重塑
Transpose:转置
Softmax:对数函数
Argmax:参数最大函数
k-shot:k张图片
DSSE-200(Document semantic structure extraction):文档语义结构提取数据集
Layout Analysis Dataset:布局分析数据集
PASCAL-5i:PASCAL-5i数据集
SG-One(Similarity guidance network for one-shot semanticsegmentation):一次语义分割的相似性指导网络
图1是本发明基于度量学习的少样本文档版面分析方法流程图。
在本实施例中,结合图5对本发明一种基于度量学习的少样本文档版面分析方法进行展开说明,具体如图1所示,包括以下步骤:
S0、构建训练集
从现有的多个文档中下载大量的support图像与query图像,其中,support图像用来对文档版面分析进行指导,query图像为实际文档版面分析对象,每K张support图像和一张query图像作为单个训练任务,在每一张support图像中,标记有每个位置与给定掩码的配对组合,通过给定掩码值标记出support图像中每个位置的类别;在每一张query图像中,同样标记有每个位置与给定掩码的配对组合,通过给定掩码值标记出query图像中每个位置的类别;
S1、特征提取
文档图像通常是由RGB三个颜色通道进行存储的,不适合直接进行图像分割。因此,需要首先对文档的图像利用卷积网络进行特征提取;
S1.1、随机选取一个训练任务输入至卷积神经网络;
S1.2、K张support图像输入后,利用卷积神经网络提取每一张support图像的原始特征图,记为
Figure BDA0002655049930000071
其中,s代表support图像,k=1,2,…,K,C、H、W分别表示原始特征图的通道数、高度和宽度;
在本实施例中,采用的是VGG-16作为基础卷积网络骨架来提取图像的特征,其中,网络的前5个卷积块作为主要的特征提取层,同时,maxpool4层的步长设置为1。将conv5块替换为空洞卷积,并设置空洞为2;
S1.3、单张query图像输入后,利用卷积网络提取单张query图像的原始特征图,记为
Figure BDA0002655049930000081
其中,q代表query图像;
S2、生成带有位置注意力的特征图和带有通道注意力的特征图;
文档版面的内容通常由于其位置不同而所属与不同的类别,例如:考虑表格中的文字和正文段落中的内容,这二者之间的文字字体和文字大小都极为相似。如果仅仅靠分类来对不同区域进行区分是很难得。
所以本实施例中构造了位置注意力模块和通道注意力模块,通过这两个模块来对原始特征图来提取出包含位置注意力和通道注意力特征图。
S2.1、如图2所示,对原始特征图进行提取位置注意力特征图的操作方法如下:将每一张原始特征图
Figure BDA0002655049930000082
进行一次reshape操作,使
Figure BDA0002655049930000083
的维度由C×H×W转换为C×(HW),记新的特征图为
Figure BDA0002655049930000084
再次对
Figure BDA0002655049930000085
进行一次reshape操作将原始特征图维度C×H×W转换为C×(HW),然后再进行一次transpose操作将维度进行交换为(HW)×C,记新的特征图为
Figure BDA0002655049930000086
S2.2、位置注意力模块用来对原始特征图进行提取富含位置信息的特征图,因此,我们将
Figure BDA0002655049930000087
Figure BDA0002655049930000088
进行矩阵乘法操作得到矩阵
Figure BDA0002655049930000089
再将
Figure BDA00026550499300000810
Figure BDA00026550499300000811
进行矩阵乘法操作得到矩阵
Figure BDA00026550499300000812
然后对
Figure BDA00026550499300000813
进行reshape操作,将其维度恢复为C×H×W,最后再与
Figure BDA00026550499300000814
相加,得到带有位置注意力的特征图
Figure BDA00026550499300000815
具有位置注意力信息的特征图在进行卷积推理时,会尽可能多地注意当前位置与全局位置之间的关系,能够有效地对不同区域进行区分;
S2.3、如图3所示,对原始特征图进行提取通道注意特征图的操作方法如下:通道注意力模块用来对原始特征图进行提取富含通道信息的特征图,因此,我们将
Figure BDA00026550499300000816
Figure BDA00026550499300000817
进行矩阵乘法操作得到矩阵
Figure BDA00026550499300000818
再将
Figure BDA00026550499300000819
Figure BDA00026550499300000820
进行矩阵乘法操作得到矩阵
Figure BDA00026550499300000821
通过对
Figure BDA00026550499300000822
进行reshape操作,将其维度恢复为C×H×W,最后再与
Figure BDA00026550499300000823
相加,得到带有通道注意力的特征图
Figure BDA00026550499300000824
不同的通道表示不同风格的特征。具有通道注意力信息的特征图在进行卷积推理时,会尽可能多地注意当前特征图通道与其他通道之间的关系,能够有效的整合和区分不同通道的特征;
S2.4、同理,按照步骤S2.1-S2.3的方法对原始特征图
Figure BDA00026550499300000825
进行处理,得到带有位置注意力的特征图
Figure BDA0002655049930000091
和带有通道注意力的特征图
Figure BDA0002655049930000092
S3、将带有位置注意力和通道注意力的特征图进行特征融合;
将带有位置注意力的特征图
Figure BDA0002655049930000093
和通道注意力的特征图
Figure BDA0002655049930000094
通过执行逐元素相加来完成特征融合,再通过一个1×1的卷积层,从而输出融合后的特征图
Figure BDA0002655049930000095
同理,按照上述方法对
Figure BDA0002655049930000096
Figure BDA0002655049930000097
进行特征融合后,得到特征图
Figure BDA0002655049930000098
S4、提取特征图
Figure BDA0002655049930000099
的前景原型与背景原型并合成
原有的推理过程是利用已有的分割标注样例来构造原型,再对待分割的文档进行处理。但如果仅仅包含这些步骤会导致一些问题:如果模型构造原型时出错,则会导致对后续的文档分割相应出错。因为没有对构造原型时进行相应的约束,原型的构造适合与否都很难进行约束。
S4.1、设置类别集合B={1,2,…,j,…,b},总类别数为b;从所有的特征图
Figure BDA00026550499300000910
中提取每个类别下的前景原型;
Figure BDA00026550499300000911
其中,
Figure BDA00026550499300000912
表示类别j的第k张特征图
Figure BDA00026550499300000913
在(x,y)处的向量,其维度为C×1×1;
Figure BDA00026550499300000914
表示类别j的第k张特征图
Figure BDA00026550499300000915
在(x,y)处的给定掩码值;
Figure BDA00026550499300000916
为指示函数,当
Figure BDA00026550499300000917
时,指示函数的取值为1,否则为0;
S4.2、从所有的特征图
Figure BDA00026550499300000918
中提取背景原型;
Figure BDA00026550499300000919
其中,g代表背景;
S4.3、将前景原型与背景原型合成原型集合Ps,Ps={Ps,j|j∈B}∪{Ps,g};
S5、在特征图
Figure BDA00026550499300000920
中计算每个位置最终类别所属的掩码值;
如图4所示,通过原型计算掩码值的具体操作如下:将query图像的特征图与原型计算距离,通过对文档分割的结果进行对齐操作,其中,对齐操作是指:通过对模型的分割结果作为新的标注样例来构造新的原型,然后对已经有分割标注的样例进行重新分割。通过比较重新分割的结果和原有的标注来判断模型的原型构建是否合理。下面采用逆向操作进行优化原型构建;
S5.1、利用余弦距离计算公式计算特征图
Figure BDA0002655049930000101
中每个位置(x,y)处的向量与原型集合中各原型之间的距离
Figure BDA0002655049930000102
再通过softmax来计算每个类别下的概率;
Figure BDA0002655049930000103
其中,α为权衡因子,
Figure BDA0002655049930000104
表示类别j下特征图
Figure BDA0002655049930000105
在(x,y)处的向量;
S5.2、通过argmax方法计算每个像素位置最终类别所属的预测掩码值;
Figure BDA0002655049930000106
S6、根据掩码值
Figure BDA0002655049930000107
提取特征图
Figure BDA0002655049930000108
的前景原型与背景原型并合成;
在本实施例中,通过对齐操作,将分割得到的结果重新提取特征,得到新的原型,然后计算原始特征图每个位置与新原型的距离;
S6.1、从特征图
Figure BDA0002655049930000109
中提取每个类别下的前景原型;
Figure BDA00026550499300001010
S6.2、从特征图
Figure BDA00026550499300001011
中提取背景原型;
Figure BDA00026550499300001012
S6.3、将前景原型与背景原型合成原型集合Pq,Pq={Pq,j|j∈B}∪{Pq,g};
S7、在所有的特征图
Figure BDA00026550499300001013
计算每个位置最终类别所属的预测掩码值;
S7.1、利用余弦距离计算公式计算特征图
Figure BDA00026550499300001014
中每个位置(x,y)处的向量与原型集合中各原型之间的距离
Figure BDA00026550499300001015
再通过softmax计算每个类别下的概率;
Figure BDA00026550499300001016
其中,α为权衡因子;
S7.2、通过argmax方法计算每个位置最终类别所属的预测掩码值;
Figure BDA0002655049930000111
S8、采用反向传播对特征提取的卷积神经网络的权重进行更新,得到用于特征提取的标准卷积神经网络;
S8.1、根据预测掩码值
Figure BDA0002655049930000112
构建损失函数Lseg
Figure BDA0002655049930000113
其中,
Figure BDA0002655049930000114
表示类别j下特征图
Figure BDA0002655049930000115
在(x,y)处的给定掩码值;
S8.2、根据预测掩码值
Figure BDA0002655049930000116
构建损失函数Lq-s
Figure BDA0002655049930000117
其中,N表示特征图
Figure BDA0002655049930000118
中像素点数目;
S8.3、定义总损失函数L=Lseg+λLq-s,λ为平衡因子;
S8.4、先通过对总损失函数L进行梯度求解,再判断然后用反向传播算法对用于特征提取的卷积神经网络的权重进行更新,然后选取下一个训练任务,以更新后的网络权重继续训练卷积神经网络,当总损失函数L达到最小时完成训练,从而得到标准卷积神经网络模型;
S9、利用标准卷积神经网络模型对待分析文档进行版面分析
将待分析文档以图像形式输入至标准卷积神经网络模型,从而输出每个位置对应的掩码值,然后按照掩码值划分每个位置对应的类别,将同一类别的位置划分为同一板块,表示这些位置对应的像素点属于同一板块。
采用k-shot指标来评估我们的模型。k-shot是指在训练和测试的时候在对support图像构建原型时所提供的原始图像的张数。在本实例中,k分别为1和5。
在本实例中,使用到的数据集包括DSSE-200、Layout Analysis Dataset以及PASCAL-5i。具体的,DSSE-200数据集包含200张图像,其中的文档内容选自杂志和学术论文;Layout Analysis Dataset从实际文档中选择多个版面页面作为数据,从而反映出版面分析中的各种挑战,尤其是杂志以及技术或科学出版物;PASCAL-5i包含20个类别,在本实例中用来起到增加类别多样性的作用,只是用于训练,在测试时不使用此数据集。
具体的,我们将文档的内容分类了6个类别:图片、表格、标题、章节、列表和段落。我们采用将6个类别分为两部分,每一部分分别3个类,同时,当一个部分用作训练时,另一个部分用作测试。我们在1-shot条件下通过比较使用或不适用注意力模块的结果,以及与一个需要大量数据进行训练的模型进行对比,测试比较结果如下表1所示,其中基础方法表示不使用注意力模块,直接使用特征提取网络得到的特征图:
方法 分割1 分割2 均值
基础方法 15.6 20.0 20.8
加入自注意力 17.1 30.1 23.6
SG-One 9.1 27.3 18.2
表1
从表1中可以看出,本发明加入自注意力机制后,在原有基础模型方法上平均效果提升了2.6,同时在于传统的需要大数据量的分割方法SG-One比较,平均效果提升了5.4,可以看出使用了注意力模块可以在基本特征提取网络的基础桑更好地提高模型的输出结果。同时,可以看到当一个需要大量数据进行训练的模型在当前训练数据较少的数据集上的效果较差,但我们的方法很好的克服了这个问题,测试结果有了很大的提升。
此外,我们还对使用不同数量的support图像进行训练并测试,测试比较结果如下表2所示:
方法 分割1 分割2 均值
1-shot 22.0 35.6 28.8
5-shot 24.9 38.4 31.7
表2
从表2可以看出,当把suport图像的训练张数从1张提高到5张时,平均效果提升了2.9,表明适当提高训练时support图像的数量对结果有很好的提升,同时也说明了模型不需要依赖大量的训练数据。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (1)

1.一种基于度量学习的少样本文档版面分析方法,其特征在于,包括以下步骤:
(0)、构建训练集
从现有的多个文档中下载大量的support图像与query图像,其中,每K张support图像和一张query图像作为单个训练任务,在每一张support图像中,标记有每个位置与给定掩码的配对组合,通过给定掩码值标记出support图像中每个位置的类别;在每一张query图像中,同样标记有每个位置与给定掩码的配对组合,通过给定掩码值标记出query图像中每个位置的类别;
(1)、特征提取
(1.1)、随机选取一个训练任务输入至卷积神经网络;
(1.2)、K张support图像输入后,利用卷积神经网络提取每一张support图像的原始特征图,记为
Figure FDA0002655049920000011
其中,s代表support图像,k=1,2,…,K,C、H、W分别表示原始特征图的通道数、高度和宽度;
(1.3)、单张query图像输入后,利用卷积网络提取单张query图像的原始特征图,记为
Figure FDA0002655049920000012
其中,q代表query图像;
(2)、生成带有位置注意力的特征图和带有通道注意力的特征图;
(2.1)、将每一张原始特征图
Figure FDA0002655049920000013
进行一次reshape操作,使
Figure FDA0002655049920000014
的维度由C×H×W转换为C×(HW),记新的特征图为
Figure FDA0002655049920000015
再次对
Figure FDA0002655049920000016
进行一次reshape操作操作将原始特征图维度C×H×W转换为C×(HW),然后再进行一次transpose操作将维度进行交换为(HW)×C,记新的特征图为
Figure FDA0002655049920000017
(2.2)、将
Figure FDA0002655049920000018
Figure FDA0002655049920000019
进行矩阵乘法操作得到矩阵
Figure FDA00026550499200000110
再将
Figure FDA00026550499200000111
Figure FDA00026550499200000112
进行矩阵乘法操作得到矩阵
Figure FDA00026550499200000113
然后对
Figure FDA00026550499200000114
进行reshape操作,将其维度恢复为C×H×W,最后再与
Figure FDA00026550499200000115
相加,得到带有位置注意力的特征图
Figure FDA00026550499200000116
(2.3)将
Figure FDA00026550499200000117
Figure FDA00026550499200000118
进行矩阵乘法操作得到矩阵
Figure FDA00026550499200000119
再将
Figure FDA00026550499200000120
Figure FDA00026550499200000121
进行矩阵乘法操作得到矩阵
Figure FDA00026550499200000122
通过对
Figure FDA00026550499200000123
进行reshape操作,将其维度恢复为C×H×W,最后再与
Figure FDA00026550499200000124
相加,得到带有通道注意力的特征图
Figure FDA0002655049920000021
(2.4)、同理,按照步骤(2.1)-(2.3)的方法对原始特征图
Figure FDA0002655049920000022
进行处理,得到带有位置注意力的特征图
Figure FDA0002655049920000023
和带有通道注意力的特征图
Figure FDA0002655049920000024
(3)、将带有位置注意力和通道注意力的特征图进行特征融合;
将带有位置注意力的特征图
Figure FDA0002655049920000025
和通道注意力的特征图
Figure FDA0002655049920000026
通过执行逐元素相加来完成特征融合,再通过一个1×1的卷积层,从而输出融合后的特征图
Figure FDA0002655049920000027
同理,按照上述方法对
Figure FDA0002655049920000028
Figure FDA0002655049920000029
进行特征融合后,得到特征图
Figure FDA00026550499200000210
(4)、提取特征图
Figure FDA00026550499200000211
的前景原型与背景原型并合成
(4.1)、设置类别集合B={1,2,…,j,…,b};从所有的特征图
Figure FDA00026550499200000212
中提取每个类别下的前景原型;
Figure FDA00026550499200000213
其中,
Figure FDA00026550499200000214
表示类别j的第k张特征图
Figure FDA00026550499200000215
在(x,y)处的向量,其维度为C×1×1;
Figure FDA00026550499200000216
表示类别j的第k张特征图
Figure FDA00026550499200000217
在(x,y)处的给定掩码值;
Figure FDA00026550499200000218
为指示函数,当
Figure FDA00026550499200000219
时,指示函数的取值为1,否则为0;
(4.2)、从所有的特征图
Figure FDA00026550499200000220
中提取背景原型;
Figure FDA00026550499200000221
其中,g代表背景;
(4.3)、将前景原型与背景原型合成原型集合Ps,Ps={Ps,j|j∈B}∪{Ps,g};
(5)、在特征图
Figure FDA00026550499200000222
中计算每个像素位置最终类别所属的掩码值;
(5.1)、利用余弦距离计算公式计算特征图
Figure FDA00026550499200000223
中每个位置(x,y)处的向量与原型集合中各原型之间的距离
Figure FDA00026550499200000224
再通过softmax来计算每个类别下的概率;
Figure FDA00026550499200000225
其中,α为权衡因子,
Figure FDA0002655049920000031
表示类别j下特征图
Figure FDA0002655049920000032
在(x,y)处的向量;
(5.2)、通过argmax方法计算每个像素位置最终类别所属的预测掩码值;
Figure FDA0002655049920000033
(6)、根据掩码值
Figure FDA0002655049920000034
提取特征图
Figure FDA0002655049920000035
的前景原型与背景原型并合成;
(6.1)、从特征图
Figure FDA0002655049920000036
中提取每个类别下的前景原型;
Figure FDA0002655049920000037
(6.2)、从特征图
Figure FDA0002655049920000038
中提取背景原型;
Figure FDA0002655049920000039
(6.3)、将前景原型与背景原型合成原型集合Pq,Pq={Pq,j|j∈B}∪{Pq,g};
(7)、在所有的特征图
Figure FDA00026550499200000310
计算每个位置最终类别所属的掩码值;
(7.1)、利用余弦距离计算公式计算特征图
Figure FDA00026550499200000311
中每个位置(x,y)处的向量与原型集合中各原型之间的距离
Figure FDA00026550499200000312
再通过softmax计算每个类别下的概率;
Figure FDA00026550499200000313
其中,α为权衡因子;
(7.2)、通过argmax方法计算每个位置最终类别所属的预测掩码值;
Figure FDA00026550499200000314
(8)、采用反向传播对特征提取的卷积神经网络的权重进行更新,得到用于特征提取的标准卷积神经网络;
(8.1)、根据预测掩码值
Figure FDA00026550499200000315
构建损失函数Lseg
Figure FDA00026550499200000316
其中,
Figure FDA00026550499200000317
表示类别j下特征图
Figure FDA00026550499200000318
在(x,y)处的给定掩码值;
(8.2)、根据预测掩码值
Figure FDA00026550499200000319
构建损失函数Lq-s
Figure FDA0002655049920000041
其中,N表示特征图
Figure FDA0002655049920000042
中像素点数目;
(8.3)、定义总损失函数L=Lseg+λLq-s,λ为平衡因子;
(8.4)、先通过对总损失函数L进行梯度求解,再判断然后用反向传播算法对用于特征提取的卷积神经网络的权重进行更新,然后选取下一个训练任务,以更新后的网络权重继续训练卷积神经网络,当总损失函数L达到最小时完成训练,从而得到标准卷积神经网络模型;
(9)、利用标准卷积神经网络模型对待分析文档进行版面分析
将待分析文档以图像形式输入至标准卷积神经网络模型,从而输出每个位置对应的掩码值,然后按照掩码值划分每个位置对应的类别,将同一类别的位置划分为同一板块,表示这些位置对应的像素点属于同一板块。
CN202010884195.6A 2020-08-28 2020-08-28 一种基于度量学习的少样本文档版面分析方法 Active CN112069961B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010884195.6A CN112069961B (zh) 2020-08-28 2020-08-28 一种基于度量学习的少样本文档版面分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010884195.6A CN112069961B (zh) 2020-08-28 2020-08-28 一种基于度量学习的少样本文档版面分析方法

Publications (2)

Publication Number Publication Date
CN112069961A true CN112069961A (zh) 2020-12-11
CN112069961B CN112069961B (zh) 2022-06-14

Family

ID=73659516

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010884195.6A Active CN112069961B (zh) 2020-08-28 2020-08-28 一种基于度量学习的少样本文档版面分析方法

Country Status (1)

Country Link
CN (1) CN112069961B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113011337A (zh) * 2021-03-19 2021-06-22 山东大学 一种基于深度元学习的汉字字库生成方法及系统
CN113052209A (zh) * 2021-03-10 2021-06-29 天津城建大学 融合胶囊相似性的单样本语义分割方法
CN114581425A (zh) * 2022-03-10 2022-06-03 四川大学 一种基于深度神经网络的心肌段缺损图像处理方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106096528A (zh) * 2016-06-03 2016-11-09 山东大学 一种基于二维耦合边距Fisher分析的跨视角步态识别方法
CN106096532A (zh) * 2016-06-03 2016-11-09 山东大学 一种基于张量联立判别分析的跨视角步态识别方法
CN107330397A (zh) * 2017-06-28 2017-11-07 苏州经贸职业技术学院 一种基于大间隔相对距离度量学习的行人重识别方法
CN110427813A (zh) * 2019-06-24 2019-11-08 中国矿业大学 基于姿态指导行人图像生成的孪生生成式对抗网络的行人重识别方法
CN110866915A (zh) * 2019-11-22 2020-03-06 郑州智利信信息技术有限公司 基于度量学习的圆形砚台质量检测方法
CN110879989A (zh) * 2019-11-22 2020-03-13 四川九洲电器集团有限责任公司 基于小样本机器学习模型的ads-b信号目标识别方法
CN111476292A (zh) * 2020-04-03 2020-07-31 北京全景德康医学影像诊断中心有限公司 医学图像分类处理人工智能的小样本元学习训练方法
CN111507213A (zh) * 2020-04-03 2020-08-07 北京三快在线科技有限公司 图像识别方法、装置、存储介质及电子设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106096528A (zh) * 2016-06-03 2016-11-09 山东大学 一种基于二维耦合边距Fisher分析的跨视角步态识别方法
CN106096532A (zh) * 2016-06-03 2016-11-09 山东大学 一种基于张量联立判别分析的跨视角步态识别方法
CN107330397A (zh) * 2017-06-28 2017-11-07 苏州经贸职业技术学院 一种基于大间隔相对距离度量学习的行人重识别方法
CN110427813A (zh) * 2019-06-24 2019-11-08 中国矿业大学 基于姿态指导行人图像生成的孪生生成式对抗网络的行人重识别方法
CN110866915A (zh) * 2019-11-22 2020-03-06 郑州智利信信息技术有限公司 基于度量学习的圆形砚台质量检测方法
CN110879989A (zh) * 2019-11-22 2020-03-13 四川九洲电器集团有限责任公司 基于小样本机器学习模型的ads-b信号目标识别方法
CN111476292A (zh) * 2020-04-03 2020-07-31 北京全景德康医学影像诊断中心有限公司 医学图像分类处理人工智能的小样本元学习训练方法
CN111507213A (zh) * 2020-04-03 2020-08-07 北京三快在线科技有限公司 图像识别方法、装置、存储介质及电子设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113052209A (zh) * 2021-03-10 2021-06-29 天津城建大学 融合胶囊相似性的单样本语义分割方法
CN113011337A (zh) * 2021-03-19 2021-06-22 山东大学 一种基于深度元学习的汉字字库生成方法及系统
CN113011337B (zh) * 2021-03-19 2022-08-30 山东大学 一种基于深度元学习的汉字字库生成方法及系统
CN114581425A (zh) * 2022-03-10 2022-06-03 四川大学 一种基于深度神经网络的心肌段缺损图像处理方法

Also Published As

Publication number Publication date
CN112069961B (zh) 2022-06-14

Similar Documents

Publication Publication Date Title
CN112069961B (zh) 一种基于度量学习的少样本文档版面分析方法
Shan Image segmentation method based on K-mean algorithm
Zhang et al. Vsa: Learning varied-size window attention in vision transformers
CN110222771B (zh) 一种零样本图片的类别识别方法
Wang et al. Affective image adjustment with a single word
Kopczewska Applied spatial statistics and econometrics: data analysis in R
CN110569738B (zh) 基于密集连接网络的自然场景文本检测方法、设备和介质
CN106547880A (zh) 一种融合地理区域知识的多维度地理场景识别方法
Yang et al. TTL-IQA: Transitive transfer learning based no-reference image quality assessment
CN111489357A (zh) 一种图像分割方法、装置、设备及存储介质
CN111914107B (zh) 一种基于多通道注意力区域扩展的实例检索方法
CN102262642B (zh) 一种Web图像搜索引擎及其实现方法
CN109740686A (zh) 一种基于区域池化和特征融合的深度学习图像多标记分类方法
CN102750347B (zh) 一种用于图像或视频搜索重排序的方法
CN113487629B (zh) 一种基于结构化场景和文本描述的图像属性编辑方法
CN111428457A (zh) 数据表的自动格式化
CN111931867B (zh) 基于轻量级模型的新冠肺炎x射线图像分类方法及系统
Li et al. Instant edit propagation on images based on bilateral grid
Wang et al. End-to-end trainable network for superpixel and image segmentation
Bach et al. Analyzing classifiers: Fisher vectors and deep neural networks
CN111553361B (zh) 一种病理切片标签识别方法
CN113724195A (zh) 基于免疫荧光图像的蛋白质的定量分析模型和建立方法
Di et al. FDNet: An end-to-end fusion decomposition network for infrared and visible images
CN111428447A (zh) 一种基于显著性检测的智能图文排版方法
CN116342628A (zh) 病理图像分割方法、装置和计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant