CN111783416A - 一种利用先验知识构建文档图像数据集的方法 - Google Patents

一种利用先验知识构建文档图像数据集的方法 Download PDF

Info

Publication number
CN111783416A
CN111783416A CN202010511448.5A CN202010511448A CN111783416A CN 111783416 A CN111783416 A CN 111783416A CN 202010511448 A CN202010511448 A CN 202010511448A CN 111783416 A CN111783416 A CN 111783416A
Authority
CN
China
Prior art keywords
document
sequence
document image
layout
document object
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010511448.5A
Other languages
English (en)
Other versions
CN111783416B (zh
Inventor
许灿辉
史操
孙春奇
陶冶
刘国柱
程远志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao University of Science and Technology
Original Assignee
Qingdao University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao University of Science and Technology filed Critical Qingdao University of Science and Technology
Priority to CN202010511448.5A priority Critical patent/CN111783416B/zh
Publication of CN111783416A publication Critical patent/CN111783416A/zh
Application granted granted Critical
Publication of CN111783416B publication Critical patent/CN111783416B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/189Automatic justification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Processing Or Creating Images (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开一种利用先验知识构建文档图像数据集的方法,首先采用条件随机场对文档版面进行建模;然后训练条件随机场模型参数,获取文档版面先验知识;使用训练好的模型自动生成文档版面布局;进而根据生成的版面布局,生成文档对象的具体内容;最终将文档转换成文档图像,实现对文档图像数据集的构建。本方案基于条件随机场对文档版面结构进行建模,获取文档版面的先验知识,并利用先验知识自动生成文档图像数据集,节省时间和人力成本,避免由于人工标注带来的无效标注;通过条件随机场及先验知识指导生成文档图像的版面结构,使生成的版面更贴近出版物、符合阅读习惯,提高数据集的利用率及深度学习精度;并且,生成文档图像集的同时,能够提供文档图像中文本对象的文字编码信息。

Description

一种利用先验知识构建文档图像数据集的方法
技术领域
本发明涉及一种图像生成方法,属于图像数据集构建领域,具体涉及一种利用先验知识构建文档图像数据集的方法。
背景技术
在文档图像处理的诸多领域中,如分割、分类、检索等领域,带标记的文档图像集是机器学习过程中不可或缺的数据基础,尤其是近年来,深度学习在基于大数据的人工智能领域中成为了重要研究方法,与传统的机器学习相比,深度学习需要更多训练数据。
目前,文档图像数据集一方面来自人工标注,例如:牛津大学机器人研究组(Robotics Research Group)设计的图像标注工具VIA(“Abhishek Dutta and AndrewZisserman.2019.The VIA Annotation Software for Images,Audio and Video.InProceedings of the 27th ACM International Conference on Multimedia(MM’19),October 21–25,2019,Nice,France.ACM,New York,NY,USA.”,使用VIA工具可以使用不同形状(矩形、圆、椭圆、多边形,等等)对图像区域进行手工标注。
另外,也有采用自动生成的方法获取文档图像及标注信息,如2017年文档分析与识别国际会议(International Conference on Document Analysis and Recognition,ICDAR)上的论文(【2】D.He,S.Cohen,B.Price,D.Kifer and C.L.Giles,"Multi-ScaleMulti-Task FCN for Semantic Page Segmentation and Table Detection")中将段落、图、表格、标题、段落标题、列表等等元素进行随机排列生成文档图像数据集,用于深度学习训练。同样,申请公布号为【CN 108898188 A】的发明专利也公开一种图像数据集辅助标记系统及方法,利用神经网络训练的思想对神经网络训练所需的图像进行初步特征提取训练,对图像进行识别标记获得神经网络所需的标签文档格式,在大量的图像信息中获得某一类的标签文档。
对于人工标注而言,虽然其具有很强灵活性,标注过程中可以弹性更改标注策略,标注结果能够较好地契合预期,但是,其缺点也是显然的,即标注过程费时、人力成本高昂,而且标注质量与标注人员的熟练程度成正比;相对于人工标注,文档图像数据集自动生成方法可以较好地克服人工标注的不足,但是也存在不可避免的问题,比如,出版业具有自身的行业规范,不同出版物的版面设计也遵循特定的规律,通过这些规律更好地展示文档内容,若随机生成的文档图像不能很好地契合出版物的排版规律,使得训练出来的模型应用于真实出版物文档图像时,不能体现模型的最佳性能。
因此,本发明旨在对出版物版面的客观规律进行建模,从而更有利于机器学习中模型的训练,在机器学习领域,这种已经存在的客观规律,也被称作“先验知识”。
发明内容
本发明针对现有获得文档图像数据集存在的缺陷,提出一种利用先验知识构建文档图像数据集的方法,基于条件随机场对文档版面结构进行建模,并利用先验知识自动生成文档图像数据集,可有效节省时间和人力成本,避免由于人工标注带来的无效标注。
本发明是采用以下的技术方案实现的:一种利用先验知识构建文档图像数据集的方法,包括以步骤:
步骤A、将文档版面信息刻画为文档对象空间、彩色直方图空间和文档对象类型空间,且文档对象空间元素与彩色直方图空间元素一一对应,彩色直方图空间元素与文档对象类型空间元素一一对应;
基于条件随机场对文档版面结构进行建模,得到文档对象彩色直方图序列X与文档对象类型标签序列Y的线性链条随机场;
步骤B、采集各种已有文档页面数据,训练条件随机场模型参数,对条件随机场权值进行求解;
步骤C、基于高斯混合模型随机生成彩色直方图序列X,根据训练好的模型求解文档对象类型标签序列Y,自动生成文档版面布局;
步骤D、采集各种已有文档对象数据,根据生成的文档版面布局,生成文档对象的具体内容;
步骤E、将步骤D生成的文档转换成文档图像,构建文档图像数据集,所述文档图像数据集包含文档图像、文档对象空间坐标信息和文档对象具体内容信息。
进一步的,所述步骤A中在对文档版面结构进行建模时,具体采用以下方式:
(1)确定文档页面中的对象序列DOi,计算每一个文档对象对应的彩色直方图,确定与彩色直方图序列X对应的文档对象类型标签序列Y;
(2)将X=[x1,x2,x3,...xN]和Y=[y1,y2,y3,...yN]均视为随机变量序列,在给定随机变量序列X的情况下,随机变量序列Y的条件概率分布P(Y|X)便构成条件随机场,进而可以得到:
P(Y|X)∝exp(g(Y|X)) (15)
且:
Figure BDA0002528525570000021
其中,N为文档对象的数量,M为标签类型的数量;
g(Y|X)=∑ij,j′λj,j′fj,j′(X,yi-1,i)=∑ij,j′λj,j′fj,j′(yi) (12)
fj,j′(yi)=fj,j′(X,yi-1,i) (9)
其中,特征函数族fj,j′(yi)第一个脚标j表示当前节点yi所属的类型,第二个脚标j′表示前一个节点yi-1所属的类型,fj,j′(yi)表示节点yi的特征函数,λj,j′表示权值,特征函数的个数以及特征函数值即为先验知识。
进一步的,所述步骤B中,将λj,j′假定为相互独立,并定义对数似然函数:
Figure BDA0002528525570000031
式(16)对待求权值求导,寻找驻点:
Figure BDA0002528525570000032
对条件随机场权值λj,j′进行求解时,具体采用以下方式:
(1)基于文档解析工具解析采集的文档页面数据,获得X序列和Y序列;
(2)根据Y序列样本,设置文档对象类型标签序列的标签类型;
(3)设定函数族fj,j′(yi)中的函数特征函数值;
(4)基于优化算法求解式(17),进而得到条件随机场权值λj,j′
进一步的,所述步骤C自动生成文档版面布局的方式如下:
步骤C1、基于高斯混合高斯模型
Figure BDA0002528525570000033
Figure BDA0002528525570000034
随机生成序列X中各节点的红色、绿色、蓝色三个颜色通道的直方图,以表征文档对象,其中μk
Figure BDA0002528525570000035
采用随机数自动生成,进而得到X序列;
步骤C2、基于彩色直方图空间元素与文档对象类型空间元素一一对应,对Y序列进行求解,即自动生成文档版面布局。
进一步的,所述步骤C1中生成X序列的过程具体如下:
(1)设定序列X的节点数量N;
(2)为序列X的每个节点xi的每个颜色通道的颜色直方图分别设定参数S;
(3)基于随机数生成算法设置参数μk
Figure BDA0002528525570000036
(4)基于高斯混合模型生成序列X。
进一步的,所述步骤D中,具体采用以下方式:
步骤D1、收集数据集:
Setj,j=1,2,3...M (20)
其中,Set1,Set2,...SetM=文本集,公式集,...页码集;
步骤D2、基于步骤C生成的Y序列采用TeX标记语言及数据集生成文档对象具体内容。
进一步的,所述步骤D2中,文档对象具体内容的生成过程采用自顶向下的方法:
(1)首先生成页眉;
(2)生成页面中的栏目数;
(3)从第一栏开始,根据Y序列、以及定义的数据集生成页面对象DOi,同时记录DOi的空间坐标信息以及DOi的具体内容信息;
(4)若文档不止一栏,则当第一栏结束后继续生成第二栏,直至最后一栏结束;
(5)当文档中所有栏目均生成后,生成页脚、页码。
进一步的,所述步骤A中,所述文档对象类型标签序列所包含的标签类型包括但不限于文本、公式、图、图名、表、表名、页眉、页脚和页码。
与现有技术相比,本发明的优点和积极效果在于:
本方案基于条件随机场(CRF)对文档版面结构进行建模,获取文档版面的先验知识,并利用先验知识自动生成文档图像数据集,节省时间和人力成本,避免由于人工标注带来的无效标注;通过条件随机场及先验知识指导生成文档图像的版面结构,使生成的版面更贴近出版物、符合阅读习惯,提高数据集的利用率及深度学习精度;并且,生成文档图像集的同时,能够提供文档图像中文本对象的文字编码信息(ASCII、Unicode等)。
附图说明
图1为本发明实施例构建文档图像数据集的流程示意图;
图2为本发明实施例文档对象序列示意图;
图3为本发明实施例条件随机场样本序列示意图;
图4为本发明实施例自动生成文档图像示意图;
图5为本发明实施例生成的文档图像数据集结构示意图。
具体实施方式
为了能够更加清楚地理解本发明的上述目的、特征和优点,下面结合附图及实施例对本发明做进一步说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用不同于在此描述的其他方式来实施,因此,本发明并不限于下面公开的具体实施例。
本实施例提供了一种利用先验知识构建文档图像数据集的方法,首先采用条件随机场对版面结构进行建模,并对模型进行训练,然后根据模型随机生成文档对象序列,最终生成文档图像数据集,同时,在数据集中保留了文档对象的空间坐标信息和具体内容信息,如图1所示,具体包括以下步骤:
第一步、将文档版面信息刻画为文档对象空间、彩色直方图空间和文档对象类型空间,且文档对象空间元素与彩色直方图空间元素一一对应,彩色直方图空间元素与文档对象类型空间元素一一对应;
基于条件随机场对文档版面结构进行建模,得到文档对象彩色直方图序列X与文档对象类型标签序列Y的线性链条随机场;
第二步、训练条件随机场模型参数,对条件随机场权值进行求解;
第三步、基于高斯混合模型随机生成彩色直方图序列X,根据训练好的模型求解文档对象类型标签序列Y,自动生成文档版面布局;
第四步、采集各种已有文档对象数据,根据生成的文档版面布局,生成文档对象的具体内容;
第五步、将文档转换成文档图像,构建文档图像数据集,所述文档图像数据集包含文档图像、文档对象空间坐标信息和文档对象具体内容信息。
本实施例中,将文档版面信息刻画为空间映射关系,如图2和图3所示,将文档版面信息抽象为三个空间,即文档对象空间、彩色直方图空间和文档对象类型空间,三个空间之间存在两种映射关系:文档对象空间←→彩色直方图空间,彩色直方图空间←→文档对象类型空间,利用这两种映射关系,即可以对文档版面信息采用条件随机场进行建模,也可以指导文档图像的自动生成。
具体的,下面结合具体的实施例对本发明方案进行详细的介绍:
第一步、采用条件随机场对文档版面进行建模;
将采集的PDF文档页面中的对象看作一个序列,记作:
DOi,i=1,2,3...N (1)
其中,DOi表示第i个文档对象,比如图2中的文档对象序列共包含8个对象:DO1,DO2,DO3,...DO8,这8个对象如图3第一行所示;
计算每一个对象的彩色直方图:
xi=[HistR(DOi),HistG(DOi),HistB(DOi)] (2)
上式中HistR(DOi),HistG(DOi),HistB(DOi)分别代表文档对象DOi的红色、绿色、蓝色三个颜色通道的直方图,根据对象序列DO1,DO2,DO3,...DO8计算得到彩色直方图x序列:x1,x2,x3,...xN如图3第二行所示;
确定与彩色直方图xi.序列所对应的类型标签序列,如图3中第三行所示:
yi,i=1,2,3...N (3)
yi∈{Typej|j=1,2,3...M} (4)
其中,Typej为标签类型,所述标签类型包括文本、公式、图、图名、表、表名、页眉、页脚和页码等标签。
将彩色直方图序列、标签类型序列分别定义为:
X=[x1,x2,x3,...xN] (5)
Y=[y1,y2,y3,...yN] (6)
该序列中每一个节点元素均对应一个文档对象类别,如图、文本、页码等。
由于xi与yi具有相同的序列结构(即元素个数均为N,且元素之间一一对应,从图3中也显而易见),则X和Y可以构成一个线性链条随机场(linear chain conditionalrandom fields)。具体而言,将X=[x1,x2,x3,...xN]和Y=[y1,y2,y3,...yN]均看作随机变量序列,在给定随机变量序列X的情况下,随机变量序列Y的条件概率分布P(Y|X)便构成了条件随机场,若满足马尔可夫性(无后效性):
P(yi+1|X,y1,y2,y3,...yN)=P(yi+1|X,yi) (7)
则称P(Y|X)为线性链条随机场。
为了计算式(7)所表示的条件概率,需要进一步定义序列Y中节点yi的特征函数族,考虑到更好地描述特征函数族,首先需要定义式(4)中的标签类型,本实施例中以9个类型为例具体说明:
{Type1,Type2,...Type9}
={文本,公式,图,图名,表,表名,页眉,页脚,页码} (8)
即式(4)中M=9,j=1,2,...9;那么特征函数族就可以定义为:
fj,j′(yi)=fj,j′(X,yi-1,i) (9)
其中,函数fj,j′(yi)第一个脚标j表示当前节点yi所属的类型,第二个脚标j′表示前一个节点yi-1所属的类型,fj,j′(yi)表示节点yi的特征函数,等式右边fj,j′(X,yi-1,i)表示在给定序列X的情况下,序列Y的第i节点yi的特征函数值仅与前一节点yi-1有关,这与式(7)所描述一致。
根据式(8)的定义,当前节点yi可能的类型数为M=9且前一节点yi-1可能的类型数亦为M=9,所以函数族fj,j′(yi)中的函数个数为M×M=9×9=81其函数值如下:
Figure BDA0002528525570000071
其中,j和j′亦分别表示矩阵的行、列坐标,j=1,2,...9,j′=1,2,...9。以第7行为例,此行所有元素均为0,因为式(8)中Type7为“页眉”,而f7,j′(yi)=0则表示:在文档页面中的当前对象标签yi若是“页眉”,则“页眉”前不能有任何其他元素。同时,为函数族的每一个函数定义一个权值:
j,j′]M×M (11)
这里M×M个权值为模型的待求参数。当给定特定的两个序列:X和Y可以通过特征函数族的加权求和用以评估当前Y与X的契合程度:
g(Y|X)=∑ij,j′λj,j′fj,j′(X,yi-1,i)=∑ij,j′λj,j′fj,j′(yi) (12)
显然,对于特定的X,可能的类别序列Y一共有N×M种,那么P(Y|X)可以定义为:
Figure BDA0002528525570000072
且:
Figure BDA0002528525570000073
其中,特征函数的个数以及特征函数值即为先验知识,函数族表征了文档版面的先验知识,其将用于指导文档版面结构的自动生成,定义了特征函数族之后,便可以计算式(13),式(14)说明式(13)满足概率的基本性质,但是通常为了计算方便,使用式(13)的非规范化概率形式:
P(Y|X)∝exp(g(Y|X)) (15)
最终,式(15)定义了图3中第二层彩色直方图序列X(式(5))与第三层类型标签序列Y(式(6))的线性链条随机场,其中,式(10)中的特征函数值根据实际情况进行设置即可,式(11)定义的权值为系统待求参数。
第二步,训练条件随机场模型参数,得到条件随机场中的待求解权值λj,j′
本实施例中,通过设计条件随机场模型中的特征函数值,并且使用优化算法(如:梯度下降法、牛顿法、拟牛顿法等等)求解特征函数权值,最终,完成模型的求解过程,得到文档版面的权值λj,j′
具体的,在求解式(11)定义的权值时,将λj,j′假定为相互独立,定义对数似然函数:
Figure BDA0002528525570000081
然后,式(16)对待求权值求导,寻找驻点:
Figure BDA0002528525570000082
针对式(17),可使用梯度下降法、牛顿法、拟牛顿法,等一些列优化算法进行求解。
整个求解λj,j′的过程概括如下:
Figure BDA0002528525570000083
第三步,使用训练好的模型自动生成文档版面布局
基于混合高斯模型随机生成X序列,根据第一步、第二步所获得的条件随机场模型,采用维特比算法求解Y序列,即Y序列表征了自动生成的文档版面布局;
自动生成文档版面布局就是生成图3中第三行的Y序列,即:式(6)。为了自动获得Y序列,可使用图3中第三行的X序列通过式(15)求解得到,利用空间映射关系:“文档对象”空间←→“彩色直方图”空间,使用混合高斯模型实现。
首先需要获得X序列,使用混合高斯模型(Gaussian Mixture Model):
Figure BDA0002528525570000084
Figure BDA0002528525570000085
随机生成X=[x1,x2,...x8]序列中节点xi=[HistR(DOi),HistG(DOi),HistB(DOi)]的红色、绿色、蓝色三个颜色通道的直方图,用以表征文档对象,其中μk
Figure BDA0002528525570000086
采用随机数自动生成,由此得到X序列,然后利用空间映射关系:“彩色直方图”空间←→“文档对象类型”空间,使用维特比算法(Viterbi algorithm)求解Y序列,即:自动生成文档版面信息。
整个过程归纳为算法2:
Figure BDA0002528525570000091
第四步,根据生成的版面布局,生成文档对象的具体内容:
首先采集各种文档对象数据,然后使用第三步生成的Y序列生成文档中对象的具体内容;为了生成文档对象的具体内容,需要根据式(4)收集数据集,本实施例采用式(8)的定义收集数据集:
Setj,j=1,2,3...M (20)
Setj对应于式(4)中的Typej,具体而言,根据式(8)有:
Set1,Set2,...Set9=文本集,公式集,...页码集 (21)
接着基于第三步生成的Y序列采用TeX标记语言及式(21)的数据集生成文档对象具体内容,生成过程采用“自顶向下”的方法:页面→栏→页面对象。
<1>首先生成页眉;
<2>接着生成页面中的栏目数;
<3>从第一栏开始根据Y序列、式(21)中的数据集,生成页面对象,即:式(1)中的DOi,同时记录DOi的空间坐标信息(对象边框信息):
DOi-Coors (22)
以及DOi的具体内容信息(文字编码、公式、图、表,等等):
DOi-Content (23)
<4>若文档不止一栏,则当第一栏结束后继续生成第二栏,直至最后一栏结束;
<5>当文档中所有栏目均生成后,生成页脚、页码;
<6>以上过程均采用TeX标记语言实现,根据TeX标记语言,采用PDF引擎自动生成PDF文档。
注:并非式(8)中所有类型的文档对象都需要出现在页面上,例如:一个文档页面允许没有页眉、页脚、页码,也可以只包含文本,主要由算法2的输出Y序列决定。当然,也可以通过人工设置要求页面必须包含特定文档对象。
将以上过程归纳为算法3:
Figure BDA0002528525570000101
第五步,将文档转换成文档图像,构建文档图像数据集,所述文档图像数据集包括文档图像、文档对象空间坐标信息和文档对象具体内容信息;
根据算法3生成的PDF文档,每一页都转换成文档图像,如图4给出一张自动生成的图像,将每一张生成的文档图像定义为:
DocImagec,c=1,2,...Num (24)
Num表示文档图像数据集的图像数量,同时将式(22)所表示的文档对象空间坐标映射至文档图像中,得到:
DOi-Coors′ (25)
那么,文档图像数据集可表示为:
DocImageSet={elec},c=1,2,...Num (26)
elec={DocImagec,DOi,c-Coors′,DOi,c-Content} (27)
式(26)定义了文档图像数据集,其中elec如图5虚线框所示,包含了一张图像中的N个文档对象空间坐标信息(式(27)中DOi,c-Coors′),其与N个文档对象具体内容信息一一对应(式(27)中DOi,c-Content)。
可见,本方案基于条件随机场对文档版面结构进行建模,可有效节省时间和人力成本,避免由于人工标注带来的无效标注;而且使用条件随机场对版面结构进行建模,用以指导生成文档图像的版面结构,使生成的版面更贴近出版物、符合阅读习惯,并且生成文档图像集的同时,能够提供文档图像中文本对象的文字编码信息(ASCII、Unicode等),提高数据集的利用率及深度学习精度。
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例应用于其它领域,但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。

Claims (8)

1.一种利用先验知识构建文档图像数据集的方法,其特征在于,包括以步骤:
步骤A、将文档版面信息刻画为文档对象空间、彩色直方图空间和文档对象类型空间,且文档对象空间元素与彩色直方图空间元素一一对应,彩色直方图空间元素与文档对象类型空间元素一一对应;
基于条件随机场对文档版面结构进行建模,得到文档对象彩色直方图序列X与文档对象类型标签序列Y的线性链条随机场;
步骤B、采集各种已有文档页面数据,训练条件随机场模型参数,对条件随机场权值进行求解;
步骤C、基于高斯混合模型随机生成彩色直方图序列X,根据训练好的模型求解文档对象类型标签序列Y,自动生成文档版面布局;
步骤D、采集各种已有文档对象数据,根据生成的文档版面布局,生成文档对象的具体内容;
步骤E、将步骤D生成的文档转换成文档图像,构建文档图像数据集,所述文档图像数据集包含文档图像、文档对象空间坐标信息和文档对象具体内容信息。
2.根据权利要求1所述的利用先验知识构建文档图像数据集的方法,其特征在于:所述步骤A中在对文档版面结构进行建模时,具体采用以下方式:
(1)确定文档页面中的对象序列DOi,计算每一个文档对象对应的彩色直方图,确定与彩色直方图序列X对应的文档对象类型标签序列Y;
(2)将X=[x1,x2,x3,...xN]和Y=[y1,y2,y3,...yN]均视为随机变量序列,在给定随机变量序列X的情况下,随机变量序列Y的条件概率分布P(Y|X)便构成条件随机场,进而可以得到:
P(Y|X)∝exp(g(Y|X)) (15)
且:
Figure FDA0002528525560000011
其中,N为文档对象的数量,M为标签类型的数量;
g(Y|X)=∑ij,j′λj,j′fj,j′(X,yi-1,i)=∑ij,j′λj,j′fj,j′(yi) (12)
fj,j′(yi)=fj,j′(X,yi-1,i) (9)
其中,特征函数族fj,j′(yi)第一个脚标j表示当前节点yi所属的类型,第二个脚标j′表示前一个节点yi-1所属的类型,fj,j′(yi)表示节点yi的特征函数,λj,j′表示权值,特征函数的个数以及特征函数值即为先验知识。
3.根据权利要求2所述的利用先验知识构建文档图像数据集的方法,其特征在于:所述步骤B中,将λj,j′假定为相互独立,并定义对数似然函数:
Figure FDA0002528525560000021
式(16)对待求权值求导,寻找驻点:
Figure FDA0002528525560000022
对条件随机场权值λj,j′进行求解时,具体采用以下方式:
(1)基于文档解析工具解析采集的文档页面数据,获得X序列和Y序列;
(2)根据Y序列样本,设置文档对象类型标签序列的标签类型;
(3)设定函数族fj,j′(yi)中的函数特征函数值;
(4)基于优化算法求解式(17),进而得到条件随机场权值λj,j′
4.根据权利要求1所述的利用先验知识构建文档图像数据集的方法,其特征在于:所述步骤C自动生成文档版面布局的方式如下:
步骤C1、基于高斯混合高斯模型
Figure FDA0002528525560000023
Figure FDA0002528525560000024
随机生成序列X中各节点的红色、绿色、蓝色三个颜色通道的直方图,以表征文档对象,其中μk
Figure FDA0002528525560000025
采用随机数自动生成,进而得到X序列;
步骤C2、基于彩色直方图空间元素与文档对象类型空间元素一一对应,对Y序列进行求解,即自动生成文档版面布局。
5.根据权利要求4所述的利用先验知识构建文档图像数据集的方法,其特征在于:所述步骤C1中生成X序列的过程具体如下:
(1)设定序列X的节点数量N;
(2)为序列X的每个节点xi的每个颜色通道的颜色直方图分别设定参数S;
(3)基于随机数生成算法设置参数μk
Figure FDA0002528525560000026
(4)基于高斯混合模型生成序列X。
6.根据权利要求1所述的利用先验知识构建文档图像数据集的方法,其特征在于:所述步骤D中,具体采用以下方式:
步骤D1、收集数据集:
Setj,j=1,2,3...M (20)
其中,Set1,Set2,...SetM=文本集,公式集,...页码集;
步骤D2、基于步骤C生成的Y序列采用TeX标记语言及数据集生成文档对象具体内容。
7.根据权利要求6所述的利用先验知识构建文档图像数据集的方法,其特征在于:所述步骤D2中,文档对象具体内容的生成过程采用自顶向下的方法:
(1)首先生成页眉;
(2)生成页面中的栏目数;
(3)从第一栏开始,根据Y序列、以及定义的数据集生成页面对象DOi,同时记录DOi的空间坐标信息以及DOi的具体内容信息;
(4)若文档不止一栏,则当第一栏结束后继续生成第二栏,直至最后一栏结束;
(5)当文档中所有栏目均生成后,生成页脚、页码。
8.根据权利要求1所述的利用先验知识构建文档图像数据集的方法,其特征在于:所述步骤A中,所述文档对象类型标签序列所包含的标签类型包括但不限于文本、公式、图、图名、表、表名、页眉、页脚和页码。
CN202010511448.5A 2020-06-08 2020-06-08 一种利用先验知识构建文档图像数据集的方法 Active CN111783416B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010511448.5A CN111783416B (zh) 2020-06-08 2020-06-08 一种利用先验知识构建文档图像数据集的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010511448.5A CN111783416B (zh) 2020-06-08 2020-06-08 一种利用先验知识构建文档图像数据集的方法

Publications (2)

Publication Number Publication Date
CN111783416A true CN111783416A (zh) 2020-10-16
CN111783416B CN111783416B (zh) 2024-05-03

Family

ID=72753471

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010511448.5A Active CN111783416B (zh) 2020-06-08 2020-06-08 一种利用先验知识构建文档图像数据集的方法

Country Status (1)

Country Link
CN (1) CN111783416B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112347742A (zh) * 2020-10-29 2021-02-09 青岛科技大学 基于深度学习生成文档图像集的方法
US11977574B2 (en) 2021-02-22 2024-05-07 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for acquiring POI state information

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105260727A (zh) * 2015-11-12 2016-01-20 武汉大学 基于图像处理与序列标注的学术文献语义再结构化方法
CN111046784A (zh) * 2019-12-09 2020-04-21 科大讯飞股份有限公司 文档版面分析识别方法、装置、电子设备和存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105260727A (zh) * 2015-11-12 2016-01-20 武汉大学 基于图像处理与序列标注的学术文献语义再结构化方法
CN111046784A (zh) * 2019-12-09 2020-04-21 科大讯飞股份有限公司 文档版面分析识别方法、装置、电子设备和存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
SANTANU CHAUDHURY ET AL.: "Model-Guided Segmentation and Layout Labelling of Document Images Using a Hierarchical Conditional Random Field", PREMI 2009, 31 December 2009 (2009-12-31) *
XIN TAO ET AL.: "Logical Labeling of Fixed Layout PDF Documents Using Multiple Contexts", 2014 11TH IAPR INTERNATIONAL WORKSHOP ON DOCUMENT ANALYSIS SYSTEMS, 31 December 2014 (2014-12-31) *
张春元;: "基于条件随机场的文本分类模型", 计算机技术与发展, no. 07, 10 July 2011 (2011-07-10) *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112347742A (zh) * 2020-10-29 2021-02-09 青岛科技大学 基于深度学习生成文档图像集的方法
CN112347742B (zh) * 2020-10-29 2022-05-31 青岛科技大学 基于深度学习生成文档图像集的方法
US11977574B2 (en) 2021-02-22 2024-05-07 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for acquiring POI state information

Also Published As

Publication number Publication date
CN111783416B (zh) 2024-05-03

Similar Documents

Publication Publication Date Title
Cao et al. Zero-shot handwritten Chinese character recognition with hierarchical decomposition embedding
CN107766324B (zh) 一种基于深度神经网络的文本一致性分析方法
CN111382565B (zh) 基于多标签的情绪-原因对抽取方法及系统
CN110059697B (zh) 一种基于深度学习的肺结节自动分割方法
CN107463658B (zh) 文本分类方法及装置
CN106598959B (zh) 一种确定双语语句对互译关系方法及系统
CN111090990B (zh) 一种医疗体检报告单文字识别及纠正方法
CN112214610A (zh) 一种基于跨度和知识增强的实体关系联合抽取方法
CN110390363A (zh) 一种图像描述方法
CN108647191B (zh) 一种基于有监督情感文本和词向量的情感词典构建方法
US20150199567A1 (en) Document classification assisting apparatus, method and program
CN113946677B (zh) 基于双向循环神经网络和注意力机制的事件识别分类方法
CN111428503B (zh) 同名人物的识别处理方法及处理装置
CN114610892A (zh) 知识点标注方法、装置、电子设备和计算机存储介质
CN111783416A (zh) 一种利用先验知识构建文档图像数据集的方法
CN112256866A (zh) 一种基于深度学习的文本细粒度情感分析方法
CN112633431A (zh) 一种基于crnn和ctc的藏汉双语场景文字识别方法
CN113360582B (zh) 基于bert模型融合多元实体信息的关系分类方法及系统
CN115422939B (zh) 一种基于大数据的细粒度商品命名实体识别方法
CN111985236A (zh) 基于多维联动的可视化分析方法
CN111428505B (zh) 一种融合触发词识别特征的实体关系抽取方法
CN112818117A (zh) 标签映射方法、系统、计算机可读存储介质
CN114239612A (zh) 一种多模态神经机器翻译方法、计算机设备及存储介质
CN114003726B (zh) 一种基于子空间嵌入的学术论文差异性分析方法
CN112347742B (zh) 基于深度学习生成文档图像集的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant