CN111783416A

CN111783416A - 一种利用先验知识构建文档图像数据集的方法

Info

Publication number: CN111783416A
Application number: CN202010511448.5A
Authority: CN
Inventors: 许灿辉; 史操; 孙春奇; 陶冶; 刘国柱; 程远志
Original assignee: Qingdao University of Science and Technology
Current assignee: Qingdao University of Science and Technology
Priority date: 2020-06-08
Filing date: 2020-06-08
Publication date: 2020-10-16
Anticipated expiration: 2040-06-08
Also published as: CN111783416B

Abstract

本发明公开一种利用先验知识构建文档图像数据集的方法，首先采用条件随机场对文档版面进行建模；然后训练条件随机场模型参数，获取文档版面先验知识；使用训练好的模型自动生成文档版面布局；进而根据生成的版面布局，生成文档对象的具体内容；最终将文档转换成文档图像，实现对文档图像数据集的构建。本方案基于条件随机场对文档版面结构进行建模，获取文档版面的先验知识，并利用先验知识自动生成文档图像数据集，节省时间和人力成本，避免由于人工标注带来的无效标注；通过条件随机场及先验知识指导生成文档图像的版面结构，使生成的版面更贴近出版物、符合阅读习惯，提高数据集的利用率及深度学习精度；并且，生成文档图像集的同时，能够提供文档图像中文本对象的文字编码信息。

Description

一种利用先验知识构建文档图像数据集的方法

技术领域

本发明涉及一种图像生成方法，属于图像数据集构建领域，具体涉及一种利用先验知识构建文档图像数据集的方法。

背景技术

在文档图像处理的诸多领域中，如分割、分类、检索等领域，带标记的文档图像集是机器学习过程中不可或缺的数据基础，尤其是近年来，深度学习在基于大数据的人工智能领域中成为了重要研究方法，与传统的机器学习相比，深度学习需要更多训练数据。

目前，文档图像数据集一方面来自人工标注，例如：牛津大学机器人研究组(Robotics Research Group)设计的图像标注工具VIA(“Abhishek Dutta and AndrewZisserman.2019.The VIA Annotation Software for Images,Audio and Video.InProceedings of the 27th ACM International Conference on Multimedia(MM’19),October 21–25,2019,Nice,France.ACM,New York,NY,USA.”，使用VIA工具可以使用不同形状(矩形、圆、椭圆、多边形，等等)对图像区域进行手工标注。

另外，也有采用自动生成的方法获取文档图像及标注信息，如2017年文档分析与识别国际会议(International Conference on Document Analysis and Recognition，ICDAR)上的论文(【2】D.He,S.Cohen,B.Price,D.Kifer and C.L.Giles,"Multi-ScaleMulti-Task FCN for Semantic Page Segmentation and Table Detection")中将段落、图、表格、标题、段落标题、列表等等元素进行随机排列生成文档图像数据集，用于深度学习训练。同样，申请公布号为【CN 108898188 A】的发明专利也公开一种图像数据集辅助标记系统及方法，利用神经网络训练的思想对神经网络训练所需的图像进行初步特征提取训练，对图像进行识别标记获得神经网络所需的标签文档格式，在大量的图像信息中获得某一类的标签文档。

对于人工标注而言，虽然其具有很强灵活性，标注过程中可以弹性更改标注策略，标注结果能够较好地契合预期，但是，其缺点也是显然的，即标注过程费时、人力成本高昂，而且标注质量与标注人员的熟练程度成正比；相对于人工标注，文档图像数据集自动生成方法可以较好地克服人工标注的不足，但是也存在不可避免的问题，比如，出版业具有自身的行业规范，不同出版物的版面设计也遵循特定的规律，通过这些规律更好地展示文档内容，若随机生成的文档图像不能很好地契合出版物的排版规律，使得训练出来的模型应用于真实出版物文档图像时，不能体现模型的最佳性能。

因此，本发明旨在对出版物版面的客观规律进行建模，从而更有利于机器学习中模型的训练，在机器学习领域，这种已经存在的客观规律，也被称作“先验知识”。

发明内容

本发明针对现有获得文档图像数据集存在的缺陷，提出一种利用先验知识构建文档图像数据集的方法，基于条件随机场对文档版面结构进行建模，并利用先验知识自动生成文档图像数据集，可有效节省时间和人力成本，避免由于人工标注带来的无效标注。

本发明是采用以下的技术方案实现的：一种利用先验知识构建文档图像数据集的方法，包括以步骤：

步骤A、将文档版面信息刻画为文档对象空间、彩色直方图空间和文档对象类型空间，且文档对象空间元素与彩色直方图空间元素一一对应，彩色直方图空间元素与文档对象类型空间元素一一对应；

基于条件随机场对文档版面结构进行建模，得到文档对象彩色直方图序列X与文档对象类型标签序列Y的线性链条随机场；

步骤B、采集各种已有文档页面数据，训练条件随机场模型参数，对条件随机场权值进行求解；

步骤C、基于高斯混合模型随机生成彩色直方图序列X，根据训练好的模型求解文档对象类型标签序列Y，自动生成文档版面布局；

步骤D、采集各种已有文档对象数据，根据生成的文档版面布局，生成文档对象的具体内容；

步骤E、将步骤D生成的文档转换成文档图像，构建文档图像数据集，所述文档图像数据集包含文档图像、文档对象空间坐标信息和文档对象具体内容信息。

进一步的，所述步骤A中在对文档版面结构进行建模时，具体采用以下方式：

(1)确定文档页面中的对象序列DO_i，计算每一个文档对象对应的彩色直方图，确定与彩色直方图序列X对应的文档对象类型标签序列Y；

(2)将X＝[x₁,x₂,x₃,...x_N]和Y＝[y₁,y₂,y₃,...y_N]均视为随机变量序列，在给定随机变量序列X的情况下，随机变量序列Y的条件概率分布P(Y|X)便构成条件随机场，进而可以得到：

P(Y|X)∝exp(g(Y|X)) (15)

且：

其中，N为文档对象的数量，M为标签类型的数量；

g(Y|X)＝∑_i∑_j,j′λ_j,j′f_j,j′(X,y_i-1,i)＝∑_i∑_j,j′λ_j,j′f_j,j′(y_i) (12)

f_j,j′(y_i)＝f_j,j′(X,y_i-1,i) (9)

其中，特征函数族f_j,j′(y_i)第一个脚标j表示当前节点y_i所属的类型，第二个脚标j′表示前一个节点y_i-1所属的类型，f_j,j′(y_i)表示节点y_i的特征函数，λ_j,j′表示权值，特征函数的个数以及特征函数值即为先验知识。

进一步的，所述步骤B中，将λ_j,j′假定为相互独立，并定义对数似然函数：

式(16)对待求权值求导，寻找驻点：

对条件随机场权值λ_j,j′进行求解时，具体采用以下方式：

(1)基于文档解析工具解析采集的文档页面数据，获得X序列和Y序列；

(2)根据Y序列样本，设置文档对象类型标签序列的标签类型；

(3)设定函数族f_j,j′(y_i)中的函数特征函数值；

(4)基于优化算法求解式(17)，进而得到条件随机场权值λ_j,j′。

进一步的，所述步骤C自动生成文档版面布局的方式如下：

步骤C1、基于高斯混合高斯模型

随机生成序列X中各节点的红色、绿色、蓝色三个颜色通道的直方图，以表征文档对象，其中μ_k和

采用随机数自动生成，进而得到X序列；

步骤C2、基于彩色直方图空间元素与文档对象类型空间元素一一对应，对Y序列进行求解，即自动生成文档版面布局。

进一步的，所述步骤C1中生成X序列的过程具体如下：

(1)设定序列X的节点数量N；

(2)为序列X的每个节点x_i的每个颜色通道的颜色直方图分别设定参数S；

(3)基于随机数生成算法设置参数μ_k和

(4)基于高斯混合模型生成序列X。

进一步的，所述步骤D中，具体采用以下方式：

步骤D1、收集数据集：

Set_j,j＝1,2,3...M (20)

其中，Set₁,Set₂,...Set_M＝文本集,公式集,...页码集；

步骤D2、基于步骤C生成的Y序列采用TeX标记语言及数据集生成文档对象具体内容。

进一步的，所述步骤D2中，文档对象具体内容的生成过程采用自顶向下的方法：

(1)首先生成页眉；

(2)生成页面中的栏目数；

(3)从第一栏开始，根据Y序列、以及定义的数据集生成页面对象DO_i，同时记录DO_i的空间坐标信息以及DO_i的具体内容信息；

(4)若文档不止一栏，则当第一栏结束后继续生成第二栏，直至最后一栏结束；

(5)当文档中所有栏目均生成后，生成页脚、页码。

进一步的，所述步骤A中，所述文档对象类型标签序列所包含的标签类型包括但不限于文本、公式、图、图名、表、表名、页眉、页脚和页码。

与现有技术相比，本发明的优点和积极效果在于：

本方案基于条件随机场(CRF)对文档版面结构进行建模，获取文档版面的先验知识，并利用先验知识自动生成文档图像数据集，节省时间和人力成本，避免由于人工标注带来的无效标注；通过条件随机场及先验知识指导生成文档图像的版面结构，使生成的版面更贴近出版物、符合阅读习惯，提高数据集的利用率及深度学习精度；并且，生成文档图像集的同时，能够提供文档图像中文本对象的文字编码信息(ASCII、Unicode等)。

附图说明

图1为本发明实施例构建文档图像数据集的流程示意图；

图2为本发明实施例文档对象序列示意图；

图3为本发明实施例条件随机场样本序列示意图；

图4为本发明实施例自动生成文档图像示意图；

图5为本发明实施例生成的文档图像数据集结构示意图。

具体实施方式

为了能够更加清楚地理解本发明的上述目的、特征和优点，下面结合附图及实施例对本发明做进一步说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用不同于在此描述的其他方式来实施，因此，本发明并不限于下面公开的具体实施例。

本实施例提供了一种利用先验知识构建文档图像数据集的方法，首先采用条件随机场对版面结构进行建模，并对模型进行训练，然后根据模型随机生成文档对象序列，最终生成文档图像数据集，同时，在数据集中保留了文档对象的空间坐标信息和具体内容信息，如图1所示，具体包括以下步骤：

第一步、将文档版面信息刻画为文档对象空间、彩色直方图空间和文档对象类型空间，且文档对象空间元素与彩色直方图空间元素一一对应，彩色直方图空间元素与文档对象类型空间元素一一对应；

第二步、训练条件随机场模型参数，对条件随机场权值进行求解；

第三步、基于高斯混合模型随机生成彩色直方图序列X，根据训练好的模型求解文档对象类型标签序列Y，自动生成文档版面布局；

第四步、采集各种已有文档对象数据，根据生成的文档版面布局，生成文档对象的具体内容；

第五步、将文档转换成文档图像，构建文档图像数据集，所述文档图像数据集包含文档图像、文档对象空间坐标信息和文档对象具体内容信息。

本实施例中，将文档版面信息刻画为空间映射关系，如图2和图3所示，将文档版面信息抽象为三个空间，即文档对象空间、彩色直方图空间和文档对象类型空间，三个空间之间存在两种映射关系：文档对象空间←→彩色直方图空间，彩色直方图空间←→文档对象类型空间，利用这两种映射关系，即可以对文档版面信息采用条件随机场进行建模，也可以指导文档图像的自动生成。

具体的，下面结合具体的实施例对本发明方案进行详细的介绍：

第一步、采用条件随机场对文档版面进行建模；

将采集的PDF文档页面中的对象看作一个序列，记作：

DO_i,i＝1,2,3...N (1)

其中，DO_i表示第i个文档对象，比如图2中的文档对象序列共包含8个对象：DO₁,DO₂,DO₃,...DO₈，这8个对象如图3第一行所示；

计算每一个对象的彩色直方图：

x_i＝[Hist_R(DO_i),Hist_G(DO_i),Hist_B(DO_i)] (2)

上式中Hist_R(DO_i),Hist_G(DO_i),Hist_B(DO_i)分别代表文档对象DO_i的红色、绿色、蓝色三个颜色通道的直方图，根据对象序列DO₁,DO₂,DO₃,...DO₈计算得到彩色直方图x序列：x₁,x₂,x₃,...x_N如图3第二行所示；

确定与彩色直方图x_i.序列所对应的类型标签序列，如图3中第三行所示：

y_i,i＝1,2,3...N (3)

y_i∈{Type_j|j＝1,2,3...M} (4)

其中，Type_j为标签类型，所述标签类型包括文本、公式、图、图名、表、表名、页眉、页脚和页码等标签。

将彩色直方图序列、标签类型序列分别定义为：

X＝[x₁,x₂,x₃,...x_N] (5)

Y＝[y₁,y₂,y₃,...y_N] (6)

该序列中每一个节点元素均对应一个文档对象类别，如图、文本、页码等。

由于x_i与y_i具有相同的序列结构(即元素个数均为N，且元素之间一一对应，从图3中也显而易见)，则X和Y可以构成一个线性链条随机场(linear chain conditionalrandom fields)。具体而言，将X＝[x₁,x₂,x₃,...x_N]和Y＝[y₁,y₂,y₃,...y_N]均看作随机变量序列，在给定随机变量序列X的情况下，随机变量序列Y的条件概率分布P(Y|X)便构成了条件随机场，若满足马尔可夫性(无后效性)：

P(y_i+1|X,y₁,y₂,y₃,...y_N)＝P(y_i+1|X,y_i) (7)

则称P(Y|X)为线性链条随机场。

为了计算式(7)所表示的条件概率，需要进一步定义序列Y中节点y_i的特征函数族，考虑到更好地描述特征函数族，首先需要定义式(4)中的标签类型，本实施例中以9个类型为例具体说明：

{Type₁,Type₂,...Type₉}

＝{文本,公式,图,图名,表,表名,页眉,页脚,页码} (8)

即式(4)中M＝9，j＝1,2,...9；那么特征函数族就可以定义为：

f_j,j′(y_i)＝f_j,j′(X,y_i-1,i) (9)

其中，函数f_j,j′(y_i)第一个脚标j表示当前节点y_i所属的类型，第二个脚标j′表示前一个节点y_i-1所属的类型，f_j,j′(y_i)表示节点y_i的特征函数，等式右边f_j,j′(X,y_i-1,i)表示在给定序列X的情况下，序列Y的第i节点y_i的特征函数值仅与前一节点y_i-1有关，这与式(7)所描述一致。

根据式(8)的定义，当前节点y_i可能的类型数为M＝9且前一节点y_i-1可能的类型数亦为M＝9，所以函数族f_j,j′(y_i)中的函数个数为M×M＝9×9＝81其函数值如下：

其中，j和j′亦分别表示矩阵的行、列坐标，j＝1,2,...9，j′＝1,2,...9。以第7行为例，此行所有元素均为0，因为式(8)中Type₇为“页眉”，而f_7,j′(y_i)＝0则表示：在文档页面中的当前对象标签y_i若是“页眉”，则“页眉”前不能有任何其他元素。同时，为函数族的每一个函数定义一个权值：

[λ_j,j′]_M×M (11)

这里M×M个权值为模型的待求参数。当给定特定的两个序列：X和Y可以通过特征函数族的加权求和用以评估当前Y与X的契合程度：

显然，对于特定的X，可能的类别序列Y一共有N×M种，那么P(Y|X)可以定义为：

且：

其中，特征函数的个数以及特征函数值即为先验知识，函数族表征了文档版面的先验知识，其将用于指导文档版面结构的自动生成，定义了特征函数族之后，便可以计算式(13)，式(14)说明式(13)满足概率的基本性质，但是通常为了计算方便，使用式(13)的非规范化概率形式：

P(Y|X)∝exp(g(Y|X)) (15)

最终，式(15)定义了图3中第二层彩色直方图序列X(式(5))与第三层类型标签序列Y(式(6))的线性链条随机场，其中，式(10)中的特征函数值根据实际情况进行设置即可，式(11)定义的权值为系统待求参数。

第二步，训练条件随机场模型参数，得到条件随机场中的待求解权值λ_j,j′；

本实施例中，通过设计条件随机场模型中的特征函数值，并且使用优化算法(如：梯度下降法、牛顿法、拟牛顿法等等)求解特征函数权值，最终，完成模型的求解过程，得到文档版面的权值λ_j,j′；

具体的，在求解式(11)定义的权值时，将λ_j,j′假定为相互独立，定义对数似然函数：

然后，式(16)对待求权值求导，寻找驻点：

针对式(17)，可使用梯度下降法、牛顿法、拟牛顿法，等一些列优化算法进行求解。

整个求解λ_j,j′的过程概括如下：

第三步，使用训练好的模型自动生成文档版面布局

基于混合高斯模型随机生成X序列，根据第一步、第二步所获得的条件随机场模型，采用维特比算法求解Y序列，即Y序列表征了自动生成的文档版面布局；

自动生成文档版面布局就是生成图3中第三行的Y序列，即：式(6)。为了自动获得Y序列，可使用图3中第三行的X序列通过式(15)求解得到，利用空间映射关系：“文档对象”空间←→“彩色直方图”空间，使用混合高斯模型实现。

首先需要获得X序列，使用混合高斯模型(Gaussian Mixture Model)：

随机生成X＝[x₁,x₂,...x₈]序列中节点x_i＝[Hist_R(DO_i),Hist_G(DO_i),Hist_B(DO_i)]的红色、绿色、蓝色三个颜色通道的直方图，用以表征文档对象，其中μ_k和

采用随机数自动生成，由此得到X序列，然后利用空间映射关系：“彩色直方图”空间←→“文档对象类型”空间，使用维特比算法(Viterbi algorithm)求解Y序列，即：自动生成文档版面信息。

整个过程归纳为算法2：

第四步，根据生成的版面布局，生成文档对象的具体内容：

首先采集各种文档对象数据，然后使用第三步生成的Y序列生成文档中对象的具体内容；为了生成文档对象的具体内容，需要根据式(4)收集数据集，本实施例采用式(8)的定义收集数据集：

Set_j,j＝1,2,3...M (20)

Set_j对应于式(4)中的Type_j，具体而言，根据式(8)有：

Set₁,Set₂,...Set₉＝文本集,公式集,...页码集 (21)

接着基于第三步生成的Y序列采用TeX标记语言及式(21)的数据集生成文档对象具体内容，生成过程采用“自顶向下”的方法：页面→栏→页面对象。

<1>首先生成页眉；

<2>接着生成页面中的栏目数；

<3>从第一栏开始根据Y序列、式(21)中的数据集，生成页面对象，即：式(1)中的DO_i，同时记录DO_i的空间坐标信息(对象边框信息)：

DO_i-Coors (22)

以及DO_i的具体内容信息(文字编码、公式、图、表，等等)：

DO_i-Content (23)

<4>若文档不止一栏，则当第一栏结束后继续生成第二栏，直至最后一栏结束；

<5>当文档中所有栏目均生成后，生成页脚、页码；

<6>以上过程均采用TeX标记语言实现，根据TeX标记语言，采用PDF引擎自动生成PDF文档。

注：并非式(8)中所有类型的文档对象都需要出现在页面上，例如：一个文档页面允许没有页眉、页脚、页码，也可以只包含文本，主要由算法2的输出Y序列决定。当然，也可以通过人工设置要求页面必须包含特定文档对象。

将以上过程归纳为算法3：

第五步，将文档转换成文档图像，构建文档图像数据集，所述文档图像数据集包括文档图像、文档对象空间坐标信息和文档对象具体内容信息；

根据算法3生成的PDF文档，每一页都转换成文档图像，如图4给出一张自动生成的图像，将每一张生成的文档图像定义为：

DocImage_c,c＝1,2,...Num (24)

Num表示文档图像数据集的图像数量，同时将式(22)所表示的文档对象空间坐标映射至文档图像中，得到：

DO_i-Coors′ (25)

那么，文档图像数据集可表示为：

DocImageSet＝{ele_c},c＝1,2,...Num (26)

ele_c＝{DocImage_c,DO_i,c-Coors′,DO_i,c-Content} (27)

式(26)定义了文档图像数据集，其中ele_c如图5虚线框所示，包含了一张图像中的N个文档对象空间坐标信息(式(27)中DO_i,c-Coors′)，其与N个文档对象具体内容信息一一对应(式(27)中DO_i,c-Content)。

可见，本方案基于条件随机场对文档版面结构进行建模，可有效节省时间和人力成本，避免由于人工标注带来的无效标注；而且使用条件随机场对版面结构进行建模，用以指导生成文档图像的版面结构，使生成的版面更贴近出版物、符合阅读习惯，并且生成文档图像集的同时，能够提供文档图像中文本对象的文字编码信息(ASCII、Unicode等)，提高数据集的利用率及深度学习精度。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作其它形式的限制，任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例应用于其它领域，但是凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型，仍属于本发明技术方案的保护范围。