CN110704570A

CN110704570A - 一种连续页版式文档结构化信息提取方法

Info

Publication number: CN110704570A
Application number: CN201910742447.9A
Authority: CN
Inventors: 徐剑波; 张诗玉; 王磊; 赵东岩
Original assignee: Beijing Zhongxin Boya Technology Co Ltd
Current assignee: Beijing Zhongxin Boya Technology Co Ltd
Priority date: 2019-08-13
Filing date: 2019-08-13
Publication date: 2020-01-17

Abstract

本发明涉及本发明涉及一种连续页版式文档的结构化方法，本发明所述的方法，通过逐页提取连续页版式文档中的文字、字体、字号、位置等信息，通过预处理识别并去除页眉页脚，识别并切分脚注，再把剩下的多页正文内容及脚注内容分别合并成一个虚拟页，再对虚拟页进行版面分析，合并文本块，进行分栏及表格处理，生成文本块表，再利用文本块表的编号、字体字号、对齐等特性按规则进行大纲提取，从而还原整个文件的逻辑结构。采用本发明所述的方法，可以有效去除页眉页脚、脚注等干扰文本，保证分栏的阅读顺序，极大提高文本的结构化正确性，降低人工纠正的工作量，提高效率。

Description

一种连续页版式文档结构化信息提取方法

技术领域

本发明涉及版式文档信息提取领域，尤其涉及一种连续页版式文档结构化信息提取方法。

背景技术

版式文档格式是版面呈现效果固定的电子文档格式，版式文档的呈现与设备无关，在各种设备上阅读、打印或印刷时，其版面的呈现结果都是一致的。版式文档主要应用于成文后文件的发布、传播和存档。常见的版式文档格式有PDF、CEBX、OFD等。版式文档格式定义了多个页面的版面呈现数据、各个页面内部对象(文字、图像、图形等)在版面内的呈现位置、颜色、字体字号等信息，从而使得解析器、阅读器能够逐页按版式来呈现文档内容，便于人的阅读。版式文档中存储的是非结构化的数据，没有记录文档的逻辑结构，没有段落、大纲、表格等元素，不利于信息再利用。因此需要对版式文档进行结构化处理，解析、提取文章的大纲信息、形成段落、提取表格和各种元数据信息等，便于信息的进一步利用。现实中，不同应用领域和应用目标的文档，其排版是不同的。如报纸，因为其版面较大，一个页面往往存在多篇文章，而文章也可能被分层多栏、多块，存在标题、图片绕排等情况，单篇文章往往很少跨越多个版面，每个版面排版较为复杂。而图书的排版，往往页面数量较多，版面较小，规则性较强。现实中存在大量的多页文档，但其长度远小于图书，页面之间的差异性高于图书，但低于报刊，其文档的结构与图书类型，存在章节及大纲，但比图书更加多样化，而比报纸中的文章结构要复杂。对于不同类型的版式文档,需要有不同的结构化处理方法。现有技术中：专利文献“一种基于PDF的复杂版面的标引方法(申请号CN200710179938)”描述了一种对复杂版面的文档结构化方法，主要适用于报刊版面的复杂情况，从单一复杂版面提取多篇新闻文章及构建文章的逻辑结构，但并不适用于多页文档中。

专利文献“用于实现文档结构化的方法和装置(申请号CN201110461670)”描述了一种通过预定义规则来匹配大纲实现文档结构化的方法。这种方法比较适用于图书这样全文规则性较强的多页文档。但这种方法需要预先定义不同的章节等规则，而现实中不同多页文档的规则差异很大，需要针对不同文档分别定义大量的规则，难度较大，效率较低。

专利文献“一种PDF文档结构化信息提取方法及装置(申请号CN201710576556)”描述了一种适用于多页文档的结构化提取方法，但其对页面的处理是逐页处理的，没有考虑到页面之间的关联性，如不同页面的对齐问题，页面存在脚注的问题，在文章的段落、分栏表格等出现跨页时并不能有效处理，正确率低。

因此，要自动对连续页版式文档进行结构化，去除干扰文字，生成正确阅读顺序的文本，提取文章大纲，并保证高的正确率，这是本领域技术人员亟待解决的问题。。

发明内容

为了解决现有技术存在的问题，为达到以上目的，本发明提供一种连续页版式文档结构化信息提取方法。

本发明采用的技术方案是：本发明采用的技术方案是：一种连续页版式文档的结构化方法，包括以下步骤：步骤一、解析版式文档，逐页获取其页面信息及页面中文字块信息；步骤二、对文档进行版面切分；步骤三、为切分后的各个页面中的内容生成虚拟页；步骤四、对生成的虚拟页进行版面分析；步骤五、结构化分析。

优选步骤二的具体步骤如下：识别页眉页脚并进行过滤，逐页计算页面的文本行line的位置信息，计算行高、行距等排版信息；根据据页眉页脚在不同页面的重复性，及位置、行高等特性识别出页眉、页脚的文本块，并从页面中去除，逐页识别脚注，并从页面内容中分离，形成正文短语块集合记为content_spans，及脚注短语块集合记为footnote_spans。

优选述步骤四的具体步骤如下：对虚拟页中的短语块(span)进行排序；把虚拟页面进行分栏处理；提交当前表格；分析完成的结果集为一个列表blocks_list，其中包括文本块block及表格块table_block。

优选步骤五的具体步骤如下：识别目录，并从目录中提取标题；通过版式、字体字号、标号规则，识别标题；利用编号规则同级别编号连续、字体字号、位置相似性，提取大纲信息；利用目录对提取的大纲进行纠错；利用编号连续性进行纠错；提取大纲目录下的子目录；对大纲子目录的甄别。

本发明的有益效果通过自动对连续页版式文档进行结构化，对版式文档进行结构化时，可以有效去除页眉页脚、脚注等干扰文本，保证分栏的阅读顺序，避免跨页带来的干扰，提取文章大纲极大提高文本的结构化正确性，降低人工纠正的工作量，提高效率，并保证高的正确率。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：图1为一种连续页版式文档结构化信息提取方法步骤的示意图。图2为提取大纲目录下子目录的流程图。

具体实施方式

以下结合附图对本发明的示范性实施方式做出说明，其中包括本发明实施方式的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施方式做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述一种连续页版式文档的结构化方法，包括以下步骤：

1、解析版式文档，逐页获取其页面信息及页面中文字块信息，其中：

a)页面信息包括页面大小信息

b)文字块信息包括支字符内码、颜色、位置(用包围矩形)、字体字号、斜体加粗等信息，文字块集合记为raw_objs

c)文字块在版式文档的原始输出顺序号(记为idx)

d)对文档内容进行预处理，具体包括：

i.过滤非法字符，过滤页面区域外的文字块，过滤视觉上不可见文本信息(或白色文字信息)

ii.对文本块进行同行临近合并操作，合并同行具有相同属性(字体、字号、加粗)的短语块,合并后的短语块集合记为spans。

2、对文档进行版面切分，具体包括：

a)识别页眉页脚并进行过滤

i.逐页计算页面的文本行(line)的位置信息，计算行高、行距等排版信息

ii.根据页眉页脚在不同页面的重复性，及位置、行高等特性识别出页眉、页脚的文本块，并从页面中去除

b)识别并分离脚注

i.逐页识别脚注，并从页面内容中分离，形成正文短语块集合(记为content_spans)，及脚注短语块集合(记为footnote_spans)

3、为切分后的各个页面中的内容生成虚拟页

a)把各页面的正文合并生成一个虚拟页面，把各页面的脚注合并生成另一个虚拟页面。生成虚拟页的好处是整篇文档的正文(及脚注)

分别位于独立的一个页面，后续的版面分析等处理流程，不再需要考虑跨页问题，极大简化了处理流程，提高了准确度

b)生成虚拟页的步骤包括：

i.统计各页面内文本的行距信息

ii.对拼接前的逐页获取其版心位置，计算各页的版心的水平偏离值(x_off)。(版面存在奇偶页不对齐的情况，引入偏离量来使得对齐后的不同页面的内容左右位置一致)

iii.构建一个虚拟页，逐个遍历拼接前的页面，保证上一页的尾部与下一页的顶部相连，中间相隔一个行间距，具体步骤为：

1.初始化y_off为0

2.把待处理页面中的文本块按在原页面的位置水平平移该页面的水平偏离值(x_off)，垂直平移(y_off)后放入虚拟页

3.把y_off加上本页面的高度，再加上一个行间距

c)计算奇偶页面偏离值的方法为：

i.把页面分为奇数页与偶数页两个集合，分别计算页面集合中的每一个页面的版心左边界位置。以页面内各文本行左边界中，最左边的位置作为页面的版心左边界位置。

ii.统计页面集合中的版心的左边界分布情况，以众数作为集合的页面左边界

iii.计算偶数页集合相对奇数页集合的左边界相对偏移值

4、对生成的虚拟页进行版面分析

a)对虚拟页中的短语块(span)进行排序，对临近的短语块按从左到右、从上到下的阅读顺序合并，合并后的文本块记为(block)。临近的判断标准为垂直方向距离不超过一个行距，水平方向距离不超过一个字符宽度。

b)进行分栏处理，把虚拟页面先按水平切分成多个行(row)，切分的依据为存在水平贯通的空白区域，初始化一个空的集合作为当前表格，逐行处理：

i.对每行(row)按竖直进行切分成多个栏，切分的依据为行内存在垂直贯通的空白区域

ii.如果未能切分为多栏，则把本行的多个块合并为一个文本块(block)。如果当前表格不为空，提交当前表格。

iii.如果切分为2栏或以上，则：

1.把每个栏的多个文本块分别合并为一个文本块

2.与上一相邻行(row)进行栏对齐判断

a)如果两行的分栏是对齐，则判断当前行与上一行是否为纵向阅读，如果为纵向阅读，则把当前行的各个栏与上一行的对应栏合并为一个文本块，把合并后的多个栏替换到上一行中；如果非纵向阅读，则把上一行加入到当前表格集合中

b)如果分栏不对齐，则提交当前表格，把当前行作为当前表格行

iv.最后一行处理结束后，如果当前表格非空，则提交当期表格

c)提交当前表格的步骤：

i.如果当前表格非空，则把当前表格集合中的多个行合并为一个表，加入到结果集中

ii.把当前表格重新初始化为空集合

d)判断一组块中间是否存在水平贯通空白区域的方法：

i.把待检测的一组块按包围矩形上沿从上到下排序

ii.初始化当前包围矩形(group_bbox)为第一个块的包围矩形iii.逐个遍历剩余块，对每个块：

1.检查group_bbox是否与当前块的矩形存在纵向交叠，如果交叠，则把group_bbox与当前块的矩形求最小合并矩形，作为新的group_bbox；继续遍历下一个块

2.如果未纵向交叠，则判断为存在水平贯通区域，已经遍历的多个块为一个表格行(row)

e)判断一组块中间是否存在垂直贯通空白区域的方法：

i.把待检测的一组块按包围矩形左沿从左到右排序

1.检查group_bbox是否与当前块的矩形存在水平交叠，如果交叠，则把group_bbox与当前块的矩形求最小合并矩形，作为新的group_bbox；继续遍历下一个块

2.如果未纵向交叠，则判断为存在垂直贯通区域，已经遍历的多个块为一个栏

f)判断两行(多栏文本块)是否对齐的方法为：

i.遍历上一行的多个文本块，对任意一个文本块，统计下一行的文本块与其存在交叠的数量。如果数量不是一个，则终止遍历，判为非对齐。

ii.遍历完成后，所有的数量均为一个，则判为对齐。

g)判断两行(多栏文本块,设栏数为col_num)的阅读顺序的方法为：

i.计算两行多栏中，每个文本中各字符的原始输出顺序的平均值，作为给该文本块的序号。得到2*col_num的序号矩阵。

ii.用序号矩阵的第二行减去第一行对于的值，得到col_num个差值

iii.如果col_num个差值近似相等(差不超过指定阈值)，则视为纵向阅读；否则视为横向阅读

h)分析完成的结果集为一个列表(blocks_list)，其中包括文本块(block)及表格块(table_block)

5、结构化分析(从blocks_list生成section_list)

i.根据目录所在位置特征确定目录块，规则包括：

1.对非图书的版式文档，若存在目录，则一定出现在文章前几页内；

3.大量连续的含编号的文本块，如：“第一章xxx”、“第一节xxx”、“1.xxx”“1.1xxx”；

4.含页码的目录格式，如“1.xxx………………1”；

ii.从目录所在块按行提取大纲标题信息

b)通过版式、字体字号、标号规则，识别标题

i.若存在目录，从目录之后的文本块开始搜索大纲标题

ii.根据如下标准(满足一项或多项)依次获得可能作为大纲标题的短语块

1.左右居中、加粗或字号较大、距离前一个文本块有足够大的距离；

2.满足常见的编号规则，如“第一章”“第二节”“一、”“1.1”“1.1.1”等

iii.过滤不可能作为大纲标题的包含编号的短语块(后续同字体字号内容包含句号等句末符号的)

c)利用编号规则(同级别编号连续、字体字号、位置相似性)，提取大纲信息

i.根据标题短语块编号规则和版式相似性对不同标题分类，比如同字体的居中的作为一类，编号为第x章的作为一类，编号格式为1.1、1.2、2.1、3.1等作为一类(一般同类型编号的也要求字体字号相近)

ii.根据当前不同类别标题在全文中的分布位置进行筛选和层级确定

1.标题中首个居中的较大字体短语块、或首个对应编号为1的标题作为第一个大纲标题，其所属类别作为一级标题；

2.确定一级标题后，其后出现的标题中，根据出现顺序依次确定各类别标题的层级

3.为了保证如上确定的标题层级正确性，对非一级标题进行简单过滤，对出现次数过少，或并未在大多数一级标题下均出现的标题均不作为大纲标题

d)利用目录对提取的大纲进行纠错

i.将利用编号规则提取的大纲和目录给定的大纲相匹配，要求编号和标题内容能对应；

ii.对编号规则未提取的标题，利用目录提供的大纲标题信息(编号和标题内容)在全文中搜索提取大纲标题

e)利用编号连续性进行纠错

i.当前提取的大纲标题中编号是否存在缺失导致不连续(如仅有第一章、第三章，中间不存在第二章)；

ii.若存在缺失，根据其所在位置区间(如第二章一定在第一章和第三章之间)从全文中根据编号和该层级其他标题的字体字号搜索确定该大纲标题所在位置；

i.对已完成大纲提取的文章章节，根据编号规则和版式相似性再进行子目录的提取。即将一个section按照编号规则和版式相似性拆分成一个section list

ii.根据每一种相同特征(编号规则、字体、字号等信息)，确定本章节的一个候选子目录的流程如下：

1.对与一个section，合并这个section下所有的span，组装一个span list

2.对span list进行遍历，按照每个span的编号规则，形成多个序列

3.对于每个序列，确定是否放入候选子目录，判断依据为：序号是否连续；字体、字号是否相同

iii.通过对所有候选子目录的甄别、比较，确定本章节最终的子目录

g)大纲子目录的甄别

i.章节候选子目录的甄别，主要是通过判断候选子目录的每一个分割内容是否具有“标题-内容”特征，确定此候选是否是一个合格的目录。

ii.判断符合“标题-内容”特征主要方法为：大部分子目录内容都能辨识标题；大部分子目录内容都有一定长度等

h)大纲子目录的比较

i.章节候选子目录的比较，主要是从本章节的多个候选中，确定一个最合理的结果

ii.候选之间最主要比较办法为：通过候选的目录分布，确定候选之间的父子关系，父亲候选优先作为最终结果；

iii.如果儿子候选的目录特征非常明显，但是父亲候选的目录特征不明显，则将父亲候选重新放入结果中；

iv.如果被淘汰的候选和大纲目录从编号规则上有明显的父子关系，则淘汰此章节的所有子目录候选。

Claims

1.一种连续页版式文档的结构化方法，其特征是，包括以下步骤：步骤一、解析版式文档，逐页获取其页面信息及页面中文字块信息；步骤二、对文档进行版面切分；步骤三、为切分后的各个页面中的内容生成虚拟页；步骤四、对生成的虚拟页进行版面分析；步骤五、结构化分析。

2.根据权利要求1所述一种连续页版式文档的结构化方法，其特征是；所述步骤二的具体步骤如下：识别页眉页脚并进行过滤，逐页计算页面的文本行line的位置信息，计算行高、行距等排版信息；根据据页眉页脚在不同页面的重复性，及位置、行高等特性识别出页眉、页脚的文本块，并从页面中去除，逐页识别脚注，并从页面内容中分离，形成正文短语块集合记为content_spans，及脚注短语块集合记为footnote_spans。

3.根据权利要求1所述一种连续页版式文档的结构化方法，其特征是；所述步骤四的具体步骤如下：对虚拟页中的短语块span进行排序；把虚拟页面进行分栏处理；提交当前表格；分析完成的结果集为一个列表blocks_list，其中包括文本块block及表格块table_block。

4.根据权利要求1所述一种连续页版式文档的结构化方法，其特征是；所述步骤五的具体步骤如下：识别目录，并从目录中提取标题；通过版式、字体字号、标号规则，识别标题；利用编号规则同级别编号连续、字体字号、位置相似性，提取大纲信息；利用目录对提取的大纲进行纠错；利用编号连续性进行纠错；提取大纲目录下的子目录；对大纲子目录的甄别；大纲子目录比较。

5.根据权利要求1所述一种连续页版式文档的结构化方法，其特征是；所述步骤三中生成虚拟页面为把各页面的正文合并生成一个虚拟页面，把各页面的脚注合并生成另一个虚拟页面。

6.据权利要求1所述一种连续页版式文档的结构化方法，其特征是；所述步骤三中生成虚拟页面步骤包括，统计各页面内文本的行距信息；

对拼接前的逐页获取其版心位置，计算各页的版心的水平偏离值x_off，版面存在奇偶页不对齐的情况，引入偏离量来使得对齐后的不同页面的内容左右位置一致，构建一个虚拟页，逐个遍历拼接前的页面，保证上一页的尾部与下一页的顶部相连，中间相隔一个行间距，具体步骤为：初始化y_off为0，把待处理页面中的文本块按在原页面的位置水平平移该页面的水平偏离值x_off，垂直平移y_off后放入虚拟页，把y_off加上本页面的高度，再加上一个行间距。