CN107291682A

CN107291682A - 一种基于跳转处理及双重校验的多篇电子文档分篇算法

Info

Publication number: CN107291682A
Application number: CN201610191135.XA
Authority: CN
Inventors: 王艳; 袁仁慧; 梁洵
Original assignee: TONGFANG KNOWLEDGE NETWORK (BEIJING) TECHNOLOGY Co Ltd
Current assignee: TONGFANG KNOWLEDGE NETWORK (BEIJING) TECHNOLOGY Co Ltd
Priority date: 2016-03-30
Filing date: 2016-03-30
Publication date: 2017-10-24
Anticipated expiration: 2036-03-30
Also published as: CN107291682B

Abstract

本发明公开了一种基于跳转处理及双重校验的多篇电子文档分篇算法,篇名标引特征提取及特征组合，根据多篇电子文档的文章字体字号、空间位置、语种属性等，提取篇名特征，并将这些特征不同权重组合，形成篇名判定函数、判定函数中,步骤二，根据特征组合提取文档的文章篇名(即文章的起始位置)，对输入的电子文档的含字体信息位置信息的字符流进行合并行预处理,步骤三，基于印刷页码提示和基于分割线提示的跳转内容检索及处理，步骤四，文章终止位置的确定，获得文章篇名和处理完跳转内容后，判定文章终止位置及文章页码范围，步骤五，文章要素项数据提取，根据文章元素内容验证文章有效性及再标引。

Description

一种基于跳转处理及双重校验的多篇电子文档分篇算法

技术领域

本发明新型涉及基于跳转处理及篇名双重校验的多篇电子文档分篇方法技术领域，具体为一种基于跳转处理及篇名双重校验的多篇电子文档分篇方法。

背景技术

伴随着计算机和互联网技术的发展，如何根据用户多元的需求制作出多元化的数字产品已经是当前行业面临的主要问题，实现产品的多元化加工，必然要求前期的数据加工的规范化，碎片化，多篇文章的电子文档是数字出版行业需要处理一大类数据，实现此种电子文档的分篇是实现这种数据碎片化的基础，因此，对于此类文章的准确分篇有着十分重要的意义，现有技术中，专利CN101673256A公布的“一种基于文字流的文章元数据自动抽取方法及系统”提出利用规则模板提取文章元数据方法，处理文章内部元数据，不能处理处理多篇文章电子文档，专利CN102375808A公布“一种文档篇名提取方法和装置”利用预先设置的关键词及长度限制提取文档篇名，不能实现自动提取文章篇名并且对于没有明显关键词的篇名不具有适用性，专利CN101206639A公布“一种基于PDF的复杂版面的标引方法”提出针对报刊的文字块的生成和合并规则和整个提取内容和位置等信息的流程，简单根据文字块的属性判定文章，侧重电子文档的基础信息提取，并没有对分篇提出完整有效方案，专利CN200410091432.4公布的“一种对报纸版面进行篇名与正文逻辑关联的方法”利用语义的关联处理报刊的篇名与正文的匹配，属于语义识别范围，需要词库的支持，实现比较复杂。

发明新型内容

本发明新型的目的在于提供一种基于跳转处理及篇名双重校验的多篇电子文档分篇方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明新型提供如下技术方案：一种基于跳转处理及篇名双重校验的多篇电子文档分篇方法，包括以下步骤：

步骤一：篇名标引特征提取及特征组合，根据多篇电子文档的文章字体字号、空间位置、语种属性等，提取篇名特征，并将这些特征不同权重组合，形成篇名判定函数、判定函数中，判定函数的表示如下，(Text.English＝0)&&(height>＝(TextHeight*1.5))&&(Text.Length>Th1)&&((X2-X1)>Th2)&&(((LeftSpace>Th3)+(RightSpace>Th3)+(TopSpace>(TextRowSpace*1.5))+(BottomSpace>(TextRowSpace*1.5))+(Align&1)+(height>＝(TextHeight*1.8))+(Y1<(PageHeight/3))+(font＝maxfontofpage))>＝Th4)，判定函数中，使用了语种，字体高度，字符长度，文本宽度，行左间距，行右间距，上下行距，居中居左居右属性，文本位置属性等九种特征组合，上述伪代码中，Text表示输入行字符串内容，English表示文本的英文属性，height表示文本行的高度，TextHeight为统计文档获得的文档的平均行高，X1,X2,Y1,Y2分别表示文本行块的左右上下位置坐标，LeftSpace,RightSPace,TopSpace,BottomSpace分别表示文本行的左右上下间距，TextRowSpace表示文档的平均行间距，Align表示文本行的居中居左或居右属性，font表示文本行字体高度，maxfontofpage表示统计获得的文档最大字体高度，上述表达式中+表示属性的叠加，表示文本行满足上述表达式中Th4个即可判读为篇名，该种判别函数融合多种篇名特征，具有较大的适应性。

步骤二：根据特征组合提取文档的文章篇名(即文章的起始位置)，对输入的电子文档的含字体信息位置信息的字符流进行合并行预处理，获得以行为单位的文字块，并统计单位块的行特征(行高，行字体，语种属性等)，根据特征组合形成的篇名判定函数搜索判定函数值为真的文本行串，提取文档的文章篇名(即文章的起始位置)，对于输入的字符流进行行合并，根据字符流顺序，判断水平方向位置交叉且字体高度相差小于阈值的字符合并为一行，即(min(Bt1，Bt2)-max(Tp1，Tp2))>Th1&&(Lf1-Lf2)<Th2&&(Font1-Font2<Th3,其中Bt、Bt2、Tp1、Tp2、Lf1、Lf2、Font1和Font2分别为输入两个字符的下，上，左位置及字体高度，Th1、Th2和Th3分别为两个字水平交叉阈值，左右距离阈值，字体高度差距阈值，阈值根据统计获得文档平均行高，字体高度给出，获得合并行后，统计并记录行的高度、字体、语种和位置等特征，根据电子文档页眉页脚在多页上具有相似性的特征，在文档多个页面的页眉页脚候选区域搜索相似内容，确定页眉页脚与正文的分割位置，页眉(页脚)搜索方法的具体实现步骤为，Step1.搜索间隔步长t₁＝1，搜索起始页P为页码范围内某常数，Step2.设起始页增值i＝0，Step3.后续搜索页间隔数n＝1，Step4.设起始页pi＝p+i,i＝0、3、6......24，当前搜索页p2为p2＝p1+n*t1，Step5在页p1,p2的页眉(页脚)候选区，搜索位置与内容相似的文本块，若未找到，则i＝i+1，跳转至Step6，若找到，则令n＝n+1，跳转至Step4，Step6.如果n<3，返回Step4继续执行，否则跳转至Step9，Step7.如果i<10，令i＝i+1返回Step3，否则跳转至Step8，Step8.如果t1<4，令t1＝t1+1，返回Step2，否则跳转至Step10，Step9.找到页眉(页脚)内容，将存储的文本块合并获得页眉底部位置(页脚顶部位置)为页眉(页脚)与正文的分割位置，设置有效的页眉(页脚)位置，Step10.未找到页眉(页脚)区，将页眉(页脚)位置设为无效值，此页眉页脚搜索方法通过变步长多页搜索，能兼容奇偶页页眉页脚排版不同，文章首页页眉页脚排版不同的情况，具有较大的稳定性及适应性，在获得文档行及行属性后，依据步骤一中给出判定函数，搜索符合判定函数的正文行(页眉页脚行除外)，判定为文章的篇名。

步骤三：基于印刷页码提示和基于分割线提示的跳转内容检索及处理，跳转是指为了排版的美观及版面的合理利用，将部分文章的尾部内容排版在其他文章后面，本发明中将有跳转内容文章的连续排版的末尾处称为跳转位置，将跳转内容起始处称为接续位置，根据文档跳转一般分为印刷页码提示跳转和基于分割线提示的跳转两种情况处理。

步骤四：文章终止位置的确定，获得文章篇名和处理完跳转内容后，判定文章终止位置及文章页码范围，文章终止位置依据文章内容完结处有较大空白行或者空页或者跳转内容结束位置确定，本方法统计标引出篇名的居顶属性，对于文章居顶的文档，当前文章结束位置为下一文章篇名的前一页，非居顶文章则根据下一篇文章篇名及其前的空白位置确定。

步骤五：文章要素项数据提取，根据文章元素内容验证文章有效性及再标引，确定文章起止范围后，在文章内部提取文章要素项数据，文章要素项包括作者和机构、摘要、关键词和参考文献等，根据视觉特征和内容关键词特征相结合的原则，提取每篇文章的要素项，获得文章要素项后，根据以下规则判定当前文章的有效性，((Abstract+Keyword+CLCNum+DocCode+Fund+AuthorInfo)>＝Th1)||((TITLE.HEIGHT>TextHeight*1.75)&&((TITLE.LeftSpace>Th2)&&(TITLE.RightSpace>Th3)&&TITLE.TopSpace>(TextRowSpace*1.5))&&(TITLE.BottomSpace>(TextRowSpace*1.5))&&(TITLE.Align&1)，上述特征组合的字符含义同步骤一中，表达式文章有效性判断规则为，有效文章需满足超过阈值个要素项或者满足典型篇名的视觉特征(行高，居中，左右上下行间距特征等)，若判为无效文章则删除此文章，并返回步骤三重新处理其前篇文章；

步骤六：文章目录链接及基于目录链接置文章置信度，文章目录链接及基于目录的有效性验证及再标引，目录是文章的提纲，含有文章的篇名及页码范围信息，本发明将文档前后的非文章页码区域设置为页码候选区，根据已经获得文章篇名，依次在每个目录区候选页上匹配文章篇名，并统计匹配上的篇名个数，如果超过个数阈值，则将此页加入到目录区，依次搜索获得所有目录页，获得所有目录页后，首先分析目录页目录条目排版版式，通过统计目录条目标识符及数字排版特征，并处理目录折行情况，确定目录版式，根据版式解析目录条目，以文章篇名顺序，依次以相似度递减方式匹配目录条目，获得相似度最高的目录条目作为文章篇名的链接，如果相似度低于阈值，则当前文章未找到目录链接，统计整体目录链接正确率，如果正确率高于一定阈值，则此目录链接可作为判定分篇置信度的依据，利用目录条目页码检查分篇情况，并设置对应文章的置信度，获得文章篇名的目录链接后，统计整体链接正确率，如果链接正确率超过一定阈值，链接可信度较高，根据链接目录条目对应的提示页码检查文章页码范围，并给文章设置相应置信度，本算法中暂将置信度分为三个等级，第一级，文章目录链接没有链上，此级为可信度较低文章，需要重点检查文章分篇及页码情况，第二级，文章目录链接链上，但是目录页码与分篇获得页码不一致，此级为中间置信度，需要检查页码情况，第三级，文章目录链接链上，并且目录页码与分篇获得页码一致，此级置信度可以确定此文章分篇正确。

优选的，在步骤二中，对于输入的字符流进行行合并，根据字符流顺序，判断水平方向位置交叉且字体高度相差小于阈值的字符合并为一行，获得合并行后，统计并记录行的高度，字体，语种，位置等特征，然后，根据电子文档页眉页脚在多页上具有相似性的特征，在文档多个页面的页眉页脚候选区域搜索相似内容，确定页眉页脚与正文的分割位置，在获得文档行及行属性后，依据步骤一中给出判定函数，搜索符合判定函数的正文行(页眉页脚行除外)，判定为文章的篇名。

优选的，在步骤三中，印刷页码提示即，文章跳转位置和接续位置均有印刷页码提示，处理此种情况的跳转首先需要获得文档的印刷页码，本发明根据印刷页码在多页间的连续递增性及位置的相似性，在文本行中，首先在多个页面获得数字行，然后通过匹配数字行数字的连续性及位置的相似性，搜索获得文章的印刷页码，获得印刷页码后搜索跳转提示，文档的跳转提示一般形式比较固定，通过正则表达式匹配，找到跳转提示行，获得提示印刷页码，跳转到所指示的印刷页码，同样搜索接续提示，搜索获得接续提示后，处理跳转，处理跳转实现跳转内容的“逻辑搬移”，将接续内容所属的页面调整到提示跳转的位置。

优选的，在步骤三中，基于分割线的跳转即，当前文章的内容73排版在下一篇文章首页的下部，并用分割线提示，分割线一般分为两种，直线和花纹线，根据pdf取词特点，直线一般按直线图形元素取出，花纹线按文字元素取出，被解析为一行相同的字符，对应分割线的提取，根据分割线一般在下篇文章首页的规则，获得文章篇名后，通过在文章篇名页搜索直线获得分割线，直线分割线通过读取PDF直线元素读取，花纹线则通过搜索同行相同字符及位置确定，确定分割线后将分割线下内容“逻辑搬移”至跳转处，完成跳转处理。

优选的，在步骤三中，逻辑搬移是指将接续内容所在行的物理页码标为跳转位置所在页页码，接续内容的跳转页属性设置为接续位置所在页页码(其所在的物理页码)，并调整接续内容行在行链表中的位置，接续到跳转位置，跳转内容还有不跨页规则，即跳转内容从接续位置开始到接续位置所在页结束为止，此规则用于确定跳转内容的终止及文章终止位置。

与现有技术相比，本发明新型的有益效果是：该发明篇名搜索步骤采用基于特征的组合，该判断函数融合篇名多元特征，具有较为广泛的适应性，文章跳转内容的处理使得文章分篇克服跳转这种特殊排版，获得准确的分篇效果，该方法中采用文章有效要素项数据校验及目录链接校验，有效降低文章篇名错识率，从而提升了分篇准确率，并且通过置信度评判分篇的准确性，便于后续检查，该方法通过页眉页脚搜索方法，有效定位页眉页脚位置，使得分篇不受页眉页脚内容干扰，较大提升了分篇准确率。

附图说明

图1为本发明的分篇方法流程图；

图2为本发明的跳转内容分类处理流程图；

图3为本发明的目录链接实现流程图；

图4为本发明的分篇文章及文章页码范围图；

图5为本发明的跳转提示与接续提示位置示例图；

图6为本发明的文章列表与对应目录链接图；

图7为本发明的分割线提示跳转示例图。

图中：S11标题特征组合函数提取、S12搜索标题、S13跳转内容处、S14文章终止内容获得、S15是否有效文章、S16目录链接及文章置信度设置、S21印刷页页码提示跳转提示搜索、S22分割线识别和滤除干扰线、S23跳转内容搬移处理、S31获得所以目录页范围、S32分析目录页目录排版样式解析目录条目并对标题进行链接、S33根据链接情况设置每篇文章的置信度、S41文章的物理页码范围、S42文章的印刷页码范围、S43文章篇名列、S51跳转位置提示、S52跳转接续位置提示、S61文章目录链接上、S62文章目录链接不上、71分割线提示跳转、S72下一篇文章首页内容、S73当前文章的内容。

具体实施方式

下面将结合本发明新型实施例中的附图，对本发明新型实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明新型一部分实施例，而不是全部的实施例。基于本发明新型中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明新型保护的范围。

请参阅图1-7，实施例

一种基于跳转处理及篇名双重校验的多篇电子文档分篇方法，包括以下步骤：

步骤二：根据特征组合提取文档的文章篇名(即文章的起始位置)，对输入的电子文档的含字体信息位置信息的字符流进行合并行预处理，获得以行为单位的文字块，并统计单位块的行特征(行高，行字体，语种属性等)，根据特征组合形成的篇名判定函数搜索判定函数值为真的文本行串，提取文档的文章篇名(即文章的起始位置)，对于输入的字符流进行行合并，根据字符流顺序，判断水平方向位置交叉且字体高度相差小于阈值的字符合并为一行，即(min(Bt1，Bt2)-max(Tp1，Tp2))>Th1&&(Lf1-Lf2)<Th2&&(Font1-Font2<Th3,其中Bt、Bt2、Tp1、Tp2、Lf1、Lf2、Font1和Font2分别为输入两个字符的下，上，左位置及字体高度，Th1、Th2和Th3分别为两个字水平交叉阈值，左右距离阈值，字体高度差距阈值，阈值根据统计获得文档平均行高，字体高度给出，获得合并行后，统计并记录行的高度、字体、语种和位置等特征，根据电子文档页眉页脚在多页上具有相似性的特征，在文档多个页面的页眉页脚候选区域搜索相似内容，确定页眉页脚与正文的分割位置，页眉(页脚)搜索方法的具体实现步骤为，Step1.搜索间隔步长t₁＝1，搜索起始页P为页码范围内某常数，Step2.设起始页增值i＝0，Step3.后续搜索页间隔数n＝1，Step4.设起始页pi＝p+i,i＝0、3、6......24，当前搜索页p2为p2＝p1+n*t1，Step5在页p1,p2的页眉(页脚)候选区，搜索位置与内容相似的文本块，若未找到，则i＝i+1，跳转至Step6，若找到，则令n＝n+1，跳转至Step4，Step6.如果n<3，返回Step4继续执行，否则跳转至Step9，Step7.如果i<10，令i＝i+1返回Step3，否则跳转至Step8，Step8.如果t1<4，令t1＝t1+1，返回Step2，否则跳转至Step10，Step9.找到页眉(页脚)内容，将存储的文本块合并获得页眉底部位置(页脚顶部位置)为页眉(页脚)与正文的分割位置，设置有效的页眉(页脚)位置，Step10.未找到页眉(页脚)区，将页眉(页脚)位置设为无效值，此页眉页脚搜索方法通过变步长多页搜索，能兼容奇偶页页眉页脚排版不同，文章首页页眉页脚排版不同的情况，具有较大的稳定性及适应性，在获得文档行及行属性后，依据步骤一中给出判定函数，搜索符合判定函数的正文行(页眉页脚行除外)，判定为文章的篇名，在步骤二中，对于输入的字符流进行行合并，根据字符流顺序，判断水平方向位置交叉且字体高度相差小于阈值的字符合并为一行，获得合并行后，统计并记录行的高度，字体，语种，位置等特征，然后，根据电子文档页眉页脚在多页上具有相似性的特征，在文档多个页面的页眉页脚候选区域搜索相似内容，确定页眉页脚与正文的分割位置，在获得文档行及行属性后，依据步骤一中给出判定函数，搜索符合判定函数的正文行(页眉页脚行除外)，判定为文章的篇名。

步骤三：基于印刷页码提示和基于分割线提示的跳转内容检索及处理，跳转是指为了排版的美观及版面的合理利用，将部分文章的尾部内容排版在其他文章后面，本发明中将有跳转内容文章的连续排版的末尾处称为跳转位置，将跳转内容起始处称为接续位置，根据文档跳转一般分为印刷页码提示跳转和基于分割线提示的跳转两种情况处理，印刷页码提示即，文章跳转位置和接续位置均有印刷页码提示，处理此种情况的跳转首先需要获得文档的印刷页码，本发明根据印刷页码在多页间的连续递增性及位置的相似性，在文本行中，首先在多个页面获得数字行，然后通过匹配数字行数字的连续性及位置的相似性，搜索获得文章的印刷页码，获得印刷页码后搜索跳转提示，文档的跳转提示一般形式比较固定，通过正则表达式匹配，找到跳转提示行，获得提示印刷页码，跳转到所指示的印刷页码，同样搜索接续提示，搜索获得接续提示后，处理跳转，处理跳转实现跳转内容的“逻辑搬移”，将接续内容所属的页面调整到提示跳转的位置，基于分割线的跳转即，当前文章的内容排版在下一篇文章首页的下部，并用分割线提示，分割线一般分为两种，直线和花纹线，根据pdf取词特点，直线一般按直线图形元素取出，花纹线按文字元素取出，被解析为一行相同的字符，对应分割线的提取，根据分割线一般在下篇文章首页的规则，获得文章篇名后，通过在文章篇名页搜索直线获得分割线，直线分割线通过读取PDF直线元素读取，花纹线则通过搜索同行相同字符及位置确定，确定分割线后将分割线下内容“逻辑搬移”至跳转处，完成跳转处理，逻辑搬移是指将接续内容所在行的物理页码标为跳转位置所在页页码，接续内容的跳转页属性设置为接续位置所在页页码(其所在的物理页码)，并调整接续内容行在行链表中的位置，接续到跳转位置，跳转内容还有不跨页规则，即跳转内容从接续位置开始到接续位置所在页结束为止，此规则用于确定跳转内容的终止及文章终止位置。

尽管已经示出和描述了本发明新型的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明新型的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明新型的范围由所附权利要求及其等同物限定。

Claims

1.一种基于跳转处理及双重校验的多篇电子文档分篇算法，其特征在于：包括以下步骤：

步骤五：文章要素项数据提取，根据文章元素内容验证文章有效性及再标引，确定文章起止范围后，在文章内部提取文章要素项数据，文章要素项包括作者和机构、摘要、关键词和参考文献等，根据视觉特征和内容关键词特征相结合的原则，提取每篇文章的要素项，获得文章要素项后，根据以下规则可以判定当前文章的有效性,((Abstract+Keyword+CLCNum+DocCode+Fund+AuthorInfo)>＝Th1)||((TITLE.HEIGHT>TextHeight*1.75)&&((TITLE.LeftSpace>Th2)&&(TITLE.RightSpace>Th3)&&TITLE.TopSpace>(TextRowSpace*1.5))&&(TITLE.BottomSpace>(TextRowSpace*1.5))&&(TITLE.Align&1)，上述特征组合的字符含义同步骤一中，表达式文章有效性判断规则为，有效文章需满足超过阈值个要素项或者满足典型篇名的视觉特征(行高，居中，左右上下行间距特征等)，若判为无效文章则删除此文章，并返回步骤三重新处理其前篇文章；

2.根据权利要求1所述的一种基于跳转处理及篇名双重校验的多篇电子文档分篇方法，其特征在于：在步骤二中，对于输入的字符流进行行合并，根据字符流顺序，判断水平方向位置交叉且字体高度相差小于阈值的字符合并为一行，获得合并行后，统计并记录行的高度，字体，语种，位置等特征，然后，根据电子文档页眉页脚在多页上具有相似性的特征，在文档多个页面的页眉页脚候选区域搜索相似内容，确定页眉页脚与正文的分割位置，在获得文档行及行属性后，依据步骤一中给出判定函数，搜索符合判定函数的正文行(页眉页脚行除外)，判定为文章的篇名。

3.根据权利要求1所述的一种基于跳转处理及篇名双重校验的多篇电子文档分篇方法，其特征在于：在步骤三中，印刷页码提示即，文章跳转位置和接续位置均有印刷页码提示，处理此种情况的跳转首先需要获得文档的印刷页码，本发明根据印刷页码在多页间的连续递增性及位置的相似性，在文本行中，首先在多个页面获得数字行，然后通过匹配数字行数字的连续性及位置的相似性，搜索获得文章的印刷页码，获得印刷页码后搜索跳转提示，文档的跳转提示一般形式比较固定，通过正则表达式匹配，找到跳转提示行，获得提示印刷页码，跳转到所指示的印刷页码，同样搜索接续提示，搜索获得接续提示后，处理跳转，处理跳转实现跳转内容的“逻辑搬移”，将接续内容所属的页面调整到提示跳转的位置。

4.根据权利要求1所述的一种基于跳转处理及篇名双重校验的多篇电子文档分篇方法，其特征在于：在步骤三中，基于分割线的跳转即，当前文章的内容排版在下一篇文章首页的下部，并用分割线提示，分割线一般分为两种，直线和花纹线，根据pdf取词特点，直线一般按直线图形元素取出，花纹线按文字元素取出，被解析为一行相同的字符，对应分割线的提取，根据分割线一般在下篇文章首页的规则，获得文章篇名后，通过在文章篇名页搜索直线获得分割线，直线分割线通过读取PDF直线元素读取，花纹线则通过搜索同行相同字符及位置确定，确定分割线后将分割线下内容“逻辑搬移”至跳转处，完成跳转处理。

5.根据权利要求1或3或4所述的一种基于跳转处理及篇名双重校验的多篇电子文档分篇方法，其特征在于：在步骤三中，逻辑搬移是指将接续内容所在行的物理页码标为跳转位置所在页页码，接续内容的跳转页属性设置为接续位置所在页页码(其所在的物理页码)，并调整接续内容行在行链表中的位置，接续到跳转位置，跳转内容还有不跨页规则，即跳转内容从接续位置开始到接续位置所在页结束为止，此规则用于确定跳转内容的终止及文章终止位置。