CN107291682A - 一种基于跳转处理及双重校验的多篇电子文档分篇算法 - Google Patents

一种基于跳转处理及双重校验的多篇电子文档分篇算法 Download PDF

Info

Publication number
CN107291682A
CN107291682A CN201610191135.XA CN201610191135A CN107291682A CN 107291682 A CN107291682 A CN 107291682A CN 201610191135 A CN201610191135 A CN 201610191135A CN 107291682 A CN107291682 A CN 107291682A
Authority
CN
China
Prior art keywords
article
name
page
page number
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610191135.XA
Other languages
English (en)
Other versions
CN107291682B (zh
Inventor
王艳
袁仁慧
梁洵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TONGFANG KNOWLEDGE NETWORK (BEIJING) TECHNOLOGY Co Ltd
Original Assignee
TONGFANG KNOWLEDGE NETWORK (BEIJING) TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TONGFANG KNOWLEDGE NETWORK (BEIJING) TECHNOLOGY Co Ltd filed Critical TONGFANG KNOWLEDGE NETWORK (BEIJING) TECHNOLOGY Co Ltd
Priority to CN201610191135.XA priority Critical patent/CN107291682B/zh
Publication of CN107291682A publication Critical patent/CN107291682A/zh
Application granted granted Critical
Publication of CN107291682B publication Critical patent/CN107291682B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/189Automatic justification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于跳转处理及双重校验的多篇电子文档分篇算法,篇名标引特征提取及特征组合,根据多篇电子文档的文章字体字号、空间位置、语种属性等,提取篇名特征,并将这些特征不同权重组合,形成篇名判定函数、判定函数中,步骤二,根据特征组合提取文档的文章篇名(即文章的起始位置),对输入的电子文档的含字体信息位置信息的字符流进行合并行预处理,步骤三,基于印刷页码提示和基于分割线提示的跳转内容检索及处理,步骤四,文章终止位置的确定,获得文章篇名和处理完跳转内容后,判定文章终止位置及文章页码范围,步骤五,文章要素项数据提取,根据文章元素内容验证文章有效性及再标引。

Description

一种基于跳转处理及双重校验的多篇电子文档分篇算法
技术领域
本发明新型涉及基于跳转处理及篇名双重校验的多篇电子文档分篇方法技术领域,具体为一种基于跳转处理及篇名双重校验的多篇电子文档分篇方法。
背景技术
伴随着计算机和互联网技术的发展,如何根据用户多元的需求制作出多元化的数字产品已经是当前行业面临的主要问题,实现产品的多元化加工,必然要求前期的数据加工的规范化,碎片化,多篇文章的电子文档是数字出版行业需要处理一大类数据,实现此种电子文档的分篇是实现这种数据碎片化的基础,因此,对于此类文章的准确分篇有着十分重要的意义,现有技术中,专利CN101673256A公布的“一种基于文字流的文章元数据自动抽取方法及系统”提出利用规则模板提取文章元数据方法,处理文章内部元数据,不能处理处理多篇文章电子文档,专利CN102375808A公布“一种文档篇名提取方法和装置”利用预先设置的关键词及长度限制提取文档篇名,不能实现自动提取文章篇名并且对于没有明显关键词的篇名不具有适用性,专利CN101206639A公布“一种基于PDF的复杂版面的标引方法”提出针对报刊的文字块的生成和合并规则和整个提取内容和位置等信息的流程,简单根据文字块的属性判定文章,侧重电子文档的基础信息提取,并没有对分篇提出完整有效方案,专利CN200410091432.4公布的“一种对报纸版面进行篇名与正文逻辑关联的方法”利用语义的关联处理报刊的篇名与正文的匹配,属于语义识别范围,需要词库的支持,实现比较复杂。
发明新型内容
本发明新型的目的在于提供一种基于跳转处理及篇名双重校验的多篇电子文档分篇方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明新型提供如下技术方案:一种基于跳转处理及篇名双重校验的多篇电子文档分篇方法,包括以下步骤:
步骤一:篇名标引特征提取及特征组合,根据多篇电子文档的文章字体字号、空间位置、语种属性等,提取篇名特征,并将这些特征不同权重组合,形成篇名判定函数、判定函数中,判定函数的表示如下,(Text.English=0)&&(height>=(TextHeight*1.5))&&(Text.Length>Th1)&&((X2-X1)>Th2)&&(((LeftSpace>Th3)+(RightSpace>Th3)+(TopSpace>(TextRowSpace*1.5))+(BottomSpace>(TextRowSpace*1.5))+(Align&1)+(height>=(TextHeight*1.8))+(Y1<(PageHeight/3))+(font=maxfontofpage))>=Th4),判定函数中,使用了语种,字体高度,字符长度,文本宽度,行左间距,行右间距,上下行距,居中居左居右属性,文本位置属性等九种特征组合,上述伪代码中,Text表示输入行字符串内容,English表示文本的英文属性,height表示文本行的高度,TextHeight为统计文档获得的文档的平均行高,X1,X2,Y1,Y2分别表示文本行块的左右上下位置坐标,LeftSpace,RightSPace,TopSpace,BottomSpace分别表示文本行的左右上下间距,TextRowSpace表示文档的平均行间距,Align表示文本行的居中居左或居右属性,font表示文本行字体高度,maxfontofpage表示统计获得的文档最大字体高度,上述表达式中+表示属性的叠加,表示文本行满足上述表达式中Th4个即可判读为篇名,该种判别函数融合多种篇名特征,具有较大的适应性。
步骤二:根据特征组合提取文档的文章篇名(即文章的起始位置),对输入的电子文档的含字体信息位置信息的字符流进行合并行预处理,获得以行为单位的文字块,并统计单位块的行特征(行高,行字体,语种属性等),根据特征组合形成的篇名判定函数搜索判定函数值为真的文本行串,提取文档的文章篇名(即文章的起始位置),对于输入的字符流进行行合并,根据字符流顺序,判断水平方向位置交叉且字体高度相差小于阈值的字符合并为一行,即(min(Bt1,Bt2)-max(Tp1,Tp2))>Th1&&(Lf1-Lf2)<Th2&&(Font1-Font2<Th3,其中Bt、Bt2、Tp1、Tp2、Lf1、Lf2、Font1和Font2分别为输入两个字符的下,上,左位置及字体高度,Th1、Th2和Th3分别为两个字水平交叉阈值,左右距离阈值,字体高度差距阈值,阈值根据统计获得文档平均行高,字体高度给出,获得合并行后,统计并记录行的高度、字体、语种和位置等特征,根据电子文档页眉页脚在多页上具有相似性的特征,在文档多个页面的页眉页脚候选区域搜索相似内容,确定页眉页脚与正文的分割位置,页眉(页脚)搜索方法的具体实现步骤为,Step1.搜索间隔步长t1=1,搜索起始页P为页码范围内某常数,Step2.设起始页增值i=0,Step3.后续搜索页间隔数n=1,Step4.设起始页pi=p+i,i=0、3、6......24,当前搜索页p2为p2=p1+n*t1,Step5在页p1,p2的页眉(页脚)候选区,搜索位置与内容相似的文本块,若未找到,则i=i+1,跳转至Step6,若找到,则令n=n+1,跳转至Step4,Step6.如果n<3,返回Step4继续执行,否则跳转至Step9,Step7.如果i<10,令i=i+1返回Step3,否则跳转至Step8,Step8.如果t1<4,令t1=t1+1,返回Step2,否则跳转至Step10,Step9.找到页眉(页脚)内容,将存储的文本块合并获得页眉底部位置(页脚顶部位置)为页眉(页脚)与正文的分割位置,设置有效的页眉(页脚)位置,Step10.未找到页眉(页脚)区,将页眉(页脚)位置设为无效值,此页眉页脚搜索方法通过变步长多页搜索,能兼容奇偶页页眉页脚排版不同,文章首页页眉页脚排版不同的情况,具有较大的稳定性及适应性,在获得文档行及行属性后,依据步骤一中给出判定函数,搜索符合判定函数的正文行(页眉页脚行除外),判定为文章的篇名。
步骤三:基于印刷页码提示和基于分割线提示的跳转内容检索及处理,跳转是指为了排版的美观及版面的合理利用,将部分文章的尾部内容排版在其他文章后面,本发明中将有跳转内容文章的连续排版的末尾处称为跳转位置,将跳转内容起始处称为接续位置,根据文档跳转一般分为印刷页码提示跳转和基于分割线提示的跳转两种情况处理。
步骤四:文章终止位置的确定,获得文章篇名和处理完跳转内容后,判定文章终止位置及文章页码范围,文章终止位置依据文章内容完结处有较大空白行或者空页或者跳转内容结束位置确定,本方法统计标引出篇名的居顶属性,对于文章居顶的文档,当前文章结束位置为下一文章篇名的前一页,非居顶文章则根据下一篇文章篇名及其前的空白位置确定。
步骤五:文章要素项数据提取,根据文章元素内容验证文章有效性及再标引,确定文章起止范围后,在文章内部提取文章要素项数据,文章要素项包括作者和机构、摘要、关键词和参考文献等,根据视觉特征和内容关键词特征相结合的原则,提取每篇文章的要素项,获得文章要素项后,根据以下规则判定当前文章的有效性,((Abstract+Keyword+CLCNum+DocCode+Fund+AuthorInfo)>=Th1)||((TITLE.HEIGHT>TextHeight*1.75)&&((TITLE.LeftSpace>Th2)&&(TITLE.RightSpace>Th3)&&TITLE.TopSpace>(TextRowSpace*1.5))&&(TITLE.BottomSpace>(TextRowSpace*1.5))&&(TITLE.Align&1),上述特征组合的字符含义同步骤一中,表达式文章有效性判断规则为,有效文章需满足超过阈值个要素项或者满足典型篇名的视觉特征(行高,居中,左右上下行间距特征等),若判为无效文章则删除此文章,并返回步骤三重新处理其前篇文章;
步骤六:文章目录链接及基于目录链接置文章置信度,文章目录链接及基于目录的有效性验证及再标引,目录是文章的提纲,含有文章的篇名及页码范围信息,本发明将文档前后的非文章页码区域设置为页码候选区,根据已经获得文章篇名,依次在每个目录区候选页上匹配文章篇名,并统计匹配上的篇名个数,如果超过个数阈值,则将此页加入到目录区,依次搜索获得所有目录页,获得所有目录页后,首先分析目录页目录条目排版版式,通过统计目录条目标识符及数字排版特征,并处理目录折行情况,确定目录版式,根据版式解析目录条目,以文章篇名顺序,依次以相似度递减方式匹配目录条目,获得相似度最高的目录条目作为文章篇名的链接,如果相似度低于阈值,则当前文章未找到目录链接,统计整体目录链接正确率,如果正确率高于一定阈值,则此目录链接可作为判定分篇置信度的依据,利用目录条目页码检查分篇情况,并设置对应文章的置信度,获得文章篇名的目录链接后,统计整体链接正确率,如果链接正确率超过一定阈值,链接可信度较高,根据链接目录条目对应的提示页码检查文章页码范围,并给文章设置相应置信度,本算法中暂将置信度分为三个等级,第一级,文章目录链接没有链上,此级为可信度较低文章,需要重点检查文章分篇及页码情况,第二级,文章目录链接链上,但是目录页码与分篇获得页码不一致,此级为中间置信度,需要检查页码情况,第三级,文章目录链接链上,并且目录页码与分篇获得页码一致,此级置信度可以确定此文章分篇正确。
优选的,在步骤二中,对于输入的字符流进行行合并,根据字符流顺序,判断水平方向位置交叉且字体高度相差小于阈值的字符合并为一行,获得合并行后,统计并记录行的高度,字体,语种,位置等特征,然后,根据电子文档页眉页脚在多页上具有相似性的特征,在文档多个页面的页眉页脚候选区域搜索相似内容,确定页眉页脚与正文的分割位置,在获得文档行及行属性后,依据步骤一中给出判定函数,搜索符合判定函数的正文行(页眉页脚行除外),判定为文章的篇名。
优选的,在步骤三中,印刷页码提示即,文章跳转位置和接续位置均有印刷页码提示,处理此种情况的跳转首先需要获得文档的印刷页码,本发明根据印刷页码在多页间的连续递增性及位置的相似性,在文本行中,首先在多个页面获得数字行,然后通过匹配数字行数字的连续性及位置的相似性,搜索获得文章的印刷页码,获得印刷页码后搜索跳转提示,文档的跳转提示一般形式比较固定,通过正则表达式匹配,找到跳转提示行,获得提示印刷页码,跳转到所指示的印刷页码,同样搜索接续提示,搜索获得接续提示后,处理跳转,处理跳转实现跳转内容的“逻辑搬移”,将接续内容所属的页面调整到提示跳转的位置。
优选的,在步骤三中,基于分割线的跳转即,当前文章的内容73排版在下一篇文章首页的下部,并用分割线提示,分割线一般分为两种,直线和花纹线,根据pdf取词特点,直线一般按直线图形元素取出,花纹线按文字元素取出,被解析为一行相同的字符,对应分割线的提取,根据分割线一般在下篇文章首页的规则,获得文章篇名后,通过在文章篇名页搜索直线获得分割线,直线分割线通过读取PDF直线元素读取,花纹线则通过搜索同行相同字符及位置确定,确定分割线后将分割线下内容“逻辑搬移”至跳转处,完成跳转处理。
优选的,在步骤三中,逻辑搬移是指将接续内容所在行的物理页码标为跳转位置所在页页码,接续内容的跳转页属性设置为接续位置所在页页码(其所在的物理页码),并调整接续内容行在行链表中的位置,接续到跳转位置,跳转内容还有不跨页规则,即跳转内容从接续位置开始到接续位置所在页结束为止,此规则用于确定跳转内容的终止及文章终止位置。
与现有技术相比,本发明新型的有益效果是:该发明篇名搜索步骤采用基于特征的组合,该判断函数融合篇名多元特征,具有较为广泛的适应性,文章跳转内容的处理使得文章分篇克服跳转这种特殊排版,获得准确的分篇效果,该方法中采用文章有效要素项数据校验及目录链接校验,有效降低文章篇名错识率,从而提升了分篇准确率,并且通过置信度评判分篇的准确性,便于后续检查,该方法通过页眉页脚搜索方法,有效定位页眉页脚位置,使得分篇不受页眉页脚内容干扰,较大提升了分篇准确率。
附图说明
图1为本发明的分篇方法流程图;
图2为本发明的跳转内容分类处理流程图;
图3为本发明的目录链接实现流程图;
图4为本发明的分篇文章及文章页码范围图;
图5为本发明的跳转提示与接续提示位置示例图;
图6为本发明的文章列表与对应目录链接图;
图7为本发明的分割线提示跳转示例图。
图中:S11标题特征组合函数提取、S12搜索标题、S13跳转内容处、S14文章终止内容获得、S15是否有效文章、S16目录链接及文章置信度设置、S21印刷页页码提示跳转提示搜索、S22分割线识别和滤除干扰线、S23跳转内容搬移处理、S31获得所以目录页范围、S32分析目录页目录排版样式解析目录条目并对标题进行链接、S33根据链接情况设置每篇文章的置信度、S41文章的物理页码范围、S42文章的印刷页码范围、S43文章篇名列、S51跳转位置提示、S52跳转接续位置提示、S61文章目录链接上、S62文章目录链接不上、71分割线提示跳转、S72下一篇文章首页内容、S73当前文章的内容。
具体实施方式
下面将结合本发明新型实施例中的附图,对本发明新型实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明新型一部分实施例,而不是全部的实施例。基于本发明新型中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明新型保护的范围。
请参阅图1-7,实施例
一种基于跳转处理及篇名双重校验的多篇电子文档分篇方法,包括以下步骤:
步骤一:篇名标引特征提取及特征组合,根据多篇电子文档的文章字体字号、空间位置、语种属性等,提取篇名特征,并将这些特征不同权重组合,形成篇名判定函数、判定函数中,判定函数的表示如下,(Text.English=0)&&(height>=(TextHeight*1.5))&&(Text.Length>Th1)&&((X2-X1)>Th2)&&(((LeftSpace>Th3)+(RightSpace>Th3)+(TopSpace>(TextRowSpace*1.5))+(BottomSpace>(TextRowSpace*1.5))+(Align&1)+(height>=(TextHeight*1.8))+(Y1<(PageHeight/3))+(font=maxfontofpage))>=Th4),判定函数中,使用了语种,字体高度,字符长度,文本宽度,行左间距,行右间距,上下行距,居中居左居右属性,文本位置属性等九种特征组合,上述伪代码中,Text表示输入行字符串内容,English表示文本的英文属性,height表示文本行的高度,TextHeight为统计文档获得的文档的平均行高,X1,X2,Y1,Y2分别表示文本行块的左右上下位置坐标,LeftSpace,RightSPace,TopSpace,BottomSpace分别表示文本行的左右上下间距,TextRowSpace表示文档的平均行间距,Align表示文本行的居中居左或居右属性,font表示文本行字体高度,maxfontofpage表示统计获得的文档最大字体高度,上述表达式中+表示属性的叠加,表示文本行满足上述表达式中Th4个即可判读为篇名,该种判别函数融合多种篇名特征,具有较大的适应性。
步骤二:根据特征组合提取文档的文章篇名(即文章的起始位置),对输入的电子文档的含字体信息位置信息的字符流进行合并行预处理,获得以行为单位的文字块,并统计单位块的行特征(行高,行字体,语种属性等),根据特征组合形成的篇名判定函数搜索判定函数值为真的文本行串,提取文档的文章篇名(即文章的起始位置),对于输入的字符流进行行合并,根据字符流顺序,判断水平方向位置交叉且字体高度相差小于阈值的字符合并为一行,即(min(Bt1,Bt2)-max(Tp1,Tp2))>Th1&&(Lf1-Lf2)<Th2&&(Font1-Font2<Th3,其中Bt、Bt2、Tp1、Tp2、Lf1、Lf2、Font1和Font2分别为输入两个字符的下,上,左位置及字体高度,Th1、Th2和Th3分别为两个字水平交叉阈值,左右距离阈值,字体高度差距阈值,阈值根据统计获得文档平均行高,字体高度给出,获得合并行后,统计并记录行的高度、字体、语种和位置等特征,根据电子文档页眉页脚在多页上具有相似性的特征,在文档多个页面的页眉页脚候选区域搜索相似内容,确定页眉页脚与正文的分割位置,页眉(页脚)搜索方法的具体实现步骤为,Step1.搜索间隔步长t1=1,搜索起始页P为页码范围内某常数,Step2.设起始页增值i=0,Step3.后续搜索页间隔数n=1,Step4.设起始页pi=p+i,i=0、3、6......24,当前搜索页p2为p2=p1+n*t1,Step5在页p1,p2的页眉(页脚)候选区,搜索位置与内容相似的文本块,若未找到,则i=i+1,跳转至Step6,若找到,则令n=n+1,跳转至Step4,Step6.如果n<3,返回Step4继续执行,否则跳转至Step9,Step7.如果i<10,令i=i+1返回Step3,否则跳转至Step8,Step8.如果t1<4,令t1=t1+1,返回Step2,否则跳转至Step10,Step9.找到页眉(页脚)内容,将存储的文本块合并获得页眉底部位置(页脚顶部位置)为页眉(页脚)与正文的分割位置,设置有效的页眉(页脚)位置,Step10.未找到页眉(页脚)区,将页眉(页脚)位置设为无效值,此页眉页脚搜索方法通过变步长多页搜索,能兼容奇偶页页眉页脚排版不同,文章首页页眉页脚排版不同的情况,具有较大的稳定性及适应性,在获得文档行及行属性后,依据步骤一中给出判定函数,搜索符合判定函数的正文行(页眉页脚行除外),判定为文章的篇名,在步骤二中,对于输入的字符流进行行合并,根据字符流顺序,判断水平方向位置交叉且字体高度相差小于阈值的字符合并为一行,获得合并行后,统计并记录行的高度,字体,语种,位置等特征,然后,根据电子文档页眉页脚在多页上具有相似性的特征,在文档多个页面的页眉页脚候选区域搜索相似内容,确定页眉页脚与正文的分割位置,在获得文档行及行属性后,依据步骤一中给出判定函数,搜索符合判定函数的正文行(页眉页脚行除外),判定为文章的篇名。
步骤三:基于印刷页码提示和基于分割线提示的跳转内容检索及处理,跳转是指为了排版的美观及版面的合理利用,将部分文章的尾部内容排版在其他文章后面,本发明中将有跳转内容文章的连续排版的末尾处称为跳转位置,将跳转内容起始处称为接续位置,根据文档跳转一般分为印刷页码提示跳转和基于分割线提示的跳转两种情况处理,印刷页码提示即,文章跳转位置和接续位置均有印刷页码提示,处理此种情况的跳转首先需要获得文档的印刷页码,本发明根据印刷页码在多页间的连续递增性及位置的相似性,在文本行中,首先在多个页面获得数字行,然后通过匹配数字行数字的连续性及位置的相似性,搜索获得文章的印刷页码,获得印刷页码后搜索跳转提示,文档的跳转提示一般形式比较固定,通过正则表达式匹配,找到跳转提示行,获得提示印刷页码,跳转到所指示的印刷页码,同样搜索接续提示,搜索获得接续提示后,处理跳转,处理跳转实现跳转内容的“逻辑搬移”,将接续内容所属的页面调整到提示跳转的位置,基于分割线的跳转即,当前文章的内容排版在下一篇文章首页的下部,并用分割线提示,分割线一般分为两种,直线和花纹线,根据pdf取词特点,直线一般按直线图形元素取出,花纹线按文字元素取出,被解析为一行相同的字符,对应分割线的提取,根据分割线一般在下篇文章首页的规则,获得文章篇名后,通过在文章篇名页搜索直线获得分割线,直线分割线通过读取PDF直线元素读取,花纹线则通过搜索同行相同字符及位置确定,确定分割线后将分割线下内容“逻辑搬移”至跳转处,完成跳转处理,逻辑搬移是指将接续内容所在行的物理页码标为跳转位置所在页页码,接续内容的跳转页属性设置为接续位置所在页页码(其所在的物理页码),并调整接续内容行在行链表中的位置,接续到跳转位置,跳转内容还有不跨页规则,即跳转内容从接续位置开始到接续位置所在页结束为止,此规则用于确定跳转内容的终止及文章终止位置。
步骤四:文章终止位置的确定,获得文章篇名和处理完跳转内容后,判定文章终止位置及文章页码范围,文章终止位置依据文章内容完结处有较大空白行或者空页或者跳转内容结束位置确定,本方法统计标引出篇名的居顶属性,对于文章居顶的文档,当前文章结束位置为下一文章篇名的前一页,非居顶文章则根据下一篇文章篇名及其前的空白位置确定。
步骤五:文章要素项数据提取,根据文章元素内容验证文章有效性及再标引,确定文章起止范围后,在文章内部提取文章要素项数据,文章要素项包括作者和机构、摘要、关键词和参考文献等,根据视觉特征和内容关键词特征相结合的原则,提取每篇文章的要素项,获得文章要素项后,根据以下规则判定当前文章的有效性,((Abstract+Keyword+CLCNum+DocCode+Fund+AuthorInfo)>=Th1)||((TITLE.HEIGHT>TextHeight*1.75)&&((TITLE.LeftSpace>Th2)&&(TITLE.RightSpace>Th3)&&TITLE.TopSpace>(TextRowSpace*1.5))&&(TITLE.BottomSpace>(TextRowSpace*1.5))&&(TITLE.Align&1),上述特征组合的字符含义同步骤一中,表达式文章有效性判断规则为,有效文章需满足超过阈值个要素项或者满足典型篇名的视觉特征(行高,居中,左右上下行间距特征等),若判为无效文章则删除此文章,并返回步骤三重新处理其前篇文章;
步骤六:文章目录链接及基于目录链接置文章置信度,文章目录链接及基于目录的有效性验证及再标引,目录是文章的提纲,含有文章的篇名及页码范围信息,本发明将文档前后的非文章页码区域设置为页码候选区,根据已经获得文章篇名,依次在每个目录区候选页上匹配文章篇名,并统计匹配上的篇名个数,如果超过个数阈值,则将此页加入到目录区,依次搜索获得所有目录页,获得所有目录页后,首先分析目录页目录条目排版版式,通过统计目录条目标识符及数字排版特征,并处理目录折行情况,确定目录版式,根据版式解析目录条目,以文章篇名顺序,依次以相似度递减方式匹配目录条目,获得相似度最高的目录条目作为文章篇名的链接,如果相似度低于阈值,则当前文章未找到目录链接,统计整体目录链接正确率,如果正确率高于一定阈值,则此目录链接可作为判定分篇置信度的依据,利用目录条目页码检查分篇情况,并设置对应文章的置信度,获得文章篇名的目录链接后,统计整体链接正确率,如果链接正确率超过一定阈值,链接可信度较高,根据链接目录条目对应的提示页码检查文章页码范围,并给文章设置相应置信度,本算法中暂将置信度分为三个等级,第一级,文章目录链接没有链上,此级为可信度较低文章,需要重点检查文章分篇及页码情况,第二级,文章目录链接链上,但是目录页码与分篇获得页码不一致,此级为中间置信度,需要检查页码情况,第三级,文章目录链接链上,并且目录页码与分篇获得页码一致,此级置信度可以确定此文章分篇正确。
尽管已经示出和描述了本发明新型的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明新型的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明新型的范围由所附权利要求及其等同物限定。

Claims (5)

1.一种基于跳转处理及双重校验的多篇电子文档分篇算法,其特征在于:包括以下步骤:
步骤一:篇名标引特征提取及特征组合,根据多篇电子文档的文章字体字号、空间位置、语种属性等,提取篇名特征,并将这些特征不同权重组合,形成篇名判定函数、判定函数中,判定函数的表示如下,(Text.English=0)&&(height>=(TextHeight*1.5))&&(Text.Length>Th1)&&((X2-X1)>Th2)&&(((LeftSpace>Th3)+(RightSpace>Th3)+(TopSpace>(TextRowSpace*1.5))+(BottomSpace>(TextRowSpace*1.5))+(Align&1)+(height>=(TextHeight*1.8))+(Y1<(PageHeight/3))+(font=maxfontofpage))>=Th4),判定函数中,使用了语种,字体高度,字符长度,文本宽度,行左间距,行右间距,上下行距,居中居左居右属性,文本位置属性等九种特征组合,上述伪代码中,Text表示输入行字符串内容,English表示文本的英文属性,height表示文本行的高度,TextHeight为统计文档获得的文档的平均行高,X1,X2,Y1,Y2分别表示文本行块的左右上下位置坐标,LeftSpace,RightSPace,TopSpace,BottomSpace分别表示文本行的左右上下间距,TextRowSpace表示文档的平均行间距,Align表示文本行的居中居左或居右属性,font表示文本行字体高度,maxfontofpage表示统计获得的文档最大字体高度,上述表达式中+表示属性的叠加,表示文本行满足上述表达式中Th4个即可判读为篇名,该种判别函数融合多种篇名特征,具有较大的适应性。
步骤二:根据特征组合提取文档的文章篇名(即文章的起始位置),对输入的电子文档的含字体信息位置信息的字符流进行合并行预处理,获得以行为单位的文字块,并统计单位块的行特征(行高,行字体,语种属性等),根据特征组合形成的篇名判定函数搜索判定函数值为真的文本行串,提取文档的文章篇名(即文章的起始位置),对于输入的字符流进行行合并,根据字符流顺序,判断水平方向位置交叉且字体高度相差小于阈值的字符合并为一行,即(min(Bt1,Bt2)-max(Tp1,Tp2))>Th1&&(Lf1-Lf2)<Th2&&(Font1-Font2<Th3,其中Bt、Bt2、Tp1、Tp2、Lf1、Lf2、Font1和Font2分别为输入两个字符的下,上,左位置及字体高度,Th1、Th2和Th3分别为两个字水平交叉阈值,左右距离阈值,字体高度差距阈值,阈值根据统计获得文档平均行高,字体高度给出,获得合并行后,统计并记录行的高度、字体、语种和位置等特征,根据电子文档页眉页脚在多页上具有相似性的特征,在文档多个页面的页眉页脚候选区域搜索相似内容,确定页眉页脚与正文的分割位置,页眉(页脚)搜索方法的具体实现步骤为,Step1.搜索间隔步长t1=1,搜索起始页P为页码范围内某常数,Step2.设起始页增值i=0,Step3.后续搜索页间隔数n=1,Step4.设起始页pi=p+i,i=0、3、6......24,当前搜索页p2为p2=p1+n*t1,Step5在页p1,p2的页眉(页脚)候选区,搜索位置与内容相似的文本块,若未找到,则i=i+1,跳转至Step6,若找到,则令n=n+1,跳转至Step4,Step6.如果n<3,返回Step4继续执行,否则跳转至Step9,Step7.如果i<10,令i=i+1返回Step3,否则跳转至Step8,Step8.如果t1<4,令t1=t1+1,返回Step2,否则跳转至Step10,Step9.找到页眉(页脚)内容,将存储的文本块合并获得页眉底部位置(页脚顶部位置)为页眉(页脚)与正文的分割位置,设置有效的页眉(页脚)位置,Step10.未找到页眉(页脚)区,将页眉(页脚)位置设为无效值,此页眉页脚搜索方法通过变步长多页搜索,能兼容奇偶页页眉页脚排版不同,文章首页页眉页脚排版不同的情况,具有较大的稳定性及适应性,在获得文档行及行属性后,依据步骤一中给出判定函数,搜索符合判定函数的正文行(页眉页脚行除外),判定为文章的篇名。
步骤三:基于印刷页码提示和基于分割线提示的跳转内容检索及处理,跳转是指为了排版的美观及版面的合理利用,将部分文章的尾部内容排版在其他文章后面,本发明中将有跳转内容文章的连续排版的末尾处称为跳转位置,将跳转内容起始处称为接续位置,根据文档跳转一般分为印刷页码提示跳转和基于分割线提示的跳转两种情况处理。
步骤四:文章终止位置的确定,获得文章篇名和处理完跳转内容后,判定文章终止位置及文章页码范围,文章终止位置依据文章内容完结处有较大空白行或者空页或者跳转内容结束位置确定,本方法统计标引出篇名的居顶属性,对于文章居顶的文档,当前文章结束位置为下一文章篇名的前一页,非居顶文章则根据下一篇文章篇名及其前的空白位置确定。
步骤五:文章要素项数据提取,根据文章元素内容验证文章有效性及再标引,确定文章起止范围后,在文章内部提取文章要素项数据,文章要素项包括作者和机构、摘要、关键词和参考文献等,根据视觉特征和内容关键词特征相结合的原则,提取每篇文章的要素项,获得文章要素项后,根据以下规则可以判定当前文章的有效性,((Abstract+Keyword+CLCNum+DocCode+Fund+AuthorInfo)>=Th1)||((TITLE.HEIGHT>TextHeight*1.75)&&((TITLE.LeftSpace>Th2)&&(TITLE.RightSpace>Th3)&&TITLE.TopSpace>(TextRowSpace*1.5))&&(TITLE.BottomSpace>(TextRowSpace*1.5))&&(TITLE.Align&1),上述特征组合的字符含义同步骤一中,表达式文章有效性判断规则为,有效文章需满足超过阈值个要素项或者满足典型篇名的视觉特征(行高,居中,左右上下行间距特征等),若判为无效文章则删除此文章,并返回步骤三重新处理其前篇文章;
步骤六:文章目录链接及基于目录链接置文章置信度,文章目录链接及基于目录的有效性验证及再标引,目录是文章的提纲,含有文章的篇名及页码范围信息,本发明将文档前后的非文章页码区域设置为页码候选区,根据已经获得文章篇名,依次在每个目录区候选页上匹配文章篇名,并统计匹配上的篇名个数,如果超过个数阈值,则将此页加入到目录区,依次搜索获得所有目录页,获得所有目录页后,首先分析目录页目录条目排版版式,通过统计目录条目标识符及数字排版特征,并处理目录折行情况,确定目录版式,根据版式解析目录条目,以文章篇名顺序,依次以相似度递减方式匹配目录条目,获得相似度最高的目录条目作为文章篇名的链接,如果相似度低于阈值,则当前文章未找到目录链接,统计整体目录链接正确率,如果正确率高于一定阈值,则此目录链接可作为判定分篇置信度的依据,利用目录条目页码检查分篇情况,并设置对应文章的置信度,获得文章篇名的目录链接后,统计整体链接正确率,如果链接正确率超过一定阈值,链接可信度较高,根据链接目录条目对应的提示页码检查文章页码范围,并给文章设置相应置信度,本算法中暂将置信度分为三个等级,第一级,文章目录链接没有链上,此级为可信度较低文章,需要重点检查文章分篇及页码情况,第二级,文章目录链接链上,但是目录页码与分篇获得页码不一致,此级为中间置信度,需要检查页码情况,第三级,文章目录链接链上,并且目录页码与分篇获得页码一致,此级置信度可以确定此文章分篇正确。
2.根据权利要求1所述的一种基于跳转处理及篇名双重校验的多篇电子文档分篇方法,其特征在于:在步骤二中,对于输入的字符流进行行合并,根据字符流顺序,判断水平方向位置交叉且字体高度相差小于阈值的字符合并为一行,获得合并行后,统计并记录行的高度,字体,语种,位置等特征,然后,根据电子文档页眉页脚在多页上具有相似性的特征,在文档多个页面的页眉页脚候选区域搜索相似内容,确定页眉页脚与正文的分割位置,在获得文档行及行属性后,依据步骤一中给出判定函数,搜索符合判定函数的正文行(页眉页脚行除外),判定为文章的篇名。
3.根据权利要求1所述的一种基于跳转处理及篇名双重校验的多篇电子文档分篇方法,其特征在于:在步骤三中,印刷页码提示即,文章跳转位置和接续位置均有印刷页码提示,处理此种情况的跳转首先需要获得文档的印刷页码,本发明根据印刷页码在多页间的连续递增性及位置的相似性,在文本行中,首先在多个页面获得数字行,然后通过匹配数字行数字的连续性及位置的相似性,搜索获得文章的印刷页码,获得印刷页码后搜索跳转提示,文档的跳转提示一般形式比较固定,通过正则表达式匹配,找到跳转提示行,获得提示印刷页码,跳转到所指示的印刷页码,同样搜索接续提示,搜索获得接续提示后,处理跳转,处理跳转实现跳转内容的“逻辑搬移”,将接续内容所属的页面调整到提示跳转的位置。
4.根据权利要求1所述的一种基于跳转处理及篇名双重校验的多篇电子文档分篇方法,其特征在于:在步骤三中,基于分割线的跳转即,当前文章的内容排版在下一篇文章首页的下部,并用分割线提示,分割线一般分为两种,直线和花纹线,根据pdf取词特点,直线一般按直线图形元素取出,花纹线按文字元素取出,被解析为一行相同的字符,对应分割线的提取,根据分割线一般在下篇文章首页的规则,获得文章篇名后,通过在文章篇名页搜索直线获得分割线,直线分割线通过读取PDF直线元素读取,花纹线则通过搜索同行相同字符及位置确定,确定分割线后将分割线下内容“逻辑搬移”至跳转处,完成跳转处理。
5.根据权利要求1或3或4所述的一种基于跳转处理及篇名双重校验的多篇电子文档分篇方法,其特征在于:在步骤三中,逻辑搬移是指将接续内容所在行的物理页码标为跳转位置所在页页码,接续内容的跳转页属性设置为接续位置所在页页码(其所在的物理页码),并调整接续内容行在行链表中的位置,接续到跳转位置,跳转内容还有不跨页规则,即跳转内容从接续位置开始到接续位置所在页结束为止,此规则用于确定跳转内容的终止及文章终止位置。
CN201610191135.XA 2016-03-30 2016-03-30 一种基于跳转处理及双重校验的多篇电子文档分篇算法 Active CN107291682B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610191135.XA CN107291682B (zh) 2016-03-30 2016-03-30 一种基于跳转处理及双重校验的多篇电子文档分篇算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610191135.XA CN107291682B (zh) 2016-03-30 2016-03-30 一种基于跳转处理及双重校验的多篇电子文档分篇算法

Publications (2)

Publication Number Publication Date
CN107291682A true CN107291682A (zh) 2017-10-24
CN107291682B CN107291682B (zh) 2020-12-08

Family

ID=60086943

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610191135.XA Active CN107291682B (zh) 2016-03-30 2016-03-30 一种基于跳转处理及双重校验的多篇电子文档分篇算法

Country Status (1)

Country Link
CN (1) CN107291682B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108710570A (zh) * 2018-05-11 2018-10-26 阿里巴巴集团控股有限公司 一种视图功能测试方法、装置及设备
CN110674249A (zh) * 2019-09-29 2020-01-10 北京幻想纵横网络技术有限公司 一种信息处理方法及装置
CN111368521A (zh) * 2020-02-29 2020-07-03 重庆百事得大牛机器人有限公司 用于法律顾问服务的管理方法
CN111401026A (zh) * 2018-12-29 2020-07-10 方正国际软件(北京)有限公司 标题生成方法、电子设备和存储介质
CN111626036A (zh) * 2020-05-27 2020-09-04 南京蓝鲸人网络科技有限公司 一种新型的图文排版处理方法
CN112329426A (zh) * 2020-11-12 2021-02-05 北京方正印捷数码技术有限公司 电子文件的页眉页脚识别方法、装置、设备和介质
CN117493712A (zh) * 2023-12-29 2024-02-02 浙江华东工程数字技术有限公司 Pdf文档可导航目录提取方法、装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07249026A (ja) * 1994-03-10 1995-09-26 Canon Inc 文書編集方法とその装置
CN101354727A (zh) * 2008-09-24 2009-01-28 北京大学 一种建立数字文档目录与正文之间链接的方法及装置
CN102346730A (zh) * 2010-07-30 2012-02-08 汉王科技股份有限公司 电子阅读器中显示目录的方法和装置
CN102541929A (zh) * 2010-12-22 2012-07-04 北大方正集团有限公司 提取版式文档目录的方法及装置
CN104751148A (zh) * 2015-04-16 2015-07-01 同方知网数字出版技术股份有限公司 一种版式文件中识别科学公式的方法
CN104834645A (zh) * 2014-02-11 2015-08-12 阿里巴巴集团控股有限公司 用于展示版式文档的方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07249026A (ja) * 1994-03-10 1995-09-26 Canon Inc 文書編集方法とその装置
CN101354727A (zh) * 2008-09-24 2009-01-28 北京大学 一种建立数字文档目录与正文之间链接的方法及装置
CN102346730A (zh) * 2010-07-30 2012-02-08 汉王科技股份有限公司 电子阅读器中显示目录的方法和装置
CN102541929A (zh) * 2010-12-22 2012-07-04 北大方正集团有限公司 提取版式文档目录的方法及装置
CN104834645A (zh) * 2014-02-11 2015-08-12 阿里巴巴集团控股有限公司 用于展示版式文档的方法和装置
CN104751148A (zh) * 2015-04-16 2015-07-01 同方知网数字出版技术股份有限公司 一种版式文件中识别科学公式的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
高良才 等: "一种基于聚类技术的图书目录识别方法", 《北京大学学报( 自然科学版)》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108710570B (zh) * 2018-05-11 2021-10-29 创新先进技术有限公司 一种视图功能测试方法、装置及设备
CN108710570A (zh) * 2018-05-11 2018-10-26 阿里巴巴集团控股有限公司 一种视图功能测试方法、装置及设备
CN111401026B (zh) * 2018-12-29 2024-04-19 方正国际软件(北京)有限公司 标题生成方法、电子设备和存储介质
CN111401026A (zh) * 2018-12-29 2020-07-10 方正国际软件(北京)有限公司 标题生成方法、电子设备和存储介质
CN110674249A (zh) * 2019-09-29 2020-01-10 北京幻想纵横网络技术有限公司 一种信息处理方法及装置
CN110674249B (zh) * 2019-09-29 2020-10-20 北京幻想纵横网络技术有限公司 一种信息处理方法及装置
CN111368521B (zh) * 2020-02-29 2023-04-07 重庆百事得大牛机器人有限公司 用于法律顾问服务的管理方法
CN111368521A (zh) * 2020-02-29 2020-07-03 重庆百事得大牛机器人有限公司 用于法律顾问服务的管理方法
CN111626036B (zh) * 2020-05-27 2021-04-30 南京蓝鲸人网络科技有限公司 一种图文排版处理方法
CN111626036A (zh) * 2020-05-27 2020-09-04 南京蓝鲸人网络科技有限公司 一种新型的图文排版处理方法
CN112329426A (zh) * 2020-11-12 2021-02-05 北京方正印捷数码技术有限公司 电子文件的页眉页脚识别方法、装置、设备和介质
CN112329426B (zh) * 2020-11-12 2024-05-28 北京方正印捷数码技术有限公司 电子文件的页眉页脚识别方法、装置、设备和介质
CN117493712A (zh) * 2023-12-29 2024-02-02 浙江华东工程数字技术有限公司 Pdf文档可导航目录提取方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN107291682B (zh) 2020-12-08

Similar Documents

Publication Publication Date Title
CN107291682A (zh) 一种基于跳转处理及双重校验的多篇电子文档分篇算法
CN101354746B (zh) 文字图像抽出装置及文字图像抽出方法
US7743327B2 (en) Table of contents extraction with improved robustness
US8005819B2 (en) Indexing and searching product identifiers
US8504553B2 (en) Unstructured and semistructured document processing and searching
CN101354703B (zh) 文档图像处理装置和文档图像处理方法
US20160048528A1 (en) Indexing and search query processing
CN101021850B (zh) 单词检索设备和单词检索方法
CN101226595B (zh) 文档图像处理装置以及文档图像处理方法
Al-Zaidy et al. A machine learning approach for semantic structuring of scientific charts in scholarly documents
US20090144277A1 (en) Electronic table of contents entry classification and labeling scheme
CN101354705B (zh) 文档图像处理装置和文档图像处理方法
CN110750995B (zh) 一种基于自定义图谱的文件管理方法
CA2774989A1 (en) A method and system for extraction
US20150199567A1 (en) Document classification assisting apparatus, method and program
Noce et al. Embedded textual content for document image classification with convolutional neural networks
Klampfl et al. An unsupervised machine learning approach to body text and table of contents extraction from digital scientific articles
Papavassiliou et al. The ilsp/arc submission to the wmt 2016 bilingual document alignment shared task
CN110019637B (zh) 一种标准文献检索的排序算法
Wu et al. Searching online book documents and analyzing book citations
M’rabet et al. TextFlow: a text similarity measure based on continuous sequences
JP5894273B2 (ja) 文書関連付け方法および文書検索方法、文書関連付け装置および文書検索装置、並びにそのためのプログラム
Gupta et al. Not all titles are created equal: Financial document structure extraction shared task
Eberius et al. Publish-time data integration for open data platforms
Rahal et al. Entity extraction and correction based on token structure model generation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant