CN106250830A - 数字图书结构化分析处理方法 - Google Patents

数字图书结构化分析处理方法 Download PDF

Info

Publication number
CN106250830A
CN106250830A CN201610586830.6A CN201610586830A CN106250830A CN 106250830 A CN106250830 A CN 106250830A CN 201610586830 A CN201610586830 A CN 201610586830A CN 106250830 A CN106250830 A CN 106250830A
Authority
CN
China
Prior art keywords
catalogue
page
text
books
line
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610586830.6A
Other languages
English (en)
Other versions
CN106250830B (zh
Inventor
鲁伟明
马朋坤
魏宝刚
庄越挺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201610586830.6A priority Critical patent/CN106250830B/zh
Publication of CN106250830A publication Critical patent/CN106250830A/zh
Application granted granted Critical
Publication of CN106250830B publication Critical patent/CN106250830B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种数字图书结构化分析处理方法。本发明首先利用图像处理方法以及OCR工具对图书的扫描图像预处理,在此基础上获得图书的文本信息和视觉特征值,同时对图书的版面进行识别,去除无关信息。然后,根据图书的布局特征、功能性特征和视觉特征对图书进行目录检测、目录解析、段落识别和目录链接,并最终将图书进行结构化表示。本发明较好的运用了图书的布局特征、功能性特征和视觉特征,提高了图书结构化的准确率和适用性。

Description

数字图书结构化分析处理方法
技术领域
本发明涉及文本分析方法,尤其涉及一种数字图书结构化分析处理方法。
背景技术
随着个人计算机和网络的广泛应用,以及OCR技术的发展,把纸质文档转化为数字形式,并且从中抽取出更多的文档信息,以进行进一步的知识提取,已经成为一个常见的需求。这也正是数字图书馆一直在致力于的研究方向。为此,提出了文档分析和文档理解技术,以自动地从不同类型的文档中获取知识和信息。对文档布局结构的抽取叫做文档分析,在布局结构和逻辑结构之间建立映射关系叫做文档理解。
文档分析和理解的一个重要任务就是把文档单元(例如书的章节)结构化,以便于进行检索和管理。大多数多页文档,如图书、期刊、杂志等,一般都含有目录页,其内容简要地描述文档的组成单元,是整个文档的一个提纲,天然地反映文档的逻辑结构。因此对目录进行分析和识别是建立文档结构的一个有效途径。此外,在数字图书中对图书段落进行识别,并建立目录条目与对应正文的链接关系,还可以为文档的查询和导航提供方便,也为进一步的知识提取打下了基础。
另外,XML(可扩展标记语言)是一种用于定义文本数据的结构化文档的标准语言,广泛应用于数据管理,数据交换,数据收集和数据分配方面,非常适用于网络传输,其本身具有的结构化特点十分适合表示结构化数字图书。
发明内容
本发明是为了克服目前图书结构化处理方法的不足之处,提高图书结构化的准确率和适用性,提供一种基于OCR和模式的图书结构化方法。
本发明解决其技术问题采用的技术方案如下:一种数字图书结构化分析处理方法,包括以下步骤:
1)图书扫描图像切割和视觉特征提取:通过图像处理方法对图书扫描图像进行切割,获取坐标信息,然后提取视觉特征值;
2)图书扫描图像版面分析和OCR识别:通过提取得到的视觉特征值对图书扫描图像进行版面分析,去除无关信息;通过OCR工具将图书扫描图像识别为文字;
3)目录页和正文页判断:通过目录的布局特征和视觉特征判断目录页的范围,进而确定正文页的范围;
4)目录识别:在步骤3)的基础上,通过目录的布局特征和视觉特征构建目录模型,提取出目录的条目信息,然后识别出完整的目录结构;
5)正文段落识别:在步骤3)的基础上,通过段落的布局特征和视觉特征将正文的段落识别出来,构建正文的段落结构;
6)目录链接:在步骤4)和步骤5)的基础上,通过页码匹配和标题匹配两级匹配制度,将结构化的图书目录与正文链接起来,得到完整的图书结构;
7)图书结构化表示:基于步骤6)中得到的链接结果,用XML语言将图书进行结构化表示。
进一步地,所述的步骤1)包括:
1.1对图书扫描图像进行切割,获取每行文本的坐标信息,包括:起始横坐标(left),结束横坐标(right),起始纵坐标(top),结束纵坐标(bottom),以及每行字符宽度,每行字符间距。
1.2依据目录和段落的视觉特征,将视觉特征量化为视觉特征值,然后对视觉特征值进行提取;目录识别提取需要的视觉特征有:缩进(indentation)、行宽(width)、行高(height)和行间距(space);其中,缩进由相邻两行的起始横坐标相减而得;行宽由结束横坐标和起始横坐标相减而得,表示为:
widthi=righti-lefti,其中1≤i≤n,n为总行数
行高由结束纵坐标和起始纵坐标相减而得,表示为:
heighti=bottomi-topi,其中1≤i≤n,n为总行数
行间距由下邻行起始纵坐标和本行结束纵坐标相减而得,表示为:
spacei=topi+1-bottomi,其中1≤i≤n-1,n为总行数
段落识别所需的视觉特征有:缩进、行宽、每页字符宽度、每页字符间距。缩进由每行起始横坐标与该页普通行的起始横坐标相减而得;行宽与上面计算方式相同;每页字符宽度和每页字符间距的计算需要首先对图像切割时得到的每行字符宽度值和每行字符间距值计算它们分布最为集中的中位数,最后取该页所有行的字符宽度和字符间距的中位数分布最为集中的中位数作为该页的字符宽度值和字符间距值。
进一步地,所述的步骤2)包括:
2.1图书扫描图像版面分析将图书中非文本行部分(包括图像、表格、公式等)进行识别并舍弃,将图书中文本行部分保留下来,用于OCR识别。具体为:通过对图像进行投影,在其投影直方图中可以看出图像中的图片在横向投影时得到的是纵坐标为连续的数值非零块,表现在视觉上即该块具有异于普通文本行的行高,利用这个特点对图像切割得到的块进行判断,找到异于正常文本行的块,然后舍弃。
2.2通过OCR工具将图书扫描图像去除版面分析分离的无关信息之外的部分识别为文本。
进一步地,所述的步骤3)包括:
3.1目录页的判断主要是定位目录的边界。由于目录页面一般位于文档的前若干页,可以定义一个滑动窗口机制进行检测。同时,由于目录一般带有一些基于规则的布局特征,可以在OCR处理获得的图书文本基础上提取这些特征进行目录的检测,所述布局特征包括连接符(点、线)、章节号、页码。
目录检测可以检测该页是否存在一定比例的连接符和合法页码。连接符由点或者线组成;目录条目合法页码指的目录条目中的页码是单调非降阿拉伯数字,假设之前的合法页码是p,那么当前行的页码q如果满足p≤q≤p′,p′是下一行的页码,则q是合法的。有时由于OCR错误,数字会被划分为多个,或者OCR提取到的数字是乱码,这就破坏了页码的合法性。所以需要求得连接符所在行数和合法页码所在行数占比该页所有行的比例,并对每个比例分别设置一个阈值,然后对每一页综合利用这两个阈值进行检测,如果有一个满足,则确定该页为目录页,如果均不满足,则该页不是目录页。如果第K页仍然为目录页,则将窗口向下滑动d页,如果在接下来的d页内找到了目录的终止页,则目录检测结束;否则窗口继续向下滑动d页,直至检测到第30%*N页为止,N为该书总页数。
3.2正文页的判断主要是区分图书正文的范围,主要基于3.1中目录页的判断结果,一般情况下目录页紧接着的直到图书结尾的部分为正文页。
进一步地,所述的步骤4)具体为:在定位目录的开始和结尾之后,需要对目录进行识别解析。目录识别提取目录语义信息和目录的层次结构,首先需要生成目录条目,然后生成目录模型,最后根据目录模型确定目录的层次结构。
生成目录条目,即提取目录语义信息;目录条目通常包括四块,分别为:章节号块、标题块、连接符块和页码块。章节号块一般位于目录条目起始端;页码块一般是位于条目末端的单调非降阿拉伯数字;标题块一般位于章节号块和连接符块之间;连接符块一般位于页码块之前。依据每一块的特征进行识别匹配,并对跨行条目进行合并,从而提取出目录的语义信息。
在生成目录条目之后,生成目录模型。首先检测目录样式是否为分割的,如果为分割的,则需要对目录进行分块,然后对每一个子块进行接下来的检测;如果该目录不是分割的或者是分割后的目录子块,则检测是否为扁平化的,如果是扁平化的,则进行有序检测,否则进行有序处理;如果该目录(或目录块)是有序的,则进行有序处理,否则进行扁平化处理;
在经过目录模型的处理之后,确定目录的层次结构。针对一本书的所有目录条目生成一个目录层次序列Lever=(l1,l2,…,li,…,ln-1,ln),n等于目录条目数,li表示第i个目录条目的层次值。经过目录模型的处理,为每一个目录条目进行层次值的赋值,目录最终被解读为一个树,树的每一个节点表示目录中的一个条目。由于目录条目的层次是逐级增长的,所以目录层次序列Lever中层次值的增长幅度不会超过1,即满足条件li+1-li<2。检测目录解析生成的目录层次序列Lever中的层次序列值是否满足该条件来判断目录解析的正确与否,如果不满足,则继续进行解析修正,直至满足该条件。
进一步第,所述的步骤5)具体为:生成段落模型进行段落结构的提取。段落中的文本行具有四种形式:段首行、普通行、段尾行、段首段尾行。
段首行的识别:判断是否存在缩进,每行的开始字符是否存在标号,相邻上一行是否为段尾;
段尾行的识别:对行长进行判断,判断每行最后的标点符号是否为“。”、“:”、“;”,相邻下一行是否为段首等。
参照目录解析过程,针对每页的所有文本行设置一个段落结构序列E=(e1,e2,…,ei,…,en),其中,n为该页文本行总数,ei代表每一个文本行的类别,ei=0(普通行),1(段首行),2(段尾行),3(段首段尾行)。然后,通过寻找相邻的段首行和段尾行来构成一个段落结构。
进一步地,所述的步骤6)具体为:目录链接决定正文中的相应内容对应于目录中的每一个条目。首先利用页码匹配找到目录条目在文档正文中出现的准确物理页码,然后通过标题匹配找到目录条目在页面中出现的准确位置,接下来结合段落识别的结果准确地将目录和全文链接起来。
页码匹配是找到目录条目在文档正文中出现的准确物理页码,如果提取的目录有一个完善的页码序列,那么只需要找到目录页号和图书实际页号的差值d。可以抽取一些条目作为样本,然后基于标题匹配来找到它们的具体页码。如果d值满足样本中所有条目,则将每一个目录页码加上d即为其对应物理页码。
标题匹配利用的是目录识别中的功能性特征,目录条目通常出现在一本书的正文的章节或者子章节标题上,这意味着以文本匹配为依据,在目录页中能找到很多和正文内容相匹配的字符串。
进一步地,所述的标题匹配采用模糊标题匹配技术,以找到目录条目在正文文本中出现的准确位置来进行目录和段落之间的链接。
模糊标题匹配技术首先需要计算两个字符串的最短编辑距离。在求得最短编辑距离之后,设置匹配误差率δ,δ的计算如下所示:其中ED(A,B)表示字符串A到模式串B的最短编辑距离
将δ的阈值设置为0.25。此外,由于OCR识别错误的存在,造成有一部分目录条目在正文中找不到满足δ≤0.25的字符串。针对这种情况设置二级缓冲机制,找到匹配误差率δ满足:0.25<δ≤0.5的所有字符串,然后选定δ最小的字符串作为匹配成功的字符串。
本发明方法与现有技术相比具有的有益效果:
1.该方法利用了图书扫描图像本身固有的一些信息,并充分利用OCR识别过程中的中间信息,对图书进行版面分析,剔除一些图书OCR结果中无关或者乱码的数据使得识别结果更加准确;
2.该方法针对目录识别和段落识别的一些现有特征进行了综合与分析,利用布局特征和视觉特征进行目录的检测识别与段落识别,利用目录的功能性特征进行目录链接,从而构成完整的结构化图书,从而使得图书结构化结果更加准确;
3.该方法针对目录的视觉特征将目录分为三种常见的模式,然后针对不同的模式设计不同的识别过程,使得识别结果更准确,识别方法适用性更强。
附图说明
图1是本发明的总体流程图;
图2是图书扫描图像切割的效果图;
图3是目录识别的流程图;
图4是结构化图书的树形图;
图5是《人工智能》结构化XML语言表示的部分效果图。
具体实施方式
如图1、图2、图3和图4所示,数字图书结构化分析处理方法的步骤如下:
1)图书扫描图像切割和视觉特征提取:通过图像处理方法对图书扫描图像进行切割,获取坐标信息,然后提取视觉特征值;
2)图书扫描图像版面分析和OCR识别:通过提取得到的视觉特征值对图书扫描图像进行版面分析,去除无关信息。然后,通过OCR工具将图书扫描图像识别为文字;
3)目录页和正文页判断:通过目录的布局特征和视觉特征判断目录页的范围,进而确定正文页的范围;
4)目录识别:在步骤3)的基础上,通过目录的布局特征和视觉特征构建目录模型,提取出目录的条目信息,然后识别出完整的目录结构;
5)正文段落识别:在步骤3)的基础上,通过段落的布局特征和视觉特征将正文的段落识别出来,构建正文的段落结构;
6)目录链接:在步骤4)和步骤5)的基础上,通过页码匹配和标题匹配两级匹配制度,将结构化的图书目录与正文链接起来,得到完整的图书结构;
7)图书结构化表示:基于步骤6)中得到的链接结果,用XML语言将图书进行结构化表示。
所述的步骤1)包括:
1.1通过图像处理方法对图书扫描图像进行切割,主要目的是用来获取每行文本的坐标信息。包括:起始横坐标(left),结束横坐标(right),起始纵坐标(top),结束纵坐标(bottom),以及每行字符宽度,每行字符间距。这些信息值是接下来进行视觉特征提取、版面分析和OCR处理的基础。
1.2视觉特征提取依据目录和段落的视觉特征这一特性,将视觉特征量化为一些视觉特征值,然后对这些视觉特征值进行提取。根据对目录结构的观察,可以分析目录识别提取需要的视觉特征有:缩进(indentation)、行宽(width)、行高(height)和行间距(space)。其中,缩进可由相邻两行的起始横坐标相减而得;行宽可由结束横坐标和起始横坐标相减而得,表示为:
widthi=righti-lefti,其中1≤i≤n,n为总行数
行高可由结束纵坐标和起始纵坐标相减而得,表示为:
heighti=bottomi-topi,其中1≤i≤n,n为总行数
行间距可由下邻行起始纵坐标和本行结束纵坐标相减而得,表示为:
spacei=topi+1-bottomi,其中1≤i≤n-1,n为总行数
同样,可以分析段落识别所需的视觉特征有:缩进、行宽、每页字符宽度、每页字符间距。缩进可由每行起始横坐标与该页普通行的起始横坐标相减而得;行宽与上面计算方式相同;每页字符宽度和每页字符间距的计算则需要首先对图像切割时得到的每行字符宽度值和每行字符间距值计算它们分布最为集中的中位数,最后取该页所有行的字符宽度和字符间距的中位数分布最为集中的中位数作为该页的字符宽度值和字符间距值。
所述的步骤2)包括:
2.1图书扫描图像版面分析将图书中非文本行部分(包括图像、表格、公式等)进行识别并舍弃,将图书中文本行部分保留下来,用于OCR识别,提高识别准确率。这里主要基于一个事实是,在提取的视觉特征值中,非文本行的行高表现为异于普通文本行。
通过对图书中大量图像、表格、公式等的观察分析,可以发现这些非文本行大多表现出具有较高行高的特性。通过对图像进行投影,在其投影直方图中可以看出图像中的图片在横向投影时得到的是纵坐标为连续的数值非零块,表现在视觉上即该块具有异于普通文本行的行高,所以可以利用这个特点对图像切割得到的块进行判断,找到异于正常文本行的块,然后舍弃。
2.2通过OCR工具将图书扫描图像识别为文字,系统使用已有的OCR工具将图书扫描图像去除版面分析分离的无关信息之外的部分识别为文本,为接下来图书结构化提供基础。
所述的步骤3)包括:
3.1目录页的判断主要是定位目录的边界。由于目录页面一般位于文档的前若干页,可以定义一个滑动窗口机制进行检测。同时,由于目录一般带有一些基于规则的布局特征,例如连接符(点、线)、章节号、页码等。所以,可以在OCR处理获得的图书文本基础上提取这些特征进行目录的检测。
目录检测可以检测该页是否存在一定比例的连接符和合法页码。连接符一般是用点或者线表示;目录条目合法页码指的目录条目中的页码是单调非降阿拉伯数字,假设之前的合法页码是p,那么当前行的页码q如果满足p≤q≤p′,p′是下一行的页码,则q是合法的。通常,由于OCR的错误,连接符的检测并不会十分准确。同样,有时由于OCR错误,数字会被划分为多个,例如,“15”被划分为“1”和“5”,或者OCR提取到的数字是乱码,这就破坏了页码的合法性。所以需要求得连接符所在行数和合法页码所在行数占比该页所有行的比例,并对每个比例分别设置一个阈值,然后对每一页综合利用这两个阈值进行检测,如果有一个满足,则确定该页为目录页,如果均不满足,则该页不是目录页。如果第K页仍然为目录页,则将窗口向下滑动d=5页,如果在接下来的d页内找到了目录的终止页,则目录检测结束;否则窗口继续向下滑动d页,直至检测到第30%*N页为止,N为该书总页数。
3.2正文页的判断主要是区分图书正文的范围,主要基于3.1中目录页的判断结果,一般情况下目录页紧接着的直到图书结尾的部分为正文页。
所述的步骤4)包括:在定位目录的开始和结尾之后,需要对目录进行识别解析。目录识别提取目录语义信息和目录的层次结构,首先需要生成目录条目,然后生成目录模型,最后根据目录模型确定目录的层次结构。
生成目录条目,即提取目录语义信息(章节号、标题、页码)。目录条目通常包括四块,分别为:章节号块、标题块、连接符块和页码块。章节号块一般位于目录条目起始端,有以下形式:“第一|1章”、“第一|1节”、“1.1”、“1.1.1”,还有一些仅由数字标号代表,例如:“一、”、“1.”等;页码块一般是位于条目末端的单调非降阿拉伯数字,例如:“1”、“(1)”、“[1]”等;标题块一般位于章节号块和连接符块之间;连接符块一般位于页码块之前,通常连接符为连续的点或者线。可以依据每一块的特征进行识别匹配,从而提取出目录的语义信息,需要注意的是跨行条目的合并以及OCR错误引起的条目信息缺失问题。
在生成目录条目之后,需要生成目录模型。目录模型主要包括三种模式:分割、扁平化和有序目录;分割目录指具有分块的目录,每一子块中的目录具有自己的规则;扁平化目录指目录平级且没有区分的目录;有序目录指有严格的章节号标注的目录;首先检测目录样式是否为分割的,如果为分割的,则需要对目录进行分块,然后对每一个子块进行接下来的检测;如果该目录不是分割的或者是分割后的目录子块,则检测是否为扁平化的,如果是扁平化的,则进行有序检测,否则进行有序处理;如果该目录(或目录块)是有序的,则进行有序处理,否则进行扁平化处理。
在经过目录模型的处理之后,需要最终确定目录的层次结构。针对一本书的所有目录条目生成一个目录层次序列Lever=(l1,l2,…,li,…,ln-1,ln),n等于目录条目数,li表示第i个目录条目的层次值。经过目录模型的处理,为每一个目录条目进行层次值的赋值,目录最终被解读为一个树,树的每一个节点表示目录中的一个条目。由于目录条目的层次是逐级增长的,例如,章的下一个条目是章或者节,但不能是子节,所以目录层次序列Lever中层次值的增长幅度不会超过1,即满足条件li+1-li<2。所以可以检测目录解析生成的目录层次序列Lever中的层次序列值是否满足该条件来判断目录解析的正确与否,如果不满足,则继续进行解析修正,直至满足该条件。
所述的步骤5)包括:由于OCR识别会导致文本段落的结构信息丢失使得计算机不能正确识别段落的结构,所以需要生成段落模型进行段落结构的提取。本方法主要结合纸质书籍扫描图片和OCR技术处理得到的电子文档,综合段落布局规则和视觉特征生成段落模型对段落进行识别划分。
通常,段落中的文本行具有四种形式:段首行、普通行、段尾行、段首段尾行。段落模型的主要关注点是判断每一个文本行属于何种形式。
段首行的识别:判断是否存在缩进,每行的开始字符是否为“1.1”、“[1]”,相邻上一行是否为段尾等;
段尾行的识别:对行长进行判断,判断每行最后的标点符号是否为“。”、“:”、“;”,相邻下一行是否为段首等。
参照目录解析过程,针对每页的所有文本行设置一个段落结构序列E=(e1,e2,…,ei,…,en),其中,n为该页文本行总数,ei代表每一个文本行的类别,ei=0(普通行),1(段首行),2(段尾行),3(段首段尾行)。然后,就可以通过寻找相邻的段首行和段尾行来构成一个段落结构。
所述的步骤6)包括:目录链接决定正文中的相应内容对应于目录中的每一个条目。首先利用页码匹配找到目录条目在文档正文中出现的准确物理页码(与逻辑页码相比存在一个差值d,且往往比逻辑页码大),然后通过标题匹配找到目录条目在页面中出现的准确位置,接下来结合段落识别的结果准确地将目录和全文链接起来。
由于OCR识别会存在错误,导致目录条目中页码错误或者缺失,从而导致页码匹配的结果并不完整,而单纯依靠标题匹配又是十分耗时的。所以考虑了一种将两者结合的二级匹配机制。首先对页码匹配成功的目录条目在相应页面进行标题匹配获得准确位置,然后在此基础上对页码匹配失败的目录条目缩小搜索范围,进而提升标题匹配的速度。
页码匹配是找到目录条目在文档正文中出现的准确物理页码,如果提取的目录有一个完善的页码序列,那么只需要找到目录页号和图书实际页号的差值d。可以抽取一些条目作为样本,然后基于标题匹配来找到它们的具体页码。如果d值满足样本中所有条目,则将每一个目录页码加上d即为其对应物理页码。
标题匹配利用的是目录识别中的功能性特征,目录条目通常出现在一本书的正文的章节或者子章节标题上,这意味着以文本匹配为依据,在目录页中能找到很多和正文内容相匹配的字符串。由于OCR识别会存在识别错误,故本方法采用模糊标题匹配技术,以找到目录条目在正文文本中出现的准确位置来进行目录和段落之间的链接。
模糊标题匹配技术首先需要计算两个字符串的最短编辑距离。其定义如下:
设有字符串A和B,B为模式串,现给定以下操作:从字符串中删除一个字符;从字符串中插入一个字符;从字符串中替换一个字符。通过以上三种操作,将字符串A编辑为模式串B所需的最小操作数称为A和B的最短编辑距离,记为ED(A,B)。
求解最短编辑距离的算法描述如下:
用一个二维数组ED[i][j]表示字符串A的前i个字符编辑成字符串B的前j个字符所需的最小操作数。则ED[i][j]的递推公式为:
⑴ED[i][0]=i,ED[0][j]=j,其中0≤i≤A.len,0≤j≤B.len;
⑵若A[i]=B[j],则ED[i][j]=ED[i-1][j-1];
⑶若A[i]≠B[j],则ED[i][j]=min(ED[i-1][j-1],ED[i][j-1],ED[i-1][j])+1。
在求得最短编辑距离之后,还需要设置一个匹配误差率δ,δ的计算如下所示:
其中ED(A,B)表示字符串A到模式串B的最短编辑距离
经过大量实验将δ的阈值设置为0.25。此外,由于OCR识别错误的存在,造成有一部分目录条目在正文中找不到满足δ≤0.25的字符串。针对这种情况,本文设置了一个二级缓冲机制,找到匹配误差率δ满足:0.25<δ≤0.5的所有字符串,然后选定δ最小的字符串作为匹配成功的字符串。
所述的步骤7)包括:在经过页码匹配和标题匹配之后,已经获得了绝大多数目录条目在正文中的对应准确位置,而且段落识别也已经提取出了段落的结构,接下来的工作就是用结构化的语言将其表示出来。由于XML语言具有的结构化特点,并且广泛应用于网络传输,所以本方法选用XML语言来表示结构化数字图书。
实施例
下面结合本技术的方法详细说明该实例实施的具体步骤,如下:
(1)如图1所示,输入《人工智能》的扫描图片文件路径,然后对扫描图片进行预处理,主要是对图像进行切割,提取视觉特征值,简单版面分析,OCR成文本;
(2)如图1所示,接下来分别对目录和正文段落进行处理,目录识别主要是检测目录页,解析目录层次结构,段落识别是识别段落结构,然后目录链接通过页码匹配和标题匹配将目录和段落内容链接起来,构成图书的结构;
(3)由步骤(2)得到图书的整体结构,然后用XML语言将图书进行结构化表示,得到XML文档。
本实例的运行结果在附图5中展示,图中截取了《人工智能》一书经过结构化得到的XML表示的文档的一部分,由目录为骨架,填充进图书的段落内容,进而得到完整的结构化数字图书,方便进行进一步的知识抽取或者检索,这种图书结构化的方法有良好的使用价值和应用前景。

Claims (8)

1.一种数字图书结构化分析处理方法,其特征在于,包括以下步骤:
1)图书扫描图像切割和视觉特征提取:通过图像处理方法对图书扫描图像进行切割,获取坐标信息,然后提取视觉特征值;
2)图书扫描图像版面分析和OCR识别:通过提取得到的视觉特征值对图书扫描图像进行版面分析,去除无关信息;通过OCR工具将图书扫描图像识别为文字;
3)目录页和正文页判断:通过目录的布局特征和视觉特征判断目录页的范围,进而确定正文页的范围;
4)目录识别:在步骤3)的基础上,通过目录的布局特征和视觉特征构建目录模型,提取出目录的条目信息,然后识别出完整的目录结构;
5)正文段落识别:在步骤3)的基础上,通过段落的布局特征和视觉特征将正文的段落识别出来,构建正文的段落结构;
6)目录链接:在步骤4)和步骤5)的基础上,通过页码匹配和标题匹配两级匹配制度,将结构化的图书目录与正文链接起来,得到完整的图书结构;
7)图书结构化表示:基于步骤6)中得到的链接结果,用XML语言将图书进行结构化表示。
2.根据权利要求1所述的数字图书结构化分析处理方法,其特征在于,所述的步骤1)包括:
1.1对图书扫描图像进行切割,获取每行文本的坐标信息,包括:起始横坐标(left),结束横坐标(right),起始纵坐标(top),结束纵坐标(bottom),以及每行字符宽度,每行字符间距。
1.2依据目录和段落的视觉特征,将视觉特征量化为视觉特征值,然后对视觉特征值进行提取;目录识别提取需要的视觉特征有:缩进(indentation)、行宽(width)、行高(height)和行间距(space);其中,缩进由相邻两行的起始横坐标相减而得;行宽由结束横坐标和起始横坐标相减而得,表示为:
widthi=righti-lefti,其中1≤i≤n,n为总行数
行高由结束纵坐标和起始纵坐标相减而得,表示为:
heighti=bottomi-topi,其中1≤i≤n,n为总行数
行间距由下邻行起始纵坐标和本行结束纵坐标相减而得,表示为:
spacei=topi+1-bottomi,其中1≤i≤n-1,n为总行数
段落识别所需的视觉特征有:缩进、行宽、每页字符宽度、每页字符间距。缩进由每行起始横坐标与该页普通行的起始横坐标相减而得;行宽与上面计算方式相同;每页字符宽度和每页字符间距的计算需要首先对图像切割时得到的每行字符宽度值和每行字符间距值计算它们分布最为集中的中位数,最后取该页所有行的字符宽度和字符间距的中位数分布最为集中的中位数作为该页的字符宽度值和字符间距值。
3.根据权利要求1所述的数字图书结构化分析处理方法,其特征在于,所述的步骤2)包括:
2.1图书扫描图像版面分析将图书中非文本行部分(包括图像、表格、公式等)进行识别并舍弃,将图书中文本行部分保留下来,用于OCR识别。具体为:通过对图像进行投影,在其投影直方图中可以看出图像中的图片在横向投影时得到的是纵坐标为连续的数值非零块,表现在视觉上即该块具有异于普通文本行的行高,利用这个特点对图像切割得到的块进行判断,找到异于正常文本行的块,然后舍弃。
2.2通过OCR工具将图书扫描图像去除版面分析分离的无关信息之外的部分识别为文本。
4.根据权利要求1所述的数字图书结构化分析处理方法,其特征在于,所述的步骤3)包括:
3.1目录页的判断主要是定位目录的边界。由于目录页面一般位于文档的前若干页,可以定义一个滑动窗口机制进行检测。同时,由于目录一般带有一些基于规则的布局特征,可以在OCR处理获得的图书文本基础上提取这些特征进行目录的检测,所述布局特征包括连接符(点、线)、章节号、页码。
目录检测可以检测该页是否存在一定比例的连接符和合法页码。连接符由点或者线组成;目录条目合法页码指的目录条目中的页码是单调非降阿拉伯数字,假设之前的合法页码是p,那么当前行的页码q如果满足p≤q≤p′,p′是下一行的页码,则q是合法的。有时由于OCR错误,数字会被划分为多个,或者OCR提取到的数字是乱码,这就破坏了页码的合法性。所以需要求得连接符所在行数和合法页码所在行数占比该页所有行的比例,并对每个比例分别设置一个阈值,然后对每一页综合利用这两个阈值进行检测,如果有一个满足,则确定该页为目录页,如果均不满足,则该页不是目录页。如果第K页仍然为目录页,则将窗口向下滑动d页,如果在接下来的d页内找到了目录的终止页,则目录检测结束;否则窗口继续向下滑动d页,直至检测到第30%*N页为止,N为该书总页数。
3.2正文页的判断主要是区分图书正文的范围,主要基于3.1中目录页的判断结果,一般情况下目录页紧接着的直到图书结尾的部分为正文页。
5.根据权利要求1所述的数字图书结构化分析处理方法,其特征在于,所述的步骤4)具体为:在定位目录的开始和结尾之后,需要对目录进行识别解析。目录识别提取目录语义信息和目录的层次结构,首先需要生成目录条目,然后生成目录模型,最后根据目录模型确定目录的层次结构。
生成目录条目,即提取目录语义信息;目录条目通常包括四块,分别为:章节号块、标题块、连接符块和页码块。章节号块一般位于目录条目起始端;页码块一般是位于条目末端的单调非降阿拉伯数字;标题块一般位于章节号块和连接符块之间;连接符块一般位于页码块之前。依据每一块的特征进行识别匹配,并对跨行条目进行合并,从而提取出目录的语义信息。
在生成目录条目之后,生成目录模型。首先检测目录样式是否为分割的,如果为分割的,则需要对目录进行分块,然后对每一个子块进行接下来的检测;如果该目录不是分割的或者是分割后的目录子块,则检测是否为扁平化的,如果是扁平化的,则进行有序检测,否则进行有序处理;如果该目录(或目录块)是有序的,则进行有序处理,否则进行扁平化处理;
在经过目录模型的处理之后,确定目录的层次结构。针对一本书的所有目录条目生成一个目录层次序列Lever=(l1,l2,…,li,…,ln-1,ln),n等于目录条目数,li表示第i个目录条目的层次值。经过目录模型的处理,为每一个目录条目进行层次值的赋值,目录最终被解读为一个树,树的每一个节点表示目录中的一个条目。由于目录条目的层次是逐级增长的,所以目录层次序列Lever中层次值的增长幅度不会超过1,即满足条件li+1-li<2。检测目录解析生成的目录层次序列Lever中的层次序列值是否满足该条件来判断目录解析的正确与否,如果不满足,则继续进行解析修正,直至满足该条件。
6.根据权利要求1所述的数字图书结构化分析处理方法,其特征在于,所述的步骤5)具体为:生成段落模型进行段落结构的提取。段落中的文本行具有四种形式:段首行、普通行、段尾行、段首段尾行。
段首行的识别:判断是否存在缩进,每行的开始字符是否存在标号,相邻上一行是否为段尾;
段尾行的识别:对行长进行判断,判断每行最后的标点符号是否为“。”、“:”、“;”,相邻下一行是否为段首等。
参照目录解析过程,针对每页的所有文本行设置一个段落结构序列E=(e1,e2,…,ei,…,en),其中,n为该页文本行总数,ei代表每一个文本行的类别,ei=0(普通行),1(段首行),2(段尾行),3(段首段尾行)。然后,通过寻找相邻的段首行和段尾行来构成一个段落结构。
7.根据权利要求1所述的数字图书结构化分析处理方法,其特征在于,所述的步骤6)具体为:目录链接决定正文中的相应内容对应于目录中的每一个条目。首先利用页码匹配找到目录条目在文档正文中出现的准确物理页码,然后通过标题匹配找到目录条目在页面中出现的准确位置,接下来结合段落识别的结果准确地将目录和全文链接起来。
页码匹配是找到目录条目在文档正文中出现的准确物理页码,如果提取的目录有一个完善的页码序列,那么只需要找到目录页号和图书实际页号的差值d。可以抽取一些条目作为样本,然后基于标题匹配来找到它们的具体页码。如果d值满足样本中所有条目,则将每一个目录页码加上d即为其对应物理页码。
标题匹配利用的是目录识别中的功能性特征,目录条目通常出现在一本书的正文的章节或者子章节标题上,这意味着以文本匹配为依据,在目录页中能找到很多和正文内容相匹配的字符串。
8.根据权利要求7所述的数字图书结构化分析处理方法,其特征在于,所述的标题匹配采用模糊标题匹配技术,以找到目录条目在正文文本中出现的准确位置来进行目录和段落之间的链接。
模糊标题匹配技术首先需要计算两个字符串的最短编辑距离。在求得最短编辑距离之后,设置匹配误差率δ,δ的计算如下所示:其中ED(A,B)表示字符串A到模式串B的最短编辑距离
将δ的阈值设置为0.25。此外,由于OCR识别错误的存在,造成有一部分目录条目在正文中找不到满足δ≤0.25的字符串。针对这种情况设置二级缓冲机制,找到匹配误差率δ满足:0.25<δ≤0.5的所有字符串,然后选定δ最小的字符串作为匹配成功的字符串。
CN201610586830.6A 2016-07-22 2016-07-22 数字图书结构化分析处理方法 Active CN106250830B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610586830.6A CN106250830B (zh) 2016-07-22 2016-07-22 数字图书结构化分析处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610586830.6A CN106250830B (zh) 2016-07-22 2016-07-22 数字图书结构化分析处理方法

Publications (2)

Publication Number Publication Date
CN106250830A true CN106250830A (zh) 2016-12-21
CN106250830B CN106250830B (zh) 2019-05-24

Family

ID=57603791

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610586830.6A Active CN106250830B (zh) 2016-07-22 2016-07-22 数字图书结构化分析处理方法

Country Status (1)

Country Link
CN (1) CN106250830B (zh)

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106778758A (zh) * 2016-12-29 2017-05-31 成都数联铭品科技有限公司 用于图像文字识别的字符切分方法
CN107145859A (zh) * 2017-05-04 2017-09-08 北京小米移动软件有限公司 电子书转换处理方法、装置及计算机可读存储介质
CN108108342A (zh) * 2017-11-07 2018-06-01 汉王科技股份有限公司 结构化文本的生成方法、检索方法及装置
CN109697414A (zh) * 2018-12-13 2019-04-30 北京金山数字娱乐科技有限公司 一种文本定位方法及装置
CN109960707A (zh) * 2019-03-20 2019-07-02 上海亿阁信息科技有限公司 一种基于人工智能的高校招生数据采集方法及系统
CN110046637A (zh) * 2018-12-25 2019-07-23 阿里巴巴集团控股有限公司 一种合同段落标注模型的训练方法、装置及设备
CN110059559A (zh) * 2019-03-15 2019-07-26 深圳壹账通智能科技有限公司 Ocr识别文件的处理方法及其电子设备
CN110096257A (zh) * 2019-04-10 2019-08-06 沈阳哲航信息科技有限公司 一种基于智能识别的设计图形自动化评判系统及方法
CN110135429A (zh) * 2019-04-18 2019-08-16 深圳壹账通智能科技有限公司 扫描文字分段方法、装置、计算机设备和存储介质
CN110209632A (zh) * 2019-05-27 2019-09-06 武汉市润普网络科技有限公司 一种电子卷宗随案生产、转档系统
CN110232046A (zh) * 2019-05-27 2019-09-13 武汉市润普网络科技有限公司 一种电子卷宗随案生产方法
CN110321966A (zh) * 2019-07-11 2019-10-11 同方知网数字出版技术股份有限公司 一种加快图书相似性分析速度的方法
CN110334346A (zh) * 2019-06-26 2019-10-15 京东数字科技控股有限公司 一种pdf文件的信息抽取方法和装置
US10467466B1 (en) 2019-05-17 2019-11-05 NextVPU (Shanghai) Co., Ltd. Layout analysis on image
CN111081088A (zh) * 2019-05-10 2020-04-28 广东小天才科技有限公司 一种听写字词收录方法及电子设备
CN111860524A (zh) * 2020-07-28 2020-10-30 上海兑观信息科技技术有限公司 一种数字档案智能分类的装置及方法
CN112100122A (zh) * 2019-06-18 2020-12-18 珠海金山办公软件有限公司 一种存储图片的方法及装置
CN112115111A (zh) * 2019-06-20 2020-12-22 上海怀若智能科技有限公司 一种基于ocr的文档版本管理方法和系统
CN112836073A (zh) * 2021-02-02 2021-05-25 嘉应学院 一种历史文献数字化方法、系统、装置及存储介质
CN112990039A (zh) * 2021-03-25 2021-06-18 上海基绪康生物科技有限公司 一种以odl为基础从医学图像中提取结构化文本信息的方法
CN113221792A (zh) * 2021-05-21 2021-08-06 北京声智科技有限公司 一种章节检测模型构建方法、编目方法及其相关设备
CN113657373A (zh) * 2021-05-11 2021-11-16 南京航天数智科技有限公司 一种文书自动编目方法
CN113836971A (zh) * 2020-06-23 2021-12-24 中国人寿资产管理有限公司 一种图像型扫描件识别后的视觉信息重现方法、系统及存储介质
CN114495147A (zh) * 2022-01-25 2022-05-13 北京百度网讯科技有限公司 识别方法、装置、设备以及存储介质
CN116092108A (zh) * 2023-03-20 2023-05-09 四川竺信档案数字科技有限责任公司 一种实体文档扫描生成pdf文件的方法、系统及存储介质
CN116758565A (zh) * 2023-08-23 2023-09-15 中国电子科技集团公司第十研究所 一种基于决策树的ocr文本还原方法、设备及存储介质
CN117493712A (zh) * 2023-12-29 2024-02-02 浙江华东工程数字技术有限公司 Pdf文档可导航目录提取方法、装置、电子设备及存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113836268A (zh) * 2021-09-24 2021-12-24 北京百度网讯科技有限公司 文档理解方法及装置、电子设备和介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101833558A (zh) * 2009-09-04 2010-09-15 广东省标准化研究院 一种基于扩展标记语言的标准文献全文结构化方法
US8023738B1 (en) * 2006-03-28 2011-09-20 Amazon Technologies, Inc. Generating reflow files from digital images for rendering on various sized displays
CN103218351A (zh) * 2013-03-15 2013-07-24 杭州中元数据科技有限公司 现代地方文献电子图书制作方法
CN103714101A (zh) * 2012-10-04 2014-04-09 富士施乐株式会社 信息处理设备及信息处理方法
CN105260727A (zh) * 2015-11-12 2016-01-20 武汉大学 基于图像处理与序列标注的学术文献语义再结构化方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8023738B1 (en) * 2006-03-28 2011-09-20 Amazon Technologies, Inc. Generating reflow files from digital images for rendering on various sized displays
CN101833558A (zh) * 2009-09-04 2010-09-15 广东省标准化研究院 一种基于扩展标记语言的标准文献全文结构化方法
CN103714101A (zh) * 2012-10-04 2014-04-09 富士施乐株式会社 信息处理设备及信息处理方法
CN103218351A (zh) * 2013-03-15 2013-07-24 杭州中元数据科技有限公司 现代地方文献电子图书制作方法
CN105260727A (zh) * 2015-11-12 2016-01-20 武汉大学 基于图像处理与序列标注的学术文献语义再结构化方法

Cited By (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106778758A (zh) * 2016-12-29 2017-05-31 成都数联铭品科技有限公司 用于图像文字识别的字符切分方法
CN107145859A (zh) * 2017-05-04 2017-09-08 北京小米移动软件有限公司 电子书转换处理方法、装置及计算机可读存储介质
CN108108342A (zh) * 2017-11-07 2018-06-01 汉王科技股份有限公司 结构化文本的生成方法、检索方法及装置
CN108108342B (zh) * 2017-11-07 2021-09-03 汉王科技股份有限公司 结构化文本的生成方法、检索方法及装置
CN109697414A (zh) * 2018-12-13 2019-04-30 北京金山数字娱乐科技有限公司 一种文本定位方法及装置
CN110046637A (zh) * 2018-12-25 2019-07-23 阿里巴巴集团控股有限公司 一种合同段落标注模型的训练方法、装置及设备
CN110046637B (zh) * 2018-12-25 2023-08-08 创新先进技术有限公司 一种合同段落标注模型的训练方法、装置及设备
CN110059559A (zh) * 2019-03-15 2019-07-26 深圳壹账通智能科技有限公司 Ocr识别文件的处理方法及其电子设备
CN109960707A (zh) * 2019-03-20 2019-07-02 上海亿阁信息科技有限公司 一种基于人工智能的高校招生数据采集方法及系统
CN110096257A (zh) * 2019-04-10 2019-08-06 沈阳哲航信息科技有限公司 一种基于智能识别的设计图形自动化评判系统及方法
CN110135429A (zh) * 2019-04-18 2019-08-16 深圳壹账通智能科技有限公司 扫描文字分段方法、装置、计算机设备和存储介质
CN111081088A (zh) * 2019-05-10 2020-04-28 广东小天才科技有限公司 一种听写字词收录方法及电子设备
US10467466B1 (en) 2019-05-17 2019-11-05 NextVPU (Shanghai) Co., Ltd. Layout analysis on image
CN110232046A (zh) * 2019-05-27 2019-09-13 武汉市润普网络科技有限公司 一种电子卷宗随案生产方法
CN110209632A (zh) * 2019-05-27 2019-09-06 武汉市润普网络科技有限公司 一种电子卷宗随案生产、转档系统
CN112100122A (zh) * 2019-06-18 2020-12-18 珠海金山办公软件有限公司 一种存储图片的方法及装置
CN112100122B (zh) * 2019-06-18 2022-11-04 珠海金山办公软件有限公司 一种存储图片的方法及装置
CN112115111A (zh) * 2019-06-20 2020-12-22 上海怀若智能科技有限公司 一种基于ocr的文档版本管理方法和系统
CN110334346A (zh) * 2019-06-26 2019-10-15 京东数字科技控股有限公司 一种pdf文件的信息抽取方法和装置
CN110334346B (zh) * 2019-06-26 2020-09-29 京东数字科技控股有限公司 一种pdf文件的信息抽取方法和装置
CN110321966A (zh) * 2019-07-11 2019-10-11 同方知网数字出版技术股份有限公司 一种加快图书相似性分析速度的方法
CN110321966B (zh) * 2019-07-11 2022-02-15 同方知网数字出版技术股份有限公司 一种加快图书相似性分析速度的方法
CN113836971A (zh) * 2020-06-23 2021-12-24 中国人寿资产管理有限公司 一种图像型扫描件识别后的视觉信息重现方法、系统及存储介质
CN113836971B (zh) * 2020-06-23 2023-12-29 中国人寿资产管理有限公司 一种图像型扫描件识别后的视觉信息重现方法、系统及存储介质
CN111860524A (zh) * 2020-07-28 2020-10-30 上海兑观信息科技技术有限公司 一种数字档案智能分类的装置及方法
CN112836073A (zh) * 2021-02-02 2021-05-25 嘉应学院 一种历史文献数字化方法、系统、装置及存储介质
CN112990039A (zh) * 2021-03-25 2021-06-18 上海基绪康生物科技有限公司 一种以odl为基础从医学图像中提取结构化文本信息的方法
CN113657373A (zh) * 2021-05-11 2021-11-16 南京航天数智科技有限公司 一种文书自动编目方法
CN113221792A (zh) * 2021-05-21 2021-08-06 北京声智科技有限公司 一种章节检测模型构建方法、编目方法及其相关设备
CN114495147A (zh) * 2022-01-25 2022-05-13 北京百度网讯科技有限公司 识别方法、装置、设备以及存储介质
CN116092108A (zh) * 2023-03-20 2023-05-09 四川竺信档案数字科技有限责任公司 一种实体文档扫描生成pdf文件的方法、系统及存储介质
CN116758565A (zh) * 2023-08-23 2023-09-15 中国电子科技集团公司第十研究所 一种基于决策树的ocr文本还原方法、设备及存储介质
CN116758565B (zh) * 2023-08-23 2023-11-24 中国电子科技集团公司第十研究所 一种基于决策树的ocr文本还原方法、设备及存储介质
CN117493712A (zh) * 2023-12-29 2024-02-02 浙江华东工程数字技术有限公司 Pdf文档可导航目录提取方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN106250830B (zh) 2019-05-24

Similar Documents

Publication Publication Date Title
CN106250830B (zh) 数字图书结构化分析处理方法
Clark et al. Pdffigures 2.0: Mining figures from research papers
Shafait et al. Table detection in heterogeneous documents
Smith Hybrid page layout analysis via tab-stop detection
Lu et al. Document image retrieval through word shape coding
US7743327B2 (en) Table of contents extraction with improved robustness
CN105589841B (zh) 一种pdf文档表格识别的方法
US8467614B2 (en) Method for processing optical character recognition (OCR) data, wherein the output comprises visually impaired character images
Al-Zaidy et al. Automatic extraction of data from bar charts
Lovegrove et al. Document analysis of PDF files: methods, results and implications
CN101206639A (zh) 一种基于pdf的复杂版面的标引方法
JP5663866B2 (ja) 情報処理装置及び情報処理プログラム
JP4785655B2 (ja) 文書処理装置及び文書処理方法
Harit et al. Table detection in document images using header and trailer patterns
CN1525378A (zh) 票据定义数据生成方法以及票据处理装置
CN103902993A (zh) 文档图像识别方法和设备
JP2007122403A (ja) 文書タイトルおよび関連情報の自動抽出装置、抽出方法および抽出プログラム
CN115828874A (zh) 基于图像识别技术的行业表格数字化处理方法
US9049400B2 (en) Image processing apparatus, and image processing method and program
CN103176956B (zh) 用于提取文档结构的方法和装置
Lee et al. Detecting and dismantling composite visualizations in the scientific literature
CN111144445A (zh) 印刷书刊书写格式的检错方法及系统、电子设备
JP2005043990A (ja) 文書処理装置および文書処理方法
Berg et al. Towards high-quality text stream extraction from PDF. Technical background to the ACL 2012 Contributed Task
WO2007070010A1 (en) Improvements in electronic document analysis

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant