CN104346615A - 版式文档中复合图的提取装置和提取方法 - Google Patents

版式文档中复合图的提取装置和提取方法 Download PDF

Info

Publication number
CN104346615A
CN104346615A CN201310343908.8A CN201310343908A CN104346615A CN 104346615 A CN104346615 A CN 104346615A CN 201310343908 A CN201310343908 A CN 201310343908A CN 104346615 A CN104346615 A CN 104346615A
Authority
CN
China
Prior art keywords
word
block
legible
pel
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310343908.8A
Other languages
English (en)
Other versions
CN104346615B (zh
Inventor
许灿辉
汤帜
陶欣
史操
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New Founder Holdings Development Co ltd
Peking University
Founder Apabi Technology Ltd
Original Assignee
Peking University
Peking University Founder Group Co Ltd
Beijing Founder Apabi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University, Peking University Founder Group Co Ltd, Beijing Founder Apabi Technology Co Ltd filed Critical Peking University
Priority to CN201310343908.8A priority Critical patent/CN104346615B/zh
Priority to US14/104,064 priority patent/US20150046784A1/en
Publication of CN104346615A publication Critical patent/CN104346615A/zh
Application granted granted Critical
Publication of CN104346615B publication Critical patent/CN104346615B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Character Input (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明提供了一种版式文档中复合图的提取装置,包括:文档解析单元,对版式文档进行解析,确定构成所述版式文档的图元及所述图元的类型;图层生成单元,提取文字图元以构成文字图层,并利用其余的非文字图元构成非文字图层;版面分析单元,分别对文字图层和非文字图层进行版面分析处理;区块生成单元,生成文字图层中的文字区块和非文字图层中的图像区块;关联区块确定单元,确定与每个图像区块相关联的文字区块,以合并为复合图区块;标识存储单元,存储复合图区块包含的所有图元的标识。本发明还提出了一种版式文档中复合图的提取方法。通过本发明的技术方案,可以在复杂的文档版面布局中,尤其是图文混排版面中,实现对复合图的准确提取。

Description

版式文档中复合图的提取装置和提取方法
技术领域
本发明涉及电子文档格式转换技术领域,具体而言,涉及一种版式文档中复合图的提取装置和一种版式文档中复合图的提取方法。
背景技术
将纸张文档转换为电子文档,大多采用扫描仪扫描或者相机拍摄的方式,获取文档的数字图像,对其进行一系列图像处理后,将字符切分出来,输入OCR(Optical Character Recognition,光学字符识别)系统。而由文档处理软件,如排版软件,直接生成的版式文档,正在取代从纸质文档转化而来的图像文档成为数字出版物的主要文档来源。
结构信息的自动提取,主要包括版面分析和版面理解,其研究皆停留在图像文档版面的物理结构的提取,而针对通过OCR转化或者直接生成的版式文档的研究才刚刚起步。文档版面布局的复杂性和多样性导致插图的准确分割成为公开性难题,尤其是文字环绕型的插图。另外,版式文档中,复合图都由多个子图像、大量路径操作、文字图元等子对象构成,不能在逆向工程的版面结构分析中作为复合图的完整体被正确的提取出来。因而版式文档不仅在描述上要大量路径来描述,造成很大程度的冗余,更不利于版式文档流式重排时复合图的正常显示,难以满足日益增长数字化阅读的现实需求。
因此,需要一种新的版式文档中复合图的提取技术,可以在复杂的文档版面布局中,尤其是图文混排版面中,实现对复合图的准确提取。
发明内容
本发明正是基于上述问题,提出了一种新的版式文档中复合图的提取技术,可以在复杂的文档版面布局中,尤其是图文混排版面中,实现对复合图的准确提取。
有鉴于此,本发明提出了一种版式文档中复合图的提取装置,包括:文档解析单元,用于对所述版式文档进行解析,确定构成所述版式文档的图元及所述图元的类型;图层生成单元,用于提取文字图元以构成文字图层,并利用其余的非文字图元构成非文字图层;版面分析单元,用于分别对所述文字图层和所述非文字图层进行版面分析处理;区块生成单元,用于根据所述版面分析单元的版面分析处理结果,生成所述文字图层中的文字区块和所述非文字图层中的图像区块;关联区块确定单元,用于确定与每个所述图像区块相关联的文字区块,以合并为复合图区块;标识存储单元,用于存储所述复合图区块包含的所有图元的标识。
在该技术方案中,通过对版式文档进行解析后,将得到的图元分别构成文字图层(包含文字图元)和非文字图层(包含图像图元等),然后分别对每个图层进行区块分类,最终利用区块之间的关系判定复合图区块,以实现对复合图区块的分割,并确保对文字图元和非文字图元的妥善处理。在生成多个图层时,具体地,可以先提取所有的文字图元以形成文字图层,然后将文字图元过滤以利用剩余的元素构成非文字图元。本方案可以对图文混排、包含图像和图注信息等复杂情况进行有效地分析,从而准确地分割出其中的复合图区块。复合图区块中可以包含一个或多个复合图,还可以包含复合图中或周围的图注等文字。通过记录所有构成该复合图区块的图元的标识,如图元ID,从而能够利用这些图元ID来对应出该复合图区块,实现了将该区块与整个版面的分离,方便进行流式重排等处理。
在上述技术方案中,优选地,所述版面分析单元包括:聚类处理子单元,用于对所述文字图层中的文字图元进行聚类处理,以对所述文字图元进行分类;文字区块生成子单元,对于同类别的多个文字图元,在对应的最小外接矩形相交或间隔距离小于预设距离的情况下,用于将所述多个文字图元作为文字图元集合,并将所述文字图元集合的最小外接矩形作为一个所述文字区块。
在该技术方案中,通过基于页面内文字图元邻域特征相似性的聚类算法处理,可以有效地对文字图元进行分类,从而确定每个文字图元应该属于正文部分还是复合图部分。通过对距离的判断及相应的处理,从而确定多个文字图元的构成关系,比如用于构成一个文字区块,该文字区块对应于一个完整的字符。
在上述技术方案中,优选地,所述版面分析单元包括:纹理特征获取子单元,用于获取所述非文字图层中的非文字图元的纹理特征;连通区域检测子单元,用于根据所述纹理特征以及预设的特征阈值,检测出所述非文字图层中连通的非文字对象区域;图像区块生成子单元,对于多个所述连通的非文字对象区域,在对应的最小外接矩形相交或间隔距离小于预设距离的情况下,用于将多个所述连通的非文字对象区域作为区域集合,并将所述区域集合的最小外接矩形作为所述图像区块。
在该技术方案中,利用基于纹理分析和形态学处理的页面非文字对象的连通域检测,从而识别出版面中的连通的非文字对象区域,该区域实际上对应于版面中的一幅图像或该图像中的一部分;再通过对距离的判断及相应的处理,即可将构成同一幅图像的多个连通区域进行合并,从而实现对某一幅图像的完整的识别。
在上述技术方案中,优选地,所述版面分析单元还包括:孔洞填补子单元,用于对所述连通的非文字对象区域中存在的孔洞进行填补。
在该技术方案中,通过对连通的非文字对象区域中存在的孔洞进行填补,从而能够以整体为对象来处理对应的区域,避免了孔洞为处理过程带来的难度和可能造成的意外。
在上述技术方案中,优选地,所述关联区块确定单元包括:位置关系检测子单元,用于检测所述图像区块与所述文字区块之间的位置关系,其中,若指定图像区块与至少一个文字区块相交,或所述指定图像区块与所述至少一个文字区块的间隔距离小于预设距离,则判定所述至少一个文字区块与所述指定图像区块相关联。
在该技术方案中,由于图像往往存在一些文字描述,比如图标题、图中的标注文字等等,这些文字与图像之间是相关联的,应该划分至相同的区块。通过上述处理,使得分割出来的复合图区块更加准确。
在上述技术方案中,优选地,还包括:图像生成单元,用于将所述复合图区块生成为图像文件;图像保存单元,用于保存所述图像文件。
在该技术方案中,直接将分割出来的复合图区块以图像文件的形式进行保存,从而不必对图元ID进行管理,尤其是当这些复合图区块中包含有数量很多的图元时,以图像文件进行处理的方式,显然有利于提升处理效率。
根据本发明的又一方面,还提出了一种版式文档中复合图的提取方法,包括:步骤202,对所述版式文档进行解析,确定构成所述版式文档的图元及所述图元的类型;步骤204,提取文字图元以构成文字图层,并利用其余的非文字图元构成非文字图层;步骤206,分别对所述文字图层和所述非文字图层进行版面分析处理,以生成所述文字图层中的文字区块和所述非文字图层中的图像区块;步骤208,确定与每个所述图像区块相关联的文字区块,以合并为复合图区块;步骤210,存储所述复合图区块包含的所有图元的标识。
在该技术方案中,通过对版式文档进行解析后,将得到的图元分别构成文字图层(包含文字图元)和非文字图层(包含图像图元等),然后分别对每个图层进行区块分类,最终利用区块之间的关系判定复合图区块,以实现对复合图区块的分割,并确保对文字图元和非文字图元的妥善处理。在生成多个图层时,具体地,可以先提取所有的文字图元以形成文字图层,然后将文字图元过滤以利用剩余的元素构成非文字图元。本方案可以对图文混排、包含图像和图注信息等复杂情况进行有效地分析,从而准确地分割出其中的复合图区块。复合图区块中可以包含一个或多个复合图,还可以包含复合图中或周围的图注等文字。通过记录所有构成该复合图区块的图元的标识,如图元ID,从而能够利用这些图元ID来对应出该复合图区块,实现了将该区块与整个版面的分离,方便进行流式重排等处理。
在上述技术方案中,优选地,对所述文字图层进行版面分析处理的步骤包括:对所述文字图层中的文字图元进行聚类处理,以对所述文字图元进行分类,其中,对于同类别的多个文字图元,若对应的最小外接矩形相交或间隔距离小于预设距离,则将所述多个文字图元作为文字图元集合,并将所述文字图元集合的最小外接矩形作为一个所述文字区块。
在该技术方案中,通过基于页面内文字图元邻域特征相似性的聚类算法处理,可以有效地对文字图元进行分类,从而确定每个文字图元应该属于正文部分还是复合图部分。通过对距离的判断及相应的处理,从而确定多个文字图元的构成关系,比如用于构成一个文字区块,该文字区块对应于一个完整的字符。
在上述技术方案中,优选地,对所述非文字图层进行版面分析处理的步骤包括:获取所述非文字图层中的非文字图元的纹理特征,并根据预设的特征阈值,检测出所述非文字图层中连通的非文字对象区域,其中,对于多个所述连通的非文字对象区域,若对应的最小外接矩形相交或间隔距离小于预设距离,则将多个所述连通的非文字对象区域作为区域集合,并将所述区域集合的最小外接矩形作为所述图像区块。
在该技术方案中,利用基于纹理分析和形态学处理的页面非文字对象的连通域检测,从而识别出版面中的连通的非文字对象区域,该区域实际上对应于版面中的一幅图像或该图像中的一部分;再通过对距离的判断及相应的处理,即可将构成同一幅图像的多个连通区域进行合并,从而实现对某一幅图像的完整的识别。
在上述技术方案中,优选地,还包括:对所述连通的非文字对象区域中存在的孔洞进行填补。
在该技术方案中,通过对连通的非文字对象区域中存在的孔洞进行填补,从而能够以整体为对象来处理对应的区域,避免了孔洞为处理过程带来的难度和可能造成的意外。
在上述技术方案中,优选地,所述确定与每个所述图像区块相关联的文字区块的步骤包括:检测所述图像区块与所述文字区块之间的位置关系,若指定图像区块与至少一个文字区块相交,或所述指定图像区块与所述至少一个文字区块的间隔距离小于预设距离,则判定所述至少一个文字区块与所述指定图像区块相关联。
在该技术方案中,由于图像往往存在一些文字描述,比如图标题、图中的标注文字等等,这些文字与图像之间是相关联的,应该划分至相同的区块。通过上述处理,使得分割出来的复合图区块更加准确。
在上述技术方案中,优选地,还包括:将所述复合图区块保存为图像文件。
在该技术方案中,直接将分割出来的复合图区块以图像文件的形式进行保存,从而不必对图元ID进行管理,尤其是当这些复合图区块中包含有数量很多的图元时,以图像文件进行处理的方式,显然有利于提升处理效率。
通过以上技术方案,可以在复杂的文档版面布局中,尤其是图文混排版面中,实现对复合图的准确提取。
附图说明
图1示出了根据本发明的实施例的版式文档中复合图的提取装置的框图;
图2示出了根据本发明的实施例的版式文档中复合图的提取方法的流程图;
图3示出了根据本发明的实施例的对版式文档中的复合图进行提取的具体流程图;
图4A至图4D示出了根据本发明的一个实施例的对版式文档中的复合图进行提取的示意图;
图5A至图5D示出了根据本发明的另一个实施例的对版式文档中的复合图进行提取的示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明并不限于下面公开的具体实施例的限制。
图1示出了根据本发明的实施例的版式文档中复合图的提取装置的框图。
如图1所示,根据本发明的实施例的版式文档中复合图的提取装置100,包括:文档解析单元102,用于对所述版式文档进行解析,确定构成所述版式文档的图元及所述图元的类型;图层生成单元104,用于提取文字图元以构成文字图层,并利用其余的非文字图元构成非文字图层;版面分析单元106,用于分别对所述文字图层和所述非文字图层进行版面分析处理;区块生成单元108,用于根据所述版面分析单元106的版面分析处理结果,生成所述文字图层中的文字区块和所述非文字图层中的图像区块;关联区块确定单元110,用于确定与每个所述图像区块相关联的文字区块,以合并为复合图区块;标识存储单元112,用于存储所述复合图区块包含的所有图元的标识。
在该技术方案中,通过对版式文档进行解析后,将得到的图元分别构成文字图层(包含文字图元)和非文字图层(包含图像图元等),然后分别对每个图层进行区块分类,最终利用区块之间的关系判定复合图区块,以实现对复合图区块的分割,并确保对文字图元和非文字图元的妥善处理。在生成多个图层时,具体地,可以先提取所有的文字图元以形成文字图层,然后将文字图元过滤以利用剩余的元素构成非文字图元。本方案可以对图文混排、包含图像和图注信息等复杂情况进行有效地分析,从而准确地分割出其中的复合图区块。复合图区块中可以包含一个或多个复合图,还可以包含复合图中或周围的图注等文字。通过记录所有构成该复合图区块的图元的标识,如图元ID,从而能够利用这些图元ID来对应出该复合图区块,实现了将该区块与整个版面的分离,方便进行流式重排等处理。
在上述技术方案中,优选地,所述版面分析单元106包括:聚类处理子单元1060,用于对所述文字图层中的文字图元进行聚类处理,以对所述文字图元进行分类;文字区块生成子单元1062,对于同类别的多个文字图元,在对应的最小外接矩形相交或间隔距离小于预设距离的情况下,用于将所述多个文字图元作为文字图元集合,并将所述文字图元集合的最小外接矩形作为一个所述文字区块。
在该技术方案中,通过基于页面内文字图元邻域特征相似性的聚类算法处理,可以有效地对文字图元进行分类,从而确定每个文字图元应该属于正文部分还是复合图部分。通过对距离的判断及相应的处理,从而确定多个文字图元的构成关系,比如用于构成一个文字区块,该文字区块对应于一个完整的字符。
在上述技术方案中,优选地,所述版面分析单元106包括:纹理特征获取子单元1064,用于获取所述非文字图层中的非文字图元的纹理特征;连通区域检测子单元1066,用于根据所述纹理特征以及预设的特征阈值,检测出所述非文字图层中连通的非文字对象区域;图像区块生成子单元1068,对于多个所述连通的非文字对象区域,在对应的最小外接矩形相交或间隔距离小于预设距离的情况下,用于将多个所述连通的非文字对象区域作为区域集合,并将所述区域集合的最小外接矩形作为所述图像区块。
在该技术方案中,利用基于纹理分析和形态学处理的页面非文字对象的连通域检测,从而识别出版面中的连通的非文字对象区域,该区域实际上对应于版面中的一幅图像或该图像中的一部分;再通过对距离的判断及相应的处理,即可将构成同一幅图像的多个连通区域进行合并,从而实现对某一幅图像的完整的识别。
在上述技术方案中,优选地,所述版面分析单元106还包括:孔洞填补子单元1069,用于对所述连通的非文字对象区域中存在的孔洞进行填补。
在该技术方案中,通过对连通的非文字对象区域中存在的孔洞进行填补,从而能够以整体为对象来处理对应的区域,避免了孔洞为处理过程带来的难度和可能造成的意外。
在上述技术方案中,优选地,所述关联区块确定单元110包括:位置关系检测子单元1100,用于检测所述图像区块与所述文字区块之间的位置关系,其中,若指定图像区块与至少一个文字区块相交,或所述指定图像区块与所述至少一个文字区块的间隔距离小于预设距离,则判定所述至少一个文字区块与所述指定图像区块相关联。
在该技术方案中,由于图像往往存在一些文字描述,比如图标题、图中的标注文字等等,这些文字与图像之间是相关联的,应该划分至相同的区块。通过上述处理,使得分割出来的复合图区块更加准确。
在上述技术方案中,优选地,还包括:图像生成单元114,用于将所述复合图区块生成为图像文件;图像保存单元116,用于保存所述图像文件。
在该技术方案中,直接将分割出来的复合图区块以图像文件的形式进行保存,从而不必对图元ID进行管理,尤其是当这些复合图区块中包含有数量很多的图元时,以图像文件进行处理的方式,显然有利于提升处理效率。
图2示出了根据本发明的实施例的版式文档中复合图的提取方法的流程图。
如图2所示,根据本发明的实施例的版式文档中复合图的提取方法,包括:步骤202,对所述版式文档进行解析,确定构成所述版式文档的图元及所述图元的类型;步骤204,提取文字图元以构成文字图层,并利用其余的非文字图元构成非文字图层;步骤206,分别对所述文字图层和所述非文字图层进行版面分析处理,以生成所述文字图层中的文字区块和所述非文字图层中的图像区块;步骤208,确定与每个所述图像区块相关联的文字区块,以合并为复合图区块;步骤210,存储所述复合图区块包含的所有图元的标识。
在该技术方案中,通过对版式文档进行解析后,将得到的图元分别构成文字图层(包含文字图元)和非文字图层(包含图像图元等),然后分别对每个图层进行区块分类,最终利用区块之间的关系判定复合图区块,以实现对复合图区块的分割,并确保对文字图元和非文字图元的妥善处理。在生成多个图层时,具体地,可以先提取所有的文字图元以形成文字图层,然后将文字图元过滤以利用剩余的元素构成非文字图元。本方案可以对图文混排、包含图像和图注信息等复杂情况进行有效地分析,从而准确地分割出其中的复合图区块。复合图区块中可以包含一个或多个复合图,还可以包含复合图中或周围的图注等文字。通过记录所有构成该复合图区块的图元的标识,如图元ID,从而能够利用这些图元ID来对应出该复合图区块,实现了将该区块与整个版面的分离,方便进行流式重排等处理。
在上述技术方案中,优选地,对所述文字图层进行版面分析处理的步骤包括:对所述文字图层中的文字图元进行聚类处理,以对所述文字图元进行分类,其中,对于同类别的多个文字图元,若对应的最小外接矩形相交或间隔距离小于预设距离,则将所述多个文字图元作为文字图元集合,并将所述文字图元集合的最小外接矩形作为一个所述文字区块。
在该技术方案中,通过基于页面内文字图元邻域特征相似性的聚类算法处理,可以有效地对文字图元进行分类,从而确定每个文字图元应该属于正文部分还是复合图部分。通过对距离的判断及相应的处理,从而确定多个文字图元的构成关系,比如用于构成一个文字区块,该文字区块对应于一个完整的字符。
在上述技术方案中,优选地,对所述非文字图层进行版面分析处理的步骤包括:获取所述非文字图层中的非文字图元的纹理特征,并根据预设的特征阈值,检测出所述非文字图层中连通的非文字对象区域,其中,对于多个所述连通的非文字对象区域,若对应的最小外接矩形相交或间隔距离小于预设距离,则将多个所述连通的非文字对象区域作为区域集合,并将所述区域集合的最小外接矩形作为所述图像区块。
在该技术方案中,利用基于纹理分析和形态学处理的页面非文字对象的连通域检测,从而识别出版面中的连通的非文字对象区域,该区域实际上对应于版面中的一幅图像或该图像中的一部分;再通过对距离的判断及相应的处理,即可将构成同一幅图像的多个连通区域进行合并,从而实现对某一幅图像的完整的识别。
在上述技术方案中,优选地,还包括:对所述连通的非文字对象区域中存在的孔洞进行填补。
在该技术方案中,通过对连通的非文字对象区域中存在的孔洞进行填补,从而能够以整体为对象来处理对应的区域,避免了孔洞为处理过程带来的难度和可能造成的意外。
在上述技术方案中,优选地,所述确定与每个所述图像区块相关联的文字区块的步骤包括:检测所述图像区块与所述文字区块之间的位置关系,若指定图像区块与至少一个文字区块相交,或所述指定图像区块与所述至少一个文字区块的间隔距离小于预设距离,则判定所述至少一个文字区块与所述指定图像区块相关联。
在该技术方案中,由于图像往往存在一些文字描述,比如图标题、图中的标注文字等等,这些文字与图像之间是相关联的,应该划分至相同的区块。通过上述处理,使得分割出来的复合图区块更加准确。
在上述技术方案中,优选地,还包括:将所述复合图区块保存为图像文件。
在该技术方案中,直接将分割出来的复合图区块以图像文件的形式进行保存,从而不必对图元ID进行管理,尤其是当这些复合图区块中包含有数量很多的图元时,以图像文件进行处理的方式,显然有利于提升处理效率。
图3示出了根据本发明的实施例的对版式文档中的复合图进行提取的具体流程图。
如图3所示,根据本发明的实施例的对版式文档中的复合图进行提取的具体流程包括:
步骤302,利用解析引擎对原始的版式文档进行解析。
步骤304,根据解析结果,获取该版式文档中包含的图元。
步骤306,判断图元的类型,比如可以根据解析出来的图元类型进行分辨,其中,若为文字类型,则获取该文字图元并进入步骤310,否则进入步骤308。
步骤308,依据该图元的类型进行相应的处理。
步骤310,对页面进行分层处理,具体地,根据步骤306获取的文字图元,将所有的文字图元构成文字图层,然后将所有的文字图元过滤后,剩余的图元构成非文字图层。
当然,这种通过对文字图元进行获取、分层、过滤、再分层的方式仅为图层构建的一种方式,实际上,也可以通过对非文字图元进行获取来实现,或是分别获取文字图元和非文字图元以同时分别构成图层等。
下面将分别对文字图层和非文字图层进行处理,其中,步骤312至步骤316对文字图层进行了处理,而步骤318至步骤322对非文字图层进行处理,以下分别进行详细说明。
步骤312,构建Delaunay三角剖分的邻域关系。具体地,以页面内文字图元的外接矩形的质心为顶点V,通过采用Delaunay三角剖分,构建页面内文字图元的邻域关系G=(V,E)。
步骤314,采用基于图的并查集算法对文字图元聚类。具体地,包括:
1、对构建的无向图中连接相邻节点vi和vj的边E,计算其权重w(vi,vj):
w ( v i , v j ) = Σ k λ k f k ( v i , v j )
其中,k为相邻节点vi和vj的特征相似度函数fk(vi,vj)的维数,可以视不同的应用场景选择特征函数的维数,λk为选择的特征函数的权系数。
2、为将所有的文字图元进行聚类,根据页面内节点间的统计分布,定义节点集合间的类内距离Int(C)和类间距离Dif(C1,C2)。具体的聚类过程采用基于图的并查集算法:
1)将页面内每个节点,即每个文字图元,当成一个集合,遍历无向图的边;
2)查询连接边的两个节点分别属于哪个集合;
3)如果节点集合C1和C2的类间距离满足条件Dif(C1,C2)≤min(Int(C1),Int(C2)),则合并这两个集合,形成新的集合C’1,并删去集合C1和C2;而当Dif(C1,C2)>min(Int(C1),Int(C2)),则不进行合并操作;
4)遍历完所有的边,完成对文字图元的聚类,计算相近且同类文字图元集合的外接矩形框。
步骤318,计算纹理特征,检测连通区域。具体地,包括:计算该图层的图像纹理特征,采用灰度共生矩阵捕捉非文字对象的纹理特征,主要包括图像局部熵和局部标准差,设定与页面大小相关的阈值,检测出页面图像中连通的非文字对象区域。
步骤320,利用形态学处理填充连通区域内的孔洞。具体地,可以采用基于形态学腐蚀算子的孔洞填充算法,将连通区域中的孔洞进行填补。
步骤322,检测连通区域的外接矩形框,区域生长成非文字对象的外接矩形框。具体地,首先计算出每个检测到非文字对象连通区域的外接矩形(最小外接矩形,作为该非文字对象连通区域对应的范围),然后对重叠相交或邻接距离小于设定间距的矩形框进行区域生长,计算最终的外接矩形框。
步骤324,判断矩形框是否合并。具体地,在对文字图层和非文字图层分别进行处理后,可以分别得到一些文字或非文字区域的外接矩形框,这里,通过将这些外接矩形框进行距离上的比较,以确定是否将某些外接矩形框进行合并处理,判断过程包括:
如果非文字层的非文字连通对象和文字层的文字类矩形框相交,或者距离小于设定间距,则合并这两个矩形框;
如果距离大于字符间距,则不进行合并操作。
步骤326,根据任意两个外接矩形框的合并处理结果(包括进行了合并或没有进行合并),判断结果是否收敛,若是,则进入步骤328,否则返回步骤324,从而确保对所有的矩形框都进行了合并处理,以实现对复合图的准确分割。
步骤328,返回最终矩形框集合,保存文件。具体地,当矩形框没有新的合并操作时,算法收敛,最终返回复合图的外接矩形框信息(确定对应的区域的信息),将构成复合图所对应的图元ID集合保存成XML文件。或者,也可以采用将分割出来的复合图保存为图像文件的形式,从而避免对数量众多的图元ID进行管理时的效率低下的问题。
下面将列举多个实施例,分别具体地对本发明的技术方案进行详细说明。
图4A至图4D示出了根据本发明的一个实施例的对版式文档中的复合图进行提取的示意图。
如图4A至图4D所示,以中文版式文档图书“台灣古厝圖鑑”中的一张双栏页面为例,该图中包括:由文字图元构成的正文文字部分402A、图注文字部分402B、页面文字部分402D和图中文字部分402E,以及由非文字图元构成的装饰性复合图404A、分栏线复合图404B、正文插图复合图404C和正文插图复合图404D,下面将按照图3给出的流程分割出页面中的复合图对象。
首先需要通过解析引擎获取版式文档的各种图元,然后对路径图元进行分组,得到仅包含文字图元的文字图层和包含其余的非文字图元的非文字图层。
具体地,可以通过提取文档内嵌的文字图元,并使用提取出来的页面内的文字图元构成文字图层;然后,将文字图元过滤后,利用剩余的非文字图元构成非文字图层。如图4A所示,对该页面中的所有文字的外接矩形框进行了可视化显示;将页面内文字图元过滤,重新绘制页面,形成非文字图层,如图4B所示。
然后需要分别对文字图层和非文字图层进行处理,处理流程如图3中的步骤312至步骤316、步骤318至步骤322所示。
1、针对文字图层进行聚类处理,图4C给出以页面内文字图元的外接矩形的质心为顶点,采用Delaunay三角剖分构建的文字图元邻域关系。以解析后版式文档中包含的文字图元的字体信息为特征,设计基于图的并查集算法,对文字聚类的结果采用不同的颜色来显示,如图4C所示,该页面内的文字聚为4类,分别属于正文文字部分402A、图注文字部分402B、页面文字部分402D和图中文字部分402E。
2、对非文字图层进行基于纹理分析和形态学处理的连通域检测,并对得到的连通域进行关联分析和区域生长,以及确定生长完成后的连通域的外接矩形框。
3、融合对文字图层和非文字图层的分割结果,该页面的复合图的最终分割结果如图4D所示,页面左边的装饰性复合图404A,内部包括图中文字部分402E,该图被准确的分割出来;页面下方的正文插图复合图404C包含大量的路径操作和环绕其四周文字图元,其分割难度是比较大的,但采用本发明的方法,也被准确的分割出来;对于分栏线复合图404B和灰度图(正文插图复合图404D),都被准确的分割出来。分割结果可直接用于版式文档的流式重排应用。
图5A至图5D示出了根据本发明的另一个实施例的对版式文档中的复合图进行提取的示意图。
如图5A至图5D所示,以英文版式文档图书“Advances in SelectedPlant Physiology Aspects”中的一张单栏页面为例,该图中包括:由文字图元构成的正文文字部分502A和页眉文字部分502B,以及由非文字图元构成的正文插图复合图504A和分栏线复合图504B,下面将按照图3给出的流程分割出页面中的复合图对象。
首先需要通过解析引擎获取版式文档的各种图元,然后对路径图元进行分组,得到仅包含文字图元的文字图层和包含其余的非文字图元的非文字图层。
具体地,可以通过提取文档内嵌的文字图元,并使用提取出来的页面内的文字图元构成文字图层;然后,将文字图元过滤后,利用剩余的非文字图元构成非文字图层。如图5A所示,对该页面中的所有文字的外接矩形框进行了可视化显示;将页面内文字图元过滤,重新绘制页面,形成非文字图层,如图5B所示。
然后需要分别对文字图层和非文字图层进行处理,处理流程如图3中的步骤312至步骤316、步骤318至步骤322所示。
1、针对文字图层进行聚类处理,图5C给出以页面内文字图元的外接矩形的质心为顶点,采用Delaunay三角剖分构建的文字图元邻域关系。以解析后版式文档中包含的文字图元的字体信息为特征,设计基于图的并查集算法,对文字聚类的结果采用不同的颜色来显示,如图5C所示,该页面内的文字聚为2类,分别属于正文文字部分502A和页眉文字部分502B。
2、对非文字图层进行基于纹理分析和形态学处理的连通域检测,并对得到的连通域进行关联分析和区域生长,以及确定生长完成后的连通域的外接矩形框。
3、融合对文字图层和非文字图层的分割结果,该页面的复合图的最终分割结果如图5D所示,页面中间的正文插图复合图504A,由扫描的3个子图构成,图中文字皆属于扫描子图,由这些子图构成的复合图被准确的分割出来;页面上方的分栏线复合图504B,都被准确的分割出来。分割结果可直接用于版式文档的流式重排应用。
以上结合附图详细说明了本发明的技术方案,本发明将基于图像的版面分析技术应用到版式文档复合图的结构信息提取,结合图像文档处理技术和版式文档固有的底层结构信息,为高效可靠的智能文档分析和理解奠定基础,为提高图文及多媒体信息的动态实时混排和跨平台阅读的鲁棒性提供支持。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种版式文档中复合图的提取装置,其特征在于,包括:
文档解析单元,用于对所述版式文档进行解析,确定构成所述版式文档的图元及所述图元的类型;
图层生成单元,用于提取文字图元以构成文字图层,并利用其余的非文字图元构成非文字图层;
版面分析单元,用于分别对所述文字图层和所述非文字图层进行版面分析处理;
区块生成单元,用于根据所述版面分析单元的版面分析处理结果,生成所述文字图层中的文字区块和所述非文字图层中的图像区块;
关联区块确定单元,用于确定与每个所述图像区块相关联的文字区块,以合并为复合图区块;
标识存储单元,用于存储所述复合图区块包含的所有图元的标识。
2.根据权利要求1所述的版式文档中复合图的提取装置,其特征在于,所述版面分析单元包括:
聚类处理子单元,用于对所述文字图层中的文字图元进行聚类处理,以对所述文字图元进行分类;
文字区块生成子单元,对于同类别的多个文字图元,在对应的最小外接矩形相交或间隔距离小于预设距离的情况下,用于将所述多个文字图元作为文字图元集合,并将所述文字图元集合的最小外接矩形作为一个所述文字区块。
3.根据权利要求1所述的版式文档中复合图的提取装置,其特征在于,所述版面分析单元包括:
纹理特征获取子单元,用于获取所述非文字图层中的非文字图元的纹理特征;
连通区域检测子单元,用于根据所述纹理特征以及预设的特征阈值,检测出所述非文字图层中连通的非文字对象区域;
图像区块生成子单元,对于多个所述连通的非文字对象区域,在对应的最小外接矩形相交或间隔距离小于预设距离的情况下,用于将多个所述连通的非文字对象区域作为区域集合,并将所述区域集合的最小外接矩形作为所述图像区块。
4.根据权利要求3所述的版式文档中复合图的提取装置,其特征在于,所述版面分析单元还包括:
孔洞填补子单元,用于对所述连通的非文字对象区域中存在的孔洞进行填补。
5.根据权利要求1所述的版式文档中复合图的提取装置,其特征在于,所述关联区块确定单元包括:
位置关系检测子单元,用于检测所述图像区块与所述文字区块之间的位置关系,其中,若指定图像区块与至少一个文字区块相交,或所述指定图像区块与所述至少一个文字区块的间隔距离小于预设距离,则判定所述至少一个文字区块与所述指定图像区块相关联。
6.根据权利要求1至5中任一项所述的版式文档中复合图的提取装置,其特征在于,还包括:
图像生成单元,用于将所述复合图区块生成为图像文件;
图像保存单元,用于保存所述图像文件。
7.一种版式文档中复合图的提取方法,其特征在于,包括:
对所述版式文档进行解析,确定构成所述版式文档的图元及所述图元的类型;
提取文字图元以构成文字图层,并利用其余的非文字图元构成非文字图层;
分别对所述文字图层和所述非文字图层进行版面分析处理,以生成所述文字图层中的文字区块和所述非文字图层中的图像区块;
确定与每个所述图像区块相关联的文字区块,以合并为复合图区块;
存储所述复合图区块包含的所有图元的标识。
8.根据权利要求7所述的版式文档中复合图的提取方法,其特征在于,对所述文字图层进行版面分析处理的步骤包括:
对所述文字图层中的文字图元进行聚类处理,以对所述文字图元进行分类,其中,
对于同类别的多个文字图元,若对应的最小外接矩形相交或间隔距离小于预设距离,则将所述多个文字图元作为文字图元集合,并将所述文字图元集合的最小外接矩形作为一个所述文字区块。
9.根据权利要求7所述的版式文档中复合图的提取方法,其特征在于,对所述非文字图层进行版面分析处理的步骤包括:
获取所述非文字图层中的非文字图元的纹理特征,并根据预设的特征阈值,检测出所述非文字图层中连通的非文字对象区域,其中,
对于多个所述连通的非文字对象区域,若对应的最小外接矩形相交或间隔距离小于预设距离,则将多个所述连通的非文字对象区域作为区域集合,并将所述区域集合的最小外接矩形作为所述图像区块。
10.根据权利要求9所述的版式文档中复合图的提取方法,其特征在于,还包括:
对所述连通的非文字对象区域中存在的孔洞进行填补。
11.根据权利要求7所述的版式文档中复合图的提取方法,其特征在于,所述确定与每个所述图像区块相关联的文字区块的步骤包括:
检测所述图像区块与所述文字区块之间的位置关系,若指定图像区块与至少一个文字区块相交,或所述指定图像区块与所述至少一个文字区块的间隔距离小于预设距离,则判定所述至少一个文字区块与所述指定图像区块相关联。
12.根据权利要求7至11中任一项所述的版式文档中复合图的提取方法,其特征在于,还包括:
将所述复合图区块保存为图像文件。
CN201310343908.8A 2013-08-08 2013-08-08 版式文档中复合图的提取装置和提取方法 Active CN104346615B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201310343908.8A CN104346615B (zh) 2013-08-08 2013-08-08 版式文档中复合图的提取装置和提取方法
US14/104,064 US20150046784A1 (en) 2013-08-08 2013-12-12 Extraction device for composite graph in fixed layout document and extraction method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310343908.8A CN104346615B (zh) 2013-08-08 2013-08-08 版式文档中复合图的提取装置和提取方法

Publications (2)

Publication Number Publication Date
CN104346615A true CN104346615A (zh) 2015-02-11
CN104346615B CN104346615B (zh) 2019-02-19

Family

ID=52449700

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310343908.8A Active CN104346615B (zh) 2013-08-08 2013-08-08 版式文档中复合图的提取装置和提取方法

Country Status (2)

Country Link
US (1) US20150046784A1 (zh)
CN (1) CN104346615B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105117706A (zh) * 2015-08-28 2015-12-02 小米科技有限责任公司 图像处理方法和装置、字符识别方法和装置
CN106709483A (zh) * 2015-07-21 2017-05-24 深圳市唯德科创信息有限公司 根据指定位置进行图像识别的方法
CN107451232A (zh) * 2017-07-24 2017-12-08 广东顺德德力信息科技有限公司 一种电子文档图文信息还原方法、存储设备及终端
CN107689070A (zh) * 2017-08-31 2018-02-13 平安科技(深圳)有限公司 图表数据结构化提取方法、电子设备及计算机可读存储介质
CN107688789A (zh) * 2017-08-31 2018-02-13 平安科技(深圳)有限公司 文档图表抽取方法、电子设备及计算机可读存储介质
CN107704439A (zh) * 2016-08-09 2018-02-16 中科领域(北京)科技有限公司 一种多层图像文字编辑方法及实现其方法的系统
CN107798355A (zh) * 2017-11-17 2018-03-13 山西同方知网数字出版技术有限公司 一种基于文档图像版式自动分析与判断的方法
CN109213870A (zh) * 2017-06-30 2019-01-15 埃森哲环球解决方案有限公司 文档处理
CN111652157A (zh) * 2020-06-04 2020-09-11 广东外语外贸大学 一种低资源语种与通用语种的字典词条提取及识别方法
CN112100979A (zh) * 2020-09-16 2020-12-18 掌阅科技股份有限公司 基于电子书的排版处理方法、电子设备及存储介质
CN112149523A (zh) * 2020-09-04 2020-12-29 开普云信息科技股份有限公司 基于深度学习和并查集算法的ocr识别并抽取图片的方法、装置、电子设备及存储介质
CN112686786A (zh) * 2020-12-29 2021-04-20 新疆医科大学第一附属医院 一种医疗护理用教学系统及教学方法
CN115983199A (zh) * 2023-03-16 2023-04-18 山东天成书业有限公司 一种移动数字出版系统及方法

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111160018B (zh) * 2019-12-13 2022-11-01 广东施富电气实业有限公司 电气图纸非元器件文本识别方法、系统及存储介质
CN111160144B (zh) * 2019-12-16 2023-04-07 广东施富电气实业有限公司 电气图纸图文结合的元器件识别方法、系统及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5987171A (en) * 1994-11-10 1999-11-16 Canon Kabushiki Kaisha Page analysis system
CN101206639A (zh) * 2007-12-20 2008-06-25 北大方正集团有限公司 一种基于pdf的复杂版面的标引方法
CN102262618A (zh) * 2010-05-28 2011-11-30 北京大学 一种版面信息识别的方法及装置
WO2012057891A1 (en) * 2010-10-26 2012-05-03 Hewlett-Packard Development Company, L.P. Transformation of a document into interactive media content
US20120324341A1 (en) * 2011-06-17 2012-12-20 Xerox Corporation Detection and extraction of elements constituting images in unstructured document files
US20130174017A1 (en) * 2011-12-29 2013-07-04 Chegg, Inc. Document Content Reconstruction

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5335290A (en) * 1992-04-06 1994-08-02 Ricoh Corporation Segmentation of text, picture and lines of a document image
US5892843A (en) * 1997-01-21 1999-04-06 Matsushita Electric Industrial Co., Ltd. Title, caption and photo extraction from scanned document images
JPH10228473A (ja) * 1997-02-13 1998-08-25 Ricoh Co Ltd 文書画像処理方法、文書画像処理装置および記憶媒体
US7013309B2 (en) * 2000-12-18 2006-03-14 Siemens Corporate Research Method and apparatus for extracting anchorable information units from complex PDF documents
US7200271B2 (en) * 2001-03-29 2007-04-03 The Boeing Company Method, computer program product, and system for performing automated text recognition and text search within a graphic file
US7007231B2 (en) * 2002-01-07 2006-02-28 Chi Hung Dang Document management system employing multi-zone parsing process
JP4538214B2 (ja) * 2002-11-22 2010-09-08 オセ−テクノロジーズ・ベー・ヴエー グラフによる画像分割
US7386789B2 (en) * 2004-02-27 2008-06-10 Hewlett-Packard Development Company, L.P. Method for determining logical components of a document
US7555711B2 (en) * 2005-06-24 2009-06-30 Hewlett-Packard Development Company, L.P. Generating a text layout boundary from a text block in an electronic document
US8249344B2 (en) * 2005-07-01 2012-08-21 Microsoft Corporation Grammatical parsing of document visual structures
US7539343B2 (en) * 2005-08-24 2009-05-26 Hewlett-Packard Development Company, L.P. Classifying regions defined within a digital image
US8509563B2 (en) * 2006-02-02 2013-08-13 Microsoft Corporation Generation of documents from images
US7765199B2 (en) * 2006-03-17 2010-07-27 Proquest Llc Method and system to index captioned objects in published literature for information discovery tasks
US8250469B2 (en) * 2007-12-03 2012-08-21 Microsoft Corporation Document layout extraction
US8532374B2 (en) * 2007-12-05 2013-09-10 Canon Kabushiki Kaisha Colour document layout analysis with multi-level decomposition
US8438472B2 (en) * 2009-01-02 2013-05-07 Apple Inc. Efficient data structures for parsing and analyzing a document
US8634644B2 (en) * 2009-08-25 2014-01-21 Fuji Xerox Co., Ltd. System and method for identifying pictures in documents
JP5511450B2 (ja) * 2010-03-16 2014-06-04 キヤノン株式会社 画像処理装置、画像処理方法及びプログラム
JP5733907B2 (ja) * 2010-04-07 2015-06-10 キヤノン株式会社 画像処理装置、画像処理方法、コンピュータプログラム
US9484006B2 (en) * 2013-02-13 2016-11-01 Documill Oy Manipulation of textual content data for layered presentation
US9223756B2 (en) * 2013-03-13 2015-12-29 Adobe Systems Incorporated Method and apparatus for identifying logical blocks of text in a document

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5987171A (en) * 1994-11-10 1999-11-16 Canon Kabushiki Kaisha Page analysis system
CN101206639A (zh) * 2007-12-20 2008-06-25 北大方正集团有限公司 一种基于pdf的复杂版面的标引方法
CN102262618A (zh) * 2010-05-28 2011-11-30 北京大学 一种版面信息识别的方法及装置
WO2012057891A1 (en) * 2010-10-26 2012-05-03 Hewlett-Packard Development Company, L.P. Transformation of a document into interactive media content
US20120324341A1 (en) * 2011-06-17 2012-12-20 Xerox Corporation Detection and extraction of elements constituting images in unstructured document files
US20130174017A1 (en) * 2011-12-29 2013-07-04 Chegg, Inc. Document Content Reconstruction

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106709483A (zh) * 2015-07-21 2017-05-24 深圳市唯德科创信息有限公司 根据指定位置进行图像识别的方法
CN105117706A (zh) * 2015-08-28 2015-12-02 小米科技有限责任公司 图像处理方法和装置、字符识别方法和装置
CN105117706B (zh) * 2015-08-28 2019-01-18 小米科技有限责任公司 图像处理方法和装置、字符识别方法和装置
CN107704439A (zh) * 2016-08-09 2018-02-16 中科领域(北京)科技有限公司 一种多层图像文字编辑方法及实现其方法的系统
CN109213870A (zh) * 2017-06-30 2019-01-15 埃森哲环球解决方案有限公司 文档处理
CN109213870B (zh) * 2017-06-30 2022-04-29 埃森哲环球解决方案有限公司 文档处理
CN107451232A (zh) * 2017-07-24 2017-12-08 广东顺德德力信息科技有限公司 一种电子文档图文信息还原方法、存储设备及终端
CN107688789A (zh) * 2017-08-31 2018-02-13 平安科技(深圳)有限公司 文档图表抽取方法、电子设备及计算机可读存储介质
WO2019041442A1 (zh) * 2017-08-31 2019-03-07 平安科技(深圳)有限公司 图表数据结构化提取方法、系统、电子设备及计算机可读存储介质
WO2019041527A1 (zh) * 2017-08-31 2019-03-07 平安科技(深圳)有限公司 文档图表抽取方法、电子设备及计算机可读存储介质
CN107688789B (zh) * 2017-08-31 2021-05-18 平安科技(深圳)有限公司 文档图表抽取方法、电子设备及计算机可读存储介质
CN107689070B (zh) * 2017-08-31 2021-06-04 平安科技(深圳)有限公司 图表数据结构化提取方法、电子设备及计算机可读存储介质
CN107689070A (zh) * 2017-08-31 2018-02-13 平安科技(深圳)有限公司 图表数据结构化提取方法、电子设备及计算机可读存储介质
CN107798355A (zh) * 2017-11-17 2018-03-13 山西同方知网数字出版技术有限公司 一种基于文档图像版式自动分析与判断的方法
CN111652157A (zh) * 2020-06-04 2020-09-11 广东外语外贸大学 一种低资源语种与通用语种的字典词条提取及识别方法
CN112149523A (zh) * 2020-09-04 2020-12-29 开普云信息科技股份有限公司 基于深度学习和并查集算法的ocr识别并抽取图片的方法、装置、电子设备及存储介质
CN112100979A (zh) * 2020-09-16 2020-12-18 掌阅科技股份有限公司 基于电子书的排版处理方法、电子设备及存储介质
CN112686786A (zh) * 2020-12-29 2021-04-20 新疆医科大学第一附属医院 一种医疗护理用教学系统及教学方法
CN115983199A (zh) * 2023-03-16 2023-04-18 山东天成书业有限公司 一种移动数字出版系统及方法

Also Published As

Publication number Publication date
CN104346615B (zh) 2019-02-19
US20150046784A1 (en) 2015-02-12

Similar Documents

Publication Publication Date Title
CN104346615A (zh) 版式文档中复合图的提取装置和提取方法
CN111814722B (zh) 一种图像中的表格识别方法、装置、电子设备及存储介质
WO2020192391A1 (zh) 基于ocr的图像转档方法、装置、设备及可读存储介质
CN108537146B (zh) 一种印刷体与手写体混合文本行提取系统
CN100474340C (zh) 图像处理方法和图像处理装置
KR100855260B1 (ko) 문서 이미지의 컨텐츠-어댑티브 스케일링을 위한 화이트스페이스 그래프 및 트리
US7359568B2 (en) Image processing apparatus and image processing method
US7343046B2 (en) Systems and methods for organizing image data into regions
EP0660256B1 (en) Method and apparatus for selecting text and/or non-text blocks in a stored document
US7831107B2 (en) Image processing apparatus, image processing method, and program
CN102567300B (zh) 图片文档的处理方法及装置
CN102194123B (zh) 表格模板定义方法和装置
US8290268B2 (en) Segmenting printed media pages into articles
US20110164813A1 (en) Apparatus and method for digitizing documents
CN105528614A (zh) 一种漫画图像版面的识别方法和自动识别系统
CN101840582B (zh) 一种地籍图地块的边界数字化方法
CN115223172A (zh) 文本提取方法、装置及设备
KR101571681B1 (ko) 동질 영역을 이용한 문서 구조의 분석 방법
JP2008028716A (ja) 画像処理方法及び装置
Afzal et al. Improvements to uncalibrated feature-based stereo matching for document images by using text-line segmentation
CN109800758A (zh) 一种极大值区域检测的自然场景文字检测方法
Biswas et al. Text extraction from scanned land map images
JP2001034763A (ja) 文書画像処理装置、その文書タイトル抽出方法及び文書タグ情報付与方法
CN112419208A (zh) 一种基于施工图审查矢量图纸编译方法及系统
JP4587167B2 (ja) 画像処理装置及び画像処理方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220621

Address after: 3007, Hengqin international financial center building, No. 58, Huajin street, Hengqin new area, Zhuhai, Guangdong 519031

Patentee after: New founder holdings development Co.,Ltd.

Patentee after: FOUNDER APABI TECHNOLOGY Ltd.

Patentee after: Peking University

Address before: 100871, Beijing, Haidian District Cheng Fu Road 298, founder building, 9 floor

Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee before: FOUNDER APABI TECHNOLOGY Ltd.

Patentee before: Peking University

TR01 Transfer of patent right