CN101901341B - 从可移植电子文档中提取光栅图像的方法和设备 - Google Patents

从可移植电子文档中提取光栅图像的方法和设备 Download PDF

Info

Publication number
CN101901341B
CN101901341B CN200910141741.0A CN200910141741A CN101901341B CN 101901341 B CN101901341 B CN 101901341B CN 200910141741 A CN200910141741 A CN 200910141741A CN 101901341 B CN101901341 B CN 101901341B
Authority
CN
China
Prior art keywords
raster image
candidate
image
raster
electronic document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN200910141741.0A
Other languages
English (en)
Other versions
CN101901341A (zh
Inventor
杜成
徐文晖
长谷川史裕
井上浩一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to CN200910141741.0A priority Critical patent/CN101901341B/zh
Priority to US12/785,004 priority patent/US8559725B2/en
Priority to JP2010117428A priority patent/JP5633188B2/ja
Publication of CN101901341A publication Critical patent/CN101901341A/zh
Application granted granted Critical
Publication of CN101901341B publication Critical patent/CN101901341B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06KGRAPHICAL DATA READING; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
    • G06K15/00Arrangements for producing a permanent visual presentation of the output data, e.g. computer output printers
    • G06K15/02Arrangements for producing a permanent visual presentation of the output data, e.g. computer output printers using printers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06KGRAPHICAL DATA READING; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
    • G06K15/00Arrangements for producing a permanent visual presentation of the output data, e.g. computer output printers
    • G06K15/02Arrangements for producing a permanent visual presentation of the output data, e.g. computer output printers using printers
    • G06K15/18Conditioning data for presenting it to the physical printing elements
    • G06K15/1801Input data handling means
    • G06K15/181Receiving print data characterized by its formatting, e.g. particular page description languages
    • G06K15/1811Receiving print data characterized by its formatting, e.g. particular page description languages including high level document description only
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06KGRAPHICAL DATA READING; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
    • G06K15/00Arrangements for producing a permanent visual presentation of the output data, e.g. computer output printers
    • G06K15/02Arrangements for producing a permanent visual presentation of the output data, e.g. computer output printers using printers
    • G06K15/18Conditioning data for presenting it to the physical printing elements
    • G06K15/1801Input data handling means
    • G06K15/1822Analysing the received data before processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06KGRAPHICAL DATA READING; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
    • G06K15/00Arrangements for producing a permanent visual presentation of the output data, e.g. computer output printers
    • G06K15/02Arrangements for producing a permanent visual presentation of the output data, e.g. computer output printers using printers
    • G06K15/18Conditioning data for presenting it to the physical printing elements
    • G06K15/1848Generation of the printable image
    • G06K15/1852Generation of the printable image involving combining data of different types
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/0008Connection or combination of a still picture apparatus with another apparatus
    • H04N2201/0065Converting image data to a format usable by the connected apparatus or vice versa
    • H04N2201/0067Converting to still picture data

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Processing Or Creating Images (AREA)
  • Image Generation (AREA)

Abstract

本发明提供一种通过分析可移植电子文档的格式来提取其中的光栅图像的方法和设备。一种从可移植电子文档中提取光栅图像的方法,包含以下步骤:a)解析可移植电子文档的格式以获取每页中与光栅图像相关的命令和资源;b)处理所述命令和资源来提取候选光栅图像;c)合并相连接的候选光栅图像;以及d)去除虚警光栅图像。本发明实现了不论内联光栅图像还是ImageXObject光栅图像均可提取,且视觉上完整的光栅图像将作为一个完整的图像提取,并排除了作为非感知意义上的内容的细长分割线。

Description

从可移植电子文档中提取光栅图像的方法和设备
技术领域
本发明涉及一种从可移植电子文档中提取光栅图像的方法和设备,更具体地说,本发明涉及一种通过分析可移植电子文档的格式来提取其中的光栅图像的方法和设备。
背景技术
可移植电子文档,如PDF及PS格式,在日常办公工作中被广泛应用。可移植电子文档是一类用于表示文档的电子文档格式,这类电子文档的生成及打印、显示等输出操作可以基于不同的应用软件、硬件以及操作系统。
可移植电子文档定义了两种描述光栅图像的方式,内联图像以及ImageXObject。与内联图像对应的PDF命令以及图像数据都存放于页内容流中,而与ImageXObject对应的PDF命令存放于页内容流中,图像数据存放于页资源中。
区别于通过描述图像中的一系列控制点并连接控制点之间的路径来描述图像的矢量图像,光栅图像也叫位图,通过描述图像中每个象素的颜色信息来表示该图像。
从可移植电子文档中提取诸如段落、表格的成份还是困难的工作。比如,利用Adobe Acrobat能从PDF格式文档中提取光栅图像,但提取结果有时并不能令人满意。
首先,内联光栅图像不能被提取。例如,Adobe的Acrobat Reader只能提取ImageXObject光栅图像。
其次,在PDF格式文档中,一个视觉上完整的光栅图像往往表示为相连接的多个图像片断,Adobe Acrobat会提取多个图像片断,而不是一个完整的图像。
而且,在PDF格式文档中,表格的分割线往往被表示为多个细长的光栅图像,Adobe Acrobat会把这些用于表示表格线的光栅图像也提取出来。而这种细长的分割线通常不是感知意义上的内容,例如,在利用图像检索来进行文档检索的情况下,作为分割线的这样的细长的光栅图像并无检索意义上的显著特征,用户一般并不希望将其提取出来。
根据美国专利6801673 B2,PDF格式文档中的词被提取。该专利通过查找文字片断中的词分隔字符(空格)来提取词或者是判断相邻文字片断之间的距离,如果该距离大于一定阈值,则相邻的文字片断就被分为两个词。该专利的输入是一个PDF格式文档,输出是该文档所包含的词的集合。
美国专利申请5832530A提出了一种从PDF格式文档中提取内容片断的工具。首先,用户在PDF浏览界面拖拽一个矩形,该工具提取该矩形内包含的PDF格式文档内容片断,并将提取的内容片断存储为一个新的PDF格式文档。该工具提取和粘贴PDF命令,诸如图片、表格信息等等的具有感知意义的文档内容并没有提取。
发明内容
考虑到现有技术方案中的缺陷,本发明提出了相应的解决方案。本发明提供一种通过分析可移植电子文档的格式来提取其中的光栅图像的方法和设备。
根据本发明的一个方面,一种从可移植电子文档中提取光栅图像的方法,包含以下步骤:a)解析可移植电子文档的格式以获取每页中与光栅图像相关的命令和资源;b)处理所述命令和资源来提取候选光栅图像;c)合并相连接的候选光栅图像;以及d)去除虚警光栅图像。
根据本发明的另一个方面,一种从可移植电子文档中提取光栅图像的设备,包括:文档解析装置,用于解析可移植电子文档的格式以获取每页中与光栅图像相关的命令和资源;候选光栅图像提取装置,用于处理所述命令和资源来提取候选光栅图像;光栅图像合并装置,用于合并相连接的候选光栅图像;以及虚警光栅图像去除装置,用于去除虚警光栅图像。
本发明的实施例能够应用于文档处理和文档理解领域。诸如文档内容提取、文档重用以及文档检索。例如,光栅图像的提取可以应用于文档重用以及文档检索系统中。
根据本发明的实施例,通过分析可移植电子文档的格式来从可移植电子文档提取其中的光栅图像,实现了不论内联光栅图像还是ImageXObject光栅图像均可提取,且视觉上完整的光栅图像将作为一个完整的图像提取,并排除了作为非感知意义上的内容的细长分割线。
通过阅读结合附图考虑的以下本发明的优选实施例的详细描述,将更好地理解本发明的以上和其他目标、特征、优点和技术及工业重要性。
附图说明
图1示出根据本发明实施例的从可移植电子文档中提取光栅图像的计算机系统的硬件配置。
图2示出按照本发明实施例的从可移植电子文档中提取光栅图像的方法的总体流程图。
图3示出从可移植电子文档中提取与光栅图像相关的命令和资源的方法的流程。
图4示出提取候选光栅图像的方法的流程。
图5示出合并相连接的候选光栅图像的方法的流程。
图6示出去除虚警光栅图像的方法的流程。
图7示出PDF格式文档的树状文档结构及页内容流的示例。
图8A和图8B示出对相连接的光栅图像进行合并的示例,其中图8A示出合并前的相连接的多个光栅图像,图8B示出的光栅图像合并后的结果。
图9示出用于判断候选光栅图像是否相连接的参数的示意图。
具体实施方式
本专利用于从可移植电子文档中提取光栅图像。这里,可移植电子文档的格式包括Adobe公司的PDF(Portable Document Format)、PS(PostScript)等。提取的光栅图像可用于文档重用或者是文档检索等应用。本实施例描述了如何从PDF格式文档中提取光栅图像,然而,本领域技术人员可以认识到,本发明能够应用于任何类型的可移植电子文档。
图1示出根据本发明实施例的从可移植电子文档中提取光栅图像的计算机系统的硬件配置。如图1所示,从PDF格式文档中提取光栅图像的计算机系统10包括:计算机11、键盘16、监视器17、打印机18、软盘驱动器19、网络接入器20、及硬盘驱动器21。计算机11包括:数据总线12、随机存取存储器(RAM)13、只读存储器(ROM)14、中央处理器15、及外设总线22。
根据从随机存取存储器13接到的指令,中央处理器15控制输入数据的接收和处理、以及向监视器17或者其他外设的输出。在本实施例中,中央处理器15的一种功能是处理输入的PDF格式文档,提取该文档中包含的光栅图像。所提取的光栅图像可以由中央处理器15中的其他应用程序使用。
中央处理器15通过数据总线12来访问随机存取存储器13和只读存储器14。随机存取存储器13可以由中央处理器15用作可读写的内存,用来作为各个进程的工作区及可变数据的存储区。只读存储器14存储PDF格式文档、光栅图像提取程序、及其他的用于提取光栅图像的程序。
外设总线22用于访问与计算机11相连的输入设备、输出设备及存储设备等外围设备。在本实施例中,所述外围设备包括:监视器17、打印机18、软盘驱动器19、网络接入器20、及硬盘驱动器21。监视器17通过外设总线22来显示中央处理器15输出的数据和图像,它可以是栅格式(或者可以称为点阵式)显示设备,如CRT或者LCD显示器。打印机18把中央处理器输入的数据和图像打印到纸张或者与纸张相似的介质。为了在如监视器17或打印机18等的输出设备上显示PDF格式文档,计算机系统10需要进行从PDF格式文档到其对应图像表示的转换。在其他的实施例中,也可以在如打印机18等的输出设备中包括中央处理器或类似的处理器,以实现从类似的PDF格式文档到图像的转换。软盘驱动器19及硬盘驱动器21用来存储PDF格式文档。通过软盘驱动器19,PDF格式文档可以在不同的计算机系统之间传递;硬盘驱动器21的存储空间更大,而且访问速度更快。其他的存储设备,诸如闪存(Flash memory),也可以用来存储PDF格式文档以供计算机系统10访问。计算机系统10通过网络接入器20在网络上发送数据并接收来自其他计算机系统的数据。用户可以通过键盘16等等输入指令给计算机系统10。
图2示出按照本发明实施例的从可移植电子文档中提取光栅图像的方法的总体流程图。如图2所示,按照本实施例的从例如PDF格式文档的可移植电子文档中提取光栅图像的方法30总体上包括下列操作。在步骤S31,提取与光栅图像相关的命令和资源,在步骤S32,提取候选光栅图像,在步骤S33,合并相连接光栅图像,在步骤S34,去除虚警光栅图像。具体地,在步骤S31,在内存中载入PDF格式文档,解析PDF格式文档格式以提取与光栅图像相关的命令和资源。在步骤S32,处理所提取的命令和资源以提取候选光栅图像,并保存在候选光栅图像列表中。这里所谓“提取”包括图像位置、尺寸的计算、以及根据PDF格式文档中指定的图像编码方式来对图像数据进行的解码。在PDF格式文档中,定义了两种类型的光栅图像,包括ImageXObject以及内联图像(Inline Image)。在本实施例中,这两类光栅图像被分别处理,并存放于不同的候选光栅图像列表。在步骤S33,比较候选光栅图像列表中的不同光栅图像,合并相连接的小的光栅图像成为大的光栅图像。最后,在步骤S34,删除候选光栅图像列表中用于表示分隔线或是表格线的细长光栅图像。
图3具体示出从可移植电子文档中提取与光栅图像相关的命令和资源的方法即图2中步骤S31的流程。如图3所示,在提取与光栅图像相关的命令和资源的过程中,首先,在步骤S311,将PDF格式文档载入内存。之后,在步骤S312,解析PDF格式文档的格式结构,构建文档树状结构,该树状结构使得能够方便地对每页文档的内容流以及资源进行访问及获取。例如,图7示出PDF格式文档的树状文档结构及页内容流的示例,图7中左侧外框所示为该文档第一页的资源,左侧内框所示为该页资源中的一个图像资源,右侧框所示为该页对应内容流片断。之后,在步骤S313中,顺序载入PDF格式文档每页的内容流和资源,判断该页是否为最后一页,直至到达最后一页。在步骤S314,根据相应页的内容流的编码方式对该页的内容流解码。根据PDF格式文档说明书(其定义了PDF格式应遵循的规范),PDF格式文档支持多种内容流编码方式,诸如FlateDecode及LZWDecode等。在步骤S314,利用该PDF格式文档所采用的编码方式来解码,所解码的PDF内容流由PDF命令集合构成。在步骤S315,逐条解析解码后的PDF内容流中的命令,从命令集合中提取与光栅图像相关的命令。PDF格式文档说明书对ImageXObject及内联图像定义了不同的存储机制和显示命令。例如,命令“cm 100 0 0 100 4090”用来控制光栅图像起始点(40,90)以及图像显示大小(100*100);命令“Do Img1”根据命令“cm”中指定的位置和尺寸来显示ImageXObject光栅图像Img1。作为ImageXObject光栅图像,与Img1对应的图像数据存放于该页的资源中。命令“BI”开始形成内联图像对象,命令“ID”用来描述内联图像数据,命令“EI”表示结束内联图像数据,并且显示该内联图像。与ImageObjextX不同,内联图像数据直接存放在页内容流中,因此并非从页的资源中提取,而从页内容流中直接提取。因此,在步骤S316,在光栅图像为ImageXObject图像的情况下,从每页的资源中提取与光栅图像相关的资源,在光栅图像为内联图像的情况下,从解码的内容流中提取与光栅图像相关的资源。
图4示出提取候选光栅图像的方法即图2中步骤S32的流程。如图4所示,在步骤S321,逐条载入所提取的与光栅图像相关的命令。在步骤S322,判断哪个或哪些命令是图像显示命令。根据PDF格式文档说明书,对应于ImageXObject的显示命令是“Do”,对应于内联图像的显示命令是“EI”,每个图像显示命令用于在PDF页面显示一个光栅图像。在步骤S323,获取与当前显示命令对应的候选光栅图像的位置和尺寸信息。PDF格式文档中,光栅图像的位置和尺寸信息是由命令“cm a b c d e f”所定义的一个仿射变换所确定的。其中,“cm”表示命令,“a b c d e f”为参数。根据“a b c d”,可以获得图像的尺寸和旋转信息,参数“e f”确定图像相对于页面起始点的坐标。例如,根据命令“cm 100 0 0 100 40 90”,“40 90”为光栅图像起始点,图像大小为100*100,旋转角度为0。在步骤S324,根据该PDF文档所指定的编码方式来对候选光栅图像的图像数据进行解码,来提取候选光栅图像。这里,ImageXObject的编码方式存放在其对应的图像资源中,而内联图像对应的编码方式存放在页内容流中的“BI”、“EI”命令对之内。在步骤S325,把提取的ImageXObjet光栅图像和内联光栅图像分别存放到不同的候选光栅图像列表。
图5示出合并相连接的候选光栅图像的方法即图2中步骤S33的流程,用来把相连接的小的光栅图像合并为大的光栅图像。在PDF格式文档中,一个视觉上完整的图像往往被表示为多个小的相互连接的光栅图像。ImageXObjet光栅图像和内联光栅图像分别针对不同的候选光栅图像列表,在此,针对不同的候选光栅图像列表,分别进行合并处理。首先,在步骤S331,针对某个候选光栅图像列表,根据候选光栅图像的位置信息对列表中的候选光栅图像进行排序。这里,第一个图像是图像起始点和页面起始点最近的图像,第二个图像是图像起始点和第一个图像起始点最近的图像,以此类推,直到列表中所有图像被排序。在步骤S332,设置图像标号参数IMG_INDEX为0,设置图像参数CUR_IMG为图像列表中与标号IMG_INDEX对应的图像。在步骤S333,设置图像参数NEXT_IMG为候选光栅图像列表中对应于标号IMG_INDEX+1的图像,即该列表中与CUR_IMG相邻的下一图像。在步骤S334,比较CUR_IMG和NEXT_IMG的位置信息来判断他们是否为相连接图像。如果这两个图像在垂直方向上相近,例如小于给定的第一阈值,并且在水平方向上有较长重叠,例如大于给定的第二阈值,则判断他们为相连接图像。在本实施例中,可以设定为,如果gap<thre_gap并且 overlapping min ( width 1 , width 2 ) > thre _ overlapping , 则这两个图像被判断为相连接图像,否则为非连接图像。参数gap、overlapping、width1、width2、thre_gap、及thre_overlapping的定义如图9所示,width1为图像CUR_IMG的宽度,width2为图像NEXT_IMG的宽度,gap是两个图像在垂直方向上的距离,overlapping是两个图像在水平方向上的重叠区域长度,第一阈值thre_gap及第二阈值thre_overlapping可根据不同的应用设定,例如,thre_gap=2以及thre_overlapping=0.4。如果步骤S334中判断两个图像为相连接图像,则在步骤S335合并CUR_IMG和NEXT_IMG,并把图像参数CUR_IMG设置为合并后的图像,设置IMG_INDEX为IMG_INDEX+1。这里,图像合并包括图像位置、图像尺寸的合并以及图像数据的合并。本实施例中,利用以下公式(1)~(4)来计算第一幅图像和第二幅图像合并后的图像的位置。
new_startx=min(start_x1,start_x2)        (1)
new_starty=min(start_y1,start_y2)        (2)
new_endx=max(end_x1,end_x2)              (3)
new_endy=max(end_y1,end_y2)              (4)
其中,new_startx为合并后光栅图像的起始点x方向坐标,new_starty为合并后光栅图像的起始点y方向坐标,new_endx为合并后光栅图像的末端点x方向坐标,new_endy为合并后光栅图像的末端点y方向坐标;start_x1为合并前的第一幅图像的起始点x方向坐标,start_y1为合并前的第一幅图像的起始点y方向坐标,end_x1为合并前的第一幅图像的末端点x方向坐标,end_y1为合并前的第一幅图像的末端点y方向坐标;start_x2为合并前的第二幅图像的起始点x方向坐标,start_y2为合并前的第二幅图像的起始点y方向坐标,end_x2为合并前的第二幅图像的末端点x方向坐标,end_y2为合并前的第二幅图像的末端点y方向坐标。
在合并图像数据过程中,第一幅图像和第二幅图像的数据分别粘贴到合并图像中对应的位置,合并图像中剩余的空白区域用黑像素填充。如果在步骤S334中判断图像CUR_IMG和NEXT_IMG为非连接图像,即不相连接,则在步骤S336中,把图像CUR_IMG添加到第二候选光栅图像列表,称其为第二候选光栅图像列表,以区别于原候选光栅图像列表。在步骤S337,设置参数CUR_IMG为原候选光栅图像列表中的候选光栅图像序列中标号为CUR_INDEX+1的图像,并设置参数CUR_INDEX为CUR_INDEX+1。在步骤S338,检测原候选光栅图像列表中是否还有图像,如果有,则进入步骤S333继续处理,否则进入步骤S339,添加图像CUR_IMG到第二候选光栅图像列表,之后结束处理。上述图像合并过程对于ImageXObject和内联图像序列分别处理。图8A和图8B示出对相连接的光栅图像进行合并的示例,其中图8A示出合并前的相连接的多个光栅图像,图8B示出的光栅图像合并后的结果。
图6示出去除虚警光栅图像的方法即图2中步骤S34的流程,用来去除新产生的第二候选光栅图像列表中细长的以及非常小的光栅图像。在PDF格式文档中,光栅图像可以被用来表示文档分隔线、表格线、项目符号等,而这类光栅图像通常不是感知意义上的内容,并无检索意义上的显著特征,因而不是本发明所要提取的光栅图像。在步骤S341,构建下述表达式(5)来作为判断第二候选光栅图像列表中的每个图像是否应该被作为虚警图像而删除的标准。首先,根据页面尺寸以及该页中最小字符尺寸来计算阈值thre1,例如,thre1=max(page_height/100,smallest_char_height),其中page_height是该页高度,smallest_char_height是该页中最小字符的高度。此外,阈值thre2和thre3可以根据对光栅图像的高宽比例的要求来设定,例如,thre2=0.1及thre3=10。
(Width<thre1 and height<thre1)or((width<thre1||height<thre1)&&(width/height<thre2||width/height>thre3))                    (5)
在步骤S342,如果某个光栅图像的宽度width和高度height满足公式(5),则判断该光栅图像为虚警图像并将其删除。之后,第二候选光栅图像列表的光栅图像序列中剩余的光栅图像为最终提取的PDF格式文档的光栅图像。
本发明也可以实施为从可移植电子文档中提取光栅图像的设备,用来执行按照本发明上述实施例的从可移植电子文档中提取光栅图像的方法。其中,文档解析装置用于解析可移植电子文档的格式以获取每页中与光栅图像相关的命令和资源,执行上述步骤S31的处理。候选光栅图像提取装置用于处理所述命令和资源来提取候选光栅图像,执行上述步骤S32的处理。光栅图像合并装置用于合并相连接的候选光栅图像,执行上述步骤S33的处理。虚警光栅图像去除装置用于去除虚警光栅图像,执行上述步骤S34的处理。
具体地,在所述文档解析装置中,获取装置用于解析可移植电子文档的格式,获得每页的内容流及资源,执行上述步骤S312的处理。解码装置用于对每页的内容流进行解码,获得命令集合,执行上述步骤S314的处理。命令提取装置用于从所述命令集合中提取与光栅图像相关的命令,执行上述步骤S315的处理。资源提取装置用于提取与光栅图像相关的资源,执行上述步骤S316的处理。
所述候选光栅图像提取装置判断出所述命令中的图像显示命令,提取候选光栅图像的位置及尺寸信息,根据该可移植电子文档中指定的编码方式对候选光栅图像解码,把候选光栅图像存储在候选光栅图像列表中,执行上述步骤S322~S325的处理。
在所述光栅图像合并装置中,排序装置用于在存储了候选光栅图像的候选光栅图像列表中,根据候选光栅图像的位置对候选光栅图像进行排序,执行上述步骤S331~S333的处理。判断装置用于比较候选光栅图像列表中两个相邻的候选光栅图像的位置,如果该两个候选光栅图像在垂直方向的距离小于第一给定阈值,并且在水平方向上重叠区域大于第二给定阈值,则判断该两个候选光栅图像为相连接的候选光栅图像,并合并相连接的候选光栅图像,并且进一步判断合并后的候选光栅图像与其在候选光栅图像列表中的下一候选光栅图像是否为相连接的候选光栅图像,并合并相连接的候选光栅图像,执行上述步骤S334~S335的处理。添加装置用于把判断为与其下一候选光栅图像不相连接的候选光栅图像添加到第二候选光栅图像列表,执行上述步骤S336~S337的处理。
本领域技术人员可以认识到,尽管在上述的某些说明中以PDF文档为例来进行描述,然而,上述实施方式不取决于PDF文档的任何特殊性质,因而可以应用于任何可移植电子文档。
在说明书中说明的一系列操作能够通过硬件、软件、或者硬件与软件的组合来执行。当由软件执行该一系列操作时,可以把其中的计算机程序安装到内置于专用硬件的计算机中的存储器中,使得计算机执行该计算机程序。或者,可以把计算机程序安装到能够执行各种类型的处理的通用计算机中,使得计算机执行该计算机程序。
例如,可以把计算机程序预先存储到作为记录介质的硬盘或者ROM(只读存储器)中。或者,可以临时或者永久地存储(记录)计算机程序到可移动记录介质中,诸如软盘、CD-ROM(光盘只读存储器)、MO(磁光)盘、DVD(数字多功能盘)、磁盘、或半导体存储器。可以把这样的可移动记录介质作为封装软件提供。
本发明已经参考具体实施例进行了详细说明。然而,很明显,在不背离本发明的精神的情况下,本领域技术人员能够对实施例执行更改和替换。换句话说,本发明用说明的形式公开,而不是被限制地解释。要判断本发明的要旨,应该考虑所附的权利要求。

Claims (12)

1.一种从可移植电子文档中提取光栅图像的方法,包含以下步骤:
a)解析可移植电子文档的格式以获取每页中与光栅图像相关的命令和资源;
b)处理所述命令和资源来提取候选光栅图像,包括:判断出所述命令中的图像显示命令,提取候选光栅图像的位置及尺寸信息,根据该可移植电子文档中指定的编码方式对候选光栅图像解码,把候选光栅图像存储在候选光栅图像列表中;
c)合并相连接的候选光栅图像;以及
d)去除虚警光栅图像。
2.按照权利要求1所述的方法,其中,步骤a)包括以下步骤:
a1)解析可移植电子文档的格式,获得每页的内容流及资源;
a2)对每页的内容流进行解码,获得命令集合;
a3)从所述命令集合中提取与光栅图像相关的命令;以及
a4)提取与光栅图像相关的资源。
3.按照权利要求1所述的方法,其中,在b)步骤中,所提取的候选光栅图像包括ImageXObject图像和内联图像,该ImageXObject图像和内联图像分别存储在不同的候选光栅图像列表。
4.按照权利要求1所述的方法,其中,步骤c)包括以下步骤:
c1)在存储了候选光栅图像的候选光栅图像列表中,根据候选光栅图像的位置对候选光栅图像进行排序;
c2)比较候选光栅图像列表中两个相邻的候选光栅图像的位置,如果该两个候选光栅图像在垂直方向的距离小于第一给定阈值,并且在水平方向上重叠区域大于第二给定阈值,则判断该两个候选光栅图像为相连接的候选光栅图像,并合并相连接的候选光栅图像;
c3)对合并后的候选光栅图像与其在候选光栅图像列表中的下一候选光栅图像重复步骤c2)的操作;
c4)把判断为与其下一候选光栅图像不相连接的候选光栅图像添加到第二候选光栅图像列表。
5.按照权利要求4所述的方法,其中,所述合并相连接的候选光栅图像的过程包括图像位置、图像尺寸、及图像数据的合并,合并后的候选光栅图像中的空白区域用黑像素填充。
6.按照权利要求1所述的方法,其中,在步骤d)中,根据文档页面尺寸、该页最小文字尺寸、及对图像的高宽比例的要求来判断候选光栅图像是否为虚警光栅图像。
7.一种从可移植电子文档中提取光栅图像的设备,包括:
文档解析装置,用于解析可移植电子文档的格式以获取每页中与光栅图像相关的命令和资源;
候选光栅图像提取装置,用于处理所述命令和资源来提取候选光栅图像,其中,所述候选光栅图像提取装置判断出所述命令中的图像显示命令,提取候选光栅图像的位置及尺寸信息,根据该可移植电子文档中指定的编码方式对候选光栅图像解码,把候选光栅图像存储在候选光栅图像列表中;
光栅图像合并装置,用于合并相连接的候选光栅图像;以及
虚警光栅图像去除装置,用于去除虚警光栅图像。
8.按照权利要求7所述的设备,其中,所述文档解析装置包括:
获取装置,用于解析可移植电子文档的格式,获得每页的内容流及资源;
解码装置,用于对每页的内容流进行解码,获得命令集合;
命令提取装置,用于从所述命令集合中提取与光栅图像相关的命令;以及
资源提取装置,用于提取与光栅图像相关的资源。
9.按照权利要求7所述的设备,其中,所述候选光栅图像提取装置所提取的候选光栅图像包括ImageXObject图像和内联图像,该ImageXObject图像和内联图像分别存储在不同的候选光栅图像列表。
10.按照权利要求7所述的设备,其中,所述光栅图像合并装置包括:
排序装置,用于在存储了候选光栅图像的候选光栅图像列表中,根据候选光栅图像的位置对候选光栅图像进行排序;
判断装置,用于比较候选光栅图像列表中两个相邻的候选光栅图像的位置,如果该两个候选光栅图像在垂直方向的距离小于第一给定阈值,并且在水平方向上重叠区域大于第二给定阈值,则判断该两个候选光栅图像为相连接的候选光栅图像,并合并相连接的候选光栅图像,并且进一步判断合并后的候选光栅图像与其在候选光栅图像列表中的下一候选光栅图像是否为相连接的候选光栅图像,并合并相连接的候选光栅图像;
添加装置,用于把判断为与其下一候选光栅图像不相连接的候选光栅图像添加到第二候选光栅图像列表。
11.按照权利要求10所述的设备,其中,对相连接的候选光栅图像的合并包括图像位置、图像尺寸、及图像数据的合并,以及合并后的候选光栅图像中的空白区域用黑像素填充。
12.按照权利要求7所述的设备,其中,所述虚警光栅图像去除装置根据文档页面尺寸、该页最小文字尺寸、及对图像的高宽比例的要求来判断候选光栅图像是否为虚警光栅图像。
CN200910141741.0A 2009-05-25 2009-05-25 从可移植电子文档中提取光栅图像的方法和设备 Expired - Fee Related CN101901341B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN200910141741.0A CN101901341B (zh) 2009-05-25 2009-05-25 从可移植电子文档中提取光栅图像的方法和设备
US12/785,004 US8559725B2 (en) 2009-05-25 2010-05-21 Method and apparatus for extracting raster images from portable electronic document
JP2010117428A JP5633188B2 (ja) 2009-05-25 2010-05-21 移植可能な電子文書からラスタ画像を抽出する方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200910141741.0A CN101901341B (zh) 2009-05-25 2009-05-25 从可移植电子文档中提取光栅图像的方法和设备

Publications (2)

Publication Number Publication Date
CN101901341A CN101901341A (zh) 2010-12-01
CN101901341B true CN101901341B (zh) 2013-10-23

Family

ID=43125353

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200910141741.0A Expired - Fee Related CN101901341B (zh) 2009-05-25 2009-05-25 从可移植电子文档中提取光栅图像的方法和设备

Country Status (3)

Country Link
US (1) US8559725B2 (zh)
JP (1) JP5633188B2 (zh)
CN (1) CN101901341B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8830513B2 (en) * 2012-10-12 2014-09-09 Esko Software Bvba Method and apparatus for optimizing a destination variable document from a source variable document having recurring and variable content
US10290287B1 (en) * 2014-07-01 2019-05-14 Xilinx, Inc. Visualizing operation of a memory controller
US10185903B2 (en) 2016-10-06 2019-01-22 Ricoh Company, Ltd. Image forming output control device and non-transitory recording medium storing program
CN112597422A (zh) * 2020-12-30 2021-04-02 深圳市世强元件网络有限公司 一种pdf文件分割方法和网页中pdf文件加载方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102006025928A1 (de) * 2006-06-02 2007-12-06 Siemens Ag Verfahren zur rechnergestützten Konvertierung von PDF-Dokumenten in HTML-Dokumente

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69525401T2 (de) 1994-09-12 2002-11-21 Adobe Systems, Inc. Verfahren und Gerät zur Identifikation von Wörtern, die in einem portablen elektronischen Dokument beschrieben sind
US7072061B2 (en) * 2001-02-13 2006-07-04 Ariba, Inc. Method and system for extracting information from RFQ documents and compressing RFQ files into a common RFQ file type
US6801673B2 (en) * 2001-10-09 2004-10-05 Hewlett-Packard Development Company, L.P. Section extraction tool for PDF documents
JP2003346146A (ja) * 2002-05-23 2003-12-05 Kansai Electric Power Co Inc:The 図表データ特定・抽出プログラム、及び当該特定・抽出プログラムを記録したコンピュータ読み取り可能な記録媒体、並びに図表データ特定・抽出装置
US7305612B2 (en) * 2003-03-31 2007-12-04 Siemens Corporate Research, Inc. Systems and methods for automatic form segmentation for raster-based passive electronic documents
US8711372B2 (en) * 2006-08-31 2014-04-29 Ricoh Co., Ltd. Techniques for image segment accumulation in document rendering
JP2010034683A (ja) * 2008-07-25 2010-02-12 Fuji Xerox Co Ltd 画像処理装置及びプログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102006025928A1 (de) * 2006-06-02 2007-12-06 Siemens Ag Verfahren zur rechnergestützten Konvertierung von PDF-Dokumenten in HTML-Dokumente

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王津涛等.PDF文件中可识别图像的提取.《计算机工程与设计》.2006,第29卷(第9期), *

Also Published As

Publication number Publication date
US8559725B2 (en) 2013-10-15
JP5633188B2 (ja) 2014-12-03
US20100299535A1 (en) 2010-11-25
CN101901341A (zh) 2010-12-01
JP2010272117A (ja) 2010-12-02

Similar Documents

Publication Publication Date Title
JP6838209B1 (ja) 文書画像解析装置、文書画像解析方法およびプログラム
JP4771804B2 (ja) レイアウト解析プログラム、レイアウト解析装置、レイアウト解析方法
EP2545495B1 (en) Paragraph recognition in an optical character recognition (ocr) process
US8451489B1 (en) Content-aware method for saving paper and ink while printing a PDF document
US11615635B2 (en) Heuristic method for analyzing content of an electronic document
JP2011141598A (ja) 画像処理装置、画像処理方法、及びプログラム
US20060285748A1 (en) Document processing device
US8804139B1 (en) Method and system for repurposing a presentation document to save paper and ink
US20060282769A1 (en) Method of identifying redundant text in an electronic document
EP2416238A2 (en) Green printing: re-purposing a document to save ink and paper
CN101901341B (zh) 从可移植电子文档中提取光栅图像的方法和设备
CN101833546A (zh) 从可移植电子文档中提取表格的方法和装置
KR100905857B1 (ko) 정보 처리 장치 및 정보 처리 장치의 제어 방법
JP2006301695A (ja) 文書処理装置およびプログラム
JP4871794B2 (ja) 印刷装置及び印刷方法
US20080158599A1 (en) Print support system, print support program, and print support method
CN102081736A (zh) 从可移植电子文档中提取字符外接矩形的设备和方法
CN113673294A (zh) 文献关键信息的提取方法、装置、计算机设备和存储介质
JP2013254321A (ja) 画像処理装置、画像処理方法及びプログラム
JP5111242B2 (ja) 画像処理装置及び方法
JP2000322417A (ja) 画像ファイリング装置及び方法及び記憶媒体
JP2002232679A (ja) 画像処理方法及び装置及びコンピュータプログラム及び記憶媒体
US8386922B2 (en) Information processing apparatus and information processing method
JP2005165978A (ja) 帳票ocrプログラム、方法及び装置
JP2015176522A (ja) 情報処理装置及び情報処理プログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20131023