CN101833544A - 从可移植电子文档中提取文字部件的方法和系统 - Google Patents

从可移植电子文档中提取文字部件的方法和系统 Download PDF

Info

Publication number
CN101833544A
CN101833544A CN200910126665A CN200910126665A CN101833544A CN 101833544 A CN101833544 A CN 101833544A CN 200910126665 A CN200910126665 A CN 200910126665A CN 200910126665 A CN200910126665 A CN 200910126665A CN 101833544 A CN101833544 A CN 101833544A
Authority
CN
China
Prior art keywords
literal
segment
line
word part
extracting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN200910126665A
Other languages
English (en)
Inventor
杜成
长谷川史裕
井上浩一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to CN200910126665A priority Critical patent/CN101833544A/zh
Publication of CN101833544A publication Critical patent/CN101833544A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

提出了一种从可移植电子文档中提取文字部件的装置和方法。所述提取文字部件的装置包括:文字命令和字体获取单元,用于解析可移植电子文档以获取和文字相关的命令和字体;文字片断提取单元,用于通过处理所述和文字相关的命令和字体来提取文字片断以及文字片断的位置;以及文字部件提取单元,用于根据提取的文字片断和文字片断的位置提取文字部件。上述文字部件提取单元还可以根据提取的文字片断和文字片断的位置提取文字部件的位置信息。利用本发明的装置和方法,可以自动地从可移植电子文档中提取文字部件,以及进一步地还可以提取文字部件的位置信息。

Description

从可移植电子文档中提取文字部件的方法和系统
技术领域
本发明一般地涉及文档处理和文档理解,具体地涉及提取可移植电子文档中的文字区域。
背景技术
可移植的电子文档,如PDF,PS等,具有在各种系统平台中显示格式、属性不变的特性,即具有可移植性,并在日常办公室工作中被广泛应用。但是从可移植电子文档中提取部件还是一件难的工作。比如,在PDF文档的格式说明书中,文字部件,比如段落,是由一组独立的文字片断组成的,这使得从PDF文档中提取高级文字部件很难。从电子文档中提取文字部件对于文档重用以及文档检索等应用有重要用途。
美国专利6801673 B2提取PDF文档中的词。该专利通过查找文字片断中的词分隔字符(空格)来提取词或者是判断相邻文字片断之间的距离,如果该距离大于一定门限值,相邻的文字片断就被分为两个词。该专利的输入是一个PDF文档,输出是该文档所包含的词的集合。
美国专利5832530提出了一个从PDF文档中提取内容片断的工具。首先,用户在PDF浏览界面拖拽一个矩形,该工具提取该矩形内包含的PDF文档内容片断,并将提取的内容片断存储为一个新的PDF文档。该工具提取和粘贴低级的PDF命令,高级文档内容如文字部件并没有提取。
在现有技术中,一般仅仅手动简单地提取所选中的文本流,而没有自动地提取文字部件。
而且,上述提取词汇或者提取文档内容片断的技术中,均没有保留关于词汇或者文档内容片断在文档中的位置信息,例如,没有保留某内容片断是处于页面的何处的位置信息。当然上述现有技术更没有保留可移植电子文档中各个文字部件之间,文字部件内部的文字行和文字行之间的位置信息。而位置信息对于文档重用等应用是非常重要的。
发明内容
本发明的一个目的是提供一种能够自动提取文字部件的装置和方法。
根据本发明的一个方面,提出了一种从可移植电子文档中提取文字部件的装置,所述装置包括:文字命令和字体获取单元,用于解析可移植电子文档以获取和文字相关的命令和字体;文字片断提取单元,用于通过处理所述和文字相关的命令和字体来提取文字片断以及文字片断的位置;以及文字部件提取单元,用于根据提取的文字片断和文字片断的位置提取文字部件。
根据本发明的一个优选实施例,所述文字部件提取单元还可以根据提取的文字片断和文字片断的位置提取文字部件的位置信息。
根据本发明的一个优选实施例,所述文字部件提取单元还可以包括:文字片断合并单元,用于合并文字片断到文字行;文字行合并单元,用于合并文字行到文字部件。
根据本发明的另一个方面,提出了一种从可移植电子文档中提取文字部件的方法,所述方法包括:解析可移植电子文档以获取和文字相关的命令和字体;通过处理所述和文字相关的命令和字体来提取文字片断的内容以及文字片断的位置;以及根据提取的文字片断的内容和文字片断的位置提取文字部件。
根据本发明的一个优选实施例,本提取文字部件的方法还可以根据提取的文字片断和文字片断的位置提取文字部件的位置信息。
利用本发明的装置和方法,可以自动地从可移植电子文档中提取文字部件。
进一步地,利用本发明的方法和系统,还可以提取所提取的文字部件的位置信息,也能够保持所提取的各个文字部件之间的位置关系。
本发明提取的文字部件以及文字部件的位置信息可以为文档重用和信息检索等应用提供坚实基础。
附图说明
通过结合附图对本发明各个实施例的详细描述,本领域的技术人员可以更好地理解本发明的上述和其它方面、特点和优点,其中在所有附图中使用相同或相似的附图标记来表示相同或者相似的部件,在附图中:
图1示出了根据本发明一个实施例的从可移植电子文档中提取文字部件的装置的构成框图;
图2示出了根据本发明一个实施例的文字部件提取单元的构成框图;
图3是示出了根据本发明一个实施例的从可移植电子文档提取文字部件的方法流程图;
图4示出了根据本发明一个实施例的从可移植电子文档中提取文字相关命令和字体的流程图;
图5示出了根据本发明一个实施例的文字片断提取流程图;
图6示出了根据本发明一个实施例的根据文字片断和文字片断位置提取文字部件的流程图;
图7示出了根据本发明一个实施例的文字片断到文字行合并流程图;
图8示出了根据本发明一个实施例的文字行到文字部件合并流程图;
图9示出了根据本发明一个实施例的PDF文档树状结构;
图10示出了根据本发明一个实施例的所提取的文字部件示例;以及
图11示出了用于实现本发明一个实施例的示例性计算机系统。
具体实施方式
下面将结合附图详细描述本发明的具体实施例。如果考虑到对某些相关现有技术的详细描述可能会混淆本发明的要点,则不会在这里提供其详细描述。
本发明中所述的文字部件(document component)是可移植电子文档的组件,其和表格部件,图形部件等一起组成了可移植电子文档。在本申请中,一个文字片断例如和一个文字显示命令对应,一个文字片断包含一个或多个字符,例如,文字显示命令“Tj(hello)”中,“(hello)”就是一个文字片断。相对文字片断,文字部件是更高级的文档组成部件,它可以包含一个或者多个相邻的段落,并且可以是标题,作者,或者是页码。附图10给出了文字部件的一些示例,其中所框起来的长方形部分是文字部件的示例。但是,PDF文档中并不存在和这些文字部件对应的命令,换句话说,PDF文档并不知道哪些是文字部件。
在文档重用,信息检索等技术领域,存在提取文字部件的需求。针对此,做出了本发明。
图1示出了根据本发明一个实施例的从可移植电子文档中提取文字部件的装置100的构成框图。如图1所示,提取文件部件的装置100可以包括:文字命令和字体获取单元110,用于解析可移植电子文档以获取和文字相关的命令和字体;文字片断提取单元120,用于通过处理所述和文字相关的命令和字体来提取文字片断以及文字片断的位置;以及文字部件提取单元130,用于根据提取的文字片断和文字片断的位置提取文字部件。
图2示出了根据本发明一个实施例的文字部件提取单元130的构成框图。根据该实施例,文字部件提取单元130可以包括:文字片断合并单元131,用于合并文字片断到文字行;文字行合并单元132,用于合并文字行到文字部件。需要指出的是,文字片断合并单元131和文字行合并单元132对于文字部件提取单元130并非必需的。例如,在很多情况下,可移植电子文档中,一行就是一个文字片断,此时显然不需要文字片断合并单元。再例如,在图10所示的文字部件示例中,对于文字部件1001、1002、1003、1004,每个文字部件就是一个文字行,则显然不需要文字行合并单元。举例来说,如果某个应用只需要提取页码、简短的大标题这些文字部件,则很可能不需要文字片断合并单元和文字行合并单元。
图3是示出了根据本发明一个实施例的从可移植电子文档中提取文字部件的方法3000的流程图。根据该实施例的方法3000包括:步骤3100,解析可移植电子文档以获取和文字相关的命令和字体;步骤3200,通过处理所述和文字相关的命令和字体来提取文字片断的内容以及文字片断的位置;以及步骤3300,根据提取的文字片断的内容和文字片断的位置提取文字部件。图10所示长方形为本实施例提取的文字部件示例。
下面将参照图4到图8对于提取文字部件的方法的各个步骤进行示例性详细说明。在下面的描述中,将以PDF文件作为可移植电子文档的示例来加以说明。不过,本发明并不局限于此,可移植电子文档可以包括任何具有与系统平台无关的特性的电子文档,例如,PS。
图4示出了根据本发明一个实施例的从可移植电子文档中提取文字相关命令和字体的流程图。
如图4所示,在步骤3110,载入PDF文件。在步骤3120,解析并建立该PDF文档对应的树状结构,通过该文档结构,对PDF文档每页的内容流和资源的访问变得更加容易。当然,作为一个替代性实施例,可以不建立文档树状结构,而直接提取需要的内容流和资源。图9示出了PDF文档树状结构的示例。
在步骤3130,载入PDF文档当前页的内容流和资源,根据内容流的编码方式对内容流解码。根据PDF文档说明书,PDF文档可以支持多种内容流编码方式,比如FlateDecode和LZWDecode等。在步骤3130中实现对PDF支持的多种编码方式解码,由此得到了解码后的内容流。解码后的PDF内容流包括PDF命令集合。
在步骤3140,逐条解析解码后PDF内容流中的命令,提取那些和文字相关的命令。和文字相关的命令包括但不限于文字显示命令,文字定位命令以及文字状态命令。例如,“Td x y”是文字定位命令,它把当前文字插入点设为点(x,y),“Tj(hello)”是文字显示命令,它在当前文字插入点显示文字片断”hello”,“Tc 0.25”是文字状态命令,它设置当前字符间距为0.25,“Tf 18R10”是文字状态命令,它设置当前字体为R10,字体尺寸为18。
在步骤3150,处理PDF文档中每一页的字体,获取相关字体,可以把所提取的字体添加到字体列表中。一般地,PDF文档中文字的字体是作为字体资源存放在PDF文件中的,字体设定了对应该字体文字的解码方式以及字符字形,字体决定文字编码,字形等信息。字体的示例包括例如楷体和宋体。
在步骤3160,判断PDF文档是否还存在下一页,如果存在下一页,则继续对下一页执行步骤3130-3150。如果不存在下一页,则在步骤3170返回所提取的文字相关命令和字体,并结束处理。在本实施例中,对于整个PDF文档提取所有文字部件。当然,本发明不局限于此,而是可以对于某些页,某一页,或者某一页中的某具体部分来提取文字部件。
图5示出了根据本发明一个实施例的文字片断提取流程图。
如图5所示,步骤3210逐条载入步骤3100中返回的文字相关命令,如果不再存在文字相关命令,则结束处理。如果存在文字相关命令,步骤3220根据不同的文字命令作相应处理,比如,文字显示命令Tj创建一个文字片断,并显示于当前文字插入点。步骤3220中的文字显示命令仅仅是一个示例,任何其它和文字显示、创建相关的现有命令或者将来出现的命令都可以作为文字片断位置计算和片断解码操作中要分析的文字相关命令。
在步骤3230,根据文字相关命令——例如最近的文字定位命令,文字状态命令——以及对应文字片断的字体计算每个文字片断的位置信息。这里计算的文字片断位置信息可以是包含该文字片断的最小长方形。举例说明如下,假设PDF内容流片断为:
Tc 1
Td 100 100
Tj(hello)
Tc 2
Td 130 100
Tj(world)
这里文字定位命令Td 130 100是相对于文字显示命令Tj(world)最近的文字定位命令,而文字定位命令Td 100 100是相对于文字显示命令Tj(hello)最近的文字定位命令。通过文字定位命令Td 100 100,我们可以确定包含文字片断“hello”的最小长方形的左下角的位置。通过字体,我们可以确定每个字符的宽度和高度,通过文字状态命令,我们可以确定字符间距、词间距、旋转,放缩,平移等。由此,可以通过计算得到包含文字片断“hello”的最小长方形的右上角的位置,从而得到了文字片断的位置信息。
在步骤3240,根据对应文字片断的字体中包含的映射表对文字片断中的每个字符进行解码。比如,通常的字体映射字符代码97为字符”a”。不过,如果字体中规定了其他的字符编码方式,字符码97也可以对应其他字符。在步骤3250,检测每个文字片断中解码后的字符,如果一个文字片断中包含至少一个非空格字符,那么步骤3260就把该文字片断添加到文字片断集合。本示例不把全部空格作为文字片断,当然本发明不局限于此,也可以把空格作为普通字符来处理,而把全为空格的字符串也作为文字片断。在本实施例中,在步骤3260,把水平文字片断添加到水平文字集合,垂直文字片断被添加到垂直文字集合。当然,可以不区分水平文字片断和垂直文字片断,将所有字符片段添加到一个文字片断集合中。
图6示出了根据本发明一个实施例的根据文字片断和文字片断位置提取文字部件的流程图。如图6所示,提取文字部件的步骤3300可以包括:文字片断合并步骤3310,用于合并文字片断到文字行;文字行合并单元3320,用于合并文字行到文字部件。需要指出的是,文字片断合并步骤3310和文字行合并单元3320对于文字部件提取步骤3300并非是必需的。例如,在很多情况下,可移植电子文档中,一行就是一个文字片断,此时显然不需要文字片断合并步骤。再例如,在图10所示的文字部件示例中,对于文字部件1001、1002、1003、1004,每个文字部件就是一个文字行,则显然不需要文字行步骤。举例来说,如果某个应用只需要提取页码、简短的大标题这些文字部件,则很可能不需要文字片断合并步骤和文字行合并步骤。
下面参照图7和图8,分别举例说明合并文字片断到文字行和合并文字行到文字片断的流程。
图7示出了根据本发明一个实施例的水平文字片断到水平文字行合并流程图。在本实施例的文字片断到文字行合并的方法中,根据文字片断的位置对文字片断排序;通过比较相邻文字片断的位置关系合并文字片断到文字行。
具体地,如图7所示,在步骤3311,首先对水平文字片断集合中的文字片断进行排序。这里的排序是根据位置信息进行的,x和y坐标相对较小的文字片断排在前面。在步骤3312中,片断标记或片段索引SEG_INDEX被初始化为0,当前片断CUR_SEG被设为水平文字片断集合中对应于片段标记SEG_INDEX的文字片断。在步骤3313中,下一个片断NEXT_SEG被设为水平文字片断集合中对应于片段标记SEG_INDEX+1的文字片断。
在步骤3314,比较当前片断CUR_SEG和下一个片断NEXT_SEG的位置关系以决定他们是否应该合并。根据一个示例性实施例,如果相邻文字片断在与文字行的方向垂直的方向上重叠,并且该相邻文字片断在文字行方向上彼此之间的距离小于预定门限,则合并该相邻文字片断到文字行。下面,以本实施例中的水平文字片断为例进行说明。如果两个水平文字片断在垂直方向重叠,并且他们在水平方向的距离小于给定门限T,那么判断这两个水平文字片断合并,否则判断为不合并。所述门限T可以是根据经验设定的,或者可以是根据待合并文字片断对的尺寸信息计算的,例如门限T被设置为待合并文字片断对中较短文字片断长度的10%。
如果在步骤3314判断合并当前片断CUR_SEG和下一个片断NEXT_SEG,则继续到步骤3315。在步骤3315,合并两个文字片断,并将当前片断CUR_SEG设为合并后的文字片断,参数SEG_INDEX增加1。这里文字片断合并包括位置信息合并以及字符连接。
如果在步骤3314中,当前片断CUR_SEG和下一个片断NEXT_SEG被判断为不合并,则流程进入步骤3316,其中当前片断CUR_SEG被添加到水平文字行集合。接下来,在步骤3317中,参数CUR_SEG被更新为文字片断集合中对应CUR_INDEX+1的文字片断,同时,参数CUR_INDEX增加1。
在步骤3318检查水平文字片断集合中是否还有其他文字片断,如果有,进入步骤3313和后续处理;如果没有,处理结束。
图7以水平文字片断为例说明了相邻文字片断合并到文字行的过程。对垂直文字片断的处理和水平文字片断处理类似。比如,在判断相邻的两个垂直文字片断是否合并时,相应的步骤3314处理为,如果两个垂直文字片断在水平方向重叠,并且它们在垂直方向上的距离小于给定门限,那么判断此两个垂直文字片断合并,否则判断为不合并。
图8示出了根据本发明一个实施例的水平文字行到文字部件合并流程。在该示例性方法中,根据一页中文字行的分布计算行间距门限;如果相邻两行之间在与文字行的方向垂直的方向上的距离小于行间距门限,且该相邻两行之间在文字行的方向上重叠的长度大于重叠门限,则合并该相邻两行。
具体地,如图8所示,在步骤3321,根据水平文字行集合中的文字行分布计算一个行间距门限Ts。本实施例计算所有相邻文字行之间的距离,并计算行间距的直方图。在行间距直方图中,找出出现频率最高的行间距,并把该行间距的1.2被设为行间距门限。当然,本发明不限于此,例如,可以取行间距的平均值的预定倍数作为行间距门限,或者可以根据经验设定行间距门限。在步骤3322,初始化行标记或行索引LINE_INDEX为0,并设置当前行CUR_LINE为水平文字行集合中对应行标记LINE_INDEX的文字行。在步骤3323,设置下一文字行NEXT_LINE为水平文字行集合中对应行标记LINE_INDEX+1的文字行。
在步骤3324,比较当前行CUR_LINE和下一行NEXT_LINE之间的位置关系以决定是否进行合并。根据一个示例性实施例,如果相邻两行之间在与文字行的方向垂直的方向上的距离小于行间距门限,且该相邻两行之间在文字行的方向上重叠的长度大于重叠门限,则合并该相邻两行。具体地,在本实施例中,如果两个水平文字行在水平方向上的重叠区域大于0.4*(两行中较短文字行的宽度),并且他们之间的行间距小于行间距门限Ts,则判断两个文字行合并,否则判断两个文字行不合并。当然,重叠门限并不限于此,而是可以根据需要进行任意设置。
如果在步骤3324判断合并当前行CUR_LINE和下一行NEXT_LINE,则继续到步骤3325。在步骤3325,合并这两个文字行,并设置当前行CUR_LINE为合并后的文字行,同时行标记LINE_INDEX增加1。这里,文字行的合并可以包括位置的合并以及对应文字的连接,由此在本发明最后得到文字部件时,也可以得到文字部件的位置信息。
如果在步骤3324中,判断两个文字行不合并,流程进入步骤3326,添加当前文字行CUR_LINE到水平文字部件集合。在步骤3327设置当前行CUR_LINE为水平文字行中对应CUR_INDEX+1的文字行,同时数CUR_INDEX增加1。
在步骤3328检测水平文字行中是否还有未处理文字行,如果有,则进入步骤3323和后续处理;如果没有,处理结束,水平文字部件集合中的文字部件为最终提取的水平文字部件。
图8以水平文字行为例说明了合并文字行到文字片断的过程。对于垂直文字行的处理和上面所述对水平文字行的处理相似。比如,在判断相邻的两个垂直文字行是否合并时,相应的步骤3324处理为,如果两个垂直文字行在垂直方向上的重叠区域大于预定门限,并且它们在水平方向上的行间距小于给定门限,那么判断此两个垂直文字行合并,否则判断为不合并。
根据本发明的上述实施例,提取的文字部件并不仅仅提取文字内容,而且还保留了文字行和文字行之间的相对关系,如保留了文字行所包含的字数。而这是现有技术的提取词汇和提取文本流所没有实现的。
此外,如以上参照各实施例所描述的,在各个阶段中,均保持了对应的位置信息。例如,在提取文字片断阶段,提取文字片断的位置信息。在合并文字片断到文字行的阶段,获取文字行的位置信息;合并文字行到文字部件的阶段,获取文字部件的位置信息。文字部件的位置信息对于后续应用是非常重要的,比如当在相关显示装置上显示提取的文字部件时,就可以容易地确定各个文字部件之间的排列关系;以及在文档理解领域,还可以将提取的文字部件的位置信息辅助用于文档语义理解。
本发明的方法流程图各步骤以顺序方式示出,但是各步骤执行并不局限于顺序执行,而是可以并行执行。例如,在图5中所示的提取文字相关命令和处理字体是顺序执行的,但是二者可以并行执行。
另外,在本发明示例性实施例中,水平文字片断和垂直文字片断,以及水平文字行和垂直文字行的处理是独立进行的。当然,本发明不局限于此,可以把所有的文字片断放在一个文字片断集合中,把所有的文字行放在一个文字行集合中,在后续进行处理时再进行判断。
此外,在本发明上述示例性实施例中,采用了先提取出所有文字片断,然后再对文字片断进行统一处理,例如合并文字片断的方法。当然,本发明不局限于此,而是可以一边提取文字片断,一边对于所提取文字片断是否需要合并,以及得到的文字行是否需要合并进行判断以及相应的合并处理。
此外,本发明图5在解析文档提取文字相关命令和字体时,示出了逐页处理文档。但是,本发明不限于此,当然,也可以仅仅处理文档的某一页,或者某页中的某部分。
另外,还需要说明的是,本发明的实施例可以通过硬件、软件、固件或它们的结合的方式来实现,其实现方式不对本发明的范围构成限制。
图11示出了用于实现本发明一个实施例的示例性计算机系统10。
如图11所示,一个从PDF文档中提取文字部件的示例性计算机系统10包括计算机主机11,键盘16,监视器17,打印机18,软盘驱动器19,网络接入器20以及硬盘驱动器21。计算机主机11包括数据总线12,随机存储器(RAM)13,只读存储器(ROM)14,中心处理器(CPU)15以及外设总线22。
根据从随机存储器13中接到的指令,中心处理器15控制输入数据的接收和处理,以及把数据输出到监视器17或者其他外设。在本实施例中,中心处理器15的一个功能就是处理输入的PDF文档,提取文档中包含的文字部件。提取的文字部件信息可以被中心处理器15中的的其他应用程序使用。
中心处理器15通过数据总线12来访问随机存储器13和只读存储器14。随机存储器13被中心处理器15用作一块可读写的内存,用来作为各个进程的工作区以及可变数据存储区。只读存储器14存储诸如PDF文件的可移植电子文档,文字部件提取程序以及其他的应用提取的文字部件的程序。
外设总线22用于访问和计算机主机11相连的输入,输出以及存储等外围设备。在本实施例中,这些外围设备包括监视器17,打印机18,软盘驱动器19,网络接入器20以及硬盘驱动器21。监视器17通过外设总线22来显示中心处理器15输出的数据和图像。它可以是栅格式显示设备如CRT或者是LCD显示器。打印机18把中心处理器输入的数据和图像打印到纸张或者是和纸张相似的媒介。为了在如监视器17或打印机18等输出设备上显示PDF文档,计算机系统10需要实现某个过程来进行从PDF文档到其对应图像表示的转换。在其他的实施例中,如打印机18等输出设备上也可以包括中心处理器或相似的处理器以实现类似的PDF文档到图像转换模块。软盘驱动器19以及硬盘驱动器21用来存储PDF文档。通过软盘驱动器19,PDF文档可以在不同计算机系统之间传递。硬盘驱动器21存储空间更大,而且访问速度更快。其他的存储设备,比如闪存,也可以用来存储PDF文件供计算机系统10访问。计算机系统10通过网络接入器20在网络上发送数据和接收来自其他计算机系统的数据。用户通过键盘16输入指令给计算机系统10。
虽然上面已经结合附图示出并描述了本发明的一些实施例,但是本领域的技术人员应当理解,在不偏离本发明的原则和精神的情况下,可以对这些实施例做出变化和改变,所做的变化和改变仍然落在本发明及其等价物的保护范围之内。

Claims (22)

1.一个从可移植电子文档中提取文字部件的装置,包括:
文字命令和字体获取单元,用于解析可移植电子文档以获取和文字相关的命令和字体;
文字片断提取单元,用于通过处理所述和文字相关的命令和字体来提取文字片断以及文字片断的位置;以及
文字部件提取单元,用于根据提取的文字片断和文字片断的位置提取文字部件。
2.权利要求1的装置,其中,所述文字部件提取单元还根据提取的文字片断和文字片断的位置提取文字部件的位置信息。
3.权利要求1的装置,所述文字部件提取单元包括:
文字片断合并单元,用于合并文字片断到文字行;
文字行合并单元,用于合并文字行到文字部件。
4.根据权利要求1的装置,其中,所述文字命令和字体获取单元执行下述步骤:
解析可移植电子文档格式,提取内容流并解码;
解析解码后的内容流以提取和文字相关的命令。
5.根据权利要求4的装置,其中,所述文字相关的命令包含文字定位命令,文字显示命令以及文字状态命令。
6.根据权利要求1的装置,其中,所述文字片断提取单元执行以下步骤:
根据文字相关命令和字体计算文字片断位置;
根据文字片断对应字体对文字片断解码。
7.根据权利要求3的装置,所述文字片断合并单元执行以下步骤:
根据文字片断的位置对文字片断排序;
通过比较相邻文字片断的位置关系合并文字片断到文字行。
8.根据权利要求7的装置,其中如果相邻文字片断在与文字行的方向垂直的方向上重叠,并且该相邻文字片断在文字行方向上彼此之间的距离小于预定门限,则所述文字片断合并单元合并该相邻文字片断到文字行。
9.根据权利要求8的装置,其中所述门限是根据待合并文字片断对的尺寸信息计算的。
10.根据权利要求3的装置,所述文字行合并单元执行以下步骤:
根据一页中文字行的分布计算行间距门限值;
如果相邻两行之间在与文字行的方向垂直的方向上的距离小于行间距门限,且该相邻两行之间在文字行的方向上重叠的长度大于重叠门限,则合并该相邻两行。
11.根据权利要求3的装置,其中,所述文字片断包括水平文字片断和垂直文字片断,所述文字行包括水平文字行和垂直文字行,以及其中文字片断合并单元对于水平文字片断和垂直文字片断的处理是独立的,以及文字行合并单元对于水平文字行和垂直文字行的处理是独立的。
12.一个从可移植电子文档中提取文字部件的方法,包含以下步骤:
解析可移植电子文档以获取和文字相关的命令和字体;
通过处理所述和文字相关的命令和字体来提取文字片断的内容以及文字片断的位置;以及
根据提取的文字片断的内容和文字片断的位置提取文字部件。
13.权利要求12的方法,还包括:根据提取的文字片断和文字片断的位置提取文字部件的位置信息。
14.权利要求12的方法,所述提取文字部件的步骤包括:
合并文字片断到文字行;
合并文字行到文字部件。
15.根据权利要求12的方法,其中,所述解析可移植电子文档的步骤中包含以下步骤:
解析可移植电子文档格式,提取内容流并解码;
解析解码后的内容流以提取和文字相关的命令。
16.根据权利要求15的方法,其中,所述文字相关的命令包含文字定位命令,文字显示命令以及文字状态命令。
17.根据权利要求12的方法,其中,所述提取文字片断以及文字片断的位置的步骤中包含以下步骤:
根据文字相关命令和字体计算文字片断位置;
根据文字片断对应字体对文字片断解码。
18.根据权利要求14的方法,所述合并文字片断到文字行的步骤包含以下步骤:
根据文字片断的位置对文字片断排序;
通过比较相邻文字片断的位置关系合并文字片断到文字行。
19.根据权利要求18的方法,其中如果相邻文字片断在与文字行的方向垂直的方向上重叠,并且该相邻文字片断在文字行方向上彼此之间的距离小于预定门限,则合并该相邻文字片断到文字行。
20.根据权利要求19的方法,其中所述预定门限是根据待合并文字片断对的尺寸信息计算的。
21.根据权利要求14的方法,所述合并文字行到文字部件的步骤包含以下步骤:
根据一页中文字行的分布计算行间距门限;
如果相邻两行之间在与文字行的方向垂直的方向上的距离小于行间距门限,且该相邻两行之间在文字行的方向上重叠的长度大于重叠门限,则合并该相邻两行。
22.根据权利要求14的方法,其中,所述文字片断包括水平文字片断和垂直文字片断,所述文字行包括水平文字行和垂直文字行,以及其中对于水平文字片断和垂直文字片断的处理,以及对于水平文字行和垂直文字行的处理是独立的。
CN200910126665A 2009-03-10 2009-03-10 从可移植电子文档中提取文字部件的方法和系统 Pending CN101833544A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200910126665A CN101833544A (zh) 2009-03-10 2009-03-10 从可移植电子文档中提取文字部件的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200910126665A CN101833544A (zh) 2009-03-10 2009-03-10 从可移植电子文档中提取文字部件的方法和系统

Publications (1)

Publication Number Publication Date
CN101833544A true CN101833544A (zh) 2010-09-15

Family

ID=42717616

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200910126665A Pending CN101833544A (zh) 2009-03-10 2009-03-10 从可移植电子文档中提取文字部件的方法和系统

Country Status (1)

Country Link
CN (1) CN101833544A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111325195A (zh) * 2020-02-17 2020-06-23 支付宝(杭州)信息技术有限公司 文本识别方法、装置及电子设备
CN117612172A (zh) * 2024-01-24 2024-02-27 成都医星科技有限公司 脱敏位置定位及脱敏方法、装置、电子设备与存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111325195A (zh) * 2020-02-17 2020-06-23 支付宝(杭州)信息技术有限公司 文本识别方法、装置及电子设备
CN111325195B (zh) * 2020-02-17 2024-01-26 支付宝(杭州)信息技术有限公司 文本识别方法、装置及电子设备
CN117612172A (zh) * 2024-01-24 2024-02-27 成都医星科技有限公司 脱敏位置定位及脱敏方法、装置、电子设备与存储介质
CN117612172B (zh) * 2024-01-24 2024-03-19 成都医星科技有限公司 脱敏位置定位及脱敏方法、装置、电子设备与存储介质

Similar Documents

Publication Publication Date Title
CN107622230B (zh) 一种基于区域识别与分割的pdf表格数据解析方法
CN102081600B (zh) 电子书排版方法及其系统
US7013309B2 (en) Method and apparatus for extracting anchorable information units from complex PDF documents
US8645819B2 (en) Detection and extraction of elements constituting images in unstructured document files
US7991709B2 (en) Method and apparatus for structuring documents utilizing recognition of an ordered sequence of identifiers
JP5664174B2 (ja) 持ち運び可能な電子ファイルからキャラクタの外接矩形を抽出する装置及び方法
US20160371246A1 (en) System and method of template creation for a data extraction tool
US8225200B2 (en) Extracting a character string from a document and partitioning the character string into words by inserting space characters where appropriate
US10372827B2 (en) Translating phrases from image data on a GUI
KR20190020643A (ko) 정보 마이닝 방법, 시스템, 전자장치 및 판독 가능한 저장매체
WO2000020985A9 (en) Conversion of data representing a document to other formats for manipulation and display
US9008425B2 (en) Detection of numbered captions
US20130128315A1 (en) Content-aware method for saving paper and ink while printing a pdf document
EP2416238A2 (en) Green printing: re-purposing a document to save ink and paper
CN101833546A (zh) 从可移植电子文档中提取表格的方法和装置
CN111984589A (zh) 文档处理方法、文档处理装置和电子设备
JP5390522B2 (ja) 表示文書を解析に向けて準備する装置
CN103500332A (zh) 图片内文字显示方法及装置
CN101008940A (zh) 自动处理字体缺失的方法与装置
US10534846B1 (en) Page stream segmentation
CN102081736B (zh) 从可移植电子文档中提取字符外接矩形的设备和方法
US20120281919A1 (en) Method and system for text segmentation
CN101833544A (zh) 从可移植电子文档中提取文字部件的方法和系统
CN104156345B (zh) 识别便携文件格式文件中图注的方法和装置
CN105302776A (zh) 数据校对平台伺服器

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20100915