CN108897730A - 一种pdf文本的处理方法以及装置 - Google Patents

一种pdf文本的处理方法以及装置 Download PDF

Info

Publication number
CN108897730A
CN108897730A CN201810701602.8A CN201810701602A CN108897730A CN 108897730 A CN108897730 A CN 108897730A CN 201810701602 A CN201810701602 A CN 201810701602A CN 108897730 A CN108897730 A CN 108897730A
Authority
CN
China
Prior art keywords
urtext
section
text
adjusted
mark
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810701602.8A
Other languages
English (en)
Other versions
CN108897730B (zh
Inventor
王肃
杨耀威
张福刚
夏珺峥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guoxin Youe Data Co Ltd
Original Assignee
Guoxin Youe Data Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guoxin Youe Data Co Ltd filed Critical Guoxin Youe Data Co Ltd
Priority to CN201810701602.8A priority Critical patent/CN108897730B/zh
Publication of CN108897730A publication Critical patent/CN108897730A/zh
Application granted granted Critical
Publication of CN108897730B publication Critical patent/CN108897730B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种PDF文本的处理方法以及装置;其中该方法包括:获取PDF文本流中的原始文本段;其中,每个原始文本段具有对应的标注位置信息;根据预设位置调整规则,对原始文本段进行位置调整,使得原始文本段在文本流中的位置与对应的标注位置信息一致。本申请实施例在从PDF文本流中获取原始文本段后,会根据预设位置调整规则,对原始文本段进行位置调整,使得原始文本段在文本流中的位置与对应的标注位置信息一致,从而能够将位置比较混乱的文本的位置调整的较为规则,进而在对PDF文本进行处理后,使得能够基于处理后的PDF文本流对PDF文档的文本搜索。

Description

一种PDF文本的处理方法以及装置
技术领域
本申请涉及数据识别技术领域,具体而言,涉及一种PDF文本的处理方法以及装置。
背景技术
随着互联网技术的持续快速发展,数据已经渗透到当今每一个行业和业务职能领域,成为重要的生产要素。人们掌握的数据在以爆炸性的速度增长,同时,数据的形态也在发生着根本性的变化;怎样能够从庞大数据量中精确快速的获取所需数据成为数据应用的桎梏。
文本搜索即在文本信息中搜索所需要的目标信息,是信息搜索领域一个非常重要的研究方向,它在数据处理方面具有无可替代的地位,其核心就是索引技术。
目前的文本搜索方法主要用于word文档、文本文档的文本搜索,而无法用于对可移植文档格式(Portable Document Format,PDF)文档的文本搜索。
发明内容
有鉴于此,本申请实施例的目的在于提供一种PDF文本的处理方法以及装置,能够对PDF文本进行处理,使得能够基于处理后的PDF文本流对PDF文档的文本搜索。
第一方面,本申请实施例提供了一种可移植文档格式PDF文本的处理方法,包括:
获取PDF文本流中的原始文本段;其中,每个原始文本段具有对应的标注位置信息;
根据预设位置调整规则,对原始文本段进行位置调整,使得原始文本段在文本流中的位置与对应的标注位置信息一致。
结合第一方面,本申请实施例提供了第一方面的第一种可能的实施方式,其中:所述标注位置信息包括:标注行位置信息和标注列位置信息;
根据预设位置调整规则,对原始文本段进行位置调整,包括:
基于标注行位置信息确定行位置之间的距离小于预设距离阈值的第一原始文本段;
将所述第一原始文本段的标注行位置信息调整至一致;
针对行位置相同的原始文本段,确定标注列位置与在文本流中列位置不一致的第二原始文本段;
按照标注列位置调整所述第二原始文本段在文本流中的列位置。
结合第一方面或者结合第一方面的第一种可能的实时方式,本申请实施例提供了第一方面的第二种可能的实施方式,其中:还包括:
为获取的原始文本段生成处理文本段;
其中,所述处理文本段对原始文本段去除大小写区别以及空格;或者所述处理文本段对原始文本段去除大小写区别、空格、以及标点符号。
结合第一方面,本申请实施例提供了第一方面的第三种可能的实施方式,其中:还包括:
将原始文本段、位置调整后的原始文本段标注位置信息、以及原始文本段的所在页信息对应存储;
所述方法,还包括:
接收搜索指令;
根据所述搜索指令中携带的搜索参数,从对应页开始,按照经过位置调整的原始文本段在文本流中的排列顺序,或者按照经过位置调整的原始文本段的标注位置顺序,进行目标字符匹配,并反馈搜索结果。
结合第一方面的第二种可能的实时方式,本申请实施例提供了第一方面的第四种可能的实施方式,其中:还包括:
将原始文本段、位置调整后的原始文本段对应的处理文本段、位置调整后的原始文本段标注位置信息、以及原始文本段的所在页信息对应存储;
所述方法,还包括:
接收搜索指令;
根据所述搜索指令中携带的搜索参数,从对应页开始,按照经过位置调整的原始文本段在文本流中的排列顺序,或者按照经过位置调整的原始文本段的标注位置顺序,在原始文本段的对应处理文本段中进行目标字符匹配;
针对搜索到目标字符的情况,将目标字符在对应处理文本段中的位置映射到对应原始文本段中,并将该对应原始文本段中的对应信息反馈。
第二方面,本申请实施例还提供一种可移植文档格式PDF文本的处理装置,包括:
获取模块,用于获取PDF文本流中的原始文本段;其中,每个原始文本段具有对应的标注位置信息;
位置调整模块,用于根据预设位置调整规则,对原始文本段进行位置调整,使得原始文本段在文本流中的位置与对应的标注位置信息一致。
结合第二方面,本申请实施例提供了第二方面的第一种可能的实施方式,其中:所述标注位置信息包括:标注行位置信息和标注列位置信息;
所述位置调整模块具体用于通过下述方式根据预设位置调整规则,对原始文本段进行位置调整:
基于标注行位置信息确定行位置之间的距离小于预设距离阈值的第一原始文本段;
将所述第一原始文本段的标注行位置信息调整至一致;
针对行位置相同的原始文本段,确定标注列位置与在文本流中列位置不一致的第二原始文本段;
按照标注列位置调整所述第二原始文本段在文本流中的列位置。
结合第二方面或者结合第二方面的第一种可能的实施方式,本申请实施例提供了第二方面的第二种可能的实施方式,其中:
还包括:处理模块,用于为获取的原始文本段生成处理文本段;
其中,所述处理文本段对原始文本段去除大小写区别以及空格;或者所述处理文本段对原始文本段去除大小写区别、空格、以及标点符号。
结合第二方面,本申请实施例提供了第二方面的第三种可能的实施方式,其中:还包括:
第一存储模块,用于将原始文本段、位置调整后的原始文本段标注位置信息、以及原始文本段的所在页信息对应存储;
所述装置,还包括:第一搜索模块,用于:
接收搜索指令;
根据所述搜索指令中携带的搜索参数,从对应页开始,按照经过位置调整的原始文本段在文本流中的排列顺序,或者按照经过位置调整的原始文本段的标注位置顺序,进行目标字符匹配,并反馈搜索结果。
结合第二方面的第二种可能的实施方式,本申请实施例提供了第二方面的第四种可能的实施方式,其中:还包括:
第二存储模块,用于将原始文本段、位置调整后的原始文本段对应的处理文本段、位置调整后的原始文本段标注位置信息、以及原始文本段的所在页信息对应存储;
所述装置,还包括:第二搜索模块,用于:
接收搜索指令;
根据所述搜索指令中携带的搜索参数,从对应页开始,按照经过位置调整的原始文本段在文本流中的排列顺序,或者按照经过位置调整的原始文本段的标注位置顺序,在原始文本段的对应处理文本段中进行目标字符匹配;
针对搜索到目标字符的情况,将目标字符在对应处理文本段中的位置映射到对应原始文本段中,并将该对应原始文本段中的对应信息反馈。
本申请实施例中,在从PDF文本流中获取原始文本段后,会根据预设位置调整规则,对原始文本段进行位置调整,使得原始文本段在文本流中的位置与对应的标注位置信息一致,从而能够将位置比较混乱的文本的位置调整的较为规则,进而在对PDF文本进行处理后,使得能够基于处理后的PDF文本流对PDF文档的文本搜索。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例一所提供的一种PDF文本的处理方法的流程图;
图2示出了本申请实施例二所提供的PDF文本的处理方法中,根据预设位置调整规则,对原始文本段进行位置调整的具体方法的流程图;
图3示出了本申请实施例四所提供的另外一种PDF文本的处理方法的流程图;
图4示出了本申请实施例五所提供的另外一种PDF文本的处理方法的流程图;
图5示出了本申请实施例六提供的PDF文本处理装置的结构示意图;
图6示出了本申请实施例七提供的PDF文本处理装置的结构示意图;
图7示出了本申请实施例八所提供的计算机设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
与word文档、文本文档中以字符串形式组织文本不同,PDF文本的内容都存在于不同的内容块中的,不同的内容块的位置不确定,导致内容块中的文本的位置也比较混乱。若使用现有的文本搜索方法对PDF文本进行搜索,则是要按照一定的遍历顺序,依次从各个内容块所包含的文本中遍历与搜索关键词能够匹配到的内容。但是在PDF文件中,由于内容块中的文本的位置比较混乱,若使用现有文本搜索方法对PDF文档进行文本搜索,会造成某些文本会在匹配过程中被遗漏,因而造成的目前文本搜索方法无法用于对PDF文本的文本搜索。
基于此,本申请提供的一种可移植文档格式PDF文本的处理方法以及装置,可以从PDF文本中获取文本流,基于从各内容块中提取的原始文本段在PDF文本中的位置,对原始文本段在文本流中的位置进行调整,使得原始文本段在文本流中的位置与对应的标注位置一致,再对进行了位置调整后的文本流进行文本搜索,不会遗漏对某些文本的搜索,达到对PDF文本进行文本搜索的目的。
为便于对本实施例进行理解,首先对本申请实施例所公开的一种PDF文本的处理方法进行详细介绍。
参见图1所示,本申请实施例一提供的PDF文本的处理方法包括:
S101:获取PDF文本流中的原始文本段;其中,每个原始文本段具有对应的标注位置信息。
在具体实现的时候,待搜索PDF文件中的文本是以内容块的形式组织的。为了实现对PDF文本的文本搜索,会从PDF文本中获取PDF文本流。要从PDF文本中获取PDF文本流,可以将各内容块中的原始文本段从对应内容块中提取出来,并将提取出来的原始文本段进行合成处理,形成PDF文本流。可选地,可以将各内容块中的原始文本段进行拼接,以形成PDF文本流。其中,每个原始文本段还具有对应的标注位置信息。
原始文本段通过字符串构成;可以以行为单位获取原始文本段,例如在每个内容块中,每一行字符串都可以构成一个原始文本段;也可以以段为单位获取原始文本段,例如在每个内容块中,每一段字符串都可以构成一个原始文本段。其中,在以段为单位获取原始文本段时,可以将回车字符作为识别段与段之间的间隔的标识。
每个原始文本段所具有对应的标注位置信息,是指该原始文本段在PDF文本中的具体位置。
例如,每个原始文本段所具有对应的标注位置信息,可以为:原始文本段位于PDF文本中的所在页的页数,和/或原始文本段位于所在页中的位置信息,;每个原始文本段位于所述所在页的位置信息包括:标注行位置信息以及标注列位置信息。
其中,原始文本段的标注位置信息可以是如下几种中任意一种:
1、标注列位置信息包括:每一条所述原始文本段的第一个字符的左缘或者右缘与所述所在页的左边缘的距离;标注行位置信息包括:所述原始文本段的上缘或者下缘距离所述所在页的上边缘的距离;
2、标注列位置信息包括:每一条所述原始文本段的第一个字符的左缘或者右缘与所在页的左边缘的距离,标注行位置信息包括:所述原始文本段的上缘或者下缘与所述所在页的下边缘的距离;
3、标注列位置信息包括:每一条所述原始文本段的第一个字符的左缘或者右缘与所述所在页的右边缘的距离;标注行位置信息包括:所述原始文本段的上缘或者下缘距离所述所在页的上边缘的距离;
4、标注列位置信息包括:每一条所述原始文本段的第一个字符的左缘或者右缘与所述所在页的右边缘的距离;标注行位置信息包括:所述原始文本段的上缘或者下缘与所述所在页的下边缘的距离。
例如原始文本段A的标注位置信息为:第13页,(26,322),单位:磅。其中,26为标注行位置信息,322为标注列位置信息。
在对PDF文本进行处理的时候,就能够基于从PDF文本流中获取原始文本段,以及每个原始文本段对应的标注位置信息。
S102:根据预设位置调整规则,对原始文本段进行位置调整,使得原始文本段在文本流中的位置与对应的标注位置信息一致。
在PDF文本中,不同内容块中的原始文本段之间是具有联系的,一般而言,位置越接近的内容块之间存在的联系越紧密。由于在PDF文本中各内容块的位置是比较杂乱的,导致在获取PDF文本流后,原本可能具有较紧密联系的原始文本段被分散在PDF文本流中的不同位置。对于这种PDF文本流而言,虽然能够根据搜索关键词从PDF文本流中获得与搜索关键词匹配到内容,但是匹配到的内容所在的原始文本段已经丢失了通过位置来表征的与其他文本段之间的联系,造成无法获得最终的搜索结果。
例如,在一个PDF文本中包括的内容块中,有三个位置相邻的内容块中的原始文本段分别为“在职”,“甲某”,“工号:A00345”,对该PDF文本进行搜索的目的是,获得所有属性为在职的员工的姓名和工号。但是由于“甲某”,“在职”,“工号为:A00345”被分散在PDF文本流的不同位置,则即使根据关键字搜索到了“在职”所在的位置,也无法根据文本块之间的位置关系,确定在职员工甲某的工号为A00345。
但是若能够将PDF文本段的位置进行调整,使得原始文本段在文本流中的位置与对应的标注位置信息一致,则能够保留原来文本块之间的位置所表征的联系。
例如在上述示例中,在PDF文本流中,若原始文本段“在职”,“甲某”,“工号:A00345”的位置依次相邻,对该PDF文本进行搜索的目的是获得所有属性为在职的员工的姓名和工号,在根据搜索关键字匹配到“在职”后,就能够从匹配到的原始文本段之前和之后相邻的两个原始文本段中,确定在职员工甲某的功耗为A00345。
因此,为了使得原始文本段在文本流中的位置与对应的标注位置信息一致,要根据愈合位置调整规则,对原始文本段进行位置调整。
具体地,参见图2所示,本申请实施例二提供一种根据预设位置调整规则,对原始文本段进行位置调整的具体方法,包括:
S201:基于标注行位置信息确定行位置之间的距离小于预设距离阈值的第一原始文本段。
此处,由于内容块之间会存在位置的差异,导致即使是位于同一行的不同原始文本段,其标注行位置信息可能会有所误差。若某原始文本段A的行位置和原始文本段D行位置之间的距离小于预设距离阈值,则将原始文本段A和原始文本段B确定为第一原始文本段。若还有另一原始文本段C与任意一个第一原始文本段之间的行位置之间的距离小于设距离阈值,则将该原始文本段C也作为第一原始文本段。
S202:将所述第一原始文本段的标注行位置信息调整至一致。
此处,在调整的时候,可以以其中任意一个第一原始文本段的标注行位置信息为基准,将其它第一原始文本段的标注行位置信息调整成作为基准的第一原始文本段的标注行位置信息。
此外,还可以基于第一原始文本段与行位置相邻的原始文本段之间的距离调整所有第一原始文本段的标注行位置信息。
S203:针对行位置相同的原始文本段,确定标注列位置与在文本流中列位置不一致的第二原始文本段。
S204:按照标注列位置调整所述第二原始文本段在文本流中的列位置。
在按照标注列位置调整所述第二原始文本段在文本流中的列位置时,
针对标注列位置信息包括:每一条所述原始文本段的第一个字符的左缘或者右缘与所述所在页的左边缘的距离的情况,标注列位置信息越小,则将对应的第二原始文本段调整至越靠近所在页的左边。
针对标注列位置信息包括:每一条所述原始文本段的第一个字符的左缘或者右缘与所述所在页的右边缘的距离的情况,标注列位置信息越大,则将对应的第二原始文本段调整至越靠近所在页的左边。
本申请实施例提供的PDF文本的处理方法中,在从PDF文本流中获取原始文本段后,会根据预设位置调整规则,对原始文本段进行位置调整,使得原始文本段在文本流中的位置与对应的标注位置信息一致,从而能够将位置比较混乱的文本的位置调整的较为规则,进而在对PDF文本进行处理后,使得能够基于处理后的PDF文本流对PDF文档的文本搜索。
本申请实施例三还提供另外一种PDF文本的处理方法,在上述实施例的基础上,该方法还包括:
为获取的原始文本段生成处理文本段。
其中,所述处理文本段对原始文本段去除大小写区别以及空格;或者所述处理文本段对原始文本段去除大小写区别、空格、以及标点符号。
在具体实现的时候,PDF文本中所包含的字符串可以是中文字符串,可以是外文字符串,也可以是中文混杂外文的字符串。对于仅包含中文字符串的原始文本段而言,字符和字符之间可能存在空格和标点符号,空格和标点符号可能会影响搜索结果,因此,可以将中文字符串进行去空格和标点符号的处理,生成对应的处理文本段。
在基于处理文本段进行文本搜索的时候,能够获得更加丰富、更加准确的搜索结果。对于含有外文字符串的原始处理文本而言,可能涉及到外文字符串的大小写问题。字符串在进行存储的时候,大写字符或者小写字符在文本中所表述的含义可能相同,但大写字符和小写字符在存储时被认为是不同字符。在进行匹配的时候,如果是将外文字符串作为关键字进行匹配,例如输入搜索关键字“fj”时,为了能够尽可能完全的匹配到文本内容,就要分别基于“fj”、“FJ”、“Fj”以及“fJ”在PDF文本流中进行匹配。因此,为了降低匹配复杂度,减少计算量,可以去除外文中的大小写区别,例如将全部的外文字符更改为大写,或者将全部的外文字符更改为小写,这样就只需要针对一个关键词进行匹配即可。且有许多外文是通过空格来区分词的,为了能够进行充分搜索,可以通过去除空格和/或标点符号来为原始文本生成处理文本段。
在搜索的时候,可以直接基于处理文本段进行搜索,然后根据搜索出来的内容在处理文本段中的位置,以及处理文本段和原始文本段之间的映射关系,在原始文本段中定位搜索出来的内容。
因此,可以为每个文本段保存一个五元组:(该文本段所在页数、该文本段标注行位置信息、该文本段标注列位置信息、该文本段原始文本、该文本段处理文本),以便于接收到搜索指令时得到准确的搜索结果。
参见图3所示,本申请实施例四还提供另外一种PDF文本的处理方法,在上述几个实施例的基础上,该方法还包括:
S301:获取PDF文本流中的原始文本段;其中,每个原始文本段具有对应的标注位置信息。
其中,S301的具体实施方式与上述S101类似,再次不再赘述。
S302:根据预设位置调整规则,对原始文本段进行位置调整,使得原始文本段在文本流中的位置与对应的标注位置信息一致。
其中,S302的具体实施方式与上述S102类似,再次不再赘述。
S303:将原始文本段、位置调整后的原始文本段标注位置信息、以及原始文本段的所在页信息对应存储;
S304:当接收到搜索指令时,根据所述搜索指令中携带的搜索参数,从对应页开始,按照经过位置调整的原始文本段在文本流中的排列顺序,或者按照经过位置调整的原始文本段的标注位置顺序,进行目标字符匹配,并反馈搜索结果。
在具体实现的时候,搜索指令中携带了搜索参数,搜索参数一般包括如下信息中至少一项:搜索起始位置、搜索方向以及搜索关键词。
其中,搜索起始位置包括页数,和/或,页中的具体位置。其中,页中的具体位置可以使用原始文本段来表征,也可以使用标注位置来表征。
搜索方向一般包括正向搜索和逆向搜索;若搜索方向为正向搜索,则按照经过位置调整的原始文本段在文本流中的排列顺序,或者按照经过位置调整的原始文本段的标注位置顺序,从前到后进行目标字符匹配,并反馈搜索结果;若搜索方向为逆向搜索,则按照经过位置调整的原始文本段在文本流中的排列顺序,或者按照经过位置调整的原始文本段的标注位置顺序,从后到前进行目标字符匹配,并反馈搜索结果。
在进行目标字符匹配时,是将搜索关键词和PDF文本流中的字符进行匹配。若匹配成功,则将匹配成功的字符串作为匹配到的目标字符,并将目标字符的具体位置作为搜索结果反馈。
参见图4所示,本申请实施例五还提供另外一种PDF文本的处理方法,在上述实施例的基础上,该方法还包括:
S401:获取PDF文本流中的原始文本段;其中,每个原始文本段具有对应的标注位置信息。
其中,S401的具体实施方式与上述S101类似,再次不再赘述。
S402:根据预设位置调整规则,对原始文本段进行位置调整,使得原始文本段在文本流中的位置与对应的标注位置信息一致。
其中,S402的具体实施方式与上述S102类似,再次不再赘述。
S403:为获取的原始文本段生成处理文本段。
其中,所述处理文本段对原始文本段去除大小写区别以及空格;或者所述处理文本段对原始文本段去除大小写区别、空格、以及标点符号。
S404:当接收到搜索指令时,根据所述搜索指令中携带的搜索参数,从对应页开始,按照经过位置调整的原始文本段在文本流中的排列顺序,或者按照经过位置调整的原始文本段的标注位置顺序,在原始文本段的对应处理文本段中进行目标字符匹配;
在具体实现的时候,搜索指令中携带了搜索参数,与上述实施例三类似,在此不再赘述。
S405:针对搜索到目标字符的情况,将目标字符在对应处理文本段中的位置映射到对应原始文本段中,并将该对应原始文本段中的对应信息反馈。
在具体实现的时候,由于是在处理文本段中进行目标字符匹配的,这样虽然能够更加精确的获得搜索结果,但是处理文本段较之原始文本段已经有了改变,而搜索的结果是要在原始文本段中确定目标字符的,因此在处理文本段张金星目标字符匹配后,要针对搜索到目标字符的情况,将目标字符在处理文本段中的位置映射到对应原始文本段中去,并将该对应原始文本段中的对应信息反馈。实现了在降低匹配算法的复杂度、减少计算量、提高匹配精度的基础上,实现PDF文本的搜索。
基于同一发明构思,本申请实施例中还提供了与PDF文本的处理方法对应的PDF文本处理装置,由于本申请实施例中的装置解决问题的原理与本申请实施例上述PDF文本的处理方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
参见图5所示,本申请实施例六提供的PDF文本处理装置包括:
获取模块51,用于获取PDF文本流中的原始文本段;其中,每个原始文本段具有对应的标注位置信息;
位置调整模块52,用于根据预设位置调整规则,对原始文本段进行位置调整,使得原始文本段在文本流中的位置与对应的标注位置信息一致。
本申请实施例提供的PDF文本处理装置中,在从PDF文本流中获取原始文本段后,会根据预设位置调整规则,对原始文本段进行位置调整,使得原始文本段在文本流中的位置与对应的标注位置信息一致,从而能够将位置比较混乱的文本的位置调整的较为规则,进而在对PDF文本进行处理后,使得能够基于处理后的PDF文本流对PDF文档的文本搜索。
可选地,所述标注位置信息包括:标注行位置信息和标注列位置信息;
所述位置调整模块52具体用于通过下述方式根据预设位置调整规则,对原始文本段进行位置调整:
基于标注行位置信息确定行位置之间的距离小于预设距离阈值的第一原始文本段;
将所述第一原始文本段的标注行位置信息调整至一致;
针对行位置相同的原始文本段,确定标注列位置与在文本流中列位置不一致的第二原始文本段;
按照标注列位置调整所述第二原始文本段在文本流中的列位置。
可选地,参见图6所示,本申请实施例七提供的PDF文本的处理装置,还包括:处理模块53,用于为获取的原始文本段生成处理文本段;
其中,所述处理文本段对原始文本段去除大小写区别以及空格;或者所述处理文本段对原始文本段去除大小写区别、空格、以及标点符号。
可选地,参见图5所示,还包括:第一存储模块54,用于将原始文本段、位置调整后的原始文本段标注位置信息、以及原始文本段的所在页信息对应存储;
所述装置,还包括:第一搜索模块55,用于:
接收搜索指令;
根据所述搜索指令中携带的搜索参数,从对应页开始,按照经过位置调整的原始文本段在文本流中的排列顺序,或者按照经过位置调整的原始文本段的标注位置顺序,进行目标字符匹配,并反馈搜索结果。
可选地,参见图6所示,还包括:
第二存储模块56,用于将原始文本段、位置调整后的原始文本段对应的处理文本段、位置调整后的原始文本段标注位置信息、以及原始文本段的所在页信息对应存储;
所述装置,还包括:第二搜索模块57,用于:
接收搜索指令;
根据所述搜索指令中携带的搜索参数,从对应页开始,按照经过位置调整的原始文本段在文本流中的排列顺序,或者按照经过位置调整的原始文本段的标注位置顺序,在原始文本段的对应处理文本段中进行目标字符匹配;
针对搜索到目标字符的情况,将目标字符在对应处理文本段中的位置映射到对应原始文本段中,并将该对应原始文本段中的对应信息反馈。
对应于图1中的PDF文本的处理方法,本申请实施例八还提供了一种计算机设备,如图7所示,该设备包括存储器1000、处理器2000及存储在该存储器1000上并可在该处理器2000上运行的计算机程序,其中,上述处理器2000执行上述计算机程序时实现上述PDF文本的处理方法的步骤。
具体地,上述存储器1000和处理器2000能够为通用的存储器和处理器,这里不做具体限定,当处理器2000运行存储器1000存储的计算机程序时,能够执行上述PDF文本的处理方法,从而解决现有文本搜索技术文法实现对PDF文本的文本搜索,进而达能够对PDF文本的文本搜索效果。
对应于图1中的PDF文本的处理方法,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述客PDF文本的处理方法的步骤。
具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述PDF文本的处理方法,从而解决现有文本搜索技术文法实现对PDF文本的文本搜索,进而达能够对PDF文本的文本搜索效果。
本申请实施例所提供的PDF文本的处理方法以及装置的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种可移植文档格式PDF文本的处理方法,其特征在于,包括:
获取PDF文本流中的原始文本段;其中,每个原始文本段具有对应的标注位置信息;
根据预设位置调整规则,对原始文本段进行位置调整,使得原始文本段在文本流中的位置与对应的标注位置信息一致。
2.根据权利要求1所述的方法,其特征在于,所述标注位置信息包括:标注行位置信息和标注列位置信息;
根据预设位置调整规则,对原始文本段进行位置调整,包括:
基于标注行位置信息确定行位置之间的距离小于预设距离阈值的第一原始文本段;
将所述第一原始文本段的标注行位置信息调整至一致;
针对行位置相同的原始文本段,确定标注列位置与在文本流中列位置不一致的第二原始文本段;
按照标注列位置调整所述第二原始文本段在文本流中的列位置。
3.根据权利要求1或2所述的方法,其特征在于,还包括:
为获取的原始文本段生成处理文本段;
其中,所述处理文本段对原始文本段去除大小写区别以及空格;或者所述处理文本段对原始文本段去除大小写区别、空格、以及标点符号。
4.根据权利要求1所述的方法,其特征在于,还包括:
将原始文本段、位置调整后的原始文本段标注位置信息、以及原始文本段的所在页信息对应存储;
所述方法,还包括:
接收搜索指令;
根据所述搜索指令中携带的搜索参数,从对应页开始,按照经过位置调整的原始文本段在文本流中的排列顺序,或者按照经过位置调整的原始文本段的标注位置顺序,进行目标字符匹配,并反馈搜索结果。
5.根据权利要求3所述的方法,其特征在于,还包括:
将原始文本段、位置调整后的原始文本段对应的处理文本段、位置调整后的原始文本段标注位置信息、以及原始文本段的所在页信息对应存储;
所述方法,还包括:
接收搜索指令;
根据所述搜索指令中携带的搜索参数,从对应页开始,按照经过位置调整的原始文本段在文本流中的排列顺序,或者按照经过位置调整的原始文本段的标注位置顺序,在原始文本段的对应处理文本段中进行目标字符匹配;
针对搜索到目标字符的情况,将目标字符在对应处理文本段中的位置映射到对应原始文本段中,并将该对应原始文本段中的对应信息反馈。
6.一种可移植文档格式PDF文本的处理装置,其特征在于,包括:
获取模块,用于获取PDF文本流中的原始文本段;其中,每个原始文本段具有对应的标注位置信息;
位置调整模块,用于根据预设位置调整规则,对原始文本段进行位置调整,使得原始文本段在文本流中的位置与对应的标注位置信息一致。
7.根据权利要求6所述的装置,其特征在于,所述标注位置信息包括:标注行位置信息和标注列位置信息;
所述位置调整模块具体用于通过下述方式根据预设位置调整规则,对原始文本段进行位置调整:
基于标注行位置信息确定行位置之间的距离小于预设距离阈值的第一原始文本段;
将所述第一原始文本段的标注行位置信息调整至一致;
针对行位置相同的原始文本段,确定标注列位置与在文本流中列位置不一致的第二原始文本段;
按照标注列位置调整所述第二原始文本段在文本流中的列位置。
8.根据权利要求6或7所述的装置,其特征在于,还包括:处理模块,用于为获取的原始文本段生成处理文本段;
其中,所述处理文本段对原始文本段去除大小写区别以及空格;或者所述处理文本段对原始文本段去除大小写区别、空格、以及标点符号。
9.根据权利要求6所述的装置,其特征在于,还包括:
第一存储模块,用于将原始文本段、位置调整后的原始文本段标注位置信息、以及原始文本段的所在页信息对应存储;
所述装置,还包括:第一搜索模块,用于:
接收搜索指令;
根据所述搜索指令中携带的搜索参数,从对应页开始,按照经过位置调整的原始文本段在文本流中的排列顺序,或者按照经过位置调整的原始文本段的标注位置顺序,进行目标字符匹配,并反馈搜索结果。
10.根据权利要求8所述的装置,其特征在于,还包括:
第二存储模块,用于将原始文本段、位置调整后的原始文本段对应的处理文本段、位置调整后的原始文本段标注位置信息、以及原始文本段的所在页信息对应存储;
所述装置,还包括:第二搜索模块,用于:
接收搜索指令;
根据所述搜索指令中携带的搜索参数,从对应页开始,按照经过位置调整的原始文本段在文本流中的排列顺序,或者按照经过位置调整的原始文本段的标注位置顺序,在原始文本段的对应处理文本段中进行目标字符匹配;
针对搜索到目标字符的情况,将目标字符在对应处理文本段中的位置映射到对应原始文本段中,并将该对应原始文本段中的对应信息反馈。
CN201810701602.8A 2018-06-29 2018-06-29 一种pdf文本的处理方法以及装置 Active CN108897730B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810701602.8A CN108897730B (zh) 2018-06-29 2018-06-29 一种pdf文本的处理方法以及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810701602.8A CN108897730B (zh) 2018-06-29 2018-06-29 一种pdf文本的处理方法以及装置

Publications (2)

Publication Number Publication Date
CN108897730A true CN108897730A (zh) 2018-11-27
CN108897730B CN108897730B (zh) 2022-07-29

Family

ID=64347161

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810701602.8A Active CN108897730B (zh) 2018-06-29 2018-06-29 一种pdf文本的处理方法以及装置

Country Status (1)

Country Link
CN (1) CN108897730B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112667438A (zh) * 2020-12-24 2021-04-16 万兴科技集团股份有限公司 文本保存及还原方法、装置、计算机设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1687926A (zh) * 2005-04-18 2005-10-26 福州大学 一种基于xml的pdf文档信息抽取系统的方法
CN101133388A (zh) * 2005-01-25 2008-02-27 谷歌公司 基于多索引的信息检索系统
CN102081736A (zh) * 2009-11-27 2011-06-01 株式会社理光 从可移植电子文档中提取字符外接矩形的设备和方法
CN103268340A (zh) * 2013-05-21 2013-08-28 龚如宾 基于层次式索引的版式可回流文件建立和绘制方法
US20150066945A1 (en) * 2013-09-05 2015-03-05 Smith Seckman Reid, Inc. Library indexing system and method
US20180107633A1 (en) * 2016-10-16 2018-04-19 Richard Salisbury Comparing, And Generating Revision Markings With Respect To, An Arbitrary Number of Text Segments
CN107977346A (zh) * 2017-11-23 2018-05-01 万兴科技股份有限公司 一种pdf文档编辑方法及终端设备
CN108132920A (zh) * 2018-01-10 2018-06-08 北京仁和汇智信息技术有限公司 一种xml文件与pdf文件同步关联的方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101133388A (zh) * 2005-01-25 2008-02-27 谷歌公司 基于多索引的信息检索系统
CN1687926A (zh) * 2005-04-18 2005-10-26 福州大学 一种基于xml的pdf文档信息抽取系统的方法
CN102081736A (zh) * 2009-11-27 2011-06-01 株式会社理光 从可移植电子文档中提取字符外接矩形的设备和方法
CN103268340A (zh) * 2013-05-21 2013-08-28 龚如宾 基于层次式索引的版式可回流文件建立和绘制方法
US20150066945A1 (en) * 2013-09-05 2015-03-05 Smith Seckman Reid, Inc. Library indexing system and method
US20180107633A1 (en) * 2016-10-16 2018-04-19 Richard Salisbury Comparing, And Generating Revision Markings With Respect To, An Arbitrary Number of Text Segments
CN107977346A (zh) * 2017-11-23 2018-05-01 万兴科技股份有限公司 一种pdf文档编辑方法及终端设备
CN108132920A (zh) * 2018-01-10 2018-06-08 北京仁和汇智信息技术有限公司 一种xml文件与pdf文件同步关联的方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112667438A (zh) * 2020-12-24 2021-04-16 万兴科技集团股份有限公司 文本保存及还原方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN108897730B (zh) 2022-07-29

Similar Documents

Publication Publication Date Title
Fonseca et al. Mac-morpho revisited: Towards robust part-of-speech tagging
CN105808528B (zh) 一种文档文字的处理方法
CN107168957A (zh) 一种中文分词方法
CN109918627B (zh) 文本生成方法、装置、电子设备及存储介质
CN109255117A (zh) 中文分词方法及装置
CN105760368B (zh) 一种文档文字的深度处理方法
CN108268600A (zh) 基于ai的非结构化数据管理方法及装置
CN106980620A (zh) 一种对中文字串进行匹配的方法及装置
JP7170773B2 (ja) 構造化文書情報の標識方法、構造化文書情報の標識装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム
CN112966685B (zh) 用于场景文本识别的攻击网络训练方法、装置及相关设备
CN103559512B (zh) 一种文字识别输出方法及系统
CN106528821A (zh) 一种变动列数据导入数据库的方法
CN106815193A (zh) 模型训练方法及装置和错别字识别方法及装置
FI20176151A1 (en) A heuristic method for analyzing the contents of an electronic document
KR20220043505A (ko) 문서 요약장치 및 방법
RU2019141908A (ru) Идентификация блоков связанных слов в документах сложной структуры
CN109685061A (zh) 适用于结构化的数学公式的识别方法
CN110942063B (zh) 证件文字信息获取方法、装置以及电子设备
CN106547743A (zh) 一种进行翻译的方法及其系统
CN108897730A (zh) 一种pdf文本的处理方法以及装置
CN107168966A (zh) 一种搜索引擎索引构建方法及装置
CN108595426A (zh) 基于汉字字形结构性信息的词向量优化方法
CN113283231B (zh) 获取签章位的方法、设置系统、签章系统及存储介质
CN104346616B (zh) 字符识别装置和字符识别方法
CN106599305B (zh) 一种基于众包的异构媒体语义融合方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 100070, No. 101-8, building 1, 31, zone 188, South Fourth Ring Road, Beijing, Fengtai District

Applicant after: Guoxin Youyi Data Co.,Ltd.

Address before: 100070, No. 188, building 31, headquarters square, South Fourth Ring Road West, Fengtai District, Beijing

Applicant before: SIC YOUE DATA Co.,Ltd.

GR01 Patent grant
GR01 Patent grant