CN110837788B - 一种pdf文档的处理方法及装置 - Google Patents

一种pdf文档的处理方法及装置 Download PDF

Info

Publication number
CN110837788B
CN110837788B CN201911051820.2A CN201911051820A CN110837788B CN 110837788 B CN110837788 B CN 110837788B CN 201911051820 A CN201911051820 A CN 201911051820A CN 110837788 B CN110837788 B CN 110837788B
Authority
CN
China
Prior art keywords
pdf document
preset
character
directory
identifying
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911051820.2A
Other languages
English (en)
Other versions
CN110837788A (zh
Inventor
吕凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Deep Intelligent Pharma Technology Co ltd
Original Assignee
Beijing Deep Intelligent Pharma Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Deep Intelligent Pharma Technology Co ltd filed Critical Beijing Deep Intelligent Pharma Technology Co ltd
Priority to CN201911051820.2A priority Critical patent/CN110837788B/zh
Publication of CN110837788A publication Critical patent/CN110837788A/zh
Application granted granted Critical
Publication of CN110837788B publication Critical patent/CN110837788B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本申请公开了一种PDF文档的处理方法及装置,依据预设的第一类对象的特征,识别PDF文档中的第一类对象,第一类对象包括各级标题、页眉和页脚中的至少一项,特征包括内容和格式。识别PDF文档中的第二类对象,第二类对象为预先规定具有超链接的字符。依据预设的目录的特征,识别PDF文档中的目录,目录的特征包括目录的关键字和格式。可见,相较于人工检查PDF文档的方式,本申请能够自动识别PDF文档中的各级标题、页眉、页脚、具有超链接的字符、以及目录等待检内容,并针对待检内容中错误的待检项进行自动标识,从而辅助人工进行核查,由此显著提高PDF文档的处理效率,减少人力成本。

Description

一种PDF文档的处理方法及装置
技术领域
本申请涉及信息自动化技术领域,尤其涉及一种PDF文档的处理方法及装置。
背景技术
在医药研发以及上市后产品监管过程中,药企需向监管部门递交药品电子通用技术文件,药品电子通用技术文件为PDF文档。由于药品电子通用技术文件必须依照监管部门制定的界面和特定格式进行撰写,因此,需要对电子通用技术文件撰写完毕后的PDF文档进行检查。
目前,大多数是采用人工检查的方式,对药品电子通用技术文件的PDF文档进行检查。然而,所需检查的PDF文档数量庞大,依靠人工检查全部的PDF文档需花费较大的人力和时间,效率尤为低下,并且在检查修正文档的过程中,人工检查的方式极为容易遗漏文档中的错误。
发明内容
本申请提供了一种PDF文档的处理方法及装置,目的在于解决人工检查修正PDF文档效率低下的问题。
为了实现上述目的,本申请提供了以下技术方案:
一种PDF文档的处理方法,包括:
依据预设的第一类对象的特征,识别PDF文档中的第一类对象,所述第一类对象包括各级标题、页眉和页脚中的至少一项,所述特征包括内容和格式;
识别所述PDF文档中的第二类对象,所述第二类对象为预先规定具有超链接的字符;
依据预设的目录的特征,识别所述PDF文档中的目录,所述目录的特征包括目录的关键字和格式。
可选的,所述依据预设的第一类对象的特征,识别PDF文档中的第一类对象,所述第一类对象包括各级标题、页眉和页脚中的至少一项,所述特征包括内容和格式,包括:
使用第一模型,得到所述各级标题的识别结果,所述第一模型使用所述各级标题的预设的关键字以及格式训练得到;
使用第二模型,得到所述页眉和页脚的识别结果,所述第二模型使用所述页眉和页脚的预设格式训练得到。
可选的,在识别所述PDF文档中的所述各级标题之后,还包括:
在所述各级标题的字体格式不满足预设条件的情况下,调整所述字体格式,以满足所述预设条件。
可选的,所述识别所述PDF文档中的第二类对象,包括:
使用OCR识别所述PDF文档,得到文档;
使用自然语言理解算法,基于语义识别所述文档中的预设字符;
将所述文档输入第三模型,得到所述第三模型依据所述字符的上下文信息确定的所述字符的含义;
依据所述预设字符的含义,确定所述预设字符为所述预先规定具有超链接的字符。
可选的,在所述确定所述字符为所述预先规定具有超链接的字符之后,还包括:
依据所述PDF文档的超链接属性信息,核查所述预设字符是否存在对应的超链接;
在所述预设字符不存在对应的超链接的情况下,发出所述预设字符缺失超链接的提示。
可选的,在所述确定所述字符为所述预先规定具有超链接的字符之后,还包括:
在所述预设字符存在对应的超链接的情况下,提取所述超链接的内容;
将所述超链接的内容输入所述第三模型,得到所述第三模型依据所述超链接的内容确定的上述超链接的含义;
在所述超链接的含义与所述预设字符的含义不匹配的情况下,发出超链接错误的提示。
可选的,在所述识别所述PDF文档中的目录之后,还包括:
使用OCR识别所述PDF文档,得到文档;
将所述文档输入第四模型,得到所述第四模型输入的所述目录中的目录项对应的内容的起始位置,依据所述起始位置,计算所述目录项对应的内容所占的页数;
依据所述起始位置和所述页数,确定所述目录项对应的内容的实际页码;
所述目录项在所述目录中对应的页码与所述实际页码不符的情况下,发出页码错误提示,和/或,将所述目录项在所述目录中对应的页码替换为所述实际页码。
一种PDF文档的处理装置,包括:
第一识别单元,用于依据预设的第一类对象的特征,识别PDF文档中的第一类对象,所述第一类对象包括各级标题、页眉和页脚中的至少一项,所述特征包括内容和格式;
第二识别单元,用于识别所述PDF文档中的第二类对象,所述第二类对象为预先规定具有超链接的字符;
第三识别单元,用于依据预设的目录的特征,识别所述PDF文档中的目录,所述目录的特征包括目录的关键字和格式。
一种存储介质,所述存储介质包括存储的程序,其中,所述程序执行所述的PDF文档的处理方法
一种设备,包括:处理器、存储器和总线;所述处理器与所述存储器通过所述总线连接;
所述存储器用于存储程序,所述处理器用于运行程序,其中,所述程序运行时执行所述的PDF文档的处理方法。
本申请提供的PDF文档的处理方法及装置、存储介质、设备,依据预设的第一类对象的特征,识别PDF文档中的第一类对象,第一类对象包括各级标题、页眉和页脚中的至少一项,特征包括内容和格式。识别PDF文档中的第二类对象,第二类对象为预先规定具有超链接的字符。依据预设的目录的特征,识别PDF文档中的目录,目录的特征包括目录的关键字和格式。可见,相较于人工检查PDF文档的方式,本申请能够自动识别PDF文档中的各级标题、页眉、页脚、具有超链接的字符、以及目录等待检内容,并针对待检内容中错误的待检项进行自动标识,从而辅助人工进行核查,由此显著提高PDF文档的处理效率,减少人力成本。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种PDF文档的处理方法的示意图;
图2为本申请实施例提供的一种识别PDF文档中的第一类对象的具体实现方式的示意图;
图3为本申请实施例提供的另一种PDF文档的处理方法的示意图;
图4为本申请实施例提供的一种识别PDF文档中的第二类对象的具体实现方式的示意图;
图5为本申请实施例提供的另一种PDF文档的处理方法的示意图;
图6为本申请实施例提供的另一种PDF文档的处理方法的示意图;
图7为本申请实施例提供的一种PDF文档的处理装置的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
由背景技术可知,现有技术中,采用人工检查修正的方式,对药品电子通用技术文件的PDF文档进行检查。人工检查PDF文档,时间长,效率低,并且极为容易遗漏文档中的错误。有鉴于此,本申请实施例提供了一种PDF文档的处理方法,用于提高PDF文档的处理效率。
如图1所示,为本申请实施例提供的一种PDF文档的处理方法的示意图,包括如下步骤:
S101:依据预设的第一类对象的特征,识别PDF文档中的第一类对象。
其中,第一类对象包括各级标题、页眉和页脚中的至少一项,特征包括内容和格式。第一类对象相较于PDF文档中的其他对象,在内容与格式上都有所区别。PDF文档中的各级标题的内容会包含数量字(例如1、2、一、十一等)、特定文字(例如章、节等)。此外,各级标题的在格式上,内容基本为文字,并且文字单独为一行,文字结尾不存在标点符号,例如,标题“第一章”、以及标题“第二节”等。
需要说明的是,在识别出第一类对象后,对第一类对象进行标识,从而辅助人工进行核查。当然,标识的方式包括但不限于是采用黄颜色字体突出显示第一类对象的内容等方式。
此外,页眉和页脚各自内容为数字,且可能存在字符和特殊符号,例如“MM1112”等。针对页眉和页脚的格式,通过区分PDF文档中的左对齐字符、或中对齐字符、或右对齐字符的空白间距的具体大小,由此可以判断该字符内容是否为页眉或者页脚。
需要说明的是,依据预设的第一类对象的特征,识别PDF文档中的第一类对象这一过程,具体的实现方式,可参见下述图2和图3,以及图2和图3示出的解释说明。
S102:识别PDF文档中的第二类对象。
其中,第二类对象为预先规定具有超链接的字符。具有超链接的字符具体指的是:针对PDF文档,点击该字符,可以跳转至其它对象,“表1”的超链接连接到例如表格1等,又例如网址http://www.hahah.cn具有连接到网址的超链接等。
需要说明的是,识别PDF文档中的第二类对象这一过程,具体的实现方式,可参见下述图4和图5,以及图4和图5示出的解释说明。
S103:依据预设的目录的特征,识别PDF文档中的目录。
其中,目录的特征包括目录的关键字和格式。在PDF文档中,目录的关键字中至少包括预设文字(例如“页”、“章”等)和数字(例如“12”、“一”),目录的格式通常为文字排在数字前面,文字和数字中间可以存在特殊符号(例如“第一章‥‥13”等)。
需要说明的是,在识别PDF文档中的目录后,针对目录中出现的错误目录项,自动进行标识,从而辅助人工核查目录。当然,标识的方式包括但不限于是采用黄颜色字体突出显示目录的内容等方式。
在本申请实施例中,依据预设的第一类对象的特征,识别PDF文档中的第一类对象,第一类对象包括各级标题、页眉和页脚中的至少一项,特征包括内容和格式。识别PDF文档中的第二类对象,第二类对象为预先规定具有超链接的字符。依据预设的目录的特征,识别PDF文档中的目录,目录的特征包括目录的关键字和格式。可见,相较于人工检查PDF文档的方式,本申请能够自动识别PDF文档中的各级标题、页眉、页脚、具有超链接的字符、以及目录等待检内容,并针对待检内容中错误的待检项进行自动标识,从而辅助人工进行核查,由此显著提高PDF文档的处理效率,减少人力成本。
可选的,如图2所示,为本申请实施例提供的一种识别PDF文档中的第一类对象的具体实现方式的示意图,包括如下步骤:
S201:使用第一模型,得到各级标题的识别结果。
其中,第一模型使用各级标题的预设的关键字以及格式训练得到,第一模型的训练过程为本领域技术人员所熟悉的公知常识,这里不再赘述。各级标题由于相互之间存在阶级差别,因此各级标题中存在明显不同的关键字,例如,一级标题的级别大于二级标题,且二级标题为一级标题下的分支内容,一级标题通常为“第一章”,二级标题为“第一节”等。
此外,各级标题的在格式上,内容基本为文字,并且文字单独为一行,文字结尾不存在标点符号。然而各级标题相互之间在字体上确会有所区别,例如,一级标题的字体为五号字体并加粗,二级标题的字体为四号字体不加粗等。
由此可见,能够依据各级标题中特定的关键字和格式区分各级标题。在本申请实施例中,采用光学字符识别(OpticalCharacterRecognition,OCR)算法、以及机器学习算法,构建第一模型。将PDF文档输入第一模型中,第一模型对PDF文档中的文字、标点符号和字体进行识别,从而得到各级标题的识别结果。
S202:使用第二模型,得到页眉和页脚的识别结果。
其中,第二模型使用页眉和页脚的预设格式训练得到,第二模型的训练过程为本领域技术人员所熟悉的公知常识,这里不再赘述。页眉和页脚的预设格式指的是:PDF文档中,左对齐字符、或中对齐字符、或右对齐字符的空白间距的具体大小,空白间距的具体大小可由技术人员根据实际情况进行设置。
需要说明的是,在本申请实施例中,采用光学字符识别(Optical CharacterRecognition,OCR)算法、以及机器学习算法,构建第二模型。将PDF文档输入第二模型中,第二模型对PDF文档中的左对齐字符、或中对齐字符、或右对齐字符的空白间距进行识别,从而得到页眉和页脚的识别结果。
在本申请实施例中,通过使用第一模型,得到各级标题的识别结果。通过使用第二模型,得到页眉和页脚的识别结果。可见,由于采用算法模型自动识别PDF文档中的各级标题、页眉和页脚,识别结果相较于人工检查,具有更高的准确性和效率。
需要说明的是,针对第一模型输出得到的各级标题的识别结果,若识别结果中出现错误标题(例如标题的字体格式不符合条件),则会自动调整该错误标题。
针对第二模型输出得到的页眉和页脚的识别结果,若识别结果中出现错误的页眉和/或页脚(例如页眉和/或页脚中的页码出现乱码),则会自动调整该错误的页眉和/或页脚。
可选的,如图3所示,为本申请实施例提供的另一种PDF文档的处理方法的示意图,包括如下步骤:
S301:依据各级标题、页眉和页脚各自对应的特征,识别PDF文档中的各级标题、页眉和页脚。
其中,S301的具体执行过程和实现原理与上述图1示出的S101的具体执行过程和实现原理一致,这里不再赘述。
S302:在各级标题的字体格式不满足预设条件的情况下,调整字体格式,以满足预设条件。
其中,在得到各级标题的识别结果后,判断各级标题的字体格式是否满足预设条件。针对各级标题中不满足预设条件的部分标题,调整所述部分标题的字体格式。在本申请实施例中,预设条件包括但不限于是:一级标题的字体为四号字体,二级标题的字体为五号字体,三级标题的字体为六号字体。当然,具体的条件可由技术人员根据实际情况进行设置,本申请实施例不做限定。
具体的,假设二级标题的字体理应为四号字体,然而在第一模型输出各级标题的识别结果中,标识了一个错误的二级标题,该错误的二级标题的字体为五号字体,则将该错误的二级标题的字体调整为四号字体。
需要说明的是,上述具体实现过程仅仅用于举例说明。
S303:在页眉和/或页脚中的页码错误的情况下,调整页码。
其中,页码错误包括但不限是:页码中的字符无法显示,或部分数字缺失等。由于PDF文档中页眉和页脚为统一格式,故可依据文档中正确格式的页眉和页脚中的页码,对错误的页码进行调整。
S304:识别所述PDF文档中的第二类对象。
其中,S304的具体执行过程和实现原理与上述图1示出的S102的具体执行过程和实现原理一致,这里不再赘述。
S305:依据预设的目录的特征,识别所述PDF文档中的目录。
其中,S305的具体执行过程和实现原理与上述图1示出的S103的具体执行过程和实现原理一致,这里不再赘述。
在本申请实施例中,依据各级标题、页眉和页脚各自对应的特征,识别PDF文档中的各级标题、页眉和页脚。并在各级标题的字体格式不满足预设条件的情况下,调整字体格式,以满足预设条件。在页眉和/或页码中的页码错误的情况下,调整页码。识别所述PDF文档中的第二类对象,第二类对象为预先规定具有超链接的字符。依据预设的目录的特征,识别PDF文档中的目录,目录的特征包括目录的关键字和格式。可见,不仅识别出PDF文档中错误的标题、页眉和页脚,并且能够对错误标题、页眉和页脚进行修正,有效减轻后续人工核查的工作量。
可选的,如图4所示,为本申请实施例提供的一种识别PDF文档中的第二类对象的具体实现方式的示意图,包括如下步骤:
S401:使用OCR识别PDF文档,得到文档。
其中,使用OCR算法识别PDF文档这一过程,为本领域技术人员所熟悉的公知常识,这里不再赘述。
S402:使用自然语言理解算法,基于语义识别文档中的预设字符。
其中,可以使用自然语言理解算法或者现有的其他语义识别算法,对文档中的字符进行语义识别,当然,对字符进行语义识别的过程为本领域技术人员所熟悉的公知常识,这里不再赘述。
S403:将文档输入第三模型,得到第三模型依据字符的上下文信息确定的字符的含义。
其中,第三模型使用样本字符和样本含义训练得到。并且,在本申请实施例中,采用光学字符识别(Optical Character Recognition,OCR)算法、以及机器学习算法,构建第三模型。当然,第三模型的训练过程为本领域技术人员所熟悉的公知常识,这里不再赘述。
需要说明的是,依据字符的上下文信息确定字符的含义具体指的是:由于字符存在多种不同的含义,故同构该字符的上下文信息整体的含义,确定该字符当前在文中具体所表达的是哪一种含义,例如,“seeTable”的含义包括“看桌子”和“参见表格”,通过参照“seeTable”的上下文信息的含义,确定“seeTable”当前表达的含义为“参见表格”。
S404:依据预设字符的含义,确定预设字符为预先规定具有超链接的字符。
其中,PDF文档中部分字符会具有超链接,若字符的含义中具有跳转至某一界面或字符的含义(例如“请参见表格”、“请跳转http://www.aaadad.cn”),则确定该字符为具有超链接的字符。
在本申请实施例中,通过使用OCR识别PDF文档,得到文档。使用自然语言理解算法,基于语义识别文档中的预设字符。将文档输入第三模型,得到第三模型依据字符的上下文信息确定的字符的含义。依据预设字符的含义,确定预设字符为预先规定具有超链接的字符。可见,由于采用算法模型自动识别PDF文档中具备超链接的字符,识别结果相较于人工检查,具有更高的准确性和效率。
需要说明的是,针对第三模型输出得到的预设字符的含义,识别结果中预先规定具备超链接的字符,可能会缺失相应的超链接。因此,需对这些缺失超链接的字符进行标识。
可选的,如图5所示,为本申请实施例提供的另一种PDF文档的处理方法的示意图,包括如下步骤:
S501:依据预设的第一类对象的特征,识别PDF文档中的第一类对象。
其中,S501的具体执行过程和实现原理与上述图1示出的S101的具体执行过程和实现原理一致,这里不再赘述。
S502:识别PDF文档中预先规定具有超链接的字符。
其中,S502的具体执行过程和实现原理与上述图1示出的S102的具体执行过程和实现原理一致,这里不再赘述。
S503:依据PDF文档的超链接属性信息,核查预设字符是否存在对应的超链接。
其中,若核查预设字符存在对应的超链接,则执行S504,否则执行S508。
需要说明的是,超链接属性信息指的是:PDF文档中预先具备超链接的字符,可通过点击具备超链接的预设字符,跳转至预设的界面,并获得预设的内容,若点击预设字符后,无法跳转或者获得其他内容,则确定预设字符缺失对应的超链接。
S504:提取超链接的内容。
其中,提取超链接的内容,与提取字符的内容的具体实现方式一致,都是本领域技术人员所熟悉的公知常识,这里不再赘述。
需要说明的是,超链接的内容指的是:点击超链接后,所获取的其他界面上的字符,例如,点击“参见表格1-1”,超链接的内容则为“表格1-1”中的字符。
S505:将超链接的内容输入第三模型,得到第三模型依据超链接的内容确定的上述超链接的含义。
其中,将超链接的内容输入第三模型,得到第三模型依据超链接的内容确定的上述超链接的含义这一过程,与上述图4示出的S403中将文档输入第三模型,得到第三模型依据字符的上下文信息确定的字符的含义这一过程一致,都是本领域技术人员所熟悉的公知常识,这里不再赘述。
S506:判断超链接的含义与预设字符的含义是否匹配。
其中,若超链接的含义与预设字符的含义匹配,则执行S509,否则执行S507。
需要说明的是,预设字符含义的获取方式如上述图4示出的S403所示,这里不再赘述。在本申请实施例中,基于预设的超链接的含义与预设字符含义的对应关系,判断超链接的含义与预设字符的含义是否匹配,例如,字符含义为“参见表格1-1”,对应的超链接的含义理应指示表格的内容,而不是指示图像等。
S507:发出超链接错误的提示。
其中,提示中至少包括预设字符的内容(例如表格1-1)、预设字符在PDF文档中的具体位置(例如第1页第2行)、以及预设的提示信息(例如“超链接错误”)。此外,发出提示的具体方式包括但不限于是:在PDF文档中,对缺失超链接的预设字符增加批注,例如,针对预设字符“表格1-1”增加批注“表格1-1额超链接错误”等。
S508:发出预设字符缺失超链接的提示。
其中,提示中至少包括预设字符的内容(例如表格1-1)、预设字符在PDF文档中的具体位置(例如第1页第2行)、以及预设的提示信息(例如“缺失超链接”)。当然,发出提示的具体方式包括但不限于是:在PDF文档中,对缺失超链接的预设字符增加批注,例如,针对预设字符“表格1-1”增加批注“表格1-1缺失超链接”等。
S509:依据预设的目录的特征,识别PDF文档中的目录。
其中,S509的具体执行过程和实现原理与上述图1示出的S103的具体执行过程和实现原理一致,这里不再赘述。
在本申请实施例中,依据预设的第一类对象的特征,识别PDF文档中的第一类对象。识别PDF文档中预先规定具有超链接的字符,依据PDF文档的超链接属性信息,核查预设字符是否存在对应的超链接。在预设字符不存在对应的超链接的情况下,发出预设字符缺失超链接的提示。在预设字符存在对应的超链接的情况下,提取超链接的内容,将超链接的内容输入第三模型,得到第三模型依据超链接的内容确定的上述超链接的含义。并在超链接的含义与预设字符的含义不匹配的情况下,发出超链接错误的提示。依据预设的目录的特征,识别PDF文档中的目录。可见,本申请不仅能够识别出PDF文档中具备超链接的字符,还能在文档中预先规定具有超链接的字符缺失超链接或者超链接错误的情况下,针对上述缺失超链接的字符、以及超链接错误的字符发出提示,从而减少后续人工检查的工作量。
可选的,针对目录中个别错误的目录项(例如该目录项对应的页码与实际页码不符),本申请实施例还对应提供了另一种PDF文档的处理方法,如图6所示,包括如下步骤:
S601:依据预设的第一类对象的特征,识别PDF文档中的第一类对象。
其中,S601的具体执行过程和实现原理与上述图1示出的S101的具体执行过程和实现原理一致,这里不再赘述。
S602:识别PDF文档中的第二类对象。
其中,S602的具体执行过程和实现原理与上述图1示出的S102的具体执行过程和实现原理一致,这里不再赘述。
S603:依据预设的目录的特征,识别PDF文档中的目录。
其中,S603的具体执行过程和实现原理与上述图1示出的S103的具体执行过程和实现原理一致,这里不再赘述。
S604:使用OCR识别PDF文档,得到文档。
其中,使用OCR算法识别PDF文档,得到文档的具体过程,为本领域技术人员所熟悉的公知常识,这里不再赘述。
S605:将文档输入第四模型,得到第四模型输入的目录中的目录项对应的内容的起始位置,依据起始位置,计算目录项对应的内容所占的页数。
其中,第四模型使用样本文档训练得到。并且,在本申请实施例中,采用光学字符识别(Optical Character Recognition,OCR)算法、以及机器学习算法,构建第四模型。当然,第四模型的训练过程为本领域技术人员所熟悉的公知常识,这里不再赘述。
需要说明的是,目录项用于指示PDF文档中内容与页码的对应关系。目录项对应的内容,在PDF文档中首次出现的位置,为该内容的起始位置。基于该内容的篇幅长度,从首次出现,直至结束,可以确定该内容在PDF文档所占的页数。
S606:依据起始位置和页数,确定目录项对应的内容的实际页码。
其中,实际页码指的是:目录项对应的内容在PDF文档中真实所处的页码。
S607:目录项在目录中对应的页码与实际页码不符的情况下,发出页码错误提示,和/或,将目录项在目录中对应的页码替换为实际页码。
其中,提示中至少包括错误页码的、以及错误页码对应的目录项。当然,发出提示的具体方式包括但不限于是:在PDF文档中,对页码错误的目录项增加批注。
在本申请实施例中,依据预设的第一类对象的特征,识别PDF文档中的第一类对象。识别PDF文档中的第二类对象,并依据预设的目录的特征,识别PDF文档中的目录。使用OCR识别PDF文档,得到文档。将文档输入第四模型,得到第四模型输入的目录中的目录项对应的内容的起始位置,依据起始位置,计算目录项对应的内容所占的页数。依据起始位置和页数,确定目录项对应的内容的实际页码。目录项在目录中对应的页码与实际页码不符的情况下,发出页码错误提示,和/或,将目录项在目录中对应的页码替换为实际页码。可见,本申请不仅能够识别出PDF文档中目录项的实际页码,还能在目录项在目录中对应页码与实际页码不符的情况下,针对错误页码的目录项发出提示,并且可以将错误页码调整为正确的实际页码,从而减少后续人工检查的工作量。
与上述本申请实施例提供的PDF文档的处理方法相对应,本申请实施例还提供了一种PDF文档的处理装置,如图7所示,包括:
第一识别单元100,用于依据预设的第一类对象的特征,识别PDF文档中的第一类对象,第一类对象包括各级标题、页眉和页脚中的至少一项,特征包括内容和格式。
其中,第一识别单元100依据预设的第一类对象的特征,识别PDF文档中的第一类对象的具体实现过程包括:使用第一模型,得到各级标题的识别结果,第一模型使用各级标题的预设的关键字以及格式训练得到。使用第二模型,得到页眉和页脚的识别结果,第二模型使用页眉和页脚的预设格式训练得到。
第二识别单元200,用于识别PDF文档中的第二类对象,第二类对象为预先规定具有超链接的字符。
其中,第二识别单元200识别PDF文档中的第二类对象,第二类对象为预先规定具有超链接的字符的具体实现过程包括:使用OCR识别PDF文档,得到文档。使用自然语言理解算法,基于语义识别文档中的预设字符。将文档输入第三模型,得到第三模型依据字符的上下文信息确定的字符的含义。依据预设字符的含义,确定预设字符为预先规定具有超链接的字符。
第三识别单元300,用于依据预设的目录的特征,识别PDF文档中的目录,目录的特征包括目录的关键字和格式。
标题调整单元400,用于在所述各级标题的字体格式不满足预设条件的情况下,调整所述字体格式,以满足所述预设条件。
页眉页脚调整单元500,用于在所述页眉和/或页脚中的页码错误的情况下,调整所述页码。
超链接提示单元600,用于依据PDF文档的超链接属性信息,核查预设字符是否存在对应的超链接。在预设字符不存在对应的超链接的情况下,发出预设字符缺失超链接的提示。
其中,超链接提示单元600,还用于在预设字符存在对应的超链接的情况下,提取超链接的内容。将超链接的内容输入第三模型,得到第三模型依据超链接的内容确定的上述超链接的含义。在超链接的含义与预设字符的含义不匹配的情况下,发出超链接错误的提示。
目录调整单元700,用于使用OCR识别PDF文档,得到文档。将文档输入第四模型,得到第四模型输入的目录中的目录项对应的内容的起始位置,依据起始位置,计算目录项对应的内容所占的页数。依据起始位置和页数,确定目录项对应的内容的实际页码。目录项在目录中对应的页码与实际页码不符的情况下,发出页码错误提示,和/或,将目录项在目录中对应的页码替换为实际页码。
在本申请实施例中,依据预设的第一类对象的特征,识别PDF文档中的第一类对象,第一类对象包括各级标题、页眉和页脚中的至少一项,特征包括内容和格式。识别PDF文档中的第二类对象,第二类对象为预先规定具有超链接的字符。依据预设的目录的特征,识别PDF文档中的目录,目录的特征包括目录的关键字和格式。可见,相较于人工检查PDF文档的方式,本申请能够自动识别PDF文档中的各级标题、页眉、页脚、具有超链接的字符、以及目录等待检内容,并针对待检内容中错误的待检项进行自动标识,从而辅助人工进行核查,由此显著提高PDF文档的处理效率,减少人力成本。
本申请实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述的PDF文档的处理方法。
本申请实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述的PDF文档的处理方法。
本申请实施例方法所述的功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算设备可读取存储介质中。基于这样的理解,本申请实施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一台计算设备(可以是个人计算机,服务器,移动计算设备或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (9)

1.一种PDF文档的处理方法,其特征在于,包括:
依据预设的第一类对象的特征,识别PDF文档中的第一类对象,所述第一类对象包括各级标题、页眉和页脚中的至少一项,所述特征包括内容和格式;
识别所述PDF文档中的第二类对象,所述第二类对象为预先规定具有超链接的字符;
依据预设的目录的特征,识别所述PDF文档中的目录,所述目录的特征包括目录的关键字和格式;
其中,所述识别所述PDF文档中的第二类对象,包括:
使用OCR识别所述PDF文档,得到文档;
使用自然语言理解算法,基于语义识别所述文档中的预设字符;
将所述文档输入第三模型,得到所述第三模型依据所述字符的上下文信息确定的所述字符的含义;
依据所述预设字符的含义,确定所述预设字符为所述预先规定具有超链接的字符。
2.根据权利要求1所述的方法,其特征在于,所述依据预设的第一类对象的特征,识别PDF文档中的第一类对象,所述第一类对象包括各级标题、页眉和页脚中的至少一项,所述特征包括内容和格式,包括:
使用第一模型,得到所述各级标题的识别结果,所述第一模型使用所述各级标题的预设的关键字以及格式训练得到;
使用第二模型,得到所述页眉和页脚的识别结果,所述第二模型使用所述页眉和页脚的预设格式训练得到。
3.根据权利要求2所述的方法,其特征在于,在识别所述PDF文档中的所述各级标题之后,还包括:
在所述各级标题的字体格式不满足预设条件的情况下,调整所述字体格式,以满足所述预设条件。
4.根据权利要求1所述的方法,其特征在于,在所述确定所述字符为所述预先规定具有超链接的字符之后,还包括:
依据所述PDF文档的超链接属性信息,核查所述预设字符是否存在对应的超链接;
在所述预设字符不存在对应的超链接的情况下,发出所述预设字符缺失超链接的提示。
5.根据权利要求4所述的方法,其特征在于,在所述确定所述字符为所述预先规定具有超链接的字符之后,还包括:
在所述预设字符存在对应的超链接的情况下,提取所述超链接的内容;
将所述超链接的内容输入所述第三模型,得到所述第三模型依据所述超链接的内容确定的上述超链接的含义;
在所述超链接的含义与所述预设字符的含义不匹配的情况下,发出超链接错误的提示。
6.根据权利要求1所述的方法,其特征在于,在所述识别所述PDF文档中的目录之后,还包括:
使用OCR识别所述PDF文档,得到文档;
将所述文档输入第四模型,得到所述第四模型输入的所述目录中的目录项对应的内容的起始位置,依据所述起始位置,计算所述目录项对应的内容所占的页数;
依据所述起始位置和所述页数,确定所述目录项对应的内容的实际页码;
所述目录项在所述目录中对应的页码与所述实际页码不符的情况下,发出页码错误提示,和/或,将所述目录项在所述目录中对应的页码替换为所述实际页码。
7.一种PDF文档的处理装置,其特征在于,包括:
第一识别单元,用于依据预设的第一类对象的特征,识别PDF文档中的第一类对象,所述第一类对象包括各级标题、页眉和页脚中的至少一项,所述特征包括内容和格式;
第二识别单元,用于识别所述PDF文档中的第二类对象,所述第二类对象为预先规定具有超链接的字符;
第三识别单元,用于依据预设的目录的特征,识别所述PDF文档中的目录,所述目录的特征包括目录的关键字和格式;
其中,所述第二识别单元,具体用于使用OCR识别所述PDF文档,得到文档;使用自然语言理解算法,基于语义识别所述文档中的预设字符;将所述文档输入第三模型,得到所述第三模型依据所述字符的上下文信息确定的所述字符的含义;依据所述预设字符的含义,确定所述预设字符为所述预先规定具有超链接的字符。
8.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序执行权利要求1~6任意一项权利要求所述的PDF文档的处理方法。
9.一种用于PDF文档的处理设备,其特征在于,包括:处理器、存储器和总线;所述处理器与所述存储器通过所述总线连接;
所述存储器用于存储程序,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1~6任意一项权利要求所述的PDF文档的处理方法。
CN201911051820.2A 2019-10-31 2019-10-31 一种pdf文档的处理方法及装置 Active CN110837788B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911051820.2A CN110837788B (zh) 2019-10-31 2019-10-31 一种pdf文档的处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911051820.2A CN110837788B (zh) 2019-10-31 2019-10-31 一种pdf文档的处理方法及装置

Publications (2)

Publication Number Publication Date
CN110837788A CN110837788A (zh) 2020-02-25
CN110837788B true CN110837788B (zh) 2022-10-28

Family

ID=69575881

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911051820.2A Active CN110837788B (zh) 2019-10-31 2019-10-31 一种pdf文档的处理方法及装置

Country Status (1)

Country Link
CN (1) CN110837788B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111914522A (zh) * 2020-06-20 2020-11-10 北京海金格医药科技股份有限公司 无效超链接修复方法、装置、电子设备和可读存储介质
CN111914531A (zh) * 2020-06-20 2020-11-10 北京海金格医药科技股份有限公司 超链接状态确定方法、装置、电子设备和可读存储介质
CN113408248A (zh) * 2021-06-08 2021-09-17 南京冰鉴信息科技有限公司 一种pdf目录生成方法、装置、计算机设备及可读存储介质
CN113468864A (zh) * 2021-06-09 2021-10-01 广西电网有限责任公司 一种长文档的快速比对方法、装置和存储介质
CN114821612B (zh) * 2022-05-30 2023-04-07 浙商期货有限公司 一种证券期货场景下pdf文档的信息抽取方法和系统
CN115410191B (zh) * 2022-11-03 2023-02-03 平安银行股份有限公司 文本图像识别方法、装置、设备和存储介质
CN116702747A (zh) * 2023-05-30 2023-09-05 珠海盈米基金销售有限公司 Pdf在线阅读器设计方法、装置、计算机设备及介质
CN116912867B (zh) * 2023-09-13 2023-12-29 之江实验室 结合自动标注和召回补全的教材结构提取方法和装置
CN117493712B (zh) * 2023-12-29 2024-06-21 浙江华东工程数字技术有限公司 Pdf文档可导航目录提取方法、装置、电子设备及存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102331982A (zh) * 2011-07-28 2012-01-25 深圳市万兴软件有限公司 自适应窗体大小的pdf文档显示方法、系统及移动终端
CN103778141A (zh) * 2012-10-23 2014-05-07 南开大学 一种混合pdf图书目录自动抽取算法
WO2014146483A1 (zh) * 2013-03-19 2014-09-25 福建福昕软件开发股份有限公司北京分公司 一种pdf文档识别方法
CN105988568A (zh) * 2015-02-12 2016-10-05 北京三星通信技术研究有限公司 获取笔记信息的方法和装置
US10049270B1 (en) * 2017-09-07 2018-08-14 International Business Machines Corporation Using visual features to identify document sections
CN108614898A (zh) * 2018-05-10 2018-10-02 爱因互动科技发展(北京)有限公司 文档解析方法与装置
CN108763173A (zh) * 2018-05-23 2018-11-06 广东电网有限责任公司 文件格式的核稿方法及装置
CN109800303A (zh) * 2018-12-28 2019-05-24 深圳市世强元件网络有限公司 一种文档信息提取方法、存储介质及终端
CN110097342A (zh) * 2019-05-07 2019-08-06 北京深度制耀科技有限公司 一种文档协作处理的方法和装置
CN110287784A (zh) * 2019-05-20 2019-09-27 暨南大学 一种年报文本结构识别方法
EP3563257A4 (en) * 2016-12-29 2020-08-19 Factset Research Systems Inc. IDENTIFICATION OF A STRUCTURE PRESENTED IN A PORTABLE DOCUMENT FORMAT (PDF)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8918432B2 (en) * 2004-07-19 2014-12-23 Cerner Innovation, Inc. System and method for management of drug labeling information
US9195661B2 (en) * 2007-06-07 2015-11-24 Thomson Reuters Global Resources Method and system for click-thru capability in electronic media
US8861856B2 (en) * 2007-09-28 2014-10-14 Abbyy Development Llc Model-based methods of document logical structure recognition in OCR systems
US9984287B2 (en) * 2015-03-05 2018-05-29 Wipro Limited Method and image processing apparatus for performing optical character recognition (OCR) of an article

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102331982A (zh) * 2011-07-28 2012-01-25 深圳市万兴软件有限公司 自适应窗体大小的pdf文档显示方法、系统及移动终端
CN103778141A (zh) * 2012-10-23 2014-05-07 南开大学 一种混合pdf图书目录自动抽取算法
WO2014146483A1 (zh) * 2013-03-19 2014-09-25 福建福昕软件开发股份有限公司北京分公司 一种pdf文档识别方法
CN105988568A (zh) * 2015-02-12 2016-10-05 北京三星通信技术研究有限公司 获取笔记信息的方法和装置
EP3563257A4 (en) * 2016-12-29 2020-08-19 Factset Research Systems Inc. IDENTIFICATION OF A STRUCTURE PRESENTED IN A PORTABLE DOCUMENT FORMAT (PDF)
US10049270B1 (en) * 2017-09-07 2018-08-14 International Business Machines Corporation Using visual features to identify document sections
CN108614898A (zh) * 2018-05-10 2018-10-02 爱因互动科技发展(北京)有限公司 文档解析方法与装置
CN108763173A (zh) * 2018-05-23 2018-11-06 广东电网有限责任公司 文件格式的核稿方法及装置
CN109800303A (zh) * 2018-12-28 2019-05-24 深圳市世强元件网络有限公司 一种文档信息提取方法、存储介质及终端
CN110097342A (zh) * 2019-05-07 2019-08-06 北京深度制耀科技有限公司 一种文档协作处理的方法和装置
CN110287784A (zh) * 2019-05-20 2019-09-27 暨南大学 一种年报文本结构识别方法

Also Published As

Publication number Publication date
CN110837788A (zh) 2020-02-25

Similar Documents

Publication Publication Date Title
CN110837788B (zh) 一种pdf文档的处理方法及装置
JP5144940B2 (ja) 目次抽出におけるロバスト性向上
Drobac et al. Optical character recognition with neural networks and post-correction with finite state methods
JP4301515B2 (ja) 文章表示方法、情報処理装置、情報処理システム、プログラム
US7756871B2 (en) Article extraction
CN106462604B (zh) 识别查询意图
US9384389B1 (en) Detecting errors in recognized text
US8023740B2 (en) Systems and methods for notes detection
US11914968B2 (en) Official document processing method, device, computer equipment and storage medium
US20160155058A1 (en) Non-factoid question-answering system and method
Packer et al. Extracting person names from diverse and noisy OCR text
JPS62229368A (ja) 文書処理装置
US11537795B2 (en) Document processing device, document processing method, and document processing program
US9015161B2 (en) Mismatch detection system, method, and program
US20100198770A1 (en) Identifying previously annotated web page information
US11361565B2 (en) Natural language processing (NLP) pipeline for automated attribute extraction
CN110688842B (zh) 一种文档标题层级的分析方法、装置及服务器
Cappelatti et al. Post-correction of OCR errors using PyEnchant spelling suggestions selected through a modified Needleman–Wunsch algorithm
CN114220113A (zh) 一种论文质量检测方法、装置和设备
CN114743012A (zh) 一种文本识别方法及装置
CN113627173A (zh) 一种制造商名称识别方法、装置、电子设备及可读介质
Moritz et al. Ambiguity in Semantically Related Word Substitutions: an investigation in historical Bible translations
WO2015194140A1 (ja) 文書データ処理装置、文書データ処理方法、及び記録媒体
US11461407B1 (en) System, method, and computer program product for tokenizing document citations
US20240176954A1 (en) Information complementing apparatus, information complementing method, and computer readable recording medium

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant