CN110837788B

CN110837788B - 一种pdf文档的处理方法及装置

Info

Publication number: CN110837788B
Application number: CN201911051820.2A
Authority: CN
Inventors: 吕凯
Original assignee: Beijing Deep Intelligent Pharma Technology Co ltd
Current assignee: Beijing Deep Intelligent Pharma Technology Co ltd
Priority date: 2019-10-31
Filing date: 2019-10-31
Publication date: 2022-10-28
Anticipated expiration: 2039-10-31
Also published as: CN110837788A

Abstract

本申请公开了一种PDF文档的处理方法及装置，依据预设的第一类对象的特征，识别PDF文档中的第一类对象，第一类对象包括各级标题、页眉和页脚中的至少一项，特征包括内容和格式。识别PDF文档中的第二类对象，第二类对象为预先规定具有超链接的字符。依据预设的目录的特征，识别PDF文档中的目录，目录的特征包括目录的关键字和格式。可见，相较于人工检查PDF文档的方式，本申请能够自动识别PDF文档中的各级标题、页眉、页脚、具有超链接的字符、以及目录等待检内容，并针对待检内容中错误的待检项进行自动标识，从而辅助人工进行核查，由此显著提高PDF文档的处理效率，减少人力成本。

Description

一种PDF文档的处理方法及装置

技术领域

本申请涉及信息自动化技术领域，尤其涉及一种PDF文档的处理方法及装置。

背景技术

在医药研发以及上市后产品监管过程中，药企需向监管部门递交药品电子通用技术文件，药品电子通用技术文件为PDF文档。由于药品电子通用技术文件必须依照监管部门制定的界面和特定格式进行撰写，因此，需要对电子通用技术文件撰写完毕后的PDF文档进行检查。

目前，大多数是采用人工检查的方式，对药品电子通用技术文件的PDF文档进行检查。然而，所需检查的PDF文档数量庞大，依靠人工检查全部的PDF文档需花费较大的人力和时间，效率尤为低下，并且在检查修正文档的过程中，人工检查的方式极为容易遗漏文档中的错误。

发明内容

本申请提供了一种PDF文档的处理方法及装置，目的在于解决人工检查修正PDF文档效率低下的问题。

为了实现上述目的，本申请提供了以下技术方案：

一种PDF文档的处理方法，包括：

依据预设的第一类对象的特征，识别PDF文档中的第一类对象，所述第一类对象包括各级标题、页眉和页脚中的至少一项，所述特征包括内容和格式；

识别所述PDF文档中的第二类对象，所述第二类对象为预先规定具有超链接的字符；

依据预设的目录的特征，识别所述PDF文档中的目录，所述目录的特征包括目录的关键字和格式。

可选的，所述依据预设的第一类对象的特征，识别PDF文档中的第一类对象，所述第一类对象包括各级标题、页眉和页脚中的至少一项，所述特征包括内容和格式，包括：

使用第一模型，得到所述各级标题的识别结果，所述第一模型使用所述各级标题的预设的关键字以及格式训练得到；

使用第二模型，得到所述页眉和页脚的识别结果，所述第二模型使用所述页眉和页脚的预设格式训练得到。

可选的，在识别所述PDF文档中的所述各级标题之后，还包括：

在所述各级标题的字体格式不满足预设条件的情况下，调整所述字体格式，以满足所述预设条件。

可选的，所述识别所述PDF文档中的第二类对象，包括：

使用OCR识别所述PDF文档，得到文档；

使用自然语言理解算法，基于语义识别所述文档中的预设字符；

将所述文档输入第三模型，得到所述第三模型依据所述字符的上下文信息确定的所述字符的含义；

依据所述预设字符的含义，确定所述预设字符为所述预先规定具有超链接的字符。

可选的，在所述确定所述字符为所述预先规定具有超链接的字符之后，还包括：

依据所述PDF文档的超链接属性信息，核查所述预设字符是否存在对应的超链接；

在所述预设字符不存在对应的超链接的情况下，发出所述预设字符缺失超链接的提示。

在所述预设字符存在对应的超链接的情况下，提取所述超链接的内容；

将所述超链接的内容输入所述第三模型，得到所述第三模型依据所述超链接的内容确定的上述超链接的含义；

在所述超链接的含义与所述预设字符的含义不匹配的情况下，发出超链接错误的提示。

可选的，在所述识别所述PDF文档中的目录之后，还包括：

使用OCR识别所述PDF文档，得到文档；

将所述文档输入第四模型，得到所述第四模型输入的所述目录中的目录项对应的内容的起始位置，依据所述起始位置，计算所述目录项对应的内容所占的页数；

依据所述起始位置和所述页数，确定所述目录项对应的内容的实际页码；

所述目录项在所述目录中对应的页码与所述实际页码不符的情况下，发出页码错误提示，和/或，将所述目录项在所述目录中对应的页码替换为所述实际页码。

一种PDF文档的处理装置，包括：

第一识别单元，用于依据预设的第一类对象的特征，识别PDF文档中的第一类对象，所述第一类对象包括各级标题、页眉和页脚中的至少一项，所述特征包括内容和格式；

第二识别单元，用于识别所述PDF文档中的第二类对象，所述第二类对象为预先规定具有超链接的字符；

第三识别单元，用于依据预设的目录的特征，识别所述PDF文档中的目录，所述目录的特征包括目录的关键字和格式。

一种存储介质，所述存储介质包括存储的程序，其中，所述程序执行所述的PDF文档的处理方法

一种设备，包括：处理器、存储器和总线；所述处理器与所述存储器通过所述总线连接；

所述存储器用于存储程序，所述处理器用于运行程序，其中，所述程序运行时执行所述的PDF文档的处理方法。

本申请提供的PDF文档的处理方法及装置、存储介质、设备，依据预设的第一类对象的特征，识别PDF文档中的第一类对象，第一类对象包括各级标题、页眉和页脚中的至少一项，特征包括内容和格式。识别PDF文档中的第二类对象，第二类对象为预先规定具有超链接的字符。依据预设的目录的特征，识别PDF文档中的目录，目录的特征包括目录的关键字和格式。可见，相较于人工检查PDF文档的方式，本申请能够自动识别PDF文档中的各级标题、页眉、页脚、具有超链接的字符、以及目录等待检内容，并针对待检内容中错误的待检项进行自动标识，从而辅助人工进行核查，由此显著提高PDF文档的处理效率，减少人力成本。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种PDF文档的处理方法的示意图；

图2为本申请实施例提供的一种识别PDF文档中的第一类对象的具体实现方式的示意图；

图3为本申请实施例提供的另一种PDF文档的处理方法的示意图；

图4为本申请实施例提供的一种识别PDF文档中的第二类对象的具体实现方式的示意图；

图5为本申请实施例提供的另一种PDF文档的处理方法的示意图；

图6为本申请实施例提供的另一种PDF文档的处理方法的示意图；

图7为本申请实施例提供的一种PDF文档的处理装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

由背景技术可知，现有技术中，采用人工检查修正的方式，对药品电子通用技术文件的PDF文档进行检查。人工检查PDF文档，时间长，效率低，并且极为容易遗漏文档中的错误。有鉴于此，本申请实施例提供了一种PDF文档的处理方法，用于提高PDF文档的处理效率。

如图1所示，为本申请实施例提供的一种PDF文档的处理方法的示意图，包括如下步骤：

S101：依据预设的第一类对象的特征，识别PDF文档中的第一类对象。

其中，第一类对象包括各级标题、页眉和页脚中的至少一项，特征包括内容和格式。第一类对象相较于PDF文档中的其他对象，在内容与格式上都有所区别。PDF文档中的各级标题的内容会包含数量字(例如1、2、一、十一等)、特定文字(例如章、节等)。此外，各级标题的在格式上，内容基本为文字，并且文字单独为一行，文字结尾不存在标点符号，例如，标题“第一章”、以及标题“第二节”等。

需要说明的是，在识别出第一类对象后，对第一类对象进行标识，从而辅助人工进行核查。当然，标识的方式包括但不限于是采用黄颜色字体突出显示第一类对象的内容等方式。

此外，页眉和页脚各自内容为数字，且可能存在字符和特殊符号，例如“MM1112”等。针对页眉和页脚的格式，通过区分PDF文档中的左对齐字符、或中对齐字符、或右对齐字符的空白间距的具体大小，由此可以判断该字符内容是否为页眉或者页脚。

需要说明的是，依据预设的第一类对象的特征，识别PDF文档中的第一类对象这一过程，具体的实现方式，可参见下述图2和图3，以及图2和图3示出的解释说明。

S102：识别PDF文档中的第二类对象。

其中，第二类对象为预先规定具有超链接的字符。具有超链接的字符具体指的是：针对PDF文档，点击该字符，可以跳转至其它对象，“表1”的超链接连接到例如表格1等，又例如网址http://www.hahah.cn具有连接到网址的超链接等。

需要说明的是，识别PDF文档中的第二类对象这一过程，具体的实现方式，可参见下述图4和图5，以及图4和图5示出的解释说明。

S103：依据预设的目录的特征，识别PDF文档中的目录。

其中，目录的特征包括目录的关键字和格式。在PDF文档中，目录的关键字中至少包括预设文字(例如“页”、“章”等)和数字(例如“12”、“一”)，目录的格式通常为文字排在数字前面，文字和数字中间可以存在特殊符号(例如“第一章‥‥13”等)。

需要说明的是，在识别PDF文档中的目录后，针对目录中出现的错误目录项，自动进行标识，从而辅助人工核查目录。当然，标识的方式包括但不限于是采用黄颜色字体突出显示目录的内容等方式。

在本申请实施例中，依据预设的第一类对象的特征，识别PDF文档中的第一类对象，第一类对象包括各级标题、页眉和页脚中的至少一项，特征包括内容和格式。识别PDF文档中的第二类对象，第二类对象为预先规定具有超链接的字符。依据预设的目录的特征，识别PDF文档中的目录，目录的特征包括目录的关键字和格式。可见，相较于人工检查PDF文档的方式，本申请能够自动识别PDF文档中的各级标题、页眉、页脚、具有超链接的字符、以及目录等待检内容，并针对待检内容中错误的待检项进行自动标识，从而辅助人工进行核查，由此显著提高PDF文档的处理效率，减少人力成本。

可选的，如图2所示，为本申请实施例提供的一种识别PDF文档中的第一类对象的具体实现方式的示意图，包括如下步骤：

S201：使用第一模型，得到各级标题的识别结果。

其中，第一模型使用各级标题的预设的关键字以及格式训练得到，第一模型的训练过程为本领域技术人员所熟悉的公知常识，这里不再赘述。各级标题由于相互之间存在阶级差别，因此各级标题中存在明显不同的关键字，例如，一级标题的级别大于二级标题，且二级标题为一级标题下的分支内容，一级标题通常为“第一章”，二级标题为“第一节”等。

此外，各级标题的在格式上，内容基本为文字，并且文字单独为一行，文字结尾不存在标点符号。然而各级标题相互之间在字体上确会有所区别，例如，一级标题的字体为五号字体并加粗，二级标题的字体为四号字体不加粗等。

由此可见，能够依据各级标题中特定的关键字和格式区分各级标题。在本申请实施例中，采用光学字符识别(OpticalCharacterRecognition，OCR)算法、以及机器学习算法，构建第一模型。将PDF文档输入第一模型中，第一模型对PDF文档中的文字、标点符号和字体进行识别，从而得到各级标题的识别结果。

S202：使用第二模型，得到页眉和页脚的识别结果。

其中，第二模型使用页眉和页脚的预设格式训练得到，第二模型的训练过程为本领域技术人员所熟悉的公知常识，这里不再赘述。页眉和页脚的预设格式指的是：PDF文档中，左对齐字符、或中对齐字符、或右对齐字符的空白间距的具体大小，空白间距的具体大小可由技术人员根据实际情况进行设置。

需要说明的是，在本申请实施例中，采用光学字符识别(Optical CharacterRecognition，OCR)算法、以及机器学习算法，构建第二模型。将PDF文档输入第二模型中，第二模型对PDF文档中的左对齐字符、或中对齐字符、或右对齐字符的空白间距进行识别，从而得到页眉和页脚的识别结果。

在本申请实施例中，通过使用第一模型，得到各级标题的识别结果。通过使用第二模型，得到页眉和页脚的识别结果。可见，由于采用算法模型自动识别PDF文档中的各级标题、页眉和页脚，识别结果相较于人工检查，具有更高的准确性和效率。

需要说明的是，针对第一模型输出得到的各级标题的识别结果，若识别结果中出现错误标题(例如标题的字体格式不符合条件)，则会自动调整该错误标题。

针对第二模型输出得到的页眉和页脚的识别结果，若识别结果中出现错误的页眉和/或页脚(例如页眉和/或页脚中的页码出现乱码)，则会自动调整该错误的页眉和/或页脚。

可选的，如图3所示，为本申请实施例提供的另一种PDF文档的处理方法的示意图，包括如下步骤：

S301：依据各级标题、页眉和页脚各自对应的特征，识别PDF文档中的各级标题、页眉和页脚。

其中，S301的具体执行过程和实现原理与上述图1示出的S101的具体执行过程和实现原理一致，这里不再赘述。

S302：在各级标题的字体格式不满足预设条件的情况下，调整字体格式，以满足预设条件。

其中，在得到各级标题的识别结果后，判断各级标题的字体格式是否满足预设条件。针对各级标题中不满足预设条件的部分标题，调整所述部分标题的字体格式。在本申请实施例中，预设条件包括但不限于是：一级标题的字体为四号字体，二级标题的字体为五号字体，三级标题的字体为六号字体。当然，具体的条件可由技术人员根据实际情况进行设置，本申请实施例不做限定。

具体的，假设二级标题的字体理应为四号字体，然而在第一模型输出各级标题的识别结果中，标识了一个错误的二级标题，该错误的二级标题的字体为五号字体，则将该错误的二级标题的字体调整为四号字体。

需要说明的是，上述具体实现过程仅仅用于举例说明。

S303：在页眉和/或页脚中的页码错误的情况下，调整页码。

其中，页码错误包括但不限是：页码中的字符无法显示，或部分数字缺失等。由于PDF文档中页眉和页脚为统一格式，故可依据文档中正确格式的页眉和页脚中的页码，对错误的页码进行调整。

S304：识别所述PDF文档中的第二类对象。

其中，S304的具体执行过程和实现原理与上述图1示出的S102的具体执行过程和实现原理一致，这里不再赘述。

S305：依据预设的目录的特征，识别所述PDF文档中的目录。

其中，S305的具体执行过程和实现原理与上述图1示出的S103的具体执行过程和实现原理一致，这里不再赘述。

在本申请实施例中，依据各级标题、页眉和页脚各自对应的特征，识别PDF文档中的各级标题、页眉和页脚。并在各级标题的字体格式不满足预设条件的情况下，调整字体格式，以满足预设条件。在页眉和/或页码中的页码错误的情况下，调整页码。识别所述PDF文档中的第二类对象，第二类对象为预先规定具有超链接的字符。依据预设的目录的特征，识别PDF文档中的目录，目录的特征包括目录的关键字和格式。可见，不仅识别出PDF文档中错误的标题、页眉和页脚，并且能够对错误标题、页眉和页脚进行修正，有效减轻后续人工核查的工作量。

可选的，如图4所示，为本申请实施例提供的一种识别PDF文档中的第二类对象的具体实现方式的示意图，包括如下步骤：

S401：使用OCR识别PDF文档，得到文档。

其中，使用OCR算法识别PDF文档这一过程，为本领域技术人员所熟悉的公知常识，这里不再赘述。

S402：使用自然语言理解算法，基于语义识别文档中的预设字符。

其中，可以使用自然语言理解算法或者现有的其他语义识别算法，对文档中的字符进行语义识别，当然，对字符进行语义识别的过程为本领域技术人员所熟悉的公知常识，这里不再赘述。

S403：将文档输入第三模型，得到第三模型依据字符的上下文信息确定的字符的含义。

其中，第三模型使用样本字符和样本含义训练得到。并且，在本申请实施例中，采用光学字符识别(Optical Character Recognition，OCR)算法、以及机器学习算法，构建第三模型。当然，第三模型的训练过程为本领域技术人员所熟悉的公知常识，这里不再赘述。

需要说明的是，依据字符的上下文信息确定字符的含义具体指的是：由于字符存在多种不同的含义，故同构该字符的上下文信息整体的含义，确定该字符当前在文中具体所表达的是哪一种含义，例如，“seeTable”的含义包括“看桌子”和“参见表格”，通过参照“seeTable”的上下文信息的含义，确定“seeTable”当前表达的含义为“参见表格”。

S404：依据预设字符的含义，确定预设字符为预先规定具有超链接的字符。

其中，PDF文档中部分字符会具有超链接，若字符的含义中具有跳转至某一界面或字符的含义(例如“请参见表格”、“请跳转http://www.aaadad.cn”)，则确定该字符为具有超链接的字符。

在本申请实施例中，通过使用OCR识别PDF文档，得到文档。使用自然语言理解算法，基于语义识别文档中的预设字符。将文档输入第三模型，得到第三模型依据字符的上下文信息确定的字符的含义。依据预设字符的含义，确定预设字符为预先规定具有超链接的字符。可见，由于采用算法模型自动识别PDF文档中具备超链接的字符，识别结果相较于人工检查，具有更高的准确性和效率。

需要说明的是，针对第三模型输出得到的预设字符的含义，识别结果中预先规定具备超链接的字符，可能会缺失相应的超链接。因此，需对这些缺失超链接的字符进行标识。

可选的，如图5所示，为本申请实施例提供的另一种PDF文档的处理方法的示意图，包括如下步骤：

S501：依据预设的第一类对象的特征，识别PDF文档中的第一类对象。

其中，S501的具体执行过程和实现原理与上述图1示出的S101的具体执行过程和实现原理一致，这里不再赘述。

S502：识别PDF文档中预先规定具有超链接的字符。

其中，S502的具体执行过程和实现原理与上述图1示出的S102的具体执行过程和实现原理一致，这里不再赘述。

S503：依据PDF文档的超链接属性信息，核查预设字符是否存在对应的超链接。

其中，若核查预设字符存在对应的超链接，则执行S504，否则执行S508。

需要说明的是，超链接属性信息指的是：PDF文档中预先具备超链接的字符，可通过点击具备超链接的预设字符，跳转至预设的界面，并获得预设的内容，若点击预设字符后，无法跳转或者获得其他内容，则确定预设字符缺失对应的超链接。

S504：提取超链接的内容。

其中，提取超链接的内容，与提取字符的内容的具体实现方式一致，都是本领域技术人员所熟悉的公知常识，这里不再赘述。

需要说明的是，超链接的内容指的是：点击超链接后，所获取的其他界面上的字符，例如，点击“参见表格1-1”，超链接的内容则为“表格1-1”中的字符。

S505：将超链接的内容输入第三模型，得到第三模型依据超链接的内容确定的上述超链接的含义。

其中，将超链接的内容输入第三模型，得到第三模型依据超链接的内容确定的上述超链接的含义这一过程，与上述图4示出的S403中将文档输入第三模型，得到第三模型依据字符的上下文信息确定的字符的含义这一过程一致，都是本领域技术人员所熟悉的公知常识，这里不再赘述。

S506：判断超链接的含义与预设字符的含义是否匹配。

其中，若超链接的含义与预设字符的含义匹配，则执行S509，否则执行S507。

需要说明的是，预设字符含义的获取方式如上述图4示出的S403所示，这里不再赘述。在本申请实施例中，基于预设的超链接的含义与预设字符含义的对应关系，判断超链接的含义与预设字符的含义是否匹配，例如，字符含义为“参见表格1-1”，对应的超链接的含义理应指示表格的内容，而不是指示图像等。

S507：发出超链接错误的提示。

其中，提示中至少包括预设字符的内容(例如表格1-1)、预设字符在PDF文档中的具体位置(例如第1页第2行)、以及预设的提示信息(例如“超链接错误”)。此外，发出提示的具体方式包括但不限于是：在PDF文档中，对缺失超链接的预设字符增加批注，例如，针对预设字符“表格1-1”增加批注“表格1-1额超链接错误”等。

S508：发出预设字符缺失超链接的提示。

其中，提示中至少包括预设字符的内容(例如表格1-1)、预设字符在PDF文档中的具体位置(例如第1页第2行)、以及预设的提示信息(例如“缺失超链接”)。当然，发出提示的具体方式包括但不限于是：在PDF文档中，对缺失超链接的预设字符增加批注，例如，针对预设字符“表格1-1”增加批注“表格1-1缺失超链接”等。

S509：依据预设的目录的特征，识别PDF文档中的目录。

其中，S509的具体执行过程和实现原理与上述图1示出的S103的具体执行过程和实现原理一致，这里不再赘述。

在本申请实施例中，依据预设的第一类对象的特征，识别PDF文档中的第一类对象。识别PDF文档中预先规定具有超链接的字符，依据PDF文档的超链接属性信息，核查预设字符是否存在对应的超链接。在预设字符不存在对应的超链接的情况下，发出预设字符缺失超链接的提示。在预设字符存在对应的超链接的情况下，提取超链接的内容，将超链接的内容输入第三模型，得到第三模型依据超链接的内容确定的上述超链接的含义。并在超链接的含义与预设字符的含义不匹配的情况下，发出超链接错误的提示。依据预设的目录的特征，识别PDF文档中的目录。可见，本申请不仅能够识别出PDF文档中具备超链接的字符，还能在文档中预先规定具有超链接的字符缺失超链接或者超链接错误的情况下，针对上述缺失超链接的字符、以及超链接错误的字符发出提示，从而减少后续人工检查的工作量。

可选的，针对目录中个别错误的目录项(例如该目录项对应的页码与实际页码不符)，本申请实施例还对应提供了另一种PDF文档的处理方法，如图6所示，包括如下步骤：

S601：依据预设的第一类对象的特征，识别PDF文档中的第一类对象。

其中，S601的具体执行过程和实现原理与上述图1示出的S101的具体执行过程和实现原理一致，这里不再赘述。

S602：识别PDF文档中的第二类对象。

其中，S602的具体执行过程和实现原理与上述图1示出的S102的具体执行过程和实现原理一致，这里不再赘述。

S603：依据预设的目录的特征，识别PDF文档中的目录。

其中，S603的具体执行过程和实现原理与上述图1示出的S103的具体执行过程和实现原理一致，这里不再赘述。

S604：使用OCR识别PDF文档，得到文档。

其中，使用OCR算法识别PDF文档，得到文档的具体过程，为本领域技术人员所熟悉的公知常识，这里不再赘述。

S605：将文档输入第四模型，得到第四模型输入的目录中的目录项对应的内容的起始位置，依据起始位置，计算目录项对应的内容所占的页数。

其中，第四模型使用样本文档训练得到。并且，在本申请实施例中，采用光学字符识别(Optical Character Recognition，OCR)算法、以及机器学习算法，构建第四模型。当然，第四模型的训练过程为本领域技术人员所熟悉的公知常识，这里不再赘述。

需要说明的是，目录项用于指示PDF文档中内容与页码的对应关系。目录项对应的内容，在PDF文档中首次出现的位置，为该内容的起始位置。基于该内容的篇幅长度，从首次出现，直至结束，可以确定该内容在PDF文档所占的页数。

S606：依据起始位置和页数，确定目录项对应的内容的实际页码。

其中，实际页码指的是：目录项对应的内容在PDF文档中真实所处的页码。

S607：目录项在目录中对应的页码与实际页码不符的情况下，发出页码错误提示，和/或，将目录项在目录中对应的页码替换为实际页码。

其中，提示中至少包括错误页码的、以及错误页码对应的目录项。当然，发出提示的具体方式包括但不限于是：在PDF文档中，对页码错误的目录项增加批注。

在本申请实施例中，依据预设的第一类对象的特征，识别PDF文档中的第一类对象。识别PDF文档中的第二类对象，并依据预设的目录的特征，识别PDF文档中的目录。使用OCR识别PDF文档，得到文档。将文档输入第四模型，得到第四模型输入的目录中的目录项对应的内容的起始位置，依据起始位置，计算目录项对应的内容所占的页数。依据起始位置和页数，确定目录项对应的内容的实际页码。目录项在目录中对应的页码与实际页码不符的情况下，发出页码错误提示，和/或，将目录项在目录中对应的页码替换为实际页码。可见，本申请不仅能够识别出PDF文档中目录项的实际页码，还能在目录项在目录中对应页码与实际页码不符的情况下，针对错误页码的目录项发出提示，并且可以将错误页码调整为正确的实际页码，从而减少后续人工检查的工作量。

与上述本申请实施例提供的PDF文档的处理方法相对应，本申请实施例还提供了一种PDF文档的处理装置，如图7所示，包括：

第一识别单元100，用于依据预设的第一类对象的特征，识别PDF文档中的第一类对象，第一类对象包括各级标题、页眉和页脚中的至少一项，特征包括内容和格式。

其中，第一识别单元100依据预设的第一类对象的特征，识别PDF文档中的第一类对象的具体实现过程包括：使用第一模型，得到各级标题的识别结果，第一模型使用各级标题的预设的关键字以及格式训练得到。使用第二模型，得到页眉和页脚的识别结果，第二模型使用页眉和页脚的预设格式训练得到。

第二识别单元200，用于识别PDF文档中的第二类对象，第二类对象为预先规定具有超链接的字符。

其中，第二识别单元200识别PDF文档中的第二类对象，第二类对象为预先规定具有超链接的字符的具体实现过程包括：使用OCR识别PDF文档，得到文档。使用自然语言理解算法，基于语义识别文档中的预设字符。将文档输入第三模型，得到第三模型依据字符的上下文信息确定的字符的含义。依据预设字符的含义，确定预设字符为预先规定具有超链接的字符。

第三识别单元300，用于依据预设的目录的特征，识别PDF文档中的目录，目录的特征包括目录的关键字和格式。

标题调整单元400，用于在所述各级标题的字体格式不满足预设条件的情况下，调整所述字体格式，以满足所述预设条件。

页眉页脚调整单元500，用于在所述页眉和/或页脚中的页码错误的情况下，调整所述页码。

超链接提示单元600，用于依据PDF文档的超链接属性信息，核查预设字符是否存在对应的超链接。在预设字符不存在对应的超链接的情况下，发出预设字符缺失超链接的提示。

其中，超链接提示单元600，还用于在预设字符存在对应的超链接的情况下，提取超链接的内容。将超链接的内容输入第三模型，得到第三模型依据超链接的内容确定的上述超链接的含义。在超链接的含义与预设字符的含义不匹配的情况下，发出超链接错误的提示。

目录调整单元700，用于使用OCR识别PDF文档，得到文档。将文档输入第四模型，得到第四模型输入的目录中的目录项对应的内容的起始位置，依据起始位置，计算目录项对应的内容所占的页数。依据起始位置和页数，确定目录项对应的内容的实际页码。目录项在目录中对应的页码与实际页码不符的情况下，发出页码错误提示，和/或，将目录项在目录中对应的页码替换为实际页码。

本申请实施例提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现所述的PDF文档的处理方法。

本申请实施例提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行所述的PDF文档的处理方法。

本申请实施例方法所述的功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算设备可读取存储介质中。基于这样的理解，本申请实施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一台计算设备(可以是个人计算机，服务器，移动计算设备或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种PDF文档的处理方法，其特征在于，包括：

依据预设的目录的特征，识别所述PDF文档中的目录，所述目录的特征包括目录的关键字和格式；

其中，所述识别所述PDF文档中的第二类对象，包括：

使用OCR识别所述PDF文档，得到文档；

2.根据权利要求1所述的方法，其特征在于，所述依据预设的第一类对象的特征，识别PDF文档中的第一类对象，所述第一类对象包括各级标题、页眉和页脚中的至少一项，所述特征包括内容和格式，包括：

3.根据权利要求2所述的方法，其特征在于，在识别所述PDF文档中的所述各级标题之后，还包括：

4.根据权利要求1所述的方法，其特征在于，在所述确定所述字符为所述预先规定具有超链接的字符之后，还包括：

5.根据权利要求4所述的方法，其特征在于，在所述确定所述字符为所述预先规定具有超链接的字符之后，还包括：

6.根据权利要求1所述的方法，其特征在于，在所述识别所述PDF文档中的目录之后，还包括：

使用OCR识别所述PDF文档，得到文档；

7.一种PDF文档的处理装置，其特征在于，包括：

第三识别单元，用于依据预设的目录的特征，识别所述PDF文档中的目录，所述目录的特征包括目录的关键字和格式；

其中，所述第二识别单元，具体用于使用OCR识别所述PDF文档，得到文档；使用自然语言理解算法，基于语义识别所述文档中的预设字符；将所述文档输入第三模型，得到所述第三模型依据所述字符的上下文信息确定的所述字符的含义；依据所述预设字符的含义，确定所述预设字符为所述预先规定具有超链接的字符。

8.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，所述程序执行权利要求1~6任意一项权利要求所述的PDF文档的处理方法。

9.一种用于PDF文档的处理设备，其特征在于，包括：处理器、存储器和总线；所述处理器与所述存储器通过所述总线连接；

所述存储器用于存储程序，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1~6任意一项权利要求所述的PDF文档的处理方法。