CN112712085A

CN112712085A - 一种提取多语言pdf文档中日期的方法

Info

Publication number: CN112712085A
Application number: CN202011584156.0A
Authority: CN
Inventors: 倪旻恒; 张宏磊; 李永立
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2020-12-28
Filing date: 2020-12-28
Publication date: 2021-04-27

Abstract

本发明公开了一种提取多语言PDF文档中日期的方法，具体实施步骤包括：基于反二进制化格式解码技术获取PDF文档的结构化信息；利用PDF特征分析技术将此部分信息中的文本编码分析并解析成可辨认文本串。然后，训练基于深度学习的命名实体识别模型，利用命名实体识别模型和正则表达式匹配技术获取多语言环境下日期信息序列。最后，获取待处理PDF文档进行处理与标注获得的PDF文档中时间信息与时间序列的对应关系的特征数据库，获取所需日期信息。该技术与现有技术相比能处理无固定格式文档或格式复杂多变文档、较低图片式文档，和含有多种语言的PDF文档。

Description

一种提取多语言PDF文档中日期的方法

技术领域

本发明涉及信息处理领域，尤其涉及一种提取多语言PDF文档中日期信息的方法。

技术背景

信息化与全球化的背景下，格式确定性高的便携式文档格式(PDF)是应用最广泛的文档存储格式之一。PDF格式的特点是基于页面的每一元素位置进行描述，这导致在信息处理领域，使用计算机准确提取PDF文档中有效信息的难度远高于DOC、DOCX、TXT等格式。

在信息处理领域，使用人工智能技术进行自动化信息分析与处理的过程中，信息的时效性往往是分析师最关心的问题，所以准确提取出PDF文档中的日期是信息分析的重要环节。目前现有人工智能技术已经可以实现格式化PDF文档中的文字的识别与提取能力。但是在实现本发明的过程中，发明人发现现有技术有以下局限性：

现有技术下，PDF文档信息抽取需要确定的格式，对无固定格式文档或格式复杂多变文档(如包含大量表格)没有可靠的解决方案；PDF文档信息抽取有高文档质量的要求，对无可提取文本的图片式文档没有可靠的解决方案；PDF文档信息抽取基于汉语或英语等单一语言，对于不同语言乃至混合语言的文档无法进行有效日期信息提取。

发明内容

本发明的目的在于提供一种提取多语言PDF文档中日期信息的方法；该方法通过将原始PDF文档解码，使用基于深度学习的跨语言命名实体识别技术进行精确日期提取；该方法能够解决提取质量较低、格式复杂的多语言文档中日期信息的问题。

为了实现上述发明目的，本发明提供了一种提取多语言PDF文档中日期信息的方法，所述方法包括以下步骤：

步骤1：利用包含二进制信息的原始PDF文档反二进制化格式解码，获得各种存储质量的PDF文档的原始内容的结构化信息；并利用PDF特征分析技术将此部分信息中的文本编码分析并解析成可辨认文本串。

其中，利用包含二进制信息的原始PDF文档反二进制化格式解码技术处理各种存储质量的PDF文档(尤其是低质量文档)，获取原始内容的结构化信息，还包含以下步骤：

首先，将内容流中的二进制图像信息转化为图像，并使用OCR识别技术获取其中的文本串；

然后，将从PDF中提取出的文本串，基于特征文本串的段落粗划分，以n(n>＝2)个连续空串为间隔，将间隔间的文本串合并为一个段落，将文本串恢复成较为连贯的句子；

然后，首先判断每段较为连贯的内容是否存在足够的英文和中文

然后，再判断有没有“-”、“/”、“\”符号；然后，判断数字长度够不够。

然后，将上述分析中存在足够长字符、存在“-”、“/”、“\”，以及存在足够长数字的句子提取出来，认定为含有日期信息的段落。

最后，将含有日期信息的较为连贯的句子利用标点符号合并；其中若下段存在句子的标点(“！”、“？”、“。”、“，”、“；”),且本段也存在这种标点(“！”、“？”、“。”、“，”、“；”)，且本段不以这些符号结尾(“。”、“？”、“！”、“》”、“，”)，则将本段与下一段合并，形成含有日期信息的段落。

其中，PDF特征分析技术还包括步骤：

首先，利用PDF文档的原始内容的结构化信息将PDF页面树节点、页面对象、内容流定位，获得描述PDF文档内元素关系与元素内容描述的位置；

然后，进一步的利用位置定位页面树节点、页面对象、内容流，并将此部分信息中的文本编码分析并解析成可辨认文本串。

步骤2：训练基于深度学习的命名实体识别模型；使用命名实体识别模型，提取步骤1获得的可辨认文本串(可能含有多种语言)中的非固定格式的日期信息序列；使用正则表达式匹配方法提取步骤1获得的可辨认文本串(可能含有多种语言)中的固定格式的日期信息序列

其中，训练基于深度学习的命名实体识别模型包含以下步骤：

首先，获取不同语言的文本并对不同语言的文本的每个符号标注正确的分词标记与语义类型。

然后，将每个符号的向量形式依次输入双向GRU网络模型并获得对应表示并通过线性层网络获得其输出表示

然后，将每个输出表示利用Softmax函数变换为分词标记与语义类型的联合概率分布。并将每个联合概率分布通过交叉熵损失函数计算与正确的分词标记与语义类型的差异。

最后，对模型的每个参数对差异的导数，使用随机梯度下降算法优化。

其中，使用训练完成的命名实体识别模型标注并提取步骤1中可辨认文本串中的时间序列，还包含以下步骤：

首先，将合并完成的段落按符号分割，并且将每个符号通过词嵌入转化为向量形式。

然后，将每个符号的向量形式依次输入双向GRU网络模型并获得对应表示，并且将每个对应表示通过线性层网络获得其输出表示。

然后，将每个输出表示利用Softmax函数变换为分词标记与语义类型的联合概率分布。

然后，将概率最大的分词标记与语义类型作为正确结果将文本串分词并标注语义类型，并且利用每个符号的分词与否信息与语义类型信息将文本分割为词的序列与对应的语义类型。

最后，将连续出现的语义类型标注为TIME的词的序列合并，获得非固定格式的日期信息序列。

其中，使用正则表达式匹配的方法提取步骤1中可辨认文本串中的时间序列，还包含以下步骤：

首先，利用日期特定格式(如YYYY-MM-DD)对合并完成的段落进行正则表达式匹配，寻找固定格式的日期信息序列。

然后，确定固定格式的日期信息与非固定格式的日期信息的相对位置，将固定格式的日期信息与非固定格式的日期信息按出现先后进行序号排列

步骤3，在数据库中获取PDF文档的特征信息，获得当前PDF文档中需要提取的日期信息序列的序号。利用序号将非固定格式与固定格式的日期信息序列的特定序号的日期信息提取。

其中，数据库是对待处理PDF文档进行处理与标注获得的PDF文档中时间信息与时间序列的对应关系，在获得时间序列中选择所需时间后需要进行系列文本核对校准。

附图说明

图1是根据本发明绘制的提取多语言PDF文档中日期信息的步骤流程图

具体实施方式

以下结合附图对本发明的示范性实施例作出说明，描述用于揭露本发明以使本领域技术人员能够实现本发明。以下描述中优选实施例只作为举例，本领域技术人员可以想到其他显而易见的变型，应当认为这些范例只是示范性的。在以下描述中界定的本发明的基本原理可以应用于其他实施方案、变形方案、改进方案、等同方案以及没有背离本发明的精神和范围的其他技术。

图1是根据本发明实施例的提取多语言PDF文档中日期的方法的主要步骤示意图，如图1所示，本发明实施例的提取多语言PDF文档中日期的方法主要包括如下步骤：

步骤1，利用包含二进制信息的原始PDF文档反二进制化格式解码，获得各种存储质量的PDF文档的原始内容的结构化信息；并利用PDF特征分析技术将此部分信息中的文本编码分析并解析成可辨认文本串。

所述反二进制化格式解码并获得各种存储质量的PDF文档的原始内容的结构化信息包括以下步骤：读取文档数据，并通过非二进制的固定格式确定的标记，确定文档不同的模块。将不同模块间的二进制数据存储为模块结构。

所述利用PDF特征分析技术将此部分信息中的文本编码分析并解析成可辨认文本串，还包含以下步骤：读取PDF文档特定区域描述的文本计算机编码。利用描述的文本计算机编码将特定区域的二进制数据解码成可辨认文本

其中，处理各种存储质量的PDF文档(尤其是低质量文档)，因为其不存在准确编码的文本，所有文本信息暗藏在图片中，需要识别出，还包含以下步骤：首先，将内容流中的二进制图像信息转化为图像，并使用OCR识别技术获取其中的文本串；然后，将从PDF中提取出的文本串，组成列表。然后，以n(n>＝2)个连续空串为间隔，将间隔间的列表中的文本串依次串接形成一个更完整的文本段。如“A、B、空、空、C、D”则组成“AB、CD”两个更完整的文本段。然后，首先判断每段较为连贯的内容中英文和中文等非特殊符号的数量占文本段总长度是否超过一个阈值，超过阈值的标记为有效文本段。然后，再判断有没有“-”、“/”、“\”符号，没有的标记为无效文本段，如“112342122.23”就被认定无效。然后，判断数字长度够不够是否超过一个阈值，没有的标记为无效文本段。如“12-23”就被认定无效。然后，剩余的标记为有效文本段。然后，将上述分析中效文本段，认定为可能含有日期信息的段落。最后，将含有日期信息的较为连贯的句子利用标点符号合并。

所述将含有日期信息的较为连贯的句子利用标点符号合并包括以下步骤：

其中若下段不存在句子的标点(“！”、“？”、“。”、“，”、“；”)，不合并。否则，若本段不存在这种标点(“！”、“？”、“。”、“，”、“；”)或本段以这些暗示结束的符号结尾(“。”、“？”、“！”、“》”)，不合并。否则，则将本段与下一段串联，形成含有日期信息的段落。如果前一段以暗示结束的符号结尾，则大概率其已经完成叙述，无需和下一段合并。如果下一段不包含标点或前一段不包含标点，则其大概率并非正常的段落，则也无需合并。

其中，PDF特征分析技术还包括步骤：

首先，利用PDF文档的原始内容的结构化信息将PDF页面树节点、页面对象、内容流定位，获得描述PDF文档内元素关系与元素内容描述的位置；然后，进一步的利用位置定位页面树节点、页面对象、内容流，并将此部分信息中的文本编码分析并解析成可辨认文本串。

步骤2：训练基于深度学习的命名实体识别模型；使用命名实体识别模型，提取步骤1获得的可辨认文本串(可能含有多种语言)中的非固定格式的日期信息序列；使用正则表达式匹配方法提取步骤1获得的可辨认文本串(可能含有多种语言)中的固定格式的日期信息序列。

所述训练基于深度学习的命名实体识别模型包含以下步骤：首先，通过维基百科等大型网站摘取不同语言的文本然后，对不同语言的文本的每个符号人工标注正确的分词标记与语义类型。然后，将每个符号的向量形式依次输入双向GRU网络模型获得每个符号对应向量表示。然后，通过线性层网络获得其输出向量表示然后，将每个输出表示利用Softmax函数变换为分词标记与语义类型的联合概率分布。然后，将每个联合概率分布通过交叉熵损失函数计算与正确的分词标记与语义类型的差异。然后，对模型的每个参数对差异的导数最后，使用随机梯度下降算法利用每个参数对差异的导数优化模型。

其中，使用训练完成的命名实体识别模型标注并提取步骤1中可辨认文本串中的时间序列，还包含以下步骤：首先，将合并完成的段落按符号分割然后，将每个符号通过词嵌入转化为向量形式。然后，将每个符号的向量形式依次输入双向GRU网络模型并获得对应表示，并且将每个对应表示通过线性层网络获得其输出表示。然后，将每个输出表示利用Softmax函数变换为分词标记与语义类型的联合概率分布。然后，将概率最大的分词标记与语义类型作为正确结果将文本串分词并标注语义类型。比如“张华于2000年4月考上北京大学”，对应的分词序列为“张华、于、2000年4月、考上、北京大学”和对应的语义类型为“人物、介词、时间、动词、组织”。然后，利用联合概率计算出每个符号的分词与否与语义类型。然后，利用符号的分词与否与语义类型将文本分割为词的序列并标注对应的语义类型。最后，将连续出现的语义类型标注为“时间”的词的序列合并，获得非固定格式的日期信息序列。

所述使用正则表达式匹配的方法提取步骤1中可辨认文本串中的时间序列，还包含以下步骤：首先，利用日期特定格式(如YYYY-MM-DD)对合并完成的段落进行正则表达式匹配，寻找固定格式的日期信息序列。如“发布日期：1999-12-13”中，可以靠“\d\d\d\d-\d？\d-\d？\d”识别提取出“1999-12-13”。然后，确定固定格式的日期信息与非固定格式的日期信息的相对位置，将固定格式的日期信息与非固定格式的日期信息按出现先后进行序号排列。

步骤3，在数据库中录入并获取PDF文档的特征信息，获得当前PDF文档中需要提取的日期信息序列的序号。利用序号将非固定格式与固定格式的日期信息序列的特定序号的日期信息抽取。

所述数据库是对待处理PDF文档进行处理与标注获得的PDF文档中时间信息与时间序列的对应关系。

其中，在数据库中录入PDF文档的日期信息序列的序号包括以下步骤：人工选取PDF的部分易于获取的特征(如文件名格式)作为标识。将此标识作为数据库中对应特征信息的检索基准，录入日期信息序列的序号。

其中，在数据库中获取PDF文档的日期信息序列的序号包括以下步骤：将待处理PDF文档中的部分易于获取的特征抽取作为标识。此标识作为数据库中对应特征信息的检索基准，检索日期信息序列的序号。

本领域技术人员应理解，上述描述及附图中所示的本发明的实施例只作为举例而不是限制本发明的应用范围。本发明的目的已经完整并有效地实现。本发明地功能及结构原理已在实施例中展示说明，在没有背离该原理下，本发明地实施方式可以有各种形式修改。

Claims

1.一种提取多语言PDF文档中日期的方法，其特征在于：所述方法包括以下步骤：

PDF文档中含有日期信息的可辨认字符串的获取步骤；基于深度学习的多语言环境下日期序列的获取步骤；基于文档特征的日期信息检索步骤；

其中，所述PDF文档中含有日期信息的可辨认字符串的获取步骤，包括以下步骤：基于反二进制化格式解码技术获取PDF文档的结构化信息；利用PDF特征分析技术将此部分信息中的文本编码分析并解析成可辨认文本串；

其中，所述基于深度学习进行的多语言环境下日期序列的获取步骤，包括以下步骤：训练基于深度学习的命名实体识别模型；利用命名实体识别模型和正则表达式匹配技术获取日期信息序列。

2.根据权利要求1所述的提取多语言PDF文档中日期的方法，其中所述基于反二进制化格式解码技术获取PDF文档的结构化信息，还包括以下步骤：

将内容中的二进制图像信息转化为图像，并使用OCR识别技术获取其中的文本串；

将从PDF中提取出的文本串，基于特征文本串的段落粗划分，以n(n>＝2)个连续空串为间隔，将间隔之间的文本串合并为一个段落，将文本串恢复成较为连贯的句子；

将存在足够长的英文和中文字符、存在“-”、“/”、“\”符号，以及存在足够长数字的句子提取出来，认定为含有日期信息的段落；

3.根据权利要求1所述的提取多语言PDF文档中日期的方法，其中所述利用PDF特征分析技术将此部分信息中的文本编码分析并解析成可辨认文本串，还包括以下步骤：

利用PDF文档的原始内容的结构化信息将PDF页面树节点、页面对象、内容流定位，获得描述PDF文档内元素关系与元素内容描述的位置；

进一步的利用位置定位页面树节点、页面对象、内容流，并将此部分信息中的文本编码分析并解析成可辨认文本串。

4.根据权利要求1所述的提取多语言PDF文档中日期的方法，其中基于深度学习进行的多语言语义识别的文档时间获取步骤，还包括以下步骤：

训练基于深度学习的命名实体识别模型；

使用命名实体识别模型，提取非固定格式的日期信息序列；

使用正则表达式匹配方法，提取固定格式的日期信息序列。

5.根据权利要求4所述的提取多语言PDF文档中日期的方法中训练基于深度学习的命名实体识别模型，还包括以下步骤：

获取不同语言的文本并对不同语言的文本的每个符号标注正确的分词标记与语义类型；

将每个符号的向量形式依次输入双向GRU网络模型并获得对应表示并通过线性层网络获得其输出表示；

将每个输出表示利用Softmax函数变换为分词标记与语义类型的联合概率分布。并将每个联合概率分布通过交叉熵损失函数计算与正确的分词标记与语义类型的差异；

对模型的每个参数对差异的导数，使用随机梯度下降算法优化。

6.根据权利要求4所述的提取多语言PDF文档中日期的方法中使用命名实体识别模型，提取非固定格式的日期信息序列，还包括以下步骤：

将合并完成的段落按符号分割，并且将每个符号通过词嵌入转化为向量形式；

将每个符号的向量形式依次输入双向GRU网络模型并获得对应表示，并且将每个对应表示通过线性层网络获得其输出；

将每个输出表示利用Softmax函数变换为分词标记与语义类型的联合概率分布；

将概率最大的分词标记与语义类型作为正确结果将文本串分词并标注语义类型，并且利用每个符号的分词与否信息与语义类型信息将文本分割为词的序列与对应的语义类型；

将连续出现的语义类型标注为TIME的词的序列合并，获得非固定格式的日期信息序列。

7.根据权利要求1所述的提取多语言PDF文档中日期的方法，其中所述基于文档特征的特定时间检索步骤，还包括以下步骤：

获取待处理PDF文档进行处理与标注获得的PDF文档中时间信息与时间序列的对应关系的特征数据库；

在获得时间序列中选择所需时间进行系列文本核对校准。