CN115099224A

CN115099224A - 融合BiLSTM+CRF与规则匹配的中文PDF内容抽取方法和装置

Info

Publication number: CN115099224A
Application number: CN202210805950.6A
Authority: CN
Inventors: 习海旭; 蒋红芬
Original assignee: Jiangsu University of Technology
Current assignee: Jiangsu University of Technology
Priority date: 2022-07-08
Filing date: 2022-07-08
Publication date: 2022-09-23

Abstract

本发明提供一种融合BiLSTM+CRF与规则匹配的中文PDF内容抽取方法和装置，所述方法包括以下步骤：S1，采用Python解析包解析PDF文件，并对解析后的文件中的有效数据进行拼音纠错，得到第一数据，以及对解析后的文件中的无效数据进行OCR识别，得到第二数据；S2，通过BiLSTM+CRF模型识别所述第一数据和所述第二数据中的第一信息；S3，设置正则规则，并通过所述正则规则提取所述第一数据和所述第二数据中的第二信息。本发明能够提高PDF内容抽取的效率和准确度。

Description

融合BiLSTM+CRF与规则匹配的中文PDF内容抽取方法和装置

技术领域

本发明涉及实体识别技术领域，具体涉及一种融合BiLSTM+CRF与规则匹配的中文PDF内容抽取方法和一种融合BiLSTM+CRF与规则匹配的中文PDF内容抽取装置。

背景技术

PDF提取目的在于获取文档的关键信息，用户无需详细阅读文件，只需按照对应格式提取目标信息，做到批量高效解析，效率高，通过提取后的信息可以做统计分析使用，减少人力，物力以及财力的浪费。PDF提取是知识库/知识图谱构建的基础工作，也是科学文献计量分析的基础工作。

目前，对于PDF提取都是依赖于封装好的包，并且会出现识别错误问题，无法纠正，提取目标信息采用关键词正则形式提取，硬性匹配，识别错误率高，对于识别率低的文本，格式错乱无法对齐，泛化能力较弱，特别是对于多页以及跨页问题，识别表现较差，对于PDF中表格问题以及图片问题基本是无效识别。

发明内容

本发明为解决上述技术问题，提供了一种融合BiLSTM+CRF与规则匹配的中文PDF内容抽取方法和装置，能够提高PDF内容抽取的效率和准确度。

本发明采用的技术方案如下：

一种融合BiLSTM+CRF与规则匹配的中文PDF内容抽取方法，包括以下步骤：S1，采用Python解析包解析PDF文件，并对解析后的文件中的有效数据进行拼音纠错，得到第一数据，以及对解析后的文件中的无效数据进行OCR识别，得到第二数据；S2，通过BiLSTM+CRF模型识别所述第一数据和所述第二数据中的第一信息；S3，设置正则规则，并通过所述正则规则提取所述第一数据和所述第二数据中的第二信息。

所述的融合BiLSTM+CRF与规则匹配的中文PDF内容抽取方法还包括：利用步骤S2的识别结果对所述BiLSTM+CRF模型进行迭代训练。

采用Python中的pdfminer3k解析PDF文件，所述无效数据包括解析后为空白的数据。

所述第一信息包括人名、地名和组织机构名，所述第二信息包括电子邮件地址和日期。

对解析后的文件中的有效数据进行拼音纠错，具体包括：构建拼音字典；通过打分策略确定每个拼音串对应的文字。

通过BiLSTM+CRF模型识别所述第一数据和所述第二数据中的第一信息，具体包括：采用BIO标记法对所述第一数据和所述第二数据中的单字进行标记；将做标记后的第一数据和第二数据输入训练好的BiLSTM+CRF模型，以得到所述第一信息。

一种融合BiLSTM+CRF与规则匹配的中文PDF内容抽取装置，包括：解析模块，用于采用Python解析包解析PDF文件，并对解析后的文件中的有效数据进行拼音纠错，得到第一数据，以及对解析后的文件中的无效数据进行OCR识别，得到第二数据；识别模块，用于通过BiLSTM+CRF模型识别所述第一数据和所述第二数据中的第一信息；提取模块，用于通过设置的正则规则提取所述第一数据和所述第二数据中的第二信息。

所述的融合BiLSTM+CRF与规则匹配的中文PDF内容抽取装置，还包括：迭代模块，用于利用所述识别模块的识别结果对所述BiLSTM+CRF模型进行迭代训练。

本发明的有益效果：

本发明的融合BiLSTM+CRF与规则匹配的中文PDF内容抽取方法和装置，结合了BiLSTM+CRF深度学习技术、正则规则匹配技术、OCR识别技术，能够提高PDF内容抽取的效率和准确度。

附图说明

图1为本发明实施例的融合BiLSTM+CRF与规则匹配的中文PDF内容抽取方法的流程图；

图2为本发明一个实施例的pdfminer3k解析PDF文件的过程示意图；

图3为本发明一个实施例的BiLSTM+CRF模型的结构示意图；

图4为本发明一个实施例的BiLSTM+CRF模型识别文字数据的过程示意图；

图5为本发明实施例的融合BiLSTM+CRF与规则匹配的中文PDF内容抽取装置的方框示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例的融合BiLSTM+CRF与规则匹配的中文PDF内容抽取方法包括以下步骤：

S1，采用Python解析包解析PDF文件，并对解析后的文件中的有效数据进行拼音纠错，得到第一数据，以及对解析后的文件中的无效数据进行OCR识别，得到第二数据。

S2，通过BiLSTM+CRF模型识别第一数据和第二数据中的第一信息。

S3，设置正则规则，并通过正则规则提取第一数据和第二数据中的第二信息。

在本发明的一个实施例中，可采用Python中的pdfminer3k解析PDF文件，具体解析过程如图2所示。经pdfminer3k成功解析出的数据，在本发明实施例中称为有效数据，而未能成功解析出的数据，例如空白数据，则称为无效数据。对有效数据进行拼音纠错，得到的文件数据称为第一数据，经OCR识别得到的文件数据则称为第二数据。本发明实施例所要抽取出的第一信息和包括人名、地名和组织机构名等，第二信息可包括电子邮件地址和日期等。

对于有效数据，在本发明的实施例中，可对其进行拼音纠错。具体地，首先可构建拼音字典。由于同音字的存在，需要为每个拼音构建一个字序列。同时为了构建词语的字之间的联系，以地名为例，可以通过分词工具将地名进行分词，将其中的词语和对应的拼音也写入词典中。最后再将整个地名和拼音写入词典中，在写入字典中的同时可统计出每个词的词频，这样便可构建一个相对完整的拼音词典。然后，可通过打分策略确定每个拼音串对应的文字。具体是遍历拼音串对应的文字的所有组合，使用打分策略择优。

遍历所有的组合：从拼音串的第一个拼音开始，查看第一个拼音对应的文字，第一个拼音和第二个拼音对应的文字....一直到第一个拼音到最后一个拼音对应的文字。其中单个拼音或者拼音组合对应的文字很可能是一个组合，因此若是由两个拼音组成的一个词语，第一个拼音有m个对应的文字，第二个拼音有n个对应的文字，这两个拼音组成的拼音串对应了k个词，那么共有m*n+k个可能的组合。

打分：由于单个字的词频相对较高，因此如果仅仅使用词频作为打分的依据是非常不公平的。本发明实施例的打分策略是：

若使用f(c)来表示c的词频，则单个字W的分数为log(f(W))，词语V分数为len(V)*log(f(V))，一个组合的得分等于其中每个元素得分之和。

通过这种策略可得到每种组合的分数，可以取得分最高的作为拼音串对应的文字，以此来纠正错误的汉字，并通过字典获取正确的汉字。

在本发明的一个实施例中，BiLSTM+CRF模型在原始无数据的情况下，可采用人民日报的数据集作为训练集进行训练。步骤S2包括：采用BIO标记法对第一数据和第二数据中的单字进行标记；将做标记后的第一数据和第二数据输入训练好的BiLSTM+CRF模型，以得到第一信息。

具体地，首先对于序列如：来自中国科学院大学的张三，采用BIO标记如下：

来 O

自 O

中 B-ORG

国 I-ORG

科 I-ORG

学 I-ORG

院 I-ORG

大 I-ORG

学 I-ORG

的 O

张 B-PER

三 I-PER

标记规则为：无意义词标记为O，对于人名标记为PER，人名开始为B-PER，直到人名结束，标记为I-PER，组织机构名标记为ORG，与人名标记类似。

BiLSTM+CRF模型对于文字数据的识别可如图3和图4所示。BiLSTM的主要作用是对单字进行标签的识别。对于x₁,x₂,x₃,…,x_n的字序列，经过BiLSTM层后，会生成标记序列如B-ORG,I-ORG,O,…,O。CRF是一个序列化标注算法，接收一个输入序列如X＝x₁,x₂,x₃,…,x_n并且输出目标序列Y＝y₁,y₂,y₃,…,y_n,，也可被看作是一种序列模型。X、Y在此表示序列，例如在词性标注任务中，输入序列为一串单词，输出序列就是相应的词性。CRF层的参数是一个(k+2)×(k+2)(k+2)×(k+2)的矩阵A，A_ij表示的是从第i个标签到第j个标签的转移得分，进而在为一个位置进行标注的时候可以利用此前已经标注过的标签，之所以要加2是因为要为句子首部添加一个起始状态以及为句子尾部添加一个终止状态。如果记一个长度等于句子长度的标签序列Y＝y₁,y₂,y₃,…,y_n，那么模型对于句子x的标签等于y的打分为公式为：

其中，score是得分函数，P_i表示BiLSTM输出的概率，A表示转移矩阵。

可以看出整个序列的打分等于各个位置的打分之和，而每个位置的打分由两部分得到，一部分是由BiLSTM输出决定，另一部分则由CRF的转移矩阵A决定。进而可以利用Softmax得到归一化后的概率：

P(y|x)＝exp(score(x,y))∑y′

其中，P(y|x)表示在x条件下，预测为y标签的概率，y'是似然函数。

在模型训练时通过最大化对数似然函数，下式给出了对一个训练样本(x,y|x)的对数似然：

logP(y,x|x)＝score(x,y|x)-log(∑y′exp(score(x,y′)))

在CRF中上式的第二项使用前向后向算法来高效计算，模型在识别过程(解码)时使用动态规划的Viterbi算法来求解最优路径：

y^*＝argmax y′score(x,y′)

其中，y*表示最终的模型识别结果，即BiLSTM+CRF模型的输出结果。

最终BiLSTM+CRF模型输出人名、地名和组织机构名等信息。

在本发明的一个实施例中，在步骤S2之后，还可利用步骤S2的识别结果对BiLSTM+CRF模型进行迭代训练，即将识别的数据及结果加入训练数据，对BiLSTM+CRF模型进行再次训练，由此能够不断提高BiLSTM+CRF模型的识别准确率。

在本发明的一个实施例中，可设置的邮件正则规则和日期正则规则的语法如下：

邮件正则语法：

([1-9]\d{5}[12]\d{3}(0[1-9]|1[012])(0[1-9]|[12][0-9]|3[01])\d{3}[0-9xX])$

日期正则语法：

(？<Date>((？<！\d)((\d{2,4}(\.|年|\/|\-))((((0？[13578]|1[02])(\.|月|\/|\-))((3[01])|([12][0-9])|(0？[1-9])))|(0？2(\.|月|\/|\-)((2[0-8])|(1[0-9])|(0？[1-9])))|(((0？[469]|11)(\.|月|\/|\-))((30)|([12][0-9])|(0？[1-9]))))|((([0-9]{2})((0[48]|[2468][048]|[13579][26])|((0[48]|[2468][048]|[3579][26])00))(\.|年|\/|\-))0？2(\.|月|\/|\-)29))日？(？！\d))

使用正则规则对解析后的文本内容提取匹配，如若匹配上，则返回匹配结果，得到电子邮件地址和日期等信息。

根据本发明实施例的融合BiLSTM+CRF与规则匹配的中文PDF内容抽取方法，结合了BiLSTM+CRF深度学习技术、正则规则匹配技术、OCR识别技术，能够提高PDF内容抽取的效率和准确度。

对应上述实施例的融合BiLSTM+CRF与规则匹配的中文PDF内容抽取方法，本发明还提出一种融合BiLSTM+CRF与规则匹配的中文PDF内容抽取装置。

如图5所示，本发明实施例的融合BiLSTM+CRF与规则匹配的中文PDF内容抽取装置包括：解析模块10、识别模块20和提取模块30。其中，解析模块10用于采用Python解析包解析PDF文件，并对解析后的文件中的有效数据进行拼音纠错，得到第一数据，以及对解析后的文件中的无效数据进行OCR识别，得到第二数据；识别模块20用于通过BiLSTM+CRF模型识别第一数据和第二数据中的第一信息；提取模块30用于通过设置的正则规则提取第一数据和第二数据中的第二信息。

在本发明的一个实施例中，解析模块10可采用Python中的pdfminer3k解析PDF文件，具体解析过程如图2所示。

对于有效数据，在本发明的实施例中，解析模块10可对其进行拼音纠错。具体地，解析模块10首先可构建拼音字典，然后通过打分策略确定每个拼音串对应的文字。

识别模块20具体可采用BIO标记法对第一数据和第二数据中的单字进行标记，然后将做标记后的第一数据和第二数据输入训练好的BiLSTM+CRF模型，以得到第一信息。

进一步地，本发明实施例的融合BiLSTM+CRF与规则匹配的中文PDF内容抽取装置还可包括：迭代模块，迭代模块可利用识别模块20的识别结果对BiLSTM+CRF模型进行迭代训练。

提取模块30可使用正则规则对解析后的文本内容提取匹配，如若匹配上，则返回匹配结果，得到电子邮件地址和日期等信息。

更具体的实施方式可参照上述融合BiLSTM+CRF与规则匹配的中文PDF内容抽取方法的实施例，在此不再赘述。

根据本发明实施例的融合BiLSTM+CRF与规则匹配的中文PDF内容抽取装置，结合了BiLSTM+CRF深度学习技术、正则规则匹配技术、OCR识别技术，能够提高PDF内容抽取的效率和准确度。

在本发明的描述中，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必针对相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种融合BiLSTM+CRF与规则匹配的中文PDF内容抽取方法，其特征在于，包括以下步骤：

S1，采用Python解析包解析PDF文件，并对解析后的文件中的有效数据进行拼音纠错，得到第一数据，以及对解析后的文件中的无效数据进行OCR识别，得到第二数据；

S2，通过BiLSTM+CRF模型识别所述第一数据和所述第二数据中的第一信息；

S3，设置正则规则，并通过所述正则规则提取所述第一数据和所述第二数据中的第二信息。

2.根据权利要求1所述的融合BiLSTM+CRF与规则匹配的中文PDF内容抽取方法，其特征在于，还包括：

利用步骤S2的识别结果对所述BiLSTM+CRF模型进行迭代训练。

3.根据权利要求2所述的融合BiLSTM+CRF与规则匹配的中文PDF内容抽取方法，其特征在于，采用Python中的pdfminer3k解析PDF文件，所述无效数据包括解析后为空白的数据。

4.根据权利要求3所述的融合BiLSTM+CRF与规则匹配的中文PDF内容抽取方法，其特征在于，所述第一信息包括人名、地名和组织机构名，所述第二信息包括电子邮件地址和日期。

5.根据权利要求3所述的融合BiLSTM+CRF与规则匹配的中文PDF内容抽取方法，其特征在于，对解析后的文件中的有效数据进行拼音纠错，具体包括：

构建拼音字典；

通过打分策略确定每个拼音串对应的文字。

6.根据权利要求5所述的融合BiLSTM+CRF与规则匹配的中文PDF内容抽取方法，其特征在于，通过BiLSTM+CRF模型识别所述第一数据和所述第二数据中的第一信息，具体包括：

采用BIO标记法对所述第一数据和所述第二数据中的单字进行标记；

将做标记后的第一数据和第二数据输入训练好的BiLSTM+CRF模型，以得到所述第一信息。

7.一种融合BiLSTM+CRF与规则匹配的中文PDF内容抽取装置，其特征在于，包括：

解析模块，用于采用Python解析包解析PDF文件，并对解析后的文件中的有效数据进行拼音纠错，得到第一数据，以及对解析后的文件中的无效数据进行OCR识别，得到第二数据；

识别模块，用于通过BiLSTM+CRF模型识别所述第一数据和所述第二数据中的第一信息；

提取模块，用于通过设置的正则规则提取所述第一数据和所述第二数据中的第二信息。

8.根据权利要求7所述的融合BiLSTM+CRF与规则匹配的中文PDF内容抽取装置，其特征在于，还包括：

迭代模块，用于利用所述识别模块的识别结果对所述BiLSTM+CRF模型进行迭代训练。