CN114757172A

CN114757172A - 一种基于段落区间划分的篇章级合同抽取方法

Info

Publication number: CN114757172A
Application number: CN202210286174.3A
Authority: CN
Inventors: 张婷婷; 杨凌; 石贇; 赵璇; 王蓓; 王姗姗; 徐玉莹
Original assignee: Shanghai Ouye Finance Information Service Co ltd
Current assignee: Shanghai Ouye Finance Information Service Co ltd
Priority date: 2022-03-25
Filing date: 2022-03-25
Publication date: 2022-07-15

Abstract

本发明提供一种基于段落区间划分的篇章级合同抽取方法，首先获取篇章级文本，然后对篇章级文本进行段落分割，拆分为多个段落文本；基于篇章级文本中章节信息的模式，结合正则表达式，抽取出对应的章节文本内容，并获取章节信息的索引下标；通过章节信息的索引下标获取每个段落文本的章节所属，并添加至段落文本的起始位置；对添加章节内容后的段落文本中的句子进行编码，并通过注意力机制从编码结果中聚合每个句子的文本信息，得到每个句子的文本表征；通过条件随机场从文本表征中获取对应句子的上下文信息，抽取出篇章级文本的要素信息。本发明采用段落级文本内容作为模型输入，在面对长文本内容时，能够以较高准确率抽出长文本要素信息。

Description

一种基于段落区间划分的篇章级合同抽取方法

技术领域

本发明涉及自然语言技术领域，特别是涉及一种基于段落区间划分的篇章级合同抽取方法。

背景技术

目前，在面对文本要素抽取任务时，现有技术中的方案是将篇章级文本按照段落内容进行划分，然后以单个段落文本为基本单位作为模型输入，这使得模型无法利用当前段落的章节信息，缺少章节信息限制，对易混淆字段会产生偏置。此外，由于现有任务方法无法利用章节信息，同时易混淆字段的文本内容特征差异性不大，从而缺少章节信息的限制，导致易混淆字段信息错误率较高。因此，目前的要素抽取模型在抽取篇章级要素信息时，还存在以下问题：(1)篇章级文本段落较长，当前段落无法利用章节信息；(2)对于易混淆字段，由于文本内容特征差异性不大，容易识别错误，准确率低。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种基于段落区间划分的篇章级合同抽取方法，用于解决现有技术在进行文本要素抽取时抽取不完整和准确率低的问题。

为实现上述目的及其他相关目的，本发明提供一种基于段落区间划分的篇章级合同抽取方法，所述方法包括以下步骤：

获取待进行文本要素抽取的篇章级文本；

按照预设分隔符对所述篇章级文本的文本内容进行段落分割，将所述篇章级文本拆分为多个段落文本，并获取所有段落文本的下标；

基于篇章级文本中章节信息的模式，结合正则表达式，抽取出所述篇章级文本中对应的章节文本内容，并获取与所述章节文本内容对应的章节信息的索引下标；

通过所述章节信息的索引下标获取每个段落文本的章节所属，并将对应的章节内容添加至所述段落文本的起始位置；

获取添加章节内容后的段落文本，记为目标段落文本；

利用预训练模型对每个目标段落文本中的句子进行编码，并通过注意力机制从编码结果中聚合每个句子的文本信息，得到每个句子的文本表征；

通过条件随机场从每个句子的文本表征中获取对应句子的上下文信息，抽取出所述篇章级文本的要素信息。

可选地，利用预训练模型对每个目标段落文本中的句子进行编码，并通过注意力机制从编码结果中聚合每个句子的文本信息，得到每个句子的文本表征的过程包括：

将所述章节信息和每个目标段落文本建模为由批次大小和文本长度构成的二维矩阵；

将所述二维矩阵输入至所述预训练模型中进行编码，获取由批次大小、文本长度和隐层维度构成的三维矩阵；

通过注意力机制，聚合所述章节信息与句子之间的文本信息，得到包含章节信息的文本表征。

可选地，所述章节信息包括以下至少之一：甲方信息、乙方信息、开票信息。

可选地，所述预设分隔符包括换行符。

可选地，从所述篇章级文本中抽取的文本要素字段包括以下至少之一：甲方账户名、乙方账户名、合同名称、合同编号。

如上所述，本发明提供一种基于段落区间划分的篇章级合同抽取方法，具有以下有益效果：

本发明首先获取待进行文本要素抽取的篇章级文本；然后按照预设分隔符对所述篇章级文本的文本内容进行段落分割，将所述篇章级文本拆分为多个段落文本，并获取所有段落文本的下标；再基于篇章级文本中章节信息的模式，结合正则表达式，抽取出所述篇章级文本中对应的章节文本内容，并获取与所述章节文本内容对应的章节信息的索引下标；并通过所述章节信息的索引下标获取每个段落文本的章节所属，并将对应的章节内容添加至所述段落文本的起始位置；然后获取添加章节内容后的段落文本，记为目标段落文本；以及利用预训练模型对每个目标段落文本中的句子进行编码，并通过注意力机制从编码结果中聚合每个句子的文本信息，得到每个句子的文本表征；最后通过条件随机场从每个句子的文本表征中获取对应句子的上下文信息，抽取出所述篇章级文本的要素信息。本发明采用段落级文本内容作为模型输入，在面对长文本内容时，能够以较高准确率抽出长文本要素信息。而且本发明为了能够更好利用章节信息和区分易混淆字段信息，提出了基于章节信息划分段落区间的要素抽取发明。同时，在当前业界主流的合同要素抽取产品的平均准确率只有80％，地址、金额等易混淆字段的准确率只有75％的条件下，本发明能够以90％的准确率抽取出易混淆要素字段。

附图说明

图1为一实施例提供的基于段落区间划分的篇章级合同抽取方法的流程示意图；

图2为一实施例提供的基于段落区间划分的篇章级合同抽取方法中的模型结构示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

请参阅图1所示，本发明提供一种基于段落区间划分的篇章级合同抽取方法，包括以下步骤：

获取待进行文本要素抽取的篇章级文本；

基于篇章级文本中章节信息的模式，结合正则表达式，抽取出所述篇章级文本中对应的章节文本内容，并获取与所述章节文本内容对应的章节信息的索引下标；在本实施例中，章节信息的下标是从所有段落文本的下标中获取到的。

获取添加章节内容后的段落文本，记为目标段落文本；

具体地，在一示例性实施例中，利用预训练模型对每个目标段落文本中的句子进行编码，并通过注意力机制从编码结果中聚合每个句子的文本信息，得到每个句子的文本表征的过程包括：

根据上述记载，本方法中的章节信息包括但不限于：甲方信息、乙方信息、开票信息，所述预设分隔符包括换行符，从所述篇章级文本中抽取的文本要素字段包括但不限于：甲方账户名、乙方账户名、合同名称、合同编号。

请参阅图2所示，本发明还提供一种基于段落区间划分的篇章级合同抽取方法，包括以下步骤：

1.段落分割，将篇章级文本内容按照原有段落将文本内容按照换行符“\n”进行段落级文本内容的拆分，并获取所有段落文本的下标。

2.章节信息抽取，根据篇章文本中章节信息的模式，如：“一、”，利用正则表达式，抽取出对应的章节文本内容并获取到章节信息的索引下标。

3.段落区间划分，通过章节的索引下标，获取到每个段落的章节所属，并把章节内容追加在段落开头。

4.模型结构，为了能够更好区分易混淆字段，充分利用章节信息与结构信息内容。模型结构如图2所示。

5.将每个句子都经过预训练模型进行编码，然后通过注意力机制进行聚合句子内部信息，获取本句的表征。最后通过条件随机场得到上下文信息，最后输出结果。

综上所述，本发明提供一种基于段落区间划分的篇章级合同抽取方法，首先获取待进行文本要素抽取的篇章级文本；然后按照预设分隔符对所述篇章级文本的文本内容进行段落分割，将所述篇章级文本拆分为多个段落文本，并获取所有段落文本的下标；再基于篇章级文本中章节信息的模式，结合正则表达式，抽取出所述篇章级文本中对应的章节文本内容，并获取与所述章节文本内容对应的章节信息的索引下标；并通过所述章节信息的索引下标获取每个段落文本的章节所属，并将对应的章节内容添加至所述段落文本的起始位置；然后获取添加章节内容后的段落文本，记为目标段落文本；以及利用预训练模型对每个目标段落文本中的句子进行编码，并通过注意力机制从编码结果中聚合每个句子的文本信息，得到每个句子的文本表征；最后通过条件随机场从每个句子的文本表征中获取对应句子的上下文信息，抽取出所述篇章级文本的要素信息。本发明采用段落级文本内容作为模型输入，在面对长文本内容时，能够以较高准确率抽出长文本要素信息。而且本发明为了能够更好利用章节信息和区分易混淆字段信息，提出了基于章节信息划分段落区间的要素抽取发明。同时，在当前业界主流的合同要素抽取产品的平均准确率只有80％，地址、金额等易混淆字段的准确率只有75％的条件下，本发明能够以90％的准确率抽取出易混淆要素字段。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种基于段落区间划分的篇章级合同抽取方法，其特征在于，所述方法包括以下步骤：

获取待进行文本要素抽取的篇章级文本；

获取添加章节内容后的段落文本，记为目标段落文本；

2.根据权利要求1所述的基于段落区间划分的篇章级合同抽取方法，其特征在于，利用预训练模型对每个目标段落文本中的句子进行编码，并通过注意力机制从编码结果中聚合每个句子的文本信息，得到每个句子的文本表征的过程包括：

3.根据权利要求1或2所述的基于段落区间划分的篇章级合同抽取方法，其特征在于，所述章节信息包括以下至少之一：甲方信息、乙方信息、开票信息。

4.根据权利要求1或2所述的基于段落区间划分的篇章级合同抽取方法，其特征在于，所述预设分隔符包括换行符。

5.根据权利要求1或2所述的基于段落区间划分的篇章级合同抽取方法，其特征在于，从所述篇章级文本中抽取的文本要素字段包括以下至少之一：甲方账户名、乙方账户名、合同名称、合同编号。