CN116611447A

CN116611447A - 一种基于深度学习方法的信息抽取和语义匹配系统及方法

Info

Publication number: CN116611447A
Application number: CN202310585418.2A
Authority: CN
Inventors: 龚晓岑; 刘奔; 王紫蕊
Original assignee: Sichuan XW Bank Co Ltd
Current assignee: Sichuan XW Bank Co Ltd
Priority date: 2023-05-23
Filing date: 2023-05-23
Publication date: 2023-08-18

Abstract

本发明公开一种基于深度学习方法的信息抽取和语义匹配系统及方法，涉及自然语言处理技术领域，解决了现有技术中信息抽取和对比准确率低、所需样本量多的问题；本发明包括样本准备模块用于将输入的合同文本样本标注后划分为训练集和测试集；信息抽取训练模块依据样本准备模块提供的训练样本训练优化信息抽取模型；信息比对训练模块依据样本准备模块提供的训练样本训练优化信息比对模型；整合运行模块将信息抽取模型和信息比对模型整合并进行合同的信息抽取对比工作；本发明涉及的模型轻量、不依赖大样本、可定制化、可迁移性强，有效的解决了现有技术中提到的准确率低、需求样本量多的问题。

Description

一种基于深度学习方法的信息抽取和语义匹配系统及方法

技术领域

本发明涉及自然语言处理技术领域，具体涉及一种基于深度学习方法的信息抽取和语义匹配系统及方法。

背景技术

目前，在金融行业中，合作双方往往会签署多套不同类型的合同，用来约束合作双方在不同责任和义务上的行为。在这些不同类型的合同中，某些关键信息字段往往会有重叠，例如合作的金额、合作的期限、担保公司等。合作双方内部的法务部门需要基于填写好的不同类型合同进行文本内容和风险审查，但是由于合同内容较多、种类较多，审查往往费时费力，而且由于工作时长带来疲劳导致审查出错。因此，辅助法务的合同文本审查方法应运而生，但是该种方法基于关键词对合同进行信息抽取，在面对多类不同合同或者某类非标准化合同时，会导致其不可用。

经过检索发现公开号为CN113627194B的发明专利申请，公开了信息抽取方法及装置、通信消息分类方法及装置，其主要是对于同场次多方用户的通信消息，通过基于通信消息的重要性和上下文语义相关性筛选多方用户通信消息中的核心消息，然后对每组核心消息进行标注，可以避免多方用户通信消息中的无关通信消息对标注过程的影响，可以提高标注的精度和效率。基于此，也可以根据获取到的标注信息高效地对多方用户的通信消息进行分类。

但是，上述装置在计算上下文语义相关性时，直接基于预训练词向量计算相关性，忽略了预训练词向量模型在特定文本上产生的差异，可能会导致抽取准确率低；此外，该装置基于事件子类的关键词，确定各通信消息所属的不同子类。

发明内容

为了解决上述现有技术中存在的问题，本发明拟提供一种基于深度学习方法的信息抽取和语义匹配系统及方法，拟解决基于预训练词向量计算相关性导致的抽取准确率下降问题和基于关键词的类别分配方法导致的分类判别准确率下降问题

一种基于深度学习方法的信息抽取和语义匹配系统，包括样本准备模块、信息抽取训练模块、信息比对训练模块和整合运行模块；

所述样本准备模块用于将输入的合同文本样本标注后按比例划分为训练集和测试集；

所述信息抽取训练模块依据样本准备模块提供的训练样本训练优化信息抽取模型，并在训练完毕后利用测试集的测试样本对信息抽取模型进行测试，所述信息抽取模型用于提取需要进行比对的字段；

所述信息比对训练模块依据样本准备模块提供的训练样本训练优化信息比对模型，并在训练完毕后利用测试集的测试样本对信息比对模型进行测试，所述信息比对模型用于将信息抽取训练模块提取的字段进行比对并给出相应比对结果；

所述整合运行模块用于将优化好的信息抽取模型和信息比对模型整合在一起再利用测试集进行测试，测试合格后进行合同的信息抽取对比工作。

优选的，在所述整合运行模块面对新的合同导致字段信息无法抽取比对的情况时，系统会给出相应提示并收集新的标注样本送入到样本准备模块再结合所述信息抽取训练模块和所述信息比对训练模块分别对整合运行模块中的信息抽取模型和信息比对模型进行训练更新。

优选的，所述信息抽取训练模块中的的初始模型为预训练的UIE模型。

优选的，所述信息比对训练模块中的初始对比学习框架为SimCSE框架。

优选的，包括以下步骤：

步骤1：获取合同文本样本导入样本准备模块，样本准备模块将其按比例划分为训练集和测试集；

步骤2：样本准备模块将需要抽取的字段标注在训练集合同文本样本上，而后将训练集合同文本样本及相应标注导入到信息抽取训练模块中；

步骤3：信息抽取训练模块利用所得训练集合同文本及相应标注对预训练UIE模型进行迁移学习训练，得到新的信息抽取模型，利用测试集样本对新的信息抽取模型进行测试，测试达标后将新的信息抽取模型导入到整合运行模块中；

步骤4：将训练集合同文本再次输入到步骤3获取的新的信息抽取模型中，提取得到所有训练集合同文本需抽取的字段；

步骤5：将步骤4得到的抽取字段作为字段样本输入到样本准备模块，由样本准备模块对其标注相应标签；

步骤6：样本准备模块将字段样本及相应标签输入到信息比对训练模块，信息比对训练模块基于SimCSE对比学习框架进行训练，得到信息比对模型，而后利用新的信息抽取模型抽取测试集样本相应字段输入到信息比对模型中进行测试，测试达标后将信息比对模型导入到整合运行模块中；

步骤7：整合运行模块获取到新的信息抽取模型和信息比对模型后整合新的信息抽取模型和信息比对模型，而后将一份新合同样本输入到整合运行模块中，即可得到所有的抽取结果和比对结果。

优选的，所述步骤3中对预训练UIE模型进行迁移学习训练的过程中，损失函数由三部分组成：Text-to-Structure损失函数L₁+Structure Generation损失函数L₂+Retrofitting Semantic Representation损失函数L₃，具体地公式表达形式为：

L＝L₁+L₂+L₃，

其中，x为原始文本样本，y为经过结构化抽取语言(SEL)处理后的文本，即y＝SEL(x)；进一步地，D₁＝{(x,y)}，其作用是用于生成结构化的D₂；D₂＝{y₁,y₂,…,y_i}，其作用是用于训练解码器；D₃＝{x′}，x′为原始的x随机掩码15％的文本后形成的被污染文本，D₃的作用是用于训练编码器；S₁为所有结构化场景指令(SSI)形成的集合，θ_e为编码器的参数，θ_d为解码器的参数。

优选的，所述步骤6中基于SimCSE对比学习框架进行训练的过程中，模型训练的损失函数为：

其中，h_i表示模型参数，z_i表示正样本对，z′_i表示另一个正样本对，z′_j表示负样本对；Sim函数为余弦相似度计算，e为指数，τ为温度常数，作用是调节对困难样本的关注程度：越小的温度系数越关注于将本样本和最相似的困难样本分开，去得到更均匀的表示；该损失函数的分子刻画了正例对的相似度，分母刻画了正例对和所有负例对的相似度。

优选的，所述步骤7中整合信息抽取模型和信息比对模型为在输入流上将两个模型串联。

优选的，所述步骤2中需要抽取的字段包括：合作方名称、合作期限、合作额度、代偿期限、初始保证金比例、初始保证金额度。

优选的，所述步骤5中标注相应标签指将不同合同中抽取的需要比对的字段进行比对，根据需要比对的字段内容语义上是否相同进行对应标注。

本发明的有益效果包括：

本发明通过对少量合同文本进行迁移学习训练，得到信息抽取模型；进一步基于信息抽取模型结果，将抽取后的字段进行语义匹配训练，得到信息比对模型；实现了在多种金融合同上的高准确度的信息抽取和信息比对。并且本发明无需基于关键词定位，在多种测试合同样本上取得了优异的抽取效果和比对效果。此外，本发明涉及的模型轻量、不依赖大样本、可定制化、可迁移性强，有效的解决了现有技术中提到的准确率低、样本量多的问题。

除此之外，本发明面对识别不出来的新类型的合同样本能及时提示并后续辅助工作人员对需要提取的字段进行标注而后导入到系统中，从而对系统内的信息抽取模型和信息比对模型进行实时训练更新，使得本发明即使面对不同的合同样本也能通过及时的修正达到较高的准确抽取和对比效果，极大提高系统本身的适用范围也有效提高相关人员的工作效率。

附图说明

图1为实施例1一种基于深度学习方法的信息抽取和语义匹配系统的结构示意图。

图2为实施例1一种基于深度学习方法的信息抽取和语义匹配方法示意图。

图3为实施例2涉及的合同样本。

图4为实施例2涉及的信息抽取模型抽取结果。

图5为实施例2涉及的信息比对模型比对结果。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

实施例1

下面结合附图1对本发明的具体实施例做详细的说明；

所述样本准备模块用于将输入的合同文本样本标注后按8：2的比例划分为训练集和测试集；

所述信息抽取训练模块依据样本准备模块提供的训练样本训练优化信息抽取模型，并在训练完毕后利用测试集的测试样本对信息抽取模型进行测试，所述信息抽取模型用于提取需要进行比对的字段；具体地其在测试集上的抽取准确率为97.48％；

所述信息比对训练模块依据样本准备模块提供的训练样本训练优化信息比对模型，并在训练完毕后利用信息抽取模型从测试集中抽取出的字段作为其测试集，从而对信息比对模型进行测试，所述信息比对模型用于将信息抽取训练模块提取的字段进行比对并给出相应比对结果；具体地其在测试集上的比对准确率结果为99.5％；

所述整合运行模块用于将优化好的信息抽取模型和信息比对模型整合在一起进行合同的信息抽取对比工作。

所述信息抽取训练模块中的的初始模型为预训练UIE模型。

所述信息比对训练模块中的初始对比学习框架为SimCSE框架。

在系统运行过程中，对于模型已经训练过的某一类合同，可在较高准确率的前提下抽取对比合同中相关字段，如果某个新类型合同样本输入到系统中无法抽取到需要的某些字段比如合作方名称、主债权金额，系统界面会返回如下提示提醒有部分字段未抽取：

“请注意，合作方名称和主债权金额未从合同中提取，如需重新运行，请点击跳转到之前界面。”

对于模型从未训练过的某一类合同，系统支持标注功能，搭配在样本准备模块下的标注功能，需要人工对某一类合同中需要提取的全部字段进行标注，所需的该类合同样本10份左右即可达到95％以上抽取准确率，经过实验，假设一份合同中需要抽取的字段有10个，总共标注10份合同，人工标注需要的时间在2分钟左右，标注完成后，系统后台会自动将所有样本按比例划分为训练集和测试集，然后开始结合信息抽取训练模块对信息抽取模型进行训练。模型训练完成后，系统会给出提示：

“新的信息抽取模型已经训练完成，已自动覆盖旧信息抽取模型，系统即将进行新的信息比对模型的训练，请继续等待。”

利用新的信息抽取模型对新标注的样本进行抽取后送入样本准备模块，而后由样本准备模块结合信息比对训练模块对信息比对模型进行训练。训练完成后，系统会给出最终提示：

“新的信息比对模型已经训练完成，已自动覆盖旧信息比对模型，系统将在3s后自动跳转到输入新合同测试界面。”

待到测试结束合格后，整合运行模块中的信息抽取模型和信息比对模型都已完成更新，系统可照常使用。

实施例2

参照附图2，一种基于深度学习方法的信息抽取和语义匹配方法，包括以下步骤：

步骤1：获取合同文本样本导入样本准备模块，样本准备模块将其按9：1的比例划分为训练集和测试集；

步骤2：样本准备模块将需要抽取的字段标注在训练集合同文本样本上，而后将训练集合同文本样本及相应标注导入到信息抽取训练模块中；其中需要抽取的字段包括：合作方名称、合作期限、合作额度、代偿期限、主债权金额、初始保证金比例、初始保证金额度。

步骤3：信息抽取训练模块利用所得训练集合同文本及相应标注对预训练UIE模型进行迁移学习训练，得到新的信息抽取模型，利用测试集样本对新的信息抽取模型进行测试，测试达标后将新的信息抽取模型导入到整合运行模块中；具体地其在测试集上的抽取准确率为97.48％；

对预训练UIE模型进行迁移学习训练的训练过程中，损失函数由三部分组成：Text-to-Structure损失函数L₁+Structure Generation损失函数L₂+RetrofittingSemantic Representation损失函数L₃，具体地公式表达形式为：

L＝L₁+L₂+L₃；

步骤4：将训练集合同文本输入到步骤3获取的新的信息抽取模型中，提取得到所有训练集合同文本需抽取的字段；

步骤5：将步骤4得到的抽取字段作为字段样本输入到样本准备模块，由样本准备模块对其标注相应标签；具体标注相应标签指将不同合同中抽取的需要比对的字段进行比对，根据需要比对的字段内容语义上是否相同进行对应标注，例如从A合同中抽取得到合作金额字段xxxxxx元，从B合同中抽取得到合作金额字段xx万元，若这两个金额相等，则标注为1，否则为0；

步骤6：样本准备模块将字段样本及相应标签输入到信息比对训练模块，信息比对训练模块基于SimCSE对比学习框架进行训练，得到信息比对模型，而后利用新的信息抽取模型抽取测试集样本相应字段输入到信息比对模型中进行测试，测试达标后将信息比对模型导入到整合运行模块中；具体地其在测试集上的比对准确率结果为99.5％；

SimCSE对比学习框架进行训练的过程中，模型训练的损失函数为：

其中，h_i表示模型参数，z_i表示正样本对，z′_i表示另一个正样本对，z′_j表示负样本对。Sim函数为余弦相似度计算，e为指数，τ为温度常数，作用是调节对困难样本的关注程度：越小的温度系数越关注于将本样本和最相似的困难样本分开，去得到更均匀的表示；该损失函数的分子刻画了正例对的相似度，分母刻画了正例对和所有负例对的相似度。

步骤7：整合运行模块将获取到的新的信息抽取模型和信息比对模型在输入流上串联，而后将一份新合同样本输入到整合运行模块中，即可得到所有的抽取结果和比对结果。

具体地将一份新合同样本如图3所示输入到整合运行模块中，而后信息抽取模型对合同文本进行信息抽取，抽取结果如图4所示，相应抽取字段随后输入到信息比对模型中进行信息比对并给出对应比对结果，比对结果如图5所示，其中输出的label为模型对于输入的两个字段的判断，1代表模型预测两个字段一致，0代表不一致。

以上所述实施例仅表达了本申请的具体实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请保护范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请技术方案构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。

Claims

1.一种基于深度学习方法的信息抽取和语义匹配系统，其特征在于，包括样本准备模块、信息抽取训练模块、信息比对训练模块和整合运行模块；

所述信息比对训练模块依据样本准备模块提供的训练样本训练优化信息比对模型，并在训练完毕后利用测试集的测试样本对信息比对模型进行测试，所述信息比对模型用于将信息抽取训练模块提取的字段进行比对并给出相应结果；

所述整合运行模块用于将优化好的信息抽取模型和信息比对模型整合在一起进行合同的信息抽取和对比工作。

2.根据权利要求1所述的一种基于深度学习方法的信息抽取和语义匹配系统，其特征在于，在所述整合运行模块面对新的合同导致字段信息无法抽取比对的情况时，系统会给出相应提示并收集新的标注样本送入到样本准备模块再结合所述信息抽取训练模块和所述信息比对训练模块对整合运行模块中的信息抽取模型和信息比对模型进行优化更新。

3.根据权利要求1所述的一种基于深度学习方法的信息抽取和语义匹配系统，其特征在于，所述信息抽取训练模块中的的初始预训练模型为UIE模型。

4.根据权利要求1所述的一种基于深度学习方法的信息抽取和语义匹配系统，其特征在于，所述信息比对训练模块中的初始对比学习框架为SimCSE框架。

5.一种基于深度学习方法的信息抽取和语义匹配方法，其特征在于，包括以下步骤：

步骤2：样本准备模块将需要抽取的字段标注在训练集和测试集合同文本样本上，而后将训练集合同文本样本及相应标注导入到信息抽取训练模块中；

步骤3：信息抽取训练模块利用所得训练集合同文本及相应标注对初始UIE预训练信息抽取模型进行迁移学习训练，得到新的信息抽取模型，利用测试集样本对新的信息抽取模型进行测试，测试达标后将新的信息抽取模型导入到整合运行模块中；

步骤4：将训练集合同文本再次输入到步骤3获取的新的信息抽取模型中，提取得到所有需在训练集合同文本里抽取的字段；

步骤6：样本准备模块将字段样本及相应标签输入到信息比对训练模块，信息比对训练模块基于初始对比学习框架SimCSE进行训练，得到信息比对模型，而后利用新的信息抽取模型抽取测试集样本相应字段输入到信息比对模型中进行测试，测试达标后将信息比对模型导入到整合运行模块中；

6.根据权利要求5所述的一种基于深度学习方法的信息抽取和语义匹配方法，其特征在于，所述步骤3中基于初始UIE预训练模型进行迁移学习训练的过程中，损失函数包括三部分：Text-to-Structure损失函数L₁+Structure Generation损失函数L₂+Retrofitting

Semantic Representation损失函数L₃，具体地公式表达形式为：

L＝L₁+L₂+L₃；

其中，x为原始文本样本，y为经过结构化抽取语言(SEL)处理后的文本，即y＝SEL(x)，D₁＝{(x,y)}，其作用是用于生成结构化的D₂；D₂＝{y₁,y₂,…,y_i}，其作用是用于训练解码器；D₃＝{x′}，x′为原始的x随机掩码15％的文本后形成的被污染文本，D₃的作用是用于训练编码器，S₁为所有结构化场景指令(SSI)形成的集合，θ_e为编码器的参数，θ_d为解码器的参数。

7.根据权利要求5所述的一种基于深度学习方法的信息抽取和语义匹配方法，其特征在于，所述步骤6中基于对比学习框架SimCSE进行训练的过程中，模型训练的损失函数为：

其中，h_i表示模型参数，z_i表示单个正样本对，z′_i表示另一个正样本对，z′_j表示单个负样本对，Sim函数为余弦相似度计算，e为指数，τ为温度常数，作用是调节对困难样本的关注程度：越小的温度系数越关注于将本样本和最相似的困难样本分开，去得到更均匀的表示；该损失函数的分子刻画了正例对的相似度，分母刻画了正例对和所有负例对的相似度。

8.根据权利要求5所述的一种基于深度学习方法的信息抽取和语义匹配方法，其特征在于，所述步骤7中整合信息抽取模型和信息比对模型为在输入流上将两个模型串联。

9.根据权利要求5-8任一项所述的一种基于深度学习方法的信息抽取和语义匹配方法，其特征在于，所述步骤2中需要抽取的字段包括：合作方名称、合作期限、合作额度、代偿期限、主债权金额、初始保证金比例、初始保证金额度。

10.根据权利要求5-8任一项所述的一种基于深度学习方法的信息抽取和语义匹配方法，其特征在于，所述步骤5中标注相应标签指将不同合同中抽取的需要比对的字段进行比对，根据需要比对的字段内容语义上是否相同进行对应标注。