CN116306606A

CN116306606A - 一种基于增量学习的金融合同条款提取方法和系统

Info

Publication number: CN116306606A
Application number: CN202310316449.8A
Authority: CN
Inventors: 雷琪; 吴业伟; 李仪; 罗星; 孔冠卿
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2023-03-27
Filing date: 2023-03-27
Publication date: 2023-06-23

Abstract

本发明公开一种基于增量学习的金融合同条款提取方法和系统，包括：获取条款数据，并对条款数据进行预处理及标准化；构造批量数据生成器，生成神经网络输入张量；基于一维CNN和双向LSTM网络搭建条款提取模型；将条款训练数据输入条款提取模型进行训练，对新数据进行增量训练；将条款测试数据送入已训练完成的条款提取模型中进行预测，获取段落的序列标注并提取得到预测的条款。本发明的优点是采用知识蒸馏的方式进行类增量学习，既能保留旧模型的预测效果，又能获得新类别的识别能力。同时利用CNN的速度和轻量特性与RNN的上下文信息获取特性，提高预测的速度和准确度。

Description

一种基于增量学习的金融合同条款提取方法和系统

技术领域

本发明涉及计算机自然语言处理技术领域，特别涉及一种基于增量学习的金融合同条款提取方法和系统。

背景技术

风险控制(风控)是金融行业不可或缺的一部分，而风控工作通过审核金融合同找到其中可能包含风险的条款，并输入风控系统中进行管理和控制。随着业务量的增加，人工审核一份一百多页的合同费时费力，因此，利用智能模型系统进行自动识别时非常必要的，同时也是一种趋势。在搭建深度学习模型进行自动识别过程中，常常会遇到的问题包括：训练数据无法一步到位、多次标注的训练数据存在歧义、甚至出现新类别需要识别的情况，因此，构建一个自动处理金融合同提取风险条款的模型，并且能够不断学习处理新的条款是解决这些问题的方案。

从现有技术来看，风险子句提取工作主要使用分类模型。已有的方法有：浅层机器学习方法，包括人工神经网络、支持向量机、贝叶斯网络等；以及深度学习方法如长短期记忆网络(Long Short-Term Memory,LSTM)、卷积神经网络(Convolutional NeuralNetworks,CNN)、BERT等，但是这种分类模型只能判断单句的类别，适合于对边界没有较强要求或是半结构化数据中的提取任务。

在金融合同条款提取任务中，存在一个子句有多个条款和多个子句属于一个条款的情况。因此不仅要判断出子句的类别，同样需要判断条款的边界；相近的研究主要从文本分割、主题分割等方面出发，通过对更大篇幅的文本输入建模，进而提取出其中子句级的目标。文本分割的研究大致分为无监督方法和神经网络方法，无监督方法例如早期的词频等文本信息计算、以及贝叶斯方法等，无监督方法的计算成本很高，并且分割的准确性也不好。有监督的神经网络方法有多层级的双向LSTM网络，多层级的BERT模型等序列标记算法，能够根据上下文信息进行每个子句的类别判断，找到位于分割点的子句，进而将文段分割。就提取风险条款而言，大模型在训练与预测计算量大、耗时长，小模型准确率低，学习到深层次的语义信息、提高模型准确度仍然是一个重大难题。

在实际应用中，金融行业的专业性和特殊性，使得不同批次的数据标注可能存在歧义，并且根据业务需要可能会有新的类别加入。类增量学习可以完成这样的应用场景。而增量学习所带来的一个最主要的问题就是灾难性遗忘问题，即神经网络在经过新数据训练后，会几乎忘记之前学过的任务。面对这一问题，现有文献主要有3种解决方案。其中有基于样本的方法，其主要包括回放，即直接使用或间接使用之前的训练样本进行再训练，这种方法对于某些无法再次获得数据的应用场景难以实现；

以及基于模型参数的方法，即对模型的参数作出划分或正则化限制，使得模型对于不同的任务使用不同的参数，难以得到一个统一的模型；最后是基于知识蒸馏的方法，知识蒸馏常被运用在自然语言处理中，将大模型蒸馏得到小模型，主要方法是搭建小模型来拟合大模型输出的软标签，进而拟合大模型的输出效果。但是对于序列标注任务，CRF(Conditional Random Field)层输出的所有可能路径数量庞大，作为软标签难以学习。因此在序列标注任务中知识蒸馏的增量学习仍然是一个重大难题。

发明内容

本发明针对现有技术的缺陷，提供了一种基于增量学习的金融合同条款提取方法和系统。综合利用CNN的特征提取能力和双向LSTM的时序预测，利用增量学习对旧模型进行知识蒸馏，保留旧知识并学习新知识。首先，利用CNN对数据进行下采样降低数据的维度和复杂程度，提高模型整体的泛化和学习能力，随后，将降维后的数据输入双向LSTM网络，进一步挖掘段落中不同子句提供的信息特征。该模型有效利用CNN的速度和轻量特性与双向LSTM网络的顺序敏感性，允许在训练时查看更多的数据量，提高预测准确度。

为了实现以上发明目的，本发明采取的技术方案如下：

一种基于增量学习的金融合同条款提取方法，包括以下步骤：

S1、获取条款数据，并对条款数据进行预处理及标准化；

S2、构造批量数据生成器，生成神经网络输入张量；

S3、基于一维CNN和双向LSTM网络搭建条款提取模型；

S4、将条款训练数据输入条款提取模型进行训练，对新数据进行增量训练；

S5、将条款测试数据送入已训练完成的条款提取模型中进行预测，获取段落的序列标注并提取得到预测的条款。

进一步地，S1中进行预处理及标准化具体为：

条款数据，以一个金融合同中的自然段落为一条数据。一个段落中可能包含一条或多条条款、也可能不包含条款。

将条款数据划分为训练集、验证集、测试集。

通过标点符号，将条款数据的段落拆分成子句序列；并通过构造好的词典，将子句中每个字词转换成词典中对应的数字编号，再根据设定好的最大子句长度对每个子句数字编号向量进行补齐或切除。后将一个段落的子句数字编号向量拼接，根据设定好的最大子句数量对每个段落进行补齐或切除。

进一步地，S2中所述的批量数据生成器，其指定预测输入包含段落向量、子句序列标注及每个批量包含样本数，其返回是一个元组，即多变量输入数据的一个批量，对应的目标子句序列数组。

进一步地，所述S3中条款提取模型具体为：

输入的段落文本数据等长拆分成若干个子句，并通过Embedding层进行词嵌入。所述一维CNN的输入端连接单个子句的词向量，输出得到子句的嵌入向量。将段落中的所有子句嵌入向量拼接后输入双向LSTM神经网络，双向LSTM神经网络的输出端接入CRF层，生成段落的子句序列标注；

优选地，所述的获取子句嵌入向量，具体为：使用卷积层进行子句特征学习，使用全局最大池化进行子采样，将卷积层输出的嵌入向量最后一维压缩。

优选地，所述的CRF层作为最后一层进一步优化序列标注结果，损失函数由其真实路径分数和所有路径分数构成，训练中在每个批量上根据损失值进行反向传播运算，并选择F1分数作为模型的误差评价指标，衡量预测的好坏。

进一步地，所述S4具体为：

Embedding层分别对每个词进行嵌入成词向量，一维CNN对每个子句的词向量进行局部特征学习并降维，依次经过卷积和池化操作，形成子句嵌入向量；将子句嵌入向量序列输入双向LSTM神经网络，双向LSTM神经网络从正序和逆序学习子句向量序列，输出的特征序列向量输入CRF中计算得到最佳的序列标注结果；

对于新标记好的数据，首先使用原数据训练好的模型对其进行估计，得到CRF前若干条得分最高的序列标注结果及其分数作为软标签，再使用新数据打好的标签修正软标签，得到修正过的软标签；将原数据训练好的模型参数载入新的模型，再使用新数据及其修正过的软标签对模型进行再训练。

所述新标记好的数据为：足量的、包含旧类别和新类别的条款训练数据，使模型能够同时学习到新旧知识。

优选地，所述的双向LSTM神经网络，包括前向和后向LSTM神经网络，分别从文本正序和文本逆序处理输入子句嵌入向量序列，LSTM神经网络在大量训练中不断调整自身参数，使其从一维CNN提取的数据中学习数据间的上下文依赖关系。

优选地，所述S4中训练，在模型的层与层之间广泛引入Dropout技术以预防过拟合。

本发明还公开了一种基于增量学习的金融合同条款提取系统，该系统能够用于实施上述的金融合同条款提取方法，具体的，包括：数据获取模块、数据生成器模块、条款提取模块；

数据获取模块：获取条款数据，并对条款数据进行预处理及标准化；

数据生成器模块：生成神经网络输入张量；

条款提取模块：对条款训练数据输入条款提取模型进行训练，对新数据进行增量训练；将条款测试数据送入已训练完成的条款提取模型中进行预测，获取段落的序列标注并提取得到预测的条款。

本发明还公开了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述金融合同条款提取方法。

与现有技术相比，本发明的优点在于：

(1)本发明的条款提取技术能更好的学习上下文信息，有效利用卷积神经网络的速度和轻量特性与循环神经网络的顺序敏感性，同等条件下允许查看更多数据，预测准确度高于传统预测方法；

(2)使用双向LSTM从正序和逆序处理子句向量序列，能捕捉到可能被单向LSTM忽略掉的模式，提高子句向量序列的特征学习能力，从而提升预测准确度。

(3)本发明的增量学习方法能更好地保留旧知识，缓解学习新数据时带来的灾难性遗忘，同时保证新类别的识别能力。

附图说明

图1为本发明实施例中金融合同提取条款方法流程图；

图2为本发明实施例中条款预测模型结构示意图；

图3为本发明实施例中双向LSTM网络工作原理图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下根据附图并列举实施例，对本发明做进一步详细说明。

如图1所示，一种基于增量学习的金融合同条款提取方法，包括如下步骤：

S01、获取条款数据，并对条款数据进行预处理及标准化；

在本发明实施例中，数据集来源于网上收集的115份金融合同，并由专业人员标注合同中的条款。其中包含大量重复的文字描述，因此只保留了15份合同的全文数据，其余100份保留其未重复的、包含条款的段落文本。最终形成5449条段落数据，其中包含条款1754条。根据8：1：1划分为训练集、验证集、测试集。

通过标点符号，如句号、逗号、冒号、分号等，将段落拆分成子句序列；并通过构造好的词典，将子句中每个字词转换成词典中对应的数字编号，再根据设定好的最大子句长度对每个子句数字编号向量进行补齐或切除。后将一个段落的子句数字编号向量拼接，根据设定好的最大子句数量对每个段落进行补齐或切除。

S02、构造批量数据生成器，生成神经网络输入张量；

张量是机器学习系统的基本数据结构，是矩阵向任意维度的推广，张量生成器是在模型训练和测试过程中不断迭代生成数据批量作为输入供模型进行学习和预测，该生成器指定预测输入包含段落向量、子句序列标注、每个批量包含多少样本数，其返回是一个元组；

在本发明实施例中，模型输入数据是一个元组(样本X，目标Y)。其中，“样本”是包含2个维度的数组，大小为(每个批量的样本数B，段落序列总长度l×n)，每个段落序列为X＝{x₁,x₂,…,x_l×n}；“目标”是包含2个维度的数组，大小为(每个批量的样本数B，子句序列长度n)，每个子句序列标签为Y＝{y₁,y₂,…,y_n}。这里，设定每个训练批量B包含32个样本，一个样本最多包含30个子句，每个子句最大长度l为100个字，预测目标序列长度n为30个子句的标签。由于条款重点往往在最后的子句，前面的修饰子句可能不同或者没有，所以采用IOE(Inside-Outside-End)标注方式进行提取，即条款的开头及中间子句标记为“I-”加条款类别，条款的结尾子句或单个子句标记为“E-”加条款类别，非条款部分用“O”标记；

S10、基于一维CNN和双向LSTM神经网络条款提取模型；

所述的条款提取模型，如图2所示，具体为：

输入的段落文本数据等长拆分成n个子句{x₁,…,x_l；…；x_n×l+1,…,x_(n+1)×l}，每个句子包括l个词，每个词通过Embedding层进行词嵌入，得到词特征向量W_i＝{w_i×l+1,…,w_(i+1)×l}。所述一维CNN的输入端连接单个子句的词特征向量，输出得到子句的嵌入向量u_i。将段落中的所有子句嵌入向量拼接后输入双向LSTM神经网络，得到段落嵌入向量V＝{v₁,…，v_n}，双向LSTM神经网络的输出端接入CRF层，生成段落的子句序列标注

S20、将条款训练数据送入条款提取模型进行训练；具体为：

S201、所述一维CNN分别对每个子句进行嵌入学习并降维，依次经过卷积和池化操作，形成子句嵌入向量；

本发明实施例中，以长度为100的输入张量作为一维CNN的输入，一维CNN分别对每个子句进行嵌入学习和降维，使用卷积层进行嵌入学习，使用全局最大池化进行降维，压缩卷积层输出向量最后一维的长度。其中卷积层包含128个卷积核，核大小为5，随后是全局最大池化层，其将输入张量压缩至一维，输入128维的全连接层，激活函数为“ReLu”，后得到子句的嵌入向量；

S202、将特征序列输入双向LSTM神经网络，双向LSTM神经网络从文本正序和文本逆序学习子句嵌入向量；

本发明实施例中，子句嵌入向量进入双向LSTM神经网络，双向LSTM神经网络从文本正序和文本逆序学习特征序列。图3是双向LSTM的工作原理，输入特征序列经过两个LSTM神经网络同时从文本正序和文本逆序进行学习，学习到的特征再进行合并输出到下一层。此部分包含一层双向LSTM层，神经元数与输出的类别数相同，为19。

LSTM能动态地捕获序列数据信息，对信息有记忆保存的能力。LSTM模型引入了记忆单元和门限机制，实现了对长距离信息的有效利用，并解决了梯度消失问题。

LSTM单元的工作流程如下：

将句子嵌入向量作为输入序列(u₁,u₂,…,u_n)，对于t时刻有：

i_t＝σ(W_xiu_t+W_hih_t-1+W_ciC_t-1+b_i) (1)

f_t＝σ(W_xfu_t+W_hfh_t-1+W_cfC_t-1+b_f) (2)

C_t＝f_tC_t-1+i_ttanh(W_xcu_t+W_hch_t-1+b_c) (3)

o_t＝σ(W_xou_t+W_hoh_t-1+W_coC_t+b_o) (4)

h_t＝o_t tanh(C_t) (5)

其中,W表示连接两层的权重矩阵，b表示偏置向量，C表示记忆单元的状态，σ和tanh表示两种不同的神经元激活函数，i_t，f_t和o_t分别表示输入门、遗忘门和输出门，取前向和后向LSTM的隐层状态序列(h₁,h₂,…,h_n)作为段落嵌入向量V；

S203、在双向LSTM后接入CRF层，利用双向LSTM层输出的标签序列，进行子句级的序列标注，最终预测出最符合上下文标签顺序的子句序列标注，进而同时划分出条款的边界和类别；

CRF的工作原理如下：

假定引入转移得分矩阵A，矩阵元素A_i,j表示标签i转移到j的得分。段落长度为n个子句，则输出层的得分矩阵为P∈R^n×k,矩阵元素P_i,j表示第i个子句在第j个标签下的输出得分。给定输入一个段落n个子句的段落嵌入向量V＝(v₁,v₂,…,v_n)，输出标签序列Y＝(y₁,y₂,…,y_n)，则该标签序列的总得分为：

对所有可能的路径进行归一化，产生关于y的概率分布为：

在训练过程中，最大化关于正确标签序列y^*的对数概率为：

在解码阶段，预测总得分最高的序列作为最优序列作为最优序列，即

在预测阶段，采用动态规划算法Viterbi来求解最优序列。

为防止模型过拟，在层与层之间引入Dropout技术，该技术在训练过程中以一定概率随机将所在层的输出特征舍弃；在模型训练中，依据验证损失动态保存当前最佳模型，即完成一轮训练时，如果验证损失值没有改善，那么不覆盖模型文件，这样始终保存的是在训练过程中的最佳模型；在模型训练中，如果损失在若干次迭代后仍然没有得到下降，自动中断训练，并保存在训练过程中得到的最佳模型；

本发明实施例所采用的dropout概率为0.5。模型训练采用Adam优化器；

本发明实施例中，初始化训练以小批量进行，张量生成器在训练过程中不断迭代生成批量数据，每个批量包含32个样本，最大训练轮次设定为在整个训练集上训练40轮。模型使用CRF的对数概率作为损失函数，训练中在每个小批量上根据该值进行反向传播运算，同时，选择精确率(Precision)、召回率(Recall)和F1分数作为模型的评价指标，衡量预测的好坏。计算方式如下：

其中，TP为边界且类别正确的样本数量，FP为被预测为条款但是错误的样本数量，FN为实际是条款但没有正确预测出其边界和类别的样本数量。

S204、在增量学习时，面对新数据D^t，使用上一次训练的模型M^t-1进行预测，得到CRF前N条最佳路径

的概率分布：

再使用新数据的人工标注对预测的最佳路径

进行校正，得到修正后的最佳路径

并使用新模型M^t对校正后的路径计算概率分布：

然后用上述两个概率分布的交叉熵作为损失函数，反向传播训练模型M^t最小化损失：

其中CE(·,·)表示交叉熵函数。

S30、将条款测试数据送入已训练完成的条款提取模型中进行预测，获取段落的序列标注并提取得到预测的条款。

本发明再一个实施例中，提供了一种基于增量学习的金融合同条款提取系统，该系统能够用于实施上述的一种基于增量学习的金融合同条款提取方法，具体的，包括：数据获取模块、数据生成器模块、条款提取模块

数据生成器模块：生成神经网络输入张量；

本发明再一个实施例中，本发明还提供了一种存储介质，具体为计算机可读存储介质(Memory)，所述计算机可读存储介质是终端设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机可读存储介质既可以包括终端设备中的内置存储介质，当然也可以包括终端设备所支持的扩展存储介质。计算机可读存储介质提供存储空间，该存储空间存储了终端的操作系统。并且，在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机可读存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。

可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令，以实现上述实施例中有关一种基于增量学习的金融合同条款提取方法的相应步骤；计算机可读存储介质中的一条或一条以上指令由处理器加载并执行如下步骤：

S1、获取条款数据，并对条款数据进行预处理及标准化；

S2、构造批量数据生成器，生成神经网络输入张量；

S3、基于一维CNN和双向LSTM网络搭建条款提取模型；

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的实施方法，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.一种基于增量学习的金融合同条款提取方法，其特征在于，包括以下步骤：

S1、获取条款数据，并对条款数据进行预处理及标准化；

S2、构造批量数据生成器，生成神经网络输入张量；

S3、基于一维CNN和双向LSTM网络搭建条款提取模型；

2.根据权利要求1所述的一种基于增量学习的金融合同条款提取方法，其特征在于：S1中进行预处理及标准化具体为：

条款数据，以一个金融合同中的自然段落为一条数据；一个段落中可能包含一条或多条条款、也可能不包含条款；

将条款数据划分为训练集、验证集、测试集；

通过标点符号，将条款数据的段落拆分成子句序列；并通过构造好的词典，将子句中每个字词转换成词典中对应的数字编号，再根据设定好的最大子句长度对每个子句数字编号向量进行补齐或切除；后将一个段落的子句数字编号向量拼接，根据设定好的最大子句数量对每个段落进行补齐或切除。

3.根据权利要求1所述的一种基于增量学习的金融合同条款提取方法，其特征在于：S2中所述的批量数据生成器，其指定预测输入包含段落向量、子句序列标注及每个批量包含样本数，其返回是一个元组，即多变量输入数据的一个批量，对应的目标子句序列数组。

4.根据权利要求1所述的一种基于增量学习的金融合同条款提取方法，其特征在于：所述S3中条款提取模型具体为：

输入的段落文本数据等长拆分成若干个子句，并通过Embedding层进行词嵌入；所述一维CNN的输入端连接单个子句的词向量，输出得到子句的嵌入向量；将段落中的所有子句嵌入向量拼接后输入双向LSTM神经网络，双向LSTM神经网络的输出端接入CRF层，生成段落的子句序列标注。

5.根据权利要求4所述的一种基于增量学习的金融合同条款提取方法，其特征在于：所述的获取子句嵌入向量，具体为：使用卷积层进行子句特征学习，使用全局最大池化进行子采样，将卷积层输出的嵌入向量最后一维压缩。

6.根据权利要求4所述的一种基于增量学习的金融合同条款提取方法，其特征在于：所述的CRF层作为最后一层进一步优化序列标注结果，损失函数由其真实路径分数和所有路径分数构成，训练中在每个批量上根据损失值进行反向传播运算，并选择F1分数作为模型的误差评价指标，衡量预测的好坏。

7.根据权利要求1所述的一种基于增量学习的金融合同条款提取方法，其特征在于：所述S4具体为：

对于新标记好的数据，首先使用原数据训练好的模型对其进行估计，得到CRF前若干条得分最高的序列标注结果及其分数作为软标签，再使用新数据打好的标签修正软标签，得到修正过的软标签；将原数据训练好的模型参数载入新的模型，再使用新数据及其修正过的软标签对模型进行再训练；

8.根据权利要求7所述的一种基于增量学习的金融合同条款提取方法，其特征在于：所述的双向LSTM神经网络，包括前向和后向LSTM神经网络，分别从文本正序和文本逆序处理输入子句嵌入向量序列，LSTM神经网络在大量训练中不断调整自身参数，使其从一维CNN提取的数据中学习数据间的上下文依赖关系。

9.根据权利要求7所述的一种基于增量学习的金融合同条款提取方法，其特征在于：所述S4中训练，在模型的层与层之间广泛引入Dropout技术以预防过拟合。

10.一种基于增量学习的金融合同条款提取系统，其特征在于：金融合同条款提取系统能够用于实施权利要求1至9任意一项所述的金融合同条款提取方法；

所述金融合同条款提取系统，包括：数据获取模块、数据生成器模块、条款提取模块；

数据生成器模块：生成神经网络输入张量；