CN109933783A

CN109933783A - 一种不良资产经营领域的合同要素化方法

Info

Publication number: CN109933783A
Application number: CN201910096569.5A
Authority: CN
Inventors: 后其林; 尹昌; 钟丽莉; 万谊强; 仵伟强; 蒋泽晟
Original assignee: Huarong Fusion (beijing) Technology Co Ltd
Current assignee: Huarong Fusion (beijing) Technology Co Ltd
Priority date: 2019-01-31
Filing date: 2019-01-31
Publication date: 2019-06-25

Abstract

本发明公开一种不良资产经营领域的合同要素化方法，包括如下步骤：第一步：合同要素总结；第二步：数据预处理；第三步：特征构建；第四步：模型训练及测试；第五步：要素内容抽取。本发明优点在于：(1)利用自然语言处理技术与专家经验的融合，实现了计算机对合同文本的理解，能够实现自动化合同审核，从而提高了业务效率，降低了人工成本并减少相关操作风险的发生。(2)将合同要素化后的合同管理避免了传统合同管理中存在的丢失、损坏等风险，提高了合同信息的安全性与可靠性。(3)对合同信息的要素化管理，提高了合同知识的使用效率，有助于业务的开展和决策的确定。

Description

一种不良资产经营领域的合同要素化方法

技术领域

本发明涉及一种不良资产经营领域的合同要素化方法，尤其是一种基于SlotFilling(槽填充)模型的不良资产经营领域的合同要素化方法，涉及计算机信息处理与自然语言处理技术领域。

背景技术

随着业务结构的越发复杂，信息系统的快速发展，业务信息和财务信息的割裂是影响金融企业管理效率的一大难题。利用信息化技术实现对合同的要素化管理能够促进业务信息和财务信息的一体化融合，是推动业财一体化建设与提高业务效率的有力手段。在不良资产管理业务的开展过程中，由于金融产品本身的特性，存在不良资产处理结构复杂，业务模式多样，流程复杂的特点。以不良资产业务模式为例，包括了收购处置类、收购重组类两大类产品模式，每个大类的产品模式又细分为多个子产品。在各个业务开展过程中，会涉及资金方、资产方、不良资产、款项、产品结构、商业模式、法务法规等多源信息。而合同是这些业务中多源信息存在的重要载体。不论是对不良资产包的收购、委托、处置等过程，均需要使用合同来赋予双方权利和义务，并使用法律手段来保证彼此的权益，可见由于不良资产管理业务的特殊性决定了高效的合同管理方法对整个业务领域都具有重要影响。

对于不良资产管理领域的合同管理内容主要包括以下几个方面：一是存储，受限于科技的发展以及成本的约束，往往是将纸质文档或电子文档以堆叠的方式管理于某处。这种合同管理方式极易导致合同文件的丢失，并且对合同的使用效率大大降低。二是审核，合同文档是商业活动中约束活动双方的权利和义务的文件，它是保障业务流程能够得以顺利进行的重要环节。在实际的业务流程中，如根据不同的业务环节会存在各式各样的合同文档，尤其是在成熟的大型金融集团或公司当中，为了有效控制业务线条的合规风险和操作风险，法务部门往往会提供不同的业务合同模板，以供业务人员在拟定合同时参考，并会不定时对其进行更新。在开展实际的业务活动时，根据不同的业务类型和交易结构特点，在合同模板上进行修改以完成业务流程。商业活动包含的环节众多，包含了财务、供应商、投资、法务等各类业务场景。为了全面、准确的保障业务双方的权利和业务，合同审核和合同撰写环节是业务流程中的关重环节。合同审核环节充当合同形式化审核、提前发现潜在风险的责任。但是合同文档中往往包含大量的、不同类型的合同条款，这造成了合同文档包含的信息量大、合同文档页数多，为业务人员审核合同造成了巨大压力。在人工审核合同时，不仅会耗费大量人力、时间，并且由于人工审核合同无法避免人为因素的波动造成的漏审、误审等操作风险，进而影响业务进程的顺利进行。同时在撰写合同文档时，人工撰写合同效率低、存在操作性风险的发生。三是撰写，合同撰写环节承担着全面、准确的概况业务活动，合法保障业务双方权益的责任。合同撰写对业务人员的专业知识和业务素养提出了较高的要求，但在成熟的大型商业集团，尤其是金融集团，专业的法务人员会为业务人员提供一定的合同模板，业务人员需要结合实际的业务活动对其进行更改。人工的撰写合同时，由于合同的页数繁多，首先存在着一定的操作风险，其次由于业务经验和特定专业知识的缺欠，无法很好的利用已有的合同案例以及其他领域经验知识，造成了在撰写合同时存在信息不对称的困境。

随着科学技术的发展，尤其是计算机技术的普及，通过自然语言处理技术能够在一定程度上优化合同管理模式。即利用自然语言处理技术将存在于纸质合同、电子合同中的信息实现结构化抽取，实现对不良资产管理领域合同的要素化管理。通过结合人工经验和自然语言处理技术，使自然语言处理模型能够学习存在于合同文本中的知识，一定程度上弥补人工审核合同与撰写合同时效率低的问题，避免由人因不确定性造成的各类风险。同时，通过人工经验的合理介入融合了业务人员的专家经验解决了纯技术驱动的合同审核和撰写不易实施的痛点。并且在对合同文档文本中关键要素信息的自动识别与抽取的基础上，能够达到将合同文本转变为合同要素化结构数据的目的，从而减少相关风险的发生，并且能够盘活历史积累合同中的知识，实现对合同信息的高效利用。

发明内容

基于以上存在于的问题，本发明的目的在于提出一种不良资产经营领域的合同要素化方法，立足于自然语言处理技术，融合业务实践经验，提出了一种基于 Slot Filling(槽填充)模型的不良资产领域合同要素化方法。利用机器学习算法与规则匹配技术相结合，通过对历史合同样本的知识学习并构建启发式模型，能够实现对合同文档文本中关键要素信息的自动识别与抽取。能够达到将合同文本转变为合同要素化结构数据的目的，从而减少相关风险的发生，并且能够盘活历史积累合同中的知识，实现对合同信息的高效利用。

为实现上述目的，本发明一种不良资产经营领域的合同要素化方法，采用如下之技术方案：

一种不良资产经营领域的合同要素化方法本质上是一种基于数据驱动的机器学习模型的构建过程，其核心是Slot Filling模型的建立过程。SlotFilling模型是在设定目标槽位后，获取其相关属性的属性值的过程。因此，在本发明中将合同要素分解成为合同要素本体、合同要素属性、合同要素属性值三部分。首先，需要基于业务专家经验将整个合同分解为若干类合同要素。其次，将每一类合同要素本体作为Slot Filling模型的一个槽位，合同要素的名称作为槽位的属性，而对应的合同要素内容则作为槽位的属性值。合同要素化的过程实际上是根据合同要素槽的属性，从目标文本中获取槽值的过程。因此，不良资产管理领域合同要素化方法具体过程如图1所示。

第一步：合同要素总结。基于历史积累的合同文档，结合业务专家经验，提取出能够涵盖合同信息的各类合同要素，并分析任一类合同要素的构成，包括合同要素类别、定义、关键词；结合Slot Filling模型，梳理出合同要素相关的槽位和属性。

第二步：数据预处理。基于Slot Filling模型的合同要素化的方法本质上是针对每一类合同要素分别构建机器学习模型。首先，需要获得有关于某一类合同要素的所有文本内容。其次，需要对合同文档的内容进行人工标注，即对于包含合同要素内容的文本标注为1，对于仅包含合同要素关键字词的文本标注为0，其中包含合同要素内容指一个句子中既含有合同要素的关键字又含有该关键字对应的内容，而合同要素关键字是指用于表征该类合同要素的字或词。文本标注的方法是在文本文档中采用高亮显示，然后利用程序化语言正则匹配文本文档中每句内容，从而完成标签建立的过程。然后，需要去除标注内容中的停止词及分词，并将分词结果组合成新的语料。其中停止词是由中文语言中的不常用词、代词、介词以及其他标点符号所构成的集合。分词是指利用中文分词工具jieba分词将文本语句自动划分为中文词汇集。

第三步：特征构建。计算新语料中每个句子中词语的TF-IDF值，然后组成每个句子的句向量，作为模型的入模特征。本发明通过计算基于新语料的句子中各个词语的TF-IDF值进而组成N维向量作为入模特征，其中维度N取决于语料词袋的个数。在自然语言处理领域，TF-IDF是一种用以评估某个字词对于文件集合或语料库中的某份文件的重要程度，词频(TF：term frequency)常用于表示字词的重要性，TF的计算逻辑如下：

但是当某一个字词在文中多次出现时，它的重要性也会成正比增加，但是对于一些通用的词语，反倒是一些出现频率较低的词才能够表达文本主题,所以单纯使用词频来表示字词的重要性是不全面的。后来，往往利用逆向文件评率(IDF： inverse documentfrequency)来修正某个字词的TF值。IDF的主要思想是：如果包含某个词条的文档越少,IDF值越大，则说明该词条具有很好的类别区分能力 [10]。某一目标字词的IDF值可以由语料库中的总文件数目除以包含该字词的文件数目，然后对商取对数，其计算逻辑如下，其中分母加1的原因是为了避免分母为0。

根据某一文档中的TF和IDF值能够获得高权重的TF-IDF，进而完成过滤常见词语留下重要词语的任务。在本发明中，使用TF-IDF值的思想实现对合同文档中所有信息的特征转变，利用包含了词语信息的特征值作为Slot Filling模型的入模特征。

第四步：模型训练及测试。抽取所有文档中关于某类合同要素的所有句子，作为整体数据集，本发明中的Slot Filling模型是基于机器学习模型构建的，本发明中选用Logistic Regression模型进行模型构建。将整体数据集分为训练集和测试集，且二者比例为8:2。利用训练集，构建Logistic Regression分类器，识别包含合同要素信息的句子。Logistic Regression是一种典型的线性模型，可以将其抽象为如下问题。

首先，给定数据集D，其中每一个样本信息均包含x，y两个维度的信息，则D的数学表达式如下，：

D＝{(x₁，y₁)，(x₂，y₂)…(x_m，y_m)}

然后，希望利用线性模型获得数据中的规律，其中wx_i为特征的模型权重， b为截距，且能够满足对每个样本y维度信息的预测与其本身信息量几乎一致，其数学表达式如下：

f(x_i)＝wx_i+b，使得f(x_i)≈y_i

通过下面函数确定，使均方误差最小化，即：

对w和b求偏导，得到如下结果：

求完偏导数以后完成函数的参数更新。

Logistic Regression模型的Sigmoid函数在上述计算参数的过程中，在特征到结果的映射中加入了一层sigmoid函数(非线性)映射，即先把特征线性求和，然后使用sigmoid函数来预测，这个简单的逻辑函数使得Logistic Regression模型能够实现对非线性规律的拟合，其中Sigmoid函数的数学表达式如下：

虽然Logistic Regression算法能够用于分类，但其本质还是线性回归，但是它与线性回归不同的是在线性回归的基础上，在特征到结果的映射中加入了一层 sigmoid函数(非线性)映射从而能够实现对非线性规律的拟合。Logistic Regression算法是将线性函数的结果映射到了sigmoid函数中，sigmoid函数可以将输出映射到(0,1)之间，表明某组数据属于某一类别的概率，比如设定阈值为0.5，则当h(x)<0.5与h(x)>0.5的时候，函数表示不同的两类。在基于 Logistic Regression的Slot Filling模型中，Logistic Regression充当分类器的角色，用于区分包含合同要素内容的句子与包含合同要素关键词但不包含合同要素内容的句子。通过寻找到能够合同要素内容句子的特征维度，利用数据拟合获得Logistic Regression模型的参数，设定合适的阈值，进而完成对两类句子的分类，完成槽填充模型中的槽属性值搜寻任务。利用测试集评估模型的性能，直至满足要求。

第五步：要素内容抽取。利用正则匹配技术抽取包含合同要素信息句子中的合同要素内容，形成键值对，其中“键”为合同要素名称、“值”为合同要素内容，并以表格的形式可视化要素内容。

本发明一种不良资产经营领域的合同要素化方法，与现有技术相比，其优点及功效在于：(1)利用自然语言处理技术与专家经验的融合，实现了计算机对合同文本的理解，能够实现自动化合同审核，从而提高了业务效率，降低了人工成本并减少相关操作风险的发生。(2)将合同要素化后的合同管理避免了传统合同管理中存在的丢失、损坏等风险，提高了合同信息的安全性与可靠性。(3)对合同信息的要素化管理，提高了合同知识的使用效率，有助于业务的开展和决策的确定。

附图说明

图1不良资产领域合同要素化方法流程图。

表1文本数据预处理结果

表2模型预测概率结果表(部分)

表3模型评估结果

具体实施方式

下面将结合附图和实施例对本发明作进一步的详细说明。显然，所描述的案例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。所示。

实施例：

下面以《某金融公司债权重组合同测试合同》为例阐述本发明具体实施过程。

第一步，基于专家经验获得债权重组业务的合同要素

基于专家经验与业务知识，由一线业务专家基于业务经验提供合同要素信息包括要素名称、要素属性。其中合同要素种类包括但不限于合同编号、转让方信息、受让方信息、债务方信息、协议签订信息、债权、债权转让价款、交易保证金、转让方指定账户信息、附件信息、违约金信息、基准日信息。其中转让方信息又包括转让方名称、法定代表人、住所，受让方信息又包括受让方名称、负责人、地址，协议签订信息包括协议签订地点与协议签订日期。附件信息则是各个附件的名称。

第二步，数据预处理

本发明一种不良资产领域合同要素化方法，是基于数据驱动和专家经验的方法，其中数据驱动是其重要组成部分。在本发明的核心是构建Slot Filling模型，其本质是建立Logistic Regression模型。由于机器学习模型对输入的数据有一定的要求，所以对文本内容需要首先进行预处理，包括打标签、去除停止词以及分词，数据预处理结果如表1所示，本实施例按照句号作为句子元组的切分符号进行划分。

表1

第三步，特征构建

机器学习模型的核心是入模特征的构建，在本发明中是通过计算基于语料的句子中各个词语的TF-IDF值进而组成N维向量作为入模特征，其中维度N取决于语料词袋的个数。本实施例的基础数据集是基于30份债权转让协议构建的，其词汇个数(不重复)有32918个，去除掉出现频率较少的词汇后，形成的入模特征为3429维的稀疏特征，其中词语“转让方”的特征向量为[0，0，0，…… 0.78621，0，0……，0]。由于稀疏特征的每一个维度都表示了语料中包含的词汇，在此不对其进行降维处理。

第四步，模型训练集测试

基于训练集语料，计算出每个句子中各个词语的TF-IDF值后，见第三步；然后依次遍历每一个句子中所包含的词语组合，将所有词语的TF-IDF值分别相加，获得3429维的句向量作为入模特征代入分类模型，并将每个句子对应的标签(0或1)代入分类模型，训练100000次后，模型的误差符合标准，完成Logistic Regression分类器的构建。获得分类模型后可以将句向量和句子的标签作为模型的输入和输出，以0.5为阈值，判断句子所属类型。

模型预测结果(部分)如表2，预测文本中包含转让方要素关键词的句子共有320句，基于上述语料，利用上述模型可以获得包含了合同要素关键字词的句子属于不同类别的预测概率，由于模型的目的是识别类别为1的句子，所以取类别为1的句子概率最大的句子为模型要识别的句子，结果正确。仔细对比不同句子的实际含义与其预测概率的差别，可以发现利用每个句子中各个词语的TF-IDF值构成的句向量能够一定程度上包含句子的语义，也验证了该方法的实用性，如句子“甲方转让方中国华融资产管理股份有限公司XX市分公司”其对应类别1的预测概率为0.981293413。句子“甲方转让方中国华融资产管理股份有限公司XX市分公司盖章”其对应类别1的预测概率为0.981293413。两句话由于后者多了“盖章”二字，直接体现在预测概率的结果不同。基于结果，选择预测概率更高的句子，符合实际结果。

表2

合同要素“转让方”的分类器训练好后，利用验证集对模型进行验证，在此以准确率、召回率、f1分数等指标对模型进行评估，结果如表3。

	正确率	召回率	f1分数
				0	1.00	1.00	1.00
1	0.78	1.00	0.88
				Avg/total	1.00	1.00	1.00

表3

其中正确率为正确识别的个体总数/识别出的个体总数，它侧重于评估模型的查准度。召回率为正确识别的个体总数/测试集中存在的个体总数，它侧重于评估模型的查全度。f1分数为正确率*召回率*2/(正确率+召回率)，综合正确率和召回率进行加权调和，结果更具有参考意义。

从上表3中可以看出，合同要素“转让方”的分类模型的准确率在0.78，f1 分数在0.88左右，即对两类句子的分类效果良好，但受限于训练数据的数量，包含合同要素内容的训练样本较少，导致其无法达到更好的分类效果。相信随着语料的积累，其分类效果会逐渐改善。

第五步，要素内容抽取

在完成对包含合同要素内容的句子识别后，利用正则表达式完成语义抽取任务从而获得合同要素内容，最终完成合同要素化。并将合同要素化内容以表格的形式可视化展示，如表4所示。利用本文提出的方法将债权转让协议中的重要信息要素化后，帮助业务人员快速获取重要信息，促进公司业财一体化建设，并有利于规避人因不确定性导致的操作性风险。

表4

以上所述，仅为本发明的较佳实施样例，并非对本发明的技术范围做任何限制，故凡是依据本发明的技术实质对以上实施样例所做的任何细微修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种不良资产经营领域的合同要素化方法，其特征在于：该方法包括如下步骤：

第一步：合同要素总结

基于历史积累的合同文档，提取出能够涵盖合同信息的合同要素，并分析任一类合同要素的构成，包括合同要素类别、定义、关键词；结合Slot Filling模型，梳理出合同要素的槽位和属性；

第二步：数据预处理

首先，需要获得有关于某一类合同要素的所有文本内容；其次，需要对合同文档的内容进行人工标注，即对于包含合同要素内容的文本标注为1，对于仅包含合同要素关键字词的文本标注为0，其中包含合同要素内容指一个句子中既含有合同要素的关键字又含有该关键字对应的内容，而合同要素关键字是指用于表征该类合同要素的字或词；然后，需要去除标注内容中的停止词及分词，并将分词结果组合成新语料；

第三步：特征构建

计算新语料中每个句子中词语的TF-IDF值，然后组成每个句子的句向量，作为模型的入模特征；本发明通过计算基于新语料的句子中各个词语的TF-IDF值进而组成N维向量作为入模特征，其中维度N取决于语料词袋的个数；其中TF的计算逻辑如下：

某一目标字词的IDF值可以由语料库中的总文件数目除以包含该字词的文件数目，然后对商取对数，其计算逻辑如下，其中分母加1的原因是为了避免分母为0；

综上，使用TF-IDF值的思想实现对合同文档中所有信息的特征转变，利用包含了词语信息的特征值作为Slot Filling模型的入模特征；

第四步：模型训练及测试

抽取所有文档中关于某类合同要素的所有句子，作为整体数据集，选用LogisticRegression模型进行模型构建；将整体数据集分为训练集和测试集，且二者比例为8:2；利用训练集，构建Logistic Regression分类器，识别包含合同要素信息的句子；

第五步：要素内容抽取

利用正则匹配技术抽取包含合同要素信息句子中的合同要素内容，形成键值对，其中“键”为合同要素名称、“值”为合同要素内容，并以表格的形式可视化要素内容。

2.根据权利要求1所述的一种不良资产经营领域的合同要素化方法，其特征在于：所述的Logistic Regression是一种典型的线性模型，可以将其抽象为如下问题；

首先，给定数据集D，其中每一个样本信息均包含x，y两个维度的信息，则D的数学表达式如下：

D＝{(x₁，y₁)，(x₂，y₂)…(x_m，y_m)}

然后，希望利用线性模型获得数据中的规律，其中wx_i为特征的模型权重，b为截距，且能够满足对每个样本y维度信息的预测与其本身信息量几乎一致，其数学表达式如下：

f(x_i)＝wx_i+b，使得f(x_i)≈y_i

通过下面函数确定，使均方误差最小化，即：

对w和b求偏导，得到如下结果：

求完偏导数以后完成函数的参数更新；

Logistic Regression模型的Sigmoid函数在上述计算参数的过程中，在特征到结果的映射中加入了一层sigmoid函数映射，即先把特征线性求和，然后使用sigmoid函数来预测，这个简单的逻辑函数使得Logistic Regression模型能够实现对非线性规律的拟合，其中Sigmoid函数的数学表达式如下：

虽然Logistic Regression算法能够用于分类，但其本质还是线性回归，但是它与线性回归不同的是在线性回归的基础上，在特征到结果的映射中加入了一层sigmoid函数(非线性)映射从而能够实现对非线性规律的拟合；Logistic Regression算法是将线性函数的结果映射到了sigmoid函数中，sigmoid函数可以将输出映射到(0,1)之间，表明某组数据属于某一类别的概率，比如设定阈值为0.5，则当h(x)<0.5与h(x)>0.5的时候，函数表示不同的两类；在基于Logistic Regression的Slot Filling模型中，Logistic Regression充当分类器的角色，用于区分包含合同要素内容的句子与包含合同要素关键词但不包含合同要素内容的句子；通过寻找到能够合同要素内容句子的特征维度，利用数据拟合获得LogisticRegression模型的参数，设定合适的阈值，进而完成对两类句子的分类，完成槽填充模型中的槽属性值搜寻任务；利用测试集评估模型的性能，直至满足要求。