CN111753541B

CN111753541B - 一种对于合同文本数据进行自然语言处理nlp的方法及系统

Info

Publication number: CN111753541B
Application number: CN202010585598.0A
Authority: CN
Inventors: 马文; 汪飞; 赵志宇; 凌波; 苏文伟; 黄祖源; 田园; 张航
Original assignee: Information Center of Yunnan Power Grid Co Ltd
Current assignee: Information Center of Yunnan Power Grid Co Ltd
Priority date: 2020-06-24
Filing date: 2020-06-24
Publication date: 2023-08-15
Anticipated expiration: 2040-06-24
Also published as: CN111753541A

Abstract

本发明通过获取细分后的语料，根据文本聚类算法获取最近类别合同语料；将最近类别合同语料输入合同词汇表示学习模型进行训练以获得合同词汇模型，将所述加工后的细分语料分别输入各细分词汇表示学习模型进行训练以获得各细分词汇模型，根据基础词确定与之对应的相似度判定阈值；将基础词输入所述合同词汇模型，并采用与之对应的相似度判定阈值以预测与该基础词相关联的感兴趣的词；基于该感兴趣的词对待审合同进行数据抽取以识别出与所述感兴趣的词相关联的数据，从而实现较高的精度以及效率。

Description

一种对于合同文本数据进行自然语言处理NLP的方法及系统

技术领域

本发明涉及自然语言处理技术领域，更具体的，其涉及一种在合同审查领域对于合同文本数据进行自然语言处理NLP的方法及系统。

背景技术

合同，又称为契约、协议，是平等的当事人之间设立、变更、终止民事权利义务关系的协议。合同作为一种民事法律行为，是当事人协商一致的产物，是两个以上的意思表示相一致的协议。只有当事人所作出的意思表示合法，合同才具有国家法律约束力。依法成立的合同从成立之日起生效，具有国家法律约束力。

而在现有的法制社会下，不管是生活中还是工作中都会涉及到各类合同，总的来说，合同包括民事合同、行政合同、劳动合同等；具体来说，对于公司而言，在其日常经营活动中，涉及到与职工之间的劳务合同、外包合同、采购合同、各类工程项目合同以及贸易合同等。

由于合同广泛存在于人们生活的各个方面，并可能涉及到各个行业领域，其涉及面之广。然而，合同也需要满足法律所固有的合法性以及严谨的特点，对于个人而言，为了保证合同订立的有效性、以及尽可能避免可能出现的法律风险，需要法律行业相关人士进行人工核查；而对于公司而言，由于其涉及大量合同的签订，许多企业都设立了相关法律事务部门，通过专业的法律从业人员进行人工审核。然而，对于各类的不同合同，以及合同涉及到的大量数据，进行人工核查可能会出现疲劳、视觉差以及经验不足出现的误判等各类问题；基于此，自然语言处理(NLP)被应用在了合同审核中。

“一种合同条款的风险审查方法及装置”(申请号为201910311817.3)公开了一种合同条款风险审查的方法，其通过对同类型的合同进行自然语言处理，并计算条款文本的语义相似度以及结构相似度，从而根据相似度对待审查合同进行风险提示。

虽然通过自然语言处理代替人工进行合同审核极大提高了审核的效率与准确率，但现有技术对于合同审核的自然语言处理基本都是将现有的训练模型对应的算法直接应用，虽然现有技术中也有对业务类型进行获取，并针对该业务类型下提供的语料进行训练，从而提高模型准确性；然而，现有技术也仅是为了获取同一类型的语料而获取业务类型，并未真正将合同固有特性与自然语言学习模型有机结合，其审核效率较为低下，极大的浪费了审核资源。因此，如何针对不同合同提出与之相匹配的个性化自然语言处理方案是目前亟待解决的问题。

发明内容

本发明针对上述问题，提出了一种对于合同文本数据进行自然语言处理NLP的方法及系统；其可应用于合同审查领域对于文本数据进行收集。避免了因人工核查可能会出现的各类问题，并且提高了审核效率和审核准确率，降低了审核成本。

有鉴于此，本发明提出了一种对于合同文本数据进行自然语言处理NLP的方法，该方法应用于合同审核，其特征在于：从各数据源获取自然语言处理NLP语料；所述获取的自然语言处理NLP语料包括合同类语料和细分语料；对所述合同类语料和细分语料进行语料加工处理；将所述加工后的合同类语料通过文本聚类算法进行文本聚类；计算聚类簇各自的聚类中心；根据聚类算法计算待审核的合同与各聚类中心的距离，将所述距离最近对应的聚类簇作为最近类别合同语料；将最近类别合同语料输入合同词汇表示学习模型进行训练以获得合同词汇模型，将所述加工后的细分语料分别输入各细分词汇表示学习模型进行训练以获得各细分词汇模型，其中，所述训练学习采用监督学习方法，将预测错误的数据与其他数据间隔输入模型进行训练，直至满足终止条件；获取各细分词汇模型对应的相似度判定阈值；根据基础词确定与之对应的相似度判定阈值；将基础词输入所述合同词汇模型，并采用与之对应的相似度判定阈值以预测与该基础词相关联的感兴趣的词；基于该感兴趣的词对待审合同进行数据抽取以识别出与所述感兴趣的词相关联的数据。通过上述方法，实现了对各种不同类别的合同审核有针对性的进行训练，从而大大提高信息收集效率的作用。

考虑到合同审核领域的特点，本申请将合同用语表达划分为法律类、专业技术类以及通用类三大类，基本涵盖了合同审核领域中可能涉及的自然语言处理数据类型。而为了提供与该合同审核更为匹配的自然语言处理方法，对于语料的获取首先必然包括合同类语料。对合同类语料的获取大致可通过已有语料以及网上数据抓取两个途径；对于公司而言，随着业务发展都会积累有大量的纸质合同或者电子合同文本资料。如果现有语料不足，则可选择获取国内外标准开放数据集，也可以选择通过爬虫抓取数据；然而，对于法律类、专业技术类以及通用类三大类而言，合同类语料相对于一般语料而言其丰富程度低得多，此外，尤其对于专业技术类语料更是匮乏，仅通过合同类语料进行训练得到的模型最终准确率会受到很大影响。因此，除了需要对合同类语料的获取，也需要获取细分语料，即法律类、专业类以及通用类语料。

进一步的，所述语料加工处理包括数据洗清、分词、词性标注和去停用词。

进一步的，所述分词采用基于统计的分词方法。

为了更为准确的进行机器学习，现有技术一般是获取待审合同对应的类型，并获取与该类型相对应的合同语料，而一般对合同类型的获取方式为通过获取合同标题，对标题进行主题归类。上述方式确实能一定程度提高机器学习效率与准确率，然而，根据标题对主题类型进行归类会有样本数据过大，样本准确率不高的问题。从而，不仅影响合同审核效率，还会降低机器学习准确率。基于此，将所述加工后的合同类语料通过文本聚类算法进行文本聚类；计算聚类簇各自的聚类中心；根据聚类算法计算待审核的合同与各聚类中心的距离，将所述距离最近对应的聚类簇作为最近类别合同语料。从而确定与待审核合同最为接近的“同类型”样本。

进一步的，所述文本聚类包括PCA降维以提高聚类效率。

由于法律类、专业技术类以及通用类分属不同类别，其各自机器学习模型对应的相似度阈值也不相同，因此，将所述加工后的细分语料分别输入各细分词汇表示学习模型进行训练以获得各细分词汇模型，其中，所述训练学习采用监督学习方法，将预测错误的数据与其他数据间隔输入模型进行训练，直至满足终止条件。从而获取各细分词汇模型对应的相似度判定阈值。而针对预测错误的数据反馈有针对性的继续输入模型进行训练从而大大提高了模型训练的效率。

进一步的，所述合同词汇表示学习模型采用GloVe模型；这是考虑到合同的特性，即较强的逻辑性、语言的严谨性等；而GloVe模型是一种基于全局词频统计的词表征工具，它可通过对词的上下文关系建模以实现对词的语义解释。因此，将GloVe模型作为合同审核的模型比word2vec、ElMo等其他模型能取得更好的效果。

进一步的，所述基础词为风险信息词或其他感兴趣的词。

此外，本申请还请求保护一种对于合同文本数据进行自然语言处理NLP的系统，该系统应用于合同审核，其特征在于：包括：获取模块，从各数据源获取自然语言处理NLP语料，所述获取的自然语言处理NLP语料包括合同类语料和细分语料；加工处理模块，对所述合同类语料和细分语料进行语料加工处理；聚类模块：将所述加工后的合同类语料通过文本聚类算法进行文本聚类，计算聚类簇各自的聚类中心，根据聚类算法计算待审核的合同与各聚类中心的距离，将所述距离最近对应的聚类簇作为最近类别合同语料；训练模块，将最近类别合同语料输入合同词汇表示学习模型进行训练以获得合同词汇模型，将所述加工后的细分语料分别输入各细分词汇表示学习模型进行训练以获得各细分词汇模型，其中，所述训练学习采用监督学习方法，将预测错误的数据与其他数据间隔输入模型进行训练，直至满足终止条件；相似度获取模块，获取各细分词汇模型对应的相似度判定阈值；根据基础词确定与之对应的相似度判定阈值；合同词汇模型模块，将基础词输入所述合同词汇模型，并采用与之对应的相似度判定阈值以预测与该基础词相关联的感兴趣的词；数据抽取模块，基于该感兴趣的词对待审合同进行数据抽取以识别出与所述感兴趣的词相关联的数据。

进一步的，所述分词采用基于统计的分词方法。

进一步的，所述文本聚类包括PCA降维以提高聚类效率。

进一步的，所述基础词为风险信息词或其他感兴趣的词。

根据上述技术方案，本发明与现有技术相比，其具有以下优点：

考虑到合同审核领域的特点，本申请将合同用语表达划分为法律类、专业技术类以及通用类三大类，基本涵盖了合同审核领域中可能涉及的自然语言处理数据类型。然而，对于法律类、专业技术类以及通用类三大类而言，合同类语料相对于一般语料而言其丰富程度低得多，此外，尤其对于专业技术类语料更是匮乏，仅通过合同类语料进行训练得到的模型最终准确率会受到很大影响。因此，本申请通过对细分语料，即法律类、专业类以及通用类语料的获取，丰富了样本。

针对根据标题对主题类型进行归类会有样本数据过大，样本准确率不高的问题。本申请将所述加工后的合同类语料通过文本聚类算法进行文本聚类；计算聚类簇各自的聚类中心；根据聚类算法计算待审核的合同与各聚类中心的距离，将所述距离最近对应的聚类簇作为最近类别合同语料。从而确定与待审核合同最为接近的“同类型”样本。

由于法律类、专业技术类以及通用类分属不同类别，其各自机器学习模型对应的相似度阈值也不相同，因此，将所述加工后的细分语料分别输入各细分词汇表示学习模型进行训练以获得各细分词汇模型，从而获取各细分词汇模型对应的相似度判定阈值。从而实现了针对基础词更为准确的预测。

附图说明

图1为本申请实施例中一种利用自然语言处理NLP的合同审核方法流程图

图2为本申请实施例中一种利用自然语言处理NLP的合同审核系统的结构示意图

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或者先后次序。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚的列出的或对于这些过程、方法、系统、产品、或设备固有的其他步骤或单元。

针对现有技术审核效率较为低下，浪费审核资源的问题。本申请提出一种与合同审查这一应用领域更加适配的自然语言处理方案，提高了审核效率与准确率。参见说明书附图1对本发明利用自然语言处理NLP的合同审核方法流程图的进一步说明。

图1为本申请实施例中一种利用自然语言处理NLP的合同审核方法流程图，参见图1，该方法包括：

从各数据源获取自然语言处理NLP语料，所述获取的自然语言处理NLP语料包括合同类语料和细分语料；

对所获取的自然语言处理NLP语料进行语料加工处理；

所述语料加工处理包括数据洗清、分词、词性标注和去停用词。

所述分词采用基于统计的分词方法。

将所述加工后的合同类语料通过文本聚类算法进行文本聚类；计算聚类簇各自的聚类中心；根据聚类算法计算待审核的合同与各聚类中心的距离，将所述距离最近对应的聚类簇作为最近类别合同语料；

所述文本聚类包括PCA降维以提高聚类效率；

将最近类别合同语料输入合同词汇表示学习模型进行训练以获得合同词汇模型，将所述加工后的细分语料分别输入各细分词汇表示学习模型进行训练以获得各细分词汇模型，其中，所述训练学习采用监督学习方法，将预测错误的数据与其他数据间隔输入模型进行训练，直至满足终止条件。

所述合同词汇表示学习模型采用GloVe模型；这是考虑到合同的特性，即较强的逻辑性、语言的严谨性等；而GloVe模型是一种基于全局词频统计的词表征工具，它可通过对词的上下文关系建模以实现对词的语义解释。因此，将GloVe模型作为合同审核的模型比word2vec、ElMo等其他模型能取得更好的效果。此外，针对预测错误的数据反馈有针对性的继续输入模型进行训练从而大大提高了模型训练的效率。

获取各细分词汇模型对应的相似度判定阈值；根据基础词确定与之对应的相似度判定阈值；将基础词输入所述合同词汇模型，并采用与之对应的相似度判定阈值以预测与该基础词相关联的感兴趣的词。

基于该感兴趣的词对待审合同进行数据抽取以识别出与所述感兴趣的词相关联的数据；

将进行加工后的自然语言处理NLP语料输入所述词汇表示学习模型进行训练以获得词汇模型；

所述词汇模型是一种将单词转换成向量形式的常用工具，利用该工具可以把对文本内容的处理简化为向量空间中的向量运算，而计算出的向量空间上的相似度表示了文本语义上的相似度。

将基础词输入所述词汇模型以预测与该基础词相关联的感兴趣的词；

所述基础词为风险信息词或其他感兴趣的词；

利用词向量模型，技术人员只要提供一个标准的基础词，所述词向量模型就能够根据经NLP文本语料训练后的词对词之间的关系预测出与所输入的基础词相关联的一系列潜在的相似词及其相似度，这些相似词基本覆盖了该基础词可能的表达方式。

基于该感兴趣的词对待审合同进行数据抽取以识别出与所述感兴趣的词相关联的数据。

本申请还请求保护一种对于合同文本数据进行自然语言处理NLP的系统，其应用于合同审核中利用自然语言处理NLP的合同审核系统的结构示意图，图2为本申请实施例中一种利用自然语言处理NLP的合同审核系统的结构示意图，参见图2，该系统包括：

获取模块，从各数据源获取自然语言处理NLP语料，所述获取的自然语言处理NLP语料包括合同类语料和细分语料；

加工处理模块，对所述合同类语料和细分语料进行语料加工处理；

聚类模块：将所述加工后的合同类语料通过文本聚类算法进行文本聚类，计算聚类簇各自的聚类中心，根据聚类算法计算待审核的合同与各聚类中心的距离，将所述距离最近对应的聚类簇作为最近类别合同语料；

训练模块，将最近类别合同语料输入合同词汇表示学习模型进行训练以获得合同词汇模型，将所述加工后的细分语料分别输入各细分词汇表示学习模型进行训练以获得各细分词汇模型，其中，所述训练学习采用监督学习方法，将预测错误的数据与其他数据间隔输入模型进行训练，直至满足终止条件；

相似度获取模块，获取各细分词汇模型对应的相似度判定阈值；根据基础词确定与之对应的相似度判定阈值；

合同词汇模型模块，将基础词输入所述合同词汇模型，并采用与之对应的相似度判定阈值以预测与该基础词相关联的感兴趣的词；

数据抽取模块，基于该感兴趣的词对待审合同进行数据抽取以识别出与所述感兴趣的词相关联的数据。

本发明考虑到合同审核领域的特点，将合同用语表达划分为法律类、专业技术类以及通用类三大类，丰富了样本。针对根据标题对主题类型进行归类会有样本数据过大，样本准确率不高的问题。本申请将所述加工后的合同类语料通过文本聚类算法进行文本聚类；计算聚类簇各自的聚类中心；根据聚类算法计算待审核的合同与各聚类中心的距离，将所述距离最近对应的聚类簇作为最近类别合同语料。从而确定与待审核合同最为接近的“同类型”样本。并且考虑到法律类、专业技术类以及通用类分属不同类别，其各自机器学习模型对应的相似度阈值也不相同，从而将所述加工后的细分语料分别输入各细分词汇表示学习模型进行训练以获得各细分词汇模型，从而获取各细分词汇模型对应的相似度判定阈值。从而实现了针对基础词更为准确的预测。

在本申请案中，本发明的各种实施例可以范围的形式来呈现。应理解，以范围形式出现的描述仅仅出于便利及简明，且不应被理解为对本发明的范畴的固定限制。

应了解，本发明的特定特征，出于清晰而在单独实施例的背景中描述，也可以单个实施例的组合的形式来给出。相反，本发明的各种特征，出于简明而在单个实施例的背景中描述，也可以单独给出，或者在本发明的任何其他所描述的实施例中适宜的给出。各个实施例的背景中所描述的特定特征不应理解为这些实施例的关键特征，除非实施例如果缺乏这些构成便无法运行。

以上结合具体实施方式对本发明进行了详细说明，不过这些说明并不能理解为对本发明的限制。本领域技术人员理解，在不偏离本发明精神和范围的情况下，可以对本发明技术方案及其实施方式进行多种等价替换、修饰或改进，这些均落入本发明的范围内。本发明的保护范围以所附权利要求为准。

Claims

1.一种对于合同文本数据进行自然语言处理NLP的方法，该方法应用于合同审核，其特征在于：从各数据源获取自然语言处理NLP语料；所述获取的自然语言处理NLP语料包括合同类语料和细分语料，其中，所述细分语料包括：法律类、专业类以及通用类语料；

对所述合同类语料和细分语料进行语料加工处理；

将最近类别合同语料输入合同词汇表示学习模型进行训练以获得合同词汇模型，将所述加工后的细分语料分别输入各细分词汇表示学习模型进行训练以获得各细分词汇模型，其中，所述训练学习采用监督学习方法，将预测错误的数据与其他数据间隔输入模型进行训练，直至满足终止条件；

获取各细分词汇模型对应的相似度判定阈值；根据基础词确定与之对应的相似度判定阈值；

将基础词输入所述合同词汇模型，并采用与之对应的相似度判定阈值以预测与该基础词相关联的感兴趣的词；

2.根据权利要求1所述的对于合同文本数据进行自然语言处理NLP的方法，其特征在于，所述语料加工处理包括：数据洗清、分词、词性标注和去停用词。

3.根据权利要求2所述的对于合同文本数据进行自然语言处理NLP的方法，其特征在于，所述分词采用基于统计的分词方法。

4.根据权利要求1所述的对于合同文本数据进行自然语言处理NLP的方法，其特征在于，所述文本聚类包括PCA降维以提高聚类效率。

5.根据权利要求1所述的对于合同文本数据进行自然语言处理NLP的方法，其特征在于，所述合同词汇表示学习模型采用GloVe模型。

6.一种对于合同文本数据进行自然语言处理NLP的系统，该系统应用于合同审核，其特征在于：包括：获取模块，从各数据源获取自然语言处理NLP语料，所述获取的自然语言处理NLP语料包括合同类语料和细分语料，其中，所述细分语料包括：法律类、专业类以及通用类语料；

7.根据权利要求6所述的对于合同文本数据进行自然语言处理NLP的系统，其特征在于，所述加工处理模块包括数据洗清、分词、词性标注和去停用词。

8.根据权利要求7所述的对于合同文本数据进行自然语言处理NLP的系统，其特征在于，所述分词采用基于统计的分词方法。

9.根据权利要求6所述的对于合同文本数据进行自然语言处理NLP的系统，其特征在于，所述文本聚类包括PCA降维以提高聚类效率。

10.根据权利要求6所述的对于合同文本数据进行自然语言处理NLP的系统，其特征在于，所述合同词汇表示学习模型采用GloVe模型。