CN111753540B

CN111753540B - 一种对于文本数据进行收集以进行自然语言处理nlp的方法及系统

Info

Publication number: CN111753540B
Application number: CN202010583310.6A
Authority: CN
Inventors: 苏文伟; 马文; 汪飞; 赵志宇; 凌波; 张航; 黄祖源; 田园
Original assignee: Information Center of Yunnan Power Grid Co Ltd
Current assignee: Information Center of Yunnan Power Grid Co Ltd
Priority date: 2020-06-24
Filing date: 2020-06-24
Publication date: 2023-04-07
Anticipated expiration: 2040-06-24
Also published as: CN111753540A

Abstract

本发明通过判断待审核的合同的类别；根据所述合同的类别确定其对应的词汇表大小；进而确定词汇表示学习模型；将进行加工后的自然语言处理NLP语料输入所述词汇表示学习模型进行训练以获得词汇模型；将基础词输入所述词汇模型以预测与该基础词相关联的感兴趣的词；基于该感兴趣的词对待审合同进行数据抽取以识别出与所述感兴趣的词相关联的数据，从而实现较高的精度以及效率。

Description

一种对于文本数据进行收集以进行自然语言处理NLP的方法及系统

技术领域

本发明涉及自然语言处理技术领域，更具体的，其涉及一种在合同审查领域对于文本数据进行收集以进行自然语言处理NLP的方法及系统。

背景技术

合同，又称为契约、协议，是平等的当事人之间设立、变更、终止民事权利义务关系的协议。合同作为一种民事法律行为，是当事人协商一致的产物，是两个以上的意思表示相一致的协议。只有当事人所作出的意思表示合法，合同才具有国家法律约束力。依法成立的合同从成立之日起生效，具有国家法律约束力。

而在现有的法制社会下，不管是生活中还是工作中都会涉及到各类合同，总的来说，合同包括民事合同、行政合同、劳动合同等；具体来说，对于公司而言，在其日常经营活动中，涉及到与职工之间的劳务合同、外包合同、采购合同、各类工程项目合同以及贸易合同等。

由于合同广泛存在于人们生活的各个方面，并可能涉及到各个行业领域，其涉及面之广。然而，合同也需要满足法律所固有的合法性以及严谨的特点，对于个人而言，为了保证合同订立的有效性、以及尽可能避免可能出现的法律风险，需要法律行业相关人士进行人工核查；而对于公司而言，由于其涉及大量合同的签订，许多企业都设立了相关法律事务部门，通过专业的法律从业人员进行人工审核。然而，对于各类的不同合同，以及合同涉及到的大量数据，进行人工核查可能会出现疲劳、视觉差以及经验不足出现的误判等各类问题；基于此，自然语言处理（NLP）被应用在了合同审核中。

“一种合同条款的风险审查方法及装置”（申请号为201910311817.3）公开了一种合同条款风险审查的方法，其通过对同类型的合同进行自然语言处理，并计算条款文本的语义相似度以及结构相似度，从而根据相似度对待审查合同进行风险提示。

虽然通过自然语言处理代替人工进行合同审核极大提高了审核的效率与准确率，但现有技术对于合同审核的自然语言处理基本都是将现有的训练模型对应的算法直接应用，虽然现有技术中也有对业务类型进行获取，并针对该业务类型下提供的语料进行训练，从而提高模型准确性；但也仅是根据业务类型对训练语料做出的进一步限定。并且，在词汇表较大的一些情况下，其审核效率较为低下，极大的浪费了审核资源。因此，如何在面对不同合同的情况下，更好的兼顾审核效率与准确率，提出与合同审查这一应用领域更加适配的自然语言处理方案是目前亟待解决的问题。

发明内容

本发明针对上述问题，提出了一种用于自然语言处理NLP的合同文本信息的收集方法及系统；其可应用于合同审查领域进行自然语言处理NLP的合同文本信息的收集。避免了人工核查可能会出现的各类问题，并且兼顾了审核效率和审核准确率，降低了审核成本。

有鉴于此，本发明提出了一种用于自然语言处理NLP的合同文本信息的收集方法，该方法应用于合同审核，其特征在于：从各数据源获取自然语言处理NLP语料；对所获取的自然语言处理NLP语料进行语料加工处理；判断待审核的合同的类别；根据所述合同的类别确定其对应的词汇表大小；根据词汇表大小确定词汇表示学习模型；将进行加工后的自然语言处理NLP语料输入所述词汇表示学习模型进行训练以获得词汇模型；将基础词输入所述词汇模型以预测与该基础词相关联的感兴趣的词；基于该感兴趣的词对待审合同进行数据抽取以识别出与所述感兴趣的词相关联的数据。通过上述方法，实现了对各种不同类别的合同审核有针对性的进行训练，从而大大提高信息收集效率的作用。

进一步的，对自然语言处理语料的获取大致可通过已有语料以及网上数据抓取两个途径；对于公司而言，随着业务发展都会积累有大量的纸质合同或者电子合同文本资料。如果现有语料不足，则可选择获取国内外标准开放数据集，也可以选择通过爬虫抓取数据。

进一步的，所述语料加工处理包括数据洗清、分词、词性标注和去停用词。

进一步的，所述分词采用基于统计的分词方法。

进一步的，所述待审核的合同的类别包括合同的类型以及合同涉及的领域。其中，合同的类型包括民事合同、行政合同等；合同涉及的领域可以是日常、或各专业领域（如电力工程领域、基建工程领域）等。

进一步的，所述根据所述合同的类别确定其对应的词汇表大小，其确定方式可根据合同的不同类别通过深度学习模型来确定；也可通过有经验的律师以及专业技术人员联合确定。

进一步的，所述词汇表示学习模型采用GloVe模型；这是考虑到合同的特性，即较强的逻辑性、语言的严谨性等；而GloVe模型是一种基于全局词频统计的词表征工具，它可通过对词的上下文关系建模以实现对词的语义解释。因此，将GloVe模型作为合同审核的模型比word2vec、ElMo等其他模型能取得更好的效果。而所述根据词汇表大小确定词汇表示学习模型，进一步包括选用个体启发式算法还是梯度算法作为损失函数。

进一步的，所述个体启发式算法包括爬山算法、禁忌算法、贪婪算法以及模拟退火算法。

进一步的，所述基础词为风险信息词或其他感兴趣的词。

此外，本申请还请求保护一种用于自然语言处理NLP的合同文本信息的收集系统，该系统应用于合同审核，其特征在于：所述系统包括：获取模块，用于从各数据源获取自然语言处理NLP语料；加工处理模块，用于对所获取的自然语言处理NLP语料进行语料加工处理；判断模块，用于判断待审核的合同的类别；第一确定模块，根据所述合同的类别确定其对应的词汇表大小；第二确定模块，根据词汇表大小确定词汇表示学习模型；训练模块，将进行加工后的自然语言处理NLP语料输入所述词汇表示学习模型进行训练以获得词汇模型；词汇模型模块，将基础词输入所述词汇模型以预测与该基础词相关联的感兴趣的词；数据抽取模块，基于该感兴趣的词对待审合同进行数据抽取以识别出与所述感兴趣的词相关联的数据。

进一步的，所述获取模块通过已有语料以及网上数据抓取两个途径；对于公司而言，随着业务发展都会积累有大量的纸质合同或者电子合同文本资料。如果现有语料不足，则可选择获取国内外标准开放数据集，也可以选择通过爬虫抓取数据。

进一步的，所述加工处理模块包括数据洗清、分词、词性标注和去停用词。

进一步的，所述分词采用基于统计的分词方法。

进一步的，所述判断模块中，对所述待审核的合同的类别的判断包括对待审核的合同的类型以及合同涉及的领域的判断。其中，合同的类型包括民事合同、行政合同等；合同涉及的领域可以是日常、或各专业领域（如电力工程领域、基建工程领域）等。

进一步的，所述第一确定模块根据合同的不同类别通过深度学习模型来确定词汇表大小；也可通过有经验的律师以及专业技术人员联合确定。

进一步的，所述第二确定模块包括将所述词汇表示学习模型确定GloVe模型，并根据词汇表大小确定词汇表示学习模型选用个体启发式算法还是梯度算法作为损失函数。

进一步的，所述基础词为风险信息词或其他感兴趣的词。

根据上述技术方案，本发明与现有技术相比，其具有以下优点：

本发明考虑到自然语言处理中涉及到词向量空间的构建，而不同维度的词向量空间直接影响到模型的精度以及效率；因此，将合同所属类别，包括其类型以及领域作为词汇表大小判定因素，从而确定与之匹配的损失函数模型（即个体启发式算法或梯度算法），从而实现较高的精度以及效率。

考虑到合同审核领域中合同特有的逻辑性以及语言严谨性等特点，而GloVe模型是一种基于全局词频统计的词表征工具，它可通过对词的上下文关系建模以实现对词的语义解释，并且在构建基于词的共现矩阵时也体现了词之间的关联性信息，GloVe模型的这一特性尤其适合逻辑性强的合同审核领域，能实现比word2vec、ElMo等其他模型能取得更好的效果。

附图说明

图1为本申请实施例中一种利用自然语言处理NLP的合同审核方法流程图

图2为本申请实施例中一种利用自然语言处理NLP的合同审核系统的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或者先后次序。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚的列出的或对于这些过程、方法、系统、产品、或设备固有的其他步骤或单元。

针对现有技术将现有的训练模型对应的算法直接应用于对合同审核的自然语言处理。然而，在词汇表较大的一些情况下，其审核效率较为低下，极大的浪费了审核资源。因此，本申请提出一种在面对不同合同的情况下，更好的兼顾审核效率与准确率，并且与合同审查这一应用领域更加适配的自然语言处理方案。参见说明书附图1对本发明利用自然语言处理NLP的合同审核方法流程图的进一步说明。

图1为本申请实施例中一种利用自然语言处理NLP的合同审核方法流程图，参见图1，该方法包括：

从各数据源获取自然语言处理NLP语料；

NLP是自然语言处理的缩写。自然语言处理(即实现人机间自然语言通信)或实现自然语言理解和自然语言生成是十分困难的。造成困难的根本原因是自然语言文本和对话的各个层次上广泛存在的各种各样的歧义性或多义性。而合同中各种感兴趣的词数据的不同叫法其实就是典型的歧义性或多义性的体现。为了解决所述歧义性或多义性，首先需要构建NLP语料库。

语料库是指经科学取样和加工的大规模电子文本库，包含大规模的真实文本数据。它是自然语言处理的基础资源。可以通过各种途径，例如，可以从互联网上的新闻、法律、条款、微博、知乎、线上图书馆等等网络资源，或者电子化的期刊、出版物、论文、杂志等电子资料之类的各种数据源，来收集NLP语料库所需的语料数据。可以理解如果在构建NLP语料库时的数据源越是丰富、越是有针对性，则所构建的语料库的质量就越好。例如，在构建针对法务合同的NLP语料库时，技术人员可以有倾向性地多从诸如政府网站、律师机构网站、法院网站、法律法规图书馆等专业网站来收集语料以提高NLP语料库的质量。

对于公司而言，随着业务发展都会积累有大量的纸质合同或者电子合同文本资料。如果现有语料不足，则可选择获取国内外标准开放数据集，也可以选择通过爬虫抓取数据。

当在NLP语料库中收集到足够的NLP文本语料之后，需要对所述NLP文本语料进行数据加工处理。真实语料需要经过加工(分析和处理)，才能成为有用的资源。所述数据加工处理可以包括分词、数据清洗、停用词处理、大写变小写、简繁体转换、全角转半角以及其他各种规范化处理，以生成经规范化的NLP文本语料。

对所获取的自然语言处理NLP语料进行语料加工处理；

语料清洗

数据清洗，顾名思义就是在语料中找到我们感兴趣的东西，把不感兴趣的、视为噪音的内容清洗删除，包括对于原始文本提取标题、摘要、正文等信息，对于爬取的网页内容，去除广告、标签、HTML、JS 等代码和注释等。常见的数据清洗方式有：人工去重、对齐、删除和标注等，或者规则提取内容、正则表达式匹配、根据词性和命名实体提取、编写脚本或者代码批处理等。

分词

中文语料数据为一批短文本或者长文本，比如：句子，文章摘要，段落或者整篇文章组成的一个集合。一般句子、段落之间的字、词语是连续的，有一定含义。而进行文本挖掘分析时，我们希望文本处理的最小单位粒度是词或者词语，所以这个时候就需要分词来将文本全部进行分词。

常见的分词算法有：基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法和基于规则的分词方法，每种方法下面对应许多具体的算法。

词性标注

词性标注，就是给每个词或者词语打词类标签，如形容词、动词、名词等。这样做可以让文本在后面的处理中融入更多有用的语言信息。词性标注是一个经典的序列标注问题，不过对于有些中文自然语言处理来说，词性标注不是非必需的。比如，常见的文本分类就不用关心词性问题，但是类似情感分析、知识推理却是需要的。

常见的词性标注方法可以分为基于规则和基于统计的方法。其中基于统计的方法，如基于最大熵的词性标注、基于统计最大概率输出词性和基于 HMM 的词性标注。

去停用词

停用词一般指对文本特征没有任何贡献作用的字词，比如标点符号、语气、人称等一些词。所以在一般性的文本处理中，分词之后，接下来一步就是去停用词。但是对于中文来说，去停用词操作不是一成不变的，停用词词典是根据具体场景来决定的，比如在情感分析中，语气词、感叹号是应该保留的，因为他们对表示语气程度、感情色彩有一定的贡献和意义。

判断待审核的合同的类别；

本申请将合同分解为类型属性以及其所属领域属性，基于这两大属性从而确定其可能对应的词汇表大小。即所述待审核的合同的类别包括合同的类型以及合同涉及的领域。其中，合同的类型代表合同所属合同性质，如民事合同、行政合同等，也可为更为下位的合同类型；合同涉及的领域则代表合同的内容对应的领域，例如日常通用领域、或各专业领域（如电力工程领域、基建工程领域）等。

根据所述合同的类别确定其对应的词汇表大小；

由于自然语言处理中涉及到词向量空间的构建，而不同维度的词向量空间直接影响到模型的精度以及效率；因此本申请提出了需要根据合同的类别来确定其对应的词汇表大小，其确定方式可根据合同的不同类别通过深度学习模型来确定；也可通过有经验的律师以及专业技术人员联合确定。

其中，合同的不同类别通过深度学习模型来确定，可通过多种可能的深度学习模型，最为直接的方式就是通过对合同名称的信息提取分析来实现对应词汇表大小的判断；而另外也可通过有经验的律师以及专业技术人员联合确定，然而，该种方式虽然确定起来效率很高，但准确率比不上深度学习模型的确定方式，并且也需要有经验的专业人员才可能做出较为准确的判断。综上，在尽可能的情况下，还是优先选择通过深度学习模型确定词汇表大小的方式。

此外，需要说明的是，这里需要确定的词汇表大小并不必要是一个确定值，其仅需要是一个相对大小值，其比较的基准是相对于各类合同而言。如对应于电力工程领域的项目合同，需要考虑到项目合同的特性以及电力工程领域可能涉及的各专业用语和可能的通用词等，再根据深度学习模型或者人工大致判定该类别合同对应的词汇表大小情况。

根据词汇表大小确定词汇表示学习模型；

所述词汇表示学习模型采用GloVe模型；这是考虑到合同的特性，即较强的逻辑性、语言的严谨性等；而GloVe模型是一种基于全局词频统计的词表征工具，它可通过对词的上下文关系建模以实现对词的语义解释。因此，将GloVe模型作为合同审核的模型比word2vec、ElMo等其他模型能取得更好的效果。而所述根据词汇表大小确定词汇表示学习模型，进一步包括选用个体启发式算法还是梯度算法作为损失函数。所述个体启发式算法包括爬山算法、禁忌算法、贪婪算法以及模拟退火算法。

其中，爬山算法的特点是每次输出的是相同的。从一个解开始，寻找最优，易陷入局部最优。该算法思想是从当前的节点开始，和周围的邻居节点的值进行比较。如果当前节点是最大的，那么返回当前节点，作为最大值(即山峰最高点)；反之就用最高的邻居节点替换当前节点，从而实现向山峰的高处攀爬的目的。虽然其找到的点并不一定是最优点，但该算法的优点也很明显：容易理解，容易实现，具有较强的通用性；局部开发能力强，收敛速度很快。

禁忌算法是基于爬山算法的改进，标记已经解得的局部最优解或求解过程，并在进一步的迭代中避开这些局部最优解或求解过程。局部搜索的缺点在于，太过于对某一局部区域以及其邻域的搜索，导致一叶障目。为了找到全局最优解，禁忌搜索就是对于找到的一部分局部最优解，有意识地避开它，从而或得更多的搜索区域。因此该算法避免了在搜索过程中的循环，不以局部最优作为停止准则邻域选优的规则模拟了人类的记忆功能。

贪婪算法是从问题的某一个初始解出发逐步逼近给定的目标，以尽可能快的地求得更好的解。当达到算法中的某一步不能再继续前进时，算法停止。

模拟退火算法作为局部搜索算法的扩展，在每一次修改模型的过程中，随机产生一个新的状态模型，然后以一定的概率选择邻域中能量值大的状态．这种接受新模型的方式使其成为一种全局最优算法，并得到理论证明和实际应用的验证．模拟退火算法虽然在寻优能力上不容置疑，但它是以严密的退火计划为保证的，具体地讲，就是足够高的初始温度、缓慢的退火速度、大量的迭代次数及同一温度下足够的扰动次数。

将进行加工后的自然语言处理NLP语料输入所述词汇表示学习模型进行训练以获得词汇模型；

所述词汇模型是一种将单词转换成向量形式的常用工具，利用该工具可以把对文本内容的处理简化为向量空间中的向量运算，而计算出的向量空间上的相似度表示了文本语义上的相似度。

将基础词输入所述词汇模型以预测与该基础词相关联的感兴趣的词；

利用词向量模型，技术人员只要提供一个标准的基础词（可以为风险关联词等），所述词向量模型就能够根据经NLP文本语料训练后的词对词之间的关系预测出与所输入的基础词相关联的一系列潜在的相似词及其相似度，这些相似词基本覆盖了该基础词可能的表达方式。

在一些实施例中，技术人员可以为相似度设定一个阈值，即仅仅将具有大于等于该阈值的相似度的相似词作为预测结果输出。低于该阈值的相似词由于与该基础词之间的关系不紧密而被过滤掉。这样可以避免将不太相似的词过度纳入到个人相关数据的范围中，减轻了处理的负担并提高了效率。

基于该感兴趣的词对待审合同进行数据抽取以识别出与所述感兴趣的词相关联的数据。

本申请还请求保护一种用于自然语言处理NLP的合同文本信息的收集系统，其应用于合同审核中利用自然语言处理NLP的合同审核系统的结构示意图，图2为本申请实施例中一种利用自然语言处理NLP的合同审核系统的结构示意图，参见图2，该系统包括：

获取模块，用于从各数据源获取自然语言处理NLP语料；

所述获取模块通过已有语料以及网上数据抓取两个途径；对于公司而言，随着业务发展都会积累有大量的纸质合同或者电子合同文本资料。如果现有语料不足，则可选择获取国内外标准开放数据集，也可以选择通过爬虫抓取数据。

加工处理模块，用于对所获取的自然语言处理NLP语料进行语料加工处理；

所述加工处理模块包括数据洗清、分词、词性标注和去停用词。

所述分词可采用基于统计的分词方法。

判断模块，用于判断待审核的合同的类别；

所述判断模块中，对所述待审核的合同的类别的判断包括对待审核的合同的类型以及合同涉及的领域的判断；

第一确定模块，根据所述合同的类别确定其对应的词汇表大小；

所述第一确定模块根据合同的不同类别通过深度学习模型来确定词汇表大小；

第二确定模块，根据词汇表大小确定词汇表示学习模型；

所述第二确定模块包括将所述词汇表示学习模型确定GloVe模型，并根据词汇表大小确定词汇表示学习模型选用个体启发式算法还是梯度算法作为损失函数。所述个体启发式算法包括爬山算法、禁忌算法、贪婪算法以及模拟退火算法。

训练模块，将进行加工后的自然语言处理NLP语料输入所述词汇表示学习模型进行训练以获得词汇模型；

词汇模型模块，将基础词输入所述词汇模型以预测与该基础词相关联的感兴趣的词；

所述基础词为风险信息词或其他感兴趣的词；

数据抽取模块，基于该感兴趣的词对待审合同进行数据抽取以识别出与所述感兴趣的词相关联的数据。

本发明通过将合同所属类别，包括其类型以及领域作为词汇表大小判定因素，从而确定与之匹配的损失函数模型（即个体启发式算法或梯度算法），从而实现较高的精度以及效率。此外，考虑到合同审核领域中合同特有的逻辑性以及语言严谨性等特点，而GloVe模型是一种基于全局词频统计的词表征工具，它可通过对词的上下文关系建模以实现对词的语义解释，并且在构建基于词的共现矩阵时也体现了词之间的关联性信息，GloVe模型的这一特性尤其适合逻辑性强的合同审核领域，实现了比其他模型能更好的效果。

在本申请案中，本发明的各种实施例可以范围的形式来呈现。应理解，以范围形式出现的描述仅仅出于便利及简明，且不应被理解为对本发明的范畴的固定限制。

应了解，本发明的特定特征，出于清晰而在单独实施例的背景中描述，也可以单个实施例的组合的形式来给出。相反，本发明的各种特征，出于简明而在单个实施例的背景中描述，也可以单独给出，或者在本发明的任何其他所描述的实施例中适宜的给出。各个实施例的背景中所描述的特定特征不应理解为这些实施例的关键特征，除非实施例如果缺乏这些构成便无法运行。

以上结合具体实施方式对本发明进行了详细说明，不过这些说明并不能理解为对本发明的限制。本领域技术人员理解，在不偏离本发明精神和范围的情况下，可以对本发明技术方案及其实施方式进行多种等价替换、修饰或改进，这些均落入本发明的范围内。本发明的保护范围以所附权利要求为准。

Claims

1.一种用于自然语言处理NLP的合同文本信息的收集方法，该方法应用于合同审核，其特征在于：

从各数据源获取自然语言处理NLP语料；

对所获取的自然语言处理NLP语料进行语料加工处理；

判断待审核的合同的类别；

根据所述合同的类别确定其对应的词汇表大小；

由于自然语言处理中涉及到词向量空间的构建，而不同维度的词向量空间直接影响到模型的精度以及效率；因此需要根据合同的类别来确定其对应的词汇表大小，其确定方式根据合同的不同类别通过深度学习模型来确定；

所述待审核的合同的类别包括合同的类型以及合同涉及的领域；

所述根据所述合同的类别确定其对应的词汇表大小，其确定方式为：根据合同的不同类别通过深度学习模型来确定；

根据词汇表大小确定词汇表示学习模型；

所述根据词汇表大小确定词汇表示学习模型，包括根据词汇表大小确定所述模型的损失函数确定为爬山算法、禁忌算法、贪婪算法、模拟退火算法或梯度算法；

所述词汇表示学习模型采用GloVe模型；

2.根据权利要求1所述的用于自然语言处理NLP的合同文本信息的收集方法，其特征在于，所述对所获取的自然语言处理NLP语料进行语料加工处理包括：数据洗清、分词、词性标注和去停用词，所述分词采用基于统计的分词方法。

3.一种用于自然语言处理NLP的合同文本信息的收集系统，该系统应用于合同审核，其特征在于：包括：

获取模块，用于从各数据源获取自然语言处理NLP语料；

判断模块，用于判断待审核的合同的类别；

第二确定模块，根据词汇表大小确定词汇表示学习模型；

所述词汇表示学习模型采用GloVe模型；

4.根据权利要求3所述的用于自然语言处理NLP的合同文本信息的收集系统，其特征在于，所述加工处理模块包括数据洗清、分词、词性标注和去停用词，所述分词采用基于统计的分词方法。