CN110502632A

CN110502632A - 基于聚类算法的合同条款评审方法、装置、计算机设备及存储介质

Info

Publication number: CN110502632A
Application number: CN201910654533.4A
Authority: CN
Inventors: 鄢真; 周双双; 付伟宇; 陈瑶; 杨昊燃; 叶素兰
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-07-19
Filing date: 2019-07-19
Publication date: 2019-11-26

Abstract

本发明实施例公开了一种基于聚类算法的合同条款评审方法、装置、计算机设备及存储介质。所述方法包括：根据标题级格式将训练合同文本拆分为合同条款，利用聚类算法对合同条款进行聚类以将合同条款划分为多个合同类型并根据所划分的合同类型建立条款库；当接收到待评审合同文本，首先判断待评审合同文本的合同类型，然后根据待评审合同文本的合同类型从条款库中获取对应合同类型的合同条款与待评审合同中的待评审合同条款进行相似度计算，若相似度低于预设阈值，则判定待评审合同文本的合同条款为缺失。本发明的方法基于人工智能技术，通过实施本发明实施例的方法可保证颗粒度相同，提高评审准确率，节省人力资源。

Description

基于聚类算法的合同条款评审方法、装置、计算机设备及存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于聚类算法的合同条款评审方法、装置、计算机设备及存储介质。

背景技术

目前，在合同条款评审领域中，对于合同必备条款的缺失评审，是传统法律评审中最基本的一环。而随着法律的进步与发展，条款种类繁多、数量庞大，合同条款评审会耗费巨大的人力，由此通过机器来处理此类繁复机械的问题成为大势所趋。目前常用的AI合同评审模型常用的处理逻辑为：对不同类型的合同中各风险条款进行大量的人工标注，然后基于标注好的条款样例对合同内容进行相似度匹配，进而提示缺失。然而现有的合同条款评审方法存在以下不足：第一，在训练样本的构造过程中需要耗费大量的业务人力，不同类型的合同需要熟悉不同领域的律师来进行标注，而且随着时间的推移，新的合同模板不断出现，要让业务人员持续跟进是不现实的。第二，由于样本标注是业务人员进行的，模型无法保证合同段落拆分的逻辑能确保所拆分段落与标注样本颗粒度相同，造成更大计算量的同时还会出现由不同颗粒度导致的相似度匹配误差。第三，由业务人员进行样本标注具有很强的主观性，不同业务人员标出来的样本颗粒度不统一，且准确率较低。

发明内容

本发明实施例提供了一种基于聚类算法的合同条款评审方法、装置、计算机设备及存储介质，旨在解决样本标注颗粒度不同而导致模型计算量增多、出现相似度匹配误差以及准确率低的问题。

第一方面，本发明实施例提供了一种基于聚类算法的合同条款评审方法，其包括：从预设数据库中获取训练合同文本并根据标题级格式对所有的所述训练合同文本进行段落拆分以得到合同条款；对所述合同条款进行特征工程以将所述合同条款转换为句向量；利用聚类算法对所述句向量进行聚类以将所述句向量对应的所述合同条款划分为多个合同类型，并根据所划分的合同类型建立条款库；若接收到待评审合同文本，判断所述待评审合同文本的合同类型并根据标题级格式对所述待评审合同文本进行段落拆分以得到待评审合同条款；从所述条款库中获取与所述待评审合同文本的合同类型对应的合同条款，并将所获取的合同条款与所述待评审合同条款进行相似度计算；若所获取的合同条款与所述待评审合同条款的相似度低于预设阈值，则判定所述待评审合同文本中的合同条款为缺失并生成缺失提示消息以提示缺失。

第二方面，本发明实施例还提供了一种基于聚类算法的合同条款评审装置，其包括：获取单元，用于从预设数据库中获取训练合同文本并根据标题级格式对所有的所述训练合同文本进行段落拆分以得到合同条款；特征单元，用于对所述合同条款进行特征工程以将所述合同条款转换为句向量；聚类单元，用于利用聚类算法对所述句向量进行聚类以将所述句向量对应的所述合同条款划分为多个合同类型，并根据所划分的合同类型建立条款库；判断单元，用于若接收到待评审合同文本，判断所述待评审合同文本的合同类型并根据标题级格式对所述待评审合同文本进行段落拆分以得到待评审合同条款；计算单元，用于从所述条款库中获取与所述待评审合同文本的合同类型对应的合同条款，并将所获取的合同条款与所述待评审合同条款进行相似度计算；判定单元，用于若所获取的合同条款与所述待评审合同条款的相似度低于预设阈值，则判定所述待评审合同文本中的合同条款为缺失并生成缺失提示消息以提示缺失。

第三方面，本发明实施例还提供了一种计算机设备，其包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现上述方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时可实现上述方法。

本发明实施例提供了一种基于聚类算法的合同条款评审方法、装置、计算机设备及存储介质。其中，所述方法包括：从预设数据库中获取训练合同文本并根据标题级格式对所有的所述训练合同文本进行段落拆分以得到合同条款；对所述合同条款进行特征工程以将所述合同条款转换为句向量；利用聚类算法对所述句向量进行聚类以将所述句向量对应的所述合同条款划分为多个合同类型，并根据所划分的合同类型建立条款库；若接收到待评审合同文本，判断所述待评审合同文本的合同类型并根据标题级格式对所述待评审合同文本进行段落拆分以得到待评审合同条款；从所述条款库中获取与所述待评审合同文本的合同类型对应的合同条款，并将所获取的合同条款与所述待评审合同条款进行相似度计算；若所获取的合同条款与所述待评审合同条款的相似度低于预设阈值，则判定所述待评审合同文本中的合同条款为缺失并生成缺失提示消息以提示缺失。本发明实施例由于根据标题级格式将训练合同文本拆分为合同条款，利用聚类算法对合同条款进行聚类以将合同条款划分为多个合同类型并根据所划分的合同类型建立条款库；当接收到待评审合同文本，首先判断待评审合同文本的合同类型，然后根据待评审合同文本的合同类型从条款库中获取对应合同类型的合同条款与待评审合同中的待评审合同条款进行相似度计算，若相似度低于预设阈值，则判定待评审合同文本的合同条款为缺失，可实现保证颗粒度相同，提高评审准确率，节省人力资源的效果。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于聚类算法的合同条款评审方法的流程示意图；

图2为本发明实施例提供的基于聚类算法的合同条款评审方法的子流程示意图；

图3为本发明实施例提供的基于聚类算法的合同条款评审方法的子流程示意图；

图4为本发明实施例提供的基于聚类算法的合同条款评审方法的子流程示意图；

图5为本发明另一实施例提供的基于聚类算法的合同条款评审方法的流程示意图；

图6为本发明实施例提供的基于聚类算法的合同条款评审装置的示意性框图；

图7为本发明实施例提供的基于聚类算法的合同条款评审装置的具体单元的示意性框图；

图8为本发明实施例提供的基于聚类算法的合同条款评审装置的判断单元的示意性框图

图9为本发明另一实施例提供的基于聚类算法的合同条款评审装置的示意性框图；以及

图10为本发明实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1，图1为本发明实施例提供的基于聚类算法的合同条款评审方法的示意性流程图。该基于聚类算法的合同条款评审方法应用在终端中。

图2是本发明实施例提供的基于聚类算法的合同条款评审方法的流程示意图。如图所示，该方法包括以下步骤S110-S150。

S110、从预设数据库中获取训练合同文本并根据标题级格式对所有的所述训练合同文本进行段落拆分以得到合同条款。

在一实施例中，预设数据库是存储法律合同文本的数据库，标题级格式指的是文本的多种标题样式，例如，一级标题级格式“第一章”，“1.、2.、3.”，二级标题级格式“(一)”，“1.1、2.1、3.1”等。具体地，首先从预设数据库中获取法律合同文本，将所获取的法律合同文本作为训练合同文本，例如获取10万份的训练合同文本；然后获取训练合同文本后对训练合同文本进行预处理，预处理主要是通过调用办公软件工具将dox格式的文件转换为docx格式的文件，以及通过调用VB(Visual Basic)的宏代码将训练合同文本的标题级格式转换为文本，以准确地识别训练合同文本的标题级格式；接着再对训练合同文本穷举所有可能的标题级格式，以对训练合同文本的各级标题级格式进行识别；最后按照各级标题级格式对训练合同文本进行段落拆分，保留一级标题级和二级标题级的段落，也即对训练合同文本进行了一级和二级两种颗粒度的拆分，每级标题下的段落即表示合同条款，从而得到合同条款。

S120、对所述合同条款进行特征工程以将所述合同条款转换为句向量。

在一实施例中，特征工程指的是将原始数据转变为模型的训练数据的过程，也即将文本形式的合同条款转换为可供模型输入的句向量。具体地，首先通过分词工具对合同条款进行分词得到多个词组，然后在通过词向量工具将词组转换词向量，最后再对所有的词向量进行加权平均得到该合同条款对应的句向量。

在一实施例中，如图2所示，所述步骤S120可包括步骤S121-S123。

S121、通过分词工具对所述合同条款进行分词并对分词后的词组分配权重。

在一实施例中，分词指的是将连续的字序列按照一定的规范重新组合成词序列的过程，也即将一个汉字序列切分成一个一个单独的词。分词工具采用jieba，分词前首先对合同条款去除标点符号，例如，“，”、“。”以及去除停用词，如“着”、“和”等，保留法律专用词，如“不得”，“除”，然后再通过jieba进行分词得到多个词组。例如，“在履行合同过程中，一方当事人因第三人的原因造成违约的，应当向对方当事人承担违约责任”，分词后得到“履行/合同/过程/中/一方/当事人/因/第三人/原因/造成/违约/，应当/向/对方当事人/承担/违约责任”。分词后还需要对分词后的词组分配权重，权重的分配主要是根据合同条款的关键字，关键字与法律名词越匹配则权重越高，各合同条款的关键字和权重已预先设定好，将分词后的词组进行关键字匹配即可获取对应的权重。例如，“保密”、“机密”、“义务”、以及“履行”等权重较高，而“过程”、“原因”以及“终止”等权重则较低。

S122、通过词向量工具将分词后的词组转换为词向量。

在一实施例中，词向量工具是一种自然语言处理工具，其作用就是将自然语言中的字词转为计算机可以理解的词向量。本方案采用Word2vec这一词向量工具来得到词向量，Word2Vec主要采用Skip-Gram和CBOW两种模型来实现词向量的转换。本方案采用Skip-Gram模型来实现词向量的转换，Skip-Gram模型主要是通过中心词来预测上下文的词，Skip-Gram模型已预先训练好，Skip-Gram模型包括输入层、隐藏层以及输出层，从输入层到隐藏层的映射没有采用激活函数，而隐藏层到输出层采用霍夫曼树进行优化。将合同条款的词组输入至词向量工具中，通过词向量工具转换为词向量。

S123、根据所分配的权重对所述词向量进行加权平均以得到所述合同条款的句向量。

在一实施例中，将拆分的合同条款看做句子，在得到合同条款的词向量后，再根据合同条款的词向量求得合同条款的句向量，具体地，将分词后每个词语分配得到的权重作为其对应词向量的权重，对合同条款的词向量进行加权平均得到合同条款的句向量。例如，合同条款的词向量为a、b、c、d，其对应词组的权重为0.8、0.95、0.1、0.2，那么该合同条款的句向量x则为x＝0.8a+0.95b+0.1c+0.2d。

S130、利用聚类算法对所述句向量进行聚类以将所述句向量对应的所述合同条款划分为多个合同类型，并根据所划分的合同类型建立条款库。

在一实施例中，k-means算法是一种聚类算法，所谓聚类，即根据相似性原则，将具有较高相似度的数据对象划分至同一类簇，将具有较高相异度的数据对象划分至不同类簇。具体地，k-means算法是首先随机选取K个对象(句向量)作为初始的聚类中心(初始化质心)，然后计算每个对象与各个种子聚类中心之间的距离，将每个对象分配给距离它最近的聚类中心；聚类中心以及分配给它们的对象就代表一个聚类，每分配一个样本，聚类的聚类中心会根据聚类中现有的对象被重新计算；这个过程将不断重复直到满足某个终止条件，如误差平方和局部最小，从而将对象划分到不同的类簇中。由于k个初始化的质心的位置选择对最后的聚类结果和运行时间都有很大的影响，如果仅仅是完全随机的选择，有可能导致算法收敛很慢，因此为了选择合适的k个质心，本方案采用K-Means++算法，K-Means++算法就是对K-Means随机初始化质心的方法的优化。具体地，从所有的句向量中随机选择一个作为聚类中心，计算每一个句向量到初始质心的距离，选择一个最近的句向量作为下一个聚类中心，重复上述过程直到选择到K个聚类中心，根据所选择的K个聚类中心运行传统的k-means算法即可。其中，K即为合同类型，本方案的合同类型包括采购、租赁、融资、担保、融资租赁、资管、资管(信托)、代销、股权九大类，对象即为合同条款的句向量，因此K值为9。最终得到九个合同条款集，根据预设的合同类型对合同条款集进行标识，合同类型即表示对应该合同条款的集合，每个合同类型表示一个合同条款集，每个合同类型中包含有多条同类型的合同条款。根据所划分得到的合同类型建立条款库，将同一合同类型的合同条款均存储到同一个存储地址中。

在本实施例中，还可对每个合同类型划分为通用条款库以及特异性风险条款库，将同一合同类型的通用条款存储在该合同类型的通用条款库中，将同一合同类型的特异性风险条款存储在该合同类型的特异性风险条款库中。例如，在采购合同中，设立了18个通用条款(采购标的、费用支付、争议解决条款、保密条款、违约条款等)，个别采购小类合同中的特异性风险条款，例如白蚁预防合同中会有防止措施这样的特异性风险条款。

S140、若接收到待评审合同文本，判断所述待评审合同文本的合同类型并根据标题级格式对所述待评审合同文本进行段落拆分以得到待评审合同条款。

在本实施例中，待评审合同文本是需要评审必备条款是否缺失的法律合同，在接收到待评审合同文本之后，首先判断该待评审合同的合同类型，可采用两者方式进行判断，一种是通过正则表达式匹配待评审合同文本的标题来获取该待评审合同文本的合同类型，另一种是采用TF-IDF算法求得该待评审合同文本的关键字来获取该待评审合同文本的合同类型。另外，还需要对待评审合同进行段落拆分，根据与拆分训练合同文本相同的标题级格式对待评审合同文本进行段落拆分，得到待评审合同文本的待评审条款，采用相同的标题级格式拆分即采用相同的颗粒度对待评审合同文本进行拆分，保证了条款库中的合同条款与待评审合同条款的颗粒度一致，以克服不同颗粒度造成的计算量增大，以及相似度匹配误差的问题。

在一实施例中，如图3所示，所述步骤S140可包括步骤S141-S142。

S141、通过正则表达式获取所述待评审合同文本的标题。

S142、将所述待评审合同文本的标题与所述合同类型进行匹配以获取所述待评审合同文本的合同类型。

在一实施例中，正则表达式是对字符串操作的一种逻辑公式，通过事先定义好的一些特定字符、及这些特定字符的组合组成一个规则字符串，这个规则字符串用于表达对字符串的一种过滤逻辑。将合同类型作为预先设定的规则字符串，例如，采购合同、租赁合同以及融资合同等，然后定位到待评审合同的标题，根据预先设定的规则字符串与待评审合同的标题进行匹配，若匹配成功则将规则字符串作为该待评审合同文本的合同类型。

在另一实施例中，如图4所示，所述步骤S140可包括步骤S143-S145。

S143、采用TF-IDF算法计算所述待评审合同中所有词组的TF-IDF值。

S144、根据所有词组的TF-IDF值按照由高到低进行排序。

S145、根据所述排序选取关键字与所述合同类型进行匹配以获取所述待评审合同文本的合同类型。

在一实施例中，TF-IDF(term frequency–inverse document frequency)是一种统计方法，用于评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。其中TF是词频(Term Frequency)，表示词组在文本中出现的频率，IDF是逆向文件频率(Inverse Document Frequency)，是一个词语普遍重要性的度量。具体地，首先根据分词工具对待评审合同文本进行分词得到多个词组，对待评审合同文本中的每一个词组计算TF值以及IDF值，TF值等于词组在文本中出现的次数除以文本的总词数，IDF值等于总文本数除以包含该词组的文本数取对数；然后将TF值与IDF值相乘得到TF-IDF值，根据每一个词组对应的TF-IDF值按照由高到低进行排序；最后根据排序结果选择排序最高的关键字与划分的所述合同类型进行匹配，若该关键字与所述合同类型匹配，则将匹配的合同类型作为该待评审合同的合同类型，若该关键字与所述合同类型不匹配，则继续选择排序第二高的关键字与划分的所述合同类型匹配，从而得到待评审合同的合同类型。

S150、从所述条款库中获取与所述待评审合同文本的合同类型对应的合同条款，并将所获取的合同条款与所述待评审合同条款进行相似度计算。

在一实施例中，在判断出待评审合同文本的合同类型后，首先根据待评审合同文本的合同类型从条款库(通用条款库以及特异性风险条款库)中获取对应的合同类型的合同条款，然后根据待评审合同文本的待评审条款与条款库中所获取的合同条款一一进行相似度计算。具体地，首先将待评审合同条款进行特征工程，以将待评审合同条款转换为句向量，该过程与上述特征工程的过程相同，在此不再赘述；然后计算待评审合同条款的句向量与条款库中合同条款的句向量之间的cos余弦距离，余弦距离是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量，该cos余弦距离即表示待评审合同条款与条款库中合同条款之间的相似度，余弦值越接近与1则表示相似度越高，余弦值越小则表示相似度越低；每一待评审合同条款均与条款库中的合同条款一一进行相似度计算，取相似度最高的余弦值作为该待评审合同条款与从条款库取出的合同条款之间的相似度。

S160、若所获取的合同条款与所述待评审合同条款的相似度低于预设阈值，则判定所述待评审合同文本中的合同条款为缺失并生成缺失提示消息以提示缺失。

在一实施例中，将待评审合同条款的相似度与预设阈值进行对比，若待评审合同条款的相似度高于预设阈值，则说明待评审合同文本中存在必备的合同条款；若待评审合同条款的相似度低于预设阈值，则说明待评审合同文本中不存在必备的合同条款，判定该待评审合同文本的合同条款为缺失。其中，预设阈值是预先设定好的相似度阈值，每条合同条款均设置有预设阈值。例如，待评审合同条款的相似度为0.8，其对应的预设阈值为0.6，则说明该待评审合同中存在必备条款，该待评审合同条款评审通过。同时，根据待评审合同文本的合同编号生成缺失提示消息，以邮件的形式发送至预设的邮件地址，该邮件地址是审核人员的邮件地址，从而提示审核人员该待评审合同文本缺失合同条款。

在一实施例中，如图5所示，所述步骤S160之后，还包括步骤S170

S170、根据正则表达式提取所述待评审合同文本的主体信息。

在一实施例中，主体信息指的是公司的名称或者是公司的统一信用代码，将合同中通用的引出公司主体信息的字符预设为规则字符串，例如，在采购过合同中，“甲方：”、“乙方：”、“第三人：”，在租赁合同中，“承租方：”，“出租方：”等，然后根据规则字符串对待评审合同文本进行遍历，提取与规则字符串匹配的文字内容，即主体信息。得到主体信息后，对接企业画像API接口，可查询合同各方是否存在关联交易及黑灰名单情况，以保证合同各方的交易利益。

本发明实施例展示了一种基于聚类算法的合同条款评审方法，通过从预设数据库中获取训练合同文本并根据标题级格式对所有的所述训练合同文本进行段落拆分以得到合同条款；对所述合同条款进行特征工程以将所述合同条款转换为句向量；利用聚类算法对所述句向量进行聚类以将所述句向量对应的所述合同条款划分为多个合同类型，并根据所划分的合同类型建立条款库；若接收到待评审合同文本，判断所述待评审合同文本的合同类型并根据标题级格式对所述待评审合同文本进行段落拆分以得到待评审合同条款；从所述条款库中获取与所述待评审合同文本的合同类型对应的合同条款，并将所获取的合同条款与所述待评审合同条款进行相似度计算；若所获取的合同条款与所述待评审合同条款的相似度低于预设阈值，则判定所述待评审合同文本中的合同条款为缺失并生成缺失提示消息以提示缺失，可以保证待评审合同条款颗粒度与用于计算相似度的条款库中条款颗粒度相同，从而避免颗粒度不同带来的信息损失；通过聚类算法建立条款库，节省人力资源；避免相同通用条款在不同小类合同中的重复计算。

图6是本发明实施例提供的一种基于聚类算法的合同条款评审装置200的示意性框图。如图6所示，对应于以上基于聚类算法的合同条款评审方法，本发明还提供一种基于聚类算法的合同条款评审装置200。该基于聚类算法的合同条款评审装置200包括用于执行上述基于聚类算法的合同条款评审方法的单元，该装置可以被配置于台式电脑、平板电脑、手提电脑、等终端中。具体地，请参阅图6，该基于聚类算法的合同条款评审装置包括：获取单元210、特征单元220、聚类单元230、判断单元240、计算单元250以及判定单元260。

获取单元210，用于从预设数据库中获取训练合同文本并根据标题级格式对所有的所述训练合同文本进行段落拆分以得到合同条款。

特征单元220，用于对所述合同条款进行特征工程以将所述合同条款转换为句向量。

在一实施例中，如图7所示，所述特征单元220包括：分词单元221、转换单元222以及加权平均单元223。

分词单元221，用于通过分词工具对所述合同条款进行分词并对分词后的词组分配权重。

转换单元222，用于通过词向量工具将分词后的词组转换为词向量。

加权平均单元223，用于根据所分配的权重对所述词向量进行加权平均以得到所述合同条款的句向量。

聚类单元230，用于利用聚类算法对所述句向量进行聚类以将所述句向量对应的所述合同条款划分为多个合同类型，并根据所划分的合同类型建立条款库。

在一实施例中，，k-means算法是一种聚类算法，所谓聚类，即根据相似性原则，将具有较高相似度的数据对象划分至同一类簇，将具有较高相异度的数据对象划分至不同类簇。具体地，k-means算法是首先随机选取K个对象(句向量)作为初始的聚类中心(初始化质心)，然后计算每个对象与各个种子聚类中心之间的距离，将每个对象分配给距离它最近的聚类中心；聚类中心以及分配给它们的对象就代表一个聚类，每分配一个样本，聚类的聚类中心会根据聚类中现有的对象被重新计算；这个过程将不断重复直到满足某个终止条件，如误差平方和局部最小，从而将对象划分到不同的类簇中。由于k个初始化的质心的位置选择对最后的聚类结果和运行时间都有很大的影响，如果仅仅是完全随机的选择，有可能导致算法收敛很慢，因此为了选择合适的k个质心，本方案采用K-Means++算法，K-Means++算法就是对K-Means随机初始化质心的方法的优化。具体地，从所有的句向量中随机选择一个作为聚类中心，计算每一个句向量到初始质心的距离，选择一个最近的句向量作为下一个聚类中心，重复上述过程直到选择到K个聚类中心，根据所选择的K个聚类中心运行传统的k-means算法即可。其中，K即为合同类型，本方案的合同类型包括采购、租赁、融资、担保、融资租赁、资管、资管(信托)、代销、股权九大类，对象即为合同条款的句向量，因此K值为9。最终得到九个合同条款集，根据预设的合同类型对合同条款集进行标识，合同类型即表示对应该合同条款的集合，每个合同类型表示一个合同条款集，每个合同类型中包含有多条同类型的合同条款。根据所划分得到的合同类型建立条款库，将同一合同类型的合同条款均存储到同一个存储地址中。

判断单元240，用于若接收到待评审合同文本，判断所述待评审合同文本的合同类型并根据标题级格式对所述待评审合同文本进行段落拆分以得到待评审合同条款。

在一实施例中，如图7所示，所述判断单元240包括：正则单元241以及匹配单元242。

正则单元241，用于通过正则表达式获取所述待评审合同文本的标题。

匹配单元242，用于将所述待评审合同文本的标题与所述合同类型进行匹配以获取所述待评审合同文本的合同类型。

在另一实施例中，如图8所示，所述判断单元240包括：计算子单元243、排序单元244以及获取子单元245。

计算子单元243，用于采用TF-IDF算法计算所述待评审合同中所有词组的TF-IDF值。

排序单元244，用于根据所有词组的TF-IDF值按照由高到低进行排序。

获取子单元245，用于根据所述排序选取关键字与所述合同类型进行匹配以获取所述待评审合同文本的合同类型。

计算单元250，用于从所述条款库中获取与所述待评审合同文本的合同类型对应的合同条款，并将所获取的合同条款与所述待评审合同条款进行相似度计算。

判定单元260，用于若所获取的合同条款与所述待评审合同条款的相似度低于预设阈值，则判定所述待评审合同文本中的合同条款为缺失并生成缺失提示消息以提示缺失。

在一实施例中，如图9所示，所述基于聚类算法的合同条款评审装置200还包括：提取单元270。

提取单元270，用于根据正则表达式提取所述待评审合同文本的主体信息。

本发明实施例展示了一种基于聚类算法的合同条款评审装置，通过从预设数据库中获取训练合同文本并根据标题级格式对所有的所述训练合同文本进行段落拆分以得到合同条款；对所述合同条款进行特征工程以将所述合同条款转换为句向量；利用聚类算法对所述句向量进行聚类以将所述句向量对应的所述合同条款划分为多个合同类型，并根据所划分的合同类型建立条款库；若接收到待评审合同文本，判断所述待评审合同文本的合同类型并根据标题级格式对所述待评审合同文本进行段落拆分以得到待评审合同条款；从所述条款库中获取与所述待评审合同文本的合同类型对应的合同条款，并将所获取的合同条款与所述待评审合同条款进行相似度计算；若所获取的合同条款与所述待评审合同条款的相似度低于预设阈值，则判定所述待评审合同文本中的合同条款为缺失并生成缺失提示消息以提示缺失，可以保证待评审合同条款颗粒度与用于计算相似度的条款库中条款颗粒度相同，从而避免颗粒度不同带来的信息损失；通过聚类算法建立条款库，节省人力资源；避免相同通用条款在不同小类合同中的重复计算。

上述基于聚类算法的合同条款评审装置可以实现为一种计算机程序的形式，该计算机程序可以在如图10所示的计算机设备上运行。

请参阅图10，图10是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500可以是终端，其中，终端可以是智能手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等具有通信功能的电子设备。

参阅图10，该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括非易失性存储介质503和内存储器504。

该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032包括程序指令，该程序指令被执行时，可使得处理器502执行一种基于聚类算法的合同条款评审方法。

该处理器502用于提供计算和控制能力，以支撑整个计算机设备500的运行。

该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行一种基于聚类算法的合同条款评审方法。

该网络接口505用于与其它设备进行网络通信。本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现如下步骤：从预设数据库中获取训练合同文本并根据标题级格式对所有的所述训练合同文本进行段落拆分以得到合同条款；对所述合同条款进行特征工程以将所述合同条款转换为句向量；利用聚类算法对所述句向量进行聚类以将所述句向量对应的所述合同条款划分为多个合同类型，并根据所划分的合同类型建立条款库；若接收到待评审合同文本，判断所述待评审合同文本的合同类型并根据标题级格式对所述待评审合同文本进行段落拆分以得到待评审合同条款；从所述条款库中获取与所述待评审合同文本的合同类型对应的合同条款，并将所获取的合同条款与所述待评审合同条款进行相似度计算；若所获取的合同条款与所述待评审合同条款的相似度低于预设阈值，则判定所述待评审合同文本中的合同条款为缺失并生成缺失提示消息以提示缺失。

在一实施例中，处理器502在实现所述对所述合同条款进行特征工程以将所述合同条款转换为句向量步骤时，具体实现如下步骤：通过分词工具对所述合同条款进行分词并对分词后的词组分配权重；通过词向量工具将分词后的词组转换为词向量；根据所分配的权重对所述词向量进行加权平均以得到所述合同条款的句向量。

在一实施例中，处理器502在实现所述判断所述待评审合同文本的合同类型步骤时，具体实现如下步骤：通过正则表达式获取所述待评审合同文本的标题；将所述待评审合同文本的标题与所述合同类型进行匹配以获取所述待评审合同文本的合同类型。

在一实施例中，处理器502在实现所述判断所述待评审合同文本的合同类型步骤时，具体实现如下步骤：采用TF-IDF算法计算所述待评审合同中所有词组的TF-IDF值；根据所有词组的TF-IDF值按照由高到低进行排序；根据所述排序选取关键字与所述合同类型进行匹配以获取所述待评审合同文本的合同类型。

在一实施例中，处理器502在实现所述若所获取的合同条款与所述待评审合同条款的相似度低于预设阈值，则判定所述待评审合同文本中的合同条款为缺失并生成缺失提示消息以提示缺失步骤之后，还实现如下步骤：根据正则表达式提取所述待评审合同文本的主体信息。

应当理解，在本申请实施例中，处理器502可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成。该计算机程序包括程序指令，计算机程序可存储于一存储介质中，该存储介质为计算机可读存储介质。该程序指令被该计算机系统中的至少一个处理器执行，以实现上述方法的实施例的流程步骤。

因此，本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序，其中计算机程序包括程序指令。该程序指令被处理器执行时使处理器执行如下步骤：从预设数据库中获取训练合同文本并根据标题级格式对所有的所述训练合同文本进行段落拆分以得到合同条款；对所述合同条款进行特征工程以将所述合同条款转换为句向量；利用聚类算法对所述句向量进行聚类以将所述句向量对应的所述合同条款划分为多个合同类型，并根据所划分的合同类型建立条款库；若接收到待评审合同文本，判断所述待评审合同文本的合同类型并根据标题级格式对所述待评审合同文本进行段落拆分以得到待评审合同条款；从所述条款库中获取与所述待评审合同文本的合同类型对应的合同条款，并将所获取的合同条款与所述待评审合同条款进行相似度计算；若所获取的合同条款与所述待评审合同条款的相似度低于预设阈值，则判定所述待评审合同文本中的合同条款为缺失并生成缺失提示消息以提示缺失。

在一实施例中，所述处理器在执行所述程序指令而实现所述对所述合同条款进行特征工程以将所述合同条款转换为句向量步骤时，具体实现如下步骤：通过分词工具对所述合同条款进行分词并对分词后的词组分配权重；通过词向量工具将分词后的词组转换为词向量；根据所分配的权重对所述词向量进行加权平均以得到所述合同条款的句向量。

在一实施例中，所述处理器在执行所述程序指令而实现所述判断所述待评审合同文本的合同类型步骤时，具体实现如下步骤：通过正则表达式获取所述待评审合同文本的标题；将所述待评审合同文本的标题与所述合同类型进行匹配以获取所述待评审合同文本的合同类型。

在一实施例中，所述处理器在执行所述程序指令而实现所述判断所述待评审合同文本的合同类型步骤时，具体实现如下步骤：采用TF-IDF算法计算所述待评审合同中所有词组的TF-IDF值；根据所有词组的TF-IDF值按照由高到低进行排序；根据所述排序选取关键字与所述合同类型进行匹配以获取所述待评审合同文本的合同类型。

在一实施例中，所述处理器在执行所述程序指令而实现所述若所获取的合同条款与所述待评审合同条款的相似度低于预设阈值，则判定所述待评审合同文本中的合同条款为缺失并生成缺失提示消息以提示缺失步骤之后，还实现如下步骤：根据正则表达式提取所述待评审合同文本的主体信息。

所述存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的。例如，各个单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。

该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，终端，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于聚类算法的合同条款评审方法，其特征在于，包括：

从预设数据库中获取训练合同文本并根据标题级格式对所有的所述训练合同文本进行段落拆分以得到合同条款；

对所述合同条款进行特征工程以将所述合同条款转换为句向量；

利用聚类算法对所述句向量进行聚类以将所述句向量对应的所述合同条款划分为多个合同类型，并根据所划分的合同类型建立条款库；

若接收到待评审合同文本，判断所述待评审合同文本的合同类型并根据标题级格式对所述待评审合同文本进行段落拆分以得到待评审合同条款；

从所述条款库中获取与所述待评审合同文本的合同类型对应的合同条款，并将所获取的合同条款与所述待评审合同条款进行相似度计算；

若所获取的合同条款与所述待评审合同条款的相似度低于预设阈值，则判定所述待评审合同文本中的合同条款为缺失并生成缺失提示消息以提示缺失。

2.根据权利要求1所述的基于聚类算法的合同条款评审方法，其特征在于，所述对所述合同条款进行特征工程以将所述合同条款转换为句向量，包括：

通过分词工具对所述合同条款进行分词并对分词后的词组分配权重；

通过词向量工具将分词后的词组转换为词向量；

根据所分配的权重对所述词向量进行加权平均以得到所述合同条款的句向量。

3.根据权利要求1所述的基于聚类算法的合同条款评审方法，其特征在于，所述判断所述待评审合同文本的合同类型，包括：

通过正则表达式获取所述待评审合同文本的标题；

将所述待评审合同文本的标题与所述合同类型进行匹配以获取所述待评审合同文本的合同类型。

4.根据权利要求1所述的基于聚类算法的合同条款评审方法，其特征在于，所述判断所述待评审合同文本的合同类型，包括：

采用TF-IDF算法计算所述待评审合同中所有词组的TF-IDF值；

根据所有词组的TF-IDF值按照由高到低进行排序；

根据所述排序选取关键字与所述合同类型进行匹配以获取所述待评审合同文本的合同类型。

5.根据权利要求1所述的基于聚类算法的合同条款评审方法，其特征在于，所述若所获取的合同条款与所述待评审合同条款的相似度低于预设阈值，则判定所述待评审合同文本中的合同条款为缺失并生成缺失提示消息以提示缺失之后，还包括：

根据正则表达式提取所述待评审合同文本的主体信息。

6.一种基于聚类算法的合同条款评审装置，其特征在于，包括：

获取单元，用于从预设数据库中获取训练合同文本并根据标题级格式对所有的所述训练合同文本进行段落拆分以得到合同条款；

特征单元，用于对所述合同条款进行特征工程以将所述合同条款转换为句向量；

聚类单元，用于利用聚类算法对所述句向量进行聚类以将所述句向量对应的所述合同条款划分为多个合同类型，并根据所划分的合同类型建立条款库；

判断单元，用于若接收到待评审合同文本，判断所述待评审合同文本的合同类型并根据标题级格式对所述待评审合同文本进行段落拆分以得到待评审合同条款；

计算单元，用于从所述条款库中获取与所述待评审合同文本的合同类型对应的合同条款，并将所获取的合同条款与所述待评审合同条款进行相似度计算；

判定单元，用于若所获取的合同条款与所述待评审合同条款的相似度低于预设阈值，则判定所述待评审合同文本中的合同条款为缺失并生成缺失提示消息以提示缺失。

7.根据权利要求6所述的基于聚类算法的合同条款评审装置，其特征在于，所述特征单元包括：

分词单元，用于通过分词工具对所述合同条款进行分词并对分词后的词组分配权重；

转换单元，用于通过词向量工具将分词后的词组转换为词向量；

加权平均单元，用于根据所分配的权重对所述词向量进行加权平均以得到所述合同条款的句向量。

8.根据权利要求6所述的基于聚类算法的合同条款评审装置，其特征在于，所述判断单元包括：

正则单元，用于通过正则表达式获取所述待评审合同文本的标题；

匹配单元，用于将所述待评审合同文本的标题与所述合同类型进行匹配以获取所述待评审合同文本的合同类型。

9.一种计算机设备，其特征在于，所述计算机设备包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-5中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序当被处理器执行时可实现如权利要求1-5中任一项所述的方法。