CN110083809A

CN110083809A - 合同条款相似度计算方法、装置、设备及可读存储介质

Info

Publication number: CN110083809A
Application number: CN201910206015.6A
Authority: CN
Inventors: 田磊; 马皓; 王威; 胡家义; 吴力丰; 王昊; 邹永卫
Original assignee: Ping An Urban Construction Technology Shenzhen Co Ltd
Current assignee: Ping An Urban Construction Technology Shenzhen Co Ltd
Priority date: 2019-03-16
Filing date: 2019-03-16
Publication date: 2019-08-02

Abstract

本发明公开了一种合同条款相似度计算方法，包括：基于词向量模型对待计算合同条款进行训练；基于匹配句子向量以及词向量确定所述待计算合同条款对应的句子向量；计算待计算合同条款与各个预设合同条款之间的相似度；确定待计算合同条款对应的目标预设合同条款；将目标预设合同条款以及目标预设合同条款对应的相似度发送至所述待计算合同条款对应的终端。本发明还公开了一种合同条款相似度计算装置、设备及可读存储介质。本发明通过数据处理技术对合同条款进行处理，能够准确确定合同条款数据库中与待计算合同条款最相似的条款，以便于用户根据该目标预设合同条款修改待计算合同条款，从而减少待计算合同条款所导致的潜在威胁和损失。

Description

合同条款相似度计算方法、装置、设备及可读存储介质

技术领域

本发明涉及数据处理技术领域，尤其涉及一种合同条款相似度计算方法、装置、设备及可读存储介质。

背景技术

随着经济社会的飞速发展，每个人在工作和生活中都不可避免的会接触合同文本，例如聘用入职、房屋出租、房屋求租、二手房买卖、外出旅游等等。合同的交易对方既包括个人，也包括企业法人等。合同文本的形式既包括即时手写合同，也包括交易对方预先准备好的合同范本。尤其是在面对房屋买卖中介机构、旅游服务公司、房屋租赁中介机构等各种机构时，由于这些机构有意或无意的会在合同范本中隐藏一些对用户不甚公平的合同条款。面对这些不甚合理的合同文本，大多数用户难以全部发现这些文本中的不合理条款，从而为用户带来许多潜在的威胁和损失。

目前，现有的合同分析方案或文献中，大多关注于合同条款生成，利用合同模板技术帮助用户生成空白合同。并没有针对合同条款进行识别分析，难以识别出合同条款中的不合理风险信息，导致合同条款存在潜在的风险

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供一种合同条款相似度计算方法、装置、设备及可读存储介质，旨在解决难以识别出合同条款中的不合理风险信息的技术问题。

为实现上述目的，本发明提供一种合同条款相似度计算方法，所述合同条款相似度计算方法包括以下步骤：

基于词向量模型对待计算合同条款进行训练，以获得所述待计算合同条款对应的词向量；

基于匹配句子向量以及所述词向量确定所述待计算合同条款对应的句子向量；

基于所述句子向量以及合同条款数据库中各个预设合同条款的预设句子向量，计算所述待计算合同条款与各个所述预设合同条款之间的相似度；

基于所述相似度，在所述合同条款数据库中，确定所述待计算合同条款对应的目标预设合同条款；

将所述目标预设合同条款以及所述目标预设合同条款对应的相似度发送至所述待计算合同条款对应的终端。

进一步地，所述基于匹配句子向量以及所述词向量确定所述待计算合同条款对应的句子向量的步骤包括：

计算匹配句子向量中的词向量与所述词向量之间的相似度，基于所述相似度生成相似词矩阵，其中，所述相似词矩阵中的每一行的元素为同一词向量与匹配句子向量中的词向量之间的相似度；

基于所述相似词矩阵的每一列元素中的最大相似度，生成所述句子向量。

进一步地，所述基于所述句子向量以及合同条款数据库中各个预设合同条款的预设句子向量，计算所述待计算合同条款与各个所述预设合同条款之间的相似度的步骤包括：

基于所述待计算合同条款，通过Tf-idf算法，确定各个预设合同条款的预设句子向量中的目标句子向量；

基于所述句子向量以及目标句子向量，计算所述待计算合同条款，与所述预设合同条款中目标句子向量对应的目标合同条款之间的相似度。

进一步地，所述基于所述待计算合同条款，通过Tf-idf算法，确定各个预设合同条款的预设句子向量中的目标句子向量的步骤包括：

遍历预设合同条款，得到当前遍历的预设合同条款；

遍历待计算合同条款的条款信息中各个词语，计算当前遍历的词语与当前遍历的预设合同条款之间的Tf值以及idf值，并计算所述Tf值与所述idf值的乘积；

在待计算合同条款的条款信息中各个词语遍历完成时，计算各个词语对应的所述Tf值与所述idf值的乘积的均值，以获得所述待计算合同条款与当前遍历的预设合同条款之间的Tf-idf值；

在所述预设合同条款遍历完成时，将各个Tf-idf值中预设数量的最大的Tf-idf值，所对应的预设句子向量中作为所述目标句子向量。

进一步地，所述基于词向量模型对所述待计算合同条款进行训练，以获得所述待计算合同条款对应的词向量的步骤包括：

基于预设停用词，对所述待计算合同条款进行停用词过滤操作，以获得条款信息；

基于词向量模型对所述条款信息进行训练，以获得所述词向量。

进一步地，所述将所述目标预设合同条款以及所述目标预设合同条款对应的相似度发送至所述待计算合同条款对应的终端的步骤包括：

若所述合同条款数据库中存在目标预设合同条款对应的修改建议信息，则获取所述目标预设合同条款对应的修改建议信息；

采用最长公共子序列算法或者最长公共子串算法，基于所述目标预设合同条款，对所述待计算合同条款进行标注操作；

将所述目标预设合同条款、所述目标预设合同条款对应的相似度、所述修改建议信息以及标注后的所述待计算合同条款发送至所述待计算合同条款对应的终端。

进一步地，所述合同条款相似度计算方法还包括：

获取预设合同条款，并基于词向量模型对所述预设合同条款进行训练，以获得所述预设合同条款对应的词向量；

基于匹配句子向量以及所述预设合同条款对应的词向量，确定所述预设合同条款对应的预设句子向量；

基于所述预设合同条款及所述预设句子向量生成所述合同条款数据库。

此外，为实现上述目的，本发明还提供一种合同条款相似度计算装置，所述合同条款相似度计算装置包括：

训练模块，用于基于词向量模型对待计算合同条款进行训练，以获得所述待计算合同条款对应的词向量；

第一确定模块，用于基于匹配句子向量以及所述词向量确定所述待计算合同条款对应的句子向量；

计算模块，用于基于所述句子向量以及合同条款数据库中各个预设合同条款的预设句子向量，计算所述待计算合同条款与各个所述预设合同条款之间的相似度；

第二确定模块，用于基于所述相似度，在所述合同条款数据库中，确定所述待计算合同条款对应的目标预设合同条款；

发送模块，用于将所述目标预设合同条款以及所述目标预设合同条款对应的相似度发送至所述待计算合同条款对应的终端。

此外，为实现上述目的，本发明还提供一种合同条款相似度计算设备，所述合同条款相似度计算设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的合同条款相似度计算程序，所述合同条款相似度计算程序被所述处理器执行时实现前述的合同条款相似度计算方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有合同条款相似度计算程序，所述合同条款相似度计算程序被处理器执行时实现前述的合同条款相似度计算方法的步骤。

本发明通过基于词向量模型对待计算合同条款进行训练，以获得所述待计算合同条款对应的词向量，接着基于匹配句子向量以及所述词向量确定所述待计算合同条款对应的句子向量，而后基于所述句子向量以及合同条款数据库中各个预设合同条款的预设句子向量，计算所述待计算合同条款与各个所述预设合同条款之间的相似度，然后基于所述相似度，在所述合同条款数据库中，确定所述待计算合同条款对应的目标预设合同条款，最后将所述目标预设合同条款以及所述目标预设合同条款对应的相似度至所述待计算合同条款对应的终端，通过数据处理技术对合同条款进行处理，能够准确确定合同条款数据库中与待计算合同条款最相似的条款，以便于用户根据该目标预设合同条款修改待计算合同条款，从而减少待计算合同条款所导致的潜在威胁和损失。

附图说明

图1是本发明实施例方案涉及的硬件运行环境中合同条款相似度计算设备的结构示意图；

图2为本发明合同条款相似度计算方法第一实施例的流程示意图；

图3为本发明合同条款相似度计算方法第二实施例中基于匹配句子向量以及所述词向量确定所述待计算合同条款对应的句子向量的步骤的细化流程示意图；

图4为本发明合同条款相似度计算方法第三实施例中基于所述句子向量以及合同条款数据库中各个预设合同条款的预设句子向量，计算所述待计算合同条款与各个所述预设合同条款之间的相似度的步骤的细化流程示意图；

图5为本发明合同条款相似度计算方法第四实施例中基于所述待计算合同条款，通过Tf-idf算法，确定各个预设合同条款的预设句子向量中的目标句子向量的步骤的细化流程示意图；

图6为本发明合同条款相似度计算方法第五实施例中基于词向量模型对所述待计算合同条款进行训练，以获得所述待计算合同条款对应的词向量的步骤的细化流程示意图；

图7为本发明合同条款相似度计算方法第六实施例中将所述目标预设合同条款以及所述目标预设合同条款对应的相似度发送至所述待计算合同条款对应的终端的步骤的细化流程示意图；

图8为本发明合同条款相似度计算方法第七实施例的流程示意图；

图9为本发明合同条款相似度计算装置一实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境中合同条款相似度计算设备的结构示意图。

如图1所示，本发明实施例合同条款相似度计算设备可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的合同条款相似度计算设备结构并不构成对合同条款相似度计算设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及合同条款相似度计算程序。

在图1所示的合同条款相似度计算设备中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的合同条款相似度计算程序，并执行以下合同条款相似度计算方法的各个实施例中的操作。

本发明还提供一种合同条款相似度计算方法，参照图2，图2为本发明合同条款相似度计算方法第一实施例的流程示意图。

在本实施例中，该合同条款相似度计算方法包括：

步骤S100，基于词向量模型对待计算合同条款进行训练，以获得所述待计算合同条款对应的词向量；

在本实施例中，用户可通过移动终端或者PC将需要进行相似度计算的合同条款上传至合同条款相似度计算装置，例如，通过移动终端的APP将合同文本上传至合同条款相似度计算装置。

在获取到待计算合同条款时，基于词向量模型对所述待计算合同条款进行训练，以获得所述待计算合同条款对应的词向量，具体地，基于预设停用词，对待计算合同条款进行停用词过滤操作，以整定待计算合同条款中的停用词，获得条款信息，即去除清洗后的待计算合同条款中的停用词。

在获得条款信息时，基于词向量模型对条款信息进行训练，以获得所述待计算合同条款对应的词向量，其中，该词向量为条款信息中各个词语所对应的向量。该词向量模型主要是使用CBOW和SKIP假设进行训练的，以将整定停用词后的合同条款中计算机无法识别的词语转换成计算机可识别的向量；例如，采用Word2Vec对整定停用词后的合同条款进行训练，该Word2Vec是用于产生词向量的神经网络模型，包括CBOW和SKIP两种方式。

步骤S200，基于匹配句子向量以及所述词向量确定所述待计算合同条款对应的句子向量；

在获取到待计算合同条款对应的词向量时，获取匹配句子向量，其中该匹配句子向量为预先设置的各个词语所构成的句子向量，该匹配句子向量的元素为词表中各个词语的词向量，该匹配句子向量为M维向量，M为词表的长度即词表中词语的数量，例如，M为100000，也就是该匹配句子向量所对应的词语的数量，其中，词表中的词语为合同文本中可能出现的所有词语(可以为除连词、介词以及无法律意义的词之外的词语)。而后基于词向量确定待计算合同条款对应的句子向量。

步骤S300，基于所述句子向量以及合同条款数据库中各个预设合同条款的预设句子向量，计算所述待计算合同条款与各个所述预设合同条款之间的相似度；

在本实施例中，在获取到待计算合同条款对应的句子向量时，基于句子向量以及合同条款数据库中各个预设合同条款的预设句子向量，计算待计算合同条款与各个预设合同条款之间的相似度，具体地，遍历合同条款数据库中各个预设合同条款，计算当前遍历的预设合同条款的预设句子向量与待计算合同条款的句子向量之间的相似度，其中，该相似度为句子向量与预设句子向量之间的余弦值，具体采用余弦公式计算得到。

步骤S400，基于所述相似度，在所述合同条款数据库中，确定所述待计算合同条款对应的目标预设合同条款；

在本实施例中，在获取到该待计算合同条款与各个所述预设合同条款之间的相似度时，基于相似度在合同条款数据库中，确定待计算合同条款对应的目标预设合同条款。

具体地，可通过比较各个相似度，以确定各个相似度中的最大相似度，将该最大相似度对应的合同条款数据库中的预设合同条款作为目标预设合同条款；或者，

可通过比较各个相似度，以确定各个相似度中最大的预设个数的相似度，将该最大的预设个数的相似度，对应的合同条款数据库中的预设合同条款作为目标预设合同条款；或者，

可通过比较各个相似度，以确定各个相似度中的最大相似度，判断该最大相似度是否大于预设相似度，若该最大相似度大于预设相似度，则将该最大相似度对应的合同条款数据库中的预设合同条款作为目标预设合同条款；

又或者，确定各个相似度中大于预设相似度的相似度，将大于预设相似度的相似度对应的合同条款数据库中的预设合同条款作为目标预设合同条款。

其中，预设相似度可进行合理设置，例如该预设相似度可设置为50％、60％、80％等。

步骤S500，将所述目标预设合同条款以及所述目标预设合同条款对应的相似度发送至所述待计算合同条款对应的终端。

在本实施例中，在获取到目标预设合同条款时，获取该目标预设合同条款与待计算合同条款之间的相似度，并将目标预设合同条款以及目标预设合同条款对应的相似度发送至待计算合同条款对应的终端，使得该终端展示该合同条款数据库中与待计算合同条款最相似的条款，以便于用户根据该目标预设合同条款修改待计算合同条款，从而减少待计算合同条款所导致的潜在威胁和损失。

在其他实施例中，在获取到目标预设合同条款时，若合同条款数据库中存在目标预设合同条款对应的修改建议信息，则获取该目标预设合同条款对应的修改建议信息，并将修改建议信息、目标预设合同条款以及所述目标预设合同条款对应的相似度发送至该终端，以便于用户基于该修改建议信息修改该待计算合同条款。若目标预设合同条款包括多个，且合同条款数据库中存在各个目标预设合同条款对应的修改建议信息，将多个目标预设合同条款所对应的不同的修改建议信息作为该待计算合同条款的修改建议信息。

需要说明的是，在进行相似度计算之前，需要创建合同条款数据库，具体地，接收并存储合同条款信息，该合同条款信息包括：异常合同条款(风险合同条款)值以及修改建议信息、正常合同条款。

对于各个合同条款信息，基于预设停用词，对合同条款信息进行停用词过滤操作，基于词向量模型对过滤后的合同条款信息进行训练，以获得合同条款信息对应的词向量；计算匹配句子向量中的词向量与合同条款信息的词向量之间的相似度，基于相似度生成相似词矩阵，其中，相似词矩阵中的每一行的元素为同一词向量与匹配句子向量中的词向量之间的相似度，所述相似词矩阵中每一列的元素为同一合同条款信息的词向量与匹配句子向量中的词向量之间的相似度；基于所述相似词矩阵的每一列元素中的最大相似度，生成所述句子向量，进而得到合同条款信息中各个条款的句子向量，最后将合同条款信息作为预设合同条款，将合同条款信息对应的句子向量作为预设句子向量，生成合同条款数据库。

需要说明的是，该合同条款信息的句子向量的确定方式与待计算合同条款的句子向量确定方式类似，在此不在赘述。

最后，根据预设合同条款、修改建议信息、预设句子向量、预设合同条款所属的类别及该类别所对应的关键词建立合同数据库。

本实施例提出的合同条款相似度计算方法，通过基于词向量模型对待计算合同条款进行训练，以获得所述待计算合同条款对应的词向量，接着基于匹配句子向量以及所述词向量确定所述待计算合同条款对应的句子向量，而后基于所述句子向量以及合同条款数据库中各个预设合同条款的预设句子向量，计算所述待计算合同条款与各个所述预设合同条款之间的相似度，然后基于所述相似度，在所述合同条款数据库中，确定所述待计算合同条款对应的目标预设合同条款，最后将所述目标预设合同条款以及所述目标预设合同条款对应的相似度至所述待计算合同条款对应的终端，通过数据处理技术对合同条款进行处理，能够准确确定合同条款数据库中与待计算合同条款最相似的条款，以便于用户根据该目标预设合同条款修改待计算合同条款，从而减少待计算合同条款所导致的潜在威胁和损失。

基于第一实施例，提出本发明合同条款相似度计算方法的第二实施例，参照图3，在本实施例中，步骤S200包括：

步骤S210，计算匹配句子向量中的词向量与所述词向量之间的相似度，基于所述相似度生成相似词矩阵，其中，所述相似词矩阵中的每一行的元素为同一词向量与匹配句子向量中的词向量之间的相似度；

步骤S220，基于所述相似词矩阵的每一列元素中的最大相似度，生成所述句子向量。

在本实施例中，在确定待计算合同条款的词向量时，获取匹配句子向量，其中该匹配句子向量为预先设置的各个词语所构成的句子向量，该匹配句子向量的元素为词表中各个词语的词向量，该匹配句子向量为M维向量，M为词表的长度即词表中词语的数量，例如，M为100000，也就是该匹配句子向量所对应的词语的数量，其中，词表中的词语为合同文本中可能出现的所有词语(可以为除连词、介词以及无法律意义的词之外的词语)。

在获取到匹配句子向量时，计算匹配句子向量中的词向量与所述词向量之间的相似度，基于所述相似度生成相似词矩阵，其中，所述相似词矩阵中的每一行的元素为同一词向量与匹配句子向量中的词向量之间的相似度。该相似词矩阵为M*N矩阵，其中，M为词表的长度，N为相似词的个数即合同条款信息中的词语数量。而后基于相似词矩阵的每一列元素中的最大相似度，生成所述句子向量

具体地，可确定当前遍历的待计算合同条款的合同条款信息中词语的数量，该词语的数量即为相似词矩阵中的列数N，计算匹配句子向量中的词向量与待计算合同条款对应的词向量之间的相似度，基于该相似度生成待计算合同条款的相似词矩阵，其中，该相似词矩阵中的每一行的元素为待计算合同条款对应的所有词向量中的同一个词向量、与匹配句子向量中的词向量之间的相似度。在得到待计算合同条款的相似词矩阵时，分别比较该相似词矩阵中的每一列的元素，以确定每一列元素的最大相似度，并将各列的最大相似度作为一个一维向量的元素，该一维向量即为待计算合同条款的句子向量。

本实施例提出的合同条款分析方法，通过计算匹配句子向量中的词向量与所述词向量之间的相似度，基于所述相似度生成相似词矩阵，接着基于所述相似词矩阵的每一列元素中的最大相似度，生成所述句子向量，能够根据相似词矩阵准确得到待计算合同条款的句子向量，以便于能够根据句子向量准确确定待计算合同条款所对应的目标合同条款，进而提高对待计算合同条款进行分析的准确性，提高合同分析的效率及准确性。

基于第一实施例，提出本发明合同条款相似度计算方法的第三实施例，参照图4，在本实施例中，步骤S300包括：

步骤S310，基于所述待计算合同条款，通过Tf-idf算法，确定各个预设合同条款的预设句子向量中的目标句子向量；

步骤S320，基于所述句子向量以及目标句子向量，计算所述待计算合同条款，与所述预设合同条款中目标句子向量对应的目标合同条款之间的相似度。

在本实施例中，首先基于预设停用词，对待计算合同条款进行停用词过滤操作，以整定待计算合同条款中的停用词，获得条款信息，即去除清洗后的待计算合同条款中的停用词，而后基于所述待计算合同条款的条款信息，通过Tf-idf算法，确定各个预设合同条款的预设句子向量中的目标句子向量。

具体地，遍历预设合同条款，计算该待计算合同条款的条款信息中各个词语，与当前遍历的预设合同条款之间的Tf值以及idf值，并计算各个词语的Tf值与idf值的乘积，最后将各个词语对应的Tf值与idf值的乘积的均值作为该待计算合同条款与当前遍历的预设合同条款之间的Tf-idf值。在获取到待计算合同条款与所述预设合同条款之间的Tf-idf值时，将各个Tf-idf值中预设数量的最大的Tf-idf值，所对应的预设合同条款的预设句子向量中作为目标句子向量。

在确定目标句子向量时，基于所述句子向量以及目标句子向量，计算所述待计算合同条款，与所述预设合同条款中目标句子向量对应的目标合同条款之间的相似度，进而能够减少待计算合同条款的相似度计算次数，提高相似度计算的效率。

其中，相似度为目标句子向量与待计算合同条款的句子向量之间的余弦值。

本实施例提出的合同条款相似度计算方法，通过基于所述待计算合同条款，通过Tf-idf算法，确定各个预设合同条款的预设句子向量中的目标句子向量，接着基于所述句子向量以及目标句子向量，计算所述待计算合同条款，与所述预设合同条款中目标句子向量对应的目标合同条款之间的相似度，通过Tf-idf算法对预设合同条款进行筛选，能够减少待计算合同条款的相似度计算次数，提高相似度计算的效率。

基于第三实施例，提出本发明合同条款相似度计算方法的第四实施例，参照图5，在本实施例中，步骤S310包括：

步骤S311，遍历预设合同条款，得到当前遍历的预设合同条款；

步骤S312，遍历待计算合同条款的条款信息中各个词语，计算当前遍历的词语与当前遍历的预设合同条款之间的Tf值以及idf值，并计算所述Tf值与所述idf值的乘积；

步骤S313，在待计算合同条款的条款信息中各个词语遍历完成时，计算各个词语对应的所述Tf值与所述idf值的乘积的均值，以获得所述待计算合同条款与当前遍历的预设合同条款之间的Tf-idf值；

步骤S314，在所述预设合同条款遍历完成时，将各个Tf-idf值中预设数量的最大的Tf-idf值，所对应的预设句子向量中作为所述目标句子向量。

在本实施例中，首先基于预设停用词，对待计算合同条款进行停用词过滤操作，以整定待计算合同条款中的停用词，获得条款信息，即去除清洗后的待计算合同条款中的停用词，而后基于所述待计算合同条款，通过Tf-idf算法，计算所述待计算合同条款与各个所述预设合同条款之间的Tf-idf值。

具体地，遍历预设合同条款，得到当前遍历的预设合同条款，并遍历待计算合同条款的条款信息中各个词语，计算当前遍历的词语与当前遍历的预设合同条款之间的Tf值以及idf值，计算Tf值与idf值的乘积，在待计算合同条款的条款信息中各个词语遍历完成时，计算各个词语对应的Tf值与idf值的乘积的均值，以获得所述待计算合同条款与当前遍历的预设合同条款之间的Tf-idf值。在所述预设合同条款遍历完成时，得到待计算合同条款与各个预设合同条款之间的Tf-idf值。

需要说明的是，Tf值指的是某一个给定的词语在该文件中出现的频率，Tf值为该词语在预设合同条款中的出现次数，除以预设合同条款中所有词语的出现次数之和。idf值具体为：预设合同条款的总数量，除以包括该词语的预设合同条款的数目，再将得到的商取以10为底的对数得到。

在本实施例中，在获取到待计算合同条款与所述预设合同条款之间的Tf-idf值时，将各个Tf-idf值中预设数量的最大的Tf-idf值，所对应的预设合同条款的预设句子向量中作为目标句子向量。

本实施例提出的合同条款相似度计算方法，通过遍历预设合同条款，得到当前遍历的预设合同条款；接着遍历待计算合同条款的条款信息中各个词语，计算当前遍历的词语与当前遍历的预设合同条款之间的Tf值以及idf值，并计算Tf值与idf值的乘积；而后在待计算合同条款的条款信息中各个词语遍历完成时，计算各个词语对应的Tf值与idf值的乘积的均值，以获得所述待计算合同条款与当前遍历的预设合同条款之间的Tf-idf值；然后在所述预设合同条款遍历完成时，将各个Tf-idf值中预设数量的最大的Tf-idf值，所对应的预设句子向量中作为所述目标句子向量，能够通过计算合同条款与各个预设合同条款之间的Tf-idf值对预设合同条款进行筛选，能够减少待计算合同条款的相似度计算次数，提高相似度计算的效率。

基于第一实施例，提出本发明合同条款相似度计算方法的第五实施例，参照图6，在本实施例中，步骤S100包括：

步骤S110，基于预设停用词，对待计算合同条款进行停用词过滤操作，以获得条款信息；

步骤S120，基于词向量模型对所述条款信息进行训练，以获得所述词向量。

在本实施例中，在获取到待计算合同条款时，基于预设停用词，对待计算合同条款进行停用词过滤操作，以整定待计算合同条款中的停用词，获得待计算合同条款信息，即去除清洗后的待计算合同条款中的停用词，具体地，遍历待计算合同条款，若当前遍历的待计算合同条款中存在与预设停用词库中的停用词一致的词，则将当前遍历的待计算合同条款中与预设停用词库中的停用词一致的词去除。其中，该预设停用词库中存储有预设停用词，该预设停用词包括不具有法律意义的专属停用词，以及包括连词、介词等在内的常规停用词。

在获得合同条款信息时，基于词向量模型对合同条款信息进行训练，以获得所述待计算合同条款对应的词向量，其中，该词向量为合同条款信息中各个词语所对应的向量。该词向量模型主要是使用CBOW和SKIP假设进行训练的，以将整定停用词后的合同条款中计算机无法识别的词语转换成计算机可识别的向量；例如，采用Word2Vec对整定停用词后的合同条款进行训练，该Word2Vec是用于产生词向量的神经网络模型，包括CBOW和SKIP两种方式。

本实施例提出的合同条款相似度计算方法，通过基于预设停用词，对待计算合同条款进行停用词过滤操作，以获得条款信息，接着基于词向量模型对所述条款信息进行训练，以获得所述词向量，通过对待计算合同条款进行过滤，能够确保词向量与待计算合同的实质内容相关，使得词向量中不包括待计算合同条款实质内容无关的词向量，确保相似度计算的效率以及准确性。

基于第一实施例，提出本发明合同条款相似度计算方法的第六实施例，参照图7，在本实施例中，步骤S500包括：

步骤S510，若合同条款数据库中存在目标预设合同条款对应的修改建议信息，则获取所述目标预设合同条款对应的修改建议信息；

步骤S520，采用最长公共子序列算法或者最长公共子串算法，基于所述目标预设合同条款，对所述待计算合同条款进行标注操作；

步骤S530，将所述目标预设合同条款、所述目标预设合同条款对应的相似度、所述修改建议信息以及标注后的所述待计算合同条款发送至所述待计算合同条款对应的终端。

在本实施例中，目标预设合同条款仅包括一条，在获取到目标预设合同条款时，若合同条款数据库中存在目标预设合同条款对应的修改建议信息，则获取该目标预设合同条款对应的修改建议信息。并在修改建议信息时，采用最长公共子序列或者最长公共子串算法，基于所述目标预设合同条款，对待计算合同条款进行标注操作。

具体地，若采用最长公共子序列算法对待计算合同条款进行标注，则基于待计算合同条款的词向量、以及目标预设合同条款的词向量，确定待计算合同条款与目标预设合同条款之间相同的词语，在待计算合同条款中标注该词语以及各个词语之间的词。若采用最长公共子串算法对待计算合同条款进行标注时，则基于待计算合同条款的词向量以及目标预设合同条款的词向量，先确定待计算合同条款与目标预设合同条款之间相同的词语，确定相同的词语中是否存在相邻的词语，若存在相邻的词语，则确定相邻的词语中最长的词语串(即最长公共子串)，而后在待计算合同条款中标注最长公共子串。

最后，将所述目标预设合同条款、所述目标预设合同条款对应的相似度、所述修改建议信息以及标注后的所述待计算合同条款发送至所述待计算合同条款对应的终端，以使终端显示，进而使用户及时了解该待计算合同条款存在潜在风险的原因，以便于根据修改建议信息修改该待计算合同条款。

本实施例提出的合同条款相似度计算方法，通过获取所述目标预设合同条款对应的修改建议信息；接着采用最长公共子序列算法或者最长公共子串算法，基于所述目标预设合同条款，对所述待计算合同条款进行标注操作，而后将所述目标预设合同条款、所述目标预设合同条款对应的相似度、所述修改建议信息以及标注后的所述待计算合同条款发送至所述待计算合同条款对应的终端，通过对待计算合同条款进行标注，能够使用户直观查看待计算合同条款中存在潜在风险的位置，以便于根据标修改建议信息修改该待计算合同条款，进一步提高用户体验。

基于上述实施例，提出本发明合同条款相似度计算方法的第七实施例，参照图8，在本实施例中，该合同条款相似度计算方法还包括：

步骤S600，获取预设合同条款，并基于词向量模型对所述预设合同条款进行训练，以获得所述预设合同条款对应的词向量；

步骤S700，基于匹配句子向量以及所述预设合同条款对应的词向量，确定所述预设合同条款对应的预设句子向量；

步骤S800，基于所述预设合同条款以及所述预设句子向量生成所述合同条款数据库。

在本实施例中，在获取到预设合同条款时，先基于预设停用词，对预设合同条款进行停用词过滤操作，以整定预设合同条款中的停用词，获得预设条款信息，即去除清洗后的预设合同条款中的停用词。在获得预设条款信息时，基于词向量模型对预设条款信息进行训练，以获得预设合同条款对应的词向量，其中，该词向量为预设条款信息中各个词语所对应的向量。该词向量模型主要是使用CBOW和SKIP假设进行训练的，以将整定停用词后的合同条款中计算机无法识别的词语转换成计算机可识别的向量；例如，采用Word2Vec对整定停用词后的合同条款进行训练，该Word2Vec是用于产生词向量的神经网络模型，包括CBOW和SKIP两种方式。

在获取到预设合同条款对应的词向量时，获取匹配句子向量，其中该匹配句子向量为预先设置的各个词语所构成的句子向量，具体地，计算匹配句子向量中的词向量与预设条款信息的词向量之间的相似度，基于相似度生成相似词矩阵，其中，相似词矩阵中的每一行的元素为同一词向量与匹配句子向量中的词向量之间的相似度，所述相似词矩阵中每一列的元素为同一预设条款信息的词向量与匹配句子向量中的词向量之间的相似度；基于所述相似词矩阵的每一列元素中的最大相似度，生成预设合同条款的句子向量，进而得到预设合同条款的句子向量，并将预设合同条款的句子向量作为对应的预设句子向量。

需要说明的是，该预设合同条款的句子向量的确定方式与待计算合同条款的句子向量确定方式类似，在此不在赘述。

最后，基于所述预设合同条款以及所述预设句子向量生成所述合同条款数据库。其中，若该预设合同条款中存在风险条款，则获取风险条款的修改建议信息，并根据预设合同条款、修改建议信息、预设句子向量建立合同数据库。

需要说明的时，利用爬虫获取需要的语料，有针对性的爬取针对不同类型合同的条款信息(语料)，由于合同本身的特殊性和严谨性，而网上合同数据本身稀缺，因此服务器主要爬取律师类网站，文书类网站以及判决类网站等网站的数据，对爬取到的数据进行解析，得到该数据中每一篇文献的合同条款，并将得到的合同条款作为预设合同条款。针对每一条预设合同条款，首先确定该预设合同条款的状态信息，该状态信息包括该合同条款的可用性以及所涉及的法律条款，具体地，对于可用的正常合同条款，该状态信息包括可用状态以及所涉及的法律条款，对于不可用的异常合同条款，该状态信息包括不可用状态、所违反的法律条款以及所导致的潜在风险以及修改建议信息等。

本实施例提出的合同条款相似度计算方法，通过获取预设合同条款，并基于词向量模型对所述预设合同条款进行训练，以获得所述预设合同条款对应的词向量，接着基于匹配句子向量以及所述预设合同条款对应的词向量，确定所述预设合同条款对应的预设句子向量，而后基于所述预设合同条款以及所述预设句子向量生成所述合同条款数据库，实现了根据预设合同条款建立合同条款数据库，以便于合同条款相似度计算的计算，进一步提高了合同条款相似度计算的效率。

参照图9，图9为本发明合同条款相似度计算装置一实施例的功能模块示意图。

本实施例中，合同条款相似度计算装置包括：

训练模块10，用于基于词向量模型对待计算合同条款进行训练，以获得所述待计算合同条款对应的词向量；

第一确定模块20，用于基于匹配句子向量以及所述词向量确定所述待计算合同条款对应的句子向量；

计算模块30，用于基于所述句子向量以及合同条款数据库中各个预设合同条款的预设句子向量，计算所述待计算合同条款与各个所述预设合同条款之间的相似度；

第二确定模块40，用于基于所述相似度，在所述合同条款数据库中，确定所述待计算合同条款对应的目标预设合同条款；

发送模块50，用于将所述目标预设合同条款以及所述目标预设合同条款对应的相似度发送至所述待计算合同条款对应的终端。

需要说明的是，合同条款相似度计算装置的各个实施例与上述合同条款相似度计算方法的各实施例基本相同，在此不再详细赘述。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有合同条款相似度计算程序，所述合同条款相似度计算程序被处理器执行时实现如上述中任一项所述的合同条款相似度计算方法的步骤。

本发明计算机可读存储介质具体实施例与上述合同条款相似度计算方法的各实施例基本相同，在此不再详细赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种合同条款相似度计算方法，其特征在于，所述合同条款相似度计算方法包括以下步骤：

2.如权利要求1所述的合同条款相似度计算方法，其特征在于，所述基于匹配句子向量以及所述词向量确定所述待计算合同条款对应的句子向量的步骤包括：

3.如权利要求1所述的合同条款相似度计算方法，其特征在于，所述基于所述句子向量以及合同条款数据库中各个预设合同条款的预设句子向量，计算所述待计算合同条款与各个所述预设合同条款之间的相似度的步骤包括：

4.如权利要求3所述的合同条款相似度计算方法，其特征在于，所述基于所述待计算合同条款，通过Tf-idf算法，确定各个预设合同条款的预设句子向量中的目标句子向量的步骤包括：

遍历预设合同条款，得到当前遍历的预设合同条款；

5.如权利要求1所述的合同条款相似度计算方法，其特征在于，所述基于词向量模型对所述待计算合同条款进行训练，以获得所述待计算合同条款对应的词向量的步骤包括：

6.如权利要求1所述的合同条款相似度计算方法，其特征在于，所述将所述目标预设合同条款以及所述目标预设合同条款对应的相似度发送至所述待计算合同条款对应的终端的步骤包括：

7.如权利要求1至6中任一项所述的合同条款相似度计算方法，其特征在于，所述合同条款相似度计算方法还包括：

8.一种合同条款相似度计算装置，其特征在于，所述合同条款相似度计算装置包括：

9.一种合同条款相似度计算设备，其特征在于，所述合同条款相似度计算设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的合同条款相似度计算程序，所述合同条款相似度计算程序被所述处理器执行时实现如权利要求1至7中任一项所述的合同条款相似度计算方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有合同条款相似度计算程序，所述合同条款相似度计算程序被处理器执行时实现如权利要求1至7中任一项所述的合同条款相似度计算方法的步骤。