CN111401031A

CN111401031A - 一种目标文本确定方法、装置及设备

Info

Publication number: CN111401031A
Application number: CN202010146140.5A
Authority: CN
Inventors: 胡伟
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2020-03-05
Filing date: 2020-03-05
Publication date: 2020-07-10

Abstract

本说明书实施例提供一种目标文本确定方法、装置及设备。方案包括获取待分析文本；针对文本库中包含的任意一个基础文本，采用n种文本相似度算法计算待分析文本与任意一个基础文本的相似度，得到n个相似度，n≥2；采用文本相似度确定模型，基于n个相似度计算待分析文本与每个基础文本的综合相似度，得到综合相似度集合；将综合相似度集合中最大相似度对应的基础文本确定为目标文本。

Description

一种目标文本确定方法、装置及设备

技术领域

本说明书一个或多个实施例涉及计算机技术领域，尤其涉及一种目标文本确定方法、装置及设备。

背景技术

合同是当事人或当事双方之间设立、变更、终止民事关系的协议。依法成立的合同，受法律保护。合同又称为契约、协议，是平等的当事人之间设立、变更、终止民事权利义务关系的协议。

在智能法务应用中，构建法务合同的条款库。条款库中包括一些基础条款，在智能问答机器人中的找合同场景，用户输入合同名字，机器可以从条款库中找到用户想要的合同条款。此时，需要采用文本相似度的计算方法，计算用户输入的文本和现有合同条款库中的合同名的相似度，根据相似度查找目标合同条款返回给用户。因此，文本相似度算法的好坏决定了查找目标合同的准确率。

因此，需要提供一种更可靠的目标文本确定方案。

发明内容

有鉴于此，本说明书一个或多个实施例提供了一种目标文本确定方法、装置及设备，用于提高文本相似度的计算精度，进而提高目标文本的查找准确率。

为解决上述技术问题，本说明书实施例是这样实现的：

本说明书实施例提供的一种文本相似度确定模型的生成方法，包括：

获取包含多个样本数据对的样本数据集合，所述样本数据对中包括两个文本数据以及一个样本标签，所述样本标签表示所述两个文本数据是否相似；

针对每个样本数据对，采用n种文本相似度算法计算所述样本数据对的相似度，得到n个相似度，n≥2；

采用预设权重值对所述n个相似度进行加权求和，计算每个样本数据对的综合相似度，得到综合相似度集合；所述综合相似度集合中包含每个所述样本数据对的综合相似度；

根据所述样本标签以及所述综合相似度集合，对所述预设权重值进行更新，得到更新后的权重值；

根据所述更新后的权重值生成文本相似度确定模型。

本说明书实施例提供的一种目标文本确定方法，包括：

获取待分析文本；

针对文本库中包含的任意一个基础文本，采用n种文本相似度算法计算所述待分析文本与所述任意一个基础文本的相似度，得到n个相似度，n≥2；

采用文本相似度确定模型，基于所述n个相似度计算所述待分析文本与每个所述任意一个基础文本的综合相似度，得到综合相似度集合；所述综合相似度集合中包含每个基础文本与所述待分析文本的综合相似度；所述文本相似度确定模型是采用权利要求1所述的方法生成的；

将所述综合相似度集合中最大相似度对应的基础文本确定为目标文本。

本说明书实施例提供的一种文本相似度确定模型的生成装置，包括：

样本数据集合获取模块，用于获取包含多个样本数据对的样本数据集合，所述样本数据对中包括两个文本数据以及一个样本标签，所述样本标签表示所述两个文本数据是否相似；

相似度计算模块，用于针对每个样本数据对，采用n种文本相似度算法计算所述样本数据对的相似度，得到n个相似度，n≥2；

综合相似度计算模块，用于采用预设权重值对所述n个相似度进行加权求和，计算每个样本数据对的综合相似度，得到综合相似度集合；所述综合相似度集合中包含每个所述样本数据对的综合相似度；

权重更新模块，用于根据所述样本标签以及所述综合相似度集合，对所述预设权重值进行更新，得到更新后的权重值；

文本相似度确定模型确定模块，用于根据所述更新后的权重值生成文本相似度确定模型。

本说明书实施例提供的一种目标文本确定装置，包括：

待分析文本获取模块，用于获取待分析文本；

相似度计算模块，用于针对文本库中包含的任意一个基础文本，采用n种文本相似度算法计算所述待分析文本与所述任意一个基础文本的相似度，得到n个相似度，n≥2；

综合相似度确定模块，用于采用文本相似度确定模型，基于所述n个相似度计算所述待分析文本与每个基础文本的综合相似度，得到综合相似度集合；所述综合相似度集合中包含每个基础文本与所述待分析文本的综合相似度；所述文本相似度确定模型是采用权利要求1所述的方法生成的；

目标文本确定模块，用于将所述综合相似度集合中最大相似度对应的基础文本确定为目标文本。

本说明书实施例提供的一种文本相似度确定模型的生成设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够：

根据所述更新后的权重值生成文本相似度确定模型。

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

获取待分析文本；

采用文本相似度确定模型，基于所述n个相似度计算所述待分析文本与每个基础文本的综合相似度，得到综合相似度集合；所述综合相似度集合中包含每个基础文本与所述待分析文本的综合相似度；所述文本相似度确定模型是采用权利要求1所述的方法生成的；

本说明书实施例提供的一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现一种文本相似度确定模型的生成方法。

本说明书实施例提供的一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现一种目标文本确定方法。

本说明书一个实施例实现了能够达到以下有益效果：采用n种相似度算法对待分析文本和基础文本进行相似度计算，得到综合相似度集合，根据样本标签以及计算得到的综合相似度集合，对每种相似度算法对应的预设权重进行更新，根据更新后的权重计算待分析文本和各个基础文本之间的最终相似度，将最终相似度值最大的基础文本确定为待分析文本对应的目标文本。通过上述方法，可以自适应地对各种相似度算法进行权重更新，进而在各种应用场景中确定各种算法对应的最终权重值，不需要人工直接对权重值进行定义，提高了文本相似度的计算精度，进而提高了目标文本的查找准确率。

附图说明

此处所说明的附图用来提供对本说明书一个或多个实施例的进一步理解，构成本说明书一个或多个实施例的一部分，本说明书的示意性实施例及其说明用于解释本说明书一个或多个实施例，并不构成对本说明书一个或多个实施例的不当限定。在附图中：

图1为本说明书实施例中一种目标文本确定方法的整体流程示意图；

图2为本说明书实施例提供的一种文本相似度确定模型的生成方法的流程示意图；

图3为本说明书实施例提供的一种目标文本确定方法的流程示意图；

图4为本说明书实施例提供的对应于图2的一种文本相似度确定模型的生成装置的结构示意图；

图5为本说明书实施例提供的对应于图3的一种目标文本确定装置的结构示意图；

图6为本说明书实施例提供的对应于图2的一种文本相似度确定模型的生成设备的结构示意图。

具体实施方式

为使本说明书一个或多个实施例的目的、技术方案和优点更加清楚，下面将结合本说明书具体实施例及相应的附图对本说明书一个或多个实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本说明书的一部分实施例，而不是全部的实施例。基于本说明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本说明书一个或多个实施例保护的范围。

以下结合附图，详细说明本说明书各实施例提供的技术方案。

文本相似度的计算可以应用在多个应用场景中，比如，在智能法务应用中，需要构建法务合同的条款库，用于存储一些合同文本的基础条款，基础条款可以包括除了约定的合同条款之外存在的条款。这些基础条款在不同的合同中，在表现形式上可能会存在差异，比如：写法不同、表达语言不同等，因此，可能会存在相同的基础条款在不同的合同中出现不一样的表达形式，此时，可以采用文本相似度算法对基础条款进行去重，保证条款库中的数据质量，以保证基于条款库的下游任务(条款分类、条款识别、条款生成或智能写合同等)能够准确实施。再比如：在智能问答场景中，根据用户输入的文本在问答库中根据文本相似度算法找到最为相似的问题，从而给出准确的答案。在撰写合同时，可以根据文本相似度算法从文本库中查找到对应的基础条款，以完成合同的定制。

因此，文本的相似度的计算在智能法务应用中至关重要。

图1为本说明书实施例中一种目标文本确定方法的整体流程示意图。如图1所示，针对待分析文本以及文本库中经过筛选的基础文本，首先可以选择四种文本相似度算法，分别计算出待分析文本以及文本库中经过筛选的各个基础文本的单一相似度值，如图1所示，可以采用向量余弦相似度算法计算得到第一相似度s1，采用编辑距离算法计算得到第二相似度s2，采用最长公共子串算法计算得到第三相似度s3，采用基于词交集占比的算法计算得到第四相似度s4；然后再运用监督学习方法，训练学习出最适合当前标注数据集的权重；最后用学习好的权重加权求和得到最终的相似度。具体地，可以随机初始化权值(w1，w2，w3，w4)和偏置b，其中，约束w1+w2+w3+w4＝1。对标注好的数据(x1，x2，y)，其中x1、x2分别代表两个文本序列，y是标注的标签，其中，标注的标签代表两个文本序列相似或者不相似(1或0)，加权得到相似度s＝f(s1·w1+s2·w2+s3·w3+s4·w4+b)，其中，f(x)表示激活函数，f＝sigmoid(x)，s为相似度，b表示偏置。采用梯度下降算法根据标注的样本以及计算得到的相似度S对初始权值进行更新，对于要求相似度的两个文本，利用更新完成的权值向量W，加权求和得到最终的文本相似度。

接下来，将针对说明书实施例提供的一种方法结合附图进行具体说明：

实施例1

图2为本说明书实施例提供的一种文本相似度确定模型的生成方法的流程示意图。从程序角度而言，流程的执行主体可以为搭载于应用服务器的程序或应用客户端。

如图2所示，该流程可以包括以下步骤：

步骤202：获取包含多个样本数据对的样本数据集合，所述样本数据对中包括两个文本数据以及一个样本标签，所述样本标签表示所述两个文本数据是否相似。

这里所说的样本数据对，可以表示的是需要比较相似度的两个样本数据。样本数据集合中可以包括多个样本数据对。每个样本数据对还可以携带有相应的样本标签，该样本标签可以用“0”和“1”表示，其中，“0”表示两个样本数据不相似，“1”表示两个样本数据相似。比如：样本数据集合X＝{x1,y1,0；x2,y2,1；x3,y3,0；……xn,yn,1}，其中，x1和y1为数据对，x2,y2为数据对，……，xn,yn为数据对，上述样本集合中可以看出，x1和y1不相似，x2和y2相似，x3和y3不相似，xn和yn相似。

步骤204：针对每个样本数据对，采用n种文本相似度算法计算所述样本数据对的相似度，得到n个相似度，n≥2。

针对每个数据对，可以采用n种文本相似度算法计算每个样本对的相似度，比如：针对样本数据对(x1,y1)，可以采用至少两种文本相似度算法计算x1和y1之间的相似度。例如：可以采用向量余弦相似度算法、编辑距离算法以及最长公共子串算法计算x1和y1之间的相似度，得到3个相似度：s1、s2和s3。

其中，相似度算法可以包括：向量余弦相似度算法、编辑距离算法、最长公共子串算法、基于词交集占比的算法、模糊距离算法、simhash相似度算法、欧几里得距离算法(也称欧氏距离)、皮尔逊相关系数算法以及Tanimoto系数(又称：杰卡德相关系数)等。

需要说明的是，本说明书中利用多种算法加权得到相似度，采用的算法的数量和种类可以根据实际应用场景进行选择，根据不同场景横向增加或减少相似度算法的数量或种类，来达到更好的相似度效果。

进一步地，何种场景选用何种相似度算法，采用几种相似度算法，可以根据各种相似度算法的特点以及优势结合应用场景来进行选择。比如：余弦相似度衡量的是维度间取值方向的一致性，注重维度之间的差异，不注重数值上的差异，而欧氏距离度量的正是数值上的差异性；余弦距离使用两个向量夹角的余弦值作为衡量两个个体间差异的大小。相比欧氏距离，余弦距离更加注重两个向量在方向上的差异，因此，判断两段文本的语义相似度时，可以用余弦值衡量文本相似度。

步骤206：采用预设权重值对所述n个相似度进行加权求和，计算每个样本数据对的综合相似度，得到综合相似度集合；所述综合相似度集合中包含每个所述样本数据对的综合相似度。

预设权重值可以是随机初始化的权重值，可以是根据经验设置的权重值，比如：采用了四种相似度算法计算相似度值，四种相似度算法分别为：基于词交集占比的算法、模糊距离算法、simhash相似度算法、欧几里得距离算法，根据经验赋予基于词交集占比的算法对应的权重值为0.4，模糊距离算法对应的权重值为0.2，simhash相似度算法对应的权重值为0.3、欧几里得距离算法对应的权重值为0.1。

所述采用预设权重值对所述n个相似度进行加权求和之前，还可以包括：

随机初始化n种文本相似度算法对应的权重值，得到预设权重，其中，n种文本相似度算法对应的权重值之和为1。

根据预设权重值加权多维算法对应的权值，可以得到每个样本数据对的综合相似度。延用上述例子：假设针对样本数据对(x1,x2)，采用基于词交集占比的算法进行相似度计算，得到相似度s1，采用模糊距离算法进行相似度计算，得到第二相似度s2，采用simhash相似度算法进行相似度计算，得到第三相似度s3，采用欧几里得距离算法进行相似度计算，得到第四相似度s4，此时，x1与x2之间的综合相似度S＝0.4s1+0.2s2+0.3s3+0.1s4。

综合相似度集合中可以包括所有样本数据对的综合相似度。

步骤208：根据所述样本标签以及所述综合相似度集合，对所述预设权重值进行更新，得到更新后的权重值。

样本标签可以表示的是样本数据对中两个样本数据的相似度(相似或不相似)。样本标签可以是提前人工标注的，也可以是采用其他算法标注完成的已知样本标签。

在对预设权重值进行更新时，可以根据样本标签以及综合相似度集合进行更新。比如：对于样本数据对A(x1,x2)，标注的样本标签为1，综合相似度集合中计算得到样本数据对A的相似度为1，此时，可以不需要对预设权重值进行更新。若综合相似度集合中计算得到样本数据对A的相似度为0.6，此时计算得到的样本数据对A的相似度与预设标签不相同，可以采用监督学习算法根据样本标签以及所述综合相似度集合，对所述预设权重值进行更新。

步骤210：根据所述更新后的权重值生成文本相似度确定模型。

需要说明的是，方案中的文本相似度确定模型可以仅用于更新各种相似度算法对应的最终权重。也可以用于更新各种相似度算法对应的最终权重，并根据更新后的最终权重确定文本相似度。

图2中的方法，采用n种相似度算法对待分析文本和基础文本进行相似度计算，得到综合相似度集合，根据样本标签以及计算得到的综合相似度集合，对每种相似度算法对应的预设权重进行更新，根据更新后的权重计算待分析文本和各个基础文本之间的最终相似度，将最终相似度值最大的基础文本确定为待分析文本对应的目标文本。通过上述方法，可以自适应地对各种相似度算法进行权重更新，进而在各种应用场景中确定各种算法对应的最终权重值，不需要人工直接对权重值进行定义，提高了文本相似度的计算精度，进而提高了目标文本的查找准确率。

基于图2的方法，本说明书实施例还提供了该方法的一些具体实施方案，下面进行说明。

所述采用n种文本相似度算法计算所述样本数据对的相似度，具体可以包括：

采用向量余弦相似度算法计算所述样本数据对的第一相似度；

采用编辑距离算法计算所述样本数据对的第二相似度；

采用最长公共子串算法计算所述样本数据对的第三相似度；

采用基于词交集占比的算法确定所述样本数据对的第四相似度。

更为具体地，采用向量余弦相似度算法计算所述样本数据对的第一相似度，具体可以包括：

采用词向量模型将所述样本数据对映射为第一词向量和第二词向量；

计算所述第一词向量与第二词向量之间的余弦距离，得到第一相似度。

需要说明的是，向量余弦相似度算法：又称为余弦相似性，是通过计算两个向量的夹角余弦值来评估文本之间的相似度。余弦相似度将向量根据坐标值，绘制到向量空间中。可以通过模型(如词向量模型，简称word2vec)得到句子向量，然后求句子向量的余弦距离来定义文本相似度。

其中，词向量模型(Word2vec)，可以是用来产生词向量的相关模型。这些模型为浅而双层的神经网络，用来训练以重新建构语言学之词文本。训练完成之后，word2vec模型可用来映射每个词到一个向量，用来表示词对词之间的关系。采用词向量模型可以将样本数据对映射为两个词向量。

所述基于编辑距离算法计算所述样本数据对的第二相似度，具体可以包括：

将所述样本数据对转换为字符串，得到第一字符串和第二字符串；

确定第一字符串转换为所述第二字符串所执行的操作的操作次数，所述操作包括字符的替换、字符的删除和/或字符的增加；

根据所述操作次数确定所述第二相似度，所述操作次数与所述第二相似度成反比。

需要说明的是，编辑距离(Minimum Edit Distance，MED)算法，指两个字串之间，由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符。一般来说，编辑距离越小，两个字串的相似度越大。

所述基于最长公共子串算法计算所述样本数据对的第三相似度，具体可以包括：

确定所述样本数据对中的最长公共子串；

从所述样本数据对中的两个样本数据中确定字符长度短的样本数据的字符长度；

将所述最长公共子串对应的字符长度与所述样本数据对中字符长度短的样本数据对应的字符长度的比值作为第三相似度。

需要说明的是，最长公共子串(LCS：Longest Common Substring)，可以表示给定两个字符串，求出它们之间最长的相同子字符串的长度。例如：可以遍历所有子字符串，比较连续的相同的字符串长度。公共子串越长，文本相似度越高，反义亦然。

所述基于词交集占比方法确定所述样本数据对的第四相似度，具体可以包括：

对所述样本数据对进行分词，确定所述样本数据对中相同词的数量；

确定所述样本数据对中字符长度短的样本数据对应的分词数量；

计算所述相同词的数量与所述分词数量的比值，得到所述样本数据对的第四相似度。

需要说明的是，基于词交集占比的方法，可以分别对两个文本进行分词，分词之后，求两个文本分词后交集大小与较短文本分词后大小的比值，即求两个文本中相同词的个数与两个文本中的较短文本的个数的比值，作为两个文本之间的相似度。比如：文本A和文本B，分词之后，文本A有5个词，文本B有8个词，文本A与文本B相同的词有3个，文本A与文本B的相似度＝3/5。

上述方法中，在计算文本相似度时，如果单独使用其中一种方法，都会存在相应的问题。比如：单独使用余弦相似度算法计算相似度时，由于word2vec得到的句子向量是含有语义的，但在找合同场景中求短文本相似度时，两个没有相同词的文本或者仅有一个相同词的文本，相似度可能会较高，准确率较低。

单独采用编辑距离算法也可以用来求两个文本的相似度。但是，把文字当作字符来处理，忽略了句子的语义信息。

单独采用最长公共子串(LCS)算法用来求文本相似度，忽略了文本的语义和文本前后的连贯性。

可见，单一一种文本相似度算法存在无法满足相应的场景需求，因此，在现有的方法中，通过简单的加权求和的方法计算文本的相似度，通过经验直接确定权值的方法，对多种的文本相似度算法求出的相似度进行加权求和，得到最终的相似度。现有的方法中，虽然融合多种文本相似度的优点，但是这种方法具有一定的随机性，非常依赖人工确定的权值，人工设定的权值准确率越高，计算得到的相似度准确率越高。但是，人工设定权值依赖于人工经验，无法保证相似度计算的准确性。

本说明书实施例的方案，选择对各种相似度算法的预设权重值进行自动更新，不依赖人工标注权重，具体地，可以采用以下方法：

所述根据所述样本标签以及所述综合相似度集合，对所述预设权重值进行更新，得到更新后的权重值，具体可以包括：

基于梯度下降算法根据所述样本标签以及所述综合相似度集合，对所述预设权重值进行更新，得到更新后的权重值。

梯度下降(Gradient Descent)算法，可以有代数法和矩阵法(也称向量法)两种表示，在机器学习算法中，在最小化损失函数时，可以通过梯度下降法来一步步的迭代求解，得到最小化的损失函数，和模型参数值。反过来，如果我们需要求解损失函数的最大值，这时就需要用梯度上升法来迭代了。通过梯度下降法，使得网络参数不断收敛到全局(或者局部)最小值，由于梯度方向是函数值变大的最快的方向，因此负梯度方向则是函数值变小的最快的方向。沿着负梯度方向一步一步迭代，便能快速地收敛到函数最小值。

更为具体地，所述基于梯度下降算法根据所述样本标签以及所述综合相似度集合，对所述预设权重值进行更新，得到更新后的权重值，具体可以包括：

根据所述样本标签以及所述综合相似度集合计算每个样本数据对的代价函数；

根据所述代价函数沿着负梯度方向对预设权重值进行迭代更新，直至所述代价函数收敛至函数最小值为止，得到更新后的权重值。

其中，可以采用以下公式根据所述求解得到的综合相似度与已知相似度计算代价函数：

其中，所述E(x)为代价函数，y为样本标签，y＝1表示两个样本相似，y＝0表示两个样本不相似，y’为综合相似度值。

计算得到代价函数之后，可以采用以下公式更新所述预设权重值，直至所述代价函数收敛为止，得到最终的权重值：

其中，其中，w(i)表示，w表示。

通过上述方法，可以自动对每种相似度算法的预设权重进行更新，不依赖人工标注权重，能够提高文本相似度的计算精度。

实施例2

图3为本说明书实施例提供的一种目标文本确定方法的流程示意图。从程序角度而言，流程的执行主体可以为搭载于应用服务器的程序或应用客户端。

如图3所示，该流程可以包括以下步骤：

步骤302：获取待分析文本。

需要说明的是，这里的待分析文本可以是相应的应用场景中对应的待分析文本，比如：可以是待分析合同的相关文本；可以是需要存储的合同条款，在基础条款存储时，需要对条款进行去重；还可以是待匹配的搜索文本或者待回答的问题等等。

步骤304：针对文本库中包含的任意一个基础文本，采用n种文本相似度算法计算所述待分析文本与所述任意一个基础文本的相似度，得到n个相似度，n≥2。

这里计算待分析文本与基础文本的相似度的方法可以参考实施例1中提供的方法。

步骤306：采用文本相似度确定模型，基于所述n个相似度计算所述待分析文本与每个基础文本的综合相似度，得到综合相似度集合；所述综合相似度集合中包含每个基础文本与所述待分析文本的综合相似度，所述文本相似度确定模型是采用实施例去1的方法生成的。

这里的文本相似度确定模型可以是实施例1中生成的文本相似度确定模型，可以用于更新各种相似度算法对应的最终权重。也可以用于更新各种相似度算法对应的最终权重，并根据更新后的最终权重确定文本相似度。

步骤308：将所述综合相似度集合中最大相似度对应的基础文本确定为目标文本。

目标文本可以是与待分析文本相似度最高的目标文本。在实际应用场景中，目标文本可以是智能问答机器人中根据用户输入的合同匹配得到的目标合同文本。

综合相似度集合中包括多个综合相似度值，该实施例中的每个综合相似度值是待分析文本和基础文本之间的综合相似度，是根据最终权重值以及采用n种相似度算法计算得到的n种相似度得到的综合相似度值。

通过采用文本相似度确定模型，基于n个相似度计算待分析文本与每个基础文本的综合相似度，得到综合相似度集合，并将综合相似度集合中最大相似度对应的基础文本确定为目标文本。可以更加准确地计算出待分析文本与基础文本之间的相似度，提高了相似度计算的准确率。

基于图3的方法，本说明书实施例还提供了该方法的一些具体实施方案，下面进行说明。

所述针对文本库中包含的任意一个基础文本，采用n种文本相似度算法计算所述待分析文本与所述任意一个基础文本的相似度之前，还可以包括:

采用预设的相似度算法，求所述待分析文本对应的字符串与文本库中的所有文本对应的字符串之间的相似度；

排除所述文本库中相似度值小于预设阈值的文本。

预设的相似度算法可以是简单的文本相似度算法，快速计算待分析文本与文本库中的所有文本之间的相似度，排除相似度小于预设阈值的文本。

在计算待分析文本与各个基础文本之间的相似度值时，对文本库中的基础文本进行初步筛选，排除文本库中与待分析文本相似度较小的文本，以减少候选采用待分析文本与更多基础文本的计算步骤，节省了系统资源。

基于同样的思路，本说明书实施例还提供了上述方法对应的装置，图4为本说明书实施例提供的对应于图2的一种文本相似度确定模型的生成装置的结构示意图。如图4所示，该装置可以包括：

样本数据集合获取模块402，用于获取包含多个样本数据对的样本数据集合，所述样本数据对中包括两个文本数据以及一个样本标签，所述样本标签表示所述两个文本数据是否相似；

相似度计算模块404，用于针对每个样本数据对，采用n种文本相似度算法计算所述样本数据对的相似度，得到n个相似度，n≥2；

综合相似度计算模块406，用于采用预设权重值对所述n个相似度进行加权求和，计算每个样本数据对的综合相似度，得到综合相似度集合；所述综合相似度集合中包含每个所述样本数据对的综合相似度；

权重更新模块408，用于根据所述样本标签以及所述综合相似度集合，对所述预设权重值进行更新，得到更新后的权重值；

文本相似度确定模型确定模块410，用于根据所述更新后的权重值生成文本相似度确定模型。

可选的，所述n种文本相似度算法可以包括向量余弦相似度算法、编辑距离算法、最长公共子串算法、基于词交集占比的算法、模糊距离算法和simhash相似度算法中的至少两种。

可选的，所述相似度计算模块404，具体可以包括：

第一相似度计算单元，用于采用向量余弦相似度算法计算所述样本数据对的第一相似度；

第二相似度计算单元，用于采用编辑距离算法计算所述样本数据对的第二相似度；

第三相似度计算单元，用于采用最长公共子串算法计算所述样本数据对的第三相似度；

第四相似度计算单元，用于采用基于词交集占比的算法确定所述样本数据对的第四相似度。

可选的，所述第一相似度计算单元，具体可以用于：

可选的，所述第二相似度计算单元，具体可以用于：

可选的，所述第三相似度计算单元，具体可以用于：

确定所述样本数据对中的最长公共子串；

可选的，所述第四相似度计算单元，具体可以用于：

可选的，所述权重更新模块408，具体可以包括：

权重更新单元，用于基于梯度下降算法根据所述样本标签以及所述综合相似度集合，对所述预设权重值进行更新，得到更新后的权重值。

可选的，所述权重更新单元，具体可以用于：

可选的，所述装置，还可以包括：

权重初始化模块，用于随机初始化n种文本相似度算法对应的权重值，得到预设权重，其中，n种文本相似度算法对应的权重值之和为1。

基于同样的思路，本说明书实施例还提供了上述方法对应的装置，图5为本说明书实施例提供的对应于图3的一种目标文本确定装置的结构示意图。如图5所示，该装置可以包括：

待分析文本获取模块502，用于获取待分析文本；

相似度计算模块504，用于针对文本库中包含的任意一个基础文本，采用n种文本相似度算法计算所述待分析文本与所述任意一个基础文本的相似度，得到n个相似度，n≥2；

综合相似度确定模块506，用于采用文本相似度确定模型，基于所述n个相似度计算所述待分析文本与每个基础文本的综合相似度，得到综合相似度集合；所述综合相似度集合中包含每个基础文本与所述待分析文本的综合相似度；所述文本相似度确定模型是采用实施例1的方法生成的。

目标文本确定模块508，用于将所述综合相似度集合中最大相似度对应的基础文本确定为目标文本。

可选的，所述装置，还可以包括:

预处理单元，用于采用预设的相似度算法，求所述待分析文本对应的字符串与文本库中的所有文本对应的字符串之间的相似度；并排除所述文本库中相似度值小于预设阈值的文本。

可选的，所述待分析文本可以为合同条款文本，所述基础文本为基础合同条款文本。

基于同样的思路，本说明书实施例还提供了上述方法对应的设备。图6为本说明书实施例提供的对应于图2的一种文本相似度确定模型的生成设备的结构示意图。如图6所示，设备600可以包括：

至少一个处理器610；以及，

与所述至少一个处理器通信连接的存储器630；其中，

所述存储器630存储有可被所述至少一个处理器610执行的指令620，所述指令被所述至少一个处理器610执行。

对应于实施例1，所述指令可以使所述至少一个处理器610能够：

根据所述更新后的权重值生成文本相似度确定模型。

对应于实施例2，一种目标文本确定设备中，所述指令可以使所述至少一个处理器能够：

获取待分析文本；

基于同样的思路，本说明书实施例还提供了上述方法对应的计算机可读介质。计算机可读介质上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现以下方法：

根据所述更新后的权重值生成文本相似度确定模型。

获取待分析文本；

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本说明书一个或多个实施例时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本说明书一个或多个实施例可提供为方法、系统、或计算机程序产品。因此，本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书一个或多个实施例是参照根据本说明书一个或多个实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书一个或多个实施例，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本说明书的实施例而已，并不用于限制本说明书一个或多个实施例。对于本领域技术人员来说，本说明书一个或多个实施例可以有各种更改和变化。凡在本说明书一个或多个实施例的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本说明书一个或多个实施例的权利要求范围之内。

Claims

1.一种文本相似度确定模型的生成方法，包括：

根据所述更新后的权重值生成文本相似度确定模型。

2.如权利要求1所述的方法，所述n种文本相似度算法包括向量余弦相似度算法、编辑距离算法、最长公共子串算法、基于词交集占比的算法、模糊距离算法和simhash相似度算法中的至少两种。

3.如权利要求2所述的方法，所述采用n种文本相似度算法计算所述样本数据对的相似度，具体包括：

采用编辑距离算法计算所述样本数据对的第二相似度；

采用最长公共子串算法计算所述样本数据对的第三相似度；

4.如权利要求3所述的方法，所述采用向量余弦相似度算法计算所述样本数据对的第一相似度，具体包括：

5.如权利要求3所述的方法，所述基于编辑距离算法计算所述样本数据对的第二相似度，具体包括：

6.如权利要求3所述的方法，所述基于最长公共子串算法计算所述样本数据对的第三相似度，具体包括：

确定所述样本数据对中的最长公共子串；

7.如权利要求3所述的方法，所述基于词交集占比方法确定所述样本数据对的第四相似度，具体包括：

8.如权利要求1所述的方法，所述根据所述样本标签以及所述综合相似度集合，对所述预设权重值进行更新，得到更新后的权重值，具体包括：

9.如权利要求8所述的方法，所述基于梯度下降算法根据所述样本标签以及所述综合相似度集合，对所述预设权重值进行更新，得到更新后的权重值，具体包括：

10.如权利要求1所述的方法，所述采用预设权重值对所述n个相似度进行加权求和之前，还包括：

11.一种目标文本确定方法，包括：

获取待分析文本；

12.如权利要求11所述的方法，所述针对文本库中包含的任意一个基础文本，采用n种文本相似度算法计算所述待分析文本与所述任意一个基础文本的相似度之前，还包括:

排除所述文本库中相似度值小于预设阈值的文本。

13.如权利要求11所述的方法，所述待分析文本为合同条款文本，所述基础文本为基础合同条款文本。

14.一种文本相似度确定模型的生成装置，包括：

15.一种目标文本确定装置，包括：

待分析文本获取模块，用于获取待分析文本；

16.一种文本相似度确定模型的生成设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

根据所述更新后的权重值生成文本相似度确定模型。

17.一种目标文本确定设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

获取待分析文本；

18.一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现权利要求1至10中任一项所述的文本相似度确定模型的生成方法。

19.一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现权利要求11至13中任一项所述的目标文本确定方法。