CN109284486B

CN109284486B - 文本相似性度量方法、装置、终端及存储介质

Info

Publication number: CN109284486B
Application number: CN201810925459.0A
Authority: CN
Inventors: 杜若; 覃勋辉; 向海; 侯聪; 刘科; 刘波
Original assignee: Chongqing Xiezhi Technology Co ltd
Current assignee: Chongqing Xiezhi Technology Co ltd
Priority date: 2018-08-14
Filing date: 2018-08-14
Publication date: 2023-08-22
Anticipated expiration: 2038-08-14
Also published as: CN109284486A

Abstract

本发明实施例公开了一种文本相似性度量方法、装置、终端及存储介质，其中方法包括：获取待处理的第一文本的第一概率向量，以及待处理的第二文本的第二概率向量；根据目标概率模型、所述第一概率向量和所述第二概率向量判断所述第一文本和所述第二文本是否属于同一相似文本集合；若所述第一文本和所述第二文本属于同一相似文本集合，则确定所述第一文本和所述第二文本相似。本发明实施例通过第一文本的第一意图类别所对应的第一概率向量和第二文本的第二意图类别所对应的第二概率向量来判断第一文本和第二文本的相似性，可以提高相似性度量结果的准确性。

Description

文本相似性度量方法、装置、终端及存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及文本相似性度量方法、装置、终端及存储介质。

背景技术

相似性度量，即综合评定两个事物之间相近程度的一种度量。相似性度量方法在信息检索领域是备受关注的研究内容，可以被广泛运用于信息检索和智能问答系统。目前，常用的相似性度量方法主要包括：欧式距离相似性度量方法和角度相似性度量方法(例如cos相似性度量)。目前常用的相似性度量方法主要通过计算两个文本之间的距离或者角度，根据计算出的距离或角度来评判两个文本的相似度。

由于自然语言具有语言表达丰富多样的特点，对于同一句话，可能存在不同的表达方式。两个文本的表达方式的不同，则会影响计算出的两个文本之间的距离或者角度，其相似度也会随之受到影响。由此可见，目前的相似性度量方法在计算两个文本的相似度时，会受到文本的表达方式的影响，其计算出的相似度的准确性较低。

发明内容

本发明实施例提供了一种文本相似性度量方法、装置、终端及计算机可读存储介质，可以提高相似性度量结果的准确性。

一方面，本发明实施例提供了一种文本相似性度量方法，所述文本相似性度量方法包括：

获取待处理的第一文本的第一概率向量，以及待处理的第二文本的第二概率向量；其中，所述第一概率向量为所述第一文本的第一意图类别所对应的概率向量，所述第二概率向量为所述第二文本的第二意图类别所对应的概率向量；

根据目标概率模型、所述第一概率向量和所述第二概率向量判断所述第一文本和所述第二文本是否属于同一相似文本集合；

若所述第一文本和所述第二文本属于同一相似文本集合，则确定所述第一文本和所述第二文本相似。

另一方面，本发明实施例提供了一种文本相似性度量装置，所述文本相似性度量装置包括：

获取单元，用于获取待处理的第一文本的第一概率向量，以及待处理的第二文本的第二概率向量；其中，所述第一概率向量为所述第一文本的第一意图类别所对应的概率向量，所述第二概率向量为所述第二文本的第二意图类别所对应的概率向量；

判断单元，用于根据目标概率模型、所述第一概率向量和所述第二概率向量判断所述第一文本和所述第二文本是否属于同一相似文本集合；

确定单元，用于若所述第一文本和所述第二文本属于同一相似文本集合，则确定所述第一文本和所述第二文本相似。

再一方面，本发明实施例提供一种用于文本相似性度量的终端，包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如下步骤：

再一方面，本发明实施例提供了一种计算机存储介质，所述计算机存储介质存储有一条或一条以上指令，所述一条或一条以上指令适于由处理器加载并执行如下步骤：

本发明实施例在对待处理的第一文本和第二文本进行相似性度量时，可以获取第一文本的第一概率向量和第二文本的第二概率向量。然后根据目标概率模型、第一概率向量和第二概率向量判断第一文本和所述第二文本是否属于同一相似文本集合；若属于，则确定第一文本和第二文本相似。本发明实施例不需要计算第一文本和第二文本之间的距离或者角度，可以避免因文本表达方式的影响，导致误判第一文本和第二文本之间的相似性，可以提高相似性度量结果的准确性。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种文本相似性度量方法的流程示意图；

图2是本发明另一实施例提供的一种文本相似性度量方法的流程示意图；

图3是本发明实施例提供的一种文本相似性度量装置的结构示意图；

图4是本发明实施例提供的一种用于文本相似性度量的终端的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

在本发明实施例中，提供了一种文本相似性度量方法，该文本相似性度量方法可以运用在信息检索中。例如用户在通过互联网搜索引擎检索信息时，终端可以根据用户所输入的查询信息，采用此文本相似性度量方法判断数据库中已存储信息与该查询信息是否属于同一相似文本集合，此处的同一相似文本集合为意图相似且内容相似的文本所构成的集合。若属于，则可以认为该已存储信息与查询信息相似，并可以将该已存储信息输出，以供用户查看。在一种实施方式中，该文本相似性度量方法还可以运用在智能问答系统中，智能问答系统是新一代智能搜索引擎，采用一问一答的方式，向用户反馈准确的答案。

例如用户在智能问答系统中输入问题A(第一文本)后，智能问答系统可以从问题数据库中存储的问题中任意选取一个问题作为问题B(第二文本)。然后可以分别获取问题A的意图类别所对应的第一概率向量，以及问题B的意图类别所对应的第二概率向量。然后可以根据目标概率模型、第一概率向量和第二概率向量判断问题A和问题B是否属于同一相似问题集合(即同一相似文本集合)；若属于，则可以确定问题A和问题B相似。由于问题A和问题B相似，那么问题A所对应的答案与问题B所对应的答案也相似。若智能问答系统中没有预先存储问题A，无法确定问题A的答案，那么可以获取已存储的问题B所对应的目标答案，并此目标答案反馈给用户。

基于上述的描述，本发明实施例提出了一种文本相似性度量方法，该文本相似性度量方法的流程示意图可以如图1所示。在一种实施方式中，本发明实施例所提供的文本相似性度量方法可以由终端执行，此处的终端可以包括但不限于：移动电话、膝上型计算机或平板计算机等便携式设备，以及台式计算机，等等。再一种实施方式中，该文本相似性度量方法也可以由服务器执行，此处的服务器可以包括但不限于：数据处理服务器、web服务器、搜索引擎所对应的服务器，或者智能问答系统所对应的应用服务器，等等。

本发明实施例以终端执行该文本相似性度量方法为例，请参见图1，该文本相似性度量方法可以包括以下步骤S101-S103：

S101，获取待处理的第一文本的第一概率向量，以及待处理的第二文本的第二概率向量。

其中，第一概率向量为第一文本的第一意图类别所对应的概率向量，第二概率向量为第二文本的第二意图类别所对应的概率向量。文本是一种书面语言的表现形式，可以是一个句子或多个句子的组合，此处的句子可以是问句、陈述句、祈使句，等等。相应的，此处的第一文本和第二文本均可以是待处理的问句(问题)、陈述句或者祈使句等等。终端在检测到进行文本相似性度量的触发事件后，可以获取待处理的第一文本和第二文本。

此处的触发事件可以是接收到用户输入的文本的事件；例如用户在浏览器或者智能问答系统中输入文本后，终端接收到此文本，则可以认为检测到了进行文本相似性度量的触发事件。此时，终端可以将接收到的用户输入的文本作为待处理的第一文本，从数据库中获取任意获取一个文本作为待处理的第二文本，并分别获取第一文本的第一概率向量和第二文本的第二概率向量。在一种实施方式中，终端也可以从数据库中获取一个与输入的文本同类型的文本作为待处理的第二文本；例如，输入的文本类型为问句(问题)，则可以从数据库中任意获取一个问句(问题)作为待处理的第二文本。需要说明的是，终端也可以将接收到的用户输入的文本作为待处理的第二文本，将从数据库中获取的文本作为待处理的第一文本，在此不作限定。

此处的触发事件还可以是接收到执行相似性度量指令的事件；例如，用户想要判断终端数据库中任意两个文本是否相似时，可以向终端输入一个相似性度量指令，该相似性度量指令可以是点击指令、按压指令、或者语音指令等等。终端接收到此相似性度量指令，则可以认为检测到了进行文本相似性度量的触发事件。此时，终端可以从数据库中任意选取两个文本作为待处理的第一文本和待处理的第二文本，并分别获取第一文本的第一概率向量和第二文本的第二概率向量。在一种实施方式中，终端也可以从数据库中任意获取两个同类型的文本作为待处理的第一文本和待处理的第二文本；例如，任意获取两个问句(问题)作为待处理的第一文本和待处理的第二文本。

S102，根据目标概率模型、第一概率向量和第二概率向量判断第一文本和第二文本是否属于同一相似文本集合。

目标概率模型可以是终端采用样本数据进行模型训练后所得到的模型，可以用于计算概率。实践表明，若第一文本和第二文本相似，那么第一文本和第二文本属于同一相似文本集合的第一相似概率比较大，第一文本和第二文本属于不同相似文本集合的第二相似概率比较小；若第一文本和第二文本不相似，那么第一文本和第二文本属于同一相似文本集合的第一相似概率比较小，第一文本和第二文本属于不同相似文本集合的第二相似概率比较大。

因此，本发明实施例在根据目标概率模型、第一概率向量和第二概率向量判断第一文本和第二文本是否属于同一相似文本集合时，可以先假设第一文本和第二文本属于同一相似文本集合，此时可以调用目标概率模型，根据第一概率向量和第二概率向量计算出第一相似概率；并且还可以假设第一文本和第二文本属于不同相似文本集合，此时可以调用目标概率模型，根据第一概率向量和第二概率向量计算出第二相似概率。然后可以根据第一相似概率和第二相似概率判断第一文本和第二文本是否属于同一相似文本集合；具体的，若第一相似概率大于第二相似概率，则可以认为第一文本和第二文本属于同一相似文本集合；若第一相似概率小于第二相似概率，则可以认为第一文本和第二文本属于不同相似文本集合。

S103，若第一文本和第二文本属于同一相似文本集合，则确定第一文本和第二文本相似。

请参见图2，是本发明实施例提供的另一种文本相似性度量方法的流程示意图，该文本相似性度量方法可以由终端或者服务器执行。本发明实施例以终端执行该文本相似性度量方法为例，如图2所示，本发明实施例中的文本相似性度量方法可包括如下步骤S201-S207：

S201，获取样本数据，该样本数据包括至少一个文本集合，任一文本集合中包括至少两个文本。

终端可以针对不同的应用领域、不同的应用场景或者业务需求，预先准备大量的样本数据，并将这些样本数据分为一个或多个文本集合，例如，样本数据为集合D，那么D＝{D₁,D₂,…,D_N}，N表示样本数据包括N个文本集合。任意一个文本集合中均可包括至少两个文本，例如，任意一个文本集合为D_i，(i＝1,2,…,N)，那么Di＝{sen_i1,sen_i2,…,sen_im}，m表示文本集合包括m个文本。

在一种实施方式中，终端可以根据意图相似原则和内容相似原则将样本数据分成多个文本集合，每一个文本集合中的至少两个文本的意图相似和内容均相似。例如，一个文本为“鼠标的作用是什么？”，另一个文本为“鼠标是干什么用的？”，这两个文本的意图均是询问物体的作用，且内容均是关于鼠标的，因此可以将这两个文本归为同一文本集合中。

S202，针对样本数据中的任一文本集合，对文本集合的各个文本进行意图分类处理，得到文本集合的各个文本的概率向量。

此处的各个文本的概率向量可以指各个文本的意图类别所对应的概率向量，可以根据各个文本的意图类别和预设意图类别的对应关系来确定。例如，预设意图类别包括如下几个类别：“time_rules”、“definition_rules”、“meaning_rules”、“usage_rules”、“unknown”，某一个文本的意图类别为[meaning_rules，usage_rules]，该意图类别所对应的概率向量为[0,0,0.5,0.5,0]，那么该文本的概率向量为[0,0,0.5,0.5,0]。又如，某文本的意图类别为[definition_rules]，该意图类别所对应的概率向量为[0,1,0,0,0]，那么该文本的概率向量为[0,1,0,0,0]。

在针对样本数据中的任一文本集合，对文本集合的各个文本进行意图分类处理时，终端可以采用意图分类算法对各个文本进行意图分类处理，此处的意图分类算法可以包括但不限于：问句文法、fastText算法、深度学习CNN意图分类算法，等等。采用意图分类算法对任意一个文本集合中的任意一个文本进行意图分类处理，可以得到该文本的概率向量。例如，设意图分类算法所对应的分类器为：intention_classify，那么任意一个文本集合(第i个文本集合)中的任意一个文本(第j个文本)的概率向量为：xij＝intention_classify(sen_ij)＝[p1,p2,…,pn]，其中，i∈[1，N]，j∈[1，m]，n表示预设意图类别的数量。

在一种实施方式中，若通过意图分类算法对文本进行意图分类处理后，得到了该文本的意图类别，而没有得到该意图类别所对应的概率向量，即意图类别中的“unknown”所对应的概率值为1，则可以根据该意图类别确定该概率向量。具体的，可以采用概率平均的方式确定概率向量。例如，预设意图类别包括：A类别、B类别、C类别、D类别以及“unknown”；该文本的意图类别除了“unknown”之外，包括了四个类别，分别是：A类别、B类别、C类别以及D类别，基于概率总值为1，对除了“unknown”之外的四个类别进行概率平均，则可以分别得到A类别的概率为0.25、B类别的概率为0.25、C类别的概率为0.25以及D类别的概率为0.25。因此，该意图类别所对应的概率向量(即该文本的概率向量)为[0.25，0.25，0.25，0.25，0]。

S203，采用样本数据中的各文本集合的各个文本的概率向量进行模型参数训练，得到训练完成的目标参数。

S204，采用目标参数构建目标概率模型。

在步骤S203-S204中，在一种实施方式中，可以直接采用样本数据中的各文本集合的各个文本的概率向量对目标概率模型的参数进行训练，得到的目标参数为该目标概率模型的参数。然后采用该目标参数直接构建目标概率模型。

再一种实施方式中，可以先采用样本数据中的各个文本集合的各个文本的概率向量对概率线性判别模型的参数进行训练，得到的目标参数为概率线性判别模型的参数。然后采用该目标参数构建概率线性判别模型，并对该概率线性判别模型进行转换，得到目标概率模型。此处的概率线性判别模型可以如式1.1所示：

xij＝μ+Fhi+Gwij+εij 式1.1

其中，μ+Fhi为信号成分，该信号成分与文本集合i有关，与文本集合i中的具体文本j无关，该信号成分可用于描述相似文本之间的差异；Gwij+εij为噪声成分，该噪声部分用于描述文本之间的意图差异。将样本数据的各个文本集合的各个文本的概率向量xij代入式1.1中，以对概率线性判别模型的参数μ、F、G以及ε进行训练，得到μ、F、G以及ε的参数值。在一种实施方式中，由于式1.1中存在h和wi两个隐形变量，因此可以选择EM(Expectation Maximization Algorithm，最大期望算法)算法求解μ、F、G以及ε的参数值。

由于，μ可以表示样本数据中的所有文本的意图均值，例如样本数据包括三个文本，这三个文本的意图类别所对应的概率向量分别是[0,0.3,0.3,0.4]、[0.3,0,0.3,0.4]、以及[0.3,0.3,0.3,0.1]，那么μ等于这三个概率向量的均值，即μ等于([0,0.3,0.3,0.4]+[0.3,0,0.3,0.4]+[0.3,0.3,0.3,0.1])/3＝[0.2,0.2,0.3,0.3]。F可以表示文本集合空间，包含了可以用来表示文本集合的基底；hi可以表示文本集合在F空间中的位置；G可以表示文本集合自身的误差空间，包含了可以用来表示同一文本集合中的不同文本的基底；wij可以表示该文本在该G空间中的位置；εij可以表示模型中的不确定因素总和，实践表明，εij为零均值高斯分布，其方差为∑。其中，在求得ε以后，可以确定∑的值。因此，本发明实施例可以将概率线性判别模型的式1.1表示为矩阵的形式，如式1.2所示：

将上述式1.2简化，可以得到式1.3：

x′＝μ′+Ay+ε′ 式1.3

其中，

本发明实施例中的目标概率模型为高斯概率模型，因此，可以将式1.3转换为高斯概率模型的形式，如式1.4所示：

其中，G_X′表示向量组X′符合高斯分布。

S205，获取待处理的第一文本的第一概率向量，以及待处理的第二文本的第二概率向量。

在确定了第一文本和第二文本之后，可以采用问句文法等意图分类算法分别对第一文本和第二文本进行意图分类处理，从而得到第一文本的第一概率向量，以及第二文本的第二概率向量。如果在进行意图分类处理后，没有得到第一文本的第一概率向量，即第一文本的第一意图类别中的“unknown”所对应的概率值为1，则可以基于概率平均的方式确定第一概率向量，具体的实现过程可以参见上述步骤S202。同理，如果在进行意图分类处理后，没有得到第二文本的第二概率向量，则也可以基于概率平均的方式确定第二概率向量，具体的实现过程也可以参见上述步骤S202。

S206，根据目标概率模型、第一概率向量和第二概率向量判断第一文本和第二文本是否属于同一相似文本集合。

在具体实施过程中，步骤S206可以包括如下步骤s11-s13：

s11，调用目标概率模型，根据第一概率向量和第二概率向量计算第一文本和第二文本属于同一相似文本集合的第一相似概率。

假设第一文本和第二文本属于同一相似文本集合，则可以先采用第一概率向量和第二概率向量构成目标概率向量组；然后调用目标概率模型对该目标概率向量组进行概率运算，得到第一相似概率Pr(X₁.X₂)，即Pr(X₁.X₂)＝Pr([X₁,X₂])。

例如，第一概率向量X₁为[0,0.3,0.3,0.4]、第二概率向量X₂为[0.3,0.3,0.3,0.1]，那么构成的目标概率向量组[X₁,X₂]为然后将此目标概率向量组输入至目标概率模型中，以得到第一相似概率Pr(X₁.X₂)。

s12，调用目标概率模型，根据第一概率向量和第二概率向量计算第一文本和第二文本属于不同相似文本集合的第二相似概率。

假设第一文本和第二文本属于不同相似文本集合，则可以先调用目标概率模型对第一概率向量进行概率运算，得到第一中间概率Pr(X₁)，以及调用目标概率模型对第二概率向量进行概率运算，得到第二中间概率Pr(X₂)；然后将第一中间概率Pr(X₁)和第二中间概率Pr(X₂)的乘积确定为第二相似概率。

例如，第一概率向量X₁为[0,0.3,0.3,0.4]、第二概率向量X₂为[0.3,0.3,0.3,0.1]，那么调用目标概率模型对向量[0,0.3,0.3,0.4]进行运算，得到第一中间概率Pr(X₁)；调用目标概率模型对向量[0.3,0.3,0.3,0.1]进行运算，得到第二中间概率Pr(X₂)。然后Pr(X₁)*Pr(X₂)计算得到第二相似概率。

s13，根据第一相似概率和第二相似概率，判断第一文本和第二问是否属于同一相似文本集合。

由前述可知，若第一相似概率大于第二相似概率，则可以认为第一文本和第二文本属于同一相似文本集合；若第一相似概率小于第二相似概率，则可以认为第一文本和第二文本属于不同相似文本集合。因此，在根据第一相似概率和第二相似概率判断第一文本和第二问是否属于同一相似文本集合时，可以先根据第一相似概率和第二相似概率确定概率差值；若该概率差值大于预设阈值，则确定第一文本和第二文本属于同一相似文本集合；若该概率差值小于预设阈值，则确定第一文本和第二文本属于不同相似文本集合。此处的预设阈值可以根据实际业务需求制定，例如，该预设阈值可以为0。

在一种实施方式中，根据第一相似概率和第二相似概率确定概率差值的具体实施方式可以是：直接将第一相似概率和第二相似概率的差值确定为概率差值。

再一种实施方式中，由于目标概率模型为高斯概率模型，因此采用目标概率模型所求取出的第一相似概率和第二相似概率可能为指数形式。为了便于求取概率差值，根据所述第一相似概率和所述第二相似概率确定概率差值的具体实施方式还可以是：先对第一相似概率进行对数运算，得到第一对数值，以及对第二相似概率进行对数运算，得到第二对数值；再将第一对数值和第二对数值的差值确定为概率差值，此时的概率差值S可以如下，以预设阈值为0为例：

S＝ln(Pr(X₁.X₂))-ln(Pr(X₁)*Pr(X2))。

若S>0，则第一文本和第二文本属于同一相似文本集合；

若S<0，则第一文本和第二文本属于不同相似文本集合。

S207，若第一文本和第二文本属于同一相似文本集合，则确定第一文本和第二文本相似。

基于上述文本相似性度量方法实施例的描述，本发明实施例还公开了一种文本相似性度量装置，所述文本相似性度量装置可以是运行于终端中的一个计算机程序(包括程序代码)，也可以是包含在终端中的一个实体装置。该文本相似性度量装置可以执行图1至图2所示的文本相似性度量方法。请参见图3，所述文本相似性度量装置可以运行如下单元：

获取单元101，用于获取待处理的第一文本的第一概率向量，以及待处理的第二文本的第二概率向量；其中，所述第一概率向量为所述第一文本的第一意图类别所对应的概率向量，所述第二概率向量为所述第二文本的第二意图类别所对应的概率向量；

判断单元102，用于根据目标概率模型、所述第一概率向量和所述第二概率向量判断所述第一文本和所述第二文本是否属于同一相似文本集合；

确定单元103，用于若所述第一文本和所述第二文本属于同一相似文本集合，则确定所述第一文本和所述第二文本相似。

在一种实施方式中，所述判断单元102在用于根据目标概率模型、所述第一概率向量和所述第二概率向量判断所述第一文本和所述第二文本是否属于同一相似文本集合时，可具体用于：

调用目标概率模型，根据所述第一概率向量和所述第二概率向量计算所述第一文本和所述第二文本属于同一相似文本集合的第一相似概率；

调用所述目标概率模型，根据所述第一概率向量和所述第二概率向量计算所述第一文本和所述第二文本属于不同相似文本集合的第二相似概率；

根据所述第一相似概率和所述第二相似概率，判断所述第一文本和所述第二问是否属于同一相似文本集合。

再一种实施方式中，所述判断单元102在用于根据所述第一相似概率和所述第二相似概率，判断所述第一文本和所述第二问是否属于同一相似文本集合合时，可具体用于：

根据所述第一相似概率和所述第二相似概率确定概率差值；

若所述概率差值大于预设阈值，则确定所述第一文本和所述第二文本属于同一相似文本集合；

若所述概率差值小于预设阈值，则确定所述第一文本和所述第二文本属于不同相似文本集合。

再一种实施方式中，所述判断单元102在用于根据所述第一相似概率和所述第二相似概率确定概率差值时，可具体用于：

对所述第一相似概率进行对数运算，得到第一对数值，以及对所述第二相似概率进行对数运算，得到第二对数值；

将所述第一对数值和所述第二对数值的差值确定为所述概率差值。

再一种实施方式中，所述判断单元102在用于调用目标概率模型，根据所述第一概率向量和所述第二概率向量计算所述第一文本和所述第二文本属于同一相似文本集合的第一相似概率时，可具体用于：

采用所述第一概率向量和所述第二概率向量构成目标概率向量组；

调用目标概率模型对所述目标概率向量组进行概率运算，得到第一相似概率。

再一种实施方式中，所述判断单元102在用于调用所述目标概率模型，根据所述第一概率向量和所述第二概率向量计算所述第一文本和所述第二文本属于不同相似文本集合的第二相似概率时，可具体用于：

调用所述目标概率模型对所述第一概率向量进行概率运算，得到第一中间概率，以及调用所述目标概率模型对所述第二概率向量进行概率运算，得到第二中间概率；

将所述第一中间概率和所述第二中间概率的乘积确定为第二相似概率。

再一种实施方式中，所述获取单元101还可用于：获取样本数据，所述样本数据包括至少一个文本集合，任一文本集合中包括至少两个文本。

所述文本相似性度量装置还可包括处理单元104，用于：针对所述样本数据中的任一文本集合，对所述文本集合的各个文本进行意图分类处理，得到所述文本集合的各个文本的概率向量；采用所述样本数据中的各文本集合的各个文本的概率向量进行模型参数训练，得到训练完成的目标参数；采用所述目标参数构建所述目标概率模型。

根据本发明的一个实施例，图1至图2所示的方法所涉及的各个步骤均可以是由图3所示的文本相似性度量装置中的各个单元来执行的。例如，图1中所示的步骤S101-S103可以分别由图3中所示的获取单元101、判断单元102和确定单元103来执行；又如，图2中所示的步骤S201可由图3中所示的获取单元101来执行，S202-S204可由图3中所示的处理单元104来执行，S205-S207可分别由图3中所示的获取单元101、判断单元102和确定单元103来执行。

需要说明的是，图3所示的文本相似性度量装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本发明的实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本发明的其它实施例中，文本相似性度量装置也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。

根据本发明的另一个实施例，可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图1至图2中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码)，来构造如图3中所示的文本相似性度量装置设备，以及来实现本发明实施例的文本相似性度量方法。所述计算机程序可以记载于例如计算机可读记录介质上，并通过计算机可读记录介质装载于上述计算设备中，并在其中运行。

请参见图4，是本发明实施例提供的一种用于文本相似性度量的终端的结构示意图。如图4所示的本实施例中的终端可以包括：一个或多个处理器201；一个或多个输入设备202，一个或多个输出设备203和存储器204。上述处理器201、输入设备202、输出设备203和存储器204通过总线连接。存储器204用于存储计算机程序，所述计算机程序包括程序指令，处理器201用于执行所述存储器204存储的程序指令。

在一种实施方式中，该处理器201可以是中央处理单元(Central ProcessingUnit，CPU)，该处理器还可以是其他通用处理器，即微处理器或者任何常规的处理器。该存储器204可以包括只读存储器和随机存取存储器，并向处理器201提供指令和数据。因此，在此对于处理器201和存储器204不作限定。

在本发明实施例中，由处理器201加载并执行计算机存储介质中存放的一条或一条以上指令，以实现上述相应实施例中的方法的相应步骤；具体实现中，计算机存储介质中的至少一条指令由处理器201加载并执行如下步骤：

在一种实施方式中，在根据目标概率模型、所述第一概率向量和所述第二概率向量判断所述第一文本和所述第二文本是否属于同一相似文本集合时，所述一条或一条以上指令可由处理器201加载并具体执行：

再一种实施方式中，在根据所述第一相似概率和所述第二相似概率，判断所述第一文本和所述第二问是否属于同一相似文本集合时，所述一条或一条以上指令可由处理器201加载并具体执行：

根据所述第一相似概率和所述第二相似概率确定概率差值；

再一种实施方式中，在根据所述第一相似概率和所述第二相似概率确定概率差值时，所述一条或一条以上指令可由处理器201加载并具体执行：

再一种实施方式中，在调用目标概率模型，根据所述第一概率向量和所述第二概率向量计算所述第一文本和所述第二文本属于同一相似文本集合的第一相似概率时，所述一条或一条以上指令可由处理器201加载并具体执行：

再一种实施方式中，在调用所述目标概率模型，根据所述第一概率向量和所述第二概率向量计算所述第一文本和所述第二文本属于不同相似文本集合的第二相似概率时，所述一条或一条以上指令可由处理器201加载并具体执行：

再一种实施方式中，所述一条或一条以上指令还可由处理器201加载并具体执行：

获取样本数据，所述样本数据包括至少一个文本集合，任一文本集合中包括至少两个文本；

针对所述样本数据中的任一文本集合，对所述文本集合的各个文本进行意图分类处理，得到所述文本集合的各个文本的概率向量；

采用所述样本数据中的各文本集合的各个文本的概率向量进行模型参数训练，得到训练完成的目标参数；

采用所述目标参数构建所述目标概率模型。

需要说明的是，上述描述的终端和单元的具体工作过程，可以参考前述各个实施例中的相关描述，在此不再赘述。

本发明实施例还提供了一种计算机存储介质(Memory)，所述计算机存储介质是终端中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机存储介质既可以包括终端中的内置存储介质，当然也可以包括终端所支持的扩展存储介质。计算机存储介质提供存储空间，该存储空间存储了终端的操作系统。并且，在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)，可以适于由处理器加载并执行上述方法实施例中的文本相似性度量方法。需要说明的是，此处的计算机存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器；可选的还可以是至少一个位于远离前述处理器的计算机存储介质。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种文本相似性度量方法，其特征在于，包括：

根据所述第一相似概率和所述第二相似概率确定概率差值；

确定所述第一文本和所述第二文本相似。

2.如权利要求1所述的方法，其特征在于，所述方法还包括：

若所述概率差值小于预设阈值，则确定所述第一文本和所述第二文本属于不同相似文本集合；

确定所述第一文本和所述第二文本不相似。

3.如权利要求1所述的方法，其特征在于，所述根据所述第一相似概率和所述第二相似概率确定概率差值，包括：

4.如权利要求1所述的方法，其特征在于，所述调用目标概率模型，根据所述第一概率向量和所述第二概率向量计算所述第一文本和所述第二文本属于同一相似文本集合的第一相似概率，包括：

5.如权利要求1所述的方法，其特征在于，所述调用所述目标概率模型，根据所述第一概率向量和所述第二概率向量计算所述第一文本和所述第二文本属于不同相似文本集合的第二相似概率，包括：

6.如权利要求1-5任一项所述的方法，其特征在于，所述方法还包括：

采用所述目标参数构建所述目标概率模型。

7.一种文本相似性度量装置，其特征在于，包括：

判断单元，用于调用目标概率模型，根据所述第一概率向量和所述第二概率向量计算所述第一文本和所述第二文本属于同一相似文本集合的第一相似概率；调用所述目标概率模型，根据所述第一概率向量和所述第二概率向量计算所述第一文本和所述第二文本属于不同相似文本集合的第二相似概率；根据所述第一相似概率和所述第二相似概率确定概率差值；若所述概率差值大于预设阈值，则确定所述第一文本和所述第二文本属于同一相似文本集合；

确定单元，用于在所述判断单元判断所述第一文本和所述第二文本属于同一相似文本集合的情况下，确定所述第一文本和所述第二文本相似。

8.一种用于文本相似性度量的终端，其特征在于，包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如权利要求1-6任一项所述的方法。

9.一种计算机存储介质，其特征在于，所述计算机存储介质存储有一条或一条以上指令，所述一条或一条以上指令适于由处理器加载并执行如权利要求1-6任一项所述的方法。