CN113392176B

CN113392176B - 文本相似性的确定方法、装置、设备及介质

Info

Publication number: CN113392176B
Application number: CN202011043848.4A
Authority: CN
Inventors: 彭江军
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-09-28
Filing date: 2020-09-28
Publication date: 2023-08-22
Anticipated expiration: 2040-09-28
Also published as: CN113392176A

Abstract

本申请公开了一种文本相似性的确定方法、消息接收方法、装置、设备及介质，涉及数据处理领域。该方法包括：获取第一文本和第二文本；提取所述第一文本和所述第二文本在k个特征维度上的相关特征，k为大于1的整数；将所述k个特征维度上的相关特征作为k个自变量输入非负线性回归方程，得到因变量；所述非负线性回归方程中的回归系数均为非负值；在所述因变量大于阈值时，确定所述第一文本和所述第二文本相似。

Description

文本相似性的确定方法、装置、设备及介质

技术领域

本申请实施例涉及数据处理领域，特别涉及一种文本相似性的确定方法、装置、设备及介质。

背景技术

文本相似度计算是自然语言领域的一个重要的研究课题。

相关技术常采用基于字符的方法来计算文本相似度。比如，计算机设备分别计算第一文本和第二文本在字符维度的相关特征，在相关特征所指示的相似度达到阈值时，确定第一文本和第二文本相似。

由于上述方法仅能计算两个文本在一个特征维度的相关性，因此上述方法的准确性有限。

发明内容

本申请实施例提供了一种文本相似性的确定方法、装置、设备及介质，将文本相似度计算问题抽象为非负线性回归问题，来综合多个特征维度的相关特征计算文本相似度。所述技术方案如下：

根据本申请的一个方面，提供了一种文本相似性的确定方法，所述方法包括：

获取第一文本和第二文本；

提取所述第一文本和所述第二文本在k个特征维度上的相关特征，k为大于1的整数；

将所述k个特征维度上的相关特征作为k个自变量输入非负线性回归方程，得到因变量；所述非负线性回归方程中的回归系数均为非负值；

在所述因变量大于阈值时，确定所述第一文本和所述第二文本相似。

根据本申请的另一方面，提供了一种文本相似性的确定装置，所述装置包括：

文本获取模块，用于获取第一文本和第二文本；

特征提取模块，用于提取所述第一文本和所述第二文本在k个特征维度上的相关特征，k为大于1的整数；

非负回归模块，用于将所述k个特征维度上的相关特征作为k个自变量输入非负线性回归方程，得到因变量；所述非负线性回归方程中的回归系数均为非负值；

相关确定模块，用于在所述因变量大于阈值时，确定所述第一文本和所述第二文本相似。

根据本申请的另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上方面所述的文本相似性的确定方法。

根据本申请的另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上方面所述的文本相似性的确定方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

通过将文本相似度计算问题抽象为非负线性回归问题，将两个文本在k个特征维度上的相关特征作为k个自变量，采用非负线性回归方程来综合多个特征维度的相关特征计算文本相似度，能够较好地提高文本相似度的计算准确性。同时，本申请还首次提出非负线性回归方程，以及非负线性回归方程的解法。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本申请一个示例性实施例提供的文本相似性的确定方法的流程图；

图2是本申请一个示例性实施例提供的文本相似性的确定方法的流程图；

图3是本申请一个示例性实施例提供的文本相似性的确定方法的流程图；

图4是本申请一个示例性实施例提供的自适应乘子梯度下降法与其它方法的性能对比图；

图5是本申请一个示例性实施例提供的自适应乘子梯度下降法与其它方法的性能对比图；

图6是本申请另一个示例性实施例提供的文本相似度确定装置的框图；

图7是本申请另一个示例性实施例提供的文本相似度确定装置的框图；

图8是本申请另一个示例性实施例提供的计算机设备的框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

首先对本申请涉及的若干个名词进行简介：

可行域：优化问题的解的约束空间，限定了优化问题的解必须属于的数值范围。

投影：设P是投影，当且仅当存在V的一个子空间W，使得P将所有V中的元素都映射到W中，而且P在W上是恒等变换。用数学的语言描述为：使得/>并且/>其中，u为V中的元素。

非负线性回归：对于某些应用场景中的线性回归，限定回归系数必须大于或等于0。

一、线性回归(LinearRegression)问题；

在影响因变量y的因素不止一个的情况下，假设有k个自变量：x₁,x₂,…，x_k，考虑如下的线性回归关系式：

y＝β₁x₁+β₂x₂+…+β_kx_k+∈；

其中，β₁，β₂，…，β_k为回归系数，∈是拟合误差。

对y与x₁,x₂,…,x_k同时作n次独立观察，得到n组观测值(x_t1,x_t2,…,x_tk),t＝1,…,n,(n≥k+1)，得到因变量y的值为Y＝[y₁ … y_n]^T。(x_t1,x_t2,…,x_tk),t＝1,…,n,(n≥k+1)记为观测数据矩阵：

记回归系数向量为w＝[β₁ … β_k]，误差向量为∈＝[∈₁ … ∈_k]。将上述的描述写成矩阵形式，可得Y＝Xw+∈。

建立如下的损失函数J(w)＝‖Y-Xw‖²。要求上述线性回归关系式尽可能拟合n组观测值，并使得损失函数的值达到最小。根据微积分知识可知，损失函数的导数为0时，损失函数的值达到最小值。因此对损失函数求导并令导数等于0，可得：

从而得到无约束的最小二乘法解法w＝inv(X^TX)X^TY。其中，T为矩阵转置，inv为矩阵求逆。

二、非负线性回归问题；

在某些应用场景的情况下，对线性回归关系式的回归系数有一定的限制。当要求因变量y和所有自变量x都满足正相关关系的情况下，即要求回归系数β_i≥0。

定义：设n组观测值(x_t1,x_t2,…,x_tk),t＝1,…,n,(n≥k+1)组成的自变量观测数据矩阵：

其对应的因变量数值向量为Y＝[y₁ … y_n]^T≥0。假设因变量和所有的自变量之间都具有正相关关系，考虑如下的线性回归关系式：

y＝w₁x₁+w₂x₂+…+w_kx_k+∈；

即回归系数w＝[w₁,…,w_k]≥0。建立如下的损失函数J(w)＝‖Y-Xw‖²，由此得到如下的非负线性回归问题：

min_w≥0J(w)＝‖Y-Xw‖²。

三、非负线性回归问题的解法叙述；

由于回归系数非负不方便用正则的形式加以限制，因此本申请提出了如下两种非负线性回归问题的解法：

第一，最小二乘截断法；

先将非负线性回归问题当成无约束的线性回归问题，采用最小二乘法进行求解，然后将解向可行域进行投影，也即w＝max_w{inv(X^TX)X^TY,0}；

第二，梯度下降截断法：

在梯度下降法的基础上对迭代产生的值进行可行域投影，得到如下的梯度下降截断法的迭代公式：

其中，表示回归系数在第m次的迭代数值。

四：自适应乘子梯度下降法的提出；

本申请实施例还在梯度下降法的基础上，提出了自适应乘子梯度下降法，对学习率进行如下的设定。

w^m+1＝w^m-α(X^TXw^m-X^TY)；

其中，表示回归系数在第m次的迭代数值。

通过为每个的学习率设定为/>带入梯度下降法的迭代公式中可得自适应乘子梯度下降法的迭代公式：

由于X≥0,Y≥0，若系数初始值w⁰≥0，有故按照上述公式得到的参数迭代值w^m≥0，从而保证了迭代过程中产生的迭代值始终非负。由于每次迭代值之间相差的是一个自适应乘子/>故本申请将这种学习率的选择方法记为自适应乘子梯度下降法。

五：自适应乘子梯度下降法最优化理论；

对于上述自适应乘子梯度下降法，本申请实施例按照如下的四个步骤进行证明：

5.1：证明非负线性回归问题是一个凸优化问题；

根据J(w)二阶导数且可行域是个凸集合，故该问题是个凸优化问题。故对于该问题局部最优解即为全局最优解，凸优化局部最优解即为全局最优解的证明可以用用反证法证明，证明比较简单，可以从任何搜索引擎得到该证明，故简单从略，这里不予证明。

5.2：证明自适应乘子梯度下降法的收敛性；

由于采用梯度下降法求解，所以J(w_m+1)≤J(w_m)；

由于J(w)≥0，由序列单调下降有下界，故J(w^m)必收敛于某个值为J^*；

由于J(w)是连续函数，故存在值w^*，使得J(w^*)＝J^*；

又因为J(w)是连续函数，由其连续性可得lim_m→∞J(w_m)＝J(lim_m→∞w_m)＝J^*＝J(w^*)，从而可以推出来lim_i→∞w_i＝w^*。即由自适应乘子梯度下降法构造的迭代算式是收敛的。

5.3：证明w^*是局部最优解；

对上述自适应乘子梯度下降法的迭代公式两边同时取极限可得：可得(X^TY)_i＝(X^TXw^*)_i,i＝1,…,K，写成向量形式可以表示为X^TY＝X^TXw^*；

由于故可得w^*是函数J(w)的驻点。

又由于二阶导数故可得w^*就是局部最小值点。

5.4：证明局部最优解是全局最优解；

由5.3可得w^*是J(w)的局部最小值点，又由于5.1中证明的非负线性回归问题是一个凸优化问题的特性，即可证明w^*是J(w)的全局最小值点。

图1示出了本申请一个示例性实施例提供的文本相似性的确定方法的流程图。本实施例以该方法应用于计算机设备来举例说明。该方法包括：

步骤102：获取第一文本和第二文本；

第一文本和第二文本是待确定文本相关性的两个文本。

第一文本是一个短语、一个句子、几个句子、一篇文章中的至少一种。第二文本是一个短语、一个句子、几个句子、一篇文章中的至少一种。第一文本和第二文本的字符数相同或不同。

在一个搜索场景的例子中，第一文本是由用户终端发送至计算机设备的待检索文本。第二文本是计算机设备中存储的多个文本中的一个文本。在一个文本分类场景的例子中，第一文本和第二文本是待分类文本中的任意两个文本。

步骤104：获取第一文本和第二文本在k个特征维度上的相关特征，k为大于1的整数；

示意性的，特征维度包括但不限于如下特征维度中的k种，比如19种：

·词频-逆文本频率指数(Term Frequency–Inverse Document Frequency，TF-IDF)；

TF指的是某一个给定的词语在该文本中出现的次数。IDF指的是语料库中总文本数目除以包含该词语之文本的数目，再将得到的商取对数得到的值。

示意性的，使用TF-IDF算法找出第一文本中的核心词和第二文本中的核心词。将两个文本中的核心词合并为一个词汇集合。在第一文本中，根据词汇集合中的每个核心词的出现次数计算词频，得到第一词频向量；在第二文本中，根据词汇集合中的每个核心词的出现次数计算词频，得到第二词频向量。将第一词频向量和第二词频向量的乘积，作为TF-IDF维度的相关特征。

·归一化的(normalized)TF-IDF；

TF-IDF的数值可能偏大或偏小，为了便于计算，计算机设备将上述计算得到的TF-IDF维度的相关特征，归一化至区间[0,1]进行表示，得到归一化后的TF-IDF。

·BM25评分；

BM25是信息索引领域用来计算文本相似度得分的经典算法。

不同于TF-IDF，BM25的公式主要由三个部分组成：

1、第一文本中每个单词t与第二文本之间的相关性；

2、单词t与第一文本之间的相似性

3、每个单词的权重。

其中，Q表示第一文本，q_i表示第一文本中的单词。d表示第二文本。w_i表示单词权重。R(q_i，d)表示词语qi与第二文本的相关性得分。

单词权重可以采用上述IDF来表示，但本申请实施例对单词权重的确定方式不加以限定。

·归一化的BM25评分；

BM25评分的数值可能偏大或偏小，为了便于计算，计算机设备将上述计算得到的BM25评分，归一化至区间[0,1]进行表示，得到归一化后的BM25评分。

·第一文本中的命中词的个数；

命中词是第一文本和第二文本中均出现的词语。

·第一文本中的命中词的比例；

该比例是第一文本中的命中词的个数除以第一文本中的词语总个数，得到第一文本中的命中词的比例。

·第一文本中的命中词的权重；

每个命中词在第一文本中都具有各自的单词权重，比如单词权重可以用IDF来表示。将第一文本中的所有命中词的权重相加，得到第一文本中的命中词的权重。

·第一文本中的核心命中词的个数；

对于单词权重高于阈值的词语，确定为核心词。同时在第一文本和第二文本中出现的核心词，即为核心命中词。

·第一文本中的核心命中词的比例；

该比例是第一文本中的核心命中词的个数除以第一文本中的词语总个数，得到第一文本中的核心命中词的比例。

·第一文本中的核心命中词的权重；

每个核心命中词在第一文本中都具有各自的单词权重，比如单词权重可以用IDF来表示。将第一文本中的所有核心命中词的权重相加，得到第一文本中的核心命中词的权重。

·第二文本中的命中词的个数；

命中词是第一文本和第二文本中均出现的词语。

·第二文本中的命中词的比例；

该比例是第二文本中的命中词的个数除以第二文本中的词语总个数，得到第二文本中的命中词的比例。

·第二文本中的命中词的权重；

每个命中词在第二文本中都具有各自的单词权重，比如单词权重可以用IDF来表示。将第二文本中的所有命中词的权重相加，得到第二文本中的命中词的权重。

·第二文本中的核心命中词的个数；

·第二文本中的核心命中词的比例；

该比例是第二文本中的核心命中词的个数除以第二文本中的词语总个数，得到第二文本中的核心命中词的比例。

·第二文本中的核心命中词的权重；

每个核心命中词在第二文本中都具有各自的单词权重，比如单词权重可以用IDF来表示。将第二文本中的所有核心命中词的权重相加，得到第二文本中的核心命中词的权重。

·杰卡德(Jaccard)相似性；

设第一文本中的单词构成集合A，第二文本中的单词构成集合B，Jaccard相似性定义为A与B的交集大小和A与B的并集大小之间的比例。

·基于第一权重的Jaccard相似性，第一权重是单词在第一文本中对应的权重；

设第一文本中的单词构成集合A，第二文本中的单词构成集合B，元素的取值可以是实数。又称为Tanimoto系数，用EJ来表示，计算方式如下：

EJ(A,B)＝(A*B)/(||A||^2+||B||^2-A*B)；

其中A、B分别表示为两个向量，集合中每个元素表示为向量中的一个维度(分量)，在每个维度上，取值通常是[0,1]之间的值，A*B表示向量乘积，||A||^2表示向量的模，即||A||^2＝sqrt(a1^2+a2^2+a3^2+......)。

EJ中每个分量的取值可以是实数，通常在[0,1]之间。对于两篇文本在分词之后，形成两个“词语--词频向量”，词语可以做为EJ的维度，如何将词频转换为实数值。可以借鉴TF-IDF的思路。对于每个词语，有两个频度：频度1.在第一文本中的频度；频度2.在所有文本中的频度。其中频度1相当于TF，与权重正相关；频度2相当于IDF，与权重反相关。

对于频度2，计算权重为：

IDF(w)＝log(TotalWC/C(w))；

C(w)是词语w在所有文本中出现的次数，TotalWC是所有文本中所有单词的总词频。

对于频度1，权重就可以取词频本身TF(w)＝D(w)，D(w)表示在第一文本中w出现的次数。

·基于第二权重的Jaccard相似性，第二权重是单词在第二文本中对应的权重。

与上述方法类似，只是采用单词在第二文本中的权重，作为计算时使用的单词权重。

步骤106：将k个特征维度上的相关特征作为k个自变量输入非负线性回归方程，得到因变量；非负线性回归方程中的回归系数均为非负值；

计算机设备内存储有经过训练的非负线性回归方程。设该非负线性回归方程为：

y＝w₁x₁+w₂x₂+…+w_kx_k+∈；

其中，x₁,x₂,…,x_k为k个自变量，每个自变量x_i对应一个特征维度上的相关特征。y为因变量，y用于表示第一文本和第二文本之间的相似度，∈是拟合误差。回归系数w＝[w₁,…,w_k]≥0。

计算机设备将k个特征维度上的相关特征作为k个自变量输入非负线性回归方程，得到因变量y。

步骤108：在因变量大于阈值时，确定第一文本和第二文本相似。

在因变量y的取值大于阈值时，确定第一文本和第二文本相似。该阈值可以是50％、80％或90％等，本申请对此不加以限定。

在因变量y的取值小于阈值时，确定第一文本和第二文本不相似。

在因变量y的取值等于阈值时，确定第一文本和第二文本相似或不相似，两者均可，可以由设计人员自行设定。

综上所述，本实施例提供的方法，通过将文本相似度计算问题抽象为非负线性回归问题，将两个文本在k个特征维度上的相关特征作为k个自变量，采用非负线性回归方程来综合多个特征维度的相关特征计算文本相似度，能够较好地提高文本相似度的计算准确性。

在本申请实施例中，上述非负线性回归方程可以采用样本集和基于梯度下降法的求解方法进行求解。请参考如下实施例。

图2示出了本申请一个示例性实施例提供的文本相似性的确定方法的流程图。本实施例以该方法应用于计算机设备来举例说明，该计算机设备和图1所涉及的计算机设备可以是同一个计算机设备，也可以是不同的计算机设备。该方法包括：

步骤202：获取样本集，样本集包括n组样本文本对的k个相关特征和标签，标签用于指示样本文本对中的两个文本是否相似；

标定人员预先采集n组样本文本对，每组样本文本对包括：第一样本文本和第二样本文本。对于每组样本文本对，提取第一样本文本和第二样本文本在k个特征维度上的相关特征，将k个相关特征作为该组样本文本对的k个样本自变量。

示意性的，计算机设备将n组样本文本对的k个相关特征作为n组自变量的观测值(x_t1,x_t2,…,x_tk),t＝1,…,n,(n≥k+1)，n组自变量的观测值组成自变量观测数据矩阵：

对于每组样本文本对，由标定人员标定出第一样本文本和第二样本文本是否相似的标签。比如，标签为1时，代表第一样本文本和第二样本文本相似；标签为0时，代表第一样本文本和第二样本文本不相似。可选地，本申请以二分类标签来进行举例，但不排除标签取值是百分比，或三个以上相似级别的其他形式。该标签作为该组样本文本对的因变量。

示意性的，计算机设备将n组样本文本对的标签，组成因变量的数值向量为Y＝[y₁… y_n]^T≥0。

假设因变量Y和所有的自变量X之间都具有正相关关系，考虑如下的非负线性回归方程：

y＝w₁x₁+w₂x₂+…+w_kx_k+∈；

即回归系数w＝[w₁,…,w_k]≥0。

步骤204：基于样本集对非负线性回归方程的损失函数计算梯度；

计算机设备为上述非负线性回归方程，建立如下的损失函数J(w)＝‖Y-Xw‖²。基于样本集对非负线性回归方程的损失函数计算梯度：

步骤206：按照梯度对非负线性回归方程的回归系数进行迭代更新，每次迭代的回归系数均为非负值；

计算机设备采用梯度下降截断法或自适应乘子梯度下降法，按照梯度对非负线性回归方程的回归系数进行迭代更新。

方式一：在采用梯度下降截断法时，参考图3所示，本步骤包括如下子步骤；

步骤2061，根据梯度和回归系数的第m次迭代值，计算得到回归系数的第m+1次迭代候选值；

设回归系数w的第m次迭代值为则计算得到回退系数的第m+1次迭代候选值如下：

w^m-α(X^TXw^m-X^TY)；

步骤2062，取第m+1次迭代候选值和零中的较大值，确定为回归系数的第m+1次迭代值。

在采用自适应乘子梯度下降法时，参考图4所示，本步骤包括如下子步骤；

方式二：步骤206a，计算第m次迭代值和自适应乘子的乘积，确定为回归系数的第m+1次迭代值。

其中，第m次迭代值和自适应乘子均为非负值，自适应乘子是基于梯度确定的乘子。

设是回归系数的第m次迭代数值，通过为每个/>的学习率设定为/>带入梯度下降法的迭代公式中可得：

也即，自适应乘子为

由于X≥0,Y≥0，若回归系数的初始值w⁰≥0，可以保证回归系数在迭代过程中产生的迭代值始终非负。

步骤208：在满足迭代结束条件时，训练得到非负线性回归方程的回归系数。

迭代结束条件包括：迭代次数大于预设迭代次数，或者，相邻两次(或两次以上)迭代之间的差值小于阈值。

综上所述，本实施例提供的方法，通过梯度下降法来求解非负线性回归方程，能够保证求解到非负取值的回归系数，从而提供了非负线性回归方程的优化求解方案。

本实施例提供了两种梯度下降法：梯度下降截断法和自适应乘子梯度下降法。在使用梯度下降截断法时，由于截断法的计算较为简洁，能够以较少的计算量求解到均为非负值的回归系数；在使用自适应乘子梯度下降法时，由于自适应乘子的动态调整特性，能够以更快速的方式迭代完成，提高训练过程的速度。

在一个示例性的例子中，以第一文本是句子1，第二文本是句子2为例，对本申请实施例提供了如下性能测试：

为了比较好的度量两个句子之间的相关性。本申请实施例构造了诸如TFIDF，BM25，命中词个数，核心命中词个数，jaccard相似性在内的16个相关特征。每个相关特征都与因变量y(相关性数值)正相关，即相关特征的取值越大，两个句子的相似性就越高。因此这里衡量两个句子的相关性问题就是一个典型的非负线性回归问题。

选取最小二乘法(leastsquares，LS)；最小二乘截断法(leastsquarestruncation，LST)；梯度下降截断法(gradientdescenttruncation，GDT)；和本申请提出的自适应梯度乘子下降法(Adaptivegradientmultiplierdescent，AGMD)进行性能对比。

选择AUC和样本的均方误差作为线性回归的性能衡量指标，得到如下性能对比结果，如表一所示。

表一

求解方法	AUC	均方误差
			LS	0.8515	0.2004
LST	0.8419	0.5291
			GDT	0.8268	0.211
AGMD	0.8432	0.204

从表一可知，尽管LS得到的解在指标上面最优，但是其解并不在可行域内，本申请实施例并不能使用LS得到的解。

将LS解投影到可行域，即LST所得解。本申请可以看到LST和GDT得到的解，在指标上相比AGMD会差很多。

下面对收敛性进行说明。图5和图6中的上面一条曲线为GDT的收敛情况，下面一条曲线是AGMD的收敛情况。其中，图5和图6中的横坐标代表收敛速度，纵坐标代表均方误差。

不同初始值下GDT和AGMD的收敛情况。图5为回归系数初始值为[0.1,…,0.1]的收敛图；图6为回归系数初始值为[0.2,…,0.2]的收敛图；从图5和图6中可以看到，AGMD不依赖于初始的选择，这也印证了前面的最优化理论的证明；且AGMD达到收敛所需要的步数少于GDT。

图7示出了本申请一个示例性实施例提供的文本相似度确定装置的框图。该装置可以应用于计算机设备中，或者实现成为计算机设备的一部分。该装置包括：

文本获取模块720，用于获取第一文本和第二文本；

特征提取模块740，用于提取所述第一文本和所述第二文本在k个特征维度上的相关特征，k为大于1的整数；

非负回归模块760，用于将所述k个特征维度上的相关特征作为k个自变量输入非负线性回归方程，得到因变量；所述非负线性回归方程中的回归系数均为非负值；

相关确定模块780，用于在所述因变量大于阈值时，确定所述第一文本和所述第二文本相似。

在本申请的一个可选设计中，所述装置还包括：

样本获取模块712，用于获取样本集，所述样本集包括n组样本文本对的k个相关特征和标签，所述标签用于指示所述样本文本对中的两个文本是否相似；

梯度计算模块714，用于基于所述样本集对所述非负线性回归方程的损失函数计算梯度；

迭代更新模块716，用于按照所述梯度对所述非负线性回归方程的回归系数进行迭代更新，每次迭代的所述回归系数均为非负值；

训练模块718，用于在满足迭代结束条件时，训练得到所述非负线性回归方程的回归系数。

在本申请的一个可选设计中，所述迭代更新模块716，用于根据所述梯度和所述回归系数的第m次迭代值，计算得到所述回归系数的第m+1次迭代候选值；

取所述第m+1次迭代候选值和零中的较大值，确定为所述回归系数的第m+1次迭代值。示意性的，m的起始值为1。

在本申请的一个可选设计中，所述迭代更新模块716，用于计算所述回归系数的第m次迭代值和自适应乘子的乘积，确定为所述回归系数的第m+1次迭代值；其中，所述第m次迭代值和所述自适应乘子均为非负值，所述自适应乘子是基于所述梯度确定的乘子。示意性的，m的起始值为1。

在本申请的一个可选设计中，与第i个回归系数对应的所述自适应乘子为：

其中，X为所述n组样本文本对中的k个相关特征所组成的观测数据矩阵，Y为所述n组样本文本对中的因变量组成的数值向量，i代表第i个回归系数，i的取值范围为1至k，w^m为所述第m次迭代值。

在本申请的一个可选设计中，所述特征维度包括如下至少两种：

词频-逆文本频率指数TF-IDF；

归一化的TF-IDF；

BM25评分；

归一化的BM25评分；

所述第一文本中的命中词的个数；

所述第一文本中的命中词的比例；

所述第一文本中的命中词的权重；

所述第一文本中的核心命中词的个数；

所述第一文本中的核心命中词的比例；

所述第一文本中的核心命中词的权重；

所述第二文本中的命中词的个数；

所述第二文本中的命中词的比例；

所述第二文本中的命中词的权重；

所述第二文本中的核心命中词的个数；

所述第二文本中的核心命中词的比例；

所述第二文本中的核心命中词的权重；

杰卡德Jaccard相似性；

基于第一权重的杰卡德相似性，所述第一权重是与所述第一文本对应的权重；

基于第二权重的杰卡德相似性，所述第二权重是与所述第二文本对应的权重。

综上所述，本实施例提供的装置，通过梯度下降法来求解非负线性回归方程，能够保证求解到非负取值的回归系数，从而提供了非负线性回归方程的优化求解方案。

需要说明的是：上述实施例提供的文本相似度确定装置，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的文本相似度确定装置与文本相似性的确定方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本申请还提供了一种计算机设备(终端或服务器)，该计算机设备包括处理器和存储器，存储器中存储有至少一条指令，至少一条指令由处理器加载并执行以实现上述各个方法实施例提供的文本相似性的确定方法。需要说明的是，该计算机设备可以是如下图8所提供的计算机设备。

图8示出了本申请一个示例性实施例提供的计算机设备800的结构框图。该计算机设备800可以是：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group AudioLayer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts GroupAudio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。计算机设备800还可能被称为用户设备、便携式计算机设备、膝上型计算机设备、台式计算机设备等其他名称。

通常，计算机设备800包括有：处理器801和存储器802。

处理器801可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器801可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器801也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器801可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器801还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器802可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器802还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器802中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器801所执行以实现本申请中方法实施例提供的文本相似性的确定方法。

在一些实施例中，计算机设备800还可选包括有：外围设备接口803和至少一个外围设备。处理器801、存储器802和外围设备接口803之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口803相连。具体地，外围设备包括：射频电路804、触摸显示屏805、摄像头806、音频电路807、定位组件808和电源809中的至少一种。

外围设备接口803可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器801和存储器802。在一些实施例中，处理器801、存储器802和外围设备接口803被集成在同一芯片或电路板上；在一些其他实施例中，处理器801、存储器802和外围设备接口803中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路804用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路804通过电磁信号与通信网络以及其他通信设备进行通信。射频电路804将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路804包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路804可以通过至少一种无线通信协议来与其它计算机设备进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路804还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏805用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏805是触摸显示屏时，显示屏805还具有采集在显示屏805的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器801进行处理。此时，显示屏805还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏805可以为一个，设置计算机设备800的前面板；在另一些实施例中，显示屏805可以为至少两个，分别设置在计算机设备800的不同表面或呈折叠设计；在再一些实施例中，显示屏805可以是柔性显示屏，设置在计算机设备800的弯曲表面上或折叠面上。甚至，显示屏805还可以设置成非矩形的不规则图形，也即异形屏。显示屏805可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-EmittingDiode，有机发光二极管)等材质制备。

摄像头组件806用于采集图像或视频。可选地，摄像头组件806包括前置摄像头和后置摄像头。通常，前置摄像头设置在计算机设备的前面板，后置摄像头设置在计算机设备的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件806还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路807可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器801进行处理，或者输入至射频电路804以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在计算机设备800的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器801或射频电路804的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路807还可以包括耳机插孔。

定位组件808用于定位计算机设备800的当前地理位置，以实现导航或LBS(Location Based Service，基于位置的服务)。定位组件808可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。

电源809用于为计算机设备800中的各个组件进行供电。电源809可以是交流电、直流电、一次性电池或可充电电池。当电源809包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，计算机设备800还包括有一个或多个传感器810。该一个或多个传感器810包括但不限于：加速度传感器811、陀螺仪传感器812、压力传感器813、指纹传感器814、光学传感器815以及接近传感器816。

加速度传感器811可以检测以计算机设备800建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器811可以用于检测重力加速度在三个坐标轴上的分量。处理器801可以根据加速度传感器811采集的重力加速度信号，控制触摸显示屏805以横向视图或纵向视图进行用户界面的显示。加速度传感器811还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器812可以检测计算机设备800的机体方向及转动角度，陀螺仪传感器812可以与加速度传感器811协同采集用户对计算机设备800的3D动作。处理器801根据陀螺仪传感器812采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器813可以设置在计算机设备800的侧边框和/或触摸显示屏805的下层。当压力传感器813设置在计算机设备800的侧边框时，可以检测用户对计算机设备800的握持信号，由处理器801根据压力传感器813采集的握持信号进行左右手识别或快捷操作。当压力传感器813设置在触摸显示屏805的下层时，由处理器801根据用户对触摸显示屏805的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器814用于采集用户的指纹，由处理器801根据指纹传感器814采集到的指纹识别用户的身份，或者，由指纹传感器814根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器801授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器814可以被设置计算机设备800的正面、背面或侧面。当计算机设备800上设置有物理按键或厂商Logo时，指纹传感器814可以与物理按键或厂商Logo集成在一起。

光学传感器815用于采集环境光强度。在一个实施例中，处理器801可以根据光学传感器815采集的环境光强度，控制触摸显示屏805的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏805的显示亮度；当环境光强度较低时，调低触摸显示屏805的显示亮度。在另一个实施例中，处理器801还可以根据光学传感器815采集的环境光强度，动态调整摄像头组件806的拍摄参数。

接近传感器816，也称距离传感器，通常设置在计算机设备800的前面板。接近传感器816用于采集用户与计算机设备800的正面之间的距离。在一个实施例中，当接近传感器816检测到用户与计算机设备800的正面之间的距离逐渐变小时，由处理器801控制触摸显示屏805从亮屏状态切换为息屏状态；当接近传感器816检测到用户与计算机设备800的正面之间的距离逐渐变大时，由处理器801控制触摸显示屏805从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图8中示出的结构并不构成对计算机设备800的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，所述一个或者一个以上程序包含用于进行本申请实施例提供的文本相似性的确定方法。

本申请提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现上述各个方法实施例提供的文本相似性的确定方法。

本申请还提供了一种计算机程序产品，当计算机程序产品在计算机上运行时，使得计算机执行上述各个方法实施例提供的文本相似性的确定方法。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种文本相似性的确定方法，其特征在于，所述方法包括：

获取第一文本和第二文本；

2.根据权利要求1所述的方法，其特征在于，所述非负线性回归方程是采用如下步骤训练得到的：

获取样本集，所述样本集包括n组样本文本对的k个相关特征和标签，所述标签用于指示所述样本文本对中的两个文本是否相似，n为不小于k的整数；

基于所述样本集对所述非负线性回归方程的损失函数计算梯度；

按照所述梯度对所述非负线性回归方程的回归系数进行迭代更新，每次迭代的所述回归系数均为非负值；

在满足迭代结束条件时，训练得到所述非负线性回归方程的回归系数。

3.根据权利要求2所述的方法，其特征在于，所述按照所述梯度对所述非负线性回归方程的回归系数进行迭代更新，包括：

根据所述梯度和所述回归系数的第m次迭代值，计算得到所述回归系数的第m+1次迭代候选值，m的起始值为1；

取所述第m+1次迭代候选值和零中的较大值，确定为所述回归系数的第m+1次迭代值。

4.根据权利要求2所述的方法，其特征在于，所述按照所述梯度对所述非负线性回归方程的回归系数进行迭代更新，包括：

计算所述回归系数的第m次迭代值和自适应乘子的乘积，确定为所述回归系数的第m+1次迭代值，m的起始值为1；

其中，所述第m次迭代值和所述自适应乘子均为非负值，所述自适应乘子是基于所述梯度确定的乘子。

5.根据权利要求4所述的方法，其特征在于，与第i个回归系数对应的所述自适应乘子为：

6.根据权利要求1至5任一所述的方法，其特征在于，所述特征维度包括如下k种：

词频-逆文本频率指数TF-IDF；

归一化的TF-IDF；

BM25评分；

归一化的BM25评分；

所述第一文本中的命中词的个数；

所述第一文本中的命中词的比例；

所述第一文本中的命中词的权重；

所述第一文本中的核心命中词的个数；

所述第一文本中的核心命中词的比例；

所述第一文本中的核心命中词的权重；

所述第二文本中的命中词的个数；

所述第二文本中的命中词的比例；

所述第二文本中的命中词的权重；

所述第二文本中的核心命中词的个数；

所述第二文本中的核心命中词的比例；

所述第二文本中的核心命中词的权重；

杰卡德Jaccard相似性；

7.一种文本相似性的确定装置，其特征在于，所述装置包括：

文本获取模块，用于获取第一文本和第二文本；

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

样本获取模块，用于获取样本集，所述样本集包括n组样本文本对的k个相关特征和标签，所述标签用于指示所述样本文本对中的两个文本是否相似；

梯度计算模块，用于基于所述样本集对所述非负线性回归方程的损失函数计算梯度；

迭代更新模块，用于按照所述梯度对所述非负线性回归方程的回归系数进行迭代更新，每次迭代的所述回归系数均为非负值；

训练模块，用于在满足迭代结束条件时，训练得到所述非负线性回归方程的回归系数。

9.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至6任一所述的文本相似性的确定方法。

10.一种计算机可读存储介质，其特征在于，所述可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至6任一所述的文本相似性的确定方法。