CN115374775A

CN115374775A - 一种确定文本相似度的方法、装置、设备及存储介质

Info

Publication number: CN115374775A
Application number: CN202110548240.5A
Authority: CN
Inventors: 王冶
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Suzhou Software Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Suzhou Software Technology Co Ltd
Priority date: 2021-05-19
Filing date: 2021-05-19
Publication date: 2022-11-22

Abstract

本申请实施例公开了一种确定文本相似度的方法、装置、设备及存储介质，该方法包括：对文本进行关键词项提取和词向量转换，得到文本的词向量集合；对文本的词向量集合进行权重分层，得到至少两层权重系数；根据文本的至少两层权重系数对词向量集合进行加权平均，得到文本向量；根据所述文本数据集中第一文本的文本向量和第二文本的文本向量确定所述第一文本和所述第二文本的相似度。如此，将关键词项的词向量进行分层，按一定规则分配权重，使得重要的关键词项所在的层占据更大权重，反之权重越小，这样对词向量集合进行加权平均运算后得到的文本向量更准确，从而利用文本向量在计算文本相似度时能提高文本相似度的精确度。

Description

一种确定文本相似度的方法、装置、设备及存储介质

技术领域

本发明涉及分布式机器学习领域，尤其涉及一种确定文本相似度的方法、装置、设备及存储介质。

背景技术

在自然语言处理(Natural Language Processing，NLP)中，经常会涉及到如何度量两个文本的文本相似度问题。在诸如文本聚类、文本推荐、信息检索、相似去重等问题中，如何度量文本之间的相似度尤为重要。

在文本相似度计算领域，常用的是以词向量为基础的文本相似度计算方法以及它的一些变种算法。但是目前的算法普遍存在语义信息失衡的问题。在基于词向量为基础的文本相似度计算方法中，例如Word2Vec，计算对所有关键词项无层次的计算相似度，这样会降低核心词项在语义中的权重，使得文本相似度精确度较低。

发明内容

为解决上述技术问题，本申请实施例期望提供一种确定文本相似度的方法、装置、设备及存储介质，可以实现文本相似度的精确获取。

本申请的技术方案是这样实现的：

第一方面，提供了一种确定文本相似度的方法，方法包括：

获取文本数据集；其中，文本数据集中包括至少两个文本；

对文本数据集中的文本进行关键词项提取和词向量转换，得到文本的词向量集合；

对所述文本的词向量集合进行权重分层处理，得到文本的至少两层权重系数；

根据文本的至少两层权重系数对所述词向量集合进行加权平均运算，得到文本的文本向量；

根据所述文本数据集中第一文本的文本向量和第二文本的文本向量确定所述第一文本和所述第二文本的相似度。

上述方案中，对所述文本的词向量集合进行权重分层处理，得到文本的至少两层权重系数，包括：对所述文本数据集中每个文本的每个词向量的第一权重值进行归一化处理，得到每个词向量的第二权重值；利用所述文本数据集中每个文本的每个词向量的第二权重值，构建文本-词项权重矩阵；将每个文本的词向量集合进行N等分，得到N层词向量子集合；其中，N取大于等于2的整数；根据所述文本-词项权重矩阵和预设的权重分层策略，得到每层词向量子集合的权重系数。

上述方案中，对文本数据集中每个文本的每个词向量的第一权重值进行归一化处理，得到每个词向量的第二权重值，包括：基于所述每个词向量的第一权重值、其所在文本中最小第一权重值和最大第一权重值，确定所述每个词向量的第二权重值。

上述方案中，权重分层策略，包括：根据所述文本数据集中每个文本的第 k个词向量子集合中所有词向量对应的第二权重值得到第k个词向量子集合的权重系数；其中，k取大于等于1且小于等于N的整数。

上述方案中，对所述文本数据集中的文本进行关键词项提取和词向量转换，得到文本的词向量集合，包括：对所述文本数据集中的文本进行词项提取，得到文本的词项集合；确定所述词项集合中每个词项的第一权重值；将所有词项的按照第一权重值按从大到小的顺序排列，按照预设规则获取排序靠前的词项组成文本的关键词项集合；将所述关键词项集合输入到词向量转换模型中，得到文本的词向量集合。

上述方案中，预设规则为获取第一权重值排序位于前40％的词项。

上述方案中，确定词项集合中每个词项的第一权重值，包括：基于TF-IWF 算法，确定所述词项集合中每个词项的TF-IWF值；将每个词项的TF-IWF值结合对应的信息增益，得到每一词项的TF-IWF-IG值作为所述第一权重值。

第二方面，提供了一种确定文本相似度的装置，其特征在于，所述装置包括：

数据获取模块，用于获取文本数据集；其中，所述文本数据集中包括至少两个文本；

处理模块，用于对所述文本数据集中的文本进行关键词项提取和词向量转换，得到文本的词向量集合；

所述处理模块，还用于对所述文本的词向量集合进行权重分层处理，得到文本的至少两层权重系数；根据文本的所述至少两层权重系数对所述词向量集合进行加权平均运算，得到文本的文本向量；

计算模块，用于根据所述文本数据集中第一文本的文本向量和第二文本的文本向量确定所述第一文本和所述第二文本的相似度。

第三方面，提供了一种电子设备，所述电子设备包括：处理器和配置为存储能够在处理器上运行的计算机程序的存储器，

其中，所述处理器配置为运行所述计算机程序时，执行前述任一项所述方法的步骤。

第四方面，提供了一种计算机存储介质，其上存储有计算机程序，其中，该计算机程序被处理器执行时实现前述方法的步骤。

本申请实施例公开了一种确定文本相似度的方法、装置、设备及存储介质，该方法包括：获取文本数据集；其中，所述文本数据集中包括至少两个文本；对所述文本数据集中的文本进行关键词项提取和词向量转换，得到文本的词向量集合；对所述文本的词向量集合进行权重分层处理，得到文本的至少两层权重系数；根据文本的所述至少两层权重系数对所述词向量集合进行加权平均运算，得到文本的文本向量；根据所述文本数据集中第一文本的文本向量和第二文本的文本向量确定所述第一文本和所述第二文本的相似度。如此，将关键词项的词向量进行分层，按一定规则分配权重，使得重要的关键词项所在的层占据更大权重，反之权重越小，这样对词向量集合进行加权平均运算后得到的文本向量更准确，从而利用文本向量在计算文本相似度时能提高文本相似度的精确度。

附图说明

图1为本申请实施例中确定文本相似度方法的第一流程示意图；

图2为本申请实施例中的权重分层示意图；

图3为本申请实施例中确定文本相似度方法的第二流程示意图；

图4为本申请实施例中基于Spark平台的确定文本相似度方法的第三流程示意图；

图5为本申请实施例中Word2Vec的CBOW模型的结构示意图；

图6为本申请实施例中结合Spark计算平台的整体计算过程示意图；

图7为本申请实施例中确定文本相似度的装置的组成结构示意图；

图8为本申请实施例中确定文本相似度的设备的组成结构示意图。

具体实施方式

为了能够更加详尽地了解本申请实施例的特点与技术内容，下面结合附图对本申请实施例的实现进行详细阐述，所附附图仅供参考说明之用，并非用来限定本申请实施例。

图1为本申请实施例中确定文本相似度方法的第一流程示意图，如图1所示，确定文本相似度的方法具体可以包括：

步骤101：获取文本数据集；其中，所述文本数据集中包括至少两个文本。

其中，获取的文本数据集中包括至少两个文本。这里，获取文本数据集的作用是对为文本相似度的确定提供数据基础。

步骤102：对所述文本数据集中的文本进行关键词项提取和词向量转换，得到文本的词向量集合。

这里，对所述文本数据集中的文本进行关键词项提取，目的是提取对文本语义影响较大的词项，组成文本的关键词项集合。

示例性的，该方法具体包括：对文本进行降维处理。处理过程为先提取词项；确定每个词项的权重值，根据权重值对词项进行降维处理，确定词项中对文本语义影响较大的关键词词项，将关键词项进行保留组成关键词项集合，将对文本影响较小的词项作为关键词项进行删除。这里，文本的关键词项集合为保留的对文本影响较大的关键词项集合，其中，所述关键词项集合中关键词项的排序为按照其对文本的影响程度从大到小排列。

通过将对文本影响较大的词项作为关键词项进行保留，将对文本影响较小的词项作为关键词项进行删除，可以将在不影响文本含义的情况下删除大量的词项，有效提升后续的处理速度。

在实际应用中，词向量转换可以是将所述关键词项集合输入到词向量转换模型中，得到文本的词向量集合。

通过将文本的关键词项转化为词向量，为后续的基于词向量的文本相似度的确定提供基础。

步骤103：对所述文本的词向量集合进行权重分层处理，得到文本的至少两层权重系数。

这里，对文本的词向量集合进行权重分层处理为：将文本数据集中每个文本的词向量集合进行分层，得到至少两层词向量子集合；获取所有文本的第k 层词向量子集合中的词向量，构成文本数据集的第k层词向量集合。其中，第 k层词向量集合对应一个权重系数，权重系数用于表征该层词向量集合中词向量的重要程度。每个文本的第k层词向量子集合的权重系数均相等，其数值等于第k层词向量集合的权重系数。

示例性的，图2展示了一种权重分层的示意图。如图2所示，对第一文本和第二文本的词向量集合进行3等分，分成了三层。图2中v_ij表示第i文本，第j个关键词项对应的词向量。v_1m1，v_1m2，v_1m3分别表示第1文本第1层、第2 层，第3层中最后一个关键词项对应的词向量，v_2n1，v_2n2，v_2n3分别表示第2文本第1层、第2层，第3层中最后一个关键词项对应的词向量。m，n分别表示第一文本和第二文本中词向量的个数。

图中变量满足的关系如下关系：

本申请的技术方案，通过将文本的词向量集合进行权重分层处理，并对每一层词向量集合设置一个对应的权重系数，有利于提高后续文本向量的精确度。

步骤104：根据文本的所述至少两层权重系数对所述词向量集合进行加权平均运算，得到文本的文本向量。

示例性的，对第一文本权重分层后得到的至少两层词向量子集合进行加权平均运算，得到第一文本的文本向量，其中，加权平均运算中第k层词向量子集合的对应权重为该层词向量子集合对应的权重系数。

本申请的技术方案，通过将文本的词向量进行权重分层处理，并对每一层词向量设置一个对应的权重系数，并通过对文本中每一层词向量子集合进行加权平均运算来获取每一文本的文本向量，使得重要的关键词项所在的层占据更大的权重，从而提高文本向量的精确度，使得文本向量可以更准确的表示文本语义。

步骤105：用于根据所述文本数据集中第一文本的文本向量和第二文本的文本向量确定所述第一文本和所述第二文本的相似度。

实际应用中，用两个向量夹角的余弦值来表示这两个向量的相似度。其中，向量

和向量

夹角的余弦值

可通过下列公式计算得到，

这里，步骤101至步骤105的执行主体可以为电子设备的处理器。

本申请实施例提供的技术方案，在确定文本向量时，通过对每篇文本关键词项的词向量就行权重分层，对排在前列的对整篇文本的语义影响较大词项需要配置更高的权重，使得重要的关键词项所在的层占据更大权重，反之权重越小，这样对词向量集合进行加权平均运算后得到的文本向量更准确，从而利用文本向量在计算文本相似度时能提高文本相似度的精确度。在一些实施例中，还可以将该相似度确定方法与现有技术结合，用于解决文本聚类、文本推荐、信息检索、相似去重等问题。

为了能更加体现本申请的目的，在本申请实施例一的基础上，进行进一步的举例说明，图3为本申请实施例中确定文本相似度方法的第二流程示意图，如图3所示，在第二实施例中，确定文本相似度的方法具体包括：

步骤201：获取文本数据集；其中，所述文本数据集中包括至少两个文本。

步骤202：对所述文本数据集中的文本进行关键词项提取和词向量转换，得到文本的词向量集合。

在一些实施例中，对所述文本数据集中的文本进行关键词项提取，得到文本的关键词项集合，包括：

对所述文本数据集中的文本进行词项提取，得到文本的词项集合；确定所述词项集合中每个词项的第一权重值；将所有词项的按照第一权重值按从大到小的顺序排列，按照预设规则获取排序靠前的词项组成文本的关键词项集合；将所述关键词项集合输入到词向量转换模型中，得到文本的词向量集合。

示例性的，所述第一权重值的确定可以通过TF-IDF算法或者TF-IWF算法实现。

在一些实施例中，确定所述词项集合中每个词项的第一权重值，包括：基于TF-IWF算法，确定所述词项集合中每个词项的TF-IWF值；将每个词项的 TF-IWF值结合对应的信息增益，得到每一词项的TF-IWF-IG值作为所述第一权重值。

具体的：可以通过以下公式进行TF-IWF值的计算：

式中，n_s表示指定词项在当前文本出现的次数的和，∑n_s表示当前文本s 中所有词项的总数，

表示数据集中所有文本的词项总数，n_w表示数据集中所有文本的个数。

可以通过以下公式进行信息增益值IG值的计算：

式中，C表示文本集的类别集合；p(C_i)表示类别Ci的概率，p(Ci/ti)表示词项在类别C_i中出现的概率。

可以通过以下公式进行TF-IWF-IG值的计算：

在一些实施例中，所述预设规则可以为获取第一权重值排序位于前40％的词项。

本申请的技术方案，将信息增益计算融合进权重计算中，可以更好的反应词项在文本中的影响。提高关键词项权重计算精度，从而可以为关键词项的提取提供更准确的依据。通过将对文本影响较大的词项作为关键词项进行保留，将对文本影响较小的词项作为关键词项进行删除，可以将在不影响文本含义的情况下删除大量的词项，有效提升后续的处理速度。

在实际应用中，词向量转换可以是将所述关键词项集合输入到词向量转换模型中，得到文本的词向量集合。示例性的，所述词向量转换模型可以为 Word2Vec的CBOW模型或Skip-gram模型。

通过词向量转换模型将文本的关键词项转化为词向量，为后续的基于词向量的文本相似度的确定提供基础。

步骤203：对所述文本数据集中每个文本的每个词向量的第一权重值进行归一化处理，得到每个词向量的第二权重值。

在一些实施例中，对所述文本数据集中每个文本的每个词向量的第一权重值进行归一化处理，得到每个词向量的第二权重值，包括：

基于所述每个词向量的第一权重值、其所在文本中最小第一权重值和最大第一权重值，确定所述每个词向量的第二权重值。

具体地，可以通过以下归一化公式进行归一化处理：

式中，w'_1i表示第一文本中第i个词向量的第二权重值，w_1i表示第一文本第 i个词向量的第一权重值，w₁₁表示第一文本第1个词向量的第二权重值，即第一文本的最小第一权重值，w₁₁表示第一文本第1个词向量的第二权重值，即第一文本的最小第一权重值，w_1n表示第一文本最后一个词向量的第二权重值，即第一文本的最小第一权重值，n表示第一文本中词向量的个数。

通过对每个词向量的第一权重值进行归一化处理得到第二权重值，可以方便后续的数据处理。

步骤204：利用所述文本数据集中每个文本的每个词向量的第二权重值，构建文本-词项权重矩阵。

在一些实施例中，文本-词项权重矩阵W为：

式中，s为文本数据集中文本个数，w'_ij为第i文本第j个词向量的第二权重值，ni为第i文本中词向量个数。

实际应用中，不同文本的关键词项的个数不一定相同。当文本数据集中不同文本的关键词项的个数不同时，文本-词项权重矩阵的列数为关键词项个数最多的文本的关键词项个数。当W的列数大于第i文本的词向量个数ni时，第i 文本对应的第i行的第n(i+1)列至最后一列取值默认为0。

这里，构建的文本-词项权重矩阵为后续的确定每层词向量子集合的权重系数提供基础。

步骤205：将每个文本的词向量集合进行N等分，得到N层词向量子集合，其中，N取大于等于2的整数。

示例性的，N可以取3，将每个文本的词向量集合进行3等分，分别得到3 层词向量子集合。

在一些实施例中，得到N层词向量子集合后，所述方法还包括：获取所有文本的第k层词向量子集中的词向量，构成第k层词向量集合。其中，取大于大于等于2且小于等于N的整数。

其中，每个文本的第k层词向量子集合的权重系数均相等，其数值等于第 k层词向量集合的权重系数。

示例性的，文本数据集中包括第一文本和第二文本，第一文本中词向量个数为60个，第二文本中词向量个数为90个。将每个文本的词向量集合进行3 等分，分别得到3层词向量子集合，将两个文本的第1、2、3层词向量子集合中的词向量进行提取，构成文本数据集的第1、2、3层词向量集合。本申请实施例中计算每个文本的第k层词向量子集合的权重系数，即为计算文本数据集的第k层词向量集合的权重系数。

其中，第1层词向量集合中包括20个第一文本中排序第01～20的词向量和 30个第二文本中排序第01～30的词向量。第2层词向量集合中包括20个第一文本中排序第21～40的词向量和30个第二文本中排序第31～60的词向量。第3 层词向量集合中包括20个第一文本中排序第41～60的词向量和30个第二文本中排序第61～90的词向量。

步骤206：根据所述文本-词项权重矩阵和预设的权重分层策略，得到每层词向量子集合的权重系数。

在一些实施例中，所述权重分层策略，包括：

根据所述文本数据集中每个文本的第k个词向量子集合中所有词向量对应的第二权重值得到第k个词向量子集合的权重系数；其中，k取大于等于1且小于等于N的整数。

示例性的，所述权重分层策略，包括：

式中，a_k为第k层词向量子集合的权重系数(即文本数据集的第k层词向量集合的权重系数)，第p_k为第k层词向量子集合中最后一个词向量的第二权重值在所述文本-词项权重矩阵中的列号，p_(k-1)为第k-1层词向量子集合中最后一个词向量的第二权重值在所述文本-词项权重矩阵中的列号，s为所述文本数据集中文本个数；w'_ij为所述文本-词项权重矩阵中第i文本第j个词向量的第二权重值。

这里，

即为第k层词向量集合中所有词向量对应的第二权重值的和。

通过根据所述文本-词项权重矩阵和预设的权重分层策略，确定得到每一层词向量子集合对应的权重系数，该权重系数可以用于表征每一层的词向量对文本的影响程度，有利于提高后续文本向量的精确度。

步骤207：根据文本的所述至少两层权重系数对所述词向量集合进行加权平均运算，得到文本的文本向量。

示例性的，当N取3时，将文本的词向量集合分为三层，对权重分层后的词向量进行加权平均，得到的第一文本的文本向量DocVec₁为：

式中，a1，a2，a3分别为第一、第二和第三层词向量子集合对应的权重系数，

分别为第一文本中第一层，第二层，第三层词向量的和，m为第一文本中词向量的个数。

本申请的技术方案，通过对文本中每一层词向量子集合进行加权平均运算来获取每一文本的文本向量，使得重要的关键词项所在的层占据更大的权重，从而提高文本向量的精确度，使得文本向量可以更准确的表示文本语义。

步骤208：用于根据所述文本数据集中第一文本的文本向量和第二文本的文本向量确定所述第一文本和所述第二文本的相似度。

示例性的，第一文本和第二文本的文本向量分别为：DocVec₁，DocVec₂，结合向量的余弦相似度计算公式，即可得到两篇文本的词向量相似度SimVec，这里，用两篇文本的词向量相似度SimVec来表示第一文本和所述第二文本的相似度，其中，

SimVec＝CosSim(DocVec₁,DocVec₂)。

本申请实施例提供的技术方案，在确定文本向量时，通过对每篇文本关键词项的词向量就行权重分层，对排在前列的对整篇文本的语义影响较大词项需要配置更高的权重，使得重要的关键词项所在的层占据更大权重，反之权重越小，这样对词向量集合进行加权平均运算后得到的文本向量更准确，从而利用文本向量在计算文本相似度时能提高文本相似度的精确度。

这里，步骤201至步骤208的执行主体可以为电子设备的处理器。

为了能更加体现本申请的目的，在本申请上述实施例的基础上，进行进一步的举例说明，图4为本申请实施例中基于Spark平台的确定文本相似度方法的第三流程示意图，如图4所示，在第三实施例中，将确定文本相似度的方法应用于文本聚类，提供了一种基于spark平台的文本聚类方法，该方法具体包括：

步骤301：获取原始文本数据集。

步骤302：对原始文本数据集中的文本进行分词处理。

具体地，搭建Hadoop分布式文件系统(HDFS)和Spark平台；

将原始文本数据集上传到HDFS文件系统中，利用汉语词法分析系统ICTCLAS和Hadoop并行计算平台将原始文本数据集进行并行分词处理，并重新上传至HDFS文件系统中；

Spark平台从HDFS文件系统中读取分词处理后的数据集，将读取的数据集转化为弹性分布式数据集RDD，并将其缓存在内存中，Spark平台中的 DAGScheduler和TaskScheduler分配任务和代码，并行运行各个任务组中的任务。

步骤303：将分词后的数据集中数据划分为训练数据和测试数据。

步骤304：利用TF-IWF-IG对每一篇文本进行降维处理，得到每一文本的关键词项集合。

TF-IWF表示词频，其计算公式如下：

将信息增益融入TF-IWF算法，得到TF-IWF-IG值的计算方法。其中，信息增益是一个统计量，用来描述一个属性区分数据样本的能力。信息增益越大，那么决策树就会越简洁。这里信息增益的程度用信息熵的变化程度来衡量。在信息增益中，衡量标准是看特征能够为分类系统带来多少信息，带来的信息越多，该特征越重要。可以通过以下公式进行信息增益值IG值的计算：

式中，C表示文本集的类别集合；p(C_i)表示类别C_i的概率，p(C_i/t_i)表示词项在类别C_i中出现的概率。

因此，TF-IWF-IG值计算方式为：

计算出所有词项的TF-IWF-IG值之后。将所有词项的按照第一权重值按从大到小的顺序排列，按照预设规则获取排序靠前的词项组成文本的关键词项集合。这里，词项的TF-IWF-IG值即为第一权重值。

实际应用中，所述预设规则可以为获取第一权重值排序位于前40％的词项。

步骤305：构建Word2Vec的CBOW模型。

步骤306：构建训练数据集，并设置模型训练的迭代次数或精度。

示例性的，利用降维后的训练数据构建训练数据集。

步骤307：将测试数据集导入Word2Vec的CBOW模型，进行模型训练。

示例性的，Word2Vec的CBOW模型的结构如图5所示，设置模型的输入量为当前词项前两个词项和后两个词项。图5中，W'_N×V为隐藏层的权重矩阵， W_V×N为输入层的权重矩阵，W(t-2)，W(t-1)，W(t+1)，W(t+2)分别表示当前词项的前两个词项和后两个词项，W(t)表示当前词项。

网络的权重的初始化采用随机选取，采用负采样方式训练模型，使用一元模型分布来选择negative words。一个单词被选作negative sample的概率跟它出现的频次有关，出现频次越高的单词越容易被选作negative words，经验公式 (negative words的概率计算公式)为：

式中，f(w)表示文本中词项w出现的频率，也被称作权重，分母代表所有词项的权重的和。

步骤308：判断模型训练是否达到预设的迭代次数或精度，若否，则返回步骤307，继续进行模型训练；若是，则执行步骤309。

步骤309：保存训练完成的Word2Vec的CBOW模型。

步骤310：构建测试数据集。

示例性的，利用降维后的测试数据构建测试数据集。

步骤311：将测试数据集传入到训练完成后的模型中，利用所述训练完成后的模型计算出每篇文本的所有关键词项对应的词向量集合。

步骤312：对所述文本的词向量集合进行权重分层处理，得到文本的至少两层权重系数。

示例性的，将词向量集合分成3层，确定每一层词向量集合的权重系数。具体的：首先对每篇文本每个关键词项的权重归一化处理，得到每个关键词项的第二权重值；通过归一化后构建文本-词项权重矩阵；根据文本-词项权重矩阵，分别求解三层词向量集合的权重系数a₁,a₂,a₃，即：

式中p1和p2分别为每篇文本第1层和第二层词向量子集合中最后一个词向量的第二权重值在所述文本-词项权重矩阵中的列号，n代表每篇文本的关键词项总数，其数值时一个集合变量，根据每一篇文本的数量不同而不同，s为文本总数量，w'_ij为所述文本-词项权重矩阵中第i文本第j个词向量的第二权重值。

步骤313：根据文本的权重系数对所述词向量集合进行加权平均运算，得到文本的文本向量。

具体的，对权重分层后的词向量进行加权平均，得到的第一文本的文本向量DocVec₁为：

通过对文本中每一层词向量子集合进行加权平均运算来获取每一文本的文本向量，使得重要的关键词项所在的层占据更大的权重，从而提高文本向量的精确度，使得文本向量可以更准确的表示文本语义。

步骤314：根据所述文本数据集中第一文本的文本向量和第二文本的文本向量确定所述第一文本和所述第二文本的相似度。

具体的，第一文本和第二文本的文本向量分别为：DocVec₁，DocVec₂，结合向量的余弦相似度计算公式，即可得到两篇文本的词向量相似度SimVec，这里，用两篇文本的词向量相似度SimVec来表示第一文本和所述第二文本的相似度，其中，

SimVec＝CosSim(DocVec₁,DocVec₂)。

步骤315：利用k-means聚类方法对已经计算出相似度的文本进行聚类。

在一些实施例中，聚类中心的选取包括：选取文本数据集中距离最大的两个文本k1和k2，作为初始聚类中心；在剩余的文本数据集中，选取一个距离 k1和k2相等的文本k3作为第三个初始聚类中心；对数据集中所有文本进行聚类。其中，k3点大概率是虚点，有利于提高聚类效果。

这里，步骤301至步骤315的执行主体可以为电子设备的处理器。示例性的，图6展示了一种结合Spark计算平台的整体计算过程。图6中，FilterRDD4 表示对原始文本数据集中的文本进行分词处理，得到多个词项(Partition1-n)； WordRDD表示对降维后的数据集利用Word2Vec模型进行训练，得到每个词项的对应的词向量(Word，Vector)；WordSimRDD表示通过权重分层，计算得到文本的文本向量(Text，Vector)。TextSimRDD表示通过余弦值计算得到文本之间的文本相似度(Text1，Text2，sim)。

本申请实施例提供的技术方案，通过使用Spark分布式计算平台可以提高计算速度。使用TF-IWF-IG代替传统的TF-IDF和TF-IWF实现文本词项降维，通过融合信息增益，提高了关键词项权重计算精度，从而可以为降维提供更准确的依据。根据关键词TF-IWF-IG的权重进行分层权重计算，共分为三层，计算各层权重系数，再结合词向量，利用余弦相似度计算文本相似度，更加符合文本的信息分布，可以有效提高文本聚类的精度。

为实现本申请实施例的方法，基于同一发明构思本申请实施例还提供了一种确定文本相似度的装置，图7为本申请实施例中确定文本相似度的装置的组成结构示意图，如图7所示，该装置包括：

数据获取模块401，用于获取文本数据集；其中，所述文本数据集中包括至少两个文本；

处理模块402，用于对所述文本数据集中的文本进行关键词项提取和词向量转换，得到文本的词向量集合；

处理模块402，还用于对所述文本的词向量集合进行权重分层处理，得到文本的至少两层权重系数；根据文本的所述至少两层权重系数对所述词向量集合进行加权平均运算，得到文本的文本向量；

计算模块403，用于根据所述文本数据集中第一文本的文本向量和第二文本的文本向量确定所述第一文本和所述第二文本的相似度。

在一些实施例中，所述处理模块402，还用于对所述文本数据集中每个文本的每个词向量的第一权重值进行归一化处理，得到每个词向量的第二权重值；利用所述文本数据集中每个文本的每个词向量的第二权重值，构建文本-词项权重矩阵；将每个文本的词向量集合进行N等分，得到N层词向量子集合；其中， N取大于等于2的整数；根据所述文本-词项权重矩阵和预设的权重分层策略，得到每层词向量子集合的权重系数。

在一些实施例中，所述处理模块402，还用于基于所述每个词向量的第一权重值、其所在文本中最小第一权重值和最大第一权重值，确定所述每个词向量的第二权重值。

在一些实施例中，所述处理模块402，还用于确定权重分层策略，其中，权重分层策略包括：根据所述文本数据集中每个文本的第k个词向量子集合中所有词向量对应的第二权重值得到第k个词向量子集合的权重系数；其中，k 取大于等于1且小于等于N的整数。

在一些实施例中，所述处理模块402，还用于对所述文本数据集中的文本进行词项提取，得到文本的词项集合；确定所述词项集合中每个词项的第一权重值；将所有词项的按照第一权重值按从大到小的顺序排列，按照预设规则获取排序靠前的词项组成文本的关键词项集合。

在一些实施例中，所述处理模块402，还用于基于TF-IWF算法，确定所述词项集合中每个词项的TF-IWF值；将每个词项的TF-IWF值结合对应的信息增益，得到每一词项的TF-IWF-IG值作为所述第一权重值。

基于上述文本相似度确定中各单元的硬件实现，本申请实施例还提供了另一种电子设备，图8为本申请实施例中确定文本相似度的设备的组成结构示意图，如图8所示，该电子设备包括：处理器501和配置为存储能够在处理器上运行的计算机程序的存储器502；其中，处理器501配置为运行计算机程序时，执行前述实施例中的方法步骤。

当然，实际应用时，如图8所示，该电子设备中的各个组件通过总线系统 503耦合在一起。可理解，总线系统503用于实现这些组件之间的连接通信。总线系统503除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图8中将各种总线都标为总线系统503。

在实际应用中，上述处理器可以为特定用途集成电路(ASIC，ApplicationSpecific Integrated Circuit)、数字信号处理装置(DSPD，Digital Signal ProcessingDevice)、可编程逻辑装置(PLD，Programmable Logic Device)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、控制器、微控制器、微处理器中的至少一种。可以理解地，对于不同的设备，用于实现上述处理器功能的电子器件还可以为其它，本申请实施例不作具体限定。

上述存储器可以是易失性存储器(volatile memory)，例如随机存取存储器(RAM，Random-Access Memory)；或者非易失性存储器(non-volatile memory)，例如只读存储器(ROM，Read-Only Memory)，快闪存储器(flash memory)，硬盘(HDD，Hard DiskDrive)或固态硬盘(SSD，Solid-State Drive)；或者上述种类的存储器的组合，并向处理器提供指令和数据。

在示例性实施例中，本申请实施例还提供了一种计算机可读存储介质，例如包括计算机程序的存储器，计算机程序可由电子设备的处理器执行，以完成前述方法的步骤。

应当理解，在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、 “所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。本申请中表述“具有”、“可以具有”、“包括”和“包含”、或者“可以包括”和“可以包含”在本文中可以用于指示存在对应的特征 (例如，诸如数值、功能、操作或组件等元素)，但不排除附加特征的存在。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开，不必用于描述特定的顺序或先后次序。例如，在不脱离本发明范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。

本申请实施例所记载的技术方案之间，在不冲突的情况下，可以任意组合。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法、装置和设备，可以通过其它的方式实现。以上所描述的实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本申请各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。

Claims

1.一种确定文本相似度的方法，其特征在于，所述方法包括：

获取文本数据集；其中，所述文本数据集中包括至少两个文本；

对所述文本数据集中的文本进行关键词项提取和词向量转换，得到文本的词向量集合；

根据文本的所述至少两层权重系数对所述词向量集合进行加权平均运算，得到文本的文本向量；

2.根据权利要求1所述的方法，其特征在于，所述对所述文本的词向量集合进行权重分层处理，得到文本的至少两层权重系数，包括：

对所述文本数据集中每个文本的每个词向量的第一权重值进行归一化处理，得到每个词向量的第二权重值；

利用所述文本数据集中每个文本的每个词向量的第二权重值，构建文本-词项权重矩阵；

将每个文本的词向量集合进行N等分，得到N层词向量子集合；其中，N取大于等于2的整数；

根据所述文本-词项权重矩阵和预设的权重分层策略，得到每层词向量子集合的权重系数。

3.根据权利要求2所述的方法，其特征在于，所述对所述文本数据集中每个文本的每个词向量的第一权重值进行归一化处理，得到每个词向量的第二权重值，包括：

4.根据权利要求2所述的方法，其特征在于，所述权重分层策略，包括：

5.根据权利要求1所述的方法，其特征在于，所述对所述文本数据集中的文本进行关键词项提取和词向量转换，得到文本的词向量集合，包括：

对所述文本数据集中的文本进行词项提取，得到文本的词项集合；

确定所述词项集合中每个词项的第一权重值；

将所有词项的按照第一权重值按从大到小的顺序排列，按照预设规则获取排序靠前的词项组成文本的关键词项集合；

将所述关键词项集合输入到词向量转换模型中，得到文本的词向量集合。

6.根据权利要求5所述的方法，其特征在于，所述预设规则为获取第一权重值排序位于前40％的词项。

7.根据权利要求5所述的方法，其特征在于，所述确定所述词项集合中每个词项的第一权重值，包括：

基于TF-IWF算法，确定所述词项集合中每个词项的TF-IWF值；

将每个词项的TF-IWF值结合对应的信息增益，得到每一词项的TF-IWF-IG值作为所述第一权重值。

8.一种确定文本相似度的装置，其特征在于，所述装置包括：

所述处理模块，还用于对所述文本的词向量集合进行权重分层处理，得到文本的至少两层权重系数；

所述处理模块，还用于根据文本的所述至少两层权重系数对所述词向量集合进行加权平均运算，得到文本的文本向量；

9.一种电子设备，其特征在于，所述电子设备包括：处理器和配置为存储能够在处理器上运行的计算机程序的存储器，

其中，所述处理器配置为运行所述计算机程序时，执行权利要求1-7任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1-7任一项所述的方法的步骤。