CN109710921B

CN109710921B - 词语相似度的计算方法、装置、计算机设备及存储介质

Info

Publication number: CN109710921B
Application number: CN201811487581.0A
Authority: CN
Inventors: 黄妍仪; 覃剑鸿; 莫可京; 孙炜; 姜佰胜; 熊浩敏; 陈磊
Original assignee: Shenzhen Zhongnong Yixun Information Technology Co ltd
Current assignee: Shenzhen Zhongnong Yixun Information Technology Co ltd
Priority date: 2018-12-06
Filing date: 2018-12-06
Publication date: 2023-05-26
Anticipated expiration: 2038-12-06
Also published as: CN109710921A

Abstract

本发明实施例公开了一种词语相似度的计算方法、装置、计算机设备及存储介质，包括：获取训练文本的训练义原集合；获取所述第一词语的第一义原集和所述第二词语的第二义原集；根据所述训练义原集合、所述第一义原集和所述第二义原集，确定所述第一词语的第一初始词向量和所述第二词语的第二初始词向量；分别将所述第一初始词向量和所述第二初始词向量作为词向量模型的输入，得到第一目标词向量和第二目标词向量；根据所述第一目标词向量和所述第二目标词向量，确定所述第一词语和所述第二词语的词语相似度。通过上述方式，能够提高词语相似度计算的准确性。

Description

词语相似度的计算方法、装置、计算机设备及存储介质

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种词语相似度的计算方法、装置、计算机设备及存储介质。

背景技术

词语之间的词语相似性研究是自然语言处理以及人工智能领域的基础性研究，如搜索、聚类以及歧义消除等，因此，近年来，研究词语与词语之间的相似性热度不断提高。

词语相似度表示两个词语语义的可替换程度，要实现词语相似度的计算，首先需要将词语从文字转换成计算机能理解能计算的方式。目前，应用比较广泛的有word2vec模型，word2vec模型是Google发布的一种基于深度学习的工具，利用浅层神经网络，将词语用向量表示，可用于计算词语与词语的相似度。

word2vec模型是通过词语的上下文来计算词语的词向量，由于上下文内容有限，简单的通过word2vec模型表示词语，然后再计算相似度可能并不准确。

发明内容

基于此，有必要针对上述问题，提出一种准确率高的词语相似度的计算方法、装置、计算机设备及存储介质。

一种词语相似度的计算方法，所述方法包括：

获取训练文本的训练义原集合，所述训练文本中包括第一词语和第二词语；

获取所述第一词语的第一义原集和所述第二词语的第二义原集；

根据所述训练义原集合、所述第一义原集和所述第二义原集，确定所述第一词语的第一初始词向量和所述第二词语的第二初始词向量；

将所述第一初始词向量作为词向量模型的输入，得到输出的与所述第一词语对应的第一目标词向量；

将所述第二初始词向量作为所述词向量模型的输入，得到输出的与所述第二词语对应的第二目标词向量；

根据所述第一目标词向量和所述第二目标词向量，确定所述第一词语和所述第二词语的词语相似度。

一种词语相似度的计算装置，所述装置包括：

第一获取模块，用于获取训练文本的训练义原集合，所述训练文本中包括第一词语和第二词语；

第二获取模块，用于获取所述第一词语的第一义原集和所述第二词语的第二义原集；

第一确定模块，用于根据所述训练义原集合、所述第一义原集和所述第二义原集，确定所述第一词语的第一初始词向量和所述第二词语的第二初始词向量；

第一输出模块，用于将所述第一初始词向量作为词向量模型的输入，得到输出的与所述第一词语对应的第一目标词向量；

第二输出模块，用于将所述第二初始词向量作为所述词向量模型的输入，得到输出的与所述第二词语对应的第二目标词向量；

第二确定模块，用于根据所述第一目标词向量和所述第二目标词向量，确定所述第一词语和所述第二词语的词语相似度。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行以下步骤：

一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行以下步骤：

本发明提出了一种词语相似度的计算方法、装置、设备及存储介质，首先获取训练文本的训练义原集合，所述训练文本中包括第一词语和第二词语；获取所述第一词语的第一义原集和所述第二词语的第二义原集；然后根据所述训练义原集合、所述第一义原集和所述第二义原集，确定所述第一词语的第一初始词向量和所述第二词语的第二初始词向量；最后将所述第一初始词向量作为词向量模型的输入，得到输出的与所述第一词语对应的第一目标词向量；将所述第二初始词向量作为所述词向量模型的输入，得到输出的与所述第二词语对应的第二目标词向量；根据所述第一目标词向量和所述第二目标词向量，确定所述第一词语和所述第二词语的词语相似度，由此使得词语与词语之间的相似度计算的准确率得到提高。具体体现在，由于一个词语的上下文可能只能表达该词语的一种含义，而一个词语通常具有多种语义，在词向量模型中，单纯的利用上下文来表达该词语可能会受训练文本中出现次数比较多的某词义影响，产生语义偏向，另一方面，受预设的上下文窗口影响，词向量模型的上下文视野受限，会造成一定程度的语义缺失，导致最终对词语的表达不准确，而上述词语相似度的计算方式，将词语的上下文和该词语在知网中的不同词义的义原进行结合来表达该词语，能对词语进行一定程度的语义补偿，另外，知网的义原标注系统能有效地拉近词向量的语义空间的距离，使得该词语的表达更为准确，即通过上述方式使得最终得到的该词语的词向量对该词语的表达更为准确，而不是偏向于上下文对词语的表达，由于通过上述方式得到的词语的表达更为准确，因此，最终计算得到的相似度也将更为准确。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

其中：

图1为一个实施例中词语相似度的计算方法的实现流程示意图；

图2为一个实施例中训练文本的示意图；

图3为一个实施例中词语、词义和义原关系的示意图；

图4为一个实施例中步骤106的实现流程示意图；

图5为一个实施例中skip-gram的三层神经网络的示意图；

图6为一个实施例中哈夫曼树的示意图；

图7为一个实施例中词语相似度的计算装置的结构框图；

图8为一个实施例中计算机设备的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，在一个实施例中，提供了一种词语相似度的计算方法。该方法可以应用于服务器，也可以应用于终端。所述服务器为高性能计算机或高性能计算机集群。所述终端包括但不限于手机、平板电脑、智能手表、笔记本电脑和台式电脑。该词语相似度的计算方法具体包括如下步骤：

步骤102，获取训练文本的训练义原集合，所述训练文本中包括第一词语和第二词语。

所述训练文本，为词向量模型训练时需要用到的包含多个词语的文本。所述训练文本可以包括但不限于英文的训练文本(例如图2所示)和中文的训练文本。

在具体实施的时候，为了提高训练效率和精度，需要对原始文本进行一定的处理以得到训练文本。具体的，由于原始文本中可能有标点符号，需要去掉原始文本中的标点符号，以得到训练文本；或者，原始文本中包含大量的无意义的词，例如，of、the和and等词，那么可以去掉这些词得到训练样本，最终得到的训练文本可如图2所示。需要说明的是，对于中文文本，还需要对文本进行分词。

所述训练义原集合，为训练文本中的所有不重复词语的所有不重复义原的集合。

所述词语，可以是一个字，也可以是一个词，例如，词语为“爸爸”或者“兵”。

所述第一词语和所述第二词语，为训练文本中将用于比较相似性的两个词语。

步骤104，获取所述第一词语的第一义原集和所述第二词语的第二义原集。

所述第一义原集，为第一词语的所有词义以及词义的同义关系词义的所有不重复义原的集合；所述第二义原集，为第二词语的所有词义以及词义的同义关系词义的所有不重复义原的集合。

所述词义，为词语表达的不同含义，例如，词语“兵”，表达的含义可以是“兵器”，也可以是“军人”，即词语“兵”的词义有“兵器”和“军人”。

所述同义关系词义，为与词义表达语义相同的词义，例如，词语“兵”的词义“兵器”和“军人”，其中，“兵器”的同义关系词义有“武器”，“军人”的同义关系词义有“战士”。

所述义原，是汉语中最基本的、不能再分隔的最小语义单位，例如，词义“兵器”的义原可能有“武器”和“战场”，词义“军人”的义原可能有“人”和“战场”。从知识库HowNet(知网)的原始词集中获取到训练文本中词语对应的义原。

在本发明实施例中，词语、词义和义原的关系，如图3所示，可以看出，一个词语可能有多个不同的词义，同时，一个词义对应多个义原。

例如，word2有两个词义word2-1和word2-2，且word2-1没有同义关系词义，word2-2有一个同义关系词义word2-3，word2-1有2个义原word2-1-1和word2-1-2，word2-2有2个义原word2-2-1和word2-2-2，word2-3有一个义原word2-3-1，于是得到word2的义原的集合为{word2-1-1，word2-1-2，word2-2-1，word2-2-2，word2-3-1}，如果word2-1-2和word2-2-1为相同的义原，那么将word2-1-2或word2-2-1从该集合中删除得到第一(或第二)义原集合{word2-1-1，word2-1-2，word2-2-2，word2-3-1}。

第一词语和第二词语可以来自于同一个文本，也可以来自于不同的文本。当第一词语和第二词语来自于同一个文本的时候，可以直接根据该文本得到训练文本；当第一词语和第二词语来自于两个不同的文本的时候，需要将两个文本进行汇总之后得到训练文本。

在说明了词语、词义和义原之后，下面说明如何获取训练义原集合。例如，训练文本中只有两个词语：word1和word2(假设这两个词语的词义没有同义关系词义，通常情况下，一个词义是有同义关系词义的)，其中，word1有两个词义word1-1和word1-2，word1-1有3个义原：word1-1-1、word1-1-2和word1-1-3，word1-2有2个义原：word1-2-1和word1-2-2；word2有两个词义word2-1和word2-2，word2-1有2个义原word2-1-1和word2-1-2，word2-2有2个义原word2-2-1和word2-2-2。于是，可以根据词语、词义和义原出现的顺序得到该训练文本的所有义原的集合{word1-1-1，word1-1-2，word1-1-3，word1-2-1，word1-2-2，word2-1-1，word2-1-2，word2-2-1，word2-2-2}，但是，通过比较发现，义原word1-2-1和义原word2-1-1相同，于是，将义原word1-2-1或者义原word2-1-1从该集合中去掉，得到训练义原集合：{word1-1-1，word1-1-2，word1-1-3，word1-2-2，word2-1-1，word2-1-2，word2-2-1，word2-2-2}。

步骤106，根据所述训练义原集合、所述第一义原集和所述第二义原集，确定所述第一词语的第一初始词向量和所述第二词语的第二初始词向量。

所述词向量，将词语以向量的方式进行表达，以便于计算机去理解自然语言。

所述初始词向量，用于作为词向量模型的输入。

在本发明实施例中，如图4所示，所述根据所述训练义原集合、所述第一义原集和所述第二义原集，确定所述第一词语的第一初始词向量和所述第二词语的第二初始词向量，包括：

步骤106A，根据所述第一义原集和所述第二义原集中每个义原在所述训练义原集合中的位置，确定所述第一义原集和所述第二义原集中每个义原的义原向量。

所述义原向量，为只包含元素0和1的向量。具体的，首先确定义原在训练义原集合中的位置，然后将向量中该位置的值置为1，最后将其他位置的值置为0，以得到义原向量。

继续如上述例子，训练文本中有两个词语：word1和word2，训练义原集合：{word1-1-1，word1-1-2，word1-1-3，word1-2-2，word2-1-1，word2-1-2，word2-2-1，word2-2-2}，于是，义原word2-2-1的义原向量为：[0 0 0 0 0 0 1 0]，根据此方法，可以求得训练义原集合中每个义原的义原向量。

步骤106B，根据所述第一义原集中每个义原的义原向量确定所述第一词语的第一初始词向量。

作为一种可选的实施方式，所述根据所述第一义原集中每个义原的义原向量确定所述第一词语的第一初始词向量，包括：

获取所述第一义原集中每个义原的权值系数，所述第一义原集中所有义原的权值系数的和的值为1；

根据义原的权值系数和所述义原的义原向量确定所述第一词语的第一初始词向量。

例如，假设第一词语的第一义原集中只有两个义原word2-2-1和word2-2-2，训练义原集合为{word1-1-1，word1-1-2，word1-1-3，word1-2-2，word2-1-1，word2-1-2，word2-2-1，word2-2-2}，义原word2-2-1的义原向量为：[0 0 0 0 0 0 1 0]，义原word2-2-2的义原向量为：[0 0 0 0 0 0 0 1]，word2-2-1的权值系数为0.4，word2-2-2的权值系数为0.6，于是，确定第一初始向量为：[0 0 0 0 0 0 0.4 0.6]。

在这里，所述权值系数，可以根据经验进行设置，例如，词语的某一词义用的比较少，那么该词义对应的多个义原的权值系数相对其他词义的义原的权值系数可以设置为一个更小的值。

优选的，所述根据所述第一义原集中每个义原的义原向量确定所述第一词语的第一初始词向量，包括：

获取所述第一义原集中的义原数目；

计算所述第一义原集中各个义原向量之和，得到义原和向量；

根据所述义原数目和所述义原和向量计算得到所述第一词语的第一初始词向量。

例如，训练义原集合为{word1-1-1，word1-1-2，word1-1-3，word1-2-2，word2-1-1，word2-1-2，word2-2-1，word2-2-2}，假定义原在训练义原集合中的位置和编号对应，即义原{word1-1-1，word1-1-2，word1-1-3，word1-2-2，word2-1-1，word2-1-2，word2-2-1，word2-2-2}对应的编号为{1,2,3,4,5,6,7,8}，第一义原集为{word2-1-1，word2-1-2}，于是，确定第一义原集中的义原数目为2，根据以上编号或位置，义原word2-1-1的义原向量为[0 0 0 0 1 0 0 0]，义原word2-1-2的义原向量为[0 0 0 0 0 1 0 0]，于是得到义原和向量为[0 0 0 0 1 1 0 0]，最后，根据义原数目和义原和向量得到初始词向量为[0 0 0 00.5 0.5 0 0]。具体可参考one-hot向量。

步骤106C，根据所述第二义原集中每个义原的义原向量确定所述第二词语的第二初始词向量。

步骤106C确定第二初始词向量的方法与步骤106B确定第一初始词向量的方法相同，在此不再描述，例如，步骤106C包括：获取所述第二义原集中的义原数目；计算所述第二义原集中各个义原向量之和，得到义原和向量；根据所述义原数目和所述义原和向量计算得到所述第二词语的第二初始词向量。

步骤108，将所述第一初始词向量作为词向量模型的输入，得到输出的与所述第一词语对应的第一目标词向量。

所述词向量模型包括输入层、隐层和输出层，所述第一目标词向量或所述第二目标词向量是通过输出层的哈夫曼树得到的。

首先，将所述第一初始词向量作为词向量模型的输入，与隐层权重矩阵做内积，传递到输出层。

例如，根据义原数目和义原和向量得到初始词向量为[0 0 0 0 0.5 0.5 0 0]，隐层权重矩阵为[0.1 0.3 0.5；0.6 0.4 0.3；0.5 0.1 0.2；0.3 0.1 0.7；0.4 0.3 0.5；0.20.1 0.4；0.6 0.6 0.4；0.3 0.2 0.1]，那么传递到输出层的词向量为[0.3 0.2 0.45]。

然后，在输出层构建哈夫曼树，以传递到输出层的词向量作为哈夫曼数的根节点，更新哈夫曼树模型参数，获得最终目标词向量。

所述目标词向量，为通过哈夫曼树模型参数θ更新初始词向量得到的。

在本发明实施例中，所述词向量模型，包括word2vec模型中的skip-gram模型。skip-gram模型的思想是通过中心词预测该中心词的上下文。如图5所示，skip-gram模型为一个三层神经网络，具体的，skip-gram模型包括输入层、隐层和输出层，所述第一目标词向量或所述第二目标词向量是通过词向量模型(skip-gram模型)的训练，不断更新输出层哈夫曼树的模型参数生成的，下面对哈夫曼树和霍夫曼编码进行讲解。哈夫曼树的构建过程如下：

(1)为训练文本中的各个词语统计词频，作为节点权重。

(2)将词语看做是有n棵树的森林，每颗树仅有一个节点。

(3)在森林中选择节点权值最小的两棵树进行合并，得到一颗新树，这两颗树分布作为新树的左右子树。新树的节点权重为左右子树的节点权重之和。

(4)将之前的根节点权值最小的两棵树从森林删除，并把新树加入森林。

(5)重复步骤(2)和(3)直到森林里只有一棵树为止。

例如图6所示，有(a，b，c，d，e，f)6个节点，节点的权值为(16，4，8，20，3)，首先将权值最小的节点b和f合并得到新树，该新树的节点权重是7，此时森林里有5棵树，节点权重分别是(16，8，6，20，7)，再次将节点权重最小的树6和7合并得到新树，该新树的节点权重是13，此时森林里有4颗树，节点权重依次是(16，8，20，13)，依次类推，将树8和13进行合并得到新树，最终得到图6所示的哈夫曼树。

得到哈夫曼树之后，需要对各个树进行霍夫曼编码。例如，左子树编码为0，右子树编码为1，于是，可以得到节点a编码为11，节点b编码为0111，节点c编码为00，节点d编码为010，节点e编码为10，节点d编码为0110。

哈夫曼编码的目的是为了确定概率，于是，不同的编码值对应不同的概率，编码0和1的概率之和为1。例如，假设1对应的概率是P1，那么0对应的概率就是1-P1，于是，要从根节点57走到根节点d，其概率为：(1-P₁₀)P₂₁(1-P₃₀)，其中P₁₀＝1/(1+e^-xwθ1)，P₂₁＝1/(1+e^-xwθ2)，P₃₀＝1/(1+e^-xwθ3)。

在本发明实施例中，将所述第一初始词向量作为词向量模型即skip-gram模型的输入，例如，通过对词语的所有义原的义原向量进行加权平均得到第一初始词向量为[0 00 0 0 0 0 1/3 1/3 1/3 0 0]，假设到达隐层之后得到词向量为[0.3 0.6 0.1]，将隐层的词向量[0.3 0.6 0.1]作为输出层的输入向量，即将[0.3 0.6 0.1]作为霍夫曼树根节点的词向量x_w，然后通过梯度上升法不断更新模型参数θ和x_w，以得到目标词向量。

具体的，假设输入的第一词语的上下文词语为w，霍夫曼树根节点词向量为x_w，从根节点到w所在的叶子节点，包含的节点总数为l_w，w在霍夫曼树中从根节点开始，经过的第i个节点表示为

对应的霍夫曼编码为/>

(0或1)，节点对应的模型参数为/>

定义w经过的霍夫曼树某一个节点j的逻辑回归概率为：

那么对于一个目标输出词w，其最大似然为：

在词向量模型中，由于使用的是随机梯度上升法，所以并没有把所有样本的似然乘起来得到真正的训练集最大似然，仅仅每次只用一个样本更新梯度，这样做的目的是减少梯度计算量，这样可以得到w的对数似然函数L如下：

要得到模型中w词向量和内部节点的模型参数θ，可以使用梯度上升法。首先求模型参数

的梯度以及x_w的梯度：

有了梯度表达式，就可以用梯度上升法进行迭代来一步步的求解需要的所有的

和x_w。

定义输入词向量维度为M，上下文大小为2c，步长为a，于是有：

(1)基于训练文本，根据词频建立哈夫曼树；

(2)随机初始化每个树节点的参数θ，同时初始化每个词向量x_i；

(3)对于2c个x_i，目标设定为最优化P(x_w|x_i)，因此，训练过程如下：

对于属于1到2c的i；

设置sum的初始值为0；

对于2到l_w的j计算：

在j＝l_w时，x_i＝x_i+sum；

(4)获得

的更新后，根据x_w的梯度，可以更新目标词向量为：

其中，context(w)指代的是目标词语的2c个上下文，x_w的初始值是输入层传递到输出层的词向量。

如果梯度收敛，则结束迭代，否则返回步骤“对于属于1到2c的i”继续执行。

步骤110，将所述第二初始词向量作为所述词向量模型的输入，得到输出的与所述第二词语对应的第二目标词向量。

步骤110确定第二目标词向量的方法与步骤108确定第一目标词向量的方法相同，在此不再描述。

步骤112，根据所述第一目标词向量和所述第二目标词向量，确定所述第一词语和所述第二词语的词语相似度。

在这里，所述根据所述第一目标词向量和所述第二目标词向量，确定所述第一词语和所述第二词语的词语相似度，包括：计算所述第一目标词向量和所述第二目标词向量的余弦相似度，将所述余弦相似度确定为所述第一词语和所述第二词语的词语相似度。

例如，第一目标词向量为A，第二目标词向量为B，余弦相似度cos(θ)＝A·B/(||A||×||B||)，cos(θ)是一个大于0小于等于1的数字，越接近1，代表两个词语的相似度越大。

可选的，在步骤112所述将所述余弦相似度确定为所述第一词语和所述第二词语的词语相似度之后，还包括：

若所述词语相似度超过预设值，则确定所述第一词语和所述第二词语为同义词。

例如，经过计算，cos(θ)的值为0.94，即两个词语的词语相似度为0.94，超过了预设值为0.9，则确定这两个词语为同义词。

上述词语相似度的计算方法，首先获取训练文本的训练义原集合，所述训练文本中包括第一词语和第二词语；获取所述第一词语的第一义原集和所述第二词语的第二义原集；然后根据所述训练义原集合、所述第一义原集和所述第二义原集，确定所述第一词语的第一初始词向量和所述第二词语的第二初始词向量；最后将所述第一初始词向量作为词向量模型的输入，得到输出的与所述第一词语对应的第一目标词向量；将所述第二初始词向量作为所述词向量模型的输入，得到输出的与所述第二词语对应的第二目标词向量；根据所述第一目标词向量和所述第二目标词向量，确定所述第一词语和所述第二词语的词语相似度，由此使得词语与词语之间的相似度计算的准确率得到提高。具体体现在，由于一个词语的上下文可能只能表达该词语的一种含义，而一个词语通常具有多种语义，在词向量模型中，单纯的利用上下文来表达该词语可能会受训练文本中出现次数比较多的某词义影响，产生语义偏向，另一方面，受预设的上下文窗口影响，词向量模型的上下文视野受限，会造成一定程度的语义缺失，导致最终对词语的表达不准确，而上述词语相似度的计算方式，将词语的上下文和该词语在知网中的不同词义的义原进行结合来表达该词语，能对词语进行一定程度的语义补偿，另外，知网的义原标注系统能有效地拉近词向量的语义空间的距离，使得该词语的表达更为准确，即通过上述方式使得最终得到的该词语的词向量对该词语的表达更为准确，而不是偏向于上下文对词语的表达，由于通过上述方式得到的词语的表达更为准确，因此，最终计算得到的相似度也将更为准确。

在本发明实施例中，需要说明的是，方法中的步骤并不代表执行的先后，只是用于指示方法执行的内容，例如步骤102和步骤104，步骤104也可以在步骤102之前执行。

如图7所示，本发明实施例提供一种词语相似度的计算装置，该装置包括：

第一获取模块702，用于获取训练文本的训练义原集合，所述训练文本中包括第一词语和第二词语；

第二获取模块704，用于获取所述第一词语的第一义原集和所述第二词语的第二义原集；

第一确定模块706，用于根据所述训练义原集合、所述第一义原集和所述第二义原集，确定所述第一词语的第一初始词向量和所述第二词语的第二初始词向量；

第一输出模块708，用于将所述第一初始词向量作为词向量模型的输入，得到输出的与所述第一词语对应的第一目标词向量；

第二输出模块710，用于将所述第二初始词向量作为所述词向量模型的输入，得到输出的与所述第二词语对应的第二目标词向量；

第二确定模块712，用于根据所述第一目标词向量和所述第二目标词向量，确定所述第一词语和所述第二词语的词语相似度。

上述词语相似度的计算装置，首先获取训练文本的训练义原集合，所述训练文本中包括第一词语和第二词语；获取所述第一词语的第一义原集和所述第二词语的第二义原集；然后根据所述训练义原集合、所述第一义原集和所述第二义原集，确定所述第一词语的第一初始词向量和所述第二词语的第二初始词向量；最后将所述第一初始词向量作为词向量模型的输入，得到输出的与所述第一词语对应的第一目标词向量；将所述第二初始词向量作为所述词向量模型的输入，得到输出的与所述第二词语对应的第二目标词向量；根据所述第一目标词向量和所述第二目标词向量，确定所述第一词语和所述第二词语的词语相似度，由此使得词语与词语之间的相似度计算的准确率得到提高。具体体现在，由于一个词语的上下文可能只能表达该词语的一种含义，而一个词语通常具有多种语义，在词向量模型中，单纯的利用上下文来表达该词语可能会受训练文本中出现次数比较多的某词义影响，产生语义偏向，另一方面，受预设的上下文窗口影响，词向量模型的上下文视野受限，会造成一定程度的语义缺失，导致最终对词语的表达不准确，而上述词语相似度的计算方式，将词语的上下文和该词语在知网中的不同词义的义原进行结合来表达该词语，能对词语进行一定程度的语义补偿，另外，知网的义原标注系统能有效地拉近词向量的语义空间的距离，使得该词语的表达更为准确，即通过上述方式使得最终得到的该词语的词向量对该词语的表达更为准确，而不是偏向于上下文对词语的表达，由于通过上述方式得到的词语的表达更为准确，因此，最终计算得到的相似度也将更为准确。

在一个实施例中，所述第一确定模块706，包括：

义原向量确定模块，用于根据所述第一义原集和所述第二义原集中每个义原在所述训练义原集合中的位置，确定所述第一义原集和所述第二义原集中每个义原的义原向量；

第一初始词向量确定模块，用于根据所述第一义原集中每个义原的义原向量确定所述第一词语的第一初始词向量；

第二初始词向量确定模块，用于根据所述第二义原集中每个义原的义原向量确定所述第二词语的第二初始词向量。

在一个实施例中，所述第一初始词向量确定模块，包括：

义原数目获取模块，用于获取所述第一义原集中的义原数目；

义原和向量计算模块，用于计算所述第一义原集中各个义原向量之和，得到义原和向量；

初始词向量计算模块，用于根据所述义原数目和所述义原和向量计算得到所述第一词语的第一初始词向量。

在一个实施例中，所述第二确定模块712，包括：

余弦相似度模块，用于计算所述第一目标词向量和所述第二目标词向量的余弦相似度，将所述余弦相似度确定为所述第一词语和所述第二词语的词语相似度。

在一个实施例中，所述装置，还包括：

同义词模块，用于若所述词语相似度超过预设值，则确定所述第一词语和所述第二词语为同义词。

需要说明的是，本发明实施例提出的词语相似度的计算装置与本发明方法实施例提出的词语相似度的计算方法基于相同的发明构思，装置实施例与方法实施例中的相应技术内容可互相适用，此处不再详述。

图8示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是服务器、也可以是终端。如图8所示，该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现词语相似度的计算方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行词语相似度的计算方法。网络接口用于与外部进行通信。本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的词语相似度的计算方法可以实现为一种计算机程序的形式，计算机程序可在如图8所示的计算机设备上运行。计算机设备的存储器中可存储组成词语相似度的计算装置的各个程序模板。比如，第一获取模块702、第二获取模块704、第一确定模块706、第一输出模块708、第二输出模块710和第二确定模块712。

在一个实施例中，提出了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行以下步骤：

上述计算机设备，首先获取训练文本的训练义原集合，所述训练文本中包括第一词语和第二词语；获取所述第一词语的第一义原集和所述第二词语的第二义原集；然后根据所述训练义原集合、所述第一义原集和所述第二义原集，确定所述第一词语的第一初始词向量和所述第二词语的第二初始词向量；最后将所述第一初始词向量作为词向量模型的输入，得到输出的与所述第一词语对应的第一目标词向量；将所述第二初始词向量作为所述词向量模型的输入，得到输出的与所述第二词语对应的第二目标词向量；根据所述第一目标词向量和所述第二目标词向量，确定所述第一词语和所述第二词语的词语相似度，由此使得词语与词语之间的相似度计算的准确率得到提高。具体体现在，由于一个词语的上下文可能只能表达该词语的一种含义，而一个词语通常具有多种语义，在词向量模型中，单纯的利用上下文来表达该词语可能会受训练文本中出现次数比较多的某词义影响，产生语义偏向，另一方面，受预设的上下文窗口影响，词向量模型的上下文视野受限，会造成一定程度的语义缺失，导致最终对词语的表达不准确，而上述词语相似度的计算方式，将词语的上下文和该词语在知网中的不同词义的义原进行结合来表达该词语，能对词语进行一定程度的语义补偿，另外，知网的义原标注系统能有效地拉近词向量的语义空间的距离，使得该词语的表达更为准确，即通过上述方式使得最终得到的该词语的词向量对该词语的表达更为准确，而不是偏向于上下文对词语的表达，由于通过上述方式得到的词语的表达更为准确，因此，最终计算得到的相似度也将更为准确。

在一个实施例中，上述计算机程序被所述处理器执行时，还用于执行以下步骤：

根据所述第一义原集和所述第二义原集中每个义原在所述训练义原集合中的位置，确定所述第一义原集和所述第二义原集中每个义原的义原向量；

根据所述第一义原集中每个义原的义原向量确定所述第一词语的第一初始词向量；

根据所述第二义原集中每个义原的义原向量确定所述第二词语的第二初始词向量。

获取所述第一义原集中的义原数目；

计算所述第一目标词向量和所述第二目标词向量的余弦相似度，将所述余弦相似度确定为所述第一词语和所述第二词语的词语相似度。

需要说明的是，本发明实施例提出的计算机设备与本发明方法实施例提出的词语相似度的计算方法基于相同的发明构思，设备实施例与方法实施例中的相应技术内容可互相适用，此处不再详述。

一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如下步骤：

上述计算机可读存储介质，首先获取训练文本的训练义原集合，所述训练文本中包括第一词语和第二词语；获取所述第一词语的第一义原集和所述第二词语的第二义原集；然后根据所述训练义原集合、所述第一义原集和所述第二义原集，确定所述第一词语的第一初始词向量和所述第二词语的第二初始词向量；最后将所述第一初始词向量作为词向量模型的输入，得到输出的与所述第一词语对应的第一目标词向量；将所述第二初始词向量作为所述词向量模型的输入，得到输出的与所述第二词语对应的第二目标词向量；根据所述第一目标词向量和所述第二目标词向量，确定所述第一词语和所述第二词语的词语相似度，由此使得词语与词语之间的相似度计算的准确率得到提高。具体体现在，由于一个词语的上下文可能只能表达该词语的一种含义，而一个词语通常具有多种语义，在词向量模型中，单纯的利用上下文来表达该词语可能会受训练文本中出现次数比较多的某词义影响，产生语义偏向，另一方面，受预设的上下文窗口影响，词向量模型的上下文视野受限，会造成一定程度的语义缺失，导致最终对词语的表达不准确，而上述词语相似度的计算方式，将词语的上下文和该词语在知网中的不同词义的义原进行结合来表达该词语，能对词语进行一定程度的语义补偿，另外，知网的义原标注系统能有效地拉近词向量的语义空间的距离，使得该词语的表达更为准确，即通过上述方式使得最终得到的该词语的词向量对该词语的表达更为准确，而不是偏向于上下文对词语的表达，由于通过上述方式得到的词语的表达更为准确，因此，最终计算得到的相似度也将更为准确。

获取所述第一义原集中的义原数目；

需要说明的是，本发明实施例提出的计算机可读存储介质与本发明方法实施例提出的词语相似度的计算方法基于相同的发明构思，介质实施例与方法实施例中的相应技术内容可互相适用，此处不再详述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种词语相似度的计算方法，其特征在于，所述方法包括：

根据所述第一目标词向量和所述第二目标词向量，确定所述第一词语和所述第二词语的词语相似度；

所述根据所述训练义原集合、所述第一义原集和所述第二义原集，确定所述第一词语的第一初始词向量和所述第二词语的第二初始词向量，包括：

根据所述第二义原集中每个义原的义原向量确定所述第二词语的第二初始词向量；

所述根据所述第一义原集中每个义原的义原向量确定所述第一词语的第一初始词向量，包括：

获取所述第一义原集中的义原数目；

根据所述义原数目和所述义原和向量计算得到所述第一词语的第一初始词向量；

所述根据所述第二义原集中每个义原的义原向量确定所述第二词语的第二初始词向量，包括：

获取所述第二义原集中的义原数目；

计算所述第二义原集中各个义原向量之和，得到义原和向量；

根据所述义原数目和所述义原和向量计算得到所述第二词语的第二初始词向量。

2.如权利要求1所述的方法，其特征在于，所述词向量模型包括输入层、隐层和输出层，所述第一目标词向量或所述第二目标词向量是通过输出层的哈夫曼树得到的。

3.如权利要求1至2任一项所述的方法，其特征在于，所述根据所述第一目标词向量和所述第二目标词向量，确定所述第一词语和所述第二词语的词语相似度，包括：

4.如权利要求3所述的方法，其特征在于，在所述将所述余弦相似度确定为所述第一词语和所述第二词语的词语相似度之后，还包括：

5.一种词语相似度的计算装置，其特征在于，所述装置包括：

第一确定模块，用于根据所述训练义原集合、所述第一义原集和所述第二义原集，确定所述第一词语的第一初始词向量和所述第二词语的第二初始词向量；所述第一确定模块，包括：义原向量确定模块，用于根据所述第一义原集和所述第二义原集中每个义原在所述训练义原集合中的位置，确定所述第一义原集和所述第二义原集中每个义原的义原向量；第一初始词向量确定模块，用于根据所述第一义原集中每个义原的义原向量确定所述第一词语的第一初始词向量；第二初始词向量确定模块，用于根据所述第二义原集中每个义原的义原向量确定所述第二词语的第二初始词向量；用于获取所述第一义原集中的义原数目；计算所述第一义原集中各个义原向量之和，得到义原和向量；根据所述义原数目和所述义原和向量计算得到所述第一词语的第一初始词向量；用于获取所述第二义原集中的义原数目；计算所述第二义原集中各个义原向量之和，得到义原和向量；根据所述义原数目和所述义原和向量计算得到所述第二词语的第二初始词向量；

6.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至4中任一项所述方法的步骤。

7.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至4中任一项所述方法的步骤。