CN109726386B

CN109726386B - 一种词向量模型生成方法、装置和计算机可读存储介质

Info

Publication number: CN109726386B
Application number: CN201711051980.8A
Authority: CN
Inventors: 李小涛; 游树娟
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Ltd Research Institute
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Ltd Research Institute
Priority date: 2017-10-30
Filing date: 2017-10-30
Publication date: 2023-05-09
Anticipated expiration: 2037-10-30
Also published as: CN109726386A

Abstract

本发明实施例提供了一种词向量模型生成方法、装置和计算机可读存储介质，所述方法包括：确定初始词向量模型中每个词对应的词义数量；基于所述词义数量确定语料库中的每个文本中每个词的词义，并对该词义进行标识；基于词义标识后的语料库，对词向量重新进行训练。

Description

一种词向量模型生成方法、装置和计算机可读存储介质

技术领域

本发明涉及移动通信技术领域，尤其涉及一种词向量模型生成方法、装置和计算机可读存储介质。

背景技术

词向量(word embedding)是词的特征表示，通过语义词典或机器学习技术将每个词表示为固定长度的向量。基于词向量模型，可以进行许多后续的自然语言处理和机器学习方面的应用。目前，词向量模型在语义网、信息检索、数据挖掘、信息集成、知识管理、文本分类、语音识别、词义消歧等领域发挥着越来越重要的作用。

词向量的表示方法主要分为独热表示(One-hot representation)和分布式表示(Distributed representation)两种。其中，分布式的词向量基于神经网络的思想利用语料库中每个词的上下文信息来训词向量模型，从而得到整个语料库所有词的词向量。当语料库规模较大时，包含词汇量甚至超过语义词典。但是，词向量模型中每个词使用唯一的词向量表示，即使一个词能够表达多个词义也不例外。由于多义词不同词义的上下文语境不同，使得每个多义词的词向量实际上是多个词义的一个折中，这在一定程度上弱化了每个单独的词义，例如：一些词在不同文本中表达的词义各不相同，如果词向量不能区分每个多义词的词义，必然造成分类准确性的下降。

发明内容

有鉴于此，本发明实施例期望提供一种词向量模型生成方法、装置和计算机可读存储介质。

为达到上述目的，本发明实施例的技术方案是这样实现的：

本发明实施例提供了一种词向量模型生成方法，该方法包括：

确定初始词向量模型中每个词对应的词义数量；

基于所述词义数量确定语料库中的每个文本中每个词的词义，并对该词义进行标识；

基于词义标识后的语料库，对词向量重新进行训练。

其中，所述确定初始词向量模型中每个词对应的词义数量，包括：

利用层次聚类算法确定初始词向量模型中每个词对应的词义数量。

确定所述初始词向量模型中每个词对应的词集合，所述词集合中的各个词之间的距离满足预设条件；

对所述词集合中的词进行层次聚类；

确定所述层次聚类收敛后的分类，所述分类的数量为所述每个词对应的词义数量。

可选的，所述确定初始词向量模型中每个词对应的词义数量时或之后，该方法还包括：

设置所述每个词对应的每个词义的词义标号。

其中，所述基于所述词义数量确定语料库中的每个文本中每个词的词义，并对该词义进行标识，包括：

基于所述已确定的词义数量识别所述语料库中的每个文本中的每个词的词义；

确定当前的词所表达的词义对应的所述词义标号；

利用所述词义标号对该当前的词进行标识。

其中，所述基于所述已确定的词义数量识别所述语料库中的每个文本中的每个词的词义，包括：

将每个文本中的每个词设置为有向图的一个阶段，词的每个词义作为阶段的一个节点；

获取相邻阶段节点之间权值的最大值；

所述权值的最大值对应的节点为所述文本中每个词的词义。

可选的，所述确定初始词向量模型中每个词对应的词义数量之前，该方法还包括：

利用神经网络从已选择的语料库中进行词向量训练，得到所述初始词向量模型。

本发明实施例还提供了一种词向量模型生成装置，该装置包括：

数量确定模块，用于确定初始词向量模型中每个词对应的词义数量；

词义标识模块，用于基于所述词义数量确定语料库中的每个文本中每个词的词义，并对该词义进行标识；

训练模块，用于基于词义标识后的语料库，对词向量重新进行训练。

本发明实施例还提供了一种词向量模型生成装置，该装置包括：处理器和用于存储能够在处理器上运行的计算机程序的存储器，

其中，所述处理器用于运行所述计算机程序时，执行上述方法的步骤。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述方法的步骤。

本发明实施例提供的词向量模型生成方法、装置和计算机可读存储介质，确定初始词向量模型中每个词对应的词义数量；基于所述词义数量确定语料库中的每个文本中每个词的词义，并对该词义进行标识；基于词义标识后的语料库，对词向量重新进行训练。本发明实施例经重新训练后生成的多义词词向量模型中，每个多义词的不同词义均对应唯一的词向量，相比现有对于词义的表达更为准确，提高词向量模型表达词义的准确性。

附图说明

图1为本发明实施例所述词向量模型生成方法流程示意图一；

图2为本发明实施例所述词向量模型生成装置结构示意图一；

图3为本发明实施例所述数量确定模块的结构示意图；

图4为本发明实施例所述词义标识模块的结构示意图；

图5为本发明实施例所述词向量模型生成装置结构示意图二；

图6为本发明实施例所述词向量模型生成方法流程示意图二；

图7为本发明实施例所述基于层次聚类的词义数量识别示意图；

图8为本发明实施例所述基于动态规划的词义认知方法示意图。

具体实施方式

下面结合附图和实施例对本发明进行描述。

本发明实施例提供了一种词向量模型生成方法，如图1所示，该方法包括：

步骤101：确定初始词向量模型中每个词对应的词义数量；

步骤102：基于所述词义数量确定语料库中的每个文本中每个词的词义，并对该词义进行标识；

步骤103：基于词义标识后的语料库，对词向量重新进行训练。

本发明实施例经重新训练后生成的多义词词向量模型中，每个多义词的不同词义均对应唯一的词向量，相比现有对于词义的表达更为准确，提高词向量模型表达词义的准确性。

本发明实施例中，所述确定初始词向量模型中每个词对应的词义数量，包括：

确定所述初始词向量模型中每个词对应的词集合，所述词集合中的各个词之间的距离满足预设条件(即：距离所述初始词向量模型中某个词最近的一组词)；

对所述词集合中的词进行层次聚类；

一个实施例中，所述确定初始词向量模型中每个词对应的词义数量时或之后，该方法还包括：

设置所述每个词对应的每个词义的词义标号。

本发明实施例中，所述基于所述词义数量确定语料库中的每个文本中每个词的词义，并对该词义进行标识，包括：

确定当前的词所表达的词义对应的所述词义标号；

利用所述词义标号对该当前的词进行标识。

本发明实施例中，所述基于所述已确定的词义数量识别所述语料库中的每个文本中的每个词的词义，包括：

获取相邻阶段节点之间权值的最大值；

所述权值的最大值对应的节点为所述文本中每个词的词义。

一个实施例中，所述确定初始词向量模型中每个词对应的词义数量之前，该方法还包括：

本发明实施例还提了一种词向量模型生成装置，如图2所示，该装置包括：

数量确定模块201，用于确定初始词向量模型中每个词对应的词义数量；

词义标识模块202，用于基于所述词义数量确定语料库中的每个文本中每个词的词义，并对该词义进行标识；

训练模块203，用于基于词义标识后的语料库，对词向量重新进行训练。

本发明实施例中，所述数量确定模块201确定初始词向量模型中每个词对应的词义数量，包括：

一个实施例中，如图3所示，所述数量确定模块201可包括：

第一确定单元2011，用于确定所述初始词向量模型中每个词对应的词集合，所述词集合中的各个词之间的距离满足预设条件；

处理单元2012，用于对所述词集合中的词进行层次聚类；

第二确定单元2013，用于确定所述层次聚类收敛后的分类，所述分类的数量为所述每个词对应的词义数量。

一个实施例中，所述数量确定模块201确定初始词向量模型中每个词对应的词义数量时或之后，还用于设置所述每个词对应的每个词义的词义标号。

本发明实施例中，如图4所示，所述词义标识模块202包括：

识别单元2021，用于基于所述已确定的词义数量识别所述语料库中的每个文本中的每个词的词义；

标号确定单元2022，用于确定当前的词所表达的词义对应的所述词义标号；

标识单元2023，用于利用所述词义标号对该当前的词进行标识。

本发明实施例中，所述识别单元2021基于所述已确定的词义数量识别所述语料库中的每个文本中的每个词的词义，包括：

获取相邻阶段节点之间权值的最大值；

所述权值的最大值对应的节点为所述文本中每个词的词义。

本发明实施例中，如图5所示，所述装置还包括：

初始训练模块200，用于数量确定模块201确定初始词向量模型中每个词对应的词义数量之前，利用神经网络从已选择的语料库中进行词向量训练，得到所述初始词向量模型。

其中，所述处理器用于运行所述计算机程序时，执行：

确定初始词向量模型中每个词对应的词义数量；

基于词义标识后的语料库，对词向量重新进行训练。

所述确定初始词向量模型中每个词对应的词义数量时，所述处理器还用于运行所述计算机程序时，执行：

对所述词集合中的词进行层次聚类；

所述处理器还用于运行所述计算机程序时，执行：

在确定初始词向量模型中每个词对应的词义数量时或之后，设置所述每个词对应的每个词义的词义标号。

所述处理器还用于运行所述计算机程序时，执行：

确定当前的词所表达的词义对应的所述词义标号；

利用所述词义标号对该当前的词进行标识。

所述处理器还用于运行所述计算机程序时，执行：

获取相邻阶段节点之间权值的最大值；

所述权值的最大值对应的节点为所述文本中每个词的词义。

所述处理器还用于运行所述计算机程序时，执行：

在确定初始词向量模型中每个词对应的词义数量之前，利用神经网络从已选择的语料库中进行词向量训练，得到所述初始词向量模型。

需要说明的是：上述实施例提供的装置在词向量模型生成时，仅以上述各程序模块的划分进行举例说明，实际应用中，可以根据需要而将上述处理分配由不同的程序模块完成，即将设备的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分处理。另外，上述实施例提供的装置与相应方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

在示例性实施例中，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、Flash Memory、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备，如移动电话、计算机、平板设备、个人数字助理等。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现，执行：

确定初始词向量模型中每个词对应的词义数量；

基于词义标识后的语料库，对词向量重新进行训练。

所述确定初始词向量模型中每个词对应的词义数量时，所述计算机程序被处理器运行时，还执行：

对所述词集合中的词进行层次聚类；

所述计算机程序被处理器运行时，还执行：

确定当前的词所表达的词义对应的所述词义标号；

利用所述词义标号对该当前的词进行标识。

所述计算机程序被处理器运行时，还执行：

获取相邻阶段节点之间权值的最大值；

所述权值的最大值对应的节点为所述文本中每个词的词义。

所述计算机程序被处理器运行时，还执行：

下面结合场景实施例再对本发明进行描述。

本方案提出了一种基于智能语义分割的词向量模型生成方法，能够为多义词的每个词义分别训练词向量，使得一个多义词对应多个词向量。本方法共包含四个步骤，如图6所示，包括：

步骤601：利用神经网络从语料库中训练初始词向量模型；

首先选择语料库进行初始的词向量训练，本方法对词向量模型的训练方法不作特别要求，训练词模型可选择word2vec和Glove等经典的基于神经网络的分布式词向量模型，语料库根据词的语言和应用领域通常选择维基百科、Google新闻等开源的语料库文本集合。

步骤602：利用层次聚类算法确定词向量模型中每个词的词义数量；

利用步骤一中训练的词向量模型，利用余弦距离，可以得到距离所述初始词向量模型中某个词最近的一组词集合，可称之为最近邻集合，在本方案中最近邻集合中词的数量设置为100。通过对这100个词进行自底而上的层次聚类，词之间的距离通过对应的词向量之间的余弦距离计算，通过指定类别间的距离来控制算法的迭代次数。最终得到收敛后的分类，类别的数量即该词的词义个数。图7为当前词经过层次聚类之后，识别出具有三种词义。

步骤603：利用动态规划算法确定语料库每个文本中每个词的词义，并且用词义序号对词语进行标识；

这里，在确定词向量模型中每个词包含的词义数量之后，对语料库中的每个文本下的词进行词义认知，确定当前词表达的是它的第几个词义，然后利用词义标号对该词进行标识，这样语料库集合中每个多义词就被分解为不同词义标号标识的词。如book在不同的文本上下文中，当表示书本时为book_1，表示书写时为book_2。

在本方案中可将文本中每个词词义的认知转化为一个有向图中求解最长路径的动态规划问题，一个文本中的每个词作为有向图的一个阶段，词的每个词义作为阶段的一个节点，相邻阶段节点之间的权值为节点表示的词的最近邻集合中对应词义的聚类中心向量之间余弦距离，聚类中心向量，即：最长路径经过的节点，即文本中每个词表达的真正词义。如图8所示，所述w1至wn表示文本中的n个词，w1_1、w1_2、w1_3表示w1这个词有三个词义，以此类推。图8中的虚线表示所述最长路径，所述最长路径经过的节点w1_2、w2_2、w3_2、wn_1为文本中每个词表达的真正词义。

步骤604：利用神经网络从标识后的语料库中训练多义词向量；

利用步骤三经过词义认知并且标识后的语料库，重新训练词向量模型，此时一个多义词如book，分别具有book_1的词向量和book_2的词向量，其中book_1表示名词书本，在词向量空间下与paper等词的距离更近；book_2表示书写动作，与write等词的距离更近。

本发明实施例提出的语义分割算法不借助任何外部知识库及语义词典，具有非常好的可扩展性，直接利用初始训练的词向量模型，根据距离当前词最近的前100个词进行层次聚类，确定词的词义数量；再通过对语料库中每个文本求解最大词义路径，智能识别出文本中每个词表达的具体词义，并且对该词进行词义标识，进而再次训练词向量模型，实现多义词的多向量精确表达，提高词向量模型表达词义的准确性。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。

Claims

1.一种词向量模型生成方法，其特征在于，该方法包括：

确定初始词向量模型中每个词对应的词义数量；

基于词义标识后的语料库，对词向量重新进行训练；

利用层次聚类算法确定初始词向量模型中每个词对应的词义数量；

基于已确定的词义数量识别所述语料库中的每个文本中的每个词的词义；

确定当前的词所表达的词义对应的所述词义标号；

利用所述词义标号对该当前的词进行标识；

其中，所述基于已确定的词义数量识别所述语料库中的每个文本中的每个词的词义，包括：

获取相邻阶段节点之间权值的最大值；

所述权值的最大值对应的节点为所述文本中每个词的词义。

2.根据权利要求1所述的方法，其特征在于，所述确定初始词向量模型中每个词对应的词义数量，包括：

对所述词集合中的词进行层次聚类；

3.根据权利要求1所述的方法，其特征在于，所述确定初始词向量模型中每个词对应的词义数量时或之后，该方法还包括：

设置所述每个词对应的每个词义的词义标号。

4.根据权利要求1所述的方法，其特征在于，所述确定初始词向量模型中每个词对应的词义数量之前，该方法还包括：

5.一种词向量模型生成装置，其特征在于，该装置包括：

训练模块，用于基于词义标识后的语料库，对词向量重新进行训练；

其中，所述词义标识模块包括：

识别单元，用于基于已确定的词义数量识别所述语料库中的每个文本中的每个词的词义；

标号确定单元，用于确定当前的词所表达的词义对应的所述词义标号；

标识单元，用于利用所述词义标号对该当前的词进行标识；

其中，所述识别单元，具体用于：

获取相邻阶段节点之间权值的最大值；

所述权值的最大值对应的节点为所述文本中每个词的词义。

6.一种词向量模型生成装置，其特征在于，该装置包括：处理器和用于存储能够在处理器上运行的计算机程序的存储器，

其中，所述处理器用于运行所述计算机程序时，执行权利要求1-4中任一项所述方法的步骤。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1-4中任一项所述方法的步骤。