CN110442874B

CN110442874B - 一种基于词向量的中文词义预测方法

Info

Publication number: CN110442874B
Application number: CN201910735241.3A
Authority: CN
Inventors: 管有庆; 何铠; 卢捍华; 闵丽娟
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2019-08-09
Filing date: 2019-08-09
Publication date: 2023-06-13
Anticipated expiration: 2039-08-09
Also published as: CN110442874A

Abstract

本发明公开了一种基于词向量的中文词义预测方法，用于中文自然语言处理时将向量化的词语进行语义预测的场景。神经网络语言模型和词义预测模型组成，其中神经网络语言模型是核心；最终形成的词义预测模型是目的。在神经网络语言模型中，使用两种词义预测模型，依次对实验文本进行遍历计算，使文本词语之间关联性提升。语义预测模型中，根据词向量间的余弦相似度来搜索相关的近义词和反义词，从而提升了词语之间的关联性和对文本语境的预测性，扩展了以中心词为预测对象的相关词汇，提升了词汇的预测量和相关预测类比词语的预测量。

Description

一种基于词向量的中文词义预测方法

技术领域

本发明涉及一种自然语言识别中基于词向量的中文词义预测模型，具体是将通过神经网络训练好的词向量，根据向量间余弦相似度来判定各个词向量之间的相关性，属于自然语言处理中词向量模型领域。

背景技术

自然语言处理是计算机科学领域与人工智能领域的一个重要方向，其研究的目的在于可以实现人与计算机之间的有效通信。自然语言处理也是一门综合的学科，它融合了语言学、计算机科学和数学。因此，这一领域的研究既涉及到了自然语言即人们日常使用语言，同时也又要求将自然语言与计算机系统，特别是软件系统有效的结合。所以，它也是计算机科学的一部分。为了进一步增强自然语言词向量的预测能力和关联能力，并且对上下文语境进行有效的学习，研究者们较多使用基于语义词典的方式进行相似度计算或同义词扩展，取得了显著的效果。

发明内容

发明目的：本发明提供一种基于词向量的中文词义预测方法，该方法通过对神经网络语言模型的深入学习和研究，结合了深度学习方法在自然语言处理中的探索和应用，使用神经网络语言模型训练词向量。基于词向量对上下文进行预测，从而判断出接下来可能出现的相关词汇。对文章中的词语进行向量化，通过余弦相似性来判断词语之间的关联度，可以搜索出某一词语与之相关的近义词和反义词。通过神经网络语言模型来综合预测词与词之间的出现关系。不但使相近语义的词在向量空间中尽可能接近，同时使得反义词在该向量空间具有反向量的特性。

技术方案：为实现上述目的，本发明采用的技术方案为：

一种基于词向量的中文词义预测方法，在神经网络语言模型中，使用两种词义预测模型，依次对实验文本进行遍历计算，使文本词语之间关联性提升。语义预测模型中，根据词向量间的余弦相似度来搜索相关的近义词和反义词，从而提升了词语之间的关联性和对文本语境的预测性，扩展了以中心词为预测对象的相关词汇，提升了词汇的预测量和相关预测类比词语的预测量。包括以下步骤：

步骤1.神经网络语言模型训练：这一阶段，依次使用两种基于神经网络的词向量训练方法对于基于词向量的词语训练集进行神经网络语言模型训练。

步骤1.1，中心词预测背景词：通过选取训练样本中的一个关键词语作为一次训练的中心词，中心词附近出现的其他词语作为背景词；将中心词作为输入层，背景词作为输出层对神经网络语言模型进行训练；根据中心词生成与它距离不超过窗口大小的背景词的条件概率，该条件概率计算公式如下：

其中，T代表所选取的训练样本的长度，t＝1表示从文本中第一词开始计算概率，m表示为训练模型的窗口大小；Ρ(w^(t+j)|w^(t))表示以w^(t)为中心词，m为窗口大小，其各个背景词w^(t+j)的出现概率，当中心词出现时，每一个背景词出现的概率是相互独立的，上述公式(10)等价于最小化损失函数：

将上式(11)中的P(w^(t+j)|w^(t))替换为两个向量的点乘，向量点乘的公式为：

其中，V代表整个文本序列，其中中心词为w_c，背景词为w_o，用u_o和v_c来分别表示背景词和中心词的向量，exp表示以自然常数e为底数的指数函数，c∈V表示对文本中所有的词语都进行点乘，使用随机梯度下降来计算模型的参数的梯度，公式如下：

步骤1.2，背景词预测中心词：选取训练样本中背景词作为神经网络的输入层，经过神经网络隐藏层，最终输出一个中心词；根据已经出现的背景词来计算中心词，其概率计算公式如下：

其中，T代表所选取的训练样本的长度，t＝1表示从文本中第一词开始计算概率，m表示为训练模型的窗口大小，公式(14)是计算在背景词w^(t-m)到w^(t+m)已出现的情况下中心词w^(t)出现的概率，上述公式(14)等价于最小化损失函数：

在最小化损失函数的计算中，上式P(w^(t)|w^(t-m),…,w^(t-1),w^(t+1),…,w^(t+m))替换为两个向量的点乘，向量点乘的公式为：

其中，V代表整个文本序列，假设w_c为中心词，w_o1,…,w_o2m为以中心词为中心，m为窗口大小时的背景词，使用u_c来表示中心词向量，由于有2m个背景词向量，所以在点乘时需要对这2m个词向量进行平均，求出一个平均向量；exp表示以自然常数e为底数的指数函数，使用随机梯度下降来计算模型的参数的梯度，公式如下：

步骤2.词义预测模型：

经过上述两种方法的训练，词与词之间的向量关系得到不断优化，利用一定的数学方法，可以评判出词向量之间的关系。对词向量，使用余弦相似度来评判两个词向量之间的关系。首先，汉语中的词义相同的同义词或者词义十分接近的近义词，其词向量之间的余弦相似度是接近于1的。其次，汉语中也存在着许多词义相反，往往是成对出现的反义词，这类词语一般是形容词居多。其词向量之间的余弦相似度是接近于-1的。最后，通过结合上一环节中神经网络的两种词向量训练方法，当两个词语作为中心词时，伴随他们出现的环境词，如果出现概率越大，说明出现的词语相近，那么可以判定这两个词语之间存在着一定的类比关系。当一句话或者一段文本中出现了一个新词时，由于该词首次出现或词频较低，使用神经网络语言模型进行训练时可能会出现偶然性，那么就可以通过类比词的方式来预测这个词语的含义。

步骤2.1，近义词和反义词预测：

通过余弦相似度度量出训练样本中词语之间的相似程度，判定两个词语之间的关系；针对不同的词语，搜索出与之相关的近义词和反义词，实现了词语关系的扩充，公式如下：

上述公式(18)用来求解两个n维向量的余弦相似度，x_i和y_i分别表示向量x和向量y的各个分量，其中i从1到n表示n维向量的不同分量，cos(θ)表示两个向量的余弦相似度；

步骤2.2，类比词词义预测：

步骤2.2.1：获取类比词训练样本，设置好词语窗口大小m，以便进行环境词对中心词的预测；

步骤2.2.2：通过环境词向量对“新词”进行预测；环境词向量除“新词”外，其他背景词的词向量均出现在训练样本中，通过神经网络语言模型中背景词预测中心词的方式，对该“新词”向量进行词义预测，增强词向量的关联性；

步骤2.2.3：将类比词训练样本中新词所在词向量与训练样本中的词向量通过位置类比，在两个文本序列中，将新词与训练样本中词向量空间中已存在的中心词进行词义预测；在中心词的环境词向量满足近义词标准的情况下，由于两个词语在文本序列的位置上具有很高的相似性，判定新词与中心词具有相同的词性，并且同属于相同的词语类别。

优选的：步骤2.1中余弦相似度值的范围在[-1,1]这个区间内，给出的相似性范围从-1到1，当这个值等于或接近于1时，说明这两个词语词义相同或者十分接近，是近义词；当这个值等于或接近于-1时，说明这两个词语词义相反，是反义词。

本发明相比现有技术，具有以下有益效果：

通过神经网络语言模型训练，所有词语都是由一定维度的词向量代表的，使得词与词之间具有一定的关联性。使用固定维度的向量表示所有词语，一定程度上减小了训练的开销，提升了模型训练的效率，并且可以通过向量搜索出近义词、反义词和类比词一系列词义相关的词语。针对训练集中未出现的新词，可以使用模型中已训练好的环境词进行词义预测。

附图说明

图1为基于词向量的中文词义预测模型结构图。

图2为中心词预测背景词模型图

图3为背景词预测中心词模型图

图4为神经网络结构模型图

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

一种基于词向量的中文词义预测方法，用于中文自然语言处理时将向量化的词语进行语义预测的场景，如图1所示，模型由神经网络语言模型和词义预测模型组成，其中神经网络语言模型是核心，包括中心词预测背景词和背景词预测中心词两种方法；最终形成的词义预测模型是目的，包括近义词预测、反义词预测和类比词预测，如图4所示，神经网络主要由三个部分组成，分别是输入层、隐藏层和输出层。其中，每层都是由各个单元组成的，输入层是由训练集的实例特征向量传入的。除输出层以外的每一层，都经过连接节点的权重传入下一层，每一层的输出作为下一层的输入。x₁,x₂…x_n作为神经网络输入层的单元，W_1j，W_2j，W_3j…W_nj分别表示输入到下一单元之间的权重。例如，W_1j表示从输入层x₁到下一隐藏层的权重值，j表示下一隐藏层的对应单元。其中，x₁与隐藏层中第一个单元的权重值为W₁₁，第二个位W₁₂，以此类推。具体包括以下步骤：

步骤1.神经网络语言模型训练

依次使用两种基于神经网络的词向量训练方法对于基于词向量的词语训练集进行神经网络语言模型训练。

步骤1.1，中心词预测背景词，如图2所示：通过选取训练样本中的一个关键词语作为一次训练的中心词，中心词附近出现的若干个其他词语作为背景词，即根据某一个词来生成它在文本序列周围的词。将中心词作为输入层，背景词作为输出层对神经网络语言模型进行训练；该模型是一种单个词语作为输入层，多个词语作为输出层的模型。设置背景词的窗口大小，以中心词为中心，根据中心词生成与它距离不超过窗口大小的背景词的条件概率，使用最大似然估计法，来计算这个条件概率，该条件概率计算公式如下：

其中，T代表所选取的训练样本的长度，t＝1表示从文本中第一词开始计算概率，m表示为训练模型的窗口大小；P(w^(t+j)|w^(t))表示以w^(t)为中心词，m为窗口大小，其各个背景词w^(t+j)的出现概率，其中，当中心词出现时，每一个背景词出现的概率是相互独立的。该模型的目的是最大化这个联合概率，即为当中心词出现时，其最有可能出现的背景词。在将联合概率最大化的过程中，上述公式同时也等价于最小化损失函数。上述公式(10)等价于最小化损失函数：

在最小化损失函数的计算中，上式中的P(w^(t+j)|w^(t))为一个概率，由于文本序列中的词语已经进行过了向量化，我们可以将其替换为两个向量的点乘，将上式(11)中的P(w^(t ^+j)|w^(t))替换为两个向量的点乘，向量点乘的公式为：

其中，V代表整个文本序列，其中中心词为w_c，背景词为w_o，用u_o和v_c来分别表示背景词和中心词的向量，exp表示以自然常数e为底数的指数函数，c∈V表示对文本中所有的词语都进行点乘，c是整个文本序列V中的一个词语，对整个文本序列V中的每个词语进行遍历，此时，已经达到使用词向量来完成概率的计算。同时，在进行运算的过程中，由于一个词语会扮演着中心词和背景词两种不同的角色，所以同一个词语将有两个词向量表达。使用随机梯度下降来计算模型的参数的梯度，公式如下：

训练时，将计算得到的概率作为神经网络中输入到下一单元之间的权重。

步骤1.2，背景词预测中心词，如图3所示，选取训练样本中若干个词(可预先设置窗口大小m)作为一次训练的背景词，将背景词作为神经网络的输入层，经过神经网络隐藏层，最终输出一个中心词；从而预测出该情况下最有可能出现的中心词。这个模型通过假设某个中心词在文本序列前后的背景词来生成该中心词。在文本序列中，该模型的重点是，基于给定窗口大小数量的背景词下，生成某个中心词的条件概率。根据若干背景词来生成中心词，该模型是一种多个词语作为输入层，单个词语作为输出层的模型，根据已经出现的背景词来计算中心词，因为连续的背景词有多个，所以将这些背景词向量取平均，使用与上一步骤相同的方式来计算概率，该步骤的概率计算公式如下：

其中，T代表所选取的训练样本的长度，t＝1表示从文本中第一词开始计算概率，m表示为训练模型的窗口大小，该联合概率公式(14)是计算在背景词w^(t-m)到w^(t+m)已出现的情况下中心词w^(t)出现的概率，在将联合概率最大化的过程中，上述公式(14)等价于最小化损失函数：

在最小化损失函数的计算中，上式P(w^(t)|w^(t-m)，...，w^(t-1)，w^(t+1)，...，w^(t+m))为一个概率，由于文本序列中的词语已经进行过了向量化，我们可以将其替换为两个向量的点乘，向量点乘的公式为：

其中，V代表整个文本序列，假设w_c为中心词，w_O1，...，w_o2m为以中心词为中心，m为窗口大小时的背景词，使用u_c来表示中心词向量，由于有2m个背景词向量，所以在点乘时需要对这2m个词向量进行平均，求出一个平均向量；exp表示以自然常数e为底数的指数函数，同时，在进行运算的过程中，由于一个词语会扮演着中心词和背景词两种不同的角色，所以同一个词语将有两个词向量表达。为求得全局最优解，对于上式公式(16)使用随机梯度下降公式，运算后的公式如下：

步骤2.词义预测模型：

词义预测模型作为本专利主要的创新内容。主要创新点在于：训练样本中词向量经过神经网络语言模型训练之后，词向量之间的关系发生了改变，词向量之间具有一定的关联性；可以用来搜索词义相近的近义词和词义相反的反义词，除此之外，当输入的一段文本序列中存在新词时，通过词义预测模型对该新词进行词义预测，从而实现词语库的扩充，增强语言模型对新词的学习能力，所述新词指即训练样本中从未出现的词语；

步骤2.1，近义词和反义词预测：

如果两个词语在任意一个句子中可以互相替换，且不影响句子的含义，那么这两个词可以称之为近义词。如果两个词语在任意一个句子中替换之后，句子的含义截然相反，那么这两个词称之为反义词。为了确定两个目标词向量之间的相似度，可以通过余弦相似度对两个词向量进行度量。通过两个词向量的余弦相似度可以搜索近义词，因此通过余弦相似度度量出训练样本中词语之间的相似程度，判定两个词语之间的关系；针对不同的词语，搜索出与之相关的近义词和反义词，实现了词语关系的扩充，公式如下：

上述公式(18)可以用来求解两个n维向量的余弦相似度，x_i和i_i分别表示向量x和向量y的各个分量，其中i从1到n表示n维向量的不同分量，cos(θ)表示两个向量的余弦相似度，这个值的范围在[-1,1这个区间内，给出的相似性范围从-1到1，-1意味着两个向量指向的方向截然相反，对应预测模型中的反义词；1表示他们的指向完全相同，对应预测模型中的近义词。当这个值等于或接近于1时，说明这两个词语词义相同或者十分接近，是近义词；当这个值等于或接近于-1时，说明这两个词语词义相反，是反义词；而在-1和1之间的值则表示两个词向量之间的相似性或相异性。该方法主要针对在多维词向量空间中，对两个词向量进行相似性的计算。

通过余弦相似度可以度量出文本序列中每个词语之间的相似程度，让词语之间的关联性得到增强，使词与词之间具有了一定的关系。通过该预测模型，来获取某一个词语的近义词和反义词。如表1所示：

表1

如表1所示，在进行近义词预测时，将“人工智能”这一词语作为输入值之后，系统会返回出与之相关的近义词，如“AI”、“机器智能”、“人工智能应用”、“人工智能技术”和“AI技术”。同时可以在预测模型中，查看这些近义词与“人工智能”之间的相似度。除此之外，我们还可以输入一些别的词语，例如“机器学习”、“神经网络”、“自然语言处理”和“云计算”。分别针对这些词语，我们也可以来观察它们和“人工智能”的近义词之间的相似度，具体数值如表上所示。

该预测模型基于词语的含义，使得词义相近的词向量在词向量空间中处于比较接近的位置。通过余弦相似度可以度量出词语之间的相似程度，判定两个词语之间的关系。在本预测模型中，针对不同的词语，可以搜索出与之相关的近义词和反义词，实现了词语关系的扩充。

步骤2.2，类比词词义预测：

除去近义词和反义词以外，通过训练好的词义预测模型求出词与词之间的类比。在两个文本序列中，背景词之间的相似程度很高，达到预先设定的阈值后，可以推断出文本中的中心词属于同一词性和类别的词语；同时，当一句话或者一段文本中出现了一个新词时，由于该词首次出现或词频较低，使用神经网络语言模型进行训练时可能会出现偶然性，那么就可以通过类比词的方式来预测这个词语的含义。

“夏天”，“人们”，“喜欢”，“吃”，“西瓜”，“消暑”

“夏天”，“人们”，“喜欢”，“吃”，“哈密瓜”，“消暑”

例如上面两句话分词结果所示，将“西瓜”和“哈密瓜”分别作为两个文本序列的中心词。假设“西瓜”是一个词向量空间中已经存在的词语，而另一文本中的“哈密瓜”作为一个词向量空间中未出现的新词。对于首次在训练集中出现的新词，系统将为“哈密瓜”这一词语分配一个随机词向量，以便在进行词义的预测。但是由于“哈密瓜”这一新词仅出现一次，其频数为“1”，在系统随机分配词向量时，会由于频数较低，无法为其分配一个具有较高关联度的词向量。

通过本专利的词义预测模型，可以针对频数出现较低的“新词”，可以根据词义为其分配一个适合的词向量。通过环境词预测和中心词的词性类比两种方法，对其设置更适合的词向量，增强了词向量之间的关联度，提高了系统针对“新词”的词向量训练效率。同时，提高了神经网络自然语言模型中词向量文本的扩充效率。

步骤2.2.2：通过环境词向量对“新词”进行预测；在本例中，除“哈密瓜”这一新词外，其他背景词的词向量均出现在训练集中，通过神经网络语言模型中背景词预测中心的方式，可对该“新词”向量进行词义预测，增强词向量的关联性；

步骤2.2.3：将类比词训练样本中新词所在词向量与训练样本中的词向量通过位置类比，在两个文本序列中，将新词“哈密瓜”与词向量空间中已存在的“西瓜”词语进行词义预测。在两个中心词的环境词向量满足近义词标准的情况下，由于两个词语在文本序列的位置上具有很高的相似性，可以判定新词“哈密瓜”与旧词“西瓜”具有相同的词性，并且同属于相同的词语类别。

通过本专利的词义预测模型，可以针对频数出现较低的词语，通过环境词预测和中心词的词性类比两种方法，对其设置更适合的词向量，增强了词向量之间的关联度，提高了系统针对“新词”的词向量训练效率。同时，提高了神经网络自然语言模型中词向量文本的扩充效率。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于词向量的中文词义预测方法，其特征在于，包括以下步骤：

步骤1.神经网络语言模型训练

其中，T代表所选取的训练样本的长度，t＝1表示从文本中第一词开始计算概率，m表示为训练模型的窗口大小；P(w^(t+j)|w^(t))表示以w^(t)为中心词，m为窗口大小，其各个背景词w^(t ^+j)的出现概率，当中心词出现时，每一个背景词出现的概率是相互独立的，上述公式(10)等价于最小化损失函数：

其中，V代表整个文本序列，其中中心词为w_c，背景词为w_o，用u_o和v_c来分别表示背景词和中心词的向量，exp表示以自然常数e为底数的指数函数，c∈V表示对文本中所有的词语都进行点乘，使用随机梯度下降来计算公式(12)的参数的梯度，公式如下：

其中，V代表整个文本序列，假设w_c为中心词，w_o1,…,w_o2m为以中心词为中心，m为窗口大小时的背景词，使用u_c来表示中心词向量，由于有2m个背景词向量，所以在点乘时需要对这2m个词向量进行平均，求出一个平均向量；exp表示以自然常数e为底数的指数函数，使用随机梯度下降来计算公式(16)的参数的梯度，公式如下：

步骤2.词义预测模型：

步骤2.1，近义词和反义词预测：

步骤2.2，类比词词义预测：

2.根据权利要求1所述基于词向量的中文词义预测方法，其特征在于：步骤2.1中余弦相似度值的范围在[-1,1这个区间内，给出的相似性范围从-1到1，当这个值等于或接近于1时，说明这两个词语词义相同或者十分接近，是近义词；当这个值等于或接近于-1时，说明这两个词语词义相反，是反义词。