CN106547735A

CN106547735A - 基于深度学习的上下文感知的动态词或字向量的构建及使用方法

Info

Publication number: CN106547735A
Application number: CN201610938238.8A
Authority: CN
Inventors: 郑骁庆; 封江涛
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2016-10-25
Filing date: 2016-10-25
Publication date: 2017-03-29
Anticipated expiration: 2036-10-25
Also published as: CN106547735B

Abstract

本发明属于计算机自然语言处理技术领域，具体为一种基于深度学习的上下文感知的动态词或字向量的构建及使用方法。基于深度学习的上下文感知的词或字向量动态构造方法包括：从海量文本中通过无监督学习方法同时学习到词或字的全局特征向量及其在特定上下文出现时的特征向量表示，结合全局特征向量和上下文特征向量动态地产生词或字向量表示。本发明还根据上下文动态构造词或字向量应用于自然语言处理系统。本发明主要用于解决词或字在不同上下文下表示不同意思的问题，即一词或一字多义的问题。使用动态词或字向量可以明显地提高不同语言的各种自然语言处理任务的性能，比如：中文分词、词性标注、命名识别、语法分析、语义角色标注、情感分析、文本分类、机器翻译等。

Description

基于深度学习的上下文感知的动态词或字向量的构建及使用方法

技术领域

本发明属于计算机自然语言处理技术领域，具体涉及动态词或字向量构建及使用方法。

背景技术

近年来，深度学习使近期人工智能研究取得突破性的进展，它结束了人工智能长达十多年未能有突破性进展的局面，并迅速在工业界产生影响。深度学习有别于仅可以完成特定任务的狭隘的人工智能系统（面向特定任务的功能模拟），作为通用的人工智能技术，可以应对各种情况和问题，已在图像识别、语音识别等领域得到极其成功的应用，在自然语言处理领域（主要是英文）也取得成效。深度学习是目前实现人工智能最有效、也是取得成效最大的实施方法。

目前性能表现较好的深度学习系统一般都使用半监督的学习方式来训练其模型，即采用无监督的预训练和有监督的参数调整。在自然语言处理中，从海量文本中学习体现词或字的语义和语法特征的向量表示是最重要的预训练，以训练得到的词或字的向量表示作为深度神经网络的初值有利于避免在后续有监督的训练中陷入较劣的局部最优值。本发明公开了一种根据上下文动态构建词或字的向量表示的方法，主要用于解决词或字在不同上下文下表示不同意思的问题，即一词或一字多义的问题。该方法不需要进行计算复杂性高、且准确度低的词或字的义项消岐，并且能够明显地提高不同语言的各种自然语言处理任务的性能，比如：中文分词、词性标注、命名识别、语法分析、文本分类、、情感分析、语义角色标注、机器翻译等。

发明内容

本发明提供一种基于深度学习的上下文感知的动态词或字向量的构建及使用方法，目的在于解决词或字在不同上下文下表示不同意思的问题，即一词或一字多义的问题（比如英文中的词和汉语中的字）。

动态词或字的向量表示方法可以用于需将词或字转化成相应的向量表示，并且以这些向量表示作为输入的自然语言处理系统，特别适用于基于深度学习技术所研发的自然语言处理系统。本发明方法的优点在于，可以根据词或字所出现的上下文信息动态构建能够表征在该上下文中的语义和语法功能的向量表示，在提高使用动态词或字向量的自然语言系统性能的同时，避免了计算复杂性高、且准确性较低的词或字的义项消岐问题。

本发明提供的基于深度学习的上下文感知的动态词或字向量的构建方法，是采用计算机根据上下文动态构造词或字的特征向量表示，具体步骤如下：

（1）首先，从海量文本中，通过无监督学习的方式获得词或字的全局特征向量及其在特定上下文中的特征向量表示；

（2）然后，根据所获得的全局特征向量及其在特定上下文中的特征向量动态产生词或字的向量表示；具体介绍如下：

（一）从海量文本中，通过无监督学习的方式获得词或字的全局特征向量及其在特定上下文中的特征向量表示；

从海量文本中通过无监督学习方法同时学习到词或字的全局特征向量及其在特定上下文出现时的特征向量表示所使用的神经网络，其结构如图1所示，其中，目标词或字的周围上下文词或字的向量拼接成上下文特征矩阵；由单维卷积从上下文特征矩阵产生词或字的上下文特征向量；由Logistic回归方法让该上下文特征向量将目标词或字的全局特征向量与非目标词或字的全局特征向量区分开来。

一个词或字的语义一般与其周围词或字最为相关，因而网络采用窗口模型，即在产生当前词或字的上下文表示向量时，将这个词或字的周围的若干个词或字作为输入。如果窗口大小设置成11，则表示将这个词或字左边和右边各五个词或字作为输入窗口。如果左边和右边的词或字的数量不足于窗口规定的大小，则使用特殊的填充符代替。

在使用神经网络训练时，每一个词或字对应到两个向量，一个称为普通特征向量，用于通过卷积神经网络产生目标词或字（中心词或字）的上下文表示向量，普通特征向量将作为神经网络（图1）的输入向量；另一个称为全局特征向量，用作目标词或字的代表向量。

对于每一个输入句子中某个窗口上下文，窗口中的词或字（除了位于中间的目标词或字外）以它们的普通特征向量表示，并且拼接成上下文特征矩阵，特征矩阵的列数为窗口大小减一，每一列为对应词或字的普通特征向量。然后对特征矩阵进行单维卷积运算，单维卷积是指对于特征矩阵每一行向量点积相应的参数向量（即卷积核），不同行向量进行点积操作时使用不同的卷积核。在单维卷积的作用下，特征矩阵转换成与词或字向量维度相同的向量，该向量表示可以看成是目标词或字所在上下文的特征表示。获得某个上下文的特征向量表示之后，采用Logistic回归方法让该上下文特征向量能够将目标词或字的全局特征向量与非目标词或字的全局特征向量区分开来。

如图1所示的神经网络的训练目标为：在给定上下文的情况下，目标词或字出现的条件概率最大，即训练的目标函数是：

（公式1）

其中：D为特定语言的词典或字典，包括该语言所需训练的词或字；C _t是目标词或字t在训练集中可能出现的所有上下文；θ表示神经网络的所有参数，包括单维卷积的权重、词或字的普通特征向量和全局特征向量。

公式1中的概率P _θ（t|c）可以使用Logistic回归分解成对于目标和非目标词或字的形式：

（公式2）

其中：v（c）是通过单维卷积网络产生的目标词或字的当前上下文特征表示；s（x）为词或字x的全局特征向量表示；neg（t）是根据出现频率通过随机采样从词典或字典中挑选的一组非目标词或字，作为训练的负样本；ϕ表示Sigmoid非线性函数。

采用梯度下降法来最小化负的目标函数，训练过程中所有参数会被迭代更新，包括单维卷积的权重、词或字的普通特征向量和全局特征向量。

上述词或字的全局特征向量及其上下文特征向量表示的无监督协同学习方法的特点在于：

（1）采用单维卷积来产生文本窗口的上下文语义特征表示，减少了网络模型的参数数量，加快了词或字向量的训练和使用时间；

（2）每个词或字对应到两个向量，一个称为普通特征向量，用于通过卷积神经网络产生目标词或字（中心词或字）的上下文表示向量；另一个称为全局特征向量，用于目标词或字的代表向量。这两个向量也可以设置成相同；

（3）在训练过程中同时训练词或字的特征向量以及其出现的上下文表示向量；

（4）适宜的使用字或词向量的维度为50~300，窗口大小为5至11的单数，非线性层的函数为Sigmoid的网络配置。

（二）根据所获得的全局特征向量及其在特定上下文中的特征向量动态产生词或字的向量表示；

一个词或字的语义会受到其出现的上下文的影响，特别一个词或字有多个义项时（即一词或一字多义）。上下文感知的动态产生词或字的向量表示的方法如下：

f（x, c） = （1 − α） s（x） +αv（c）（公式3）

其中：x表示句子中的每一个当前词或字；c表示当前词或字的上下文（即窗口中除当前词或字外的若干个词或字）；s（x）为当前词或字的全局特征向量表示；v（c）则是上下文窗口中的词或字的普通特征向量通过单维卷积所产生的当前上下文的特征向量表示；α为加权系数，表示在产生动态词或字向量表示时，两个组成向量之间的比重关系。

使用公式3来产生上下文感知的动态词或字的向量的原理是：词或字出现在特定上下文时，其全局特征向量表示由于受到当前上下文的影响，将向当前上下文的特征向量偏移，以反映当前上下文的影响。

上述结合全局特征向量和上下文特征向量动态产生词或字向量表示方法的特点在于：

（1）采用词或字全局特征向量和特定上下文特征向量的加权平均来动态产生上下文感知的词或字的向量，以反映当前上下文对词或字表义的影响；

（2）使用上下文窗口中的词或字的普通特征向量通过单维卷积所产生的当前上下文的特征向量表示；

（3）适宜的加权系数α的取值范围为[0.15, 0.25]；

（4）适宜的词或字向量的维度为50至300维之间。

本发明提出的基于深度学习的上下文感知的动态词或字向量的构建方法所构建的词或字向量，可用于自然语言处理系统中，构成基于深度学习的自然语言处理系统，其结构如图2所示。这些系统首先将词或字转换成向量作为输入，经过若干网络层转换产生高层特征表示后，用于完成各类自然语言处理任务。方法是用动态构造的词或字向量代替之前所使用的词或字向量。

具体来说，是在之前的系统中移除词或字向量Lookup层（用于将输入语句中的词或字转换成相应的特征向量表示），然后增加单维卷积层和加权平均计算层。即首先使用当前上下文窗口中的词或字（不包括位于窗口中间的词或字）的普通特征向量通过单维卷积产生的当前上下文的特征向量表示，然后与位于窗口中间的词或字的全局特征向量进行加权平均之后产生窗口中心词或字的动态词或字向量。对于输入的句子，从左向右依次产生每个词或字的动态向量，作为下一层网络的输入，之后的网络与原先的系统相同，但在任务相关的监督训练时则需要根据误差调整词或字的普通特征向量和全局特征向量，以及单维卷积层的权重。

上述根据上下文动态构造词或字向量应用于自然语言处理系统方法的特点在于：

（1）之前系统中移除词或字向量Lookup层（用于将输入语句中的词或字转换成相应的特征向量表示），然后增加单维卷积层和加权平均计算层；

（2）采用词或字全局特征向量和特定上下文特征向量的加权平均来动态产生上下文感知的词或字的向量，以反映当前上下文对词或字表义的影响；

（3）使用上下文窗口中的词或字的普通特征向量通过单维卷积所产生的当前上下文的特征向量表示；

（4）适宜的加权系数的取值范围为[0.15, 0.25]；

（5）任务相关的监督训练时，前1至3轮迭代不调整用于产生上文下文感知的动态词或字向量的普通特征向量、全局特征向量和单维卷积，之后所有神经网络参数再一起协同调整。

发明效果

本发明所公开的基于深度学习的上下文感知的动态词或字向量与其他具有代表性的词或字向量学习方法，在序列标注任务（包括：中文分词、中文命名识别、英文词性分析、英文浅层句法分析）的性能比较结果如表1所示。所有的方法都采用相同的维基百科语料进行训练，并且以文献[1]的网络作为序列标注模型。表1列示了序列标注模型使用包含具有代表性领域样本的训练集学习后，在测试集上达到的性能结果。

表1.模型标注性能比较

英文词性分析使用准确性指标，而其它三个任务使用F1指标。F1指标计算方法为2PR/（P + R），其中P为准确率，R为召回率。基线是指所使用的词或字向量的初值完全随机产生，其它都由各自方法产生的词或字向量作为序列标注的自然语言处理系统的初值，然后在训练集上根据具体任务进行调整。如表1所示，上下文感知的动态词或字向量明显优于其它比较方法，能够提高两种不同语言在不同任务上的性能。

术语解释

自然语言处理：计算机科学领域与人工智能领域中的一个重要分支，研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理并不是一般地研究自然语言，而在于研制能有效地实现自然语言通信的计算机系统，特别是其中的软件系统。

附图说明

图1.同步训练词或字向量及其上下文向量表示的神经网络结构图。

图2.使用动态构造上下文感知词或字向量的方法示意图。

具体实施方式

本发明公开了一种采用计算机根据上下文动态构造词或字的特征向量表示及其使用方法，主要用于解决词或字在不同上下文下表示不同意思的问题，即一词或一字多义的问题（比如英文中的词和汉语中的字）。动态词或字向量的方法可以用于需将词或字转化成相应的向量表示，并且以这些向量表示作为输入的自然语言处理系统，特别适用于基于深度学习技术所研发的自然语言处理系统。具体实施步骤如下：

（1）收集目标语言的大量文本语料（如：维基百科）。

（2）从语料中抽取词表或字表。出现频率较少的生僻词或字可以用一个特殊符号代替。

（3）采用词或字的全局特征向量及其上下文特征向量表示的无监督学习方法（如图1所示）使用文本语料对词或字向量进行训练。

从海量文本中通过无监督学习方法同时学习到词或字的全局特征向量及其在特定上下文出现时的特征向量表示所使用的神经网络结构如图1所示。一个词或字的语义一般与其周围词或字最为相关，因而网络采用窗口模型，即在产生当前词或字的上下文表示向量时，将这个词或字的周围的若干个词或字作为输入。如果窗口大小设置成11，则表示将这个词或字左边和右边各五个词或字作为输入窗口。如果左边和右边的词或字的数量不足于窗口规定的大小，则使用特殊的填充符代替。

在训练和使用时，每一个词或字对应到两个向量，一个称为普通特征向量，用于通过卷积神经网络产生目标词或字（中心词或字）的上下文表示向量，普通特征向量将作为图1的输入向量；另一个称为全局特征向量，用于目标词或字的代表向量。

对于每一个输入句子中某个窗口上下文，窗口中的词或字（除了位于中间的目标词或字外）以它们的普通特征向量表示，并且拼接成上下文特征矩阵，特征矩阵的列数为窗口大小减一，每一列为对应词或字的普通特征。然后对特征矩阵进行单维卷积运算，单维卷积是指对于特征矩阵每一行向量点积相应的参数向量（卷积核），不同行向量进行点积操作时使用不同的卷积核。在单维卷积的作用下，特征矩阵转换成与词或字向量维度相同的向量，该向量表示可以看成是目标词或字所在上下文的特征表示。获得某个上下文的特征向量表示之后，方法采用Logistic回归让该上下文特征向量能够将目标词或字的全局特征向量与非目标词或字的全局特征向量区分开来。

如图1所示的神经网络的训练目标为：给定上下文的情况下，目标词或字出现的条件概率最大，即训练的目标函数是：

（公式1）

其中：D为特定语言的词典或字典，包括了该语言所需训练的词或字；C _t是目标词或字t在训练集中可能出现的所有上下文；θ表示神经网络的所有参数，包括单维卷积的权重、词或字的普通特征向量和全局特征向量。

（公式2）

采用梯度下降法来最小化负的目标函数，训练过程中所有参数会被迭代更新，包括词或字的普通特征向量和全局特征向量。

（4）为特定的自然语言处理任务选择训练和使用的系统（特别是基于深度学习的自然语言处理系统），该系统接收词或字以向量表示作为输入。使用结合全局特征向量和上下文特征向量动态产生词或字向量表示（如图2所示）代替系统之前使用的词或字向量Lookup层。根据任务训练集合，系统涉及的所有参数进行协同训练，即在监督训练时需要根据误差进一步调整词或字的普通特征向量和全局特征向量，以及单维卷积层的参数。

一个词或字的语义会受到其出现的上下文的影响，特别一个词或字有多个义项时（即一词或一字多义）。上下文感知的动态词或字向量的构建方法如下：

f（x, c） = （1 − α） s（x） +αv（c）（公式3）

其中：x表示句子中的每一个当前词或字；c表示当前词或字的上下文（即窗口中除当前词或字外的若干个词或字）；s（x）为当前词或字的全局特征向量表示；v（c）则是上下文窗口中的词或字的普通特征向量通过单维卷积所产生的当前上下文的特征向量表示；α为加重系数，表示在产生动态词或字向量表示时，两个组成向量之间的比重关系。

（5）将训练完成的系统采用根据上下文动态构造词或字向量应用于自然语言处理系统的方法（如图2所示）进行实际使用。

具体方法是在之前的系统中移除词或字向量Lookup层（用于将输入语句中的词或字转换成相应的特征向量表示），然后增加单维卷积层和加权平均计算层。即首先使用当前上下文窗口中的词或字（不包括位于窗口中间的词或字）的普通特征向量通过单维卷积产生当前上下文的特征向量表示，然后与位于窗口中间的词或字的全局特征向量进行加权平均之后产生窗口中心词或字的动态词或字向量。对于输入的句子，从左向右依次产生每个词或字的动态向量，作为下一层网络的输入，之后的网络与原先的系统相同。

参考文献

[1] Ronan Collobert, Jason Weston, Léon Bottou, MichaelKarlen,KorayKavukcuoglu, and PavelKuksa. Natural language processing （almost） fromscratch.Journal of Machine Learning Research, 12:2493–2537, 2011.

[2] T. Mikolov, K. Chen, G. Corrado, and J. Dean. Efficient estimation ofword representations in vector space. CoRR abs/1301.3781, 2013.

[3] J. Pennington, R. Socher, and C. D. Manning.Glove: global vectors forword representation. In Proceedings of the International Conferenceon Empirical Methods in Natural Language Processing（EMNLP’14）, 2014.。

Claims

1.一种基于深度学习的上下文感知的动态词或字向量的构建方法，是采用计算机根据上下文动态构造词或字的特征向量表示，其特征在于，具体步骤如下：

（2）然后，根据所获得的全局特征向量及其在特定上下文中的特征向量动态产生词或字的向量表示；

分别介绍如下：

从海量文本中通过无监督学习方法同时学习到词或字的全局特征向量及其在特定上下文出现时的特征向量表示所使用的神经网络，其中，将目标词或字的周围上下文词或字的向量拼接成上下文特征矩阵，采用单维卷积从上下文特征矩阵产生词或字的上下文特征向量，然后采用Logistic回归方法让该上下文特征向量将目标词或字的全局特征向量与非目标词或字的全局特征向量区分开来；

一个词或字的语义一般与其周围词或字最为相关，因而网络采用窗口模型，即在产生当前词或字的上下文表示向量时，将这个词或字的周围的若干个词或字作为输入；

在使用神经网络训练时，每一个词或字对应到两个向量，一个称为普通特征向量，用于通过卷积神经网络产生目标词或字的上下文表示向量，普通特征向量将作为神经网络的输入向量；另一个称为全局特征向量，用作目标词或字的代表向量；

对于每一个输入句子中某个窗口上下文，窗口中的词或字，以它们的普通特征向量表示，并且拼接成上下文特征矩阵，特征矩阵的列数为窗口大小减一，每一列为对应词或字的普通特征向量；然后对特征矩阵进行单维卷积运算，单维卷积是指对于特征矩阵每一行向量点积相应的参数向量即卷积核，不同行向量进行点积操作时使用不同的卷积核；在单维卷积的作用下，特征矩阵转换成与词或字向量维度相同的向量，该向量表示可以看成是目标词或字所在上下文的特征表示；获得某个上下文的特征向量表示之后，采用Logistic回归方法让该上下文特征向量能够将目标词或字的全局特征向量与非目标词或字的全局特征向量区分开来；

神经网络的训练目标为：在给定上下文的情况下，目标词或字出现的条件概率最大，即训练的目标函数是：

（公式1）

其中：D为特定语言的词典或字典，包括该语言所需训练的词或字；C _t是目标词或字t在训练集中可能出现的所有上下文；θ表示神经网络的所有参数，包括单维卷积的权重、词或字的普通特征向量和全局特征向量；

公式1中的概率P _θ（t|c）使用Logistic回归分解成对于目标和非目标词或字的形式：

（公式2）

其中：v（c）是通过单维卷积网络产生的目标词或字的当前上下文特征表示；s（x）为词或字x的全局特征向量表示；neg（t）是根据出现频率通过随机采样从词典或字典中挑选的一组非目标词或字，作为训练的负样本；ϕ表示Sigmoid非线性函数；

采用梯度下降法最小化负的目标函数，训练过程中所有参数会被迭代更新，包括单维卷积的权重、词或字的普通特征向量和全局特征向量；

上下文感知的动态产生词或字的向量表示的方法如下：

f（x, c） = （1 − α） s（x） +αv（c）（公式3）

2.根据权利要求1所述的基于深度学习的上下文感知的动态词或字向量的构建方法，其特征在于，使用字或词向量的维度为50~300，窗口大小为5至11的单数，非线性层的函数为Sigmoid的网络配置。

3.根据权利要求1或2所述的基于深度学习的上下文感知的动态词或字向量的构建方法，其特征在于，所述加权系数α的取值范围为[0.15, 0.25]。

4.一种如权利要求1、2或3所述的基于深度学习的上下文感知的动态词或字向量的构建方法所构建的词或字向量，在自然语言处理系统中的应用，方法是用动态构造的词或字向量代替之前所使用的词或字向量，构成基于深度学习的自然语言处理系统，这些系统首先将词或字转换成向量作为输入，经过若干网络层转换产生高层特征表示后，用于完成各类自然语言处理任务。

5.根据权利要求4所述的应用，其特征在于，是在现有的系统中移除词或字向量Lookup层，然后增加单维卷积层和加权平均计算层；即首先使用当前上下文窗口中的词或字的普通特征向量通过单维卷积产生的当前上下文的特征向量表示，然后与位于窗口中间的词或字的全局特征向量进行加权平均之后产生窗口中心词或字的动态词或字向量；对于输入的句子，从左向右依次产生每个词或字的动态向量，作为下一层网络的输入，之后的网络与原先的系统相同，但在任务相关的监督训练时则需要根据误差调整词或字的普通特征向量和全局特征向量，以及单维卷积层的参数。

6.根据权利要求5所述的应用，其特征在于，在任务相关的监督训练时，前1至3轮迭代不调整用于产生上文下文感知的动态词或字向量的普通特征向量、全局特征向量和单维卷积。