CN109543191A

CN109543191A - 一种基于词语关系能量最大化的词向量学习方法

Info

Publication number: CN109543191A
Application number: CN201811454024.9A
Authority: CN
Inventors: 孙柱; 李智星; 沈柯; 胡峰
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2018-11-30
Filing date: 2018-11-30
Publication date: 2019-03-29
Anticipated expiration: 2038-11-30
Also published as: CN109543191B

Abstract

本发明请求保护一种基于词语关系能量最大化的词向量学习方法，主要包括步骤：1.对语料库进行分词并对每个词语的词向量随机初始化；2.对分好词的语料库进行滑窗操作并构建词共现矩阵；3.将词语与词语之间的能量用初始化后的词向量计算表示；4.将滑窗中目标词与上下文词的能量用词共现矩阵中的值近似替代；5.对所有滑窗内构建能量求和公式并极大化整个语料库的能量进而不断优化目标词的词向量；6.对公式进行转换使极大化语料库能量转变成用词向量内积拟合能量矩阵；7.对能量矩阵使用矩阵分解得到词向量。该发明能够更加显式的表达出词语之间的语义关系，使其在词向量能够表达出词语语义的相关性。

Description

一种基于词语关系能量最大化的词向量学习方法

技术领域

本发明属于自然语言处理领域，具体涉及一种基于词语关系能量最大化的词向量学习方法。

背景技术

在自然语言处理领域中，将词语表示成向量又称词语的嵌入式表达，词语的嵌入式表达诣在构建一个向量空间，在这个向量空间里词语向量间的距离能够反映出它们之间语法和语义的相似性。

词向量的构建在许多领域都起着至关重要的作用，很多自然语言处理任务会将词语序列作为向量输入，例如文本分类，命名实体识别，神经网络用于自然语言处理中也很常见，词语序列也是作为神经网络中的输入。而在工业界，很多非自然语言处理任务常常也用到词嵌入技术，比如把商品或者用户看作词语表示成向量，向量的距离将直接反映商品或用户的相关性。而词向量的好坏，直接影响这些领域任务的效果。

词嵌入在上世纪九十年代得到了很大发展，早期最有影响力的模型LatentSemantic Analysis/Indexing(LSA/LSI)，如今比较流行的则是基于词共现矩阵的 Glove和基于语料库滑动窗口的浅层神经网络Word2vec，后序的一些方法则是在之前基础上的延伸。

一种基于词语关系能量最大化的词向量学习方法，意在显式的表达出词语之间相互关系，构建词语之间关系的能量公式，使词向量在优化过程中遵循词语“语义越相似它们的上下文越相似”的原理，更加有可解释性，而在公式转换后，变换成一个能量矩阵，最终对能量矩阵进行矩阵分解。

现有技术在得到词向量的过程中，在表达“语义越相似则上下文越相似”的原理上，可解释性不够强，而本方法能量公式就是根据“语义越相似则上下文越相似”的原理构建的，所以更具有可解释性。

发明内容

本发明旨在解决以上现有技术的问题。提出了一种基于词语关系能量最大化的词向量学习方法。本发明的技术方案如下：

一种基于词语关系能量最大化的词向量学习方法，其包括以下步骤：

1)、对语料库进行分词并对每个词语的词向量随机初始化；

2)、对分好词的语料库进行滑窗操作并构建词共现矩阵；

3)、将词语与词语之间的能量用步骤1)随机初始化后的词向量计算表示；

4)、将滑窗中目标词与上下文词的能量用步骤2)词共现矩阵中的值近似替代；

5)、根据步骤3)和步骤4)对所有滑窗内构建能量求和公式，目标词对窗口内每一个上下文词的能量表示成：目标词与整个语料库其它所有词的关系能量与其它所有词分别与该上下文词的能量乘积求和，再对整个语料库滑窗将所有滑窗内能量极大化，并不断优化目标词的词向量；

6)、对公式进行转换使极大化语料库能量转变成用词向量内积去拟合能量矩阵；

7)、将词向量内积拟合能量矩阵替换成对能量矩阵进行矩阵分解得到词向量。

进一步的，所述步骤1)对语料库分词并对每个词语的词向量随机初始化包括：使用深度学习词向量常用的英文数据集text8作为语料库，或者使用维基百科中文语料库，对语料库进行分词，然后对这些分好的词随机初始化(随机初始化成0到1之间的正态分布或均匀分布的词向量)，向量维度设置为50 维至300维。

进一步的，所述步骤2)对分好词的语料库进行滑窗操作并构建词共现矩阵包括：对整个语料库从头开始进行滑窗操作，窗口大小设置为5至20个词；对整个语料库构建词共现矩阵，矩阵的第i行第j列表示滑窗过程中所有窗口内索引i对应词语与索引j对应词语的在窗口内共同出现次数。

进一步的，所述步骤3)将词语与词语之间的能量用步骤1)随机初始化后的词向量计算表示，具体包括：使用s(w,j)表示词语w与词语j的能量，值越大表示两个词语义越近似，而在向量空间这个值就越大，规定v_m、v_n表示任意两个词向量，c表示语料库的所有词，即分母是归一化因子，表示所有词的词向量两两内积求和，加入归一化因子是防止两个词向量内积在优化中无穷大，使公式最大值为1。最开始用随机初始化的词向量表示成s(w,j)，然后通过极大似然估计再不断反向梯度更新词向量。

进一步的，公式中，因为最大值为1，则 s(w,j)的最大值为0，得出词语自己与自己的近似度即s(w,w)是最大，在这里为0，是因为我们认为在优化的过程中自身与自身的优化是没有必要的，所以使得 s(w,w)为0，即s(w,w)的词向量优化与s(w,w)前的系数没关系。

进一步的，所述步骤4)将滑窗中目标词与上下文词的能量用词共现矩阵中的值近似替代具体包括：在一个滑窗内，处于中心位置的词称为目标词，其它位置的词称为上下文词，使用g(c|w)表示窗口内目标词与上下文词的能量，这里用词共现矩阵中词w和词c的共现次数近似替代，g(c|w)越大，则能量越大。

进一步的，所述步骤5)对所有滑窗内构建能量求和公式并极大化整个语料库的能量进而不断优化目标词的词向量具体包括：能量求和公式为：

其中，w为窗口内的目标词，c为窗口内的上下文词，j为整个语料库里的其它所有词，g(c|w)代表词目标词w对上下文词c的能量，s(w,j)代表词w与词j的关系能量，G是整个语料库滑窗统计得到的词共现矩阵，G(c,w)即词c和词w在所有滑窗里共同出现的总次数，因为对整个语料库滑窗的过程中，对于同一词对w, c，当w和c在一个窗口内出现一次，方括号里的能量求和公式就被计算一次，所以整个滑窗过程同一词对w,c的能量公式会被计算多次，计算的次数就等于 w和c的共现次数，所以需要乘上G(c,w)，整个公式中，G(c,w)，g(c|w)，g(c|j)是通过语料库统计得到，s(w,j)是用词向量表示，是需要优化的变量，最终通过极大化Q来不断梯度更新得到表示成最终的词向量v_w、v_j。

进一步的，所述步骤6)对公式进行转换使极大化语料库能量转变成用词向量内积拟合能量矩阵包括：

令

最大化Q即最大化Q₂，转化Q₂公式并极大化Q₂，根据语料库计算得到能量矩阵e，其中则公式最终转化成词向量的内积去拟合能量矩阵e的每一个元素。

进一步的，所述步骤7)将词向量内积拟合能量矩阵替换成对能量矩阵进行矩阵分解得到词向量包括：通过对语料库进行统计计算得到能量矩阵e，并将e通过奇异值分解(svd)得到词向量。

本发明的优点及有益效果如下：

本发明的创新点是根据“词语语义越相似则上下文越相似”的原理构建了新的能量公式并极大化，更加具有可解释性。能量公式为目标词对窗口内每一个上下文词的能量表示成目标词与整个语料库其它所有词的关系能量与其它所有词分别与该上下文词的能量乘积求和，再对整个语料库滑窗将所有滑窗内能量极大化，极大化该能量的过程中显式的表达出了“词语语义越相似则上下文越相似的原理”，所以优化出来的词向量也会在向量空间越相似则语义越相似。

附图说明

图1是本发明提供优选实施例基于词语关系能量最大化的词向量学习方法整体流程图；

图2对整个语料库滑动窗口获取目标词上下文词；

图3随机选取中文词语并找到向量空间离该词最近的10个词语图；

图4随机选取英文词语并找到向量空间离该词最近的10个词语图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是：

本发明技术方案的主要设计构思是采用对分词后的语料库进行滑动窗口操作，并构建整体能量求和公式，体现“词语语义越相似它们的上下文越相似”的原理，也就是词语在向量空间比较接近则它们的上下文词的词向量越接近。接着进行公式转换使最终极大化能量求和变成对能量矩阵的svd矩阵分解并得到低维的词向量表示。

下面结合各个附图对本发明技术方案的具体实施过程进一步详细的阐述。

请参阅图1，该图为本发明一种基于词语关系能量最大化的词向量学习方法的实施例的流程图，其主要实施过程为：

步骤S1，语料库分词并对每个词语的词向量初始化，使用深度学习词向量常用的英文数据集text8作为语料库，或者使用维基百科中文语料库，需要对语料库进行分词，其次对这些分好的词随机初始化词向量，向量维度可设置为 50维至300维

步骤S2，对分好词的语料库进行滑窗操作并构建词共现矩阵，对整个语料库从头开始进行滑窗操作，窗口大小设置为5至20个词，如图2所示。对整个语料库构建词共现矩阵，矩阵的第i行第j列表示滑窗过程中所有窗口内索引i 对应词语与索引j对应词语的在窗口内共同出现次数。

步骤S3，将词语与词语直接的能量用初始化后的词向量表示，可以表示构建一个矩阵s使用s(w,j)表示词语w与词语j的能量，值越大表示两个词语义越近似，而在向量空间这个值就应该越大。这里我们规定 v_wv_j表示词向量w与词向量j的内积，分母是归一化因子，表示所有词的词向量内积求和，最开始我们用随机初始化的词向量表示成s(w,j)，构建公式后通过极大似然估计再不断反向梯度更新词向量。可以看出括号里最大值为1，则s(w,j)的最大值为0。通过分析可以发现，词语自己与自己的近似度即s(w,w)应该是最大，在这里为0，是因为我们认为在优化的过程中自身与自身的优化是没有必要的，所以使得s(w,w)为0，即s(w,w)的词向量优化与s(w,w)前的系数没关系。

步骤S4，将滑窗中目标词与上下文词的能量用词共现矩阵中的值近似替代包括。在一个滑窗内，处于中心位置的词称为目标词，其它位置的词称为上下文词，使用g(c|w)表示窗口内目标词与上下文词的能量，这里用词共现矩阵中词w和词c的共现次数近似替代，g(c|w)越大，则能量越大。

步骤S5，对所有滑窗内构建能量求和公式并极大化整个语料库的能量进而不断优化目标词的词向量。目标词对窗口内每一个上下文词的能量表示成目标词与整个语料库其它所有词的关系能量与其它所有词分别与该上下文词的能量乘积求和，再对整个语料库滑窗将所有滑窗内能量极大化。其能量求和公式为：

其中，w为窗口内的目标词，c为窗口内的上下文词，j为整个语料库里的其它所有词，g(c|w)代表词目标词w对上下文词c的能量。s(w,j)代表词w与词j的关系能量，G是整个语料库滑窗统计得到的词共现矩阵，G(c,w)即词c和词w在所有滑窗里共同出现的总次数，因为对整个语料库滑窗的过程中，对于同一词对w,c，当w和c在一个窗口内出现一次，方括号里的能量求和公式就被计算一次，所以整个滑窗过程同一词对w,c的能量公式会被计算多次，计算的次数就等于w和c的共现次数，所以需要乘上G(c,w)。整个公式中，G(c,w)，g(c|w)，g(c|j)是通过语料库统计得到，s(w,j)是用词向量表示，是我们需要优化的变量，最终我们需要极大化Q来不断梯度更新得到表示成最终的词向量v_w，v_j。

步骤S6，对公式进行转换使极大化语料库能量转变成用词向量内积拟合能量矩阵包括：

令

则

公式(1)，(2)：最大化能量Q最即最大化Q₂，

公式(3)：Q₂公式转化成词向量表示，

公式(4)：化简公式，将x_i看作变量，

公式(5)：极大化Q₂，对x_i求偏导并使偏导为0，得

可以把x，e当做两个矩阵，则当我们让x＝e的时候就能使得公式成立。因为x_i＝v_wv_j，要得到词向量v，公式最终可转化为对矩阵e进行矩阵分解。首先计算得到能量矩阵e，并将e通过svd进行矩阵分解得到词向量，由于受高频词和低频词的影响，我们将共现矩阵做了取log操作，并且过滤掉词频小于 10的词。

请参阅图3，使用中文维基百科作为语料库得到的每个中文词语的词向量，计算每个中文词语对应词向量在向量空间上最近的10个词语，可以发现向量空间上最近的10个词语本身在语义上也比较相似。

请参阅图4，使用英文语料库text8学习得到每个英文单词的词向量，计算每个英文词语对应词向量在向量空间上最近的10个词语，可以发现向量空间上最近的10个词语本身在语义上也比较相似。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种基于词语关系能量最大化的词向量学习方法，其特征在于，包括以下步骤：

1)、对语料库进行分词并对每个词语的词向量随机初始化；

2)、对分好词的语料库进行滑窗操作并构建词共现矩阵；

2.根据权利要求1所述的基于词语关系能量最大化的词向量学习方法，其特征在于，所述步骤1)对语料库分词并对每个词语的词向量随机初始化包括：使用深度学习词向量常用的英文数据集text8作为语料库，或者使用维基百科中文语料库，对语料库进行分词，然后对这些分好的词随机初始化词向量，随机初始化成0到1之间的正态分布或均匀分布的词向量，向量维度设置为50维至300维。

3.根据权利要求1所述的基于词语关系能量最大化的词向量学习方法，其特征在于，所述步骤2)对分好词的语料库进行滑窗操作并构建词共现矩阵包括：对整个语料库从头开始进行滑窗操作，窗口大小设置为5至20个词；对整个语料库构建词共现矩阵，矩阵的第i行第j列表示滑窗过程中所有窗口内索引i对应词语与索引j对应词语的在窗口内共同出现次数。

4.根据权利要求1所述的基于词语关系能量最大化的词向量学习方法，其特征在于，所述步骤3)将词语与词语之间的能量用步骤1)随机初始化后的词向量计算表示，具体包括：使用s(w,j)表示词语w与词语j的能量，值越大表示两个词语义越近似，而在向量空间这个值就越大，规定v_wv_j表示词向量v_w与词向量v_j的内积，v_m、v_n表示任意两个词向量，c表示语料库的所有词，即分母是归一化因子，表示所有词的词向量两两内积求和，加入归一化因子是防止两个词向量内积在优化中无穷大，使公式最大值为1，最开始用随机初始化的词向量表示成s(w,j)，然后通过极大似然估计再不断反向梯度更新词向量。

5.根据权利要求4所述的基于词语关系能量最大化的词向量学习方法，其特征在于，公式中，因为最大值为1，则s(w,j)的最大值为0，得出词语自己与自己的近似度即s(w,w)是最大，在这里为0，是因为我们认为在优化的过程中自身与自身的优化是没有必要的，所以使得s(w,w)为0，即s(w,w)的词向量优化与s(w,w)前的系数没关系。

6.根据权利要求5所述的基于词语关系能量最大化的词向量学习方法，其特征在于，所述步骤4)将滑窗中目标词与上下文词的能量用词共现矩阵中的值近似替代具体包括：在一个滑窗内，处于中心位置的词称为目标词，其它位置的词称为上下文词，使用g(c|w)表示窗口内目标词与上下文词的能量，这里用词共现矩阵中词w和词c的共现次数近似替代，g(c|w)越大，则能量越大。

7.根据权利要求6所述的基于词语关系能量最大化的词向量学习方法，其特征在于，所述步骤5)对所有滑窗内构建能量求和公式并极大化整个语料库的能量进而不断优化目标词的词向量具体包括：能量求和公式为：

其中，w为窗口内的目标词，c为窗口内的上下文词，j为整个语料库里的其它所有词，g(c|w)代表词目标词w对上下文词c的能量，s(w,j)代表词w与词j的关系能量，G是整个语料库滑窗统计得到的词共现矩阵，G(c,w)即词c和词w在所有滑窗里共同出现的总次数，因为对整个语料库滑窗的过程中，对于同一词对w,c，当w和c在一个窗口内出现一次，方括号里的能量求和公式就被计算一次，所以整个滑窗过程同一词对w,c的能量公式会被计算多次，计算的次数就等于w和c的共现次数，所以需要乘上G(c,w)，整个公式中，G(c,w)，g(c|w)，g(c|j)是通过语料库统计得到，s(w,j)是用词向量表示，是需要优化的变量，最终通过极大化Q来不断梯度更新得到表示成最终的词向量v_w、v_j。

8.根据权利要求7所述的基于词语关系能量最大化的词向量学习方法，其特征在于，所述步骤6)对公式进行转换使极大化语料库能量转变成用词向量内积拟合能量矩阵包括：

令

9.根据权利要求8所述的基于词语关系能量最大化的词向量学习方法，其特征在于，所述步骤7)将词向量内积拟合能量矩阵替换成对能量矩阵进行矩阵分解得到词向量包括：通过对语料库进行统计计算得到能量矩阵e，并将e通过奇异值分解(svd)进行矩阵分解得到词向量。