CN109271622B

CN109271622B - 一种基于频次分布校正的低维词表征学习方法

Info

Publication number: CN109271622B
Application number: CN201810897220.7A
Authority: CN
Inventors: 曹学飞; 李济洪; 王瑞波; 王钰; 石隽峰; 谷波; 牛倩
Original assignee: Shanxi University
Current assignee: Shanxi University
Priority date: 2018-08-08
Filing date: 2018-08-08
Publication date: 2021-05-14
Anticipated expiration: 2038-08-08
Also published as: CN109271622A

Abstract

本发明公开了一种基于频次分布校正的低维词表征学习方法，对给定的语料，统计出设定窗口内词对的共现频次，通过对共现频次的对数值进行适当的幂次变换，根据语料自适应地优选幂次变换中的幂指数参数值，先将词对共现频次的分布校正为Zipf分布，再通过GloVe模型学习得到低维的词表征向量，实验证明得到的词表征有更高的精度，同时训练速度也更快。通过本发明，可以生成精度更高的低维词表征。

Description

一种基于频次分布校正的低维词表征学习方法

技术领域

本发明涉及低维词表征学习领域，尤其涉及一种基于频次分布校正的低维词表征学习方法。

背景技术

自然语言中，词是承载语义的基本单元，如何表征词的意义？ Harris在1954年提出的分布假说(distributional hypothesis)为这一设想提供了理论基础：上下文相似的词，其语义也相似。Firth在1957 年对分布假说进行了进一步的阐述：a word ischaracterized by the company it keeps(一个词的含义可以由它周围的词来刻画)。

随着大规模语料在自然语言中的广泛使用，基于上述分布假说，演化出了词的分布式表示方法(distributional representation)。该方法需要构建一个词对共现矩阵，从矩阵直接获取词的分布式表示，词对共现矩阵的每一行或每一列对应一个词，矩阵中的每个元素对应相应词对在语料中的共现频次，在这种方法下，矩阵中的一行，就成为了对应词的分布式表示。然而这种表示方法有个很大的缺陷：每个词的分布式表示是一个非常稀疏且高维的向量，这导致基于此高维向量的语义计算常常失效。

近年来，低维词表征(distributed representation)学习开始得到人们的广泛关注。随着深度学习的兴起，研究人员提出了许多方法和模型去学习词的低维表征，如CBOW、Skip-gram以及GloVe等。该类方法是将高维稀疏的词的分布式表示映射为低维实值向量，从而使得语义计算变得可行。对低维词表征的精度，一般采用word analogy 任务和wordsimilarity任务来评测。word analogy任务的性能指标是准确率，准确率越高，低维词表征的精度越高；word similarity任务的性能指标是斯皮尔曼相关系数，相关系数越大，低维词表征的精度更高。但是现有的实现低维词表征学习的方法，其低维词表征的精度还有待提高。

发明内容

本发明的目的在于为提高低维词表征的精度而提供一种基于频次分布校正的低维词表征学习方法。

本发明的目的可以通过采用如下的技术措施来实现，设计一种基于频次分布校正的低维词表征学习方法，包括：根据给定的语料C，生成词表V；其中，词表V是语料C中出现的不同词的全部集合；

设定窗口值L，统计由词表V中的所有词对<w_i，w_j>在语料中的共现频次X_ij，并计算每一词对<w_i，w_j>的共现频次X_ij的降序值r_ij；

计算幂指数参数β，计算公式如公式1；

r_ij表示词对<w_i，w_j>的共现频次X_ij的降序值，即将所有X_ij按照从大到小的次序排列，计算出相应的序值，|X|表示非零的共现频次的个数；

使用(logX_ij)^β代替GloVe模型中的logX_ij，学习得到每个低维词表征向量v_i，以及|V|*d大小的词表征矩阵。

其中，使用(logX_ij)^β代替GloVe模型中的logX_ij，得到的目标函数如公式(2)所示；

其中v_i和

分别表示词对<w_i，w_j>中w_i和w_j的低维词表征，b_i和

为v_i和

对应的偏置项，f(X_ij)为加权函数，根据词对的共现频次对目标函数中的每一求和项进行加权。

区别于现有技术，本发明对给定的语料，统计出设定窗口内词对的共现频次，通过对共现频次的对数值进行适当的幂次变换，根据语料自适应地优选幂次变换中的幂指数参数值，先将词对共现频次的分布校正为Zipf分布，再通过GloVe模型学习得到低维的词表征向量，实验证明得到的词表征有更高的精度。通过本发明，可以生成精度更高的低维词表征，同时训练速度也更快。

附图说明

图1是本发明提供的一种基于频次分布校正的低维词表征学习方法的逻辑示意图。

具体实施方式

下面结合具体实施方式对本发明的技术方案作进一步更详细的描述。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

参阅图1，图1是本发明提供的一种基于频次分布校正的低维词表征学习方法的逻辑示意图。该方法的步骤包括：

S110：根据给定的语料C，生成词表V；其中，词表V是语料C中出现的不同词的全部集合。

在本发明中，语料是以自然语言文本形式收集到的语言实例集，用符号C表示。一般可以形式化为：C＝t₁，t₂，...，t_N，即语料C可理解为由N个tokens构成的序列。

下述内容为语料示例：

“Shanxi University，established in 1902，is in Taiyuan，the capital ofShanxi province，which has a history of 2,500 years.The school itself can betraced back to Sanli College，of the Ming Dynasty(1368-1644)，and JinyangCollege and Lingde College，of the Qing Dynasty (1644-1912).In its earlyperiod，the school worked on integrating Chinese culture and Western cultureand the arts and sciences.It had great flexibility in its management andadvanced educational ideas.and was a cradle of higher education in China anda crucial center of culture， science，and education in Shanxi province formore than 100 years......”

词表是在语料中出现的不同词的全部集合，记为 V＝{w₁，w₂，...，w_K}。本发明所提到的词表中的词按照其在语料中出现的次数由大到小排序。|V|表示词表的大小。

使用公开的English Wikipedia语料。选取了该语料中出现次数最多的前30000个词构成词表V。

S120：设定窗口值L，统计由词表V中的所有词对<w_i，w_j>在语料中的共现频次X_ij，并计算每一词对<w_i，w_j>的共现频次X_ij的降序值。

对于语料中的某个词t_i，t_i-L，t_i-L+1，...，t_i+L-1，t_i+L构成的序列为词t_i大小为L的窗口。

词对是词表中任意两个词的组合，记为<w_i，w_j>，其中w_i，w_j∈V。

一个|V|*|V|大小的矩阵，记为X。矩阵X中的元素X_ij表示词对 <w_i，w_j>在语料中的共现频次。|X|表示所有X矩阵中非零的元素X_ij的个数。词对共现频次X_ij的计算方法为<w_i，w_j>在窗口大小L内共同出现的次数以及w_i与w_j的相对位置的加权和。

这里，r_ij表示词对<w_i，w_j>的共现频次X_ij的降序值，即将所有X_ij按照从大到小的次序排列，计算出相应的序值。若X_ij与X_lk的相等，则 <w_i，w_j>和<w_l，w_k>两个词对的序值要相应加1顺延。例如，若有10对词的频次相同，则相应的序值为r_ij，r_ij+1，r_ij+2，...，r_ij+9。

设置窗口值L＝10，即对于语料中的任意一个词，选取出现在该词左右的各10个词进行共现统计，一共得到|X|＝218571590个非零的共现频次的数据。

S130：计算幂指数参数β，计算公式如公式1；

r_ij表示词对<w_i，w_j>的共现频次X_ij的降序值，即将所有X_ij按照从大到小的次序排列，计算出相应的序值，|X|表示非零的共现频次的个数。

代入前述数值求解β，其值为0.849。

S140：使用(logX_ij)^β代替GloVe模型中的logX_ij，学习得到每个低维词表征向量v_i，以及|V|*d大小的词表征矩阵。

其中v_i和

分别表示词对<w_i，w_j)中w_i和w_j的低维词表征，b_i和

为v_i和

对应的偏置项，f(X_ij)为加权函数，根据词对的共同频次对目标函数中的每一求和项进行加权。

低维词表征向量是词w_i的d维表示向量，记为v_i。词表V中所有词表征向量构成|V|*d大小的表征矩阵，矩阵中的第i行的d维实值向量为词表中第i个词对应的低维词表征。

设置目标函数中的向量维度为300，使用AdaGrad方法对其优化，初始学习率设置为0.05，当连续两次迭代的目标函数的差值小于阈值10e-5时，停止训练，此时学习得到的向量即为低维词表征。

表1为通过上述方法学习得到的低维词表征在两个任务上的实验结果，第2列为word analogy任务上以准确率为指标的测试结果，第3列到第7列为在五个不同的wordsimilarity任务的测试数据集上的以Spearman相关系数为指标的测试结果。

表1本发明的低维词表征在word analogy和word similarity任务上的测试结果

测试结果显示，在word analogy任务上，本发明得到的低维词表征比原GloVe方法的准确率要高0.42个百分点，且在卡方检验下是显著的；在word similarity任务上，本发明的方法在五个数据集上的测试结果都比原GloVe方法要高。

另外，实验结果也显示，使用本发明提供的方法，只需要迭代 26次即可停止，而使用原GloVe方法，则需要54次迭代才可以停止，因而，本发明的方法训练速度更快。

区别于现有技术，本发明对给定的语料，统计出设定窗口内词对的共现频次，通过对共现频次的对数值进行适当的幂次变换，根据语料自适应地优选幂次变换中的幂指数参数值，先将词对共现频次的分布校正为Zipf分布，再通过GloVe模型学习得到低维的词表征向量，实验证明得到的词表征有更高的精度。通过本发明，可以生成精度更高的低维词表征。

以上仅为本发明的实施方式，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于频次分布校正的低维词表征学习方法，其特征在于，包括：

根据给定的语料C，生成词表V；其中，词表V是语料C中出现的不同词的全部集合；

设定窗口值L，统计由词表V中的所有词对<w_i，w_j>在语料中的共现频次X_ij，并计算每一词对<w_i，w_j>的共现频次X_ij的降序值；

计算幂指数参数β，计算公式如公式(1)；

使用(logX_ij)^β代替GloVe模型中的logX_ij，得到目标函数如公式(2)所示；

其中v_i和

分别表示词对<w_i，w_j>中w_i和w_j的低维词表征，b_i和

为v_i和

对应的偏置项，f(X_ij)为加权函数，根据词对的共现频次对目标函数中的每一求和项进行加权；

学习得到每个低维词表征向量v_i，以及|V|*d大小的词表征矩阵，其中，|V|表示词表的大小，d表示词表中的词对应的低维词表征在词表征矩阵中的实值向量的维度。