CN112131864A

CN112131864A - 一种基于自注意机制的中文词向量训练方法

Info

Publication number: CN112131864A
Application number: CN202010945224.5A
Authority: CN
Inventors: 雷沁欣; 程帆; 张冬梅
Original assignee: Shanghai Jiao Tong University
Current assignee: Shanghai Jiao Tong University
Priority date: 2020-09-10
Filing date: 2020-09-10
Publication date: 2020-12-25

Abstract

本发明涉及一种基于自注意机制的中文词向量训练方法，包括以下步骤：S1：获取中文词向量训练语料并进行预处理；S2：基于CBOW算法分别训练中文词向量、字向量、拼音向量及字组件向量得到初始词向量w_i、初始字向量z_i、初始拼音向量p_i和初始字组件向量s_i；S3：以初始上下文词向量、初始上下文字向量、初始上下文拼音向量和初始上下文字组件向量作为输入，在CBOW算法基础上引入自注意机制进一步训练得到联合字、词、拼音的中文词向量。与现有技术相比，本发明具有准确度、高效性等优点。

Description

一种基于自注意机制的中文词向量训练方法

技术领域

本发明涉及自然语言处理领域，尤其是涉及一种基于自注意机制的中文词向量训练方法。

背景技术

词向量在自然语言处理各类任务中有着非常重要的作用，是自然语言处理领域的基础，其好坏直接影响着各种自然语言处理任务完成的效果。英文词向量的研究发展比较早，产生了很多重要的模型，例如Bengio模型、word2vec模型、fasttext模型。中文词向量的研究起步较晚，目前大部分中文词向量的研究都是在已有的英文词向量模型上进行的，且中文词向量的研究主要集中在如何利用中文词语内部的语义信息这一方面。

Word2vec是目前非常有效的训练词向量的模型，其由两个重要模型CBOW和Skip-gram组成。其中，CBOW是主要基于上下文词语来预测中心词的模型，CBOW模型首先对当前中心词所对应的上下文词利用词袋模型进行表示，并将其作为模型的输入，将所有的上下文词用词袋模型表示的one-hot向量分别乘以共享的权重矩阵W，然后将得到的向量相加求出平均作为隐藏向量，隐藏向量乘以输出权重矩阵可以得到输出向量，其应用Huffman编码来表示需要训练的代价函数，然后采用随机梯度下降的优化方法对代价函数进行训练。目前，主流的中文词向量的训练也主要使用CBOW模型来进行，但是目前CBOW模型的最大的一个限制是，它在进行预测时上下文词的权重等同视之，效率低下，因为有些词比其他词具有更高的预测价值。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于自注意机制的中文词向量训练方法。

本发明的目的可以通过以下技术方案来实现：

一种基于自注意机制的中文词向量训练方法，包括以下步骤：

S1：获取中文词向量训练语料并进行预处理；

S2：基于CBOW算法分别训练中文词向量、字向量、拼音向量及字组件向量得到初始词向量w_i、初始字向量z_i、初始拼音向量p_i和初始字组件向量s_i；

S3：以初始上下文词向量、初始上下文字向量、初始上下文拼音向量和初始上下文字组件向量作为输入，在CBOW算法基础上引入自注意机制进一步训练得到联合字、词、拼音的中文词向量。

所述的步骤S1具体包括以下步骤：

S11：获取中文维基百科语料作为中文词向量训练语料；

S12：对中文词向量训练语料进行简繁转换，并去除非中文词；

S13：进行分词处理和分字处理。

所述的步骤S2具体包括以下步骤：

S21：利用CBOW算法进行词向量训练得到初始词向量w_i；

S22：对于分字处理后的语料采用CBOW算法进行字向量训练得到初始字向量z_i；

S23：对于字拼音表和组件表采用CBOW算法进行字向量训练得到初始拼音向量p_i和初始字组件向量s_i。

所述的步骤S3中，引入自注意机制的改进CBOW算法的损失函数L(w_i)为：

其中，w_i为目标词，下标i表示序号，

为条件概率，

分别为目标词w_i和w_j的输出词向量，N表示整个词表的大小，

表示引入自注意机制处理后的上下文向量，k表示向量类别序号，

分别为引入自注意机制处理后的上下文词向量、上下文字向量、上下文拼音向量和上下文字组件向量。

所述的引入自注意机制处理后的上下文向量

的计算式为：

其中，

为采用键矩阵K和查询矩阵Q获得的注意力权重，

表示输入的初始上下文向量，

为键矩阵K的中心列向量，

为查询矩阵Q中的元素，b为上下文范围限值。

引入自注意机制的改进CBOW算法共享上下文词嵌入矩阵和掩码词嵌入矩阵之间的权重。

该方法还包括以下步骤：

S4：在词相似性任务以及类比推理任务上对训练得到的中文词向量进行评价测试。

所述的步骤S4具体包括以下步骤：

S41：进行词语相关性评估，在中文词汇相似性数据集wordsim-240和wordsim-296上，计算人类标记分数与词向量的内积之间的Spearman correlation(ρ)；

S42：进行单词类比任务测试，评估训练得到的词向量在单词类比任务上的准确率。

与现有技术相比，本发明具有以下优点：

一、现有的CBOW模型一个限制是在进行预测时上下文词的权重等同视之，这是低效的，因为有些词比其他词具有更高的预测价值，本发明通过引入注意词嵌入(AWE)模型来解决这种低效问题，将注意机制集成到Word2vec的CBOW模型中，利用注意机制，上下文向量不是一个简单和，而是上下文词向量嵌入的加权和，这样可以得到可以更为准确、合理的中文词向量。

二、在本发明中，基于自注意机制的中文词向量训练模型共享上下文词嵌入矩阵和掩码词嵌入矩阵之间的权重，这样模型的可解释性更强，且参数量相比与普通的CBOW模型少得多，效率更高。

三、本发明从汉字的字形和读音两个方面来进行中文词向量的改进，训练中文词向量的过程中利用了中文词语内部的语义信息，在一定程度上解决了利用中小型语料库生成的词向量泛化能力较差这一缺点。

附图说明

图1为本发明的流程示意图。

图2为本发明的模型架构图。

图3为本发明的具体实施过程。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

实施例

如图1所示，本发明提供一种基于自注意机制的中文词向量训练方法，包括以下步骤：

1)获取中文词向量训练语料，进行预处理；

2)基于CBOW算法分别训练中文词向量、字向量、拼音向量及字组件向量；

3)在CBOW算法基础上引入自注意机制进一步训练得到联合字、词、拼音的中文词向量；

4)在词相似性任务以及类比推理任务上对训练得到的中文词向量进行评价测试。

各步骤具体过程如下：

步骤1)获取中文词向量训练语料，进行预处理，具体包括：

11)从wiki官网下载中文语料，下载完成后会得到命名为zhwiki-latest-pages-articles.xml.bz2的文件，整个语料多数来自于港澳台地区的文章，所以大部分都是繁体字，需要进行简繁转换，在本实施例中，主要使用OpenCC工具进行简繁转换；

12)现在汉语文章，无论是新闻还是百科语料中都会出现大量的非中文词，特殊的一些记号，还有文章必要的标点符号等，这部分也需要进行处理，在本实施例中，使用re正则表达式处理库进行处理；

13)将语料进行分词处理、分字处理，这里主要使用jieba分词进行分词处理，而字的组件信息、拼音信息均从HTTPCN网站进行爬取。

步骤2)基于CBOW算法分别训练中文词向量、字向量、拼音向量及字组件向量，具体包括：

21)利用CBOW算法进行词向量训练得到初始词向量w_i，本实施例主要使用gensim库自带的cbow算法进行词向量的训练；

22)在已经进行分字处理的语料上利用CBOW算法进行字向量训练得到初始字向量z_i，训练方法和词向量训练方法一致；

23)采用同样的方法，在字拼音表和组件表的基础上利用CBOW算法进行字向量训练得到初始拼音向量p_i和字组件向量s_i。

步骤3)在CBOW算法基础上引入自注意机制进一步训练得到联合字、词、拼音的中文词向量，其中，引入自注意机制的CBOW算法的损失函数为：

其中，w_i代表目标词，

分别代表上下文词向量、上下文字向量、上下文拼音向量、上下文字组件向量，

表示目标词w_i的输出词向量，N表示整个词表的大小。

而利用自注意机制改进的CBOW模型计算的上下文向量具体计算方式为：

其中，

为使用键矩阵K和查询矩阵Q计算的每个上下文向量

的注意力权重：

利用自注意机制改进的CBOW模型共享上下文词嵌入矩阵和掩码词嵌入矩阵之间的权重，掩码词w₀在上下文{w_-b，...，w_-1，w₁，...，w_b}中出现的概率为：

本实施例此处模型主要采用Pytorch实现，具体的模型架构如图2所示。

步骤4)在词相似性任务以及类比推理任务上对训练得到的中文词向量进行评价测试，具体包括：

41)进行词语相关性评估，在中文词汇相似性数据集wordsim-240和wordsim-296(英语相关资源的翻译)上，计算人类标记分数与词向量的內积之间的Spearmancorrelation(ρ)；

42)进行单词类比任务测试，评估训练得到的词向量在单词类比任务上的准确率，实验证明，本发明的准确率得到了提高。

本发明通过引入注意词嵌入模型，将自注意机制集成到Word2vec的CBOW模型中，联合字、词、拼音等特征训练中文词向量，在词相似性任务以及类比推理任务上取得了较高的准确率。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的工作人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于自注意机制的中文词向量训练方法，其特征在于，包括以下步骤：

S1：获取中文词向量训练语料并进行预处理；

2.根据权利要求1所述的一种基于自注意机制的中文词向量训练方法，其特征在于，所述的步骤S1具体包括以下步骤：

S11：获取中文维基百科语料作为中文词向量训练语料；

S13：进行分词处理和分字处理。

3.根据权利要求2所述的一种基于自注意机制的中文词向量训练方法，其特征在于，所述的步骤S2具体包括以下步骤：

S21：利用CBOW算法进行词向量训练得到初始词向量w_i；

4.根据权利要求3所述的一种基于自注意机制的中文词向量训练方法，其特征在于，所述的步骤S3中，引入自注意机制的改进CBOW算法的损失函数L(w_i)为：

其中，w_i为目标词，下标i表示序号，

为条件概率，

分别为目标词w_i和w_j的输出词向量，N表示整个词表的大小，

5.根据权利要求4所述的一种基于自注意机制的中文词向量训练方法，其特征在于，所述的引入自注意机制处理后的上下文向量

的计算式为：

其中，

为采用键矩阵K和查询矩阵Q获得的注意力权重，

表示输入的初始上下文向量，

为键矩阵K的中心列向量，

为查询矩阵Q中的元素，b为上下文范围限值。

6.根据权利要求5所述的一种基于自注意机制的中文词向量训练方法，其特征在于，引入自注意机制的改进CBOW算法共享上下文词嵌入矩阵和掩码词嵌入矩阵之间的权重。

7.根据权利要求1所述的一种基于自注意机制的中文词向量训练方法，其特征在于，该方法还包括以下步骤：

8.根据权利要求7所述的一种基于自注意机制的中文词向量训练方法，其特征在于，所述的步骤S4具体包括以下步骤：

S41：进行词语相关性评估，在中文词汇相似性数据集wordsim-240和wordsim-296上，计算人类标记分数与词向量的內积之间的Spearman correlation(ρ)；