CN105930318A

CN105930318A - 一种词向量训练方法及系统

Info

Publication number: CN105930318A
Application number: CN201610218878.1A
Authority: CN
Inventors: 傅向华; 李晶
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2016-04-11
Filing date: 2016-04-11
Publication date: 2016-09-07
Anticipated expiration: 2036-04-11
Also published as: CN105930318B

Abstract

本发明适用计算机技术领域，提供了一种词向量训练方法及系统，在该方法中，对训练样本文档中每个训练目标词执行词向量训练步骤时，获取训练目标词在训练样本文档中上下文窗口内的窗口词，使用Skip‑gram模型预测每个窗口词的出现概率，更新窗口词在词向量库中对应的词向量和Huffman树中训练目标词对应编码路径中每一个非叶子节点对应的中间向量，通过预设的公式更新训练样本文档的全局文本向量，并计算CBOW模型的递增式局部输入向量，进而计算CBOW模型的混合拼接向量，将混合拼接向量设置为CBOW模型投影层的输入，使用CBOW模型预测训练目标词的出现概率，最后更新训练目标词的词向量和Huffman树中每一个非叶子节点对应的中间向量，提高了训练目标词词向量的准确度。

Description

一种词向量训练方法及系统

技术领域

本发明属于计算机技术领域，尤其涉及一种词向量训练方法及系统。

背景技术

近年来，词向量已经成为自然语言处理领域中一种非常流行的工具，传统的文本处理方法一般以词为基本特征，将词表示为二进制编码的词向量，使用这种表示方式的词向量不仅容易产生特征稀疏性问题，而且任意两个词之间相互独立，无法正确捕捉到隐含在词语之间的语义及词法关联。为了解决这一问题，分布式词向量应运而生。分布式词向量将词语表示为一个浓密的、低维的实值向量，每一维代表词语的一个特征属性，各词向量之间只需进行简单的余弦计算即可挖掘出词语间的各种关联，过程简单方便，易于实现。

因此，如何有效获取高质量的词向量一直是自然语言处理及文本挖掘中的一个重要课题。谷歌(Google)公司提出了一款开源工具word2vec，该工具提供的词向量训练模型具有结构简单、训练速度快、能处理大规模语料等优点，深受广大研究者的喜爱。然而，该工具提供的模型不能同时兼顾上下文局部语境、全局语境和词语之间的语序关系，导致词向量训练的准确度不高。

发明内容

本发明的目的在于提供一种词向量训练方法及系统，旨在解决由于现有技术无法提供一种有效的词向量训练方法，导致词向量训练准确度不高的问题。

一方面，本发明提供了一种词向量训练方法，所述方法包括下述步骤：

预先构建包括训练目标词的词典，对所述训练目标词的词向量和所述Huffman树中的所有非叶子节点对应的中间向量进行初始化，所述训练目标词的词向量形成一词向量库；

对预设的训练样本文档进行扫描，对扫描到的每个所述训练目标词执行预设的词向量训练步骤，以得到每个训练目标词的词向量；

所述词向量训练步骤包括：

获取所述训练目标词在所述训练样本文档中上下文窗口内的窗口词，使用Skip-gram模型预测每个所述窗口词的出现概率，更新所述窗口词在所述词向量库中对应的词向量和所述Huffman树中所述训练目标词对应编码路径中每一个非叶子节点对应的中间向量；

根据更新后的所述窗口词的词向量，通过预设的公式更新所述训练样本文档的全局文本向量，并计算CBOW模型的递增式局部输入向量；

根据所述更新后的全局文本向量和所述递增式局部输入向量，计算所述CBOW模型的混合拼接向量，将所述混合拼接向量设置为所述CBOW模型投影层的输入；

使用所述CBOW模型预测所述训练目标词的出现概率，更新所述训练目标词的词向量和所述Huffman树中每一个非叶子节点对应的中间向量。

另一方面，本发明提供了一种词向量训练系统，所述系统包括：

向量初始化单元，用于预先构建包括训练目标词的词典，对所述训练目标词的词向量和所述Huffman树中的所有非叶子节点对应的中间向量进行初始化，所述训练目标词的词向量形成一词向量库；以及

词向量训练单元，用于对预设的训练样本文档进行扫描，对扫描到的每个所述训练目标词执行预设的词向量训练步骤，以得到每个训练目标词的词向量；

所述词向量训练单元包括：

第一向量更新单元，用于获取所述训练目标词在所述训练样本文档中上下文窗口内的窗口词，使用Skip-gram模型预测每个所述窗口词的出现概率，更新所述窗口词在所述词向量库中对应的词向量和所述Huffman树中所述训练目标词对应编码路径中每一个非叶子节点对应的中间向量；

向量计算单元，用于根据更新后的所述窗口词的词向量，通过预设的公式更新所述训练样本文档的全局文本向量，并计算CBOW模型的递增式局部输入向量；

输入设置单元，用于根据所述更新后的全局文本向量和所述递增式局部输入向量，计算所述CBOW模型的混合拼接向量，将所述混合拼接向量设置为所述CBOW模型投影层的输入；以及

第二向量更新单元，用于使用所述CBOW模型预测所述训练目标词的出现概率，更新所述训练目标词的词向量和所述Huffman树中每一个非叶子节点对应的中间向量。

在本发明实施例中，在对词向量进行训练时，使用Skip-gram模型预测上下文窗口内每个窗口词的出现概率，更新窗口词在词向量库中对应的词向量和Huffman树中训练目标词对应编码路径中每一个非叶子节点对应的中间向量，根据更新后的全局文本向量和计算得到的递增式局部输入向量计算CBOW模型的混合拼接向量，将混合拼接向量设置为CBOW模型投影层的输入，从而结合训练目标词的上下文局部语境、全局语境和词语之间的语序关系对训练目标词的词向量进行训练，提高了词向量的训练准确度。

附图说明

图1是本发明实施例一提供的词向量训练方法的实现流程图；

图2是本发明实施例一提供的词向量训练方法的实现流程图；

图3是本发明实施例二提供的词向量训练系统的结构示意图；以及

图4是本发明实施例二提供的词向量训练系统的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

以下结合具体实施例对本发明的具体实现进行详细描述：

实施例一：

图1示出了本发明实施例一提供的词向量训练方法的实现流程，为了便于说明，仅示出了与本发明实施例相关的部分，详述如下：

在步骤S101中，预先构建包括训练目标词的词典，对训练目标词的词向量和Huffman树中的所有非叶子节点对应的中间向量进行初始化，训练目标词的词向量形成一词向量库。

在本发明实施例中，可预先构建包括训练目标词的词典，具体地，可对涉及某一类型或科目的文本进行分词、去停用词、去高低频词，从而构造出对应的词典。优选地，可使用中科院的ICTCLAS2015分词系统，该分词系统具有新词发现、关键词提取等功能，并支持用户自定义词典导入。另外，还需要为词典中的训练目标词构建词向量和对应的Huffman树。在构建Huffman树时，可根据词频大小进行构建，词典中所有词的词频都位于树中的叶子节点处，每个叶子节点和非叶子节点都唯一地对应一个向量。

优选地，对训练目标词的词向量进行初始化时，可引入外部样本集或常识知识库对词典中每个训练目标词进行预训练，以对词典中每个训练目标词的词向量进行初始化，从而得到为每个训练目标词提供比较精确的初始化值，以提高词向量训练的速度。优选地，常识知识库采用Wordnet或Hownet知识库。

在步骤S102中，对预设的训练样本文档进行扫描，对扫描到的每个训练目标词执行预设的词向量训练步骤，以得到每个训练目标词的词向量。

在本发明实施例中，在对构建好的词典中的训练目标词进行训练时，需要提供大量的训练样本文档，在具体实施过程中，可根据系统对词向量准确度的要求输入对应数量的训练样本文档，以在保证词向量准确度的前提下，提高词向量的训练速度。

优选地，在本发明实施例中，如图2所示，通过图示步骤对扫描到的每个训练目标词执行预设的词向量训练步骤。

在步骤S201中，获取训练目标词在训练样本文档中上下文窗口内的窗口词，使用Skip-gram模型预测每个窗口词的出现概率，更新窗口词在词向量库中对应的词向量和Huffman树中训练目标词对应编码路径中每一个非叶子节点对应的中间向量。

在本发明实施例中，应首先设置词向量训练时训练目标词的上下文窗口的大小，优选地，上下文窗口的大小设置为10。之后使用Skip-gram(ContinuousSkip-gramModel)模型依次预测该上下文窗口中每个词语(为了便于描述，将窗口中的词语记为窗口词)的出现概率，进而更新窗口词在词向量库中对应的词向量和Huffman树中训练目标词对应编码路径中每一个非叶子节点对应的中间向量，这样，可以使窗口词和训练目标词之间建立某种语义联系，这种语义联系体现在自然语言的表达中，通过窗口词词向量的各个维度反映出来，并通过训练目标词对应编码路径中各非叶子节点对应的中间向量保存下来，用于下一次训练。

在步骤S202中，根据更新后的窗口词的词向量，通过预设的公式更新训练样本文档的全局文本向量，并计算CBOW模型的递增式局部输入向量。

在本发明实施例中，可通过预设的公式更新训练样本文档的全局文本向量，例如，可先通过词频-逆文档频率(TF-IDF)权重计算方法抽取出能够代表训练样本文档特征的词语，然后将这些词的权重组合在一起构成一个全局文本向量。另外，也可以使用词频或者逆文档频率计算各个词语的权重，然后将各个词的权重组合在一起构成一个全局文本向量。当然，也可以通过其他模型训练得到全局文本向量，如可通过PV-DBOW、PV-DM方法获得。

优选地，可通过公式计算或更新全局文本向量g(C(w))，其中w_i表示训练样本文档中第i个词语，V(w_i)表示词语w_i对应的词向量，K表示训练样本文档中的词语总数，β_i表示词w_i在训练样本文档中的权重，这样，可简化全局文本向量的计算，同时可保证训练的准确率，有助于提高训练速度。

在计算CBOW(Continuous Bag-Of-Words Model，连续词袋模型)模型的递增式局部输入向量时，可通过累加、求平均值、或者向量拼接的方式。优选地，使用拼接方式计算CBOW模型的递增式局部输入向量，从而可保留词语内部顺序。

在步骤S203中，根据更新后的全局文本向量和递增式局部输入向量，计算CBOW模型的混合拼接向量，将混合拼接向量设置为CBOW模型投影层的输入。

在本发明实施例中，根据更新后的全局文本向量和递增式局部输入向量，计算CBOW模型的混合拼接向量。具体地，通过下述方式进行拼接：若向量的维度为d，词w_j的递增式局部输入向量为C(w_j)＝[v₁,v₂,…,v_d],w_j在当前窗口内对应的全局文本向量为g(C(w))＝[v’₁,v’₂,…,v’_d]，则混合拼接向量为[v₁,v₂,…,v_d,v’₁,v’₂,…,v’_d]，该向量维度为2d。在得到CBOW模型的混合拼接向量后，将混合拼接向量设置为CBOW模型投影层的输入，从而可将局部和全局语境结合起来预测训练目标词，并更新训练目标词和其对应路径上的中间节点对应的中间向量，而且使用拼接方式还可以保留词语之间的内部语序关系，使得窗口词和训练目标词之间的语义联系更强，训练得到的词向量表达更加准确。

在步骤S204中，使用CBOW模型预测训练目标词的出现概率，更新训练目标词的词向量和Huffman树中每一个非叶子节点对应的中间向量。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于一计算机可读取存储介质中，所述的存储介质，如ROM/RAM、磁盘、光盘等。

实施例二：

图3示出了本发明实施例二提供的词向量训练系统的结构，为了便于说明，仅示出了与本发明实施例相关的部分，其中包括：

向量初始化单元31，用于预先构建包括训练目标词的词典，对训练目标词的词向量和Huffman树中的所有非叶子节点对应的中间向量进行初始化，训练目标词的词向量形成一词向量库；以及

词向量训练单元32，用于对预设的训练样本文档进行扫描，对扫描到的每个训练目标词执行预设的词向量训练步骤，以得到每个训练目标词的词向量。

优选地，如图4所示，本发明实施例提供的词向量训练系统的词向量训练单元32包括：

第一向量更新单元321，用于获取训练目标词在训练样本文档中上下文窗口内的窗口词，使用Skip-gram模型预测每个窗口词的出现概率，更新窗口词在词向量库中对应的词向量和Huffman树中训练目标词对应编码路径中每一个非叶子节点对应的中间向量；

向量计算单元322，用于根据更新后的窗口词的词向量，通过预设的公式更新训练样本文档的全局文本向量，并计算CBOW模型的递增式局部输入向量；

输入设置单元323，用于根据更新后的全局文本向量和递增式局部输入向量，计算CBOW模型的混合拼接向量，将混合拼接向量设置为CBOW模型投影层的输入；以及

第二向量更新单元324，用于使用CBOW模型预测训练目标词的出现概率，更新训练目标词的词向量和Huffman树中每一个非叶子节点对应的中间向量。

具体地，向量计算单元322可包括更新子单元，用于根据更新后的窗口词的词向量，通过公式更新全局文本向量g(C(w))，其中w_i表示训练样本文档中第i个词语，V(w_i)表示词语w_i对应的词向量，K表示训练样本文档中的词语总数，β_i表示词w_i在训练样本文档中的权重。

具体地，向量初始化单元31可包括第一初始化单元，用于引入外部样本集对词典中每个训练目标词进行预训练，以对词典中每个训练目标词的词向量进行初始化。

具体地，向量初始化单元31也可以包括第二初始化单元，用于引入常识知识库对词典中每个训练目标词进行预训练，以对词典中每个训练目标词的词向量进行初始化。其中，常识知识库为Wordnet或Hownet。

在本发明实施例中，词向量训练系统的各单元可由相应的硬件或软件单元实现，各单元可以为独立的软、硬件单元，也可以集成为一个软、硬件单元，在此不用以限制本发明。各单元的具体实施方式可参考前述实施例的描述，不此不再赘述。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种词向量训练方法，其特征在于，所述方法包括下述步骤：

所述词向量训练步骤包括：

2.如权利要求1所述的方法，其特征在于，根据更新后的所述窗口词的词向量，通过预设的公式更新所述训练样本文档的全局文本向量的步骤，包括：

根据更新后的所述窗口词的词向量，通过公式更新所述全局文本向量g(C(w))，其中所述w_i表示所述训练样本文档中第i个词语，V(w_i)表示词语w_i对应的词向量，K表示所述训练样本文档中的词语总数，β_i表示词w_i在所述训练样本文档中的权重。

3.如权利要求1所述的方法，其特征在于，对所述训练目标词的词向量和所述Huffman树中的所有非叶子节点对应的中间向量进行初始化的步骤，包括：

引入外部样本集对所述词典中每个所述训练目标词进行预训练，以对所述词典中每个所述训练目标词的词向量进行初始化。

4.如权利要求1所述的方法，其特征在于，对所述训练目标词的词向量和所述Huffman树中的所有非叶子节点对应的中间向量进行初始化的步骤，包括：

引入常识知识库对所述词典中每个所述训练目标词进行预训练，以对所述词典中每个所述训练目标词的词向量进行初始化。

5.如权利要求4所述的方法，其特征在于，所述常识知识库为Wordnet或Hownet。

6.一种词向量训练系统，其特征在于，所述系统包括：

所述词向量训练单元包括：

7.如权利要求6所述的系统，其特征在于，所述向量计算单元包括：

更新子单元，用于根据更新后的所述窗口词的词向量，通过公式更新所述全局文本向量g(C(w))，其中所述w_i表示所述训练样本文档中第i个词语，V(w_i)表示词语w_i对应的词向量，K表示所述训练样本文档中的词语总数，β_i表示词w_i在所述训练样本文档中的权重。

8.如权利要求6所述的系统，其特征在于，所述向量初始化单元包括：

第一初始化单元，用于引入外部样本集对所述词典中每个所述训练目标词进行预训练，以对所述词典中每个所述训练目标词的词向量进行初始化。

9.如权利要求6所述的系统，其特征在于，所述向量初始化单元包括：

第二初始化单元，用于引入常识知识库对所述词典中每个所述训练目标词进行预训练，以对所述词典中每个所述训练目标词的词向量进行初始化。

10.如权利要求9所述的系统，其特征在于，所述常识知识库为Wordnet或Hownet。