CN108733647B

CN108733647B - 一种基于高斯分布的词向量生成方法

Info

Publication number: CN108733647B
Application number: CN201810331000.8A
Authority: CN
Inventors: 沈鸿; 曹渝
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2018-04-13
Filing date: 2018-04-13
Publication date: 2022-03-25
Anticipated expiration: 2038-04-13
Also published as: CN108733647A

Abstract

本发明公开了一种基于高斯分布的词向量生成方法，首先对语料库进行预处理；其次使用标点符号对语料库划分上下文；然后结合局部和全局信息推断词义，确定词与词义的映射关系；最后通过优化目标函数获得词向量。本发明技术方案的创新点和有益效果在于：1、基于高斯分布来表示词，避免传统词向量的点估计特性，能为词向量带来概率质量，词义蕴含、包含关系等更为丰富的信息。2、使用多个高斯分布来表示词，能够应对自然语言中一词多义的语言特性。3、基于Hellinger距离定义高斯分布之间的相似性，将参数更新和词义判别结合起来，能够自适应地推断词义的数量，解决了现有技术模型的假定词义数量固定的问题。

Description

一种基于高斯分布的词向量生成方法

技术领域

本发明涉及自然语言处理领域，具体涉及了一种基于高斯分布的词向量生成方法。

背景技术

词向量是自然语言处理(Natural Language Processing,NLP)中针对词进行数学建模的方法。最早的词向量表示法是独热码(One-Hot)，独热码将每个词表示为一个高维的向量，向量中为1的位置即是该词在字典中的索引。独热码具有维度高，稀疏，语义和语法信息被忽略等缺点。随着深度学习的发展，出现了利用神经网络来训练词向量的方法。基于神经网络的词向量模型针对词的共现(co–occurrence)情况，捕获上下文的语法和语义信息，将词表示为低维度，稠密的实值向量。词向量常作为特征被广泛应用于文本分类，命名实体识别，机器翻译等NLP任务，以帮助提升实际的NLP任务效果。

目前，主要的词向量模型都将词嵌入到欧几里得空间(Euclidean space)，使用欧式空间的向量来表示词。比较流行的工具包，如文献[1]和[2]中的Word2Vec模型，文献[3]中的Glove模型都是基于这种思路。尽管将词映射到欧式空间能够捕获上下文中的语义和语法信息，但是这种思路不能捕获词向量在空间中的概率分布等不确定性信息。

现有的多义词向量模型都基于点估计的词向量模型扩展而来。Liu等人在文献[4]中，假定每个词都有k个词义，然后利用潜在的主题模型LDA推断词的主题，然后针对主题-词对共同训练获得包含主题信息的词向量。Chen等人在文献[5]中先使用word2vec进行语料的预训练，在此基础上利用WordNet(英文词汇数据库)推断特定上下文中的词义。现有的模型都假定词义数量固定，这明显不符合不同词拥有的词义数量不同的自然语言特性。

[1]Mikolov T,Chen K,Corrado G,et al.Efficient Estimation of WordRepresentations in Vector Space[J].Computer Science,2013.

[2]Mikolov T,Sutskever I,Chen K,et al.Distributed representations ofwords and phrases and their compositionality[C].International Conference onNeural Information Processing Systems.Curran Associates Inc.2013:3111-3119.

[3]Pennington J,Socher R,Manning C.Glove:Global Vectors for WordRepresentation[C].Conference onEmpirical Methods in Natural LanguageProcessing.2014:1532-1543.

[4]Liu Y,Liu Z,Chua T S,et al.Topical word embeddings[C].Twenty-NinthAAAI Conference on Artificial Intelligence.AAAI Press,2015:2418-2424.

[5]Chen X,Liu Z,Sun M.A Unified Model for Word Sense Representationand Disambiguation[C].Conference on Empirical Methods in Natural LanguageProcessing.2014:1025-1035.

发明内容

本发明目的在于克服现有技术的缺点与不足，提供了一种基于高斯分布的词向量生成方法，该方法使用高斯分布来表示词，以克服传统词向量模型基于点估计不能表示概率分布的不足，同时解决了现有技术模型假定词义数量固定的问题。

为实现上述目的，本发明采用的技术方案如下：

一种基于高斯分布的词向量生成方法，首先对语料库进行预处理；其次利用标点符号将语料库划分为上下文；然后结合局部和全局信息推断词义，确定词与词义的映射关系；最后通过优化目标函数获得词向量。

具体地，本发明基于高斯分布的词向量生成方法采用以下步骤实现：

S1、获取训练语料库，并对语料库进行预处理；

S2、基于语料库中词语的出现频率，构建包含词，词索引和词频率的词典；

S3、根据标点符号切割语料库，把语料划分为上下文，形成训练集；

S4、基于局部上下文信息和全局统计信息，进行词义推断，确定词与词义的映射关系；

S5、采用负采样和自适应的随机梯度下降方法在训练集上优化目标函数，最后获得词向量，优化的目标函数定义为：

L_θ(w，c，c′)＝max(0，m-log E_θ(w，c)+log E_θ(w，c′))

其中m为超参数，其数值为1，w为当前窗口的中心词，c为正样本，c’为负样本。

进一步地，所述步骤S1中对语料库进行预处理具体方式为：去掉停用词和低频词，还原词性，转换大小写，构成有效的语料库。

作为本发明的一种改进，所述步骤S4：基于局部上下文信息和全局统计信息，进行词义推断，确定词与词义的映射关系；包括以下子步骤：

S41、基于Hellinger距离定义高斯分布之间的相似性，高斯分布之间的相似性为：

S42、计算特定词义与其上下文中的平均相似性，作为该特定词义的局部信息；

特定词义与其上下文中的平均相似性为：

C_t表示词w_t的上下文{w_t-n，...，w_t-1，w_t+1，...，w_t+n}，k表示w_t的第k个特定词义，k∈{1，...，K}，n是上下文的长度，μ，σ分别表示高斯分布的均值向量和方差矩阵；

则特定词的局部信息I1为：

I_l＝{AvgSim(s₁，C_t)，...，AvgSim(s_k，C_t)，...，AvgSim(s_K，C_t)}；

S43、统计词义出现的全局信息I_g，即词义的流行度作为该特定词义的全局信息，I_g＝{N₁，N₂，...，N_k，...，N_K-1，N_K}，N_k表示第k个特定词义已经出现的频数；

S44、结合局部信息I₁和全局信息I_g，通过随机采样推断上下文中的词的词义，建立词与词义的映射关系，随机采样的概率分布为：

γ表示生成新词义的趋势大小。

与现有技术相比，本发明技术方案的创新点和有益效果在于：

1、基于高斯分布来表示词，避免传统词向量的点估计特性，能为词向量带来概率质量，词义蕴含、包含关系等更为丰富的信息。

2、使用多个高斯分布来表示词，能够应对自然语言中一词多义的语言特性。

3、基于Hellinger距离定义高斯分布之间的相似性，将参数更新和词义判别结合起来，能够自适应地推断词义的数量，解决了现有技术模型假定词义数量为固定的问题。

本发明的应用前景有：

1、应用于海量文本的并行分类中，使用基于词向量的支持向量机可以快速地对文本进行分类，而且由于其富含语义信息，往往能够达到更好的分类效果。

2、应用于海量文本的聚类处理中，利用词向量能够有效地进行大规模数据的快速划分，减少并行文本分析中的计算量和通信量，适合部署到高性能计算集群中，从而加速文本聚类过程。

3、应用于海量异构数据的分布式文本挖掘中，基于CUDA能高效地训练高斯词向量模型。并且在高性能分布挖掘中，高斯词向量能够快速融合异构数据，识别文本大数据的语义关系，发掘大规模文本中的潜在信息。

附图说明

图1为本发明基于高斯分布的词向量生成方法的流程图；

图2为本发明基于高斯分布的词向量生成方法的应用示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部内容。

实施例

本发明提供了一种基于高斯分布的词向量生成方法，其首先对语料库进行预处理；其次利用标点符号将语料库划分为上下文；然后结合局部和全局信息推断词义，确定词与词义的映射关系；最后通过优化目标函数获得词向量。下面结合附图，利用具体实施方法对本发明具体过程进行详细描述。

请参考图1，一种基于高斯分布的词向量生成方法，包括以下步骤：

S1、获取训练语料库，并对语料库进行预处理；其中对语料库进行预处理具体方式为：去掉停用词和低频词，还原词性，转换大小写，构成有效的语料库；另外，语料库预处理使用python的spacy工具包进行，低频词是指整个词典中词频数小于某一阈值的词，该阈值一般设置为100，停用词是指常见的代词和介词等几乎不包含语义和语法信息的词，还原词性是指去掉词的复数形式，时态语态的过程。

S2、基于语料库中词语的出现频率，构建包含词，词索引和词频率的词典。

S3、根据标点符号切割语料库，把语料划分为上下文，形成训练集；其中，标点符号是指“。”“.”"？""！"等比较能完整分割语义的标点。

S4、基于局部上下文信息和全局统计信息，进行词义推断，确定词与词义的映射关系；具体地，

所述步骤S4：基于局部上下文信息和全局统计信息，进行词义推断，确定词与词义的映射关系；包括以下子步骤：

特定词义与其上下文中的平均相似性为：

则特定词的局部信息I₁为：

γ表示生成新词义的趋势大小。

在本发明方法中，基于高斯分布来表示词，可以避免传统词向量的点估计特性，能为词向量带来概率质量，词义蕴含、包含关系等更为丰富的信息；同时使用多个高斯分布来表示词，能够应对自然语言中一词多义的语言特性；而且基于Hellinger距离定义高斯分布之间的相似性，将参数更新和词义判别结合起来，能够自适应地推断词义的数量，解决了现有技术模型的假定词义数量为固定的，与不同词拥有的词义数量不同不符的问题。

L_θ(w，c，C′)＝max(0，m-log E_θ(w，c)+log E_θ(w，c′))

请参考图2，图2为通过本发明所得的词向量进行主成分分析投影到二维空间的效果图，说明基于多高斯的词向量模型能够捕获词的多义信息。如bank一词，有银行的意思，也有河提的意思。如果使用单高斯建模，那么其均值将会被强行拉到两个意思的中间，且方差较大。如果使用多高斯建模，则会有两个峰值，每个峰表示不同的意思，且每个独立的峰的方差较小。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于高斯分布的词向量生成方法，其特征在于：首先对语料库进行预处理；其次利用标点符号将语料库划分为上下文；然后结合局部和全局信息推断词义，确定词与词义的映射关系；最后通过优化目标函数获得词向量；

所述的基于高斯分布的词向量生成方法包括以下步骤：

S1、获取训练语料库，并对语料库进行预处理；

L_θ(w，c，c′)＝max(0，m-logE_θ(w，c)+logE_θ(w，c′))

2.根据权利要求1所述的基于高斯分布的词向量生成方法，其特征在于：所述步骤S1中对语料库进行预处理具体方式为：去掉停用词和低频词，还原词性，转换大小写，构成有效的语料库。

3.根据权利要求2所述的基于高斯分布的词向量生成方法，其特征在于：所述步骤S4：基于局部上下文信息和全局统计信息，进行词义推断，确定词与词义的映射关系；包括以下子步骤：

特定词义与其上下文中的平均相似性为：

C_t表示词w_t的上下文{w_t-n，...，w_t-1，w_t+1，...，w_t+n}，k表示w_t的第k个特定词义，k∈{1，...，K}，n是上下文的长度，μ，σ分别表示高斯分布的均值向量和方差矩阵；则特定词的局部信息I₁为：

S44、结合局部信息I_l和全局信息I_g，通过随机采样推断上下文中的词的词义，建立词与词义的映射关系，随机采样的概率分布为：

γ表示生成新词义的趋势大小。