CN108733647B - 一种基于高斯分布的词向量生成方法 - Google Patents

一种基于高斯分布的词向量生成方法 Download PDF

Info

Publication number
CN108733647B
CN108733647B CN201810331000.8A CN201810331000A CN108733647B CN 108733647 B CN108733647 B CN 108733647B CN 201810331000 A CN201810331000 A CN 201810331000A CN 108733647 B CN108733647 B CN 108733647B
Authority
CN
China
Prior art keywords
word
words
information
corpus
senses
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201810331000.8A
Other languages
English (en)
Other versions
CN108733647A (zh
Inventor
沈鸿
曹渝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN201810331000.8A priority Critical patent/CN108733647B/zh
Publication of CN108733647A publication Critical patent/CN108733647A/zh
Application granted granted Critical
Publication of CN108733647B publication Critical patent/CN108733647B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于高斯分布的词向量生成方法,首先对语料库进行预处理;其次使用标点符号对语料库划分上下文;然后结合局部和全局信息推断词义,确定词与词义的映射关系;最后通过优化目标函数获得词向量。本发明技术方案的创新点和有益效果在于:1、基于高斯分布来表示词,避免传统词向量的点估计特性,能为词向量带来概率质量,词义蕴含、包含关系等更为丰富的信息。2、使用多个高斯分布来表示词,能够应对自然语言中一词多义的语言特性。3、基于Hellinger距离定义高斯分布之间的相似性,将参数更新和词义判别结合起来,能够自适应地推断词义的数量,解决了现有技术模型的假定词义数量固定的问题。

Description

一种基于高斯分布的词向量生成方法
技术领域
本发明涉及自然语言处理领域,具体涉及了一种基于高斯分布的词向量生成方法。
背景技术
词向量是自然语言处理(Natural Language Processing,NLP)中针对词进行数学建模的方法。最早的词向量表示法是独热码(One-Hot),独热码将每个词表示为一个高维的向量,向量中为1的位置即是该词在字典中的索引。独热码具有维度高,稀疏,语义和语法信息被忽略等缺点。随着深度学习的发展,出现了利用神经网络来训练词向量的方法。基于神经网络的词向量模型针对词的共现(co–occurrence)情况,捕获上下文的语法和语义信息,将词表示为低维度,稠密的实值向量。词向量常作为特征被广泛应用于文本分类,命名实体识别,机器翻译等NLP任务,以帮助提升实际的NLP任务效果。
目前,主要的词向量模型都将词嵌入到欧几里得空间(Euclidean space),使用欧式空间的向量来表示词。比较流行的工具包,如文献[1]和[2]中的Word2Vec模型,文献[3]中的Glove模型都是基于这种思路。尽管将词映射到欧式空间能够捕获上下文中的语义和语法信息,但是这种思路不能捕获词向量在空间中的概率分布等不确定性信息。
现有的多义词向量模型都基于点估计的词向量模型扩展而来。Liu等人在文献[4]中,假定每个词都有k个词义,然后利用潜在的主题模型LDA推断词的主题,然后针对主题-词对共同训练获得包含主题信息的词向量。Chen等人在文献[5]中先使用word2vec进行语料的预训练,在此基础上利用WordNet(英文词汇数据库)推断特定上下文中的词义。现有的模型都假定词义数量固定,这明显不符合不同词拥有的词义数量不同的自然语言特性。
[1]Mikolov T,Chen K,Corrado G,et al.Efficient Estimation of WordRepresentations in Vector Space[J].Computer Science,2013.
[2]Mikolov T,Sutskever I,Chen K,et al.Distributed representations ofwords and phrases and their compositionality[C].International Conference onNeural Information Processing Systems.Curran Associates Inc.2013:3111-3119.
[3]Pennington J,Socher R,Manning C.Glove:Global Vectors for WordRepresentation[C].Conference onEmpirical Methods in Natural LanguageProcessing.2014:1532-1543.
[4]Liu Y,Liu Z,Chua T S,et al.Topical word embeddings[C].Twenty-NinthAAAI Conference on Artificial Intelligence.AAAI Press,2015:2418-2424.
[5]Chen X,Liu Z,Sun M.A Unified Model for Word Sense Representationand Disambiguation[C].Conference on Empirical Methods in Natural LanguageProcessing.2014:1025-1035.
发明内容
本发明目的在于克服现有技术的缺点与不足,提供了一种基于高斯分布的词向量生成方法,该方法使用高斯分布来表示词,以克服传统词向量模型基于点估计不能表示概率分布的不足,同时解决了现有技术模型假定词义数量固定的问题。
为实现上述目的,本发明采用的技术方案如下:
一种基于高斯分布的词向量生成方法,首先对语料库进行预处理;其次利用标点符号将语料库划分为上下文;然后结合局部和全局信息推断词义,确定词与词义的映射关系;最后通过优化目标函数获得词向量。
具体地,本发明基于高斯分布的词向量生成方法采用以下步骤实现:
S1、获取训练语料库,并对语料库进行预处理;
S2、基于语料库中词语的出现频率,构建包含词,词索引和词频率的词典;
S3、根据标点符号切割语料库,把语料划分为上下文,形成训练集;
S4、基于局部上下文信息和全局统计信息,进行词义推断,确定词与词义的映射关系;
S5、采用负采样和自适应的随机梯度下降方法在训练集上优化目标函数,最后获得词向量,优化的目标函数定义为:
Lθ(w,c,c′)=max(0,m-log Eθ(w,c)+log Eθ(w,c′))
其中m为超参数,其数值为1,w为当前窗口的中心词,c为正样本,c’为负样本。
进一步地,所述步骤S1中对语料库进行预处理具体方式为:去掉停用词和低频词,还原词性,转换大小写,构成有效的语料库。
作为本发明的一种改进,所述步骤S4:基于局部上下文信息和全局统计信息,进行词义推断,确定词与词义的映射关系;包括以下子步骤:
S41、基于Hellinger距离定义高斯分布之间的相似性,高斯分布之间的相似性为:
Figure GDA0003468457980000031
S42、计算特定词义与其上下文中的平均相似性,作为该特定词义的局部信息;
特定词义与其上下文中的平均相似性为:
Figure GDA0003468457980000041
Ct表示词wt的上下文{wt-n,...,wt-1,wt+1,...,wt+n},k表示wt的第k个特定词义,k∈{1,...,K},n是上下文的长度,μ,σ分别表示高斯分布的均值向量和方差矩阵;
则特定词的局部信息I1为:
Il={AvgSim(s1,Ct),...,AvgSim(sk,Ct),...,AvgSim(sK,Ct)};
S43、统计词义出现的全局信息Ig,即词义的流行度作为该特定词义的全局信息,Ig={N1,N2,...,Nk,...,NK-1,NK},Nk表示第k个特定词义已经出现的频数;
S44、结合局部信息I1和全局信息Ig,通过随机采样推断上下文中的词的词义,建立词与词义的映射关系,随机采样的概率分布为:
Figure GDA0003468457980000042
γ表示生成新词义的趋势大小。
与现有技术相比,本发明技术方案的创新点和有益效果在于:
1、基于高斯分布来表示词,避免传统词向量的点估计特性,能为词向量带来概率质量,词义蕴含、包含关系等更为丰富的信息。
2、使用多个高斯分布来表示词,能够应对自然语言中一词多义的语言特性。
3、基于Hellinger距离定义高斯分布之间的相似性,将参数更新和词义判别结合起来,能够自适应地推断词义的数量,解决了现有技术模型假定词义数量为固定的问题。
本发明的应用前景有:
1、应用于海量文本的并行分类中,使用基于词向量的支持向量机可以快速地对文本进行分类,而且由于其富含语义信息,往往能够达到更好的分类效果。
2、应用于海量文本的聚类处理中,利用词向量能够有效地进行大规模数据的快速划分,减少并行文本分析中的计算量和通信量,适合部署到高性能计算集群中,从而加速文本聚类过程。
3、应用于海量异构数据的分布式文本挖掘中,基于CUDA能高效地训练高斯词向量模型。并且在高性能分布挖掘中,高斯词向量能够快速融合异构数据,识别文本大数据的语义关系,发掘大规模文本中的潜在信息。
附图说明
图1为本发明基于高斯分布的词向量生成方法的流程图;
图2为本发明基于高斯分布的词向量生成方法的应用示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。
实施例
本发明提供了一种基于高斯分布的词向量生成方法,其首先对语料库进行预处理;其次利用标点符号将语料库划分为上下文;然后结合局部和全局信息推断词义,确定词与词义的映射关系;最后通过优化目标函数获得词向量。下面结合附图,利用具体实施方法对本发明具体过程进行详细描述。
请参考图1,一种基于高斯分布的词向量生成方法,包括以下步骤:
S1、获取训练语料库,并对语料库进行预处理;其中对语料库进行预处理具体方式为:去掉停用词和低频词,还原词性,转换大小写,构成有效的语料库;另外,语料库预处理使用python的spacy工具包进行,低频词是指整个词典中词频数小于某一阈值的词,该阈值一般设置为100,停用词是指常见的代词和介词等几乎不包含语义和语法信息的词,还原词性是指去掉词的复数形式,时态语态的过程。
S2、基于语料库中词语的出现频率,构建包含词,词索引和词频率的词典。
S3、根据标点符号切割语料库,把语料划分为上下文,形成训练集;其中,标点符号是指“。”“.”"?""!"等比较能完整分割语义的标点。
S4、基于局部上下文信息和全局统计信息,进行词义推断,确定词与词义的映射关系;具体地,
所述步骤S4:基于局部上下文信息和全局统计信息,进行词义推断,确定词与词义的映射关系;包括以下子步骤:
S41、基于Hellinger距离定义高斯分布之间的相似性,高斯分布之间的相似性为:
Figure GDA0003468457980000061
S42、计算特定词义与其上下文中的平均相似性,作为该特定词义的局部信息;
特定词义与其上下文中的平均相似性为:
Figure GDA0003468457980000071
Ct表示词wt的上下文{wt-n,...,wt-1,wt+1,...,wt+n},k表示wt的第k个特定词义,k∈{1,...,K},n是上下文的长度,μ,σ分别表示高斯分布的均值向量和方差矩阵;
则特定词的局部信息I1为:
Il={AvgSim(s1,Ct),...,AvgSim(sk,Ct),...,AvgSim(sK,Ct)};
S43、统计词义出现的全局信息Ig,即词义的流行度作为该特定词义的全局信息,Ig={N1,N2,...,Nk,...,NK-1,NK},Nk表示第k个特定词义已经出现的频数;
S44、结合局部信息I1和全局信息Ig,通过随机采样推断上下文中的词的词义,建立词与词义的映射关系,随机采样的概率分布为:
Figure GDA0003468457980000072
γ表示生成新词义的趋势大小。
在本发明方法中,基于高斯分布来表示词,可以避免传统词向量的点估计特性,能为词向量带来概率质量,词义蕴含、包含关系等更为丰富的信息;同时使用多个高斯分布来表示词,能够应对自然语言中一词多义的语言特性;而且基于Hellinger距离定义高斯分布之间的相似性,将参数更新和词义判别结合起来,能够自适应地推断词义的数量,解决了现有技术模型的假定词义数量为固定的,与不同词拥有的词义数量不同不符的问题。
S5、采用负采样和自适应的随机梯度下降方法在训练集上优化目标函数,最后获得词向量,优化的目标函数定义为:
Lθ(w,c,C′)=max(0,m-log Eθ(w,c)+log Eθ(w,c′))
其中m为超参数,其数值为1,w为当前窗口的中心词,c为正样本,c’为负样本。
请参考图2,图2为通过本发明所得的词向量进行主成分分析投影到二维空间的效果图,说明基于多高斯的词向量模型能够捕获词的多义信息。如bank一词,有银行的意思,也有河提的意思。如果使用单高斯建模,那么其均值将会被强行拉到两个意思的中间,且方差较大。如果使用多高斯建模,则会有两个峰值,每个峰表示不同的意思,且每个独立的峰的方差较小。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (3)

1.一种基于高斯分布的词向量生成方法,其特征在于:首先对语料库进行预处理;其次利用标点符号将语料库划分为上下文;然后结合局部和全局信息推断词义,确定词与词义的映射关系;最后通过优化目标函数获得词向量;
所述的基于高斯分布的词向量生成方法包括以下步骤:
S1、获取训练语料库,并对语料库进行预处理;
S2、基于语料库中词语的出现频率,构建包含词,词索引和词频率的词典;
S3、根据标点符号切割语料库,把语料划分为上下文,形成训练集;
S4、基于局部上下文信息和全局统计信息,进行词义推断,确定词与词义的映射关系;
S5、采用负采样和自适应的随机梯度下降方法在训练集上优化目标函数,最后获得词向量,优化的目标函数定义为:
Lθ(w,c,c′)=max(0,m-logEθ(w,c)+logEθ(w,c′))
其中m为超参数,其数值为1,w为当前窗口的中心词,c为正样本,c’为负样本。
2.根据权利要求1所述的基于高斯分布的词向量生成方法,其特征在于:所述步骤S1中对语料库进行预处理具体方式为:去掉停用词和低频词,还原词性,转换大小写,构成有效的语料库。
3.根据权利要求2所述的基于高斯分布的词向量生成方法,其特征在于:所述步骤S4:基于局部上下文信息和全局统计信息,进行词义推断,确定词与词义的映射关系;包括以下子步骤:
S41、基于Hellinger距离定义高斯分布之间的相似性,高斯分布之间的相似性为:
Figure FDA0003468457970000011
Figure FDA0003468457970000021
S42、计算特定词义与其上下文中的平均相似性,作为该特定词义的局部信息;
特定词义与其上下文中的平均相似性为:
Figure FDA0003468457970000022
Ct表示词wt的上下文{wt-n,...,wt-1,wt+1,...,wt+n},k表示wt的第k个特定词义,k∈{1,...,K},n是上下文的长度,μ,σ分别表示高斯分布的均值向量和方差矩阵;则特定词的局部信息I1为:
Il={AvgSim(s1,Ct),...,AvgSim(sk,Ct),...,AvgSim(sK,Ct)};
S43、统计词义出现的全局信息Ig,即词义的流行度作为该特定词义的全局信息,Ig={N1,N2,...,Nk,...,NK-1,NK},Nk表示第k个特定词义已经出现的频数;
S44、结合局部信息Il和全局信息Ig,通过随机采样推断上下文中的词的词义,建立词与词义的映射关系,随机采样的概率分布为:
Figure FDA0003468457970000023
γ表示生成新词义的趋势大小。
CN201810331000.8A 2018-04-13 2018-04-13 一种基于高斯分布的词向量生成方法 Expired - Fee Related CN108733647B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810331000.8A CN108733647B (zh) 2018-04-13 2018-04-13 一种基于高斯分布的词向量生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810331000.8A CN108733647B (zh) 2018-04-13 2018-04-13 一种基于高斯分布的词向量生成方法

Publications (2)

Publication Number Publication Date
CN108733647A CN108733647A (zh) 2018-11-02
CN108733647B true CN108733647B (zh) 2022-03-25

Family

ID=63938874

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810331000.8A Expired - Fee Related CN108733647B (zh) 2018-04-13 2018-04-13 一种基于高斯分布的词向量生成方法

Country Status (1)

Country Link
CN (1) CN108733647B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109858024B (zh) * 2019-01-04 2023-04-11 中山大学 一种基于word2vec的房源词向量训练方法及装置
CN110032734B (zh) * 2019-03-18 2023-02-28 百度在线网络技术(北京)有限公司 近义词扩展及生成对抗网络模型训练方法和装置
CN110705274B (zh) * 2019-09-06 2023-03-24 电子科技大学 基于实时学习的融合型词义嵌入方法
CN111353282B (zh) * 2020-03-09 2023-08-22 腾讯科技(深圳)有限公司 模型训练、文本改写方法、装置和存储介质
CN111783418B (zh) * 2020-06-09 2024-04-05 北京北大软件工程股份有限公司 一种中文词义表示学习方法及装置
CN111859910B (zh) * 2020-07-15 2022-03-18 山西大学 一种用于语义角色识别的融合位置信息的词特征表示方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103116635A (zh) * 2013-02-07 2013-05-22 中国科学院计算技术研究所 面向领域的暗网资源采集方法和系统
CN103530277A (zh) * 2013-10-15 2014-01-22 武汉科技大学 一种基于稀疏感知的多流形邻域点选择方法
CN104090890A (zh) * 2013-12-12 2014-10-08 深圳市腾讯计算机系统有限公司 关键词相似度获取方法、装置及服务器
CN107608953A (zh) * 2017-07-25 2018-01-19 同济大学 一种基于不定长上下文的词向量生成方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9158841B2 (en) * 2011-06-15 2015-10-13 The University Of Memphis Research Foundation Methods of evaluating semantic differences, methods of identifying related sets of items in semantic spaces, and systems and computer program products for implementing the same
CN106484682B (zh) * 2015-08-25 2019-06-25 阿里巴巴集团控股有限公司 基于统计的机器翻译方法、装置及电子设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103116635A (zh) * 2013-02-07 2013-05-22 中国科学院计算技术研究所 面向领域的暗网资源采集方法和系统
CN103530277A (zh) * 2013-10-15 2014-01-22 武汉科技大学 一种基于稀疏感知的多流形邻域点选择方法
CN104090890A (zh) * 2013-12-12 2014-10-08 深圳市腾讯计算机系统有限公司 关键词相似度获取方法、装置及服务器
CN107608953A (zh) * 2017-07-25 2018-01-19 同济大学 一种基于不定长上下文的词向量生成方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Sequential Document Visualization Based on Hierarchical Parametric Histogram Curves";Haidong Chen 等;《Tsinghua Science and Technology》;20120815;第17卷(第4期);第409-418页 *
"基于语义相似度的情感特征向量提取方法";林江豪 等;《计算机科学》;20171015;第44卷(第10期);第296-301页 *

Also Published As

Publication number Publication date
CN108733647A (zh) 2018-11-02

Similar Documents

Publication Publication Date Title
CN108733647B (zh) 一种基于高斯分布的词向量生成方法
CN108595706B (zh) 一种基于主题词类相似性的文档语义表示方法、文本分类方法和装置
CN108984526A (zh) 一种基于深度学习的文档主题向量抽取方法
CN110598005A (zh) 一种面向公共安全事件的多源异构数据知识图谱构建方法
CN112069826B (zh) 融合主题模型和卷积神经网络的垂直域实体消歧方法
Rizvi et al. Optical character recognition system for Nastalique Urdu-like script languages using supervised learning
CN112905795A (zh) 文本意图分类的方法、装置和可读介质
Wang et al. A short text classification method based on convolutional neural network and semantic extension
CN110377695B (zh) 一种舆情主题数据聚类方法、装置及存储介质
CN108763192B (zh) 用于文本处理的实体关系抽取方法及装置
CN113886562A (zh) 一种ai简历筛选方法、系统、设备和存储介质
CN114417872A (zh) 一种合同文本命名实体识别方法及系统
CN115759119A (zh) 一种金融文本情感分析方法、系统、介质和设备
CN116775812A (zh) 一种基于自然语音处理的中医药专利分析与挖掘工具
CN114491062B (zh) 一种融合知识图谱和主题模型的短文本分类方法
CN114722176A (zh) 一种智能答疑的方法、装置、介质及电子设备
CN110674293B (zh) 一种基于语义迁移的文本分类方法
CN113065350A (zh) 一种基于注意力神经网络的生物医学文本词义消岐方法
CN108763487B (zh) 一种基于Mean Shift的融合词性和句子信息的词表示方法
CN108491375B (zh) 基于CN-DBpedia的实体识别与链接系统和方法
CN110597982A (zh) 一种基于词共现网络的短文本主题聚类算法
Aalaa Abdulwahab et al. Documents classification based on deep learning
CN115600595A (zh) 一种实体关系抽取方法、系统、设备及可读存储介质
CN114357166A (zh) 一种基于深度学习的文本分类方法
CN113076467A (zh) 基于跨语言神经主题模型的汉越新闻话题发现方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220325