CN109271622B - 一种基于频次分布校正的低维词表征学习方法 - Google Patents

一种基于频次分布校正的低维词表征学习方法 Download PDF

Info

Publication number
CN109271622B
CN109271622B CN201810897220.7A CN201810897220A CN109271622B CN 109271622 B CN109271622 B CN 109271622B CN 201810897220 A CN201810897220 A CN 201810897220A CN 109271622 B CN109271622 B CN 109271622B
Authority
CN
China
Prior art keywords
word
low
dimensional
occurrence frequency
corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810897220.7A
Other languages
English (en)
Other versions
CN109271622A (zh
Inventor
曹学飞
李济洪
王瑞波
王钰
石隽峰
谷波
牛倩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanxi University
Original Assignee
Shanxi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanxi University filed Critical Shanxi University
Priority to CN201810897220.7A priority Critical patent/CN109271622B/zh
Publication of CN109271622A publication Critical patent/CN109271622A/zh
Application granted granted Critical
Publication of CN109271622B publication Critical patent/CN109271622B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于频次分布校正的低维词表征学习方法,对给定的语料,统计出设定窗口内词对的共现频次,通过对共现频次的对数值进行适当的幂次变换,根据语料自适应地优选幂次变换中的幂指数参数值,先将词对共现频次的分布校正为Zipf分布,再通过GloVe模型学习得到低维的词表征向量,实验证明得到的词表征有更高的精度,同时训练速度也更快。通过本发明,可以生成精度更高的低维词表征。

Description

一种基于频次分布校正的低维词表征学习方法
技术领域
本发明涉及低维词表征学习领域,尤其涉及一种基于频次分布校正的低维词表征学习方法。
背景技术
自然语言中,词是承载语义的基本单元,如何表征词的意义? Harris在1954年提出的分布假说(distributional hypothesis)为这一设想提供了理论基础:上下文相似的词,其语义也相似。Firth在1957 年对分布假说进行了进一步的阐述:a word ischaracterized by the company it keeps(一个词的含义可以由它周围的词来刻画)。
随着大规模语料在自然语言中的广泛使用,基于上述分布假说,演化出了词的分布式表示方法(distributional representation)。该方法需要构建一个词对共现矩阵,从矩阵直接获取词的分布式表示,词对共现矩阵的每一行或每一列对应一个词,矩阵中的每个元素对应相应词对在语料中的共现频次,在这种方法下,矩阵中的一行,就成为了对应词的分布式表示。然而这种表示方法有个很大的缺陷:每个词的分布式表示是一个非常稀疏且高维的向量,这导致基于此高维向量的语义计算常常失效。
近年来,低维词表征(distributed representation)学习开始得到人们的广泛关注。随着深度学习的兴起,研究人员提出了许多方法和模型去学习词的低维表征,如CBOW、Skip-gram以及GloVe等。该类方法是将高维稀疏的词的分布式表示映射为低维实值向量,从而使得语义计算变得可行。对低维词表征的精度,一般采用word analogy 任务和wordsimilarity任务来评测。word analogy任务的性能指标是准确率,准确率越高,低维词表征的精度越高;word similarity任务的性能指标是斯皮尔曼相关系数,相关系数越大,低维词表征的精度更高。但是现有的实现低维词表征学习的方法,其低维词表征的精度还有待提高。
发明内容
本发明的目的在于为提高低维词表征的精度而提供一种基于频次分布校正的低维词表征学习方法。
本发明的目的可以通过采用如下的技术措施来实现,设计一种基于频次分布校正的低维词表征学习方法,包括:根据给定的语料C,生成词表V;其中,词表V是语料C中出现的不同词的全部集合;
设定窗口值L,统计由词表V中的所有词对<wi,wj>在语料中的共现频次Xij,并计算每一词对<wi,wj>的共现频次Xij的降序值rij
计算幂指数参数β,计算公式如公式1;
Figure BDA0001758490360000021
rij表示词对<wi,wj>的共现频次Xij的降序值,即将所有Xij按照从大到小的次序排列,计算出相应的序值,|X|表示非零的共现频次的个数;
使用(logXij)β代替GloVe模型中的logXij,学习得到每个低维词表征向量vi,以及|V|*d大小的词表征矩阵。
其中,使用(logXij)β代替GloVe模型中的logXij,得到的目标函数如公式(2)所示;
Figure BDA0001758490360000022
其中vi
Figure BDA0001758490360000023
分别表示词对<wi,wj>中wi和wj的低维词表征,bi
Figure BDA0001758490360000024
为vi
Figure BDA0001758490360000025
对应的偏置项,f(Xij)为加权函数,根据词对的共现频次对目标函数中的每一求和项进行加权。
区别于现有技术,本发明对给定的语料,统计出设定窗口内词对的共现频次,通过对共现频次的对数值进行适当的幂次变换,根据语料自适应地优选幂次变换中的幂指数参数值,先将词对共现频次的分布校正为Zipf分布,再通过GloVe模型学习得到低维的词表征向量,实验证明得到的词表征有更高的精度。通过本发明,可以生成精度更高的低维词表征,同时训练速度也更快。
附图说明
图1是本发明提供的一种基于频次分布校正的低维词表征学习方法的逻辑示意图。
具体实施方式
下面结合具体实施方式对本发明的技术方案作进一步更详细的描述。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
参阅图1,图1是本发明提供的一种基于频次分布校正的低维词表征学习方法的逻辑示意图。该方法的步骤包括:
S110:根据给定的语料C,生成词表V;其中,词表V是语料C中出现的不同词的全部集合。
在本发明中,语料是以自然语言文本形式收集到的语言实例集,用符号C表示。一般可以形式化为:C=t1,t2,...,tN,即语料C可理解为由N个tokens构成的序列。
下述内容为语料示例:
“Shanxi University,established in 1902,is in Taiyuan,the capital ofShanxi province,which has a history of 2,500 years.The school itself can betraced back to Sanli College,of the Ming Dynasty(1368-1644),and JinyangCollege and Lingde College,of the Qing Dynasty (1644-1912).In its earlyperiod,the school worked on integrating Chinese culture and Western cultureand the arts and sciences.It had great flexibility in its management andadvanced educational ideas.and was a cradle of higher education in China anda crucial center of culture, science,and education in Shanxi province formore than 100 years......”
词表是在语料中出现的不同词的全部集合,记为 V={w1,w2,...,wK}。本发明所提到的词表中的词按照其在语料中出现的次数由大到小排序。|V|表示词表的大小。
使用公开的English Wikipedia语料。选取了该语料中出现次数最多的前30000个词构成词表V。
S120:设定窗口值L,统计由词表V中的所有词对<wi,wj>在语料中的共现频次Xij,并计算每一词对<wi,wj>的共现频次Xij的降序值。
对于语料中的某个词ti,ti-L,ti-L+1,...,ti+L-1,ti+L构成的序列为词ti大小为L的窗口。
词对是词表中任意两个词的组合,记为<wi,wj>,其中wi,wj∈V。
一个|V|*|V|大小的矩阵,记为X。矩阵X中的元素Xij表示词对 <wi,wj>在语料中的共现频次。|X|表示所有X矩阵中非零的元素Xij的个数。词对共现频次Xij的计算方法为<wi,wj>在窗口大小L内共同出现的次数以及wi与wj的相对位置的加权和。
这里,rij表示词对<wi,wj>的共现频次Xij的降序值,即将所有Xij按照从大到小的次序排列,计算出相应的序值。若Xij与Xlk的相等,则 <wi,wj>和<wl,wk>两个词对的序值要相应加1顺延。例如,若有10对词的频次相同,则相应的序值为rij,rij+1,rij+2,...,rij+9。
设置窗口值L=10,即对于语料中的任意一个词,选取出现在该词左右的各10个词进行共现统计,一共得到|X|=218571590个非零的共现频次的数据。
S130:计算幂指数参数β,计算公式如公式1;
Figure BDA0001758490360000041
rij表示词对<wi,wj>的共现频次Xij的降序值,即将所有Xij按照从大到小的次序排列,计算出相应的序值,|X|表示非零的共现频次的个数。
代入前述数值求解β,其值为0.849。
S140:使用(logXij)β代替GloVe模型中的logXij,学习得到每个低维词表征向量vi,以及|V|*d大小的词表征矩阵。
其中,使用(logXij)β代替GloVe模型中的logXij,得到的目标函数如公式(2)所示;
Figure BDA0001758490360000051
其中vi
Figure BDA0001758490360000052
分别表示词对<wi,wj)中wi和wj的低维词表征,bi
Figure BDA0001758490360000053
为vi
Figure BDA0001758490360000054
对应的偏置项,f(Xij)为加权函数,根据词对的共同频次对目标函数中的每一求和项进行加权。
低维词表征向量是词wi的d维表示向量,记为vi。词表V中所有词表征向量构成|V|*d大小的表征矩阵,矩阵中的第i行的d维实值向量为词表中第i个词对应的低维词表征。
设置目标函数中的向量维度为300,使用AdaGrad方法对其优化,初始学习率设置为0.05,当连续两次迭代的目标函数的差值小于阈值10e-5时,停止训练,此时学习得到的向量即为低维词表征。
表1为通过上述方法学习得到的低维词表征在两个任务上的实验结果,第2列为word analogy任务上以准确率为指标的测试结果,第3列到第7列为在五个不同的wordsimilarity任务的测试数据集上的以Spearman相关系数为指标的测试结果。
Figure BDA0001758490360000055
表1本发明的低维词表征在word analogy和word similarity任务上的测试结果
测试结果显示,在word analogy任务上,本发明得到的低维词表征比原GloVe方法的准确率要高0.42个百分点,且在卡方检验下是显著的;在word similarity任务上,本发明的方法在五个数据集上的测试结果都比原GloVe方法要高。
另外,实验结果也显示,使用本发明提供的方法,只需要迭代 26次即可停止,而使用原GloVe方法,则需要54次迭代才可以停止,因而,本发明的方法训练速度更快。
区别于现有技术,本发明对给定的语料,统计出设定窗口内词对的共现频次,通过对共现频次的对数值进行适当的幂次变换,根据语料自适应地优选幂次变换中的幂指数参数值,先将词对共现频次的分布校正为Zipf分布,再通过GloVe模型学习得到低维的词表征向量,实验证明得到的词表征有更高的精度。通过本发明,可以生成精度更高的低维词表征。
以上仅为本发明的实施方式,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (1)

1.一种基于频次分布校正的低维词表征学习方法,其特征在于,包括:
根据给定的语料C,生成词表V;其中,词表V是语料C中出现的不同词的全部集合;
设定窗口值L,统计由词表V中的所有词对<wi,wj>在语料中的共现频次Xij,并计算每一词对<wi,wj>的共现频次Xij的降序值;
计算幂指数参数β,计算公式如公式(1);
Figure FDA0002958310970000011
rij表示词对<wi,wj>的共现频次Xij的降序值,即将所有Xij按照从大到小的次序排列,计算出相应的序值,|X|表示非零的共现频次的个数;
使用(logXij)β代替GloVe模型中的logXij,得到目标函数如公式(2)所示;
Figure FDA0002958310970000012
其中vi
Figure FDA0002958310970000013
分别表示词对<wi,wj>中wi和wj的低维词表征,bi
Figure FDA0002958310970000014
为vi
Figure FDA0002958310970000015
对应的偏置项,f(Xij)为加权函数,根据词对的共现频次对目标函数中的每一求和项进行加权;
学习得到每个低维词表征向量vi,以及|V|*d大小的词表征矩阵,其中,|V|表示词表的大小,d表示词表中的词对应的低维词表征在词表征矩阵中的实值向量的维度。
CN201810897220.7A 2018-08-08 2018-08-08 一种基于频次分布校正的低维词表征学习方法 Active CN109271622B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810897220.7A CN109271622B (zh) 2018-08-08 2018-08-08 一种基于频次分布校正的低维词表征学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810897220.7A CN109271622B (zh) 2018-08-08 2018-08-08 一种基于频次分布校正的低维词表征学习方法

Publications (2)

Publication Number Publication Date
CN109271622A CN109271622A (zh) 2019-01-25
CN109271622B true CN109271622B (zh) 2021-05-14

Family

ID=65153216

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810897220.7A Active CN109271622B (zh) 2018-08-08 2018-08-08 一种基于频次分布校正的低维词表征学习方法

Country Status (1)

Country Link
CN (1) CN109271622B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776534A (zh) * 2016-11-11 2017-05-31 北京工商大学 词向量模型的增量式学习方法
CN106844342A (zh) * 2017-01-12 2017-06-13 北京航空航天大学 基于增量学习的词向量生成方法和装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170161275A1 (en) * 2015-12-08 2017-06-08 Luminoso Technologies, Inc. System and method for incorporating new terms in a term-vector space from a semantic lexicon
CN111611798B (zh) * 2017-01-22 2023-05-16 创新先进技术有限公司 一种词向量处理方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776534A (zh) * 2016-11-11 2017-05-31 北京工商大学 词向量模型的增量式学习方法
CN106844342A (zh) * 2017-01-12 2017-06-13 北京航空航天大学 基于增量学习的词向量生成方法和装置

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Advances in Pre-Training Distributed Word Representations;Thomas Mikolov等;《arxiv:1712.09405》;20171226;全文 *
GloVe: global vectors for word representation;J.Pennington等;《Proceedings of Conference on Empirical Methods in Natural Language Processing》;20141231;第1532-1543页 *
On the law of Zipf-Mandelbrot for multi-word phrases;L.Egghe等;《American Society for Information Science》;19991231;第50卷(第3期);第233-241页 *
Storing and retrieving word phrases;F.J.Smith等;《Information Processing and Management》;19851231;第21卷;第215-224页 *
分布式表示与组合模型在中文自然语言处理中的应用;温潇;《中国优秀硕士学位论文全文数据库 信息科技辑》;20170315;全文 *

Also Published As

Publication number Publication date
CN109271622A (zh) 2019-01-25

Similar Documents

Publication Publication Date Title
CN106886543B (zh) 结合实体描述的知识图谱表示学习方法和系统
Koncel-Kedziorski et al. MAWPS: A math word problem repository
Luo et al. Online learning of interpretable word embeddings
Liu et al. Learning semantic word embeddings based on ordinal knowledge constraints
Croce et al. Structured lexical similarity via convolution kernels on dependency trees
Radu et al. Clustering documents using the document to vector model for dimensionality reduction
CN111291165B (zh) 训练词向量嵌入模型的方法及装置
CN109299270A (zh) 一种基于卷积神经网络的文本数据无监督聚类方法
CN103020167B (zh) 一种计算机中文文本分类方法
Morales et al. An investigation of deep learning systems for suicide risk assessment
CN108628822A (zh) 无语义文本的识别方法及装置
CN111339437B (zh) 一种团伙成员角色的确定方法、装置及电子设备
CN104616029A (zh) 数据分类方法及装置
CN111008266A (zh) 文本分析模型的训练方法及装置、文本分析方法及装置
EP3377983A1 (en) Generating feature embeddings from a co-occurrence matrix
CN114328834A (zh) 一种模型蒸馏方法、系统以及文本检索方法
CN109271622B (zh) 一种基于频次分布校正的低维词表征学习方法
Sun et al. A stable approach for model order selection in nonnegative matrix factorization
Roozegar et al. The power series skew normal class of distributions
CN110489759A (zh) 基于词频的文本特征加权及短文本相似性计算方法、系统和介质
CN110889293A (zh) 多层级主题向量空间的构建方法、装置、设备和存储介质
CN113095065B (zh) 一种中文字向量学习方法及装置
CN114064845A (zh) 关系表示模型的训练方法、装置及电子设备
Antunes et al. Learning semantic features from web services
CN111695359A (zh) 生成词向量的方法、装置、计算机存储介质和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant