CN110569503A - 一种基于词统计与WordNet的义项表示与消歧方法 - Google Patents
一种基于词统计与WordNet的义项表示与消歧方法 Download PDFInfo
- Publication number
- CN110569503A CN110569503A CN201910803617.XA CN201910803617A CN110569503A CN 110569503 A CN110569503 A CN 110569503A CN 201910803617 A CN201910803617 A CN 201910803617A CN 110569503 A CN110569503 A CN 110569503A
- Authority
- CN
- China
- Prior art keywords
- word
- vector
- synonym
- words
- semantic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 239000013598 vector Substances 0.000 claims abstract description 213
- 238000012549 training Methods 0.000 claims description 13
- 239000011159 matrix material Substances 0.000 claims description 11
- 150000001875 compounds Chemical class 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 description 11
- 230000000694 effects Effects 0.000 description 5
- 235000013372 meat Nutrition 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000002087 whitening effect Effects 0.000 description 3
- 235000012284 Bertholletia excelsa Nutrition 0.000 description 2
- 244000205479 Bertholletia excelsa Species 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 2
- 238000013179 statistical model Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开一种基于词统计与WordNet的义项表示与消歧方法,发明利用WordNet中已经整理好的在国际上广泛认可的词语义项集与同义词集作为先验知识,提出了一种基于维基百科词统计的义项向量生成方法,该方法以维基百科中作为语料,利用词统计模型训练得到初步的词向量,然后充分利用词统计向量维度词的语义信息,合并WordNet同义词的词向量,形成词语的义项向量,同时还提出了利用WordNet注解来进行义项消歧的方法,这样可以提高词语在不同语言环境下的语义计算精度,从而能够在实际应用中合理、准确地使用义项向量,并可广泛应用于自然语言处理的各种语义计算场合。
Description
技术领域
本发明涉及人工智能中的自然语言理解领域,具体涉及一种基于词统计与WordNet的义项表示与消歧方法。
背景技术
目前人工智能领域中的深度学习技术发展突飞猛进,不仅在图像领域表现优异,在自然语言处理方面也是应用广泛。随着深度神经网络与自然语言处理的结合,词向量也被提出。旨在解决自然语言在神经网络中的向量表示,将词语转化未稠密向量,而且对于相似的词,其对应的词在向量空间中也相近。在自然语言处理应用中,词向量是作为深度学习模型的特征进行输入,因此,最终模型的效果很大程度上也取决于词向量的效果。
基于神经网络的词向量,通过大数据进行训练,因此更为准确,但它直接使用训练网络中输入层的权重作为词向量,向量维度缺乏语义解释,因此无法通过词向量的合并得到义项向量。基于统计的词向量以词语作为维度,其向量维度具有丰富的语义,因此可以通过合并这类词向量得到义项向量。然而,由于在自然语言中普遍存在一词多义的现象,因此想要让计算机能够准确地理解自然语言,必须正确使用词语的词义。词义是词汇在一定的语言环境下所反映的特定意义,它更加具象、物化在该语境下的语义属性,能够更好的反映出词汇之间的关系。目前各种词向量一般都是针对词语生成唯一的词向量,并没有将义项词向量训练出来,所以在实际应用中,每个词语只能使用唯一的词向量在不同的语言环境下进行语义计算,这极大地降低了语义计算的精度。
发明内容
本发明所要解决的是目前每个词语只能使用唯一的词向量在不同的语言环境下进行语义计算,从而极大地降低了语义计算的精度的问题,提供一种基于词统计与WordNet的义项表示与消歧方法。
为解决上述问题,本发明是通过以下技术方案实现的:
一种基于词统计与WordNet的义项表示与消歧方法,包括如下步骤:
步骤1、获取维基百科的离线页面文件,并对离线维基百科页面文件进行预处理,得到预处理好的维基百科语料;
步骤2、对于预处理好的维基百科语料,选取词频排在前K的词作为训练目标词与向量维度词进行词统计训练,得到词共现矩阵与词向量;
步骤3、从WordNet中获取词语的义项集及其同义词集;
步骤4、步骤2所得到的词共现矩阵与词向量和步骤3所得到的义项集及其同义词集,通过合并同义词的词向量,生成词语的义项向量;
步骤5、从WordNet中获取词语的每个义项的注解集;
步骤6、将义项注解句与消歧文本形成待比较的文本对列表;
步骤7、将待比较文本对列表中的文本,进行词根还原处理,提取出它们之中的名词与动词分别作为它们的核心语义袋,以将文本对的比较转换为由名词和动词组成的核心语义袋的比较;
步骤8、通过核心语义袋,计算出词语每个义项的注解集与消歧文本之间的相似度;
步骤9、根据词语每个义项的注解集与消歧文本之间的相似度,输出注解集与消歧文本相似度最高的义项作为消歧结果。
上述步骤4的具体过程如下:
步骤4.1、对于词语t的第i个义项ti,将该词语t的词向量V(t)作为义项ti的初始化义项向量SV0(ti),即令SV0(ti)=V(t);
步骤4.2、对于同义词集中单义同义词st,依次采用下式将该单义同义词st的词向量V(st)与初始化义项向量SV0(ti)进行迭代合并,生成义项ti的一级义项向量SV1(ti),如下式所示:
SV1(ti)={(si,wt(si,SV0(ti))+wt(si,V(st))|si∈D1∪D2}
其中,wt(si,SV0(ti))表示维度词si在初始化义项向量SV0(ti)中的权重,wt(si,V(st))表示维度词si在词向量V(st)中的权重,D1表示初始化义项向量SV0(ti)中权重不为0的维度词的集合,D2表示词向量V(st)中权重不为0的维度词的集合;
在每次迭代合并前,先使用上一次迭代合并的结果SV1(ti)作为初始化义项向量SV0(ti),即令SV0(ti)=SV1(ti);若义项ti同义词集中不存在任何单义同义词,则令SV1(ti)=SV0(ti);
步骤4.3、对于同义词集中多义同义词dt,依次采用下式将该多义同义词dt词向量V(dt)与一级义项向量SV1(ti)进行迭代合并,生成义项ti的二级义项向量SV2(ti),如下式所示:
其中,wt(si,SV1(ti))表示维度词si在一级义项向量SV1(ti)中的权重,wt2(si,V(dt))表示维度词si在词向量V(dt)中的权重,wt(sj,SV1(ti))表示维度词sj在一级义项向量SV1(ti)中的权重,D3表示一级义项向量SV1(ti)中权重不为0的维度词的集合,D4表示词向量V(dt)中权重不为0的维度词的集合;
在每次迭代合并前,先使用上一次迭代合并的结果SV2(ti)作为一级义项向量SV1(ti),即令SV1(ti)=SV2(ti);若义项ti同义词集中不存在任何多义同义词,则令SV2(ti)=SV1(ti);
步骤4.4、对于义项ti同义词集中的组合同义词ct,将该组合同义词ct中的第一个词ft的词向量V(ft)作为组合同义词ct的初始化组合词向量CV0(ct),即令CV0(ct)=V(ft);
步骤4.5、对于组合词同义词ct中的独立词at,依次采用下式将词向量V(at)与初始化组合词向量CV0(ct)进行迭代合并,生成组合同义词组合同义词ct的一级组合词向量CV1(ct),如下式所示:
其中,wt(si,CV0(ct))表示维度词si在初始化组合词向量CV0(ct)中的权重,wt(si,V(at))表示维度词si在词向量V(at)中的权重,wt(sj,CV0(ct))表示维度词sj在初始化组合词向量CV0(ct)中的权重,D5表示初始化组合词向量CV0(ct)中权重不为0的维度词的集合,D6表示词向量V(at)中权重不为0的维度词的集合;
在每次迭代合并前,先使用上一次迭代合并的结果CV1(ct)作为初始化组合词向量CV0(ct),即令CV0(ct)=CV1(ct);
步骤4.6、依次将步骤4.3所得ti的二级义项向量SV2(ti)与步骤4.5所得的一级组合词向量CV1(ct)进行迭代合并,生成义项ti的最终向量SFV(ti),如下式所示:
其中,wt(si,SV2(ti))表示维度词si在二级义项向量SV2(ti)中的权重,wt(si,CV1(ct))表示维度词si在一级组合词向量CV1(ct)中的权重,wt(sj,SV2(ti))表示维度词sj在二级义项向量SV2(ti)中的权重,D7表示二级义项向量SV2(ti)中权重不为0的维度词的集合,D8表示一级组合词向量CV1(ct)中权重不为0的维度词的集合;
在每次迭代合并前,先使用上一次迭代合并的结果SFV(ti)作为二级义项向量SV2(ti),即令SV2(ti)=SFV(ti);若义项ti同义词集中无任何组合同义词,则令SFV(ti)=SV2(ti)。
上述方案中,对于所生成的词向量和义项向量,只保存其中权重不为零的维度词及其权重,而将没有保存的维度词的权重默认为0。
上述步骤8中,词语t的义项ti的注解集gloss(ti)与待消歧词语t所在的消歧文本textt之间的相似度sim(gloss(ti),textt)为:
sim(gloss(ti),textt)=max{sim(glBagj,textBag)|j∈[1,pi]}
其中,sim(glBagj,textBag)表示核心语义袋glBagj与textBag之间的相似度,max{·}表示求最大值,glBagj表示从注解句子glj中提取出的由名词与动词组成的核心语义袋,glj表示义项ti的注解集gloss(ti)中任意一个由分号分隔的注解句子,textBag表示从待消歧文本textt中提取出的由名词与动词组成的核心语义袋,pi表示义项ti的注解集gloss(ti)中注解句子的个数,B1表示核心语义袋glBagj,B2表示核心语义袋textBag,|·|表示核心语义袋中词语的个数,depth(u)表示词语u在WordNet层次结构中的深度,depth(v)表示词语v在WordNet层次结构中的深度,LCS(u,v)表示词语u与v在WordNet中的最近公共父结点,depth(LCS(u,v))表示最近公共父结点在WordNet层次结构中的深度。
与现有技术相比,本发明利用WordNet中已经整理好的在国际上广泛认可的词语义项集与同义词集作为先验知识,提出了一种基于维基百科词统计的义项向量生成方法,该方法以维基百科中作为语料,利用词统计模型训练得到初步的词向量,然后充分利用词统计向量维度词的语义信息,合并WordNet同义词的词向量,形成词语的义项向量,同时还提出了利用WordNet注解来进行义项消歧的方法,这样可以提高词语在不同语言环境下的语义计算精度,从而能够在实际应用中合理、准确地使用义项向量,并可广泛应用于自然语言处理的各种语义计算场合。
附图说明
图1为一种基于词统计与WordNet的义项表示与消歧方法的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实例,对本发明进一步详细说明。
一种基于词统计与WordNet的义项表示与消歧方法,如图1所示,其具体包括如下步骤:
首先获取到维基百科的离线页面文件,然后将其中的非法字符转换为空格,图片表格删除仅保留标题,链接保留文本,最终留下包含a-z(A-Z范围的转化为小写)及数字的纯文本。清洗完成后通过词统计模型生成共现矩阵并从中获取对应的词向量,最终形成初始词向量,作为义项生成模型的输入,然后本发明将词语在WordNet对应的义项以及同义词集也作为输入,目的是为了利用词语对应的同义词集来生成对应的义项向量,首先模型将同义词集中的所有词通过查表的形式从初始词向量中获得,同时将输入词作为源词,查到相应词向量作为基准,与同义词集中的其他词进行交运算,在此之前,本发明将同义词集中具有单义项的词进行筛选,因为这些词可以更好的表达源词的语义,没有多义项,所以不会造成干扰,最终将这些词的向量与源词进行并运算,以扩展丰富源词的语义特征。其中还涉及到组合词的问题,目前并没有很好的方法来生成组合词的向量,本发明的解决办法是将组合词拆分为单个单词,然后将这些单个单词的向量进行合并,即维度相交的部分相加,而没有相交的进行并运算。最后将输出单词对应义项的向量。
一、基于维基百科的词共现矩阵与词向量的生成
本发明是基于维基百科开放语料库训练的词统计向量,因为维基百科中词语较多,所以取其中词频在前30万的词作为训练的目标词和维度词,最终获得这30万词的词向量,且每一个词向量的维度为30万维,每一个维度都为词语,有其特定意义。例如,一个词统计向量示实例如下所示:
V(deckhand)={(guinean,0.284611),(trawler,0.250539),(cowell,0.247986),…}
具体生成步骤如下:
(1)下载并预处理维基百科的离线页面数据文件。
首先通过维基百科提供的转储备份数据库获取维基百科的离线页面数据文件。本发明使用JWPL(Java Wikipedia Library)工具来解析维基百科下载数据库,JWPL运行在从维基百科下载数据库创建的优化数据库上,可快速访问维基百科的页面文章、类别、链接、重定向等。离线维基百科页面中包含了各种各样的数据,不仅有文本,还有图片、表格、链接以及网页中特有的字符,本发明利用公式(1)对维基百科页面数据进行清洗,最终留下训练词向量所需的文本数据,并将A-Z范围的大写字符转化为小写的a-z,将不可显示符号转换为空格,然后将预处理好的维基百科页面数据输入步骤(2)的词统计模型中。
Pagewiki={lower(w)|w∈S} (1)
其中,lower是对字符进行小写转换的函数,S为可显示字符与数字的集合。
(2)生成基于维基百科词统计的词共现矩阵与词向量。
对于预处理好的维基百科语料,由于其词语丰富,数量较多,为方便训练,且为生成更有效的词向量,最终选取词频排在前K的词作为训练目标词与向量维度词进行词统计训练,得到如公式(2)、(3)所示的词共现矩阵与词向量,本发明取K=30万。
公式(2)表示基于维基百科的词共现矩阵,其由一个K*k的权重矩阵组成,其中每一行为一个目标词在该矩阵中的词向量即权重向量;
V(ti)={(tj,wi,j)|tj∈TK} (3)
公式(3)表示目标词ti在词共现矩阵中的词向量,其为K个形如(tj,wi,j)的维度词及其权重对子组成,TK表示K个维度词的集合,tj表示TK中的一个维度词,wi,j表示目标词ti在维度词tj上的权重,wi,j的计算公式如下所示:
定义一个以目标词ti为中心,左右边界为L个词的共现窗口window,取L∈[2,5],然后按公式(4)计算在该window下,目标词ti在维度词tj上的权重wi,j:
其中,f(ti,tj)为词语ti与tj在维基百科语料中按指定共现窗口window测量到的共同出现的次数,f(ti)、f(tj)分别表示词语ti与tj在维基百科语料中出现的次数。
二、从WordNet中获取词语的义项集及其同义词集
本发明使用国际上广泛认可的WordNet,作为输入词条的义项集和同义词集的先验知识库。在WordNet中词语如果是多义词,则提供多个义项,且每个义项通常由多个同义词组成同义词集,并包括相应的注解。注解通常是由非常简单易懂的句子来对义项进行定义与举例。词汇语言学起源于对词的认识:词一般分为词形和词义,词形通常来特指源词或主题词,词义表示词形即源词所代表的词汇概念。对于同一个源词,在不同的上下文中可表示不同的词义,所以为了能够更好地区分词义,词的文法分类通常利用词形和词义之间的映射关系来表示。在WordNet中,有些词形可以对应多个不同的词义,即一词多义;而有些词义也可以用不同的词形来表示,即一义多词。基于维基百科词统计的原始词向量是基于维基百科文本语料进行统计的,并不能区分词语的同义词集及多义项。因此,本发明使用WordNet字典,来获取词语的义项集及其同义词集,操作步骤如下:
(1)在WordNet字典中输入索引词语t。
(2)搜索WordNet字典,获得如公式(5)所示的词语t的多义项集SenSet(t),以及公式(6)所示的每个义项的同义词集sense(ti):
SenSet(t)={sense(ti)|i∈[1,nt]} (5)
公式(5)表示词语t在WordNet中具有nt个义项,nt为正整数;
sense(ti)={t,tj|j∈[0,mi]} (6)
公式(6)表示词语t的第i个义项的同义词集由t和t之外的mi个词语组成,mi为0或正整数。
例如,对于词条Brazil,在WordNet中共有2个义项:
Brazil义项1:{源词:Brazil,同义词:Federative Republic of Brazil,同义词:Brasil}
Brazil义项2:{源词:Brazil,同义词:brazil nut}。
三、通过合并同义词的词向量,生成词语的义项向量
本发明的基于维基百科词统计与WordNet的义项向量生成步骤为:
(1)义项向量的初始化。
对于词语t的第i个义项ti,本发明使用由公式(3)生成的词向量V(t)初始化义项向量SV0(ti),即:
SV0(ti)=V(t) (7)
(2)将初始义项向量与单义同义词向量进行合并。
本发明将在WordNet中仅具有一个义项的同义词定义为单义同义词。对于一个源词,如果义项元素越少,说明该源词表达的语义更明确,歧义更少,得到的词向量干扰也越少,因此本发明将单义同义词向量中与源词向量的权重直接相加,达到突出单义同义词向量在义项向量生成中的作用。
设义项ti同义词集sense(ti)中存在一个单义同义词st,则本发明采用如下的公式(8)将st的词向量V(st)与初始义项向量SV0(ti)进行合并,生成新的义项向量SV1(ti):
SV1(ti)={(si,wt(si,SV0(ti))+wt(si,V(st))|si∈D1∪D2} (8)
其中,SV0(ti)由公式(7)生成,V(st)由公式(3)生成,D1表示SV0(ti)中权重不为0的维度词的集合,D2表示V(st)中权重不为0的维度词的集合,函数wt(s,V)表示维度词s在向量V中的权重。
(3)重复步骤(2),将sense(ti)中所有单义同义词的词向量与义项向量SV1(ti)进行合并。其中,每次合并前先使用上一次合并的结果SV1(ti)初始化向量SV0(ti),即令SV0(ti)=SV1(ti);若义项ti同义词集sense(ti)中不存在任何单义同义词,则令SV1(ti)=SV0(ti)。
(4)将义项向量与多义同义词向量进行合并。
本发明将在WordNet中具有多个义项的同义词定义为多义同义词。为降低多义同义词向量对义项向量生成的负面作用,本发明采用如下的公式(9)将多义同义词向量V(dt)与义项向量SV1(ti)进行非线性合并,生成新的义项向量SV2(ti):
其中,SV1(ti)由步骤(2)与步骤(3)生成,dt表示义项ti同义词集sense(ti)中的一个多义同义词,V(dt)为由公式(3)生成的dt的词向量,D3表示SV1(ti)中权重不为0的维度词的集合,D4表示V(dt)中权重不为0的维度词的集合。
(5)重复步骤(4),将sense(ti)中的所有多义同义词的词向量与义项向量SV2(ti)进行合并。其中,每次合并前先使用上一次合并的结果SV2(ti)初始化向量SV1(ti),即令SV1(ti)=SV2(ti);若义项ti同义词集sense(ti)中不存在任何多义同义词,则令SV2(ti)=SV1(ti)。
(6)生成组合同义词向量。
本发明将在WordNet同义词组中由多个独立词组成的短语定义为组合同义词,例如,组合词:computerized_axial_tomography→词语1:computerized+词语2:axial+词语3:tomography。对于义项ti同义词集sense(ti)中的组合同义词ct,本发明首先采用ct中的第一个词ft的词向量按如下的公式(10)初始化组合词向量CV0(ct):
CV0(ct)=V(ft) (10)
然后,对于组合词同义词ct中的独立词at,本发明采用如下的公式(11)将词向量V(at)与组合词向量CV0(ct)进行合并,生成新的组合词向量CV1(ct):
其中,CV0(ct)由公式(10)生成,V(at)由公式(3)生成,D5表示CV0(ct)中权重不为0的维度词的集合,D6表示V(at)中权重不为0的维度词的集合。
最后,重复执行公式(11)将组合词同义词ct中的所有独立单词向量与组合词向量CV1(ct)进行合并。其中,每次合并前先使用上一次合并的结果CV1(ct)初始化向量CV0(ct),即令CV0(ct)=CV1(ct)。
(7)将义项向量与组合同义词向量进行合并。
对于按步骤(6)生成的组合同义词向量CV1(ct),本发明采用如下的公式(12)将其与义项向量SV2(ti)进行合并,生成义项ti的最终向量SFV(ti)。
其中,SV2(ti)由步骤(4)与步骤(5)生成,CV1(ct)由步骤(6)生成,D7表示SV2(ti)中权重不为0的维度词的集合,D8表示CV1(ct)中权重不为0的维度词的集合。
(8)重复步骤(7),将sense(ti)中的所有组合同义词向量与义项向量SFV(ti)进行合并。其中,每次合并前先使用上一次合并的结果SFV(ti)初始化向量SV2(ti),即令SV2(ti)=SFV(ti);若义项ti同义词集sense(ti)中无任何组合同义词,则令SFV(ti)=SV2(ti)。
四、基于WordNet的义项消歧方法
由于在自然语言中一词多义的现象普遍存在,所以想要让计算机能够准确理解自然语言,自动消歧是非常重要的。词义是词汇在一定的语言环境下反映的特定意义,它更加具象、物化在该语境下的语义属性,能够更好的反映出词汇之间的关系。所谓义项消歧是指在一个指定文本中确定一个词语所对应的义项。义项消歧是应用义项向量的前提和配套方法。
本发明提出一种基于WordNet的义项消歧方法,可以在实际应用中配合本发明生成的义项词向量的使用。本发明提出的基于WordNet的义项消歧步骤如下:
(1)从WordNet中获取词语的每个义项的注解集。
提取义项注解。在WordNet中,对于词的一个义项,是将所有同义词放在一个集合中作为该义项的同义词集,除此之外,还加入了注解,该注解一般是由几句简单句构成(通常为定义和例句),可以使WordNet的使用者能够区分开可能混淆的词义。本发明在WordNet中将义项同义词集中的注解句提取出来,定义成如公式(13)所示的注解集合:
gloss(ti)={glj|j∈[1,pi]} (13)
公式(13)表示义项ti的注解集由pi个注解句子组成,其中glj表示义项ti的注解集中任意一个由分号分隔的注解句子。
例如,以Brazil为例,Brazil在WordNet中的语料为:
Brazil:
1.Brazil,Federative Republic of Brazil,Brasil--(the largest LatinAmerican country and the largest Portuguese speaking country in the world;located in the central and northeastern part of South America;world's leadingcoffee exporter)
2.brazil nut,brazil--(three-sided tropical American nut with whiteoily meat and hard brown shell)
从而得到Brazil的两个义项的注解集为:
gloss(Brazil1)={the largest Latin American country and the largestPortuguese speaking country in the world;located in the central andnortheastern part of South America;world's leading coffee exporter}
gloss(Brazil2)={three-sided tropical American nut with white oilymeat and hard brown shell}
(2)将义项注解句与消歧文本形成待比较的文本对列表。
将步骤(1)所提取的义项注解句子分别与待消歧词语义项所在的消歧文本进行组合,形成待比较的文本对列表,如公式(14)所示:
TextList(gloss(ti),textt)={(glj:textt)|j∈[1,pi]} (14)
其中,gloss(ti)表示义项ti的注解集,它由公式(13)生成,textt表示待消歧词语t所在的文本,(glj:textt)表示一个待比较的文本对。例如,
对于待消歧的语句:textBrazil=”Unlike in the US where African Americanswere united in the civil rights struggle,in<b>Brazil</b>the philosophy ofwhitening has helped divide blacks from other non-whites and prevented a moreactive civil rights movement”
得到如下所示的比较文本对列表:
List(gloss(Brazil2),textBrazil)={”three-sided tropical American nutwith white oily meat and hard brown shell”:”Unlike in the US where AfricanAmericans were united in the civil rights struggle,in<b>Brazil</b>thephilosophy of whitening has helped divide blacks from other non-whites andprevented a more active civil rights movement”}
(3)将文本对的比较转换为由名词和动词组成的核心语义袋的比较。
将步骤(2)生成的待比较文本对列表中的文本,进行词根还原处理,提取出它们之中的名词与动词分别作为它们的核心语义袋,将文本对的比较转换为它们核心语义袋的比较,如公式(15)所示,并生成相应的核心语义袋比较对列表,如公式(16)所示:
TextList(gloss(ti),textt)=BagList(gloss(ti),textt) (15)
BagList(gloss(ti),textt)={(glBagj:textBag)|j∈[1,pi]} (16)
其中,(glBagj:textBag)表示一个核心语义比较对,glBagj表示从注解句子glj中提取出的由名词与动词组成的核心语义袋,textBag表示从待消歧文本textt中提取出的由名词与动词组成的核心语义袋。
例如,利用斯坦福词性还原与词性标注工具,得到List(gloss(Brazil2),textBrazil)的核心语义袋:
List(gloss(Brazil2),textBrazil)={(nut,oily,meat,shell):(US,African,Americans,civil,rights,Brazil,philosophy,whitening,blacks,non-whites,active,civil,rights,movement)}
(4)通过核心语义袋,计算出词语每个义项的注解集与消歧文本之间的相似度。
通过以下公式(17)计算义项ti的注解集gloss(ti)与待消歧文本textt的相似度:
sim(gloss(ti),textt)=max{sim(glBagj,textBag)|j∈[1,pi]} (17)
其中,max{·}表示求集合中的最大值,核心语义袋glBagj与textBag之间的相似度通过如下的公式(18)计算:
其中,B1表示核心语义袋glBagj,B2表示核心语义袋textBag,|B1|、|B2|分别表示表示核心语义袋B1、B2中词语的个数。词语u与v的相似度sim(u,v)采用如下的公式(19)计算:
其中,函数depth(u)表示词语u在WordNet层次结构中的深度,LCS(u,v)表示词语u与v在WordNet中的最近公共父结点。
(5)输出注解集与消歧文本相似度最高的义项作为消歧结果。
根据步骤(4)计算词语t每个义项的注解集与待消歧文本textt的相似度,将其中相似度最大的义项t*作为最终消歧结果,即词语t在消歧文本textt中的消歧结果为注解集与textt的相似度最高的义项t*,如公式(20)所示:
其中,nt表示词语t的义项个数,t*表示t的使sim(gloss(ti),text)计算值最大的义项,sim(gloss(ti),textt)由公式(16)计算。
例如:
通过公式(17)、(18)与(19)可计算出义项Brazil1的注解集与消歧文本textBrazil的相似度为:
sim(gloss(Brazil1),textBrazil)=MAX(0.627,0.408,0.745)=0.745
同理可得义项Brazil2的注解集与消歧文本textBrazil的相似度为:
sim(gloss(Brazil2),textBrazil)=MAX(0.576)=0.576
最终通过公式(20)计算得到相似度最大的义项1作为消岐结果,即消岐结果是注解集与消歧文本相似度等于0.745的义项Brazil1。
五、向量保存结构
本发明的词向量为高维向量,维度词达30万个,为方便存储与计算,本发明对于所生成的词向量和义项向量只保存其中权重不为零的维度词及其权重,而将没有保存的维度词的权重默认为0。
例如:
SFV(Brazil1)={(impa,0.042714),(lluvia,0.036314),(maracana,0.035894),(petropolis,0.04243),...,(in,0.008653),(to,0.000161),(and,0.002992)}
六、实验对比
本实施例使用2019年7月1日发布的英语维基百科版本进行实验对比,该版本包含15GB的页面文本,其中包含5,895,703篇页面文章。本实施例使用JWPL(Java WikipediaLibrary)工具来解析Wikipedia下载数据库。JWPL运行在从维基百科下载数据库创建的优化数据库上,可快速访问维基百科的页面文章、类别、链接、重定向等。本实施例使用WordNet 3.0作为义项向量生成与义项消歧的知识语料库。对于维基百科离线页面,本实施例使用perl工具进行预处理,对数据进行清洗。然后,使用DISSECT toolkit得到原始词统计向量,其生成过程为:首先选取词频排在前30万的词作为目标词,以及作为词向量维度进行词统计训练,然后利用L=2的上下文的窗口来得到目标词与维度词的共同出现的次数,最终得到词的共现矩阵与词向量。最后,使用本发明提出的方法生成词语的义项向量。
本实施例对所生成的基于维基百科词统计与WordNet的义项向量与所提出的义项消歧方法,进行了相应的测试,选取了国际上广泛认可的通用词语相关性测试集WordSim-353与带消歧文本的词语相关性测试集SCWS-2003(Stanford’s Contextual WordSimilarities),如表1所示:
表1.用于实验对比的两个数据集
针对以上两个数据集,本实施例采用Spearman系数对比,来展现本发明方法的试验结果,Spearman系数计算公式如下所示:
其中n表示数据集中词对的数目,di指的是变量Xi与变量Yi之间的等级差异,Xi指的是人工判定值列表中的第i个元素,Yi指的是计算值列表中的第i个元素。本实施例实现的本发明方法在两种数据集中与原始词统计向量的对比结果如下表所示:
表2.义项向量与词向量在两个典型数据集中的Spearman系数对比
Method | WordSim-353 | SCWS |
原始词统计向量 | 0.634 | 0.584 |
本发明的义项向量与消歧方法 | 0.638 | 0.631 |
从本实施例的实验中可以看出,对于未带消歧文本的WordSim-353数据集而言,本发明提出的义项向量与消歧方法和原始词统计向量的计算结果持平,并且稍有提高,说明本发明的方法并没有偏离词统计向量的主方向,而且没有造成负面影响;而在带有消歧文本的SCWS2003数据集中,可以看出,经过本发明提出的消歧方法对义项进行消歧,本发明提出的义项向量在此数据集中起到了关键性作用,Spearman系数从0.58大幅度提升到了0.63,这充分说明本发明提出的基于维基百科词统计与WordNet的义项向量生成与义项消歧方法是可行和优秀的。
Claims (4)
1.一种基于词统计与WordNet的义项表示与消歧方法,其特征是,包括如下步骤:
步骤1、获取维基百科的离线页面文件,并对离线维基百科页面文件进行预处理,得到预处理好的维基百科语料;
步骤2、对于预处理好的维基百科语料,选取词频排在前K的词作为训练目标词与向量维度词进行词统计训练,得到词共现矩阵与词向量;
步骤3、从WordNet中获取词语的义项集及其同义词集;
步骤4、步骤2所得到的词共现矩阵与词向量和步骤3所得到的义项集及其同义词集,通过合并同义词的词向量,生成词语的义项向量;
步骤5、从WordNet中获取词语的每个义项的注解集;
步骤6、将义项注解句与消歧文本形成待比较的文本对列表;
步骤7、将待比较文本对列表中的文本,进行词根还原处理,提取出它们之中的名词与动词分别作为它们的核心语义袋,以将文本对的比较转换为由名词和动词组成的核心语义袋的比较;
步骤8、通过核心语义袋,计算出词语每个义项的注解集与消歧文本之间的相似度;
步骤9、根据词语每个义项的注解集与消歧文本之间的相似度,输出注解集与消歧文本相似度最高的义项作为消歧结果。
2.根据权利要求1所述的一种基于词统计与WordNet的义项表示与消歧方法,其特征是,步骤4的具体过程如下:
步骤4.1、对于词语t的第i个义项ti,将该词语t的词向量V(t)作为义项ti的初始化义项向量SV0(ti),即令SV0(ti)=V(t);
步骤4.2、对于同义词集中单义同义词st,依次采用下式将该单义同义词st的词向量V(st)与初始化义项向量SV0(ti)进行迭代合并,生成义项ti的一级义项向量SV1(ti),如下式所示:
SV1(ti)={(si,wt(si,SV0(ti))+wt(si,V(st))|si∈D1∪D2}
其中,wt(si,SV0(ti))表示维度词si在初始化义项向量SV0(ti)中的权重,wt(si,V(st))表示维度词si在词向量V(st)中的权重,D1表示初始化义项向量SV0(ti)中权重不为0的维度词的集合,D2表示词向量V(st)中权重不为0的维度词的集合;
在每次迭代合并前,先使用上一次迭代合并的结果SV1(ti)作为初始化义项向量SV0(ti),即令SV0(ti)=SV1(ti);若义项ti同义词集中不存在任何单义同义词,则令SV1(ti)=SV0(ti);
步骤4.3、对于同义词集中多义同义词dt,依次采用下式将该多义同义词dt词向量V(dt)与一级义项向量SV1(ti)进行迭代合并,生成义项ti的二级义项向量SV2(ti),如下式所示:
其中,wt(si,SV1(ti))表示维度词si在一级义项向量SV1(ti)中的权重,wt2(si,V(dt))表示维度词si在词向量V(dt)中的权重,wt(sj,SV1(ti))表示维度词sj在一级义项向量SV1(ti)中的权重,D3表示一级义项向量SV1(ti)中权重不为0的维度词的集合,D4表示词向量V(dt)中权重不为0的维度词的集合;
在每次迭代合并前,先使用上一次迭代合并的结果SV2(ti)作为一级义项向量SV1(ti),即令SV1(ti)=SV2(ti);若义项ti同义词集中不存在任何多义同义词,则令SV2(ti)=SV1(ti);
步骤4.4、对于义项ti同义词集中的组合同义词ct,将该组合同义词ct中的第一个词ft的词向量V(ft)作为组合同义词ct的初始化组合词向量CV0(ct),即令CV0(ct)=V(ft);
步骤4.5、对于组合词同义词ct中的独立词at,依次采用下式将词向量V(at)与初始化组合词向量CV0(ct)进行迭代合并,生成组合同义词组合同义词ct的一级组合词向量CV1(ct),如下式所示:
其中,wt(si,CV0(ct))表示维度词si在初始化组合词向量CV0(ct)中的权重,wt(si,V(at))表示维度词si在词向量V(at)中的权重,wt(sj,CV0(ct))表示维度词sj在初始化组合词向量CV0(ct)中的权重,D5表示初始化组合词向量CV0(ct)中权重不为0的维度词的集合,D6表示词向量V(at)中权重不为0的维度词的集合;
在每次迭代合并前,先使用上一次迭代合并的结果CV1(ct)作为初始化组合词向量CV0(ct),即令CV0(ct)=CV1(ct);
步骤4.6、依次将步骤4.3所得ti的二级义项向量SV2(ti)与步骤4.5所得的一级组合词向量CV1(ct)进行迭代合并,生成义项ti的最终向量SFV(ti),如下式所示:
其中,wt(si,SV2(ti))表示维度词si在二级义项向量SV2(ti)中的权重,wt(si,CV1(ct))表示维度词si在一级组合词向量CV1(ct)中的权重,wt(sj,SV2(ti))表示维度词sj在二级义项向量SV2(ti)中的权重,D7表示二级义项向量SV2(ti)中权重不为0的维度词的集合,D8表示一级组合词向量CV1(ct)中权重不为0的维度词的集合;
在每次迭代合并前,先使用上一次迭代合并的结果SFV(ti)作为二级义项向量SV2(ti),即令SV2(ti)=SFV(ti);若义项ti同义词集中无任何组合同义词,则令SFV(ti)=SV2(ti)。
3.根据权利要求1所述的一种基于词统计与WordNet的义项表示与消歧方法,其特征是,对于所生成的词向量和义项向量,只保存其中权重不为零的维度词及其权重,而将没有保存的维度词的权重默认为0。
4.根据权利要求1所述的一种基于词统计与WordNet的义项表示与消歧方法,其特征是,步骤8中,词语t的义项ti的注解集gloss(ti)与待消歧词语t所在的消歧文本textt之间的相似度sim(gloss(ti),textt)为:
sim(gloss(ti),textt)=max{sim(glBagj,textBag)|j∈[1,pi]}
其中,sim(glBagj,textBag)表示核心语义袋glBagj与textBag之间的相似度,
max{·}表示求最大值,glBagj表示从注解句子glj中提取出的由名词与动词组成的核心语义袋,glj表示义项ti的注解集gloss(ti)中任意一个由分号分隔的注解句子,textBag表示从待消歧文本textt中提取出的由名词与动词组成的核心语义袋,pi表示义项ti的注解集gloss(ti)中注解句子的个数,B1表示核心语义袋glBagj,B2表示核心语义袋textBag,|·|表示核心语义袋中词语的个数,depth(u)表示词语u在WordNet层次结构中的深度,depth(v)表示词语v在WordNet层次结构中的深度,LCS(u,v)表示词语u与v在WordNet中的最近公共父结点,depth(LCS(u,v))表示最近公共父结点在WordNet层次结构中的深度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910803617.XA CN110569503B (zh) | 2019-08-28 | 2019-08-28 | 一种基于词统计与WordNet的义项表示与消歧方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910803617.XA CN110569503B (zh) | 2019-08-28 | 2019-08-28 | 一种基于词统计与WordNet的义项表示与消歧方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110569503A true CN110569503A (zh) | 2019-12-13 |
CN110569503B CN110569503B (zh) | 2023-12-29 |
Family
ID=68776561
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910803617.XA Active CN110569503B (zh) | 2019-08-28 | 2019-08-28 | 一种基于词统计与WordNet的义项表示与消歧方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110569503B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113128210A (zh) * | 2021-03-08 | 2021-07-16 | 西安理工大学 | 一种基于同义词发现的网页表格信息解析方法 |
CN113326686A (zh) * | 2020-02-28 | 2021-08-31 | 株式会社斯库林集团 | 相似度计算装置、记录介质以及相似度计算方法 |
CN114091473A (zh) * | 2022-01-20 | 2022-02-25 | 北京建筑大学 | 一种基于综合语义的Web服务发现方法 |
CN117610579A (zh) * | 2024-01-19 | 2024-02-27 | 卓世未来(天津)科技有限公司 | 基于长短时记忆网络的语义分析方法及系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1916887A (zh) * | 2006-09-06 | 2007-02-21 | 哈尔滨工程大学 | 基于替换词技术的无指导词义消歧方法 |
CN101295294A (zh) * | 2008-06-12 | 2008-10-29 | 昆明理工大学 | 基于信息增益改进贝叶斯词义消歧方法 |
US20080275694A1 (en) * | 2007-05-04 | 2008-11-06 | Expert System S.P.A. | Method and system for automatically extracting relations between concepts included in text |
CN103729343A (zh) * | 2013-10-10 | 2014-04-16 | 上海交通大学 | 基于百科链接共现的语义消岐方法 |
CN108446269A (zh) * | 2018-03-05 | 2018-08-24 | 昆明理工大学 | 一种基于词向量的词义消歧方法及装置 |
CN108647705A (zh) * | 2018-04-23 | 2018-10-12 | 北京交通大学 | 基于图像和文本语义相似度的图像语义消歧方法和装置 |
CN108874772A (zh) * | 2018-05-25 | 2018-11-23 | 太原理工大学 | 一种多义词词向量消歧方法 |
CN108932222A (zh) * | 2017-05-22 | 2018-12-04 | 中国移动通信有限公司研究院 | 一种获取词语相关度的方法及装置 |
CN109325230A (zh) * | 2018-09-21 | 2019-02-12 | 广西师范大学 | 一种基于维基百科双向链接的词语语义相关度判断方法 |
-
2019
- 2019-08-28 CN CN201910803617.XA patent/CN110569503B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1916887A (zh) * | 2006-09-06 | 2007-02-21 | 哈尔滨工程大学 | 基于替换词技术的无指导词义消歧方法 |
US20080275694A1 (en) * | 2007-05-04 | 2008-11-06 | Expert System S.P.A. | Method and system for automatically extracting relations between concepts included in text |
CN101295294A (zh) * | 2008-06-12 | 2008-10-29 | 昆明理工大学 | 基于信息增益改进贝叶斯词义消歧方法 |
CN103729343A (zh) * | 2013-10-10 | 2014-04-16 | 上海交通大学 | 基于百科链接共现的语义消岐方法 |
CN108932222A (zh) * | 2017-05-22 | 2018-12-04 | 中国移动通信有限公司研究院 | 一种获取词语相关度的方法及装置 |
CN108446269A (zh) * | 2018-03-05 | 2018-08-24 | 昆明理工大学 | 一种基于词向量的词义消歧方法及装置 |
CN108647705A (zh) * | 2018-04-23 | 2018-10-12 | 北京交通大学 | 基于图像和文本语义相似度的图像语义消歧方法和装置 |
CN108874772A (zh) * | 2018-05-25 | 2018-11-23 | 太原理工大学 | 一种多义词词向量消歧方法 |
CN109325230A (zh) * | 2018-09-21 | 2019-02-12 | 广西师范大学 | 一种基于维基百科双向链接的词语语义相关度判断方法 |
Non-Patent Citations (4)
Title |
---|
XINHUA ZHU 等: "An efficient approach for measuring semantic relatedness using Wikipedia bidirectional links", 《JOURNAL OF APPLIED INTELLIGENCE》 * |
史海峰 等: "一种基于Perl的词义消岐方法研究与设计", 《电脑知识与技术》 * |
孙茂松 等: "借重于人工知识库的词和义项的向量表示:以HowNet为例", 《中文信息学报》 * |
林泽斐 等: "多特征融合的中文命名实体链接方法研究", 《情报学报》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113326686A (zh) * | 2020-02-28 | 2021-08-31 | 株式会社斯库林集团 | 相似度计算装置、记录介质以及相似度计算方法 |
CN113326686B (zh) * | 2020-02-28 | 2024-05-10 | 株式会社斯库林集团 | 相似度计算装置、记录介质以及相似度计算方法 |
CN113128210A (zh) * | 2021-03-08 | 2021-07-16 | 西安理工大学 | 一种基于同义词发现的网页表格信息解析方法 |
CN114091473A (zh) * | 2022-01-20 | 2022-02-25 | 北京建筑大学 | 一种基于综合语义的Web服务发现方法 |
CN114091473B (zh) * | 2022-01-20 | 2022-05-03 | 北京建筑大学 | 一种基于综合语义的Web服务发现方法 |
CN117610579A (zh) * | 2024-01-19 | 2024-02-27 | 卓世未来(天津)科技有限公司 | 基于长短时记忆网络的语义分析方法及系统 |
CN117610579B (zh) * | 2024-01-19 | 2024-04-16 | 卓世未来(天津)科技有限公司 | 基于长短时记忆网络的语义分析方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110569503B (zh) | 2023-12-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Vougiouklis et al. | Neural wikipedian: Generating textual summaries from knowledge base triples | |
Zouaghi et al. | Combination of information retrieval methods with LESK algorithm for Arabic word sense disambiguation | |
US20180260381A1 (en) | Prepositional phrase attachment over word embedding products | |
CN110569503B (zh) | 一种基于词统计与WordNet的义项表示与消歧方法 | |
Toshevska et al. | Comparative analysis of word embeddings for capturing word similarities | |
Egger | Text representations and word embeddings: Vectorizing textual data | |
CN114265936A (zh) | 一种科技项目文本挖掘的实现方法 | |
Gaikwad et al. | Adaptive glove and fasttext model for hindi word embeddings | |
CN110750642A (zh) | 一种基于cnn的中文关系分类方法及系统 | |
Stankevičius et al. | Testing pre-trained Transformer models for Lithuanian news clustering | |
Manias et al. | An evaluation of neural machine translation and pre-trained word embeddings in multilingual neural sentiment analysis | |
Zhang et al. | Multi-document extractive summarization using window-based sentence representation | |
Han et al. | Unsupervised Word Sense Disambiguation based on Word Embedding and Collocation. | |
Pitichotchokphokhin et al. | Discover underlying topics in Thai news articles: a comparative study of probabilistic and matrix factorization approaches | |
Asnani et al. | Sentence completion using text prediction systems | |
Bertels | Chapter 14. Terminology and distributional analysis of corpora | |
Song | Word embeddings, sense embeddings and their application to word sense induction | |
Toshevska | The ability of word embeddings to capture word similarities | |
Beumer | Evaluation of Text Document Clustering using k-Means | |
Bernard et al. | Methods for word encoding: A survey | |
Yeşiltaş et al. | Intrinsic and extrinsic evaluation of word embedding models | |
Bhola et al. | Text Summarization Based On Ranking Techniques | |
Maciołek et al. | Using shallow semantic analysis and graph modelling for document classification | |
Bergsma | Large-scale semi-supervised learning for natural language processing | |
Melymuka et al. | Modeling derivational morphology in Ukrainian |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20230816 Address after: Room 801, 85 Kefeng Road, Huangpu District, Guangzhou City, Guangdong Province Applicant after: Yami Technology (Guangzhou) Co.,Ltd. Address before: 541004 No. 15 Yucai Road, Qixing District, Guilin, the Guangxi Zhuang Autonomous Region Applicant before: Guangxi Normal University |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |