CN108446269B - 一种基于词向量的词义消歧方法及装置 - Google Patents

一种基于词向量的词义消歧方法及装置 Download PDF

Info

Publication number
CN108446269B
CN108446269B CN201810179896.2A CN201810179896A CN108446269B CN 108446269 B CN108446269 B CN 108446269B CN 201810179896 A CN201810179896 A CN 201810179896A CN 108446269 B CN108446269 B CN 108446269B
Authority
CN
China
Prior art keywords
word
vector
context
semantic item
item
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810179896.2A
Other languages
English (en)
Other versions
CN108446269A (zh
Inventor
吕晓伟
贾连印
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN201810179896.2A priority Critical patent/CN108446269B/zh
Publication of CN108446269A publication Critical patent/CN108446269A/zh
Application granted granted Critical
Publication of CN108446269B publication Critical patent/CN108446269B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于词向量的词义消歧方法及装置,本发明方法包括数据预处理步骤,对文档和义项进行去标点符号、分词等处理;训练词向量步骤,使用词向量训练工具训练词向量;上下文向量表示步骤,获取词向量并采用局部加权方法计算上下文向量;义项向量表示步骤,获取义项各个词的词向量,计算得到义项向量;相似度计算步骤,计算上下文向量与各个义项向量之间的余弦相似度;义项分布频率计算步骤,统计数据集中歧义词的各个义项的分布频率;最终得分统计步骤,计算上下文与各个义项的余弦相似度以及各个义项频率的综合得分,最高得分的义项为最佳词义。

Description

一种基于词向量的词义消歧方法及装置
技术领域
本发明涉及一种基于词向量的词义消歧方法及装置,属于自然语言处理(NaturalLanguage Processing)领域、机器翻译(Machine Translation)领域、人工智能(Artificial Intelligence)等领域。
背景技术
近年来,随着科技的发展,词意消歧在自然语言处理、机器翻译、人工智能等领域的重要性日益凸显。词意消歧成为一个迫切需要解决的问题。
随着词义消歧概念的普及,学者们提出了有关词义消歧的解决方法。早期使用的词义消歧知识是人工编织的规则,但手工编写规则费时费力且存在知识获取的瓶颈问题,随后语言学家提供的各类词典成为人们获取词义消歧知识的一个重要知识来源。目前,主要有四种方法进行词义消歧:基于有监督的方法、基于无监督的方法、基于半监督的方法以及基于知识的方法,其中基于有监督的方法效果最好。近年来研究者普遍使用词向量进行词意消歧。
随着Word2vec训练所得的词向量的出现,自然语言处理领域有了新的研究工具。不久之后,GloVe成为训练词向量的新工具。
词向量很早就被应用在词义消歧任务中,早前的向量表示方式:One-HotRepresentation,此方法表示的某一个词的词向量长度为词表的长度,该词向量大部分位置都为零,只有该词在词表中的位置对应的维度为1,很明显,这种方法难以表示词包含的语义信息及单词之间的语义关系。此外,这种表示方式存在数据稀疏的问题。近年来,单词的分布式表示,得到了广泛的应用。与One-Hot Representation不同,该方法是将单词表示为低维实数向量。在低维向量空间中,可以根据计算两者之间的距离来衡量两个单词之间的相似程度。单词的分布式表示解决了One-Hot Representation表示词向量存在的两个问题。目前有两种常见的训练单词的分布式表示模型:word2vec和GloVe。两者均可生成高质量的词向量,但GloVe模型训练速度比word2vec更快,效果与word2vec相当。
发明内容
本发明要解决的技术问题是提供一种基于词向量的词义消歧方法以及装置,有效支持词义消歧,用于机器翻译系统中。
本发明的技术方案是:一种基于词向量的词义消歧方法,包括:
1)数据预处理步骤,对文档和义项进行去标点符号、分词等处理;
2)训练词向量步骤,使用词向量训练工具训练词向量;
3)上下文向量表示步骤,获取词向量并采用局部加权方法计算上下文向量;
4)义项向量表示步骤,获取义项各个词的词向量,得到义项向量;
5)相似度计算步骤,计算上下文向量与各个义项向量之间的余弦相似度;
6)义项分布频率计算步骤,统计数据集中歧义词的各个义项的分布频率;
7)最终得分统计步骤,计算上下文与各个义项的余弦相似度以及各个义项频率的综合得分,最高得分的义项为最佳词义。
所述数据预处理步骤,具体包括如下步骤:
步骤110:给定一篇包含歧义词的文档,对该文档进行处理:去标点符号、分词、去停用词、大写转换为小写,经过预处理的文档,称为上下文;
步骤120:给定一个歧义词的所有义项,对各个义项进行处理:去标点符号、分词、去停用词、大写转换为小写。
所述训练词向量步骤,具体包括如下步骤:
步骤210:下载训练词向量的源代码,对语料库进行训练,得到词向量。
所述上下文向量表示步骤,具体包括如下步骤:
步骤310:抽取上下文中每个词的词向量并将其存入矩阵Am*n中,其中,m表示词的个数,n表示词向量的维度,上下文中的第i个词的词向量存入矩阵中的第i行,矩阵中的一行表示一个词的词向量;
步骤320:基于公式
Figure 673306DEST_PATH_IMAGE001
计算上下文中各个词相对歧义词的位置权重,公式中t2是调节权重下降速度的参数,x是上下文中歧义词的位置,xi是上下文中其它词的的位置,将权重存入向量Bm中,其中m表示上下文中词的个数,上下文中的第i个词的权重存入向量B的第i列;
步骤330:计算向量B与矩阵A的乘积BA,结果为该上下文的向量表示。
所述义项向量表示步骤,具体包括如下步骤:
步骤410:抽取义项中每个词的词向量并将其存入矩阵Mk*n中,k表示义项中词的个数,n表示词向量的维度,义项中的第i个词的词向量存入矩阵中的第i行,矩阵中的一行表示一个词的词向量;
步骤420:将矩阵M中的所有词的词向量进行向量相加,用所得相加的向量除以词的个数,所得为义项的向量表示。
所述相似度计算步骤,具体包括如下步骤:
步骤510:基于公式:cos(Ec,Eg_j) =
Figure 121605DEST_PATH_IMAGE002
计算上下文和歧义词各个义项的余弦相似度,其中,Ec表示上下文向量,Eg_j表示歧义词第j个义项的向量表示,cos(Ec,Eg_j) 表示上下文与歧义词的第j个义项的余弦相似度。
所述义项分布频率计算步骤,具体包括如下步骤:
步骤610:根据公式 pi =
Figure 432500DEST_PATH_IMAGE003
计算数据集中歧义词的各个义项的频率,N表示包含该歧义词的所有上下文个数,ni表示该歧义词以第i个义项为解释的上下文个数,pi表示该歧义词以第i个义项为解释的频率。
所述最终得分统计步骤,具体包括如下步骤:
步骤710:综合考虑上下文与义项的余弦相似度以及该义项的分布频率对词义消歧的影响,根据公式score = a*cos(Ec,Eg_j) +(1-a)*pi计算得到该义项的综合得分,其中a为参数,cos(Ec,Eg_j) 表示上下文Ec与歧义词的第j个义项Eg_j的余弦相似度,得分最高的义项为该歧义词在该上下文中的最佳解释。
一种基于词向量的词义消歧装置,包括:
1)数据预处理模块,对文档和义项进行去标点符号、分词等处理;
2)训练词向量模块,使用词向量训练工具训练词向量;
3)上下文向量表示模块,获取词向量并采用局部加权方法计算上下文向量;
4)义项向量表示模块,获取义项各个词的词向量,得到义项向量;
5)相似度计算模块,计算上下文向量与各个义项向量之间的余弦相似度;
6)义项分布频率计算模块,统计数据集中歧义词的各个义项的分布频率;
7)最终得分统计模块,计算上下文与各个义项的余弦相似度以及各个义项频率的综合得分,最高得分的义项为最佳词义。
本发明的有益效果是:采用局部加权方法计算歧义词上下文的位置权重,充分考虑位置信息对消歧的影响;采用义项分布信息,有效利用语料库统计信息;本发明可用于词义消歧、机器翻译系统。
附图说明
图1是本发明基于词向量的词义消歧功能模块图。
具体实施方式
下面结合附图和具体实施方式,对本发明 作进一步说明。
实施例1:本实施例使用senseval-3数据集中的数据,数据集包括训练集、测试集以及所有歧义词的义项的集合;其中训练集中包含7860篇文档,测试集中包含3944篇文档,每篇文档都有对应的歧义词、文档编码以及该歧义词在此文档中的正确义项;所有歧义词的义项集合包含57个歧义词的义项编码以及义项。现以歧义词“activate”的一篇文档为例进行消歧。
包含歧义词“activate”的文档:Do you know what it is ,and where I canget one .We suspect you had seen the TerrexAutospade ,which is made by WolfTools .It is quite a hefty spade , with bicycle - type handlebars and asprung lever at the rear ,which you step on to <head>activate</head> it .Used correctly ,you should n't have to bend your back during general digging,although it wo n't lift out the soil and put in a barrow if you need to moveit !If gardening tends to give you backache ,remember to take plenty of restperiods during the day ,and never try to lift more than you can easily copewith .
歧义词“activate”的5个义项编码以及义项:
38201to initiate action in; make active
38202in chemistry, to make more reactive, as by heating
38203to assign (a military unit) to active status
38204in physics, to cause radioactive properties in (a substance)
38205to cause decomposition in (sewage) by aerating
如图1所示,一种基于词向量的词义消歧方法,包括:
数据预处理步骤:
步骤110:给定一篇包含歧义词的文档,对该文档进行处理:去标点符号、分词、去停用词、大写转换为小写,经过预处理的文档,称为上下文;实现结果如下:
know get one suspect seen terrexautospade made wolf tools quite heftyspade bicycle handlebars sprung lever rear stepheadactivatehead usedcorrectly bend back during general digging although wo lift soil put barrowneed move gardening tends give backache remember plenty rest periods duringday never try lift easily cope
步骤120:给定一个歧义词的所有义项,对各个义项进行处理:去标点符号、分词、去停用词、大写转换为小写;实现后,义项编码及义项如下:
38201 initiate action make active
38202 chemistrymore reactive heating
38203assign military unit active status
38204 physics cause radioactive properties substance
38205 cause decomposition sewage aerating
训练词向量步骤:
步骤210:下载训练词向量的源代码,对语料库进行训练,得到词向量;
以词“know”、“activate”为例,两个词的300维的词向量分别是:
[-2.62529999e-02,4.11139995e-01,-4.68080014e-01,…,-2.34130006e-02,4.75050002e-01,1.23850003e-01];
[-1.10760003e-01,3.07859987e-01, -5.19800007e-01,…,-5.91050014e-02,4.76040006e-01,5.66099994e-02];
上下文向量表示步骤:
步骤310:抽取上下文中每个词的词向量并将其存入矩阵Am*n中,其中,m表示词的个数,n表示词向量的维度,本例中m=49,n=300,上下文中的第i个词的词向量存入矩阵中的第i行,矩阵中的一行表示一个词的词向量;实现结果如下:
[[-2.62529999e-02,4.11139995e-01,…,4.75050002e-01,1.23850003e-01]
[-1.10760003e-01,3.07859987e-01,…,4.76040006e-01,5.66099994e-02]
…………
[-9.95339975e-02,2.82019991e-02,…,-3.99640016e-02,2.68079996e-01]];
步骤320:基于公式
Figure 358868DEST_PATH_IMAGE001
计算上下文中各个词相对歧义词的位置权重,公式中t2是调节权重下降速度的参数,x是上下文中歧义词的位置,xi是上下文中其它词的的位置,将权重存入向量Bm中,其中m表示上下文中词的个数,上下文中的第i个词的权重存入向量B的第i列;实现结果如下:
[9.65245626e-26,1.03773685e-24,1.06126027e-23, 1.03238540e-22,
………1.60517620e-38, 8.19401262e-40,3.97883400e-41,1.83780864e-42];
步骤330:计算向量B与矩阵A的乘积BA,结果为该上下文的向量表示,用Ec表示;实现结果如下:
[[1.34674590e-01,5.81783204e-02,… -3.04692422e-01, 1.03679117e-01,
………
[-9.00919935e-02,1.47305308e-01,… 3.51065350e-02,2.71614425e-01]];
义项向量表示步骤:
步骤410:抽取义项中每个词的词向量并将其存入矩阵Mk*n中,k表示义项中词的个数,n表示词向量的维度,义项中的第i个词的词向量存入矩阵中的第i行,矩阵中的一行表示一个词的词向量;
步骤420:将矩阵M中的所有词的词向量进行向量相加,用所得相加的向量除以词的个数,所得为义项的向量表示;实现结果即歧义词“activate”的5个义项向量分别如下:
[-0.06176156,0.21150161, -0.18226977, ..., -0.14494376,
0.07097206, 0.08464497],
[-0.04601055,0.06800555, -0.05235233, ..., -0.07595333,
0.10239056, -0.05206611],
[-0.07221354,0.29186285, -0.24584937, ..., -0.08069564,
0.16140236,0.07554618],
[ 0.06056986,0.1559733 , -0.03548143, ...,0.09485072,
0.01992543,0.03718328],
[-0.10650909,0.12446728, -0.14020599, ..., -0.070124,
0.11317574,0.03033654],
相似度计算步骤:
步骤510:基于公式:cos(Ec,Eg_j) =
Figure 969978DEST_PATH_IMAGE002
计算上下文和歧义词各个义项的余弦相似度,其中,Ec表示上下文向量,Eg_j表示歧义词第j个义项的向量表示,cos(Ec,Eg_j) 表示上下文与歧义词的第j个义项的余弦相似度;实现结果如下:
上下文向量与歧义词的5个义项向量分别计算余弦相似度,结果为:0.76828741,0.67721497,0.72607436,0.61211477,0.53736317;
义项分布频率计算步骤:
步骤610:根据公式
Figure 323599DEST_PATH_IMAGE004
计算数据集中歧义词的各个义项的频率,N表示包含该歧义词的所有上下文个数,ni表示该歧义词以第i个义项为解释的上下文个数。pi表示该歧义词以第i个义项为解释的频率;实现结果如下:
通过对数据集的统计可知,歧义词“activate”的5个义项出现的次数分别是182、46、37、2、0,根据公式计算可得5个义项的分布频率分别为:0.681648、0.172284、0.138577、0.007491、0.0,
最终得分统计步骤:
步骤710:综合考虑上下文与义项的余弦相似度以及该义项的分布频率对词义消歧的影响,根据公式score = a*cos(Ec,Eg_j) +(1-a)*
Figure 121790DEST_PATH_IMAGE005
计算得到该义项的综合得分,其中a为参数,cos(Ec,Eg_j) 表示上下文Ec与歧义词的第j个义项Eg_j的余弦相似度,得分最高的义项为该歧义词在该上下文中的最佳解释;实现结果如下:
上下文与各个义项的相似度以及各个义项的分布频率之和作为最终得分,上下文与各个义项的相似度为:0.76828741,0.67721497,0.72607436,0.61211477,0.53736317;各个义项的分布频率为:0.681648、0.172284、0.138577、0.007491、0.0,本例中取参数a=0.5,所以上下文与各个义项的综合得分分别为:
38201:0.5*0.76828741 + 0.5*0.681648 = 0.724967705;
38202:0.5*0.67721497 + 0.5*0.172284 = 0.424749485;
38203:0.5*0.72607436 + 0.5*0.138577 = 0.43232568;
38204:0.5*0.61211477 + 0.5*0.007491 =0.309802885;
38205:0.5*0.53736317 + 0.5*0.0 = 0.268681585。
比较5个义项的综合得分,第1个义项的得分最高,故第1个义项为该上下文中歧义词的最佳义项。
一种基于词向量的词义消歧装置,包括:
数据预处理模块,对文档和义项进行去标点符号、分词等处理;
上下文向量表示模块,获取词向量并采用局部加权方法计算上下文向量;
义项向量表示模块,获取义项各个词的词向量,得到义项向量;
相似度计算模块,计算上下文向量与各个义项向量之间的余弦相似度;
义项分布频率计算模块,统计数据集中歧义词的各个义项的分布频率;
最终得分统计模块,计算上下文与各个义项的余弦相似度以及各个义项频率的综合得分,最高得分的义项为最佳词义。
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (8)

1.一种基于词向量的词义消歧方法,其特征在于:
1)数据预处理步骤,对文档和义项进行去标点符号、分词处理;
2)训练词向量步骤,使用词向量训练工具训练词向量;
3)上下文向量表示步骤,获取词向量并采用局部加权方法计算上下文向量;
所述上下文向量表示步骤,具体包括如下步骤:
步骤310:抽取上下文中每个词的词向量并将其存入矩阵Am*n中,其中,m表示词的个数,n表示词向量的维度,上下文中的第i个词的词向量存入矩阵中的第i行,矩阵中的一行表示一个词的词向量;
步骤320:基于公式
Figure FDA0003071248540000011
计算上下文中各个词相对歧义词的位置权重,公式中t2是调节权重下降速度的参数,x是上下文中歧义词的位置,xi是上下文中其它词的位置,将权重存入向量Bm中,其中m表示上下文中词的个数,上下文中的第i个词的权重存入向量B的第i列;
步骤330:计算向量B与矩阵A的乘积BA,结果为该上下文的向量表示;
4)义项向量表示步骤,获取义项各个词的词向量,得到义项向量;
5)相似度计算步骤,计算上下文向量与各个义项向量之间的余弦相似度;
6)义项分布频率计算步骤,统计数据集中歧义词的各个义项的分布频率;
7)最终得分统计步骤,计算上下文与各个义项的余弦相似度以及各个义项频率的综合得分,最高得分的义项为最佳词义。
2.根据权利要求1所述的基于词向量的词义消歧方法,其特征在于:所述数据预处理步骤,具体包括如下步骤:
步骤110:给定一篇包含歧义词的文档,对该文档进行处理:去标点符号、分词、去停用词、大写转换为小写,经过预处理的文档,称为上下文;
步骤120:给定一个歧义词的所有义项,对各个义项进行处理:去标点符号、分词、去停用词、大写转换为小写。
3.根据权利要求1所述的基于词向量的词义消歧方法,其特征在于:所述训练词向量步骤,具体包括如下步骤:
步骤210:下载训练词向量的源代码,对语料库进行训练,得到词向量。
4.根据权利要求1所述的基于词向量的词义消歧方法,其特征在于:所述义项向量表示步骤,具体包括如下步骤:
步骤410:抽取义项中每个词的词向量并将其存入矩阵Mk*n中,k表示义项中词的个数,n表示词向量的维度,义项中的第i个词的词向量存入矩阵中的第i行,矩阵中的一行表示一个词的词向量;
步骤420:将矩阵M中的所有词的词向量进行向量相加,用所得相加的向量除以词的个数,所得为义项的向量表示。
5.根据权利要求1所述的基于词向量的词义消歧方法,其特征在于:所述相似度计算步骤,具体包括如下步骤:
步骤510:基于公式:
Figure FDA0003071248540000021
计算上下文和歧义词各个义项的余弦相似度,其中,Ec表示上下文向量,Eg_j表示歧义词第j个义项的向量表示,cos(Ec,Eg_j)表示上下文与歧义词的第j个义项的余弦相似度。
6.根据权利要求1所述的基于词向量的词义消歧方法,其特征在于:所述义项分布频率计算步骤,具体包括如下步骤:
步骤610:根据公式
Figure FDA0003071248540000022
计算数据集中歧义词的各个义项的频率,N表示包含该歧义词的所有上下文个数,ni表示该歧义词以第i个义项为解释的上下文个数,pi表示该歧义词以第i个义项为解释的频率。
7.根据权利要求1所述的基于词向量的词义消歧方法,其特征在于:所述最终得分统计步骤,具体包括如下步骤:
步骤710:综合考虑上下文与义项的余弦相似度以及该义项的分布频率对词义消歧的影响,根据公式score=a*cos(Ec,Eg_j)+(1-a)*pi计算得到该义项的综合得分,其中a为参数,cos(Ec,Eg_j)表示上下文Ec与歧义词的第j个义项Eg_j的余弦相似度,pi表示该歧义词以第i个义项为解释的频率,得分最高的义项为该歧义词在该上下文中的最佳解释。
8.一种基于词向量的词义消歧装置,其特征在于:包括:
1)数据预处理模块,对文档和义项进行去标点符号、分词处理;
2)训练词向量模块,使用词向量训练工具训练词向量;
3)上下文向量表示模块,获取词向量并采用局部加权方法计算上下文向量;
所述上下文向量表示步骤,具体包括如下步骤:
步骤310:抽取上下文中每个词的词向量并将其存入矩阵Am*n中,其中,m表示词的个数,n表示词向量的维度,上下文中的第i个词的词向量存入矩阵中的第i行,矩阵中的一行表示一个词的词向量;
步骤320:基于公式
Figure FDA0003071248540000031
计算上下文中各个词相对歧义词的位置权重,公式中t2是调节权重下降速度的参数,x是上下文中歧义词的位置,xi是上下文中其它词的位置,将权重存入向量Bm中,其中m表示上下文中词的个数,上下文中的第i个词的权重存入向量B的第i列;
步骤330:计算向量B与矩阵A的乘积BA,结果为该上下文的向量表示;
4)义项向量表示模块,获取义项各个词的词向量,得到义项向量;
5)相似度计算模块,计算上下文向量与各个义项向量之间的余弦相似度;
6)义项分布频率计算模块,统计数据集中歧义词的各个义项的分布频率;
7)最终得分统计模块,计算上下文与各个义项的余弦相似度以及各个义项频率的综合得分,最高得分的义项为最佳词义。
CN201810179896.2A 2018-03-05 2018-03-05 一种基于词向量的词义消歧方法及装置 Active CN108446269B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810179896.2A CN108446269B (zh) 2018-03-05 2018-03-05 一种基于词向量的词义消歧方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810179896.2A CN108446269B (zh) 2018-03-05 2018-03-05 一种基于词向量的词义消歧方法及装置

Publications (2)

Publication Number Publication Date
CN108446269A CN108446269A (zh) 2018-08-24
CN108446269B true CN108446269B (zh) 2021-11-23

Family

ID=63193594

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810179896.2A Active CN108446269B (zh) 2018-03-05 2018-03-05 一种基于词向量的词义消歧方法及装置

Country Status (1)

Country Link
CN (1) CN108446269B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220269934A1 (en) * 2021-02-22 2022-08-25 Tencent America LLC Dialogue model training based on reference-free discriminators

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110874412B (zh) * 2018-08-31 2022-07-26 中国移动通信有限公司研究院 一种本体匹配方法、装置和计算机存储介质
CN110929507B (zh) * 2018-08-31 2023-07-21 中国移动通信有限公司研究院 一种文本信息处理的方法、装置及存储介质
CN109657242B (zh) * 2018-12-17 2023-05-05 中科国力(镇江)智能技术有限公司 一种汉语冗余义项自动消除系统
CN110069775B (zh) * 2019-03-19 2023-04-18 江苏瑞焕激光科技有限公司 实体消歧方法及系统
CN110569499B (zh) * 2019-07-18 2021-10-08 中国科学院信息工程研究所 一种基于多模态词向量的生成式对话系统编码方法及编码器
CN110569503B (zh) * 2019-08-28 2023-12-29 芽米科技(广州)有限公司 一种基于词统计与WordNet的义项表示与消歧方法
CN110750644B (zh) * 2019-10-15 2024-01-30 广东外语外贸大学 一种基于随机游走的词义排歧和词义学习方法
CN110826331B (zh) * 2019-10-28 2023-04-18 南京师范大学 基于交互式与迭代式学习的地名标注语料库智能构建方法
CN110781670B (zh) * 2019-10-28 2023-03-03 合肥工业大学 基于百科知识库和词向量的中文地名语义消歧方法
CN111310481B (zh) * 2020-01-19 2021-05-18 百度在线网络技术(北京)有限公司 语音翻译方法、装置、计算机设备和存储介质
CN111310475B (zh) * 2020-02-04 2023-03-10 支付宝(杭州)信息技术有限公司 词义消歧模型的训练方法及装置
CN111368532B (zh) * 2020-03-18 2022-12-09 昆明理工大学 一种基于lda的主题词嵌入消歧方法及系统
CN111783418B (zh) * 2020-06-09 2024-04-05 北京北大软件工程股份有限公司 一种中文词义表示学习方法及装置
CN112214999A (zh) * 2020-09-30 2021-01-12 内蒙古科技大学 一种基于图模型和词向量相结合的词义消歧方法及装置
CN117610579B (zh) * 2024-01-19 2024-04-16 卓世未来(天津)科技有限公司 基于长短时记忆网络的语义分析方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105630763A (zh) * 2014-10-31 2016-06-01 国际商业机器公司 用于提及检测中的消歧的方法和系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6751621B1 (en) * 2000-01-27 2004-06-15 Manning & Napier Information Services, Llc. Construction of trainable semantic vectors and clustering, classification, and searching using trainable semantic vectors
CN104731771A (zh) * 2015-03-27 2015-06-24 大连理工大学 一种基于词向量的缩写词歧义消除系统及方法
CN107102989B (zh) * 2017-05-24 2020-09-29 南京大学 一种基于词向量、卷积神经网络的实体消歧方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105630763A (zh) * 2014-10-31 2016-06-01 国际商业机器公司 用于提及检测中的消歧的方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Enhancing Recurrent Neural Networks with Positional Attention for Question Answering;Qin Chen等;《Proceedings of the 40th International ACM SIGIR Conference on Research and Development in Information Retrieval》;20170811;第993-996页 *
基于领域知识和词向量的词义消歧方法;杨安 等;《北京大学学报(自然科学版)》;20170331;第53卷(第2期);第204-210页 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220269934A1 (en) * 2021-02-22 2022-08-25 Tencent America LLC Dialogue model training based on reference-free discriminators

Also Published As

Publication number Publication date
CN108446269A (zh) 2018-08-24

Similar Documents

Publication Publication Date Title
CN108446269B (zh) 一种基于词向量的词义消歧方法及装置
CN108595706B (zh) 一种基于主题词类相似性的文档语义表示方法、文本分类方法和装置
Caglayan et al. LIUM-CVC submissions for WMT17 multimodal translation task
Seong et al. FOSNet: An end-to-end trainable deep neural network for scene recognition
Wang et al. Regularized latent semantic indexing
CN109697285A (zh) 增强语义表示的层次BiLSTM中文电子病历疾病编码标注方法
Berg-Kirkpatrick et al. Unsupervised transcription of historical documents
US20120330958A1 (en) Regularized Latent Semantic Indexing for Topic Modeling
CN110321925A (zh) 一种基于语义聚合指纹的文本多粒度相似度比对方法
WO2021227935A1 (zh) 训练词向量嵌入模型
CN107943824A (zh) 一种基于lda的大数据新闻分类方法、系统及装置
Zolotareva et al. Abstractive Text Summarization using Transfer Learning.
Picard et al. Efficient image signatures and similarities using tensor products of local descriptors
CN108595546B (zh) 基于半监督的跨媒体特征学习检索方法
CN110968697B (zh) 文本分类方法、装置、设备及可读存储介质
Nam et al. Padding methods in convolutional sequence model: an application in Japanese handwriting recognition
CN106919556A (zh) 一种采用稀疏编码的自然语言语义深度解析算法
CN103914527B (zh) 一种基于新编码方式的遗传规划算法的图形图像识别与匹配方法
CN115017884B (zh) 基于图文多模态门控增强的文本平行句对抽取方法
Adate et al. Understanding single image super-resolution techniques with generative adversarial networks
CN110083724B (zh) 一种相似图像检索方法、装置及系统
CN115062174A (zh) 基于语义原型树的端到端图像字幕生成方法
CN114861601A (zh) 基于旋转式编码的事件联合抽取方法及存储介质
CN107909003A (zh) 一种针对大词汇量的手势识别方法
CN110197252A (zh) 基于距离的深度学习

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant