CN108446269B

CN108446269B - 一种基于词向量的词义消歧方法及装置

Info

Publication number: CN108446269B
Application number: CN201810179896.2A
Authority: CN
Inventors: 吕晓伟; 贾连印
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2018-03-05
Filing date: 2018-03-05
Publication date: 2021-11-23
Anticipated expiration: 2038-03-05
Also published as: CN108446269A

Abstract

本发明涉及一种基于词向量的词义消歧方法及装置，本发明方法包括数据预处理步骤，对文档和义项进行去标点符号、分词等处理；训练词向量步骤，使用词向量训练工具训练词向量；上下文向量表示步骤，获取词向量并采用局部加权方法计算上下文向量；义项向量表示步骤，获取义项各个词的词向量，计算得到义项向量；相似度计算步骤，计算上下文向量与各个义项向量之间的余弦相似度；义项分布频率计算步骤，统计数据集中歧义词的各个义项的分布频率；最终得分统计步骤，计算上下文与各个义项的余弦相似度以及各个义项频率的综合得分，最高得分的义项为最佳词义。

Description

一种基于词向量的词义消歧方法及装置

技术领域

本发明涉及一种基于词向量的词义消歧方法及装置，属于自然语言处理（NaturalLanguage Processing）领域、机器翻译（Machine Translation）领域、人工智能（Artificial Intelligence）等领域。

背景技术

近年来，随着科技的发展，词意消歧在自然语言处理、机器翻译、人工智能等领域的重要性日益凸显。词意消歧成为一个迫切需要解决的问题。

随着词义消歧概念的普及，学者们提出了有关词义消歧的解决方法。早期使用的词义消歧知识是人工编织的规则，但手工编写规则费时费力且存在知识获取的瓶颈问题，随后语言学家提供的各类词典成为人们获取词义消歧知识的一个重要知识来源。目前，主要有四种方法进行词义消歧：基于有监督的方法、基于无监督的方法、基于半监督的方法以及基于知识的方法，其中基于有监督的方法效果最好。近年来研究者普遍使用词向量进行词意消歧。

随着Word2vec训练所得的词向量的出现，自然语言处理领域有了新的研究工具。不久之后，GloVe成为训练词向量的新工具。

词向量很早就被应用在词义消歧任务中，早前的向量表示方式：One-HotRepresentation，此方法表示的某一个词的词向量长度为词表的长度，该词向量大部分位置都为零，只有该词在词表中的位置对应的维度为1，很明显，这种方法难以表示词包含的语义信息及单词之间的语义关系。此外，这种表示方式存在数据稀疏的问题。近年来，单词的分布式表示，得到了广泛的应用。与One-Hot Representation不同，该方法是将单词表示为低维实数向量。在低维向量空间中，可以根据计算两者之间的距离来衡量两个单词之间的相似程度。单词的分布式表示解决了One-Hot Representation表示词向量存在的两个问题。目前有两种常见的训练单词的分布式表示模型：word2vec和GloVe。两者均可生成高质量的词向量，但GloVe模型训练速度比word2vec更快，效果与word2vec相当。

发明内容

本发明要解决的技术问题是提供一种基于词向量的词义消歧方法以及装置，有效支持词义消歧，用于机器翻译系统中。

本发明的技术方案是：一种基于词向量的词义消歧方法，包括：

1）数据预处理步骤，对文档和义项进行去标点符号、分词等处理；

2）训练词向量步骤，使用词向量训练工具训练词向量；

3）上下文向量表示步骤，获取词向量并采用局部加权方法计算上下文向量；

4）义项向量表示步骤，获取义项各个词的词向量，得到义项向量；

5）相似度计算步骤，计算上下文向量与各个义项向量之间的余弦相似度；

6）义项分布频率计算步骤，统计数据集中歧义词的各个义项的分布频率；

7）最终得分统计步骤，计算上下文与各个义项的余弦相似度以及各个义项频率的综合得分，最高得分的义项为最佳词义。

所述数据预处理步骤，具体包括如下步骤：

步骤110：给定一篇包含歧义词的文档，对该文档进行处理：去标点符号、分词、去停用词、大写转换为小写，经过预处理的文档，称为上下文；

步骤120：给定一个歧义词的所有义项，对各个义项进行处理：去标点符号、分词、去停用词、大写转换为小写。

所述训练词向量步骤，具体包括如下步骤：

步骤210：下载训练词向量的源代码，对语料库进行训练，得到词向量。

所述上下文向量表示步骤，具体包括如下步骤：

步骤310：抽取上下文中每个词的词向量并将其存入矩阵Am*n中，其中，m表示词的个数，n表示词向量的维度，上下文中的第i个词的词向量存入矩阵中的第i行，矩阵中的一行表示一个词的词向量；

步骤320：基于公式

计算上下文中各个词相对歧义词的位置权重，公式中t2是调节权重下降速度的参数，x是上下文中歧义词的位置，xi是上下文中其它词的的位置，将权重存入向量Bm中，其中m表示上下文中词的个数，上下文中的第i个词的权重存入向量B的第i列；

步骤330：计算向量B与矩阵A的乘积BA，结果为该上下文的向量表示。

所述义项向量表示步骤，具体包括如下步骤：

步骤410：抽取义项中每个词的词向量并将其存入矩阵Mk*n中，k表示义项中词的个数，n表示词向量的维度，义项中的第i个词的词向量存入矩阵中的第i行，矩阵中的一行表示一个词的词向量；

步骤420：将矩阵M中的所有词的词向量进行向量相加，用所得相加的向量除以词的个数，所得为义项的向量表示。

所述相似度计算步骤，具体包括如下步骤：

步骤510：基于公式：cos(Ec，Eg_j) =

计算上下文和歧义词各个义项的余弦相似度，其中，Ec表示上下文向量，Eg_j表示歧义词第j个义项的向量表示，cos(Ec，Eg_j) 表示上下文与歧义词的第j个义项的余弦相似度。

所述义项分布频率计算步骤，具体包括如下步骤：

步骤610：根据公式 pi =

计算数据集中歧义词的各个义项的频率，N表示包含该歧义词的所有上下文个数，ni表示该歧义词以第i个义项为解释的上下文个数，pi表示该歧义词以第i个义项为解释的频率。

所述最终得分统计步骤，具体包括如下步骤：

步骤710：综合考虑上下文与义项的余弦相似度以及该义项的分布频率对词义消歧的影响，根据公式score = a*cos(Ec，Eg_j) +(1-a)*pi计算得到该义项的综合得分，其中a为参数，cos(Ec，Eg_j) 表示上下文Ec与歧义词的第j个义项Eg_j的余弦相似度，得分最高的义项为该歧义词在该上下文中的最佳解释。

一种基于词向量的词义消歧装置，包括：

1）数据预处理模块，对文档和义项进行去标点符号、分词等处理；

2）训练词向量模块，使用词向量训练工具训练词向量；

3）上下文向量表示模块，获取词向量并采用局部加权方法计算上下文向量；

4）义项向量表示模块，获取义项各个词的词向量，得到义项向量；

5）相似度计算模块，计算上下文向量与各个义项向量之间的余弦相似度；

6）义项分布频率计算模块，统计数据集中歧义词的各个义项的分布频率；

7）最终得分统计模块，计算上下文与各个义项的余弦相似度以及各个义项频率的综合得分，最高得分的义项为最佳词义。

本发明的有益效果是：采用局部加权方法计算歧义词上下文的位置权重，充分考虑位置信息对消歧的影响；采用义项分布信息，有效利用语料库统计信息；本发明可用于词义消歧、机器翻译系统。

附图说明

图1是本发明基于词向量的词义消歧功能模块图。

具体实施方式

下面结合附图和具体实施方式，对本发明作进一步说明。

实施例1：本实施例使用senseval-3数据集中的数据，数据集包括训练集、测试集以及所有歧义词的义项的集合；其中训练集中包含7860篇文档，测试集中包含3944篇文档，每篇文档都有对应的歧义词、文档编码以及该歧义词在此文档中的正确义项；所有歧义词的义项集合包含57个歧义词的义项编码以及义项。现以歧义词“activate”的一篇文档为例进行消歧。

包含歧义词“activate”的文档：Do you know what it is ，and where I canget one .We suspect you had seen the TerrexAutospade ，which is made by WolfTools .It is quite a hefty spade ， with bicycle - type handlebars and asprung lever at the rear ，which you step on to <head>activate</head> it .Used correctly ，you should n't have to bend your back during general digging，although it wo n't lift out the soil and put in a barrow if you need to moveit !If gardening tends to give you backache ，remember to take plenty of restperiods during the day ，and never try to lift more than you can easily copewith .

歧义词“activate”的5个义项编码以及义项：

38201to initiate action in; make active

38202in chemistry， to make more reactive， as by heating

38203to assign (a military unit) to active status

38204in physics， to cause radioactive properties in (a substance)

38205to cause decomposition in (sewage) by aerating

如图1所示，一种基于词向量的词义消歧方法，包括：

数据预处理步骤：

步骤110：给定一篇包含歧义词的文档，对该文档进行处理：去标点符号、分词、去停用词、大写转换为小写，经过预处理的文档，称为上下文；实现结果如下：

know get one suspect seen terrexautospade made wolf tools quite heftyspade bicycle handlebars sprung lever rear stepheadactivatehead usedcorrectly bend back during general digging although wo lift soil put barrowneed move gardening tends give backache remember plenty rest periods duringday never try lift easily cope

步骤120：给定一个歧义词的所有义项，对各个义项进行处理：去标点符号、分词、去停用词、大写转换为小写；实现后，义项编码及义项如下：

38201 initiate action make active

38202 chemistrymore reactive heating

38203assign military unit active status

38204 physics cause radioactive properties substance

38205 cause decomposition sewage aerating

训练词向量步骤：

步骤210：下载训练词向量的源代码，对语料库进行训练，得到词向量；

以词“know”、“activate”为例，两个词的300维的词向量分别是：

[-2.62529999e-02，4.11139995e-01，-4.68080014e-01，…，-2.34130006e-02，4.75050002e-01，1.23850003e-01]；

[-1.10760003e-01，3.07859987e-01， -5.19800007e-01，…，-5.91050014e-02，4.76040006e-01，5.66099994e-02]；

上下文向量表示步骤：

步骤310：抽取上下文中每个词的词向量并将其存入矩阵Am*n中，其中，m表示词的个数，n表示词向量的维度，本例中m=49，n=300，上下文中的第i个词的词向量存入矩阵中的第i行，矩阵中的一行表示一个词的词向量；实现结果如下：

[[-2.62529999e-02，4.11139995e-01，…，4.75050002e-01，1.23850003e-01]

[-1.10760003e-01，3.07859987e-01，…，4.76040006e-01，5.66099994e-02]

…………

[-9.95339975e-02，2.82019991e-02，…，-3.99640016e-02，2.68079996e-01]]；

步骤320：基于公式

计算上下文中各个词相对歧义词的位置权重，公式中t2是调节权重下降速度的参数，x是上下文中歧义词的位置，xi是上下文中其它词的的位置，将权重存入向量Bm中，其中m表示上下文中词的个数，上下文中的第i个词的权重存入向量B的第i列；实现结果如下：

[9.65245626e-26，1.03773685e-24，1.06126027e-23， 1.03238540e-22，

………1.60517620e-38， 8.19401262e-40，3.97883400e-41，1.83780864e-42]；

步骤330：计算向量B与矩阵A的乘积BA，结果为该上下文的向量表示，用Ec表示；实现结果如下：

[[1.34674590e-01，5.81783204e-02，… -3.04692422e-01， 1.03679117e-01，

………

[-9.00919935e-02，1.47305308e-01，… 3.51065350e-02，2.71614425e-01]]；

义项向量表示步骤：

步骤420：将矩阵M中的所有词的词向量进行向量相加，用所得相加的向量除以词的个数，所得为义项的向量表示；实现结果即歧义词“activate”的5个义项向量分别如下：

[-0.06176156，0.21150161， -0.18226977， ...， -0.14494376，

0.07097206， 0.08464497]，

[-0.04601055，0.06800555， -0.05235233， ...， -0.07595333，

0.10239056， -0.05206611]，

[-0.07221354，0.29186285， -0.24584937， ...， -0.08069564，

0.16140236，0.07554618]，

[ 0.06056986，0.1559733 ， -0.03548143， ...，0.09485072，

0.01992543，0.03718328]，

[-0.10650909，0.12446728， -0.14020599， ...， -0.070124，

0.11317574，0.03033654]，

相似度计算步骤：

步骤510：基于公式：cos(Ec，Eg_j) =

计算上下文和歧义词各个义项的余弦相似度，其中，Ec表示上下文向量，Eg_j表示歧义词第j个义项的向量表示，cos(Ec，Eg_j) 表示上下文与歧义词的第j个义项的余弦相似度；实现结果如下：

上下文向量与歧义词的5个义项向量分别计算余弦相似度，结果为：0.76828741，0.67721497，0.72607436，0.61211477，0.53736317；

义项分布频率计算步骤：

步骤610：根据公式

计算数据集中歧义词的各个义项的频率，N表示包含该歧义词的所有上下文个数，ni表示该歧义词以第i个义项为解释的上下文个数。pi表示该歧义词以第i个义项为解释的频率；实现结果如下：

通过对数据集的统计可知，歧义词“activate”的5个义项出现的次数分别是182、46、37、2、0，根据公式计算可得5个义项的分布频率分别为：0.681648、0.172284、0.138577、0.007491、0.0，

最终得分统计步骤：

步骤710：综合考虑上下文与义项的余弦相似度以及该义项的分布频率对词义消歧的影响，根据公式score = a*cos(Ec，Eg_j) +(1-a)*

计算得到该义项的综合得分，其中a为参数，cos(Ec，Eg_j) 表示上下文Ec与歧义词的第j个义项Eg_j的余弦相似度，得分最高的义项为该歧义词在该上下文中的最佳解释；实现结果如下：

上下文与各个义项的相似度以及各个义项的分布频率之和作为最终得分，上下文与各个义项的相似度为：0.76828741，0.67721497，0.72607436，0.61211477，0.53736317；各个义项的分布频率为：0.681648、0.172284、0.138577、0.007491、0.0，本例中取参数a=0.5，所以上下文与各个义项的综合得分分别为：

38201：0.5*0.76828741 + 0.5*0.681648 = 0.724967705；

38202：0.5*0.67721497 + 0.5*0.172284 = 0.424749485；

38203：0.5*0.72607436 + 0.5*0.138577 = 0.43232568；

38204：0.5*0.61211477 + 0.5*0.007491 =0.309802885；

38205：0.5*0.53736317 + 0.5*0.0 = 0.268681585。

比较5个义项的综合得分，第1个义项的得分最高，故第1个义项为该上下文中歧义词的最佳义项。

一种基于词向量的词义消歧装置，包括：

数据预处理模块，对文档和义项进行去标点符号、分词等处理；

上下文向量表示模块，获取词向量并采用局部加权方法计算上下文向量；

义项向量表示模块，获取义项各个词的词向量，得到义项向量；

相似度计算模块，计算上下文向量与各个义项向量之间的余弦相似度；

义项分布频率计算模块，统计数据集中歧义词的各个义项的分布频率；

最终得分统计模块，计算上下文与各个义项的余弦相似度以及各个义项频率的综合得分，最高得分的义项为最佳词义。

以上结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种基于词向量的词义消歧方法，其特征在于：

1)数据预处理步骤，对文档和义项进行去标点符号、分词处理；

2)训练词向量步骤，使用词向量训练工具训练词向量；

3)上下文向量表示步骤，获取词向量并采用局部加权方法计算上下文向量；

所述上下文向量表示步骤，具体包括如下步骤：

步骤320：基于公式

计算上下文中各个词相对歧义词的位置权重，公式中t²是调节权重下降速度的参数，x是上下文中歧义词的位置，x_i是上下文中其它词的位置，将权重存入向量Bm中，其中m表示上下文中词的个数，上下文中的第i个词的权重存入向量B的第i列；

步骤330：计算向量B与矩阵A的乘积BA，结果为该上下文的向量表示；

4)义项向量表示步骤，获取义项各个词的词向量，得到义项向量；

5)相似度计算步骤，计算上下文向量与各个义项向量之间的余弦相似度；

6)义项分布频率计算步骤，统计数据集中歧义词的各个义项的分布频率；

7)最终得分统计步骤，计算上下文与各个义项的余弦相似度以及各个义项频率的综合得分，最高得分的义项为最佳词义。

2.根据权利要求1所述的基于词向量的词义消歧方法，其特征在于：所述数据预处理步骤，具体包括如下步骤：

3.根据权利要求1所述的基于词向量的词义消歧方法，其特征在于：所述训练词向量步骤，具体包括如下步骤：

4.根据权利要求1所述的基于词向量的词义消歧方法，其特征在于：所述义项向量表示步骤，具体包括如下步骤：

5.根据权利要求1所述的基于词向量的词义消歧方法，其特征在于：所述相似度计算步骤，具体包括如下步骤：

步骤510：基于公式：

计算上下文和歧义词各个义项的余弦相似度，其中，Ec表示上下文向量，Eg_j表示歧义词第j个义项的向量表示，cos(Ec，Eg_j)表示上下文与歧义词的第j个义项的余弦相似度。

6.根据权利要求1所述的基于词向量的词义消歧方法，其特征在于：所述义项分布频率计算步骤，具体包括如下步骤：

步骤610：根据公式

计算数据集中歧义词的各个义项的频率，N表示包含该歧义词的所有上下文个数，n_i表示该歧义词以第i个义项为解释的上下文个数，pi表示该歧义词以第i个义项为解释的频率。

7.根据权利要求1所述的基于词向量的词义消歧方法，其特征在于：所述最终得分统计步骤，具体包括如下步骤：

步骤710：综合考虑上下文与义项的余弦相似度以及该义项的分布频率对词义消歧的影响，根据公式score＝a*cos(Ec，Eg_j)+(1-a)*pi计算得到该义项的综合得分，其中a为参数，cos(Ec，Eg_j)表示上下文Ec与歧义词的第j个义项Eg_j的余弦相似度，pi表示该歧义词以第i个义项为解释的频率，得分最高的义项为该歧义词在该上下文中的最佳解释。

8.一种基于词向量的词义消歧装置，其特征在于：包括：

1)数据预处理模块，对文档和义项进行去标点符号、分词处理；

2)训练词向量模块，使用词向量训练工具训练词向量；

3)上下文向量表示模块，获取词向量并采用局部加权方法计算上下文向量；

所述上下文向量表示步骤，具体包括如下步骤：

步骤320：基于公式

4)义项向量表示模块，获取义项各个词的词向量，得到义项向量；

5)相似度计算模块，计算上下文向量与各个义项向量之间的余弦相似度；

6)义项分布频率计算模块，统计数据集中歧义词的各个义项的分布频率；

7)最终得分统计模块，计算上下文与各个义项的余弦相似度以及各个义项频率的综合得分，最高得分的义项为最佳词义。