CN111783418B

CN111783418B - 一种中文词义表示学习方法及装置

Info

Publication number: CN111783418B
Application number: CN202010517766.2A
Authority: CN
Inventors: 张世琨; 张通; 叶蔚; 张君福; 赵文; 胡文蕙
Original assignee: Beijing Peking University Software Engineering Co ltd
Current assignee: Beijing Peking University Software Engineering Co ltd
Priority date: 2020-06-09
Filing date: 2020-06-09
Publication date: 2024-04-05
Anticipated expiration: 2040-06-09
Also published as: CN111783418A

Abstract

本发明涉及一种中文词义表示学习方法及装置，包括获取训练语料，生成全局上下文矩阵；对HowNet知识库进行解析，生成词义‑词相似度矩阵；根据所述全局上下文矩阵和词义‑词相似度矩阵，计算生成全局词义上下文向量；对所述全局词义上下文向量进行词义软消歧；采用基于注意力拓展的跳字模型对词义软消歧后的词义向量进行训练，输出词义向量。本发明通过提出的上下文软消歧机制，能够捕捉词的真正词义，提高深度学习模型在下游任务的效果。

Description

一种中文词义表示学习方法及装置

技术领域

本发明属于人工智能技术领域，具体涉及一种中文词义表示学习方法及装置。

背景技术

分布式词表示在自然语言处理中是重要的基础研究方向。通过大规模语料来预训练词的分布式表示并将该表示作为神经网络的输入是深度学习中的通用基础方法。分布式词表示的主要思想是，将每个词映射到一个连续的低维语义空间，该空间中具有相似语义的词距离相近。分布式词表示最经典，最常用的工作是Word2vec[1]和GloVe，它们分别利用利用上下文词的预测和共现矩阵的分解[2]来学习词的分布式表示。其中，谷歌提出的Word2vec包含两个模型，分别是跳字模型(Skip-gram)和连续词袋模型(CBOW)。Skip-gram模型利用中心词预测上下文词，而CBOW模型利用上下文词预测中心词。之后的很多词表示学习工作和变种都是基于这两种模型进行的。

传统的词表示学习一个很大的局限性在于无法对一个词的多个词意进行独立的表示。在中文里存在很多多义词，例如“苹果”既可以表示一种水果，同时也可以表示一个手机品牌。在分布式词表示中，一个词无论是否是多义词都会用一个单独的向量来进行表示。然而，用一个单独的向量无法捕捉一个词的不同词义，这会带来词义的混合缺陷问题，并将影响语义空间的有效性。

发明内容

有鉴于此，本发明的目的在于克服现有技术的不足，提供一种中文词义表示学习方法及装置，以解决现有技术中用一个单独的向量无法捕捉一个词的不同词义，造成词义的混合缺陷，且会影响语义空间的有效性的问题。

为实现以上目的，本发明采用如下技术方案：一种中文词义表示学习方法，包括：

获取训练语料，生成全局上下文矩阵；

对HowNet知识库进行解析，生成词义-词相似度矩阵；

根据所述全局上下文矩阵和词义-词相似度矩阵，计算生成全局词义上下文向量；

对所述全局词义上下文向量进行词义软消歧；

采用基于注意力拓展的跳字模型对词义软消歧后的词义向量进行训练，输出词义向量。

进一步的，在语料库中获取训练语料。

进一步的，所述生成全局上下文矩阵，包括：

对训练语料进行清洗，构建词典；

生成每个词的全局上下文向量；

组合每个词的上下文向量，生成全局上下文矩阵；

对所述矩阵进行降采样和归一化处理。

进一步的，所述对语料库进行清洗，构建词典，包括：

对训练语料进行过滤，删除其中的非中文字符；

对过滤后的训练语料进行处理构建词典，词典中保留词频大于50的词；

将保留在词典中的每个词在语料库中的上下文词进行统计，得到词袋。

进一步的，所述对HowNet知识库进行解析，生成词义-词相相似度矩阵，包括：

对HowNet知识库进行解析，计算每个词义之间的相似度；

根据每个词义之间的相似度计算词义和每个词之间的相似度，生成词义-词相似度矩阵。

进一步的，所述计算每个词义之间的相似度，包括：

计算HowNet知识库中定义的每一个词义之间的距离；

根据每个词和词义之间的距离生成词义-词相似度。

进一步的，所述对所述全局词义上下文矩阵进行词义软消歧，包括：

采用注意力机制计算每个词义的注意力权重；

根据每个词义的注意力权重进行软消歧。

本申请实施例提供一种中文词义表示学习装置，包括：

第一生成模块，用于获取训练语料，生成全局上下文矩阵；

第二生成模块，用于对HowNet知识库进行解析，生成词义-词相似度矩阵；

计算模块，用于根据所述全局上下文矩阵和词义-词相似度矩阵，计算生成全局词义上下文向量；

消歧模块，用于对所述全局词义上下文向量进行词义软消歧；

输出模块，用于采用基于注意力拓展的跳字模型对词义软消歧后的词义向量进行训练，输出词义向量。

进一步的，在语料库中获取训练语料。

进一步的，所述生成全局上下文矩阵，包括：

对语料库进行清洗，构建词典；

生成每个词的全局上下文向量；

组合每个词的上下文向量，生成全局上下文矩阵；

对所述矩阵进行降采样和归一化处理。

本发明采用以上技术方案，能够达到的有益效果包括：

本发明提供一种中文词义表示学习方法，包括获取训练语料，生成全局上下文矩阵；对HowNet知识库进行解析，生成词义-词相似度矩阵；根据所述全局上下文矩阵和词义-词相似度矩阵，计算生成全局词义上下文向量；对所述全局词义上下文向量进行词义软消歧；采用基于注意力拓展的跳字模型对词义软消歧后的词义向量进行训练，输出词义向量。本发明通过上下文软消歧机制，能够训练中文的词义表示，利用该表示提高深度学习模型在下游任务的效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种中文词义表示学习方法的步骤示意图；

图2为本发明一种中文词义表示学习方法的流程示意图；

图3为本发明相似度示意图；

图4为本发明一种中文词义表示学习装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将对本发明的技术方案进行详细的描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式，都属于本发明所保护的范围。

近年来出现了多个研究针对词义来进行表示学习的研究，主要分为以下两类：

1)无监督的词义表示学习

无监督的词义表示学习不利于知识库中的先验知识，通过无监督的方法在大规模的语料中对词义进行表示学习。Reisinger等人提出用对词的上下文进行聚类的方法来得到词的词义并进行表示学习。在这个方法的基础上，Huang等人提出了基于聚类的语言模型来学习词义表示。在前面的两种方法中，每个词的词义数量是相通的，通过预先定义得到。Neelakantan等人提出了一个模型来联合学习词义的消歧和表示，改工作一个重要创新在于它支持每个词有不同的词义数量，更符合现实场景。Lee等人提出了一种基于强化学习的模块化框架，它使用一个独立的词义选择模块来进行词义的表示学习。Li等人在自然语言处理的下游任务中对无监督的词义表示进行的测试，发现对一些任务引入词义表示学习可以获得显著的提升，这验证了词义表示学习的有效性。

2)基于知识的词义表示学习

无监督的词义表示学习到的词义无法与现实世界中词的真实词义对应起来。基于知识的表示学习使用的词汇知识库，如英文的WordNet等，利用其中人类的先验知识，来在大规模语料上对每一个词标注好的词义进行表示学习。一个有代表性的工作是Chen等人在2014年提出的词义表示学习和消岐的联合模型。该模型将词义表示学习和词义消岐结合了起来，作者的解释是这两个技术的结合有着相互促进的作用。同时，每个词的词义从WordNet中获取，并通过WordNet中的自然语言解释来对该词义进行初始化。Yang等人提出使用一种有监督的微调框架来从预训练的词向量中学习多原型的词义向量。这种后加工的方法给出了一种新的解决方案。

除了WordNet以外，还有很多有词义先验知识知识库被用于词义的表示学习工作，如Wikipedia、BableNet、ConceptNet、PPDB等。

中文词义知识库--HowNet

近年来，词义混淆的问题也逐渐受到了中文自然语言处理研究人员的关注。在中文中，目前主流的方法同样是假设词嵌入向量和词之间是一一对应的关系，但是，中文的多义词导致的词义混淆问题同样不可忽视。相比英文词义表示学习研究，对于多原型的词义表示学习方法，中文的研究还处于相对空白的阶段。利用中文中的词义知识资源来进行词义的表示学习是一项非常有意义的工作。

Hownet，也称知网，是一个机器可读的，以汉语的词语所代表的概念为描述对象，以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。在Hownet中，对每一个词标记了明确的词义集合。对于每一个词义，Hownet用义原来表示它的部分和属性的意思。以“苹果”一词为例“苹果”一词包含两个词义：“苹果厂商”和“水果”；对于第一个词义，用于描述该词义的义原是：“电脑”、“样式值”、“能”、“携带”、“特定牌子”，也就是说，苹果是一种样式是能携带的特定牌子的电脑；第二个词义只有“水果”一个义原。

下面结合附图介绍本申请实施例中提供的一个具体的一种中文词义表示学习方法。

如图1所示，本申请实施例中提供的一种中文词义表示学习方法包括：

S101，获取训练语料，生成全局上下文矩阵；

首先，准备一个大规模的语料库，语料库中为训练语料，对语料库中的训练语料进行清洗，清洗剩下的词生成全局词上下文矩阵。

S102，对HowNet知识库进行解析，生成词义-词相似度矩阵；

首先对HowNet进行解析，生成词义-词相似度矩阵，然后根据该相似度矩阵生成全局词义上下文向量。

S103，根据所述全局上下文矩阵和词义-词相似度矩阵，计算生成全局词义上下文向量；

S104，对所述全局词义上下文向量进行词义软消歧；

使用软消歧来进行词义表示学习。对于一段输入实例，利用每个词义的全局词义上下文向量和输入实例使用注意力机制计算相似度。

S105，采用基于注意力拓展的跳字模型对词义软消歧后的词义向量进行训练，输出词义向量。

使用拓展的Skip-gram跳字模型，并使用注意力机制来学习独立的词义表示。

一种中文词义表示学习方法的工作原理为：参见图2，首先准备训练语料并清洗，生成全局词上下文矩阵。对于知识库HowNet，进行解析，生成词义-词相似度矩阵。根据两个生成的矩阵计算得到全局词义上下文矩阵。在训练阶段，根据全局词义上下文矩阵和训练实例，使用注意力机制计算每个词义的权重来进行词义软消歧。接着用Skip-gram跳字模型进行词义向量的训练，得到预训练的词义向量。

优选的，在语料库中获取训练语料。

一些实施例中，所述生成全局上下文矩阵，包括：

对训练语料进行清洗，构建词典；

生成每个词的全局上下文向量；

组合每个词的上下文向量，生成全局上下文矩阵；

对所述矩阵进行降采样和归一化处理。

优选的，所述对语料库进行清洗，构建词典，包括：

对训练语料进行过滤，删除其中的非中文字符；

具体的，对语料库进行过滤，删除其中的非中文字符。

在预处理后的语料库上进行词典的生成，仅保留词频大于50的单词加入词典，避免词典维度过大。

对于词典中的每个词w_i，在语料库中进行统计，将其上下固定窗口K内的上下文词进行统计，获得一个词袋C_i ^w。对于词袋C_i ^w，我们使用了降采样的方法来决定它是否加入词袋中：

其中，公式(1)中sub(w_j)代表将该上下文词加入到词袋的概率，δ为阈值，f(w_j)为上下文词出现的概率。最终，我们使用了L2正则化来对每一行进行归一化：

一些实施例中，所述对HowNet知识库进行解析，生成词义-词相相似度矩阵，包括：

对HowNet知识库进行解析，计算每个词义之间的相似度；

优选的，所述计算每个词义之间的相似度，包括：

计算HowNet知识库中定义的每一个词义之间的距离；

根据每个词和词义之间的距离生成词义-词相似度。

具体的，解析HowNet，计算HowNet中定义的每一个词义之间的距离：

公式(3)中，为用来解释词义S₁的义原的集合。

之后，根据计算每个词和词义之间的距离生成词义-词相似度矩阵Sim(w)，其中，一个给定词和词义的相似度Sim(s,w)定义如下：

其中，Sw为属于词w的词义的集合。基于生成的词义-词相似度矩阵Sim(w)，对于给定词义生成全局词义S_i，生成全局上下文矩阵C^s(s_i)：

具体的，如图3所示，我们使用的中文词知识库HowNet内词，词义和义原之间关系的示例。例如，“水分”有两个词义，第一个词义代表物质上的水分，在HowNet中由“湿度”和“物质”两个义原来定义，第二个词义代表夸张，在HowNet中由“信息”，“夸大”两个义原进行定义。

一些实施例中，所述对所述全局词义上下文矩阵进行词义软消歧，包括：

采用注意力机制计算每个词义的注意力权重；

根据每个词义的注意力权重进行软消歧。

具体的，使用软消歧来进行词义表示学习。这一步我们引入了注意力机制来对目标词进行软消歧，并学习其分布式表示。具体描述如下：

首先利用该词在训练样本中真实的局部上下文向量C^γ和之前生成的全局词义上下文向量C^s(s_i)来对它进行软消歧。具体实现方法为用注意力机制计算它每一个词义s_i的注意力权重a_i:

e_i＝C^s(s_i)·C^γT (6)

其中，γ是一个放缩系数，当γ非常大时，该注意力机制可视为硬注意力。

经过词义软消歧，我们用注意力分值a_i对每个词义的表示加权，就获得了目标词的表示ν_w,计算方式如下：

然后，用ν_w来计算给定目标词w的情况下出现上下文词w_c的概率P(w_c|w)：

最后，最小化下面的损失函数：

最终输出词义向量。

下面为方便理解本技术方案，下面以多义词“苹果为例”，技术方案实现过程如下：

通过解析HowNet，可以得知中文词“苹果”共有两个词义，一个代表一种水果，另一个代表一种电脑品牌。

使用HowNet中的义原定义，得到苹果的两个词义与其他词的相似度，例如，与词义苹果(水果)最相近的词为梨，与词义苹果(电脑品牌)最相近的词为诺基亚。根据词义和词的相似度，构建词义-词相似度矩阵。

在大规模语料库中进行统计，得到相关词的全局词向量，构建全局词上下文向量矩阵。

根据词义-词相似度矩阵，可以用苹果两个词义的相似词的全局词上下文向量，表示苹果两个词义的全局词义上下文向量。

词义软消歧：在训练过程中，根据当前的训练实例和已构建的全局词义上下文向量，使用注意力机制对“苹果”进行软消歧。例如，训练实例为“新出品的苹果手机功能很全”，我们通过计算注意力得分，得到该“苹果”为水果的得分为0.13，为电脑品牌的得分为0.87。所以该上下文中苹果指的是电脑品牌。

最终，通过大规模的语料计算，得到苹果两个词义的表示向量。

具体的，使用本文计算得到的词义向量，通过计算相似度得到最相似的词，可以看出本文的词义向量精准地建模了多义词的每个词义。例子如下：

“苹果”共有两个词义，一个代表一种水果，另一个代表一种电脑品牌。通过本文的方法计算得到两个词义分别的向量表示，“苹果”(水果)在语义空间中最相近的5个词为：香蕉，果品，猕猴桃，桃子，葡萄；“苹果”(电脑品牌)在语义空间中最相近的5个词为：微软，三星，谷歌，黑莓，摩托罗拉。

“摩擦”共有两个词义，一个代表物理上的磨损，另一个代表冲突。通过本文的方法计算得到两个词义分别的向量表示，“摩擦”(磨损)在语义空间中最相近的5个词为：磨擦，磨损，色牢，牢度，刮擦；“摩擦”(冲突)在语义空间中最相近的5个词为：撕扯，厮打，矛盾，不和，争执。

本申请还提供一种中文词义表示学习装置，如图4所示，包括：

第一生成模块，用于获取训练语料，生成全局上下文矩阵；

本申请提供的中文词义表示学习装置的工作原理是，第一生成模块获取训练语料，生成全局上下文矩阵；第二生成模块对HowNet知识库进行解析，生成词义-词相似度矩阵；计算模块根据所述全局上下文矩阵和词义-词相似度矩阵，计算生成全局词义上下文向量；消歧模块对所述全局词义上下文向量进行词义软消歧；输出模块采用跳字模型对词义软消歧后的词义向量进行训练，输出词义向量。

优选的，在语料库中获取训练语料。

优选的，所述生成全局上下文矩阵，包括：

对语料库进行清洗，构建词典；

生成每个词的全局上下文向量；

组合每个词的上下文向量，生成全局上下文矩阵；

对所述矩阵进行降采样和归一化处理。

本申请实施例提供一种计算机设备，包括处理器，以及与处理器连接的存储器；

存储器用于存储计算机程序，计算机程序用于执行上述任一实施例提供的一种中文词义表示学习方法；

处理器用于调用并执行存储器中的计算机程序。

综上所述，本发明提供一种中文词义表示学习方法及装置，包括获取训练语料，生成全局上下文矩阵；对HowNet知识库进行解析，生成词义-词相似度矩阵；根据所述全局上下文矩阵和词义-词相似度矩阵，计算生成全局词义上下文向量；对所述全局词义上下文向量进行词义软消歧；采用跳字模型对词义软消歧后的词义向量进行训练，输出词义向量。能够训练中文的词义表示，利用该表示提高深度学习模型在下游任务的效果。

可以理解的是，上述提供的方法实施例与上述的装置实施例对应，相应的具体内容可以相互参考，在此不再赘述。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令方法的制造品，该指令方法实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种中文词义表示学习方法，其特征在于，包括：

获取训练语料，生成全局上下文矩阵；

对HowNet知识库进行解析，生成词义-词相似度矩阵；

对所述全局词义上下文向量进行词义软消歧；

采用基于注意力拓展的跳字模型对词义向量进行训练，输出词义向量；

所述对HowNet知识库进行解析，生成词义-词相相似度矩阵，包括：

对HowNet知识库进行解析，计算每个词义之间的相似度；

根据每个词义之间的相似度计算词义和每个词之间的相似度，生成词义-词相似度矩阵；

所述计算每个词义之间的相似度，包括：

计算HowNet知识库中定义的每一个词义之间的距离；

根据每个词和词义之间的距离生成词义-词相似度。

2.根据权利要求1所述的学习方法，其特征在于，

在语料库中获取训练语料。

3.根据权利要求2所述的学习方法，其特征在于，所述生成全局上下文矩阵，包括：

对训练语料进行清洗，构建词典；

生成每个词的全局上下文向量；

组合每个词的上下文向量，生成全局上下文矩阵；

对所述矩阵进行降采样和归一化处理。

4.根据权利要求3所述的学习方法，其特征在于，所述对训练语料进行清洗，构建词典，包括：

对训练语料进行过滤，删除其中的非中文字符；

5.根据权利要求1所述的学习方法，其特征在于，所述对所述全局词义上下文矩阵进行词义软消歧，包括：

采用注意力机制计算每个词义的注意力权重；

根据每个词义的注意力权重进行软消歧。

6.一种中文词义表示学习装置，其特征在于，包括：

第一生成模块，用于获取训练语料，生成全局上下文矩阵；

输出模块，用于采用基于注意力拓展的跳字模型对词义软消歧后的词义向量进行训练，输出词义向量；

对HowNet知识库进行解析，计算每个词义之间的相似度；

所述计算每个词义之间的相似度，包括：

计算HowNet知识库中定义的每一个词义之间的距离；

根据每个词和词义之间的距离生成词义-词相似度。

7.根据权利要求6所述的学习装置，其特征在于，

在语料库中获取训练语料。

8.根据权利要求6所述的学习装置，其特征在于，所述生成全局上下文矩阵，包括：

对语料库进行清洗，构建词典；

生成每个词的全局上下文向量；

组合每个词的上下文向量，生成全局上下文矩阵；

对所述矩阵进行降采样和归一化处理。