CN110457692A

CN110457692A - 复合词表示学习方法及装置

Info

Publication number: CN110457692A
Application number: CN201910684807.4A
Authority: CN
Inventors: 孙茂松; 岂凡超; 刘知远
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2019-07-26
Filing date: 2019-07-26
Publication date: 2019-11-15
Anticipated expiration: 2039-07-26
Also published as: CN110457692B

Abstract

本发明提供一种复合词表示学习方法及装置，方法包括：学习复合词中每个成分的基础向量表示和每个所述成分的各义原的向量表示；对于任一所述成分，根据该成分的各义原的向量表示和所述复合词中除该成分以外的其他成分的基础向量表示，基于互注意力机制获取该成分的义原增强向量表示；根据所述复合词中所有成分的基础向量表示和所有成分的义原增强向量表示，获取所述复合词的最终向量表示。本发明使得复合词的表示中包含复合词所有成分更细粒度的语义特征，提高复合词下游应用的效果，具有良好的实用性。

Description

复合词表示学习方法及装置

技术领域

本发明属于自然语言处理技术领域，尤其涉及一种复合词表示学习方法及装置。

背景技术

在语言学中，语义组合指的是复合语言单元的语义由其组成成分的语义组合而成的现象，这一现象被许多语言学家认为是语义学的基本事实。语义组合在许多的自然语言处理任务中都有重要的应用，比如语言模型、情感分析。

复合词的表示学习是语义组合的主要研究问题，尤其是双语素复合词。现有的复合词表示学习方法关注于使用更复杂的组合函数来进行建模，事实上，还可以在语义组合模型中引入外部语言知识来提高复合词表示学习的效果，比如义原知识。义原是人类语言中最小的不可再分的语义单位，一些语言学家认为所有词的语义以及其他的概念都可以用一个有限的义原集合来表示。事实上，引入义原知识可以对词的语义进行更细粒度的表示和分析，进一步可以帮助我们更好地建模语义组合、学习更好的复合词表示。知网是常用的义原知识库，可以作为很好的义原知识来源。

现有的复合词表示学习方法仅用复合词的成分信息，即基础表示对复合词进行表示学习，即使使用更复杂的组合函数，但是其生成的复合词表示在下游自然语言处理任务中，如复合词匹配和分类，仍然效果不佳。

发明内容

为克服上述现有的复合词表示学习方法仅用复合词成分的向量表示，导致下游任务效果不佳的问题或者至少部分地解决上述问题，本发明实施例提供一种复合词表示学习方法及装置。

根据本发明实施例的第一方面，提供一种复合词表示学习方法，包括：

学习复合词中每个成分的基础向量表示和每个所述成分的各义原的向量表示；

对于任一所述成分，根据该成分的各义原的向量表示和所述复合词中除该成分以外的其他成分的基础向量表示，基于互注意力机制获取该成分的义原增强向量表示；

根据所述复合词中所有成分的基础向量表示和所有成分的义原增强向量表示，获取所述复合词的最终向量表示。

根据本发明实施例第二方面提供一种复合词表示学习装置，包括：

学习模块，用于学习复合词中每个成分的基础向量表示和每个所述成分的各义原的向量表示；

增强模块，用于对于任一所述成分，根据该成分的各义原的向量表示和所述复合词中除该成分以外的其他成分的基础向量表示，基于互注意力机制获取该成分的义原增强向量表示；

获取模块，用于根据所述复合词中所有成分的基础向量表示和所有成分的义原增强向量表示，获取所述复合词的最终向量表示。

根据本发明实施例的第三个方面，还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器调用所述程序指令能够执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的复合词表示学习方法。

根据本发明实施例的第四个方面，还提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的复合词表示学习方法。

本发明实施例提供一种复合词表示学习方法及装置，该方法通过学习复合词中每个成分的基础向量表示和每个成分的各义原的向量表示，然后基于互注意力机制获取各成分的义原增强向量表示，根据所有成分的基础向量表示和义原增强向量表示获取复合词的最终向量表示，从而使得复合词的表示中包含复合词所有成分更细粒度的语义特征，即基础向量表示和义原增强向量表示，提高复合词下游应用的效果，具有良好的实用性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的复合词表示学习方法整体流程示意图；

图2为本发明又一实施例提供的复合词表示学习方法流程示意图；

图3为本发明实施例提供的复合词表示学习装置整体结构示意图；

图4为本发明实施例提供的电子设备整体结构示意图。

具体实施方式

在本发明的一个实施例中提供一种复合词表示学习方法，图1为本发明实施例提供的复合词表示学习方法整体流程示意图，该方法包括：S101，学习复合词中每个成分的基础向量表示和每个所述成分的各义原的向量表示；

其中，复合词是指由多个语素(词)复合形成的词语，构成复合词的各个词称为复合词的成分。利用大规模语料中词和词共同出现的性质，将复合词中的每个成分转化为低维实值的语义分布式表示，即词向量，使得意义相近的词有相似的词向量，便于迁移利用。将每个成分的这种词向量作为基本向量表示。同时，将每个成分的所有义原映射到低维实值的分布式空间，得到各义原的向量表示。优选地，本实施例基于GloVe模型学习每个所述成分的基础向量表示和基于SAT模型学习每个所述成分的各义原的向量表示。

S102，对于任一所述成分，根据该成分的各义原的向量表示和所述复合词中除该成分以外的其他成分的基础向量表示，基于互注意力机制获取该成分的义原增强向量表示；

由于复合词中的成分可能是多义的，即在不同复合词中同一成分会表现不同的语义，例如成分“参”在复合词“参考”和复合词“参加”中有着不同的意思，而具体表现哪个语义和复合词中的其他成分紧密相关。本实施例使用互注意力机制来建模这种语言现象。通过互注意力机制在当前复合词语境下对复合词每个成分的义原信息建模，得到复合词成分的义原增强向量表示，便于进一步增强对复合词成分的语义建模。

S103，根据所述复合词中所有成分的基础向量表示和所有成分的义原增强向量表示，获取所述复合词的最终向量表示。

将复合词中所有成分的基础向量表示和义原增强向量表示进行融合，获取复合词的最终向量表示。复合词的最终向量表示可以用于下游自然语言处理任务。如在进行复合词匹配时，根据本实施例获取需要匹配的两个复合词的最终向量表示，然后计算两个最终向量表示之间的距离，若距离小于预设阈值，则获知这两个复合词匹配，否则不匹配。

本实施例通过学习复合词中每个成分的基础向量表示和每个成分的各义原的向量表示，然后基于互注意力机制获取各成分的义原增强向量表示，根据所有成分的基础向量表示和义原增强向量表示获取复合词的最终向量表示，从而使得复合词的表示中包含复合词所有成分更细粒度的语义特征，即基础向量表示和义原增强向量表示，提高复合词表示下游应用的效果，具有良好的实用性。

在上述实施例的基础上，本实施例中所述复合词为双语素复合词；相应地，对于任一所述成分，通过以下公式根据该成分的各义原的向量表示和所述复合词中除该成分以外的其他成分的基础向量表示，基于互注意力机制获取该成分的义原增强向量表示：

e₁＝tanh(W_aw₁+b₁)；

e₂＝tanh(W_bw₂+b₂)；

其中，w₁为所述复合词中第一个成分的基础向量表示，w₂为所述复合词中第二个成分的基础向量表示，e₁为w₁的非线性变换结果，e₂为w₂的非线性变换结果，W_a和W_b为变换矩阵，b₁和b₂为偏置向量，为所述复合词中第一个成分的所有义原的集合，为所述复合词中第二个成分的所有义原的集合，w′₁为所述复合词中第一个成分的义原增强向量表示，w′₂为所述复合词中第二个成分的义原增强向量表示。

其中，双语素复合词是指包含两个成分的复合词。首先，对双语素复合词中两个成分的基础向量表示w₁和w₂做非线性变化，以基于互注意力机制将一个成分的向量表示映射到另一个成分的义原空间，从而获取各成分的义原增强向量表示。

在上述实施例的基础上，本实施例中根据所述复合词中所有成分的基础向量表示和所有成分的义原增强向量表示，获取所述复合词的最终向量表示的步骤具体包括：将所有所述成分的基础向量表示相加，将所有所述成分的义原增强向量表示相加；将基础向量表示的相加结果和义原增强向量表示的相加结果进行拼接；对拼接结果进行非线性变换，获取所述复合词的最终向量表示。

具体地，为了更好地将义原表示融入复合词成分表示学习，本实施例将复合词所有成分的基础向量表示相加，将复合词所有成分的义原增强向量表示相加后，将这两部分拼接，然后再通过非线性变换获得复合词的最终向量表示，从而实现基于非线性变换的义原增强复合词成分表示生成。优选地，本实施例通过以下公式根据所述复合词中所有成分的基础向量表示和所有成分的义原增强向量表示，获取所述复合词的最终向量表示：

p＝tanh(W_c[w₁+w₂；w′₁+w′₂]+b₃)；

其中，p为所述复合词的最终向量表示，W_c为变换矩阵，b₃为偏置向量。

在上述实施例的基础上，本实施例中对拼接结果进行非线性变换，获取所述复合词的最终向量表示的步骤具体包括：根据所述复合词的类型，获取所述类型对应的变换矩阵；其中，所述类型和所述变换矩阵预先关联存储；根据所述类型对应的变换矩阵，对拼接结果进行非线性变换，获取所述复合词的最终向量表示。

具体地，由于不同复合词的组合类型不同，可以将其作为额外的信息予以考虑，进一步提高复合词表示的细节特征。根据复合词中成分的语法类型，将复合词的组合类型分为形容词-名词、名词-名词、动词-名词和其它四类。每种类型对应有相应的复合词组合变换矩阵，r∈R_s，其中R_s表示所有复合词类型的集合。根据复合词类型对应的复合词组合变换矩阵，对拼接结果进行非线性变换，获取复合词的最终向量表示。

在上述实施例的基础上，本实施例中所述类型对应的变换矩阵为：

其中，为任一组合类型r对应的变换矩阵， U^r和V^r为低阶矩阵，d为向量表示w₁+w₂的维度，为共享矩阵，h_r为超参数，为实数集。

具体地，为了缓解过拟合的问题，也为了提高计算效率，将复合词组合矩阵分解为两个低阶矩阵的乘积和一个共享矩阵的加和。其中，h_r是一个超参数，可以根据具体的下游任务进行调整。

如图2所示，假设复合词有两个成分，第一个成分的义原有三个，第二个成分的义原有两个，根据第二个成分的基础向量表示w₂和第一个成分的第一个义原的向量表示获取第一个成分的第一个义原的注意力a_1，1，以同样的方式获取第一个成分和第二个成分的每个义原的注意力。然后，将第一个成分的义原的向量表示和相应的注意力相乘后累加，获取第一个成分的义原增强向量表示w′₁，圆形里的加号和乘号表示相乘和累加运算。以同样的方法获取第二成分的义原增强向量表示w′₂。然后将第一个成分和第二个成分的基础向量表示相加，将第一个成分和第二个成分的义原增强向量表示相加，将两个相加结果拼接，根据复合词类型对应的变换矩阵W_c ^r对拼接结果进行非线性变换，得到复合词的最终向量表示p。图2中用相同灰度的方格表示一种复合词类型对应的变换矩阵，共有四种灰度的方格，表示四种复合词类型对应的变换矩阵，但本实施例不限于复合词类型的种类数。

在本发明的另一个实施例中提供一种复合词表示学习装置，该装置用于实现前述各实施例中的方法。因此，在前述复合词表示学习方法的各实施例中的描述和定义，可以用于本发明实施例中各个执行模块的理解。图3为本发明实施例提供的复合词表示学习装置整体结构示意图，该装置包括学习模块301、增强模块302和获取模块303；其中：

学习模块301用于学习复合词中每个成分的基础向量表示和每个所述成分的各义原的向量表示；

其中，复合词是指由多个语素(词)复合形成的词语，构成复合词的各词称为复合词的成分。学习模块301利用大规模语料中词和词共同出现的性质，将复合词中的每个成分转化为低维实值的语义分布式表示，即词向量，使得意义相近的词有相似的词向量，便于迁移利用。将每个成分的这种词向量作为基本向量表示。同时，学习模块301将每个成分的所有义原映射到低维实值的分布式空间，得到各义原的向量表示。

增强模块302用于对于任一所述成分，根据该成分的各义原的向量表示和所述复合词中除该成分以外的其他成分的基础向量表示，基于互注意力机制获取该成分的义原增强向量表示；

由于复合词中的成分可能是多义的，即在不同复合词中同一成分会表现不同的语义，而具体表现哪个语义和复合词中的其他成分紧密相关。本实施例使用互注意力机制来建模这种语言现象。增强模块302通过互注意力机制在当前复合词语境下对复合词每个成分的义原信息建模，得到复合词成分的义原增强向量表示，便于进一步增强对复合词成分的语义建模。

获取模块303用于根据所述复合词中所有成分的基础向量表示和所有成分的义原增强向量表示，获取所述复合词的最终向量表示。

获取模块303将复合词中所有成分的基础向量表示和义原增强向量表示进行融合，获取复合词的最终向量表示。复合词的最终向量表示可以用于下游自然语言处理任务。如在进行复合词匹配时，根据本实施例获取需要匹配的两个复合词的最终向量表示，然后计算两个最终向量表示之间的距离，若距离小于预设阈值，则获知这两个复合词匹配，否则不匹配。

在上述实施例的基础上，本实施例中学习模块具体用于：基于GloVe模型学习每个所述成分的基础向量表示；基于SAT模型学习每个所述成分的各义原的向量表示。

在上述实施例的基础上，本实施例中所述复合词为双语素复合词；相应地，增强模块具体通过以下公式根据该成分的各义原的向量表示和所述复合词中除该成分以外的其他成分的基础向量表示，基于互注意力机制获取该成分的义原增强向量表示：

e₁＝tanh(W_aw₁+b₁)；

e₂＝tanh(W_bw₂+b₂)；

其中，w₁为所述第一个成分的基础向量表示，w₂为所述第二个成分的基础向量表示，e₁为w₁的非线性变换结果，e₂为w₂的非线性变换结果，W_a和W_b为变换矩阵，b₁和b₂为偏置向量，为所述复合词中第一个成分的所有义原的集合，为所述复合词中第二个成分的所有义原的集合，w′₁为所述复合词中第一个成分的义原增强向量表示，w′₂为所述复合词中第二个成分的义原增强向量表示。

在上述实施例的基础上，本实施例中获取模块具体用于：将所有所述成分的基础向量表示相加，将所有所述成分的义原增强向量表示相加；将基础向量表示的相加结果和义原增强向量表示的相加结果进行拼接；对拼接结果进行非线性变换，获取所述复合词的最终向量表示。

在上述实施例的基础上，本实施例中获取模块具体通过以下公式根据所述复合词中所有成分的基础向量表示和所有成分的义原增强向量表示，获取所述复合词的最终向量表示：

p＝tanh(W_c[w₁+w₂；w′₁+w′₂]+b₃)；

在上述实施例的基础上，本实施例中获取模块进一步用于：根据所述复合词的类型，获取所述类型对应的变换矩阵；其中，所述类型和所述变换矩阵预先关联存储；根据所述类型对应的变换矩阵，对拼接结果进行非线性变换，获取所述复合词的最终向量表示。

其中，为任一类型r对应的变换矩阵， U^r和V^r为低阶矩阵，d为向量表示w₁+w₂的维度，为共享矩阵，h_r为超参数，为实数集。

本实施例提供一种电子设备，图4为本发明实施例提供的电子设备整体结构示意图，该设备包括：至少一个处理器401、至少一个存储器402和总线403；其中，

处理器401和存储器402通过总线403完成相互间的通信；

存储器402存储有可被处理器401执行的程序指令，处理器调用程序指令能够执行上述各方法实施例所提供的方法，例如包括：学习复合词中每个成分的基础向量表示和每个所述成分的各义原的向量表示；对于任一所述成分，根据该成分的各义原的向量表示和所述复合词中除该成分以外的其他成分的基础向量表示，基于互注意力机制获取该成分的义原增强向量表示；根据所述复合词中所有成分的基础向量表示和所有成分的义原增强向量表示，获取所述复合词的最终向量表示。

本实施例提供一种非暂态计算机可读存储介质，非暂态计算机可读存储介质存储计算机指令，计算机指令使计算机执行上述各方法实施例所提供的方法，例如包括：学习复合词中每个成分的基础向量表示和每个所述成分的各义原的向量表示；对于任一所述成分，根据该成分的各义原的向量表示和所述复合词中除该成分以外的其他成分的基础向量表示，基于互注意力机制获取该成分的义原增强向量表示；根据所述复合词中所有成分的基础向量表示和所有成分的义原增强向量表示，获取所述复合词的最终向量表示。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种复合词表示学习方法，其特征在于，包括：

2.根据权利要求1所述的复合词表示学习方法，其特征在于，学习复合词中每个成分的基础向量表示和每个所述成分的各义原的向量表示的步骤具体包括：

基于GloVe模型学习每个所述成分的基础向量表示；

基于SAT模型学习每个所述成分的各义原的向量表示。

3.根据权利要求1所述的复合词表示学习方法，其特征在于，所述复合词为双语素复合词；

相应地，对于任一所述成分，通过以下公式根据该成分的各义原的向量表示和所述复合词中除该成分以外的其他成分的基础向量表示，基于互注意力机制获取该成分的义原增强向量表示：

e₁＝tanh(W_aw₁+b₁)；

e₂＝tanh(W_bw₂+b₂)；

4.根据权利要求1所述的复合词表示学习方法，其特征在于，根据所述复合词中所有成分的基础向量表示和所有成分的义原增强向量表示，获取所述复合词的最终向量表示的步骤具体包括：

将所有所述成分的基础向量表示相加，将所有所述成分的义原增强向量表示相加；

将基础向量表示的相加结果和义原增强向量表示的相加结果进行拼接；

对拼接结果进行非线性变换，获取所述复合词的最终向量表示。

5.根据权利要求4所述的复合词表示学习方法，其特征在于，通过以下公式根据所述复合词中所有成分的基础向量表示和所有成分的义原增强向量表示，获取所述复合词的最终向量表示：

p＝tanh(W_c[w₁+w₂；w′₁+w′₂]+b₃)；

6.根据权利要求5所述的复合词表示学习方法，其特征在于，对拼接结果进行非线性变换，获取所述复合词的最终向量表示的步骤具体包括：

根据所述复合词的类型，获取所述类型对应的变换矩阵；其中，所述类型和所述变换矩阵预先关联存储；

根据所述类型对应的变换矩阵，对拼接结果进行非线性变换，获取所述复合词的最终向量表示。

7.根据权利要求6所述的复合词表示学习方法，其特征在于，所述类型对应的变换矩阵为：

W_c ^r＝U^rV^r+W_c ^c；

其中，W_c ^r为任一复合词类型r对应的变换矩阵， U^r和V^r为低阶矩阵，d为向量表示w₁+w₂的维度，W_c ^c为共享矩阵，h_r为超参数，为实数集。

8.一种复合词表示学习装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述复合词表示学习方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至7任一项所述复合词表示学习方法的步骤。