CN113032565B

CN113032565B - 一种基于跨语言监督的上下位关系检测方法

Info

Publication number: CN113032565B
Application number: CN202110309925.4A
Authority: CN
Inventors: 谢志鹏; 谢水
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2021-03-23
Filing date: 2021-03-23
Publication date: 2022-05-20
Anticipated expiration: 2041-03-23
Also published as: CN113032565A

Abstract

本发明属于自然语言处理技术领域，具体为一种基于跨语言监督的上下位关系检测方法。本发明利用数据丰富的源语言中的上下位数据训练得到数据匮乏的目标语言中的上下位关系检测器，包括：将源语言中有标注的上下位词对翻译成目标语言上的词对候选集；使用两种语言的预训练词向量得到词对的特征表示；使用统一空间映射使两种语言的词语映射到统一的特征空间；使用堆叠式双线性映射法表示词对；最后将词对输入到前馈神经网络提取特征并针对样本的正负性设计对应损失函数训练分类器即可检测词对的上下位关系。本发明的检测准确率远远高于无训练资源的无监督方法，其效果接近1/10样本量的有监督最佳方法，并且具有易于实现和通用性强的特点。

Description

一种基于跨语言监督的上下位关系检测方法

技术领域

本发明属于自然语言处理技术领域，具体涉及上下位关系检测方法。

一种使用资源丰富语言的监督数据进行跨语言监督指导训练资源匮乏语言上的上下位关系检测器的实现方法。

背景技术

自从计算机诞生以来，人类逐渐从记忆性、重复性的劳动中解放。随着人工智能技术的发展，人们期望将人类所理解的知识也存入计算机中以便保存与分享，于是诞生了计算机知识获取相关的研究。知识获取是指研究如何将人类理解的自然知识转入计算机内存储和再利用，它是建立、完善和扩展知识库的基础，越来越多的研究将其与知识推理，意图识别，情感分析等任务结合，获得了显著的成果。获取的知识通常以概念实体的图结构表达，其中概念实体是图的节点，而图的边则由同义反义、因果、部分整体、上下位等语义关系确定。因此语义关系抽取也是知识获取的重要环节，其主要研究如何在非人力的情况下自动地从资源中获取概念实体和其从属特征和语义关系。

上下位关系是人类概念认识架构的基本组织形式。上下位关系由于一组非对称的概念——上位词与下位词组成，通常以下位词和上位词这样的词对呈现，或者以三元组形式(下位词，hyper，上位词)与其他语义关系区分。上位词相比下位词拥有更广的语义域，相反下位词是上位词的特殊子概念。例如，“奶”是“牛奶”的上位词，“液体”是“奶”的上位词。优质的上下位关系的词语图谱对计算机在语言处理，语言理解和推理层次有重要的作用。互联网带来的海量信息使手工的制定语义词典再也无法记录规模日益增长的概念集。因此，研究快速自动地判断两个词语之间是否存在上下位关系的上下位关系检测技术是自然语言处理(NLP)的重要任务。

神经网络是一种模拟人脑的神经网络以期能够实现类人工智能的机器学习技术。深度学习的概念源于人工神经网络的研究。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示用于下游任务。

根据以往的大量研究经验表明，在上下位关系领域，通过充足数据训练的基于神经网络的有监督模型能够很好地评估词对满足上下位关系的可能性。而问题是，不是每一种语言都能有充足的有标注的上下文词对去训练分类器，不同语言拥有不同数量级的上下位关系语言资源。本发明提出一种跨语言监督的上下位关系检测方法，能够利用数据丰富的源语言的上下位数据训练得到数据匮乏的目标语言上的上下位关系检测器。

发明内容

本发明的目的在于提供一种检测准确率高的基于跨语言监督的上下位关系检测方法。

本发明提供的基于跨语言监督的上下位关系检测方法，使用神经网络技术；首先利用翻译技术将数据丰富的源语言上有标注的上下位关系转换成目标语言上的候选翻译集，然后通过神经网络获得不同语言词对的统一表示并统一训练分类器。本方法能有效利用源语言上的监督信息，学习得到一个目标语言上的词对评分器，用于评估目标语言上的词对满足上下位关系的概率，其正确率接近直接使用目标语言训练的监督模型的检测准确率。

本发明的第一个方面，使用基于依存句法的上下文预训练词向量。上下位词通常以名词、形容词等具有实际含义的词为主，以名词为例，它们窗口附近的词通常为介词、量词等无实际意义的词，而且出现的频次很高造成很多词语的词向量拥有高相似性，但词语本身无太大关系，不利于语义关系的判断。上下位关系通常发生在词性相同、环境类似的两个词中间，相比于普通方法使用的基于窗口的上下文，使用基于依存句法的上下文表示更能区分不同词性以及语义无关的词对。同时，基于依存句法的上下文能够让目标词捕捉到远距离的语义信息。

本发明的第二个方面，提出了一种词对袋模型，解决翻译的歧义问题。因为其他的方法将源语言中有标注的上下位词对翻译成目标语言词对并继承源语言中词对的标签，然后直接使用上一步得到的目标语言词对有监督地训练中文上下位关系检测器。但是由于翻译的歧义问题，源语言在目标语言中可能存在多个翻译结果代表不同含义，直接继承翻译前的标签很明显会造成样本污染，影响监督学习的结果。本发明使用词对袋模型，保留所有翻译结果词对，并标注成候选状态，同时考虑了翻译结果可能满足或者不满足上下位关系的两种情况，针对性得提出两条假设：(1)一个源语言的上下位词对的翻译结果对中至少有一个目标语言词对也满足上下位关系；(2)一个源语言的非上下位词对的翻译结果对基本都不满足上下位关系。本发明设计了最大损失和平均损失两种损失，分别针对源语言中词对的正负类别，通过神经网络模型，能够自动地学习出词袋中最有可能正确的翻译结果词对以及充分利用负样本的信息学习调整模型。

本发明的第三个方面，提出统一空间映射方法，采取自然语言处理技术中机器翻译常用的正交矩阵变换，不仅完成了源语言和目标语言词向量空间到统一空间的映射，使得后续操作都能够同时适用于不同语言的词对，而且通过词向量空间的标准化和矩阵的正交性约束实现了映射的稳定性，利于分类器的训练，提高了分类结果的准确率。

本发明的第四个方面，采取堆叠式双线性映射表示词对向量。普通的词对向量表示法通常使用词对的两个词语向量的减法或者加法以及拼接的结果，这种固定的表示方法表示能力不足，难以适应不同词对或者不同语言的情况。而双线性映射通过设置一组线性变换矩阵，将两个向量作为输入生成第三个向量空间上的一个元素，并且矩阵参数可以通过神经网络学习，具有灵活性，同时通过堆叠的方式丰富了词对的表示，能够适用于不同的语言环境，提高了模型的泛化能力。

综上，本发明利用数据丰富的源语言的上下位数据训练得到数据匮乏的目标语言上的上下位关系检测器，包括：将源语言中有标注的上下位词对翻译成目标语言上的词对候选集；分别使用两种语言的预训练词向量得到词对的特征表示；然后使用统一空间映射使两种语言的词语映射到统一的特征空间；接着使用堆叠式双线性映射法表示词对；最后将词对输入到前馈神经网络提取特征并针对样本的正负性设计对应损失函数训练分类器，即可检测词对的上下位关系。

根据本发明的上述内容，基于跨语言监督的上下位关系检测方法，具体步骤为：

(1)向量预训练；

(2)词对预处理；

(3)统一语义空间映射；

(4)使用堆叠式双线性映射法表示词对；

(5)使用神经网络提取词对特征训练分类器；

(6)输出词对的上下位关系检测结果。

步骤(1)中，所述向量预训练，包括对源语言和目标语言上的无监督语料进行依存句法解析和使用词向量工具(例如Word2Vec或者Glove等)训练基于依存上下文的预训练词向量。

步骤(2)中，所述词对预处理，具体子步骤包括：

(2.1)通过网络词典或者机器翻译等方法将源语言上的有标注的词对翻译成目标语言上的词对，并且，如果源语言的翻译结果存在多个时，保留所有翻译结果并使用笛卡尔积的形式生成候选词对袋；

(2.2)通过对步骤(1)中的预训练词向量过滤，保留拥有词向量的词对，剩余的所有词对都用预训练的词向量表示。

步骤(3)中，所述统一语义空间映射，包括使用两个不同的正交矩阵分别将源语言和目标语言词向量空间作线性变换映射成统一的向量空间，并将源语言和目标语言的词对都表示成统一空间内的相同维度向量。

步骤(4)中，所述使用堆叠式双线性映射法表示词对，具体子过程包括：

(4.1)随机初始化多个行和列大小为统一空间维度的矩阵；

(4.2)每一个源语言和目标语言上的词对中两个词语的向量分别与上述矩阵做双线性映射，每个矩阵对应一个实数结果，然后把这些矩阵对应的实数结果合并拼接成中间关系向量；

(4.3)将步骤(4.2)生成的中间关系向量与词对中两个词语的在统一空间中的表示向量拼接得到词对表示向量。

步骤(5)中，所述使用神经网络提取词对特征训练分类器，具体子过程包括：

(5.1)使用一个神经网络(如前馈神经网络)对输入的词对表示向量进行特征提取，最后一层网络将向量映射成一维实数；

(5.2)使用sigmoid函数将一维实数的值转为在0到1之间的概率表示，然后对于源语言中的词对根据上下位关系类别(正样本：符合/负样本：不符合)，使用交叉熵损失函数训练二元分类器；对于目标语言中的词对，假设一个源语言的上下位词对的翻译结果对中至少有一个目标语言词对也满足上下位关系，并且一个源语言的非上下位词对的翻译结果对基本都不满足上下位关系，因此对于正样本的翻译结果，只有最高的分数会被动态地选入模型代表那个至少正确的中文词对，对于负样本的翻译结果，根据假设，把它们全部当作负样本送入模型训练；最后使用交叉熵计算正负样本的损失之和。

步骤(6)中，所述输出词对的上下位关系检测结果，包括去除源语言词对的输入结构，对于目标语言上输入的词对，通过步骤(2)到步骤(5.1)的过程得到一个概率结果，概率大于0.5则认为满足上下位关系，概率小于0.5则认为不满足上下位关系；分类的效果采用平均准确率来评估。

本发明方法的优点在于：

检测准确率远远高于无训练资源的无监督方法，其效果接近1/10样本量的有监督最佳方法，并且具有实现方便、通用性强的特点，在语义分析、知识图谱、关系推理等领域具有广泛的应用前景。

附图说明

图1基于跨语言监督的上下位关系检测方法的总体流程图。

图2基于跨语言监督的上下位关系检测方法的具体步骤示例图。

图3统一语义空间映射示意图。

图4双线性映射的词对表示法示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清晰，下面将结合附图及具体实施例对本发明进行详细描述。

本发明的目的在于针对目标语言缺少足够数量的有标注的上下位关系词对场景，提出一种使用资源丰富语言的监督数据进行跨语言监督指导训练资源匮乏语言上的上下位关系检测器的方法。本发明通过基于依存上下文的预训练词向量，可以将词转化为低维语义空间内的向量；然后通过统一语义空间映射可以将源语言和目标语言的词转化为同一语义空间内的向量，统一计算规律；接着使用K层堆叠式双线性映射获取K维的词对关系向量，同时与原词向量拼接获得词对的表示；最后接上一层神经网络分类器，并根据正例反例假设设计差异化的损失函数训练，最后从分类器中输出词对满足上下位关系的概率。

本发明概括来说主要包括以下步骤：

步骤(1)向量预训练；

步骤(2)词对预处理；

步骤(3)统一语义空间映射；

步骤(4)使用堆叠式双线性映射法表示词对；

步骤(5)使用神经网络提取词对特征训练分类器；

步骤(6)输出词对的上下位关系检测结果。

面对上述步骤进行详细描述。

步骤(1)中向量预训练，首先对源语言和目标语言上的无监督语料进行依存句法解析，以句子为单位构造依存句法树，统计句子中每一个单词在树上的父节点和子节点单词作为上下文；然后使用Word2Vec或者Glove等词向量工具训练基于依存上下文的预训练D维词向量(D通常取值为50、100或300)。

步骤(2)中词对预处理，具体子步骤包括：

步骤(2.1)通过网络词典或者机器翻译等方法将源语言上的有标注的词对翻译成目标语言上的词对，并且如果源语言的翻译结果存在多个时，保留所有翻译结果并使用笛卡尔积的形式生成候选翻译词对集；

步骤(2.2)通过步骤(1)中的预训练词向量对所有源语言词对及其候选词翻译词对集过滤，只保留拥有预训练词向量的词对，并将词对转换成词向量表示。

步骤(3)统一语义空间映射，如图3所示，使用两个不同的矩阵M_s和M_t分别将源语言和目标语言的单词映射成统一的向量空间。变换公式如下：

u_x＝s_x·M_s (1)

u_p＝t_p·M_t (2)

其中，s_x表示源语言单词s_x的预训练词向量，u_x是s_x在统一空间中的向量表示；t_p表示目标语言单词t_p的预训练词向量，u_p是t_p在统一空间中的向量表示。

为了约束变换矩阵的正交性，在训练时添加如下形式的软正交约束：

其中，I表示单位矩阵，||·||_F表示矩阵的Frobenius范数。

步骤(4)使用堆叠式双线性映射法表示词对，如图4所示，具体子过程包括：

(4.1)随机初始化K个行和列大小都等于统一语义空间维度的矩阵；

(4.2)每一个源语言和目标语言上的词对中两个词语向量分别与这些矩阵做双线性映射，每个矩阵对应一个实数结果，最终得到K个实数结果，组合成一个K维的中间关系向量，生成规则如下：

其中，

是一个参数矩阵，

是第k个实数结果，

是由K个结果所组成的向量(也记为r_xy)。

步骤(4.3)将步骤(4.2)生成的中间关系向量与词对中两个词语的在统一语义空间中的表示向量拼接得到词对表示向量。

步骤(5)使用神经网络提取词对特征训练分类器，具体子过程包括：

步骤(5.1)使用一个神经网络(如前馈神经网络)对输入的词对表示向量进行特征提取，最后一层网络将向量映射成一维实数，具体的运算细节如下：

其中，v是一个参数向量，W是一个参数矩阵，b为偏置向量。

步骤(5.2)使用sigmoid函数将一维实数的值转为在0到1之间的概率表示，然后对于源语言中的词对根据上下位关系类别(正样本：符合/负样本：不符合)，使用交叉熵损失函数训练二元分类器；

根据引入的词对袋模型，对于目标语言中的词对，假设一个源语言的上下位词对的翻译结果对中至少有一个目标语言词对也满足上下位关系，并且一个源语言的非上下位词对的翻译结果对基本都不满足上下位关系，因此对于正样本的翻译结果，只有最高的分数会被动态地选入模型代表那个至少正确的中文词对，该部分样本训练损失如下：

其中，(s_x，s_y)是一个正例(即源语言中的一个上下文词对)，T(s_x，s_y)是源语言词对(s_x，s_y)经过翻译后所得到所有目标语言词对的集合，σ(·)表示sigmoid函数。

对于负样本的翻译结果，根据假设，把它们全部当作负样本送入模型训练，该部分样本训练损失如下：

其中，(s_x，s_y)是一个反例(即源语言中的非上下文词此对)，|·|表示词对集合中词对的数量。

最后优化模型的损失函数定义为所有正样本和负样本产生的样本损失以及约束统一语义空间映射矩阵的正交损失之和，采用梯度下降算法训练。如下所示：

其中，λ是正则化系数。

步骤(6)输出词对的上下位关系检测结果，对于目标语言上输入的词对，通过步骤(2)到步骤(5.1)的过程得到一个概率结果，概率大于0.5则认为满足上下位关系，概率小于0.5则认为不满足上下位关系。

具体实施过程可以参考图1所示的实例，其中以英文作为源语言，中文作为目标语言，最终训练中文上的上下位关系检测分类器。

本发明的实施方式并不受上面实施实例的限制，其他任何未背离本发明精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于跨语言监督的上下位关系检测方法，其特征在于，具体步骤为：

（1）向量预训练；

（2）词对预处理；

（3）统一语义空间映射；

（4）使用堆叠式双线性映射法表示词对；

（5）使用神经网络提取词对特征训练分类器；

（6）输出词对的上下位关系检测结果；

步骤（3）中所述统一语义空间映射，包括使用两个不同的正交矩阵分别将源语言和目标语言词向量空间作线性变换映射成统一的向量空间，并将源语言和目标语言的词对都表示成统一空间内的相同维度向量；

步骤（4）中所述使用堆叠式双线性映射法表示词对，具体子过程包括：

（4.1）随机初始化多个行和列大小为统一空间维度的矩阵；

（4.2）每一个源语言和目标语言上的词对中两个词语的向量分别与上述矩阵做双线性映射，每个矩阵对应一个实数结果，然后把这些矩阵对应的实数结果合并拼接成中间关系向量；

（4.3）将步骤（4.2）生成的中间关系向量与词对中两个词语的在统一空间中的表示向量拼接得到词对表示向量；

步骤（5）中所述使用神经网络提取词对特征训练分类器，具体子过程包括：

（5.1）使用一个神经网络对输入的词对表示向量进行特征提取，最后一层网络将向量映射成一维实数；

步骤（5.2）使用sigmoid函数将一维实数的值转为在0到1之间的概率表示，然后对于源语言中的词对根据上下位关系类别：正样本：符合/负样本：不符合，使用交叉熵损失函数训练二元分类器；对于目标语言中的词对，假设一个源语言的上下位词对的翻译结果对中至少有一个目标语言词对也满足上下位关系，并且一个源语言的非上下位词对的翻译结果对基本都不满足上下位关系，于是，对于正样本的翻译结果，只有最高的分数被动态地选入模型代表那个至少正确的中文词对，对于负样本的翻译结果，把它们全部当作负样本送入模型训练；最后使用交叉熵计算正负样本的损失之和。

2.根据权利要求1所述的基于跨语言监督的上下位关系检测方法，其特征在于，步骤（1）中所述向量预训练，包括对源语言和目标语言上的无监督语料进行依存句法解析和使用词向量工具训练基于依存上下文的预训练词向量。

3.根据权利要求1所述的基于跨语言监督的上下位关系检测方法，其特征在于，步骤（2）中所述词对预处理，具体子步骤包括：

（2.1）通过网络词典或者机器翻译等方法将源语言上的有标注的词对翻译成目标语言上的词对，并且，如果源语言的翻译结果存在多个时，保留所有翻译结果并使用笛卡尔积的形式生成候选词对袋；

（2.2）通过对步骤（1）中的预训练词向量过滤，保留拥有词向量的词对，剩余的所有词对都用预训练的词向量表示。

4.根据权利要求1所述的基于跨语言监督的上下位关系检测方法，其特征在于，步骤（6）中所述输出词对的上下位关系检测结果，包括去除源语言词对的输入结构，对于目标语言上输入的词对，通过步骤（2）到步骤（5.1）的过程得到一个概率结果，概率大于0.5则认为满足上下位关系，概率小于0.5则认为不满足上下位关系；分类的效果采用平均准确率来评估。