CN114595336A

CN114595336A - 一种基于高斯混合模型的多关系语义解决模型

Info

Publication number: CN114595336A
Application number: CN202111479067.4A
Authority: CN
Inventors: 贾海涛; 张时洁; 陈泓秀; 梁晓程; 毕宇峰; 许文波
Original assignee: Yangtze River Delta Research Institute of UESTC Huzhou
Current assignee: Yangtze River Delta Research Institute of UESTC Huzhou
Priority date: 2021-12-04
Filing date: 2021-12-04
Publication date: 2022-06-07

Abstract

本发明提出一种基于高斯混合模型的多关系语义翻译模型。首先给出了贝叶斯非参数无限混合嵌入模型，并给出了相应的总体框架。其次给出了该算法的几何角度解释。然后给出了该算法的训练方法。最后，实验分析验证了该算法的有效性，实验结果表明该算法使多关系语义的问题得到有效解决。

Description

一种基于高斯混合模型的多关系语义解决模型

技术领域

本发明属于自然语言处理领域。

背景技术

我们熟知知识图谱是由实体和关系组成，通常是用一个三元组(头实体h，实体的关系r，尾实体t)来表示一条知识，简写为(h，r，t)，比如(电子科技大学，位置，成都)。若要使用向量表示，则可以使用one-hot向量或实际中使用更多的 mulit-hot向量来表示。但存在的问题是，one-hot向量不能表示相近的实体或关系之间的相似度，并且向量维数太高导致复杂程度高，所以类比词向量的表示方法也想通过分布式表示来表示知识图谱中的实体和关系，通过学习获得它们的低维稠密表示。

知识表示学习的前提是表示学习，就是把图像、文本、语音等语义信息表示为低维稠密的实体向量，即Embedding。知识表示学习目前的一些主要方法包括：距离模型(Structured Embedding，SE)、单层神经网络模型(Single Layer Model，SLM)、能量模型(Semantic Matching Energy，SME)、双线性模型、张量神经网络模型(Neural TensorNetwork，NTN)、矩阵分解模型以及翻译模型等。

综合来看，从工业界和学术界基本都是在翻译模型之上研究或者根据业务进行调整，而其他的上述模型大概存在两个问题，一个是实体和语义之间的关系很难刻画得好，另一个就是计算复杂度较高。翻译模型从TransE开始，并衍生出一系列的模型，本文所介绍的算法即为翻译模型的衍生算法。

发明内容

本发明提出一种基于高斯混合模型的多关系语义翻译模型，该算法步骤如下：

1)首先给出了贝叶斯非参数无限混合嵌入模型，并给出了相应的总体框架。

2)其次给出了该算法的几何角度解释。

3)然后给出了该算法的训练方法。

4)最后，实验分析验证了该算法的有效性，实验结果表明该算法使多关系语义的问题得到有效解决。

附图说明

图1为本发明的实验数据集统计。

图2为本发明的链路预测评估结果。

图3为本发明通过关系映射属性对FB15K的评估结果(％)。

图4为本发明识别WN11和FB13关系中的不同簇。

图5为对三重分类使用不同嵌入方法的准确率(％)。

图6为本发明知识图谱的总体框架。

图7为本发明WN18上的语义组件编号。

图8为本发明FB13上的语义组件编号。

具体实施方式

近年来，将符号实体和关系投射到连续向量空间的知识图谱嵌入已成为人工智能领域的一个新的研究热点。我们提出了一种新的生成模型(TS-E)来解决多关系语义的问题，即一个关系可能具有的多个由与相应的三元组关联的实体所表示的意义。该模型可以发现关系的潜在语义，并利用关系特定组件向量的混合嵌入三元组。

下面将会描述该算法的思路，并给出算法的具体步骤。

1).嵌入的生成模型

如前所述，一个关系只有一个翻译向量可能不足以建模多个关系语义。在本文中，我们提出使用贝叶斯非参数无限混合嵌入模型，该模型的生成过程如下：

1.对于实体e∈E

从标准正态分布中提取每个实体嵌入平均向量作为先验概率

2.对于三元组(h，r，t)∈Δ

①从中国餐馆的过程中画出该关系的语义成分：π_r，m～CRP(β)

②从正态分布中绘制头部实体嵌入向量：

③从正态分布中绘制尾部实体嵌入向量：

④为此语义绘制一个关系嵌入向量：

其中u_h和u_t分别表示头部和尾部的平均嵌入向量，σ_h和σ_t分别表示相应实体分布的方差，而u_r，m是关系r的第m个成分转换向量。中国餐馆过程(CRP)是一个Dirichlet过程，它可以自动检测语义成分。在此设置中，我们获得的分数函数如下：

式中，πr，m是混合因子，表示第i个分量的权重，M_r是关系r的语义分量数，由CRP自动从数据中学习。

TS-E利用关系分量向量的混合来实现特定的关系，每个组成部分代表一个特定的语义。通过这种方式，TS-E可以区分多关系语义。值得注意的是，CRP 可以在必要时生成多个语义成分，并且从数据中自适应地学习关系语义成分数 M_r。

2).从几何角度解释

与以前的研究类似，TS-E有几何解释。在以前的方法中，当给出三元组(h，r，t) 的关系r时，几何表示是固定的，如h+r≈t。然而，TS-E将这一几何原理推广到：

是主要成分的指数。尽管所有成分都对模型有贡献，但由于指数效应 (exp(·))的存在，主要成分贡献最大。当给出一个三元组(h，r，t)时，TS-E计算出主分量的索引，然后用主转换向量将头部实体转换为尾部实体。

综上所述，以前的研究对同一关系的所有三元组进行了相同的翻译，但TS-E 会根据三元组的特定语义自动选择最佳翻译向量。因此，TS-E可以专注于特定的语义嵌入，以避免来自其他不相关语义组件的大量噪声，并带来比现有方法有希望的改进。请注意，TS-E中的所有变量都有自己的贡献，但基础变量贡献最大。

3).训练算法

采用最大数据似然原理进行训练。对于非参数部分，π_r，m是通过吉布斯采样从CRP生成的，采用以下概率模型对三元组(h，r，t)的新分量进行采样：

其中P{(h，r，t)}是当前后验概率。为了更好地区分真三元组和假三元组，我们最大化真三元组与假三元组的可能性比率，嵌入向量由(Glorot和Bengio，2010) 初始化。将所有其他约束放在一起，得到最终目标函数，如下所示：

其中Δ是一套黄金三元组而Δ’是一组假三元组。C控制缩放程度，E是实体的集合，R是关系的集合，混合因子π和方差σ也在优化过程中联合优化学习。

应用SGD求解该优化问题。此外，我们还采用了一种技巧来控制训练过程中的参数更新过程。对那些几乎不可能存在的三元组，将自动跳过更新过程。因此，我们引入了与TransE(Bordes et al.，2013)采用的类似条件：只有满足以下条件时，训练算法才会更新嵌入向量：

式中(h，r，t)∈Δ和(h’，r’，t’)∈Δ’，γ控制更新条件。

4).实验

我们的实验是在四个公共基准数据集上进行的，它们分别是Word-net和Freebase的子集。图1列出了这些数据集的统计信息。在两个任务上进行了实验：链路预测和三重分类。为了进一步说明所提出的模型如何处理多关系语义，我们在实验最后介绍了语义组件分析。

1.链路预测

链接预测涉及知识图的完成：当给定一个实体和一个关系时，嵌入模型预测另一个缺失的实体。更确切地说，在这项任务中，我们通过给定的(h，r，*)预测t，或给定(*，r，t)预测h。WN18和FB15K是该任务的两个基准数据集。许多人工智能任务可以通过链接预测(如关系提取)来增强。

评估协议。我们采用了先前研究中使用的相同原型。对于每个测试三元组(h， r，t)，我们通过用知识图中的每个实体e替换尾部t(或头部h)来破坏它，并用分数函数fr(h，e)计算该破坏三元组(h，r，e)(或(e，r，t))的概率分数。在按降序排列这些分数之后，我们得到原始三元组的排名。评估有两个指标：平均等级(Mean rank)和等级不大于10的测试三重的比例(HITS@10)。这称为″原始″设置。当我们过滤掉训练、评估或测试数据集中存在的损坏的三元组时，这就是″过滤器″设置。如果知识图中存在损坏的三元组，则将其排在原始三元组之前也是可以接受的。为了消除这种情况，首选″过滤器″设置。在这两种情况下，平均等级越低，平均等级越高HITS@10意味着更好的表现。

实施。由于数据集相同，我们直接报告了文献中已有几个基线的实验结果，如(Bordes et al.，2013)，(Wang et al.，2014)和(Lin et al.，2015b)。我们尝试对验证数据集进行若干设置，以获得最佳配置。例如，我们尝试了 100200300400的维度。在“bern.”抽样策略下，最优配置为：WN18上的学习率α＝0.001，嵌入维数k＝100，γ＝2.5，β＝0.05；α＝0.0015，k＝400，γ＝3.0，β＝0.1onFB15K，我们训练模型一直到其收敛。

结果：WN18和FB15K的评估结果见图2。我们致力于：

1.TS-E明显优于所有基线。与TransR相比，TS-E在WN18和FB15K上分别提高了2.9％和26.0％，WN18和FB15K上的平均语义成分数分别为5.67和8.77。这一结果表明，cap-turing多关系语义将有助于嵌入。

2.该模型在WN18数据集上的平均排名分数不好。进一步的分析表明，有 24个测试三元组(占测试集的0.5％)的秩超过30000，这几个案例将导致约150 个平均秩损失。在这些三元组中，有23个三元组的尾部或头部实体从未与训练集中的对应关系同时出现。一句话，这些关系和实体没有足够的培训数据。

3.与CTransR相比，TS-E更好地解决了多关系语义问题，原因有二。首先， CTransR为特定关系聚集实体对，然后为每个簇执行嵌入，而TS-E同时处理嵌入和多个关系语义，这两个过程可以相互增强。其次，CTransR仅通过一个集群对一个三元组进行建模，但TS-E应用了一个混合来细化嵌入。

如果足够的话，我们的模型对尺寸几乎不敏感。对于100200300400的尺寸 HITS@10TS-E在FB15上的检出率分别为81.8％、84.0％、85.8％、88.2％，而 TS-E的检出率分别为47.1％、48.5％、51.3％、49.2％。

2.三分类

为了证明真假事实的鉴别能力，进行了三重分类。这是知识库嵌入中的一个经典任务，其目的是预测给定的三元组(h，r，t)是否正确。WN11和FB13是此任务的基准数据集。注意，分类评估需要负样本，并且数据集已经提供了负三元组。

评估协议。决策过程非常简单，如下所示：对于三元组(h，r，t)，如果f_r(h，t) 低于阈值σ_r，则为正；另一种是否定的。阈值{σ_r}在验证数据集上确定。

实施由于所有方法使用相同的数据集，我们直接重复使用文献中不同方法的结果。我们已尝试对验证数据集进行多项设置，以找到最佳配置。TS-E的最佳配置如下：WN11上的″伯尔尼″采样，学习率α＝0.001，k＝50，γ＝6.0，β＝0.1， FB13上的″伯尔尼″采样，α＝0.002，k＝400，γ＝3.0，β＝0.1。

结果：以下是我们的观察结果：

1).TS-E显著优于所有基线。与TransR相比，TS-E在WN11和FB13上分别提高了1.7％和5.8％，WN11和FB13上的平均语义成分数分别为2.63和4.53。这个结果显示了为一个关系捕获多个关系语义的好处。

2).语义成分较多的″句法域″和″类型″等关系得到了很大的改善。在比较中，″相似″关系只包含一个语义成分，几乎不受支持。这进一步证明了捕获多个关系语义有利于嵌入。

3.语义成分分析

在本小节中，我们分析了不同关系下的语义组件数量，并在数据集WN18 和FB13上列出了组件数量，我们有以下观察结果：

对于大多数关系来说，确实需要多个语义组件。除″还见″、″语法集用法″和″性别″等关系外，所有其他关系都有不止一个语义成分。

不同的成分确实对应不同的语义，这证明了TS-E的理论分析和有效性。例如，″职业″至少有三种语义：科学家相关的as(ElLissitzky，建筑师)、商人相关的as(EnochPratt，企业家)和作家相关的as(Vlad.Gardin，编剧)。

WN11和WN18是Wordnet的不同子集。正如我们所知，语义组件的数量取决于数据集中的三元组。因此，类似关系(如″语法集域″和″语法集用法″) 可能包含WN11和WN18的不同语义数字是合理的。

4.结论

我们提出了一个生成的贝叶斯非参数无限混合嵌入模型TS-E，来解决一个新的问题，即多关系语义，它可以自动发现关系的潜在语义，并利用关系组件的混合进行嵌入，大量的实验表明，我们的方法相对于最先进的基线取得了实质性的改进。

Claims

1.一种基于高斯混合模型的多关系语义解决模型，该算法包括以下步骤：

1).嵌入的生成模型

1.对于实体e∈E

从标准正态分布中提取每个实体嵌入平均向量作为先验概率

2.对于三元组(h，r，t)∈Δ

②从正态分布中绘制头部实体嵌入向量：

③从正态分布中绘制尾部实体嵌入向量：

④为此语义绘制一个关系嵌入向量：

式中，π_r，m是混合因子，表示第i个分量的权重，M_r是关系r的语义分量数，由CRP自动从数据中学习。

TS-E利用关系分量向量的混合来实现特定的关系，每个组成部分代表一个特定的语义。通过这种方式，TS-E可以区分多关系语义。值得注意的是，CRP可以在必要时生成多个语义成分，并且从数据中自适应地学习关系语义成分数M_r。

2).从几何角度解释

与以前的研究类似，TS-E有几何解释。在以前的方法中，当给出三元组(h，r，t)的关系r时，几何表示是固定的，如h+r≈t。然而，TS-E将这一几何原理推广到：

是主要成分的指数。尽管所有成分都对模型有贡献，但由于指数效应(exp(·))的存在，主要成分贡献最大。当给出一个三元组(h，r，t)时，TS-E计算出主分量的索引，然后用主转换向量将头部实体转换为尾部实体。

综上所述，以前的研究对同一关系的所有三元组进行了相同的翻译，但TS-E会根据三元组的特定语义自动选择最佳翻译向量。因此，TS-E可以专注于特定的语义嵌入，以避免来自其他不相关语义组件的大量噪声，并带来比现有方法有希望的改进。请注意，TS-E中的所有变量都有自己的贡献，但基础变量贡献最大。

3).训练算法

其中P{(h，r，t)}是当前后验概率。为了更好地区分真三元组和假三元组，我们最大化真三元组与假三元组的可能性比率，嵌入向量由(Glorot和Bengio，2010)初始化。将所有其他约束放在一起，得到最终目标函数，如下所示：

式中(h，r，t)∈Δ和(h’，r’，t’)∈Δ’，γ控制更新条件。

4).实验

我们的实验是在四个公共基准数据集上进行的，它们分别是Word-net和Freebase的子集。表1列出了这些数据集的统计信息。在两个任务上进行了实验：链路预测和三重分类。为了进一步说明所提出的模型如何处理多关系语义，我们在实验最后介绍了语义组件分析。

1.链路预测

链接预测涉及知识图的完成：当给定一个实体和一个关系时，嵌入模型预测另一个缺失的实体。更确切地说，在这项任务中，我们通过给定的(h,r,*)预测t,或给定(*,r,t)预测h。WN18和FB15K是该任务的两个基准数据集。许多人工智能任务可以通过链接预测(如关系提取)来增强。

评估协议。我们采用了先前研究中使用的相同原型。对于每个测试三元组(h，r，t)，我们通过用知识图中的每个实体e替换尾部t(或头部h)来破坏它，并用分数函数fr(h，e)计算该破坏三元组(h，r，e)(或(e，r，t))的概率分数。在按降序排列这些分数之后，我们得到原始三元组的排名。评估有两个指标：平均等级(Mean rank)和等级不大于10的测试三重的比例(HITS@10)。这称为“原始”设置。当我们过滤掉训练、评估或测试数据集中存在的损坏的三元组时，这就是“过滤器”设置。如果知识图中存在损坏的三元组，则将其排在原始三元组之前也是可以接受的。为了消除这种情况，首选“过滤器”设置。在这两种情况下，平均等级越低，平均等级越高HITS@10意味着更好的表现。

实施。由于数据集相同，我们直接报告了文献中已有几个基线的实验结果，如(Bordeset al.，2013)，(Wang et al.，2014)和(Lin et al.，2015b)。我们尝试对验证数据集进行若干设置，以获得最佳配置。例如，我们尝试了100200300400的维度。在“bern.”抽样策略下，最优配置为：WN18上的学习率α＝0.001，嵌入维数k＝100，γ＝2.5，β＝0.05；α＝0.0015，k＝400，γ＝3.0，β＝0.1onFB15K，我们训练模型一直到其收敛。

结果：WN18和FB15K的评估结果见表2。我们致力于：

2.该模型在WN18数据集上的平均排名分数不好。进一步的分析表明，有24个测试三元组(占测试集的0.5％)的秩超过30000，这几个案例将导致约150个平均秩损失。在这些三元组中，有23个三元组的尾部或头部实体从未与训练集中的对应关系同时出现。一句话，这些关系和实体没有足够的培训数据。

3.与CTransR相比，TS-E更好地解决了多关系语义问题，原因有二。首先，CTransR为特定关系聚集实体对，然后为每个簇执行嵌入，而TS-E同时处理嵌入和多个关系语义，这两个过程可以相互增强。其次，CTransR仅通过一个集群对一个三元组进行建模，但TS-E应用了一个混合来细化嵌入。

如果足够的话，我们的模型对尺寸几乎不敏感。对于100200300400的尺寸HITS@10TS-E在FB15上的检出率分别为81.8％、84.0％、85.8％、88.2％，而TS-E的检出率分别为47.1％、48.5％、51.3％、49.2％。

2.三分类

评估协议。决策过程非常简单，如下所示：对于三元组(h，r，t)，如果f_r(h,t)低于阈值σ_r，则为正；另一种是否定的。阈值{σ_r}在验证数据集上确定。

实施由于所有方法使用相同的数据集，我们直接重复使用文献中不同方法的结果。我们已尝试对验证数据集进行多项设置，以找到最佳配置。TS-E的最佳配置如下：WN11上的“伯尔尼”采样，学习率α＝0.001，k＝50，γ＝6.0，β＝0.1，FB13上的“伯尔尼”采样，α＝0.002，k＝400，γ＝3.0，β＝0.1。

结果：以下是我们的观察结果：

2).语义成分较多的“句法域”和“类型”等关系得到了很大的改善。在比较中，“相似”关系只包含一个语义成分，几乎不受支持。这进一步证明了捕获多个关系语义有利于嵌入。

3.语义成分分析

在本小节中，我们分析了不同关系下的语义组件数量，并在数据集WN18和FB13上列出了组件数量，我们有以下观察结果：

对于大多数关系来说，确实需要多个语义组件。除“还见”、“语法集用法”和“性别”等关系外，所有其他关系都有不止一个语义成分。

不同的成分确实对应不同的语义，这证明了TS-E的理论分析和有效性。例如，“职业”至少有三种语义：科学家相关的as(ElLissitzky，建筑师)、商人相关的as(EnochPratt，企业家)和作家相关的as(Vlad.Gardin，编剧)。

WN11和WN18是Wordnet的不同子集。正如我们所知，语义组件的数量取决于数据集中的三元组。因此，类似关系(如“语法集域”和“语法集用法”)可能包含WN11和WN18的不同语义数字是合理的。

4.结论