CN113157932A

CN113157932A - 基于知识图谱表示学习的隐喻计算和装置

Info

Publication number: CN113157932A
Application number: CN202110231003.6A
Authority: CN
Inventors: 宋巍; 郭京津; 刘丽珍
Original assignee: Capital Normal University
Current assignee: Capital Normal University
Priority date: 2021-03-02
Filing date: 2021-03-02
Publication date: 2021-07-23
Anticipated expiration: 2041-03-02
Also published as: CN113157932B

Abstract

本申请提出一种基于知识图谱表示学习的隐喻计算方法和装置，涉及数据处理技术领域，其中，方法包括：获取多对本体、属性和喻体三元组构建隐喻知识图谱；从语料库中根据本体概念和属性信息和/或喻体概念和属性信息之间的共现频率和预设频率阈值确定外部概念属性信息集合；根据隐喻知识图谱确定概念集合和属性集合获取训练样本，根据训练样本和预设第一损失函数训练隐喻知识图谱嵌入模型；计算外部概念属性信息集合中概念属性对的相关概率和预设第二损失函数训练概念属性嵌入模型；根据隐喻知识图谱嵌入模型和概念属性嵌入模型生成联合嵌入模型；获取计算请求，通过联合嵌入模型对计算请求进行处理，获取计算结果。由此，提高隐喻计算准确性。

Description

基于知识图谱表示学习的隐喻计算和装置

技术领域

本申请涉及数据处理技术领域，尤其涉及一种基于知识图谱表示学习的隐喻计算方法和装置。

背景技术

隐喻是一种常见的修辞手法，它使用一种事物形象地描述另一种事物，是人们创造性思维的产物。隐喻能够帮助人们更好地表达观点，理解和接受新的事物。

自然语言中无处不在的隐喻给自然语言处理系统及其研究中带来了巨大的挑战。人们对语言的理解和创造是一种多层次的计算过程。人们在完成高级语义任务时，如创造隐喻或推理隐喻含义时，通常运用了大量复杂的语言手段，结合了公认的常识信息和背景知识对现实进行推理，并加以富有个人性格特色的情感色彩，最终得出结论。在自然语言处理研究中，理想的语言理解模型也应该能够自动执行这样的高级语义任务，模拟人类的创造性过程以及推理思维，从而自动生成、理解隐喻表达。迄今为止，在自然语言处理研究进程中，许多研究任务集中在处理较低层的语言信息，如词性标注、句法分析、共指消解、命名实体识别等；一部分研究学者的研究目标是改进基于统计的推理任务，如文本蕴含识别任务和自动摘要抽取任务；很少有研究者尝试利用自然语言处理技术模拟人类使用语言构建高级推理过程的方式。

相关技术中，隐喻计算模型主要包括三种：隐喻识别、隐喻解释和隐喻生成。大多数隐喻相关研究均围绕隐喻理论展开，如选择偏好理论、概念映射理论等，比如在隐喻识别任务中，首先在选择偏好理论的基础上，结合知识库完成了动词-名词隐喻和形容词-名词隐喻的识别。一些系统围绕概念映射理论，手工设计特征来识别隐喻。这些特征包括浅层的语法和句法信息和高层次语义特征，如语义角色、抽象性特征和基于知识库的上下位词特征等，然而，基于概念隐喻理论的系统忽略了属性在隐喻映射中的影响，导致隐喻计算准确性不高。

发明内容

本申请旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本申请的第一个目的在于提出一种基于知识图谱表示学习的隐喻计算方法，通过模型联合嵌入了隐喻知识图谱和概念属性集合，共同优化了概念和属性的向量表示，增强了模型的表示学习能力，从而提高了隐喻计算模型的性能，提高隐喻计算准确性。

本申请的第二个目的在于提出一种基于知识图谱表示学习的隐喻计算装置。

为达上述目的，本申请第一方面实施例提出了一种基于知识图谱表示学习的隐喻计算方法，包括：

获取多对本体、属性和喻体三元组，根据所述多对本体、属性和喻体三元组构建隐喻知识图谱；

从语料库中根据本体概念和属性信息和/或喻体概念和属性信息之间的共现频率，根据共现频率和预设频率阈值的比较结果，确定外部概念属性信息集合；

根据所述隐喻知识图谱确定概念集合和属性集合，从所述概念集合和所述属性集合获取训练样本，根据所述训练样本和预设第一损失函数训练隐喻知识图谱嵌入模型；

计算所述外部概念属性信息集合中概念属性对的相关概率，根据所述相关概率和预设第二损失函数训练概念属性嵌入模型；

根据所述隐喻知识图谱嵌入模型、第一权重、所述概念属性嵌入模型和第二权重生成联合嵌入模型；

获取计算请求；其中，所述计算请求包括：待处理语句或概念属性信息，通过所述联合嵌入模型对所述计算请求进行处理，获取计算结果。

本申请实施例的基于知识图谱表示学习的隐喻计算方法，通过获取多对本体、属性和喻体三元组，根据多对本体、属性和喻体三元组构建隐喻知识图谱；从语料库中根据本体概念和属性信息和/或喻体概念和属性信息之间的共现频率，根据共现频率和预设频率阈值的比较结果，确定外部概念属性信息集合；根据隐喻知识图谱确定概念集合和属性集合，从概念集合和属性集合获取训练样本，根据训练样本和预设第一损失函数训练隐喻知识图谱嵌入模型；计算外部概念属性信息集合中概念属性对的相关概率，根据相关概率和预设第二损失函数训练概念属性嵌入模型；根据隐喻知识图谱嵌入模型、第一权重、概念属性嵌入模型和第二权重生成联合嵌入模型；获取计算请求；其中，计算请求包括：待处理语句或概念属性信息，通过联合嵌入模型对计算请求进行处理，获取计算结果。由此，通过模型联合嵌入了隐喻知识图谱和概念属性集合，共同优化了概念和属性的向量表示，增强了模型的表示学习能力，从而提高了隐喻计算模型的性能，提高隐喻计算准确性。

可选地，在本申请的一个实施例中，所述获取多对本体、属性和喻体三元组，包括：

从作文语料中获取多个明喻语句；

对所述多个明喻语句进行标注，获取所述多对本体、属性和喻体三元组。

获取多个待处理语句，对所述多个待处理语句进行分类，获取多个明喻语句；

通过句子表示编码器对所述多个明喻语句进行标注，获取所述多对本体、属性和喻体三元组。

可选地，在本申请的一个实施例中，所述从语料库中根据本体概念和属性信息和/或喻体概念和属性信息之间的共现频率，根据共现频率和预设频率阈值的比较结果，确定外部概念属性信息集合，包括：

使用句法分析器从所述语料库中抽取主语与动词、动词与宾语、形容词与名词和名词与动词模式的多个短语对，并统计所述多个短语对的共现频率；

在任一短语对的共现频率大于所述预设频率阈值，则确定为外部概念属性信息，所述多个外部概念属性信息构建成所述外部概念属性信息集合。

可选地，所述根据所述隐喻知识图谱确定概念集合和属性集合，从所述概念集合和所述属性集合获取训练样本，根据所述训练样本和预设第一损失函数训练隐喻知识图谱嵌入模型，包括：

所述隐喻知识图谱中的三元组为(t，a，s)，分数计算函数如下式所示：

f(t，a，s)＝-d(t_⊥+a，s_⊥)+g₁(t_⊥，a)+g₂(s_⊥，a) (1)

其中，d为距离计算方法，通常为L1或L2函数；g1，g2分别为计算属性与本体、属性喻体之间的相关性函数，计算公式如下所示：

g₁(t，a)＝t_⊥M_ta^T， (2)

g₂(s，a)＝s_⊥M_sa^T (3)

其中，Mt和Ms分别为本体和喻体的映射矩阵；

对于所述隐喻知识图谱中每个正确三元组，通过替换本体、属性或喻体来构造对应的错误三元组；

通过公式(1)和(2)对所述每个正确三元组和所述每个错误三元组进行相关性计算，获取每个单元组的相关分数，通过所述第一损失函数基于所述相关分数计算所述每个正确三元组与对应的所述每个错误三元组之间的误差，根据所述误差和预设误差阈值调整所述隐喻知识图谱嵌入模型的参数，直到所述误差小于预设误差阈值，获取所述隐喻知识图谱嵌入模型。

可选地，在本申请的一个实施例中，所述计算所述外部概念属性信息集合中概念属性对的相关概率，根据所述相关概率和预设第二损失函数训练概念属性嵌入模型，包括：

对所述外部概念属性集合中的每一个正确概念属性对进行随机概念替换，构成错误概念属性对；

分别计算所述每一个正确概念属性和对应的错误概念属性对对应的相关概率，通过所述第二损失函数基于所述相关概率计算所述每个正确概念属性对与对应的错误概念属性对之间的误差，根据所述误差和预设误差阈值调整所述概念属性嵌入模型的参数，直到所述误差小于预设误差阈值，获取所述概念属性嵌入模型。

可选地，在本申请的一个实施例中，所述获取计算请求；其中，所述计算请求包括：待处理语句或概念属性信息，通过所述联合嵌入模型对所述计算请求进行处理，获取计算结果，包括：

获取待处理语句，判断所述待处理语句是否存在隐喻；

在存在隐喻的情况下，从所述待处理语句中获取本体和喻体并输出。

获取概念属性信息，根据所述概念属性信息确定本体和喻体；

获取所述本体和所述喻体的共有属性，根据所述本体、所述喻体和所述共有属性生成隐喻语句并输出。

获取与所述本体和所述喻体对应的描述信息并输出。

为达上述目的，本申请第二方面实施例提出了一种基于知识图谱表示学习的隐喻计算装置，包括：

获取模块，用于获取多对本体、属性和喻体三元组，根据所述多对本体、属性和喻体三元组构建隐喻知识图谱；

确定模块，用于从语料库中根据本体概念和属性信息和/或喻体概念和属性信息之间的共现频率，根据共现频率和预设频率阈值的比较结果，确定外部概念属性信息集合；

第一训练模块，用于根据所述隐喻知识图谱确定概念集合和属性集合，从所述概念集合和所述属性集合获取训练样本，根据所述训练样本和预设第一损失函数训练隐喻知识图谱嵌入模型；

第二训练模块，用于计算所述外部概念属性信息集合中概念属性对的相关概率，根据所述相关概率和预设第二损失函数训练概念属性嵌入模型；

生成模块，用于根据所述隐喻知识图谱嵌入模型、第一权重、所述概念属性嵌入模型和第二权重生成联合嵌入模型；

计算模块，用于获取计算请求；其中，所述计算请求包括：待处理语句或概念属性信息，通过所述联合嵌入模型对所述计算请求进行处理，获取计算结果。

本申请实施例的基于知识图谱表示学习的隐喻计算装置，通过获取多对本体、属性和喻体三元组，根据多对本体、属性和喻体三元组构建隐喻知识图谱；从语料库中根据本体概念和属性信息和/或喻体概念和属性信息之间的共现频率，根据共现频率和预设频率阈值的比较结果，确定外部概念属性信息集合；根据隐喻知识图谱确定概念集合和属性集合，从概念集合和属性集合获取训练样本，根据训练样本和预设第一损失函数训练隐喻知识图谱嵌入模型；计算外部概念属性信息集合中概念属性对的相关概率，根据相关概率和预设第二损失函数训练概念属性嵌入模型；根据隐喻知识图谱嵌入模型、第一权重、概念属性嵌入模型和第二权重生成联合嵌入模型；获取计算请求；其中，计算请求包括：待处理语句或概念属性信息，通过联合嵌入模型对计算请求进行处理，获取计算结果。由此，通过模型联合嵌入了隐喻知识图谱和概念属性集合，共同优化了概念和属性的向量表示，增强了模型的表示学习能力，从而提高了隐喻计算模型的性能，提高隐喻计算准确性。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请实施例一所提供的一种基于知识图谱表示学习的隐喻计算方法的流程示意图；

图2为本申请实施例的基于知识表示学习的隐喻计算框架示例图；

图3为本申请实施例的明喻成分抽取模型框架图；

图4为本申请实施例所提供的一种基于知识图谱表示学习的隐喻计算装置的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

下面参考附图描述本申请实施例的基于知识图谱表示学习的隐喻计算方法和装置。

图1为本申请实施例一所提供的一种基于知识图谱表示学习的隐喻计算方法的流程示意图。

具体地，本申请的隐喻计算模型可以包括：隐喻识别、隐喻解释和生成模型，隐喻识别模型可以用来识别句子是否是隐喻；隐喻解释模型可用来预测本体和喻体之间的语义关系，推理出二者之间的共有特性，从而帮助计算机来理解句子隐藏的含义；而隐喻生成模型则可以丰富文本内容，辅助计算机进行创造性写作，提升文本的创造性和生动性。隐喻建模在众多自然语言处理领域有着丰富的应用，如信息检索、机器翻译、情感分析、问答系统、文本挖掘等。在机器翻译中，更恰当的理解隐喻含义能够使计算机翻译更加通顺，更加准确。在问答系统中，更合理的、类人的回答离不开对隐喻的分析处理。

具体地，本申请以概念隐喻理论为基础，提出一种基于属性的概念隐喻模型，并将隐喻特性与知识表示思想相结合，最终在同一框架下完成隐喻解释、隐喻生成、隐喻识别三大隐喻计算任务。

本申请设计了基于隐喻知识图谱表示的隐喻计算方法，使用隐喻三元组来表示基于属性的概念映射，即<本体，属性，喻体>。大量的隐喻三元组可构成一个隐喻知识图谱，从而隐喻解释和隐喻生成任务可以转换为隐喻知识图谱的表示和推理任务，隐喻识别任务则可视为基于隐喻知识表示的二分类任务。具体结合图1进行详细描述。

如图1所示，该基于知识图谱表示学习的隐喻计算方法包括以下步骤：

步骤101，获取多对本体、属性和喻体三元组，根据多对本体、属性和喻体三元组构建隐喻知识图谱。

在本申请实施例中，获取多对本体、属性和喻体三元组的方式有很多种，可以根据应用场景需要选择设置，举例说明如下。

第一种示例，从作文语料中获取多个明喻语句，对多个明喻语句进行标注，获取多对本体、属性和喻体三元组。

具体地，首先从作文语料中抽取明喻句，比如通过人工进行标注。由于“像”是中文比喻中使用频率最高的比喻词，因此本申请从中国学生作文中抽取带有“像”字的句子作为待标注数据，首先人工判断其是否是明喻句，若是明喻句，再人工标注其明喻成分，获取多对本体、属性和喻体三元组。

第二种示例，获取多个待处理语句，对多个待处理语句进行分类，获取多个明喻语句；通过句子表示编码器对多个明喻语句进行标注，获取多对本体、属性和喻体三元组。

具体地，对明喻句子进行分类和明喻成分抽取，明喻句分类任务目的是为了判断给定句子是否包含明喻现象，是一种二分类任务。本申请可以使用BERT语言模型作为基础句子编码器，通过隐喻句子分类任务对其参数进行微调。

也就是说，本申请将明喻成分抽取任务视为基于字符的序列标注问题，并将数据集标签转换为IOBES(B，即Begin，表示开始；I，即Intermediate，表示中间；E，即End，表示结尾；S，即Single，表示单个字符；O，即Other，表示其他，用于标记无关字符) 标签体系，同时增加不同的前缀符号用来区分不同明喻成分标签。

本申请选取BERT语言模型作为句子表示编码器，在BERT语言模型之上增加经典的序列标注模型：条件随机场模型(CRF，Conditional Random Field)，进一步引入标签之间的转移信息，提高标注的准确率。模型图如图2所示。

步骤102，从语料库中根据本体概念和属性信息和/或喻体概念和属性信息之间的共现频率，根据共现频率和预设频率阈值的比较结果，确定外部概念属性信息集合。

在本申请实施例中，使用句法分析器从语料库中抽取主语与动词、动词与宾语、形容词与名词和名词与动词模式的多个短语对，并统计多个短语对的共现频率；在任一短语对的共现频率大于预设频率阈值，则确定为外部概念属性信息，多个外部概念属性信息构建成外部概念属性信息集合。

具体地，已有的知识图谱表示学习算法仅能学习隐喻知识库内部的实体或关系表示，隐喻知识库的规模有限，无法覆盖所有的概念和属性，这将在一定程度上影响隐喻知识的表示学习能力以及隐喻和生成的多样性，降低隐喻计算的泛化能力。为了解决此问题，本申请提出在隐喻知识库表示学习中融入大量的外部概念属性信息，并设计联合学习的方式将其与知识库的表示学习进行融合。本申请可以使用依存句法分析器从语料库中抽取主语- 动词、动词-宾语、形容词-名词和名词-动词模式的短语搭配，并统计名词与形容词或动词的共现频率。形容词或动词即为名词概念的属性，可表示为(概念，属性，频率)。

步骤103，根据隐喻知识图谱确定概念集合和属性集合，从概念集合和属性集合获取训练样本，根据训练样本和预设第一损失函数训练隐喻知识图谱嵌入模型。

在本申请实施例中，隐喻知识图谱中的三元组为(t，a,s)，分数计算函数如下式所示：

f(t,a,s)＝-d(t_⊥+a,s_⊥)+g₁(t_⊥,a)+g₂(s_⊥,a) (1)

g₁(t,a)＝t_⊥M_ta^T， (2)

g₂(s，a)＝s_⊥M_sa^T (3)

其中，Mt和Ms分别为本体和喻体的映射矩阵；

对于隐喻知识图谱中每个正确三元组，通过替换本体、属性或喻体来构造对应的错误三元组；

通过公式(1)和(2)对所述每个正确三元组和每个错误三元组进行相关性计算，获取每个单元组的相关分数，通过第一损失函数基于相关分数计算所述每个正确三元组与对应的每个错误三元组之间的误差，根据误差和预设误差阈值调整隐喻知识图谱嵌入模型的参数，直到误差小于预设误差阈值，获取隐喻知识图谱嵌入模型。

具体地，隐喻知识图谱嵌入模型比如TransMeta，隐喻知识图谱由大量三元组<本体，属性，喻体>构成，记为{(t,a,s)}，其中t,s∈E，a∈A，t,s分别表示本体和喻体，E 为概念集合，a表示共有属性，A为属性集合。隐喻知识库表示学习的目标是为了学习每一个隐喻三元组的向量表示(t,a,s)，在隐喻中，本体在属性空间具有与喻体相似的性质，这与Trans系列模型的基本思想吻合，因此，本申请以Trans系列模型为基础，设计了隐喻特定的表示学习模型TransMeta。

其中，Trans系列表示学习模型通过捕捉实体和特定关系间的联系来学习实体和关系的向量表示，但在隐喻知识中，属性不仅表示本体和喻体之间的关系，还应该与本体喻体密切相关。根据此特性，本申请设计了隐喻知识图谱嵌入模型TransMeta，即对于隐喻知识图谱中的三元组(t,a,s)，分数计算函数如公式(1)所示。

本申请设计的三元组分数计算方法不仅更符合隐喻的特性，同时还缓解了隐喻中的多关系问题，即本体喻体间可能存在多条共有属性边。TransMeta模型结合了三种分数特征，本体、喻体和属性的表示根据三种分数进行更新，因此，对于本体喻体间的多种属性的表示不会被强制嵌入到向量空间中的同一个位置，从而允许多条属性边的存在。

与Trans系列模型的训练方式类似，对于每个正确的三元组，通过替换本体、属性或喻体来构造对应的负例。同时，为了减少假负例的影响，本申请设计了策略性的构造方式：在替换属性时，从集合

中随机抽取属性来替换，其中，At，As分别表示本体t和喻体t的属性集合，该集合从训练集以及概念属性集合中获取。在替换本体或喻体时，从概念集合中随机抽取概念用于替换，并限制替换后的概念如c’满足条件：

具体地，损失计算函数如下式所示：

其中，D⁺为正确三元组的集合，D^- _(t,a,s)为正确三元组(t,a,s)对应的负例元组的集合，且

其中，cost函数计算公式如下：

cost((t，a，s)，(t′，a′，s′))＝max(0，γ-d(t+a，s)+d(t′+d′，s′)) (6)

步骤104，计算外部概念属性信息集合中概念属性对的相关概率，根据相关概率和预设第二损失函数训练概念属性嵌入模型。

在本申请实施例中，对外部概念属性集合中的每一个正确概念属性对进行随机概念替换，构成错误概念属性对；分别计算每一个正确概念属性和对应的错误概念属性对对应的相关概率，通过第二损失函数基于相关概率计算每个正确概念属性对与对应的错误概念属性对之间的误差，根据误差和预设误差阈值调整概念属性嵌入模型的参数，直到误差小于预设误差阈值，获取概念属性嵌入模型。

具体地，为了补充隐喻知识图谱，进一步丰富隐喻知识图谱中概念的属性描述，本申请使用依存句法分析方法从语料库中抽取了概念-属性搭配集合。为了捕捉概念属性集合中概念与属性的联系，并将概念属性信息嵌入到向量空间中，本申请将正确概念属性对(c,a) 的概率定义为：

其中，g₁，g₂与公式2,3中计算方式相同。

具体地，根据概念属性对之间的相关性来计算概率，并通过TransMeta模型中的评分函数来建立隐喻知识图谱和概念属性搭配之间的联系，将概念属性信息融合到了隐喻知识图谱的表示学习中。

其中，概念属性嵌入模型的优化目标是为了最大化概念属性集合中正确概念属性对的概率，且最大化不在概念属性集合中错误概念属性对的概率，即如下式所示：

∏_(c，a)∈CAp(Y＝1|c，a)∏_{(c′，a′)∈CA-}(1-p(Y＝1|c′,a′)) (8)

其中，CA表示概念属性集合，CA^-表示CA集合对应的负例，即对于概念属性集合中的每一个概念属性对(c,a)，从概念集中随机抽取概念c’替换c，构成负例对(c’，a)，同时，为了降低假负例引起的噪声，本申请限制了a不存在于c’的属性集合中。

最终，概念属性嵌入模型的损失函数计算公式如下所示：

步骤105，根据隐喻知识图谱嵌入模型、第一权重、概念属性嵌入模型和第二权重生成联合嵌入模型。

具体地，联合嵌入方法TransMetaJoint。隐喻知识图谱的表示学习反映了依赖于属性的概念映射，而概念属性信息嵌入则提供了更丰富的概念解释。本申请提出联合嵌入模型 TransMetaJoint，通过联合学习将二者结合，共享相同的概念和属性向量以及评分函数g₁和g₂。最终，联合嵌入模型的损失函数计算方式如下：

L＝L₁+β·L₂ (10)

其中，β为非负参数，用来调节L₂的权重，即调整概念属性嵌入在任务中的重要程度。

步骤106，获取计算请求；其中，计算请求包括：待处理语句或概念属性信息，通过联合嵌入模型对计算请求进行处理，获取计算结果。

在本申请实施例中，获取计算请求；其中，计算请求包括：待处理语句或概念属性信息，通过联合嵌入模型对计算请求进行处理，获取计算结果的方式有很多种，举例说明如下：

第一种示例，获取待处理语句，判断待处理语句是否存在隐喻；在存在隐喻的情况下，从待处理语句中获取本体和喻体并输出。

第二种示例，获取概念属性信息，根据概念属性信息确定本体和喻体；获取本体和喻体的共有属性，根据本体、喻体和共有属性生成隐喻语句并输出。

第三种示例，获取概念属性信息，根据概念属性信息确定本体和喻体；获取与本体和喻体对应的描述信息并输出。

具体地，如图3的最后部分所示，本申请将隐喻解释和生成任务转换为隐喻知识库的推理补全。对于给定隐喻，即已知本体和喻体，通过推理喻体和本体之间的共有属性来解释隐喻。隐喻生成任务即生成合理的隐喻，在给定本体和属性的情况下，自动生成合理的喻体，构成完整隐喻。

给定概念集合E和属性集合A，本申请将隐喻解释和隐喻生成任务的规范化定义为：属性预测：本体t∈E，喻体s∈E，预测能够解释其二者隐喻含义的属性a；喻体预测：给定本体t∈E，属性a∈A，推荐能够用来描述概念t的a特性的喻体s。本申请利用隐喻知识表示学习将概念和属性嵌入到了连续的向量空间中，并在这个空间内进行属性和喻体的预测，最终完成了隐喻的解释和生成任务。

隐喻识别任务是一个二分类任务，即判断给定句子是否存在隐喻现象。本申请将隐喻识别任务视为基于隐喻知识图谱表示学习的概念对二分类任务，即判断概念对<本体，喻体> 是否存在隐喻联系。本申请使用多层感知机模型作为二分类器来识别隐喻，并使用隐喻知识图谱表示学习得到的隐喻向量表示作为模型输入，进一步提升隐喻分类模型的性能。

由此，本申请提出基于属性的概念隐喻模型。在现有的基于概念隐喻理论的隐喻计算研究中，大多都忽略了属性在隐喻建模中的关键性，没有对概念域和属性同时建模，实际上，概念隐喻理论中提出的映射现象与喻体和本体之间的共有属性是密切相关的。针对此问题，本申请提出了依赖于属性的概念隐喻模型，将属性信息融合到概念隐喻模型中，采用三元组<本体，共有属性，喻体>的方式来表示隐喻，为隐喻处理和知识表示思想的融合奠定了基础。

本申请还将隐喻本身的特性与知识表示学习思想融合，提出了隐喻特定的知识表示模型TransMeta模型。在之前的相关工作中，知识表示学习均用于知识图谱中实体和实体关系间的学习，本申请首次提出知识表示和隐喻任务之间的相通之处，将知识表示合理的运用到隐喻任务上。本申请从语言角度分析了隐喻的特点，挖掘出隐喻三元组成分之间的联系，即本体和喻体在属性空间中是应是相似的，并发现此特性与知识图谱表示学习中头实体和尾实体在关系空间中距离相近的思想相符合。根据此特点，本申请从构建隐喻知识图谱着手，首次提出将隐喻处理与知识表示学习模型相结合。同时，本申请提出在隐喻三元组中，本体-属性和喻体-属性还应是密切相关的，为了结合此隐喻特征，本申请在经典的 Trans系列模型基础上提出了隐喻特定的知识表示模型TransMeta模型，完成了隐喻知识图谱的嵌入。

本申请提出了联合嵌入模型TransMetaJoint，在隐喻知识图谱表示学习过程中融合了外部的概念属性信息。由于知识图谱的不完整性，知识表示学习模型的能力以及后续隐喻计算的多样性都受到了一定程度的影响。针对此问题，本申请通过依存句法分析抽取了概念属性集合，利用最大化该集合中的概念属性搭配的概率将概念属性嵌入到向量空间中，并提出了TransMetaJoint模型联合嵌入了隐喻知识图谱和概念属性集合，共同优化了概念和属性的向量表示，增强了模型的表示学习能力，从而提高了隐喻计算模型的性能。

本申请将隐喻处理任务视为基于隐喻知识图谱的计算任务，并在同一框架下完成了隐喻解释、隐喻生成和隐喻识别三大隐喻计算任务。本申请首次将隐喻解释和生成任务转换为隐喻知识图谱的补全推理问题，并将隐喻识别任务视为基于隐喻知识表示的分类任务。

因此，本申请提出了使用三元组<本体，属性，喻体>来表示隐喻，并利用表示学习模型将概念和属性嵌入到向量空间中，完成了概念域和属性域的同时建模，在隐喻概念映射中融入了属性信息；本申请通过人工和自动两种方式构建隐喻知识库，在知识库上进行表示学习建模，利用已知的隐喻知识监督引导了表示学习过程。通过知识表示学习方法学习到的概念和属性向量表示有助于获得更高质量的属性或喻体，提升模型预测的准确率；本申请设计了隐喻特定的表示学习模型，将隐喻解释和生成任务转换成了知识图谱的推理和补全问题，无需限制本体和喻体存在共有属性，能够获得更丰富的隐喻解释，生成更丰富的隐喻，极大提高了系统的多样性。本申请将隐喻计算三大子任务合理地融合在一起，相互影响，构造了完整的隐喻处理任务框架。通过隐喻知识表示模型完成隐喻解释和隐喻生成任务后，利用表示学习得到的向量表示进一步提升了隐喻识别任务，反之，隐喻识别任务的提升也从侧面验证了隐喻表示学习的合理性和有效性。

为了实现上述实施例，本申请还提出一种基于知识图谱表示学习的隐喻计算装置。

图4为本申请实施例提供的一种基于知识图谱表示学习的隐喻计算装置的结构示意图。

如图4所示，该基于知识图谱表示学习的隐喻计算装置包括：获取模块410、确定模块420、第一训练模块430、第二训练模块440、生成模块450和处理模块460。

获取模块410，用于获取多对本体、属性和喻体三元组，根据所述多对本体、属性和喻体三元组构建隐喻知识图谱。

确定模块420，用于从语料库中根据本体概念和属性信息和/或喻体概念和属性信息之间的共现频率，根据共现频率和预设频率阈值的比较结果，确定外部概念属性信息集合。

第一训练模块430，用于根据所述隐喻知识图谱确定概念集合和属性集合，从所述概念集合和所述属性集合获取训练样本，根据所述训练样本和预设第一损失函数训练隐喻知识图谱嵌入模型。

第二训练模块440，用于计算所述外部概念属性信息集合中概念属性对的相关概率，根据所述相关概率和预设第二损失函数训练概念属性嵌入模型。

生成模块450，用于根据所述隐喻知识图谱嵌入模型、第一权重、所述概念属性嵌入模型和第二权重生成联合嵌入模型。

计算模块460，用于获取计算请求；其中，所述计算请求包括：待处理语句或概念属性信息，通过所述联合嵌入模型对所述计算请求进行处理，获取计算结果。

需要说明的是，前述对基于知识图谱表示学习的隐喻计算方法实施例的解释说明也适用于该实施例的基于知识图谱表示学习的隐喻计算装置，此处不再赘述。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于知识图谱表示学习的隐喻计算方法，其特征在于，包括以下步骤：

2.如权利要求1所述的方法，其特征在于，所述获取多对本体、属性和喻体三元组，包括：

从作文语料中获取多个明喻语句；

3.如权利要求1所述的方法，其特征在于，所述获取多对本体、属性和喻体三元组，包括：

4.如权利要求1所述的方法，其特征在于，所述从语料库中根据本体概念和属性信息和/或喻体概念和属性信息之间的共现频率，根据共现频率和预设频率阈值的比较结果，确定外部概念属性信息集合，包括：

5.如权利要求1所述的方法，其特征在于，所述根据所述隐喻知识图谱确定概念集合和属性集合，从所述概念集合和所述属性集合获取训练样本，根据所述训练样本和预设第一损失函数训练隐喻知识图谱嵌入模型，包括：

f(t，a，s)＝-d(t_⊥+a，s_⊥)+g₁(t_⊥，a)+g₂(s_⊥，a) (1)

g₁(t，a)＝t_⊥M_ta^T， (2)

g₂(s，a)＝s_⊥M_sa^T (3)

其中，Mt和Ms分别为本体和喻体的映射矩阵；

6.如权利要求1所述的方法，其特征在于，所述计算所述外部概念属性信息集合中概念属性对的相关概率，根据所述相关概率和预设第二损失函数训练概念属性嵌入模型，包括：

7.如权利要求1所述的方法，其特征在于，所述获取计算请求；其中，所述计算请求包括：待处理语句或概念属性信息，通过所述联合嵌入模型对所述计算请求进行处理，获取计算结果，包括：

获取待处理语句，判断所述待处理语句是否存在隐喻；

8.如权利要求1所述的方法，其特征在于，所述获取计算请求；其中，所述计算请求包括：待处理语句或概念属性信息，通过所述联合嵌入模型对所述计算请求进行处理，获取计算结果，包括：

9.如权利要求1所述的方法，其特征在于，所述获取计算请求；其中，所述计算请求包括：待处理语句或概念属性信息，通过所述联合嵌入模型对所述计算请求进行处理，获取计算结果，包括：

获取与所述本体和所述喻体对应的描述信息并输出。

10.一种基于知识图谱表示学习的隐喻计算装置，其特征在于，包括：