CN115423106A

CN115423106A - 一种基于多模态事件知识图谱的溯因推理方法

Info

Publication number: CN115423106A
Application number: CN202211374352.4A
Authority: CN
Inventors: 荣欢; 骆维瀚; 马廷淮; 孙圣杰; 于信
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2022-11-04
Filing date: 2022-11-04
Publication date: 2022-12-02

Abstract

本发明提供了一种基于多模态事件知识图谱的溯因推理方法，有机混合了事件知识图谱和多模态知识图谱的本体层和事实层，使事实知识可以通过多模态事件知识图谱的形式存储和使用，丰富了现行的知识组织和使用形式；同时对ege‑RoBERTa模型进行拓宽，增加了额外知识接口以及卷积自编码器训练通道，使其可以支持多模态事件信息作为额外知识辅助推理，得到更好的推理结果。

Description

一种基于多模态事件知识图谱的溯因推理方法

技术领域

本发明属于知识图谱和溯因推理技术领域，具体涉及一种基于多模态事件知识图谱的溯因推理方法，适用于处理基于知识库和不完整观察的溯因推理。

背景技术

对于知识图谱的构建和应用，早期多为使用关系三元组和属性三元组的形式存储和应用事实信息，知识图谱以复杂的图结构展现，提供了高效的计算和推理能力，在智能问答、决策支持等诸多应用方面表现出优异的性能。但由于世界的信息多数以事件为组织形式，以静态实体为核心的知识图谱不能很好的适应和存储相关的动态事件信息，所以以事件为中心的动态描述信息的事件知识图谱逐渐进入一些研究人员的视野，而多模态事件知识图谱的构建主要分为三个方面：事件知识图谱本体构建、事件信息抽取以及多模态对齐。

在事件知识图谱本体构建方面，使用SEM简单事件模型框架作为事件知识图谱的本体层框架，并在开发的事件知识图谱构建管道模型的基础上运用事件之间的时序关系构建了以事件为中心的时序知识图谱。有研究人员提出了一个跨模态事件提取系统，整合了99万个概念事件和644种关系类型，并结合设计的schema来组织从信息源中抽取出的多模态事件信息，最终构建以事件为中心的多模态事件知识图谱。

在事件信息抽取方面，提出抽取建议网络，以字符模式执行事件检测学习每个字符的混合标志，从而从字符和单词中捕获结构和语义信息，实现对中文文本的事件抽取。研究人员提出了一种端到端模型Doc2EDAG，通过模型生成基于实体的有向无环图，从而实现文档级的中文金融事件抽取。还有研究人员将文本CAMR的方法将文本转化为AMR图实现对文本的事件提取，同时将图片通过使用基于注意力机制和目标机制将图像转换为星型图的方法实现了对图像事件的抽取。

在多模态对齐方面，提出一种多模态事件表示学习框架，通过将文本和图像嵌入异构空间的方法实现图像和文本的对齐。有研究人员提出一种基于多模态神经网络的图像中文摘要生成方法，通过构建有卷积神经网络构成的编码器和由多模态摘要生成网络构成的解码层对图像输出中文摘要，实现多模态对齐。

而对于溯因推理领域而言，溯因推理的本质是根据所给的不完整观察推断出导致事件结果的最可能原因。首次提出溯因推理任务，并并总结了当时在溯因推理任务中表现最好的七个语言发生器构建。研究人员提出了一种基于变分自动编码器的模型ege-RoBERTa，利用一个潜在变量从事件图中获取必要的常识知识，用于指导主动推理任务。

发明内容

解决的技术问题：本发明基于多模态事件知识图谱的溯因推理方法，通过组合事件知识图谱和多模态知识图谱的方法实现多模态事件知识图谱的构建，在多模态事件知识图谱构建完成后，将其作为后续溯因推理的事实依据。

技术方案：

一种基于多模态事件知识图谱的溯因推理方法，所述溯因推理方法包括以下步骤：

S1，对现有的SEM简单事件框架进行扩充，采用GAF算法对扩充后的SEM简单事件框架进行注释，作为多模态事件知识图谱的本体层框架；

S2，建立多媒体新闻数据集，采用跨模态事件抽取模型对多媒体新闻数据中的文本和图像进行事实抽取，抽取其中的事件、论元元素，并将文本数据和图像数据中的事件和论元嵌入同一向量空间对齐；

S3，将抽取和对齐后的事件知识通过GAF对齐注释框架填入多模态事件知识图谱的事实层，构建出多模态事件知识图谱作为后续溯因推理的知识库；

S4，根据溯因任务所给的事件不完整观察，通过数据库搜索的方法从多模态事件知识图谱中找出对应的可疑成因事件和额外知识事件，以及可疑成因事件和额外知识事件对应的事件图片序列；

S5，采用有序图像注意模型对搜索出的图片序列进行文本化处理，输出对应的文本序列；

S6，对ege-RoBERTa溯因模型进行扩充，加入额外事件信息；增加卷积自编码器通道，结合卷积自编码器通道和扩充后的ege-RoBERTa溯因模型，构建溯因推理模型，溯因推理模型拥有读取图片序列中可用信息以及额外信息的能力；

S7，将步骤S4的文本序列和步骤S5的事件图像序列输入至溯因推理模型中，对扩充后的ege-RoBERTa溯因模型和卷积自编码器通道的溯因结果进行加权混合，对可疑成因事件进行评分预测，最终得到每种可能成因事件的概率，输出最有可能的不完整观察事件的成因。

进一步地，步骤S1中，对现有的SEM简单事件框架进行扩充，采用GAF算法对扩充后的SEM简单事件框架进行注释，作为多模态事件知识图谱的本体层框架的过程包括以下子步骤：

S11，构建SEM简单事件模型，SEM简单事件模型包括四个核心类：代表发生了什么事的sem:Event，代表参与者的sem:Actor，代表地点的sem:Place，代表何时的sem:Time；每个核心类都有一个相关的类型sem:Type，其中包含指示实例类型的资源；

S12，在SEM简单事件模型上添加imo:image核心类用来存储图片，再构建imo:imageEvent、imo:imageActor、imo:imagePlace三个子类，三者归属于sem:imageType，并通过属性与sem:Event，sem:Actor，sem:Place核心类链接；

S13，对于imo:image核心类的内部结构，图像的视觉描述符和相似性关系形成核心，嵌入imo图片本体，将图像的视觉描述符和相似性关系表示成资源描述框架。

进一步地，步骤S2中，建立多媒体新闻数据集，采用跨模态事件抽取模型对多媒体新闻数据中的文本和图像进行事实抽取，抽取其中的事件、论元元素，并将文本数据和图像数据中的事件和论元嵌入同一向量空间对齐的过程包括以下子步骤：

S21，采用CAMR分析程序对输入的文本情报信息源进行处理，生成相应的AMR图；

S22，经过Bi-LSTM编码词序，得到每个句子的token的表示，每个句子的token的表示包括预训练的GloVe词编码、词性标注、命名实体识别和位置编码；按照公式（1）和公式（2）对文本情报信息源中的事件和论元进行抽取：

式中，

表示在

条件下

成立的概率，

表示在

条件下

成立的概率；

为动词，

为实体，

为事件类型，

为论元角色，

和

、

和

分别表示模型在事件和论元条件下的神经层权重参数，

和

、

和

分别表示模型在事件和论元条件下的神经层偏移参数，

是模型GCN层中的公共空间表示，

是平均实体

的令牌后获得的嵌入表示；

S23，将每个图片表示为行为图，中心节点被标记为动词

；邻居节点使论元被标记为

，其中

为名词，从WordNet词法集得到，表明实体的类型；

表明实体在事件中扮演的角色；使用基于目标图的方法，按照公式（3）和公式（4）对图片情报信息源中的事件和论元进行抽取：

；

式中，

表示在图片

条件下动词

成立的概率，

表示在图片

条件下名词

成立的概率，

表示图片

的编码表示，

表示对

成立的似然估计，

表示对

成立的似然估计，

和

分别表示动词

和名词

的编码表示；

S24，通过GCN将AMR图和图片行为图嵌入到公共空间中，计算相似性<s,m>，匹配每个句子s和最接近的图像m，通过加权平均，将句子s中每个单词的特征与图像m中的对齐表示进行聚合，由公式（5）计算得出文本和图片的对齐结果：

式中，

，

表示单词特征向量，

表示图片特征向量，

表示对单词特征向量和图片特征向量加权平均化后的结果向量。

进一步地，步骤S4中，根据溯因任务所给的事件不完整观察，通过数据库搜索的方法从多模态事件知识图谱中找出对应的可疑成因事件和额外知识事件，以及可疑成因事件和额外知识事件对应的事件图片序列的过程包括：

输入事件的不完整观察事件数据集

，其中

分别表示前置事件数据和结果事件数据；根据

通过数据库查找方法在构建的多模态事件知识图谱中进行关联查找，得到与不完整观察

可能的事件诱因

，其中

表示可能的第

个事件成因的文本表示，以及相关事实

及其图像序列

，其中

分别表示，

表示与事实相关的五张图片。

进一步地，步骤S5中，采用有序图像注意模型对搜索出的图片序列进行文本化处理，输出对应的文本序列的过程包括以下步骤：

基于注意的图像序列文本生成模型将查找到的图片序列

叙述生成的相关文本

作为模型的额外常识，其中

表示基于图片图片序列

生成的五个文本，最终生成文本序列

。

进一步地，步骤S7中，将步骤S4的文本序列和步骤S5的事件图像序列输入至溯因推理模型中，对扩充后的ege-RoBERTa溯因模型和卷积自编码器通道的溯因结果进行加权混合，对可疑成因事件进行评分预测，最终得到每种可能成因事件的概率，输出最有可能的不完整观察事件的成因的过程包括以下步骤：

S61，基于文本序列

构建事件图

，其中

是节点集，R是边集，每个节点

对应一个事件，

，

是表示有向边

，

，有向边权重

表示

是

的后续事件的概率；

的事件图由邻接矩阵

表示，初始化矩阵A如公式(6)所示：

式中，

表示矩阵第i行第j列元素的值，有向边权重

表示

是

的后续事件的概率；

S62，引入潜变量z，让潜变量z在训练过程从事件图中学习知识；使用三个神经网络来描述条件分布

，包括：先验网络

、识别网络

和神经似然度

，其中

和

表示网络的参数，最终输出事件

是不完整观察

的成因的概率

，其中

表示根据不完整观察

事件

成立的概率；

ege-RoBERTa溯因模型训练的loss函数

如下：

；

其中，

表示识别网络

在

和A条件下的对z的数学期望，A表示步骤S61中的事件图邻接矩阵，Y₁表示ege-RoBERTa溯因模型的溯因结果，X表示事件序列

，X₀表示先验事件序列

；

S63，将事件图像序列

作为数据源放入卷积自编码器中进行预训练，得到训练后的卷积自编码器，使用预训练后的卷积自编码器对事件h_n是不完整观察

的成因的概率Y₂进行预测，输出h_n是不完整观察

的成因的概率

，其中

表示根据不完整观察

事件

成立的概率；

S64，使用

自适应加强算法，计算扩充后的ege-RoBERTa溯因模型

和卷积自编码器

之间的混合权重。

进一步地，步骤S64中，使用

自适应加强算法，计算扩充后的ege-RoBERTa溯因模型

和卷积自编码器模型

之间的混合权重的过程包括以下步骤：

S641，计算第

个溯因推理器

在训练中的加权误差率

，公式如下：

；

式中，a表示溯因推理器的总数量，

表示训练器对第i条数据的输入，

表示事实结果，

表示第k个分类器对第i个数据的权重，

表示对预测结果与事实结果是否相同的判断，相同为I的值为1，反之为0；

通过加权误差率

计算第

个分类器

的权重系数

，公式如下：

；

其中，溯因推理模型个数

，

的取值集合为

，计算的两个模型的混合权重

，得到扩充ege-RoBERTa溯因模型

和卷积自编码器模型

各自的混合权重

和

；

S642，对两个已经训练完成的分类器

进行集成混合，混合公式如下：

；

式（10）中，

和

表示两个模型的溯因预测结果，最终混合结果为

，其中，

表示该不完整观察

的成因事件是h_k的概率；

S643，选取

中概率最高的成因事件作为最终溯因模型预测的事件成因。

有益效果：

第一，本发明的基于多模态事件知识图谱的溯因推理方法，对现有事件知识图谱本体层框架进行扩充，使其可以容纳和引用多模态知识，在原有事件知识图谱的基础上增加了知识的裕度和广度。

第二，本发明的基于多模态事件知识图谱的溯因推理方法，提出一种图片序列多通道应用方法，将图片序列通过文本化任务输出成为文本序列，将输出的文本序列和图片序列同时作为推理模型的事实依据。

第三，本发明的基于多模态事件知识图谱的溯因推理方法，在原有ege-RoBERTa溯因模型的基础上，对模型进行修改，使其可以支持图片知识的输入，使模型可用的特征数据更丰富，在溯因推理中的表现更好。

附图说明

图1是多模态事件知识图谱本体层示意图；

图2是多模态结构化的公共空间示例图；

图3是多模态事件知识图谱事实层示意图；

图4是基于有序图像注意文本生成模型流程示意图；

图5是修改扩充后的ege-RoBERTa溯因模型示意图；

图6是本发明实施例的基于多模态事件知识图谱的溯因推理方法流程图。

具体实施方式

下面的实施例可使本专业技术人员更全面地理解本发明，但不以任何方式限制本发明。

图6是本发明实施例的基于多模态事件知识图谱的溯因推理方法流程图。参见图6，所述溯因推理方法包括以下步骤：

S1，对现有的SEM简单事件框架进行扩充，采用GAF算法对扩充后的SEM简单事件框架进行注释，作为多模态事件知识图谱的本体层框架。

S2，建立多媒体新闻数据集，采用跨模态事件抽取模型对多媒体新闻数据中的文本和图像进行事实抽取，抽取其中的事件、论元元素，并将文本数据和图像数据中的事件和论元嵌入同一向量空间对齐。

S3，将抽取和对齐后的事件知识通过GAF对齐注释框架填入多模态事件知识图谱的事实层，构建出多模态事件知识图谱作为后续溯因推理的知识库。

S4，根据溯因任务所给的事件不完整观察，通过数据库搜索的方法从多模态事件知识图谱中找出对应的可疑成因事件和额外知识事件，以及可疑成因事件和额外知识事件对应的事件图片序列。

S5，采用有序图像注意模型对搜索出的图片序列进行文本化处理，输出对应的文本序列。

S6，对ege-RoBERTa溯因模型进行扩充，加入额外事件信息；增加卷积自编码器通道，结合卷积自编码器通道和扩充后的ege-RoBERTa溯因模型，构建溯因推理模型，溯因推理模型拥有读取图片序列中可用信息以及额外信息的能力。

进一步的，如图1所示，步骤1的具体方法如下：

步骤1.1：构建SEM简单事件模型。有四个核心类：sem:Event（发生了什么事），sem:Actor（参与者），sem:Place（地点），sem:Time（何时）。每个核心类都有一个相关的类型sem:Type，其中包含指示实例类型的资源。实例及其类型通常借用其他词汇。

步骤1.2：在步骤1.1所构建模型上添加imo:image核心类用来存储图片，下构建imo:imageEvent、imo:imageActor、imo:imagePlace三个子类，三者归属于sem:imageType。并通过属性与sem:Event，sem:Actor，sem:Place核心类链接。

步骤1.3：对于步骤1.2中imo:image的内部结构，图像的视觉描述符和相似性关系形成核心，为了将这些关系表示成RDF，嵌入imo图片本体。

进一步的，如图2所示，步骤2的具体方法如下：

步骤2.1：对于输入的文本情报数据，使用AMR表示文本，并使用CAMR分析程序生成AMR图，得到；使用预训练的GloVe词编码、词性标注、命名实体识别和位置编码表示句子中的一个token。

步骤2.2：经过Bi-LSTM编码词序，得到每个句子的token的表示。对每个动词

为事件类型

和每个实体

为论元角色

，按照公式（1）和公式（2）对文本数据源中的事件和论元进行抽取。抽取公式如下：

；

。

步骤2.3：将每个图片表示为行为图，中心节点被标记为动词

，邻居节点使论元被标记为

，其中

为名词从WordNet词法集得到，表明实体的类型，r表明实体在事件中扮演的角色。使用基于目标图的方法，按照公式（3）和公式（4）对图中的事件和论元进行抽取，得到图片的事件和论元。抽取公式如下：

；

。

步骤2.4：在对文本和图片情报信息源进行事件、论元抽取之后，通过GCN将AMR图和图片行为图嵌入到公共空间中，然后计算相似性<s,m>,匹配每个句子s和最接近的图像m，通过加权平均，将s中每个单词的特征与m中的对齐表示进行聚合,最终由公式（5）计算得出文本和图片的对齐结果。

。

进一步的，步骤3的具体方法如下：

步骤3：在步骤1）本体层的基础上加入GAF对齐注释框架，通过GAF对其注释框架实现从信息源到事件知识图谱事实层的引用。将步骤2）中抽取的事件知识根据步骤1）构建的本体层填入事实层中，事件知识图谱样例如图3所示。

进一步的，步骤4的具体方法如下：

输入事件的不完整观察事件数据集

，根据

通过数据库查找方法在步骤3构建的多模态事件知识图谱中进行关联查找，得到与不完整观察

可能的事件诱因

，以及相关事实

及其图像序列

。

进一步的，步骤5的具体方法如下：

基于注意的图像序列文本生成模型将步骤4中查找到的图片序列

叙述生成的相关文本

作为模型的额外常识，最终生成文本序列

，详细文本生成模型流程如图4所示。

进一步的，步骤7的具体方法如下：

步骤7.1：基于文本序列

构建事件图

。其中V是节点集，R是边集。每个节点

对应一个事件，而

是表示有向边

以及有向边权重

，表示

是

的后续事件的概率。所以

的事件图可以得到由邻接矩阵

来表示，初始化矩阵A公式如下：

。

步骤7.2：引入潜变量z，让潜变量z在训练过程从事件图中学习知识。使用三个神经网络来描述条件分布

：先验网络

、识别网络

和神经似然度

，其中

和

表示网络的参数，最终输出h_n是不完整观察

的成因的概率

。

ege-RoBERTa溯因模型训练的loss函数如下：

；

其中，A表示步骤7.1中的事件图邻接矩阵，Y₁表示ege-RoBERTa溯因模型的溯因结果，即事件h_n是不完整观察

的成因的概率，X表示事件序列

，X₀表示先验事件序列

。

步骤7.3:将事件图像序列

作为数据源放入卷积自编码器中进行预训练，得到训练后的卷积自编码器。使用预训练后的卷积自编码器对事件h_n是不完整观察

的成因的概率Y₂进行预测，最终输出h_n是不完整观察

的成因的概率

。

步骤7.4:运用集成学习的思想使用

自适应加强算法，计算扩充ege-RoBERTa溯因模型

和卷积自编码器

之间的混合权重，

自适应加强算法如下：

计算第

个溯因推理器

在训练中的加权误差率

，公式如下：

；

通过加权误差率

计算第

个分类器

的权重系数

，公式如下：

；

其中，溯因推理模型个数

，因此

的取值集合为

。计算的两个模型的混合权重

，最终得到扩充ege-RoBERTa溯因模型

和卷积自编码器模型

各自的混合权重

和

。

最后对两个已经训练完成的分类器

进行集成混合，混合公式如下：

；

公式（10）中，

和

为计算得到的模型混合权重，

和

表示两个模型的溯因预测结果。最终混合结果为

，其中，

表示该不完整观察

的成因事件是h_k的概率，选取

中概率最高的成因事件作为最终溯因模型预测的事件成因。

本实施例提供了一种基于多模态事件知识图谱的溯因推理方法，包括以下步骤：对现有的SEM简单事件框架进行扩充，使其可以适应多模态数据的存储；使用跨模态事件抽取模型对多媒体新闻数据中的文本和图像进行事实抽取，抽取其中的事件、论元等事件元素，并将多模态抽取内容嵌入同一向量空间对齐；将抽取和对齐后的事件知识通过GAF对齐注释框架填入多模态事件知识图谱的事实层，构建出多模态事件知识图谱作为后续溯因推理的知识库；再根据溯因任务所给的事件不完整观察，通过数据库搜索的方法从多模态事件知识图谱中找出对应的可疑成因事件和额外知识事件及其对应的事件图片序列；对搜索出的图片序列使用有序图像注意模型进行文本化，并输出对应的文本序列；最后将文本序列和图像序列输入修改扩充后的ege-RoBERTa溯因模型中，对可疑成因事件进行评分预测，最终得到最有可能的不完整观察事件的成因。本实施例有机混合了事件知识图谱和多模态知识图谱的本体层和事实层，使事实知识可以通过多模态事件知识图谱的形式存储和使用，丰富了现行的知识组织和使用形式。对ege-RoBERTa溯因模型进行拓宽，增加了额外知识接口以及卷积自编码器训练通道，使其可以支持多模态事件信息作为额外知识辅助推理，得到更好的推理结果。

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。

Claims

1.一种基于多模态事件知识图谱的溯因推理方法，其特征在于，所述溯因推理方法包括以下步骤：

2.根据权利要求1所述的基于多模态事件知识图谱的溯因推理方法，其特征在于，步骤S1中，对现有的SEM简单事件框架进行扩充，采用GAF算法对扩充后的SEM简单事件框架进行注释，作为多模态事件知识图谱的本体层框架的过程包括以下子步骤：

3.根据权利要求1所述的基于多模态事件知识图谱的溯因推理方法，其特征在于，步骤S2中，建立多媒体新闻数据集，采用跨模态事件抽取模型对多媒体新闻数据中的文本和图像进行事实抽取，抽取其中的事件、论元元素，并将文本数据和图像数据中的事件和论元嵌入同一向量空间对齐的过程包括以下子步骤：

式中，

表示在

条件下

成立的概率，

表示在

条件下

成立的概率；

为动词，

为实体，

为事件类型，

为论元角色，

和

、

和

分别表示模型在事件和论元条件下的神经层权重参数，

和

、

和

分别表示模型在事件和论元条件下的神经层偏移参数，

是模型GCN层中的公共空间表示，

是平均实体

的令牌后获得的嵌入表示；

S23，将每个图片表示为行为图，中心节点被标记为动词

；邻居节点使论元被标记为

，其中

为名词，从WordNet词法集得到，表明实体的类型；

；

式中，

表示在图片

条件下动词

成立的概率，

表示在图片

条件下名词

成立的概率，

表示图片

的编码表示，

表示对

成立的似然估计，

表示对

成立的似然估计，

和

分别表示动词

和名词

的编码表示；

式中，

，

表示单词特征向量，

表示图片特征向量，

4.根据权利要求1所述的基于多模态事件知识图谱的溯因推理方法，其特征在于，步骤S4中，根据溯因任务所给的事件不完整观察，通过数据库搜索的方法从多模态事件知识图谱中找出对应的可疑成因事件和额外知识事件，以及可疑成因事件和额外知识事件对应的事件图片序列的过程包括：

输入事件的不完整观察事件数据集

，其中

分别表示前置事件数据和结果事件数据；根据

可能的事件诱因

，其中

表示可能的第

个事件成因的文本表示，以及相关事实

及其图像序列

，其中

分别表示，

表示与事实相关的五张图片。

5.根据权利要求4所述的基于多模态事件知识图谱的溯因推理方法，其特征在于，步骤S5中，采用有序图像注意模型对搜索出的图片序列进行文本化处理，输出对应的文本序列的过程包括以下步骤：

基于注意的图像序列文本生成模型将查找到的图片序列

叙述生成的相关文本

作为模型的额外常识，其中

表示基于图片图片序列

生成的五个文本，最终生成文本序列

。

6.根据权利要求5所述的基于多模态事件知识图谱的溯因推理方法，其特征在于，步骤S7中，将步骤S4的文本序列和步骤S5的事件图像序列输入至溯因推理模型中，对扩充后的ege-RoBERTa溯因模型和卷积自编码器通道的溯因结果进行加权混合，对可疑成因事件进行评分预测，最终得到每种可能成因事件的概率，输出最有可能的不完整观察事件的成因的过程包括以下步骤：

S61，基于文本序列