CN114398491A

CN114398491A - 一种基于知识图谱的语义分割图像实体关系推理方法

Info

Publication number: CN114398491A
Application number: CN202111568898.9A
Authority: CN
Inventors: 周焕来; 张博阳; 李玉琳; 李家伟; 孙靖哲; 高源�; 刘博文; 贾海涛
Original assignee: Chengdu Quantum Matrix Technology Co ltd
Current assignee: Chengdu Quantum Matrix Technology Co ltd
Priority date: 2021-12-21
Filing date: 2021-12-21
Publication date: 2022-04-26

Abstract

本发明提出了一种基于知识图谱的语义分割图像实体关系推理方法，该方法包括：1)通过FCN网络进行改进，实现对视觉图像语义分割，得到知识图谱中的实体特征(节点)；2)通过一种视觉外观模型对视觉图像特征实体间关系进行检测，得到节点间的关系特征；3)对稀疏知识图谱进行构建，将知识图谱的语义信息采用向量嵌入的方式加载，结构信息转变为向量之间的关系；4)通过图消息传递机制获得目标头尾实体特征结果，作为特征结果1；5)在确定目标头尾实体后，同时利用实体链接算法确定外接知识库的目标实体；6)使用图卷积神经网络在外接知识库中获取增强信息特征结果，作为特征结果2；7)使用双注意力机制对特征结果1和特征结果2进行融合，得到融合特征结果，将不同的融合特征与候选关系结合，计算每个候选关系的阶段性值，通过评分函数计算评分，得到最终的推理预测关系结果，补全图像实体间的关系。

Description

一种基于知识图谱的语义分割图像实体关系推理方法

技术领域

本发明涉及由视觉图像构建知识图谱领域，尤其涉及一种基于知识图谱的语义分割图像实体关系推理方法。

背景技术

随着信息技术的快速发展，互联网上存在有大量的图像数据。对图像进行理解，识别完善图片中各个事物之间的关系，这是对图像赋予认知智能机器理解的关键。目前图像领域中常用语义分割对图像中的目标实体进行提取，提取图像中实体关系常用视觉关系检测。

语义分割是在像素级别上的分类，属于同一类的像素都要被归为一类，目前广泛地应用于人工智能领域，例如，自动驾驶汽车需要识别车辆、行人、交通信号、人行道和其他道路特征；视觉关系检测的目标是从图像中识别出所有的<主语-词-语>三元组，同时标注出主语和宾语的位置，可分为谓词检测、短语检测、关系检测等三个子任务来认知物体间关系。

当前，对图结构的研究是人工智能领域的热门，它可以更全面的表征学习特征信息，知识图谱便是是由实体和关系组成的图结构，类似于存储某一领域知识的数据库。目前知识图谱数量众多、涉及领域广泛如：Wikidata、Freebase等。完善的知识图谱可以挖掘新的知识并且提高相关任务的准确率。

然而在研究过程中发现，受限于知识抽取手段本身性能问题或者一些其他原因(一些暗含的常识信息难以通过图像语义实体间关系表述)，对于含有较为丰富信息的图像，所构成的知识图谱实体间的关系往往是不完整的，语义网络稀疏程度较高。由图像提取实体、关系构建而成的稀疏知识图谱本身因为缺少很多的关系，所以在推理时只能收集到目标头实体、尾实体信息，而不能获取到对应的关系信息，这使得在推理过程中语义信息的收集变得困难；另一方面，由于稀疏性图谱中边相对较少，这使得能够在目标实体头尾节点周围获取到的结构信息不足，对图谱结构信息的提取方面也造成困难。

因此，本发明设计了一种基于知识图谱的语义分割图像实体关系推理方法，通过语义分割算法确定实体(节点)，视觉关系检测算法获取关系(边)，构造初始图谱，在选定目标头实体、尾实体之后，利用实体链接算法和外接的知识库来引入额外的信息，使用双注意力机制对待补全知识图谱中抽取到的特征信息和增强的特征性进行特征融合评分。以此来解决语义分割图像构建的知识图谱中的关系推理预测问题。

发明内容

基于图像的知识图谱构建推理关系预测主要包含七个步骤：图像语义分割、视觉关系检测、知识图谱构建、目标头尾实体特征获取、链接外部实体、外部增强信息特征获取、特征融合。

本发明主要针对“图像语义分割——视觉关系检测”路径在信息特征获取过程得到信息量较少的问题，提出一种基于知识图谱的语义分割图像实体关系推理方法。该方法基于图像语义分割与视觉关系检测算法获取图谱特征，构造初始稀疏度较高语义网络，基于图神经网络和外接知识图谱来提供额外信息，以此来对稀疏知识图谱进行信息增强。利用实体链接算法和外接的知识库来引入额外的信息，利用图卷积神经网络来获取外部知识图谱中的信息特征，使用双注意力机制对待补全知识图谱中抽取到的特征信息和增强的特征性进行特征融合，在对融合之后的特征进行评分，关系预测结果。方法步骤如下：

(1)首先通过对视觉图像语义分割，得到知识图谱中的实体特征(节点)；

(2)对视觉图像特征实体间关系进行检测，得到节点间的关系特征；

(3)对稀疏知识图谱进行构建，将知识图谱的语义信息采用向量嵌入的方式加载，结构信息转变为向量之间的关系；

(4)通过图消息传递机制获得目标头尾实体特征结果，作为特征结果1；

(5)在确定目标头尾实体后，同时利用实体链接算法确定外接知识库的目标实体；

(6)使用图卷积神经网络在外接知识库中获取增强信息特征结果，作为特征结果2；

(7)使用双注意力机制对特征结果1和特征结果2进行融合，得到融合特征结果，将不同的融合特征与候选关系结合，计算每个候选关系的阶段性值，通过评分函数计算评分，得到最终的推理预测关系结果。

附图和附表说明

图1为本发明的整体算法结构图。

图2为本发明的基于FCN改进图像语义分割算法结构图。

图3为本发明的视觉关系检测流程图。

图4为本发明的图谱输入特征转换为向量示意图。

图5为本发明的图消息传递机制迭代嵌入示意图。

具体实施方式

下面将结合本发明实例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述。

如图1所示，本发明主要针对图像构建知识图谱信息量较少问题，提出了基于知识图谱的外部信息增强融合方法。采用外部知识图谱提供增强信息，利用实体链接算法对外部知识图中的目标实体进行定位，利用图卷积神经网络对外部知识图谱的信息进行聚合，得到增强特征。利用增强特征与初始图特征融合的方式来解决稀疏知识图谱关系推理准确度较低的问题。具体实体方式如下：

步骤一：图像语义分割算法提取实体

本发明通过语义分割网络，进行图像中实体的划分，对图像中每一个像素点进行分类，确定每个点的类别(如属于背景、人或车等)，从而进行区域划分。在传统的应用于图像分类的卷积神经网络与池化层模型中，模型能够有效提取出图像的高级语义，但是模型会缩小图片尺寸。

如图2所示，本发明借鉴FCN语义分割网络，在全卷积神经网络的基础上，将网络中的全连接层换为卷积层，输出二维的图像特征图，并在最后一层增加反卷积层，对缩小后的特征进行上采样，从而获取与原图大小一致的特征图，后通过Softmax激活函数获得每个像素点的分类信息，从而实现像素级别的图像分割。

步骤二：视觉关系检测算法提取实体关系

视觉关系检测是检测出图像中实体相互关系的一种检测技术，在识别出实体类别的基础上，进一步识别出目标关系，视觉关系可以通过<object1-predicate-object2>表示。

如图3所示，本发明通过一种视觉外观模型来检测实体关系，首先通过学习目标及其关系的外观特征对视觉关系V建模。由于目标间的某些关系不常见，本发明采用先分别学习目标和关系的特征，再将二者结合的方法。

首先，使用CNN对N＝100种目标分类；同样地，使用CNN集合目标的边界框对K＝70种关系分类。令R_<i,j,k>表示数据集中标注的真实关系，i和j表示目标类别，k表示目标间的关系。对V建模的结果如公式(1)所示(O₁和O₂为目标对应的边界框)：

其中Θ为参数集

z_k和s_k为学习参数，将CNN提取的特征转化为关系的概率。k＝1,2,...,K为关系，P_i(O₁)和P_j(O₂)分别为O₁对应目标属于类别i的概率和O₂对应目标属于类别j的概率。CNN(O₁,O₂)是根据O₁和O₂提取的目标关系特征。

如上所述，<person﹣ride﹣horse>和<person﹣ride﹣elephant>具有语义上的关联性。甚至，如果没有后者的样本，也能通过前者推导出来。

在语言模型中，使用预训练的词向量(word2vec)将关系中的两个目标转换到词嵌入空间。接着，将这两个向量连接在一起，使用可学习参数W将其转化到关系向量空间。映射函数展示了如何使两个目标相互关联。令word2vec()表示将词转化为其300维向量的函数。关系映射函数定义为公式(2)：

其中t_j为第j个类别的词，

是一个600维向量，b_k是偏置项。W是参数集{{w₁,b₁},...,{w_k,b_k}}。

上面已得到视觉外观模型V和语言模型f。结合上述相关等式得到目标函数如公式(3)所示。

最后的目标函数为：max_Θ,W{C(Θ,W)+λ₁L(W)+λ₂K(W)}

首先输入是一幅图像，经过RCNN得到图像中目标对；上面分支为视觉外感模型，下面分支为语言模型；最后综合二者结果，得到最终的输出为<object1-predicate-object2>及其置信度。

步骤三：构造初始稀疏图谱

本发明通过以上步骤，获取到了视觉图像中的实体与关系信息。

如图4所示，构建视觉图像语义网络，需要对特征进行向量嵌入。在知识图谱中为了实现利用计算机对其进行计算，将实体和关系转化为向量的形式进行，让知识图谱中的实体和关系更好的表现在向量空间中。

对于包含实体集V和边集E的图谱G＝(V,E)，将知识图谱中的数据进行向量表示。对于V中的每一个实体v_i构建文本编码和编号词典，并且构建编号和知识图谱嵌入的对应向量词典，由于实体数量较多使用简化编码来表示不同实体的文本。对于E中的每一条边e_i通过分类，转化为知识图谱中对应的关系r_i；而对于数量较少关系不使用简化编码对其进行简化，每一种关系r_i构建编号字典和对应的向量字典。

其中，对于实体节点使用Glove词嵌入方法初始化节点嵌入，维数d设置为300。对于边的关系特征引入百度百科知识图谱进行对应编码。

根据知识图谱嵌入技术获得的向量，将输入的知识图谱特征转化为G＝(V,ε,R)的向量表示形式，并将其作为算法的输入。

步骤四：图消息传递机制获取目标头尾实体特征

如图5所示，我们通过GNN图神经网络消息传递层层迭代，获取图中融合临近节点(全局节点)的嵌入特征。

消息传递类似于图像处理中的标准卷积，本质上是聚合和处理元素邻居信息以更新元素值的操作。在图结构中，元素是一个节点；而在视觉图像处理中，元素是一个像素。不同的是图谱中相邻节点的数量是可变的，通过一定层数的累加，一个节点可以蕴含整个图的全局特征。

在本发明中构建了一个层数layer为4的GNN网络传递迭代特征。定义

是所有节点的集合，

是所有边的集合，u是图的全局属性。对于节点V、边E、全局特征u的3个传递更新函数如公式(4)～(6)所示。

公式(5)中

是一个聚合函数，接受参数为一个边的集合，利用集合中所有边的信息去调整一个节点的状态。公式(6)中包含两个聚合函数：

分别接受参数为一个边(点)的集合，然后利用集合中所有边(点)的信息去调整全局状态。

通过将传递GNN层的消息堆叠在一起，一个节点最终可以合并来自整个图的信息。比如，在三层之后，一个节点“拥有”关于离它三步远的节点的信息。这样，通过GNN图神经网络，可以在图谱的每个节点、每条边上学习到全局的特征信息。

最后，接入全连接层，将目标节点输出特征作为特征结果1。

步骤五：实体链接外接知识库的目标实体

实体链接的主要任务是将输入的实体链向特定知识库中的相应实体或数据条目过程。而这个过程根据处理的不同阶段又主要分为实体识别和实体消歧两个子任务。实体链接模型一般经过实体输入、转化为实体标签文本、实体消歧、实体文本链接到知识库等几个步骤。本发明使用领域公认比较合理的知识库，在中文上使用百度百科作为外部知识库。

本发明采用的实体链接算法采用实体消歧，针对识别的实体和提及的实体预测相应的实体。而实体消歧又分为两个步骤；候选实体生成——找出涉及到的实体之外的可能的其他实体；实体排序——通过图结构信息计算候选实体的分数然后进行排序。

知识图谱中头实体、尾实体为输入，通过实体链接算法最终得到外接知识库中的对应实体和其在知识库中的位置，即实体字典的序号。

步骤六：图卷积神经网络获取外接知识库增强信息特征

如图4所示，具体的稀疏知识图谱信息增强算法需要使用到图神经网络对目标节点周围的信息进行特征获取。对于包含多重关系的知识图谱进行建模，G＝(V,ε,R)表示整个知识图谱，其中实体向量v_i∈V，关系类型R包含多种关系r∈R，有两个不同实体和一种关系组成了三元组关系对(v_i,r,v_j)∈ε。

图神经网络是基于热力学传播转化而来的可微的信息传播模型。进行知识图谱链接推理的图神经网络是基础的图神经网络GCNs的一种变体，GCNs中的消息传播模型如公式(7)所示。

其中

是实体变量v_i在隐藏层中的第l层的值，并且是d维的空间中的变量，即

公式(7)表示隐层的下一层结果由这一层的隐藏值进行两两线性变换θ_m得来的，θ_m一般采用权重矩阵W来进行线性变换，如公式(8)。σ(·)而则是神经网络中使用的激活函数，如ReLU。

在GCN基础上，定义了在多重关系图中的关于实体变量v_i的信息传递模型，如公式(9)所示。

其中

是知识图谱中与第i个节点存在关系r∈R的节点的下标集合，这样是为了计算到每重与关系相关的其他知识图谱中的实体。

最终的

为特征结果2。

步骤七：双注意力机制特征融合

如图5所示，将特征结果1和特征结果2进行主要力机制的融合。根据注意力机制理论，在使用自注意力机制的情况下的计算方法如公式(10)所示。

公式(10)中的

就是根据嵌入向量设计的比例因子。

而在知识图谱中抽取到增强信息，采用公式(11)的累计注意力机制方法。

文本中的抽取信息的注意力计算方式如公式(12)所示

公式(11)和公式(12)中ν是超参数，W是权重矩阵。

使用双注意力机制模型后需要将两个注意力α_i和β_i合一，计算方式如公式(13)所示。

在获得了候选三元组(s,r,o)后，可以通过已有的关系推理评分函数。稀疏知识图谱推理关系预测使用的评分函数如公式(14)所示。

最后对评分值进行排序，将评分值最高的候选关系作为稀疏知识图谱中未知关系预测的结果。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围。凡采用等同替换或等效替换，这些变化是显而易见，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于知识图谱的语义分割图像实体关系推理方法，其特征在于，包括下列步骤：

步骤1：图像语义分割算法提取实体

步骤2：视觉关系检测算法提取实体关系

步骤3：构造初始稀疏图谱

步骤4：图消息传递机制获取目标头尾实体特征

步骤5：实体链接外接知识库的目标实体

步骤6：图卷积神经网络获取外接知识库增强信息特征

步骤7：双注意力机制特征融合。

2.如权利要求1所述方法，其特征在于，步骤1中提出图像语义分割算法提取实体的具体方法为：

本发明通过语义分割网络，进行图像中实体的划分，对图像中每一个像素点进行分类，确定每个点的类别(如属于背景、人或车等)，从而进行区域划分。

本发明通过语义分割网络，进行图像中实体的划分，对图像中每一个像素点进行分类，确定每个点的类别(如属于背景、人或车等)，从而进行区域划分。本发明对FCN语义分割网络进行改进，在全卷积神经网络的基础上，将网络中的全连接层换为卷积层，输出二维的图像特征图，并在最后一层增加反卷积层，对缩小后的特征进行上采样，从而获取与原图大小一致的特征图，后通过Softmax激活函数获得每个像素点的分类信息。

3.根据权利要求2所述的基于知识图谱的语义分割图像实体关系推理方法，其特征在于，所述步骤2中的视觉关系检测算法提取实体关系的方法具体为：

通过一种视觉外观模型来检测实体关系。学习目标及其关系的外观特征对视觉关系V建模。由于目标间的某些关系不常见，本发明采用先分别学习目标和关系的特征，再将二者特征融合。

使用CNN对N＝100种目标分类；同样地，使用CNN集合目标的边界框对K＝70种关系分类。令R_<i,j,k>表示数据集中标注的真实关系，i和j表示目标类别，k表示目标间的关系。对V建模的结果如公式(1)所示(O₁和O₂为目标对应的边界框)：

其中Θ为参数集

在语言模型中，使用预训练的词向量(word2vec)将关系中的两个目标转换到词嵌入空间。接着，将这两个向量连接在一起，使用可学习参数W将其转化到关系向量空间。映射函数展示了如何使两个目标相互关联。令word2vec表示将词转化为其300维向量的函数。关系映射函数定义为公式(2)：

其中t_j为第j个类别的词，

是一个600维向量，b_k是偏置项。W是参数集{{w₁,b₁},…,{w_k,b_k}}。

最后的目标函数为：max_Θ,W{C(Θ,W)+λ₁L(W)+λ₂K(W)}

输入是一幅图像，经过RCNN得到图像中目标对；上面分支为视觉外感模型，下面分支为语言模型；最后综合二者结果，得到最终的输出为<object1-predicate-object2>及其置信度。

4.根据权利要求3所述的基于知识图谱的语义分割图像实体关系推理方法，其特征在于，所述步骤3中的构造初始稀疏图谱的方法具体为：

对于包含实体集V和边集E的图谱G＝(V，E)，将知识图谱中的数据进行向量表示。对于V中的每一个实体v_i构建文本编码和编号词典，并且构建编号和知识图谱嵌入的对应向量词典，由于实体数量较多使用简化编码来表示不同实体的文本。对于E中的每一条边e_i通过分类，转化为知识图谱中对应的关系r_i；而对于数量较少关系不使用简化编码对其进行简化，每一种关系r_i构建编号字典和对应的向量字典。

根据知识图谱嵌入技术获得的向量，将输入的知识图谱特征转化为G＝(V，ε，R)的向量表示形式。

5.根据权利要求4所述的基于知识图谱的语义分割图像实体关系推理方法，其特征在于，所述步骤4中的图消息传递机制获取目标头尾实体特征的方法具体为：

通过GNN图神经网络消息传递层层迭代，获取图中融合临近节点(全局节点)的嵌入特征。在本发明中构建了一个层数layer为4的GNN网络传递迭代特征。定义