CN109800317A

CN109800317A - 一种基于图像场景图谱对齐的图像查询回答方法

Info

Publication number: CN109800317A
Application number: CN201910123591.4A
Authority: CN
Inventors: 万海; 罗永豪
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2018-03-19
Filing date: 2019-02-18
Publication date: 2019-05-24
Anticipated expiration: 2039-02-18
Also published as: CN109800317B

Abstract

本发明提供的图像查询回答方法把图像场景图谱实体、属性和关系视觉向量与图像场景图谱实体、属性和关系向量进行对齐学习并且运用到图像查询回答中。关于上述的图像场景图谱对齐学习，首先，提取出图像场景图谱中的关系三元组和属性三元组，并根据TransE翻译模型或TransR翻译模型对图像场景图谱中的实体、关系、属性类型和属性进行图像场景图谱向量编码；然后，通过本发明提出的图像场景图谱实体、关系、属性视觉向量编码以及图像场景图谱实体、关系、属性实例化投影矩阵得到图像场景图谱实体、关系、属性实例化向量；最后用本发明提出的对齐函数进行对齐。为了进一步提高关系图像场景图谱实例化向量的质量，本发明提出了基于关系聚类的对齐方法。

Description

一种基于图像场景图谱对齐的图像查询回答方法

技术领域

本发明涉及人工智能领域，更具体地，涉及一种基于图像场景图谱对齐的图像查询回答方法。

背景技术

图像场景图谱是对一幅图像所描绘场景的抽象的、结构化的表示。具体来说，图像场景图谱以图像场景图谱关系三元组(头部实体，关系，尾部实体)和图像场景图谱属性三元组(实体，属性类型，属性)的方式记录了图像中的实体、实体的属性以及两个实体之间的关系，并且每个实体在图像中都有一个对应的包围盒。图像场景图谱最先由Johnson等人提出，近来在计算机视觉和人工智能领域受到了关注，并有相关的研究成果，例如：利用图像场景图谱检索图像；从事先外部语料库学习的词向量中检索实体的词向量来辅助视觉问答；利用物体检测器和关系检测器生成图像场景图谱。

近年来，针对知识图谱的表示学习方法也受到了人们的关注。知识图谱可以表示成一系列的三元组(头部实体，关系，尾部实体)，而知识图谱的表示学习是指把知识图谱中的实体和关系都表示为低维的实值向量。Bordes等人提出TransE翻译模型，学习目标是使得头部实体向量与关系向量的和与尾部向量接近；Lin等人提出TransR翻译模型，先把头部实体和尾部实体投影到关系空间后，再运用TransE翻译模型的学习目标进行学习。

图像查询回答的目标是给出一组缺少头部实体、关系或者尾部实体的图像场景图谱关系三元组查询，(或缺少实体或属性的图像场景图谱属性三元组查询)，利用图像信息得出缺少部分的答案。求解上述图像场景图谱三元组(包括关系三元组和属性三元组)查询具有重要的意义，因为任意一组图像场景图谱三元组查询都可以转化成一条自然语言的查询，是视觉问答的基础，但是目前仍没有关于图像场景图谱关系三元组查询的解决方案。

发明内容

本发明针对图像场景图谱三元组查询回答问题，提出一种基于图像场景图谱对齐的新方法，对图像场景图谱查询回答有较好的处理效果。

为实现以上发明目的，采用的技术方案是：

一种基于图像场景图谱对齐的图像查询回答方法，用于对关系三元组头部q_h/尾部q_t实体查询、关系三元组关系q_r查询、属性三元组属性q_e查询、属性三元组属性q_a查询，包括以下步骤：

记输入图像为I，图像场景图谱实体向量集合为矩阵E，关系向量集合为矩阵R，关系簇向量集合为矩阵R^c，属性向量集合为矩阵Α，属性类型向量集合为矩阵Z，实体实例化矩阵集合为Π_E，关系实例化矩阵集合为Π_R，属性实例化矩阵集合为Π_A；

1.图像场景图谱实体、关系、属性视觉向量编码中的神经网络以及E，R，Α，Z，Π_E，Π_R，Π_A的对齐训练方法如下：

(1)输入图像场景图谱数据集，设定最大迭代次数；

(2)随机初始化图像场景图谱实体、关系、属性视觉向量编码中的神经网络以及E，R，Α，Z，Π_E，Π_R，Π_A；

(3)取出图像场景图谱训练数据集中的所有图像场景图谱关系三元组和属性三元组，用TransE翻译模型或TransR翻译模型根据评分函数学习，得到E，R，Α，Z；

(4)对于图片I中图像场景图谱实体正例e：

(a)截取出实体e的包围盒β_e，进行图像场景图谱实体视觉向量编码，得到图像场景图谱实体视觉向量v_e；

(b)从Π_E中取出e相对应的图像场景图谱实体实例化矩阵M_e，并把v_e经过M_e实例化投影成为图像场景图谱实体实例化向量

(c)从E中取出e相对应的图像场景图谱向量e，通过对齐函数计算与e之间的对齐分数,作为正例对齐分数；

(d)负采样出一个反例e'，重复(4b)-(4c)的步骤，得到反例对齐分数；

(5)对于图片I中图像场景图谱实体h与实体t组成的关系正例r：

(a)截取出实体h的包围盒β_h以及实体t的包围盒，将β_h和β_t进行图像场景图谱关系视觉向量编码，得到图像场景图谱关系视觉向量s_r；

(b)从Π_R中取出r相对应的图像场景图谱关系实例化矩阵M_r，并把s_r经过M_r实例化投影成为图像场景图谱关系实例化向量

(c)从R中取出r相对应的图像场景图谱向量r，通过对齐函数计算与r之间的对齐分数，作为正例对齐分数；

(d)负采样出一个反例r'，重复(5b)-(5c)的步骤，得到反例对齐分数；

(6)对于图片I中图像场景图谱某个实体的属性正例a

(a)截取出属性a的包围盒β_a的对应区域I_a，将I_a进行图像场景图谱属性视觉向量编码，得到图像场景图谱属性视觉向量u_a；

(b)从Π_A中取出a相对应的图像场景图谱实体实例化矩阵M_a，并把u_a经过M_a实例化投影成为图像场景图谱实体实例化向量

(c)从A中取出a相对应的图像场景图谱向量a，通过对齐函数计算与a之间的对齐分数,作为正例对齐分数；

(d)负采样出一个反例a'，重复(6b)-(6c)的步骤，得到反例对齐分数；

(7)通过目标函数结合正例样本分数和反例样本分数得到网络残差，用随机梯度下降算法进行神经网络中各层参数的反向传播得到梯度值并迭代其参数；

(8)重复(3)-(7)达到最大迭代次数；

2.所述的图像场景图谱实体/关系/属性视觉向量编码，其方法描述如下：

(1)图像场景图谱实体视觉向量编码：

(a)对于图片I中图像场景图谱实体e的包围盒β_e，截取出该包围盒的对应区域I_e；

(b)将I_e通过卷积神经网络和外加的一层实体全连接神经网络层，得到图像场景图谱实体视觉向量v_e；

(2)图像场景图谱关系视觉向量编码：

(a)对于图片I中图像场景图谱关系r对应的图像场景图谱头部实体h的包围盒β_h＝(x_h,y_h,w_h,h_h)和尾部实体t的包围盒β_t＝(x_t,y_t,w_t,h_t)，其中x,y表示包围盒左上角的坐标，w,h表示包围盒的宽和高，用图像场景图谱实体视觉向量编码得到图像场景图谱实体视觉向量v_h和v_t，并且计算包围盒β_h和β_t的位置特征向量

(b)将v_h和v_t串联成一个二通道的二维张量，用一层关系一维卷积神经网络层编码；

(c)将(2)的结果与b_r串联成一个一通道的二维张量，通过一层关系全连接神经网络层，得到图像场景图谱实体视觉向量s_r；

(3)图像场景图谱属性视觉向量编码：

(a)对于图片I中图像场景图谱某个实体的属性a包围盒β_a，截取出该包围盒的对应区域I_a；

(a)将I_a通过卷积神经网络和外加的一层属性全连接神经网络层，得到图像场景图谱属性视觉向量u_a；

3.图像场景图谱关系视觉向量编码中的神经网络以及R，R^c，Π_R的基于关系聚类的对齐训练方法如下：

(1)用Affinity Propagation算法对图像场景图谱训练数据集中所有的位置特征向量b_r进行聚类，得到p个簇中心，并初始化由p个向量构成的矩阵R^c；

(2)同1.(1)

(3)随机初始化图像场景图谱关系视觉向量编码中的神经网络以及R，Π_R，Π_A，同时设定最大迭代次数；

(4)同1.(3)；

(5)对于图片I中图像场景图谱实体h与实体t组成的关系r：

(a)同1.(5a)；

(b)同1.(5b)；

(c)同1.(5c)；

(d)从R中取出r相对应的图像场景图谱向量r，从R^c中取出r相对应的图像场景图谱关系簇中心向量r^c，通过关系聚类对齐函数计算与r、r^c之间的对齐分数，作为正例对齐分数；

(e)负采样出一个反例r'，重复(5c)-(5d)的步骤，得到反例对齐分数；

(6)同1.(7)；

(7)重复(4)-(6)达到最大迭代次数；

4.评分函数、对齐函数、关系聚类对齐函数、目标函数描述如下：

(1)评分函数：

给定一个图像场景图谱关系三元组(h,r,t)(或图像场景图谱属性三元组(e,z,a))，及其对应的图像场景图谱向量h,r,t，TransE翻译模型的评分函数为：

TransR翻译模型则需另外为每个关系分配一个投影矩阵，记作P_r，则其评分函数为：

(2)对齐函数：

给定一个图像场景图谱实体实例化向量(或关系实例化向量属性实例化向量)和图像场景图谱实体向量e(或关系向量r、属性向量a)，对齐函数定义为：

(3)关系聚类对齐函数：

给定一个图像场景图谱关系实例化向量图像场景图谱关系向量r和相对应的图像场景图谱关系簇中心向量r^c，超参数α，关系聚类对齐函数定义为：

(4)目标函数：

给定一个正例样本对集合D⁺和反例样本对集合D^-，样本对由一个图像场景图谱实体/关系/属性实例化向量和图像场景图谱实体/关系/属性向量构成，目标函数定义为：

其中，σ(x)＝1/(1+exp(-x))，d(a,b)其中可以被替换成d^c(a,b)，τ是常数；

5.对于查询q_h/q_t，其具体的工作过程如下：

(1)输入图像I和查询q_h/q_t；

(2)用EdgeBox算法找出图像I上的n个候选包围盒集合C＝{c_i|i＝1,...,n}；

(3)将C进行图像场景图谱实体视觉向量编码，得到候选包围盒的图像场景图谱实体视觉向量集合V_c＝{v_ci|i＝1,...,n}；

(4)从Π_E中取出查询中已知的t/h相对应的图像场景图谱实体实例化矩阵M_t/M_h，并把V_c中的所有向量经过M_t/M_h实例化投影成为图像场景图谱实体实例化向量集合

(5)从E中取出查询中已知的t/h相对应的图像场景图谱向量t/h，通过对齐函数计算中各个向量与t之间的分数，或中各个向量与h之间的分数，选出最优的图像场景图谱实体实例化向量以及相对应的候选包围盒c_t/c_h；

(6)取包围盒c_t或c_h与C\{c_t}或C\{c_h}中的其他包围盒一一配对，进行图像场景图谱关系视觉向量编码，得到候选包围盒的图像场景图谱关系视觉向量集合S_c＝{s_ci|i＝1,...,n-1}；

(7)从Π_R中取出查询中已知的r相对应的图像场景图谱关系实例化矩阵M_r，并把S_c中的所有向量经过M_r实例化投影成为图像场景图谱关系实例化向量集合

(8)从R中取出查询中已知的r相对应的图像场景图谱向量r，通过对齐函数计算中各个向量与r之间的分数，选出最优的图像场景图谱关系实例化向量

(9)遍历根据图像场景图谱实体向量集合E中的各个向量，根据或以及通过评分函数得出答案a_h或a_t；

6.对于查询q_r，其具体的工作过程如下：

(1)输入图像I和查询q_r；

(2)同5.(2)；

(3)同5.(3)；

(4)从Π_E中取出查询中已知的h和t相对应的图像场景图谱实体实例化矩阵M_h和M_t，并把V_c中的所有向量分别经过M_h和M_t实例化投影成为图像场景图谱实体实例化向量集合和

(5)从E中取出查询中已知的h和t相对应的图像场景图谱向量h和t，通过对齐函数分别计算中各个向量与h之间的分数以及中各个向量与t之间的分数，选出最优的图像场景图谱实体实例化向量和

(6)遍历根据图像场景图谱关系向量集合R中的各个向量，根据和通过评分函数得出答案a_r；

7.对于查询q_e，其具体的工作过程如下：

(1)输入图像I和查询q_e；

(2)同5.(2)；

(3)将C进行图像场景图谱属性视觉向量编码，得到候选包围盒的图像场景图谱属性视觉向量集合U_c＝{u_ci|i＝1,...,n}；

(4)从Π_A中取出查询中已知的a相对应的图像场景图谱属性实例化矩阵M_a，并把U_c中的所有向量经过M_a实例化投影成为图像场景图谱属性实例化向量集合

(5)从A中取出查询中已知的a相对应的图像场景图谱向量a，通过对齐函数计算中各个向量与a之间的分数，选出最优的图像场景图谱实体实例化向量从Z中取出查询中已知的z相对应的图像场景图谱属性类型向量z；

(6)遍历根据图像场景图谱实体向量集合E中的各个向量，根据以及z，通过评分函数得出答案a_e；

8.对于查询q_a，其具体的工作过程如下：

(1)输入图像I和查询q_a；

(2)同5.(2)；

(3)同5.(3)；

(4)从Π_E中取出查询中已知的e相对应的图像场景图谱实体实例化矩阵M_e，并把V_c中的所有向量经过M_e实例化投影成为图像场景图谱实体实例化向量集合

(5)从E中取出查询中已知的e相对应的图像场景图谱向量e，通过对齐函数计算中各个向量与e之间的分数，选出最优的图像场景图谱实体实例化向量

(6)遍历根据图像场景图谱属性向量集合A中的各个向量以及每个属性在图像场景图谱属性类型向量集合Z中对应的属性类型，根据通过评分函数得出答案a_a。

与现有技术相比，本发明的有益效果是：

本发明提供的图像查询回答方法把图像场景图谱实体、属性和关系视觉向量与图像场景图谱实体、属性和关系向量进行对齐学习并且运用到图像查询回答中。关于上述的图像场景图谱对齐学习，首先，提取出图像场景图谱中的关系三元组和属性三元组，并根据TransE翻译模型或TransR翻译模型对图像场景图谱中的实体、关系、属性类型和属性进行图像场景图谱向量编码；然后，通过本发明提出的图像场景图谱实体、关系、属性视觉向量编码以及图像场景图谱实体、关系、属性实例化投影矩阵得到图像场景图谱实体、关系、属性实例化向量；最后用本发明提出的对齐函数进行对齐。为了进一步提高关系图像场景图谱实例化向量的质量，本发明提出了基于关系聚类的对齐方法。为了将对齐后的图像场景图谱实体、关系、属性实例化向量运用到图像查询回答，本发明还提出了基于图像场景图谱对齐的图像查询回答方法，该方法可以根据给出的四种查询类型(关系三元组头部(或尾部)实体查询、关系三元组关系查询、属性三元组实体查询、属性三元组属性查询)采取不同的查询策略，通过对齐模型得到查询的答案。

附图说明

图1为本发明的图像场景图谱对齐学习整体框图；

图2为本发明的图像场景图谱关系三元组头部(或尾部)实体查询处理流程图；

图3为本发明的图像场景图谱关系三元组关系查询处理流程图；

图4为本发明的图像场景图谱属性三元组实体查询处理流程图；

图5为本发明的图像场景图谱属性三元组属性查询处理流程图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

以下结合附图和实施例对本发明做进一步的阐述。

实施例1

对于下列的1-4点，基本的算法流程图如说明书附图1所示。

(1)输入图像场景图谱数据集，设定最大迭代次数；

(4)对于图片I中图像场景图谱实体正例e：

(5)对于图片I中图像场景图谱实体h与实体t组成的关系正例r：

(6)对于图片I中图像场景图谱某个实体的属性正例a

(8)重复(3)-(7)达到最大迭代次数；

(1)图像场景图谱实体视觉向量编码：

(2)图像场景图谱关系视觉向量编码：

(3)图像场景图谱属性视觉向量编码：

(2)同1.(1)

(4)同1.(3)；

(5)对于图片I中图像场景图谱实体h与实体t组成的关系r：

(a)同1.(5a)；

(b)同1.(5b)；

(c)同1.(5c)；

(6)同1.(7)；

(7)重复(4)-(6)达到最大迭代次数；

(1)评分函数：

(2)对齐函数：

(3)关系聚类对齐函数：

(4)目标函数：

5.对于查询q_h/q_t，如图2所示，其具体的工作过程如下：

(1)输入图像I和查询q_h/q_t；

6.对于查询q_r，如图3所示，其具体的工作过程如下：

(1)输入图像I和查询q_r；

(2)同5.(2)；

(3)同5.(3)；

7.对于查询q_e，如图4所示，其具体的工作过程如下：

(1)输入图像I和查询q_e；

(2)同5.(2)；

8.对于查询q_a，如图5所示，其具体的工作过程如下：

(1)输入图像I和查询q_a；

(2)同5.(2)；

(3)同5.(3)；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于图像场景图谱对齐的图像查询回答方法，用于对关系三元组头部q_h/尾部q_t实体查询、关系三元组关系q_r查询、属性三元组属性q_e查询、属性三元组属性q_a查询，其特征在于：包括以下步骤：

(1)输入图像场景图谱数据集，设定最大迭代次数；

(4)对于图片I中图像场景图谱实体正例e：

(5)对于图片I中图像场景图谱实体h与实体t组成的关系正例r：

(6)对于图片I中图像场景图谱某个实体的属性正例a

(8)重复(3)-(7)达到最大迭代次数；

(1)图像场景图谱实体视觉向量编码：

(2)图像场景图谱关系视觉向量编码：

(3)图像场景图谱属性视觉向量编码：

(2)同1.(1)

(4)同1.(3)；

(5)对于图片I中图像场景图谱实体h与实体t组成的关系r：

(a)同1.(5a)；

(b)同1.(5b)；

(c)同1.(5c)；

(6)同1.(7)；

(7)重复(4)-(6)达到最大迭代次数；

(1)评分函数：

(2)对齐函数：

(3)关系聚类对齐函数：

(4)目标函数：

5.对于查询q_h/q_t，其具体的工作过程如下：

(1)输入图像I和查询q_h/q_t；

6.对于查询q_r，其具体的工作过程如下：

(1)输入图像I和查询q_r；

(2)同5.(2)；

(3)同5.(3)；

7.对于查询q_e，其具体的工作过程如下：

(1)输入图像I和查询q_e；

(2)同5.(2)；

8.对于查询q_a，其具体的工作过程如下：

(1)输入图像I和查询q_a；

(2)同5.(2)；

(3)同5.(3)；