CN109800317A - 一种基于图像场景图谱对齐的图像查询回答方法 - Google Patents
一种基于图像场景图谱对齐的图像查询回答方法 Download PDFInfo
- Publication number
- CN109800317A CN109800317A CN201910123591.4A CN201910123591A CN109800317A CN 109800317 A CN109800317 A CN 109800317A CN 201910123591 A CN201910123591 A CN 201910123591A CN 109800317 A CN109800317 A CN 109800317A
- Authority
- CN
- China
- Prior art keywords
- image scene
- vector
- scene map
- relationship
- attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 239000013598 vector Substances 0.000 claims abstract description 272
- 239000011159 matrix material Substances 0.000 claims abstract description 48
- 238000013519 translation Methods 0.000 claims abstract description 19
- 238000013528 artificial neural network Methods 0.000 claims description 22
- 238000012549 training Methods 0.000 claims description 12
- 238000013527 convolutional neural network Methods 0.000 claims description 9
- 238000001228 spectrum Methods 0.000 claims description 4
- 238000013480 data collection Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 235000019227 E-number Nutrition 0.000 claims 1
- 239000004243 E-number Substances 0.000 claims 1
- 238000013507 mapping Methods 0.000 abstract description 5
- 230000006870 function Effects 0.000 description 46
- 238000010586 diagram Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 2
- 210000004218 nerve net Anatomy 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000035800 maturation Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
本发明提供的图像查询回答方法把图像场景图谱实体、属性和关系视觉向量与图像场景图谱实体、属性和关系向量进行对齐学习并且运用到图像查询回答中。关于上述的图像场景图谱对齐学习,首先,提取出图像场景图谱中的关系三元组和属性三元组,并根据TransE翻译模型或TransR翻译模型对图像场景图谱中的实体、关系、属性类型和属性进行图像场景图谱向量编码;然后,通过本发明提出的图像场景图谱实体、关系、属性视觉向量编码以及图像场景图谱实体、关系、属性实例化投影矩阵得到图像场景图谱实体、关系、属性实例化向量;最后用本发明提出的对齐函数进行对齐。为了进一步提高关系图像场景图谱实例化向量的质量,本发明提出了基于关系聚类的对齐方法。
Description
技术领域
本发明涉及人工智能领域,更具体地,涉及一种基于图像场景图谱对齐的图像查询回答方法。
背景技术
图像场景图谱是对一幅图像所描绘场景的抽象的、结构化的表示。具体来说,图像场景图谱以图像场景图谱关系三元组(头部实体,关系,尾部实体)和图像场景图谱属性三元组(实体,属性类型,属性)的方式记录了图像中的实体、实体的属性以及两个实体之间的关系,并且每个实体在图像中都有一个对应的包围盒。图像场景图谱最先由Johnson等人提出,近来在计算机视觉和人工智能领域受到了关注,并有相关的研究成果,例如:利用图像场景图谱检索图像;从事先外部语料库学习的词向量中检索实体的词向量来辅助视觉问答;利用物体检测器和关系检测器生成图像场景图谱。
近年来,针对知识图谱的表示学习方法也受到了人们的关注。知识图谱可以表示成一系列的三元组(头部实体,关系,尾部实体),而知识图谱的表示学习是指把知识图谱中的实体和关系都表示为低维的实值向量。Bordes等人提出TransE翻译模型,学习目标是使得头部实体向量与关系向量的和与尾部向量接近;Lin等人提出TransR翻译模型,先把头部实体和尾部实体投影到关系空间后,再运用TransE翻译模型的学习目标进行学习。
图像查询回答的目标是给出一组缺少头部实体、关系或者尾部实体的图像场景图谱关系三元组查询,(或缺少实体或属性的图像场景图谱属性三元组查询),利用图像信息得出缺少部分的答案。求解上述图像场景图谱三元组(包括关系三元组和属性三元组)查询具有重要的意义,因为任意一组图像场景图谱三元组查询都可以转化成一条自然语言的查询,是视觉问答的基础,但是目前仍没有关于图像场景图谱关系三元组查询的解决方案。
发明内容
本发明针对图像场景图谱三元组查询回答问题,提出一种基于图像场景图谱对齐的新方法,对图像场景图谱查询回答有较好的处理效果。
为实现以上发明目的,采用的技术方案是:
一种基于图像场景图谱对齐的图像查询回答方法,用于对关系三元组头部qh/尾部qt实体查询、关系三元组关系qr查询、属性三元组属性qe查询、属性三元组属性qa查询,包括以下步骤:
记输入图像为I,图像场景图谱实体向量集合为矩阵E,关系向量集合为矩阵R,关系簇向量集合为矩阵Rc,属性向量集合为矩阵Α,属性类型向量集合为矩阵Z,实体实例化矩阵集合为ΠE,关系实例化矩阵集合为ΠR,属性实例化矩阵集合为ΠA;
1.图像场景图谱实体、关系、属性视觉向量编码中的神经网络以及E,R,Α,Z,ΠE,ΠR,ΠA的对齐训练方法如下:
(1)输入图像场景图谱数据集,设定最大迭代次数;
(2)随机初始化图像场景图谱实体、关系、属性视觉向量编码中的神经网络以及E,R,Α,Z,ΠE,ΠR,ΠA;
(3)取出图像场景图谱训练数据集中的所有图像场景图谱关系三元组和属性三元组,用TransE翻译模型或TransR翻译模型根据评分函数学习,得到E,R,Α,Z;
(4)对于图片I中图像场景图谱实体正例e:
(a)截取出实体e的包围盒βe,进行图像场景图谱实体视觉向量编码,得到图像场景图谱实体视觉向量ve;
(b)从ΠE中取出e相对应的图像场景图谱实体实例化矩阵Me,并把ve经过Me实例化投影成为图像场景图谱实体实例化向量
(c)从E中取出e相对应的图像场景图谱向量e,通过对齐函数计算与e之间的对齐分数,作为正例对齐分数;
(d)负采样出一个反例e',重复(4b)-(4c)的步骤,得到反例对齐分数;
(5)对于图片I中图像场景图谱实体h与实体t组成的关系正例r:
(a)截取出实体h的包围盒βh以及实体t的包围盒,将βh和βt进行图像场景图谱关系视觉向量编码,得到图像场景图谱关系视觉向量sr;
(b)从ΠR中取出r相对应的图像场景图谱关系实例化矩阵Mr,并把sr经过Mr实例化投影成为图像场景图谱关系实例化向量
(c)从R中取出r相对应的图像场景图谱向量r,通过对齐函数计算与r之间的对齐分数,作为正例对齐分数;
(d)负采样出一个反例r',重复(5b)-(5c)的步骤,得到反例对齐分数;
(6)对于图片I中图像场景图谱某个实体的属性正例a
(a)截取出属性a的包围盒βa的对应区域Ia,将Ia进行图像场景图谱属性视觉向量编码,得到图像场景图谱属性视觉向量ua;
(b)从ΠA中取出a相对应的图像场景图谱实体实例化矩阵Ma,并把ua经过Ma实例化投影成为图像场景图谱实体实例化向量
(c)从A中取出a相对应的图像场景图谱向量a,通过对齐函数计算与a之间的对齐分数,作为正例对齐分数;
(d)负采样出一个反例a',重复(6b)-(6c)的步骤,得到反例对齐分数;
(7)通过目标函数结合正例样本分数和反例样本分数得到网络残差,用随机梯度下降算法进行神经网络中各层参数的反向传播得到梯度值并迭代其参数;
(8)重复(3)-(7)达到最大迭代次数;
2.所述的图像场景图谱实体/关系/属性视觉向量编码,其方法描述如下:
(1)图像场景图谱实体视觉向量编码:
(a)对于图片I中图像场景图谱实体e的包围盒βe,截取出该包围盒的对应区域Ie;
(b)将Ie通过卷积神经网络和外加的一层实体全连接神经网络层,得到图像场景图谱实体视觉向量ve;
(2)图像场景图谱关系视觉向量编码:
(a)对于图片I中图像场景图谱关系r对应的图像场景图谱头部实体h的包围盒βh=(xh,yh,wh,hh)和尾部实体t的包围盒βt=(xt,yt,wt,ht),其中x,y表示包围盒左上角的坐标,w,h表示包围盒的宽和高,用图像场景图谱实体视觉向量编码得到图像场景图谱实体视觉向量vh和vt,并且计算包围盒βh和βt的位置特征向量
(b)将vh和vt串联成一个二通道的二维张量,用一层关系一维卷积神经网络层编码;
(c)将(2)的结果与br串联成一个一通道的二维张量,通过一层关系全连接神经网络层,得到图像场景图谱实体视觉向量sr;
(3)图像场景图谱属性视觉向量编码:
(a)对于图片I中图像场景图谱某个实体的属性a包围盒βa,截取出该包围盒的对应区域Ia;
(a)将Ia通过卷积神经网络和外加的一层属性全连接神经网络层,得到图像场景图谱属性视觉向量ua;
3.图像场景图谱关系视觉向量编码中的神经网络以及R,Rc,ΠR的基于关系聚类的对齐训练方法如下:
(1)用Affinity Propagation算法对图像场景图谱训练数据集中所有的位置特征向量br进行聚类,得到p个簇中心,并初始化由p个向量构成的矩阵Rc;
(2)同1.(1)
(3)随机初始化图像场景图谱关系视觉向量编码中的神经网络以及R,ΠR,ΠA,同时设定最大迭代次数;
(4)同1.(3);
(5)对于图片I中图像场景图谱实体h与实体t组成的关系r:
(a)同1.(5a);
(b)同1.(5b);
(c)同1.(5c);
(d)从R中取出r相对应的图像场景图谱向量r,从Rc中取出r相对应的图像场景图谱关系簇中心向量rc,通过关系聚类对齐函数计算与r、rc之间的对齐分数,作为正例对齐分数;
(e)负采样出一个反例r',重复(5c)-(5d)的步骤,得到反例对齐分数;
(6)同1.(7);
(7)重复(4)-(6)达到最大迭代次数;
4.评分函数、对齐函数、关系聚类对齐函数、目标函数描述如下:
(1)评分函数:
给定一个图像场景图谱关系三元组(h,r,t)(或图像场景图谱属性三元组(e,z,a)),及其对应的图像场景图谱向量h,r,t,TransE翻译模型的评分函数为:
TransR翻译模型则需另外为每个关系分配一个投影矩阵,记作Pr,则其评分函数为:
(2)对齐函数:
给定一个图像场景图谱实体实例化向量(或关系实例化向量属性实例化向量)和图像场景图谱实体向量e(或关系向量r、属性向量a),对齐函数定义为:
(3)关系聚类对齐函数:
给定一个图像场景图谱关系实例化向量图像场景图谱关系向量r和相对应的图像场景图谱关系簇中心向量rc,超参数α,关系聚类对齐函数定义为:
(4)目标函数:
给定一个正例样本对集合D+和反例样本对集合D-,样本对由一个图像场景图谱实体/关系/属性实例化向量和图像场景图谱实体/关系/属性向量构成,目标函数定义为:
其中,σ(x)=1/(1+exp(-x)),d(a,b)其中可以被替换成dc(a,b),τ是常数;
5.对于查询qh/qt,其具体的工作过程如下:
(1)输入图像I和查询qh/qt;
(2)用EdgeBox算法找出图像I上的n个候选包围盒集合C={ci|i=1,...,n};
(3)将C进行图像场景图谱实体视觉向量编码,得到候选包围盒的图像场景图谱实体视觉向量集合Vc={vci|i=1,...,n};
(4)从ΠE中取出查询中已知的t/h相对应的图像场景图谱实体实例化矩阵Mt/Mh,并把Vc中的所有向量经过Mt/Mh实例化投影成为图像场景图谱实体实例化向量集合
(5)从E中取出查询中已知的t/h相对应的图像场景图谱向量t/h,通过对齐函数计算中各个向量与t之间的分数,或中各个向量与h之间的分数,选出最优的图像场景图谱实体实例化向量以及相对应的候选包围盒ct/ch;
(6)取包围盒ct或ch与C\{ct}或C\{ch}中的其他包围盒一一配对,进行图像场景图谱关系视觉向量编码,得到候选包围盒的图像场景图谱关系视觉向量集合Sc={sci|i=1,...,n-1};
(7)从ΠR中取出查询中已知的r相对应的图像场景图谱关系实例化矩阵Mr,并把Sc中的所有向量经过Mr实例化投影成为图像场景图谱关系实例化向量集合
(8)从R中取出查询中已知的r相对应的图像场景图谱向量r,通过对齐函数计算中各个向量与r之间的分数,选出最优的图像场景图谱关系实例化向量
(9)遍历根据图像场景图谱实体向量集合E中的各个向量,根据或以及通过评分函数得出答案ah或at;
6.对于查询qr,其具体的工作过程如下:
(1)输入图像I和查询qr;
(2)同5.(2);
(3)同5.(3);
(4)从ΠE中取出查询中已知的h和t相对应的图像场景图谱实体实例化矩阵Mh和Mt,并把Vc中的所有向量分别经过Mh和Mt实例化投影成为图像场景图谱实体实例化向量集合和
(5)从E中取出查询中已知的h和t相对应的图像场景图谱向量h和t,通过对齐函数分别计算中各个向量与h之间的分数以及中各个向量与t之间的分数,选出最优的图像场景图谱实体实例化向量和
(6)遍历根据图像场景图谱关系向量集合R中的各个向量,根据和通过评分函数得出答案ar;
7.对于查询qe,其具体的工作过程如下:
(1)输入图像I和查询qe;
(2)同5.(2);
(3)将C进行图像场景图谱属性视觉向量编码,得到候选包围盒的图像场景图谱属性视觉向量集合Uc={uci|i=1,...,n};
(4)从ΠA中取出查询中已知的a相对应的图像场景图谱属性实例化矩阵Ma,并把Uc中的所有向量经过Ma实例化投影成为图像场景图谱属性实例化向量集合
(5)从A中取出查询中已知的a相对应的图像场景图谱向量a,通过对齐函数计算中各个向量与a之间的分数,选出最优的图像场景图谱实体实例化向量从Z中取出查询中已知的z相对应的图像场景图谱属性类型向量z;
(6)遍历根据图像场景图谱实体向量集合E中的各个向量,根据以及z,通过评分函数得出答案ae;
8.对于查询qa,其具体的工作过程如下:
(1)输入图像I和查询qa;
(2)同5.(2);
(3)同5.(3);
(4)从ΠE中取出查询中已知的e相对应的图像场景图谱实体实例化矩阵Me,并把Vc中的所有向量经过Me实例化投影成为图像场景图谱实体实例化向量集合
(5)从E中取出查询中已知的e相对应的图像场景图谱向量e,通过对齐函数计算中各个向量与e之间的分数,选出最优的图像场景图谱实体实例化向量
(6)遍历根据图像场景图谱属性向量集合A中的各个向量以及每个属性在图像场景图谱属性类型向量集合Z中对应的属性类型,根据通过评分函数得出答案aa。
与现有技术相比,本发明的有益效果是:
本发明提供的图像查询回答方法把图像场景图谱实体、属性和关系视觉向量与图像场景图谱实体、属性和关系向量进行对齐学习并且运用到图像查询回答中。关于上述的图像场景图谱对齐学习,首先,提取出图像场景图谱中的关系三元组和属性三元组,并根据TransE翻译模型或TransR翻译模型对图像场景图谱中的实体、关系、属性类型和属性进行图像场景图谱向量编码;然后,通过本发明提出的图像场景图谱实体、关系、属性视觉向量编码以及图像场景图谱实体、关系、属性实例化投影矩阵得到图像场景图谱实体、关系、属性实例化向量;最后用本发明提出的对齐函数进行对齐。为了进一步提高关系图像场景图谱实例化向量的质量,本发明提出了基于关系聚类的对齐方法。为了将对齐后的图像场景图谱实体、关系、属性实例化向量运用到图像查询回答,本发明还提出了基于图像场景图谱对齐的图像查询回答方法,该方法可以根据给出的四种查询类型(关系三元组头部(或尾部)实体查询、关系三元组关系查询、属性三元组实体查询、属性三元组属性查询)采取不同的查询策略,通过对齐模型得到查询的答案。
附图说明
图1为本发明的图像场景图谱对齐学习整体框图;
图2为本发明的图像场景图谱关系三元组头部(或尾部)实体查询处理流程图;
图3为本发明的图像场景图谱关系三元组关系查询处理流程图;
图4为本发明的图像场景图谱属性三元组实体查询处理流程图;
图5为本发明的图像场景图谱属性三元组属性查询处理流程图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
以下结合附图和实施例对本发明做进一步的阐述。
实施例1
一种基于图像场景图谱对齐的图像查询回答方法,用于对关系三元组头部qh/尾部qt实体查询、关系三元组关系qr查询、属性三元组属性qe查询、属性三元组属性qa查询,包括以下步骤:
记输入图像为I,图像场景图谱实体向量集合为矩阵E,关系向量集合为矩阵R,关系簇向量集合为矩阵Rc,属性向量集合为矩阵Α,属性类型向量集合为矩阵Z,实体实例化矩阵集合为ΠE,关系实例化矩阵集合为ΠR,属性实例化矩阵集合为ΠA;
对于下列的1-4点,基本的算法流程图如说明书附图1所示。
1.图像场景图谱实体、关系、属性视觉向量编码中的神经网络以及E,R,Α,Z,ΠE,ΠR,ΠA的对齐训练方法如下:
(1)输入图像场景图谱数据集,设定最大迭代次数;
(2)随机初始化图像场景图谱实体、关系、属性视觉向量编码中的神经网络以及E,R,Α,Z,ΠE,ΠR,ΠA;
(3)取出图像场景图谱训练数据集中的所有图像场景图谱关系三元组和属性三元组,用TransE翻译模型或TransR翻译模型根据评分函数学习,得到E,R,Α,Z;
(4)对于图片I中图像场景图谱实体正例e:
(a)截取出实体e的包围盒βe,进行图像场景图谱实体视觉向量编码,得到图像场景图谱实体视觉向量ve;
(b)从ΠE中取出e相对应的图像场景图谱实体实例化矩阵Me,并把ve经过Me实例化投影成为图像场景图谱实体实例化向量
(c)从E中取出e相对应的图像场景图谱向量e,通过对齐函数计算与e之间的对齐分数,作为正例对齐分数;
(d)负采样出一个反例e',重复(4b)-(4c)的步骤,得到反例对齐分数;
(5)对于图片I中图像场景图谱实体h与实体t组成的关系正例r:
(a)截取出实体h的包围盒βh以及实体t的包围盒,将βh和βt进行图像场景图谱关系视觉向量编码,得到图像场景图谱关系视觉向量sr;
(b)从ΠR中取出r相对应的图像场景图谱关系实例化矩阵Mr,并把sr经过Mr实例化投影成为图像场景图谱关系实例化向量
(c)从R中取出r相对应的图像场景图谱向量r,通过对齐函数计算与r之间的对齐分数,作为正例对齐分数;
(d)负采样出一个反例r',重复(5b)-(5c)的步骤,得到反例对齐分数;
(6)对于图片I中图像场景图谱某个实体的属性正例a
(a)截取出属性a的包围盒βa的对应区域Ia,将Ia进行图像场景图谱属性视觉向量编码,得到图像场景图谱属性视觉向量ua;
(b)从ΠA中取出a相对应的图像场景图谱实体实例化矩阵Ma,并把ua经过Ma实例化投影成为图像场景图谱实体实例化向量
(c)从A中取出a相对应的图像场景图谱向量a,通过对齐函数计算与a之间的对齐分数,作为正例对齐分数;
(d)负采样出一个反例a',重复(6b)-(6c)的步骤,得到反例对齐分数;
(7)通过目标函数结合正例样本分数和反例样本分数得到网络残差,用随机梯度下降算法进行神经网络中各层参数的反向传播得到梯度值并迭代其参数;
(8)重复(3)-(7)达到最大迭代次数;
2.所述的图像场景图谱实体/关系/属性视觉向量编码,其方法描述如下:
(1)图像场景图谱实体视觉向量编码:
(a)对于图片I中图像场景图谱实体e的包围盒βe,截取出该包围盒的对应区域Ie;
(b)将Ie通过卷积神经网络和外加的一层实体全连接神经网络层,得到图像场景图谱实体视觉向量ve;
(2)图像场景图谱关系视觉向量编码:
(a)对于图片I中图像场景图谱关系r对应的图像场景图谱头部实体h的包围盒βh=(xh,yh,wh,hh)和尾部实体t的包围盒βt=(xt,yt,wt,ht),其中x,y表示包围盒左上角的坐标,w,h表示包围盒的宽和高,用图像场景图谱实体视觉向量编码得到图像场景图谱实体视觉向量vh和vt,并且计算包围盒βh和βt的位置特征向量
(b)将vh和vt串联成一个二通道的二维张量,用一层关系一维卷积神经网络层编码;
(c)将(2)的结果与br串联成一个一通道的二维张量,通过一层关系全连接神经网络层,得到图像场景图谱实体视觉向量sr;
(3)图像场景图谱属性视觉向量编码:
(a)对于图片I中图像场景图谱某个实体的属性a包围盒βa,截取出该包围盒的对应区域Ia;
(a)将Ia通过卷积神经网络和外加的一层属性全连接神经网络层,得到图像场景图谱属性视觉向量ua;
3.图像场景图谱关系视觉向量编码中的神经网络以及R,Rc,ΠR的基于关系聚类的对齐训练方法如下:
(1)用Affinity Propagation算法对图像场景图谱训练数据集中所有的位置特征向量br进行聚类,得到p个簇中心,并初始化由p个向量构成的矩阵Rc;
(2)同1.(1)
(3)随机初始化图像场景图谱关系视觉向量编码中的神经网络以及R,ΠR,ΠA,同时设定最大迭代次数;
(4)同1.(3);
(5)对于图片I中图像场景图谱实体h与实体t组成的关系r:
(a)同1.(5a);
(b)同1.(5b);
(c)同1.(5c);
(d)从R中取出r相对应的图像场景图谱向量r,从Rc中取出r相对应的图像场景图谱关系簇中心向量rc,通过关系聚类对齐函数计算与r、rc之间的对齐分数,作为正例对齐分数;
(e)负采样出一个反例r',重复(5c)-(5d)的步骤,得到反例对齐分数;
(6)同1.(7);
(7)重复(4)-(6)达到最大迭代次数;
4.评分函数、对齐函数、关系聚类对齐函数、目标函数描述如下:
(1)评分函数:
给定一个图像场景图谱关系三元组(h,r,t)(或图像场景图谱属性三元组(e,z,a)),及其对应的图像场景图谱向量h,r,t,TransE翻译模型的评分函数为:
TransR翻译模型则需另外为每个关系分配一个投影矩阵,记作Pr,则其评分函数为:
(2)对齐函数:
给定一个图像场景图谱实体实例化向量(或关系实例化向量属性实例化向量)和图像场景图谱实体向量e(或关系向量r、属性向量a),对齐函数定义为:
(3)关系聚类对齐函数:
给定一个图像场景图谱关系实例化向量图像场景图谱关系向量r和相对应的图像场景图谱关系簇中心向量rc,超参数α,关系聚类对齐函数定义为:
(4)目标函数:
给定一个正例样本对集合D+和反例样本对集合D-,样本对由一个图像场景图谱实体/关系/属性实例化向量和图像场景图谱实体/关系/属性向量构成,目标函数定义为:
其中,σ(x)=1/(1+exp(-x)),d(a,b)其中可以被替换成dc(a,b),τ是常数;
5.对于查询qh/qt,如图2所示,其具体的工作过程如下:
(1)输入图像I和查询qh/qt;
(2)用EdgeBox算法找出图像I上的n个候选包围盒集合C={ci|i=1,...,n};
(3)将C进行图像场景图谱实体视觉向量编码,得到候选包围盒的图像场景图谱实体视觉向量集合Vc={vci|i=1,...,n};
(4)从ΠE中取出查询中已知的t/h相对应的图像场景图谱实体实例化矩阵Mt/Mh,并把Vc中的所有向量经过Mt/Mh实例化投影成为图像场景图谱实体实例化向量集合
(5)从E中取出查询中已知的t/h相对应的图像场景图谱向量t/h,通过对齐函数计算中各个向量与t之间的分数,或中各个向量与h之间的分数,选出最优的图像场景图谱实体实例化向量以及相对应的候选包围盒ct/ch;
(6)取包围盒ct或ch与C\{ct}或C\{ch}中的其他包围盒一一配对,进行图像场景图谱关系视觉向量编码,得到候选包围盒的图像场景图谱关系视觉向量集合Sc={sci|i=1,...,n-1};
(7)从ΠR中取出查询中已知的r相对应的图像场景图谱关系实例化矩阵Mr,并把Sc中的所有向量经过Mr实例化投影成为图像场景图谱关系实例化向量集合
(8)从R中取出查询中已知的r相对应的图像场景图谱向量r,通过对齐函数计算中各个向量与r之间的分数,选出最优的图像场景图谱关系实例化向量
(9)遍历根据图像场景图谱实体向量集合E中的各个向量,根据或以及通过评分函数得出答案ah或at;
6.对于查询qr,如图3所示,其具体的工作过程如下:
(1)输入图像I和查询qr;
(2)同5.(2);
(3)同5.(3);
(4)从ΠE中取出查询中已知的h和t相对应的图像场景图谱实体实例化矩阵Mh和Mt,并把Vc中的所有向量分别经过Mh和Mt实例化投影成为图像场景图谱实体实例化向量集合和
(5)从E中取出查询中已知的h和t相对应的图像场景图谱向量h和t,通过对齐函数分别计算中各个向量与h之间的分数以及中各个向量与t之间的分数,选出最优的图像场景图谱实体实例化向量和
(6)遍历根据图像场景图谱关系向量集合R中的各个向量,根据和通过评分函数得出答案ar;
7.对于查询qe,如图4所示,其具体的工作过程如下:
(1)输入图像I和查询qe;
(2)同5.(2);
(3)将C进行图像场景图谱属性视觉向量编码,得到候选包围盒的图像场景图谱属性视觉向量集合Uc={uci|i=1,...,n};
(4)从ΠA中取出查询中已知的a相对应的图像场景图谱属性实例化矩阵Ma,并把Uc中的所有向量经过Ma实例化投影成为图像场景图谱属性实例化向量集合
(5)从A中取出查询中已知的a相对应的图像场景图谱向量a,通过对齐函数计算中各个向量与a之间的分数,选出最优的图像场景图谱实体实例化向量从Z中取出查询中已知的z相对应的图像场景图谱属性类型向量z;
(6)遍历根据图像场景图谱实体向量集合E中的各个向量,根据以及z,通过评分函数得出答案ae;
8.对于查询qa,如图5所示,其具体的工作过程如下:
(1)输入图像I和查询qa;
(2)同5.(2);
(3)同5.(3);
(4)从ΠE中取出查询中已知的e相对应的图像场景图谱实体实例化矩阵Me,并把Vc中的所有向量经过Me实例化投影成为图像场景图谱实体实例化向量集合
(5)从E中取出查询中已知的e相对应的图像场景图谱向量e,通过对齐函数计算中各个向量与e之间的分数,选出最优的图像场景图谱实体实例化向量
(6)遍历根据图像场景图谱属性向量集合A中的各个向量以及每个属性在图像场景图谱属性类型向量集合Z中对应的属性类型,根据通过评分函数得出答案aa。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (1)
1.一种基于图像场景图谱对齐的图像查询回答方法,用于对关系三元组头部qh/尾部qt实体查询、关系三元组关系qr查询、属性三元组属性qe查询、属性三元组属性qa查询,其特征在于:包括以下步骤:
记输入图像为I,图像场景图谱实体向量集合为矩阵E,关系向量集合为矩阵R,关系簇向量集合为矩阵Rc,属性向量集合为矩阵Α,属性类型向量集合为矩阵Z,实体实例化矩阵集合为ΠE,关系实例化矩阵集合为ΠR,属性实例化矩阵集合为ΠA;
1.图像场景图谱实体、关系、属性视觉向量编码中的神经网络以及E,R,Α,Z,ΠE,ΠR,ΠA的对齐训练方法如下:
(1)输入图像场景图谱数据集,设定最大迭代次数;
(2)随机初始化图像场景图谱实体、关系、属性视觉向量编码中的神经网络以及E,R,Α,Z,ΠE,ΠR,ΠA;
(3)取出图像场景图谱训练数据集中的所有图像场景图谱关系三元组和属性三元组,用TransE翻译模型或TransR翻译模型根据评分函数学习,得到E,R,Α,Z;
(4)对于图片I中图像场景图谱实体正例e:
(a)截取出实体e的包围盒βe,进行图像场景图谱实体视觉向量编码,得到图像场景图谱实体视觉向量ve;
(b)从ΠE中取出e相对应的图像场景图谱实体实例化矩阵Me,并把ve经过Me实例化投影成为图像场景图谱实体实例化向量
(c)从E中取出e相对应的图像场景图谱向量e,通过对齐函数计算与e之间的对齐分数,作为正例对齐分数;
(d)负采样出一个反例e',重复(4b)-(4c)的步骤,得到反例对齐分数;
(5)对于图片I中图像场景图谱实体h与实体t组成的关系正例r:
(a)截取出实体h的包围盒βh以及实体t的包围盒,将βh和βt进行图像场景图谱关系视觉向量编码,得到图像场景图谱关系视觉向量sr;
(b)从ΠR中取出r相对应的图像场景图谱关系实例化矩阵Mr,并把sr经过Mr实例化投影成为图像场景图谱关系实例化向量
(c)从R中取出r相对应的图像场景图谱向量r,通过对齐函数计算与r之间的对齐分数,作为正例对齐分数;
(d)负采样出一个反例r',重复(5b)-(5c)的步骤,得到反例对齐分数;
(6)对于图片I中图像场景图谱某个实体的属性正例a
(a)截取出属性a的包围盒βa的对应区域Ia,将Ia进行图像场景图谱属性视觉向量编码,得到图像场景图谱属性视觉向量ua;
(b)从ΠA中取出a相对应的图像场景图谱实体实例化矩阵Ma,并把ua经过Ma实例化投影成为图像场景图谱实体实例化向量
(c)从A中取出a相对应的图像场景图谱向量a,通过对齐函数计算与a之间的对齐分数,作为正例对齐分数;
(d)负采样出一个反例a',重复(6b)-(6c)的步骤,得到反例对齐分数;
(7)通过目标函数结合正例样本分数和反例样本分数得到网络残差,用随机梯度下降算法进行神经网络中各层参数的反向传播得到梯度值并迭代其参数;
(8)重复(3)-(7)达到最大迭代次数;
2.所述的图像场景图谱实体/关系/属性视觉向量编码,其方法描述如下:
(1)图像场景图谱实体视觉向量编码:
(a)对于图片I中图像场景图谱实体e的包围盒βe,截取出该包围盒的对应区域Ie;
(b)将Ie通过卷积神经网络和外加的一层实体全连接神经网络层,得到图像场景图谱实体视觉向量ve;
(2)图像场景图谱关系视觉向量编码:
(a)对于图片I中图像场景图谱关系r对应的图像场景图谱头部实体h的包围盒βh=(xh,yh,wh,hh)和尾部实体t的包围盒βt=(xt,yt,wt,ht),其中x,y表示包围盒左上角的坐标,w,h表示包围盒的宽和高,用图像场景图谱实体视觉向量编码得到图像场景图谱实体视觉向量vh和vt,并且计算包围盒βh和βt的位置特征向量
(b)将vh和vt串联成一个二通道的二维张量,用一层关系一维卷积神经网络层编码;
(c)将(2)的结果与br串联成一个一通道的二维张量,通过一层关系全连接神经网络层,得到图像场景图谱实体视觉向量sr;
(3)图像场景图谱属性视觉向量编码:
(a)对于图片I中图像场景图谱某个实体的属性a包围盒βa,截取出该包围盒的对应区域Ia;
(a)将Ia通过卷积神经网络和外加的一层属性全连接神经网络层,得到图像场景图谱属性视觉向量ua;
3.图像场景图谱关系视觉向量编码中的神经网络以及R,Rc,ΠR的基于关系聚类的对齐训练方法如下:
(1)用Affinity Propagation算法对图像场景图谱训练数据集中所有的位置特征向量br进行聚类,得到p个簇中心,并初始化由p个向量构成的矩阵Rc;
(2)同1.(1)
(3)随机初始化图像场景图谱关系视觉向量编码中的神经网络以及R,ΠR,ΠA,同时设定最大迭代次数;
(4)同1.(3);
(5)对于图片I中图像场景图谱实体h与实体t组成的关系r:
(a)同1.(5a);
(b)同1.(5b);
(c)同1.(5c);
(d)从R中取出r相对应的图像场景图谱向量r,从Rc中取出r相对应的图像场景图谱关系簇中心向量rc,通过关系聚类对齐函数计算与r、rc之间的对齐分数,作为正例对齐分数;
(e)负采样出一个反例r',重复(5c)-(5d)的步骤,得到反例对齐分数;
(6)同1.(7);
(7)重复(4)-(6)达到最大迭代次数;
4.评分函数、对齐函数、关系聚类对齐函数、目标函数描述如下:
(1)评分函数:
给定一个图像场景图谱关系三元组(h,r,t)(或图像场景图谱属性三元组(e,z,a)),及其对应的图像场景图谱向量h,r,t,TransE翻译模型的评分函数为:
TransR翻译模型则需另外为每个关系分配一个投影矩阵,记作Pr,则其评分函数为:
(2)对齐函数:
给定一个图像场景图谱实体实例化向量(或关系实例化向量属性实例化向量)和图像场景图谱实体向量e(或关系向量r、属性向量a),对齐函数定义为:
(3)关系聚类对齐函数:
给定一个图像场景图谱关系实例化向量图像场景图谱关系向量r和相对应的图像场景图谱关系簇中心向量rc,超参数α,关系聚类对齐函数定义为:
(4)目标函数:
给定一个正例样本对集合D+和反例样本对集合D-,样本对由一个图像场景图谱实体/关系/属性实例化向量和图像场景图谱实体/关系/属性向量构成,目标函数定义为:
其中,σ(x)=1/(1+exp(-x)),d(a,b)其中可以被替换成dc(a,b),τ是常数;
5.对于查询qh/qt,其具体的工作过程如下:
(1)输入图像I和查询qh/qt;
(2)用EdgeBox算法找出图像I上的n个候选包围盒集合C={ci|i=1,...,n};
(3)将C进行图像场景图谱实体视觉向量编码,得到候选包围盒的图像场景图谱实体视觉向量集合Vc={vci|i=1,...,n};
(4)从ΠE中取出查询中已知的t/h相对应的图像场景图谱实体实例化矩阵Mt/Mh,并把Vc中的所有向量经过Mt/Mh实例化投影成为图像场景图谱实体实例化向量集合
(5)从E中取出查询中已知的t/h相对应的图像场景图谱向量t/h,通过对齐函数计算中各个向量与t之间的分数,或中各个向量与h之间的分数,选出最优的图像场景图谱实体实例化向量以及相对应的候选包围盒ct/ch;
(6)取包围盒ct或ch与C\{ct}或C\{ch}中的其他包围盒一一配对,进行图像场景图谱关系视觉向量编码,得到候选包围盒的图像场景图谱关系视觉向量集合Sc={sci|i=1,...,n-1};
(7)从ΠR中取出查询中已知的r相对应的图像场景图谱关系实例化矩阵Mr,并把Sc中的所有向量经过Mr实例化投影成为图像场景图谱关系实例化向量集合
(8)从R中取出查询中已知的r相对应的图像场景图谱向量r,通过对齐函数计算中各个向量与r之间的分数,选出最优的图像场景图谱关系实例化向量
(9)遍历根据图像场景图谱实体向量集合E中的各个向量,根据或以及通过评分函数得出答案ah或at;
6.对于查询qr,其具体的工作过程如下:
(1)输入图像I和查询qr;
(2)同5.(2);
(3)同5.(3);
(4)从ΠE中取出查询中已知的h和t相对应的图像场景图谱实体实例化矩阵Mh和Mt,并把Vc中的所有向量分别经过Mh和Mt实例化投影成为图像场景图谱实体实例化向量集合和
(5)从E中取出查询中已知的h和t相对应的图像场景图谱向量h和t,通过对齐函数分别计算中各个向量与h之间的分数以及中各个向量与t之间的分数,选出最优的图像场景图谱实体实例化向量和
(6)遍历根据图像场景图谱关系向量集合R中的各个向量,根据和通过评分函数得出答案ar;
7.对于查询qe,其具体的工作过程如下:
(1)输入图像I和查询qe;
(2)同5.(2);
(3)将C进行图像场景图谱属性视觉向量编码,得到候选包围盒的图像场景图谱属性视觉向量集合Uc={uci|i=1,...,n};
(4)从ΠA中取出查询中已知的a相对应的图像场景图谱属性实例化矩阵Ma,并把Uc中的所有向量经过Ma实例化投影成为图像场景图谱属性实例化向量集合
(5)从A中取出查询中已知的a相对应的图像场景图谱向量a,通过对齐函数计算中各个向量与a之间的分数,选出最优的图像场景图谱实体实例化向量从Z中取出查询中已知的z相对应的图像场景图谱属性类型向量z;
(6)遍历根据图像场景图谱实体向量集合E中的各个向量,根据以及z,通过评分函数得出答案ae;
8.对于查询qa,其具体的工作过程如下:
(1)输入图像I和查询qa;
(2)同5.(2);
(3)同5.(3);
(4)从ΠE中取出查询中已知的e相对应的图像场景图谱实体实例化矩阵Me,并把Vc中的所有向量经过Me实例化投影成为图像场景图谱实体实例化向量集合
(5)从E中取出查询中已知的e相对应的图像场景图谱向量e,通过对齐函数计算中各个向量与e之间的分数,选出最优的图像场景图谱实体实例化向量
(6)遍历根据图像场景图谱属性向量集合A中的各个向量以及每个属性在图像场景图谱属性类型向量集合Z中对应的属性类型,根据通过评分函数得出答案aa。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2018102266455 | 2018-03-19 | ||
CN201810226645 | 2018-03-19 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109800317A true CN109800317A (zh) | 2019-05-24 |
CN109800317B CN109800317B (zh) | 2022-03-11 |
Family
ID=66561086
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910123591.4A Active CN109800317B (zh) | 2018-03-19 | 2019-02-18 | 一种基于图像场景图谱对齐的图像查询回答方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109800317B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110222770A (zh) * | 2019-06-10 | 2019-09-10 | 成都澳海川科技有限公司 | 一种基于组合关系注意力网络的视觉问答方法 |
CN112182139A (zh) * | 2019-08-29 | 2021-01-05 | 盈盛智创科技(广州)有限公司 | 一种资源描述框架三元组的溯源方法、装置及设备 |
CN113536020A (zh) * | 2021-07-23 | 2021-10-22 | 北京房江湖科技有限公司 | 数据查询的方法、存储介质和计算机程序产品 |
WO2022000089A1 (en) * | 2020-06-30 | 2022-01-06 | National Research Council Of Canada | Vector space model for form data extraction |
CN114238526A (zh) * | 2022-02-23 | 2022-03-25 | 浙江大华技术股份有限公司 | 图像聚档方法、电子设备及存储介质 |
WO2023098091A1 (zh) * | 2021-12-02 | 2023-06-08 | 浙江宇视科技有限公司 | 实体图像的聚类处理方法、装置、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102254194A (zh) * | 2011-07-19 | 2011-11-23 | 清华大学 | 基于监督流形学习的场景分类方法及装置 |
CN106844658A (zh) * | 2017-01-23 | 2017-06-13 | 中山大学 | 一种中文文本知识图谱自动构建方法及系统 |
CN107480125A (zh) * | 2017-07-05 | 2017-12-15 | 重庆邮电大学 | 一种基于知识图谱的关系链接方法 |
CN107563418A (zh) * | 2017-08-19 | 2018-01-09 | 四川大学 | 一种基于区域敏感得分图谱及多实例学习的图片属性探测方法 |
CN107590139A (zh) * | 2017-09-21 | 2018-01-16 | 桂林电子科技大学 | 一种基于循环矩阵翻译的知识图谱表示学习方法 |
-
2019
- 2019-02-18 CN CN201910123591.4A patent/CN109800317B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102254194A (zh) * | 2011-07-19 | 2011-11-23 | 清华大学 | 基于监督流形学习的场景分类方法及装置 |
CN106844658A (zh) * | 2017-01-23 | 2017-06-13 | 中山大学 | 一种中文文本知识图谱自动构建方法及系统 |
CN107480125A (zh) * | 2017-07-05 | 2017-12-15 | 重庆邮电大学 | 一种基于知识图谱的关系链接方法 |
CN107563418A (zh) * | 2017-08-19 | 2018-01-09 | 四川大学 | 一种基于区域敏感得分图谱及多实例学习的图片属性探测方法 |
CN107590139A (zh) * | 2017-09-21 | 2018-01-16 | 桂林电子科技大学 | 一种基于循环矩阵翻译的知识图谱表示学习方法 |
Non-Patent Citations (1)
Title |
---|
丁建辉等: "知识图谱补全算法综述", 《信息通信技术》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110222770A (zh) * | 2019-06-10 | 2019-09-10 | 成都澳海川科技有限公司 | 一种基于组合关系注意力网络的视觉问答方法 |
CN112182139A (zh) * | 2019-08-29 | 2021-01-05 | 盈盛智创科技(广州)有限公司 | 一种资源描述框架三元组的溯源方法、装置及设备 |
WO2022000089A1 (en) * | 2020-06-30 | 2022-01-06 | National Research Council Of Canada | Vector space model for form data extraction |
CN113536020A (zh) * | 2021-07-23 | 2021-10-22 | 北京房江湖科技有限公司 | 数据查询的方法、存储介质和计算机程序产品 |
CN113536020B (zh) * | 2021-07-23 | 2022-05-24 | 贝壳找房(北京)科技有限公司 | 数据查询的方法、存储介质和计算机程序产品 |
WO2023098091A1 (zh) * | 2021-12-02 | 2023-06-08 | 浙江宇视科技有限公司 | 实体图像的聚类处理方法、装置、电子设备及存储介质 |
CN114238526A (zh) * | 2022-02-23 | 2022-03-25 | 浙江大华技术股份有限公司 | 图像聚档方法、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109800317B (zh) | 2022-03-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109800317A (zh) | 一种基于图像场景图谱对齐的图像查询回答方法 | |
CN112308158B (zh) | 一种基于部分特征对齐的多源领域自适应模型及方法 | |
CN108717568B (zh) | 一种基于三维卷积神经网络的图像特征提取与训练方法 | |
Muni et al. | A novel approach to design classifiers using genetic programming | |
CN110427799B (zh) | 基于生成对抗网络的人手深度图像数据增强方法 | |
CN106920243A (zh) | 改进的全卷积神经网络的陶瓷材质件序列图像分割方法 | |
CN105630901A (zh) | 一种知识图谱表示学习方法 | |
CN109344759A (zh) | 一种基于角度损失神经网络的亲属识别方法 | |
CN107423727B (zh) | 基于神经网络的人脸复杂表情识别方法 | |
CN107909008A (zh) | 基于多通道卷积神经网络和粒子滤波的视频目标跟踪方法 | |
CN110473231A (zh) | 一种具有预判式学习更新策略的孪生全卷积网络的目标跟踪方法 | |
CN109859241A (zh) | 自适应特征选择和时间一致性鲁棒相关滤波视觉跟踪方法 | |
CN113807265B (zh) | 一种多样化的人脸图像合成方法及系统 | |
CN110263236A (zh) | 基于动态多视图学习模型的社交网络用户多标签分类方法 | |
CN112215101A (zh) | 一种基于注意力机制的三维目标识别方法及系统 | |
Cai et al. | A robust interclass and intraclass loss function for deep learning based tongue segmentation | |
CN112733602B (zh) | 关系引导的行人属性识别方法 | |
CN107885971A (zh) | 采用改进花授粉算法识别关键蛋白质的方法 | |
Zhang et al. | Adversarial reinforcement learning for unsupervised domain adaptation | |
CN109543637A (zh) | 一种人脸识别方法、装置、设备以及可读存储介质 | |
CN113987203A (zh) | 一种基于仿射变换与偏置建模的知识图谱推理方法与系统 | |
CN106780501A (zh) | 基于改进人工蜂群算法的图像分割方法 | |
CN115761408A (zh) | 一种基于知识蒸馏的联邦域适应方法及系统 | |
Chen | Research on college physical education model based on virtual crowd simulation and digital media | |
Chen et al. | A self-generating modular neural network architecture for supervised learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |