CN111325243B - 一种基于区域注意力学习机制的视觉关系检测方法 - Google Patents
一种基于区域注意力学习机制的视觉关系检测方法 Download PDFInfo
- Publication number
- CN111325243B CN111325243B CN202010079031.6A CN202010079031A CN111325243B CN 111325243 B CN111325243 B CN 111325243B CN 202010079031 A CN202010079031 A CN 202010079031A CN 111325243 B CN111325243 B CN 111325243B
- Authority
- CN
- China
- Prior art keywords
- visual
- graph structure
- node
- triplet
- regional
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000000007 visual effect Effects 0.000 title claims abstract description 155
- 230000007246 mechanism Effects 0.000 title claims abstract description 38
- 238000001514 detection method Methods 0.000 title claims abstract description 25
- 230000005540 biological transmission Effects 0.000 claims abstract description 20
- 238000000034 method Methods 0.000 claims description 18
- 239000011159 matrix material Substances 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 12
- 238000010586 diagram Methods 0.000 claims description 11
- 238000012512 characterization method Methods 0.000 claims description 8
- 230000001788 irregular Effects 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 230000000644 propagated effect Effects 0.000 claims description 2
- 230000001953 sensory effect Effects 0.000 claims 1
- 238000004364 calculation method Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 6
- 230000003993 interaction Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000005728 strengthening Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000013140 knowledge distillation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/29—Graphical models, e.g. Bayesian networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
- G06N5/025—Extracting rules from data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/776—Validation; Performance evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/84—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using probabilistic graphical models from image or video features, e.g. Markov models or Bayesian networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/467—Encoded features or binary features, e.g. local binary patterns [LBP]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Probability & Statistics with Applications (AREA)
- Molecular Biology (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Computational Mathematics (AREA)
- Algebra (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于区域注意力学习机制的视觉关系检测方法,所述方法包括:获取三元组图结构,并将其聚合邻节点后的特征进行组合,作为第二图结构的节点,依据等概率边进行连接,构成第二图结构;将第二图结构节点特征与对应三元组实体对象节点的特征进行组合,组合后作为视觉注意力机制同时融合两个实体对象所提取的内部区域视觉特征,将其作为三元组中相应实体对象节点进行下一次消息传播时的视觉特征;在一定消息传播次数之后,输出的三元组节点特征和第二图结构的节点特征进行视觉特征组合,以此综合推理对象组之间的谓词。本发明能够识别在不同视觉关系下实体对象所关注的内部区域,从而来提高视觉关系检测的精度。
Description
技术领域
本发明涉及视觉关系检测领域,尤其涉及一种基于区域注意力学习机制的视觉关系检测方法。
背景技术
随着深度学习技术的飞速发展,图像理解领域逐渐引起了许多关注,其中作为该领域的基础,视觉关系检测是一项十分具有挑战性的任务,因为其不仅仅需要预测图片中实体对象的语义和空间信息,而且还需要对实体对象之间的谓词关系进行分类。以图1中“人骑摩托”的图片为例,视觉关系检测不但要识别出主语“人”和宾语“摩托”以及他们的位置,而且还需要识别出两者存在动词“骑”这种关系。由于一般的视觉关系都可以用<主语–谓词–宾语>的这种结构化三元组关系描述的特点[1],视觉关系检测才能作为图像理解领域基础从而应用在更高层次的视觉任务之中,比如图像描述[2][3],视觉问答[4][5],图文检索[6][7],视觉对话[8][9]和视觉推理[10][11]等任务。
近些年来,在视觉关系检测任务上涌现出了许多优秀的工作。粗略的来说,这些工作的学习策略大致可以分为两个基本的方向:第一,分别训练实体对象的检测器和实体对象之间的关系检测器,并将它们的模型输出聚合起来得到视觉关系的三元组;第二,对于每个包含视觉关系的视觉短语学习一个单独的检测器。在面对多样性的视觉关系时,一些学者已经证明视觉短语的学习方法更加具有鲁棒性[12],但是针对目前已有的数据集,一些特定关系的训练样本十分少,所以该方法也具有一定的局限性。对于聚合模型输出的方法,虽然可以在结构化三元组之间将各自包含的知识进行很好的共享[13],但是针对不可见的关系时并不能很好的处理。
目前,为了能够提升通用检测器的特征表征能力,研究者们逐渐偏向于设计对具有统计关系依赖的模型,这种依赖关系可以是图模型[14],语料的知识蒸馏[15]或者上下文的语义[16]
但是现有的方法仅仅是从粗粒度的角度上对检测到的实体对象整体直接进行特征提取,然后将其映射到同一特征空间进行关系识别,这些方法其实忽略了实体对象的内部一些细粒度的线索,来更深度挖掘对于不同视觉关系检测到的实体图像内部所关注的区域信息。
发明内容
本发明提供了一种基于区域注意力学习机制的视觉关系检测方法,本发明避免了在同一特征空间进行实体对象关系分析时,建立的模型缺少对实体对象内部区域的细粒度信息交互的问题,并且通过视觉注意力机制学习过程后,能够识别在不同视觉关系下实体对象所关注的内部区域,从而来提高视觉关系检测的精度,详见下文描述:
一种基于区域注意力学习机制的视觉关系检测方法,所述方法包括:
获取三元组图结构,并将其聚合邻节点后的特征进行组合,作为第二图结构的节点,依据等概率边进行连接,构成第二图结构;
将第二图结构节点特征与对应三元组实体对象节点的特征进行组合,组合后作为视觉注意力机制同时融合两个实体对象所提取的内部区域视觉特征,将其作为三元组中相应实体对象节点进行下一次消息传播时的视觉特征;
在一定消息传播次数之后,输出的三元组节点特征和第二图结构的节点特征进行视觉特征组合,以此综合推理对象组之间的谓词。
其中,所述获取三元组图结构具体为:
将实体对象的区域视觉特征作为第一图结构中节点集特征,实体对象之间依据共现概率连接,通过消息传播机制汇聚邻节点的特征信息来强化当前节点的视觉表征;
每次消息传播后将输出的节点特征作为视觉注意力机制,并作为第一图结构中节点进行下一次消息传播时的视觉特征;
将提取到的每个对象组特征以及对应的两个实体对象的区域视觉特征作为一组节点,依据视觉关系的统计概率连接,构成三元组图结构。
进一步地,所述第一图结构具体为:将共现矩阵作为第一图结构的边,将区域视觉特征作为第一图结构的顶点。
其中,所述每次消息传播后将输出的节点特征作为视觉注意力机制,并作为第一图结构中节点进行下一次消息传播时的视觉特征具体为:
将强化后的节点表征与每个区域视觉特征相结合,计算一个非正则化的相关性分数;
将非正则化的相关性分数进行正则化,获取视觉注意力机制的权重分布值;
利用得到的注意力机制的权重对每个实体对象M个区域特征进行加权求和,得到融合后的视觉表征;
获取融合后的视觉表征,将其作为第一图结构中相应节点进行下一次消息传播时的视觉特征,再次进行消息传播。
进一步地,所述三元组图结构具体为:
将视觉关系分布作为三元组图结构的边;每个对象组特征以及对应的两个实体对象的区域视觉特征作为三元组图结构的顶点。
其中,所述第二图结构具体为:
获取输出的每个三元组图结构聚合邻节点后的特征,将其映射到相同维度的特征空间,然后在特征维度上进行连接,作为第二图结构中的节点;
将第二图结构的节点进行全连接,连接每个节点与其邻节点的边为等概率边。
进一步地,所述组合后作为视觉注意力机制同时融合两个实体对象所提取的内部区域视觉特征具体为:
组合后的特征与输出的每个区域视觉特征计算一个非正则化的相关性分数;
将非正则化的相关性分数进行正则化,分别得到视觉注意力机制的权重分布值,对相应的实体对象区域特征进行加权求和,得到融合后的视觉表征。
其中,所述输出的三元组节点特征和第二图结构的节点特征进行视觉特征组合具体为:
将经过Tk次消息传播后三元组图结构每个实体对象的节点输出,进行平均池化后与实体对象本身的视觉特征在特征维度上进行组合;
将经过Tk次消息传播后三元组图结构中对象组的节点输出,与初始化节点的对象组特征以及第二图结构每个节点的输出在特征维度上进行连接。
本发明提供的技术方案的有益效果是:
1、本发明在检测到的实体对象后,提取其内部区域的特征组,将其映射到同一特征空间,完成在不同视觉关系下实体对象内部区域特征间的信息交互;
2、本发明通过利用注意力机制学习过程,来完成在针对识别不同视觉关系时,实体对象所关注的内部区域,来提高视觉关系检测的精度。
附图说明
图1为一种基于区域注意力学习机制的视觉关系检测方法的流程图;
图2为视觉关系检测示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
为了解决目前方法在识别视觉关系时忽略实体对象内部区域的细粒度信息交互的问题,从而提高视觉关系识别的精度,常用的指标为召回率,参见图1,本发明实施例提供了一种基于区域注意力学习机制的视觉关系检测方法,该方法包括以下步骤:
101:针对所使用的数据库,统计其训练集样本中各个物体之间的共现概率以及在训练集中共现时,属于某种视觉关系的概率;
对于所使用的数据集,其中需要包含标注有视觉关系的图片数据,这里使用的是较为常用的VisualGenome视觉关系数据库,但本发明方法不只局限于该数据库,可以是包含所需标签的任意数据库。
首先,针对所使用的数据库,需要统计其划分出的训练集中不同类别对象之间的共现概率分布,该视觉关系数据集的训练样本中标注了实体对象的真实类别标签以及实体对象之间的视觉关系谓词真实类别标签。以训练样本中某张图片里的实体对象m和n为例,其中m和n为两个实体对象的真实类别标签,统计属于类别m的实体对象出现的条件下属于类别n的实体对象出现的概率。在本发明方法中,在完成统计所有实体对象的共现概率后,将相应的共现概率矩阵记为矩阵中的元素εij表示在一个实体对象属于第i类的同时与另一个实体对象属于第j类的共现概率,C表示训练集中实体对象的类别总数;/>为实数集。
其次,需要统计训练集中的实体对象在共现时属于某种视觉关系的概率,具体来说,即统计属于类别m的实体对象和属于类别n的实体对象之间在所有训练样本中存在的关系分布概率。在本发明方法中,在完成统计所有实体对象组的关系分布概率后,将相应的视觉关系分布记为其中k∈[1,K]且/>这里,/>表示第i类实体对象和第j类实体对象存在第k种视觉关系的概率,K表示训练集中视觉关系或者是谓词的类别总数,/>为自然数集。
102:从输入的图像中检测其中所包含的实体对象与对象组,然后分别提取实体对象本身、对象组联合区域和实体对象内部的区域视觉特征;
对于给定的输入图像,首先利用常见的目标检测框架,如GoogLeNet,ResNet-101,VGG-16等进行实体对象与对象组的特征提取,本发明方法中采用的是使用VGG-16卷积网络的Faster R-CNN(快速的区域卷积神经网络)框架,其中卷积网络可以使用其他常见的目标检测网络进行替换;将给定的图像输入到上述的目标检测框架中,输出可以分别得到图像中实体对象候选区域的特征以及对象组候选区域的特征,其中候选区域指的是可以将实体对象或对象组完全覆盖的最小矩形区域。
输出的区域特征包括:候选区域内实体对象本身在VGG16网络全连接层输出的实体对象特征集其中vn表示第n个实体对象的视觉特征;候选区域矩形框的坐标特征集/>其中bn表示覆盖第n个实体对象的最小矩形框的坐标特征;对象组在VGG16网络全连接层输出的特征集Fu={fij|i,j=1,2,...,|N|},其中fij表示覆盖第i个实体对象和第j个实体对象的最小矩形框区域内的特征;实体对象的真实类别标签概率集其中N为图像中实体对象的个数,on表示第n个实体对象的真实类别标签;实体对象在VGG16网络卷积层输出的区域视觉特征/>其中m∈[1,M]且m∈Z,M表示实体对象内部区域的数量,fm (n)表示第n个实体对象内部的第m个区域。
103:对于步骤102输出的实体对象的区域视觉特征,将其作为第一图结构中节点集特征,实体对象之间依据共现概率连接,通过消息传播机制汇聚邻节点的特征信息来强化当前节点的视觉表征;
将步骤101输出的共现矩阵作为第一图结构的边:
Eobj={εij|i=1,2,...,|C|;j=1,2,...,|C|}
其中,Eobj表示第一图结构的边集。
将步骤102输出的区域视觉特征f(n)作为第一图结构的顶点:
其中,Vobj表示第一图结构的节点集。
从而构造第一图结构Gobj={Vobj,Eobj}。
首先,在进行消息传播前,为了学习初始的视觉注意力权重来融合顶点的区域视觉特征,使用步骤102输出的实体对象特征集V,在t=0时代替区域视觉特征作为初始化第一图结构各顶点表征hn (t),其中n表示第n个顶点:
其次,获取第一图结构进行第一次消息传播t=1时每个节点聚合邻节点后的特征an (t):
之后,将聚合后的特征an (t)与节点此时的特征hn (t-1)作为门控循环单元(GRU)的输入,来进行节点表征的强化,计算方法如下:
zn (t)=σ(Wzan (t)+Uzhn (t-1)) (3)
rn (t)=σ(Wran (t)+Urhn (t-1)) (4)
hn (t)=tanh(Whan (t)+Uh(rn (t)⊙hn (t-1))) (5)
cn (t)=(1-zn (t))⊙hn (t-1)+zn (t)⊙hn (t) (6)
其中,zn (t)与rn (t)表示门控循环单元的重置门和更新门,hn (t)表示当前的候选集,cn (t)表示强化后的节点表征输出;Wz,Uz,Wr,Ur,Wh,Uh均为可学习的参数矩阵;⊙表示特征的对应元素乘积。
104:每次消息传播过程后,将输出的节点特征作为视觉注意力机制,来融合实体对象所提取的内部区域视觉特征,然后将其作为第一图结构中相应节点进行下一次消息传播时的视觉特征;
其中,w,Wa,Ua,bn均表示可学习的参数。
最后,获取融合后的视觉表征fn (n),将其作为第一图结构中相应节点进行下一次消息传播时的视觉特征,再次通过公式(2)到公式(6)的计算过程进行消息传播,此时公式(1)可以整合为:
105:在一定的消息传播次数之后,其输出的节点特征与实体对象本身的视觉特征进行组合,以此推理出物体类别;
将经过T0次消息传播后第一图结构每个节点的输出与初始化的节点特征,即实体对象本身的视觉特征在特征维度上进行组合,然后输入到softmax函数中进行计算,输出的最大概率分布数值即为推理出的对应物体类别,公式表示如下:
其中,W0表示可学习的参数矩阵,on表示预测的第n个实体对象的类别。
106:将步骤102提取到的每个对象组特征以及对应的两个实体对象的区域视觉特征作为一组节点,依据视觉关系的统计概率连接,构成三元组图结构,同样通过消息传播机制来强化当前节点的视觉表征;
其中,Etriplet表示三元组图结构的边集。
将步骤102输出的每个对象组特征Fu={fij|i,j=1,2,...,|N|}以及对应的两个实体对象的区域视觉特征f(n)={fm (n)}作为三元组图结构的顶点:
其中,Vtriplet表示三元组图结构的顶点集。
首先,在进行消息传播前,为了学习初始的视觉注意力权重来融合三元组实体对象顶点的区域视觉特征,使用步骤102输出的实体对象特征集在t=0时代替三元组实体对象顶点的区域视觉特征来初始化表征/>和/>依次表示两个属于i,j类别的实体对象oi和oj的初始化表征和对象组的初始化表征,k表示两个实体对象存在第k种视觉关系:
107:将步骤106获得的每个三元组图结构聚合邻节点后的特征进行组合,作为第二图结构的节点,依据等概率边进行连接,构成第二图结构,然后进行第二图结构中的消息传播;
首先定义第二图结构Grel={Vrel,Erel}的节点与边:
获取步骤106输出的每个三元组图结构聚合邻节点后的特征和/>将其映射到相同维度的特征空间,然后在特征维度上进行连接,作为第二图结构中的节点,同时在t=0时,以零向量初始化第二图结构中的节点,公式表示如下:
由于共有K个三元组图结构,所以第二图结构中节点数量为K,节点集表示为:
将第二图结构的节点进行全连接,连接每个节点与其邻节点的边为等概率边:
其中,ReLu表示激活函数,We为可学习的参数矩阵。
108:每次消息传播过程后,将步骤107输出的第二图结构节点特征与对应三元组实体对象节点的特征进行组合,以此作为视觉注意力机制同时融合两个实体对象所提取的内部区域视觉特征,将其作为三元组中相应实体对象节点进行下一次消息传播时的视觉特征;
将步骤107输出的第二图结构节点特征与步骤106消息传递后输出三元组中对应的实体对象特征/>和/>分别在特征维度上进行连接,然后同时与步骤102输出的每个区域视觉特征fm (n)计算一个非正则化的相关性分数/>和/>计算方法如下:
其中,w,Wa,Ua,ba均表示可学习的参数。
之后,利用公式(8)将非正则化的相关性分数和/>进行正则化,分别得到视觉注意力机制的权重分布值/>和/>然后对相应的实体对象区域特征f(n)={fm (n)}进行加权求和,得到融合后的视觉表征/>和/>
最后,对于获取的融合后的视觉表征和/>将其分别作为三元组图结构中相应实体对象节点进行下一次消息传播时的视觉特征,再次通过公式(3)到公式(6)和公式(18)的计算过程对三元组图结构和第二图结构进行消息传播,此时公式(12)和公式(13)可以整合为:
109:在一定消息传播次数之后,其输出的三元组节点特征和第二图结构的节点特征进行视觉特征组合,以此综合推理对象组之间的谓词。
将经过Tk次消息传播后三元组图结构每个实体对象的节点输出:
其中,Wp表示可学习的参数矩阵,Hi,j,k表示在第k种视觉关系统计概率条件下,实体对象组的在Tk次消息传播后的表征组合。
之后,将公式(23)到(26)的输出在特征维度上进行组合,公式表示如下:
其中,Wr表示可学习的参数矩阵。
最后,将公式(28)的输出输入到softmax函数中进行计算,输出的最大概率分布数值即为推理出的类别为i和j的对象组之间对应的关系谓词。
综上所述,本发明实例避免了在识别视觉关系时忽略实体对象内部区域的细粒度信息交互的问题,提高了视觉关系识别的精度,即召回率,同时可以应用于任何视觉关系检测数据库。
参考文献:
[1]C.Lu,R.Krishna,M.S.Bernstein,and F.Li.Visual relationshipdetection with language priors.In ECCV,pages 852–869,2016.
[2]A.Karpathy and L.Fei-Fei.Deep visual-semantic alignments forgenerating image descriptions.In Proceedings of the IEEE conference oncomputer vision and pattern recognition,pages 3128–3137,2015.
[3]S.J.Rennie,E.Marcheret,Y.Mroueh,J.Ross,and V.Goel.Self-criticalsequence training for image captioning.In CVPR,volume 1,page 3,2017.
[4]W.Norcliffe-Brown,S.Vafeias,and S.Parisot.Learning conditionedgraph structures for interpretable visual question answering.In NIPS,pages8344–8353,2018.
[5]Peter Anderson,Xiaodong He,Chris Buehler,Damien Teney,MarkJohnson,Stephen Gould,and Lei Zhang.Bottom-up and top-down attention forimage captioning and visual question answering.Proc.CVPR,2017
[6]Kuang-Huei Lee,Xi Chen,Gang,Hua,Houdong Hu,and Xiaodong He.StackedCross Attention for Image-Text Matching.In ECCV,pages 212-218,2018.
[7]Ying Zhang,and Huchuan Lu.Deep Cross-Modal Projection Learning forImage-Text Matching.In ECCV,pages 707-723,2018.
[8]A.Das,S.Kottur,K.Gupta,A.Singh,D.Yadav,S.Lee,J.M.F.Moura,D.Parikh,and D.Batra.Visual dialog.IEEE Trans.Pattern Anal.Mach.Intell.,41(5):1242–1256,2019
[9]Z.Gan,Y.Cheng,A.E.Kholy,L.Li,J.Liu,and J.Gao.Multi-step reasoningvia recurrent dual attention for visual dialog.In ACL 2019,pages 6463–6474,2019.
[10]M.Haurilet,A.Roitberg,and R.Stiefelhagen.It’s not about thejourney;it’s about the destination:Following soft paths under question-guidance for visual reasoning.In CVPR 2019,pages 1930–1939,2019.
[11]T.Gokhale,S.Sampat,Z.Fang,Y.Yang,and C.Baral.Cooking with blocks:A recipe for visual reasoning on image-pairs.In CVPR Workshops 2019,pages 5–8,2019.
[12]Mohammad Amin Sadeghi and Ali Farhadi.Recognition using visualphrases.InCVPR,2011
[13]Chen Gao,YuliangZou,and Jia-Bin Huang.Ican:Instancecentricattention network for human-object interaction detection.In BMVC,2018
[14]Yikang Li,Wanli Ouyang,and Xiaogang Wang.Vip-cnn:A visual phrasereasoning convolutional neural network for visual relationship detection.InCVPR,2017.1,2
[15]Ruichi Yu,Ang Li,Vlad I.Morariu,and Larry S.Davis.Visualrelationship detection with internal and external linguistic knowledgedistillation.In ICCV,2017.2
[16]Bohan Zhuang,Lingqiao Liu,Chunhua Shen,and Ian Reid.Towardscontext-aware interaction recognition for visual relationship detection.InICCV,2017.
本发明实施例对各器件的型号除做特殊说明的以外,其他器件的型号不做限制,只要能完成上述功能的器件均可。
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种基于区域注意力学习机制的视觉关系检测方法,其特征在于,所述方法包括:
获取三元组图结构,并将其聚合邻节点后的特征进行组合,作为第二图结构的节点,依据等概率边进行连接,构成第二图结构;
将第二图结构节点特征与对应三元组实体对象节点的特征进行组合,组合后作为视觉注意力机制同时融合两个实体对象所提取的内部区域视觉特征,将其作为三元组中相应实体对象节点进行下一次消息传播时的视觉特征;
在一定消息传播次数之后,输出的三元组节点特征和第二图结构的节点特征进行视觉特征组合,以此综合推理对象组之间的谓词;
所述获取三元组图结构具体为:
将实体对象的区域视觉特征作为第一图结构中节点集特征,实体对象之间依据共现概率连接,通过消息传播机制汇聚邻节点的特征信息来强化当前节点的视觉表征;
每次消息传播后将输出的节点特征作为视觉注意力机制,并作为第一图结构中节点进行下一次消息传播时的视觉特征;
将提取到的每个对象组特征以及对应的两个实体对象的区域视觉特征作为一组节点,依据视觉关系的统计概率连接,构成三元组图结构;
所述第一图结构具体为:将共现矩阵作为第一图结构的边,将区域视觉特征作为第一图结构的顶点;
所述三元组图结构具体为:
将输出的视觉关系分布{ε'ij (k)}作为三元组图结构的边;
Etriplet={ε'ij (k)|k=1,2,...,|K|}
其中,Etriplet表示三元组图结构的边集;K表示训练集中视觉关系或者是谓词的类别总数;ε'ij (k)表示第i类实体对象和第j类实体对象存在第k种视觉关系的概率;
将输出的每个对象组特征Fu={fij|i,j=1,2,...,|N|}以及对应的两个实体对象的区域视觉特征f(n)={fm (n)}作为三元组图结构的顶点:
其中,Vtriplet表示三元组图结构的顶点集;fij表示覆盖第i个实体对象和第j个实体对象的最小矩形框区域内的特征;fm (n)表示第n个实体对象内部的第m个区域;M表示实体对象内部区域的数量;N为图像中实体对象的个数;
2.根据权利要求1所述的一种基于区域注意力学习机制的视觉关系检测方法,其特征在于,所述每次消息传播后将输出的节点特征作为视觉注意力机制,并作为第一图结构中节点进行下一次消息传播时的视觉特征具体为:
将强化后的节点表征与每个区域视觉特征相结合,计算一个非正则化的相关性分数;
将非正则化的相关性分数进行正则化,获取视觉注意力机制的权重分布值;
利用得到的注意力机制的权重对每个实体对象M个区域特征进行加权求和,得到融合后的视觉表征;
获取融合后的视觉表征,将其作为第一图结构中相应节点进行下一次消息传播时的视觉特征,再次进行消息传播。
3.根据权利要求1所述的一种基于区域注意力学习机制的视觉关系检测方法,其特征在于,所述第二图结构具体为:
获取输出的每个三元组图结构聚合邻节点后的特征,将其映射到相同维度的特征空间,然后在特征维度上进行连接,作为第二图结构中的节点;
将第二图结构的节点进行全连接,连接每个节点与其邻节点的边为等概率边。
4.根据权利要求1所述的一种基于区域注意力学习机制的视觉关系检测方法,其特征在于,所述组合后作为视觉注意力机制同时融合两个实体对象所提取的内部区域视觉特征具体为:
组合后的特征与输出的每个区域视觉特征计算一个非正则化的相关性分数;
将非正则化的相关性分数进行正则化,分别得到视觉注意力机制的权重分布值,对相应的实体对象区域特征进行加权求和,得到融合后的视觉表征。
5.根据权利要求1所述的一种基于区域注意力学习机制的视觉关系检测方法,其特征在于,所述输出的三元组节点特征和第二图结构的节点特征进行视觉特征组合具体为:
将经过Tk次消息传播后三元组图结构每个实体对象的节点输出,进行平均池化后与实体对象本身的视觉特征在特征维度上进行组合;
将经过Tk次消息传播后三元组图结构中对象组的节点输出,与初始化节点的对象组特征以及第二图结构每个节点的输出在特征维度上进行连接。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010079031.6A CN111325243B (zh) | 2020-02-03 | 2020-02-03 | 一种基于区域注意力学习机制的视觉关系检测方法 |
US17/007,245 US11301725B2 (en) | 2020-02-03 | 2020-08-31 | Visual relationship detection method and system based on region-aware learning mechanisms |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010079031.6A CN111325243B (zh) | 2020-02-03 | 2020-02-03 | 一种基于区域注意力学习机制的视觉关系检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111325243A CN111325243A (zh) | 2020-06-23 |
CN111325243B true CN111325243B (zh) | 2023-06-16 |
Family
ID=71172137
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010079031.6A Active CN111325243B (zh) | 2020-02-03 | 2020-02-03 | 一种基于区域注意力学习机制的视觉关系检测方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11301725B2 (zh) |
CN (1) | CN111325243B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11599749B1 (en) * | 2019-12-23 | 2023-03-07 | Thales Sa | Method of and system for explainable knowledge-based visual question answering |
CN111325243B (zh) * | 2020-02-03 | 2023-06-16 | 天津大学 | 一种基于区域注意力学习机制的视觉关系检测方法 |
CN111967336B (zh) * | 2020-07-24 | 2022-08-19 | 复旦大学 | 视频视觉关系检测的关系片段连接方法 |
CN111985505B (zh) * | 2020-08-21 | 2024-02-13 | 南京大学 | 一种基于兴趣传播网络的兴趣视觉关系检测方法及装置 |
CN112818678B (zh) * | 2021-02-24 | 2022-10-28 | 上海交通大学 | 基于依赖关系图的关系推理方法及系统 |
US20230153531A1 (en) * | 2021-11-17 | 2023-05-18 | Adobe Inc. | Enhanced document visual question answering system via hierarchical attention |
CN116542995B (zh) * | 2023-06-28 | 2023-09-22 | 吉林大学 | 一种基于区域表示和视觉表示的视觉问答方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017041162A (ja) * | 2015-08-21 | 2017-02-23 | 日本電気株式会社 | 最適化装置、方法およびプログラム |
CN106682233A (zh) * | 2017-01-16 | 2017-05-17 | 华侨大学 | 一种基于深度学习与局部特征融合的哈希图像检索方法 |
CN107423707A (zh) * | 2017-07-25 | 2017-12-01 | 深圳帕罗人工智能科技有限公司 | 一种基于复杂环境下的人脸情绪识别方法 |
CN108062525A (zh) * | 2017-12-14 | 2018-05-22 | 中国科学技术大学 | 一种基于手部区域预测的深度学习手部检测方法 |
CN110321805A (zh) * | 2019-06-12 | 2019-10-11 | 华中科技大学 | 一种基于时序关系推理的动态表情识别方法 |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1994004993A1 (en) * | 1992-08-18 | 1994-03-03 | Perception Software Corporation | A recognition system with an automated development tool |
US6847980B1 (en) * | 1999-07-03 | 2005-01-25 | Ana B. Benitez | Fundamental entity-relationship models for the generic audio visual data signal description |
US8121415B2 (en) * | 2008-10-28 | 2012-02-21 | Quality Vision International, Inc. | Combining feature boundaries |
CN101916379A (zh) * | 2010-09-03 | 2010-12-15 | 华中科技大学 | 一种基于对象积累视觉注意机制的目标搜索和识别方法 |
CN102999764B (zh) * | 2012-10-30 | 2016-01-13 | 上海交通大学 | 图像中基于聚类的多物体检测方法 |
EP2728522A1 (en) * | 2012-11-01 | 2014-05-07 | Nxp B.V. | An interpretation engine and associated method |
US10642891B2 (en) * | 2013-04-12 | 2020-05-05 | Avigilon Fortress Corporation | Graph matching by sub-graph grouping and indexing |
US11580745B2 (en) * | 2017-08-17 | 2023-02-14 | National University Of Singapore | Video visual relation detection methods and systems |
JP6985121B2 (ja) * | 2017-12-06 | 2021-12-22 | 国立大学法人 東京大学 | 物体間関係認識装置、学習済みモデル、認識方法及びプログラム |
CN109886345B (zh) * | 2019-02-27 | 2020-11-13 | 清华大学 | 基于关系推理的自监督学习模型训练方法和装置 |
CN110134774B (zh) * | 2019-04-29 | 2021-02-09 | 华中科技大学 | 一种基于注意力决策的图像视觉问答模型、方法和系统 |
CN110110694B (zh) * | 2019-05-16 | 2023-01-24 | 东北大学 | 一种基于目标检测的视觉slam闭环检测方法 |
US10679133B1 (en) * | 2019-06-07 | 2020-06-09 | Peritus.AI, Inc. | Constructing and utilizing a knowledge graph for information technology infrastructure |
CN110377710B (zh) * | 2019-06-17 | 2022-04-01 | 杭州电子科技大学 | 一种基于多模态融合的视觉问答融合增强方法 |
US11373390B2 (en) * | 2019-06-21 | 2022-06-28 | Adobe Inc. | Generating scene graphs from digital images using external knowledge and image reconstruction |
CN110609891B (zh) * | 2019-09-18 | 2021-06-08 | 合肥工业大学 | 一种基于上下文感知图神经网络的视觉对话生成方法 |
CN110717431B (zh) * | 2019-09-27 | 2023-03-24 | 华侨大学 | 一种结合多视角注意力机制的细粒度视觉问答方法 |
CN111125406B (zh) * | 2019-12-23 | 2023-08-04 | 天津大学 | 一种基于自适应聚类学习的视觉关系检测方法 |
CN111325243B (zh) * | 2020-02-03 | 2023-06-16 | 天津大学 | 一种基于区域注意力学习机制的视觉关系检测方法 |
US11574155B2 (en) * | 2020-05-27 | 2023-02-07 | Nvidia Corporation | Scene graph generation for unlabeled data |
-
2020
- 2020-02-03 CN CN202010079031.6A patent/CN111325243B/zh active Active
- 2020-08-31 US US17/007,245 patent/US11301725B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017041162A (ja) * | 2015-08-21 | 2017-02-23 | 日本電気株式会社 | 最適化装置、方法およびプログラム |
CN106682233A (zh) * | 2017-01-16 | 2017-05-17 | 华侨大学 | 一种基于深度学习与局部特征融合的哈希图像检索方法 |
CN107423707A (zh) * | 2017-07-25 | 2017-12-01 | 深圳帕罗人工智能科技有限公司 | 一种基于复杂环境下的人脸情绪识别方法 |
CN108062525A (zh) * | 2017-12-14 | 2018-05-22 | 中国科学技术大学 | 一种基于手部区域预测的深度学习手部检测方法 |
CN110321805A (zh) * | 2019-06-12 | 2019-10-11 | 华中科技大学 | 一种基于时序关系推理的动态表情识别方法 |
Also Published As
Publication number | Publication date |
---|---|
US20210264216A1 (en) | 2021-08-26 |
US11301725B2 (en) | 2022-04-12 |
CN111325243A (zh) | 2020-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111325243B (zh) | 一种基于区域注意力学习机制的视觉关系检测方法 | |
Li et al. | Deep learning-based classification methods for remote sensing images in urban built-up areas | |
CN109858390B (zh) | 基于端到端时空图学习神经网络的人体骨架行为识别方法 | |
CN111476315B (zh) | 一种基于统计相关性与图卷积技术的图像多标签识别方法 | |
CN110991532B (zh) | 基于关系视觉注意机制的场景图产生方法 | |
CN112418351B (zh) | 基于全局与局部上下文感知的零样本学习图像分类方法 | |
Liu et al. | RGB-D joint modelling with scene geometric information for indoor semantic segmentation | |
CN113360621A (zh) | 一种基于模态推理图神经网络的场景文本视觉问答方法 | |
Zhou et al. | Indoor positioning algorithm based on improved convolutional neural network | |
Liu et al. | An ensemble of classifiers based on positive and unlabeled data in one-class remote sensing classification | |
Yang et al. | Prior visual relationship reasoning for visual question answering | |
Xie et al. | Multiple objects-aware visual question generation | |
CN112749738A (zh) | 一种融合上下文进行超类推理的零样本对象检测方法 | |
Miao et al. | Research on visual question answering based on GAT relational reasoning | |
CN113779520B (zh) | 基于多层属性分析的跨空间目标虚拟身份关联方法 | |
Zhou et al. | Spatial-aware topic-driven-based image Chinese caption for disaster news | |
Tian et al. | Scene graph generation by multi-level semantic tasks | |
Zhou et al. | Learning semantic context feature-tree for action recognition via nearest neighbor fusion | |
Zhao et al. | RGRN: Relation-aware graph reasoning network for object detection | |
Gong et al. | Autonomous learning of foreign language based on facial emotion recognition and cloud computing | |
CN109522954A (zh) | 异构信息网络链接预测装置 | |
CN114757189A (zh) | 事件抽取方法、装置、智能终端及存储介质 | |
CN114882279A (zh) | 基于直推式半监督深度学习的多标签图像分类方法 | |
KR20230042192A (ko) | 얼굴과 손의 관련도 검출 방법, 장치, 기기 및 저장 매체 | |
CN114299342A (zh) | 一种基于深度学习的多标记图片分类中未知标记分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |