CN111125406B

CN111125406B - 一种基于自适应聚类学习的视觉关系检测方法

Info

Publication number: CN111125406B
Application number: CN201911341230.3A
Authority: CN
Inventors: 刘安安; 王彦晖; 徐宁; 聂为之
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-12-23
Filing date: 2019-12-23
Publication date: 2023-08-04
Anticipated expiration: 2039-12-23
Also published as: US11361186B2; CN111125406A; US20210192274A1

Abstract

本发明公开了一种基于自适应聚类学习的视觉关系检测方法，包括：从输入图像中检测视觉实体并通过上下文信息传递机制识别视觉实体，获得视觉实体上下文表征；将成对视觉实体上下文表征统一低维嵌入联合子空间中，获取视觉关系共享表示特征；将成对视觉实体上下文表征分别低维嵌入多个不同聚类子空间中，获取多个初步视觉关系增强表示特征；通过聚类驱动的注意力机制对不同聚类子空间的多个初步视觉关系增强表示特征进行正则化；将视觉关系共享表示特征，正则化后的视觉关系增强表示特征与视觉关系谓词类别标签的先验条件分布融合，对视觉关系谓词进行综合关系推理。本发明通过潜在关联挖掘对不同子类的视觉关系进行细粒度识别，提高了视觉关系检测的精度。

Description

一种基于自适应聚类学习的视觉关系检测方法

技术领域

本发明涉及视觉关系检测领域，尤其涉及一种基于自适应聚类学习的视觉关系检测方法。

背景技术

视觉关系检测任务旨在检测和定位图像中出现的成对相关视觉实体并推理视觉实体之间存在的视觉关系谓词或交互方式^[1]。如图1所示，视觉关系不仅可以捕捉“人”和“笔记本电脑”的空间和语义信息，并且需要预测二者之间“看”这一动作。由于其结构化描述的特点与丰富的语义空间，视觉关系检测能够推动多种高层级的视觉任务的发展，如复杂查询条件下的图像检索任务^[2]、图像内容描述任务^[3]、视觉推理任务^[4][5]、图像生成任务^[6]以及视觉问答任务^[7][8]。

得益于近年来深度学习技术的快速发展，视觉关系检测领域里取得了非常有潜力的进展。早期视觉关系检测任务采用的是视觉短语的定义^[9]，它将视觉实体对与视觉关系谓词联合看作一个预测的类别。然而这种方法缺乏鲁棒性，严重依赖于充分的训练数据，因此应用于大规模的视觉关系检测时效果不佳。近年来，研究者提出将视觉实体检测和视觉关系谓词检测分离为不同的分支，从利用潜在语义先验知识与丰富的上下文视觉信息两个方面入手。

利用潜在语义先验知识的方法包括：利用从大规模视觉关系训练标注和公开文本语料库中得到的语言知识用于视觉关系谓词推理^[10]。

利用丰富的上下文视觉信息的方法包括：利用视觉实体与视觉关系谓词之间视觉表征，空间位置与统计依赖进行上下文建模^[11]，提出基于循环神经网络的上下文消息传递机制来融合上下文视觉特征^[12]，采用长短时记忆网络对全局上下文信息进行编码用于视觉关系谓词推理^[13]。

视觉关系检测领域目前存在以下问题：

1、现有方法大多忽略了不同视觉关系之间的关联信息：现有方法没有充分挖掘不同视觉关系之间存在的潜在关联视觉模式，而是在统一的联合子空间中对所有视觉关系进行识别。

2、视觉关系之间的关联信息挖掘存在困难：由于视觉关系检测包含一对相关视觉实体检测与连接视觉关系谓词的检测，视觉关系建模复杂度远高于常见的视觉动作建模^[14]和视觉目标建模。

发明内容

本发明提供了一种基于自适应聚类学习的视觉关系检测方法，本发明避免了在统一视觉关系空间对视觉关系建模而忽略了视觉关系之间潜在的关联信息，能够通过潜在关联挖掘对不同子类的视觉关系进行细粒度识别，提高了视觉关系检测的精度，并且可以应用于任何视觉关系数据库，详见下文描述：

一种基于自适应聚类学习的视觉关系检测方法，所述方法包括：

从输入图像中检测视觉实体并通过上下文信息传递机制识别视觉实体，获得视觉实体上下文表征；

将成对视觉实体上下文表征统一低维嵌入联合子空间中，获取视觉关系共享表示特征；

将成对视觉实体上下文表征分别低维嵌入多个不同聚类子空间中，获取多个初步视觉关系增强表示特征；通过聚类驱动的注意力机制对不同聚类子空间的多个初步视觉关系增强表示特征进行正则化；

将视觉关系共享表示特征，正则化后的视觉关系增强表示特征与视觉关系谓词类别标签的先验条件分布融合，对视觉关系谓词进行综合关系推理。

所述方法还包括：

从视觉关系数据集的训练集样本中统计视觉关系的经验分布，并得到视觉关系先验函数。

所述方法还包括：

构建初始化视觉关系检测模型，并使用视觉关系数据集中训练数据训练初始化视觉关系检测模型。

其中，所述获取视觉关系共享表示特征具体为：

获取联合主语映射矩阵与主语视觉实体上下文表征的第一乘积，获取联合宾语映射矩阵与宾语视觉实体上下文表征的第二乘积；第一乘积与第二乘积做差，差值与视觉关系候选区域卷积神经网络特征做点乘；

其中，联合主语映射矩阵与联合宾语映射矩阵均为将视觉实体上下文表征映射到联合关系子空间的映射矩阵；

视觉关系候选区域为能够完全覆盖对应主语视觉实体候选区域和宾语视觉实体候选区域的最小矩形框；卷积神经网络特征由任意卷积神经网络从视觉关系候选区域中提取得到。

其中，所述获取多个初步视觉关系增强表示特征具体为：

获取第k个聚类主语映射矩阵与主语视觉实体上下文表征的第三乘积，获取第k个聚类宾语映射矩阵与宾语视觉实体上下文表征的第四乘积；第三乘积与第四乘积做差，差值与视觉关系候选区域卷积神经网络特征做点乘获取第k个初步视觉关系增强表示特征；

其中，第k个聚类主语映射矩阵、第k个聚类宾语映射矩阵均为将视觉实体上下文表征映射到第k个聚类关系子空间的映射矩阵。

进一步地，所述通过聚类驱动的注意力机制对不同聚类子空间的多个初步视觉关系增强表示特征进行正则化具体为：

获取聚类子空间的注意力分数；

获取第k个初步视觉关系增强表示特征与第k个正则化映射矩阵的第六乘积，第六乘积以聚类子空间的注意力分数为权值进行加权求和运算；

其中，第k个正则化映射矩阵为第k个对初步视觉关系增强表示特征进行转换的映射矩阵。

其中，所述获取聚类子空间的注意力分数为：

将主语视觉实体预测类别标签与宾语视觉实体预测类别标签输入视觉关系先验函数中获取视觉关系谓词类别标签的先验条件分布；获取视觉关系谓词类别标签的先验条件分布与第k个注意力映射矩阵的第五乘积，将乘积输入softmax函数进行归一化运算；

其中，第k个注意力映射矩阵为对视觉关系谓词类别标签的先验条件分布进行转换的映射矩阵。

所述将视觉关系共享表示特征，正则化后的视觉关系增强表示特征与视觉关系谓词类别标签的先验条件分布融合，对视觉关系谓词进行综合关系推理具体为：

将主语视觉实体预测类别标签与宾语视觉实体预测类别标签输入视觉关系先验函数中获取视觉关系谓词类别标签的先验条件分布；

获取视觉关系共享映射矩阵与视觉关系共享表示特征的第七乘积，视觉关系增强映射矩阵与正则化后的视觉关系增强表示特征的第八乘积；将两个乘积与视觉关系谓词类别标签的先验条件分布做和后，输入到softmax函数中求解。

本发明提供的技术方案的有益效果是：

1、本发明避免了在统一视觉关系空间对视觉关系建模而忽略了视觉关系之间潜在的关联信息，能够通过潜在关联挖掘对不同子类的视觉关系进行细粒度识别；

2、本发明提高了视觉关系检测的精度，并且可以应用于任何视觉关系数据库。

附图说明

图1为图像视觉实体与视觉关系定义的示意图；

图2为一种基于自适应聚类学习的视觉关系检测方法的流程图；

图3为常用视觉关系数据库视觉关系数据的示例图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

为了解决以上问题，需要能够全面、自动、准确挖掘视觉关系之间潜在关联信息的视觉关系检测方法。研究表明：现实中往往存在一些高度相关的视觉关系，它们共享某种特定的视觉模式和特点，并且可以在对这些高度相关的视觉关系识别的基础上，进一步完成多种视觉关系的细粒度检测识别，提高视觉关系检测的召回率，本发明提出了一种基于自适应聚类学习的视觉关系检测方法，参见图2，该方法包括以下步骤：

101：从视觉关系数据集的训练集样本中统计视觉关系的经验分布，并得到视觉关系先验函数；

其中，视觉关系数据集可以是任意包含图片与对应视觉关系标注的数据集，包括但不限于VisualGenome数据集。视觉关系数据集的训练集样本包括训练图像与对应的视觉关系真实标签数据；视觉关系真实标签数据包括：主语视觉实体真实类别标签宾语视觉实体真实类别标签/>与对应的视觉关系谓词真实类别标签r_i→j。统计所有视觉关系真实标签数据中，已知主语视觉实体真实类别标签/>与宾语视觉实体真实类别标签/>时，视觉关系谓词真实类别标签的条件分布/>并将其存储为视觉关系先验函数/>

102：构建初始化视觉关系检测模型，并使用视觉关系数据集中训练数据训练初始化视觉关系检测模型；

其中，视觉关系数据集可以是任意包含图片与对应视觉关系标注的数据集，包括但不限于VisualGenome数据集。视觉关系数据集的训练数据包括训练图像，对应的视觉关系真实区域数据与真实标签数据；视觉关系真实区域数据包括主语视觉实体真实区域，宾语视觉实体真实区域与对应的视觉关系谓词真实区域；视觉关系真实标签数据包括：主语视觉实体真实类别标签，宾语视觉实体真实类别标签与对应的视觉关系谓词真实类别标签。

在训练初始化视觉关系检测模型过程中，本实验采用初始化视觉关系检测模型预测训练图片的主语视觉实体预测类别标签，宾语视觉实体预测类别标签与对应的视觉关系谓词预测类别标签，并通过比较得到主语视觉实体预测类别标签与主语视觉实体真实类别标签，宾语视觉实体预测类别标签与宾语视觉实体真实类别标签，视觉关系谓词预测类别标签与视觉关系谓词真实类别标签之间的类别训练误差，通过比较得到主语视觉实体预测区域与主语视觉实体真实区域，宾语视觉实体预测区域与宾语视觉实体真实区域，视觉关系谓词预测区域与视觉关系谓词真实区域之间的区域训练误差。

本实验通过迭代地根据类别训练误差与区域训练误差进行梯度反向传播运算直到模型收敛，将训练得到的视觉关系检测模型中参数应用于后续步骤。

103：从输入图像中检测视觉实体并通过上下文信息传递机制识别视觉实体，获取视觉实体上下文表征；

首先从输入图像中提取出候选区域集与对应的候选区域特征集。

其中，可以利用任意目标检测器实现提取操作，包括但不限于本实验采用的Faster R-CNN目标检测器；候选区域包括视觉实体候选区域与视觉关系候选区域，视觉关系候选区域由能够完全覆盖主语视觉实体候选区域和宾语视觉实体候选区域的最小矩形框表示，其中主语视觉实体候选区域和宾语视觉实体候选区域均包括多个视觉实体候选区域中任意一个；视觉实体候选区域特征包括：视觉实体候选区域卷积神经网络特征f_i，视觉实体类别标签概率l_i，视觉实体候选区域外接框坐标b_i，视觉关系候选区域特征包括：视觉关系候选区域卷积神经网络特征f_i,j。

其次，对所有视觉实体候选区域特征进行上下文编码得到视觉实体表征。

其中，本实验采用双向长短时记忆网络(biLSTM)序列化地对所有视觉实体候选区域特征编码：

C＝biLSTM₁([f_i；W₁l_i]_i＝1,...,N) (1)

其中，双向长短时记忆网络(biLSTM)参数由步骤102所述训练过程得到，是LSTM隐藏状态集并且c_i对应着第i个输入的视觉实体候选区域特征，W₁是步骤102所述训练过程中学习到的映射参数，[；]表示拼接操作，N为输入的视觉实体候选区域特征数量。

之后，利用视觉实体表征识别视觉实体。

其中，本实验采用一个长短时记忆网络(LSTM)来根据视觉实体表征c_i和预测得到的第i-1个视觉实体类别标签预测第i个视觉实体类别标签/>

其中，长短时记忆网络(LSTM)参数由步骤102所述训练过程得到，h_i是LSTM隐藏状态，W₂是步骤102所述训练过程中学习到的映射参数。

最后，利用视觉实体表征与视觉实体标签嵌入获取视觉实体上下文表征。

其中，由于视觉实体标签嵌入有益于视觉关系推理，本实验通过另一个双向长短时记忆网络(biLSTM)结合预测得到的视觉实体类别标签和视觉实体表征c_i得到视觉实体上下文表征：

其中，双向长短时记忆网络(biLSTM)参数由步骤102所述训练过程得到，是LSTM隐藏状态集并且d_i对应着第i个输入视觉实体表征，W₃是步骤102所述训练过程中学习到的参数。

104：将成对视觉实体上下文表征统一低维嵌入联合子空间中，获取视觉关系共享表示特征；

其中，将检测得到的主语视觉实体上下文表征定义为d_i，宾语视觉实体上下文表征定义为d_j，主语视觉实体上下文表征和宾语视觉实体上下文表征包括多个视觉实体上下文表征中任意不相同的两个，将主语视觉实体与宾语视觉实体对应的视觉关系候选区域的卷积神经网络特征定义为f_i,j，视觉关系共享表示特征可以按以下方式计算得到：

其中，W_es，W_eo分别表示将视觉实体上下文表征映射到联合关系子空间的联合主语映射矩阵与联合宾语映射矩阵，由步骤102所述训练过程得到，表示点乘运算，/>为计算得到的视觉关系共享表示特征。

105：将成对视觉实体上下文表征分别低维嵌入多个不同聚类子空间中，获取多个初步视觉关系增强表示特征；

其中，将检测得到的主语视觉实体上下文表征定义为d_i，宾语视觉实体上下文表征定义为d_j，主语视觉实体上下文表征和宾语视觉实体上下文表征包括多个视觉实体上下文表征中任意不相同的两个，主语视觉实体与宾语视觉实体对应的视觉关系候选区域的卷积神经网络特征定义为f_i,j，第k个初步视觉关系增强表示特征可以按以下方式计算得到：

其中，分别表示将视觉特征映射到第k个聚类关系子空间的聚类主语映射矩阵与聚类宾语映射矩阵，由步骤102所述训练过程得到。/>表示得到的第k个初步视觉关系增强表示特征，K表示聚类子空间个数。

106：通过聚类驱动的注意力机制对不同聚类子空间的多个初步视觉关系增强表示特征进行正则化；

其中，将第i，j个视觉实体类别标签定义为和/>聚类子空间的注意力分数可以按以下方式计算得到：

其中，表示第k个注意力映射矩阵，由步骤102所述训练过程得到，w(·,·)表示视觉关系先验函数，/>表示计算得到的第k个聚类子空间的注意力分数，softmax(.)表示如下运算：

其中，i_j表示softmax函数的第j个输入变量，n表示softmax函数的输入变量个数。

将得到的第k个初步视觉关系增强表示特征定义为正则化后的视觉关系增强表示特征可以按以下方式计算得到：

其中，表示将第k个初步视觉关系增强表示特征进行转换的正则化映射矩阵，由步骤102所述训练过程得到，/>表示正则化后的视觉关系增强表示特征。

107：将视觉关系共享表示特征，正则化后的视觉关系增强表示特征与视觉关系谓词类别标签的先验条件分布，对视觉关系谓词进行综合关系推理。

其中，将视觉关系共享表示特征定义为正则化后的视觉关系增强表示特征定义为/>视觉关系先验函数定义为w(·,·)，则第i，j个视觉实体对应视觉关系谓词的概率分布Pr(d_i→j|B,O)可以按以下方法计算得到：

其中，分别表示学习到的视觉关系共享映射矩阵与视觉关系增强映射矩阵，由步骤102所述训练过程得到，/>表示在主语视觉实体类别标签为/>宾语视觉实体类别标签为/>时，视觉关系谓词类别标签的先验条件分布。

参考文献：

[1]Lu C,Krishna R,Bernstein M,et al.Visual relationship detectionwith language priors[C]//European Conference on Computer Vision.Springer,Cham,2016:852-869.

[2]Johnson J,Krishna R,Stark M,et al.Image retrieval using scenegraphs[C]//Proceedings of the IEEE conference on computer vision and patternrecognition.2015:3668-3678.

[3]Yao T,Pan Y,Li Y,et al.Exploring visual relationship for imagecaptioning[C]//Proceedings of the European Conference on Computer Vision(ECCV).2018:684-699.

[4]Shi J,Zhang H,Li J.Explainable and explicit visual reasoning overscene graphs[C]//Proceedings of the IEEE Conference on Computer Vision andPattern Recognition.2019:8376-8384.

[5]Yatskar M,Zettlemoyer L,Farhadi A.Situation recognition:Visualsemantic ro le labeling for image understanding[C]//Proceedings of the IEEEConference on Computer Vision and Pattern Recognition.2016:5534-5542.

[6]Johnson J,Gupta A,Fei-Fei L.Image generation from scene graphs[C]//Proceedings of the IEEE Conference on Computer Vision and PatternRecognition.2018:1219-1228.

[7]Norcliffe-Brown W,Vafeias S,Parisot S.Learning conditioned graphstructures for interpretable visual question answering[C]//Advances in NeuralInformation Processing Systems.2018:8334-8343.

[8]Teney D,Liu L,van den Hengel A.Graph-structured representationsfor visual question answering[C]//Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition.2017:1-9.

[9]SadeghiM A,Farhadi A.Recognition using visual phrases[C]//CVPR2011.IEEE,2011:1745-1752.

[10]Yu R,Li A,MorariuV I,et al.Visual relationship detection withinternal and external linguistic knowledge distillation[C]//Proceedings ofthe IEEE International Conference on Computer Vision.2017:1974-1982.

[11]Dai B,Zhang Y,Lin D.Detecting visual relationships with deeprelational networks[C]//Proceedings of the IEEE Conference on Computer Visionand Pattern Recognition.2017:3076-3086.

[12]XuD,Zhu Y,Choy C B,et al.Scene graph generation by iterativemessage passing[C]//Proceedings of the IEEE Conference on Computer Vision andPattern Recognition.2017:5410-5419.

[13]Zellers R,Yatskar M,Thomson S,et al.Neural motifs:Scene graphparsing with global context[C]//Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition.2018:5831-5840.

[14]Liu A A,Su Y T,Nie W Z,et al.Hierarchical clustering multi-tasklearning for joint human action grouping and recognition[J].IEEE transactionson pattern analysis and machine intelligence,2016,39(1):102-114.

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于自适应聚类学习的视觉关系检测方法，其特征在于，所述方法包括：

将视觉关系共享表示特征，正则化后的视觉关系增强表示特征与视觉关系谓词类别标签的先验条件分布融合，对视觉关系谓词进行综合关系推理；

其中，所述获取视觉关系共享表示特征具体为：

将检测得到的主语视觉实体上下文表征定义为d_i，宾语视觉实体上下文表征定义为d_j，主语视觉实体上下文表征和宾语视觉实体上下文表征包括多个视觉实体上下文表征中任意不相同的两个，将主语视觉实体与宾语视觉实体对应的视觉关系候选区域的卷积神经网络特征定义为f_i,j，视觉关系共享表示特征为：

其中，W_es，W_eo分别表示将视觉实体上下文表征映射到联合关系子空间的联合主语映射矩阵与联合宾语映射矩阵；

视觉关系候选区域为能够完全覆盖对应主语视觉实体候选区域和宾语视觉实体候选区域的最小矩形框；卷积神经网络特征由任意卷积神经网络从视觉关系候选区域中提取得到；

所述获取多个初步视觉关系增强表示特征具体为：

第k个初步视觉关系增强表示特征为：

其中，分别表示将视觉特征映射到第k个聚类关系子空间的聚类主语映射矩阵与聚类宾语映射矩阵，/>表示得到的第k个初步视觉关系增强表示特征，K表示聚类子空间个数；

其中，第k个聚类主语映射矩阵、第k个聚类宾语映射矩阵均为将视觉实体上下文表征映射到第k个聚类关系子空间的映射矩阵；

所述通过聚类驱动的注意力机制对不同聚类子空间的多个初步视觉关系增强表示特征进行正则化具体为：

将得到的第k个初步视觉关系增强表示特征定义为正则化后的视觉关系增强表示特征得到：

其中，表示将第k个初步视觉关系增强表示特征进行转换的正则化映射矩阵，/>表示正则化后的视觉关系增强表示特征；

其中，第k个正则化映射矩阵为第k个对初步视觉关系增强表示特征进行转换的映射矩阵；

将第i，j个视觉实体类别标签定义为和/>聚类子空间的注意力分数为：

其中，表示第k个注意力映射矩阵，w(·,·)表示视觉关系先验函数，/>表示计算得到的第k个聚类子空间的注意力分数；

其中，第k个注意力映射矩阵为对视觉关系谓词类别标签的先验条件分布进行转换的映射矩阵；

将视觉关系共享表示特征定义为正则化后的视觉关系增强表示特征定义为/>视觉关系先验函数定义为w(·,·)，则第i，j个视觉实体对应视觉关系谓词的概率分布Pr(d_i→j|B,O)得到：

其中，分别表示学习到的视觉关系共享映射矩阵与视觉关系增强映射矩阵，表示在主语视觉实体类别标签为/>宾语视觉实体类别标签为/>时，视觉关系谓词类别标签的先验条件分布；

其中，将主语视觉实体预测类别标签与宾语视觉实体预测类别标签输入视觉关系先验函数中获取视觉关系谓词类别标签的先验条件分布。

2.根据权利要求1所述的一种基于自适应聚类学习的视觉关系检测方法，其特征在于，所述方法还包括：从视觉关系数据集的训练集样本中统计视觉关系的经验分布，并得到视觉关系先验函数。

3.根据权利要求1所述的一种基于自适应聚类学习的视觉关系检测方法，其特征在于，所述方法还包括：