CN111125406B - 一种基于自适应聚类学习的视觉关系检测方法 - Google Patents

一种基于自适应聚类学习的视觉关系检测方法 Download PDF

Info

Publication number
CN111125406B
CN111125406B CN201911341230.3A CN201911341230A CN111125406B CN 111125406 B CN111125406 B CN 111125406B CN 201911341230 A CN201911341230 A CN 201911341230A CN 111125406 B CN111125406 B CN 111125406B
Authority
CN
China
Prior art keywords
visual
relationship
entity
representation
visual relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911341230.3A
Other languages
English (en)
Other versions
CN111125406A (zh
Inventor
刘安安
王彦晖
徐宁
聂为之
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201911341230.3A priority Critical patent/CN111125406B/zh
Publication of CN111125406A publication Critical patent/CN111125406A/zh
Priority to US17/007,213 priority patent/US11361186B2/en
Application granted granted Critical
Publication of CN111125406B publication Critical patent/CN111125406B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • G06V10/422Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation for representing the structure of the pattern or shape of an object therefor
    • G06V10/426Graphical representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5854Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using shape and object relationship
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23211Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with adaptive number of clusters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/251Fusion techniques of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于自适应聚类学习的视觉关系检测方法,包括:从输入图像中检测视觉实体并通过上下文信息传递机制识别视觉实体,获得视觉实体上下文表征;将成对视觉实体上下文表征统一低维嵌入联合子空间中,获取视觉关系共享表示特征;将成对视觉实体上下文表征分别低维嵌入多个不同聚类子空间中,获取多个初步视觉关系增强表示特征;通过聚类驱动的注意力机制对不同聚类子空间的多个初步视觉关系增强表示特征进行正则化;将视觉关系共享表示特征,正则化后的视觉关系增强表示特征与视觉关系谓词类别标签的先验条件分布融合,对视觉关系谓词进行综合关系推理。本发明通过潜在关联挖掘对不同子类的视觉关系进行细粒度识别,提高了视觉关系检测的精度。

Description

一种基于自适应聚类学习的视觉关系检测方法
技术领域
本发明涉及视觉关系检测领域,尤其涉及一种基于自适应聚类学习的视觉关系检测方法。
背景技术
视觉关系检测任务旨在检测和定位图像中出现的成对相关视觉实体并推理视觉实体之间存在的视觉关系谓词或交互方式[1]。如图1所示,视觉关系不仅可以捕捉“人”和“笔记本电脑”的空间和语义信息,并且需要预测二者之间“看”这一动作。由于其结构化描述的特点与丰富的语义空间,视觉关系检测能够推动多种高层级的视觉任务的发展,如复杂查询条件下的图像检索任务[2]、图像内容描述任务[3]、视觉推理任务[4][5]、图像生成任务[6]以及视觉问答任务[7][8]
得益于近年来深度学习技术的快速发展,视觉关系检测领域里取得了非常有潜力的进展。早期视觉关系检测任务采用的是视觉短语的定义[9],它将视觉实体对与视觉关系谓词联合看作一个预测的类别。然而这种方法缺乏鲁棒性,严重依赖于充分的训练数据,因此应用于大规模的视觉关系检测时效果不佳。近年来,研究者提出将视觉实体检测和视觉关系谓词检测分离为不同的分支,从利用潜在语义先验知识与丰富的上下文视觉信息两个方面入手。
利用潜在语义先验知识的方法包括:利用从大规模视觉关系训练标注和公开文本语料库中得到的语言知识用于视觉关系谓词推理[10]
利用丰富的上下文视觉信息的方法包括:利用视觉实体与视觉关系谓词之间视觉表征,空间位置与统计依赖进行上下文建模[11],提出基于循环神经网络的上下文消息传递机制来融合上下文视觉特征[12],采用长短时记忆网络对全局上下文信息进行编码用于视觉关系谓词推理[13]
视觉关系检测领域目前存在以下问题:
1、现有方法大多忽略了不同视觉关系之间的关联信息:现有方法没有充分挖掘不同视觉关系之间存在的潜在关联视觉模式,而是在统一的联合子空间中对所有视觉关系进行识别。
2、视觉关系之间的关联信息挖掘存在困难:由于视觉关系检测包含一对相关视觉实体检测与连接视觉关系谓词的检测,视觉关系建模复杂度远高于常见的视觉动作建模[14]和视觉目标建模。
发明内容
本发明提供了一种基于自适应聚类学习的视觉关系检测方法,本发明避免了在统一视觉关系空间对视觉关系建模而忽略了视觉关系之间潜在的关联信息,能够通过潜在关联挖掘对不同子类的视觉关系进行细粒度识别,提高了视觉关系检测的精度,并且可以应用于任何视觉关系数据库,详见下文描述:
一种基于自适应聚类学习的视觉关系检测方法,所述方法包括:
从输入图像中检测视觉实体并通过上下文信息传递机制识别视觉实体,获得视觉实体上下文表征;
将成对视觉实体上下文表征统一低维嵌入联合子空间中,获取视觉关系共享表示特征;
将成对视觉实体上下文表征分别低维嵌入多个不同聚类子空间中,获取多个初步视觉关系增强表示特征;通过聚类驱动的注意力机制对不同聚类子空间的多个初步视觉关系增强表示特征进行正则化;
将视觉关系共享表示特征,正则化后的视觉关系增强表示特征与视觉关系谓词类别标签的先验条件分布融合,对视觉关系谓词进行综合关系推理。
所述方法还包括:
从视觉关系数据集的训练集样本中统计视觉关系的经验分布,并得到视觉关系先验函数。
所述方法还包括:
构建初始化视觉关系检测模型,并使用视觉关系数据集中训练数据训练初始化视觉关系检测模型。
其中,所述获取视觉关系共享表示特征具体为:
获取联合主语映射矩阵与主语视觉实体上下文表征的第一乘积,获取联合宾语映射矩阵与宾语视觉实体上下文表征的第二乘积;第一乘积与第二乘积做差,差值与视觉关系候选区域卷积神经网络特征做点乘;
其中,联合主语映射矩阵与联合宾语映射矩阵均为将视觉实体上下文表征映射到联合关系子空间的映射矩阵;
视觉关系候选区域为能够完全覆盖对应主语视觉实体候选区域和宾语视觉实体候选区域的最小矩形框;卷积神经网络特征由任意卷积神经网络从视觉关系候选区域中提取得到。
其中,所述获取多个初步视觉关系增强表示特征具体为:
获取第k个聚类主语映射矩阵与主语视觉实体上下文表征的第三乘积,获取第k个聚类宾语映射矩阵与宾语视觉实体上下文表征的第四乘积;第三乘积与第四乘积做差,差值与视觉关系候选区域卷积神经网络特征做点乘获取第k个初步视觉关系增强表示特征;
其中,第k个聚类主语映射矩阵、第k个聚类宾语映射矩阵均为将视觉实体上下文表征映射到第k个聚类关系子空间的映射矩阵。
进一步地,所述通过聚类驱动的注意力机制对不同聚类子空间的多个初步视觉关系增强表示特征进行正则化具体为:
获取聚类子空间的注意力分数;
获取第k个初步视觉关系增强表示特征与第k个正则化映射矩阵的第六乘积,第六乘积以聚类子空间的注意力分数为权值进行加权求和运算;
其中,第k个正则化映射矩阵为第k个对初步视觉关系增强表示特征进行转换的映射矩阵。
其中,所述获取聚类子空间的注意力分数为:
将主语视觉实体预测类别标签与宾语视觉实体预测类别标签输入视觉关系先验函数中获取视觉关系谓词类别标签的先验条件分布;获取视觉关系谓词类别标签的先验条件分布与第k个注意力映射矩阵的第五乘积,将乘积输入softmax函数进行归一化运算;
其中,第k个注意力映射矩阵为对视觉关系谓词类别标签的先验条件分布进行转换的映射矩阵。
所述将视觉关系共享表示特征,正则化后的视觉关系增强表示特征与视觉关系谓词类别标签的先验条件分布融合,对视觉关系谓词进行综合关系推理具体为:
将主语视觉实体预测类别标签与宾语视觉实体预测类别标签输入视觉关系先验函数中获取视觉关系谓词类别标签的先验条件分布;
获取视觉关系共享映射矩阵与视觉关系共享表示特征的第七乘积,视觉关系增强映射矩阵与正则化后的视觉关系增强表示特征的第八乘积;将两个乘积与视觉关系谓词类别标签的先验条件分布做和后,输入到softmax函数中求解。
本发明提供的技术方案的有益效果是:
1、本发明避免了在统一视觉关系空间对视觉关系建模而忽略了视觉关系之间潜在的关联信息,能够通过潜在关联挖掘对不同子类的视觉关系进行细粒度识别;
2、本发明提高了视觉关系检测的精度,并且可以应用于任何视觉关系数据库。
附图说明
图1为图像视觉实体与视觉关系定义的示意图;
图2为一种基于自适应聚类学习的视觉关系检测方法的流程图;
图3为常用视觉关系数据库视觉关系数据的示例图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
为了解决以上问题,需要能够全面、自动、准确挖掘视觉关系之间潜在关联信息的视觉关系检测方法。研究表明:现实中往往存在一些高度相关的视觉关系,它们共享某种特定的视觉模式和特点,并且可以在对这些高度相关的视觉关系识别的基础上,进一步完成多种视觉关系的细粒度检测识别,提高视觉关系检测的召回率,本发明提出了一种基于自适应聚类学习的视觉关系检测方法,参见图2,该方法包括以下步骤:
101:从视觉关系数据集的训练集样本中统计视觉关系的经验分布,并得到视觉关系先验函数;
其中,视觉关系数据集可以是任意包含图片与对应视觉关系标注的数据集,包括但不限于VisualGenome数据集。视觉关系数据集的训练集样本包括训练图像与对应的视觉关系真实标签数据;视觉关系真实标签数据包括:主语视觉实体真实类别标签宾语视觉实体真实类别标签/>与对应的视觉关系谓词真实类别标签ri→j。统计所有视觉关系真实标签数据中,已知主语视觉实体真实类别标签/>与宾语视觉实体真实类别标签/>时,视觉关系谓词真实类别标签的条件分布/>并将其存储为视觉关系先验函数/>
102:构建初始化视觉关系检测模型,并使用视觉关系数据集中训练数据训练初始化视觉关系检测模型;
其中,视觉关系数据集可以是任意包含图片与对应视觉关系标注的数据集,包括但不限于VisualGenome数据集。视觉关系数据集的训练数据包括训练图像,对应的视觉关系真实区域数据与真实标签数据;视觉关系真实区域数据包括主语视觉实体真实区域,宾语视觉实体真实区域与对应的视觉关系谓词真实区域;视觉关系真实标签数据包括:主语视觉实体真实类别标签,宾语视觉实体真实类别标签与对应的视觉关系谓词真实类别标签。
在训练初始化视觉关系检测模型过程中,本实验采用初始化视觉关系检测模型预测训练图片的主语视觉实体预测类别标签,宾语视觉实体预测类别标签与对应的视觉关系谓词预测类别标签,并通过比较得到主语视觉实体预测类别标签与主语视觉实体真实类别标签,宾语视觉实体预测类别标签与宾语视觉实体真实类别标签,视觉关系谓词预测类别标签与视觉关系谓词真实类别标签之间的类别训练误差,通过比较得到主语视觉实体预测区域与主语视觉实体真实区域,宾语视觉实体预测区域与宾语视觉实体真实区域,视觉关系谓词预测区域与视觉关系谓词真实区域之间的区域训练误差。
本实验通过迭代地根据类别训练误差与区域训练误差进行梯度反向传播运算直到模型收敛,将训练得到的视觉关系检测模型中参数应用于后续步骤。
103:从输入图像中检测视觉实体并通过上下文信息传递机制识别视觉实体,获取视觉实体上下文表征;
首先从输入图像中提取出候选区域集与对应的候选区域特征集。
其中,可以利用任意目标检测器实现提取操作,包括但不限于本实验采用的Faster R-CNN目标检测器;候选区域包括视觉实体候选区域与视觉关系候选区域,视觉关系候选区域由能够完全覆盖主语视觉实体候选区域和宾语视觉实体候选区域的最小矩形框表示,其中主语视觉实体候选区域和宾语视觉实体候选区域均包括多个视觉实体候选区域中任意一个;视觉实体候选区域特征包括:视觉实体候选区域卷积神经网络特征fi,视觉实体类别标签概率li,视觉实体候选区域外接框坐标bi,视觉关系候选区域特征包括:视觉关系候选区域卷积神经网络特征fi,j
其次,对所有视觉实体候选区域特征进行上下文编码得到视觉实体表征。
其中,本实验采用双向长短时记忆网络(biLSTM)序列化地对所有视觉实体候选区域特征编码:
C=biLSTM1([fi;W1li]i=1,...,N) (1)
其中,双向长短时记忆网络(biLSTM)参数由步骤102所述训练过程得到,是LSTM隐藏状态集并且ci对应着第i个输入的视觉实体候选区域特征,W1是步骤102所述训练过程中学习到的映射参数,[;]表示拼接操作,N为输入的视觉实体候选区域特征数量。
之后,利用视觉实体表征识别视觉实体。
其中,本实验采用一个长短时记忆网络(LSTM)来根据视觉实体表征ci和预测得到的第i-1个视觉实体类别标签预测第i个视觉实体类别标签/>
其中,长短时记忆网络(LSTM)参数由步骤102所述训练过程得到,hi是LSTM隐藏状态,W2是步骤102所述训练过程中学习到的映射参数。
最后,利用视觉实体表征与视觉实体标签嵌入获取视觉实体上下文表征。
其中,由于视觉实体标签嵌入有益于视觉关系推理,本实验通过另一个双向长短时记忆网络(biLSTM)结合预测得到的视觉实体类别标签和视觉实体表征ci得到视觉实体上下文表征:
其中,双向长短时记忆网络(biLSTM)参数由步骤102所述训练过程得到,是LSTM隐藏状态集并且di对应着第i个输入视觉实体表征,W3是步骤102所述训练过程中学习到的参数。
104:将成对视觉实体上下文表征统一低维嵌入联合子空间中,获取视觉关系共享表示特征;
其中,将检测得到的主语视觉实体上下文表征定义为di,宾语视觉实体上下文表征定义为dj,主语视觉实体上下文表征和宾语视觉实体上下文表征包括多个视觉实体上下文表征中任意不相同的两个,将主语视觉实体与宾语视觉实体对应的视觉关系候选区域的卷积神经网络特征定义为fi,j,视觉关系共享表示特征可以按以下方式计算得到:
其中,Wes,Weo分别表示将视觉实体上下文表征映射到联合关系子空间的联合主语映射矩阵与联合宾语映射矩阵,由步骤102所述训练过程得到,表示点乘运算,/>为计算得到的视觉关系共享表示特征。
105:将成对视觉实体上下文表征分别低维嵌入多个不同聚类子空间中,获取多个初步视觉关系增强表示特征;
其中,将检测得到的主语视觉实体上下文表征定义为di,宾语视觉实体上下文表征定义为dj,主语视觉实体上下文表征和宾语视觉实体上下文表征包括多个视觉实体上下文表征中任意不相同的两个,主语视觉实体与宾语视觉实体对应的视觉关系候选区域的卷积神经网络特征定义为fi,j,第k个初步视觉关系增强表示特征可以按以下方式计算得到:
其中,分别表示将视觉特征映射到第k个聚类关系子空间的聚类主语映射矩阵与聚类宾语映射矩阵,由步骤102所述训练过程得到。/>表示得到的第k个初步视觉关系增强表示特征,K表示聚类子空间个数。
106:通过聚类驱动的注意力机制对不同聚类子空间的多个初步视觉关系增强表示特征进行正则化;
其中,将第i,j个视觉实体类别标签定义为和/>聚类子空间的注意力分数可以按以下方式计算得到:
其中,表示第k个注意力映射矩阵,由步骤102所述训练过程得到,w(·,·)表示视觉关系先验函数,/>表示计算得到的第k个聚类子空间的注意力分数,softmax(.)表示如下运算:
其中,ij表示softmax函数的第j个输入变量,n表示softmax函数的输入变量个数。
将得到的第k个初步视觉关系增强表示特征定义为正则化后的视觉关系增强表示特征可以按以下方式计算得到:
其中,表示将第k个初步视觉关系增强表示特征进行转换的正则化映射矩阵,由步骤102所述训练过程得到,/>表示正则化后的视觉关系增强表示特征。
107:将视觉关系共享表示特征,正则化后的视觉关系增强表示特征与视觉关系谓词类别标签的先验条件分布,对视觉关系谓词进行综合关系推理。
其中,将视觉关系共享表示特征定义为正则化后的视觉关系增强表示特征定义为/>视觉关系先验函数定义为w(·,·),则第i,j个视觉实体对应视觉关系谓词的概率分布Pr(di→j|B,O)可以按以下方法计算得到:
其中,分别表示学习到的视觉关系共享映射矩阵与视觉关系增强映射矩阵,由步骤102所述训练过程得到,/>表示在主语视觉实体类别标签为/>宾语视觉实体类别标签为/>时,视觉关系谓词类别标签的先验条件分布。
参考文献:
[1]Lu C,Krishna R,Bernstein M,et al.Visual relationship detectionwith language priors[C]//European Conference on Computer Vision.Springer,Cham,2016:852-869.
[2]Johnson J,Krishna R,Stark M,et al.Image retrieval using scenegraphs[C]//Proceedings of the IEEE conference on computer vision and patternrecognition.2015:3668-3678.
[3]Yao T,Pan Y,Li Y,et al.Exploring visual relationship for imagecaptioning[C]//Proceedings of the European Conference on Computer Vision(ECCV).2018:684-699.
[4]Shi J,Zhang H,Li J.Explainable and explicit visual reasoning overscene graphs[C]//Proceedings of the IEEE Conference on Computer Vision andPattern Recognition.2019:8376-8384.
[5]Yatskar M,Zettlemoyer L,Farhadi A.Situation recognition:Visualsemantic ro le labeling for image understanding[C]//Proceedings of the IEEEConference on Computer Vision and Pattern Recognition.2016:5534-5542.
[6]Johnson J,Gupta A,Fei-Fei L.Image generation from scene graphs[C]//Proceedings of the IEEE Conference on Computer Vision and PatternRecognition.2018:1219-1228.
[7]Norcliffe-Brown W,Vafeias S,Parisot S.Learning conditioned graphstructures for interpretable visual question answering[C]//Advances in NeuralInformation Processing Systems.2018:8334-8343.
[8]Teney D,Liu L,van den Hengel A.Graph-structured representationsfor visual question answering[C]//Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition.2017:1-9.
[9]SadeghiM A,Farhadi A.Recognition using visual phrases[C]//CVPR2011.IEEE,2011:1745-1752.
[10]Yu R,Li A,MorariuV I,et al.Visual relationship detection withinternal and external linguistic knowledge distillation[C]//Proceedings ofthe IEEE International Conference on Computer Vision.2017:1974-1982.
[11]Dai B,Zhang Y,Lin D.Detecting visual relationships with deeprelational networks[C]//Proceedings of the IEEE Conference on Computer Visionand Pattern Recognition.2017:3076-3086.
[12]XuD,Zhu Y,Choy C B,et al.Scene graph generation by iterativemessage passing[C]//Proceedings of the IEEE Conference on Computer Vision andPattern Recognition.2017:5410-5419.
[13]Zellers R,Yatskar M,Thomson S,et al.Neural motifs:Scene graphparsing with global context[C]//Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition.2018:5831-5840.
[14]Liu A A,Su Y T,Nie W Z,et al.Hierarchical clustering multi-tasklearning for joint human action grouping and recognition[J].IEEE transactionson pattern analysis and machine intelligence,2016,39(1):102-114.
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (3)

1.一种基于自适应聚类学习的视觉关系检测方法,其特征在于,所述方法包括:
从输入图像中检测视觉实体并通过上下文信息传递机制识别视觉实体,获得视觉实体上下文表征;
将成对视觉实体上下文表征统一低维嵌入联合子空间中,获取视觉关系共享表示特征;
将成对视觉实体上下文表征分别低维嵌入多个不同聚类子空间中,获取多个初步视觉关系增强表示特征;通过聚类驱动的注意力机制对不同聚类子空间的多个初步视觉关系增强表示特征进行正则化;
将视觉关系共享表示特征,正则化后的视觉关系增强表示特征与视觉关系谓词类别标签的先验条件分布融合,对视觉关系谓词进行综合关系推理;
其中,所述获取视觉关系共享表示特征具体为:
将检测得到的主语视觉实体上下文表征定义为di,宾语视觉实体上下文表征定义为dj,主语视觉实体上下文表征和宾语视觉实体上下文表征包括多个视觉实体上下文表征中任意不相同的两个,将主语视觉实体与宾语视觉实体对应的视觉关系候选区域的卷积神经网络特征定义为fi,j,视觉关系共享表示特征为:
其中,Wes,Weo分别表示将视觉实体上下文表征映射到联合关系子空间的联合主语映射矩阵与联合宾语映射矩阵;
其中,联合主语映射矩阵与联合宾语映射矩阵均为将视觉实体上下文表征映射到联合关系子空间的映射矩阵;
视觉关系候选区域为能够完全覆盖对应主语视觉实体候选区域和宾语视觉实体候选区域的最小矩形框;卷积神经网络特征由任意卷积神经网络从视觉关系候选区域中提取得到;
所述获取多个初步视觉关系增强表示特征具体为:
第k个初步视觉关系增强表示特征为:
其中,分别表示将视觉特征映射到第k个聚类关系子空间的聚类主语映射矩阵与聚类宾语映射矩阵,/>表示得到的第k个初步视觉关系增强表示特征,K表示聚类子空间个数;
其中,第k个聚类主语映射矩阵、第k个聚类宾语映射矩阵均为将视觉实体上下文表征映射到第k个聚类关系子空间的映射矩阵;
所述通过聚类驱动的注意力机制对不同聚类子空间的多个初步视觉关系增强表示特征进行正则化具体为:
将得到的第k个初步视觉关系增强表示特征定义为正则化后的视觉关系增强表示特征得到:
其中,表示将第k个初步视觉关系增强表示特征进行转换的正则化映射矩阵,/>表示正则化后的视觉关系增强表示特征;
其中,第k个正则化映射矩阵为第k个对初步视觉关系增强表示特征进行转换的映射矩阵;
将第i,j个视觉实体类别标签定义为和/>聚类子空间的注意力分数为:
其中,表示第k个注意力映射矩阵,w(·,·)表示视觉关系先验函数,/>表示计算得到的第k个聚类子空间的注意力分数;
其中,第k个注意力映射矩阵为对视觉关系谓词类别标签的先验条件分布进行转换的映射矩阵;
所述将视觉关系共享表示特征,正则化后的视觉关系增强表示特征与视觉关系谓词类别标签的先验条件分布融合,对视觉关系谓词进行综合关系推理具体为:
将视觉关系共享表示特征定义为正则化后的视觉关系增强表示特征定义为/>视觉关系先验函数定义为w(·,·),则第i,j个视觉实体对应视觉关系谓词的概率分布Pr(di→j|B,O)得到:
其中,分别表示学习到的视觉关系共享映射矩阵与视觉关系增强映射矩阵,表示在主语视觉实体类别标签为/>宾语视觉实体类别标签为/>时,视觉关系谓词类别标签的先验条件分布;
其中,将主语视觉实体预测类别标签与宾语视觉实体预测类别标签输入视觉关系先验函数中获取视觉关系谓词类别标签的先验条件分布。
2.根据权利要求1所述的一种基于自适应聚类学习的视觉关系检测方法,其特征在于,所述方法还包括:从视觉关系数据集的训练集样本中统计视觉关系的经验分布,并得到视觉关系先验函数。
3.根据权利要求1所述的一种基于自适应聚类学习的视觉关系检测方法,其特征在于,所述方法还包括:
构建初始化视觉关系检测模型,并使用视觉关系数据集中训练数据训练初始化视觉关系检测模型。
CN201911341230.3A 2019-12-23 2019-12-23 一种基于自适应聚类学习的视觉关系检测方法 Active CN111125406B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201911341230.3A CN111125406B (zh) 2019-12-23 2019-12-23 一种基于自适应聚类学习的视觉关系检测方法
US17/007,213 US11361186B2 (en) 2019-12-23 2020-08-31 Visual relationship detection method and system based on adaptive clustering learning

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911341230.3A CN111125406B (zh) 2019-12-23 2019-12-23 一种基于自适应聚类学习的视觉关系检测方法

Publications (2)

Publication Number Publication Date
CN111125406A CN111125406A (zh) 2020-05-08
CN111125406B true CN111125406B (zh) 2023-08-04

Family

ID=70501453

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911341230.3A Active CN111125406B (zh) 2019-12-23 2019-12-23 一种基于自适应聚类学习的视觉关系检测方法

Country Status (2)

Country Link
US (1) US11361186B2 (zh)
CN (1) CN111125406B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11599749B1 (en) * 2019-12-23 2023-03-07 Thales Sa Method of and system for explainable knowledge-based visual question answering
CN111325243B (zh) * 2020-02-03 2023-06-16 天津大学 一种基于区域注意力学习机制的视觉关系检测方法
CN111985505B (zh) * 2020-08-21 2024-02-13 南京大学 一种基于兴趣传播网络的兴趣视觉关系检测方法及装置
CN112163608B (zh) * 2020-09-21 2023-02-03 天津大学 一种基于多粒度语义融合的视觉关系检测方法
CN112347965A (zh) * 2020-11-16 2021-02-09 浙江大学 一种基于时空图的视频关系检测方法和系统
CN113643241A (zh) * 2021-07-15 2021-11-12 北京迈格威科技有限公司 交互关系检测方法、交互关系检测模型训练方法及装置
CN113688729B (zh) * 2021-08-24 2023-04-07 上海商汤科技开发有限公司 一种行为识别方法及装置、电子设备和存储介质
CN113836339B (zh) * 2021-09-01 2023-09-26 淮阴工学院 一种基于全局信息和位置嵌入的场景图生成方法
CN114239594B (zh) * 2021-12-06 2024-03-08 西北工业大学 基于注意力机制的自然语言视觉推理方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101894170A (zh) * 2010-08-13 2010-11-24 武汉大学 基于语义关联网络的跨模信息检索方法
CN108229272A (zh) * 2017-02-23 2018-06-29 北京市商汤科技开发有限公司 视觉关系检测方法和装置及视觉关系检测训练方法和装置
CN109564706A (zh) * 2016-12-01 2019-04-02 英特吉姆股份有限公司 基于智能交互式增强现实的用户交互平台

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101894170A (zh) * 2010-08-13 2010-11-24 武汉大学 基于语义关联网络的跨模信息检索方法
CN109564706A (zh) * 2016-12-01 2019-04-02 英特吉姆股份有限公司 基于智能交互式增强现实的用户交互平台
CN108229272A (zh) * 2017-02-23 2018-06-29 北京市商汤科技开发有限公司 视觉关系检测方法和装置及视觉关系检测训练方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
丁文博 ; .深度学习的视觉关系检测方法研究进展.科技创新导报.2019,(第27期),全文. *

Also Published As

Publication number Publication date
US11361186B2 (en) 2022-06-14
CN111125406A (zh) 2020-05-08
US20210192274A1 (en) 2021-06-24

Similar Documents

Publication Publication Date Title
CN111125406B (zh) 一种基于自适应聚类学习的视觉关系检测方法
WO2021223323A1 (zh) 一种中文视觉词汇表构建的图像内容自动描述方法
Liang et al. Explaining the black-box model: A survey of local interpretation methods for deep neural networks
CN110069709B (zh) 意图识别方法、装置、计算机可读介质及电子设备
CN107133569B (zh) 基于泛化多标记学习的监控视频多粒度标注方法
Tian et al. A relation-augmented embedded graph attention network for remote sensing object detection
Sun et al. Fast object detection based on binary deep convolution neural networks
CN114936623B (zh) 一种融合多模态数据的方面级情感分析方法
CN113780003B (zh) 时空数据变分编解码跨模态增强方法
Shen et al. Defect detection of printed circuit board based on lightweight deep convolution network
CN110888980A (zh) 基于知识增强的注意力神经网络的隐式篇章关系识别方法
Xu et al. Scene graph inference via multi-scale context modeling
CN111639186A (zh) 动态嵌入投影门控的多类别多标签文本分类模型及装置
CN115658934A (zh) 一种基于多类注意力机制的图文跨模态检索方法
Yuan Language bias in visual question answering: A survey and taxonomy
Pan et al. Hybrid dilated faster RCNN for object detection
Shi et al. A new multiface target detection algorithm for students in class based on bayesian optimized YOLOv3 model
Qin Application of efficient recognition algorithm based on deep neural network in English teaching scene
Wang et al. Malware detection algorithm based on the attention mechanism and ResNet
US20240028828A1 (en) Machine learning model architecture and user interface to indicate impact of text ngrams
Zhang et al. Swin-PAFF: A SAR Ship Detection Network with Contextual Cross-Information Fusion.
Li A deep learning-based text detection and recognition approach for natural scenes
Lu et al. Multimode Gesture Recognition Algorithm Based on Convolutional Long Short‐Term Memory Network
Tian et al. Scene graph generation by multi-level semantic tasks
CN113516118B (zh) 一种图像与文本联合嵌入的多模态文化资源加工方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant