CN112861848B - 基于动作条件已知的视觉关系检测方法及系统 - Google Patents

基于动作条件已知的视觉关系检测方法及系统 Download PDF

Info

Publication number
CN112861848B
CN112861848B CN202011508606.8A CN202011508606A CN112861848B CN 112861848 B CN112861848 B CN 112861848B CN 202011508606 A CN202011508606 A CN 202011508606A CN 112861848 B CN112861848 B CN 112861848B
Authority
CN
China
Prior art keywords
visual
features
relation
feature
modal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011508606.8A
Other languages
English (en)
Other versions
CN112861848A (zh
Inventor
徐良
李永露
陈鸣阳
郝琰
卢策吾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN202011508606.8A priority Critical patent/CN112861848B/zh
Publication of CN112861848A publication Critical patent/CN112861848A/zh
Application granted granted Critical
Publication of CN112861848B publication Critical patent/CN112861848B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Abstract

一种基于动作条件已知的视觉关系检测方法及系统,通过多模态特征提取器从现有数据集中提取出多模态特征,在基础视觉关系检测网络中添加嵌入损失函数对多模态特征进行规则化处理,再通过背景物体建模引入有效背景物体并减少噪声,即将检测物体两两组合并引入背景物体作为辅助并生成训练集,对神经网络进行训练,最后将训练后的神经网络从待测图像中提取出物体对的交互预测,即采用同样的数据处理以及前向传播得到图片中的物体检测结果以及物体两两之间的关系分类结果。本发明基于机器学习、深度学习,能够促进图像场景理解、人与物体交互理解,并应用到图像索引、图像生成、图像描述以及视觉问答系统等应用中。

Description

基于动作条件已知的视觉关系检测方法及系统
技术领域
本发明涉及的是一种计算机视觉和模式识别领域的技术,具体是一种基于动作条件已知的视觉关系检测方法及系统。
背景技术
视觉关系检测的目标是推断出图像或视频中检测物体两两之间的相对关系,其中:视觉关系包括空间位置、对比、交互等类型。视觉关系检测是计算机视觉的重要分支,能够促进图像场景理解、人与物体交互理解,并能够广泛地应用到图像检索、图像生成、图像描述、视觉问答等任务中。
目前关于视觉关系检测的研究大多使用物体检测网络得到的物体视觉特征进行关系分类,而忽视视觉关系的类内多样性,从而难以学到最优的、鲁棒的视觉关系检测表征;同时,目前的研究通过信息传递和注意力机制引入背景物体信息来提升关系检测性能会引入噪声。
发明内容
本发明针对现有技术存在的上述不足,提出一种基于动作条件已知的视觉关系检测方法及系统,基于机器学习、深度学习,能够促进图像场景理解、人与物体交互理解,并应用到图像索引、图像生成、图像描述以及视觉问答系统等应用中。
本发明是通过以下技术方案实现的:
本发明涉及一种基于动作条件已知的视觉关系检测方法,通过关系检测网络中的多模态特征提取器从现有数据集中提取出多模态特征,在关系检测网络中的基础视觉关系检测网络中添加嵌入损失函数对多模态特征进行规则化处理,再通过关系检测网络中的背景物体建模引入有效背景物体并减少噪声,即将检测物体两两组合并引入背景物体作为辅助并生成训练集,对关系检测网络进行训练,最后将训练后的关系检测网络从待测图像中提取出物体对的交互预测,即采用同样的数据处理以及前向传播得到图片中的物体检测结果以及物体两两之间的关系分类结果。
所述的多模态特征包括:视觉特征、语言特征和空间特征,其中:视觉特征通过经过 COCO预训练的卷积神经网络进行物体检测,得到物体检测结果(边界框、物体检测类别、物体检测分数)经过池化操作提取的每个物体的视觉特征;对图像数据集中的动作名称及物体名称,经过固定参数的BERT语言模型提取动作及物体的语言特征;空间特征为物体边界框坐标之间的相对位置关系。
所述的多模态特征提取器结合视觉、语言以及空间特征,视觉特征通过固定参数的物体检测网络提取出检测物体区域特征,语言特征为检测物体类别的语言的向量表征,空间特征为检测物体的坐标信息。
所述的规则化处理是指:通过嵌入损失函数使得多模态特征靠近其对应的动作类别特征且远离其他动作类别特征。
所述的背景物体建模是指:对不同的动作类别引入环境中不同的背景物体信息,从而最大化引入有效物体并减少噪声。
所述的神经网络进行训练是指:通过嵌入损失函数和关系分类损失加权求和得到总损失,然后用梯度优化方法反向传播,迭代更新网络参数。
技术效果
本发明在视觉关系检测任务中,通过引入嵌入损失函数规则化特征表征,使得得到的特征能够更好地进行关系分类,同时通过更加细粒度的方式建模背景物体信息,从而最大化引入有效物体并减少引入噪声。
与现有技术相比,本发明以视觉关系为条件规则化多模态特征,从而优化其表征,同时对不同的动作类别引入环境中不同的背景物体信息,最大化引入有效物体减少噪声,检测精度非常理想,且是端到端模型,能够并行计算,同时同时泛化性能好,能够应用到包括视觉关系检测、人与物体交互检测等多个任务中。
附图说明
图1为本发明流程图;
图2为本发明关系检测网络示意图;
图3为本发明效果示意图。
具体实施方式
如图2所示,为实施例涉及的一种基于动作条件已知的关系检测网络,包括:多模态特征提取模块、基础视觉关系检测模块、背景物体模块以及动作分类模块,其中:多模态特征提取模块与基础视觉关系检测模块相连并传输物体检测结果信息,基础视觉关系检测模块与背景物体模块相连并传输规则化后的多模态特征信息,背景物体模块与动作分类模块相连并传输背景物体信息,最后多模态特征提取模块、基础视觉关系检测模块、背景物体模块将得到的特征传输给动作分类模块得到关系分类结果。
如图1所示,为本实施例涉及上述系统的视觉关系检测方法,包括以下步骤:
步骤1,从输入图片和数据集动作、物体名称中提取出视觉特征、语言特征和空间特征作为多模态特征;
所述的视觉特征,使用带有物体框和视觉关系标注的图像数据集,用固定参数的经过 COCO数据集预训练的Faster-RCNN网络检测带有物体框和视觉关系标注的图像数据集,即对输入图片进行物体检测并保留检测分数高于0.05的物体,得到物体框之后,通过感兴趣区域池化操作得到每个检测出的物体的视觉特征。
所述的语言特征,使用开源的BERT预训练语言模型分别提取不同数据集中动作名称及物体名称的语言表征,维度为768。
所述的空间特征,将通过Faster-RCNN网络检测出的物体按<主语-宾语>方式配对,再将主语物体与宾语物体的坐标进行归一化,得到两者之间的相对位置关系特征。
所述的主语物体与宾语物体的坐标进行归一化是指:将物体的横纵坐标分别除以图像长和宽归一化到0-1之间;
步骤2,使用嵌入损失函数规则化多模态特征,具体步骤包括:
2.1)将步骤1得到的视觉特征、语言特征和空间特征分别通过一层可学习的线性变换将维度映射到512维,然后将映射后的视觉特征、语言特征合并后再通过一层可训练的线性变换映射到512维,将空间特征单独通过一层可训练的线性变换到512维;
所述的一层可学习的线性变换是指:一个全连接层。
所述的合并是指:将视觉特征、语言特征在特征维度上进行组合。
2.2)将步骤2.1得到的表征通过两层全连接层得到动作分类结果以及主语-宾语是否交互的二分类结果,同时通过添加嵌入损失函数使得多模态特征靠近其对应的动作类别特征且远离其他动作类别特征。
所述的全连接层的维度分别为512和动作分类个数;
所述的嵌入损失函数,基于对数似然的嵌入损失函数来约束多模态表征,使其在特征空间中靠近其对应的视觉关系的语言特征,并远离其他视觉关系的语言特征,该损失函数
Figure RE-GDA0002944166490000031
Figure RE-GDA0002944166490000032
其中:i为pair数量的下标,r为动作数量下标,N为pair总数量,wr为动作r的语言特征,fi为第i个pair的多模态表征,
Figure RE-GDA0002944166490000033
为指示函数,即当第i个pair的动作类别为r时,
Figure RE-GDA0002944166490000034
否则,
Figure RE-GDA0002944166490000035
步骤3,使用动作条件已知背景物体建模,具体步骤包括:
3.1)对于步骤1得到的每个物体对,该物体对的背景物体为除该物体对之外的其他检测出的物体,(例如一幅图检测出5个物体,那么对于一个物体对(2个物体),剩下的3个物体即为背景物体)通过计算物体的视觉特征与语言特征之间的线性变换后的内积,得到物体之间的隐式关系,计算方式为
Figure RE-GDA0002944166490000036
Figure RE-GDA0002944166490000041
其中::Softmax代表softmax操作,
Figure RE-GDA0002944166490000042
和φv/s为一层可学习的全连接层,维度为 512,p和q代表物体下标,
Figure RE-GDA0002944166490000043
Figure RE-GDA0002944166490000044
分别物体p和物体q的视觉特征和语言特征。最终将得到的Sv(p,q)和Ss(p,q)进行平均,得到物体p和物体q之间的隐式关系;
3.2)通过低秩双线性池化操作和注意力机制操作,将不同视觉关系的语言表征与图卷积中的节点特征结合,得到在不同视觉关系类别条件下的背景物体与主语/宾语物体之间的隐式关系矩阵。
所述的低秩双线性池化操作具体为:ar,i=PT(σ(UTzi⊙VTer))+b,其中:P、U、V均为可学习的线性变换,b为bias项,zi为图中节点i的表征,er为视觉关系r的语言特征,σ为激活函数tanh,⊙为按元素乘操作;
所述的注意力机制操作具体为:a’r,i=Softmax(φa(ar,i)),z’i=a’r,izi,其中:Softmax 代表softmax操作,φa为一层可学习的全连接层,ar,i为物体i对动作r的识别重要性,由上一步得到,之后将得到的a’r,i乘以原节点特征zi,从而得到z’i
3.3)利用步骤3.2得到的不同视觉关系类别条件下的隐式关系矩阵,通过图卷积网络进行不同物体之间的信息传递,使得主语/宾语物体能够和背景物体进行信息交互融合;
所述的信息传递是指:通过隐式关系矩阵和图卷积操作,图中的每个节点都和其相邻节点进行信息的交互,从而使得图中每个节点都包含其邻接节点的特征。具体为Z(l+1)=σ(A· Z(l)·W(l)),其中:l为图卷积操作的层数下标,A为步骤3.1得到的隐式关系矩阵,W为可学习的权重矩阵,通过一层可学习的全连接层实现,σ为激活函数ReLU;
将经过步骤3.3信息传递后的带有背景物体信息的主语/宾语特征通过一层可训练的线性变换到512维,再与步骤2得到的视觉、语言和空间特征进行合并得到多模态特征;
所述的合并是指:将其与视觉特征、语言特征、空间特征在特征维度上进行组合。
步骤4,如图2所示,用开源训练集训练关系检测网络,具体包括:
4.1)将来自开源VRD、VisualGenome、V-COCO数据集的训练图片和对应的物体、视觉关系标注作为训练集,输入关系检测网络,计算综合损失函数,并用梯度反向传播算法对神经网络参数进行迭代优化。
所述的综合损失函数为:分类损失函数、交互二分类损失函数、嵌入损失函数的加权求和,权重均为1。
4.2)用梯度反向传播算法对神经网络参数进行迭代优化,得到训练好的视觉关系检测模型。
本实施例中对VRD数据集学习率设置为3e-4且每4000步减小为原来的0.5倍,对于VisualGenome数据集,学习率设置为3e-4且每35,000步减小为原来的0.7倍;VRD数据集训练迭代10次,Visual Genome数据集训练迭代8次,批大小分别为30和50;V-COCO数据集中训练方法与基础方法(iCAN)保持一致;
步骤5,将待检图片通过步骤1中的经过COCO预训练的卷积神经网络进行物体检测,得到物体检测结果,按照步骤1的方式将检测出的物体两两配对输入步骤4中训练后关系检测网络得到视觉关系检测结果和是否交互的二分类检测结果;最后将视觉关系检测结果P(r|s,o)、是否交互的二分类检测结果P(r|s,o)和物体检测分数相乘,得到组合概率,即最终的物体对的交互预测:P(R|s,o)=P(r|s,o)·P(d|s,o)·P(s)·P(o),其中:P(s)和P(o)为主语/宾语物体的物体检测分数。
如图3所示,为网络输出的视觉关系检测结果,右侧方形框内为物体名称,连接方框的线代表两者之间的视觉关系结果。
与现有技术相比,视觉关系检测在常见的视觉关系检测数据集(VRD,VisualGenome) 上,视觉关系检测准确率提升8.5%和5.7%,同时在人-物体交互数据集(V-COCO)上,交互关系检测准确率提升7.1%。
经过具体实际实验,本实施例中对VRD数据集学习率设置为3e-4且每4000步减小为原来的0.5倍,对于Visual Genome数据集,学习率设置为3e-4且每35,000步减小为原来的 0.7倍;VRD数据集训练迭代10次,Visual Genome数据集训练迭代8次,批大小分别为30和50;V-COCO数据集中训练方法与基础方法(iCAN)保持一致,实验结果如下表所示:
表1
Figure RE-GDA0002944166490000051
Figure RE-GDA0002944166490000061
Figure RE-GDA0002944166490000062
表2
Figure RE-GDA0002944166490000063
Figure RE-GDA0002944166490000071
Figure RE-GDA0002944166490000072
Figure RE-GDA0002944166490000081
表3
Figure RE-GDA0002944166490000082
与基础方法使用同样的物体检测框结果,量化结果显示本发明能够取得更好的视觉关系分类结果,视觉关系检测在常见的视觉关系检测数据集(VRD,Visual Genome)上,视觉关系检测准确率提升8.5%和5.7%,同时在人-物体交互数据集(V-COCO)上,交互关系检测准确率提升 7.1%。
上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整,本发明的保护范围以权利要求书为准且不由上述具体实施所限,在其范围内的各个实现方案均受本发明之约束。

Claims (9)

1.一种基于动作条件已知的视觉关系检测方法,其特征在于,通过多模态特征提取器从现有数据集中提取出多模态特征,在基础视觉关系检测网络中添加嵌入损失函数对多模态特征进行规则化处理,再通过背景物体建模引入有效背景物体并减少噪声,即将检测物体两两组合并引入背景物体作为辅助并生成训练集,对神经网络进行训练,最后将训练后的神经网络从待测图像中提取出物体对的交互关系预测,即采用同样的数据处理以及前向传播得到图片中的物体检测结果以及物体两两之间的关系分类结果;
所述的多模态特征包括:视觉特征、语言特征和空间特征,其中:视觉特征通过经过COCO预训练的卷积神经网络进行物体检测,得到物体检测结果经过池化操作提取的每个物体的视觉特征;对图像数据集中的动作名称及物体名称,经过固定参数的BERT语言模型提取动作及物体的语言特征;空间特征为物体边界框坐标之间的相对位置关系;
所述的规则化处理是指:通过嵌入损失函数使得多模态特征靠近其对应的动作类别特征且远离其他动作类别特征;
所述的背景物体建模是指:对不同的动作类别引入环境中不同的背景物体信息,从而最大化引入有效物体并减少噪声;
所述的嵌入损失函数,基于对数似然的嵌入损失函数来约束多模态表征,使其在特征空间中靠近其对应的视觉关系的语言特征,并远离其他视觉关系的语言特征,该损失函数
Figure FDA0003493326140000011
Figure FDA0003493326140000012
其中:i为pair数量的下标,r为动作数量下标,N为pair总数量,wr为动作r的语言特征,fi为第i个pair的多模态表征,
Figure FDA0003493326140000013
为指示函数,即当第i个pair的动作类别为r时,
Figure FDA0003493326140000014
否则,
Figure FDA0003493326140000015
2.根据权利要求1所述的基于动作条件已知的视觉关系检测方法,其特征是,所述的多模态特征提取器结合视觉、语言以及空间特征,视觉特征通过固定参数的物体检测网络提取出检测物体区域特征,语言特征为检测物体类别的语言的向量表征,空间特征为检测物体的坐标信息。
3.根据权利要求1所述的基于动作条件已知的视觉关系检测方法,其特征是,所述的规则化处理,具体包括:
2.1)将多模态特征中的视觉特征、语言特征和空间特征分别通过一层可学习的线性变换将维度映射到512维,然后将映射后的视觉特征、语言特征合并后再通过一层可训练的线性变换映射到512维,将空间特征单独通过一层可训练的线性变换到512维;
2.2)将表征通过两层全连接层得到动作分类结果以及主语-宾语是否交互的二分类结果,同时通过添加嵌入损失函数使得多模态特征靠近其对应的动作类别特征且远离其他动作类别特征。
4.根据权利要求1所述的基于动作条件已知的视觉关系检测方法,其特征是,所述的背景物体建模,具体包括:
3.1)对于步骤1得到的每个物体对,该物体对的背景物体为除该物体对之外的其他检测出的物体,通过计算物体的视觉特征与语言特征之间的线性变换后的内积,得到物体之间的隐式关系,计算方式为
Figure FDA0003493326140000021
Figure FDA0003493326140000022
其中:Softmax代表softmax操作,
Figure FDA0003493326140000023
Figure FDA0003493326140000024
为一层可学习的全连接层,维度为512,p和q代表物体下标,
Figure FDA0003493326140000025
Figure FDA0003493326140000026
分别物体p和物体q的视觉特征和语言特征,最终将得到的Sv(p,q)和Ss(p,q)进行平均,得到物体p和物体q之间的隐式关系;
3.2)通过低秩双线性池化操作和注意力机制操作,将不同视觉关系的语言表征与图卷积中的节点特征结合,得到在不同视觉关系类别条件下的背景物体与主语/宾语物体之间的隐式关系矩阵;
3.3)利用不同视觉关系类别条件下的隐式关系矩阵,通过图卷积网络进行不同物体之间的信息传递,使得主语/宾语物体能够和背景物体进行信息交互融合,将经过信息传递后的带有背景物体信息的主语/宾语特征通过一层可训练的线性变换到512维,再与视觉、语言和空间特征进行合并得到多模态特征。
5.根据权利要求4所述的基于动作条件已知的视觉关系检测方法,其特征是,所述的低秩双线性池化操作具体为:ar,i=PT(σ(UTzi⊙VTer))+b,其中:P、U、V均为可学习的线性变换,b为bias项,zi为图中节点i的表征,er为视觉关系r的语言特征,σ为激活函数tanh,⊙为按元素乘操作。
6.根据权利要求4所述的基于动作条件已知的视觉关系检测方法,其特征是,所述的注意力机制操作具体为:a’r,i=Softmax(φa(ar,i)),z’i=a’r,izi,其中:Softmax代表softmax操作,φa为一层可学习的全连接层,ar,i为物体i对动作r的识别重要性,由上一步得到,之后将得到的a’r,i乘以原节点特征zi,从而得到z’i
7.根据权利要求4所述的基于动作条件已知的视觉关系检测方法,其特征是,所述的信息传递是指:通过隐式关系矩阵和图卷积操作,图中的每个节点都和其相邻节点进行信息的交互,从而使得图中每个节点都包含其邻接节点的特征,即Z(l+1)=σ(A·Z(l)·W(l)),其中:l为图卷积操作的层数下标,A为隐式关系矩阵,W为可学习的权重矩阵,通过一层可学习的全连接层实现,σ为激活函数ReLU。
8.根据权利要求1所述的基于动作条件已知的视觉关系检测方法,其特征是,所述的神经网络进行训练是指:通过嵌入损失函数和关系分类损失加权求和得到总损失,然后用梯度优化方法反向传播,迭代更新网络参数。
9.一种实现上述任一权利要求所述方法的基于动作条件已知的关系检测网络,其特征在于,包括:多模态特征提取模块、基础视觉关系检测模块、背景物体模块以及动作分类模块,其中:多模态特征提取模块与基础视觉关系检测模块相连并传输物体检测结果信息,基础视觉关系检测模块与背景物体模块相连并传输规则化后的多模态特征信息,背景物体模块与动作分类模块相连并传输背景物体信息,最后多模态特征提取模块、基础视觉关系检测模块、背景物体模块将得到的特征传输给动作分类模块得到关系分类结果。
CN202011508606.8A 2020-12-18 2020-12-18 基于动作条件已知的视觉关系检测方法及系统 Active CN112861848B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011508606.8A CN112861848B (zh) 2020-12-18 2020-12-18 基于动作条件已知的视觉关系检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011508606.8A CN112861848B (zh) 2020-12-18 2020-12-18 基于动作条件已知的视觉关系检测方法及系统

Publications (2)

Publication Number Publication Date
CN112861848A CN112861848A (zh) 2021-05-28
CN112861848B true CN112861848B (zh) 2022-04-08

Family

ID=75997608

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011508606.8A Active CN112861848B (zh) 2020-12-18 2020-12-18 基于动作条件已知的视觉关系检测方法及系统

Country Status (1)

Country Link
CN (1) CN112861848B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113469056A (zh) * 2021-07-02 2021-10-01 上海商汤智能科技有限公司 行为识别方法、装置、电子设备及计算机可读存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103473530A (zh) * 2013-08-30 2013-12-25 天津理工大学 基于多视图和多模态特征的自适应动作识别方法
CN107506712A (zh) * 2017-08-15 2017-12-22 成都考拉悠然科技有限公司 一种基于3d深度卷积网络的人类行为识别的方法
CN110084128A (zh) * 2019-03-29 2019-08-02 安徽艾睿思智能科技有限公司 基于语义空间约束和注意力机制的场景图生成方法
CN110765921A (zh) * 2019-10-18 2020-02-07 北京工业大学 一种基于弱监督学习和视频时空特征的视频物体定位方法
CN111444889A (zh) * 2020-04-30 2020-07-24 南京大学 基于多级条件影响的卷积神经网络的细粒度动作检测方法
CN111523421A (zh) * 2020-04-14 2020-08-11 上海交通大学 基于深度学习融合各种交互信息的多人行为检测方法及系统
CN112017255A (zh) * 2020-08-21 2020-12-01 上海志唐健康科技有限公司 一种根据食谱生成食物图像的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111652216B (zh) * 2020-06-03 2023-04-07 北京工商大学 基于度量学习的多尺度目标检测模型方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103473530A (zh) * 2013-08-30 2013-12-25 天津理工大学 基于多视图和多模态特征的自适应动作识别方法
CN107506712A (zh) * 2017-08-15 2017-12-22 成都考拉悠然科技有限公司 一种基于3d深度卷积网络的人类行为识别的方法
CN110084128A (zh) * 2019-03-29 2019-08-02 安徽艾睿思智能科技有限公司 基于语义空间约束和注意力机制的场景图生成方法
CN110765921A (zh) * 2019-10-18 2020-02-07 北京工业大学 一种基于弱监督学习和视频时空特征的视频物体定位方法
CN111523421A (zh) * 2020-04-14 2020-08-11 上海交通大学 基于深度学习融合各种交互信息的多人行为检测方法及系统
CN111444889A (zh) * 2020-04-30 2020-07-24 南京大学 基于多级条件影响的卷积神经网络的细粒度动作检测方法
CN112017255A (zh) * 2020-08-21 2020-12-01 上海志唐健康科技有限公司 一种根据食谱生成食物图像的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
No-Frills Human-Object Interaction Detection: Factorization, Layout Encodings, and Training Techniques;Tanmay Gupta等;《2019 IEEE/CVF International Conference on Computer Vision (ICCV)》;20191231;全文 *
基于深度神经网络的视频动作识别研究;许泽珊;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20200115;全文 *

Also Published As

Publication number Publication date
CN112861848A (zh) 2021-05-28

Similar Documents

Publication Publication Date Title
Li et al. A survey of multi-view representation learning
Ahmed et al. Deep learning modelling techniques: current progress, applications, advantages, and challenges
US10572777B2 (en) Deep deformation network for object landmark localization
Flores et al. Saliency for fine-grained object recognition in domains with scarce training data
Chen et al. Automatic social signal analysis: Facial expression recognition using difference convolution neural network
Deng et al. MVF-Net: A multi-view fusion network for event-based object classification
CN108154156B (zh) 基于神经主题模型的图像集成分类方法及装置
CN113408343B (zh) 基于双尺度时空分块互注意力的课堂动作识别方法
Sharma et al. Deep eigen space based ASL recognition system
Nida et al. Instructor activity recognition through deep spatiotemporal features and feedforward extreme learning machines
CN112686345A (zh) 一种基于注意力机制的脱机英文手写识别方法
Farazi et al. Reciprocal attention fusion for visual question answering
Zhu et al. Few-shot common-object reasoning using common-centric localization network
Lioutas et al. Explicit ensemble attention learning for improving visual question answering
CN110111365B (zh) 基于深度学习的训练方法和装置以及目标跟踪方法和装置
Huttunen Deep neural networks: A signal processing perspective
Zhao et al. Cbph-net: A small object detector for behavior recognition in classroom scenarios
CN113642602B (zh) 一种基于全局与局部标签关系的多标签图像分类方法
CN112861848B (zh) 基于动作条件已知的视觉关系检测方法及系统
Zhu et al. Unpaired image captioning by image-level weakly-supervised visual concept recognition
Abdelaziz et al. Few-shot learning with saliency maps as additional visual information
CN113159071B (zh) 一种跨模态图像-文本关联异常检测方法
CN116187349A (zh) 一种基于场景图关系信息增强的视觉问答方法
Kanungo Analysis of Image Classification Deep Learning Algorithm
Ebrahimpour et al. Low resolution face recognition using combination of diverse classifiers

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant