CN115147931A - 基于detr的人物成对解码交互的人与物交互检测方法 - Google Patents

基于detr的人物成对解码交互的人与物交互检测方法 Download PDF

Info

Publication number
CN115147931A
CN115147931A CN202210864552.1A CN202210864552A CN115147931A CN 115147931 A CN115147931 A CN 115147931A CN 202210864552 A CN202210864552 A CN 202210864552A CN 115147931 A CN115147931 A CN 115147931A
Authority
CN
China
Prior art keywords
query vector
semantic
query
network
interaction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210864552.1A
Other languages
English (en)
Inventor
刘盛
张峰
陈俊皓
郭炳男
陈瑞祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202210864552.1A priority Critical patent/CN115147931A/zh
Publication of CN115147931A publication Critical patent/CN115147931A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/766Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于DETR的人物成对解码交互的人与物交互检测方法,将图片通过训练好的DETR模型,获得人物目标框、目标类别和查询向量,从而减少模型训练时间。然后将查询向量和目标类别输入到查询向量分类器,得到人的查询向量、物的查询向量和物的类别;将物的类别输入到语义网络,得到物的语义查询向量,融合物的查询向量和物的语义查询向量,得到融合的物查询向量,将融合的物查询向量和人的查询向量进行合并,得到对象查询向量。最后将对象查询向量输入到成对融合检测网络,实现人物交互检测。本发明提高了人与物交互检测的精度,扩大了网络的感受野,提高了网络的性能。

Description

基于DETR的人物成对解码交互的人与物交互检测方法
技术领域
本申请属于人-物交互检测技术领域,尤其涉及一种基于DETR的人物成对解码交互的人与物交互检测方法。
背景技术
人-物交互检测是目标检测的下游任务,是目前热门的计算机视觉任务。相比于目标检测检测目标框和目标类别,人-物交互检测定位图像中的交互人-物对,并对动作进行分类。
在Transformer模型未被应用在视觉任务前,人-物交互检测算法往往使用卷积网络提取视觉特征,如HO-RCNN,这是典型的基于卷积神经网络的人-物交互检测算法,算法利用R-CNN定位相关区域,骨干网络裁剪特征后再通过多分支融合特征;STIGPN则利用图卷积迭代特征信息。但是这些方法仍存在着局限性,即传统卷积网络无法引入全局信息,同样也会造成特征污染。
近期,基于端到端的检测变换器网络DETR(Detection Transformer)算法开始流行,其使用深度自注意力来代替卷积,能够引入全局信息来完成集合预测。DETR算法是用于处理目标检测问题,因此将DETR引入目标检测下游任务人-物关系检测,乃至视觉的各领域是一个十分自然的想法。QPIC算法就是将DETR引入人-物关系交互检测领域,将其作为一个基础的检测器,并提取相应上下文信息,预测最终的三元组集合。
但是基于DETR直接完成三元组集合预测的相关人-物交互检测算法仍存在着一些问题,其一是训练困难,这是Transformer模型带来的劣势;其二是将单一的查询(Query)作为一个整体预测特征,而忽视了多个查询(Queries)之间的更符合直觉的特征联系,因此需要设计一种特殊的结构来融合相应的特征联系。同时,最后所预测的<human,object,interaction>三元组缺少相应的可靠性判断,需要一个语义模型来进行约束。
发明内容
本申请提出了一种基于DETR的人物成对解码交互的人与物交互检测方法,来减少训练资源,结合语义模态提高人-物交互检测精度。
为了实现上述目的,本申请技术方案如下:
一种基于DETR的人物成对解码交互的人与物交互检测方法,包括:
将原始图像经过骨干网络得到的特征图注入训练好DETR网络,所述DETR网络包括编码器、解码器和MLP层,获得解码器输出的查询向量,以及DETR网络最终输出的目标框及目标类别;
将查询向量和目标类别输入到查询向量分类器,得到人的查询向量、物的查询向量和物的类别;
将物的类别输入到语义网络,得到物的语义查询向量;
融合物的查询向量和物的语义查询向量,得到融合的物查询向量,将融合的物查询向量和人的查询向量进行合并,得到对象查询向量;
将对象查询向量输入到成对融合检测网络,实现人物交互检测。
进一步的,所述语义网络包括空间注意力模块和语义聚合模块,所述语义空间注意力模块输入特征为数据集的动词嵌入向量,输出语义空间注意力特征;
所述语义聚合模块输入特征为所述语义空间注意力模块输出的语义空间注意力特征和查询向量分类器输出的物的类别,语义空间注意力特征通过线性层、ReLU激活函数、线性层、sigmoid激活函数得到注意力特征,与物的类别通过另一个线性层得到的特征相乘,将结果依次通过线性层、归一化层、ReLU激活函数和线性层后加上物的类别,然后输入到Transformer层得到物的语义查询向量。
进一步的,所述融合物的查询向量和物的语义查询向量,得到融合的物查询向量,包括:
将物的查询向量和物的语义查询向量相加后通过ReLU激活函数,减去物的查询向量和物的语义查询向量相减后的平方。
进一步的,所述成对融合检测网络依次包括改进的Transformer编码器、成对融合模块、Transformer解码器和MLP层;
所述改进的Transformer编码器,输入特征分别是对象查询向量和成对框位置编码,在改进的Transformer编码器中,将对象查询向量配对后与成对框位置编码结合,通过线性层和sigmoid激活函数,得到第一分支的输出;将对象查询向量复制后与成对框位置编码元素相乘,得到第二分支的输出;将两个分支的输出元素相乘后通过线性层,并与输入的对象查询向量相加,再经过归一化层,前向传播层和归一化层,输出成对查询向量;
在成对融合模块中,成对查询向量分别与成对框位置编码和经过自适应平均池化的全局视觉特征进行结合操作后,经过线性层后相乘,之后依次经过ReLU激活函数、线性层和ReLU激活函数得到最后的融合了多种特征的成对查询向量;
将融合了多种特征的成对查询向量经过Transformer解码器解码后,输出MLP中,得到人-物交互动作的概率分数,从而完成对人-物交互动作的检测。
进一步的,所述基于DETR的人物成对解码交互的人与物交互检测方法,还包括:
计算网络整体损失函数,进行反向传播,更新网络参数;
其中,网络整体损失函数为:
Ltotal=La+LSKL
其中,Ltotal表示整体损失函数,La和LSKL分别表示动词交叉熵损失函数和语义相对熵损失函数;
所述的动词交叉熵损失函数La为:
Figure BDA0003758061770000031
其中,
Figure BDA0003758061770000032
Nq表示为动词的种类数量,
Figure BDA0003758061770000033
表示为统计与物体对应的预测动词类别数量,Φ表示总共的真实值的集合,
Figure BDA0003758061770000034
表示在预测集合中,lf为焦点损失,lf(pt)=-αt(1-pt)γlog(pt),αt为抑制正负样本参数失衡参数,γ为控制简易/困难样本数量失衡参数,pt为样本,其中
Figure BDA0003758061770000035
表示真实动词类别;
所述的语义相对熵损失函数LSKL为:
Figure BDA0003758061770000036
其中
Figure BDA0003758061770000041
是数据集中动词对称条件分布,A是语义空间注意力模块处理过的动词的邻接矩阵,
Figure BDA0003758061770000042
是KL散度损失函数;
Figure BDA0003758061770000043
可以通过以下计算获得:
Figure BDA0003758061770000044
其中Np是数据集中动词数量,cij为:
Figure BDA0003758061770000045
A可以通过以下计算获得:
Figure BDA0003758061770000046
其中τ是缩放归一化语义内积softmax分布的温度参数,
Figure BDA0003758061770000047
是语义空间注意力模块处理过的动词嵌入向量,T是转置符号。
本申请提出的一种基于DETR的人物成对解码交互的人与物交互检测方法,使用训练完成的DETR模型,减轻训练耗时长的问题。为了增强特征在语义模态上的表征,添加语义模态提高人-物交互检测的精度。添加Transformer模块提高了网络提取全局信息的能力,扩大了网络的感受野,提高了网络的性能。最后提出了语义相对熵损失函数,加强了网络对语义进行监督。
附图说明
图1为本申请基于DETR的人物成对解码交互的人与物交互检测方法流程图;
图2为本申请整体网络结构示意图;
图3为本申请DETR网络结构示意图;
图4为本申请实施例多模态融合网络结构示意图;
图5为本申请实施例语义网络结构示意图;
图6为成对融合检测网络结构示意图;
图7为本申请实施例改进的Transformer编码器结构示意图;
图8为本申请实施例成对融合模块结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅用以解释本申请,并不用于限定本申请。
如图1所示,一种基于DETR的人物成对解码交互的人与物交互检测方法,包括:
S1、将原始图像经过骨干网络得到的特征图注入训练好DETR网络,所述DETR网络包括编码器、解码器和MLP层,获得解码器输出的查询向量,以及DETR网络最终输出的目标框及目标类别。
如图2所示,本申请整个网络包括骨干网络、DETR网络、多模态融合网络、语义网络和成对融合检测网络,以下详细阐述原始图像经过上述网络实现人物交互检测的过程。
首先通过骨干网提取原始图像的全局视觉特征,本实施例骨干网可以采用ResNet50。
在提取到原始图像的全局视觉特征后,将其输入到训练好DETR网络。如图3所示,DETR网络包括编码器、解码器和MLP层,输入特征从输入侧到输出侧依次经过N个Transformer编码层、N个Transformer解码层和一个MLP层,在本模型中N为6。
需要注意的是,本申请DETR网络包括两部分,一是解码器最后的输出特征,即查询向量(Queries);二是DETR网络最后MLP层的输出,即目标框和目标类别。
S2、将查询向量和目标类别输入到查询向量分类器,得到人的查询向量、物的查询向量和物的类别。
如图4所示,多模态融合网络包括查询向量(Queries)分类器和模态融合模块。
DETR网络解码器输出的查询向量,以及DETR网络MLP层输出的目标类别,查询向量和目标类别一一对应输入到查询向量分类器,得到人的查询向量(Human Queries)、物的查询向量(Object Queries)和物的类别(Object Classes)。物的类别信息由DETR网络得到的对象类别经过筛选后将类别为人的对象去除后得到。
具体的,查询向量分类器首先根据数据集对象标签(共80类)中的对应索引将MLP层输出的目标类别中对应人的索引(人的索引为1)、对应物的索引和对应背景的索引进行划分,分为人、物和背景集群,人和物的集群中的元素数量要大于等于K1小于等于K2,(K1,K2为超参,人为设定)若人或物集群中元素数量为K,小于K1,则将背景集群中将对应的目标类别的置信度分数进行从大到小排序,保留前K1-K个目标类别,使得集群元素数量满足条件;若人或物集群中元素数量为K,大于K2,则将集群中对应的目标类别的置信度分数进行从大到小排序,保留前K2个目标类别,使得集群元素数量满足条件;得到人和物的集群后根据集群中的目标类别得到对应的人和物查询向量;最后输出物的集群中的物的类别,对应的物的查询向量和人的集群中的人的类别对应的人的查询向量。
步骤S3、将物的类别输入到语义网络,得到物的语义查询向量。
本实施例语义网络如图5所示,包括语义空间注意力模块和语义聚合模块。
其中,语义空间注意力模块用于学习数据集的动词嵌入向量(embeddings),学习到数据集中物与动作关系分布。
而语义聚合模块,根据输入的物的类别,结合数据集中物与动作关系分布,得到物的语义查询向量。
具体的,语义空间注意力模块所采用的数据集为V-COCO和HICO-DET,这两个数据集是用于检测人物交互动作的数据集,数据集包括图像和对应的标签,标签包括交互对象的人和物的目标框、对象的类别标签(对象包括人和物)和交互动作类别标签。语义空间注意力模块统计数据集中的对应的物和动作类别得到关系分布用于后续处理。
语义空间注意力模块输入特征为数据集的动词嵌入向量,经过包含注意力层和ReLU激活函数的循环网络将特征累加。注意力层将输入特征分别经过三个线性层的到query,key和value特征,再用query特征和key特征的转置矩阵相乘后除以隐藏层维度的开方得到注意力图特征,然后将注意力图特征经过softmax后与value特征相乘,最后将模块产生的特征和输入特征相加作为模块的输出特征,称为语义空间注意力特征。空间注意力机制是本领域比较成熟的技术,这里不再赘述。
语义聚合模块输入特征为上述语义空间注意力模块输出的语义空间注意力特征和查询向量分类器输出的物的类别,依次经过交叉注意力层和Transformer层。在交叉注意力层中,语义空间注意力特征通过线性层、ReLU激活函数、线性层、sigmoid激活函数得到注意力特征,与物的类别通过另一个线性层得到的特征相乘,将结果依次通过线性层、归一化层(layerNorm)、ReLU激活函数和线性层后加上物的类别,然后输入到Transformer层得到物的语义查询向量。
Transformer层将输入特征分别经过三个线性层得到query,key和value特征,再用query特征和key特征的转置矩阵相乘后得到注意力图特征,之后将注意力图特征经过softmax后与value特征相乘,最后通过线性层、layerNorm层、ReLU激活函数和线性层后加上输入特征作为语义聚合模块的输出特征。Transformer是本领域比较成熟的技术,这里不再赘述。
本实施例语义网络根据多模态融合网络中的查询向量分类器筛选物的类别信息作为输入来得到对应的语义查询。
步骤S4、融合物的查询向量和物的语义查询向量,得到融合的物查询向量,将融合的物查询向量和人的查询向量进行合并,得到对象查询向量。
多模态融合网络将语义网络返回的物的语义查询向量,与查询向量分类器输出的物的查询向量进行融合,所述融合在模态融合模块中进行,得到融合的物查询向量。模态融合模块中,输入两个特征相加后通过ReLU激活函数,然后减去两个特征相减后的平方。
然后将融合的物查询向量和人的查询向量进行合并,得到对象查询向量,即将M个人的查询向量和N个模态融合的物查询向量进行连接(Concatenate)处理,得到M+N个查询向量。
步骤S5、将对象查询向量输入到成对融合检测网络,实现人物交互检测。
如图6所示,所述成对融合检测网络包括多个阶段,依次包括改进的Transformer编码器、成对融合模块、Transformer解码器和MLP层。
其中,改进的Transformer编码器,输入特征分别是对象查询向量和成对框位置编码,其中成对框位置编码是由对应的一对人和物的目标框的坐标长宽和交并比(IoU)组成的向量作为输入,通过线性层和ReLU激活函数得到,关于成对框位置编码是本领域比较成熟的技术,这里不再赘述。
如图7所示,在改进的Transformer编码器中,将对象查询向量配对后与成对框位置编码结合,通过线性层和sigmoid激活函数,得到第一分支的输出;将对象查询向量复制后与成对框位置编码元素相乘,得到第二分支的输出;将两个分支的输出元素相乘后通过线性层,并与输入的对象查询向量相加,再经过归一化层(layerNorm层),前向传播层(FFN)和归一化层,输出成对查询向量。
其中配对操作将人和物的查询向量进行了两两配对,使得查询向量维度从256变为512,而复制操作则将人和物的查询向量分别进行复制,使得查询向量维度也从256变为512,由此二者在保留单一查询向量特征的同时,编码了成对特征信息。
如图8所示,在成对融合模块中,成对查询向量分别与成对框位置编码和经过自适应平均池化的全局视觉特征进行结合(concatenate)操作后,经过线性层后相乘,之后依次经过ReLU激活函数、线性层和ReLU激活函数得到最后的融合了多种特征的成对查询向量。
最后,将融合了多种特征的成对查询向量经过Transformer解码器解码后,输出MLP中,得到人-物交互动作的概率分数,从而完成对人-物交互动作的检测。
在一个具体的实施例中,本申请在训练网络,还计算网络整体损失函数,进行反向传播,更新网络参数。其中,网络整体损失函数由动词交叉熵损失函数La和语义相对熵损失函数LSKL线性融合,其中:
所述的动词交叉熵损失函数La为:
Figure BDA0003758061770000081
其中,
Figure BDA0003758061770000082
Nq表示为动词的种类数量,
Figure BDA0003758061770000083
表示为统计与物体对应的预测动词类别数量,Φ表示总共的ground-truth(真实值)的集合,
Figure BDA0003758061770000084
表示在预测集合中。lf为焦点损失(Focal loss),焦点损失具体表现为lf(pt)=-αt(1-pt)γlog(pt),αt为抑制正负样本参数失衡参数,γ为控制简易/困难样本数量失衡参数,pt为样本。因此在
Figure BDA0003758061770000091
动词损失中,使用lf来计算真实动词类别与预测动词类别的损失,其中
Figure BDA0003758061770000092
表示真实动词类别。
所述的语义相对熵损失函数LSKL为:
Figure BDA0003758061770000093
其中
Figure BDA0003758061770000094
是数据集中动词对称条件分布,A是语义空间注意力模块处理过的动词embeddings的邻接矩阵,
Figure BDA0003758061770000095
是KL散度损失函数。
Figure BDA0003758061770000096
可以通过以下计算获得
Figure BDA0003758061770000097
其中Np是数据集中动词数量,cij
Figure BDA0003758061770000098
A可以通过以下计算获得:
Figure BDA0003758061770000099
其中τ是缩放归一化语义内积softmax分布的温度参数(temperature),
Figure BDA00037580617700000910
是语义空间注意力模块处理过的某个动词embedding,T是转置符号。
所述网络整体损失函数为:
Ltotal=La+LSKL
其中,Ltotal表示整体损失函数,La和LSKL分别表示动词交叉熵损失函数和语义相对熵损失函数。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (5)

1.一种基于DETR的人物成对解码交互的人与物交互检测方法,其特征在于,所述基于DETR的人物成对解码交互的人与物交互检测方法,包括:
将原始图像经过骨干网络得到的特征图注入训练好DETR网络,所述DETR网络包括编码器、解码器和MLP层,获得解码器输出的查询向量,以及DETR网络最终输出的目标框及目标类别;
将查询向量和目标类别输入到查询向量分类器,得到人的查询向量、物的查询向量和物的类别;
将物的类别输入到语义网络,得到物的语义查询向量;
融合物的查询向量和物的语义查询向量,得到融合的物查询向量,将融合的物查询向量和人的查询向量进行合并,得到对象查询向量;
将对象查询向量输入到成对融合检测网络,实现人物交互检测。
2.根据权利要求1所述的基于DETR的人物成对解码交互的人与物交互检测方法,其特征在于,所述语义网络包括空间注意力模块和语义聚合模块,所述语义空间注意力模块输入特征为数据集的动词嵌入向量,输出语义空间注意力特征;
所述语义聚合模块输入特征为所述语义空间注意力模块输出的语义空间注意力特征和查询向量分类器输出的物的类别,语义空间注意力特征通过线性层、ReLU激活函数、线性层、sigmoid激活函数得到注意力特征,与物的类别通过另一个线性层得到的特征相乘,将结果依次通过线性层、归一化层、ReLU激活函数和线性层后加上物的类别,然后输入到Transformer层得到物的语义查询向量。
3.根据权利要求1所述的基于DETR的人物成对解码交互的人与物交互检测方法,其特征在于,所述融合物的查询向量和物的语义查询向量,得到融合的物查询向量,包括:
将物的查询向量和物的语义查询向量相加后通过ReLU激活函数,减去物的查询向量和物的语义查询向量相减后的平方。
4.根据权利要求1所述的基于DETR的人物成对解码交互的人与物交互检测方法,其特征在于,所述成对融合检测网络依次包括改进的Transformer编码器、成对融合模块、Transformer解码器和MLP层;
所述改进的Transformer编码器,输入特征分别是对象查询向量和成对框位置编码,在改进的Transformer编码器中,将对象查询向量配对后与成对框位置编码结合,通过线性层和sigmoid激活函数,得到第一分支的输出;将对象查询向量复制后与成对框位置编码元素相乘,得到第二分支的输出;将两个分支的输出元素相乘后通过线性层,并与输入的对象查询向量相加,再经过归一化层,前向传播层和归一化层,输出成对查询向量;
在成对融合模块中,成对查询向量分别与成对框位置编码和经过自适应平均池化的全局视觉特征进行结合操作后,经过线性层后相乘,之后依次经过ReLU激活函数、线性层和ReLU激活函数得到最后的融合了多种特征的成对查询向量;
将融合了多种特征的成对查询向量经过Transformer解码器解码后,输出MLP中,得到人-物交互动作的概率分数,从而完成对人-物交互动作的检测。
5.根据权利要求1所述的基于DETR的人物成对解码交互的人与物交互检测方法,其特征在于,所述基于DETR的人物成对解码交互的人与物交互检测方法,还包括:
计算网络整体损失函数,进行反向传播,更新网络参数;
其中,网络整体损失函数为:
Ltotal=La+LSKL
其中,Ltotal表示整体损失函数,La和LSKL分别表示动词交叉熵损失函数和语义相对熵损失函数;
所述的动词交叉熵损失函数La为:
Figure FDA0003758061760000021
其中,
Figure FDA0003758061760000022
Nq表示为动词的种类数量,
Figure FDA0003758061760000023
表示为统计与物体对应的预测动词类别数量,Φ表示总共的真实值的集合,
Figure FDA0003758061760000024
表示在预测集合中,lf为焦点损失,lf(pt)=-αt(1-pt)γlog(pt),αt为抑制正负样本参数失衡参数,γ为控制简易/困难样本数量失衡参数,pt为样本,其中
Figure FDA0003758061760000031
表示真实动词类别;
所述的语义相对熵损失函数LSKL为:
Figure FDA0003758061760000032
其中
Figure FDA0003758061760000033
是数据集中动词对称条件分布,A是语义空间注意力模块处理过的动词的邻接矩阵,
Figure FDA0003758061760000034
是KL散度损失函数;
Figure FDA0003758061760000035
可以通过以下计算获得:
Figure FDA0003758061760000036
其中Np是数据集中动词数量,cij为:
Figure FDA0003758061760000037
A可以通过以下计算获得:
Figure FDA0003758061760000038
其中τ是缩放归一化语义内积softmax分布的温度参数,
Figure FDA0003758061760000039
是语义空间注意力模块处理过的动词嵌入向量,T是转置符号。
CN202210864552.1A 2022-07-21 2022-07-21 基于detr的人物成对解码交互的人与物交互检测方法 Pending CN115147931A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210864552.1A CN115147931A (zh) 2022-07-21 2022-07-21 基于detr的人物成对解码交互的人与物交互检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210864552.1A CN115147931A (zh) 2022-07-21 2022-07-21 基于detr的人物成对解码交互的人与物交互检测方法

Publications (1)

Publication Number Publication Date
CN115147931A true CN115147931A (zh) 2022-10-04

Family

ID=83414782

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210864552.1A Pending CN115147931A (zh) 2022-07-21 2022-07-21 基于detr的人物成对解码交互的人与物交互检测方法

Country Status (1)

Country Link
CN (1) CN115147931A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116563605A (zh) * 2023-04-10 2023-08-08 华南理工大学 一种基于TED-Net的非接触人-物交互检测方法
CN116662587A (zh) * 2023-07-31 2023-08-29 华侨大学 基于查询生成器的人物交互检测方法、装置及设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110097094A (zh) * 2019-04-15 2019-08-06 天津大学 一种面向人物交互的多重语义融合少样本分类方法
WO2022069735A1 (en) * 2020-10-02 2022-04-07 Deepmind Technologies Limited Neural networks implementing attention over object embeddings for object-centric visual reasoning

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110097094A (zh) * 2019-04-15 2019-08-06 天津大学 一种面向人物交互的多重语义融合少样本分类方法
WO2022069735A1 (en) * 2020-10-02 2022-04-07 Deepmind Technologies Limited Neural networks implementing attention over object embeddings for object-centric visual reasoning

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SHENG LIU: "Prompt guidance query with cascaded constraint decoders for human–object interaction detection", IET COMPUTER VISION, vol. 18, no. 6, 29 March 2024 (2024-03-29), pages 1 - 16, XP006123261, DOI: 10.1049/cvi2.12276 *
XUBIN ZHONG: "Towards Hard-Positive Query Mining for DETR-based Human-Object Interaction Detection", COMPUTER VISION AND PATTERN RECOGNITION, 12 July 2022 (2022-07-12), pages 1 - 20 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116563605A (zh) * 2023-04-10 2023-08-08 华南理工大学 一种基于TED-Net的非接触人-物交互检测方法
CN116563605B (zh) * 2023-04-10 2024-09-06 华南理工大学 一种基于TED-Net的非接触人-物交互检测方法
CN116662587A (zh) * 2023-07-31 2023-08-29 华侨大学 基于查询生成器的人物交互检测方法、装置及设备
CN116662587B (zh) * 2023-07-31 2023-10-03 华侨大学 基于查询生成器的人物交互检测方法、装置及设备

Similar Documents

Publication Publication Date Title
US11657230B2 (en) Referring image segmentation
CN114169330B (zh) 融合时序卷积与Transformer编码器的中文命名实体识别方法
CN109829299B (zh) 一种基于深度自编码器的未知攻击识别方法
CN113596007B (zh) 一种基于深度学习的漏洞攻击检测方法和设备
CN112084331A (zh) 文本处理、模型训练方法、装置、计算机设备和存储介质
CN111126069A (zh) 一种基于视觉对象引导的社交媒体短文本命名实体识别方法
CN111652357B (zh) 一种利用基于图的特定目标网络解决视频问答问题的方法及其系统
CN112101410A (zh) 一种基于多模态特征融合的图像像素语义分割方法及系统
CN108763191B (zh) 一种文本摘要生成方法及系统
CN110516536A (zh) 一种基于时序类别激活图互补的弱监督视频行为检测方法
CN111159485B (zh) 尾实体链接方法、装置、服务器及存储介质
CN114627282B (zh) 目标检测模型的建立方法、应用方法、设备、装置及介质
CN113691542B (zh) 基于HTTP请求文本的Web攻击检测方法及相关设备
CN113870286B (zh) 一种基于多级特征和掩码融合的前景分割方法
CN113628059A (zh) 一种基于多层图注意力网络的关联用户识别方法及装置
CN115147931A (zh) 基于detr的人物成对解码交互的人与物交互检测方法
CN114926835A (zh) 文本生成、模型训练方法和装置
CN111598183A (zh) 一种多特征融合图像描述方法
CN113627550A (zh) 一种基于多模态融合的图文情感分析方法
CN109933682B (zh) 一种基于语义与内容信息结合的图像哈希检索方法及系统
Dastbaravardeh et al. Channel Attention‐Based Approach with Autoencoder Network for Human Action Recognition in Low‐Resolution Frames
CN113806747B (zh) 一种木马图片检测方法、系统及计算机可读存储介质
CN114565913A (zh) 文本识别方法及其装置、设备、介质、产品
CN115205640A (zh) 一种面向谣言检测的多层次图文融合方法及系统
CN113704473A (zh) 基于长文本特征提取优化的媒体假新闻检测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination