CN115147931A - 基于detr的人物成对解码交互的人与物交互检测方法 - Google Patents
基于detr的人物成对解码交互的人与物交互检测方法 Download PDFInfo
- Publication number
- CN115147931A CN115147931A CN202210864552.1A CN202210864552A CN115147931A CN 115147931 A CN115147931 A CN 115147931A CN 202210864552 A CN202210864552 A CN 202210864552A CN 115147931 A CN115147931 A CN 115147931A
- Authority
- CN
- China
- Prior art keywords
- query vector
- semantic
- query
- network
- interaction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 53
- 238000001514 detection method Methods 0.000 title claims abstract description 47
- 239000013598 vector Substances 0.000 claims abstract description 131
- 230000004927 fusion Effects 0.000 claims abstract description 33
- 230000004913 activation Effects 0.000 claims description 23
- 230000009471 action Effects 0.000 claims description 12
- 238000010606 normalization Methods 0.000 claims description 9
- 230000002776 aggregation Effects 0.000 claims description 8
- 238000004220 aggregation Methods 0.000 claims description 8
- 230000000007 visual effect Effects 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000000034 method Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 5
- 238000011176 pooling Methods 0.000 claims description 3
- 238000007476 Maximum Likelihood Methods 0.000 claims 1
- 238000012549 training Methods 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 7
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/766—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于DETR的人物成对解码交互的人与物交互检测方法,将图片通过训练好的DETR模型,获得人物目标框、目标类别和查询向量,从而减少模型训练时间。然后将查询向量和目标类别输入到查询向量分类器,得到人的查询向量、物的查询向量和物的类别;将物的类别输入到语义网络,得到物的语义查询向量,融合物的查询向量和物的语义查询向量,得到融合的物查询向量,将融合的物查询向量和人的查询向量进行合并,得到对象查询向量。最后将对象查询向量输入到成对融合检测网络,实现人物交互检测。本发明提高了人与物交互检测的精度,扩大了网络的感受野,提高了网络的性能。
Description
技术领域
本申请属于人-物交互检测技术领域,尤其涉及一种基于DETR的人物成对解码交互的人与物交互检测方法。
背景技术
人-物交互检测是目标检测的下游任务,是目前热门的计算机视觉任务。相比于目标检测检测目标框和目标类别,人-物交互检测定位图像中的交互人-物对,并对动作进行分类。
在Transformer模型未被应用在视觉任务前,人-物交互检测算法往往使用卷积网络提取视觉特征,如HO-RCNN,这是典型的基于卷积神经网络的人-物交互检测算法,算法利用R-CNN定位相关区域,骨干网络裁剪特征后再通过多分支融合特征;STIGPN则利用图卷积迭代特征信息。但是这些方法仍存在着局限性,即传统卷积网络无法引入全局信息,同样也会造成特征污染。
近期,基于端到端的检测变换器网络DETR(Detection Transformer)算法开始流行,其使用深度自注意力来代替卷积,能够引入全局信息来完成集合预测。DETR算法是用于处理目标检测问题,因此将DETR引入目标检测下游任务人-物关系检测,乃至视觉的各领域是一个十分自然的想法。QPIC算法就是将DETR引入人-物关系交互检测领域,将其作为一个基础的检测器,并提取相应上下文信息,预测最终的三元组集合。
但是基于DETR直接完成三元组集合预测的相关人-物交互检测算法仍存在着一些问题,其一是训练困难,这是Transformer模型带来的劣势;其二是将单一的查询(Query)作为一个整体预测特征,而忽视了多个查询(Queries)之间的更符合直觉的特征联系,因此需要设计一种特殊的结构来融合相应的特征联系。同时,最后所预测的<human,object,interaction>三元组缺少相应的可靠性判断,需要一个语义模型来进行约束。
发明内容
本申请提出了一种基于DETR的人物成对解码交互的人与物交互检测方法,来减少训练资源,结合语义模态提高人-物交互检测精度。
为了实现上述目的,本申请技术方案如下:
一种基于DETR的人物成对解码交互的人与物交互检测方法,包括:
将原始图像经过骨干网络得到的特征图注入训练好DETR网络,所述DETR网络包括编码器、解码器和MLP层,获得解码器输出的查询向量,以及DETR网络最终输出的目标框及目标类别;
将查询向量和目标类别输入到查询向量分类器,得到人的查询向量、物的查询向量和物的类别;
将物的类别输入到语义网络,得到物的语义查询向量;
融合物的查询向量和物的语义查询向量,得到融合的物查询向量,将融合的物查询向量和人的查询向量进行合并,得到对象查询向量;
将对象查询向量输入到成对融合检测网络,实现人物交互检测。
进一步的,所述语义网络包括空间注意力模块和语义聚合模块,所述语义空间注意力模块输入特征为数据集的动词嵌入向量,输出语义空间注意力特征;
所述语义聚合模块输入特征为所述语义空间注意力模块输出的语义空间注意力特征和查询向量分类器输出的物的类别,语义空间注意力特征通过线性层、ReLU激活函数、线性层、sigmoid激活函数得到注意力特征,与物的类别通过另一个线性层得到的特征相乘,将结果依次通过线性层、归一化层、ReLU激活函数和线性层后加上物的类别,然后输入到Transformer层得到物的语义查询向量。
进一步的,所述融合物的查询向量和物的语义查询向量,得到融合的物查询向量,包括:
将物的查询向量和物的语义查询向量相加后通过ReLU激活函数,减去物的查询向量和物的语义查询向量相减后的平方。
进一步的,所述成对融合检测网络依次包括改进的Transformer编码器、成对融合模块、Transformer解码器和MLP层;
所述改进的Transformer编码器,输入特征分别是对象查询向量和成对框位置编码,在改进的Transformer编码器中,将对象查询向量配对后与成对框位置编码结合,通过线性层和sigmoid激活函数,得到第一分支的输出;将对象查询向量复制后与成对框位置编码元素相乘,得到第二分支的输出;将两个分支的输出元素相乘后通过线性层,并与输入的对象查询向量相加,再经过归一化层,前向传播层和归一化层,输出成对查询向量;
在成对融合模块中,成对查询向量分别与成对框位置编码和经过自适应平均池化的全局视觉特征进行结合操作后,经过线性层后相乘,之后依次经过ReLU激活函数、线性层和ReLU激活函数得到最后的融合了多种特征的成对查询向量;
将融合了多种特征的成对查询向量经过Transformer解码器解码后,输出MLP中,得到人-物交互动作的概率分数,从而完成对人-物交互动作的检测。
进一步的,所述基于DETR的人物成对解码交互的人与物交互检测方法,还包括:
计算网络整体损失函数,进行反向传播,更新网络参数;
其中,网络整体损失函数为:
Ltotal=La+LSKL
其中,Ltotal表示整体损失函数,La和LSKL分别表示动词交叉熵损失函数和语义相对熵损失函数;
所述的动词交叉熵损失函数La为:
其中,Nq表示为动词的种类数量,表示为统计与物体对应的预测动词类别数量,Φ表示总共的真实值的集合,表示在预测集合中,lf为焦点损失,lf(pt)=-αt(1-pt)γlog(pt),αt为抑制正负样本参数失衡参数,γ为控制简易/困难样本数量失衡参数,pt为样本,其中表示真实动词类别;
所述的语义相对熵损失函数LSKL为:
其中Np是数据集中动词数量,cij为:
A可以通过以下计算获得:
本申请提出的一种基于DETR的人物成对解码交互的人与物交互检测方法,使用训练完成的DETR模型,减轻训练耗时长的问题。为了增强特征在语义模态上的表征,添加语义模态提高人-物交互检测的精度。添加Transformer模块提高了网络提取全局信息的能力,扩大了网络的感受野,提高了网络的性能。最后提出了语义相对熵损失函数,加强了网络对语义进行监督。
附图说明
图1为本申请基于DETR的人物成对解码交互的人与物交互检测方法流程图;
图2为本申请整体网络结构示意图;
图3为本申请DETR网络结构示意图;
图4为本申请实施例多模态融合网络结构示意图;
图5为本申请实施例语义网络结构示意图;
图6为成对融合检测网络结构示意图;
图7为本申请实施例改进的Transformer编码器结构示意图;
图8为本申请实施例成对融合模块结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅用以解释本申请,并不用于限定本申请。
如图1所示,一种基于DETR的人物成对解码交互的人与物交互检测方法,包括:
S1、将原始图像经过骨干网络得到的特征图注入训练好DETR网络,所述DETR网络包括编码器、解码器和MLP层,获得解码器输出的查询向量,以及DETR网络最终输出的目标框及目标类别。
如图2所示,本申请整个网络包括骨干网络、DETR网络、多模态融合网络、语义网络和成对融合检测网络,以下详细阐述原始图像经过上述网络实现人物交互检测的过程。
首先通过骨干网提取原始图像的全局视觉特征,本实施例骨干网可以采用ResNet50。
在提取到原始图像的全局视觉特征后,将其输入到训练好DETR网络。如图3所示,DETR网络包括编码器、解码器和MLP层,输入特征从输入侧到输出侧依次经过N个Transformer编码层、N个Transformer解码层和一个MLP层,在本模型中N为6。
需要注意的是,本申请DETR网络包括两部分,一是解码器最后的输出特征,即查询向量(Queries);二是DETR网络最后MLP层的输出,即目标框和目标类别。
S2、将查询向量和目标类别输入到查询向量分类器,得到人的查询向量、物的查询向量和物的类别。
如图4所示,多模态融合网络包括查询向量(Queries)分类器和模态融合模块。
DETR网络解码器输出的查询向量,以及DETR网络MLP层输出的目标类别,查询向量和目标类别一一对应输入到查询向量分类器,得到人的查询向量(Human Queries)、物的查询向量(Object Queries)和物的类别(Object Classes)。物的类别信息由DETR网络得到的对象类别经过筛选后将类别为人的对象去除后得到。
具体的,查询向量分类器首先根据数据集对象标签(共80类)中的对应索引将MLP层输出的目标类别中对应人的索引(人的索引为1)、对应物的索引和对应背景的索引进行划分,分为人、物和背景集群,人和物的集群中的元素数量要大于等于K1小于等于K2,(K1,K2为超参,人为设定)若人或物集群中元素数量为K,小于K1,则将背景集群中将对应的目标类别的置信度分数进行从大到小排序,保留前K1-K个目标类别,使得集群元素数量满足条件;若人或物集群中元素数量为K,大于K2,则将集群中对应的目标类别的置信度分数进行从大到小排序,保留前K2个目标类别,使得集群元素数量满足条件;得到人和物的集群后根据集群中的目标类别得到对应的人和物查询向量;最后输出物的集群中的物的类别,对应的物的查询向量和人的集群中的人的类别对应的人的查询向量。
步骤S3、将物的类别输入到语义网络,得到物的语义查询向量。
本实施例语义网络如图5所示,包括语义空间注意力模块和语义聚合模块。
其中,语义空间注意力模块用于学习数据集的动词嵌入向量(embeddings),学习到数据集中物与动作关系分布。
而语义聚合模块,根据输入的物的类别,结合数据集中物与动作关系分布,得到物的语义查询向量。
具体的,语义空间注意力模块所采用的数据集为V-COCO和HICO-DET,这两个数据集是用于检测人物交互动作的数据集,数据集包括图像和对应的标签,标签包括交互对象的人和物的目标框、对象的类别标签(对象包括人和物)和交互动作类别标签。语义空间注意力模块统计数据集中的对应的物和动作类别得到关系分布用于后续处理。
语义空间注意力模块输入特征为数据集的动词嵌入向量,经过包含注意力层和ReLU激活函数的循环网络将特征累加。注意力层将输入特征分别经过三个线性层的到query,key和value特征,再用query特征和key特征的转置矩阵相乘后除以隐藏层维度的开方得到注意力图特征,然后将注意力图特征经过softmax后与value特征相乘,最后将模块产生的特征和输入特征相加作为模块的输出特征,称为语义空间注意力特征。空间注意力机制是本领域比较成熟的技术,这里不再赘述。
语义聚合模块输入特征为上述语义空间注意力模块输出的语义空间注意力特征和查询向量分类器输出的物的类别,依次经过交叉注意力层和Transformer层。在交叉注意力层中,语义空间注意力特征通过线性层、ReLU激活函数、线性层、sigmoid激活函数得到注意力特征,与物的类别通过另一个线性层得到的特征相乘,将结果依次通过线性层、归一化层(layerNorm)、ReLU激活函数和线性层后加上物的类别,然后输入到Transformer层得到物的语义查询向量。
Transformer层将输入特征分别经过三个线性层得到query,key和value特征,再用query特征和key特征的转置矩阵相乘后得到注意力图特征,之后将注意力图特征经过softmax后与value特征相乘,最后通过线性层、layerNorm层、ReLU激活函数和线性层后加上输入特征作为语义聚合模块的输出特征。Transformer是本领域比较成熟的技术,这里不再赘述。
本实施例语义网络根据多模态融合网络中的查询向量分类器筛选物的类别信息作为输入来得到对应的语义查询。
步骤S4、融合物的查询向量和物的语义查询向量,得到融合的物查询向量,将融合的物查询向量和人的查询向量进行合并,得到对象查询向量。
多模态融合网络将语义网络返回的物的语义查询向量,与查询向量分类器输出的物的查询向量进行融合,所述融合在模态融合模块中进行,得到融合的物查询向量。模态融合模块中,输入两个特征相加后通过ReLU激活函数,然后减去两个特征相减后的平方。
然后将融合的物查询向量和人的查询向量进行合并,得到对象查询向量,即将M个人的查询向量和N个模态融合的物查询向量进行连接(Concatenate)处理,得到M+N个查询向量。
步骤S5、将对象查询向量输入到成对融合检测网络,实现人物交互检测。
如图6所示,所述成对融合检测网络包括多个阶段,依次包括改进的Transformer编码器、成对融合模块、Transformer解码器和MLP层。
其中,改进的Transformer编码器,输入特征分别是对象查询向量和成对框位置编码,其中成对框位置编码是由对应的一对人和物的目标框的坐标长宽和交并比(IoU)组成的向量作为输入,通过线性层和ReLU激活函数得到,关于成对框位置编码是本领域比较成熟的技术,这里不再赘述。
如图7所示,在改进的Transformer编码器中,将对象查询向量配对后与成对框位置编码结合,通过线性层和sigmoid激活函数,得到第一分支的输出;将对象查询向量复制后与成对框位置编码元素相乘,得到第二分支的输出;将两个分支的输出元素相乘后通过线性层,并与输入的对象查询向量相加,再经过归一化层(layerNorm层),前向传播层(FFN)和归一化层,输出成对查询向量。
其中配对操作将人和物的查询向量进行了两两配对,使得查询向量维度从256变为512,而复制操作则将人和物的查询向量分别进行复制,使得查询向量维度也从256变为512,由此二者在保留单一查询向量特征的同时,编码了成对特征信息。
如图8所示,在成对融合模块中,成对查询向量分别与成对框位置编码和经过自适应平均池化的全局视觉特征进行结合(concatenate)操作后,经过线性层后相乘,之后依次经过ReLU激活函数、线性层和ReLU激活函数得到最后的融合了多种特征的成对查询向量。
最后,将融合了多种特征的成对查询向量经过Transformer解码器解码后,输出MLP中,得到人-物交互动作的概率分数,从而完成对人-物交互动作的检测。
在一个具体的实施例中,本申请在训练网络,还计算网络整体损失函数,进行反向传播,更新网络参数。其中,网络整体损失函数由动词交叉熵损失函数La和语义相对熵损失函数LSKL线性融合,其中:
所述的动词交叉熵损失函数La为:
其中,Nq表示为动词的种类数量,表示为统计与物体对应的预测动词类别数量,Φ表示总共的ground-truth(真实值)的集合,表示在预测集合中。lf为焦点损失(Focal loss),焦点损失具体表现为lf(pt)=-αt(1-pt)γlog(pt),αt为抑制正负样本参数失衡参数,γ为控制简易/困难样本数量失衡参数,pt为样本。因此在动词损失中,使用lf来计算真实动词类别与预测动词类别的损失,其中表示真实动词类别。
所述的语义相对熵损失函数LSKL为:
其中Np是数据集中动词数量,cij为
A可以通过以下计算获得:
所述网络整体损失函数为:
Ltotal=La+LSKL
其中,Ltotal表示整体损失函数,La和LSKL分别表示动词交叉熵损失函数和语义相对熵损失函数。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (5)
1.一种基于DETR的人物成对解码交互的人与物交互检测方法,其特征在于,所述基于DETR的人物成对解码交互的人与物交互检测方法,包括:
将原始图像经过骨干网络得到的特征图注入训练好DETR网络,所述DETR网络包括编码器、解码器和MLP层,获得解码器输出的查询向量,以及DETR网络最终输出的目标框及目标类别;
将查询向量和目标类别输入到查询向量分类器,得到人的查询向量、物的查询向量和物的类别;
将物的类别输入到语义网络,得到物的语义查询向量;
融合物的查询向量和物的语义查询向量,得到融合的物查询向量,将融合的物查询向量和人的查询向量进行合并,得到对象查询向量;
将对象查询向量输入到成对融合检测网络,实现人物交互检测。
2.根据权利要求1所述的基于DETR的人物成对解码交互的人与物交互检测方法,其特征在于,所述语义网络包括空间注意力模块和语义聚合模块,所述语义空间注意力模块输入特征为数据集的动词嵌入向量,输出语义空间注意力特征;
所述语义聚合模块输入特征为所述语义空间注意力模块输出的语义空间注意力特征和查询向量分类器输出的物的类别,语义空间注意力特征通过线性层、ReLU激活函数、线性层、sigmoid激活函数得到注意力特征,与物的类别通过另一个线性层得到的特征相乘,将结果依次通过线性层、归一化层、ReLU激活函数和线性层后加上物的类别,然后输入到Transformer层得到物的语义查询向量。
3.根据权利要求1所述的基于DETR的人物成对解码交互的人与物交互检测方法,其特征在于,所述融合物的查询向量和物的语义查询向量,得到融合的物查询向量,包括:
将物的查询向量和物的语义查询向量相加后通过ReLU激活函数,减去物的查询向量和物的语义查询向量相减后的平方。
4.根据权利要求1所述的基于DETR的人物成对解码交互的人与物交互检测方法,其特征在于,所述成对融合检测网络依次包括改进的Transformer编码器、成对融合模块、Transformer解码器和MLP层;
所述改进的Transformer编码器,输入特征分别是对象查询向量和成对框位置编码,在改进的Transformer编码器中,将对象查询向量配对后与成对框位置编码结合,通过线性层和sigmoid激活函数,得到第一分支的输出;将对象查询向量复制后与成对框位置编码元素相乘,得到第二分支的输出;将两个分支的输出元素相乘后通过线性层,并与输入的对象查询向量相加,再经过归一化层,前向传播层和归一化层,输出成对查询向量;
在成对融合模块中,成对查询向量分别与成对框位置编码和经过自适应平均池化的全局视觉特征进行结合操作后,经过线性层后相乘,之后依次经过ReLU激活函数、线性层和ReLU激活函数得到最后的融合了多种特征的成对查询向量;
将融合了多种特征的成对查询向量经过Transformer解码器解码后,输出MLP中,得到人-物交互动作的概率分数,从而完成对人-物交互动作的检测。
5.根据权利要求1所述的基于DETR的人物成对解码交互的人与物交互检测方法,其特征在于,所述基于DETR的人物成对解码交互的人与物交互检测方法,还包括:
计算网络整体损失函数,进行反向传播,更新网络参数;
其中,网络整体损失函数为:
Ltotal=La+LSKL
其中,Ltotal表示整体损失函数,La和LSKL分别表示动词交叉熵损失函数和语义相对熵损失函数;
所述的动词交叉熵损失函数La为:
其中,Nq表示为动词的种类数量,表示为统计与物体对应的预测动词类别数量,Φ表示总共的真实值的集合,表示在预测集合中,lf为焦点损失,lf(pt)=-αt(1-pt)γlog(pt),αt为抑制正负样本参数失衡参数,γ为控制简易/困难样本数量失衡参数,pt为样本,其中表示真实动词类别;
所述的语义相对熵损失函数LSKL为:
其中Np是数据集中动词数量,cij为:
A可以通过以下计算获得:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210864552.1A CN115147931A (zh) | 2022-07-21 | 2022-07-21 | 基于detr的人物成对解码交互的人与物交互检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210864552.1A CN115147931A (zh) | 2022-07-21 | 2022-07-21 | 基于detr的人物成对解码交互的人与物交互检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115147931A true CN115147931A (zh) | 2022-10-04 |
Family
ID=83414782
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210864552.1A Pending CN115147931A (zh) | 2022-07-21 | 2022-07-21 | 基于detr的人物成对解码交互的人与物交互检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115147931A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116563605A (zh) * | 2023-04-10 | 2023-08-08 | 华南理工大学 | 一种基于TED-Net的非接触人-物交互检测方法 |
CN116662587A (zh) * | 2023-07-31 | 2023-08-29 | 华侨大学 | 基于查询生成器的人物交互检测方法、装置及设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110097094A (zh) * | 2019-04-15 | 2019-08-06 | 天津大学 | 一种面向人物交互的多重语义融合少样本分类方法 |
WO2022069735A1 (en) * | 2020-10-02 | 2022-04-07 | Deepmind Technologies Limited | Neural networks implementing attention over object embeddings for object-centric visual reasoning |
-
2022
- 2022-07-21 CN CN202210864552.1A patent/CN115147931A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110097094A (zh) * | 2019-04-15 | 2019-08-06 | 天津大学 | 一种面向人物交互的多重语义融合少样本分类方法 |
WO2022069735A1 (en) * | 2020-10-02 | 2022-04-07 | Deepmind Technologies Limited | Neural networks implementing attention over object embeddings for object-centric visual reasoning |
Non-Patent Citations (2)
Title |
---|
SHENG LIU: "Prompt guidance query with cascaded constraint decoders for human–object interaction detection", IET COMPUTER VISION, vol. 18, no. 6, 29 March 2024 (2024-03-29), pages 1 - 16, XP006123261, DOI: 10.1049/cvi2.12276 * |
XUBIN ZHONG: "Towards Hard-Positive Query Mining for DETR-based Human-Object Interaction Detection", COMPUTER VISION AND PATTERN RECOGNITION, 12 July 2022 (2022-07-12), pages 1 - 20 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116563605A (zh) * | 2023-04-10 | 2023-08-08 | 华南理工大学 | 一种基于TED-Net的非接触人-物交互检测方法 |
CN116563605B (zh) * | 2023-04-10 | 2024-09-06 | 华南理工大学 | 一种基于TED-Net的非接触人-物交互检测方法 |
CN116662587A (zh) * | 2023-07-31 | 2023-08-29 | 华侨大学 | 基于查询生成器的人物交互检测方法、装置及设备 |
CN116662587B (zh) * | 2023-07-31 | 2023-10-03 | 华侨大学 | 基于查询生成器的人物交互检测方法、装置及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11657230B2 (en) | Referring image segmentation | |
CN114169330B (zh) | 融合时序卷积与Transformer编码器的中文命名实体识别方法 | |
CN109829299B (zh) | 一种基于深度自编码器的未知攻击识别方法 | |
CN113596007B (zh) | 一种基于深度学习的漏洞攻击检测方法和设备 | |
CN112084331A (zh) | 文本处理、模型训练方法、装置、计算机设备和存储介质 | |
CN111126069A (zh) | 一种基于视觉对象引导的社交媒体短文本命名实体识别方法 | |
CN111652357B (zh) | 一种利用基于图的特定目标网络解决视频问答问题的方法及其系统 | |
CN112101410A (zh) | 一种基于多模态特征融合的图像像素语义分割方法及系统 | |
CN108763191B (zh) | 一种文本摘要生成方法及系统 | |
CN110516536A (zh) | 一种基于时序类别激活图互补的弱监督视频行为检测方法 | |
CN111159485B (zh) | 尾实体链接方法、装置、服务器及存储介质 | |
CN114627282B (zh) | 目标检测模型的建立方法、应用方法、设备、装置及介质 | |
CN113691542B (zh) | 基于HTTP请求文本的Web攻击检测方法及相关设备 | |
CN113870286B (zh) | 一种基于多级特征和掩码融合的前景分割方法 | |
CN113628059A (zh) | 一种基于多层图注意力网络的关联用户识别方法及装置 | |
CN115147931A (zh) | 基于detr的人物成对解码交互的人与物交互检测方法 | |
CN114926835A (zh) | 文本生成、模型训练方法和装置 | |
CN111598183A (zh) | 一种多特征融合图像描述方法 | |
CN113627550A (zh) | 一种基于多模态融合的图文情感分析方法 | |
CN109933682B (zh) | 一种基于语义与内容信息结合的图像哈希检索方法及系统 | |
Dastbaravardeh et al. | Channel Attention‐Based Approach with Autoencoder Network for Human Action Recognition in Low‐Resolution Frames | |
CN113806747B (zh) | 一种木马图片检测方法、系统及计算机可读存储介质 | |
CN114565913A (zh) | 文本识别方法及其装置、设备、介质、产品 | |
CN115205640A (zh) | 一种面向谣言检测的多层次图文融合方法及系统 | |
CN113704473A (zh) | 基于长文本特征提取优化的媒体假新闻检测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |