CN116758298A - 一种基于多尺度可变形Transformer网络的人与物交互检测方法 - Google Patents

一种基于多尺度可变形Transformer网络的人与物交互检测方法 Download PDF

Info

Publication number
CN116758298A
CN116758298A CN202211447645.0A CN202211447645A CN116758298A CN 116758298 A CN116758298 A CN 116758298A CN 202211447645 A CN202211447645 A CN 202211447645A CN 116758298 A CN116758298 A CN 116758298A
Authority
CN
China
Prior art keywords
deformable
human
scale
decoding
decoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211447645.0A
Other languages
English (en)
Inventor
刘盛
郭炳男
张峰
陈俊皓
陈瑞祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202211447645.0A priority Critical patent/CN116758298A/zh
Publication of CN116758298A publication Critical patent/CN116758298A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多尺度可变形Transformer网络的人与物交互检测方法,将待检测图像输入到多尺度骨干网络提取特征,并输入至可变形Transformer编码器中完成多尺度特征的编码,得到视觉上下文特征;然后将视觉上下文特征输入到级联架构的可变形Transformer解码器,得到人与物解码特征和动作解码特征;将人与物解码特征通过一个嵌入层以及FFN网络,检测得到人与物体的边界框和物体类别,将动作解码特征通过FFN网络,检测得到动作类别;最后将检测得到的人与物体的边界框、物体类别和动作类别通过非极大值抑制滤除重复的预测,在待检测图像中绘制显示得到最终的结果。本发明引入级联可变形解码器结构,以一致性地获得复杂环境中的交互预测。

Description

一种基于多尺度可变形Transformer网络的人与物交互检测 方法
技术领域
本申请属于人与物交互检测技术领域,尤其涉及一种基于多尺度可变形Transformer网络的人与物交互检测方法。
背景技术
人与物体交互(HOI)检测是智能机器人领域的一个重要组成部分,它关注人与物体之间的交互。与目标检测相比,它更加关注动作和场景理解,这对于机器理解人类活动具有重要意义。具体来说,HOI检测从输入图像中预测一组三元组,三元组包括相应交互的人和物体的位置,以及交互类别。在复杂、多变的环境中智能、高效地定位人与物对并预测相应的交互,这是一个十分具有挑战性的任务。
定位和交互识别是HOI(人与物交互)检测中的两个主要任务,需要较高的图像和场景理解水平。目前存在HOI检测方法通常依赖于单一架构来解决这两个任务。然而,这样的策略往往会忽略两个不同任务之间的内在联系。同时,以往的方法受限于尺度信息的缺失,效果不理想。
发明内容
本申请的目的是提供一种基于多尺度可变形Transformer网络的人与物交互检测方法,以克服背景计数中所指出的技术问题。
一种基于多尺度可变形Transformer网络的人与物交互检测方法,包括:
将待检测图像输入到多尺度骨干网络提取特征,将提取的各个尺度的特征展平为一维向量,并输入至可变形Transformer编码器中完成多尺度特征的编码,得到视觉上下文特征;
将视觉上下文特征输入到级联架构的可变形Transformer解码器,得到人与物解码特征和动作解码特征;
将人与物解码特征通过一个嵌入层以及FFN网络,检测得到人与物体的边界框和物体类别,将动作解码特征通过FFN网络,检测得到动作类别;
将检测得到的人与物体的边界框、物体类别和动作类别通过非极大值抑制滤除重复的预测,在待检测图像中绘制显示得到最终的结果。
进一步的,所述级联架构的可变形Transformer解码器包括级联的人与物解码器和动作解码器。
进一步的,所述人与物解码器和动作解码器均包括若干层可变形解码层,每一个可变形解码层包括可变形多头自注意力模块和多尺度可变形自注意力模块。
进一步的,所述人与物解码器,执行如下操作:
初始化查询向量,将所述查询向量分为长度相等的人物交互查询向量和位置查询向量,并将位置查询向量通用一个线性层得到锚框变量;
将人物交互查询向量和位置查询向量重新拼接获得人与物查询向量,分别作为第一层可变形解码层中可变形多头自注意力模块的Q、V和K向量,经过可变形多头自注意力模块后输出多头注意力向量;
将多头注意力向量与锚框变量进行相加操作后,与锚框变量和视觉上下文特征一起输入多尺度可变形自注意力模块得到多尺度可变形向量;
将多尺度可变形向量输入到下一层可变形解码层,作为下一层可变形解码层中可变形多头自注意力模块的Q、V和K向量,进行与第一层可变形解码层同样的操作,最终将最后一层可变形解码层的输出作为人与物解码特征。
进一步的,所述动作解码器,执行如下操作:
将人与物解码器每一可变形解码层的输出通过动作嵌入函数得到动作查询向量,输入到动作解码器对应的可变形解码层;
在动作解码器的每一层可变形解码层中,将动作查询向量作为可变形多头自注意力模块的Q、V和K向量,经过可变形多头自注意力模块后输出多头注意力向量;
在动作解码器的每一层可变形解码层中,将多头注意力向量、视觉上下文特征以及上一层可变形解码层的输出,输入到多尺度可变形自注意力模块得到多尺度可变形向量;
将动作解码器最后一层可变形解码层的输出作为动作解码特征。
本申请提出的一种基于多尺度可变形Transformer网络的人与物交互检测方法,使用多尺度的骨干网络提取图像特征,并结合可变形Transformer编码器,以提取上下文多尺度特征,从而在空间尺度上引入不同对象的位置和大小变化,以获得更准确和更健壮的视觉特征表示。此外,该方法引入级联可变形解码器结构,以一致性地获得复杂环境中的交互预测。
附图说明
图1为本申请人与物交互检测方法流程图;
图2为本申请多尺度可变形Transformer网络示意图;
图3为本申请可变形Transformer解码器示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅用以解释本申请,并不用于限定本申请。
在一个实施例中,本申请提供的一种基于多尺度可变形Transformer网络的人与物交互检测方法,包括:
步骤S1、将待检测图像输入到多尺度骨干网络提取特征,将提取的各个尺度的特征展平为一维向量,并输入至可变形Transformer编码器中完成多尺度特征的编码,得到视觉上下文特征。
本申请采用Swin Ttransformer的多尺度骨干网络来提取初步的分层图像视觉特征。给定一张图像输入至多尺度骨干网络后,得到这4个尺度的特征图,其中Cs是通过多层骨干网络计算后,得到的转换维度,Cl=256,并将其拼接输入可变形(Deformable)Transformer编码器,生成视觉上下文特征Vm
本申请级联解码的网络结构如图2所示,在经过骨干网络提取多尺度信息,并通过视觉编码器获得视觉上下文特征之后,将视觉上下文特征以共享的方式输入至人与物解码器以及动作解码器中。在图2中,将可变形(Deformable)Transformer编码器的整个编码过程表示为对视觉信息的编码,将这一块的整体架构称为视觉编码器(Visual Encoder)。可变形Transformer编码器采用位置编码将多尺度特征图以及位置编码输入可变形编码器来生成视觉上下文特征/>其中Cd是Cs通过1×1的卷积操作变换得到,Nm则表示单通道特征图的像素总和,视觉上下文特征输入到后续的可变形解码器来解码HOI特征。
步骤S2、将视觉上下文特征输入到级联架构的可变形Transformer解码器,得到人与物解码特征和动作解码特征。
本实施例级联架构的可变形Transformer解码器(Deformable TransformerDecoder)包括级联的人与物解码器和动作解码器。
步骤S1通过一个骨干网络以及可变形的Transformer编码器获得视觉上下文特征Vm后,本步骤将Vm分别输入到人与物解码器和动作解码器。
如图2所示,人与物解码器和动作解码器,均包含若干层可变形解码层(Deformable Transformer Decoder Layer),每一个可变形解码层包括DeformableMulti-Head attention(可变形多头自注意力模块)与Multi-Scale DeformableAttention(多尺度可变形自注意力模块)两个自注意力模块。
在人与物解码器中,首先是初始化一个长度为N(本实例中设置为300)的查询向量,为了在训练过程中加强对视觉信息融合,本申请将查询向量等分为人与物交互查询向量与位置查询向量,并通过位置查询向量经过线形层生成可学习的锚框变量,将其与两种查询向量一起输入可变形解码层,具体的解码细节如图3所示。在图3中,两种查询向量拼接后作为多头自注意力操作的参数输入,并输入至多尺度可变形自注意力模块,与可学习的锚框变量和视觉上下文特征运算,得到最后的人与物解码特征Fho。如图3所示,本实施例人与物解码器,执行如下操作:
步骤S2.1、初始化查询向量,将所述查询向量分为长度相等的人物交互查询向量和位置查询向量,并将位置查询向量通用一个线性层得到锚框变量。
本实施例可变形Transformer解码器,首先初始化一个查询向量,该查询向量的长度为N,在本申请中将该长度设置为300,并将其分为长度相等的两部分,即人物交互查询向量(human object interaction) 与位置查询向量/>并将位置查询向量通过线性层(Linear)生成可学习的锚框变量/>可变形的锚框变量具体表示为(x,y)坐标。
步骤S2.2、将人物交互查询向量和位置查询向量重新拼接获得人与物查询向量,分别作为第一层可变形解码层中可变形多头自注意力模块的Q、V和K向量,经过可变形多头自注意力模块后输出多头注意力向量。
人与物解码器的架构如图3所示,在人与物解码器中包含l层可变形解码层,在获得了可学习的锚框变量后,通过将人物交互查询向量Qhoi与位置查询向量Qpos重新拼接获得人与物查询向量,具体表示为:
Qho=[Qhoi,Qpos];
其中,
接下来,Qho被送入一个多尺度可变形头自注意力模块,然后在查询向量和视觉上下文特征Vm之间进行多尺度可变形注意力操作。
具体的,将人物交互查询向量Qhoi与位置查询向量Qpos重新拼接,分别作为可变形多头自注意力模块的Q、V和K向量,经过可变形多头自注意力模块后输出多头注意力向量Mha,表示为:
Mha=MultiHeadAttn(Q,V,K)。
步骤S2.3、将多头注意力向量与锚框变量进行相加操作后,与锚框变量和视觉上下文特征一起输入多尺度可变形自注意力模块得到多尺度可变形向量。
本步骤将多头注意力向量Mha与锚框变量进行相加操作后,与锚框变量、视觉上下文特征一起输入到多尺度可变形自注意力模块得到多尺度可变形向量Msda,获得多尺度可变形向量的过程可具体可表示为:
其中,Qda=Mha+a,ref=a。
步骤S2.4、将多尺度可变形向量输入到下一层可变形解码层,作为下一层可变形解码层中可变形多头自注意力模块的Q、V和K向量,进行与第一层可变形解码层同样的操作,最终将最后一层可变形解码层的输出作为人与物解码特征。
在每一个可变形解码层(Deformable Decoder Layer)中,会输出解码的人与物查询向量,表示为i表示为当前层数,/>
对于第i(i>1)层可变形解码层中,多头注意力向量Mha可表示为
Mha=MultiHeadAttn(Q,V,K)
其中
对于第i(i>1)层可变形解码层中,多尺度可变形向量Msda即可表示为:
其中,Qda=Mha+a,ref=a。
本申请将最后一层更新输出的表示为解码的人与物解码特征Fho,解码得到的人与物解码特征表示为:/>bs为模型设置的batch size,在本实例中设置为4。与直接从视觉特征序列中提取人类交互特征不同,本实施例使用一个单独的可变形解码器来获得带有位置信息的显著的人与物特征。
为了更好地结合人与物特征来预测交互信息,本申请中专门构建了一个可变形的动作解码器来单独构建动作特征。动作解码器基于视觉上下文特征Vm和更新后的人与物查询向量Qho嵌入得到的动作查询Qa来完成解码运算。
如图2,本申请提出的动作解码器将更新后的人与物查询向量Qho输入至动作嵌入函数获得动作查询Qa。接着在使用动作解码器来获取动作解码特征Fact。本实施例动作解码器,执行如下操作:
步骤S3.1、将人与物解码器每一可变形解码层的输出通过动作嵌入函数得到动作查询向量,输入到动作解码器对应的可变形解码层。
本实施例,将人与物解码器每一可变形解码层的输出通过动作嵌入函数得到动作查询向量,具体表示为:
其中,Embedding(a)是定义的动作嵌入函数,其主要由多个嵌入层运算得到。
步骤S3.2、在动作解码器的每一层可变形解码层中,将动作查询向量作为可变形多头自注意力模块的Q、V和K向量,经过可变形多头自注意力模块后输出多头注意力向量。
在动作解码器的可变形解码层中,多头注意力向量Mha可表示为:
Mha=MultiHeadAttn(Q,V,K)
其中i表示当前的层数。
步骤S3.3、在动作解码器的每一层可变形解码层中,将多头注意力向量、视觉上下文特征以及上一层可变形解码层的输出,输入到多尺度可变形自注意力模块得到多尺度可变形向量。
本实施例中,多尺度可变形向量Msda即可表示为:
其中,(i=1时,/>)。
步骤S3.3、将动作解码器最后一层可变形解码层的输出作为动作解码特征。
本实施例将最后一层更新输出的人与物查询向量表示为解码的动作解码特征Fact,其中/>通过这种方式,交互一致性得以进一步保持。
步骤S3、将人与物解码特征通过一个嵌入层以及FFN网络,检测得到人与物体的边界框和物体类别,将动作解码特征通过FFN网络,检测得到动作类别。
本实施例在得到解码后的人与物解码特征Fho和动作解码特征Fact后,人与物解码特征通过嵌入层后被嵌入为嵌入过程表示为:
其中Embedding(ho)是定义的人与物嵌入函数,其主要由多个嵌入层运算得到。
和Fact分别在交互头网络中使用FFN(前馈网络)来预测{hbox,obbox,ocls,acls},具体如下所示:
acls=FFNact(Fact),
其中,分别表示物体类别和动作类别,Co,Ca分别表示物体和动作的类别数。/>分别表示人与物体的边界框,由中心点与归一化参考点预测得到。
步骤S4、将检测得到的人与物体的边界框、物体类别和动作类别通过非极大值抑制滤除重复的预测,在待检测图像中绘制显示得到最终的结果。
如前所述,一个HOI预测结果由以下四个部分表示:人的边界框、物体边界框、物体类别和动作类别。
在步骤S3中,人与物解码器分支预测人、物体的边界框对和对应的物体类别,然后在动作解码器分支中单独预测动作类别,接着交互头网络针对不同的特征信息使用FFN网络来预测结果。在形式上,第i个查询向量对应的预测结果表示如下:
该预测结果是通过一个非极大值(NMS)抑制处理后的表示形式,其中在通过使用NMS算法处理重复框后,将前K个置信度得分最高的结果作为最终预测。
在NMS算法中,主要是计算不同HOI实例之间的IoU值,其可以表示为:
其中,i和j表示不同的人或者物的索引,计算出IoU值后,使用阈值δ剔除得分较低的HOI实例并返回最后的结果,获取了最后的预测结果后,就可以在原图像中绘制显示。
本申请使用基于查询向量的方法的训练方法,在训练阶段使用匈牙利匹配算法匹配每个真实值与预测值。网络的整体损失函数由三个部分组成,第一部分为边界框损失函数,第二部分/>为交叉重叠合并损失,第三部分/>为分类损失:
其中,λ1,λ2,λ3是用于调整每个损失的权重的参数。
其中,在损失中,x∈(h,o)表示该损失函数统计human(人)与object(物体)的边界框损失,y∈(h,o表示统计人与物体的交叉重叠合并损失,而z∈(o,a)则表示统计object(物体)与action(动作)的分类损失。
需要说明的是,本申请人与物解码器,在训练时,初始化查询向量,可以通过随机生成。而在实际的应用中,则可以采用训练好的网络参数来初始化查询向量。关于初始化查询向量,是本领域比较成熟的计数,这里不再赘述。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (5)

1.一种基于多尺度可变形Transformer网络的人与物交互检测方法,其特征在于,所述基于多尺度可变形Transformer网络的人与物交互检测方法,包括:
将待检测图像输入到多尺度骨干网络提取特征,将提取的各个尺度的特征展平为一维向量,并输入至可变形Transformer编码器中完成多尺度特征的编码,得到视觉上下文特征;
将视觉上下文特征输入到级联架构的可变形Transformer解码器,得到人与物解码特征和动作解码特征;
将人与物解码特征通过一个嵌入层以及FFN网络,检测得到人与物体的边界框和物体类别,将动作解码特征通过FFN网络,检测得到动作类别;
将检测得到的人与物体的边界框、物体类别和动作类别通过非极大值抑制滤除重复的预测,在待检测图像中绘制显示得到最终的结果。
2.根据权利要求1所述的基于多尺度可变形Transformer网络的人与物交互检测方法,其特征在于,所述级联架构的可变形Transformer解码器包括级联的人与物解码器和动作解码器。
3.根据权利要求2所述的基于多尺度可变形Transformer网络的人与物交互检测方法,其特征在于,所述人与物解码器和动作解码器均包括若干层可变形解码层,每一个可变形解码层包括可变形多头自注意力模块和多尺度可变形自注意力模块。
4.根据权利要求3所述的基于多尺度可变形Transformer网络的人与物交互检测方法,其特征在于,所述人与物解码器,执行如下操作:
初始化查询向量,将所述查询向量分为长度相等的人物交互查询向量和位置查询向量,并将位置查询向量通用一个线性层得到锚框变量;
将人物交互查询向量和位置查询向量重新拼接获得人与物查询向量,分别作为第一层可变形解码层中可变形多头自注意力模块的Q、V和K向量,经过可变形多头自注意力模块后输出多头注意力向量;
将多头注意力向量与锚框变量进行相加操作后,与锚框变量和视觉上下文特征一起输入多尺度可变形自注意力模块得到多尺度可变形向量;
将多尺度可变形向量输入到下一层可变形解码层,作为下一层可变形解码层中可变形多头自注意力模块的Q、V和K向量,进行与第一层可变形解码层同样的操作,最终将最后一层可变形解码层的输出作为人与物解码特征。
5.根据权利要求3所述的基于多尺度可变形Transformer网络的人与物交互检测方法,其特征在于,所述动作解码器,执行如下操作:
将人与物解码器每一可变形解码层的输出通过动作嵌入函数得到动作查询向量,输入到动作解码器对应的可变形解码层;
在动作解码器的每一层可变形解码层中,将动作查询向量作为可变形多头自注意力模块的Q、V和K向量,经过可变形多头自注意力模块后输出多头注意力向量;
在动作解码器的每一层可变形解码层中,将多头注意力向量、视觉上下文特征以及上一层可变形解码层的输出,输入到多尺度可变形自注意力模块得到多尺度可变形向量;
将动作解码器最后一层可变形解码层的输出作为动作解码特征。
CN202211447645.0A 2022-11-18 2022-11-18 一种基于多尺度可变形Transformer网络的人与物交互检测方法 Pending CN116758298A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211447645.0A CN116758298A (zh) 2022-11-18 2022-11-18 一种基于多尺度可变形Transformer网络的人与物交互检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211447645.0A CN116758298A (zh) 2022-11-18 2022-11-18 一种基于多尺度可变形Transformer网络的人与物交互检测方法

Publications (1)

Publication Number Publication Date
CN116758298A true CN116758298A (zh) 2023-09-15

Family

ID=87946565

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211447645.0A Pending CN116758298A (zh) 2022-11-18 2022-11-18 一种基于多尺度可变形Transformer网络的人与物交互检测方法

Country Status (1)

Country Link
CN (1) CN116758298A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117830874A (zh) * 2024-03-05 2024-04-05 成都理工大学 一种多尺度模糊边界条件下的遥感目标检测方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117830874A (zh) * 2024-03-05 2024-04-05 成都理工大学 一种多尺度模糊边界条件下的遥感目标检测方法
CN117830874B (zh) * 2024-03-05 2024-05-07 成都理工大学 一种多尺度模糊边界条件下的遥感目标检测方法

Similar Documents

Publication Publication Date Title
CN113222916B (zh) 采用目标检测模型检测图像的方法、装置、设备和介质
CN113158862B (zh) 一种基于多任务的轻量级实时人脸检测方法
CN109947912A (zh) 一种基于段落内部推理和联合问题答案匹配的模型方法
US20200242451A1 (en) Method, system and apparatus for pattern recognition
CN113591566A (zh) 图像识别模型的训练方法、装置、电子设备和存储介质
CN116912608A (zh) 基于Transformer-CNN混合架构的RGB-D跨模态交互融合机械臂抓取检测方法
CN113344003B (zh) 目标检测方法及装置、电子设备和存储介质
CN116758298A (zh) 一种基于多尺度可变形Transformer网络的人与物交互检测方法
CN111738092B (zh) 一种基于深度学习的恢复被遮挡人体姿态序列方法
CN113901909A (zh) 基于视频的目标检测方法、装置、电子设备和存储介质
CN112801068A (zh) 一种视频多目标跟踪与分割系统和方法
CN116611491A (zh) 目标检测模型的训练方法、装置、电子设备和存储介质
CN115205233A (zh) 一种基于端对端架构的光伏表面缺陷识别方法及系统
CN114764941B (zh) 一种表情识别方法、装置以及电子设备
CN114140831B (zh) 人体姿态估计方法、装置、电子设备及存储介质
CN114170688B (zh) 人物交互关系识别方法、装置、电子设备
Mohan et al. Perceiving the invisible: Proposal-free amodal panoptic segmentation
Tai et al. Unified recurrence modeling for video action anticipation
CN117456431B (zh) 一种基于扩张卷积和密集连接的镜头边界检测方法
CN113936333A (zh) 一种基于人体骨架序列的动作识别算法
CN111496784B (zh) 一种用于机器人智能化服务的空间环境识别方法及系统
CN117409431A (zh) 一种多模态大型语言模型训练方法、电子设备及存储介质
CN116311493A (zh) 一种基于编码解码架构的两阶段人-物交互检测方法
CN114782995A (zh) 一种基于自注意力机制的人交互行为检测方法
CN116109920A (zh) 一种基于Transformer的遥感图像建筑物提取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination