CN115953832A - 一种基于语义解耦的自注意力模型的组合动作识别方法 - Google Patents

一种基于语义解耦的自注意力模型的组合动作识别方法 Download PDF

Info

Publication number
CN115953832A
CN115953832A CN202211606003.0A CN202211606003A CN115953832A CN 115953832 A CN115953832 A CN 115953832A CN 202211606003 A CN202211606003 A CN 202211606003A CN 115953832 A CN115953832 A CN 115953832A
Authority
CN
China
Prior art keywords
video
decoupling
loss
semantic
mark
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211606003.0A
Other languages
English (en)
Inventor
舒祥波
涂哲维
黄捧
严锐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN202211606003.0A priority Critical patent/CN115953832A/zh
Publication of CN115953832A publication Critical patent/CN115953832A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种基于语义解耦的自注意力模型的组合动作识别方法,在STH‑ELSE数据集三种划分上均取得了最先进的效果。该方法通过物体‑动词解耦模块(OMD)和语义解耦约束模块(SDC),实现了对动词和物体组合的高级语义特征的解耦,缓解了组合动作识别中的由于分布偏差带来模型性能下降的问题。在OMD中设置若干初始化的可学习标记以捕捉与物体相关的时空特征,并在高层视觉空间中将学习到的时空特征进行初步解耦。在SDC中引入文本信息对OMD中构建的解耦特征进行更严格的语义层面的一致性约束,最终学习到完全解耦后的外观和运动特征。

Description

一种基于语义解耦的自注意力模型的组合动作识别方法
技术领域
本发明涉及一种计算机视觉领域中的组合动作识别方法。
背景技术
动作识别因其在人机交互、虚拟现实、社会公共安全等领域的广泛应用,已然成为计算机视觉领域的研究热点。近年来,随着大规模数据集和强劲骨干网络的不断提出,动作识别经历了快速发展,但当遇到类别未知或者分布未知的样本时,传统的动作识别基准模型表现得差强人意。这表明模型学习到的仅是很强的外观偏差,并不能真正理解动作本身的语义信息,泛化能力远不足以达到在现实世界应用的标准。
人类行为具有天然的组合性,而人类视觉感知系统理解复杂人体行为时,通常不会聚焦到物体本身,而只关心人对物体执行了何种操作,因而人类很容易从已知的行为组合来推理未见的行为组合。为进一步挑战模型的泛化能力,组合动作识别任务应运而生。该任务将每个动作都分解成一个动词和一个或多个物体的组合,并设置测试集中动词和物体的组合与训练集中的组合不重叠,这使得训练集和测试集中“动词-物体”组合分布不一。这种分布偏移期望模型加强对动作本身的语义理解,极大挑战了模型的泛化能力。
如何克服“动作-物体”组合在训练和测试集合上的偏移是组合行为识别的关键挑战。过往研究尝试从额外的监督信息中提取特征,如物体的坐标框和标签,以干扰外观特征的原始分布。但这类工作均无法直接破坏动作和物体的组合,动作和物体的特征仍交织在一起,阻碍了模型对动作本身语义的理解。
发明内容
发明目的:针对上述现有技术,提出一种基于语义解耦的自注意力模型(DeFormer)的组合动作识别方法,解决组合动作识别中因分布偏差带来模型性能下降的问题,实现对动词和物体组合的拆分,加强模型理解动作语义能力和泛化能力。
技术方案:一种基于语义解耦的自注意力模型的组合动作识别方法,包括如下步骤:
步骤1:从输入视频随机采样一定数量的帧图像,同时获得每张帧图像的物体坐标;将帧图像进行分块嵌入得到视频标记,根据物体坐标对帧图像进行特征提取获得区域标记,利用时序聚合编码获得帧序列上物体轨迹标记;
步骤2:将区域标记和轨迹标记相加后的标记与视频标记进行拼接,将拼接后的标记输入至物体-动词解耦模块,得到分类标记以及初步解耦后的外观和运动特征;
步骤3:使用文本编码器对视频真实标签中动词和物体分别进行编码得到相应文本嵌入,将步骤2得到的外观和运动特征输入至语义解耦约束模块中,分别经过特征融合单元后与相应文本嵌入计算对比损失;
步骤4:将步骤2得到的特征进行融合后与视频真实标签计算分类损失,与步骤3得到的外观对比损失和运动对比损失按权重进行相加,得到最终模型损失以优化网络;
步骤5:采用优化后的网络进行组合动作识别。
进一步的,所述步骤1包括如下具体步骤:
将输入视频随机采样T张分辨率为H×W的帧图像作为输入
Figure BDA0003997908790000021
获取每张帧图像的O个物体坐标
Figure BDA0003997908790000022
将采样的T张帧图像进行分块嵌入得到视频标记Xvid,分块嵌入使用一层3D卷积实现;
根据物体坐标对帧图像进行特征提取获得区域标记Xobj,即:
Xobj=MLP(MaxPool(RoIAlign(Xvid,B)))+Pobj
其中,RoIAlign(·,·)为感兴趣区域对齐操作,MaxPool(·)为最大池化层,MLP(·为多层感知机,Pobj为物体位置编码;
利用时序聚合编码获得帧序列上物体轨迹标记Xtraj,即:
Xtraj=ReLU(Conv1d(MLP(B)))+Ptraj
其中,Conv1d为1D卷积,ReLU为激活函数,Ptraj为轨迹位置编码。
进一步的,所述步骤2包括如下具体步骤:
将得到的区域标记Xobj和轨迹标记Xtraj相加后与视频标记Xvid、初始化后的分类标记
Figure BDA0003997908790000023
进行拼接得到视频总标记
Figure BDA0003997908790000024
并输入至物体-动词解耦模块;其中,C为特征通道数;
在物体-动词解耦模块中,经过多层自注意力得到信息交互并特征提炼后的特征
Figure BDA0003997908790000025
即:
Figure BDA0003997908790000031
其中,Wq、Wk
Figure BDA0003997908790000032
为投影权重,Attn为若干个时空注意力层构成,层数设置为8;
将得到的特征
Figure BDA0003997908790000033
在第一维度上依序拆解为特征提炼后的分类标记
Figure BDA0003997908790000034
视频标记
Figure BDA0003997908790000035
区域轨迹混合标记
Figure BDA0003997908790000036
Figure BDA0003997908790000037
赋值为分类特征
Figure BDA0003997908790000038
Figure BDA0003997908790000039
分别赋值为外观特征
Figure BDA00039979087900000310
和运动特征
Figure BDA00039979087900000311
分别再与
Figure BDA00039979087900000312
进入跨注意力层进行特征增强,得到增强后的外观特征
Figure BDA00039979087900000313
和增强后的运动特征
Figure BDA00039979087900000314
即:
Figure BDA00039979087900000315
Figure BDA00039979087900000316
其中,CAo为外观特征的跨注意力层,CAm为运动特征的跨注意力层,层数均设置为1。
进一步的,所述步骤3包括如下具体步骤:
使用冻结参数的文本编码器对视频标签中物体进行编码得到物体文本嵌入
Figure BDA00039979087900000317
Figure BDA00039979087900000318
对视频标签中动词进行编码得到动词文本嵌入
Figure BDA00039979087900000319
将增强后的外观特征
Figure BDA00039979087900000320
和增强后的运动特征
Figure BDA00039979087900000321
输入至语义解耦约束模块中,分别经过特征融合单元进行特征融合得到最终外观特征
Figure BDA00039979087900000322
最终运动特征
Figure BDA00039979087900000323
Figure BDA00039979087900000324
其中
Figure BDA00039979087900000325
为时序融合单元,
Figure BDA00039979087900000326
为空间融合单元,二者均由两层线性层组成;
利用得到的ftag、flabel对fo、fm进行语义约束,
Figure BDA00039979087900000327
Figure BDA00039979087900000328
表示语义信息对视觉信息的限制关系;在一个训练批次内,同一视频对应的
Figure BDA00039979087900000329
Figure BDA00039979087900000330
视为正样本对,不同视频视为负样本对,单个视频的损失为该视频和同一训练批次内其余视频的相似度的相反数,即:
Figure BDA00039979087900000331
Figure BDA0003997908790000041
其中,
Figure BDA0003997908790000042
分别为同一个训练批次中第i个视频的最终外观特征和物体文本嵌入,
Figure BDA0003997908790000043
为同一个训练批次中第j个视频的物体文本嵌入,
Figure BDA0003997908790000044
分别为同一个训练批次中第k个视频的最终运动特征和动词文本嵌入,
Figure BDA0003997908790000045
为同一个训练批次中第s个视频的动词文本嵌入,
Figure BDA0003997908790000046
为一个训练批次中第i个视频的外观对比损失,
Figure BDA0003997908790000047
为一个训练批次中第k个视频的运动对比损失,sim(·)是相似度计算函数,τ为温度参数,1[j≠i]∈{0,1}表示当j≠i时该函数值为1,O为一个视频的物体数量,N为批数量大小。
进一步的,所述步骤4包括如下具体步骤:
根据单个视频的损失计算同一训练批次内完整的外观对比损失
Figure BDA0003997908790000048
和运动对比损失
Figure BDA0003997908790000049
即:
Figure BDA00039979087900000410
Figure BDA00039979087900000411
将特征
Figure BDA00039979087900000412
Figure BDA00039979087900000413
进行融合后与真实标签计算分类损失
Figure BDA00039979087900000414
即:
Figure BDA00039979087900000415
其中,CE为交叉熵损失函数,y为视频对应的真实标签;fusion(·)为特征融合函数,即将三个输入在第一维度上进行维度拼接;
将得到的外观对比损失
Figure BDA00039979087900000416
运动对比损失
Figure BDA00039979087900000417
与分类损失
Figure BDA00039979087900000418
按权重进行相加,得到最终模型损失以优化网络,即:
Figure BDA00039979087900000419
其中,α,β,γ是用来平衡三个损失的超参数,分别设置为0.7,0.2和0.1。
有益效果:本发明提出了一种基于语义解耦的自注意力模型的组合动作识别方法,在STH-ELSE数据集三种划分上均取得了最先进的效果。该方法通过物体-动词解耦模块(OMD)和语义解耦约束模块(SDC),实现了对动词和物体组合的高级语义特征的解耦,缓解了组合动作识别中的由于分布偏差带来模型性能下降的问题。在OMD中设置若干初始化的可学习标记以捕捉与物体相关的时空特征,并在高层视觉空间中将学习到的时空特征进行初步解耦。在SDC中引入文本信息对OMD中构建的解耦特征进行更严格的语义层面的一致性约束,最终学习到完全解耦后的外观和运动特征。
附图说明
图1为本发明提供的流程图;
图2为本发明提供的模型框架图;
图3、图4为本发明的实验结果。
具体实施方式
下面结合附图对本发明做更进一步的解释。
为解决组合动作识别中因分布偏差带来模型性能下降的问题,本发明在高层特征空间中主动将物体特征和运动特征进行解耦,并引入文本信息进行更严格的语义层面的一致性约束,实现对动词和物体组合的拆分,加强模型理解动作语义能力和泛化能力。
如图1、图2所示,一种基于语义解耦的自注意力模型的组合动作识别方法,包括特征标记获取、动词物体解耦、语义解耦约束和损失计算四个过程。
特征标记获取包括以下步骤:
步骤1:将输入视频随机采样T张分辨率为H×W的帧图像作为输入
Figure BDA0003997908790000051
获取每张帧图像的O个物体坐标
Figure BDA0003997908790000052
将采样的T张帧图像进行分块嵌入得到视频标记Xvid,分块嵌入使用一层3D卷积实现。
步骤2:根据物体坐标对帧图像进行特征提取获得区域标记Xobj,即:
Xobj=MLP(MaxPool(RoIAlign(Xvid,B)))+Pobj
其中,RoIAlign(·,·)为感兴趣区域对齐操作,MapPool(·)为最大池化层,MLP(·为多层感知机,Pobj为物体位置编码。
步骤3:利用时序聚合编码获得帧序列上物体轨迹标记Xtraj,即:
Xtraj=ReLU(Conv1d(MLP(B)))+Ptraj
其中,Conv1d为1D卷积,ReLU为激活函数,Ptraj为轨迹位置编码。
动词物体解耦包括以下步骤:
步骤4:将步骤2得到的区域标记Xobj和步骤3得到的轨迹标记Xtraj相加后与视频标记Xvid、初始化后的分类标记
Figure BDA0003997908790000061
进行拼接得到视频总标记
Figure BDA0003997908790000062
并输入至物体-动词解耦模块;其中,C为特征通道数。
在物体-动词解耦模块中,经过多层自注意力得到信息交互并特征提炼后的特征
Figure BDA0003997908790000063
即:
Figure BDA0003997908790000064
其中,Wq、Wk
Figure BDA0003997908790000065
为投影权重,Attn为若干个时空注意力层构成,层数设置为8。其中,多层自注意力网络中,投影权重分别对应单一线性层,在网络训练完成后得到具体的权重值。
步骤5:将步骤4得到的特征
Figure BDA0003997908790000066
在第一维度上依序拆解为特征提炼后的分类标记
Figure BDA0003997908790000067
视频标记
Figure BDA0003997908790000068
区域轨迹混合标记
Figure BDA0003997908790000069
Figure BDA00039979087900000610
赋值为分类特征
Figure BDA00039979087900000611
Figure BDA00039979087900000612
分别赋值为外观特征
Figure BDA00039979087900000613
和运动特征
Figure BDA00039979087900000614
分别再与
Figure BDA00039979087900000615
进入跨注意力层进行特征增强,得到增强后的外观特征
Figure BDA00039979087900000616
和增强后的运动特征
Figure BDA00039979087900000617
即:
Figure BDA00039979087900000618
Figure BDA00039979087900000619
其中,CAo为外观特征的跨注意力层,CAm为运动特征的跨注意力层,层数均设置为1。
语义解耦约束包括以下步骤:
步骤6:使用冻结参数的文本编码器对视频标签中物体进行编码得到物体文本嵌入
Figure BDA00039979087900000620
对视频标签中动词进行编码得到动词文本嵌入
Figure BDA00039979087900000621
步骤7:将步骤5增强后的外观特征
Figure BDA00039979087900000622
和增强后的运动特征
Figure BDA00039979087900000623
输入至语义解耦约束模块中,分别经过特征融合单元进行特征融合得到最终外观特征
Figure BDA00039979087900000624
最终运动特征
Figure BDA0003997908790000071
其中
Figure BDA0003997908790000072
为时序融合单元,
Figure BDA0003997908790000073
为空间融合单元,二者均由两层线性层组成.
步骤8:利用步骤6得到的ftag、flabel对fo、fm进行语义约束,
Figure BDA0003997908790000074
Figure BDA0003997908790000075
表示语义信息对视觉信息的限制关系;在一个训练批次内,同一视频对应的
Figure BDA0003997908790000076
Figure BDA0003997908790000077
视为正样本对,不同视频视为负样本对,单个视频的损失为该视频和同一训练批次内其余视频的相似度的相反数,即:
Figure BDA0003997908790000078
Figure BDA0003997908790000079
其中,
Figure BDA00039979087900000710
分别为同一个训练批次中第i个视频的最终外观特征和物体文本嵌入,
Figure BDA00039979087900000711
为同一个训练批次中第j个视频的物体文本嵌入,
Figure BDA00039979087900000712
分别为同一个训练批次中第k个视频的最终运动特征和动词文本嵌入,
Figure BDA00039979087900000713
为同一个训练批次中第s个视频的动词文本嵌入,
Figure BDA00039979087900000714
为一个训练批次中第i个视频的外观对比损失,
Figure BDA00039979087900000715
为一个训练批次中第k个视频的运动对比损失,sim(·)是相似度计算函数,τ为温度参数,1[j≠i]∈{0,1}表示当j≠i时该函数值为1,O为一个视频的物体数量,N为批数量大小。
损失计算包括以下步骤:
步骤9:根据步骤8的单个视频的损失计算同一训练批次内完整的外观对比损失
Figure BDA00039979087900000716
和运动对比损失
Figure BDA00039979087900000717
即:
Figure BDA00039979087900000718
Figure BDA00039979087900000719
步骤10:将步骤5得到的特征
Figure BDA00039979087900000720
Figure BDA00039979087900000721
进行融合后与真实标签计算分类损失
Figure BDA00039979087900000722
即:
Figure BDA0003997908790000081
其中,CE为交叉熵损失函数,y为视频对应的真实标签;fusion(·)为特征融合函数,即将三个输入在第一维度上进行维度拼接。
步骤11:将步骤9得到的外观对比损失
Figure BDA0003997908790000082
运动对比损失
Figure BDA0003997908790000083
与步骤10得到的分类损失
Figure BDA0003997908790000084
按权重进行相加,得到最终模型损失以优化网络,即:
Figure BDA0003997908790000085
其中,α,β,γ是用来平衡三个损失的超参数,分别设置为0.7,0.2和0.1。
图3是本方法在STH-ELSE不同划分上与其他方法的结果比较,以TOP-1准确率作为评价指标,括号内代表同一方法在不同划分下的准确率下降比例。
图4是在使用真实物体坐标框的情况下,本方法与其他方法的结果比较,以TOP-1和TOP-5准确率作为评价指标。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (5)

1.一种基于语义解耦的自注意力模型的组合动作识别方法,其特征在于,包括如下步骤:
步骤1:从输入视频随机采样一定数量的帧图像,同时获得每张帧图像的物体坐标;将帧图像进行分块嵌入得到视频标记,根据物体坐标对帧图像进行特征提取获得区域标记,利用时序聚合编码获得帧序列上物体轨迹标记;
步骤2:将区域标记和轨迹标记相加后的标记与视频标记进行拼接,将拼接后的标记输入至物体-动词解耦模块,得到分类标记以及初步解耦后的外观和运动特征;
步骤3:使用文本编码器对视频真实标签中动词和物体分别进行编码得到相应文本嵌入,将步骤2得到的外观和运动特征输入至语义解耦约束模块中,分别经过特征融合单元后与相应文本嵌入计算对比损失;
步骤4:将步骤2得到的特征进行融合后与视频真实标签计算分类损失,与步骤3得到的外观对比损失和运动对比损失按权重进行相加,得到最终模型损失以优化网络;
步骤5:采用优化后的网络进行组合动作识别。
2.根据权利要求1所述的基于语义解耦的自注意力模型的组合动作识别方法,其特征在于,所述步骤1包括如下具体步骤:
将输入视频随机采样T张分辨率为H×W的帧图像作为输入
Figure FDA0003997908780000011
获取每张帧图像的O个物体坐标
Figure FDA0003997908780000012
将采样的T张帧图像进行分块嵌入得到视频标记Xvid,分块嵌入使用一层3D卷积实现;
根据物体坐标对帧图像进行特征提取获得区域标记Xobj,即:
Xobj=MLP(MaxPool(RoIAlign(Xvid,B)))+Pobj
其中,RoIAlign(·,·)为感兴趣区域对齐操作,MaxPool(·)为最大池化层,MLP(·)为多层感知机,Pobj为物体位置编码;
利用时序聚合编码获得帧序列上物体轨迹标记Xtraj,即:
Xtraj=ReLU(Conv1d(MLP(B)))+Ptraj
其中,Conv1d为1D卷积,ReLU为激活函数,Ptraj为轨迹位置编码。
3.根据权利要求2所述的基于语义解耦的自注意力模型的组合动作识别方法,其特征在于,所述步骤2包括如下具体步骤:
将得到的区域标记Xobj和轨迹标记Xtraj相加后与视频标记Xvid、初始化后的分类标记
Figure FDA0003997908780000021
进行拼接得到视频总标记
Figure FDA0003997908780000022
并输入至物体-动词解耦模块;其中,C为特征通道数;
在物体-动词解耦模块中,经过多层自注意力得到信息交互并特征提炼后的特征
Figure FDA0003997908780000023
即:
Figure FDA0003997908780000024
其中,
Figure FDA0003997908780000025
为投影权重,Attn为若干个时空注意力层构成,层数设置为8;
将得到的特征
Figure FDA0003997908780000026
在第一维度上依序拆解为特征提炼后的分类标记
Figure FDA0003997908780000027
视频标记
Figure FDA0003997908780000028
区域轨迹混合标记
Figure FDA0003997908780000029
Figure FDA00039979087800000210
赋值为分类特征
Figure FDA00039979087800000211
Figure FDA00039979087800000212
分别赋值为外观特征
Figure FDA00039979087800000213
和运动特征
Figure FDA00039979087800000214
分别再与
Figure FDA00039979087800000215
进入跨注意力层进行特征增强,得到增强后的外观特征
Figure FDA00039979087800000216
和增强后的运动特征
Figure FDA00039979087800000217
即:
Figure FDA00039979087800000218
Figure FDA00039979087800000219
其中,CAo为外观特征的跨注意力层,CAm为运动特征的跨注意力层,层数均设置为1。
4.根据权利要求3所述的基于语义解耦的自注意力模型的组合动作识别方法,其特征在于,所述步骤3包括如下具体步骤:
使用冻结参数的文本编码器对视频标签中物体进行编码得到物体文本嵌入
Figure FDA00039979087800000220
Figure FDA00039979087800000221
对视频标签中动词进行编码得到动词文本嵌入
Figure FDA00039979087800000222
将增强后的外观特征
Figure FDA00039979087800000223
和增强后的运动特征
Figure FDA00039979087800000224
输入至语义解耦约束模块中,分别经过特征融合单元进行特征融合得到最终外观特征
Figure FDA00039979087800000225
最终运动特征
Figure FDA00039979087800000226
Figure FDA00039979087800000227
其中
Figure FDA00039979087800000228
为时序融合单元,
Figure FDA00039979087800000229
为空间融合单元,二者均由两层线性层组成;
利用得到的ftag、flabel对fo、fm进行语义约束,
Figure FDA0003997908780000031
Figure FDA0003997908780000032
表示语义信息对视觉信息的限制关系;在一个训练批次内,同一视频对应的
Figure FDA0003997908780000033
Figure FDA0003997908780000034
视为正样本对,不同视频视为负样本对,单个视频的损失为该视频和同一训练批次内其余视频的相似度的相反数,即:
Figure FDA0003997908780000035
Figure FDA0003997908780000036
其中,
Figure FDA0003997908780000037
分别为同一个训练批次中第i个视频的最终外观特征和物体文本嵌入,
Figure FDA0003997908780000038
为同一个训练批次中第j个视频的物体文本嵌入,
Figure FDA0003997908780000039
分别为同一个训练批次中第k个视频的最终运动特征和动词文本嵌入,
Figure FDA00039979087800000310
为同一个训练批次中第s个视频的动词文本嵌入,
Figure FDA00039979087800000311
为一个训练批次中第i个视频的外观对比损失,
Figure FDA00039979087800000312
为一个训练批次中第k个视频的运动对比损失,sim(·)是相似度计算函数,τ为温度参数,1[j≠i]∈{0,1}表示当j≠i时该函数值为1,O为一个视频的物体数量,N为批数量大小。
5.根据权利要求4所述的基于语义解耦的自注意力模型的组合动作识别方法,其特征在于,所述步骤4包括如下具体步骤:
根据单个视频的损失计算同一训练批次内完整的外观对比损失
Figure FDA00039979087800000319
和运动对比损失
Figure FDA00039979087800000320
即:
Figure FDA00039979087800000313
Figure FDA00039979087800000314
将特征
Figure FDA00039979087800000315
Figure FDA00039979087800000316
进行融合后与真实标签计算分类损失
Figure FDA00039979087800000317
即:
Figure FDA00039979087800000318
其中,CE为交叉熵损失函数,y为视频对应的真实标签;fusion(·)为特征融合函数,即将三个输入在第一维度上进行维度拼接;
将得到的外观对比损失
Figure FDA0003997908780000041
运动对比损失
Figure FDA0003997908780000042
与分类损失
Figure FDA0003997908780000043
按权重进行相加,得到最终模型损失以优化网络,即:
Figure FDA0003997908780000044
其中,α,β,γ是用来平衡三个损失的超参数,分别设置为0.7,0.2和0.1。
CN202211606003.0A 2022-12-14 2022-12-14 一种基于语义解耦的自注意力模型的组合动作识别方法 Pending CN115953832A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211606003.0A CN115953832A (zh) 2022-12-14 2022-12-14 一种基于语义解耦的自注意力模型的组合动作识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211606003.0A CN115953832A (zh) 2022-12-14 2022-12-14 一种基于语义解耦的自注意力模型的组合动作识别方法

Publications (1)

Publication Number Publication Date
CN115953832A true CN115953832A (zh) 2023-04-11

Family

ID=87286947

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211606003.0A Pending CN115953832A (zh) 2022-12-14 2022-12-14 一种基于语义解耦的自注意力模型的组合动作识别方法

Country Status (1)

Country Link
CN (1) CN115953832A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116824151A (zh) * 2023-05-08 2023-09-29 北京邮电大学 图像特征的识别方法、装置、电子设备及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116824151A (zh) * 2023-05-08 2023-09-29 北京邮电大学 图像特征的识别方法、装置、电子设备及介质
CN116824151B (zh) * 2023-05-08 2024-04-16 北京邮电大学 图像特征的识别方法、装置、电子设备及介质

Similar Documents

Publication Publication Date Title
CN109558832B (zh) 一种人体姿态检测方法、装置、设备及存储介质
CN113936339B (zh) 基于双通道交叉注意力机制的打架识别方法和装置
CN112541501B (zh) 一种基于视觉语言建模网络的场景文字识别方法
CN110717431A (zh) 一种结合多视角注意力机制的细粒度视觉问答方法
CN106909938B (zh) 基于深度学习网络的视角无关性行为识别方法
Wang et al. Spatial–temporal pooling for action recognition in videos
CN117149944B (zh) 一种基于宽时间范畴的多模态情境情感识别方法及系统
CN116343190B (zh) 自然场景文字识别方法、系统、设备及存储介质
CN111046213B (zh) 一种基于图像识别的知识库构建方法
CN114219971A (zh) 一种数据处理方法、设备以及计算机可读存储介质
CN112668638A (zh) 一种图像美学质量评估和语义识别联合分类方法及系统
CN109766918A (zh) 基于多层次上下文信息融合的显著性物体检测方法
CN115953832A (zh) 一种基于语义解耦的自注意力模型的组合动作识别方法
CN115018215B (zh) 基于多模态认知图谱的人口居住预测方法、系统和介质
Yang et al. Student Classroom Behavior Detection Based on YOLOv7+ BRA and Multi-model Fusion
CN116955707A (zh) 内容标签的确定方法、装置、设备、介质及程序产品
Li et al. Detection of safety helmet and mask wearing using improved YOLOv5s
CN113297934A (zh) 检测互联网暴力有害场景的多模态视频行为分析方法
Yin Albert et al. Identifying and Monitoring Students’ Classroom Learning Behavior Based on Multisource Information
Wang et al. [Retracted] Aided Evaluation of Motion Action Based on Attitude Recognition
Liang et al. The Design of an Intelligent Monitoring System for Human Action
CN116824677B (zh) 表情识别方法、装置、电子设备及存储介质
CN114332884B (zh) 文档元素的识别方法、装置、设备及存储介质
Shaikh et al. Comprehensive Study on Emotion Detection with Facial Expression Images Using YOLO Models.
CN117351382A (zh) 视频对象定位方法及其装置、存储介质、程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination