CN115953832A - 一种基于语义解耦的自注意力模型的组合动作识别方法 - Google Patents
一种基于语义解耦的自注意力模型的组合动作识别方法 Download PDFInfo
- Publication number
- CN115953832A CN115953832A CN202211606003.0A CN202211606003A CN115953832A CN 115953832 A CN115953832 A CN 115953832A CN 202211606003 A CN202211606003 A CN 202211606003A CN 115953832 A CN115953832 A CN 115953832A
- Authority
- CN
- China
- Prior art keywords
- video
- decoupling
- loss
- semantic
- mark
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开了一种基于语义解耦的自注意力模型的组合动作识别方法,在STH‑ELSE数据集三种划分上均取得了最先进的效果。该方法通过物体‑动词解耦模块(OMD)和语义解耦约束模块(SDC),实现了对动词和物体组合的高级语义特征的解耦,缓解了组合动作识别中的由于分布偏差带来模型性能下降的问题。在OMD中设置若干初始化的可学习标记以捕捉与物体相关的时空特征,并在高层视觉空间中将学习到的时空特征进行初步解耦。在SDC中引入文本信息对OMD中构建的解耦特征进行更严格的语义层面的一致性约束,最终学习到完全解耦后的外观和运动特征。
Description
技术领域
本发明涉及一种计算机视觉领域中的组合动作识别方法。
背景技术
动作识别因其在人机交互、虚拟现实、社会公共安全等领域的广泛应用,已然成为计算机视觉领域的研究热点。近年来,随着大规模数据集和强劲骨干网络的不断提出,动作识别经历了快速发展,但当遇到类别未知或者分布未知的样本时,传统的动作识别基准模型表现得差强人意。这表明模型学习到的仅是很强的外观偏差,并不能真正理解动作本身的语义信息,泛化能力远不足以达到在现实世界应用的标准。
人类行为具有天然的组合性,而人类视觉感知系统理解复杂人体行为时,通常不会聚焦到物体本身,而只关心人对物体执行了何种操作,因而人类很容易从已知的行为组合来推理未见的行为组合。为进一步挑战模型的泛化能力,组合动作识别任务应运而生。该任务将每个动作都分解成一个动词和一个或多个物体的组合,并设置测试集中动词和物体的组合与训练集中的组合不重叠,这使得训练集和测试集中“动词-物体”组合分布不一。这种分布偏移期望模型加强对动作本身的语义理解,极大挑战了模型的泛化能力。
如何克服“动作-物体”组合在训练和测试集合上的偏移是组合行为识别的关键挑战。过往研究尝试从额外的监督信息中提取特征,如物体的坐标框和标签,以干扰外观特征的原始分布。但这类工作均无法直接破坏动作和物体的组合,动作和物体的特征仍交织在一起,阻碍了模型对动作本身语义的理解。
发明内容
发明目的:针对上述现有技术,提出一种基于语义解耦的自注意力模型(DeFormer)的组合动作识别方法,解决组合动作识别中因分布偏差带来模型性能下降的问题,实现对动词和物体组合的拆分,加强模型理解动作语义能力和泛化能力。
技术方案:一种基于语义解耦的自注意力模型的组合动作识别方法,包括如下步骤:
步骤1:从输入视频随机采样一定数量的帧图像,同时获得每张帧图像的物体坐标;将帧图像进行分块嵌入得到视频标记,根据物体坐标对帧图像进行特征提取获得区域标记,利用时序聚合编码获得帧序列上物体轨迹标记;
步骤2:将区域标记和轨迹标记相加后的标记与视频标记进行拼接,将拼接后的标记输入至物体-动词解耦模块,得到分类标记以及初步解耦后的外观和运动特征;
步骤3:使用文本编码器对视频真实标签中动词和物体分别进行编码得到相应文本嵌入,将步骤2得到的外观和运动特征输入至语义解耦约束模块中,分别经过特征融合单元后与相应文本嵌入计算对比损失;
步骤4:将步骤2得到的特征进行融合后与视频真实标签计算分类损失,与步骤3得到的外观对比损失和运动对比损失按权重进行相加,得到最终模型损失以优化网络;
步骤5:采用优化后的网络进行组合动作识别。
进一步的,所述步骤1包括如下具体步骤:
根据物体坐标对帧图像进行特征提取获得区域标记Xobj,即:
Xobj=MLP(MaxPool(RoIAlign(Xvid,B)))+Pobj
其中,RoIAlign(·,·)为感兴趣区域对齐操作,MaxPool(·)为最大池化层,MLP(·为多层感知机,Pobj为物体位置编码;
利用时序聚合编码获得帧序列上物体轨迹标记Xtraj,即:
Xtraj=ReLU(Conv1d(MLP(B)))+Ptraj
其中,Conv1d为1D卷积,ReLU为激活函数,Ptraj为轨迹位置编码。
进一步的,所述步骤2包括如下具体步骤:
将得到的特征在第一维度上依序拆解为特征提炼后的分类标记视频标记区域轨迹混合标记将赋值为分类特征将分别赋值为外观特征和运动特征分别再与进入跨注意力层进行特征增强,得到增强后的外观特征和增强后的运动特征即:
其中,CAo为外观特征的跨注意力层,CAm为运动特征的跨注意力层,层数均设置为1。
进一步的,所述步骤3包括如下具体步骤:
利用得到的ftag、flabel对fo、fm进行语义约束, 表示语义信息对视觉信息的限制关系;在一个训练批次内,同一视频对应的和视为正样本对,不同视频视为负样本对,单个视频的损失为该视频和同一训练批次内其余视频的相似度的相反数,即:
其中,分别为同一个训练批次中第i个视频的最终外观特征和物体文本嵌入,为同一个训练批次中第j个视频的物体文本嵌入,分别为同一个训练批次中第k个视频的最终运动特征和动词文本嵌入,为同一个训练批次中第s个视频的动词文本嵌入,为一个训练批次中第i个视频的外观对比损失,为一个训练批次中第k个视频的运动对比损失,sim(·)是相似度计算函数,τ为温度参数,1[j≠i]∈{0,1}表示当j≠i时该函数值为1,O为一个视频的物体数量,N为批数量大小。
进一步的,所述步骤4包括如下具体步骤:
其中,CE为交叉熵损失函数,y为视频对应的真实标签;fusion(·)为特征融合函数,即将三个输入在第一维度上进行维度拼接;
其中,α,β,γ是用来平衡三个损失的超参数,分别设置为0.7,0.2和0.1。
有益效果:本发明提出了一种基于语义解耦的自注意力模型的组合动作识别方法,在STH-ELSE数据集三种划分上均取得了最先进的效果。该方法通过物体-动词解耦模块(OMD)和语义解耦约束模块(SDC),实现了对动词和物体组合的高级语义特征的解耦,缓解了组合动作识别中的由于分布偏差带来模型性能下降的问题。在OMD中设置若干初始化的可学习标记以捕捉与物体相关的时空特征,并在高层视觉空间中将学习到的时空特征进行初步解耦。在SDC中引入文本信息对OMD中构建的解耦特征进行更严格的语义层面的一致性约束,最终学习到完全解耦后的外观和运动特征。
附图说明
图1为本发明提供的流程图;
图2为本发明提供的模型框架图;
图3、图4为本发明的实验结果。
具体实施方式
下面结合附图对本发明做更进一步的解释。
为解决组合动作识别中因分布偏差带来模型性能下降的问题,本发明在高层特征空间中主动将物体特征和运动特征进行解耦,并引入文本信息进行更严格的语义层面的一致性约束,实现对动词和物体组合的拆分,加强模型理解动作语义能力和泛化能力。
如图1、图2所示,一种基于语义解耦的自注意力模型的组合动作识别方法,包括特征标记获取、动词物体解耦、语义解耦约束和损失计算四个过程。
特征标记获取包括以下步骤:
步骤2:根据物体坐标对帧图像进行特征提取获得区域标记Xobj,即:
Xobj=MLP(MaxPool(RoIAlign(Xvid,B)))+Pobj
其中,RoIAlign(·,·)为感兴趣区域对齐操作,MapPool(·)为最大池化层,MLP(·为多层感知机,Pobj为物体位置编码。
步骤3:利用时序聚合编码获得帧序列上物体轨迹标记Xtraj,即:
Xtraj=ReLU(Conv1d(MLP(B)))+Ptraj
其中,Conv1d为1D卷积,ReLU为激活函数,Ptraj为轨迹位置编码。
动词物体解耦包括以下步骤:
步骤5:将步骤4得到的特征在第一维度上依序拆解为特征提炼后的分类标记视频标记区域轨迹混合标记将赋值为分类特征将分别赋值为外观特征和运动特征分别再与进入跨注意力层进行特征增强,得到增强后的外观特征和增强后的运动特征即:
其中,CAo为外观特征的跨注意力层,CAm为运动特征的跨注意力层,层数均设置为1。
语义解耦约束包括以下步骤:
步骤8:利用步骤6得到的ftag、flabel对fo、fm进行语义约束, 表示语义信息对视觉信息的限制关系;在一个训练批次内,同一视频对应的和视为正样本对,不同视频视为负样本对,单个视频的损失为该视频和同一训练批次内其余视频的相似度的相反数,即:
其中,分别为同一个训练批次中第i个视频的最终外观特征和物体文本嵌入,为同一个训练批次中第j个视频的物体文本嵌入,分别为同一个训练批次中第k个视频的最终运动特征和动词文本嵌入,为同一个训练批次中第s个视频的动词文本嵌入,为一个训练批次中第i个视频的外观对比损失,为一个训练批次中第k个视频的运动对比损失,sim(·)是相似度计算函数,τ为温度参数,1[j≠i]∈{0,1}表示当j≠i时该函数值为1,O为一个视频的物体数量,N为批数量大小。
损失计算包括以下步骤:
其中,CE为交叉熵损失函数,y为视频对应的真实标签;fusion(·)为特征融合函数,即将三个输入在第一维度上进行维度拼接。
其中,α,β,γ是用来平衡三个损失的超参数,分别设置为0.7,0.2和0.1。
图3是本方法在STH-ELSE不同划分上与其他方法的结果比较,以TOP-1准确率作为评价指标,括号内代表同一方法在不同划分下的准确率下降比例。
图4是在使用真实物体坐标框的情况下,本方法与其他方法的结果比较,以TOP-1和TOP-5准确率作为评价指标。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (5)
1.一种基于语义解耦的自注意力模型的组合动作识别方法,其特征在于,包括如下步骤:
步骤1:从输入视频随机采样一定数量的帧图像,同时获得每张帧图像的物体坐标;将帧图像进行分块嵌入得到视频标记,根据物体坐标对帧图像进行特征提取获得区域标记,利用时序聚合编码获得帧序列上物体轨迹标记;
步骤2:将区域标记和轨迹标记相加后的标记与视频标记进行拼接,将拼接后的标记输入至物体-动词解耦模块,得到分类标记以及初步解耦后的外观和运动特征;
步骤3:使用文本编码器对视频真实标签中动词和物体分别进行编码得到相应文本嵌入,将步骤2得到的外观和运动特征输入至语义解耦约束模块中,分别经过特征融合单元后与相应文本嵌入计算对比损失;
步骤4:将步骤2得到的特征进行融合后与视频真实标签计算分类损失,与步骤3得到的外观对比损失和运动对比损失按权重进行相加,得到最终模型损失以优化网络;
步骤5:采用优化后的网络进行组合动作识别。
2.根据权利要求1所述的基于语义解耦的自注意力模型的组合动作识别方法,其特征在于,所述步骤1包括如下具体步骤:
根据物体坐标对帧图像进行特征提取获得区域标记Xobj,即:
Xobj=MLP(MaxPool(RoIAlign(Xvid,B)))+Pobj
其中,RoIAlign(·,·)为感兴趣区域对齐操作,MaxPool(·)为最大池化层,MLP(·)为多层感知机,Pobj为物体位置编码;
利用时序聚合编码获得帧序列上物体轨迹标记Xtraj,即:
Xtraj=ReLU(Conv1d(MLP(B)))+Ptraj
其中,Conv1d为1D卷积,ReLU为激活函数,Ptraj为轨迹位置编码。
3.根据权利要求2所述的基于语义解耦的自注意力模型的组合动作识别方法,其特征在于,所述步骤2包括如下具体步骤:
将得到的特征在第一维度上依序拆解为特征提炼后的分类标记视频标记区域轨迹混合标记将赋值为分类特征将分别赋值为外观特征和运动特征分别再与进入跨注意力层进行特征增强,得到增强后的外观特征和增强后的运动特征即:
其中,CAo为外观特征的跨注意力层,CAm为运动特征的跨注意力层,层数均设置为1。
4.根据权利要求3所述的基于语义解耦的自注意力模型的组合动作识别方法,其特征在于,所述步骤3包括如下具体步骤:
利用得到的ftag、flabel对fo、fm进行语义约束, 表示语义信息对视觉信息的限制关系;在一个训练批次内,同一视频对应的和视为正样本对,不同视频视为负样本对,单个视频的损失为该视频和同一训练批次内其余视频的相似度的相反数,即:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211606003.0A CN115953832A (zh) | 2022-12-14 | 2022-12-14 | 一种基于语义解耦的自注意力模型的组合动作识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211606003.0A CN115953832A (zh) | 2022-12-14 | 2022-12-14 | 一种基于语义解耦的自注意力模型的组合动作识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115953832A true CN115953832A (zh) | 2023-04-11 |
Family
ID=87286947
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211606003.0A Pending CN115953832A (zh) | 2022-12-14 | 2022-12-14 | 一种基于语义解耦的自注意力模型的组合动作识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115953832A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116824151A (zh) * | 2023-05-08 | 2023-09-29 | 北京邮电大学 | 图像特征的识别方法、装置、电子设备及介质 |
-
2022
- 2022-12-14 CN CN202211606003.0A patent/CN115953832A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116824151A (zh) * | 2023-05-08 | 2023-09-29 | 北京邮电大学 | 图像特征的识别方法、装置、电子设备及介质 |
CN116824151B (zh) * | 2023-05-08 | 2024-04-16 | 北京邮电大学 | 图像特征的识别方法、装置、电子设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109558832B (zh) | 一种人体姿态检测方法、装置、设备及存储介质 | |
CN113936339B (zh) | 基于双通道交叉注意力机制的打架识别方法和装置 | |
CN112541501B (zh) | 一种基于视觉语言建模网络的场景文字识别方法 | |
CN110717431A (zh) | 一种结合多视角注意力机制的细粒度视觉问答方法 | |
CN106909938B (zh) | 基于深度学习网络的视角无关性行为识别方法 | |
Wang et al. | Spatial–temporal pooling for action recognition in videos | |
CN117149944B (zh) | 一种基于宽时间范畴的多模态情境情感识别方法及系统 | |
CN116343190B (zh) | 自然场景文字识别方法、系统、设备及存储介质 | |
CN111046213B (zh) | 一种基于图像识别的知识库构建方法 | |
CN114219971A (zh) | 一种数据处理方法、设备以及计算机可读存储介质 | |
CN112668638A (zh) | 一种图像美学质量评估和语义识别联合分类方法及系统 | |
CN109766918A (zh) | 基于多层次上下文信息融合的显著性物体检测方法 | |
CN115953832A (zh) | 一种基于语义解耦的自注意力模型的组合动作识别方法 | |
CN115018215B (zh) | 基于多模态认知图谱的人口居住预测方法、系统和介质 | |
Yang et al. | Student Classroom Behavior Detection Based on YOLOv7+ BRA and Multi-model Fusion | |
CN116955707A (zh) | 内容标签的确定方法、装置、设备、介质及程序产品 | |
Li et al. | Detection of safety helmet and mask wearing using improved YOLOv5s | |
CN113297934A (zh) | 检测互联网暴力有害场景的多模态视频行为分析方法 | |
Yin Albert et al. | Identifying and Monitoring Students’ Classroom Learning Behavior Based on Multisource Information | |
Wang et al. | [Retracted] Aided Evaluation of Motion Action Based on Attitude Recognition | |
Liang et al. | The Design of an Intelligent Monitoring System for Human Action | |
CN116824677B (zh) | 表情识别方法、装置、电子设备及存储介质 | |
CN114332884B (zh) | 文档元素的识别方法、装置、设备及存储介质 | |
Shaikh et al. | Comprehensive Study on Emotion Detection with Facial Expression Images Using YOLO Models. | |
CN117351382A (zh) | 视频对象定位方法及其装置、存储介质、程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |