CN113065451A - 一种多模态融合的动作识别装置、方法和存储介质 - Google Patents

一种多模态融合的动作识别装置、方法和存储介质 Download PDF

Info

Publication number
CN113065451A
CN113065451A CN202110336423.0A CN202110336423A CN113065451A CN 113065451 A CN113065451 A CN 113065451A CN 202110336423 A CN202110336423 A CN 202110336423A CN 113065451 A CN113065451 A CN 113065451A
Authority
CN
China
Prior art keywords
layer
extraction part
information extraction
convolution
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110336423.0A
Other languages
English (en)
Other versions
CN113065451B (zh
Inventor
桑高丽
卢丽
黄俊洁
闫超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Yifei Technology Co ltd
Original Assignee
Sichuan Yifei Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Yifei Technology Co ltd filed Critical Sichuan Yifei Technology Co ltd
Priority to CN202110336423.0A priority Critical patent/CN113065451B/zh
Publication of CN113065451A publication Critical patent/CN113065451A/zh
Application granted granted Critical
Publication of CN113065451B publication Critical patent/CN113065451B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • G06V20/42Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content

Abstract

本发明公开了一种多模态融合的动作识别装置、方法和存储介质,本发明的网络模型结构分为主干特征提取部分和识别分类部分,可端到端的进行模型训练;其中,所述的主干特征提取部分分为空间信息提取部分和时序信息提取部分,两部分采用串行结构搭建;所述的空间信息提取部分网络采用卷积网络构建,并行采用步长不同卷积核的卷积层模拟目标平移情况,减弱模型对目标偏移的敏感性;所述的时序信息提取部分采用变形注意力机制来提取帧与帧之间的关联信息。本发明从空间域和时间域上将多模态信息融合训练模型性能,减少模型过拟合情况,提高了动作识别准确率。

Description

一种多模态融合的动作识别装置、方法和存储介质
技术领域
本发明属于动作识别的技术领域,具体涉及一种多模态融合的动作识别装置、方法和存储介质。
背景技术
随着人工智能技术的快速发展,智能设备逐步渗入人们的生活中,广泛应用于各种现实场景中,比如智能监控、人机交互、无人驾驶、支付系统等等。基于视频数据研发的算法技术是深度学习领域中较为重要的研究方向之一,是一种利用计算机对视频图像进行理解的方法,给予机器感知三维世界的能力,所以受到众多学者的研究关注。
动作识别是理解视频数据中人类的运动信息的一门技术,通过对视频序列帧图像提取特征达到分类识别的目的,主要用于人机交互系统、智能交通等场景中。在动作识别技术的发展史中,依次出现了基于人工特征的传统方法和基于深度学习技术的识别方法,近几年,因为基于深度学习技术的识别方法取得了令人满意的识别性能,逐渐成为主流,大致分为三类:时空双流法、三维卷积法以及时序网络法。时空双流法是利用帧图像和密集光流分别训练卷积神经网络,然后对得分进行融合分类,但是这种方法对长时间跨度场景的适用性较差,提取的时序信息有限。其次,三维卷积法是利用三维卷积核提取视频数据的时序和空间特征进行分类识别,但是三维卷积操作计算量较大,大大影响算法的效率。最后,时序网络法是将卷积神经网络和循环网络结合训练视频数据的方法,是近期最为有效的动作识别方法。
目前,大多数动作识别方法采用时序网络法处理视频帧数据,虽然循环网络在动作识别领域取得了良好的性能,但循环网络训练时也会出现较大的计算量,并且在训练时出现梯度发散降低表达能力。因此,急需提出一种在保留性能优势的情况下降低计算量的动作识别方法,简洁易操作。
发明内容
本发明的目的在于提供一种多模态融合的动作识别装置、方法和存储介质,旨在解决上述问题。
本发明主要通过以下技术方案实现:
一种多模态融合的动作识别装置,包括数据采集模块、训练模块、输入模块;所述数据采集模块用于收集包含已标注的动作视频片段数据并形成训练样本;所述训练模块用于将训练样本输入网络模型进行训练;所述输入模块用于将待识别样本输入训练后的网络模型并输出动作识别结果;
所述网络模型包括主干特征提取部分和识别分类部分,首先将训练样本处理成多模态信息,并输入主干特征提取部分依次提取空间特征和时序特征,然后输送到识别分类部分进行分类处理;所述主干特征提取部分由串行结构依次搭建的空间信息提取部分、特征变形层、时序信息提取部分组成;所述空间信息提取部分采用卷积网络,并采用步长不同卷积核的卷积层模拟目标平移情况;所述时序信息提取部分采用注意力机制提取帧与帧之间的关联信息。
本发明整体网络模型结构分为主干特征提取部分和识别分类部分,可端到端的进行模型训练;其中,所述的主干特征提取部分分为空间信息提取部分和时序信息提取部分,两部分采用串行结构搭建;所述的空间信息提取部分网络采用卷积网络构建,并行采用步长不同卷积核的卷积层模拟目标平移情况,减弱模型对目标偏移的敏感性;所述的时序信息提取部分采用变形注意力机制来提取帧与帧之间的关联信息。本发明从空间域和时间域上将多模态信息融合训练模型性能,减少模型过拟合情况,提高动作识别准确率。
为了更好地实现本发明,进一步地,所述空间信息提取部分由从前至后依次设置的并行卷积模块、卷积层、批归一化层、激活函数层组成;所述时序信息提取部分由从前至后依次设置的特征稀疏层、嵌入位置向量层、若干个多头自注意力模块、全连接层、层归一化层、激活函数层组成。
为了更好地实现本发明,进一步地,所述并行卷积模块利用卷积操作带来的特征偏移模拟目标在场景中的位移,所述并行卷积模块由从前至后依次设置的特征切片层、若干个单元模块以及特征拼接层组成,所述单元模块由从前至后依次连接的一维卷积层、卷积层、激活函数层组成;所述并行卷积模块由4个分支构成,且从上至下并将不同分支的卷积核的步长设为3、2、1、1。
为了更好地实现本发明,进一步地,所述特征稀疏层采用L1正则化算法;所述空间信息提取部分的激活函数为参数修正线性单元层,所述时序信息提取部分的激活函数为高斯误差线性单元层。
为了更好地实现本发明,进一步地,所述识别分类部分由从前至后依次设置的全连接层、神经元失活层、激活函数层、柔性最大值层组成。
为了更好地实现本发明,进一步地,还包括多模态信息处理层,用于将训练样本中的RBG图像生成光流图和变形光流图,并与原RGB图像组成5通道数据用于网络模型训练。
本发明主要通过以下技术方案实现:
一种多模态融合的动作识别方法,采用上述的识别装置进行,包括以下步骤:
步骤S100:收集包含已标注的动作视频片段数据,并按设定的帧数打包成训练样本输入网络模型中训练;
步骤S200:搭建网络模型,将训练样本输入到网络模型中进行训练;
步骤S300:利用损失函数计算预测概率与真实类别标签之间的损失值;初始化学习率和相关超参数,使用预先训练的模型初始化时序信息提取部分,随机初始化空间信息提取部分,然后选用优化器对损失值进行优化,方向传播更新权重参数,直至迭代次数达到最大迭代次数,最后测试损失值收敛并稳定时得到的网络模型,得到最优网络模型;
步骤S400:将待测的样本输入到最优网络模型并输出动作识别的结果。
为了更好地实现本发明,进一步地,所述步骤S200包括以下步骤:
步骤S201:首先输入网络模型的图像数据维度为[B,Nframe,H,W,3],经多模态信息处理层之后特征维度变为[B,Nframe,H,W,5],将光流图和变形光流图组装到原先的数据上变成5通道数据;
步骤S202:然后由空间信息提取部分加工之后特征输入维度变为
Figure BDA0002997865640000031
其次,需使用特征变形层将特征的维度变为[B,Nframe,C];
步骤S203:最后输入到时序信息提取部分进一步增强特征的表达能力;
其中:B表示批处理大小;
Nframe表示输入帧图像的数量,设为6;
H表示原图像的高;
W表示原图像的宽;
stride表示空间信息提取部分的下采样倍数;
filter表示经空间信息提取部分处理后的通道数;
C表示变换之后的通道数。
本发明主要通过以下技术方案实现:
一种计算机可读存储介质,存储有计算机程序指令,所述程序指令被处理器执行时实现上述动作识别的方法。
因为动作识别模型需处理视频类数据,数据中存在动作轨迹和目标偏移,所以大多数动作识别模型采用RGB图像和光流图相结合学习,但是这样的操作只能一定程度上减少模型对目标偏移的缺陷,所以本发明引入并行卷积模块,利用这种不同步长卷积核操作产生的特征偏差模拟目标发生偏移的场景,增强模型对目标产生的偏移的泛化性,能更好的适应目标的动作,从而增强动作识别的准确率。
如果单纯的使用原始的变形注意力机制构建时序信息提取部分,会造成计算量的增加,所以本发明构建了特征稀疏层进行特征自由选取,去除冗余特征信息,再者,使用位置编码机制对空间信息提取部分获取的特征块进行编码,规则是按输入帧图像的序列进行排序,从而可以并行性地计算每帧特征之间的交互信息,提高了特征信息的利用率。所以可得,通过这些方法可以提高特征信息的质量且提高利用率,可以增强网络模型对序列图像的表达能力,从而增强动作识别的准确率。
在训练模型时,输入序列帧图像,经多模态信息预处理层处理后输送到空间信息提取部分中,通过卷积层提取帧图像的空间信息,但动作识别的场景中目标产生的位置移动更加巨大,所以这部分网络为了增强卷积特征的平移不变性,添加了并行卷积模块。因为特征在不同步长的卷积核处理下,会造成特征值与原图像对应位置的偏差,所以本发明利用这种偏差模拟目标发生偏移的场景,从而设计引入了并行卷积模块。并行卷积模块由4个分支构成,从上至下步长分别设为3、2、1、1,形成梯度特征偏差,并且利用特征相加融合层进行不同层次的融合,减少特征在不同步长的卷积核的处理下导致的细节信息的丢失,最后输出按序列帧图像顺序组成的特征块。
空间信息提取部分输出的特征块需用特征变形层改变维度,从而适应后续处理。时序信息提取部分网络接受处理后的特征块,先用特征稀疏层去除冗余信息,提高信息质量,然后按输入时帧图像的排序对特征块进行排序,再输入到多头自注意力模块中提取排序后特征块之间的交互信息,最后输送到识别分类部分进行识别。
主干特征提取部分是依次提取空间特征和时序特征,在提取空间特征部分的网络中加入并行卷积模块,从空间域上增强了特征信息对目标的位置表达能力,这是第一次加强特征信息。然后空间特征块变形维度后输入到时序特征提取部分,但空间特征块中包含较大的冗余信息,可能会给模型带来额外的噪声,所以时序特征提取部分利用到特征稀疏层对冗余特征进行去除,达到提高特征质量的目的,而且通过对特征块进行位置编码,能更大程度地利用多头自注意力模块提取序列帧图像之间的交互信息,这是第二次增强特征信息。本发明在模型中分别从空间域和时间域方面对特征信息进行加强,更大幅度地增加了特征信息对序列图像包含信息的表达能力。
本发明的有益效果:
(1)本发明根据需求搭建不同特性的网络结构,从空间域和时间域上将多模态信息融合训练模型性能,减少模型过拟合情况,提高动作识别准确率;
(2)本发明提出了一种并行卷积模块,通过利用不同步长的卷积核的计算特性模拟目标的移动,增强特征的平移不变性,减弱模型对目标移动的敏感性;
(3)本发明提出了一种多模态信息融合方法,利用RGB图像生成生成光流图和变形光流图,最后与原RGB图像组成5通道数据用于模型训练,使模型在训练过程中增加对光流图的学习,提高模型对运动轨迹的识别能力;
(4)本发明提出一种动作识别模型构建的方法,根据需求搭建不同特性的网络结构,从空间域和时间域上将多模态信息融合训练模型性能,减少模型过拟合情况,提高动作识别准确率。
附图说明
图1为本发明整体网络结构示意图;
图2为时序信息提取部分网络结构示意图;
图3为空间信息提取部分网络结构示意图;
图4为并行卷积模块的结构示意图。
具体实施方式
实施例1:
一种多模态融合的动作识别装置,包括数据采集模块、训练模块、输入模块;所述数据采集模块用于收集包含已标注的动作视频片段数据并形成训练样本;所述训练模块用于将训练样本输入网络模型进行训练;所述输入模块用于将待识别样本输入训练后的网络模型并输出动作识别结果。
如图1所示,所述网络模型包括主干特征提取部分和识别分类部分,首先将训练样本处理成多模态信息,并输入主干特征提取部分依次提取空间特征和时序特征,然后输送到识别分类部分进行分类处理;所述主干特征提取部分由串行结构依次搭建的空间信息提取部分、特征变形层、时序信息提取部分组成;所述空间信息提取部分采用卷积网络,并采用步长不同卷积核的卷积层模拟目标平移情况;所述时序信息提取部分采用注意力机制提取帧与帧之间的关联信息。
进一步地,如图1所示,所述识别分类部分由从前至后依次设置的全连接层、神经元失活层、激活函数层、柔性最大值层组成。
本发明整体网络模型结构分为主干特征提取部分和识别分类部分,可端到端的进行模型训练;其中,所述的主干特征提取部分分为空间信息提取部分和时序信息提取部分,两部分采用串行结构搭建;所述的空间信息提取部分网络采用卷积网络构建,并行采用步长不同卷积核的卷积层模拟目标平移情况,减弱模型对目标偏移的敏感性;所述的时序信息提取部分采用变形注意力机制来提取帧与帧之间的关联信息。本发明从空间域和时间域上将多模态信息融合训练模型性能,减少模型过拟合情况,提高动作识别准确率。
实施例2:
本实施例是在实施例1的基础上进行优化,如图3所示,所述空间信息提取部分由从前至后依次设置的并行卷积模块、卷积层、批归一化层、激活函数层组成;如图2所示,所述时序信息提取部分由从前至后依次设置的特征稀疏层、嵌入位置向量层、若干个多头自注意力模块、全连接层、层归一化层、激活函数层组成。
进一步地,如图4所示,所述并行卷积模块利用卷积操作带来的特征偏移模拟目标在场景中的位移,所述并行卷积模块由从前至后依次设置的特征切片层、若干个单元模块以及特征拼接层组成,所述单元模块由从前至后依次连接的一维卷积层、卷积层、激活函数层组成。所述并行卷积模块由4个分支构成,且从上至下并将不同分支的卷积核的步长设为3、2、1、1。
进一步地,所述特征稀疏层采用L1正则化算法,去除冗余的特征信息,达到减少计算量的目的,实现特征信息的自动选择,所以时序信息提取部分的作用是在保证动作识别率的前提下,减少计算量,简化训练过程。所述空间信息提取部分的激活函数为参数修正线性单元层,所述时序信息提取部分的激活函数为高斯误差线性单元层。
进一步地,还包括多模态信息处理层,用于将训练样本中的RBG图像生成光流图和变形光流图,并与原RGB图像组成5通道数据用于网络模型训练。
本发明引入并行卷积模块,利用这种不同步长卷积核操作产生的特征偏差模拟目标发生偏移的场景,增强模型对目标产生的偏移的泛化性,能更好的适应目标的动作,从而增强动作识别的准确率。
本发明构建了特征稀疏层进行特征自由选取,去除冗余特征信息,再者,使用位置编码机制对空间信息提取部分获取的特征块进行编码,规则是按输入帧图像的序列进行排序,从而可以并行性地计算每帧特征之间的交互信息,提高了特征信息的利用率。所以可得,通过这些方法可以提高特征信息的质量且提高利用率,可以增强网络模型对序列图像的表达能力,从而增强动作识别的准确率。
本实施例的其他部分与实施例1相同,故不再赘述。
实施例3:
一种多模态融合的动作识别方法,采用上述的识别装置进行,包括以下步骤:
步骤S100:收集包含已标注的动作视频片段数据,并按设定的帧数打包成训练样本输入网络模型中训练;
步骤S200:搭建网络模型,将训练样本输入到网络模型中进行训练;
步骤S300:利用损失函数计算预测概率与真实类别标签之间的损失值;初始化学习率和相关超参数,使用预先训练的模型初始化时序信息提取部分,随机初始化空间信息提取部分,然后选用优化器对损失值进行优化,方向传播更新权重参数,直至迭代次数达到最大迭代次数,最后测试损失值收敛并稳定时得到的网络模型,得到最优网络模型;
步骤S400:将待测的样本输入到最优网络模型并输出动作识别的结果。
进一步地,所述步骤S200包括以下步骤:
步骤S201:首先输入网络模型的图像数据维度为[B,Nframe,H,W,3],经多模态信息处理层之后特征维度变为[B,Nframe,H,W,5],将光流图和变形光流图组装到原先的数据上变成5通道数据;
步骤S202:然后由空间信息提取部分加工之后特征输入维度变为
Figure BDA0002997865640000071
其次,需使用特征变形层将特征的维度变为[B,Nframe,C];
步骤S203:最后输入到时序信息提取部分进一步增强特征的表达能力;
其中:B表示批处理大小;
Nframe表示输入帧图像的数量,设为6;
H表示原图像的高;
W表示原图像的宽;
stride表示空间信息提取部分的下采样倍数;
filter表示经空间信息提取部分处理后的通道数;
C表示变换之后的通道数。
在训练模型时,输入序列帧图像,经多模态信息预处理层处理后输送到空间信息提取部分中,通过卷积层提取帧图像的空间信息。并行卷积模块由4个分支构成,从上至下步长分别设为3、2、1、1,形成梯度特征偏差,并且利用特征相加融合层进行不同层次的融合,减少特征在不同步长的卷积核的处理下导致的细节信息的丢失,最后输出按序列帧图像顺序组成的特征块。
实施例4:
一种多模态融合的动作识别方法,通过搭建不同特性的网络部分,依次提取多模态信息的空间特征和时序特征,实现在保持良好性能的情况下减少计算量的目的,包括以下步骤:
收集包含已标注的动作视频片段数据,按设定的帧数打包成训练样本;
按照设计的网络结构搭建模型,整体结构分为主干特征提取部分和识别分类部分。在模型的开端将样本处理成多模态信息,然后再输入到主干特征提取部分网络依次提取空间特征和时序特征,最后输送到识别分类部分进行处理;
利用损失函数计算预测概率与真实类别标签之间的损失值;
初始化学习率和相关超参数,其中,使用预先训练的模型初始化时序信息提取部分,随机初始化空间信息提取部分,然后选用优化器对损失值进行优化,方向传播更新权重参数,直至迭代次数达到最大迭代次数,最后测试损失值收敛并稳定时得到的模型。
进一步地,如图1所示,网络模型分为主干特征提取部分和识别分类部分。在模型的开端将样本处理成多模态信息,然后再输入到主干特征提取部分网络依次提取空间特征和时序特征,最后输送到识别分类部分进行处理。主干特征提取部分分为空间信息提取部分和时序信息提取部分,两部分采用串行结构搭建,中间使用特征变形层连接。
进一步地,如图3所示,空间信息提取部分主要由卷积层组成,主要利用卷积操作提取目标图像的空间特征,从前至后并行卷积模块、卷积层、批归一化层、激活函数层依次堆叠组成,如图4所示,其中,并行卷积模块前至后由特征切片层、一维卷积层、卷积层、激活函数层、特征拼接层构成,且从上至下并将不同分支的卷积核的步长设为3、2、1、1,并行采用步长不同的卷积核模拟目标平移情况,减弱模型对目标偏移的敏感性。如图2所示,而时序信息提取部分主要由特征稀疏层、嵌入位置向量层、若干个多头自注意力模块、全连接层、激活函数层按规则搭建,如图2所示,其中,特征稀疏层采用L1正则化算法,去除冗余的特征信息,达到减少计算量的目的,实现特征信息的自动选择,这部分网络结构主要是利用多头自注意力模块提取帧图像之间的时序特征。
进一步地,首先输入网络模型的图像数据维度为[B,Nframe,H,W,3],经多模态信息处理层之后特征维度变为[B,Nframe,H,W,5],将光流图和变形光流图组装到原先的数据上变成5通道数据;然后由空间信息提取部分加工之后特征输入维度变为
Figure BDA0002997865640000081
其次,需使用特征变形层将特征的维度变为[B,Nframe,C];最后输入到时序信息提取部分进一步增强特征的表达能力。
其中:B表示批处理大小;
Nframe表示输入帧图像的数量,设为6;
H表示原图像的高;
W表示原图像的宽;
stride表示空间信息提取部分的下采样倍数;
filter表示经空间信息提取部分处理后的通道数;
C表示变换之后的通道数。
进一步地,在训练网络之前,初始化学习率和相关超参数,其中,使用预先训练的模型初始化时序信息提取部分,随机初始化空间信息提取部分,然后使用交叉熵损失函数计算损失值,损失函数计算公式如下:
Figure BDA0002997865640000091
其中,
Figure BDA0002997865640000092
为预测的动作类别概率值,yi为人工标注的动作类别标签,N为批处理大小,下标i为样本的索引,然后选用优化器对损失值进行优化,反向传播更新权重参数,直至迭代次数达到最大迭代次数,最后测试损失值收敛并稳定时得到的模型。
本发明构建的动作识别网络较于循环神经网络,搭建更简单,性能更强。由实验可得,使用多模态信息训练模型能大大提高特征的表达能力,并且从空间域和时间域方面思考构建不同特性的网络部分,一定程度上优化了模型计算量,增强识别性能。
以上所述,仅是本发明的较佳实施例,并非对本发明做任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化,均落入本发明的保护范围之内。

Claims (10)

1.一种多模态融合的动作识别装置,其特征在于,包括数据采集模块、训练模块、输入模块;所述数据采集模块用于收集包含已标注的动作视频片段数据并形成训练样本;所述训练模块用于将训练样本输入网络模型进行训练;所述输入模块用于将待识别样本输入训练后的网络模型并输出动作识别结果;
所述网络模型包括主干特征提取部分和识别分类部分,首先将训练样本处理成多模态信息,并输入主干特征提取部分依次提取空间特征和时序特征,然后输送到识别分类部分进行分类处理;所述主干特征提取部分由串行结构依次搭建的空间信息提取部分、特征变形层、时序信息提取部分组成;所述空间信息提取部分采用卷积网络,并采用步长不同卷积核的卷积层模拟目标平移情况;所述时序信息提取部分采用注意力机制提取帧与帧之间的关联信息。
2.根据权利要求1所述的一种多模态融合的动作识别装置,其特征在于,所述空间信息提取部分由从前至后依次设置的并行卷积模块、卷积层、批归一化层、激活函数层组成;所述时序信息提取部分由从前至后依次设置的特征稀疏层、嵌入位置向量层、若干个多头自注意力模块、全连接层、层归一化层、激活函数层组成。
3.根据权利要求2所述的一种多模态融合的动作识别装置,其特征在于,所述并行卷积模块利用卷积操作带来的特征偏移模拟目标在场景中的位移,所述并行卷积模块由从前至后依次设置的特征切片层、若干个单元模块以及特征拼接层组成,所述单元模块由从前至后依次连接的一维卷积层、卷积层、激活函数层组成。
4.根据权利要求3所述的一种多模态融合的动作识别装置,其特征在于,所述并行卷积模块由4个分支构成,且从上至下并将不同分支的卷积核的步长设为3、2、1、1。
5.根据权利要求2所述的一种多模态融合的动作识别装置,其特征在于,所述特征稀疏层采用L1正则化算法;所述空间信息提取部分的激活函数为参数修正线性单元层,所述时序信息提取部分的激活函数为高斯误差线性单元层。
6.根据权利要求1-5任一项所述的一种多模态融合的动作识别装置,其特征在于,所述识别分类部分由从前至后依次设置的全连接层、神经元失活层、激活函数层、柔性最大值层组成。
7.根据权利要求1所述的一种多模态融合的动作识别装置,其特征在于,还包括多模态信息处理层,用于将训练样本中的RBG图像生成光流图和变形光流图,并与原RGB图像组成5通道数据用于网络模型训练。
8.一种多模态融合的动作识别方法,采用权利要求1-6任一项所述的识别装置进行,其特征在于,包括以下步骤:
步骤S100:收集包含已标注的动作视频片段数据,并按设定的帧数打包成训练样本输入网络模型中训练;
步骤S200:搭建网络模型,将训练样本输入到网络模型中进行训练;
步骤S300:利用损失函数计算预测概率与真实类别标签之间的损失值;初始化学习率和相关超参数,使用预先训练的模型初始化时序信息提取部分,随机初始化空间信息提取部分,然后选用优化器对损失值进行优化,方向传播更新权重参数,直至迭代次数达到最大迭代次数,最后测试损失值收敛并稳定时得到的网络模型,得到最优网络模型;
步骤S400:将待测的样本输入到最优网络模型并输出动作识别的结果。
9.根据权利要求8所述的一种多模态融合的动作识别方法,其特征在于,所述步骤S200包括以下步骤:
步骤S201:首先输入网络模型的图像数据维度为[B,Nframe,H,W,3],经多模态信息处理层之后特征维度变为[B,Nframe,H,W,5],将光流图和变形光流图组装到原先的数据上变成5通道数据;
步骤S202:然后由空间信息提取部分加工之后特征输入维度变为
Figure FDA0002997865630000021
其次,需使用特征变形层将特征的维度变为[B,Nframe,C];
步骤S203:最后输入到时序信息提取部分进一步增强特征的表达能力;
其中:B表示批处理大小;
Nframe表示输入帧图像的数量,设为6;
H表示原图像的高;
W表示原图像的宽;
stride表示空间信息提取部分的下采样倍数;
filter表示经空间信息提取部分处理后的通道数;
C表示变换之后的通道数。
10.一种计算机可读存储介质,存储有计算机程序指令,其特在于,所述程序指令被处理器执行时实现权利要求8或9所述的方法。
CN202110336423.0A 2021-03-29 2021-03-29 一种多模态融合的动作识别装置、方法和存储介质 Active CN113065451B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110336423.0A CN113065451B (zh) 2021-03-29 2021-03-29 一种多模态融合的动作识别装置、方法和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110336423.0A CN113065451B (zh) 2021-03-29 2021-03-29 一种多模态融合的动作识别装置、方法和存储介质

Publications (2)

Publication Number Publication Date
CN113065451A true CN113065451A (zh) 2021-07-02
CN113065451B CN113065451B (zh) 2022-08-09

Family

ID=76564338

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110336423.0A Active CN113065451B (zh) 2021-03-29 2021-03-29 一种多模态融合的动作识别装置、方法和存储介质

Country Status (1)

Country Link
CN (1) CN113065451B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113408349A (zh) * 2021-05-17 2021-09-17 浙江大华技术股份有限公司 动作评价模型的训练方法、动作评价方法及相关设备
CN113554125A (zh) * 2021-09-18 2021-10-26 四川翼飞视科技有限公司 结合全局与局部特征的目标检测装置、方法和存储介质
CN115294644A (zh) * 2022-06-24 2022-11-04 北京昭衍新药研究中心股份有限公司 一种基于3d卷积参数重构的快速猴子行为识别方法
CN117435997A (zh) * 2023-12-20 2024-01-23 杭州市特种设备检测研究院(杭州市特种设备应急处置中心) 一种基于Transformer和时序压缩机制的电梯预警及按需维保方法

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170024899A1 (en) * 2014-06-19 2017-01-26 Bae Systems Information & Electronic Systems Integration Inc. Multi-source multi-modal activity recognition in aerial video surveillance
US20170032222A1 (en) * 2015-07-30 2017-02-02 Xerox Corporation Cross-trained convolutional neural networks using multimodal images
CN108960059A (zh) * 2018-06-01 2018-12-07 众安信息技术服务有限公司 一种视频动作识别方法及装置
CN109460707A (zh) * 2018-10-08 2019-03-12 华南理工大学 一种基于深度神经网络的多模态动作识别方法
CN109886358A (zh) * 2019-03-21 2019-06-14 上海理工大学 基于多时空信息融合卷积神经网络的人体行为识别方法
CN110032942A (zh) * 2019-03-15 2019-07-19 中山大学 基于时域分段及特征差分的动作识别方法
US20200160046A1 (en) * 2017-06-30 2020-05-21 The Johns Hopkins University Systems and method for action recognition using micro-doppler signatures and recurrent neural networks
CN111401174A (zh) * 2020-03-07 2020-07-10 北京工业大学 一种基于多模态信息融合的排球群体行为识别方法
EP3695783A1 (en) * 2019-02-15 2020-08-19 Origin Wireless, Inc. Method, apparatus, and system for wireless gait recognition
CN111639544A (zh) * 2020-05-07 2020-09-08 齐齐哈尔大学 基于多分支跨连接卷积神经网络的表情识别方法
US20200396630A1 (en) * 2016-03-08 2020-12-17 Aurora Insight Inc. Large scale radio frequency signal information processing and analysis system using bin-wise processing
CN112149616A (zh) * 2020-10-13 2020-12-29 西安电子科技大学 基于动态信息的人物交互行为识别方法
CN112307892A (zh) * 2020-09-24 2021-02-02 国网浙江省电力有限公司衢州供电公司 一种基于第一视角rgb-d数据的手部动作识别方法
CN112307958A (zh) * 2020-10-30 2021-02-02 河北工业大学 基于时空外观运动注意力网络的微表情识别方法
CN112507898A (zh) * 2020-12-14 2021-03-16 重庆邮电大学 一种基于轻量3d残差网络和tcn的多模态动态手势识别方法

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170024899A1 (en) * 2014-06-19 2017-01-26 Bae Systems Information & Electronic Systems Integration Inc. Multi-source multi-modal activity recognition in aerial video surveillance
US20170032222A1 (en) * 2015-07-30 2017-02-02 Xerox Corporation Cross-trained convolutional neural networks using multimodal images
US20200396630A1 (en) * 2016-03-08 2020-12-17 Aurora Insight Inc. Large scale radio frequency signal information processing and analysis system using bin-wise processing
US20200160046A1 (en) * 2017-06-30 2020-05-21 The Johns Hopkins University Systems and method for action recognition using micro-doppler signatures and recurrent neural networks
CN108960059A (zh) * 2018-06-01 2018-12-07 众安信息技术服务有限公司 一种视频动作识别方法及装置
CN109460707A (zh) * 2018-10-08 2019-03-12 华南理工大学 一种基于深度神经网络的多模态动作识别方法
EP3695783A1 (en) * 2019-02-15 2020-08-19 Origin Wireless, Inc. Method, apparatus, and system for wireless gait recognition
CN110032942A (zh) * 2019-03-15 2019-07-19 中山大学 基于时域分段及特征差分的动作识别方法
CN109886358A (zh) * 2019-03-21 2019-06-14 上海理工大学 基于多时空信息融合卷积神经网络的人体行为识别方法
CN111401174A (zh) * 2020-03-07 2020-07-10 北京工业大学 一种基于多模态信息融合的排球群体行为识别方法
CN111639544A (zh) * 2020-05-07 2020-09-08 齐齐哈尔大学 基于多分支跨连接卷积神经网络的表情识别方法
CN112307892A (zh) * 2020-09-24 2021-02-02 国网浙江省电力有限公司衢州供电公司 一种基于第一视角rgb-d数据的手部动作识别方法
CN112149616A (zh) * 2020-10-13 2020-12-29 西安电子科技大学 基于动态信息的人物交互行为识别方法
CN112307958A (zh) * 2020-10-30 2021-02-02 河北工业大学 基于时空外观运动注意力网络的微表情识别方法
CN112507898A (zh) * 2020-12-14 2021-03-16 重庆邮电大学 一种基于轻量3d残差网络和tcn的多模态动态手势识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CARLOS ROIG等: "Multi-Modal Pyramid Feature Combination for Human Action Recognition", 《2019 IEEE/CVF INTERNATIONAL CONFERENCE ON COMPUTER VISION WORKSHOP (ICCVW)》 *
刘晓东等: "一种基于行为上下文的视频情感识别方法", 《微电子学与计算机》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113408349A (zh) * 2021-05-17 2021-09-17 浙江大华技术股份有限公司 动作评价模型的训练方法、动作评价方法及相关设备
CN113554125A (zh) * 2021-09-18 2021-10-26 四川翼飞视科技有限公司 结合全局与局部特征的目标检测装置、方法和存储介质
CN115294644A (zh) * 2022-06-24 2022-11-04 北京昭衍新药研究中心股份有限公司 一种基于3d卷积参数重构的快速猴子行为识别方法
CN117435997A (zh) * 2023-12-20 2024-01-23 杭州市特种设备检测研究院(杭州市特种设备应急处置中心) 一种基于Transformer和时序压缩机制的电梯预警及按需维保方法
CN117435997B (zh) * 2023-12-20 2024-03-01 杭州市特种设备检测研究院(杭州市特种设备应急处置中心) 一种基于Transformer和时序压缩机制的电梯预警及按需维保方法

Also Published As

Publication number Publication date
CN113065451B (zh) 2022-08-09

Similar Documents

Publication Publication Date Title
CN113065451B (zh) 一种多模态融合的动作识别装置、方法和存储介质
CN110110624B (zh) 一种基于DenseNet网络与帧差法特征输入的人体行为识别方法
CN110428428B (zh) 一种图像语义分割方法、电子设备和可读存储介质
CN110516536B (zh) 一种基于时序类别激活图互补的弱监督视频行为检测方法
CN108804530B (zh) 对图像的区域加字幕
CN110414432A (zh) 对象识别模型的训练方法、对象识别方法及相应的装置
CN111507378A (zh) 训练图像处理模型的方法和装置
CN108846350A (zh) 容忍年龄变化的人脸识别方法
CN111046821B (zh) 一种视频行为识别方法、系统及电子设备
CN113657124A (zh) 基于循环共同注意力Transformer的多模态蒙汉翻译方法
CN109817276A (zh) 一种基于深度神经网络的蛋白质二级结构预测方法
CN110222718B (zh) 图像处理的方法及装置
Shi et al. Shuffle-invariant network for action recognition in videos
CN113033276B (zh) 一种基于转换模块的行为识别方法
CN113159067A (zh) 一种基于多粒度局部特征软关联聚合的细粒度图像辨识方法及装置
CN114445430A (zh) 轻量级多尺度特征融合的实时图像语义分割方法及系统
Lu et al. Mfnet: Multi-feature fusion network for real-time semantic segmentation in road scenes
CN114996495A (zh) 一种基于多原型和迭代增强的单样本图像分割方法及装置
CN113240033B (zh) 一种基于场景图高阶语义结构的视觉关系检测方法及装置
CN113221683A (zh) 教学场景下基于cnn模型的表情识别方法
CN117115911A (zh) 一种基于注意力机制的超图学习动作识别系统
CN114881038B (zh) 基于跨度和注意力机制的中文实体与关系抽取方法及装置
CN109583406B (zh) 基于特征关注机制的人脸表情识别方法
CN114140524A (zh) 一种多尺度特征融合的闭环检测系统及方法
Xiufang et al. Research on Human Behavior Recognition Method Based on Static and Dynamic History Sequence

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant