CN113065451A

CN113065451A - 一种多模态融合的动作识别装置、方法和存储介质

Info

Publication number: CN113065451A
Application number: CN202110336423.0A
Authority: CN
Inventors: 桑高丽; 卢丽; 黄俊洁; 闫超
Original assignee: Sichuan Yifei Technology Co ltd
Current assignee: Sichuan Yifei Technology Co ltd
Priority date: 2021-03-29
Filing date: 2021-03-29
Publication date: 2021-07-02
Anticipated expiration: 2041-03-29
Also published as: CN113065451B

Abstract

本发明公开了一种多模态融合的动作识别装置、方法和存储介质，本发明的网络模型结构分为主干特征提取部分和识别分类部分，可端到端的进行模型训练；其中，所述的主干特征提取部分分为空间信息提取部分和时序信息提取部分，两部分采用串行结构搭建；所述的空间信息提取部分网络采用卷积网络构建，并行采用步长不同卷积核的卷积层模拟目标平移情况，减弱模型对目标偏移的敏感性；所述的时序信息提取部分采用变形注意力机制来提取帧与帧之间的关联信息。本发明从空间域和时间域上将多模态信息融合训练模型性能，减少模型过拟合情况，提高了动作识别准确率。

Description

一种多模态融合的动作识别装置、方法和存储介质

技术领域

本发明属于动作识别的技术领域，具体涉及一种多模态融合的动作识别装置、方法和存储介质。

背景技术

随着人工智能技术的快速发展，智能设备逐步渗入人们的生活中，广泛应用于各种现实场景中，比如智能监控、人机交互、无人驾驶、支付系统等等。基于视频数据研发的算法技术是深度学习领域中较为重要的研究方向之一，是一种利用计算机对视频图像进行理解的方法，给予机器感知三维世界的能力，所以受到众多学者的研究关注。

动作识别是理解视频数据中人类的运动信息的一门技术，通过对视频序列帧图像提取特征达到分类识别的目的，主要用于人机交互系统、智能交通等场景中。在动作识别技术的发展史中，依次出现了基于人工特征的传统方法和基于深度学习技术的识别方法，近几年，因为基于深度学习技术的识别方法取得了令人满意的识别性能，逐渐成为主流，大致分为三类：时空双流法、三维卷积法以及时序网络法。时空双流法是利用帧图像和密集光流分别训练卷积神经网络，然后对得分进行融合分类，但是这种方法对长时间跨度场景的适用性较差，提取的时序信息有限。其次，三维卷积法是利用三维卷积核提取视频数据的时序和空间特征进行分类识别，但是三维卷积操作计算量较大，大大影响算法的效率。最后，时序网络法是将卷积神经网络和循环网络结合训练视频数据的方法，是近期最为有效的动作识别方法。

目前，大多数动作识别方法采用时序网络法处理视频帧数据，虽然循环网络在动作识别领域取得了良好的性能，但循环网络训练时也会出现较大的计算量，并且在训练时出现梯度发散降低表达能力。因此，急需提出一种在保留性能优势的情况下降低计算量的动作识别方法，简洁易操作。

发明内容

本发明的目的在于提供一种多模态融合的动作识别装置、方法和存储介质，旨在解决上述问题。

本发明主要通过以下技术方案实现：

一种多模态融合的动作识别装置，包括数据采集模块、训练模块、输入模块；所述数据采集模块用于收集包含已标注的动作视频片段数据并形成训练样本；所述训练模块用于将训练样本输入网络模型进行训练；所述输入模块用于将待识别样本输入训练后的网络模型并输出动作识别结果；

所述网络模型包括主干特征提取部分和识别分类部分，首先将训练样本处理成多模态信息，并输入主干特征提取部分依次提取空间特征和时序特征，然后输送到识别分类部分进行分类处理；所述主干特征提取部分由串行结构依次搭建的空间信息提取部分、特征变形层、时序信息提取部分组成；所述空间信息提取部分采用卷积网络，并采用步长不同卷积核的卷积层模拟目标平移情况；所述时序信息提取部分采用注意力机制提取帧与帧之间的关联信息。

本发明整体网络模型结构分为主干特征提取部分和识别分类部分，可端到端的进行模型训练；其中，所述的主干特征提取部分分为空间信息提取部分和时序信息提取部分，两部分采用串行结构搭建；所述的空间信息提取部分网络采用卷积网络构建，并行采用步长不同卷积核的卷积层模拟目标平移情况，减弱模型对目标偏移的敏感性；所述的时序信息提取部分采用变形注意力机制来提取帧与帧之间的关联信息。本发明从空间域和时间域上将多模态信息融合训练模型性能，减少模型过拟合情况，提高动作识别准确率。

为了更好地实现本发明，进一步地，所述空间信息提取部分由从前至后依次设置的并行卷积模块、卷积层、批归一化层、激活函数层组成；所述时序信息提取部分由从前至后依次设置的特征稀疏层、嵌入位置向量层、若干个多头自注意力模块、全连接层、层归一化层、激活函数层组成。

为了更好地实现本发明，进一步地，所述并行卷积模块利用卷积操作带来的特征偏移模拟目标在场景中的位移，所述并行卷积模块由从前至后依次设置的特征切片层、若干个单元模块以及特征拼接层组成，所述单元模块由从前至后依次连接的一维卷积层、卷积层、激活函数层组成；所述并行卷积模块由4个分支构成，且从上至下并将不同分支的卷积核的步长设为3、2、1、1。

为了更好地实现本发明，进一步地，所述特征稀疏层采用L1正则化算法；所述空间信息提取部分的激活函数为参数修正线性单元层，所述时序信息提取部分的激活函数为高斯误差线性单元层。

为了更好地实现本发明，进一步地，所述识别分类部分由从前至后依次设置的全连接层、神经元失活层、激活函数层、柔性最大值层组成。

为了更好地实现本发明，进一步地，还包括多模态信息处理层，用于将训练样本中的RBG图像生成光流图和变形光流图，并与原RGB图像组成5通道数据用于网络模型训练。

本发明主要通过以下技术方案实现：

一种多模态融合的动作识别方法，采用上述的识别装置进行，包括以下步骤：

步骤S100：收集包含已标注的动作视频片段数据，并按设定的帧数打包成训练样本输入网络模型中训练；

步骤S200：搭建网络模型，将训练样本输入到网络模型中进行训练；

步骤S300：利用损失函数计算预测概率与真实类别标签之间的损失值；初始化学习率和相关超参数，使用预先训练的模型初始化时序信息提取部分，随机初始化空间信息提取部分，然后选用优化器对损失值进行优化，方向传播更新权重参数，直至迭代次数达到最大迭代次数，最后测试损失值收敛并稳定时得到的网络模型，得到最优网络模型；

步骤S400：将待测的样本输入到最优网络模型并输出动作识别的结果。

为了更好地实现本发明，进一步地，所述步骤S200包括以下步骤：

步骤S201：首先输入网络模型的图像数据维度为[B,N_frame,H,W,3]，经多模态信息处理层之后特征维度变为[B,N_frame,H,W,5]，将光流图和变形光流图组装到原先的数据上变成5通道数据；

步骤S202：然后由空间信息提取部分加工之后特征输入维度变为

其次，需使用特征变形层将特征的维度变为[B,N_frame,C]；

步骤S203：最后输入到时序信息提取部分进一步增强特征的表达能力；

其中：B表示批处理大小；

N_frame表示输入帧图像的数量，设为6；

H表示原图像的高；

W表示原图像的宽；

stride表示空间信息提取部分的下采样倍数；

filter表示经空间信息提取部分处理后的通道数；

C表示变换之后的通道数。

本发明主要通过以下技术方案实现：

一种计算机可读存储介质，存储有计算机程序指令，所述程序指令被处理器执行时实现上述动作识别的方法。

因为动作识别模型需处理视频类数据，数据中存在动作轨迹和目标偏移，所以大多数动作识别模型采用RGB图像和光流图相结合学习，但是这样的操作只能一定程度上减少模型对目标偏移的缺陷，所以本发明引入并行卷积模块，利用这种不同步长卷积核操作产生的特征偏差模拟目标发生偏移的场景，增强模型对目标产生的偏移的泛化性，能更好的适应目标的动作，从而增强动作识别的准确率。

如果单纯的使用原始的变形注意力机制构建时序信息提取部分，会造成计算量的增加，所以本发明构建了特征稀疏层进行特征自由选取，去除冗余特征信息，再者，使用位置编码机制对空间信息提取部分获取的特征块进行编码，规则是按输入帧图像的序列进行排序，从而可以并行性地计算每帧特征之间的交互信息，提高了特征信息的利用率。所以可得，通过这些方法可以提高特征信息的质量且提高利用率，可以增强网络模型对序列图像的表达能力，从而增强动作识别的准确率。

在训练模型时，输入序列帧图像，经多模态信息预处理层处理后输送到空间信息提取部分中，通过卷积层提取帧图像的空间信息，但动作识别的场景中目标产生的位置移动更加巨大，所以这部分网络为了增强卷积特征的平移不变性，添加了并行卷积模块。因为特征在不同步长的卷积核处理下，会造成特征值与原图像对应位置的偏差，所以本发明利用这种偏差模拟目标发生偏移的场景，从而设计引入了并行卷积模块。并行卷积模块由4个分支构成，从上至下步长分别设为3、2、1、1，形成梯度特征偏差，并且利用特征相加融合层进行不同层次的融合，减少特征在不同步长的卷积核的处理下导致的细节信息的丢失，最后输出按序列帧图像顺序组成的特征块。

空间信息提取部分输出的特征块需用特征变形层改变维度，从而适应后续处理。时序信息提取部分网络接受处理后的特征块，先用特征稀疏层去除冗余信息，提高信息质量，然后按输入时帧图像的排序对特征块进行排序，再输入到多头自注意力模块中提取排序后特征块之间的交互信息，最后输送到识别分类部分进行识别。

主干特征提取部分是依次提取空间特征和时序特征，在提取空间特征部分的网络中加入并行卷积模块，从空间域上增强了特征信息对目标的位置表达能力，这是第一次加强特征信息。然后空间特征块变形维度后输入到时序特征提取部分，但空间特征块中包含较大的冗余信息，可能会给模型带来额外的噪声，所以时序特征提取部分利用到特征稀疏层对冗余特征进行去除，达到提高特征质量的目的，而且通过对特征块进行位置编码，能更大程度地利用多头自注意力模块提取序列帧图像之间的交互信息，这是第二次增强特征信息。本发明在模型中分别从空间域和时间域方面对特征信息进行加强，更大幅度地增加了特征信息对序列图像包含信息的表达能力。

本发明的有益效果：

(1)本发明根据需求搭建不同特性的网络结构，从空间域和时间域上将多模态信息融合训练模型性能，减少模型过拟合情况，提高动作识别准确率；

(2)本发明提出了一种并行卷积模块，通过利用不同步长的卷积核的计算特性模拟目标的移动，增强特征的平移不变性，减弱模型对目标移动的敏感性；

(3)本发明提出了一种多模态信息融合方法，利用RGB图像生成生成光流图和变形光流图，最后与原RGB图像组成5通道数据用于模型训练，使模型在训练过程中增加对光流图的学习，提高模型对运动轨迹的识别能力；

(4)本发明提出一种动作识别模型构建的方法，根据需求搭建不同特性的网络结构，从空间域和时间域上将多模态信息融合训练模型性能，减少模型过拟合情况，提高动作识别准确率。

附图说明

图1为本发明整体网络结构示意图；

图2为时序信息提取部分网络结构示意图；

图3为空间信息提取部分网络结构示意图；

图4为并行卷积模块的结构示意图。

具体实施方式

实施例1：

一种多模态融合的动作识别装置，包括数据采集模块、训练模块、输入模块；所述数据采集模块用于收集包含已标注的动作视频片段数据并形成训练样本；所述训练模块用于将训练样本输入网络模型进行训练；所述输入模块用于将待识别样本输入训练后的网络模型并输出动作识别结果。

如图1所示，所述网络模型包括主干特征提取部分和识别分类部分，首先将训练样本处理成多模态信息，并输入主干特征提取部分依次提取空间特征和时序特征，然后输送到识别分类部分进行分类处理；所述主干特征提取部分由串行结构依次搭建的空间信息提取部分、特征变形层、时序信息提取部分组成；所述空间信息提取部分采用卷积网络，并采用步长不同卷积核的卷积层模拟目标平移情况；所述时序信息提取部分采用注意力机制提取帧与帧之间的关联信息。

进一步地，如图1所示，所述识别分类部分由从前至后依次设置的全连接层、神经元失活层、激活函数层、柔性最大值层组成。

实施例2：

本实施例是在实施例1的基础上进行优化，如图3所示，所述空间信息提取部分由从前至后依次设置的并行卷积模块、卷积层、批归一化层、激活函数层组成；如图2所示，所述时序信息提取部分由从前至后依次设置的特征稀疏层、嵌入位置向量层、若干个多头自注意力模块、全连接层、层归一化层、激活函数层组成。

进一步地，如图4所示，所述并行卷积模块利用卷积操作带来的特征偏移模拟目标在场景中的位移，所述并行卷积模块由从前至后依次设置的特征切片层、若干个单元模块以及特征拼接层组成，所述单元模块由从前至后依次连接的一维卷积层、卷积层、激活函数层组成。所述并行卷积模块由4个分支构成，且从上至下并将不同分支的卷积核的步长设为3、2、1、1。

进一步地，所述特征稀疏层采用L1正则化算法，去除冗余的特征信息，达到减少计算量的目的，实现特征信息的自动选择，所以时序信息提取部分的作用是在保证动作识别率的前提下，减少计算量，简化训练过程。所述空间信息提取部分的激活函数为参数修正线性单元层，所述时序信息提取部分的激活函数为高斯误差线性单元层。

进一步地，还包括多模态信息处理层，用于将训练样本中的RBG图像生成光流图和变形光流图，并与原RGB图像组成5通道数据用于网络模型训练。

本发明引入并行卷积模块，利用这种不同步长卷积核操作产生的特征偏差模拟目标发生偏移的场景，增强模型对目标产生的偏移的泛化性，能更好的适应目标的动作，从而增强动作识别的准确率。

本发明构建了特征稀疏层进行特征自由选取，去除冗余特征信息，再者，使用位置编码机制对空间信息提取部分获取的特征块进行编码，规则是按输入帧图像的序列进行排序，从而可以并行性地计算每帧特征之间的交互信息，提高了特征信息的利用率。所以可得，通过这些方法可以提高特征信息的质量且提高利用率，可以增强网络模型对序列图像的表达能力，从而增强动作识别的准确率。

本实施例的其他部分与实施例1相同，故不再赘述。

实施例3：

进一步地，所述步骤S200包括以下步骤：

其次，需使用特征变形层将特征的维度变为[B,N_frame,C]；

其中：B表示批处理大小；

N_frame表示输入帧图像的数量，设为6；

H表示原图像的高；

W表示原图像的宽；

stride表示空间信息提取部分的下采样倍数；

filter表示经空间信息提取部分处理后的通道数；

C表示变换之后的通道数。

在训练模型时，输入序列帧图像，经多模态信息预处理层处理后输送到空间信息提取部分中，通过卷积层提取帧图像的空间信息。并行卷积模块由4个分支构成，从上至下步长分别设为3、2、1、1，形成梯度特征偏差，并且利用特征相加融合层进行不同层次的融合，减少特征在不同步长的卷积核的处理下导致的细节信息的丢失，最后输出按序列帧图像顺序组成的特征块。

实施例4：

一种多模态融合的动作识别方法，通过搭建不同特性的网络部分，依次提取多模态信息的空间特征和时序特征，实现在保持良好性能的情况下减少计算量的目的，包括以下步骤：

收集包含已标注的动作视频片段数据，按设定的帧数打包成训练样本；

按照设计的网络结构搭建模型，整体结构分为主干特征提取部分和识别分类部分。在模型的开端将样本处理成多模态信息，然后再输入到主干特征提取部分网络依次提取空间特征和时序特征，最后输送到识别分类部分进行处理；

利用损失函数计算预测概率与真实类别标签之间的损失值；

初始化学习率和相关超参数，其中，使用预先训练的模型初始化时序信息提取部分，随机初始化空间信息提取部分，然后选用优化器对损失值进行优化，方向传播更新权重参数，直至迭代次数达到最大迭代次数，最后测试损失值收敛并稳定时得到的模型。

进一步地，如图1所示，网络模型分为主干特征提取部分和识别分类部分。在模型的开端将样本处理成多模态信息，然后再输入到主干特征提取部分网络依次提取空间特征和时序特征，最后输送到识别分类部分进行处理。主干特征提取部分分为空间信息提取部分和时序信息提取部分，两部分采用串行结构搭建，中间使用特征变形层连接。

进一步地，如图3所示，空间信息提取部分主要由卷积层组成，主要利用卷积操作提取目标图像的空间特征，从前至后并行卷积模块、卷积层、批归一化层、激活函数层依次堆叠组成，如图4所示，其中，并行卷积模块前至后由特征切片层、一维卷积层、卷积层、激活函数层、特征拼接层构成，且从上至下并将不同分支的卷积核的步长设为3、2、1、1，并行采用步长不同的卷积核模拟目标平移情况，减弱模型对目标偏移的敏感性。如图2所示，而时序信息提取部分主要由特征稀疏层、嵌入位置向量层、若干个多头自注意力模块、全连接层、激活函数层按规则搭建，如图2所示，其中，特征稀疏层采用L1正则化算法，去除冗余的特征信息，达到减少计算量的目的，实现特征信息的自动选择，这部分网络结构主要是利用多头自注意力模块提取帧图像之间的时序特征。

进一步地，首先输入网络模型的图像数据维度为[B,N_frame,H,W,3]，经多模态信息处理层之后特征维度变为[B,N_frame,H,W,5]，将光流图和变形光流图组装到原先的数据上变成5通道数据；然后由空间信息提取部分加工之后特征输入维度变为

其次，需使用特征变形层将特征的维度变为[B,N_frame,C]；最后输入到时序信息提取部分进一步增强特征的表达能力。

其中：B表示批处理大小；

N_frame表示输入帧图像的数量，设为6；

H表示原图像的高；

W表示原图像的宽；

stride表示空间信息提取部分的下采样倍数；

filter表示经空间信息提取部分处理后的通道数；

C表示变换之后的通道数。

进一步地，在训练网络之前，初始化学习率和相关超参数，其中，使用预先训练的模型初始化时序信息提取部分，随机初始化空间信息提取部分，然后使用交叉熵损失函数计算损失值，损失函数计算公式如下：

其中，

为预测的动作类别概率值，y_i为人工标注的动作类别标签，N为批处理大小，下标i为样本的索引，然后选用优化器对损失值进行优化，反向传播更新权重参数，直至迭代次数达到最大迭代次数，最后测试损失值收敛并稳定时得到的模型。

本发明构建的动作识别网络较于循环神经网络，搭建更简单，性能更强。由实验可得，使用多模态信息训练模型能大大提高特征的表达能力，并且从空间域和时间域方面思考构建不同特性的网络部分，一定程度上优化了模型计算量，增强识别性能。

以上所述，仅是本发明的较佳实施例，并非对本发明做任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化，均落入本发明的保护范围之内。

Claims

1.一种多模态融合的动作识别装置，其特征在于，包括数据采集模块、训练模块、输入模块；所述数据采集模块用于收集包含已标注的动作视频片段数据并形成训练样本；所述训练模块用于将训练样本输入网络模型进行训练；所述输入模块用于将待识别样本输入训练后的网络模型并输出动作识别结果；

2.根据权利要求1所述的一种多模态融合的动作识别装置，其特征在于，所述空间信息提取部分由从前至后依次设置的并行卷积模块、卷积层、批归一化层、激活函数层组成；所述时序信息提取部分由从前至后依次设置的特征稀疏层、嵌入位置向量层、若干个多头自注意力模块、全连接层、层归一化层、激活函数层组成。

3.根据权利要求2所述的一种多模态融合的动作识别装置，其特征在于，所述并行卷积模块利用卷积操作带来的特征偏移模拟目标在场景中的位移，所述并行卷积模块由从前至后依次设置的特征切片层、若干个单元模块以及特征拼接层组成，所述单元模块由从前至后依次连接的一维卷积层、卷积层、激活函数层组成。

4.根据权利要求3所述的一种多模态融合的动作识别装置，其特征在于，所述并行卷积模块由4个分支构成，且从上至下并将不同分支的卷积核的步长设为3、2、1、1。

5.根据权利要求2所述的一种多模态融合的动作识别装置，其特征在于，所述特征稀疏层采用L1正则化算法；所述空间信息提取部分的激活函数为参数修正线性单元层，所述时序信息提取部分的激活函数为高斯误差线性单元层。

6.根据权利要求1-5任一项所述的一种多模态融合的动作识别装置，其特征在于，所述识别分类部分由从前至后依次设置的全连接层、神经元失活层、激活函数层、柔性最大值层组成。

7.根据权利要求1所述的一种多模态融合的动作识别装置，其特征在于，还包括多模态信息处理层，用于将训练样本中的RBG图像生成光流图和变形光流图，并与原RGB图像组成5通道数据用于网络模型训练。

8.一种多模态融合的动作识别方法，采用权利要求1-6任一项所述的识别装置进行，其特征在于，包括以下步骤：

9.根据权利要求8所述的一种多模态融合的动作识别方法，其特征在于，所述步骤S200包括以下步骤：

其次，需使用特征变形层将特征的维度变为[B,N_frame,C]；

其中：B表示批处理大小；

N_frame表示输入帧图像的数量，设为6；

H表示原图像的高；

W表示原图像的宽；

stride表示空间信息提取部分的下采样倍数；

filter表示经空间信息提取部分处理后的通道数；

C表示变换之后的通道数。

10.一种计算机可读存储介质，存储有计算机程序指令，其特在于，所述程序指令被处理器执行时实现权利要求8或9所述的方法。