CN116432115A

CN116432115A - 一种基于多源多模态数据和多维卷积模型的实时行为识别系统、方法、设备及存储介质

Info

Publication number: CN116432115A
Application number: CN202111673982.7A
Authority: CN
Inventors: 许宏吉; 王宇豪; 何波; 刘治; 董郑; 刘强; 李娟�; 孙晓杰; 周双; 徐杰; 王猛猛; 曾佳琦; 李诗洁; 李建军; 汪阳
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2023-07-14

Abstract

本发明涉及一种基于多源多模态数据和多维卷积模型的实时行为识别系统、方法、设备及存储介质，包括行为信息物理层、行为信息接入层、行为信息平台层、行为信息应用层。本发明行为信息接入层的传输采用无线网络，实现行为信息的传输；采用多维卷积模型，面对高动态、复杂化的智能场景，精度方面有了很大的提升；滤波算法的使用，使本系统具有较强的鲁棒性。本发明可实时识别用户的行为类别，可用于对于特殊人员的监控与管理，也可用于运动员康复管理与智能家居等领域。

Description

一种基于多源多模态数据和多维卷积模型的实时行为识别系统、方法、设备及存储介质

技术领域

本发明涉及一种基于多源多模态数据和多维卷积模型的实时行为识别系统、方法、设备及存储介质，属于人工智能技术领域。

背景技术

随着深度学习技术的发展以及计算机数据处理能力的不断提升，人工智能技术得到了迅速的发展，计算机视觉和各类可穿戴设备作为人工智能系统的一部分，正在逐步融入每个人的日常生活中。各类智能设备在工业生产、交通运输乃至军事领域得到广泛的应用。

人体行为识别是人工智能领域的研究热点，人体行为识别系统将感知到的行为信息，利用合理的算法模型进行处理和分析，从而实现人体行为的准确识别。

人体行为识别系统所处理的行为信息主要分为以下两个种类：第一类：基于视觉的行为信息——通过摄像设备采集的行为信息。第二类：基于传感器的行为信息——通过智能硬件采集的行为信息。

目前，主流的行为识别技术主要利用基于视觉的行为信息，但在实际应用中，单纯依靠视频可能会因为盲区和摄像机光线不足等因素无法准确识别行为种类，而基于传感器的识别方案更加简单和灵活，可以弥补视频识别方案的不足。

行为识别主要采用机器学习和深度学习算法。目前，主流的机器学习算法有K近邻算法(K-Nearest Neighbor，KNN)、支持向量机(Support Vector Machine，SVM)、随机森林(Random Forest，RF)等，这类基于像元的方法很少考虑到相邻像元间的空间结构信息，未能充分利用行为信息的空间特征，分类结果容易受噪声干扰；主流的深度学习算法主要有深度神经网络(Deep Neural Network，DNN)、卷积神经网络(Convolutional NeuralNetwork，CNN)、循环(递归)神经网络(Recurrent Neural Network，RNN)、深度信念网络(Deep Belief Network，DBN)等。相比于基于传统机器学习的分类技术，深度学习技术在一定程度上能够克服传感器噪声的影响。但该类方法不能充分学习同类行为的信息和规律，例如，一维卷积层仅仅关注行为的时间特征，而无法考虑空间特性，所以在一定程度上会造成误判，降低行为识别的准确率。

面对高动态、复杂化的智能场景，单一传感器因其固有的弊端导致系统的灵活性、自适应性较差。因此，为了提高行为识别的准确性和系统的可靠性，融合多源多模态传感器数据进行行为识别的技术更具优势。

发明内容

针对目前行为信息获取来源的单一性和预测模型的高误判性，并考虑特殊场景的需求，本发明提出了一种基于多源多模态数据和多维卷积模型的实时行为识别系统。

本发明所使用的多源多模态传感器数据，是由佩戴于人体不同位置的惯性测量单元(Inertial Measurement Unit，IMU)传感器采集而得，多源是指多个IMU传感器同时采集，多模态是指IMU传感器包含加速度计与陀螺仪，可以同时采集加速度与角速度两个模态的数据，并可拓展到多个模态。

本发明采用多维卷积(Multidimensional Convolution，MDC)网络模型，搭配一维、二维与三维卷积结构，较之以往的二维卷积神经网络，对含有时空特性的数据具有更好的适应性，可以提取数据更深层次的空间和时间上的特征，从而获得更好的识别效果。

本发明还提出了一种基于多源多模态数据和多维卷积模型的实时行为识别方法、计算机设备及存储介质。

发明概述：

一种基于多源多模态数据和多维卷积模型的实时行为识别系统，包括依次连接的行为信息物理层、行为信息接入层、行为信息平台层和行为信息应用层，首先，由行为信息物理层中的传感器设备对行为信息进行采集；行为信息接入层通过无线传输方式实现实时数据传输，传输方式可根据不同的使用场景进行选择；然后，数据再由行为信息接入层传入行为信息平台层，经过滤波、数据归一化以及滑动窗口机制等数据预处理方式后，在服务器中实现行为识别；最后，用户的运动数据、体征数据以及识别结果同时在数据库服务器中进行存储，并在行为信息应用层内的可视化界面进行展示。

本发明为基于传感器的实时行为识别提供了一种可行的方案，弥补了基于视频行为识别所存在的缺陷，相比单模态传感器数据，多源多模态传感器数据的使用大大提高了行为识别的准确率。

本发明的技术方案为：

一种基于多源多模态数据和多维卷积模型的实时行为识别系统，包括依次连接的行为信息物理层、行为信息接入层、行为信息平台层和行为信息应用层；

所述行为信息物理层用于：采集用户的行为信息，行为信息包括加速度传感器的X、Y、Z三轴数据与角速度传感器的X、Y、Z三轴数据；

所述行为信息接入层用于：将采集的行为信息传输至所述行为信息接入层；

所述行为信息平台层用于：对行为信息进行预处理，具体是指：依次进行滤波、归一化、多源多模态传感器数据融合与基于时间序列的截取，并将截取后的行为数据输入搭建好的行为识别模型，输出的行为识别结果与原始行为信息实时进行存储；多维卷积模型即行为识别模型；

归一化是指：对行为信息中的数值型数据进行均值归一化处理，即将所有同类传感器的数值变换到[-1,1]之间；

多源多模态传感器数据融合，是指：将不同传感器携带的行为信息按照时间戳对齐后，进行融合；

基于时间序列的截取，是指：通过滑动窗口方法对传感器采集的连续时间序列进行分割，确保一个完整的动作数据落在一个滑动窗口内；

所述行为信息应用层用于：显示行为识别模型输出的行为识别结果。

根据本发明优选的，所述行为信息物理层包括行为信息采集模块，所述行为信息采集模块包括多个传感器模块；所述传感器模块采用惯性测量单元传感器采集加速度传感器的X、Y、Z三轴数据与角速度传感器的X、Y、Z三轴数据。

根据本发明优选的，所述行为信息接入层包括行为信息传输模块，所述行为信息传输模块采用无线网络对行为信息采集模块所采集的行为信息进行传输。

进一步优选的，所述行为信息传输模块采用WiFi、蓝牙、ZigBee、4G、5G、远距离无线电(Long Range Radio，LoRa)中任一传输技术对行为信息采集模块所采集的行为信息进行传输。

根据本发明优选的，所述行为信息平台层包括服务器模块、行为信息预处理模块与MDC网络模块；

所述行为信息预处理模块用于对行为信息进行预处理，所述行为信息预处理模块包括行为信息去噪单元、行为信息归一化单元、行为信息融合单元与行为信息滑窗单元。行为信息传输模块将行为信息发送至所述行为信息去噪单元，所述行为信息去噪单元通过小波阈值法对行为信息进行去噪处理后，输入所述行为信息归一化单元通过均值归一化方法进行处理，所述行为信息融合单元将归一化处理后的多源多模态传感器行为信息按照时间戳进行对齐融合后，输入所述行为信息滑窗单元，通过调节滑动窗口的大小、切割频率和滑动窗口的步长对行为信息进行截取。

所述MDC网络模块包括数据重塑单元、一维卷积网络单元、二维卷积网络单元、三维卷积网络单元、特征融合单元、多头注意力单元、输出单元。所述数据重塑单元对所述行为信息预处理模块输出的行为信息维度进行调整，按照传感器种类与佩戴位置进行分割，使原本的一维时间序列携带空间信息，将原本的一维行为数据重塑为二维与三维行为数据两种维度；将一维、二维、三维行为数据分别输入所述一维卷积网络单元、二维卷积网络单元、三维卷积网络单元；一维卷积网络单元包括三个一维卷积核，用于提取行为信息的时间特性；二维卷积网络单元包括三个二维卷积核，用于提取行为信息的空间特性；三维卷积网络单元包括三个三维卷积核，用于提取行为信息的深层空间特性；将提取的行为信息的时间特性、空间特性及深层空间特性经所述特征融合单元融合后，输入至所述多头注意力单元，对时间序列与空间之间的关系进行分析，获得全局依赖性，得到的数据输入到所述输出单元，依次经过展开层、全连接层与Softmax分类器，对所有特征数据进行运算，并识别出当前的行为。

所述服务器模块包括数据库服务器单元，用于存储原始行为信息以及行为识别结果。

根据本发明优选的，所述行为信息应用层包括行为与位置信息显示模块。所述行为与位置信息显示模块与MDC网络模块中的输出单元相连，用于显示输出单元输出的行为识别结果。

一种基于多源多模态数据和多维卷积模型的实时行为识别方法，通过上述基于多源多模态数据和多维卷积模型的实时行为识别系统实现，包括以下步骤：

步骤S1：行为信息采集

采集用户的行为信息，行为信息包括加速度传感器的X、Y、Z三轴数据与角速度传感器的X、Y、Z三轴数据；

步骤S2：行为信息传输

将采集的行为信息传输至本地服务器或云服务器；

步骤S3：行为信息预处理

对行为信息进行预处理，具体是指：依次进行滤波、归一化、多源多模态传感器数据融合与基于时间序列的截取；

步骤S4：构建并训练行为识别模型

行为识别模型即所述MDC网络模块包括数据重塑单元、一维卷积网络单元、二维卷积网络单元、三维卷积网络单元、特征融合单元、多头注意力单元、输出单元；

用户设置的参数包括：输入数据的形状、数据重塑后的形状，卷积网络单元个数，通过若干次迭代训练，不断优化行为识别模型参数，最终得到训练后的行为识别模型；

步骤S5：行为信息实时识别

将实时采集并经过预处理的行为信息输入到已经训练好的行为识别模型中进行当前行为的实时识别，输出与行为信息相对应的分类结果；

步骤S6：行为信息显示

通过行为信息显示模块，将行为识别结果进行展示。

进一步优选的，步骤S4中，学习率设置为0.0005，使用交叉熵损失函数，通过迭代训练，损失函数值不断降低，行为识别模型参数进一步优化，最终得到训练后的行为识别模型，损失函数如公式(1)所示：

其中，A为样本个数，M为类别数，y_ij为符号函数，如果样本i的真实类别等于j则取1，否则取0，p_ij为观测样本i属于类别j的预测概率。

根据本发明优选的，步骤S1，是指：将传感器佩戴在用户的不同位置处，获取传感器数据即加速度与角速度数据。

根据本发明优选的，步骤S3，包括以下步骤：

步骤S31：行为信息去噪

通过小波阈值法对行为信息进行去噪处理；

步骤S32：行为信息归一化

通过均值归一化方法进行均值归一化处理，使不同量纲的特征处于同一数值量级；

步骤S33：多源多模态传感器数据融合

将佩戴在不同位置的传感器所携带的行为信息按照时间戳对齐；

步骤S34：基于时间序列的截取

参照用户预设的参数，包括滑动窗口的大小、切割频率和滑动窗口的步长，对步骤S33处理后的行为信息进行滑动窗口处理，使行为信息以信息块的形式输入MDC网络模块。

进一步优选的，步骤S31中，通过小波阈值法对行为信息进行去噪处理，具体是指：

假设实际测量信号为：f(t)＝s(t)+e(t),t＝1,2,…,N，s(t)为原始信号，f(t)为含噪信号，e(t)为高斯白噪声，e(t)～N(0,σ²)，σ为噪声强度，去噪过程即从信号f(t)中将噪声e(t)除去，得到原始信号s(t)的最佳逼近；

首先，对其进行离散采样得到N'点离散信号f(x),x＝0,1,2,…,N'-1，其小波变换系数如公式(2)所示：

其中，W_f(j,k)为小波系数，ψ(2^-jx-k)为尺度函数，j为尺度参数，k为尺度函数平移的单位数，通过双尺度方程式(3)和式(4)，得到式(2)递归实现方法：

S_f(j+1,k)＝S_f(j,k)*h(j,k) (3)

W_f(j+1,k)＝S_f(j,k)*g(j,k) (4)

其中，符号“*”代表卷积，h和g分别代表低通和高通滤波器，S_f(0,k)代表原始信号f(k)，S_f(j,k)代表j尺度上的逼近系数，那么小波变换重构公式如公式(5)所示：

S_f(j-1,k)＝S_f(j,k)*h(j,k)+W_f(j,k)*g(j,k) (5)

其次，采用通用阈值规则确定阈值，阈值算法公式如公式(6)所示：

其中，σ＝MAD/0.6745，MAD为首层小波分解系数绝对值的中间值，0.6745为高斯噪声标准方差的调整系数，L为信号的尺寸或长度；

然后，对测量信号的小波变换系数进行非线性阈值处理，对第1到第V层的每一层高频系数，采用软阈值函数进行处理，将信号的绝对值和阈值进行比较，小于阈值的点置为零，大于或等于阈值的点则向零收缩，变为该点值与阈值之差，每层的低频系数不做处理；软阈值函数如公式(7)所示：

其中，W_j,k为W_f(j,k)简写形式，T为大于零的阈值参数。

最后，根据小波分解的第N层的低频系数和经过量化处理后的第1层到第V层的高频系数，根据式(4)进行信号的小波重构，得到去噪后的信号。

根据本发明优选的，所述步骤S4，设置输入数据的形状、一维卷积网络单元卷积核大小、二维卷积网络单元卷积核大小、三维卷积网络单元卷积核大小、一维卷积网络单元个数、二维卷积网络单元个数、三维卷积网络单元个数、多头注意力单元注意力头数；

设置数据重塑单元的二维数据重塑参数x，y，z，三维数据重塑参数r，s，t，u；x，y，z分别为重塑后二维数据的长、宽、通道数；r，s，t，u分别为重塑后三维数据的长、宽、高、通道数；

设置好Batch_Size与Window_Size，Batch_Size是指MDC网络模块中每一批次行为样本的个数，Window_Size是指样本数据的长度；

设置第i个一维卷积网络单元中首层卷积层卷积核大小为1，个数为o₁ ⁱ，第二层卷积层卷积核大小为3，个数为p₁ ⁱ，第三层卷积层卷积核大小为1，个数为q₁ ⁱ，三个卷积层填充方式均为“SAME”；

设置第i个二维卷积网络单元中首层卷积层卷积核大小为1×1，个数为o₂ ⁱ，第二层卷积层卷积核大小为3×3，个数为p₂ ⁱ，第三层卷积层卷积核大小为1×1，个数为q₂ ⁱ，三个卷积层填充方式均为“SAME”；

设置第i个三维卷积网络单元中首层卷积层卷积核大小为1×1×1，个数为o₃ ⁱ，第二层卷积层卷积核大小为3×3×3，个数为p₃ ⁱ，第三层卷积层卷积核大小为1×1×1，个数为q₃ ⁱ，三个卷积层填充方式均为“SAME”；

设置一维卷积网络单元、二维卷积网络单元、三维卷积网络单元个数均为c；

设置特征融合单元整形参数

设置输出单元中全连接输出长度即分类数目为Output_Length；

包括如下步骤：

步骤S41：假设输入数据是由n个惯性测量单元的传感器数据融合构成，大小为Batch_Size×Window_Size×6n的行为信息，Window_Size为一维数据长度，6n是数据通道数；

步骤S42：当大小为Batch_Size×Window_Size×6n的行为信息经过数据重塑单元之后，重塑生成Batch_Size×Window_Size×3×2n与Batch_Size×Window_Size×2×3×n两种形式，3×2n代表的是：2n个传感器模块，每个传感器模块携带3轴行为数据，将2n个传感器单元分为n个加速度计与n个陀螺仪两类，2×3×n则代表的是：n个惯性测量单元的传感器，每个传感器带有加速度计与陀螺仪，每个传感器的数据都为3轴数据；

步骤S43：将大小分别为Batch_Size×Window_Size×6n、Batch_Size×Window_Size×3×2n、Batch_Size×Window_Size×2×3×n的行为信息分别输入一维卷积网络单元、二维卷积网络单元、三维卷积网络单元，一维卷积网络单元、二维卷积网络单元、三维卷积网络单元均采用残差结构，残差块包括直接映射部分和残差部分，二维卷积网络单元中，其内部的一个残差块如公式(8)所示：

x_l+1＝h(x_l)+F(x_l,W_l) (8)

其中，x_l是第l层输入，x_l+1是第l层输出，h(x_l)是直接映射，F(x_l,W_l)是残差部分，由两个或者三个卷积层构成，当x_l与x_l+1的特征图数量相等时，h(x_l)＝x_l，而当x_l与x_l+1的特征图数量不等时，使用卷积进行升维或者降维，h(x_l)如公式(9)所示：

h(x_l)＝W_l'x_l (9)

其中，W_l'是卷积核大小为1×1卷积层。

第一个一维卷积网络单元输出信息为：大小为Batch_Size×Window_Size×6n的一维特征；

第一个二维卷积网络单元输出信息为：大小为Batch_Size×Window_Size×3×2n的二维特征；

第一个三维卷积网络单元输出信息为：大小为Batch_Size×Window_Size×2×3×2n的三维特征；

行为信息经过c个一维卷积网络单元后输出的信息为：大小为Batch_Size×Window_

的一维特征；

行为信息经过c个二维卷积网络单元后输出信息为：大小为Batch_Size×Window_

的二维特征；

行为信息经过c个三维卷积网络单元后输出信息为：大小为Batch_Size×Window_

的三维特征；

步骤S44：经过特征融合单元处理，三个大小分别为Batch_Size×Window_

Batch_Size×Window_/>

Batch_Size×Window_/>

的特征信息统一整形为Batch_Size×Window_/>

大小，相加后输出大小为Batch_Size×Window_/>

的特征信息；

步骤S45：设置多头注意力单元注意力头数为m，如公式(10)所示：

其中，d_k代表K_i的长度，也等于输入注意力特征图层数除以注意力头数的值，Q_i,K_i,V_i为每个注意力头对应的参数，分别由输入序列I乘以不同权重矩阵W获得，如公式(11)所示：

用head_i来代表每个注意力头的输出，那么在拼接每个注意力头的输出后，乘以学习的参数W^O，得到最终的结果，如公式(12)所示：

MutiHead(Q,K,V)＝Concat(head₁,…,head_m)W^O (12)

经过多头注意力单元后输出的信息大小为：Batch_Size×Window_

步骤S46：通过输出单元输出识别结果；

通过展开层，将行为信息由矢量转换成标量，经过全连接层后输出的信息大小为：Batch_Size×Output_Length；通过Softmax分类器对行为信息的分类识别；将信息大小为Batch_Size×Output_Length的行为信息特征输入Softmax分类器，求解各类行为的概率，而最大概率所对应的行为，即为MDC网络模块最终的行为识别结果。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现基于多源多模态数据和多维卷积模型的实时行为识别方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现基于多源多模态数据和多维卷积模型的实时行为识别方法的步骤。

本发明的有益效果为：

1.实用性：实时人体行为识别对传输介质以及准确率有较高的要求，本发明使用合适的传输方式将系统的信息传输延迟降到最小；同时在行为识别的准确率方面也具备了一定的优势。

2.自适应性：针对不同的应用场景，通过修改数据重塑单元参数、卷积网络单元结构等，提高了输入数据的普适性。

3.高可靠性：与主流的模型算法相比，多源多模态传感器数据与滤波算法的使用，使本系统具有较强的鲁棒性，同时在准确率方面有了进一步的提升。

附图说明

图1是本发明基于多源多模态数据和多维卷积模型的实时行为识别系统主模块结构框架及连接关系示意图。

图2是本发明基于多源多模态数据和多维卷积模型的实时行为识别系统实现的模块组成及连接关系示意图。

图3是本发明基于多源多模态数据和多维卷积模型的实时行为识别方法的流程示意图。

图4是本发明MDC网络模块工作原理示意图。

图5是本发明MDC网络模块中一维卷积网络单元、二维卷积网络单元、三维卷积网络单元的网络结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例和说明书附图1-3对本发明的技术方案进行清楚、完整的描述，显然，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

实施例1

一种基于多源多模态数据和多维卷积模型的实时行为识别系统，如图1所示，包括依次连接的行为信息物理层、行为信息接入层、行为信息平台层和行为信息应用层；

行为信息物理层用于：通过多源多模态可穿戴传感器设备，采集用户的行为信息，行为信息包括加速度传感器的X、Y、Z三轴数据与角速度传感器的X、Y、Z三轴数据；

行为信息接入层用于：将采集的行为信息通过无线网络传输至行为信息接入层；

行为信息平台层用于：对行为信息进行预处理，具体是指：依次进行滤波、归一化、多源多模态传感器数据融合与基于时间序列的截取，并将截取后的行为数据输入搭建好的行为识别模型，输出的行为识别结果与原始行为信息实时在数据库服务器进行存储；多维卷积模型即行为识别模型；

归一化是指：为了避免不同量纲和取值范围对计算造成的不良影响，对行为信息中的数值型数据进行均值归一化处理，即将所有同类传感器的数值变换到[-1,1]之间，从而提高行为识别模型的准确率和泛化能力；

基于时间序列的截取，是指：通过滑动窗口方法对传感器采集的连续时间序列进行分割，同时为了确保一个完整的动作数据落在一个滑动窗口内，需要根据传感器采样率来确定滑动窗口的大小与切割频率，例如，传感器采样率为20Hz，一个动作用时2s，那么窗口的大小至少为40才能够包含一个完整的动作数据，同时，为了确保信息的完整性，滑动窗口移动步长一般取窗口大小的一半，即每秒用一个大小为40的窗口切割数据，随后窗口向后滑动20，准备进行下一次切割；

行为信息应用层用于：显示行为识别模型输出的行为识别结果。

本发明在传输技术、信息处理、行为识别和行为应用四个方面提出了一个相对优化的系统，不仅弥补了目前该研究领域行为识别实时性差、单纯依靠视频无法在盲区工作和易受光线影响的不足，而且在行为识别的准确率方面也有了一定的提升，使系统更具稳定性。

实施例2

根据实施例1所述的一种基于多源多模态数据和多维卷积模型的实时行为识别系统，其区别在于：

如图2所示，行为信息物理层包括行为信息采集模块，行为信息采集模块包括多个传感器模块；传感器模块采用IMU传感器采集加速度传感器的X、Y、Z三轴数据与角速度传感器的X、Y、Z三轴数据，为行为识别提供数据支持。

行为信息接入层包括行为信息传输模块，行为信息传输模块采用无线网络对行为信息采集模块所采集的行为信息进行传输。行为信息传输模块采用无线通信技术、蓝牙、ZigBee、第四代移动通信技术、第五代移动通信技术、远距离无线电中任一传输技术对行为信息采集模块所采集的行为信息进行传输。传输技术是指充分利用不同信道的传输能力构成一个完整的传输系统，使信息得以可靠传输的技术。随着无线传输技术的发展，在未对丢包率进行特殊要求的前提下，无线传输的便利性被进一步地放大。目前主流的无线技术主要有WiFi、蓝牙、ZigBee、4G、5G、LoRa等。各无线技术在传输距离和功耗方面大都处于不可兼得的状态，本发明可根据用户所在的不同场景，可穿戴设备的便携性以及实时行为识别的要求，选择适合的传输方式。

行为信息平台层包括服务器模块、行为信息预处理模块与MDC网络模块；

行为信息预处理模块用于对行为信息进行预处理，从而提高行为信息的可信度。与一些直接对原始行为信息进行行为识别的系统相比，本发明在加入行为信息预处理之后，系统稳定性和识别准确率等方面得到很大的提升。行为信息预处理模块包括行为信息去噪单元、行为信息归一化单元、行为信息融合单元与行为信息滑窗单元；行为信息传输模块将行为信息发送至行为信息去噪单元，行为信息去噪单元通过小波阈值法对行为信息进行去噪处理后，输入行为信息归一化单元通过均值归一化方法进行处理，行为信息融合单元将归一化处理后的多源多模态传感器行为信息按照时间戳进行对齐融合后，输入行为信息滑窗单元，通过调节滑动窗口的大小、切割频率和滑动窗口的步长对行为信息进行截取。

MDC网络模块包括数据重塑单元、一维卷积网络单元、二维卷积网络单元、三维卷积网络单元、特征融合单元、多头注意力单元、输出单元；数据重塑单元对行为信息预处理模块输出的行为信息维度进行调整，按照传感器种类与佩戴位置进行分割，使原本的一维时间序列携带空间信息，将原本的一维行为数据重塑为二维与三维行为数据两种维度；将一维、二维、三维行为数据分别输入一维卷积网络单元、二维卷积网络单元、三维卷积网络单元；一维卷积网络单元包括三个一维卷积核，在卷积的过程中，可以很好地用于提取行为信息的时间特性；二维卷积网络单元包括三个二维卷积核，卷积时可以关注不同传感器数据之间的关系，用于充分地提取行为信息的空间特性；三维卷积网络单元包括三个三维卷积核，可以关注不同佩戴位置的传感器数据之间的关系，用于提取行为信息的深层空间特性；不同维度的卷积网络单元所输出的行为信息维度不同，将提取的行为信息的时间特性、空间特性及深层空间特性经特征融合单元融合后，输入至多头注意力单元，对时间序列与空间之间的关系进行分析，获得全局依赖性，得到的数据输入到输出单元，依次经过展开层、全连接层与Softmax分类器，对所有特征数据进行运算，并识别出当前的行为。

MDC网络模块的主要工作是根据行为信息来做出识别，在人工智能领域、机器学习的提出使人们切实体会到人工智能的强大。相比传统机器学习，深度学习在识别率方面有了明显的进步。但是，传统机器学习模型和基本深度学习模型关注的重点大都是输入信息的浅层次特征或不全面的特征。本发明中采用的MDC网络不仅对行为信息所具有的时间特征进行了关注，还加入了行为信息特征的空间关系，提高了行为识别的准确率。

服务器模块包括数据库服务器单元，用于存储原始行为信息以及行为识别结果。

行为信息应用层包括行为与位置信息显示模块，行为与位置信息显示模块与MDC网络模块中的输出单元相连，用于显示输出单元输出的行为识别结果。在应用方面，可以附加危险行为预警模块，在判别出危险行为时，进行报警。

实施例3

一种基于多源多模态数据和多维卷积模型的实时行为识别方法，通过实施例2所述的基于多源多模态数据和多维卷积模型的实时行为识别系统实现，以打架斗殴行为识别为例，特殊人员可能在心理和生理方面都和常人稍有区别，在对待一些问题可能会有偏激的行为。为了更准确可靠的识别过激行为，防止造成严重的影响和危害，通过特殊人员穿戴的多个传感器来获取其行为信息，然后经过信息预处理，提高信息的可信度，最后通过训练好的行为识别模型进行实时行为识别与监控预警。管理者可以根据不同的场景和不同的特殊人员来设置不同的参数进行实时行为识别。如图3所示，包括以下步骤：

步骤S1：行为信息采集

将传感器佩戴在用户的不同位置处，采集用户的行为信息，行为信息包括加速度传感器的X、Y、Z三轴数据与角速度传感器的X、Y、Z三轴数据；

根据实用场景、用户需求及传感器的相关参数进行传感器的选取，传感器的相关参数包括：采样频率、使用寿命、精度、功耗等。例如，对于需要重点监护的用户可以选用采样频率高、精度高的传感器进行行为信息的感知，对于一般用户可以选用采样频率和精度指标符合基本要求的传感器进行行为信息的感知；

步骤S2：行为信息传输

将采集的行为信息传输至本地服务器或云服务器；可根据用户所在的不同场景，可穿戴设备便携性以及实时行为识别的要求，选择适合的传输方式，如WiFi、LoRa、蓝牙等。不同的传输方式在功耗、传输距离、传输速度等方面不同，因此，本方法可适用于不同的应用场景；

步骤S3：行为信息预处理

对行为信息进行预处理，具体是指：依次进行滤波、归一化、多源多模态传感器数据融合与基于时间序列的截取，包括以下步骤：

步骤S31：行为信息去噪

通过小波阈值法对行为信息进行去噪处理；根据数据类型，选择合适的小波变换参数与阈值函数可以过滤采集过程中的部分传感器噪音信号，使行为数据变得更加平滑，有利于加速网络模型的收敛以及提高分类准确率；

小波阈值法去噪处理方式，具有实现简单、计算量小的特点。具体是指：

一般来说，一维信号的阈值消噪过程分为三个步骤进行：

其中，W_f(j,k)为小波系数，ψ(2^-jx-k)为尺度函数，j为尺度参数，k为尺度函数平移的单位数，在实际应用中，直接利用式(2)计算较为复杂，而且ψ(t)一般情况下没有解析表达式。但通过双尺度方程式(3)和式(4)，得到式(2)递归实现方法：

S_f(j+1,k)＝S_f(j,k)*h(j,k) (3)

W_f(j+1,k)＝S_f(j,k)*g(j,k) (4)

其中，符号“*”代表卷积，h和g分别代表低通和高通滤波器，S_f(0,k)代表原始信号f(k)，S_f(j,k)代表j尺度上的逼近系数，那么小波变换重构公式如式(5)所示：

S_f(j-1,k)＝S_f(j,k)*h(j,k)+W_f(j,k)*g(j,k) (5)

其中，W_j,k为W_f(j,k)简写形式，T为大于零的阈值参数。

步骤S32：行为信息归一化

通过均值归一化方法进行均值归一化处理，使不同量纲的特征处于同一数值量级；不但使网络模型更准确，还能加快学习算法的收敛速度；

步骤S33：多源多模态传感器数据融合

将佩戴在不同位置的传感器所携带的行为信息按照时间戳对齐；针对传感器数据丢包情况，自动用“0”补全缺失值；为后面空间信息的提取创造条件；

步骤S34：基于时间序列的截取

步骤S4：构建并训练行为识别模型

行为识别模型即MDC网络模块包括数据重塑单元、一维卷积网络单元、二维卷积网络单元、三维卷积网络单元、特征融合单元、多头注意力单元、输出单元；

用户设置的参数包括：输入数据的形状、数据重塑后的形状，卷积网络单元个数等，学习率设置为0.0005，使用交叉熵损失函数，通过迭代训练，损失函数值不断降低，行为识别模型参数进一步优化，最终得到训练后的行为识别模型，损失函数公式如式(1)所示：

其中，A为样本个数，M为类别数，y_ij为符号函数(0或1)，如果样本i的真实类别等于j则取1，否则取0，p_ij为观测样本i属于类别j的预测概率。

设置输入数据的形状、一维卷积网络单元卷积核大小、二维卷积网络单元卷积核大小、三维卷积网络单元卷积核大小、一维卷积网络单元个数、二维卷积网络单元个数、三维卷积网络单元个数、多头注意力单元注意力头数；

设置特征融合单元整形参数

设置输出单元中全连接输出长度即分类数目为Output_Length；

如图4所示，包括如下步骤：

步骤S42：当大小为Batch_Size×Window_Size×6n的行为信息经过数据重塑单元之后，重塑生成Batch_Size×Window_Size×3×2n与Batch_Size×Window_Size×2×3×n两种形式，3×2n代表的是：2n个传感器模块，每个传感器模块携带3轴行为数据，后者在前者基础上进行分割，将2n个传感器单元分为n个加速度计与n个陀螺仪两类，2×3×n则代表的是：n个惯性测量单元的传感器，每个传感器带有加速度计与陀螺仪，每个传感器的数据都为3轴数据；

x_l+1＝h(x_l)+F(x_l,W_l) (8)

h(x_l)＝W_l'x_l (9)

其中，W_l'是卷积核大小为1×1卷积层。

的一维特征；

的二维特征；

的三维特征；一维卷积网络单元、二维卷积网络单元、三维卷积网络单元的结构如图5所示。

Batch_Size×Window_/>

Batch_Size×Window_/>

的特征信息统一整形为Batch_Size×Window_/>

大小，相加后输出大小为Batch_Size×Window_/>

的特征信息；

MutiHead(Q,K,V)＝Concat(head₁,…,head_m)W^O (12)

经过多头注意力单元后输出的信息大小为：Batch_Size×Window_

步骤S46：通过输出单元输出识别结果；

通过展开层，将行为信息由矢量转换成标量，经过全连接层后输出的信息大小为：Batch_Size×Output_Length；通过Softmax分类器对行为信息的分类识别；将信息大小为Batch_Size×Output_Length的行为信息特征输入Softmax分类器，求解各个行为的概率，而最大概率所对应的行为，即为MDC网络模块最终的行为识别结果。

步骤S5：行为信息实时识别

步骤S6：行为信息显示

通过行为信息显示模块，将行为识别结果进行展示。

实施例4

一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现实施例3所述的基于多源多模态数据和多维卷积模型的实时行为识别方法的步骤。

实施例5

一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现实施例3所述的基于多源多模态数据和多维卷积模型的实时行为识别方法的步骤。

Claims

1.一种基于多源多模态数据和多维卷积模型的实时行为识别系统，其特征在于，包括依次连接的行为信息物理层、行为信息接入层、行为信息平台层和行为信息应用层；

2.根据权利要求1所述的一种基于多源多模态数据和多维卷积模型的实时行为识别系统，其特征在于，所述行为信息物理层包括行为信息采集模块，所述行为信息采集模块包括多个传感器模块；所述传感器模块采用IMU传感器采集三轴加速度数据与三轴角速度数据；

所述行为信息接入层包括行为信息传输模块，所述行为信息传输模块采用无线网络对行为信息采集模块所采集的行为信息进行传输；

进一步优选的，所述行为信息传输模块采用WiFi、蓝牙、ZigBee、4G、5G、LoRa中任一传输技术对行为信息采集模块所采集的行为信息进行传输。

3.根据权利要求1所述的一种基于多源多模态数据和多维卷积模型的实时行为识别系统，其特征在于，所述行为信息平台层包括服务器模块、行为信息预处理模块与MDC网络模块；

所述行为信息预处理模块用于对行为信息进行预处理，所述行为信息预处理模块包括行为信息去噪单元、行为信息归一化单元、行为信息融合单元与行为信息滑窗单元；行为信息传输模块将行为信息发送至所述行为信息去噪单元，所述行为信息去噪单元通过小波阈值法对行为信息进行去噪处理后，输入所述行为信息归一化单元通过均值归一化方法进行处理，所述行为信息融合单元将归一化处理后的多源多模态传感器行为信息按照时间戳进行对齐融合后，输入所述行为信息滑窗单元，通过调节滑动窗口的大小、切割频率和滑动窗口的步长对行为信息进行截取；

所述MDC网络模块包括数据重塑单元、一维卷积网络单元、二维卷积网络单元、三维卷积网络单元、特征融合单元、多头注意力单元、输出单元；所述数据重塑单元对所述行为信息预处理模块输出的行为信息维度进行调整，按照传感器种类与佩戴位置进行分割，使原本的一维时间序列携带空间信息，将原本的一维行为数据重塑为二维与三维行为数据两种维度；将一维、二维、三维行为数据分别输入所述一维卷积网络单元、二维卷积网络单元、三维卷积网络单元；一维卷积网络单元包括三个一维卷积核，用于提取行为信息的时间特性；二维卷积网络单元包括三个二维卷积核，用于提取行为信息的空间特性；三维卷积网络单元包括三个三维卷积核，用于提取行为信息的深层空间特性；将提取的行为信息的时间特性、空间特性及深层空间特性经所述特征融合单元融合后，输入至所述多头注意力单元，对时间序列与空间之间的关系进行分析，获得全局依赖性，得到的数据输入到所述输出单元，依次经过展开层、全连接层与Softmax分类器，对所有特征数据进行运算，并识别出当前的行为；

4.根据权利要求1所述的一种基于多源多模态数据和多维卷积模型的实时行为识别系统，其特征在于，所述行为信息应用层包括行为与位置信息显示模块；所述行为与位置信息显示模块与MDC网络模块中的输出单元相连，用于显示输出单元输出的行为识别结果。

5.一种基于多源多模态数据和多维卷积模型的实时行为识别方法，通过实施例1-4任一所述的基于多源多模态数据和多维卷积模型的实时行为识别系统实现，其特征在于，包括以下步骤：

步骤S1：行为信息采集

采集用户的行为信息，行为信息包括人体行为所产生的三轴加速度数据与三轴角速度数据；

步骤S2：行为信息传输

将采集的行为信息传输至本地服务器或云服务器；

步骤S3：行为信息预处理

步骤S4：构建并训练行为识别模型

用户设置的参数包括：输入数据的形状、数据重塑后的形状，卷积网络单元个数，通过迭代训练，不断优化行为识别模型参数，最终得到训练后的行为识别模型；

步骤S5：行为信息实时识别

步骤S6：行为信息显示

通过行为信息显示模块，将行为识别结果进行展示；

进一步优选的，步骤S4中，学习率设置为0.0005，使用交叉熵损失函数，在迭代训练的过程中，损失函数值不断降低，行为识别模型参数进一步优化，最终得到训练后的行为识别模型，损失函数公式如公式(1)所示：

其中，A为样本个数，M为类别数，y_ij为符号函数，如果样本i的真实类别等于j则取1，否则取0，p_ij为观测样本i属于类别j的预测概率；

进一步优选的，步骤S1，是指：将传感器佩戴在用户的不同位置处，获取传感器数据即加速度与角速度数据。

6.根据权利要求5所述的一种基于多源多模态数据和多维卷积模型的实时行为识别方法，其特征在于，步骤S3，包括以下步骤：

步骤S31：行为信息去噪

通过小波阈值法对行为信息进行去噪处理；

步骤S32：行为信息归一化

步骤S33：多源多模态传感器数据融合

步骤S34：基于时间序列的截取

7.根据权利要求5所述的一种基于多源多模态数据和多维卷积模型的实时行为识别方法，其特征在于，步骤S31中，通过小波阈值法对行为信息进行去噪处理，具体是指：

S_f(j+1,k)＝S_f(j,k)*h(j,k) (3)

W_f(j+1,k)＝S_f(j,k)*g(j,k) (4)

S_f(j-1,k)＝S_f(j,k)*h(j,k)+W_f(j,k)*g(j,k) (5)

其中，W_j,k为W_f(j,k)简写形式，T为大于零的阈值参数；

8.根据权利要求5所述的一种基于多源多模态数据和多维卷积模型的实时行为识别方法，其特征在于，所述步骤S4，设置输入数据的形状、一维卷积网络单元卷积核大小、二维卷积网络单元卷积核大小、三维卷积网络单元卷积核大小、一维卷积网络单元个数、二维卷积网络单元个数、三维卷积网络单元个数、多头注意力单元注意力头数；