CN116092119A

CN116092119A - 基于多维度特征融合的人体行为识别系统及其工作方法

Info

Publication number: CN116092119A
Application number: CN202211709771.9A
Authority: CN
Inventors: 许宏吉; 周双; 杜正锋; 刘琚; 刘治; 曾佳琦; 汪阳; 艾文涛; 王猛; 王宇豪; 徐杰
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2022-12-29
Filing date: 2022-12-29
Publication date: 2023-05-09

Abstract

本发明公开了一种基于多维度特征融合的人体行为识别系统及其工作方法，包括行为数据采集模块、行为数据传输模块、行为数据存储模块、行为数据预处理模块、行为特征提取模块、行为分类结果模块以及行为识别应用模块；行为数据采集模块、行为数据传输模块、行为数据预处理模块、行为数据存储模块、行为特征提取模块、行为分类结果模块和行为识别应用模块依次连接。本发明采用上述基于多维度特征融合的人体行为识别系统及其工作方法，可应用于监狱管理服刑人员、老年人监护等场景。弥补了基于传感器的人体行为识别的缺陷，采用多维度的特征提取与融合解决了传统特征提取不精确导致行为识别错误问题。

Description

基于多维度特征融合的人体行为识别系统及其工作方法

技术领域

本发明涉及一种人工智能技术，尤其涉及一种基于多维度特征融合的人体行为识别系统及其工作方法。

背景技术

随着经济社会的发展，人体行为识别(Human Activity Recognition，HAR)技术也得到了很好的发展，如安全监控、体感游戏、用户社交行为分析等多类研究领域中均已出现行为识别的应用。随着人体行为识别和人工智能等其他领域的紧密结合，行为采集和分析得到的数据信息给科学研究带来了可观的高效便利，与人体行为识别相关的模式识别已成为相关领域位居热门的研究话题之一。

相对于基于可穿戴传感器的人体行为识别技术，基于视频的人体行为识别技术不依赖于人体本身，采集到的数据更加直观。在一些特定场景下，还要考虑可穿戴传感器的续航能力，而基于视频的人体行为识别技术不需要考虑上述问题，故其技术更加简单与可靠。

在基于视频的人体行为识别技术中，提取正确、精细的行为特征是准确识别人体行为的保障。其中传统的特征提取方法有定向梯度直方图(Histogram of OrientedGradients，HOG)、光流直方图(Histogram of Optical Flow，HOF)、运动能量图像(MotionEnergy Image，MEI)、形状上下文(Shape Context，SC)和局部二值模式(local binarymode，LBM)等方法。传统的特征分类方法有人工神经网络(Artificial Neural Network，ANN)、支持向量机(Support Vector Machine，SVM)、K近邻(K-Nearest Neighbor，KNN)等方法。

2010年后，随着深度学习的不断发展，以卷积神经网络(Convolutional NeuralNetwork，CNN)与循环卷积网络(Recurrent Neural Network，RNN)为代表的深度学习方法成为了HAR技术主流方法。

然而，目前的HAR方法仍然存在不能提取丰富与准确的行为特征的问题，直接导致行为识别结果错误。提取特征不完整的主要原因是研究者在提取特征时，没有考虑多维度特征信息。例如，CNN只提取了行为数据的空间维度上的特征信息，没有考虑时间维度上的特征信息。但是由于对于一个行为在时间维度上是具有连贯性的，所以时间维度上的特征信息是不可以忽略的。

且采集的人体行为视频通常是彩色的，具有多个通道。通道是对某个特征的检测，通道中某一处数值的强弱就是对当前特征强弱的反应。但是在提取行为特征时，并未考虑视频行为数据上的通道维度的特征信息。

发明内容

针对目前提取行为特征的维度单一化，提取到单一且粗糙的行为特征，导致行为识别准确率不高的问题，本发明提供一种基于多维度特征融合的人体行为识别系统及其工作方法，采用多维度特征融合网络，提取空间维度特征、时间维度特征、通道维度特征并进行融合，相比于单维度特征，多维度特征更丰富、更精确，从而可以提高人体行为识别准确率。

为实现上述目的，本发明提供了一种基于多维度特征融合的人体行为识别系统，包括：

行为数据采集模块：用于实时采集监控视频数据，在不同的场景下，使用不同的采集设备，主要采集用户当前可直观观察的行为状态；

行为数据传输模块：用于将采集到的视频数据根据应用场景选择对应的传输方式；

行为数据存储模块：用于对采集的原始视频行为数据、行为识别结果以及对应的时间戳存储到数据库服务器中；

行为数据预处理模块：用于对视频采集到的数据进行预处理操作；

行为特征提取模块：用于将预处理后的行为数据分别输入到空间与通道特征提取单元、卷积网络基础单元和时间特征提取单元中；

行为分类结果模块：用于对时间、空间与通道提取到的多维度特征进行融合，通过全连接层与Softmax分类器对融合特征计算与预测，最后得到行为分类结果；

以及行为识别应用模块：用于将识别结果传送到应用平台上显示，从而实现人体行为的实时监控与管理；

行为数据采集模块、行为数据传输模块、行为数据预处理模块、行为数据存储模块、行为特征提取模块、行为分类结果模块和行为识别应用模块依次连接。

优选的，所述行为数据采集模块包括用于对视频数据进行收集的数据收集设备和用于将收集的光信号转换为电信号的图像传感单元，所述图像传感单元包括电荷耦合器件和互补金属氧化物半导体。

优选的，所述行为数据传输模块包括有线传输单元与无线传输单元，所述有线传输单元以同轴电缆传输基带信号和光纤传输信号为主，所述无线传输单元以流媒体传输为主。

优选的，所述行为数据预处理模块包括：

视频数据分割单元，用于将采集到长时序视频数据进行固定时长分割，加快识别结果呈现速度，更接近实时识别；

视频数据转帧单元，用于将分割好的视频数据转化成视频帧数据，便于输入到识别模型中训练识别；

视频数据去噪单元，用于对转化后的视频帧进行去噪，减弱图像数据中噪声，使图像数据特征更加明显；

以及分配视频标签单元，用于对分割、去噪后的数据进行分配标签，并对标签数据进行one-hot编码。

优选的，所述行为特征提取模块包括用于提取空间与通道维度上的特征信息的空间与通道特征提取单元、用于提取基本的行为特征信息的卷积网络基础单元和用于提取时间维度上的特征信息的时间特征提取单元；

所述空间与通道特征提取单元包括特征预提取卷积层、基于多尺度卷积的空间全局上下文建模层与通道特征提取层，所述特征预提取卷积层包括两个卷积核尺寸为3的三维卷积层；所述基于多尺度卷积的空间全局上下文建模层包括两个并行的卷积核尺寸分别为3与5的卷积层和用于在图像上进行全局上下文建模的Softmax层，所述通道特征提取层使用挤压-激励模块，其中在挤压操作中加入最大池化与平均池化；

所述卷积网络基础单元主要由五个卷积层组成，所述卷积网络基础单元使用三维卷积网络作为基础网络模型；

所述时间特征提取单元由时序自适应提取特征层与自注意力机制层组成，所述时序自适应提取特征层包括局部时序特征提取分支和全局时序特征提取分支，所述自注意力机制层由self-attention模块组成。

基于多维度特征融合的人体行为识别系统的工作方法，包括以下步骤：

步骤S1：采集视频行为信息数据

根据不同场景以及用户不同需求，选择视频采集装备与采集角度，同时，在采集数据时，需要考虑人体行为出现的范围，确保有效采集数据；

步骤S2：传输视频行为信息数据

根据不同的场景需求，选择传输方式，并传输至数据库服务器上存储采集的原始数据与时间戳；

步骤S3：分割视频行为数据

对采集到的长时序视频数据进行固定时间长度分割，为后面输出识别结果的频率做铺垫，实现实时人体行为识别；

步骤S4：视频行为数据转化成视频帧

将分割后的短时序视频转化成视频帧，得到行为识别模块的输入形式；步骤S5：视频帧数据去噪与分配标签

对转化后的视频帧使用中值滤波方法去除噪声，将去噪后的视频帧使用16帧窗口进行滑动取数据，为了不丢失动作的连贯性，每次窗口滑动有50％的覆盖率，之后对滑动后的视频帧进行标定标签，并对标签数据进行one-hot编码；

步骤S6：提取视频行为时间维度特征信息

将处理后的原始数据输入到时间维度特征信息提取层，并使用自注意力机制加强提取到的时间特征；

步骤S7：提取视频行为数据基础特征信息；

步骤S8：提取视频行为空间与通道维度特征信息

将处理后的原始数据先使用卷积特征预提取，再输入到基于多尺度卷积的上下文建模与挤压-激励模块中提取空间特征与通道特征，其中，步骤S6、步骤S7与步骤S8同时进行特征提取；

步骤S9：特征融合并输出行为结果

将提取到的时间特征信息、空间特征信息与通道特征信息进行合并相加得到融合后的特征信息，将融合信息输入到全连接层与Softmax层后，得到行为分类结果；

步骤S10：判断是否出现异常行为

得到步骤S9中的行为分类结果，对其进行判断是否为异常行为；

步骤S11：报警

当步骤S10中判断结果为异常行为时，立即向监护人或管理者的接收设备发出警报，通知相关人员立即处理突发事故；若步骤S10中判断结果为正常行为时，将直接显示在系统对应位置，结束系统流程。

优选的，步骤S5所述的用中值滤波具体包括以下方法：

对一个数字信号序列x_j(-∞＜j＜+∞)进行滤波处理时，首先定义一个长度为奇数的L长窗口，L＝2N+1，N为正整数；设在某一个时刻，窗口内的信号样本为x(i-N)，…，x(i)，…，x(i+N)，其中x(i)为位于窗口中心的信号样本值，对L个信号样本值按从小到大的顺序排列后，其中，在i处的样值，便定义为中值滤波的输出值，具体公式如下：

y(i)＝Med[x(i-N),...,x(i),...,x(i+N)] (1)

其中，Med(·)表示中值滤波函数，y(i)表示中值滤波的输出。

优选的，步骤S6具体包括以下步骤：

步骤S61：通过时序自适应提取特征层提取视频行为数据的时间特征；

步骤S62：使用自注意力机制层加强提取的时间特征。

优选的，步骤S61具体包括以下步骤：

步骤S611：时序自适应提取特征层专注于学习视频序列在时序上的变化模式，故利用平均池化对输入数据X的空间维度进行压缩，得到

时序自适应提取特征层由局部分支和全局分支组成，方法归纳如下：

其中，Y表示提取到的时序特征，

表示卷积运算符，⊙表示逐元素乘法，g(·)表示全局分支，L(·)表示局部分支；

步骤S612：将时序自适应提取特征层的学习过程分解为局部分支和全局分支；

其中，局部分支旨在利用短时序信息生成位置相关的重要性权重，公式归纳如下：

其中，Conv1D(*,*,*)表示一个时序卷积，其接受的参数分别是输入张量、卷积核大小和输出通道数，Sigmoid(·)表示Sigmoid函数，K是自适应卷积核的尺寸，C表示通道数；

局部分支生成的

是时序自适应参数的一部分，相比于全局分支，它的特点是对时序位置敏感，故以如下方式进行时序增强：

其中，

是局部分支的输出特征图，F_rescale(·)是重新调节函数；全局分支主要负责长时序建模，捕获视频中的长时序依赖，全局分支使用一种通道时序卷积核的生成方法，该方法归纳如下：

其中，

表示第c个通道的自适应卷积核，K是自适应卷积核的尺寸，δ表示ReLU非线性激活函数，W₁与W₂代表特征矩阵，Softmax(·)代表Softmax函数；

步骤S613：将局部分支与全局分支进行时序自适应聚合，生成的卷积核Θ＝{Θ₁,Θ₂,···,Θ_c}，以卷积的方式学习视频帧之间的时序结构信息：

其中，“·”表示标量乘法，Z是经过局部分支激活后的特征图，

是经过时序自适应卷积得到的特征图；

步骤S62中采用如下公式：

优选的，步骤S8具体包括以下步骤：

步骤S81：使用两个卷积核尺寸为3的卷积层，对数据特征进行预提取；

步骤S82：使用多尺度卷积与Softmax层对数据进行上下文建模，提取空间特征；

将步骤S81中得到的特征数据，分别输入到卷积核尺寸为3与5的三维卷集中，为了将少计算量分别使用卷积核尺寸为3×1×1、1×3×3与5×1×1、1×5×5的卷积代替，卷积后的数据特征在经过Softmax层对其进行上下文建模，得到对应的空间特征；

步骤S83：使用挤压-激励模块提取数据的通道特征

将步骤S82和步骤S83结合得到基于多尺度卷积进行全局上下文建模的挤压-激励模块，将带有空间特征的数据输入到挤压-激励模块中提取其中的通道特征，其中在挤压操作中不仅使用了平均池化操作，也使用了最大池化操作，计算方法如下：

挤压操作：

其中，u_c表示第c个输出，i和j分别表示图像的高度和宽度，max(·)表示最大池化操作，F_s(·)表示最大池化和平均池化的组合操作；

激励操作：

z_c＝F_ex(z_c,W)＝σ(g(z_c,W))＝σ(W₂ ReLU(W₁ z_c)) (9)

其中，F_ex(·)表示激励运算，σ(·)表示激活函数，

分别表示激励运算权重矩阵；

特征融合：

Output＝F_scale(u,z_c) (10)

其中，F_scale(·)表示特征映射的过程，Output为输出特征。

因此，本发明具有以下有益效果：

1.实用性：基于视频的行为识别系统，对系统传输等识别模型有较高的要求，本发明设计的系统流程，更适合于视频行为识别系统。

2.高可靠性：与现有的最新识别模型相比，多维度特征融合识别方法的使用可提取到更精确与更精细的行为特征，得到更高的行为识别准确率。将该识别方法应用到系统中，使系统具有更强的鲁棒性。

3.自适应性：面对不同的应用场景，本发明通过对视频数据的时间、空间、通道进行特征提取，面对不同的、复杂的、动态的场景都可适用。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明的结构示意图；

图2为本发明的工作流程图；

图3为本发明的行为分类结果模块的原理图；

图4为本发明的基于多尺度卷积进行全局上下文建模的挤压-激励模块原理图。

具体实施方式

以下将结合附图对本发明作进一步的描述，需要说明的是，本实施例以本技术方案为前提，给出了详细的实施方式和具体的操作过程，但本发明的保护范围并不限于本实施例。

图1为本发明的结构示意图；图2为本发明的工作流程图；图3为本发明的行为分类结果模块的原理图；图4为本发明的基于多尺度卷积进行全局上下文建模的挤压-激励模块原理图，如图1-图4所示，一种基于多维度特征融合的人体行为识别系统，包括：

行为数据采集模块：用于实时采集监控视频数据，在不同的场景下，使用不同的采集设备，主要采集用户当前可直观观察的行为状态，用户可以根据自己的需求来调整行为采集设备的采集角度位置；

行为数据预处理模块：用于对视频采集到的数据进行预处理操作，预处理操作包括分割、转化视频帧、去噪、分配行为类别标签等；

优选的，所述行为数据采集模块包括用于对视频数据进行收集的数据收集设备(如光源、镜头、摄像、电视设备、云台等)和用于将收集的光信号转换为电信号的图像传感单元，所述图像传感单元包括电荷耦合器件(Charge-Coupled Device，CCD)和互补金属氧化物半导体(Complementary Metal Oxide Semiconductor，CMOS)。在收集过程中，一方面摄像设施将需要收集的数据通过光信号的形式进行收集，接下来通过光电传感的方式，将收集的光信号转换为电信号，再使用这上述两种图像技术完成视频数据采集的转换。

优选的，所述行为数据传输模块包括有线传输单元与无线传输单元，所述有线传输单元以同轴电缆传输基带信号和光纤传输信号为主，所述无线传输单元以流媒体传输为主，主要原理是将视频信号压缩编码为IP流，在数据接收端有解码器对数据进行还原，这种技术加大了传输数据的传输距离，减少了传输成本。在不同场景中，可以根据具体系统需要来选定具体的传输方式。

优选的，所述行为数据预处理模块包括：

所述空间与通道特征提取单元包括特征预提取卷积层、基于多尺度卷积的空间全局上下文建模层与通道特征提取层，所述特征预提取卷积层包括两个卷积核尺寸为3的三维卷积层；所述基于多尺度卷积的空间全局上下文建模层包括两个并行的卷积核尺寸分别为3与5的卷积层和用于在图像上进行全局上下文建模的Softmax层，其中为了减少计算量将3×3×3的卷积核转变成卷积核尺寸为3×1×1与1×3×3的卷积，卷积核尺寸为5的卷积层处理方式相同，所述通道特征提取层使用挤压-激励模块，其中在挤压操作中加入最大池化与平均池化，使用两种平均池化，目的是为了找到平均化特征与最大化特征中最佳的特征信息；

本实施例以人员A在场景B的行为为例，人员A在场景B出现异常危险行为。为了更准确可靠的识别这些危险行为，防止造成严重的影响和危害，通过视频监控获取其行为信息，然后经过信息预处理，提高信息的可信度，最后通过训练好的行为识别模型进行实时行为识别与监控预警。管理者可以根据不同的场景和不同的特殊人员来设置不同的参数进行实时行为识别。

步骤S1：采集视频行为信息数据

步骤S2：传输视频行为信息数据

步骤S3：分割视频行为数据

步骤S4：视频行为数据转化成视频帧

对转化后的视频帧使用中值滤波方法去除噪声(中值滤波对脉冲噪声有良好的滤除作用，特别是在滤除噪声的同时，能够保护信号的边缘，使之不被模糊。中值滤波的算法简单，也易于用硬件实现)，将去噪后的视频帧使用16帧窗口进行滑动取数据，为了不丢失动作的连贯性，每次窗口滑动有50％的覆盖率，之后对滑动后的视频帧进行标定标签，并对标签数据进行one-hot编码；

优选的，步骤S5所述的用中值滤波具体包括以下方法：

y(i)＝Med[x(i-N),...,x(i),...,x(i+N)] (1)

其中，Med(·)表示中值滤波函数，y(i)表示中值滤波的输出。

步骤S6：提取视频行为时间维度特征信息

优选的，步骤S6具体包括以下步骤：

步骤S61：通过时序自适应提取特征层(Temporal Adaptive Module，TAM)提取视频行为数据的时间特征；

优选的，步骤S61具体包括以下步骤：

步骤S611：TAM专注于学习视频序列在时序上的变化模式，故利用平均池化对输入数据X的空间维度进行压缩，得到

TAM由局部分支和全局分支组成，方法归纳如下：

其中，Y表示提取到的时序特征，

步骤S612：将TAM的学习过程分解为局部分支和全局分支；

局部分支生成的

其中，

是局部分支的输出特征图，F_rescale(·)是重新调节函数；

全局分支是TAM的核心，其基于全局时序信息生成视频相关的自适应卷积核，全局分支主要负责长时序建模，捕获视频中的长时序依赖，全局分支使用一种通道时序卷积核的生成方法，该方法归纳如下：

其中，

是经过时序自适应卷积得到的特征图；

步骤S62：使用自注意力机制层加强提取的时间特征。

步骤S62中采用如下公式：

步骤S7：提取视频行为数据基础特征信息；

将处理后的原始数据输入到基础网络模型中，得到数据的基础特征，其中，基础网络模型采用C3D网络，该网络有8个卷积层，卷积核大小设置为3，步长设置为1；5个池化层中除第一个过滤器大小外，过滤器大小设置为2，步长设置为2；两个单元数为4096的FC层和一个Softmax分类层；

输入行为识别模型的数据大小为batch_size×channel×clip_len×height×width，Softmax层输出大小为batch_size×n，其中，batch_size为训练批次大小，channel为图像通道数，clip_len为一个滑动窗口所包含的视频帧数，height是视频帧的高，width是视频帧的宽，n为人体行为识别种类数量。

步骤S8：提取视频行为空间与通道维度特征信息

优选的，步骤S8具体包括以下步骤：

步骤S83：使用挤压-激励模块提取数据的通道特征

将步骤S82和步骤S83结合得到基于多尺度卷积进行全局上下文建模的挤压-激励模块(Squeeze-and-excitation Module based on Multi-scale Convolution forGlobal Context Modeling，MGSE)，将带有空间特征的数据输入到挤压-激励模块中提取其中的通道特征，其中在挤压操作中不仅使用了平均池化操作，也使用了最大池化操作，计算方法如下：

挤压操作：

激励操作：

z_c＝F_ex(z_c,W)＝σ(g(z_c,W))＝σ(W₂ ReLU(W₁ z_c)) (9)

其中，F_ex(·)表示激励运算，σ(·)表示激活函数，

分别表示激励运算权重矩阵；

特征融合：

Output＝F_scale(u,z_c) (10)

其中，F_scale(·)表示特征映射的过程，Output为输出特征。

步骤S9：特征融合并输出行为结果

步骤S10：判断是否出现异常行为

步骤S11：报警

因此，本发明采用上述基于多维度特征融合的人体行为识别系统，首先使用数据收集设备(例如，摄像机，智能手机等)将需要收集的数据通过光信号的形式进行收集，接下来通过光电传感的方式，对收集来的光信号转换为电信号，完成视频采集数据的转换。在数据收集完成后，转化为电信号的数据进入数据传输阶段。数据传输分为有线传输与无线传输，可根据具体场景选择适合的传输方式。将接收到的视频数据进行分割、转化成视频帧、去噪等预处理操作。将预处理后的视频数据输入到行为识别分类模型中进行行为识别，得到行为识别结果。将行为识别结果在应用平台上进行显示。其中，将采集的原始视频与最后的行为识别结果与时间戳在数据服务器上进行存储。

最后应说明的是：以上实施例仅用以说明本发明的技术方案而非对其进行限制，尽管参照较佳实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对本发明的技术方案进行修改或者等同替换，而这些修改或者等同替换亦不能使修改后的技术方案脱离本发明技术方案的精神和范围。