CN117372917A

CN117372917A - 一种基于多维特征融合的安防异常行为识别方法

Info

Publication number: CN117372917A
Application number: CN202311164097.5A
Authority: CN
Inventors: 庞永恒; 姜囡; 单婧文; 王华朋; 王一鸣; 巩家昌; 王扶尧; 邵冬梅; 王丹; 尚越; 陈静蓉
Original assignee: China Criminal Police University
Current assignee: China Criminal Police University
Priority date: 2023-09-11
Filing date: 2023-09-11
Publication date: 2024-01-09

Abstract

本发明涉及人类活动检测技术领域，尤其提出了一种多维特征融合的安防异常行为识别方法，利用信号数据和视频图像数据，基于深度学习模型架构，实现正常行为、危险行为、对抗行为和损伤行为的分析与识别。在数据处理阶段，本发明提出的基于前后时序推理的不完备数据重构模型，能够针对由于干扰、丢包等问题产生的传感器不完备信号数据进行重构补全，提升适用性和准确性；在特征挖掘与识别阶段，本发明从信号和视频中挖掘四类特征，并设计多尺度卷积神经网络对特征进行高维映射和融合挖掘，同时提出了基于不完备衡量因子的改进损失函数，引导模型构建更清晰的分类超球面，进一步提升安防异常行为识别的准确性。

Description

一种基于多维特征融合的安防异常行为识别方法

技术领域

本发明涉及人类活动检测技术领域，具体提供了一种基于多维特征融合的安防异常行为识别方法。

背景技术

人类行为一直是社会交往中的一个重要因素，人作为高级动物，其行为具有更深层的意义及社会性质。人类异常行为，指的是在当前场景下，做出的一切不合时宜的动作、姿态或事件等，常见的异常行为有摔倒、打斗、越界、攀爬、损坏公共设施、轻生等。

近年来，有效的人类行为识别系统收受到了广泛的研究关注。在安防监控领域，异常行为识别可以应用于视频监控系统，用于监测和识别异常行为，如入侵、盗窃、暴力等，帮助提升安全水平和减少犯罪行为。在智能交通领域，异常行为识别可用于监测交通事故、不当驾驶行为和违规操作，以改善交通安全。在医疗健康领域，异常行为识别可用于监测老年人或患有特定疾病的人的日常行为，及时发现异常或突发情况，为提供及时救援提供帮助。在工业自动化领域，异常行为识别可用于监测生产线上的异常情况，帮助预测故障和提高生产效率。可见，人类异常行为的识别与检测十分重要，但由于人类行为的多样性、背景环境的复杂性、识别要求的实时性及不同场景的差异性，人类行为的识别与检测也面临着巨大的挑战，需要依据实际应用选择不同的算法和模型。

目前的异常行为检测主要基于视频监控或穿戴式传感器等。许多研究人员采用惯性传感器(即加速度计、陀螺仪、磁力计等)来记录人类日常行为，比较的可靠和便宜，但由于信号干扰和背景噪声，且无线传输过程存在网络延时、丢包等数据不完备问题，这些传感器无法处理一些复杂和可疑的活动。而从摄像机收集的数据包含了更多更为直观的人体运动信息。因此，将人体传感器与计算机视觉传感器相结合，可以大幅度提高系统的性能。

发明内容

鉴于上述问题，本发明提供了一种基于多维特征融合的安防异常行为识别方法，包括如下步骤，

基于采集到的惯性信号和视频信号进行预处理；

基于预处理后的信号提取时间矩、模糊熵、偏离量及集合特征四个特征；

基于上述四个特征的融合，进行特征-图像编码；

基于多尺度卷积神经网络对上述特征-图像编码进行人类动作识别。

进一步的，对惯性信号进行预处理，包括构建基于前后时序推理的不完备数据重构模型，对惯性信号进行缺失数据信息的等效值重构和补全；在不丢失数据的前提下，采用中值滤波去除惯性信号的噪声和冗余；

对视频信号进行预处理，包括利用背景差分法对人体及其运动进行检测，提取出运动区域，利用形态学操作进一步提取人体轮廓。

进一步的，基于预处理后的惯性信号提取包括时间矩、模糊熵、偏离量三种特征；

基于对视频信号进行处理后得到的人体轮廓中构建的人体骨架中提取几何特征；

进一步的，基于前后时序推理的不完备数据重构模型包含两个结构相同的LSTM时序推理网络，即后序推理LSTM网络和前序推理LSTM网络，其中后序推理网络是根据缺失数据的前置数据来进行推理重构，而前序推理网络是根据缺失数据的后置数据来进行重构，分别定义为：

式中，h(x⁽ⁱ⁾；l)和h(x⁽ⁱ⁾；p)分别为后序推理网络和前序推理网络重构补全的缺失部分数据向量；x⁽ⁱ⁾中x为信号采样点数据，i为采样时间点；和/>分别为后序推理网络和前序推理网络；由于两个时序推理网络的目标是重构缺失部分数据，因此前序推理网络的输出向量是后序推理网络输出向量的逆序；采用典型LSTM损失函数用来度量生成向量h(x⁽ⁱ⁾)与真实向量y(i)之间的差异，从而引导模型的权值更新。

进一步的，基于前后时序推理的不完备数据重构模型，建立基于Wasserstein距离的损失函数，衡量两个网络之间的输出差异，并据此更新网络权值，对缺失数据的等效值重构；对于由两个网络所推理生成的缺失数据向量，其Wasserstein距离定义为：

式中，是后序推理网络输出和前序推理网络输出所能组合起来的所有可能的联合分布的集合；因此，从中任意采样(x_l,x_p)～γ在联合分布γ下对距离的期望值的下界/>代表两个分布之间的Wasserstein距离；由此，结合两个网络间的输出关系，可以定义新的损失函数(分布差异因子)为:

其中，rev(h(x⁽ⁱ⁾；p))为前序推理网络输出的逆序。

进一步的，采用数字非线性滤波方法检测和去除噪声，使用非静态中值滤波和线性去噪方法处理特定运动的数据丢失；中值滤波采用逐窗口技术对整个信号进行处理，通过取连续的采样点，同时计算它们的中值来代替当前点的值，从而使信号平滑，中值滤波用如下关系式进行计算：

y[a,b]＝medianx{[k,l],(k.l)∈w}

其中，x为原始信号，y[a,b]表示滤波后的信号，w表示窗口大小，通常为3*3或5*5的区域，k和l属于图像点[a,b]周围指定邻接值的窗口w。

进一步的，运动区域的提取包括如下步骤，

01)建立背景模型：

采用混合高斯背景建模，使用多个高斯分布混合对背景像素进行建模，每个高斯分布代表着背景像素的不同状态：

P(x)＝∑w_k*N(x；μ_k,∑_k)

其中P(x)表示像素值x在背景模型中的概率密度函数，N(x；μ_k,∑_k)是高斯分布函数，表示均值为μ_k，协方差矩阵为∑_k的高斯分布，w_k是混合权重，表示第k个高斯分布在背景模型中的权重；

02)视频帧差分：

将当前帧图像与背景模型进行差分，得到差分图像；在获取背景图像帧B(x.y)以后，将当前视频帧fn(x,y)与背景帧对应像素的灰度值相减，得到差分图像Dn(x,y)：

D_n(x,y)＝|f_n(x,y)-B(x,y)|

03)阈值处理：

将像素值与预先设定的阈值进行比较，将大于阈值的像素标记为前景，将小于等于阈值的像素标记为背景；计算公式如下：

其中，R_n(x,y)为运动目标，D_n(x,y)为差分图像，T为阈值；

04)运动区域提取：

通过阈值处理后，得到二值图像，其中运动区域像素被标记为白色或者1，背景像素被标记为黑色或者0,如此提取出前景目标。

进一步的，人体轮廓从RGB图像帧中获得，具体如下，

首先，对深度图像进行阈值分割，将深度图像转换为二值图像，然后利用二值膨胀技术对分割后的图像进行形态学处理，二值膨胀通过增加像素来扩大人类的边缘，而二值腐蚀技术从生成的图像中减去边界像素，二值膨胀和二值腐蚀的数学描述分别由下式给出：

其中q为元素Z的像素位置，通过该技术，人体轮廓被进一步从运动区域中提取出。

进一步的，时间矩，通过捕捉惯性信号中速度和频率的变化来提取惯性信号的特征，进而通过信号中的预测变化来检测人类的异常行为并进行模式计算，通过以下公式计算：

其中，tmj(s)表示时间矩阵，t和s表示表示输入信号x(t)的两个不同时间样本的速度；

模糊熵，为条件概率，其负自然对数对应于该概率，它表示对于可比较的m+1个点，具有相同m个点的两个向量保持相似；模糊熵用于度量模糊集合的不确定性和信息量，是对模糊性的定量描述，用模糊熵衡量惯性信号中时间序列的一致性，用该关系式表示：

FuzzyEn(n,p,m)＝-ln(ψⁿ⁺¹(m,p)∣ψⁿ(m,p))

其中，FuzzyEn(n,p,m)表示模糊熵，m和n是模糊系数，p表示指数边界的宽度；

偏离量，表示偏离训练集统计分布的部分，通过计算训练集惯性信号的平均和标准偏差，围绕平均值定义阈值，正向或反向超出阈值的点就是可疑异常行为；

几何特征，基于提取出的人体轮廓，选择头部、四肢和身体中心六个关节点来搭建人体骨架，基于单个骨架中的两个、三个或四个关节点的不同组合获得几何特征。

进一步的，特征-图像编码中，通过建立特征-图像编码网络单元，构建一维特征向量到二维特征图像矩阵，来满足后续动作识别过程中卷积神经网络对于输入数据的二维化表征要求；该单元将时间序列特征信号通过升维映射和图像编码，得到二维图像；在此网络模型中升维映射层的神经元数量大于时间序列特征数据的向量长度，其作用是将输入信号向量进行升维映射，从而挖掘更高维度的特征信息，该过程可以描述为：

式中，x_i,y_j分别是原始时间序列特征信号输入和经升维映射后的输出；然后采用一个滑动窗口来截取升维映射后的输出，根据输出构建二维化表征的数据矩阵，并在此基础上通过灰度图像缩放处理来完成数据的图像化编码，此过程可表示为：

式中y_j为特征数据，R为舍入函数，通过特征-图像编码，能够在编码过程中从更高维度空间挖掘特征及特征间的关系，这些额外的信息将包含在编码得到的二维表征图像中。

进一步的，基于多尺度卷积神经网络对上述特征-图像编码进行人类动作识别具体为，

多维特征数据在经过特征-图像编码后，分别得到在同时间段内各自对应的特征图像，在多尺度卷积与融合阶段，针对由同一时段内编码所得的不同特征图像组成的样本，通过构建1×1，3×3，5×5三类不同的卷积核，在多尺度下进行特征的卷积挖掘和融合；其中1×1卷积核将在与特征图像相同的维度下对来自不同信号i的图像进行细粒度最小的信息融合，从而得到蕴含多维特征信号特征的二维图像∑y₁ ⁱ；而3×3和5×5卷积核，随着特征提取所对应的局部感受域增大，其所关注和挖掘的特征将更宏观，并分别得到对应的∑y₃ ⁱ和∑y₅ ⁱ；

在分别得到各卷积核对应输出图像后进行张量级联，形成新的样本集，描述为：

式中，out_i,out_Σ分别是输入张量和输出张量，Λ是新增维度axis＝-1下的张量连接函数；高维特征关联挖掘与映射阶段，通过多通道、多层级的3×3卷积核进行特征挖掘，使不同通道的特征信息随着神经网络层数的增加映射到更高维度的特征空间进行分析，从而挖掘不同信号中的耦合特征，同时在卷积层后的激活函数也将提高网络的非线性拟合能力。此外，在互补干扰的独立特征-图像编码后，通过多尺度卷积和信息融合，使得不完备数据的影响进一步削弱，特征关联挖掘也将引导整个模型更关注于特征变化的宏观、高维差异，从而提高动作识别的准确性；

多维特征经过特征-图像编码单元构建二维图像，再由关联特征挖掘与映射单元进行特征挖掘后，所得三维张量特征图像由Flatten层进行一维化展开，得到的输出向量需要最终映射为动作识别的概率向量；

通过在训练数据中加入不完备数据，并改进损失函数使得模型能够针对不同程度的数据不完备情况，自适应的调整收敛难度，以使得网络中的神经元和权值去学习和挖掘更多的故障特征，建立更精确的状态分界超边界，对于数据的完备程度，提出如下不完备衡量因子:

式中，len(x)函数输出为变量包含的元素数量，xⁱ _l为第i段缺失数据，x_n为样本数据。据此，可以定义改进后的损失函数如下；

式中，D(θ)是一个单调递减函数，且D(π/μ)＝cos(π/μ)。由于cos函数在0到π范围内单调递减，因此cos(μθ)<cos(θ)；若不完备因子μ>2，则代表该样本数据的不完备程度过高，则在训练和应用的过程中予以舍弃；

神经网络通过反向传播和梯度下降算法来实现模型的训练和权值得更新优化，具体为：

其中，是张量级联层第i个通道的编码网络梯度；/>分别是第i个通道编码网络的加权输入和输出，W_i ^c,/>分别是张量级联层的第i个权重和偏置值；当得到张量级联层对各通道编码网络的权值更新梯度后，各编码网络按反向传播算法继续回传和更新网络权值。

本发明的优势：本发明提出了一种多维特征融合的安防异常行为识别方法，利用信号数据和视频图像数据，基于深度学习模型架构，实现正常行为、危险行为、对抗行为和损伤行为的分析与识别。在数据处理阶段，本发明提出的基于前后时序推理的不完备数据重构模型，能够针对由于干扰、丢包等问题产生的传感器不完备信号数据进行重构补全，提升适用性和准确性；在特征挖掘与识别阶段，本发明从信号和视频中挖掘四类特征，并设计多尺度卷积神经网络对特征进行高维映射和融合挖掘，同时提出了基于不完备衡量因子的改进损失函数，引导模型构建更清晰的分类超球面，进一步提升安防异常行为识别的准确性。

附图说明

图1是本发明中的系统框架图；

图2是本发明中的不同类型的数据不完备示意图；

图3是本发明中的不完备数据迭代推理重构图；

图4是本发明中的人体骨架几何特征图；

图5是本发明中的特征-图像编码模型；

图6是本发明中的动作识别模型；

图7是本发明中的卷积神经网络训练结果；

图8是本发明中的动作分类二维效果图；

图9是本发明中来自数据集的部分RGB图像。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参考图1，本发明提供了一种基于多维特征融合的安防异常行为识别方法，人类行为由佩戴在人体设备中的惯性传感器(如运动手环)和场景中安装的视频传感器两方面采集，其中，采集到的惯性信号经过不完备数据重构和中值滤波去除噪声干扰后，提取出时间矩、模糊熵、偏离量三个特征；视频信号采用背景减法提取出运动目标，并通过形态学操作提取人体轮廓，进而在人体轮廓上面搭建骨架来提取几何特征。将这四种特征融合到一起进行特征-图像编码，然后输入到卷积神经网络中进行人类动作识别。

具体包括如下步骤，

步骤1：对惯性信号和视频信号进行预处理

其中对惯性信号进行预处理，包括构建基于前后时序推理的不完备数据重构模型，对惯性信号实现缺失数据信息的等效值重构和补全；在不丢失数据的前提下，采用中值滤波去除惯性信号的噪声和冗余。

其中对视频信号进行预处理，包括利用背景差分法对人体及其运动进行检测，提取出运动区域，利用形态学操作进一步提取人体轮廓；

参考图2，无线数据由于外部干扰、信号传输、信道堵塞等引起的数据不完备问题，其不完备的情况是随机的，所包含的类型可概括为数据轻度不完备、数据中度不完备、数据重度不完备和数据连续不完备4类。其中，对于数据轻度不完备，其特点是缺失数据占该段数据样本的比例极小(不足3％)，通常表现为单个点或几个点的信息缺失。然而，对于中度、重度和连续不完备情况，样本的完整性破坏严重，其分布和概率密度改变较大。对于这些样本，提出通用的基于前后时序推理的不完备数据等效重构算法，以期最大程度上的重建缺失数据，从而实现故障高效诊断。

基于前后时序推理的不完备数据重构模型包含两个结构相同的LSTM时序推理网络，即后序推理LSTM网络和前序推理LSTM网络两部分，其中后序推理网络是根据缺失数据的前置数据来进行推理重构，而前序推理网络是根据缺失数据的后置数据来进行重构，分别定义为：

作为方案的改进，基于前后时序推理的不完备数据重构模型，通过建立基于Wasserstein距离的损失函数，来衡量两个网络之间的输出差异，并据此更新网络权值，从而实现缺失数据的等效值重构；对于由两个网络所推理生成的缺失数据向量，其Wasserstein距离可定义为：

式中，是后序推理网络输出和前序推理网络输出所能组合起来的所有可能的联合分布的集合。因此，从中任意采样(x_l,x_p)～γ在联合分布γ下对距离的期望值的下界/>就代表了两个分布之间的Wasserstein距离；由此，结合两个网络间的输出关系，可以定义新的损失函数(分布差异因子)为:

其中，rev(h(x⁽ⁱ⁾；p))为前序推理网络输出的逆序。

如图3是不完备数据的重构得效果图，重度不完备数据在建模和训练过程中将被舍弃，因此中度不完备数据是在离线建模和在线应用过程中的最严重情况，对其等效迭代重构的结果。如图3所示，可以看出，随着迭代次数的增加，后序推理网络和前序推理网络的生成数据分布不断逼近真实数据分布。通过改进的损失函数对两个推理网络输出向量分布距离进行评估，并据此迭代更新网络权值，使得重构数据分布最终能够近似的等效真实数据。在经过约20次左右迭代后，推理网络的重构分布已经非常接近真实数据，经过40次左右迭代后，损失函数收敛。

作为方案的改进，采用数字非线性滤波方法来检测和去除噪声，使用非静态中值滤波和线性去噪方法来处理特定运动的数据丢失；中值滤波采用逐窗口技术对整个信号进行处理，通过取连续的采样点，同时计算它们的中值来代替当前点的值，从而使信号平滑，中值滤波可用如下关系式进行计算：

y[a,b]＝medianx{[k,l],(k.l)∈w}

进一步的，步骤1中运动区域的提取包括如下步骤，

01)建立背景模型：在开始处理视频序列之前，需要建立一个背景模型，用于表示场景的背景信息。背景模型可以简单地通过取前几帧图像的平均值或中值来得到，也可以采用更复杂的统计方法，本发明采用混合高斯背景建模，使用多个高斯分布混合对背景像素进行建模，每个高斯分布代表着背景像素的不同状态：

P(x)＝∑w_k*N(x；μ_k,∑_k)

其中P(x)表示像素值x在背景模型中的概率密度函数，N(x；μ_k,∑_k)是高斯分布函数，表示均值为μ_k，协方差矩阵为∑_k的高斯分布，w_k是混合权重，表示第k个高斯分布在背景模型中的权重。

02)视频帧差分：将当前帧图像与背景模型进行差分，得到差分图像。在获取背景图像帧B(x.y)以后，将当前视频帧fn(x,y)与背景帧对应像素的灰度值相减，得到差分图像Dn(x,y)：

D_n(x,y)＝|f_n(x,y)-B(x,y)|

03)阈值处理：为了将前景目标从差分图像中提取出来，需要对差分图像进行阈值处理。阈值处理将像素值与预先设定的阈值进行比较，将大于阈值的像素标记为前景，将小于等于阈值的像素标记为背景。计算公式如下：

其中，R_n(x,y)为运动目标，D_n(x,y)为差分图像，T为阈值。

04)运动区域提取：通过阈值处理后，得到二值图像，其中运动区域像素被标记为白色(或者1)，背景像素被标记为黑色(或者0),这样，前景目标就被提取出来了。

作为方案的改进，人体轮廓从RGB图像帧中获得，具体如下，

首先，对深度图像进行阈值分割，将深度图像转换为二值图像，然后利用二值膨胀技术对分割后的图像进行形态学处理。二值膨胀通过增加像素来扩大人类的边缘，而二值腐蚀技术从生成的图像中减去边界像素。二值膨胀和二值腐蚀的数学描述分别由下式给出：

其中q为元素Z的像素位置。通过该技术，人体轮廓被进一步从运动区域中提取出来。

步骤2：基于预处理后的信号提取时间矩、模糊熵、偏离量及集合特征四个特征；

基于上述预处理后的惯性信号数据及人体轮廓数据，采用传感器，提取包括时间矩、模糊熵、偏离量及几何特征四种特征；其中时间矩、模糊熵和偏离量从预处理后的惯性信号中提取，几何特征从得出的人体轮廓中构建人体骨架提取；

时间矩，通过捕捉惯性信号中速度和频率的变化来提取惯性信号的特征，进而通过信号中的预测变化来检测人类的异常行为并进行模式计算，可以通过以下公式计算：

模糊熵，为条件概率，其负自然对数对应于该概率，它表示对于可比较的m+1个点，具有相同m个点的两个向量保持相似；模糊熵用于度量模糊集合的不确定性和信息量，是对模糊，在这里，可以用模糊熵衡量惯性信号中时间序列的一致性，用该关系式表示：

FuzzyEn(n,p,m)＝-ln(ψⁿ⁺¹(m,p)∣ψⁿ(m,p))

如图4所示是经过背景减除与形态学操作得到的人体轮廓，从中选取了主要的六个关节点，分别是头部、左手、右手、左脚、右脚和人体中心来搭建人体骨架。尽管这六个关节点中的每两个、三个、四个关节之间有大量的几何组合，但为了降低计算成本，只选取了最为关键的两个组合。其一是关节之间的欧式距离,例如人体中心关节与手关节在x，y坐标系下的关节距离可以计算为：

其中Vd(j1,j2)表示两关节间的距离，a1为人体中心关节，a2为手部关节。

其二是关节连接线与平面相交形成的三角形。在这里，使用海伦公式来计算三角形：

其中，关节J与直线j1-j2相交，为三角形的面积。

步骤3：对于上述取出的四种特征进行特征-图像编码；

作为方案的改进，参考图5，步骤3中，通过建立特征-图像编码网络单元，该单元作用是将时间序列信号经过特征提取和图像编码，升级映射为一个二维网络，即构建一维特征向量到二维特征图像矩阵，图像编码过程以阶跃的滑动时间窗口(T_i+1＝T_i+τ，其中τ为固定时间长度参量)来截取特征，信号数据经过特征提取和图像编码后分别得到在同时间段内各自的特征图像来满足后续动作识别过程中卷积神经网络对于输入数据的二维化表征要求。

在此网络模型中升维映射层的神经元数量远大于时间序列特征数据的向量长度，其作用是将输入信号向量进行升维映射，从而挖掘更高维度的特征信息，过程可以描述为：

式中，x_i,y_j分别是原始时间序列特征信号输入和经升维映射后的输出。然后采用一个滑动窗口来截取升维映射后的输出，根据输出构建二维化表征的数据矩阵，并在此基础上通过灰度图像缩放处理来完成数据的图像化编码，此过程可表示为：

式中y_j为特征数据，R为舍入函数。通过特征-图像编码，能够在编码过程中从更高维度空间挖掘特征及特征间的关系，这些额外的信息将包含在编码得到的二维表征图像中。

步骤4：基于多尺度卷积神经网络对上述特征-图像编码进行人类动作识别。

参考图6，多维特征数据在经过特征-图像编码后，分别的得到在同时间段内各自对应的特征图像，虽然其各自的特征信息通过编码进行了一定的挖掘和表征，但是在多维特征间的关联耦合特征同样对最终动作识别的结果有着重要的影响。因此本文提出特征关联挖掘与映射单元，即在多尺度卷积与融合阶段，针对由同一时段内编码所得的不同特征图像组成的样本，通过构建1×1，3×3，5×5三类不同的卷积核，在多尺度下进行特征的卷积挖掘和融合。其中1×1卷积核将在与特征图像相同的维度下对来自不同信号i的图像进行细粒度最小的信息融合，从而得到蕴含多维特征信号特征的二维图像∑y₁ ⁱ；而3×3和5×5卷积核，随着特征提取所对应的局部感受域增大，其所关注和挖掘的特征将更宏观，并分别得到对应的∑y₃ ⁱ和∑y₅ ⁱ。

在分别得到各卷积核对应输出图像后进行张量级联，形成新的样本集。张量是数据驱动深度学习方法中的一个重要概念，编码所得的二维图像可以看作是二维张量，可以通过增加一个新的维度axis＝-1来建立这些图像的级联连接，从而构建了一个三维张量，对应于卷积层的输入通道，描述为：

式中，out_i,out_∑分别是输入张量和输出张量，Λ是新增维度axis＝-1下的张量连接函数。高维特征关联挖掘与映射阶段，通过多通道、多层级的3×3卷积核进行特征挖掘，使不同通道的特征信息随着神经网络层数的增加映射到更高维度的特征空间进行分析，从而挖掘不同信号中的耦合特征，同时在卷积层后的激活函数也将提高网络的非线性拟合能力。此外，在互补干扰的独立特征-图像编码后，通过多尺度卷积和信息融合，使得不完备数据的影响进一步削弱，特征关联挖掘也将引导整个诊断模型更关注于特征变化的宏观、高维差异，从而提高不完备数据的诊断效果。

多维特征经过特征-图像编码单元构建二维图像，再由关联特征挖掘与映射单元进行特征挖掘后，所得三维张量特征图像由Flatten层进行一维化展开，得到的输出向量需要最终映射为动作识别的概率向量。

为了提高模型对不完备数据的诊断能力，提高模型诊断效果，希望针对不完备数据模型能够建立更清晰的分界面，既模型在训练中能过够从针对不完备数据学习到多的特征，从而实现更精确的在数据不完备下对各状态类型的判别。因此通过在训练数据中加入不完备数据，并改进损失函数使得模型能够针对不同程度的数据不完备情况，自适应的调整收敛难度，以使得网络中的神经元和权值去学习和挖掘更多的故障特征，建立更精确的状态分界超边界。因此，对于数据的完备程度，提出如下不完备衡量因子:

式中，D(θ)是一个单调递减函数，且D(π/μ)＝cos(π/μ)。由于cos函数在0到π范围内单调递减，因此cos(μθ)<cos(θ)。这代表着在加入了数据不完备因子后，为了使模型必须挖掘更多的特征使得状态类间距离增大，因此改进的损失函数提高了模型的学习难度以引导模型对不完备数据进行更深度的拟合。此外，若不完备因子μ>2，则代表该样本数据的不完备程度过高，则在训练和应用的过程中予以舍弃。

本文的神经网络通过反向传播和梯度下降算法来实现模型的训练和权值得更新优化。与典型深层神经网络不同的是，由于模型得输入是来自多维特征的编码图像，后经过张量级联得到多通道的典型卷积输入，因此在此处的反向传播中，从上层传递到张量级联层的梯度将会分散的传递到多个编码网络中，因此需要定义分散反向传播的更新方法，分散反向传播中对上层各编码网络的权值更新优化梯度计算为：

其中，是张量级联层第i个通道的编码网络梯度；/>分别是第i个通道编码网络的加权输入和输出，W_i ^c,/>分别是张量级联层的第i个权重和偏置值。当得到张量级联层对各通道编码网络的权值更新梯度后，各编码网络按反向传播算法继续回传和更新网络权值。

如图7所示，本文在windows10上，使用tensorflow2.7.0以及其内嵌的keras，开发语言使用python 3.9.5，在pycharm中进行卷积神经网络的模型训练。经过300轮迭代以后，模型训练的精度达到了95％以上，损失值下降到0.2以下。

如图8所示是采用随机近邻嵌入法将动作分类结果的高维空间投影到二维平面的效果。最终分为四类，空心圆部分是正常行为，灰心圆部分是异常行为中的危险行为，实心圆部分是异常行为中的对抗行为，环带实心圆部分是异常行为中的损伤行为。近邻嵌入保留了样本数据的邻居关系，即让高维空间里相距较远的数据点仍就相距较远，相距较近的数据点仍就相距较近。

如图9所示是来自数据集的部分RGB图像，其中(a)是静坐，(b)是行走，(c)是侧向摔倒，(d)是互殴。数据集来源于十名没有残疾的健康年轻人志愿者，通过房间内安装的8mm焦距的摄像头和一个佩戴在手上并通过蓝牙连接的惯性传感器手环共同收集的。

如表1所示是数据集的动作列表，十名志愿者共进行了500次实验，包括150次静坐、行走、站立等正常行为；150次摔倒、攀爬等危险行为；100次打架等对抗行为；100次破坏、自残等损伤行为。每个正常行为在10秒内完成，每个异常行为在30秒内完成。

表1数据集动作列表

以上仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多维特征融合的安防异常行为识别方法，其特征在于：包括如下步骤，

基于采集到的惯性信号和视频信号进行预处理；

基于上述四个特征的融合，进行特征-图像编码；

2.如权利要求1所述的一种基于多维特征融合的安防异常行为识别方法，其特征在于：

对惯性信号进行预处理，包括构建基于前后时序推理的不完备数据重构模型，对惯性信号进行缺失数据信息的等效值重构和补全；在不丢失数据的前提下，采用中值滤波去除惯性信号的噪声和冗余；

对视频信号进行预处理，包括利用背景差分法对人体及其运动进行检测，提取出运动区域，利用形态学操作进一步提取人体轮廓；

基于预处理后的惯性信号提取包括时间矩、模糊熵、偏离量三种特征；

基于对视频信号进行处理后得到的人体轮廓中构建的人体骨架中提取几何特征。

3.如权利要求1所述的一种基于多维特征融合的安防异常行为识别方法，其特征在于：基于前后时序推理的不完备数据重构模型包含两个结构相同的LSTM时序推理网络，即后序推理LSTM网络和前序推理LSTM网络，其中后序推理网络是根据缺失数据的前置数据来进行推理重构，而前序推理网络是根据缺失数据的后置数据来进行重构，分别定义为：

4.如权利要求3所述的一种基于多维特征融合的安防异常行为识别方法，其特征在于：基于前后时序推理的不完备数据重构模型，建立基于Wasserstein距离的损失函数，衡量两个网络之间的输出差异，并据此更新网络权值，对缺失数据的等效值重构；对于由两个网络所推理生成的缺失数据向量，其Wasserstein距离定义为：

式中，是后序推理网络输出和前序推理网络输出所能组合起来的所有可能的联合分布的集合；因此，从中任意采样(x_l,x_p)～γ在联合分布γ下对距离的期望值的下界/>代表两个分布之间的Wasserstein距离；由此，结合两个网络间的输出关系，定义新的损失函数(分布差异因子)为:

其中，rev(h(x⁽ⁱ⁾；p))为前序推理网络输出的逆序。

5.如权利要求1所述的一种基于多维特征融合的安防异常行为识别方法，其特征在于：采用数字非线性滤波方法检测和去除噪声，使用非静态中值滤波和线性去噪方法处理特定运动的数据丢失；中值滤波采用逐窗口技术对整个信号进行处理，通过取连续的采样点，同时计算它们的中值来代替当前点的值，从而使信号平滑，中值滤波用如下关系式进行计算：

y[a,b]＝medianx{[k,l],(k.l)∈w}

其中，x为原始信号数据，y[a,b]表示滤波后的信号，w表示窗口大小，通常为3*3或5*5的区域，k和l属于图像点[a,b]周围指定邻接值的窗口w。

6.如权利要求1所述的一种基于多维特征融合的安防异常行为识别方法，其特征在于：其中运动区域的提取包括如下步骤，

01)建立背景模型：

P(x)＝∑w_k*N(x；μ_k,∑_k)

02)视频帧差分：

D_n(x,y)＝|f_n(x,y)-B(x,y)|

03)阈值处理：

将像素值与预先设定的阈值进行比较，将大于阈值的像素标记为前景，将小于等于阈值的像素标记为背景，计算公式如下：

其中，R_n(x,y)为运动目标，D_n(x,y)为差分图像，T为阈值；

04)运动区域提取：

7.如权利要求1所述的一种基于多维人体轮廓特征融合的安防异常行为识别方法，其特征在于：人体轮廓从RGB图像帧中获得，具体如下，

其中，q为元素Z的像素位置，通过该技术，人体轮廓被进一步从运动区域中提取出。

8.如权利要求1所述的一种基于多维人体轮廓特征融合的安防异常行为识别方法，其特征在于：

时间矩，通过捕捉惯性信号中速度和频率的变化来提取惯性信号的特征，进而通过信号中的预测变化来检测人类的异常行为并进行模式计算，通过以下公式计算：

模糊熵，为条件概率，其负自然对数对应于该概率，它表示对于可比较的m+1个点，具有相同m个点的两个向量保持相似；模糊熵用于度量模糊集合的不确定性和信息量，用模糊熵衡量惯性信号中时间序列的一致性，用该关系式表示：

FuzzyEn(n,p,m)＝-ln(ψⁿ⁺¹(m,p)∣ψⁿ(m,p))

9.如权利要求1所述的一种基于多维人体轮廓特征融合的安防异常行为识别方法，其特征在于：特征-图像编码中，通过建立特征-图像编码网络单元，构建一维特征向量到二维特征图像矩阵，来满足后续动作识别过程中卷积神经网络对于输入数据的二维化表征要求；该单元将时间序列特征信号通过升维映射和图像编码，得到二维图像；在此网络模型中升维映射层的神经元数量大于时间序列特征数据的向量长度，其作用是将输入信号向量进行升维映射，从而挖掘更高维度的特征信息，该过程可以描述为：

10.如权利要求1所述的一种基于多维人体轮廓特征融合的安防异常行为识别方法，其特征在于：基于多尺度卷积神经网络对上述特征-图像编码进行人类动作识别具体为，

式中，out_i,out_∑分别是输入张量和输出张量，Λ是新增维度axis＝-1下的张量连接函数；高维特征关联挖掘与映射阶段，通过多通道、多层级的3×3卷积核进行特征挖掘，使不同通道的特征信息随着神经网络层数的增加映射到更高维度的特征空间进行分析，从而挖掘不同信号中的耦合特征，同时在卷积层后的激活函数也将提高网络的非线性拟合能力；此外，在互补干扰的独立特征-图像编码后，通过多尺度卷积和信息融合，使得不完备数据的影响进一步削弱，特征关联挖掘也将引导整个诊断模型更关注于特征变化的宏观、高维差异，从而提高不完备数据的诊断效果；

式中，len(x)函数输出为变量包含的元素数量，xⁱ _l为第i段缺失数据，x_n为样本数据；据此，可以定义改进后的损失函数如下；

式中，D(θ)是一个单调递减函数，且D(π/μ)＝cos(π/μ)，由于cos函数在0到π范围内单调递减，因此cos(μθ)<cos(θ)；若不完备因子μ>2，则代表该样本数据的不完备程度过高，则在训练和应用的过程中予以舍弃；

其中，是张量级联层第i个通道的编码网络梯度；/>分别是第i个通道编码网络的加权输入和输出，/>分别是张量级联层的第i个权重和偏置值；当得到张量级联层对各通道编码网络的权值更新梯度后，各编码网络按反向传播算法继续回传和更新网络权值。