CN110135319B

CN110135319B - 一种异常行为检测方法及其系统

Info

Publication number: CN110135319B
Application number: CN201910382161.4A
Authority: CN
Inventors: 伍冯洁; 潘伟旋; 詹逸; 李锦韬; 林佳翰; 郑振勤; 黄成浩
Original assignee: Guangzhou University
Current assignee: Guangzhou University
Priority date: 2019-05-09
Filing date: 2019-05-09
Publication date: 2022-09-16
Anticipated expiration: 2039-05-09
Also published as: CN110135319A

Abstract

本发明公开了一种异常行为检测方法，包括步骤：使用神经网络人体骨架提取模型，提取视频中的动态的人体骨骼关节点，形成骨骼数据集；通过ST‑GCN网络获得与骨骼相对应的更高级的行为特征图，即表面行为特征；将行为特征图输入到异常行为分类器模型中，匹配以识别行为类型。本发明还公开了一种异常行为检测系统，包括视频监控模块、网络模型集成模块。本发明可实现准确高效地处理多种人体行为与大量人体骨骼数据，自动识别视频监控中出现的异常行为。

Description

一种异常行为检测方法及其系统

技术领域

本发明涉及智能识别领域，特别涉及一种异常行为检测方法及其系统。

背景技术

人工智能时代已悄然到来，基于此背景下，智能识别更是当今世界的主题，人脸识别作为模式识别领域的热点研究问题受到了广泛的关注，异常行为的智能识别更是顺应了现在对公共安全的需求，均旨在提升生活实用领域的人工智能水平，建立具有适应性、资源效率的智能识别算法。

目前监控系统往往只是对视频信号进行简单录制与传输，尚停留在监控人员对视频信号的人工监视和事后录像分析上，存在工作量巨大、异常事件响应速度慢或漏检漏报等不足。特别是对突发性异常事件的检测，由于异常行为发生的随机性大且无特定规律可寻，显然，这种依靠人工检测异常事件的方式已远远不能满足目前视频监控的需要，寻求一种能直接处理并识别的监控方法，迫在眉睫。

市面上常用的危险人物检测只能够通过X光人工对刀具进行识别，或者使用传统算法对刀具进行检测，再由人工进行判断，非常繁琐且不方便。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提供一种异常行为检测方法及其系统，此方法及其系统可实现准确高效地处理多种人体行为与大量人体骨骼数据，自动识别视频监控中出现的异常行为。

本发明的目的通过以下的技术方案实现：一种异常行为检测方法，包括步骤：

使用神经网络人体骨架提取模型，提取视频中的动态的人体骨骼关节点，形成骨骼数据集；

通过ST-GCN(空间-时间图卷积)网络获得与骨骼相对应的更高级的行为特征图，即表面行为特征；

将行为特征图输入到异常行为分类器模型中，匹配以识别行为类型；

其中，所述人体骨架提取模型的建立步骤如下：

提取训练集中的人体骨骼关节点，生成关节序列；

堆叠RNN网络以提供每个时间步长的所有关节的级联坐标，分层RNN以模拟不同部位以及整个身体的动作，对关节点提取识别人物动作；通过视图自适应子网络确定观察视点，得到骨架数据；

迭代训练以最小化损失函数，最终得到人体骨架提取模型；

所述ST-GCN网络是基于使用双流递归时间动态和空间配置的神经网络人体骨架提取模型，进一步提取了动态的人体骨骼；

所述异常行为分类器模型的建立步骤如下：

针对想要识别的各种异常行为，提取人体骨骼关节点形成骨骼数据集作为训练集；

用训练集训练Softmax分类器并最小化损失函数，得到区分不同异常行为的分类器模型。

优选的，所述提取训练集中的人体骨骼关节点的具体步骤为：

利用3D转换技术选取关节物理结构并获取人体在运动中的骨骼3D坐标；

使用遍历方法将坐标关节图转换成矩阵参数，矩阵参数的顺序与访问顺序相同，从而提取视频人体骨骼关节点。

优选的，所述堆叠RNN网络堆叠两层RNN，由于骨架序列的长度相对较长，故对所有层采用LSTM神经元。

优选的，将人体骨骼分成五个部位，即两个手臂、两个腿和一个躯干；

所述分层RNN将分层结构垂直分为两层：

在第一层使用第一RNN，根据每个时间步关节的连接坐标来模拟每个骨骼部位的时间运动；

在第二层，将不同部位的RNN输出连接起来，并采用第二RNN来模拟整个身体的运动。采用此结构更加简洁明了，并在使用soft-max-activation的 logistic回归分类器之前不使用额外的完全连接层。

优选的，所述通过视图自适应子网络确定观察视点，得到骨架数据的步骤具体为：

在对应于第t帧的时隙处，利用skeletonVtas输入，利用LSTM子网的旋转分支子网和转换分支子网，学习旋转参数α_t，β_t，γ_t和转换参数d_t以获得旋转矩阵R_t，以及对应于全局坐标系的转化矢量；

具体计算公式为：

(1)旋转参数：

其中，

是LSTM层的隐藏输出向量，其中包含LSTM中子数；W_r∈R^3×N和b_r∈R^3×1分别表示FC层的权重矩阵和偏移矢量；

(2)转换参数：

其中

是其LSTM的隐藏输出向量，W_r∈R^3×N和b_r∈R^3×1表示FC层的权重矩阵和偏移向量；

在第t帧的观察视角下，通过视图自适应递归图得到骨架的表示。

更进一步的，所述视图自适应子网络结构为分离的两个LSTM层，并对分离的两层使用相同的骨架输入；其中的主LSTM网络从视图调节的骨架数据中从头到尾学习时间动态并执行特征映射以进行动作识别。

优选的，所述异常行为分类器模型的建立步骤具体为：

行为类别标签y＞2时，给定m个训练样本：

{(x⁽¹⁾,y⁽¹⁾),(x⁽²⁾,y⁽²⁾),…,(x^(m),y^(m))}

对于Softmax回归算法，输入特征为

标记样本为y⁽ⁱ⁾∈ {0,1,…k}；设定一个假设函数ζ：

其中,θ表示引入的假设参数,

则分类任务被转换为概率的计算：

在实现Softmax回归的过程中，使用一个k×(n+1)的矩阵去代表θ：

定义一个损失函数J，来判定分类的优劣性，并迭代优化损失函数；Softmax 回归的损失函数为：

Softmax回归求解：

在获得了损失函数的定义后，使用迭代优化算法，将损失函数J(θ)优化，便可对Softmax回归进行求解，我们使用梯度下降的方法求解；经过求导，可以获得：

其中

是一个向量，它的第l个元素

是J(θ)是θ_j的第l个分量的偏导；

在得到了求导后的损失函数后，将其带入梯度下降等迭代优化算法中以优化J(θ)，获得异常行为分类器模型。

所述Softmax回归是Logistic回归算法在多分类上的拓展，解决了 Logistic回归只能适用于二分类的问题。

更进一步的，在损失函数中引入权重衰减项，以解决Softmax回归容易出现多个解的问题，通过添加权重衰减项

修改相应的损失函数：

其中，λ是一个0到1范围内的随机常数；

引入衰减项后，损失函数J(θ)变成了严格的凸函数，便可以保证有唯一最优解；

新的损失函数的导数可以写为：

同样的，将新的损失函数的导数代入迭代优化算法中，最小化J(θ)，得到一个可用的多分类模型。

优选的，所述异常行为检测方法还包括：利用yolov3特征提取模型检测危险品；

所述yolov3特征提取模型的训练由以下步骤训练得出：

利用神经网络的卷积层对公共场所人物所携带的刀具进行识别，获取图片中的目标框；所述目标框是将需要检测的物体进行框定，但是会存在一个物体被多个目标框所框的问题，还有多个物体重合在一起导致的目标框重合；

对目标框进行多标签分类，并利用FPN网络提取目标框特征，去除掉错误的目标框；

最后进行预测(例如边界框的坐标、类别标签、目标框的重合度等)，迭代训练以最小化损失函数，最终得到yolov3特征提取模型。

更进一步的，当视频中检测出危险品时，直接判定视频中存在异常行为，而无需再重复异常行为检测。

更进一步的，所述yolov3特征提取模型包括上采样层、75个卷积层，通过步幅为2的卷积层对特征图进行下采样；

上述yolov3特征提取模型的卷积层核心尺寸为1×1×(B×(5+C))；其中B代表每个单元可以预测的边界框数量，每个边界框都有5+C个属性；

所述yolov3特征提取模型还包括shortcut connection结构；

该yolov3卷积层没有用任何形式的池化，以防止低级特征丢失利用1×1 大小卷积核的卷积层来替代yolov3卷积网络中全连接层。

更进一步的，所述获取目标框的具体步骤为：

在三个(num＝3)不同的尺度预测boxes，对每个边界框预测四个坐标值分别是t_x,t_y,t_w和t_h；

每张被识别的图被划分成S×S个网格cell，对于预测的cell，根据图像左上角的偏移(c_x,c_y)，以及之前得到的边界框的宽p_w和高p_h，对边界框进行预测：

通过逻辑回归，针对每个边界框预测一个物体的得分；

若预测的边界框与真实的边框值大部分重合，且比其他所有预测的要好，则该值为1；

若重叠未达到预先设定的阈值，则该预测的边界框将会被无视，即显示成无损失值，该预测结果被废弃。

更进一步的，所述对目标框进行多标签分类时，采用二值交叉熵损失：

YOLO v3在每个单元中预测3个边界框；不预测边界框中心的确切坐标，而是预测目标的网格单元左上角相关的偏移；使用特征图单元的维度进行归一化的偏移。

yolov3使用这样的方式使得模型可以获取到更多的语义信息，模型得到了更好的表现。

更进一步的，所述利用FPN网络提取目标框特征具体是，用FPN(feature pyramidnetwork)网络，改变yolov3使用的特征提取模型，最后预测得到一个包含边界框信息、对象信息以及多少个类的预测信息的3-d tensor；

在深度方面，特征图中有(B x(5+C))个条目，其中B是指每个单元可以预测的边界框数量，B边界框中的每一个都可能专门用于检测某种对象。每个边界框都有5+C个属性，分别描述每个边界框的中心坐标、维度、objectness 分数和C类置信度；

使用k-Means聚类来得到边界框的先验，选择9个簇以及3个尺度，将9 个簇均匀分布在这所选择的尺度上。同时，因为使用了9个目标，从而提高了 IOU(Intersection-over-Union)。

更进一步的，所述采用yolov3检测算法检测危险品时，使用非最大值抑制确保算法只对每个对象只检测一次，从而避免对同一个对象做出多次的检测，提高算法检测速度。

优选的，所述异常行为检测方法还包括利用人脸识别技术识别异常行为的行为人，具体步骤为：

通过卷积计算得到待检测图像的编码；对于一个卷积神经网络结构，我们去掉最后的Softmax层，将一个图片样本输入网络，最后由网络输出一个N维的向量，这N维向量则代表整个图片的编码；

将待检测图像的编码与数据库人脸图片编码一起输入人脸识别神经网络模型，以提高系统预测的效率，节省计算时间；

识别预测出人脸对应的身份；

所述人脸识别神经网络模型由以下步骤训练得出：

定义Triplet损失函数，并在其之上运用梯度下降；

选取图片训练集，并分成Anchor(目标)、Positive、Negative三组数据，其中Anchor(A)：目标图片；Positive(P)：与Anchor属于同一个人脸或的图；Negative(N)：与Anchor不属于同一个人脸的图片；

L(A,P,N)＝max(||f(A)-f(P)||²-||f(A)-f(N)||²+α,0)

其中L为距离值函数，f表示由待检测图像的编码和数据库人脸图片编码一起输入神经网络后得出的编码；

则整个网络的代价函数J_c为：

以编码差的范数表示目标：

d(A,P)＝||f(A)-f(P)||²≤||f(A)-f(N)||²＝d(A,N)

也即||f(A)-f(P)||²-||f(A)-f(N)||²≤0；

选用sigmoid函数作为模型神经网络阈值函数：

迭代训练求取w_i和b，获得人脸识别神经网络模型。

更进一步的，将||f(A)-f(P)||²-||f(A)-f(N)||²≤0修改为||f(A)- f(P)||²-||f(A)-f(N)||²≤-α以避免神经网络学习到的函数总是输出0；

设置不同α值，会对模型学习产生不同的效果，因为α可拉大Anchor与Positive图片对和Anchor与Negative图片对之间的差距。

一种异常行为检测系统，包括视频监控模块、网络模型集成模块；

所述视频监控模块，用于获取待检测视频；

所述模型集成模块包括人体骨架提取模型、ST-GCN网络、异常行为分类器模型；

所述人体骨架提取模型用于提取视频中的动态的人体骨骼关节点，形成骨骼数据集；

所述ST-GCN网络用于获得骨骼的行为特征图；

所述异常行为分类器用于匹配行为特征图以识别行为类型。

优选的，所述网络模型集成模块还包括yolov3特征提取模型，用于检测危险品。

优选的，所述网络模型集成模块还包括人脸识别神经网络模型，以识别异常行为的行为人。

本发明与现有技术相比，具有如下优点和有益效果：

1、本发明考虑到了动作的时间和空间的双向维度，是在递归神经网络上结合时间和空间的双流法，应用了时空图卷积(ST-GCN)的多层结构，以逐渐在图上生成更高级别的动作特征图，再结合损失函数，极大地减小了误识别率，既可以提高动作特征图的表达能力以更好地象征动作，也可以提高ST-GCN网络通用能力以识别多种动作。

2、本发明通过视频监控的硬件设备获取待检测视频后，由于摆脱了对其他外来设备的依赖性，依靠算法即可实现实时的视频动作识别，并可进行大规模的增量训练，处理多种人体行为与大量人体骨骼数据。

3、本发明直接处理并识别监控视频中的异常行为，从现有的人工监视和事后录像分析发展至实时处理并识别监控中的异常行为，即时响应异常事件。

4、本发明选用yolov3算法，在检测异常行为的同时检测危险品，如刀具、枪支等，进一步提高识别效率。

5、本发明还进一步识别异常行为人的身份，完善异常行为预警信息。

附图说明

图1是本发明实施例1一种单人异常行为检测方法流程图。

图2是本发明实施例1空间图卷积神经网络。

图3是本发明实施例1关节提取方法示意图。

图4是本发明实施例1用于基于骨架的动作识别的分层RNN。

图5是本发明实施例1识别关节点位置的分类器模型图。

图6是本发明实施例1yolov3卷积网络结构。

图7是本发明实施例1检测刀具算法实现效果图。

图8是本发明实施例1人脸编码效果图。

图9是本发明实施例2关键点置信度网络和亲和度向量场网络示意图。

图10是本发明实施例1yolov3的目标框预测坐标分类示意图。

图11是本发明实施例1异常检测系统工作示意图。

具体实施方式

为了更好的理解本发明的技术方案，下面结合附图详细描述本发明提供的实施例，但本发明的实施方式不限于此。

实施例1

如图1所示，一种单人异常行为检测方法，包括步骤：

S1、使用神经网络人体骨架提取模型，提取视频中的动态的人体骨骼关节点，形成骨骼数据集；

S2、通过ST-GCN(空间-时间图卷积)网络获得与骨骼相对应的更高级的行为特征图，即表面行为特征；

S3、将行为特征图输入到异常行为分类器模型中，匹配以识别行为类型；

S4、用yolov3特征提取模型检测危险品，如识别检测出刀具；

1、其中，所述人体骨架提取模型的建立步骤如下：

将人体骨骼分成五个部位，即两个手臂、两个腿和一个躯干；

使用遍历方法将坐标关节图转换成矩阵参数，矩阵参数的顺序与访问顺序相同，从而提取视频人体骨骼关节点，生成关节序列；如图3所示，选取20个关节的物理结构，将点图转换成序列，手臂的关节先出现，然后是身体的关节，最后是腿的关节。

迭代训练以最小化损失函数，最终得到人体骨架提取模型；

所述堆叠RNN网络堆叠两层RNN，由于骨架序列的长度相对较长，故对所有层采用LSTM神经元。

所述分层RNN将分层结构垂直分为两层：

在第二层，如图4所示，将不同部位的RNN输出连接起来，并采用第二RNN 来模拟整个身体的运动。采用此结构更加简洁明了，并在使用 soft-max-activation的logistic回归分类器之前不使用额外的完全连接层，与堆叠结构相比，层级结构具有相对较少的参数，减少过度填充的可能。

所述通过视图自适应子网络确定观察视点，得到骨架数据的步骤具体为：

在对应于第t帧的时隙处，利用skeletonVtas输入，利用LSTM子网的旋转分支子网和转换分支子网，学习旋转参数α_t，β_t，γ_t和转换参数d_t以获得旋转矩阵R_t，以及对应于全局坐标系的转化矢量。

具体计算公式为：

(1)旋转参数：

其中，

(2)转换参数：

其中

所述视图自适应子网络结构为分离的两个LSTM层，并对分离的两层使用相同的骨架输入；其中的主LSTM网络从视图调节的骨架数据中从头到尾学习时间动态并执行特征映射以进行动作识别，此种视图适应子网可得到骨架的精确表示。

2、所述ST-GCN网络是基于使用双流递归时间动态和空间配置的神经网络人体骨架提取模型，进一步提取了动态的人体骨骼；

获得提取到的动态的人体骨骼后进一步进行姿态识别，我们将姿态识别看作为一个结构化预测问题(structured prediction)。

假设

为图片内所有关节点位置(u,v)集合，

表示关节点p的像素位置，即关节点位置置信值。

人体姿态估计的目标是：标识出图片中P个人体关节点位置Y＝(Y₁,…,Y_P)。这个估计机由multi-clas预测器序列组成，识别关节点位置的分类器模型如图 5所示：

其中g_t(·)是待训练的分类器模型，用于预测每一个层中各人体关节点的位置。

对于所有的t∈{1,…,T}，分类器g_t(·)输出的每一个关节点位置的置信值

这些置信值都是基于图像某一个点中提取的特征x_z∈R^d以及先前层中分类器输出的Y_P领域空间内容信息进行分类的。其中：

当stage t＝1时：

记在图片的每一个位置z＝(u,v)^T关节点位置p的所有置信分数为

其中w为图片的宽，h为图片的高，那么：

当stage t＞1时，分类器需要基于两种输入来预测置信值：

①与上述一致的图片特征x_z∈R^d；

②前一层中分类器输出的空间内容信息；

由于姿态估计往往需要参考周围的图像信息，并且可能会受到遮挡物的影响，我们可以引入CNN卷积神经网络的特性，因为上层网络具有更大的接收域 (receptivefield)，以此来同时考虑周围的资讯。

故整个算法的流程可以归纳为：

(1)对图像中所有出现的人进行识别，回归得到每个人的关节点；

(2)根据center map去除其他人的影响；

(3)通过重复预测得到最终的结果。

3、所述异常行为分类器模型的建立步骤如下：

所述异常行为分类器模型的建立步骤具体为：

行为类别标签y＞2时，给定m个训练样本：

{(x⁽¹⁾,y⁽¹⁾),(x⁽²⁾,y⁽²⁾),…,(x^(m),y^(m))}

对于Softmax回归算法，输入特征为

标记样本为y⁽ⁱ⁾∈ {0,1,…k}；设定一个假设函数ζ：

其中,θ表示引入的假设参数,

则分类任务被转换为概率的计算：

Softmax回归求解：

其中

是一个向量，它的第l个元素

是J(θ)是θ_j的第l个分量的偏导；

在损失函数中引入权重衰减项，以解决Softmax回归容易出现多个解的问题，通过添加权重衰减项

修改相应的损失函数：

其中，λ是一个0到1范围内的随机常数；

新的损失函数的导数可以写为：

所述异常行为检测方法还包括：

所述yolov3特征提取模型的训练由以下步骤训练得出：

利用神经网络的卷积层对公共场所人物所携带的刀具进行识别，获取图片中的目标框；所述目标框是将需要检测的物体进行框定，但是会存在一个物体被多个目标框所框的问题，还有多个物体重合在一起导致的目标框重合。对目标框进行多标签分类，并利用FPN网络提取目标框特征，去除掉错误的目标框；

所述yolov3特征提取模型包括上采样层、75个卷积层，通过步幅为2的卷积层对特征图进行下采样；

所述yolov3特征提取模型还包括shortcut connection结构；

所述yolov3卷积网络结构如图6所示；

所述获取目标框的具体步骤为：

在三个(num＝3)不同的尺度预测boxes，对每个边界框(bounding box)预测四个坐标值分别是t_x,t_y,t_w和t_h；

通过逻辑回归，针对每个边界框预测一个物体的得分；

若重叠未达到预先设定的阈值，则该预测的边界框将会被无视，即显示成无损失值。

所述对目标框进行多标签分类时，采用二值交叉熵损失，如图10所示：

yolov3在每个单元中预测3个边界框；不预测边界框中心的确切坐标，而是预测目标的网格单元左上角相关的偏移；使用特征图单元的维度进行归一化的偏移。

所述利用FPN网络提取目标框特征具体是，用FPN(feature pyramid network)网络，改变yolov3使用的特征提取模型，最后预测得到一个包含边界框信息、对象信息以及多少个类的预测信息的3-d tensor；

所述采用yolov3检测算法检测刀具时，使用非最大值抑制确保算法只对每个对象只检测一次，从而避免对同一个对象做出多次的检测，提高算法检测速度。

所述利用yolov3深度学习算法进行刀具自动检测的效果图如图7所示。

所述异常行为检测方法还包括：

S5、人脸识别技术识别异常行为的行为人，具体步骤为：

通过卷积计算得到待检测图像的编码；对于一个卷积神经网络结构，我们去掉最后的Softmax层，将一个图片样本输入网络，最后由网络输出一个N维的向量，这N维向量则代表整个图片的编码；将待检测图像的编码与数据库人脸图片编码一起输入人脸识别神经网络模型，以提高系统预测的效率，节省计算时间；

识别预测出人脸对应的身份；

所述人脸识别神经网络模型由以下步骤训练得出：

定义Triplet损失函数，并在其之上运用梯度下降；

L(A,P,N)＝max(||f(A)-f(P)||²-||f(A)-f(N)||²+α,0)

则整个网络的代价函数为：

以编码差的范数表示目标：

d(A,P)＝||f(A)-f(P)||²≤||f(A)-f(N)||²＝d(A,N)

也即||f(A)-f(P)||²-||f(A)-f(N)||²≤0。

选用sigmoid函数作为模型神经网络阈值函数：

迭代训练求取w_i和b，获得人脸识别神经网络模型。

更进一步的，将||f(A)-f(P)||²-||f(A)-f(N)||²≤0修改为||f(A)- f(P)||²-||f(A(-f(N)||²≤-α以避免神经网络学习到的函数总是输出0。

网络层的函数是通过自行一层层写入，最后训练出模型，人脸进入以后则会将人脸进行编码，变成1×128的矩阵，最后通过计算欧式距离，选择欧式距离最小的作为识别结果，其中人脸编码效果图如图8所示。

为了保证网络的有效训练，使用规则化的交叉熵损失来驱动模型学习过程，并据此制定联合训练策略。

所述视频监控模块，用于获取待检测视频；

所述网络模型集成模块包括人体骨架提取模型、ST-GCN网络、异常行为分类器模型、yolov3特征提取模型、人脸识别神经网络模型；

所述ST-GCN网络用于获得骨骼的行为特征图；

所述异常行为分类器用于匹配行为特征图以识别行为类型。

所述yolov3特征提取模型用于检测危险品。

所述人脸识别神经网络模型用于识别异常行为的行为人。

所述异常行为检测系统通过服务器端与移动报警端、移动客户端的结合，实现异常行为的实时检测和报警。

实施例2

一种多人异常行为检测方法，其中的多人姿态估计基于单人姿态估计，模型的整体处理过程为：

①读取一张图片为宽w×高h的图片；

②传进10层的VGG-19网络训练出一个同样为w×h的图像特征F；

③传入两层不同卷积神经网络，可以获得：

关键点置信度网络S＝(S₁,S₂,…,S_J)其中J代表人体有J个部位：

S_j∈R^w×h,j∈{1…J}.

关键点亲和度向量场L_c∈R^w×h×2,c∈{1,…,C}。

④关键点聚类获得骨架，关键点的置信度网路和亲和度向量场网络示意图如图9所示，S是置信度网络,L是亲和度向量场网络：

整个模型的损失函数为两个卷积网络的真实值(ground_truth)和预测值的平均平方和。

在前面的过程中，根据置信值网络得到一组离散的关键点侯选位置，因为图片中可能存在多个人体，或者存在不正确的关键点，每个关键点可能有很多个不同的侯选位置，因此我们需要对这些侯选的关键点们计算一个分数。

假设模型得到所有的侯选关键点组成一个集合

其中N_j为侯选关键点的位置数量，

为关键点j的第m 个候选像素的坐标。

我们的目标是将属于同一个人的关键点练成躯干，故定义一个变量来衡量这些点是否属于一个人：

即：

对于不同的两个关键点j₁,j₂他们对应的侯选关键点集应该是

和

通过线性方程组的方法便可以找到正确的关键点：

其中E_c为c躯干对应的权值，代表的是躯干c上涉及的两类关键点间连接总亲和度，

为c躯干对应的

的一个子集；

最终问题就可以看为：

多人异常行为的其他步骤与实施例1中相同。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种异常行为检测方法，其特征在于，包括步骤：

通过ST-GCN网络获得与骨骼相对应的更高级的行为特征图，即表面行为特征；

其中，所述人体骨架提取模型的建立步骤如下：

提取训练集中的人体骨骼关节点，生成关节序列；

迭代训练以最小化损失函数，最终得到人体骨架提取模型；

所述异常行为分类器模型的建立步骤如下：

用训练集训练Softmax分类器并最小化损失函数，得到区分不同异常行为的分类器模型；

所述堆叠RNN网络堆叠两层RNN，对所有层采用LSTM神经元；

所述分层RNN将分层结构垂直分为两层：

在第二层，将不同部位的RNN输出连接起来，并采用第二RNN来模拟整个身体的运动；

在对应于第t帧的时隙处，利用Skeleton-Kinetics输入，利用LSTM子网的旋转分支子网和转换分支子网，学习旋转参数α_t，β_t，γ_t和转换参数d_t以获得旋转矩阵R_t，以及对应于全局坐标系的转化矢量；

具体计算公式为：

(1)旋转参数：

其中，

(2)转换参数：

其中

在第t帧的观察视角下，通过视图自适应递归图得到骨架的表示；

所述视图自适应子网络结构为分离的两个LSTM层，并对分离的两层使用相同的骨架输入；其中的主LSTM网络从视图调节的骨架数据中从头到尾学习时间动态并执行特征映射以进行动作识别。

2.根据权利要求1所述的异常行为检测方法，其特征在于，所述提取训练集中的人体骨骼关节点的具体步骤为：

3.根据权利要求1所述的异常行为检测方法，其特征在于，所述异常行为分类器模型的建立步骤具体为：

行为类别标签y>2时，给定m个训练样本：

{(x⁽¹⁾,y⁽¹⁾),(x⁽²⁾,y⁽²⁾),…,(x^(m),y^(m))}

对于Softmax回归算法，输入特征为

标记样本为y⁽ⁱ⁾∈{0,1,…k}；设定一个假设函数ζ：

其中,θ表示引入的假设参数，

则分类任务被转换为概率的计算：

定义一个损失函数J，来判定分类的优劣性，并迭代优化损失函数；Softmax回归的损失函数为：

Softmax回归求解：

在获得了损失函数的定义后，使用迭代优化算法，将损失函数J(θ)优化，便可对Softmax回归进行求解，使用梯度下降的方法求解；经过求导获得：

其中

是一个向量；

在得到了求导后的损失函数后，将其带入梯度下降迭代优化算法中以优化J(θ)，获得异常行为分类器模型。

4.根据权利要求1所述的异常行为检测方法，其特征在于，所述异常行为检测方法还包括：利用yolov3特征提取模型检测危险品；

所述yolov3特征提取模型的训练由以下步骤训练得出：

利用神经网络的卷积层对公共场所人物所携带的刀具进行识别，获取图片中的目标框；对目标框进行多标签分类，并利用FPN网络提取目标框特征，去除掉错误的目标框；

最后进行预测，迭代训练以最小化损失函数，最终得到yolov3特征提取模型。

5.根据权利要求1所述的异常行为检测方法，其特征在于，所述异常行为检测方法还包括利用人脸识别神经网络模型识别异常行为的行为人，具体步骤为：

通过卷积计算得到待检测图像的编码；

将待检测图像的编码与数据库人脸图片编码一起输入人脸识别神经网络模型；

识别预测出人脸对应的身份；

所述人脸识别神经网络模型由以下步骤训练得出：

定义Triplet损失函数，并在其之上运用梯度下降；

选取图片训练集，并分成Anchor、Positive、Negative三组数据，其中Anchor：目标图片A；Positive：与Anchor属于同一个人脸的图P；Negative：与Anchor不属于同一个人脸的图片N；

L(A,P,N)＝max(||f(A)-f(P)||²-||f(A)-f(N)||²+α,0)

则整个网络的代价函数J_c为：

以编码差的范数表示目标：

d(A,P)＝||f(A)-f(P)||²≤||f(A)-f(N)||²＝d(A,N)

也即||f(A)-f(P)||²-||f(A)-f(N)||²≤0；

选用sigmoid函数作为模型神经网络阈值函数：

迭代训练求取ω_i和b，获得人脸识别神经网络模型。

6.一种异常行为检测系统，其特征在于，包括视频监控模块、网络模型集成模块；

所述视频监控模块，用于获取待检测视频；

所述网络模型集成模块包括人体骨架提取模型、ST-GCN网络、异常行为分类器模型；

所述人体骨架提取模型的建立步骤如下：

提取训练集中的人体骨骼关节点，生成关节序列；

迭代训练以最小化损失函数，最终得到人体骨架提取模型；

提取训练集中的人体骨骼关节点的具体步骤为：

使用遍历方法将坐标关节图转换成矩阵参数，矩阵参数的顺序与访问顺序相同，从而提取视频人体骨骼关节点；

所述ST-GCN网络用于获得骨骼的行为特征图；

所述异常行为分类器用于匹配行为特征图以识别行为类型；

所述堆叠RNN网络堆叠两层RNN，对所有层采用LSTM神经元；

所述分层RNN将分层结构垂直分为两层：

在对应于第t帧的时隙处，利用Skeleton-Kinetics输入，利用LSTM子网的旋转分支子网和转换分支子网，学习旋转参数αt，βt，γt和转换参数dt以获得旋转矩阵Rt，以及对应于全局坐标系的转化矢量；

具体计算公式为：

(1)旋转参数：

其中，

(2)转换参数：

其中