CN112836676A

CN112836676A - 一种异常行为检测方法、装置、电子设备及存储介质

Info

Publication number: CN112836676A
Application number: CN202110228284.XA
Authority: CN
Inventors: 黄泽; 张泽覃
Original assignee: Alnnovation Beijing Technology Co ltd
Current assignee: Alnnovation Beijing Technology Co ltd
Priority date: 2021-03-01
Filing date: 2021-03-01
Publication date: 2021-05-25
Anticipated expiration: 2041-03-01
Also published as: CN112836676B

Abstract

本申请提供一种异常行为检测方法、装置、电子设备及存储介质，用于改善进行异常行为检测的准确率较低的问题。该方法包括：获得视频流数据，并检测出视频流数据中一视频帧中的目标对象；提取出目标对象在视频流数据中的全局时域特征；提取出目标对象在视频帧中的关键点热力图和空间域特征，并使用关键点热力图对空间域特征进行空间注意力计算，获得全局空域特征；将全局时域特征与全局空域特征进行融合，获得融合后的全局特征向量；使用异常检测网络模型对融合后的全局特征向量进行异常行为分类，获得目标对象的行为是否存在异常的检测结果。

Description

一种异常行为检测方法、装置、电子设备及存储介质

技术领域

本申请涉及视频处理和视频识别的技术领域，具体而言，涉及一种异常行为检测方法、装置、电子设备及存储介质。

背景技术

异常行为检测，是指针对目标对象的行为是否存在异常进行检测，具体例如：老人在房间里是躺着或者跌倒；若是跌倒，那么老人的行为就被认为存在异常，此时可以发出预警信息以便及时救治；若是躺着睡觉或者休息，那么老人的行为就被认为不存在异常，则无需预警。

目前的异常行为检测方法的思路大都是，采集目标对象行为的视频，然后将该异常行为检测任务当作视频分类任务来处理，具体例如：使用深度神经网络模型对该视频进行分类，并将视频的分类结果作为异常行为检测结果。在实践的过程中，这种方法通常适用于单个目标对象的异常行为检测，并不适用于视频中出现多个目标对象的情况。由于多个目标对象在视频中会相互重叠遮挡、不同行为相互交互或者互相干扰等等情况，这些情况会对深度神经网络模型的分类产生干扰，从而导致异常行为检测的准确率较低。因此，在视频中出现多个目标对象时，使用目前的方法进行异常行为检测的准确率较低。

发明内容

本申请实施例的目的在于提供一种异常行为检测方法、装置、电子设备及存储介质，用于改善进行异常行为检测的准确率较低的问题。

本申请实施例提供了一种异常行为检测方法，包括：获得视频流数据，并检测出视频流数据中一视频帧中的目标对象；提取出目标对象在视频流数据中的全局时域特征；提取出目标对象在视频帧中的关键点热力图和空间域特征，并使用关键点热力图对空间域特征进行空间注意力计算，获得全局空域特征；将全局时域特征与全局空域特征进行融合，获得融合后的全局特征向量；使用异常检测网络模型对融合后的全局特征向量进行异常行为分类，获得目标对象的行为是否存在异常的检测结果。在上述的实现过程中，通过使用目标对象在视频帧中的关键点热力图对空间域特征进行空间注意力计算，充分地利用了在空间维度上提取出的行为信息，提升了全局空域特征的置信度，从而提高了对视频流数据进行异常行为检测的准确率。

可选地，在本申请实施例中，异常检测网络模型包括时域特征提取网络；提取出目标对象在视频流数据中的全局时域特征，包括：从视频流数据中匹配出包括目标对象的多个连续视频帧；从多个连续视频帧中裁剪出目标对象的目标检测框，并对该目标检测框进行光流位移计算，获得光流位移矢量图，光流位移矢量图表征目标对象在时序上发生的动作变化；使用时域特征提取网络提取出光流位移矢量图的全局时域特征。在上述的实现过程中，通过对该目标检测框进行光流位移计算，获得体现在时序上发生的动作变化的光流位移矢量图，从而有效地利用了时序信息和空间信息的变化，从而提高了对视频流数据进行异常行为检测的准确率。

可选地，在本申请实施例中，异常检测网络模型包括：关键点检测网络和空域特征提取网络；提取出目标对象在视频帧中的关键点热力图和空间域特征，包括：从视频帧中裁剪出目标对象的目标检测框；使用关键点检测网络提取出目标对象在目标检测框中的关键点热力图，并使用空域特征提取网络提取出目标对象在视频帧中的空间域特征。在上述的实现过程中，通过将关键点热力图信息以监督信息的形式加入到空域提取网络中，提升了空间域特征的置信度与判别性，充分地提取出空间维度上的行为信息，从而提高了对视频流数据进行异常行为检测的准确率。

可选地，在本申请实施例中，异常检测网络模型包括目标检测网络；检测出视频流数据中一视频帧中的目标对象，包括：从视频流数据中抽取出一视频帧；使用目标检测网络检测出视频帧中的目标对象。在上述的实现过程中，通过使用抽帧检测加目标检测的方式，在利用较少硬件资源的前提下，检测出视频帧中的目标对象，从而提高了对硬件资源的使用率。

可选地，在本申请实施例中，在使用异常检测网络模型对融合后的全局特征向量进行异常行为分类之前，还包括：获得样本特征向量和样本类别标签，样本类别标签是对样本特征向量进行分类获得的；使用异常检测神经网络预测样本特征向量的类别标签，获得预测类别标签；分别计算预测类别标签与样本类别标签之间的softmax损失值、focal损失值和ArcFace损失值；将softmax损失值、focal损失值和ArcFace损失值进行线性组合，获得总损失值；根据总损失值对异常检测神经网络进行训练，获得异常检测网络模型。在上述的实现过程中，通过根据softmax损失值、focal损失值和ArcFace损失值对异常检测神经网络进行训练，从而使得结合ArcFace损失值能够更加充分利用关键点信息，获得更好的异常检测网络模型，提高了对视频流数据进行异常行为检测的准确率。

可选地，在本申请实施例中，在获得目标对象的行为是否存在异常的检测结果之后，还包括：若检测结果是目标对象的行为存在异常，则生成并输出预警信号。在上述的实现过程中，通过在检测结果是目标对象的行为存在异常，则生成并输出预警信号，从而有效地减少了在异常情况发生时无法得到有效控制的概率。

本申请实施例还提供了一种异常行为检测装置，包括：目标对象检测模块，用于获得视频流数据，并检测出视频流数据中一视频帧中的目标对象；时域特征提取模块，用于提取出目标对象在视频流数据中的全局时域特征；空域特征提取模块，用于提取出目标对象在视频帧中的关键点热力图和空间域特征，并使用关键点热力图对空间域特征进行空间注意力计算，获得全局空域特征；特征向量获得模块，用于将全局时域特征与全局空域特征进行融合，获得融合后的全局特征向量；检测结果获得模块，用于使用异常检测网络模型对融合后的全局特征向量进行异常行为分类，获得目标对象的行为是否存在异常的检测结果。

可选地，在本申请实施例中，异常检测网络模型包括时域特征提取网络；时域特征提取模块，包括：目标对象匹配模块，用于从视频流数据中匹配出包括目标对象的多个连续视频帧；光流位移计算模块，用于从多个连续视频帧中裁剪出目标对象的目标检测框，并对该目标检测框进行光流位移计算，获得光流位移矢量图，光流位移矢量图表征目标对象在时序上发生的动作变化；光流位移提取模块，用于使用时域特征提取网络提取出光流位移矢量图的全局时域特征。

可选地，在本申请实施例中，异常检测网络模型包括：关键点检测网络和空域特征提取网络；空域特征提取模块，包括：从视频帧中裁剪出目标对象的目标检测框；使用关键点检测网络提取出目标对象在目标检测框中的关键点热力图，并使用空域特征提取网络提取出目标对象在视频帧中的空间域特征。

可选地，在本申请实施例中，异常检测网络模型包括目标检测网络；目标对象检测模块，包括：视频数据抽取模块，用于从视频流数据中抽取出一视频帧；视频帧中检测模块，用于使用目标检测网络检测出视频帧中的目标对象。

可选地，在本申请实施例中，异常行为检测装置，还包括：向量标签获得模块，用于获得样本特征向量和样本类别标签，样本类别标签是对样本特征向量进行分类获得的；类别标签预测模块，用于使用异常检测神经网络预测样本特征向量的类别标签，获得预测类别标签；各损失值计算模块，用于分别计算预测类别标签与样本类别标签之间的softmax损失值、focal损失值和ArcFace损失值；总损失值获得模块，用于将softmax损失值、focal损失值和ArcFace损失值进行线性组合，获得总损失值；网络模型获得模块，用于根据总损失值对异常检测神经网络进行训练，获得异常检测网络模型。

可选地，在本申请实施例中，异常行为检测装置，还包括：预警生成输出模块，用于若检测结果是目标对象的行为存在异常，则生成并输出预警信号。

本申请实施例还提供了一种电子设备，包括：处理器和存储器，存储器存储有处理器可执行的机器可读指令，机器可读指令被处理器执行时执行如上面描述的方法。

本申请实施例还提供了一种存储介质，该存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上面描述的方法。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出的本申请实施例提供的异常行为检测方法的流程示意图；

图2示出的本申请实施例提供的数据处理过程的示意图；

图3示出的本申请实施例提供的训练异常检测网络模型的流程示意图；

图4示出的本申请实施例提供的异常行为检测装置的结构示意图；

图5示出的本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整的描述。

在介绍本申请实施例提供的异常行为检测方法之前，先介绍本申请实施例中所涉及的一些概念：

神经网络(NeuralNetwork，NN)，又被称为人工神经网络(Artificial NeuralNetwork，ANN)或类神经网络，在机器学习和认知科学领域，是一种模仿生物神经网络(例如：动物的中枢神经系统，可以是大脑)的结构和功能的数学模型或计算模型，人工神经网络用于对函数进行估计或近似；这里的神经网络由大量的人工神经元联结进行计算。

目标检测网络模型，又被简称为目标检测网络，是指使用训练数据对目标检测网络进行训练后获得的神经网络模型，此处的目标检测网络按照阶段来分，大致可以分为：单阶段目标检测网络和两阶段目标检测网络。单阶段的目标检测网络是指不需要单独寻找候选区域，直接输出目标的区域和类别信息的网络模型；两阶段的目标检测网络是指检测算法需要进行获取候选区域和对候选区域进行分类，需要这两步才能完成的网络模型。

光流(Optical flow or optic flow)是关于视域中的物体运动检测中的概念，光流用来描述相对于观察者的运动所造成的观测目标、表面或边缘的运动。

服务器是指通过网络提供计算服务的设备，服务器例如：x86服务器以及非x86服务器，非x86服务器包括：大型机、小型机和UNIX服务器。

需要说明的是，本申请实施例提供的异常行为检测方法可以被电子设备执行，这里的电子设备是指具有执行计算机程序功能的设备终端或者上述的服务器，设备终端例如：智能手机、个人电脑(personal computer，PC)、平板电脑、个人数字助理(personaldigital assistant，PDA)或者移动上网设备(mobile Internet device，MID)等。

在介绍本申请实施例提供的异常行为检测方法之前，先介绍该异常行为检测方法适用的应用场景，这里的应用场景包括但不限于：对多个目标对象进行视频监测或者行为识别等相关的应用场景；具体例如：通过公共场所摄像头或者演唱会入场监控摄像头拍摄的视频，来检测人群中是否有异常行为(例如小偷得手后突然奔跑)；又例如：在精神病院或者医院中通过监控摄像头拍摄的视频，来检测病人们是否有摔倒或者跌落等等。

请参见图1示出的本申请实施例提供的异常行为检测方法的流程示意图；该异常行为检测方法的主要思路是，利用目标对象在视频帧中的关键点热力图对空间域特征进行空间注意力计算，充分地利用了在空间维度上提取出的行为信息，提升了全局空域特征的置信度，从而提高了对视频流数据进行异常行为检测的准确率；上述异常行为检测方法的实施方式可以包括：

步骤S110：获得视频流数据，并检测出视频流数据中一视频帧中的目标对象。

上述步骤S110中的视频流数据的获得方式有很多种，包括但不限于：第一种获得方式，使用摄像机、录像机或彩色照相机等采集设备对目标对象进行拍摄，获得视频流数据；然后该采集设备向电子设备发送视频流数据，然后电子设备接收采集设备发送的视频流数据；第二种获得方式，从视频服务器上获取视频流数据，具体例如：从视频服务器的文件系统中获取视频流数据，或者从视频服务器的数据库中获取视频流数据，或者从视频服务器的移动存储设备中获取视频流数据；第三种获得方式，使用浏览器等软件获取互联网上的视频流数据，或者使用其它应用程序访问互联网上视频流数据。

请参见图2示出的本申请实施例提供的数据处理过程的示意图；上述步骤S110中的检测出视频流数据中一视频帧中的目标对象的实施方式可以包括：

步骤S111：从视频流数据中抽取出一视频帧。

上述步骤S111中的从视频流数据中抽取出一视频帧的抽取方式有很多种，包括但不限于：第一种抽取方式，随机从视频流数据的最近预设数量的视频帧中抽取出一视频帧；第二种抽取方式，如图2所示，每隔预设数量的视频帧就抽取出来，或者，每隔预设时长的视频帧就抽取出来，此处的预设时长是指预设数量的时间单位，例如1秒、3秒、5秒或者2分钟等等。当1秒就抽出一个视频帧的触发频率也可以被称为高频率，然后可以对高频率抽出的视频帧进行实时地目标检测。可以理解的是，上述的预设数量均可以根据具体情况进行设置，例如设置为3、5、10、20或者50等等。

步骤S112：使用异常检测网络模型中的目标检测网络检测出视频帧中的目标对象。

异常检测网络模型是指用于检测视频中的目标对象的行为是否存在异常的神经网络模型；此处的异常检测网络模型包括：目标检测网络、时域特征提取网络、关键点检测网络和空域特征提取网络；各个网络的网络结构和作用将在下面进行详细的介绍。上述的目标对象可以使用目标检测网络进行检测，也就是说，可以使用目标检测网络检测出视频帧中的目标对象。可以理解的是，在使用异常检测网络模型之前，还需要训练异常检测网络模型，异常检测网络模型的具体训练方式将在文章后面描述。

上述步骤S112的实施方式有很多种，包括但不限于：第一种实施方式，使用单阶段的目标检测网络检测出视频帧中的目标对象，其中，可以使用的单阶段的目标检测网络例如：征融合单点多盒检测器(Feature Fusion Single Shot Multibox Detector，FSSD)和YOLO系列等网络，其中，YOLO系列网络可以采用YOLO V3或者YOLO V4等网络；第二种实施方式，使用两阶段的目标检测网络检测出视频帧中的目标对象，其中，可以使用的两阶段的目标检测网络例如：RCNN、fast RCNN和faster RCNN系列的网络。

在步骤S110之后，执行步骤S120：提取出目标对象在视频流数据中的全局时域特征。

上述步骤S120的实施方式有很种，包括但不限于如下几种：

第一种实施方式，使用异常检测网络模型中的时域特征提取网络提取出光流位移矢量图的全局时域特征，该实施方式包括：

步骤S121：从视频流数据中匹配出包括目标对象的多个连续视频帧。

上述步骤S121的实施方式例如：如图2所示，假设有编号1至100的视频帧构成的视频流数据，可以使用实时的追踪算法对目标对象进行连续视频帧的目标搜索，其中，此处的实时的追踪算法可以采用核相关滤波(Kernel Correlation Filter，KCF)算法。若目标对象出现在视频流的编号为1至9的连续视频帧中，那么就需要从视频流数据中匹配出包括目标对象的编号为1至9的连续视频帧，此处的编号为1至9的连续视频帧就是上面的多个连续视频帧。

步骤S122：从多个连续视频帧中裁剪出目标对象的目标检测框。

上述的步骤S122的实施方式例如：在从视频流数据中匹配出包括目标对象的编号为1至9的连续视频帧之后，还可以使用目标检测模型对编号为1至9的连续视频帧进行目标检测，目标检测的结果包括：目标对象所在的目标检测框和该目标检测框对应的概率，该概率可以理解为该目标对象是预设类别(例如行人)的概率，或者，目标检测框包括目标对象的概率(可以理解为置信度)。可以理解的是，图2中的目标检测框的尺寸表示目标对象在视频帧中所占的框尺寸，该目标检测框对应的概率可以用厚度来表示；图2中没有示出从视频流数据中匹配出包括目标对象的多个连续视频帧的过程，在具体的实践过程中，还需要匹配出编号为1至9的连续视频帧，并裁剪出编号为1至9的连续视频帧中的目标对象所在的目标检测框。

步骤S123：对该目标检测框进行光流位移计算，获得光流位移矢量图。

上述的步骤S123的实施方式例如：在获得裁剪出的目标检测框之后，还可以将目标检测框的尺寸调整为统一的尺寸，以便于对目标对象所在的目标检测框进行光流位移计算(又被称为光流位移场匹配计算)，从而获得光流位移矢量图；其中，光流(Optical flowor optic flow)位移矢量图是目标对象在时序上发生的光流位移动作变化的矢量图；光流位移矢量图可以是对目标对象所在的目标检测框进行光流位移计算获得的。

步骤S124：使用时域特征提取网络提取出光流位移矢量图的全局时域特征。

时域特征提取网络，是指从光流位移矢量图提取出全局时域特征的神经网络模型，此处的时域特征提取网络具体可以采用循环神经网络(Recurrent Neural Network，RNN)或者卷积循环神经网络(Convolutional Recurrent Neural Networks，CRNN)等等。

上述的步骤S124的实施方式例如：使用RNN或者CRNN提取出光流位移矢量图的全局时域特征；其中，可以使用的RNN包括：长短期记忆(Long Short-Term Memory，LSTM)网络和双向长短记忆(Bidirectional Long Short-Term Memor，Bi-LSTM)网络等。

在步骤S120之后，执行步骤S130：提取出目标对象在视频帧中的关键点热力图和空间域特征，并使用关键点热力图对空间域特征进行空间注意力计算，获得全局空域特征。

上述步骤S130中的提取出目标对象在视频帧中的关键点热力图和空间域特征的实施方式可以包括：

步骤S131：从视频帧中裁剪出目标对象的目标检测框。

其中，该步骤S131的实施原理和实施方式与步骤S122的实施原理和实施方式是类似的，因此，这里不再说明其实施原理和实施方式，如有不清楚的地方，可以参考对步骤S122的描述。

步骤S132：使用关键点检测网络提取出目标对象在目标检测框中的关键点热力图。

关键点检测网络，是指从目标检测框中提取出目标对象的关键点热力图的神经网络，若目标对象是行人或者动物，此处的关键点热力图又被称为骨骼点热力图。

上述的步骤S132的实施方式例如：上述的关键点检测网络具体可以采用OpenPose网络，使用OpenPose网络从目标检测框中提取出每个行人的关键点热力图。当然在具体的实践过程中，也可以采用其它的关键点检测网络，具体例如：级联金字塔网络(CascadedPyramid Network，CPN)等等二维(即2D)人体关键点检测算法。

步骤S133：使用空域特征提取网络提取出目标对象在视频帧中的空间域特征。

空域特征提取网络，是指从视频帧中提取出目标对象的空间域特征的神经网络，此处的空域特征提取网络具体可以采用卷积神经网络(Convolutional Neural Networks，CNN)或者深度神经网络(Deep Neural Network,DNN)。

上述的步骤S133的实施方式例如：使用卷积神经网络或深度神经网络提取出目标对象在视频帧中的空间域特征；其中，可以使用的卷积神经网络例如：LeNet网络、AlexNet网络和GoogLeNet网络等，可以使用的深度神经网络包括：VGG网络、ResNet网络、WideResNet网络和Inception网络等。

上述步骤S130中的使用关键点热力图对空间域特征进行空间注意力计算的实施方式例如：通过使用关键点热力图对空间域特征进行空间注意力(Spatial Attention)计算，显性地赋予每个行人在各个关键点上更重要的特征权重，从而获得全局空域特征；这样的方式给了最终的全局空域特征更强的监督信息，从而能够在后续达到更好的分类效果。

在步骤S130之后，执行步骤S140：将全局时域特征与全局空域特征进行融合，获得融合后的全局特征向量。

上述的步骤S140的实施方式有很多种，包括但不限于：

第一种实施方式，相加融合又被称为加法融合，即将全局时域特征和全局空域特征进行相加，获得融合后的全局特征向量。在加法融合的过程中，对于网络结构没有改变，改变的是网络结构的输出结果，将多个卷积层的输出特征相加，具体例如：假设全局时域特征为123，且全局空域特征为456，那么对全局时域特征和全局空域特征进行相加融合，获得融合后的全局特征向量为579。

第二种实施方式，拼接融合，将全局时域特征和全局空域特征进行拼接，获得融合后的全局特征向量。在使用拼接融合的过程中，并没有改变网络结构，具体例如：假设全局时域特征为123，且全局空域特征为456，那么对全局时域特征和全局空域特征进行拼接融合，获得融合后的全局特征向量为123456。

第三种实施方式，最大值融合(Maximization fusion)，即筛选出全局时域特征的特征值和全局空域特征的特征值较大的特征值，获得多个特征值；将多个特征值进行拼接，获得融合后的全局特征向量；其中，全局时域特征值在全局时域特征中的位置和全局空域特征值在全局空域特征中的位置是相同的。使用最大值融合方法进行融合的过程具体例如：假设全局时域特征为147，且全局空域特征为456，那么对全局时域特征和全局空域特征进行最大值融合，获得融合后的全局特征向量为457。

在步骤S140之后，执行步骤S150：使用异常检测网络模型对融合后的全局特征向量进行异常行为分类，获得目标对象的行为是否存在异常的检测结果。

上述的步骤S140的实施方式例如：上述的异常检测网络模型中还可以包括分类网络，使用异常检测网络模型中的分类网络对融合后的全局特征向量进行异常行为分类，获得目标对象的行为是否存在异常的检测结果；其中，此处的分类网络具体可以是归一化指数函数层即Softmax函数层。

在上述的实现过程中，先提取出目标对象在视频流数据中的全局时域特征；再提取出目标对象在视频帧中的关键点热力图和空间域特征，并使用关键点热力图对空间域特征进行空间注意力计算，获得全局空域特征，然后根据全局时域特征与全局空域特征融合后的全局特征向量进行异常行为检测，获得异常行为检测结果；也就是说，利用目标对象在视频帧中的关键点热力图对空间域特征进行空间注意力计算，充分地利用了在空间维度上提取出的行为信息，提升了全局空域特征的置信度，从而提高了对视频流数据进行异常行为检测的准确率。

可选地，在本申请实施例中，在获得目标对象的行为是否存在异常的检测结果之后，还可以根据检测结果来确定是否输出预警信号，该实施方式可以包括：若检测结果是目标对象的行为存在异常，则生成并输出预警信号，以使工作人员在收到预警信号后，立即赶赴现场实施相应的救助措施；若检测结果是目标对象的行为不存在异常，则不输出预警信号，可以向管理员发送检测结果。

请参见图3示出的本申请实施例提供的训练异常检测网络模型的流程示意图；可选地，在本申请实施例中，在使用异常检测网络模型对融合后的全局特征向量进行异常行为分类之前，还需要对异常检测网络模型进行训练。上述异常检测网络模型的训练方式与预测方式不同，其训练方式并不是端到端的训练流程，其具体的训练方式可以包括如下三个阶段：

第一训练阶段，首先对异常检测网络模型中的目标检测网络进行训练，其训练方式可以包括：

步骤S210：获得样本视频帧和样本视频标签，该样本视频帧包括目标对象，该样本视频标签包括：该目标对象的检测回归框和类别标签。

在步骤S210之后，执行步骤S220：以样本视频帧为训练数据，以样本视频标签为训练标签，对异常检测网络模型中的目标检测网络进行训练，获得训练后的目标检测网络。

上述步骤S210至步骤S220的实施方式例如：上述的目标检测网络模型可以包括：边框回归分支和分类分支；使用边框回归分支预测样本视频帧的目标检测框，并使用分类分支计算样本视频帧中的目标对象的预测类别；然后，分别计算检测回归框和目标检测框之间的回归损失值，以及类别标签与预测类别之间的类别损失值，并根据回归损失值和类别损失值计算总损失值，并根据总损失值更新异常检测网络模型中的目标检测网络的网络参数，直到总损失值小于预设比例或者训练批次(epoch)数量大于预设阈值时，即可获得训练后的目标检测网络。其中，上述的预设比例可以根据具体情况设置，例如设置为5％或者10％等；上述的预设阈值也可以根据具体情况进行设置，例如设置为100或者1000等等。

第二训练阶段，对异常检测网络模型中的时域特征提取网络进行训练，其训练方式可以包括：

步骤S230：获得样本光流位移矢量图和该样本光流位移矢量图对应的样本全局时域特征。

上述步骤S230的实施方式例如：使用训练后的目标检测网络从样本视频帧中裁剪出目标对象的目标检测框，并对该目标检测框进行光流位移计算，获得样本光流位移矢量图。然后，根据样本光流位移矢量图计算出该样本光流位移矢量图对应的样本全局时域特征，具体可以采用人工编写程序的方式计算出该样本光流位移矢量图对应的样本全局时域特征。

在步骤S230之后，执行步骤S240：以样本光流位移矢量图为训练数据，以该样本光流位移矢量图对应的样本全局时域特征为训练标签，对异常检测网络模型中的时域特征提取网络进行训练，获得训练后的时域特征提取网络。

上述步骤S240的实施方式例如：使用异常检测网络模型中的时域特征提取网络预测该样本光流位移矢量图对应的预测全局时域特征，并计算该预测全局时域特征与样本全局时域特征之间的时域特征损失值，根据该时域特征损失值更新异常检测网络模型中的时域特征提取网络的网络参数，直到总损失值小于预设比例或者训练批次(epoch)数量大于预设阈值时，即可获得训练后的时域特征提取网络；同上，上述的预设比例和预设阈值可以根据具体情况进行设置。

第三训练阶段，对异常检测网络模型中的关键点检测网络、分类网络和空域特征提取网络进行训练，其训练方式可以包括：

步骤S250：获得目标对象的样本目标检测框和该目标对象在样本目标检测框中的样本关键点热力图。

上述步骤S250的实施方式例如：使用训练后的目标检测网络从样本视频帧中裁剪出目标对象的目标检测框，可以使用人工对该目标对象在样本目标检测框中的关键点进行标注，然后使用程序根据标注的关键点进行计算，获得该目标对象在样本目标检测框中的样本关键点热力图。

在步骤S250之后，执行步骤S260：以样本目标检测框为训练数据，以该样本目标检测框对应的样本关键点热力图为训练标签，对异常检测网络模型中的关键点检测网络进行训练，获得训练后的关键点检测网络。

上述步骤S260的实施方式例如：使用异常检测网络模型中的关键点检测网络计算出样本目标检测框对应的预测关键点热力图，并计算预测关键点热力图与样本关键点热力图之间的热力图损失，并根据热力图损失更新异常检测网络模型中的关键点检测网络的网络参数，直到总损失值小于预设比例或者训练批次(epoch)数量大于预设阈值时，即可获得训练后的关键点检测网络；同上，上述的预设比例和预设阈值可以根据具体情况进行设置。

步骤S270：获得样本特征向量和样本类别标签，样本类别标签是对样本特征向量进行分类获得的。

在步骤S270之后，执行步骤S280：以样本特征向量为训练数据，以样本类别标签为训练标签，对异常检测神经网络中的分类网络和空域特征提取网络进行训练，获得训练后的异常检测网络模型。

其中，上述异常检测神经网络是指未经训练的异常检测网络模型，也就是说，异常检测神经网络和异常检测网络模型是相同的网络结构，只是网络参数不同，在异常检测神经网络的网络参数被训练时更新之后，就被称为异常检测网络模型。

上述S270至步骤S280的实施方式例如：使用异常检测神经网络中的分类网络预测样本特征向量的类别标签，获得预测类别标签；使用softmax损失函数计算预测类别标签与样本类别标签之间的softmax损失值，使用focal损失函数计算预测类别标签与样本类别标签之间的focal损失值，以及使用ArcFace损失函数计算预测类别标签与样本类别标签之间的ArcFace损失值，并将softmax损失值、focal损失值和ArcFace损失值进行线性组合，获得总损失值；根据总损失值对异常检测神经网络中的空域特征提取网络进行训练，获得训练后的异常检测网络模型。

上述的softmax损失函数使用公式表示为：

其中，L_softmax表示softmax损失值，j表示样本特征向量或者样本类别标签中的第几个，T表示异常检测神经网络中的分类网络的输出向量的长度，y_j表示样本类别标签在输出向量的第j个位置上的值，s_j表示输出向量在j位置上的数值。上述输出向量可以使用二进制表示，具体例如：在动作识别模型对应四个输出类别的情况下，第一个类别的标签可以是1000，第二个类别的标签可以是0100，第三个类别的标签可以是0010，第四个类别的标签可以是0001等，那么表示用于标识类别的标签在j位置上的值，具体例如：如果标签为第j类，则y_j等于1，在其他位置上则为0。

上述的focal损失函数使用公式表示为：

其中，L_fl表示focal损失值，y^为使用异常检测神经网络中的分类网络预测出的类别标签；y为获得的样本类别标签(即样本特征向量的真实类别标签)；α、β都是两个超参数，α用于调节正负样本的权重，而β则用于使困难样本产生的损失变大的同时，也使得简单样本的损失变小。

上述的ArcFace损失函数使用公式表示为：

其中，L_ArcFace表示ArcFace损失值，N为异常检测神经网络中的分类网络的输出向量的长度；

则代表异常检测神经网络中的分类网络的输出向量与第i列的分类网络的参数权重向量之间的夹角；而s和m分别是调节该ArcFace损失函数大小的超参数，在减小了正样本损失值的同时，也增大了负样本的损失值。

请参见图4示出的本申请实施例提供的异常行为检测装置的结构示意图；本申请实施例提供了一种异常行为检测装置300，包括：

目标对象检测模块310，用于获得视频流数据，并检测出视频流数据中一视频帧中的目标对象。

时域特征提取模块320，用于提取出目标对象在视频流数据中的全局时域特征。

空域特征提取模块330，用于提取出目标对象在视频帧中的关键点热力图和空间域特征，并使用关键点热力图对空间域特征进行空间注意力计算，获得全局空域特征。

特征向量获得模块340，用于将全局时域特征与全局空域特征进行融合，获得融合后的全局特征向量。

检测结果获得模块350，用于使用异常检测网络模型对融合后的全局特征向量进行异常行为分类，获得目标对象的行为是否存在异常的检测结果。

可选地，在本申请实施例中，异常检测网络模型包括时域特征提取网络；时域特征提取模块，包括：

目标对象匹配模块，用于从视频流数据中匹配出包括目标对象的多个连续视频帧。

光流位移计算模块，用于从多个连续视频帧中裁剪出目标对象的目标检测框，并对该目标检测框进行光流位移计算，获得光流位移矢量图，光流位移矢量图表征目标对象在时序上发生的动作变化。

光流位移提取模块，用于使用时域特征提取网络提取出光流位移矢量图的全局时域特征。

可选地，在本申请实施例中，异常检测网络模型包括：关键点检测网络和空域特征提取网络；空域特征提取模块，包括：

从视频帧中裁剪出目标对象的目标检测框。

使用关键点检测网络提取出目标对象在目标检测框中的关键点热力图，并使用空域特征提取网络提取出目标对象在视频帧中的空间域特征。

可选地，在本申请实施例中，异常检测网络模型包括目标检测网络；目标对象检测模块，包括：

视频数据抽取模块，用于从视频流数据中抽取出一视频帧。

视频帧中检测模块，用于使用目标检测网络检测出视频帧中的目标对象。

可选地，在本申请实施例中，异常行为检测装置，还包括：

向量标签获得模块，用于获得样本特征向量和样本类别标签，样本类别标签是对样本特征向量进行分类获得的。

类别标签预测模块，用于使用异常检测神经网络预测样本特征向量的类别标签，获得预测类别标签。

各损失值计算模块，用于分别计算预测类别标签与样本类别标签之间的softmax损失值、focal损失值和ArcFace损失值。

总损失值获得模块，用于将softmax损失值、focal损失值和ArcFace损失值进行线性组合，获得总损失值。

网络模型获得模块，用于根据总损失值对异常检测神经网络进行训练，获得异常检测网络模型。

可选地，在本申请实施例中，异常行为检测装置，还可以包括：

预警生成输出模块，用于若检测结果是目标对象的行为存在异常，则生成并输出预警信号。

应理解的是，该装置与上述的异常行为检测方法实施例对应，能够执行上述方法实施例涉及的各个步骤，该装置具体的功能可以参见上文中的描述，为避免重复，此处适当省略详细描述。该装置包括至少一个能以软件或固件(firmware)的形式存储于存储器中或固化在装置的操作系统(operating system，OS)中的软件功能模块。

请参见图5示出的本申请实施例提供的电子设备的结构示意图。本申请实施例提供的一种电子设备400，包括：处理器410和存储器420，存储器420存储有处理器410可执行的机器可读指令，机器可读指令被处理器410执行时执行如上的方法。

本申请实施例还提供了一种存储介质430，该存储介质430上存储有计算机程序，该计算机程序被处理器410运行时执行如上的方法。

其中，存储介质430可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(Static Random Access Memory,简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read Only Memory,简称EPROM)，可编程只读存储器(Programmable Read-Only Memory,简称PROM)，只读存储器(Read-Only Memory,简称ROM)，磁存储器，快闪存储器，磁盘或光盘。

本申请实施例提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其他的方式实现。以上所描述的装置实施例仅是示意性的，例如，附图中的流程图和框图显示了根据本申请实施例的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以和附图中所标注的发生顺序不同。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这主要根据所涉及的功能而定。

另外，在本申请实施例中的各个实施例的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上的描述，仅为本申请实施例的可选实施方式，但本申请实施例的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请实施例揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请实施例的保护范围之内。

Claims

1.一种异常行为检测方法，其特征在于，包括：

获得视频流数据，并检测出所述视频流数据中一视频帧中的目标对象；

提取出所述目标对象在所述视频流数据中的全局时域特征；

提取出所述目标对象在所述视频帧中的关键点热力图和空间域特征，并使用所述关键点热力图对所述空间域特征进行空间注意力计算，获得全局空域特征；

将所述全局时域特征与所述全局空域特征进行融合，获得融合后的全局特征向量；

使用异常检测网络模型对所述融合后的全局特征向量进行异常行为分类，获得所述目标对象的行为是否存在异常的检测结果。

2.根据权利要求1所述的方法，其特征在于，所述异常检测网络模型包括时域特征提取网络；所述提取出所述目标对象在所述视频流数据中的全局时域特征，包括：

从所述视频流数据中匹配出包括所述目标对象的多个连续视频帧；

从所述多个连续视频帧中裁剪出所述目标对象的目标检测框，并对该目标检测框进行光流位移计算，获得光流位移矢量图，所述光流位移矢量图表征目标对象在时序上发生的动作变化；

使用所述时域特征提取网络提取出所述光流位移矢量图的全局时域特征。

3.根据权利要求1所述的方法，其特征在于，所述异常检测网络模型包括：关键点检测网络和空域特征提取网络；所述提取出所述目标对象在所述视频帧中的关键点热力图和空间域特征，包括：

从所述视频帧中裁剪出所述目标对象的目标检测框；

使用所述关键点检测网络提取出所述目标对象在所述目标检测框中的关键点热力图，并使用所述空域特征提取网络提取出所述目标对象在所述视频帧中的空间域特征。

4.根据权利要求1所述的方法，其特征在于，所述异常检测网络模型包括目标检测网络；所述检测出所述视频流数据中一视频帧中的目标对象，包括：

从所述视频流数据中抽取出一视频帧；

使用所述目标检测网络检测出所述视频帧中的目标对象。

5.根据权利要求1-4任一所述的方法，其特征在于，在所述使用异常检测网络模型对所述融合后的全局特征向量进行异常行为分类之前，还包括：

获得样本特征向量和样本类别标签，所述样本类别标签是对所述样本特征向量进行分类获得的；

使用异常检测神经网络预测所述样本特征向量的类别标签，获得预测类别标签；

分别计算所述预测类别标签与所述样本类别标签之间的softmax损失值、focal损失值和ArcFace损失值；

将所述softmax损失值、所述focal损失值和所述ArcFace损失值进行线性组合，获得总损失值；

根据所述总损失值对所述异常检测神经网络进行训练，获得所述异常检测网络模型。

6.根据权利要求1-4任一所述的方法，其特征在于，在所述获得所述目标对象的行为是否存在异常的检测结果之后，还包括：

若所述检测结果是所述目标对象的行为存在异常，则生成并输出预警信号。

7.一种异常行为检测装置，其特征在于，包括：

目标对象检测模块，用于获得视频流数据，并检测出所述视频流数据中一视频帧中的目标对象；

时域特征提取模块，用于提取出所述目标对象在所述视频流数据中的全局时域特征；

空域特征提取模块，用于提取出所述目标对象在所述视频帧中的关键点热力图和空间域特征，并使用所述关键点热力图对所述空间域特征进行空间注意力计算，获得全局空域特征；

特征向量获得模块，用于将所述全局时域特征与所述全局空域特征进行融合，获得融合后的全局特征向量；

检测结果获得模块，用于使用异常检测网络模型对所述融合后的全局特征向量进行异常行为分类，获得所述目标对象的行为是否存在异常的检测结果。

8.根据权利要求7所述的装置，其特征在于，所述异常检测网络模型包括时域特征提取网络；所述时域特征提取模块，包括：

目标对象匹配模块，用于从所述视频流数据中匹配出包括所述目标对象的多个连续视频帧；

光流位移计算模块，用于从所述多个连续视频帧中裁剪出所述目标对象的目标检测框，并对该目标检测框进行光流位移计算，获得光流位移矢量图，所述光流位移矢量图表征目标对象在时序上发生的动作变化；

光流位移提取模块，用于使用所述时域特征提取网络提取出所述光流位移矢量图的全局时域特征。

9.一种电子设备，其特征在于，包括：处理器和存储器，所述存储器存储有所述处理器可执行的机器可读指令，所述机器可读指令被所述处理器执行时执行如权利要求1至6任一所述的方法。

10.一种存储介质，其特征在于，该存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至6任一所述的方法。