CN114511929A

CN114511929A - 一种异常行为检测的方法、装置、电子设备及存储介质

Info

Publication number: CN114511929A
Application number: CN202210146627.2A
Authority: CN
Inventors: 刘蒸蒸; 张茜; 杜新凯; 牛国扬
Original assignee: Sunshine Insurance Group Co Ltd
Current assignee: Sunshine Insurance Group Co Ltd
Priority date: 2022-02-17
Filing date: 2022-02-17
Publication date: 2022-05-17

Abstract

本申请属于安全检测技术领域，公开了一种异常行为检测的方法、装置、电子设备及存储介质，该方法包括，获取待检测视频的视频帧序列；基于视频帧序列以及预先训练好的异常行为检测模型，获得视频的异常行为检测结果。这样，在对待检测的视频帧序列进行异常行为检测时，降低了检测异常行为耗费的时间成本，提高了异常行为检测的准确度。

Description

一种异常行为检测的方法、装置、电子设备及存储介质

技术领域

本申请涉及安全检测技术领域，具体而言，涉及一种异常行为检测的方法、装置、电子设备及存储介质。

背景技术

保险等金融领域中，很注重客户数据的隐私和安全，在标注这些数据的时候都是要求标注员在管控严格的办公场景中进行的，为防止有非法的标注员使用手机偷拍电脑屏幕上的数据内容，因此，需要对手机偷拍异常行为进行检测。

现有技术下，对视频中的手机偷拍异常行为进行检测时，通常是根据一系列视频帧中人和手机的位置关系来判定是否存在手机偷拍的异常行为。

但是，在特殊场景下，通过人和手机的位置关系判断手机偷拍的异常行为的准确度较低。

由此，在对异常行为进行检测时，如何提高异常行为检测的准确度，是一个需要解决的技术问题。

发明内容

本申请的目的在于提供一种异常行为检测的方法、装置、电子设备及存储介质，用以在对异常行为进行检测时，可以提高异常行为检测的准确度。

一方面，提供一种异常行为检测的方法，包括：获取待检测视频的视频帧序列；基于视频帧序列以及预先训练好的异常行为检测模型，获得视频的异常行为检测结果，其中，异常行为检测模型是基于三维卷积神经网络和自注意力网络构建的。

在上述实现过程中，采用三维卷积神经网络和自注意力网络构建的异常行为检测模型，对待检测视频的视频帧序列进行异常行为检测，获得待检测视频的检测结果，提高了异常行为检测的准确度。

一种实施方式中，在基于视频帧序列以及预先训练好的异常行为检测模型，获得视频的异常行为检测结果之前，还包括：

对视频帧序列进行特征提取，获得视频帧序列对应的多个第一特征图像；

对多个第一特征图像进行异常分析，获得至少一个异常候选区域；

将多个第一特征图像与至少一个异常候选区域输入至异常行为检测模型，获得异常行为检测模型输出的至少一个目标异常区域。

在上述实现过程中，根据第一特征图像和候选异常区域筛选出目标异常区域，缩小了异常行为检测的范围，降低了时间成本。

一种实施方式中，对多个第一特征图像进行异常分析，获得至少一个异常候选区域，包括：

对多个第一特征图像进行特征提取，获得多个第一特征图像分别对应的每一第二特征图像；

将每一第二特征图像进行异常分析处理，获得每一第二特征图像的位置信息和置信度信息；

根据每一第二特征图像的位置信息和置信度信息，获得视频帧序列的异常候选区域。

在上述实现过程中，可以直接根据获得的位置信息和置信度信息获得异常行为检测的候选异常区域，提高了异常行为检测的准确度。

一种实施方式中，基于视频帧序列以及预先训练好的异常行为检测模型，获得视频的异常行为检测结果，包括：

对至少一个异常候选区域进行线性映射处理，获得至少一个异常候选区域的键向量、值向量和查询向量；

基于获得的至少一个异常候选区域的键向量和查询向量，对至少一个异常候选区域进行筛选，获得至少一个目标异常区域；

根据目标异常区域，获得视频的异常行为检测结果。

在上述实现过程中，可以根据候选异常区域的键向量、值向量和查询向量对候选异常区域进行筛选，获得目标异常区域，利用自注意力网络模型中的注意力机制关注到异常行为的视频帧上，同时忽略大部分没有异常行为的视频帧，进而获得异常行为检测结果，提高了异常行为检测的准确度。

一种实施方式中，基于获得的至少一个异常候选区域的键向量和查询向量，对至少一个异常候选区域进行筛选，获得至少一个目标异常区域，包括：

对至少一个异常候选区域的键向量和查询向量进行归一化处理，获得至少一个异常候选区域的多个自注意力特征；

根据少一个异常候选区域的多个自注意力特征、值向量以及查询向量，对至少一个异常候选区域进行筛选，获得至少一个目标异常区域。

在上述实现过程中，对多个异常候选区域进行筛选，获得了异常行为检测的目标异常区域，提高了异常行为检测的准确度。

一种实施方式中，根据目标异常区域，获得视频的异常行为检测结果，包括：

获取至少一个目标异常区域的自注意力特征、值向量以及键向量；

将至少一个目标异常区域的自注意力特征、值向量以及键向量输入至前馈神经网络模型，获得异常行为特征，其中，异常行为特征为包含位置信息和置信度信息的异常行为检测结果，前馈神经网络模型是基于前馈神经网络构建的。

在上述实现过程中，可以直接将目标异常区域的自注意力特征、值向量以及键向量作为前馈神经网络模型的输入参数，获得前馈神经网络模型输出的异常行为检测结果，提高了异常行为检测的准确度。

一方面，提供一种异常行为检测的装置，包括：获取单元，用于获取待检测视频的视频帧序列；检测单元，用于基于视频帧序列以及预先训练好的异常行为检测模型，获得视频的异常行为检测结果，其中，异常行为检测模型是基于三维卷积神经网络和自注意力网络构建的。

一种实施方式中，检测单元还用于:

一种实施方式中，检测单元用于:

根据目标异常区域，获得视频的异常行为检测结果。

一种实施方式中，检测单元用于:

一方面，提供了一种电子设备，包括处理器以及存储器，存储器存储有计算机可读取指令，当计算机可读取指令由处理器执行时，运行如上述任一种异常行为检测的各种可选实现方式中提供的方法的步骤。

一方面，提供了一种可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时运行如上述任一种异常行为检测的各种可选实现方式中提供的方法的步骤。

一方面，提供了一种计算机程序产品，计算机程序产品在计算机上运行时，使得计算机执行如上述任一种异常行为检测的各种可选实现方式中提供的方法的步骤。

本申请实施例中，采用三维卷积神经网络和自注意力网络构建的异常行为检测模型，对待检测视频的视频帧序列进行特征提取，根据一系列特征筛选出目标异常区域，缩小了异常行为检测的范围，降低了时间成本，另外，通过根据筛选出的目标异常区域的自注意力特征、值向量和键向量，获得待检测视频的异常行为检测结果，提高了异常行为检测的准确度。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种异常行为检测系统的架构示意图；

图2为本申请实施例提供的一种异常行为检测的方法的实施流程图；

图3为本申请实施例提供的一种视频帧序列特征提取示意图；

图4为本申请实施例提供的一种异常候选区域提取示意图；

图5为本申请实施例提供的一种异常行为检测示意图；

图6为本申请实施例提供的一种异常行为检测的方法的详细实施流程图；

图7为本申请实施例提供的一种异常行为检测的装置的结构示意图；

图8为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

首先对本申请实施例中涉及的部分用语进行说明，以便于本领域技术人员理解。

终端设备：可以是移动终端、固定终端或便携式终端，例如移动手机、站点、单元、设备、多媒体计算机、多媒体平板、互联网节点、通信器、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、个人通信系统设备、个人导航设备、个人数字助理、音频/视频播放器、数码相机/摄像机、定位设备、电视接收器、无线电广播接收器、电子书设备、游戏设备或者其任意组合，包括这些设备的配件和外设或者其任意组合。还可预见到的是，终端设备能够支持任意类型的针对用户的接口(例如可穿戴设备)等。

服务器：可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务以及大数据和人工智能平台等基础云计算服务的云服务器。

超文本传输协议(Hyper Text Transfer Protocol，HTTP)：是一个简单的请求-响应协议，它指定了客户端可能发送给服务器什么样的消息以及得到什么样的响应。

参考框(Anchor)：是人为定义的包含各种尺寸和宽高比的矩形框，是用作检测的候选框。

风险优先数(Risk Priority Number):是事件发生的频率、严重程度和检测等级三者乘积，被称为风险系数或风险顺序数，其数值愈大潜在问题愈严重。

感兴趣区域池化(Region of Interest Pooling，RoI Pooling)：是一种广泛用于卷积神经网络目标检测任务的操作。

下采样：是对于一个样值序列间隔几个样值取样一次，这样得到新序列就是原序列的下采样。

为了在对异常行为进行检测时，可以提高异常行为检测的准确度，本申请实施例提供了一种异常行为检测的方法、装置、电子设备及存储介质。

参阅图1所示，为本申请实施例一种异常行为检测系统的架构示意图，该异常行为检测系统包括终端设备和检测设备。

终端设备：用于提供待检测视频的视频帧序列；

检测设备：用于获取待检测视频的视频帧序列，并基于视频帧序列以及预先训练好的异常行为检测模型，对视频帧序列进行异常行为检测，获得视频的异常行为检测结果。

本申请实施例中，执行主体可以为图1所示的异常行为检测系统中的检测设备，实际应用中，检测设备可以为终端设备或服务器等电子设备，在此不作限制。

参阅图2所示，为本申请实施例提供的一种异常行为检测的方法的实施流程图，结合图1所示的检测设备，该方法的具体实施流程如下：

步骤200：获取待检测视频的视频帧序列。

具体的，检测设备通过预定的传输协议获取待检测视频的视频帧序列。

可选的，预定的传输协议可以为HTTP传输协议，也可以为其他传输协议，实际应用中，传输协议可以根据实际应用场景进行设置，在此不作限制。

需要说明的是，待检测视频的视频帧序列的长度可以为任意长度。

一种实施方式中，待检测视频长度较短时，检测设备通过HTTP传输协议获取待检测的视频的每一帧视频帧序列。

一种实施方式中，待检测视频长度较长时，检测设备通过HTTP传输协议周期性获取待检测视频的视频帧序列。

这样，就可以获取任意长度视频的视频帧序列。

步骤201：基于视频帧序列以及预先训练好的异常行为检测模型，获得视频的异常行为检测结果。

需要说明的是，异常行为检测模型是基于三维卷积神经网络和自注意力网络构建的。

具体的，在执行步骤201之前，还可以执行以下步骤：

步骤1：对视频帧序列进行特征提取，获得视频帧序列对应的多个第一特征图像。

具体的，检测设备对视频帧序列通过一系列卷积和池化操作进行特征提取，获得该视频帧序列对应的多个第一特征图像。

一种实施方式中，参阅图3所示，为本申请实施例提供的一种视频帧序列特征提取示意图，检测设备对获取到的尺寸大小为3×L×H×W的视频帧序列，分别进行卷积核为64×3×3×3和1×2×2的卷积操作和池化操作，获得尺寸大小为

的特征图a；对获得特征图a分别进行卷积核为128×3×3×3和2×2×2卷积操作和池化操作，得到尺寸大小为

的特征图b；对特征图b分别进行卷积核为256×3×3×3、256×3×3×3和2×2×2的卷积操作和池化操作，获得尺寸大小为

的特征图c；对特征图c分别进行卷积核为512×3×3×3和512×3×3×3的卷积操作，得到尺寸大小为

的特征图d(即第一特征图像)，其中，L表示待检测的视频的长度，H表示待检测的视频的高度，W表示待检测的视频的宽度。

这样，通过对视频帧序列进行特征提取，缩小了异常行为检测的范围，降低了检测异常行为的时间成本。

步骤2：对多个第一特征图像进行异常分析，获得至少一个异常候选区域。

具体的，在执行步骤2时，可以执行以下步骤：

步骤a：对多个第一特征图像进行特征提取，获得多个第一特征图像分别对应的每一第二特征图像。

具体的，异常行为检测设备对多个第一特征图像进行一系列卷积操作和池化操作提取特征，获得多个第一特征图像分别对应的每一第二特征图像。

一种实施方式中，参阅图4所示，为本申请实施例提供的一种异常候选区域提取示意图，异常行为检测设备在待检测的视频帧序列的每L/8位置设置K个不同尺寸的anchor，共计有(L/8)×K个anchor，其中K为整数；采用RPN候选区域提取网络，对图3中的特征图d进行两次卷积核为512×3×3×3的卷积操作，得到尺寸大小为

的特征图e，采用ROI Pool对特征图e进行卷积核为

的最大池化操作来进行下采样，获得尺寸大小为

的只包含时序信息的特征图f(即第二特征图像)。

这样，对第一特征图像进行特征提取，降低了图像的维度，缩小了异常行为检测的范围，进一步提高了异常行为检测的准确度。

步骤b：将每一第二特征图像进行异常分析处理，获得每一第二特征图像的位置信息和置信度信息。

具体的，异常检测设备将每一第二特征图像进行一系列卷积操作，获得每一第二特征图像的位置信息和置信度信息。

一种实施方式中，对特征图f进行卷积核为1×1×1的卷积操作，获得感兴趣区域(即异常候选区域)的偏移量(即位置信息)和得分(置信度信息)。

这样，在后续检测异常行为的步骤中，可以直接根据获得的位置信息和置信度信息获得异常行为检测的候选异常区域，提高了异常行为检测的准确度。

步骤c：根据每一第二特征图像的位置信息和置信度信息，获得视频帧序列的异常候选区域。

一种实施方式中，第二特征图像中的部分图像的偏移量(即位置信息)值大于预设偏移量阈值，置信度大于预设的置信度阈值，这部分图像将视为该视频帧序列的异常候选区域。

需要说明的是，预设偏移量阈值和预设的置信度阈值可以根据实际应用场景进行设置，例如，预设偏移量阈值为60％，预设的置信度为75％，在此不作限制。

这样，根据位置信息和置信度信息，从视频帧序列中筛选出候选异常区域，缩小了异常行为检测的范围，提高了异常行为检测的准确度。

步骤3：将多个第一特征图像与至少一个异常候选区域输入至异常行为检测模型，获得异常行为检测模型输出的至少一个目标异常区域。

具体的，异常行为检测设备将多个第一特征图像与至少一个异常候选区域输入至异常行为检测模型，获得异常行为检测模型输出的至少一个目标异常区域。

这样，通过异常行为检测模型，对多个异常候选区域进行筛选，获得了异常行为检测的目标异常区域，提高了异常行为检测的准确度。

进一步的，在执行步骤201时，可以执行以下步骤：

S2011：对至少一个异常候选区域进行线性映射处理，获得至少一个异常候选区域的键向量、值向量和查询向量。

具体的，异常行为检测设备对至少一个异常候选区域进行线性映射处理，获得至少一个异常候选区域的键向量、值向量和查询向量。

一种实施方式中，异常行为检测设备对至少一个异常候选区域进行线性映射处理，获得异常候选区域的键向量和值向量对应的形状大小为

查询向量对应的形状大小为1×1×512。

这样，在后续的筛选过程中，可以获取候选异常区域的键向量、值向量和查询向量对候选异常区域进行筛选。

S2012：基于获得的至少一个异常候选区域的键向量和查询向量，对至少一个异常候选区域进行筛选，获得至少一个目标异常区域。

具体的，在执行步骤S2012时，可以执行以下步骤：

步骤A：对至少一个异常候选区域的键向量和查询向量进行归一化处理，获得至少一个异常候选区域的多个自注意力特征。

具体的，将至少一个异常候选区域的键向量和查询向量相乘后除以

后进行归一化处理，得到至少一个异常候选区域的多个自注意力特征。

这样，在后续的异常行为检测过程中，通过获得的自注意力特征可以进一步准确确定待检测的目标区域，忽略不存在异常行为的视频帧，降低了异常行为检测的时间成本。

步骤B：根据至少一个异常候选区域的多个自注意力特征、值向量以及查询向量，对至少一个异常候选区域进行筛选，获得至少一个目标异常区域。

具体的，将至少一个异常候选区域的多个自注意力特征和值向量相乘后，与查询向量相加后进行归一化处理，根据归一化后的值对至少一个异常候选区域进行筛选，获得至少一个目标异常区域。

这样，对异常候选区域进行筛选，获得目标异常区域，缩小了异常行为检测的范围，进一步降低了异常行为检测的时间成本。

S2013：根据目标异常区域，获得视频的异常行为检测结果。

具体的，在执行步骤S2013时，可以执行以下步骤：

步骤1：获取至少一个目标异常区域的自注意力特征、值向量以及键向量。

这样，就可以在后续的异常行为检测过程中，直接根据目标异常区域的自注意力特征、值向量以及键向量，获得异常行为检测结果。

步骤2：将至少一个目标异常区域的自注意力特征、值向量以及键向量输入至前馈神经网络模型，获得异常行为特征。

具体的，异常行为检测设备将将至少一个目标异常区域的自注意力特征、值向量以及键向量输入至前馈神经网络模型，对前馈神经网络模型输出的值进行归一化后，获得异常行为特征。

一种实施方式中，参阅图5所示，为本申请实施例提供的一种异常行为检测示意图，将至少一个目标异常区域的自注意力特征、值向量以及键向量输入至前馈神经网络模型中，前馈神经网络模型将自注意力特征与值向量相乘后与键向量相加，将相加后的值进行归一化处理并输出，获得异常行为结果。

需要说明的是，异常行为特征为包含位置信息和置信度信息的异常行为检测结果，前馈神经网络模型是基于前馈神经网络构建的。

这样，可以直接将目标异常区域的自注意力特征、值向量以及键向量作为前馈神经网络模型的输入参数，获得前馈神经网络模型输出的异常行为检测结果，提高了异常行为检测的准确度。

参阅图6所示，为本申请实施例提供的一种异常行为检测的方法的详细流程图，该方法的具体实施流程如下：

步骤600：获取待检测视频的视频帧序列。

步骤601：对视频帧序列进行特征提取，获得视频帧序列对应的多个第一特征图像。

步骤602：对多个第一特征图像进行特征提取，获得多个第一特征图像分别对应的每一第二特征图像。

步骤603：将每一第二特征图像进行异常分析处理，获得每一第二特征图像的位置信息和置信度信息。

步骤604：根据每一第二特征图像的位置信息和置信度信息，获得视频帧序列的至少一个异常候选区域。

步骤605：对至少一个异常候选区域进行线性映射处理，获得至少一个异常候选区域的键向量、值向量和查询向量。

步骤606：基于获得的至少一个异常候选区域的键向量和查询向量，对至少一个异常候选区域进行筛选，获得至少一个目标异常区域。

步骤607：获取至少一个目标异常区域的自注意力特征、值向量以及键向量。

步骤608：将至少一个目标异常区域的自注意力特征、值向量以及键向量输入至前馈神经网络模型，获得异常行为特征。

具体的，执行步骤600-步骤608时，具体步骤参见上述步骤200-步骤201，在此不做赘述。

参阅图7所示，为本申请实施例提供的一种异常行为检测的装置的结构示意图，包括：

获取单元701：用于获取待检测视频的视频帧序列；

检测单元702：用于基于视频帧序列以及预先训练好的异常行为检测模型，获得视频的异常行为检测结果。

一种实施方式中，检测单元702用于:

根据目标异常区域，获得视频的异常行为检测结果。

一种实施方式中，检测单元702用于:

参阅图8所示，为本申请实施例提供的一种电子设备的结构示意图。

电子设备8000包括：处理器8080以及存储器8020，可选的，还可以包括电源8030、显示单元8040、输入单元8050。

处理器8080是电子设备8000的控制中心，利用各种接口和线路连接各个部件，通过运行或执行存储在存储器8020内的软件程序和/或数据，执行电子设备8000的各种功能，从而对电子设备8000进行整体监控。

本申请实施例中，处理器8080调用存储器8020中存储的计算机程序时执行如图2中所示的实施例提供的一种异常行为检测的方法。

可选的，处理器8080可包括一个或多个处理单元；优选的，处理器8080可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器8080中。在一些实施例中，处理器、存储器、可以在单一芯片上实现，在一些实施例中，它们也可以在独立的芯片上分别实现。

存储器8020可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、各种应用等；存储数据区可存储根据电子设备8000的使用所创建的数据等。此外，存储器8020可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件等。

电子设备8000还包括给各个部件供电的电源8030(比如电池)，电源可以通过电源管理系统与处理器8080逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗等功能。

显示单元8040可用于显示由用户输入的信息或提供给用户的信息以及电子设备8000的各种菜单等，本发明实施例中主要用于显示电子设备8000中各应用的显示界面以及显示界面中显示的文本、图片等对象。显示单元8040可以包括显示面板8041。显示面板8041可以采用液晶显示屏(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode，OLED)等形式来配置。

输入单元8050可用于接收用户输入的数字或字符等信息。输入单元8050可包括触控面板8051以及其他输入设备8052。其中，触控面板8051，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触摸笔等任何适合的物体或附件在触控面板8051上或在触控面板8051附近的操作)。

具体的，触控面板8051可以检测用户的触摸操作，并检测触摸操作带来的信号，将这些信号转换成触点坐标，发送给处理器8080，并接收处理器8080发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板8051。其他输入设备8052可以包括但不限于物理键盘、功能键(比如音量控制按键、开关机按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

当然，触控面板8051可覆盖显示面板8041，当触控面板8051检测到在其上或附近的触摸操作后，传送给处理器8080以确定触摸事件的类型，随后处理器8080根据触摸事件的类型在显示面板8041上提供相应的视觉输出。虽然在图8中，触控面板8051与显示面板8041是作为两个独立的部件来实现电子设备8000的输入和输出功能，但是在某些实施例中，可以将触控面板8051与显示面板8041集成而实现电子设备8000的输入和输出功能。

电子设备8000还可包括一个或多个传感器，例如压力传感器、重力加速度传感器、接近光传感器等。当然，根据具体应用中的需要，上述电子设备8000还可以包括摄像头等其它部件，由于这些部件不是本申请实施例中重点使用的部件，因此，在图8中没有示出，且不再详述。

本领域技术人员可以理解，图8仅仅是电子设备的举例，并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件。

本申请实施例中，一种可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时，使得通信设备可以执行上述实施例中的各个步骤。

为了描述的方便，以上各部分按照功能划分为各模块(或单元)分别描述。当然，在实施本申请时可以把各模块(或单元)的功能在同一个或多个软件或硬件中实现。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种异常行为检测的方法，其特征在于，包括：

获取待检测视频的视频帧序列；

基于所述视频帧序列以及预先训练好的异常行为检测模型，获得所述视频的异常行为检测结果，其中，所述异常行为检测模型是基于三维卷积神经网络和自注意力网络构建的。

2.根据权利要求1所述的方法，其特征在于，在所述基于所述视频帧序列以及预先训练好的异常行为检测模型，获得所述视频的异常行为检测结果之前，还包括：

对所述视频帧序列进行特征提取，获得所述视频帧序列对应的多个第一特征图像；

对所述多个第一特征图像进行异常分析，获得至少一个异常候选区域；

将所述多个第一特征图像与所述至少一个异常候选区域输入至所述异常行为检测模型，获得所述异常行为检测模型输出的至少一个目标异常区域。

3.根据权利要求2所述的方法，其特征在于，所述对所述多个第一特征图像进行异常分析，获得至少一个异常候选区域，包括：

对所述多个第一特征图像进行特征提取，获得所述多个第一特征图像分别对应的每一第二特征图像；

将所述每一第二特征图像进行异常分析处理，获得所述每一第二特征图像的位置信息和置信度信息；

根据所述每一第二特征图像的位置信息和置信度信息，获得所述视频帧序列的异常候选区域。

4.根据权利要求2或3所述的方法，其特征在于，所述基于所述视频帧序列以及预先训练好的异常行为检测模型，获得所述视频的异常行为检测结果，包括：

对所述至少一个异常候选区域进行线性映射处理，获得所述至少一个异常候选区域的键向量、值向量和查询向量；

基于获得的所述至少一个异常候选区域的键向量和查询向量，对所述至少一个异常候选区域进行筛选，获得至少一个目标异常区域；

根据目标异常区域，获得所述视频的异常行为检测结果。

5.根据权利要求4所述的方法，其特征在于，所述基于获得的所述至少一个异常候选区域的键向量和查询向量，对所述至少一个异常候选区域进行筛选，获得至少一个目标异常区域，包括：

对所述至少一个异常候选区域的键向量和查询向量进行归一化处理，获得所述至少一个异常候选区域的多个自注意力特征；

根据所述少一个异常候选区域的多个自注意力特征、值向量以及查询向量，对所述至少一个异常候选区域进行筛选，获得至少一个目标异常区域。

6.根据权利要求5所述的方法，其特征在于，所述根据目标异常区域，获得所述视频的异常行为检测结果，包括：

获取所述至少一个目标异常区域的自注意力特征、值向量以及键向量；

将所述至少一个目标异常区域的自注意力特征、值向量以及键向量输入至前馈神经网络模型，获得异常行为特征，其中，所述异常行为特征为包含位置信息和置信度信息的异常行为检测结果，所述前馈神经网络模型是基于前馈神经网络构建的。

7.一种异常行为检测的装置，其特征在于，包括：

获取单元，用于获取待检测视频的视频帧序列；

检测单元，用于基于所述视频帧序列以及预先训练好的异常行为检测模型，获得所述视频的异常行为检测结果，其中，所述异常行为检测模型是基于三维卷积神经网络和自注意力网络构建的。

8.根据权利要求7所述的装置，其特征在于，所述检测单元还用于:

9.一种电子设备，其特征在于，包括处理器以及存储器，所述存储器存储有计算机可读取指令，当所述计算机可读取指令由所述处理器执行时，运行权利要求1-6任一所述方法。

10.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时运行如权利要求1-6任一所述方法。