CN113052147A

CN113052147A - 一种行为识别方法及装置

Info

Publication number: CN113052147A
Application number: CN202110485245.8A
Authority: CN
Inventors: 闫丹凤; 李旭; 傅威; 姬捷; 郭熙东
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2021-04-30
Filing date: 2021-04-30
Publication date: 2021-06-29
Anticipated expiration: 2041-04-30
Also published as: CN113052147B

Abstract

本发明实施例提供了一种行为识别方法及装置。方案如下：获取视频数据；基于视频帧间的帧差，获取视频数据中的异常视频帧；针对每一异常视频帧，对该异常视频帧进行遮挡检测，得到该异常视频帧的遮挡检测结果；根据遮挡检测结果，利用预先训练好的行为识别模型，识别不存在遮挡现象的异常视频帧中出现的目标物的行为类别；行为识别模型是利用预设训练集对嵌入注意力机制和多尺度特征融合的神经网络模型进行训练得到的，预设训练集包括多种样本行为类别所对应的样本视频帧序列，以及每一样本视频帧序列所对应的样本行为类别。通过本发明实施例提供的技术方案，节约了视频数据中正常行为的视频帧识别所需的计算资源，提高了行为识别的准确性。

Description

一种行为识别方法及装置

技术领域

本发明涉及图像与视频处理技术领域，特别是涉及一种行为识别方法及装置。

背景技术

近年来随着“平安建设”、“智慧城市”等概念的不断深入，在城市中部署大量的视频监控设备。目前，可以通过对视频监控设备所采集到的视频数据的异常检测分析，识别出视频数据中包括的目标物的异常行为，如人员的打架行为等，从而根据识别出的目标物的异常行为进行事故预警或危险事件监控。这可以有效保证社会公共安全。

但是，在上述异常检测分析过程中，由于视频数据正常行为的视频帧占比相对较高，异常行为的视频帧占比相对较低，这使得大量的计算资源被用于对正常行为的视频帧的识别，造成计算资源的浪费。另外，由于视频数据中背景信息冗余、或者视频数据中目标物的运动等问题的存在，使得行为识别的准确性受到影响。

发明内容

本发明实施例的目的在于提供一种行为识别方法及装置，以节约视频数据中正常行为的视频帧识别所需的计算资源，提高行为识别的准确性。具体技术方案如下：

本发明实施例提供了一种行为识别方法，应用于边缘网络系统中的边缘服务器，所述边缘网络系统还包括监控摄像头，所述方法包括：

获取所述监控摄像头采集到的视频数据；

基于视频帧间的帧差，获取所述视频数据中的异常视频帧；

针对每一异常视频帧，对该异常视频帧进行遮挡检测，得到该异常视频帧的遮挡检测结果；

根据所述遮挡检测结果，利用预先训练好的行为识别模型，识别不存在遮挡现象的异常视频帧中出现的目标物的行为类别；所述行为识别模型是利用预设训练集对嵌入注意力机制和多尺度特征融合的神经网络模型进行训练得到的，所述预设训练集包括多种样本行为类别所对应的样本视频帧序列，以及每一样本视频帧序列所对应的样本行为类别。

本发明实施例还提供了一种行为识别装置，应用于边缘网络系统中的边缘服务器，所述边缘网络系统还包括监控摄像头，所述装置包括：

第一获取模块，用于获取所述监控摄像头采集到的视频数据；

第二获取模块，用于基于视频帧间的帧差，获取所述视频数据中的异常视频帧；

遮挡检测模块，用于针对每一异常视频帧，对该异常视频帧进行遮挡检测，得到该异常视频帧的遮挡检测结果；

第一识别模块，用于根据所述遮挡检测结果，利用预先训练好的行为识别模型，识别不存在遮挡现象的异常视频帧中出现的目标物的行为类别；所述行为识别模型是利用预设训练集对嵌入注意力机制和多尺度特征融合的神经网络模型进行训练得到的，所述预设训练集包括多种样本行为类别所对应的样本视频帧序列，以及每一样本视频帧序列所对应的样本行为类别。

本发明实施例还提供了一种边缘服务器，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述任一所述的行为识别方法步骤。

本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质内存储有计算机程序，计算机程序被处理器执行时实现上述任一所述的行为识别方法步骤。

本发明实施例还提供了一种包含指令的计算机程序，当其在计算机上运行时，使得计算机执行上述任一所述的行为识别方法。

本发明实施例有益效果：

本发明实施例提供的行为识别方法及装置，可以在获取到监控摄像头采集到的视频数据后，边缘服务器基于视频帧间的帧差获取得到异常视频帧，从而对每一异常视频帧进行遮挡检测，并利用预先训练好的行为识别模型，识别不存在遮挡现象的异常视频帧中出现的目标物的行为类型。通过对视频数据中异常视频帧的提取，以及每一异常视频帧的遮挡检测，减少了进行行为类型识别的视频帧的数量，也就是对视频数据中包括正常行为的视频帧以及存在遮挡现象的视频帧不进行行为类型识别的过程，有效节约了视频数据中正常行为的视频帧识别所需的计算资源。另外，在利用预先训练好的行为识别模型对不存在遮挡现象的异常视频帧中出现的目标物的行为类别进行识别时，由于该行为识别模型是利用预设训练集对嵌入注意力机制和多尺度特征融合的神经网络模型进行训练得到的，因此，在对异常视频帧中出现的目标物的行为类别进行识别时，空间注意力机制可以对异常视频帧中目标物所在区域进行特征提取，从而将该区域特征与全局特征结合，而时间注意力机制可以对不同时刻的特征进行标定，这有效降低了背景信息以及目标物运动等因素对识别结果的影响，从而提高了行为识别的准确性，并且采用的多尺度特征融合有效提高了行为识别模型对图像多尺度变化的感知能力，从而增加了行为识别模型的尺度不变性，提高了识别结果的准确性。

当然，实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的实施例。

图1为本发明实施例提供的行为识别方法的第一种流程示意图；

图2-a为本发明实施例提供的视频流的处理流程的一种示意图；

图2-b为本发明实施例提供的视频帧块存储的一种示意图；

图3为本发明实施例提供的行为识别方法的第二种流程示意图；

图4为本发明实施例提供的遮挡检测方法的第一种流程示意图；

图5为本发明实施例提供的遮挡检测方法的第二种流程示意图；

图6为本发明实施例提供的行为识别方法的第三种流程示意图；

图7为本发明实施例提供的行为识别方法的第四种流程示意图；

图8为本发明实施例提供的行为识别方法的第五种流程示意图；

图9为本发明实施例提供的行为识别方法的第六种流程示意图；

图10为本发明实施例提供的行为识别模型训练方法的一种流程示意图；

图11为本发明实施例提供的MobileNetV2网络的一种示意图；

图12为本发明实施例提供的边缘网络系统的系统架构的一种示意图；

图13为本发明实施例提供的行为识别装置的一种结构示意图；

图14为本发明实施例提供的边缘服务器的一种结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了解决相关技术中大量的计算资源被用于对正常行为的视频帧的识别，以及行为识别的准确性较低的问题，本发明实施例提供了一种行为识别方法。该方法应用于边缘网络系统中的边缘服务器。该边缘网络系统还可以包括监控摄像头。如图1所示，图1为本发明实施例提供的行为识别方法的第一种流程示意图。该方法包括以下步骤：

步骤S101，获取监控摄像头采集到的视频数据。

步骤S102，基于视频帧间的帧差，获取视频数据中的异常视频帧。

步骤S103，针对每一异常视频帧，对该异常视频帧进行遮挡检测，得到该异常视频帧的遮挡检测结果。

步骤S104，根据遮挡检测结果，利用预先训练好的行为识别模型，识别不存在遮挡现象的异常视频帧中出现的目标物的行为类别；行为识别模型是利用预设训练集对嵌入注意力机制和多尺度特征融合的神经网络模型进行训练得到的，预设训练集包括多种样本行为类别所对应的样本视频帧序列，以及每一样本视频帧序列所对应的样本行为类别。

通过本发明实施例提供的方法，可以在获取到监控摄像头采集到的视频数据后，边缘服务器基于视频帧间的帧差获取得到异常视频帧，从而对每一异常视频帧进行遮挡检测，并利用预先训练好的行为识别模型，识别不存在遮挡现象的异常视频帧中出现的目标物的行为类型。通过对视频数据中异常视频帧的提取，以及每一异常视频帧的遮挡检测，减少了进行行为类型识别的视频帧的数量，也就是对视频数据中包括正常行为的视频帧以及存在遮挡现象的视频帧不进行行为类型识别的过程，有效节约了视频数据中正常行为的视频帧识别所需的计算资源。另外，在利用预先训练好的行为识别模型对不存在遮挡现象的异常视频帧中出现的目标物的行为类别进行识别时，由于该行为识别模型是利用预设训练集对嵌入注意力机制和多尺度特征融合的神经网络模型进行训练得到的，因此，在对异常视频帧中出现的目标物的行为类别进行识别时，空间注意力机制可以对异常视频帧中目标物所在区域进行特征提取，从而将该区域特征与全局特征结合，而时间注意力机制可以对不同时刻的特征进行标定，这有效降低了背景信息以及目标物运动等因素对识别结果的影响，从而提高了行为识别的准确性，并且采用的多尺度特征融合有效提高了行为识别模型对图像多尺度变化的感知能力，从而增加了行为识别模型的尺度不变性，提高了识别结果的准确性。

下面通过具体的实施例，对本发明实施例进行说明。

针对上述步骤S101，即获取监控摄像头采集到的视频数据。

在本步骤中，上述边缘网络系统中的监控摄像头可以实时采集监控区域内的视频数据。边缘网络系统中的边缘服务器可以获取监控摄像头所采集到的视频数据。

一个可选的实施例中，上述监控摄像头在接入边缘网络后，即监控摄像头加入边缘网络系统后，边缘服务器可以通过实时流传输协议(Real Time Streaming Protocol，RTSP)协议，从监控视频监控摄像头实时采集到的视频流。边缘服务器可以对获取到的视频流进行解码，得到视频数据，并对该视频数据进行存储。

一个可选的实施例中，边缘服务设备可以通过调用OpenCV库中的视频接收(VideoCapture)方法进行视频流解码。在接收器(Receiver)中，调用VideoCapture方法将不断流入的RTSP视频流数据解码并生成多个Mat数据结构，具体可以用框架(frame)表示，该结构是OpenCV中进行图像处理操作的基本对象。具体的，Spark streaming执行如图2-a所示流程，图2-a为本发明实施例提供的视频流的处理流程的一种示意图。Sparkstreaming中的接收器负责接收视频流，然后解码生成视频帧序列，该视频帧序列中包括多个视频帧，如图2-a所示的帧1-帧5，接收器可以将生成的视频帧序列中的各视频帧缓存至缓存(currentBuffer)中。定时器(Timer)按照预设的时间间隔回调块生成器(BlockGenerator)，将currentBuffer中缓存的视频帧封装成一系列视频帧块(Block)，即图2-a所示的帧块1-帧块5。将生成的Block放入块推送函数(blocksForPushing)，即图2-a所示的块推送队列中，作为离散流(Discretized Stream，Dstream)中分区的数据记录。块推送线程(blockPushThread)周期性的从blocksForPushing取出Block，并生成对应的帧块信息，如图2-a所示的帧块信息1-帧块信息3，并将帧块信息存储到帧块信息组中。存储系统将块推送线程推送的Block，以及帧块信息组中的帧块信息进行存储。由任务生成器(JobGenerator)为每一批Block生成任务(Job)，并将生成的任务交由Spark引擎处理。Dstream中数据的分布式集合(RDD)的分区数据由视频帧块组成，具体如图2-b所示，图2-b为本发明实施例提供的视频帧块存储的一种示意图。

在图2-b中，RDD包括中包括多个视频帧块，即b1-bn，每一视频帧块可以包括视频流编号(streamId)，视频帧块序列编号(BlockId)以及视频帧块数据(data)。其中，streamId为每个视频流的唯一标识。BlockId用于对视频帧进行分割后的视频帧块的编号进行标记。data包含图像帧序列数据的字节数组，由Mat转化得到。

上述OpenCV库是一个基于伯克利软件套件(Berkeley Software Distribution，BSD)许可发行的跨平台计算机视觉和机器学习软件库。上述Mat数据结构为OpenCV库中存储图像的数据结构。Mat类的对象用于表示一个多维度的单通道或者多通道稠密数组，可用于存储灰度图、彩图等。上述SparkStreaming是一个对实时数据流进行高通量、容错处理的流式处理系统。

在本发明实施例中，上述边缘网络系统中可以包括多个监控摄像头。当上述边缘网络系统中可以包括多个监控摄像头时，每一监控摄像头均可以采集得到对应的视频流。此时，为了提高视频数据的行为识别效率，边缘服务器可以利用多线程获取到每一监控摄像头的视频数据，具体过程在此不作具体说明。

一个可选的实施例中，为了提高上述边缘网络系统构建便捷性、兼容性和可移植性，上述边缘网络系统可以是基于虚拟化容器(Docker)技术构建的。在此，对上述边缘网络系统的构建不作具体说明。

一个可选的实施例中，为了保证上述边缘服务器可以获取监控摄像头的视频数据，边缘服务器在获取上述视频数据之前，可以检测监控摄像头是否接入边缘网络系统。若接入，则执行上述步骤S101。若未接入，则边缘服务器可以针对未接入的监控摄像头进行告警。例如，边缘服务器可以向前端，如Web页面发送针对未接入的监控摄像头的提示消息。

一个可选的实施例中，为了提高后期视频数据的可视化展示，以及提高可视化展示时展示的数据的丰富性，上述边缘服务器在获取得到上述视频数据后，可以将带有RTSP协议摄像头的用户名、密码、互联网协议(Internet Protocol，IP)地址以及端口号与视频数据关联，并按照固定格式构造每一视频数据的统一资源定位系统(uniform resourcelocator，URL)地址。

针对上述步骤S102，即基于视频帧间的帧差，获取视频数据中的异常视频帧。

在本步骤中，为了降低后期进行行为类型识别的视频帧中包括正常行为的视频帧的数量，边缘服务器可以基于视频帧间的帧差，从视频数据中获取异常视频帧。关于异常视频帧的获取方式可参见下文描述，在此不作具体说明。

针对上述步骤S103，即针对每一异常视频帧，对该异常视频帧进行遮挡检测，得到该异常视频帧的遮挡检测结果。

在本步骤中，针对获取到的每一异常视频帧，边缘服务器可以对检测该异常视频帧中是否存在遮挡现象，得到每一异常视频帧的遮挡检测结果。关于遮挡检测的方式可参见下文描述，在此不作具体说明。

上述异常视频帧的遮挡遮挡检测结果可以指示该异常视频帧存在遮挡现象，也可以指示该异常视频帧不存在遮挡现象。

针对上述步骤S104，即根据遮挡检测结果，利用预先训练好的行为识别模型，识别不存在遮挡现象的异常视频帧中出现的目标物的行为类别；行为识别模型是利用预设训练集对嵌入注意力机制和多尺度特征融合的神经网络模型进行训练得到的，预设训练集包括多种样本行为类别所对应的样本视频帧序列，以及每一样本视频帧序列所对应的样本行为类别。

在本步骤中，通过上述步骤S103，边缘服务设备可以准确的确定出每一异常视频帧中是否存在遮挡现象，从而在对异常视频帧中目标物的行为类型进行识别时，仅针对不存在遮挡现象的异常视频帧进行行为识别，在减少边缘服务设备所需识别的视频帧的同时，降低了遮挡现象对行为识别结果的影响，从而提高了行为识别的准确性。

上述视频帧中出现的目标物包括但不限于人员和动物。例如，上述监控摄像头安装在公交车上，上述目标物可以该公交车上的每一乘客。再例如，上述监控摄像头安装在社区的某个街道上，上述目标物可以为该监控摄像头监控区域中出现的每一社区居民，或居民牵引的宠物等。

在本发明实施例中，上述行为识别模型是利用预设训练集对嵌入注意力机制和多尺度特征融合的神经网络模型进行训练得到的。其中，神经网络模型可以为MobileNetV2网络、MobileNetV1网络或MobileNetV4网络等轻量级神经网络模型。在此，对上述神经网络模型不作具体限定。

关于上述行为识别模型的训练过程具体可参见下文描述，在此不作具体说明。

上述行为类别和上述样本行为类别包括但不限于静坐、行走、站立、踢踹、出拳和打架。根据具体应用场景的不同，上述上述行为类别和上述样本行为类别所包括的行为有所不同。例如，在对公交车运行过程中的视频数据进行行为识别时，上述行为类别和上述样本行为类别可以包括静坐、站立、偷窃和抢夺司机方向盘等。再例如，在社区公共场所的视频数据进行行为监控时，上述行为类别和上述样本行为类别可以包括行走、站立、运动健身和广场舞等。

一个可选的实施例中，根据图1所示的方法，本发明实施例还提供一种行为识别方法。如图3所示，图3为本发明实施例提供的行为识别方法的第二种流程示意图。该方法包括以下步骤。

步骤S301，获取监控摄像头采集到的视频数据。

上述步骤S301与上述步骤S101相同。

步骤S302，以预设视频帧数为采样间隔对视频数据进行采样，得到多个第一视频帧。

一个可选的实施例中，上述边缘服务器可以使用OpenCV中的读(read)函数，从上述VideoCapture类中读取视频帧。为进一步减少系统的计算成本，降低时间冗余，边缘服务器可以按照预设视频帧数从上述视频数据包括的所有视频帧中获取多个视频帧，即上述第一视频帧。

以预设视频帧数为k进行说明，边缘服务器可以从上述步骤S301获取到的视频数据包括的所有视频帧中，每间隔k帧提取一个视频帧，得到多个第一视频帧。

上述预设视频帧数可根据边缘服务器计算资源，以及监控摄像头的数量等进行设定。在此，对上述预设视频帧数不作具体限定。

在本发明实施例中，通过上述对视频数据的采样，可以有效减少采样得到的多个第一视频帧中相似视频帧的数量，从而减少后期对相似视频帧中行为识别所需占用的计算资源。

步骤S303，根据每一第一视频帧的时间顺序，利用卡尔曼滤波函数计算每相邻两个第一视频帧间的预测帧差。

一个可选的实施例中，上述边缘服务器可以从python的第三方库pykalman中引入卡尔曼滤波(KalmanFilter)函数，通过引入的卡尔曼滤波函数对上述步骤S302所采样得到的多个第一视频帧中的每相邻两个第一视频帧间的帧差进行预测，得到每相邻两个第一视频帧间的预测帧差。其中，上述python为一种计算机编程语言。在此，对上述预测帧差的具体计算过程不作具体说明。

一个可选的实施例中，上述每一第一视频帧的时间顺序可以表示为根据每一第一视频帧所对应的时间点，按照时间点从前到后顺序进行排序的排序结果。

另一个可选的实施例中，上述每一第一视频帧的时间顺序也可以表示为每一第一视频帧的视频帧块序列号，即上述BlockId的排列结果。

步骤S304，针对每相邻的两个第一视频帧，当目标差值大于预设差值阈值时，将两个第一视频帧中的后一视频帧确定为异常视频帧，目标差值为两个第一视频帧间的真实帧差与预测帧差间的差值。

在本步骤中，边缘服务器在计算得到每相邻两个第一视频帧间的预测帧差后，可以针对每相邻两个第一视频帧，计算这两个第一视频帧所对应的预测帧差与真实帧差间的差值，作为这两个第一视频帧所对应的目标差值。边缘服务器可以针对每相邻两个第一视频帧，将这两个第一视频帧所对应的目标差值与预设差值阈值进行比较。当目标差值大于预设差值阈值时，边缘服务器可以确定这两个第一视频帧存在较大的差异。此时，边缘服务器可以将这两个第一视频帧中的后一视频帧确定为异常视频帧，从而从上述采样得到的多个第一视频帧中提取出异常视频帧。在此，对提取到的异常视频帧的数量不作具体限定。

一个可选的实施例中，边缘服务器在提取得到上述异常视频帧后，可以将异常视频帧传送到卡夫卡(Kafka)消息队列中，从而便于后期可以直接从Kafka消息队列中获取异常视频帧进行行为识别。

一个可选的实施例中，针对上述每相邻两个第一视频帧，当这两个相邻视频帧间的目标差值不大于上述预设差值阈值时，边缘服务器可以确定这两个第一视频帧间的差异较小。此时，边缘服务器可以确定这两个第一视频帧中的后一个视频帧为正常视频帧。

在本发明实施例中，当相邻的两个第一视频帧中的前一个视频帧已经被确定为异常视频帧后，若这两个第一视频帧间的目标差值小于或等于上述预设差值阈值。也就是这两个第一视频帧间的差异较小。由于前一个视频帧已经被确定为异常视频帧，因此，边缘服务器将后一视频帧确定为正常视频帧，可以在保证提取出的异常视频帧的准确性的前提下，减少异常视频帧中相似视频帧的数量，从而节约系统的计算资源。

步骤S305，针对每一异常视频帧，对该异常视频帧进行遮挡检测，得到该异常视频帧的遮挡检测结果。

步骤S306，根据遮挡检测结果，利用预先训练好的行为识别模型，识别不存在遮挡现象的异常视频帧中出现的目标物的行为类别；行为识别模型是利用预设训练集对嵌入注意力机制和多尺度特征融合的神经网络模型进行训练得到的，预设训练集包括多种样本行为类别所对应的样本视频帧序列，以及每一样本视频帧序列所对应的样本行为类别。

上述步骤S305-步骤S306与上述步骤S103-步骤S104相同。

一个可选的实施例中，针对上述步骤S103，即针对每一异常视频帧，对该异常视频帧进行遮挡检测，得到该异常视频帧的遮挡检测结果，本发明实施例提供了一种遮挡检测方法。如图4所示，图4为本发明实施例提供的遮挡检测方法的第一种流程示意图。该方法包括以下步骤。

步骤S401，针对每一异常视频帧，将该异常视频帧划分为第一预设数量个视频帧块。

以第一预设数量为N进行说明。边缘服务器可以将上述每一异常视频帧均匀划分为大小相等的N个视频帧块。边缘服务器可以将上述每一异常视频帧划分为大小不等的N个视频帧块。在此，对上述异常视频帧的划分方式不作具体限定。

上述第一预设数量可以根据用户需求或用户经验值等进行设定，在此不作具体说明。

步骤S402，针对每一异常视频帧，计算该异常视频帧中每一视频帧块所对应的第一方差和第二方差，第一方差为视频帧块中所有像素点的像素值方差，第二方差为视频帧块中图像边缘像素点的像素值方差。

在本步骤中，针对每一异常视频帧，边缘服务器可以根据该异常视频帧中各视频帧块所包括的每一像素点的像素值，计算该异常视频帧中每一视频帧块所对应的像素值方差，得到每一视频帧块所对应的第一方差。并且，针对每一异常视频帧，边缘服务器还可以对该异常视频帧的边缘检测结果，计算该异常视频帧的每一视频帧块中图像边缘像素点所对应的像素值方差，得到每一视频帧块所对应的第二方差。

为便于理解，以异常视频帧为某一人员跑步时的图像为例，对上述第二方差进行说明。

边缘服务器通过对该异常视频帧进行边缘检测，可以确定该异常视频帧中人员边缘区域所在的位置，例如，人员头部所在区域的边缘位置、四肢所在区域的边缘位置等。边缘服务器可以将该异常视频帧中人员边缘区域所在的位置中包括的像素点作为图像边缘像素点。针对该异常视频帧中的每一视频帧块，边缘服务器可以计算该视频帧块中包括的所有图像边缘像素点所对应的像素值方差，得到该视频帧块所对应的第二方差。

关于上述第一方差和第二方差的计算过程，在此不作具体说明。

步骤S403，针对每一异常视频帧，若该异常视频帧中包括的目标视频帧块的数量大于预设数量阈值，则确定该异常视频帧存在遮挡现象。

在本步骤中，针对每一异常视频帧，边缘服务器可以分别将该异常视频帧中各视频帧块所对应的每一第一方差与第一方差阈值进行比较，并将每一第二方差与第二方差阈值进行比较。若某一视频帧块所对应的第一方差小于第一方差阈值，且该视频帧块所对应的第二方差小于第二方差阈值，则边缘服务设备可以确定该视频帧块存在遮挡现象。此时，边缘服务器可以将该视频帧块记为目标视频帧块。边缘服务器可以统计每一异常视频帧中包括的目标视频帧块的数量。当某一异常视频帧中包括的目标视频帧块的数量大于预设数量阈值时，边缘服务器可以确定该异常视频帧存在遮挡现象。

在本发明实施例中，对上述第一方差阈值、第二方差阈值以及预设数量阈值不作具体限定。

步骤S404，针对每一异常视频帧，若该异常视频帧中包括的目标视频帧块的数量不大于预设数量阈值，则确定该异常视频帧不存在遮挡现象。

在本步骤中，边缘服务器在统计得到每一异常视频帧中包括的目标视频帧块的数量后，若某一异常视频帧中包括的目标视频帧块的数量不大于上述预设数量阈值时，边缘服务器可以确定该异常视频帧不存在遮挡现象。

在本发明实施例中，针对每一异常视频帧，边缘服务器可以直接根据该异常视频帧中包括的目标视频帧块的数量，确定异常视频帧是否存在遮挡现象，遮挡检测过程相对简单，可以有效缩短遮挡检测过程所需的时间，提高遮挡检测效率。

另一个可选的实施例中，针对上述步骤S103，即对每一异常视频帧进行遮挡检测，得到每一异常视频帧的遮挡检测结果，本发明实施例还提供了一种遮挡检测方法。如图5所示，图5为本发明实施例提供的遮挡检测方法的第二种流程示意图。该方法包括以下步骤。

步骤S501，针对每一异常视频帧，将该异常视频帧划分为第一预设数量个视频帧块。

步骤S502，针对每一异常视频帧，计算该异常视频帧中每一视频帧块所对应的第一方差和第二方差，第一方差为视频帧块中所有像素点的像素值方差，第二方差为视频帧块中图像边缘像素点的像素值方差。

上述步骤S501-步骤S502与上述本步骤S401-步骤S402相同。

步骤S503，针对每一异常视频帧，从视频数据中获取该异常视频帧前第二预设数量个第二视频帧。

以第二预设数量为H进行说明。针对每一异常视频帧，边缘服务器可以从上述步骤S101所获取到的视频数据中，获取该异常视频帧前H个视频帧，该异常视频帧的前H个第二视频帧。在此，对上述第二预设数量不作具体限定。

上述步骤S503可以与上述步骤S501同时执行，也可以在上述步骤S501之前或之后执行。在此，对步骤S501和步骤S503的执行顺序不作具体限定。

步骤S504，针对每一异常视频帧，提取该异常视频帧前第二预设数量个第二视频帧的背景信息，作为该异常视频帧的背景信息。

一个可选的实施例中，边缘服务器可以根据第二预设数量个第二视频帧中各像素点的像素值，通过多次迭代的方式，对预设高斯混合模型的模型参数进行更新，从而确定出每一异常视频帧所包括的背景信息。

上述预设高斯混合模型中模型参数的更新包括对高斯分布的权重，以及高斯分布的方差的更新。

上述多次迭代后得到的高斯混合模型可以由多个高斯分布加权和的形式表示，具体可以表示为：

其中，函数P(X_t)为多次迭代后得到的高斯混合模型，K为高斯分布的数量，w_i,t为时间t时第i个高斯分布的权重，用于指示当前结果中该高斯分布的贡献，μ_i,t为时间t时第i个高斯分布的期望，∑_i,t为时间t时第i个高斯分布的协方差矩阵，函数η为高斯概率密度方程。

通过上述步骤S504，边缘服务器可以得到每一异常视频帧中各像素点所对应的高斯混合模型，从而根据每一像素点所对应的高斯混合模型中包括的权重和方差，确定出异常视频帧所对应的背景区域所在的位置，即上述背景信息。

在本发明实施例中，当第二预设数量个第二视频帧中的物体固定存在时，上述高斯混合模型中高斯分布的权重将累计增加，方差将累计减小。当第二预设数量个第二视频帧中的出现新的物体时，上述高斯混合模型中将产生一个权重较小，而方差较大的高斯分布，或者使得其匹配到的高斯分布方差变大。因此，在上述高斯混合模型中前景中像素点对应的高斯分布的方差较大，权值较小。根据这一特征，边缘服务器可以通过将异常视频帧中各像素点的像素值，与各像素点所对应的高斯混合模型中的高斯分布进行匹配，从而准确的确定出异常视频帧中属于背景的各像素点，得到异常视频帧的背景信息。

针对上述模型参数的更新，为便于理解，下面以某一异常视频帧为例进行说明。

针对该异常视频帧中的每一像素点，边缘服务器可以计算该像素点的像素值与本轮迭代时高斯混合模型中各高斯分布所对应均值之间的差值。若该差值大于预设值，则边缘服务器可以确定未匹配到高斯分布。此时，边缘服务器可以重新构造一个新的高斯混合模型，并利用该像素点的像素值更新该重新构建的高斯混合模型的模型参数。也就是删除当前高斯混合模型中权重最低的高斯分布，同时引入以当前像素值为均值，权重为较低的初始值，方差为一个较高的初始值的高斯分布，得到新的高斯混合模型。若该差值不大于预设值，则边缘服务器可以确定匹配到高斯分布，此时，边缘服务器可以根据该像素点的像素值更新高斯混合模型的模型参数。

上述预设值是根据当前高斯混合模型中的标准差所确定的，例如上述预设值可以为2.5倍的标准差。

步骤S505，针对每一异常视频帧，基于该异常视频帧的背景信息，计算该异常视频帧中前景所对应的前景像素平均值。

在本步骤中，针对每一异常视频帧，边缘服务器可以根据该异常视频帧的背景信息，可以确定该异常视频帧中属于前景的各像素点，从而根据属于前景的各像素点的像素值，计算该异常视频帧中前景所对应的前景像素平均值。

步骤S506，针对每一异常视频帧，若该异常视频帧中包括的目标视频帧块的数量大于预设数量阈值，且该异常视频帧的前景像素平均值大于预设数值阈值，则确定该异常视频帧存在遮挡现象。

在本步骤中，边缘服务器除了统计每一异常视频帧中的目标视频帧块的数量以外，还可以将每一异常视频帧的前景像素平均值与预设数值阈值进行比较。当某一异常视频帧中包括的目标视频帧块的数量大于预设数量阈值，且该异常视频帧的前景像素平均值大于预设数值阈值，则边缘服务器可以确定该异常视频帧存在遮挡现象。

步骤S507，针对每一异常视频帧，若该异常视频帧中包括的目标视频帧块的数量不大于预设数量阈值，或该异常视频帧的前景像素平均值不大于预设数值阈值，则确定该异常视频帧不存在遮挡现象。

在本步骤中，在统计每一异常视频帧包括的目标视频帧块的数量，并对每一异常视频帧的前景像素平均值和与预设数值阈值进行比较后，若某一异常视频帧中包括的目标视频帧块的数量不大于预设数量阈值，或该异常视频帧的前景像素平均值不大于预设数值阈值，则边缘服务器可以确定该异常视频帧不存在遮挡现象。

在图5所示的遮挡检测过程中，边缘服务器除了考虑目标视频帧块的数量，还综合考虑了前景像素平均值，从而排除了背景信息对遮挡检测的准确性的影响，提高了遮挡检测结果的准确性。尤其适用于对夜晚场景的遮挡检测。

一个可选的实施例中，根据图1所示的方法，本发明实施例还提供了一种行为识别方法。如图6所示，图6为本发明实施例提供的行为识别方法的第三种流程示意图。该方法包括以下步骤。

步骤S601，获取监控摄像头采集到的视频数据。

步骤S602，基于视频帧间的帧差，获取视频数据中的异常视频帧。

步骤S603，针对每一异常视频帧，对该异常视频帧进行遮挡检测，得到该异常视频帧的遮挡检测结果。

步骤S604，根据遮挡检测结果，利用预先训练好的行为识别模型，识别不存在遮挡现象的异常视频帧中出现的目标物的行为类别；行为识别模型是利用预设训练集对嵌入注意力机制和多尺度特征融合的神经网络模型进行训练得到的，预设训练集包括多种样本行为类别所对应的样本视频帧序列，以及每一样本视频帧序列所对应的样本行为类别。

上述步骤S601-步骤S604与上述步骤S101-步骤S104相同。

步骤S605，针对存在遮挡现象的异常视频帧进行告警。

一个可选的实施例中，边缘服务器可以针对存在遮挡现象的异常视频帧生成告警消息，并将该告警消息显示在边缘服务器的Web界面上。在此，对上述告警的方式不作具体限定。

在本发明实施例中，通过对存在遮挡现象的异常视频帧的告警，可以提醒用户及时发现存在遮挡现象的视频帧。

在本发明实施例中，对上述步骤S604和步骤S605的执行顺序不作具体限定。

一个可选的实施例中，根据图1所示的方法，本发明实施例还提供了一种行为识别方法。如图7所示，图7为本发明实施例提供的行为识别方法的第四种流程示意图。具体将上述步骤S104细化为以下步骤，即步骤S1041-步骤S1042。

步骤S1041，按照预设时长，对不存在遮挡现象的异常视频帧进行封装，得到多个异常视频帧序列。

在本步骤中，边缘服务器在确定每一异常视频帧的遮挡检测结果后，可以获取所有不存在遮挡现象的异常视频帧，并按照每一异常视频帧的时间顺序，对获取到的不存在遮挡现象的异常视频帧进行排序。基于排序结果，边缘服务器按照预设时长，每一预设时长内包括的多个不存在遮挡现象的异常视频帧封装为一个异常视频帧序列。

为便于理解，对上述异常视频帧序列的获得进行举例说明。

现假设不存在遮挡现象的异常视频帧的数量为10，依次为视频帧1-视频帧10。根据每一视频帧所对应的时间点，可以确定视频帧1-视频帧4在一个预设时长内，视频帧5-视频帧10在一个预设时长内。此时，边缘服务器可以将视频帧1-视频帧4封装为一个异常视频帧序列，并将视频帧5-视频帧10封装为另一个异常视频帧序列。

在本发明实施例中，由于在对不存在遮挡现象的异常视频帧进行封装之前，经过了上述步骤S302所示的采样，以及上述图4或图5所示的遮挡检测过程，因此，在对不存在遮挡现象的异常视频帧进行封装时，可能出现某一异常视频帧序列中仅包括一个异常视频帧的现象。此时，边缘服务器可以仅对该异常视频帧序列中的异常视频帧进行行为识别；也可以丢弃该异常视频帧。在此，对仅包括一个异常视频帧的异常视频序列的处理不作具体限定。

步骤S1042，针对每一异常视频帧序列，利用预先训练好的行为识别模型，识别该异常视频帧序列中出现的目标物的行为类别。

在本步骤中，边缘服务器针对每一异常视频帧序列进行行为识别，也就是分别将每一异常视频帧序列包括的异常视频帧输入预先训练好的行为识别模型，从而确定每一异常视频帧序列中出现的目标物的行为类别。

在本申请实施例中，由于目标物在进行某一行为时，所产生的行为或动作具有一个的连贯性，例如，某一人员在进行跑步时，包括跑步行为的连续多个视频帧中，人员的动作变化至少包括抬腿、脚落地、摆臂等。因此，上述步骤S1041-步骤S1042，通过对异常视频帧的封装，使得在进行行为识别时，针对封装得到的每一异常视频帧序列进行行为识别，这保证了每一异常视频帧序列包括的各异常视频帧所出现的目标物的行为连贯性，提高了识别出的行为类别的准确性。

一个可选的实施例中，上述预先训练好的行为识别模型的数量可以为多个。当上述行为识别模型为多个时，针对上述步骤S1042，即针对每一异常视频帧序列，利用预先训练好的行为识别模型，识别该异常视频帧序列中出现的目标物的行为类别，具体可以表示为：

并行地利用预先好的多个行为识别模型，识别每一异常视频帧序列中出现的目标物的行为类别。

在本发明实施例中，通过上述对不存在遮挡现象的异常视频帧进行封装，可以便于上述并行识别过程，从而提高行为识别的效率。

一个可选的实施例中，根据图1所示的方法，本发明实施例还提供了一种行为识别方法。如图8所示，图8为本发明实施例提供的行为识别方法的第五种流程示意图。该方法包括以下步骤。

步骤S801，获取监控摄像头采集到的视频数据。

步骤S802，基于视频帧间的帧差，获取视频数据中的异常视频帧。

步骤S803，针对每一异常视频帧，对该异常视频帧进行遮挡检测，得到该异常视频帧的遮挡检测结果。

步骤S804，根据遮挡检测结果，利用预先训练好的行为识别模型，识别不存在遮挡现象的异常视频帧中出现的目标物的行为类别；行为识别模型是利用预设训练集对嵌入注意力机制和多尺度特征融合的神经网络模型进行训练得到的，预设训练集包括多种样本行为类别所对应的样本视频帧序列，以及每一样本视频帧序列所对应的样本行为类别。

上述步骤S801-步骤S804与上述步骤S101-步骤S104相同。

步骤S805，按照预设行为类别与风险等级间的对应关系，确定异常视频帧中出现的目标物的行为类别所对应的风险等级。

在本步骤中，边缘服务器可以根据识别出的每一行为类别进行风险评估。也就是按照预设行为类别与风险等级间的对应关系，确定异常视频帧中出现的目标物的行为类别所对应的风险等级。

为便于理解，以上述样本行为类别包括静坐、站立、行走、挥拳、踢踹和打架这六种行为进行说明。边缘服务器中可以预先存储有每一行为类别与风险等级间的对应关系。具体如表1所示。

表1

行为类别	风险等级
		静坐	低风险
行走、站立	中低风险
		踢踹、出拳	中高风险
打架	高风险

边缘服务器在确定上述异常视频帧中出现的目标物的行为类别后，可以根据表1所示的对应关系，确定每一行为类别所对应的风险等级。例如，若识别出异常视频帧中出现的目标物的行为类别为静坐时，则边缘服务设备的风险等级为低风险。

在上述实施例中，仅以风险等级包括低风险、中低风险、中高风险和高风险为例进行的说明。除此以外，上述风险等级还可以采用数字或字母的形式表示。在此，对上述风险等级的表示方式不作具体限定。

步骤S806，对风险等级高于预设风险等级阈值的行为类别进行告警。

仍以上述表1所示的风险等级为例进行说明。边缘服务器可以对风险等级高于中低风险的行为类别进行告警。也就是对踢踹、出拳或打架的行为进行告警。

为便于理解，以上述视频数据为公交车行驶过程中的监控视频为例进行说明。当该视频数据中出现乘车人员打架或抢夺司机方向盘等高风险行为时，边缘服务器可以进行告警，例如，发出告警声音提示他人注意或者联网发送告警消息等。在此，对上述风险等级高于预设风险等级阈值的行为类别进行告警的方式不作具体限定。

通过上述对风险等级的评估以及高风险等级的行为类别的告警，可以实现事故的预警以及危险事件的监控，更好的保障社会公共安全。

一个可选的实施例中，根据图1所示的方法，本发明实施例还提供了一种行为识别方法。如图9所示，图9为本发明实施例提供的行为识别方法的第六种流程示意图。该方法包括以下步骤。

步骤S901，获取监控摄像头采集到的视频数据。

步骤S902，基于视频帧间的帧差，获取视频数据中的异常视频帧。

步骤S903，针对每一异常视频帧，对该异常视频帧进行遮挡检测，得到该异常视频帧的遮挡检测结果。

步骤S904，根据遮挡检测结果，利用预先训练好的行为识别模型，识别不存在遮挡现象的异常视频帧中出现的目标物的行为类别；行为识别模型是利用预设训练集对嵌入注意力机制和多尺度特征融合的神经网络模型进行训练得到的，预设训练集包括多种样本行为类别所对应的样本视频帧序列，以及每一样本视频帧序列所对应的样本行为类别。

上述步骤S901-步骤S904与上述步骤S101-步骤S104相同。

步骤S905，根据对异常视频帧中出现的目标物的行为类别的识别结果进行可视化展示。

一个可选的实施例中，边缘服务器可以根据上述对异常视频帧中出现的目标物的行为类别的识别结果，在Web界面进行可视化展示。

一个可选的实施例中，上述Web界面可以划分为监控摄像头列表、分屏展示、大屏展示、异常事件记录、监控风险折线图五大版块。

其中，上述监控摄像头列表板块用于展示监控摄像头设备的基本信息。例如，监控摄像头ID、监控摄像头的当前状态等信息。用户通过点击监控摄像头列表中对应监控摄像头所在的行，可以选择大屏展示的该监控摄像头的视频数据以及该监控摄像头所对应的风险折线图等。

上述分屏展示板块至少可以划分四个小屏展示区域，每一小屏展示区域可以用于展示监控摄像头的监控信息，如视频数据等。

上述大屏展示板块可以分布在Web界面的中间位置，主要用于放大展示用户选择观看的监控摄像头的监控信息。大屏展示板块所展示的监控信息比上述分屏展示板块所展示的监控信息更加丰富。

上述异常事件记录板块用于展示异常事件列表，例如，可以包括异常行为发生时间、监控摄像头的ID、异常类别、异常行为的风险级别和异常行为的详情。其中，详情可以包括对异常行为的回溯，具体的，可以以走马灯播放相关视频帧的方式展示。或者，详情还可以以弹窗形式展示。在此，对异常行为的详情的展示方式不作具体限定。

上述异常类型可以包括监控摄像头接入异常、视频帧存在遮挡现象以及目标物的行为异常。

异常事件记录板块用于在每检测出一次异常事件时，以[{时间}{设备}{异常类型}]的格式记录异常事件。其中，异常事件至少包括监控摄像头接入异常、视频帧存在遮挡现象以及目标物的行为异常。

监控风险折线图板块用于展示大屏展示包括中监控摄像头所采集到的视频数据所对应的风险指数。其中，风险指数用于指示行为类别所对应的风险等级。

在本发明实施例中，针对不同的数据类型，上述在进行可视化展示时可以采用不同的表现方式。如表2所示。

表2

数据类型	表现形式
		行为的风险指数	折线图
视频数据	视频
		监控摄像头信息	表格
异常事件记录	表格
		异常告警	弹窗

在此，对上述不同数据类型的数据进行可视化展示时所采用的表现形式不作具体限定。

在本发明实施例中，通过上述可视化展示过程可以实现对异常时间的监控以及预警，从而保证社会公共安全。

基于同一种发明构思，根据上述本发明实施例提供的行为识别方法，本发明实施例还提供了行为识别模型训练方法。如图10所示，图10为本发明实施例提供的行为识别模型训练方法的一种流程示意图。该方法包括以下步骤。

步骤S1001，获取预设训练集。

在本步骤中，边缘服务器可以获取上述预设训练集，即获取多种样本行为类别所对应的样本视频帧序列，以及每一样本视频帧序列所对应的样本行为类别。

在本发明实施例中，根据每一监控摄像头所安装的位置的不同，上述预设训练集中包括的多种样本行为类别所对应的样本视频帧序列也是不同的。

步骤S1002，利用嵌入注意力机制和多尺度特征融合的神经网络模型，识别每一样本视频帧序列中出现的目标物的行为类别，得到每一样本视频帧序列所对应的预测行为类别。

上述神经网络模型可以为MobileNetV2网络、MobileNetV1网络或MobileNetV4网络等轻量级神经网络模型。为便于理解，仅以上述神经网络模型为MobileNetV2网络为例进行说明，并不起任何限定作用。

上述MobileNetV2网络可以包括输入层、隐藏层和输出层。其中，隐藏层可以包括多尺度特征提取(Multi-scale feature Extraction，ME)模块、空间注意力机制(SpatialAttention Mechanism，SAM)模块、时间注意力机制(Temporal Attention Mechanism，TAM)模块以及加法器。为便于理解，结合图11进行说明。图11为本发明实施例提供的MobileNetV2网络的一种示意图。

通过上述输入层(图11中未示出)将上述样本视频帧序列输入MobileNetV2网络。

样本视频帧序列中的样本视频帧在隐藏层中经过多级卷积池化处理得到时空特征，表示为[N,T,C,H,W]，其中，N为批量大小。N和C分别代表时间维度和特征通道，h和W分别代表空间形状。

图11所示的ME模块1101的输入时空特征[N,T,C,H,W]，在ME模块1101的由多个多尺度卷积块堆叠而成。多尺度卷积块可以由多个不同尺度的滤波核并行组合得到，例如，多尺度卷积块可以由4种不同尺度(1×1，3×3，5×5，7×7)的滤波核并行组合而成，将多组尺度空间对应的特征图进行级联，形成多尺度特征融合池化层结构，使用残差学习方法抑制梯度爆炸和梯度弥散现象。

图11所示的SAM模块1102应用平均池化和最大池化生成特征描述符平均池化特征(savg)和最大池化特征(smax)。然后连接savg和smax并由标准卷积层卷积，生成二维空间注意图，再以残差网络的方式进行加权。

图11所示的TAM模块1103中，在每个时间维数单元的基础上，计算聚类的每个时间特征的权重。

具体的，首先是平均池化操作，然后将特征平均沿着时间维度，每个三维通道的特征压缩成一个实数，该实数在一定程度上具有全局特征信息。

其次，通过全连通神经网络计算各时间维度之间的特征关系，并通过全连通层和Softmax层生成各时间特征通道的权值。

最后进行注意力加权操作，以残差网络的形式出现，并对前一个时间特征进行按信道进行加权。

在上述处理过程中多尺度特征融合池化层融合了多个不同空间尺度的特征图，增加了网络对多尺度特征的感知能力，提高了包括相似度过高行为的视频帧的的识别率以及识别结果的准确性，并且处理过程中引入了时空特征，实现了注意力机制的嵌入，通过空间注意力机制可以对异常视频帧中目标物所在区域进行特征提取，从而将该区域特征与全局特征结合，进一步通过时间注意力机制可以对不同时刻的特征进行标定，有效降低了背景信息以及目标物运动等因素对识别结果的影响，从而提高了行为识别的准确性。

步骤S1003，根据每一样本视频帧序列对应的样本行为类别和预测行为类别，计算神经网络模型的损失值。

在本步骤中，边缘服务器可以根据每一样本视频帧序列对应的样本行为类别和预测行为类别，利用预设损失函数计算神经网络模型的损失值。其中，预设损失函数可以为平方误差损失函数或均方误差损失函数等。在此，对预设损失函数不作具体限定。

步骤S1004，若损失值大于预设损失值阈值，则调整神经网络模型的参数，并返回执行上述步骤S1002。

在本步骤中，边缘服务器可以将上述损失值与预设损失值阈值进行比较。当上述损失值大于预设损失值阈值时，边缘服务器可以确定上述神经网络模型未收敛。此时，边缘服务器可以调整神经网络模型的参数，并返回执行上述步骤S1002，即利用嵌入注意力机制和多尺度特征融合的神经网络模型，识别每一样本视频帧序列中出现的目标物的行为类别，得到每一样本视频帧序列所对应的预测行为类别的步骤。

在本发明实施例中，边缘服务器可以利用梯度下降法或反向调节方式对上述神经网络模型的参数进行调整。在此，对上述神经网络模型的参数调整方式不作具体限定。

步骤S1005，若损失值不大于预设损失值阈值，则将当前的神经网络模型确定为行为识别模型。

在本步骤中，当上述损失值不大于上述预设损失值阈值时，边缘服务器可以确定上述神经网络模型收敛。此时，边缘服务器可以将当前的神经网络模型确定为行为识别模型，即上述步骤S104中预先训练好的行为识别模型。

为便于理解，结合图12对上述本发明实施例提供的行为识别方法进行说明。图12为本发明实施例提供的边缘网络系统的系统架构的一种示意图。

在图12所示的边缘网络系统所对应的系统架构可以包括数据采集层1201、数据存储层1202、数据分析层1203、数据处理层1204以及数据可视化层1205。

上述数据采集层1201中可以包括多个监控摄像头。由每一监控摄像头采集对应监控区域内的视频数据。

上述数据存储层1202可以存储采集到的视频数据，根据行为识别结果，对视频数据进行选择性存储，如存储上述高风险行为所对应的视频帧，从而提高边缘服务器存储空间的利用率。

上述数据分析层1203可以对异常视频帧进行遮挡检测，以及识别异常视频帧中出现的目标物的行为类别。

上述数据处理层1204可以用于从获取到的视频数据中提取上述第一视频帧，以及从多个第一视频帧中提取上述异常视频帧。

上述数据可视化层1205可以根据上述行为识别结果，对视频数据和行为识别结果进行可视化展示，从而便于与用户进行实时交互，提高人机交互性。

上述数据存储层1202、数据分析层1203、数据处理层1204以及数据可视化层1205可以集成上述边缘服务器中。

基于同一种发明构思，根据上述本发明实施例提供的行为识别方法，本发明实施例还提供了一种行为识别装置。如图13所示，图13为本发明实施例提供的行为识别装置的一种结构示意图。该装置包括以下模块。

第一获取模块1301，用于获取监控摄像头采集到的视频数据；

采样模块1302，用于以预设视频帧数为采样间隔对视频数据进行采样，得到多个第一视频帧；

第一计算模块1303，用于根据每一第一视频帧的时间顺序，利用卡尔曼滤波函数计算每相邻两个第一视频帧间的预测帧差；

第一确定模块1304，用于针对每相邻的两个第一视频帧，当目标差值大于预设差值阈值时，将两个第一视频帧中的后一视频帧确定为异常视频帧，目标差值为预测帧差与两个第一视频帧间的真实帧差所对应的差值；

第一识别模块1305，用于利用预先训练好的行为识别模型，识别异常视频帧中出现的目标物的行为类别；行为识别模型是利用预设训练集对嵌入注意力机制和多尺度特征融合的神经网络模型进行训练得到的，预设训练集包括多种样本行为类别所对应的样本视频帧序列，以及每一样本视频帧序列所对应的样本行为类别。

可选的，上述行为识别装置还可以包括：

检测模块，用于在利用预先训练好的行为识别模型，识别异常视频帧中出现的目标物的行为类别之前，对每一异常视频帧进行遮挡检测，得到每一异常视频帧的遮挡检测结果；

上述第一识别模块1305，具体可以用于根据遮挡检测结果，利用预先训练好的行为识别模型，识别不存在遮挡现象的异常视频帧中出现的目标物的行为类别。

可选的，上述检测模块，还可以包括：

划分子模块，用于针对每一异常视频帧，将该异常视频帧划分为第一预设数量个视频帧块；

计算子模块，用于针对每一异常视频帧，计算该异常视频帧中每一视频帧块所对应的第一方差和第二方差，第一方差为视频帧块中所有像素点的像素值方差，第二方差为视频帧块中图像边缘像素点的像素值方差；

第一确定子模块，用于针对每一异常视频帧，若该异常视频帧中包括的目标视频帧块的数量大于预设数量阈值，则确定该异常视频帧存在遮挡现象；

第二确定子模块，用于针对每一异常视频帧，若该异常视频帧中包括的目标视频帧块的数量不大于预设数量阈值，则确定该异常视频帧不存在遮挡现象；

其中，目标视频帧块为第一方差小于第一方差阈值，且第二方差小于第二方差阈值的视频帧块。

可选的，上述行为识别装置还可以包括：

第二获取模块，用于针对每一异常视频帧，从视频数据中获取该异常视频帧前第二预设数量个第二视频帧；

提取模块，用于针对每一异常视频帧，提取该异常视频帧前第二预设数量个第二视频帧的背景信息，作为该异常视频帧的背景信息；

第二计算模块，用于针对每一异常视频帧，基于该异常视频帧的背景图像，计算该异常视频帧中前景所对应的前景像素平均值；

上述第一确定子模块，具体可以用于针对每一异常视频帧，若该异常视频帧中包括的目标视频帧块的数量大于预设数量阈值，且该异常视频帧的前景像素平均值大于预设数值阈值，则确定该异常视频帧存在遮挡现象；

上述第二确定子模块，具体可以用于针对每一异常视频帧，若该异常视频帧中包括的目标视频帧块的数量不大于预设数量阈值，或该异常视频帧的前景像素平均值不大于预设数值阈值，则确定该异常视频帧不存在遮挡现象。

可选的，上述行为识别装置还可以包括：

第一告警模块，用于针对存在遮挡现象的异常视频帧进行告警。

可选的，上述行为识别装置还可以包括：

第三获取模块，用于获取预设训练集；

第二识别模块，用于利用嵌入注意力机制和多尺度特征融合的神经网络模型，识别每一样本视频帧序列中出现的目标物的行为类别，得到每一样本视频帧序列所对应的预测行为类别；

第三计算模块，用于根据每一样本视频帧序列对应的样本行为类别和预测行为类别，计算神经网络模型的损失值；

调整模块，用于若损失值大于预设损失值阈值，则调整神经网络模型的参数，并返回调用第二识别模块执行利用嵌入注意力机制和多尺度特征融合的神经网络模型，识别每一样本视频帧序列中出现的目标物的行为类别，得到每一样本视频帧序列所对应的预测行为类别的步骤；

第二确定模块，用于若损失值不大于预设损失值阈值，则将当前的神经网络模型确定为行为识别模型。

可选的，上述边缘网络系统是基于虚拟化容器Docker技术构建的。

可选的，上述行为识别装置还可以包括：

第三确定模块，用于按照预设行为类别与风险等级间的对应关系，确定异常视频帧中出现的目标物的行为类别所对应的风险等级；

可选的，上述行为识别装置还可以包括：

第二告警模块，用于对风险等级高于预设风险等级阈值的行为类别进行告警。

可选的，上述行为识别装置还可以包括：

展示模块，用于根据对异常视频帧中出现的目标物的行为类别的识别结果进行可视化展示。

通过本发明实施例提供的装置，可以在获取到监控摄像头采集到的视频数据后，边缘服务器基于视频帧间的帧差获取得到异常视频帧，从而对每一异常视频帧进行遮挡检测，并利用预先训练好的行为识别模型，识别不存在遮挡现象的异常视频帧中出现的目标物的行为类型。通过对视频数据中异常视频帧的提取，以及每一异常视频帧的遮挡检测，减少了进行行为类型识别的视频帧的数量，也就是对视频数据中包括正常行为的视频帧以及存在遮挡现象的视频帧不进行行为类型识别的过程，有效节约了视频数据中正常行为的视频帧识别所需的计算资源。另外，在利用预先训练好的行为识别模型对不存在遮挡现象的异常视频帧中出现的目标物的行为类别进行识别时，由于该行为识别模型是利用预设训练集对嵌入注意力机制和多尺度特征融合的神经网络模型进行训练得到的，因此，在对异常视频帧中出现的目标物的行为类别进行识别时，空间注意力机制可以对异常视频帧中目标物所在区域进行特征提取，从而将该区域特征与全局特征结合，而时间注意力机制可以对不同时刻的特征进行标定，这有效降低了背景信息以及目标物运动等因素对识别结果的影响，从而提高了行为识别的准确性，并且采用的多尺度特征融合有效提高了行为识别模型对图像多尺度变化的感知能力，从而增加了行为识别模型的尺度不变性，提高了识别结果的准确性。

基于同一种发明构思，根据上述本发明实施例提供的行为识别方法，本发明实施例还提供了一种边缘服务器，如图14所示，包括处理器1401、通信接口1402、存储器1403和通信总线1404，其中，处理器1401，通信接口1402，存储器1403通过通信总线1404完成相互间的通信；

存储器1403，用于存放计算机程序；

处理器1401，用于执行存储器1403上所存放的程序时，实现如下步骤：

获取监控摄像头采集到的视频数据；

以预设视频帧数为采样间隔对视频数据进行采样，得到多个第一视频帧；

根据每一第一视频帧的时间顺序，利用卡尔曼滤波函数计算每相邻两个第一视频帧间的预测帧差；

针对每相邻的两个第一视频帧，当目标差值大于预设差值阈值时，将两个第一视频帧中的后一视频帧确定为异常视频帧，目标差值为预测帧差与两个第一视频帧间的真实帧差所对应的差值；

利用预先训练好的行为识别模型，识别异常视频帧中出现的目标物的行为类别；行为识别模型是利用预设训练集对嵌入注意力机制和多尺度特征融合的神经网络模型进行训练得到的，预设训练集包括多种样本行为类别所对应的样本视频帧序列，以及每一样本视频帧序列所对应的样本行为类别。

通过本发明实施例提供的边缘服务器，可以在获取到监控摄像头采集到的视频数据后，边缘服务器基于视频帧间的帧差获取得到异常视频帧，从而对每一异常视频帧进行遮挡检测，并利用预先训练好的行为识别模型，识别不存在遮挡现象的异常视频帧中出现的目标物的行为类型。通过对视频数据中异常视频帧的提取，以及每一异常视频帧的遮挡检测，减少了进行行为类型识别的视频帧的数量，也就是对视频数据中包括正常行为的视频帧以及存在遮挡现象的视频帧不进行行为类型识别的过程，有效节约了视频数据中正常行为的视频帧识别所需的计算资源。另外，在利用预先训练好的行为识别模型对不存在遮挡现象的异常视频帧中出现的目标物的行为类别进行识别时，由于该行为识别模型是利用预设训练集对嵌入注意力机制和多尺度特征融合的神经网络模型进行训练得到的，因此，在对异常视频帧中出现的目标物的行为类别进行识别时，空间注意力机制可以对异常视频帧中目标物所在区域进行特征提取，从而将该区域特征与全局特征结合，而时间注意力机制可以对不同时刻的特征进行标定，这有效降低了背景信息以及目标物运动等因素对识别结果的影响，从而提高了行为识别的准确性，并且采用的多尺度特征融合有效提高了行为识别模型对图像多尺度变化的感知能力，从而增加了行为识别模型的尺度不变性，提高了识别结果的准确性。

上述边缘服务器提到的通信总线可以是外设部件互连标准(PeripheralComponent Interconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述边缘服务器与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)，还可以是专用处理器，包括网络处理器(Network Processor，NP)数字信号处理器(Digital Signal Processor，DSP)等。

基于同一种发明构思，根据上述本发明实施例提供的行为识别方法，本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一行为识别方法的步骤。

基于同一种发明构思，根据上述本发明实施例提供的行为识别方法，本发明实施例还提供了一种包含指令的计算机程序，当其在计算机上运行时，使得计算机执行上述实施例中任一行为识别方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序的形式实现。所述计算机程序包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、边缘服务器、计算机可读存储介质及计算机程序等实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种行为识别方法，其特征在于，应用于边缘网络系统中的边缘服务器，所述边缘网络系统还包括监控摄像头，所述方法包括：

获取所述监控摄像头采集到的视频数据；

基于视频帧间的帧差，获取所述视频数据中的异常视频帧；

2.根据权利要求1所述的方法，其特征在于，所述基于视频帧间的帧差，获取所述视频数据中的异常视频帧的步骤，包括：

以预设视频帧数为采样间隔对所述视频数据进行采样，得到多个第一视频帧；

针对每相邻的两个第一视频帧，当目标差值大于预设差值阈值时，将所述两个第一视频帧中的后一视频帧确定为异常视频帧，所述目标差值为所述两个第一视频帧间的真实帧差与所述预测帧差间的差值。

3.根据权利要求1所述的方法，其特征在于，所述针对每一异常视频帧，对该异常视频帧进行遮挡检测，得到该异常视频帧的遮挡检测结果的步骤，包括：

针对每一异常视频帧，将该异常视频帧划分为第一预设数量个视频帧块；

针对每一异常视频帧，计算该异常视频帧中每一视频帧块所对应的第一方差和第二方差，所述第一方差为所述视频帧块中所有像素点的像素值方差，所述第二方差为所述视频帧块中图像边缘像素点的像素值方差；

针对每一异常视频帧，若该异常视频帧中包括的目标视频帧块的数量大于预设数量阈值，则确定该异常视频帧存在遮挡现象；

针对每一异常视频帧，若该异常视频帧中包括的目标视频帧块的数量不大于所述预设数量阈值，则确定该异常视频帧不存在遮挡现象；

其中，所述目标视频帧块为所述第一方差小于第一方差阈值，且所述第二方差小于第二方差阈值的视频帧块。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

针对每一异常视频帧，从所述视频数据中获取该异常视频帧前第二预设数量个第二视频帧；

针对每一异常视频帧，提取该异常视频帧前第二预设数量个第二视频帧的背景信息，作为该异常视频帧的背景信息；

针对每一异常视频帧，基于该异常视频帧的背景图像，计算该异常视频帧中前景所对应的前景像素平均值；

所述针对每一异常视频帧，若该异常视频帧中包括的目标视频帧块的数量大于预设数量阈值，则确定该异常视频帧存在遮挡现象的步骤，包括：

针对每一异常视频帧，若该异常视频帧中包括的目标视频帧块的数量大于预设数量阈值，且该异常视频帧的前景像素平均值大于预设数值阈值，则确定该异常视频帧存在遮挡现象；

所述针对每一异常视频帧，若该异常视频帧中包括的目标视频帧块的数量不大于所述预设数量阈值，则确定该异常视频帧不存在遮挡现象的步骤，包括：

针对每一异常视频帧，若该异常视频帧中包括的目标视频帧块的数量不大于所述预设数量阈值，或该异常视频帧的前景像素平均值不大于所述预设数值阈值，则确定该异常视频帧不存在遮挡现象。

5.根据权利要求1-4任一所述的方法，其特征在于，所述方法还包括：

针对存在遮挡现象的异常视频帧进行告警。

6.根据权利要求1所述的方法，其特征在于，所述根据所述遮挡检测结果，利用预先训练好的行为识别模型，识别不存在遮挡现象的异常视频帧中出现的目标物的行为类别的步骤，包括：

按照预设时长，对不存在遮挡现象的异常视频帧进行封装，得到多个异常视频帧序列；

针对每一异常视频帧序列，利用预先训练好的行为识别模型，识别该异常视频帧序列中出现的目标物的行为类别。

7.根据权利要求1所述的方法，其特征在于，采用以下步骤训练得到所述行为识别模型：

获取所述预设训练集；

利用嵌入注意力机制和多尺度特征融合的神经网络模型，识别每一样本视频帧序列中出现的目标物的行为类别，得到每一样本视频帧序列所对应的预测行为类别；

根据每一样本视频帧序列对应的样本行为类别和预测行为类别，计算所述神经网络模型的损失值；

若所述损失值大于预设损失值阈值，则调整所述神经网络模型的参数，并返回执行所述利用嵌入注意力机制和多尺度特征融合的神经网络模型，识别每一样本视频帧序列中出现的目标物的行为类别，得到每一样本视频帧序列所对应的预测行为类别的步骤；

若所述损失值不大于所述预设损失值阈值，则将当前的神经网络模型确定为所述行为识别模型。

8.根据权利要求1所述的方法，其特征在于，所述边缘网络系统是基于虚拟化容器Docker技术构建的。

9.根据权利要求1所述的方法，其特征在于，所述方法还包括：

按照预设行为类别与风险等级间的对应关系，确定所述异常视频帧中出现的目标物的行为类别所对应的风险等级；

所述方法还包括：

对所述风险等级高于预设风险等级阈值的行为类别进行告警；

所述方法还包括：

根据对异常视频帧中出现的目标物的行为类别的识别结果进行可视化展示。

10.一种行为识别装置，其特征在于，应用于边缘网络系统中的边缘服务器，所述边缘网络系统还包括监控摄像头，所述装置包括：