CN115346150A

CN115346150A - 一种基于边缘计算的暴力行为检测方法及系统

Info

Publication number: CN115346150A
Application number: CN202210845310.8A
Authority: CN
Inventors: 杨传颖; 王枭; 石宝; 敖乐根
Original assignee: Inner Mongolia University of Technology
Current assignee: Inner Mongolia University of Technology
Priority date: 2022-07-19
Filing date: 2022-07-19
Publication date: 2022-11-15

Abstract

一种基于边缘计算的暴力行为检测方法，在云端服务器构造和训练用于暴力行为检测的深度学习模型及强化学习方法；监控设备端对视频画面进行前景检测，得到感兴趣区域画面并上传至边缘端服务器，边缘端服务器进行目标检测，得到画面中存在有人区域的结果反馈至监控设备端；监控设备端判断有人区域的人数是否超过阈值，建立视频帧缓冲区并调用强化学习方法对视频帧进行关键帧筛选，将关键帧存入缓冲区，如果缓冲区满，将缓冲区中的视频帧作为一组上传至边缘服务器，边缘服务器调用深度学习模型对该组视频帧进行端到端的推理，得到该组视频帧中暴力行为存在的概率；本发明能够有效降低暴力行为检测整个流程中的计算资源耗费和网络带宽占用。

Description

一种基于边缘计算的暴力行为检测方法及系统

技术领域

本发明属于公共安全监控技术领域，特别涉及一种基于边缘计算的暴力行为检测方法及系统。

背景技术

视频监控对暴力行为的监测是其重要价值之一，当暴力行为发生时，当事人在面对强烈的外部冲击时通常无法在第一时间报警。人工值班监视的方式也难以做到全天候无死角的处理海量数据。将视频数据传入计算单元，通过计算机算法实时检测并向有关区域安保力量发出预警是更好的解决方案。

现有技术中，对于暴力行为的检测多局限于对检测方法本身的创新上，但其实际的落地部署存在诸多问题。

常见部署方案包括终端直接部署和云端汇总数据。对于终端直接部署，受限于计算资源和制造成本的限制，目前准确率较高的深度学习方法难以广泛部署于现有的监控终端中。而云端汇总数据是将算法部署于云端逐帧接收全部视频数据，但这对主干网络和云服务器造成过多非必要负载，由于暴力行为是偶发性事件，这种方式经济性较差。

发明内容

为了克服上述现有技术的缺点，本发明的目的在于提供一种基于边缘计算的暴力行为检测方法及系统，能够在设备端有效过滤视频冗余信息，保证检测精度的同时有效降低网络负载和服务器负载。

为了实现上述目的，本发明采用的技术方案是：

一种基于边缘计算的暴力行为检测方法，包括如下步骤：

步骤1：在云端服务器上构造和训练用于暴力行为检测的深度学习模型，并构造和训练强化学习方法；所述深度学习模型单次输入为一组视频帧，输出为存在暴力行为的概率；所述强化学习方法输入为逐帧视频数据，选定出一组视频帧后输入到深度学习模型中，根据预设的奖励规则迭代更新强化学习方法中的参数；

步骤2：监控设备端接收视频数据，实时读取视频数据中的视频帧；

步骤3：监控设备端利用前景检测算法对视频画面进行前景检测，根据前景区域特征进行判断，如果符合预设条件，进一步计算出感兴趣区域并进行画面裁切得到感兴趣区域画面，进入步骤4；不符合则重复步骤3；

步骤4：将感兴趣区域画面上传至边缘端服务器，边缘端服务器利用目标检测算法进行目标检测，得到画面中存在有人区域的结果反馈至监控设备端；

步骤5：监控设备端利用有人区域结果修正前景检测算法相关参数，判断有人区域的人数是否超过阈值，如超过则进入步骤6，否则返回步骤3；

步骤6：在监控设备端建立最大容量为固定帧数的视频帧缓冲区并调用强化学习方法对视频帧进行关键帧筛选，将关键帧存入缓冲区；

步骤7：判断缓冲区中视频帧的滞后性，如果滞后性大于设定阈值，则丢弃最早进入缓冲区的视频帧，如果缓冲区中视频帧数量等于缓冲区最大容量即缓冲区满，将缓冲区中的视频帧作为一组上传至边缘服务器执行步骤8；而后，按存入缓冲区的时间先后顺序丢弃设定比例数量的视频帧；在缓冲区未满状态下重复执行步骤6和步骤7；当缓冲区非满状态持续时间达到阈值，则返回步骤3，每次出现缓冲区满将重新开始记录持续时间；

步骤8：边缘服务器调用深度学习模型对该组视频帧进行端到端的推理，得到该组视频帧中暴力行为存在的概率；

步骤9：根据概率值发出预警等级和所涉及视频画面及监控设备位置。

在一个实施例中，所述深度学习模型为长短期记忆卷积神经网络，所述强化学习方法为Q学习方法，所述前景检测算法为Vibe算法，所述目标检测算法为Yolo算法。其它成熟的网络和算法也适用于本发明。

在一个实施例中，所述预设条件指画面的前景中有面积大于预设阈值的连通区域，阈值选取监控设备所处环境中可正常识别人类的画面区域面积的最小值。

在一个实施例中，所述步骤5，利用有人区域的结果，与前景检测算法结果进行对比，将前景检测算法中出现的误检测前景更新为背景，同时将各区域面积中的最小值，利用互补滤波算法更新前景连通面积阈值。

在一个实施例中，所述步骤6，通过强化学习方法对视频帧进行关键帧筛选的方法如下：

步骤61：计算待筛选帧和最后进入缓冲区的帧的帧间差异，作为强化学习方法的状态输入；

步骤62：利用状态，通过查询Q值表，得到期望收益值最大的动作，即获得最大收益的动作值，动作值为1或0，1代表选定当前待选帧为关键帧，0代表丢弃当前待选帧，Q值表由强化学习训练得到；

步骤63：按动作值执行筛选动作，保留关键帧。

在一个实施例中，所述步骤7，计算缓冲区中各视频帧产生时间与当前时间的平均距离，当该距离大于滞后性阈值时，认为数据过于滞后。

在一个实施例中，所述步骤8还包含如下子步骤：

步骤81：对单帧画面利用卷积神经网络进行特征提取得到一组特征集合；

步骤82：对该组特征利用长短期记忆网络进行时空特征提取和推理并得到最终结果。

本发明还提供了一种基于边缘计算的暴力行为检测系统，包括训练子系统、预检测子系统、边缘计算子系统；

所述训练子系统部署于云端服务器，包括数据集构建模块、数据集预处理模块、检测模型训练模块和强化学习训练模块；所述数据集构建模块将含暴力标签的视频数据集转化为可供训练的标准形式；所述数据集预处理模块对视频数据集进行预处理，并分别构建供深度学习模块训练的含暴力标签视频帧数据集合和供强化学习方法训练的含帧重要性标签的视频帧数据集合；检测模型训练模块将数据输入到深度学习模型中，通过迭代训练的方式得到可用于推理的端到端模型；所述强化学习训练模块在检测模型推理结果反馈的基础上更新自身参数得到可用于帧筛选的模型；

所述预检测子系统部署于监控设备端，包括前景检测模块、关键帧筛选模块和计算卸载模块；所述前景检测模块对视频画面进行前景检测以获取感兴趣区域画面，所述前景检测模块为最长时运行模块，仅在获得有效前景时唤醒预检测子系统的其他模块执行；所述关键帧筛选模块对视频信息中的关键信息进行提取，降低对边缘计算系统的唤醒次数；所述计算卸载模块负责在关键帧筛选模块满足预设筛选条件后将被筛选的视频帧卸载到边缘计算子系统；

所述边缘计算子系统部署于边缘计算服务器，包括视频预处理模块、目标检测模块、暴力检测模块和预警提示模块；所述视频预处理模块将卸载至边缘计算子系统的视频帧进行预处理，实现数据输入的标准化；所述目标检测模块对预检测子系统中的前景检测模块进行辅助增强，识别其发送的画面，返回画面中人的位置信息；所述暴力检测模块对将输入视频帧进行推理计算，得出暴力发生的可能性；所述预警提示模块在暴力检测模块的结果基础上推测出暴力发生的预警等级，并展示相关视频帧供用户查看。

与现有技术相比，本发明的有益效果是：有效降低暴力行为检测整个流程中的计算资源耗费和网络带宽占用。

附图说明

图1是本发明实施例的基于边缘计算的暴力行为检测方法流程图。

图2是本发明实施例的基于边缘计算的暴力行为检测系统框架图。

具体实施方式

下面结合附图和实施例详细说明本发明的实施方式。

如图1所示，本发明实施例基于边缘计算的暴力行为检测方法包含步骤 1-步骤9。

步骤1：构造和训练用于暴力行为检测的深度学习模型，并在该深度学习模型可用的基础上，构造和训练强化学习方法。

本发明中，深度学习模型和强化学习方法均在云端服务器上构造和训练。其中，深度学习模型可以为长短期记忆卷积神经网络等常规模型，其单次输入为一组视频帧，输出为存在暴力行为的概率。训练所用数据集可以是Hockey Fight、Movies和RWF-2000等公开数据集。强化学习方法可以为Q学习方法，其输入为连续的视频帧，选定出一组关键视频帧后输入到深度学习模型中，根据预设的奖励规则迭代更新强化学习方法中的参数。本实施例训练规则为 SARSA，奖励规则可以是根据在正样本上的检测结果与固定间隔筛选的方案得出的结果作对比，强化学习筛选后的结果精度超过该结果则给出正向奖励，否则给出负向奖励。本实施例固定间隔为3。

步骤2：监控设备端接收视频数据，实时读取视频数据中的每一视频帧。本实施例中，监控设备所采集视频画面大小可为1920*1080，典型帧率为 25Fps，视频编码格式为H265。

步骤3：监控设备端利用前景检测算法对视频画面进行前景检测，根据前景区域特征进行判断，如果符合预设条件，进一步计算出感兴趣区域并进行画面裁切得到感兴趣区域画面，进入步骤4；不符合则重复步骤3。

本实施例前景检测算法可采用Vibe算法等成熟算法，亦可采用其优化变种算法。具体地，对于前景连通区域进行面积统计，将连通区域面积大小进行排序，判断最大的连通区域是否超过阈值T_Area。如果超过阈值T_Area，得出所有超过连通区域的最大外接矩阵，作为感兴趣区域。其中T_Area是监控设备所处环境中可正常识别人类的画面区域面积的最小值。

步骤4：将裁切后得到的感兴趣区域画面上传至边缘端服务器，并利用目标检测算法进行目标检测，得到画面中存在有人区域的结果反馈至监控设备端。

本实施例使用Yolo算法进行目标检测，算法模型使用经过Coco等公有数据训练得到的可公开下载模型，亦可采用其他端到端的目标检测算法。利用目标检测得到得到画面中存在人的信息，包括每个人在画面中的位置参数：x,y,w,h。依次代表人的外接矩形框的左上顶点行坐标，列坐标，矩形宽和矩形高。组成一个无序序列{[x₁,y₁,w₁,h₁],[x₂,y₂,w₂,h₂],…,[x_n,y_n,w_n,h_n]}其中n为人的总个数，序列返回至监控设备端。

步骤5：监控设备端利用有人区域结果修正前景检测算法相关参数，判断有人区域的人数是否超过阈值，如超过则进入步骤6，否则返回步骤3。

同时，本步骤还可利用有人区域的结果，与前景检测算法结果进行对比，将前景检测算法中出现的误检测前景更新为背景，同时将各区域面积中的最小值，利用互补滤波算法更新前景连通面积阈值。

具体地，监控设备端变量序列得到w_i*h_i的最小值Area_min，并利用该值更新 T_Area，即更新可过滤连通区域面积的阈值。计算序列中包含的区域与步骤3 中得出区域的无交集区域，将该部分区域的像素设置为背景像素，以快速消除Vibe中的鬼影问题。统计序列中元素的数量n，如果n大于1则进入步骤 6，否则返回步骤3。

步骤6：在监控设备端建立最大容量为固定帧数的视频帧缓冲区并通过强化学习方法对视频帧进行关键帧筛选，将关键帧存入缓冲区。

具体地，本步骤中，初始化一个大小为S_buffer的缓冲区用于保存经过筛选后的视频帧，S_buffer的值等于边缘服务器进行单次检测所需视频帧数。本实施例该数值为24。之后对视频数据逐帧读取，利用强化学习对于视频帧进行筛选，被选定的帧将放入缓冲区中，方法为：

步骤61：计算待筛选帧和最后进入缓冲区的帧的帧间差异，作为强化学习方法的状态输入。帧间差异的计算方法可以为通过对画面进行16*16的网格化分割，对每个网格通过帧差法计算出像素变换比例，16*16的差异矩阵作为强化学习方法的状态输入。

步骤62：利用状态，计算获得最大收益的动作值，动作值为1或0，1代表选定当前待选帧为关键帧，0代表丢弃当前待选帧。本实施例采用的计算收益方式为Q-table方法，通过查询Q值表，得到期望收益值最大的动作，其中Q 值表由强化学习训练得到。

步骤63：按动作值执行筛选动作，筛选动作可以为丢弃或选定，由此保留关键帧。

前述步骤3提到的前景检测将与步骤6同步执行，如果不满足要求将退回到仅执行步骤3的模式。

步骤7：判断缓冲区中视频帧的滞后性，如果滞后性大于设定阈值，则丢弃最早进入缓冲区的视频帧，如果缓冲区中视频帧数量等于缓冲区最大容量即缓冲区满，将缓冲区中的视频帧作为一组上传至边缘服务器执行步骤8；而后，按存入缓冲区的时间先后顺序丢弃设定比例数量的视频帧；在缓冲区未满状态下重复执行步骤6和步骤7，当缓冲区非满状态持续时间达到阈值，则返回步骤3，每次出现缓冲区满将重新开始记录持续时间；

实例地，本步骤中，实时计算当前缓冲区中所有帧的平均获得时刻t_avg，并与当前时刻t_cur做差，得到平均滞后时间t_diff＝(t_cur-t_avg)，即缓冲区中各视频帧产生时间与当前时间的平均距离。当t_diff大于滞后性阈值T_delay时，认为数据过于滞后，将移除缓冲区中最早加入的帧。本实施例中，该阈值大小为3秒。当缓冲区内帧满时将缓冲区内的帧发送至边缘服务器并移除当前缓冲区中前 50％的帧，执行步骤8。在缓冲区未满状态下重复执行步骤6和步骤7。

步骤8：边缘服务器调用深度学习模型对接收到的视频帧进行端到端的推理，得到此组视频帧中暴力行为存在的概率。

具体地，本步骤具体包括：

步骤81：对单帧画面利用卷积神经网络进行特征提取得到一组特征集合。本实施例采用的卷积神经网络主干网络为MobileNet。

步骤82：对该组特征利用长短期记忆网络进行时空特征提取和推理并得到最终结果。本实施例具体的长短期记忆网络为卷积长短期记忆网络，网络长度为24。

步骤9：根据概率值发出预警等级和所涉及视频画面及设备位置。

同时，如图2所示，本发明还提供了一种基于边缘计算的暴力行为检测系统。系统包括模型训练子系统、预检测子系统、边缘计算子系统。

训练子系统部署于云端服务器，包括数据集构建模块、数据集预处理模块、检测模型训练模块和强化学习训练模块。数据集构建模块将不同种类的含暴力标签的视频数据集(例如RWF-2000、Movies、Hockey等)转化为可供训练的标准形式。数据集预处理模块对数据集进行缩放、镜像、平移等数据增加手段的预处理，并分别构建可供两种方法训练的集合，即供深度学习模块训练的含暴力标签视频帧数据集合和供强化学习方法训练的含帧重要性标签的视频帧数据集合。检测模型训练模块将数据输入到深度学习模型中，通过迭代训练的方式得到可用于推理的端到端模型。强化学习训练模块在检测模型推理结果反馈的基础上更新自身参数得到可用于帧筛选的模型。

预检测子系统部署于监控设备端，包括前景检测模块、关键帧筛选模块、计算卸载模块。前景检测模块执行前景检测算法功能，其作为最长时运行模块，以低资源耗费的运行特性，保证在无前景情况下整个系统的低功耗运行。同时在获得有效前景时唤醒本子系统的其他模块执行。关键帧筛选模块对视频信息中的关键信息进行提取，降低对于边缘计算系统的唤醒次数，缓解网络带宽压力。计算卸载模块负责在关键帧筛选模块满足预设筛选条件后将被筛选的视频数据卸载到边缘计算子系统。

部署于边缘计算服务器，包括视频预处理模块、目标检测模块、暴力检测模块和预警提示模块。视频预测模块将卸载至边缘计算子系统的视频数据进行预处理，实现数据输入的标准化，满足暴力检测模块的需求。目标检测模块负责对预检测子系统中的前景检测模块进行辅助增强工作，识别其发送的画面，返回画面中人的位置信息。暴力检测模块对将输入视频数据进行推理计算，得出暴力发生的可能性。预警提示模块在暴力检测模块的结果基础上推测出暴力发生的预警等级，并展示相关视频数据供用户查看。

本实施例中，将预警等级分为无预警、二级预警和一级预警，无预警对应概率结果范围为0-0.3，二级预警为0.3-0.6，一级预警为0.6-1，并且概率结果需经过滑动滤波处理。

在典型的公共区域监控场景下，部署可分为三个层级，单监控设备，即单个监控摄像头，负责处理其自身产生画面；子监控中心，由物理空间上距离较近的若干监控设备和一个边缘服务器组成，负责处理所有与之连接的监控设备，以学校为例，可在图书馆、食堂等区域分别部署子监控中心；总监控中心，由云服务器或大型本地服务器组成，负责处理该部署单位内全部子监控中心。以学校为例，部署至少一个总监控中心。

单监控设备以ARM架构的CPU作为计算单元，计算资源在三个层级的设备中最为匮乏，成本最低。利用其运行计算资源需求较低的预检测子系统，可实现对无人场景、低信息密度场景视频帧的过滤，避免将这类视频帧传输到边缘服务器，并运行高计算资源耗费的算法对其进行推理计算。通过监控设备端较小的计算资源耗费，节约整体的算力需求，同时由于过滤掉的是无暴力场景，不会对最终结果造成精度影响。

子监控中心中的边缘服务器以低功耗GPU作为计算单元，行业典型产品为英伟达Jetson系列，计算资源和成本居中。其拥有可以支撑暴力检测模型的推理计算的计算资源，其接收负责区域内监控设备上传的待检测视频关键帧，并进行检测。基于深度神经网络的暴力检测是目前技术方案中能够实现检测精度最高的一种方案，系统最终的输出的结果精度可以保证为目前先进水平。多对一的部署结合对视频帧非全量非全时段进行计算，实现整体部署成本的降低。

总监控中心，负责收集所负责子监控中心预警信息，并通过预设的快速渠道如展示大屏幕、电话或短信等将预警信息转发至用户。同时负责运行运行训练子系统，利用具有高算力资源的GPU集群等，对部署过程中所使用的模型进行相对快速的训练，并分发部署所负责区域内的各个设备。

Claims

1.一种基于边缘计算的暴力行为检测方法，其特征在于，包括如下步骤：

2.根据权利要求1所述基于边缘计算的暴力行为检测方法及系统，其特征在于，所述深度学习模型为长短期记忆卷积神经网络。

3.根据权利要求1所述基于边缘计算的暴力行为检测方法及系统，其特征在于，所述强化学习方法为Q学习方法。

4.根据权利要求1所述基于边缘计算的暴力行为检测方法及系统，其特征在于，所述步骤3，前景检测算法为Vibe算法；所述预设条件指画面的前景中有面积大于预设阈值的连通区域，阈值选取监控设备所处环境中可正常识别人类的画面区域面积的最小值。

5.根据权利要求1所述基于边缘计算的暴力行为检测方法及系统，其特征在于，所述步骤4，目标检测算法为Yolo算法。

6.根据权利要求1所述基于边缘计算的暴力行为检测方法及系统，其特征在于，所述步骤5，利用有人区域的结果，与前景检测算法结果进行对比，将前景检测算法中出现的误检测前景更新为背景，同时将各区域面积中的最小值，利用互补滤波算法更新前景连通面积阈值。

7.根据权利要求1所述基于边缘计算的暴力行为检测方法及系统，其特征在于，所述步骤6，通过强化学习方法对视频帧进行关键帧筛选的方法如下：

步骤63：按动作值执行筛选动作，保留关键帧。

8.根据权利要求1所述基于边缘计算的暴力行为检测方法及系统，其特征在于，所述步骤7，计算缓冲区中各视频帧产生时间与当前时间的平均距离，当该距离大于滞后性阈值时，认为数据过于滞后。

9.根据权利要求1所述基于边缘计算的暴力行为检测方法及系统，其特征在于，所述步骤8还包含如下子步骤：

10.一种基于边缘计算的暴力行为检测系统，其特征在于，包括训练子系统、预检测子系统、边缘计算子系统；