CN114926781A

CN114926781A - 支持实时监控场景的多人时空域异常行为定位方法及系统

Info

Publication number: CN114926781A
Application number: CN202210591125.0A
Authority: CN
Inventors: 闫丹凤; 蔡院强; 傅威; 陈梦实; 曾昊楠; 郭熙东; 赵岳
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2022-05-27
Filing date: 2022-05-27
Publication date: 2022-08-19

Abstract

本发明公开了一种支持实时监控场景的多人时空域异常行为定位方法及系统，方法包括步骤：利用采集设备捕获实时监控的视频帧；分别对缓存的视频帧进行多目标检测与跟踪以及基于2D运动建模的行为识别，得到人物目标框和行为置信度图；使用多主体行为匹配算法对每个人物目标框求出对应的行为置信度，并选择置信度最高的行为作为该人的行为；使用异常风险评估算法对行为本身包含的风险因素进行评分。系统包括模块：数据接收模块、数据持久化模块、异常行为检测模块和业务处理模块等。本发明的多人时空域异常行为定位方法及系统能够并行完成多目标检测与跟踪和行为识别过程，以高准确性、低时延地完成多人异常行为定位，极大地提高了异常检测效率。

Description

支持实时监控场景的多人时空域异常行为定位方法及系统

技术领域

本发明涉及图像与视频处理技术领域，尤其涉及一种支持实时监控场景的多人时空域异常行为定位方法及系统。

背景技术

为保障社会公共安全秩序的稳定，我国提出了“智慧城市”、“平安城市”等概念，部署了大量的视频监控摄像头，构建城市智能监控管理系统。然而，随着城市人口的不断膨胀，以及城市规模的不断扩张，城市监控系统每天都会产出海量的监控视频，包括室内监控和室外监控。室外场景主要针对的对象是来往的人群，可用于防贼防盗或外部环境监视，如房子外、马路上等。也有很大一部分监控拍摄的是室内场景，包括公交车、办公室、商店、房子等，主要针对室内人员进行监控，在家用领域可对家中老人和小孩进行实时看护，在安防领域也能时刻监控被监管人员。

然而，目前对这些实时监控的监视方法仍然以人力检查为主，这种方式十分依赖监视者的经验，耗费了大量的人力和财力。监视者往往需要长时间地监视多个监控，易造成误检和漏检，检查效率十分低下。

近年来，随着人工智能的发展和进步，一种融合计算机视觉技术的智能监控系统流行起来，通过深度学习算法对监控视频进行行为识别，再与预先设定好的异常行为类别进行匹配，一旦识别出异常行为则立即向监管人员发起预警。这种算法辅助的方式可以在一定程度上缓解监管人员的压力，并防止发生漏检的情况，但现有的基于异常行为识别的系统往往只能识别出单人异常和群体异常，且无法确定异常发生的空间位置，在多人场景中难以适用。因此，如何在多人监控场景中实现智能的人员级异常行为检测成为安防监控领域的一大挑战。

时空动作定位技术可以有效地完成多人行为定位任务，它将行为识别和多目标检测与跟踪这两种领域的算法模型进行了有机的融合，可以判定视频中每个人出现的位置和对应的行为类别。

现有的时空动作定位算法主要分为双阶段算法和端到端算法这两种。双阶段的算法先预测出目标的候选框，然后再对框中的目标进行行为识别，这种方法由于检测和识别串行进行，实时性较差；端到端的算法使用多个分支同时进行检测和识别任务，虽然减少了计算量，但是算法对于运动信息的建模过于粗糙，导致准确性不如双阶段算法。综上，时空动作定位方法的准确性和实时性能均未达到可用的水平，在多人场景的人员异常行为检测中难以表现出良好的效果。

发明内容

本发明针对安防监控领域存在的无法有效进行多人行为定位、异常检测准确率低、系统实时性不足的问题，提出一种支持实时监控场景的多人时空域异常行为定位方法及系统，是针对安防领域应用，结合计算机视觉技术的创新方法及系统，利用行为识别技术和多目标检测与跟踪技术，提供多人场景下的实时的人员定位跟踪和异常行为识别服务。

为了实现上述目的，本发明提供如下技术方案：

一方面，本发明提供的一种支持实时监控场景的多人时空域异常行为定位方法，包括以下步骤：

S1：利用采集设备捕获实时监控的视频帧；

S2：分别对缓存的视频帧进行多目标检测与跟踪以及基于2D运动建模的行为识别，得到人物目标框和行为置信度图；

S3：使用多主体行为匹配算法对每个人物目标框求出对应的行为置信度，并选择置信度最高的行为作为该人的行为；

S4：使用异常风险评估算法对行为本身包含的风险因素进行评分。

进一步地，步骤S2中多目标检测与跟踪算法分别选择YOLOv5和DeepSort，YOLOv5用于检测出最新视频帧中出现的所有人员的目标框，包括左上角横纵坐标和宽高，DeepSort用于对检测到的目标框进行人员轨迹关联，并赋以轨迹ID。

进一步地，基于2D运动建模的行为识别算法网络结构包括骨架网络、运动建模模块和预测模块，行为识别算法流程为：

S21：输入：K帧视频片段，每帧图像尺寸为3×H×W，分别表示通道数、高和宽；

S22：骨架网络：选用DLA-34网络分别对K帧图像提取基础特征，得到

的特征图，其中C1为特征通道数，R为图像下采样比例；

S23：运动建模模块：将提取出的K帧特征图送入运动建模模块，该模块使用1×1的1D卷积先减小通道数以减少运动建模的计算量，再还原通道数保持前后一致，并以残差的形式补充运动建模信息，连续进行三次运动建模保证得到充分的运动信息；在每个运动建模单元中，先使用3×3的2D卷积对下一帧的特征进行移位修正，然后使用当前帧的特征与移位后的下一帧特征相减，最后将结果拼接起来，补充一个全0的特征图保持时间维度的一致性；

S24：预测模块：得到空间特征和运动特征后，算法通过预测模块对时空信息进行融合并预测行为置信度；预测模块首先调换特征图中的时间和通道维度，然后逐通道地进行3×3的2D卷积，每次卷积都会使用所有帧在3x3范围内的特征值进行运算，达到融合时空信息的效果，最终经过1×的卷积得到每个行为类别的置信度图；

S25：输出：

的行为置信度图，其中C为行为类别数，H和W分别为视频帧的高和宽。

进一步地，K＝9，H＝244，W＝244，C1＝1024，R＝4，C＝30。

进一步地，步骤S3中针对每个人物目标框box＝(x_left，y_top，w，h)，多主体行为匹配算法的流程如下：

S31：行为识别算法输出

的行为置信度热力图，经过双线性插值将该图转化为C×H×W尺寸的热力图，对于热力图上的点(x，y)而言，行为类别为c的概率为P_(c，xy)；

S32：根据公式(2)计算目标框的二维高斯分布在整个热力图上的行为置信度F(box，x，y)，其中，

然后，根据公式(3)对目标框内所有点对应的行为置信度进行归一化得到所有点的置信权重，对目标框内的点(x，y)而言，W(box，x，y)即该点的置信权重；

S33：根据公式(4)，使用步骤S32生成的置信权重对目标框内所有点的置信度预测值进行加权计算，得到目标框对每个行为类别的综合置信度：

S34：根据公式(5)，选择置信度最大的行为作为目标框的预测行为：

进一步地，步骤S31中双线性插值的方法为：根据近邻像素值将3×3的蓝色像素扩展为5×5的绿色像素，即给定四个近邻的蓝色像素值Q₁₁、Q₁₂、Q₂₁、Q₂₂，使用双线性插值算法求中间的绿色像素值P。

进一步地，中间的绿色像素值P求解过程为：根据Q₁₁和Q₂₁的值使用线性插值算法求R₁的像素值，根据Q₁₂和Q₂₂的值使用线性插值算法求R₂的像素值，最后根据R₁和R₂的值使用线性插值算法求P的像素值。

进一步地，步骤S4中异常风险评估算法流程如下：

S41：预先定义行为词典、风险行为模板，行为词典将室内监控场景下的常见行为按照交互方式划分，风险行为模板将不同行为划分为不同风险等级；

S42：针对每个人的行为识别历史结果，分别进行风险行为模板匹配，得到每个人的风险评估结果；

S43：根据风险评估结果进行判定是否发生异常。

进一步地，为进一步提高异常行为定位的实时性，本发明提出只对关键帧和运动帧进行时空域异常行为定位，并采用多进程实现异步的实时异常行为定位，具体步骤如下：

S1：启动视频流读取进程、结果视频流推送进程、多目标检测与跟踪进程、运动轨迹预测进程、行为识别进程；

S2：多目标检测与跟踪进程、运动轨迹预测进程、行为识别进程进入循环等待；视频流读取进程不断读取实时视频流，并进行处理；结果视频流推送进程循环读取带行为定位结果的视频帧，并进行推送；

S2：视频流读取进程读取最新视频帧，并送入关键帧判定算法中判定是否关键帧或运动帧；

S3：如果是关键帧则触发多目标检测与跟踪进程，如果不是关键帧则触发运动轨迹预测进程；如果是运动帧则触发行为识别进程；

S4：多目标检测与跟踪进程预测出最新视频帧的人物目标框和轨迹ID；运动轨迹预测进程预测最新帧的轨迹ID；行为识别进程预测出最近帧序列的行为置信度图；

S5：根据目标框、轨迹ID和行为置信度图进行多主体行为匹配和风险评估，并将行为定位结果绘制到最新帧上；

S6：结果视频流推送进程将带有行为定位结果的最新视频帧循环推送至RTSP流媒体服务器。

另一方面，本发明还提供了一种支持实时监控场景的多人时空域异常行为定位系统，包括以下模块，以实现上述的方法步骤：

数据接收模块：该模块用于捕获网络监控摄像头推送的RTSP视频流，实时获取视频流的最新帧图像，将其存储至数据持久化模块，同时缓存最近帧序列，并发送至异常行为检测模块；

异常行为检测模块：作为系统核心模块，该模块用于完成多人定位与跟踪、行为识别和风险评估功能，从数据接收模块获取最近帧序列，进行时空域异常行为定位，得到行为定位记录和风险评估结果后将其存储至数据持久化模块，并将定位结果绘制到最新帧图像上；

数据持久化模块：该模块用于存储包括监控摄像头的视频流数据、系统日志记录、行为定位记录和风险评估结果的结构化数据；

业务处理模块：该模块用于将带有行为定位信息的图像帧推送为视频流，并对已处理数据经过分析后封装为接口函数以供调用；

系统可视化模块：该模块用于展示多人时空域异常行为定位系统的界面，包括带有行为定位结果的实时监控、统计数据和异常报警。

与现有技术相比，本发明的有益效果为：

1.本发明提出了一种创新的时空域异常行为定位算法用于人员行为定位和风险评估，相比于传统的时空动作定位技术，该算法可以并行完成多目标检测与跟踪和行为识别过程，以高准确性、低时延地完成多人异常行为定位，极大地提高了异常检测效率。

2.本发明提出的基于2D运动建模的行为识别算法和多主体行为匹配算法为多人行为识别场景提供了新的思路，行为识别算法会推断出当前帧的行为置信度热力图，而多主体行为匹配算法则对人员所在区域进行高斯加权计算得到综合置信度，进而识别出最终行为。除此之外，本发明提出的2D运动建模模块可以高效地对视频片段中人物的运动信息进行建模，提升行为识别算法整体性能。

3.本发明提出了一种基于关键帧判定和多进程的异步异常行为定位方法，该方法可以并行处理多个监控视频流，充分利用计算机资源，并且极大地提高了时空域异常行为定位算法的运行效率。

4.本发明提出了一种支持实时监控场景的多人时空域异常行为定位系统，该系统实现了带行为定位结果的监控视频流的可视化，支持实时风险评估和结果展示，可以有效地辅助监管人员快速定位到监控中发生的异常。

综上，本发明提供的实时的多人异常行为定位方法，将原始任务拆解为目标检测、多目标跟踪、行为识别、多主体行为匹配和异常风险评估等多个子任务进行求解，各个算法模块相对独立，可以较好地保证各任务的准确性。同时，本申请设计了一种基于2D运动建模的行为识别算法，用于提升行为识别效果。对于所提时空域异常行为定位方法，本申请设计了一种基于关键帧判定和多进程的异步实现方式，同时完成人员定位跟踪和行为识别任务，进一步提高实时性。此外，本申请还构建了对应的多人异常行为定位系统，该系统能够采集、处理和分析多个监控视频流，对视频中出现的每个人进行定位跟踪、行为识别和风险评估，并能高效地进行中高风险预警，将行为定位结果实时展示到监控界面上，从多个角度对当前所有监控进行信息汇总与实时风险可视化，可为监管人员提供准确且快速的异常告警信息，从而减少人力和时间成本，提高异常行为检测效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的支持实时监控场景的多人时空域异常行为定位方法流程图；

图2为本发明实施例提供的基于2D运动建模的行为识别网络结构图；

图3为本发明实施例提供的双线性插值进行图像上采样示例图；

图4为本发明实施例提供的多人时空域异常行为定位系统功能模块图；

图5为本发明实施例提供的基于关键帧判定和多进程的异步异常行为定位设计图；

图6为本发明实施例提供的业务处理模块运行图；

图7为本发明实施例提供的多人时空域异常行为定位系统用户端效果图；

图8为本发明实施例提供的多人时空域异常行为定位系统架构图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提出了一种支持实时监控场景的多人时空域异常行为定位方法，如图1所示，具体步骤如下：

S1：利用采集设备捕获实时监控的视频帧；

下面针对该算法中的多目标检测与跟踪、基于2D运动建模的行为识别、多主体行为匹配算法、异常风险评估算法进行详细阐述。

1.多目标检测与跟踪算法

通过对现有的多目标检测与跟踪技术进行调研和比较，本实施例选择目前在工业界应用较广且性能较优的YOLOv5和DeepSort分别作为目标检测和多目标跟踪算法。YOLOv5用于检测出最新视频帧中出现的所有人员的目标框，包括左上角横纵坐标和宽高。DeepSort用于对检测到的目标框进行人员轨迹关联，并赋以轨迹ID。

2.基于2D运动建模的行为识别算法

基于2D运动建模的行为识别算法网络结构如图2所示，主要包括骨架网络、运动建模模块、预测模块等部分，下面对该算法处理视频片段过程进行详细阐述：

(1)输入：K帧视频片段，每帧图像尺寸为3×H×W，分别表示通道数、高和宽。

(2)骨架网络：选用DLA-34网络分别对K帧图像提取基础特征，得到

的特征图，其中C1为特征通道数，R为图像下采样比例。

(3)运动建模模块：将提取出的K帧特征图送入运动建模模块，该模块使用1×1的1D卷积先减小通道数以减少运动建模的计算量，再还原通道数保持前后一致，并以残差的形式补充运动建模信息，连续进行三次运动建模保证得到充分的运动信息。在每个运动建模单元中，考虑到下一帧可能会产生运动移位，因此先使用3×3的2D卷积对下一帧的特征进行移位修正，然后使用当前帧的特征与移位后的下一帧特征相减，最后将结果拼接起来，补充一个全0的特征图保持时间维度的一致性。

(4)预测模块：得到空间特征和运动特征后，算法通过预测模块对时空信息进行融合并预测行为置信度。预测模块首先调换特征图中的时间和通道维度，然后逐通道地进行3×3的2D卷积，每次卷积都会使用所有帧在3x3范围内的特征值进行运算，达到融合时空信息的效果，最终经过1×的卷积得到每个行为类别的置信度图。

(5)输出：

其中，K＝9，H＝244，W＝244，C1＝1024，R＝4，C＝30。

3.多主体行为匹配算法

多主体行为匹配算法旨在对多目标检测与跟踪算法生成的每个目标框，计算各个行为类别的综合置信度，进而得到每个人的最终预测行为。针对预测得到的目标框box＝(x_left，y_top，w，h)，行为匹配的流程如下：

(1)行为识别算法输出

的行为置信度热力图，经过双线性插值将该图转化为C×H×W尺寸的热力图。对于热力图上的点(x，y)而言，行为类别为c的概率为P_(c，xy)。

双线性插值进行图像上采样的示例如图3所示，需要根据近邻像素值将3×3的蓝色像素扩展为5×5的绿色像素，即给定四个近邻的蓝色像素值Q₁₁、Q₁₂、Q₂₁、Q₂₂，使用双线性插值算法求中间的绿色像素值P。具体求解过程为：根据Q₁₁和Q₂₁的值使用线性插值算法求R₁的像素值，根据Q₁₂和Q₂₂的值使用线性插值算法求R₂的像素值，最后根据R₁和R₂的值使用线性插值算法求P的像素值。

因此问题转化为线性插值问题：根据两点的值，求两点之间线段上任一点的值。以根据Q₁₁(x₁，y₁)和Q₂₁(x₂，y₁)求R₁(x，y₁)为例，三者纵坐标相同，所以只需要对横坐标按照线段比例计算即可，如公式(1)所示。

(2)使用公式(2)计算目标框的二维高斯分布在整个热力图上的行为置信度，其中，

然后，对目标框内所有点对应的行为置信度进行归一化得到所有点的置信权重。

如公式(8-3)，对目标框内的点(x，y)而言，W(box，x，y)即该点的置信权重。

(3)如公式(4)，使用公式(3)生成的置信权重对目标框内所有点的置信度预测值进行加权计算，得到目标框对每个行为类别的综合置信度。

(4)最后，如公式(5)，选择置信度最大的行为作为目标框的预测行为。

4.异常风险评估算法

基于行为模板匹配的异常风险评估算法流程如下：

(1)预先定义行为词典、风险行为模板；

(2)然后针对每个人的行为识别历史结果，分别进行风险行为模板匹配，得到每个人的风险评估结果；

(3)根据风险评估结果进行判定是否发生异常。

如表1，行为词典将室内监控场景下的常见行为按照交互方式共分为3大类30小类，分别是10种人与人交互的行为、8种人与物交互的行为、12种单人行为。然后，如表2，风险行为模板将不同行为划分为不同风险等级，包括高风险行为、中风险行为、低风险行为。异常风险评估算法基于风险行为模板工作，可以简洁高效地实现风险评估和异常告警。尽管可识别的异常局限在风险行为模板中，但是该模块相对独立，可以在后续使用的过程中不断完善模板，尽可能地覆盖室内场景下常见的中高风险行为。

表1行为词典

表2风险行为模板

本发明还提供了一种实时的多人异常行为定位系统，以实现上述的方法步骤，功能模块关系如图4所示，整个系统的软件部分被划分为以下五个模块：数据接收模块、数据持久化模块、异常行为检测模块、业务处理模块、系统可视化模块。其中，系统最关键的多人异常行为定位功能的异步多进程实现如图5所示，包含六个进程：视频流读取进程、多目标检测与跟踪进程、运动轨迹预测进程、行为识别进程、结果视频流推送进程、视频流保存进程。这些进程一般属于不同的功能模块，下面将对这些功能模块的具体实现进行详细阐述：

1.数据接收模块：该模块用于捕获网络监控摄像头推送的RTSP视频流，实时获取视频流的最新帧图像，将其存储至数据持久化模块，同时缓存最近帧序列，并发送至异常行为检测模块；

该模块主要用于读取监控摄像头视频流传输的实时图像帧，包含视频流读取进程。具体步骤如下：

(1)使用Python的OpenCV库初始化监控摄像头的RTSP视频流；

(2)使用Python的OpenCV库读取视频流中的最新帧图像；

(3)将最新帧送入视频流保存进程，同时送入该监控对象的关键帧提取算法中，得到运动信息后，分别进行(4)(5)两次判定；

(4)判定当前帧运动信息是否超出阈值，如果超出阈值则为关键帧，送入多目标检测与跟踪进程中，否则送入运动轨迹预测进程中；

(5)判定运动信息累积是否超出阈值，如果超过阈值则为运动帧，送入行为识别进程中；

(6)重复(2)至(5)。

2.异常行为检测模块：作为系统核心模块，该模块用于完成多人定位与跟踪、行为识别和风险评估功能，从数据接收模块获取最近帧序列，进行时空域异常行为定位，得到行为定位记录和风险评估结果后将其存储至数据持久化模块，并将定位结果绘制到最新帧图像上。

异常行为检测模块包含多目标检测与跟踪进程、运动轨迹预测进程、行为识别进程。下面对该模块的具体实现进行阐述：

1)多目标检测与跟踪进程以异步的方式获取视频最新帧并进行检测与跟踪，具体实现步骤如下：

(1)多目标检测与跟踪进程会等待队列任务，监控视频流读取进程会触发队列任务；

(2)从监控类对象中取出最新帧图像；

(3)将当前帧图像送入YOLOv5算法中进行目标检测，得到当前帧中所有人员位置信息即目标框，包括左上角横纵坐标、宽和高；

(4)将所有人员位置信息以及当前帧图像送入DeepSort多目标跟踪器中，得到人员位置和轨迹信息，并将该结果更新至监控对象；

(5)根据监控对象新的人员位置和轨迹信息重新进行行为定位和风险评估。

2)运动轨迹预测进程使用DeepSort算法中的卡尔曼滤波模块直接进行运动轨迹的预测，在运动不显著即非关键帧的时候比较适用，具体步骤如下：

(1)运动轨迹预测进程会等待队列任务，监控视频流读取进程会触发队列任务；

(2)使用DeepSort多目标跟踪器直接进行卡尔曼滤波运动轨迹预测，计算得到新的人员位置和轨迹信息，并将该结果更新至监控对象；

(3)根据监控对象新的人员位置和轨迹信息重新进行行为定位和风险评估。

3)行为识别进程使用本发明提出的基于2D运动建模的行为识别算法计算当前行为热力图，具体过程如下：

(1)行为识别进程会等待队列任务，监控视频流读取进程会触发队列任务；

(2)从监控类对象中取出最近视频帧序列；

(3)将取得的片段送入共用的行为识别算法模型中，得到各类行为的置信度热力图，并将该结果更新至监控对象；

(4)根据监控对象新的行为热力图信息重新进行行为定位和风险评估。

4)行为定位和风险评估函数：在多目标检测与跟踪进程、运动轨迹预测进程、行为识别进程中，最后都需要使用最新的定位跟踪和行为识别结果，重新进行行为定位与风险评估。具体步骤如下：

(1)从监控对象中取出当前的行为热力图和人员位置轨迹，并对其进行行为匹配；

(2)对每个人的行为进行风险评估，将行为定位和风险评估结果保存至数据库中，并更新监控对象；

(3)将行为定位结果绘制到当前帧上，并将带有行为定位结果的视频帧更新至监控对象。

3.数据持久化模块：该模块用于存储监控摄像头的视频流数据、系统日志记录、行为定位记录和风险评估结果等结构化数据；该模块主要包括文件系统和MySQL数据库两部分。其中，视频流保存进程将历史监控视频流存储至文件系统，行为定位结果、风险评估结果和系统日志记录等结构化数据被保存至MySQL数据库。

4.业务处理模块：该模块用于将带有行为定位信息的图像帧推送为视频流，并对已处理的数据经过分析后封装为接口函数以供调用；业务处理模块主要用于系统应用功能实现和对外接口封装。如图6，该模块从数据持久化模块和异常行为检测模块获取相关数据，对其进行分析，最后封装为接口形式提供给系统可视化模块。

该模块主要包括四大功能：获取所有监控信息、获取最近监测数据、获取历史异常、带有行为定位结果的视频流推送。其中前三个功能通过读取数据库，进行简单处理后封装为API接口以供调用，最后一个功能由结果视频流推送进程实现。结果视频流推送子进程首先启动RTSP服务器，使用ffmpeg命令对RTSP视频流进行初始化，并建立输入管道，然后循环读取监控对象中带有行为定位结果的最新帧，将其写入管道进行推送。

5.系统可视化模块：该模块用于展示多人时空域异常行为定位系统的界面，包括带有行为定位结果的实时监控、统计数据和异常报警。

系统可视化模块的主要界面如图7所示，主要包括以下功能：

(1)带有行为定位信息的实时监控：在完成监控系统基本功能的基础上，将带有人员目标框、轨迹ID、行为类别的视频流实时展示到前端；

(2)实时人员行为定位信息表：将所有监控中出现的所有被监管人员的行为识别结果及其风险等级以表格的形式展示出来，方便监管人员迅速获得被监管人员的行为状态；

(3)历史异常信息：将发生过的中高风险事件作为异常以表格的形式展现出来，包括异常的发生时间和起因等，可辅助监管人员进行异常分析；

(4)各监控风险统计：对每个监控摄像头的实时风险评估结果进行统计，按照低中高风险对人员进行计数，最后以柱状图的形式进行展示，可提示监管人员将注意力主要放在中高风险较多的监控上；

(5)实时统计信息：对整个系统的实时监控信息进行汇总，包括当前总人员、当前中高风险总数等，使得监管人员可以从宏观上把控整体风险情况。

(6)本模块还具有异常告警的功能，当发生新的异常时，系统前端会弹出弹窗进行提示，向监管人员展示详细的异常人员信息。

本发明提供了一种实时的多人异常行为定位方法及系统，该系统实现对监控中出现的多个人员同时进行定位跟踪、行为识别和风险评估，将行为定位结果进行实时可视化，并对异常行为进行告警提示。

本发明提供的一种实时的多人异常行为定位系统架构如图8所示，为了满足多监控扩展的需求，并降低系统的耦合程度，本发明将所提供的实时多人异常行为定位系统划分为三层架构：设备层、服务层和展示层。其中，服务层的多个服务器之间以异步的方式分工协作，极大地提高了系统的整体实时性。下面对其进行详细阐述：

(1)设备层采集室内实时监控视频流，通过RTSP协议推送至服务层。

(2)服务层主要包括数据服务器、流媒体服务器、业务处理服务器和计算服务器。数据服务器主要用于存储系统所需的数据，包括MySQL数据库和文件系统；流媒体服务器主要用于推送带有行为定位结果的视频流，使用Nginx技术实现；计算服务器上部署有Python版本的时空域异常行为定位算法，主要基于Pytorch和OpenCV框架实现，用于对视频流进行人员定位跟踪、行为识别和风险评估；业务处理服务器主要使用SpringBoot实现，实现系统的应用功能并封装为API接口供前端调用。

针对服务层的计算服务器，本发明提供了一种新型的时空域异常行为定位算法，如前所述，该算法首先并行进行多目标检测与跟踪和行为识别，得到人员定位信息和行为置信度图后，再对检测到的人员进行行为匹配和风险评估。对于多人场景的异常行为检测而言，该算法在计算方式上具有创新性，极大提升了异常检测效率。

针对时空域异常行为定位算法的行为识别部分，本发明提供了一种基于2D运动建模的行为识别算法，如前所述，该算法引入一种新的网络模块实现运动信息的提取，并针对特征图的每个位置都进行识别，最终输出行为置信度图。该算法有效解决了关键运动信息提取低效的问题，在预测方式上具有创新性，可为多人行为识别场景提供数据支持。

(3)展示层即系统可视化前端，主要基于Vue框架实现，用于向监管人员展示室内场景的实时监测状态，并辅助分析被监管人员的行为状态。

在上述实时的多人异常行为定位系统中，为进一步提高异常行为定位的实时性，本发明还提出了只对关键帧和运动帧进行时空域异常行为定位方法，针对每个监控，采用多进程实现异步的实时异常行为定位，分别执行不同任务，包括读取视频流、进行多目标检测与跟踪、进行运动轨迹预测、进行行为识别、推送结果视频流等。该方法可并行处理多个监控视频流，充分利用计算机资源，极大地提升了多人异常行为定位的实时性能。

具体步骤如下：

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例、电子设备实施例、计算机可读存储介质实施例和计算机程序产品实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特殊进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种支持实时监控场景的多人时空域异常行为定位方法，其特征在于，包括以下步骤：

S1：利用采集设备捕获实时监控的视频帧；

2.根据权利要求1所述的支持实时监控场景的多人时空域异常行为定位方法，其特征在于，步骤S2中多目标检测与跟踪算法分别选择YOLOv5和DeepSort，YOLOv5用于检测出最新视频帧中出现的所有人员的目标框，包括左上角横纵坐标和宽高，DeepSort用于对检测到的目标框进行人员轨迹关联，并赋以轨迹ID。

3.根据权利要求1所述的支持实时监控场景的多人时空域异常行为定位方法，其特征在于，基于2D运动建模的行为识别算法网络结构包括骨架网络、运动建模模块和预测模块，行为识别算法流程为：

的特征图，其中C1为特征通道数，R为图像下采样比例；

S24：预测模块：得到空间特征和运动特征后，算法通过预测模块对时空信息进行融合并预测行为置信度；预测模块首先调换特征图中的时间和通道维度，然后逐通道地进行3×3的2D卷积，每次卷积都会使用所有帧在3x3范围内的特征值进行运算，达到融合时空信息的效果，最终经过1×1的卷积得到每个行为类别的置信度图；

S25：输出：

4.根据权利要求3所述的支持实时监控场景的多人时空域异常行为定位方法，其特征在于，K＝9，H＝244，W＝244，C1＝1024，R＝4，C＝30。

5.根据权利要求1所述的支持实时监控场景的多人时空域异常行为定位方法，其特征在于，步骤S3中针对每个人物目标框box＝(x_left，y_top，w，h)，多主体行为匹配算法的流程如下：

S31：行为识别算法输出

6.根据权利要求5所述的支持实时监控场景的多人时空域异常行为定位方法，其特征在于，步骤S31中双线性插值的方法为：根据近邻像素值将3×3的蓝色像素扩展为5×5的绿色像素，即给定四个近邻的蓝色像素值Q₁₁、Q₁₂、Q₂₁、Q₂₂，使用双线性插值算法求中间的绿色像素值P。

7.根据权利要求6所述的支持实时监控场景的多人时空域异常行为定位方法，其特征在于，中间的绿色像素值P求解过程为：根据Q₁₁和Q₂₁的值使用线性插值算法求R₁的像素值，根据Q₁₂和Q₂₂的值使用线性插值算法求R₂的像素值，最后根据R₁和R₂的值使用线性插值算法求P的像素值。

8.根据权利要求1所述的支持实时监控场景的多人时空域异常行为定位方法，其特征在于，步骤S4中异常风险评估算法流程如下：

S43：根据风险评估结果进行判定是否发生异常。

9.根据权利要求1所述的支持实时监控场景的多人时空域异常行为定位方法，其特征在于，只对关键帧和运动帧进行时空域异常行为定位，并采用多进程实现异步的实时异常行为定位，包括以下步骤：

10.一种支持实时监控场景的多人时空域异常行为定位系统，其特征在于，包括以下模块，以实现权利要求1-9任一项的方法：