CN112930535A

CN112930535A - 基于视频分析的人群行为异常检测

Info

Publication number: CN112930535A
Application number: CN201980068176.1A
Authority: CN
Inventors: 米兰·雷德齐克; 唐健; 胡芝兰; 约瑟夫·安东尼; 位昊霖; 尼奥·奥康纳; 艾伦·斯米顿
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2019-10-07
Filing date: 2019-10-07
Publication date: 2021-06-08
Also published as: WO2021069053A1

Abstract

此处提出了通过分析描绘人群的图像来检测人群行为异常的方法和系统，包括：使用至少一个机器学习模型，从描绘人群的场景的一个或多个捕获图像中提取第一特征集，所述至少一个机器学习模型通过训练数据集训练，所述训练数据集包括描绘人群正常行为的多个图像；使用至少一种光流分析算法从描绘所述场景的多个连续图像中提取第二特征集，所述至少一种光流分析算法用于估计所述人群中至少部分人的运动模式；通过将所述第一特征集与所述第二特征集进行拼接，创建拼接特征集；以及检测所述人群中一人或多人的行为中的至少一个异常，所述至少一个异常由应用于所述拼接特征集的一种或多种分类算法检测到的相应的离群值所识别。

Description

基于视频分析的人群行为异常检测

技术领域

本发明在其部分实施例中涉及基于对描绘人群的图像的分析来检测人群行为中的异常，更具体地但不限于，涉及基于对使用两个独立图像分析模型从描绘人群的图像中提取出的特征的分析来检测人群行为中的异常。

背景技术

随着世界各地部署海量摄像头，日益迅增的摄像头被部署来监控公共区域，尤其是人群可能会聚集的区域和位置，这使得摄像头的拍摄素材非常广泛且便于访问。

因此自然需要监控这些摄像头捕获的图像，以便识别人群的异常行为和/或人群中的一人或多人的异常行为，例如暴力、蓄意破坏、恐慌性踩踏和/或汽车事故等，并相应地采取一个或多个行动。

尽管许多监控系统是由亲自观看屏幕上显示的人群图像的操作人员人工操作，但是通过分析描绘人群的图像来自动识别和/或推断人群行为的自动化方法和系统的研究、开发和部署仍在不断演变。此类方法和系统可以采用计算机视觉、图像处理和其他基于计算的方法、算法、技术和/或实现方式来分析图像。

发明内容

本发明实施例的目的在于提供一种解决方案，减轻或解决传统解决方案的缺点和问题。独立权利要求主旨为解决上述及其它目的。进一步有利的实施例可在附属权利要求中找到。

本发明的目的在于提供一种用于检测人群中异常行为的解决方案，尤其是检测可能造成破坏和/或伤害的潜在威胁的人群行为异常。

根据本发明的第一方面，提供了通过分析描绘人群的图像来检测人群行为异常的系统，包括用于执行代码的一个或多个处理器，用于：

-使用一个或多个机器学习模型，从描绘人群的场景的一个或多个捕获图像中提取第一特征集，所述一个或多个机器学习模型通过训练数据集训练，所述训练数据集包括描绘人群正常行为的多个图像；

-使用一种或多种光流分析算法从描绘所述场景的多个连续图像中提取第二特征集，所述一种或多种光流分析算法用于估计所述人群中至少部分人的运动模式；

-通过将所述第一特征集与所述第二特征集进行拼接，创建拼接特征集；

-检测所述人群中一人或多人的行为中的一个或多个异常，所述一个或多个异常由应用于所述拼接特征集的一种或多种分类算法检测到的一个或多个相应的离群值所识别；以及

-输出所述一个或多个异常的指示。

根据本发明的第二方面，提供了一种通过分析描绘人群的图像来检测人群行为异常的计算机实现的方法，包括：

-输出所述一个或多个异常的指示。

应用两路径分析(其中应用了两个不同的分析域(ML模型和光流)从图像中提取特征)可以显著提高人群行为异常检测的准确性和/或可靠性，因为这两个特征提取域可以互补和/或互相增强，从而增强该(拼接)特征集并降低错误的概率，例如，漏报和/或误报等等。此外，使用包含了描绘正常行为的图像的训练数据集(样本数据)对所述一个或多个ML模型进行训练可以是非常有效的，因为有很多此类描绘正常人群行为的图像(因为很容易就可以捕获行为正常的人群的图像)。

在所述第一和/或第二方面的进一步实现方式中，在使用所述训练数据集训练所述一个或多个机器学习模型之前，通过使用一种或多种诸如k均值聚类算法等聚类算法去除在所述一个或多个图像中识别的一个或多个离群值来调整所述训练数据集。调整所述训练数据集以去除可能指示至少一个人群行为异常的离群值，可以确保所述至少一个训练数据集仅包括描绘正常行为的图像，从而将所述一个或多个ML模型合理地拟合到正常人群行为。

在所述第一和/或第二方面的可选实现方式中，通过使用额外的人群数据集训练所述一个或多个机器学习模型来提高所述一个或多个机器学习模型的性能，所述额外的人群数据集包括大规模人群视频数据集，所述大规模人群视频数据集用于解释被命名为“谁在哪里做什么”(Who do What at some Where，简称WWW)的拥挤场景。通过特别选择和/或配置用于人群行为解释的所述额外的训练数据集来微调所述一个或多个ML模型，可以显著提高所述一个或多个ML模型从描绘人群的图像中提取所述第一特征集的性能。

在所述第一和/或第二方面的进一步实现方式中，一个或多个所述机器学习模型由残差卷积神经网络(convolutional neural network，简称CNN)使用。如ResNet-50和/或其类似物等残差CNN是一种高度探索的神经网络，其对于深度学习实现例如人群行为异常检测可以非常有效，从而使得残CNN成为可靠和高效的实现选择。

在所述第一和/或第二方面的进一步实现方式中，所述一个或多个处理器用于通过将从所述一个或多个训练后的机器学习模型的全局平均池化层提取的特征堆叠在一起来创建所述第一特征集。对从所述一个或多个ML模型的全局平均池化层提取的特征进行堆叠，明确地说，所述残差CNN可以产生准确可靠的(第一)特征集。

在所述第一和/或第二方面的进一步实现方式中，对于所述一个或多个图像，所述全局平均池化层的尺寸为2048。大小为2048的全局平均池化层足够大，以便准确地提取特征以创建所述第一特征集。此外，所述全局平均池化层的此种大小并不会太大，从而避免了所述ML模型过度复杂以及训练和/或应用该模型所需的计算资源。

在所述第一和/或第二方面的可选实现方式中，所述一个或多个处理器还用于通过将所述一种或多种光流分析算法从构成各个所述多个连续图像中的多个非重叠块中的每一块提取的多个光流方向堆叠在一起来创建所述第二特征集。将所述一个或多个图像拆分(分割)成所述非重叠块可显著改善在一个或多个所述图像中检测到的所述一个或多个离群值的定位，因为所述一个或多个离群值可追溯至所述场景中的特定较小区域。

在所述第一和/或第二方面的进一步实现方式中，用于识别所述拼接特征集中的离群值的一种或多种所述分类算法由k个最近邻居(k-nearest neighbor，简称k-NN)算法所使用，所述k-NN算法用于基于所述拼接特征集中特征之间的距离识别所述拼接特征集中的一个或多个离群值特征。所述k-NN分类算法可以是一种低计算资源消耗分类器，其可以高度适合于检测所述拼接特征集中的离群值，尤其是从低质量图像(例如，小尺寸、低分辨率、黑白等图像)中提取的拼接特征集。

在所述第一和/或第二方面的进一步实现方式中，用于识别所述拼接特征集中的离群值的一种或多种所述分类算法由核密度估计(kernel density estimation，简称KDE)算法使用，所述KDE算法用于估计所述拼接特征集的一个或多个特征的概率密度函数。所述KDE分类算法可以是一种高性能分类器，其可以高度适合于检测所述拼接特征集中的离群值，尤其是从高质量图像(例如，大尺寸、高分辨率、深色等图像)中提取的拼接特征集。

在所述第一和/或第二方面的可选实现方式中，基于多帧分析检测一个或多个所述异常，在所述多帧分析中，所述一个或多个训练后的机器学习模型应用于描绘所述场景的多个连续图像。应用所述多帧分析可以显著提高人群行为异常检测的准确性和/或可靠性，因为从连续图像(帧)中提取的特征可能高度相关，从而可以显著提高所述提取的特征的准确性和/或可靠性。

在研究下文附图和详细描述之后，本发明的其它系统、方法、特征和优点对于本领域技术人员来说是或变得显而易见的。希望所有这些其它系统、方法、特征和优点包含在本说明书中，在本发明的范围内，并且受所附权利要求的保护。

除非另有定义，否则本文所用的所有技术和科学术语都具有与本发明普通技术人员公知的含义相同的含义。与本文所描述的方法和材料类似或者相同的方法和材料可以用于本发明实施例的实践或测试，下文描述示例性的方法和/或材料。若存在冲突，则以包括定义在内的专利说明书为准。另外，材料、方法以及示例都只是用于说明，并非必要限定。

本发明实施例提供的方法和/或系统的实现可以涉及手动、自动或者两者结合来执行或完成所选择的任务。此外，根据本发明的方法和/或系统实施例的实际仪器和设备，可以通过操作系统利用硬件、软件、固件或者三者组合完成多个选择的任务。

例如，根据本发明实施例执行选择的任务的硬件可以是芯片或者电路。对于软件，根据本发明实施例选择的任务可以是由计算机通过任意合适的操作系统执行的多个软件指令。在本发明的示例性实施例中，本文所描述的示例性的方法和/或系统实施例中的一个或者多个任务是由数据处理器执行，例如用于执行多个指令的计算平台。可选地，所述数据处理器包括存储指令和/或数据的易失性存储器和/或非易失性存储器，例如用于存储指令和/或数据的磁性硬盘和/或可移动介质。可选地，也提供网络连接。也会提供显示屏和/或用户输入设备，例如键盘或者鼠标。

附图说明

此处仅作为示例，结合附图描述了本发明的一些实施例。现在具体结合附图，需要强调的是所示的项目作为示例，为了说明性地讨论本发明的实施例。这样，根据附图说明，如何实践本发明实施例对本领域技术人员而言是显而易见的。

在附图中：

图1是本发明部分实施例提供的基于对描绘人群的图像的分析来检测人群行为异常的示例性流程的流程图；

图2是本发明部分实施例提供的基于对描绘人群的图像的分析来检测人群行为异常的示例性系统的示意图；以及

图3是本发明部分实施例提供的基于对描绘人群的图像的分析来检测人群行为异常的示例性顺序的示意图。

具体实施方式

根据本发明的部分实施例，提供了一种基于对描绘人群场景的图像的分析来检测人群行为中的异常的方法、系统和计算机程序产品，具体地，是检测可能造成破坏和/或伤害的潜在威胁的行为异常，例如暴力、蓄意破坏、汽车事故、恐怖事件、和/或公共秩序混乱等。人群行为异常检测可用于实现多种目的、目标和/或应用，例如，公共秩序维护、执法、安全和/或监控等。

人群行为异常检测基于两路径方法，其中将用于分析图像的两条分析和分类路径的结果结合在一起并进一步分析，以识别、检测和/或推断一个或多个人群行为异常。

第一条分析路径包括：将一个或多个训练后的机器学习(machine learning，简称ML)模型，例如，神经网络，尤其是如残差卷积神经网络(convolutional neural network，简称CNN)和/或其类似物等深度学习神经网络应用到描绘人群的一个或多个图像，以提取第一特征集。

特别地，可以使用一个或多个训练数据集对所述一个或多个ML模型进行训练，所述训练数据集包括描绘正常人群行为而无行为异常并相应地进行标记的图像。此外，为了确保所述一个或多个训练数据集仅包括描绘正常行为的图像，可以对所述一个或多个训练数据集中的图像应用一个或多个分类算法，例如，k均值算法，使得通过移除包含一个或多个离群值的此类图像和/或通过调整这些图像将离群值从图像中移除，能够实现检测并移除离群值。

第二条分析路径包括：应用一种或多种光流分析算法，例如，密集光流算法、Lucas-Kanade算法和/或FlowNet算法等来分析描绘人群的一个或多个图像，以提取第二特征集，所述第二特征集包括表达人群中一人或多人的一个或多个运动模式的方向(梯度)。

所述一种或多种光流分析算法也可以使用描绘正常人群行为而无行为异常的图像来训练。

可选地，为了改善图像中运动模式的定位，可以将这些图像分割(拆分)成块，尤其是非重叠块。这些非重叠块单独分析以提取表示在每个所述块中检测到的运动模式的特征。然后可以将从所述多个非重叠块中提取的特征堆叠在一起生成所述第二特征集。

此外，所述一种或多种光流分析算法可以应用于多个连续图像(例如，视频序列的帧)，以根据从每个所述独立图像中提取的梯度(方向)特征来创建一个或多个直方图。

可以将所述第一特征集和所述第二特征集进行拼接以生成拼接特征集，所述拼接特征集将使用所述一个或多个训练后的ML模型提取的特征与使用所述一种或多种光流分析算法提取的梯度特征结合起来。

然后，可以应用一种或多种分类算法来分析所述拼接特征集，以在所述拼接特征集中识别一个或多个离群值，所述离群值是与所述拼接特征集中的其他观察结果(数据点)显著不同的数据点。所述分类算法可以包括，例如，k个最近邻居(k-nearest neighbor，简称k-NN)算法和/或使用一个或多个核函数(例如，高斯函数、指数函数、单值函数、三角函数、余弦函数、顶帽函数等)的核密度估计(kernel density estimation，简称KDE)算法等。

可选地，可以依据描绘人群的图像的一个或多个参数和/或属性，例如质量、分辨率、清晰度和/或对比度等来应用所述一种或多种分类算法。此外，例如，在所述描绘人群的图像(所述拼接特征集从这些图像中提取)为高质量图像的情况下，可以将多个分类算法应用于所述拼接特征集。从所述多个分类算法接收到的结果可以进行聚合，这可以提高检测到的离群值的分类准确性和/或可靠性，从而提高所估计的异常行为的准确性和/或可靠性。

可选地，人群行为异常检测可以通过针对多个连续图像重复执行两路径分析过程和离群值检测而扩展为多帧分析。

由于所述一个或多个ML模型和所述一种或多种光流分析算法(可选)是使用人群正常行为数据集训练的，因此它们是经过高度训练且高度拟合正常人群的行为。因此，在所述拼接特征集中检测到的一个或多个离群值可以高度指示一个或多个人群行为异常，尤其是人群中一人或多人的一个或多个行为异常。

用于检测人群行为异常的两路径分析与现有人群行为推断和解释相比，具有重大的优势和益处。

首先，自动识别一个或多个潜在人群行为异常可以显著增强对大面积和/或广阔的可能有人群聚集的监控区域和/或位置的监控能力。现有方法基于操作人员人工检测一个或多个人群行为异常，这些操作人员监控(观看)屏幕上显示的描绘人群场景的图像。这些现有方法在监控多个屏幕的能力上会非常有限。此外，人工监控可能需要极大量的操作人员和显示系统，而这些操作人员和显示系统可能非常低效且昂贵。另一方面，自动识别一个或多个人群行为异常可以显著减少所需的操作人员的数量，从而显著减少显示系统的数量，因而显著增加监控覆盖范围并降低成本。

此外，部分现有人群行为异常检测方法可以通过应用计算机视觉来达到以运动检测为基础。然而，运动检测可能对捕获的人群场景中的各个方面都非常敏感，例如，照明变化、相机晃动和/或背景中的运动(例如，移动的枝叶)等。此外，此类运动检测方法在处理图像中的连续运动时，即在摄像头的视野中，可能会受到很大限制。由于这些限制，此类人群行为异常检测方法和系统可能会表现出较差的性能，例如，会出现较高的误报错误率。另一方面，本发明的人群行为异常检测方法采用ML，尤其是深度学习ML。该ML可以具有很强的鲁棒性并且不受此类限制影响，从而显著提高异常检测的准确性和/或可靠性，并显著降低错误的概率，例如，漏报和/或误报等。

此外，现有的一些基于计算机视觉的人群行为异常检测方法可以采用ML模型来检测异常人群行为。这些系统使用的ML模型可用于通过使用包括描绘人群异常行为的图像的训练数据集(样本数据)训练这些ML模型来识别异常的人群行为(异常)。然而，由于异常人群行为不常发生而拍摄素材可能很少，包含描绘人群异常行为的图像的训练数据集可能非常有限，从而导致有限且可能较差的ML模型。相反，本发明描述的人群行为异常检测方法使用ML模型，这些ML模型与人群的正常行为相拟合，因为他们是使用包含描绘正常行为的图像的训练数据集(样本数据)来训练的。这种描绘人群正常行为的图像自然有很多，因为正常人群行为非常频繁，并且描绘此类正常人群行为场景的图像很容易被捕获。可以对所述一个或多个ML模型进行高度训练以拟合人群正常行为，使得在这些训练后的ML模型生成的特征集中检测到的离群值能够以极高确定性来指示人群行为中的异常。

应用所述两路径分析(其中应用了两个不同的分析域(ML模型和光流)从图像中提取特征)可以显著提高人群行为异常检测的准确性和可靠性。这两个特征提取域可以互补和/或互相增强。如此，用一个特征提取域时被忽略的特征可以通过另一个特征提取域进行检测和/或补偿，从而增强该(拼接)特征集并降低错误的概率，例如，漏报和/或误报等等。

而且，应用所述多帧分析可以进一步提高人群行为异常检测的准确性和可靠性，因为从连续图像(帧)中提取的特征可能高度相关，从而可以显著提高所述提取的特征的准确性和/或可靠性。

此外，根据接收到的图像的属性选择要应用于所述拼接特征集的所述一个或多个分类算法，可以在适应分类工作所需的计算资源(例如，处理资源、存储资源等)和/或计算时间方面实现很高的灵活性。这可以用于避免为从低质量图像中提取的特征集的分类分配大量计算资源(带来的益处可能很小)，同时为从高质量图像中提取的特征集的分类分配更多实质性计算资源(会产生改进的结果)。

此外，与现有的检测人群行为异常的方法相比，应用本发明所述组合的两域特征提取可以进一步减少用于处理给定数量的图像所需的计算资源。由于所述组合的两域特征提取可以互补和/或互相增强，使得投入更少，即，与现有方法中可以为单个特征提取域分配大量计算资源相比，可以为每个所述特征提取域分配更少的计算资源。此外，可以在每个所述特征提取域中使用更简单的ML模型，例如，层数更少的神经网络，从而进一步减少所需的计算资源。

在详细解释本发明的至少一个实施例之前，应当理解，本发明不必将其应用限于下面描述中阐述的和/或在附图和/或举例中说明的部件和/或方法的结构和布置的细节。本发明可以有其他实施例或可以采用各种方式实践或执行。

本发明可以是系统、方法和/或计算机程序产品。所述计算机程序产品可以包括具有计算机可读程序指令的一个(或多个)计算机可读存储介质，所述指令用于使处理器执行本发明的各个方面。

所述计算机可读存储介质可以是有形设备，该有形设备可以保存和存储指令执行设备使用的指令。例如，所述计算机可读存储介质可以是但不限于电子存储设备、磁性存储设备、光存储设备、电磁存储设备、半导体存储设备或这几者的任意合适组合。所述计算机可读存储介质的更具体示例的非穷举性清单包含以下各项：便携式计算机磁盘、硬盘、随机存取存储器(random access memory，简称RAM)、只读存储器(read-only memory，简称ROM)、可擦除可编程只读存储器(erasable programmable read-only memory，简称EPROM或快闪存储器)、静态随机存取存储器(static random access memory，简称SRAM)、便携式光盘只读存储器(compact disc read-only memory，简称CD-ROM)、数字通用光盘(digitalversatile disk，简称DVD)、记忆棒、软盘、如打孔卡或凹槽中的凸起结构等上面记录了指令的机械编码设备以及上述列举物的任何适合组合。此处使用的计算机可读存储介质不应理解为本身瞬时的信号，例如，无线电波或其他自由传播的电磁波、通过波导或其他传输介质(例如，通过光缆的光脉冲)传播的电磁波，或通过电线传输的电信号。

可以从计算机可读存储介质中将此处描述的计算机可读程序指令下载到各个计算/处理设备上，或通过网络下载到外部计算机或外部存储设备上，所述网络如因特网、局域网、广域网和/或无线网。网络可包括铜传输电缆、光学传输光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网卡或网络接口从所述网络中接收计算机可读程序指令，并转发所述计算机程序可读程序指令，以存储在各自计算/处理设备中的计算机可读存储介质中。

用于执行本发明的操作的计算机可读程序指令可为汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设定数据或者以一个或多个程序设计语言的任何组合撰写的源代码或目标代码，所述程序设计语言包含面向对象的程序设计语言(例如，Smalltalk、C++等)和常规程序化程序设计语言(例如，"C"程序设计语言或类似程序设计语言)。

所述计算机可读程序指令可以完全在用户电脑上执行，部分在用户电脑上执行，或作为独立的软件包，部分在用户电脑上执行，部分在远端电脑上执行，或完全在远端电脑或服务器上执行。在后面的场景中，远端电脑可以通过任何类型的网络与用户电脑连接，包括局域网(local area network，简称LAN)或广域网(wide area network，简称WAN)，或者，可以(例如，使用因特网服务提供商提供的因特网)在外部电脑上建立该连接。在一些实施例中，包括可编程逻辑电路、现场可编程门阵列(field programmable gate array，简称FPGA)或可编程逻辑阵列(programmable logic array，简称PLA)等的电子电路可以利用计算机可读程序指令的状态信息执行所述计算机可读程序指令以个性化所述电子电路，以便执行本发明的各方面。

此处，结合本发明实施例的方法、装置(系统)以及计算机程序产品的流程图和/或框图描述本发明的各方面。应当理解，流程图和/或框图的每个框以及流程图和/或框图中的框的组合可以由计算机可读程序指令来实现。

图中的流程图和框图阐述了根据本发明各个实施例的系统、方法以及计算机程序产品的可能实现方式的结构、功能以及操作。就此而言，流程图或框图中的每个块可以表示模块、区段或指令的部分，其包括用于实施指定逻辑功能的一个或多个可执行指令。在一些可选的实现方式中，框中指出的功能可以不按照图中的顺序实现。例如，事实上，连续示出的两个方块可以几乎同时执行，或者有时候，方块可以按照相反的顺序执行，这取决于所涉及的功能。也应注意的是，框图和/或流程图中的每个框以及框图和/或流程图中的框组合可以由基于专用硬件的系统执行，该系统执行特定的功能或动作，或者执行专用硬件和计算机指令的组合。

现参考附图，图1是本发明部分实施例提供的基于对描绘人群的图像的分析来检测人群行为异常的示例性流程的流程图。示例性流程100可以由人群行为异常检测系统执行，以基于对描绘人群的图像的分析识别人群场景中的一个或多个异常，具体地，是识别可能造成破坏和/或伤害的潜在威胁的行为异常，例如暴力、蓄意破坏、汽车事故、恐怖事件、和/或公共秩序混乱等。

所述人群行为异常检测系统可用于检测人群行为异常以实现多种目的、目标和/或应用，例如，公共秩序维护应用、执法应用、安全应用和/或监控应用等。

可以参考图2，其是本发明部分实施例提供的基于对描绘人群的图像的分析来检测人群行为异常的示例性系统的示意图。示例性人群行为异常检测系统200，例如，计算机、服务器、计算节点和/或计算节点集群等可以执行例如流程100等流程以识别人群行为中的一个或多个异常。

所述人群行为异常检测系统200可以包括网络接口210、用于执行所述流程100的一个或多个处理器212以及用于存储代码(程序存储)和/或数据的存储器214。

所述网络接口210可以包括一个或多个网络接口，用于连接一个或多个有线和/或无线网络，例如，局域网(local area network，简称LAN)、广域网(wide area network，简称WAN)、市域网(municipal area network，简称MAN)、蜂窝网络和/或互联网等。

通过所述网络接口210，所述人群行为异常检测系统200可以与一个或多个远程网络资源通信，例如，设备、计算机、服务器、计算节点、计算节点集群、服务器、系统、服务和/或存储资源等。

例如，所述人群行为异常检测系统200可以接收一个或多个人群图像，由一个或多个传感器捕获，尤其是一个或多个成像传感器，例如摄像头、摄像机、红外传感器、热成像传感器摄像头和/或夜视传感器等。

所述一个或多个处理器212可以包括一个或多个同质或异质处理器，每个处理器包括一个或多个设置用于并行处理的处理节点，作为集群和/或作为一个或多个多核处理器。所述一个或多处理器212可执行一个或多个软件(代码)模块，例如，进程、应用、代理、实用程序、工具和/或脚本等。每个软件(代码)模块均包括存储在如所述存储器214的非瞬时性介质中并由一个或多个处理器例如所述一个或多个处理器212执行的多个程序指令。例如，所述一个或多个处理器212可以执行实现所述流程100的人群行为异常检测器220。

所述人群行为异常检测系统200还可包括一个或多个硬件组件，以支持所述人群行为异常检测器220的执行，例如电路、集成电路(integrated circuit，简称IC)、专用集成电路(application specific integrated circuit，简称ASIC)、现场可编程门阵列(fieldprogrammable gate array，简称FPGA)、数字信号处理器(digital signal processor，简称DSP)和/或图形处理器单元(graphic processor unit，简称GPU)等。

因此，所述人群行为异常检测器220可由一个或多个软件模块、一个或多个硬件组件和/或其组合执行、使用和/或实现。

T用于存储数据和/或代码(程序存储)的所述存储器214可以包括一个或多个非瞬时性存储器设备，例如，持久非易失性设备，例如，ROM、闪存阵列、硬盘驱动器、固态硬盘(SSD)和/或磁盘等。所述存储器214通常还可包括一个或多个易失性设备，例如随机存取存储器(random access memory，简称RAM)设备和/或缓存存储器等。可选地，所述存储器214还包括一个或多个网络存储资源，例如，存储服务器、网络连接存储(network attachedstorage，简称NAS)和/或网络驱动器等，所述网络存储资源可通过所述网络接口210被所述人群行为异常检测器220访问。

可选地，所述人群行为异常检测系统200和/或所述人群行为异常检测器220至少部分地由一个或多个云计算服务提供、执行和/或使用，例如，由一个或多个云基础设施提供的基础设施即服务(infrastructure as a service，简称IaaS)、平台即服务(platformas a service，简称PaaS)和/或软件即服务(software as a service，简称SaaS)等和/或例如Amazon Web Service(AWS)、Google Cloud和/或Microsoft Azure等服务。

如102所示，所述流程100开始于所述人群行为异常检测器220接收由一个或多个传感器(具体地说，是部署用于捕获人群图像的一个或多个传感器)捕获的一个或多个图像。

所述一个或多个成像传感器例如可以部署在一个或多个拥挤的区域和/或位置，例如，街道、广场、火车站、机场、音乐会公园和/或体育场等，人群可以出席和/或聚集在这些区域和/或位置。在另一示例中，所述一个或多个成像传感器可以安装在一台或多台车辆上，例如，地面车辆和/或空中车辆(例如，无人机等)等以监控一个或多个拥挤区域和/或位置。

因此，所述一个或多个成像传感器捕获的所述一个或多个图像可以至少部分地描绘所述拥挤区域和/或位置中的人群。

如104所示，所述人群行为异常检测器220可以通过将一个或多个训练后的机器学习(machine learning，简称ML)模型应用于一个或多个所述接收的图像，从这些图像中提取第一组特征。所述一个或多个ML模型可以包括，例如，神经网络和/或SVM等。例如，所述一个或多个ML模型可以包括深度学习神经网络，例如，诸如配置用于图像识别的ResNet-50和/或其类似物等残差CNN。

所述一个或多个ML模型，例如，ResNet-50等残差CNN可以使用一个或多个训练数据集来训练以进行图像识别。所述一个或多个训练数据集包括多个图像，尤其是标记的图像，例如，本领域已知的ImageNet数据集和/或其类似物等。在一个或多个训练会话期间，所述一个或多个ML模型，例如，所述一个或多个神经网络可以调整分配给所述神经网络(例如，ResNet-50等残差CNN)边缘的权重，以正确拟合所述一个或多个训练数据集所包括的所述训练样本。

特别地，选择所述一个或多个训练数据集，使得所述一个或多个训练数据集的图像描绘一个或多个人群的正常行为。因此，可以相应地选择所述一个或多个训练数据集，以包括描绘行为正常的人群的图像，即，没有行为异常的人群的图像。

可选地，一个或多个所述训练数据集可以先进行调整再用来训练所述一个或多个ML模型，例如，ResNet-50，以去除一个或多个人群的非典型正常行为的行为模式。例如，一个或多个聚类算法，例如，k均值算法可以应用于所述一个或多个训练数据集中的每个图像，以识别所述图像中的一个或多个离群值，并移除包含一个或多个此类离群值的一个或多个图像。

另外和/或可替换地，可以调整描绘一个或多个离群值的一个或多个图像以移除所述离群值。例如，在使用所述一个或多个聚类算法(例如，k均值算法)检测特定图像中的一个或多个离群值之后，可以调整该特定图像以移除所述检测到的离群值。

所述一个或多个ML模型的训练是通过从所述ML模型的全局平均池化层，例如ResNet-50的全局平均池化层中提取的特征来达成数据驱动。由于所述一个或多个训练数据集包括描绘正常人群行为的图像，因此提取的一个或多个特征集可以表示正常人群行为的模式。

此外，所述一个或多个ML模型可以通过数据驱动的方法进行训练，以针对所述训练数据集的多个连续图像，具体为关键图像(帧)，例如从所述训练数据集提取的50个等间隔帧，生成从所述全局平均池化层提取的堆叠特征集。使用这些堆叠特征集来应用这种数据驱动训练可以显著提高所述一个或多个ML模型(具体是如下文描述的实验中所示的ResNet-50)的图像识别性能。

可选地，所述一个或多个ML模型通过以下方式微调：使用一个或多个额外的训练数据集(具体为一个或多个标记数据集)来进一步训练所述ML模型来，以检测人群中的一人或多人的行为中的一个或多个异常。例如，可以使用所述一个或多个额外的训练数据集将本领域已知的迁移学习应用于人群行为属性识别来微调所述一个或多个ML模型。包括用于解释拥挤场景的大规模人群视频数据集的所述一个或多个额外的训练数据集可以包括，例如，本领域已知的“谁在哪里做什么”(Who do What at some Where，简称WWW)数据集。所述WWW数据集总共包含10,000个标记了94个人群行为概念的拥挤场景视频剪辑以及相关场景内容标签。

如前所述，可以从例如ResNet-50的所述一个或多个ML模型的全局平均池化层中提取特征。例如，尺寸为2048的特征可以逐帧(图像)从ResNet-50的全局平均池化层中提取，并堆叠在一起，以生成如前所述的堆叠特征集。微调所述一个或多个ML模型可以显著改善所述一个或多个ML模型(具体是如下文描述的实验中所示的ResNet-50)的人群行为异常检测。

可以存储表示正常人群行为典型的人群模式的特征集供后续使用，以支持检测一个或多个人群行为异常。

因此，所述人群行为异常检测器220可以将所述一个或多个训练后的ML模型，例如，ResNet-50应用到所述一个或多个传感器捕获的描绘人群的一个或多个图像，以提取所述第一特征集。

如106所示，所述人群行为异常检测器220可以通过应用一种或多种光流分析算法从一个或多个所述接收的图像中提取第二组特征，所述一种或多种光流分析算法用于估计人群中一人或多人的一个或多个运动模式。

所述光流模式表示两个或以上连续图像中的一个或多个物体的表观运动，引起所述表观运动的可能是所述物体在所述图像描绘的场景中的移动和/或所述一个或多个成像传感器相对于检测到的物体的移动。因此，所述第二特征集可以包括表示所述一种或多种光流分析算法在接收的图像中识别(估计)的光流模式的光流方向(梯度)。

所述一种或多种光流分析算法可以包括，例如，本领域已知的密集光流算法、Lucas-Kanade算法和/或FlowNet算法等。此类光流分析算法可以采用、实现和/或使用一种或多种方法、技术和/或设计，例如，诸如CNN和/或其类似物等神经网络。

此外，可以使用描绘一群人(人群)的正常行为的图像序列的数据集来训练用神经网络所实现的所述一种或多种光流分析算法。

可选地，为了获得更高的分辨率以及所分析图像中运动模式更好的定位，所述人群行为异常检测器220可以通过将所述一种或多种光流分析算法从构成各个所述多个连续图像中的多个非重叠块中的每一块提取的多个光流方向(梯度)堆叠在一起来创建所述第二特征集。每个接收的图像都可以被拆分为多个非重叠块，例如16个块(在4x4排列中)。

所述人群行为异常检测器220可以将所述一种或多种光流分析算法应用于每个所述图像中的每个所述非重叠块，以从相应的非重叠块中提取特征。然后，所述人群行为异常检测器220可以将从多个连续图像中的每个非重叠块中提取的光流方向(由各自的特征表示)堆叠在一起，为每个非重叠块创建光流方向的直方图。所述人群行为异常检测器220还可以将所述多个非重叠块的光流方向直方图堆叠在一起，创建所述第二特征集。

如108所示，所述人群行为异常检测器220可以将所述第一特征集和所述第二特征集进行拼接来创建拼接特征集，所述拼接特征集组合了使用例如ResNet-50的所述一个或多个ML模型提取的所述(第一)特征以及使用例如FlowNet算法的所述一种或多种光流分析算法提取的所述(第二)特征。

如110所示，所述人群行为异常检测器220可以应用一个或多个分类算法(分类器)来检测所述拼接特征集中的一个或多个离群值(离群值特征)，所述拼接特征集组合了由所述一个或多个ML模型和所述一种或多种光流分析算法从所述一个或多个成像传感器捕获的描绘人群的一个或多个图像中提取出来的特征。

由于所述一个或多个ML模型和所述一种或多种光流分析算法(可选)使用包含描绘了人群正常行为的图像的一个或多个训练数据集来训练，所述一种或多种分类算法识别的离群值(离群值特征)可以高度指示人群中一人或多人的异常行为所表示的一个或多个人群行为异常。

所述人群行为异常检测器220应用的所述分类算法可以包括，例如，k-NN算法和/或使用一个或多个核函数(例如，高斯函数、指数函数、单值函数、三角函数、余弦函数、顶帽函数等)的KDE算法等。

所述人群行为异常检测器220可以根据特征被提取的所述接收的图像的一个或多个参数和/或属性，例如，质量、分辨率、清晰度和/或对比度等，来选择应用到所述拼接特征集的特定分类算法。例如，对于低质量图像，所述人群行为异常检测器220可以应用所述k-NN分类算法，而对于高质量图像，所述人群行为异常检测器220可以应用所述KDE分类算法。

此外，所述人群行为异常检测器220可以选择将多个分类算法应用到所述拼接特征集。例如，所述人群行为异常检测器220可以同时应用所述k-NN分类算法和所述KDE分类算法，尤其是在接收到的图像是高质量图像的情况下。

所述k-NN分类算法(分类器)是一种基于非参数实例的学习技术，用于基于距离指标和k-NN对数据进行分类。所述k-NN分类算法可以通过找到给定实例的第k个最近邻居来检测一个或多个离群值。在拟合所述k-NN分类算法后，所述人群行为异常检测器220可以根据所述拼接特征集计算欧几里得距离，所述拼接特征集组合了由所述一个或多个ML模型(例如，ResNet-50)提取的所述第一特征集和由所述一种或多种光流分析算法提取的所述第二特征集。

基于所述计算的欧几里得距离，所述人群行为异常检测器220可以在一个或多个所述接收的图像的每个图像中检测一个或多个离群值，从而在所述接收的图像所描绘的人群行为中产生对一个或多个潜在异常的帧级时间检测。

所述人群行为异常检测器220可以应用一种或多种方法和/或技术来检测从所述一个或多个图像中提取的所述拼接特征集中的离群值(离群值特征)。例如，所述人群行为异常检测器220可以为连续图像序列(视频剪辑)的特征集绘制受试者工作特征(receiveroperating characteristic，简称ROC)曲线。所述人群行为异常检测器220还可以从所述ROC曲线中计算和/或推导出一个或多个性能指标，例如，曲线图面积(Area Under aCurve，简称AUC)和/或等错误率(Equal Error Rate，简称EER)等。使用计算出的一个或多个性能指标，所述人群行为异常检测器220可以检测一个或多个所述接收的图像的每个图像中的离群值。

所述人群行为异常检测器220可以标记检测到离群值的一个或多个图像。

所述人群行为异常检测器220还可以分析所述一个或多个图像，尤其是一个或多个标记的图像，以定位在每个图像中检测到的一个或多个异常，即一个或多个离群特征。为此，所述人群行为异常检测器220可以将一种或多种所述分类算法，具体为所述k-NN算法应用到所述特征集，所述特征集是针对非重叠块提取的，例如，16个块(将每个图像划分为4×4个块)。所得结果是对一个或多个离群值的块级空间检测，所述离群值指示了所述一个或多个图像中描绘的人群行为中的一个或多个潜在异常。

所述KDE分类算法(分类器)是用于估计随机变量的潜在概率分布的非参数方法。所述KDE密度估计器分类算法可以使用一个或多个核函数，例如高斯函数、指数函数、单值函数、三角函数、余弦函数和/或顶帽函数等来估计所述随机变量的概率密度函数。对于给定的数据集，所述KDE密度估计器分类算法试图对生成该数据集的概率分布进行建模。具体地，所述KDE密度估计器分类算法在每个给定的数据点使用由一个所述核函数组成的混合体。在所述KDE密度估计器分类算法的实现中，指定分布的形状的核函数和控制核大小的核带宽为超参数。

所述人群行为异常检测器220可以首先通过将所述KDE分类算法应用于所述拼接特征集来生成人群行为的正态概率分布，从而创建一个或多个参考(地面真相)概率密度，其中所述拼接特征集是从描绘正常人群行为的一个或多个训练数据集的图像中提取。当然，可以像训练所述一个或多个ML模型那样预先创建地面真相概率密度。

所述人群行为异常检测器220可以应用所述KDE分类算法来估计所述拼接特征集的概率密度，其中所述拼接特征集是根据从所接收的描绘人群的图像中提取的特征而创建。所述人群行为异常检测器220可以在估计的概率密度中识别出一个或多个数据样本，其中所述估计的概率密度偏离地面真相概率密度，并且可以将这些偏差指定为可能指示人群行为中潜在异常的离群值。

基于所述估计的概率密度，所述人群行为异常检测器220可以计算本领域已知的相邻点的本地密度估计(local density estimate，简称LDE)值的本地密度估计值。所述人群行为异常检测器220还可以定义给定数据点处的本地密度因子(local density factor，简称LDF)，其为k-NN处的平均LDE与该给定点的LDE的比值。在给定数据点(X_i)处的LDE值的归一化使得能够识别具有阈值(T)的离群值，即，LDF(X_i)＞T，其中T可以针对特定数据集单独选择。

基于所述离群值与针对正常行为计算的参考(地面真相)概率密度之间的密度差异，所述人群行为异常检测器220可以检测离群值，其可高度指示如所述一个或多个接收的图像所描绘的人群行为中的潜在异常。

如针对所述k-NN分类算法所描述的，这是在所述一个或多个接收到的图像所描绘的人群行为中对一个或多个潜在异常进行帧级时间检测。如为所述k-NN分类算法所做的那样，为了定位所述一个或多个图像中的离群值，所述人群行为异常检测器220可以将所述KDE分类算法应用于所述特征集，所述特征集针对非重叠块提取，例如，16个块(将每个图像划分为4×4个块)。所得结果仍是对一个或多个离群值的块级空间检测，所述离群值指示了所述一个或多个图像中描绘的人群行为中的一个或多个潜在异常。

在使用所述一种或多种分类算法(例如，k-NN和/或KDE等)检测离群值之后，所述人群行为异常检测器220可以对比由块级处理获得的空间定位结果和地面真相，即，基于所述一个或多个训练数据集中的图像而定义的一个或多个空间掩码，并且可以使用一种或多种技术和/或方法，例如，联合上的交集(intersection over union，简称IOU)等重叠统计，以评估块级结果与地面真相之间的偏差，从而检测一个或多个离群值。

如112所示，所述人群行为异常检测器220可以关联所述拼接特征集中检测到的每个所述离群值(离群值特征)与潜在人群行为异常，具体为人群中一人或多人的潜在异常行为，例如暴力、蓄意破坏、恐怖事件和/或公共秩序混乱等。

所述人群行为异常检测器220可以根据一条或多条规则将一个或多个所检测到的离群值与相应的一个或多个人群行为异常进行关联。例如，如果多人在场景中的某个位置疯狂地跑动，所述人群行为异常检测器220可以基于一条或多条规则确定该离群值特征可能指示暴力事件和/或恐怖事件。在另一示例中，在一人或多人与一个或多个无生命物体(例如，汽车、商店门等)激烈交互的情况下，所述人群行为异常检测器220可以基于一条或多条规则确定该离群值特征可能指示蓄意破坏事件和/或行为。

所述人群行为异常检测器220还可以将被训练用于关联离群值特征与人群行为中相应异常的一个或多个ML模型应用于所述检测到的离群值，。特别地，可以使用标记的训练数据集对所述一个或多个ML模型进行训练，所述训练数据集包括描绘一群人的图像，其中一人或多人表现出一个或多个行为异常。例如，可以使用一个或多个包括被相应标记的恐怖事件图像的训练数据集对所述一个或多个ML模型进行训练。在另一示例中，可以用一个或多个包括非暴力示威图像的训练数据集来训练所述一个或多个ML模型，其中人群参与其中的非暴力示威图像被相应标记为恐怖事件。

如114所示，如果所述人群行为异常检测器220确定一个或多个所述接收到的图像描绘了一个或多个人群行为异常，则所述人群行为异常检测器220输出一个或多个指示以上报、指示和/或通知所识别到的人群行为异常。

如果所述人群行为异常检测器220不能可靠地将所述一个或多个离群值与各自的人群行为异常相关联，则所述人群行为异常检测器220可输出未分类的，即未具体推断的潜在人群行为异常的指示。这种输出可供人类操作员和/或其他自动化系统用于进一步分析，以尝试识别潜在的人群行为异常。

例如，所述人群行为异常检测器220可以通过所述网络接口210将一个或多个消息传输到一个或多个控制和/或监控系统，例如，公共秩序维护系统、执法系统、安全系统和/或监控系统等，其可以根据所述人群行为异常检测器220上报的一个或多个人群行为异常来发起一个或多个动作。

所述人群行为异常检测器220还可以对多个图像，尤其是描绘人群场景的连续图像，重复所述流程100。这可用于提高异常检测的准确性，减少检测错误(例如，误报等)和/或其类似错误等。

因此，所述人群行为异常检测器220可以使用在多个接收图像上执行的相同流程将用于检测离群值的帧级分析扩展到多帧分析。如果接收的图像的数量较大，具体为高于本文示例性实施例中描述的50个间隔帧的窗口，则所述图像序列(例如视频流)可以被分割成多个分段，其中在所述流程100之后，所述人群行为异常检测器220可以分别处理所述多个片段。

可以参考图3，其是本发明部分实施例提供的基于对描绘人群的图像的分析来检测人群行为异常的示例性顺序的示意图。示例性顺序300之后可以跟着人群行为异常检测器，例如由人群行为异常检测系统200执行的所述人群行为异常检测器220，用以执行流程，例如所述流程100。

如所述顺序300所示，描绘人群场景的一个或多个图像可以通过两条路径接收和传播。在第一条路径中，所述一个或多个图像被注入到一个或多个训练后的ML模型中，所述一个或多个训练后的ML模型可以从所述一个或多个图像中提取所述第一特征集，如所述流程100的步骤104中所述。在第二条路径中，将所述一个或多个图像注入到一种或多种光流分析算法中，所述一种或多种光流分析算法可以从所述一个或多个图像中提取所述第二特征集，以创建光流方向(梯度)直方图，如所述流程100的步骤106中所述。

所述人群行为异常检测器220可以将所述第一特征集和所述第二特征集进行拼接，如所述流程110的步骤108中所述，以创建所述拼接特征集。一种或多种分类算法可应用于所述拼接特征集，如所述流程100的步骤110所述，以识别所述拼接特征集中的一个或多个离群值特征。所述人群行为异常检测器220还可以将每个检测到的离群特征与人群行为中相应异常相关联，如所述流程100的步骤112所述。

与从描绘人群的图像中推断人群行为(具体为检测人群行为异常)的现有方法相比，当应用所述流程100时，进行实验以展示人群行为异常检测的改进之处。

选择用于实验的计算硬件以支持执行所述流程100的所述人群行为异常检测器220所需的密集计算机视觉处理。特别地，所述计算硬件基于工作站，所述工作站包括

Core^TM i7-4790K CPU，所述CPU具有4个核心和8MB高速缓存，工作于@4.00GHz和

GeForce GTX 970GPU，配备32GB GDDR4 RAM。所述人群行为异常检测器220用Python编程语言实现，并使用若干个库，例如，numpy、siciy、sci-kit learn、pytorch和openCV库。

然而，用于实验的计算硬件和编程代码语言不应理解为限制性，因为可以应用多个其他实现方式来实现所述人群行为异常检测系统200和执行所述流程100的所述人群行为异常检测器220。

可以进行实验以评估所述人群行为异常检测方法，这些实验采用本领域已知的实况视频(live video，简称LV)数据集，该数据集是一个用于异常事件检测的现实监控视频数据集(Leyva、Robbert、Victor Sanchez和Chang-TSun Li，2017年第五届生物识别技术及鉴证国际研讨会(IWBF)，第1-6页，IEEE，2017)，包括了超过4小时的闭路电视(closedcircuit television，简称CCTV)拍摄素材，分为28个视频序列。每一个视频序列开始于一个人群行为正常的时段，然后是人群可能发生正常和不正常(异常)行为的评估时段，例如人群中的恐慌、踩踏、抢劫、攻击和/或汽车碰撞等。

下面的表1给出了所述流程100的几种实现方式和一些现有方法之间针对人群行为异常检测的性能比较。基于针对提取的特征集而绘制的ROC曲线的AUC计算，计算所述评估的方法针对评估期的整个集合图像(帧)的性能。使用该计算方法可以避免阈值选择问题，这样可以简化实验，并且可以减少评估方法的结果之间的比较差异。

表1：

(1)：Biswas、Sovan和R.Venkatesh Babu《使用定向运动矢量直方图(HOMV)的H.264压缩视频分类》，2013IEEE声学、语音和信号处理国际会议(2013)：2040-2044

(2)：Lu,C.、Shi,J.和Jia,J.(2013)，《MATLAB中150FPS的异常事件检测》，2013IEEE计算机视觉国际会议(ICCV)，IEEE，第2720–2727页

(3)：Reddy,V.、Sanderson,C.和Lovell,B.C.(2011)，《通过基于小区的前景速度、大小和纹理分析改进拥挤场景中的异常检测》，2011IEEE计算机学会计算机视觉与模式识别会议研讨会(CVPRW)，IEEE，第55–61页

(4)：Roshtkhari,M.J.和Levine,M.D.(2013)，《视频中主导异常行为在线检测》，2013IEEE计算机视觉和模式识别(CVPR)会议，IEEE，第2611–2618页

如表1所证明，使用所述流程100进行人群行为异常检测显著优于现有方法，比起之前性能最佳的方法，AUC改进了约0.31，表示72％的相对改进。这些结果突出了本发明所描述的创新流程的优越性。所述创新流程的实现如下：通过应用所述两路径特征提取(ML模型特征和光流梯度特征)来创建与所述分类算法一起应用的所述拼接特征集，所述分类算法用于识别所述拼接特征集中的离群值。

应预计到，在从本申请案走向成熟的专利的有效期内，将开发许多相关系统、方法和计算机程序，且术语ML模型、神经网络、聚类算法和分类算法的范围旨在先验地包括所有此类新技术。

本文所使用的术语“约”是指±10％。

术语“包括”、“包含”、“具有”以及其变化形式表示“包含但不限于”。

术语“由……组成”意指“包括并限于”。

除非上下文中另有明确说明，此处使用的单数形式“一个”和“所述”包括复数含义。例如，术语“化合物”或“至少一个化合物”可以包含多个化合物，包含其混合物。

在整个本申请案中，本发明的各种实施例可以范围格式呈现。应理解，范围格式的描述仅为了方便和简洁起见，并且不应该被解释为对本发明范围的固定限制。因此，对范围的描述应被认为是已经具体地公开所有可能的子范围以及所述范围内的个别数值。例如，对例如从1到6的范围的描述应被认为是已经具体地公开子范围，例如从1到3、从1到4、从1到5、从2到4、从2到6、从3到6等，以及所述范围内的个别数字，例如1、2、3、4、5和6。不管范围的宽度如何，这都适用。

当此处指出一个数字范围时，表示包含了在指出的这个范围内的任意所列举的数字(分数或整数)。短语“在第一个所指示的数和第二个所指示的数范围内”以及“从第一个所指示的数到第二个所指示的数范围内”和在这里互换使用，表示包括第一个和第二个所指示的数以及二者之间所有的分数和整数。

应了解，为简洁起见在单独实施例的上下文中描述的本发明的某些特征还可以组合提供于单个实施例中。相反地，为简洁起见在单个实施例的上下文中描述的本发明的各个特征也可以单独地或以任何合适的子组合或作为本发明的任何合适的其它实施例提供。在各个实施例的上下文中描述的某些特征未视为那些实施例的基本特征，除非没有这些元素所述实施例无效。

尽管本发明是结合了特定实施例进行描述，但是很显然本领域技术人员了解许多替代性方案、修改和变化。相应地，所有属于所附权利要求书的精神和范围的这些替代性方案、修改和变化都包括在本发明之内。

此处，本说明书中提及的所有出版物、专利和专利说明书都通过引用本说明书结合在本说明书中，同样，每个单独的出版物、专利或专利说明书也具体且单独地结合在此。此外，对本申请的任何参考的引用或识别不可当做是允许这样的参考在现有技术中优先于本发明。就使用节标题而言，不应该将节标题理解成必要的限定。此外，本申请的任何一个或多个优先文档通过引用将其全部并入本文。

Claims

1.一种通过分析描绘人群的图像来检测人群行为异常的系统，其特征在于，包括：

用于执行代码的至少一个处理器，用于：

使用至少一个机器学习模型，从描绘人群的场景的至少一个捕获图像中提取第一特征集，所述至少一个机器学习模型通过训练数据集训练，所述训练数据集包括描绘人群正常行为的多个图像；

使用至少一种光流分析算法从描绘所述场景的多个连续图像中提取第二特征集，所述至少一种光流分析算法用于估计所述人群中至少部分人的运动模式；

通过将所述第一特征集与所述第二特征集进行拼接，创建拼接特征集；

检测所述人群中至少一人的行为中的至少一个异常，所述至少一个异常由应用于所述拼接特征集的至少一种分类算法检测到的相应的离群值所识别；以及

输出所述至少一个异常的指示。

2.根据权利要求1所述的系统，其特征在于，在使用所述训练数据集训练所述至少一个机器学习模型之前，通过使用至少一种聚类算法去除在所述至少一个图像中识别的至少一个离群值来调整所述训练数据集。

3.根据权利要求1所述的系统，其特征在于，还包括：通过使用额外的人群数据集训练所述至少一个机器学习模型来提高所述至少一个机器学习模型的性能，所述额外的人群数据集包括大规模人群视频数据集，所述大规模人群视频数据集用于解释被命名为“谁在哪里做什么”(Who do What at some Where，简称WWW)的拥挤场景。

4.根据前述权利要求任一项所述的系统，其特征在于，所述至少一个机器学习模型由残差卷积神经网络使用。

5.根据前述权利要求任一项所述的系统，其特征在于，所述至少一个处理器用于通过将从所述至少一个训练后的机器学习模型的全局平均池化层提取的特征堆叠在一起来创建所述第一特征集。

6.根据前述权利要求任一项所述的系统，其特征在于，对于所述至少一个图像，所述全局平均池化层的尺寸为2048。

7.根据前述权利要求任一项所述的系统，其特征在于，所述至少一个处理器还用于通过将所述至少一种光流分析算法从构成各个所述多个连续图像中的多个非重叠块中的每一块提取的多个光流方向堆叠在一起来创建所述第二特征集。

8.根据权利要求1所述的系统，其特征在于，用于识别所述拼接特征集中的离群值的所述至少一种分类算法由k个最近邻居(k-nearest neighbor，简称k-NN)算法使用，所述k-NN算法用于基于所述拼接特征集中特征之间的距离识别所述拼接特征集中的至少一个离群值特征。

9.根据权利要求1所述的系统，其特征在于，用于识别所述拼接特征集中的离群值的所述至少一种分类算法由核密度估计(kernel density estimation，简称KDE)算法使用，所述KDE算法用于估计所述拼接特征集的至少一个特征的概率密度函数。

10.根据前述权利要求任一项所述的系统，其特征在于，还包括基于多帧分析检测所述至少一个异常，在所述多帧分析中，所述至少一个训练后的机器学习模型应用于描绘所述场景的多个连续图像。

11.一种通过分析描绘人群的图像来检测人群行为异常的计算机实现的方法，其特征在于，

包括：

输出所述至少一个异常的指示。