CN109299646A

CN109299646A - 人群异常事件检测方法、装置、系统和存储介质

Info

Publication number: CN109299646A
Application number: CN201810817604.3A
Authority: CN
Inventors: 徐子尧; 张弛
Original assignee: Beijing Megvii Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd
Priority date: 2018-07-24
Filing date: 2018-07-24
Publication date: 2019-02-01
Anticipated expiration: 2038-07-24
Also published as: CN109299646B

Abstract

本发明提供了一种人群异常事件检测方法、装置、系统和存储介质，该方法包括：获取待检测的视频，并针对视频的部分或全部视频帧进行行人骨架姿态提取，以得到视频帧中每一帧的行人骨架信息；针对视频帧中的每个行人，基于同一行人在视频帧中的所有行人骨架信息生成该行人的骨架信息时间序列；将视频帧中两个或两个以上不同行人的骨架信息时间序列进行组合形成序列组，并利用循环神经网络对序列组进行分类，以检测序列组所对应的行人之间是否发生异常事件。本发明的人群异常事件检测方法通过行人骨架姿态提取算法获取行人的骨架信息，然后采用循环神经网络基于行人时序上的骨架信息判别检测异常情况，能够大幅度提高人群异常事件检测的准确率。

Description

人群异常事件检测方法、装置、系统和存储介质

技术领域

本发明涉及行人检测技术领域，更具体地涉及一种人群异常事件检测方法、装置、系统和存储介质。

背景技术

在视频结构化的诸多应用中，行人的行为识别以及异常事件检测非常重要，可以在城市治安情况监测任务中发挥重要作用。

目前，针对视频中人群异常事件(例如打架斗殴)的检测，绝大多数方法是提取视频中的运动矢量信息，通过运动矢量信息得到运动剧烈情况的描述特征，或者直接在这些运动信息上训练分类模型，得到预测结果。然而，这种方法在本质上并没有理解视频中人物在时序上的行为，因此可能出现将非异常事件(例如广场舞)识别检测为异常事件的情况，从而导致人群异常事件的检测难以实现较高的准确性。

发明内容

本发明提出了一种关于人群异常事件检测的方案，其通过行人骨架姿态提取算法获取行人的骨架信息，然后采用循环神经网络基于行人时序上的骨架信息判别检测异常情况，能够大幅度提高人群异常事件检测的准确率。下面简要描述本发明提出的关于人群异常事件检测的方案，更多细节将在后续结合附图在具体实施方式中加以描述。

根据本发明一方面，提供了一种人群异常事件检测方法，所述方法包括：获取待检测的视频，并针对所述视频的部分或全部视频帧进行行人骨架姿态提取，以得到所述视频帧中每一帧的行人骨架信息；针对所述视频帧中的每个行人，基于同一行人在所述视频帧中的所有行人骨架信息生成该行人的骨架信息时间序列；以及将所述视频帧中两个或两个以上不同行人的骨架信息时间序列进行组合形成序列组，并利用循环神经网络对所述序列组进行分类，以检测所述序列组所对应的行人之间是否发生异常事件。

在一个实施例中，所述视频帧中的所述同一行人的检测是基于所述视频帧中相邻两帧的行人骨架信息。

在一个实施例中，所述视频帧中每个行人的行人骨架信息表示为若干个人体关键点的位置信息，且所述视频帧中的所述同一行人的检测包括：根据所述位置信息计算所述视频帧中相邻两帧之间相对应的人体关键点对之间的欧氏距离；以及基于所述欧式距离，利用二分图匹配算法匹配所述相邻两帧中的所有骨架，以检测所述相邻两帧中的同一行人。

在一个实施例中，在形成所述序列组时，如果所述序列组中任一序列在任一时间点t处缺失行人骨架信息，则执行以下中的任一项：基于所述序列组中有所述缺失的序列在所述时间点t的前一时间点和后一时间点处的行人骨架信息对所述时间点t处进行插值；将所述序列组中有所述缺失的序列在所述时间点t处的行人骨架信息填充为预设值；以及将所述序列组中没有所述缺失的其他序列在所述时间点t处的行人骨架信息舍弃。

在一个实施例中，所述循环神经网络为长短期记忆循环神经网络。

在一个实施例中，所述利用循环神经网络对所述序列组进行分类包括：将所述序列组中的各个序列各自通过所述长短期记忆循环神经网络进行分类，并将所述各个序列各自的分类结果进行融合以得到最终的分类结果；或者将所述序列组中的序列两两组合形成序列对，将所述序列对输入到所述长短期记忆循环神经网络进行分类，并将各序列对各自的分类结果进行融合以得到最终的分类结果。

在一个实施例中，所述各个序列各自的分类结果以及所述各序列对各自的分类结果均为位于区间[0,1]之间的数，并且：所述将所述各个序列各自的分类结果进行融合包括：将所述各个序列各自的分类结果进行求和平均或者加权平均；所述将各序列对各自的分类结果进行融合包括：将所述各序列对各自的分类结果进行求和平均或者加权平均。

在一个实施例中，所述检测所述序列组所对应的行人之间是否发生异常事件包括：确定所述最终的分类结果是否大于预设阈值；如果所述最终的分类结果大于所述预设阈值，则确定所述序列组所对应的行人之间发生异常事件；以及如果所述最终的分类结果不大于所述预设阈值时，则确定所述序列组所对应的行人之间没有发生异常事件。

在一个实施例中，所述方法还包括：当确定所述序列组所对应的行人之间发生异常事件时，触发警报。

在一个实施例中，所述视频的部分视频帧是针对所述视频每间隔N帧抽取一帧而得到的，其中N为自然数，且N大于等于1。

根据本发明另一方面，提供了一种人群异常事件检测装置，所述装置包括：提取模块，用于获取待检测的视频，并针对所述视频的部分或全部视频帧进行行人骨架姿态提取，以得到所述视频帧中每一帧的行人骨架信息；生成模块，用于针对所述视频帧中的每个行人，基于同一行人在所述视频帧中的所有行人骨架信息生成该行人的骨架信息时间序列；以及分类模块，用于将所述视频帧中两个或两个以上不同行人的骨架信息时间序列进行组合形成序列组，并利用循环神经网络对所述序列组进行分类，以检测所述序列组所对应的行人之间是否发生异常事件。

在一个实施例中，在形成所述序列组时，如果所述序列组中任一序列在任一时间点t处缺失行人骨架信息，则所述生成模块执行以下中的任一项：基于所述序列组中有所述缺失的序列在所述时间点t的前一时间点和后一时间点处的行人骨架信息对所述时间点t处进行插值；将所述序列组中有所述缺失的序列在所述时间点t处的行人骨架信息填充为预设值；以及将所述序列组中没有所述缺失的其他序列在所述时间点t处的行人骨架信息舍弃。

在一个实施例中，所述分类模块利用循环神经网络对所述序列组进行分类包括：将所述序列组中的各个序列各自通过所述长短期记忆循环神经网络进行分类，并将所述各个序列各自的分类结果进行融合以得到最终的分类结果；或者将所述序列组中的序列两两组合形成序列对，将所述序列对输入到所述长短期记忆循环神经网络进行分类，并将各序列对各自的分类结果进行融合以得到最终的分类结果。

在一个实施例中，所述装置还包括报警模块，当所述分类模块确定所述序列组所对应的行人之间发生异常事件时，触发所述报警模块发出警报。

根据本发明又一方面，提供了一种人群异常事件检测系统，所述系统包括存储装置和处理器，所述存储装置上存储有由所述处理器运行的计算机程序，所述计算机程序在被所述处理器运行时执行上述任一项所述的人群异常事件检测方法。

根据本发明再一方面，提供了一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序在运行时执行上述任一项所述的人群异常事件检测方法。

根据本发明实施例的人群异常事件检测方法、装置、系统和存储介质通过行人骨架姿态提取算法获取行人的骨架信息，然后采用循环神经网络基于行人时序上的骨架信息判别检测异常情况，能够大幅度提高人群异常事件检测的准确率。

附图说明

通过结合附图对本发明实施例进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与本发明实施例一起用于解释本发明，并不构成对本发明的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1示出用于实现根据本发明实施例的人群异常事件检测方法、装置、系统和存储介质的示例电子设备的示意性框图；

图2示出根据本发明实施例的人群异常事件检测方法的示意性流程图；

图3示出根据本发明实施例的人群异常事件检测装置的示意性框图；以及

图4示出根据本发明实施例的人群异常事件检测系统的示意性框图。

具体实施方式

为了使得本发明的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本发明的示例实施例。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是本发明的全部实施例，应理解，本发明不受这里描述的示例实施例的限制。基于本发明中描述的本发明实施例，本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。

首先，参照图1来描述用于实现本发明实施例的人群异常事件检测方法、装置、系统和存储介质的示例电子设备100。

如图1所示，电子设备100包括一个或多个处理器102、一个或多个存储装置104、输入装置106以及输出装置108，这些组件通过总线系统110和/或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备也可以具有其他组件和结构。

所述处理器102可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，并且可以控制所述电子设备100中的其它组件以执行期望的功能。

所述存储装置104可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器102可以运行所述程序指令，以实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

所述输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

所述输出装置108可以向外部(例如用户)输出各种信息(例如图像或声音)，并且可以包括显示器、扬声器等中的一个或多个。

示例性地，用于实现根据本发明实施例的人群异常事件检测方法和装置的示例电子设备可以为诸如智能手机、平板电脑等等移动终端。示例性地，用于实现根据本发明实施例的人群异常事件检测方法和装置的示例电子设备也可以为任何具有计算能力的计算设备。

下面，将参考图2描述根据本发明实施例的人群异常事件检测方法200。如图2所示，人群异常事件检测方法200可以包括如下步骤：

在步骤S210，获取待检测的视频，并针对所述视频的部分或全部视频帧进行行人骨架姿态提取，以得到所述视频帧中每一帧的行人骨架信息。

在一个示例中，步骤S210所获取的待检测的视频可以为监控视频。在其他示例中，步骤S210所获取的待检测的视频也可以为任何需要进行人群异常事件检测的其他视频。在一个示例中，步骤S210所获取的待检测的视频可以为来自任何源的视频。在其他示例中，步骤S210所获取的待检测的视频也可以为实时采集的视频。

在本发明的实施例中，对步骤S210所获取的视频进行行人骨架姿态提取，可以大幅度提高人群异常事件(异常事件可以理解为在某一场景中不寻常的位置或不寻常的时刻发生的动作，或者在某一场景中正常位置、正常时刻发生的不寻常的动作等，异常事件中的动作可以是姿态幅度较大，且行人之间具有非同步姿态的动作，诸如打架斗殴事件等)的识别准确率。在一个示例中，可以对步骤S210所获取的视频的全部视频帧进行行人骨架姿态提取，以得到全部视频帧中每一帧的行人骨架信息。其中，行人骨架信息可以包括行人的若干个人体关键点的位置信息。获取全部视频帧的行人骨架信息有利于提高后续异常事件检测识别的精确度。在另一个示例中，也可以对步骤S210所获取的视频的部分视频帧进行行人骨架姿态提取，以得到该部分视频帧中每一帧的行人骨架信息。示例性地，可以通过对步骤S210所获取的视频每间隔N帧抽取一帧而得到用于进行行人骨架姿态提取的部分视频帧，其中N为自然数，且N大于等于1。在其他示例中，也可以通过其他任何合适的方式从步骤S210所获取的视频中抽取用于进行行人骨架姿态提取的所述部分视频帧。由于一般视频中相邻帧之间存在着较大的冗余，因此仅抽取部分视频帧进行行人骨架姿态可以在不损失信息的情况下提升运算效率。

基于行人骨架姿态提取后所得到的行人骨架信息，可进行方法200后续的操作，下面继续参考图2。

在步骤S220，针对所述视频帧中的每个行人，基于同一行人在所述视频帧中的所有行人骨架信息生成该行人的骨架信息时间序列。

在本发明的实施例中，基于步骤S210所得到的行人骨架信息，生成每个行人各自的骨架信息时间序列，也就是获取每个行人在时序上的动作信息。基于每个行人在时序上的动作信息，可以更准确地理解行人的动作信息，判断是否真的发生打架斗殴等异常事件，而不会将其他包含动作的事件(例如广场舞等)错判为异常事件。

具体地，可以首先基于步骤S210处理之后所得到的视频帧中相邻两帧的行人骨架信息检测这两帧中相同的行人，并将同一行人的行人骨架信息组合起来，并按照这样的方式推广至步骤S210处理之后所得到的所有视频帧，将同一行人的行人骨架信息连成时间上的序列，从而得到该行人的骨架信息时间序列。此处，术语“步骤S210处理之后所得到的视频帧”可以这样理解：假定步骤S210中是对所获取视频的全部视频帧进行了行人骨架姿态提取，则后续步骤S220到S230的处理均是针对全部视频帧进行处理，此处“步骤S210处理之后所得到的视频帧”即指的是全部视频帧；假定步骤S210中是对所获取视频的部分视频帧进行了行人骨架姿态提取，则后续步骤S220到S230的处理均是针对该部分视频帧进行处理，此处“步骤S210处理之后所得到的视频帧”即指的是部分视频帧。为了描述方便，下文中将“步骤S210处理之后所得到的视频帧”简称为“视频帧”。

在一个实施例中，视频帧中每个行人的行人骨架信息可以表示为若干个人体关键点(例如15个点，分别表示头、颈、左肩、右肩、左手、右手、左手肘、右手肘、左髋、右髋、左膝、右膝、左脚、右脚等)的位置信息。基于这样的行人骨架信息，可通过下述的方式判断视频帧中相同的行人，该方式可以为：根据所述位置信息计算视频帧中相邻两帧之间相对应的人体关键点对之间的欧氏距离；基于所述欧式距离，利用二分图匹配算法匹配所述相邻两帧中的所有骨架，以检测所述相邻两帧中的同一行人。以此类推，可以检测到视频帧的所有帧中的相同行人，从而可以基于上述的方式获得同一行人的骨架信息时间序列，即可以得到各个行人各自的骨架信息时间序列。当然，上述检测同一行人的方式仅是示例性的，还可以通过其他合适的方式对同一行人进行检测。

基于所得到的视频帧中各个行人的骨架信息时间序列，可进行方法200后续的操作，下面继续参考图2。

在步骤S230，将所述视频帧中两个或两个以上不同行人的骨架信息时间序列进行组合形成序列组，并利用循环神经网络对所述序列组进行分类，以检测所述序列组所对应的行人之间是否发生异常事件。

在本发明的实施例中，可以通过判断视频帧中任意两个行人之间是否发生异常事件来判断是否发生人群异常事件。基于此，可以将视频帧中所有行人的骨架信息时间序列两两组合形成序列对，并利用循环神经网络判断序列对所对应的两个行人之间是否发生异常事件。在其他实施例中，也可以通过判断视频帧中任意三个行人或更多行人之间是否发生异常事件来判断是否发生人群异常事件。基于此，可以将视频帧中所有行人的骨架信息时间序列三三组合或更多数目的组合形成序列组，并利用循环神经网络判断序列组所对应的行人之间是否发生异常事件。为了简单起见，下面举例描述判断视频帧中任意两个行人之间是否发生异常事件的过程。

例如，视频帧中包括行人A、B和C，其各自的骨架信息时间序列分别为{a1,a2,a3,……an}、{b1,b2,b3,……bn}和{c1,c2,c3,……cn}。可以将行人A、B、C的骨架信息时间序列两两组合成序列对，例如可以形成第一序列对{(a1,b1),(a2,b2),…(an,bn)}，并基于第一序列对判断行人A和行人B之间是否发生异常事件；类似地，可以形成第二序列对{(b1,c1),(b2,c2),…(bn,cn)}，并基于第二序列对判断行人B和行人C之间是否发生异常事件；类似地，可以形成第三序列对{(a1,c1),(a2,c2),…(an,cn)}，并基于第三序列对判断行人A和行人C之间是否发生异常事件。

其中，在形成上述序列对时，如果所述序列对中任一序列在任一时间点t处缺失行人骨架信息，则可以执行以下中的任一项：(1)基于所述序列对中有所述缺失的序列在所述时间点t的前一时间点和后一时间点处的行人骨架信息对所述时间点t处进行插值；(2)将所述序列对中有所述缺失的序列在所述时间点t处的行人骨架信息填充为预设值；以及(3)将所述序列对中没有所述缺失的另一序列在所述时间点t处的行人骨架信息舍弃。例如，在形成上述第一序列对时，如果在时间点t处，行人A的骨架信息时间序列缺失行人骨架信息(例如在某一帧中行人B有出现而行人A没有出现)，则可以通过插值或填充预设值的方式补充该缺失的行人骨架信息，亦可以直接将行人B在此处的行人骨架信息舍弃，以保证序列对在时间上的对应性，即确保在同一时间序列上判断行人A和行人B之间的交互是否为异常。

基于上述得到的序列对，可以通过循环神经网络对其进行分类，并基于分类结果判断该序列对所对应的两个行人之间是否发生异常事件。在本发明的实施例中，可以采用长短期记忆循环神经网络(LSTM-RNN，Long Short-Term Memory Recurrent NeuralNetworks)对序列对进行分类。具体地，利用长短期记忆循环神经网络对序列对进行分类可以包括：将所述序列对中的两个序列各自通过所述长短期记忆循环神经网络进行分类，并将所述两个序列各自的分类结果进行融合以得到最终的分类结果；或者将所述序列对直接输入到所述长短期记忆循环神经网络进行分类以得到最终的分类结果。其中，所述两个序列各自的分类结果可以为位于区间[0,1]之间的数，将所述两个序列各自的分类结果进行的融合可以包括：将所述两个序列各自的分类结果进行求和平均或者加权平均，以得到所述最终的分类结果。

最终的分类结果可以表示序列对所对应的两个行人之间发生异常事件的概率。在一个示例中，如果所述最终的分类结果大于预设阈值，则可以确定所述序列对所对应的两个行人之间发生异常事件；反之，如果所述最终的分类结果不大于所述预设阈值时，则可以确定所述序列对所对应的两个行人之间没有发生异常事件。进一步地，当确定所述序列对所对应的两个行人之间发生异常事件时，还可以触发警报，提醒警务人员及时出警针对异常事件进行处理。

以上示例性地描述了判断视频帧中任意两个行人之间是否发生异常事件的过程。应该理解，判断视频帧中任意两个以上行人之间是否发生异常事件的过程也是类似的。不同之处在于，判断频帧中任意两个行人之间是否发生异常事件是将视频帧中任意两个行人的骨架信息时间序列组合形成序列对，而判断视频帧中任意两个以上行人之间是否发生异常事件是将视频帧中两个以上不同行人的骨架信息时间序列进行组合形成序列组。

此外，与上面描述的形成序列对的过程类似的，在形成序列组时，如果所述序列组中任一序列在任一时间点t处缺失行人骨架信息，则可执行以下中的任一项：基于所述序列组中有所述缺失的序列在所述时间点t的前一时间点和后一时间点处的行人骨架信息对所述时间点t处进行插值；将所述序列组中有所述缺失的序列在所述时间点t处的行人骨架信息填充为预设值；以及将所述序列组中没有所述缺失的其他序列在所述时间点t处的行人骨架信息舍弃。

此外，与上面描述的利用循环神经网络对序列对进行分类的过程类似的，利用循环神经网络(例如长短期记忆循环神经网络)对序列组进行分类可以包括：将所述序列组中的各个序列各自通过所述长短期记忆循环神经网络进行分类，并将所述各个序列各自的分类结果进行融合以得到最终的分类结果；或者将所述序列组中的序列两两组合形成序列对，将所述序列对输入到所述长短期记忆循环神经网络进行分类，并将各序列对各自的分类结果进行融合以得到最终的分类结果。其中，所述各个序列各自的分类结果以及所述各序列对各自的分类结果均为位于区间[0,1]之间的数，并且：所述将所述各个序列各自的分类结果进行融合可以包括：将所述各个序列各自的分类结果进行求和平均或者加权平均；所述将各序列对各自的分类结果进行融合可以包括：将所述各序列对各自的分类结果进行求和平均或者加权平均。

此外，与上面描述的检测序列对所对应的两个行人之间是否发生异常事件的过程类似的，检测序列组所对应的行人之间是否发生异常事件可以包括：确定所述最终的分类结果是否大于预设阈值；如果所述最终的分类结果大于所述预设阈值，则确定所述序列组所对应的行人之间发生异常事件；以及如果所述最终的分类结果不大于所述预设阈值时，则确定所述序列组所对应的行人之间没有发生异常事件。进一步地，当确定序列组所对应的行人之间发生异常事件时，可以触发警报，提醒警务人员及时出警针对异常事件进行处理。

基于上面的描述，根据本发明实施例的人群异常事件检测方法通过行人骨架姿态提取算法获取行人的骨架信息，然后采用循环神经网络基于行人时序上的骨架信息判别检测异常情况，能够大幅度提高人群异常事件检测的准确率。

以上示例性地描述了根据本发明实施例的人群异常事件检测方法。示例性地，根据本发明实施例的人群异常事件检测方法可以在具有存储器和处理器的设备、装置或者系统中实现。

此外，根据本发明实施例的人群异常事件检测方法可以方便地部署到智能手机、平板电脑、个人计算机等移动设备上。替代地，根据本发明实施例的人群异常事件检测方法还可以部署在服务器端(或云端)。替代地，根据本发明实施例的人群异常事件检测方法还可以分布地部署在服务器端(或云端)和个人终端处。

下面结合图3描述本发明另一方面提供的人群异常事件检测装置。图3示出了根据本发明实施例的人群异常事件检测装置300的示意性框图。

如图3所示，根据本发明实施例的人群异常事件检测装置300包括提取模块310、生成模块320和分类模块330。所述各个模块可分别执行上文中结合图2描述的人群异常事件检测方法的各个步骤/功能。以下仅对人群异常事件检测装置300的各模块的主要功能进行描述，而省略以上已经描述过的细节内容。

提取模块310用于获取待检测的视频，并针对所述视频的部分或全部视频帧进行行人骨架姿态提取，以得到所述视频帧中每一帧的行人骨架信息。生成模块320用于针对所述视频帧中的每个行人，基于同一行人在所述视频帧中的所有行人骨架信息生成该行人的骨架信息时间序列。分类模块330用于将所述视频帧中两个或两个以上不同行人的骨架信息时间序列进行组合形成序列组，并利用循环神经网络对所述序列组进行分类，以检测所述序列组所对应的行人之间是否发生异常事件。提取模块310、生成模块320和分类模块330均可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

在一个示例中，提取模块310所获取的待检测的视频可以为监控视频。在其他示例中，提取模块310所获取的待检测的视频也可以为任何需要进行人群异常事件检测的其他视频。在一个示例中，提取模块310所获取的待检测的视频可以为来自任何源的视频。在其他示例中，提取模块310所获取的待检测的视频也可以为实时采集的视频。

在本发明的实施例中，提取模块310对所获取的视频进行行人骨架姿态提取，可以大幅度提高人群异常事件(异常事件可以理解为在某一场景中不寻常的位置或不寻常的时刻发生的动作，或者在某一场景中正常位置、正常时刻发生的不寻常的动作等，异常事件中的动作可以是姿态幅度较大，且行人之间具有非同步姿态的动作，诸如打架斗殴事件等)的识别准确率。在一个示例中，提取模块310可以对所获取的视频的全部视频帧进行行人骨架姿态提取，以得到全部视频帧中每一帧的行人骨架信息。其中，行人骨架信息可以包括行人的若干个人体关键点的位置信息。获取全部视频帧的行人骨架信息有利于提高后续异常事件检测识别的精确度。在另一个示例中，提取模块310也可以对所获取的视频的部分视频帧进行行人骨架姿态提取，以得到该部分视频帧中每一帧的行人骨架信息。示例性地，提取模块310可以通过对所获取的视频每间隔N帧抽取一帧而得到用于进行行人骨架姿态提取的部分视频帧，其中N为自然数，且N大于等于1。在其他示例中，提取模块310也可以通过其他任何合适的方式从所获取的视频中抽取用于进行行人骨架姿态提取的所述部分视频帧。由于一般视频中相邻帧之间存在着较大的冗余，因此仅抽取部分视频帧进行行人骨架姿态可以在不损失信息的情况下提升运算效率。

在本发明的实施例中，基于提取模块310所得到的行人骨架信息，生成模块320生成每个行人各自的骨架信息时间序列，也就是获取每个行人在时序上的动作信息。基于每个行人在时序上的动作信息，可以更准确地理解行人的动作信息，判断是否真的发生打架斗殴等异常事件，而不会将其他包含动作的事件(例如广场舞等)错判为异常事件。

具体地，生成模块320可以首先基于提取模块310处理之后所得到的视频帧中相邻两帧的行人骨架信息检测这两帧中相同的行人，并将同一行人的行人骨架信息组合起来，并按照这样的方式推广至提取模块310处理之后所得到的所有视频帧，将同一行人的行人骨架信息连成时间上的序列，从而得到该行人的骨架信息时间序列。此处，术语“提取模块310处理之后所得到的视频帧”可以这样理解：假定提取模块310对所获取视频的全部视频帧进行了行人骨架姿态提取，则生成模块320和分类模块330的处理均是针对全部视频帧进行处理，此处“提取模块310处理之后所得到的视频帧”即指的是全部视频帧；假定提取模块310是对所获取视频的部分视频帧进行了行人骨架姿态提取，则生成模块320和分类模块330的处理均是针对该部分视频帧进行处理，此处“提取模块310处理之后所得到的视频帧”即指的是部分视频帧。为了描述方便，下文中将“提取模块310处理之后所得到的视频帧”简称为“视频帧”。

在一个实施例中，视频帧中每个行人的行人骨架信息可以表示为若干个人体关键点(例如15个点，分别表示头、颈、左肩、右肩、左手、右手、左手肘、右手肘、左髋、右髋、左膝、右膝、左脚、右脚等)的位置信息。基于这样的行人骨架信息，生成模块320可通过下述的方式判断视频帧中相同的行人，该方式可以为：根据所述位置信息计算视频帧中相邻两帧之间相对应的人体关键点对之间的欧氏距离；基于所述欧式距离，利用二分图匹配算法匹配所述相邻两帧中的所有骨架，以检测所述相邻两帧中的同一行人。以此类推，生成模块320可以检测到视频帧的所有帧中的相同行人，从而可以基于上述的方式获得同一行人的骨架信息时间序列，即可以得到各个行人各自的骨架信息时间序列。当然，上述检测同一行人的方式仅是示例性的，生成模块320还可以通过其他合适的方式对同一行人进行检测。

在本发明的实施例中，分类模块330可以通过判断视频帧中任意两个行人之间是否发生异常事件来判断是否发生人群异常事件。基于此，分类模块330可以将生成模块320生成的视频帧中所有行人的骨架信息时间序列两两组合形成序列对，并利用循环神经网络判断序列对所对应的两个行人之间是否发生异常事件。在其他实施例中，分类模块330也可以通过判断视频帧中任意三个行人或更多行人之间是否发生异常事件来判断是否发生人群异常事件。基于此，分类模块330可以将生成模块320生成的视频帧中所有行人的骨架信息时间序列三三组合或更多数目的组合形成序列组，并利用循环神经网络判断序列组所对应的行人之间是否发生异常事件。为了简单起见，下面举例描述分类模块330判断视频帧中任意两个行人之间是否发生异常事件的过程。

例如，视频帧中包括行人A、B和C，其各自的骨架信息时间序列分别为{a1,a2,a3,……an}、{b1,b2,b3,……bn}和{c1,c2,c3,……cn}。分类模块330可以将行人A、B、C的骨架信息时间序列两两组合成序列对，例如分类模块330可以形成第一序列对{(a1,b1),(a2,b2),…(an,bn)}，并基于第一序列对判断行人A和行人B之间是否发生异常事件；类似地，分类模块330可以形成第二序列对{(b1,c1),(b2,c2),…(bn,cn)}，并基于第二序列对判断行人B和行人C之间是否发生异常事件；类似地，分类模块330可以形成第三序列对{(a1,c1),(a2,c2),…(an,cn)}，并基于第三序列对判断行人A和行人C之间是否发生异常事件。

其中，在形成上述序列对时，如果所述序列对中任一序列在任一时间点t处缺失行人骨架信息，则分类模块330可以执行以下中的任一项：(1)基于所述序列对中有所述缺失的序列在所述时间点t的前一时间点和后一时间点处的行人骨架信息对所述时间点t处进行插值；(2)将所述序列对中有所述缺失的序列在所述时间点t处的行人骨架信息填充为预设值；以及(3)将所述序列对中没有所述缺失的另一序列在所述时间点t处的行人骨架信息舍弃。例如，在形成上述第一序列对时，如果在时间点t处，行人A的骨架信息时间序列缺失行人骨架信息(例如在某一帧中行人B有出现而行人A没有出现)，则分类模块330可以通过插值或填充预设值的方式补充该缺失的行人骨架信息，亦可以直接将行人B在此处的行人骨架信息舍弃，以保证序列对在时间上的对应性，即确保在同一时间序列上判断行人A和行人B之间的交互是否为异常。

基于上述得到的序列对，分类模块330可以通过循环神经网络对其进行分类，并基于分类结果判断该序列对所对应的两个行人之间是否发生异常事件。在本发明的实施例中，分类模块330可以采用长短期记忆循环神经网络(LSTM)对序列对进行分类。具体地，分类模块330利用长短期记忆循环神经网络对序列对进行分类可以包括：将所述序列对中的两个序列各自通过所述长短期记忆循环神经网络进行分类，并将所述两个序列各自的分类结果进行融合以得到最终的分类结果；或者将所述序列对直接输入到所述长短期记忆循环神经网络进行分类以得到最终的分类结果。其中，所述两个序列各自的分类结果可以为位于区间[0,1]之间的数，分类模块330将所述两个序列各自的分类结果进行的融合可以包括：将所述两个序列各自的分类结果进行求和平均或者加权平均，以得到所述最终的分类结果。

最终的分类结果可以表示序列对所对应的两个行人之间发生异常事件的概率。在一个示例中，如果所述最终的分类结果大于预设阈值，则分类模块330可以确定所述序列对所对应的两个行人之间发生异常事件；反之，如果所述最终的分类结果不大于所述预设阈值时，则分类模块330可以确定所述序列对所对应的两个行人之间没有发生异常事件。进一步地，装置300还可以包括报警模块(未在图3中示出)，当分类模块330确定所述序列对所对应的两个行人之间发生异常事件时，还可以触发报警模块发出警报，提醒警务人员及时出警针对异常事件进行处理。

以上示例性地描述了分类模块330判断视频帧中任意两个行人之间是否发生异常事件的过程。应该理解，分类模块330判断视频帧中任意两个以上行人之间是否发生异常事件的过程也是类似的。不同之处在于，分类模块330判断频帧中任意两个行人之间是否发生异常事件是将视频帧中任意两个行人的骨架信息时间序列组合形成序列对，而判断视频帧中任意两个以上行人之间是否发生异常事件是将视频帧中两个以上不同行人的骨架信息时间序列进行组合形成序列组。

此外，与上面描述的形成序列对的过程类似的，在形成序列组时，如果所述序列组中任一序列在任一时间点t处缺失行人骨架信息，则分类模块330可执行以下中的任一项：基于所述序列组中有所述缺失的序列在所述时间点t的前一时间点和后一时间点处的行人骨架信息对所述时间点t处进行插值；将所述序列组中有所述缺失的序列在所述时间点t处的行人骨架信息填充为预设值；以及将所述序列组中没有所述缺失的其他序列在所述时间点t处的行人骨架信息舍弃。

此外，与上面描述的分类模块330利用循环神经网络对序列对进行分类的过程类似的，分类模块330利用循环神经网络(例如长短期记忆循环神经网络)对序列组进行分类可以包括：将所述序列组中的各个序列各自通过所述长短期记忆循环神经网络进行分类，并将所述各个序列各自的分类结果进行融合以得到最终的分类结果；或者将所述序列组中的序列两两组合形成序列对，将所述序列对输入到所述长短期记忆循环神经网络进行分类，并将各序列对各自的分类结果进行融合以得到最终的分类结果。其中，所述各个序列各自的分类结果以及所述各序列对各自的分类结果均为位于区间[0,1]之间的数，并且：分类模块330将所述各个序列各自的分类结果进行融合可以包括：将所述各个序列各自的分类结果进行求和平均或者加权平均；分类模块330将各序列对各自的分类结果进行融合可以包括：将所述各序列对各自的分类结果进行求和平均或者加权平均。

此外，与上面描述的分类模块330检测序列对所对应的两个行人之间是否发生异常事件的过程类似的，分类模块330检测序列组所对应的行人之间是否发生异常事件可以包括：确定所述最终的分类结果是否大于预设阈值；如果所述最终的分类结果大于所述预设阈值，则确定所述序列组所对应的行人之间发生异常事件；以及如果所述最终的分类结果不大于所述预设阈值时，则确定所述序列组所对应的行人之间没有发生异常事件。进一步地，当分类模块330确定序列组所对应的行人之间发生异常事件时，可以触发报警模块发出警报，提醒警务人员及时出警针对异常事件进行处理。

基于上面的描述，根据本发明实施例的人群异常事件检测装置通过行人骨架姿态提取算法获取行人的骨架信息，然后采用循环神经网络基于行人时序上的骨架信息判别检测异常情况，能够大幅度提高人群异常事件检测的准确率。

图4示出了根据本发明实施例的人群异常事件检测系统400的示意性框图。人群异常事件检测系统400包括存储装置410以及处理器420。

其中，存储装置410存储用于实现根据本发明实施例的人群异常事件检测方法中的相应步骤的程序代码。处理器420用于运行存储装置410中存储的程序代码，以执行根据本发明实施例的人群异常事件检测方法的相应步骤，并且用于实现根据本发明实施例的人群异常事件检测装置中的相应模块。此外，人群异常事件检测系统400还可以包括图像采集装置(未在图4中示出)，其可以用于采集待检测的视频。当然，图像采集装置不是必需的，可直接接收来自其他源的待检测视频的输入。

在一个实施例中，在所述程序代码被处理器420运行时使得人群异常事件检测系统400执行以下步骤：获取待检测的视频，并针对所述视频的部分或全部视频帧进行行人骨架姿态提取，以得到所述视频帧中每一帧的行人骨架信息；针对所述视频帧中的每个行人，基于同一行人在所述视频帧中的所有行人骨架信息生成该行人的骨架信息时间序列；以及将所述视频帧中两个或两个以上不同行人的骨架信息时间序列进行组合形成序列组，并利用循环神经网络对所述序列组进行分类，以检测所述序列组所对应的行人之间是否发生异常事件。

在一个实施例中，在所述程序代码被处理器420运行时使得人群异常事件检测系统400执行的所述利用循环神经网络对所述序列组进行分类包括：将所述序列组中的各个序列各自通过所述长短期记忆循环神经网络进行分类，并将所述各个序列各自的分类结果进行融合以得到最终的分类结果；或者将所述序列组中的序列两两组合形成序列对，将所述序列对输入到所述长短期记忆循环神经网络进行分类，并将各序列对各自的分类结果进行融合以得到最终的分类结果。

在一个实施例中，所述各个序列各自的分类结果以及所述各序列对各自的分类结果均为位于区间[0,1]之间的数，且在所述程序代码被处理器420运行时使得人群异常事件检测系统400执行的将所述各个序列各自的分类结果进行融合包括：将所述各个序列各自的分类结果进行求和平均或者加权平均；在所述程序代码被处理器420运行时使得人群异常事件检测系统400执行的所述将各序列对各自的分类结果进行融合包括：将所述各序列对各自的分类结果进行求和平均或者加权平均。

在一个实施例中，在所述程序代码被处理器420运行时还使得人群异常事件检测系统400执行以下步骤：当确定所述序列组所对应的行人之间发生异常事件时，触发警报。

此外，根据本发明实施例，还提供了一种存储介质，在所述存储介质上存储了程序指令，在所述程序指令被计算机或处理器运行时用于执行本发明实施例的人群异常事件检测方法的相应步骤，并且用于实现根据本发明实施例的人群异常事件检测装置中的相应模块。所述存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。所述计算机可读存储介质可以是一个或多个计算机可读存储介质的任意组合。

在一个实施例中，所述计算机程序指令在被计算机运行时可以实现根据本发明实施例的人群异常事件检测装置的各个功能模块，并且/或者可以执行根据本发明实施例的人群异常事件检测方法。

在一个实施例中，所述计算机程序指令在被计算机或处理器运行时使计算机或处理器执行以下步骤：获取待检测的视频，并针对所述视频的部分或全部视频帧进行行人骨架姿态提取，以得到所述视频帧中每一帧的行人骨架信息；针对所述视频帧中的每个行人，基于同一行人在所述视频帧中的所有行人骨架信息生成该行人的骨架信息时间序列；以及将所述视频帧中两个或两个以上不同行人的骨架信息时间序列进行组合形成序列组，并利用循环神经网络对所述序列组进行分类，以检测所述序列组所对应的行人之间是否发生异常事件。

在一个实施例中，所述计算机程序指令在被计算机或处理器运行时使计算机或处理器执行的所述利用循环神经网络对所述序列组进行分类包括：将所述序列组中的各个序列各自通过所述长短期记忆循环神经网络进行分类，并将所述各个序列各自的分类结果进行融合以得到最终的分类结果；或者将所述序列组中的序列两两组合形成序列对，将所述序列对输入到所述长短期记忆循环神经网络进行分类，并将各序列对各自的分类结果进行融合以得到最终的分类结果。

在一个实施例中，所述各个序列各自的分类结果以及所述各序列对各自的分类结果均为位于区间[0,1]之间的数，且所述计算机程序指令在被计算机或处理器运行时使计算机或处理器执行的所述将所述各个序列各自的分类结果进行融合包括：将所述各个序列各自的分类结果进行求和平均或者加权平均；所述计算机程序指令在被计算机或处理器运行时使计算机或处理器执行的所述将各序列对各自的分类结果进行融合包括：将所述各序列对各自的分类结果进行求和平均或者加权平均。

在一个实施例中，所述计算机程序指令在被计算机或处理器运行时还使计算机或处理器执行以下步骤：当确定所述序列组所对应的行人之间发生异常事件时，触发警报。

根据本发明实施例的人群异常事件检测装置中的各模块可以通过根据本发明实施例的人群异常事件检测的电子设备的处理器运行在存储器中存储的计算机程序指令来实现，或者可以在根据本发明实施例的计算机程序产品的计算机可读存储介质中存储的计算机指令被计算机运行时实现。

根据本发明实施例，还提供了一种计算机程序，该计算机程序可以存储在云端或本地的存储介质上。在该计算机程序被计算机或处理器运行时用于执行本发明实施例的人群异常事件检测方法的相应步骤，并且用于实现根据本发明实施例的人群异常事件检测装置中的相应模块。

尽管这里已经参考附图描述了示例实施例，应理解上述示例实施例仅仅是示例性的，并且不意图将本发明的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改，而不偏离本发明的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本发明的范围之内。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个设备，或一些特征可以忽略，或不执行。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该本发明的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如相应的权利要求书所反映的那样，其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域的技术人员可以理解，除了特征之间相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述，仅为本发明的具体实施方式或对具体实施方式的说明，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种人群异常事件检测方法，其特征在于，所述方法包括：

获取待检测的视频，并针对所述视频的部分或全部视频帧进行行人骨架姿态提取，以得到所述视频帧中每一帧的行人骨架信息；

针对所述视频帧中的每个行人，基于同一行人在所述视频帧中的所有行人骨架信息生成该行人的骨架信息时间序列；以及

将所述视频帧中两个或两个以上不同行人的骨架信息时间序列进行组合形成序列组，并利用循环神经网络对所述序列组进行分类，以检测所述序列组所对应的行人之间是否发生异常事件。

2.根据权利要求1所述的方法，其特征在于，所述视频帧中的所述同一行人的检测是基于所述视频帧中相邻两帧的行人骨架信息。

3.根据权利要求2所述的方法，其特征在于，所述视频帧中每个行人的行人骨架信息表示为若干个人体关键点的位置信息，且所述视频帧中的所述同一行人的检测包括：

根据所述位置信息计算所述视频帧中相邻两帧之间相对应的人体关键点对之间的欧氏距离；以及

基于所述欧式距离，利用二分图匹配算法匹配所述相邻两帧中的所有骨架，以检测所述相邻两帧中的同一行人。

4.根据权利要求1所述的方法，其特征在于，在形成所述序列组时，如果所述序列组中任一序列在任一时间点t处缺失行人骨架信息，则执行以下中的任一项：

基于所述序列组中有所述缺失的序列在所述时间点t的前一时间点和后一时间点处的行人骨架信息对所述时间点t处进行插值；

将所述序列组中有所述缺失的序列在所述时间点t处的行人骨架信息填充为预设值；以及

将所述序列组中没有所述缺失的其他序列在所述时间点t处的行人骨架信息舍弃。

5.根据权利要求1所述的方法，其特征在于，所述循环神经网络为长短期记忆循环神经网络。

6.根据权利要求5所述的方法，其特征在于，所述利用循环神经网络对所述序列组进行分类包括：

将所述序列组中的各个序列各自通过所述长短期记忆循环神经网络进行分类，并将所述各个序列各自的分类结果进行融合以得到最终的分类结果；或者

将所述序列组中的序列两两组合形成序列对，将所述序列对输入到所述长短期记忆循环神经网络进行分类，并将各序列对各自的分类结果进行融合以得到最终的分类结果。

7.根据权利要求6所述的方法，其特征在于，所述各个序列各自的分类结果以及所述各序列对各自的分类结果均为位于区间[0,1]之间的数，并且：

所述将所述各个序列各自的分类结果进行融合包括：将所述各个序列各自的分类结果进行求和平均或者加权平均；

所述将各序列对各自的分类结果进行融合包括：将所述各序列对各自的分类结果进行求和平均或者加权平均。

8.根据权利要求6或7所述的方法，其特征在于，所述检测所述序列组所对应的行人之间是否发生异常事件包括：

确定所述最终的分类结果是否大于预设阈值；

如果所述最终的分类结果大于所述预设阈值，则确定所述序列组所对应的行人之间发生异常事件；以及

如果所述最终的分类结果不大于所述预设阈值时，则确定所述序列组所对应的行人之间没有发生异常事件。

9.根据权利要求8所述的方法，其特征在于，所述方法还包括：当确定所述序列组所对应的行人之间发生异常事件时，触发警报。

10.根据权利要求1所述的方法，其特征在于，所述视频的部分视频帧是针对所述视频每间隔N帧抽取一帧而得到的，其中N为自然数，且N大于等于1。

11.一种人群异常事件检测装置，其特征在于，所述装置包括：

提取模块，用于获取待检测的视频，并针对所述视频的部分或全部视频帧进行行人骨架姿态提取，以得到所述视频帧中每一帧的行人骨架信息；

生成模块，用于针对所述视频帧中的每个行人，基于同一行人在所述视频帧中的所有行人骨架信息生成该行人的骨架信息时间序列；以及

分类模块，用于将所述视频帧中两个或两个以上不同行人的骨架信息时间序列进行组合形成序列组，并利用循环神经网络对所述序列组进行分类，以检测所述序列组所对应的行人之间是否发生异常事件。

12.一种人群异常事件检测系统，其特征在于，所述系统包括存储装置和处理器，所述存储装置上存储有由所述处理器运行的计算机程序，所述计算机程序在被所述处理器运行时执行如权利要求1-10中的任一项所述的人群异常事件检测方法。

13.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序在运行时执行如权利要求1-10中的任一项所述的人群异常事件检测方法。