CN112800944A

CN112800944A - 人群行为检测方法及装置、电子设备和存储介质

Info

Publication number: CN112800944A
Application number: CN202110106285.7A
Authority: CN
Inventors: 韩志伟; 刘诗男; 杨昆霖; 侯军; 伊帅
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2021-01-26
Filing date: 2021-01-26
Publication date: 2021-05-14
Anticipated expiration: 2041-01-26
Also published as: WO2022160591A1; KR20230090344A; CN112800944B

Abstract

本申请提出一种人群行为检测方法及装置、电子设备和存储介质。其中，上述方法可以包括，对包含多个对象的目标图像序列中出现的至少一个对象进行对象跟踪，确定每一对象在上述目标图像序列中的位置变化信息。基于上述目标图像序列中获得的上述位置变化信息进行图卷积处理，并基于上述图卷积获得的提取特征确定上述目标图像序列中的多个上述对象对应的人群行为。

Description

人群行为检测方法及装置、电子设备和存储介质

技术领域

本申请涉及计算机技术，具体涉及一种人群行为检测方法及装置、电子设备和存储介质。

背景技术

随着城镇化的推进，人群越来越集中，因此识别人群中是否发生异常行为或者发生了什么异常行为对于行人安全十分重要。如果可以准确识别人群异常行为，并对异常行为做出制止防范，即可减小危险事件发生概率。

例如，在安防场景下，通过图像采集设备(例如监控设备)可以采集包含行人的目标图像序列(视频序列)。若确定该目标图像序列中正在发生的行人行为属于诸如行人聚集、行人滞留等异常行为，即可马上安排进行人群疏导，避免出现诸如踩踏或群体恶性事件。

可见，亟需提出一种检测目标图像序列中人群行为的方法。

发明内容

有鉴于此，本申请至少公开一种人群行为检测方法，上述方法包括：

对包含多个对象的目标图像序列中出现的至少一个对象进行对象跟踪，确定每一对象在上述目标图像序列中的位置变化信息；

基于上述目标图像序列中获得的上述位置变化信息进行图卷积处理，并基于上述图卷积获得的提取特征确定上述目标图像序列中的多个上述对象对应的人群行为。

在示出的一些实施例中，上述对包含多个对象的目标图像序列中出现的至少一个对象进行对象跟踪，确定每一对象在上述目标图像序列中的位置变化信息，包括：

对上述目标图像序列包括的每一图像分别进行图像处理，确定上述每一对象分别在各图像中的位置信息；

对上述每一对象进行对象跟踪，以基于跟踪结果以及上述位置信息，确定上述每一对象在上述目标图像序列中的位置变化信息。

在示出的一些实施例中，上述对上述每一对象进行对象跟踪，以基于跟踪结果以及上述位置信息，确定上述每一对象在上述目标图像序列中的位置变化信息，包括：

利用卡尔曼滤波算法或者对象检测模型，对上述每一对象进行对象跟踪；

基于跟踪到的同一对象在各图像中的位置信息，确定上述每一对象的位置变化信息。

在示出的一些实施例中，上述基于上述目标图像序列中获得的上述位置变化信息进行图卷积处理，得到上述目标图像序列中的多个上述对象对应的人群行为，包括：

基于上述位置变化信息表征的上述目标图像序列包括的各图像中的对象位置信息以及上述各图像中对象之间的拓扑关系，对上述各图像分别进行空间图卷积处理，得到各图像分别对应的图特征；

对上述各图像分别对应的图特征进行时域卷积处理，并基于上述时域卷积处理得到的提取特征确定上述目标图像序列中的多个上述对象对应的人群行为；其中，上述人群行为至少包括以下中的至少一个：行人聚集；行人分散；行人滞留；行人逆流。

在示出的一些实施例中，上述基于上述位置变化信息表征的上述目标图像序列包括的各图像中的对象位置信息以及上述各图像中对象之间的拓扑关系，对上述各图像分别进行空间图卷积处理，得到各图像分别对应的图特征，包括：

基于上述各图像中对象之间的拓扑关系，确定上述各图像分别对应的邻接矩阵；

基于上述对象位置信息，确定上述各图像分别对应的特征矩阵；

基于上述邻接矩阵与上述特征矩阵完成上述空间图卷积处理，得到上述每一图像分别对应的图特征。

在示出的一些实施例中，上述基于上述目标图像序列中获得的上述位置变化信息进行图卷积处理，得到与上述目标图像序列对应的提取特征的步骤之前，还包括：

确定上述目标图像序列包括的各图像包含的任意两个对象之间的连接关系；

基于上述各图像包含的对象，以及确定的上述连接关系，分别确定上述各图像中对象之间的拓扑关系。

在示出的一些实施例中，上述确定上述目标图像序列包括的各图像包含的任意两个对象之间的连接关系，包括：

提取上述各图像包含的各对象对应的区域特征；上述区域特征表征各对象对应的背景特征；

基于各对象对应的区域特征，确定各对象中任意两个对象之间的相似度；

将未达到第一预设阈值的相似度对应的两个对象确定为具有连接关系的两个对象。

对上述各图像分别进行图像处理，确定上述对象在各图像中的位置信息；

基于各对象对应的位置信息，确定各对象中任意两个对象之间的距离；

基于上述距离确定各图像包含的任意两个对象之间的连接关系。

在示出的一些实施例中，上述基于上述距离确定各图像包含的任意两个对象之间的连接关系，包括：

将确定的任意两个对象之间的距离映射于由第三预设阈值与第四预设阈值形成的区间内；

将映射后的任意两个对象之间的距离确定为上述任意两个对象之间的连接权重；

通过上述任意两个对象之间的连接权重指示上述任意两个对象之间的连接关系。

在示出的一些实施例中，通过图卷积分类模型实现上述图卷积处理；

其中，上述图卷积分类模型的训练方法包括：

生成训练样本，其中，上述训练样本具有包含多个对象的位置变化信息，以及具有基于上述多个对象的位置变化信息的人群行为的标注信息；

基于上述位置变化信息和上述人群行为的标注信息对预设的图卷积模型进行训练，得到上述图卷积分类模型。

在示出的一些实施例中，上述生成训练样本，包括：

基于运动仿真平台，设置多个对象对应的运动模式；

基于上述运动模式，确定各对象对应的位置变化信息；

确定上述各对象对应的位置变化信息表征的人群行为；

基于上述位置变化信息，以及上述位置变化信息表征的人群行为，生成上述训练样本。

本申请还公开一种人群行为检测装置，上述装置包括：

位置变化信息确定模块，基于对包含多个对象的目标图像序列中出现的至少一个对象的对象跟踪结果，确定每一对象在上述目标图像序列中的位置变化信息；

人群行为检测模块，用于基于上述目标图像序列中获得的上述位置变化信息进行图卷积处理，并基于上述图卷积获得的提取特征确定上述目标图像序列中的多个上述对象对应的人群行为。

本申请还公开一种电子设备，上述设备包括：

处理器；

用于存储上述处理器可执行指令的存储器；

其中，上述处理器被配置为调用上述存储器中存储的可执行指令，实现前述人群行为检测方法。

本申请还公开一种计算机可读存储介质，上述存储介质存储有计算机程序，上述计算机程序用于执行前述人群行为检测方法。

在本申请中，通过对目标图像序列中出现的对象进行对象跟踪，确定上述对象在上述目标图像序列中的位置变化信息。然后再基于上述位置变化信息进行图卷积处理，得到与上述目标图像序列对应的提取特征，并基于上述提取特征确定上述目标图像序列中的多个上述对象对应的人群行为。从而实现利用图卷积原理，从目标图像序列确定出可以对检测人群行为有益的提取特征，进而实现上述目标图像序列表征的人群行为的精准检测。

应当理解的是，以上述的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

为了更清楚地说明本申请一个或多个实施例或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请一个或多个实施例中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请示出的一种目标图像序列分类方法的方法流程图；

图2为本申请示出的一种人群行为检测流程示意图；

图3为本申请示出的一种图像中对象拓扑关系的确定方法流程图；

图4为本申请示出的一种图卷积处理流程示意图；

图5为本申请示出的一种分类流程示意图；

图6为本申请示出的一种视频序列分类流程示意图；

图7为本申请示出的一种模型训练方法的方法流程图；

图8为本申请示出的一种人群行为检测装置的结构示意图；

图9为本申请示出的一种电子设备的硬件结构示意图。

具体实施方式

下面将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的设备和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“上述”和“该”也旨在可以包括多数形式，除非上述下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。还应当理解，本文中所使用的词语“如果”，取决于语境，可以被解释成为“在……时”或“当……时”或“响应于确定”。

本申请旨在提出一种人群行为检测方法(以下简称检测方法)。该方法利用图卷积原理，基于目标图像序列中出现的各对象对应的位置变化信息，从上述目标图像序列中，得到对确定上述目标图像序列中的多个上述对象对应的人群行为有益的提取特征。然后该方法可以继续基于上述提取特征进行分类，从而确定上述目标图像序列中的多个上述对象对应的人群行为。

比如，在安防场景中，上述目标图像序列可以是监控采集得到的视频序列；上述对象可以是出现在上述目标图像序列中的行人。上述人群行为的类型可以包括行人聚集、行人滞留以及行人分散等。通过上述方法可以利用图卷积原理，基于行人在视频中的位置变化信息确定出可以对确定人群行为有益的提取特征。然后再基于上述提取特征进行分类，从而确定该视频序列中正在发生的人群行为，并根据确定人群行为做出相应安排，减小危险事件发生概率。

请参见图1，图1为本申请示出的一种目标图像序列分类方法的方法流程图。

如图1所示，上述方法可以包括：

S102，对包含多个对象的目标图像序列中出现的至少一个对象进行对象跟踪，确定每一对象在上述目标图像序列中的位置变化信息。

S104，基于上述目标图像序列中获得的上述位置变化信息进行图卷积处理，并基于上述图卷积获得的提取特征确定上述目标图像序列中的多个上述对象对应的人群行为。

上述分类方法可以应用于电子设备中。其中，上述电子设备可以通过搭载与分类方法对应的软件系统执行上述分类方法。上述电子设备的类型可以是笔记本电脑，计算机，服务器，手机，PAD终端等。本申请不对上述电子设备的具体类型进行特别限定。

可以理解的是，上述分类方法既可以仅通过终端设备或服务端设备单独执行，也可以通过终端设备与服务端设备配合执行。

例如，上述分类方法可以集成于客户端。搭载该客户端的终端设备在接收到分类请求后，可以通过自身硬件环境提供算力执行上述分类方法。

又例如，上述分类方法可以集成于系统平台。搭载该系统平台的服务端设备在接收到分类请求后，可以通过自身硬件环境提供算力执行上述分类方法。

还例如，上述分类方法可以分为获取目标图像序列与对目标图像序列进行分类两个任务。其中，获取任务可以集成于客户端并搭载于终端设备。分类任务可以集成于服务端并搭载于服务端设备。上述终端设备可以在获取到目标图像序列后向上述服务端设备发起分类请求。上述服务端设备在接收到上述分类请求后，可以响应于上述请求对上述目标图像序列执行上述分类方法。

以下以执行主体为电子设备(以下简称设备)为例进行说明。

请继续参见图2，图2为本申请示出的一种人群行为检测流程示意图。

在进行图2示出的流程前，可以先获取目标图像序列。

上述目标图像序列是指包含多个行人对象、需要进行人群行为检测的图像序列。该目标图像序列中可以包括多帧图像。

在一些例子中，上述目标图像序列可以包括视频序列或多帧离散的图像序列。上述视频序列包括N帧连续的包含多个对象的图像；上述N为正整数。

在一些例子中，在获取上述目标图像序列时，上述设备可以通过与用户进行交互，完成目标图像序列的输入。例如，上述设备可以通过其搭载的界面为用户提供输入待处理目标图像序列的窗口，供用户输入目标图像序列。用户可以基于该窗口完成目标图像序列的输入。

在一些例子中，上述设备还可以与现场部署的图像采集设备(例如视频监控)进行连接，从而从上述图像采集设备处获取该设备采集到的目标图像序列。

在获取目标图像序列后，可以继续执行S102，对包含多个对象的目标图像序列中出现的至少一个对象进行对象跟踪，确定上述每一对象在上述目标图像序列中的位置变化信息。

上述对象跟踪，具体是指对出现在各帧图像中的同一对象进行跟踪。在进行对象跟踪时，确定各帧图像中出现的同一对象即完成了对象跟踪。例如，在安防场景下，上述对象跟踪即为行人跟踪。在进行行人跟踪时可以通过确定各图像出现的同一行人即可实现行人跟踪。

上述位置变化信息，具体可以指示对象在目标图像序列中的运动轨迹信息。例如，在安防场景下，可以对行人进行行人跟踪，可以确定出同一行人在各帧图像中的位置信息，从而确定该行人在图序列中的运动轨迹。可以理解的是，上述位置变化信息可以表征对象在各图像中的对象位置信息，以及时域信息。其中，上述对象位置信息可以表征对象坐标。上述时域信息可以表征对象的在各位置时对应的时间信息。

请继续参见图2，在本申请中可以将获取的目标图像序列输入对象跟踪单元执行上述S102。

上述对象跟踪单元，具体可以通过设备可执行的指令，执行S1022，利用对象位置预测模型，对上述每一图像分别进行位置预测处理，确定上述每一对象在各图像中的位置信息。

在本步骤中，可以利用对象位置预测模型，对上述各图像分别进行位置预测处理，确定上述对象在各图像中的位置信息。其中，上述对象位置预测模型包括基于若干标注了对象位置信息的训练样本训练得到的模型。

可以理解的是，上述对象位置预测模型可以是基于深度卷积网络构建的神经网络模型。在使用该模型进行位置预测前，可以使用标注了对象位置信息的训练样本对该位置预测模型进行有监督训练，直至该模型收敛。

在确定上述位置信息后，上述对象跟踪单元中可以执行S1024，基于上述位置信息，对上述对象进行对象跟踪，确定上述对象在上述目标图像序列中的位置变化信息。

在本申请中不对对象跟踪的方法进行特别限定，以下示意性的给出两种对象跟踪方法。

方法一：

在执行S1024时，可以利用卡尔曼滤波算法，对上述每一对象进行对象跟踪，确定上述每一对象的位置变化信息。

在一些例子中，可以按照上述各图像的采集先后顺序，从首帧图像开始，依次将相邻两帧图像确定为当前两帧图像并执行以下步骤：

利用卡尔曼滤波算法确定当前两帧图像中包含的各对象对应的位置信息；

通过匈牙利匹配算法(二分图匹配算法)将当前两帧图像中的第一图像包含的各对象对应的位置信息，分别与上述当前两帧图像中的第二图像包含的各对象对应的位置信息进行匹配。

其中，在执行上述匹配操作时，可以计算上述第一图像包含的各对象对应的位置信息，分别与上述第二图像包含的各对象对应的位置信息之间的距离。若计算的距离小于预设的标准阈值，即可确定该距离对应的两个位置信息为匹配中的两个位置信息。

在执行完上述匹配操作后，可以将匹配中的两个位置信息对应的两个对象确定为在上述当前两帧图像中出现的同一对象，以实现对上述对象进行对象跟踪。

当针对所有相邻图像执行完以上步骤后，基于跟踪到的同一对象在各图像中的位置信息，确定上述对象的位置变化信息。

在上述方法中可以确定上述各图像中出现的同一对象，从而实现在各图像中对该同一对象进行跟踪。在实现对该对象的对象跟踪后，既可基于该对象在各图像中的位置信息，确定该对象在上述目标图像序列中的位置变化信息。

方法二：

在执行S1024时，可以基于对象检测模型确定上述各图像中出现的同一对象，以实现对上述每一对象进行对象跟踪。

上述对象检测模型包括基于深度学习网络构建的模型。例如，上述对象检测模型，具体可以是预先训练好的语义检测模型(例如，fast-rcnn、faster-rcnn、mask-rcnn等模型)。通过该检测模型可以检测出图像包括的行人对象对应的对象特征。在一些例子中，上述对象特征可以人脸特征。在检测出各图像包括的对象特征后，可以对不同的两帧图像包含的对象特征进行相似度计算，并将相似度达到第二标准阈值的对象确定为同一对象。

例如，在安防场景下，上述对象目标可以是行人。此时可以通过上述对象检测模型检测各图像包含的人脸。在检测出各图像包括的人脸后，可以对不同的两帧图像包含的人脸特征进行相似度计算，并将相似度达到第二标准阈值的人脸确定为同一人脸。确定同一人脸后即可确定上述两帧图像出现了同一行人。

在确定各帧图像中出现的同一对象后，可以基于跟踪到的同一对象在各图像中的位置信息，确定上述每一对象的位置变化信息。

在一些例子中，在确定对象对应的位置变化信息后，可以通过三维矩阵(T*H*W)的形式存储各对象对应的上述位置变化信息。其中，三维矩阵的通道数可以是目标图像序列包括的图像帧数；三维矩阵的元素可以是对象在该通道序号对应的图像中的位置坐标。可以理解的是，此时上述三维矩阵可以被确定为上述目标图像序列对应的特征矩阵。

可以理解的是，上述位置变化信息具有时域特性，可以指示出对象在上述目标图像序列示出的时域范围内运动的过程中位置坐标的变化情形。基于目标图像序列中出现的各对象对应的上述位置变化信息即可确定出各对象的运动特性，即各对象是逐渐聚集还是逐渐分散。因此，基于该位置变化信息进行进行人群行为检测是可行的。

请继续参见图2，在确定上述位置变化信息后，可以继续执行S104，基于上述目标图像序列中获得的上述位置变化信息进行图卷积处理，并基于上述图卷积获得的提取特征确定上述目标图像序列中的多个上述对象对应的人群行为。

其中，可以先执行S1042，基于上述目标图像序列中获得的上述位置变化信息进行图卷积处理，得到与上述目标图像序列对应的提取特征。

上述提取特征，具体包括进行图卷积处理(包括空间图卷积与时域图卷积)确定出的特征矩阵或特征向量。可以理解的是，上述提取特征为基于目标图像序列中的多个行人对象的位置变化信息确定的，因此上述提取特征对确定人群行为是有益的。

在一些例子中，在执行S1042前，可以确定上述目标图像序列包括的各图像中对象之间的拓扑关系。在一些例子中，可以通过图像对应的拓扑图表征上述拓扑关系。请参见图3，图3为本申请示出的一种图像中对象拓扑关系的确定方法流程图。

S302，确定上述目标图像序列包括的各图像包含的任意两个对象之间的连接关系。

可以理解的是，使用不同的连接关系确定规则确定的连接关系具有不同的含义。例如，通过两个对象之间的相似度大小确定的连接关系可以从相似性角度表征两个对象之间的关联程度。再例如，通过两个对象之间的距离大小确定的连接关系可以从距离角度标注两个对象之间的关联程度。

在一些例子中，在执行S302时，可以提取上述各图像包含的各对象对应的区域特征。上述区域特征表征与各对象对应的背景特征。上述区域特征可以包括各对象所处位置的背景信息，通过比较各对象所处位置的背景信息可以确定对象之间的连接关系。

在确定各对象对应的对象特征后，可以基于各对象对应的区域特征，确定各对象中任意两个对象之间的相似度。

其中，上述第一预设阈值包括根据经验设定的阈值。在本申请中不对上述第一预设阈值进行特别限定。

需要说明的是，本申请不对计算相似度的方法进行特别限定。例如，上述计算相似度的方法可以是诸如欧式距离，余弦距离，马氏距离等方法。

在一些例子中，为了提升对目标图像序列的分类精确性，在执行S302时，可以基于对象之间的距离确定对象之间的连接关系。

具体地，可以对上述各图像分别进行图像处理，确定上述对象在各图像中的位置信息。

在确定各图像中的位置信息后，可以基于各对象对应的位置信息，确定各对象中任意两个对象之间的距离。

在确定任意两个对象之间的距离后，可以基于上述距离确定各图像包含的任意两个对象之间的连接关系。

在一些例子中，在基于上述距离确定各图像包含的任意两个对象之间的连接关系时，可以将未达到第二预设阈值的距离对应的两个对象确定为具有连接关系的两个对象。

其中，上述第二预设阈值包括根据经验设定的阈值。在本申请中不对上述第二预设阈值进行特别限定。

在一些例子中，若确定两个对象之间具有连接关系，则该两个对象之间的连接权重设置为1，否则将该两个对象之间的连接权重设置为0。

由于上述连接关系是通过对象之间的距离确定的，因此，基于该连接关系确定的时空图可以指示各对象之间的距离关系，对时空图进行图卷积操作后确定的提取特征也可以包含对象之间的距离信息。因此在基于该提取特征进行上述目标图像序列中人群行为分类时，可以提升诸如行人聚集，行人分散或行人滞留的分类精确性。

在一些例子中，为了进一步提升分类精确性，可以根据两个对象之间的真实距离，确定两个对象之间的连接权重。

具体地，可以将确定的任意两个对象之间的距离映射于由第三预设阈值与第四预设阈值形成的区间内。

其中，上述第三预设阈值与上述第四预设阈值为经验阈值。在一些例子中，上述第三预设阈值为0，上述第四预设阈值为1。

在完成上述映射后，可以将映射后的任意两个对象之间的距离确定为上述任意两个对象之间的连接权重，并通过上述任意两个对象之间的连接权重指示上述任意两个对象之间的连接关系。

由于上述例子中通过两个对象的真实距离确定两个对象之间的连接关系，因此上述时空图可以指示出更加贴近实际的距离信息，从而进一步提升分类精确性。

在确定上述目标图像序列包括的各图像包含的任意两个对象之间的连接关系后，可以继续执行S304，基于上述各图像包含的对象，以及确定的上述连接关系，分别确定上述各图像中对象之间的拓扑关系。

在此步骤中，可以将图像包括的对象作为拓扑图结构的顶点V，以及将确定的两个对象之间的连接关系确定为边E，从而确定图像对应的拓扑图G(V，E)。在一些例子中可以通过邻接矩阵表示上述拓扑图。

在确定上述目标图像序列中各图像中对象之间的拓扑关系后，可以继续执行S104。

请继续参见图2，可以通过图卷积模型实现上述S1042。

其中，上述图卷积模型，可以是基于时空图卷积处理网络构建的模型。其中上述时空图卷积网络至少包括用于对各帧图像进行空间图卷积处理的空间图卷积网络(GCN)，以及用于对各帧图像对应的图特征进行时域卷积的时域卷积网络(TCN)。

请参见图4，图4为本申请示出的一种图卷积处理流程示意图。

如图4所示，在上述S1042时，可以将上述位置变化信息输入图卷积模型包括的GCN中执行S402，基于上述位置变化信息表征的上述目标图像序列包括的各图像中的对象位置信息以及上述各图像中对象之间的拓扑关系，对上述各图像分别进行空间图卷积处理，得到各图像分别对应的图特征。

在本步骤中，可以基于上述各图像分别对应的拓扑图，确定上述各图像分别对应的邻接矩阵A。以及基于上述对象位置信息，确定上述各图像分别对应的特征矩阵X⁰。

在确定上述邻接矩阵与上述特征矩阵后，可以基于上述邻接矩阵与上述特征矩阵完成上述空间图卷积处理，得到上述每一图像分别对应的图特征。

需要说明的是，在本申请中不对上述图卷积公式进行特别限定。在一些例子中，可以采用

其中

增加自环保持自身的特征。

是

的对角阵。θ是图卷积网络的网络参数(具体训练过程在本申请后续内容中示出，在此不作陈述)。X^(l)是GCN中第l+1隐藏层的输入，X^(l+1)是经过第l+1隐藏层运算之后的输出。

在得到上述各图像分别对应的图特征后，可以将上述图特征输入图卷积模型包括的TCN中执行S404，对上述各图像分别对应的图特征进行时域卷积处理，得到与上述目标图像序列对应的提取特征。

在本步骤中，可以对上述各图像分别对应的图特征按照上述位置变化信息表征的时域信息进行排序。然后基于预设的一维卷积核，对排序后的各图像分别对应的图特征进行一维卷积处理，得到与上述目标图像序列对应的提取特征。

请继续参见图2，在得到与上述目标图像序列对应的提取特征后，可以继续执行S1044，基于上述提取特征确定上述目标图像序列中的多个上述对象对应的人群行为。

在本步骤中，可以将上述提取特征输入预先训练的多分类器中进行分类，从而得到上述人群行为。

请参见图5，图5为本申请示出的一种分类流程示意图。

如图5所示，上述多分类器包括下采样单元以及全连接层。其中，上述下采样单元可以用于对提取特征进行处理得到对应的特征向量。例如，上述下采样单元可以是平均池化单元。上述全连接层用于基于上述特征向量进行分类，得到与各预设分类类型对应的置信度分数。

请继续参见图5，在执行S1044时，可以将上述提取特征输入下采样单元执行S502，对上述提取特征进行平均池化得到对应的特征向量。在得到上述特征向量后可以将该特征向量输入全连接层执行S504，对该特征向量进行全连接处理，得到与各预设分类类型对应的置信度分数。

在得到各置信度分数后，即可将最大置信度分数对应的人群行为类型确定为上述目标图像序列中的多个上述对象对应的人群行为。其中，上述人群行为至少包括以下中的至少一个：行人聚集；行人分散；行人滞留；行人逆流。

在上述方法中，通过对目标图像序列中出现的对象进行对象跟踪，确定上述对象在上述目标图像序列中的位置变化信息。然后再基于上述位置变化信息进行图卷积处理，得到与上述目标图像序列对应的提取特征，并基于上述提取特征确定上述目标图像序列中的多个上述对象对应的人群行为。从而实现利用图卷积原理，从目标图像序列确定出可以对检测人群行为有益的提取特征，进而实现上述目标图像序列表征的人群行为的精准检测。

以下结合安防场景进行实施例说明。

上述安防场景通常会设置监控设备。该监控设备通常可以采集视频序列。可以理解的是，在安防场景下实际是对健康设备采集的视频序列进行分类。

请参见图6，图6为本申请示出的一种视频序列分类流程示意图。

在获取目标视频序列后，可以基于坐标确定单元执行S602，对上述目标视频序列包括的各图像分别进行图像处理，确定视频中出现的行人在各图像中的位置信息。

在确定上述位置信息后，可以基于行人跟踪单元执行S604，基于上述位置信息，对上述行人进行对象跟踪，确定上述行人在上述目标图像序列中的位置变化信息。

在确定上述位置变化信息后，可以基于图卷积分类模型包括的图像卷积模型执行S606，基于上述位置变化信息进行图卷积处理，得到与上述目标图像序列对应的提取特征。

上述图卷积分类模型，具体可以是基于图卷积模型与多分类模型构建的分类模型。通过该图卷积分类模型，一方面，可以对时空图进行图卷积操作，确定上述时空图对应的提取特征；另一方面，可以基于上述提取特征对上述目标图像序列进行分类处理，确定该序列的分类类型。

在确定上述提取特征后，可以基于上述图卷积分类模型包括的多分类模型执行S608基于上述提取特征确定上述目标图像序列中的多个上述对象对应的人群行为。

在上述方案中，先利用图卷积原理，基于行人在视频中的位置变化信息确定出可以反映各行人在视频序列中的距离变化信息的提取特征。然后再基于上述提取特征确定上述视频序列的分类类型，从而确定该视频序列中正在发生的行人行为，并根据确定行人行为做出相应安排，减小危险事件发生概率。

以上是对本申请示出的图像序列分类方案的介绍，以下对使用的图卷积分类模型的训练方法进行介绍。

上述图卷积分类模型可以用于实现上述图卷积处理。

在一些例子中，上述图卷积分类模型可以包括图卷积模型以及多分类模型。其中，上述图卷积模型，可以将目标图像序列中各对象的位置变化信息作为输入进行图卷积处理，得到与上述目标图像序列对应的提取特征。上述多分类模型，可以将上述提取特征作为输入，对上述提取特征进行分类处理，得到上述目标图像序列表征的人群行为。

可以理解的是，对图卷积分类模型的训练实际是确定上述图卷积模型以及上述多分类模型包括的模型参数的过程。

在本申请中提出了一种模型训练方法。该方法通过构建虚拟的训练样本对图卷积分类模型进行训练，从而在缺少真实样本的情形下，也可实现模型训练。

请参见图7，图7为本申请示出的一种模型训练方法的方法流程图。

如图7所示，上述训练方法包括：

S702，生成训练样本，其中，上述训练样本具有包含多个对象的位置变化信息，以及具有基于上述多个对象的位置变化信息的人群行为的标注信息。

在本步骤中，可以先执行S7022，基于运动仿真平台，设置视频中出现的对象对应的运动模式。

上述运动仿真平台，具体是可以进行运动模拟的任一平台。在一些例子中，上述运动仿真平台可以是游戏开发平台。

上述运动模式，可以包括速度与运动方向。通过上述运动模式，一方面可以确定对象在上述视频包括的各帧图像中的坐标，从而确定各对象在上述视频中的位置变化信息。另一方面，可以得到上述视频表征的人群行为。例如，在安防场景下，当各行人的运动模式为朝向同一方向时，即可确定视频表征的人群行为为行人聚集；反之则确定视频表征的人群行为为行人分散。

在确定各对象的运动模式后，可以执行S7024，基于上述运动模式，确定各对象对应的位置变化信息，以及确定上述各对象对应的位置变化信息表征的人群行为。其中上述人群行为可以包括行人聚集，行人分散与行人滞留等。

在确定上述位置变化信息以及上述视频表征的人群行为后，可以执行S7026，基于上述位置变化信息，以及上述位置变化信息表征的人群行为，生成上述训练样本。

在本步骤中，可以采用one-hot编码等方式对位置变化信息以及上述分类型进行编码，从而得到若干训练样本。本申请不对上述编码的具体方式进行限定。

在得到上述训练样本后，可以继续执行S704，基于预设损失信息，以及上述训练样本对上述图卷积分类模型进行训练，直至该模型收敛。

上述预设损失信息可以是根据经验设定的损失信息。

在对模型训练时，可以先指定诸如学习率、训练循环次数等超参数。在确定上述超参数之后，可以基于上述训练样本对上述图卷积分类模型(以下简称该模型)进行有监督训练。

在一次有监督训练过程中，可以进行前向传播得到该模型输出的计算结果。在得到该模型输出的计算结果后，可以基于上述预设损失信息评价真实的分类类型与上述计算结果之间的误差。在得到上述误差之后，可以采用随机梯度下降法确定下降梯度。在确定下降梯度后，可以基于反向传播更新该模型对应的模型参数。

然后可以重复上述过程，直至该模型收敛。需要说明的是，上述模型收敛的条件可以是诸如达到预设训练次数，或连续M次前向传播后得到误差的变化量小于一定阈值等。本申请不对模型收敛的条件进行特别限定。

在上述训练方法中，由于使用了训练样本对图卷积分类模型进行训练，从而实现训练过程中无需依赖真实训练样本。

在一些例子中，还可以对用于确定对象位置的对象位置预测模型、进行对象跟踪的对象跟踪模型以及用于进行图卷积处理和分类的图卷积分类模型进行联合训练。

在一些例子中，可以通过运动仿真平台构建表征行人聚集、行人分散等视频，并对构建的视频进行人群行为标注，得到训练样本。

在得到训练样本后，可以将训练样本输入至上述对象位置预测模型，得到第一计算结果。然后再将上述第一计算结果输入上述对象跟踪模型，得到第二计算结果。之后再将上述第二计算结果输入上述图卷积分类模型得到针对视频表征的人群行为检测结果。

在得到检测结果后，可以根据与上述虚拟识别对应的标注信息，利用反向传播法完成各模型的参数更新。

在上述例子中，可以实现对各模型的联合训练，提升训练效率。

与上述任一实施例相对应的，本申请还提出一种人群行为检测装置。

请参见图8，图8为本申请示出的一种人群行为检测装置的结构示意图。

如图8说是，上述装置80包括：

位置变化信息确定模块81，基于对包含多个对象的目标图像序列中出现的至少一个对象的对象跟踪结果，确定每一对象在上述目标图像序列中的位置变化信息；

人群行为检测模块82，用于基于上述目标图像序列中获得的上述位置变化信息进行图卷积处理，并基于上述图卷积获得的提取特征确定上述目标图像序列中的多个上述对象对应的人群行为。

在示出的一些实施例中，上述位置变化信息确定模块81具体用于：

在示出的一些实施例中，上述人群行为检测模块82包括：

空间图卷积模块，用于基于上述位置变化信息表征的上述目标图像序列包括的各图像中的对象位置信息以及上述各图像中对象之间的拓扑关系，对上述各图像分别进行空间图卷积处理，得到各图像分别对应的图特征；

人群行为确定模块，用于对上述各图像分别对应的图特征进行时域卷积处理，

并基于上述时域卷积处理得到的提取特征确定上述目标图像序列中的多个上述对象对应的人群行为；其中，上述人群行为至少包括以下中的至少一个：行人聚集；行人分散；行人滞留；行人逆流。

在示出的一些实施例中，上述空间图卷积处理模块具体用于：

在示出的一些实施例中，上述装置80还包括：

连接关系确定模块，用于确定上述目标图像序列包括的各图像包含的任意两个对象之间的连接关系；

拓扑关系确定模块，用于基于上述各图像包含的对象，以及确定的上述连接关系，分别确定上述各图像中对象之间的拓扑关系。

在示出的一些实施例中，上述连接关系确定模块具体用于：

其中，上述图卷积分类模型的训练装置包括：

生成模块，用于生成训练样本，其中，上述训练样本具有包含多个对象的位置变化信息，以及具有基于上述多个对象的位置变化信息的人群行为的标注信息；

训练模块，用于基于上述位置变化信息和上述人群行为的标注信息对预设的图卷积模型进行训练，得到上述图卷积分类模型。

在示出的一些实施例中，上述生成模块具体用于：

基于运动仿真平台，设置多个对象对应的运动模式；

基于上述运动模式，确定各对象对应的位置变化信息；

确定上述各对象对应的位置变化信息表征的人群行为；

本申请示出的人群行为检测装置的实施例可以应用于电子设备上。相应地，本申请公开了一种电子设备，该设备可以包括：处理器。

用于存储处理器可执行指令的存储器。

其中，上述处理器被配置为调用上述存储器中存储的可执行指令，实现如上述任一实施例示出的人群行为检测方法。

请参见图9，图9为本申请示出的一种电子设备的硬件结构示意图。

如图9所示，该电子设备可以包括用于执行指令的处理器，用于进行网络连接的网络接口，用于为处理器存储运行数据的内存，以及用于存储人群行为检测装置对应指令的非易失性存储器。

其中，上述装置的实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在电子设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，除了图9所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的电子设备通常根据该电子设备的实际功能，还可以包括其他硬件，对此不再赘述。

可以理解的是，为了提升处理速度，人群行为检测装置对应指令也可以直接存储于内存中，在此不作限定。

本申请提出一种计算机可读存储介质，上述存储介质存储有计算机程序，上述计算机程序用于执行如前述任一实施例示出的人群行为检测方法。

本领域技术人员应明白，本申请一个或多个实施例可提供为方法、系统或计算机程序产品。因此，本申请一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(可以包括但不限于磁盘存储器、CD-ROM、光学存储器等)上述实施的计算机程序产品的形式。

本申请中的“和/或”表示至少具有两者中的其中一个，例如，“A和/或B”可以包括三种方案：A、B、以及“A和B”。

本申请中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于数据处理设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的行为或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本申请中描述的主题及功能操作的实施例可以在以下中实现：数字电子电路、有形体现的计算机软件或固件、可以包括本申请中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本申请中描述的主题的实施例可以实现为一个或多个计算机程序，即编码在有形非暂时性程序载体上述以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地，程序指令可以被编码在人工生成的传播信号上述，例如机器生成的电、光或电磁信号，该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。

本申请中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行，以通过根据输入数据进行操作并生成输出来执行相应的功能。上述处理及逻辑流程还可以由专用逻辑电路—例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)来执行，并且装置也可以实现为专用逻辑电路。

适合用于执行计算机程序的计算机可以包括，例如通用和/或专用微处理器，或任何其他类型的中央处理单元。通常，中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件可以包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常，计算机还将可以包括用于存储数据的一个或多个大容量存储设备，例如磁盘、磁光盘或光盘等，或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据，抑或两种情况兼而有之。然而，计算机不是必须具有这样的设备。此外，计算机可以嵌入在另一设备中，例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏操纵台、全球定位系统(GPS)接收机、或例如通用串行总线(USB)闪存驱动器的便携式存储设备，仅举几例。

适合于存储计算机程序指令和数据的计算机可读介质可以包括所有形式的非易失性存储器、媒介和存储器设备，例如可以包括半导体存储器设备(例如EPROM、EEPROM和闪存设备)、磁盘(例如内部硬盘或可移动盘)、磁光盘以及CD ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。

虽然本申请包含许多具体实施细节，但是这些不应被解释为限制任何公开的范围或所要求保护的范围，而是主要用于描述特定公开的具体实施例的特征。本申请内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面，在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外，虽然特征可以如上述在某些组合中起作用并且甚至最初如此要求保护，但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除，并且所要求保护的组合可以指向子组合或子组合的变型。

类似地，虽然在附图中以特定顺序描绘了操作，但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行，以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种系统模块和组件的分散不应被理解为在所有实施例中均需要这样的分散，并且应当理解，所描述的程序组件和系统通常可以一起集成在单个软件产品中，或者封装成多个软件产品。

由此，主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下，权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外，附图中描绘的处理并非必需所示的特定顺序或顺次顺序，以实现期望的结果。在某些实现中，多任务和并行处理可能是有利的。

以上述仅为本申请一个或多个实施例的较佳实施例而已，并不用以限制本申请一个或多个实施例，凡在本申请一个或多个实施例的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请一个或多个实施例保护的范围之内。

Claims

1.一种人群行为检测方法，其特征在于，所述方法包括：

对包含多个对象的目标图像序列中出现的至少一个对象进行对象跟踪，确定每一对象在所述目标图像序列中的位置变化信息；

基于所述目标图像序列中获得的所述位置变化信息进行图卷积处理，并基于所述图卷积获得的提取特征确定所述目标图像序列中的多个所述对象对应的人群行为。

2.根据权利要求1所述的方法，其特征在于，所述对包含多个对象的目标图像序列中出现的至少一个对象进行对象跟踪，确定每一对象在所述目标图像序列中的位置变化信息，包括：

对所述目标图像序列包括的每一图像分别进行图像处理，确定所述每一对象分别在各图像中的位置信息；

对所述每一对象进行对象跟踪，以基于跟踪结果以及所述位置信息，确定所述每一对象在所述目标图像序列中的位置变化信息。

3.根据权利要求2所述的方法，其特征在于，所述对所述每一对象进行对象跟踪，以基于跟踪结果以及所述位置信息，确定所述每一对象在所述目标图像序列中的位置变化信息，包括：

利用卡尔曼滤波算法或者对象检测模型，对所述每一对象进行对象跟踪；

基于跟踪到的同一对象在各图像中的位置信息，确定所述每一对象的位置变化信息。

4.根据权利要求1-3任一所述的方法，其特征在于，所述基于所述目标图像序列中获得的所述位置变化信息进行图卷积处理，得到所述目标图像序列中的多个所述对象对应的人群行为，包括：

基于所述位置变化信息表征的所述目标图像序列包括的各图像中的对象位置信息以及所述各图像中对象之间的拓扑关系，对所述各图像分别进行空间图卷积处理，得到各图像分别对应的图特征；

对所述各图像分别对应的图特征进行时域卷积处理，并基于所述时域卷积处理得到的提取特征确定所述目标图像序列中的多个所述对象对应的人群行为；其中，所述人群行为至少包括以下中的至少一个：行人聚集；行人分散；行人滞留；行人逆流。

5.根据权利要求4所述的方法，其特征在于，所述基于所述位置变化信息表征的所述目标图像序列包括的各图像中的对象位置信息以及所述各图像中对象之间的拓扑关系，对所述各图像分别进行空间图卷积处理，得到各图像分别对应的图特征，包括：

基于所述各图像中对象之间的拓扑关系，确定所述各图像分别对应的邻接矩阵；

基于所述对象位置信息，确定所述各图像分别对应的特征矩阵；

基于所述邻接矩阵与所述特征矩阵完成所述空间图卷积处理，得到所述每一图像分别对应的图特征。

6.根据权利要求1-5任一所述的方法，其特征在于，所述基于所述目标图像序列中获得的所述位置变化信息进行图卷积处理，得到与所述目标图像序列对应的提取特征的步骤之前，还包括：

确定所述目标图像序列包括的各图像包含的任意两个对象之间的连接关系；

基于所述各图像包含的对象，以及确定的所述连接关系，分别确定所述各图像中对象之间的拓扑关系。

7.根据权利要求6所述的方法，其特征在于，所述确定所述目标图像序列包括的各图像包含的任意两个对象之间的连接关系，包括：

提取所述各图像包含的各对象对应的区域特征；所述区域特征表征各对象对应的背景特征；

8.根据权利要求6所述的方法，其特征在于，所述确定所述目标图像序列包括的各图像包含的任意两个对象之间的连接关系，包括：

对所述各图像分别进行图像处理，确定所述对象在各图像中的位置信息；

基于所述距离确定各图像包含的任意两个对象之间的连接关系。

9.据权利要求8所述的方法，其特征在于，所述基于所述距离确定各图像包含的任意两个对象之间的连接关系，包括：

将映射后的任意两个对象之间的距离确定为所述任意两个对象之间的连接权重；

通过所述任意两个对象之间的连接权重指示所述任意两个对象之间的连接关系。

10.根据权利要求1-9任一所述的方法，其特征在于，

通过图卷积分类模型实现所述图卷积处理；

其中，所述图卷积分类模型的训练方法包括：

生成训练样本，其中，所述训练样本具有包含多个对象的位置变化信息，以及具有基于所述多个对象的位置变化信息的人群行为的标注信息；

基于所述位置变化信息和所述人群行为的标注信息对预设的图卷积模型进行训练，得到所述图卷积分类模型。

11.根据权利要求10所述的方法，其特征在于，所述生成训练样本，包括：

基于运动仿真平台，设置多个虚拟对象对应的运动模式；

基于所述运动模式，确定各虚拟对象对应的位置变化信息；

确定所述各虚拟对象对应的位置变化信息表征的人群行为；

基于所述位置变化信息，以及所述位置变化信息表征的人群行为，生成所述训练样本。

12.一种人群行为检测装置，其特征在于，所述装置包括：

位置变化信息确定模块，基于对包含多个对象的目标图像序列中出现的至少一个对象的对象跟踪结果，确定每一对象在所述目标图像序列中的位置变化信息；

人群行为检测模块，用于基于所述目标图像序列中获得的所述位置变化信息进行图卷积处理，并基于所述图卷积获得的提取特征确定所述目标图像序列中的多个所述对象对应的人群行为。

13.一种电子设备，其特征在于，所述设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为调用所述存储器中存储的可执行指令，实现如权利要求1-11任一所述的人群行为检测方法。

14.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序用于执行如权利要求1-11任一所述的人群行为检测方法。