CN107615272A

CN107615272A - 用于预测人群属性的系统和方法

Info

Publication number: CN107615272A
Application number: CN201580080179.9A
Authority: CN
Inventors: 王晓刚; 吕健勤; 邵婧; 康恺
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2015-05-18
Filing date: 2015-05-18
Publication date: 2018-01-19
Anticipated expiration: 2035-05-18
Also published as: CN107615272B; WO2016183770A1

Abstract

公开了一种用于预测人群属性的系统，包括：特征提取装置，其获得具有人群场景的视频并从所获得的视频中提取外观特征和运动特征，其中运动特征是独立于场景的并且指示视频中的人群的运动属性；以及预测装置，其与特征提取装置电通信并基于所提取的运动特征和所提取的外观特征来预测视频中的人群的属性。

Description

用于预测人群属性的系统和方法

技术领域

本公开涉及用于预测人群属性的系统及其方法。

背景技术

在过去的十年里，人群分析领域已从拥挤的场景理解有了惊人的演变，包括人群行为分析、人群跟踪和人群分割。这一进步很大程度上是由人群数据库的创建以及用于剖析人群固有属性的新颖稳健的特征和模型引发的。以上关于人群理解的绝大多数研究是针对特定场景的，即人群模型是从特定场景习得的且因此在描述其他场景方面的概括性较差。属性对特征化跨场景的通用属性方面特别有效。

近年来，在将对象、面部、动作和场景的基于属性的表示作为类别表示的替代例或其补充方面的研究引起了人们极大的关注，因为它们是通过若干属性来特征化目标主体而非区别性地分配到单个特定类别中，该单个特定类别太受限制以至于不能描述目标主体的本性。此外，科学研究已表明，不同的人群系统共享类似的原理，这些原理可以以一些共同特性或属性为特征。实际上，属性可以表达人群视频中的更多内容，因为它们可以通过回答“谁在人群中？”、“人群在哪里？”和“这里是什么人群？”来描述视频，而不只是定义该视频的类别场景标签或事件标签。例如，与类别标签(如“合唱团”)形成对比，基于属性的表示可将人群视频描述为“(合唱队)指挥”和“合唱队”在具有“观众”、“掌声”的“舞台”上表演。近来，一些工作已致力于人群属性剖析。但这些工作中涉及的属性数目有限(仅四个或更少)，以及数据库在场景多样性方面也较小。

发明内容

下文呈现了本公开的简化概述，以便于基本理解本公开的一些方面。此概述并非为本公开的广泛概述。其既不用来标识本公开的关键或重要要素，又不旨在描绘本公开的特定实施方案的任何范围或权利要求的任何范围。其唯一目的是以简化的形式呈现本公开的一些概念以作为下文更详细描述的序言。

在一个方面中，公开了一种用于预测人群属性的系统，其包括：其获得具有人群场景的视频并从所获得的视频中提取外观特征和运动特征，其中所述运动特征是独立于场景的并且指示所述视频中的人群的运动属性；以及预测装置，其与所述特征提取装置电通信并基于所提取的运动特征和所提取的外观特征来预测所述视频中的所述人群的属性。

在又一个方面中，公开了一种用于理解人群场景的方法，其包括：获得具有人群场景的视频；从所获得的视频中提取外观特征和运动特征，其中运动特征是独立于场景的并且指示视频中的人群的运动属性；以及基于所提取的运动特征和所提取的外观特征来预测视频中的人群的属性。

在又一个方面中，公开了一种用于预测人群属性的系统，其包括：

存储器，其存储可执行部件；以及

处理器，其电联接到存储器来执行可执行部件以执行系统的操作，其中，所述可执行部件包括：

特征提取部件，其获得具有人群场景的视频并从所获得的视频中提取外观特征和运动特征，其中运动特征是独立于场景的并且指示视频的人群的运动属性；以及

预测部件提取部件，其基于所提取的运动特征和所提取的外观特征来预测视频中的人群的属性。

在一个实施方案中，预测装置/部件配置有卷积神经网络，所述卷积神经网络具有：

第一分支，其用于接收具有人群场景的视频的运动特征，其中第一分支配置有用于从所接收的运动特征来预测人群属性的第一神经网络；以及

第二分支，其用于接收具有人群场景的视频的外观特征，其中第二分支配置有用于从所接收的外观特征来预测人群属性的第二神经网络，

其中从第一分支预测的特征和从第二分支预测的特征融合在一起，以形成对的属性的预测。

附图说明

下文参考附图来描述本发明的例示性非限制性实施方案。附图是说明性的，并且一般不按确切的比例绘制。用相同的附图标号来引用不同图上的相同或类似元件。

图1是说明根据本申请的实施方案的用于预测人群属性的系统的示意图。

图2是说明根据本申请的一个实施方案的系统的流程图的示意图。

图3说明根据本申请的实施方案的特征提取装置的示意性框图。

图4是说明在与一些公开的实施方案一致的情境中的运动通道的示意图。

图5是说明根据一些公开的实施方案的包括在预测装置中的卷积神经网络结构的示意图。

图6是说明根据本申请的一个实施方案的用于建构具有外观分支和运动分支的网络的流程的示意图。

图7是说明训练装置在微调集(fine-tuning set)中使用视频的外观分支和运动分支对第二网络进行微调的流程的示意图。

图8说明根据本申请的一个实施方案的用于预测人群属性的系统，其中通过软件来实施本发明的功能。

具体实施方式

现将详细参考本发明的一些特定实施方案，包括由发明人预期用于实施本发明的最佳模式。附图中说明了这些特定实施方案的示例。虽然结合这些特定实施方案描述了本发明，但应该理解，其并不旨在将本发明限制到所描述的实施方案。相反，其旨在涵盖如可包括在如由所附权利要求定义的本发明的精神和范围内的所有替代例、修改和等效物。在以下描述中，阐述了众多特定细节以便提供对本发明的透彻理解。可在没有这些特定细节中的一些或全部的情况下实践本发明。在其他例子中，未详细描述众所周知的过程操作以便不必要地模糊本发明。

本文中所使用的术语仅用于描述特定实施方案的目的而非旨在限制本发明。如本文中所使用，除非上下文另有明确指示，否则单数形式“一”和“所述/该”也旨在包含复数形式。将进一步理解，当用于本说明书中时，术语包括规定所陈述的特征、整数、步骤、操作、元件和/或部件的存在，但并不排除一个或多个其他特征、整数、步骤、操作、元件、部件和/或其群组的存在或添加。

图1说明了用于预测人群属性的系统1000。所提出的系统1000能够从属性层来理解计算机视觉中的拥挤场景，以及通过预测多个属性而非区别性地分配到单个特定类别中来对拥挤场景进行特征化。这在许多应用中将是重要的，例如在视频监督和视频搜索引擎中。

如图1中所示，系统1000包括特征提取装置100和预测装置200。图2说明了说明根据本申请的一个实施方案的系统1000的流程的示意图。在步骤S201，特征提取装置100获得具有人群场景的视频，并且从所获得的视频中提取外观特征和运动特征，其中运动特征是独立于场景的并且指示视频的人群的运动属性；然后，在步骤S202，预测装置200基于所提取的运动特征和所提取的外观特征来预测视频中的人群的属性，稍后将进一步论述所提取的运动特征和所提取的外貌特征。

在本申请的一个示例中，特征提取装置100可深度学习跨不同的拥挤场景的外观和运动表示。图3说明根据本申请的实施方案的特征提取装置100的示意性框图。特征提取装置100包括外观特征提取单元101，其用于从输入的视频中提取每个帧的RGB分量。

特征提取装置100进一步包括运动特征提取单元102，其用于从所获得的视频中提取运动特征。具体地说，运动特征提取单元102进一步包括跟踪片段(tracklet)检测模块1021，其用于检测所获得的具有人群场景的视频中的每个帧中的人群跟踪片段(即，短轨迹)。例如，跟踪片段检测模块1021可利用众所周知的KLT特征点跟踪器来检测所获得的视频中的每个帧的若干关键点。具体地说，用由KLT预定义的匹配算法来跟踪检测到的关键点，并且对跨连续帧的对应关键点进行匹配以提取小轨迹。在本申请中的非限制性实施方案中，检测人群中的一个人在每个帧中的多个关键点。在优选实施方案中，计算在所获得的视频的一定数目的(例如，75)帧上的每个运动特征。

运动特征提取单元102进一步包括运动分布确定模块1022，其用于计算每个跟踪片段与其相邻片段之间的物理关系以确定每个帧中的运动分布。在整个场景空间中，人群中的群体具有独立于场景的属性，并且可以从场景层来量化。

根据一个实施方案，计算帧的三个属性，即，集体性(collectiveness)、稳定性(stability)和冲突性(conflict)。在重组之后，集体性指示在整个场景中个体以集体运动而表现一致的程度，且稳定性用来表征整个场景是否可以保持其拓扑结构，并且冲突性则用来测量感兴趣点的每一对最近邻居之间的互动/冲突。

图4中的示例直观地说明了每个属性。参考图4，针对每个通道，在第一行和第二行中示出两个示例。

随机地移动的人群中的个体指示较低的集体性，而人群的连贯运动揭示较高的集体性。在图4-a中，拥挤的场景中的人随机地行走、以不同目的地为目标，以致展现较低的集体性。在图4-b中，马拉松视频使人朝同一个目的地连贯地奔跑，以展现较高的集体性。

如果个体的拓扑结构变化很大，则这些个体具有较低的稳定性，而如果拓扑结构变化很小，则这些个体具有较高的稳定性。在图4-c中，滑冰舞者使其队形从第1个帧到第50个帧发生很大的变化，这意味着较低的稳定性；而在图4-d中，底部示例中的舞者使其拓扑队形保持不变以展现较高的稳定性。

当个体朝不同方向移动时，发生冲突。在图4-e中，一群骑马的人列队行进而无任何其他冲突；而在图4-f中，若干群人横穿马路，从而彼此生成冲突。

本申请并非仅限于所提出的三个属性，而是在需要时可以生成任何属性。

在本申请的一个示例中，运动图模块1022操作以针对由跟踪片段检测模块1021检测到的跟踪片段的整个点集来定义K-NN图表G(V，E)，其顶点V表示跟踪片段的点，并且跟踪片段的点对通过边缘E连接。我们在给定视频剪辑的每个帧处将跟踪片段的点的最近邻居集z∈V表示为

然后，运动分布模块1022提取每个帧的三个运动图(即，集体性分布、稳定性分布和冲突分布)。

可以通过在集体流形上对人群当中的路径相似性求积分来计算集体性分布(或图)。B.Zhou、X.Tang、H.Zhang和X.Wang.已在“测量人群集体性(Measuring crowdcollectiveness)”(TPAMI，36(8):1586–1599，2014年)中提出集体合并的算法，该算法用于通过在流形上模型化集体运动从随机运动中检测集体运动。

通过对K-NN图表中的每个点的不变邻居的数目进行计数和平均化来提取稳定性分布。

其中

就每个成员i而言，其K-NN集在第一帧中为且在第τ帧中为如果其邻居集跨帧变化很小，则其具有较高的稳定性。因此，越大，该成员具有的稳定性越低。

通过计算K-NN图表内的每一对附近跟踪片段的点{z，z^*}之间的速度关联来提取冲突分布。

对于每个成员i而言，如果其K-NN集中的每个成员的速度类似于它自己的速度，则它将具有较低的冲突。这意味着它的邻居与它连贯地移动，而不与它生成冲突。

返回到图3，运动特征提取单元102进一步包括连续运动通道生成模块1023，其用于对每帧运动图(例如，在时域上的集体性图、稳定性图和冲突图)进行平均化并内插稀疏跟踪片段的点以输出三个完整的和连续的运动通道。虽然单个帧拥有几十个或几百个跟踪片段，但是总的跟踪片段的点仍是稀疏的。可以利用高斯核函数来内插已被平均化的运动图，以得到连续运动通道。

返回到图1，系统1000进一步包括预测装置200。预测装置200与特征提取装置100电通信，且用于获得视频的外观、从特征提取装置100接收所提取的运动特征、以及基于所接收的运动特征和/或从视频获得的外观特征来预测视频中的人群的属性。使用此功能，其能够有效地检测来自人群视频的属性(包括人的角色、他们的活动和位置)，以描述人群视频的内容。因此，可以获得具有相同属性集的人群视频，并且不同人群视频的相似性可以根据它们的属性集来测量。此外，这些属性当中存在大量可能的互动。一些属性很可能被同时检测，而一些则被独有地检测。例如，情境“街道”属性很有可能与主体“行人”共同出现(当主体“行走”时)，并且也很有可能与主体“暴徒”共同出现(当主体“搏斗”时)，但与主体“游泳者”无关，因为主体无法在“街道”上“游泳”。

从模型的观点来看，特征提取装置100可配置为具有卷积神经网络结构的模型，如图5中所示。出于说明的目的，图5示出了在卷积神经网络结构包括两个分支。然而，分支的数目并不限于所提出的2个，并且其可以普遍地具有更多分支。还可以根据不同的任务和目标来调整每种类型的层的数目和参数的数目。

如图5中所示，网络包括：一个或多个数据层501、一个或多个卷积层502、一个或多个最大/总和(max/sum)池化层503、一个或多个归一化层504和全连接层505。

数据层501

在如图5中所示的示例化实施方案中，顶部的外观分支的层包含图像的RGB分量(或通道)及其标签(例如，维度为94)，并且底部的运动分支的这个层包含至少一个运动特征(例如，如上文中论述的所提出的三个运动通道：集体性、稳定性和冲突)及其标签(与顶部分支的标签相同)。

具体地说，此层501提供图像及其标签其中x_ij是第i个输入图像区域的d维特征向量的第j位值，y_ij是第i个输入图像区域的n维标签向量的第j位值。

卷积层502

层502执行卷积、填充和非线性变换操作。卷积层从数据层501接收输出(和)，并执行卷积、填充和非线性变换操作。

可将每个卷积层中的卷积操作表示为：

其中

xⁱ和y^j分别是第i个输入特征图和第j个输出特征图；

k^ij是第i个输入特征图与第j个输出特征图之间的卷积核；

*表示卷积；

b^j是第j个输出特征图的偏误；以及

ReLU非线性y＝(0,x)用于神经元。

卷积操作可以从输入的图像中提取特征，诸如边缘、曲线、点等。这些特征并不是手动地预定义的，而是从训练数据习得。

当卷积核k^ij对xⁱ的边缘像素起作用时，其将超出xⁱ的边界。在这种情况下，其将超出xⁱ的边界的值设定为0以便使操作有效。这个操作也称为“填充(padding)”。

以上操作的次序是：填充->卷积->非线性变换(ReLU)。用于“填充”的输入是等式(1)中的xⁱ。每个步骤使用前一个步骤的输出。非线性变换生成等级3)中的y^j。

最大池化层503

此层保持局部窗口中的最大值，且输出的维度因此小于输入。最大池化层保持局部窗口中的最大值并放弃其他值，输出因此小于输入，其可用公式表示为：

其中第i个输出特征图yⁱ中的每个神经元池化遍及第i个输入特征图xⁱ中的M×N局部区域，其中S为步长。

换句话说，其减小了特征维度并提供了空间不变性。空间不变性意味着：如果输入移位若干像素，则该层的输出不会改变得不多。

归一化层504：

此层归一化输入特征图的局部区域中的响应。此层的输出维数等于输入维数。

全连接层505

此层从前一个层获取特征向量以作为输入，并对特征与权重之间的内积进行运算。并且，对该内积进行一次非线性变换。全连接层从前一个层获取特征向量以作为输入，并对特征x与权重w之间的内积进行运算，然后将对该积操作一个非线性变换，其可用公式表示为：

其中

x表示神经输入(特征)。

y表示当前全连接层中的神经输出(特征)。

w表示当前全连接层中的神经权重。全连接层中的神经元线性地组合前一个特征提取模块中的特征、随后为ReLU非线性。

全连接层配置成从前一个层提供全局特征(从完整的输入特征图提取的特征)。全连接层还具有通过限制其中的神经元的数目来减小特征维度的功能。在本申请的一个实施方案中，具备至少两个全连接层以便增加神经网络的非线性，这转而使拟合数据的操作变得更简单。

卷积层和最大池化层仅提供局部变换，这意味着：它们仅对输入的局部窗口(输入图像的局部区域)起作用。然而，全连接层提供全局变换，所述全局变换从输入的图像的整个空间获取特征并实施如以上等式5)中所论述的变换。

最后，两个分支然后一起融合到一个全连接层。如果使用简单记法来表示网络中的参数：(1)Conv(N,K,S)用于卷积层，其中N为输出、K为核大小且S为步幅大小；(2)Pool(T,K,S)用于池化层，其中T为类型、K为核大小且S为步幅大小；(3)Norm(K)用于局部响应归一化层，其中K为局部大小；(4)FC(N)用于全连接层，其中输出为N；以及(5)每个层中的激活函数由ReLU(修正线线性单元)表示，且Sig用于S型函数，则将N＝96、K＝7和S＝2给定作为示例，两个分支具有参数：

Conv(96,7,2)-ReLU-Pool(3,2)-Norm(5)-Conv(256,5,2)-ReLU-Pool(3,2)-Norm(5)-Conv(384,3,1)-ReLU-Conv(384,3,1)-ReLU-Conv(256,3,1)-ReLU-Pool(3,2)-FC(4096)。

两个分支输出的全连接层被级联成为FC(8192)。最后，我们具有FC(8192)-FC(94)-Sig，从而生成多种(例如，94)属性概率预测。在本申请的一个实施方案中，FC 405的输出可以是94种属性，例如{街道、寺庙……}属于“哪里”，{明星、抗议者}属于“谁”，并且{步行、寄宿}属于“为什么”。因此，从FC 405输出的94种属性可为三种类型：“哪里”(例如，街道、寺庙和教室)；“谁”(例如，明星、抗议者和溜冰者)和“为什么”(例如，步行、寄宿和典礼)。

参考图1，系统1000可进一步包括训练装置300。训练装置300用来通过使用以下两个输入来训练卷积神经网络，以获得生成对人群属性的预测的经微调的卷积神经网络：

预训练集包含具有不同对象的图像，及对应的真值(ground truth)对象标签。标签集涵盖m个对象种类。

微调集包含具有外观以及运动通道的人群视频，以及对应的真值属性标签。标签集涵盖n个属性种类。

图6是说明根据本申请的一个实施方案的用于建构具有外观分支和运动分支的网络的流程图的示意图。

在这个实施方案中，两个卷积神经网络具备相同的结构但具备不同数目的分支，第一个卷积神经网络用来只对一个分支做预训练，且第二个卷积神经网络用来对两个分支做微调。可根据常规途径来建构具有卷积神经层的一个分支的第一卷积神经网络。基于第一卷积神经网络来建构具有卷积神经层的一个分支的第二卷积神经网络。

如所示，在步骤S601，装置300操作以用图像网络检测任务来对第一卷积神经网络进行预训练，这可以通过常规途径或算法来完成。

在步骤S602，使用步骤S601中经过预训练的模型来初始化外观分支的网络参数。例如，可以随机地初始化这些参数。

在步骤S603，用所提出的运动分布(即，集体性分布、稳定性分布和冲突分布)来代替第一卷积神经网络中的运动分支的输入。

在步骤S604，用所提出的运动通道来随机地初始化第一卷积神经网络的运动分支的网络参数，而不进行预训练。

在步骤S605，建构具有两个分支(即，外观通道和运动通道)的第二卷积神经网络。特定地，通过将在步骤S602处用外观参数初始化的第一卷积神经网络和在步骤S604处用运动参数初始化的第一卷积神经网络相组合来建构第二网络，如图6中所示。

图7是说明训练装置300在微调集中使用视频的外观分支和运动分支对第二网络进行微调的流程的示意图。

在步骤S701，由训练装置300随机地初始化包括以下各者的参数：卷积滤波器、变形层权重、全连接权重和偏误(bias)。训练视图最小化损失函数，并且可以分成许多更新步骤。因此，在步骤S702计算损失，然后在S703，算法基于所计算的损失来计算关于所有神经网络参数(包括卷积滤波器、变形层权重、全连接权重和偏误)的梯度。

可以用链式法则来计算任何网络参数的梯度。假设网络具有n个层，并且由L_i(i＝1,2,…,n)来表示这些层。可以由以下通用函数来表达网络中的层L_k的输出：

y_k＝f_k(y_k-1，w_k) 6)

其中y_k是层L_k的输出，y_k-1是前一个层L_k-1的输出，w_k是L_k的权重，并且f_k是用于的L_k函数。y_k关于y_k-1和w_k的导数是全都已知的。网络的损失函数C定义最后一个层L_n的输出和真值标签t，

c＝C(y_n，t) 7)

c关于y_n的导数也是已知的。为计算c相对于权重w_n的梯度，可以应用以下链式法则：

为计算c相对于y_k的梯度，也可以应用以下链式法则：

其是以递归方式进行。为计算c相对于任意权重w_k的梯度，我们可以使用下式：

在这个程序中，可以计算成本c相对于网络中的任何权重的梯度。

在步骤S704中，算法按照以下法则来更新卷积滤波器、变形层权重、全连接权重和偏误：

其中η是学习率，且η是预定义值。

使用一个前置(prefixed)学习率与对应梯度的乘积来执行参数的更新。

在步骤S705，确定是否满足停止条件。例如，如果损失的变化小于预定值，则该过程终止，否则，该过程返回到步骤S702。

如由本领域技术人员将了解，可将本发明体现为系统、方法或计算机程序产品因此，本发明可采用完全硬件实施方案和硬件方面(本文中可将其一般都称为“单元”、“电路”、“模块”或“系统”)。发明性功能的大部分和许多发明性原理在实现时最佳由集成电路(IC)支持，诸如数字信号处理器及因此软件或专用IC。尽管有可能付出巨大努力并且许多设计选择受(例如)可用的时间、当前的技术和经济考虑因素的驱使，但仍期待普通技术人员在本文中公开的概念和原理的引导下将容易能够用最少的实验生成IC。因此，为了简洁性并将模糊根据本发明的原理和概念的任何风险降到最低，对此类软件和IC(如果有的话)的进一步论述将限于就由优选实施方案所使用的原理和概念而言的要素。

另外，本发明可采用完全软件实施方案(包括固件、常驻软件、微码等)或结合软件的实施方案。此外，本发明可采用体现在任何有形的表现媒体中的计算机程序产品的形式，所述表现媒体具有体现在该媒体中的计算机可用程序代码。图8说明了根据本申请的一个实施方案的用于预测人群属性的系统3000，其中通过软件来实施本发明的功能。参考图8，系统3000包括：存储器3001，其存储可执行部件；以及处理器3002，其电联接到存储器3001来执行可执行部件，以执行系统3000的操作。这些可执行部件可包括：特征提取部件3003，其获得具有人群场景的视频并从所获得的视频中提取外观特征和运动特征，其中运动特征是独立于场景的并且指示视频的人群的运动属性；以及预测部件3004提取部件，其基于所提取的运动特征和所提取的外观来预测视频中的人群的属性。部件3003和3004的功能分别类似于单元100和200的功能，且因此本文中省略其详细描述。

虽然已描述了本发明的优选示例，但是本领域技术人员可以在知道基本发明性概念后即刻对这些示例作出变化或修改。所附权利要求旨在被视为包括优选示例并且所有变化或修改都落在本发明的范围内。

显然，本领域技术人员可以在不背离本发明的精神和范围的情况下对本发明作出各种变化或修改。因而，如果这些变化或修改属于权利要求和等效技术的范围，则它们也可落入本发明的范围中。

Claims

1.一种用于预测人群属性的系统，包括：

特征提取装置，其获得具有人群场景的视频并从所获得的视频中提取外观特征和运动特征，其中所述运动特征是独立于场景的并且指示所述视频中的人群的运动属性；以及

预测装置，其与所述特征提取装置电通信并基于所提取的运动特征和所提取的外观特征来预测所述视频中的所述人群的属性。

2.根据权利要求1所述的系统，其中所述特征提取装置进一步包括运动特征提取单元，所述运动特征提取单元包括：

跟踪片段检测模块(1021)，其检测在所述视频的每个帧中所述人群的短轨迹；

运动图确定模块(1022)，其计算每个所述短轨迹与其相邻短轨迹之间的物理关系以确定在所述视频的每个帧中所述人群的一个或多个运动分布；以及

连续运动通道生成模块(1023)，其在时域中对所确定的运动分布进行平均，并将一个或多个稀疏的短轨迹点内插到已被平均化的分布中以形成一个或多个连续运动通道，从而形成所述运动特征。

3.根据权利要求2所述的系统，其中所述运动分布至少包括以下至少之一：

集体性分布，其指示在整个场景中个体以集体运动而表现一致的程度，

稳定性分布，其指示所述整个场景是否能够保持所述整个场景中的人群的拓扑结构，以及

冲突分布，其指示所述场景中的人群的每一对最相邻短轨迹之间的互动/冲突。

4.根据权利要求1所述的系统，其中所预测的属性至少指示所述人群中的人的角色、所述人群的地点、和所述的人为什么在所述人群中的原因。

5.根据权利要求1到4中任一项所述的系统，其中所述预测装置配置有卷积神经网络，所述卷积神经网络具有：

第一分支，其用于接收具有人群场景的视频的运动特征，其中所述第一分支配置有用于从所接收的运动特征来预测人群属性的第一神经网络；以及

第二分支，其用于接收具有人群场景的视频的外观特征，其中所述第二分支配置有用于从所接收的外观特征来预测人群属性的第二神经网络，

其中，从所述第一分支的预测的人群属性和从所述第二分支预测的人群属性融合在一起，以输出对所述视频中的所述人群的所述属性的预测。

6.根据权利要求5所述的系统，其进一步包括训练装置，所述训练装置用于通过以下步骤来训练所述第二神经网络：

随机地初始化所述第二神经网络的参数；

计算所述第二神经网络中的所述参数的损失；

基于所计算的损失来计算关于所有所述参数的梯度；

通过使用一个前置学习率与对应的所述梯度的乘积来更新所述参数；

确定是否满足停止条件；

如果不满足，则返回到所述计算的步骤。

7.根据权利要求6所述的系统，其中所述训练装置通过以下步骤来训练所述第一神经网络：

用预训练的数据集来初始化所述第一神经网络的参数；

计算所述第一神经网络中的所述参数的损失；

基于所计算的损失来计算关于所有所述参数的梯度；

通过使用一个前置学习率与所述对应梯度的乘积来更新所述参数；

确定是否满足停止条件；

如果不满足，则返回到所述计算的步骤。

8.根据权利要求7所述的系统，其中，经过训练的所述第一神经网络和经过训练的所述第二神经网络连接在一起，所述训练装置进一步将微调集输入到被连接的这两个网络中，以对所连接的网络进行微调。

9.一种用于理解人群场景的方法，其包括：

获得具有人群场景的视频；

从所获得的视频中提取外观特征和运动特征，其中所述运动特征是独立于场景的并且指示所述视频中的人群的运动属性；以及

基于所提取的运动特征和提取的外观特征来预测所述视频中的所述人群的属性。

10.根据权利要求9所述的方法，其中，所述提取进一步包括：

检测所述视频帧中的所述人群的短轨迹；

计算每个所述短轨迹与其相邻短轨迹之间的物理关系以确定在所述视频的每个帧中所述人群的一个或多个运动分布；以及

在时域中对所确定的运动分布进行平均，并将一个或多个稀疏的短轨迹点内插到已被平均化的分布中以形成一个或多个连续运动通道，从而形成所述运动特征。

11.根据权利要求10所述的方法，其中所述运动分布至少包括以下各者中的至少一者：

12.根据权利要求9所述的方法，其中所预测的属性至少指示所述人群中的人的角色、所述人群的地点、和所述人为什么在所述人群中的原因。

13.根据权利要求9到12中任一项所述的方法，其中所述预测进一步包括：

将第一分支配置成接收具有人群场景的视频的运动特征，其中所述第一分支配置有用于从所接收的运动特征来预测人群属性的第一神经网络；

将第二分支用于接收具有人群场景的视频的外观特征，其中第二分支配置有用于从所接收的外观特征来预测人群属性的第二神经网络；以及

将从所述第一分支预测的人群属性和从所述第二分支预测的人群属性连接起来，以输出对所述视频中的所述人群的所述属性的预测。

14.根据权利要求13所述的方法，其进一步包括：

随机地初始化所述第二神经网络的参数；

计算所述第二神经网络中的所述参数的损失；

基于所计算的损失来计算关于所有所述参数的梯度；

确定是否满足停止条件；

如果不满足，则返回到所述计算步骤。

15.根据权利要求14所述的方法，其进一步包括：

用预训练的数据集来初始化所述第一神经网络的参数；

计算所述第一神经网络中的所述参数的损失；

基于所述所计算的损失来计算关于所有所述参数的梯度；

确定是否满足停止条件；

如果不满足，则返回到所述计算步骤。

16.根据权利要求15所述的方法，其进一步包括：

将经过训练的所述第一神经网络和经过训练的所述第二神经网络连接在一起；以及

通过将微调集输入到所连接的网络中来对该连接起来的网络进行微调。

17.一种用于预测人群属性的系统，其包括：

存储器，其存储可执行部件；以及

处理器，其电联接到所述存储器来执行所述可执行部件以执行所述系统的操作，其中，所述可执行部件包括：

特征提取部件，其获得具有人群场景的视频并从所获得的视频中提取外观特征和运动特征，其中所述运动特征是独立于场景的并且指示所述视频中的人群的运动属性；以及

预测部件提取部件，其基于所提取的运动特征和所提取的外观特征来预测所述视频中的所述人群的属性。

18.根据权利要求17所述的系统，其中所述特征提取部件用于：

检测在所述视频帧中所述人群的短轨迹；

19.根据权利要求18所述的系统，其中所述运动分布至少包括以下至少之一：

稳定性分布，其指示所述整个场景是否能够保持所述整个场景中的所述人群的拓扑结构，以及

20.根据权利要求19所述的系统，其中所述预测部件进一步用于：

将第二分支配置成接收具有人群场景的视频的外观特征，其中第二分支配置有用于从所接收的外观特征来预测人群属性的第二神经网络；以及

连接从所述第一分支预测的人群属性和从所述第二分支预测的人群属性，以输出对所述视频中的人群的所述属性的预测。