CN106066993A

CN106066993A - 一种人群语义分割方法及系统

Info

Publication number: CN106066993A
Application number: CN201610345937.1A
Authority: CN
Inventors: 杨华; 李集佳; 吴双; 朱继
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2016-05-23
Filing date: 2016-05-23
Publication date: 2016-11-02
Anticipated expiration: 2036-05-23
Also published as: CN106066993B

Abstract

本发明提供了一种计算机视频处理技术领域的人群语义分割方法及系统，步骤为：对于图像，根据运动一致性的时域运动群组分割，根据分布匀质性的空域分布群组分割；综合时域和空域分割结果的联合语义群组分割；基于语义一致的群组状态描述。本发明在人群分割的过程中综合考虑了人群的运动一致性和分布匀质性，使得分割后的群组具有时空域内的稳定状态，同时可以较好地描述各个群组的状态，包括运动模式和密度等级。

Description

一种人群语义分割方法及系统

技术领域

本发明属于计算机视频处理技术领域，具体为一种人群语义分割方法及系统，用于将视频中拥有不同运动和分布状态的人群分割成具有稳定可描述状态的群组。

背景技术

随着大型活动的增多，大尺度人群聚集频繁，人群场景和行为也日趋复杂，因此人群智能分析在视频监控和人群管理中所起的作用显得尤为突出，针对视频监控的人群分析方法在计算机视觉领域正受到广泛的关注。但是在复杂场景下对于整个人群使用单一模型和不加区分的计算容易产生较大的误判，而人群分割则将人群区分为不同性质和状态的群组，为更加精细的人群描述和行为分析提供了基础。

对于人群分割问题，通常有三种常用的模型：流体场模型、粒子模型、概率模型。它们从不同的角度对人群进行建模和分析。

流体场模型将人群看成场景范围内的流体场，并通过对流体场的分析得到人群分割结果。其中有的方法计算流体的结构，并找到突出点作为人群分割块的边缘(参见：S.Aliand M.Shah.A lagrangian particle dynamics ap-proach for crowd flowsegmentation and stability analysis.In Computer Vision and PatternRecognition(CVPR),IEEE Conference on,pages 1–6.IEEE,2007)；有的方法利用流体间的局部关系减少兴趣点并将它们聚类成为不同的群组(参见：H.Min,S.ALI,andM.SHAH.Learning motion patterns in crowded scenes using motion flow field.InInternational Conference on Pattern Recognition(ICPR),IEEE Conference on,2008)。这两种方法都能得到空间上连续的区块，但是它们只计算像素点周围的局部性质，因此不适用于低密度和非结构化的人群，而且缺少对群组的语义描述。

粒子模型首先提取一些兴趣点作为人群的采样粒子，然后计算这些粒子的轨迹并分析它们之间的关系，最后根据粒子间的关系使用聚类的方法将粒子分到不同的群组中(参见：J.Shao,C.Loy,and X.Wang.Scene-independent group pro-filing in crowd.InComputer Vision and Pattern Recognition(CVPR),IEEE Conference on,pages 2219–2226,2014)。粒子模型方法受跟踪错误的影响比较大，并且不适用于高密度的情形。

概率模型将人群分割看成一个统计问题，并使用特定的概率模型描述运动特征(参见：I.Saleemi,L.Hartung,and M.Shah.Scene understanding by statisticalmodeling of motion patterns.In Computer Vision and Pattern Recognition(CVPR),IEEE Conference on,pages 2069–2076.IEEE,2010)。基于概率模型的方法主要用于长期的行为统计分析，但不适用于即时的行为分析，不能对人群变化作出快速反应。

发明内容

本发明的目的在于克服上述现有技术的不足之处，提出了一种新的人群语义分割方法及系统，能够即时分析行为，对人群变化作出快速反应，并能适用于高密度的情形。

根据本发明的第一目的，提供一种人群语义分割方法，本发明综合了流体场模型和粒子模型的优点，首先分别考虑运动一致性和分布匀质性，得到离散和连续的群组分割；其次将两种群组结合，得到联合语义群组分割；最后利用之前计算过程的中间对群组状态进行描述，包括运动模式和密度等级。

具体的，所述方法包括以下几个步骤：

第一步：对于图像，根据运动一致性进行时域运动群组分割，根据分布匀质性进行空域分布群组分割；

第二步：将时域运动群组分割和空域分布群组分割的分割结果结合起来得到对人群的联合语义分割；

第三步：根据第二步的分割结果描述群组的状态，包括运动模式和密度等级；

第一步中所述根据运动一致性进行时域运动群组分割，是指：

101：使用KLT轨迹跟踪方法，得到在T帧时间范围内的N条主要运动轨迹。记其中第i条轨迹在T帧范围内的位置序列和速度序列分别为z_i，1，z_i，2，...z_i，T和 v_i，1，v_i，2，...v_i，T-1,并且v_i，t＝z_i，t+1-z_i，t，1≤t≤T-1；

102：对于任意两条轨迹i和j，计算它们的轨迹一致性c_i，j，并以此为基础构建KNN图G(V，E)，其中V是N个顶点的集合，E是顶点之间所连的边；

103：对于KNN图G(V，E)，使用图割的方法进行聚类，得到N个轨迹点的运动分割；

第一步中所述根据分布匀质性进行空域分布群组分割，是指：

104：计算序列图像内的SST-LBP兴趣点和相应的纹理值；其中兴趣点的计算采用三维Hessian矩阵，纹理值的计算采用三维柱状序列；

105：对SST-LBP纹理分布图使用不同大小的高斯核进行高斯扩散，并在此基础上计算分布特征，使用k-means方法形成多层次的分割。

优选地，所述轨迹一致性c_i，j，计算公式如下：

c_{i, j} = \underset{t}{a v e} (\frac{v_{i, t} \cdot v_{j, t + τ_{0}}}{| v_{i, t} | | v_{j, t + τ_{0}} |}),

其中τ₀是轨迹j相对于i的时域偏移，其计算方法是下式所示r_i，j(t)的峰值：

r_{i, j} (t) = I F T (\frac{V_{i}^{x} (ω) \cdot {\overset{&OverBar;}{V}}_{j}^{x} (ω)}{| V_{i}^{x} (ω) | | V_{j}^{x} (ω) |} + \frac{V_{i}^{y} (ω) \cdot {\overset{&OverBar;}{V}}_{j}^{y} (ω)}{| V_{i}^{y} (ω) | | V_{j}^{y} (ω) |}),

其中是速度序列的傅利叶变换，是指的复数共轭序列，依此类推。

优选地，所述步骤102：

首先用一个阈值以及K邻域确定两个顶点是否有边相连，即：

其中c_h是轨迹一致性的阈值，表示第j条轨迹在T帧内都属于第i条轨迹附近最近的K个点之一；δ_i，j是指第i个顶点和第j个顶点是否相连，若两点相连则相应值为1；

其次，根据顶点间的距离确定它们相连的边的权重ω_i，j，即：

其中是两个轨迹点的距离平方，是所有相连点距离平方的均值；∑_i，j是指对于所有1≤i，j≤N且i≠j的下标数对的求和。

所述使用图割的方法进行聚类，其中图割使用自下向上的合成聚类方法，并且在聚类的过程中使用有向权重图的Q值计算方法确定最合适的聚类数量。

优选地，所述步骤105：使用不同核的高斯扩散并基于此完成不同层级的分割，记高斯核的大小为[K₁，K₂，...，K_P],根据相应的高斯扩散图，对每个像素点作成维度为P的分布特征F＝[F₁，F₂，...，F_P]，对这些特征使用k-means聚类方法得到S个中心点，并形成S个层次的像素级分割。

优选地，第二步，具体步骤如下：

1)对于当前的时域运动群组分割结果G₁，G₂，...，G_M和空域分布群组分割结果L₁，L₂，...L_S,考虑每一个时域运动群组分割结果G_i，找到G_i覆盖范围和L₁的交集S₁，S₂，...，S_q，根据交集得到子图，并计算和记录此时的Q值；

2)对于每一个交集S_j和分布分割层级L_k，使用L_k将S_j分割成更细致的区块，并相应地对G_i作图割，计算当前的Q值；

3)若当前Q值大于之前记录的Q值，则令记录的Q值为当前Q值，并计算下一分割层级L_k，转至步骤2)；

4)若当前Q值不大于之前记录的Q值，则恢复到之前的分割状态，并计算下一个交集S_j，转至步骤2)。

优选地，第二步中：使用分布分割的层级分割结果，使得时域运动群组分割和空域分布群组分割的融合能够适应不同的场景和行为，根据实际情况选择合适的分割颗粒度。

优选地，第三步中：所述运动模式，计算利用联合语义分割对于运动分割的图割结果，对于联合语义分割得到的每一个子图，寻找每一个顶点视角范围内与它具有最大轨迹一致性的点作为它的下一顶点，并将它们与其下一顶点相连，之后，选择其中最长的几条路径标示在图中，用来描述该子图对应群组的运动模式。

优选地，第三步中：所述密度等级，计算利用联合语义分割对于分布分割的层次选择结果，对联合语义分割后的每一个分割块内的SST-LBP值进行统计分析，记块内第i个点的SST-LBP值为d_i，则密度等级D_l的计算式如下：

D_{l} = 1 - \underset{i}{a v e} (\exp (- \frac{d_{i}}{d_{h}})),

其中d_h是一个阈值，最终得到的密度等级D_l取值范围为[0,1]，作为该群组的密度等级表示，密度等级值越接近1表示该群组的密度越大。

根据本发明的第二目的，提供一种人群语义分割系统，包括：

群组分割模块：该模块根据运动一致性进行时域运动群组分割，根据分布匀质性进行空域分布群组分割；

联合语义分割模块：将群组分割模块得到的时域运动群组分割和空域分布群组分割的分割结果结合起来，得到对人群的联合语义分割；

群组状态描述模块：根据联合语义分割模块的分割结果描述群组的状态，包括运动模式和密度等级。

与现有技术相比，本发明具有如下的有益效果：

本发明在人群分割的过程中综合考虑了人群的运动一致性和分布匀质性，使得分割后的群组具有时空域内的稳定状态，同时可以较好地描述各个群组的状态：

1)本发明提出一种轨迹一致性的指标，能够更好地描述一段时间内运动模式的相似性，而不是仅局限于当前速度的一致性；

2)本发明提出一种基于LBP扩散聚类的分布分割方法，能够兼顾更大范围内的人群分割情况，找出匀质性的群组分布；

3)本发明提出一种联合分割方法，结合运动分割和分布分割的结果，在控制方法复杂度的前提下得到更加精细和准确的群组分割；

4)本发明利用群组分割的中间结果计算每个群组的运动模式和密度等级，得到对于群组时空状态的描述；

5)本发明不需要标定和训练，能保证较高的效率和灵活性。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明一较优实施例中人群语义分割方法的总体流程图；

图2为本发明一实施例选取场景的图像序列图；

图3为本发明一实施例的时域运动群组分割结果图；

图4为本发明一实施例的空域分布群组分割结果图；

图5为本发明一实施例的联合语义分割过程示例；

图6为本发明一实施例的联合语义分割结果；

图7为本发明一实施例的最终分割结果及群组状态表示。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进。这些都属于本发明的保护范围。

如图1所示，为人群语义分割方法的总体流程。该方法首先根据运动一致性和分布匀质性分别计算时域运动分割和空域分布分割；其次将两者的分割结果结合起来得到对人群的联合语义分割；最后根据以上的分割结果描述群组的状态，包括运动模式和密度等级。

以下提供上述人群语义分割的方法的具体实施说明，在一实施例中，采用的图像帧来自某十字路口的监控视频，该十字路口在行人通过时会存在不同的人群分布及方向，其某一时刻的图像序列如图2所示。

所述方法按照图1所示的流程进行实施，包括如下具体步骤：

第一步：基于运动一致性的时域运动群组分割，具体步骤如下：

1)使用KLT轨迹跟踪方法，得到在T帧时间范围内的N条主要运动轨迹。记其中第i条轨迹在T帧范围内的位置序列和速度序列分别为z_i，1，z_i，2，...z_i，T和v_i，1，v_i，2，...v_i，T-1,并且v_i，t＝z_i，t+1-z_i，t。在本实施例中，取T为5,实施例中得到的N为88；

所述KLT轨迹跟踪方法可以采用方法，比如：C.Tomasi and T.Kanade. Detectionand tracking of point features.School of Computer Science,Carnegie MellonUniv.Pittsburgh,1991)

2)对于任意两条轨迹i和j，计算它们的轨迹一致性c_i，j，具体计算式如下：

c_{i, j} = \underset{t}{a v e} (\frac{v_{i, t} \cdot v_{j, t + τ_{0}}}{| v_{i, t} | | v_{j, t + τ_{0}} |}),

r_{i, j} (t) = I F T (\frac{V_{i}^{x} (ω) \cdot {\overset{&OverBar;}{V}}_{j}^{x} (ω)}{| V_{i}^{x} (ω) | | V_{j}^{x} (ω) |} + \frac{V_{i}^{y} (ω) \cdot {\overset{&OverBar;}{V}}_{j}^{y} (ω)}{| V_{i}^{y} (ω) | | V_{j}^{y} (ω) |}),

其中是速度序列的傅利叶变换，依此类推。

以轨迹一致性c_i，j为基础构建KNN图G(V，E)，其中V是N个顶点的集合，E是顶点之间所连的边。具体地，首先用一个阈值以及K邻域确定两个顶点是否有边相连，即：

其中c_h是轨迹一致性的阈值，在本实施例中,取c_h为0.6。表示第j条轨迹在T帧内都属于第i条轨迹附近最近的K个点之一，在本实施例中，取K为5。

其次，根据顶点间的距离确定它们相连的边的权重，即：

其中是两个轨迹点的距离平方，是所有相连点距离平方的均值；

3)对于KNN图G(V，E)，使用图割的方法进行聚类，得到N个轨迹点的运动分割。

所述自下向上的合成聚类方法，可以采用现有技术，比如：W.Zhang,X.Wang,D.Zhao,and X.Tang.Graph degree 706linkage:Agglomerative clustering on adirected graph.In 707European Conference on Computer Vision(ECCV),IEEE708Conference on,pages 428–441.Springer,2012。

所述有向权重图的Q值计算方法，可以采用现有技术，比如：S.White andP.Smyth.A spectral clustering approach to finding communities in graph. InSIAM International Confer-ence on Data Mining(SDM),volume 5,pages76–84.SIAM,2005。

当然，上述仅是本实施例中采用的方法，在其他实施例中，也可以采用其他的图割、聚类等方法，只要能实现本发明的目的即可，对于本发明技术没有实质性的影响。

上述方法实施得到的时域运动群组分割结果如图3所示。

第二步：基于分布匀质性的空域分布群组分割，具体步骤如下：

1)计算序列图像内的SST-LBP兴趣点和相应的纹理值。

本步骤中，具体实现可以参见：H.Yang,Y.Cao,H.Su,Y.Fan,and S.Zheng.Thelarge-scale crowd analysis based on sparse spatial-temporal local binarypattern.Multimedia Tools and Applications,73(1):41–60,2014。

所述兴趣点的计算采用三维Hessian矩阵，在本实施例中取为3×3×3的Hessian矩阵；纹理值的计算采用三维柱状序列，在本实施例中取为3×3×5的柱状序列。

2)对SST-LBP纹理分布图使用不同大小的高斯核进行高斯扩散，并在此基础上计算分布特征，使用k-means方法形成多层次的分割。具体地，记高斯核的大小为[K₁，K₂，...，K_P],根据相应的高斯扩散图，对每个像素点作成维度为P的分布特征F＝[F₁，F₂，...，F_P]，对这些特征使用k-means聚类方法得到S个中心点，并形成S个层次的像素级分割。

在本实施例中，取高斯核个数P为5,高斯核序列[K₁，K₂，...，K_P]为[5，11，31，51，101],k-means聚类数S为5。

本实施例中得到的空域分布群组分割结果如图4所示。

第三步：综合时域和空域分割结果的联合语义群组分割，具体步骤如下：

1)对于当前的运动分割结果G₁，G₂，...，G_M和分布分割结果L₁，L₂，...L_S(本实施例中M为4,S为5),考虑每一个G_i，找到G_i覆盖范围和L₁的交集S₁，S₂，...，S_q，根据交集得到子图，并计算和记录此时的Q值；

本实施例中，联合语义群组分割后得到的群组个数为3。联合语义分割过程以及分割结果分别如图5和图6所示。

第四步：基于语义一致的群组状态描述，包括运动模式和密度等级。它们各自的计算方法分别如下：

1)运动模式的计算利用了联合语义分割对于运动分割的图割结果。具体地，对于联合语义分割得到的每一个子图，寻找每一个顶点视角范围内与它具有最大轨迹一致性的点作为它的下一顶点，并将它们与其下一顶点相连。之后，选择其中最长的几条路径标示在图中，用来描述该子图对应群组的运动模式。

2)密度等级的计算利用了联合语义分割对于分布分割的层次选择结果。具体地，对联合语义分割后的每一个分割块内的SST-LBP值进行统计分析。记块内第i个点的SST-LBP值为d_i(包括非兴趣点的零值)，则密度等级D_l的计算式如下：

D_{l} = 1 - \underset{i}{a v e} (\exp (- \frac{d_{i}}{d_{h}})),

其中d_h是一个阈值，在本实施例中，取d_h为0.0001。最终得到的密度等级D_l取值范围为[0,1]，作为该群组的密度等级表示。密度等级值越接近1表示该群组的密度越大。

本实施例中最终得到的联合语义分割结果及其状态描述如图7所示。

通过实验证明，本实施例较之以前方法能很好的将人群分割为匀质和运动一致的块，同时能够给出对于人群的时空状态描述。下表是实施例的复杂度和准确性指标。复杂度指标用每帧处理时间表示，本实施例为0.218秒。准确性指标用群组检测准确性和群组分割准确性表示，本实施例分别为62％和90％。由下表可以看出，本实施例有较好的方法准确度，同时能够保证实时的处理速度。

每帧处理时间(秒)	群组检测准确性	群组分割准确性
			0.218	62％	90％

对应于上述方法，一种人群语义分割系统，包括：

上述系统模块具体实现的内容可以参照上述方法对应部分，这对于本领域技术人员来说是可以理解的，在此不再赘述。

本发明在人群分割的过程中综合考虑了运动的一致性和分布的匀质性，使得分割后的群组是有相似运动模式且在某一区域分布均匀的人群。这样分割后的结果更加精细和准确，并且有利于分组的语义描述。在语义描述过程中主要考虑了各个群组的运动模式和密度等级。该方法复杂度小，准确率高，不但适用于实时检测，而且能够描述出包括运动模式和密度等级的群组状态。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种人群语义分割方法，其特征在于，包括如下步骤：

101：使用KLT轨迹跟踪方法，得到在T帧时间范围内的N条主要运动轨迹。记其中第i条轨迹在T帧范围内的位置序列和速度序列分别为z_i，1，z_i，2，...z_i，T和v_i，1，v_i，2，...v_i，T-1，并且v_i，t＝z_i，t+1-z_i，t，1≤t≤T-1；

2.根据权利要求1所述的人群语义分割方法，其特征在于，所述轨迹一致性c_i，j，计算公式如下：

c_{i, j} = \underset{t}{a v e} (\frac{v_{i, t} \cdot v_{j, t + τ_{0}}}{| v_{i, t} | | v_{j, t + τ_{0}} |}),

r_{i, j} (t) = I F T (\frac{V_{i}^{x} (ω) \cdot {\overset{&OverBar;}{V}}_{j}^{x} (ω)}{| V_{i}^{x} (ω) | | V_{j}^{x} (ω) |} + \frac{V_{i}^{y} (ω) \cdot {\overset{&OverBar;}{V}}_{j}^{y} (ω)}{| V_{i}^{y} (ω) | | V_{j}^{y} (ω) |}),

3.根据权利要求2所述的人群语义分割方法，其特征在于，所述步骤102：

首先用一个阈值以及K邻域确定两个顶点是否有边相连，即：

4.根据权利要求3所述的人群语义分割方法，其特征在于，所述使用图割的方法进行聚类，其中图割使用自下向上的合成聚类方法，并且在聚类的过程中使用有向权重图的Q值计算方法确定最合适的聚类数量。

5.根据权利要求1所述的人群语义分割方法，其特征在于，所述步骤105：使用不同核的高斯扩散并基于此完成不同层级的分割，记高斯核的大小为[K₁，K₂，...，K_P],根据相应的高斯扩散图，对每个像素点作成维度为P的分布特征F＝[F₁，F₂，...，F_P]，对这些特征使用k-means聚类方法得到S个中心点，并形成S个层次的像素级分割。

6.根据权利要求1所述的人群语义分割方法，其特征在于，第二步，具体步骤如下：

7.根据权利要求6所述的人群语义分割方法，其特征在于，第二步中：使用分布分割的层级分割结果，使得时域运动群组分割和空域分布群组分割的融合能够适应不同的场景和行为，根据实际情况选择合适的分割颗粒度。

8.根据权利要求1-6任一项所述的人群语义分割方法，其特征在于，第三步中：所述运动模式，计算利用联合语义分割对于运动分割的图割结果，对于联合语义分割得到的每一个子图，寻找每一个顶点视角范围内与它具有最大轨迹一致性的点作为它的下一顶点，并将它们与其下一顶点相连，之后，选择其中最长的几条路径标示在图中，用来描述该子图对应群组的运动模式。

9.根据权利要求1-6任一项所述的人群语义分割方法，其特征在于，第三步中：所述密度等级，计算利用联合语义分割对于分布分割的层次选择结果，对联合语义分割后的每一个分割块内的SST-LBP值进行统计分析，记块内第i个点的SST-LBP值为d_i，则密度等级D_l的计算式如下：

D_{l} = 1 - \underset{i}{a v e} (\exp (- \frac{d_{i}}{d_{h}})),

10.一种用于实现上述权利要求1-9任一项所述方法的的人群语义分割系统，其特征在于，包括：