CN110472478B

CN110472478B - 一种基于光流场统计特征的场景分析方法及系统

Info

Publication number: CN110472478B
Application number: CN201910558959.XA
Authority: CN
Inventors: 樊亚文; 周全; 康彬
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2019-06-26
Filing date: 2019-06-26
Publication date: 2022-09-20
Anticipated expiration: 2039-06-26
Also published as: CN110472478A

Abstract

本发明涉及了一种基于光流统计特征的场景分析方法及系统，所述方法步骤为：对给定的监控视频，计算基本的光流场，并对其进行幅度和基于统计特征的去噪；提取光流场空间分布统计特征，空间位置量化；提取光流场方向分布统计特征，进行运动方向量化；基于量化结果构建视觉词典，将整个视频分成片段，将其中所包含的光流映射成视觉单词，每个片段由视觉单词累计表示成词袋；将词袋输入到HDP模型，提取每个视频片段对应的特征向量；采用谱聚类对所有的特征向量进行聚类，实现场景的分类。本发明可以有效地对光流去噪及量化，检测出同一场景中的不同运动模式，实现场景分类，对于视频监控中的场景分析具有重要的现实意义和实用价值。

Description

一种基于光流场统计特征的场景分析方法及系统

技术领域

本发明涉及一种基于光流场统计特征的场景分析方法及系统，属于智能视频监控技术领域。

背景技术

视频监控一直是计算机视觉领域中一个活跃的应用方向，它的目的是检测、跟踪以及识别感兴趣的目标，对监控场景进行分析。而许多监控场景，如十字路口、火车站、机场和购物购物中心等都很拥挤，运动目标之间频繁遮挡，因此大多数基于目标表示的场景分析方法难以实现。因此另一类直接基于像素表示的方法更适合复杂监控场景分析，其中使用最多的一种是光流。经对现有技术文献检索发现，光流的计算一般涉及到相邻帧间单个像素的运动矢量提取，包含了大量的局部运动信息。为了减少潜在的观测噪声，通常会用一个预定义的阈值对光流场的进行幅值过滤。并通常将图像空间分割成固定尺寸的单元格，对运动像素点的位置进行量化，还会将每个单元格中的像素点运动方向进行固定的量化(如4或8个方向)。尽管许多研究提出直接基于底层运动特征进行场景建模分析，但是他们假设每一个视频片段内只包含一个类型的运动模式，并将每个视频片段由一种类型的运动类型标注。然而在拥挤和复杂的场景中，许多类型的运动模式通常是同时发生的，传统的一些方法难以将这些同时发生的行为分开。总体来说基于底层运动特征进行场景分析依然存在一些问题,主要包括以下几点：1)采用单一的光流场去噪方法，为考虑到未考虑视频监控场景中实际的运动分布特征；2)光流的位置和方向均是固定阶数的量化，降低量化精度会造成空间位置和方向分辨率的损失；但是一味提高量化精度会造成数据量增加，也不一定能否改善场景分析的性能；3)在多种运动模式共存的情况下，不能有效检测出每个运动模式，并对场景进行分类。

发明内容

本发明的目的在于：针对现有技术存在的缺陷，提出了一种基于光流场统计特征的场景分析方法及系统，可以对光流场进行有效的去噪及非均匀量化；利用HDP模型建模，采用特征向量描述视频片段，然后通过谱聚类检测出一个场景中包含的多种运动模式，实现场景分类。

为了达到以上目的，本发明提供了一种基于光流场统计特征的场景分析方法及系统，包括如下步骤，

S1：对任意给定的监控视频，计算其光流场；

S2：对光流场进行去噪，获取有效光流场；

S3：提取光流场的空间分布统计特征，对空间位置进行量化；

S4：提取光流场的方向分布统计特征，对运动方向进行量化；

S5：将光流场在时域上分割成不重叠的片段，并将其表示成词袋；

S6：将词袋输入HDP模型，提取每个视频片段对应的特征向量。

S7：利用谱聚类算法对特征向量进行聚类，实现场景的分类。

进一步的，所述步骤1中，所述光流场的计算方法为：对于长度为N+1帧的视频，采用LK光流法，计算相邻帧间的光流场，结果表示为

{O_i(x,y)},i＝1,2,...,N，

其中(x,y)表示图像帧的空间位置点。

进一步的，所述步骤2中，光流场的去噪方法的具体步骤为：

2.1)对N个光流场每个空间点(x,y)上的光流矢量V_i(dx,dy),i＝1,2...,N进行幅值去噪，即将矢量幅值小于阈值的光流置0；

2.2)对每个空间点(x,y)上的光流个数进行时域上的统计，并进行归一化处理，其结果表示为：

其中：Num(x,y)表示空间点(x,y)处的不为0的光流总数。

2.3)将满足Thr_min≤P(x,y)≤Thr_max的空间点作为有效空间位置，其余位置上的光流均置为0，得到去噪后的有效光流场，其中Thr_min和Thr_max分别表示噪声最大即最小阈值。

进一步的，所述步骤3中，基于光流空间分布统计特征的空间位置量化的具体步骤为：

3.1)将图像帧空间位置初始网格化，每个块区域大小为H×H，8≤H≤64，且H为整数；

3.2)对每个块区域内的光流进行空间位置直方图统计，并进行归一化处理，结果表示为：

其中M表示该块区域内像素点数，且M＝H²；n_m表示第m个位置点处光流的总数；

3.3)计算归一化位置直方图和均匀分布之间的相对熵，结果表示为：

其中：U表示均匀分布，

3.4)若E_s≥Thr_s，且当前块区域的尺寸没有达到最小值L×L，2≤L≤10,L<H，且L为正整数，则将当前块区域空间上分割成四个大小相等的块区域，反之，则不再进行分割，其中Thr_s表示位置量化阈值；

3.5)重复上述步骤3.2)到3.4)逐一对每个块区域进行判断，直到不需要进一步分割，或者达到最小尺寸，最后整个图像空间被分割成L个块区域，对每个块区域从1到L进行编号。

进一步的，所述步骤S4中，基于光流方向分布统计征的运动方向量化的具体步骤为：

4.1)对于位置量化结束后的每一个块区域内的光流进行方向直方图统计，并对直方图进行归一化处理，结果表示为：

其中n_d表示方向位于第d个直方图统计区间内的光流总数，D表示直方图阶数，4≤D≤16，且D为整数；

4.2)计算归一化方向直方图和均匀分布之间的相对熵，结果表示为：

其中

4.3)如果满足E_o≥Thr_o，则该块区域内的运动方向量化成D/2个，否则量化成D个，其中Thr_o表示方向量化阈值；

4.4)重复上述步骤4.1)到4.4)，直到遍历完全部L个块区域内。

进一步的，所述步骤5中，视频词袋表示的具体步骤为：

5.1)根据位置和方向量化结构构建视觉词典，其中每个视觉单词编码形式为：

l.O.c，

其中l表示块区域的编号，1≤l≤L；O表示方向量化阶数，O＝D或者O＝D/2,c表示方向编号，1≤c≤O，且c为整数。

5.2)将N个光流场在时域上分割成不重叠的K个文档；

5.3)将每个文档内的所有光流矢量按照其所在位置和方向映射成视觉单词；

5.4)累计每个文档内视觉单词，形成个K词袋。

进一步的，所述步骤6中，视频片段特征向量提取的具体方法为：将K个词袋作为HDP模型的输入，通过对模型的训练，获得K个特征向量，表示为θ_k,k＝1,2,.....,K。

进一步的，所述步骤7中，场景分类的具体方法为：将K个特征向量作为谱聚类的输入，进行聚类，实现场景的分类。

一种用于实现所述方法的基于光流场统计特征的场景分析系统，包括

计算光流场模块，对任意给定的复杂监控视频，计算其光流场；

光流场去噪模块，对光流场从幅度和统计两方面进行去噪；

空间位置量化模块，基于光流场空间分布统计特征，对空间位置量化；

运动方向量化模块，基于光流场方向分布统计特征，对运动方方向量化；

词袋生成模块，依据空间和方向量化结果，构建视觉词典，将光流映射到视觉词典，并将每个视频片段对应的视觉词典累计，形成词袋模式；

场景建模模块，将词袋输入HDP模型，提取每个视频片段对应的特征向量；

场景分类模块，将特征向量输入谱聚类实现场景分类。

与现有技术相比，本发明的主要贡献和特点在于：

本发明所提出的场景分析方法，由于提取了光流场的统计特征，可以更有效的对光流进行去噪和量化，提高视觉词典的辨别力。另外该系统可以直接基于底层运动特征检测出场景中存在的多种运动模式，实现场景分类，在实际应用中具有很好的鲁棒性和适应性。

附图说明

下面结合附图对本发明作进一步的说明。

图1是本发明的流程框图。

图2是本发明中光流方向直方图统计的可视化示意图；其中，(a)为方向直方图分组；(b)为表示光流方向分布较集中的方向直方图；(b)为表示光流方向分布较分散的方向直方图；(d)为均匀分布直方图。

图3是本发明中实施例的一个公开的交通视频监控场景分类的可视化效果图；其中，(a)为交通监控场景；(b)为场景类别一，垂直交通流；(c)为场景类别二，拐弯交通流；(d)为场景类别三，左向交通流；(e)为场景类别四，右向交通流。

图4是本发明中实施例在公开的交通视频监控数据上的场景分类结果。

具体实施方式

下面对本发明的具体实施方式进行详细描述，但应当理解本发明的保护范围并不受具体实施方式的限制。

本实施采用的视频序列来自伦敦大学玛丽皇后学院的数据库QMUL(The QueenMaryUniversity of London)交通数据库，帧率为25pfs,分辨率为360×288。该交通监控场景由交通灯控制，包含四种交通流状态，专门用于复杂监控场景分析算法的实验。

根据图1所示流程图，本实施例所述方法的具体实施步骤为：

第一步：对于给定的监控视频，如图3中的a所示，计算其光流场。具体为对于长度为N+1帧的视频，采用LK光流法，计算相邻帧间的光流场，结果表示为:

{O_i(x,y)},i＝1,2,...,N，

其中：(x,y)表示图像帧的空间位置点。本实施例中N＝12000。

第二步：对光流场进行去噪，具体步骤为：

2.1)对N个光流场每个空间点(x,y)上的光流矢量V_i(dx,dy),i＝1,2...,N进行幅值去噪，即将矢量幅值小于Thr_A的光流置0；Thr_A表示幅值阈值，本实施例中Thr_A＝0.8。

其中：Num(x,y)表示空间点(x,y)处的不为0的光流总数。

2.3)将满足Thr_min≤P(x,y)≤Thr_max的空间点作为有效空间位置，其余位置上的光流均置为0，得到去噪后的有效光流场。其中：Thr_min和Thr_max分别表示噪声最大即最小阈值。本实施例中Thr_max＝0.7，Thr_min＝0.01。

第三步，基于光流空间分布统计特征的进行空间位置量化，具体步骤为：

3.1)将图像帧空间位置初始网格化，每个块区域大小为H×H，8≤H≤64，且H为整数。本实施例中H＝64，不足的位置补0。

其中：M表示该块区域内像素点数，且M＝H²；n_m表示第m个位置点处光流的总数；1≤m≤M，且m为整数。本实施例中M＝4096。

3.3)计算归一化位置直方图和均匀分布之间的相对熵，结果表示为，

其中：U表示均匀分布,

3.4)若E_s≥Thr_s,且当前块区域的尺寸没有达到最小值L×L，2≤L≤10,L<H，且L为正整数，则将当前块区域空间上分割成四个大小相等的块区域。反之，则不再进行分割。其中Thr_s表示位置量化阈值。本实施例中L＝4，Thr_s＝0.35。

3.5)重复上述步骤3.2)到3.4)逐一对每个块区域进行判断，直到不需要进一步分割，或者达到最小尺寸。最后整个图像空间被分割成L个块区域，对每个块区域从1到L进行编号。本实施例中L＝136。

第四步，基于光流方向分布统计征进行运动方向量化，具体步骤为：

4.1)对于位置量化结束后的每一个块区域内的光流进行方向直方图统计，并对直方图进行归一化处理，结果表示为:

其中：n_d表示方向位于第d个直方图统计区间内的光流总数；D表示直方图阶数，4≤D≤16，且D为整数；1≤d≤D，且d为整数。本实施例中D＝8，如图2所示。

其中：

4.3)如果满足E_o≥Thr_o，则该块区域内的运动方向量化成D/2个，否则量化成D个。其中Thr_o表示方向量化阈值。本实施例中Thr_o＝0.5。

4.4)重复上述步骤4.1到4.4，直到遍历完全部L个块区域内。

第五步，生成视频词袋，具体步骤为：

l.O.c，

5.2)将N个光流场在时域上分割成不重叠的K个文档；本实施例中K＝160。

5.3)将每个文档内的所有光流矢量按照其所在位置和方向映射成视觉单词。

5.4)累计每个文档内视觉单词，形成个K词袋。

第六步，视频片段特征向量提取，具体为:将K个词袋作为HDP模型的输入，通过对模型的训练，获得K个特征向量，表示为θ_k,k＝1,2,.....,K。

第七步，场景分类，具体为:将K个特征向量作为谱聚类的输入，进行聚类，实现场景的分类。在本实施例将视频场景分成了四类，如图3所示，其中柱状图表示不同量化方式下场景分类的性能，折线表示不同量化方式下视觉词典的规模。从该图中可以看出，本实施例所提出的方法能有效的对光流场进行去噪、量化、建立视觉字典，在维持较小规模的字典的情况下，取得良好的场景分类结果。

以上所述仅为本发明的一个具体实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。