CN111259790B

CN111259790B - 用于中短时视频的从粗到细的行为快速检测与分类方法及系统

Info

Publication number: CN111259790B
Application number: CN202010042072.8A
Authority: CN
Inventors: 林巍峣; 李昱希; 徐树公
Original assignee: Shanghai Jiaotong University; University of Shanghai for Science and Technology
Current assignee: Shanghai Jiaotong University; University of Shanghai for Science and Technology
Priority date: 2020-01-15
Filing date: 2020-01-15
Publication date: 2023-06-20
Anticipated expiration: 2040-01-15
Also published as: CN111259790A

Abstract

一种用于中短时视频的从粗到细的行为快速检测与分类方法及系统，通过对原视频重采样后进行时空联合的特征提取，在此基础上进行时域定位；然后根据时域定位得到的采样特征信息进行目标分类以及粗略定位，根据目标分类得到的行为类别以及行为轨迹的描述参数对粗略定位得到的行为轨迹在关键帧上依次进行修正，得到行为检测结果，从而实现行为目标的快速检测。本发明在有效提升分类精度以及定位精度的同时，还能够确保行为检测的运行效率，目标检测的准确率可以达到79.30％，同时平均每一帧的处理时间仅为7.6毫秒。

Description

用于中短时视频的从粗到细的行为快速检测与分类方法及系统

技术领域

本发明涉及的是一种图像处理领域的技术，具体是一种用于中短时视频的从粗到细的行为快速检测与分类方法及系统。

背景技术

基于视频的行为检测与识别分类技术是自动将视频中的人物目标进行逐帧定位与跟踪，并结合时空信息对其行为进行识别的技术。现有的视频行为检测技术主要通过逐帧或者逐段地提取出精确的运动空间定位；对逐段的行为定位进行分类；将以上的检测结果沿时域链接形成时空联合的带有行为类别标签的人物轨迹。现有技术虽然有利用深度神经网络提高检测准确度，但其最终分类结果高度依赖于稠密的逐帧检测结果以及时域的连接算法的准确性。因此，针对上述现有技术缺陷，急需一种快速高效的行为检测算法，同时能够通过长时时间信息建模帮助行为识别，又避免稠密但低效的逐帧检测。

发明内容

本发明针对现有技术存在的上述不足，提出一种用于中短时视频的从粗到细的行为快速检测与分类方法及系统，在有效提升分类精度以及定位精度的同时，还能够确保行为检测的运行效率，目标检测的准确率可以达到79.30％，同时平均每一帧的处理时间仅为7.6毫秒。

本发明是通过以下技术方案实现的：

本发明涉及一种用于中短时视频的从粗到细的行为快速检测与分类方法，通过对原视频重采样后进行时空联合的特征提取，在此基础上进行时域定位；然后根据时域定位得到的采样特征信息进行目标分类以及粗略定位，根据目标分类得到的行为类别以及行为轨迹的描述参数对粗略定位得到的行为轨迹在关键帧上依次进行修正，得到行为检测结果，从而实现行为目标的快速检测。

所述的时空联合的特征提取是指：利用三维卷积神经网络对固定帧数的输入视频进行卷积，卷积的最终输出为三维网格，每个网格中包含一个固定维度的高维特征向量来描述局部时空关系。

所述的三维卷积神经网络为基于GoogleNet网络卷积核沿时间维度进行重复延伸拓展得到的I3D卷积神经网络。

所述的高维特征向量为：F∈R^C×T×H×W，其中：F为高位特征向量构成的网格；T、H、W分别为网格的时间尺度、高度和宽度；C为向量维度。

所述的时域定位是指：对三维网格进行空间平均池化得到一维特征，并通过时域检测得到在对应位置存在行为的概率和起止区间的相对坐标，再在三维网格上的对应起止区间的相对坐标中进行均匀采样，得到稀疏采样后的二维采样空间特征。

所述的时域检测是指：利用一层一维卷积神经网络对池化得到的一维特征进行卷积，输出对应位置存在行为的概率和起止区间的相对坐标。

所述的目标分类是指：将时域定位得到的采样特征信息进行时域差分处理，将原采样特征信息以及时域差分处理后的残差结果相加后进行时域池化，使三维特征变成二维特征，得到行为类别以及行为轨迹的描述参数。

所述的行为类别的描述参数为：c∈[0，1]^K，类别描述为一个归一化的K为向量，K为总类别数量，每一维的数值代表属于该行为类别的置信度。

所述的行为轨迹的描述参数为：θ＝[θ_x，θ_y，θ_w，θ_h]^T，其中：θ表示为一个4×(k+1)规模的矩阵，k＝4为多项式阶数，矩阵每一列(θ_x，θ_y，θ_w，θ_h)表示对应目标框空间坐标的k+1个多项式系数。

所述的粗略定位是指：利用关键帧选择网络对将时域定位得到的采样特征信息进行选择，得到对于最终定位最为关键时间戳对应的二维特征。

所述的关键帧选择网络包括：级联的空间均匀池化层和一维编码-解码层，其中：空间均匀池化层对采样特征信息进行空间降维处理，一维编码-解码层对降维后的采样特征进行编码-解码，得到每个采样特征的关键帧置信度。

所述的编码-解码具体是指：利用步长为2的一维卷积对一维特征进行逐次降采样，实现编码；对降采样后的特征，利用步长为2的一维反卷积操作进行升采样，实现解码，解码端输出的时间尺度与输入端一致，即采样帧个数。

所述的修正是指：根据目标分类得到的行为类别以及行为轨迹的描述参数生成粗略的行为轨迹描述，在粗略定位得到的关键帧上的粗略行为轨迹的位置，在该位置附近的领域通过局部检测得到该领域内置信度最高的行为检测框替代原本的位置，实现行为轨迹的修正。

所述的粗略行为轨迹为：

其中：t表示关键帧选择网络输出关键帧对应的时间戳，[x(t)，y(t)，w(t)，h(t)]在该关键帧上粗略估计的框坐标。

所述的局部检测是指：通过级联的二维卷积网络在对应被选择的关键帧的二维特征上进行卷积操作得到对应的检测框以及置信度。

所述的二维卷积网络包括：如图3所示的由3个2D卷积模块级联后分别由两路并行的卷积操作输出置信度以及回归坐标的结构。

所述的行为检测结果，优选进一步经过样条插值，得到对应行为轨迹的稠密表示。

本发明涉及一种用于中短时视频的从粗到细的行为快速检测与分类系统，包括：时空联合特征提取单元、时域定位单元、粗略定位单元和修正单元，其中：时空联合特征提取单元与时域定位单元相连并传输时空联合特征信息，时域定位单元与粗定位单元以及修正单元相连并传输采样特征信息，粗略定位单元对原采样特征及差分特征同时处理得到行为的类别与轨迹描述参数，实现目标行为的粗略定位并输出至修正单元，修正单元利用粗略定位以及选择的关键帧，细化修正坐标框得到轨迹描述信息。

所述的粗略定位单元将时域定位得到的采样特征信息进行时域差分处理，将原采样特征信息以及时域差分处理后的残差结果进行全局目标检测，得到行为类别以及行为轨迹的描述参数。

所述的修正单元利用空间池化-编码-解码的级联结构对每一帧采样特征进行权重评估，通过选取权重较大的关键帧，在对应的采样二维特征上利用二维卷积模块输出修正后的目标框及置信度。

技术效果

本发明整体解决了从中短时(6s-15s)的视频中，快速定位出目标行为在时空坐标下的位置的技术空白。

与现有技术相比，本发明技术效果包括：

1、本发明利用参数建模的方式，将粗略的行为轨迹估计用带参数的时间函数进行表示，避免了逐帧表示时稠密检测和链接的必要性，提高了视频行为检测的效率，同时在行为识别模块中引入了三维特征的时域残差分量作为辅助信息，有效提高了行为识别和定位的精确度。

2、本发明通过重采样输入避免了稠密冗余的中间帧检测。同时后级的局部检测网络只需要在行为选择网络选择的关键帧上进行细化即可得到最终结果，这种关键帧选择的机制进一步避免了冗余检测的可能性，提高了网络效率。

3、本发明基于粗略轨迹进行局部搜索的方法降低了局部检测器的搜索空间，提高了效率的同时降低了误捡噪声干扰的可能性。

附图说明

图1为本发明的流程图；

图2为全局检测器结构示意图；

图3为局部检测器结构示意图；

图4为关键帧选择网络结构示意图。

具体实施方式

如图1所示，为本实施例涉及一种用于中短时视频的从粗到细的行为快速检测与分类方法，具体步骤如下：

A：对输入视频流进行重采样，使得输入视频保持固定的帧数用于后级的行为检测与分类。

所述的对输入视频流重采样是指：对输入视频进行降采样或补中间帧，使其输入长度为本实施例中的固定长度T_i＝96。对于采样系数不为整数的情况，采用双线性插值的方法得到中间采样帧。

B、将步骤A中得到的重采样视频进行时空联合的特征提取，得到三维特征图。

所述的时空联合的特征提取是指：利用三维卷积神经网络对固定帧数的输入视频进行卷积，卷积的最终输出为三维网格，每个网格中包含一个固定维度的高维特征向量来描述局部时空关系。在本实施例中，采用Carriar等人提出的I3D三维网络作为特征提取器提取三维特征。

C、对步骤B中得到的三维特征进行进一步处理，通过空间平均池化操作得到一维特征，并通过时域检测器得到在一维特征上得到时域的检测结果。

在本实施例中，空间池化操作指采用空间平均池化的方式将三维特征降为一维特征，

其中：F_三维为输入的三维特征，F一_维为输出的一维特征，H，W为三维特征空间尺度，(x，y，t)为特征网格的时空坐标。

所述的时域检测是指：利用一层一维卷积神经网络对池化得到的一维特征进行卷积，输出对应位置存在行为的概率p，归一化的起始时间s，终止时间e。

D、利用步骤C中得到的时域检测结果，在步骤B得到的三维特征图上的对应时间区间中进行均匀采样，得到稀疏采样后的二维空间特征。

在本实施例中，采用

对原三维特征在时域区间(s，e)进行均匀采样，其中：/>

为第n个采样点出得到的二维空间特征。同时，在本实施例中，为了防止过多采样点数的带来冗余采样和过高的计算复杂度，最大采样点数被限制为N_m＝16，即1≤n≤N_m＝12。

E、对步骤D中稀疏采样得到的二维特征进行时域差分处理，将原特征以及差分残差结果送入全局目标检测器中进行检测，得到行为类别以及行为轨迹的描述参数。

在本实施例中，时域差分处理指采用

对采样后的二维特征进行后相差分得到残差值R(x，y)，所述的全局检测器指如图2所示的三维卷积以HeKaiming等人提出的NonLocal模块级联所形成的运算结构，该结构在输出端输出每个像素位置可能存在行为类别c，以及其对应的描述参数。

在本实施例中，行为轨迹的四个坐标x(t)，y(t)，w(t)，h(t)，即中心位置与宽高表示为带参数的k阶多项式表述，

其中：描述参数θ表示为一个4×(k+1)规模的矩阵，k＝4，矩阵每一列(θ_x，θ_y，θ_w，θ_h)表示对应坐标的k+1个多项式系数矩阵中的参数均由之前提及的全局检测器预测。

F、利用关键帧选择网络对步骤D中稀疏采样得到的二维特征进行选择，得到对于最终定位最为关键时间戳对应的二维特征。

如图4所示，所述的关键帧选择网络包括空间均匀池化操作以及一维编码-解码的级联结构，在本实施例中，该网络对第n个采样得到的二维特征及其对应的时间戳t_n进行二分类，判断其是否是关键帧并且输出一个关键帧的置信度μ_n，并且将μ_n≥0.25的时间戳对应的二维特征选择为关键帧。

G、利用步骤E得到的轨迹描述参数生成粗略的行为轨迹描述，并利用步骤F选择的关键帧时间戳，得到粗略行为轨迹在关键帧上的位置，在该位置附近的领域通过局部检测器检测出该领域内置信度最高的行为检测框替代原本的位置，实现行为轨迹的细化与修正。

在本实施例中，所述的粗略行为轨迹在关键帧上的位置是指：将关键帧对应的时间戳μ_n带入行为轨迹方程中，从而得到在该关键帧上粗略估计的行为位置坐标[x(μ_n)，y(μ_n)，w(μ_n)，h(μ_n)]。

所述的该位置附近的领域指二维搜索空间Ω＝[x(μ_n)-σw(μ_n)，x(μ_n)+σw(μ_n)]×[y(μ_n)-σh(μ_n)，y(μ_n)+σh(μ_n)]

所述的局部检测器指如图3所示的级联二维卷积网络，通过在Ω所确定的二维区域内进行卷积预测得到领域内可能存在的行为目标框坐标

及其置信度，选取置信度最大的检测框，用其坐标替代原始的估计坐标[x(μ_n)，y(μ_n)，w(μ_n)，h(μ_n)]从而实现行为轨迹的修正。

最后将所有关键帧上得到的修正后的检测框

的各个坐标之间进行三次样条插值得到对应行为轨迹的稠密表示。

经过具体实际实验，在Ubuntu16.04操作系统，并装配CUDA9.0库，测试数据集采用UCF101-24的具体环境设置下，运行上述装置/方法，能够得到的实验数据是：mAP准确率79.30％，同时平均每一帧的处理时间仅为7.6毫秒。

与现有技术相比，本方法采用了时空联合特征提取方法，增强了模型的表征能力，相比目前发表的最优算法提升了8.3％；采用了参数化建模的方式再到细化修正的从粗到细的检测方法，避免了逐帧检测的冗余与干扰，实现了7.6毫秒/帧的处理速度，是目前主流方法中运行最快的解决方案。

上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整，本发明的保护范围以权利要求书为准且不由上述具体实施所限，在其范围内的各个实现方案均受本发明之约束。

Claims

1.一种用于中短时视频的从粗到细的行为快速检测与分类方法，其特征在于，通过对原视频重采样后进行时空联合的特征提取，在此基础上进行时域定位；然后根据时域定位得到的采样特征信息进行目标分类以及粗略定位，根据目标分类得到的行为类别以及行为轨迹的描述参数对粗略定位得到的行为轨迹在关键帧上依次进行修正，得到行为检测结果，从而实现行为目标的快速检测；

所述的目标分类是指：将时域定位得到的采样特征信息进行时域差分处理，将原采样特征信息以及时域差分处理后的残差结果相加后进行时域池化，使三维特征变成二维特征，得到行为类别以及行为轨迹的描述参数；

行为类别的描述参数为：c∈[0，1]^K，类别描述为一个归一化的K为向量，K为总类别数量，每一维的数值代表属于该行为类别的置信度；

行为轨迹的描述参数为：θ＝[θ_x，θ_y，θ_w，θ_h]^T，其中：θ表示为一个4×(k+1)规模的矩阵，k＝4为多项式阶数，矩阵每一列(θ_x，θ_y，θ_w，θ_h)表示对应目标框空间坐标的k+1个多项式系数；

2.根据权利要求1所述的方法，其特征是，所述的时空联合的特征提取是指：利用三维卷积神经网络对固定帧数的输入视频进行卷积，卷积的最终输出为三维网格，每个网格中包含一个固定维度的高维特征向量来描述局部时空关系；

3.根据权利要求1所述的方法，其特征是，所述的时域定位是指：对三维网格进行空间平均池化得到一维特征，并通过时域检测得到在对应位置存在行为的概率和起止区间的相对坐标，再在三维网格上的对应起止区间的相对坐标中进行均匀采样，得到稀疏采样后的二维空间特征；

4.根据权利要求1所述的方法，其特征是，所述的关键帧选择网络包括：级联的空间均匀池化层和一维编码-解码层，其中：空间均匀池化层对采样特征信息进行空间降维处理，一维编码-解码层对降维后的采样特征进行编码-解码，得到每个采样特征的关键帧置信度；

5.根据权利要求1所述的方法，其特征是，所述的修正是指：根据目标分类得到的行为类别以及行为轨迹的描述参数生成粗略的行为轨迹描述，在粗略定位得到的关键帧上的粗略行为轨迹的位置，在该位置附近的领域通过局部检测得到该领域内置信度最高的行为检测框替代原本的位置，实现行为轨迹的修正。

6.根据权利要求5所述的方法，其特征是，所述的粗略行为轨迹为：

其中：t表示关键帧选择网络输出关键帧对应的时间戳，[x(t)，y(t)，w(t)，h(t)]在该关键帧上粗略估计的框坐标；

7.一种用于中短时视频的从粗到细的行为快速检测与分类系统，其特征在于，包括：粗略定位单元对原采样特征及差分特征同时处理得到行为的类别与轨迹描述参数，实现目标行为的粗略定位并输出至修正单元，修正单元利用粗略定位以及选择的关键帧，细化修正坐标框得到轨迹描述信息。

8.根据权利要求7所述的系统，其特征是，所述的粗略定位单元将时域定位得到的采样特征信息进行时域差分处理，将原采样特征信息以及时域差分处理后的残差结果进行全局目标检测，得到行为类别以及行为轨迹的描述参数；