CN115690658B

CN115690658B - 一种融合先验知识的半监督视频异常行为检测方法

Info

Publication number: CN115690658B
Application number: CN202211378022.2A
Authority: CN
Inventors: 周颖杰; 李香港; 朱策; 韩梦茹
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2022-11-04
Filing date: 2022-11-04
Publication date: 2023-08-08
Anticipated expiration: 2042-11-04
Also published as: CN115690658A

Abstract

本发明公开了一种融合先验知识的半监督视频异常行为检测方法，属于视频异常行为检测领域，该方法包括利用时序动作定位模块，对待测视频中行为进行起止时刻定位和特征提取，得到行为特征向量和起止时刻信息；利用空间语义提取模块对待测视频中起止时刻内的多帧图像进行场景识别，并利用多数表决投票得到空间语义特征向量；利用特征与语义信息融合模块，融合所述行为特征向量及空间语义特征向量，得到融合特征向量；基于所述融合特征向量，利用打分网络输出异常分数，完成融合先验知识的半监督视频异常行为的检测。本发明解决了视频异常行为检测时起止时刻定位不准，样本获取困难的问题。

Description

一种融合先验知识的半监督视频异常行为检测方法

技术领域

本发明属于视频异常行为检测领域，尤其涉及一种融合先验知识的半监督视频异常行为检测方法。

背景技术

随着科技的发展和对人身和财产安全的要求提升，近些年视频监控摄像头的数量呈爆发式增长。根据数据研究公司IHS Markit的调研报告，2021年底全球监控摄像头的数量或已破10亿。而这些摄像头采集到的海量监控视频中，包含异常行为的片段却非常稀少，使用肉眼进行甄别需要消耗大量的人力和资源，如何利用智能分析的方法从监控视频中快速准确的发现异常行为具有巨大的应用价值。视频异常行为主要是指监控视频中人出现的一些异常行为，如打架、逆行、躺在公共座椅上等，具有表现多样、频次低等特性。目前已有一些方法从监控视频中检测异常行为。现有的一种技术提出一种基于重建的无监督异常行为检测方法，仅使用正常行为的视频片段训练一个AutoEncoder模型，学习到对正常行为视频片段较好的重建能力，在对包含异常行为的视频片段重建时具有较大误差从而实现检测。但由于难以收集到所有情况的正常样本用于训练模型，且未充分利用少量价值高的异常视频片段，使得检测误报率较高。除此之外，该种方法每次选取固定长度的视频片段进行检测，无法实现准确的异常行为起止时刻定位。现有的另一种技术基于时空卷积神经网络从视频片段提取特征，直接使用归一化全连接层输出异常分数。但该方法的缺点在于需要均衡的样本来训练模型，但现实场景中由于标注困难、昂贵，缺乏足够的异常样本，因此性能不佳。此外，该种方法同样无法实现准确的异常时间起止时刻定位，也无法判定场景异常行为。

但是现有的异常行为检测方法存在以下问题：

(1)基于定长的滑动时间窗口，无法准确的定位出动作发生的起止时刻，进行动作的特征提取时易受到窗口内不包含动作的图像帧的影响。

(2)基于重建的方法仅将训练集中不存在的行为视作异常，存在易误报和不能充分利用异常样本等问题；分类的方法往往需要大量且平衡的异常样本，而在实际场景中，异常样本标注成本极高且出现频次低，获取大量并平衡的异常样本难以实现。

(3)一些行为本身不是异常但在特定的场景下需要被判定为异常，如逆行、闯红灯、躺在公共座椅上等，此类异常称为场景异常。现有方法大多仅关注动作本身而忽略动作发生的背景信息，无法实现场景异常行为的判定，易造成误报或漏报。

发明内容

针对现有技术中的上述不足，本发明提供的一种融合先验知识的半监督视频异常行为检测方法解决了视频异常行为检测时起止时刻定位不准，样本获取困难的问题。

为了达到上述发明目的，本发明采用的技术方案为：一种融合先验知识的半监督视频异常行为检测方法，包括以下步骤：

S1、利用半监督视频异常行为检测模型的时序动作定位模块，对待测视频中行为进行起止时刻定位和特征提取，得到行为特征向量和起止时刻信息；

S2、利用半监督视频异常行为检测模型的空间语义提取模块对待测视频中起止时刻内的多帧图像进行场景识别，并利用多数表决投票得到空间语义特征向量；

S3、利用半监督视频异常行为检测模型的特征与语义信息融合模块，融合所述行为特征向量及空间语义特征向量，得到融合特征向量；

S4、基于所述融合特征向量，利用半监督视频异常行为检测模型的打分网络输出异常分数，完成融合先验知识的半监督视频异常行为的检测。

本发明的有益效果为：本发明利用了时序动作定位模块发现与定位视频中的行为，实现对视频中的行为准确的起止时刻定位与特征提取；利用了半监督的损失函数与训练方法，克服了异常行为样本不足对模型性能的影响，并结合正则项实现特定模块网络参数变化幅度的有效约束；利用了空间语义提取模块与投票表决得到动作的空间语义特征，使用融合网络关注动作与背景的交互，进而实现场景异常行为的有效检测。

进一步地，所述半监督视频异常行为检测模型的损失函数为：

LOSS_total＝LOSS_weak+LOSS_Z

LOSS_weak＝(1-s)|Model(X)|+s·max(0,a₀-Model(X))

X～{x₁,x₂,…,x_T}

其中，LOSS_total为半监督视频异常行为检测模型损失函数；LOSS_weak为半监督损失函数；LOSS_Z为对时序动作定位模块分类头参数的约束正则项；Model(·)为整个半监督视频异常行为检测模型；s为预测的异常分数；a₀为超参数；max(·)为最大值函数；X为待测视频；x_T为视频中第T帧图像；T为所述待测视频中时间戳的个数；W_cla为时序动作定位模块的分类头的参数；λ为超参数。

上述进一步方案的有益效果为：利用了半监督的损失函数与训练方法，克服了异常行为样本不足对模型性能的影响，并结合正则项实现特定模块网络参数变化幅度的有效约束。

进一步地，所述步骤S1中时序动作定位模块包括依次连接的轻量卷积网络、基于注意力机制的深度学习网络Vision Transformer、回归头和分类头；

所述轻量卷积网络，用于对所述待测视频中每帧图像的特征编码进行卷积得到描述向量，所述描述向量的表达式为：

Z⁰＝{E(x₁),E(x₂),…,E(x_T)}

其中，Z⁰为描述向量；E(·)为轻量卷积网络；E(x_T)为第T帧图像的特征编码向量；为描述向量Z⁰的向量规模；D_Z为特征编码向量的长度；R为实数集；E(x_i)为第i帧图像的特征编码向量，i＝1,2,…,T；x_i为第i帧图像；/>为特征编码向量E(x_i)的向量规模；

所述基于注意力机制的深度学习网络Vision Transformer，用于根据所述描述向量，提取所述待测视频的时空特征，得到金字塔特征，所述金字塔特征的表达式为：

Z＝{Z¹,Z²,…,Z^L}

MSA＝Concat(hd₁；hd₂；…；hd_H')W_O

其中，Z为金字塔特征；Z^L为第L层金字塔特征；Z^l-1、和Z^l为计算所得中间特征，l＝1,2,...,L；l为特征金字塔的高；L为特征金字塔的总高；↓(·)为向下采样；MLP(·)为全连接层；LN(·)为层归一化；α^l和/>为学习的缩放因子；MSA(·)为多头自注意力机制；hd_H'为第H'个自注意头；softmax为按行计算；Concat为连接；W_O为参数矩阵；Q_i为查询向量；K_i ^T为键值向量的转置；D_K为键值向量的维度；V_i为内容向量；

所述回归头，用于从金字塔特征中获取每个动作的起止时刻，得到起止时刻信息，所述起止时刻信息的表达式为：

Time＝{(s₁,e₁),(s₂,e₂),…,(s_N,e_N)}

其中，Time为起止时刻信息；s_N为第N个动作的开始时刻；e_N为第N个动作的截止时刻；

所述分类头，用于从金字塔特征中每个时刻的全部L层特征获取每个时刻的动作分布概率，得到行为特征向量，所述行为特征向量的表达式为：

P＝{p(a₁),p(a₂),…,p(a_N)}

其中，P为行为特征向量；p(a_N)为所述待测视频中第N个动作的分布概率；a_N为所述待测视频中第N个动作。

上述进一步方案的有益效果为：使用轻量卷积网络对图像的特征编码卷积后作为基于注意力机制的深度学习网络Vision Transformer的输入而非将直接输入基于注意力机制的深度学习网络Vision Transformer中有利于提升模型的性能和训练的稳定性。

进一步地，所述时序动作定位模块的损失函数为：

LOSS_TAL为时序动作定位模块的损失函数；L_cls为focal损失函数；L_reg为DIOU损失函数；T₊为包含动作的帧的总数；为时间点t的帧是否包含动作；t为时间戳序号λ_reg为用于平衡L_cls和L_reg的超参数。

上述进一步方案的有益效果为：根据所述时序动作定位模块的损失函数不断优化时序动作定位模块的参数，提升行为特征提取和起止时刻定位的准确性。

进一步地，所述步骤S2中空间语义提取模块包括若干个依次连接的残差块和全连接分类网络；

所述残差块，用于对起止时刻内的多帧图像进行特征提取，得到隐藏表示，所述隐藏表示的表达式为：

y_n＝F_n-1(y_n-1)+y_n-1

其中，y_n为隐藏表示；F_n-1为第n-1个网络层；y_n-1为第n-1个残差块的输出；n为网络中残差块数量；

所述全连接分类网络，用于根据隐藏表示，利用多数表决投票，输出每种场景类别的概率，得到空间语义特征向量，所述空间语义特征向量的表达式为：

d(x_i)＝{d₁,d₂,…,d_H}

其中，d(x_i)为空间语义特征向量；H为所述待测视频中的场景数量。

上述进一步方案的有益效果为：残差块将输入连接到输出中，主网络只负责学习残差，有效避免了网络性能退化。

进一步地，所述空间语义提取模块的损失函数为：

其中，LOSS_SR为空间语义提取模块的损失函数；u_i为所述待测视频所属场景的真实标签，为预测的空间语义特征向量。

上述进一步方案的有益效果为：根据空间语义提取模块的损失函数不断优化空间语义提取模块的参数，提高对视频空间语义特征提取的准确性。

进一步地，所述表决投票包括以下步骤：

S201、对时长为t秒的动作所在的图像进行采样，选取每秒中间帧及动作起止结尾帧共t+2帧；

S202、将每帧图像经残差块后的隐藏表示y_n进行平均处理，并将平均处理结果作为该时段内的空间语义特征表示，所述空间语义特征表示的表达式为：

其中，为空间语义特征表示；/>为第t+2帧的隐藏表示；

S203、将所述空间语义特征表示经全连接层分类网络处理，得到空间语义特征向量，所述空间语义特征向量的表达式为：

其中，M_cla(·)为全连接分类网络。

上述进一步方案的有益效果为：基于投票表决方法对动作片段进行空间语义提取得到空间语义特征，实现场景异常行为的检测，提高了空间语义特征的准确性，避免了对特定场景下的行为判断错误。

进一步地，所述步骤S3中特征与语义信息融合模块包括语义特征通道和动作特征通道；

所述语义特征通道包括第一全连接网络s1、第二全连接网络s2和第三全连接网络s3；

所述动作特征通道包括第四全连接网络b1、第五全连接网络b2、第六全连接网络b3和第七全连接网络b4；

所述第一全连接网络s1分别与空间语义提取模块、第二全连接网络s2和第五全连接网络b2连接；所述第四全连接网络b1分别与时序动作定位模块和第五全连接网络b2连接；所述第二全连接网络s2分别与第三全连接网络s3和第六全连接网络b3连接；所述第五全连接网络b2与第六全连接网络b3连接；所述第三全连接网络s3与第七全连接网络b4连接；所述第六全连接网络b3与第七全连接网络b4连接。

上述进一步方案的有益效果为：通过在语义特征通道和动作特征通道的中间层网络中，对网络输出信息进行多次融合，使得场景信息与行为信息进行交互，得到包含时序动作与空间语义信息的融合特征向量，以避免对特定场景下的行为判断错误。

进一步地，所述语义特征通道，用于根据所述空间语义特征向量，得到语义特征通道输出，所述语义特征通道输出的表达式为：

其中，ξ_t为语义特征通道输出；为语义特征通道第t个全连接网络；

所述动作特征通道，用于根据所述行为特征向量，得到动作特征通道输出，并与语义特征通道输出融合，得到融合特征向量：

其中，D_t为动作特征通道输出；为动作特征通道第t个全连接网络；b_t为第t个全连接网络；D为融合特征向量。

上述进一步方案的有益效果为：通过语义特征通道和动作特征通道分别对空间语义特征和行为特征进行提取，并且进行多次融合，使得场景信息与行为信息进行交互，得到包含时序动作与空间语义信息的融合特征向量，以避免对特定场景下的行为判断错误。

附图说明

图1为本发明的方法流程图。

图2为本发明中特征与语义信息融合模块结构图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

如图1所示，在本发明的一个实施例中，本发明提供了一种融合先验知识的半监督视频异常行为检测方法，包括以下步骤：

所述半监督视频异常行为检测模型的损失函数为：

LOSS_total＝LOSS_weak+LOSS_Z

LOSS_weak＝(1-s)|Model(X)|+s·max(0,a₀-Model(X))

X～{x₁,x₂,…,x_T}

所述步骤S1中时序动作定位模块包括依次连接的轻量卷积网络、基于注意力机制的深度学习网络Vision Transformer、回归头和分类头；

Z⁰＝{E(x₁),E(x₂),…,E(x_T)}

Z＝{Z¹,Z²,…,Z^L}

MSA＝Concat(hd₁；hd₂；…；hd_H')W_O

其中，Z为金字塔特征；Z^L为第L层金字塔特征；Z^l-1、和Z^l为计算所得中间特征，l＝1,2,...,L；l为特征金字塔的高；L为特征金字塔的总高；↓(·)为向下采样；MLP(·)为全连接层；LN(·)为层归一化；α^l和/>为学习的缩放因子；MSA(·)为多头自注意力机制；hd_H'为第H'个自注意头；softmax为按行计算；Concat为连接；W_O为参数矩阵；Q_i为查询向量；为键值向量的转置；D_K为键值向量的维度；V_i为内容向量；

Time＝{(s₁,e₁),(s₂,e₂),…,(s_N,e_N)}

P＝{p(a₁),p(a₂),…,p(a_N)}

所述时序动作定位模块的损失函数为：

LOSS_TAL为时序动作定位模块的损失函数；L_cls为focal损失函数；L_reg为DIOU损失函数；T₊为包含动作的帧的总数；为时间点t的帧是否包含动作；t为时间戳序号；λ_reg为用于平衡L_cls和L_reg的超参数。

本实施例中，时序动作定位模块包含：轻量卷积网络、基于注意力机制的深度学习网络Vision Transformer、分类头和回归头，分别实现单帧图像的特征提取、视频的时空特征提取、动作的分类和起止时刻定位，整个模块输出视频中每个包含动作片段的动作类别分布概率和起止时刻。

本实施例中，轻量卷积网络E对视频中每帧图像的特征编码进行卷积得到描述向量，将描述向量作为基于注意力机制的深度学习网络Vision Transformer的输入。大量的研究和实验表明，使用轻量卷积网络对图像的特征编码卷积后作为基于注意力机制的深度学习网络Vision Transformer的输入而非将直接输入基于注意力机制的深度学习网络Vision Transformer中有利于提升模型的性能和训练的稳定性。

本实施例中，分类头从金字塔特征中每个时刻全部L层特征判断每个时刻的动作分布概率，得到行为特征向量。分类头包含3层1D卷积网络，其中卷积核为3，前两层卷积网络后使用层归一化和ReLU激活函数，最后一层输出使用sigmoid进行激活。

本实施例中，回归头从金字塔特征中获取每个动作的起止时刻，金字塔特征中不同层级的特征包含了不同的时域范围，回归头在总共L个层次上进行计算得到每个动作的起止时刻。其网络结构与分类头完全相同，仅把最后一层sigmoid激活函数改为ReLU。

本实施例中，使用在Kinetics数据集上已预训练好的双流I3D网络对输出的视频进行特征编码，将编码后的特征输入到轻量卷积网络中进行进一步特征提取，并将得到的描述向量输出到基于注意力机制的深度学习网络Vision Transformer中，得到多层次的包含不同时空尺度的输出，最后使用回归头和分类头进行动作起止时刻的定位与分类。

所述步骤S2中空间语义提取模块包括若干个依次连接的残差块和全连接分类网络；

y_n＝F_n-1(y_n-1)+y_n-1

d(x_i)＝{d₁,d₂,…,d_H}

所述空间语义提取模块的损失函数为：

所述表决投票包括以下步骤：

其中，为空间语义特征表示；/>为第t+2帧的隐藏表示；

其中，M_cla(·)为全连接分类网络。

本实施例中，空间语义提取模块目的在于提取动作时段内视频的空间语义特征，对视频中的每帧图像，输出该图像在H个场景下的分布概率。该模块由若干个残差块和全连接分类网络组成。残差块通过将输入直接连接到输出的策略有效避免了网络性能退化，传统的神经网络直接将网络层的输出作为整个网络的输出，在较深的网络中容易受到梯度消失或爆炸的影响。残差块将输入连接到输出中，主网络只负责学习残差，可有效避免网络性能退化。

本实施例中，空间语义提取模块使用place365数据集进行预训练(训练完成后该模块模型参数固定)，将图像输入残差块中，经多个残差块进行特征提取后得到隐藏表示，并使用全连接分类网络进行分类，输出属于每种场景类别的概率。

所述步骤S3中特征与语义信息融合模块包括语义特征通道和动作特征通道；

所述语义特征通道，用于根据所述空间语义特征向量，得到语义特征通道输出，所述语义特征通道输出的表达式为：

本实施例中，特征与语义信息融合模块将时序动作定位模块得到的行为特征向量和空间语义提取模块得到的空间语义特征向量进行融合，输出定长的包含时序动作与空间语义信息的融合特征向量。该模块由多个全连接网络组成，共有两条通道，语义特征通道和动作特征通道，它们分别对时序动作定位模块和空间语义提取模块输出的特征进行进一步的提取，同时两条通路多次融合，最终输出融合特征。具体框架如图2所示，神经网络中底层网络的输出会保留更多原始输入的细节，高层网络的输出会蕴含更高维的特征。该模块与时序动作定位模块和空间语义提取模块相连接，网络的输入包含动作行为特征向量和空间语义特征向量两部分。

本实施例中，抽取时序动作定位模块中得到的行为特征向量与空间语义提取模块中得到的空间语义特征向量，融合至特征与语义信息融合模块得到融合特征向量，最后使用打分网络，输出包含动作视频片段的异常分数。在该步训练中，固定时序动作定位模块的轻量卷积网络、基于注意力机制的深度学习网络Vision Transformer、回归头和空间语义提取模块的参数，更新特征与语义信息融合模块和打分网络的参数并微调时序动作定位模块的分类头的参数。

Claims

1.一种融合先验知识的半监督视频异常行为检测方法，其特征在于，包括以下步骤：

S3、利用半监督视频异常行为检测模型的特征与语义信息融合模块，融合所述行为特征向量及空间语义特征向量，得到融合特征向量；所述特征与语义信息融合模块包括语义特征通道和动作特征通道；

所述第一全连接网络s1分别与空间语义提取模块、第二全连接网络s2和第五全连接网络b2连接；所述第四全连接网络b1分别与时序动作定位模块和第五全连接网络b2连接；所述第二全连接网络s2分别与第三全连接网络s3和第六全连接网络b3连接；所述第五全连接网络b2与第六全连接网络b3连接；所述第三全连接网络s3与第七全连接网络b4连接；所述第六全连接网络b3与第七全连接网络b4连接；

其中，ξ_t为语义特征通道输出；为语义特征通道第t个全连接网络；d(x_i)为空间语义特征向量；

其中，D_t为动作特征通道输出；为动作特征通道第t个全连接网络；b_t为第t个全连接网络；D为融合特征向量；

S4、基于所述融合特征向量，利用半监督视频异常行为检测模型的打分网络输出异常分数，完成融合先验知识的半监督视频异常行为的检测；所述半监督视频异常行为检测模型的损失函数为：

LOSS_total＝LOSS_weak+LOSS_Z

LOSS_weak＝(1-s)|Model(X)|+s·max(0,a₀-Model(X))

X～{x₁,x₂,…,x_T}

2.根据权利要求1所述的融合先验知识的半监督视频异常行为检测方法，其特征在于，所述步骤S1中时序动作定位模块包括依次连接的轻量卷积网络、基于注意力机制的深度学习网络Vision Transformer、回归头和分类头；

Z⁰＝{E(x₁),E(x₂),…,E(x_T)}

Z＝{Z¹,Z²,…,Z^L}

MSA＝Concat(hd₁；hd₂；…；hd_H')W_O

Time＝{(s₁,e₁),(s₂,e₂),…,(s_N,e_N)}

P＝{p(a₁),p(a₂),…,p(a_N)}

3.根据权利要求2所述的融合先验知识的半监督视频异常行为检测方法，其特征在于，所述时序动作定位模块的损失函数为：

4.根据权利要求1所述的融合先验知识的半监督视频异常行为检测方法，其特征在于，所述步骤S2中空间语义提取模块包括若干个依次连接的残差块和全连接分类网络；

y_n＝F_n-1(y_n-1)+y_n-1

d(x_i)＝{d₁,d₂,…,d_H}

5.根据权利要求4所述的融合先验知识的半监督视频异常行为检测方法，其特征在于，所述空间语义提取模块的损失函数为：

6.根据权利要求5所述的融合先验知识的半监督视频异常行为检测方法，其特征在于，所述表决投票包括以下步骤：

S202、将每帧图像经残差块后的隐藏表示y_n进行平均处理，并将平均处理结果作为时长为t秒的动作所在时段内的空间语义特征表示，所述空间语义特征表示的表达式为：

其中，为空间语义特征表示；/>为第t+2帧的隐藏表示；

其中，M_cla(·)为全连接分类网络。