CN115484456A

CN115484456A - 一种基于语义聚类的视频异常预测方法及装置

Info

Publication number: CN115484456A
Application number: CN202211121615.0A
Authority: CN
Inventors: 高新波; 谭明圮; 冷佳旭; 莫梦竟成; 甘吉
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2022-09-15
Filing date: 2022-09-15
Publication date: 2022-12-16
Anticipated expiration: 2042-09-15
Also published as: CN115484456B

Abstract

本发明属于视频异常检测，具体涉及一种基于语义聚类的视频异常预测方法及装置，所述方法包括将不存在异常的视频，即正常视频序列输入位移通道可选择编码器进行语义特征提取，将提取的语义放入语义池进行储存；在处理实时数据时，将实时视频序列输入位移通道可选择编码器得到其对应的未来视频帧的语义特征，判断提取的语义特征与语义池中所有正常语义特征的相似度，若最大相似度大于设定阈值则该输入视频序列的未来帧正常，否则异常；本发明可以实现对还未发生的异常进行预测，且本发明通过有选择性的通道位移，让编码器提取时间信息的同时，更加关注运动变化较大的区域，并且减少对背景信息的关注。

Description

一种基于语义聚类的视频异常预测方法及装置

技术领域

本发明属于视频异常检测，具体涉及一种基于语义聚类的视频异常预测方法及装置。

背景技术

视频异常检测(VAD)是视频监控中一项特别重要的任务，旨在通过利用当前场景的客观规律或正常/异常数据的差异性来检测异常行为或对象。目前，许多无监督方法在视频异常检测任务中取得了巨大成功。根据输入序列是否包含当前帧，此类方法大致可分为两类：基于重建的方法和基于预测的方法。基于重构的方法通常由深度自动编码器实现，它由一个用于提取特征的编码器和一个用于重构当前帧的解码器构成。利用异常帧的不可预测特性，提出了基于预测的方法，它首先使用之前的视频帧预测当前帧，然后计算预测误差来量化当前帧的异常程度。基于重构的方法和基于预测的方法在训练阶段都只有正常数据没有异常数据，因此当当前帧在测试阶段出现异常时，它们可能导致更高的重构或预测误差。此外，现有一些算法通过结合重构和预测的思想，从而实现既有重构又有预测的混合框架实现视频异常检测。

尽管视频异常检测任务取得了重大进展，但现有方法只能检测当前帧中发生的异常，无法判断还未发生的未来帧中是否存在异常，从而难以实现视频异常预测。

发明内容

为了实现对未来异常数据的预测，本发明提出一种基于语义聚类的视频异常预测方法，具体包括以下步骤：

将不存在异常的视频，即正常视频序列输入位移通道可选择编码器进行语义特征提取，将提取的语义放入语义池进行储存；

在处理实时数据时，将实时视频序列输入位移通道可选择编码器得到其对应的未来视频帧的语义特征，判断提取的语义特征与语义池中所有正常语义特征的相似度，若最大相似度大于设定阈值则该输入视频序列的未来帧正常，否则异常。进一步的，对位移通道可选择编码器进行训练时，将输入视频序列的语义特征通过解码器进行解码得到其未来帧的预测帧，通过预测损失计算该预测帧与真实帧的预测误差；利用一个预训练语义编码器提取所述真实帧的语义特征，并通过语义相似度损失计算该语义特征与位移通道可选择编码器提取的语义特征的相似度，通过预测损失和语义相似度损失对位移通道可选择编码器的参数进行更新，引导位移通道可选择编码器获得未来帧的语义特征。

进一步的，位移通道可选择编码器包括多层级联的特征图处理结构，将最后一层的输出作为编码器的输出，在其中一层特征图处理结构中对输入该层的特征图的处理过程包括：

判断当前输入的特征图第一个时间维度和最后一个时间维度中每个通道的余弦相似度，筛选出相似度小于设置阈值的通道；优选的，本发明中所述的相似度小于设置的阈值可以是一个具体的值，也可以是百分比，例如选择所有通道中相似度最低的10％作为需要移动的通道；

对选择的通道进行位移，即将选择的通道沿时间维度向前进行步长为1的移动，位移后空缺的位置填充0；

位移后的特征图进行3×3卷积后与该层进行1×1卷积后的输入特征进行相加，作为下一层输入的特征图。

进一步的，语义相似度损失包括：

L_ss＝||f_se1-f_se2+α||；

其中，L_ss为语义相似度损失；f_se1和f_se2分别表示预测帧和真实帧语义特征，α是一个平衡参数。

本发明还提出一种基于语义聚类的视频异常预测装置，用于实现一种基于语义聚类的视频异常预测方法，包括完成训练的位移通道可选择编码器、语义池以及异常判断模块，其中：

完成训练的位移通道可选择编码器用于从待检测的视频帧中提取其未来帧的语义特征；

语义池为从正常的视频序列的未来帧的语义特征；

异常判断模块用于将完成训练的位移通道可选择编码器提取的待检测数据的未来帧的语义特征与语义池中的正常语义特征进行比较，若最大相似度大于设定阈值，则视频正常，否则视频异常。

与现有技术对已经发生的异常进行检测相比，本发明可以实现对还未发生的异常进行预测，且本发明通过有选择性的通道位移，让编码器提取时间信息的同时，更加关注运动变化较大的区域，并且减少对背景信息的关注。

附图说明

图1为本发明一种基于语义聚类的视频异常预测方法框架示意图；

图2为本发明一种基于语义聚类的视频异常预测方法流程图；

图3为本发明视频异常预测基本流程图；

图4为本发明中位移通道可选择的编码器中通道位移示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提出一种基于语义聚类的视频异常预测方法，具体包括以下步骤：

在处理实时数据时，将实时视频序列输入位移通道可选择编码器得到其对应的未来视频帧的语义特征，判断提取的语义特征与语义池中所有正常语义特征的相似度，若最大相似度大于设定阈值则该输入视频序列的未来帧正常，否则异常。

从人类的认知来看，人类有相应的记忆来判断未来的行为是否符合当前场景的正常性，从而可以根据当前帧预测异常。并且宋等人在《科学》期刊上发表的《Limits ofpredictability in human mobility》发现93％人类行为具有潜在可预测性。由于人类具有相应的记忆来判断未来的行为是否符合当前场景的一般规律，本申请考虑将过去的正常语义模式作为测试时的监督信息替代真实的视频帧，从而实现对未来异常数据的预测。

目前的视频异常检测框架在测试阶段需要通过真实的目标帧得到异常得分进行目标帧的异常判断，因此现有的框架不能实现对还未发生的目标帧进行异常判断。在本实施例中，通过在训练阶段得到包含正常语义模式的语义池，在测试阶段时判断未来帧的语义模式是否属于该语义池中，如果属于，则代未来帧正常，如果不属于，则表示其异常。

对于视频任务而言，需要对时间信息和空间信息进行学习，本实施例中采用位移通道可选择的编码器在输入序列的时间维度上进行通道移动实现时序建模，从而对时间信息进行学习。此外，考虑到视频异常预测任务中运动变化较大的行为往往更容易是异常行为这一特点，当进行通道位移时，选择在时间维度上变化较大的通道进行移动，从而让模型更加关注运动变化较大的区域，并且减少对没有变化的背景信息的关注。选择输入视频序列的其中两帧，作为一种优选的实施方式，本实施例中选择输入视频序列的第一帧和最后一帧这两帧，计算其对应通道的相似度(相似度越小意味着在这个通道上变化越大)，然后选择相似度最小的一部分通道进行移动。

本实施例以下根据附图对本申请方案进行进一步说明。如图1所示，本实施例的方案主要包括训练模块和测试模块，训练模块的作用是根据历史数据对位移通道可选择编码器进行训练以及选出语义池的样本，在训练模块采用的样本均为可信样本,即无异常的数据，这些数据根据位移通道可选择编码进行编码后输出的特征作为语义池中的样本。

在训练模块进行训练时，将输入视频序列的下一帧作为未来帧，位移通道可选择编码器对输入视频序列进行语义特征提取，并通过预测损失和语义相似度损失引导编码器获得未来帧的语义特征，并将其用于构建语义池，如图2，在进行训练的过程中，将位移通道可选择编码和一个解码器构成视频帧预测网络，将输入序列作为该网络的输入，该网络输出一个预测帧，将该预测帧的特征与真实帧的特征进行比较，通过语义损失函数对网络进行反向传播，采用的语义损失函数表示为：

L_ss＝||f_se1-f_se2+α||；

其中，L_ss为语义相似度损失；f_se1和f_se2分别表示预测帧和真实帧语义特征，在本发明中，预测帧的语义特征是通过位移通道可选择编码器输出语义特征，而真实帧是通过一个预训练编码器提取的特征；α是一个平衡参数。

完成对位移通道可选择编码的训练之后，利用该编码器提取无异常的视频的特征，将这些特征作为语义池。

测试模块，也是检测视频异常的模块，如图3，将待检测的视频序列输入该模块，在该模块中利用进行训练模块训练的位移通道可选择编码器提取待检测视频序列的特征，将提取出来的特征与训练模块提取得到的语义池中的特征进行比较，若待检测数据与语义池中特征中相似度最大的特征之间的相似度大于设定阈值，则待检测视频序列无异常，否则待检测视频序列异常。

在本实施例中，还对维度通道可选择编码器进行介绍，该编码器包括级联的多层结构，在该编码器中，前一层输出的特征图作为后一层输入的特征图，第一层输入的特征图为视频帧序列，最后一层输出的特征图作为编码器的输出，即视频帧序列的特征，如图4，若第i+1层的输入为第i层输出的特征图，特征图可以表示为[T*C,W,H]，其中T表示时间维度，即输入的视频帧序列中视频帧的个数，C表示通道维度，即卷积特征提取后的特征的通道数，W表示输入视频帧序列的宽，H表示输入视频帧序列的高；将输入的视频帧序列在时间维度上拆开，计算视频帧序列中第一帧和最后一帧之间相似度，本实施例中选择余弦距离计算相似度，也可以采用其他距离或者相似度的计算公式计算两个帧中其他维度之间的相似性，将筛选出相似度最低的TOPK个通道，K的数量在本实施例中为总通道数的1/8，对选择的通道进行位移，即将选择的通道沿时间维度向前进行步长为1的移动，位移后空缺的位置填充0；将位移之后的特征图进行3×3的卷积后与第i层的输出特征图经过3×3的卷积后相加作为第i+1层输出的特征图。

本实施例还提出一种基于语义聚类的视频异常预测装置，用于实现一种基于语义聚类的视频异常预测方法，包括完成训练的位移通道可选择编码器、语义池以及异常判断模块，其中：

语义池为从正常的视频序列的未来帧的语义特征；

本实施例中，对位移通道可选择编码器进行训练时，将输入视频序列的语义特征通过解码器进行解码得到其未来帧的预测帧，通过预测损失计算该预测帧与真实帧的预测误差；利用一个预训练语义编码器提取所述真实帧的语义特征，并通过语义相似度损失计算该语义特征与位移通道可选择编码器提取的语义特征的相似度，通过预测损失和语义相似度损失对位移通道可选择编码器的参数进行更新，引导位移通道可选择编码器获得未来帧的语义特征。

判断当前输入的特征图第一个时间维度和最后一个时间维度中每个通道的余弦相似度，筛选出相似度小于设置阈值的通道；

本实施例还提出一种计算机设备，包括存储器和处理器，存储器用于存储计算机程序，处理器运行存储器中的计算机程序实现一种基于语义聚类的视频异常预测方法。

本实施例还提出一种计算机程序，用于实现权利要求1所述的一种基于语义聚类的视频异常预测方法。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于语义聚类的视频异常预测方法，其特征在于，具体包括以下步骤：

2.根据权利要求1所述的一种基于语义聚类的视频异常预测方法，其特征在于，对位移通道可选择编码器进行训练时，将输入视频序列的语义特征通过解码器进行解码得到其未来帧的预测帧，通过预测损失计算该预测帧与真实帧的预测误差；利用一个预训练语义编码器提取所述真实帧的语义特征，并通过语义相似度损失计算该语义特征与位移通道可选择编码器提取的语义特征的相似度，通过预测损失和语义相似度损失对位移通道可选择编码器的参数进行更新，引导位移通道可选择编码器获得未来帧的语义特征。

3.根据权利要求2所述的一种基于语义聚类的视频异常预测方法，其特征在于，位移通道可选择编码器包括多层级联的特征图处理结构，将最后一层的输出作为编码器的输出，在其中一层特征图处理结构中对输入该层的特征图的处理过程包括：

4.根据权利要求2所述的一种基于语义聚类的视频异常预测方法，其特征在于，语义相似度损失包括：

L_ss＝||f_se1-f_se2+α||；

5.一种基于语义聚类的视频异常预测装置，用于实现权利要求1所述的一种基于语义聚类的视频异常预测方法，包括完成训练的位移通道可选择编码器、语义池以及异常判断模块，其中：

语义池为从正常的视频序列的未来帧的语义特征；

6.根据权利要求5所述的一种基于语义聚类的视频异常预测装置，其特征在于，对位移通道可选择编码器进行训练时，将输入视频序列的语义特征通过解码器进行解码得到其未来帧的预测帧，通过预测损失计算该预测帧与真实帧的预测误差；利用一个预训练语义编码器提取所述真实帧的语义特征，并通过语义相似度损失计算该语义特征与位移通道可选择编码器提取的语义特征的相似度，通过预测损失和语义相似度损失对位移通道可选择编码器的参数进行更新，引导位移通道可选择编码器获得未来帧的语义特征。

7.根据权利要求6所述的一种基于语义聚类的视频异常预测装置，其特征在于，位移通道可选择编码器包括多层级联的特征图处理结构，将最后一层的输出作为编码器的输出，在其中一层特征图处理结构中对输入该层的特征图的处理过程包括：

8.根据权利要求6所述的一种基于语义聚类的视频异常预测装置，其特征在于，语义相似度损失包括：

L_ss＝||f_se1-f_se2+α||；

9.一种计算机设备，其特征在于，包括存储器和处理器，存储器用于存储计算机程序，处理器运行存储器中的计算机程序实现权利要求1所述的一种基于语义聚类的视频异常预测方法。

10.一种计算机程序，其特征在于，用于实现权利要求1所述的一种基于语义聚类的视频异常预测方法。