CN114782882B

CN114782882B - 基于多模态特征融合的视频目标行为异常检测方法和系统

Info

Publication number: CN114782882B
Application number: CN202210714649.4A
Authority: CN
Inventors: 王洪波; 张新; 赵治栋
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2022-06-23
Filing date: 2022-06-23
Publication date: 2022-12-13
Anticipated expiration: 2042-06-23
Also published as: CN114782882A

Abstract

本申请涉及智慧城市领域，更具体地，涉及基于多模态特征融合的视频目标行为异常检测方法和系统，其使用基于包含音频编码器和视频编码器的CLIP模型分别对所述视频片段和提取的所述音频片段进行高维关联特征提取以生成第一特征向量和第二特征向量。进一步地，考虑到两个特征向量之间在高维空间内的跨模态维度分布上的差异，计算两个特征向量的特征流形的非刚性一致性因数，以通过所述第一特征向量与所述第二特征向量的特征分布的平滑过渡来提高跨模态特征分布所表示的分类矩阵的编码语义特征的稠密性，以提高对于视频目标的异常性进行准确地判断的准确性。

Description

基于多模态特征融合的视频目标行为异常检测方法和系统

技术领域

本申请涉及智慧城市领域，且更为具体地，涉及基于多模态特征融合的视频目标行为异常检测方法和系统。

背景技术

随着智能化视频监控的发展，越来越多的视频监控设备被应用到安防的各个领域，通过视频监控系统可发现存在各类异常行为，例如，医疗服务工作中的漏洞，城市街头的打架斗殴等。然而，随着监控设备的扩增,监控视频的数据量也在不断增加,传统的通过人眼来对视频中异常事件进行识别的方法需要耗费大量的人力物力,已经无法满足当今视频分析的需求。

视频目标行为异常检测是一个典型的图像识别与分类问题，因此，可使用当下比较典型的卷积神经网络模型来进行特征提取并分类以获得视频目标行为异常检测结果。但是，传统的卷积神经网络模型在视频目标行为异常检测的性能表现上并不佳。

首先，传统的卷积神经网络模型在处理图像数据上具有较优的表现，但视频目标行为检测更为地需要基于各个图像帧之间的动态关联信息。其次，在进行视频目标行为检测时，由于视频目标的异常行为与正常行为之间的差异非常小，并且这种非常小的差异特征是各个图像帧的静态特征在时序空间上的累计结果，这就更难准确地识别出来了。例如，在医疗工作服务中，同样是给病人扎针，规范操作与不规范操作之间的差异难以准确识别。

因此，期待一种更为优化的视频目标行为异常检测方案。

发明内容

为了解决上述技术问题，提出了本申请。本申请的实施例提供了一种基于多模态特征融合的视频目标行为异常检测方法及其系统，其使用基于包含音频编码器和视频编码器的CLIP模型分别对所述视频片段和提取的所述音频片段进行高维关联特征提取以生成第一特征向量和第二特征向量。进一步地，考虑到两个特征向量之间在高维空间内的跨模态维度分布上的差异，计算两个特征向量的特征流形的非刚性一致性因数，以通过所述第一特征向量与所述第二特征向量的特征分布的平滑过渡来提高跨模态特征分布所表示的分类矩阵的编码语义特征的稠密性，以提高对于视频目标的异常性进行准确地判断的准确性。

根据本申请的一个方面，提供了一种基于多模态特征融合的视频目标行为异常检测方法，其包括：通过部署于智慧城市的摄像头获取视频片段，并从所述视频片段中提取音频片段；将所述视频片段和所述音频片段通过包含音频编码器和视频编码器的CLIP模型以由所述CLIP模型的音频编码器对所述音频片段进行处理以生成第一特征向量且由所述CLIP模型的视频编码器对所述视频片段进行处理以生成第二特征向量；计算所述第一特征向量与所述第二特征向量之间的特征流形的非刚性一致性因数，所述特征流形的非刚性一致性因数基于所述第一特征向量与所述第二特征向量之间的差分向量的二范数与所述第二特征向量的二范数来构建；以所述特征流形的非刚性一致性因数对所述第一特征向量进行加权以获得加权后第一特征向量；将所述加权后第一特征向量的转置与所述第二特征向量进行向量相乘以获得分类特征矩阵；以及将所述分类特征矩阵通过分类器以获得分类结果，所述分类结果用于表示所述视频片段中的视频目标是否存在行为异常。

在上述基于多模态特征融合的视频目标行为异常检测方法中，将所述视频片段和所述音频片段通过包含音频编码器和视频编码器的CLIP模型以由所述CLIP模型的音频编码器对所述音频片段进行处理以生成第一特征向量且由所述CLIP模型的视频编码器对所述视频片段进行处理以生成第二特征向量，包括：所述音频编码器采用第一卷积神经网络对所述音频片段的波形图进行处理以生成所述第一特征向量；以及，所述视频编码器采用具有三维卷积核的第二卷积神经网络对所述视频片段进行处理以生成所述第二特征向量。

在上述基于多模态特征融合的视频目标行为异常检测方法中，所述音频编码器采用第一卷积神经网络对所述音频片段的波形图进行处理以生成所述第一特征向量，包括：所述第一卷积神经网络的各层在层的正向传递中对输入数据进行基于二维卷积核的卷积处理、沿特征矩阵的均值池化处理和激活处理以由所述第一卷积神经网络的最后一层输出所述第一特征向量，其中，所述第一卷积神经网络的第一层的输入数据为所述音频片段的波形图。

在上述基于多模态特征融合的视频目标行为异常检测方法中，所述视频编码器采用具有三维卷积核的第二卷积神经网络对所述视频片段进行处理以生成所述第二特征向量，包括：所述第二卷积神经网络的各层在层的正向传递中对输入数据进行基于所述三维卷积核的卷积处理、沿特征矩阵的均值池化和激活处理以由所述第二卷积神经网络的最后一层输出所述第二特征向量，其中，所述第二卷积神经网络的第一层的输入为所述视频片段。

在上述基于多模态特征融合的视频目标行为异常检测方法中，计算所述第一特征向量与所述第二特征向量之间的特征流形的非刚性一致性因数，包括：以如下公式来计算所述第一特征向量与所述第二特征向量之间的特征流形的非刚性一致性因数；其中，所述公式为：

其中

表示所述第一特征向量，

表示所述第二特征向量，

表示向量的二范数的平方。

在上述基于多模态特征融合的视频目标行为异常检测方法中，将所述分类特征矩阵通过分类器以获得分类结果，包括：所述分类器以如下公式所述分类特征矩阵进行处理以生成所述分类结果，其中，所述公式为：

，其中

表示将所述分类特征矩阵投影为向量，

至

为各层全连接层的权重矩阵，

至

表示各层全连接层的偏置矩阵。

根据本申请的另一方面，提供了一种基于多模态特征融合的视频目标行为异常检测系统，其包括：片段数据获取单元，用于通过部署于智慧城市的摄像头获取视频片段，并从所述视频片段中提取音频片段；编码单元，用于将所述片段数据获取单元获得的所述视频片段和所述片段数据获取单元获得的所述音频片段通过包含音频编码器和视频编码器的CLIP模型以由所述CLIP模型的音频编码器对所述音频片段进行处理以生成第一特征向量且由所述CLIP模型的视频编码器对所述视频片段进行处理以生成第二特征向量；非刚性一致性因数计算单元，用于计算所述编码单元获得的所述第一特征向量与所述编码单元获得的所述第二特征向量之间的特征流形的非刚性一致性因数，所述特征流形的非刚性一致性因数基于所述第一特征向量与所述第二特征向量之间的差分向量的二范数与所述第二特征向量的二范数来构建；加权单元，用于以所述非刚性一致性因数计算单元获得的所述特征流形的非刚性一致性因数对所述第一特征向量进行加权以获得加权后第一特征向量；分类特征矩阵生成单元，用于将所述加权单元获得的所述加权后第一特征向量的转置与所述加权单元获得的所述第二特征向量进行向量相乘以获得分类特征矩阵；以及分类单元，用于将所述分类特征矩阵生成单元获得的所述分类特征矩阵通过分类器以获得分类结果，所述分类结果用于表示所述视频片段中的视频目标是否存在行为异常。

在上述基于多模态特征融合的视频目标行为异常检测系统中，所述编码单元，进一步用于：所述音频编码器采用第一卷积神经网络对所述音频片段的波形图进行处理以生成所述第一特征向量；以及，所述视频编码器采用具有三维卷积核的第二卷积神经网络对所述视频片段进行处理以生成所述第二特征向量。

在上述基于多模态特征融合的视频目标行为异常检测系统中，所述编码单元，进一步用于：所述第一卷积神经网络的各层在层的正向传递中对输入数据进行基于二维卷积核的卷积处理、沿特征矩阵的均值池化处理和激活处理以由所述第一卷积神经网络的最后一层输出所述第一特征向量，其中，所述第一卷积神经网络的第一层的输入数据为所述音频片段的波形图。

在上述基于多模态特征融合的视频目标行为异常检测系统中，所述编码单元，进一步用于：所述第二卷积神经网络的各层在层的正向传递中对输入数据进行基于所述三维卷积核的卷积处理、沿特征矩阵的均值池化和激活处理以由所述第二卷积神经网络的最后一层输出所述第二特征向量，其中，所述第二卷积神经网络的第一层的输入为所述视频片段。

在上述基于多模态特征融合的视频目标行为异常检测系统中，所述非刚性一致性因数计算单元，进一步用于：以如下公式来计算所述第一特征向量与所述第二特征向量之间的特征流形的非刚性一致性因数；其中，所述公式为：

其中

表示所述第一特征向量，

表示所述第二特征向量，

表示向量的二范数的平方。

在上述基于多模态特征融合的视频目标行为异常检测系统中，所述分类单元，进一步用于：所述分类器以如下公式所述分类特征矩阵进行处理以生成所述分类结果；其中，所述公式为：

，其中

表示将所述分类特征矩阵投影为向量，

至

为各层全连接层的权重矩阵，

至

表示各层全连接层的偏置矩阵。

根据本申请的又一方面，提供了一种计算机可读介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行如上所述的基于多模态特征融合的视频目标行为异常检测方法。

与现有技术相比，本申请提供了一种基于多模态特征融合的视频目标行为异常检测方法及其系统，其使用基于包含音频编码器和视频编码器的CLIP模型分别对所述视频片段和提取的所述音频片段进行高维关联特征提取以生成第一特征向量和第二特征向量。进一步地，考虑到两个特征向量之间在高维空间内的跨模态维度分布上的差异，计算两个特征向量的特征流形的非刚性一致性因数，以通过所述第一特征向量与所述第二特征向量的特征分布的平滑过渡来提高跨模态特征分布所表示的分类矩阵的编码语义特征的稠密性，以提高对于视频目标的异常性进行准确地判断的准确性。

附图说明

通过结合附图对本申请实施例进行更详细的描述，本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本申请，并不构成对本申请的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1为根据本申请实施例的基于多模态特征融合的视频目标行为异常检测方法的应用场景图。

图2为根据本申请实施例的基于多模态特征融合的视频目标行为异常检测方法的流程图。

图3为根据本申请实施例的基于多模态特征融合的视频目标行为异常检测方法的架构示意图。

图4为根据本申请实施例的基于多模态特征融合的视频目标行为异常检测系统的框图。

具体实施方式

下面，将参考附图详细地描述根据本申请的示例实施例。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。

场景概述

如前所述，随着智能化视频监控的发展，越来越多的视频监控设备被应用到安防的各个领域，通过视频监控系统可发现存在各类异常行为，例如，医疗服务工作中的漏洞，城市街头的打架斗殴等。然而，随着监控设备的扩增,监控视频的数据量也在不断增加,传统的通过人眼来对视频中异常事件进行识别的方法需要耗费大量的人力物力,已经无法满足当今视频分析的需求。

目前，深度学习以及神经网络已经广泛应用于计算机视觉、自然语言处理、语音信号处理等领域。此外，深度学习以及神经网络在图像分类、物体检测、语义分割、文本翻译等领域，也展现出了接近甚至超越人类的水平。

深度学习以及神经网络的发展为视频目标行为异常检测提供了新的解决思路和方案。

应可以理解，视频目标行为异常检测是一个典型的图像识别与分类问题，因此，可使用当下比较典型的卷积神经网络模型来进行特征提取并分类以获得视频目标行为异常检测结果。但是，传统的卷积神经网络模型在视频目标行为异常检测的性能表现上并不佳。

考虑到上述问题，本申请发明人尝试通过多模态信息融合的思路来提高视频目标行为检测的准确性。具体地，结合视频数据中的目标行为信息和从视频数据中提取的目标对象的音频信息来判断视频目标行为是否存在异常。具体地，在本申请的技术方案中，首先通过部署于特定场所（例如，街道路边、医院）的摄像头来获取视频片段，并从中提取音频数据。然后，基于包含音频编码器和视频编码器的CLIP模型分别对所述视频片段和所述音频数据进行处理以生成第一特征向量和第二特征向量。特别地，在本申请的一个方案中，所述音频编码器为使用二维卷积核的卷积神经网络模型，所述视频编码器为使用三维卷积核的卷积神经网络模型。

基于CLIP模型的思路进一步将第一特征向量（行向量）转置后与第二特征向量相乘获得分类矩阵，以通过沿着音频特征的时序传播方向来进行视频中的图像帧的相关编码来编码图像语义的特定音频联立性属性。特别地，在本申请的技术方案中，本申请发明人考虑到由于第一特征向量和第二特征向量分别从视频数据和音频数据中提取，如果直接将第一特征向量直接与第二特征向量相乘，这会没有考虑到两者在高维空间内的跨模态维度分布上的差异，因此会降低图像语义的属性的编码表达稠密性，从而导致分类准确度的降低。

基于此，本申请中进一步引入特征流形的非刚性一致性（non-rigid consensus）因数，表达为：

其中

表示所述第一特征向量，

表示所述第二特征向量，

表示向量的二范数的平方。

该非刚性一致性因数可以基于第一特征向量

的秩序性的先验知识，在无准确的几何关系的情况下来约束向量之间的匹配程度，从而实现向量之间的平滑过渡，这样，通过以该因数对第二特征向量

加权后，再将第一特征向量

的转置与第二特征向量相乘获得分类特征，就可以通过第一特征向量与第二特征向量的特征分布的平滑过渡来提高跨模态特征分布所表示的分类矩阵的编码语义特征的稠密性，以提高分类准确度。

基于此，本申请提出了一种基于多模态特征融合的视频目标行为异常检测方法，其包括：通过部署于智慧城市的摄像头获取视频片段，并从所述视频片段中提取音频片段；将所述视频片段和所述音频片段通过包含音频编码器和视频编码器的CLIP模型以由所述CLIP模型的音频编码器对所述音频片段进行处理以生成第一特征向量且由所述CLIP模型的视频编码器对所述视频片段进行处理以生成第二特征向量；计算所述第一特征向量与所述第二特征向量之间的特征流形的非刚性一致性因数，所述特征流形的非刚性一致性因数基于所述第一特征向量与所述第二特征向量之间的差分向量的二范数与所述第二特征向量的二范数来构建；以所述特征流形的非刚性一致性因数对所述第一特征向量进行加权以获得加权后第一特征向量；将所述加权后第一特征向量的转置与所述第二特征向量进行向量相乘以获得分类特征矩阵；以及，将所述分类特征矩阵通过分类器以获得分类结果，所述分类结果用于表示所述视频片段中的视频目标是否存在行为异常。

图1图示了根据本申请实施例的基于多模态特征融合的视频目标行为异常检测方法的应用场景图。如图1所示，在该应用场景中，首先，通过部署于智慧城市（例如，如图1中所示意的M）的摄像头（例如，如图1中所示意的C）获取特定场所（例如，如图1中所示意的T）的视频片段。然后，将获得的所述视频片段输入至部署有基于多模态特征融合的视频目标行为异常检测算法的服务器中（例如，如图1中所示意的S），其中，所述服务器能够以基于多模态特征融合的视频目标行为异常检测算法对所述视频片段进行处理，以生成用于表示所述视频片段中的视频目标是否存在行为异常的分类结果。进而，基于所述分类结果对于视频目标的行为异常性进行准确地判断。

在介绍了本申请的基本原理之后，下面将参考附图来具体介绍本申请的各种非限制性实施例。

示例性方法

图2图示了根据本申请实施例的基于多模态特征融合的视频目标行为异常检测方法的流程图。如图2所示，根据本申请实施例的基于多模态特征融合的视频目标行为异常检测方法，包括步骤：S110，通过部署于智慧城市的摄像头获取视频片段，并从所述视频片段中提取音频片段；S120，将所述视频片段和所述音频片段通过包含音频编码器和视频编码器的CLIP模型以由所述CLIP模型的音频编码器对所述音频片段进行处理以生成第一特征向量且由所述CLIP模型的视频编码器对所述视频片段进行处理以生成第二特征向量；S130，计算所述第一特征向量与所述第二特征向量之间的特征流形的非刚性一致性因数，所述特征流形的非刚性一致性因数基于所述第一特征向量与所述第二特征向量之间的差分向量的二范数与所述第二特征向量的二范数来构建；S140，以所述特征流形的非刚性一致性因数对所述第一特征向量进行加权以获得加权后第一特征向量；S150，将所述加权后第一特征向量的转置与所述第二特征向量进行向量相乘以获得分类特征矩阵；以及，S160，将所述分类特征矩阵通过分类器以获得分类结果，所述分类结果用于表示所述视频片段中的视频目标是否存在行为异常。

图3图示了根据本申请实施例的基于多模态特征融合的视频目标行为异常检测方法的架构示意图。如图3所示，在该网络架构中，首先，从获得的所述视频片段（例如，如图3中所示意的P1）中提取音频片段（例如，如图3中所示意的P2）；接着，将获得的所述视频片段和所述音频片段通过包含音频编码器和视频编码器的CLIP模型（例如，如图3中所示意的CLIP）以由所述CLIP模型的音频编码器（例如，如图3中所示意的E1）对所述音频片段进行处理以生成第一特征向量（例如，如图3中所示意的VF1）且由所述CLIP模型的视频编码器（例如，如图3中所示意的E2）对所述视频片段进行处理以生成第二特征向量（例如，如图3中所示意的VF2）；然后，计算所述第一特征向量与所述第二特征向量之间的特征流形的非刚性一致性因数（例如，如图3中所示意的DDS）；接着，以所述特征流形的非刚性一致性因数对所述第一特征向量进行加权以获得加权后第一特征向量（例如，如图3中所示意的VF3）；然后，将所述加权后第一特征向量的转置（例如，如图3中所示意的VF4）与所述第二特征向量进行向量相乘以获得分类特征矩阵（例如，如图3中所示意的MF）；以及，最后，将所述分类特征矩阵通过分类器（例如，如图3中所示意的分类器）以获得分类结果，所述分类结果用于表示所述视频片段中的视频目标是否存在行为异常。

在步骤S110和步骤S120中，通过部署于智慧城市的摄像头获取视频片段，并从所述视频片段中提取音频片段，再将所述视频片段和所述音频片段通过包含音频编码器和视频编码器的CLIP模型以由所述CLIP模型的音频编码器对所述音频片段进行处理以生成第一特征向量且由所述CLIP模型的视频编码器对所述视频片段进行处理以生成第二特征向量。如前所述，由于目前对于智慧城市的异常检测大部分都是依靠监控监测，然后再利用人工排查，这样不仅费时费力，其准确性还不高。因此，为了提高对于视频目标的异常性判断的准确性，在本申请的技术方案中，期望通过所述视频数据中的视频片段和音频片段综合对所述视频片段中的视频目标是否存在异常行为进行准确地判断。

也就是，在本申请的技术方案中，首先，需要通过部署于智慧城市的摄像头获取智慧城市下的街道的视频片段，这样，就能够继续从所述视频片段中提取出音频片段，以便于后续对其进行高维空间中的特征融合。接着，再将所述视频片段和所述音频片段通过包含音频编码器和视频编码器的CLIP模型中，以由所述CLIP模型的音频编码器对所述音频片段进行处理以生成第一特征向量且由所述CLIP模型的视频编码器对所述视频片段进行处理以生成第二特征向量，从而分别提取出所述音频数据和所述视频数据的高维关联特征。

具体地，在本申请实施例中，将所述视频片段和所述音频片段通过包含音频编码器和视频编码器的CLIP模型以由所述CLIP模型的音频编码器对所述音频片段进行处理以生成第一特征向量且由所述CLIP模型的视频编码器对所述视频片段进行处理以生成第二特征向量的过程，包括：首先，所述音频编码器采用第一卷积神经网络对所述音频片段的波形图进行处理以生成所述第一特征向量。相应地，在一个具体示例中，所述第一卷积神经网络的各层在层的正向传递中对输入数据进行基于二维卷积核的卷积处理、沿特征矩阵的均值池化处理和激活处理以由所述第一卷积神经网络的最后一层输出所述第一特征向量，其中，所述第一卷积神经网络的第一层的输入数据为所述音频片段的波形图。然后，所述视频编码器采用具有三维卷积核的第二卷积神经网络对所述视频片段进行处理以生成所述第二特征向量。相应地，在一个具体示例中，所述第二卷积神经网络的各层在层的正向传递中对输入数据进行基于所述三维卷积核的卷积处理、沿特征矩阵的均值池化和激活处理以由所述第二卷积神经网络的最后一层输出所述第二特征向量，其中，所述第二卷积神经网络的第一层的输入为所述视频片段。应可以理解，通过卷积神经网络所提取的体现输入数据之间的关联信息的高维特征来代替原始数据进行计算，可以消除所述原始数据在数据维度上的误差的影响。

更具体地，在本申请实施例中，所述视频编码器采用具有三维卷积核的第二卷积神经网络对所述视频片段进行处理以生成所述第二特征向量的过程，包括：使用所述视频编码器具有三维卷积核的第二卷积神经网络如下公式对所述视频片段进行处理以生成所述第二特征向量，其中，所述公式为：

其中，

、

和

分别表示三维卷积核的长度、宽度和高度，m表示第（l-1）层特征图的个数，

是与（l-1）层的第m个特征图相连的卷积核，

为偏置，f表示激活函数。

在步骤S130和步骤S140中，计算所述第一特征向量与所述第二特征向量之间的特征流形的非刚性一致性因数，所述特征流形的非刚性一致性因数基于所述第一特征向量与所述第二特征向量之间的差分向量的二范数与所述第二特征向量的二范数来构建，并以所述特征流形的非刚性一致性因数对所述第一特征向量进行加权以获得加权后第一特征向量。应可以理解，本来可以通过CLIP模型将所述第一特征向量（行向量）转置后与所述第二特征向量相乘获得分类矩阵，以通过沿着音频特征的时序传播方向来进行所述视频中的图像帧的相关编码来编码图像语义的特定音频联立性属性。但是，由于将所述第一特征向量直接与所述第二特征向量相乘没有考虑到两者在高维空间内的跨模态维度分布上的差异，因此会降低图像语义的属性的编码表达稠密性，从而导致分类准确度的降低。因此，在本申请的技术方案中，进一步计算所述第一特征向量与所述第二特征向量之间的特征流形的非刚性一致性因数，以对所述第一特征向量进行加权以获得加权后第一特征向量。特别地，值得一提的是，该所述特征流形的非刚性一致性因数用于描述跨模态的不同特征流形在高维特征空间内的各自的模态维度视角下观察的分布相似性。

具体地，在本申请实施例中，计算所述第一特征向量与所述第二特征向量之间的特征流形的非刚性一致性因数的过程，包括：以如下公式来计算所述第一特征向量与所述第二特征向量之间的特征流形的非刚性一致性因数；其中，所述公式为：

其中

表示所述第一特征向量，

表示所述第二特征向量，

表示向量的二范数的平方。

具体地，在步骤S150和步骤S160中，将所述加权后第一特征向量的转置与所述第二特征向量进行向量相乘以获得分类特征矩阵，并将所述分类特征矩阵通过分类器以获得分类结果，所述分类结果用于表示所述视频片段中的视频目标是否存在行为异常。应可以理解，由于所述特征流形的非刚性一致性因数用于描述跨模态的不同特征流形在高维特征空间内的各自的模态维度视角下观察的分布相似性，这样，在本申请的技术方案中，该所述非刚性一致性因数可以基于所述第一特征向量

的秩序性的先验知识，在无准确的几何关系的情况下来约束向量之间的匹配程度，从而实现向量之间的平滑过渡，这样，通过以该因数对所述第二特征向量

加权后，再将所述第一特征向量

的转置与所述第二特征向量相乘获得分类特征，就可以通过所述第一特征向量与所述第二特征向量的特征分布的平滑过渡来提高跨模态特征分布所表示的分类矩阵的编码语义特征的稠密性，以提高分类准确度。这样，将所述分类特征矩阵通过分类器以获得用于表示所述视频片段中的视频目标是否存在行为异常的分类结果。

具体地，在本申请的实施例中，将所述分类特征矩阵通过分类器以获得分类结果的过程，包括：所述分类器以如下公式所述分类特征矩阵进行处理以生成所述分类结果；

其中，所述公式为：

，其中

表示将所述分类特征矩阵投影为向量，

至

为各层全连接层的权重矩阵，

至

表示各层全连接层的偏置矩阵。

综上，基于本申请实施例的基于多模态特征融合的视频目标行为异常检测方法被阐明，其使用基于包含音频编码器和视频编码器的CLIP模型分别对所述视频片段和提取的所述音频片段进行高维关联特征提取以生成第一特征向量和第二特征向量。进一步地，考虑到两个特征向量之间在高维空间内的跨模态维度分布上的差异，计算两个特征向量的特征流形的非刚性一致性因数，以通过所述第一特征向量与所述第二特征向量的特征分布的平滑过渡来提高跨模态特征分布所表示的分类矩阵的编码语义特征的稠密性，以提高对于视频目标的异常性进行准确地判断的准确性。

示例性系统

图4图示了根据本申请实施例的基于多模态特征融合的视频目标行为异常检测系统的框图。如图4所示，根据本申请实施例的基于多模态特征融合的视频目标行为异常检测系统 400，包括：片段数据获取单元 410，用于通过部署于智慧城市的摄像头获取视频片段，并从所述视频片段中提取音频片段；编码单元 420，用于将所述片段数据获取单元 410获得的所述视频片段和所述片段数据获取单元 410获得的所述音频片段通过包含音频编码器和视频编码器的CLIP模型以由所述CLIP模型的音频编码器对所述音频片段进行处理以生成第一特征向量且由所述CLIP模型的视频编码器对所述视频片段进行处理以生成第二特征向量；非刚性一致性因数计算单元 430，用于计算所述编码单元 420获得的所述第一特征向量与所述编码单元 420获得的所述第二特征向量之间的特征流形的非刚性一致性因数，所述特征流形的非刚性一致性因数基于所述第一特征向量与所述第二特征向量之间的差分向量的二范数与所述第二特征向量的二范数来构建；加权单元 440，用于以所述非刚性一致性因数计算单元 430获得的所述特征流形的非刚性一致性因数对所述第一特征向量进行加权以获得加权后第一特征向量；分类特征矩阵生成单元 450，用于将所述加权单元 440获得的所述加权后第一特征向量的转置与所述加权单元 440获得的所述第二特征向量进行向量相乘以获得分类特征矩阵；以及，分类单元 460，用于将所述分类特征矩阵生成单元 450获得的所述分类特征矩阵通过分类器以获得分类结果，所述分类结果用于表示所述视频片段中的视频目标是否存在行为异常。

在上述基于多模态特征融合的视频目标行为异常检测系统 400中，所述编码单元420，进一步用于：所述音频编码器采用第一卷积神经网络对所述音频片段的波形图进行处理以生成所述第一特征向量；以及，所述视频编码器采用具有三维卷积核的第二卷积神经网络对所述视频片段进行处理以生成所述第二特征向量。

在上述基于多模态特征融合的视频目标行为异常检测系统 400中，所述编码单元420，进一步用于：所述第一卷积神经网络的各层在层的正向传递中对输入数据进行基于二维卷积核的卷积处理、沿特征矩阵的均值池化处理和激活处理以由所述第一卷积神经网络的最后一层输出所述第一特征向量，其中，所述第一卷积神经网络的第一层的输入数据为所述音频片段的波形图。

在上述基于多模态特征融合的视频目标行为异常检测系统 400中，所述编码单元420，进一步用于：所述第二卷积神经网络的各层在层的正向传递中对输入数据进行基于所述三维卷积核的卷积处理、沿特征矩阵的均值池化和激活处理以由所述第二卷积神经网络的最后一层输出所述第二特征向量，其中，所述第二卷积神经网络的第一层的输入为所述视频片段。

在上述基于多模态特征融合的视频目标行为异常检测系统 400中，所述非刚性一致性因数计算单元 430，进一步用于：以如下公式来计算所述第一特征向量与所述第二特征向量之间的特征流形的非刚性一致性因数；其中，所述公式为：

其中

表示所述第一特征向量，

表示所述第二特征向量，

表示向量的二范数的平方。

在上述基于多模态特征融合的视频目标行为异常检测系统 400中，所述分类单元 460，进一步用于：所述分类器以如下公式所述分类特征矩阵进行处理以生成所述分类结果，其中，所述公式为：

，其中

表示将所述分类特征矩阵投影为向量，

至

为各层全连接层的权重矩阵，

至

表示各层全连接层的偏置矩阵。

这里，本领域技术人员可以理解，上述基于多模态特征融合的视频目标行为异常检测系统 400中的各个单元和模块的具体功能和操作已经在上面参考图1到图3的基于多模态特征融合的视频目标行为异常检测方法的描述中得到了详细介绍，并因此，将省略其重复描述。

如上所述，根据本申请实施例的基于多模态特征融合的视频目标行为异常检测系统 400可以实现在各种终端设备中，例如基于多模态特征融合的视频目标行为异常检测算法的服务器等。在一个示例中，根据本申请实施例的基于多模态特征融合的视频目标行为异常检测系统 400可以作为一个软件模块和/或硬件模块而集成到终端设备中。例如，该基于多模态特征融合的视频目标行为异常检测系统 400可以是该终端设备的操作系统中的一个软件模块，或者可以是针对于该终端设备所开发的一个应用程序；当然，该基于多模态特征融合的视频目标行为异常检测系统 400同样可以是该终端设备的众多硬件模块之一。

替换地，在另一示例中，该基于多模态特征融合的视频目标行为异常检测系统400与该终端设备也可以是分立的设备，并且该基于多模态特征融合的视频目标行为异常检测系统 400可以通过有线和/或无线网络连接到该终端设备，并且按照约定的数据格式来传输交互信息。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的基于多模态特征融合的视频目标行为异常检测方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的基于多模态特征融合的视频目标行为异常检测方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子（非穷举的列表）包括：具有至少一个导线的电连接、便携式盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

Claims

1.一种基于多模态特征融合的视频目标行为异常检测方法，其特征在于，包括：

通过部署于智慧城市的摄像头获取视频片段，并从所述视频片段中提取音频片段；

将所述视频片段和所述音频片段通过包含音频编码器和视频编码器的CLIP模型以由所述CLIP模型的音频编码器对所述音频片段进行处理以生成第一特征向量且由所述CLIP模型的视频编码器对所述视频片段进行处理以生成第二特征向量；

计算所述第一特征向量与所述第二特征向量之间的特征流形的非刚性一致性因数，所述特征流形的非刚性一致性因数基于所述第一特征向量与所述第二特征向量之间的差分向量的二范数与所述第二特征向量的二范数来构建；

以所述特征流形的非刚性一致性因数对所述第一特征向量进行加权以获得加权后第一特征向量；

将所述加权后第一特征向量的转置与所述第二特征向量进行向量相乘以获得分类特征矩阵；以及

将所述分类特征矩阵通过分类器以获得分类结果，所述分类结果用于表示所述视频片段中的视频目标是否存在行为异常；

其中，将所述视频片段和所述音频片段通过包含音频编码器和视频编码器的CLIP模型以由所述CLIP模型的音频编码器对所述音频片段进行处理以生成第一特征向量且由所述CLIP模型的视频编码器对所述视频片段进行处理以生成第二特征向量，包括：

所述音频编码器采用第一卷积神经网络对所述音频片段的波形图进行处理以生成所述第一特征向量；以及

所述视频编码器采用具有三维卷积核的第二卷积神经网络对所述视频片段进行处理以生成所述第二特征向量；

其中，计算所述第一特征向量与所述第二特征向量之间的特征流形的非刚性一致性因数，包括：

以如下公式来计算所述第一特征向量与所述第二特征向量之间的特征流形的非刚性一致性因数；

其中，所述公式为：

其中V₁表示所述第一特征向量，V₂表示所述第二特征向量，||·||₂ ²表示向量的二范数的平方，

表示向量的按位置相减。

2.根据权利要求1所述的基于多模态特征融合的视频目标行为异常检测方法，其中，所述音频编码器采用第一卷积神经网络对所述音频片段的波形图进行处理以生成所述第一特征向量，包括：

所述第一卷积神经网络的各层在层的正向传递中对输入数据进行基于二维卷积核的卷积处理、沿特征矩阵的均值池化处理和激活处理以由所述第一卷积神经网络的最后一层输出所述第一特征向量，其中，所述第一卷积神经网络的第一层的输入数据为所述音频片段的波形图。

3.根据权利要求2所述的基于多模态特征融合的视频目标行为异常检测方法，其中，所述视频编码器采用具有三维卷积核的第二卷积神经网络对所述视频片段进行处理以生成所述第二特征向量，包括：

所述第二卷积神经网络的各层在层的正向传递中对输入数据进行基于所述三维卷积核的卷积处理、沿特征矩阵的均值池化和激活处理以由所述第二卷积神经网络的最后一层输出所述第二特征向量，其中，所述第二卷积神经网络的第一层的输入为所述视频片段。

4.根据权利要求3所述的基于多模态特征融合的视频目标行为异常检测方法，其中，将所述分类特征矩阵通过分类器以获得分类结果，包括：

所述分类器以如下公式所述分类特征矩阵进行处理以生成所述分类结果，其中，所述公式为：softmax{(W_n,B_n):…:(W₁,B₁)|Project(F)}，其中Project(F)表示将所述分类特征矩阵投影为向量，W₁至W_n为各层全连接层的权重矩阵，B₁至B_n表示各层全连接层的偏置矩阵。

5.一种基于多模态特征融合的视频目标行为异常检测系统，其特征在于，包括：

片段数据获取单元，用于通过部署于智慧城市的摄像头获取视频片段，并从所述视频片段中提取音频片段；

编码单元，用于将所述片段数据获取单元获得的所述视频片段和所述片段数据获取单元获得的所述音频片段通过包含音频编码器和视频编码器的CLIP模型以由所述CLIP模型的音频编码器对所述音频片段进行处理以生成第一特征向量且由所述CLIP模型的视频编码器对所述视频片段进行处理以生成第二特征向量；

非刚性一致性因数计算单元，用于计算所述编码单元获得的所述第一特征向量与所述编码单元获得的所述第二特征向量之间的特征流形的非刚性一致性因数，所述特征流形的非刚性一致性因数基于所述第一特征向量与所述第二特征向量之间的差分向量的二范数与所述第二特征向量的二范数来构建；

加权单元，用于以所述非刚性一致性因数计算单元获得的所述特征流形的非刚性一致性因数对所述第一特征向量进行加权以获得加权后第一特征向量；

分类特征矩阵生成单元，用于将所述加权单元获得的所述加权后第一特征向量的转置与所述加权单元获得的所述第二特征向量进行向量相乘以获得分类特征矩阵；以及

分类单元，用于将所述分类特征矩阵生成单元获得的所述分类特征矩阵通过分类器以获得分类结果，所述分类结果用于表示所述视频片段中的视频目标是否存在行为异常；

其中，所述编码单元，进一步用于：

所述音频编码器采用第一卷积神经网络对所述音频片段的波形图进行处理以生成所述第一特征向量；以及，所述视频编码器采用具有三维卷积核的第二卷积神经网络对所述视频片段进行处理以生成所述第二特征向量；

其中，所述非刚性一致性因数计算单元，进一步用于：

其中，所述公式为：

其中V₁表示所述第一特征向量，V₂表示所述第二特征向量，||·||₂ ²表示向量的二范数的平方。

6.根据权利要求5所述的基于多模态特征融合的视频目标行为异常检测系统，其中，所述分类单元，进一步用于：