CN115690665B

CN115690665B - 一种基于交叉U-Net网络的视频异常检测方法及装置

Info

Publication number: CN115690665B
Application number: CN202310000623.8A
Authority: CN
Inventors: 谢昕; 李钊; 喻思; 吴登权; 李紫熙; 郑晗欣; 郑文彬; 熊申平
Original assignee: East China Jiaotong University
Current assignee: East China Jiaotong University
Priority date: 2023-01-03
Filing date: 2023-01-03
Publication date: 2023-03-28
Anticipated expiration: 2043-01-03
Also published as: CN115690665A

Abstract

本发明属于视频识别技术领域，涉及一种基于交叉U‑Net网络的视频异常检测方法及装置，该方法构建的基于自注意力机制的交叉U‑Net模型包括两个子网络，每个子网络都是U‑Net网络，两个子U‑Net网络分别接收前一帧和下一帧来预测当前帧，并且每个子网络由收缩路径和扩展路径组成，在收缩路径中进行交叉连接进行下采样过程，在扩展路径加入自注意力机制进行上采样过程；训练并使用训练后的基于自注意力机制的交叉U‑Net网络模型进行目标视频经FPN网络提取的每一帧进行异常检测。本发明在视频异常检测中引入了交叉U‑Net网络，既考虑了异常检测的精度，又考虑了视频监控中至关重要的异常检测速度。

Description

一种基于交叉U-Net网络的视频异常检测方法及装置

技术领域

本发明属于视频识别技术领域，涉及一种基于交叉U-Net网络的视频异常检测方法及装置。

背景技术

视频异常检测具有挑战性，因为异常事件在真实场景中是无限的、罕见的、模糊的、不规则的。随着视频监控呈指数级增长，需要一种在自动检测视频监控中异常事件的方法。视频异常检测研究可分为基于对象的异常检测和基于帧的异常检测，它根据是否适合实时进行划分。基于对象的异常检测使用在帧中检测到的对象作为模型的输入。它获得每个对象的异常分数，并使用异常分数推断帧的异常。基于帧的异常检测使用帧作为模型的输入，它获得每个帧的异常分数，并使用异常分数推断帧的异常。与基于对象的异常检测方法不同，该方法可以在任何时间和地点进行实时异常检测。然而，与基于对象的异常检测方法相比，它受到背景噪声的影响，因为它使用帧的整体来推断异常。

近年来，许多研究利用深度学习来获得较高的异常检测精度。大部分的研究只考虑了异常检测的精度，而没有考虑视频监控中至关重要的异常检测速度。应尽快检测和处理视频监控中的异常事件，并实时检测危险情况。因此如何利用交叉U-Net捕获全局上下文和额外的时间信息，减少帧中的背景噪声，以实现视频进行异常检测，并加快视频监控中的异常检测速度，对检测和处理视频监控中的异常事件并实时检测危险情况至关重要。

CN202210587622.3提出了一种融合隐空间自回归的预测重构视频异常检测方法，采用了结合UNet网络和隐空间自回归层构造预测网络的构思，将含有连续t-1帧的正常视频帧作为训练数据，按时间顺序堆叠起来输入生成器网络 Attention U-net用来预测其下一帧，加入基于网格特征图分配权重的自我学习软注意力门控机制来提取特征。该方法会产生冗余导致网络训练很慢，影响整体模型的训练速度，并且分类精确度和定位精度无法兼得。

CN114913599A公开了一种基于自动编码器的视频异常行为检测方法将图像的目标与背景分别输入到双通道自编码器的不同通道，由对应通道中的编码器分别对目标与背景提取图像特征后，在双通道自编码器的隐含层将两个通道分别提取的两个特征进行特征融合，最后将融合后的特征送入解码器进行模型训练；在训练好的模型中使用重构误差判别对输入的待检测样本进行异常行为检测，得到异常行为检测结果，从而解决背景变化对异常行为检测造成的不利影响，使得到的模型通用性更强，易于部署到不同场景。但该方法在双通道之间并未建立特征连接，会导致目标特征和背景特征在编码解码过程中过于割裂，无法保证上文信息的完整性，影响模型重构特征的准确率。

发明内容

上述现有技术的缺点可以总结归纳为：在视频异常检测中，不能很好的同时兼顾异常检测的精度和速度，上下文建模困难并且抗噪能力有限，导致对视频进行异常检测的准确率不高。因此针对现有技术的不足，本发明提出了一种基于交叉U-Net网络的视频异常检测方法及装置。

一方面，在现实视频监控中，异常视频的情况是无限的、模糊的和复杂的，异常样本难以完全收集。另外对采集到的视频进行异常检测也需要耗费大量的人力、物力和财力，并且异常检测的精度不够高速度不够快。对此，我们构造了一种基于交叉U-Net的视频异常检测方法，以提高检测的速度。交叉U-Net网络的特点是，收缩路径中每三层的输出与其他子网络中相应层的输出相结合，用作下一层的输入。它捕获上下文并使用每个子网络中的前一帧和下一帧对当前帧进行定位，以简明地预测当前帧。每个帧的推理时间一致，即使一帧中有许多对象也不会减慢速度。每个子网由收缩路径和扩展路径组成，每个卷积层后面都有一个添加ReLU激活函数。

另一方面，在视频异常检测中，无关信息会影响真实帧的分割特征，导致查询图像分割的不准确，为了保证生成的预测接近其基本事实，在解码器加入分配权重的自我学习软注意力门控机制来提取特征，自注意力机制在单层特征中对远距离空间相关性进行建模，自动寻找图像的相关部分，提高对前景内容的响应，采用强度损失和梯度损失作为外观约束，而差分损失作为运动约束，最后利用对抗学习来加强模型对视频中异常行为的检测能力。生成性对抗网络用于使生成的结果在图像和视频生成任务中更真实。在大多数情况下，生成性对抗网络由生成器和鉴别器组成，鉴别器试图将生成的结果与实际结果区分开来。同时，生成器尝试生成可能混淆鉴别器的结果。

本发明采用的具体技术方案如下：一种基于交叉U-Net网络的视频异常检测方法，步骤如下：

S1:采用FPN网络进行目标检测，提取视频中的每一帧；

S2:构建基于自注意力机制的交叉U-Net模型；所述基于自注意力机制的交叉U-Net模型包括两个子网络，每个子网络都是U-Net网络，两个子U-Net网络分别接收前一帧和下一帧来预测当前帧，并且每个子网络由收缩路径和扩展路径组成，在收缩路径中进行交叉连接进行下采样过程，在扩展路径加入自注意力机制进行上采样过程；

S3:训练基于自注意力机制的交叉U-Net网络模型；

S4:使用训练后的基于自注意力机制的交叉U-Net网络模型得到预测的当前帧，并使用鉴别器判断是否异常。

进一步优选，所述收缩路径由一个下采样模块和三个依次连接的下采样交叉模块组成；每个下采样交叉模块由两个卷积层和一个最大池化层依次连接而成，每个下采样交叉模块的第一个卷积层的输出连接另一子网络同层级的下采样交叉模块的最大池化层的输入，从而实现两个子网络同层级的交叉连接；将上层子网络的前一帧信息与下层子网络的后一帧信息相融合，使每个维度包含更多的特征，并且在第三个下采样交叉模块后跳出下采样层。

进一步优选，所述扩展路径由一个上采样模块I和三个依次连接的上采样模块II组成；上采样模块I依次由一个退出上采样层、一个自注意力机制和两个卷积层组成；每个上采样模块II依次由一个上采样层、一个自注意力机制、两个卷积层组成。

进一步优选，收缩路径与扩展路径之间通过一个卷积模块连接；两个子网络的收缩路径的输出共同连接一个预测模块。

进一步优选，所述预测模块由一个3x3的卷积层和一个1x1的卷积层组成。

进一步优选，每个子网络的收缩路径公式表示如下：

（1）；

其中，k表示层数，

表示收缩路径中下采样模块和前两个依次连接的下采样交叉模块输出的指数，/>

是另一个子网络的相应输出，/>

表示子网络的输入，/>

表示下采样模块和前两个依次连接的下采样交叉模块的最终输出；[ ]表示串联操作，D( )表示两个3×3卷积层，每个卷积层后面都有一个添加ReLU激活函数激活单元，P( )表示最大池化层；每个子网络在两个卷积运算之前连接下采样模块和前两个依次连接的下采样交叉模块的输出和另一个子网络的相应输出，如公式（1）所示。

进一步优选，在训练时，将基于自注意力机制的交叉U-Net网络模型作为生成器，接收前一帧和下一帧生成预测的当前帧，采用强度损失和梯度损失作为外观约束，差分损失作为运动约束，生成满足约束的重构帧，从而生成高质量的预测图像。

进一步优选，使用预测的当前帧和真实的当前帧的差异来推断是否异常；使用像素均方误差作为损失函数，如公式（2）所示：

（2）；

其中，MSE表示像素均方误差，i和j表示像素的空间索引，h是视频图像帧的高度，w是视频图像帧的宽度，

表示在像素层面上高度为i、宽度为j的预测帧，/>

表示在像素层面上高度为i、宽度j的真实帧（真实的当前帧）。

进一步优选，强度损失定义如公式（3）所示：

（3）；

其中，

表示2范数的平方，/>

表示强度损失，N是真实帧中的像素数，

表示t时刻的真实帧，/>

表示t时刻的预测帧，预测帧/>

与真实帧/>

的梯度损失定义如公式（4）所示：

（4）；/>

其中，

表示1范数，/>

表示预测帧/>

与真实帧/>

的梯度损失，

表示在像素层面上高度为i-1、宽度为j的真实帧、/>

表示在像素层面上高度为i、宽度为j-1的真实帧，/>

表示在像素层面上高度为i-1、宽度为j的预测帧、/>

表示在像素层面上高度为i、宽度为j-1的预测帧。

进一步优选，差分损失定义如公式（5）所示：

（5）；

其中，

表示图像差分损失，N是真实帧A中的像素数，/>

是真实的第t+1帧，/>

是预测的第t+1帧，/>

是真实的第t+2帧，

是预测的第t+2帧。

进一步优选，采用编码器和解码器构造鉴别器，使用鉴别器计算正常帧与预测帧的异常分数，设定阈值，将异常分数与阈值进行比较，判断视频帧是否异常；采用对抗性训练来提高生成帧的质量，计算峰值信噪比以计算规则性得分。

本发明还提供了一种基于交叉U-Net网络的视频异常检测装置，包括：

用于分割视频帧的视频分割单元，视频分割单元内置FPN网络，用于将视频分割为每一帧；

视频预测单元，内置基于自注意力机制的交叉U-Net模型，所述基于自注意力机制的交叉U-Net模型包括两个子网络，每个子网络都是U-Net网络，两个子U-Net网络分别接收前一帧和下一帧来预测当前帧，并且每个子网络由收缩路径和扩展路径组成，在收缩路径中进行交叉连接进行下采样过程，在扩展路径加入自注意力机制进行上采样过程；

异常判断单元，使用预测的当前帧和真实的当前帧的差异来推断是否异常。

本发明的有益效果：

（1）在视频异常检测中引入了交叉U-Net网络，既考虑了异常检测的精度，

又考虑了视频监控中至关重要的异常检测速度。

交叉U-Net网络是用于图像分割性能较好的一种模型，深度学习擅长解决分类问题，利用深度学习的这一特点进行图像分割，其实质是对图像中的每一像素点进行分类。最终将不同类别的点利用不同的通道标出，可以达到对目标区域中的特征信息分类标出的效果，这就是全卷积网络的主要思想。U-Net网络的不足是由于要针对每张图像中的每个像素点进行分类，在形成极大计算量的同时也会因为大量重复的特征提取过程造成很多冗余。最终就会导致整个网络在训练的过程中收敛的速度出奇的慢。交叉U-Net网络就很好的解决了这个问题，不仅考虑了异常检测的精度，又考虑了视频监控中至关重要的异常检测速度。在本发明中，两个子网络之间会进行特征连接，并且上采样和下采样过程中进行跳跃连接，这样很好的加强了两条子网络的特征连接，避免了模型出现梯度消失的情况。

采用自注意力机制，针对不同图像之间的异常设置不同的权重，并引入强度损失和梯度损失作为外观约束，差分损失作为运动约束。

利用自注意力机制对特定的区域进行高分辨率处理。将注意力集中在图片中特定的部分，不是处理全部图像，而是有针对性地选择相应位置处理，提取图像中的关键信息同时忽略无关信息，网络层数也不会过深，梯度爆炸的问题也得到了解决，可以做到只选择图像中关键异常区域的输入信息进行处理，来提高神经网络模型的效率。

附图说明

图1为本发明的流程图。

图2为FPN网络提取视频帧示意图。

图3为交叉U-Net网络模型示意图。

图4为基于自注意力机制的交叉U-Net模型训练过程示意图。

图5为基于自注意力机制的交叉U-Net模型测试过程示意图。

具体实施方式

下面结合附图和实施例进一步详细阐明本发明。

参照图1，一种基于交叉U-Net网络的视频异常检测方法，步骤如下：

S1:采用FPN网络进行目标检测，提取视频中的每一帧。

如图2所示，本实施例将视频片段作为输入，采用FPN网络（特征金字塔网络）对视频片段进行目标检测处理，将视频片段按时间维度分成每一帧，用作后续基于自注意力机制的交叉U-Net模型的输入。本实施例中，首先通过FPN网络（特征金字塔网络）进行目标检测，提取视频中的每一帧。特征金字塔网络能在增加极小的计算量的情况下，对视频的图像进行特征提取，能够产生多尺度的特征表示，并且所有等级的特征图都具有较强的语义信息，甚至包括一些高分辨率的特征图。FPN网络结合了底层细节信息和高级语义信息，可以很好地检测视频中较小的目标，同时兼顾了准确性和速度，能够在增加较少计算量的前提下融合低分辨率语义信息较强的特征图和高分辨率语义信息较弱但空间信息丰富的特征图，更好的分解图像的每一帧，从而作为基于自注意力机制的交叉U-Net模型的输入。

S2:构建基于自注意力机制的交叉U-Net模型。如图3所示，基于自注意力机制的交叉U-Net模型包括两个子网络，每个子网络都是U-Net网络，两个子U-Net网络分别接收前一帧和下一帧来预测当前帧，并且每个子网络由收缩路径和扩展路径组成，在收缩路径中进行交叉连接进行下采样过程，在扩展路径加入自注意力机制进行上采样过程。

收缩路径由一个下采样模块和三个依次连接的下采样交叉模块组成；所述下采样模块由两个3x3的卷积层（添加ReLU激活函数）和一个2x2的最大池化层依次连接而成；每个下采样交叉模块由两个3x3的卷积层（添加ReLU激活函数）和一个2x2的最大池化层依次连接而成，每个下采样交叉模块的第一个3x3的卷积层（添加ReLU激活函数）的输出连接另一子网络同层级的下采样交叉模块的2x2的最大池化层的输入，从而实现两个子网络同层级的交叉连接；将上层子网络的前一帧信息与下层子网络的后一帧信息相融合，使每个维度包含更多的特征，并且在第三个下采样交叉模块后跳出下采样层；

扩展路径由一个上采样模块I和三个依次连接的上采样模块II组成；上采样模块I依次由一个2x2退出上采样层、一个自注意力机制和两个3x3的卷积层（添加ReLU激活函数）组成；每个上采样模块II依次由一个2x2上采样层、一个自注意力机制、两个3x3的卷积层（添加ReLU激活函数）组成；

收缩路径与扩展路径之间通过一个卷积模块连接；两个子网络的收缩路径的输出共同连接一个预测模块。卷积模块由两个3x3的卷积层（添加ReLU激活函数）组成。所述预测模块由一个3x3的卷积层（添加ReLU激活函数）和一个1x1的卷积层（添加ReLU激活函数）组成。

本实施例中，第一个自注意力机制在上采样模块I中，将第三个下采样交叉模块输出的特征与卷积模块输出的特征相结合后，送入到第一个自注意力机制中。第二个自注意力机制在第一个上采样模块II中，将第二个下采样交叉模块输出的特征与上采样模块I输出的特征相结合后，送入到第二个自注意力机制中。第三个自注意力机制在第二个上采样模块II中，将第一个下采样交叉模块输出的特征与第一个上采样模块II输出的特征相结合后，送入到第三个自注意力机制中。第四个自注意力机制在第三个上采样模块II中，将下采样模块输出的特征与第二个上采样模块II输出的特征相结合后，送入到第四个自注意力机制中。自注意力机制用来解决图像分类中对外部门控信息的依赖，采用非局部的自注意力机制建立图像中两个长距离像素点的依赖关系，提高了图像分类性能的准确性。

本实施例中，将收缩路径中的下采样模块和三个下采样交叉模块的特征与扩展路径中对应同分辨率的下采样层的特征进行连接；在扩展路径中的上采样模块I和三个上采样模块II中，每个上采样层的特征与其对应的同分辨率的下采样层的特征进行连接，在两个子网络的解码段逐层加入自注意力机制，将基于底层的视觉特征自底向上与融合自注意力机制的交叉U-net提取的特征进行逐层合并，作为下一个上采样层的输入。预测模块通过一个3x3的卷积层，再将上层子网络的特征与下层子网络的特征进行连接，最后通过一个3x3的卷积层得到预测的当前帧（预测帧）。

本实施例中，每个子网络的收缩路径公式表示如下：

（1）；

其中，k表示层数，

是另一个子网络的相应输出，/>

表示子网络的输入，/>

表示下采样模块和前两个依次连接的下采样交叉模块的最终输出；[ ]表示串联操作，D( )表示两个3×3卷积层，每个卷积层后面都有一个添加ReLU激活函数激活单元，P( )表示最大池化层；每个子网络在两个卷积运算之前连接下采样模块和前两个依次连接的下采样交叉模块的输出和另一个子网络的相应输出，如公式（1）所示。它使每个子网络使用收缩路径中的前一帧和下一帧来提取当前帧的上下文，它还使每个子网络能够使用扩展路径中前一帧和下一帧的特征来定位当前帧。下采样过程中两个子网络的特征图交叉连接，有利于输入帧的特征提取，加强了输入的前一帧和后一帧的时间信息关联，提高了下采样过程的速度和输出预测的当前帧的精度。

传统U-Net网络采用经典的编码器-解码器结构，左右两侧对称，交叉U-Net前半部分用于下采样，后半部分用于上采样。每个上采样层的特征与其对应的同分辨率的下采样层的特征进行连接，作为下一个上采样层的输入。这种跳跃连接结构使网络将浅层特征图的信息通过特征通道与更高层次的特征图进行结合，保证了上下文信息的完整性。U-net通过跳跃连接结构可实现特征信息的跨层传输，不需考虑输入帧和其相应的输出帧的共同特征，可专注于不同的特征信息用于进一步训练，提高了对视频帧内容的学习能力。

为获取编码中的低层次细节信息，交叉U-net将编码块的低层次粗粒度特征图直接与相应解码块的前一层输出的特征图相拼接作为下一层解码块的输入，但直接拼接的方式存在浅层特征利用率低的问题。本发明在扩展路径中引入自注意力机制，在两个子网络的解码段逐层加入自注意力机制，将基于底层的视觉特征自底向上与融合自注意力机制的交叉U-net提取的特征进行逐层合并。通过交叉U-net结构优势抑制了输入视频帧中与异常检测任务不相关背景区域的特征表达，突出了视频异常检测任务中视频帧的有效特征。同时，利用自注意力机制缩小了交叉U-net编码块中低级粗粒度特征与交叉U-net解码块中高级细粒度特征之间的差距。

S3:训练基于自注意力机制的交叉U-Net网络模型。

本实施例步再训练时，将基于自注意力机制的交叉U-Net网络模型作为生成器，接收前一帧和下一帧生成预测的当前帧，采用强度损失和梯度损失作为外观约束，差分损失作为运动约束，生成满足约束的重构帧，从而生成高质量的预测图像。

基于自注意力机制的交叉U-Net模型仅使用正常当前帧的前一帧和下一帧来预测训练时的正常当前帧。我们使用预测的当前帧和真实的当前帧的差异来推断是否异常。使用像素均方误差作为损失函数，如公式（2）所示：

（2）；

表示在像素层面上高度为i、宽度为j的预测帧（预测的当前帧），

强度损失是RGB空间中的所有像素值在预测与其真实值之间的差，梯度损失会使预测帧锐化。预测帧

（没有下标，泛指全部预测帧的整体概念）与真实帧/>

（没有下标，泛指全部真实帧的整体概念）之间的强度损失定义如公式（3）所示：

（3）；/>

其中，

表示2范数的平方，/>

表示强度损失，N是真实帧中的像素数，/>

表示t时刻的真实帧，/>

表示t时刻的预测帧，预测帧/>

与真实帧/>

的梯度损失定义如公式（4）所示：

（4）；

其中，

表示1范数，/>

表示预测帧/>

与真实帧/>

的梯度损失，

表示在像素层面上高度为i-1、宽度为j的真实帧、/>

表示在像素层面上高度为i、宽度为j-1的真实帧，/>

表示在像素层面上高度为i-1、宽度为j的预测帧、/>

表示在像素层面上高度为i、宽度为j-1的预测帧。

梯度损失有助于基于自注意力机制的交叉U-Net模型区分正常帧和异常帧，因为梯度损失保证基于自注意力机制的交叉U-Net模型生成具有锐利边缘的正常对象。在预测时，不能正确地锐化训练数据中从未出现的异常对象。因此，异常对象往往具有模糊边缘，这导致较大的预测误差。

采用图像差分损失作为运动约束，而不采用光流损失。因为光流损耗使网络更深，这导致网络训练困难。需要使用较小的学习速率来稳定训练过程，并且成本是更长的训练时间，这在应用中是不实际的。图像差分损失定义如公式（5）所示：

（5）；

其中，

表示图像差分损失，N是真实帧A中的像素数，/>

是真实的第t+1帧，/>

是预测的第t+1帧，/>

是真实的第t+2帧，

是预测的第t+2帧。

生成性对抗网络（GAN）是一种神经网络模型，用于使生成的结果在图像和视频生成任务中更真实，以随机噪声为输入并生成输出，输出是来自训练集分布的样本，训练过程如图4所示，将真实帧和预测帧送入。在大多数情况下，生成性对抗网络（GAN）由生成器（generator）和鉴别器（discriminator）组成。鉴别器试图将生成的结果与实际结果区分开来。同时，生成器尝试生成可能混淆鉴别器的结果，并以此不断训练来优化鉴别器的效果。

本实施例采用编码器和解码器构造鉴别器，使用鉴别器计算真实帧与预测帧的异常分数，设定阈值，将异常分数与阈值进行比较，判断视频帧是否异常；采用对抗性训练来提高生成帧的质量，计算峰值信噪比以计算规则性得分。

鉴别器旨在将生成的图像和真实图像分类。给定预测的第t+1帧

及真实的第t+1帧/>

，鉴别器损耗定义如下：

（6）；

其中

表示鉴别器损耗，/>

表示真实图像的概率，

表示预测图像的概率，i，j表示鉴别器输出中的空间块的索引，n表示块的数量。

生成器旨在生成更真实的图像。当训练生成器时，鉴别器的权重是固定的。可以通过最小化定义如下的对抗损失来训练生成器：

（7）；

其中，

表示对抗损失，/>

表示预测帧，/>

表示预测图像的概率。

本实施例利用对抗性训练来提高生成帧的质量，使用基于自注意力机制的交叉U-Net网络生成预测帧，然后利用生成的预测当前帧和真实的当前帧的基本真值计算峰值信噪比（PSNR）以计算规则性得分。

峰值信噪比（PSNR）是一种评价图像的客观标准，是衡量最大值信号和背景噪音之间的图像质量参考值，在视频异常检测中被广泛应用于图像质量评估。峰值信噪比经常用作图像压缩等领域中信号重建质量的测量方法，它常简单地通过均方误差（MSE）进行定义，测试过程如图5所示。真实帧和预测帧的均方误差定义如上文公式（2）所示。公式（2）简化可得：

（8）；

其中，

表示均方误差，/>

表示真实帧，/>

表示预测帧，N是真实帧A中的像素数，峰值信噪比定义如下:/>

（9）；

其中，

表示峰值信噪比分数，/>

表示/>

中的最大像素值。预测帧的PSNR值和它的真值越低，表明该帧更有可能是一个异常帧。在计算完测试视频的所有PSNR后，将PSNR归一化为[0,1]，计算测试视频第t帧的正则性评分如下:

（10）；

其中

表示视频第t帧的正则性评分，/>

表示第t帧的峰值信噪比分数，max(PSNR)表示测试视频中的最大PSNR值，min(PSNR)表示最小PSNR值，/>

表示真实的第t帧，/>

表示预测的第t帧。

异常判断单元，通过鉴别器计算预测的当前帧和真实的当前帧的差异来推断是否异常。

需要强调的是，本领域内的技术人员应明白，本申请的实施例只是为说明所提方法的有效性而非限定性。因此，尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了本发明的创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为由本领域技术人员根据此发明的技术方案得出的其它实施例，也属于本发明保护的范畴。

Claims

1.一种基于交叉U-Net网络的视频异常检测方法，其特征在于，步骤如下：

S1:采用FPN网络进行目标检测，提取视频中的每一帧；

所述收缩路径由一个下采样模块和三个依次连接的下采样交叉模块组成；每个下采样交叉模块由两个卷积层和一个最大池化层依次连接而成，每个下采样交叉模块的第一个卷积层的输出连接另一子网络同层级的下采样交叉模块的最大池化层的输入，从而实现两个子网络同层级的交叉连接；将上层子网络的前一帧信息与下层子网络的后一帧信息相融合，使每个维度包含更多的特征，并且在第三个下采样交叉模块后跳出下采样层；

所述扩展路径由一个上采样模块I和三个依次连接的上采样模块II组成；上采样模块I依次由一个退出上采样层、一个自注意力机制和两个卷积层组成；每个上采样模块II依次由一个上采样层、一个自注意力机制、两个卷积层组成；

第一个自注意力机制在上采样模块I中，将第三个下采样交叉模块输出的特征与卷积模块输出的特征相结合后，送入到第一个自注意力机制中；第二个自注意力机制在第一个上采样模块II中，将第二个下采样交叉模块输出的特征与上采样模块I输出的特征相结合后，送入到第二个自注意力机制中；第三个自注意力机制在第二个上采样模块II中，将第一个下采样交叉模块输出的特征与第一个上采样模块II输出的特征相结合后，送入到第三个自注意力机制中；第四个自注意力机制在第三个上采样模块II中，将下采样模块输出的特征与第二个上采样模块II输出的特征相结合后，送入到第四个自注意力机制中；

S3:训练基于自注意力机制的交叉U-Net网络模型；

2.根据权利要求1所述的基于交叉U-Net网络的视频异常检测方法，其特征在于，收缩路径与扩展路径之间通过一个卷积模块连接；两个子网络的收缩路径的输出共同连接一个预测模块。

3.根据权利要求2所述的基于交叉U-Net网络的视频异常检测方法，其特征在于，所述预测模块由一个3x3的卷积层和一个1x1的卷积层组成。

4.根据权利要求1所述的基于交叉U-Net网络的视频异常检测方法，其特征在于，每个子网络的收缩路径公式表示如下：