CN112686187A

CN112686187A - 基于深度学习视频分类的道路通行异常状态检测方法及装置

Info

Publication number: CN112686187A
Application number: CN202110007646.2A
Authority: CN
Inventors: 李嘉; 张南蛟; 黎艳; 张珂溢; 梁豪; 林世奕
Original assignee: Sichuan Tietong Information Technology Industry Investment Co ltd
Current assignee: Sichuan Tietong Information Technology Industry Investment Co ltd
Priority date: 2021-01-05
Filing date: 2021-01-05
Publication date: 2021-04-20

Abstract

本发明提供了基于深度学习视频分类的道路通行异常状态检测方法及装置，方法包括：对每段采集过来的长视频，均匀划分为一组预设时长的视频片段；标注每段视频片段中道路通行状态是否异常；将标注的每段视频作为样本对模型进行训练，得到训练模型；确定图像的特征的帧间动态信息；确定图像特征的时空信息；将帧间信息提取模块和时空信息提取模块融入至ResNet的瓶颈模块中，得到视频特征提取模块；将提取出的特征输入到全连接层中，进行时序池化；将时序池化的特征，输入训练模型中，输出该视频片段为异常状态的概率p；依据概率p确定视频信息是否异常。时空特征提取模块解决了长视频时序信息的缺失问题，同时避免了3D卷积计算量大的缺点。

Description

基于深度学习视频分类的道路通行异常状态检测方法及装置

技术领域

本发明涉及视频检测技术领域，特别是基于深度学习视频分类的道路通行异常状态检测方法及装置。

背景技术

目前基于视频分类的道路通行异常状态检测，对分类精度和算法效率的要求越来越高，但由于复杂交通状况和天气等因素的制约，常常无法有效识别道路通行异常状态，并且消耗很多计算资源。

对于道路通行拥堵进行分类，主要有3类方法：

(1)采用2D卷积神经网络来逐帧提取特征，然后利用一定时间段内的平均值池化或者最大值池化来获取特征，来表示该时间段的视频片段。这种较为朴素的统计学特征会丢失视频的大部分时空信息，忽略了视频帧之间的动态信息，使视频分类精度受到很大负面影响。

(2)对(1)中朴素的时空特征的提取方法进行改进，另外引入了光流，补充了视频帧之间的动态信息，通过构建两路的卷积神经网络提取光流与RGB视频的特征，用加权平均或者直接平均融合两类特征，得到最终的特征。这种方法需要首先提取光流，这需要大量的计算资源。此外，两种特征提取的过程是相互独立的，最后才通过加权平均或者直接平均的方式进行融合，这样就对整体时空特征的表达能力产生了不利影响。同时该类方法依然存在(1)中的问题。

(3)采用3D或(2+1)D卷积神经网络进行时序特征提取以及用光流进行帧间动态信息的提取。改善了(1)中时空特征提存在的问题，然而对于时空特征提取通常需要使用多个3D或(2+1)D卷积神经网络，这样就无法构造合适的分类器对模型进行优化，同时3D卷积和光流的计算会消耗大量计算资源。

发明内容

本发明解决的技术问题是：克服现有技术的不足，提供了基于深度学习视频分类的道路通行异常状态检测方法及装置。

本发明的技术解决方案是：

为了解决上述技术问题，本发明提供了基于深度学习视频分类的道路通行异常状态检测方法，包括：

采用道路监控摄像头采集道路通行状态的视频信息；

对每段采集过来的长视频，均匀划分为一组预设时长的视频片段；

标注每段视频片段中道路通行状态是否异常；

将标注的每段视频作为样本对模型进行训练，得到训练模型；

将每个视频片段分为T段，每段中随机提取一帧图像，组成数量为T的一组图像；

构建帧间动态信息提取模块，并确定图像的特征的帧间动态信息；

构建时空信息提取模块，并确定图像特征的时空信息；

将帧间信息提取模块和时空信息提取模块融入至ResNet的瓶颈模块中，得到视频特征提取模块；

采用所述视频特征提取模块对视频片段的特征进行提取；

将提取出的特征输入到全连接层中，进行时序池化；

将时序池化的特征，输入所述训练模型中，输出该视频片段为异常状态的概率p；

依据所述概率p确定视频信息是否异常。

可选地，所述构建帧间动态信息提取模块，并确定图像的特征的帧间动态信息的步骤，包括：

对输入的图像的特征进行1×1 2D卷积操作；

将特征分为T段；其中，每段代表t时刻的图像特征X(t)；

通过以下公式确定帧间动态信息：

O(t)＝conv2d(X(t+1))–X(t)；

其中，conv2d是一个3×3的depthwise卷积；

将O(0)设置为0，将所有帧间信息并联得到O(T)特征；

使用全局池化层对帧间动态信息进行融合；

采用1x1 2D卷积使通道扩增，采用sigmoid激活函数进行归一化，得到每个通道的激励值；

对每个通道进行加权，输出具有帧间动态信息特征；

将输出的具有帧间动态信息的特征与输入特征相加，输出目标特征，其中，所述目标特征为包含帧间动态信息和帧内静态信息的特征。

可选地，所述构建时空信息提取模块，并确定图像特征的时空信息的步骤，包括：

对输入的图像的特征在C维度上划分为4段，其中，每一段采用1D卷积提取时序特征；

采用3x3 2D卷积提取空间特征；

将所述时序特征和所述空间特征进行融合。

可选地，所述将提取出的特征输入到全连接层中，进行时序池化的步骤，包括：

将提取出的特征输入到全连接层中，并进行时序池化；

采用BinaryCross-Entropyloss进行优化：

y＝Sigmoid(x)；

Bceloss＝-ylogt-(2-y)log(1-t)；

其中，y表示输出的概率，x代表图像的特征，t表示真实标签即0或1，Bceloss表示二元交叉熵损失函数；若该视频片段为异常状态，则t＝1，若该视频片段为非异常状态，则t＝0。

可选地，所述依据所述概率p确定视频信息是否异常的步骤，包括：

当所述概率p大于或者等于0.5的情况下，确定视频信息异常；

在所述概率小于0.5的情况下，确定视频信息为非异常状态。

为了解决上述技术问题，本发明提供了基于深度学习视频分类的道路通行异常状态检测装置，包括：

采集模块，用于采用道路监控摄像头采集道路通行状态的视频信息；

划分模块，用于对每段采集过来的长视频，均匀划分为一组预设时长的视频片段；

标注模块，用于标注每段视频片段中道路通行状态是否异常；

训练模块，用于将标注的每段视频作为样本对模型进行训练，得到训练模型；

第一提取模块，用于将每个视频片段分为T段，每段中随机提取一帧图像，组成数量为T的一组图像；

第一确定模块，用于构建帧间动态信息提取模块，并确定图像的特征的帧间动态信息；

第二确定模块，用于构建时空信息提取模块，并确定图像特征的时空信息；

融合模块，用于将帧间信息提取模块和时空信息提取模块融入至ResNet的瓶颈模块中，得到视频特征提取模块；

第二提取模块，用于采用所述视频特征提取模块对视频片段的特征进行提取；

时序池化模块，用于将提取出的特征输入到全连接层中，进行时序池化；

输入模块，用于将时序池化的特征，输入所述训练模型中，输出该视频片段为异常状态的概率p；

判断模块，用于依据所述概率p确定视频信息是否异常。

可选地，所述第一确定模块具体用于：

对输入的图像的特征进行1×1 2D卷积操作；

将特征分为T段；其中，每段代表t时刻的图像特征X(t)；

通过以下公式确定帧间动态信息：

O(t)＝conv2d(X(t+1))–X(t)；

其中，conv2d是一个3×3的depthwise卷积；

将O(0)设置为0，将所有帧间信息并联得到O(T)特征，；

使用全局池化层对帧间动态信息进行融合；

对每个通道进行加权，输出具有帧间动态信息特征；

可选地，所述第二确定模块具体用于：

采用3x3 2D卷积提取空间特征；

将所述时序特征和所述空间特征进行融合。

可选地，所述时序池化模块具体用于：

将提取出的特征输入到全连接层中，并进行时序池化；

采用Binary Cross-Entropy loss进行优化：

y＝Sigmoid(x)；

Bceloss＝-ylogt-(2-y)log(1-t)；

可选地，所述判断模块具体用于：

当所述概率p大于或者等于0.5的情况下，确定视频信息异常；

在所述概率小于0.5的情况下，确定视频信息为非异常状态。

本发明与现有技术相比的优点在于：

本发明实施例提供的方案，构建了新的长视频时空特征提取模块，以及帧间动态信息提取模块。时空特征提取模块解决了长视频时序信息的缺失问题，同时避免了3D卷积计算量很大的缺点，在特征提取过程中能够有效增大时空特征的感受野，同时有效的解决了长视频时空特征难以表达的问题。帧间动态信息提取模块能将帧动态信息提取融合到时空特征提取中共同优化，并且解决了光流计算量大的问题。可以更快地识别视频信息中的道路状态是否异常。

附图说明

图1为本发明实施例提供的基于深度学习视频分类的道路通行异常状态检测方法的流程图；

图2为本发明实施例提供的基于深度学习视频分类的道路通行异常状态检测装置的结构框图。

具体实施方式

本发明说明书中未作详细描述的内容属本领域技术人员的公知技术。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参照图1，示出了本发明实施例提供的基于深度学习视频分类的道路通行异常状态检测方法的步骤流程图，如图1所示，该方法具体可以包括如下步骤：

步骤101：采用道路监控摄像头采集道路通行状态的视频信息。

步骤102：对每段采集过来的长视频，均匀划分为一组预设时长的视频片段。

步骤103：标注每段视频片段中道路通行状态是否异常。

对每段采集过来的长视频，均匀划分为一组10s～15s的小的视频片段，人工标注每段视频片段中道路通行状态是否异常；多人重复标注道路通行状态信息，计算该视频片段是异常状态的概率。

视频片段是异常状态的概率＝(标注此视频片段为异常状态的次数)/(此视频片段标注的次数)。

若视频片段是异常状态的概率>0.5，则该视频片段标注为异常状态，否则标注为正常状态。

步骤104：将标注的每段视频作为样本对模型进行训练，得到训练模型。

步骤105：将每个视频片段分为T段，每段中随机提取一帧图像，组成数量为T的一组图像。

步骤106：构建帧间动态信息提取模块，并确定图像的特征的帧间动态信息。

对输入的图像的特征进行1×1 2D卷积操作；

目的是降低模型复杂度。

将特征分为T段；其中，每段代表t时刻的图像特征X(t)；

通过以下公式确定帧间动态信息：O(t)＝conv2d(X(t+1))–X(t)；其中，conv2d是一个3×3的depthwise卷积。

conv2d用来对每个通道的特征进行线性转换，有助于模型的收敛。将O(0)设置为0，将所有帧间信息并联得到O(T)特征。

由于提取帧间信息，第一帧的帧间信息将会缺失，为保证使每个通道得到激励，需要保持T不变，于是将O(0)设置为0，将所有帧间信息并联得到O(T)特征。

使用全局池化层对帧间动态信息进行融合。

采用squeeze and excite的思想，使用一个全局池化层对帧间动态特征进行融合。

采用1x1 2D卷积使通道扩增，采用sigmoid激活函数进行归一化，得到每个通道的激励值；对每个通道进行加权，输出具有帧间动态信息特征；将输出的具有帧间动态信息的特征与输入特征相加，输出目标特征，其中，所述目标特征为包含帧间动态信息和帧内静态信息的特征。

输入的特征中，各通道侧重不同的信息，有些通道代表帧内静态信息，有些通道代表帧间动态信息，通过对各通道进行加权，可以有效输出侧重帧间动态信息的特征。在本模块中，通过提取帧间动态信息，生成激励值，对每个通道进行激励，最后与原特征进行融合，使最终输出特征既包含了侧重于帧间动态信息，也包含了帧内静态信息。

步骤107：构建时空信息提取模块，并确定图像特征的时空信息。

对于输入特征，要从中提取时空特征，一种思路采用一组局部卷积模块对输入特征T维度上的相邻两帧特征进行提取，这样做对于长视频来说会产生大量的计算量，且难以构造合适的分类器对模型进行优化，另一种比较好的思路通过1D卷积提取时序特征，然后用3x3 2D卷积提取空间特征。解决了计算量大，难以构造合适的分类器对模型进行优化等问题，但是这种方法提取的时序特征的感受野较小，表达较长时序特征的能力较差。本模块对感受野较小的问题进行了改进：

对输入的图像的特征在C维度上划分为4段，其中，每一段采用1D卷积提取时序特征；采用3x3 2D卷积提取空间特征；将所述时序特征和所述空间特征进行融合。

C维度即X：[N,T,C,H,W]中的C维度，通道(channel)维度。

经过该模块的时空特征提取，每一段特征感受野都得到了增强，X(4)特征的感受野得到了3次卷积才能获得的感受野，在感受野获得极大提升的同时维持了计算量与传统思路的计算量相似，并且输出了感受野较大的时空特征，该有助于增强时空特征的表达，同时解决了现有方法计算量大，难以表达长视频时空特征的问题。

步骤108：将帧间信息提取模块和时空信息提取模块融入至ResNet的瓶颈模块中，得到视频特征提取模块。

该模块很好的解决了长视频时空信息提取难，时空信息与帧间动态信息难以融合等问题，同时兼顾了算法精度与高效性。

步骤109：采用所述视频特征提取模块对视频片段的特征进行提取。

步骤110：将提取出的特征输入到全连接层中，进行时序池化。

全连接层的每一个结点都与上一层的所有结点相连，用来把前边提取到的特征综合起来。由于其全相连的特性，一般全连接层的参数也是最多的。例如在VGG16中，第一个全连接层FC1有4096个节点，上一层POOL2是7*7*512＝25088个节点，则该传输需要4096*25088个权值，需要耗很大的内存。

将提取出的特征输入到全连接层中，并进行时序池化；

采用Binary Cross-Entropy loss进行优化：

y＝Sigmoid(x)；

Bceloss＝-ylogt-(2-y)log(1-t)；

步骤111：将时序池化的特征，输入所述训练模型中，输出该视频片段为异常状态的概率p。

步骤112：依据所述概率p确定视频信息是否异常。

当所述概率p大于或者等于0.5的情况下，确定视频信息异常；

在所述概率小于0.5的情况下，确定视频信息为非异常状态。

本发明与现有技术相比的优点在于：

本发明实施例提供的方案，构建了新的长视频时空特征提取模块，以及帧间动态信息提取模块。时空特征提取模块解决了长视频时序信息的缺失问题，同时避免了3D卷积计算量很大的缺点，在特征提取过程中能够有效增大时空特征的感受野，同时有效的解决了长视频时空特征难以表达的问题。帧间动态信息提取模块能将帧动态信息提取融合到时空特征提取中共同优化，并且解决了光流计算量大的问题。可以更快的识别视频信息中的道路状态是否异常。

参照图2，示出了本发明实施例提供的基于深度学习视频分类的道路通行异常状态检测装置的结构框图。

本发明实施例提供的基于深度学习视频分类的道路通行异常状态检测装置包括：

采集模块201，用于采用道路监控摄像头采集道路通行状态的视频信息；

划分模块202，用于对每段采集过来的长视频，均匀划分为一组预设时长的视频片段；

标注模块203，用于标注每段视频片段中道路通行状态是否异常；

训练模块204，用于将标注的每段视频作为样本对模型进行训练，得到训练模型；

第一提取模块205，用于将每个视频片段分为T段，每段中随机提取一帧图像，组成数量为T的一组图像；

第一确定模块206，用于构建帧间动态信息提取模块，并确定图像的特征的帧间动态信息；

第二确定模块207，用于构建时空信息提取模块，并确定图像特征的时空信息；

融合模块208，用于将帧间信息提取模块和时空信息提取模块融入至ResNet的瓶颈模块中，得到视频特征提取模块；

第二提取模块209，用于采用所述视频特征提取模块对视频片段的特征进行提取；

时序池化模块210，用于将提取出的特征输入到全连接层中，进行时序池化；

输入模块211，用于将时序池化的特征，输入所述训练模型中，输出该视频片段为异常状态的概率p；

判断模块212，用于依据所述概率p确定视频信息是否异常。

可选地，所述第一确定模块具体用于：

对输入的图像的特征进行1×1 2D卷积操作；

将特征分为T段；其中，每段代表t时刻的图像特征X(t)；

通过以下公式确定帧间动态信息：

O(t)＝conv2d(X(t+1))–X(t)；

其中，conv2d是一个3×3的depthwise卷积；

将O(0)设置为0，将所有帧间信息并联得到O(T)特征，；

使用全局池化层对帧间动态信息进行融合；

对每个通道进行加权，输出具有帧间动态信息特征；

可选地，所述第二确定模块具体用于：

采用3x3 2D卷积提取空间特征；

将所述时序特征和所述空间特征进行融合。

可选地，所述时序池化模块具体用于：

将提取出的特征输入到全连接层中，并进行时序池化；

采用Binary Cross-Entropy loss进行优化：

y＝Sigmoid(x)；

Bceloss＝-ylogt-(2-y)log(1-t)；

可选地，所述判断模块具体用于：

当所述概率p大于或者等于0.5的情况下，确定视频信息异常；

在所述概率小于0.5的情况下，确定视频信息为非异常状态。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.基于深度学习视频分类的道路通行异常状态检测方法，其特征在于，所述方法包括：

采用道路监控摄像头采集道路通行状态的视频信息；

标注每段视频片段中道路通行状态是否异常；

构建时空信息提取模块，并确定图像特征的时空信息；

采用所述视频特征提取模块对视频片段的特征进行提取；

将提取出的特征输入到全连接层中，进行时序池化；

依据所述概率p确定视频信息是否异常。

2.根据权利要求1所述的方法，其特征在于，所述构建帧间动态信息提取模块，并确定图像的特征的帧间动态信息的步骤，包括：

对输入的图像的特征进行1×12D卷积操作；

将特征分为T段；其中，每段代表t时刻的图像特征X(t)；

通过以下公式确定帧间动态信息：

O(t)＝conv2d(X(t+1))–X(t)；

其中，conv2d是一个3×3的depthwise卷积；

将O(0)设置为0，将所有帧间信息并联得到O(T)特征；

使用全局池化层对帧间动态信息进行融合；

采用1x12D卷积使通道扩增，采用sigmoid激活函数进行归一化，得到每个通道的激励值；

对每个通道进行加权，输出具有帧间动态信息特征；

3.根据权利要求1所述的方法，其特征在于，所述构建时空信息提取模块，并确定图像特征的时空信息的步骤，包括：

采用3x32D卷积提取空间特征；

将所述时序特征和所述空间特征进行融合。

4.根据权利要求1所述的方法，其特征在于，所述将提取出的特征输入到全连接层中，进行时序池化的步骤，包括：

将提取出的特征输入到全连接层中，并进行时序池化；

采用BinaryCross-Entropyloss进行优化：

y＝Sigmoid(x)；

Bceloss＝-ylogt-(2-y)log(1-t)；

5.根据权利要求1所述的方法，其特征在于，所述依据所述概率p确定视频信息是否异常的步骤，包括：

当所述概率p大于或者等于0.5的情况下，确定视频信息异常；

在所述概率小于0.5的情况下，确定视频信息为非异常状态。

6.基于深度学习视频分类的道路通行异常状态检测装置，其特征在于，所述装置包括：

判断模块，用于依据所述概率p确定视频信息是否异常。

7.根据权利要求6所述的装置，其特征在于，所述第一确定模块具体用于：

对输入的图像的特征进行1×12D卷积操作；

将特征分为T段；其中，每段代表t时刻的图像特征X(t)；

通过以下公式确定帧间动态信息：

O(t)＝conv2d(X(t+1))–X(t)；

其中，conv2d是一个3×3的depthwise卷积；

将O(0)设置为0，将所有帧间信息并联得到O(T)特征，；

使用全局池化层对帧间动态信息进行融合；

对每个通道进行加权，输出具有帧间动态信息特征；

8.根据权利要求6所述的装置，其特征在于，所述第二确定模块具体用于：

采用3x32D卷积提取空间特征；

将所述时序特征和所述空间特征进行融合。

9.根据权利要求6所述的装置，其特征在于，所述时序池化模块具体用于：

将提取出的特征输入到全连接层中，并进行时序池化；

采用BinaryCross-Entropyloss进行优化：

y＝Sigmoid(x)；

Bceloss＝-ylogt-(2-y)log(1-t)；

10.根据权利要求6所述的装置，其特征在于，所述判断模块具体用于：

当所述概率p大于或者等于0.5的情况下，确定视频信息异常；

在所述概率小于0.5的情况下，确定视频信息为非异常状态。