CN112651346A

CN112651346A - 一种基于深度学习的流媒体视频识别与检测方法

Info

Publication number: CN112651346A
Application number: CN202011592568.9A
Authority: CN
Inventors: 谭毓卿; 张海林; 王兴顺; 李沛然; 梁珑; 展毅晟; 芦国云; 郭妍; 谢占兰; 卢涛; 冯小霞; 张青梅; 沈娟; 马雅静; 刘有文; 严隆兴; 余国栋; 杨品梅; 邓蓉
Original assignee: QINGHAI SANXIN RURAL POWER CO Ltd
Current assignee: QINGHAI SANXIN RURAL POWER CO Ltd
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2021-04-13

Abstract

本发明涉及深度学习与人工智能领域，特别涉及流视频监测方法。本发明将可变形卷积网络应用到基于one－stage的目标检测网络中，提出多尺度特征融合与可变形卷积的目标检测网络结构，使用可变形的卷积结构代替普通的卷积操作，增加模型对物体几何形变的学习能力，还釆用多尺度特征图进行上釆样与低级特征图融合提取目标位置的技巧，增加模型对小目标物体和密集型物体的检测能力，极大改进了其它目标检测模型在检测精度与速度上的缺陷。

Description

一种基于深度学习的流媒体视频识别与检测方法

技术领域

本发明涉及深度学习与人工智能领域，特别涉及流视频监测方法。

背景技术

目标检测是计算机视觉领域的一个经典的任务，是进行场景内容分析和理解等高级视觉任务的基本前提。设备巡检中，视频中的目标检测任务更是和业务需求贴近，现实巡检过程中，无人机智能视频监控、机器人导航等应用场景都需要对视频进行处理，对视频中的目标进行检测。视频中的目标检测需要在静态图像目标检测的基础上对目标因运动产生的各种变化进行处理，这是其中的难点。

传统的目标检测方法主要使用方向梯度直方图(Histogram of OrientedGradient，HOG)、尺度不变特征变换(Scale-Invariant Feature Transform，SIFT)特征对滑动窗口进行判别，主要代表方法为部位形变模型(Deformable Part Model，DPM)及其扩展。由于滑动窗口需要大量的计算开销，基于候选窗口的目标检测方法后来居上，目前较通用的候选窗口产生方法包括选择提取(Selective Search)、边缘窗口(Edge-Box)等。

基于视频的目标检测任务相比于静态图像的目标检测任务，目标的外观、形状、尺度等属性会随着目标的运动发生变化，在检测过程中如何保持时间顺序上目标的一致性从而不会使目标在中间某帧丢失，这是视频目标检测任务的主要难点。由于视频比静态图像多了一个时间维度上的信息，所以很多视频目标检测算法利用该信息来增强检测性能。

发明内容

本发明基于YOLO模型对视频中每一帧进行目标检测，然后在使用跟踪算法对目标框进行跟踪，使用跟踪的结果对之前的检测结果进行修正，保证了检测的准确性和鲁棒性。为了实现上述目的，本发明采用以下技术方案：可变形卷积网络应用到基于one－stage的目标检测网络中，打破传统卷积网络中卷积核固定的几何形状，増强卷积结构对图像特征几何变换的建模能力。

用带有偏移的采样代替原来的固定位置，该偏移的偏移量可以通过最终端到端的网络训练得到，不需要额外的特定变换规律的监督。普通的卷积操作用规则的网格R在输入特征映射X上进行采样，并对w加权的采样值求和，其中网格式定义了感受野的大小和扩张。

一个扩张大小为1的3*3卷积核可以定义如公式：

R＝{(-1,-1),(-1,0)(0,1),(1,1)}

对于每个输出Y(Po),都要从X上采样9个位置，这9个位置都在中心位置可向四周扩散得到的规则的网格形状，其中(-1,-1)代表左上角，(1,1)代表右下角。在该卷积下，对于输出特征映射X上的每个位置P。输出特征映射函数P如公式：

Y(Po)＝(Pn')·X(Po+Pn)

变形卷积则支持在原本的上釆样位置上，以同样大小的输出向四周自由扩散,得到不规则形状的釆样点，如公式：

R(Po)＝(Pn)-X(Po+Pn+△Pn)

因为低层卷积特征对图像的位置信息不够敏感，所以在网络结构相对靠后的，需要多尺度特征提取的网络层次上，即res9、resl7和res21层上分别增加了一层可变形的卷积网络结构。目的是为了在特征图上进行目标检测时，除了卷积结构本身对位置信息的贡献外，通过可变形卷积的方式改变釆样点的位置并学习釆样点的偏置，使得采样点位置能够随着图像内容的变化而变化。本发明应用可变形卷积网络提高了目标检测的精度，而且促进模型自己学习几何变换能力。

进一步的，本发明基于FPN(Feature Pyramid Network,FPN)网络的研究思路采用了高层特征通过上釆样和低层特征做融合，然后对每层进行独立预测的方法，追求在减少计算量的同时，更好的利用卷积神经网络下多尺度的特征图信息来精细化目标检测结果。

经过多层卷积网络的迭代运算，特征图会随着池化层的操作而逐渐变小。控制部分网络层特征的输出和输入大小一致,且分别将该部分网络定义为一个金字塔级别，然后选择每个阶段的最后一层输出作为特征图的参考。将每个等输出网络阶段的最后一残差结构的输出表示为{C3、C4、C5),对应于conv3、conv4和conv5的输出，并且输出尺度具有(52,26,13)倍关系的不同像素大小。考虑到内存占用和底层特征图含有较差的语义信息，放弃将convl、conv2层的输出包含在金字塔中。

自上而下的特征融合与横向连接：本步骤的目的是把更抽象、语义更强的高层特征图进行上取样，然后横向连接至上一层特征。通过采用最近邻上采样法或双线性插值法对高层特征做2倍的上釆样进行像素融合，在通道数方面，则可以使用1*1的卷积核保证通道大小一致性。在FPN网络中，这种特征结合的方式就是对应像素间的直接相加。

同构釆用卷积特征级联(concatenate)的方法对上采样操作后的特征进行融合。它通过增加与扩充通道数量的方式来扩展特征信息，而不是直接在像素之间进行加操作。

实际上，级联操作是信息通道的组合，这意味着图像本身的特征维数增加了。

在新增的特征中找到更多关于物体位置特征的信息。然而，直接在像素之间进行相加并不会改变特征的数量，只会向每个原始维度添加更多的信息。相比而言，特征级联的方式可以跳过这个过程(使用1*1卷积核来改变通道数，为特征图之间的像素加法做准备)，但是像素之间直接进行加操作在后续的卷积操作中可能计算量更少。最后，实验证明，级联方式效果并不比直接相加法好多少(只提高了0.02的MAP值)，但它使得网络结构更简单，更容易理解，本发明最后使用特征级联方法来构建目标检测网络。

对于残差深度网络结构，首先使用加法操作进行特征融合，通过添加1*1卷积核，生成双通道特征映射，与C4和C5层最后一层的前一层进行像素到像素的加和操作，就像FPN一样。然后尝试利用上釆样操作后的前一层与后一层C4或C5层的串联来实现特征通道级联操作。

基于FPN网络和可变形卷积网络的技巧，本发明提出多尺度特征融合与可变形卷积的目标检测网络结构，使用可变形的卷积结构代替普通的卷积操作，增加模型对物体几何形变的学习能力，还釆用多尺度特征图进行上釆样与低级特征图融合提取目标位置的技巧，增加模型对小目标物体和密集型物体的检测能力，极大改进了其它目标检测模型在检测精度与速度上的缺陷。

附图说明

图1为本发明的一种具体实施例数据处理流程图。

具体实施方式

下面结合附图，对本发明的技术方案做进一步解释说明。

本发明基于YOLO模型对视频中每一帧进行目标检测，然后在使用跟踪算法对目标框进行跟踪，使用跟踪的结果对之前的检测结果进行修正，保证了检测的准确性和鲁棒性。本发明的技术方案包括：可变形卷积网络应用到基于one－stage的目标检测网络中，用带有偏移的采样代替原来的固定位置，该偏移的偏移量可以通过最终端到端的网络训练得到，不需要额外的特定变换规律的监督。普通的卷积操作用规则的网格R在输入特征映射X上进行采样，并对w加权的采样值求和，其中网格式定义了感受野的大小和扩张。

一个扩张大小为1的3*3卷积核可以定义如公式：

R＝{(-1,-1),(-1,0)(0,1),(1,1)}

Y(Po)＝(Pn')·X(Po+Pn)

R(Po)＝(Pn)-X(Po+Pn+△Pn)

实际上，级联操作是信息通道的组合，这意味着图像本身的特征维数增加了。在新增的特征中找到更多关于物体位置特征的信息。使用特征级联方法来构建目标检测网络。

Claims

1.一种基于深度学习的流媒体视频识别与检测方法，其特征在于：将可变形卷积网络应用到基于one－stage的目标检测网络中。

2.如权利要求1所述的一种基于深度学习的流媒体视频识别与检测方法，其特征在于：用偏移的采样代替传统卷积网络的固定采用，该偏移的采样的偏移量可以通过最终端到端的网络训练得到。

3.如权利要求2所述的一种基于深度学习的流媒体视频识别与检测方法，其特征在于：还包括多尺度特征融合。

4.如权利要求3所述的一种基于深度学习的流媒体视频识别与检测方法，其特征在于：所述多尺度特征融合的方法包括：经过多层卷积网络的迭代运算，特征图会随着池化层的操作而逐渐变小，控制部分网络层特征的输出和输入大小一致,且分别将该部分网络定义为一个金字塔级别，然后选择每个阶段的最后一层输出作为特征图的参考，将每个等输出网络阶段的最后一残差结构的输出。