CN111832393A - 一种基于深度学习的视频目标检测方法与装置 - Google Patents

一种基于深度学习的视频目标检测方法与装置 Download PDF

Info

Publication number
CN111832393A
CN111832393A CN202010471931.5A CN202010471931A CN111832393A CN 111832393 A CN111832393 A CN 111832393A CN 202010471931 A CN202010471931 A CN 202010471931A CN 111832393 A CN111832393 A CN 111832393A
Authority
CN
China
Prior art keywords
target
video
features
frame
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010471931.5A
Other languages
English (en)
Other versions
CN111832393B (zh
Inventor
杨鹏
闵克祥
何大治
纪雯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202010471931.5A priority Critical patent/CN111832393B/zh
Publication of CN111832393A publication Critical patent/CN111832393A/zh
Application granted granted Critical
Publication of CN111832393B publication Critical patent/CN111832393B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing

Abstract

本发明公开了一种基于深度学习的视频目标检测方法与装置。本发明在提取帧图像特征后,利用改进的SeqtoSeq模型提取视频中的时序信息,并利用该信息提高帧图像的特征质量,在一定程度上解决目标运动模糊、视频散焦、目标姿态奇异以及遮挡等帧图像恶化现象导致的检测精度降低问题。然后,对视频中的目标关系进行建模,从目标视觉特征、位置特征和时序特征三方面挖掘视频中目标之间潜在语义关系,并通过目标关系对候选框特征进行重新编码,以此丰富候选框的特征表示。本发明不仅能够提高视频目标检测的检测精度,同时还具有优良的鲁棒性。

Description

一种基于深度学习的视频目标检测方法与装置
技术领域
本发明涉及一种基于深度学习的视频目标检测方法与装置,利用视频中的时序信息对视频帧特征进行优化,通过目标关系对候选框特征进行重新编码,能够有效提高视频目标检测算法的检测性能和鲁棒性,属于计算机视觉处理技术领域。
背景技术
随着计算机技术的进步和互联网技术的发展,计算机已经为人们处理生活中大量的图片和视频音像信息。计算机视觉已经在无人驾驶、人脸识别、医学图像处理等应用场景得到了广泛的应用。而在这些应用场景中,如智慧交通系统,无人驾驶等需要利用目标检测技术发现视频监控中出现的目标。因此,基于视频的目标检测的研究有着更大的应用需求。
传统的视频目标检测算法主要分为两种:基于光流的视频目标检测算法和基于tubelet(候选框序列)的视频目标检测算法。基于光流的视频目标检测算法有DFF、FGFA、HPVD等。基于光流的视频目标检测算法利用视频帧之间的光流图,将前后若干帧图像的特征用来提升当前帧图像的特征质量。虽然这类算法能在一定程度上缓解视频帧图像恶化等问题,但是如果想要得到较高的检测精度,需要对前后大量的帧图像进行处理,将增加神经网络中的参数量。基于tubele的视频目标检测算法包括Seq-NMS、TCN、T-CNN等,基于光流的视频目标检测算法首先利用图像目标检测器检测每帧图像,然后通过不同的方法连接相邻帧图像中同一目标的候选框并生成tubelet,最后对tubelet中的候选框重新评分,以此优化每帧的检测结果。虽然这类算法在一定程度上减少了神经网络的计算量,但是难以克服长时期遮挡等帧图像恶化问题。
深度学习是计算机视觉领域一个新的重要研究方向。其基本原理是通过采用多个变换阶段对样本数据的特征进行描述,进而得到数据的特征表示。以图像为例,深度学习通过组合低层次的样本图像特征,进而形成更加抽象的图像高层表示或特征属性。目前深度学习已经在模式识别、语音识别、图像分类等应用中取得了令人瞩目的成就。应用于视频目标检测领域中,深度学习中的循环神经网络模型能够有效处理序列特征,可以充分捕捉到潜藏在视频帧序列中的时序信息,对视频目标检测的检测性能有着极大的提升。因此,将深度学习应用到视频目标检测领域以解决传统方法难以克服的目标运动模糊、视频散焦、目标姿态奇异以及遮挡等帧图像恶化现象导致的检测精度降低的问题,是本发明的主要研究课题。
发明内容
发明目的:针对现有技术中存在的问题和不足,本发明提供一种基于深度学习的视频目标检测方法与装置,充分利用视频中的时序信息以及视频中目标间的语义关系,有效提高视频目标检测算法的鲁棒性和检测精度。
技术方案:为实现上述发明目的,本发明所提出的一种基于深度学习的视频目标检测方法,该方法首先利用视频中的时序信息对视频帧特征进行优化,有效改善因帧图像恶化而导致的检测精度下降问题,提高了视频目标检测算法的鲁棒性,然后对视频中的目标关系进行建模,并通过目标关系对候选框特征进行重新编码,以此丰富候选框的特征表示,提高模型对视频中目标的检测能力。该方法主要包括如下步骤:
(1)利用深度卷积神经网络提取视频帧图像的CNN特征;
(2)利用视频帧特征增强模块对视频帧图像的CNN特征质量进行优化;所述视频帧特征增强模块将视频帧特征增强视作视频帧序列的编解码过程,以SeqtoSeq作为基础模型并增加了时空注意力机制,提取视频中丰富的时序信息以提高视频帧的特征质量;
(3)利用视频目标关系提取模块对候选框特征进行重新编码;所述视频目标关系提取模块根据基于增强后的特征获得的目标候选框,对目标关系进行建模,计算目标视觉特征影响力、位置特征影响力和时序特征影响力并进行归一化后得到注意力权重分布,从而挖掘目标之间潜藏的语义关系,并利用目标关系对候选框的特征进行重新编码,丰富候选框的特征表示;
(4)对每个目标利用分类器和回归器获得目标的类别以及该目标在帧图像中所处的精确位置。
作为优选,所述步骤(2)中改进的SeqtoSeq模型以BiConvLSTM网络结构作为编码器,以ConvLSTM作为解码器;BiConvLSTM中对于每个隐藏层输出与输入的帧图像特征不是简单的线性聚合,而是先对特征图进行空间对齐;对齐的方式是首先利用光流网络根据隐藏层输出和帧图像特征计算出光流图,然后利用双线性插值函数,将隐藏层输出沿着光流方向传播到帧图像特征。
作为优选,所述步骤(2)中时空注意力机制的实现过程包括:首先将编码器的各个单元与解码器中的单元进行匹配,并计算编码器的各个单元对解码器中单元的影响力;然后对各个影响力利用softmax函数进行运算,得到注意力权重分布;最后对注意力权重分布进行加权求和得到注意力特征;其中在对编码器单元和解码器单元进行匹配时,同时匹配两个单元的视觉特征和时间特征,视觉特征影响力visioni,j和时间特征影响力timei,j分别通过如下公式计算得到:
visioni,j=Vi,j·ReLU(Wh·[hi,sj-1])
Figure BDA0002514560710000031
其中,hi表示编码器中第i个单元的隐藏层输出;sj-1表示解码器中第j-1个单元的隐藏层输出;Vi,j和Wh为卷积核;·表示卷积操作;ReLU表示ReLU函数;visionij为标量;T为视频帧数量;εi,j为时间特征参数。
作为优选,所述步骤(3)中采用FasterR-CNN模型中的RPN网络以及ROIPooling层获取候选框,将优化后的帧特征输入到RPN网络用于产生区域建议集合,再将区域建议集合输入到ROIPooling层中获得候选框特征集合。
作为优选,所述步骤(3)中目标j对目标i的视觉特征影响力
Figure BDA0002514560710000032
位置特征影响力
Figure BDA0002514560710000033
和时序特征影响力
Figure BDA0002514560710000034
通过如下公式计算得到:
Figure BDA0002514560710000035
Figure BDA0002514560710000036
Figure BDA0002514560710000037
其中,
Figure BDA0002514560710000038
分别为目标i和目标j的视觉特征;
Figure BDA0002514560710000039
分别为目标i和目标j的位置特征;
Figure BDA00025145607100000310
分别为目标i和目标j的时间特征;
Figure BDA00025145607100000311
表示将
Figure BDA00025145607100000312
Figure BDA00025145607100000313
变换为4维向量后编码为一个高维表示;WK,WQ为视觉特征的参数;dk为视觉特征的维度;WG为位置特征的参数;WT为时间特征的参数;dot表示矩阵点乘;*表示矩阵叉乘。
作为优选,所述步骤(3)中目标j对目标i的关系特征
Figure BDA0002514560710000041
为:
Figure BDA0002514560710000042
其中,Wv为关系特征参数矩阵;ωi,j为归一化得到注意力权重分布,根据如下公式计算:
Figure BDA0002514560710000043
其中,N表示目标个数。
作为优选,所述步骤(3)中利用目标关系对候选框的特征进行重新编码的方法为:根据如下公式将所有其他目标对于目标i的关系特征进行拼接,并与目标i的视觉特征
Figure BDA0002514560710000044
进行特征融合得到特征
Figure BDA0002514560710000045
完成对目标i的特征的重新编码:
Figure BDA0002514560710000046
基于相同的发明构思,本发明提供的一种基于深度学习的视频目标检测装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被加载至处理器时实现所述的基于深度学习的视频目标检测方法。
基于相同的发明构思,本发明还提供一种存储装置,存储有可在处理器上运行的计算机程序,所述计算机程序被加载至处理器时实现所述的基于深度学习的视频目标检测方法。
有益效果:与现有技术相比,本发明具有如下优点:
1.本发明利用视频帧特征增强模块提取视频中丰富的时序信息以提高视频帧的特征质量,能够有效改善因目标运动模糊、视频散焦、目标姿态奇异以及遮挡等帧图像恶化而导致的检测精度下降问题,提高视频目标检测算法的鲁棒性。
2.本发明视频目标关系提取模块挖掘目标之间潜藏的语义关系,并利用目标关系对候选框的特征进行重新编码,丰富候选框的特征表示。提高了视频目标检测算法的检测精度。
附图说明
图1为本发明基于深度学习的视频目标检测方法流程图。
图2为本发明涉及的视频帧特征增强模块结构图。
图3为本发明涉及的视频帧特征增强模块中Attention机制结构图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,本发明实施例公开的一种基于深度学习的视频目标检测方法,具体实施步骤如下:
步骤1,利用深度卷积神经网络抽取视频帧特征。首先将视频段中每一帧RGB三通道图像进行缩放后,固定其大小为300×300,然后将缩放后的帧图像输入到VGG-19模型中获得帧图像的特征。由于在VGG-19模型中,随着卷积层的增加,特征图中物体的特征变得越来越抽象。因此本发明选择将VGG-19的最后一个最大池化层输出作为视频帧图像的CNN特征。
步骤2,对恶化的帧图像特征利用视频特征增强模块进行特征增强。如图2所示,视频特征增强模块以SeqtoSeq作为基础模型,改进其结构,其中编码器为BiConvLSTM结构,根据输入的特征序列提取其时序信息,解码器为ConvLSTM结构,根据提取到的时序信息生成优化的帧特征。此外,视频特征增强模块还增加了时空注意力机制,通过为每个输入分配不同的注意力,提高编解码模块的帧图像特征的增强效果。该步骤实施过程分为2个子步骤:
子步骤2-1,将每帧图像的特征输入到BiConvLSTM中获得时序特征。BiConvLSTM包括正向ConvLSTM和反向ConvLSTM两部分,其中正向ConvLSTM收集前向时序信息,而反向ConvLSTM收集反向时序信息,将前后时序信息进行融合后得到时序特征。在视频帧特征序列中,不同时刻的两张特征图中的物体可能存在不同程度的位移。因此,如果利用线性聚合的方式叠加两个特征图,在叠加后的特征图中可能会显示出一条显著的轨迹,导致检测效果的降低。以正向ConvLSTM为例,在正向ConvLSTM中,对于前一个单元的隐藏层输出
Figure BDA0002514560710000051
与输入的帧图像特征并不能直接进行简单的线性聚合,而是需要先对特征图进行空间对齐。具体步骤如下:
1)对给定t时刻的帧图像特征f<t>和前一时刻隐藏层输出
Figure BDA0002514560710000052
通过如下所示的公式(1)计算光流场。
Figure BDA0002514560710000061
其中,FlowNet为光流网络,本发明采用FlowNet2.0。
2)将隐藏层
Figure BDA0002514560710000062
输出沿着光流方向,通过公式(2)所示的扭曲函数,扭曲到t时刻的帧特征。
Figure BDA0002514560710000063
其中,Wrap为双线性插值函数。该函数对特征图的每一个通道使用双线性插值,找到每个像素对齐后对应的像素值;
Figure BDA0002514560710000064
为对齐后t-1时刻的隐藏层输出特征。
3)将1时刻到n时刻的帧序列特征集合,输入到公式(3)~(8)进行正向计算,同时保存每个时刻的正向ConvLSTM的正向隐含层输出。
Figure BDA0002514560710000065
Figure BDA0002514560710000066
Figure BDA0002514560710000067
Figure BDA0002514560710000068
Figure BDA0002514560710000069
Figure BDA00025145607100000610
其中,
Figure BDA00025145607100000611
为t-1时刻经过光流图对齐后的隐藏层输出;f<t>为t时刻的输入特征;
Figure BDA00025145607100000612
分别为遗忘门、输入门、输出门、候选细胞信息的参数(卷积核);
Figure BDA00025145607100000613
分别表示正向ConvLSTM的遗忘门、输入门、输出门、候选细胞信息、当前细胞信息、隐藏层输出;·表示卷积操作;·表示元素乘法。
4)将n时刻到1时刻的帧序列特征集合,输入到公式(9)~(14)中进行反向计算,同时保存每个时刻的反向ConvLSTM的反向隐含层的输出。
Figure BDA00025145607100000614
Figure BDA00025145607100000615
Figure BDA0002514560710000071
Figure BDA0002514560710000072
Figure BDA0002514560710000073
Figure BDA0002514560710000074
其中,
Figure BDA0002514560710000075
为t+1时刻经过光流图对齐后的隐藏层输出;f<t>为t时刻的输入特征;
Figure BDA0002514560710000076
分别为遗忘门、输入门、输出门、候选细胞信息的参数(卷积核);
Figure BDA0002514560710000077
分别表示反向ConvLSTM的遗忘门、输入门、输出门、候选细胞信息、当前细胞信息、隐藏层输出。
5)将正向LSTM在t时刻的隐藏层输出特征
Figure BDA0002514560710000078
和反向LSTM在t时刻的隐藏层输出特征
Figure BDA0002514560710000079
输入到公式(15),进行特征图的空间对齐和卷积操作,获得最终的t时刻隐藏层输出ht
Figure BDA00025145607100000710
子步骤2-2,将每个时刻的时序特征输入到ConvLSTM解码器中获得各个时刻优化后的帧图像特征。传统的编码器以视频中各个帧图像的特征作为输入,学习前后各帧的时序信息后,分别生成各个时刻的隐藏层输出,并将隐藏层输出融合后生成一个维度固定的稠密特征C(最后一个隐藏层输出)。解码器将以稠密特征C作为初始状态,重新生成特征质量较强的特征序列。在这样的编解码的过程中,如果仅用一个稠密向量C,并不能完全表示所有帧的时序信息。并且在解码器生成的特征序列中,每个特征都仅和编码器的最后一个隐藏层输出状态有关。这意味着编码器输入的每帧特征对解码器生成任意一个特征的影响力相同。这显然并不合理,例如,编码器的第i帧的前后帧特征,相比于其他帧特征,对解码器的第i帧特征的生成影响更大。因此,本发明在编码器中加入了时空注意力机制,通过为每个输入分配不同的注意力,提高编解码模块的帧图像特征的增强效果。该步骤实施过程分为5个子步骤:
1)如图3所示,首先根据公式(16)计算编码器中第i个单元对解码器中第j个单元的视觉特征影响力visioni,j
visioni,j=Vi,j·ReLU(Wh·[hi,sj-1]) (16)
其中,hi表示编码器中第i个单元的隐藏层输出;sj-1表示解码器中第j-1个单元的隐藏层输出;Vi,j和Wh都为卷积核;visionij为标量;ReLU表示ReLU函数。
2)根据公式(17)计算编码器中第i个单元对解码器中第j个单元的时间特征的影响力timei,j
Figure BDA0002514560710000081
其中,T为视频帧数量;εi,j为时间特征参数。
3)根据公式(18)对视觉特征影响力和时间特征影响力进行归一化计算,可以获得编码器中第i个单元对解码器中第j个单元的注意力权重分布ai,j
Figure BDA0002514560710000082
4)将编码器中每个单元对解码器中第j个单元的注意力权重与编码器中第i个单元的隐藏层输出hi,输入到公式(19)中进行加权求和得到解码器中第j个单元的注意力特征aj
Figure BDA0002514560710000083
5)将解码器中各个单元的注意力特征输入到公式(20)和公式(21)中,可以分别计算出解码器中各个单元的隐藏层输出和输出特征。
sj=ReLU(Ws·[sj-1,yj-1,aj]) (20)
yj=ReLU(Wy·[yj-1,sj,aj]) (21)
其中,sj为解码器中第j个单元的隐藏层输出;Ws和Wy为卷积核参数;yj为解码器中第j个单元的输出特征,即第j帧优化后的特征。
步骤3,候选框特征提取;首先将优化后的帧特征输入到FasterR-CNN模型的RPN网络中得到区域建议集合;其次设置阈值剔除置信度较低的区域建议,减少区域建议的数目;然后通过非极大抑制的方法进一步减少区域建议的数目;最后将剩余的区域建议集合和优化后的帧特征一起输入到ROIPooling层得到固定大小(7×7)的候选框特征集合。
步骤4,提取目标关系,并利用目标关系对候选框的特征进行重新编码。视频中包含大量的目标对象,这些目标对象之间蕴含着丰富的语义关系,如果能够充分抽取出这些目标关系,将有助于提升目标检测的检测效果。例如,视频中出现一名篮球运动员正在作投篮动作,篮球与篮球运动员之间的空间位置关系以及隐含的语义关系,可以帮助模型根据篮球运动员的类别和位置,推断出篮球的类别以及空间位置。因此,本发明对于候选框特征并没有立刻进行分类和回归,而是对视频中的目标关系进行建模,构建了视频目标关系提取模块,挖掘出视频中目标之间潜藏的语义关系,利用视频目标之间的关系对候选框特征进行特征编码,实现目标检测算法性能的提升。
视频目标关系提取模块的基本思想是使用Attention机制为不同目标与本目标的关系分配不同的注意力,并通过将所有的目标关系进行加权实现特征的重新编码。具体的,以计算候选框(目标)i的编码后的特征为例,首先根据目标的特征计算各个目标的视觉特征。其次根据各个目标的视觉特征、位置特征、时序特征计算各个目标对目标i的视觉特征影响力、位置特征影响力以及时序特征影响力,并将三种影响力归一化得到各个目标对目标i的注意力权重分布。最后根据注意力权重分布计算各个目标对目标i的关系特征,并将各个关系特征连接后与目标i的视觉特征进行特征融合可以计算出目标重新编码后的特征。为了避免目标关系过多导致网络计算量过大,本发明每次仅对当前目标所在帧图像的前后10帧图像提取目标关系特征。该步骤实施过程分为3个子步骤:
子步骤4-1,提取目标的视觉特征;通过128个7×7的卷积核将各个目标特征转换成128维特征向量,并将该特征向量输入到256维全连接层中获得各个目标的视觉特征。
子步骤4-2,将视频中目标i和目标j的视觉特征、位置特征(ROIPooling计算得到)、时序特征(目标所在帧序号)分别输入到公式(22)~(24)中获得目标j对目标i的视觉特征影响力
Figure BDA0002514560710000091
位置特征影响力
Figure BDA0002514560710000092
和时序特征影响力
Figure BDA0002514560710000093
Figure BDA0002514560710000094
Figure BDA0002514560710000095
Figure BDA0002514560710000096
其中,
Figure BDA0002514560710000097
分别为目标i和目标j的视觉特征;
Figure BDA0002514560710000098
分别为目标i和目标j的位置特征;
Figure BDA0002514560710000099
分别为目标i和目标j的时间特征;WK,WQ为视觉特征的参数;dk为视觉特征的维度,用作归一化;WG为位置特征的参数;WT为时间特征的参数;
Figure BDA0002514560710000101
借鉴了文献(Vaswani A,Shazeer N,Parmar N,et al.Attention is all you need[C].Advances inNeural Information Processing Systems.2017:5998-6008.),先通过公式(25)进行坐标变换,将
Figure BDA0002514560710000102
Figure BDA0002514560710000103
变换为4维向量fG,然后根据公式(26)和公式(27)将fG编码为一个高维表示;dot表示矩阵点乘;*为矩阵叉乘。
Figure BDA0002514560710000104
其中,xi和yi为目标i(候选框)中心点的坐标;wi和hi分别为目标i的宽度和高度;xj和yj为目标j中心点的坐标;wj和hj分别为目标j的宽度和高度。
Figure BDA0002514560710000105
Figure BDA0002514560710000106
其中,
Figure BDA0002514560710000107
表示fG的第l个特征,
Figure BDA0002514560710000108
表示
Figure BDA0002514560710000109
对应高维向量的第2i个特征的值,
Figure BDA00025145607100001010
表示
Figure BDA00025145607100001011
对应高维向量的第2i+1个特征的值。
子步骤4-3,将视觉特征影响力
Figure BDA00025145607100001012
位置特征影响力
Figure BDA00025145607100001013
以及时序特征影响力
Figure BDA00025145607100001014
输入到公式(28)中进行归一化得到注意力权重分布ωi,j
Figure BDA00025145607100001015
其中,N表示目标个数。
子步骤4-4,将注意力权重分布ωi,j输入到公式(29)中,得到目标j对于目标i的关系特征
Figure BDA00025145607100001016
Figure BDA00025145607100001017
其中,Wv为关系特征参数矩阵。
子步骤4-5,根据公式(30),将所有其他目标对于目标i的关系特征进行拼接,并与目标i的视觉特征进行特征融合可以得到特征
Figure BDA00025145607100001018
完成对目标i的特征的重新编码。
Figure BDA00025145607100001019
步骤5,对每个目标进行分类和回归;分类器采用softmax函数,该分类器以目标的视觉特征作为输入,输出该目标类别的概率向量,回归器采用bounding box regression,该回归器以目标的位置特征作为输入,输出该目标的精确位置。首先将目标重编码后特征输入到softmax函数中计算每个目标具体属于哪个类别(如车,人等),并输出概率向量。然后对目标的检测框进行bounding box regression,获取更高精度的检测框。最后对于帧图像中存在的且能够检测出的目标使用矩形框标出,并标识其对应的类别。
基于相同的发明构思,本发明还提供一种基于深度学习的视频目标检测装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该计算机程序被加载至处理器时实现上述的基于深度学习的视频目标检测方法。
基于相同的发明构思,本发明还提供一种存储装置,存储有可在处理器上运行的计算机程序,该计算机程序被加载至处理器时实现上述的基于深度学习的视频目标检测方法。

Claims (9)

1.一种基于深度学习的视频目标检测方法,其特征在于,包括如下步骤:
(1)利用深度卷积神经网络提取视频帧图像的CNN特征;
(2)利用视频帧特征增强模块对视频帧图像的CNN特征质量进行优化;所述视频帧特征增强模块将视频帧特征增强视作视频帧序列的编解码过程,以SeqtoSeq作为基础模型并增加了时空注意力机制,提取视频中的时序信息以提高视频帧的特征质量;
(3)利用视频目标关系提取模块对候选框特征进行重新编码;所述视频目标关系提取模块根据基于增强后的特征获得的目标候选框,对目标关系进行建模,计算目标视觉特征影响力、位置特征影响力和时序特征影响力并进行归一化后得到注意力权重分布,从而挖掘目标之间潜藏的语义关系,并利用目标关系对候选框的特征进行重新编码,丰富候选框的特征表示;
(4)对每个目标利用分类器和回归器获得目标的类别以及该目标在帧图像中所处的位置。
2.根据权利要求1所述的一种基于深度学习的视频目标检测方法,其特征在于,所述步骤(2)中改进的SeqtoSeq模型以BiConvLSTM网络结构作为编码器,以ConvLSTM作为解码器;BiConvLSTM中对于每个隐藏层输出与输入的帧图像特征不是简单的线性聚合,而是先对特征图进行空间对齐;对齐的方式是首先利用光流网络根据隐藏层输出和帧图像特征计算出光流图,然后利用双线性插值函数,将隐藏层输出沿着光流方向传播到帧图像特征。
3.根据权利要求1所述的一种基于深度学习的视频目标检测方法,其特征在于,所述步骤(2)中时空注意力机制的实现过程包括:首先将编码器的各个单元与解码器中的单元进行匹配,并计算编码器的各个单元对解码器中单元的影响力;然后对各个影响力利用softmax函数进行运算,得到注意力权重分布;最后对注意力权重分布进行加权求和得到注意力特征;其中在对编码器单元和解码器单元进行匹配时,同时匹配两个单元的视觉特征和时间特征,视觉特征影响力visioni,j和时间特征影响力timei,j分别通过如下公式计算得到:
visioni,j=Vi,j·ReLU(Wh·[hi,sj-1])
Figure FDA0002514560700000011
其中,hi表示编码器中第i个单元的隐藏层输出;sj-1表示解码器中第j-1个单元的隐藏层输出;Vi,j和Wh为卷积核;·表示卷积操作;ReLU表示ReLU函数;visioni,j为标量;T为视频帧数量;εi,j为时间特征参数。
4.根据权利要求1所述的一种基于深度学习的视频目标检测方法,其特征在于,所述步骤(3)中采用FasterR-CNN模型中的RPN网络以及ROIPooling层获取候选框,将优化后的帧特征输入到RPN网络用于产生区域建议集合,再将区域建议集合输入到ROIPooling层中获得候选框特征集合。
5.根据权利要求1所述的一种基于深度学习的视频目标检测方法,其特征在于,所述步骤(3)中目标j对目标i的视觉特征影响力
Figure FDA0002514560700000021
位置特征影响力
Figure FDA0002514560700000022
和时序特征影响力
Figure FDA0002514560700000023
通过如下公式计算得到:
Figure FDA0002514560700000024
Figure FDA0002514560700000025
Figure FDA0002514560700000026
其中,
Figure FDA0002514560700000027
分别为目标i和目标j的视觉特征;
Figure FDA0002514560700000028
分别为目标i和目标j的位置特征;
Figure FDA0002514560700000029
分别为目标i和目标j的时间特征;
Figure FDA00025145607000000210
表示将
Figure FDA00025145607000000211
Figure FDA00025145607000000212
变换为4维向量后编码为一个高维表示;WK,WQ为视觉特征的参数;dk为视觉特征的维度;WG为位置特征的参数;WT为时间特征的参数;dot表示矩阵点乘;*表示矩阵叉乘;ReLU表示ReLU函数。
6.根据权利要求5所述的一种基于深度学习的视频目标检测方法,其特征在于,所述步骤(3)中目标j对目标i的关系特征
Figure FDA00025145607000000213
为:
Figure FDA00025145607000000214
其中,Wv为关系特征参数矩阵;ωi,j为归一化得到注意力权重分布,根据如下公式计算:
Figure FDA00025145607000000215
其中,N表示目标个数。
7.根据权利要求6所述的一种基于深度学习的视频目标检测方法,其特征在于,所述步骤(3)中利用目标关系对候选框的特征进行重新编码的方法为:根据如下公式将所有其他目标对于目标i的关系特征进行拼接,并与目标i的视觉特征
Figure FDA0002514560700000031
进行特征融合得到特征
Figure FDA0002514560700000032
完成对目标i的特征的重新编码:
Figure FDA0002514560700000033
8.一种基于深度学习的视频目标检测装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述计算机程序被加载至处理器时实现根据权利要求1-7任一项所述的基于深度学习的视频目标检测方法。
9.一种存储装置,存储有可在处理器上运行的计算机程序,其特征在于,所述计算机程序被加载至处理器时实现根据权利要求1-7任一项所述的基于深度学习的视频目标检测方法。
CN202010471931.5A 2020-05-29 2020-05-29 一种基于深度学习的视频目标检测方法与装置 Active CN111832393B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010471931.5A CN111832393B (zh) 2020-05-29 2020-05-29 一种基于深度学习的视频目标检测方法与装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010471931.5A CN111832393B (zh) 2020-05-29 2020-05-29 一种基于深度学习的视频目标检测方法与装置

Publications (2)

Publication Number Publication Date
CN111832393A true CN111832393A (zh) 2020-10-27
CN111832393B CN111832393B (zh) 2024-05-07

Family

ID=72914058

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010471931.5A Active CN111832393B (zh) 2020-05-29 2020-05-29 一种基于深度学习的视频目标检测方法与装置

Country Status (1)

Country Link
CN (1) CN111832393B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112464875A (zh) * 2020-12-09 2021-03-09 南京大学 一种视频中的人-物交互关系检测方法及装置
CN112734748A (zh) * 2021-01-21 2021-04-30 广东工业大学 一种肝胆管及胆道结石的图像分割系统
CN112966581A (zh) * 2021-02-25 2021-06-15 厦门大学 一种基于内外语义聚合的视频目标检测方法
CN112991281A (zh) * 2021-03-03 2021-06-18 望知科技(深圳)有限公司 视觉检测方法、系统、电子设备及介质
CN113282093A (zh) * 2021-07-21 2021-08-20 中国科学院自动化研究所 机器人导航方法、装置、电子设备及存储介质
CN113642498A (zh) * 2021-08-20 2021-11-12 浙江大学 一种基于多层次时空特征融合的视频目标检测系统及方法
CN114821654A (zh) * 2022-05-09 2022-07-29 福州大学 一种融合局部与深度的时空图网络的人手检测方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110705412A (zh) * 2019-09-24 2020-01-17 北京工商大学 一种基于运动历史图像的视频目标检测方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110705412A (zh) * 2019-09-24 2020-01-17 北京工商大学 一种基于运动历史图像的视频目标检测方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112464875A (zh) * 2020-12-09 2021-03-09 南京大学 一种视频中的人-物交互关系检测方法及装置
CN112734748A (zh) * 2021-01-21 2021-04-30 广东工业大学 一种肝胆管及胆道结石的图像分割系统
CN112734748B (zh) * 2021-01-21 2022-05-17 广东工业大学 一种肝胆管及胆道结石的图像分割系统
CN112966581A (zh) * 2021-02-25 2021-06-15 厦门大学 一种基于内外语义聚合的视频目标检测方法
CN112966581B (zh) * 2021-02-25 2022-05-27 厦门大学 一种基于内外语义聚合的视频目标检测方法
CN112991281A (zh) * 2021-03-03 2021-06-18 望知科技(深圳)有限公司 视觉检测方法、系统、电子设备及介质
CN112991281B (zh) * 2021-03-03 2023-12-12 望知科技(深圳)有限公司 视觉检测方法、系统、电子设备及介质
CN113282093A (zh) * 2021-07-21 2021-08-20 中国科学院自动化研究所 机器人导航方法、装置、电子设备及存储介质
CN113642498A (zh) * 2021-08-20 2021-11-12 浙江大学 一种基于多层次时空特征融合的视频目标检测系统及方法
CN113642498B (zh) * 2021-08-20 2024-05-03 浙江大学 一种基于多层次时空特征融合的视频目标检测系统及方法
CN114821654A (zh) * 2022-05-09 2022-07-29 福州大学 一种融合局部与深度的时空图网络的人手检测方法

Also Published As

Publication number Publication date
CN111832393B (zh) 2024-05-07

Similar Documents

Publication Publication Date Title
CN111832393B (zh) 一种基于深度学习的视频目标检测方法与装置
US11176381B2 (en) Video object segmentation by reference-guided mask propagation
CN108133188B (zh) 一种基于运动历史图像与卷积神经网络的行为识别方法
JP7147078B2 (ja) ビデオフレームの情報ラベリング方法、装置、機器及びコンピュータプログラム
US20210342643A1 (en) Method, apparatus, and electronic device for training place recognition model
CN110414344B (zh) 一种基于视频的人物分类方法、智能终端及存储介质
US20230134967A1 (en) Method for recognizing activities using separate spatial and temporal attention weights
CN111027505B (zh) 一种基于显著性检测的分层多目标跟踪方法
CN111310609B (zh) 基于时序信息和局部特征相似性的视频目标检测方法
CN110827320B (zh) 基于时序预测的目标跟踪方法和装置
Zhang et al. Modeling long-and short-term temporal context for video object detection
CN111445496B (zh) 一种水下图像识别跟踪系统及方法
Zhang et al. Unsupervised depth estimation from monocular videos with hybrid geometric-refined loss and contextual attention
US20230072445A1 (en) Self-supervised video representation learning by exploring spatiotemporal continuity
Sun et al. Adaptive image dehazing and object tracking in UAV videos based on the template updating Siamese network
Zhou et al. MSFlow: Multiscale Flow-Based Framework for Unsupervised Anomaly Detection
CN111144220B (zh) 适于大数据的人员检测方法、装置、设备和介质
Yan et al. Threshold-adaptive unsupervised focal loss for domain adaptation of semantic segmentation
CN110020688B (zh) 基于深度学习的遮挡行人检测方法
CN110852272A (zh) 行人检测方法
WO2019136591A1 (zh) 基于弱监督时空级联神经网络的显著目标检测方法及系统
CN112070075B (zh) 一种基于协同回归的人体检测方法
Huang et al. Temporally-aggregating multiple-discontinuous-image saliency prediction with transformer-based attention
Muchtar et al. Hand Gesture Recognition for Controlling Game Objects Using Two-Stream Faster Region Convolutional Neural Networks Methods
CN111611852A (zh) 一种表情识别模型的训练方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant