CN111832393A - 一种基于深度学习的视频目标检测方法与装置 - Google Patents
一种基于深度学习的视频目标检测方法与装置 Download PDFInfo
- Publication number
- CN111832393A CN111832393A CN202010471931.5A CN202010471931A CN111832393A CN 111832393 A CN111832393 A CN 111832393A CN 202010471931 A CN202010471931 A CN 202010471931A CN 111832393 A CN111832393 A CN 111832393A
- Authority
- CN
- China
- Prior art keywords
- target
- video
- features
- frame
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 53
- 238000013135 deep learning Methods 0.000 title claims abstract description 28
- 230000000007 visual effect Effects 0.000 claims abstract description 32
- 238000000034 method Methods 0.000 claims description 22
- 230000003287 optical effect Effects 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 12
- 238000013527 convolutional neural network Methods 0.000 claims description 11
- 239000013598 vector Substances 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 9
- 230000007246 mechanism Effects 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 7
- 239000000126 substance Substances 0.000 claims description 6
- 230000002123 temporal effect Effects 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 4
- 230000004927 fusion Effects 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 230000006866 deterioration Effects 0.000 abstract description 7
- 230000009467 reduction Effects 0.000 abstract description 5
- 238000004422 calculation algorithm Methods 0.000 description 14
- 238000004364 calculation method Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 102100031706 Fibroblast growth factor 1 Human genes 0.000 description 1
- 101000846416 Homo sapiens Fibroblast growth factor 1 Proteins 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
Abstract
本发明公开了一种基于深度学习的视频目标检测方法与装置。本发明在提取帧图像特征后,利用改进的SeqtoSeq模型提取视频中的时序信息,并利用该信息提高帧图像的特征质量,在一定程度上解决目标运动模糊、视频散焦、目标姿态奇异以及遮挡等帧图像恶化现象导致的检测精度降低问题。然后,对视频中的目标关系进行建模,从目标视觉特征、位置特征和时序特征三方面挖掘视频中目标之间潜在语义关系,并通过目标关系对候选框特征进行重新编码,以此丰富候选框的特征表示。本发明不仅能够提高视频目标检测的检测精度,同时还具有优良的鲁棒性。
Description
技术领域
本发明涉及一种基于深度学习的视频目标检测方法与装置,利用视频中的时序信息对视频帧特征进行优化,通过目标关系对候选框特征进行重新编码,能够有效提高视频目标检测算法的检测性能和鲁棒性,属于计算机视觉处理技术领域。
背景技术
随着计算机技术的进步和互联网技术的发展,计算机已经为人们处理生活中大量的图片和视频音像信息。计算机视觉已经在无人驾驶、人脸识别、医学图像处理等应用场景得到了广泛的应用。而在这些应用场景中,如智慧交通系统,无人驾驶等需要利用目标检测技术发现视频监控中出现的目标。因此,基于视频的目标检测的研究有着更大的应用需求。
传统的视频目标检测算法主要分为两种:基于光流的视频目标检测算法和基于tubelet(候选框序列)的视频目标检测算法。基于光流的视频目标检测算法有DFF、FGFA、HPVD等。基于光流的视频目标检测算法利用视频帧之间的光流图,将前后若干帧图像的特征用来提升当前帧图像的特征质量。虽然这类算法能在一定程度上缓解视频帧图像恶化等问题,但是如果想要得到较高的检测精度,需要对前后大量的帧图像进行处理,将增加神经网络中的参数量。基于tubele的视频目标检测算法包括Seq-NMS、TCN、T-CNN等,基于光流的视频目标检测算法首先利用图像目标检测器检测每帧图像,然后通过不同的方法连接相邻帧图像中同一目标的候选框并生成tubelet,最后对tubelet中的候选框重新评分,以此优化每帧的检测结果。虽然这类算法在一定程度上减少了神经网络的计算量,但是难以克服长时期遮挡等帧图像恶化问题。
深度学习是计算机视觉领域一个新的重要研究方向。其基本原理是通过采用多个变换阶段对样本数据的特征进行描述,进而得到数据的特征表示。以图像为例,深度学习通过组合低层次的样本图像特征,进而形成更加抽象的图像高层表示或特征属性。目前深度学习已经在模式识别、语音识别、图像分类等应用中取得了令人瞩目的成就。应用于视频目标检测领域中,深度学习中的循环神经网络模型能够有效处理序列特征,可以充分捕捉到潜藏在视频帧序列中的时序信息,对视频目标检测的检测性能有着极大的提升。因此,将深度学习应用到视频目标检测领域以解决传统方法难以克服的目标运动模糊、视频散焦、目标姿态奇异以及遮挡等帧图像恶化现象导致的检测精度降低的问题,是本发明的主要研究课题。
发明内容
发明目的:针对现有技术中存在的问题和不足,本发明提供一种基于深度学习的视频目标检测方法与装置,充分利用视频中的时序信息以及视频中目标间的语义关系,有效提高视频目标检测算法的鲁棒性和检测精度。
技术方案:为实现上述发明目的,本发明所提出的一种基于深度学习的视频目标检测方法,该方法首先利用视频中的时序信息对视频帧特征进行优化,有效改善因帧图像恶化而导致的检测精度下降问题,提高了视频目标检测算法的鲁棒性,然后对视频中的目标关系进行建模,并通过目标关系对候选框特征进行重新编码,以此丰富候选框的特征表示,提高模型对视频中目标的检测能力。该方法主要包括如下步骤:
(1)利用深度卷积神经网络提取视频帧图像的CNN特征;
(2)利用视频帧特征增强模块对视频帧图像的CNN特征质量进行优化;所述视频帧特征增强模块将视频帧特征增强视作视频帧序列的编解码过程,以SeqtoSeq作为基础模型并增加了时空注意力机制,提取视频中丰富的时序信息以提高视频帧的特征质量;
(3)利用视频目标关系提取模块对候选框特征进行重新编码;所述视频目标关系提取模块根据基于增强后的特征获得的目标候选框,对目标关系进行建模,计算目标视觉特征影响力、位置特征影响力和时序特征影响力并进行归一化后得到注意力权重分布,从而挖掘目标之间潜藏的语义关系,并利用目标关系对候选框的特征进行重新编码,丰富候选框的特征表示;
(4)对每个目标利用分类器和回归器获得目标的类别以及该目标在帧图像中所处的精确位置。
作为优选,所述步骤(2)中改进的SeqtoSeq模型以BiConvLSTM网络结构作为编码器,以ConvLSTM作为解码器;BiConvLSTM中对于每个隐藏层输出与输入的帧图像特征不是简单的线性聚合,而是先对特征图进行空间对齐;对齐的方式是首先利用光流网络根据隐藏层输出和帧图像特征计算出光流图,然后利用双线性插值函数,将隐藏层输出沿着光流方向传播到帧图像特征。
作为优选,所述步骤(2)中时空注意力机制的实现过程包括:首先将编码器的各个单元与解码器中的单元进行匹配,并计算编码器的各个单元对解码器中单元的影响力;然后对各个影响力利用softmax函数进行运算,得到注意力权重分布;最后对注意力权重分布进行加权求和得到注意力特征;其中在对编码器单元和解码器单元进行匹配时,同时匹配两个单元的视觉特征和时间特征,视觉特征影响力visioni,j和时间特征影响力timei,j分别通过如下公式计算得到:
visioni,j=Vi,j·ReLU(Wh·[hi,sj-1])
其中,hi表示编码器中第i个单元的隐藏层输出;sj-1表示解码器中第j-1个单元的隐藏层输出;Vi,j和Wh为卷积核;·表示卷积操作;ReLU表示ReLU函数;visionij为标量;T为视频帧数量;εi,j为时间特征参数。
作为优选,所述步骤(3)中采用FasterR-CNN模型中的RPN网络以及ROIPooling层获取候选框,将优化后的帧特征输入到RPN网络用于产生区域建议集合,再将区域建议集合输入到ROIPooling层中获得候选框特征集合。
其中,分别为目标i和目标j的视觉特征;分别为目标i和目标j的位置特征;分别为目标i和目标j的时间特征;表示将和变换为4维向量后编码为一个高维表示;WK,WQ为视觉特征的参数;dk为视觉特征的维度;WG为位置特征的参数;WT为时间特征的参数;dot表示矩阵点乘;*表示矩阵叉乘。
其中,Wv为关系特征参数矩阵;ωi,j为归一化得到注意力权重分布,根据如下公式计算:
其中,N表示目标个数。
作为优选,所述步骤(3)中利用目标关系对候选框的特征进行重新编码的方法为:根据如下公式将所有其他目标对于目标i的关系特征进行拼接,并与目标i的视觉特征进行特征融合得到特征完成对目标i的特征的重新编码:
基于相同的发明构思,本发明提供的一种基于深度学习的视频目标检测装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被加载至处理器时实现所述的基于深度学习的视频目标检测方法。
基于相同的发明构思,本发明还提供一种存储装置,存储有可在处理器上运行的计算机程序,所述计算机程序被加载至处理器时实现所述的基于深度学习的视频目标检测方法。
有益效果:与现有技术相比,本发明具有如下优点:
1.本发明利用视频帧特征增强模块提取视频中丰富的时序信息以提高视频帧的特征质量,能够有效改善因目标运动模糊、视频散焦、目标姿态奇异以及遮挡等帧图像恶化而导致的检测精度下降问题,提高视频目标检测算法的鲁棒性。
2.本发明视频目标关系提取模块挖掘目标之间潜藏的语义关系,并利用目标关系对候选框的特征进行重新编码,丰富候选框的特征表示。提高了视频目标检测算法的检测精度。
附图说明
图1为本发明基于深度学习的视频目标检测方法流程图。
图2为本发明涉及的视频帧特征增强模块结构图。
图3为本发明涉及的视频帧特征增强模块中Attention机制结构图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,本发明实施例公开的一种基于深度学习的视频目标检测方法,具体实施步骤如下:
步骤1,利用深度卷积神经网络抽取视频帧特征。首先将视频段中每一帧RGB三通道图像进行缩放后,固定其大小为300×300,然后将缩放后的帧图像输入到VGG-19模型中获得帧图像的特征。由于在VGG-19模型中,随着卷积层的增加,特征图中物体的特征变得越来越抽象。因此本发明选择将VGG-19的最后一个最大池化层输出作为视频帧图像的CNN特征。
步骤2,对恶化的帧图像特征利用视频特征增强模块进行特征增强。如图2所示,视频特征增强模块以SeqtoSeq作为基础模型,改进其结构,其中编码器为BiConvLSTM结构,根据输入的特征序列提取其时序信息,解码器为ConvLSTM结构,根据提取到的时序信息生成优化的帧特征。此外,视频特征增强模块还增加了时空注意力机制,通过为每个输入分配不同的注意力,提高编解码模块的帧图像特征的增强效果。该步骤实施过程分为2个子步骤:
子步骤2-1,将每帧图像的特征输入到BiConvLSTM中获得时序特征。BiConvLSTM包括正向ConvLSTM和反向ConvLSTM两部分,其中正向ConvLSTM收集前向时序信息,而反向ConvLSTM收集反向时序信息,将前后时序信息进行融合后得到时序特征。在视频帧特征序列中,不同时刻的两张特征图中的物体可能存在不同程度的位移。因此,如果利用线性聚合的方式叠加两个特征图,在叠加后的特征图中可能会显示出一条显著的轨迹,导致检测效果的降低。以正向ConvLSTM为例,在正向ConvLSTM中,对于前一个单元的隐藏层输出与输入的帧图像特征并不能直接进行简单的线性聚合,而是需要先对特征图进行空间对齐。具体步骤如下:
其中,FlowNet为光流网络,本发明采用FlowNet2.0。
3)将1时刻到n时刻的帧序列特征集合,输入到公式(3)~(8)进行正向计算,同时保存每个时刻的正向ConvLSTM的正向隐含层输出。
其中,为t-1时刻经过光流图对齐后的隐藏层输出;f<t>为t时刻的输入特征;分别为遗忘门、输入门、输出门、候选细胞信息的参数(卷积核);分别表示正向ConvLSTM的遗忘门、输入门、输出门、候选细胞信息、当前细胞信息、隐藏层输出;·表示卷积操作;·表示元素乘法。
4)将n时刻到1时刻的帧序列特征集合,输入到公式(9)~(14)中进行反向计算,同时保存每个时刻的反向ConvLSTM的反向隐含层的输出。
其中,为t+1时刻经过光流图对齐后的隐藏层输出;f<t>为t时刻的输入特征;分别为遗忘门、输入门、输出门、候选细胞信息的参数(卷积核);分别表示反向ConvLSTM的遗忘门、输入门、输出门、候选细胞信息、当前细胞信息、隐藏层输出。
子步骤2-2,将每个时刻的时序特征输入到ConvLSTM解码器中获得各个时刻优化后的帧图像特征。传统的编码器以视频中各个帧图像的特征作为输入,学习前后各帧的时序信息后,分别生成各个时刻的隐藏层输出,并将隐藏层输出融合后生成一个维度固定的稠密特征C(最后一个隐藏层输出)。解码器将以稠密特征C作为初始状态,重新生成特征质量较强的特征序列。在这样的编解码的过程中,如果仅用一个稠密向量C,并不能完全表示所有帧的时序信息。并且在解码器生成的特征序列中,每个特征都仅和编码器的最后一个隐藏层输出状态有关。这意味着编码器输入的每帧特征对解码器生成任意一个特征的影响力相同。这显然并不合理,例如,编码器的第i帧的前后帧特征,相比于其他帧特征,对解码器的第i帧特征的生成影响更大。因此,本发明在编码器中加入了时空注意力机制,通过为每个输入分配不同的注意力,提高编解码模块的帧图像特征的增强效果。该步骤实施过程分为5个子步骤:
1)如图3所示,首先根据公式(16)计算编码器中第i个单元对解码器中第j个单元的视觉特征影响力visioni,j。
visioni,j=Vi,j·ReLU(Wh·[hi,sj-1]) (16)
其中,hi表示编码器中第i个单元的隐藏层输出;sj-1表示解码器中第j-1个单元的隐藏层输出;Vi,j和Wh都为卷积核;visionij为标量;ReLU表示ReLU函数。
2)根据公式(17)计算编码器中第i个单元对解码器中第j个单元的时间特征的影响力timei,j。
其中,T为视频帧数量;εi,j为时间特征参数。
3)根据公式(18)对视觉特征影响力和时间特征影响力进行归一化计算,可以获得编码器中第i个单元对解码器中第j个单元的注意力权重分布ai,j。
4)将编码器中每个单元对解码器中第j个单元的注意力权重与编码器中第i个单元的隐藏层输出hi,输入到公式(19)中进行加权求和得到解码器中第j个单元的注意力特征aj。
5)将解码器中各个单元的注意力特征输入到公式(20)和公式(21)中,可以分别计算出解码器中各个单元的隐藏层输出和输出特征。
sj=ReLU(Ws·[sj-1,yj-1,aj]) (20)
yj=ReLU(Wy·[yj-1,sj,aj]) (21)
其中,sj为解码器中第j个单元的隐藏层输出;Ws和Wy为卷积核参数;yj为解码器中第j个单元的输出特征,即第j帧优化后的特征。
步骤3,候选框特征提取;首先将优化后的帧特征输入到FasterR-CNN模型的RPN网络中得到区域建议集合;其次设置阈值剔除置信度较低的区域建议,减少区域建议的数目;然后通过非极大抑制的方法进一步减少区域建议的数目;最后将剩余的区域建议集合和优化后的帧特征一起输入到ROIPooling层得到固定大小(7×7)的候选框特征集合。
步骤4,提取目标关系,并利用目标关系对候选框的特征进行重新编码。视频中包含大量的目标对象,这些目标对象之间蕴含着丰富的语义关系,如果能够充分抽取出这些目标关系,将有助于提升目标检测的检测效果。例如,视频中出现一名篮球运动员正在作投篮动作,篮球与篮球运动员之间的空间位置关系以及隐含的语义关系,可以帮助模型根据篮球运动员的类别和位置,推断出篮球的类别以及空间位置。因此,本发明对于候选框特征并没有立刻进行分类和回归,而是对视频中的目标关系进行建模,构建了视频目标关系提取模块,挖掘出视频中目标之间潜藏的语义关系,利用视频目标之间的关系对候选框特征进行特征编码,实现目标检测算法性能的提升。
视频目标关系提取模块的基本思想是使用Attention机制为不同目标与本目标的关系分配不同的注意力,并通过将所有的目标关系进行加权实现特征的重新编码。具体的,以计算候选框(目标)i的编码后的特征为例,首先根据目标的特征计算各个目标的视觉特征。其次根据各个目标的视觉特征、位置特征、时序特征计算各个目标对目标i的视觉特征影响力、位置特征影响力以及时序特征影响力,并将三种影响力归一化得到各个目标对目标i的注意力权重分布。最后根据注意力权重分布计算各个目标对目标i的关系特征,并将各个关系特征连接后与目标i的视觉特征进行特征融合可以计算出目标重新编码后的特征。为了避免目标关系过多导致网络计算量过大,本发明每次仅对当前目标所在帧图像的前后10帧图像提取目标关系特征。该步骤实施过程分为3个子步骤:
子步骤4-1,提取目标的视觉特征;通过128个7×7的卷积核将各个目标特征转换成128维特征向量,并将该特征向量输入到256维全连接层中获得各个目标的视觉特征。
子步骤4-2,将视频中目标i和目标j的视觉特征、位置特征(ROIPooling计算得到)、时序特征(目标所在帧序号)分别输入到公式(22)~(24)中获得目标j对目标i的视觉特征影响力位置特征影响力和时序特征影响力
其中,分别为目标i和目标j的视觉特征;分别为目标i和目标j的位置特征;分别为目标i和目标j的时间特征;WK,WQ为视觉特征的参数;dk为视觉特征的维度,用作归一化;WG为位置特征的参数;WT为时间特征的参数;借鉴了文献(Vaswani A,Shazeer N,Parmar N,et al.Attention is all you need[C].Advances inNeural Information Processing Systems.2017:5998-6008.),先通过公式(25)进行坐标变换,将和变换为4维向量fG,然后根据公式(26)和公式(27)将fG编码为一个高维表示;dot表示矩阵点乘;*为矩阵叉乘。
其中,xi和yi为目标i(候选框)中心点的坐标;wi和hi分别为目标i的宽度和高度;xj和yj为目标j中心点的坐标;wj和hj分别为目标j的宽度和高度。
其中,N表示目标个数。
其中,Wv为关系特征参数矩阵。
步骤5,对每个目标进行分类和回归;分类器采用softmax函数,该分类器以目标的视觉特征作为输入,输出该目标类别的概率向量,回归器采用bounding box regression,该回归器以目标的位置特征作为输入,输出该目标的精确位置。首先将目标重编码后特征输入到softmax函数中计算每个目标具体属于哪个类别(如车,人等),并输出概率向量。然后对目标的检测框进行bounding box regression,获取更高精度的检测框。最后对于帧图像中存在的且能够检测出的目标使用矩形框标出,并标识其对应的类别。
基于相同的发明构思,本发明还提供一种基于深度学习的视频目标检测装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该计算机程序被加载至处理器时实现上述的基于深度学习的视频目标检测方法。
基于相同的发明构思,本发明还提供一种存储装置,存储有可在处理器上运行的计算机程序,该计算机程序被加载至处理器时实现上述的基于深度学习的视频目标检测方法。
Claims (9)
1.一种基于深度学习的视频目标检测方法,其特征在于,包括如下步骤:
(1)利用深度卷积神经网络提取视频帧图像的CNN特征;
(2)利用视频帧特征增强模块对视频帧图像的CNN特征质量进行优化;所述视频帧特征增强模块将视频帧特征增强视作视频帧序列的编解码过程,以SeqtoSeq作为基础模型并增加了时空注意力机制,提取视频中的时序信息以提高视频帧的特征质量;
(3)利用视频目标关系提取模块对候选框特征进行重新编码;所述视频目标关系提取模块根据基于增强后的特征获得的目标候选框,对目标关系进行建模,计算目标视觉特征影响力、位置特征影响力和时序特征影响力并进行归一化后得到注意力权重分布,从而挖掘目标之间潜藏的语义关系,并利用目标关系对候选框的特征进行重新编码,丰富候选框的特征表示;
(4)对每个目标利用分类器和回归器获得目标的类别以及该目标在帧图像中所处的位置。
2.根据权利要求1所述的一种基于深度学习的视频目标检测方法,其特征在于,所述步骤(2)中改进的SeqtoSeq模型以BiConvLSTM网络结构作为编码器,以ConvLSTM作为解码器;BiConvLSTM中对于每个隐藏层输出与输入的帧图像特征不是简单的线性聚合,而是先对特征图进行空间对齐;对齐的方式是首先利用光流网络根据隐藏层输出和帧图像特征计算出光流图,然后利用双线性插值函数,将隐藏层输出沿着光流方向传播到帧图像特征。
3.根据权利要求1所述的一种基于深度学习的视频目标检测方法,其特征在于,所述步骤(2)中时空注意力机制的实现过程包括:首先将编码器的各个单元与解码器中的单元进行匹配,并计算编码器的各个单元对解码器中单元的影响力;然后对各个影响力利用softmax函数进行运算,得到注意力权重分布;最后对注意力权重分布进行加权求和得到注意力特征;其中在对编码器单元和解码器单元进行匹配时,同时匹配两个单元的视觉特征和时间特征,视觉特征影响力visioni,j和时间特征影响力timei,j分别通过如下公式计算得到:
visioni,j=Vi,j·ReLU(Wh·[hi,sj-1])
其中,hi表示编码器中第i个单元的隐藏层输出;sj-1表示解码器中第j-1个单元的隐藏层输出;Vi,j和Wh为卷积核;·表示卷积操作;ReLU表示ReLU函数;visioni,j为标量;T为视频帧数量;εi,j为时间特征参数。
4.根据权利要求1所述的一种基于深度学习的视频目标检测方法,其特征在于,所述步骤(3)中采用FasterR-CNN模型中的RPN网络以及ROIPooling层获取候选框,将优化后的帧特征输入到RPN网络用于产生区域建议集合,再将区域建议集合输入到ROIPooling层中获得候选框特征集合。
8.一种基于深度学习的视频目标检测装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述计算机程序被加载至处理器时实现根据权利要求1-7任一项所述的基于深度学习的视频目标检测方法。
9.一种存储装置,存储有可在处理器上运行的计算机程序,其特征在于,所述计算机程序被加载至处理器时实现根据权利要求1-7任一项所述的基于深度学习的视频目标检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010471931.5A CN111832393B (zh) | 2020-05-29 | 2020-05-29 | 一种基于深度学习的视频目标检测方法与装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010471931.5A CN111832393B (zh) | 2020-05-29 | 2020-05-29 | 一种基于深度学习的视频目标检测方法与装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111832393A true CN111832393A (zh) | 2020-10-27 |
CN111832393B CN111832393B (zh) | 2024-05-07 |
Family
ID=72914058
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010471931.5A Active CN111832393B (zh) | 2020-05-29 | 2020-05-29 | 一种基于深度学习的视频目标检测方法与装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111832393B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112464875A (zh) * | 2020-12-09 | 2021-03-09 | 南京大学 | 一种视频中的人-物交互关系检测方法及装置 |
CN112734748A (zh) * | 2021-01-21 | 2021-04-30 | 广东工业大学 | 一种肝胆管及胆道结石的图像分割系统 |
CN112966581A (zh) * | 2021-02-25 | 2021-06-15 | 厦门大学 | 一种基于内外语义聚合的视频目标检测方法 |
CN112991281A (zh) * | 2021-03-03 | 2021-06-18 | 望知科技(深圳)有限公司 | 视觉检测方法、系统、电子设备及介质 |
CN113282093A (zh) * | 2021-07-21 | 2021-08-20 | 中国科学院自动化研究所 | 机器人导航方法、装置、电子设备及存储介质 |
CN113642498A (zh) * | 2021-08-20 | 2021-11-12 | 浙江大学 | 一种基于多层次时空特征融合的视频目标检测系统及方法 |
CN114821654A (zh) * | 2022-05-09 | 2022-07-29 | 福州大学 | 一种融合局部与深度的时空图网络的人手检测方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110705412A (zh) * | 2019-09-24 | 2020-01-17 | 北京工商大学 | 一种基于运动历史图像的视频目标检测方法 |
-
2020
- 2020-05-29 CN CN202010471931.5A patent/CN111832393B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110705412A (zh) * | 2019-09-24 | 2020-01-17 | 北京工商大学 | 一种基于运动历史图像的视频目标检测方法 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112464875A (zh) * | 2020-12-09 | 2021-03-09 | 南京大学 | 一种视频中的人-物交互关系检测方法及装置 |
CN112734748A (zh) * | 2021-01-21 | 2021-04-30 | 广东工业大学 | 一种肝胆管及胆道结石的图像分割系统 |
CN112734748B (zh) * | 2021-01-21 | 2022-05-17 | 广东工业大学 | 一种肝胆管及胆道结石的图像分割系统 |
CN112966581A (zh) * | 2021-02-25 | 2021-06-15 | 厦门大学 | 一种基于内外语义聚合的视频目标检测方法 |
CN112966581B (zh) * | 2021-02-25 | 2022-05-27 | 厦门大学 | 一种基于内外语义聚合的视频目标检测方法 |
CN112991281A (zh) * | 2021-03-03 | 2021-06-18 | 望知科技(深圳)有限公司 | 视觉检测方法、系统、电子设备及介质 |
CN112991281B (zh) * | 2021-03-03 | 2023-12-12 | 望知科技(深圳)有限公司 | 视觉检测方法、系统、电子设备及介质 |
CN113282093A (zh) * | 2021-07-21 | 2021-08-20 | 中国科学院自动化研究所 | 机器人导航方法、装置、电子设备及存储介质 |
CN113642498A (zh) * | 2021-08-20 | 2021-11-12 | 浙江大学 | 一种基于多层次时空特征融合的视频目标检测系统及方法 |
CN113642498B (zh) * | 2021-08-20 | 2024-05-03 | 浙江大学 | 一种基于多层次时空特征融合的视频目标检测系统及方法 |
CN114821654A (zh) * | 2022-05-09 | 2022-07-29 | 福州大学 | 一种融合局部与深度的时空图网络的人手检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111832393B (zh) | 2024-05-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111832393B (zh) | 一种基于深度学习的视频目标检测方法与装置 | |
US11176381B2 (en) | Video object segmentation by reference-guided mask propagation | |
CN108133188B (zh) | 一种基于运动历史图像与卷积神经网络的行为识别方法 | |
JP7147078B2 (ja) | ビデオフレームの情報ラベリング方法、装置、機器及びコンピュータプログラム | |
US20210342643A1 (en) | Method, apparatus, and electronic device for training place recognition model | |
CN110414344B (zh) | 一种基于视频的人物分类方法、智能终端及存储介质 | |
US20230134967A1 (en) | Method for recognizing activities using separate spatial and temporal attention weights | |
CN111027505B (zh) | 一种基于显著性检测的分层多目标跟踪方法 | |
CN111310609B (zh) | 基于时序信息和局部特征相似性的视频目标检测方法 | |
CN110827320B (zh) | 基于时序预测的目标跟踪方法和装置 | |
Zhang et al. | Modeling long-and short-term temporal context for video object detection | |
CN111445496B (zh) | 一种水下图像识别跟踪系统及方法 | |
Zhang et al. | Unsupervised depth estimation from monocular videos with hybrid geometric-refined loss and contextual attention | |
US20230072445A1 (en) | Self-supervised video representation learning by exploring spatiotemporal continuity | |
Sun et al. | Adaptive image dehazing and object tracking in UAV videos based on the template updating Siamese network | |
Zhou et al. | MSFlow: Multiscale Flow-Based Framework for Unsupervised Anomaly Detection | |
CN111144220B (zh) | 适于大数据的人员检测方法、装置、设备和介质 | |
Yan et al. | Threshold-adaptive unsupervised focal loss for domain adaptation of semantic segmentation | |
CN110020688B (zh) | 基于深度学习的遮挡行人检测方法 | |
CN110852272A (zh) | 行人检测方法 | |
WO2019136591A1 (zh) | 基于弱监督时空级联神经网络的显著目标检测方法及系统 | |
CN112070075B (zh) | 一种基于协同回归的人体检测方法 | |
Huang et al. | Temporally-aggregating multiple-discontinuous-image saliency prediction with transformer-based attention | |
Muchtar et al. | Hand Gesture Recognition for Controlling Game Objects Using Two-Stream Faster Region Convolutional Neural Networks Methods | |
CN111611852A (zh) | 一种表情识别模型的训练方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |