CN109583340A - 一种基于深度学习的视频目标检测方法 - Google Patents

一种基于深度学习的视频目标检测方法 Download PDF

Info

Publication number
CN109583340A
CN109583340A CN201811374255.9A CN201811374255A CN109583340A CN 109583340 A CN109583340 A CN 109583340A CN 201811374255 A CN201811374255 A CN 201811374255A CN 109583340 A CN109583340 A CN 109583340A
Authority
CN
China
Prior art keywords
frame
network
time
characteristic pattern
key frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811374255.9A
Other languages
English (en)
Other versions
CN109583340B (zh
Inventor
郑慧诚
罗子泉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Sun Yat Sen University
Original Assignee
National Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Sun Yat Sen University filed Critical National Sun Yat Sen University
Priority to CN201811374255.9A priority Critical patent/CN109583340B/zh
Publication of CN109583340A publication Critical patent/CN109583340A/zh
Application granted granted Critical
Publication of CN109583340B publication Critical patent/CN109583340B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/269Analysis of motion using gradient-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]

Abstract

本发明公开了一种基于深度学习的视频目标检测方法,应用于视频目标检测领域。方法利用卷积神经网络进行图像特征的提取,提出了时间‑空间特征提取网络,用于提取视频的空间上下文和时间上下文信息,并将图像特征与时间、空间上下文信息融合,更新骨干网络输出的特征图,最后将所得特征图输入检测网络,得到最终的检测结果,兼顾了目标检测的准确性和实时性。这种方法有效的提升了检测的准确性和实时性。

Description

一种基于深度学习的视频目标检测方法
技术领域
本发明涉及目标检测领域,更具体地,涉及一种基于深度学习的视频目标检测方法。
背景技术
近年来,深度学习在计算机视觉领域取得了前所未有的突破,通过多层神经网络的结构,整合图像的整体信息,从更高、更抽象的层次对图像特征进行表达。当前,基于卷积神经网络(CNN)的深度学习模型被广泛应用在目标检测当中,并被证明具有优于传统手工特征方法的效果。
当前,目标检测方式主要分为两大类:一类是基于手工特征提取的目标检测方法,另一类是基于深度学习特征提取的目标检测方法。典型的手工特征包括了形状、轮廓信息等,也可以是具有统计特性的Haar特征、Hog特征等。这些特征能够在一定程度上描述图像,结合传统的有监督机器学习分类器,在某些任务上能够满足检测需要。然而现有的技术存在以下缺陷:(1)基于人工设计的特征提取方法通常需要相关领域知识或大量统计数据,因而需要极大的研究成本;另外,手工特征的泛化能力较弱,一定程度上影响其准确性。(2)基于深度学习的特征提取方法计算量一般较为巨大,妨碍了实际场景中的应用。(3)当前目标检测研究更为注重静态图像的检测,在视频上仅利用视频的冗余信息,对检测结果进行后处理,或利用光流重新计算特征,没有充分融合视频的时间、空间上下文信息,因此兼顾准确率和实时性的视频目标检测仍是目前相关研究和应用的重要挑战。
发明内容
本发明为克服上述现有技术所述的至少一种缺陷,提供一种更加准确和实时的基于深度学习的视频目标检测方法。
为解决上述技术问题,本发明的技术方案如下:一种更加准确和实时的基于深度学习的视频目标检测方法,包括以下步骤:
S1:归一化训练图像尺寸,以及初始化骨干网络、时间-空间特征提取网络和检测网络的参数;
S2:将训练图像数据输入到包含骨干网络、时间-空间特征提取网络以及检测网络的检测器中进行训练并更新检测器参数;
S3:将待检测视频输入到检测器进行目标检测并输出最终的预测框以及分类结果。
本发明利用骨干网络进行图像特征的提取,主要通过时间-空间特征提取网络,用于提取视频的空间上下文和时间上下文信息,并将图像特征与时间、空间上下文信息融合,更新骨干网络输出的特征图,最后将所得特征图输入检测网络,得到最终的检测结果。
优选地,步骤S1中的训练图像统一归一化为同样像素大小的图像。
优选地,步骤S2将训练图像数据输入到包含骨干网络、时间-空间特征提取网络以及检测网络的检测器中进行训练并更新检测器参数的具体步骤为:
S21:选取同一视频相距n帧内的两帧图像作为训练样本,将两帧图像中的前一帧作为参考帧Ik,后一帧作为预测帧Ii
S22:将参考帧Ik作为输入,经过骨干网络Nfeat,提取图像特征,输出对应的参考帧特征图fk,其公式表示如下:
fk=Nfeat(Ik)
S23:将参考帧和预测帧同时输入时间-空间特征提取网络Ntime-space,得到帧间的光流信息Ti,k和空间显著度概率图Si,k,其公式表示如下:
Ti,k,Si,k=Ntime-space(Ii,Ik);
S24:利用光流信息和参考帧的特征图,通过双线性插值的方法生成预测帧的初始特征图fi′,再与空间显著度概率图做基于元素的相乘,作为预测帧最终的特征图fi,其公式表示如下:
fi′=Bilinear(fk,Ti,k)
其中Bilinear表示双线性插值处理;
S25:将特征图fi,经过检测网络Ndet,输出最终的检测结果y:
y=Ndet(fi);
S26:结合检测结果和真实的标注信息,计算损失函数,并通过随机梯度下降法分别更新骨干网络、时间-空间特征提取网络以及检测网络的参数。
优选地,步骤S3将待检测视频输入到检测器进行目标检测并输出最终的预测框以及分类结果的具体步骤为:
S31:处理待检测视频,按固定间隔d选取关键帧,即每隔d帧选取1个关键帧,其余为非关键帧;
S32:输入视频首帧I0,记作最初的关键帧,即Ik=I0,将其输入到骨干网络中得到f0,将f0作为关键帧的特征图,即fk=f0,将其输入到检测网络中得到检测结果y0
S33:依次处理视频中的每一帧,若当前帧Ii为关键帧,将其输入到骨干网络中得到fi′,通过时间-空间特征提取网络更新特征图得到fi,再将其输入到检测网络中得到检测结果yi,最后更新参考关键帧及其特征图信息,使Ik=Ii,fk=fi′;
S34:若当前帧Ii为非关键帧,将其与关键帧Ik输入到时间-空间特征提取网络得到帧间的光流信息Ti,k和空间显著度概率图Si,k,利用光流信息对关键帧的特征图进行双线性插值,得到当前帧特征图fi′,再利用空间信息更新当前帧特征图得到fi,最后将其输入到检测网络中得到检测结果yi
优选地,所述的骨干网络采用了ResNet-101模型,包括若干个卷积层和池化层,用于提取关键帧的图像特征。
优选地,所述的时间-空间特征提取网络包括主干部分、空间特征提取分支和时间特征提取分支;主干部分以关键帧和当前帧在RGB通道拼接后的图像作为输入,主干部分包括若干个卷积层,并且通过若干个卷积层提取帧间不同层次的特征信息,空间特征提取分支和时间特征提取分支共享这若干个卷积层的参数。
优选地,所述主干部分包括6个卷积层,分别是conv1、conv2、conv3、conv3_1、conv4、conv4_1,其中conv1的卷积核尺寸为7×7,conv2、conv3的卷积核尺寸为5×5,conv3_1、conv4、conv4_1的卷积核尺寸为3×3。
优选地,空间特征提取分支包括conv8、通道池化和Si,k,该网络以主干部分提取的特征图作为输入,经过1个卷积层和通道池化后得到空间显著度概率图Si,k,其中conv8卷积核大小为3×3,移动步长为1;
优选地,时间特征提取分支包括卷积层conv5、conv5_1、conv6、conv7,反卷积层deconv1、deconv2;该网络以主干部分提取的特征图作为输入,经过卷积层和反卷积层后,输出与特征图同样大小,通道数为2的光流图像,表示当前图像特征在关键帧特征图x、y轴上的迁移信息;其中卷积层conv5、conv5_1、conv6、conv7的卷积核大小都是3×3,conv5_1和conv7的卷积核移动步长为1,conv5,conv6的卷积核移动步长为2;反卷积层deconv1和deconv2,卷积核大小为4×4,移动步长为2。
与现有技术相比,本发明技术方案的有益效果是:首先本发明合理地利用了视频的空间上下文信息,提出了空间显著度的概念,提升了检测的准确率;其次,设计了时间-空间特征提取网络,高效地提取了邻近帧存在的上下文信息,时间上下文特征和空间上下文特征共同训练,共享参数,有效控制了神经网络模型的大小,兼顾了目标检测的准确性和实时性。
附图说明
图1为本发明流程图。
图2为本发明中目标检测流程示意图。
图3为本发明骨干网络以及时间-空间特征提取网络示意图。
图4卷积神经网络整体结构示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
如图1所示的流程图,本发明的步骤包括:
S1:将训练图像统一归一化到600×1000像素大小,并初始化卷积神经网络的参数;
S2:训练骨干网络、时间-空间特征提取网络以及检测网络;
S21:随机选取同一视频相距n帧内的两帧图像作为训练样本,在本发明具体实施例中n取10,由于在训练中不存在关键帧和非关键帧的概念,训练中将两帧图像中的前一帧作为参考帧Ik,后一帧作为预测帧Ii
S22:将参考帧Ik作为输入,经过骨干网络Nfeat,提取图像特征,输出对应的参考帧特征图fk,其公式表示如下:
fk=Nfeat(Ik)
S23:将参考帧和预测帧图像同时输入时间-空间特征提取网络Ntime-space,得到帧间的光流信息Ti,k和空间显著度概率图Si,k,分别代表时间维度和空间维度的信息,其公式表示如下:
Ti,k,Si,k=Ntime-space(Ii,Ik);
S24:利用光流信息和参考帧的特征图,通过双线性插值的方法生成预测帧的初始特征图fi′,再与空间显著度概率图做基于元素的相乘,作为预测帧最终的特征图fi,其公式表示如下:
fi′=Bilinear(fk,Ti,k)
其中Bilinear表示双线性插值处理;
S25:将特征图fi,经过检测网络Ndet,输出最终的检测结果y:
y=Ndet(fi);
S26:结合检测结果和真实的标注信息,计算损失函数,并通过随机梯度下降法分别更新骨干网络、时间-空间特征提取网络以及检测网络的参数。
S3:对待检测视频进行目标检测并输出最终的预测框以及分类结果,其具体步骤如图2所示。
S31:处理待检测视频,按固定间隔d选取关键帧,即每隔d帧选取1个关键帧,其余为非关键帧;
S32:输入视频首帧I0,记作最初的关键帧,即Ik=I0,将其输入到骨干网络中得到f0,将f0作为关键帧的特征图,即fk=f0,将其输入到检测网络中得到检测结果y0,其中首帧不做时间-空间特征提取;
S33:依次处理视频中的每一帧,若当前帧Ii为关键帧,将其输入到骨干网络中得到fi′,通过时间-空间特征提取网络更新特征图得到fi,再将其输入到检测网络中得到检测结果yi,最后更新参考关键帧及其特征图信息,使Ik=Ii,fk=fi′;
S34:若当前帧Ii为非关键帧,将其与关键帧Ik输入到时间-空间特征提取网络得到帧间的光流信息Ti,k和空间显著度概率图Si,k,利用光流信息对关键帧的特征图进行双线性插值,得到当前帧特征图fi′,再利用空间信息更新当前帧特征图得到fi,最后将其输入到检测网络中得到检测结果yi
在具体实施过程中,首先将视频图像分为了关键帧和非关键帧两类。对于关键帧,首先将图像输入到骨干网络中,然后将此关键帧和前一张关键帧输入时间-空间特征提取网络,从空间特征提取分支中得到空间显著度概率图,与原特征图做基于元素(element-wise)的乘法,突显特征图中的关键区域,并抑制次要特征区域;对于非关键帧,其特征图由关键帧的特征图和时间-空间特征提取网络中的时间特征提取分支得到的光流信息生成,此举有效提高了检测的速度。最后通过基于区域建议网络(RPN)模型进行候选框提取,通过区域全卷积(RFCN)模型输出最终的检测分类结果。为了减少网络模型的参数,时间上下文特征和空间上下文特征的提取会共享同一个网络,其卷积神经网络整体结构如图4所示。
时间-空间特征提取网络包括主干部分、空间特征提取分支和时间特征提取分支。主干部分包括了图3中从conv1到conv4_1的6个卷积层,为时间特征提取分支和空间特征提取分支共享参数的部分,该部分将关键帧和当前帧的RGB通道拼接(concat)后的图像作为输入,通过卷积层提取帧间不同层次的特征信息。其中conv1,conv2,conv3,conv4四个卷积层的卷积核移动步长为2,除了特征提取的作用之外,也起到了下采样的效果。由于浅层特征一般具有较大的空间相关性,因此,在前期的卷积层中,会选取感受野更大的卷积核,本发明中conv1中卷积核尺寸为7×7,conv2、conv3为5×5。其余3个卷积层的卷积核大小均为3×3。
空间特征提取分支包括了图3中的conv8、通道池化和Si,k。该分支以主干部分输出的特征图作为输入,经过1个卷积层和通道池化后,输出与特征图同样大小,通道数为1的空间显著度概率图,表示特征在不同位置的重要程度,其中卷积层conv8卷积核大小为3×3,移动步长为1。该概率图会与骨干网络形成得到的特征图做基于元素的乘法,得到带有邻近帧空间信息的特征图。另外,通道池化的具体操作是对特征图同一位置的所有通道值进行平均,类似于池化,故称作通道池化,可用以下公式表示,其中C为特征图的通道数,gx,y,c的为特征图在横纵坐标x、y、通道c的数值:
时间特征提取分支包括了图3中未提及的其余部分。该分支以主干部分输出的特征图作为输入,经过卷积层和反卷积层后,输出与特征图同样大小,通道数为2的光流图像,表示当前图像特征在关键帧特征图x、y轴上的迁移信息。其中卷积层卷积核大小均为3×3,conv5,conv6的卷积核移动步长为2,其余卷积核移动步长为1。对于反卷积层,卷积核大小为4×4,移动步长为2,起到特征上采样的作用。形成的光流图像连同关键帧的特征图,用于非关键帧特征图的生成。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (10)

1.一种基于深度学习的视频目标检测方法,其特征在于:包括以下步骤:
S1:归一化训练图像尺寸,以及初始化骨干网络、时间-空间特征提取网络和检测网络的参数;
S2:将训练图像数据输入到包含骨干网络、时间-空间特征提取网络以及检测网络的检测器中进行训练并更新检测器参数;
S3:将待检测视频输入到检测器进行目标检测并输出最终的预测框以及分类结果。
2.根据权利要求1所述的一种基于深度学习的视频目标检测方法,其特征在于:步骤S1中的训练图像统一归一化为同样像素大小的图像。
3.根据权利要求1所述的一种基于深度学习的视频目标检测方法,其特征在于:步骤S2将训练图像数据输入到包含骨干网络、时间-空间特征提取网络以及检测网络的检测器中进行训练并更新检测器参数的具体步骤为:
S21:选取同一视频相距n帧内的两帧图像作为训练样本,将两帧图像中的前一帧作为参考帧Ik,后一帧作为预测帧Ii
S22:将参考帧Ik作为输入,经过骨干网络Nfeat,提取图像特征,输出对应的参考帧特征图fk,其公式表示如下:
fk=Nfeat(Ik)
S23:将参考帧和预测帧同时输入时间-空间特征提取网络Ntime-space,得到帧间的光流信息Ti,k和空间显著度概率图Si,k,其公式表示如下:
Ti,k,Si,k=Ntime-space(Ii,Ik);
S24:利用光流信息和参考帧的特征图,通过双线性插值的方法生成预测帧的初始特征图fi′,再与空间显著度概率图做基于元素的相乘,作为预测帧最终的特征图fi,其公式表示如下:
fi′=Bilinear(fk,Ti,k)
其中Bilinear表示双线性插值处理;
S25:将特征图fi,经过检测网络Ndet,输出最终的检测结果y:
y=Ndet(fi);
S26:结合检测结果和真实的标注信息,计算损失函数,并通过随机梯度下降法分别更新骨干网络、时间-空间特征提取网络以及检测网络的参数。
4.根据权利要求1所述的一种基于深度学习的视频目标检测方法,其特征在于:步骤S3将待检测视频输入到检测器进行目标检测并输出最终的预测框以及分类结果的具体步骤为:
S31:处理待检测视频,按固定间隔d选取关键帧,即每隔d帧选取1个关键帧,其余为非关键帧;
S32:输入视频首帧I0,记作最初的关键帧,即Ik=I0,将其输入到骨干网络中得到f0,将f0作为关键帧的特征图,即fk=f0,将其输入到检测网络中得到检测结果y0
S33:依次处理视频中的每一帧,若当前帧Ii为关键帧,将其输入到骨干网络中得到fi′,通过时间-空间特征提取网络更新特征图得到fi,再将其输入到检测网络中得到检测结果yi,最后更新参考关键帧及其特征图信息,使Ik=Ii,fk=fi′;
S34:若当前帧Ii为非关键帧,将其与关键帧Ik输入到时间-空间特征提取网络得到帧间的光流信息Ti,k和空间显著度概率图Si,k,利用光流信息对关键帧的特征图进行双线性插值,得到当前帧特征图fi′,再利用空间信息更新当前帧特征图得到fi,最后将其输入到检测网络中得到检测结果yi
5.根据权利要求4所述的一种基于深度学习的视频目标检测方法,其特征在于:步骤S32中首帧不做时间-空间特征提取。
6.根据权利要求4所述的一种基于深度学习的视频目标检测方法,其特征在于:所述的骨干网络采用了ResNet-101模型,包括若干个卷积层和池化层,用于提取关键帧的图像特征。
7.根据权利要求4所述的一种基于深度学习的视频目标检测方法,其特征在于:所述的时间-空间特征提取网络包括主干部分、空间特征提取分支和时间特征提取分支;
主干部分以关键帧和当前帧在RGB通道拼接后的图像作为输入,主干部分包括若干个卷积层,并且通过若干个卷积层提取帧间不同层次的特征信息,空间特征提取分支和时间特征提取分支共享这若干个卷积层的参数。
8.根据权利要求7所述的一种基于深度学习的视频目标检测方法,其特征在于:所述的主干部分包括6个卷积层,分别是conv1、conv2、conv3、conv3_1、conv4、conv4_1,其中conv1的卷积核尺寸为7×7,conv2、conv3的卷积核尺寸为5×5,conv3_1、conv4、conv4_1的卷积核尺寸为3×3。
9.根据权利要求7所述的一种基于深度学习的视频目标检测方法,其特征在于:所述的空间特征提取分支包括conv8、通道池化和Si,k,该网络以骨干网络提取的特征图作为输入,经过1个卷积层和通道池化后得到空间显著度概率图Si,k,其中conv8卷积核大小为3×3,移动步长为1。
10.根据权利要求7所述的一种基于深度学习的视频目标检测方法,其特征在于:所述的时间特征提取分支包括卷积层conv5、conv5_1、conv6、conv7,反卷积层deconv1、deconv2;该网络以骨干网络提取的特征图作为输入,经过卷积层和反卷积层后,输出与特征图同样大小,通道数为2的光流图像,表示当前图像特征在关键帧特征图x、y轴上的迁移信息;其中卷积层conv5、conv5_1、conv6、conv7的卷积核大小都是3×3,conv5_1和conv7的卷积核移动步长为1,conv5,conv6的卷积核移动步长为2;反卷积层deconv1和deconv2,卷积核大小为4×4,移动步长为2。
CN201811374255.9A 2018-11-15 2018-11-15 一种基于深度学习的视频目标检测方法 Active CN109583340B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811374255.9A CN109583340B (zh) 2018-11-15 2018-11-15 一种基于深度学习的视频目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811374255.9A CN109583340B (zh) 2018-11-15 2018-11-15 一种基于深度学习的视频目标检测方法

Publications (2)

Publication Number Publication Date
CN109583340A true CN109583340A (zh) 2019-04-05
CN109583340B CN109583340B (zh) 2022-10-14

Family

ID=65923012

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811374255.9A Active CN109583340B (zh) 2018-11-15 2018-11-15 一种基于深度学习的视频目标检测方法

Country Status (1)

Country Link
CN (1) CN109583340B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110046568A (zh) * 2019-04-11 2019-07-23 中山大学 一种基于时间感知结构的视频动作识别方法
CN110222595A (zh) * 2019-05-20 2019-09-10 中国科学院大学 一种基于时空卷积神经网络的视频目标分割方法
CN110263809A (zh) * 2019-05-16 2019-09-20 华南理工大学 池化特征图处理方法、目标检测方法、系统、装置和介质
CN110287927A (zh) * 2019-07-01 2019-09-27 西安电子科技大学 基于深度多尺度和上下文学习的遥感影像目标检测方法
CN110348356A (zh) * 2019-07-03 2019-10-18 北京遥感设备研究所 一种基于深度光流网络的连续帧rd图像目标识别方法
CN111144376A (zh) * 2019-12-31 2020-05-12 华南理工大学 视频目标检测特征提取方法
CN111160085A (zh) * 2019-11-19 2020-05-15 天津中科智能识别产业技术研究院有限公司 一种人体图像关键点姿态估计方法
CN111460971A (zh) * 2020-03-27 2020-07-28 北京百度网讯科技有限公司 视频概念检测方法、装置以及电子设备
CN111882555A (zh) * 2020-08-07 2020-11-03 中国农业大学 基于深度学习的网衣检测方法、装置、设备及存储介质
CN112348116A (zh) * 2020-11-30 2021-02-09 长沙理工大学 利用空间上下文的目标检测方法、装置和计算机设备
CN112738647A (zh) * 2020-12-28 2021-04-30 中山大学 一种基于多层级编码-解码器的视频描述方法及系统
CN113284155A (zh) * 2021-06-08 2021-08-20 京东数科海益信息科技有限公司 视频目标分割方法、装置、存储介质及电子设备
CN113628245A (zh) * 2021-07-12 2021-11-09 中国科学院自动化研究所 多目标跟踪方法、装置、电子设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101577824A (zh) * 2009-06-12 2009-11-11 西安理工大学 基于邻近i帧dc图像相似度的压缩域关键帧提取方法
CN102629385A (zh) * 2012-02-28 2012-08-08 中山大学 一种基于多摄像机信息融合的目标匹配与跟踪系统及方法
CN102682302A (zh) * 2012-03-12 2012-09-19 浙江工业大学 一种基于关键帧的多特征融合的人体姿态识别方法
EP2511878A1 (en) * 2011-04-12 2012-10-17 Samsung Medison Co., Ltd. Providing three-dimensional ultrasound image based on three-dimensional color reference table in ultrasound system
CN107273870A (zh) * 2017-07-07 2017-10-20 郑州航空工业管理学院 一种监控场景下融合上下文信息的行人位置检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101577824A (zh) * 2009-06-12 2009-11-11 西安理工大学 基于邻近i帧dc图像相似度的压缩域关键帧提取方法
EP2511878A1 (en) * 2011-04-12 2012-10-17 Samsung Medison Co., Ltd. Providing three-dimensional ultrasound image based on three-dimensional color reference table in ultrasound system
CN102629385A (zh) * 2012-02-28 2012-08-08 中山大学 一种基于多摄像机信息融合的目标匹配与跟踪系统及方法
CN102682302A (zh) * 2012-03-12 2012-09-19 浙江工业大学 一种基于关键帧的多特征融合的人体姿态识别方法
CN107273870A (zh) * 2017-07-07 2017-10-20 郑州航空工业管理学院 一种监控场景下融合上下文信息的行人位置检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HUICHENG ZHENG.ET AL: "Learning nonlinear manifolds based on mixtures of localized linear manifolds under a self-organizing framework", 《NEUROCOMPUTING》 *
郑慧诚,沈伟: "一种局部化的线性流形自组织映射", 《自动化学报》 *

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110046568A (zh) * 2019-04-11 2019-07-23 中山大学 一种基于时间感知结构的视频动作识别方法
CN110046568B (zh) * 2019-04-11 2022-12-06 中山大学 一种基于时间感知结构的视频动作识别方法
CN110263809A (zh) * 2019-05-16 2019-09-20 华南理工大学 池化特征图处理方法、目标检测方法、系统、装置和介质
CN110263809B (zh) * 2019-05-16 2022-12-16 华南理工大学 池化特征图处理方法、目标检测方法、系统、装置和介质
CN110222595A (zh) * 2019-05-20 2019-09-10 中国科学院大学 一种基于时空卷积神经网络的视频目标分割方法
CN110287927B (zh) * 2019-07-01 2021-07-27 西安电子科技大学 基于深度多尺度和上下文学习的遥感影像目标检测方法
CN110287927A (zh) * 2019-07-01 2019-09-27 西安电子科技大学 基于深度多尺度和上下文学习的遥感影像目标检测方法
CN110348356A (zh) * 2019-07-03 2019-10-18 北京遥感设备研究所 一种基于深度光流网络的连续帧rd图像目标识别方法
CN111160085A (zh) * 2019-11-19 2020-05-15 天津中科智能识别产业技术研究院有限公司 一种人体图像关键点姿态估计方法
CN111144376A (zh) * 2019-12-31 2020-05-12 华南理工大学 视频目标检测特征提取方法
CN111144376B (zh) * 2019-12-31 2023-12-05 华南理工大学 视频目标检测特征提取方法
CN111460971A (zh) * 2020-03-27 2020-07-28 北京百度网讯科技有限公司 视频概念检测方法、装置以及电子设备
CN111460971B (zh) * 2020-03-27 2023-09-12 北京百度网讯科技有限公司 视频概念检测方法、装置以及电子设备
CN111882555A (zh) * 2020-08-07 2020-11-03 中国农业大学 基于深度学习的网衣检测方法、装置、设备及存储介质
CN111882555B (zh) * 2020-08-07 2024-03-12 中国农业大学 基于深度学习的网衣检测方法、装置、设备及存储介质
CN112348116A (zh) * 2020-11-30 2021-02-09 长沙理工大学 利用空间上下文的目标检测方法、装置和计算机设备
CN112348116B (zh) * 2020-11-30 2024-02-02 长沙理工大学 利用空间上下文的目标检测方法、装置和计算机设备
CN112738647A (zh) * 2020-12-28 2021-04-30 中山大学 一种基于多层级编码-解码器的视频描述方法及系统
CN113284155A (zh) * 2021-06-08 2021-08-20 京东数科海益信息科技有限公司 视频目标分割方法、装置、存储介质及电子设备
CN113284155B (zh) * 2021-06-08 2023-11-07 京东科技信息技术有限公司 视频目标分割方法、装置、存储介质及电子设备
CN113628245A (zh) * 2021-07-12 2021-11-09 中国科学院自动化研究所 多目标跟踪方法、装置、电子设备和存储介质
CN113628245B (zh) * 2021-07-12 2023-10-31 中国科学院自动化研究所 多目标跟踪方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN109583340B (zh) 2022-10-14

Similar Documents

Publication Publication Date Title
CN109583340A (zh) 一种基于深度学习的视频目标检测方法
CN109711316B (zh) 一种行人重识别方法、装置、设备及存储介质
CN106157319B (zh) 基于卷积神经网络的区域和像素级融合的显著性检测方法
CN105760835B (zh) 一种基于深度学习的步态分割与步态识别一体化方法
CN109117876B (zh) 一种稠密小目标检测模型构建方法、模型及检测方法
CN107609525B (zh) 基于剪枝策略构建卷积神经网络的遥感图像目标检测方法
CN109271960A (zh) 一种基于卷积神经网络的人数统计方法
CN107657249A (zh) 多尺度特征行人重识别的方法、装置、存储介质及处理器
CN104992223A (zh) 基于深度学习的密集人数估计方法
CN108492319A (zh) 基于深度全卷积神经网络的运动目标检测方法
CN110188239A (zh) 一种基于跨模态注意力机制的双流视频分类方法和装置
CN110674704A (zh) 一种基于多尺度扩张卷积网络的人群密度估计方法及装置
CN110378288A (zh) 一种基于深度学习的多级时空运动目标检测方法
CN111160533A (zh) 一种基于跨分辨率知识蒸馏的神经网络加速方法
CN108846473A (zh) 基于方向和尺度自适应卷积神经网络的光场深度估计方法
CN108961675A (zh) 基于卷积神经网络的跌倒检测方法
CN108491766B (zh) 一种端到端的基于深度决策森林的人群计数方法
CN110852316A (zh) 一种采用密集结构卷积网络的图像篡改检测和定位方法
CN109886159B (zh) 一种非限定条件下的人脸检测方法
CN112990077B (zh) 基于联合学习与光流估计的面部动作单元识别方法及装置
CN107633226A (zh) 一种人体动作跟踪识别方法及系统
CN109919032A (zh) 一种基于动作预测的视频异常行为检测方法
CN112101207B (zh) 一种目标跟踪方法、装置、电子设备及可读存储介质
CN110334589A (zh) 一种基于空洞卷积的高时序3d神经网络的动作识别方法
CN110826379A (zh) 一种基于特征复用与YOLOv3的目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant