CN110705412A - 一种基于运动历史图像的视频目标检测方法 - Google Patents
一种基于运动历史图像的视频目标检测方法 Download PDFInfo
- Publication number
- CN110705412A CN110705412A CN201910901854.XA CN201910901854A CN110705412A CN 110705412 A CN110705412 A CN 110705412A CN 201910901854 A CN201910901854 A CN 201910901854A CN 110705412 A CN110705412 A CN 110705412A
- Authority
- CN
- China
- Prior art keywords
- video
- motion history
- history image
- network
- motion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于运动历史图像的视频目标检测方法,目的是提高视频目标检测的速度和准确性。所述方法包括三个方面:(1)针对输入的视频帧序列,计算其运动历史图像,并通过残差网络对视频帧及其运动历史图像进行特征提取;(2)将提取到的两部分特征进行融合,输入到卷积神经网络中进行候选框的提取操作;(3)根据边界框回归算法以及构建的分类器得到视频目标检测的结果。本发明将运动历史图像加入到模型训练的过程中,不仅为模型提供了视频帧的特征信息还增加了视频帧序列之间的关联信息,由此可以提高视频目标检测的准确度。
Description
技术领域
本发明涉及计算机视觉领域,特别是涉及目标检测中的视频目标检测领域,具体是设计一种基于运动历史图像的视频目标检测方法。
背景技术
当前,社会处于一个大数据与云计算并行的时代,随着抖音、快手、火山小视频等视频社交软件的出现,互联网上的信息不再局限于文字和图像,视频信息也层出不穷。挖掘视频信息中的联系、对视频信息进行有效的监控,是当代社会一个不可避免的问题。
目标检测的目的是对图片或视频中多个感兴趣的目标进行检测和分类。其按检测对象可以分为图像目标检测和视频目标检测。当前,图像目标检测在深度学习的背景下,已经趋于成熟。但是,在无人驾驶、视频监控、人机交互等方面对视频目标检测有着广泛的需求。因此,本发明提出了一种基于运动历史图像的视频目标检测方法。
相较于图像来说,视频的一个关键元素是时序信息,人们普遍认为图像内容在视频帧之间变化缓慢,尤其是在高级语义上。因此,视频中物体的位置和外观在时间上应该是一致的,即检测结果在边界框位置和检测置信度上不应该随着时间发生剧烈的变化。视频的另一个关键因素是上下文信息,即在相邻的视频帧之间检测出来的目标应该具有一定的联系。虽然已经有相关研究,将图像上下文信息并合并到静态图像检测框架中,但是视频作为数百幅图像的集合,具有更丰富的上下文信息。由此可见,直接将图像目标检测器用于实时检测视频流中的目标得不到较好的检测结果。所以要做好视频目标检测就要充分利用视频中包含的时序信息和上下文信息。
目前,视频目标检测主要的技术主要有以下几类:
(1)对图像目标检测器的检测结果进行处理,该方法作为一个后处理步骤,需要在每帧检测上额外运行。Seq-NMS和T-CNN算法即为此类算法的典型算法,Seq-NMS将静止图像检测的结果关联到序列中,构建高置信度边界框序列,并对检测框按平均置信度或最大置信度重新评分。T-CNN首先利用图像目标检测器生成视频中目标的候选框,采用跟踪算法对生成的候选框进行跟踪,将预测的边界框传播到相邻帧,通过应用来自高置信度边界框的跟踪算法来生成小管,并基于小管对检测结果重新评分。以上方法需要使用深度卷积神经网络对视频中的每帧图像进行特征提取,导致计算量量巨大,检测速度慢。
(2)在稀疏的、定期选择的关键帧上运行计算量巨大的卷积神经网络,通过光流将从关键帧提取到的特征传播到其他帧,该方法使用了光流图像,因为光流图像的提取计算量大,而且在定期选择的关键帧上进行特提取,可能导致关键信息丢失,从而降低了检测精度。
基于以上分析可得,当前视频目标检测遇到的问题是在运用视频中特有的高级语义信息时,耗费了较多的资源。而运动历史图像是一种基于视觉的模板方法,通过计算时间段内同一位置的像素变化,将目标运动情况以图像亮度的形式表现出来。运动历史图像可以根据相邻视频帧之间差值得到,即帧间差分法,降低了获取视频中上下文信息和时序信息的时间消耗。帧间差分法的使用,使运动前景与背景分离,实现了运动分割,进而可以把一段视频序列压缩成一张静态图像,图像中每个像素的灰度值表示了在一组视频序列中该位置最近的运动情况。由以上描述可得,运动历史图像不仅可以对一个视频片段进行全局的概括,而且包含了视频目标检测所需要的上下文信息以及时序信息,提取过程相对简单,可以减少视频目标检测过程中的计算量,降低时间消耗。
针对上述问题,构建一个能充分利用视频中时序信息和上下文信息的端到端网络,是解决视频目标检测问题的关键。由运动历史图像的提取过程和表现形式可以发现,运动历史图像在提取和应用视频中上下文信息和时序信息上有很大的优势。此外,我们还可以运用运动历史图像进行关键帧的选取,以降低视频中冗余信息带来的计算量。根据现有了解,还没有任何机构或组织将从运动历史图像提取到的特征和原始视频帧提取到的特征进行融合,传入到一个端到端的网络进行训练。
发明内容
针对现有图像目标检测技术不能充分利用视频中时序信息的缺陷,本发明提出了一种基于运动历史图像的视频目标检测方法,算法中利用运动历史图像表征视频中的时序信息,将时序信息融合到图像目标检测技术中,从而更好的检测视频。
本发明的技术方案如下:
一种基于运动历史图像的视频目标检测方法,包括以下步骤:
步骤(1)本发明使用了大规模视频目标检测的基准数据集ImageNet VID作为实验用的数据集,该数据集中包含了30个类别,且训练集和验证集已经被全部标注并完成了所有的视频片段的切帧操作;
步骤(2)输入视频帧序列,记为Ii{i=1,2,3,...,p}(56<p<458);采用计算机视觉库Opencv中的读图片的方法读取输入的视频帧Ii,得到视频帧的矩阵表示im_datai;
步骤(3)选取残差网络(Resnet101)的前91个卷积层作为特征提取网络feat1_net,将步骤(2)中得到的视频帧的矩阵表示im_datai,输入到特征提取网络feat1_net中,得到该视频帧的特征图im_feati;
步骤(4)提取每一帧视频的运动历史图像MHIi{i=1,2,3,...,p}(56<p<458),
其中,t表示当前运动的时刻,(x,y)代表图像中的一个像素点,τ为视频的持续时间,σ为衰退算子,δ为设定的阈值,用来判断两个视频帧目标之间是否发生了运动,根据运动的幅度更新运动历史图像。为相邻视频帧之间的差值,
步骤(5)采用残差网络(Resnet18)的中的前13层卷积网络作为特征提取网络,对运动历史图像MHIi进行特征提取操作;首先采用计算机视觉库Opencv中的读图片的方法读取运动历史图像MHIi,得到运动历史图像的矩阵表示MHI_datai;将MHI_datai输入到feat2_net中,得到运动历史图像的特征图MHI_feati;
步骤(6)将视频帧的特征图im_feati和运动历史图像的特征图MHI_feati进行融合,得到特征图base_feat;
步骤(7)在base_feat上滑动一个以f×f为卷积核的卷积网络,输出一个长度为n维的全连接特征,将得到的特征分别送入到两个全连接层,分别生成k个候选框的坐标和候选框中包含目标的概率;采用非极大值抑制(NMS)的方法,对候选框进行筛选,得到前m个候选框;
步骤(8)将步骤(6)中得到的base_feat和步骤(7)中的到的m个候选框输入到ROI池化层进行池化操作,得到m个相同大小的特征图;将得到的特征图输入到Resnet101的92到101层网络中,网络的前9层为卷积网络,最后一层为全连接层,实现目标分类以及目标边界框坐标的预测;
所述步骤(2)和步骤(5)中,采用的计算机视觉库opencv中cv2.read()的方法读取图片,具体实现分别为im_data=cv2.read(Ii)和MHI_datai=cv2.read(MHIi)。
所述步骤(4)中,设置δ=32,得到的运动历史图像包含了较多运动目标的信息。将运动历史图像应用于视频目标检测的过程中,对每一个视频帧的运动历史图像进行提取,既保留了视频帧与帧之间的时序信息,同时也保留了目标的运动信息。
所述步骤(6)中采用的特征融合的方法为深度学习pytorch框架中自带的concat方法,base_feat=torch.cat([im_feat,MHI_feat],1),公式中的“1”代表视频帧的特征图和运动历史图像的特征图在第二个维度上进行拼接。
所述步骤(7)中,设置f=3,n=256,m=1200,即卷积网络的卷积核为3×3,输出的全连接特征长度为256维。非极大值抑制方法的实现是根据候选框中含有目标的概率对候选框排序,选取前1200个候选框作为后续网络输入。
本发明与现有的技术相比优点在于:通过上述步骤,基于运动历史图像的视频目标检测方法在端到端的训练过程中加入了运动历史图像,运动历史图像包含了视频目标检测所需要的时序信息以及上下文信息,为视频目标检测提供了丰富的语义信息,有利于模型对目标进行准确的定位和分类;而且运动历史图像相较于光流图像提取简单,速度快且可操作性强,保证了视频目标检测的检测速度以及检测精度。
附图说明
图1是本发明方法流程图;
图2是本发明提取到的运动历史图像示意图;
图3是本发明的网络架构图;
具体实施方式
下面结合附图和具体实施方式对本发明进行描述。
如图1所示,本发明是一种基于运动历史图像的目标检测算法,通过提取视频帧的运动历史图像的特征,并将运动历史图像的特征和视频帧的特征进行融合,提高了视频中时序信息的利用率,同时相对于现有的视频目标检测技术来说,也降低了时间复杂度。
实施例1:
(1)本发明使用了大规模视觉识别挑战赛在2015年提出的一个大规模视频目标检测的基准数据集ImageNet VID作为实验用的数据集,该数据集共包含30个类别的目标,是ImageNet DET图像数据集中类别的子集,这些类别是考虑了不同的因素,如移动类型、视频杂乱程度、对象实例的平均数量以及其他一些因素,可以进行广泛的研究。同时,该数据集包含3862段视频作为训练集,555段视频作为验证集,937段视频作为测试集。训练集和验证集已经被全部标注且已经对所有的视频片段进行了切帧操作即数据集中为视频帧序列。本发明中的方法不仅适用于对该数据集包含的交通工具、动物类别的检测,也可以扩展到其他类别的视频目标检测,例如行人检测。
(2)由(1)中的数据集,可以得到视频帧,将视频帧视为独立的图像,构建残差网络对视频帧进行特征提取,得到该视频帧的特征图。在本发明中采用计算机视觉库Opencv中的cv2.read()方法读取输入的视频帧Ii{i=1,2,3,...,p}(56<p<458),得到视频帧的矩阵表示im_datai,im_data=cv2.read(Ii);
(3)选取残差网络(Resnet101)的前91个卷积层作为特征提取网络feat1_net,将(2)得到的im_datai输入到特征提取网络feat1_net中,得到该视频帧的特征图im_feati,im_feati=feat1_net(im_datai),feat1_net的网络结构信息如表1所示。
表1是本发明涉及到的feat1_net网络结构信息表。
(4)提取每一帧视频的运动历史图像MHIi{i=1,2,3,...,p}(56<p<458),
其中,t表示当前运动的时刻,(x,y)代表图像中的一个像素点,τ为视频的持续时间,σ为衰退算子,δ为设定的阈值,用来判断两个视频帧目标之间是否发生了运动,根据运动的幅度更新运动历史图像。为相邻视频帧之间的差值,
对于视频帧之间的差值阈值δ,取值过小,会导致获取的运动历史图像呈现出很多噪音点;取值过大,又会导致丢失某些像素强度低的特征,因此,差值阈值δ的设定还有根据具体的实验进行具体分析。通过实验,本发明设置δ的值为32,提取到的运动历史图像的示意图如图2所示。图2中左侧为相邻两帧的视频图像,右侧为其运动历史图像,对比椭圆部分可以发现鸟的翅膀在逐渐张开,由此可见,此时运动历史图像清楚的描述了目标的运动信息,可以帮助模型更好的预测目标的位置。由上可得该阈值的设定包含了运动目标较多的信息,符合视频目标检测的条件。
(5)提取运动历史图像的特征图。在本发明中采用残差网络(Resnet18)的中的前13层卷积网络作为特征提取网络feat2_net,对运动历史图像进行特征提取操作。首先采用计算机视觉库Opencv中cv2.read()的方法读取运动历史图像MHIi,得到运动历史图像的矩阵表示MHI_datai;将MHI_datai输入到feat2_net中进行特征提取操作,得到运动历史图像的特征图MHI_feati,MHI_feati=feat2_net(MHI_datai),feat2_net的网络结构信息如表2所示。
表2是本发明涉及到的feat2_net网络结构信息表。
(6)将视频帧的特征图im_feati和运动历史图像的特征图MHI_feati在特征级别进行融合,本发明中采用的特征融合的方法为深度学习pytorch框架中自带的concat方法,base_feat=torch.cat([im_feat,MHI_feat],1),公式中的“1”代表视频帧的特征图和运动历史图像的特征图在第二个维度上进行拼接,得到特征图base_feat。
(7)在base_feat上滑动一个以3×3为卷积核的卷积网络,输出一个长度为256维的全连接特征,将得到的特征分别送入到两个全连接层,生成k个候选框的坐标以及候选框中是否包含目标的概率。采用非极大值抑制的方法,根据候选框中是否含有目标的概率对候选框进行筛选,即将k个候选框按是否含有目标的概率进行排序,得到前1200个候选框。
(8)将步骤(6)中得到的base_feat和步骤(8)中的到的1200个候选框输入到ROI池化层。首先根据候选框左上角和右下角的坐标,将1200个候选框映射到base_feat的相应位置,然后将映射后的区域划分为h×h个子区域,对每个子区域做最大池化操作即取每个子区域中的最大值,输出到相应的输出网格单元中,得到m个h×h的特征图。将得到的特征图输入到Resnet101的92到101层网络feat3_net(网络结构信息如表3所示)中,网络的前9层为卷积网络,最后一层为全连接层,实现目标分类以及目标边界框的坐标的预测。
表3是本发明涉及到的feat3_net网络结构信息表。
本发明整体的网络架构如图3所示,图中实线矩形框的部分即为本发明的创新,首先从原始图片中获取其运动历史图像,获得视频中的时序和上下文信息;其次使用Resnet18的前13层卷积网络提取运动历史图像的特征,得到图像中包含的高级语义信息;将得到的特征图和原始视频帧的特征图在通道上,进行连接,传入到后续网络进行训练,增强了特征的传播,同时可以借助模型的反向传播机制修正网络参数,对模型进行调优操作。和其他特征融合的方法相比,该框架在产生检测结果之前,收集了视频帧之间的高级信息,为模型的训练提供了丰富的语义信息,增强了模型的鲁棒性和健壮性。
实施例2:
与实施例1不同的是:
在步骤4中得到的运动历史图像可以先进行伪彩色处理,即根据得到的灰度图像中像素点的灰度级赋予不同的彩色,使运动历史图像可以为模型训练提供更多信息。本发明中采用灰度级彩色变换法将灰度图转化为RGB图像,转化方式如下:
(1)获取图像中某一像素点(x,y)的值f(x,y);
(2)根据以下转化公式得到该像素点红色通道的值R(x,y),绿色通道的值G(x,y),蓝色通道的值B(x,y)。
应当理解的是,对本领域的普通技术人员来说,可以根据上述说明加以改进或变换,而所有的这些改进和变换都应该属于本发明所附权利要求的保护范围。
Claims (5)
1.一种基于运动历史图像的视频目标检测方法,其特征在于,包括以下步骤:
步骤(1)本发明使用了大规模视频目标检测的基准数据集ImageNet VID作为实验用的数据集,该数据集中包含了30个类别,且训练集和验证集已经被全部标注并完成了所有的视频片段的切帧操作;
步骤(2)输入视频帧序列,记为Ii{i=1,2,3,...,p}(56<p<458);采用计算机视觉库Opencv中的读图片的方法读取输入的视频帧Ii,得到视频帧的矩阵表示im_datai;
步骤(3)选取残差网络(Resnet101)的前91个卷积层作为特征提取网络feat1_net,将步骤(2)中得到的视频帧的矩阵表示im_datai,输入到特征提取网络feat1_net中,得到该视频帧的特征图im_feati;
步骤(4)提取每一帧视频的运动历史图像MHIi{i=1,2,3,...,p}(56<p<458),
其中,t表示当前运动的时刻,(x,y)代表图像中的一个像素点,τ为视频的持续时间,σ为衰退算子,δ为设定的阈值,用来判断两个视频帧目标之间是否发生了运动,根据运动的幅度更新运动历史图像。为相邻视频帧之间的差值,
步骤(5)采用残差网络(Resnet18)的中的前13层卷积网络作为特征提取网络feat2_net,对运动历史图像MHIi进行特征提取操作;首先采用计算机视觉库Opencv中的读图片的方法读取运动历史图像MHIi,得到运动历史图像的矩阵表示MHI_datai;将MHI_datai输入到feat2_net中,得到运动历史图像的特征图MHI_feati;
步骤(6)将视频帧的特征图im_feati和运动历史图像的特征图MHI_feati进行融合,得到特征图base_feat;
步骤(7)在base_feat上滑动一个以f×f为卷积核的卷积网络,输出一个长度为n维的全连接特征,将得到的特征分别送入到两个全连接层,分别生成k个候选框的坐标和候选框中包含目标的概率;采用非极大值抑制的方法,对候选框进行筛选,得到前m个候选框;
步骤(8)将步骤(6)中得到的base_feat和步骤(7)中的到的m个候选框输入到ROI池化层进行池化操作,得到m个相同大小的特征图;将得到的特征图输入到Resnet101的92到101层网络中,网络的前9层为卷积网络,最后一层为全连接层,实现目标分类以及目标边界框的坐标预测。
2.根据权利要求1所述的一种基于运动历史图像的视频目标检测方法,其特征在于:所述步骤(2)和步骤(5)中,采用的计算机视觉库opencv中cv2.read()的方法读取图片,具体实现分别为im_data=cv2.read(Ii)和MHI_datai=cv2.read(MHIi)。
3.根据权利要求1所述的一种基于运动历史图像的视频目标检测方法,其特征在于:所述步骤(4)中,设置δ=32,得到的运动历史图像包含了较多运动目标的信息。将运动历史图像应用于视频目标检测的过程中,对每一个视频帧的运动历史图像进行提取,既保留了视频帧与帧之间的时序信息,同时也保留了目标的运动信息。
4.根据权利要求1所述的一种基于运动历史图像的视频目标检测方法,其特征在于:所述步骤(6)中采用的特征融合的方法为深度学习pytorch框架中自带的concat方法,base_feat=torch.cat([im_feat,MHI_feat],1),公式中的“1”代表视频帧的特征图和运动历史图像的特征图在第二个维度上进行拼接。
5.根据权利要求1所述的一种基于运动历史图像的视频目标检测方法,其特征在于:所述步骤(7)中,设置f=3,n=256,m=1200,即卷积网络的卷积核为3×3,输出的全连接特征长度为256维。非极大值抑制方法的实现是根据候选框中含有目标的概率对候选框排序,选取前1200个候选框作为后续网络输入。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910901854.XA CN110705412A (zh) | 2019-09-24 | 2019-09-24 | 一种基于运动历史图像的视频目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910901854.XA CN110705412A (zh) | 2019-09-24 | 2019-09-24 | 一种基于运动历史图像的视频目标检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110705412A true CN110705412A (zh) | 2020-01-17 |
Family
ID=69194822
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910901854.XA Pending CN110705412A (zh) | 2019-09-24 | 2019-09-24 | 一种基于运动历史图像的视频目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110705412A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111832393A (zh) * | 2020-05-29 | 2020-10-27 | 东南大学 | 一种基于深度学习的视频目标检测方法与装置 |
CN112329656A (zh) * | 2020-11-10 | 2021-02-05 | 广西大学 | 一种视频流中人体动作关键帧的特征提取方法 |
CN112329729A (zh) * | 2020-11-27 | 2021-02-05 | 珠海大横琴科技发展有限公司 | 小目标船只检测方法、装置及电子设备 |
CN112380962A (zh) * | 2020-11-11 | 2021-02-19 | 成都摘果子科技有限公司 | 一种基于深度学习的动物图像识别方法及系统 |
CN112380970A (zh) * | 2020-11-12 | 2021-02-19 | 常熟理工学院 | 基于局部区域搜索的视频目标检测方法 |
CN112907958A (zh) * | 2021-01-29 | 2021-06-04 | 北京百度网讯科技有限公司 | 路况信息确定方法、装置、电子设备以及可读介质 |
CN113269054A (zh) * | 2021-04-30 | 2021-08-17 | 重庆邮电大学 | 一种基于时空2d卷积神经网络的航拍视频分析方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102043967A (zh) * | 2010-12-08 | 2011-05-04 | 中国科学院自动化研究所 | 一种有效的运动目标行为建模与识别方法 |
KR20120089948A (ko) * | 2010-12-30 | 2012-08-16 | 인제대학교 산학협력단 | Mhi의 형태 정보를 이용한 실시간 동작 인식시스템 및 실시간 동작 인식 방법 |
CN103116756A (zh) * | 2013-01-23 | 2013-05-22 | 北京工商大学 | 一种人脸检测与跟踪方法及装置 |
CN103617636A (zh) * | 2013-12-02 | 2014-03-05 | 西北工业大学 | 基于运动信息及稀疏投影的视频目标自动检测跟踪方法 |
CN108133188A (zh) * | 2017-12-22 | 2018-06-08 | 武汉理工大学 | 一种基于运动历史图像与卷积神经网络的行为识别方法 |
CN108256506A (zh) * | 2018-02-14 | 2018-07-06 | 北京市商汤科技开发有限公司 | 一种视频中物体检测方法及装置、计算机存储介质 |
CN108830252A (zh) * | 2018-06-26 | 2018-11-16 | 哈尔滨工业大学 | 一种融合全局时空特征的卷积神经网络人体动作识别方法 |
CN109800689A (zh) * | 2019-01-04 | 2019-05-24 | 西南交通大学 | 一种基于时空特征融合学习的目标跟踪方法 |
-
2019
- 2019-09-24 CN CN201910901854.XA patent/CN110705412A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102043967A (zh) * | 2010-12-08 | 2011-05-04 | 中国科学院自动化研究所 | 一种有效的运动目标行为建模与识别方法 |
KR20120089948A (ko) * | 2010-12-30 | 2012-08-16 | 인제대학교 산학협력단 | Mhi의 형태 정보를 이용한 실시간 동작 인식시스템 및 실시간 동작 인식 방법 |
CN103116756A (zh) * | 2013-01-23 | 2013-05-22 | 北京工商大学 | 一种人脸检测与跟踪方法及装置 |
CN103617636A (zh) * | 2013-12-02 | 2014-03-05 | 西北工业大学 | 基于运动信息及稀疏投影的视频目标自动检测跟踪方法 |
CN108133188A (zh) * | 2017-12-22 | 2018-06-08 | 武汉理工大学 | 一种基于运动历史图像与卷积神经网络的行为识别方法 |
CN108256506A (zh) * | 2018-02-14 | 2018-07-06 | 北京市商汤科技开发有限公司 | 一种视频中物体检测方法及装置、计算机存储介质 |
CN108830252A (zh) * | 2018-06-26 | 2018-11-16 | 哈尔滨工业大学 | 一种融合全局时空特征的卷积神经网络人体动作识别方法 |
CN109800689A (zh) * | 2019-01-04 | 2019-05-24 | 西南交通大学 | 一种基于时空特征融合学习的目标跟踪方法 |
Non-Patent Citations (5)
Title |
---|
FAN-FENG MENG 等: "Traffic Object Tracking Based on Increased-step Motion History Image", 《PROCEEDINGS OF THE IEEE INTERNATIONAL CONFERENCE ON AUTOMATION AND LOGISTICS》 * |
YONGQIANG KONG 等: "Learning spatiotemporal representations for human fall detection in surveillance video", 《JOURNAL OF VISUAL COMMUNICATION AND IMAGE REPRESENTATION》 * |
ZHIYONG LI 等: "Robust Object Tracking Based on Timed Motion History Image With Multi-feature Adaptive Fusion", 《2016 12TH INTERNATIONAL CONFERENCE ON NATURAL COMPUTATION, FUZZY SYSTEMS AND KNOWLEDGE DISCOVERY (ICNC-FSKD)》 * |
刘军学 等: "基于改进运动历史图像的多运动目标实时跟踪", 《计算机应用》 * |
高大鹏 等: "多维度自适应3D卷积神经网络原子行为识别", 《计算机工程与应用》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111832393A (zh) * | 2020-05-29 | 2020-10-27 | 东南大学 | 一种基于深度学习的视频目标检测方法与装置 |
CN112329656A (zh) * | 2020-11-10 | 2021-02-05 | 广西大学 | 一种视频流中人体动作关键帧的特征提取方法 |
CN112329656B (zh) * | 2020-11-10 | 2022-05-10 | 广西大学 | 一种视频流中人体动作关键帧的特征提取方法 |
CN112380962A (zh) * | 2020-11-11 | 2021-02-19 | 成都摘果子科技有限公司 | 一种基于深度学习的动物图像识别方法及系统 |
CN112380970A (zh) * | 2020-11-12 | 2021-02-19 | 常熟理工学院 | 基于局部区域搜索的视频目标检测方法 |
CN112329729A (zh) * | 2020-11-27 | 2021-02-05 | 珠海大横琴科技发展有限公司 | 小目标船只检测方法、装置及电子设备 |
CN112907958A (zh) * | 2021-01-29 | 2021-06-04 | 北京百度网讯科技有限公司 | 路况信息确定方法、装置、电子设备以及可读介质 |
CN113269054A (zh) * | 2021-04-30 | 2021-08-17 | 重庆邮电大学 | 一种基于时空2d卷积神经网络的航拍视频分析方法 |
CN113269054B (zh) * | 2021-04-30 | 2022-06-10 | 重庆邮电大学 | 一种基于时空2d卷积神经网络的航拍视频分析方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wu et al. | Yolop: You only look once for panoptic driving perception | |
Hossain et al. | Crowd counting using scale-aware attention networks | |
US20200250436A1 (en) | Video object segmentation by reference-guided mask propagation | |
CN110705412A (zh) | 一种基于运动历史图像的视频目标检测方法 | |
CN110276765B (zh) | 基于多任务学习深度神经网络的图像全景分割方法 | |
CN111104903B (zh) | 一种深度感知交通场景多目标检测方法和系统 | |
CN109753913B (zh) | 计算高效的多模式视频语义分割方法 | |
US20180114071A1 (en) | Method for analysing media content | |
CN111079674B (zh) | 一种基于全局和局部信息融合的目标检测方法 | |
CN108537824B (zh) | 基于交替反卷积与卷积的特征图增强的网络结构优化方法 | |
CN113486726A (zh) | 一种基于改进卷积神经网络的轨道交通障碍物检测方法 | |
CN111401293B (zh) | 一种基于Head轻量化Mask Scoring R-CNN的手势识别方法 | |
CN111767927A (zh) | 一种基于全卷积网络的轻量级车牌识别方法及系统 | |
CN112668492B (zh) | 一种自监督学习与骨骼信息的行为识别方法 | |
CN112801027A (zh) | 基于事件相机的车辆目标检测方法 | |
CN110852199A (zh) | 一种基于双帧编码解码模型的前景提取方法 | |
CN111368634B (zh) | 基于神经网络的人头检测方法、系统及存储介质 | |
CN115620393A (zh) | 一种面向自动驾驶的细粒度行人行为识别方法及系统 | |
CN114627269A (zh) | 一种基于深度学习目标检测的虚拟现实安防监控平台 | |
Tao et al. | CENet: A channel-enhanced spatiotemporal network with sufficient supervision information for recognizing industrial smoke emissions | |
Tao et al. | An adaptive frame selection network with enhanced dilated convolution for video smoke recognition | |
Farrajota et al. | Human action recognition in videos with articulated pose information by deep networks | |
Wang et al. | Multi-scale aggregation network for temporal action proposals | |
CN110942463B (zh) | 一种基于生成对抗网络的视频目标分割方法 | |
Li et al. | CDMY: A lightweight object detection model based on coordinate attention |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200117 |