CN112380970A - 基于局部区域搜索的视频目标检测方法 - Google Patents

基于局部区域搜索的视频目标检测方法 Download PDF

Info

Publication number
CN112380970A
CN112380970A CN202011260898.8A CN202011260898A CN112380970A CN 112380970 A CN112380970 A CN 112380970A CN 202011260898 A CN202011260898 A CN 202011260898A CN 112380970 A CN112380970 A CN 112380970A
Authority
CN
China
Prior art keywords
frame
target
detection
video
current frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011260898.8A
Other languages
English (en)
Other versions
CN112380970B (zh
Inventor
龚声蓉
曾彪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yantu Huiyun Suzhou Information Technology Co ltd
Original Assignee
Changshu Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changshu Institute of Technology filed Critical Changshu Institute of Technology
Priority to CN202011260898.8A priority Critical patent/CN112380970B/zh
Publication of CN112380970A publication Critical patent/CN112380970A/zh
Application granted granted Critical
Publication of CN112380970B publication Critical patent/CN112380970B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/44Event detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于局部区域搜索的视频目标检测方法,依次包括以下步骤:首先将视频的第一帧使用单帧检测器进行检测,得到图像中所有目标的区域和类别;从第二帧开始将每个目标在上一帧的位置映射到当前帧,把该区域输入到运动预测模块进行检测,得到目标的运动方向并对目标的位置进行微调,得到目标在当前帧的区域,目标的类别沿用上一帧的结果;将目标的区域信息与上一帧的该目标的区域信息同时输入到相似性检测模块,判断两个区域是否表示的是同一个目标,如果不是则对当前帧使用单帧检测器进行检测目标的位置和类别;对其余帧持续上述过程至检测结束。本发明方法能够保证检测准确度并提高速度,节省资源开销。

Description

基于局部区域搜索的视频目标检测方法
技术领域
本发明涉及一种视频目标检测方法,特别是涉及一种基于局部区域搜索的视频目标检测方法。
背景技术
视频目标检测的任务是识别出输入视频中每一帧图像所含有的每一个目标所处的位置以及每个目标的类别,目标的位置一般用一个包围目标的矩形边界框表示。视频目标检测的目的是将机器训练成可以检测出视频中所包含的物体的位置和分类等信息,从而代替人工来对庞大的视频库进行处理。随着互联网带宽的不断提升,视频的应用场景越来越广泛,如视频网站、短视频应用平台等在普通用户中逐渐普及开来,因而在互联网上产生了大量未分类的视频,对平台和用户都产生了很大的困扰,因为光凭视频的标题和缩略图可能会对视频的整体内容产生误导,而人工审核对于较长视频的耗时又较长,无法跟上视频产生的速度。
视频目标检测方法可以根据不同的侧重分为两类。第一类侧重于提高视频目标检测的准确率,通过将同一目标在不同视频帧中各自对应的特征进行融合,增强特征的表达能力,从而提高检测器对于局部遮挡、运动模糊等目标的鲁棒性。另一类方法主要侧重于减少开销,因为视频中每秒都包含了几十帧以上非常相似的图片,如果对每一帧都使用计算复杂度较高的检测器的话代价将会非常大。现有技术中将一个视频的所有帧分成关键帧和非关键帧,关键帧使用开销相对较大但是较为准确的检测器进行检测,而非关键帧则使用一些开销较小的方法进行推理,如光流等。
但是这些方法对于视频目标检测的效率还有待提高。目前大多数方法的处理速度只有每秒十帧左右,然而视频每秒钟可能有二十帧以上,视频处理的实时性不是很高。另外视频中相邻帧非常相似,而现有方法总是从每张图片的所有区域对目标进行搜索,在大量的背景区域上浪费了很多计算资源。
发明内容
针对上述现有技术缺陷,本发明的任务在于提供一种基于局部区域搜索的视频目标检测方法,针对视频相邻帧相似性高导致检测效率低的问题,节省资源开销,在保证效率的同时兼顾检测的准确率。
本发明技术方案如下:一种基于局部区域搜索的视频目标检测方法,依次包括以下步骤:
S1、首先将输入视频的第一帧标记为关键帧并使用单帧检测器进行检测,得到所述第一帧的图像中所有目标的区域和类别;
S2、从所述输入视频的第二帧开始,将每个目标在上一帧的位置映射到当前帧,并把映射的区域输入到运动预测模块进行检测,得到目标的运动方向,根据所述运动方向信息对目标的位置进行微调,得到所述目标在当前帧的区域,所述目标的类别沿用上一帧的结果;
S3、将步骤S2得到的目标的区域信息与上一帧的该目标的区域信息同时输入到相似性检测模块,由相似性检测模块判断两个区域是否表示的是同一个目标,如果是同一个目标则跳过;如果不是同一个目标则将当前帧标记为关键帧,并使用单帧检测器进行检测目标的位置和类别;
S4、如果还有下一帧则返回步骤S2进行下一帧的检测,否则检测结束。
在本发明中,对于关键帧采用单帧检测器检测,单帧检测器采用计算开销较大但具有更高准确度的网络结构,虽然关键帧的检测占用开销较高,但是更多的视频帧为非关键帧,而大量的非关键帧使用比较轻量的运动预测模块进行检测,所以总体的视频检测开销会显著减少。运动预测模块用于对非关键帧中的目标运动情况进行预测,当上一帧中的目标区域被检测出来后,运动预测模块就在上一帧目标位置的基础上对目标的运动情况进行预测。由于相邻两帧图像非常相似且目标的运动变化幅度很小,若采用复杂的网络结构对全图进行检测将会产生很大的开销,因此采用一个比较轻量的网络结构仅在目标在上一帧的位置附近的一个局部区域内对目标的运动进行预测,从而根据运动情况对目标的位置进行微调。为了避免运动预测模块的误判影响准确度,再对运动预测模块的结果进行相似性计算,对于不相似的结果重新由单帧检测器检测,这样总体上能够提高检测效率并且保证准确度。
进一步地,为了解决中间某帧出现新目标等异常情况时运动预测失效的问题,所述运动预测模块记录未经过单帧检测器进行检测的非关键帧的帧序号,当当前帧的帧序号与记录的所述非关键帧的帧序号构成连续的数列时,判断所述数列的长度,如果长度超过阈值则将当前帧标记为关键帧,并使用单帧检测器进行检测目标的位置和类别,再进入步骤S4。
进一步地,所述步骤S3中,由所述相似性检测模块判断不是同一个目标时,将当前帧的帧序号从所述运动预测模块的记录中去除。
进一步地,所述单帧检测器进行检测是将帧图像输入残差网络得到抽象特征,然后将所述抽象特殊输入特征金字塔网络,由顶层的特征与残差网络的各层的抽象特征进行融合得到不同尺度的特征信息,再将所述特征信息输入区域生成网络生成一系列的目标候选区域,由所述目标候选区域与所述特征信息进行感兴趣区域池化操作得到各目标候选区域对应的区域特征,最后把所述区域特征调整到固定大小并由分类器进行分类完成检测。
进一步地,所述运动预测模块进行检测是将所述映射的区域调整大小并经过若干卷积池化层提取特征得到两个分支,一个所述分支为经过全连接层后生成多维度的目标运动方向向量,所述目标运动方向向量中数值最大的维度为目标运动方向;另一个所述分支得到预测结果的置信度,置信度越高,表示结果越准确。
进一步地,所述目标运动方向向量的维度分别表示向左、向左*2、向右、向右*2、向上、向上*2、向下、向下*2、不变、缩小、放大的运动方向。
进一步地,所述相似性检测模块判断两个区域是否表示的是同一个目标是将当前帧的所述映射的区域与上一帧的目标区域分别输入孪生网络的两个完全相同的分支进行特征提取,对提取的特征计算欧式距离,当计算得到的欧式距离小于设定的相似阈值时为相似,表示为同一目标,否则为不相似,表示为不同目标。
本发明与现有技术相比的优点在于:
对视频输入帧进行区分,将关键帧通过单帧检测器进行检测以获得较高的准确率,而对非关键帧通过运动预测模块对映射的目标区域进行运动检测以获得较高的检测速度,再利用相似性检测模块对由运动预测模块检测的结果计算来反馈对关键帧及非关键帧的判断,进而使得由运动预测模块检测的非关键帧结果出现偏差时再此利用单帧检测器对其检测,进一步保证了整体检测结果的准确率。
附图说明
图1为基于局部区域搜索的视频目标检测方法立体结构示意图。
图2为单帧检测器结构示意图。
图3为运动预测模块结构示意图。
图4为相似性检测模块结构示意图。
图5为本发明方法定性评估视频结果示意图一。
图6为本发明方法定性评估视频结果示意图二。
具体实施方式
下面结合实施例对本发明作进一步说明,但不作为对本发明的限定。
为了更好地理解本发明,请结合图1所示,基于局部区域搜索的视频目标检测方法依次包括以下步骤:
S1、首先将输入视频的第一帧标记为关键帧并使用单帧检测器进行检测,得到第一帧的图像中所有目标的区域和类别;
S2、从输入视频的第二帧开始,将每个目标在上一帧的位置映射到当前帧,并把映射的区域输入到运动预测模块进行检测,得到目标的运动方向,根据运动方向信息对目标的位置进行微调,得到目标在当前帧的区域,目标的类别沿用上一帧的结果;运动预测模块记录未经过单帧检测器进行检测的非关键帧的帧序号,当当前帧的帧序号与记录的非关键帧的帧序号构成连续的数列时,判断数列的长度,如果长度超过阈值则将当前帧标记为关键帧,并使用单帧检测器进行检测目标的位置和类别,再进入步骤S4。本实施例中这一阈值设置为20,即运动预测模块的连续预测帧上限为20,运动预测模块每预测20帧就将当前帧标记为关键帧,这解决了中间某帧出现新目标等异常情况时运动预测失效的问题,又不致于过多占用资源;
S3、将步骤S2得到的目标的区域信息与上一帧的该目标的区域信息同时输入到相似性检测模块,由相似性检测模块判断两个区域是否表示的是同一个目标,如果是同一个目标则跳过进入步骤S4;如果不是同一个目标则将当前帧标记为关键帧,并将当前帧的帧序号从运动预测模块的记录中去除,然后使用单帧检测器进行检测目标的位置和类别;
S4、如果还有下一帧则返回步骤S2进行下一帧的检测,否则检测结束。
请结合图2所示,单帧检测器采用了开销较大但是较为准确的ResNet-FPN-RPN的结构用于特征的提取和候选框的生成。虽然关键帧的检测占用开销较高,但是更多的视频帧为非关键帧,而大量的非关键帧由于使用比较轻量的运动预测模块进行检测,所以总体的视频检测开销会显著减少。
单帧检测器的结构中ResNet(残差网络)一定程度上能够解决网络加深之后的退化问题,将图像输入ResNet得到抽象特征,每个阶段都包含一定数量的残块,这样梯度不会随着网络的加深而消失。FPN(特征金字塔网络)能够很好地处理目标检测中的多尺度变化的问题,FPN是自顶向下的结构,将顶层的特征与ResNet各层的抽象特征进行融合,得到不同尺度的特征信息。图像在经过以上两个结构之后获得了丰富的不同深度、不同尺度的特征信息,随后将特征信息输入到RPN(区域生成网络)中,生成一系列的目标候选区域,再将这些候选区域与多层特征信息进行ROI pooling(感兴趣区域池化)操作得到各候选区域对应的区域特征,最后把这些区域特征调整到固定大小并由分类器进行分类。
运动预测模块用于对非关键帧中的目标运动情况进行预测,当上一帧中的目标区域被检测出来后,运动预测模块就在上一帧目标位置的基础上对目标的运动情况进行预测。由于相邻两帧图像非常相似且目标的运动变化幅度很小,若采用复杂的网络结构对全图进行检测将会产生很大的开销,因此运动预测模块采用一个比较轻量的网络结构仅在目标在上一帧的位置附近的一个局部区域内对目标的运动进行预测,从而根据运动情况对目标的位置进行微调。
请结合图3所示,运动预测模块的网络结构的输入是上一帧的目标位置在当前帧映射的区域并调整大小到112*112*3,采用的是VGG-M网络的架构,特征提取部分网络结构与VGG-M的前15层保持一致,并在之后添加了两个全连接层,第一个全连接层输入通道为4608,输出通道为512,第二个全连接层输入输出通道均为512,最后再分别添加两个全连接层分支。其中一个分支输入通道为512,输出为一个11维的向量,图像经过几个简单的卷积池化层提取特征最后得到两个分支,其中一个分支经过全连接层后生成一个11维的向量,用于表示预测的目标运动方向,11个维度分别表示向左、向左*2、向右、向右*2、向上、向上*2、向下、向下*2、不变、缩小、放大的运动方向,数值最大的那个维度作为最终的预测结果;另一个分支用于表示预测结果的置信度,置信度越高,表示结果越准确。
虽然运动预测模块效率较快,但是还是存在误判的可能性,为了减少异常检测结果的发生频率,在本发明方法中加入了一个轻量的孪生网络模块用于前后两帧间同一检测目标的相似性计算,从而确保运动预测模块的结果可靠。如图4所示,当前帧和上一帧的两个目标区域经过灰度化处理后分别输入两个完全相同的分支进行特征提取。其中每个分支分别由三个卷积层、三个全连接层组成,第一个卷积层输入通道为1、输出通道为4,第二个卷积层输入通道为4、输出通道为8,第三个卷积层输入通道为8、输出通道为8,三个卷积层的卷积核大小均为3。第一个全连接层输入通道数为80000,三个全连接层的输出通道数分别为500、500、5。最后对各自生成的两个5维的向量计算欧式距离,距离越小说明两个目标越相似,在本发明中把区分是否相似的相似阈值设为1,即当欧式距离小于1时划分为相似,大小1表示不相似,需要使用单帧检测器进行检测。
对本发明方法所使用的整个网络结构进行训练,其训练过程是这样的:
首先训练单帧检测器,视频目标检测数据集ImageNet VID一共有30个类别,这30个类别在ImageNet图像数据集DET中也有,所以先在DET这有交集的30个类别中对单帧检测器进行训练,训练好的模型再在VID视频数据集上以每5帧采样一帧的频率进行训练。
然后分两阶段训练运动预测模块,该训练中训练数据的目标运动标签提取方法如公式(1)所示。
Figure BDA0002774601550000051
其中initj表示第j-1帧的目标位置在第j帧的映射区域,a是目标运动的方向,f’(initj,a)表示映射区域向a方向移动一个单位距离之后的区域,G(j)表示第j帧目标的真实区域。分别把初始区域向不同方向移动,然后与真实区域计算IoU(交并比),从而找到使得IoU最大的那个运动方向,最后把表示这个运动方向的那个维度置为1,其余维度置为0,即可得到用于训练运动方向分支的标签。同时如果IoU大于0.93,置信度标签置为1,否则置为0。
训练的第一个阶段是使用随机生成的数据对模型进行预训练,首先对视频数据集每隔5帧进行采样,在采样后的每帧图像中随机生成若干个边界框,其中选取15个IoU大于0.7的作为正样本,选取5个IoU小于0.3的作为负样本,按照公式(1)的方法生成标签并进行训练。
第二个阶段使用目标真实的区域进行训练,我别选取当前帧的前1帧到前15帧的目标区域作为初始位置,以当前帧的目标位置作为终点的真实位置,这样就可以采集到15个正样本,再在当前帧随机生成5个IoU小于0.3的边界框作为负样本,同样按照公式(1)的方法生成标签并训练。
对本发明方法的论证实验使用的是ImageNet VID 2015视频目标检测数据集的验证集(使用训练集用于训练,使用验证集用于测试)。VID数据集包含3862个视频用于训练,另有555个视频用于验证,每个视频包含有56到458帧图像,整个数据集共包含30个不同的类别。实验硬件环境:Ubuntu 16.04,Tesla P100显卡,显存16G。代码运行环境:python3.7,pytorch 1.2。
在VID验证集上对视频目标检测的结果进行了测试,验证本文方法有有效性。
(1)定量评估
采用mAP(平均精度均值)和检测速度对本发明方法的有效性进行评价。mAP主要用来比较目标检测方法的准确率,首先在所有视频的检测结果中计算各个类别结果的平均精度,然后再对每个平均精度求平均。检测速度则是指每帧图像的平均检测速度。
不同方法的mAP(平均精度均值)和速度的比较
Figure BDA0002774601550000061
Figure BDA0002774601550000071
上表展示的是本发明方法和现有技术的比较,同时将本发明方法去除相似性检测模块后的检测结果也加入了比较,可以看到,即使不使用相似性检测模块进行二次验证,本发明方法也达到了81%的准确率。另外,由于本发明方法中视频帧大多是以上一帧为基础进行检测,所以目标的位置和分类等往往很稳定,不会在两帧之间出现反复变化的情况,不仅速度保持在一个很低的水平,检测的准确率也比其他的方法好。
(2)定性评估
图5中视频有两个高速飞行的飞机,两个飞机的位置、背景的亮度颜色等都在不断地快速变化,本发明方法依然能准确地检测出每个个体的位置和类别。在图6的视频中则展示了另一种更加复杂的情况,其中含有5个外观纹理都比较相似的斑马,而且视频中背景的颜色和纹理也和视频目标的非常相似,都是黑白相间的,但是本发明方法同样能识别出视频中的每个目标。

Claims (6)

1.一种基于局部区域搜索的视频目标检测方法,其特征在于,依次包括以下步骤:
S1、首先将输入视频的第一帧标记为关键帧并使用单帧检测器进行检测,得到所述第一帧的图像中所有目标的区域和类别;
S2、从所述输入视频的第二帧开始,将每个目标在上一帧的位置映射到当前帧,并把映射的区域输入到运动预测模块进行检测,得到目标的运动方向,根据所述运动方向信息对目标的位置进行微调,得到所述目标在当前帧的区域,所述目标的类别沿用上一帧的结果;
S3、将步骤S2得到的目标的区域信息与上一帧的该目标的区域信息同时输入到相似性检测模块,由相似性检测模块判断两个区域是否表示的是同一个目标,如果是同一个目标则跳过;如果不是同一个目标则将当前帧标记为关键帧,并使用单帧检测器进行检测目标的位置和类别;
S4、如果还有下一帧则返回步骤S2进行下一帧的检测,否则检测结束。
2.根据权利要求1所述的基于局部区域搜索的视频目标检测方法,其特征在于,所述运动预测模块记录未经过单帧检测器进行检测的非关键帧的帧序号,当当前帧的帧序号与记录的所述非关键帧的帧序号构成连续的数列时,判断所述数列的长度,如果长度超过阈值则将当前帧标记为关键帧,并使用单帧检测器进行检测目标的位置和类别,再进入步骤S4。
3.根据权利要求2所述的基于局部区域搜索的视频目标检测方法,其特征在于,所述步骤S3中,由所述相似性检测模块判断不是同一个目标时,将当前帧的帧序号从所述运动预测模块的记录中去除。
4.根据权利要求1所述的基于局部区域搜索的视频目标检测方法,其特征在于,所述运动预测模块进行检测是将所述映射的区域调整大小并经过若干卷积池化层提取特征得到两个分支,一个所述分支为经过全连接层后生成多维度的目标运动方向向量,所述目标运动方向向量中数值最大的维度为目标运动方向;另一个所述分支得到预测结果的置信度,置信度越高,表示结果越准确。
5.根据权利要求4所述的基于局部区域搜索的视频目标检测方法,其特征在于,所述目标运动方向向量的维度分别表示向左、向左*2、向右、向右*2、向上、向上*2、向下、向下*2、不变、缩小、放大的运行方向。
6.根据权利要求1所述的基于局部区域搜索的视频目标检测方法,其特征在于,所述相似性检测模块判断两个区域是否表示的是同一个目标是将当前帧的所述映射的区域与上一帧的目标区域分别输入孪生网络的两个完全相同的分支进行特征提取,对提取的特征计算欧式距离,当计算得到的欧式距离小于设定的相似阈值时为相似,表示为同一目标,否则为不相似,表示为不同目标。
CN202011260898.8A 2020-11-12 2020-11-12 基于局部区域搜索的视频目标检测方法 Active CN112380970B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011260898.8A CN112380970B (zh) 2020-11-12 2020-11-12 基于局部区域搜索的视频目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011260898.8A CN112380970B (zh) 2020-11-12 2020-11-12 基于局部区域搜索的视频目标检测方法

Publications (2)

Publication Number Publication Date
CN112380970A true CN112380970A (zh) 2021-02-19
CN112380970B CN112380970B (zh) 2022-02-11

Family

ID=74583311

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011260898.8A Active CN112380970B (zh) 2020-11-12 2020-11-12 基于局部区域搜索的视频目标检测方法

Country Status (1)

Country Link
CN (1) CN112380970B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114140726A (zh) * 2021-12-03 2022-03-04 湖北微模式科技发展有限公司 目标正反面展示动作连续性的检测方法

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103164693A (zh) * 2013-02-04 2013-06-19 华中科技大学 一种监控视频行人检测匹配方法
CN104217417A (zh) * 2013-05-31 2014-12-17 张伟伟 一种视频多目标跟踪的方法及装置
CN104392467A (zh) * 2014-11-18 2015-03-04 西北工业大学 一种基于压缩感知的视频目标跟踪方法
US20150154457A1 (en) * 2012-06-28 2015-06-04 International Business Machines Corporation Object retrieval in video data using complementary detectors
CN108122247A (zh) * 2017-12-25 2018-06-05 北京航空航天大学 一种基于图像显著性和特征先验模型的视频目标检测方法
CN109344746A (zh) * 2018-09-17 2019-02-15 曜科智能科技(上海)有限公司 行人计数方法、系统、计算机设备和存储介质
CN109447168A (zh) * 2018-11-05 2019-03-08 江苏德劭信息科技有限公司 一种基于深度特征和视频目标检测的安全帽佩戴检测方法
CN109816698A (zh) * 2019-02-25 2019-05-28 南京航空航天大学 基于尺度自适应核相关滤波的无人机视觉目标跟踪方法
CN110097568A (zh) * 2019-05-13 2019-08-06 中国石油大学(华东) 一种基于时空双分支网络的视频对象检测与分割方法
CN110378259A (zh) * 2019-07-05 2019-10-25 桂林电子科技大学 一种面向监控视频的多目标行为识别方法及系统
CN110532906A (zh) * 2019-08-14 2019-12-03 合肥智圣新创信息技术有限公司 一种基于人脸识别图片的共享方法及系统
CN110705412A (zh) * 2019-09-24 2020-01-17 北京工商大学 一种基于运动历史图像的视频目标检测方法
CN111310609A (zh) * 2020-01-22 2020-06-19 西安电子科技大学 基于时序信息和局部特征相似性的视频目标检测方法
CN111427979A (zh) * 2020-01-15 2020-07-17 深圳市镭神智能系统有限公司 基于激光雷达的动态地图构建方法、系统及介质

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150154457A1 (en) * 2012-06-28 2015-06-04 International Business Machines Corporation Object retrieval in video data using complementary detectors
CN103164693A (zh) * 2013-02-04 2013-06-19 华中科技大学 一种监控视频行人检测匹配方法
CN104217417A (zh) * 2013-05-31 2014-12-17 张伟伟 一种视频多目标跟踪的方法及装置
CN104392467A (zh) * 2014-11-18 2015-03-04 西北工业大学 一种基于压缩感知的视频目标跟踪方法
CN108122247A (zh) * 2017-12-25 2018-06-05 北京航空航天大学 一种基于图像显著性和特征先验模型的视频目标检测方法
CN109344746A (zh) * 2018-09-17 2019-02-15 曜科智能科技(上海)有限公司 行人计数方法、系统、计算机设备和存储介质
CN109447168A (zh) * 2018-11-05 2019-03-08 江苏德劭信息科技有限公司 一种基于深度特征和视频目标检测的安全帽佩戴检测方法
CN109816698A (zh) * 2019-02-25 2019-05-28 南京航空航天大学 基于尺度自适应核相关滤波的无人机视觉目标跟踪方法
CN110097568A (zh) * 2019-05-13 2019-08-06 中国石油大学(华东) 一种基于时空双分支网络的视频对象检测与分割方法
CN110378259A (zh) * 2019-07-05 2019-10-25 桂林电子科技大学 一种面向监控视频的多目标行为识别方法及系统
CN110532906A (zh) * 2019-08-14 2019-12-03 合肥智圣新创信息技术有限公司 一种基于人脸识别图片的共享方法及系统
CN110705412A (zh) * 2019-09-24 2020-01-17 北京工商大学 一种基于运动历史图像的视频目标检测方法
CN111427979A (zh) * 2020-01-15 2020-07-17 深圳市镭神智能系统有限公司 基于激光雷达的动态地图构建方法、系统及介质
CN111310609A (zh) * 2020-01-22 2020-06-19 西安电子科技大学 基于时序信息和局部特征相似性的视频目标检测方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
JIAWEI TANG 等: "FPGA-Based Real-Time Moving Target Detection System for Unmanned Aerial Vehicle Application", 《INTERNATIONAL JOURNAL OF RECOFIGURABLE COMPUTING》 *
XIZHOU ZHU 等: "Deep Feature Flow for Video Recognition", 《ARXIV》 *
XIZHOU ZHU 等: "Towards High Performance Video Object Detection", 《2018 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 *
于进勇 等: "卷积神经网络在目标检测中的应用综述", 《计算机科学》 *
李玺 等: "深度学习的目标跟踪算法综述", 《中国图象图形学报》 *
董潇潇: "光流引导的多关键帧特征传播与聚合视频目标检测", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114140726A (zh) * 2021-12-03 2022-03-04 湖北微模式科技发展有限公司 目标正反面展示动作连续性的检测方法
CN114140726B (zh) * 2021-12-03 2022-06-21 湖北微模式科技发展有限公司 目标正反面展示动作连续性的检测方法

Also Published As

Publication number Publication date
CN112380970B (zh) 2022-02-11

Similar Documents

Publication Publication Date Title
CN112884064B (zh) 一种基于神经网络的目标检测与识别方法
CN110738207B (zh) 一种融合文字图像中文字区域边缘信息的文字检测方法
CN103593464B (zh) 基于视觉特征的视频指纹检测及视频序列匹配方法及系统
CN110287826B (zh) 一种基于注意力机制的视频目标检测方法
US20180114071A1 (en) Method for analysing media content
US20180018503A1 (en) Method, terminal, and storage medium for tracking facial critical area
CN111951212A (zh) 对铁路的接触网图像进行缺陷识别的方法
US20210326638A1 (en) Video panoptic segmentation
CN110263712B (zh) 一种基于区域候选的粗精行人检测方法
RU2697649C1 (ru) Способы и системы сегментации документа
Zhang et al. Coarse-to-fine object detection in unmanned aerial vehicle imagery using lightweight convolutional neural network and deep motion saliency
Gómez et al. Cutting Sayre's Knot: reading scene text without segmentation. application to utility meters
CN110705412A (zh) 一种基于运动历史图像的视频目标检测方法
Rong et al. Scene text recognition in multiple frames based on text tracking
He et al. Aggregating local context for accurate scene text detection
CN112115879A (zh) 一种遮挡敏感的自监督行人重识别方法及系统
Asgarian Dehkordi et al. Vehicle type recognition based on dimension estimation and bag of word classification
CN113221956A (zh) 基于改进的多尺度深度模型的目标识别方法及装置
Kota et al. Automated detection of handwritten whiteboard content in lecture videos for summarization
CN114943840A (zh) 机器学习模型的训练方法、图像的处理方法和电子设备
CN112380970B (zh) 基于局部区域搜索的视频目标检测方法
CN112347967B (zh) 一种复杂场景下融合运动信息的行人检测方法
CN111832497B (zh) 一种基于几何特征的文本检测后处理方法
US20240221426A1 (en) Behavior detection method, electronic device, and computer readable storage medium
CN116168380A (zh) 一种目标识别方法、模型训练方法及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220530

Address after: Room 215000, No. 201, Suzhou hi tech park, Jiangsu Province

Patentee after: Yantu Huiyun (Suzhou) Information Technology Co.,Ltd.

Address before: 215500 Changshou City South Three Ring Road No. 99, Suzhou, Jiangsu

Patentee before: CHANGSHU INSTITUTE OF TECHNOLOGY