CN109426782B - 对象检测方法和用于对象检测的神经网络系统 - Google Patents

对象检测方法和用于对象检测的神经网络系统 Download PDF

Info

Publication number
CN109426782B
CN109426782B CN201710756068.6A CN201710756068A CN109426782B CN 109426782 B CN109426782 B CN 109426782B CN 201710756068 A CN201710756068 A CN 201710756068A CN 109426782 B CN109426782 B CN 109426782B
Authority
CN
China
Prior art keywords
frame
feature map
current frame
pooling
object detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710756068.6A
Other languages
English (en)
Other versions
CN109426782A (zh
Inventor
李佳
石峰
刘伟恒
邹冬青
王强
柳贤锡
朴根柱
李贤九
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Priority to CN201710756068.6A priority Critical patent/CN109426782B/zh
Priority to KR1020180091901A priority patent/KR20190024689A/ko
Priority to US16/113,409 priority patent/US10769480B2/en
Publication of CN109426782A publication Critical patent/CN109426782A/zh
Application granted granted Critical
Publication of CN109426782B publication Critical patent/CN109426782B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • G06V20/42Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/248Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • G06V20/47Detecting features for summarising video content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • H04N7/188Capturing isolated or intermittent images triggered by the occurrence of a predetermined event, e.g. an object reaching a predetermined position
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • H04N7/183Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast for receiving images from a single remote source

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种对象检测方法和用于对象检测的神经网络系统。所述对象检测方法包括:(A)获取包括多个帧图像的图像序列中的当前帧图像;(B)从当前帧图像提取当前帧的特征图;(C)对当前帧的特征图进行池化,以获得当前帧的池化特征图,其中,当前帧的池化特征图包括与当前帧之前的各个帧图像分别对应的各个池化特征图的信息;(D)从当前帧的池化特征图检测对象。根据本发明的对象检测方法和用于对象检测的神经网络系统,能够通过将当前帧图像的特征图与当前帧图像之前的各个帧的池化特征图的信息进行结合,来更准确地检测对象。

Description

对象检测方法和用于对象检测的神经网络系统
技术领域
本发明涉及对象检测领域,更具体地讲,涉及一种对象检测方法和用于对象检测的神经网络系统。
背景技术
对象检测是计算机视觉领域中的一个热点问题,对象检测主要是在图像或视频中识别并检测出感兴趣的对象。对象检测在自动驾驶、无人机和基于手势的交互系统等领域中具有重要作用。因而,关于对象检测的研究日益受到关注。
通常的对象检测方法主要利用可变形部件模型及其变体来检测对象,该方法通常使用图像描述子(例如,HOG(方向梯度直方图)、SIFT(尺度不变特征变换)以及LBP(局部二值模式)等)作为特征,通过滑窗遍历整个图像,来寻找最大响应区域,从而检测对象。
此外,随着深度学习技术的发展,出现了基于深度神经网络的对象检测方法,并且该方法由于具有高效性而迅速被广泛使用。
然而,上述方法仅基于单帧图像进行对象检测操作,因而在基于单个图像的对象检测方面具有良好的检测效果,但是在基于视频图像的对象检测方面难以取得理想的检测结果。
近年来,动态视觉传感器(DVS)相机由于能够将视觉动态信号编码为异步的微秒级精度的事件流,进而通过事件流生成帧图像来跟踪快速运动的物体,而受到广泛关注。采用通过动态视觉传感器相机拍摄的帧图像来检测对象,能够较准确地检测出快速运动的物体。因而,当物体的运动速度很快时,可以基于动态视觉传感器相机拍摄的视频图像,通过使用以上描述的两种方法,获得较好的对象检测结果。然而,当物体的运动速度较慢时,却难以基于动态视觉传感器相机拍摄的图像来准确检测对象。
发明内容
本发明的示例性实施例在于提供一种对象检测方法和用于对象检测的神经网络系统。所述对象检测方法和用于对象检测的神经网络系统能够克服现有对象检测方法无法准确检测运动速度慢的物体的缺陷,并且所述对象检测方法和用于对象检测的神经网络系统能够通过较少的计算量来获得准确的检测结果,从而提高对象检测效率。
根据本发明示例性实施例的一方面,提供一种对象检测方法,所述对象检测方法包括:(A)获取包括多个帧图像的图像序列中的当前帧图像;(B)从当前帧图像提取当前帧的特征图;(C)对当前帧的特征图进行池化,以获得当前帧的池化特征图,其中,当前帧的池化特征图包括与当前帧之前的各个帧图像分别对应的各个池化特征图的信息;(D)从当前帧的池化特征图检测对象。
可选地,当当前帧图像为第一帧图像时,步骤(C)包括:仅使用第一帧的特征图获得第一帧的池化特征图,当当前帧图像不是第一帧图像时,步骤(C)包括:使用前一帧的池化特征图和当前帧的特征图,获得当前帧的池化特征图。
可选地,当当前帧图像不是第一帧图像时,步骤(C)包括:(C1)使用前一帧的池化特征图和当前帧的特征图,获得当前帧的权重图;(C2)使用前一帧的池化特征图、当前帧的特征图和当前帧的权重图,获得当前帧的池化特征图。
可选地,当当前帧图像为第t帧图像,且t为大于1的整数时,通过下面的等式计算当前帧的权重图中的各个权重值:ωt,i=Nmlp(ft-1,i,xt,i),其中,ωt,i表示第t帧的权重图中坐标为i的权重值,ωt,i的取值范围为[0,1],Nmlp表示多层感知器神经网络,ft-1,i和xt,i为多层感知器神经网络的输入,其中,ft-1,i表示第t-1帧的池化特征图中坐标为i的池化特征值,xt,i表示第t帧的特征图中坐标为i的特征值,其中,i表示二维坐标。
可选地,通过下面的等式计算第t帧的池化特征图中的各个池化特征值:ft,i=ρ[s(ft-1,it,i),xt,i],其中,ft,i表示第t帧的池化特征图中坐标为i的池化特征值,函数s用于将ft-1,i与ωt,i相乘,函数ρ为池化函数,用于选择通过函数s计算的值与xt,i中的最大值或用于计算通过函数s计算的值与xt,i的平均值。
可选地,当当前图像为第一帧图像时,步骤(C)包括:将第一帧的特征图用作第一帧的池化特征图。
可选地,通过动态视觉传感器相机进行拍摄来产生所述图像序列。
可选地,步骤(B)包括:通过对当前帧图像进行预定次数的卷积操作,来获得当前帧的特征图。
根据本发明示例性实施例的另一方面,提供一种用于对象检测的神经网络系统,所述神经网络系统包括:特征提取子网络,获取包括多个帧图像的图像序列中的当前帧图像,并从当前帧图像提取当前帧的特征图;时域池化子网络,对当前帧的特征图进行池化,以获得当前帧的池化特征图,其中,当前帧的池化特征图包括与当前帧之前的各个帧图像分别对应的各个池化特征图的信息;检测子网络,从当前帧的池化特征图检测对象。
可选地,当当前帧图像为第一帧图像时,时域池化子网络仅使用第一帧的特征图获得第一帧的池化特征图,当当前帧图像不是第一帧图像时,时域池化子网络使用前一帧的池化特征图和当前帧的特征图,获得当前帧的池化特征图。
可选地,当当前帧图像不是第一帧图像时,时域池化子网络使用前一帧的池化特征图和当前帧的特征图,获得当前帧的权重图,并使用前一帧的池化特征图、当前帧的特征图和当前帧的权重图,获得当前帧的池化特征图。
可选地,当当前帧图像为第t帧图像,且t为大于1的整数时,时域池化子网络通过下面的等式计算当前帧的权重图中的各个权重值:ωt,i=Nmlp(ft-1,i,xt,i),其中,ωt,i表示第t帧的权重图中坐标为i的权重值,ωt,i的取值范围为[0,1],Nmlp表示多层感知器神经网络,ft-1,i和xt,i为多层感知器神经网络的输入,其中,ft-1,i表示第t-1帧的池化特征图中坐标为i的池化特征值,xt,i表示第t帧的特征图中坐标为i的特征值,其中,i表示二维坐标。
可选地,时域池化子网络通过下面的等式计算第t帧的池化特征图中的各个池化特征值:ft,i=ρ[s(ft-1,it,i),xt,i],其中,ft,i表示第t帧的池化特征图中坐标为i的池化特征值,函数s用于将ft-1,i与ωt,i相乘,函数ρ为池化函数,ρ用于选择通过函数s计算的值与xt,i中的最大值或用于计算通过函数s计算的值与xt,i的平均值。
可选地,当当前图像为第一帧图像时,时域池化子网络将第一帧的特征图用作第一帧的池化特征图。
可选地,通过动态视觉传感器相机进行拍摄来产生所述图像序列。
可选地,特征提取子网络通过对当前帧图像进行预定次数的卷积操作,来获得当前帧的特征图。
根据本发明示例性实施例的另一方面,提供一种计算机可读存储介质,存储有当被处理器执行时使得处理器执行上述的对象检测方法的程序指令。
根据本发明的对象检测方法和用于对象检测的神经网络系统,能够通过将当前帧图像的特征图与当前帧图像之前的各个帧的池化特征图的信息进行结合,来更准确地检测对象。
附图说明
通过下面结合示例性地示出实施例的附图进行的描述,本发明示例性实施例的上述和其他目的和特点将会变得更加清楚,其中:
图1示出根据本发明示例性实施例的对象检测方法的流程图;
图2示出据本发明示例性实施例的动态视觉传感器相机生成帧图像的示例的示图;
图3示出根据本发明示例性实施例的对象检测方法中获得当前帧的池化特征图的步骤的流程图;
图4示出根据本发明示例性实施例的对象检测过程的示意图;
图5示出根据本发明示例性实施例的用于对象检测的神经网络系统的框图。
具体实施方式
以下,将参照附图更充分地描述本发明的示例性实施例,示例性实施例在附图中示出。然而,可以以许多不同的形式实施示例性实施例,并且不应被解释为局限于在此阐述的示例性实施例。相反,提供这些实施例从而本公开将会彻底和完整,并将完全地将示例性实施例的范围传达给本领域的技术人员。
图1示出根据本发明示例性实施例的对象检测方法的流程图。
参照图1,在步骤S100,获取包括多个帧图像的图像序列中的当前帧图像。
作为示例,可通过动态视觉传感器(DVS)相机进行拍摄来产生所述图像序列。这里,动态视觉传感器相机可通过对对象进行拍摄,来检测运动对象产生的事件流,并且使用预定时间段(例如,20毫秒)内产生的事件流生成一帧图像,从而视觉传感器相机可按照时间顺序生成包括多个帧图像的图像序列。
在步骤S200,从当前帧图像提取当前帧的特征图。
作为示例,可通过对当前帧图像进行预定次数的卷积操作,来获得当前帧的特征图。例如,可预先通过学习训练来获得卷积核,然后通过卷积核对当前帧进行多次卷积操作,来获得当前帧的特征图。
在步骤S300,对当前帧的特征图进行池化,以获得当前帧的池化特征图,其中,当前帧的池化特征图包括与当前帧之前的各个帧图像分别对应的各个池化特征图的信息。
这里,通过获得包括与当前帧之前的各个帧图像分别对应的各个池化特征图的信息的当前帧的池化特征图(即,获得的当前帧的池化特征图包括更多的关于运动的对象的信息),能够更有效地检测运动速度慢的对象。
由于如上所述动态视觉传感器相机通过使用预时间段内产生的事件流生成一帧图像,因此,当对象的运动速度较慢时,动态视觉传感器相机在预定时间段内可能仅检测到少量的事件流,从而生成的帧图像中包括的关于对象的信息较少,因而难以从动态视觉传感器相机获得的单帧图像准确地检测对象。但是,由于动态视觉传感器相机持续检测事件流,因此,动态视觉传感器相机持续检测的事件流中包括了更多关于对象的信息。
下面将参照图2详细描述动态视觉传感器相机使用事件流生成帧图像的示例。
图2示出据本发明示例性实施例的动态视觉传感器相机生成帧图像的示例的示图。
参照图2中的(a)和图2中的(e),整个矩形框表示动态视觉传感器相机在对象运动速度快的情况下和在对象运动速度慢的情况下获得的事件流。整个矩形框内的点划线曲线仅示意性地表示事件流,而并不用于体现事件流的密度或其他信息。
图2中的(b)表示动态视觉传感器相机使用在对象运动速度快的情况下的时间段T内获得的事件流生成的一帧图像。图2中的(c)表示动态视觉传感器相机使用在对象运动速度慢的情况下的时间段T内获得的事件流生成的一帧图像。图2中的(d)表示动态视觉传感器相机使用在对象运动速度慢的情况下的比时间段T长的时间段T’内获得的事件流生成的一帧图像。
对比图2中的(b)和图2中的(c)可以看出,图2中的(b)的图像中的对象较为清晰,而图2中的(c)的图像中的对象较为模糊。因此,当物体运动速度快的时候,可使用一帧图像较准确地检测对象,但当物体运动速度慢时,可能难以使用一帧图像准确地检测对象。
而对比图2中的(d)与图2中的(c)可以看出,当使用在对象运动速度慢的情况下的更长时间段内获得的事件流生成一帧图像时,生成的图像中图像也较为清晰,即,使用更长时间段内获得的事件流生成的图像中可包括较多的关于对象的信息。
因此,由图2可以看出,动态视觉传感器相机所获得的事件流中蕴含了充足的用于检测对象的信息,使用更长时间段内的事件流,可以生成更加清晰的运动对象的图像。然而,当对象的运动速度很慢时,即使使用更长时间段内的事件流也可能无法获得清晰的运动对象的图像,从而无法准确地从单帧图像检测对象。但是,在本发明中,通过递归地使用多个池化特征图,来获得当前帧的池化特征图,使当前帧的池化特征图包括与当前帧之前的各个帧图像分别对应的各个池化特征图的信息,从而能够在对象的运行速度很慢的情况下,准确地从当前帧的池化特征图检测对象。
具体地讲,在一个示例中,当当前帧图像为第一帧图像时,在图1中的步骤S300中可仅使用第一帧的特征图获得第一帧的池化特征图。这里,由于当获得第一帧图像时,在第一帧图像之前并未获得任何图像,因此,可仅使用第一帧的特征图获得第一帧的池化特征图。作为示例,当当前图像为第一帧图像时,在步骤S300中可将第一帧的特征图用作第一帧的池化特征图。
在另一示例中,当当前帧图像不是第一帧图像时,在步骤S300中可使用前一帧的池化特征图和当前帧的特征图,获得当前帧的池化特征图。这里,当当前帧图像不是第一帧图像时,可递归地使用前一帧的特征图获得当前帧的池化特征图,从而更充分地使用当前帧之前获得的事件流。
下面将参照图3详细说明当当前帧图像不是第一帧图像时,在步骤S300中获得当前帧的池化特征图的过程。
图3示出根据本发明示例性实施例的对象检测方法中获得当前帧的池化特征图的步骤的流程图。
参照图3,在步骤S310,使用前一帧的池化特征图和当前帧的特征图,获得当前帧的权重图。
这里,当前帧的权重图可指示当前帧与前一帧之间的关系,例如,指示相似程度。当当前帧与前一帧相似度越高时,权重值越接近1,当当前帧与前一帧相似度越低时,权重值越接近0。
具体地讲,作为示例,当当前帧图像为第t帧图像,且t为大于1的整数时,通过下面的等式计算当前帧的权重图中的各个权重值:
ωt,i=Nmlp(ft-1,i,xt,i)
其中,ωt,i表示第t帧的权重图中坐标为i的权重值,ωt,i的取值范围为[0,1],Nmlp表示多层感知器(MLP)神经网络,ft-1,i和xt,i为多层感知器神经网络的输入,其中,ft-1,i表示第t-1帧的池化特征图中坐标为i的池化特征值,xt,i表示第t帧的特征图中坐标为i的特征值,其中,i表示二维坐标。
作为示例,多层感知器神经网络Nmlp可通由多个1×1卷积层组成的全卷积网络实现,并以Sigmoid层结束,以输出取值范围为[0,1]的权重值。应该理解,以上仅是多层感知器神经网络Nmlp的示例,多层感知器神经网络可以是能够根据作为输入的池化特征值ft-1,i和特征值xt,i输出权重值的任意多层感知器神经网络。
这里,ωt,i为标量,ft-1,i和xt,i为矢量。作为示例,ft-1,i和xt,i可以是以坐标为i的各个通道值作为元素的矢量,各个通道值的取值范围为实数范围,应该理解,作为ft-1,i的元素的通道值为池化特征值,作为xt,i的元素的通道值为特征值。例如,ft-1,i和xt,i可以是以坐标为i的红色通道值、绿色通道值和蓝色通道值作为元素的矢量。坐标i可以是由X轴值、Y轴值组成的二维坐标。
应该理解,通过上述等式获得的第t帧的权重图中坐标为i的权重值ωt,i为:与第t帧的特征图中坐标为i的特征值相应的权重值。
在步骤S320,使用前一帧的池化特征图、当前帧的特征图和当前帧的权重图,获得当前帧的池化特征图。
这里,通过综合考虑前一帧的池化特征图、当前帧的特征图和当前帧的权重图,可获得更加精确的当前帧的池化特征图。
作为示例,可通过下面的等式计算第t帧的池化特征图中的各个池化特征值:
ft,i=ρ[s(ft-1,it,i),xt,i]
其中,ft,i表示第t帧的池化特征图中坐标为i的池化特征值,函数s用于将ft-1,i与ωt,i相乘,函数ρ为池化函数,用于选择通过函数s计算的值与xt,i中的最大值或用于计算通过函数s计算的值与xt,i的平均值。
这里,通过将权重值ωt,i应用于ft-1,i,可在获得当前帧的池化特征值ft,i的过程中,根据不同的坐标i调整前一帧的池化特征值ft-1,i对池化结果的影响。
再次参照图1,在步骤S400,从当前帧的池化特征图检测对象。这里,可通过各种方法从当前帧的池化特征图检测对象,不再赘述。
图4示出根据本发明示例性实施例的对象检测过程的示意图。
参照图4,图4中的(a)示出第t-2帧的特征图xt-2、第t-1帧的特征图xt-1和第t帧的特征图xt,图4中的(b)分别在对应位置示出与特征图xt-2、xt-1和xt对应的第t-2帧、第t-1帧和第t帧的图像。应该理解,在图4的示例中,t的取值范围为大于2的整数。
对于第t-2帧,首先,可通过前一帧(未示出)的池化特征图(未示出)和第t-2帧的特征图xt-2,获得第t-2帧的权重图ω。之后,进行池化(Pool)操作,即,通过获得的第t-2帧的权重图ω、第t-2帧前一帧的池化特征图和第t-2帧的特征图xt-2,来获得第t-2帧的池化特征图ft-2
对于第t-1帧,首先,可通过前一帧(第t-2帧)的池化特征图(ft-2)和第t-1帧的特征图xt-1,获得第t-1帧的权重图ω。之后,进行池化(Pool)操作,即,通过获得的第t-1帧的权重图ω、第t-2帧的池化特征图ft-2和第t-1帧的特征图xt-1,来获得第t-1帧的池化特征图ft-1
对于第t帧,首先,可通过前一帧(第t-1帧)的池化特征图(ft-1)和第t帧的特征图xt,获得第t帧的权重图ω。之后,进行池化(Pool)操作,即,通过获得的第t帧的权重图ω、第t-1帧的池化特征图ft-1和第t帧的特征图xt,来获得第t帧的池化特征图ft
在图4中的(c)的上部示出了最终获得的第t帧的池化特征图(pooled featuremap)。由以上分析可以看出,由于当前帧(第t帧)的池化特征图为递归地使用之前帧的池化特征图而得到的池化特征图,因此,当前帧的池化特征图包括与当前帧之前的各个帧图像分别对应的各个池化特征图的信息。
在图4中的(c)的下部示出了从第t帧的池化特征图检测对象的检测结果(detection result)。在图4中的(c)的下部所示的图中的框为预测框,该预测框的位置即为检查出的对象的位置。在图4的示例中,被检测的对象为用户的手。
根据本发明的对象检测方法,能够通过将当前帧图像的特征图与当前帧图像之前的各个帧的池化特征图的信息进行结合,来更准确地检测对象。此外,本发明的用于对象检测的神经网络系统能够通过较小的计算量来快速获得准确的检测结果,因而能够提高检测对象的效率。
图5示出根据本发明示例性实施例的用于对象检测的神经网络系统的框图。作为示例,根据本发明示例性实施例的用于对象检测的神经网络系统为基于快速区域卷积神经网(FRCNN)框架的神经网络系统。
如图5所示,根据本发明示例性实施例的用于对象检测的神经网络系统包括特征提取子网络100、时域池化子网络200和检测子网络300。
具体地讲,特征提取子网络100用于获取包括多个帧图像的图像序列中的当前帧图像,并从当前帧图像提取当前帧的特征图。
作为示例,可通过动态视觉传感器(DVS)相机进行拍摄来产生所述图像序列。这里,动态视觉传感器相机可通过对对象进行拍摄,来检测运动对象产生的事件流,并且使用预定时间段内产生的事件流生成一帧图像,从而视觉传感器相机可按照时间顺序生成包括多个帧图像的图像序列。
作为示例,可通过对当前帧图像进行预定次数的卷积操作,来获得当前帧的特征图。例如,可预先通过学习训练来获得卷积核,然后通过卷积核对当前帧进行多次卷积操作,来获得当前帧的特征图。
时域池化子网络200用于对当前帧的特征图进行池化,以获得当前帧的池化特征图,其中,当前帧的池化特征图包括与当前帧之前的各个帧图像分别对应的各个池化特征图的信息。
这里,通过获得包括与当前帧之前的各个帧图像分别对应的各个池化特征图的信息的当前帧的池化特征图(即,获得的当前帧的池化特征图包括更多的关于运动的对象的信息),而能够更有效地检测运动速度慢的对象。
已经参照图2详细描述了动态视觉传感器相机使用事件流生成帧图像的示例以及使用动态视觉传感器相机获得的单帧图像难以准确检测运动速度慢的对象的原因,这里不再赘述。
根据本发明的示例性实施例,在一个示例中,当当前帧图像为第一帧图像时,时域池化子网络200可仅使用第一帧的特征图获得第一帧的池化特征图。这里,由于当获得第一帧图像时,在第一帧图像之前并未获得任何图像,因此,时域池化子网络200可仅使用第一帧的特征图获得第一帧的池化特征图。作为示例,当当前图像为第一帧图像时,时域池化子网络200可将第一帧的特征图用作第一帧的池化特征图。
在另一示例中,当当前帧图像不是第一帧图像时,时域池化子网络200可使用前一帧的池化特征图和当前帧的特征图,获得当前帧的池化特征图。这里,当当前帧图像不是第一帧图像时,时域池化子网络200可递归地使用前一帧的特征图获得当前帧的池化特征图。
具体地讲,当当前帧图像不是第一帧图像时,时域池化子网络200可使用前一帧的池化特征图和当前帧的特征图,获得当前帧的权重图,并使用前一帧的池化特征图、当前帧的特征图和当前帧的权重图,获得当前帧的池化特征图。
这里,当前帧的权重图可指示当前帧与前一帧之间的关系,例如,指示相似程度,当当前帧与前一帧相似度越高时,权重值越接近1,当当前帧与前一帧相似度越低时,权重值越接近0。
具体地讲,作为示例,当当前帧图像为第t帧图像,且t为大于1的整数时,通过下面的等式计算当前帧的权重图中的各个权重值:
ωt,i=Nmlp(ft-1,i,xt,i)
其中,ωt,i表示第t帧的权重图中坐标为i的权重值,ωt,i的取值范围为[0,1],Nmlp表示多层感知器(MLP)神经网络,ft-1,i和xt,i为多层感知器神经网络的输入,其中,ft-1,i表示第t-1帧的池化特征图中坐标为i的池化特征值,xt,i表示第t帧的特征图中坐标为i的特征值,其中,i表示二维坐标。
作为示例,多层感知器神经网络Nmlp可通由多个1×1卷积层组成的全卷积网络实现,并以Sigmoid层结束,以输出取值范围为[0,1]的权重值。应该理解,以上仅是多层感知器神经网络Nmlp的示例,多层感知器神经网络可以是能够根据作为输入的池化特征值ft-1,i和特征值xt,i输出权重值的任意多层感知器神经网络。
这里,ωt,i为标量,ft-1,i和xt,i为矢量。作为示例,ft-1,i和xt,i可以是以坐标为i的各个通道值作为元素的矢量,各个通道值的取值范围为实数范围,应该理解,作为ft-1,i的元素的通道值为池化特征值,作为xt,i的元素的通道值为特征值。例如,ft-1,i和xt,i可以是以坐标为i的红色通道值、绿色通道值和蓝色通道值作为元素的矢量。坐标i可以是由X轴值、Y轴值组成的二维坐标。
应该理解,通过上述等式获得的第t帧的权重图中坐标为i的权重值ωt,i为:与第t帧的特征图中坐标为i的特征值相应的权重值。
之后,通过综合考虑前一帧的池化特征图、当前帧的特征图和当前帧的权重图,可获得更加精确的当前帧的池化特征图。
作为示例,可通过下面的等式计算第t帧的池化特征图中的各个池化特征值:
ft,i=ρ[s(ft-1,it,i),xt,i]
其中,ft,i表示第t帧的池化特征图中坐标为i的池化特征值,函数s用于将ft-1,i与ωt,i相乘,函数ρ为池化函数,用于选择通过函数s计算的值与xt,i中的最大值或用于计算通过函数s计算的值与xt,i的平均值。
这里,通过将权重值ωt,i应用于ft-1,i,可在获得当前帧的池化特征值ft,i的过程中,根据不同的坐标i调整前一帧的池化特征值ft-1,i对池化结果的影响。
检测子网络300用于从当前帧的池化特征图检测对象。这里,检测子网络300可通过使用各种方法从当前帧的池化特征图检测对象,不再赘述。
已经参照图4详细描述了根据本发明示例性实施例的检测对象的过程,这里不再赘述。
下面以本发明示例性实施例的用于对象检测的神经网络系统(简称为RATP)、现有的用于检测对象的神经网络系统(例如,长短期记忆网络(LSTM)、序列非极大抑制网络(Seq-NMS))为示例,以表格的形式示出通过实验获得的RATP与LSTM和Seq-NMS的检测精度。
检测方式 检测精度(IOU=0.3) 平均IOU
基础神经网络 73.69% 0.634
RATP 79.37% 0.663
LSTM 79.78% 0.687
Seq-NMS 80.06% 0.810
LSTM+RATP 84.05% 0.682
Seq-NMS+RATP 86.53% 0.811
表1
参照表1,第一列示出检测对象的检测方式,这里,基础神经网络可指未添加任何其他结构的FRCNN网络,LSTM+RATP指结合使用LSTM和RATP的检测方式,Seq-NMS+RATP指结合使用Seq-NMS和RATP的检测方式。第二列是指将IOU(交集与并集比,Intersection overUnion)的阈值设置为0.3的情况下的检测精度,这里的检测精度可指图4中用于预测对象的预测框的精度。将IOU的阈值设置为0.3的情况下的检测精度是指如果与预测框对应的IOU的值大于或等于0.3则确定检测结果正确(即,预测框为正确预测框)的情况下的检测精度。平均IOU指在实验过程中的实际IOU的平均值,即,与正确预测框对应的实际IOU的平均值。这里的平均IOU反映图4中用于预测对象的预测框的预测位置的精度。
由表1可以看出,根据本发明的示例性实施例的神经网络系统具有高于基础神经网络系统并与现有的LSTM和Seq-NMS基本相同的检测精度。并且当与现有的LSTM或Seq-NMS结合使用时,检测精度明显比单独使用LSTM或Seq-NMS时的检测精度高,因此可以看出,根据本发明的示例性实施例的用于对象检测的神经网络系统与现有的LSTM和Seq-NMS在检测对象上具有互补的特点。因此,根据本发明的示例性实施例的用于对象检测的神经网络系统弥补了现有的LSTM和Seq-NMS检测方面的不足。现有的LSTM和Seq-NMS对运动速度快的对象具有较好的检测效果,而根据本发明的示例性实施例的用于对象检测的神经网络系统在检测运动速度慢的对象方面具有突出的优势。
根据本发明的用于对象检测的神经网络系统,能够通过将当前帧图像的特征图与当前帧图像之前的各个帧的池化特征图的信息进行结合,来更准确地检测对象。此外,本发明的用于对象检测的神经网络系统为端到端的神经网络系统,因而能够通过较小的计算量来快速获得准确的检测结果,因而能够提高检测对象的效率。
根据本发明的示例性实施例还提供一种计算机可读存储介质。该计算机可读存储介质存储有当被处理器执行时使得处理器执行上述对象检测方法的程序指令。该计算机可读记录介质是可存储由计算机系统读出的数据的任意数据存储装置。计算机可读记录介质的示例包括:只读存储器、随机存取存储器、只读光盘、磁带、软盘、光数据存储装置和载波(诸如经有线或无线传输路径通过互联网的数据传输)。计算机可读记录介质也可分布于连接网络的计算机系统,从而计算机可读代码以分布式存储和执行。此外,完成本发明的功能程序、代码和代码段可容易地被与本发明相关的领域的普通程序员在本发明的范围之内解释。
应注意,本发明的以上各个实施例仅仅是示例性的,而本发明并不受限于此。本领域技术人员应该理解:在不脱离本发明的原理和精神的情况下,可对这些实施例进行改变,其中,本发明的范围在权利要求及其等同物中限定。

Claims (21)

1.一种对象检测方法,所述对象检测方法包括:
由至少一个处理器执行以下操作:
(A)获取包括多个帧图像的图像序列中的当前帧图像;
(B)从当前帧图像提取当前帧的特征图;
(C)对当前帧的特征图进行池化,以获得当前帧的池化特征图,其中,当前帧的池化特征图包括与当前帧之前的各个帧图像分别对应的各个池化特征图的信息;
(D)从当前帧的池化特征图检测对象,
其中,所述至少一个处理器是基于所述多个帧图像确定对象运动速度的神经网络系统的一部分,
其中,所述对象检测方法还包括:
向长短期记忆网络LSTM或序列非极大抑制Seq-NMS网络提供所述多个帧图像;
在对象运动速度大于或等于阈值的情况下,使用所述LSTM或所述Seq-NMS网络的对象检测结果作为最终的对象检测结果;否则,使用所述至少一个处理器的对象检结果测作为最终的对象检测结果。
2.如权利要求1所述的对象检测方法,其中,当当前帧图像为第一帧图像时,步骤(C)包括:仅使用第一帧的特征图获得第一帧的池化特征图,
当当前帧图像不是第一帧图像时,步骤(C)包括:使用前一帧的池化特征图和当前帧的特征图,获得当前帧的池化特征图。
3.如权利要求2所述的对象检测方法,其中,步骤(C)包括:
(C1)使用前一帧的池化特征图和当前帧的特征图,获得当前帧的权重图;
(C2)使用前一帧的池化特征图、当前帧的特征图和当前帧的权重图,获得当前帧的池化特征图。
4.如权利要求3所述的对象检测方法,其中,当当前帧图像为第t帧图像,且t为大于1的整数时,通过下面的等式计算当前帧的权重图中的各个权重值:
ωt,i=Nmlp(ft-1,i,xt,i)
其中,ωt,i表示第t帧的权重图中坐标为i的权重值,ωt,i的取值范围为[0,1],Nmlp表示多层感知器神经网络,ft-1,i和xt,i为多层感知器神经网络的输入,其中,ft-1,i表示第t-1帧的池化特征图中坐标为i的池化特征值,xt,i表示第t帧的特征图中坐标为i的特征值,其中,i表示二维坐标。
5.如权利要求4所述的对象检测方法,其中,通过下面的等式计算第t帧的池化特征图中的各个池化特征值:
ft,i=ρ[s(ft-1,it,i),xt,i]
其中,ft,i表示第t帧的池化特征图中坐标为i的池化特征值,函数s用于将ft-1,i与ωt,i相乘,函数ρ为池化函数,用于选择通过函数s计算的值与xt,i中的最大值或用于计算通过函数s计算的值与xt,i的平均值。
6.如权利要求2所述的对象检测方法,其中,当当前图像为第一帧图像时,步骤(C)包括:将第一帧的特征图用作第一帧的池化特征图。
7.如权利要求1所述的对象检测方法,其中,当前帧的池化特征图是通过递归应用当前帧之前的各个帧图像的多个池化特征图获得的。
8.如权利要求1所述的对象检测方法,其中,通过动态视觉传感器相机进行拍摄来产生所述图像序列。
9.如权利要求8所述的对象检测方法,其中,通过动态视觉传感器相机进行拍摄来产生所述图像序列,包括:
通过动态视觉传感器相机获得事件流,基于获得的事件流生成所述图像序列。
10.如权利要求1所述的对象检测方法,其中,步骤(B)包括:通过对当前帧图像进行预定次数的卷积操作,来获得当前帧的特征图。
11.一种用于对象检测的神经网络系统,所述神经网络系统包括:
第一神经网络系统,包括:
特征提取子网络,获取包括多个帧图像的图像序列中的当前帧图像,并从当前帧图像提取当前帧的特征图;
时域池化子网络,对当前帧的特征图进行池化,以获得当前帧的池化特征图,其中,当前帧的池化特征图包括与当前帧之前的各个帧图像分别对应的各个池化特征图的信息;
检测子网络,从当前帧的池化特征图检测对象;
第二神经网络系统,被配置为根据图像序列检测对象并且包括长短期记忆网络LSTM或序列非极大抑制Seq-NMS网络,
其中,第一或第二神经网络系统被配置为确定对象运动速度,在对象运动速度大于或等于阈值的情况下,使用第二神经网络系统的对象检测结果作为最终的对象检测结果;否则,使用第一神经网络系统的对象检结果测作为最终的对象检测结果。
12.如权利要求11所述的神经网络系统,其中,当当前帧图像为第一帧图像时,时域池化子网络仅使用第一帧的特征图获得第一帧的池化特征图,
当当前帧图像不是第一帧图像时,时域池化子网络使用前一帧的池化特征图和当前帧的特征图,获得当前帧的池化特征图。
13.如权利要求12所述的神经网络系统,其中,时域池化子网络使用前一帧的池化特征图和当前帧的特征图,获得当前帧的权重图,并使用前一帧的池化特征图、当前帧的特征图和当前帧的权重图,获得当前帧的池化特征图。
14.如权利要求13所述的神经网络系统,其中,当当前帧图像为第t帧图像,且t为大于1的整数时,时域池化子网络通过下面的等式计算当前帧的权重图中的各个权重值:
ωt,i=Nmlp(ft-1,i,xt,i)
其中,ωt,i表示第t帧的权重图中坐标为i的权重值,ωt,i的取值范围为[0,1],Nmlp表示多层感知器神经网络,ft-1,i和xt,i为多层感知器神经网络的输入,其中,ft-1,i表示第t-1帧的池化特征图中坐标为i的池化特征值,xt,i表示第t帧的特征图中坐标为i的特征值,其中,i表示二维坐标。
15.如权利要求14所述的神经网络系统,其中,时域池化子网络通过下面的等式计算第t帧的池化特征图中的各个池化特征值:
ft,i=ρ[s(ft-1,it,i),xt,i]
其中,ft,i表示第t帧的池化特征图中坐标为i的池化特征值,函数s用于将ft-1,i与ωt,i相乘,函数ρ为池化函数,ρ用于选择通过函数s计算的值与xt,i中的最大值或用于计算通过函数s计算的值与xt,i的平均值。
16.如权利要求12所述的神经网络系统,其中,当当前图像为第一帧图像时,时域池化子网络将第一帧的特征图用作第一帧的池化特征图。
17.如权利要求11所述的神经网络系统,其中,当前帧的池化特征图是通过递归应用当前帧之前的各个帧图像的多个池化特征图获得的。
18.如权利要求11所述的神经网络系统,其中,通过动态视觉传感器相机进行拍摄来产生所述图像序列。
19.如权利要求18所述的神经网络系统,其中,通过动态视觉传感器相机进行拍摄来产生所述图像序列,包括:
通过动态视觉传感器相机获得事件流,基于获得的事件流生成所述图像序列。
20.如权利要求11所述的神经网络系统,其中,特征提取子网络通过对当前帧图像进行预定次数的卷积操作,来获得当前帧的特征图。
21.一种计算机可读存储介质,存储有当被处理器执行时使得处理器执行如权利要求1至10中任一项所述的对象检测方法的程序指令。
CN201710756068.6A 2017-08-29 2017-08-29 对象检测方法和用于对象检测的神经网络系统 Active CN109426782B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201710756068.6A CN109426782B (zh) 2017-08-29 2017-08-29 对象检测方法和用于对象检测的神经网络系统
KR1020180091901A KR20190024689A (ko) 2017-08-29 2018-08-07 객체 검출 방법 및 객체 검출을 위한 뉴럴 네트워크 시스템
US16/113,409 US10769480B2 (en) 2017-08-29 2018-08-27 Object detection method and system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710756068.6A CN109426782B (zh) 2017-08-29 2017-08-29 对象检测方法和用于对象检测的神经网络系统

Publications (2)

Publication Number Publication Date
CN109426782A CN109426782A (zh) 2019-03-05
CN109426782B true CN109426782B (zh) 2023-09-19

Family

ID=65437350

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710756068.6A Active CN109426782B (zh) 2017-08-29 2017-08-29 对象检测方法和用于对象检测的神经网络系统

Country Status (3)

Country Link
US (1) US10769480B2 (zh)
KR (1) KR20190024689A (zh)
CN (1) CN109426782B (zh)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102143928B1 (ko) * 2018-02-05 2020-08-13 고려대학교 산학협력단 인공 신경망 장치 및 그 동작 방법
US11048935B2 (en) * 2019-01-28 2021-06-29 Adobe Inc. Generating shift-invariant neural network outputs
CN111666960B (zh) * 2019-03-06 2024-01-19 南京地平线机器人技术有限公司 图像识别方法、装置、电子设备及可读存储介质
CN109993772B (zh) * 2019-03-26 2022-12-20 东北大学 基于时空采样的实例级别特征聚合方法
CN111753821A (zh) * 2019-03-27 2020-10-09 杭州海康威视数字技术股份有限公司 一种文本检测方法和装置
KR102224218B1 (ko) * 2019-04-30 2021-03-08 한양대학교 산학협력단 비디오 시간 정보를 활용하는 딥러닝 기반 물체 검출 방법 및 장치
KR102420104B1 (ko) 2019-05-16 2022-07-12 삼성전자주식회사 영상 처리 장치 및 그 동작방법
KR102159645B1 (ko) 2019-05-28 2020-09-25 서울시립대학교 산학협력단 시뮬레이션 장치 및 방법
KR102095152B1 (ko) * 2019-06-07 2020-03-30 건국대학교 산학협력단 상황 인지 방법 및 이를 수행하는 장치
CN110399908B (zh) * 2019-07-04 2021-06-08 西北工业大学 基于事件型相机的分类方法和装置、存储介质、电子装置
CN110390685B (zh) * 2019-07-24 2021-03-09 中国人民解放军国防科技大学 一种基于事件相机的特征点跟踪方法
CN110555865B (zh) * 2019-08-07 2022-04-19 清华大学无锡应用技术研究院 一种基于帧图像的动态视觉传感器样本集建模方法
US11363461B2 (en) 2019-08-23 2022-06-14 Electronics And Telecommunications Research Institute Method for managing security key of mobile communication system, and apparatus therefor
CN110570460B (zh) * 2019-09-06 2024-02-13 腾讯云计算(北京)有限责任公司 目标跟踪方法、装置、计算机设备及计算机可读存储介质
CN111242066B (zh) * 2020-01-17 2023-09-05 中国人民解放军国防科技大学 大尺寸图像目标检测方法、装置及计算机可读存储介质
WO2021161652A1 (ja) * 2020-02-10 2021-08-19 ソニーセミコンダクタソリューションズ株式会社 信号処理装置、イメージセンサ、撮像装置、信号処理方法
CN113496136A (zh) * 2020-03-18 2021-10-12 中强光电股份有限公司 无人机及其影像识别方法
US11741712B2 (en) * 2020-09-28 2023-08-29 Nec Corporation Multi-hop transformer for spatio-temporal reasoning and localization
EP4196909A1 (en) * 2020-10-08 2023-06-21 Sony Group Corporation Object classification and related applications based on frame and event camera processing
US20220114379A1 (en) * 2020-10-08 2022-04-14 Son Group Corporation Object classification and related applications based on frame and event camera processing
CN112435295A (zh) * 2020-11-12 2021-03-02 浙江大华技术股份有限公司 黑体位置检测方法、电子装置以及计算机可读存储介质
KR102524823B1 (ko) * 2020-12-04 2023-04-21 포항공과대학교 산학협력단 신경망 모델 기반 비디오의 움직임 특징 정보 추출 방법 및 분석장치
US11790508B2 (en) 2021-04-21 2023-10-17 Baker Hughes Holdings Llc Computer vision predictions for non-destructive testing
CN113688750A (zh) * 2021-08-27 2021-11-23 上海高德威智能交通系统有限公司 车厢状态检测方法及装置
CN114612791B (zh) * 2022-05-11 2022-07-29 西南民族大学 一种基于改进注意力机制的目标检测方法及装置
CN116883648B (zh) * 2023-09-06 2024-02-13 南方电网数字电网研究院股份有限公司 一种异物检测方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105354528A (zh) * 2015-07-15 2016-02-24 中国科学院深圳先进技术研究院 基于深度图像序列的人体动作识别的方法及系统
CN106845351A (zh) * 2016-05-13 2017-06-13 苏州大学 一种用于视频的基于双向长短时记忆单元的行为识别方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2114080A1 (en) 2008-04-30 2009-11-04 Thomson Licensing Method for assessing the quality of a distorted version of a frame sequence
US8886533B2 (en) 2011-10-25 2014-11-11 At&T Intellectual Property I, L.P. System and method for combining frame and segment level processing, via temporal pooling, for phonetic classification
US9275308B2 (en) 2013-05-31 2016-03-01 Google Inc. Object detection using deep neural networks
US10043112B2 (en) 2014-03-07 2018-08-07 Qualcomm Incorporated Photo management
US9536293B2 (en) 2014-07-30 2017-01-03 Adobe Systems Incorporated Image assessment using deep convolutional neural networks
US9928213B2 (en) 2014-09-04 2018-03-27 Qualcomm Incorporated Event-driven spatio-temporal short-time fourier transform processing for asynchronous pulse-modulated sampled signals
WO2016054778A1 (en) 2014-10-09 2016-04-14 Microsoft Technology Licensing, Llc Generic object detection in images
KR20160091786A (ko) * 2015-01-26 2016-08-03 삼성전자주식회사 사용자 관리 방법 및 사용자 관리 장치
US9524450B2 (en) 2015-03-04 2016-12-20 Accenture Global Services Limited Digital image processing using convolutional neural networks
US10068138B2 (en) 2015-09-17 2018-09-04 Canon Kabushiki Kaisha Devices, systems, and methods for generating a temporal-adaptive representation for video-event classification
US9805264B2 (en) 2015-10-19 2017-10-31 Disney Enterprises, Inc. Incremental learning framework for object detection in videos
US9959468B2 (en) 2015-11-06 2018-05-01 The Boeing Company Systems and methods for object tracking and classification
JP6658033B2 (ja) * 2016-02-05 2020-03-04 富士通株式会社 演算処理回路、および情報処理装置
CN106203450A (zh) 2016-07-11 2016-12-07 国家新闻出版广电总局广播科学研究院 基于深度学习框架对图像进行特征提取的目标检测方法
US20180129742A1 (en) * 2016-11-10 2018-05-10 Qualcomm Incorporated Natural language object tracking

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105354528A (zh) * 2015-07-15 2016-02-24 中国科学院深圳先进技术研究院 基于深度图像序列的人体动作识别的方法及系统
CN106845351A (zh) * 2016-05-13 2017-06-13 苏州大学 一种用于视频的基于双向长短时记忆单元的行为识别方法

Also Published As

Publication number Publication date
US20190065885A1 (en) 2019-02-28
US10769480B2 (en) 2020-09-08
KR20190024689A (ko) 2019-03-08
CN109426782A (zh) 2019-03-05

Similar Documents

Publication Publication Date Title
CN109426782B (zh) 对象检测方法和用于对象检测的神经网络系统
CN109035304B (zh) 目标跟踪方法、介质、计算设备和装置
US10872262B2 (en) Information processing apparatus and information processing method for detecting position of object
WO2017096949A1 (zh) 一种对目标进行跟踪拍摄的方法、控制装置及系统
WO2019023921A1 (zh) 一种手势识别方法、装置及设备
CN107452015B (zh) 一种具有重检测机制的目标跟踪系统
US11138742B2 (en) Event-based feature tracking
CN110942006B (zh) 运动姿态识别方法、运动姿态识别装置、终端设备及介质
US20230134967A1 (en) Method for recognizing activities using separate spatial and temporal attention weights
US9280703B2 (en) Apparatus and method for tracking hand
JP2009510541A (ja) オブジェクト追跡方法及びオブジェクト追跡装置
CN111104925B (zh) 图像处理方法、装置、存储介质和电子设备
KR20210099450A (ko) 딥러닝을 이용한 원거리 소형 드론 탐지 방법
Liu et al. ACDnet: An action detection network for real-time edge computing based on flow-guided feature approximation and memory aggregation
JPWO2018235219A1 (ja) 自己位置推定方法、自己位置推定装置および自己位置推定プログラム
Malav et al. DHSGAN: An end to end dehazing network for fog and smoke
CN110992404A (zh) 目标跟踪方法、装置和系统及存储介质
CN113657200A (zh) 一种基于掩码r-cnn的视频行为动作识别方法及系统
CN107665495B (zh) 对象跟踪方法及对象跟踪装置
CN110009683B (zh) 基于MaskRCNN的实时平面上物体检测方法
CN112184767A (zh) 对运动物体进行轨迹跟踪的方法、装置、设备及存储介质
CN110969138A (zh) 人体姿态估计方法及设备
CN113916223B (zh) 定位方法及装置、设备、存储介质
CN114550298A (zh) 短视频的动作识别方法及系统
CN109389089B (zh) 基于人工智能算法的多人行为识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant