CN109426782B

CN109426782B - 对象检测方法和用于对象检测的神经网络系统

Info

Publication number: CN109426782B
Application number: CN201710756068.6A
Authority: CN
Inventors: 李佳; 石峰; 刘伟恒; 邹冬青; 王强; 柳贤锡; 朴根柱; 李贤九
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2017-08-29
Filing date: 2017-08-29
Publication date: 2023-09-19
Anticipated expiration: 2037-08-29
Also published as: US20190065885A1; US10769480B2; KR20190024689A; CN109426782A

Abstract

本发明提供一种对象检测方法和用于对象检测的神经网络系统。所述对象检测方法包括：(A)获取包括多个帧图像的图像序列中的当前帧图像；(B)从当前帧图像提取当前帧的特征图；(C)对当前帧的特征图进行池化，以获得当前帧的池化特征图，其中，当前帧的池化特征图包括与当前帧之前的各个帧图像分别对应的各个池化特征图的信息；(D)从当前帧的池化特征图检测对象。根据本发明的对象检测方法和用于对象检测的神经网络系统，能够通过将当前帧图像的特征图与当前帧图像之前的各个帧的池化特征图的信息进行结合，来更准确地检测对象。

Description

对象检测方法和用于对象检测的神经网络系统

技术领域

本发明涉及对象检测领域，更具体地讲，涉及一种对象检测方法和用于对象检测的神经网络系统。

背景技术

对象检测是计算机视觉领域中的一个热点问题，对象检测主要是在图像或视频中识别并检测出感兴趣的对象。对象检测在自动驾驶、无人机和基于手势的交互系统等领域中具有重要作用。因而，关于对象检测的研究日益受到关注。

通常的对象检测方法主要利用可变形部件模型及其变体来检测对象，该方法通常使用图像描述子(例如，HOG(方向梯度直方图)、SIFT(尺度不变特征变换)以及LBP(局部二值模式)等)作为特征，通过滑窗遍历整个图像，来寻找最大响应区域，从而检测对象。

此外，随着深度学习技术的发展，出现了基于深度神经网络的对象检测方法，并且该方法由于具有高效性而迅速被广泛使用。

然而，上述方法仅基于单帧图像进行对象检测操作，因而在基于单个图像的对象检测方面具有良好的检测效果，但是在基于视频图像的对象检测方面难以取得理想的检测结果。

近年来，动态视觉传感器(DVS)相机由于能够将视觉动态信号编码为异步的微秒级精度的事件流，进而通过事件流生成帧图像来跟踪快速运动的物体，而受到广泛关注。采用通过动态视觉传感器相机拍摄的帧图像来检测对象，能够较准确地检测出快速运动的物体。因而，当物体的运动速度很快时，可以基于动态视觉传感器相机拍摄的视频图像，通过使用以上描述的两种方法，获得较好的对象检测结果。然而，当物体的运动速度较慢时，却难以基于动态视觉传感器相机拍摄的图像来准确检测对象。

发明内容

本发明的示例性实施例在于提供一种对象检测方法和用于对象检测的神经网络系统。所述对象检测方法和用于对象检测的神经网络系统能够克服现有对象检测方法无法准确检测运动速度慢的物体的缺陷，并且所述对象检测方法和用于对象检测的神经网络系统能够通过较少的计算量来获得准确的检测结果，从而提高对象检测效率。

根据本发明示例性实施例的一方面，提供一种对象检测方法，所述对象检测方法包括：(A)获取包括多个帧图像的图像序列中的当前帧图像；(B)从当前帧图像提取当前帧的特征图；(C)对当前帧的特征图进行池化，以获得当前帧的池化特征图，其中，当前帧的池化特征图包括与当前帧之前的各个帧图像分别对应的各个池化特征图的信息；(D)从当前帧的池化特征图检测对象。

可选地，当当前帧图像为第一帧图像时，步骤(C)包括：仅使用第一帧的特征图获得第一帧的池化特征图，当当前帧图像不是第一帧图像时，步骤(C)包括：使用前一帧的池化特征图和当前帧的特征图，获得当前帧的池化特征图。

可选地，当当前帧图像不是第一帧图像时，步骤(C)包括：(C1)使用前一帧的池化特征图和当前帧的特征图，获得当前帧的权重图；(C2)使用前一帧的池化特征图、当前帧的特征图和当前帧的权重图，获得当前帧的池化特征图。

可选地，当当前帧图像为第t帧图像，且t为大于1的整数时，通过下面的等式计算当前帧的权重图中的各个权重值：ω_t,i＝N_mlp(f_t-1,i,x_t,i)，其中，ω_t,i表示第t帧的权重图中坐标为i的权重值，ω_t,i的取值范围为[0,1]，N_mlp表示多层感知器神经网络，f_t-1,i和x_t,i为多层感知器神经网络的输入，其中，f_t-1,i表示第t-1帧的池化特征图中坐标为i的池化特征值，x_t,i表示第t帧的特征图中坐标为i的特征值，其中，i表示二维坐标。

可选地，通过下面的等式计算第t帧的池化特征图中的各个池化特征值：f_t,i＝ρ[s(f_t-1,i,ω_t,i),x_t,i]，其中，f_t,i表示第t帧的池化特征图中坐标为i的池化特征值，函数s用于将f_t-1,i与ω_t,i相乘，函数ρ为池化函数，用于选择通过函数s计算的值与x_t,i中的最大值或用于计算通过函数s计算的值与x_t,i的平均值。

可选地，当当前图像为第一帧图像时，步骤(C)包括：将第一帧的特征图用作第一帧的池化特征图。

可选地，通过动态视觉传感器相机进行拍摄来产生所述图像序列。

可选地，步骤(B)包括：通过对当前帧图像进行预定次数的卷积操作，来获得当前帧的特征图。

根据本发明示例性实施例的另一方面，提供一种用于对象检测的神经网络系统，所述神经网络系统包括：特征提取子网络，获取包括多个帧图像的图像序列中的当前帧图像，并从当前帧图像提取当前帧的特征图；时域池化子网络，对当前帧的特征图进行池化，以获得当前帧的池化特征图，其中，当前帧的池化特征图包括与当前帧之前的各个帧图像分别对应的各个池化特征图的信息；检测子网络，从当前帧的池化特征图检测对象。

可选地，当当前帧图像为第一帧图像时，时域池化子网络仅使用第一帧的特征图获得第一帧的池化特征图，当当前帧图像不是第一帧图像时，时域池化子网络使用前一帧的池化特征图和当前帧的特征图，获得当前帧的池化特征图。

可选地，当当前帧图像不是第一帧图像时，时域池化子网络使用前一帧的池化特征图和当前帧的特征图，获得当前帧的权重图，并使用前一帧的池化特征图、当前帧的特征图和当前帧的权重图，获得当前帧的池化特征图。

可选地，当当前帧图像为第t帧图像，且t为大于1的整数时，时域池化子网络通过下面的等式计算当前帧的权重图中的各个权重值：ω_t,i＝N_mlp(f_t-1,i,x_t,i)，其中，ω_t,i表示第t帧的权重图中坐标为i的权重值，ω_t,i的取值范围为[0,1]，N_mlp表示多层感知器神经网络，f_t-1,i和x_t,i为多层感知器神经网络的输入，其中，f_t-1,i表示第t-1帧的池化特征图中坐标为i的池化特征值，x_t,i表示第t帧的特征图中坐标为i的特征值，其中，i表示二维坐标。

可选地，时域池化子网络通过下面的等式计算第t帧的池化特征图中的各个池化特征值：f_t,i＝ρ[s(f_t-1,i,ω_t,i),x_t,i]，其中，f_t,i表示第t帧的池化特征图中坐标为i的池化特征值，函数s用于将f_t-1,i与ω_t,i相乘，函数ρ为池化函数，ρ用于选择通过函数s计算的值与x_t,i中的最大值或用于计算通过函数s计算的值与x_t,i的平均值。

可选地，当当前图像为第一帧图像时，时域池化子网络将第一帧的特征图用作第一帧的池化特征图。

可选地，特征提取子网络通过对当前帧图像进行预定次数的卷积操作，来获得当前帧的特征图。

根据本发明示例性实施例的另一方面，提供一种计算机可读存储介质，存储有当被处理器执行时使得处理器执行上述的对象检测方法的程序指令。

根据本发明的对象检测方法和用于对象检测的神经网络系统，能够通过将当前帧图像的特征图与当前帧图像之前的各个帧的池化特征图的信息进行结合，来更准确地检测对象。

附图说明

通过下面结合示例性地示出实施例的附图进行的描述，本发明示例性实施例的上述和其他目的和特点将会变得更加清楚，其中：

图1示出根据本发明示例性实施例的对象检测方法的流程图；

图2示出据本发明示例性实施例的动态视觉传感器相机生成帧图像的示例的示图；

图3示出根据本发明示例性实施例的对象检测方法中获得当前帧的池化特征图的步骤的流程图；

图4示出根据本发明示例性实施例的对象检测过程的示意图；

图5示出根据本发明示例性实施例的用于对象检测的神经网络系统的框图。

具体实施方式

以下，将参照附图更充分地描述本发明的示例性实施例，示例性实施例在附图中示出。然而，可以以许多不同的形式实施示例性实施例，并且不应被解释为局限于在此阐述的示例性实施例。相反，提供这些实施例从而本公开将会彻底和完整，并将完全地将示例性实施例的范围传达给本领域的技术人员。

图1示出根据本发明示例性实施例的对象检测方法的流程图。

参照图1，在步骤S100，获取包括多个帧图像的图像序列中的当前帧图像。

作为示例，可通过动态视觉传感器(DVS)相机进行拍摄来产生所述图像序列。这里，动态视觉传感器相机可通过对对象进行拍摄，来检测运动对象产生的事件流，并且使用预定时间段(例如，20毫秒)内产生的事件流生成一帧图像，从而视觉传感器相机可按照时间顺序生成包括多个帧图像的图像序列。

在步骤S200，从当前帧图像提取当前帧的特征图。

作为示例，可通过对当前帧图像进行预定次数的卷积操作，来获得当前帧的特征图。例如，可预先通过学习训练来获得卷积核，然后通过卷积核对当前帧进行多次卷积操作，来获得当前帧的特征图。

在步骤S300，对当前帧的特征图进行池化，以获得当前帧的池化特征图，其中，当前帧的池化特征图包括与当前帧之前的各个帧图像分别对应的各个池化特征图的信息。

这里，通过获得包括与当前帧之前的各个帧图像分别对应的各个池化特征图的信息的当前帧的池化特征图(即，获得的当前帧的池化特征图包括更多的关于运动的对象的信息)，能够更有效地检测运动速度慢的对象。

由于如上所述动态视觉传感器相机通过使用预时间段内产生的事件流生成一帧图像，因此，当对象的运动速度较慢时，动态视觉传感器相机在预定时间段内可能仅检测到少量的事件流，从而生成的帧图像中包括的关于对象的信息较少，因而难以从动态视觉传感器相机获得的单帧图像准确地检测对象。但是，由于动态视觉传感器相机持续检测事件流，因此，动态视觉传感器相机持续检测的事件流中包括了更多关于对象的信息。

下面将参照图2详细描述动态视觉传感器相机使用事件流生成帧图像的示例。

图2示出据本发明示例性实施例的动态视觉传感器相机生成帧图像的示例的示图。

参照图2中的(a)和图2中的(e)，整个矩形框表示动态视觉传感器相机在对象运动速度快的情况下和在对象运动速度慢的情况下获得的事件流。整个矩形框内的点划线曲线仅示意性地表示事件流，而并不用于体现事件流的密度或其他信息。

图2中的(b)表示动态视觉传感器相机使用在对象运动速度快的情况下的时间段T内获得的事件流生成的一帧图像。图2中的(c)表示动态视觉传感器相机使用在对象运动速度慢的情况下的时间段T内获得的事件流生成的一帧图像。图2中的(d)表示动态视觉传感器相机使用在对象运动速度慢的情况下的比时间段T长的时间段T’内获得的事件流生成的一帧图像。

对比图2中的(b)和图2中的(c)可以看出，图2中的(b)的图像中的对象较为清晰，而图2中的(c)的图像中的对象较为模糊。因此，当物体运动速度快的时候，可使用一帧图像较准确地检测对象，但当物体运动速度慢时，可能难以使用一帧图像准确地检测对象。

而对比图2中的(d)与图2中的(c)可以看出，当使用在对象运动速度慢的情况下的更长时间段内获得的事件流生成一帧图像时，生成的图像中图像也较为清晰，即，使用更长时间段内获得的事件流生成的图像中可包括较多的关于对象的信息。

因此，由图2可以看出，动态视觉传感器相机所获得的事件流中蕴含了充足的用于检测对象的信息，使用更长时间段内的事件流，可以生成更加清晰的运动对象的图像。然而，当对象的运动速度很慢时，即使使用更长时间段内的事件流也可能无法获得清晰的运动对象的图像，从而无法准确地从单帧图像检测对象。但是，在本发明中，通过递归地使用多个池化特征图，来获得当前帧的池化特征图，使当前帧的池化特征图包括与当前帧之前的各个帧图像分别对应的各个池化特征图的信息，从而能够在对象的运行速度很慢的情况下，准确地从当前帧的池化特征图检测对象。

具体地讲，在一个示例中，当当前帧图像为第一帧图像时，在图1中的步骤S300中可仅使用第一帧的特征图获得第一帧的池化特征图。这里，由于当获得第一帧图像时，在第一帧图像之前并未获得任何图像，因此，可仅使用第一帧的特征图获得第一帧的池化特征图。作为示例，当当前图像为第一帧图像时，在步骤S300中可将第一帧的特征图用作第一帧的池化特征图。

在另一示例中，当当前帧图像不是第一帧图像时，在步骤S300中可使用前一帧的池化特征图和当前帧的特征图，获得当前帧的池化特征图。这里，当当前帧图像不是第一帧图像时，可递归地使用前一帧的特征图获得当前帧的池化特征图，从而更充分地使用当前帧之前获得的事件流。

下面将参照图3详细说明当当前帧图像不是第一帧图像时，在步骤S300中获得当前帧的池化特征图的过程。

图3示出根据本发明示例性实施例的对象检测方法中获得当前帧的池化特征图的步骤的流程图。

参照图3，在步骤S310，使用前一帧的池化特征图和当前帧的特征图，获得当前帧的权重图。

这里，当前帧的权重图可指示当前帧与前一帧之间的关系，例如，指示相似程度。当当前帧与前一帧相似度越高时，权重值越接近1，当当前帧与前一帧相似度越低时，权重值越接近0。

具体地讲，作为示例，当当前帧图像为第t帧图像，且t为大于1的整数时，通过下面的等式计算当前帧的权重图中的各个权重值：

ω_t,i＝N_mlp(f_t-1,i,x_t,i)

其中，ω_t,i表示第t帧的权重图中坐标为i的权重值，ω_t,i的取值范围为[0,1]，N_mlp表示多层感知器(MLP)神经网络，f_t-1,i和x_t,i为多层感知器神经网络的输入，其中，f_t-1,i表示第t-1帧的池化特征图中坐标为i的池化特征值，x_t,i表示第t帧的特征图中坐标为i的特征值，其中，i表示二维坐标。

作为示例，多层感知器神经网络N_mlp可通由多个1×1卷积层组成的全卷积网络实现，并以Sigmoid层结束，以输出取值范围为[0,1]的权重值。应该理解，以上仅是多层感知器神经网络N_mlp的示例，多层感知器神经网络可以是能够根据作为输入的池化特征值f_t-1,i和特征值x_t,i输出权重值的任意多层感知器神经网络。

这里，ω_t,i为标量，f_t-1,i和x_t,i为矢量。作为示例，f_t-1,i和x_t,i可以是以坐标为i的各个通道值作为元素的矢量，各个通道值的取值范围为实数范围，应该理解，作为f_t-1,i的元素的通道值为池化特征值，作为x_t,i的元素的通道值为特征值。例如，f_t-1,i和x_t,i可以是以坐标为i的红色通道值、绿色通道值和蓝色通道值作为元素的矢量。坐标i可以是由X轴值、Y轴值组成的二维坐标。

应该理解，通过上述等式获得的第t帧的权重图中坐标为i的权重值ω_t,i为：与第t帧的特征图中坐标为i的特征值相应的权重值。

在步骤S320，使用前一帧的池化特征图、当前帧的特征图和当前帧的权重图，获得当前帧的池化特征图。

这里，通过综合考虑前一帧的池化特征图、当前帧的特征图和当前帧的权重图，可获得更加精确的当前帧的池化特征图。

作为示例，可通过下面的等式计算第t帧的池化特征图中的各个池化特征值：

f_t,i＝ρ[s(f_t-1,i,ω_t,i),x_t,i]

其中，f_t,i表示第t帧的池化特征图中坐标为i的池化特征值，函数s用于将f_t-1,i与ω_t,i相乘，函数ρ为池化函数，用于选择通过函数s计算的值与x_t,i中的最大值或用于计算通过函数s计算的值与x_t,i的平均值。

这里，通过将权重值ω_t,i应用于f_t-1,i，可在获得当前帧的池化特征值f_t,i的过程中，根据不同的坐标i调整前一帧的池化特征值f_t-1,i对池化结果的影响。

再次参照图1，在步骤S400，从当前帧的池化特征图检测对象。这里，可通过各种方法从当前帧的池化特征图检测对象，不再赘述。

图4示出根据本发明示例性实施例的对象检测过程的示意图。

参照图4，图4中的(a)示出第t-2帧的特征图x_t-2、第t-1帧的特征图x_t-1和第t帧的特征图x_t，图4中的(b)分别在对应位置示出与特征图x_t-2、x_t-1和x_t对应的第t-2帧、第t-1帧和第t帧的图像。应该理解，在图4的示例中，t的取值范围为大于2的整数。

对于第t-2帧，首先，可通过前一帧(未示出)的池化特征图(未示出)和第t-2帧的特征图x_t-2，获得第t-2帧的权重图ω。之后，进行池化(Pool)操作，即，通过获得的第t-2帧的权重图ω、第t-2帧前一帧的池化特征图和第t-2帧的特征图x_t-2，来获得第t-2帧的池化特征图f_t-2。

对于第t-1帧，首先，可通过前一帧(第t-2帧)的池化特征图(f_t-2)和第t-1帧的特征图x_t-1，获得第t-1帧的权重图ω。之后，进行池化(Pool)操作，即，通过获得的第t-1帧的权重图ω、第t-2帧的池化特征图f_t-2和第t-1帧的特征图x_t-1，来获得第t-1帧的池化特征图f_t-1。

对于第t帧，首先，可通过前一帧(第t-1帧)的池化特征图(f_t-1)和第t帧的特征图x_t，获得第t帧的权重图ω。之后，进行池化(Pool)操作，即，通过获得的第t帧的权重图ω、第t-1帧的池化特征图f_t-1和第t帧的特征图x_t，来获得第t帧的池化特征图f_t。

在图4中的(c)的上部示出了最终获得的第t帧的池化特征图(pooled featuremap)。由以上分析可以看出，由于当前帧(第t帧)的池化特征图为递归地使用之前帧的池化特征图而得到的池化特征图，因此，当前帧的池化特征图包括与当前帧之前的各个帧图像分别对应的各个池化特征图的信息。

在图4中的(c)的下部示出了从第t帧的池化特征图检测对象的检测结果(detection result)。在图4中的(c)的下部所示的图中的框为预测框，该预测框的位置即为检查出的对象的位置。在图4的示例中，被检测的对象为用户的手。

根据本发明的对象检测方法，能够通过将当前帧图像的特征图与当前帧图像之前的各个帧的池化特征图的信息进行结合，来更准确地检测对象。此外，本发明的用于对象检测的神经网络系统能够通过较小的计算量来快速获得准确的检测结果，因而能够提高检测对象的效率。

图5示出根据本发明示例性实施例的用于对象检测的神经网络系统的框图。作为示例，根据本发明示例性实施例的用于对象检测的神经网络系统为基于快速区域卷积神经网(FRCNN)框架的神经网络系统。

如图5所示，根据本发明示例性实施例的用于对象检测的神经网络系统包括特征提取子网络100、时域池化子网络200和检测子网络300。

具体地讲，特征提取子网络100用于获取包括多个帧图像的图像序列中的当前帧图像，并从当前帧图像提取当前帧的特征图。

作为示例，可通过动态视觉传感器(DVS)相机进行拍摄来产生所述图像序列。这里，动态视觉传感器相机可通过对对象进行拍摄，来检测运动对象产生的事件流，并且使用预定时间段内产生的事件流生成一帧图像，从而视觉传感器相机可按照时间顺序生成包括多个帧图像的图像序列。

时域池化子网络200用于对当前帧的特征图进行池化，以获得当前帧的池化特征图，其中，当前帧的池化特征图包括与当前帧之前的各个帧图像分别对应的各个池化特征图的信息。

这里，通过获得包括与当前帧之前的各个帧图像分别对应的各个池化特征图的信息的当前帧的池化特征图(即，获得的当前帧的池化特征图包括更多的关于运动的对象的信息)，而能够更有效地检测运动速度慢的对象。

已经参照图2详细描述了动态视觉传感器相机使用事件流生成帧图像的示例以及使用动态视觉传感器相机获得的单帧图像难以准确检测运动速度慢的对象的原因，这里不再赘述。

根据本发明的示例性实施例，在一个示例中，当当前帧图像为第一帧图像时，时域池化子网络200可仅使用第一帧的特征图获得第一帧的池化特征图。这里，由于当获得第一帧图像时，在第一帧图像之前并未获得任何图像，因此，时域池化子网络200可仅使用第一帧的特征图获得第一帧的池化特征图。作为示例，当当前图像为第一帧图像时，时域池化子网络200可将第一帧的特征图用作第一帧的池化特征图。

在另一示例中，当当前帧图像不是第一帧图像时，时域池化子网络200可使用前一帧的池化特征图和当前帧的特征图，获得当前帧的池化特征图。这里，当当前帧图像不是第一帧图像时，时域池化子网络200可递归地使用前一帧的特征图获得当前帧的池化特征图。

具体地讲，当当前帧图像不是第一帧图像时，时域池化子网络200可使用前一帧的池化特征图和当前帧的特征图，获得当前帧的权重图，并使用前一帧的池化特征图、当前帧的特征图和当前帧的权重图，获得当前帧的池化特征图。

这里，当前帧的权重图可指示当前帧与前一帧之间的关系，例如，指示相似程度，当当前帧与前一帧相似度越高时，权重值越接近1，当当前帧与前一帧相似度越低时，权重值越接近0。

ω_t,i＝N_mlp(f_t-1,i,x_t,i)

之后，通过综合考虑前一帧的池化特征图、当前帧的特征图和当前帧的权重图，可获得更加精确的当前帧的池化特征图。

f_t,i＝ρ[s(f_t-1,i,ω_t,i),x_t,i]

检测子网络300用于从当前帧的池化特征图检测对象。这里，检测子网络300可通过使用各种方法从当前帧的池化特征图检测对象，不再赘述。

已经参照图4详细描述了根据本发明示例性实施例的检测对象的过程，这里不再赘述。

下面以本发明示例性实施例的用于对象检测的神经网络系统(简称为RATP)、现有的用于检测对象的神经网络系统(例如，长短期记忆网络(LSTM)、序列非极大抑制网络(Seq-NMS))为示例，以表格的形式示出通过实验获得的RATP与LSTM和Seq-NMS的检测精度。

检测方式	检测精度(IOU＝0.3)	平均IOU
			基础神经网络	73.69％	0.634
RATP	79.37％	0.663
			LSTM	79.78％	0.687
Seq-NMS	80.06％	0.810
			LSTM+RATP	84.05％	0.682
Seq-NMS+RATP	86.53％	0.811

表1

参照表1，第一列示出检测对象的检测方式，这里，基础神经网络可指未添加任何其他结构的FRCNN网络，LSTM+RATP指结合使用LSTM和RATP的检测方式，Seq-NMS+RATP指结合使用Seq-NMS和RATP的检测方式。第二列是指将IOU(交集与并集比，Intersection overUnion)的阈值设置为0.3的情况下的检测精度，这里的检测精度可指图4中用于预测对象的预测框的精度。将IOU的阈值设置为0.3的情况下的检测精度是指如果与预测框对应的IOU的值大于或等于0.3则确定检测结果正确(即，预测框为正确预测框)的情况下的检测精度。平均IOU指在实验过程中的实际IOU的平均值，即，与正确预测框对应的实际IOU的平均值。这里的平均IOU反映图4中用于预测对象的预测框的预测位置的精度。

由表1可以看出，根据本发明的示例性实施例的神经网络系统具有高于基础神经网络系统并与现有的LSTM和Seq-NMS基本相同的检测精度。并且当与现有的LSTM或Seq-NMS结合使用时，检测精度明显比单独使用LSTM或Seq-NMS时的检测精度高，因此可以看出，根据本发明的示例性实施例的用于对象检测的神经网络系统与现有的LSTM和Seq-NMS在检测对象上具有互补的特点。因此，根据本发明的示例性实施例的用于对象检测的神经网络系统弥补了现有的LSTM和Seq-NMS检测方面的不足。现有的LSTM和Seq-NMS对运动速度快的对象具有较好的检测效果，而根据本发明的示例性实施例的用于对象检测的神经网络系统在检测运动速度慢的对象方面具有突出的优势。

根据本发明的用于对象检测的神经网络系统，能够通过将当前帧图像的特征图与当前帧图像之前的各个帧的池化特征图的信息进行结合，来更准确地检测对象。此外，本发明的用于对象检测的神经网络系统为端到端的神经网络系统，因而能够通过较小的计算量来快速获得准确的检测结果，因而能够提高检测对象的效率。

根据本发明的示例性实施例还提供一种计算机可读存储介质。该计算机可读存储介质存储有当被处理器执行时使得处理器执行上述对象检测方法的程序指令。该计算机可读记录介质是可存储由计算机系统读出的数据的任意数据存储装置。计算机可读记录介质的示例包括：只读存储器、随机存取存储器、只读光盘、磁带、软盘、光数据存储装置和载波(诸如经有线或无线传输路径通过互联网的数据传输)。计算机可读记录介质也可分布于连接网络的计算机系统，从而计算机可读代码以分布式存储和执行。此外，完成本发明的功能程序、代码和代码段可容易地被与本发明相关的领域的普通程序员在本发明的范围之内解释。

应注意，本发明的以上各个实施例仅仅是示例性的，而本发明并不受限于此。本领域技术人员应该理解：在不脱离本发明的原理和精神的情况下，可对这些实施例进行改变，其中，本发明的范围在权利要求及其等同物中限定。

Claims

1.一种对象检测方法，所述对象检测方法包括：

由至少一个处理器执行以下操作：

(A)获取包括多个帧图像的图像序列中的当前帧图像；

(B)从当前帧图像提取当前帧的特征图；

(C)对当前帧的特征图进行池化，以获得当前帧的池化特征图，其中，当前帧的池化特征图包括与当前帧之前的各个帧图像分别对应的各个池化特征图的信息；

(D)从当前帧的池化特征图检测对象，

其中，所述至少一个处理器是基于所述多个帧图像确定对象运动速度的神经网络系统的一部分，

其中，所述对象检测方法还包括：

向长短期记忆网络LSTM或序列非极大抑制Seq-NMS网络提供所述多个帧图像；

在对象运动速度大于或等于阈值的情况下，使用所述LSTM或所述Seq-NMS网络的对象检测结果作为最终的对象检测结果；否则，使用所述至少一个处理器的对象检结果测作为最终的对象检测结果。

2.如权利要求1所述的对象检测方法，其中，当当前帧图像为第一帧图像时，步骤(C)包括：仅使用第一帧的特征图获得第一帧的池化特征图，

当当前帧图像不是第一帧图像时，步骤(C)包括：使用前一帧的池化特征图和当前帧的特征图，获得当前帧的池化特征图。

3.如权利要求2所述的对象检测方法，其中，步骤(C)包括：

(C1)使用前一帧的池化特征图和当前帧的特征图，获得当前帧的权重图；

(C2)使用前一帧的池化特征图、当前帧的特征图和当前帧的权重图，获得当前帧的池化特征图。

4.如权利要求3所述的对象检测方法，其中，当当前帧图像为第t帧图像，且t为大于1的整数时，通过下面的等式计算当前帧的权重图中的各个权重值：

ω_t,i＝N_mlp(f_t-1,i,x_t,i)

其中，ω_t,i表示第t帧的权重图中坐标为i的权重值，ω_t,i的取值范围为[0,1]，N_mlp表示多层感知器神经网络，f_t-1,i和x_t,i为多层感知器神经网络的输入，其中，f_t-1,i表示第t-1帧的池化特征图中坐标为i的池化特征值，x_t,i表示第t帧的特征图中坐标为i的特征值，其中，i表示二维坐标。

5.如权利要求4所述的对象检测方法，其中，通过下面的等式计算第t帧的池化特征图中的各个池化特征值：

f_t,i＝ρ[s(f_t-1,i,ω_t,i),x_t,i]

6.如权利要求2所述的对象检测方法，其中，当当前图像为第一帧图像时，步骤(C)包括：将第一帧的特征图用作第一帧的池化特征图。

7.如权利要求1所述的对象检测方法，其中，当前帧的池化特征图是通过递归应用当前帧之前的各个帧图像的多个池化特征图获得的。

8.如权利要求1所述的对象检测方法，其中，通过动态视觉传感器相机进行拍摄来产生所述图像序列。

9.如权利要求8所述的对象检测方法，其中，通过动态视觉传感器相机进行拍摄来产生所述图像序列，包括：

通过动态视觉传感器相机获得事件流，基于获得的事件流生成所述图像序列。

10.如权利要求1所述的对象检测方法，其中，步骤(B)包括：通过对当前帧图像进行预定次数的卷积操作，来获得当前帧的特征图。

11.一种用于对象检测的神经网络系统，所述神经网络系统包括：

第一神经网络系统，包括：

特征提取子网络，获取包括多个帧图像的图像序列中的当前帧图像，并从当前帧图像提取当前帧的特征图；

时域池化子网络，对当前帧的特征图进行池化，以获得当前帧的池化特征图，其中，当前帧的池化特征图包括与当前帧之前的各个帧图像分别对应的各个池化特征图的信息；

检测子网络，从当前帧的池化特征图检测对象；

第二神经网络系统，被配置为根据图像序列检测对象并且包括长短期记忆网络LSTM或序列非极大抑制Seq-NMS网络，

其中，第一或第二神经网络系统被配置为确定对象运动速度，在对象运动速度大于或等于阈值的情况下，使用第二神经网络系统的对象检测结果作为最终的对象检测结果；否则，使用第一神经网络系统的对象检结果测作为最终的对象检测结果。

12.如权利要求11所述的神经网络系统，其中，当当前帧图像为第一帧图像时，时域池化子网络仅使用第一帧的特征图获得第一帧的池化特征图，

当当前帧图像不是第一帧图像时，时域池化子网络使用前一帧的池化特征图和当前帧的特征图，获得当前帧的池化特征图。

13.如权利要求12所述的神经网络系统，其中，时域池化子网络使用前一帧的池化特征图和当前帧的特征图，获得当前帧的权重图，并使用前一帧的池化特征图、当前帧的特征图和当前帧的权重图，获得当前帧的池化特征图。

14.如权利要求13所述的神经网络系统，其中，当当前帧图像为第t帧图像，且t为大于1的整数时，时域池化子网络通过下面的等式计算当前帧的权重图中的各个权重值：

ω_t,i＝N_mlp(f_t-1,i,x_t,i)

15.如权利要求14所述的神经网络系统，其中，时域池化子网络通过下面的等式计算第t帧的池化特征图中的各个池化特征值：

f_t,i＝ρ[s(f_t-1,i,ω_t,i),x_t,i]

其中，f_t,i表示第t帧的池化特征图中坐标为i的池化特征值，函数s用于将f_t-1,i与ω_t,i相乘，函数ρ为池化函数，ρ用于选择通过函数s计算的值与x_t,i中的最大值或用于计算通过函数s计算的值与x_t,i的平均值。

16.如权利要求12所述的神经网络系统，其中，当当前图像为第一帧图像时，时域池化子网络将第一帧的特征图用作第一帧的池化特征图。

17.如权利要求11所述的神经网络系统，其中，当前帧的池化特征图是通过递归应用当前帧之前的各个帧图像的多个池化特征图获得的。

18.如权利要求11所述的神经网络系统，其中，通过动态视觉传感器相机进行拍摄来产生所述图像序列。

19.如权利要求18所述的神经网络系统，其中，通过动态视觉传感器相机进行拍摄来产生所述图像序列，包括：

20.如权利要求11所述的神经网络系统，其中，特征提取子网络通过对当前帧图像进行预定次数的卷积操作，来获得当前帧的特征图。

21.一种计算机可读存储介质，存储有当被处理器执行时使得处理器执行如权利要求1至10中任一项所述的对象检测方法的程序指令。