CN109492755A

CN109492755A - 图像处理方法、图像处理装置和计算机可读存储介质

Info

Publication number: CN109492755A
Application number: CN201811318683.XA
Authority: CN
Inventors: 姚皓天; 吴家楠
Original assignee: Beijing Megvii Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd
Priority date: 2018-11-07
Filing date: 2018-11-07
Publication date: 2019-03-19
Anticipated expiration: 2038-11-07
Also published as: CN109492755B

Abstract

本公开提供一种使用卷积神经网络系统的图像处理方法和装置、以及计算机可读存储介质。所述图像处理方法包括：经由输入层接收多帧输入图像；经由中间层提取多帧输入图像的图像特征，并根据所述多帧输入图像的图像特征计算所述多帧输入图像之间的偏移信息；以及经由输出层输出对于多帧输入图像的处理结果，所述处理结果是根据所述多帧输入图像之间的偏移信息得到的，并且所述处理结果为在所述多帧输入图像中检测到的对象以及其在所述多帧输入图像中的位置，通过由在原图上具有较大步长的特征捕获更大范围的运动物体，再由在原图上具有较小步长的特征来学习运动对象位置变化的残差，实现对于快速运动对象的追踪。

Description

图像处理方法、图像处理装置和计算机可读存储介质

技术领域

本公开涉及图像处理领域，更具体地，本公开涉及使用卷积神经网络系统的图像处理方法和装置、以及计算机可读存储介质。

背景技术

神经网络是一种大规模、多参数优化的工具。依靠大量的训练数据，神经网络能够学习出数据中难以总结的隐藏特征，从而完成多项复杂的任务，如人脸检测、图像语义分割、物体检测、动作追踪、自然语言翻译等。神经网络已被人工智能界广泛应用。

对诸如行人、车辆等对象的检测和追踪是诸多安防应用中不可或缺的一环。在现有的方法中，往往把对象的检测、追踪和相关属性分析分成三个独立的环节来完成。在检测环节中，对于每一帧图像找到对象，通过边框把对象的位置和大小表示出来。然后把各帧中检测到的对象，根据空间位置、外观相似程度等因素关联在一起，从而进行对象追踪。最后分析一条追踪轨迹中各个边框中对象的属性信息，达到结构化的目的。这样的检测和追踪方法无法同时完成检测和追踪过程，处理效率低，并且对于移动速度快的对象无法进行检测和追踪。

发明内容

鉴于上述问题而提出了本公开。本公开提供了一种使用卷积神经网络系统的图像处理方法和装置、以及计算机可读存储介质。

根据本公开的一个方面，提供了一种使用卷积神经网络系统的图像处理方法，所述卷积神经网络系统包含输入层、中间层和输出层，所述图像处理方法包括：经由所述输入层接收多帧输入图像；经由所述中间层提取所述多帧输入图像的图像特征，并根据所述多帧输入图像的图像特征计算所述多帧输入图像之间的偏移信息；以及经由所述输出层输出对于所述多帧输入图像的处理结果，，所述处理结果是根据所述多帧输入图像之间的偏移信息得到的，并且所述处理结果为在所述多帧输入图像中检测到的对象以及其在所述多帧输入图像中的位置。

此外，根据本公开一个方面的图像处理方法，其中，所述中间层包括多个级联的卷积特征提取层，所述多个级联的卷积特征提取层的每一个输出具有与其卷积步长对应尺度的卷积特征图，经由所述中间层提取所述多帧输入图像的图像特征包括：经由所述多个级联的卷积特征提取层中的第一卷积特征提取层，生成第t帧输入图像的第一卷积特征图和第t+τ帧输入图像的第一卷积特征图；基于所述第t帧输入图像的第一卷积特征图和所述第t+τ帧输入图像的第一卷积特征图，获得所述第t帧输入图像和所述第t+τ帧输入图像之间的第一相关特征图，并且根据所述第一相关特征图，得到所述第t帧输入图像和所述第t+τ帧输入图像之间的偏移量矩阵；经由所述多个级联的卷积特征提取层中的第二卷积特征提取层，生成第t帧输入图像的第二卷积特征图和第t+τ帧输入图像的第二卷积特征图，所述第一卷积特征图的第一尺度小于所述第二卷积特征图的第二尺度；根据所述偏移量矩阵对所述第t帧输入图像的第二卷积特征图执行插值计算，获得所述第t帧输入图像的偏移后的第二卷积特征图；基于所述第t帧输入图像的偏移后的第二卷积特征图和所述第t+τ帧输入图像的第二卷积特征图，获得所述第t帧输入图像和所述第t+τ帧输入图像之间的第二相关特征图，所述偏移信息包括所述第一相关特征图和所述第二相关特征图；经由所述输出层输出对于所述多帧输入图像的处理结果包括：基于所述第一相关特征图和/或所述第二相关特征图，输出所述处理结果。

此外，根据本公开一个方面的图像处理方法，其中，所述基于所述第一相关特征图和/或所述第二相关特征图，输出所述处理结果包括：基于所述第一相关特征图和/或所述第二相关特征图，执行对象的分类检测和边框回归。

此外，根据本公开一个方面的图像处理方法，还包括对所述第一相关特征图执行上采样，获得具有所述第二尺度的所述第一相关特征图。

此外，根据本公开一个方面的图像处理方法，其中，在所述多个级联的卷积特征提取层中，所述第一卷积特征提取层生成最小尺度的卷积特征图。

根据本公开的另一个方面，提供了一种使用卷积神经网络系统的图像处理装置，所述卷积神经网络系统包含输入层、中间层和输出层，所述图像处理装置包括：图像输入单元，用于经由所述输入层接收多帧输入图像；图像特征提取单元，用于经由所述中间层提取所述多帧输入图像的图像特征，并根据所述多帧输入图像的图像特征计算所述多帧输入图像之间的偏移信息；以及处理结果输出单元，用于经由所述输出层输出对于所述多帧输入图像的处理结果，所述处理结果是根据所述多帧输入图像之间的偏移信息得到的，并且所述处理结果为在所述多帧输入图像中检测到的对象以及其在所述多帧输入图像中的位置。

此外，根据本公开另一个方面的图像处理装置，其中，所述中间层包括多个级联的卷积特征提取层，所述多个级联的卷积特征提取层的每一个输出具有与其卷积步长对应尺度的卷积特征图，所述图像特征提取单元经由所述多个级联的卷积特征提取层中的第一卷积特征提取层，生成第t帧输入图像的第一卷积特征图和第t+τ帧输入图像的第一卷积特征图；基于所述第t帧输入图像的第一卷积特征图和所述第t+τ帧输入图像的第一卷积特征图，获得所述第t帧输入图像和所述第t+τ帧输入图像之间的第一相关特征图，并且根据所述第一相关特征图，得到所述第t帧输入图像和所述第t+τ帧输入图像之间的偏移量矩阵；经由所述多个级联的卷积特征提取层中的第二卷积特征提取层，生成第t帧输入图像的第二卷积特征图和第t+τ帧输入图像的第二卷积特征图，所述第一卷积特征图的第一尺度小于所述第二卷积特征图的第二尺度；根据所述偏移量矩阵对所述第t帧输入图像的第二卷积特征图执行插值计算，获得所述第t帧输入图像的偏移后的第二卷积特征图；基于所述第t帧输入图像的偏移后的第二卷积特征图和所述第t+τ帧输入图像的第二卷积特征图，获得所述第t帧输入图像和所述第t+τ帧输入图像之间的第二相关特征图，所述偏移信息包括所述第一相关特征图和所述第二相关特征图；其中，所述处理结果输出单元基于所述第一相关特征图和/或所述第二相关特征图，输出所述处理结果。

此外，根据本公开另一个方面的图像处理装置，其中，所述处理结果输出单元基于所述第一相关特征图和/或所述第二相关特征图，执行对象的分类检测和边框回归。

此外，根据本公开另一个方面的图像处理装置，所述图像特征提取单元对所述第一相关特征图执行上采样，获得具有所述第二尺度的所述第一相关特征图。

此外，根据本公开另一个方面的图像处理装置，其中，在所述多个级联的卷积特征提取层中，所述第一卷积特征提取层生成最小尺度的卷积特征图。

根据本公开的又一个方面，提供了一种图像处理装置，包括：存储器，用于存储计算机可读指令；以及处理器，用于运行所述计算机可读指令，使得所述图像处理装置执行如上所述的图像处理方法。

根据本公开的再一个方面，提供了一种计算机可读存储介质，用于存储计算机可读指令，当所述计算机可读指令由计算机执行时，使得所述计算机执行如上所述的图像处理方法。

如下将详细描述的，根据本公开实施例的使用卷积神经网络系统的图像处理方法和装置、以及计算机可读存储介质，通过引入不同帧图像之间的相关特征，同时实现了基于帧的对象检测和跨越各帧的追踪回归。通过由在原图上具有较大步长的特征捕获更大范围的运动物体，再由在原图上具有较小步长的特征来学习运动对象位置变化的残差，实现对于快速运动对象的追踪。

要理解的是，前面的一般描述和下面的详细描述两者都是示例性的，并且意图在于提供要求保护的技术的进一步说明。

附图说明

通过结合附图对本发明实施例进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与本发明实施例一起用于解释本发明，并不构成对本发明的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是图示根据本公开的实施例的图像处理方法的流程图；

图2是图示根据本公开的实施例的图像处理方法的示意图；

图3是进一步图示根据本公开的实施例的图像处理方法的流程图；

图4是进一步图示根据本公开的实施例的图像处理方法中的空间残差网络结构的示意图；

图5是图示根据本公开的实施例的图像处理方法中的双线性插值处理的示意图；

图6是进一步图示根据本公开的实施例的图像处理方法中的空间残差网络结构的示意图；

图7是图示根据本公开的实施例的图像处理装置的框图；

图8是图示根据本公开的实施例的图像处理装置的硬件框图；以及

图9是图示根据本公开的实施例的计算机可读存储介质的示意图。

具体实施方式

为了使得本公开的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。

本公开涉及使用卷积神经网络系统的图像处理方法和装置。通常利用神经网络进行图像处理方法可以分为两个阶段，即训练阶段和图像处理阶段。所谓训练阶段是指首先需要利用训练图像对神经网络进行训练，以调整神经网络的权重(也可称为参数)；所谓图像处理阶段是指随后可以利用训练好的神经网络对待处理的图像进行特征提取，并且执行图像中目标确定、分类、追踪等处理。在本公开中，通过引入不同帧图像之间的相关特征，同时实现了基于帧的对象检测和跨越各帧的追踪回归。通过由在原图上具有较大步长的特征捕获更大范围的运动物体，再由在原图上具有较小步长的特征来学习运动对象位置变化的残差，实现对于快速运动对象的追踪。以下，将参考附图详细描述本公开的各个实施例。

首先，参照图1和图2描述根据本公开的实施例的图像处理方法。图1是图示根据本公开的实施例的图像处理方法的流程图，图2是图示根据本公开的实施例的图像处理方法的示意图。

如图1和图2所示，在步骤S101中，经由输入层11接收多帧输入图像20。该多帧输入图像20可以为采集到的视频中的连续的多帧图像；或者，该多帧输入图像20也可以是从采集到的视频中间隔(如随机间隔或有序间隔)取出的多帧图像；或者，该多帧输入图像20也可以是根据视频帧图像的质量(如清晰度、对象的遮挡情况等)从视频中选择的多帧图像。

如图2示意性示出的，本公开的实施例中的卷积神经网络10包含输入层11、中间层12和输出层13。例如，在输入层11接收第t帧和第t+τ帧的输入图像。在本公开的一个实施例中，其中τ为1，t为自然数。所述第t帧和第t+τ帧的输入图像是输入视频中的相邻帧的图像，在本公开的另一个实施例中，所述第t帧和第t+τ帧的输入图像为输入视频中的间隔τ帧的图像，其中t为自然数，τ为大于1的自然数。

在步骤S102中，经由中间层提取多帧输入图像的图像特征，并根据所述多帧输入图像的图像特征计算所述多帧输入图像之间的偏移信息。

如图2所示，所述中间层12包括多个级联的卷积特征提取层，所述多个级联的卷积特征提取层的每一个输出具有与其卷积步长对应尺度的卷积特征图。在本公开的一个实施例中，每一帧具有特定尺度的图像作为输入，通过多个级联的卷积特征提取层以全卷积方式输出多个尺度级别的卷积特征图。不同尺度级别的卷积特征图通过顶部到底部的路径和侧向连接，形成神经网络内的特征金字塔结构。可以从单个的输入图像尺度快速地建立这种组合了低分辨率、强语义特征和高分辨率、弱语义的卷积特征图结构，并且在多种尺度水平上都具有丰富的语义表现能力，可以用于不同尺度的目标对象的检测和分割。如下将详细描述的，中间层在提取多帧输入图像的图像特征之后，根据所述多帧输入图像的图像特征计算所述多帧输入图像之间的偏移信息

在步骤S103中，经由输出层输出对于多帧输入图像的处理结果。

如图2所示，经由多个级联的卷积特征提取层获取的多个尺度级别的卷积特征图用于多帧输入图像中对象的检测和追踪。如下将详细描述的，所述处理结果是根据所述多帧输入图像之间的偏移信息得到的，并且所述处理结果为在所述多帧输入图像中检测到的对象以及其在所述多帧输入图像中的位置。

此外，不同尺度特征层进行帧间特征的交叉相关操作，例如第t帧的第n、n+1、n+2层特征分别于第t+τ帧的第n、n+1、n+2层特征做相关计算，获取不同帧之间的相关特征图。例如，对于同一尺度的不同帧的两个特征图x^t、x^t+τ，直接逐点相关后的相关特征图可以表示为：

其中满足-d≤p≤d和-d≤q≤d，d表示最大偏移量。进一步地，利用上述相关特征图进行帧间边框变化回归。

如图2所示，卷积神经网络10最终输出处理结果30，其中显示了多帧图像中检测到的对象以及其在所述多帧输入图像中的位置。检测到的对象可以是行人、车辆、动物以及其他任意需要被追踪的对象。

需要注意的是，如上述表达式(1)所示，d值越大则可以捕获到的移动区域越大，特别是对于运动速度快的对象，其在第t帧和第t+τ帧的图像中移动距离大，需要更大的d值来时限追踪。然而，由此会导致整体计算量的增加，降低了效率。为此，在本公开的进一步的实施例中，在神经网络的中间层中利用一种空间残差网络，由在原图上具有较大步长的特征捕获更大范围的运动物体，再由在原图上具有较小步长的特征来学习运动对象位置变化的残差，实现对于快速运动对象的追踪。

以下，将参照图3到图6进一步描述根据本公开的实施例的图像处理方法。图3是进一步图示根据本公开的实施例的图像处理方法的流程图；图4是进一步图示根据本公开的实施例的图像处理方法中的空间残差网络结构的示意图；图5是图示根据本公开的实施例的图像处理方法中的双线性插值处理的示意图。

如图3所示，图示根据本公开的实施例的图像处理方法包括以下步骤。

在步骤S301中，经由输入层接收多帧输入图像。步骤S301与以上参照图1描述的步骤S101相同，多帧输入图像可以是连续的多帧输入图像，也可以是中间间隔若干帧的输入图像。

从步骤S302开始，经由中间层提取多帧输入图像的图像特征。

具体地，在步骤S302中，经由多个级联的卷积特征提取层中的第一卷积特征提取层，生成第t帧输入图像的第一卷积特征图和第t+τ帧输入图像的第一卷积特征图。

参照图4，在图4的空间残差网络结构中示意性地示出了两个级联的卷积特征提取层，即第一卷积特征提取层4001和第二卷积特征提取层4002。

在本公开的一个实施例中，在所述多个级联的卷积特征提取层中，所述第一卷积特征提取层4001生成最小尺度的卷积特征图，即所述第一卷积特征提取层4001处于空间残差网络结构中卷积步长最大的底层。正是由于所述第一卷积特征提取层4001在输入图像上有大的跨度步长，由所述第一卷积特征提取层4001生成的卷积特征图中可以用于捕获更大范围的目标运动。

在本公开的一个实施例中，第一卷积特征提取层4001和第二卷积特征提取层4002可以是空间残差网络结构中相邻的卷积层。可替代地，在本公开的另一个实施例中，第一卷积特征提取层4001和第二卷积特征提取层4002之间存在其他卷积层。不管是否为相邻的卷积层，第一卷积特征提取层4001和第二卷积特征提取层4002，需要满足的是第一卷积特征提取层4001生成的卷积特征图的尺度小于第二卷积特征提取层4002生成的卷积特征图的尺度，即第二卷积特征提取层4002处于第一卷积特征提取层4001的上层。

第一卷积特征提取层4001生成第t帧输入图像的第一卷积特征图401和第t+τ帧输入图像的第一卷积特征图402。

在步骤S303中，基于第t帧输入图像的第一卷积特征图和第t+τ帧输入图像的第一卷积特征图，获得第t帧输入图像和第t+τ帧输入图像之间的第一相关特征图。

参照图4，第t帧输入图像的第一卷积特征图401和第t+τ帧输入图像的第一卷积特征图402执行相关计算(由图4中的运算符“*”表示)，获得第t帧输入图像和第t+τ帧输入图像之间的第一相关特征图403。相关计算的过程例如如上表达式(1)所描述的。

在步骤S304中，根据第一相关特征图，得到第t帧输入图像和第t+τ帧输入图像之间的偏移量矩阵。

参照图4，根据第一相关特征图403，得到第t帧输入图像和第t+τ帧输入图像之间的偏移量矩阵404。在本公开的一个实施例中，在得到第t帧输入图像和第t+τ帧输入图像之间的偏移量矩阵404之前，还包括对所述第一相关特征图403执行上采样，获得具有第二尺度的所述第一相关特征图，所述第二尺度为第二卷积特征提取层4002生成的卷积特征图的尺度。

在步骤S305中，经由多个级联的卷积特征提取层中的第二卷积特征提取层，生成第t帧输入图像的第二卷积特征图和第t+τ帧输入图像的第二卷积特征图。

参照图4，第二卷积特征提取层4002生成第t帧输入图像的第二卷积特征图405和第t+τ帧输入图像的第二卷积特征图407。如上所述，第t帧输入图像的第二卷积特征图405和第t+τ帧输入图像的第二卷积特征图407具有所述第二尺度。

在步骤S306中，根据偏移量矩阵对第t帧输入图像的第二卷积特征图执行双线性插值，获得第t帧输入图像的偏移后的第二卷积特征图。

参照图4，根据偏移量矩阵404对第t帧输入图像的第二卷积特征图405执行双线性插值(由图4中的运算符“B”表示)，获得第t帧输入图像的偏移后的第二卷积特征图406。

参照图5描述了根据偏移量矩阵404对第二卷积特征图405执行双线性插值的过程。

作为来源特征图的第二卷积特征图405表示为X_src，偏移量矩阵404表示为X_grid，并且作为目标特征图的偏移后的第二卷积特征图406表示为X_dst，偏移量矩阵404描述了目标特征图上X_dst每一点相对来源特征图X_src上的位置偏移。根据偏移量矩阵404对第二卷积特征图405执行双线性插值可以表示为：

X_dst[batch,channel,y,x]＝G(X_src,[batch,channel,y+Δy,x+Δx])表达式(2)

其中，Δx＝X_grid[batch,0,y,x]，Δy＝X_grid[batch,1,y,x]，由于Δx，Δy无法取到整数，因此需要使用双线性插值函数，用X_src最相邻的4个点来进行双线性插值运算来得到最终的结果。

在步骤S3078中，基于第t帧输入图像的偏移后的第二卷积特征图和第t+τ帧输入图像的第二卷积特征图，获得第t帧输入图像和第t+τ帧输入图像之间的第二相关特征图。

参照图4，基于第t帧输入图像的偏移后的第二卷积特征图406和第t+τ帧输入图像的第二卷积特征图407，获得第t帧输入图像和第t+τ帧输入图像之间的第二相关特征图408。

在步骤S308中，基于第一相关特征图和/或第二相关特征图，输出处理结果。

参照图4，第一相关特征图403和第二相关特征图408的任一或者两者可以用于执行如上参照图1和图2描述的分类和边框回归。

根据以上参照图3到图5描述的根据本公开的实施例的图像处理方法，由在原图上具有较大步长的特征(即，第一卷积特征提取层4001的第一卷积特征图401和第一卷积特征图402)捕获更大范围的运动物体，再由在原图上具有较小步长的特征(即，第二卷积特征提取层4002的第二卷积特征图405和第二卷积特征图407)来学习运动对象位置变化的残差，实现了在第二卷积特征提取层4002具有较小步长的情况下，通过根据具有更强运动物体捕获能力的第一卷积特征提取层4001提供的偏移量网格执行偏移，完成对于快速移动对象的跟踪。

图4示意性地示出了包括两个级联的卷积特征提取层的空间残差网络结构。根据本公开的空间残差网络结构不限于此，而是可以包括多个级联的卷积特征提取层。图6是进一步图示根据本公开的实施例的图像处理方法中的空间残差网络结构的示意图。

如图6所示的空间残差网络结构包括三个级联的卷积特征提取层，即第一卷积特征提取层4001、第二卷积特征提取层4002和第三卷积特征提取层4003。类似于图4所示，第一卷积特征提取层4001和第二卷积特征提取层4002分别获得第一相关特征图403和第二相关特征图408。

此外，根据第二相关特征图408，得到第t帧输入图像和第t+τ帧输入图像之间的偏移量矩阵409。在本公开的一个实施例中，在得到第t帧输入图像和第t+τ帧输入图像之间的偏移量矩阵409之前，还包括对所述第二相关特征图408执行上采样，获得具有第三尺度的所述第二相关特征图，所述第三尺度为第三卷积特征提取层4003生成的卷积特征图的尺度。第二卷积特征提取层4004生成第t帧输入图像的第三卷积特征图410和第t+τ帧输入图像的第三卷积特征图412。

根据偏移量矩阵409对第t帧输入图像的第三卷积特征图410执行双线性插值(由图4中的运算符“B”表示)，获得第t帧输入图像的偏移后的第三卷积特征图411。此后，基于第t帧输入图像的偏移后的第三卷积特征图411和第t+τ帧输入图像的第三卷积特征图412，获得第t帧输入图像和第t+τ帧输入图像之间的第三相关特征图413。

参照图6，第一相关特征图403、第二相关特征图408和第三相关特征图413的任一、两者或者全部可以用于执行如上参照图1和图2描述的分类和边框回归。

图7是图示根据本公开的实施例的图像处理装置的框图。如图7所示的根据本公开的实施例的图像处理装置70可以用于执行如图1所示的根据本公开的实施例的图像处理方法。如图7所示，根据本公开的实施例的图像处理装置70包括图像输入单元701、图像特征提取单元702和处理结果输出单元703。

具体地，图像输入单元701用于经由所述输入层接收多帧输入图像。示例性地，所述图像输入单元701可以与图像特征提取单元702和处理结果输出单元703等在物理位置上分离，并且经由有线或者无线方式，由所述图像输入单元701发送输入图像给图像处理装置70中的其他单元。可替代地，所述图像输入单元701可以与图像处理装置70中的其他单元或组件物理上位于同一位置甚至位于同一机壳内部，图像处理装置70中的其他单元或组件经由内部总线接收由所述图像输入单元701发送的图像。

在本公开的一个实施例中，图7所示的图像处理装置70还可以包括图像获取单元(图中未示出)，图像获取单元用于获取所述输入图像。图像输入单元701具体用于经由输入层接收所述图像获取单元获取的所述输入图像。图像获取单元可以是摄像头，具体用于采集待处理的多帧图像。在本公开的另一个实施例中，图像获取单元具体用于经由有线或无线方式，接收待处理的多帧图像，例如接收图像采集设备或其他设备发送的待处理的多帧图像。在本公开的另一个实施例中，图像获取单元具体用于从存储器中获取预先存储的待处理的多帧图像。

图像特征提取单元702用于经由所述中间层提取所述多帧输入图像的图像特征，并根据所述多帧输入图像的图像特征计算所述多帧输入图像之间的偏移信息。所述中间层包括多个级联的卷积特征提取层，所述多个级联的卷积特征提取层的每一个输出具有与其卷积步长对应尺度的卷积特征图。

在本公开的一个实施例中，经由所述中间层提取所述多帧输入图像的图像特征包括：经由所述多个级联的卷积特征提取层中的第一卷积特征提取层，生成第t帧输入图像的第一卷积特征图和第t+τ帧输入图像的第一卷积特征图；基于所述第t帧输入图像的第一卷积特征图和所述第t+τ帧输入图像的第一卷积特征图，获得所述第t帧输入图像和所述第t+τ帧输入图像之间的第一相关特征图，并且根据所述第一相关特征图，得到所述第t帧输入图像和所述第t+τ帧输入图像之间的偏移量矩阵；经由所述多个级联的卷积特征提取层中的第二卷积特征提取层，生成第t帧输入图像的第二卷积特征图和第t+τ帧输入图像的第二卷积特征图，所述第一卷积特征图的第一尺度小于所述第二卷积特征图的第二尺度；根据所述偏移量矩阵对所述第t帧输入图像的第二卷积特征图执行双线性插值，获得所述第t帧输入图像的偏移后的第二卷积特征图；基于所述第t帧输入图像的偏移后的第二卷积特征图和所述第t+τ帧输入图像的第二卷积特征图，获得所述第t帧输入图像和所述第t+τ帧输入图像之间的第二相关特征图。

处理结果输出单元703用于经由输出层输出对于所述输入图像的处理结果，所述处理结果是根据所述多帧输入图像之间的偏移信息得到的，并且所述处理结果为在所述多帧输入图像中检测到的对象以及其在所述多帧输入图像中的位置。在本公开的一个实施例中，所述处理结果输出单元703基于所述第一相关特征图和/或所述第二相关特征图，输出所述处理结果。具体地，所述处理结果输出单元基于所述第一相关特征图和/或所述第二相关特征图，执行对象的分类检测和边框回归。

图8是图示根据本公开的实施例的图像处理装置的硬件框图。如图8所示，根据本公开实施例的图像处理装置80包括存储器801和处理器802。图像处理装置80中的各组件通过总线系统和/或其它形式的连接机构(未示出)互连。

所述存储器801用于存储计算机可读指令。具体地，存储器801可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。

所述处理器802可以是中央处理单元(CPU)、图形处理单元(GPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，并且可以控制图像处理装置80中的其它组件以执行期望的功能。在本公开的一个实施例中，所述处理器802用于运行所述存储器801中存储的所述计算机可读指令，使得所述图像处理装置80执行使用卷积神经网络系统的图像处理方法。所述图像处理方法与参照图1到图6描述的相同，在此将省略其重复描述。

此外，需要理解的是，图8所示的图像处理装置80的组件和结构只是示例性的，而非限制性的，根据需要，图像处理装置80也可以具有其他组件和结构。例如，图像采集装置和输出装置等(未示出)。图像采集装置可以用于采集用于图像处理的待处理多帧图像，并且将所拍摄的图像存储在存储器801中以供其它组件使用。当然，也可以利用其他图像采集设备采集所述待处理多帧图像，并且将采集的多帧图像发送给图像处理装置80，图像处理装置80可以将接收到的多帧图像存储到存储器801中。输出装置可以向外部(例如用户)输出各种信息，例如图像信息以及图像处理结果。输出装置可以包括显示器、扬声器、投影仪、网卡等中的一个或多个。

图9是图示根据本公开的实施例的计算机可读存储介质的示意图。如图9所示，根据本公开实施例的计算机可读存储介质900其上存储有计算机可读指令901。当所述计算机可读指令901由处理器运行时，执行参照以上附图描述的根据本公开实施例的图像处理方法。

根据本发明实施例，还提供了一种计算机程序，该计算机程序可以存储在云端或本地的存储介质上。在该计算机程序被计算机或处理器运行时用于执行本发明实施例的图像处理方法的相应步骤，并且用于实现根据本发明实施例的图像处理装置中的相应模块。

以上，参照附图描述了根据本公开实施例的使用卷积神经网络系统的图像处理方法和装置、以及计算机可读存储介质，通过引入不同帧图像之间的相关特征，同时实现了基于帧的对象检测和跨越各帧的追踪回归。通过由在原图上具有较大步长的特征捕获更大范围的运动物体，再由在原图上具有较小步长的特征来学习运动对象位置变化的残差，实现对于快速运动对象的追踪。

本公开的说明书和权利要求书及附图中的术语“第一”、“第二”和“第三”等是用于区别不同对象，而不是用于描述特定顺序。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

另外，如在此使用的，在以“至少一个”开始的项的列举中使用的“或”指示分离的列举，以便例如“A、B或C的至少一个”的列举意味着A或B或C，或AB或AC或BC，或ABC(即A和B和C)。此外，措辞“示例的”不意味着描述的例子是优选的或者比其他例子更好。

还需要指出的是，在本公开的系统和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

可以不脱离由所附权利要求定义的教导的技术而进行对在此所述的技术的各种改变、替换和更改。此外，本公开的权利要求的范围不限于以上所述的处理、机器、制造、事件的组成、手段、方法和动作的具体方面。可以利用与在此所述的相应方面进行基本相同的功能或者实现基本相同的结果的当前存在的或者稍后要开发的处理、机器、制造、事件的组成、手段、方法或动作。因而，所附权利要求包括在其范围内的这样的处理、机器、制造、事件的组成、手段、方法或动作。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种使用卷积神经网络系统的图像处理方法，所述卷积神经网络系统包含输入层、中间层和输出层，所述图像处理方法包括：

经由所述输入层接收多帧输入图像；

经由所述中间层提取所述多帧输入图像的图像特征，并根据所述多帧输入图像的图像特征计算所述多帧输入图像之间的偏移信息；以及

经由所述输出层输出对于所述多帧输入图像的处理结果，所述处理结果是根据所述多帧输入图像之间的偏移信息得到的，并且所述处理结果为在所述多帧输入图像中检测到的对象以及其在所述多帧输入图像中的位置。

2.如权利要求1所述的图像处理方法，其中，所述中间层包括多个级联的卷积特征提取层，所述多个级联的卷积特征提取层的每一个输出具有与其卷积步长对应尺度的卷积特征图，

经由所述中间层提取所述多帧输入图像的图像特征包括：

经由所述多个级联的卷积特征提取层中的第一卷积特征提取层，生成第t帧输入图像的第一卷积特征图和第t+τ帧输入图像的第一卷积特征图；

基于所述第t帧输入图像的第一卷积特征图和所述第t+τ帧输入图像的第一卷积特征图，获得所述第t帧输入图像和所述第t+τ帧输入图像之间的第一相关特征图，并且根据所述第一相关特征图，得到所述第t帧输入图像和所述第t+τ帧输入图像之间的偏移量矩阵；

经由所述多个级联的卷积特征提取层中的第二卷积特征提取层，生成第t帧输入图像的第二卷积特征图和第t+τ帧输入图像的第二卷积特征图，所述第一卷积特征图的第一尺度小于所述第二卷积特征图的第二尺度；

根据所述偏移量矩阵对所述第t帧输入图像的第二卷积特征图执行插值计算，获得所述第t帧输入图像的偏移后的第二卷积特征图；

基于所述第t帧输入图像的偏移后的第二卷积特征图和所述第t+τ帧输入图像的第二卷积特征图，获得所述第t帧输入图像和所述第t+τ帧输入图像之间的第二相关特征图，所述偏移信息包括所述第一相关特征图和所述第二相关特征图；

经由所述输出层输出对于所述多帧输入图像的处理结果包括：

基于所述第一相关特征图和/或所述第二相关特征图，输出所述处理结果。

3.如权利要求1所述的图像处理方法，其中，所述基于所述第一相关特征图和/或所述第二相关特征图，输出所述处理结果包括：

基于所述第一相关特征图和/或所述第二相关特征图，执行对象的分类检测和边框回归。

4.如权利要求1所述的图像处理方法，还包括对所述第一相关特征图执行上采样，获得具有所述第二尺度的所述第一相关特征图。

5.如权利要求1到4的任一项所述的图像处理方法，其中，在所述多个级联的卷积特征提取层中，所述第一卷积特征提取层生成最小尺度的卷积特征图。

6.一种使用卷积神经网络系统的图像处理装置，所述卷积神经网络系统包含输入层、中间层和输出层，所述图像处理装置包括：

图像输入单元，用于经由所述输入层接收多帧输入图像；

图像特征提取单元，用于经由所述中间层提取所述多帧输入图像的图像特征，并根据所述多帧输入图像的图像特征计算所述多帧输入图像之间的偏移信息；以及

处理结果输出单元，用于经由所述输出层输出对于所述多帧输入图像的处理结果，所述处理结果是根据所述多帧输入图像之间的偏移信息得到的，并且所述处理结果为在所述多帧输入图像中检测到的对象以及其在所述多帧输入图像中的位置。

7.如权利要求6所述的图像处理装置，其中，所述中间层包括多个级联的卷积特征提取层，所述多个级联的卷积特征提取层的每一个输出具有与其卷积步长对应尺度的卷积特征图，

所述图像特征提取单元

其中，所述处理结果输出单元基于所述第一相关特征图和/或所述第二相关特征图，输出所述处理结果。

8.如权利要求6所述的图像处理装置，其中，所述处理结果输出单元基于所述第一相关特征图和/或所述第二相关特征图，执行对象的分类检测和边框回归。

9.如权利要求6所述的图像处理装置，所述图像特征提取单元对所述第一相关特征图执行上采样，获得具有所述第二尺度的所述第一相关特征图。

10.如权利要求6到9的任一项所述的图像处理装置，其中，在所述多个级联的卷积特征提取层中，所述第一卷积特征提取层生成最小尺度的卷积特征图。

11.一种图像处理装置，包括：

存储器，用于存储计算机可读指令；以及

处理器，用于运行所述计算机可读指令，使得所述图像处理装置执行如权利要求1到5的任一项所述的图像处理方法。

12.一种计算机可读存储介质，用于存储计算机可读指令，当所述计算机可读指令由计算机执行时，使得所述计算机执行如权利要求1到5的任一项所述的图像处理方法。