CN110751021A

CN110751021A - 图像处理方法、装置、电子设备和计算机可读介质

Info

Publication number: CN110751021A
Application number: CN201910828394.2A
Authority: CN
Inventors: 郭义; 袁野; 俞刚
Original assignee: Beijing Maigewei Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd; Beijing Maigewei Technology Co Ltd
Priority date: 2019-09-03
Filing date: 2019-09-03
Publication date: 2020-02-04

Abstract

本发明提供了一种图像处理方法、装置、电子设备和计算机可读介质，该图像处理方法包括：提取待处理视频的N个视频帧的初步特征图；将所述待处理视频的所述N个视频帧的初步特征图分别输入到时间递归神经网络的N个神经网络单元中，其中N为正整数；根据当前视频帧的所述初步特征图和第N‑1个神经网络单元输出的状态流，从所述时间递归神经网络的第N个神经网络单元得到所述当前视频帧的输出特征图，其中所述当前视频帧为所述N个视频帧中的第N帧。本发明能够使待处理视频中的每个当前视频帧平等地获取前N‑1个视频帧的状态信息，还能够避免引入与当前视频帧距离太遥远的视频帧的状态信息而对当前视频帧的目标对象检测造成干扰的问题。

Description

图像处理方法、装置、电子设备和计算机可读介质

技术领域

本发明涉及深度学习技术领域，更具体地涉及一种基于时间递归网络的图像处理方法、装置、电子设备和计算机可读介质。

背景技术

利用神经网络对视频进行物体检测与对静态图片进行物体检测有所区别。从检测时间的角度来说，视频的相邻帧有高度的相似性，不需要像对待静态图片一样用一个高性能的检测器去逐帧检测，而是用一个小巧而快速的检测器即可；从检测精度来说，检测当前帧时，不仅可以利用当前帧的信息，还可以利用前后帧的时序信息。

目前主流的视频物体检测技术主要包括利用光流法来捕捉时序信息，或者利用后处理来平滑某一帧的检测结果。

发明内容

为了解决上述问题，本发明提出了一种基于时间递归神经网络的图像处理方案。下面简要描述本发明提出的关于基于时间递归神经网络的图像处理方案，更多细节将在后续结合附图在具体实施方式中加以描述。

根据本发明实施例一方面，提供了一种基于时间递归神经网络的图像处理方法，所述方法包括：提取待处理视频的N个视频帧的初步特征图；将所述待处理视频的所述N个视频帧的初步特征图分别输入到所述时间递归神经网络的N个神经网络单元中，其中N为正整数；根据当前视频帧的所述初步特征图和第N-1个神经网络单元输出的状态流，从所述时间递归神经网络的第N个神经网络单元得到所述当前视频帧的输出特征图，其中所述当前视频帧为所述N个视频帧中的第N帧。

本发明实施例另一方面提供一种神经网络的训练方法，包括：提取样本视频的N个样本帧的初步特征图；将所述样本视频的所述N个样本帧的初步特征图分别输入到时间递归神经网络的N个神经网络单元中，其中N为正整数；根据当前样本帧的所述初步特征图和第N-1个神经网络单元输出的状态流，从所述时间递归神经网络的第N个神经网络单元得到所述当前样本帧的输出特征图，其中所述当前样本帧为所述N个样本帧中的第N帧；根据所述当前样本帧的输出特征图计算损失函数，并基于所述损失函数更新所述时间递归神经网络的参数。

本发明实施例又一方面提供一种基于时间递归神经网络的图像处理装置，所述装置包括：提取模块，用于提取待处理视频的N个视频帧的初步特征图；输入模块，用于将所述待处理视频的所述N个视频帧的初步特征图分别输入到所述时间递归神经网络的N个神经网络单元中，其中N为正整数；以及输入模块，用于根据当前视频帧的所述初步特征图和第N-1个单元输出的状态流，从所述时间递归神经网络的第N个神经网络单元得到所述当前视频帧的输出特征图，其中所述当前视频帧为所述N个视频帧中的第N帧。

本发明实施例又一方面提供一种神经网络的训练装置，所述装置包括：特征图提取模块，用于提取样本视频的N个样本帧的初步特征图；特征图输入模块，用于将所述样本视频的所述N个样本帧的初步特征图分别输入到时间递归神经网络的N个神经网络单元中，其中N为正整数；特征图输出模块，用于根据当前样本帧的所述初步特征图和第N-1个神经网络单元输出的状态流，从所述时间递归神经网络的第N个神经网络单元得到所述当前样本帧的输出特征图，其中所述当前样本帧为所述N个样本帧中的第N帧；以及训练模块，用于根据所述当前样本帧的输出特征图计算损失函数，并基于所述损失函数更新所述时间递归神经网络的参数。

根据本发明实施例再一方面，提供了一种电子设备，所述电子设备包括存储装置和处理器，所述存储装置上存储有由所述处理器运行的计算机程序，所述计算机程序在被所述处理器运行时执行上述任一项所述的基于时间递归神经网络的图像处理方法或神经网络的训练方法。

根据本发明实施例又一方面，提供了一种计算机可读介质，所述计算机可读介质上存储有计算机程序，所述计算机程序在运行时执行上述任一项所述的基于时间递归神经网络的图像处理方法或神经网络的训练方法。

本发明实施例的基于时间递归神经网络的图像处理方法、神经网络的训练方法、装置、电子设备和计算机可读介质利用时间递归神经网络对初步特征图进行进一步处理，使待处理视频中的每个当前视频帧都能平等地获取前N-1个视频帧的状态信息，从而解决了在利用时间递归神经网络进行目标对象检测时，视频中各个视频帧获取的状态信息不均衡的问题，还能够避免引入与当前视频帧距离太遥远的视频帧的状态信息而对当前视频帧的目标检测造成干扰的问题。

附图说明

通过结合附图对本发明实施例进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与本发明实施例一起用于解释本发明，并不构成对本发明的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1示出用于实现根据本发明实施例的基于时间递归神经网络的图像处理方法、神经网络的训练方法、装置、电子设备和计算机可读介质的示例电子设备的示意性框图；

图2示出根据本发明实施例的基于时间递归神经网络的图像处理方法的示意性流程图；

图3示出根据本发明实施例的基于时间递归神经网络的图像处理方法的原理图；

图4示出根据本发明实施例的基于时间递归神经网络的图像处理装置的示意性框图；

图5示出根据本发明实施例的神经网络的训练方法的示意性流程图；

图6示出根据本发明实施例的神经网络的训练装置的示意性框图；以及

图7示出根据本发明实施例的电子设备的示意性框图。

具体实施方式

为了使得本发明的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本发明的示例实施例。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是本发明的全部实施例，应理解，本发明不受这里描述的示例实施例的限制。基于本发明中描述的本发明实施例，本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。

首先，参照图1来描述用于实现本发明实施例的基于时间递归神经网络的图像处理方法、神经网络的训练方法、装置、电子设备和计算机可读介质的示例电子设备100。

如图1所示，电子设备100包括一个或多个处理器102、一个或多个存储装置104、输入装置106、输出装置108以及图像传感器110，这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备也可以具有其他组件和结构。

所述处理器102可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，并且可以控制所述电子设备100中的其它组件以执行期望的功能。

所述存储装置104可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器102可以运行所述程序指令，以实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

所述输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

所述输出装置108可以向外部(例如用户)输出各种信息(例如图像或声音)，并且可以包括显示器、扬声器等中的一个或多个。

所述图像传感器110可以拍摄用户期望的图像(例如照片、视频等)，并且将所拍摄的图像存储在所述存储装置104中以供其它组件使用。

当注意，图1所示的电子设备100的组件和结构只是示例性的，尽管图1示出的电子设备100包括多个不同的装置，但是根据需要，其中的一些装置可以不是必须的，其中的一些装置的数量可以更多等等，本发明对此不限定。

下面，将参考图2描述根据本发明实施例的基于时间递归神经网络的图像处理方法200，该方法可以由图1所示的电子设备100执行。如图2所示，方法200可以包括：

在步骤S210，提取待处理视频的N个视频帧的初步特征图；

在步骤S220，将所述待处理视频的所述N个视频帧的初步特征图分别输入到所述时间递归神经网络的N个神经网络单元中，其中N为正整数；

在步骤S230，根据当前视频帧的所述初步特征图和第N-1个神经网络单元输出的状态流，从所述时间递归神经网络的第N个神经网络单元得到所述当前视频帧的输出特征图，其中所述当前视频帧为所述N个视频帧中的第N帧。

根据图像处理方法200获取视频帧的输出特征图时，除了最开始的少数几帧以外，后续每一帧都能平等地获取前N-1个视频帧的状态信息，从而解决了在利用时间递归神经网络进行图像检测时，视频中各个视频帧的地位不均衡的问题。该方案充分利用了视频本身的特点，即视频中的目标对象大多是平稳连续地运动，不需要与当前视频帧相隔太远的视频帧的信息辅助。结果表明，利用该图像处理方法所获得的输出特征图进行视频中的目标对象检测，可以极大地提高视频目标对象检测的精度。

具体地，在步骤S210中，所述待处理视频可以是正在执行拍摄任务的图像采集装置实时采集的一段视频，也可以为预先存储的视频。预先存储的视频可以是对原始视频进行归一化、平滑化处理后得到的视频。在一些实施例中，可以在获取完整的视频之后，再对视频进行处理。在另一些实施例中，可以在采集视频时，实时地对视频进行处理。

所述待处理视频中可以包括待检测的目标对象。所述目标对象可以是任何物体，包括但不限于行人、车辆、动物、文字或植物等、人体的一部分(如人脸)、动物的一部分或植物的一部分等，本发明对此不作具体限制。

参照图3，可以将所述待处理视频的每一帧输入到特征提取网络，以获取每一个视频帧的初步特征图。示例地，该特征提取网络可以为卷积神经网络，其可以包括至少一个卷积层，所述至少一个卷积层用于从每个视频帧中提取特征图。示例性地，可通过诸如HOG(方向梯度直方图)特征提取算法、LBP(局部二值模式)特征提取算法、Haar-like特征提取算法等任意一种算法对待处理视频的每个视频帧进行特征提取处理，得到待处理视频的每个视频帧的初步特征图。特征提取网络的结构以及具体的特征提取方式在此不进行限制。

在一个实施例中，在步骤S210中，可以一次性向特征提取网络输入多个视频帧，这些视频帧各自通过特征提取网络以后，分别输出各自的初步特征图，之后在步骤S220中复用这些初步特征图，这样可以提高获取初步特征图的效率，且充分利用了计算资源。在另一个实施例中，还可以每获取一个视频帧，即对其执行步骤S210，将其通过特征提取网络并输出其初步特征图，并在内存中保留最近提取的N个视频帧的初步特征图，从而提高检测速度。

在步骤S220中，利用时间递归神经网络(Recurrent Neural Network，RNN)进一步处理步骤S210中获取的初步特征图，以获得基于时序信息的输出特征图。时间递归神经网络为专用于处理时序数据的神经网络，其由多个重复的神经网络单元构成，每一个神经网络单元都能够利用当前输入和前一个神经网络单元向后传递的状态信息来生成当前输出。其中，所述时间递归神经网络共有N个神经网络单元，在处理待处理视频中的每个当前视频帧时，仅利用该当前视频帧及其之前的N-1个视频帧作为辅助帧，将这N个视频帧的N个初步特征图分别通过上述时间递归神经网络的N个神经网络单元。

继续参照图3，以N＝4为例，假设待处理视频中的t帧为当前视频帧，则在其之前的t-3帧、t-2帧、t-1帧作为t帧的辅助帧。通过特征提取网络提取这4帧的初步特征图之后，分别将这4个初步特征图输入到时间递归神经网络的4个神经网络单元中。

需要说明的是，本发明实施例及附图以N＝4进行描述，但N的具体数值不限于此。在一个实施例中，可以获取所述待处理视频中目标对象的运动速度，并根据所述运动速度确定所述N的取值。例如，对目标对象运动快的视频来说，N可以适当取较小的值，对目标对象运动慢的视频来说，N可以适当取较大的值，从而使辅助帧的数目对于待检测目标对象的运动速度更具有针对性。

在步骤S230中，时间递归神经网络的每个神经网络单元均会生成一个特征图输出和一个状态流输出。在本发明实施例中，时间递归神经网络的每个神经网络单元的输入，分别是特征提取网络输出的初步特征图，以及上一个神经网络单元传递过来的状态流；将输入所述N个神经网络单元中的第一个神经网络单元的状态流设置为预设值，例如设置为0。其中，将接收辅助帧初步特征图的前N-1个神经网络单元所生成的特征图丢弃，而只将每个神经网络单元的状态流信息依次输入到下一个神经网络单元。由此，最后一个神经网络单元可以获得前N-1个神经网络单元的时序信息。

在接收当前视频帧初步特征图的最后一个神经网络单元中，其状态流输出可以丢弃，并将其输出特征图作为当前视频帧的特征图输出。所述输出特征图为对当前视频帧进行处理后的图像，用于后续对待处理视频帧中的目标对象进行检测。

继续以N＝4为例，在这4个神经网络单元中，前3个神经网络单元分别接收前3个视频帧的初步特征图和前一个神经网络单元的状态流，并将输出的状态流依次向后传递；第4个神经网络单元接收当前视频帧的初步特征图和第3个神经网络单元传递而来的状态流，并输出当前视频帧的输出特征图。由于第4个神经网络单元输出的状态流无需向后传递，因而可以将其丢弃。

在一个实施例中，所述时间递归神经网络为长短期记忆(Long Short Term，LSTM)网络。LSTM网络为时间递归神经网络的一种形式，与传统的时间递归神经网络相比，LSTM网络新增了长期状态，并引入门机制来控制长期状态。具体地，LSTM网络中的每个神经网络单元包含三个门结构：输入门、输出门和遗忘门，分别起到调整输入、调整输出和清除记忆的作用。门结构可以控制神经网络单元的状态，向其中删减或增加信息。由于门机制的作用，LSTM网络可以捕捉序列中的长期相关关系，并且可以避免传统时间递归神经网络中常出现的梯度爆炸和梯度消失的现象。

作为示例，在LSTM网络的神经网络单元中，遗忘门以每一帧的初步特征图作为输入，通过激活函数输出一个取值在0到1之间的数字，表示上一层神经网络单元的状态被遗忘的概率，其中1表示完全保留，0表示完全舍弃。

输入门用于更新神经网络单元的状态。其中，sigmoid层输入0到1之间的概率值，决定哪些信息需要更新，tanh层生成候选值向量，即备选的用于更新的内容。二者相结合可以用于对神经网络单元的状态进行更新。首先确定前一层的神经网络单元的状态中哪些信息是需要丢弃掉的，然后再将新信息更新到神经网络单元的状态中去。至此，就得到了更新后的神经网络单元的状态。

输出门确定需要确定输出的特征值。首先，运行Sigmoid层来确定神经网络单元的状态的哪个部分将输出，接着用tanh层来处理神经网络单元的状态，最后将其与Sigmoid层的输出相乘，输出最终的特征图。

需要说明的是，上文所描述的仅是一种较为通用的LSTM网络结构，但实际应用中可以采用上述LSTM网络的各种变体，本发明对此不做限制。

此外，虽然本实施例中以LSTM网络为例进行描述，但所述时间递归神经网络的类型不限于LSTM网络，其他合适的时间递归神经网络也可以应用于根据本发明实施例的图像处理方法中，并且也应包括在本发明的保护范围内。例如，所述时间递归神经网络还可以包括门控循环单元网络(Gated Recurrent Unit networks,GRU)。GRU网络对应的神经网络单元仅包含2个门控：更新门和复位门，其中复位门的功能与LSTM神经网络单元的输入门相近，更新门则同时实现了遗忘门和输出门的功能。

在一种具体实施方式中，将RNN网络拉到无限长，其中每个神经网络单元的输出特征图都用于训练或检测。然而，这样做的弊端很明显，即越靠前的一些视频帧的辅助帧越少，越靠后的视频帧的辅助帧越多。并且，当视频足够长的时候，与当前视频帧距离太遥远的视频帧中包含的目标对象可能与当前视频帧中的完全不同，往往不能给当前视频帧提供辅助信息，反而引入了一些干扰信息，不利于对当前视频帧的进行有效的处理。与之相比，本发明实施例的RNN网络仅包括N个神经网络单元，对于一段视频中的绝大部分视频帧，都只采用N-1个辅助帧，从而避免了上述弊端。

可以理解的是，对于待处理视频的较靠前一些的当前视频帧来说，例如待处理视频的前N-1帧，辅助帧的数目不足N-1。因此，在一个实施例中，当所述当前视频帧为所述待处理视频的第n个视频帧时(其中1≤n＜N)，将所述待处理视频的所述第n个视频帧之前的N-n个视频帧的初步特征图设置为预设特征图。继续以N＝4为例，若当前视频帧为待处理视频的第n(n＝1、2或3)个视频帧，由于第n帧视频之前不存在N-n个视频帧，则时间递归神经网络的前N-n个神经网络单元无法获得初步特征图。因此，可以用预设特征图填充前N-n个神经网络单元接收的初步特征图。

例如，当检测视频中第2帧时，第4个神经网络单元接收第2帧的初步特征图，第3个神经网络单元接收第1帧的初步特征图，而前两个神经网络单元的接收的初步特征图空缺。此时将第1和第2个神经网络单元接收的初步特征图设置为预设特征图，例如，所述预设特征图中的全部特征值均为特定值，例如为0，但本申请实施例对此不做限定。

在一个实施例中，方法200还可以包括：基于所述当前视频帧的输出特征图进行图像检测，以得到所述当前视频帧中目标对象的检测结果。

示例性地，可以将时间递归神经网络最后一个神经网络单元所输出的输出特征图输入到目标检测网络，得到目标检测网络输出的检测结果。检测结果可以包括当前视频帧中是否包含目标对象，还可以包括目标对象在该视频帧中的位置等。

其中，目标检测网络可以包括分类子网络和/或回归子网络；所述分类子网络用于确定当前视频帧中是否包含目标对象；所述回归子网络用于确定视频帧中所包含的目标对象的位置。当目标检测网络包括分类子网络和回归子网络时，分类子网络和回归子网络并行设置。

分类子网络包括多个卷积层，主要用于目标分类。例如，在人脸检测任务中，分类子网络可以输出“是否存在人脸”的检测结果。回归子网络也包括多个卷积层，主要用于目标定位，目标定位任务也可认为是回归任务。将特征输入回归子网络，回归子网络可以确定目标对象的位置，并输出标示目标对象位置的边界框(bounding box)。

以上示例性地描述了根据本发明实施例的基于时间递归神经网络的图像处理方法。示例性地，根据本发明实施例的基于时间递归神经网络的图像处理方法可以在具有存储器和处理器的设备、装置或者系统中实现。

此外，根据本发明实施例的基于时间递归神经网络的图像处理方法可以方便地部署到智能手机、平板电脑、个人计算机等移动设备上。替代地，根据本发明实施例的基于时间递归神经网络的图像处理方法还可以部署在服务器端(或云端)。替代地，根据本发明实施例的基于时间递归神经网络的图像处理方法还可以分布地部署在服务器端(或云端)和个人终端处。

基于上面的描述，根据本发明实施例的基于时间递归神经网络的图像处理方法利用时间递归神经网络对初步特征图进行进一步处理，使待处理视频中的每个当前视频帧都能平等地获取前N-1个视频帧的状态流的信息，从而解决了在利用时间递归神经网络进行目标对象检测时，视频中各个视频帧获取的状态信息不均衡的问题，还能够避免引入与当前视频帧距离太遥远的视频帧的状态信息而对当前视频帧的目标对象检测造成干扰。

以上示例性地描述了根据本发明实施例的基于时间递归神经网络的图像处理方法所包括的示例性步骤流程。

下面结合图4描述本发明另一方面提供的基于时间递归神经网络的图像处理装置。图4示出了根据本发明实施例的基于时间递归神经网络的图像处理装置400的示意性框图。

如图4所示，根据本发明实施例的基于时间递归神经网络的图像处理装置400包括提取模块410、输入模块420和输出模块430。所述各个模块可分别执行上文中结合图2描述的基于时间递归神经网络的图像处理方法的各个步骤/功能，以下仅对各个模块的主要功能进行描述，而省略以上已经描述过的细节内容。

其中，提取模块410用于提取待处理视频的N个视频帧的初步特征图；输入模块420用于将所述待处理视频的所述N个视频帧的初步特征图分别输入到所述时间递归神经网络的N个神经网络单元中，其中N为正整数；输出模块430用于根据当前视频帧的所述初步特征图和第N-1个神经网络单元输出的状态流，从所述时间递归神经网络的第N个神经网络单元得到所述当前视频帧的输出特征图，其中所述当前视频帧为所述N个视频帧中的第N帧。

示例性地，所述时间递归神经网络可以为长短期记忆网络。

在一个实施例中，所述时间递归神经网络丢弃前N-1个神经网络单元输出的所述当前视频帧的前N-1个视频帧的输出特征图，仅将状态流向后传递。

其中，所述N的取值可以根据视频中目标对象的运动速度灵活调节。具体地，获取所述待处理视频中目标对象的运动速度；并根据所述运动速度确定所述N的取值。

在一个实施例中，将输入所述N个神经网络单元中的第一个神经网络单元的状态流设置为预设值，例如设置为0。

当所述当前视频帧为所述待处理视频的第n个视频帧时，可以将所述待处理视频的所述第n个视频帧之前的N-n个视频帧的初步特征图设置为预设特征图，其中1≤n＜N。

在一个实施例中，装置400还包括检测模块，用于基于所述当前视频帧的输出特征图进行图像检测，以得到所述当前视频帧中目标对象的检测结果。

以上示例性地描述了根据本发明实施例的基于时间递归神经网络的图像处理装置。示例性地，根据本发明实施例的基于时间递归神经网络的图像处理装置可以在具有存储器和处理器的设备、装置或者系统中实现。

此外，根据本发明实施例的基于时间递归神经网络的视频图像装置可以方便地部署到智能手机、平板电脑、个人计算机等移动设备上。替代地，根据本发明实施例的基于时间递归神经网络的图像处理装置还可以部署在服务器端(或云端)。替代地，根据本发明实施例的基于时间递归神经网络的图像处理装置还可以分布地部署在服务器端(或云端)和个人终端处。

基于上面的描述，根据本发明实施例的基于时间递归神经网络的图像处理装置利用时间递归神经网络对初步特征图进行进一步处理，使待处理视频中的每一个当前帧都能平等地获取前N-1个视频帧的状态流的信息，从而解决了在利用时间递归神经网络进行图像检测时，视频中各个视频帧获取的状态流信息不均衡的问题，还能够避免引入与当前视频帧距离太遥远的视频帧的状态信息而对当前视频帧的目标检测造成干扰。

下面，将参考图5描述根据本发明实施例的神经网络的训练方法500，该方法可以由图1所示的电子设备100执行。方法500中获取样本帧的输出特征图的具体方式与方法200中获取当前视频帧的输出特征图的具体方式类似，以下仅对神经网络的训练方法的主要步骤进行描述，而省略以上已经描述过的细节内容。

如图5所示，方法500可以包括：

在步骤S510，提取样本视频的N个样本帧的初步特征图；

在步骤S520，将所述样本视频的所述N个样本帧的初步特征图分别输入到时间递归神经网络的N个神经网络单元中，其中N为正整数；

在步骤S530，根据当前样本帧的所述初步特征图和第N-1个神经网络单元输出的状态流，从所述时间递归神经网络的第N个神经网络单元得到所述当前样本帧的输出特征图，其中所述当前样本帧为所述N个样本帧中的第N帧；

在步骤S540，根据所述当前样本帧的输出特征图计算损失函数，并基于所述损失函数更新所述时间递归神经网络的参数。

根据方法500获取样本帧的输出特征图时，除了最开始的少数几帧以外，后续每一帧都能平等地获取前N-1个样本帧的状态信息，从而解决了在网络训练的过程中样本视频中各个样本帧的地位不均衡的问题。该方案充分利用了视频本身的特点，即视频中的目标对象大多是平稳连续地运动，不需要与当前样本帧相隔太远的样本帧的信息辅助。结果表明，利用该方法训练神经网络可以极大地提高视频中目标对象检测的精度。

具体地，可以将样本视频的每一帧输入到特征提取网络，以获取每一个样本帧的初步特征图。在一个实施例中，为了充分利用计算资源，可以一次性向特征提取网络输入多个样本帧，这些样本帧各自通过特征提取网络以后，分别输出各自的初步特征图，之后在步骤S520中复用这些初步特征图。在另一个实施例中，还可以每获取一个样本帧，即对其执行步骤S510，将其通过特征提取网络并输出其初步特征图，并在内存中保留最近提取的N个样本帧的初步特征图，从而提高训练速度。

在步骤S520中，利用时间递归神经网络进一步处理初步特征图，以获得基于时序信息的输出特征图。其中，所述时间递归神经网络共有N个神经网络单元，针对每个当前样本帧，只利用该当前样本帧及其之前的N-1个样本帧作为辅助帧，将这N个样本帧的N个初步特征图分别通过上述N个神经网络单元。

在一个实施例中，可以获取所述样本视频中目标对象的运动速度，并根据所述运动速度确定所述N的取值。例如，对目标对象运动快的视频来说，N可以适当取较小的值，对目标对象运动慢的视频来说，N可以适当取较大的值。

在步骤S530中，时间递归网络的每个神经网络单元均会生成一个特征图输出和一个状态流输出。在本发明实施例中，每个神经网络单元的输入，分别是特征提取网络输出的初步特征图，以及上一个单元传递过来的状态流。其中，将接收辅助帧初步特征图的前N-1个神经网络单元所生成的输出特征图丢弃，而只将每个神经网络单元的状态流信息依次输入到下一个单元。由此，最后一个神经网络单元可以获得前N-1个神经网络单元的时序信息。在接收当前样本帧初步特征图的最后一个单元中，其状态流输出可以丢弃，并将其输出特征图作为当前样本帧的特征图输出，用于训练神经网络。

在一个实施例中，所述时间递归神经网络为长短期记忆(Long Short Term，LSTM)网络。LSTM网络为时间递归神经网络的一种形式，与传统的时间递归神经网络相比，LSTM网络新增了长期状态，并引入门机制来控制长期状态。具体地，LSTM网络中的每个神经网络单元包含三个门结构：输入门、输出门和遗忘门，分别起到调整输入、调整输出和清除记忆的作用。门结构可以控制单元状态，向其中删减或增加信息。由于门机制的作用，LSTM网络可以捕捉序列中的长期相关关系，并且可以避免训练传统时间递归神经网络中常出现的梯度爆炸和梯度消失的现象。

需要说明的是，所述时间递归神经网络的类型不限于LSTM网络，其他合适的时间递归神经网络也可以应用于根据本发明实施例的图像处理方法中，并且也应包括在本发明的保护范围内。例如，所述时间递归神经网络还可以包括门控循环单元网络(GatedRecurrent Unit networks,GRU)。

在一个实施例中，当所述当前样本帧为所述样本视频的第n个样本帧时(其中1≤n＜N)，将所述样本视频的所述第n个样本帧之前的N-n个样本帧的初步特征图设置为预设特征图。

之后，根据所述当前样本帧的输出特征图计算损失函数，并基于所述损失函数更新所述时间递归神经网络的参数。具体地，可以利用通过反向传播、随机梯度下降或梯度回传等算法进行训练，来更新时间递归神经网络以及后续的目标检测网络的参数。

基于上面的描述，根据本发明实施例的神经网络的训练方法利用时间递归神经网络对样本帧的初步特征图进行进一步处理，使样本视频中的每一个当前样本帧都能平等地获取前N-1个样本帧的状态流的信息，从而解决了在训练神经网络时，样本视频中各个样本帧获取的状态流信息不均衡的问题，还能够避免引入与当前样本帧距离太遥远的样本帧的状态信息而对神经网络的训练造成干扰。

以上示例性地描述了根据本发明实施例的神经网络的训练方法。示例性地，根据本发明实施例的神经网络的训练方法可以在具有存储器和处理器的设备、装置或者系统中实现。

下面结合图6描述本发明另一方面提供的神经网络的训练装置。图6示出了根据本发明实施例的神经网络的训练装置600的示意性框图。

如图6所示，根据本发明实施例的神经网络的训练装置600包括特征图提取模块610、特征图输入模块620、特征图输出模块630以及训练模块640。所述各个模块可分别执行上文中结合图5描述的神经网络的训练方法的各个步骤/功能，以下仅对各个模块的主要功能进行描述，而省略以上已经描述过的细节内容。

其中，特征图提取模块610用于提取样本视频的N个样本帧的初步特征图；特征图输入模块620用于将所述样本视频的所述N个样本帧的初步特征图分别输入到所述时间递归神经网络的N个神经网络单元中，其中N为正整数；特征图输出模块630用于根据当前样本帧的所述初步特征图和第N-1个神经网络单元输出的状态流，从所述时间递归神经网络的第N个神经网络单元得到所述当前样本帧的输出特征图，其中所述当前样本帧为所述N个样本帧中的第N帧；训练模块640用于根据所述当前样本帧的输出特征图计算损失函数，并基于所述损失函数更新所述时间递归神经网络的参数。

示例性地，所述时间递归神经网络可以为长短期记忆网络。

在一个实施例中，所述时间递归神经网络模块620丢弃前N-1个神经网络单元输出的所述样本视频的前N-1个样本帧的输出特征图，仅将状态流向后传递。

其中，所述N的取值可以根据样本视频中目标对象的运动速度灵活调节。具体地，获取所述样本视频中目标对象的运动速度；并根据所述运动速度确定所述N的取值。

当所述当前样本帧为所述样本视频的第n个样本帧时，可以将所述样本视频的所述第n个样本帧之前的N-n个样本帧的初步特征图设置为预设特征图，其中1≤n＜N。

基于上面的描述，根据本发明实施例的神经网络的训练装置利用时间递归神经网络对样本帧的初步特征图进行进一步处理，使样本视频中的每一个当前样本帧都能平等地获取前N-1个样本帧的状态流的信息，从而解决了在训练神经网络时，样本视频中各个样本帧获取的状态流信息不均衡的问题，还能够避免引入与当前样本帧距离太遥远的样本帧的状态信息而对神经网络的训练造成干扰。

图7示出了根据本发明实施例的电子设备700的示意性框图。电子设备700包括存储装置710以及处理器720。

其中，存储装置710存储用于实现根据本发明实施例的基于时间递归神经网络的图像处理方法或神经网络的训练方法中的相应步骤的程序代码。处理器720用于运行存储装置710中存储的程序代码，以执行根据本发明实施例的基于时间递归神经网络的图像处理方法或神经网络的训练方法的相应步骤，并且用于实现根据本发明实施例的基于时间递归神经网络的图像处理装置或神经网络的训练装置中的相应模块。

在一个实施例中，在所述程序代码被处理器720运行时使得电子设备700执行以下步骤：提取待处理视频的N个视频帧的初步特征图；将所述待处理视频的所述N个视频帧的初步特征图分别输入到所述时间递归神经网络的N个神经网络单元中，其中N为正整数；根据当前视频帧的所述初步特征图和第N-1个神经网络单元输出的状态流，从所述时间递归神经网络的第N个神经网络单元得到所述当前视频帧的输出特征图，其中所述当前视频帧为所述N个视频帧中的第N帧。

在一个实施例中，在所述程序代码被处理器720运行时还使得电子设备700执行：丢弃所述时间递归神经网络的前N-1个神经网络单元输出的所述当前视频帧的前N-1个视频帧的输出特征图。

在一个实施例中，在所述程序代码被处理器720运行时还使得电子设备700执行：获取所述待处理视频中目标对象的运动速度；根据所述运动速度，确定所述N的取值。

在一个实施例中，在所述程序代码被处理器720运行时还使得电子设备700执行：将输入所述N个神经网络单元中的第一个神经网络单元的状态流设置为预设值。

在一个实施例中，在所述程序代码被处理器720运行时还使得电子设备700执行：当所述当前视频帧为所述待处理视频的第n个视频帧时，将所述待处理视频的所述第n个视频帧之前的N-n个视频帧的初步特征图设置为预设特征图，其中1≤n＜N。

在一个实施例中，在所述程序代码被处理器720运行时还使得电子设备700执行：基于所述当前视频帧的输出特征图进行图像检测，以得到所述当前视频帧中目标对象的检测结果。

在一个实施例中，在所述程序代码被处理器720运行时使得电子设备700执行以下步骤：提取样本视频的N个样本帧的初步特征图；将所述样本视频的所述N个样本帧的初步特征图分别输入到时间递归神经网络的N个神经网络单元中，其中N为正整数；根据当前样本帧的所述初步特征图和第N-1个神经网络单元输出的状态流，从所述时间递归神经网络的第N个神经网络单元得到所述当前样本帧的输出特征图，其中所述当前样本帧为所述N个视频帧中的第N帧；根据所述当前样本帧的输出特征图计算损失函数，并基于所述损失函数更新所述时间递归神经网络的参数。

在一个实施例中，在所述程序代码被处理器720运行时还使得电子设备700执行：丢弃所述时间递归神经网络的前N-1个神经网络单元输出的前N-1个样本帧的输出特征图。

此外，根据本发明实施例，还提供了一种存储介质，在所述存储介质上存储了程序指令，在所述程序指令被计算机或处理器运行时用于执行本发明实施例的基于时间递归神经网络的图像处理方法或神经网络的训练方法的相应步骤，并且用于实现根据本发明实施例的基于时间递归神经网络的图像处理装置或神经网络的训练装置中的相应模块。所述存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。所述计算机可读存储介质可以是一个或多个计算机可读存储介质的任意组合。

在一个实施例中，所述计算机程序指令在被计算机或处理器运行时使计算机或处理器执行以下步骤：提取待处理视频的N个视频帧的初步特征图；将所述待处理视频的所述N个视频帧的初步特征图分别输入到所述时间递归神经网络的N个神经网络单元中，其中N为正整数；根据当前视频帧的所述初步特征图和第N-1个神经网络单元输出的状态流，从所述时间递归神经网络的第N个神经网络单元得到所述当前视频帧的输出特征图，其中所述当前视频帧为所述N个视频帧中的第N帧。

在一个实施例中，所述计算机程序指令在被计算机或处理器运行时使计算机或处理器执行：丢弃所述时间递归神经网络的前N-1个神经网络单元输出的所述当前视频帧的前N-1个视频帧的输出特征图。

在一个实施例中，所述计算机程序指令在被计算机或处理器运行时使计算机或处理器执行：获取所述待处理视频中目标对象的运动速度；根据所述运动速度，确定所述N的取值。

在一个实施例中，所述计算机程序指令在被计算机或处理器运行时使计算机或处理器执行：将输入所述N个神经网络单元中的第一个神经网络单元的状态流设置为预设值。

在一个实施例中，所述计算机程序指令在被计算机或处理器运行时使计算机或处理器执行：当所述当前视频帧为所述待处理视频的第n个视频帧时，将所述待处理视频的所述第n个视频帧之前的N-n个视频帧的初步特征图设置为预设特征图，其中1≤n＜N。

在一个实施例中，所述计算机程序指令在被计算机或处理器运行时使计算机或处理器执行：基于所述当前视频帧的输出特征图进行图像检测，以得到所述当前视频帧中目标对象的检测结果。

在一个实施例中，所述计算机程序指令在被计算机或处理器运行时使计算机或处理器执行以下步骤：提取样本视频的N个样本帧的初步特征图；将所述样本视频的所述N个样本帧的初步特征图分别输入到时间递归神经网络的N个神经网络单元中，其中N为正整数；根据当前样本帧的所述初步特征图和第N-1个神经网络单元输出的状态流，从所述时间递归神经网络的第N个神经网络单元得到所述当前样本帧的输出特征图，其中所述当前视频帧为所述N个视频帧中的第N帧；根据所述当前样本帧的输出特征图计算损失函数，并基于所述损失函数更新所述时间递归神经网络的参数。

在一个实施例中，所述计算机程序指令在被计算机或处理器运行时使计算机或处理器执行：丢弃所述时间递归神经网络的前N-1个神经网络单元输出的前N-1个样本帧的输出特征图。

根据本发明实施例的基于时间递归神经网络的图像处理方法、装置、电子设备和计算机可读介质利用时间递归神经网络对初步特征图进行进一步处理，使待处理视频中的每个当前视频帧都能平等地获取前N-1个视频帧的状态流的信息，从而解决了在利用时间递归神经网络进行目标对象检测时，视频中各个视频帧获取的状态信息不均衡的问题，还能够避免引入与当前视频帧距离太遥远的视频帧的状态信息而对当前视频帧的目标对象检测造成干扰。

尽管这里已经参考附图描述了示例实施例，应理解上述示例实施例仅仅是示例性的，并且不意图将本发明的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改，而不偏离本发明的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本发明的范围之内。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个设备，或一些特征可以忽略，或不执行。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该本发明的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如相应的权利要求书所反映的那样，其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域的技术人员可以理解，除了特征之间相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者其他合适的处理器来实现根据本发明实施例的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述，仅为本发明的具体实施方式或对具体实施方式的说明，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于时间递归神经网络的图像处理方法，其特征在于，所述方法包括：

提取待处理视频的N个视频帧的初步特征图；

将所述待处理视频的所述N个视频帧的初步特征图分别输入到所述时间递归神经网络的N个神经网络单元中，其中N为正整数；

根据当前视频帧的所述初步特征图和第N-1个神经网络单元输出的状态流，从所述时间递归神经网络的第N个神经网络单元得到所述当前视频帧的输出特征图，其中所述当前视频帧为所述N个视频帧中的第N帧。

2.根据权利要求1所述的基于时间递归神经网络的图像处理方法，其特征在于，还包括：

丢弃所述时间递归神经网络的前N-1个神经网络单元输出的所述当前视频帧的前N-1个视频帧的输出特征图。

3.根据权利要求1所述的基于时间递归神经网络的图像处理方法，其特征在于，还包括：

获取所述待处理视频中目标对象的运动速度；

根据所述运动速度，确定所述N的取值。

4.根据权利要求1所述的基于时间递归神经网络的图像处理方法，其特征在于，还包括：

将输入所述N个神经网络单元中的第一个神经网络单元的状态流设置为预设值。

5.根据权利要求1所述的基于时间递归神经网络的图像处理方法，其特征在于，当所述当前视频帧为所述待处理视频的第n个视频帧时，将所述待处理视频的所述第n个视频帧之前的N-n个视频帧的初步特征图设置为预设特征图，其中1≤n＜N。

6.根据权利要求1所述的基于时间递归神经网络的图像处理方法，其特征在于，还包括：

基于所述当前视频帧的输出特征图进行图像检测，以得到所述当前视频帧中目标对象的检测结果。

7.一种神经网络的训练方法，其特征在于，包括：

提取样本视频的N个样本帧的初步特征图；

将所述样本视频的所述N个样本帧的初步特征图分别输入到时间递归神经网络的N个神经网络单元中，其中N为正整数；

根据当前样本帧的所述初步特征图和第N-1个神经网络单元输出的状态流，从所述时间递归神经网络的第N个神经网络单元得到所述当前样本帧的输出特征图，其中所述当前样本帧为所述N个样本帧中的第N帧；

根据所述当前样本帧的输出特征图计算损失函数，并基于所述损失函数更新所述时间递归神经网络的参数。

8.根据权利要求7所述的神经网络训练方法，其特征在于，还包括：

丢弃所述时间递归神经网络的前N-1个神经网络单元输出的前N-1个样本帧的输出特征图。

9.一种基于时间递归神经网络的图像处理装置，其特征在于，所述装置包括：

提取模块，用于提取待处理视频的N个视频帧的初步特征图；以及

输入模块，用于将所述待处理视频的所述N个视频帧的初步特征图分别输入到所述时间递归神经网络的N个神经网络单元中，其中N为正整数；

输出模块，用于根据当前视频帧的所述初步特征图和第N-1个单元输出的状态流，从所述时间递归神经网络的第N个神经网络单元得到所述当前视频帧的输出特征图，其中所述当前视频帧为所述N个视频帧中的第N帧。

10.一种神经网络的训练装置，其特征在于，所述装置包括：

特征图提取模块，用于提取样本视频的N个样本帧的初步特征图；

特征图输入模块，用于将所述样本视频的所述N个样本帧的初步特征图分别输入到时间递归神经网络的N个神经网络单元中，其中N为正整数；

特征图输出模块，用于根据当前样本帧的所述初步特征图和第N-1个神经网络单元输出的状态流，从所述时间递归神经网络的第N个神经网络单元得到所述当前样本帧的输出特征图，其中所述当前样本帧为所述N个样本帧中的第N帧；以及

训练模块，用于根据所述当前样本帧的输出特征图计算损失函数，并基于所述损失函数更新所述时间递归神经网络的参数。

11.一种电子设备，其特征在于，包括存储装置和处理器，所述存储装置上存储有由所述处理器运行的计算机程序，所述计算机程序在被所述处理器运行时执行如权利要求1-6中的任一项所述的基于时间递归网络的图像处理方法或如权利要求7-8中任一项所述的神经网络的训练方法。

12.一种计算机可读介质，其特征在于，所述计算机可读介质上存储有计算机程序，所述计算机程序在运行时执行如权利要求1-6中的任一项所述的基于时间递归网络的图像处理方法或如权利要求7-8中任一项所述的神经网络的训练方法。