CN113673280A

CN113673280A - 图像处理装置、图像处理方法和计算机可读存储介质

Info

Publication number: CN113673280A
Application number: CN202010407312.XA
Authority: CN
Inventors: 吴松涛; 许宽宏
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2020-05-14
Filing date: 2020-05-14
Publication date: 2021-11-19
Also published as: WO2021227933A1; CN115349142A

Abstract

本公开涉及图像处理装置、图像处理方法和计算机可读存储介质。根据本公开的图像处理装置包括处理电路，被配置为：将连续输入的多个图像划分为多个图像块；利用卷积神经网络模型提取每个图像块的时空特征，所述卷积神经网络模型包括可分卷积网络和逐点卷积网络、或者包括可分卷积网络和空洞卷积网络；以及利用循环神经网络模型根据各个图像块的时空特征确定所述多个图像中包括的手势。使用根据本公开的图像处理装置、图像处理方法和计算机可读存储介质，可以快速准确地识别动态手势。

Description

图像处理装置、图像处理方法和计算机可读存储介质

技术领域

本公开的实施例总体上涉及图像处理领域，具体地涉及图像处理装置、图像处理方法和计算机可读存储介质。更具体地，本公开的实施例涉及能够对连续输入的多个图像中包括的手势进行识别的图像处理装置、图像处理方法和计算机可读存储介质。

背景技术

动态手势识别是指对由连续输入的多帧图像构成的动态手势序列进行识别的一种技术。由于手势的灵活性和方便性，动态手势识别在人机交互、AR(Augmented Reality，增强现实)/VR(Virtual Reality，虚拟现实)等环境下有较为广泛的应用前景。

在线动态手势识别是对连续的多个动态手势进行分割和识别的技术。相比于离线动态手势识别，在线动态手势识别具有极大的挑战性，主要在于两个方面：分辨出手势的开始帧和结束帧；以及识别手势。针对在线动态手势识别技术，可以通过对每一类手势选择一个或者几个关键帧来区别不同的手势，但是由于关键帧需要手工选择，因此具有很强的不确定性。此外，在手势种类很多的情况下，很难针对每一类手势都选择合适的关键帧。针对在线动态手势识别技术，还可以通过隐马尔可夫模型建模相邻图像帧，以区分不同手势。但是由于隐马尔可夫模型的表达能力比较弱，因此只能对少数类别的手势进行识别。

因此，有必要提出一种技术方案，以快速准确地识别动态手势。

发明内容

这个部分提供了本公开的一般概要，而不是其全部范围或其全部特征的全面披露。

本公开的目的在于提供一种图像处理装置、图像处理方法和计算机可读存储介质，以快速准确地识别动态手势。

根据本公开的一方面，提供了一种图像处理装置，包括处理电路，被配置为：将连续输入的多个图像划分为多个图像块；利用卷积神经网络模型提取每个图像块的时空特征，所述卷积神经网络模型包括可分卷积(separable convolution)网络和逐点卷积(pointwise convolution)网络、或者包括可分卷积网络和空洞卷积(DilatedConvolution)网络；以及利用循环神经网络(Recurrent Neural Network，RNN)模型根据各个图像块的时空特征确定所述多个图像中包括的手势。

根据本公开的另一方面，提供了一种图像处理方法，包括：将连续输入的多个图像划分为多个图像块；利用卷积神经网络模型提取每个图像块的时空特征，所述卷积神经网络模型包括可分卷积网络和逐点卷积网络、或者包括可分卷积网络和空洞卷积网络；以及利用循环神经网络模型根据各个图像块的时空特征确定所述多个图像中包括的手势。

根据本公开的另一方面，提供了一种计算机可读存储介质，包括可执行计算机指令，所述可执行计算机指令当被计算机执行时使得所述计算机执行根据本公开所述的图像处理方法。

根据本公开的另一方面，提供了一种计算机程序，所述计算机程序当被计算机执行时使得所述计算机执行根据本公开所述的图像处理方法。

使用根据本公开的图像处理装置、图像处理方法和计算机可读存储介质，可以利用卷积神经网络提取图像块的时空特征，卷积神经网络包括可分卷积网络和逐点卷积网络，或者包括可分卷积网络和空洞卷积网络，从而可以根据提取的时空特征利用循环神经网络识别手势。由于采用了可分卷积网络以及逐点卷积网络/空洞卷积网络，因此可以降低手势识别的计算量，以快速准确地识别动态手势。

从在此提供的描述中，进一步的适用性区域将会变得明显。这个概要中的描述和特定例子只是为了示意的目的，而不旨在限制本公开的范围。

附图说明

在此描述的附图只是为了所选实施例的示意的目的而非全部可能的实施，并且不旨在限制本公开的范围。在附图中：

图1是示出连续的多个图像中包括的手势的示意图；

图2是示出根据本公开的实施例的图像处理装置的配置的示例的框图；

图3是示出根据本公开的实施例对图像中的关键点进行提取的过程的示意图；

图4是示出根据本公开的实施例的卷积神经网络模型的结构的示例的框图；

图5是示出根据本公开的实施例的卷积神经网络模型的结构的示例的框图；

图6是示出根据本公开的实施例的卷积神经网络模型的结构的示例的框图；

图7是示出根据本公开的实施例的卷积神经网络模型的结构的示例的框图；

图8是示出根据本公开的实施例的卷积神经网络模型的结构的示例的框图；

图9是示出根据本公开的实施例的卷积神经网络模型的结构的示例的框图；

图10是示出根据本公开的实施例的卷积神经网络模型的结构的示例的框图；

图11是示出循环神经网络模型的结构的示意图；

图12是示出根据本公开的实施例的循环神经网络模型的结构的示意图；

图13是示出根据本公开的实施例的图像处理装置的结构的示意图；

图14是示出根据本公开的实施例的图像处理装置的结构的示意图；

图15是示出根据本公开的实施例的图像处理方法的流程图；以及

图16是示出可以实现根据本公开的图像处理装置的电子设备的示例的框图。

虽然本公开容易经受各种修改和替换形式，但是其特定实施例已作为例子在附图中示出，并且在此详细描述。然而应当理解的是，在此对特定实施例的描述并不打算将本公开限制到公开的具体形式，而是相反地，本公开目的是要覆盖落在本公开的精神和范围之内的所有修改、等效和替换。要注意的是，贯穿几个附图，相应的标号指示相应的部件。

具体实施方式

现在参考附图来更加充分地描述本公开的例子。以下描述实质上只是示例性的，而不旨在限制本公开、应用或用途。

提供了示例实施例，以便本公开将会变得详尽，并且将会向本领域技术人员充分地传达其范围。阐述了众多的特定细节如特定部件、装置和方法的例子，以提供对本公开的实施例的详尽理解。对于本领域技术人员而言将会明显的是，不需要使用特定的细节，示例实施例可以用许多不同的形式来实施，它们都不应当被解释为限制本公开的范围。在某些示例实施例中，没有详细地描述众所周知的过程、众所周知的结构和众所周知的技术。

将按照以下顺序进行描述：

1.图像处理装置的配置示例；

2.图像处理方法的示例；

3.应用示例。

<1.图像处理装置的配置示例>

图1是示出连续的多个图像中包括的手势的示意图。如图1所示，上面的图示出了多个图像中包括“双击”手势的示例，下面的图示出了多个图像中包括“紧握”手势的示例。

前文中提到，在手势种类逐渐增多的情况下，现有的手势识别技术很难做到快速准确地识别各类手势。因此，本公开期望提出一种图像处理装置、图像处理方法和计算机可读存储介质，以快速准确地识别各类动态手势。

图2是示出根据本公开的实施例的图像处理装置200的配置的示例的框图。这里，图像处理装置200可以对连续输入的多个图像中包括的手势进行识别。连续输入的多个图像，例如视频、动态图像或快速输入的一组静态图像等。具体地，图像处理装置200可以对动态手势进行实时识别，即可以在线对动态手势进行识别。

如图2所示，图像处理装置200可以包括预处理单元210、提取单元220和确定单元230。

这里，图像处理装置200的各个单元都可以包括在处理电路中。需要说明的是，图像处理装置200既可以包括一个处理电路，也可以包括多个处理电路。进一步，处理电路可以包括各种分立的功能单元以执行各种不同的功能和/或操作。需要说明的是，这些功能单元可以是物理实体或逻辑实体，并且不同称谓的单元可能由同一个物理实体实现。

根据本公开的实施例，预处理单元210可以将连续输入的多个图像划分为多个图像块。

根据本公开的实施例，提取单元220可以利用卷积神经网络模型提取每个图像块的时空特征。根据本公开的实施例，卷积神经网络模型可以包括可分卷积网络和逐点卷积网络。或者，卷积神经网络模型也可以包括可分卷积网络和空洞卷积网络。

根据本公开的实施例，确定单元230可以利用循环神经网络模型根据各个图像块的时空特征确定多个图像中包括的手势。

如上所述，根据本公开的实施例的图像处理装置200，可以利用卷积神经网络模型提取图像块的时空特征，卷积神经网络模型包括可分卷积网络和逐点卷积网络，或者包括可分卷积网络和空洞卷积网络，从而可以根据提取的时空特征利用循环神经网络识别手势。由于采用了可分卷积网络以及逐点卷积网络/空洞卷积网络，因此可以降低手势识别的计算量，以快速准确地识别动态手势。

在本公开中，可分卷积也被称为深度可分卷积(depthwiseseparableconvolution)，其通过拆分空间维度和通道(深度)维度的相关性，减少了卷积计算所需要的参数个数。深度可分卷积的卷积计算分为两部分，首先对通道(深度)分别进行空间卷积，并对输出进行拼接，随后使用单位卷积核进行通道卷积以得到特征图。

在本公开中，逐点卷积使用了一个1x1的卷积核函数，或者说是一个遍历每个点的卷积核函数。其中，卷积核的深度为输入至逐点卷积网络的图像的通道个数。

在本公开中，空洞卷积也被称为膨胀卷积，是在卷积核里注入空洞。在空洞卷积中有一个参数可以设置空洞率，具体含义就是在卷积核中填充空洞率-1个0。当设置不同空洞率时，感受野就会不一样。因此。空洞卷积可以扩大感受野，并获得多尺度的上下文信息。

根据本公开的实施例，图像处理装置的输入是包括手势的多个图像(或者多帧图像)。根据本公开的实施例，图像可以是RGB图像和深度图像中的任意一种。

根据本公开的实施例，预处理单元210可以将输入至图像处理装置200的多个图像划分为多个图像块。具体地，预处理单元210可以将输入至图像处理装置200的多个图像中连续输入的M个图像划分至一个图像块，M为大于等于2的整数。也就是说，以M个图像为单位，预处理单元210可以将输入至图像处理装置的多个图像划分为多个图像块。这里，每个包括M个图像的图像块都可以看做一个时空单元。优选地，M可以为4、8、16、32等值。例如，当M为8时，预处理单元210可以从任意位置开始、将输入至图像处理装置200的多个图像中连续输入的8个图像划分至一个图像块。例如，预处理单元210可以将输入至图像处理装置200的多个图像中的第1-8个图像划分为第1图像块，第9-16个图像划分为第2个图像块，以此类推。

根据本公开的实施例，预处理单元210还可以确定划分出的多个图像块中的每个图像块的特征，并可以将各个图像块的特征输入至提取单元220。

根据本公开的实施例，预处理单元210可以提取输入至图像处理装置200的多个图像中的每个图像的多个关键点的特征。进一步，预处理单元210可以将图像块包括的M个图像中的每个图像的各个关键点的特征作为该图像块的特征。

这里，在对手势进行识别的情况下，关键点例如可以是做出手势的手部的关节点。本公开对每个图像中包括的关键点的数目不做限定。例如，预处理单元210可以提取每个图像的X个关键点的特征，X为大于等于2的整数。例如，在X＝14的情况下，预处理单元210可以将图像块包括的M个图像中的每个图像的14个关键点的特征作为该图像块的特征。那么，该图像块的关键点共14×M个。

图3是示出根据本公开的实施例对图像中的关键点进行提取的过程的示意图。图3上面的图示出了输入至图像处理装置200中的图像中的三个图像，下面的图示出了对这三个图像进行关键点提取的过程。如图3所示，针对每个图像提取了14个关键点。

根据本公开的实施例，每个关键点的特征可以包括多个维度的特征。此外，每个关键点的特征可以是该关键点的空间特征。例如，每个关键点的特征可以包括该关键点的Y个空间特征。Y例如为3。也就是说，每个关键点的特征可以包括该关键点在三维空间中的三个坐标特征。

如上所述，根据本公开的实施例，一个图像块包括M个图像，每个图像包括X个关键点，而每个关键点包括Y个空间特征。那么，每个图像块可以包括M×X×Y个特征。预处理单元210可以将每个图像块包括的M×X×Y个特征作为该图像块的特征输入至提取单元220中的卷积神经网络模型。进一步，预处理单元210可以按照图像块的顺序依次将各个图像块的特征输入至提取单元220。也就是说，相比于在时间上靠后的图像块，在时间上靠前的图像块的特征被先输入至提取单元220。

根据本公开的实施例，提取单元220可以利用卷积神经网络模型提取每个图像块的时空特征。卷积神经网络模型可以包括可分卷积网络和逐点卷积网络、或者可以包括可分卷积网络和空洞卷积网络。

根据本公开的实施例，提取单元220中的卷积神经网络模型还可以包括全连接网络。该全连接网络的每一个结点都与上一个网络的所有结点相连，用于把上一个网络提取到的特征综合起来。

图4是示出根据本公开的实施例的卷积神经网络模型的结构的示例的框图。如图4所示，卷积神经网络模型可以包括可分卷积网络、逐点卷积网络或者空洞卷积网络、以及全连接网络。

根据本公开的实施例，卷积神经网络模型可以包括N个可分卷积网络、N个逐点卷积网络或空洞卷积网络、以及N个全连接网络，其中N为正整数。也就是说，卷积神经网络模型中包括的可分卷积网络、逐点卷积网络或空洞卷积网络、以及全连接网络的个数相同。也就是说，卷积神经网络模型的输入依次通过N个包括可分卷积网络、逐点卷积网络或空洞卷积网络、以及全连接网络的组，并且每个组中从输入到输出的顺序依次包括可分卷积网络、逐点卷积网络或空洞卷积网络、以及全连接网络。

为了便于说明，可以将可分卷积网络标记为A，将逐点卷积网络或空洞卷积网络标记为B，将全连接网络标记为C，则提取单元220中的卷积神经网络模型从输入到输出的顺序可以包括A、B、C或者A、B、C、A、B、C…。

图4示出了N＝1的情形，即卷积神经网络模型包括一个包括可分卷积网络、逐点卷积网络或空洞卷积网络、以及全连接网络的组。

图5是示出根据本公开的实施例的卷积神经网络模型的结构的示例的框图。如图5所示，卷积神经网络模型可以包括可分卷积网络、逐点卷积网络或者空洞卷积网络、全连接网络、可分卷积网络、逐点卷积网络或者空洞卷积网络、以及全连接网络。也就是说，图5示出了N＝2的情形，即卷积神经网络模型包括两个包括可分卷积网络、逐点卷积网络或空洞卷积网络、以及全连接网络的组。针对N大于2的情况是类似的，本公开不再赘述。

根据本公开的实施例，提取单元220中的卷积神经网络模型可以包括多个可分卷积网络、一个或多个逐点卷积网络或空洞卷积网络、以及一个全连接网络。

根据本公开的实施例，卷积神经网络模型可以包括多个可分卷积网络、一个或多个逐点卷积网络或空洞卷积网络、以及一个全连接网络。其中，可分卷积网络的数目比逐点卷积网络或空洞卷积网络的数目多一个。例如，逐点卷积网络或空洞卷积网络的数目为V，V为正整数，则可分卷积网络的数目为V+1。卷积神经网络模型从输入到输出的顺序可以依次包括V个由可分卷积网络、以及逐点卷积网络或空洞卷积网络组成的组、可分卷积网络、以及一个全连接网络。进一步，在V个组中的每个组从输入到输出的顺序可以依次包括可分卷积网络、以及逐点卷积网络或空洞卷积网络。也就是说，在全连接网络之前的结构中，开始于可分卷积网络，终止于可分卷积网络，并且可分卷积网络、以及逐点卷积网络或空洞卷积网络间隔开来。

为了便于说明，可以将可分卷积网络标记为A，将逐点卷积网络或空洞卷积网络标记为B，将全连接网络标记为C，则提取单元220中的卷积神经网络模型从输入到输出的顺序可以包括A、B、A、C或者A、B、A、B、A、…、A、B、C。

图6是示出根据本公开的实施例的卷积神经网络模型的结构的示例的框图。如图6所示，提取单元220中的卷积神经网络模型可以包括可分卷积网络、逐点卷积网络或空洞卷积网络、可分卷积网络、以及全连接网络。即，图6示出了V＝1的情况。针对V大于1的情况也是类似的，本公开不再赘述。

根据本公开的实施例，卷积神经网络模型可以包括多个可分卷积网络、多个逐点卷积网络或空洞卷积网络、以及一个全连接网络。其中，可分卷积网络与逐点卷积网络或空洞卷积网络的数目一致，例如为Z个，Z为大于等于2的整数。则卷积神经网络模型从输入到输出的顺序可以依次包括Z个由可分卷积网络、以及逐点卷积网络或空洞卷积网络组成的组、以及一个全连接网络。进一步，在Z个组中的每个组从输入到输出的顺序可以依次包括可分卷积网络、以及逐点卷积网络或空洞卷积网络。也就是说，在全连接网络之前的结构中，开始于可分卷积网络，终止于逐点卷积网络或空洞卷积网络，并且可分卷积网络、以及逐点卷积网络或空洞卷积网络间隔开来。

为了便于说明，可以将可分卷积网络标记为A，将逐点卷积网络或空洞卷积网络标记为B，将全连接网络标记为C，则提取单元220中的卷积神经网络模型从输入到输出的顺序可以包括A、B、A、B、C或者A、B、A、B、…、A、B、C。

图7是示出根据本公开的实施例的卷积神经网络模型的结构的示例的框图。如图7所示，提取单元220中的卷积神经网络模型可以包括可分卷积网络、逐点卷积网络或空洞卷积网络、可分卷积网络、逐点卷积网络或空洞卷积网络、以及全连接网络。即，图7示出了Z＝2的情况。针对Z大于2的情况也是类似的，本公开不再赘述。

前文以示例性的方式描述了提取单元220中的卷积神经网络模型的结构。下面将描述根据本公开的实施例的卷积神经网络模型的几个具体示例。

根据本公开的实施例，卷积神经网络模型中的可分卷积网络的步长可以为1，并且卷积神经网络模型中的逐点卷积网络或空洞卷积网络可以选取逐点卷积网络。

图8是示出根据本公开的实施例的卷积神经网络模型的结构的示例的框图。如图8所示，卷积神经网络模型可以包括步长为1的可分卷积网络、逐点卷积网络以及全连接网络。这里，M×N表示可分卷积网络中卷积核的大小，P表示可分卷积网络中卷积核的数目。优选地，M＝N＝3。S×T表示逐点卷积网络中卷积核的大小，Q表示逐点卷积网络中卷积核的数目。优选地，S＝T＝1。

根据本公开的实施例，在图8中，由于可分卷积网络的步长为1，因此可以提取图像块的局部时空信息。这里，时空信息可以包括时间信息和空间信息。由于图像块的特征包括各个关键点的空间特征，因此提取单元220可以提取图像块的空间特征。由于每个图像块包括在时间上连续的多个图像，因此提取单元220可以提取图像块的时间特征。

值得注意的是，为了便于说明，图8示出了卷积神经网络模型包括一个可分卷积网络、一个逐点卷积网络和一个全连接网络的示例。但是，图8可以根据前文中所述的卷积神经网络模型的结构进行任意变型。

根据本公开的实施例，卷积神经网络模型中的可分卷积网络的步长可以大于1，并且卷积神经网络模型中的逐点卷积网络或空洞卷积网络可以选取逐点卷积网络。

图9是示出根据本公开的实施例的卷积神经网络模型的结构的示例的框图。如图9所示，卷积神经网络模型可以包括步长大于1的可分卷积网络、逐点卷积网络以及全连接网络。这里，M×N表示可分卷积网络中卷积核的大小，P表示可分卷积网络中卷积核的数目。优选地，M＝N＝3。S×T表示逐点卷积网络中卷积核的大小，Q表示逐点卷积网络中卷积核的数目。优选地，S＝T＝1。

根据本公开的实施例，在图9中，由于可分卷积网络的步长大于1，因此可以提取图像块的与中等距离相关的时空信息。其中，与中等距离相关的时空信息是介于局部时空信息和全局时空信息之间的时空信息，取决于步长的大小。类似地，时空信息可以包括时间信息和空间信息。由于图像块的特征包括各个关键点的空间特征，因此提取单元220可以提取图像块的空间特征。由于每个图像块包括在时间上连续的多个图像，因此提取单元220可以提取图像块的时间特征。

值得注意的是，为了便于说明，图9示出了卷积神经网络模型包括一个可分卷积网络、一个逐点卷积网络和一个全连接网络的示例。但是，图9可以根据前文中所述的卷积神经网络模型的结构进行任意变型。

根据本公开的实施例，卷积神经网络模型中的可分卷积网络的步长可以为1，并且卷积神经网络模型中的逐点卷积网络或空洞卷积网络可以选取空洞卷积网络。

图10是示出根据本公开的实施例的卷积神经网络模型的结构的示例的框图。如图10所示，卷积神经网络模型可以包括步长为1的可分卷积网络、空洞卷积网络以及全连接网络。这里，M×N表示可分卷积网络中卷积核的大小，P表示可分卷积网络中卷积核的数目。优选地，M＝N＝3。S×T表示空洞卷积网络中卷积核的大小，Q表示空洞卷积网络中卷积核的数目。优选地，S＝5，T＝3。

根据本公开的实施例，在图10中，由于空洞卷积网络的有较大的感受野，因此可以提取图像块的全局时空信息。类似地，时空信息可以包括时间信息和空间信息。由于图像块的特征包括各个关键点的空间特征，因此提取单元220可以提取图像块的空间特征。由于每个图像块包括在时间上连续的多个图像，因此提取单元220可以提取图像块的时间特征。

值得注意的是，为了便于说明，图10示出了卷积神经网络模型包括一个可分卷积网络、一个空洞卷积网络和一个全连接网络的示例。但是，图10可以根据前文中所述的卷积神经网络模型的结构进行任意变型。

以上描述了根据本公开的实施例的提取单元220中的卷积神经网络模型的各个示例。上述示例仅仅是示例性的，本公开并不限于这些结构。下面将描述根据本公开的实施例的确定单元230。

根据本公开的实施例，确定单元230可以利用循环神经网络模型根据提取单元220输出的各个图像块的时空特征来确定多个图像中包括的手势。具体地，确定单元230可以根据提取单元220输出的各个图像块的时空特征确定(建模)各个图像块之间在时间上的关系，从而输出表示手势的状态向量。

图11是示出循环神经网络模型的结构的示意图。这里，图11所示的循环神经网络模型是当前常见的循环神经网络模型。如图11所示，在t时刻循环神经网络模型的输出o_t与在t时刻的输入x_t以及在上一个时刻t-1的输出h_t-1有关。也就是说，在循环神经网络中，神经元不但可以接受其它神经元的信息，也可以接受自身的信息，形成具有环路的网络结构，因此也被称为具有短期记忆能力的神经网络。

根据本公开的实施例，循环神经网络模型可以根据当前时刻的输入信息、前一时刻的输出的比例信息、以及前一时刻的输出的积分信息和/或前一时刻的输出的微分信息，来确定当前时刻的输出信息。

根据本公开的实施例，前一时刻的输出的比例信息例如可以是前一时刻的输出，也可以是根据前一时刻的输出按照一定的比例计算出的信息。

根据本公开的实施例，前一时刻的输出的积分信息表示对前一时刻的输出进行积分运算而得到的信息。

根据本公开的实施例，前一时刻的输出的微分信息表示对前一时刻的输出进行微分运算而得到的信息。例如，前一时刻的输出的微分信息可以包括前一时刻的输出的1阶至K阶微分信息，即对前一时刻的输出进行1阶至K阶微分运算而得到的信息。其中，K为大于等于2的整数。

图12是示出根据本公开的实施例的循环神经网络模型的结构的示意图。在图12中，x_t表示在t时刻的输入信息，o_t表示在t时刻的输出信息，其等于h_t，h_t-1表示在t-1时刻的输出信息，也表示在t-1时刻的输出信息的比例信息，S_t-1表示在t-1时刻的输出信息的积分信息，

表示在t-1时刻的输出信息的1阶微分信息，

表示在t-1时刻的输出信息的K阶微分信息。

根据本公开的实施例，可以利用如下公式计算在t-1时刻的输出信息的积分信息S_t-1：

根据本公开的实施例，可以利用如下公式计算在t-1时刻的输出信息的1阶微分信息

根据本公开的实施例，可以利用如下公式计算在t-1时刻的输出信息的2阶微分信息

以类似的方式，可以计算在t-1时刻的输出信息的K阶微分信息。

根据本公开的实施例，可以根据以下公式来计算在t时刻的输出信息h_t：

h_t＝σ(W_heE_t+b_h)

其中，W_he表示状态更新矩阵，σ为激活函数，包括但不限于ReLU(Rectified LinearUnit，修正线性单元)函数，b_h为偏置向量，可以根据经验值来设定。E_t表示状态公式，即循环神经网络在t时刻的记忆，可以根据以下公式来计算：

如上所述，在图12中，循环神经网络模型可以根据当前时刻的输入信息、前一时刻的输出的比例信息、以及前一时刻的输出的积分信息和前一时刻的输出的微分信息，来确定当前时刻的状态，从而确定当前时刻的输出信息。值得注意的是，虽然图12示出了根据当前时刻的输入信息、前一时刻的输出的比例信息、以及前一时刻的输出的积分信息和前一时刻的输出的微分信息来确定当前时刻的输出信息的示例，但是也可以根据当前时刻的输入信息、前一时刻的输出的比例信息、以及前一时刻的输出的积分信息来确定当前时刻的输出信息，或者根据当前时刻的输入信息、前一时刻的输出的比例信息、以及前一时刻的输出的微分信息来确定当前时刻的输出信息。

如上所述，根据本公开的实施例，确定单元230中的循环神经网络不仅可以根据当前时刻的输入信息和前一时刻的输出来确定当前时刻的输出，还可以根据前一时刻的输出的积分信息和前一时刻的输出的微分信息中的至少一者来确定当前时刻的输出。这里，由于输出信息的比例信息关注当前的图像块的状态，而输出信息的微分信息关注状态的变化，输出信息的积分信息关注状态的累积，因此根据本公开的实施例的确定单元230可以比较全面地获取手势在时间尺度上的变化和趋势，从而获得更好的识别精度。

根据本公开的实施例，提取单元220可以获得每个图像块的时空特征，由于手势可能包括多个图像块，因此确定单元230可以对不同的图像块之间在时间上的关系进行建模，从而可以准确快速地识别出手势。

根据本公开的实施例，如图2所示，图像处理装置200还可以包括决策单元240，用于根据确定单元230的输出来确定最终的手势。

根据本公开的实施例，确定单元230中的循环神经网络的输出可以是根据各个图像块的时空特征确定的对应于不同手势的128维状态向量。决策单元240可以包括分类器，用于将确定单元230输出的状态向量确定为手势。

根据本公开的实施例，提取单元220可以包括一个卷积神经网络模型，并且确定单元230可以包括一个循环神经网络模型，从而决策单元240可以根据该循环神经网络模型的输出来确定最终的手势。

图13是示出根据本公开的实施例的图像处理装置的结构的示意图。如图3所示，图像处理装置200的输入依次通过提取单元220中的卷积神经网络模型、确定单元230中的循环神经网络模型、以及决策单元240中的分类器，从而输出手势的识别结果。

根据本公开的实施例，提取单元220可以包括多个卷积神经网络模型，并且确定单元230可以包括多个循环神经网络模型，从而决策单元240可以根据多个循环神经网络模型中的每个循环神经网络模型的输出结果来确定最终的手势。这里，多个卷积神经网络模型的输入都是相同的，即输入至图像处理装置200的多个图像。也就是说，分别利用各个卷积神经网络模型和循环神经网络模型来确定手势的状态向量，然后决策单元230中的分类器可以确定最终的手势。例如，分类器可以对各个循环神经网络模型输出的状态向量进行平均，然后确定最终的手势。

图14是示出根据本公开的实施例的图像处理装置的结构的示意图。如图14所示，图像处理装置200包括R个卷积神经网络模型、R个循环神经网络模型和一个分类器。其中，R为大于等于2的整数。具体地，输入的多个图像被输入至卷积神经网络模型1和循环神经网络模型1，从而得到第1组128维的状态向量，输入的多个图像被输入至卷积神经网络模型2和循环神经网络模型2，从而得到第2组128维的状态向量，…，输入的多个图像被输入至卷积神经网络模型R和循环神经网络模型R，从而得到第R组128维的状态向量。分类器可以对R个循环神经网络模型的输出结果进行综合，从而得到最终的手势的识别结果。

如上所述，根据本公开的实施例，可以利用多组卷积神经网络模型和循环神经网络模型来识别手势，从而使得识别出的手势更加准确。

如前文所述，包括步长为1的可分卷积网络和逐点卷积网络的卷积神经网络模型可以提取图像块的局部时空信息，包括步长大于1的可分卷积网络和逐点卷积网络的卷积神经网络模型可以提取与中等距离相关的时空信息，包括步长为1的可分卷积网络和空洞卷积网络的神经网络模型可以提取图像块的全局时空信息。因此，根据本公开的实施例，R个卷积神经网络模型可以包括能够提取不同尺度的时空信息的卷积神经网络模型。也就是说，R个卷积神经网络模型可以包括以上三种神经网络模型中的至少两种。

例如，在R＝2的情况下，R个卷积神经网络模型中的第一卷积神经网络模型可以包括步长为1的可分卷积网络和逐点卷积网络，R个卷积神经网络模型中的第二卷积神经网络模型可以包括步长大于1的可分卷积网络和逐点卷积网络。在R＝2的情况下，R个卷积神经网络模型中的第一卷积神经网络模型可以包括步长为1的可分卷积网络和逐点卷积网络，R个卷积神经网络模型中的第二卷积神经网络模型可以包括步长为1的可分卷积网络和空洞卷积网络。在R＝2的情况下，R个卷积神经网络模型中的第一卷积神经网络模型可以包括步长大于1的可分卷积网络和逐点卷积网络，R个卷积神经网络模型中的第二卷积神经网络模型可以包括步长为1的可分卷积网络和空洞卷积网络。在R＝3的情况下，R个卷积神经网络模型中的第一卷积神经网络模型可以包括步长为1的可分卷积网络和逐点卷积网络，R个卷积神经网络模型中的第二卷积神经网络模型可以包括步长大于1的可分卷积网络和逐点卷积网络，R个卷积神经网络模型中的第三卷积神经网络模型包括步长为1的可分卷积网络和空洞卷积网络。

如上所述，根据本公开的实施例，在提取单元220包括多个卷积神经网络模型的情况下，这多个卷积神经网络模型可以提取图像块的不同尺度的时空信息，因此可以同时满足快速和准确识别手势的要求。

根据本公开的实施例，在对图像处理装置200进行训练的过程中，可以分为两个阶段。在第一个阶段中，可以利用人工标定的手势和交叉熵损失函数来对整个网络进行预训练，从而在多个图像中仅包括一个手势的情况下对整个网络进行训练。在第二个阶段中，可以利用扩展之后的手势(即对手势在时间轴上添加噪声，使得与手势对应的图像的长度增加或减少)和连接时间分类损失函数来对预训练之后的网络进行调整，从而使得在多个图像包括多个手势并且每个手势的图像的长度增加或减少的情况下对整个网络进行训练。根据本公开的实施例，在经过上述两个阶段的训练之后，使得图像处理装置200能够快速准确地识别出动态手势。

如上所述，根据本公开的实施例的图像处理装置200，可以将输入的多个图像划分为多个图像块，并可以利用可分卷积网络以及逐点卷积网络或空洞卷积网络提取图像块的时空特征，从而大大减少了手势识别的过程中的计算量。进一步，在图像处理装置200包括多个卷积神经网络模型的情况下，可以提取图像块的不同尺度的时空特征，从而同时保证识别的准确性和快速性。此外，利用循环神经网络对各个图像块的时空特征进行处理，该循环神经网络考虑了累积的输出的比例信息、积分信息和/或微分信息，从而使得识别的结果更加精确。总之，根据本公开的实施例的图像处理装置200可以快速准确地识别动态手势。

<2.图像处理方法的示例>

接下来将详细描述根据本公开实施例的由图像处理装置200执行的图像处理方法。

图15是示出根据本公开的实施例的由图像处理装置200执行的图像处理方法的流程图。

如图15所示，在步骤S1510中，将连续输入的多个图像划分为多个图像块。

接下来，在步骤S1520中，利用卷积神经网络模型提取每个图像块的时空特征，卷积神经网络模型包括可分卷积网络和逐点卷积网络、或者包括可分卷积网络和空洞卷积网络。

接下来，在步骤S1530中，利用循环神经网络模型根据各个图像块的时空特征确定多个图像中包括的手势。

优选地，将连续输入的多个图像划分为多个图像块包括：将连续输入的M个图像划分至一个图像块，M为大于等于2的整数，并且其中，利用卷积神经网络模型提取每个图像块的时空特征包括：将M个图像中的每个图像的各个关键点的特征作为图像块的特征输入至卷积神经网络模型。

优选地，卷积神经网络模型还包括全连接网络。

优选地，卷积神经网络模型包括：多个可分卷积网络、一个或多个逐点卷积网络或空洞卷积网络、以及一个全连接网络；或者N个可分卷积网络、N个逐点卷积网络或空洞卷积网络、以及N个全连接网络，其中N为正整数。

优选地，图像处理方法还包括：分别利用多个卷积神经网络模型和多个循环神经网络模型确定多个图像中包括的手势；以及根据每个循环神经网络模型的输出结果确定最终的手势。

优选地，多个卷积神经网络模型中的第一卷积神经网络模型包括步长为1的可分卷积网络和逐点卷积网络，多个卷积神经网络模型中的第二卷积神经网络模型包括步长大于1的可分卷积网络和逐点卷积网络，多个卷积神经网络模型中的第三卷积神经网络模型包括步长为1的可分卷积网络和空洞卷积网络。

优选地，利用循环神经网络模型确定多个图像中包括的手势包括：根据当前时刻的输入信息、前一时刻的输出的比例信息、以及前一时刻的输出的积分信息和/或前一时刻的输出的微分信息，来确定当前时刻的输出信息。

根据本公开的实施例，执行上述方法的主体可以是根据本公开的实施例的图像处理装置200，因此前文中关于图像处理装置200的全部实施例均适用于此。

<3.应用示例>

本公开可以应用于各种场景。例如，本公开的图像处理装置200可以用于手势识别，具体地可以进行在线动态手势的识别。此外，虽然本公开以在线动态手势识别为示例来进行介绍，但是本公开并不限于此，本公开可以应用于与时序信号的处理有关的其他场景。

图16是示出可以实现根据本公开的图像处理装置200的电子设备1600的示例的框图。电子设备1600例如可以是用户设备，例如可以被实现为移动终端(诸如智能电话、平板个人计算机(PC)、笔记本式PC、便携式游戏终端、便携式/加密狗型移动路由器和数字摄像装置)或者车载终端。

电子设备1600包括处理器1601、存储器1602、存储装置1603、网络接口1604以及总线1606。

处理器1601可以为例如中央处理单元(CPU)或数字信号处理器(DSP)，并且控制电子设备1600的功能。存储器1602包括随机存取存储器(RAM)和只读存储器(ROM)，并且存储数据和由处理器1601执行的程序。存储装置1603可以包括存储介质，诸如半导体存储器和硬盘。

网络接口1604为用于将电子设备1600连接到有线通信网络1605的有线通信接口。有线通信网络1605可以为诸如演进分组核心网(EPC)的核心网或者诸如因特网的分组数据网络(PDN)。

总线1606将处理器1601、存储器1602、存储装置1603和网络接口1604彼此连接。总线1606可以包括各自具有不同速度的两个或更多个总线(诸如高速总线和低速总线)。

在图16所示的电子设备1600中，通过使用图2所描述的预处理单元210、提取单元220、确定单元230和决策单元240可以由处理器1601实现。例如，处理器1601可以通过执行存储器1602或存储装置1603中存储的指令而执行将连续输入的多个图像划分为多个图像块、利用卷积神经网络模型提取每个图像块的时空特征以及利用循环神经网络确定多个图像中包括的手势的功能。

以上参照附图描述了本公开的优选实施例，但是本公开当然不限于以上示例。本领域技术人员可在所附权利要求的范围内得到各种变更和修改，并且应理解这些变更和修改自然将落入本公开的技术范围内。

例如，附图所示的功能框图中以虚线框示出的单元均表示该功能单元在相应装置中是可选的，并且各个可选的功能单元可以以适当的方式进行组合以实现所需功能。

例如，在以上实施例中包括在一个单元中的多个功能可以由分开的装置来实现。替选地，在以上实施例中由多个单元实现的多个功能可分别由分开的装置来实现。另外，以上功能之一可由多个单元来实现。无需说，这样的配置包括在本公开的技术范围内。

在该说明书中，流程图中所描述的步骤不仅包括以所述顺序按时间序列执行的处理，而且包括并行地或单独地而不是必须按时间序列执行的处理。此外，甚至在按时间序列处理的步骤中，无需说，也可以适当地改变该顺序。

此外，本公开可以具有如下所述的配置。

1.一种图像处理装置，包括处理电路，被配置为：

将连续输入的多个图像划分为多个图像块；

利用卷积神经网络模型提取每个图像块的时空特征，所述卷积神经网络模型包括可分卷积网络和逐点卷积网络、或者包括可分卷积网络和空洞卷积网络；以及

利用循环神经网络模型根据各个图像块的时空特征确定所述多个图像中包括的手势。

2.根据1所述的图像处理装置，其中，所述处理电路还被配置为：

将连续输入的M个图像划分至一个图像块，M为大于等于2的整数；以及

将M个图像中的每个图像的各个关键点的特征作为所述图像块的特征输入至所述卷积神经网络模型。

3.根据1所述的图像处理装置，其中，所述卷积神经网络模型还包括全连接网络。

4.根据3所述的图像处理装置，其中，所述卷积神经网络模型包括：

多个可分卷积网络、一个或多个逐点卷积网络或空洞卷积网络、以及一个全连接网络；或者

N个可分卷积网络、N个逐点卷积网络或空洞卷积网络、以及N个全连接网络，其中N为正整数。

5.根据1所述的图像处理装置，其中，所述处理电路还被配置为：

分别利用多个卷积神经网络模型和多个循环神经网络模型确定所述多个图像中包括的手势；以及

根据每个循环神经网络模型的输出结果确定最终的手势。

6.根据5所述的图像处理装置，其中，所述多个卷积神经网络模型中的第一卷积神经网络模型包括步长为1的可分卷积网络和逐点卷积网络，所述多个卷积神经网络模型中的第二卷积神经网络模型包括步长大于1的可分卷积网络和逐点卷积网络，所述多个卷积神经网络模型中的第三卷积神经网络模型包括步长为1的可分卷积网络和空洞卷积网络。

7.根据1所述的图像处理装置，其中，

所述循环神经网络模型根据当前时刻的输入信息、前一时刻的输出的比例信息、以及前一时刻的输出的积分信息和/或前一时刻的输出的微分信息，来确定当前时刻的输出信息。

8.一种图像处理方法，包括：

将连续输入的多个图像划分为多个图像块；

9.根据8所述的图像处理方法，其中，将连续输入的多个图像划分为多个图像块包括：将连续输入的M个图像划分至一个图像块，M为大于等于2的整数，并且

其中，利用卷积神经网络模型提取每个图像块的时空特征包括：将M个图像中的每个图像的各个关键点的特征作为所述图像块的特征输入至所述卷积神经网络模型。

10.根据8所述的图像处理方法，其中，所述卷积神经网络模型还包括全连接网络。

11.根据10所述的图像处理方法，其中，所述卷积神经网络模型包括：

12.根据8所述的图像处理方法，其中，所述图像处理方法还包括：

根据每个循环神经网络模型的输出结果确定最终的手势。

13.根据12所述的图像处理方法，其中，所述多个卷积神经网络模型中的第一卷积神经网络模型包括步长为1的可分卷积网络和逐点卷积网络，所述多个卷积神经网络模型中的第二卷积神经网络模型包括步长大于1的可分卷积网络和逐点卷积网络，所述多个卷积神经网络模型中的第三卷积神经网络模型包括步长为1的可分卷积网络和空洞卷积网络。

14.根据8所述的图像处理方法，其中，利用循环神经网络模型确定所述多个图像中包括的手势包括：

根据当前时刻的输入信息、前一时刻的输出的比例信息、以及前一时刻的输出的积分信息和/或前一时刻的输出的微分信息，来确定当前时刻的输出信息。

15.一种计算机可读存储介质，包括可执行计算机指令，所述可执行计算机指令当被计算机执行时使得所述计算机执行根据8-14中任一项所述的图像处理方法。

以上虽然结合附图详细描述了本公开的实施例，但是应当明白，上面所描述的实施方式只是用于说明本公开，而并不构成对本公开的限制。对于本领域的技术人员来说，可以对上述实施方式作出各种修改和变更而没有背离本公开的实质和范围。因此，本公开的范围仅由所附的权利要求及其等效含义来限定。

Claims

1.一种图像处理装置，包括处理电路，被配置为：

将连续输入的多个图像划分为多个图像块；

2.根据权利要求1所述的图像处理装置，其中，所述处理电路还被配置为：

3.根据权利要求1所述的图像处理装置，其中，所述卷积神经网络模型还包括全连接网络。

4.根据权利要求3所述的图像处理装置，其中，所述卷积神经网络模型包括：

5.根据权利要求1所述的图像处理装置，其中，所述处理电路还被配置为：

根据每个循环神经网络模型的输出结果确定最终的手势。

6.根据权利要求5所述的图像处理装置，其中，所述多个卷积神经网络模型中的第一卷积神经网络模型包括步长为1的可分卷积网络和逐点卷积网络，所述多个卷积神经网络模型中的第二卷积神经网络模型包括步长大于1的可分卷积网络和逐点卷积网络，所述多个卷积神经网络模型中的第三卷积神经网络模型包括步长为1的可分卷积网络和空洞卷积网络。

7.根据权利要求1所述的图像处理装置，其中，

8.一种图像处理方法，包括：

将连续输入的多个图像划分为多个图像块；

9.根据权利要求8所述的图像处理方法，其中，将连续输入的多个图像划分为多个图像块包括：将连续输入的M个图像划分至一个图像块，M为大于等于2的整数，并且

10.根据权利要求8所述的图像处理方法，其中，所述卷积神经网络模型还包括全连接网络。