CN109543556A

CN109543556A - 动作识别方法、装置、介质及设备

Info

Publication number: CN109543556A
Application number: CN201811281715.3A
Authority: CN
Inventors: 赵岳; 熊元骏; 林达华; 汤晓鸥
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2018-10-23
Filing date: 2018-10-23
Publication date: 2019-03-29
Anticipated expiration: 2038-10-23
Also published as: CN109543556B

Abstract

本申请的实施方式公开了一种动作识别方法、装置、介质及设备，其中的动作识别方法包括：根据图像序列中的多个图像的时序关系，将所述多个图像输入卷积神经网络；经所述卷积神经网络，对所述多个图像进行动作识别处理，输出所述图像序列的动作识别结果；其中，所述卷积神经网络用于沿运动轨迹方向做卷积运算，以进行动作识别。

Description

动作识别方法、装置、介质及设备

技术领域

本申请涉及计算机视觉技术，尤其是涉及一种动作识别方法、动作识别装置、电子设备、计算机可读存储介质以及计算机程序。

背景技术

在动作识别以及时域动作检测等动作处理技术领域中，通常需要形成图像的外貌特征图，并针对形成的外貌特征图进行分类等处理。

动作识别以及时域动作检测等动作处理技术可以应用在自动设置视频分类标签、检测视频中是否存在违规动作/行为、以及对视频中特定人员的异常行为进行监控等场景中。

如何使图像的外貌特征图能够尽可能准确的反映出图像的外貌特征，对于动作识别以及时域动作检测等动作处理技术而言，是非常重要的。

发明内容

本申请实施方式提供一种动作识别技术方案。

根据本申请实施方式其中一个方面，提供一种动作识别方法，所述方法包括：根据图像序列中的多个图像的时序关系，将所述多个图像输入卷积神经网络；经所述卷积神经网络，对所述多个图像进行动作识别处理，输出所述图像序列的动作识别结果；其中，所述卷积神经网络用于沿运动轨迹方向做卷积运算，以进行动作识别。

在本申请一实施方式中，所述卷积神经网络中的轨迹线卷积层沿运动轨迹方向做卷积运算；所述轨迹线卷积层执行的操作包括：接收待处理图像的外貌特征图、所述待处理图像的至少一相邻图像的外貌特征图、以及所述待处理图像与相邻图像的运动信息；根据所述运动信息，确定所述至少一相邻图像的外貌特征图中的，与所述待处理图像的外貌特征图中的第一外貌特征位置相对应的第二外貌特征；根据所述第一外貌特征和所述第二外貌特征，进行卷积运算，输出根据所述卷积运算结果而形成的外貌特征图。

在本申请另一实施方式中，所述根据所述运动信息，确定所述至少一相邻图像的外貌特征图中的，与所述待处理图像的外貌特征图中的第一外貌特征位置相对应的第二外貌特征包括：在所述确定出的第二外貌特征的位置为非整数形式的位置的情况下，针对所述相邻图像的外貌特征图中的、与所述非整数形式的位置最临近的多个整数形式的位置处的外貌特征，进行插值处理，以获得第二外貌特征。

在本申请再一实施方式中，所述运动信息包括：运动特征图，所述待处理图像的外貌特征图与所述待处理图像的运动特征图相拼接。

在本申请再一实施方式中，所述运动信息包括：运动特征图，且所述方法还包括：根据所述待处理图像的运动特征图中的第一运动特征、以及至少一相邻图像的运动特征图中的与所述第一运动特征位置相对应的第二运动特征，进行卷积运算，并将根据所述卷积运算结果而形成的运动特征图与所述形成的外貌特征图相拼接；其中，所述第二运动特征的位置，是根据所述第一运动特征在运动特征图中的位置以及基于所述待处理图像与相邻图像的运动信息确定出的。

在本申请再一实施方式中，在所述确定出的第二运动特征的位置为非整数形式的位置的情况下，所述方法还包括：针对所述相邻图像的运动特征图中的、与所述非整数形式的位置最临近的多个整数形式的位置处的运动特征，进行插值处理，以获得第二运动特征。

在本申请再一实施方式中，所述运动特征图包括：批标准化处理后的轨迹线偏移图。

在本申请再一实施方式中，所述运动信息是利用光流算法计算获得的；或者，所述运动信息是利用用于预测运动信息的神经网络获得的。

在本申请再一实施方式中，所述卷积神经网络是利用多个带有动作类别标注信息的图像样本训练获得的；在所述运动信息是利用用于预测运动信息的神经网络获得的情况下，所述卷积神经网络的训练过程包括：针对所述卷积神经网络和预训练后的用于预测运动信息的神经网络进行联合训练。

在本申请再一实施方式中，在所述卷积神经网络被划分为：浅层结构、中层结构以及深层结构，三个深度结构的情况下，所述浅层结构和/或中层结构中设置有至少一轨迹线卷积层；在所述卷积神经网络被划分为：浅层结构以及深层结构，两个深度结构的情况下，所述浅层结构中设置有至少一轨迹线卷积层。

在本申请再一实施方式中，所述卷积神经网络包括：可分离的三维卷积神经网络。

根据本申请实施方式其中再一方面，提供一种动作识别装置，所述装置包括：输入模块，用于根据图像序列中的多个图像的时序关系，将所述多个图像输入卷积神经网络；卷积神经网络，对所述多个图像进行动作识别处理，输出所述图像序列的动作识别结果；其中，所述卷积神经网络用于沿运动轨迹方向做卷积运算，以进行动作识别。

在本申请一实施方式中，所述卷积神经网络中的轨迹线卷积层沿运动轨迹方向做卷积运算；所述轨迹线卷积层包括：接收模块，用于接收待处理图像的外貌特征图、所述待处理图像的至少一相邻图像的外貌特征图、以及所述待处理图像与相邻图像的运动信息；确定外貌特征模块，用于根据所述运动信息，确定所述至少一相邻图像的外貌特征图中的，与所述待处理图像的外貌特征图中的第一外貌特征位置相对应的第二外貌特征；外貌卷积运算模块，用于根据所述第一外貌特征和所述第二外貌特征，进行卷积运算，输出根据所述卷积运算结果而形成的外貌特征图。

在本申请另一实施方式中，所述确定外貌特征模块进一步用于：在所述确定出的第二外貌特征的位置为非整数形式的位置的情况下，针对所述相邻图像的外貌特征图中的、与所述非整数形式的位置最临近的多个整数形式的位置处的外貌特征，进行插值处理，以获得第二外貌特征。

在本申请再一实施方式中，所述运动信息包括：运动特征图，且所述装置还包括：运动卷积运算模块，用于根据所述待处理图像的运动特征图中的第一运动特征、以及至少一相邻图像的运动特征图中的与所述第一运动特征位置相对应的第二运动特征，进行卷积运算，并将根据所述卷积运算结果而形成的运动特征图与所述形成的外貌特征图相拼接；其中，所述第二运动特征的位置，是根据所述第一运动特征在运动特征图中的位置以及基于所述待处理图像与相邻图像的运动信息确定出的。

在本申请再一实施方式中，在所述运动卷积运算模块确定出的第二运动特征的位置为非整数形式的位置的情况下，所述运动卷积运算模块还用于：针对所述相邻图像的运动特征图中的、与所述非整数形式的位置最临近的多个整数形式的位置处的运动特征，进行插值处理，以获得第二运动特征。

在本申请再一实施方式中，所述卷积神经网络是训练模块利用多个带有动作类别标注信息的图像样本训练获得的；在所述运动信息是利用用于预测运动信息的神经网络获得的情况下，所述训练模块用于：针对所述卷积神经网络和预训练后的用于预测运动信息的神经网络进行联合训练。

根据本申请实施方式再一方面，提供一种电子设备，包括：存储器，用于存储计算机程序；处理器，用于执行所述存储器中存储的计算机程序，且所述计算机程序被执行时，实现本申请任一方法实施方式。

根据本申请实施方式再一个方面，提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现本申请任一方法实施方式。

根据本申请实施方式的再一个方面，提供一种计算机程序，包括计算机指令，当所述计算机指令在设备的处理器中运行时，实现本申请任一方法实施方式。

基于本申请提供的动作识别方法及装置、电子设备、计算机可读存储介质及计算机程序，通过沿运动轨迹方向，做卷积运算，有利于消除运动对外貌特征卷积运算的干扰，即有利于消除运动对形成外貌特征图的干扰，从而有利于使本申请所形成的外貌特征图能够更准确的反映出图像的外貌特征。由此可知，本申请提供的技术方案有利于提高外貌特征图的质量，从而有利于提高动作识别处理的准确性。

下面通过附图和实施方式，对本申请的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本申请的实施方式，并且连同描述一起用于解释本申请的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本申请，其中：

图1为本申请的卷积神经网络中的轨迹线卷积层一个实施方式的示意图；

图2为本申请的动作识别方法一个实施方式的流程图；

图3为本申请的轨迹线卷积层所执行的操作的一个实施方式的流程图；

图4为本申请的动作识别装置一个实施方式的结构示意图；

图5为实现本申请实施方式的一示例性设备的框图。

具体实施方式

现在将参照附图来详细描述本申请的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本申请及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法以及设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应当注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本申请实施例可以应用于终端设备、计算机系统及服务器等电子设备，其可与众多其它通用或者专用的计算系统环境或者配置一起操作。适于与终端设备、计算机系统以及服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子，包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

终端设备、计算机系统以及服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑以及数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

示例性实施例

本申请所涉及的卷积神经网络可以用于动作识别、以及时域动作检测等动作处理领域，即卷积神经网络针对输入的多个具有时序关系的图像进行动作处理(如动作识别处理或者时域动作检测处理等)，并输出动作处理结果(如动作识别结果或者时域动作检测处理结果等)。卷积神经网络所执行的动作处理操作包括：沿运动轨迹方向做卷积运算，且该卷积运算处理后的特征图，被用于后续的动作识别处理操作中。下面先对本申请所涉及的卷积神经网络进行说明。

本申请中的卷积神经网络通常包括但不限于：多层卷积层，且其中至少一层卷积层为本申请提供的轨迹线卷积层。该卷积神经网络还可以包括：池化层以及用于执行分类操作的层等。可选的，本申请的卷积神经网络可以包括但不限于：Separable-3D CNN(Separable-3D Convolutional Neural Network，可分离的三维卷积神经网络)或者不可分离的三维卷积神经网络等卷积神经网络。可分离的三维卷积神经网络可以包括：可分离的三维卷积残差网络(如Separable-3D ResNet-18，深度为18的可分离的三维卷积残差网络)以及可分离的三维BN-Inception(Batch Normalization-Inception，带有批标准化处理的Inception)网络等。本申请不限制卷积神经网络的网络结构。

本申请中的轨迹线卷积层用于根据本层输入的外貌特征图(AppearanceFeatures Map)，执行轨迹线卷积运算，以形成本层输出的外貌特征图。其中本层输入的外貌特征图包括：待处理图像(例如，第t时刻输入卷积神经网络的图像)的外貌特征图以及相邻图像(例如，第t-1和t+1时刻输入卷积神经网络的图像)的外貌特征图。更具体的，本申请的轨迹线卷积层是在考虑待处理图像与相邻图像的运动信息的基础上，针对本层输入的待处理图像的外貌特征图以及相邻图像的外貌特征图，执行本层的卷积运算，以形成本层输出的待处理图像的外貌特征图。也就是说，轨迹线卷积层在针对本层输入的待处理图像的外貌特征图中的一位置处的外貌特征P(即第一外貌特征)执行卷积运算时，会根据该外貌特征P对应的运动信息，从相邻图像的外貌特征图中获得，参与该外貌特征P卷积运算的外貌特征P^*(即第二外貌特征)，从而轨迹线卷积层根据待处理图像的外貌特征图中的第一外貌特征及从相邻图像的外貌特征图中获得的第二外貌特征，执行卷积运算。本申请中的待处理图像与相邻图像的运动信息通常是指，可以表示出待处理图像的外貌特征图中的一第一外貌特征到从相邻图像的外貌特征图中获得的第二外貌特征的运动轨迹的信息。本申请中的相邻图像的数量通常多于一个，因此，参与第一外貌特征的卷积运算的第二外貌特征通常为至少两个。

相较于现有的卷积层针对待处理图像的外貌特征图和相邻图像的外貌特征图中的相同位置处的外貌特征进行卷积运算而言，本申请的轨迹线卷积层有利于消除运动对外貌特征卷积运算的干扰，即有利于消除运动对形成外貌特征图的干扰，从而本申请有利于使轨迹线卷积层输出的外貌特征图能够更准确的反映出图像的外貌特征。

在一个可选示例中，本申请的轨迹线卷积层可以设置在卷积神经网络中的不同深度中。例如，在根据卷积神经网络的网络深度，将卷积神经网络划分为浅层结构、中层结构以及深层结构，这三个结构的情况下，本申请的轨迹线卷积层通常设置于浅层结构和/或中层结构中。再例如，在根据卷积神经网络的网络深度，将卷积神经网络划分为浅层结构以及深层结构，这两个结构的情况下，本申请的轨迹线卷积层通常设置于浅层结构中。可选的，卷积神经网络的浅层结构中可以设置有一层或者两层或者更多层的轨迹线卷积层，同样的，卷积神经网络的中层结构中也可以设置有一层或者两层或者更多层的轨迹线卷积层。当然，本申请也不排除轨迹线卷积层被设置于深层结构中的可能性。

在一个可选示例中，在卷积神经网络中设置有一层轨迹线卷积层的情况下，该轨迹线卷积层通常设置在卷积神经网络中的普通卷积层的后面。在卷积神经网络中设置有至少两层轨迹线卷积层的情况下，两层轨迹线卷积层可以前后相邻设置；两层轨迹线卷积层也可以前后间隔设置，例如，两层轨迹线卷积层被至少一普通卷积层间隔开。本申请中的普通卷积层通常是指现有的卷积神经网络所包含的卷积层。

在一个可选示例中，假设本申请的卷积神经网络中的一轨迹线卷积层，需要针对第t时刻输入卷积神经网络的图像(即上述待处理图像，可以称为第t时刻图像)，形成本层输出的外貌特征图。那么，该轨迹线卷积层的输入通常包括：第t时刻图像的外貌特征图(如该轨迹线卷积层的上一卷积层输出的第t时刻图像的外貌特征图)以及待处理图像与相邻图像的运动信息(如待处理图像与相邻图像的运动场信息)。该轨迹线卷积层的输入通常还包括：第t时刻图像的相邻图像的外貌特征图(如该轨迹线卷积层的上一卷积层输出的相邻图像的外貌特征图)。

需要特别说明的是，待处理图像的相邻图像可以为与待处理图像前后邻接的两个图像，也可以为与待处理图像前后邻接的四个或者更多数量的图像，且相邻图像的数量通常大于1。针对第t时刻图像的外貌特征图中的(a,b)位置处的外貌特征P而言，该轨迹线卷积层可以根据第t时刻图像与相邻图像的运动信息，从相邻图像的外貌特征图中确定出相应位置(a',b')处的外貌特征P^*，并针对外貌特征P和外貌特征P^*进行卷积运算，从而获得一卷积运算结果，该卷积运算结果即为：该轨迹卷积层针对第t时刻图像的外貌特征图的(a,b)位置处的外貌特征P,所输出的外貌特征P^**。在针对待处理图像的外貌特征图中的所有位置的外貌特征P均进行了上述卷积运算后，所有卷积运算所获得的外貌特征P^**，即可形成本轨迹线卷积层输出的外貌特征图。

在一个可选示例中，本申请中的运动场信息可以具体为：轨迹线偏移图(OffsetMap)，例如，批标准化处理后的轨迹线偏移图等。当然，运动场信息也可以表现为其他形式。

在一个可选示例中，本申请中的相邻图像的数量通常取决于轨迹线卷积层的卷积核在时间域上的大小。例如，轨迹线卷积层的卷积核在时间域上的大小为3时，相邻图像的数量为2。再例如，轨迹线卷积层的卷积核在时间域上的大小为5时，相邻图像的数量为4。

一个可选例子，图1中的轨迹线卷积层的输入包含有：上一卷积层输出的针对第t-1时刻、第t时刻以及第t+1时刻分别输入卷积神经网络的三个图像(下述分别简称为：第t-1时刻图像、第t时刻图像以及第t+1时刻图像)的外貌特征图(如图1左下方所示，下述分别简称为：第t-1时刻外貌特征图、第t时刻外貌特征图以及第t+1时刻外貌特征图)。轨迹线卷积层的输入还包含有：第t时刻图像与第t-1时刻图像的运动场信息以及第t时刻图像与第t+1时刻图像的运动场信息(如图1左上方所示)。针对输入的第t时刻外貌特征图中的(a,b)位置处的外貌特征P而言，该轨迹线卷积层可以根据运动场信息从第t-1时刻外貌特征图中确定出相应位置(a₁',b₁')处的外貌特征P^1*，并根据运动场信息从第t+1时刻外貌特征图中确定出相应位置(a₂',b₂')处的外貌特征P^2*。P^1*的位置、P的位置以及P^2*的位置可以形成一条运动轨迹(如图1中部区域中的带箭头的曲线所示)。轨迹线卷积层针对外貌特征P、外貌特征P^1*以及外貌特征P^2*进行卷积运算，并获得一卷积运算结果，该卷积运算结果即为该轨迹卷积层针对第t时刻外貌特征图中的(a,b)位置的外貌特征P，而输出的外貌特征P^**。在针对第t时刻外貌特征图中的所有位置的特征P均进行了上述卷积运算后，所有卷积运算所获得的特征P^**，即可形成该轨迹线卷积层输出的外貌特征图(如图1右下方所示)。

需要特别说明的是，在第t-1时刻外貌特征图、第t时刻外貌特征图、第t+1时刻外貌特征图、运动场信息以及运动场信息的大小不相同的情况下，本申请可以采用采样等处理方式，使第t-1时刻外貌特征图、第t时刻外貌特征图、第t+1时刻外貌特征图、运动场信息以及运动场信息具有相同大小。另外，图1中的I_t表示第t时刻图像，I_t-1表示第t-1时刻图像，I_t+1表示第t+1时刻图像，F(*)表示获得运动场信息的方法(如光流算法等)。

在一个可选示例中，本申请中的轨迹线卷积层所执行的卷积运算可以使用下述公式(1)表示：

在上述公式(1)中，y_t(p)表示轨迹线卷积层针对第t时刻外貌特征图(即待处理图像的外貌特征图，可以称为待处理外貌特征图)中的一位置处的外貌特征P进行卷积运算后的结果；Δt与轨迹线卷积层的卷积核在时间域上的大小相关，且轨迹线卷积层的卷积核在时间域上的大小通常可以表示为2Δt+1，可选的，在轨迹线卷积层的卷积核在时间域上的大小为3时，Δt的取值为1；w_τ表示针对时间域τ而言，轨迹线卷积层的卷积核的感受野权重；表示针对时间域t+τ，相应的外貌特征图中的相应位置处的外貌特征，且在相应的外貌特征图为待处理图像的相邻图像的外貌特征图的情况下，相应位置是基于待处理图像与相邻图像的运动信息确定的。

需要特别说明的是，本申请中的公式(1)可能存在变形方式，然而，变形方式在本质上仍然属于公式(1)的含义所涵盖的范围，例如，轨迹线卷积层所执行的卷积运算可以具体为形变卷积运算，以便于轨迹线卷积层可以在非整数点上进行卷积运算。在此不对公式(1)的变形方式进行一一举例说明。

本申请基于运动信息(如运动场信息)而确定出的相邻图像的外貌特征图中的相应位置，与第t时刻外貌特征图中的特征P的位置往往并不相同，且两个位置之间存在的关系可以通过下述公式(2)表示：

在上述公式(2)中，表示针对第t时刻外貌特征图中的外貌特征P的位置而言，基于第t时刻图像与第t+1时刻图像的运动信息，而确定出的第t+1时刻外貌特征图中的位置，(h_t+1,w_t+1)表示外貌特征P对应第t+1时刻外貌特征图中的行位置和列位置；P_t表示第t时刻外貌特征图中的外貌特征P的位置，表示P_t在运动场信息(如运动场向量)的作用下，所形成的位置变化量；(h_t,w_t)表示第t时刻外貌特征图中的外貌特征P的行位置和列位置；表示运动场信息中的(h_t,w_t)位置处的数值；表示第t时刻图像与第t+1时刻图像的运动场信息，且u_t表示x轴方向上的运动分量，v_t表示在y轴方向上的运动分量。

在第t时刻外貌特征图和第t+1时刻外貌特征图的尺寸大小不相同的情况下，可以通过采样操作(如针对第t时刻外貌特征图进行采样操作)，使两个时刻的输入外貌特征图的尺寸大小相同，另外，也可能会对第t时刻图像与第t+1时刻图像的运动场信息进行采样操作，使第t时刻图像与第t+1时刻图像的运动场信息与两个时刻外貌特征图的尺寸大小相同。

上述公式(2)是针对时间域τ等于1的情况。在时间域τ大于1的情况下，可以通过迭代使用上述公式(2)，来获得

在时间域τ等于-1的情况下，上述公式(2)中的应替换为如下述公式(3)所示：

在上述公式(3)中，表示第t时刻图像与第t-1时刻图像的运动场信息(如运动场向量)，且u_t表示x轴方向上的运动分量，v_t表示在y轴方向上的运动分量。

在时间域τ小于-1的情况下，可以通过迭代使用上述公式(3)，来获得

在一个可选示例中，基于运动信息，而确定出的相邻图像的外貌特征图中的相应位置可能会为分数形式。在出现分数形式的位置的情况下，本申请可以基于该分数形式的位置，通过多种方式，从相邻图像的外貌特征图中选取多个最邻近的位置，以便于获得相应位置的外貌特征。例如，可以通过对分数形式的位置最邻近的多个整数形式的位置的外貌特征进行插值(如双线性插值等)处理的方式，获得相应位置的外貌特征。再例如，本申请可以选取与分数形式的位置距离最近的一个整数形式的位置，并将该整数形式的位置的外貌特征作为：从相邻图像的外貌特征图中确定出的外貌特征。本申请不限制针对分数形式的位置，从相邻图像的外貌特征图中确定出该位置的外貌特征的具体实现方式。

在利用上述公式(2)或者公式(3)确定出的位置为分数形式的位置的情况下，本申请可以通过下述公式(4)所示的插值处理方式，获得分数形式的位置的外貌特征P^*，即

在上述公式(4)中，G(*)表示双线性插值核函数，用于为x_t+τ(P')提供权值；P'表示相邻图像的外貌特征图中，与分数形式的位置最邻近的多个(如4个)整数形式的位置；x_t+τ(P')表示相邻图像的外貌特征图中的、与分数形式的位置最邻近的多个整数形式的位置处的特征。

可选的，在分数形式的位置为(10.3,20.4)的情况下，P'的取值可以为四个，且分别为：(10,20)、(10,21)、(11,20)以及(11,21)。当然，P'的取值也可以为其中的两个或者三个。另外，本申请也可以采用除双线性插值处理之外的其他插值处理方式。本申请不限制插值处理的具体实现方式。

在一个可选示例中，输入轨迹线卷积层的外貌特征图可以拼接有运动特征图，该运动特征图的大小与外貌特征图的大小相同，且运动特征图可以具体为批标准化处理后的轨迹线偏移图，批标准化处理可以使轨迹线偏移图中的运动特征的取值范围与外貌特征图中的外貌特征的取值范围基本相同。由于运动特征图有利于提高卷积神经网络后续对动作的处理的准确性，因此，通过将运动特征图与外貌特征图相拼接，会形成更多维度的外貌特征图，从而在外貌特征图中引入少量参数的情况下，有利于提高卷积神经网络的动作处理的准确性。

当然，输入轨迹线卷积层的运动特征图也可以不与外貌特征图相拼接，即输入轨迹线卷积层的运动特征图和外貌特征图相互独立存在，本申请可以在轨迹线卷积层分别针对运动特征图和外貌特征图进行了轨迹线卷积处理之后，再将轨迹线卷积层输出的运动特征图与外貌特征图相拼接。该方式同样可以在外貌特征图中引入少量参数的情况下，有利于提高卷积神经网络的动作处理的准确性。

在一个可选示例中，输入的运动特征图的数量，或者与输入的外貌特征图相拼接的运动特征图的数量，与轨迹线卷积层的卷积核在时间域上的大小相关。例如，轨迹线卷积层的卷积核在时间域上的大小为3时，与外貌特征图相拼接的运动特征图的数量为2。再例如，轨迹线卷积层的卷积核在时间域上的大小为5时，与外貌特征图相拼接的运动特征图的数量为4。

假设未拼接的外貌特征图中的一个外貌特征的维度为N(N为大于1的正整数，如N＝128等)，运动特征图中的一个运动特征的维度为M(M为大于1的正整数，M＝2，即x轴方向上的运动分量和y轴方向上的运动分量，这两个维度)，且与外貌特征图相拼接的运动特征图的数量为2，则拼接后的外貌特征图中的一个外貌特征的维度为N+2M个维度。

在一个可选示例中，在输入轨迹线卷积层的外貌特征图拼接有运动特征图的情况下，本申请中的轨迹线卷积层在针对外貌特征图进行轨迹线卷积运算时，会针对拼接后的外貌特征图中的包括运动特征维度在内的所有维度的外貌特征均进行轨迹线卷积运算，从而卷积运算后获得的外貌特征中仍包含有运动特征维度。

另外，本申请也可以针对未拼接的外貌特征图以及运动特征图分别进行轨迹线卷积运算，然后，将卷积运算后的运动特征图与卷积运算后的外貌特征图相拼接，从而形成拼接后的外貌特征图。本申请针对运动特征图中的各运动特征进行卷积运算所执行的操作，与针对外貌特征图中的外貌特征所执行的操作基本相同。具体而言，轨迹线卷积层根据运动特征图，确定至少一相邻图像的运动特征图中的，与待处理图像的运动特征图中的运动特征P₁(即第一运动特征)位置相对应的运动特征P₁ ^*(即第二运动特征)；从而轨迹线卷积层可以根据运动特征P₁和运动特征P₁ ^*，进行卷积运算，并输出根据卷积运算结果而形成的运动特征图。该形成的运动特征图可以与轨迹线卷积层输出的相应的外貌特征图，相拼接。当然，本申请也不排除轨迹线卷积层输出的运动特征图与轨迹线卷积层输出的相应的外貌特征图各自独立存在，不相拼接的可能性。例如，在两层轨迹线卷积层前后相邻设置的情况下，上一轨迹线卷积层输出的运动特征图和外貌特征图，分别被作为下一轨迹线卷积层的输入。

在一个可选示例中，轨迹线卷积层的输入包含有：上一卷积层输出的拼接有运动特征图的第t-1时刻外貌特征图、拼接有运动特征图的第t时刻外貌特征图、以及拼接有运动特征图的第t+1时刻外貌特征图。

其中，拼接在第t-1时刻外貌特征图中的运动特征图可以包括：第t-2时刻图像与第t-1时刻图像的运动特征图(下述简称为第t-2时刻运动特征图)、以及第t-1时刻图像与第t时刻图像的运动特征图(下述简称为第t-1时刻运动特征图)。

其中，拼接在第t时刻外貌特征图中的运动特征图可以包括：第t-1时刻运动特征图、以及第t时刻图像与第t+1时刻图像的运动特征图(下述简称为第t时刻运动特征图)。

其中，拼接在第t+1时刻外貌特征图中的运动特征图可以包括：第t时刻运动特征图、以及第t+1时刻图像与第t+2时刻图像的运动特征图(下述简称为第t+1时刻运动特征图)。

在一个可选示例中，在输入轨迹线卷积层的外貌特征图拼接有运动特征图的情况下，轨迹线卷积层针对拼接后的外貌特征图中的外貌特征进行轨迹线卷积运算，即可使轨迹线卷积层输出的外貌特征图中的外貌特征中包括有运动特征。

在另一个可选示例中，在输入轨迹线卷积层的外貌特征图中未拼接有运动特征图的情况下，针对第t-1时刻运动特征图中的(a,b)位置处的运动特征P₁而言，轨迹线卷积层可以根据相应的运动特征，分别从第t-2时刻运动特征图、第t时刻运动特征图和第t+1时刻运动特征图中确定出相应位置处的运动特征P₁ ^1*、运动特征P₁ ^2*以及运动特征P₁ ^3*。运动特征P₁ ^1*的位置、运动特征P₁的位置、运动特征P₁ ^2*的位置以及运动特征P₁ ^3*的位置可以形成一条运动轨迹。轨迹线卷积层针对运动特征P₁、运动特征P₁ ^1*、运动特征P₁ ^2*以及运动特征P₁ ^3*进行卷积运算，并获得一卷积运算结果，该卷积运算结果即为该轨迹卷积层针对第t-1时刻运动特征图中的(a,b)位置处的运动特征P₁，而输出的外貌特征P₁ ^**。在针对第t-1时刻运动特征图中的所有位置的特征P₁均进行了上述卷积运算后，所有卷积运算所获得的特征P₁ ^**，即可形成该轨迹线卷积层输出的一运动特征图。本申请可以将输出的运动特征图与该轨迹线卷积层针对第t时刻外貌特征图输出的外貌特征图相拼接。

在一个可选示例中，在输入轨迹线卷积层的外貌特征图未拼接有运动特征图的情况下，针对与第t时刻外貌特征图拼接的第t时刻运动特征图中的(a,b)位置处的运动特征P1而言，轨迹线卷积层可以根据相应的运动特征，从第t-2时刻运动特征图、第t时刻运动特征图以及第t+1时刻运动特征图中分别确定出相应位置处的运动特征P₁ ^1*、运动特征P₁ ^2*和运动特征P₁ ^3*。运动特征P₁ ^1*的位置、运动特征P₁的位置、运动特征P₁ ^2*的位置以及运动特征P₁ ^3*的位置可以形成一条运动轨迹。轨迹线卷积层针对运动特征P₁、运动特征P₁ ^1*、运动特征P₁ ^2*以及运动特征P₁ ^3*进行卷积运算，并获得一卷积运算结果，该卷积运算结果即为该轨迹卷积层针对第t时刻运动特征图中的(a,b)位置处的运动特征P₁，而输出的外貌特征P₁ ^**。在针对第t时刻运动特征图中的所有位置的特征P1均进行了上述卷积运算后，所有卷积运算所获得的特征P₁ ^**，即可形成该轨迹线卷积层输出的另一运动特征图。本申请同样可以将该输出的运动特征图同样与该轨迹线卷积层针对第t时刻外貌特征图输出的外貌特征图相拼接。

在一个可选示例中，本申请中的轨迹线卷积层针对运动特征图所执行的卷积运算同样可以使用上述公式(1)表示。另外，上述公式(2)对于运动特征图也是适用的。在此不再详细描述。

在一个可选示例中，基于运动信息，而确定出的其他时刻运动特征图中的相应位置可能会为分数形式。在出现分数形式的位置的情况下，本申请可以基于该分数形式的位置，通过多种方式，从其他时刻运动特征图中选取多个最邻近的位置，以便于获得相应位置的运动特征。例如，可以通过对分数形式的位置最邻近的多个整数形式的位置的运动特征进行插值(如双线性插值等)处理(如上述公式(4)所示的插值处理)的方式，获得相应位置的运动特征。再例如，本申请可以选取与分数形式的位置距离最近的一个整数形式的位置，并将该整数形式的位置的运动特征作为：从其他时刻运动特征图中确定出的运动特征。本申请不限制针对分数形式的位置，从其他时刻运动特征图中确定出该位置的运动特征的具体实现方式。具体可以参见上述实施例中针对外貌特征的分数形式的位置的处理的相关描述，在此不再详细描述。

图2为本申请的动作识别方法一个实施例的流程图。

如图2所示，该实施例方法包括：步骤S200以及S210。下面对图2中的各步骤分别进行详细描述。

S200、根据图像序列中的多个图像的时序关系，将多个图像输入卷积神经网络。

在一个可选示例中，本申请中的多个具有时序关系的图像可以为视频中的多个连续的视频帧，也可以为从视频中的多个连续的视频帧中切分出的多个图像块。由于视频中的多个连续的视频帧具有时序关系，因此，通过对视频帧切分所获得的多个图像块也具有时序关系。本申请中的具有时序关系的图像的大小应满足卷积神经网络对输入图像大小的预设要求，例如，图像的大小可以包括但不限于：224×224。

在一个可选示例中，假设视频帧的大小为340×256，则本申请可以从视频帧中切分出224×224大小的图像块。本申请也可以先从视频帧中切分出224k×224k大小的图像块(其中的k可以为0.75或者0.875等小于1的正数数值)，然后，再通过采样等方式对切分出的图像块进行大小调整处理，从而形成224×224大小的图像块。一个更为具体的可选示例，本申请可以根据切分位置不同，从一视频帧中切分出多个图像块。从多个连续的视频帧的相同位置处切分出的多个图像块形成一组具有时序关系的图像块。本申请中的卷积神经网络可以针对多组图像块分别输出的动作识别处理结果，进行加权平均等处理，从而获得最终的动作识别处理结果。

S210、经卷积神经网络，对多个图像进行动作识别处理，输出图像序列的动作识别结果；其中，卷积神经网络用于沿运动轨迹方向做卷积运算，以进行动作识别。

在一个可选示例中，本申请中的动作识别结果可以包括：图像中的动作分别属于多个预定动作的置信度。卷积神经网络所执行的动作识别处理包括：卷积神经网络中的轨迹线卷积层对图像的外貌特征图所执行的卷积处理，即卷积神经网络中的轨迹线卷积层沿运动轨迹方向做卷积处理。具体请参见下述针对图3的描述。

图3为本申请的卷积神经网络中的轨迹线卷积层所执行的操作流程图。

如图3所示，该实施例方法包括：步骤S300、S310以及步骤S320。下面对图3中的各步骤分别进行详细描述。

S300、接收待处理图像的外貌特征图、待处理图像的至少一相邻图像的外貌特征图、以及待处理图像与相邻图像的运动信息。

在一个可选示例中，本申请中的待处理图像以及相邻图像为图像序列中的图像。该图像序列可以为视频帧序列。图像序列包括多个图像，且多个图像之间通常具有时序关系。例如，一视频中连续排列的多个视频帧可以被认为是本申请中的图像序列。再例如，针对一视频，进行抽帧处理，基于抽帧的结果而形成的多个连续抽取出的视频帧，可以形成本申请的图像序列。另外，本申请中的图像序列可以是从多个视频帧分别切分出的多个图像块。例如，设置于机动车辆或者飞机等交通工具中的摄像装置，针对交通工具的驾驭者(如驾驶员或者飞行员等)进行监控而摄取的视频，并针对该视频中的多个视频帧分别进行切分处理，从而形成图像序列。再例如，设置于室内的摄像装置，针对室内监控而摄取的视频，并针对该视频中的多个视频帧分别进行切分处理，从而形成图像序列。另外，本申请的图像序列中的图像可以为基于RGB(Red Green Blue，红绿蓝)的图像，也可以为基于红外或者近红外的图像等。

本申请中的待处理图像可以为上述实施例中记载的第t时刻图像，待处理图像的外貌特征图即为：上述实施例中记载的第t时刻外貌特征图。待处理图像的相邻图像的数量通常大于1，例如相邻图像的数量为2或者4等。待处理图像与相邻图像的运动信息可以为：待处理图像与相邻图像的运动场信息，例如，待处理图像与相邻图像之间的轨迹线偏移图。轨迹线偏移图通常为：批标准化处理后的轨迹线偏移图。当然，运动场信息也可以表现为其他形式。

S310、根据运动信息，确定至少一相邻图像的外貌特征图中的，与待处理图像的外貌特征图中的第一外貌特征(即外貌特征P)位置相对应的第一外貌特征(即外貌特征P^*)。

在一个可选示例中，针对第t时刻图像的外貌特征图中的(a,b)位置处的外貌特征P而言，本申请可以根据第t时刻图像与相邻图像的运动信息，从相邻图像的外貌特征图中确定出相应位置(a',b')处的外貌特征P^*，外貌特征P和外貌特征P^*参与下述步骤中的卷积运算。

在一个可选示例中，在待处理图像的相邻图像的数量为2的情况下，本申请的输入包含有：上一卷积层输出的针对第t-1时刻、第t时刻以及第t+1时刻分别输入卷积神经网络的三个图像(即第t-1时刻图像、第t时刻图像以及第t+1时刻图像)的外貌特征图(即第t-1时刻外貌特征图、第t时刻外貌特征图以及第t+1时刻外貌特征图)。本申请的输入通常还包含有：第t时刻图像与第t-1时刻图像的运动场信息以及第t时刻图像与第t+1时刻图像的运动场信息针对输入的第t时刻外貌特征图中的(a,b)位置处的外貌特征P而言，本申请可以根据运动场信息从第t-1时刻外貌特征图中确定出相应位置(a₁',b₁')处的外貌特征P^1*，并根据运动场信息从第t+1时刻外貌特征图中确定出相应位置(a₂',b₂')处的外貌特征P^2*。P^1*的位置、P的位置以及P^2*的位置可以形成一条运动轨迹。

需要特别说明的是，在第t-1时刻外貌特征图、第t时刻外貌特征图、第t+1时刻外貌特征图、运动场信息以及运动场信息的大小不相同的情况下，本申请可以采用采样等处理方式，使第t-1时刻外貌特征图、第t时刻外貌特征图、第t+1时刻外貌特征图、运动场信息以及运动场信息具有相同大小。

在一个可选示例中，本申请基于运动信息，而确定出的相邻图像的外貌特征图中的相应位置可能会为分数形式。在出现分数形式的位置的情况下，本申请可以基于该分数形式的位置，通过多种方式，从相邻图像的外貌特征图中选取多个最邻近的位置，以便于获得相应的外貌特征。例如，本申请可以通过对分数形式的位置最邻近的多个整数形式的位置的外貌特征进行插值(如双线性插值等)处理的方式，获得相应的外貌特征。再例如，本申请可以选取与分数形式的位置距离最近的一个整数形式的位置，并将该整数形式的位置的外貌特征作为：从相邻图像的外貌特征图中确定出的外貌特征。本申请不限制针对分数形式的位置，从相邻图像的外貌特征图中确定出该位置的外貌特征的具体实现方式。

本申请可以采用上述实施例中的公式(2)、公式(3)以及公式(4)确定出至少一相邻图像的外貌特征图中的，与待处理图像的外貌特征图中的外貌特征P位置相对应的外貌特征。具体请参见上述实施例中的描述，在此不再重复说明。

S320、根据外貌特征P和外貌特征P^*，进行卷积运算，输出根据卷积运算结果而形成的外貌特征图。

在一个可选示例中，本申请可以针对第t时刻图像的外貌特征图中的(a,b)位置处的外貌特征、以及从相邻图像的外貌特征图中确定出相应位置(a',b')处的外貌特征P^*，进行卷积运算(如采用上述公式(1)进行卷积运算)，从而获得一卷积运算结果，该卷积运算结果即为：本申请针对第t时刻图像的外貌特征图的(a,b)位置处的外貌特征P,所输出的外貌特征P^**。在针对第t时刻图像的外貌特征图中的所有位置的外貌特征P均进行了上述卷积运算后，所有卷积运算所获得的外貌特征P^**，即可形成本申请针对第t时刻图像所输出的外貌特征图。

在一个可选示例中，在待处理图像的相邻图像的数量为2的情况下，本申请可以针对第t时刻外貌特征图中的外貌特征P、t-1时刻外貌特征图中的外貌特征P^1*以及第t+1时刻外貌特征图中的外貌特征P^2*进行卷积运算(如采用上述公式(1)进行卷积运算)，并获得一卷积运算结果，该卷积运算结果即为本申请针对第t时刻外貌特征图中的(a,b)位置的外貌特征P，而输出的外貌特征P^**。在针对第t时刻外貌特征图中的所有位置的特征P均进行了上述卷积运算后，所有卷积运算所获得的特征P^**，即可形成本申请针对该处理图像而输出的外貌特征图。

在一个可选示例中，本申请接收的轨迹线卷积层的外貌特征图可以拼接有运动特征图，该运动特征图的大小与外貌特征图的大小相同，且运动特征图可以具体为批标准化处理后的轨迹线偏移图，批标准化处理可以使轨迹线偏移图中的运动特征的取值范围与外貌特征图中的外貌特征的取值范围基本相同。由于运动特征图有利于提高卷积神经网络后续对动作的处理的准确性，因此，通过将运动特征图与外貌特征图相拼接，会形成更多维度的外貌特征图，从而在外貌特征图中引入少量参数的情况下，有利于提高卷积神经网络的动作处理的准确性。

当然，接收到的轨迹线卷积层的运动特征图也可以不与外貌特征图相拼接，即接收到的运动特征图和外貌特征图相互独立存在，本申请可以在分别针对运动特征图和外貌特征图进行了轨迹线卷积处理后，再将输出的运动特征图与外貌特征图相拼接。该方式同样可以在外貌特征图中引入少量参数的情况下，有利于提高卷积神经网络的动作处理的准确性。

在一个可选示例中，接收到的运动特征图的数量，或者与接收到的外貌特征图相拼接的运动特征图的数量，与卷积运算中的卷积核在时间域上的大小相关。例如，卷积运算中的卷积核在时间域上的大小为3时，与外貌特征图相拼接的运动特征图的数量为2。再例如，卷积运算中的卷积核在时间域上的大小为5时，与外貌特征图相拼接的运动特征图的数量为4。

假设未拼接的外貌特征图中的一个外貌特征的维度为N(N为大于1的正整数，如N＝128等)，而运动特征图中的一个运动特征的维度为M(M为大于1的正整数，M＝2，即x轴方向上的运动分量和y轴方向上的运动分量，这两个维度)，且与外貌特征图相拼接的运动特征图的数量为2，则接收到的拼接后的外貌特征图中的一个外貌特征的维度为N+2M个维度。

在一个可选示例中，在接收到的外貌特征图拼接有至少一运动特征图的情况下，本申请在针对外貌特征图进行轨迹线卷积运算时，会针对拼接后的外貌特征图中的包括运动特征维度在内的所有维度的外貌特征均进行轨迹线卷积运算，从而卷积运算后获得的外貌特征中仍包含有运动特征维度。

另外，本申请也可以针对未拼接的外貌特征图以及运动特征图分别进行轨迹线卷积运算，然后，将卷积运算后的运动特征图与卷积运算后的外貌特征图相拼接，从而形成拼接后的外貌特征图。本申请针对运动特征图中的各运动特征进行卷积运算所执行的操作，与针对外貌特征图中的外貌特征所执行的操作基本相同。具体而言，本申请可以根据运动特征图，确定至少一相邻图像的运动特征图中的，与待处理图像的运动特征图中的运动特征P₁位置相对应的运动特征P₁ ^*；从而轨迹线卷积层可以根据运动特征P₁和运动特征P₁ ^*，进行卷积运算，并输出根据卷积运算结果而形成的运动特征图。该形成的运动特征图与本申请形成的相应的外貌特征图相拼接。

在一个可选示例中，本申请接收到的外貌特征图包含有：上一卷积层输出的拼接有运动特征图的第t-1时刻外貌特征图、拼接有运动特征图的第t时刻外貌特征图、以及拼接有运动特征图的第t+1时刻外貌特征图。

在一个可选示例中，在本申请接收到的第t-1时刻外貌特征图、第t时刻外貌特征图、以及第t+1时刻外貌特征图分别拼接有相应的运动特征图的情况下，针对第t时刻外貌特征图中的外貌特征进行轨迹线卷积运算，即可使本申请形成并输出的第t时刻外貌特征图的各外貌特征中包括有运动特征。

在另一个可选示例中，在本申请接收到的外貌特征图未拼接有运动特征图的情况下，针对第t-1时刻运动特征图中的(a,b)位置处的运动特征P₁而言，本申请可以根据相应的运动特征，从第t-2时刻运动特征图、第t时刻运动特征图和第t+1时刻运动特征图中分别确定出相应位置处的运动特征P₁ ^1*、运动特征P₁ ^2*和运动特征P₁ ^3*。运动特征P₁ ^1*的位置、运动特征P₁的位置、运动特征P₁ ^2*的位置以及运动特征P₁ ^3*的位置可以形成一条运动轨迹。轨迹线卷积层针对运动特征P₁、运动特征P₁ ^1*、运动特征P₁ ^2*以及运动特征P₁ ^3*进行卷积运算，并获得一卷积运算结果，该卷积运算结果即为本申请针对第t-1时刻运动特征图中的(a,b)位置处的运动特征P₁，而输出的外貌特征P₁ ^**。在针对第t-1时刻运动特征图中的所有位置的特征P₁均进行了上述卷积运算后，所有卷积运算所获得的特征P₁ ^**，即可形成输出的一运动特征图。本申请可以将该输出的运动特征图与本申请针对第t时刻外貌特征图而输出的外貌特征图相拼接。

在一个可选示例中，在输入轨迹线卷积层的外貌特征图未拼接有运动特征图的情况下，针对第t时刻运动特征图中的(a,b)位置处的运动特征P₁而言，本申请可以根据相应的运动特征，从第t-2时刻运动特征图、第t时刻运动特征图以及第t+1时刻运动特征图中分别确定出相应位置处的运动特征P₁ ^1*、运动特征P₁ ^2*和运动特征P₁ ^3*。运动特征P₁ ^1*的位置、运动特征P₁的位置、运动特征P₁ ^2*的位置以及运动特征P₁ ^3*的位置可以形成一条运动轨迹。本申请针对运动特征P₁、运动特征P₁ ^1*、运动特征P₁ ^2*以及运动特征P₁ ^3*进行卷积运算，并获得一卷积运算结果，该卷积运算结果即为本申请针对第t时刻运动特征图中的(a,b)位置处的运动特征P₁，而输出的外貌特征P₁ ^**。在针对第t时刻运动特征图中的所有位置的特征P₁均进行了上述卷积运算后，所有卷积运算所获得的特征P₁ ^**，即可形成该轨迹线卷积层输出的另一运动特征图。本申请同样可以将该输出的运动特征图与本申请针对第t时刻外貌特征图而输出的外貌特征图相拼接。

在一个可选示例中，本申请针对运动特征图所执行的卷积运算同样可以使用上述公式(1)表示。另外，上述公式(2)对于运动特征图也是适用的。在此不再详细描述。

在一个可选示例中，基于运动信息，而确定出的其他时刻运动特征图中的相应位置可能会为分数形式。在出现分数形式的位置的情况下，本申请可以基于该分数形式的位置，通过多种方式，从其他时刻运动特征图中选取多个最邻近的位置，以便于获得相应的运动特征。例如，可以通过对分数形式的位置最邻近的多个整数形式的位置的运动特征进行插值(如双线性插值等)处理(如上述公式(4)所示的插值处理)的方式，获得相应的运动特征。再例如，本申请可以选取与分数形式的位置距离最近的一个整数形式的位置，并将该整数形式的位置的运动特征作为：从其他时刻运动特征图中确定出的运动特征。本申请不限制针对分数形式的位置，从其他时刻运动特征图中确定出该位置的运动特征的具体实现方式。具体可以参见上述实施例中针对外貌特征的分数形式的位置的处理的相关描述，在此不再详细描述。

在一个可选示例中，本申请的卷积神经网络是利用多个带有动作类别标注信息的图像样本训练而成的。在训练卷积神经网络过程中，提供给卷积神经网络的运动场信息可以是预先采用获得运动场信息的算法(如光流算法等)而形成的运动场信息。另外，提供给卷积神经网络的运动场信息也可以是：在训练过程中，用于预测运动信息的神经网络(下述简称为前馈神经网络)针对图像样本实时形成的。在利用前馈神经网络形成运动场信息的情况下，本申请可以先对前馈神经网络进行预训练，在预训练成功完成后，再利用图像样本对卷积神经网络和前馈神经网络一起进行训练。本申请中的前馈神经网络可以包括但不限于：MotionNet(运动神经网络)等。

在一个可选示例中，本申请可以采用非监督学习的方式，对前馈神经网络进行预训练。可选的，本申请可以将连续的多个图像样本(如I₀、I₁、I₂、......、I_m)提供给前馈神经网络，该前馈神经网络会输出m个光流信息(如F₁、F₂、......、F_m，即运动场信息),本申请可以利用光流信息对相应的图像样本进行重建，从而获得重建图像，重建图像与相应的图像样本的相似度尽可能的大。本申请可以利用现有的多种非监督损失函数来计算损失，以便于利用相应的损失来调整前馈神经网络的网络参数。非监督损失函数通常包括：重建图像与相应的图像样本的相似度所产生的损失。可选的，光流信息在平滑度上的损失，可以作为非监督损失函数中的正则项。本申请不限制该非监督损失函数的具体表现形式。

在一个可选示例中，在针对前馈神经网络的预训练达到预定迭代条件时，本次训练过程结束。本申请中的预定迭代条件可以包括：根据前馈神经网络输出的光流信息而形成的重建图像与相应的图像样本的相似度满足预定相似度要求。可选的，该预定迭代条件还可以包括：光流信息的平滑度满足预定平滑度要求。在相似度以及平滑度均满足要求的情况下，本次对前馈神经网络成功预训练完成。本申请中的预定迭代条件也可以包括：对前馈神经网络进行训练，所使用的图像样本的数量达到预定数量要求等。在使用的图像样本的数量达到预定数量要求，然而，相似度以及平滑度并未满足要求的情况下，本次对前馈神经网络并未预训练成功。成功预训练完成的神经网络可以与卷积神经网络进行联合训练。

在针对卷积神经网络和前馈神经网络进行联合训练的过程中，本申请应根据卷积神经网络所输出的动作识别结果与相应的图像样本的动作类别标注信息之间的差异所形成的损失L_cls以及前馈神经网络的损失L_unsup，来调整卷积神经网络的网络参数，例如，利用L_cls+γL_unsup来调整卷积神经网络的网络参数，其中的γ为加权系数。可选的，本申请还可以根据卷积神经网络所输出的动作识别结果与相应的图像样本的动作类别标注信息之间的差异所形成的损失以及前馈神经网络的损失，来调整前馈神经网络的网络参数，例如，利用L_cls+γL_unsup来调整前馈神经网络的网络参数。

在一个可选示例中，在针对卷积神经网络的训练达到预定迭代条件时，本次训练过程结束。本申请中的预定迭代条件可以包括：卷积神经网络输出的动作识别结果与图像样本的动作类别标注信息之间的差异满足预定差异要求。在差异满足预定差异要求的情况下，本次对卷积神经网络成功训练完成。本申请中的预定迭代条件也可以包括：对卷积神经网络进行训练，所使用的图像样本的数量达到预定数量要求等。在使用的图像样本的数量达到预定数量要求，然而，差异并未满足预定差异要求的情况下，本次对卷积神经网络并未训练成功。成功训练完成的卷积神经网络可以用于动作识别。

图4为本申请的动作识别装置一个实施例的结构示意图。如图4所示，该实施例的装置包括：输入模块400以及卷积神经网络410。

输入模块400用于根据图像序列中的多个图像的时序关系，将多个图像输入卷积神经网络410。

卷积神经网络410对输入的多个图像进行动作识别处理，并输出图像序列的动作识别结果；其中，卷积神经网络410用于沿运动轨迹方向做卷积运算，以进行动作识别。卷积神经网络410可以为可分离的三维卷积神经网络等。

在一个可选示例中，卷积神经网络410中设置有轨迹线卷积层420。轨迹线卷积层420用于沿运动轨迹方向做卷积运算。本申请中的轨迹线卷积层420包括：接收模块421、确定外貌特征模块422以及外貌卷积运算模块423。其中的接收模块421用于接收待处理图像的外貌特征图、该待处理图像的至少一相邻图像的外貌特征图、以及该待处理图像与相邻图像的运动信息。其中的确定外貌特征模块422用于根据运动信息，确定至少一相邻图像的外貌特征图中的，与待处理图像的外貌特征图中的第一外貌特征位置相对应的第二外貌特征。其中的外貌卷积运算模块423用于根据第一外貌特征和第二外貌特征，进行卷积运算，输出根据该卷积运算结果而形成的外貌特征图。本申请中的运动信息可以是利用光流算法计算获得的，也可以是利用用于预测运动信息的神经网络获得的。

在一个可选示例中，确定外貌特征模块422可以进一步用于：在确定出的第二外貌特征的位置为非整数形式的位置的情况下，针对相邻图像的外貌特征图中的、与非整数形式的位置最临近的多个整数形式的位置处的外貌特征，进行插值处理，以获得第二外貌特征。

在一个可选示例中，本申请中的运动信息可以为运动场信息，且运动场信息可以为轨迹线偏移图，例如，批标准化处理后的轨迹线偏移图等。

在一个可选例子中，本申请可以将待处理图像的外貌特征图与待处理图像的运动特征图相拼接，从而增加了外貌特征图的维度，这样，在外貌卷积运算模块423针对外貌特征图进行轨迹线卷积运算的过程中，运动特征图中的运动特征被作为外貌特征图中的相应维度的信息，而进行轨迹线卷积运算。

在另一个可选例子中，本申请可以不先将提供给外貌卷积运算模块423的待处理图像的外貌特征图与待处理图像的运动特征图相拼接，而是在轨迹线卷积层420中设置运动卷积运算模块424。运动卷积运算模块424用于根据待处理图像的运动特征图中的第一运动特征、以及至少一相邻图像的运动特征图中的，与第一运动特征位置相对应的第二运动特征，进行卷积运算，并将根据该卷积运算结果而形成的运动特征图与外貌卷积运算模块423形成的外貌特征图相拼接。同样的，第二运动特征的位置，是根据第一运动特征在运动特征图中的位置以及基于待处理图像与相邻图像的运动信息确定出的。第二运动特征的位置的确定方式与第二外貌特征的位置的确定方式相同，具体可以参见上述方法实施例中的描述，在此不再重复说明。

另外，在确定出的第二运动特征的位置，为非整数形式的位置的情况下，本申请中的运动卷积运算模块424还可以用于针对相邻图像的运动特征图中的、与非整数形式的位置最临近的多个整数形式的位置处的运动特征，进行插值处理，以获得第二运动特征。插值处理的具体过程可以参见上述方法实施例中的描述，在此不再重复说明。

在一个可选示例中，本申请的动作识别装置还包括：训练模块430。训练模块430用于利用多个带有动作类别标注信息的图像样本，对待训练的卷积神经网络进行训练，从而获得卷积神经网络410。另外，在运动信息是利用用于预测运动信息的神经网络获得的情况下，该训练模块430用于针对待训练的卷积神经网络和预训练后的用于预测运动信息的神经网络进行联合训练。具体的训练过程可以参见上述方法实施例中的描述。

在一个可选示例中，在卷积神经网络410被划分为：浅层结构、中层结构以及深层结构，三个深度结构的情况下，轨迹线卷积层420可以设置于浅层结构中，也可以设置于中层结构中。另外，无论是浅层结构，还是中层结构，都可以设置有一层或者两层或者更多层轨迹线卷积层420。在卷积神经网络410被划分为：浅层结构以及深层结构，两个深度结构的情况下，轨迹线卷积层420通常设置于浅层结构中，且浅层结构中可以设置有一层或者两层或者更多层轨迹线卷积层420。另外，本申请也不排除轨迹线卷积层420设置于深层结构中的可能性。

示例性设备

图5示出了适于实现本申请的示例性设备500，设备500可以是汽车中配置的控制系统/电子系统、移动终端(例如，智能移动电话等)、个人计算机(PC，例如，台式计算机或者笔记型计算机等)、平板电脑以及服务器等。图5中，设备500包括一个或者多个处理器、通信部等，所述一个或者多个处理器可以为：一个或者多个中央处理单元(CPU)501，和/或，一个或者多个利用神经网络进行视觉跟踪的图像处理器(GPU)513等，处理器可以根据存储在只读存储器(ROM)502中的可执行指令或者从存储部分508加载到随机访问存储器(RAM)503中的可执行指令而执行各种适当的动作和处理。通信部512可以包括但不限于网卡，所述网卡可以包括但不限于IB(Infiniband)网卡。处理器可与只读存储器502和/或随机访问存储器503中通信以执行可执行指令，通过总线504与通信部512相连、并经通信部512与其他目标设备通信，从而完成本申请中的相应步骤。

上述各指令所执行的操作可以参见上述方法实施例中的相关描述，在此不再详细说明。此外，在RAM 503中，还可以存储有装置操作所需的各种程序以及数据。CPU501、ROM502以及RAM503通过总线504彼此相连。

在有RAM503的情况下，ROM502为可选模块。RAM503存储可执行指令，或在运行时向ROM502中写入可执行指令，可执行指令使中央处理单元501执行上述动作识别方法所包括的步骤。输入/输出(I/O)接口505也连接至总线504。通信部512可以集成设置，也可以设置为具有多个子模块(例如，多个IB网卡)，并分别与总线连接。

以下部件连接至I/O接口505：包括键盘、鼠标等的输入部分506；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507；包括硬盘等的存储部分508；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器510上，以便于从其上读出的计算机程序根据需要被安装在存储部分508中。

需要特别说明的是，如图5所示的架构仅为一种可选实现方式，在具体实践过程中，可根据实际需要对上述图5的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如，GPU513和CPU501可分离设置，再如，可将GPU513集成在CPU501上，通信部512可分离设置，也可集成设置在CPU501或GPU513上等。这些可替换的实施方式均落入本申请的保护范围。

特别地，根据本申请的实施方式，下文参考流程图描述的过程可以被实现为计算机软件程序，例如，本申请实施方式包括一种计算机程序产品，其包含有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的步骤的程序代码，程序代码可包括对应执行本申请提供的方法中的步骤对应的指令。

在这样的实施方式中，该计算机程序可以通过通信部分509从网络上被下载及安装，和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时，执行本申请中记载的实现上述相应步骤的指令。

在一个或多个可选实施方式中，本公开实施例还提供了一种计算机程序程序产品，用于存储计算机可读指令，所述指令被执行时使得计算机执行上述任意实施例中所述的动作识别方法。

该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选例子中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选例子中，所述计算机程序产品具体体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

在一个或多个可选实施方式中，本公开实施例还提供了另一种动作识别方法及其对应的装置和电子设备、计算机存储介质、计算机程序以及计算机程序产品，其中的动作识别方法包括：第一装置向第二装置发送动作识别指示，该指示使得第二装置执行上述任一可能的实施例中的动作识别方法；第一装置接收第二装置发送的动作识别结果。

在一些实施例中，该动作识别指示可以具体为调用指令，第一装置可以通过调用的方式指示第二装置执行动作识别操作，相应地，响应于接收到调用指令，第二装置可以执行上述动作识别方法中的任意实施例中的步骤和/或流程。

应理解，本公开实施例中的“第一”、“第二”等术语仅仅是为了区分，而不应理解成对本公开实施例的限定。还应理解，在本公开中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。还应理解，对于本公开中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

可能以许多方式来实现本申请的方法和装置、电子设备以及计算机可读存储介质。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本申请的方法和装置、电子设备以及计算机可读存储介质。用于方法的步骤的上述顺序仅是为了进行说明，本申请的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施方式中，还可将本申请实施为记录在记录介质中的程序，这些程序包括用于实现根据本申请的方法的机器可读指令。因而，本申请还覆盖存储用于执行根据本申请的方法的程序的记录介质。

本申请的描述，是为了示例和描述起见而给出的，而并不是无遗漏的或者将本申请限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言，是显然的。选择和描述实施方式是为了更好说明本申请的原理以及实际应用，并且使本领域的普通技术人员能够理解本申请实施例可以从而设计适于特定用途的带有各种修改的各种实施方式。

Claims

1.一种动作识别方法，其特征在于，包括：

根据图像序列中的多个图像的时序关系，将所述多个图像输入卷积神经网络；

经所述卷积神经网络，对所述多个图像进行动作识别处理，输出所述图像序列的动作识别结果；

其中，所述卷积神经网络用于沿运动轨迹方向做卷积运算，以进行动作识别。

2.根据权利要求1所述的方法，其特征在于，所述卷积神经网络中的轨迹线卷积层沿运动轨迹方向做卷积运算；所述轨迹线卷积层执行的操作包括：

接收待处理图像的外貌特征图、所述待处理图像的至少一相邻图像的外貌特征图、以及所述待处理图像与相邻图像的运动信息；

根据所述运动信息，确定所述至少一相邻图像的外貌特征图中的，与所述待处理图像的外貌特征图中的第一外貌特征位置相对应的第二外貌特征；

根据所述第一外貌特征和所述第二外貌特征，进行卷积运算，输出根据所述卷积运算结果而形成的外貌特征图。

3.根据权利要求2所述的方法，其特征在于，所述根据所述运动信息，确定所述至少一相邻图像的外貌特征图中的，与所述待处理图像的外貌特征图中的第一外貌特征位置相对应的第二外貌特征包括：

在所述确定出的第二外貌特征的位置为非整数形式的位置的情况下，针对所述相邻图像的外貌特征图中的、与所述非整数形式的位置最临近的多个整数形式的位置处的外貌特征，进行插值处理，以获得第二外貌特征。

4.根据权利要求2至3中任一项所述的方法，其特征在于，所述运动信息包括：运动特征图，所述待处理图像的外貌特征图与所述待处理图像的运动特征图相拼接。

5.根据权利要求2至3中任一项所述的方法，其特征在于，所述运动信息包括：运动特征图，且所述方法还包括：

根据所述待处理图像的运动特征图中的第一运动特征、以及至少一相邻图像的运动特征图中的与所述第一运动特征位置相对应的第二运动特征，进行卷积运算，并将根据所述卷积运算结果而形成的运动特征图与所述形成的外貌特征图相拼接；

其中，所述第二运动特征的位置，是根据所述第一运动特征在运动特征图中的位置以及基于所述待处理图像与相邻图像的运动信息确定出的。

6.根据权利要求5所述的方法，其特征在于，在所述确定出的第二运动特征的位置为非整数形式的位置的情况下，所述方法还包括：

针对所述相邻图像的运动特征图中的、与所述非整数形式的位置最临近的多个整数形式的位置处的运动特征，进行插值处理，以获得第二运动特征。

7.一种动作识别装置，其特征在于，包括：

输入模块，用于根据图像序列中的多个图像的时序关系，将所述多个图像输入卷积神经网络；

卷积神经网络，对所述多个图像进行动作识别处理，输出所述图像序列的动作识别结果；

8.一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述存储器中存储的计算机程序，且所述计算机程序被执行时，实现上述权利要求1-6中任一项所述的方法。

9.一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现上述权利要求1-6中任一项所述的方法。

10.一种计算机程序，包括计算机指令，当所述计算机指令在设备的处理器中运行时，实现上述权利要求1-6中任一项所述的方法。