CN108875611B

CN108875611B - 视频动作识别方法和装置

Info

Publication number: CN108875611B
Application number: CN201810570451.7A
Authority: CN
Inventors: 袁泽寰; 王长虎
Original assignee: Beijing ByteDance Network Technology Co Ltd
Current assignee: Beijing ByteDance Network Technology Co Ltd
Priority date: 2018-06-05
Filing date: 2018-06-05
Publication date: 2021-05-25
Anticipated expiration: 2038-06-05
Also published as: CN108875611A

Abstract

本申请涉及一种视频动作识别方法和装置。上述方法包括：对视频中的每帧图片进行特征提取，得到每帧图片对应的空间特征图；利用相关特征图中邻域的特征，对空间特征图中的每个位置的特征分别进行特征转换，得到每帧图片对应的运动特征构成的第一运动特征图；其中，与每帧图片的帧间距满足设定条件的帧图像对应的特征图为每帧图片对应的特征图的相关特征图；将空间特征图与第一运动特征图拼接得到拼接特征图；根据拼接特征图识别视频中的动作。采用本方法能够无需引入参数即可完成视频中动作识别。

Description

视频动作识别方法和装置

技术领域

本申请涉及计算机视觉技术领域，特别是涉及一种视频动作识别方法和装置。

背景技术

随着计算机视觉技术的发展，对视频中动作的识别的需求也越来越高。由于视频是由具有时间连续性的帧序列组成的，因此，视频中的动作识别不仅要识别出每帧图片出现的人和物，还要识别出人随着时间的运动及人和物的交互。

传统技术中，识别视频中的动作时，将时间和空间的神经网络连接在一起形成更大的神经网络，进而同时建模时间和空间上的信息，最终输出视频中的动作类别，但是该方法需要引入很多的参数，而目前GPU计算能力有限的情况下，不能一次性将所有参数放到GPU的显存中。

发明内容

基于此，有必要针对上述技术问题，提供一种能够无需引入参数即可完成视频中动作识别的视频动作识别方法和装置。

第一方面，本发明实施例提供一种视频动作识别方法，方法包括：

对视频中的每帧图片进行特征提取，得到每帧图片对应的空间特征图；

利用相关特征图中邻域的特征，对空间特征图中的每个位置的特征分别进行特征转换，得到每帧图片对应的运动特征构成的第一运动特征图；其中，与每帧图片的帧间距满足设定条件的帧图像对应的特征图为每帧图片对应的特征图的相关特征图；

将空间特征图与第一运动特征图拼接得到拼接特征图；

根据拼接特征图识别视频中的动作。

在其中一个实施例中，利用相关特征图中邻域的特征，对空间特征图中的每个位置的特征分别进行特征转换，得到每帧图片对应的运动特征构成的第一运动特征图，包括：

根据帧间距确定空间特征图的相关特征图；

根据每个空间特征图的每个位置的特征及相关特征图中邻域的特征，确定每个空间特征图的每个位置对应的运动特征；

根据每个空间特征图的每个位置对应的运动特征，获得运动特征构成的第一运动特征图。

在其中一个实施例中，根据每个空间特征图的每个位置的特征及相关特征图中邻域的特征，确定每个空间特征图的每个位置对应的运动特征，包括：

将每个空间特征图的每个位置的特征与相关特征图中邻域的特征做点积运算，得到每个空间特征图的每个位置对应的运动特征。

在其中一个实施例中，将空间特征图与第一运动特征图拼接得到拼接特征图，包括：

对第一运动特征图进行卷积操作，得到第二运动特征图，第二运动特征图与空间特征图的特征维度相同；

根据第二运动特征图和空间特征图得到拼接特征图。

在其中一个实施例中，根据第二运动特征图和空间特征图得到拼接特征图，包括：

将第二运动特征图与空间特征图拼接得到拼接特征图。

对第二运动特征图进行块归一化和线性整流，得到第三运动特征图；

将第三运动特征图与空间特征图拼接得到拼接特征图。

在其中一个实施例中，根据拼接特征图识别视频中的动作，包括：

判断拼接特征图是否符合预定条件；

若拼接特征图不符合预定条件，对拼接特征图中的每个位置的特征分别进行至少一次特征转换；

若拼接特征图符合预定条件，根据拼接特征图识别视频中的动作。

第二方面，本发明实施例提供一种视频动作识别装置，装置包括：

提取模块，用于对视频中的每帧图片进行特征提取，得到每帧图片对应的空间特征图；

特征转换模块，用于利用相关特征图中邻域的特征，对空间特征图中的每个位置的特征分别进行特征转换，得到每帧图片对应的运动特征构成的第一运动特征图；其中，与每帧图片的帧间距满足设定条件的帧图像对应的特征图为每帧图片对应的特征图的相关特征图；

拼接模块，用于将空间特征图与第一运动特征图拼接得到拼接特征图；

识别模块，用于根据拼接特征图识别视频中的动作。

第三方面，本发明实施例提供一种设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现以下步骤：

将空间特征图与第一运动特征图拼接得到拼接特征图；

根据拼接特征图识别视频中的动作。

第四方面，本发明实施例提供的一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

将空间特征图与第一运动特征图拼接得到拼接特征图；

根据拼接特征图识别视频中的动作。

本发明提供的视频动作识别方法、装置、电子设备和存储介质，通过对提取到的视频中的每帧图片对应的空间特征图进行特征转换，得到运动特征构成的第一运动特征图，然后将空间特征图与第一运动特征图拼接，并根据拼接特征图识别视频中的动作。由上述可以看出，本实施例提供的视频动作识别方法，采用特征转换得到第一运动特征图时，并没有引入参数即可完成建模帧间运动，即同时建模时间和空间上的信息。

附图说明

图1为一个实施例提供的视频动作识别方法的流程示意图；

图2为另一个实施例提供的视频动作识别方法的流程示意图；

图3为一个实施例提供的视频动作识别方法中得到拼接特征图的流程示意图；

图4为一个实施例提供的视频动作识别方法中识别视频中动作的流程示意图；

图5为一个实施例提供的视频动作识别装置的结构示意图；

图6为另一个实施例提供的视频动作识别装置的结构示意图；

图7为又一个实施例提供的视频动作识别装置的结构示意图；

图8为一个实施例中电子设备的内部结构图。

具体实施方式

随着技术的进步，人们的生活中越来越离不开视频，而一个视频中大部分都承载人物、场景、动作、语音中的至少一个，而对视频中的动作进行识别是计算机视觉和人工智能的基础问题。视频动作识别为给定一个视频片段，电子设备将识别出视频中的动作，比如喝水、鼓掌等。将视频中动作进行识别需要同时建模时间和空间上的信息，然而，传统技术中，将大的时间和空间神经网络连接在一起会引入很多参数，在目前GPU计算能力有限的情况下，一次性不能将所有参数放到GPU的显存中。本申请提供的视频动作识别方法、装置、电子设备和存储介质旨在解决传统技术的如上技术问题。

需要说明的是，下述方法实施例的执行主体可以是视频动作识别装置，该装置可以通过软件、硬件或者软硬件结合的方式实现成为上述电子设备的部分或者全部。下述方法实施例以执行主体是电子设备为例来进行说明。

为了使本发明的目的、技术方案及优点更加清楚明白，通过下述实施例并结合附图，对本发明实施例中的技术方案的进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

图1为一个实施例提供的视频动作识别方法的流程示意图。本实施例涉及的是基于特征转换识别视频中动作的具体过程。如图1所示，该方法包括：

S101、对视频中的每帧图片进行特征提取，得到每帧图片对应的空间特征图。

具体的，视频中的每帧图片可以通过电子设备对视频进行采样得到。可选的，对视频进行采样时，可以选择采样频率为1帧/秒，也可以选择采用频率为2帧/秒。需要说明的是，本实施例对采样频率不做限定。

可选的，可以采用特征提取模型对视频中的每帧图片进行特征提取。可选的，特征提取模型可以采用神经网络模型，特征提取模型也可以选择卷积神经网络模型。例如，采用卷积神经网络对每帧图片进行特征提取操作，得到每帧图片对应的特征图，特征图的大小为H×W×C，其中，H和W分别为特征图的高和宽，C为特征图中每一个位置的特征数量，需要说明的是，选用的神经网络模型不同C的值可能不同，例如，C可以为512个或1024个等。需要说明的是，本实施例对特征提取模型不做限定，只需要能实现输入一帧图片时输出该帧图片对应的特征图即可。

S102、利用相关特征图中邻域的特征，对空间特征图中的每个位置的特征分别进行特征转换，得到每帧图片对应的运动特征构成的第一运动特征图；其中，与每帧图片的帧间距满足设定条件的帧图像对应的特征图为每帧图片对应的特征图的相关特征图。

具体的，每帧图片对应的特征图的相关特征图通过与每帧图片的帧间距确定，即与每帧图片的帧间距不同时，每帧图片对应的特征图的相关特征图不同。

进一步地，相关特征图中邻域包括：在相关特征图中，特征图的每个位置所对应的邻域，当邻域半径为d时，上述邻域大小为(2d+1)*(2d+1)，例如，当d＝1时，每个位置所对应的邻域包括9*2(包括前后两帧相关特征图中的邻域)个。

可选的，特征转换用于将空间特征图转换为第一运动特征图，特征转换可以采用下述实施例的方式实现，还可以采用其他方式实现，需要说的是，本实施例对特征转换的具体实现方式不做限制。

S103、将空间特征图与第一运动特征图拼接得到拼接特征图。

可选的，将空间特征图与第一运动特征图拼接可以通过将时间神经网络和空间神经网络连接在一起，从而得到拼接后的特征图。

S104、根据拼接特征图识别视频中的动作。

可选的，可以通过在卷积神经网络框架中寻找时间域上的某个模式来表达拼接特征图的局部运行信息，进行视频中的动作识别。

本实施例提供的视频动作识别方法，通过对提取到的视频中的每帧图片对应的空间特征图进行特征转换，得到运动特征构成的第一运动特征图，然后将空间特征图与第一运动特征图拼接，并根据拼接特征图识别视频中的动作。由上述可以看出，本实施例提供的视频动作识别方法，采用特征转换得到第一运动特征图时，并没有引入参数即可完成建模帧间运动，即同时建模时间和空间上的信息。

图2为另一个实施例提供的视频动作识别方法的流程示意图。本实施例涉及的是对空间特征图进行特征转换得到第一运动特征图的具体过程。如图2所示，可选的，上述S102可以包括：

S201、根据帧间距确定空间特征图的相关特征图。

具体的，相关特征图由帧间距stride确定，即当stride＝1时，当前特征图的相关特征图为与当前特征图相邻的前后两帧特征图；当stride＝2时，当前特征图的相关特征图为与当前特征图相间隔一帧的两帧特征图，依此类推。可选的，当当前特征图为第一帧特征图时，即当前特征图没有前一帧特征图，此时，对当前特征图的前面进行补零操作，将全零特征的特征图作为当前特征图的前一帧特征图。类似的，可选的，当当前特征图为最后一帧特征图时，即当前特征图没有后一帧特征图，此时，对当前特征图的后面进行补零操作，将全零特征的特征图作为当前特征图的后一帧特征图。

S202、根据每个空间特征图的每个位置的特征及相关特征图中邻域的特征，确定每个空间特征图的每个位置对应的运动特征。

可选的，可以将每个空间特征图的每个位置的特征与相关特征图中邻域的特征做点积运算，得到每个空间特征图的每个位置对应的运动特征。

将每个空间特征图的每个位置的特征与相关特征图中邻域的特征做点积运算，得到相关性值，然后根据所有相关性值，可以得到每个空间特征图的每个位置对应的运动特征。例如，当d＝1时，空间特征图中的任意一个位置的特征与该位置对应的相关特征图中领域的特征做点积运算即可得到9*2(包括前后两帧相关特征图中的邻域)个相关性值，将得到的9*2个相关性值拼起来即得到一个18维向量，该18维向量即为该位置对应的运动特征。另外，相关性值越大，两帧图片之间的相关性就越大。

S203、根据每个空间特征图的每个位置对应的运动特征，获得运动特征构成的第一运动特征图。

具体的，根据S202得到每个空间特征图的每个位置对应的运动特征，每个空间特征图的所有位置对应的运动特征即构成每个空间特征图对应的运动特征构成的第一运动特征图。例如，空间特征图的高和宽分别为H和W，而空间特征图的每个位置对应的运动特征为18维向量，则运动特征构成的第一运动特征图的大小为H×W×18。即空间特征图的大小为H×W×512(假设每帧图片经过采用的神经网络模型进行特征提取后，空间特征图中每个位置的特征数量为512个)，而第一运动特征图的大小为H×W×18。

本实施例提供的视频动作识别方法，根据帧间距确定空间特征图的相关特征图，通过将每个空间特征图的每个位置的特征与相关特征图中领域的特征做点积运算，得到每个空间特征图的每个位置对应的运动特征，由每个空间特征图的每个位置对应的运动特征而得到运动特征构成的第一运动特征图，即在建模帧间运动时，没有引入参数。

图3为一个实施例提供的视频动作识别方法中得到拼接特征图的流程示意图。本实施例涉及的是将空间特征图与第一运动特征图拼接的具体过程。基于上述实施例的基础上，如图3所示，可选的，将空间特征图与第一运动特征图拼接得到拼接特征图，包括：

S301、对第一运动特征图进行卷积操作，得到第二运动特征图，第二运动特征图与空间特征图的特征维度相同。

具体的，上述特征转换后得到每个特征图对应的运动特征构成的第一运动特征图，对得到的第一运动特征图进行卷积操作，可以得到与空间特征图的特征维度相同的第二运动特征图。可选的，对第一运动特征图进行的卷积操作可以采用1*1维卷积操作，也可以采用3*3维卷积操作，本实施例对此不做限定。下述以对第一运动特征图进行1*1维卷积操作为例进行说明，例如，基于上述示例，空间特征图的大小为H×W×512，第一运动特征图的大小为H×W×18，对第一运动特征图进行1*1维卷积操作，得到大小为H×W×512维的第二运动特征图。

S302、根据第二运动特征图和空间特征图得到拼接特征图。

可选的，将第二运动特征图与空间特征图拼接得到拼接特征图。

具体的，可以将上述得到的第二运动特征图与上述空间特征图进行拼接，得到拼接特征图。例如，继续基于上述示例，空间特征图的大小为H×W×512，第二运动特征图的大小为H×W×512，两者维度一样，可以直接对两者进行拼接，拼接后得到拼接特征图的大小为H×W×1024。

可选的，对第二运动特征图进行块归一化和线性整流，得到第三运动特征图；将第三运动特征图与空间特征图拼接得到拼接特征图。

具体的，还可以对上述第二运动特征图进行块归一化和线性整流，其中，块归一化和线性整流用于增加运动特征的非线性，得到第三运动特征图，第二运动特征图经过块归一化和线性整流后得到第三运动特征图时维度不变。例如，继续基于上述示例，第二运动特征图的大小为H×W×512，则第三运动特征图的大小也为H×W×512，并且空间特征图的大小为H×W×512，第三运动特征图和空间特征图的维度相同，可以直接对两者进行拼接，拼接后得到拼接特征图的大小为H×W×1024。

本实施例提供的视频动作识别方法，采用将空间特征图进行1*1维卷积操作，得到第二运动特征图，然后将与空间特征图维度相同的第二运动特征图与空间特征图进行拼接，得到拼接特征图。传统技术中将时间神经网络和空间神经网络结合时需要增加许多参数，并且会破坏原来的时间神经网络或空间神经网络的框架，而本实施例提供的视频动作识别方法中，将时间神经网络和空间神经网络结合时，无需改变现有的神经网络框架，也不破坏原有的时间神经网络和空间神经网络，只需在原有的网络上增加分支即可，增加的分支的结果与原有的分支结合起来；并且无需引入参数，即可将时间神经网络和空间神经网络结合。

图4为一个实施例提供的视频动作识别方法中识别视频中动作的流程示意图。本实施例涉及的是如何根据拼接特征图识别视频中的动作的具体过程。基于上述实施例的基础上，如图4所示，可选的，根据拼接特征图识别视频中的动作，包括：

S401、判断拼接特征图是否符合预定条件。

可选的，上述预设条件可以为拼接特征图的宽和高均满足预设值，可选的，拼接特征图的宽和高可以均为7，即拼接特征图的大小为7*7；拼接特征图的宽和高可以均为1，即拼接特征图的大小为1*1。需要说明的是，本实施例对预定条件不做限定。

S402、若拼接特征图不符合预定条件，对拼接特征图中的每个位置的特征分别进行至少一次特征转换。

具体的，当拼接特征图不符合预定条件时，对拼接特征图中的每个位置的特征分别进行至少一次特征转换，直至拼接特征图符合预定条件为止。

需要说明的是，上述帧间距stride的取值根据特征转换的次数确定。可选的，特征转换的次数对应的帧间距stride的取值可以预先设置好，例如，特征转换一次对应的帧间距stride可以设置为1，特征转换二次～五次对应的帧间距stride可以设置为2，特征转换六次及以上对应的帧间距stride可以设置为5或10等。需要说明的是，本实施例中特征转换几次对应的设置帧间距stride的取值为几均为举例，本实施例中对此并不做限定。

可选的，当拼接特征图不符合预定条件时，还可以对拼接特征图进行池化操作，对池化操作后得到的特征图中的每个位置的特征分别进行特征转换。本实施例提供的视频动作识别方法，对拼接特征图进行池化操作，一方面可以使得拼接特征图的高和宽变小，简化网络的计算复杂度，另外一方面还可以进行特征压缩，提取主要特征。

S403、若拼接特征图符合预定条件，根据拼接特征图识别视频中的动作。

可选的，可以通过在卷积神经网络框架中寻找时间域上的某个模式来表达符合预定条件的拼接特征图的局部运行信息，进行视频中的动作识别。

可选的，还可以对所有符合预定条件的拼接特征图的帧特征求平均值，得到视频特征图，对视频特征图使用全连接层计算视频特征图在每个动作类别下的置信度，并将所有置信度归一化，得到每个动作类别的概率，选择概率最大的动作类别。

具体的，对上述得到的视频特征图使用卷积神经网络的全连接层，计算得到视频特征图在每个动作类别下的置信度，其中，动作类别是预先设置的，例如，动作类别可以是喝水、跳舞等。每个动作类别对应一个置信度，例如预先设置有100个动作类别，则对应有100个置信度。然后将所有置信度加起来，再分别用每个置信度除以置信度总和，即将所有置信度进行归一化，得到每个动作类别对应的概率，从所有动作类别对应的概率中选出概率最大的动作类别，即为识别出的视频中的动作。

本实施例提供的视频动作识别方法，通过判断拼接特征图是否符合预定条件，当拼接特征图不符合预定条件时，对拼接特征图中的每个位置的特征分别进行至少一次特征转换，直至拼接特征图符合预定条件为止，对符合预定条件的拼接特征图进行视频中动作的识别。本实施例提供的视频动作识别方法中对不符合预定条件的拼接特征图中的每个位置的特征分别进行特征转换，对符合预定条件的拼接特征图进行视频中动作的识别，识别效果更好；并且，本实施例提供的视频动作识别方法，并没有引入参数即可完成建模帧间运动，即同时建模时间和空间上的信息。

可选的，基于上述实施例，可以对拼接特征图进行空间卷积，得到卷积拼接特征图。

可选的，可以将空间特征图与第一运动特征图拼接，得到拼接特征图，可以对拼接特征图进行空间卷积。可选的，也可以对根据第二运动特征图和空间特征图拼接后得到拼接特征图进行空间卷积，即：可以对将第二运动特征图与空间特征图直接拼接后得到的拼接特征图进行空间卷积，还可以对将第二运动特征图进行块归一化和线性整流得到的第三运动特征图与空间特征图拼接后得到的拼接特征图进行空间卷积，得到卷积拼接特征图。

本实施例提供的视频动作识别方法，对拼接特征图进行空间卷积，不改变特征图的大小，供拼接特征图进一步学习有用特征。

应该理解的是，虽然图1～4的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1～4中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图5所示，提供了一种视频动作识别装置，包括：提取模块11、特征转换模块12、拼接模块13、识别模块14。

其中，提取模块11，用于对视频中的每帧图片进行特征提取，得到每帧图片对应的空间特征图；

特征转换模块12，用于利用相关特征图中邻域的特征，对空间特征图中的每个位置的特征分别进行特征转换，得到每帧图片对应的运动特征构成的第一运动特征图；其中，与每帧图片的帧间距满足设定条件的帧图像对应的特征图为每帧图片对应的特征图的相关特征图；

拼接模块13，用于将空间特征图与第一运动特征图拼接得到拼接特征图；

识别模块14，用于根据拼接特征图识别视频中的动作。

本实施例提供的视频动作识别装置，可以执行上述方法的实施例，其实现原理和技术效果类似，在此不再赘述。

在一种实施例中，在上述图5所示实施例的基础上，如图6所示，上述的特征转换模块12包括：第一确定单元121、第二确定单元122、第一处理单元123。

第一确定单元121，用于根据帧间距确定空间特征图的相关特征图；

第二确定单元122，用于根据每个空间特征图的每个位置的特征及相关特征图中邻域的特征，确定每个空间特征图的每个位置对应的运动特征；

第一处理单元123，用于根据每个空间特征图的每个位置对应的运动特征，获得运动特征构成的第一运动特征图。

在一种实施例中，在上述实施例的基础上，上述第二确定单元122，还用于将每个空间特征图的每个位置的特征与相关特征图中邻域的特征做点积运算，得到每个空间特征图的每个位置对应的运动特征。

在一种实施例中，在上述图5所示实施例的基础上，如图7所示，上述的拼接模块13包括：第二处理单元131、第三处理单元132。

第二处理单元131，用于对第一运动特征图进行卷积操作，得到第二运动特征图，第二运动特征图与空间特征图的特征维度相同；

第三处理单元132，用于根据第二运动特征图和空间特征图得到拼接特征图。

在一种实施例中，在上述实施例的基础上，上述第三处理单元132，还用于将第二运动特征图与空间特征图拼接得到拼接特征图。

在一种实施例中，在上述实施例的基础上，上述第三处理单元132，还用于对第二运动特征图进行块归一化和线性整流，得到第三运动特征图；将第三运动特征图与空间特征图拼接得到拼接特征图。

在一种实施例中，在上述实施例的基础上，上述识别模块14，还用于判断拼接特征图是否符合预定条件；若拼接特征图不符合预定条件，对拼接特征图中的每个位置的特征分别进行至少一次特征转换；若拼接特征图符合预定条件，根据拼接特征图识别视频中的动作。

关于视频动作识别装置的具体限定可以参见上文中对于视频动作识别方法的限定，在此不再赘述。上述视频动作识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于电子设备中的处理器中，也可以以软件形式存储于电子设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种电子设备，该电子设备可以是终端，其内部结构图可以如图8所示。该电子设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种视频动作识别方法。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该电子设备的输入装置可以是显示屏上覆盖的触摸层，也可以是电子设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种电子设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

对视频中的每帧图片进行特征提取，得到每帧图片对应的空间特征图；利用相关特征图中邻域的特征，对空间特征图中的每个位置的特征分别进行特征转换，得到每帧图片对应的运动特征构成的第一运动特征图；其中，与每帧图片的帧间距满足设定条件的帧图像对应的特征图为每帧图片对应的特征图的相关特征图；将空间特征图与第一运动特征图拼接得到拼接特征图；根据拼接特征图识别视频中的动作。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

根据帧间距确定空间特征图的相关特征图；根据每个空间特征图的每个位置的特征及相关特征图中邻域的特征，确定每个空间特征图的每个位置对应的运动特征；根据每个空间特征图的每个位置对应的运动特征，获得运动特征构成的第一运动特征图。

对第一运动特征图进行卷积操作，得到第二运动特征图，第二运动特征图与空间特征图的特征维度相同；根据第二运动特征图和空间特征图得到拼接特征图。

将第二运动特征图与空间特征图拼接得到拼接特征图。

对第二运动特征图进行块归一化和线性整流，得到第三运动特征图；将第三运动特征图与空间特征图拼接得到拼接特征图。

判断拼接特征图是否符合预定条件；若拼接特征图不符合预定条件，对拼接特征图中的每个位置的特征分别进行至少一次特征转换；若拼接特征图符合预定条件，根据拼接特征图识别视频中的动作。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

将第二运动特征图与空间特征图拼接得到拼接特征图。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种视频动作识别方法，其特征在于，所述方法包括：

对视频中的每帧图片进行特征提取，得到所述每帧图片对应的空间特征图；

利用相关特征图中邻域的特征，对所述空间特征图中的每个位置的特征分别进行特征转换，得到所述每帧图片对应的运动特征构成的第一运动特征图；其中，与所述每帧图片的帧间距满足设定条件的帧图像对应的特征图为所述每帧图片对应的特征图的相关特征图；

将所述空间特征图与所述第一运动特征图拼接得到拼接特征图；

根据所述拼接特征图识别所述视频中的动作；

其中，所述利用相关特征图中邻域的特征，对所述空间特征图中的每个位置的特征分别进行特征转换，得到所述每帧图片对应的运动特征构成的第一运动特征图，包括：

根据所述帧间距确定所述空间特征图的相关特征图；

根据每个所述空间特征图的每个位置的特征及所述相关特征图中邻域的特征，确定每个所述空间特征图的每个位罝对应的运动特征；

根据每个所述空间特征图的每个位罝对应的运动特征，获得运动特征构成的第一运动特征图。

2.根据权利要求1所述的方法，其特征在于，所述根据每个所述空间特征图的每个位罝的特征及所述相关特征图中邻域的特征，确定每个所述空间特征图的每个位置对应的运动特征，包括：

将每个所述空间特征图的每个位置的特征与所述相关特征图中邻域的特征做点积运算，得到每个所述空间特征图的每个位置对应的运动特征。

3.根据权利要求1所述的方法，其特征在于，所述将所述空间特征图与所述第一运动特征图拼接得到拼接特征图，包括：

对所述第一运动特征图进行卷积操作，得到第二运动特征图，所述第二运动特征图与所述空间特征图的特征维度相同；

根据所述第二运动特征图和所述空间特征图得到所述拼接特征图。

4.根据权利要求3所述的方法，其特征在于，所述根据所述第二运动特征图和所述空间特征图得到所述拼接特征图，包括：

将所述第二运动特征图与所述空间特征图拼接得到所述拼接特征图。

5.根据权利要求3所述的方法，其特征在于，所述根据所述第二运动特征图和所述空间特征图得到所述拼接特征图，包括：

对所述第二运动特征图进行块归一化和线性整流，得到第三运动特征图；

将所述第三运动特征图与所述空间特征图拼接得到所述拼接特征图。

6.裉据权利要求1所述的方法，艽特征在于，所述根据拼接特征图识别所述视频中的动作，包括：

判断所述拼接特征图是否符合预定条件；

若所述拼接特征图不符合所述预定条件，对所述拼接特征图屮的每个位置的特征分别进行至少一次特征转换；

若所述拼接特征图符合所述预定条件，根据拼接特征图识别所述视频中的动作。

7.一种视频动作识别装置，其特征在于，所述装置包括：

提取模块，用于对视频中的每帧图片进行特征提取，得到所述每帧图片对应的空间特征图；

特征转换模块，用于利用相关特征图屮邻域的特征，对所述空间特征图屮的每个位置的特征分别进行特征转换，得到所述每帧图片对应的运动特征构成的第一运动特征图；其中，与所述每帧图片的帧间距满足设定条件的帧图像对应的特征图为所述每帧图片对应的特征图的相关特征图；

拼接模块，用于将所述空间特征图与所述第一运动特征图拼接得到拼接特征图；

识别模块，用于根据拼接特征图识别所述视频中的动作；

其中，所述特征转换模块，具体包括：

第一确定单元，用于根据所述帧间距确定所述空间特征图的相关特征图；

第二确定单元，用于根据每个所述空间特征图的每个位置的特征及所述相关特征图中邻域的特征，确定每个所述空间特征图的每个位罝对应的运动特征；

第一处理单元，用于根据每个所述空间特征图的每个位罝对应的运动特征，获得运动特征构成的第一运动特征图。

8.一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。