CN111931679A

CN111931679A - 动作识别方法、装置、设备及存储介质

Info

Publication number: CN111931679A
Application number: CN202010850142.2A
Authority: CN
Inventors: 李岩; 康斌
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-08-21
Filing date: 2020-08-21
Publication date: 2020-11-13

Abstract

本申请实施例公开了一种动作识别方法、装置、设备及存储介质，该方法包括：将待识别的视频序列划分为T个视频段；通过特征提取网络提取T个视频段各自对应的图像特征；根据T个视频段各自对应的图像特征间的差异度，对T个视频段各自对应的图像特征进行特征融合处理，得到目标视频特征；根据目标视频特征确定视频序列中运动目标的动作类别。该方法能够保证准确识别视频序列中运动目标的动作类别。

Description

动作识别方法、装置、设备及存储介质

技术领域

本申请涉及人工智能(Artificial Intelligence，AI)技术领域，尤其涉及一种动作识别方法、装置、设备及存储介质。

背景技术

基于视频的动作识别任务，是指识别一段视频序列中运动目标进行的动作所属的类别。与普通的图片分类任务仅需考虑单张图片不同，基于视频的动作识别任务需要更多地考量时间维度的信息，才能准确地识别视频序列中运动目标的动作类别，例如，对于不同泳姿的区分，往往需要综合考虑时间序列内多张图片的信息才能做出准确地判断。

相关技术目前主要基于通道偏移算法(Temporal Shift Moduel，TSM)实现基于视频的动作识别任务，该TSM算法在特征提取网络中加入了时间维度的特征融合策略，可以针对相邻视频段间的图像特征进行特征融合处理，从而在时间维度上实现特征信息的交换与特征信息的融合。

然而，经本申请发明人研究发现，上述实现方式往往难以保证交换融合的特征信息中包含参考价值较高的时间信息，这对于最终动作识别结果的准确性也会产生影响。

发明内容

本申请实施例提供了一种动作识别方法、装置、设备及存储介质，能够保证准确识别视频序列中运动目标的动作类别。

有鉴于此，本申请第一方面提供了一种动作识别方法，所述方法包括：

获取待识别的视频序列；

将所述视频序列划分为T个视频段，所述T为大于1的整数；

通过特征提取网络对所述T个视频段进行特征提取处理，得到所述T个视频段各自对应的图像特征；

根据所述T个视频段各自对应的图像特征之间的差异度，对所述T个视频段各自对应的图像特征进行特征融合处理，得到目标视频特征；

根据所述目标视频特征，确定所述视频序列中运动目标的动作类别。

本申请第二方面提供了一种动作识别装置，所述装置包括：

视频获取模块，用于获取待识别的视频序列；

视频划分模块，用于将所述视频序列划分为T个视频段，所述T为大于1的整数；

特征提取模块，用于通过特征提取网络对所述T个视频段进行特征提取处理，得到所述T个视频段各自对应的图像特征；

特征融合模块，用于根据所述T个视频段各自对应的图像特征之间的差异度，对所述T个视频段各自对应的图像特征进行特征融合处理，得到目标视频特征；

动作识别模块，用于根据所述目标视频特征，确定所述视频序列中运动目标的动作类别。

本申请第三方面提供了一种设备，所述设备包括处理器以及存储器：

所述存储器用于存储计算机程序；

所述处理器用于根据所述计算机程序，执行如上述第一方面所述的动作识别方法的步骤。

本申请第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行上述第一方面所述的动作识别方法的步骤。

本申请第五方面提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述第一方面所述的动作识别方法的步骤。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例提供了一种动作识别方法，该方法创新性地提出了一种自适应特征融合策略。基于该自适应特征融合策略识别视频序列中运动目标的动作类别时，可以根据T个视频段各自对应的图像特征之间的差异度，对T个视频段各自对应的图像特征进行相应地特征融合处理，得到目标视频特征，进而，基于该目标视频特征，识别视频序列中运动目标的动作类别。基于T个视频段各自对应的图像特征之间的差异度，对子图像特征中T个视频段各自对应的图像特征进行特征融合处理，能够保证对于较为关注运动信息的图像特征，在时间维度上进行充分有效的信息交换融合，由此确保准确识别视频序列中运动目标的动作类别。

附图说明

图1为相关技术中TSM算法的时间偏移策略的原理示意图；

图2为本申请实施例提供的动作识别方法的应用场景示意图；

图3为本申请实施例提供的动作识别方法的流程示意图；

图4为本申请实施例提供的生成T个视频段对应的图像特征的原理示意图；

图5为本申请实施例提供的划分T个视频段对应的图像特征的原理示意图；

图6为本申请实施例提供的正向偏移处理、反向偏移处理和不偏移处理各自对应的原理图；

图7为本申请实施例提供的拼接X个子图像特征各自对应的目标子图像特征的原理示意图；

图8为本申请实施例提供的自适应通道偏移模块的工作原理示意图；

图9为本申请实施例提供的第一种动作识别装置的结构示意图；

图10为本申请实施例提供的第二种动作识别装置的结构示意图；

图11为本申请实施例提供的第三种动作识别装置的结构示意图；

图12为本申请实施例提供的第四种动作识别装置的结构示意图；

图13为本申请实施例提供的服务器的结构示意图；

图14为本申请实施例提供的终端设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision，CV)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如，常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的方案涉及人工智能的计算机视觉技术，具体通过如下实施例进行说明：

为了便于理解本申请实施例提供的动作识别方法，下面先对相关技术中的TSM算法进行介绍。基于TSM算法识别视频序列中运动目标的动作类别时，需要先将待识别的视频序列划分为若干视频段，然后从每个视频段中随机采样一帧图片，并将采样的图片输入特征提取网络进行特征提取；TSM算法在特征提取网络中加入了时间偏移策略，可以在相邻视频段间进行特征偏移操作，以实现时间维度上的信息交换和信息融合。

图1为相关技术中TSM算法的时间偏移策略的原理示意图。如图1所示，假设将视频序列划分为四个视频段，经特征提取网络对从每个视频段中随机采样的图片进行特征提取处理，得到这四个视频段各自对应的图像特征，分别为视频段1图像特征、视频段2图像特征、视频段3图像特征和视频段4图像特征，其中每个视频段图像特征均包括6个特征通道(c＝1至c＝6)。

假设固定的时间偏移策略为对c＝1特征通道上的图像特征进行正向偏移处理，对c＝2特征通道上的图像特征进行反向偏移处理，对于其它特征通道上的图像特征不进行特征偏移处理。相应地，按照该时间偏移策略对视频段图像特征进行偏移处理时，在c＝1特征通道上，将第t段图像特征沿时间序列正向平移至第(t+1)段，例如，将视频段1图像特征平移至视频段2图像特征上，将视频段2图像特征平移至视频段3图像特征上，以此类推；在c＝2特征通道上，将第t段图像特征沿时间序列反向平移至第(t-1)段，例如，将视频段2图像特征平移至视频段1图像特征上，将视频段3图像特征平移至视频段2图像特征上，以此类推；而在c＝3至c＝6特征通道上，各视频段图像特征均保持不变。

经上述特征偏移处理后，各视频段图像特征中融合了与其相邻的视频段图像特征；例如，对于视频段2图像特征来说，其中既包括在c＝1特征通道上从视频段1图像特征中平移过来的特征，又包括在c＝2特征通道上从视频段3图像特征中平移过来的特征。如此，在时间维度上实现了相邻视频段之间信息的交换和融合。

然而，经本申请发明人研究发现，相关技术中的TSM算法目前都是基于上述固定的时间偏移策略进行特征偏移处理的，例如，假设图像特征中包括C个特征通道，固定地对前C/4个特征通道上的图像特征进行正向偏移，对第C/4至第C/2个特征通道上的图像特征进行反向偏移，对后C/2个特征通道上的图像特征保持不变。而特征提取网络中不同的特征通道往往关注不同的信息，有些特征通道更关注图像中的运动信息，能够捕捉不同时间节点间的运动变化，而有些通道更关注图像中的背景信息；对于建模运动信息的特征来说，对其在时间维度上进行特征交换和特征融合是很有意义的，能够帮助不同视频段之间交换融合具有时间代表性的信息，而对于建模背景信息的特征来说，由于其在不同的视频段间是比较稳定、基本保持不变的，因此对其在时间维度上进行特征交换和特征融合的参考意义往往较低。

基于上述介绍可知，相关技术中的TSM算法基于固定的时间偏移策略，仅对特定特征通道上的特征进行特征偏移处理，显然是不合适的。这种方式往往难以保证进行特征偏移处理的特征通道为关注运动信息的特征通道，即难以保证在时间维度上进行的特征交换和特征融合能够为最终动作类别的识别带来较高的参考价值，在进行特征偏移处理的特征通道为关注背景信息的特征通道的情况下，特征偏移处理的优势将大幅减弱，甚至会影响最终动作识别结果的准确性。

针对上述相关技术存在的问题，本申请实施例提供了一种动作识别方法，该方法创新性地提出了一种自适应通道偏移策略，该自适应通道偏移策略能够结合特征通道对于运动信息的关注程度，采用与该特征通道相适配的特征偏移方式对该特征通道上的图像特征进行偏移处理，从而保证准确地识别视频序列中运动目标的动作类别。

具体的，在本申请实施例提供的动作识别方法中，可以先获取待识别的视频序列，并将该视频序列划分为T(T为大于1的整数)个视频段。然后，通过特征提取网络对这T个视频段进行特征提取处理，得到这T个视频段对应的图像特征，这T个视频段对应的图像特征中包括C(C为大于1的整数)个特征通道；并在C个特征通道的方向上，将这T个视频段对应的图像特征划分为X(X为大于1的整数)个子图像特征，此处的子图像特征中包括M(M为小于C的正整数)个特征通道。进而，针对X个子图像特征中的每个子图像特征，根据该子图像特征中T个视频段各自对应的图像特征之间的差异度，对子图像特征中T个视频段各自对应的图像特征进行特征偏移处理，得到该子图像特征对应的目标子图像特征。最终，拼接这X个子图像特征各自对应的目标子图像特征得到目标视频特征，并根据该目标视频特征确定视频序列中运动目标的动作类别。

相比相关技术中基于固定的时间偏移策略对图像特征进行偏移处理，本申请实施例提供的方法可以更灵活地在时间维度上进行特征信息的交换融合。由于子图像特征中T个视频段各自对应的图像特征之间的差异度，能够客观真实地反映子图像特征中携带的运动信息的多少，依据该差异度能够衡量子图像特征中包括的特征通道对于运动信息的关注程度，因此，基于该差异度对子图像特征中T个视频段各自对应的图像特征进行特征偏移处理，能够保证特征偏移处理的方式与子图像特征中特征通道对于运动信息的关注程度相适配，即保证对于较为关注运动信息的特征通道上的图像特征，在时间维度上进行充分有效的信息交换融合，由此确保准确识别视频序列中运动目标的动作类别。

应理解，本申请实施例提供的动作识别方法可以应用于具备图像处理能力的电子设备，如终端设备或服务器。其中，终端设备具体可以为计算机、智能手机、平板电脑、个人数字助理(Personal Digital Assitant，PDA)等；服务器具体可以为应用服务器或Web服务器，在实际部署时，可以为独立的服务器，也可以为集群服务器或云服务器。

为了便于理解本申请实施例提供的动作识别方法，下面以该动作识别方法的执行主体为服务器为例，对该动作识别方法适用的应用场景进行示例性介绍。

参见图2，图2为本申请实施例提供的动作识别方法的应用场景示意图。如图2所示，该应用场景中包括数据库210和服务器220；其中，数据库210用于存储待识别的视频序列，服务器220用于从数据库210中调取待识别的视频序列，并执行本申请实施例提供的动作识别方法，识别所调取的视频序列中运动目标的动作类别。

在实际应用中，服务器220可以从数据库210中调取待识别的视频序列，然后将所调取的视频序列划分为T(T为大于1的整数)个视频段，例如，可以将视频序列划分为8个视频段。接着，服务器220可以通过特征提取网络对T个视频段进行特征提取处理，得到这T个视频段对应的图像特征，在特征提取网络中包括C(C为大于1的整数)个特征通道的情况下，经特征提取处理得到的图像特征中也相应地包括C个特征通道；示例性的，服务器220可以从每个视频段中随机采样一帧图片得到T帧图片，然后将T帧图片分别输入特征提取网络，特征提取网络对每帧图片进行特征提取处理得到该帧图片对应的图像特征，作为该帧图片所属的视频段对应的图像特征，进而按照T个视频段的时间顺序将每个视频段对应的图像特征排列起来，得到这T个视频段对应的图像特征。

服务器220获取到T个视频段对应的图像特征后，可以沿着C个特征通道的方向将这T个视频段对应的图像特征划分为X(X为大于1的整数)个子图像特征，子图像特征中包括M(M为小于C的正整数)个特征通道，不同的子图像特征中包括的特征通道数可以相同，也可以不同。进而，服务器220可以基于本申请实施例提供的自适应通道偏移策略，对每个子图像特征进行特征偏移处理；具体的，针对每个子图像特征，服务器220可以根据该子图像特征中T个视频段各自对应的图像特征之间的差异度，对该子图像特征中T个视频段各自对应的图像特征进行特征偏移处理，得到该子图像特征对应的目标子图像特征。

由于子图像特征中T个视频段各自对应的图像特征之间的差异度，能够反映该子图像特征中携带的运动信息的多少，依据该差异度能够衡量该子图像特征中包括的特征通道对于运动信息的关注程度，因此，基于该差异度对子图像特征中T个视频段各自对应的图像特征进行特征偏移处理，能够保证所采用的特征偏移处理的方式与该子图像特征中特征通道对于运动信息的关注程度相适配，对于较为关注运动信息的特征通道上的图像特征，可以在时间维度上进行有效地交换和融合。

服务器220经上述特征偏移处理得到X个子图像特征各自对应的目标子图像特征后，可以沿C个特征通道的方向将这X个子图像特征各自对应的目标子图像特征拼接起来，得到视频序列对应的目标视频特征。进而，服务器220可以基于该目标视频特征，识别该视频序列中运动目标的动作类别。

需要说明的是，图2所示的应用场景仅为示例，在实际应用中，本申请实施例提供的动作识别方法还可以应用于其它应用场景，例如，服务器还可以针对终端设备上传的视频序列识别其中运动目标的动作类别，等等。本申请在此不对该动作识别方法的应用场景做任何限定。

下面通过方法实施例对本申请提供的动作识别方法进行详细介绍。

参见图3，图3为本申请实施例提供的动作识别方法的流程示意图。为了便于描述，下述实施例仍以该动作识别方法的执行主体为服务器为例。如图3所示，该动作识别方法包括以下步骤：

步骤301：获取待识别的视频序列。

在实际应用中，服务器执行基于视频的动作识别任务时，可以根据实际需求，从数据库、或终端设备、或其它相关服务器处获取待识别的视频序列，本申请在此不对待识别的视频序列的来源做任何限定，也不对服务器获取待识别的视频序列的方式做任何限定。

在一种可能的实现方式中，服务器可以从数据库中调取待识别的视频序列。示例性的，该数据库可以用于存储待向目标用户推荐的视频序列，服务器从该数据库中调取出待识别的视频序列后，可以通过本申请实施例提供的动作识别方法识别该视频序列中运动目标的动作类别，进而根据该视频序列中运动目标的动作类别，确定是否向目标用户推荐该视频序列。示例性的，该数据库也可以用于存储待发布的视频序列，服务器从该数据库中调取出待识别的视频序列后，可以通过本申请实施例提供的动作识别方法识别该视频序列中运动目标的动作类别，进而根据该视频序列中运动目标的动作类别，确定该视频序列中是否涉及敏感内容，并据此决定是否继续发布该视频序列。

应理解，在实际应用中，本申请实施例提供的动作识别方法除了可以应用于上述视频推荐、视频审批的应用场景中，还可以根据实际需求应用于其它应用场景，在其它应用场景中，上述数据库应当用于存储与该应用场景相适配的视频序列。本申请在此不对该动作识别方法的应用场景做任何限定。

在另一种可能的实现方式中，服务器可以接收终端设备上传的待识别的视频序列。示例性的，当用户需要通过服务器识别某视频序列中运动目标的动作类别时，用户可以在终端设备本地存储的视频序列中选取待识别的视频序列，然后通过相关应用程序中的视频上传控件，触发将所选取的视频序列发送至服务器。

应理解，当本申请实施例提供的动作识别方法的执行主体为终端设备时，终端设备可以响应于用户触发的视频选择操作，从自身本地存储的视频序列中选取待识别的视频序列，进而对所选取的视频序列执行本申请实施例提供的动作识别方式，识别该视频序列中运动目标的动作类别。

步骤302：将所述视频序列划分为T个视频段，所述T为大于1的整数。

服务器获取到待识别的视频序列后，可以按照预设的视频序列划分规则，将该视频序列划分为T个视频段，此处T为大于1的整数。示例性的，假设视频序列划分规则为将视频序列平均分为8个视频段，那么在服务器获取的视频序列的长度为L的情况下，对该视频序列进行划分处理后，将得到8个长度均为L/8的视频段。

应理解，在实际应用中，可以根据实际需求设置上述视频序列划分规则，该视频序列划分规则可以是将视频序列平均地分为T个视频段，也可以是将视频序列不平均地分为T个视频段。本申请在此不对该视频序列划分规则做任何限定，也不对所需划分出的视频段的数目做任何限定。

步骤303：通过特征提取网络对所述T个视频段进行特征提取处理，得到所述T个视频段对应的图像特征。

服务器将视频序列划分为T个视频段后，可以通过特征提取网络对这T个视频段进行特征提取处理，得到这T个视频段各自对应的图像特征。

应理解，在实际应用中，若特征提取网络包括多个特征通道，则经该特征提取网络提取出的图像特征中会包括相应数目的特征通道，例如，假设特征提取网络包括C(C为大于1的整数)个特征通道，则经该特征提取网络提取出的T个视频段各自对应的图像特征中也会包括C个特征通道。

具体实现时，服务器将视频序列划分为T个视频段后，可以从每个视频段中随机采样一帧图片，如此得到T帧图片；进而，服务器可以将这T帧图片分别输入特征提取网络，经过特征提取网络的特征提取处理后，将得到这T帧图片各自对应的图像特征，这T帧图片各自对应的图像特征相应地即为T个视频段各自对应的图像特征。

可选的，为了便于后续在特征通道的维度上进行特征偏移处理，服务器得到T个视频段各自对应的图像特征后，可以按照这T个视频段的时间顺序，将这T个视频段各自对应的图像特征排列起来，得到这T个视频段对应的图像特征。相应地，在特征提取网络包括C个特征通道的情况下，排列T个视频段各自对应的图像特征得到的T个视频段对应的图像特征中也包括C个特征通道。

为了便于理解上述实现过程，下面以服务器将视频序列划分为4个视频段，且特征提取网络中包括6个特征通道为例，结合图4所示的原理示意图对该实现过程进行介绍。如图4所示，服务器将其获取的视频序列划分为4个视频段后，可以从每个视频段中随机抽取一帧图片，如此将得到4帧图片(分别为图片1、图片2、图片3和图片4)；然后，服务器可以将这4帧图片分别输入特征提取网络，得到4帧图片各自对应的图像特征(分别为图像特征1、图像特征2、图像特征3和图像特征4)，每帧图片对应的图像特征即为该帧图片所属的视频段对应的图像特征，每个视频段对应的图像特征中均包括6个特征通道；进而，服务器可以按照这4个视频段在视频序列中的时间顺序，将4个视频段各自对应的图像特征排列起来，得到4个视频段对应的图像特征。

需要说明的是，为了更好地在时间维度上进行特征信息的交换和融合，本申请实施例提供的方法可以在特征提取网络进行特征提取处理的过程中，加入本申请实施例提供的自适应通道偏移策略，即在特征提取网络进行特征提取的过程中，针对该特征提取网络中的特征提取层提取出的图像特征，基于本申请实施例中的自适应通道偏移策略进行特征偏移处理。

在特征提取网络中包括N(N为大于1的整数)个特征提取层的情况下，服务器可以通过该特征提取网络中的第i个特征提取层，对T个视频段各自对应的第i-1目标图像特征进行特征提取处理，得到这T个视频段对应的第i图像特征；此处的i为大于等于1、且小于N的整数，当i等于1时，第i-1目标图像特征应当为T个视频段，T个视频段对应的第i图像特征中包括C个特征通道。在C个特征通道的方向上，将这T个视频段对应的第i图像特征划分为X(X为大于1的整数)个第i子图像特征，第i子图像特征中包括M(M为小于C的正整数)个特征通道。针对X个第i子图像特征中的每个第i子图像特征，根据该第i子图像特征中T个视频段各自对应的第i图像特征之间的差异度，对该第i子图像特征中T个视频段各自对应的第i图像特征进行特征偏移处理，得到第i子图像特征对应的第i目标子图像特征。进而，针对T个视频段中的每个视频段，将X个第i子图像特征各自对应的第i目标子图像特征中所属于该视频段的图像特征拼接起来，得到该视频段对应的第i目标图像特征。最终，可以将T个视频段各自对应的第i目标图像特征，输入特征提取网络中的第i+1个特征提取层。

基于本申请实施例中的自适应通道偏移策略，对特征提取网络中的特征提取层提取出的图像特征进行特征偏移处理的具体实现方式，与下文中对T个视频段对应的图像特征进行特征偏移处理的具体实现方式相类似，详细可参见下文中对T个视频段对应的图像特征进行特征偏移处理的实现过程的介绍内容。

服务器对特征提取网络中第i个特征提取层提取出的T个视频段对应的第i图像特征完成特征偏移处理，得到X个第i子图像特征各自对应的第i目标子图像特征后，可以基于X个第i子图像特征各自对应的第i目标子图像特征，确定T个视频段各自对应的第i目标图像特征，具体的，针对T个视频段中的每个视频段，服务器可以将X个第i目标子图像特征中所属于该视频段的图像特征拼接起来，由此得到该视频段对应的第i目标图像特征。进而，服务器可以将T个视频段各自对应的第i目标图像特征，输入特征提取网络中的第i+1个特征提取层，以对第i+1个特征提取层提取出的T个视频段对应的第i+1图像特征执行上述处理过程。

应理解，在实际应用中，服务器可以针对特征提取网络中各特征提取层提取出的图像特征均执行上述特征交换融合处理，也可以从特征提取网络中选出部分特征提取层，仅针对这部分特征提取层提取出的图像特征执行上述特征交换融合处理。

步骤304：根据所述T个视频段各自对应的图像特征之间的差异度，对所述T个视频段各自对应的图像特征进行特征融合处理，得到目标视频特征。

服务器获取到特征提取网络输出的T个视频段各自对应的图像特征后，可以计算这T个视频段各自对应的图像特征之间的差异度。进而，根据T个视频段各自对应的图像特征之间的差异度，对T个视频段各自对应的图像特征进行特征融合处理，以得到目标视频特征。

具体实现时，服务器可以计算相邻的视频段对应的图像特征之间的差异度，然后基于该差异度对相邻的视频段对应的图像特征进行相应地卷积融合处理，应理解，相邻视频段对应的图像特征之间的差异度越大，进行卷积融合处理时相邻视频段对应的图像特征在时间维度上的信息交换和信息融合会越充分。进而，基于卷积融合处理后得到的图像特征，构建目标视频特征。

可选的，若在执行步骤304前，服务器已按照T个视频段的时间顺序，排列这T个视频段各自对应的图像特征，得到T个视频段对应的图像特征(该图像特征中包括C个特征通道)，则服务器可以基于此，进一步在特征通道的维度进行特征偏移处理，以实现上述图像特征之间的特征融合。

具体的，服务器可以在所述C个特征通道的方向上将所述T个视频段对应的图像特征划分为X个子图像特征，所述X为大于1的整数；所述子图像特征包括M个特征通道，所述M为小于C的正整数。

服务器通过特征提取网络对T个视频段进行特征提取处理，得到T个视频段对应的图像特征后，可以在特征通道的方向上将T个视频段对应的图像特征划分为X(X为大于1的整数)个子图像特征，即服务器可以沿着C个特征通道方向，将T个视频段对应的图像特征划分为多个子图像特征。子图像特征中包括M(M为小于C的正整数)个特征通道，不同的子图像特征中包括的特征通道数可以相同，也可以不同。

图5为一种示例性的划分T个视频段对应的图像特征的原理示意图。如图5所示，服务器可以沿着特征通道的方向将T个视频段对应的图像特征平均分为两部分，得到子图像特征X1和子图像特征X2，子图像特征X1中包括的特征通道数和子图像特征X2中包括的特征通道数均为C/2。

应理解，在实际应用中，服务器也可以按照其它图像特征划分规则，沿着特征通道的方向将T个视频段对应的图像特征划分为X个子图像特征，本申请在此不对X做具体限定，也不对图像特征划分规则做任何限定。

进而，针对所述X个子图像特征中的每个子图像特征，根据所述子图像特征中所述T个视频段各自对应的图像特征之间的差异度，对所述子图像特征中所述T个视频段各自对应的图像特征进行特征偏移处理，得到所述子图像特征对应的目标子图像特征。

服务器将T个视频段对应的图像特征划分为X个子图像特征后，可以进一步基于本申请实施例提供的自适应通道偏移策略，对每个子图像特征中T个视频段各自对应的图像特征进行相适配的特征偏移处理。具体的，针对X个子图像特征中的每个子图像特征，服务器可以根据该子图像特征中T个视频段各自对应的图像特征之间的差异度，对该子图像特征中T个视频段各自对应的图像特征进行特征偏移处理，经特征偏移处理后得到的子图像特征即为目标子图像特征。

如图5所示，将T个视频段对应的图像特征划分为X个子图像特征后，每个子图像特征中包括T个视频段各自在对应特征通道上的图像特征，本申请中对子图像特征中T个视频段各自对应的图像特征进行特征偏移处理，实质上就是对T个视频段各自在对应特征通道上的图像特征进行偏移处理。

需要说明的是，本申请实施例中的特征偏移处理主要包括正向偏移处理、反向偏移处理和不偏移处理。正向偏移处理是指在某个特征通道c上，将第t个视频段的图像特征平移至第t+1个视频段的图像特征上，如公式(1)所示；应理解，在特征通道c上对第1个视频段的图像特征进行正向偏移处理后(即在特征通道c上将第1个视频段的图像特征平移至第2个视频段的图像特征上后)，可以对第1个视频段在特征通道c上的图像特征进行补零处理。反向偏移处理是指在某个特征通道c上，将第t个视频段的图像特征平移至第t-1个视频段的图像特征上，如公式(2)所示；应理解，在特征通道c上对第T个视频段的图像特征进行反向偏移处理后(即在特征通道c上将第T个视频段的图像特征平移至第T-1个视频段的图像特征上后)，可以对第T个视频段在特征通道c上的图像特征进行补零处理。不偏移处理是指保持某特征通道c上各视频段的图像特征不变。

forwardshift(X)→X[c,t+1,:,:]＝X[c,t,:,:] (1)

backwardshift(X)→X[c,t,∶,:]＝X[c,t+1,:,:] (2)

图6为正向偏移处理、反向偏移处理和不偏移处理各自对应的原理示意图。如图6中的(a)所示，假设对子图像特征X1(其中包括4个视频段各自对应的图像特征)进行正向偏移处理，则在该子图像特征X1包括的两个特征通道上，将第1个视频段对应的图像特征平移至第2个视频段对应的图像特征处，将第2个视频段对应的图像特征平移至第3个视频段对应的图像特征处，以此类推；对于第1个视频段处空下来的图像特征可以进行补零处理。如图6中的(b)所示，假设对子图像特征X2(其中包括4个视频段各自对应的图像特征)进行反向偏移处理，则在该子图像特征X2包括的两个特征通道上，将第4个视频段对应的图像特征平移至第3个视频段对应的图像特征处，将第3个视频段对应的图像特征平移至第2个视频段对应的图像特征处，以此类推；对于第4个视频段处空下来的图像特征可以进行补零处理。如图6中的(c)所示，假设对子图像特征X3(其中包括4个视频段各自对应的图像特征)进行不偏移处理，则子图像特征X3保持原样。

在一些实施例中，服务器可以基于子图像特征对应的段间差特征，确定对该子图像特征中T个视频段各自对应的图像特征应当采取的特征偏移方式。即服务器可以根据子图像特征中第t+1个视频段对应的图像特征与第t个视频段对应的图像特征之间的差值，确定该子图像特征对应的段间差特征，此处的t为大于等于1、且小于T的整数；进而，基于该段间差特征对子图像特征中T个视频段各自对应的图像特征进行特征偏移处理，从而得到该子图像特征对应的目标子图像特征。

具体实现时，服务器可以通过公式(3)确定子图像特征X对应的段间差特征D：

D＝abs(X[:,t+1,:,:]-X[:,t,:,:]) (3)

其中，abs()为取绝对值的函数；(X[:,t+1,:,:]-X[:,t,:,:])表示利用子图像特征X中第t+1个视频段对应的图像特征减去第t个视频段对应的图像特征。

在服务器将T个视频段对应的图像特征沿C个特征通道的方向划分为X个子图像特征的情况下，服务器可以针对X个子图像特征中的每个子图像特征，通过上述公式(3)计算该子图像特征对应的段间差特征。

需要说明的是，段间差特征的大小能够表征其对应的子图像特征中蕴含的运动信息的多少，对于一个特征通道c来说，若该特征通道建模的是运动信息，那么相邻视频段对应的图像特征彼此之间的差异会比较大，段间差特征相应地也会比较大；相反，若该特征通道建模的是背景信息，那么相邻的视频段对应的图像特征彼此之间的差异会比较小，段间差特征相应地也会比较小。

服务器确定出子图像特征对应的段间差特征后，可以根据该段间差特征确定该子图像对应的通道偏移系数；进而，根据为该子图像分配的特征偏移方向、该通道偏移系数以及该子图像特征，在该子图像特征包括的M个特征通道上，对子图像特征中T个视频段各自对应的图像特征进行偏移处理，从而得到该子图像特征对应的目标子图像特征。

具体确定通道偏移系数时，服务器可以通过目标函数根据子图像特征对应的段间差特征，确定该子图像特征对应的通道偏移系数；通过目标函数确定出的通道偏移系数与段间差特征成正比，并且所确定出的通道偏移系数的取值范围在0到1之间。

示例性的，服务器可以通过sigmoid函数处理子图像特征对应的段间差特征，得到该子图像特征对应的通道偏移系数α，具体如公式(4)所示。sigmoid函数的具体形式如公式(5)所示。

α＝sigmoid(D) (4)

上述sigmoid函数的输出范围在0到1之间，且输出值与输入值成正比，即输入的段间差特征越大，经sigmoid函数处理后得到的通道偏移系数越大。

应理解，在实际应用中，服务器除了可以采用sigmoid函数处理子图像特征对应的段间差特征，得到子图像特征对应的通道偏移系数外，也可以采用其它函数处理子图像特征对应的段间差特征，得到子图像特征对应的通道偏移系数，本申请在此不对处理段间差特征时使用的目标函数做具体限定。

具体基于通道偏移系数对子图像特征中T个视频段各自对应的图像特征进行特征偏移处理时，服务器可以先基于该通道偏移系数调整子图像特征，得到参考子图像特征；然后，沿着为该子图像特征分配的特征偏移方向，在该子图像特征包括的M个特征通道上，对参考子图像特征中T个视频段各自对应的图像特征进行特征偏移处理，得到特征偏移处理后的参考子图像特征；进而，根据该特征偏移处理后的参考子图像特征、该参考子图像特征和该子图像特征，确定该子图像特征对应的目标子图像特征。

假设服务器沿着C个特征通道的方向将T个视频段对应的图像特征划分为子图像特征X1和子图像特征X2，并且为子图像特征X1分配的特征偏移方向为正向偏移，为子图像特征X2分配的特征偏移方向为反向偏移，此时，服务器可以通过式(6)计算子图像特征X1对应的目标子图像特征Output1，通过式(7)计算子图像特征X2对应的目标子图像特征Output2。

Output1＝forwardshift(α1X1)-α1X1+X1 (6)

Output2＝backwardshift(α2X2)-α2X2+X2 (7)

其中，α1表示子图像特征X1对应的通道偏移系数，α1X1表示子图像特征X1对应的参考子图像特征，forwardshift(α1X1)表示对参考子图像特征α1X1进行正向偏移处理，得到的特征偏移处理后的参考子图像特征。α2表示子图像特征X2对应的通道偏移系数，α2X2表示子图像特征X2对应的参考子图像特征，backwardshift(α2X2)表示对参考子图像特征α2X2进行反向偏移处理，得到的特征偏移处理后的参考子图像特征。

应理解，若某一子图像特征中包括的特征通道主要用于建模运动信息，则该子图像特征对应的段间差特征相应地会比较大，进一步地，基于该段间差特征计算得到的通道偏移系数α会接近于1，此时上述公式(6)将近似变为公式(8)，上述公式(7)将近似变为公式(9)。

Output1＝forwardshift(X1) (8)

Output2＝ backwardshift(X2) (9)

相反，若某一子图像特征中包括的特征通道主要用于建模背景信息，则该子图像特征对应的段间差特征相应地会比较小，进一步地，基于该段间差特征计算得到的通道偏移系数会接近于0，此时上述公式(6)将近似变为公式(10)，上述公式(7)将近似变为公式(11)。

Output1＝X1 (10)

Output2＝X2 (11)

也就是说，子图像特征对应的段间差特征越大，即子图像特征中T个视频段各自对应的图像特征之间的差异度越大，对该子图像特征中T个视频段各自对应的图像特征进行特征偏移处理时，所执行的特征偏移处理的幅度越大。反之，子图像特征对应的段间差特征越小，即子图像特征中T个视频段各自对应的图像特征之间的差异度越小，对该子图像特征中T个视频段各自对应的图像特征进行特征偏移处理时，所执行的特征偏移处理的幅度越小，越接近不偏移处理。

在另一些实施例中，服务器可以根据子图像特征中T个视频段各自对应的图像特征之间的差异度，确定是否对该子图像特征中T个视频段各自对应的图像特征进行特征偏移处理。即服务器可以判断子图像特征中T个视频段各自对应的图像特征之间的差异度是否大于预设差异度阈值；若是，则按照预设的特征偏移方式，在M个特征通道上对子图像特征中T个视频段各自对应的图像特征进行特征偏移处理，得到该子图像特征对应的目标子图像特征；若否，则将该子图像特征本身作为其对应的目标子图像特征。

具体实现时，服务器仍可以利用段间差特征来表征子图像特征中T个视频段各自对应的图像特征之间的差异度，即服务器可以先根据子图像特征中第t+1个视频段对应的图像特征与第t个视频段对应的图像特征之间的差值，通过上述公式(3)确定该子图像特征对应的段间差特征；然后，判断该子图像特征对应的段间差特征是否大于预设段间差阈值，若是，则说明该子图像特征中包括的特征通道主要用于建模运动信息，若否，则说明该子图像特征中包括的特征通道主要用于建模背景信息。

应理解，在实际应用中，除了可以利用段间差特征来表征子图像特征中T个视频段各自对应的图像特征之间的差异度之外，也可以利用其它参数来表征该差异度，本申请在此不对该差异度的表示形式做任何限定。相应地，当采用其它形式表示该差异度时，上述预设差异度阈值应当是与该种形式对应的阈值参数。

若判断子图像特征中T个视频段各自对应的图像特征之间的差异度大于预设差异度阈值，则说明该子图像特征中包括的特征通道主要用于建模运动信息，此时，服务器可以按照预先为该子图像特征分配的特征偏移方向，在该子图像特征中的M个特征通道上，对该子图像特征中T个视频段各自对应的图像特征进行特征偏移处理，得到该子图像特征对应的目标子图像特征；例如，假设服务器为该子图像特征分配的特征偏移方向为正向偏移，那么服务器可以在该子图像特征中的M个特征通道上，将该子图像特征中第t个视频段对应的图像特征平移至第t+1个视频段对应的图像特征上。

若判断子图像特征中T个视频段各自对应的图像特征之间的差异度不大于预设差异度阈值，则说明该子图像特征中包括的特征通道主要用于建模背景信息，此时，服务器无需对该子图像特征中T个视频段各自对应的图像特征进行特征偏移处理，可以直接将该子图像特征本身作为其对应的目标子图像特征。

进而，拼接所述X个子图像特征各自对应的目标子图像特征得到目标视频特征。

服务器基于本申请实施例中的自适应通道偏移策略，对X个子图像特征均进行相应的特征偏移处理，得到这X个子图像特征各自对应的目标子图像特征后，服务器可以在C个特征通道的方向上将这X个子图像特征各自对应的目标子图像特征相应地拼接起来，得到与步骤301中获取的视频序列相对应的目标视频特征。

图7为一种示例性的拼接X个子图像特征各自对应的目标子图像特征的原理示意图。如图7所示，假设服务器在步骤303中沿着C个特征通道的方向将T个视频段对应的图像特征划分为子图像特征X1和子图像特征X2，服务器经步骤304，得到子图像特征X1对应的目标子图像特征Output1以及子图像特征X2对应的目标子图像特征Output2后，可以沿着C个特征通道的方向，将目标子图像特征Output1和目标子图像特征Output2拼接起来得到目标视频特征，具体可以通过公式(12)表示。

Output＝Concat(Output1,Output2) (12)

其中，Concat()表示沿着C个特征通道的方向将目标子图像特征Output1和目标子图像特征Output2拼接起来。

应理解，目标视频特征中目标子图像特征Output1和目标子图像特征Output2中的分布位置，与T个视频段对应的图像特征中子图像特征X1和子图像特征X2的分布位置相同。

步骤305：根据所述目标视频特征，确定所述视频序列中运动目标的动作类别。

服务器获取到目标视频特征后，即可基于该目标视频特征识别该视频序列中运动目标的动作类别。具体基于视频特征识别运动目标的动作类别的实现方式为目前已经成熟的技术，此处不再赘述。需要说明的是，本申请所能识别的动作类别具体可以包括运动类别、行为类别、事件类别等等。

在一种可能的实现方式中，上述本申请实施例提供的动作识别方法可以应用在视频推荐场景中，即针对待向目标用户推荐的视频序列执行该动作识别方法，以确定该视频序列中运动目标的动作类别，进而确定是否向目标用户推荐该视频序列。具体的，服务器可以获取目标用户的感兴趣动作类别，然后判断该视频序列中运动目标的动作类别是否属于该目标用户的感兴趣动作类别，若是，则向目标用户推荐该视频序列。

应理解，在实际应用中，上述目标用户的感兴趣动作类别可以根据该目标用户的历史视频观看记录来确定。例如，服务器可以根据目标用户的历史视频观看记录，确定观看时长超过预设时长的视频序列，作为该目标用户的感兴趣视频序列，进而确定感兴趣视频序列中运动目标的动作类别，作为该目标用户的感兴趣动作类别。又例如，服务器可以根据目标用户的历史视频观看记录，针对每种动作类别，统计该目标用户历史观看包括该种动作类别的视频序列的次数，作为该种动作类别对应的历史观看次数，进而确定历史观看次数超过预设观看次数的动作类别，作为该目标用户的感兴趣动作类别。

针对当前待推荐的视频序列，服务器可以通过上述动作识别方法识别其中运动目标的动作类别，进而，判断该动作类别是否属于目标用户的感兴趣动作类别，若是，则向目标用户推荐该视频序列，若否，则不向目标用户推荐该视频序列。

在另一种可能的实现方式中，上述本申请实施例提供的动作识别方法可以应用在视频审核场景中，即针对某视频平台待发布的视频序列执行该动作识别方法，以确定该视频序列中运动目标的动作类别，进而确定是否继续在视频平台上发布该视频序列。具体的，服务器可以获取敏感动作类别集合，然后判断该视频序列中运动目标的动作类别是否属于该敏感动作类别集合，若是，则拦截发布该视频序列。

应理解，在实际应用中，敏感动作类别集合中包括的动作类别，通常是不适宜在视频平台上播放的动作类别，如暴力斗殴等，该敏感动作类别集合中的动作类别可以由相关技术人员根据视频平台的实际业务需求来设置。

针对当前待发布的视频序列，服务器可以通过上述动作识别方法识别其中运动目标的动作类别，进而，判断该动作类别是否属于敏感动作类别集合，若是，则拦截发布该视频序列，若否，则可以正常发布该视频序列。

应理解，除了可以将本申请实施例提供的动作识别方法应用于视频推荐场景和视频审核场景外，在实际应用在，也可以根据实际需求将本申请实施例提供的动作识别方法应用在其它应用场景中。

为了便于进一步理解本申请实施例提供的动作识别方法，下面仍以服务器作为执行主体为例，对本申请实施例提供的动作识别方法进行整体示例性介绍。

假设服务器获取的视频序列的长度为L，服务器可以先将该视频序列平均划分为T(以T＝8为例)个视频段，每个视频段的长度为L/8。此后，服务器可以从每个视频段中随机采样一帧图片，从T个视频段中总共采样得到T帧图片，作为特征提取网络的输入。

特征提取网络中可以包括若干个自适应通道偏移模块，该自适应通道偏移模块的具体工作原理如图8所示。假设该自适应通道偏移模块的输入特征为A，其特征维度为C×T×H×W，C表示其中包括的特征通道的数目，T表示视频段的数目，H和W分别代表输入特征的空间维度。应理解，在实际应用中，上述输入特征可以为特征提取网络中某一特征提取层输出的特征，也可以为该特征提取网络最终输出的特征。

在自适应通道偏移模块中，可以先将输入特征A沿着C个特征通道的方向平均分为两部分，分别为子图像特征X1和子图像特征X2，子图像特征X1和子图像特征X2中包括的特征通道的数目均为C/2。针对子图像特征X1和子图像特征X2，可以先计算其各自对应的段间差特征D1和D2，即针对每个子图像特征采用其中第t+1个视频段对应的图像特征减去第t个视频段对应的图像特征。具体计算公式如下：

D1＝abs(X1[:,t+1,:,:]-X1[:,t,:,:])

D2＝abs(X2[:,t+1,:,:]-X2[:,t,:,:])

需要说明的是，段间差特征能够表征子图像特征中所蕴含的运动信息的多少，对于某个特征通道c来说，若该特征通道建模的是运动信息，那么相邻视频段对应的图像特征彼此之间的差异会比较大，段间差特征相应地也会比较大；相反，若该特征通道建模的是背景信息，那么相邻的视频段对应的图像特征彼此之间的差异会比较小，段间差特征相应地也会比较小。

之后，自适应通道偏移模块可以通过sigmoid函数计算子图像特征X1对应的通道偏移系数α1，以及子图像特征X2对应的通道偏移系数α2：

α1＝sigmoid(D1)

α2＝sigmoid(D2)

sigmoid函数的输出范围在0到1之间，子图像特征对应的段间差特征越大，该子图像特征对应的通道偏移系数越接近1，反之，子图像特征对应的段间差特征越小，该子图像特征对应的通道偏移系数越接近0。

进而，自适应通道偏移模块将正向偏移处理和反向偏移处理，均作用于经过通道偏移系数α调整过的参考子图像特征αX上，公式化表示如下：

Output1＝forwardshift(α1X1)-α1X1+X1,

Output2＝backwardshift(α1X2)-α1X2+X1

应理解，若某一子图像特征中包括的特征通道主要用于建模运动信息，则该子图像特征对应的段间差特征相应地会比较大，进一步地，基于该段间差特征计算得到的通道偏移系数α会接近于1，此时，上述公式近似变为：

Output1＝forwardshift(X1)

Output2＝ backwardshift(X2)

在这种情况下，自适应通道偏移模块执行的操作就是按照预先为各子图像特征分配的特征偏移方向，进行相应的特征偏移处理。

相反，若某一子图像特征中包括的特征通道主要用于建模背景信息，则该子图像特征对应的段间差特征相应地会比较小，进一步地，基于该段间差特征计算得到的通道偏移系数会接近于0，此时，上述公式近似变为：

Output1＝X1

Output2＝X2

在这种情况下，自适应通道偏移模块执行的操作就是保持原有特征不变。

完成上述特征偏移处理后，自适应通道偏移模块可以通过以下公式，在C个特征通道的方向上，将特征偏移处理后得到的目标子图像特征拼接起来，得到目标视频特征Output：

Output＝Concat(Output1,Output2)

最终，服务器可以基于该目标视频特征识别所获取的视频序列中运动目标的动作类别。

针对上文描述的动作识别方法，本申请还提供了对应的动作识别装置，以使上述动作识别方法在实际中的应用以及实现。

参见图9，图9为上文图3所示的动作识别方法对应的一种动作识别装置900的结构示意图，该动作识别装置900包括：

视频获取模块901，用于获取待识别的视频序列；

视频划分模块902，用于将所述视频序列划分为T个视频段，所述T为大于1的整数；

特征提取模块903，用于通过特征提取网络对所述T个视频段进行特征提取处理，得到所述T个视频段各自对应的图像特征；

特征融合模块904，用于根据所述T个视频段各自对应的图像特征之间的差异度，对所述T个视频段各自对应的图像特征进行特征融合处理，得到目标视频特征；

动作识别模块905，用于根据所述目标视频特征，确定所述视频序列中运动目标的动作类别。

可选的，在图9所示的动作识别装置的基础上，参见图10，图10为本申请实施例提供的另一种动作识别装置1000的结构示意图。如图10所示，该述装置还包括：

特征排列模块1001，用于按照所述T个视频段的时间顺序，排列所述T个视频段各自对应的图像特征，得到所述T个视频段对应的图像特征；所述T个视频段对应的图像特征包括C个特征通道，所述C为大于1的整数；

特征划分模块1002，用于在所述C个特征通道的方向上，将所述T个视频段对应的图像特征划分为X个子图像特征，所述X为大于1的整数；所述子图像特征包括M个特征通道，所述M为小于C的正整数；

其中特征融合模块904包括：

特征偏移单元1003，用于针对所述X个子图像特征中的每个子图像特征，根据所述子图像特征中所述T个视频段各自对应的图像特征之间的差异度，对所述子图像特征中所述T个视频段各自对应的图像特征进行特征偏移处理，得到所述子图像特征对应的目标子图像特征；

特征拼接单元1004，用于拼接所述X个子图像特征各自对应的目标子图像特征得到所述目标视频特征。

可选的，在图10所示的动作识别装置的基础上，所述特征偏移单元1003包括：

段间差确定子单元，用于根据所述子图像特征中第t+1个视频段对应的图像特征与第t个视频段对应的图像特征之间的差值，确定所述子图像特征对应的段间差特征；所述t为大于等于1、且小于所述T的整数；

特征偏移子单元，用于基于所述段间差特征，对所述子图像特征中所述T个视频段各自对应的图像特征进行特征偏移处理，得到所述目标子图像特征。

可选的，在图10所示的动作识别装置的基础上，所述特征偏移子单元具体用于：

根据所述子图像特征对应的所述段间差特征，确定所述子图像特征对应的通道偏移系数；

根据为所述子图像分配的特征偏移方向、所述通道偏移系数以及所述子图像特征，在所述M个特征通道上对所述子图像特征中所述T个视频段各自对应的图像特征进行偏移处理，得到所述目标子图像特征。

通过目标函数根据所述子图像特征对应的所述段间差特征，确定所述子图像特征对应的通道偏移系数；所述通道偏移系数与所述段间差特征成正比，所述通道偏移系数大于等于0、且小于等于1。

基于所述通道偏移系数调整所述子图像特征，得到参考子图像特征；

沿着为所述子图像特征分配的特征偏移方向，在所述M个特征通道上对所述参考子图像特征中所述T个视频段各自对应的图像特征进行特征偏移处理，得到特征偏移处理后的参考子图像特征；

根据所述特征偏移处理后的参考子图像特征、所述参考子图像特征和所述子图像特征，确定所述目标子图像特征。

可选的，在图10所示的动作识别装置的基础上，所述特征偏移单元1003具体用于：

在所述差异度大于预设差异度阈值的情况下，按照预设的特征偏移方式，在所述M个特征通道上对所述子图像特征中所述T个视频段各自对应的图像特征进行特征偏移处理，得到所述目标子图像特征；

在所述差异度小于或者等于所述预设差异度阈值的情况下，将所述子图像特征作为所述目标子图像特征。

可选的，在图10所示的动作识别装置的基础上，在所述特征提取网络包括N个特征提取层，所述N为大于1的整数的情况下；所述特征偏移单元1003还用于：

通过第i个特征提取层，对所述T个视频段各自对应的第i-1目标图像特征进行特征提取处理，得到所述T个视频段对应的第i图像特征；所述i为大于等于1且小于N的整数，当所述i等于1时，所述第i-1目标图像特征为所述T个视频段；所述T个视频段对应的第i图像特征包括所述C个特征通道；

在所述C个特征通道的方向上将所述T个视频段对应的第i图像特征划分为所述X个第i子图像特征；所述第i子图像特征包括所述M个特征通道；

针对所述X个第i子图像特征中的每个第i子图像特征，根据所述第i子图像特征中所述T个视频段各自对应的第i图像特征之间的差异度，对所述第i子图像特征中所述T个视频段各自对应的第i图像特征进行特征偏移处理，得到所述第i子图像对应的第i目标子图像特征；

针对所述T个视频段中的每个视频段，将所述X个第i子图像特征各自对应的第i目标子图像特征中所属于该视频段的图像特征拼接起来，得到该视频段对应的第i目标图像特征；

将所述T个视频段各自对应的第i目标图像特征输入第i+1个特征提取层。

可选的，在图9所示的动作识别装置的基础上，参见图11，图11为本申请实施例提供的另一种动作识别装置的结构示意图。如图11所示，该装置还包括：

视频推荐模块1101，用于获取目标用户的感兴趣动作类别；在所述视频序列中运行目标的动作类别属于所述感兴趣动作类别的情况下，向所述目标用户推荐所述视频序列。

可选的，在图9所示的动作识别装置的基础上，参见图12，图12为本申请实施例提供的另一种动作识别装置的结构示意图。如图12所示，该装置还包括：

视频审核模块1201，用于获取敏感动作类别集合；在所述视频序列中运行目标的动作类别属于所述敏感动作类别集合的情况下，拦截发布所述视频序列。

本申请实施例提供的动作识别装置可以更灵活地在时间维度上进行特征信息的交换融合。由于子图像特征中T个视频段各自对应的图像特征之间的差异度，能够客观真实地反映子图像特征中携带的运动信息的多少，依据该差异度能够衡量子图像特征中包括的特征通道对于运动信息的关注程度，因此，基于该差异度对子图像特征中T个视频段各自对应的图像特征进行特征偏移处理，能够保证特征偏移处理的方式与子图像特征中特征通道对于运动信息的关注程度相适配，即保证对于较为关注运动信息的特征通道上的图像特征，在时间维度上进行充分有效的信息交换融合，由此确保准确识别视频序列中运动目标的动作类别。

本申请实施例还提供了一种用于识别视频序列中运动目标的动作类别的设备，该设备具体可以为服务器和终端设备，下面将从硬件实体化的角度对本申请实施例提供的服务器和终端设备进行介绍。

参见图13，图13为本申请实施例提供的一种服务器1300的结构示意图。该服务器1300可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)1322(例如，一个或一个以上处理器)和存储器1332，一个或一个以上存储应用程序1342或数据1344的存储介质1330(例如一个或一个以上海量存储设备)。其中，存储器1332和存储介质1330可以是短暂存储或持久存储。存储在存储介质1330的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1322可以设置为与存储介质1330通信，在服务器1300上执行存储介质1330中的一系列指令操作。

服务器1300还可以包括一个或一个以上电源1326，一个或一个以上有线或无线网络接口1350，一个或一个以上输入输出接口1358，和/或，一个或一个以上操作系统1341，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由服务器所执行的步骤可以基于该图13所示的服务器结构。

其中，CPU 1322用于执行如下步骤：

获取待识别的视频序列；

将所述视频序列划分为T个视频段，所述T为大于1的整数；

可选的，CPU 1322还可以用于执行本申请实施例提供的动作识别方法的任意一种实现方式的步骤。

参见图14，图14为本申请实施例提供的一种终端设备的结构示意图。为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端可以为包括智能手机、计算机、平板电脑、个人数字助理等任意终端设备，以终端为计算机为例：

图14示出的是与本申请实施例提供的终端相关的计算机的部分结构的框图。参考图14，计算机包括：射频(Radio Frequency，RF)电路1410、存储器1420、输入单元1430、显示单元1440、传感器1450、音频电路1460、无线保真(wireless fidelity，WiFi)模块1470、处理器1480、以及电源1490等部件。本领域技术人员可以理解，图14中示出的计算机结构并不构成对计算机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

存储器1420可用于存储软件程序以及模块，处理器1480通过运行存储在存储器1420的软件程序以及模块，从而执行计算机的各种功能应用以及数据处理。存储器1420可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据计算机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1420可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器1480是计算机的控制中心，利用各种接口和线路连接整个计算机的各个部分，通过运行或执行存储在存储器1420内的软件程序和/或模块，以及调用存储在存储器1420内的数据，执行计算机的各种功能和处理数据，从而对计算机进行整体监控。可选的，处理器1480可包括一个或多个处理单元；优选的，处理器1480可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1480中。

在本申请实施例中，该终端所包括的处理器1480还具有以下功能：

获取待识别的视频序列；

将所述视频序列划分为T个视频段，所述T为大于1的整数；

可选的，所述处理器1480还用于执行本申请实施例提供的动作识别方法的任意一种实现方式的步骤。

本申请实施例还提供一种计算机可读存储介质，用于存储计算机程序，该计算机程序用于执行前述各个实施例所述的一种动作识别方法中的任意一种实施方式。

本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行前述各个实施例所述的一种动作识别方法中的任意一种实施方式。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文全称：Read-OnlyMemory，英文缩写：ROM)、随机存取存储器(英文全称：Random Access Memory，英文缩写：RAM)、磁碟或者光盘等各种可以存储计算机程序的介质。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种动作识别方法，其特征在于，所述方法包括：

获取待识别的视频序列；

将所述视频序列划分为T个视频段，所述T为大于1的整数；

2.根据权利要求1所述的方法，其特征在于，在所述通过特征提取网络对所述T个视频段进行特征提取处理，得到所述T个视频段各自对应的图像特征之后，所述方法还包括：

按照所述T个视频段的时间顺序，排列所述T个视频段各自对应的图像特征，得到所述T个视频段对应的图像特征；所述T个视频段对应的图像特征包括C个特征通道，所述C为大于1的整数；

在所述C个特征通道的方向上，将所述T个视频段对应的图像特征划分为X个子图像特征，所述X为大于1的整数；所述子图像特征包括M个特征通道，所述M为小于C的正整数；

则所述根据所述T个视频段各自对应的图像特征之间的差异度，对所述T个视频段各自对应的图像特征进行信息融合处理，得到目标视频特征，包括：

针对所述X个子图像特征中的每个子图像特征，根据所述子图像特征中所述T个视频段各自对应的图像特征之间的差异度，对所述子图像特征中所述T个视频段各自对应的图像特征进行特征偏移处理，得到所述子图像特征对应的目标子图像特征；

拼接所述X个子图像特征各自对应的目标子图像特征得到所述目标视频特征。

3.根据权利要求2所述的方法，其特征在于，所述根据所述子图像特征中所述T个视频段各自对应的图像特征之间的差异度，对所述子图像特征中所述T个视频段各自对应的图像特征进行特征偏移处理，得到所述子图像特征对应的目标子图像特征，包括：

根据所述子图像特征中第t+1个视频段对应的图像特征与第t个视频段对应的图像特征之间的差值，确定所述子图像特征对应的段间差特征；所述t为大于等于1、且小于所述T的整数；

基于所述段间差特征，对所述子图像特征中所述T个视频段各自对应的图像特征进行特征偏移处理，得到所述目标子图像特征。

4.根据权利要求3所述的方法，其特征在于，所述基于所述段间差特征，对所述子图像特征中所述T个视频段各自对应的图像特征进行特征偏移处理，得到所述目标子图像特征，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述子图像特征对应的所述段间差特征，确定所述子图像特征对应的通道偏移系数，包括：

6.根据权利要求4或5所述的方法，其特征在于，所述根据为所述子图像分配的特征偏移方向、所述通道偏移系数以及所述子图像特征，在所述M个特征通道上对所述子图像特征中所述T个视频段各自对应的图像特征进行偏移处理，得到所述目标子图像特征，包括：

7.根据权利要求2所述的方法，其特征在于，所述根据所述子图像特征中所述T个视频段各自对应的图像特征之间的差异度，对所述子图像特征中所述T个视频段各自对应的图像特征进行特征偏移处理，得到所述子图像特征对应的目标子图像特征，包括：

8.根据权利要求2所述的方法，其特征在于，所述特征提取网络包括N个特征提取层，所述N为大于1的整数；所述方法还包括：

9.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取目标用户的感兴趣动作类别；

在所述视频序列中运行目标的动作类别属于所述感兴趣动作类别的情况下，向所述目标用户推荐所述视频序列。

10.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取敏感动作类别集合；

在所述视频序列中运行目标的动作类别属于所述敏感动作类别集合的情况下，拦截发布所述视频序列。

11.一种动作识别装置，其特征在于，所述装置包括：

视频获取模块，用于获取待识别的视频序列；

12.根据权利要求11所述的装置，其特征在于，所述装置还包括：

特征排列模块，用于按照所述T个视频段的时间顺序，排列所述T个视频段各自对应的图像特征，得到所述T个视频段对应的图像特征；所述T个视频段对应的图像特征包括C个特征通道，所述C为大于1的整数；

特征划分模块，用于在所述C个特征通道的方向上，将所述T个视频段对应的图像特征划分为X个子图像特征，所述X为大于1的整数；所述子图像特征包括M个特征通道，所述M为小于C的正整数；

则所述特征融合模块包括：

特征偏移单元，用于针对所述X个子图像特征中的每个子图像特征，根据所述子图像特征中所述T个视频段各自对应的图像特征之间的差异度，对所述子图像特征中所述T个视频段各自对应的图像特征进行特征偏移处理，得到所述子图像特征对应的目标子图像特征；

特征拼接单元，用于拼接所述X个子图像特征各自对应的目标子图像特征得到所述目标视频特征。

13.根据权利要求12所述的装置，其特征在于，所述特征偏移单元包括：

14.一种设备，其特征在于，所述设备包括处理器及存储器；

所述存储器用于存储计算机程序；

所述处理器用于根据所述计算机程序执行权利要求1至10中任一项所述的动作识别方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行权利要求1至10中任一项所述的动作识别方法。