CN113312943A

CN113312943A - 视频的动作识别方法和装置

Info

Publication number: CN113312943A
Application number: CN202010123366.3A
Authority: CN
Inventors: 李心成; 金鑫; 邬书哲; 涂丹丹
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Cloud Computing Technologies Co Ltd
Priority date: 2020-02-27
Filing date: 2020-02-27
Publication date: 2021-08-27

Abstract

本申请提供了人工智能领域中的一种视频的动作识别方法和电子装置，通过确定视频中背景区域对识别目标的动作类别的影响大小，可以提高视频的动作识别的准确性。具体地，可以首先根据视频确定视频中的目标的时空特征和至少一个背景区域的时空特征。再根据目标的时空特征，确定至少一个背景区域中的每个背景区域的影响值。其中，背景区域的影响值用于指示背景区域的时空特征对识别目标的动作类别的影响大小。进一步根据至少一个背景区域的时空特征、每个至少一个背景区域的影响值和目标的时空特征，确定目标的动作特征。最后根据目标的动作特征，识别目标的动作类别。

Description

视频的动作识别方法和装置

技术领域

本申请涉及人工智能(artificial intelligence，AI)领域，尤其涉及一种视频的动作识别方法及装置。

背景技术

人工智能(artificial intelligence，AI)是计算机科学的一个分支，人工智能研究各种智能机器的设计原理与实现方法，使机器像人一样具有感知、推理与决策的功能。

计算机视觉是人工智能的一种实现方式，其应用于各个应用领域，如制造业、检验、文档分析、医疗诊断，和军事等领域，它是一门关于如何运用照相机/摄像机和计算机来获取我们所需的、被拍摄的数据与信息的学科。形象地说，就是给计算机安装上眼睛(照相机/摄像机)和大脑(算法)用来代替人眼对目标进行识别、跟踪和测量等，从而使计算机能够感知环境。总的来说，计算机视觉就是用各种成象系统(例如：照相机/摄像机)代替视觉器官获取输入信息，再由计算机来代替大脑对这些输入信息完成处理和解释。

视频的动作识别是计算机通过对视频的内容进行检测，最终识别出视频中的目标的动作类别的技术，是计算机视觉的一种典型应用。目前，视频的动作识别技术通常关注到视频的全局信息。根据全局信息进行视频分类，利用分类结果表示视频中的目标的动作类别，由于分类结果受到视频中背景或其他目标的干扰，对于复杂场景动作识别的准确性不高。

发明内容

本申请提供一种视频的动作识别方法和装置，能够提高对动作识别的准确性。

第一方面，提供了一种视频的动作识别方法，该方法可以应用于计算机系统。该方法可以由电子装置执行。具体地，可以根据视频确定目标的时空特征和至少一个背景区域的时空特征。其中，视频包括目标和至少一个背景区域。然后，根据目标的时空特征，可以确定至少一个背景区域中的每个背景区域的影响值。其中，背景区域的影响值用于指示该背景区域的时空特征对识别目标的动作类别的影响大小。之后，根据至少一个背景区域的时空特征、至少一个背景区域的影响值和目标的时空特征，可以确定目标的动作特征。从而，根据目标的动作特征，识别目标的动作类别。

目标可以视频中可运动物体，如人、动物、车等。背景区域可以包括视频中除目标之外的全部或部分人、物体、景象等。时空特征可以反映目标或背景区域在时间和空间上的信息。

根据背景区域对识别目标的动作类别的影响大小，确定目标的动作特征，从而对目标的动作进行识别，能够提高动作识别的准确性。

结合第一方面，在一些可能的实现方式中，根据目标的时空特征，确定至少一个背景区域中的每个背景区域的影响值的方式具体可以是：将目标的时空特征和背景区域的时空特征输入关系建立模型。关系建立模型为已训练完成的人工智能AI模型，用于计算目标与背景区域之间的关联关系，并根据关联关系获得每个背景区域对识别目标的动作类别的影响值。关系建立模型对输入的目标的时空特征和背景区域的时空特征进行处理，输出该背景区域的影响值。

计算目标与背景区域之间的关联关系，即确定背景区域的时空特征与目标的时空特征之间的相关度。相关度也可以称为关联度，即表示两者关系的紧密程度。根据背景区域的时空特征与目标的时空特征之间的关联关系确定的影响值，可以较为准确地指示背景区域的时空特征对识别目标的动作类别的影响大小。

结合第一方面，在一些可能的实现方式中，每个背景区域的影响值可以是该背景区域的时空特征的权重。那么，根据至少一个背景区域的时空特征、至少一个背景区域的影响值和目标的时空特征，确定目标的动作特征的具体方式可以是：计算每个背景区域的时空特征与对应的背景区域的权重的乘积，获得每个背景区域的调整后的时空特征；然后，将每个背景区域的调整后的时空特征与目标的时空特征进行融合，得到目标的动作特征。

结合第一方面，在一些可能的实现方式中，在根据至少一个背景区域的时空特征、至少一个背景区域的影响值和目标的时空特征，确定目标的动作特征之前，还可以进行如下操作：首先，确定目标的时空特征对应的部位影响矩阵，部位影响矩阵用于表示目标的不同部位对识别目标的动作类别的影响大小；然后，根据部位影响矩阵，调整目标的时空特征。

部位影响矩阵中的一位(bit)或多位可以表示目标的时空特征中某个部位对识别目标的动作类别的影响大小。或者，影响矩阵中的一位或多位可以与目标的时空特征中的一位对应，表示目标的时空特征中该位对识别目标的动作类别的影响大小。

考虑目标的不同部位的对动作类别的影响的大小，能够体现目标的不同部位对于动作类别的不同重要性，从而能够提高动作识别的准确性。

结合第一方面，在一些可能的实现方式中，根据视频确定目标的时空特征和至少一个背景区域的时空特征，具体可以包括以下步骤：首先，对视频进行特征提取，获得视频的时空特征；其次，确定目标在视频的预设帧中的位置；然后，将目标在预设帧中的位置和视频的时空特征输入特征分割模型，根据特征分割模型获得目标的时空特征和至少一个背景区域的时空特征。其中，特征分割模型为已训练完成的人工智能AI模型。

根据目标在视频的预设帧中的位置，从视频的时空特征中确定目标的时空特征，对目标的时空特征确定的较为准确。背景区域的时空特征为视频的时空特征中，目标的时空特征之外的全部或部分。

结合第一方面，在一些可能的实现方式中，根据视频确定目标的时空特征和至少一个背景区域的时空特征，具体可以包括以下步骤：首先，对视频进行特征提取，获得视频的时空特征；然后，将视频的时空特征输入特征分割模型，根据特征分割模型获得目标的时空特征和至少一个背景区域的时空特征。其中，特征分割模型为已训练完成的人工智能AI模型。

根据视频的时空特征进行目标的时空特征的确定也是一种可选的目标的时空特征的确定方式。通过该方式，进行视频的动作识别所需的AI模型可以通过端到端的训练得到。

结合第一方面，在一些可能的实现方式中，根据目标的动作特征，识别目标的动作类别，具体可以是：输入目标的动作特征至分类模型，根据分类模型的输出结果获得目标的动作类别。其中，分类模型是已训练完成的AI模型。

第二方面，提供一种电子装置，包括：确定单元和识别单元。该电子装置可以是计算机系统中的计算机设备。确定单元用于，根据视频确定目标的时空特征和至少一个背景区域的时空特征。其中，视频包括目标和至少一个背景区域。确定单元还用于，根据目标的时空特征，确定至少一个背景区域中的每个背景区域的影响值。其中，背景区域的影响值用于指示背景区域的时空特征对识别目标的动作类别的影响大小。确定单元还用于，根据至少一个背景区域的时空特征、至少一个背景区域的影响值和目标的时空特征，确定目标的动作特征。识别单元用于，根据目标的动作特征，识别目标的动作类别。

结合第二方面，在一些可能的实现方式中，确定单元可以具体用于，输入目标的时空特征和每个背景区域的时空特征至关系建立模型，根据关系建立模型获得每个背景区域的影响值。其中，关系建立模型为已训练完成的人工智能AI模型。关系建立模型用于计算目标与每个背景区域之间的关联关系，并根据关联关系获得每个背景区域对识别目标的动作类别的影响值。

结合第二方面，在一些可能的实现方式中，每个背景区域的影响值可以是背景区域的时空特征的权重。确定单元具体可以用于：计算每个背景区域的时空特征与对应的背景区域的权重的乘积，获得每个背景区域的调整后的时空特征；将每个背景区域的调整后的时空特征与目标的时空特征进行融合，得到目标的动作特征。

结合第二方面，在一些可能的实现方式中，确定单元具体可以用于：确定目标的时空特征对应的部位影响矩阵，部位影响矩阵用于表示目标的不同部位对识别目标的动作类别的影响大小；根据部位影响矩阵，调整目标的时空特征。

结合第二方面，在一些可能的实现方式中，至少一个背景区域为视频中的至少一个视频帧中不包括目标的图像块。确定单元可以具体用于：对视频进行特征提取，获得视频的时空特征；确定目标在视频中的预设帧对应的图像中的位置；将目标在预设帧对应的图像中的位置和视频的时空特征输入特征分割模型，根据特征分割模型获得目标的时空特征和至少一个背景区域的时空特征，其中，特征分割模型为已训练完成的人工智能AI模型。

结合第二方面，在一些可能的实现方式中，识别单元具体可以用于，输入目标的动作特征至分类模型，根据分类模型的输出结果获得目标的动作类别，其中，分类模型为已训练完成的AI模型。

第三方面，提供了一种电子装置，该装置包括：存储器和处理器。存储器用于存储程序。处理器，用于执行所述存储器存储的程序，以执行上述第一方面中的方法。

应当理解，程序也可以称为程序代码、计算机指令、程序指令等。

第四方面，提供一种计算机可读存储介质，该计算机可读存储介质存储有程序，该程序包括用于执行第一方面中的方法中的步骤的指令。

第五方面，提供一种计算机程序产品，所述计算机程序产品包括计算机指令，当所述计算机程序产品被计算机执行时，该计算机执行前述第一方面中的方法。

第六方面，提供一种芯片系统，所述芯片系统包括至少一个处理器，当程序在所述至少一个处理器中执行时，使得所述芯片系统执行第一方面所述的方法。

可选地，作为一种实现方式，所述芯片系统还可以包括存储器，所述存储器中存储有程序，所述处理器用于执行所述存储器上存储的程序，当所述程序被执行时，所述处理器用于执行第一方面中的方法。

上述芯片系统具体可以是现场可编程门阵列FPGA或者专用集成电路ASIC。

应理解，本申请中，第一方面的方法具体可以是指第一方面以及第一方面中各种实现方式中的任意一种实现方式中的方法。

附图说明

图1是本申请实施例提供的一种动作识别系统的示意性结构图。

图2是是本申请实施例提供的一种动作识别系统所需AI模型的训练方法的示意性流程图。

图3是本申请实施例提供的一种动作识别系统所需的AI模型的训练方法的示意性流程图。

图4是本申请实施例提供的一种视频的动作识别方法的示意性流程图。

图5是本申请实施例提供的一种对目标的时空特征进行处理的示意性流程图。

图6是本申请实施例提供的一种电子装置的示意性结构图。

图7是本申请实施例提供的一种电子装置的硬件结构示意图。

具体实施方式

下面将结合附图，对本申请中的技术方案进行描述。

随着存储、计算成本的降低和视频采集设备的普及，视频的数量越来越多。例如，互联网视频平台上用户上传的视频、视频监控设备采集的视频。对视频中的目标进行动作识别具有广泛的应用场景，例如：园区安防领域中识别视频中人的行为动作有利于对人身和财产的保护，教育场景中对视频中的老师和学生行为的理解可以更好的保护未成年人、物流场景中对人操作货物的理解可以在人员错误操作时及时提供指导。

应理解，本申请中的视频中的目标表示视频中记录的可运动物体，例如：人、动物、车等。动作可以用于表示目标的全部或部分部位的活动，目标的部位的活动可以通过相对环境或其他部位的位置变化等体现。

除了目标之外，视频还可以包括至少一个背景区域。每个背景区域可以包括目标之外的全部或部分人、物体、景象等。

在一种视频的动作识别技术中，可以将视频输入至三维特征提取模型，提取该视频的时空特征。并将该视频中预设帧输入至位置检测模型，以识别该帧中的目标，并确定目标在视频中的位置信息。将目标的位置信息与视频的时空特征输入至特征分割模型。特征分割模型根据目标的位置信息，从视频的时空特征中分割出目标的时空特征。将目标的时空特征输入至分类模型，从而确定目标的动作类别。

上述三维特征提取模型、位置检测模型、特征分割模型、分类模型等模型可以是人工智能(artificial intelligence，AI)模型，例如，可以是神经网络模型。这些模型可以是经过预先经过训练得到的，具备对应的特定功能。

上述动作识别的方法仅根据视频的时空特征中目标的动作特征识别该目标的动作，没有充分考虑到目标和周围环境的关系，动作识别的准确度依然较低。

另一种视频动作识别技术，可以通过基于三维(3 dimensions，3D)卷积神经网络模型(3 dimensions convolutional neuron network，3D ConvNet，3D CNN，C3D)的三维特征提取模型，从输入的视频中提取视频的时空特征，根据该视频的时空特征，对视频中的动作进行分类。

进一步地，还可以提取视频中的光流信息。光流信息可以反映视频每个像素的整体运动情况。将光流信息与时空特征进行融合，根据融合后的结果对视频进行分类。

将该方案应用于对目标的动作的识别的情况下，该方案仅能够适用于视频中仅有一个目标的情况，对于多目标场景，无法准确理解每个目标的动作。

另外，不同的背景环境对于识别目标的动作的影响程度不同，如投篮、搬运或放置货物等动作，背景对于目标的动作识别有重要作用。即使在视频中仅存在一个目标的情况下，由于在视频动作识别技术中，如果仅根据视频的时空特征等反映视频整体特点的信息对其中的某个目标的动作进行识别，背景对动作识别的影响较大，一些动作的识别结果会受到背景的较大干扰。

为了解决上述问题，本申请实施例提供了一种视频的动作识别的方法。通过动作识别系统，对视频进行处理，确定周围环境对识别目标动作的影响的大小，从而根据周围环境对视频中的目标的动作进行识别，提高了动作识别的准确性。

本申请中的一种视频的动作识别方法可以由动作识别系统执行，在实现过程中，动作识别系统的功能可以通过硬件实现(例如：硬件服务器或者处理器中的硬件的集成逻辑电路)，或者可以通过软件形式完成，也可以通过软件、硬件结合的方式完成。

动作识别系统的功能可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等存储介质中。该存储介质位于存储器中，处理器读取存储器中的信息，结合其硬件实现动作识别系统的功能。

当动作识别系统为硬件实现时，动作识别系统可以是一个计算机系统，该计算机系统中包括至少一个计算机，计算机具体可以是移动终端(例如，智能手机)，服务器，电脑，个人数字助理，可穿戴设备，车载设备，物联网设备或者其他能够进行视频的动作识别的设备。在一些实施例中，计算机系统中的计算机可以分布式地实现动作识别系统的功能。

当动作识别识别系统为软件实现时，动作识别系统可以为一个集中式的软件系统，其运行在一台计算机上，以实现视频的动作识别功能；动作识别系统也可以为一个分布式的软件系统，其包括多个软件模块，各个软件模块可以分别运行在多台计算机上，以实现视频的动作识别功能。

图1是本申请实施例提供的一种动作识别系统100的示意性结构图。

动作识别系统100可以用于对视频片段进行处理，获得视频中的目标的动作类别。

动作识别系统100可以包括特征提取模块110、特征分割模块130、关系建立模块140、特征融合模块150、分类模块160等。

动作识别系统100中的特征提取模块110中可以包括一个用于进行特征提取的人工智能(artificial intelligence，AI)模型，称为特征提取模型，或者，特征提取模块110可以通过接口调用特征提取模型，以实现对输入的视频片段进行时空特征提取的功能。特征提取模型可以是预训练完成的一种神经网络模型，例如：特征提取模型可以是C3D、膨胀卷积神经网络(inflated 3D ConvNet，I3D)或3D残差网络(residual network，ResNet)等。

C3D主要运用在视频分类、动作识别等领域。在C3D中，卷积层中每一个特征图都会与上一层中多个邻近的连续帧相连，能够提取视频中时序信息。也就是说，使用C3D能够捕获视频中的时间和空间的特征信息，进行时空特征的提取。

I3D是对C3D进行优化得到的一种神经网络，也可以称为双流神经网络。在传统C3D的基础上，引入光流信息的提取。采用I3D对视频进行处理，C3D提取视频的时空特征与视频的光流信息进行融合，从而根据融合后的特征可以得到视频的类别。

ResNet有很多旁路的支线将输入直接连到后面的层，通过直接将输入信息绕道传到输出，保护信息的完整性。

通过特征提取模块110对输入的视频片段进行特征的提取，可以获得视频的时空特征。

在一些实施方式中，动作识别系统100还可以目标检测模块120。目标检测模块120中可以包括一个用于对视频中特定一帧或多帧的图像进行目标检测的AI模型，称为目标检测模型，或者，目标检测模块120可以通过接口调用目标检测模型，以实现对视频中特定一帧或多帧的图像进行目标检测的功能，从而可以确定图像中的每个目标的第一位置信息。目标的第一位置信息用于表示目标的在该帧图像中的位置。

目标检测模型可以是预训练完成的一种神经网络模型，例如，目标检测模型可以是目标检测网络(retina net)、区域卷积神经网络(region CNN，RCNN)、Faster R-CNN、Mask R-CNN等。

RCNN可以对图像进行处理，分析图像并识别主要的位置和类别。RCNN可以生成多个候选区域，对每个候选区域，使用深度网络提取特征，将每个候选区域提取的特征送入每一类的分类器判别是否属于该类，并根据分类器的判别结果修正候选框位置。

RCNN中对于每一个候选区域都进行特征提取。对于每个图像，存在候选区域相互重叠，会产生非常多的冗余计算。快速(fast)RCNN对RCNN进行了改进。Fast RCNN先对整张图像进行特征提取，再根据候选区域在相应的特征上进行划分得到对应区域的特征。FastRCNN可以实现共享计算，提高速度。

更快(faster)RCNN采用候选区域网络(region proposal networks，RPN)，通过在特征图谱上依次滑动窗口，并在每个窗口中输出k个可能的边界框和分值，来评估这些边界框包含的可能性，从而进行候选区域的生成和分类，从而提高运算速度。

分割输出(mask)RCNN通过向faster R-CNN添加一个分支来输出二进制mask，以说明给定像素是否是目标的一部分。Mask CNN采用像素级分割，具有边界框更细的粒度。

目标检测网络(retina net)在单阶段目标检测网络如RNN等的基础上，在原来的交叉熵损失函数前加上了权重系数，使得数量少的数据拥有了更大的影响力，而数量大的数据的影响力则被削弱。这样一来，能够提高少样正样本提供的关键信息在交叉熵损失函数中发挥的作用，通过候选区域包含潜在目标概率进而对最终的损失函数进行较正，从而有效地解决了此领域里面潜在的类别不平衡问题，提高了检测的准确性。

将一帧图像输入目标检测模型，可以获得该图像中的至少一个目标的在该帧图像中的位置。每个目标的第一位置信息用于指示该目标在该帧图像中的位置。

目标的位置可以用过矩形框或圆形框等形状表示。可以通过该帧图像中的坐标表示目标的位置。以矩形框为例，目标的第一位置信息可以是四维向量A(x,y,w,h)，其中，x、y分别表示矩形框对角线交叉点或矩形框某一个顶点例如左上角顶点的横坐标和纵坐标，w、h分别表示矩形框的宽和高。该矩形框也可以称为回归框。如果该帧图像中不存在目标，该四维向量的参数x、y、w、h均为“0”。或者，也可以通过左上角、右下角两个点坐标表示一个矩形框。

具体地，目标检测模型可以对该帧图像中的目标的整体进行识别，确定该目标的位置。也可以对该帧图像中的目标的全部或部分身体部位进行识别，以确定该目标的位置。

例如，可以对该帧图像中的每个人的头部、躯干、胳膊、腿进行识别，确定该帧图像中每个人的头部、躯干、胳膊、腿的中每个部位的所在区域的左上角和右下角的坐标，再根据每个人的每个部位所在区域的左上角和右下角的坐标，确定每个人所在区域的左上角和右下角的坐标。

每个目标的第一位置信息可以用于指示该目标的在该帧图像中的坐标和/或该目标的至少一个部位在该帧图像中的坐标。

在该帧图像中不存在目标的情况下，可以输出提醒信息，所述提醒信息用于指示无法对该视频进行处理。

在该帧图像中存在目标的情况下，可以使用其他模块进行后续处理。

目标检测模块120处理的视频中的一帧图像可以是该视频中预设帧的图像。例如，该视频包括N帧图像，N为大于1的正整数。该帧图像可以是该视频的第一帧图像、最后一帧图像、第

帧图像或第

帧图像等。其中，[x]为x的取整函数，表示不超过实数x的最大整数，即x的整数部分。

预设帧的确定方式是根据对动作识别系统100中的各个AI模型进行训练时的预设帧确定的。也就是说，对动作识别系统100中的模型进行训练时，如果选取的是视频中的第i帧图像，则在使用动作识别系统100进行视频从动作识别时，选取的也是第i帧图像。

目标检测模块120通过对视频中的一帧或多帧图像进行检测，精度更高，但是目标检测模块120所需的目标检测模型在用于本申请的动作识别之前，需要对初始目标检测模型进行训练，参见图3的说明。

特征分割模块130中可以包括用于进行特征分割的AI模型，称为特征分割模型，或者，特征分割模块130可以通过接口调用特征提取模型，以实现对输入的视频的时空特征进行分割的功能。特征分割模型可以根据至少一个目标的第一位置信息，对视频的时空特征进行分割，以得到该至少一个目标的时空特征以及目标之外的背景区域的时空特征。

特征分割模型可以是预训练完成的一种神经网络模型，例如，可以是兴趣区域(region of interest，ROI)池化层(pooling)或兴趣区域对齐层(RoI Align)等。

ROI pooling是池化层的一种，用于对兴趣区域进行运算。ROI pooling用于对特征图和位置信息进行处理，以得到至少一个兴趣区域的特征。该位置信息用于指示特征图对应的图像中的至少一个兴趣区域的位置。输入ROI pooling的特征图尺寸不固定，但是输出ROI pooling的特征图尺寸固定。

与ROI pooling类似，ROI Align用于对特征图和位置信息进行处理，以得到至少一个兴趣区域的特征。输入ROI Align的特征图尺寸不固定，输出ROI Align的特征图尺寸固定。

ROI pooling对兴趣区域的特征图通过两次量化，对浮点数取整，以得到固定尺寸的输出特征图中每一位的数值。ROI Align对兴趣区域的特征图采用双线性插值法进行计算，以得到固定尺寸的输出特征图中每一位的数值。

在目标检测模块120对多帧图像中每一帧图像中的目标进行检测之后，可以将视频的时空特征和目标检测模块120对每一帧图像输出的第一位置信息输入特征分割模块130，以获得该帧图像的至少一个目标的时空特征。可以通过取并集的方式，将该多帧图像中每一帧图像确定的目标的时空特征组合在一起，即保留所有不同的目标对应的时空特征，从而确定了该多帧图像中的至少一个目标的时空特征。

对于多帧图像中每一帧图像中的目标的第一位置信息，也可以依次或按照特定位置输入特征分割模块130，从而确定至少一个目标的时空特征。

在多帧图像中包括相同的目标时，由于存在误差，根据该相同的目标在不同帧的位置信息确定的该目标的时空特征可能不完全相同。如何根据不同的帧的图像得到的该目标的时空特征，最终确定该目标的时空特征，对最终动作类别的识别结果的准确性影响较大，并且计算复杂。为了降低计算量，提高识别准确性，动作识别系统100可以仅对视频中一帧图像中的目标进行第一位置信息的检测。

在另一些实施方式中，特征分割模块130可以对特征提取模块110输出的视频的时空特征进行处理，以确定该视频的时空特征中的至少一个目标的时空特征。

特征分割模块130中可以包括特征分割模型，或者，可以通过接口调用特征分割模型。特征提取模块110输出的视频的时空特征中，目标的时空特征的数值在一定范围之内。根据目标的时空特征的数值范围，特征分割模型可以在视频的时空特征中识别出至少一个目标的时空特征。特征分割模型可以根据视频的时空特征进行目标的时空特征的检测和识别，从视频的时空特征中确定至少一个目标的时空特征。

特征分割模型可以是预训练完成的一种神经网络模型，例如可以是3D区域候选网络(region proposal network，RPN)。3D候选区域网络(region proposal networks，RPN)可以用于对特征提取模块110提取的时空特征进行目标检测。

RPN通过在特征图谱上依次滑动窗口，并在每个窗口中输出k个可能的边界框和分值，来评估这些边界框包含的可能性，从而进行候选区域的生成和分类，从而提高运算速度。

在一些实施例中，动作识别系统100也可以不包括目标检测模块120。与动作识别系统100包括目标检测模块120的情况相比，当动作识别系统100不包括目标检测模块120时，特征分割模块130可以根据输入的视频的时空特征确定目标的时空特征，从将视频输入动作识别系统到获取目标的时空特征使用的神经网络模型数量更少，需要的时间更短，速度更快，并可以实现动作识别系统100的端到端训练。

上述两种实施方式中的特征分割模块130，还可以输出至少一个背景区域的时空特征。

在视频的时空特征中，除至少一个目标的时空特征之外，可以包括至少一个背景区域的时空特征。特征分割模块130还可以用于对视频的时空特征中目标的时空特征之外的区域进行分割。

至少一个背景区域的时空特征可以包括视频的时空特征中该至少一个目标的时空特征之外的全部或部分时空特征。背景区域的时空特征之间可以完全不同，也可以包括相同的部分。

特征分割模块130可以对视频的时空特征中，该至少一个目标的时空特征之外的时空特征进行分割，从而确定多个背景区域的时空特征。例如，可以将视频的时空特征的特征图的每个边进行n等分，按照n×n的方式进行分割，从而得到n²个区域。将该n²个区域的时空特征中的每个区域的时空特征可能包括或不包括该至少一个目标的时空特征之外的时空特征，n为大于1的正整数。每个包括至少一个目标的时空特征之外的时空特征的区域的时空特征即为一个背景区域的时空特征。

特征分割模块130还可以输出该至少一个目标的时空特征和至少一个背景区域的时空特征中每个时空特征的第二位置信息，第二位置信息用于表示每个目标或背景区域的时空特征在视频的时空特征中的位置。

可选地，动作识别系统100还可以包括位置融合模块。位置融合模块可以包括一个用于进行将第二位置信息和该第二位置信息对应的目标的时空特征或背景区域的时空特征进行融合的AI模型，称为位置融合模型，或者，位置融合模块可以通过接口调用位置融合模型，以实现第二位置信息和该第二位置信息对应的时空特征的融合。第二位置信息用于表示一个目标的时空特征或背景区域的时空特征在视频的时空特征中的位置。位置融合模型可以是预训练完成的一种神经网络模型，例如可以是C3D等。

也就是说，位置融合模块可以对至少一个目标的时空特征以及背景区域的时空特征进行位置编码。将目标或背景区域的时空特征，以及该目标或背景区域的时空特征的第二位置信息输入位置融合模块，可以获得融合后的时空特征。

对每个目标的时空特征进行位置编码，可以是指确定该目标的时空特征在视频的时空特征中的第二位置信息，并将该第二位置信息与该目标的时空特征进行融合。类似的，对每个背景区域的时空特征进行位置编码，可以是指确定该背景区域的时空特征在视频的时空特征中的第二位置信息，并将该第二位置信息与该背景区域的时空特征进行融合。

第二位置信息可以是通过对每个目标或背景区域的时空特征在视频的时空特征中的坐标进行计算得到的。视频的时空特征中的多个位(bit)可以与时间一一对应。可以采用函数f(t，x，y)对每个目标的时空特征中每个位对应的时间坐标值t和空间坐标(x，y)进行计算。根据该目标的时空特征的每个位的f(t，x，y)计算值，确定该每个目标对应的第二位置信息。第二位置信息可以包括该目标的时空特征的每个位的f(t，x，y)计算值。函数f(t，x，y)可以通过多层卷积神经网络实现，或者，函数f(t，x，y)也可以是一个固定的函数，如正弦函数(sin)或余弦函数(cos)等。时间坐标值t和空间坐标值x、y可以均为归一化至[0，1]范围之内的值。

或者，也可以通过一个或多个卷积层，根据目标或背景区域的时空特征在视频的时空特征中的位置，确定目标或背景区域的第二位置信息。

融合的方式可以有多种。

组合(combine)是一种融合的方式。采用combine的方式进行融合，可以将待融合的特征直接相加，或者加权相加。加权相加，即乘以一定系数即权重值之后相加。也就是说，采用combine的方式，可以将通道维度(channel wise)进行线性组合。

以一个目标的时空特征进行位置编码为例进行说明。可以将该目标的时空特征以及该目标的时空特征对应的第二位置信息相加，例如，可以将该目标的时空特征以及该第二位置信息直接相加，也可以将目标的时空特征以及该第二位置信息按照一定权重相加。T1和T2分别表示该目标的时空特征和该第二位置信息，可以用T3表示融合得到的融合特征，T3＝a×T1+b×T2，其中，a和b分别为计算T3时T1和T2乘的系数，即权重值，a≠0，且b≠0。

级联(concatenate)和通道融合(channel fusion)是另一种融合的方式。采用级联和通道融合(concatenate&channel fusion)的方式，可以将待融合的特征的维数直接拼接，或者乘以一定系数即权重值之后进行拼接。

动作识别系统100还可以包括尺寸放缩模块。尺寸放缩模块可以是特征分割模块130的一部分，或者，也可以是特征分割模块130之外的一个模块。尺寸放缩模块包括一个用于对目标的时空特征的尺寸进行放缩的尺寸放缩模型，或者，通过接口调用尺寸放缩模型，从而对目标的时空特征的尺寸进行放缩。例如，尺寸放缩模型可以是预训练完成的一种神经网络模型，例如可以是ROI pooling或ROI Align等。

每个目标的时空特征的尺寸可能不同。在将每个目标的时空特征与该目标对应的第二位置信息进行融合之前，可以将每个目标的时空特征放缩至相同的尺寸，该相同的尺寸可以是预设值，也可以是检测得到的至少一个目标中某个目标对应的时空特征的尺寸。

应当理解，对目标的时空特征的尺寸进行放缩可以在对该目标进行位置编码之前或之后进行。

当采用ROI pooling或ROI Align等作为特征分割模型，对视频的时空特征进行分割时，可以对已经进行尺寸放缩的目标的时空特征进行位置编码。

当采用RPN作为特征分割模型时，可以通过尺寸放缩模型对目标的时空特征进行放缩，之后，通过位置编码模块对尺寸放缩得到的该目标调整后的时空特征进行位置编码。或者，也可以先利用位置编码模块进行位置编码，之后利用尺寸放缩模型对位置编码得到的该目标调整后的时空特征进行尺寸放缩。

将每个目标的时空特征的尺寸放缩至相同的尺寸，有利于减小关系建立模块140进行计算和处理的难度。

关系建立模块140用于确定背景区域的影响值。背景区域的影响值用于表示该背景区域的时空特征对识别目标的动作类别的影响的大小。关系建立模块140可以包括一个用于确定背景区域的影响值的AI模型，称为关系建立模型，或者，关系建立模块140可以通过接口调用关系建立模型，以确定背景区域的影响值。关系建立模型可以是预训练完成的一种神经网络模型，例如可以是C3D、I3D或3D ResNet等。

将背景区域的时空特征和目标的时空特征输入关系建立模块140，可以获得该背景区域的影响值，该背景区域的影响值用于指示该背景区域的时空特征对识别目标的动作类别的影响的大小，或者说，表示一个背景区域的时空特征对识别目标动作的重要性。

影响值可以包括一位(bit)或多位。

可以使用关系建立模块140，对至少一个背景区域的时空特征和目标的时空特征进行处理，以得到每个背景区域的影响值。

影响值例如可以通过权重值或权重特征表示。

作为一种实现方式，影响值可以通过权重特征表示。可以利用关系建立模块140，根据目标的时空特征以及多个背景区域的时空特征，确定每个背景区域的权重特征。每个权重特征中的位可以与该权重特征对应的背景区域的时空特征的位一一对应。权重特征中的每一位的值相同。也就是说，每个背景区域的时空特征对应于一个权重值。

特征分割模块130将视频的时空特征中目标之外的时空特征分割为多个背景区域的时空特征，可以使得影响值的颗粒度更加精细化，从而使得动作识别系统100的准确性更高。

输入关系建立模块140的目标的时空特征，可以是经过尺寸放缩和/或位置编码之后得到的该目标调整后的时空特征。

应当理解，对于一个目标的时空特征，其他每个目标的时空特征可以作为一个背景区域的时空特征，从而使得动作识别系统100的准确性更高。

经过位置融合模块的处理，使得调整后的目标的时空特征中包括与该目标的时空特征在视频的时空特征中的第二位置信息相关的信息，调整后的背景区域的时空特征包括该背景区域的时空特征在视频的时空特征中的第二位置信息相关的信息，从而使得影响值更加准确，动作识别系统100的准确性更高。

特征融合模块150用于对至少一个背景区域的时空特征、每个背景区域的影响值、目标的时空特征进行处理，以确定目标的动作特征。特征融合模块150可以包括用于进行特征融合的AI模型，称为特征融合模型，或者，特征融合模块150可以通过接口调用特征融合模型，以实现特征融合的功能。特征融合模型可以是预训练完成的一种神经网络模型，例如特征融合模型可以是C3D、I3D或3D ResNet等。

一种实现方式，特征融合模块150可以将每个背景区域的影响值与背景区域的时空特征进行融合，之后，再与目标的时空特征进行融合，以得到目标的动作特征。

另一种实现方式，影响值是权重的情况，特征融合模型可以将每个权重特征与该权重对应的背景区域的时空特征相乘，以得到每个背景区域调整后的时空特征。之后，将至少一个背景区域调整后的时空特征与目标的时空特征进行融合，以得到目标的动作特征。

每个背景区域的权重例如可以通过权重特征表示。可以将每个权重特征与该权重特征对应的背景区域的时空特征输入第一特征融合模型，以得到背景区域的背景区域特征。第一特征融合模型对该权重特征与该权重特征对应的背景区域的时空特征进行点乘。

示例性地，可以将每个权重特征与该权重特征对应的背景区域的时空特征进行点乘，以得到每个背景区域的背景区域特征。

可以将多个背景区域特征与目标的时空特征输入第二特征融合模型，以得到目标的动作特征。

示例性地，可以将至少一个背景区域调整后的时空特征与目标的时空特征进行级联和通道融合，形成动作特征图。每个背景区域调整后的时空特征在动作特征图中的位置与该背景区域的时空特征在视频的时空特征中的位置相同。

特征融合模型包括上述第一特征融合模型和上述第二特征融合模型。

分类模块160，用于根据目标的动作特征，确定该目标的动作类别。分类模块160中可以包括用于对特征进行特征分类的AI模型，称为分类模型，或者，分类模块160可以通过接口调用分类模型，以实现对对特征的分类。分类模型可以是预训练完成的一种神经网络模型。分类模型可以将每个目标的动作特征输入分类模型，以得到该目标的动作类别。分类模型也可以称为分类器，例如可以是C3D、I3D或3D ResNet等。

如果特征分割模块130输出了多个目标的时空特征，对该多个目标中的每个目标利用关系建立模块140、特征融合模块150、分类模块160进行处理，从而可以确定每个目标的动作类别。

动作识别系统100在动作识别过程中考虑了背景的时空特征确定背景对识别目标的动作类别的影响大小，从而提高了对目标的动作识别的准确性。

为了进一步提高动作识别的准确性，动作识别系统100还可以包括注意力模块。注意力模块中可以包括用于确定目标不同部位的影响值的AI模型，称为注意力模型，或者，注意力模块可以通过接口调用注意力模型，以确定目标不同部位的影响值。注意力模型可以是预训练完成的一种神经网络模型，例如可以是一层或多层卷积层、非本地块(non localblock)等。

注意力模型可以采用注意力机制。注意力机制模仿了生物观察行为的内部过程，即一种将内部经验和外部感觉对齐从而增加部分区域的观察精细度的机制，能够利用有限的注意力资源从大量信息中快速筛选出高价值信息。注意力机制可以快速提取稀疏数据的重要特征，因而被广泛用于自然语言处理等任务，特别是机器翻译。而自注意力机制(self-attention mechanism)是注意力机制的改进，其减少了对外部信息的依赖，更擅长捕捉数据或特征的内部相关性。

注意力模块用于对目标的时空特征进行处理，以确定目标的不同部位的影响值。每个部位的影响值用于指示该部位的时空特征对识别目标的动作类别的影响大小。影响值可以包括一位或多位。

例如，各个部位的影响值可以通过部位影响矩阵表示。部位影响矩阵中的一位(bit)或多位可以表示目标的时空特征中某个部位对识别目标的动作类别的影响大小。或者，影响矩阵中的一位或多位可以与目标的时空特征中的一位对应，表示目标的时空特征中该位对识别目标的动作类别的影响大小。

可选地，注意力模块还可以用于根据不同部位的影响值对目标的时空特征进行调整，以得到该目标调整后的时空特征。将目标的时空特征输入注意力模块，注意力模块可以输出该目标调整后的时空特征，即包括影响值的目标的时空特征。

示例性地，目标的注意力时空特征可以是注意力模型将不同部位的影响值与部位的时空特征进行级联和通道融合，从而得到包含影响值的目标的时空特征。目标的一些重点部位对动作识别影响较大，包含影响值的目标的时空特征能够在后续处理过程中提高对重点部位的注意力。

示例性地，不同部位的影响值也可以表示为该部位的权重。也就是说，注意力模型目标对目标的时空特征进行处理，输出包含重点部位注意力的目标的时空特征。包含重点部位注意力的目标的时空特征可以是对输入的目标的时空特征中不同部位的时空特征的权重进行调整得到的。

特征融合模块150可以对包含重点部位注意力的目标的时空特征、至少一个背景区域的时空特征、以及每个背景区域的影响值进行处理，以得到目标的动作特征。

应当理解，注意力模型也可以仅输出目标的各个部位的影响值，由特征融合模型150对目标的各个部位的影响值、目标的时空特征、至少一个背景区域的时空特征、以及每个背景区域的影响值进行处理，以得到目标的动作特征。

应当理解，注意力模块对目标的部位的划分与目标检测模块120对目标的部位的划分可以相同或不同。

由上述描述可知，本申请中的动作识别系统100执行视频的动作识别需要用到多种具备不同功能的AI模型，这些AI模型是在用于动作识别系统110进行视频的动作识别之前经过训练的AI模型。由上文可知，这些AI模型可以根据各自具备的功能命名，由于这些AI模型被训练后是共同用于视频的动作识别的，在对这些AI模型进行训练时，可以在同一个训练流程中，训练多个AI模型。在具体介绍本申请的视频的动作识别方法之前，先介绍本申请的训练动作识别系统所需的AI模型的方法。

在一些实施例，动作识别系统不需要使用的目标检测模型，可以采用端到端的方式，完成对动作识别系统所需的AI模型的训练。

图2所述的对动作识别系统所需的AI模型的训练方法，适用于不依赖于目标检测模型的情况下动作识别系统所需的所有AI模型的训练。特征分割模型根据视频的时空特征确定目标的时空特征和背景区域的时空特征。

图2是本申请实施例提供的一种动作识别系统所需AI模型的训练方法的示意性流程图。图2所示的方法可以由计算机设备、服务器设备或者运算设备等运算能力较强的设备来执行。图2所示的方法包括步骤S210至S240，下面分别对这几个步骤进行详细的介绍。

在步骤S210，获取训练数据集，训练数据集中包括多个训练视频和每个训练视频对应的至少一个标注类别。

训练视频可以包括连续的多帧图像。

训练视频包括至少一个训练目标，该训练目标可以为人或者物。

该至少一个训练目标与至少一个标注类别一一对应。上述标注类别用于指示训练视频中的一个训练目标的动作类别。

在步骤S220，输入训练数据集中的部分训练视频至初始动作识别系统，初始动作识别系统所需的初始AI模型对训练视频进行处理，以得到每个训练目标的训练类别。

初始动作识别系统可以包括前述多个AI模型，只不过每个AI模型中的参数都是待训练的参数。

在步骤S230，根据至少一个训练类别和至少一个标注类别，调整初始AI模型的参数，以最小化目标的训练类别和目标的标注类别的差异。

具体地，可以进行步骤S231至步骤S232。

在步骤S231，根据目标训练类别和至少一个标注类别中目标标注类别，确定动作识别系统的损失值。

动作识别系统的损失值L可以表示为：

其中，N_Y表示动作类别数量，即动作识别系统输出的类别的数量；

表示目标的标注类别，

通过one-hot编码表示，

包括N_Y位，

用于表示其中的一位，

p_t表示训练视频的目标的训练类别，p_t通过one-hot编码表示，p_t包括N_Y位，

表示其中的一位，

在步骤S232，根据该损失值对动作识别系统的AI模型通过反向传播进行调整。

在步骤S240，使用调整后的参数值返回继续执行步骤S220和步骤S230直到得到的损失值逐渐收敛，即得到动作识别系统中的训练完成的AI模型。

在对上述动作识别系统所需的AI模型进行训练的过程中，可以为初始动作识别系统的初始AI模型设置一套初始的模型参数，然后根据训练类别与标注类别的差异来逐渐调整初始动作识别系统的初始AI模型的模型参数，直到训练类别与标注类别之间的差异在一定的预设范围内，或者，当训练的次数达到预设次数时，将此时的初始动作识别系统中初始AI模型的模型参数确定为该动作识别系统所需的AI模型最终的参数，这样就完成了对初始动作识别系统的初始AI模型的训练了。

通过步骤S210至步骤S240，可以对动作识别系统进行训练。训练后的动作识别系统可以用于执行图4、图5所述的方法。

在另一些实施例，动作识别系统需使用的目标检测模型可以预先单独被训练完成，可以根据训练完成的目标检测模型再训练动作识别系统所需的其他AI模型。

图3所述的动作识别系统所需的AI模型的训练方法，适用于动作识别系统包括目标检测模型，特征分割模型用于对第一位置信息和视频的时空特征进行处理，以确定目标的时空特征和背景区域的时空特征的情形。

在步骤S310，训练目标检测模型。

具体地，步骤S310可以包括步骤S321至步骤S324。

在步骤S311，获取第一训练数据集，第一训练数据集包括多个训练图像和每个训练图像对应的至少一个标注位置信息。训练图像包括至少一个目标，该至少一个目标与该至少一个位置信息一一对应。每个标注位置信息用于指示一个目标在训练图像中的位置。

在步骤S312，输入第一训练数据集中的部分训练图像至初始目标检测模型，初始目标检测模型对训练图像进行处理，以得到至少一个训练位置信息。

在步骤S313，根据至少一个训练位置信息和至少一个标注位置信息之间的误差，调整初始目标检测模型的参数，以最小化该误差。

在步骤S314，使用调整后的参数值返回继续执行步骤S312和步骤S313直到得到的误差逐渐收敛，即得到训练完成的的目标检测模型。

在步骤S320，基于训练完成的目标检测模型，训练动作识别系统所需的其他AI模型。

具体地，步骤S320可以包括步骤S321至步骤S325。

在步骤S321，获取第二训练数据集，第二训练数据集包括多个训练视频和每个训练视频对应的至少一个标注动作类别。训练视频包括至少一个目标，该至少一个目标与该至少一个标注动作类别一一对应。每个标注动作类别用于指示一个目标的动作。

在步骤S322，利用前述训练完成的目标检测模型对训练视频中预设帧的图像进行处理，以得到至少一个目标的第一位置信息。每个目标的第一位置信息用于指示该目标在预设帧的图像中的位置。

在步骤S323，利用动作识别系统中的其他初始AI模型对训练视频和该至少一个第一位置信息进行处理，以得到至少一个目标的训练动作类别，每个目标的训练动作类别用于指示该目标的动作。

在步骤S324，根据至少一个目标的训练动作类别和至少一个标注动作类别之间的误差，调整动作识别系统中的其他初始AI模型的参数，以最小化该误差。

在步骤S325，使用调整后的参数值返回执行步骤S322至步骤S325直到得到的误差逐渐收敛，即得到动作识别系统中训练完成的其他AI模型。

应当理解，为了减少训练的时间，也可以获取第三方已训练好的目标检测模型。即，可以通过下载等方式，获取训练后的目标检测模型，仅进行步骤S320，从而完成对动作识别系统中的其他AI模型的训练。

图4是本申请实施例提供的一种视频的动作识别方法的示意性流程图。图4所示的方法可以由动作识别系统执行，动作识别系统在执行动作识别的方法时会使用根据前述图2或图3所示的方法得到的已训练的AI模型。

视频可以是需要进行动作识别处理的视频。当图4所示的方法由电子设备执行时，该视频可以是电子设备通过摄像头拍摄到的视频，或者，该视频也可以是从电子设备内部获得的视频(例如，电子设备存储的视频)。

在步骤S801，对视频进行特征提取，以获取视频的时空特征。所述视频可以包括至少一个目标。

步骤S801可以由训练完成的特征提取模型执行。将视频输入训练完成的特征提取模型，特征提取模型对输入的视频进行处理，可以获得视频的时空特征。

视频的时空特征可以表示视频中的时间和空间的特征，视频的时空特征可以表示成至少一个矩阵，矩阵中的数值分别用于表示视频的某个部分的特征。

在步骤S802，根据所述视频的时空特征确定目标的时空特征和至少一个背景区域的时空特征。

视频中目标的时空特征的确定，可以通过多种方式进行。

可选地，可以根据目标的时空特征的范围等，从视频的时空特征中确定至少一个目标的时空特征。

可以利用训练完成的特征分割模型，确定至少一个目标的时空特征。将视频的时空特征输入特征分割模型，特征分割模型对输入的视频的时空特征进行处理，可以确定目标的时空特征。

可选地，可以对所述视频中的预设帧的图像进行检测和识别，以确定至少一个目标的第一位置信息，每个目标的第一位置信息用于指示该目标在所述图像中的位置。

可以利用训练完成的目标检测模型和特征分割模型，确定至少一个目标的时空特征。将视频中预设帧的图像输入目标检测模型，目标检测模型对输入的图像进行处理，可以获得该图像中至少一个目标的第一位置信息。将目标的第一位置信息和视频的时空特征输入特征分割模型，特征分割模型对输入的目标的第一位置信息和视频的时空特征进行处理，可以获得该目标的时空特征。

用于检测的预设帧的图像，例如可以是第一帧图像，最后一帧图像，第

帧图像、第

帧图像或第

帧图像等。N为图像的帧数。

可以根据至少一个目标的第一位置信息和视频的时空特征，确定该至少一个目标的时空特征。

预设帧的图像可以是一帧或多帧图像。可以对所述视频中的预设的多帧图像进行识别，该预设的多帧图像中的一帧或多帧图像包括目标。

当预设的多帧图像中仅有一帧图像包括目标时，对所述该预设的多帧图像进行识别和检测，以确定包括目标的一帧图像中的至少一个目标的第一位置信息。根据至少一个目标的第一位置信息，从视频的时空特征中确定所述至少一个目标的时空特征。

当多帧图像包括目标时，对于预设的多帧图像进行识别和检测，以确定每帧图像中的至少一个目标的第一位置信息。对于每个目标，根据每帧图像中该目标的第一位置信息，确定每帧图像分别对应的该目标的一个时空特征。对多帧图像分别对应的该目标的多个时空特征进行处理，从而确定该目标的时空特征。

该目标的时空特征可以与根据某一帧图像确定的该目标的时空特征相同。即，可以将其中根据某一帧图像确定的目标的时空特征作为该目标的时空特征，不考虑根据其他帧确定的目标的时空特征。也可以将根据多帧图像确定的目标的多个时空特征进行取并集或其他的方式进行处理。最终确定的该目标的时空特征也可以与根据该多帧图像确定的该目标的多个时空特征均不同。

特征分割模型还可以用于确定至少一个背景区域的时空特征。对于至少一个目标中的一个目标，可以将视频的时空特征中，该目标的时空特征之外的全部或部分时空特征划分为至少一个背景区域的时空特征。背景区域的时空特征之间可以完全不同，也可以包括相同的部分，即可以部分重合或完全不重合。

示例性地，可以对至少一个目标之外的视频时空特征进行分割。通过将背景的时空特征划分为多个背景区域的时空特征，可以减小计算权重的颗粒度，降低复杂背景对视频识别的影响，提高视频识别的准确性。

视频时空特征可以是特征图或特征矩阵的形式。例如，可以对特征图的一个或多个边进行等分，或者对特征矩阵的一个或多个维度进行等分，从而对视频时空特征进行分割，分割后的每个部分为一个背景区域的时空特征。也会是说，可以将视频的时空特征的特征图的每个边进行n等分，按照n×n的方式进行分割，从而得到n²个区域。将该n²个区域的时空特征中的每个区域的时空特征可能包括或不包括该至少一个目标的时空特征之外的时空特征，n为大于1的正整数。

优选地，当视频中包括多个目标时，对于某个目标，至少一个背景区域的时空特征中的一个时空特征可以是其他目标中一个目标的时空特征，即其他每个目标的时空特征可以作为该目标的背景区域的时空特征。

进一步地，可以对至少一个目标的时空特征之外的视频的时空特征的每个维度进行等分，以确定至少一个背景区域的时空特征。

在进行步骤S803之前，可以对目标的时空特征和背景区域的时空特征进行处理，参见图5的说明。

在步骤S803，根据所述目标的时空特征，确定每个背景区域的影响值。

步骤S803可以由训练完成的关系建立模型执行。将目标的时空特征和至少一个背景区域的时空特征输入训练完成的关系建立模型，关系建立模型对输入的时空特征进行处理，可以获得每个背景区域的影响值。

关系建立模型用于计算所述目标与所述每个背景区域之间的关联关系，并根据所述关联关系获得所述每个背景区域对识别所述目标的动作类别的影响值。计算所述目标与所述每个背景区域之间的关联关系，即确定背景区域的时空特征与目标的时空特征之间的相关度。相关度也可以称为关联度，即表示两者关系的紧密程度。

背景区域的影响值用于指示该背景区域的时空特征对识别目标的动作类别的影响大小。

影响值可以用包括一位或多位(bit)，每个位的值可以相同或不同。

影响值也可以是权重。

可以根据目标的时空特征，确定每个背景区域的时空特征的权重。

在步骤S804，根据至少一个背景区域的时空特征、所述至少一个背景区域的影响值和目标的时空特征，确定目标的动作特征。

如果影响值包括一位或多位，该多位数值可以相同或不同的多个位，可以将每个背景区域的时空特征与对应的该背景区域的影响值进行融合，再将至少一个背景区域融合后的时空特征与目标的时空特征进行融合，从而得到目标的动作特征。

例如，可以通过级联和通道融合的方式，将每个背景区域的时空特征与对应的该背景区域的影响值进行拼接，从而获得调整后的背景区域的时空特征。影响值可以包括一位或多位。

如果影响值为权重，可以将每个背景区域的时空特征与所述背景区域的时空特征的权重进行乘积计算，获得背景区域的调整后的时空特征，将背景区域的调整后的时空特征与所述目标的时空特征进行融合，以得到所述目标的动作特征。

具体地，背景区域的影响值还可以通过权重矩阵表示。权重矩阵中的位与至少一个背景区域的时空特征中的位一一对应。可以将权重矩阵与背景区域的时空特征进行点乘，从而可以得到背景区域的调整后的时空特征。

在步骤S805，根据所述目标的动作特征，识别所述目标的动作类别。

通过步骤S801至步骤S805，通过确定背景区域的影响值，考虑了目标的动作或行为与背景之间的交互，从而能够提高视频的动作识别的准确性。

当视频中包括多个目标，对其中一个目标进行动作识别时，可以将其他的目标的时空特征作为一个背景区域的时空特征。通过确定其他目标的时空特征的影响值，考虑了该多个目标之间动作或行为的交互，能够进一步提高视频的动作识别的准确性。

图5是对目标的时空特征进行处理的示意性流程图。

在步骤S501，对目标的时空特征进行尺寸调整，以使得调整后的目标的时空特征的尺寸为预设尺寸。

步骤S501可以由训练完成的尺寸放缩模型执行。将目标的时空特征输入尺寸放缩模型，尺寸放缩模型对输入的目标的时空特征进行处理，获得该目标调整后的时空特征。该目标调整后的时空特征的尺寸为预设尺寸。

可以通过浮点数取整或线性插值的方式，将目标的时空特征的尺寸调整至预设尺寸。

通过对目标的时空特征的尺寸的调整，可以减小后续步骤S803中确定背景区域的影响值的计算量。

当目标为视频中的目标为多个时，将多个目标的时空特征的尺寸调整至预设尺寸，当其中的一个目标的时空特征作为另一个目标的背景区域的时空特征时，能够提高影响值计算的准确性，从而提供动作识别的准确性。

在步骤S502，确定目标的时空特征对应的部位影响矩阵，所述部位影响矩阵用于表示所述目标的不同部位对识别所述目标的动作类别的影响大小，并根据部位的影响矩阵调整目标的时空特征。

或者，部位影响矩阵也可以通过权重矩阵表示。

可以采用注意力机制，根据对所述目标的时空特征中所述目标不同部位的时空特征的权重进行调整，以得到所述目标包括注意力的时空特征。

在考虑背景区域与目标的交互时，考虑到目标的不同部位对动作识别的重要性，即注意到目标的具体部位和背景区域的交互，能够提高动作识别的准确性。,

应当理解，如果视频中包括多个目标，当确定某个目标的动作类别，且至少一个背景区域的时空特征中的第j背景区域的时空特征包括一个其他目标的时空特征时，也可以采用注意力机制，对第j背景区域的时空特征中该其他目标的不同部位的时空特征的权重进行调整，以得到第j背景区域包括注意力的调整后的时空特征。

考虑背景区域中其他目标的不同部位对动作识别的重要性，可以进一步提高该目标动作识别的准确性。

步骤S501和步骤S502可以仅对进行步骤S803的目标的时空特征进行，也可以对视频中的全部或部分目标的时空特征进行。

在步骤S503，将目标的时空特征与目标的第二位置信息进行融合，将背景区域的时空特征与背景区域的第二位置信息进行融合。

步骤S503可以由位置编码模型执行。将目标或背景区域的时空特征，以及该目标或背景区域的第二位置信息输入位置编码模型，位置编码模型对输入的第二位置信息以及第二位置信息对应的目标或背景区域的时空特征进行融合，可以获得调整后的该目标或背景区域的时空特征。

目标的第二位置信息用于指示目标的时空特征在视频的时空特征中的位置。背景区域的第二位置信息用于指示背景区域的时空特征在视频的时空特征中的位置。

每个目标或背景区域在视频的时空特征中的位置，可以反映该目标或背景在视频中位置的变化。考虑目标和背景区域在视频时空特征中的位置，可以提高动作识别的准确性。

在确定背景区域的时空特征时，可以确定背景区域的时空特征在视频时空特征中的位置，通过背景区域的第二位置信息表示。在确定目标的时空特征时，可以确定目标的第二位置信息，目标的第二位置信息用于表示目标的时空特征在视频时空特征中的位置。

也就是说，可以确定所述目标的时空特征在所述视频时空特征中的第二位置信息，以及每个背景区域的时空特征在所述视频时空特征中的第二位置信息，所述目标的第二位置信息用于指示所述目标的时空特征在所述视频时空特征中的位置，每个背景区域的时空特征用于指示所述背景区域的时空特征在所述视频时空特征中的位置。

可以将目标的时空特征与该目标的第二位置信息进行融合，以得到该目标融合后的时空特征。

可以将每个所述背景区域的时空特征与该背景区域的第二位置信息进行融合，以得到该背景区域融合后的时空特征。

通过理解目标与背景区域的位置信息之间的关系，能够提高对目标的动作识别的准确性。

应当理解，在步骤S803之前，可以进行步骤S501至步骤S503中的一步或多步。本申请实施例对步骤S501至步骤S503进行的前后顺序不做限制，例如，步骤S502可以在步骤S503之前或之后进行。

在步骤S803，可以对通过步骤S501至步骤S503中一步或多步之后得到的目标的时空特征和/或背景区域的时空特征进行处理。

上文结合图1至图5的描述了本申请实施例提供的动作识别系统、动作识别系统所需的AI模型的训练方法以及视频的动作识别方法，下面结合图6至图7，描述本申请实施例的装置实施例。应理解，动作识别系统、动作识别系统所需的AI模型的训练方法以及视频的动作识别方法的描述与装置实施例的描述相互对应，因此，未详细描述的部分可以参见上文的描述。

图6是本申请实施例提供的一种视频的动作识别装置的示意性结构图。视频的动作识别装置600也可以称为电子装置或电子设备等。

视频的动作识别装置600可以通过软件、硬件或者两者的结合实现动作识别系统100的部分或全部功能。装置600可以用于实现本申请实施例图4所述的流程。装置600还可以用于实现本申请实施例图5所述的流程。

装置600包括确定单元610、识别单元620。

确定单元610用于，根据视频确定所述视频中的目标的时空特征和至少一个背景区域的时空特征。其中，所述视频包括所述目标和所述至少一个背景区域。

确定单元610还用于，根据所述目标的时空特征，确定所述至少一个背景区域中的每个所述背景区域的影响值，其中，所述背景区域的影响值用于指示所述背景区域的时空特征对识别所述目标的动作类别的影响大小。

确定单元610还用于，根据所述至少一个背景区域的时空特征、每个所述至少一个背景区域的影响值和所述目标的时空特征，确定所述目标的动作特征。

识别单元620用于，根据所述目标的动作特征，识别所述目标的动作类别。

可选地，确定单元620用于，输入所述目标的时空特征和所述每个背景区域的时空特征至关系建立模型，根据所述关系建立模型获得所述每个背景区域的影响值，其中，所述关系建立模型为已训练完成的人工智能AI模型，所述关系建立模型用于计算所述目标与所述每个背景区域之间的关联关系，并根据所述关联关系获得所述每个背景区域对识别所述目标的动作类别的影响值。

可选地，所述每个背景区域的影响值为所述背景区域的时空特征的权重。

确定单元620用于，计算所述每个背景区域的时空特征与对应的背景区域的权重的乘积，获得所述每个背景区域的调整后的时空特征。

确定单元620用于，将所述每个背景区域的调整后的时空特征与所述目标的时空特征进行融合，得到所述目标的动作特征。

可选地，确定单元620还用于，确定所述目标的时空特征对应的部位影响矩阵，所述部位影响矩阵用于表示所述目标的不同部位对识别所述目标的动作类别的影响大小。

确定单元620还用于，根据所述部位影响矩阵，调整所述目标的时空特征。

可选地，确定单元620还用于，对所述视频进行特征提取，获得所述视频的时空特征。

确定单元620还用于，确定所述目标在所述视频的预设帧中的位置。

确定单元620还用于，将所述目标在所述预设帧中的位置和所述视频的时空特征输入特征分割模型，根据所述特征分割模型获得所述目标的时空特征和所述至少一个背景区域的时空特征，其中，所述特征分割模型为已训练完成的人工智能AI模型。

可选地，识别单元620用于，输入所述目标的动作特征至分类模型，根据所述分类模型的输出结果获得所述目标的动作类别，其中，所述分类模型为已训练完成的AI模型。

确定单元610可以包括动作识别系统100中的特征提取模块110、特征分割模块130、关系建立模块140、特征融合模块150。确定单元610还可以包括目标检测模块120、位置编码模块、尺寸放缩模块、注意力模块中的一个或多个。识别单元620可以包括分类模块160。

可选的，装置600还可以包括训练单元。训练单元用于根据多个训练视频和每个训练视频中目标的标注动作类别对确定单元610、识别单元620所需的初始AI模型进行训练，获得训练完成的AI模型。

本申请实施例中对单元、模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时也可以有另外的划分方式，另外，在本申请各个实施例中的各功能模块、单元可以集成在一个处理器中，也可以是单独物理存在，也可以两个或两个以上模块、单元集成为一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

该集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台终端设备(可以是个人计算机，手机，或者网络设备等)或处理器(processor)执行本申请各个实施例该方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-onlymemory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是：上述实施例提供的视频的动作识别装置在识别视频中目标的动作类别时，仅以上述各功能单元的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元完成，即将装置的内部结构划分成不同的功能单元，以完成以上描述的全部或者部分功能。

图7是本申请实施例提供的一种电子装置的硬件结构示意图。图7所示的电子装置4000(该装置4000具体可以是一种计算机设备)包括存储器4001、处理器4002、通信接口4003以及总线4004。其中，存储器4001、处理器4002、通信接口4003通过总线4004实现彼此之间的通信连接。

存储器4001可以是只读存储器(read only memory，ROM)，静态存储设备，动态存储设备或者随机存取存储器(random access memory，RAM)。存储器4001可以存储程序，当存储器4001中存储的程序被处理器4002执行时，处理器4002和通信接口4003用于执行本申请实施例的视频的动作识别方法的各个步骤。存储器4001还可以存储数据集合，例如：存储器4001中的一部分存储资源被划分成一个数据集存储模块，用于存储执行视频的动作识别方法所需的数据集，存储器4001中的一部分存储资源被划分成AI模型存储模块，用于存储动作识别系统中所需的AI模型。

处理器4002可以采用通用的中央处理器(central processing unit，CPU)，微处理器，应用专用集成电路(application specific integrated circuit，ASIC)，图形处理器(graphics processing unit，GPU)或者一个或多个集成电路，用于执行相关程序，以实现本申请实施例的电子装置中的单元所需执行的功能，或者执行本申请方法实施例的视频的动作识别方法的步骤。

处理器4002还可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，本申请的神经网络模型训练的方法的各个步骤可以通过处理器4002中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器4002还可以是通用处理器、数字信号处理器(digital signal processing，DSP)、专用集成电路、现成可编程门阵列(fieldprogrammable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器4001，处理器4002读取存储器4001中的信息，结合其硬件完成本申请实施例的电子装置中包括的单元所需执行的功能。

通信接口4003使用例如但不限于收发器一类的收发装置，来实现装置4000与其他设备或通信网络之间的通信。例如，可以通过通信接口4003获取所需的AI模型、视频等中的一种或多种。

总线4004可包括在装置4000各个部件(例如，存储器4001、处理器4002、通信接口4003)之间传送信息的通路。

在电子装置4000为多个时，上述每个电子装置4000间通过通信网络建立通信通路。每个电子装置4000上运行特征提取单元610、确定单元620、识别单元630中的任意一个或多个中的全部或部分。任一电子装置4000可以为云数据中心中的计算设备(例如：服务器)，或边缘数据中心中的计算设备，或终端计算设备。

应注意，尽管图7所示的装置4000仅仅示出了存储器、处理器、通信接口，但是在具体实现过程中，本领域的技术人员应当理解，4000还包括实现正常运行所必须的其他器件。同时，根据具体需要，本领域的技术人员应当理解，4000还可包括实现其他附加功能的硬件器件。此外，本领域的技术人员应当理解，装置4000也可仅仅包括实现本申请实施例所必须的器件，而不必包括图7中所示的全部器件。

上述各个附图对应的流程的描述各有侧重，某个流程中没有详述的部分，可以参见其他流程的相关描述。

本申请实施例还提供一种计算机可读存储介质，其特征在于，所述计算机可读存储介质具有程序指令，当所述程序指令被直接或者间接执行时，使得前文中的方法得以实现。

本申请实施例中，还提供了一种包含指令的计算机程序产品，当其在计算设备上运行时，使得计算设备执行前文中的方法，或者使得所述计算设备实现前文中的装置的功能。

本申请实施例还提供一种芯片系统，其特征在于，所述芯片系统包括至少一个处理器，当程序指令在所述至少一个处理器中执行时，使得前文中的方法得以实现。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元、模块及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种视频的动作识别方法，其特征在于，所述方法应用于计算机系统，包括：

根据所述视频确定目标的时空特征和至少一个背景区域的时空特征，其中，所述视频包括所述目标和所述至少一个背景区域；

根据所述目标的时空特征，确定所述至少一个背景区域中的每个背景区域的影响值，其中，背景区域的影响值用于指示所述背景区域的时空特征对识别所述目标的动作类别的影响大小；

根据所述至少一个背景区域的时空特征、所述至少一个背景区域的影响值和所述目标的时空特征，确定所述目标的动作特征；

根据所述目标的动作特征，识别所述目标的动作类别。

2.根据权利要求1所述的方法，其特征在于，

所述根据所述目标的时空特征，确定所述至少一个背景区域中的每个背景区域的影响值，包括：

输入所述目标的时空特征和所述每个背景区域的时空特征至关系建立模型，根据所述关系建立模型获得所述每个背景区域的影响值，其中，所述关系建立模型为已训练完成的人工智能AI模型，所述关系建立模型用于计算所述目标与所述每个背景区域之间的关联关系，并根据所述关联关系获得所述每个背景区域对识别所述目标的动作类别的影响值。

3.根据权利要求2所述的方法，其特征在于，所述每个背景区域的影响值为所述背景区域的时空特征的权重；

所述根据所述至少一个背景区域的时空特征、所述至少一个背景区域的影响值和所述目标的时空特征，确定所述目标的动作特征，包括：

计算所述每个背景区域的时空特征与对应的背景区域的权重的乘积，获得所述每个背景区域的调整后的时空特征；

将所述每个背景区域的调整后的时空特征与所述目标的时空特征进行融合，得到所述目标的动作特征。

4.根据权利要求1-3任一项所述的方法，其特征在于，在根据所述至少一个背景区域的时空特征、所述至少一个背景区域的影响值和所述目标的时空特征，确定所述目标的动作特征之前，所述方法还包括：

确定所述目标的时空特征对应的部位影响矩阵，所述部位影响矩阵用于表示所述目标的不同部位对识别所述目标的动作类别的影响大小；

根据所述部位影响矩阵，调整所述目标的时空特征。

5.如权利要求1-4任一项所述的方法，其特征在于，所述根据所述视频确定目标的时空特征和至少一个背景区域的时空特征，包括：

对所述视频进行特征提取，获得所述视频的时空特征；

确定所述目标在所述视频的预设帧中的位置；

将所述目标在所述预设帧中的位置和所述视频的时空特征输入特征分割模型，根据所述特征分割模型获得所述目标的时空特征和所述至少一个背景区域的时空特征，其中，所述特征分割模型为已训练完成的人工智能AI模型。

6.根据权利要求1-5任一项所述的方法，其特征在于，所述根据所述目标的动作特征，识别所述目标的动作类别，包括：

输入所述目标的动作特征至分类模型，根据所述分类模型的输出结果获得所述目标的动作类别，其中，所述分类模型为已训练完成的AI模型。

7.一种电子装置，其特征在于，包括确定单元、识别单元；

所述确定单元用于，根据视频确定目标的时空特征和至少一个背景区域的时空特征，其中，所述视频包括所述目标和所述至少一个背景区域；

所述确定单元用于，根据所述目标的时空特征，确定所述至少一个背景区域中的每个背景区域的影响值，其中，背景区域的影响值用于指示所述背景区域的时空特征对识别所述目标的动作类别的影响大小；

所述确定单元用于，根据所述至少一个背景区域的时空特征、所述至少一个背景区域的影响值和所述目标的时空特征，确定所述目标的动作特征；

所述识别单元用于，根据所述目标的动作特征，识别所述目标的动作类别。

8.根据权利要求7所述的装置，其特征在于，

所述确定单元具体用于，输入所述目标的时空特征和所述每个背景区域的时空特征至关系建立模型，根据所述关系建立模型获得所述每个背景区域的影响值，其中，所述关系建立模型为已训练完成的人工智能AI模型，所述关系建立模型用于计算所述目标与所述每个背景区域之间的关联关系，并根据所述关联关系获得所述每个背景区域对识别所述目标的动作类别的影响值。

9.根据权利要求8所述的装置，其特征在于，所述每个背景区域的影响值为所述背景区域的时空特征的权重；

所述确定单元具体用于：

10.根据权利要求7-9任一项所述的装置，其特征在于，所述确定单元具体用于：

根据所述部位影响矩阵，调整所述目标的时空特征。

11.如权利要求7-10任一项所述的装置，其特征在于，所述确定单元具体用于：

对所述视频进行特征提取，获得所述视频的时空特征；

确定所述目标在所述视频的预设帧中的位置；

12.根据权利要求7-11任一项所述的装置，其特征在于，

所述识别单元具体用于，输入所述目标的动作特征至分类模型，根据所述分类模型的输出结果获得所述目标的动作类别，其中，所述分类模型为已训练完成的AI模型。

13.一种电子装置，其特征在于，包括处理器和存储器，

所述存储器中存储有计算机指令；

所述处理器执行所述计算机指令，以执行所述权利要求1-6中任一项权利要求的方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，当所述计算机指令被计算设备执行时，使得所述计算设备执行所述权利要求1-6中任一项权利要求的方法。