CN113468913A

CN113468913A - 数据处理、动作识别、模型训练方法、设备及存储介质

Info

Publication number: CN113468913A
Application number: CN202010239563.1A
Authority: CN
Inventors: 杜杨; 伊威; 李名杨; 古鉴
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2020-03-30
Filing date: 2020-03-30
Publication date: 2021-10-01
Anticipated expiration: 2040-03-30
Also published as: CN113468913B

Abstract

本申请实施例提供一种数据处理、动作识别、模型训练方法、设备及存储介质。在数据处理方法中，基于从视频数据中提取的多帧特征图包含的特征，计算多帧特征图的帧间能量移动特征；根据帧间能量移动特征，可从多帧特征图中发现运动物体的动作线索。在这种实施方式中，将运动物体反映在特征图之间的能量尺度不变性作为匹配动作线索的依据，避免了引入额外的光流信息，有利于有效地降低动作识别的算法复杂度。

Description

数据处理、动作识别、模型训练方法、设备及存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种数据处理、动作识别、模型训练方法、设备及存储介质。

背景技术

动作识别的主要目标是判断一段视频中的人或者动物的行为类别，可辅助实现多种场景下的行为检测以及行为监控。例如，在居家场景下，可基于动作识别，检测儿童和老人的动作，并对检测到的异常动作(例如摔倒动作)发出警报，进而实现家庭看护，减少家庭意外造成的风险。

现有技术提供了一种基于额外的光流信息提取运动信息，并基于运动信息进行动作识别的方法，但是这种方法的计算复杂度较高。因此，有待提出一种解决方案。

发明内容

本申请的多个方面提供一种动作识别、模型训练方法、设备及存储介质，用以降低动作识别的算法复杂度。

本申请实施例提供一种数据处理方法，包括：获取待识别的视频数据；基于所述视频数据，提取多帧特征图；根据所述多帧特征图包含的特征，计算所述多帧特征图的帧间能量移动特征；根据所述多帧特征图的帧间能量移动特征，生成至少一条动作线索。

本申请实施例提供一种动作识别方法，包括：将待识别的视频数据输入算法模型；在所述算法模型的特征提取网络中，基于所述视频数据，提取多帧特征图在所述算法模型的线索推理网络中，根据所述多帧特征图包含的特征，计算所述多帧特征图的帧间能量移动特征；并根据所述多帧特征图的帧间能量移动特征，生成至少一条动作线索；在所述算法模型的时序卷积网络中，根据所述至少一条动作线索，识别所述视频包含的动作。

本申请实施例还提供一种模型训练方法，包括：将样本视频数据输入算法模型；在所述算法模型的特征提取网络中，基于所述样本视频数据，提取多帧特征图；在所述算法模型的线索推理网络中，根据所述多帧特征图包含的特征，计算所述多帧特征图的帧间能量移动特征；并根据所述多帧特征图的帧间能量移动特征，生成至少一条动作线索；在所述算法模型的时序卷积网络中，根据所述至少一条动作线索，识别所述视频包含的动作，并根据所述识别的结果以及设定的损失函数，对所述时序卷积网络的模型参数进行优化。

本申请实施例还提供一种电子设备，包括：存储器和处理器；所述存储器用于存储一条或多条计算机指令；所述处理器用于执行所述一条或多条计算机指令以用于：执行本申请实施例提供的数据处理方法、动作识别方法或者模型训练方法。

本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，计算机程序被处理器执行时能够实现本申请实施例提供的数据处理方法、动作识别方法或者模型训练方法。

本申请实施例中，基于从视频数据中提取的多帧特征图包含的特征，计算多帧特征图的帧间能量移动特征；根据帧间能量移动特征，可从多帧特征图中发现运动物体的动作线索。在这种实施方式中，将运动物体反映在特征图之间的能量尺度不变性作为匹配动作线索的依据，避免了引入额外的光流信息，有利于有效地降低动作识别的算法复杂度。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1a为本申请一示例性实施例提供的数据处理方法的流程示意图；

图1b为本申请一示例性实施例提供的展示动作线索的示意图；

图2为本申请另一示例性实施例提供的动作识别方法的流程示意图；

图3a为本申请一示例性实施例提供的多尺度线索推理网络的结构示意图；

图3b为本申请一示例性实施例提供的栅格化的示意图；

图3c为本申请另一示例性实施例提供的能量在帧间移动的示意图；

图4为本申请一示例性实施例提供的模型训练方法的流程示意图；

图5为本申请一示例性实施例提供的动作识别方法的应用场景示意图；

图6为本申请一示例性实施例提供的电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

针对现有的动作识别方法存在的计算复杂度较高的技术问题，在本申请一些实施例中，提供了一种解决方案，以下将进行具体说明。

图1a为本申请一示例性实施例提供的动作识别方法的流程示意图，如图1a所示，该方法包括：

步骤101、获取待识别的视频数据。

步骤102、基于所述视频数据，提取多帧特征图。

步骤103、根据所述多帧特征图包含的特征，计算所述多帧特征图的帧间能量移动特征。

步骤104、根据所述多帧特征图的帧间能量移动特征，生成至少一条动作线索。

在本实施例中，视频数据包含连续的图像序列，该连续的图像序列可以是对视频进行连续采样得到的。待识别的视频数据，可来自实时拍摄的视频，或者来自用户上传的视频，视具体应用场景而定，本实施例不做限制。例如，在一些场景下，该方法应用于家庭看护场景时，该待识别的视频数据，可包括从家用监控设备拍摄到的监控视频中采样得到的连续多帧图像。

基于视频数据，提取多帧特征图的操作，指的是对视频数据中的每帧图像进行局部特征提取，得到每帧图像对应的特征图(feature map)的操作。特征图上包含多个空间位置，每个空间位置对应一个特征，该特征表示其所在空间位置对应的感受野(Receptivefield)的局部图像特征。其中，空间位置，可理解为特征图上用于表达特征的最小位置单元。例如，特征图实现为点阵图像时，空间位置可实现为每一个点在特征图上对应的位置。

当视频中的物体运动时，物体不变的能量在空间中移动。物体的能量在空间中移动时，特征图上的空间位置对应的感受野的能量发生变化，相应地，特征图上的空间位置的能量也发生变化。因此，在本实施例中，可根据特征图上的空间位置的能量变化，推理空间位置对应的感受野的能量变化，进而推理物体在空间中移动的特征。

其中，帧间能量移动特征，指的是能量在不同帧特征图之间发生移动的特征。物体的运动具有一定的连续性，当多帧特征图之间的时间间隔较小时，多帧特征图各自包含的空间位置的能量的变化，可形成能量在连续多帧特征图中移动的效果。因此，可基于多帧特征图各自包含的空间位置的能量，计算能量在不同帧特征图之间的移动特征。

其中，针对一空间位置而言，其感受野的能量发生变化时，该空间位置所表达的局部图像特征也随之变化。因此，针对每一空间位置而言，可根据该空间位置表达的特征，计算该空间位置的能量。根据特征计算能量的可选实施方式将在后续的实施例中进行说明，此处不赘述。

计算得到能量在多帧特征图之间移动的特征后，可基于能量在多帧特征图之间移动的特征，推理物体的动作形成的动作线索。该动作线索，可以是一系列的运动轨迹，该运动轨迹可根据能量在帧间移动的轨迹生成，本实施例不做限制。该获取到的动作线索，可用于进行动作识别或者用于进行大屏展示，本实施例不做限制。

在本实施例中，基于从视频数据中提取的多帧特征图包含的特征，计算多帧特征图的帧间能量移动特征；根据帧间能量移动特征，可从多帧特征图中发现运动物体的动作线索。在这种实施方式中，将运动物体在帧间的能量尺度不变性作为匹配动作线索的依据，避免了引入额外的光流信息，有利于有效地降低动作识别的算法复杂度。

上述实施例提供的数据处理方法，可基于线索推理网络实现。线索推理是指，使用空间感受野的能量进行时序线索推理。为捕捉不同速度的物体运动，本申请实施例提供的线索推理网络实现为一种多尺度线索推理网络(Clue-Reasoning Multi-Scale Networks，CRMS-Net)。多尺度线索推理网络，用于对空间感受野进行多种不同尺寸的线索推理。

多尺度线索推理的核心在于，计算特征图上每个空间位置的能量分数。接着，根据每个空间位置所属的邻域，对邻域内的多个空间位置的能量分数进行排序，得到每个空间位置在其邻域范围内的排序索引。接着，将不同帧之间的排序索引进行对齐，并采用相同的排序索引来匹配不同特征图上能量分数接近的空间位置。不同特征图上能量分数接近的空间位置，可视为能量生转移的空间位置。

其中，为确定每个空间位置所属的邻域，可将特征图划分为一个或者多个分区，每个分区称为一个局部空间范围。针对每个空间位置，可在其所属的分区中，计算其能量分数对应的排序索引。其中，为实现多尺度线索推理，可将特征图划分为不同规模的分区。

存在动作线索的计算需求时，可将视频数据输入基于线索推理网络，并根据线索推理网络的数据获取动作线索，并可视化展示该动作线索。其中，可视化(Visualization)是指，利用计算机图形学和图像处理技术，将动作线索数据转换成图形或图像在屏幕上显示出来以供用户查看。

可选地，展示动作线索的一种可选实施方式，可包括：根据动作线索，在图像序列中确定物体的运动轨迹，并在图像序列上以静态或者动态的方式展示动作线索对应的动作轨迹。

一种典型的动作线索展示效果可如图1b所示，将台球运动视频数据输入线索推理网络，线索推理网络可输出台球在多帧图像之间的运动轨迹，并展示该运动轨迹对应的可视化效果，以便于用户查看。

在前述实施例记载的数据处理方法的基础上，本申请还提供一种动作识别方法。该动作识别方法可基于前述实施例提取到的动作线索后，识别视频数据包含的动作。以下将结合多尺度线索推理网络，对本申请实施例提供的动作识别方法进行说明。

图2为本申请另一示例性实施例提供的动作识别方法的流程示意图，如图2所示，该方法包括：

步骤201、将待识别的视频数据输入算法模型。

步骤202、在所述算法模型的特征提取网络中，基于所述视频数据，提取多帧特征图。

步骤203、在所述算法模型的线索推理网络中，根据所述多帧特征图包含的特征，计算所述多帧特征图的帧间能量移动特征。

步骤204、在所述线索推理网络中，根据所述多帧特征图的帧间能量移动特征，生成至少一条动作线索。

步骤205、在所述算法模型的时序卷积网络中，根据所述至少一条动作线索，识别所述视频包含的动作。

在本实施例中，该算法模型的输入，可以是对视频进行连续采样得到的多帧图像，即步骤201中记载的视频数据；或者，可以是待识别的视频，算法模型可根据设定的采样周期对视频进行采样，得到多帧图像；或者，还可以是对多帧图像进行特征提取得到的特征图，本实施例不做限制。

图3a是本实施例提供的算法模型的结构示意图，如图3a所示，该算法模型，主要包含特征提取网络、线索推理网络以及时序卷积网络。其中，线索推理网络为多尺度线索推理网络。

基于上述结构，存在识别视频中的动作的需求时，可将视频数据输入算法模型。其中，特征提取网络，可按照设定的采样间隔对输入的视频进行连续采样，得到多帧图像。接着，对多帧图像进行局部特征提取，得到每帧图像对应的特征图，并将连续的多帧特征图传递至线索推理网络。

可选地，该特征提取网络可实现为2D-CNN(2Dimension Convolutional NeuralNetworks,2维卷积神经网络)，例如Alex-Net(Alex网络)或者VGG-Net(VGG网络)，本实施例不做限制。

其中，线索推理网络，用于根据多帧特征图上的空间位置的特征，计算多帧特征图的帧间能量移动特征。接着，根据该帧间能量移动特征，从多帧特征图中捕捉动作线索，并将捕捉到的至少一条动作线索传递至时序卷积网络。

其中，时序卷积网络，用于对动作线索特征进行进一步特征提取，并根据提取到的特征进行动作识别。可选地，该时序卷积网络，可实现为1D-CNN(一维卷积神经网络)。

可选地，在本申请的上述以及下述各实施例中，根据多帧特征图各自包含的特征，计算多帧特征图的帧间能量移动特征的一种可选实施方式，可包括如下的步骤：

步骤2031、针对所述多帧特征图中的第一特征图，在线索推理网络中，根据所述第一特征图中的空间位置的特征，计算所述第一特征图中的空间位置的能量分数。

步骤2032、根据所述第一特征图中的空间位置的能量分数，计算所述第一特征图包含的局部空间范围的能量分布特征。

步骤2033、根据所述多帧特征图各自包含的局部空间范围的能量分布图特征，计算所述多帧特征图的帧间能量移动特征。

在上述步骤中，第一特征图为多帧特征图中的任一帧特征图，采用“第一”对该任一特征图进行限定，仅用于方便描述和区分，并不对特征图的顺序构成任何限制。

在本实施例中，多帧特征图中的每一帧特征图可采用相同的处理逻辑进行处理，以下将以第一特征图为例进行示例性说明。

在步骤2031中，将以第一特征图中的任一空间位置为例，对计算空间位置的能量分数的可选实施方式进行说明。

通常，空间位置的特征以特征矩阵的形式表示。可选地，可获取该空间位置的特征矩阵以及该特征矩阵的转置矩阵。接着，对该特征矩阵及其转置矩阵进行矩阵运算，并将矩阵运算的结果作为该空间位置的能量分数。

可选地，该矩阵运算可包括转置矩阵与特征矩阵的乘运算。例如，以x表示某一空间位置的特征时，该矩阵运算可表示为：

其中，

表示能量计算函数。

当连续的多帧特征图对应的采样时间间隔较小时，能量在帧间较小的局部范围内进行移动。因此，为准确地捕捉到帧间发生移动的能量，可将每帧特征图划分为多个局部区域，并根据多帧特征图上位置相对应的局部区域计算能量的帧间移动特征。

可选地，在线索推理网络中，可过对每一帧特征图进行栅格化处理(Rasterization)，得到每帧特征图包含的局部空间范围。其中，栅格化处理，指的是采用尺寸为Wx×Wy的窗口，将尺寸为h×w的特征图分割为若干个栅格区域。不同栅格区域的大小可以相同，也可以不同。

例如，继续以第一特征图为例，可采用设定的栅格化尺寸，对第一特征图进行栅格化处理，得到第一特征图对应的至少一个栅格区域。其中，每一栅格区域对应一个局部空间范围。

可选地，为了捕捉物体不同速度的运动，可采用多种不同尺寸的栅格化窗口对特征图进行栅格化处理。基于多种不同尺寸的栅格化窗口，可将每帧特征图分割为多种不同尺寸的栅格区域。例如，如图3b所示，第一特征图为6×6的特征图，可采用2×2的窗口第一特征图栅格化为9个2×2的栅格区域；又例如，可采用3×3的窗口第一特征图栅格化为4个3×3的栅格区域，不再进行图示。

继续以第一特征图为例。在上述栅格化操作的基础上，可选地，在步骤2032中，可将第一特征图上的每个栅格区域作为一个局部空间范围，通过计算每个栅格区域中的能量分布特征，来计算第一特征图包含的局部空间范围的能量分布特征。

第一特征图包含至少一个栅格区域，以下将以第一特征图中的任一栅格区域为例进行示例性说明。为便于描述和区分，将该任一栅格区域描述为第一栅格区域，该“第一”并不对栅格区域的顺序、尺寸或者位置构成限制。

针对第一栅格区域，可根据第一栅格区域内的空间位置的能量分数，对第一栅格区域内的空间位置进行排序。例如，可按照能量分数进行升序排序，或者按照能量分数进行降序排序。接着，根据该排序的结果，得到第一栅格区域内的空间位置各自的排序索引。针对第一栅格区域而言，其包含的空间位置的排序索引，可表征第一栅格区域内的能量分布特征。

基于上述操作，可获取每帧特征图上的每个栅格区域内的排序索引。接下来，在步骤2033，可根据多帧特征图各自包含的栅格区域内的排序索引，计算多帧特征图的帧间能量移动特征。

可选地，继续以第一特征图以及第一栅格区域为例，可从该多帧特征图中除第一特征图之外的其他特征图中，确定与第一栅格区域对齐的其他栅格区域。多个对齐的栅格区域对应的相同的局部空间范围。

接下来，针对第一栅格区域中的第一空间位置，可在该其他栅格区域中，定位与第一空间位置的排序索引相同的其他空间位置；第一空间位置与其他空间位置具有相同的排序索引，则可认为帧间能量由第一空间位置移动到了该其他空间位置。因此，可将第一空间位置和该其他空间位置，作为一组能量发生帧间移动的空间位置。

例如，假设前一帧特征图中的栅格区域A与后一帧特征图中的栅格区域A’为位置对应的两个局部空间范围。假设，栅格区域A中，空间位置A(1,2)的排序索引，与栅格区域A’中的空间位置A’(2,4)的排序索引相同，则可认为能量在相邻两帧特征图之间转移时，由空间位置A(1,2)转移到了空间位置A’(2,4)。

一种典型的帧间能量移动效果可如图3c所示。在图3c中，第t帧特征图以及第t+Δt帧特征图分别包含9个局部空间范围，每个局部空间范围包含4个空间位置。按照能量分数对每个局部空间范围内的空间位置进行排序后，可得到如图3c所示的排序索引。基于图3c所示的排序索引可知，第t帧特征图中左上角的局部空间范围中，排序索引为2的空间位置上的能量，转移到了第t+Δt帧特征图的左上角的局部空间范围内排序为2的空间位置上。同理，第t帧特征图中左上角的局部空间范围中，排序索引为3的空间位置上的能量，转移到了第t+Δt帧特征图的左上角的局部空间范围内排序为3的空间位置上。上述能量在帧间的移动趋势可如图3c中的右图所示，该趋势可反映物体的运动特征。

可选地，每组能量发生移动的空间位置可生成一条动作线索。继续以第一空间位置和该其他空间位置为例，生成动作线索时，可按照第一空间位置和该其他空间位置各自所属的特征图的时间顺序，将第一空间位置和该其他空间位置各自对应的特征生成特征序列，并将生成的特征序列作为一条动作线索。

以下将结合具体的算法进行进一步说明。

假设x(t)是第t帧特征图中的空间位置i(t)的特征，i∈[1，h*w]，其中，h、w表示特征图的尺寸。首先，使用能量计算函数

来预测x(t)的能量分数α作为空间位置i(t)的能量分数。

其中，量分数α(t)表征了空间位置i(t)对应的感受野的特征显著性，

接着，在空间位置i(t)所属的栅格区域C(t)内，按照能量分数的大小对栅格区域C(t)的所有空间位置进行排序，以在栅格区域C(t)中生成每个空间位置的排名索引。

{k，x}_t＝K{α(t)，x(t)}，x∈C(t) 公式2

其中K{}是一个排序函数(正序或负序)，它在排序时可以保留栅格区域中每个空间位置的相对位置，并返回空间位置及其排序索引k。

接下来，可采用索引函数Γ来获取空间位置i(t)在栅格区域C(t)中的索引k(t)：

k(t)|_x＝x(t)＝Γ({k，x}_t，x(t)) 公式3

接下来，在第t+Δt帧特征图中与栅格区域C(t)对齐的栅格区域C(t+Δt)中，查询与空间位置i(t)的排序索引相同的空间位置。

x(t+Δt)|_k＝sk(t)＝R({k，x}_t+Δt，k(t)|_x＝x(t)) 公式4

其中，R()表示用排序索引去推理空间位置的函数，返回的结果x(t+Δt)为栅格区域C(t+Δt)中与空间位置i(t)具有相同排序索引的空间位置i(t+Δt)的特征。其中，Δt表示连续帧之间的时间间隔(即视频的采样间隔)。

同理，可在第t+2Δt帧特征图中与栅格区域C(t)对齐的栅格区域C(t+2Δt)中，查询与空间位置i(t)的排序索引相同的空间位置i(t+2Δt)。标记空间位置i(t+2Δt)的特征为x(t+2Δt)。重复上述查询操作，直至在第t+(T-1)Δt帧特征图中与栅格区域C(t)对齐的栅格区域C(t+(T-1)Δt)中，查询到与空间位置i(t)的排序索引相同的空间位置i(t+(T-1)Δt),标记该空间位置i(t+(T-1)Δt)的特征为x(t+(T-1)Δt)。其中，T为特征图的帧数。

基于上述操作，可得到T帧特图的帧间能量移动特征为：能量在空间位置i(t)、空间位置i(t+Δt)…空间位置i(t+(T-1)Δt)之间移动。换言之，特征x(t)，特征x(t+Δt)…以及x(t+(T-1)Δt)为帧间能量接近的线索特征。

接下来，可根据上述能量发生帧间移动的空间位置，生成动作线索。

可选地，可按照空间位置i(t)、空间位置i(t+Δt)…空间位置i(t+(T-1)Δt)在各自所属的特征图的时间顺序，将空间位置各自对应的特征生成特征序列，并将该特征序列作为一条连续的动作线索，如下公式所示：

clue＝{x(t)，x(t+Δt)...x(t+(T-1)Δt)} 公式5

同理，可采用上述方法，寻找第t帧特征图中的每个空间位置对应的动作线索，得到T帧特征图包含的至少一条线索特征。

在动作识别的场景下，基于上述实施例获取到多帧特征图包含的至少一条动作线索后，可将该至少一条动作线索输入多尺度线索推理网络中的时序卷积网络，以在时序卷积网络中根据该至少一条动作线索进行动作识别。

需要说明的是，对特征图进行多尺度的栅格化操作时，可分别采用上述实施方式在每种尺度的栅格化下计算动作线索。获取到多种尺度的栅格化下的动作线索后，可将多种尺度的栅格化下获取到的多尺度动作线索进行串接(catenate)，并将串接后的线索特征输入时序卷积网络，如图3a所示。

可选地，该串接操作，可以是向量拼接操作。例如，在第一尺度栅格化下，获取到的动作线索为clue1，在第二尺度栅格化下获取到的动作线索为clue2，在第三尺度栅格化下获取到的动作线索为clue3。将上述多尺度栅格化下得到的动作线索串接后，可得到线索特征{clue1，clue2，clue3}。

上述动作线索的推理过程，不涉及额外需要优化的参数，进一步提升了推理效率。

接下来，在时序卷积网络的卷积层中，可根据时序卷积参数，对该至少一条动作线索进行时序卷积操作，以得到该至少一条动作线索的时序特征。

可选地，可选地，该时序卷积采用内核大小为[τ，1，1]的非退化时序卷积(non-degenerate temporal convolution)实现。如以下公式所示：

其中，F表示动作线索的时序特征，w(p)表示非退化的时间卷积的相关参数，p为Δt的系数，τ∈[1，T]。

计算得到该至少一条动作线索的时序特征后，可将该至少一条动作线索的时序特征传递至时序卷积网络的全连接层，如图3a所示的FC层中。在全连接层中，根据全连接层的模型参数以及该至少一条动作线索的时序特征，识别该视频包含的动作，并经由分类器(例如softmax分类器)输出识别结果。该识别结果可表示为视频中的动作属于某种动作类型的概率。

值得说明的是，在本申请的上述以及下述各实施例中，可采用能量直方图，呈现多帧特征图中显著动作区域的分布。能量直方图中，横轴为多个对齐的空间位置，纵轴为对齐的空间位置的堆叠能量。

可选地，可将多帧特征图进行对齐，并将多帧特征图上相同空间位置的能量分数进行叠加，得到多个不同空间位置各自对应的堆叠能量。例如，将多帧特征图上坐标同为(1，1)的空间位置的能量进行叠加，到空间位置(1，1)对应的堆叠能量。又例如，将多帧特征图上坐标同为(h，w)的空间位置的能量进行叠加，可到空间位置(h，w)对应的堆叠能量。

接着，对多个不同空间位置各自对应的堆叠能量进行归一化处理，得到多帧特征图的显著区域分布特征。可选地，该归一化处理可基于L2归一化(L2-normalization)实现。以下将进行示例性说明。

针对第t帧特征图，可将其上的空间位置的能量分数表征为如下的能量分数向量：[a₁(t)，a₂(t)...a_hw(t)]。将T帧特征图上相同空间位置的能量分数进行叠加并归一化的操作，如以下公式所示：

基于上述公式7可得到多个不同空间位置的堆叠能量(即图3a中示意的能量直方图)，该堆叠能量将作为显著区域分布特征传递至时序卷积网络的全连接层，以辅助进行动作识别。

相应地，在时序卷积网络中，根据该至少一条动作线索，识别所述视频包含的动作时，可在时序卷积网络的全连接层中，根据全连接层的模型参数、该至少一条动作线索的时序特征和该显著区域分布特征，识别视频包含动作，不再赘述。

在一些可选的实施方式中，时序卷积网络识别视频包含的动作后，可根据动作视频实际包含的动作，对时序卷积网络的分类能力进行进一步优化。

为保持能量不变性，可最小化线索特征随时间的能量损耗。可选地，可根据显著区域分布特征以及显著区域分布特征的能量方差，计算线索正则化损失函数。如以下公式所示：

其中，E表示期望，ā表示第t帧特征图上所有空间位置归一化的能量分数，S()表示方差函数。

当栅格化窗口为1×1时，优化L_clue可保持大多数具有不变背景的区域的能量一致性和相似性；当栅格化窗口大于1×1时，优化L_clue可进一步保持不变能量的空间运动特征。

可选地，可进一步构建交叉熵损失函数，训练时序卷积网络的分类能力。可选地，可根据全连接层对视频的识别结果以及监督信号，构造交叉熵损失函数，如以下公式所示：

L_cls＝E_Y(x)～θ[-logP(Y(x))]＝y|x 公式9

其中，x表示输入的视频数据，Y(x)表示全连接层输出的识别结果，P()表示概率计算函数，y表示监督信号，θ表示算法模型中需要学习的参数。

基于上述，训练时序卷积网络的损失函数可表达为如下公式：

L＝L_clue+λ*L_cls 公式10

其中λ为L_cls的权重衰减系数，用于平衡线索正则化损失和分类损失。

基于上述损失函数L，可通过循环迭代计算不断优化时序卷积网络中的模型参数，直至损失函数L收敛到特定的值，不再赘述。

图4为本申请一示例性实施例提供的模型训练方法的流程示意图，如图4所示，该模型训练方法，包括：

步骤401、将样本视频数据输入算法模型。

步骤402、在所述算法模型的特征提取网络中，基于所述样本视频数据，提取多帧特征图。

步骤403、在所述算法模型的线索推理网络中，根据所述多帧特征图包含的特征，计算所述多帧特征图的帧间能量移动特征。

步骤404、在所述线索推理网络中，根据所述多帧特征图的帧间能量移动特征，生成至少一条动作线索。

步骤405、在所述算法模型的时序卷积网络中，根据所述至少一条动作线索，识别所述视频包含的动作，并根据所述识别的结果以及设定的损失函数，对所述时序卷积网络的模型参数进行优化。

可选地，在本实施例中，样本视频数据包括但不限于Kinetics400、Somthing-Somthing v1、UCF101和HMDB51等视频集中的视频。

在一些示例性的实施方式中，根据所述多帧特征图包含的特征，计算所述多帧特征图的帧间能量移动特征的一种方式，包括：针对所述多帧特征图中的第一特征图，在线索推理网络中，根据所述第一特征图中的空间位置的特征，计算所述第一特征图中的空间位置的能量分数；根据所述第一特征图中的空间位置的能量分数，计算所述第一特征图包含的局部空间范围的能量分布特征；根据所述多帧特征图各自包含的局部空间范围的能量分布图特征，计算所述多帧特征图的帧间能量移动特征。

在一些示例性的实施方式中，该方法还包括：将所述多帧特征图进行对齐，并将所述多帧特征图上相同空间位置的能量分数进行叠加，得到多个不同空间位置各自对应的堆叠能量；对所述多个不同空间位置各自对应的堆叠能量进行归一化处理，得到所述多帧特征图的显著区域分布特征。

在一些示例性的实施方式中，根据所述至少一条动作线索，识别所述视频包含的动作的一种方式，包括：在所述时序卷积网络的卷积层中，根据时序卷积参数，对所述至少一条动作线索进行时序卷积操作，以得到动作线索的时序特征；在所述时序卷积网络的全连接层中，根据所述全连接层的模型参数、所述至少一条动作线索的时序特征和所述显著区域分布特征，识别所述视频包含的动作。

在一些示例性的实施方式中，该方法还包括：根据所述全连接层对所述视频的识别结果以及监督信号，构造交叉熵损失函数；根据所述显著区域分布特征以及所述显著区域分布特征的能量方差，计算线索正则化损失函数；根据所述线索正则化损失函数和所述交叉熵损失函数，构造所述设定的损失函数。

在本实施例中，基于从样本视频数据中提取的多帧特征图中的空间位置的特征，计算多帧特征图的帧间能量移动特征；根据帧间能量移动特征，可从多帧特征图中发现运动物体的动作线索。在此过程中，未引入额外的参数以及额外的光流信息，降低了算法的复杂度。在基于动作线索学习分类任务的过程中，可基于线索正则化损失函数优化动作线索的能量方差，可在降低算法复杂度的同时，有效地提升动作识别结果的准确性。

需要说明的是，上述实施例所提供方法的各步骤的执行主体均可以是同一设备，或者，该方法也由不同设备作为执行主体。比如，步骤201至步骤203的执行主体可以为设备A；又比如，步骤201和202的执行主体可以为设备A，步骤203的执行主体可以为设备B；等等。

另外，在上述实施例及附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如201、202等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

本申请实施例提供的动作识别方法可应用于多种场景，例如家庭看护场景、运动检测场景、体感游戏场景等等。以下将结合图5，以家庭看护场景为例进行示例性说明。

基于本申请的上述以及下述各实施例，可搭建家庭看护系统，该家庭看护系统包括图像采集设备51、服务器52以及终端设备53。

其中，图像采集设备51可实现为家庭监控摄像头，或者具有拍摄功能的手机等等。图像采集设备51可实时进行拍摄，或者可在检测到运动物体时启动拍摄。拍摄到视频后，图像采集设备51可将视频发送至服务器52。服务器52可实现为高性能的云服务器。

基于接收到的视频，服务器52可根据前述各实施例记载的动作识别方法，将视频输入算法模型，并在算法模型中依次经过特征提取网络、线索推理网络以及时序卷积网络实现动作识别。获取到算法模型输出的动作类型后，服务器52可根据动作类型，判断是否需要向终端设备53发送警报信息。通常，若该动作类型属于危险动作类型，或者与用户预设的需要进行报警提示的动作类型相匹配时，服务器52可向用户的终端设备53发送警报消息。

其中，终端设备53可实现为如图5所示的手机、智能音箱或者平板电脑等，本实施例包含但不限于此。基于服务器52发送的警报消息，用户可远程获取到家庭中其他家庭成员的实时情况，并及时感知家庭成员是否遇到危险。例如，如图5所示，家中老人行走中不慎摔倒时，其他家庭用户可及时通过终端设备53获取老人的摔倒的警报消息，并可及时发起救助，避免不必要的风险。

除上述应用场景之外，本申请实施例提供的动作识别方法还可应用于城市大脑建设中。其中，城市大脑用于，利用海量的大数据以及多种人工智能技术，为城市赋予更好的管理可能。

例如，在一些城市交通管理场景下，可通过摄像头对禁止调头的交通路口进行拍摄，得到该路口的车辆行驶视频。车辆行驶视频可传入云端，并在云端的算法模型中依次经过特征提取网络、线索推理网络以及时序卷积网络的计算，识别到车辆的行驶行为。若算法模型识别到的车辆行驶行为属于调头行为，则可认为该车辆出现了违规行驶。此时，云端可自动根据车辆行驶视频识别车辆的车牌号信息，并自动生成车辆的违规行驶记录。同理，可通过摄像头对高速入口匝道进行拍摄，再由云端自动识别在入口匝道附近倒车的车辆，并生产相应的违规记录。云端生成的违规记录可提供给交通部门使用，以供交通部门对违规车辆进行惩处。基于这种方式，可进一步辅助提升交通道路的管控效率，降低管控成本。

又例如，在一些校园管理场景下，可通过摄像头对校园的公共区域(例如操场、楼道、食堂等地)进行拍摄，并将拍摄到的视频传入云端。云端基于本申请提供的算法模型对传入的视频进行动作识别。若识别到视频中的人物的动作属于暴力动作类型(例如拳打脚踢、掌掴拍打、推撞绊倒等)，则云端可主动发起报警。例如，云端可通过设定的方式向校园保安或者相关的管理人员发送报警消息、拨打报警电话等，以便于能够及时对暴力行为进行制止。基于这种方式，可智能地监控并识别校园里的暴力事件、霸凌事件等等，维护校园健康和平。

除上述应用场景之外，本申请实施例提供的数据处理方法还可应用于骨骼动画(Skeletal animation)的制作场景。

骨骼动画是模型动画中的一种，在骨骼动画中，模型具有互相连接的“骨骼”组成的骨架结构。基于本申请实施例提供的数据处理方法，可将普通的运动视频，快速转化为骨骼动画，以下将进行示例性说明。

获取到待转换的运动视频后，可对运动视频进行采样及特征提取，得到运动视频对应的多帧特征图。接着，根据多帧特征图之间的能量移动特征，识别多帧特征图包含的动作线索。与此同时，可将视频中运动的物体进行“骨骼”划分，得到物体的主要的“骨骼”部分。例如，运动的物体为宠物狗时，可将宠物狗划分为四肢、身体、头部、尾巴等主要的骨架结构。接着，按照每个“骨骼”部分的分布，获取每个“骨骼”部分对应的动作线索。每个“骨骼”部分对应的动作线索，可视为该“骨骼”部分的运动轨迹。接着，根据每个“骨骼”对应的运动轨迹，可生成多个“骨骼”组成的骨架结构的动态运动过程。进而，实现了骨骼动画的快速生成，节省了时间成本和人力成本。

图6是本申请一示例性实施例提供的电子设备的结构示意图，如图6所示，该电子设备包括：存储器601以及处理器602。

存储器601，用于存储计算机程序，并可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。

其中，存储器601可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

处理器602，与存储器601耦合，用于执行存储器601中的计算机程序，以用于：获取待识别的视频数据；基于所述视频数据，提取多帧特征图；根据所述多帧特征图包含的特征，计算所述多帧特征图的帧间能量移动特征；根据所述多帧特征图的帧间能量移动特征，生成至少一条动作线索。

进一步可选地，处理器602在根据所述多帧特征图包含的特征，计算所述多帧特征图的帧间能量移动特征时，具体用于：针对所述多帧特征图中的第一特征图，在线索推理网络中，根据所述第一特征图中的空间位置的特征，计算所述第一特征图中的空间位置的能量分数；根据所述第一特征图中的空间位置的能量分数，计算所述第一特征图包含的局部空间范围的能量分布特征；根据所述多帧特征图各自包含的局部空间范围的能量分布图特征，计算所述多帧特征图的帧间能量移动特征。

进一步可选地，处理器602在根据所述第一特征图中的空间位置的特征，计算所述第一特征图中的空间位置的能量分数时，具体用于：针对所述第一特征图中的任一空间位置，获取所述空间位置的特征矩阵以及所述特征矩阵的转置矩阵；对所述特征矩阵和所述转置矩阵进行矩阵运算，得到所述空间位置的能量分数。

进一步可选地，处理器602还用于：采用设定的栅格化尺寸，对所述第一特征图进行栅格化处理，得到所述第一特征图对应的至少一个栅格区域。

进一步可选地，所述设定的栅格化尺寸包括：多种不同尺寸的栅格化窗口。

进一步可选地，处理器602在根据所述第一特征图中的空间位置的能量分数，计算所述第一特征图包含的局部空间范围的能量分布特征时，具体用于：针对所述至少一个栅格区域中的第一栅格区域，根据所述第一栅格区域内的空间位置的能量分数，对所述第一栅格区域内的空间位置进行排序；根据所述排序的结果，得到所述第一栅格区域内的空间位置各自的排序索引。

进一步可选地，处理器602在根据所述多帧特征图各自包含的局部空间范围的能量分布图特征，计算所述多帧特征图的帧间能量移动特征时，具体用于：从所述多帧特征图中除所述第一特征图之外的其他特征图中，确定与所述第一栅格区域对齐的其他栅格区域；针对所述第一栅格区域中的第一空间位置，在所述其他栅格区域中，定位与所述第一空间位置的排序索引相同的其他空间位置；将所述第一空间位置和所述其他空间位置，作为一组能量发生帧间移动的空间位置。

进一步可选地，处理器602在根据所述多帧特征图的帧间能量移动特征，生成至少一条动作线索时，具体用于：按照所述第一空间位置和所述其他空间位置各自所属的特征图的时间顺序，将所述第一空间位置和所述其他空间位置各自对应的特征生成特征序列，并将所述特征序列作为一条动作线索。

进一步可选地，处理器602还用于：可视化展示所述至少一条动作线索。

进一步可选地，处理器602还用于：根据所述至少一条动作线索，识别所述视频数据包含的动作。

进一步可选地，处理器602在根据所述至少一条动作线索，识别所述视频包含的动作时，具体用于：在时序卷积网络的卷积层中，根据时序卷积参数，对所述至少一条动作线索进行时序卷积操作，以得到所述至少一条动作线索的时序特征；在所述时序卷积网络的全连接层中，根据所述全连接层的模型参数、所述至少一条动作线索的时序特征，识别所述视频包含的动作。

进一步可选地，处理器602还用于：将所述多帧特征图进行对齐，并将所述多帧特征图上相同空间位置的能量分数进行叠加，得到多个不同空间位置各自对应的堆叠能量；对所述多个不同空间位置各自对应的堆叠能量进行归一化处理，得到所述多帧特征图的显著区域分布特征。

进一步可选地，处理器602在根据所述至少一条动作线索，识别所述视频包含的动作时，具体用于：在时序卷积网络的卷积层中，根据时序卷积参数，对所述至少一条动作线索进行时序卷积操作，以得到动作线索的时序特征；在所述时序卷积网络的全连接层中，根据所述全连接层的模型参数、所述至少一条动作线索的时序特征和所述显著区域分布特征，识别所述视频包含的动作。

进一步可选地，处理器602还用于：根据所述全连接层对所述视频的识别结果以及监督信号，构造交叉熵损失函数；根据所述显著区域分布特征以及所述显著区域分布特征的能量方差，计算线索正则化损失函数；根据所述线索正则化损失函数和所述交叉熵损失函数，构造损失函数；根据所述损失函数，对所述时序卷积参数和/或所述全连接层的模型参数进行优化。

进一步，如图6所示，该电子设备还包括：通信组件603、显示组件604、电源组件605、音频组件606等其它组件。图6中仅示意性给出部分组件，并不意味着电子设备只包括图6所示组件。

其中，通信组件603被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络，如WiFi，2G、3G、4G或5G，或它们的组合。在一个示例性实施例中，通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，通信组件可基于近场通信(NFC)技术、射频识别(RFID)技术、红外数据协会(IrDA)技术、超宽带(UWB)技术、蓝牙(BT)技术和其他技术来实现。

其中，显示组件604包括屏幕，其屏幕可以包括液晶显示组件(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。

其中，电源组件605，为电源组件所在设备的各种组件提供电力。电源组件可以包括电源管理系统，一个或多个电源，及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。

本实施例中，基于从样本视频数据中提取的多帧特征图中的空间位置的特征，计算多帧特征图的帧间能量移动特征；根据帧间能量移动特征，可从多帧特征图中发现运动物体的动作线索。在此过程中，未引入额外的参数以及额外的光流信息，降低了算法的复杂度。在基于动作线索学习分类任务的过程中，可基于线索正则化损失函数优化动作线索的能量方差，可在降低算法复杂度的同时，有效地提升动作识别结果的准确性。

除前述各实施例记载的处理逻辑外，图6所示的电子设备中，处理器602还可执行以下记载的处理逻辑：将待识别的视频数据输入算法模型；在所述算法模型的特征提取网络中，基于所述视频数据，提取多帧特征图；在所述算法模型的线索推理网络中，根据所述多帧特征图包含的特征，计算所述多帧特征图的帧间能量移动特征；并根据所述多帧特征图的帧间能量移动特征，生成至少一条动作线索；在所述算法模型的时序卷积网络中，根据所述至少一条动作线索，识别所述视频包含的动作。

除前述实施例记载的处理逻辑之外，图6示意的电子设备还可执行如下的处理逻辑：通过处理器602将样本视频数据输入算法模型；在所述算法模型的特征提取网络中，基于所述样本视频数据，提取多帧特征图；在所述算法模型的线索推理网络中，根据所述多帧特征图包含的特征，计算所述多帧特征图的帧间能量移动特征；并根据所述多帧特征图的帧间能量移动特征，生成至少一条动作线索；在所述算法模型的时序卷积网络中，根据所述至少一条动作线索，识别所述视频包含的动作，并根据所述识别的结果以及设定的损失函数，对所述时序卷积网络的模型参数进行优化。

进一步可选地，处理器602在根据所述至少一条动作线索，识别所述视频包含的动作时，具体用于：在所述时序卷积网络的卷积层中，根据时序卷积参数，对所述至少一条动作线索进行时序卷积操作，以得到动作线索的时序特征；在所述时序卷积网络的全连接层中，根据所述全连接层的模型参数、所述至少一条动作线索的时序特征和所述显著区域分布特征，识别所述视频包含的动作。

进一步可选地，处理器602还用于：根据所述全连接层对所述视频的识别结果以及监督信号，构造交叉熵损失函数；根据所述显著区域分布特征以及所述显著区域分布特征的能量方差，计算线索正则化损失函数；根据所述线索正则化损失函数和所述交叉熵损失函数，构造所述设定的损失函数。

相应地，本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，计算机程序被执行时能够实现上述方法实施例中可由电子设备执行的各步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种数据处理方法，其特征在于，包括：

获取待识别的视频数据；

基于所述视频数据，提取多帧特征图；

根据所述多帧特征图包含的特征，计算所述多帧特征图的帧间能量移动特征；

根据所述多帧特征图的帧间能量移动特征，生成至少一条动作线索。

2.根据权利要求1所述的方法，其特征在于，根据所述多帧特征图包含的特征，计算所述多帧特征图的帧间能量移动特征，包括：

针对所述多帧特征图中的第一特征图，在线索推理网络中，根据所述第一特征图中的空间位置的特征，计算所述第一特征图中的空间位置的能量分数；

根据所述第一特征图中的空间位置的能量分数，计算所述第一特征图包含的局部空间范围的能量分布特征；

根据所述多帧特征图各自包含的局部空间范围的能量分布图特征，计算所述多帧特征图的帧间能量移动特征。

3.根据权利要求2所述的方法，其特征在于，根据所述第一特征图中的空间位置的特征，计算所述第一特征图中的空间位置的能量分数，包括：

针对所述第一特征图中的任一空间位置，获取所述空间位置的特征矩阵以及所述特征矩阵的转置矩阵；

对所述特征矩阵和所述转置矩阵进行矩阵运算，得到所述空间位置的能量分数。

4.根据权利要求2所述的方法，其特征在于，还包括：

采用设定的栅格化尺寸，对所述第一特征图进行栅格化处理，得到所述第一特征图对应的至少一个栅格区域。

5.根据权利要求4所述的方法，其特征在于，采用设定的栅格化尺寸，对所述第一特征图进行栅格化处理，包括：

采用多种不同尺寸的栅格化窗口在所述第一特征图上滑动，以将所述第一特征图划分为多种不同尺寸的栅格。

6.根据权利要求4所述的方法，其特征在于，根据所述第一特征图中的空间位置的能量分数，计算所述第一特征图包含的局部空间范围的能量分布特征，包括：

针对所述至少一个栅格区域中的第一栅格区域，根据所述第一栅格区域内的空间位置的能量分数，对所述第一栅格区域内的空间位置进行排序；

根据所述排序的结果，得到所述第一栅格区域内的空间位置各自的排序索引。

7.根据权利要求6所述的方法，其特征在于，根据所述多帧特征图各自包含的局部空间范围的能量分布图特征，计算所述多帧特征图的帧间能量移动特征，包括：

从所述多帧特征图中除所述第一特征图之外的其他特征图中，确定与所述第一栅格区域对齐的其他栅格区域；

针对所述第一栅格区域中的第一空间位置，在所述其他栅格区域中，定位与所述第一空间位置的排序索引相同的其他空间位置；

将所述第一空间位置和所述其他空间位置，作为一组能量发生帧间移动的空间位置。

8.根据权利要求7所述的方法，其特征在于，根据所述多帧特征图的帧间能量移动特征，生成至少一条动作线索，包括：

按照所述第一空间位置和所述其他空间位置各自所属的特征图的时间顺序，将所述第一空间位置和所述其他空间位置各自对应的特征生成特征序列，并将所述特征序列作为一条动作线索。

9.根据权利要求1-8任一项所述的方法，其特征在于，还包括：可视化展示所述至少一条动作线索。

10.根据权利要求2-8任一项所述的方法，其特征在于，还包括：

根据所述至少一条动作线索，识别所述视频数据包含的动作。

11.根据权利要求10所述的方法，其特征在于，根据所述至少一条动作线索，识别所述视频数据包含的动作，包括：

在时序卷积网络的卷积层中，根据时序卷积参数，对所述至少一条动作线索进行时序卷积操作，以得到所述至少一条动作线索的时序特征；

在所述时序卷积网络的全连接层中，根据所述全连接层的模型参数、所述至少一条动作线索的时序特征，识别所述视频数据包含的动作。

12.根据权利要求10所述的方法，其特征在于，还包括：

将所述多帧特征图进行对齐，并将所述多帧特征图上相同空间位置的能量分数进行叠加，得到多个不同空间位置各自对应的堆叠能量；

对所述多个不同空间位置各自对应的堆叠能量进行归一化处理，得到所述多帧特征图的显著区域分布特征。

13.根据权利要求12所述的方法，其特征在于，根据所述至少一条动作线索，识别所述视频数据包含的动作，包括：

在时序卷积网络的卷积层中，根据时序卷积参数，对所述至少一条动作线索进行时序卷积操作，以得到动作线索的时序特征；

在所述时序卷积网络的全连接层中，根据所述全连接层的模型参数、所述至少一条动作线索的时序特征和所述显著区域分布特征，识别所述视频数据包含的动作。

14.根据权利要求13所述的方法，其特征在于，还包括：

根据所述全连接层对所述视频数据的识别结果以及监督信号，构造交叉熵损失函数；

根据所述显著区域分布特征以及所述显著区域分布特征的能量方差，计算线索正则化损失函数；

根据所述线索正则化损失函数和所述交叉熵损失函数，构造损失函数；

根据所述损失函数，对所述时序卷积参数和/或所述全连接层的模型参数进行优化。

15.一种动作识别方法，其特征在于，包括：

将待识别的视频数据输入算法模型；

在所述算法模型的特征提取网络中，基于所述视频数据，提取多帧特征图；

在所述算法模型的线索推理网络中，根据所述多帧特征图包含的特征，计算所述多帧特征图的帧间能量移动特征；并根据所述多帧特征图的帧间能量移动特征，生成至少一条动作线索；

在所述算法模型的时序卷积网络中，根据所述至少一条动作线索，识别所述视频包含的动作。

16.一种模型训练方法，其特征在于，包括：

将样本视频数据输入算法模型；

在所述算法模型的特征提取网络中，基于所述样本视频数据，提取多帧特征图；

在所述算法模型的时序卷积网络中，根据所述至少一条动作线索，识别所述视频包含的动作，并根据所述识别的结果以及设定的损失函数，对所述时序卷积网络的模型参数进行优化。

17.根据权利要求16所述的方法，其特征在于，根据所述多帧特征图包含的特征，计算所述多帧特征图的帧间能量移动特征，包括：

18.根据权利要求17所述的方法，其特征在于，还包括：

19.根据权利要求18所述的方法，其特征在于，根据所述至少一条动作线索，识别所述视频包含的动作，包括：

在所述时序卷积网络的卷积层中，根据时序卷积参数，对所述至少一条动作线索进行时序卷积操作，以得到动作线索的时序特征；

在所述时序卷积网络的全连接层中，根据所述全连接层的模型参数、所述至少一条动作线索的时序特征和所述显著区域分布特征，识别所述视频包含的动作。

20.根据权利要求19所述的方法，其特征在于，还包括：

根据所述全连接层对所述视频的识别结果以及监督信号，构造交叉熵损失函数；

根据所述线索正则化损失函数和所述交叉熵损失函数，构造所述设定的损失函数。

21.一种电子设备，其特征在于，包括：存储器和处理器；

所述存储器用于存储一条或多条计算机指令；

所述处理器用于执行所述一条或多条计算机指令以用于：执行权利要求1-14任一项所述的数据处理方法，或者权利要求15所述的动作识别方法，或者权利要求16-20任一项所述的模型训练方法。

22.一种存储有计算机程序的计算机可读存储介质，其特征在于，计算机程序被处理器执行时能够实现1-14任一项所述的数据处理方法，或者权利要求15所述的动作识别方法或者权利要求16-20任一项所述的模型训练方法。