CN112633261A

CN112633261A - 图像检测方法、装置、设备及存储介质

Info

Publication number: CN112633261A
Application number: CN202110252444.4A
Authority: CN
Inventors: 贾文浩; 高原; 刘霄
Original assignee: Beijing Century TAL Education Technology Co Ltd
Current assignee: Beijing Century TAL Education Technology Co Ltd
Priority date: 2021-03-09
Filing date: 2021-03-09
Publication date: 2021-04-09

Abstract

本申请提出一种图像检测方法、装置、电子设备及存储介质。具体实现方案为：检测待处理图像序列，得到关键点特征；提取待处理图像序列的光流特征；根据关键点特征和光流特征，得到待处理图像序列的动作检测结果。本申请实施例根据关键点特征和光流特征对待处理图像序列中的动作进行分析，提高了待处理图像序列的动作检测结果的准确率。可利用动作检测结果辅助对图像序列中的动作表现进行改进，从而进一步提高动作表现力。

Description

图像检测方法、装置、设备及存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种图像检测方法、装置、设备及存储介质。

背景技术

在图像检测领域中，对于待检测图像序列中的人体动作进行识别和评估，对人机交互、运动分析和监控等都有重要的现实意义。例如在线教育场景下，教师通过直播或者录播技术将上课内容录制成视频形式，学生通过观看视频完成学习。对于教师，可以通过人体动作识别相关技术判断其肢体语言是否丰富、评价其上课表现力，最终达到辅助教师提高表现力的目的。但是，由于人体动作的多变性和高复杂性，对于视频中的人体动作是否到位、肢体语言是否丰富，很难得到一个准确的检测结果。

发明内容

本申请实施例提供一种图像检测方法、装置、电子设备及存储介质，以解决相关技术存在的问题，技术方案如下：

第一方面，本申请实施例提供了一种图像检测方法，包括：

检测待处理图像序列，得到关键点特征；

提取待处理图像序列的光流特征；

根据关键点特征和光流特征，得到待处理图像序列的动作检测结果。

在一种实施方式中，检测待处理图像序列，得到关键点特征，包括：

检测待处理图像序列，得到关键点序列和关键点邻接矩阵；

利用卷积网络模型对关键点序列和关键点邻接矩阵进行处理，得到关键点特征。

在一种实施方式中，检测待处理图像序列，得到关键点序列和关键点邻接矩阵，包括：

检测待处理图像序列中人体的位置，得到人体位置检测框；

在人体位置检测框中检测人体的关键点，得到关键点序列；

根据关键点序列构建关键点邻接矩阵。

在一种实施方式中，在人体位置检测框中检测人体的关键点，得到关键点序列，包括：

在人体位置检测框中检测人体的关键点，得到关键点坐标；

对关键点坐标进行第一归一化操作，得到关键点序列。

在一种实施方式中，对关键点坐标进行第一归一化操作，得到关键点序列，包括：

根据人体位置检测框对关键点坐标进行第一归一化操作。

在一种实施方式中，关键点邻接矩阵中包括任意两个关键点之间的连接权重，连接权重用于表征卷积网络模型对任意两个关键点相关的动作的关注程度。

在一种实施方式中，卷积网络模型包括空间时间图卷积网络模型。

在一种实施方式中，空间时间图卷积网络模型中包括空间注意力模块、时序注意力模块和通道注意力模块中的至少一种。

在一种实施方式中，提取待处理图像序列的光流特征，包括：

提取待处理图像序列的稠密光流信息，得到光流图像序列；

利用神经网络模型对光流图像序列进行处理，得到待处理图像序列的光流特征。

在一种实施方式中，根据关键点特征和光流特征，得到待处理图像序列的动作检测结果，包括：

根据关键点特征和光流特征，得到至少两个检测结果；

将至少两个检测结果进行融合，得到待处理图像序列的动作检测结果。

在一种实施方式中，根据关键点特征和光流特征，得到至少两个检测结果，包括：

根据关键点特征得到待处理图像序列的第一检测结果；

根据光流特征得到待处理图像序列的第二检测结果。

在一种实施方式中，根据关键点特征和光流特征，得到至少两个检测结果，还包括：

根据关键点特征和光流特征得到融合特征，根据融合特征得到待处理图像序列的第三检测结果。

在一种实施方式中，根据关键点特征和光流特征得到融合特征，包括：

对关键点特征依次进行第一卷积操作和上采样操作；

对光流特征进行第二卷积操作；

将上采样操作之后的关键点特征和第二卷积操作之后的光流特征进行第一拼接操作，得到拼接特征；

将拼接特征进行第三卷积操作，得到融合特征。

在一种实施方式中，将至少两个检测结果进行融合，得到待处理图像序列的动作检测结果，包括：

将至少两个检测结果进行第二拼接操作，得到拼接结果；

将拼接结果依次进行第四卷积操作、第二归一化操作、线性修正操作和全连接操作，得到待处理图像序列的动作检测结果。

第二方面，本申请实施例提供了一种图像检测装置，包括：

第一处理单元，用于检测待处理图像序列，得到关键点特征；

第二处理单元，用于提取待处理图像序列的光流特征；

检测单元，用于根据关键点特征和光流特征，得到待处理图像序列的动作检测结果。

在一种实施方式中，第一处理单元包括：

第一检测子单元，用于检测待处理图像序列，得到关键点序列和关键点邻接矩阵；

处理子单元，用于利用卷积网络模型对关键点序列和关键点邻接矩阵进行处理，得到关键点特征。

在一种实施方式中，第一检测子单元包括：

第二检测子单元，用于检测待处理图像序列中人体的位置，得到人体位置检测框；

第三检测子单元，用于在人体位置检测框中检测人体的关键点，得到关键点序列；

构建子单元，用于根据关键点序列构建关键点邻接矩阵。

在一种实施方式中，第三检测子单元用于：

在人体位置检测框中检测人体的关键点，得到关键点坐标；

对关键点坐标进行第一归一化操作，得到关键点序列。

在一种实施方式中，第三检测子单元还用于：

根据人体位置检测框对关键点坐标进行第一归一化操作。

在一种实施方式中，第二处理单元用于：

提取待处理图像序列的稠密光流信息，得到光流图像序列；

在一种实施方式中，检测单元包括：

特征处理子单元，用于根据关键点特征和光流特征，得到至少两个检测结果；

融合子单元，用于将至少两个检测结果进行融合，得到待处理图像序列的动作检测结果。

在一种实施方式中，特征处理子单元用于：

根据关键点特征得到待处理图像序列的第一检测结果；

根据光流特征得到待处理图像序列的第二检测结果。

在一种实施方式中，特征处理子单元还用于：

在一种实施方式中，特征处理子单元用于：

对关键点特征依次进行第一卷积操作和上采样操作；

对光流特征进行第二卷积操作；

将拼接特征进行第三卷积操作，得到融合特征。

在一种实施方式中，融合子单元用于：

将至少两个检测结果进行第二拼接操作，得到拼接结果；

第三方面，本申请实施例提供了一种电子设备，该设备包括：存储器和处理器。其中，该存储器和该处理器通过内部连接通路互相通信，该存储器用于存储指令，该处理器用于执行该存储器存储的指令，并且当该处理器执行该存储器存储的指令时，使得该处理器执行上述各方面任一种实施方式中的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质存储计算机程序，当计算机程序在计算机上运行时，上述各方面任一种实施方式中的方法被执行。

上述技术方案中的优点或有益效果至少包括：根据关键点特征和光流特征对待处理图像序列中的动作进行分析，提高了待处理图像序列的动作检测结果的准确率。可利用动作检测结果辅助对图像序列中的动作表现进行改进，从而进一步提高动作表现力。

上述概述仅仅是为了说明书的目的，并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外，通过参考附图和以下的详细描述，本申请进一步的方面、实施方式和特征将会是容易明白的。

附图说明

在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本申请公开的一些实施方式，而不应将其视为是对本申请范围的限制。

图1为根据本申请实施例的图像检测方法的流程图；

图2为根据本申请另一实施例的图像检测方法的检测关键点特征的流程图；

图3为根据本申请另一实施例的图像检测方法的测检关键点特征的流程图；

图4为根据本申请另一实施例的图像检测方法的测检关键点特征的流程图；

图5为根据本申请另一实施例的图像检测方法的关键点连接关系示意图；

图6为根据本申请另一实施例的图像检测方法的关键点连接关系示意图；

图7为根据本申请另一实施例的图像检测方法的图卷积网络的结构示意图；

图8为根据本申请另一实施例的图像检测方法的提取光流特征的流程图；

图9为根据本申请另一实施例的图像检测方法的流程图；

图10为根据本申请另一实施例的图像检测方法的流程图；

图11为根据本申请另一实施例的图像检测方法的特征融合的流程图；

图12为根据本申请另一实施例的图像检测方法的特征融合的流程图；

图13为根据本申请另一实施例的图像检测方法的结果融合的流程图；

图14为根据本申请另一实施例的图像检测方法的结果融合的流程图；

图15为根据本申请另一实施例的图像检测方法的流程图；

图16为根据另一本申请实施例的图像检测装置的结构示意图；

图17为根据另一本申请实施例的图像检测装置的第一处理单元的结构示意图；

图18为根据另一本申请实施例的图像检测装置的第一检测子单元的结构示意图；

图19为根据另一本申请实施例的图像检测装置的检测单元的结构示意图；

图20为用来实现本申请实施例的电子设备的框图。

具体实施方式

在下文中，仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样，在不脱离本申请的精神或范围的情况下，可通过各种不同方式修改所描述的实施例。因此，附图和描述被认为本质上是示例性的而非限制性的。

图1为根据本申请实施例的图像检测方法的流程图。如图1所示，该图像检测方法可以包括：

步骤S110，检测待处理图像序列，得到关键点特征；

步骤S120，提取待处理图像序列的光流特征；

步骤S130，根据关键点特征和光流特征，得到待处理图像序列的动作检测结果。

本申请实施例提供的图像检测方法，可对待检测图像序列中的人体动作进行评估。例如可分析动作是否到位、肢体语言是否丰富等。利用本申请实施例得到的动作检测结果可以辅助对图像序列中的动作表现进行改进，从而进一步提高动作表现力。

一方面，在进行人体动作分析的过程中，可在人体的骨架中提取关键点，或者将人体的关节作为关键点。人体的骨架和关节轨迹对于光照变化和场景变化具有鲁棒性。并且借助高精度的深度传感器或姿势估计算法，骨架和关节轨迹易于获得。在步骤S110中，可检测待处理图像序列中的人体的关键点，得到关键点特征。

另一方面，可利用光流（optical flow）法对运动图像进行分析。光流指空间运动物体在观察成像平面上的像素运动的瞬时速度。当人的眼睛观察运动物体时，物体的景象在人眼的视网膜上形成一系列连续变化的图像，这一系列连续变化的信息不断“流过”视网膜（即图像平面），好像一种光的“流”，故称之为光流。光流表达了图像的变化，由于它包含了目标运动的信息，因此可被观察者用来确定目标的运动情况。光流法是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性，得到上一帧跟当前帧之间存在的对应关系，从而计算出相邻帧之间物体的运动信息的一种方法。

在空间中，运动可以用运动场描述。在一个图像平面上，物体的运动往往是通过图像序列中不同图像灰度分布的不同来体现的。从而，空间中的运动场转移到图像上就表示为光流场（optical flow field）。光流场是一个二维矢量场，它反映了图像上每一点灰度的变化趋势，可看成是带有灰度的像素点在图像平面上运动而产生的瞬时速度场。光流场中包含的信息即是各像点的瞬时运动速度矢量信息。

在步骤S120中，可针对待处理图像序列进行处理，得到包括光流场信息的光流图像序列，再从光流图像序列中提取待处理图像序列的光流特征。

在步骤S130中，可分别根据关键点特征和光流特征对待处理图像序列中的人体动作进行评估，再将评估得到的检测结果进行融合，通过结果融合最终得到待处理图像序列的动作检测结果。

本申请实施例根据关键点特征和光流特征对待处理图像序列中的动作进行分析，提高了待处理图像序列的动作检测结果的准确率。可利用动作检测结果辅助对图像序列中的动作表现进行改进，从而进一步提高动作表现力。

图2为根据本申请另一实施例的图像检测方法的检测关键点特征的流程图。如图2所示，在一种实施方式中，图1中的步骤S110，检测待处理图像序列，得到关键点特征，包括：

步骤S210，检测待处理图像序列，得到关键点序列和关键点邻接矩阵；

步骤S220，利用卷积网络模型对关键点序列和关键点邻接矩阵进行处理，得到关键点特征。

本申请实施例中，可针对待处理图像序列中的各帧图像进行关键点检测，得到关键点序列。再根据关键点序列构建关键点邻接矩阵。然后将关键点序列和关键点邻接矩阵输入卷积网络模型，利用卷积网络模型提取待处理图像序列的关键点特征。

图3为根据本申请另一实施例的图像检测方法的检测关键点特征的流程图。如图3所示，在一种实施方式中，检测待处理图像序列，得到关键点序列和关键点邻接矩阵，包括：

步骤S310，检测待处理图像序列中人体的位置，得到人体位置检测框；

步骤S320，在人体位置检测框中检测人体的关键点，得到关键点序列；

步骤S330，根据关键点序列构建关键点邻接矩阵。

然后利用本申请实施例提供的图像检测方法评价目标人物例如教师的肢体语言是否丰富，以达到辅助教师提高表现力的目的。本申请实施例中，需要对预先拍摄的视频进行检测，从中提取出关键点特征和光流特征，然后根据关键点特征和光流特征得到动作检测结果。其中，关键点特征包括关键点序列。在步骤S210中，可在待处理图像序列中检测人体的位置，得到人体的位置信息。人体的位置信息可包括人体位置检测框。例如人体位置检测框可以是一个矩形框。人体的位置信息可包括矩形框的顶点位置坐标的值。在步骤S220中，在人体位置检测框中检测人体的关键点，得到关键点序列。例如可将人体的骨架中提取关键点，或者将人体的关节作为关键点。在步骤S330中，步骤S320中得到的。

图4为根据本申请另一实施例的图像检测方法的测检关键点特征的流程图。如图4所示，在一种实施方式中，图3中的步骤S320，在人体位置框中检测人体的关键点，得到关键点序列，包括：

步骤S410，在人体位置框中检测人体的关键点，得到关键点坐标；

步骤S420，对关键点坐标进行第一归一化操作，得到关键点序列。

其中，可将膝盖、手肘等人体的关节作为关键点。在步骤S410中，可对人体位置检测框中的图像进行关键点检测，得到关键点坐标。在步骤S420中，对步骤S410中得到关键点坐标进行第一归一化操作，将第一归一化操作之后的关键点坐标作为关键点序列。

在教育场景的示例中，可预先拍摄教师课堂教学、直播或者录播的视频，然后利用本申请实施例提供的图像检测方法评价教师的肢体语言是否丰富，以达到辅助教师提高表现力的目的。本申请实施例中，需要对预先拍摄的视频进行检测，从中提取出关键点特征和光流特征，然后根据关键点特征和光流特征得到动作检测结果。

一个示例性的从视频中提取关键点序列的处理过程可包括以下步骤：

步骤1：对于一段视频，记为video（视频）。按一定采样频率r对该视频进行采样操作，得到一系列的n张图像帧（frames）。采样得到的n张图像帧构成待处理图像序列。

步骤2：对于待处理图像序列中的每一张图像frame_i，检测图像中人体的位置bbox_i_k。其中，i表示图像编号，frame_i表示第i张图像；k表示图像中的人体的编号，bbox_i_k表示第i张图像中第k个人体的位置信息。人体的位置信息可包括人体位置检测框。

步骤3：对于每张图像frame_i中检测到的人体，检测人体的关键点keypoints_i，得到整个视频的关键点序列keypoints = {keypoints_1, keypoints_2, keypoints_3,...keypoints_i.....keypoints_n}。其中，第i帧图像frame_i中检测到的人体的关键点集合用keypoints_i表示，keypoints_i由第i帧图像中检测到的每一个关键点keypoints_i_j组成。其中，j表示关键点的编号。对于第i帧图像frame_i中检测到的每一个关键点keypoints_i_j，检测到的信息包括{x_i_j，y_i_j，c_i_j}。其中，x和y分别表示关键点的x方向坐标值和y方向坐标值，j表示关键点的编号，c表示关键点的置信度。

步骤4：对步骤3中得到的关键点序列的每一个x坐标与y坐标进行第一归一化操作，得到关键点序列。第一归一化操作之后得到的关键点序列也称为标准关键点序列。归一化操作有利于训练模型算法收敛。

根据人体位置检测框对关键点坐标进行第一归一化操作。

其中，第一归一化包括按照当前人体所在的人体位置检测框的尺寸进行归一化操作。

在相关技术中，归一化操作可以是按照图片尺寸进行归一化的。本申请实施例中的归一化操作可以按照当前人体所在的人体位置检测框的尺寸进行归一化。在拍摄视频时人体距离摄像头比较远的情况下，可能人体位置检测框会比较小。在这种情况下，根据人体位置检测框对关键点坐标进行第一归一化操作的方式使得信息捕捉得更加准确，具有较好的检测效果和鲁棒性。

在一种实施方式中，可以将坐标值按照人体位置检测框的尺寸归一化到[0-1]的数值区间。在另一种实施方式中，可以在此基础上再添加一个步骤，将x方向坐标值和y方向坐标值同时减去0.5，使得数值分布到[-0.5，0.5]的数值区间。这种方式的有益效果是能使训练时间更短，训练结果更稳定。

参见图3，在步骤S330中，可在步骤S310和步骤S320的基础上根据关键点序列构建关键点邻接矩阵。在一个示例中，关键点邻接矩阵A可包含各个关键点在空间上和在时间序列两个方向上的连接关系。其中，单帧图像肢体上相邻关键点具有连接关系，如图5所示。图5中的（x，y，c）分别表示关键点的x方向坐标值、y方向坐标值和关键点的置信度。

在后续处理步骤中，可将关键点邻接矩阵输入到卷积网络模型，利用卷积网络模型输出待处理图像序列的关键点特征。关键点邻接矩阵中任意两个关键点之间的连接权重可用于控制卷积网络模型对肢体动作的关注程度。

在一个示例中，对于关键点邻接矩阵

，其中K代表关键点的个数。关键点邻接矩阵A中的元素

表示第l个关节点和第m个关键点之间的连接权重。例如，对于相邻的关键点，比如肩膀和手肘，髋骨和膝盖，连接权重

。因为四肢对应的关键点（比如左手、右手、左脚、右脚）的动作幅度相对来说比较大，所以四肢对应的关键点与其相邻的关键点的连接权重

3，

3。其中，

表示手和肘之间的连接权重，

表示脚和膝盖之间的连接权重。按照以上方式设定连接权重，能够增强卷积网络模型对四肢运动幅度的判别力，使得卷积网络模型能够有效捕捉四肢对应的关键点的运动信息。

图6为根据本申请另一实施例的图像检测方法的关键点连接关系示意图。如图6所示，在时间序列上，关键点邻接矩阵中将不同帧的相同关键点连接起来。

本申请实施例中，可将关键点序列和关键点邻接矩阵A作为空间时间图卷积网络模型的输入特征，利用空间时间图卷积网络模型得到关键点特征（keypoints feature）。

在一个示例中，空间时间图卷积网络模型（ST-GCN，Spatial Temporal GraphConvolutional Network）可包括图卷积网络（GCN，Graph Convolutional Network）和时间卷积网络（TCN，Temporal Convolutional Network）。可先将输入特征经过批归一化操作（BN，Batch Normalization）再输入到空间时间图卷积网络模型。例如可先将关键点序列经过批归一化操作，再将关键点邻接矩阵和批归一化操作后的关键点序列输入空间时间图卷积网络模型。采用批归一化操作使得每一层神经网络的输入保持相同分布的，使得模型训练过程更加稳定，可以采用较大的学习率来加速收敛。

图7为根据本申请另一实施例的图像检测方法的图卷积网络的结构示意图。如图7所示，可在图卷积网络GCN中增加以下几个模块中的至少一种：Spatial Attention Module（空间注意力模块）、Temporal Attention Module（时序注意力模块）、Channel AttentionModule（通道注意力模块）。图7中的符号“X”代表对应元素相乘的操作，符号“+”代表对应元素相加的操作。在图7所示的网络中，输入特征（input feature）经过空间注意力模块、时序注意力模块、通道注意力模块以及若干次对应元素相乘和对应元素相加的操作，最终得到图卷积网络GCN提取的特征。

在上述网络结构中，空间注意力模块能够帮助网络学习到不同关节点不同程度的重要性。该模块的计算方式如下：

其中，

表示输入到空间注意力模块的特征图（C _in表示输入的通道数，T表示视频的数量，R表示特征空间，N表示样本数量）。AvgPool表示平均池化操作。

表示1维卷积操作。σ表示Sigmoid激活函数。上述公式计算得到空间注意力模块输出的特征图

。然后将输出的特征图与输入的特征图进行相乘操作，再将相乘操作后的结果与输入的特征图进行相加操作。参见图7，上述相加操作后的结果作为下一个模块（时序注意力模块）的输入特征图。

时序注意力模块与空间注意力模块的计算方式类似。时序注意力模块的计算方式如下：

其中，

表示输入到时序注意力模块的特征图（C _in表示输入的通道数，T表示视频的数量，R表示特征空间，N表示样本数量）。AvgPool表示平均池化操作。

。然后将输出的特征图与输入的特征图进行相乘操作，再将相乘操作后的结果与输入的特征图进行相加操作。参见图7，上述相加操作后的结果作为下一个模块（通道注意力模块）的输入特征图。

通道注意力模块能够有效帮助模型增强根据输入样本判别特征的能力。通过如下公式生成注意力映射图（attention maps）

：，

其中，

，

，

，

和

是两个全连接层的权重，C表示通道数，R表示特征空间，r表示调整特征空间维度的比例系数。

表示输入到通道注意力模块的特征图（C _in表示输入的通道数，T表示视频的数量，R表示特征空间，N表示样本数量）。AvgPool表示平均池化操作。

表示Sigmoid激活函数。上述公式计算得到通道注意力模块输出的注意力映射图

。然后将输出的特征图与输入的特征图进行相乘操作，再将相乘操作后的结果与输入的特征图进行相加操作。参见图7，上述相加操作后的结果作为图卷积网络GCN的输出特征图。

本申请实施例中，在图卷积网络GCN中增加空间注意力模块、时序注意力模块和/或通道注意力模块，在增加有限计算量的情况下，能够有效提升网络特征提取能力，提升最终图像检测的预测精度。

图8为根据本申请另一实施例的图像检测方法的提取光流特征的流程图。如图8所示，在一种实施方式中，图1中的步骤S120，提取待处理图像序列的光流特征，包括：

步骤S510，提取待处理图像序列的稠密光流信息，得到光流图像序列；

步骤S520，利用神经网络模型对光流图像序列进行处理，得到待处理图像序列的光流特征。

光流是由物体或相机的运动引起的图像对象在两个连续帧之间的视在运动的瞬时速度。在基于光流的图像分析方法中，可计算在t和t+Δt时刻拍摄的两个图像帧之间的每个像素的运动偏移量。光流可包括稀疏光流和稠密光流。其中，稀疏光流选取图像中的某些特征点，例如可以选用角点，计算特征点的偏移量，得到光流场。和稀疏光流相比，稠密光流不仅仅是选取图像中的某些特征点进行计算，而是对图像进行逐点计算，计算所有点的偏移量，得到光流场。基于稠密光流的图像分析方法是一种针对图像或图像中指定的某一片区域进行逐点匹配的图像配准方法。该方法可以计算图像上所有的点的偏移量，从而形成一个稠密的光流场。通过这个稠密的光流场，可以进行像素级别的图像配准，其配准后的效果也明显优于稀疏光流配准的效果。

其中，图像配准可包括对于两幅图像，通过寻找一种空间变换把一幅图像映射到另一幅图像上，使得两幅图像中对应于空间同一位置的点一一对应起来，从而可以达到图像检测或者信息融合的目的。在一个示例中，可将第一张图像作为参考图像，将第二张图像（当前帧图像）作为待配准图像。当前帧图像的所有像素点与前一帧图像比较，将像素点的变化标记出来。

在步骤S510中，可利用多项式对每个像素的邻域信息进行近似表示，例如可利用二次多项式对于图像进行近似建模，并在此基础上进行两帧运动估计，提取出待处理图像序列的稠密光流信息。包含稠密光流信息的图像序列构成光流图像序列。

在步骤S520中，可将步骤S510中得到的光流图像序列输入神经网络模型，利用神经网络模型输出待处理图像序列的光流特征。在一个示例中，可基于两个并行的网络对光流图像序列进行处理。两个并行的网络分别由基于卷积网络的时间识别流和空间识别流组成。使用两个并行的网络分别提取静态图片特征和动态密度光流特征。利用空间识别流从静态的视频帧中执行行为识别，同时利用时间识别流从密集光流形式的运动中训练以识别行为。最后通过softmax函数将两个分开的识别流（时间识别流和空间识别流）的识别结果进行融合，得到待处理图像序列的光流特征。

图9为根据本申请另一实施例的图像检测方法的流程图。如图9所示，在一种实施方式中，图1中的步骤S130，根据关键点特征和光流特征，得到待处理图像序列的动作检测结果，包括：

步骤S610，根据关键点特征和光流特征，得到至少两个检测结果；

步骤S620，将至少两个检测结果进行融合，得到待处理图像序列的动作检测结果。

本申请实施例中，关键点特征可以体现人体的骨架和关节等动作特征；光流特征中携带了运动物体的运动信息。在步骤S610中，可根据关键点特征和光流特征，利用网络模型回归得到至少两个检测结果。在步骤S620中，将步骤S610中得到的至少两个检测结果进行融合，得到待处理图像序列的动作检测结果。关键点特征和光流特征中携带了丰富的与待处理图像序列中的动作相关的信息，根据上述至少两种特征得到至少两个检测结果，再进行检测结果的融合，有效提高了待处理图像序列的动作检测结果的准确率。

图10为根据本申请另一实施例的图像检测方法的流程图。如图10所示，在一种实施方式中，图9中的步骤S610，根据关键点特征和光流特征，得到至少两个检测结果，包括：

步骤S710，根据关键点特征得到待处理图像序列的第一检测结果。

关键点特征体现了待处理图像序列的静态信息。本申请实施例中，可根据关键点特征通过第一FC（Fully connected，全连接）网络回归一个关键点分数，将关键点分数作为待处理图像序列的第一检测结果。

参见图10，在一种实施方式中，图9中的步骤S610，根据关键点特征和光流特征，得到至少两个检测结果，还包括：

步骤S720，根据光流特征得到待处理图像序列的第二检测结果。

光流特征体现了待处理图像序列的运动信息。本申请实施例中，可根据光流特征通过第二FC网络回归一个光流分数，将光流分数作为待处理图像序列的第二检测结果。

步骤S730，根据关键点特征和光流特征得到融合特征，根据融合特征得到待处理图像序列的第三检测结果。

融合特征体现了待处理图像序列的综合信息。本申请实施例中，可根据融合特征通过第三FC网络回归一个融合特征分数，将融合特征分数作为待处理图像序列的第三检测结果。

图11为根据本申请另一实施例的图像检测方法的特征融合的流程图。如图11所示，在一种实施方式中，图10中的步骤S730，根据关键点特征和光流特征得到融合特征，包括：

步骤S810，对关键点特征依次进行第一卷积操作和上采样操作；

步骤S820，对光流特征进行第二卷积操作；

步骤S830，将上采样操作之后的关键点特征和第二卷积操作之后的光流特征进行第一拼接操作，得到拼接特征；

步骤S840，将拼接特征进行第三卷积操作，得到融合特征。

图12为根据本申请另一实施例的图像检测方法的特征融合的流程图。参见图11和图12，在步骤S810中，对关键点特征进行第一卷积操作，例如可采用尺寸为1ⅹ1的卷积核（conv，1ⅹ1）对关键点特征进行第一卷积操作。然后对第一卷积操作之后的特征图进行上采样（upsampling）操作。在步骤S820中，可采用尺寸为1ⅹ1的卷积核（conv，1ⅹ1）对光流特征进行第二卷积操作。在步骤S830中，将步骤S810得到的上采样操作之后的关键点特征和步骤S820得到的第二卷积操作之后的光流特征进行第一拼接（concat）操作，得到拼接特征。在步骤S840中，将步骤S830中得到的拼接特征进行第三卷积操作，得到融合特征。例如可采用尺寸为3ⅹ3的卷积核（conv，3ⅹ3）对拼接特征进行第三卷积操作。

参见图11和图12，在一个示例中，关键点特征维度可以是N1*C1*H1*W1。其中，N1表示测试阶段的batch size（批尺寸），C1表示关键点特征的通道数，H1和W1分别表示关键点特征图的宽和高。本申请实施例中，首先对关键点特征进行一个卷积核为1ⅹ1的卷积操作，得到的特征维度为N1*C2*H1*W1。然后再对上述卷积操作之后的关键点特征进行一个上采样操作，得到的特征维度为N1*C2*H2*W2。例如，可使用如双线性插值等插值方法对像素点进行插值来完成上采样操作。

参见图11和图12，在一个示例中，光流特征维度为N1*C3*H2*W2。其中，N1表示测试阶段的batch size（批尺寸），C3表示光流特征的通道数，H2和W2分别表示光流特征图的宽和高。本申请实施例中，对光流特征经过一个卷积核为1ⅹ1的卷积操作，得到的特征维度为N1*C4*H2*W2。将维度为N1*C2*H2*W2的关键点特征和维度为N1*C4*H2*W2的光流特征拼接到一起，得到拼接特征。拼接特征的维度为N1*(C2+C4)*H2*W2。然后对拼接特征进行一个卷积核为3ⅹ3的卷积操作，得到融合特征。

融合特征是待处理图像序列的全集特征，体现了待处理图像序列的综合信息。将关键点特征和光流特征进行融合，可获得待处理图像序列的更加丰富的信息。根据融合特征对待处理图像序列中的动作进行分析，提高了待处理图像序列的动作检测结果的准确率。

图13为根据本申请另一实施例的图像检测方法的结果融合的流程图。如图13所示，在一种实施方式中，图9中的步骤S620，将至少两个检测结果进行融合，得到待处理图像序列的动作检测结果，包括：

步骤S910，将至少两个检测结果进行第二拼接操作，得到拼接结果；

步骤S920，将拼接结果依次进行第四卷积操作、第二归一化操作、线性修正操作和全连接操作，得到待处理图像序列的动作检测结果。

在第一种实施方式中，在步骤S620中，将至少两个检测结果进行融合，可包括将第一检测结果和第二检测结果进行融合。在第二种实施方式中，在步骤S620中，将至少两个检测结果进行融合，可包括将第一检测结果、第二检测结果和第三检测结果进行融合。

图14为根据本申请另一实施例的图像检测方法的结果融合的流程图。以上述第二种实施方式为例，参见图13和图14，可将步骤S710中作为第一检测结果的关键点分数、步骤S720中作为第二检测结果的光流分数和步骤S730中作为第三检测结果的融合特征分数，通过分数融合模块得出最终的预测分数。将最终的预测分数作为待处理图像序列的动作检测结果。其中分数融合模块的处理流程参见图14所示。

参见图14，在一个示例中，关键点分数的维度为N1*1，融合特征分数为维度为N1*1，光流分数维度为N1*1。其中，N1表示测试阶段的batch size（批尺寸）。首先将以上三个分数拼接到一起，得到的拼接结果的维度为N1*3。然后对拼接结果进行第四卷积操作。“conv，1ⅹ1，128”表示通过卷积核为1ⅹ1的第四卷积操作，输出特征图的维度为N1*128。然后再将第四卷积操作之后的特征图进行第二归一化操作和线性修正操作，再通过一个FC（全连接）层的全连接操作将N1*128维的特征映射成N1*1的最终的预测分数。其中，FC层维度可以是128*1。在图14的示例中，对待检测图像序列中的人体动作进行评估，评估肢体语言是否丰富，最终的预测分数为肢体语言分数。

在上述示例中，第二归一化操作可采用BN（批归一化）的操作方式。采用批归一化操作使得每一层神经网络的输入保持相同分布的，使得模型训练过程更加稳定，可以采用较大的学习率来加速收敛。

在上述示例中，可采用线性整流函数（ReLU，Rectified Linear Unit）进行线性修正操作。ReLU是一种人工神经网络中激活函数，可包括以斜坡函数及其变种为代表的非线性函数。使用ReLU函数可增加神经网络各层之间的非线性关系，使得神经网络更加有效率地进行梯度下降以及反向传播的过程，避免了梯度爆炸和梯度消失等问题。

图15为根据本申请另一实施例的图像检测方法的流程图。如图15所示，对于一段视频，按一定采样频率对该视频进行采样操作，得到图像序列。然后针对图像序列提取关键点特征和光流特征。

其中，提取关键点特征的处理流程具体可包括：对图像序列进行人体检测，得到人体位置检测框序列；针对人体位置检测框序列中的图像进行人体关键点检测，得到关键点序列；对关键点序列进行关键点归一化处理，得到标准关键点序列；利用空间时间图卷积网络对标准关键点序列进行处理，得到关键点特征。在另一种实施方式中，也可以根据标准关键点序列生成关键点邻接矩阵，将标准关键点序列和关键点邻接矩阵输入空间时间图卷积网络，得到关键点特征。

提取光流特征的处理流程具体可包括：提取待处理图像序列的光流信息，得到光流图像序列；对光流图像序列进行处理，提取待处理图像序列的光流特征。

参见图15，分别利用分数回归网络对关键点特征和光流特征进行处理，得到关键点分数和光流分数。其中，对关键点特征和光流特征进行处理的分数回归网络分别称为第一分数回归网络和第二分数回归网络。第一分数回归网络和第二分数回归网络可以具有相同的网络结构，也可以具有不同的网络结构。根据关键点特征和光流特征得到融合特征，然后再利用第三分数回归网络对融合特征进行处理，得到融合特征分数。同理，第一分数回归网络、第二分数回归网络和第三个分数回归网络可以具有相同的网络结构，也可以具有不同的网络结构。最后，利用分数融合模块将关键点分数、光流分数和融合特征分数进行融合，得到肢体语言分数，也就是待处理图像序列的动作检测结果。

本申请实施例中，将作为第一检测结果的关键点分数、作为第二检测结果的光流分数和作为第三检测结果的融合特征分数进行融合，可获得待处理图像序列的更加丰富的信息。根据融合特征对待处理图像序列中的动作进行分析，提高了待处理图像序列的动作检测结果的准确率，可更加准确地评估处理图像序列中的人体动作是否到位、肢体语言是否丰富。利用本申请实施例得到的动作检测结果可以辅助对图像序列中的动作表现进行改进，从而进一步提高动作表现力。

本申请实施例中，可预先对图像检测方法中使用的各个网络模型进行训练。一个示例性的训练过程如下：

步骤1：训练提取关键点特征的网络。

步骤2：训练提取光流特征的网络，然后训练由光流特征回归光流分数的网络。

步骤3：在步骤1和2的基础上，固定住已训练好的网络的所有参数，单独训练得到融合特征的网络。融合特征的网络的学习率用lr（learning rate）表示。在运用梯度下降算法进行网络模型优化时，在权重的更新规则中，可在梯度项前会乘以一个系数，这个系数叫做学习率。通过学习率可以控制网络模型的学习进度。在一个示例中，由光流特征回归光流分数的网络的学习率可以设置为10ⅹlr。也就是说，由光流特征回归光流分数的网络的学习率是融合特征的网络的学习率的10倍，两者相差一个数据级。因为光流特征与关键点特征的数据分布不同，光流特征的数值范围要大于关键点特征的数值范围，合理设置学习率有利于模型收敛。

步骤4：在步骤3的基础上，固定住已训练好的网络的所有参数，单独训练分数融合模块。

图16为根据本申请另一实施例的图像检测装置的结构示意图。如图16所示，该装置可以包括：

第一处理单元100，用于检测待处理图像序列，得到关键点特征；

第二处理单元200，用于提取待处理图像序列的光流特征；

检测单元300，用于根据关键点特征和光流特征，得到待处理图像序列的动作检测结果。

图17为根据另一本申请实施例的图像检测装置的第一处理单元的结构示意图。如图17所示，在一种实施方式中，第一处理单元100包括：

第一检测子单元101，用于检测待处理图像序列，得到关键点序列和关键点邻接矩阵；

处理子单元102，用于利用卷积网络模型对关键点序列和关键点邻接矩阵进行处理，得到关键点特征。

图18为根据另一本申请实施例的图像检测装置的第一检测子单元的结构示意图。如图18所示，在一种实施方式中，第一检测子单元101包括：

第二检测子单元105，用于检测待处理图像序列中人体的位置，得到人体位置检测框；

第三检测子单元106，用于在人体位置检测框中检测人体的关键点，得到关键点序列；

构建子单元107，用于根据关键点序列构建关键点邻接矩阵。

在一种实施方式中，第三检测子单元106用于：

在人体位置检测框中检测人体的关键点，得到关键点坐标；

对关键点坐标进行第一归一化操作，得到关键点序列。

在一种实施方式中，第三检测子单元106还用于：

根据人体位置检测框对关键点坐标进行第一归一化操作。

在一种实施方式中，第二处理单元200用于：

提取待处理图像序列的稠密光流信息，得到光流图像序列；

图19为根据另一本申请实施例的图像检测装置的检测单元的结构示意图。如图19所示，在一种实施方式中，检测单元300包括：

特征处理子单元301，用于根据关键点特征和光流特征，得到至少两个检测结果；

融合子单元302，用于将至少两个检测结果进行融合，得到待处理图像序列的动作检测结果。

在一种实施方式中，特征处理子单元301用于：

根据关键点特征得到待处理图像序列的第一检测结果；

根据光流特征得到待处理图像序列的第二检测结果。

在一种实施方式中，特征处理子单元301还用于：

在一种实施方式中，特征处理子单元301用于：

对关键点特征依次进行第一卷积操作和上采样操作；

对光流特征进行第二卷积操作；

将拼接特征进行第三卷积操作，得到融合特征。

在一种实施方式中，融合子单元302用于：

将至少两个检测结果进行第二拼接操作，得到拼接结果；

本申请实施例各装置中的各模块、单元、子单元的功能可以参见上述方法中的对应描述，在此不再赘述。

图20为用来实现本申请实施例的电子设备的框图。如图20所示，该电子设备包括：存储器910和处理器920，存储器910内存储有可在处理器920上运行的计算机程序。处理器920执行该计算机程序时实现上述实施例中的图像检测和图像检测方法。存储器910和处理器920的数量可以为一个或多个。

该电子设备还包括：

通信接口930，用于与外界设备进行通信，进行数据交互传输。

如果存储器910、处理器920和通信接口930独立实现，则存储器910、处理器920和通信接口930可以通过总线相互连接并完成相互间的通信。该总线可以是工业标准体系结构（Industry Standard Architecture，ISA）总线、外部设备互连（PeripheralComponentInterconnect，PCI）总线或扩展工业标准体系结构（Extended IndustryStandard Architecture，EISA）总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示，图20中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器910、处理器920及通信接口930集成在一块芯片上，则存储器910、处理器920及通信接口930可以通过内部接口完成相互间的通信。

本申请实施例提供了一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现本申请实施例中提供的方法。

本申请实施例还提供了一种芯片，该芯片包括，包括处理器，用于从存储器中调用并运行存储器中存储的指令，使得安装有芯片的通信设备执行本申请实施例提供的方法。

本申请实施例还提供了一种芯片，包括：输入接口、输出接口、处理器和存储器，输入接口、输出接口、处理器以及存储器之间通过内部连接通路相连，处理器用于执行存储器中的代码，当代码被执行时，处理器用于执行申请实施例提供的方法。

应理解的是，上述处理器可以是中央处理器(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(digital signal processing，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现场可编程门阵列(fieldprogrammablegate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者是任何常规的处理器等。值得说明的是，处理器可以是支持进阶精简指令集机器(advanced RISC machines，ARM)架构的处理器。

进一步地，可选的，上述存储器可以包括只读存储器和随机存取存储器，还可以包括非易失性随机存取存储器。该存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以包括只读存储器(read-onlymemory，ROM)、可编程只读存储器(programmable ROM，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)或闪存。易失性存储器可以包括随机存取存储器(random access memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用。例如，静态随机存取存储器(static RAM，SRAM)、动态随机存取存储器(dynamic random access memory ，DRAM) 、同步动态随机存取存储器(synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(double data date SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(enhancedSDRAM，ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM，DR RAM)。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本申请的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包括于本申请的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分。并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备（如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统）使用，或结合这些指令执行系统、装置或设备而使用。

应理解的是，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。上述实施例方法的全部或部分步骤是可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。上述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。该存储介质可以是只读存储器，磁盘或光盘等。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到其各种变化或替换，这些都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种图像检测方法，其特征在于，包括：

检测待处理图像序列，得到关键点特征；

提取所述待处理图像序列的光流特征；

根据所述关键点特征和所述光流特征，得到所述待处理图像序列的动作检测结果。

2.根据权利要求1所述的方法，其特征在于，检测待处理图像序列，得到关键点特征，包括：

检测待处理图像序列，得到关键点序列和关键点邻接矩阵；

利用卷积网络模型对所述关键点序列和所述关键点邻接矩阵进行处理，得到所述关键点特征。

3.根据权利要求2所述的方法，其特征在于，检测待处理图像序列，得到关键点序列和关键点邻接矩阵，包括：

检测所述待处理图像序列中人体的位置，得到人体位置检测框；

在所述人体位置检测框中检测人体的关键点，得到所述关键点序列；

根据所述关键点序列构建所述关键点邻接矩阵。

4.根据权利要求3所述的方法，其特征在于，在所述人体位置检测框中检测人体的关键点，得到所述关键点序列，包括：

在所述人体位置检测框中检测人体的关键点，得到关键点坐标；

对所述关键点坐标进行第一归一化操作，得到所述关键点序列。

5.根据权利要求4所述的方法，其特征在于，对所述关键点坐标进行第一归一化操作，得到所述关键点序列，包括：

根据所述人体位置检测框对所述关键点坐标进行第一归一化操作。

6.根据权利要求3所述的方法，其特征在于，所述关键点邻接矩阵中包括任意两个关键点之间的连接权重，所述连接权重用于表征所述卷积网络模型对所述任意两个关键点相关的动作的关注程度。

7.根据权利要求2所述的方法，其特征在于，所述卷积网络模型包括空间时间图卷积网络模型。

8.根据权利要求7所述的方法，其特征在于，所述空间时间图卷积网络模型中包括空间注意力模块、时序注意力模块和通道注意力模块中的至少一种。

9.根据权利要求1所述的方法，其特征在于，提取所述待处理图像序列的光流特征，包括：

提取所述待处理图像序列的稠密光流信息，得到光流图像序列；

利用神经网络模型对所述光流图像序列进行处理，得到所述待处理图像序列的光流特征。

10.根据权利要求1至9中任一项所述的方法，其特征在于，根据所述关键点特征和所述光流特征，得到所述待处理图像序列的动作检测结果，包括：

根据所述关键点特征和所述光流特征，得到至少两个检测结果；

将所述至少两个检测结果进行融合，得到所述待处理图像序列的动作检测结果。

11.根据权利要求10所述的方法，其特征在于，根据所述关键点特征和所述光流特征，得到至少两个检测结果，包括：

根据所述关键点特征得到所述待处理图像序列的第一检测结果；

根据所述光流特征得到所述待处理图像序列的第二检测结果。

12.根据权利要求11所述的方法，其特征在于，根据所述关键点特征和所述光流特征，得到至少两个检测结果，还包括：

根据所述关键点特征和所述光流特征得到融合特征，根据所述融合特征得到所述待处理图像序列的第三检测结果。

13.根据权利要求12所述的方法，其特征在于，根据所述关键点特征和所述光流特征得到融合特征，包括：

对所述关键点特征依次进行第一卷积操作和上采样操作；

对所述光流特征进行第二卷积操作；

将所述拼接特征进行第三卷积操作，得到融合特征。

14.根据权利要求10所述的方法，其特征在于，将所述至少两个检测结果进行融合，得到所述待处理图像序列的动作检测结果，包括：

将所述至少两个检测结果进行第二拼接操作，得到拼接结果；

将所述拼接结果依次进行第四卷积操作、第二归一化操作、线性修正操作和全连接操作，得到所述待处理图像序列的动作检测结果。

15.一种图像检测装置，其特征在于，包括：

第二处理单元，用于提取所述待处理图像序列的光流特征；

检测单元，用于根据所述关键点特征和所述光流特征，得到所述待处理图像序列的动作检测结果。

16.根据权利要求15所述的装置，其特征在于，所述第一处理单元包括：

处理子单元，用于利用卷积网络模型对所述关键点序列和所述关键点邻接矩阵进行处理，得到所述关键点特征。

17.根据权利要求16所述的装置，其特征在于，所述第一检测子单元包括：

第二检测子单元，用于检测所述待处理图像序列中人体的位置，得到人体位置检测框；

第三检测子单元，用于在所述人体位置检测框中检测人体的关键点，得到所述关键点序列；

构建子单元，用于根据所述关键点序列构建所述关键点邻接矩阵。

18.根据权利要求17所述的装置，其特征在于，所述第三检测子单元用于：

19.根据权利要求18所述的装置，其特征在于，所述第三检测子单元还用于：

20.根据权利要求17所述的装置，其特征在于，所述关键点邻接矩阵中包括任意两个关键点之间的连接权重，所述连接权重用于表征所述卷积网络模型对所述任意两个关键点相关的动作的关注程度。

21.根据权利要求16所述的装置，其特征在于，所述卷积网络模型包括空间时间图卷积网络模型。

22.根据权利要求21所述的装置，其特征在于，所述空间时间图卷积网络模型中包括空间注意力模块、时序注意力模块和通道注意力模块中的至少一种。

23.根据权利要求15所述的装置，其特征在于，所述第二处理单元用于：

24.根据权利要求15至23中任一项所述的装置，其特征在于，所述检测单元包括：

特征处理子单元，用于根据所述关键点特征和所述光流特征，得到至少两个检测结果；

融合子单元，用于将所述至少两个检测结果进行融合，得到所述待处理图像序列的动作检测结果。

25.根据权利要求24所述的装置，其特征在于，所述特征处理子单元用于：

26.根据权利要求25所述的装置，其特征在于，所述特征处理子单元还用于：

27.根据权利要求26所述的装置，其特征在于，所述特征处理子单元用于：

对所述关键点特征依次进行第一卷积操作和上采样操作；

对所述光流特征进行第二卷积操作；

将所述拼接特征进行第三卷积操作，得到融合特征。

28.根据权利要求24所述的装置，其特征在于，所述融合子单元用于：

29.一种电子设备，其特征在于，包括处理器和存储器，所述存储器中存储指令，所述指令由处理器加载并执行，以实现如权利要求1至14任一项所述的方法。

30.一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至14任一项所述的方法。