CN110909691B

CN110909691B - 动作检测方法、装置、计算机可读存储介质和计算机设备

Info

Publication number: CN110909691B
Application number: CN201911175074.8A
Authority: CN
Inventors: 夏茂才; 周文
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-11-26
Filing date: 2019-11-26
Publication date: 2023-05-05
Anticipated expiration: 2039-11-26
Also published as: CN110909691A

Abstract

本申请涉及一种动作检测方法、装置、计算机存储介质和计算机设备，包括：获取连续且多于一帧的深度图像数据；确定所述深度图像数据分别与目标对象对应的点云数据；提取所述点云数据各自对应的空间特征；根据拼接所述空间特征的结果，得到与所述目标对象对应的时间域特征；根据所述时间域特征确定与所述目标对象对应的动作检测结果。本申请提供的方案可以提高动作检测的准确率。

Description

动作检测方法、装置、计算机可读存储介质和计算机设备

技术领域

本申请涉及计算机技术领域，特别是涉及一种动作检测方法、装置、计算机可读存储介质和计算机设备。

背景技术

随着计算机技术的发展，基于视觉的动作分析逐渐成为计算机视觉领域中一个非常活跃的研究方向。动作检测则是动作分析过程中的重要一环。

然而，在现有技术中，动作检测通常是通过手动设计某些特定的规则，对数据集中特定的动作进行检测，这样可能会造成动作检测的准确率较低的问题。

发明内容

基于此，有必要针对目前动作检测准确率低的技术问题，提供一种动作检测方法、装置、计算机可读存储介质和计算机设备。

一种动作检测方法，包括：

获取连续且多于一帧的深度图像数据；

确定所述深度图像数据分别与目标对象对应的点云数据；

提取所述点云数据各自对应的空间特征；

根据拼接所述空间特征的结果，得到与所述目标对象对应的时间域特征；

根据所述时间域特征确定与所述目标对象对应的动作检测结果。

一种动作检测装置，包括：

获取模块，用于获取连续且多于一帧的深度图像数据；

确定模块，用于确定所述深度图像数据分别与目标对象对应的点云数据；

提取模块，用于提取所述点云数据各自对应的空间特征；

拼接模块，用于根据拼接所述空间特征的结果，得到与所述目标对象对应的时间域特征；

检测模块，用于根据所述时间域特征确定与所述目标对象对应的动作检测结果。

在一个实施例中，所述确定模块还用于确定所述深度图像数据中各像素位置的深度值；选取每个像素位置上多于一个深度值中的最大深度值；将各所述最大深度值按照所属的像素位置组合，得到所述连续且多于一帧的深度图像数据所对应的背景图像数据。

在一个实施例中，所述提取模块还用于将所述点云数据分别输入特征提取模型；通过所述特征提取模型得到所述点云数据各自对应的空间特征向量。

在一个实施例中，所述拼接模块还用于将各所述空间特征向量，按照所对应点云数据源自的深度图像数据的时间顺序拼接，得到与所述目标对象对应的时间域特征矩阵。

在一个实施例中，所述拼接模块还用于通过所述特征提取模型的输入转换层对所述点云数据进行处理，并输出角度统一后的点云数据；通过所述特征提取模型的特征转换层，对从所述角度统一后的点云数据提取的特征数据进行处理，以得到所述空间特征向量；所述空间特征向量是特征对齐的。

在一个实施例中，动作检测装置还包括：提示模块。

提示模块，用于当动作检测结果表示检测到目标动作时，则发送与目标动作匹配的提示信息。

在一个实施例中，确定模块还用于确定各深度图像数据分别与目标人物对应的三维点云数据。拼接模块还用于拼接各空间特征得到与目标人物对应的时间域特征。检测模块还用于根据时间域特征，确定与目标人物对应的动作是否为跌倒动作。

在一个实施例中，提示模块还用于当与目标人物对应的动作为跌倒动作时，则根据与目标人物关联的通信信息建立通信连接。

一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行上述动作检测方法的步骤。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行上述动作检测方法的步骤。

上述动作检测方法、装置、计算机可读存储介质和计算机设备，通过获取连续且多于一帧的深度图像数据来确定多于一帧与目标对象对应的点云数据，以实现对连贯动作的记录，这样即可自动提取各点云数据各自对应的空间特征，并根据拼接各空间特征得到的结果得到与目标对象对应的时间域特征，从而根据时间域特征确定与目标对象对应的动作检测结果，提高了动作检测的准确性。而且动作检测过程中只用到了深度图像数据，可实现对隐私的有效保护，扩大了应用场景范围。

附图说明

图1为一个实施例中动作检测方法的应用环境图；

图2为一个实施例中动作检测方法的流程示意图；

图3为一个实施例中确定深度图像数据分别与目标对象对应的点云数据的流程示意图；

图4为一个实施例中通过特征提取模型提取空间特征的流程示意图；

图5为一个实施例中动作检测的系统架构图；

图6为另一个实施例中动作检测方法的流程示意图；

图7为一个实施例中动作检测方法的原理流程图；

图8为一个实施例中动作检测装置的结构框图；

图9为另一个实施例中动作检测装置的结构框图；

图10为一个实施例中计算机设备的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

图1为一个实施例中动作检测方法的应用环境图。参照图1，该动作检测方法应用于动作检测系统。该动作检测系统包括终端110、服务器120和图像采集设备130。终端110和服务器120通过网络连接。终端110具体可以是台式终端或移动终端，移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。图像采集设备130具体可以是监控设备、摄像机或者带有摄像头的终端设备。需要说明的是，这里的图像采集设备130是能够采集深度图像的设备。在本申请中，该动作检测方法可以由终端110执行，也可由服务器120执行。

比如，图像采集设备130可以采集深度图像，终端110或者服务器120则获取图像采集设备采集到的连续且多于一帧的深度图像，从而获取到连续且多于一帧的深度图像数据，进而执行本申请实施例提供的动作检测方法。当然，图像采集设备130也可以采集得到的深度图像数据直接上传终端110或者服务器120。再比如，图像采集设备130也可以采集深度图像，并将采集的深度图像发送至终端110，终端110可通过显示屏显示深度图像，并将深度图像上传至服务器120，由服务器120执行本申请实施例提供的动作检测方法。

如图2所示，在一个实施例中，提供了一种动作检测方法。本实施例主要以该方法应用于计算机设备来举例说明，该计算机设备具体可以是上述图1中的终端110或者服务器120。参照图2，该动作检测方法具体包括如下步骤：

S202，获取连续且多于一帧的深度图像数据。

其中，深度图像数据是深度图像(Depth Image)的图像数据(Image Data)。深度图像是指将从图像采集装置到图像采集场景中各点的距离(深度)作为像素值的图像。图像数据是指用数值表示的各像素(Pixel)的像素值的集合。

具体地，计算机设备可通过内部配置的图像采集装置或者外部连接的图像采集装置采集深度图像或者深度图像数据。图像采集装置具体可以是深度摄像头。可以理解，图像采集装置通常是按照一定的帧率进行图像(数据)采集，在完成一帧图像(数据)的采集后，可生成一帧深度图像以图像的形式进行存储，也可直接存储一帧深度图像数据以图像数据的形式进行存储。

由于图像采集装置通常是按照一定的帧率进行图像(数据)采集的，那么连续且多于一帧的深度图像数据，可以是按照图像采集装置的采集时间顺序逐帧获取的。比如，假设多于一帧为3帧，深度摄像头依次采集了5帧深度图像数P1、P2、P3、P4和P5；那么连续且多于一帧的深度图像数据可以是P1、P2、和P3，或者P2、P3和P4，或者P3、P4和P5。

在另外的实施例中，连续且多于一帧的深度图像数据，也可以是按照图像采集装置的采集时间顺序按照一定的帧数间隔逐帧获取的。比如，假设多于一帧为3帧，帧数间隔为1帧，深度摄像头依次采集了5帧深度图像数P1、P2、P3、P4和P5；那么连续且多于一帧的深度图像数据可以是P1、P3和P5。

在一个具体的实施例中，连续且多于一帧具体可以是连续8帧。比如，从深度摄像头开始采集时起，将采集的深度图像数据逐帧作为第一帧，每满8帧即为一组连续且多于一帧的深度图像数据；即获取P1至P8，共8帧深度图像数据；P2至P9，共8帧深度图像数据；以此类推。

当然，计算机设备也可对深度图像数据进行对象检测，当检测到对象时，将检测到的对象作为目标对象，再获取连续且对于一帧的深度图像数据进行后续处理。

在本申请实施例中，由于动作检测过程只需要使用到深度图像数据，不需要颜色(如RGB)图像数据，可实现对隐私的有效保护。而且该动作检测方法的应用场景也非常广泛。例如浴室或者卧室等普通家庭场景，养老院或者商场等公共场所场景等等，都可以有效地进行动作检测。

S204，确定深度图像数据分别与目标对象对应的点云数据。

其中，目标对象是深度图像数据源自的场景中包括的对象，也是作为目标进行动作检测的对象。比如深度图像数据所源自场景中的人物、动物或物品等。

点云数据是指以点为单位记录的数据的集合。通俗地说，点云数据就是一系列点。点云数据比如三维点云数据，即为大量三维点的集合。

可以理解，深度图像数据通常为二维数据，即每个像素点的像素值代表该像素位置(x，y)处的物体到图像采集装置的距离(深度)。通俗地说，即为每个二维坐标(x，y)上存在一个深度值。点云数据，如三维点云数据，是三维空间坐标系下的数据，由一系列三维点组成，每个三维点有x，y，z三个维度的坐标。通常情况下，二维空间下的二维坐标及其深度值，可以转换为三维空间下的三维坐标。其中，深度图像数据与点云数据之间的转换关系与图像采集装置的参数相关。也就是说，计算机设备可以通过图像采集装置的参数，将深度图像数据转换为点云数据。

具体地，计算机设备可获取图像采集装置的参数，根据该参数将每一帧深度图像数据转换为其对应的点云数据。比如，若S202中获取了五帧深度图像数据，经过本步骤后，可得到五帧点云数据，且每帧深度图像数据对应一帧点云数据。由于目标对象是深度图像数据所场景中包括的对象，那么深度图像数据对应的点云数据，也可以是深度图像数据与目标对象对应的点云数据。

在一个实施例中，深度图像数据通常包括背景图像数据和前景图像数据。可以理解，目标对象成像后的图像数据通常为前景图像数据。计算机设备可先从各深度图像数据提取各自对应的前景图像数据，再将各前景图像数据转换为对应的点云数据，也就是各深度图像数据分别与目标对象对应的点云数据。

在一个具体的实施例中，点云数据具体为三维点云数据。深度图像数据为二维坐标系(图像坐标系)下的二维数据，三维点云数据为三维坐标系(世界坐标系)下的三维数据。计算机设备通过采集深度图像数据的深度摄像头的摄像头参数，可将深度图像数据进行坐标系转换，得到三维点云数据。

S206，提取点云数据各自对应的空间特征。

其中，空间特征是反映点云数据中各点之间空间关系的特征的数据。

具体地，计算机设备可在确定各深度图像数据分别与目标对象对应的点云数据后，对每一帧点云数据分别基于其包括的各点之间的空间关系提取特征，得到各点云数据各自对应的空间特征。空间特征的数据格式可以有多种，这里的空间特征具体可以是向量形式，即空间特征向量。

可以理解，由深度图像数据转换得到的点云数据，其所包括的点之间存在特定的空间关系，这些空间关系能够在一定程度上反应出目标对象的动作特征，从而可以基于空间特征进行动作检测。

在一个具体的实施例中，计算机设备可选择深度学习网络对点云数据进行特征提取得到空间特征。该深度学习网络具体可以通过卷积运算实现的网络结构，比如PointNet网络或者PointNet++网络等。当然，深度学习网络也可以是通过其他运算方式实现的网络结构等。

S208，根据拼接空间特征的结果，得到与目标对象对应的时间域特征。

其中，时间域特征是与时间相关的特征数据。具体地，计算机设备可将各空间特征，按其所提取自的点云数据所对应的深度图像数据的采集时间顺序依次进行拼接，并将拼接得到的结果直接作为与目标对象对应的时间域特征。计算机设备也可将拼接得到的结果进行后处理后，得到与目标对象对应的时间域特征。这里的后处理可以是卷积运算或者模型处理等。

可以理解，由从这些深度图像数据对应的点云数据中提取的空间特征拼接而得到的结果，结合了前后不同时间节点采集的图像数据，故拼接的结果或处理该结果后得到的数据可称为时间域特征。时间域特征的数据格式可以有多种，当空间特征为向量形式时，时间域特征则具体是矩阵形式，即时间域特征矩阵。

需要说明的是，动作通常不是瞬间完成的，动作通常包括一个连贯过程。一帧点云数据中各点之间的空间关系可以反映连贯动作中一个的步骤特征，连续且多于一帧点云数据中各点之间的空间关系则可以协同反映连贯动作的完整特征。因此，在进行动作检测时，应当基于连贯动作的过程中包括的各动作步骤的特征进行检测，也就是说，基于各点云数据提取的空间特征所拼接成的时间域特征进行检测。这样能够极大地提高动作检测的准确率。

S210，根据时间域特征确定与目标对象对应的动作检测结果。

其中，动作检测结果是进行动作检测得出的结论。动作检测结果可以是检测到某种动作；比如检测到跌到动作、检测到蹲下动作或者检测到跳跃动作等。动作检测结果也可以是是否检测到某种动作；比如是否检测到跌到动作或者是否检测到蹲下动作等。

具体地，计算机设备可以基于与目标对象对应的时间域特征，确定与目标对象对应的动作检测结果。

在一个实施例中，根据动作检测的要求，计算机设备可进行不同的处理。当动作检测要求检测出具体的动作时，计算机设备可以预先设置各种动作各自对应的时间域特征模板，这样计算机设备在得到当前的时间域特征后，可以将当前的时间域特征与时间域特征模板进行匹配，以确定目标对象所对应的动作，从而得到动作检测结果。当动作检测要求检测出是否为目标动作时，计算机设备可以预先设置与目标动作对应的时间域特征模板，这样计算机设备在得到当前的时间域特征后，可以将当前的时间域特征与时间域特征模板进行匹配，以确定目标对象是否对应目标动作，从而得到动作检测结果。

在一个实施例中，当动作检测要求检测出具体的动作时，计算机设备可以通过训练多分类模型对时间域特征进行分类，以确定目标对象所对应的动作，从而得到动作检测结果。当动作检测要求检测出是否为目标动作时，计算机设备可以训练二分类模型对时间域特征进行分类，以确定目标对象是否对应目标动作，从而得到动作检测结果。

上述动作检测方法，通过获取连续且多于一帧的深度图像数据来确定多于一帧与目标对象对应的点云数据，以实现对连贯动作的记录，这样即可自动提取各点云数据各自对应的空间特征，并根据拼接各空间特征得到的结果得到与目标对象对应的时间域特征，从而根据时间域特征确定与目标对象对应的动作检测结果，提高了动作检测的准确性。而且动作检测过程中只用到了深度图像数据，可实现对隐私的有效保护，扩大了应用场景范围。

在一个实施例中，确定深度图像数据分别与目标对象对应的点云数据，包括：根据深度图像数据中各像素位置的深度值，确定连续且多于一帧的深度图像数据所对应的背景图像数据；对深度图像数据与背景图像数据按像素位置求取差值，得到深度图像数据各自对应的前景图像数据；将前景图像数据分别转换为与目标对象对应的点云数据。

其中，像素位置是图像的像素点的位置。在本申请实施例中，深度图像数据是深度图像中各像素位置的像素值的集合。各深度图像数据中各像素位置的深度值，即为各深度图像数据中各像素位置的像素值。

在一个实施例中，根据深度图像数据中各像素位置的深度值，确定连续且多于一帧的深度图像数据所对应的背景图像数据，包括：确定深度图像数据中各像素位置的深度值；选取每个像素位置上多于一个深度值中的最大深度值；将各最大深度值按照所属的像素位置组合，得到连续且多于一帧的深度图像数据所对应的背景图像数据。

可以理解，通常情况下对于连续采集得到的多于一帧的深度图像数据，其中背景部分是静态的，前景部分则是动态的。背景部分通常离图像采集设备较远，即深度值较大；前景部分则离图像采集设备较近，即深度值较小。那么，计算机设备即可根据各像素位置的深度值的大小，在深度图像数据中进行前景图像数据和背景图像数据的划分。

具体地，计算机设备可先确定各深度图像数据中各像素位置的深度值，然后选取每个像素位置上多于一个深度值中的最大深度值。

可以理解，第一帧深度图像数据中M1位置有一个深度值，第二帧深度图像数据在M1位置也有一个深度值；也就是说每帧深度图像数据在M1位置均有一个深度值，从而每个像素位置均有多于一个深度值。计算机设备可将每个像素位置上多于一个深度值中的最大深度值作为背景像素值，也就是背景图像数据中该像素位置的像素值，这样即可得到连续且多于一帧的深度图像数据所对应的背景图像数据。

图3示出了一个实施例中确定各深度图像数据分别与目标对象对应的点云数据的流程示意图。参考图3，假设计算机设备获取了连续8帧深度图像P1、P2、…、P8，即可基于这8帧深度图像中各像素位置的深度值，将各像素位置的最大深度值作为背景图像数据中该像素位置的像素值，确定背景图像数据B。

在本实施例中，根据背景数据的特点，先从深度图像数据中确定背景图像数据，这样可以使得后续得到的前景图像数据更准确。

进一步地，计算机设备在得到连续且多于一帧的深度图像数据所对应的背景图像数据后，可将各深度图像数据与背景图像数据按像素位置求差值，这样即可得到各深度图像数据各自对应的前景图像数据。计算机设备再将各前景图像数据分别转换为与目标对象对应的点云数据。

其中，按像素位置求差值，具体为两帧图像数据相同像素位置的像素值求差值。例如，深度图像P1的深度图像数据在M1位置的像素值，与背景图像数据B在M1位置的像素值的差值，即为深度图像P1对应的前景图像数据Q1在M1位置的像素值。

继续参考图3，计算机设备可将各深度图像的深度图像数据与背景图像数据按像素位置求差值，得到各深度图像数据各自对应的前景图像数据。计算机设备将深度图像P1的深度图像数据与背景图像数据B按像素位置求差值，即可得到深度图像P1对应的前景图像数据Q1；将深度图像P2的深度图像数据与背景图像数据B按像素位置求差值，即可得到深度图像P2对应的前景图像数据Q2；以此类推。这样，计算机设备在得到前景图像数据Q1、Q2、…、Q8后，即可基于摄像头参数将各前景图像数据分别转换为与目标对象对应的点云数据，得到点云数据D1、D2、…、D8。

可以理解，在本实施例中，计算机设备从深度图像数据中提取出前景图像数据后，再基于前景图像数据进行后续的处理，由于前景图像数据通常为目标对象在成像后的图像数据，这样基于前景图像数据对目标对象进行动作检测时，可以避免背景图像数据带来的干扰，极大地提高了动作检测的准确性。

在一个实施例中，提取点云数据各自对应的空间特征，包括：将点云数据分别输入特征提取模型；通过特征提取模型得到点云数据各自对应的空间特征向量。

其中，特征提取模型是用于进行特征提取的机器学习模型。机器学习模型是通过样本学习后具备某种能力的模型。机器学习模型可采用神经网络模型或者深度学习模型等。特征提取模型的训练过程在后文中进行阐述。空间特征向量是以向量形式表示空间特征的数据。时间域特征矩阵是以矩阵形式表示时间域特征的数据。在一个具体的实施例中，特征提取模型具体可以是PointNet系列网络。PointNet系列网络是可以直接对点云数据进行处理的网络模型。

可以理解，点云本质上是一系列点的集合。在几何上，点的顺序不影响它在空间中对整体形状的表示。例如，相同的点云可以由两个完全不同的矩阵表示。点云的旋转和平移不会改变它在空间中对整体形状的表示；也就是说，点云数据具有无序性和旋转不变性。但点云数据中的各点不是相互独立的，各点与其周围的点在空间上具有一定的关系。本实施例中的特征提取模型直接将点云数据作为输入数据，对无序点云的每一个点进行独立的处理，由此来实现与输入顺序无关的点云处理。而且，通过不依赖于数据的空间变化网络来处理刚体或仿射变换，可以对点云数据进行规范化(Canonicalize)处理，消除平移或者旋转等变换带来的影响。

在一个实施例中，通过特征提取模型得到点云数据各自对应的空间特征向量，包括：通过特征提取模型的输入转换层对点云数据进行处理，并输出角度统一后的点云数据；通过特征提取模型的特征转换层，对从角度统一后的点云数据提取的特征数据进行处理，以得到空间特征向量；该空间特征向量是特征对齐的。

其中，输入转换层是特征提取模型中用于对点云数据进行规范化处理的网络层。对空间中点云进行调整以转换到同一角度便于后续处理。直观上理解就是旋转出一个更有利于后续处理的角度，比如把物体转到正面。特征转换层是特征提取模型中用于对提取出的特征数据进行规范化处理的网络层。对提取的特征进行对齐，也就是在特征层面对点云进行处理。

在一个具体的实施例中，输入转换层可通过一个输入转换矩阵(仿射变换矩阵)来对点云的旋转或者平移等变化进行规范化处理。输入数据为原始的点云数据，输出数据为一个N*N(如N＝3)的旋转矩阵。特征转换层可通过一个特征转换矩阵来对特征数据进行对齐。

具体地，计算机设备将点云数据输入训练完成的特征提取模型，特征提取模型的输入转换层通过输入转换矩阵对原始的点云数据进行角度调整，并将角度统一后的点云数据传递至特征提取层；特征提取层对角度统一后的点云数据进行特征提取，并将提取的特征数据传递至特征转换层；特征转换层则通过特征转换矩阵对提取的特征数据进行对齐，并对对齐的特征数据进行处理，得到空间特征向量。当然，特征转换层也可将对齐的特征数据传递至特征处理层，由特征处理层对对齐的特征数据进行处理得到空间特征向量。

图4示出了一个实施例中通过特征提取模型提取空间特征的流程示意图。参考图4，计算机设备可将点云数据直接输入训练完成的特征提取模型，特征提取模型的输入转换层(input transform)通过输入转换矩阵对点云数据进行角度调整，输出角度统一后的点云数据至特征提取层；特征提取层进行特征提取，并输出提取的特征数据至特征转换层(feature transform)；特征转换层则通过特征转换矩阵将提取的特征数据对齐后输出至特征处理层，由特征处理层对对齐的特征数据进行处理得到空间特征向量。

在本实施例中，通过特征提取模型直接以点云数据为输入，实现端到端的数据处理，直接得到空间特征向量，极大地提高了特征提取效率。

在一个实施例中，根据拼接空间特征的结果，得到与目标对象对应的时间域特征，包括：将各空间特征向量，按照所对应点云数据源自的深度图像数据的时间顺序拼接，得到与目标对象对应的时间域特征矩阵。

进一步地，计算机设备可将各空间特征向量，按照所对应点云数据源自的深度图像数据的时间顺序拼接，得到与目标对象对应的时间域特征矩阵。例如，深度图像数据按时间顺序排序为P1、P2和P3；P1对应的点云数据为D1，P2对应的点云数据为D2，P3对应的点云数据为D3；从点云数据D1提取的空间特征向量为K1，从点云数据D2提取的空间特征向量为K2，从点云数据D3提取的空间特征向量为K3；则按照K1、K2、K3的顺序进行向量拼接得到矩阵。

上述实施例中，通过模型实现对点云数据的空间特征进行提取，利用机器学习模型强大的学习能力，极大地提高了特征提取的便利性、准确性和效率。

在一个实施例中，根据时间域特征确定与目标对象对应的动作检测结果，包括：通过特征分类模型的卷积层对时间域特征进行特征融合；继续通过特征分类模型的分类层对融合后的时间域特征进行分类，得到与目标对象对应的动作检测结果。

其中，特征分类模型是用于进行特征分类的机器学习模型。机器学习模型是通过样本学习后具备某种能力的模型。机器学习模型可采用神经网络模型或者深度学习模型等。特征分类结果即可作为动作检测结果。特征分类模型的训练过程在后文中进行阐述。

需要说明的是，本实施例中的特征分类模型与前述实施例中的特征分类模型可以为动作检测模型的子模型。该动作检测模型的前半部分实现特征提取，后半部分实现特征分类，协同完成动作检测。当然，本实施例中的特征分类模型与前述实施例中的特征提取模型为各自独立的模型。前述实施例中的特征提取模型实现特征的提取，本实施例中的特征分类模型实现特征的分类，两个模型协同实现动作检测。

可以理解，时间域特征是由多于一个空间特征拼接而成，一个空间特征是对一帧点云数据的特征表示。对于多于一帧的点云数据，一个空间特征可以看作是一个局部特征，空间特征的拼接，也可以看作是局部特征的简单拼接。这些局部特征之间的联系，以及各局部特征对整体的贡献对动作的分类至关重要。因此，计算机设备需要对时间域特征进行进一步融合，再进行分类操作。

具体地，计算机设备可以将时间域特征输入训练完成的特征分类模型，通过特征分类模型的卷积层对时间域特征进行卷积操作以进行特征融合，继续通过特征分类模型的分类层对特征融合后的时间域特征进行分类，得到与目标对象对应的动作检测结果。其中，分类层可以包括全连接层和归一化层。归一化层具体可以是Softmax层。

进一步地，特征分类模型可以是二分类模型，也可以是多分类模型。当动作检测的目的是检测某种特定的动作时，计算机设备可以将特征分类模型设计为二分类模型，这样模型输出的动作检测结果可以为检测到目标动作，或未检测到目标动作。当动作检测的目的是检测出是哪种动作时，计算机设备可以将特征分类模型设计为多分类模型，这样模型输出的动作检测结果可以为检测到的具体动作。

在本实施例中，基于卷积操作的深度学习计算实现对动作的检测，极大地提高了动作检测的准确率与效率。

在一个实施例中，特征提取模型与特征分类模型可以联合训练得到。具体地，计算机设备获取连续且多于一帧的深度图像数据作为训练样本。即一个训练样本即为连续且多于一帧的深度图像数据。计算机设备可确定每个训练样本所对应的动作检测结果作为训练样本对应的训练标签。

对于每个训练样本，计算机设备可确定该训练样本包括的各深度图像数据中各像素位置的深度值；选取每个像素位置上多于一个深度值中的最大深度值；将各最大深度值按照所属的像素位置组合，得到该训练样本所对应的背景图像数据。计算机设备可再通过对各深度图像数据与背景图像数据按像素位置求取差值，得到各深度图像数据各自对应的前景图像数据；将各前景图像数据分别转换为与目标对象对应的点云数据。

进一步地，计算机设备可将该训练样本对应的各点云数据分别输入特征提取模型；通过特征提取模型的输入转换层对点云数据进行处理，并输出角度统一后的点云数据；通过特征提取模型的特征转换层，对从角度统一后的点云数据提取的特征数据进行处理，以得到特征对齐后的空间特征向量。计算机设备然后将各空间特征向量，按照所对应点云数据源自的深度图像数据的时间顺序拼接，得到与目标对象对应的时间域特征矩阵。计算机设备再通过特征分类模型的卷积层对时间域特征进行特征融合；继续通过特征分类模型的分类层对融合后的时间域特征进行分类，得到与目标对象对应的动作检测结果。计算机设备再根据模型输出的动作检测结果与训练标签的差异调整模型的参数。

基于此，计算机设备可以通过大量的训练样本进行反复迭代运算，有监督地对特征提取模型与特征分类模型进行联合训练。

在一个实施例中，动作检测方法还包括：当动作检测结果表示检测到目标动作时，则发送与目标动作匹配的提示信息。

其中，目标动作是预先设置的意图检测的动作。目标动作可以是一种动作，比如跌倒动作或者跳跃动作等。目标动作也可以是一类动作，比如暴力类动作等。提示信息是用于提示检测到目标动作的信息。这里的提示，可以是提示目标对象，比如在目标人物靠近危险地带时进行提醒；也可以是提示目标对象周围的对象，比如在目标对象跌到时，发出警报提醒周围的人；还可以是提示与目标对象关联的对象，比如在目标对象跌到时，给与目标对象关联的对象打电话，等等。

具体地，计算机设备在进行动作检测得到动作检测结果后，可以进一步的数据处理。比如，发送与目标动作匹配的提示信息。不同的目标动作可以对应不同的提示信息。比如，计算机设备事先对各目标动作设置匹配的提示信息，这样在检测到某一目标动作时，即可发送与目标动作匹配的提示信息。

在本实施例中，在检测到目标动作后进行进一步处理，如发送提示信息等，将动作检测应用到场景中，提高了动作检测的实用性。

在一个实施例中，确定各深度图像数据分别与目标对象对应的点云数据，包括：确定各深度图像数据分别与目标人物对应的三维点云数据。拼接各空间特征得到与目标对象对应的时间域特征，包括：拼接各空间特征得到与目标人物对应的时间域特征。根据时间域特征确定与目标对象对应的动作检测结果，包括：根据时间域特征，确定与目标人物对应的动作是否为跌倒动作。

具体地，计算机设备可通过深度摄像头连续采集深度图像。当深度图像数据中包括人物数据时，计算机设备可将深度图像数据中包括的人物数据所对应的人物确定为目标人物，并继续获取深度图像数据以获取连续且多于一帧的深度图像数据。计算机设备可继续确定各深度图像数据中各像素位置的深度值；选取每个像素位置上多于一个深度值中的最大深度值；将各最大深度值按照所属的像素位置组合，得到连续且多于一帧的深度图像数据所对应的背景图像数据。计算机设备再通过对各深度图像数据与背景图像数据按像素位置求取差值，得到各深度图像数据各自对应的前景图像数据；通过深度摄像头的参数将各前景图像数据分别转换为与目标人物对应的三维点云数据。

进一步地，计算机设备可将各三维点云数据分别输入特征提取模型；通过特征提取模型的输入转换层对三维点云数据进行处理，并输出角度统一后的三维点云数据；并继续通过特征提取模型的特征转换层，对从角度统一后的三维点云数据提取的特征数据进行处理，以得到特征对齐后的空间特征向量。计算机设备然后将各空间特征向量，按照所对应三维点云数据源自的深度图像数据的时间顺序拼接，得到与目标人物对应的时间域特征矩阵。此后，计算机设备可再通过特征分类模型的卷积层对时间域特征矩阵进行特征融合；并继续通过特征分类模型的分类层对融合后的时间域特征进行分类，得到目标对象是否对应跌倒动作的动作检测结果。

图5示出了一个实施例中动作检测的系统架构图。参考图5，对于连续且多于一帧的深度图像数据A，基于本申请实施例提供的动作检测方法进行处理后，得到未检测到跌倒动作的动作检测结果。对于连续且多于一帧的深度图像数据B，基于本申请实施例提供的动作检测方法进行处理后，得到检测到跌倒动作的动作检测结果。

可以理解，计算机设备使用深度摄像头拍摄获得深度图像数据，深度图像数据表达了不同的动作姿态。通过本申请实施例提供的动作检测方法可以对不同的动作进行检测识别，通过背景减除的方式获得同一背景中不同位置的人体位置，并对该人体的姿态进行识别。在真实的场景中，动作检测方法可以对实时的连续的视频帧进行分析，对连续的深度图像帧进行跌倒检测。而且计算机设备还可在检测到有人跌倒时进行后续的进一步的处理。如根据不同的场景可发出警报，给专业或亲密的人打电话等等，实现在多场景下的跌倒检测的应用。

在本实施例中，有效地使用了基于深度摄像头的深度值数据，使用深度学习算法有效的提升其跌倒检测的检测准确率。同时，由于只使用了深度值数据，不会拍摄记录用户的场景画面，保护了用户的隐私，扩展了基于深度数据进行跌倒检测的使用场景。

在一个实施例中，动作检测方法还包括：当与目标人物对应的动作为跌倒动作时，则根据与目标人物关联的通信信息建立通信连接。

具体地，计算机设备可事先对目标人物关联通信信息。该通信信息具体可以是医疗机构的联系信息，或者与目标人物存在监护关系的人物的联系信息等。这样，计算机设备在检测到目标人物对应的动作为跌倒动作时，可以根据与目标人物关联的通信信息建立通信连接。比如，给医院或者亲人打电话等等。

可以理解，通过本申请实施例实现的跌倒动作检测，可以帮助在老人因为疾病或不慎摔倒时实现及时快速的发现和救援，避免因为救援迟缓造成更大的伤害。同时，也减少了养老院等场景下的人力成本，实现更加智能的实时监测。

在本实施例中，在检测到目标动作后进行进一步处理，如建立通信连接等，将动作检测应用到场景中，提高了动作检测的实用性。

如图6所示，在一个具体的实施例中，动作检测方法包括以下步骤：

S602，通过深度摄像头采集深度图像。

具体地，计算机设备可为深度摄像头涉及图像采集帧率，这样深度摄像头即以一定的帧率采集深度图像。

S604，获取连续且多于一帧的深度图像各自对应的深度图像数据。

具体地，计算机设备可预先设置进行动作检测所需深度图像数据的帧数，在深度摄像头开始采集深度图像时，即获取深度图像对应的深度图像数据，当获取的深度图像数据的帧数达到预先设置的帧数时，即开始进行后续的处理。

举例说明，参考图7，该图示出了一个实施例中动作检测方法的原理流程图。计算机设备可获取深度摄像头采集的8帧深度图像P1、P2、…、P8。

S606，确定深度图像数据中各像素位置的深度值；选取每个像素位置上多于一个深度值中的最大深度值；将各最大深度值按照所属的像素位置组合，得到连续且多于一帧的深度图像数据所对应的背景图像数据。

S608，通过对深度图像数据与背景图像数据按像素位置求取差值，得到深度图像数据各自对应的前景图像数据；将前景图像数据分别转换为与目标对象对应的点云数据。

继续参考图7，计算机设备可将8帧深度图像的深度图像数据各自转换为与目标对象对应的点云数据D1、D2、…、D8。

S610，将点云数据分别输入特征提取模型；通过特征提取模型的输入转换层对点云数据进行处理，并输出角度统一后的点云数据；通过特征提取模型的特征转换层，对从角度统一后的点云数据提取的特征数据进行处理，以得到空间特征向量；该空间特征向量是特征对齐的。

继续参考图7，计算机设备可将8帧点云数据D1、D2、…、D8，分别输入特征提取模型，得到各点云数据各自对应的空间特征向量K1、K2、…、K8。

可以理解，特征提取模型可以为一个，也可以多于一个。当特征提取模型为一个时，即将点云数据按照其对应的深度图像数据的采集时间顺序输入特征提取模型，由特征提取模型依次进行处理。当特征提取模型的数量多于一个时，多于一个的特征提取模型可以并行地进行处理。

S612，将各空间特征向量，按照所对应点云数据源自的深度图像数据的时间顺序拼接，得到与目标对象对应的时间域特征矩阵。

继续参考图7，计算机设备可将空间特征向量K1、K2、…、K8，按照所对应点云数据源自的深度图像数据的时间顺序拼接，得到与目标对象对应的时间域特征矩阵S。

S614，通过特征分类模型的卷积层对时间域特征进行特征融合；继续通过特征分类模型的分类层对融合后的时间域特征进行分类，得到与目标对象对应的动作检测结果。

继续参考图7，计算机设备可将时间域特征矩阵S输入特征分类模型。通过特征分类模型的卷积层对时间域特征矩阵S进行特征融合，再通过特征分类模型的全连接层和Softmax层对融合后的时间域特征矩阵S进行分类，得到分类结果，也就是动作检测结果。

S616，判断动作检测结果是否表示检测到目标动作；若是，则跳转到S618；若否，则跳转到S604。

S618，发送与目标动作匹配的提示信息，并跳转到S604。

可以理解，在对一次获取到的连续且多于一帧的深度图像各自对应的深度图像数据执行S606至S618的过程中，还可以并行地对继续获取到的连续且多于一帧的深度图像各自对应的深度图像数据执行S606至S618的步骤。比如，连续且多于一帧为8帧，那么计算机设备在对第1至8帧深度图像进行处理时，若采集到第9帧深度图像，无论对第1至8帧深度图像进行处理是否得出结果，都可以并行地对第2至9帧深度图像数据进行处理。

比如，在公共场所下，目标对象可以是多于一个的，那么则可以按照前述实施例中的步骤在检测到目标动作后继续检测。在另外的实施例中，比如在私人场所下，目标对象可以是唯一的，那么在检测到目标动作，并发送与目标动作匹配的提示信息之后，可以结束动作检测。

在本实施例中，通过获取连续且多于一帧的深度图像数据来确定多于一帧与目标对象对应的点云数据，以实现对连贯动作的记录，这样即可自动提取各点云数据各自对应的空间特征，拼接各空间特征得到与目标对象对应的时间域特征，通过卷积运算根据时间域特征确定与目标对象对应的动作检测结果，提高了动作检测的准确性；而且动作检测过程中只用到了深度图像数据，可实现对隐私的有效保护，扩大了应用场景范围。

应该理解的是，虽然上述各实施例的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

如图8所示，在一个实施例中，提供了一种动作检测装置800。参照图8，该动作检测装置800包括：获取模块801、确定模块802、提取模块803、拼接模块804和检测模块805。

获取模块801，用于获取连续且多于一帧的深度图像数据。

确定模块802，用于确定深度图像数据分别与目标对象对应的点云数据。

提取模块803，用于提取点云数据各自对应的空间特征。

拼接模块804，用于根据拼接空间特征的结果，得到与目标对象对应的时间域特征。

检测模块805，用于根据时间域特征确定与目标对象对应的动作检测结果。

在一个实施例中，确定模块802还用于根据深度图像数据中各像素位置的深度值，确定连续且多于一帧的深度图像数据所对应的背景图像数据；对深度图像数据与背景图像数据按像素位置求取差值，得到深度图像数据各自对应的前景图像数据；将前景图像数据分别转换为与目标对象对应的点云数据。

在一个实施例中，确定模块802还用于确定深度图像数据中各像素位置的深度值；选取每个像素位置上多于一个深度值中的最大深度值；将各最大深度值按照所属的像素位置组合，得到连续且多于一帧的深度图像数据所对应的背景图像数据。

在一个实施例中，提取模块803还用于将点云数据分别输入特征提取模型；通过特征提取模型得到各点云数据各自对应的空间特征向量。

在一个实施例中，拼接模块804还用于将各空间特征向量，按照所对应点云数据源自的深度图像数据的时间顺序拼接，得到与目标对象对应的时间域特征矩阵。

在一个实施例中，提取模块803还用于通过特征提取模型的输入转换层对点云数据进行处理，并输出角度统一后的点云数据；通过特征提取模型的特征转换层，对从角度统一后的点云数据提取的特征数据进行处理，以得到空间特征向量，该空间特征向量是特征对齐的。

在一个实施例中，检测模块805还用于通过特征分类模型的卷积层对时间域特征进行特征融合；继续通过特征分类模型的分类层对融合后的时间域特征进行分类，得到与目标对象对应的动作检测结果。

如图9所示，在一个实施例中，动作检测装置800还包括：提示模块806。

提示模块806，用于当动作检测结果表示检测到目标动作时，则发送与目标动作匹配的提示信息。

在一个实施例中，确定模块802还用于确定各深度图像数据分别与目标人物对应的三维点云数据。拼接模块804还用于拼接各空间特征得到与目标人物对应的时间域特征。检测模块805还用于根据时间域特征，确定与目标人物对应的动作是否为跌倒动作。

在一个实施例中，提示模块806还用于当与目标人物对应的动作为跌倒动作时，则根据与目标人物关联的通信信息建立通信连接。

上述动作检测装置，通过获取连续且多于一帧的深度图像数据来确定多于一帧与目标对象对应的点云数据，以实现对连贯动作的记录，这样即可自动提取各点云数据各自对应的空间特征，并根据拼接各空间特征得到的结果得到与目标对象对应的时间域特征，从而根据时间域特征确定与目标对象对应的动作检测结果，提高了动作检测的准确性。而且动作检测过程中只用到了深度图像数据，可实现对隐私的有效保护，扩大了应用场景范围。

图10示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的终端110(或服务器120)。如图10所示，该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现动作检测方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行动作检测方法。本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的动作检测装置可以实现为一种计算机程序的形式，计算机程序可在如图10所示的计算机设备上运行。计算机设备的存储器中可存储组成该动作检测装置的各个程序模块，比如，图8所示的获取模块801、确定模块802、提取模块803、拼接模块804和检测模块805。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的动作检测方法中的步骤。

例如，图10所示的计算机设备可以通过如图8所示的动作检测装置800中的获取模块801执行获取连续且多于一帧的深度图像数据的步骤。通过确定模块802执行确定深度图像数据分别与目标对象对应的点云数据的步骤。通过提取模块803执行提取点云数据各自对应的空间特征的步骤。通过拼接模块804执行根据拼接空间特征的结果，得到与目标对象对应的时间域特征的步骤。通过检测模块805执行根据时间域特征确定与目标对象对应的动作检测结果的步骤。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述动作检测方法的步骤。此处动作检测方法的步骤可以是上述各个实施例的动作检测方法中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述动作检测方法的步骤。此处动作检测方法的步骤可以是上述各个实施例的动作检测方法中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种动作检测方法，其特征在于，所述方法包括：

获取连续且多于一帧的深度图像数据；

确定所述深度图像数据分别与目标对象对应的点云数据；

通过特征提取模型得到所述点云数据各自对应的空间特征向量，将各所述空间特征向量，按照所对应点云数据源自的深度图像数据的时间顺序拼接，得到与所述目标对象对应的时间域特征矩阵；

根据所述时间域特征矩阵确定与所述目标对象对应的动作检测结果。

2.根据权利要求1所述的方法，其特征在于，所述确定所述深度图像数据分别与目标对象对应的点云数据，包括：

根据所述深度图像数据中各像素位置的深度值，确定所述连续且多于一帧的深度图像数据所对应的背景图像数据；

对所述深度图像数据与所述背景图像数据按像素位置求取差值，得到所述深度图像数据各自对应的前景图像数据；

将所述前景图像数据分别转换为与目标对象对应的点云数据。

3.根据权利要求2所述的方法，其特征在于，所述根据所述深度图像数据中各像素位置的深度值，确定所述连续且多于一帧的深度图像数据所对应的背景图像数据，包括：

确定所述深度图像数据中各像素位置的深度值；

选取每个像素位置上多于一个深度值中的最大深度值；

将各所述最大深度值按照所属的像素位置组合，得到所述连续且多于一帧的深度图像数据所对应的背景图像数据。

4.根据权利要求1所述的方法，其特征在于，所述通过特征提取模型得到所述点云数据各自对应的空间特征向量，包括：

通过所述特征提取模型的输入转换层对所述点云数据进行处理，并输出角度统一后的点云数据；

通过所述特征提取模型的特征转换层，对从所述角度统一后的点云数据提取的特征数据进行处理，以得到所述空间特征向量；所述空间特征向量是特征对齐的。

5.根据权利要求1所述的方法，其特征在于，所述根据所述时间域特征矩阵确定与所述目标对象对应的动作检测结果，包括：

通过特征分类模型的卷积层对所述时间域特征矩阵进行特征融合；

继续通过所述特征分类模型的分类层对融合后的所述时间域特征矩阵进行分类，得到与所述目标对象对应的动作检测结果。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

当所述动作检测结果表示检测到目标动作时，则

发送与所述目标动作匹配的提示信息。

7.根据权利要求1所述的方法，其特征在于，所述确定各所述深度图像数据分别与目标对象对应的点云数据，包括：

确定各所述深度图像数据分别与目标人物对应的三维点云数据；

所述将各所述空间特征向量，按照所对应点云数据源自的深度图像数据的时间顺序拼接，得到与所述目标对象对应的时间域特征矩阵，包括：

将各所述空间特征向量，按照所对应点云数据源自的深度图像数据的时间顺序拼接，得到与所述目标人物对应的时间域特征矩阵；

所述根据所述时间域特征矩阵确定与所述目标对象对应的动作检测结果，包括：

根据所述时间域特征矩阵，确定与所述目标人物对应的动作是否为跌倒动作。

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

当与所述目标人物对应的动作为跌倒动作时，则

根据与所述目标人物关联的通信信息建立通信连接。

9.一种动作检测装置，其特征在于，所述装置包括：

获取模块，用于获取连续且多于一帧的深度图像数据；

提取模块，用于通过特征提取模型得到所述点云数据各自对应的空间特征向量；

拼接模块，用于将各所述空间特征向量，按照所对应点云数据源自的深度图像数据的时间顺序拼接，得到与所述目标对象对应的时间域特征矩阵；

检测模块，用于根据所述时间域特征矩阵确定与所述目标对象对应的动作检测结果。

10.根据权利要求9所述的装置，其特征在于，所述确定模块还用于根据所述深度图像数据中各像素位置的深度值，确定所述连续且多于一帧的深度图像数据所对应的背景图像数据；通过对所述深度图像数据与所述背景图像数据按像素位置求取差值，得到所述深度图像数据各自对应的前景图像数据；将所述前景图像数据分别转换为与目标对象对应的点云数据。

11.根据权利要求10所述的装置，其特征在于，所述确定模块还用于确定所述深度图像数据中各像素位置的深度值；选取每个像素位置上多于一个深度值中的最大深度值；将各所述最大深度值按照所属的像素位置组合，得到所述连续且多于一帧的深度图像数据所对应的背景图像数据。

12.根据权利要求9所述的装置，其特征在于，所述提取模块还用于通过所述特征提取模型的输入转换层对所述点云数据进行处理，并输出角度统一后的点云数据；通过所述特征提取模型的特征转换层，对从所述角度统一后的点云数据提取的特征数据进行处理，以得到所述空间特征向量；所述空间特征向量是特征对齐的。

13.根据权利要求9所述的装置，其特征在于，所述检测模块还用于通过特征分类模型的卷积层对所述时间域特征进行特征融合；继续通过所述特征分类模型的分类层对融合后的所述时间域特征进行分类，得到与所述目标对象对应的动作检测结果。

14.根据权利要求9所述的装置，其特征在于，所述装置还包括：

提示模块，用于当所述动作检测结果表示检测到目标动作时，则发送与所述目标动作匹配的提示信息。

15.根据权利要求9所述的装置，其特征在于，所述确定模块还用于确定各所述深度图像数据分别与目标人物对应的三维点云数据；所述拼接模块还用于将各所述空间特征向量，按照所对应点云数据源自的深度图像数据的时间顺序拼接，得到与所述目标人物对应的时间域特征矩阵；所述检测模块还用于根据所述时间域特征矩阵，确定与所述目标人物对应的动作是否为跌倒动作。

16.根据权利要求15所述的装置，其特征在于，所述装置还包括：

提示模块，用于当与所述目标人物对应的动作为跌倒动作时，则根据与所述目标人物关联的通信信息建立通信连接。

17.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至8中任一项所述方法的步骤。

18.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至8中任一项所述方法的步骤。