CN112818807A

CN112818807A - 摔倒检测方法、装置、设备和存储介质

Info

Publication number: CN112818807A
Application number: CN202110108580.6A
Authority: CN
Inventors: 程炜; 刘军; 李靓
Original assignee: Shenzhen Infinova Ltd
Current assignee: Shenzhen Infinova Ltd
Priority date: 2021-01-27
Filing date: 2021-01-27
Publication date: 2021-05-18

Abstract

公开了一种摔倒检测方法、装置、设备和存储介质，属于图像处理技术领域。该方法包括：确定从拍摄的视频流中获取多帧视频图像中每帧视频图像中的目标框的人体骨骼关节点位置和行人属性；根据多帧视频图像中每帧视频图像中的目标框的人体骨骼关节点位置确定目标框内的人体骨骼关节点的光流信息；根据多帧视频图像中每帧视频图像中的目标框的行人属性，确定多帧视频图像中包含同一行人的多个目标框；根据包含同一行人的多个目标框内的人体骨骼关节点的光流信息，对多个目标框内的行人进行摔倒检测。本申请可以在检测成本较低的情况下提高行人摔倒检测的准确率。

Description

摔倒检测方法、装置、设备和存储介质

技术领域

本申请涉及图像处理技术领域，特别涉及一种摔倒检测方法、装置、设备和存储介质。

背景技术

在日常生活中，人们难免出现摔倒的情况，准确及时地检测行人摔倒可以降低人们生命和财产的损失。

相关技术中，常利用拍摄到的单张照片检测行人的姿态或动作是否符合预设的摔倒标准来判定行人是否摔倒。或者，利用Kinect设备来检测行人是否摔倒。Kinect设备包括红外投影机和红外摄像头。具体地，红外投影机发射红外光至行人后发生反射，红外摄像头可以接收反射光，根据反射光生成深度图像序列，然后检测深度图像序列中的行人的骨骼关节点移动的距离或角度，根据行人的骨骼关节点移动的距离或角度是否符合预设的摔倒标准来判定行人是否摔倒。

然而，上述利用单张照片进行摔倒检测的方法，由于单张照片不能反映出行人连续的摔倒动作，所以检测准确率较低；上述利用Kinect设备进行摔倒检测的方法，由于Kinect设备昂贵，所以检测成本较高。

发明内容

本申请实施例提供了一种摔倒检测的方法、装置、设备和存储介质，可以在检测成本较低的情况下提高行人摔倒检测的准确率。所述技术方案如下：

第一方面，提供了一种摔倒检测的方法，所述方法包括：

从拍摄的视频流中获取多帧视频图像；

确定所述多帧视频图像中每帧视频图像中的目标框的行人信息，所述目标框用于指示存在行人的区域，所述行人信息包括人体骨骼关节点位置和行人属性；

根据所述多帧视频图像中每帧视频图像中的目标框的人体骨骼关节点位置，确定所述多帧视频图像中每帧视频图像中的目标框内的人体骨骼关节点的光流信息；

根据所述多帧视频图像中每帧视频图像中的目标框的行人属性，确定所述多帧视频图像中包含同一行人的多个目标框；

根据包含同一行人的所述多个目标框内的人体骨骼关节点的光流信息，对所述多个目标框内的行人进行摔倒检测。

在本申请中，无需采用专用设备，可以直接根据拍摄到的视频流中的视频图像进行行人摔倒检测，检测成本较低。并且，由于多帧视频图像中包含同一行人的多个目标框内的人体骨骼关节点的光流信息可以反映这个行人连续的移动情况，所以据此对这一行人进行摔倒检测时的检测准确率较高。

可选地，所述确定所述多帧视频图像中每帧视频图像中的目标框的行人信息，包括：

对于所述多帧视频图像中的任意一帧视频图像，将所述一帧视频图像输入多任务识别模型，获得所述一帧视频图像中的一个或多个检测框的位置、置信度以及行人信息，每个检测框的置信度用于指示每个检测框对应的区域中存在行人的概率；

对于所述一帧视频图像中的任意一个检测框，若所述一个检测框的置信度大于或等于置信度阈值，则确定所述一个检测框为目标框。

可选地，所述根据所述多帧视频图像中每帧视频图像中的目标框的人体骨骼关节点位置，确定所述多帧视频图像中每帧视频图像中的目标框内的人体骨骼关节点的光流信息，包括：

对于所述多帧视频图像中任意相邻的两帧视频图像，通过光流算法对所述两帧视频图像进行分析，得到所述两帧视频图像中的前一帧视频图像中各个像素点的光流信息；

根据所述前一帧视频图像中的目标框的人体骨骼关节点位置和所述前一帧视频图像中各个像素点的光流信息，确定所述前一帧视频图像中的目标框内的人体骨骼关节点的光流信息。

可选地，所述根据所述前一帧视频图像中的目标框的人体骨骼关节点位置和所述前一帧视频图像中各个像素点的光流信息，确定所述前一帧视频图像中的目标框内的人体骨骼关节点的光流信息，包括：

对于所述前一帧视频图像中的目标框的任意一个人体骨骼关节点位置，确定所述一个人体骨骼关节点位置在所述前一帧视频图像中所处的像素区域；

将所述像素区域中的所有像素点的光流信息的平均值作为所述一个人体骨骼关节点位置对应的人体骨骼关节点的光流信息。

可选地，所述根据所述多帧视频图像中每帧视频图像中的目标框的行人属性，确定所述多帧视频图像中包含同一行人的多个目标框，包括：

为所述多帧视频图像中的第一帧视频图像中的所有目标框设置不同的行人标识；

根据所述多帧视频图像中的指定视频图像以及所述多帧视频图像中与所述指定视频图像相邻且处于所述指定视频图像之前的至少一帧视频图像中的目标框的位置和行人属性，通过目标跟踪算法将所述指定视频图像中的指定目标框与所述至少一帧视频图像中的所有目标框进行匹配，所述指定视频图像为所述多帧视频图像中除所述第一帧视频图像之外的其他任意一帧视频图像，所述指定目标框为所述指定视频图像中的任意一个目标框；

若所述指定目标框与所述至少一帧视频图像中的一个目标框匹配成功，则为所述指定目标框设置与匹配成功的所述至少一帧视频中的一个目标框的行人标识相同的行人标识；

若所述指定目标框与所述至少一帧视频图像中的所有目标框均未匹配成功，则为所述指定目标框设置与所述至少一帧视频图像中的所有目标框的行人标识均不同的行人标识。

可选地，所述根据包含同一行人的所述多个目标框内的人体骨骼关节点的光流信息，对所述多个目标框内的行人进行摔倒检测，包括：

将包含同一行人的所述多个目标框内的人体骨骼关节点的光流信息输入时间序列模型，获得所述多个目标框内的行人的摔倒概率；

若所述多个目标框内的行人的摔倒概率大于或等于摔倒概率阈值，则确定所述多个目标框内的行人摔倒。

可选地，所述根据包含同一行人的所述多个目标框内的人体骨骼关节点的光流信息，对所述多个目标框内的行人进行摔倒检测之后，还包括：

若包含同一行人的所述多个目标框内的行人摔倒，且所述多个目标框的行人属性符合预设条件，则生成用于提示存在行人摔倒的报警信息，所述报警信息包括所述多个目标框所在的视频图像。

第二方面，提供了一种摔倒检测装置，包括：

获取模块，用于从拍摄的视频流中获取多帧视频图像；

第一确定模块，用于确定所述多帧视频图像中每帧视频图像中的目标框的行人信息；

第二确定模块，用于根据所述多帧视频图像中每帧视频图像中的目标框的人体骨骼关节点位置，确定所述多帧视频图像中每帧视频图像中的目标框内的人体骨骼关节点的光流信息；

第三确定模块，用于根据所述多帧视频图像中每帧视频图像中的目标框的行人属性，确定所述多帧视频图像中包含同一行人的多个目标框；

摔倒检测模块，用于根据包含同一行人的所述多个目标框内的人体骨骼关节点的光流信息，对所述多个目标框内的行人进行摔倒检测。

可选地，所述第一确定模块用于：

可选地，所述第二确定模块用于：

可选地，所述第三确定模块用于：

可选地，所述摔倒检测模块用于：

可选地，所述装置还包括：

生成模块，用于在包含同一行人的所述多个目标框内的行人摔倒，且所述多个目标框的行人属性符合预设条件的情况下，生成用于提示存在行人摔倒的报警信息，所述报警信息包括所述多个目标框所在的视频图像。

第三方面，提供了一种计算机设备，所述计算机设备包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述的摔倒检测方法。

第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述的摔倒检测方法。

第五方面，提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述的摔倒检测方法的步骤。

可以理解的是，上述第二方面、第三方面、第四方面、第五方面的有益效果可以参见上述第一方面中的相关描述，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种摔倒检测方法的流程图；

图2是本申请实施例提供的一种人体骨骼关节点的示意图；

图3是本申请实施例提供的一种时间序列模型的示意图；

图4是本申请实施例提供的一种摔倒检测装置的结构示意图；

图5是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

应当理解的是，本申请提及的“多个”是指两个或两个以上。在本申请的描述中，除非另有说明，“/”表示或的意思，比如，A/B可以表示A或B；本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，比如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，为了便于清楚描述本申请的技术方案，采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定，并且“第一”、“第二”等字样也并不限定一定不同。

在对本申请实施例进行详细地解释说明之前，先对本申请实施例的应用场景予以说明。

在车站、商场、学校等一些人流量较大的场所，可能会发生行人摔倒的情况。行人摔倒之后可能会造成生命和财产的损失，所以需要一种摔倒检测方法来及时准确地反映行人摔倒的情况，以便对摔倒的行人提供帮助。

比如，可以在车站、商场、学校等一些人流量较大的场所安装摄像头来拍摄视频流，该摄像头可以将拍摄到的视频流发送给与该摄像头进行通信连接的终端。该终端可以根据该视频流进行行人摔倒检测，或者，该终端可以将该视频流发给服务器，由该服务器根据该视频流进行行人摔倒检测。

也即是，本申请实施例提供的摔倒检测方法适用于室内监控环境或室外监控环境。并且，该摔倒检测方法可以由与摄像机进行通信连接的终端执行，或者可以由与终端进行通信连接的服务器执行，本申请实施例对此不作限定。

下面对本申请实施例提供的摔倒检测方法进行详细地解释说明。

图1是本申请实施例提供的一种摔倒检测方法的流程图。该方法可以应用于计算机设备，该计算机设备可以是终端或服务器。参见图1，该方法包括以下步骤。

步骤101：计算机设备从拍摄的视频流中获取多帧视频图像。

该视频流是指摄像头拍摄到的连续的视频画面，视频画面是由多帧连续的视频图像组成。

该多帧视频图像按时序排列，该多帧视频图像可以是RGB(RedGreen Blue，红绿蓝)图像。

假设将一帧视频图像表示为I，该多帧视频图像的数量为T，则该多帧视频图像可以表示为{I₁，I₂ … I_T}，且I₁是按时序排列在该多帧视频图像中的第一帧视频图像，I₂按时序排列在I₁之后，I_T是按时序排列在该多帧视频图像中的最后一帧视频图像。

对于该多帧视频图像中的任意一帧视频图像来说，这帧视频图像的尺寸可以表示为(W，H，C)，W代表这帧视频图像的宽，H代表这帧视频图像的高，C代表这帧视频图像的通道数，比如，当这帧视频图像为RGB图像时，这帧视频图像的通道数可以为3。

值得注意的是，从视频流中获取的多帧视频图像是视频图像序列，该视频图像序列可以反映出行人连续的动作。

具体地，步骤101的操作可以为：计算机设备对摄像头拍摄到的视频流进行解码，得到多帧按时序排列的视频图像。

值得说明的是，本申请实施例中所述的摄像头可以是普通摄像头，无需是专用设备。如此，本申请实施例提供的摔倒检测方法可以兼容到现有的已安装好的大规模监控系统，检测成本较低。

步骤102：计算机设备确定该多帧视频图像中每帧视频图像中的目标框的行人信息。

目标框用于指示存在行人的区域，该区域可以是矩形区域。

某帧视频图像中的目标框的位置可以为目标框在这帧视频图像中的坐标。示例地，某帧视频图像中的目标框的坐标可以用目标框在这帧视频图像中所指示的区域的角点坐标来表示。比如，这帧视频图像中的目标框的坐标可以用目标框在这帧视频图像中所指示的区域的左上角点坐标(x_l，y_l)和右下角点坐标(x_r，y_r)来表示。

目标框的行人信息为目标框内的行人的相关信息，可以包括人体骨骼关节点(keypoint)位置和行人属性。

该人体骨骼关节点位置可以是人体骨骼关节点在视频图像中的坐标。假设人体骨骼关节点的数量为S，S为正整数。S个人体骨骼关节点的坐标可以分别为(x₁，y₁)、(x₂，y₂)、…、(x_s，y_s)。

图2是本申请实施例提供的一种人体骨骼关节点的示意图，如图2所示，人体骨骼关节点是指人体上有一定自由度的关节，例如，头(Head)、颈(Neck)、肩(Shoulder)、肘(Elbow)、腕(Wrist)、手(Hand)、指头(Thumb)、指尖(Hand Tip)、脊柱中部(Spine Mid)、脊柱底部(Spine Base)、髋(Hip)、膝(Knee)、踝(Ankle)、脚(Foot)等。

该行人属性可以包括行人的姿态(pose)、年龄(age)、性别(gender)等信息。姿态表示行人在当前视频图像中的瞬时状态，可以用站着、坐着、蹲着、倒下、其他这五个类别表示。年龄可以用儿童、少年、中年、老年这四个类别表示。性别可以用男性、女性这两个类别表示。

例如，对于第t帧视频图像中第n个目标框，第n个目标框的行人信息可以表示为

具体地，步骤102的操作可以为：计算机设备对于该多帧视频图像中的任意一帧视频图像，将这一帧视频图像输入多任务识别模型，获得这一帧视频图像中的一个或多个检测框的位置、置信度以及行人信息。对于这一帧视频图像中的任意一个检测框，若这一个检测框的置信度大于或等于置信度阈值，则确定这一个检测框为目标框；若这一个检测框的置信度小于该置信度阈值，确定这一个检测框不为目标框。

检测框用于指示可能存在行人的区域，检测框的位置可以为检测框在视频图像中的坐标。示例地，某帧视频图像中的检测框的坐标可以用检测框在这帧视频图像中所指示的区域的角点坐标来表示。比如，这帧视频图像中的检测框的坐标可以用检测框在这帧视频图像中所指示的区域的左上角点坐标和右下角点坐标来表示。

检测框的置信度用于指示检测框对应的区域中存在行人的概率，检测框的置信度的取值范围为[0，1]，检测框的置信度越接近1，表明检测框内是行人的概率越大。检测框的行人信息为检测框对应的区域中可能存在的行人的相关信息，可以包括人体骨骼关节点位置和行人属性。

该多任务识别模型用于识别图像中的行人，可以输出与图像中的行人有关的多项信息。将一帧视频图像输入到该多任务识别模型，该多任务识别模块就可以预测这一帧视频图像中可能存在行人的区域对应的检测框的位置，以及确定每个检测框对应的区域中存在行人的概率，并确定每个检测框对应的区域中可能存在的行人的相关信息，继而输出这一帧视频图像中的每个检测框的位置、置信度以及行人信息。

该置信度阈值可以预先进行设置，且该置信度阈值可以设置的较大，比如，该置信度阈值可以为0.8、0.9等。

若某个检测框的置信度大于或等于该置信度阈值，说明这个检测框内很有可能存在行人，因而可以将这个检测框作为目标框。若某个检测框的置信度小于该置信度阈值，说明这个检测框内不太可能存在行人，因而可以确定这个检测框不为目标框。

值得说明的是，在本申请实施例中，计算机设备利用该置信度阈值对多帧视频图像中的检测框进行筛选，以确定该多帧视频图像中的目标框，如此后续只需对该多帧视频图像中存在行人的目标框进行分析，而不用对该多帧视频图像中每个可能存在行人的检测框都进行分析。这样，可以减小运算量。

进一步地，计算机设备在将视频图像输入多任务识别模型之前，还可以训练得到该多任务识别模型。

具体地，计算机设备训练得到该多任务识别模型的操作可以为：计算机设备可以获取多个训练样本，使用该多个训练样本对神经网络模型进行训练，得到该多任务识别模型。

该多个训练样本可以是预先设置的。该多个训练样本中的每个训练样本包括样本图像和样本标记，样本图像是包含有行人的图像，样本标记为样本图像中存在有行人的目标框的位置和目标框中的行人的行人信息。也即，该多个训练样本中的每个训练样本中的输入数据为包含有行人的样本图像、样本标记为目标框的位置和行人信息。

该神经网络模型可以包括多个网络层，该多个网络层中包括输入层、多个隐含层和输出层。输入层负责接收输入数据；输出层负责输出处理后的数据；多个隐含层位于输入层与输出层之间，负责处理数据，多个隐含层对于外部是不可见的。比如，该神经网络模型可以为深度神经网络等，且可以是深度神经网络中的卷积神经网络等。

其中，计算机设备使用多个训练样本对神经网络模型进行训练时，对于该多个训练样本中的每个训练样本，可以将这个训练样本中的输入数据输入神经网络模型，获得输出数据；通过损失函数确定该输出数据与这个训练样本中的样本标记之间的损失值；根据该损失值调整该神经网络模型中的参数。在基于该多个训练样本中的每个训练样本对该神经网络模型中的参数进行调整后，参数调整完成的该神经网络模型即为多任务识别模型。

其中，计算机设备根据该损失值调整该神经网络模型中的参数的操作可以参考相关技术，本申请实施例对此不进行详细阐述。

步骤103：计算机设备根据该多帧视频图像中每帧视频图像中的目标框的人体骨骼关节点位置，确定该多帧视频图像中每帧视频图像中的目标框内的人体骨骼关节点的光流信息。

光流可以表达图像的变化，可以包含该图像中目标移动的信息，因此可利用光流来确定该图像中目标的移动情况。人体骨骼关节点的光流信息包括人体骨骼关节点的移动速度和移动方向。

假设该多帧视频图像中每帧视频图像中的一个目标框的人体骨骼关节点位置共有S个。该多帧视频图像中第t帧视频图像中一个目标框中的一个人体骨骼关节点位置的光流信息可以表示为：F_t(x，y)，则该多帧视频图像中第t帧视频图像中的一个目标框中的所有的人体骨骼关节点位置的光流信息可以表示为F_t(X，Y)＝{F_t(x₁，y₁)，F_t(x₂，y₂)…F_t(x_s，y_s)}。

值得说明的是，一帧视频图像中的目标框内的人体骨骼关节点的光流信息可以反映出这个目标框内的行人的移动情况。而多帧视频图像可以反映行人连续的动作，所以该多帧视频图像中每帧视频图像中的目标框内的人体骨骼关节点的光流信息可以反映出行人连续的移动情况。

具体地，步骤103的操作可以为：计算机设备对于该多帧视频图像中任意相邻的两帧视频图像，通过光流算法对这两帧视频图像进行分析，得到这两帧视频图像中的前一帧视频图像中各个像素点的光流信息；根据该前一帧视频图像中的目标框的人体骨骼关节点位置和该前一帧视频图像中各个像素点的光流信息，确定该前一帧视频图像中的目标框内的人体骨骼关节点的光流信息。

该光流算法是利用图像序列中的像素在时间域上的变化、相邻帧之间的相关性来找到的前一帧跟当前帧间存在的对应关系，计算出相邻帧之间物体的移动信息的一种方法。通过该光流算法分析这两帧视频图像，可以得到这两帧视频图像中前一帧视频图像中各个像素点的光流信息，某个像素点的光流信息包括这个像素点的移动速度和移动方向。比如，该光流算法可以为卢卡斯-卡纳德方法(Lucas-Kanade Method)、霍恩·山克方法(Horn Schunck Method)等。

其中，计算机设备根据该前一帧视频图像中的目标框的人体骨骼关节点位置和该前一帧视频图像中各个像素点的光流信息，确定该前一帧视频图像中的目标框内的人体骨骼关节点的光流信息的操作可以包括如下两种方式：

第一种方式：对于该前一帧视频图像中的目标框的任意一个人体骨骼关节点位置，计算机设备确定这一个人体骨骼关节点位置在该前一帧视频图像中对应的一个像素点；将这一个像素点的光流信息作为这一个人体骨骼关节点位置对应的人体骨骼关节点的光流信息。

这种方式中，对于任意一个人体骨骼关节点位置，计算机设备直接将这一个人体骨骼关节点位置对应的一个像素点的光流信息确定为这一个人体骨骼关节点位置对应的人体骨骼关节点的光流信息，操作简单，可以减少运算量，提高确定人体骨骼关节点的光流信息的效率。

第二种方式：对于该前一帧视频图像中的目标框的任意一个人体骨骼关节点位置，计算机设备确定这一个人体骨骼关节点位置在该前一帧视频图像中所处的像素区域；根据该像素区域中所有像素点的光流信息，确定这一个人体骨骼关节点位置对应的人体骨骼关节点的光流信息。

该像素区域是这一个人体骨骼关节点位置对应的人体骨骼关节点在该前一帧视频图像中所处的区域。该像素区域的范围可以是预设的，例如，该像素区域可以是该人体骨骼关节点位置对应的一个像素点与相邻的所有像素点组成的区域，或者也可以是以该人体骨骼关节点位置对应的一个像素点为中心、尺寸为a×b的区域，a、b均可以是预先设置的数值，且是正数。

这种方式中，计算机设备根据人体骨骼关节点位置所处的像素区域中所有像素点的光流信息来确定这一个人体骨骼关节点位置对应的人体骨骼关节点的光流信息，可以提高确定出的人体骨骼关节点的光流信息的准确度。

其中，计算机设备根据该像素区域中所有像素点的光流信息，确定这一个人体骨骼关节点位置对应的人体骨骼关节点的光流信息的操作可以为：计算机设备将该像素区域中的所有像素点的光流信息的平均值作为这一个人体骨骼关节点位置对应的人体骨骼关节点的光流信息。

步骤104：计算机设备根据该多帧视频图像中每帧视频图像中的目标框的行人属性，确定该多帧视频图像中包含同一行人的多个目标框。

值得注意的是，在上述步骤103中，计算机设备确定了该多帧视频图像中每帧视频图像中的所有目标框内的人体骨骼关节点的光流信息，但对一个行人进行摔倒检测是要利用该多帧视频图像中这一个行人的人体骨骼关节点的光流信息进行的。所以，计算机设备可以先从该多帧视频图像中的所有目标框中确定包含同一行人的多个目标框，以便后续可以根据该多个目标框实现对这一行人的摔倒检测。

具体地，步骤104的操作可以为：计算机设备为该多帧视频图像中的第一帧视频图像中的所有目标框设置不同的行人标识(id)；根据该多帧视频图像中的指定视频图像以及该多帧视频图像中与指定视频图像相邻且处于指定视频图像之前的至少一帧视频图像中的目标框的位置和行人属性，通过目标跟踪算法将指定视频图像中的指定目标框与该至少一帧视频图像中的所有目标框进行匹配，指定视频图像为该多帧视频图像中除第一帧视频图像之外的其他任意一帧视频图像，指定目标框为指定视频图像中的任意一个目标框；若指定目标框与该至少一帧视频图像中的一个目标框匹配成功，则为指定目标框设置与匹配成功的该至少一帧视频中的这一个目标框的行人标识相同的行人标识；若指定目标框与该至少一帧视频图像中的所有目标框均未匹配成功，则为指定目标框设置与该至少一帧视频图像中的所有目标框的行人标识均不同的行人标识。

该行人标识用于标识行人。该行人标识可以用于区别视频图像中的不同行人。为某个目标框设置的行人标识用于标识这个目标框内的行人。在这种情况下，第t帧视频图像中的第n个目标框内的行人的信息可表示为

目标跟踪算法用于在图像序列中跟踪目标，主要用于当目标相对摄像头存在运动时，确定图像序列的每帧图像中表示目标区域或目标特征的图像结构的连续对应性。也即，目标跟踪算法可以用于确定一个运动的目标在图像序列的每帧图像中所在的目标框。比如，目标跟踪算法可以包括基于特征的跟踪方法、基于主动轮廓的跟踪方法、基于运动估计的跟踪方法等。

值得注意的是，因为该多帧视频图像是按时序排列的，所以对于该多帧视频图像中的第一帧视频图像来说，第一帧视频图像中所有目标框内的行人都是新出现的不同的行人，所以计算机设备可以为第一帧视频图像中的所有目标框设置不同的行人标识。对于在第一帧视频图像后的任意一帧视频图像，可以将这一帧视频图像中的目标框与这一帧视频图像之前的视频图像中的目标框进行匹配，以确定这一帧视频图像中的目标框内的行人是在之前的视频图像中曾出现过的行人还是在之前的视频图像中未出现过的新的行人，据此可以为包含有同一行人的目标框设置相同的行人标识，为包含有不同行人的目标框设置不同的行人标识。

一种可能的情况中，对于该多帧视频图像中除第一帧视频图像之外的其他任意一帧视频图像，计算机设备可以将这一帧视频图像中的目标框与处于这一帧视频图像之前且相邻的最多k帧视频图像进行匹配，k可以是预先设置的大于1或等于1的整数。

例如，假设k为5，对于该多帧视频图像中的第二帧视频图像中的任意一个目标框，计算机设备可以根据第二帧视频图像中的这个目标框的位置和这个目标框内的行人的姿态、年龄、性别等行人属性和在第二帧视频图像之前的第一帧视频图像中的每个目标框的位置和每个目标框内的行人的姿态、年龄、性别等行人属性，通过目标跟踪算法将第二帧视频图像中的这个目标框与第一帧视频图像中的每个目标框进行匹配，若第二帧视频图像中的这个目标框与第一帧视频图像中的一个目标框匹配成功，则为第二帧视频图像中的这个目标框设置与第一帧视频图像中匹配成功的这一个目标框的行人标识相同的行人标识，若第二帧视频图像中的这个目标框与第一帧视频图像中的所有目标框都未匹配成功，则为第二帧视频图像中的这个目标框设置与第一帧视频图像中的所有目标框的行人标识都不同的行人标识。类似地，将该多帧视频图像中的第三帧视频图像中的目标框与在第三帧视频图像之前的第一帧视频图像、第二帧视频图像中的每个目标框进行匹配，根据匹配结果为第三帧视频图像中的目标框设置行人标识。以此类推，为该多帧视频图像中的第四帧视频图像、第五帧视频图像、第六帧视频图像中的目标框设置行人标识。而对于该多帧视频图像中的位于第六帧视频图像之后的第七帧视频图像、第八帧视频图像、……等中的每一帧视频图像，可以将这一帧视频图像中的目标框与在这一帧视频图像之前且相邻的5帧视频图像中的目标框进行匹配，根据匹配结果为这一帧视频图像中的目标框设置行人标识。

步骤105：计算机设备根据包含同一行人的多个目标框内的人体骨骼关节点的光流信息，对该多个目标框内的行人进行摔倒检测。

对于包含同一行人的多个目标框，每个目标框内的人体骨骼关节点的光流信息是这一行人的一组人体骨骼关节点光流信息。该多个目标框内的人体骨骼关节点的光流信息可以反映这个行人连续的移动情况，所以可以根据该多个目标框内的人体骨骼关节点的光流信息来对这个行人进行摔倒检测。

具体地，步骤105的操作可以为：计算机设备将包含同一行人的多个目标框内的人体骨骼关节点的光流信息输入时间序列模型，获得该多个目标框内的行人的摔倒概率值；若该多个目标框内的行人的摔倒概率值大于或等于摔倒概率阈值，则确定该多个目标框内的行人摔倒；若该多个目标框内的行人的摔倒概率值小于摔倒概率阈值，则确定该多个目标框内的行人未摔倒。

该摔倒概率值用于指示目标框内行人摔倒的可能性，取值范围为[0,1]，该摔倒概率值越接近1，表明目标框内行人的摔倒的可能越大

该摔倒概率阈值可以预先进行设置，且该摔倒概率阈值可以设置的较大，如该摔倒概率阈值可以为0.7、0.8等。

若该多个目标框内的行人的摔倒概率值大于或等于该摔倒概率阈值，说明该多个目标框内的行人有很大可能摔倒，因而可以确定该多个目标框内的行人摔倒。若该多个目标框内的行人的摔倒概率值小于该摔倒概率阈值，说明该多个目标框内的行人不太可能摔倒，因而可以确定该多个目标框内的行人没有摔倒。

该时间序列模型是用来分析按时间顺序排列的数据(即时间序列数据)的模型。在本申请实施例中，该时间序列模型用于预测行人是否摔倒。将包含同一行人的多个目标框内的人体骨骼关节点的光流信息输入该时间序列模型，该时间序列模型就可以根据该多组人体骨骼关节点光流信息预测这一行人摔倒的概率，并输出预测出的摔倒概率值。比如，该时间序列模型可以是Transformer模型、LSTM(Long Short-Term Memory，长短期记忆)模型等。

图3是本申请实施例提供的一种时间序列模型的示意图，如图3所示，该时间序列模型是Transformer模型，该Transformer模型包括编码器(Encoder)，解码器(Decoder)以及Softmax层，该编码器的输出会作为该解码器的输入，该解码器的输出会作为Softmax层的输入。该编码器对多组人体骨骼关节点光流信息进行处理，得到编码信息。该解码器对该编码信息进行处理，得到解码信息。该Softmax层将该解码信息映射为0到1之间的实数，此实数即为行人摔倒的概率值。

其中，计算机设备将包含同一行人的多个目标框内的人体骨骼关节点的光流信息输入该时间序列模型操作可以为：采用均匀采样的方式从该多帧视频图像选取视频图像作为第一视频图像，将该多帧视频图像中的第一视频图像中距离当前时间最近的M帧第一视频图像作为第二视频图像，将该M帧第二视频图像中包含同一行人的多个目标框内的人体骨骼关节点的光流信息输入该时间序列模型。M为大于或大于2的整数，比如，M可以为5、6等。

例如，若在一秒内有30帧视频图像，采用均匀采样的方式从30帧视频图像中每5帧选取一帧，也就均匀采样到6帧视频图像作为第一视频图像。换句话说，对于每秒内的30帧视频图像，采用均匀采样的方式从这30帧视频图像中选取6帧第一视频图像，也就是每秒获取到6帧第一视频图像。假设M为5，则计算机设备每次是将最新获取到的5帧第一视频图像作为第二视频图像，比如计算机设备可以在每秒将这一秒获取到的6帧第一视频图像中的后5帧第一视频图像作为第二视频图像，将这5帧第二视频图像中包含同一行人的多个目标框内的人体骨骼关节点的光流信息输入该时间序列模型。

值得说明的是，一秒内有很多帧视频图像，而计算机设备每次从中选取M帧第二视频图像，根据该M帧第二视频图像中目标框内的人体骨骼关节点的光流信息来进行行人摔倒检测，从而可以减小所需处理的光流信息量，继而可以减小处理压力，提高行人摔倒检测效率。

进一步地，计算机设备在将包含同一行人的多个目标框内的人体骨骼关节点的光流信息输入该时间序列模型之前，还可以训练得到该时间序列模型。

具体地，计算机设备训练得到该时间序列模型的操作可以为：计算机设备获取多个训练样本，使用该多个训练样本对神经网络模型进行训练，得到该时间序列模型。

该多个训练样本可以是预先设置的。该多个训练样本中的每个训练样本包括输入数据和样本标记，输入数据为同一行人的按时序排列的多组人体骨骼关节点光流信息，样本标记为这一行人的摔倒情况。

其中，计算机设备使用该多个训练样本对神经网络模型进行训练时，对于该多个训练样本中的每个训练样本，可以将这个训练样本中的输入数据输入神经网络模型，获得输出数据；通过损失函数确定该输出数据与这个训练样本中的样本标记之间的损失值；根据该损失值调整该神经网络模型中的参数。在基于该多个训练样本中的每个训练样本对该神经网络模型中的参数进行调整后，参数调整完成的该神经网络模型即为该时间序列模型。

进一步地，在步骤105之后，对于包含同一行人的多个目标框，计算机设备还可以在该多个目标框内的行人摔倒，且该多个目标框的行人属性符合预设条件的情况下，生成用于提示存在行人摔倒的报警信息。

该报警信息用于提示存在行人摔倒的情况。该报警信息可以包括该多个目标框所在的视频图像。

该预设条件可以预先进行设置。比如，该预设条件可以是行人的年龄为老年或儿童，该预设条件还可以是行人的性别为女性等，本申请实施例对此不作限定。通过设置不同的预设条件，可以实现对不同群体人员的摔倒报警。

其中，为了保护行人隐私安全，计算机设备在生成用于提示存在行人摔倒的报警信息时，可以将该报警信息中包括的视频图像中的目标框内的行人用对应的虚拟人物覆盖。

某个目标框内的行人对应的虚拟人物与该行人的姿态一样。这个目标框内的行人对应的虚拟人员可以根据这个目标框的人体骨骼关节点位置生成，比如这个行人对应的虚拟人物可以是与该行人的姿态一样的卡通人物。

进一步地，计算机设备在生成该报警信息之后，还可以将该报警信息发送给服务器或发送给用于摔倒监控的人员使用的终端，以便可以及时对摔倒的行人提供帮助。

一种可能的情况中，计算机设备不仅可以根据包含同一行人的多个目标框内的人体骨骼关节点的光流信息，对该多个目标框内的行人进行摔倒检测，还可以根据包含同一行人的多个目标框的行人属性，对该多个目标框内的行人进行摔倒检测。具体地，计算机设备可以根据该多个目标框的行人属性确定该多个目标框内的行人的姿态变化，如果该多个目标框内的行人的姿态变化满足预设摔倒姿态变化标准，则确定该多个目标框内的行人摔倒，如果该多个目标框内的行人的姿态变化不满足预设摔倒姿态变化标准，则确定该多个目标框内的行人未摔倒。

预设摔倒姿态变化标准可以预先进行设置，预设摔倒姿态变化标准用于指示行人摔倒时的姿态变化。比如，预设摔倒姿态变化标准可以为行人由站着、坐着或蹲着的姿态变化为趴着或躺着的姿态。

其中，计算机设备根据该多个目标框的行人属性确定该多个目标框内的行人的姿态变化的操作可以为：计算机设备识别该多个目标框中每个目标框的行人姿态，在识别到一个目标框的行人姿态为趴着或躺着的情况下，统计该多个目标框中处于这个目标框之前的所有目标框的行人姿态中所占比例最大的行人姿态作为第一姿态。同时，统计该多个目标框中处于这个目标框之后的所有目标框的行人姿态中所占比例最大的行人姿态作为第二姿态。将第一姿态到第二姿态的姿态变化确定为该多个目标框内的行人的姿态变化。

例如，假设预设摔倒姿态变化标准为行人由站着、坐着或蹲着的姿态变化为趴着或躺着的姿态。该多个目标框的数量为10，计算机设备识别这10个目标框中每个目标框的行人姿态，在计算机设备识别到第6个目标框的行人姿态为趴着或躺着的情况下，统计这10个目标框中处于第6个目标框之前的前5个目标框的行人姿态中所占比例最大的行人姿态作为第一姿态，假设前5个目标框的行人姿态占比最大为站着的姿态，则将站着的姿态作为第一姿态。同时，计算机设备统计这10个目标框中处于第6个目标框之后的后4个目标框的行人姿态中所占比例最大的行人姿态作为第二姿态，假设后4个目标框的行人姿态占比最大为趴着的姿态，则将趴着的姿态作为第二姿态。那么，计算机设备可以确定这10个目标框内的行人的姿态变化就是由站着的姿态变化为趴着的姿态，符合预设摔倒姿态变化标准，则确定这10个目标框内的行人摔倒。

又例如，假设预设摔倒姿态变化标准为行人由站着、坐着或蹲着的姿态变化为趴着或躺着的姿态。该多个目标框的数量为10，计算机设备识别这10个目标框中每个目标框的行人姿态，在计算机设备识别到第4个目标框的行人姿态为趴着或躺着的情况下，统计这10个目标框中处于第4个目标框之前的前3个目标框的行人姿态中所占比例最大的行人姿态作为第一姿态，假设前3个目标框的行人姿态占比最大为蹲着的姿态，则将蹲着的姿态作为第一姿态。同时，计算机设备统计这10个目标框中处于第4个目标框之后的后6个目标框的行人姿态中所占比例最大的行人姿态作为第二姿态，假设后6个目标框的行人姿态占比最大为坐着的姿态，则将坐着的姿态作为第二姿态。那么，计算机设备可以确定这10个目标框内的行人的姿态变化就是由蹲着的姿态变化为坐着的姿态，不符合预设摔倒姿态变化标准，则确定这10个目标框内的行人未摔倒。

在本申请实施例中，在从拍摄的视频流中获取到多帧视频图像之后，确定该多帧视频图像中每帧视频图像中的目标框的人体骨骼关节点位置和行人属性。之后，根据该多帧视频图像中每帧视频图像中的目标框内的人体骨骼关节点位置确定目标框内的人体骨骼关节点的光流信息，再根据该多帧视频图像中每帧视频图像中的目标框的行人属性确定该多帧视频图像中包含同一行人的多个目标框。最后，根据包含同一行人的多个目标框内的人体骨骼关节点的光流信息对这一行人进行摔倒检测。本申请实施例中无需采用专用设备，可以直接根据拍摄到的视频流中的视频图像进行行人摔倒检测，检测成本较低。并且，由于该多帧视频图像中包含同一行人的多个目标框内的人体骨骼关节点的光流信息可以反映这个行人连续的移动情况，所以据此对这一行人进行摔倒检测时的检测准确率较高。

图4是本申请实施例提供的一种摔倒检测装置的结构示意图。参见图3，该装置包括：获取模块401、第一确定模块402、第二确定模块403、第三确定模块404、摔倒检测模块405。

获取模块401，用于从拍摄的视频流中获取多帧视频图像；

第一确定模块402，用于确定该多帧视频图像中每帧视频图像中的目标框的行人信息；

第二确定模块403，用于根据该多帧视频图像中每帧视频图像中的目标框的人体骨骼关节点位置，确定该多帧视频图像中每帧视频图像中的目标框内的人体骨骼关节点的光流信息；

第三确定模块404，用于根据该多帧视频图像中每帧视频图像中的目标框的行人属性，确定该多帧视频图像中包含同一行人的多个目标框；

摔倒检测模块405，用于根据包含同一行人的该多个目标框内的人体骨骼关节点的光流信息，对所述多个目标框内的行人进行摔倒检测。

可选地，第一确定模块402用于：

对于该多帧视频图像中的任意一帧视频图像，将这一帧视频图像输入多任务识别模型，获得这一帧视频图像中的一个或多个检测框的位置、置信度以及行人信息，每个检测框的置信度用于指示每个检测框对应的区域中存在行人的概率；

对于这一帧视频图像中的任意一个检测框，若这一个检测框的置信度大于或等于置信度阈值，则确定这一个检测框为目标框。

可选地，第二确定模块403用于：

对于该多帧视频图像中任意相邻的两帧视频图像，通过光流算法对该两帧视频图像进行分析，得到该两帧视频图像中的前一帧视频图像中各个像素点的光流信息；

根据该前一帧视频图像中的目标框的人体骨骼关节点位置和该前一帧视频图像中各个像素点的光流信息，确定该前一帧视频图像中的目标框内的人体骨骼关节点的光流信息。

可选地，第二确定模块403用于：

对于该前一帧视频图像中的目标框的任意一个人体骨骼关节点位置，确定该一个人体骨骼关节点位置在所述前一帧视频图像中所处的像素区域；

将该像素区域中的所有像素点的光流信息的平均值作为这一个人体骨骼关节点位置对应的人体骨骼关节点的光流信息。

可选地，第三确定模块404用于：

为该多帧视频图像中的第一帧视频图像中的所有目标框设置不同的行人标识；

根据该多帧视频图像中的指定视频图像以及该多帧视频图像中与该指定视频图像相邻且处于该指定视频图像之前的至少一帧视频图像中的目标框的位置和行人属性，通过目标跟踪算法将该指定视频图像中的指定目标框与该至少一帧视频图像中的所有目标框进行匹配，该指定视频图像为该多帧视频图像中除第一帧视频图像之外的其他任意一帧视频图像，所述指定目标框为所述指定视频图像中的任意一个目标框；

若该指定目标框与该至少一帧视频图像中的一个目标框匹配成功，则为该指定目标框设置与匹配成功的该至少一帧视频中的一个目标框的行人标识相同的行人标识；

若该指定目标框与该至少一帧视频图像中的所有目标框均未匹配成功，则为该指定目标框设置与该至少一帧视频图像中的所有目标框的行人标识均不同的行人标识。

可选地，摔倒检测模块405用于：

将包含同一行人的多个目标框内的人体骨骼关节点的光流信息输入时间序列模型，获得该多个目标框内的行人的摔倒概率；

若该多个目标框内的行人的摔倒概率大于或等于摔倒概率阈值，则确定该多个目标框内的行人摔倒

可选地，该装置还包括：

生成模块，用于在包含同一行人的多个目标框内的行人摔倒，且该多个目标框的行人属性符合预设条件的情况下，生成用于提示存在行人摔倒的报警信息，该报警信息包括该多个目标框所在的视频图像。

需要说明的是：上述实施例提供的摔倒检测装置在检测摔倒时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

上述实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请实施例的保护范围。

上述实施例提供的摔倒检测装置与摔倒检测方法实施例属于同一构思，上述实施例中单元、模块的具体工作过程及带来的技术效果，可参见方法实施例部分，此处不再赘述。

图5为本申请实施例提供的一种计算机设备的结构示意图。如图5所示，计算机设备500包括：处理器503、存储器501以及存储在存储器501中并可在处理器503上运行的计算机程序502，处理器503执行计算机程序502时实现上述实施例中的摔倒检测方法中的步骤。

计算机设备500可以是一个通用计算机设备或一个专用计算机设备。在具体实现中，计算机设备500可以是台式机、便携式电脑、网络服务器、掌上电脑、移动手机、平板电脑、无线终端设备、通信设备或嵌入式设备，本申请实施例不限定计算机设备500的类型。本领域技术人员可以理解，图5仅仅是计算机设备500的举例，并不构成对计算机设备500的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，比如还可以包括输入输出设备、网络接入设备等。

处理器503可以是中央处理单元(Central Processing Unit，CPU)，处理器503还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者也可以是任何常规的处理器。

存储器501在一些实施例中可以是计算机设备500的内部存储单元，比如计算机设备500的硬盘或内存。存储器501在另一些实施例中也可以是计算机设备500的外部存储设备，比如计算机设备500上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，存储器501还可以既包括计算机设备500的内部存储单元也包括外部存储设备。存储器501用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等，比如计算机程序的程序代码等。存储器501还可以用于暂时地存储已经输出或者将要输出的数据。

本申请实施例还提供了一种计算机设备，该计算机设备包括：至少一个处理器、存储器以及存储在该存储器中并可在该至少一个处理器上运行的计算机程序，该处理器执行该计算机程序时实现上述任意各个方法实施例中的步骤。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时可实现上述各个方法实施例中的步骤。

本申请实施例提供了一种计算机程序产品，当其在计算机上运行时，使得计算机执行上述各个方法实施例中的步骤。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述方法实施例中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，该计算机程序包括计算机程序代码，该计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。该计算机可读介质至少可以包括：能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、ROM(Read-Only Memory，只读存储器)、RAM(Random Access Memory，随机存取存储器)、CD-ROM(Compact Disc Read-Only Memory，只读光盘)、磁带、软盘和光数据存储设备等。本申请提到的计算机可读存储介质可以为非易失性存储介质，换句话说，可以是非瞬时性存储介质。

应当理解的是，实现上述实施例的全部或部分步骤可以通过软件、硬件、固件或者其任意结合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。该计算机指令可以存储在上述计算机可读存储介质中。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/计算机设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/计算机设备实施例仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种摔倒检测方法，其特征在于，所述方法包括：

从拍摄的视频流中获取多帧视频图像；

2.如权利要求1所述的方法，其特征在于，所述确定所述多帧视频图像中每帧视频图像中的目标框的行人信息，包括：

3.如权利要求1所述的方法，其特征在于，所述根据所述多帧视频图像中每帧视频图像中的目标框的人体骨骼关节点位置，确定所述多帧视频图像中每帧视频图像中的目标框内的人体骨骼关节点的光流信息，包括：

4.如权利要求3所述的方法，其特征在于，所述根据所述前一帧视频图像中的目标框的人体骨骼关节点位置和所述前一帧视频图像中各个像素点的光流信息，确定所述前一帧视频图像中的目标框内的人体骨骼关节点的光流信息，包括：

5.如权利要求1-4任一所述的方法，其特征在于，所述根据所述多帧视频图像中每帧视频图像中的目标框的行人属性，确定所述多帧视频图像中包含同一行人的多个目标框，包括：

6.如权利要求1-4任一所述的方法，其特征在于，所述根据包含同一行人的所述多个目标框内的人体骨骼关节点的光流信息，对所述多个目标框内的行人进行摔倒检测，包括：

7.如权利要求1-4任一所述的方法，其特征在于，所述根据包含同一行人的所述多个目标框内的人体骨骼关节点的光流信息，对所述多个目标框内的行人进行摔倒检测之后，还包括：

8.一种摔倒检测装置，其特征在于，所述装置包括：

获取模块，用于从拍摄的视频流中获取多帧视频图像；

9.一种计算机设备，其特征在于，所述计算机设备包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。