CN113033523A

CN113033523A - 跌倒判断模型的构建方法及系统、跌倒判断方法及系统

Info

Publication number: CN113033523A
Application number: CN202110572607.7A
Authority: CN
Inventors: 张�浩
Original assignee: Hangzhou Xiongmai Integrated Circuit Technology Co Ltd
Current assignee: Zhejiang Xinmai Microelectronics Co ltd
Priority date: 2021-05-25
Filing date: 2021-05-25
Publication date: 2021-06-25
Anticipated expiration: 2041-05-25
Also published as: CN113033523B

Abstract

本发明公开一种跌倒判断模型的构建方法及系统，还公开一种利用所述跌倒判断模型进行的跌倒判断方法及系统，其中构建跌倒判断模型的过程中，基于人形图像序列对跌倒判断网络进行迭代训练的步骤包括：将人形图像序列输入至跌倒判断网络，由所述跌倒判断网络输出静态预测标签和动态预测标签，静态预测标签与静态标签一一对应；基于静态标签和静态预测标签生成第一损失值；基于静态标签生成相应的动态标签，并基于所述动态标签和所述动态预测标签生成第二损失值；基于第一损失值和第二损失值所生成的联合损失值更新所述跌倒判断网络。本发明由联合损失值指导空间特征及时序特征的特征学习，能够有效提高跌倒判断的准确性。

Description

跌倒判断模型的构建方法及系统、跌倒判断方法及系统

技术领域

本发明涉及图像识别领域，尤其涉及一种跌倒判断技术。

背景技术

现今通过图像进行跌倒判断的方法为：检测图像中人形的关键点，基于所得关键点进行处理判断，以识别人形是否为跌倒状态；

但跌倒的情况复杂，人形跌倒状态多变，且拍摄角度以及光照的不同亦会对关键点的提取造成影响，且基于关键点进行跌倒检测时，将放弃人形轮廓等空间信息，导致检测效果不稳定。

发明内容

本发明针对现有技术中基于图像进行跌倒判断的方案中，效果浮动偏大，在跌倒场景复杂时判断准确率低的缺点，提供了一种跌倒判断模型的构建技术，还提供一种基于所构建的跌倒判断模型进行跌倒判断的技术。

为了解决上述技术问题，本发明通过下述技术方案得以解决：

本发明提出一种跌倒判断模型的构建方法，包括以下步骤：

获取人形图像序列，所述人形图像序列包括若干帧人形图像，且各人形图像均标注有静态标签，所述静态标签用于指示相应人形的静态状态，即，对应人形的姿态；

构建跌倒判断网络，基于所述人形图像序列，对所述跌倒判断网络进行迭代训练，获得跌倒判断模型；

跌倒判断网络为多输入网络，本领域技术人员可自行设定其输入层的数量，人形图像序列中人形图像的数量与跌倒判断网络中输入层的数量相对应。本领域技术人员可根据实际需要自行设定迭代终止条件，如根据迭代次数或相应的损失值判定跌倒终止，将所得跌倒判断网络作为训练获得的跌倒判断模型。

迭代训练的步骤包括：

将人形图像序列输入至跌倒判断网络，由所述跌倒判断网络输出静态预测标签和动态预测标签，所述静态预测标签与所述静态标签一一对应，即，跌倒判断网络具有两个预测分支，一个预测分支单独对每一帧人形图像的姿态进行预测，另一个预测分支对整个人形图像序列姿态变换情况进行预测。

基于静态标签和静态预测标签生成第一损失值，该第一损失值用于指导网络对空间特征的学习；

基于静态标签生成相应的动态标签，已知各人形图像的静态标签，将各静态标签按照时间顺序进行拼接即可获得相应的动态标签；

基于所述动态标签和所述动态预测标签生成第二损失值，该第二损失值用于指导网络对时序特征的学习；

基于第一损失值和第二损失值生成联合损失值，基于所述联合损失值更新所述跌倒判断网络。

在对姿态变化情况进行预测时，将同时用到空间特征和时序特征，即，本申请中利用第一损失值指导网络对空间特征的学习，对姿态变换的预测亦起到优化效果。

作为一种可实施方式：

所述跌倒判断网络包括特征提取网络、状态预测网络和变换预测网络；

特征提取网络的输入为人形图像序列，输出为相应的特征数据；

状态预测网络和变换预测网络的输入为所述特征数据，状态预测网络的输出为静态预测标签，变换预测网络的输出为动态预测标签；

当达到预设的迭代终止条件时，从更新所得的跌倒判断网络中移除状态预测网络，获得跌倒判断模型。

由于动态预测标签能够体现每帧人形图像的姿态，还能体现姿态变化的情况，故训练所得的跌倒判断模型无需对每帧人形图像的姿态进行判断，本方案中移除状态预测网络，从而加快跌倒判断模型在实际应用时的推理速度，使其满足实时进行跌倒判断时对判断时长的要求。

作为一种可实施方式：

基于多分类交叉熵损失函数计算第一损失值和第二损失值。

本方案基于多损失监督学习，能够保证提取特征的有效性和鲁棒性，能够增加网络应付复杂光线变化和姿态变化等能力。

作为一种可实施方式：

静态标签包括直立状态和跌倒状态。

即，本方案中状态预测网络用于对每帧人形图像进行二分类。

本发明还提出一种跌倒判断模型的构建系统，包括：

获取模块，用于获取人形图像序列，所述人形图像序列包括时序在先的第一人形图像和时序在后的第二人形图像，且第一人形图像和第二人形图像均标注有静态标签；

构建模块，用于构建跌倒判断网络；

训练模块，用于基于所述人形图像序列，对所述跌倒判断网络进行迭代训练，获得跌倒判断模型，其包括预测单元、损失计算单元和更新单元；

所述预测单元，用于将人形图像序列输入至跌倒判断网络，由所述跌倒判断网络输出静态预测标签和动态预测标签，所述静态预测标签与所述静态标签一一对应；

所述损失计算单元，用于基于静态标签和静态预测标签生成第一损失值，还用于基于静态标签生成动态标签，基于所述动态标签和所述动态预测标签生成第二损失值，还用于基于第一损失值和第二损失值生成联合损失值；

所述更新单元，还用于基于联合损失值更新所述跌倒判断网络。

本发明还提出一种跌倒判断方法，包括以下步骤：

获取目标人物所对应的待测图像序列，所述待测图像序列包括若干帧按照时间顺序排列的待测图像；

将待测图像序列输入至跌倒判断模型，由所述跌倒判断模型输出相应的动态预测标签，其中跌倒判断模型为上述任意一项方法所构建的跌倒判断模型。

在跌倒判断过程中，基于同一个人不同时刻对应的人形图像进行跌倒判断，所采用的跌倒判断模型通过融合不同帧的特征，充分利用跌倒过程中姿态相关的时序特征，从而准确判断对应人物的状态。

作为一种可实施方式：

获取视频帧序列，视频帧序列包括若干帧按照时间顺序排列的视频帧；

识别各视频帧中的人形区域，基于目标人物所对应的人形区域生成待测图像；

基于预设的提取规则提取待测图像，获得待测图像序列。

上述提取规则用于指示每组待测图像序列中待测图像的数量和选取方式，本领域技术人员可根据实际需要自行设定。

作为一种可实施方式：

将各视频帧输入预先构建的人形检测模型，由所述人形检测模型输出目标人物的人形区域位置数据；

即，人形检测模型的输入是视频帧，输出是视频帧中各人所对应的位置区域；

基于现有已公开的目标跟踪技术即可实现对视频帧中不同人物的区分，分别以每个人作为目标人物进行跌倒检测。

基于人形区域位置数据对相应视频帧进行裁剪，基于所得裁剪图像生成待测图像。

作为一种可实施方式：

待测图像序列包括两帧待测图像；

动态预测标签包括直立状态-直立状态、直立状态-跌倒状态、跌倒状态-跌倒状态、跌倒状态-直立状态。

本发明还提出一种跌倒判断系统，包括：

数据获取模块，用于获取目标人物所对应的待测图像序列，所述待测图像序列包括若干帧按照时间顺序排列的待测图像；

跌倒判断模块，用于将待测图像序列输入至跌倒判断模型，由所述跌倒判断模型输出相应的动态预测标签，其中跌倒判断模型为上述任意一项方法所构建的跌倒判断模型。

本发明由于采用了以上技术方案，具有显著的技术效果：

1、本发明基于静态标签和静态预测标签计算第一损失值，由第一损失值指导空间特征的特征学习，加强对应人物空间特征的代表性，还基于动态标签和动态预测标签计算第二损失值，由第二损失值指导时序特征的特征学习，充分有效的利用了行人跌倒过程的姿态相关的时序特征，由于预测姿态变换情况时将同时采用空间特征和时序特征，故本发明基于联合损失值优化跌倒判断网络的方案能够大幅度提高跌倒判断的准确性。

2、本发明通过在跌倒判断网络训练完成后，从所得跌倒判断网络中移除状态预测网络后获得跌倒判断模型，从而有效减少跌倒判断模型在实际应用时网络推理的用时。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一种跌倒判断模型的构建方法中迭代训练的流程示意图；

图2是本发明中跌倒判断网络的第一架构示意图；

图3是本发明中跌倒判断网络的第二架构示意图；

图4是本发明一种跌倒判断模型的构建系统的模块连接示意图；

图5是图4中获取模块100的模块连接示意图；

图6是本发明一种跌倒判断系统的模块连接示意图。

具体实施方式

下面结合实施例对本发明做进一步的详细说明，以下实施例是对本发明的解释而本发明并不局限于以下实施例。

实施例1、一种跌倒判断模型的构建方法，包括以下步骤：

S100、获取人形图像序列，所述人形图像序列包括若干帧人形图像，且各人形图像均标注有静态标签，用于指示相应人形的静态状态；

模型构建过程中，为增加泛化能力，不对人形图像序列进行限定，人形图像序列中可以为不同人物不同时刻的人形图像，能够体现人形姿态变换即可；

本实施例中静态标签包括直立状态和跌倒状态，本领域技术人员可根据实际需要自行扩展姿态类别，本实施例不对其做限定。

S200、构建跌倒判断网络，基于所述人形图像序列，对所述跌倒判断网络进行迭代训练，获得跌倒判断模型；

如图1所示，迭代训练的步骤包括：

S210、将人形图像序列输入至跌倒判断网络，由所述跌倒判断网络输出静态预测标签和动态预测标签，所述静态预测标签与所述静态标签一一对应；

S220、基于静态标签和静态预测标签生成第一损失值；

S230、基于静态标签生成相应的动态标签，并基于所述动态标签和所述动态预测标签生成第二损失值；

由于人形图像序列具有时序信息，故静态标签可结合直接生成相应的动态标签；

如人形图像序列包含两帧人形图像，静态标签依次为直立状态、跌倒状态，则动态标签即为直立状态-跌倒状态；

S240、基于第一损失值和第二损失值生成联合损失值，基于所述联合损失值更新所述跌倒判断网络。

本实施例基于静态标签和静态预测标签计算第一损失值，由第一损失值指导空间特征的特征学习，加强对应人物空间特征的代表性，还基于动态标签和动态预测标签计算第二损失值，由第二损失值指导时序特征的特征学习，充分有效利用了行人跌倒过程的姿态相关的时序特征；基于第一损失值和第二损失值生成的联合损失值优化跌倒判断网络，使所得跌倒判断网络同时加强在空间和时序两个维度上的特征提取能力；

预测动态预测标签时，基于空间特征和时序特征进行分类判断，故优化对空间特征的提取亦可提升动态预测标签的预测效果。

如仅基于第一损失值对跌倒判断网络进行更新，此时跌倒判断网络相当于现有的图像分类网络，不适用于跌倒判断等复杂场景，判断效果差；

仅基于第二损失值对跌倒判断网络进行更新，此时跌倒判断网络相当于现有的时序分类网络，虽然引入时序特征，基于空间特征和时序特征共同进行姿态分类，但其侧重于对时序特征的学习，空间特征提取的能力差，故跌倒判断效果的提升有限；

即使将图像分类网络和时序分类网络的判断结果进行加权融合，仍旧无法改变其判断结果稳定性和准确性低的缺陷；

由此可见，本实施例通过利用联合损失值进行网络更新，能够统一时空域特征，使得网络优化方向更加明确，减少单独不同网络中的数据概率分布的不匹配，大幅度提升判断效果。

现今基于图像进行人形姿态识别的技术方案，即，现有图像分类网络为：

基于包含标准动作的图像样本进行训练，以获得图像分类模型，由该模型对图像进行分类，以实现对用户动作的识别；该仅适用于简单场景下的人形姿态识别，如在健身运动中识别用户动作是否标准，其要求用户拍摄其运动视频的角度与训练时所采用的样本图像的角度一致；

跌倒判断往往应用于监控场景，采集图像的摄像头设置位置不一、角度不一、且不同时刻的光线不一，且人跌倒的姿势不一，故难以通过上述技术方案进行准确判断，故现有技术中普遍基于关键点进行跌倒检测。

现有基于关键点进行跌倒检测的方案包括；

基于关键点直接进行跌倒检测，如，基于关键点信息获取人体的重心数据，根据重心数据直接判断是否处于跌倒状态；

对关键点的坐标进行时序处理后进行跌倒判断，如，基于躯干关键点运动的方向进行跌倒判断，当躯干关键点运动方向与人物运动方向相反时，表示该人物向后倾倒，故可判定其发生跌倒，本方案即使利用了不同帧的时序特征，但是还是基于坐标进行回归判断跌倒，仍旧具有利用的所空间特征信息少的缺点，当跌倒场景复杂时易发生误判。

进一步地：

迭代训练过程中跌倒判断网络的架构图如图2所示，其具有两个输出分支，移除状态预测网络后跌倒判断网络的架构图如图3所示，其仅输出动态预测标签。

在实际训练过程中，本领域技术人员可根据实际需要自行设定迭代终止条件，如当迭代次数达到预设的迭代次数阈值时停止迭代训练，或，当所得第一损失值与第二损失值的和小于预设的损失值阈值时停止迭代训练，无需对其进行限定。

由于动态预测标签即可体现人形图像序列中姿态变换的情况，故为了加快网络推理速度，在训练完成后移除状态预测网络，使所得跌倒训练模型在实际使用中不对单帧人形图像的姿态进行预测。

本实施例所构建的跌倒判断网络为多输入网络，能够提取不同帧的行人深度特征，且通过状态预测网络实现对单帧深度特征的监督学习，以指导并加强行人特征判别的有效性，最后融合不同帧的特征进行跌倒状态的判断，其不仅可以进行端到端的学习，还通过联合多个损失使得网络提取特征更加鲁棒。

进一步地：

基于多分类交叉熵损失函数计算第一损失值和第二损失值。

本实施例通过多损失监督学习，保证所提取特征的有效性和鲁棒性，提高了所得跌倒判断模型应付复杂光线变化和姿态变化等能力，可适用于监控场景下的跌倒判断。

进一步地，步骤S100中人形图像序列的获取方式为：

获取包含跌倒情况的监控视频，获得若干个监控视频帧；

基于预设的人形检测模型检测各监控视频帧中人形区域；

基于所得人形区域确定裁剪区域并进行裁剪，获得人形图像；

人形检测模型可选用现有已公开的人形检测模型，也可通过标注类别、人形区域位置数据的视频帧训练深度学习网络，以获得人形检测模型。

进一步地，获得人形图像前还包括图像预处理步骤，具体为：

基于所得人形区域确定裁剪区域并进行裁剪，获得裁剪图像；

按照预设的概率对所得裁剪图像进行灰度化处理，获得相应的处理图像，本实施例中按照50%的概率对所得裁剪图像进行灰度化处理，所得处理图像包括灰度化处理后的图像和未进行灰度化处理的图像；

对各处理图像进行归一化处理，获得相应的人形图像。

以下通过具体的案例对本实施例所提出的构建方法进行详细介绍：

1、获取训练数据：

1.1、获取包含跌倒情况的监控视频，获得若干个监控视频帧；

本案例中通过录制或网络下载的方式获取监控视频；

1.2、检测各监控视频帧中人形区域；

可由人工手动裁剪人形区域，但此方案效率低，故本案例通过构建人形检测模型，利用人形检测模型检测人形区域，具体如下；

随机选取部分监控视频帧，并对其进行标注，标注内容为类别、人形区域位置数据（人形左上角坐标和人形右下角坐标），获得样本视频帧

利用样本视频帧训练深度学习网络，获得相应的人形检测模型。

本领域技术人员可根据实际需要，自行选择现有已公开的深度学习网络，并基于标注所得的样本视频帧按照现有已公开的训练方法进行训练，本案例不对其进行具体限定。

将各监控视频帧输入至人形检测模型中，由人形检测模型输出该监控视频帧中的类别（指示是否为人形）、置信度、人形区域位置数据（人形左上角坐标和人形右下角坐标）；

当所述置信度超出预设的置信度阈值（如80%）时，基于人形区域位置数据对监控视频帧中进行裁剪。

1.3、裁剪包含人形区域的图像；

计算裁剪图像的尺寸大小：

其中w为人形的宽，h为人形的高，w和h可基于人形左上角坐标和人形右下角坐标计算获得；content为超参数，用于控制人形图像中的背景量，本案例中该值为0.5，crop_size为裁剪所得裁剪图像的大小。

基于人形左上角坐标和人形右下角坐标确定人形目标中心点（cx,cy）；

基于裁剪图像的尺寸crop_size和人形目标中心点（cx,cy）计算裁剪坐标，具体公式为：

其中，（x1,y1）为裁剪左上角坐标，（x2,y2）为裁剪右下角坐标；

通过上述步骤，计算每一个人形区域所对应的裁剪坐标，根据裁剪坐标对相应的监控视频帧进行裁剪，获得相应的裁剪图像；

以预测所得的人形区域（人形左上角坐标和人形右下角坐标框选的区域）可能与实际人形所在的区域存在偏差，如直接人形区域对进行裁剪，将会出现裁剪所得图像中人形出现缺失的情况，从而影响后续跌倒判断模型的训练效果；本案例所得裁剪图像大于相应的人形区域，具有一定的裕度。

若裁剪坐标为负或者大于监控视频帧的尺寸，表示裁剪区域中部分区域超出监控视频帧的范围，故在裁剪过程中基于现有技术进行相应的补边操作（本实施例中补边所用像素值为128），以获得相应的裁剪图像。

本领域技术人员还可根据实际需要，对所得裁剪图像进行预处理，如进行尺寸变换、灰度化处理、归一化处理等操作，具体处理步骤如下：

对所得裁剪图像进行尺寸变换，使其尺寸与跌倒检测模型输入尺寸一致，本实施例中将各裁剪图像的尺寸变换为224。

按照预设的比例（50%的概率）对所得裁剪图像进行灰度化处理，获得相应的处理图像。

对所得处理图像进行归一化操作，获得相应的人形图像；

归一化公式如下：

其中，

为归一化前的像素值，

为归一化后的像素值。

1.4、构建人形图像序列；

为各人形图像标注静态标签，以指示相应人形的静态状态；

配置人形图像序列中人形图像的数量，基于所配置的数量信息对标注静态标签的人物图像进行任意组合，获得若干组人形图像序列，将各人形图像序列作为训练数据；

2、构建跌倒判断网络；

跌倒判断网络为多输入网络，本案例中其为两输入网络，本领域技术人员可根据实际需要自行扩展其输入数量。

跌倒判断网络如图2所示，其具体网络配置如下表所示：

表1

上表中，k代表卷积核大小，n代表输出卷积特征图个数，s代表卷积滑动步长，Bn代表BatchNormalization操作，RelU6、Softmax代表使用的激活函数。

本案例中全连接层2(fc2)和全连接层4(fc4)的激活函数均采用Softmax，公式如下：

其中，

是指第i个神经元的输出，

是指所有输出神经元经过指数运算求和。该公式输出的每个神经节点的概率值，其和等于1。

本案例中人形图像序列包含2个人形图像，分别通过输入层1（input1）和输入层2（input2）输入至特征提取网络，由卷积层11(conv11)将所提取的特征分别发送至状态预测网络和变换预测网络进行状态预测。全连接层2(fc2)为状态预测网络的输出层，其输出静态预测标签，本案例中跌倒为1，直立为0；

全连接层4(fc4)为变换预测网络的输出层，其输出动态预测标签，本实施例中设置直立状态-直立状态为0、直立状态-跌倒状态为1、跌倒状态-跌倒状态为2、跌倒状态-直立状态为3。

3、对跌倒判断网络进行迭代训练：

本实施例中利用交叉熵损失函数进行损失计算，并基于所得损失值对相应网络参数进行反向更新，计算公式如下；

其中，E_loss表示联合损失值，E₁表示第一损失值，E₂表示第二损失值；Y1_a表示人形图像序列中，第a个人形图像的静态标签，

表示与所述静态标签所对应的静态预测标签，a≤n，n为人形图像序列中人形图像的数量；Y2标识人形图像序列所对应的动态标签，

表示该人形图像序列所对应的动态预测标签。

由于各人形图像标注有静态标签，可基于静态标签自动生成相应的动态标签，本案例中将（0,0）设置为0，标识直立状态-直立状态、（0,1）设为值1，标识直立状态-跌倒状态、（1,1）设置为2，标识跌倒状态-跌倒状态、（1,0）设置为3，标识跌倒状态-直立状态。

如输入层1（input1）所输入的人形图像的静态标签为0，输入层2（input2）所输入的人形图像的静态标签为1，组合获得标签（0,1），按照预设的映射规则将其标签直接转换为1，标识直立状态-跌倒状态。

本案例通过状态预测网络判断单帧人形图像所对应的人性状态，能够使得conv11层特征更加明确，为之后的特征拼接层(Concat)处提供良好的特征需求；变换预测网络则拼接不同单帧的人形深度特征后进行特征融合分类操作，能够充分考虑人形跌倒的时序特征，提高网络的鲁棒性。

注，模型参数初始化设置如下：使用Adam优化方法，基础学习率(base_Ir)设为，0.001，训练批量大小(batchsize)为48。

实施例2、一种跌倒判断模型的构建系统，如图4所示包括：

获取模块100，用于获取人形图像序列，所述人形图像序列包括时序在先的第一人形图像和时序在后的第二人形图像，且第一人形图像和第二人形图像均标注有静态标签；

构建模块300，用于构建跌倒判断网络；

训练模块，用于基于所述人形图像序列，对所述跌倒判断网络进行迭代训练，获得跌倒判断模型，其包括预测单元210、损失计算单元220和更新单元230；

所述预测单元210，用于将人形图像序列输入至跌倒判断网络，由所述跌倒判断网络输出静态预测标签和动态预测标签，所述静态预测标签与所述静态标签一一对应；

所述损失计算单元220，用于基于静态标签和静态预测标签生成第一损失值；还用于基于静态标签生成动态标签，并基于所述动态标签和所述动态预测标签生成第二损失值；还用于基于第一损失值和第二损失值生成联合损失值；

所述更新单元230，用于基于联合损失值更新所述跌倒判断网络。

进一步地，训练模块还包括移除单元240；

所述移除单元240，用于当达到预设的迭代终止条件时，从更新所得的跌倒判断网络中移除状态预测网络，获得跌倒判断模型。

进一步地，获取模块100包括获取单元110、人形检测单元120、裁剪单元130和预处理单元140，如图5所示；

所述获取单元110，用于获取包含跌倒情况的监控视频，获得若干个监控视频帧；

所述人形检测单元120，用于基于预设的人形检测模型检测各监控视频帧中人形区域；

所述裁剪单元130，用于基于所得人形区域确定裁剪区域并进行裁剪，获得裁剪图像；

所述预处理单元140，用于按照预设的概率对所得裁剪图像进行灰度化处理，获得相应的处理图像，还用于对各处理图像进行归一化处理，获得相应的人形图像。

本实施例为实施例1的装置实施例，由于其与实施例1基本相似，所以描述的比较简单，相关之处参见实施例1的部分说明即可。

实施例3、一种跌倒判断方法，包括以下步骤：

S100、获取目标人物所对应的待测图像序列，所述待测图像序列包括若干帧按照时间顺序排列的待测图像；

S200、将待测图像序列输入至跌倒判断模型，由所述跌倒判断模型输出相应的动态预测标签，其中跌倒判断模型为实施例1中任意一项方法所构建的跌倒判断模型。

在实际使用中，将同一人物不同时刻的人物图像作为待测图像输入至跌倒判断模型，由跌倒判断模型输出动态预测标签，此时可根据动态预测标签知悉该人物姿态变换的情况，适用于实时跌倒检测，和通过监控录像快速定位发生跌倒的视频片段。

进一步地，待测图像序列的获取方式为：

S110、获取视频帧序列，视频帧序列包括若干帧按照时间顺序排列的视频帧；

S120、识别各视频帧中的人形区域，基于目标人物所对应的人形区域生成待测图像；

S130、基于预设的提取规则提取待测图像，获得待测图像序列。

本领域技术人员可根据实际需要自行设定提取规则，如当待测图像序列包括两帧待测图像时，其为{Net（i），Net（i+n）}；其中Net（i）表示当前时刻所对应的待测图像，Net（i+n）表示n帧后的待测图像；

张三所对应的待测图像包括Net（1）、Net（2）、Net（3）；

当n=1时，其对应的待测图像序列包括{Net（1），Net（2）}，{Net（1），Net（3）}；

当n=2时，其对应的待测图像序列包括{Net（1），Net（3）}。

进一步地，步骤S120中识别各视频帧中的人形区域，基于所述人形区域生成待测图像的具体步骤为：

S121、将各视频帧输入预先构建的人形检测模型，由所述人形检测模型输出目标人物的人形区域位置数据；

所述人形检测模型即实施例1中所构建的人形检测模型；

本实施例中人形检测模型输出类别、置信度和人形区域位置数据；

本领域人员可根据实际需要自行设定置信度阈值，以基于置信度高于置信度阈值时所对应的人形区域位置数据获取待测图像；

本实施例中在识别人形区域时，基于现有已公开的目标追踪技术，即可获得各行人所对应的人形图像，分别以各行人作为目标人物进行跌倒检测，当前目标人物所对应的人形图像即为待测图像。

如视频帧序列中包括张三和李四两个人的行动轨迹，基于现有已公开的目标追踪技术即可获得各视频帧中张三及李四各自对应的人形区域位置数据，分别对张三及李四的人形图像作为待测图像进行跌倒判断模型，以获得张三及李四各自对应动态预测标签。

本实施例中利用深度学习网络所构建的人形检测模型提取视频帧中的感兴趣画面，基于所得感兴趣画面裁剪获得包含人形的待测图像，基于所得待测图像进行跌倒判断，充分利用监控视频中的空间特征和时序特征，与现有基于关键点进行跌倒检测的方案相比，准确性高。

S122、基于人形区域位置数据对相应视频帧进行裁剪，基于所得裁剪图像生成待测图像。

即，将人形区域位置数据参照实施例1中步骤1.3进行裁剪，以获得相应的裁剪图像；

对所得裁剪图像进行尺寸变换，获得相应的待测图像。

进一步地：

待测图像序列包括两帧待测图像；

跌倒判断模型为多输入模型，本领域技术人员可自行设定其输入（如2~4），无需限定为二输入；

但由于动态预测标签的类别和跌倒判断模型的输入数量以及姿态类别相关，以姿态类别为直立、跌倒两种为例：

当跌倒判断模型为二输入模型时，动态预测标签为4类，对待测图像序列进行四分类；

当跌倒判断模型为三输入模型时，动态预测标签为8类，对待测图像序列进行八分类；

由此可见，跌倒判断模型的输入数量越高，跌倒判断模型所进行分类的类别越多，将会对其开销及精度造成影响，故当其为二输入模型时，开销最小，精度最高。

现有基于关键点直接进行跌倒检测的方案虽然能够在跌倒时，跌坐在地上后的状态进行识别，但是由于其缺失大量空间特征，且仅通过单帧的关键点进行识别，误判率大。

现有关键点的坐标进行时序处理后进行跌倒判断的方案仅能识别跌倒时的状态，跌坐在地上后即无法识别，局限性大。

本实施例通过对动态预测标签的设计，不仅能识别行人跌倒时的状态（直立状态-跌倒状态），还能在行人跌倒无法起身时进行跌倒判断（跌倒状态-跌倒状态），在实际使用过程中，可基于动态预测标签进行风险预警，例如识别某行人的动态预测标签为直立状态-跌倒状态后，在预设的时间内恢复为跌倒状态-直立状态或直立状态-直立状态时，无需进行报警反馈，反之，如长时间或多次识别为跌倒状态-跌倒状态，说明其需要帮助，此时进行报警反馈，通知相应工作人员及时提供帮助。

本实施例通过利用实施例1所构建的跌倒判断模型，由于其在训练过程中基于静态预测标签和动态预测标签在空间和时间两个方向上优化跌倒判断模型，使所得的跌倒判断模型鲁棒性更佳，即使在复杂多变的监控场景下也能保持其检测的准确性。

且由于动态预测标签不仅能够体现姿态的变化，也能体现单帧待测图像的识别结果，故通过移除用于预测静态预测标签的状态预测网络以加快网络推理，使其适用于实时跌倒检测的场景。

实施例4、一种跌倒判断系统，如图6所示，包括：

数据获取模块，用于获取目标人物所对应的待测图像序列，所述待测图像序列包括若干帧按照时间顺序排列的待测图像，且各待测图像均包含目标人物；

跌倒判断模块500，用于将待测图像序列输入至跌倒判断模型，由所述跌倒判断模型输出相应的动态预测标签，跌倒判断模型为实施例1中任意一项方法所构建的跌倒判断模型。

进一步地，数据获取模块包括数据获取单元410、人形识别单元420和图像提取单元430；

所述数据获取单元410，用于获取视频帧序列，视频帧序列包括若干帧按照时间顺序排列的视频帧；

所述人形识别单元420，用于识别各视频帧中的人形区域，基于目标人物所对应的人形区域生成待测图像；

所述图像提取单元430，用于基于预设的提取规则提取待测图像，获得待测图像序列。

本实施例为实施例3所对应的装置实施例，由于其与实施例3基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明的实施例可提供为方法、装置、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

需要说明的是：

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

此外，需要说明的是，本说明书中所描述的具体实施例，所取名称等可以不同。凡依本发明专利构思所述的构造、特征及原理所做的等效或简单变化，均包括于本发明专利的保护范围内。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，只要不偏离本发明的结构或者超越本权利要求书所定义的范围，均应属于本发明的保护范围。

Claims

1.一种跌倒判断模型的构建方法，其特征在于包括以下步骤：

获取人形图像序列，所述人形图像序列包括若干帧人形图像，且各人形图像均标注有静态标签，用于指示相应人形的静态状态；

构建跌倒判断网络，基于所述人形图像序列，对所述跌倒判断网络进行迭代训练，获得跌倒判断模型，迭代训练的步骤包括：

将人形图像序列输入至跌倒判断网络，由所述跌倒判断网络输出静态预测标签和动态预测标签，所述静态预测标签与所述静态标签一一对应；

基于静态标签和静态预测标签生成第一损失值；

基于静态标签生成相应的动态标签，基于所述动态标签和所述动态预测标签生成第二损失值；

2.根据权利要求1所述的跌倒判断模型的构建方法，其特征在于：

3.根据权利要求1或2所述的跌倒判断模型的构建方法，其特征在于：

基于多分类交叉熵损失函数计算第一损失值和第二损失值。

4.根据权利要求1或2所述的跌倒判断模型的构建方法，其特征在于：

静态标签包括直立状态和跌倒状态。

5.一种跌倒判断模型的构建系统，其特征在于，包括：

构建模块，用于构建跌倒判断网络；

所述更新单元，用于基于所述联合损失值更新所述跌倒判断网络。

6.一种跌倒判断方法，其特征在于包括以下步骤：

将待测图像序列输入至跌倒判断模型，由所述跌倒判断模型输出相应的动态预测标签，其中跌倒判断模型为权利要求1至4任意一项方法所构建的跌倒判断模型。

7.根据权利要求6所述的跌倒判断方法，其特征在于：

基于预设的提取规则提取待测图像，获得待测图像序列。

8.根据权利要求7所述的跌倒判断方法，其特征在于：

9.根据权利要求6至8任一所述的跌倒判断方法，其特征在于：

待测图像序列包括两帧待测图像；

10.一种跌倒判断系统，其特征在于，包括：

跌倒判断模块，用于将待测图像序列输入至跌倒判断模型，由所述跌倒判断模型输出相应的动态预测标签，其中跌倒判断模型为权利要求1至4任意一项方法所构建的跌倒判断模型。