CN115546491B - 一种跌倒报警方法、系统、电子设备及存储介质 - Google Patents
一种跌倒报警方法、系统、电子设备及存储介质 Download PDFInfo
- Publication number
- CN115546491B CN115546491B CN202211496481.0A CN202211496481A CN115546491B CN 115546491 B CN115546491 B CN 115546491B CN 202211496481 A CN202211496481 A CN 202211496481A CN 115546491 B CN115546491 B CN 115546491B
- Authority
- CN
- China
- Prior art keywords
- image
- model
- rdmacnet
- human body
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G08—SIGNALLING
- G08B—SIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
- G08B21/00—Alarms responsive to a single specified undesired or abnormal condition and not otherwise provided for
- G08B21/02—Alarms for ensuring the safety of persons
- G08B21/04—Alarms for ensuring the safety of persons responsive to non-activity, e.g. of elderly persons
- G08B21/0407—Alarms for ensuring the safety of persons responsive to non-activity, e.g. of elderly persons based on behaviour analysis
- G08B21/043—Alarms for ensuring the safety of persons responsive to non-activity, e.g. of elderly persons based on behaviour analysis detecting an emergency event, e.g. a fall
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Social Psychology (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Psychiatry (AREA)
- Software Systems (AREA)
- Psychology (AREA)
- Gerontology & Geriatric Medicine (AREA)
- Business, Economics & Management (AREA)
- Emergency Management (AREA)
- Computational Linguistics (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种跌倒报警方法、系统、电子设备及存储介质,方法包括:获取二维人体姿态图像并进行预处理,利用训练好的RDMACNet模型对人体姿态图像进行语义分割,以提取人体骨骼关键节点数据,根据人体骨骼关键节点数据预测图像中人物跌倒行为。本发明通过语义分割人体姿态图像的深度学习模型,对人体行为进行较为准确地识别,可应用于跌倒判断的场景,尤其是应用于任何独居人口的室内监护追踪领域。
Description
技术领域
本发明涉及行为识别技术领域,更具体地,涉及一种跌倒报警方法、系统、电子设备及存储介质。
背景技术
跌倒被定义为导致一个人在不可控的情况下在地面或地板上摔倒的事件。跌倒可以导致各种伤害,包括手腕、手臂、脚踝和臀部的骨折和创伤性脑损伤。人们在进行日常活动,特别是独居环境下,都面临着跌倒的风险。而这种风险对于老年人来说,更可能是致命的。根据CDC(疾病预防控制中心)的数据,在美国,超过四分之一(约30%)的65岁及以上的成年人报告每年都会跌倒。这导致了每年约3000万次的跌倒。在65岁及以上的成年人中,跌倒是与伤害有关的死亡的主要原因,每10万名老年人中约有62人因跌倒死亡。鉴于这种现实问题,我们需要一种自动检测跌倒并且实时报警的系统,而不是在受伤后再去求救。
到目前为止,跌倒的检测技术可以归类为两种:通过可穿戴设备和通过室内环境设备。而对于跌倒行为的探测方式也被分为基于简单规则的和机器学习技术。而在对于跌倒学习的机器学习当中,人体姿态估计是基于计算机视觉的一种重要探测方式。传统的人体姿态探测在跌倒检测环境下存在着难以实现复杂场景下分离目标和背景、易受人为设定先验信息影响、效率过低等问题。随着人工智能技术的发展,深度学习技术日趋成熟,基于深度学习的人体姿态探测,由于估计方法的精确率和速度等性能均优于传统的人体姿态估计方法,成为跌倒探测的主要方向。但是,大多数网络模型采用的是层数过多的卷积神经网络(Convolutional Neural Networks,CNN)模型,这对网络速度产生了很大影响;或者基于Long等人提出的全卷积网络(Fully Convolutional Networks,FCN)、Ronneberger等人提出的U-Net、Badrinarayanan等人提出的SegNet等。然而,这些方法存在模型参数量大、计算复杂的问题。因此,需要提出一种复杂度低的语义分割方法,通过对人体姿态图像分割得到的结果来判断跌倒情况。
发明内容
本发明针对现有技术中存在的技术问题,提供一种跌倒报警方法、系统、电子设备及存储介质,其通过语义分割人体姿态图像的深度学习模型,对人体行为进行较为准确地识别,可应用于摔倒判断的场景,尤其是应用于任何独居人口的室内监护追踪领域。
根据本发明的第一方面,提供了一种跌倒报警方法,包括:
获取二维人体姿态图像并进行预处理,利用训练好的RDMACNet(Residual DenseModule of Asymmetric Convolution Network,残差密集非对称卷积网络)模型对人体姿态图像进行语义分割,以提取人体骨骼关键节点数据,根据人体骨骼关键节点数据预测图像中人物跌倒行为。
在上述技术方案的基础上,本发明还可以作出如下改进。
可选的,还包括:构建RDMACNet模型,所述RDMACNet模型包括编码器与解码器,其中:
所述编码器包括多个依次连接的残差密集不对称空洞卷积块(Residual DenseModule of Asymmetric Convolution Block,RDMACB),各个残差密集不对称空洞卷积块的内部连接结构相同,所述编码器用于提取人体姿态图像中的人体骨骼关键节点的图像特征;
所述解码器包括1×1卷积层、3×3卷积层、激活函数、上采样操作层和其相应的连接结构,所述解码器用于根据编码器提取的人体骨骼关键节点的图像特征输出对人体姿态图像的分割结果。
可选的,所述残差密集不对称空洞卷积块包括依次连接的1×3空洞卷积层、3×1空洞卷积层、3×3空洞卷积层和1×1卷积层,还包括池化层和另一个3×3卷积层;
将输入当前残差密集不对称空洞卷积块的原始特征图输入1×3空洞卷积层,依次经过3×1空洞卷积层、3×3空洞卷积层和1×1卷积层后输出特征图;
原始特征图还输入另一个3×3卷积层,原始特征图经过另一个3×3卷积层处理后、使用残差连接的方式与1×1卷积层输出的特征图相加,相加后的特征图输入池化层,池化层输出残差密集不对称空洞卷积块最终提取的特征图。
可选的,还包括对RDMACNet模型的训练,具体包括:
构建包含各类人体姿态特征的图像数据集,将图像数据集按比例划分为训练集与测试集;
将训练集输入RDMACNet模型进行训练,得到所述RDMACNet模型的权重文件;
通过训练过程的反向传播,采用使损失函数最小的方式,不断变更网络权值使网络输出迭代逼近真值,得到优化的RDMACNet模型权重文件,所述优化的RDMACNet模型权重文件作为所述RDMACNet模型的输入;
将测试集输入训练完成的RDMACNet模型进行测试,直到像素级精度地提取人体重要骨骼节点触碰地面的图像结果,根据提取的图像结果进行人体姿态估计。
可选的,所述构建包含各类人体姿态特征的图像数据集,将图像数据集按比例划分为训练集与测试集;包括:
构建包含MPII数据集和MS COCO数据集的图像数据集,将图像数据集中的图像裁剪为适用于RDMACNet模型的统一规格;
将裁剪后的MPII数据集按比例划分为训练集一与测试集一;
将裁剪后的MS COCO数据集按比例划分为训练集二与测试集二;
对RDMACNet模型的训练过程中采用训练集一和训练集二分别进行训练,采用测试集一和测试集二分别进行测试。
可选的,损失函数L的计算过程包括:
采用交叉熵损失函数LCE和noise-robust Dice损失函数LNR-Dice,通过下式计算损失函数L:
可选的,所述根据人体骨骼关键节点数据预测图像中人物跌倒行为,包括:
假设跌倒行为发生时、根据人体力学得到的人体单个骨骼关键节点k触碰地面的图像表达以及该骨骼关键节点k对应跌倒事实的权重Wk之间的映射关系为:
通过下式计算跌倒行为预测值E与权重Wk之间的关系:
其中,[a,b]为任意骨骼节点区间,定义该区间内元素个数Count= b-a+ 1;
根据计算得到的跌倒行为预测值E判断图像中是否有表示跌倒行为的人体姿态。
根据本发明的第二方面,提供一种跌倒报警系统,包括:
预处理模块,用于获取二维人体姿态图像并进行预处理;
提取模块,用于利用训练好的RDMACNet模型对人体姿态图像进行语义分割,以提取人体骨骼关键节点数据;
识别模块,用于根据人体骨骼关键节点数据预测图像中人物跌倒行为。
根据本发明的第三方面,提供了一种电子设备,包括存储器、处理器,所述处理器用于执行存储器中存储的计算机管理类程序时实现上述跌倒报警方法的步骤。
根据本发明的第四方面,提供了一种计算机可读存储介质,其上存储有计算机管理类程序,所述计算机管理类程序被处理器执行时实现上述跌倒报警方法的步骤。
本发明提供的一种跌倒报警方法、系统、电子设备及存储介质,其使用了残差密集非对称卷积网络模型,其模型参数量低,运行速度快;特别适应大数据量的不间断评估检测,可以实现对任意人体运动图像中的人体骨骼关键节点数据,尤其是人体骨骼关键节点触地进行像素级精度的提取,并且实现了跌倒姿态的计算,可以应用于跌倒检测图像处理领域。
附图说明
图1为本发明提供的一种跌倒报警方法流程图;
图2为本发明某一实施例提供的一种跌倒报警方法流程图;
图3为本发明提供的RDMACNet模型结构示意图;
图4为本发明提供的单个残差密集不对称空洞卷积块RDMACB结构示意图;
图5为本发明某一实施例中17点人体骨骼关键点模型示意图;
图6为本发明提供的一种跌倒报警系统组成结构示意图;
图7为本发明提供的一种可能的电子设备的硬件结构示意图;
图8为本发明提供的一种可能的计算机可读存储介质的硬件结构示意图。
附图中,各标号所代表的部件列表如下:
图3中,RDMACB1~RDMACB4、残差密集不对称空洞卷积块,B1/B3/B5、3×3卷积层,B2、第一上采样层,B4、第二上采样层,B6、1×1卷积层;
图4中,A1、1×3空洞卷积层,A2、3×1空洞卷积层,A3、3×3空洞卷积层,A4、1×1卷积层,A5、3×3卷积层,A6、池化层。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
图1为本发明提供的一种跌倒报警方法流程图,如图1所示,方法包括:
获取二维人体姿态图像并进行预处理,利用训练好的RDMACNet模型对人体姿态图像进行语义分割,以提取人体骨骼关键节点数据,根据人体骨骼关键节点数据预测图像中人物跌倒行为。
可以理解的是,基于背景技术中的缺陷,本发明实施例提出了一种跌倒报警方法,其提出利用人体骨骼关键点数据模型作为单人人体姿态估计任务,并且通过一种残差密集不对称卷积网络(Residual Dense Module of Asymmetric Convolution Network,RDMACNet)模型,旨在语义分割人体姿态估计任务图像,并且根据RDMACNet模型对人体姿态估计图像当中的像素级精度的提取结果,来实现对跌倒行为的判断和计算。该方法中使用的RDMACNet模型,其模型参数量低,运行速度快;特别适应大数据量的不间断评估检测,可以实现对任意人体运动图像中的人体骨骼关键节点数据,尤其是人体骨骼关键节点与地面的贴合数据进行像素级精度的提取,并且通过提取的图像特征数据实现了跌倒姿态的计算,可以应用于跌倒检测图像处理领域。另外,虽然此模型在分割精度可能会低于现有较复杂的模型,但是鉴于运算效率高,速度快,能耗低,符合防跌倒的普惠框架和云端协同计算的技术要求。
在一种可能的实施例方式中,如图2的流程图所示,该方法还包括:构建RDMACNet模型,如图3所示,所述RDMACNet模型包括编码器与解码器,其中:
所述编码器包括多个按照特征图流向依次连接的残差密集不对称空洞卷积块RDMACB1 ~ RDMACB4,残差密集不对称空洞卷积块RDMACB1 ~ RDMACB4的内部连接结构相同,所述编码器用于提取人体姿态图像中的人体骨骼关键节点的图像特征,尤其是人体骨骼关键节点与地面贴合的图像特征;
可以理解的是,输入RDMACNet模型的原始特征图依次经过残差密集不对称空洞卷积块RDMACB1 ~ RDMACB4后,从残差密集不对称空洞卷积块RDMACB4输出进行特征提取后的特征图。残差密集不对称空洞卷积块RDMACB1 ~ RDMACB4的内部连接结构相同。为了便于区分,以Ne表示单个残差密集不对称空洞卷积块的卷积核数量,以N表示单个卷积层的卷积核数量。残差密集不对称空洞卷积块RDMACB1 ~ RDMACB4的卷积核数量Ne不同,例如图3所示,RDMACB1 ~ RDMACB4的卷积核数量Ne依次分别为32、64、128、256,残差密集不对称空洞卷积块 RDMACB4输出的特征图流向解码器。
在一种可能的实施例方式中,如图4所示为单个的残差密集不对称空洞卷积块内部结构示意图。如图4所示,所述残差密集不对称空洞卷积块包括依次连接的1×3空洞卷积层A1、3×1空洞卷积层A2、3×3空洞卷积层A3和1×1卷积层A4,还包括2×2池化层A6和另一个3×3卷积层A5。
在单个残差密集不对称空洞卷积块进行特征提取的过程中,将输入当前残差密集不对称空洞卷积块的原始特征图输入1×3空洞卷积层A1,1×3空洞卷积层A1输出的特征图依次经过3×1空洞卷积层A2、3×3空洞卷积层A3和1×1卷积层A4后输出特征图。
同时,为了保留空洞卷积忽略的图像特征,还将输入当前残差密集不对称空洞卷积块的原始特征图输入另一个3×3卷积层A5,原始特征图经过另一个3×3卷积层A5处理后、使用残差连接的方式与1×1卷积层A4输出的特征图相加,相加后的特征图输入2×2池化层A6进行下采样,池化层输出残差密集不对称空洞卷积块最终提取的特征图。
可以理解的是,残差密集不对称空洞卷积块RDMACB中具有密集的空洞卷积,获得的感受野大,像素采样密集,同时还使用不对称的卷积核来降低参数量,并且,为保留空洞卷积忽略的图像特征,输入RDMACB的原始特征图在进行常规的特征提取进程中,原始特征图还经过另外的3×3卷积层处理后使用残差连接的方式加入RDMACB常规的特征提取过程中。
更具体的,本实施例中所述残差密集不对称空洞卷积块对原始特征图的处理步骤如下:
(1).原始特征图输入到一个卷积核数量N为Ne/2、扩张率d为3、激活函数使用修正线性单元(Rectified Linear Unit,ReLU)的1×3空洞卷积层A1,1×3空洞卷积层A1的输出特征图输入到一个卷积核数量N为Ne/2、扩张率d为3、激活函数使用ReLU的3×1空洞卷积层A2,3×1空洞卷积层A2的输出特征图输入到一个卷积核数量N为Ne/2、扩张率d为6、激活函数使用ReLU的3×3空洞卷积层A3;
(2). 3×1空洞卷积层A2的输出特征图和3×3空洞卷积层A3的输出特征图以通道合并的方式进行特征融合,融合后得到的特征图输入到一个卷积核数量N为Ne、激活函数使用Sigmoid的1×1卷积层A4,1×1卷积层A4的输出特征图再与步骤(2)中特征融合得到的特征图相乘;
(3).原始特征图输入到一个卷积核数量N为Ne、激活函数使用ReLU的3×3卷积层A5,3×3卷积层A5的输出特征图与步骤(2)中相乘得到的特征图相加;
(4).步骤(3)中相加得到的特征图输入到一个池化窗口为2×2、池化窗口的步长Sp为2的最大池化层A6中,在池化层A6中将特征图的尺寸缩小为原始特征图的0.5倍,得到当前残差密集不对称空洞卷积块RDMACB的输出特征图。
需说明的是,上述步骤(1)~步骤(4)、以及图4所示的残差密集不对称空洞卷积块RDMACB结构图中,Ne表示图3中设置的RDMACB1 ~ RDMACB4的卷积核数量,每个残差密集不对称空洞卷积块RDMACB的卷积核数量Ne的值不同。
在一种可能的实施例方式中,所述解码器包括1×1卷积层、3×3卷积层、激活函数、上采样操作层和其相应的连接结构,所述解码器用于根据编码器提取的人体骨骼关键节点的图像特征输出对人体姿态图像的分割结果。
如图3所示,按照特征图流向,解码器包括依次连接的3×3卷积层B1、第一上采样层B2、3×3卷积层B3、第二上采样层B4、3×3卷积层B5和1×1卷积层B6。编码器中残差密集不对称空洞卷积块 RDMACB4输出的特征图作为3×3卷积层B1的输入。
更具体的,解码器中进行的主要步骤包括:
(5)编码器中残差密集不对称空洞卷积块RDMACB4输出的特征图输入到一个卷积核数量N为512、激活函数使用ReLU的3×3卷积层B1,并使用双线性插值法、通过第一上采样层B2对3×3卷积层B1的输出特征图进行4倍上采样,将其尺寸扩大4倍;
(6)第一次4倍上采样输出的特征图输入到一个卷积核数量N为64、激活函数使用ReLU的3×3卷积层B3,3×3卷积层B3的输出特征图与编码器中残差密集不对称空洞卷积块RDMACB2的输出特征图相加,再使用双线性插值法、通过第二上采样层B4对相加得到的特征图进行4倍上采样,将其尺寸扩大4倍;
(7)第二次4倍上采样输出的特征图输入到一个卷积核数量N为32、激活函数使用ReLU的3×3卷积层B5,3×3卷积层B5的输出再输入到一个卷积核数量N为2的1×1卷积层B6,通过1×1卷积层B6的输出得到RDMACNet模型输出的分割人体骨骼关键节点图像的结果。
在一种可能的实施例方式中,构建完成RDMACNet模型后,该方法还包括对RDMACNet模型的训练,训练过程具体包括:
构建包含各类人体姿态特征的图像数据集,将图像数据集按比例划分为训练集与测试集;
将训练集输入RDMACNet模型进行训练,得到所述RDMACNet模型的权重文件;
通过训练过程的反向传播,采用使损失函数最小的方式,不断变更网络权值使网络输出迭代逼近真值,得到优化的RDMACNet模型权重文件,所述优化的RDMACNet模型权重文件作为所述RDMACNet模型的输入;
将测试集输入训练完成的RDMACNet模型进行测试,直到像素级精度地提取人体重要骨骼节点触碰地面的图像结果,根据提取的图像结果进行人体姿态估计。
可以理解的是,构建完成RDMACNet模型后,为了提升RDMACNet模型提取人体重要骨骼节点触碰地面的图像结果、根据提取的图像结果进行人体姿态估计的准确性,需要通过大量包含人体姿态的图像数据集对RDMACNet模型进行训练,通过训练过程的反向传播不断提升模型输出结果的精度,然后保存训练完成的RDMACNet模型。
为了实现对RDMACNet模型的训练,首先需要准备大量的包含各类人体姿态的图像数据集。本发明的实施例基于MPII数据集和MS COCO数据集构建用于对RDMACNet模型进行训练的图像数据集。如表1所示为本实施例用于构建图像数据集的原始数据集(MPII数据集和MS COCO数据集)的部分参数对比。因实际人体姿态估计任务中,需要根据如表1展示的不同数据集包含的样本数、关键点个数、是否全身、单人或多人以及资源来源等信息,对于不同类型的姿态估计任务进行测试,因此通过MPII数据集和MS COCO数据集构建用于RDMACNet模型训练和测试的训练集和测试集,并且对训练集和测试集中的图像进行预处理。
表1 二维人体姿态估计样本数据集
其中,MPII (Max Planck Institute Informatik)是马克斯普朗克信息研究所用于人体姿态估计的数据集,拥有约 2.5 万张图像,包含超过 4万名具有注释关键点的人体,其数据以多人为主,有用于单帧单人姿态、单帧多人姿态和视频多人姿态的验证和测试集,大部分方法以使用单帧多人姿态测试集为主。其最多标注全身的 16 个可能的关键点,在测试集中还收录了身体部位遮挡、3D 躯干、头部方向的标注。
MS COCO数据集是一个大型、丰富的物体检测、分割、字幕和人体关键点数据集。其中MS COCO数据集的人体关键点数据集部分是多人姿态估计的主流数据集,其包含超过 20万张图像和 25 万个关键点标记的人物实例,最多标注全身的 17 个可能的关键点,如图5的人体骨骼关键点模型示意图所示,这17个关键点分别是鼻子、左右眼、左右耳、左右肩、左右肘、左右腕、左右臀、左右膝和左右脚踝。平均一幅图像 2 个人,最多有 13 个人。
在一种可能的实施例方式中,通过MPII数据集和MS COCO数据集构建包含各类人体姿态特征的图像数据集,将图像数据集按比例划分为训练集与测试集;具体包括:
首先,构建包含表1所示的MPII数据集和MS COCO数据集的图像数据集,将图像数据集中的图像裁剪为适用于RDMACNet模型的统一规格;
然后,将裁剪后的MPII数据集按比例划分为训练集一与测试集一,
将裁剪后的MS COCO数据集按比例划分为训练集二与测试集二;
最后,对RDMACNet模型的训练过程中采用训练集一和训练集二分别进行训练,采用测试集一和测试集二分别进行测试。
以MPII数据集为例进行说明。MPII数据集是目前用于评估相干人体姿势估计的最先进的基准。MPII数据集是一个大型数据集,包含丰富的活动和多样性捕获环境。它是从图像视频上跨越491个不同活动的3913个视频中收集出来的。从收集的视频中提取24,920帧。这些图像的注释是由人工完成,标注包括16个关键点的二维位置、完整的三维躯干和头部方向,关键点的遮挡标签、和活动标签。MPII数据集的标记人数大约为40522人,其中28821人用于训练,11701人用于测试。为进行RDMACNet模型的训练和测试,本发明选取数据集中的670幅图像作为训练集,150幅图像作为测试集,为了方便RDMACNet模型对图像的下采样和上采样,将图像裁剪至适用于RDMACNet模型的尺寸,例如本实施例将图像裁剪到宽度为528像素点、高度为432像素点。
可以理解的是,本发明将对以上两个数据集合成使用,并划分为训练集和测试集,并且对其中的图像进行预处理,例如尺寸裁剪。由于MPII数据集和MS COCO数据集所采集的人体骨骼关键点数量不同,因此在训练过程中为了提升RDMACNet模型输出的准确性,需要对两个数据集分别进行训练与测试。本实施例在对RDMACNet模型进行训练时,优化器使用Adam,学习率设置为0.001,批量大小设置为7,在训练集上训练100轮。
在一种可能的实施例方式中,在RDMACNet模型训练过程中,损失函数L的计算过程包括:
采用交叉熵损失函数LCE和Wang等人提出的noise-robust Dice损失函数LNR-Dice,通过下式计算损失函数L:
上式中,λ可依据经验设定为0.8,N表示图像中像素点的数量,qi表示图像中第i个像素点对应标注的值,pi表示网络模型对第i个像素点的预测通过Softmax函数后的值。
在一种可能的实施例方式中,在得到模型识别出的人体骨骼关键节点数据后,根据人体骨骼关键节点数据预测图像中人物跌倒行为,包括:
首先,通过明确跌倒行为和人体骨骼关键节点k触碰地面的图像结果,以及不同骨骼节点所指示的权重Wk之间的关系。
假设跌倒行为发生时、根据人体力学得到的人体单个骨骼关键节点k触碰地面的图像表达以及该骨骼关键节点k对应跌倒事实的权重Wk之间的映射关系为:
然后,根据RDMACNet模型分割人体姿态估计图像的结果,来计算/预测一幅人体移动图像中具有的行为是否属于跌倒行为。
具体的,通过下式计算跌倒行为预测值E与权重Wk之间的关系:
其中,[a,b]为任骨骼关键节点区间,定义该区间内元素个数Count= b-a+ 1;
根据计算得到的跌倒行为预测值E判断图像中是否有表示跌倒行为的人体姿态。
图6为本发明实施例提供的一种跌倒报警系统结构图,如图6所示,一种跌倒报警系统,包括预处理模块、提取模块和识别模块,其中:
预处理模块,用于获取二维人体姿态图像并进行预处理;
提取模块,用于利用训练好的RDMACNet模型对人体姿态图像进行语义分割,以提取人体骨骼关键节点数据;
识别模块,用于根据人体骨骼关键节点数据预测图像中人物跌倒行为。
可以理解的是,本发明提供的一种跌倒报警系统与前述各实施例提供的跌倒报警方法相对应,跌倒报警系统的相关技术特征可参考跌倒报警方法的相关技术特征,在此不再赘述。
请参阅图7,图7为本发明实施例提供的电子设备的实施例示意图。如图7所示,本发明实施例提了一种电子设备700,包括存储器710、处理器720及存储在存储器710上并可在处理器720上运行的计算机程序711,处理器720执行计算机程序711时实现以下步骤:
获取二维人体姿态图像并进行预处理,利用训练好的RDMACNet模型对人体姿态图像进行语义分割,以提取人体骨骼关键节点数据,根据人体骨骼关键节点数据预测图像中人物跌倒行为。
请参阅图8,图8为本发明提供的一种计算机可读存储介质的实施例示意图。如图8所示,本实施例提供了一种计算机可读存储介质800,其上存储有计算机程序811,该计算机程序811被处理器执行时实现如下步骤:
获取二维人体姿态图像并进行预处理,利用训练好的RDMACNet模型对人体姿态图像进行语义分割,以提取人体骨骼关键节点数据,根据人体骨骼关键节点数据预测图像中人物跌倒行为。
本发明实施例提供的一种跌倒报警方法、系统及存储介质,提出了一种基于语义分割的人体二维姿态跌倒提取方案。其包括提出利用人体骨骼关键点模型作为单人人体姿态估计任务,并且通过一种残差密集不对称卷积网络(Residual Dense Module ofAsymmetric Convolution Network,RDMACNet)模型,旨在语义分割人体姿态估计任务图像,并且根据RDMACNet模型对人体姿态估计图像当中的像素级精度的提取结果,来实现对跌倒行为的判断和计算。通过本方案提出的RDMACNet模型可以实现对任意人体运动图像中的人体骨骼关键节点触地进行像素级精度的提取,并且实现了跌倒姿态的计算,可以应用于跌倒检测图像处理领域。
针对复杂方法在实际应用层面存在的不足,此方案的优势是,本发明提出的残差密集不对称卷积网络(Residual Dense Module of Asymmetric Convolution Network,RDMACNet)模型具有编解码结构,其中,编码器用于提取图像特征,解码器用于根据编码器提取的图像特征来输出对图像的分割结果。这样做的优势在于模型参数量低,运行速度快;特别适应大数据量的不间断评估检测,适合跌倒的应用场景。另外,虽然此模型在分割精度可能会低于现有较复杂的模型,但是鉴于运算效率高,速度快,能耗低,符合防跌倒的普惠框架和云端协同计算的技术要求。
需要说明的是,在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其它实施例的相关描述。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式计算机或者其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包括这些改动和变型在内。
Claims (5)
1.一种跌倒报警方法,其特征在于,包括:
S1,构建RDMACNet模型,所述RDMACNet模型包括编码器与解码器,其中:
所述编码器包括多个依次连接的残差密集不对称空洞卷积块,各个残差密集不对称空洞卷积块的内部连接结构相同,所述编码器用于提取人体姿态图像中的人体骨骼关键节点的图像特征;
其中,所述残差密集不对称空洞卷积块包括依次连接的1×3空洞卷积层、3×1空洞卷积层、3×3空洞卷积层和1×1卷积层,还包括池化层和另一个3×3卷积层;
将输入当前残差密集不对称空洞卷积块的原始特征图输入1×3空洞卷积层,依次经过3×1空洞卷积层、3×3空洞卷积层和1×1卷积层后输出特征图;
原始特征图还输入另一个3×3卷积层,原始特征图经过另一个3×3卷积层处理后、使用残差连接的方式与1×1卷积层输出的特征图相加,相加后的特征图输入池化层,池化层输出残差密集不对称空洞卷积块最终提取的特征图;
所述解码器包括1×1卷积层、3×3卷积层、激活函数、上采样操作层和其相应的连接结构,所述解码器用于根据编码器提取的人体骨骼关键节点的图像特征输出对人体姿态图像的分割结果;
S2,对RDMACNet模型的训练,具体包括:
构建包含各类人体姿态特征的图像数据集,将图像数据集按比例划分为训练集与测试集;
将训练集输入RDMACNet模型进行训练,得到所述RDMACNet模型的权重文件;
通过训练过程的反向传播,采用使损失函数最小的方式,不断变更网络权值使网络输出迭代逼近真值,得到优化的RDMACNet模型权重文件,所述优化的RDMACNet模型权重文件作为所述RDMACNet模型的输入;
将测试集输入训练完成的RDMACNet模型进行测试,直到像素级精度地提取人体重要骨骼节点触碰地面的图像结果,根据提取的图像结果进行人体姿态估计;
其中,RDMACNet模型的损失函数L的计算过程包括:
采用交叉熵损失函数LCE和noise-robust Dice损失函数LNR-Dice,通过下式计算损失函数L:
其中,λ依据经验设定,N表示图像中像素点的数量,qi表示图像中第i个像素点对应标注的值,pi表示网络模型对第i个像素点的预测通过Softmax函数后的值;
S3,获取二维人体姿态图像并进行预处理,利用训练好的RDMACNet模型对人体姿态图像进行语义分割,以提取人体骨骼关键节点数据,根据人体骨骼关键节点数据预测图像中人物跌倒行为;具体包括:
假设跌倒行为发生时、根据人体力学得到的人体单个骨骼关键节点k触碰地面的图像表达以及该骨骼关键节点k对应跌倒事实的权重Wk之间的映射关系为:
通过下式计算跌倒行为预测值E与权重Wk之间的关系:
其中,[a,b]为任意骨骼节点区间,定义该区间内元素个数Count= b-a+ 1;
根据计算得到的跌倒行为预测值E判断图像中是否有表示跌倒行为的人体姿态。
2.根据权利要求1所述的一种跌倒报警方法,其特征在于,所述构建包含各类人体姿态特征的图像数据集,将图像数据集按比例划分为训练集与测试集;包括:
构建包含MPII数据集和MS COCO数据集的图像数据集,将图像数据集中的图像裁剪为适用于RDMACNet模型的统一规格;
将裁剪后的MPII数据集按比例划分为训练集一与测试集一;
将裁剪后的MS COCO数据集按比例划分为训练集二与测试集二;
对RDMACNet模型的训练过程中采用训练集一和训练集二分别进行训练,采用测试集一和测试集二分别进行测试。
3.一种跌倒报警系统,其特征在于,包括:
预处理模块,用于构建及训练RDMACNet模型,还用于获取二维人体姿态图像并进行预处理;
所述RDMACNet模型包括编码器与解码器,其中:
所述编码器包括多个依次连接的残差密集不对称空洞卷积块,各个残差密集不对称空洞卷积块的内部连接结构相同,所述编码器用于提取人体姿态图像中的人体骨骼关键节点的图像特征;
其中,所述残差密集不对称空洞卷积块包括依次连接的1×3空洞卷积层、3×1空洞卷积层、3×3空洞卷积层和1×1卷积层,还包括池化层和另一个3×3卷积层;
将输入当前残差密集不对称空洞卷积块的原始特征图输入1×3空洞卷积层,依次经过3×1空洞卷积层、3×3空洞卷积层和1×1卷积层后输出特征图;
原始特征图还输入另一个3×3卷积层,原始特征图经过另一个3×3卷积层处理后、使用残差连接的方式与1×1卷积层输出的特征图相加,相加后的特征图输入池化层,池化层输出残差密集不对称空洞卷积块最终提取的特征图;
所述解码器包括1×1卷积层、3×3卷积层、激活函数、上采样操作层和其相应的连接结构,所述解码器用于根据编码器提取的人体骨骼关键节点的图像特征输出对人体姿态图像的分割结果;
对RDMACNet模型的训练,具体包括:
构建包含各类人体姿态特征的图像数据集,将图像数据集按比例划分为训练集与测试集;
将训练集输入RDMACNet模型进行训练,得到所述RDMACNet模型的权重文件;
通过训练过程的反向传播,采用使损失函数最小的方式,不断变更网络权值使网络输出迭代逼近真值,得到优化的RDMACNet模型权重文件,所述优化的RDMACNet模型权重文件作为所述RDMACNet模型的输入;
将测试集输入训练完成的RDMACNet模型进行测试,直到像素级精度地提取人体重要骨骼节点触碰地面的图像结果,根据提取的图像结果进行人体姿态估计;
其中,RDMACNet模型的损失函数L的计算过程包括:
采用交叉熵损失函数LCE和noise-robust Dice损失函数LNR-Dice,通过下式计算损失函数L:
其中,λ依据经验设定,N表示图像中像素点的数量,qi表示图像中第i个像素点对应标注的值,pi表示网络模型对第i个像素点的预测通过Softmax函数后的值;
提取模块,用于利用训练好的RDMACNet模型对人体姿态图像进行语义分割,以提取人体骨骼关键节点数据;
识别模块,用于根据人体骨骼关键节点数据预测图像中人物跌倒行为;具体包括:
假设跌倒行为发生时、根据人体力学得到的人体单个骨骼关键节点k触碰地面的图像表达以及该骨骼关键节点k对应跌倒事实的权重Wk之间的映射关系为:
通过下式计算跌倒行为预测值E与权重Wk之间的关系:
其中,[a,b]为任意骨骼节点区间,定义该区间内元素个数Count= b-a+ 1;
根据计算得到的跌倒行为预测值E判断图像中是否有表示跌倒行为的人体姿态。
4.一种电子设备,其特征在于,包括存储器、处理器,所述处理器用于执行存储器中存储的计算机管理类程序时实现如权利要求1-2任一项所述的一种跌倒报警方法的步骤。
5.一种计算机可读存储介质,其特征在于,其上存储有计算机管理类程序,所述计算机管理类程序被处理器执行时实现如权利要求1-2任一项所述的一种跌倒报警方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211496481.0A CN115546491B (zh) | 2022-11-28 | 2022-11-28 | 一种跌倒报警方法、系统、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211496481.0A CN115546491B (zh) | 2022-11-28 | 2022-11-28 | 一种跌倒报警方法、系统、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115546491A CN115546491A (zh) | 2022-12-30 |
CN115546491B true CN115546491B (zh) | 2023-03-10 |
Family
ID=84722407
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211496481.0A Active CN115546491B (zh) | 2022-11-28 | 2022-11-28 | 一种跌倒报警方法、系统、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115546491B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115937991A (zh) * | 2023-03-03 | 2023-04-07 | 深圳华付技术股份有限公司 | 人体摔倒识别方法、装置、计算机设备及存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109325476A (zh) * | 2018-11-20 | 2019-02-12 | 齐鲁工业大学 | 一种基于三维视觉的人体异常姿态检测系统及方法 |
WO2020107847A1 (zh) * | 2018-11-28 | 2020-06-04 | 平安科技(深圳)有限公司 | 基于骨骼点的跌倒检测方法及其跌倒检测装置 |
CN113096001A (zh) * | 2021-04-01 | 2021-07-09 | 咪咕文化科技有限公司 | 图像处理方法、电子设备及可读存储介质 |
CN113111767A (zh) * | 2021-04-09 | 2021-07-13 | 上海泗科智能科技有限公司 | 一种基于深度学习3d姿态评估的跌倒检测方法 |
CN113205060A (zh) * | 2020-12-28 | 2021-08-03 | 武汉纺织大学 | 采用循环神经网络依据骨骼形态判断的人体动作检测方法 |
CN113392765A (zh) * | 2021-06-15 | 2021-09-14 | 广东工业大学 | 一种基于机器视觉的摔倒检测方法和系统 |
CN114067434A (zh) * | 2021-11-12 | 2022-02-18 | 燕山大学 | 基于深度时空卷积自编码器的跌倒行为检测方法及装置 |
CN114882591A (zh) * | 2022-05-06 | 2022-08-09 | 于力 | 一种基于深度学习的羽毛球比赛动作分析系统 |
CN114973326A (zh) * | 2022-05-24 | 2022-08-30 | 中铁大桥局集团有限公司 | 跌倒预警方法、装置、设备及可读存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11170295B1 (en) * | 2016-09-19 | 2021-11-09 | Tidyware, LLC | Systems and methods for training a personalized machine learning model for fall detection |
US11179064B2 (en) * | 2018-12-30 | 2021-11-23 | Altum View Systems Inc. | Method and system for privacy-preserving fall detection |
CN114913547A (zh) * | 2022-05-06 | 2022-08-16 | 西安电子科技大学 | 基于改进的Transformer网络的跌倒检测方法 |
-
2022
- 2022-11-28 CN CN202211496481.0A patent/CN115546491B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109325476A (zh) * | 2018-11-20 | 2019-02-12 | 齐鲁工业大学 | 一种基于三维视觉的人体异常姿态检测系统及方法 |
WO2020107847A1 (zh) * | 2018-11-28 | 2020-06-04 | 平安科技(深圳)有限公司 | 基于骨骼点的跌倒检测方法及其跌倒检测装置 |
CN113205060A (zh) * | 2020-12-28 | 2021-08-03 | 武汉纺织大学 | 采用循环神经网络依据骨骼形态判断的人体动作检测方法 |
CN113096001A (zh) * | 2021-04-01 | 2021-07-09 | 咪咕文化科技有限公司 | 图像处理方法、电子设备及可读存储介质 |
CN113111767A (zh) * | 2021-04-09 | 2021-07-13 | 上海泗科智能科技有限公司 | 一种基于深度学习3d姿态评估的跌倒检测方法 |
CN113392765A (zh) * | 2021-06-15 | 2021-09-14 | 广东工业大学 | 一种基于机器视觉的摔倒检测方法和系统 |
CN114067434A (zh) * | 2021-11-12 | 2022-02-18 | 燕山大学 | 基于深度时空卷积自编码器的跌倒行为检测方法及装置 |
CN114882591A (zh) * | 2022-05-06 | 2022-08-09 | 于力 | 一种基于深度学习的羽毛球比赛动作分析系统 |
CN114973326A (zh) * | 2022-05-24 | 2022-08-30 | 中铁大桥局集团有限公司 | 跌倒预警方法、装置、设备及可读存储介质 |
Non-Patent Citations (5)
Title |
---|
Adrián Núñez-Marcos 等.Vision-Based Fall Detection with Convolutional Neural Networks.《Wireless Communications and Mobile Computing》.2017,第1-17页. * |
Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation;Liang-Chieh Chen 等;《arxiv.org》;20180822;第1-18页 * |
Human fall detection in surveillance video based on PCANet;Shengke Wang 等;《Multimed Tools Appl》;20150612;第11603–11613页 * |
基于骨架和自编码器模型的视频跌倒检测研究;蒋思宏;《中国优秀硕士学位论文全文数据库 信息科技辑》;20200315;第I138-1230页 * |
铁路工人人体行为识别模型;黄珍珍 等;《中国安全科学学报》;20220630;第32卷(第06期);第17-22页 * |
Also Published As
Publication number | Publication date |
---|---|
CN115546491A (zh) | 2022-12-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109919031B (zh) | 一种基于深度神经网络的人体行为识别方法 | |
CN109886358B (zh) | 基于多时空信息融合卷积神经网络的人体行为识别方法 | |
CN110363131B (zh) | 基于人体骨架的异常行为检测方法、系统及介质 | |
CN109146921B (zh) | 一种基于深度学习的行人目标跟踪方法 | |
CN106909938B (zh) | 基于深度学习网络的视角无关性行为识别方法 | |
CN107122736A (zh) | 一种基于深度学习的人体朝向预测方法及装置 | |
CN111222486B (zh) | 手部姿态识别模型的训练方法、装置、设备及存储介质 | |
CN109034092A (zh) | 用于监控系统的异常事件检测方法 | |
CN109685037B (zh) | 一种实时动作识别方法、装置及电子设备 | |
CN111160294B (zh) | 基于图卷积网络的步态识别方法 | |
CN110503081A (zh) | 基于帧间差分的暴力行为检测方法、系统、设备及介质 | |
CN111539290A (zh) | 视频动作识别方法、装置、电子设备及存储介质 | |
CN112232134A (zh) | 一种基于沙漏网络结合注意力机制的人体姿态估计方法 | |
CN115546491B (zh) | 一种跌倒报警方法、系统、电子设备及存储介质 | |
CN115346272A (zh) | 基于深度图像序列的实时摔倒检测方法 | |
Hristov | Real-time abnormal human activity detection using 1DCNN-LSTM for 3D skeleton data | |
CN112801009B (zh) | 基于双流网络的面部情感识别方法、装置、介质及设备 | |
CN114241270A (zh) | 一种家庭护理智能监督方法、系统及装置 | |
CN110287912A (zh) | 基于深度学习的目标对象情感状态确定方法、装置及介质 | |
CN111951260B (zh) | 基于部分特征融合卷积神经网络实时目标计数系统及方法 | |
Zahan et al. | Learning sparse temporal video mapping for action quality assessment in floor gymnastics | |
CN111626197A (zh) | 一种人体行为识别网络模型及识别方法 | |
CN115830707A (zh) | 一种基于超图学习的多视角人体行为识别方法 | |
CN113673313B (zh) | 一种基于分层卷积神经网络的手势姿态识别方法 | |
CN104616323B (zh) | 一种基于慢特征分析的时空显著性检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |