CN117037204A - 摔倒检测方法、装置、电子设备及计算机程序产品 - Google Patents
摔倒检测方法、装置、电子设备及计算机程序产品 Download PDFInfo
- Publication number
- CN117037204A CN117037204A CN202210463049.5A CN202210463049A CN117037204A CN 117037204 A CN117037204 A CN 117037204A CN 202210463049 A CN202210463049 A CN 202210463049A CN 117037204 A CN117037204 A CN 117037204A
- Authority
- CN
- China
- Prior art keywords
- video frame
- detection
- human body
- network
- detection object
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 361
- 238000004590 computer program Methods 0.000 title claims abstract description 20
- 238000012937 correction Methods 0.000 claims abstract description 26
- 238000012216 screening Methods 0.000 claims abstract description 17
- 239000011159 matrix material Substances 0.000 claims description 91
- 230000009471 action Effects 0.000 claims description 49
- 230000008859 change Effects 0.000 claims description 49
- 230000006870 function Effects 0.000 claims description 39
- 238000012549 training Methods 0.000 claims description 33
- 230000004927 fusion Effects 0.000 claims description 24
- 238000000605 extraction Methods 0.000 claims description 17
- 238000004422 calculation algorithm Methods 0.000 claims description 16
- 208000006440 Open Bite Diseases 0.000 claims description 10
- 238000005457 optimization Methods 0.000 claims description 10
- 210000003423 ankle Anatomy 0.000 claims description 9
- 230000015654 memory Effects 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 5
- 238000000034 method Methods 0.000 abstract description 29
- 230000000007 visual effect Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 17
- 210000000544 articulatio talocruralis Anatomy 0.000 description 13
- 230000008569 process Effects 0.000 description 11
- 238000011176 pooling Methods 0.000 description 9
- 230000006399 behavior Effects 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 6
- 230000002159 abnormal effect Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 206010000117 Abnormal behaviour Diseases 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 210000004394 hip joint Anatomy 0.000 description 2
- 210000001503 joint Anatomy 0.000 description 2
- 210000000629 knee joint Anatomy 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000013441 quality evaluation Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 210000001624 hip Anatomy 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 210000003127 knee Anatomy 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 210000000707 wrist Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及计算机视觉领域,提供一种摔倒检测方法、装置、电子设备及计算机程序产品。所述方法包括:在视频帧中筛选得到有效视频帧;根据检测对象的高度属性对有效视频帧进行尺寸矫正并确定检测对象的空间比例属性;根据空间比例属性对检测对象在每一有效视频帧中的三维姿态信息进行填充,得到无遮挡视频帧;基于无遮挡视频帧,利用摔倒检测模型得到检测对象的摔倒检测结果。本申请实施例提供的摔倒检测方法可以减少无关视频帧的干扰以及解决因视角限制导致的检测对象被遮挡和变形的问题,进而提高摔倒检测结果的准确度。
Description
技术领域
本申请涉及计算机视觉技术领域,具体涉及一种摔倒检测方法、装置、电子设备及计算机程序产品。
背景技术
传统的摔倒检测常采用穿戴式传感器或环境传感器进行摔倒检测,并在检测到摔倒行为时发起警报,以便为无法对摔倒作出反应的对象提供及时的救助。但由于单个穿戴式传感器仅能针对一个检测对象进行检测,因此,此种检测方法的设备成本较高。
目前,现有技术中提出了一种基于计算机视觉的摔倒检测方法,其采用姿态估计算法提取每一帧图像中目标的关键骨骼点数据;利用摔倒检测卷积识别网络根据每一帧图像中关键骨骼点数据的变化情况进行摔倒检测,获得摔倒检测结果。
上述方案存在以下问题:
摔倒检测卷积识别网络输出结果的准确性受到输入样本集的影响,而对于监控视频场景下获取到的视频帧,其常常存在因视角限制导致的图像遮挡和图像变形的问题,这就导致依赖于输入样本集的摔倒检测卷积识别网络无法对摔倒行为作出准确检测。
发明内容
本申请实施例提供一种摔倒检测方法、装置、电子设备及计算机程序产品,用以解决摔倒检测卷积识别网络因输入样本集的图像遮挡和图像变形问题,无法作出准确检测的技术问题。
第一方面,本申请实施例提供一种摔倒检测方法,包括:
在视频帧中筛选得到有效视频帧;所述有效视频帧中,检测对象相对于前一帧视频帧的质心偏移量大于预设偏移阈值;
根据所述检测对象的高度属性对所述有效视频帧进行尺寸矫正并确定所述检测对象的空间比例属性;所述高度属性通过对所述检测对象进行属性检测确定;
根据所述空间比例属性对所述检测对象在每一有效视频帧中的三维姿态信息进行填充,得到无遮挡视频帧;所述检测对象在每一无遮挡视频帧中的三维姿态信息均包含有预设数量的关节点坐标;
基于所述无遮挡视频帧,利用摔倒检测模型得到所述检测对象的摔倒检测结果。
在一个实施例中,所述在视频帧中筛选得到有效视频帧,包括:
获取每一视频帧的质心坐标;
遍历每一视频帧,对比当前视频帧的质心坐标与前一帧视频帧的质心坐标,当质心坐标的纵坐标的偏移量小于预设偏移阈值时,确定当前视频帧为无效视频帧;
结束遍历后,将所有无效视频帧从所述视频帧中删去,得到所述有效视频帧。
在一个实施例中,所述获取每一视频帧的质心坐标,包括:
利用初级检测网络识别每一视频帧的质心坐标;
所述初级检测网络包括:特征提取卷积网络、特征金字塔网络和头部网络;
其中,所述特征提取卷积网络用于提取所述视频帧中的人体特征图;所述特征金字塔网络用于对所述特征提取卷积网络输出的人体特征图进行采样,输出多尺度人体特征图;所述头部网络用于对所述多尺度人体特征图进行预测;所述多尺度人体特征图中包含有人体边界框信息;所述人体边界框的对角线交点为所述质心坐标。
在一个实施例中,所述在视频帧中筛选得到有效视频帧,还包括:
在结束遍历之前,利用所述初级检测网络识别每一视频帧的质量分数并将质量分数小于质量得分阈值的视频帧标记为无效视频帧。
在一个实施例中,所述根据所述检测对象的高度属性对所述有效视频帧进行尺寸矫正之前,包括:
识别所述有效视频帧中的所有待检测对象;所述待检测对象包含多个检测对象;
利用行人重识别算法在所有待检测对象中识别出所述检测对象;
对所述检测对象进行属性检测,得到所述检测对象的高度属性。
在一个实施例中,所述高度属性包括:性别、年龄段和身高信息;
所述根据所述检测对象的高度属性对所述有效视频帧进行尺寸矫正并确定所述检测对象的空间比例属性,包括:
根据所述检测对象的性别和年龄段确定所述检测对象的空间比例属性;
所述检测对象的空间比例属性和身高信息对所述有效视频帧进行尺寸矫正。
在一个实施例中,所述根据所述空间比例属性对所述检测对象在每一有效视频帧中的三维姿态信息进行填充,得到无遮挡视频帧,包括:
利用人体姿态估计算法提取每一有效视频帧中的三维姿态信息;
确定所述三维姿态信息中是否存在缺失的关节点坐标;
当存在缺失的关节点坐标时,基于所述空间比例属性将所述缺失的关节点坐标增加至所述三维姿态信息中,得到无遮挡视频帧。
在一个实施例中,所述基于所述无遮挡视频帧,利用摔倒检测模型得到所述检测对象的摔倒检测结果之前,包括:
基于所述无遮挡视频帧分别构建运动特征矩阵和动作特征矩阵;所述运动特征矩阵用于描述关节点的时序变化,所述动作特征矩阵用于描述关节点的相对位置变化;
基于特征融合后的所述运动特征矩阵和所述动作特征矩阵训练得到所述摔倒检测模型。
在一个实施例中,所述基于所述无遮挡视频帧分别构建运动特征矩阵和动作特征矩阵,包括:
根据每一无遮挡视频帧的人体宽高比、颈部移动速度、人体质心高度、中心变化率以及高度变化率构建所述运动特征矩阵;其中,所述人体宽高比为鼻部关节点与脚踝关节点的纵坐标比值,所述颈部移动速度通过相邻两帧无遮挡视频帧中颈部关节点和鼻部关节点的坐标计算得到;所述人体质心高度为人体质心与人体海拔最低点的距离;所述中心变化率为相邻两帧无遮挡视频帧中人体中心纵坐标的变化率,所述人体中心纵坐标基于鼻部关节点与脚踝关节点的纵坐标确定;所述高度变化率为人体高度与人体平均高度的比值,所述人体平均高度为所有无遮挡视频帧中的人体高度的均值;
根据每一关节点在每一无遮挡视频帧中的速度构建所述动作特征矩阵。
在一个实施例中,所述基于特征融合后的所述运动特征矩阵和所述动作特征矩阵训练得到所述摔倒检测模型,包括:
构建时序网络;所述时序网络用于学习所述运动特征矩阵中的时序特征;
构建特征网络;所述特征网络用于学习所述动作特征矩阵中的动作关联特征;
利用所述时序网络和所述特征网络构建所述摔倒检测模型;
所述摔倒检测模型包括:并行的时序网络和特征网络、特征融合层、全连接层和多损失函数优化网络;所述特征融合层用于对所述时序网络和所述特征网络的输出执行向量合并;所述全连接层用于根据所述特征融合层的输出迭代训练权重参数,所述多损失函数优化网络用于度量摔倒检测模型输出的预测值和真实值之间的差距。
第二方面,本申请实施例提供一种摔倒检测装置,包括:
视频预处理模块,用于:在视频帧中筛选得到有效视频帧;所述有效视频帧中,检测对象相对于前一帧视频帧的质心偏移量大于预设偏移阈值;
空间信息矫正模块,用于:根据所述检测对象的高度属性对所述有效视频帧进行尺寸矫正并确定所述检测对象的空间比例属性;并根据所述空间比例属性对所述检测对象在每一有效视频帧中的三维姿态信息进行填充,得到无遮挡视频帧;所述检测对象在每一无遮挡视频帧中的三维姿态信息均包含有预设数量的关节点坐标;
摔倒检测模块,用于:基于所述无遮挡视频帧,利用摔倒检测模型得到所述检测对象的摔倒检测结果。
在一个实施例中,所述摔倒检测装置,还包括:模型训练模块;
所述模型训练模块,用于:基于所述无遮挡视频帧分别构建运动特征矩阵和动作特征矩阵;所述运动特征矩阵用于描述关节点的时序变化,所述动作特征矩阵用于描述关节点的相对位置变化;并基于特征融合后的所述运动特征矩阵和所述动作特征矩阵训练得到所述摔倒检测模型。
第三方面,本申请实施例提供一种电子设备,包括处理器和存储有计算机程序的存储器,所述处理器执行所述程序时实现第一方面所述的摔倒检测方法的步骤。
第四方面,本申请实施例提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现第一方面所述的摔倒检测方法的步骤。
本申请实施例提供的摔倒检测方法,通过对视频进行筛选获取有效视频帧,通过比较相邻两帧视频帧的质心偏移量和预设偏移阈值,对摔倒行为的视频帧进行初步筛选,减少无关视频帧的干扰;并通过检测对象的高度属性对有效视频帧进行尺寸矫正,以解决监控视频下检测对象的高度信息被压缩的问题,进而得到检测对象正确的空间比例属性,根据正确的空间比例属性补齐每一有效视频帧中检测对象缺失的三维姿态信息,令得到的无遮挡视频帧中包含有检测对象所有关键的关节点坐标,以解决检测对象被遮挡的问题,使得用于摔倒检测的视频帧进一步排除了因视角限制引入的干扰,从而提高摔倒检测结果的准确度。
附图说明
为了更清楚地说明本申请或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的摔倒检测方法的流程示意图;
图2是本申请实施例提供的有效视频帧筛选方法的流程示意图;
图3是本申请实施例提供的初级检测网络的网络结构示意图;
图4是本申请实施例提供的检测对象的高度属性的获取方法的流程示意图;
图5是本申请实施例提供的一体化行人重识别模型的模型结构示意图;
图6是本申请实施例提供的有效视频帧的尺寸矫正方法的流程示意图;
图7是本申请实施例提供的三维姿态信息的填充方法的流程示意图;
图8是本申请实施例采用的18个关键关节点的人体骨骼图;
图9是本申请实施例提供的利用人体姿态估计算法提取到的人体姿态的示意图;
图10是本申请实施例提供的无遮挡的人体姿态的示意图;
图11是本申请实施例提供的摔倒检测模型的训练方法的流程示意图;
图12是本申请实施例提供的摔倒检测模型的模型结构示意图;
图13是本申请实施例提供的摔倒检测装置的结构示意图之一;
图14是本申请实施例提供的摔倒检测装置的结构示意图之二;
图15是本申请实施例提供的电子设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1为本申请实施例提供的摔倒检测方法的流程示意图。参照图1,本申请实施例提供一种摔倒检测方法,包括:
S11、在视频帧中筛选得到有效视频帧;所述有效视频帧中,检测对象相对于前一帧视频帧的质心偏移量大于预设偏移阈值;
S12、根据检测对象的高度属性对有效视频帧进行尺寸矫正并确定检测对象的空间比例属性;
S13、根据空间比例属性对检测对象在每一有效视频帧中的三维姿态信息进行填充,得到无遮挡视频帧;
S14、基于无遮挡视频帧,利用摔倒检测模型得到检测对象的摔倒检测结果。
在步骤S11中,视频帧可以基于图像采集装置采集到的视频源解析得到,例如:可以利用OpenPose软件对视频源进行处理,将视频源转换成若干帧的图像。
在步骤S11中,有效视频帧至少满足以下条件:所述有效视频帧中,检测对象相对于前一帧视频帧的质心偏移量大于预设偏移阈值。
由于发生摔倒行为的过程中,质心位置会发生明显变化,因此,通过追踪质心的变化情况能够判断是否存在摔倒的可能,对于质心偏移量不满足要求的视频帧可以视为无摔倒行为视频帧,丢弃无摔倒行为视频帧以提高最终用于摔倒检测的视频帧的有效性。
在步骤S12中,由于监控场景下,检测对象存在高度信息被压缩的情况,进而影响到质心和关节点的位置的准确度,对后续的模型判别产生影响,因此,可以通过属性检测得到检测对象的高度属性,基于高度属性修正被压缩的高度信息,并确定检测对象的正确的空间比例属性,进而矫正有效视频帧的尺寸,以令后续获取到的检测对象的三维姿态信息更符合实际。
高度属性为与检测对象的高度信息相关的属性信息,可以用于确定检测对象的空间比例属性和身高信息。例如,女性和男性的头身比不同,因此,性别可作为检测对象的高度属性;成年人与青少年的头身比不同,因此,年龄段可作为检测对象的高度属性。
在步骤S13中,可以通过步骤S12中得到的正确的空间比例属性补齐三维姿态信息中缺失的关节点坐标,令三维姿态信息中包含所有所需的关节点坐标,而所需的关节点坐标是否已经全部都包含于三维姿态信息中,可通过关节点坐标的数量来确定。
本申请实施例中,补齐三维姿态信息中缺失的关节点坐标能够对视频帧中检测对象的被遮挡部分进行填充,得到无遮挡视频帧;在无遮挡视频帧中,能够得到检测对象完整的三维姿态信息,完整的三维姿态信息包含有预设数量的关节点坐标。
需要说明的是,预设数量可根据检测对象的关键的关节点的数量确定,例如:预设数量的取值为17、18或25。
为了便于理解,下面以人体为例,对步骤S13进行说明:
当前常用的人体骨骼图中包含有18个关键的关节点,当有效视频帧中的三维姿态信息中的关节点坐标的数量小于18时,说明当前有效视频帧中的检测对象被遮挡,需要利用该检测对象的空间比例属性对遮挡部分进行填充,补齐18个关节点坐标。
在步骤S14中,摔倒检测模型可以采用现有的摔倒检测卷积识别网络,也可以利用无遮挡视频帧训练构建好的检测模型得到摔倒检测模型。
在一个实施例中,当摔倒检测模型基于无遮挡视频帧的判别结果为安全姿态时,则输出安全姿态提示;
当摔倒检测模型基于无遮挡视频帧的判别结果为危险姿态时,则启动警报,进一步地,还可以向检测对象的联系人发送求助信息。
本申请实施例提供的摔倒检测方法,通过对视频进行筛选获取有效视频帧,通过比较相邻两帧视频帧的质心偏移量和预设偏移阈值,对摔倒行为的视频帧进行初步筛选,减少无关视频帧的干扰;并通过检测对象的高度属性对有效视频帧进行尺寸矫正,以解决监控视频下检测对象的高度信息被压缩的问题,进而得到检测对象正确的空间比例属性,根据正确的空间比例属性补齐每一有效视频帧中检测对象缺失的三维姿态信息,令得到的无遮挡视频帧中包含有检测对象所有关键的关节点坐标,以解决检测对象被遮挡的问题,使得用于摔倒检测的视频帧进一步排除了因视角限制引入的干扰,从而提高摔倒检测结果的准确度。
在一个实施例中,质心偏移量还可以包括:质心坐标的横坐标偏移量和/或纵坐标偏移量。
在一个实施例中,参见图2,所述在视频帧中筛选得到有效视频帧,包括:
S21、获取每一视频帧的质心坐标;
S22、遍历每一视频帧,对比当前视频帧的质心坐标与前一帧视频帧的质心坐标,当质心坐标的纵坐标偏移量小于预设偏移阈值时,确定当前视频帧为无效视频帧;
S23、结束遍历后,将所有无效视频帧从视频帧中删去,得到有效视频帧。
在步骤S21中,可以获取每一视频帧中同一检测对象的质心坐标。
需要说明的是,步骤S21中可以采用多种方式进行质心坐标的获取,例如:利用目标检测模型识别检测对象的边界框,以边界框的中心坐标作为质心坐标;以及利用姿态估计算法识别检测对象的二维姿态信息,进而识别出质心坐标。
可以理解的是,上述对于质心坐标识别的描述仅是一种示例,不构成对本发明的唯一限定。
在步骤S22中,将当前视频帧中的质心坐标与前一帧的视频帧中的质心坐标进行对比。
示例性地,可以将纵坐标进行对比:在当前视频帧中质心纵坐标与前一帧的视频帧中质心纵坐标的差值小于预设偏移阈值时,确定当前视频帧为无效视频帧。
上述对比过程是基于质心在纵轴方向上的偏移情况对无效视频帧进行识别,该过程中质心偏移存在两种情况:质心上移和质心下移。
在一个实施例中,可以仅考虑质心下移的情况,由于摔倒行为对应的质心偏移体现为质心下移,因此,可以将所有质心上移的情况,即当前视频帧中质心纵坐标与前一帧的视频帧中质心纵坐标的差值大于或等于0的情况,视作无效视频帧;而仅对当前视频帧中质心纵坐标与前一帧的视频帧中质心纵坐标的差值小于0的情况进行阈值判定,当质心纵坐标的下移量小于预设偏移阈值时,确定当前视频帧为无效视频帧。
在实际应用中,还可以结合质心横坐标的偏移量进行无效视频帧的识别,例如:对于质心横坐标未发生偏移的情况,可以对应检测对象的下蹲动作,因此,将质心横坐标偏移量和质心纵坐标偏移量均大于或等于预设偏移阈值的视频帧视作有效视频帧。
需要说明的是,在实际应用过程中,也可以根据当前视频帧中的质心坐标与前一帧的视频帧中的质心坐标计算两帧视频帧中质心偏移的直线距离和偏移方位角,并基于该直线距离和偏移方位角确定当前视频帧是否为无效视频帧。
可以理解的是,可以通过多种方式基于质心坐标确定当前视频帧是否为无效视频帧,上述示例不构成对本发明的唯一限定。
在步骤S23中,基于质心偏移量筛选得到无效视频帧,其质心位置未发现明显变化,表示该视频帧中检测对象没有产生摔倒的趋势,也即是说,该视频帧中检测对象摔倒概率小,无需通过摔倒检测模型即可确定该视频帧中检测对象未发生摔倒行为,因此可将其从视频帧删去,减少后续摔倒检测模型的检测工作量,提高检测效率。
本申请实施例利用通过对比相邻视频帧的质心坐标,对检测对象的质心进行追踪,在当前视频帧中检测对象的质心坐标与前一帧视频帧相比,不满足预设的偏移条件时,则认为当前视频帧中的检测对象产生摔倒行为的概率较小,在已经得到无摔倒行为的判定结果下,将当前视频帧从视频帧中删去,能够减少摔倒检测模型的检测工作量,提高检测效率。
在一个实施例中,提供了一种初级检测网络,可以利用初级检测网络识别每一视频帧的质心坐标,该初级检测网络包括:特征提取卷积网络、特征金字塔网络和头部网络;
其中,所述特征提取卷积网络用于提取所述视频帧中的人体特征图;
所述特征金字塔网络用于对所述特征提取卷积网络输出的人体特征图进行采样,输出多尺度人体特征图;
所述头部网络用于对所述多尺度人体特征图进行预测;所述多尺度人体特征图中包含有人体边界框信息;所述人体边界框的对角线的交点坐标为所述质心坐标。
示例性地,参见图3,特征提取卷积网络NetBody包括一层输入层INPUT和五层卷积层Conv,提取得到每一视频帧进行的人体特征图,此时的人体特征图的特征语义信息较少但目标位置准确,将人体特征图输入至特征金字塔网络FPN,特征金字塔网络FPN中包括多个特征拼接层Concat、多个卷积层Conv以及多个上采样层UpSampling,对上述人体特征图进行多尺度采样,得到多尺度人体特征图,多尺度人体特征图具有丰富的特征语义信息,分辨能力强,头部网络Head包括三层头部网络层Net-Head,用于对所述多尺度人体特征图中的每一尺度进行预测,用于确定识别的质心与真实质心之间的偏差,当识别的质心可近似认为真实质心时,即得到质心坐标。
下面对初级检测网络识别质心坐标的过程进行进一步说明:
对视频帧进行特征提取和采样后,特征金字塔网络输出预测结果(N,W,H,3,U),其中,N、W和H分别表示不同的特征维度,3表示特征维度数量,预测的有效信息U中包含有预测的人体边界框信息、预测质量得分、是否有行人的置信度信息和人体边界框的种类;其中,x、y、w和h为人体边界框的四个顶点;
对上述预测结果进行解码,得到预测的人体边界框(bx,by,bw,bh)以及预测的质心坐标,其中,预测的质心坐标为预测的人体边界框的对角线交点的坐标;
其中,bx、by、bw和bh为人体边界框的四个顶点的位置信息,真实人体边界框与预测的人体边界框的对应关系如下:
bx=δ(tx)+cx;
by=δ(ty)+cy;
其中,δ(x)是Sigmoid函数,(cx,cy)为真实人体边界框的中心坐标,(pW,ph)为预测的人体边界框的宽和高,(tx,ty)为预测的人体边界框的中心偏移量,tw和th分别为预测的人体边界框的宽度缩放比和高度缩放比;
通过回归令上述Sigmoid函数收敛,使得预测的人体边界框与真实人体边界框的中心坐标的偏差达到最小,以此时预测的人体边界框的中心坐标作为当前视频帧的质心坐标。
本申请实施例提供的初级检测网络通过特征提取卷积网络提取人体特征图,并利用特征金字塔网络增加人体特征图中的特征语义信息,将低层的特征和高层的特征融合起来,使得初级检测网络识别质心坐标的过程准确且快速,并通过头部网络预测质心坐标的识别效果,通过回归令预测的人体边界框与真实人体边界框近似,进而使得识别的质心坐标能够近似认为真实质心坐标,达到精准的质心追踪的效果,使得视频帧的筛选结果可靠有效。
在一个实施例中,初级检测网络还可以用于识别视频帧的质量分数,通过质量分数将低质量的视频帧进行丢弃,例如:将昏暗环境和恶劣光线条件下的视频帧丢弃,具体包括:
在结束遍历之前,利用所述初级检测网络识别每一视频帧的质量分数并将质量分数小于质量得分阈值的视频帧标记为无效视频帧。
在本申请实施例中,昏暗环境的视频帧可以基于视频帧的灰度平均值进行识别,恶劣光线条件下的视频帧可以基于光照均匀度进行识别。
需要说明的是,初级检测网络可以同时识别视频帧的质量分数和视频帧中检测对象的质心坐标,基于质量分数的无效视频帧的标记动作和基于质心偏移量的无效视频帧的标记动作也可以同时进行,在结束遍历后,将上述两种无效视频帧均丢弃,得到有效视频帧。
本申请实施例还利用初级检测网络对视频帧的质量进行打分,并基于视频帧的质量分数将其中低质量的视频帧筛选出来进行丢弃,防止了低质量视频帧对检测造成的干扰,降低了昏暗环境和恶劣光线等情况下的低质量视频帧对于检测模型判别效率的影响。
在一个实施例中,上述初级检测网络的损失函数如下:
L1=λ1Lloc+λ2Lconf+λ3Lcla+λ4Lsco;
其中,L1表示初级检测网络的损失函数,用于度量初级检测网络的检测值与真实值之间的差距;Lloc表示人体定位偏移量损失函数,用于度量检测的人体位置与真实位置之间的差距;Lconf表示人体置信度损失函数,用于度量检测到的人体位置中存在人体的概率;Lcla表示人体分类损失函数,用于度量检测到的质心坐标发生偏移的概率;Lsco表示图像评估损失函数,用于度量识别的质量分数与真实质量之间的差距;λ1、λ2、λ3和λ4均为平衡系数。
示例性的,人体定位偏移量损失函数如下:
其中,和分别表示真实人体边界框的中心点的横坐标和纵坐标;和表示第i个预测人体边界框中的四个顶点的位置信息,和表示第i个预测人体边界框的宽和高;oi表示第i个预测人体边界框中是否真实存在人体,oi=0表示不存在,oi=1表示存在,oi∈{0,1}。
示例性的,人体置信度损失函数如下:
Lconf=-∑(oiln(c′i)+(1-oi)ln(1-c′i));
其中,c′i表示第i个预测人体边界框中是否存在人体的概率。
示例性的,人体分类损失函数如下:
Lcla=-∑i∑j∈(0,1)(oijln(c′ij)+(1-oij)ln(1-c′ij));
其中,oij表示第i个预测人体边界框中是否存在异常情况人体,oii=0表示不存在异常情况的人体,oij=1表示存在异常情况的人体;c′ij表示第i个预测人体边界框中是否存在异常情况的人体的概率。
需要说明的是,上述异常情况可以为质心偏移量大于预设偏移阈值。
示例性的,图像评估损失函数如下:
其中s表示当前视频帧的真实质量分数,s′表示初级检测网络对当前视频帧预测的质量分数,n表示视频帧的数量。
本申请实施例中的初级检测网络,其损失函数基于人体定位偏移量损失函数、人体置信度损失函数、人体分类损失函数以及图像评估损失函数构建得到,将人体边界框定位准确度、人体特征识别准确度、视频帧存在异常行为的概率以及视频帧的质量作为初级检测网络性能的评价标准,训练初级检测网络至其损失函数收敛后,初级检测网络能够在上述四个方面的准确度,进而提高初级检测网络质心识别和质量评估的能力。
在一个实施例中,参见图4,在执行步骤S12之前,需获取检测对象的高度属性,具体包括:
S41、识别有效视频帧中的所有待检测对象;
S42、利用行人重识别算法在所有待检测对象中识别出检测对象;
S43、对检测对象进行属性检测,得到检测对象的高度属性。
在步骤S41中,可以利用行人检测算法将有效视频帧中的所有待检测对象检测出来,其中,所述待检测对象包含多个检测对象。
在步骤S42中,可以利用行人重识别算法对多个有效视频帧中的待检测对象进行识别,识别出多个有效视频帧中的同一检测对象,用于属性检测。
在步骤S43中,可以对识别出的同一检测对象进行属性检测,获取到检测对象的高度属性,用于矫正被压缩的检测对象的高度信息。
在实际应用过程中,常常通过独立的行人检测模型和行人重识别模型分别执行上述步骤S41和步骤S42。
本申请实施例示例性地提供了一种一体化行人重识别模型,其整合了行人检测和行人重识别两部分,并在此基础上加入行人属性预测部分,以完成检测对象的高度属性的获取。
参见图5,上述一体化行人重识别模型,包括:
第一卷积神经网络CNN_Part1,包括:卷积层Conv和池化层Pool,用于将有效视频帧从原始像素图转换为卷积特征图;
区域生成网络RPN,用于生成多个行人候选框;
行人特征提取网络Feature Maps,用于提取卷积特征图得到行人特征图;
感兴趣区域池化层ROI Pooling,用于对行人特征图进行归一化处理;
第二卷积神经网络CNN_Part2,包括:一层卷积层Conv,用于对归一化后的行人特征图进行特征提取;
全局平均池化层Pool5,用于对第二卷积神经网络提取后的行人特征图归一化处理,之后输入至不同的全连接层FC中进行属性分类;
全连接层FC,不同的全连接层FC分别对应不同属性分类,其中,全连接层FC采用Softmax损失函数进行训练。
将有效视频帧作为输入,先使用第一卷积神经网络CNN_Part1将原始像素图转换为卷积特征图,使用区域生成网络RPN获得多个行人候选框,并利感兴趣区域池化层ROIPooling从行人特征提取网络Feature Maps输出的特征图中提取行人特征,之后通过第二卷积神经网络CNN_Part2和全局平均池化层Pool5以及全连接层FC,得到一体化行人重识别模型的输出值,输出值中的每个行人需标注多个高度属性,包括但不限于性别、年龄段和身高信息,因此,本申请实施例提供的一体化行人重识别模型在全局平均池化层Pool5之后连接了多个组合在一起的全连接层FC,并采用Softmax损失函数来训练对应的属性分类器。
其中,行人检测对应全连接层FC中的两个输出层分别为cls_score和bbox_prdict;cls_score输出分类数组,该分类数组用于表示属于每一分类和背景的概率;bbox_prdict用于调整行人候选框的位置;行人重识别对应全连接层FC的输出层输出检测对象编号Person Re_id以标记同一检测对象;属性检测对应全连接层FC的输出层输出高度属性Attribute。
在一个实施例中,所述高度属性包括:性别、年龄段和身高信息;基于此,参见图6,根据检测对象的高度属性对有效视频帧进行尺寸矫正并确定检测对象的空间比例属性,可以包括:
S61、根据检测对象的性别和年龄段确定检测对象的空间比例属性;
S62、检测对象的空间比例属性和身高信息对有效视频帧进行尺寸矫正。
在步骤S61中,可以根据检测对象的性别和年龄段确定检测对象的人体比例特点,例如:男性的肩宽为2倍数头宽、女性的肩宽为1.5倍数头宽、成年男性的头身比的范围为7至8以及成年女性的头身比的范围为5.5至6.5。
可以理解的是,对于不同年龄段和/或不同性别的检测对象,其身体各部分之间的尺寸关系存在差异,因此,检测对象的性别和年龄段可以用于确定检测对象的空间比例属性。
在步骤S62中,确定检测对象的空间比例属性和身高信息后,可以矫正有效视频帧的尺寸,令有效视频帧中的检测对象的空间比例符合空间比例属性以及检测对象的人体高度与身高信息相匹配。
进一步地,属性检测得到检测对象的高度属性,其中包括有检测对象的身高信息。根据检测对象的身高信息,利用正确的空间比例属性对应的投影变换矩阵进行尺寸矫正,具体如下:
根据以下公式,利用投影变换矩阵进行计算:
其中,[X Y 1]为矫正后的人体坐标对应矩阵,[X′ Y′ 1]为被压缩的人体坐标对应矩阵,为投影变换矩阵,所述投影变换矩阵基于空间比例属性确定。
本申请实施例提供的空间信息矫正方法,利用年龄段和性别确定检测对象的人体比例特点,即得到检测对象的空间比例属性,能够生成具有针对性的变换关系进行尺寸矫正,令矫正后的有效视频帧中的检测对象修正为未被压缩的状态,并且还能符合检测对象包括年龄段和性别在内的个人特征,即令有效视频帧中的人体姿态更符合实际,从而增加了后续提取的三维姿态信息的真实性。
在一个实施例中,参见图7,根据空间比例属性对检测对象在每一有效视频帧中的三维姿态信息进行填充,得到无遮挡视频帧,可以包括:
S71、利用人体姿态估计算法提取每一有效视频帧中的三维姿态信息;
S72、确定三维姿态信息中是否存在缺失的关节点坐标;
S73、当存在缺失的关节点坐标时,基于空间比例属性将缺失的关节点坐标增加至三维姿态信息中,得到无遮挡视频帧。
在步骤S71中,可以利用人体姿态估计算法对每一有效视频帧进行姿态提取,得到每一有效视频帧中检测对象的关节点的二维坐标,得出二维姿态信息,在此基础上,可以利用浅层神经网络将二维姿态信息回归到三维姿态信息,得到检测对象的关节点的三维坐标。
在步骤S72中,以人体为例,假设设定的人体关键关节点为18个,分别为:2个眼部关节点、2个耳部关节点、1个鼻部关节点、1个颈部关节点、2个肩部关节点、2个肘部关节点、2个腕部关节点、2个臀部关节点、2个膝盖关节点以及2个脚踝关节点。
为了便于本领域技术人员进行理解,下面以小腿被遮挡的检测对象进行举例说明:
参见图8至图10,其中,图8为18个关键关节点的人体骨骼图,图9为利用人体姿态估计算法提取到的人体姿态的示意图,根据两者所含的关节点坐标的数量比较结果可知部分人体被遮挡,进一步地,根据检测到的关节点位置可知人体的小腿被遮挡,提取到的三维姿态信息中缺失了一个脚踝关节点的坐标(x10,y10)。
通过以下空间比例关系确定脚踝关节点的纵坐标y10:
其中,y13表示另一个脚踝关节点的纵坐标,y9表示与缺失的脚踝关节点同侧的膝盖关节点的纵坐标,y8表示与缺失的脚踝关节点同侧的臀部关节点的纵坐标,y12表示与缺失的脚踝关节点异侧的膝盖关节点的纵坐标,y11表示与缺失的脚踝关节点异侧的臀部关节点的纵坐标。
利用人体中心轴,即经过人体质心的地面的垂线,以及另一脚踝关节点到中心轴的距离,计算出缺失的脚踝关节点到人体中心轴的距离,进而得到脚踝关节点的横坐标x10。
将(x10,y10)增加到提取到的三维姿态信息中即可补齐人体被遮挡的小腿部分,得到如图10所示的无遮挡的人体姿态的示意图。
需要说明的是,上述是以18个关键关节点的人体骨骼图为例,在实际应用中,还可以采用25个关键关节点的人体骨骼图。
本申请实施例提供了一种人体姿态信息修正方法,通过人体姿态估计算法提取人体的三维姿态信息,用人体的关键的关节点的坐标描述人体姿态,简化了描述人体姿态所用到的数据量,并基于得到的正确的空间比例属性补齐三维姿态信息中缺失的关节点坐标,从而完成被遮挡部分的填充,使得用于摔倒检测的视频帧包含完整的三维姿态信息,保证了用于行为预测的数据完整度,摔倒检测结果更准确可靠。
在一个实施例中,构建一个检测模型并利用步骤S13中得到的无遮挡视频帧对该检测模型进行训练,得到摔倒检测模型,用于对无遮挡视频帧进行检测。
在本申请实施例中,参见图11,所述基于所述无遮挡视频帧,利用摔倒检测模型得到所述检测对象的摔倒检测结果之前,包括:
S111、基于无遮挡视频帧分别构建运动特征矩阵和动作特征矩阵;
S112、基于特征融合后的运动特征矩阵和动作特征矩阵训练得到摔倒检测模型。
在步骤S111中,基于所有无遮挡视频帧中各关节点的运动信息的变化可以构建出检测对象的运动特征矩阵,所述运动特征矩阵用于描述关节点的时序变化;基于所有无遮挡视频帧中各关节点的位置的变化可以构建出检测对象的动作特征矩阵,所述动作特征矩阵用于描述关节点的相对位置变化。
在步骤S112中,可以将运动特征矩阵和动作特征矩阵进行特征融合,通过融合不同尺度的特征,提升摔倒检测模型的检测性能。
特征融合按照模型结构的角度分类,可以分为串行策略和并行策略。本申请实施例中,可以采用并行策略。
下面对采用并行策略的摔倒检测模型进行说明:
在一个实施例中,步骤S112可以包括:
构建时序网络;所述时序网络用于学习所述运动特征矩阵中的时序特征;
构建特征网络;所述特征网络用于学习所述动作特征矩阵中的动作关联特征;
利用所述时序网络和所述特征网络构建所述摔倒检测模型;
其中,参见图12,所述摔倒检测模型包括:并行的时序网络和特征网络、特征融合层、全连接层和多损失函数优化网络;所述特征融合层用于对所述时序网络和所述特征网络的输出执行向量合并;所述全连接层用于根据所述特征融合层的输出迭代训练权重参数,所述多损失函数优化网络用于度量摔倒检测模型输出的预测值和真实值之间的差距,即度量训练效果。
进一步地,所述时序网络包括两个长短期记忆网络LSTM层和一个扁平化Flatten层。运动特征矩阵经过LSTM层处理后,在Flatten层转换为一维运动特征向量。
所述特征网络包括四组卷积神经网络分支和一层Flatten层,每组卷积神经网络分支均包含一层卷积层Conv和一层池化层Pool。动作特征矩阵经过卷积神经网络分支的4次卷积和池化处理后,在Flatten层转换为一维动作特征向量。
所述特征融合层Add将一维运动特征向量和一维动作特征向量合并后输入至全连接层FC进行权重参数的训练。
所述多损失函数优化网络Loss采用联合Softmax损失函数和Center损失函数的损失函数。
本申请实施例提供的摔倒检测模型,其训练过程中通过对无遮挡视频帧进行不同尺度的特征提取,得到分别描述关节点的时序变化和关节点的相对位置变化的特征矩阵,即运动特征矩阵和动作特征矩阵,并通过特征融合令不同尺度的特征互补,从而使得到的摔倒检测模型既学习了关节点运动的时序特征,又能够捕捉矩阵中的动作关联特征,提升了摔倒检测模型中数据的维度,进而提高了摔倒检测模型的检测性能。
在一个实施例中,上述多损失函数优化网络采用的损失函数L2如下:
L2=LS+2LC;
其中,LS表示Softmax损失函数,用于拉大检测对象的类间距离;LC表示Center损失函数,用于缩小检测对象的类内距离;表示权重矩阵,dk表示偏置,pik表示第i帧无遮挡视频帧中第k个检测对象的全连接层的输出值,gk表示第k个检测对象的特征,λ为权重系数,n′为每一次训练的样本数量,C为全连接层的分类数量,表示第i帧无遮挡视频帧在全连接层中对应第j类的输出值。
本申请实施例中的摔倒检测模型联合Softmax损失函数和Center损失函数构建摔倒检测模型的损失函数,通过Softmax损失函数拉大行人的类间距离,以及通过Center损失函数缩小行人的类内距离,形成多损失函数优化网络,提高摔倒检测模型的类间距离和类内距离的优化效果,令得到的摔倒检测模型在具备优异的特征区分能力的同时,还兼顾聚类能力,提高了摔倒检测模型的鲁棒性。
在一种实施例中,基于所述无遮挡视频帧分别构建运动特征矩阵和动作特征矩阵,包括:
根据每一无遮挡视频帧的人体宽高比、颈部移动速度、人体质心高度、中心变化率以及高度变化率构建所述运动特征矩阵;其中,所述人体宽高比为鼻部关节点与脚踝关节点的纵坐标比值,所述颈部移动速度通过相邻两帧无遮挡视频帧中颈部关节点的距离差值计算得到;所述人体质心高度为质心与人体海拔最低点的距离;所述中心变化率为相邻两帧无遮挡视频帧中人体中心纵坐标的变化率,所述人体中心纵坐标基于鼻部关节点与脚踝关节点的纵坐标确定;所述高度变化率为人体高度与人体平均高度的比值,所述人体平均高度为所有无遮挡视频帧中的人体高度的均值;
根据每一关节点在每一无遮挡视频帧中的速度构建所述动作特征矩阵。
为了便于理解,下面对构建运动特征矩阵Nr的过程具体说明:
根据以下关系式构构建运动特征矩阵Nr:
其中,表示第m帧无遮挡视频帧的人体宽高比R1,人体宽高比R1为鼻部关节点与脚踝关节点的纵坐标比值;
表示第m帧无遮挡视频帧的颈部移动速度R2,颈部移动速度R2通过相邻两帧无遮挡视频帧中颈部关节点和鼻部关节点的坐标计算得到;
表示第m帧无遮挡视频帧的人体质心高度R3,人体质心高度R3为人体质心与人体海拔最低点的距离;
表示第m帧无遮挡视频帧的中心变化率R4,中心变化率R4为相邻两帧无遮挡视频帧中人体中心纵坐标的变化率,所述人体中心纵坐标基于鼻部关节点与脚踝关节点的纵坐标确定;
表示第m帧无遮挡视频帧的高度变化率R5,高度变化率R5为体高度与人体平均高度的比值,所述人体平均高度为所有无遮挡视频帧中的人体高度的均值。
具体的:
人体宽高比按照以下公式计算:
其中,表示第m帧无遮挡视频帧的鼻部关节点的纵坐标,表示第m帧无遮挡视频帧的脚踝关节点的纵坐标。
颈部移动速度按照以下公式计算:
其中,表示第m帧无遮挡视频帧的颈部位置;表示第m-1帧无遮挡视频帧的颈部位置;表示第m帧无遮挡视频帧的颈部关节点的纵坐标;表示第m-1帧无遮挡视频帧的颈部关节点的纵坐标;表示第m-1帧无遮挡视频帧的鼻部关节点的纵坐标;第m-1帧无遮挡视频帧位于第m帧无遮挡视频帧的前一帧;Δt表示相邻两帧无遮挡视频帧之间的时间间隔。
人体质心高度按照以下关系式计算:
其中,系数系数系数 和表示第m帧无遮挡视频帧中两个脚踝关节点的纵坐标;和表示第m帧无遮挡视频帧中两个脚踝关节点的横坐标;人体质心的坐标(xc,yc)可以为人体最小外接矩形的两条对角线的交点坐标,所述人体最小外接矩形以两个脚踝关节点为两个顶点。
中心变化率按照以下关系式计算:
其中,表示第m帧无遮挡视频帧中的中心点的纵坐标;表示第m-1帧无遮挡视频帧中的中心点的纵坐标。
需要说明的是,上述中心变化率参考的是中心点在纵轴方向的变化率,实际过程中人体的中心点在纵轴方向和横轴方向上均会发生位置的变化,但由于发生摔倒事件时,人体的中心点在纵轴方向上发生变化的程度较高,而横轴方向上发生变化的程度较低,因此,本申请可以以纵轴方向的变化率作为中心变化率。
可以理解的是,中心变化率也可以结合人体的中心点在纵轴方向和横轴方向上的变化率确定,此处不再赘述。
高度变化率按照以下关系式计算:
其中,hm表示第m帧无遮挡视频帧中的人体高度;hv表示人体平均高度,即所有无遮挡视频帧中的人体高度的均值。
下面对构建动作特征矩阵Nv的过程具体说明:
按照以下关系式构建动作特征矩阵Nv:
其中,Vi m为第m帧无遮挡视频帧中的第i个关节点的速度。
本申请实施例提供的运动特征矩阵和动作特征矩阵为摔倒检测模型提供了不同尺度特征,供其进行深度学习,以提高摔倒检测模型的检测性能。
下面对本申请实施例提供的摔倒检测装置进行描述,下文描述的摔倒检测装置与上文描述的摔倒检测方法可相互对应参照。
参见图13,本申请实施例中的摔倒检测装置,包括:
视频预处理模块1301,用于:在视频帧中筛选得到有效视频帧;所述有效视频帧中,检测对象相对于前一帧视频帧的质心偏移量大于预设偏移阈值;
空间信息矫正模块1302,用于:根据所述检测对象的高度属性对所述有效视频帧进行尺寸矫正并确定所述检测对象的空间比例属性;并根据所述空间比例属性对所述检测对象在每一有效视频帧中的三维姿态信息进行填充,得到无遮挡视频帧;所述检测对象在每一无遮挡视频帧中的三维姿态信息均包含有预设数量的关节点坐标;
摔倒检测模块1303,用于:基于所述无遮挡视频帧,利用摔倒检测模型得到所述检测对象的摔倒检测结果。
本申请实施例提供的摔倒检测装置通过视频预处理模块对视频进行筛选获取有效视频帧,并比较相邻两帧视频帧的质心偏移量和预设偏移阈值,对摔倒行为的视频帧进行初步筛选,减少无关视频帧的干扰;通过空间信息矫正模块基于检测对象的高度属性对有效视频帧进行尺寸矫正,以解决监控视频下检测对象的高度信息被压缩的问题,进而得到检测对象正确的空间比例属性,根据正确的空间比例属性补齐每一有效视频帧中检测对象缺失的三维姿态信息,令得到的无遮挡视频帧中包含有检测对象所有关键的关节点坐标,以解决检测对象被遮挡的问题,使得用于摔倒检测的视频帧进一步排除了因视角限制引入的干扰,从而提高摔倒检测模块输出的摔倒检测结果的准确度。
下面结合图14,对摔倒检测装置进行进一步的说明。
在一个实施例中,所述摔倒检测装置还可以包括:模型训练模块;
所述模型训练模块,用于:基于所述无遮挡视频帧分别构建运动特征矩阵和动作特征矩阵;所述运动特征矩阵用于描述关节点的时序变化,所述动作特征矩阵用于描述关节点的相对位置变化;并基于特征融合后的所述运动特征矩阵和所述动作特征矩阵训练得到所述摔倒检测模型。
在一个实施例中,所述视频预处理模块包括:
异常行为检测单元,用于:追踪视频帧中检测对象的质心,并基于所述质心的变化情况确定无效视频帧;例如:获取每一视频帧的质心坐标;遍历每一视频帧,对比当前视频帧的质心坐标与前一帧视频帧的质心坐标,当质心坐标的纵坐标偏移量小于预设偏移阈值时,确定当前视频帧为无效视频帧;
有效视频帧筛选单元,用于:在结束遍历后将所有无效视频帧从视频帧中删去,得到所述有效视频帧。
在一个实施例中,所述视频预处理模块还可以包括:
视频帧质量评估单元,用于:在结束遍历之前,利用初级检测网络识别每一视频帧的质量分数并将质量分数小于质量得分阈值的视频帧标记为无效视频帧。
在一个实施例中,所述空间信息矫正模块,包括:
视频帧输入单元,用于:获取视频预处理模块输出的有效视频帧;
人体修正单元,用于:根据所述检测对象的性别和年龄段确定所述检测对象的空间比例属性;以及根据所述检测对象的空间比例属性和身高信息对所述有效视频帧进行尺寸矫正;
姿态提取单元,用于:利用人体姿态估计算法提取每一有效视频帧中的三维姿态信息;
人体补齐单元,用于:确定所述三维姿态信息中是否存在缺失的关节点坐标;当存在缺失的关节点坐标时,基于所述空间比例属性将所述缺失的关节点坐标增加至所述三维姿态信息中,得到无遮挡视频帧。
在一个实施例中,所述空间信息矫正模块还可以包括:
行人检测单元,用于:识别所述有效视频帧中的所有待检测对象;所述待检测对象包含多个检测对象;
行人重识别单元,用于:利用行人重识别算法在所有待检测对象中识别出所述检测对象;
行人属性检测单元,用于:对所述检测对象进行属性检测,得到所述检测对象的高度属性。
在一个实施例中,所述摔倒检测模块,包括:
摔倒判别单元,用于:调用摔倒检测模型对无遮挡视频帧进行检测,输出检测对象的摔倒检测结果;
应急处理单元,用于:当摔倒检测模型基于无遮挡视频帧的判别结果为安全姿态时,则输出安全姿态提示;当摔倒检测模型基于无遮挡视频帧的判别结果为危险姿态时,则启动警报,进一步地,还可以向检测对象的联系人发送求助信息。
在一个实施例中,所述模型训练模块,包括:
运动特征矩阵生成单元,用于:基于所述无遮挡视频帧构建运动特征矩阵;
动作特征矩阵生成单元,用于:基于所述无遮挡视频帧构建动作特征矩阵;
特征融合单元,用于:对所述运动特征矩阵和所述动作特征矩阵进行特征融合;
网络训练单元,用于:基于特征融合后的所述运动特征矩阵和所述动作特征矩阵训练得到所述摔倒检测模型。
其中,网络训练单元可分为时序网络训练单元和特征网络训练单元;
所述时序网络训练单元,用于利用运动特征矩阵训练时序网络,令摔倒检测模型学习所述运动特征矩阵中的时序特征;
所述特征网络训练单元,用于利用动作特征矩阵训练特征网络,令摔倒检测模型学习所述动作特征矩阵中的动作关联特征。
图15示例了一种电子设备的实体结构示意图,如图15所示,该电子设备可以包括:处理器(processor)1510、通信接口(Communication Interface)1520、存储器(memory)1530和通信总线1540,其中,处理器1510,通信接口1520,存储器1530通过通信总线1540完成相互间的通信。处理器1510可以调用存储器1530中的计算机程序,以执行摔倒检测方法的步骤,例如包括:
在视频帧中筛选得到有效视频帧;所述有效视频帧中,检测对象相对于前一帧视频帧的质心偏移量大于预设偏移阈值;
根据所述检测对象的高度属性对所述有效视频帧进行尺寸矫正并确定所述检测对象的空间比例属性;
根据所述空间比例属性对所述检测对象在每一有效视频帧中的三维姿态信息进行填充,得到无遮挡视频帧;所述检测对象在每一无遮挡视频帧中的三维姿态信息均包含有预设数量的关节点坐标;
基于所述无遮挡视频帧,利用摔倒检测模型得到所述检测对象的摔倒检测结果。
此外,上述的存储器1530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本申请实施例还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各实施例所提供的摔倒检测方法的步骤,例如包括:
在视频帧中筛选得到有效视频帧;所述有效视频帧中,检测对象相对于前一帧视频帧的质心偏移量大于预设偏移阈值;
根据所述检测对象的高度属性对所述有效视频帧进行尺寸矫正并确定所述检测对象的空间比例属性;
根据所述空间比例属性对所述检测对象在每一有效视频帧中的三维姿态信息进行填充,得到无遮挡视频帧;所述检测对象在每一无遮挡视频帧中的三维姿态信息均包含有预设数量的关节点坐标;
基于所述无遮挡视频帧,利用摔倒检测模型得到所述检测对象的摔倒检测结果。
另一方面,本申请实施例还提供一种处理器可读存储介质,所述处理器可读存储介质存储有计算机程序,所述计算机程序用于使处理器执行上述各实施例提供的方法的步骤,例如包括:
在视频帧中筛选得到有效视频帧;所述有效视频帧中,检测对象相对于前一帧视频帧的质心偏移量大于预设偏移阈值;
根据所述检测对象的高度属性对所述有效视频帧进行尺寸矫正并确定所述检测对象的空间比例属性;
根据所述空间比例属性对所述检测对象在每一有效视频帧中的三维姿态信息进行填充,得到无遮挡视频帧;所述检测对象在每一无遮挡视频帧中的三维姿态信息均包含有预设数量的关节点坐标;
基于所述无遮挡视频帧,利用摔倒检测模型得到所述检测对象的摔倒检测结果。
所述处理器可读存储介质可以是处理器能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD))等。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (14)
1.一种摔倒检测方法,其特征在于,包括:
在视频帧中筛选得到有效视频帧;所述有效视频帧中,检测对象相对于前一帧视频帧的质心偏移量大于预设偏移阈值;
根据所述检测对象的高度属性对所述有效视频帧进行尺寸矫正并确定所述检测对象的空间比例属性;所述高度属性通过对所述检测对象进行属性检测确定;
根据所述空间比例属性对所述检测对象在每一有效视频帧中的三维姿态信息进行填充,得到无遮挡视频帧;所述检测对象在每一无遮挡视频帧中的三维姿态信息均包含有预设数量的关节点坐标;
基于所述无遮挡视频帧,利用摔倒检测模型得到所述检测对象的摔倒检测结果。
2.根据权利要求1所述的摔倒检测方法,其特征在于,所述在视频帧中筛选得到有效视频帧,包括:
获取每一视频帧的质心坐标;
遍历每一视频帧,对比当前视频帧的质心坐标与前一帧视频帧的质心坐标,当质心坐标的纵坐标的偏移量小于预设偏移阈值时,确定当前视频帧为无效视频帧;
结束遍历后,将所有无效视频帧从所述视频帧中删去,得到所述有效视频帧。
3.根据权利要求2所述的摔倒检测方法,其特征在于,所述获取每一视频帧的质心坐标,包括:
利用初级检测网络识别每一视频帧的质心坐标;
所述初级检测网络包括:特征提取卷积网络、特征金字塔网络和头部网络;
其中,所述特征提取卷积网络用于提取所述视频帧中的人体特征图;所述特征金字塔网络用于对所述特征提取卷积网络输出的人体特征图进行采样,输出多尺度人体特征图;所述头部网络用于对所述多尺度人体特征图进行预测;所述多尺度人体特征图中包含有人体边界框信息;所述人体边界框的对角线交点为所述质心坐标。
4.根据权利要求3所述的摔倒检测方法,其特征在于,所述在视频帧中筛选得到有效视频帧,还包括:
在结束遍历之前,利用所述初级检测网络识别每一视频帧的质量分数并将质量分数小于质量得分阈值的视频帧标记为无效视频帧。
5.根据权利要求1所述的摔倒检测方法,其特征在于,所述根据所述检测对象的高度属性对所述有效视频帧进行尺寸矫正之前,包括:
识别所述有效视频帧中的所有待检测对象;所述待检测对象包含多个检测对象;
利用行人重识别算法在所有待检测对象中识别出所述检测对象;
对所述检测对象进行属性检测,得到所述检测对象的高度属性。
6.根据权利要求1所述的摔倒检测方法,其特征在于,
所述高度属性包括:性别、年龄段和身高信息;
所述根据所述检测对象的高度属性对所述有效视频帧进行尺寸矫正并确定所述检测对象的空间比例属性,包括:
根据所述检测对象的性别和年龄段确定所述检测对象的空间比例属性;
所述检测对象的空间比例属性和身高信息对所述有效视频帧进行尺寸矫正。
7.根据权利要求1所述的摔倒检测方法,其特征在于,所述根据所述空间比例属性对所述检测对象在每一有效视频帧中的三维姿态信息进行填充,得到无遮挡视频帧,包括:
利用人体姿态估计算法提取每一有效视频帧中的三维姿态信息;
确定所述三维姿态信息中是否存在缺失的关节点坐标;
当存在缺失的关节点坐标时,基于所述空间比例属性将所述缺失的关节点坐标增加至所述三维姿态信息中,得到无遮挡视频帧。
8.根据权利要求1所述的摔倒检测方法,其特征在于,所述基于所述无遮挡视频帧,利用摔倒检测模型得到所述检测对象的摔倒检测结果之前,包括:
基于所述无遮挡视频帧分别构建运动特征矩阵和动作特征矩阵;所述运动特征矩阵用于描述关节点的时序变化,所述动作特征矩阵用于描述关节点的相对位置变化;
基于特征融合后的所述运动特征矩阵和所述动作特征矩阵训练得到所述摔倒检测模型。
9.根据权利要求8所述的摔倒检测方法,其特征在于,所述基于所述无遮挡视频帧分别构建运动特征矩阵和动作特征矩阵,包括:
根据每一无遮挡视频帧的人体宽高比、颈部移动速度、人体质心高度、中心变化率以及高度变化率构建所述运动特征矩阵;其中,所述人体宽高比为鼻部关节点与脚踝关节点的纵坐标比值,所述颈部移动速度通过相邻两帧无遮挡视频帧中颈部关节点和鼻部关节点的坐标计算得到;所述人体质心高度为人体质心与人体海拔最低点的距离;所述中心变化率为相邻两帧无遮挡视频帧中人体中心纵坐标的变化率,所述人体中心纵坐标基于鼻部关节点与脚踝关节点的纵坐标确定;所述高度变化率为人体高度与人体平均高度的比值,所述人体平均高度为所有无遮挡视频帧中的人体高度的均值;
根据每一关节点在每一无遮挡视频帧中的速度构建所述动作特征矩阵。
10.根据权利要求8所述的摔倒检测方法,其特征在于,所述基于特征融合后的所述运动特征矩阵和所述动作特征矩阵训练得到所述摔倒检测模型,包括:
构建时序网络;所述时序网络用于学习所述运动特征矩阵中的时序特征;
构建特征网络;所述特征网络用于学习所述动作特征矩阵中的动作关联特征;
利用所述时序网络和所述特征网络构建所述摔倒检测模型;
所述摔倒检测模型包括:并行的时序网络和特征网络、特征融合层、全连接层和多损失函数优化网络;所述特征融合层用于对所述时序网络和所述特征网络的输出执行向量合并;所述全连接层用于根据所述特征融合层的输出迭代训练权重参数,所述多损失函数优化网络用于度量摔倒检测模型输出的预测值和真实值之间的差距。
11.一种摔倒检测装置,其特征在于,包括:
视频预处理模块,用于:在视频帧中筛选得到有效视频帧;所述有效视频帧中,检测对象相对于前一帧视频帧的质心偏移量大于预设偏移阈值;
空间信息矫正模块,用于:根据所述检测对象的高度属性对所述有效视频帧进行尺寸矫正并确定所述检测对象的空间比例属性;并根据所述空间比例属性对所述检测对象在每一有效视频帧中的三维姿态信息进行填充,得到无遮挡视频帧;所述检测对象在每一无遮挡视频帧中的三维姿态信息均包含有预设数量的关节点坐标;
摔倒检测模块,用于:基于所述无遮挡视频帧,利用摔倒检测模型得到所述检测对象的摔倒检测结果。
12.根据权利要求11所述的摔倒检测装置,其特征在于,还包括:模型训练模块;
所述模型训练模块,用于:基于所述无遮挡视频帧分别构建运动特征矩阵和动作特征矩阵;所述运动特征矩阵用于描述关节点的时序变化,所述动作特征矩阵用于描述关节点的相对位置变化;并基于特征融合后的所述运动特征矩阵和所述动作特征矩阵训练得到所述摔倒检测模型。
13.一种电子设备,包括处理器和存储有计算机程序的存储器,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至10任一项所述的摔倒检测方法的步骤。
14.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至10任一项所述的摔倒检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210463049.5A CN117037204A (zh) | 2022-04-28 | 2022-04-28 | 摔倒检测方法、装置、电子设备及计算机程序产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210463049.5A CN117037204A (zh) | 2022-04-28 | 2022-04-28 | 摔倒检测方法、装置、电子设备及计算机程序产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117037204A true CN117037204A (zh) | 2023-11-10 |
Family
ID=88624967
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210463049.5A Pending CN117037204A (zh) | 2022-04-28 | 2022-04-28 | 摔倒检测方法、装置、电子设备及计算机程序产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117037204A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117635897A (zh) * | 2024-01-26 | 2024-03-01 | 腾讯科技(深圳)有限公司 | 三维对象的姿态补全方法、装置、设备、存储介质及产品 |
-
2022
- 2022-04-28 CN CN202210463049.5A patent/CN117037204A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117635897A (zh) * | 2024-01-26 | 2024-03-01 | 腾讯科技(深圳)有限公司 | 三维对象的姿态补全方法、装置、设备、存储介质及产品 |
CN117635897B (zh) * | 2024-01-26 | 2024-05-07 | 腾讯科技(深圳)有限公司 | 三维对象的姿态补全方法、装置、设备、存储介质及产品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108470332B (zh) | 一种多目标跟踪方法及装置 | |
Simo-Serra et al. | Single image 3D human pose estimation from noisy observations | |
WO2019232894A1 (zh) | 一种基于复杂场景下的人体关键点检测系统及方法 | |
CN110782483B (zh) | 基于分布式相机网络的多视图多目标跟踪方法及系统 | |
CN112801008B (zh) | 行人重识别方法、装置、电子设备及可读存储介质 | |
CN112861635B (zh) | 一种基于深度学习的火灾及烟雾实时检测方法 | |
KR20160096460A (ko) | 복수의 분류기를 포함하는 딥 러닝 기반 인식 시스템 및 그 제어 방법 | |
CN112395977B (zh) | 基于身体轮廓和腿部关节骨架的哺乳动物姿态识别方法 | |
CN112541424A (zh) | 复杂环境下行人跌倒的实时检测方法 | |
US20220366570A1 (en) | Object tracking device and object tracking method | |
CN117949942B (zh) | 基于雷达数据和视频数据融合的目标跟踪方法及系统 | |
CN113780145A (zh) | 精子形态检测方法、装置、计算机设备和存储介质 | |
CN117541994A (zh) | 一种密集多人场景下的异常行为检测模型及检测方法 | |
CN112541403A (zh) | 一种利用红外摄像头的室内人员跌倒检测方法 | |
CN117037204A (zh) | 摔倒检测方法、装置、电子设备及计算机程序产品 | |
CN114972182A (zh) | 一种物体检测方法及其装置 | |
JP7488674B2 (ja) | 物体認識装置、物体認識方法及び物体認識プログラム | |
CN114596515A (zh) | 目标对象检测方法、装置、电子设备以及存储介质 | |
CN111291607B (zh) | 驾驶员分神检测方法、装置、计算机设备和存储介质 | |
CN109886780B (zh) | 基于眼球跟踪的商品目标检测方法及装置 | |
CN116958872A (zh) | 一种羽毛球运动的智能化辅助训练方法及系统 | |
Albalooshi et al. | Deep belief active contours (DBAC) with its application to oil spill segmentation from remotely sensed sea surface imagery | |
Yatbaz et al. | Run-time introspection of 2d object detection in automated driving systems using learning representations | |
CN115731530A (zh) | 一种模型训练方法及其装置 | |
Thoet et al. | ANVIL neural network program for three-dimensional automatic target recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |