CN117423138A - 基于多分支结构的人体跌倒检测方法、装置及系统 - Google Patents
基于多分支结构的人体跌倒检测方法、装置及系统 Download PDFInfo
- Publication number
- CN117423138A CN117423138A CN202311746606.5A CN202311746606A CN117423138A CN 117423138 A CN117423138 A CN 117423138A CN 202311746606 A CN202311746606 A CN 202311746606A CN 117423138 A CN117423138 A CN 117423138A
- Authority
- CN
- China
- Prior art keywords
- human body
- model
- training
- posture estimation
- key point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 75
- 238000012549 training Methods 0.000 claims abstract description 67
- 238000000034 method Methods 0.000 claims abstract description 18
- 238000007781 pre-processing Methods 0.000 claims abstract description 14
- 238000012360 testing method Methods 0.000 claims description 36
- 238000010586 diagram Methods 0.000 claims description 25
- 230000007246 mechanism Effects 0.000 claims description 10
- 230000003993 interaction Effects 0.000 claims description 8
- 238000012544 monitoring process Methods 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 230000035945 sensitivity Effects 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 5
- 238000012806 monitoring device Methods 0.000 claims description 3
- 108091006146 Channels Proteins 0.000 description 32
- 230000006870 function Effects 0.000 description 12
- 230000004913 activation Effects 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 7
- 102100034405 Headcase protein homolog Human genes 0.000 description 6
- 101001066896 Homo sapiens Headcase protein homolog Proteins 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 6
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 230000007423 decrease Effects 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 210000003423 ankle Anatomy 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 210000003127 knee Anatomy 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 210000000707 wrist Anatomy 0.000 description 2
- 241000764238 Isis Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000005452 bending Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 210000002414 leg Anatomy 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本申请揭示了基于多分支结构的人体跌倒检测方法、装置及系统,所述方法包括:S100:采集作业现场图像;S200:对所采集的图像进行预处理;S300:构建人体姿态估计模型并训练;S400:基于训练好的人体姿态估计模型获取预处理后的图像中的人体关键点信息;S500:构建人体跌倒检测模型并训练;S600:将所述人体关键点信息输入训练好的人体跌倒检测模型,以对人体是否跌倒进行检测。本申请能够提高人体姿态检测精度以及对人体是否跌倒进行准确判断。
Description
技术领域
本申请属于人工智能领域,具体涉及基于多分支结构的人体跌倒检测方法、装置及系统。
背景技术
在油气作业区,由于现场工作环境复杂,安全风险较高,跌倒事故时有发生,给工作人员的人身安全带来了较大的威胁。传统的跌倒检测方法主要基于硬件设备(陀螺仪或者加速器)和传统计算机视觉两种方案,存在设备成本高、检测精度低和对环境的适应性差等问题。同时,在大型站场,监控数量和并行运行的算法数量可能会很多,传统的检测方法需要传输大量的数据到云端进行处理,带来了较大的带宽压力和延迟,不利于实时的跌倒检测。
发明内容
针对现有技术中的不足,本申请的目的在于提供一种基于多分支结构的人体跌倒检测方法,该方法受到复杂背景带来的影响较小,同时网络参数量较小,使得模型在运行时占用的资源较少,从而能够提高人体姿态检测精度以及对人体是否跌倒进行准确判断。
为实现上述目的,本申请提供以下技术方案:
一种基于多分支结构的人体跌倒检测方法,包括如下步骤:
S100:采集作业现场图像;
S200:对所采集的图像进行预处理;
S300:构建人体姿态估计模型并训练;
S400:基于训练好的人体姿态估计模型获取预处理后的图像中的人体关键点信息;
S500:构建人体跌倒检测模型并训练;
S600:将所述人体关键点信息输入训练好的人体跌倒检测模型,以对人体是否跌倒进行检测。
优选的,步骤S200中,对所采集的图像通过以下步骤进行预处理:随机角度旋转、随机亮度变换和添加高斯噪声。
优选的,步骤S300中,所述人体姿态估计模型通过以下步骤进行训练:
S301:获取多张包括人体的作业现场图像并进行预处理,对预处理后的图像中的人体关键点信息进行标注,将标注后的图像划分为训练集和测试集;
S302:设置训练参数,利用训练集对人体姿态估计模型进行训练,当达到预设训练次数,模型训练完成;
S303:利用测试集对训练后的人体姿态估计模型进行测试,在测试过程中,当识别精度达到90%或以上且模型运行速度小于2秒,模型测试通过;否则调整训练参数重新对模型进行训练,直至模型测试通过。
优选的,步骤S500中,所述人体跌倒检测模型通过以下步骤进行训练:
S501:获取包括人体跌倒后的人体关键点信息数据集,将数据集划分为训练集和测试集;
S502:设置训练参数,利用训练集对人体跌倒检测模型进行训练,当达到预设训练次数,模型训练完成;
S503:利用测试集对训练后的人体跌倒检测模型进行测试,在测试过程中,当识别精度达到90%或以上且模型运行速度小于2秒,测试通过;否则调整训练参数重新对模型进行训练,直至模型测试通过。
本申请还提供一种基于多分支结构的人体跌倒检测装置,包括:
采集模块,用于采集作业现场图像;
预处理模块,用于对所采集的图像进行预处理;
第一模型构建及训练模块,用于构建人体姿态估计模型并训练;其中,所述人体姿态估计模型采用高像素特征分支和低像素特征分支并列的多分支结构,通过融合不同分辨率的特征提高模型的位置敏感性和位置不变性;
获取模块,用于基于训练好的人体姿态估计模型获取预处理后的图像中的人体关键点信息;
第二模型构建及训练模块,用于构建人体跌倒检测模型并训练;其中,所述人体跌倒检测模型通过引入空间图卷积层和时间图卷积层以对人体是否跌倒进行综合判断;所述人体跌倒检测模型还引入了注意力机制模块,通过跨通道交互以提高通道注意力;
检测模块,用于将所述人体关键点信息输入训练好的人体跌倒检测模型,以对人体是否跌倒进行检测。
本申请还提供一种电子设备,包括:
存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,
所述处理器执行所述程序时实现如前任一所述的方法。
本申请还提供一种计算机存储介质,所述计算机存储介质存储有计算机可执行指令,所述计算机可执行指令用于执行如前任一所述的方法。
本申请还提供一种基于多分支结构的人体跌倒检测系统,其特征在于,所述系统包括监控设备、从盒服务器和主盒服务器,其中,
所述监控设备用于采集作业现场图像,并将数据实时传输到从盒服务器;
所述从盒服务器用于基于所搭载的人体姿态估计模型获取人体关键点信息以及用于基于所搭载的人体跌倒检测模型对人体关键点信息进行检测,以对人体是否跌倒进行检测;
所述主盒服务器用于汇总各个从盒服务器产生的检测信息。
与现有技术相比,本申请带来的有益效果为:本方法在检测时的速度更快,并且在监控设备应用的场景中通过本方法对于复杂背景带来的影响较小,同时算法的网络参数量较小,使得模型在运行时占用的资源较少。
附图说明
图1为本申请一个实施例提供的一种基于多分支结构的人体跌倒检测方法流程图;
图2为本申请另一个实施例提供的人体姿态估计模型的结构示意图;
图3为本申请另一个实施例提供的深度可分离卷积的结构示意图;
图4为本申请另一个实施例提供的多分支残差网络的结构示意图;
图5为本申请另一个实施例提供的关键点的热力图;
图6为本申请另一个实施例提供的人体跌倒检测模型的结构示意图;
图7为本申请另一个实施例提供的注意力模块HECA的结构示意图;
图8为本申请另一个实施例提供的输出模块的结构示意图;
图9为本申请另一个实施例提供的人体跌倒检测系统的结构示意图。
具体实施方式
下面将参照附图1到图9详细地描述本申请的具体实施例。虽然附图中显示了本申请的具体实施例,然而应当理解,可以通过各种形式实现本申请而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本申请,并且能够将本申请的范围完整的传达给本领域的技术人员。
需要说明的是,在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可以理解,技术人员可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名词的差异作为区分组件的方式,而是以组件在功能上的差异作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”或“包括”为一开放式用语,故应解释成“包含但不限定于”。说明书后续描述为实施本申请的较佳实施方式,然所述描述乃以说明书的一般原则为目的,并非用以限定本申请的范围。本申请的保护范围当视所附权利要求所界定者为准。
为便于对本申请实施例的理解,下面将结合附图以具体实施例为例做进一步的解释说明,且各个附图并不构成对本申请实施例的限定。
一个实施例中,如图1所示,本申请提出一种基于多分支结构的人体跌倒检测方法,包括如下步骤:
S100:采集作业现场图像;
S200:对所采集的图像进行预处理;
S300:构建人体姿态估计模型并训练;
S400:基于训练好的人体姿态估计模型获取预处理后的图像中的人体关键点信息;
S500:构建人体跌倒检测模型并训练;
S600:将所述人体关键点信息输入训练好的人体跌倒检测模型,以对人体是否跌倒进行检测。
另一个实施例中,步骤S200中,对所采集的视频数据通过以下步骤进行预处理:随机角度旋转、随机亮度变换和添加高斯噪声。
本实施例中,通过对所采集的视频数据进行预处理,能够提高后续模型训练的鲁棒性,以增强模型的泛化能力,从而避免过拟合。
另一个实施例中,所述人体姿态估计模型包括高像素特征分支和低像素分支并行排列的多分支结构。
本实施例中,人体姿态估计模型采用多分支结构,在该多分支结构中,高像素特征
分支与低像素特征分支并行排列,通过融合不同分辨率的特征以提高模型的位置敏感性和
位置不变性。具体的,如图2所示,人体姿态估计模型包括依次连接的四个部分,第一部分包
括一个分支,分辨率为,通道数为48;第二部分包括两个分支,分辨率分别为、,
通道数分别为48、96;第三部分包括三个分支,分辨率分别为、、,通道数分别为
48、96、192;第四部分包括三个分支,分辨率分别为、、、,通道数分别为
48、96、192、384(图2中,每个部分的每个分支中的特征图的尺寸由上到下依次减小,表示分
辨率依次降低,此外,为了避免分辨率下降造成特征图信息丢失,每个新增的低分辨率分支
通道数增加一倍)。
下面,本实施例对人体姿态估计模型中以上所述的四个部分分别进行详细说明,具体说明如下:
1、第一部分通过使用Bottleneck模块进行特征提取,Bottleneck模块基于残差思想解决由于网络深度加深导致的网络学习能力退化问题。Bottleneck模块包括3个卷积层,第一和第三个卷积层均为1*1卷积,用于改变通道数;第二个卷积层为3*3卷积,该层的输入和输出的通道数相同;第三个卷积层的输出的通道数为输入的4倍。
Bottleneck模块的计算公式为:
其中,表示输入特征,表示输出特征,表示学习到的映射变换。采用残差
思想的Bottleneck模块的主要优点在于特征再利用,通过特征再利用,可以减少特征冗余。
当输入特征大小为(输入高度、输入宽度和输入深度),输出特征大小为(输出高度、输出宽度和输出深度),且卷积核大小为时,标准卷积可学
习的参数量为,具体表示为:
2、第二部分通过使用深度可分离卷积和多分支残差模块(ResNeXt)对第一部分的输出特征进一步提取(其中,第一部分的输出特征中的一部分输入第二部分的第一分支,另一部分下采样后输入第二部分的第二分支)。第二部分的第一分支与第二分支的输出特征除输入第三部分中的对应分辨率分支外,还分别通过下采样和上采样输入第三部分的第二分支和第一分支,使得不同分辨率下的特征能够相互融合,进而使得第三部分的每个分支都含有第二部分中高、低分辨率下提取的特征,从而能够提取到准确且具有鲁棒性的特征,进而能够捕捉目标在不同尺度下的特征信息以提高模型对于人体姿态的识别能力。
如图3所示,第二部分中的深度可分离卷积包括依次连接的四个部分,第一部分包
括输入层,输入维度为(3×512×256)的图像;第二部分包括一个深度卷积层(Depthwise
Conv 3×256×128,卷积核大小为3,步长为2,填充为1)、一个卷积层(Pointwise Conv,
32×256×128,卷积层的卷积核大小为1,步长为1,填充为0)、一个批量归一化层BN和一个
Prelu激活函数;第三部分包括一个深度卷积层(Depthwise Conv 32×128×64,卷积核大
小为3,步长为2,填充为1)、一个卷积层(Pointwise Conv 64×128×64,卷积核大小为
1,步长为1,填充为0)、一个批量归一化层BN和一个Prelu激活函数;第四部分包括一个深度
卷积层(Depthwise Conv 64×64×32,卷积核大小为3,步长为2,填充为1)、一个卷积层
(Pointwise Conv 128×64×32,卷积核大小为1,步长为1,填充为0)和一个批量归一化层
BN。第二至第四部分中的每个深度卷积层只对输入图像的一个通道进行卷积操作,卷积核
的数量与特征的通道数相同,因此,深度卷积层不会改变特征的通道数量。第二至第四部分
中的每个卷积层用于实现输入图像的升维或降维。与常规的卷积操作相比,深度可分离
卷积的参数量和运算成本相对更低,能够更好的捕捉图像中的细节和特征。
如图4所示,多分支残差模块由两个卷积和一个分组(分组数为32)卷积组
成。多分支残差模块提出了深度和宽度之外的另外一个维度,即基数(Cardinality)(基数
即分支数量,图4中包括2个分支,基数即为2),通过增加基数(现有的残差模块的基数一般
都设定为1)可以在保持模型复杂度的情况下提高模型的性能及表达能力。
多分支残差模块表示为:
其中,为输入特征,为输出特征,为多分支残差第个分支学习到的映射变
换,为基数,即分组数。
3、第三部分的第一分支的输出经两次下采样后分别输入第四部分的第二和第三分支,第三部分的第三分支的输出经两次上采样后分别输入第四部分的第一和第二分支,每一次上采样或下采样操作都进行了特征的交换融合,因此可以认为第三部分包含4个交换块,每个交换块中的每个分支包含3个剩余单元和1个交换单元,其中,每个单元在每个分辨率中包含1个3×3卷积和2个1×1卷积,每个交换块对应一次特征融合,即共进行4次多尺度融合。
4、第四部分将四个不同分辨率分支的输出特征共同上采样到相同的分辨率,然后通过元素相加得到最终的输出,最终输出为如图5所示的18个关键点(示例性的,18个关键点包括:头部、颈部、右肩、右肘、右手腕、左肩、左肘、左手腕、右髋、右膝、右脚踝、左髋、左膝、左脚踝、右眼、左眼、右耳、左耳)热力图。
进一步的,所述人体姿态估计模型的具体结构如表1所示:
表1
表1中,表示两个步长为2的卷积;表示含有步长为1的
1×1卷积、卷积和1×1卷积组合在一起,这样的组合共有四个;表示分
组卷积。次数1、1、4、3分别表示第一部分运行1次、第二部分运行1次、第三部分运行4次,第
四部分运行3次。
上述实施例中,所构建的人体姿态估计模型通过采用高像素特征分支和低像素特征分支并列的多分支结构,使得各部分之间能够进行信息交互,使得不同尺度的对象信息得以保留,从而对于图像中不同尺寸的目标都具有较好的鲁棒性,进而能够提高模型对于人体姿态的检测效果。
另一个实施例中,所述人体姿态估计模型通过以下步骤进行训练:
S301:获取多张包括人体姿态的作业现场图像并进行预处理,预处理步骤如前所述,对预处理后的图像中的人体关键点信息进行标注,将标注后的图像划分为训练集和测试集;
S302:设置训练参数,例如将学习率设置为0.01,步长stride设置为30,训练次数设置为500次,利用训练集对人体姿态估计模型进行训练,当达到预设训练次数,模型训练完成;
S303:利用测试集对训练后的人体姿态估计模型进行测试,在测试过程中,当识别精度达到90%或以上且模型运行速度小于2秒,模型测试通过;否则调整训练参数(例如,将学习率调整为0.05,或将训练次数调整为600次)重新对模型进行训练,直至模型测试通过。
另一个实施例中,所述人体跌倒检测模型包括:输入部分、跌倒检测部分和输出部分。
本实施例中,输入部分能够将各个骨架关键点不同时间帧内的位置特征进行归一化,使得每批多帧人体关键点由随机分布归一化变为同分布,而每一批数据的均值和方差会是不固定的,这样的差异可以提高模型的鲁棒性,也能减少过拟合。
如图6所示,跌倒检测部分包括依次连接的空间图卷积层、Relu激活函数层、批归一化层BatchNorm、注意力机制层(HECA)、时间图卷积层、Relu激活函数层和BatchNorm层。
其中,图卷积是基于图谱理论的卷积操作,其理论基础是图谱理论。图谱理论利用图的拉普拉斯矩阵的特征值和特征向量来研究图的性质,图卷积则是在此基础上定义的卷积操作。对于图,其拉普拉斯矩阵的定义为:
其中,表示图中节点的集合,表示图中边的集合,表示拉普拉斯矩阵,表
示节点的度矩阵,一般形式为对角矩阵,对角线上的元素分别为各个顶点的度,表示图的
邻接矩阵,表示两个节点之间是否有连接。基于空域的图卷积方法直接在各个节点的空间
连接关系上定义卷积操作。若在空间维度上,给定卷积核大小为,通道数为、维度为的输入特征图,图卷积计算有如下式:
其中,x为给定关键点,p()为采样函数,w()为权重函数。
本模型中利用空间图卷积层挖掘和利用由人体姿态估计模型输出的人体姿态信息,同时利用时间图卷积层利用时序信息,结合前后检测结果以对人体是否跌倒进行综合判断,从而能够增强人体跌倒检测模型的泛化能力。
注意力机制模块(HECA)的结构如图7所示,与传统的注意力机制的区别在于:本申
请中的注意力机制模块通过使用一维卷积代替通道降维,能够实现跨通道交互,从而避免
了传统的注意力机制因通道降维导致的通道注意力不足的问题,能够在不增加模型参数量
的情况下融合通道特征信息。HECA使用作为激活函数,因为其可以避免指数计
算,进一步减少计算量。
为了增加模型的全局感受野,避免在浅层网络中丢失全局信息,HECA采用未进行
降维的逐通道全局平均池化(Global Average Pooling)操作。其次,只使用感受野为的
一维卷积对通道以及其相邻的个通道进行处理,以实现跨通道的交互作用。接着,通过激活函数为每个通道分配新的之间归一化的权重,作用到之前的特征图中,激活函数的计算公式为:
其中,为激活函数,为与通道相邻的个通道,为通道的权
重,i为当前通道,j为相邻通道,为跨通道交互所覆盖的范围,即参与该通道注意力预测
的相邻通道数量,为通道数,odd为奇数。本实施例中,如图6所示,选择来构建高效网
络。如果让所有的通道都共享权重信息,计算公式变为:
通过上面的公式推导,得到注意力机制HECA的最终公式为:
。
人体跌倒检测模型使用一个5维张量表示模型的输入数据,其中,
代表批次(batch)大小(本实施例设置为32),代表人体关键点的特征,人体关键点包含三个特征,其中,为关键点的坐标,为人体关键点的置信度
得分,代表关键帧的数量,是人体关键点的数量(本申请中人体关键点数为18),是每
帧中包含的人数,所以输入数据的形式为。
如图8所示,输出模块包括平均池化层、全连接层和多分类函数,输出模块
能够对经过跌倒检测部分输出的特征进行分类,当识别到身体倾斜或腿部有弯曲动作时,
则输出人体跌倒的检测结果。
另一个实施例中,步骤S500中,所述人体跌倒检测模型通过以下步骤进行训练:
S501:获取包括人体跌倒后的人体关键点信息数据集,将数据集划分为训练集和测试集;
S502:设置训练参数,例如,将学习率设置为0.001,步长stride设置为20,训练次数设置为300次,利用训练集对人体跌倒检测模型进行训练,当达到预设训练次数,模型训练完成;
S503:利用测试集对训练后的人体跌倒检测模型进行测试,在测试过程中,当识别精度达到90%或以上且模型运行速度小于2秒,测试通过;否则调整训练参数(例如,将学习率调整为0.01,或将训练次数调整为400次)重新对模型进行训练,直至模型测试通过。
另一个实施例中,本申请还提出一种基于多分支结构的人体跌倒检测装置,包括:
采集模块,用于采集作业现场图像;
预处理模块,用于对所采集的图像进行预处理;
第一模型构建及训练模块,用于构建人体姿态估计模型并训练;其中,所述人体姿态估计模型采用高像素特征分支和低像素特征分支并列的多分支结构,通过融合不同分辨率的特征提高模型的位置敏感性和位置不变性;
获取模块,用于基于训练好的人体姿态估计模型获取预处理后的图像中的人体关键点信息;
第二模型构建及训练模块,用于构建人体跌倒检测模型并训练;其中,所述人体跌倒检测模型通过引入空间图卷积层和时间图卷积层以对人体是否跌倒进行综合判断;所述人体跌倒检测模型还引入了注意力机制模块,通过跨通道交互以提高通道注意力;
检测模块,用于将所述人体关键点信息输入训练好的人体跌倒检测模型,以对人体是否跌倒进行检测。
另一个实施例中,本申请还提供一种电子设备,包括:
存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,
所述处理器执行所述程序时实现如前任一所述的方法。
另一个实施例中,本申请还提供一种计算机存储介质,所述计算机存储介质存储有计算机可执行指令,所述计算机可执行指令用于执行如前任一所述的方法。
另一个实施例中,如图9所示,本申请还提出一种基于多分支结构的人体跌倒检测系统,包括监控设备、从盒服务器和主盒服务器,其中,
所述监控设备用于采集作业现场图像,并将数据实时传输到从盒服务器;
所述从盒服务器用于基于所搭载的人体姿态估计模型获取人体关键点信息以及用于基于所搭载的人体跌倒检测模型对人体关键点信息进行检测,以对人体是否跌倒进行检测;
所述主盒服务器用于汇总各个从盒服务器产生的检测信息。
本实施例中,从盒服务器,即边缘计算服务器内置有人体姿态估计模型和人体跌倒检测模型,数据发送模块和智能预警模块;人体姿态估计模型能够从所获取的作业区现场的实时视频数据中对作业人员的骨架信息数据构造时空图;人体跌倒检测模型能够识别基于时空图对作业人员是否跌倒进行检测。此外,从盒服务器中还设置有数据发生模块和智能预警模块,其中,数据发送模块将以上模型产生的跌倒报警信息和实时视频数据通过流媒体服务发生到主盒服务器;当模型检测到人体发生跌倒行为发生时,且跌倒行为持续时间超过默认阈值(一般设置为10s)时,即表示作业人员发生严重的跌倒行为,此时智能预警模块会从盒子服务器产生报警信息,并指示监控设备录制跌倒行为视频并对数据进行统计,并通过数据发送模块将数据上传至主盒服务器进行汇总分析和存储。
所述主盒服务器的体系架构包括服务层、管理层、硬件层和接入层,服务层为主端服务器中的应用提供智能预警系统的软件支撑;管理层进行从服务器资源集群和任务管理,从服务器资源集群实现系统数据的存储与定期删除,硬件层提供硬件资源,对存储资源、计算资源和网络资源使用不同的硬件资源进行管理;接入层为其它模块的数据提供网络接入服务,能够使监控视频数据传输至服务器中。
以上所述皆为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种基于多分支结构的人体跌倒检测方法,其特征在于,所述方法包括如下步骤:
S100:采集作业现场图像;
S200:对所采集的图像进行预处理;
S300:构建人体姿态估计模型并训练;
其中,所述人体姿态估计模型采用高像素特征分支和低像素特征分支并列的多分支结构,通过融合不同分辨率的特征提高模型的位置敏感性和位置不变性;
S400:基于训练好的人体姿态估计模型获取预处理后的图像中的人体关键点信息;
S500:构建人体跌倒检测模型并训练;
其中,所述人体跌倒检测模型通过引入空间图卷积层和时间图卷积层以对人体是否跌倒进行综合判断;所述人体跌倒检测模型还引入了注意力机制模块,通过跨通道交互以提高通道注意力;
S600:将所述人体关键点信息输入训练好的人体跌倒检测模型,以对人体是否跌倒进行检测。
2.根据权利要求1所述的方法,其特征在于,步骤S200中,对所采集的图像通过以下步骤进行预处理:随机角度旋转、随机亮度变换和添加高斯噪声。
3.根据权利要求1所述的方法,其特征在于,步骤S300中,所述人体姿态估计模型通过以下步骤进行训练:
S301:获取多张包括人体的作业现场图像并进行预处理,对预处理后的图像中的人体关键点信息进行标注,将标注后的图像划分为训练集和测试集;
S302:设置训练参数,利用训练集对人体姿态估计模型进行训练,当达到预设训练次数,模型训练完成;
S303:利用测试集对训练后的人体姿态估计模型进行测试,在测试过程中,当识别精度达到90%或以上且模型运行速度小于2秒,模型测试通过;否则调整训练参数重新对模型进行训练,直至模型测试通过。
4.根据权利要求1所述的方法,其特征在于,步骤S500中,所述人体跌倒检测模型通过以下步骤进行训练:
S501:获取包括人体跌倒后的人体关键点信息数据集,将数据集划分为训练集和测试集;
S502:设置训练参数,利用训练集对人体跌倒检测模型进行训练,当达到预设训练次数,模型训练完成;
S503:利用测试集对训练后的人体跌倒检测模型进行测试,在测试过程中,当识别精度达到90%或以上且模型运行速度小于2秒,测试通过;否则调整训练参数重新对模型进行训练,直至模型测试通过。
5.一种基于多分支结构的人体跌倒检测装置,其特征在于,所述装置包括:
采集模块,用于采集作业现场图像;
预处理模块,用于对所采集的图像进行预处理;
第一模型构建及训练模块,用于构建人体姿态估计模型并训练;其中,所述人体姿态估计模型采用高像素特征分支和低像素特征分支并列的多分支结构,通过融合不同分辨率的特征提高模型的位置敏感性和位置不变性;
获取模块,用于基于训练好的人体姿态估计模型获取预处理后的图像中的人体关键点信息;
第二模型构建及训练模块,用于构建人体跌倒检测模型并训练;其中,所述人体跌倒检测模型通过引入空间图卷积层和时间图卷积层以对人体是否跌倒进行综合判断;所述人体跌倒检测模型还引入了注意力机制模块,通过跨通道交互以提高通道注意力;
检测模块,用于将所述人体关键点信息输入训练好的人体跌倒检测模型,以对人体是否跌倒进行检测。
6.一种基于多分支结构的人体跌倒检测系统,其特征在于,所述系统包括监控设备、从盒服务器和主盒服务器,其中,
所述监控设备用于采集作业现场图像,并将数据实时传输到从盒服务器;
所述从盒服务器用于基于所搭载的人体姿态估计模型获取人体关键点信息以及用于基于所搭载的人体跌倒检测模型对人体关键点信息进行检测,以对人体是否跌倒进行检测;
所述主盒服务器用于汇总各个从盒服务器产生的检测信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311746606.5A CN117423138B (zh) | 2023-12-19 | 2023-12-19 | 基于多分支结构的人体跌倒检测方法、装置及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311746606.5A CN117423138B (zh) | 2023-12-19 | 2023-12-19 | 基于多分支结构的人体跌倒检测方法、装置及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117423138A true CN117423138A (zh) | 2024-01-19 |
CN117423138B CN117423138B (zh) | 2024-03-15 |
Family
ID=89528846
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311746606.5A Active CN117423138B (zh) | 2023-12-19 | 2023-12-19 | 基于多分支结构的人体跌倒检测方法、装置及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117423138B (zh) |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210082144A1 (en) * | 2019-09-12 | 2021-03-18 | Nec Laboratories America, Inc | Keypoint based pose-tracking using entailment |
CN112560723A (zh) * | 2020-12-22 | 2021-03-26 | 中电海康集团有限公司 | 一种基于形态识别与速度估计的跌倒检测方法及系统 |
CN112686211A (zh) * | 2021-01-25 | 2021-04-20 | 广东工业大学 | 一种基于姿态估计的跌倒检测方法及装置 |
CN113111767A (zh) * | 2021-04-09 | 2021-07-13 | 上海泗科智能科技有限公司 | 一种基于深度学习3d姿态评估的跌倒检测方法 |
CN113449459A (zh) * | 2021-04-09 | 2021-09-28 | 江西高创保安服务技术有限公司 | 一种通用的提升神经网络推理准确性和保持运算速度的分布式计算系统设计方法 |
CN114067390A (zh) * | 2021-10-20 | 2022-02-18 | 无锡范特智能科技有限公司 | 基于视频图像的老年人跌倒检测方法、系统、设备和介质 |
US20220108546A1 (en) * | 2019-06-17 | 2022-04-07 | Huawei Technologies Co., Ltd. | Object detection method and apparatus, and computer storage medium |
CN114373225A (zh) * | 2021-12-30 | 2022-04-19 | 复旦大学 | 一种基于人体骨架的行为识别方法及系统 |
KR102410285B1 (ko) * | 2021-10-14 | 2022-06-22 | 주식회사 씨앤에이아이 | Cctv 영상 데이터를 통한 낙상 사고 감지 방법 및 시스템 |
CN115497022A (zh) * | 2022-09-21 | 2022-12-20 | 华侨大学 | 基于全局感知与提名关系挖掘的时序动作定位方法 |
CN116052276A (zh) * | 2023-01-30 | 2023-05-02 | 大连海事大学 | 一种人体姿态估计行为分析方法 |
CN116229507A (zh) * | 2023-02-16 | 2023-06-06 | 南京邮电大学 | 人体姿态检测方法及系统 |
CN116386133A (zh) * | 2023-03-09 | 2023-07-04 | 大连海事大学 | 一种提高小目标分辨率的姿态估计方法 |
CN116434325A (zh) * | 2023-02-22 | 2023-07-14 | 北京百度网讯科技有限公司 | 一种特定动作的检测方法、装置、设备及存储介质 |
CN116863539A (zh) * | 2023-07-20 | 2023-10-10 | 吴剑飞 | 一种基于优化YOLOv8s网络结构的跌倒人物目标检测方法 |
CN117037215A (zh) * | 2023-08-15 | 2023-11-10 | 匀熵智能科技(无锡)有限公司 | 人体姿态估计模型训练方法、估计方法、装置及电子设备 |
-
2023
- 2023-12-19 CN CN202311746606.5A patent/CN117423138B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220108546A1 (en) * | 2019-06-17 | 2022-04-07 | Huawei Technologies Co., Ltd. | Object detection method and apparatus, and computer storage medium |
US20210082144A1 (en) * | 2019-09-12 | 2021-03-18 | Nec Laboratories America, Inc | Keypoint based pose-tracking using entailment |
CN112560723A (zh) * | 2020-12-22 | 2021-03-26 | 中电海康集团有限公司 | 一种基于形态识别与速度估计的跌倒检测方法及系统 |
CN112686211A (zh) * | 2021-01-25 | 2021-04-20 | 广东工业大学 | 一种基于姿态估计的跌倒检测方法及装置 |
CN113111767A (zh) * | 2021-04-09 | 2021-07-13 | 上海泗科智能科技有限公司 | 一种基于深度学习3d姿态评估的跌倒检测方法 |
CN113449459A (zh) * | 2021-04-09 | 2021-09-28 | 江西高创保安服务技术有限公司 | 一种通用的提升神经网络推理准确性和保持运算速度的分布式计算系统设计方法 |
KR102410285B1 (ko) * | 2021-10-14 | 2022-06-22 | 주식회사 씨앤에이아이 | Cctv 영상 데이터를 통한 낙상 사고 감지 방법 및 시스템 |
CN114067390A (zh) * | 2021-10-20 | 2022-02-18 | 无锡范特智能科技有限公司 | 基于视频图像的老年人跌倒检测方法、系统、设备和介质 |
CN114373225A (zh) * | 2021-12-30 | 2022-04-19 | 复旦大学 | 一种基于人体骨架的行为识别方法及系统 |
CN115497022A (zh) * | 2022-09-21 | 2022-12-20 | 华侨大学 | 基于全局感知与提名关系挖掘的时序动作定位方法 |
CN116052276A (zh) * | 2023-01-30 | 2023-05-02 | 大连海事大学 | 一种人体姿态估计行为分析方法 |
CN116229507A (zh) * | 2023-02-16 | 2023-06-06 | 南京邮电大学 | 人体姿态检测方法及系统 |
CN116434325A (zh) * | 2023-02-22 | 2023-07-14 | 北京百度网讯科技有限公司 | 一种特定动作的检测方法、装置、设备及存储介质 |
CN116386133A (zh) * | 2023-03-09 | 2023-07-04 | 大连海事大学 | 一种提高小目标分辨率的姿态估计方法 |
CN116863539A (zh) * | 2023-07-20 | 2023-10-10 | 吴剑飞 | 一种基于优化YOLOv8s网络结构的跌倒人物目标检测方法 |
CN117037215A (zh) * | 2023-08-15 | 2023-11-10 | 匀熵智能科技(无锡)有限公司 | 人体姿态估计模型训练方法、估计方法、装置及电子设备 |
Non-Patent Citations (3)
Title |
---|
XU WEIYAO等: "Multi-scale skeleton adaptive weighted GCN for skeleton-based human action recognition in IoT", 《APPLIED SOFT COMPUTING JOURNAL》, 2 March 2021 (2021-03-02), pages 6 - 8 * |
ZIXUAN OU等: "An Efficient Algorithm-Hardware Co-Design for Radar-Based Fall Detection With Multi-Branch Convolutions", 《IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS I:REGULAR PAPERS》, vol. 70, no. 4, 2 January 2023 (2023-01-02), pages 1613 - 1624, XP011937691, DOI: 10.1109/TCSI.2022.3232918 * |
张越: "基于深度学习的人体姿态估计研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, 15 February 2022 (2022-02-15), pages 138 - 1113 * |
Also Published As
Publication number | Publication date |
---|---|
CN117423138B (zh) | 2024-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110728209B (zh) | 一种姿态识别方法、装置、电子设备及存储介质 | |
WO2022036777A1 (zh) | 基于卷积神经网络的人体动作姿态智能估计方法及装置 | |
CN112446270B (zh) | 行人再识别网络的训练方法、行人再识别方法和装置 | |
CN111291809B (zh) | 一种处理装置、方法及存储介质 | |
CN111274916B (zh) | 人脸识别方法和人脸识别装置 | |
CN112488210A (zh) | 一种基于图卷积神经网络的三维点云自动分类方法 | |
CN115661943B (zh) | 一种基于轻量级姿态评估网络的跌倒检测方法 | |
CN110222718B (zh) | 图像处理的方法及装置 | |
CN112837344B (zh) | 一种基于条件对抗生成孪生网络的目标跟踪方法 | |
CN111160294B (zh) | 基于图卷积网络的步态识别方法 | |
CN110827320B (zh) | 基于时序预测的目标跟踪方法和装置 | |
CN110765865A (zh) | 基于改进的yolo算法的水下目标检测方法 | |
WO2023151237A1 (zh) | 人脸位姿估计方法、装置、电子设备及存储介质 | |
CN113487610B (zh) | 疱疹图像识别方法、装置、计算机设备和存储介质 | |
WO2022052782A1 (zh) | 图像的处理方法及相关设备 | |
WO2022257314A1 (zh) | 图像检测方法和相关训练方法及相关装置、设备及介质 | |
CN112492297B (zh) | 一种对视频的处理方法以及相关设备 | |
CN108875456A (zh) | 目标检测方法、目标检测装置和计算机可读存储介质 | |
CN112616023A (zh) | 复杂环境下的多摄像机视频目标追踪方法 | |
CN115482523A (zh) | 轻量级多尺度注意力机制的小物体目标检测方法及系统 | |
CN114170686A (zh) | 一种基于人体关键点的屈肘行为检测方法 | |
CN113780145A (zh) | 精子形态检测方法、装置、计算机设备和存储介质 | |
CN112149528A (zh) | 一种全景图目标检测方法、系统、介质及设备 | |
CN117423138B (zh) | 基于多分支结构的人体跌倒检测方法、装置及系统 | |
CN116740808A (zh) | 基于深度学习目标检测和图像分类的动物行为识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |