CN112560796A

CN112560796A - 人体姿态实时检测方法、装置、计算机设备及存储介质

Info

Publication number: CN112560796A
Application number: CN202011604710.7A
Authority: CN
Inventors: 梁俊杰; 赖众程; 洪叁亮; 周军
Original assignee: Ping An Bank Co Ltd
Current assignee: Ping An Bank Co Ltd
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2021-03-26
Anticipated expiration: 2040-12-29
Also published as: CN112560796B

Abstract

本发明涉及人工智能技术领域，本发明公开了一种人体姿态实时检测方法、装置、计算机设备及存储介质，所述方法包括：通过实时获取预设时间段的视频片段，抽取出预设数量的待识别图像；通过噪音过滤处理，得到待处理图像；将所有待处理图像分别输入人体检测模型和时序分类模型；进行身体动作特征提取及识别，得到第一概率结果，根据所有第一概率结果，确定出第一识别结果；通过时序分类模型进行目标姿态时序识别，得到第二识别结果；对第一识别结果和第二识别结果进行加权融合，确定出目标姿态检测结果。本发明实现了准确地、快速地自动识别出监控视频中是否有关注的人体姿态变化的动作的人，提高了人体姿态实时检测的准确率、可靠性和效率。

Description

人体姿态实时检测方法、装置、计算机设备及存储介质

技术领域

本发明涉及人工智能的图像分类技术领域，尤其涉及一种人体姿态实时检测方法、装置、计算机设备及存储介质。

背景技术

在自助银行中通常都是没有业务员只有客户在自助地办理业务，那么如果出现客户不小心摔倒而晕倒或者不能站起来，特别是老人客户，同时又没人其他人的情况下客户不能及时送去医院或者急救，这会影响客户的生命危险。因此，对客户进行摔倒检测可以及时发现并提醒相关工作人员处理，有效减轻客户的意外摔倒带来的后果，确保客户的安全，更好服务于每个客户，保障了客户的生命安全。

目前，人体跌倒行为的检测手段主要有可穿戴设备和外周布设传感器，该两种方法依赖于相应的设备获取信息，对环境依赖性较强，存在检测率低，不能够满足实际应用的需求的问题。

发明内容

本发明提供一种人体姿态实时检测方法、装置、计算机设备及存储介质，实现了通过噪音过滤、改进轻量级的人体检测模型和改进轻量级时序分类模型，对监控的视频片段进行身体动作特征提取及识别和目标姿态时序识别，并运用加权融合的方式，确定目标姿态检测结果，以及结合特征提取和时序信息之间的判断指标，自动准确地、快速地识别出监控视频中是否有关注的人体姿态变化的动作的人，提高了人体姿态实时检测的准确率、可靠性和效率。

一种人体姿态实时检测方法，包括：

实时获取预设时间段的视频片段，并从所述视频片段中抽取出预设数量的待识别图像；

对所有所述待识别图像进行噪音过滤处理，得到与各所述待识别图像对应的待处理图像；

将所有所述待处理图像分别输入人体检测模型和时序分类模型；

通过所述人体检测模型对各所述待处理图像进行身体动作特征提取及识别，得到与各所述待处理图像一一对应的第一概率结果，根据所有所述第一概率结果，确定出第一识别结果；

通过所述时序分类模型对各所述待处理图像进行目标姿态时序识别，得到第二识别结果；

对所述第一识别结果和所述第二识别结果进行加权融合，得到目标姿态检测结果；所述目标姿态检测结果表征了在所述视频片段中是否存在关注的人体姿态变化的动作。

一种人体姿态实时检测装置，包括：

获取模块，用于实时获取预设时间段的视频片段，并从所述视频片段中抽取出预设数量的待识别图像；

过滤模块，用于对所有所述待识别图像进行噪音过滤处理，得到与各所述待识别图像对应的待处理图像；

输入模块，用于将所有所述待处理图像分别输入人体检测模型和时序分类模型；

第一识别模块，用于通过所述人体检测模型对各所述待处理图像进行身体动作特征提取及识别，得到与各所述待处理图像一一对应的第一概率结果，根据所有所述第一概率结果，确定出第一识别结果；

第二识别模块，用于通过所述时序分类模型对各所述待处理图像进行目标姿态时序识别，得到第二识别结果；

融合模块，用于对所述第一识别结果和所述第二识别结果进行加权融合，得到目标姿态检测结果；所述目标姿态检测结果表征了在所述视频片段中是否存在关注的人体姿态变化的动作。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述人体姿态实时检测方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述人体姿态实时检测方法的步骤。

本发明提供的人体姿态实时检测方法、装置、计算机设备及存储介质，通过实时获取预设时间段的视频片段，并从所述视频片段中抽取出预设数量的待识别图像；对所有所述待识别图像进行噪音过滤处理，得到与各所述待识别图像对应的待处理图像；将所有所述待处理图像分别输入人体检测模型和时序分类模型；通过所述人体检测模型对各所述待处理图像进行身体动作特征提取及识别，得到与各所述待处理图像一一对应的第一概率结果，根据所有所述第一概率结果，确定出第一识别结果；通过所述时序分类模型对各所述待处理图像进行目标姿态时序识别，得到第二识别结果；对所述第一识别结果和所述第二识别结果进行加权融合，得到目标姿态检测结果；所述目标姿态检测结果表征了在所述视频片段中是否存在关注的人体姿态变化的动作。

如此，本发明实现了通过实时获取预设时间段的视频片段，抽取出预设数量的待识别图像；通过噪音过滤处理，得到与各所述待识别图像对应的待处理图像；将所有所述待处理图像分别输入人体检测模型和时序分类模型；通过所述人体检测模型进行身体动作特征提取及识别，得到第一概率结果，根据所有所述第一概率结果，确定出第一识别结果；通过所述时序分类模型进行目标姿态时序识别，得到第二识别结果；对所述第一识别结果和所述第二识别结果进行加权融合，确定出目标姿态检测结果，因此，实现了通过噪音过滤、改进轻量级的人体检测模型和改进轻量级时序分类模型，对监控的视频片段进行身体动作特征提取及识别和目标姿态时序识别，并运用加权融合的方式，根据第一识别结果和第二识别结果，确定目标姿态检测结果，进一步结合了特征提取和时序信息之间的判断指标，准确地、快速地识别出监控视频中是否有关注的人体姿态变化的动作的人，提高了人体姿态实时检测的准确率、可靠性和效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中人体姿态实时检测方法的应用环境示意图；

图2是本发明一实施例中人体姿态实时检测方法的流程图；

图3是本发明一实施例中人体姿态实时检测方法的步骤S20的流程图；

图4是本发明一实施例中人体姿态实时检测方法的步骤S40的流程图；

图5是本发明一实施例中人体姿态实时检测方法的步骤S50的流程图；

图6是本发明一实施例中人体姿态实时检测装置的转换模块的原理框图；

图7是本发明一实施例中计算机设备的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供的人体姿态实时检测方法，可应用在如图1的应用环境中，其中，客户端(计算机设备)通过网络与服务器进行通信。其中，客户端(计算机设备)包括但不限于为各种个人计算机、笔记本电脑、智能手机、平板电脑、摄像头和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中，如图2所示，提供一种人体姿态实时检测方法，其技术方案主要包括以下步骤S10-S60：

S10，实时获取预设时间段的视频片段，并从所述视频片段中抽取出预设数量的待识别图像。

可理解地，通过监控设备进行监控，实时获取监控设备采集的视频，截取所述预设时间段的视频，所述预设时间段可以根据需求设定，比如预设时间段为1秒，5秒等等，作为优选，所述预设时间设置为1秒，从对所述视频片段进行均等划分，得到与所述预设数量相同数量的均分视频，所述预设数量可以根据需求设定，比如预设数量为10、15等，作为优选，所述预设数量为10，从各所述均分视频中抽取出与各所述均分视频一一对应的所述待识别图像，抽取的方式可以为时间戳最早的所述均分视频中随机抽取所述待识别图像，再按照所述待识别图像的间距进行抽取，所述待识别图像的间距为T＝S/N，其中，S为所述预设时间段的总帧数，N为所述预设数量；也可以为对每段所述均分视频进行随机抽取一个所述待识别图像，所述待识别图像为抽取出的一帧图像。

在一实施例中，所述步骤S10中，即所述从所述视频片段中抽取出预设数量的待识别图像，包括：

S101，对所述视频片段进行均等划分，得到与所述预设数量相同数量的均分视频。

可理解地，所述均等划分为将所述视频片段划分成相等时间段长度的视频，将该视频确定为所述均分视频，所述预设数量为预设的数量，优选为10，划分出的所述均分视频的个数与所述预设数量相同，例如：10个均分视频。

S102，从各所述均分视频中抽取出与各所述均分视频一一对应的所述待识别图像。

可理解地，从各所述均分视频中抽取出与各所述均分视频一一对应的所述待识别图像，抽取的方式可以为时间戳最早的所述均分视频中随机抽取所述待识别图像，再按照所述待识别图像的间距进行抽取，所述待识别图像的间距为T＝S/N，其中，S为所述预设时间段的总帧数，N为所述预设数量。

本发明实现了通过对所述视频片段进行均等划分，得到与所述预设数量相同数量的均分视频；从各所述均分视频中抽取出与各所述均分视频一一对应的所述待识别图像，如此，实现了通过均等划分和抽取的方法，从所述视频片段中获得与预设数量相同数量的待识别图像，能够更好的抽取出视频片段中有用的及有效的待识别图像，为后续的识别提供更加准确的待识别图像。

S20，对所有所述待识别图像进行噪音过滤处理，得到与各所述待识别图像对应的待处理图像。可理解地，所述噪音过滤处理为对输入的图像进行去除图像中的噪音、锐化图像的像素等图像增强的处理过程，所述噪音过滤处理包括高斯滤波处理，对所述待识别图像进行高斯滤波处理，所述高斯滤波处理为运用高斯滤波器对所述待识别图像中的各个像素进行过滤，作为优选，所述高斯滤波器的高斯核的大小为3×3，标准差为1.4，再对过滤后的所述待识别图像进行边缘增强，所述边缘增强为对所述中转图像中的各物件的边缘线进行增强的过程，从而得到与所述待识别图像对应的所述待处理图像。

在一实施例中，如图3所示，所述步骤S20中，即所述对所有所述待识别图像进行噪音过滤处理，得到与各所述待识别图像对应的待处理图像，包括：

S201，对所述待识别图像进行高斯滤波处理，得到与所述待识别图像对应的中转图像；

可理解地，对各个所述待识别图像进行所述高斯滤波处理，即将所述待识别图像输入高斯滤波器中，通过高斯滤波器运用一维高斯分布对所述待识别图像进行过滤，以去除噪音，所述一维高斯分布为：

其中，σ标准差为1.4，高斯核的大小为3×3，能够得到清晰度较高的所述中转图像。

S202，对所述中转图像进行边缘增强，得到所述待处理图像。

可理解地，所述边缘增强为对所述中转图像中的各物件的边缘线进行增强的过程，即对相邻像素之间存在像素跨度大的边缘进行跨度增强，让边缘线更加清晰和明显的处理过程，从而将经过边缘增强后的所述中转图像确定为所述待处理图像。

本发明实现了通过对所述待识别图像进行高斯滤波处理和边缘增强，得到与所述待识别图像对应的所述待处理图像，如此，能够通过高斯滤波和边缘增强处理的方法，能够获取更加高清晰度的图像。

S30，将所有所述待处理图像分别输入人体检测模型和时序分类模型。

可理解地，所述人体检测模型为训练完成的轻量级的图像检测模型，所述人体检测模型能够识别出输入的所述待处理图像中的行人区域，并识别出各个行人区域是否存在摔倒的区域结果，再根据所有区域结果确定出与该待处理图像对应的第一概率结果的图像检测模型，所述人体检测模型为基于SSD和注意力机制的ResNet18的改进轻量级的图像检测模型。

S40，通过所述人体检测模型对各所述待处理图像进行身体动作特征提取及识别，得到与各所述待处理图像一一对应的第一概率结果，根据所有所述第一概率结果，确定出第一识别结果。

可理解地，通过所述人体检测模型对所述待处理图像进行尺寸转换(resize)，尺寸转换成600×600的图像，再通过所述人体检测模型对尺寸转换后的所述待处理图像进行所述身体动作特征提取，所述身体动作特征提取为关注的与人体姿态变化产生的动作相关的特征，比如身体动作特征包括摔倒特征、跳跃特征等等，身体动作特征包括人体的水平垂直比例、人体节点坐标分布等等，通过所述人体检测模型根据提取的所述身体动作特征识别出与各所述待处理图像一一对应的所述第一概率结果，根据所有所述第一概率结果，确定出所述第一识别结果。

在一实施例中，如图4所示，所述步骤S40中，即所述通过所述人体检测模型对各所述待处理图像进行身体动作特征提取及识别，得到与各所述待处理图像一一对应的第一概率结果，包括：

S401，通过行人识别模型对所述待处理图像进行行人区域识别，识别出所述待处理图像中的行人区域；所述人体检测模型包括所述行人识别模型和人体姿态分类模型。

可理解地，所述人体检测模型包括行人识别模型和人体姿态分类模型，所述行人识别模型能够识别出输入的所述待处理图像中的行走着的人的行人区域的模型，所述人体姿态分类模型能够识别出输入的行人区域是否存在关注的人体姿态变化的动作的分类模型，所述行人识别模型为基于SSD和注意力机制的ResNet18的改进轻量级的模型，所述行人识别模型为通过运用注意力机制的ResNet18进行卷积，将卷积后的结果再通过SSD模型的卷积层进行卷积，以及通过SSD模型的全连接层进行全连接，输出行人区域，即通过所述行人检测模型对所述待处理图像进行所述尺寸转换处理，并对尺寸转换后的所述待处理图像进行行人区域识别，所述行人区域识别为运用注意力机制的ResNet18进行卷积，输出行人特征图，再通过基于SSD的VGG16的卷积层(或者部分SSD模型中的部分VGG16的卷积层)对所述行人特征图进行卷积，从而提取出具有行走的人的全连接特征向量，通过SSD模型中的VGG16的全连接层对全连接特征向量进行行人区域识别，识别出所述待处理图像中的行人区域，所述行人区域为所述待处理图像中的行走着的人的区域。

在一实施例中，所述步骤S401中，即所述通过行人识别模型对所述待处理图像进行行人区域识别，识别出所述待处理图像中的行人区域，包括：

S4011，通过所述行人识别模型中的轻量识别模型提取所述待处理图像中的行人特征，得到行人特征图。

可理解地，所述行人识别模型包括轻量识别模型和区域识别模型，所述轻量识别模型为基于运用注意力机制的ResNet18的改进轻量级的模型，通过所述轻量识别模型能够提取所述待处理图像中的所述行人特征，得到所述行人特征图，所述行人特征为与人体行走相关的特征，例如人体的肢体节点的移动特征等。

S4012，通过所述行人识别模型中的区域识别模型对所述行人特征图进行区域识别，识别出所述待处理图像中的所述行人区域。

可理解地，所述区域识别模型为基于SSD的目标识别模型，所述区域识别模型能够快速地定位出行人区域的模型，并提取出行人区域，通过所述区域识别模型对所述行人特征图进行卷积，从而提取出具有行走的人的全连接特征向量，通过对全连接特征向量进行分类识别，识别出所述待处理图像中的行人区域。

本发明实现了通过所述行人识别模型中的轻量识别模型提取所述待处理图像中的行人特征，得到行人特征图；通过所述行人识别模型中的区域识别模型对所述行人特征图进行区域识别，识别出所述待处理图像中的所述行人区域，如此，实现了通过行人特征和区域识别，能够快速地识别出所述待处理图像中的行人区域，提高了识别的准确率。

S402，将识别到的所有所述行人区域输入所述人体姿态分类模型。

可理解地，通过所述人体检测模型对各所述行人区域进行尺寸扩充，因为所述行人区域的大小不一，需要进行扩充到相同的可执行的尺寸大小，将扩充后的所述行人区域输入所述人体姿态分类模型中。

S403，运用注意力机制，通过所述人体姿态分类模型对各所述行人区域进行所述身体动作特征提取，获取所述人体姿态分类模型识别输出的与各所述行人区域对应的区域结果。

可理解地，所述注意力机制为在对所述行人区域的所述身体动作特征的提取过程中引入注意力融合模型，所述注意力融合模型包括通道注意力模块和空间注意力模块，能够从通道和空间的权重上对提取所述身体动作特征的特征图进行加权，结合通道和空间的维度进行识别，增强所述身体动作特征，提高识别的效率和准确性，从而通过所述人体姿态分类模型根据提取的所述身体动作特征识别出与各所述行人区域对应的所述区域结果，所述区域结果表征了与其对应的所述行人区域中的行人是否存在关注的人体姿态变化的动作的概率。

其中，所述人体姿态分类模型为基于注意力机制的ResNet18的改进轻量级的图像分类模型。

在一实施例中，所述步骤S403中，即运用注意力机制，通过所述人体姿态分类模型对各所述行人区域进行所述身体动作特征提取，获取所述人体姿态分类模型识别输出的与各所述行人区域对应的区域结果，包括：

S4031，通过所述人体姿态分类模型中的轻量分类模型对所述行人区域进行身体动作特征提取，得到身体动作特征向量图，并在提取所述身体动作特征中引入注意力融合模型，通过所述注意力融合模型对所述身体动作特征向量图进行通道和空间的权重提取，得到待连接特征图。

可理解地，所述人体姿态分类模型为基于注意力机制的ResNet18的改进轻量级的图像分类模型，即基于fast_CBAM_ResNet18的图像分类模型，所述轻量分类模型包括所述输入卷积层、第一卷积层、第一注意力融合卷积层、第二卷积层、第二注意力融合卷积层、第三卷积层和池化层，其中，所述第一注意力融合卷积层和所述第二注意力融合卷积层均包括所述注意力融合模型，所述注意力融合模型包括通道注意力模块和空间注意力模块，能够从通道和空间的权重上对提取所述身体动作特征的特征图进行加权，结合通道和空间的维度进行识别，增强所述身体动作特征，提高识别的效率和准确性。

在一实施例中，所述步骤S4031中，即所述通过所述人体姿态分类模型中的轻量分类模型对所述行人区域进行身体动作特征提取，得到身体动作特征向量图，并在提取所述身体动作特征中引入注意力融合模型，通过所述注意力融合模型对所述身体动作特征向量图进行通道和空间的权重提取，得到待连接特征图，包括：

S40311，通过输入卷积层对所述行人区域进行尺寸转换及卷积，得到第一特征图；所述轻量分类模型包括所述输入卷积层、第一卷积层、第一注意力融合卷积层、第二卷积层、第二注意力融合卷积层、第三卷积层和池化层。

可理解地，所述输入卷积层包括一个预处理卷积层和一个预处理池化层，所述预处理卷积层为一个64个7×7的卷积核进行卷积的卷积层，所述预处理池化层为一个3×3的池化层，通过输入卷积层对所述行人区域进行尺寸转换，再经过所述预处理卷积层和所述预处理池化层的卷积及池化处理，得到所述第一特征图。

S40312，通过所述第一卷积层中的第一卷积参数对所述第一特征图进行卷积，得到第二特征图。

可理解地，所述第一卷积参数包括两层的64个3×3的卷积核，根据所述第一卷积参数对所述第一特征图进行卷积，得到所述第二特征图。

S40313，通过所述第一注意力融合卷积层，根据第二卷积参数对所述第二特征图进行卷积，以及对所述第二特征图提取基于通道和空间的融合特征，得到第三特征图。

可理解地，所述融合特征为基于通道和空间的特征，所述第一注意力融合卷积层包括所述注意力融合模型，所述注意力融合模型包括通道注意力模块和空间注意力模块，所述第二卷积参数包括两层64个3×3的卷积核，将第一层的64个3×3的卷积核对所述第二特征图进行卷积，将卷积输出的特征图输入至所述注意力融合模型，并且通过第二层的64个3×3的卷积核对该特征图进行卷积，通过所述注意力融合模型进行所述融合特征的提取，将通过第二层的64个3×3的卷积核对该特征图进行卷积输出的特征图与通过所述注意力融合模型提取的所述融合特征进行融合，得到所述第三特征图，所述第三特征图为增强了通道和空间上的重要特征的特征图，提高了识别的准确率。

其中，所述通道注意力模块，即为Channel attention module，是运用注意力机制，对输入的特征图利用第一全局最大池化层和第一全局平均池化层来对每个特征图进行操作(对每个特征图取一个值，最终组成多个一维数组)，从而得到一个一维的第一最大池化特征图和一个一维的第一平均池化特征图，然后分别进行卷积，接着将经过卷积后的第一最大池化特征图和第一平均池化特征图叠加在一起，最后经过第一激活层(firstsigmoid)得到每个通道的权重，并与输入的特征图相乘就能确定将重要的通道进行增强；所述空间注意力模块，即为Spatial attention module，是运用注意力机制，对输入的特征图利用第二全局最大池化层和第二全局平均池化层，对每个特征点进行操作(对每个特征点取一个值，最终组成多个一维数组)，从而得到一个一维的第二最大池化特征图和一个一维的第二平均池化特征图，然后将两者拼接在一起，接着经过进行卷积，最后经过第二激活层(second sigmoid)得到每个特征点的权重，并与输入的特征图相乘就能对重要的特征点进行增强，即增强了所述融合特征。

S40314，通过所述第二卷积层中的第三卷积参数对所述第三特征图进行卷积，得到第四特征图。

可理解地，所述第三卷积参数包括两层的128个3×3的卷积核，根据所述第三卷积参数对所述第三特征图进行卷积，得到所述第四特征图。

S40315，通过所述第二注意力融合卷积层，根据第四卷积参数对所述第四特征图进行卷积，以及对所述第四特征图提取所述融合特征，得到第五特征图。

可理解地，所述第四卷积参数包括两层128个3×3的卷积核，将第一层的128个3×3的卷积核对所述第四特征图进行卷积，将卷积输出的特征图输入至所述注意力融合模型，并且通过第二层的128个3×3的卷积核对该特征图进行卷积，通过所述注意力融合模型进行所述融合特征的提取，将通过第二层的128个3×3的卷积核对该特征图进行卷积输出的特征图与通过所述注意力融合模型提取的所述融合特征进行融合，得到所述第五特征图。

S40316，通过所述第三卷积层中的第五卷积参数对所述第五特征图进行卷积，得到第六特征图。

可理解地，所述第五卷积参数包括两层的256个3×3的卷积核，根据所述第五卷积参数对所述第五特征图进行卷积，得到所述第六特征图。

S40317，通过所述池化层对所述第六特征图池化处理，得到所述待连接特征图。

可理解地，所述池化层为一个7×7的池化层，通过该池化层对所述第六特征图进行池化处理，得到所述待连接特征图。

本发明实现了通过在提取所述身体动作特征中引入注意力融合模型，通过所述注意力融合模型对所述身体动作特征向量图进行通道和空间的权重提取，能够结合通道和空间的维度进行识别，增强所述身体动作特征，提高识别的效率和准确性。

S4032，通过所述轻量分类模型中的全连接层对所述待连接特征图进行识别，识别出与所述行人区域对应的区域结果。

可理解地，在所述图像分类模型添加两个全连接层，两个全连接层分别为第一全连接层和第二全连接层，所述第一全连接层输出的维度为1024，所述第二全连接层输出的维度为2，通过对所述第二全连接层输出的结果进行识别，能够识别出所述行人区域中是否存在摔倒，从而输出所述区域结果，所述区域结果包括摔倒和正常，以及与摔倒对应的概率。

本发明实现了通过所述人体姿态分类模型中的轻量分类模型对所述行人区域进行身体动作特征提取，得到身体动作特征向量图，并在提取所述身体动作特征中引入注意力融合模型，通过所述注意力融合模型对所述身体动作特征向量图进行通道和空间的权重提取，得到待连接特征图；通过所述轻量分类模型中的全连接层对所述待连接特征图进行识别，识别出与所述行人区域对应的区域结果，如此，实现了通过身体动作特征提取，以及引入注意力融合模型提取融合特征，能够快速地、准确地识别出行人区域中是否存在关注的人体姿态变化的动作，提高了人体姿态实时检测的准确率和可靠性。

S404，根据所有所述区域结果确定出与所述待处理图像对应的所述第一概率结果。

可理解地，根据所有所述区域结果中的概率值，确定出与所述待处理图像对应的所述第一概率结果，所述第一概率结果表明了所述待处理图像中是否有摔倒的人以及存在摔倒的预测值，即将所有在所述区域结果中的与大于预设阈值的所述概率值进行求平均，得到所述第一概率结果。

本发明实现了通过行人识别模型对所述待处理图像进行行人区域识别，识别出所述待处理图像中的行人区域；将识别到的所有所述行人区域输入所述人体姿态分类模型；运用注意力机制，通过所述人体姿态分类模型对各所述行人区域进行所述身体动作特征提取，获取所述人体姿态分类模型识别输出的与各所述行人区域对应的区域结果；根据所有所述区域结果确定出与所述待处理图像对应的所述第一概率结果，如此，实现了通过轻量的和快速的基于Faster和SSD结合的行人识别模型进行行人检测，提高了识别行人的准确率和可靠性，并通过基于注意力机制的ResNet18的改进轻量级的人体姿态分类模型进行摔倒识别分类，能够快速地、准确地识别出待处理图像中的关注的人体姿态变化的动作的概率，而且人体姿态分类模型和行人识别模型都应用了轻量级的模型，方便后续在各种设备上部署，以及简化了人体检测模型的网络结构，在轻量级的网络结构基础上提高了识别准确率和效率。

S50，通过所述时序分类模型对各所述待处理图像进行目标姿态时序识别，得到第二识别结果。

可理解地，由于人体姿态变化是一个过程动作，所以各所述待处理图像就会存在时间上的时序过程，所述时序分类模型为通过求两帧图像之间的运动信息-光流来获取时序信息，输出光流图，然后对转换成光流图进行目标姿态时序识别的模型，所述目标姿态时序识别为对光流图进行人体姿态光流特征识别，即摔倒的横向和纵向的特征识别，对提取后的人体姿态光流特征进行识别，判断是否存在横向或纵向的快速移动的特征向量，从而确定出所述待处理图像的人体姿态变化的概率，即光流结果，从而根据所有光流结果，计算出所述第二识别结果。

在一实施例中，如图5所示，所述步骤S50中，即所述通过所述时序分类模型对各所述待处理图像进行目标姿态时序识别，得到第二识别结果，包括：

S501，通过所述时序分类模型对相邻的两个所述待处理图像进行光流处理，得到至少一个光流图。

可理解地，所述时序分类模型为基于one-stream CNN的神经网络模型，所述one-stream CNN为在two-stream CNN中抽取出光流处理的分支模型，因此，所述时序分类模型更加轻量和高效，因为在人体姿态变化的场景下下仅引用光流图就可以有效识别出人体摔倒的结果，例如：人体摔倒的场景，所述光流处理为将相邻的两个所述待处理图像进行横向和纵向的光流位移进行叠加输出的具有光流特征的特征向量图，该特征向量图即为所述光流图，所述光流图能够体现移动的物体的时序变化的特征向量图。

S502，通过所述时序分类模型对所有所述光流图进行人体姿态光流特征提取，并根据提取的所述人体姿态光流特征进行所述目标姿态时序识别，识别出与各所述光流图一一对应的光流结果。

可理解地，所述人体姿态光流特征为与人体姿态变化的光流时序变化的特征，例如光流的移动轨迹为从纵向往横向移动等，通过对提取的所述人体姿态光流特征进行所述目标姿态时序识别，所述目标姿态时序识别为对光流图进行摔倒的横向和纵向的特征识别，对提取后的人体姿态光流特征进行识别，判断是否存在横向或纵向的快速移动的特征向量，例如：在1秒时间里产生10张的光流图，10张光流图都分别输入到one-stream CNN里面就得到10个概率One_cls_i，其中，i为1到10范围的数值，One_cls_i为所述光流结果中的概率值。

S503，根据所有所述光流结果，确定出所述第二识别结果。

可理解地，根据所有所述光流结果中的概率分布，计算输出所述第二识别结果，例如：将10个概率值进行融合得到关注的人体姿态变化的动作的概率，其中，融合方式为求平均方式；从10个概率值中筛选出高于预设概率值的概率值，并将筛选出的概率值求平均，得到第二识别结果。

本发明实现了通过所述时序分类模型对相邻的两个所述待处理图像进行光流处理，得到至少一个光流图；通过所述时序分类模型对所有所述光流图进行人体姿态光流特征提取，并根据提取的所述人体姿态光流特征进行所述目标姿态时序识别，识别出与各所述光流图一一对应的光流结果；根据所有所述光流结果，确定出所述第二识别结果，如此，实现了通过时序分类模型，进行光流处理和目标姿态时序识别，能够充分利用视频片段的光流的时序信息来提高人体姿态实时检测的准确率。

S60，对所述第一识别结果和所述第二识别结果进行加权融合，得到目标姿态检测结果；所述目标姿态检测结果表征了在所述视频片段中是否存在关注的人体姿态变化的动作。

可理解地，将所述第一识别结果中的概率和所述第二识别结果中的概率进行加权融合，所述加权融合的公式优选为：

All_cls＝0.6×Re_cls+0.4×One_cls

其中，

All_cls为人体摔倒概率；

Re_cls为所述第一识别结果中的概率；

One_cls为所述第二识别结果中的概率。

可理解地，通过判断所述人体摔倒概率是否大于预设摔倒阈值(优选为0.6)，确定所述目标姿态检测结果是否为关注的人体姿态变化的动作，例如：关注的人体姿态变化的动作为摔倒、跳跃等。

其中，所述步骤S40和S50的顺序在此不做限制，两个步骤可以并行执行，也可以串行执行。

在一实施例中，提供一种人体姿态实时检测装置，该人体姿态实时检测装置与上述实施例中人体姿态实时检测方法一一对应。如图6所示，该人体姿态实时检测装置包括获取模块11、过滤模块12、输入模块13、第一识别模块14、第二识别模块15和融合模块16。各功能模块详细说明如下：

获取模块11，用于实时获取预设时间段的视频片段，并从所述视频片段中抽取出预设数量的待识别图像；

过滤模块12，用于对所有所述待识别图像进行噪音过滤处理，得到与各所述待识别图像对应的待处理图像；

输入模块13，用于将所有所述待处理图像分别输入人体检测模型和时序分类模型；

第一识别模块14，用于通过所述人体检测模型对各所述待处理图像进行身体动作特征提取及识别，得到与各所述待处理图像一一对应的第一概率结果，根据所有所述第一概率结果，确定出第一识别结果；

第二识别模块15，用于通过所述时序分类模型对各所述待处理图像进行目标姿态时序识别，得到第二识别结果；

融合模块16，用于对所述第一识别结果和所述第二识别结果进行加权融合，得到目标姿态检测结果；所述目标姿态检测结果表征了在所述视频片段中是否存在关注的人体姿态变化的动作。

关于人体姿态实时检测装置的具体限定可以参见上文中对于人体姿态实时检测方法的限定，在此不再赘述。上述人体姿态实时检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种人体姿态实时检测方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中人体姿态实时检测方法。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中人体姿态实时检测方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种人体姿态实时检测方法，其特征在于，包括：

2.如权利要求1所述的人体姿态实时检测方法，其特征在于，所述对所有所述待识别图像进行噪音过滤处理，得到与各所述待识别图像对应的待处理图像，包括：

对所述待识别图像进行高斯滤波处理，得到与所述待识别图像对应的中转图像；

对所述中转图像进行边缘增强，得到所述待处理图像。

3.如权利要求1所述的人体姿态实时检测方法，其特征在于，所述通过所述人体检测模型对各所述待处理图像进行身体动作特征提取及识别，得到与各所述待处理图像一一对应的第一概率结果，包括：

通过行人识别模型对所述待处理图像进行行人区域识别，识别出所述待处理图像中的行人区域；所述人体检测模型包括所述行人识别模型和人体姿态分类模型；

将识别到的所有所述行人区域输入所述人体姿态分类模型；

运用注意力机制，通过所述人体姿态分类模型对各所述行人区域进行所述身体动作特征提取，获取所述人体姿态分类模型识别输出的与各所述行人区域对应的区域结果；

根据所有所述区域结果确定出与所述待处理图像对应的所述第一概率结果。

4.如权利要求3所述的人体姿态实时检测方法，其特征在于，所述通过行人识别模型对所述待处理图像进行行人区域识别，识别出所述待处理图像中的行人区域，包括：

通过所述行人识别模型中的轻量识别模型提取所述待处理图像中的行人特征，得到行人特征图；

通过所述行人识别模型中的区域识别模型对所述行人特征图进行区域识别，识别出所述待处理图像中的所述行人区域。

5.如权利要求3所述的人体姿态实时检测方法，其特征在于，所述运用注意力机制，通过所述人体姿态分类模型对各所述行人区域进行所述身体动作特征提取，获取所述人体姿态分类模型识别输出的与各所述行人区域对应的区域结果，包括：

通过所述人体姿态分类模型中的轻量分类模型对所述行人区域进行身体动作特征提取，得到身体动作特征向量图，并在提取所述身体动作特征中引入注意力融合模型，通过所述注意力融合模型对所述身体动作特征向量图进行通道和空间的权重提取，得到待连接特征图；

通过所述轻量分类模型中的全连接层对所述待连接特征图进行识别，识别出与所述行人区域对应的区域结果。

6.如权利要求5所述的人体姿态实时检测方法，其特征在于，所述通过所述人体姿态分类模型中的轻量分类模型对所述行人区域进行身体动作特征提取，得到身体动作特征向量图，并在提取所述身体动作特征中引入注意力融合模型，通过所述注意力融合模型对所述身体动作特征向量图进行通道和空间的权重提取，得到待连接特征图，包括：

通过输入卷积层对所述行人区域进行尺寸转换及卷积，得到第一特征图；所述轻量分类模型包括所述输入卷积层、第一卷积层、第一注意力融合卷积层、第二卷积层、第二注意力融合卷积层、第三卷积层和池化层；

通过所述第一卷积层中的第一卷积参数对所述第一特征图进行卷积，得到第二特征图；

通过所述第一注意力融合卷积层，根据第二卷积参数对所述第二特征图进行卷积，以及对所述第二特征图提取基于通道和空间的融合特征，得到第三特征图；

通过所述第二卷积层中的第三卷积参数对所述第三特征图进行卷积，得到第四特征图；

通过所述第二注意力融合卷积层，根据第四卷积参数对所述第四特征图进行卷积，以及对所述第四特征图提取所述融合特征，得到第五特征图；

通过所述第三卷积层中的第五卷积参数对所述第五特征图进行卷积，得到第六特征图；

通过所述池化层对所述第六特征图池化处理，得到所述待连接特征图。

7.如权利要求1所述的人体姿态实时检测方法，其特征在于，所述通过所述时序分类模型对各所述待处理图像进行目标姿态时序识别，得到第二识别结果，包括：

通过所述时序分类模型对相邻的两个所述待处理图像进行光流处理，得到至少一个光流图；

过所述时序分类模型对所有所述光流图进行人体姿态光流特征提取，并根据提取的所述人体姿态光流特征进行所述目标姿态时序识别，识别出与各所述光流图一一对应的光流结果；

根据所有所述光流结果，确定出所述第二识别结果。

8.一种人体姿态实时检测装置，其特征在于，包括：

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述人体姿态实时检测方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述人体姿态实时检测方法。