CN112700840A

CN112700840A - 一种基于双通道异构神经网络的多模态人体动作识别方案

Info

Publication number: CN112700840A
Application number: CN202110144941.2A
Authority: CN
Inventors: 邢蒙蒙; 曹慧; 张俊忠; 魏德健; 刘静; 杨锋
Original assignee: Shandong University of Traditional Chinese Medicine
Current assignee: Shandong University of Traditional Chinese Medicine
Priority date: 2021-02-03
Filing date: 2021-02-03
Publication date: 2021-04-23

Abstract

本发明针对居家康复锻炼的人群无法达到标准化的问题提出一种基于双通道异构神经网络的多模态人体动作识别方案，利用惯性传感器和深度相机分别捕捉待处理的人体动作过程的惯性传感器数据和深度视频数据，再利用卷积神经网络、长短期记忆网络分别对深度运动历史图和时序信号进行深度特征提取，将两个模态的深度特征通过级联的方式融合在一起，获得的特征融合数据输入分类器，从而完成人体动作具体类别的识别。本发明减少了异常数据和冗余数据对分类结果的影响，提取深度视频关键帧数据生成新的深度视频数据，突出关键数据，减少分类模型的计算复杂度，可以有效区分人体动作的具体类型，让用户可以实现无监督、标准化的家庭锻炼。

Description

一种基于双通道异构神经网络的多模态人体动作识别方案

技术领域

本发明属于智慧医疗的无监督康复锻炼领域，尤其涉及一种基于双通道异构神经网络的多模态人体动作识别方法。

背景技术

一些年长者、或致残率较高的心脑血管疾病患者在治愈之后，往往会伴随不同程度的上肢运动功能障碍，例如，30%~66%的缺血性脑卒中患者在6个月之后上肢运动功能仍不能康复，另一方面却有研究表明，脑卒中患者在发病后进行长期规范化的康复锻炼能够有效缓解患者运动功能障碍问题。运动功能恢复是一个长期而缓慢的过程，漫长的医院治疗给患者的家庭造成巨大的负担，但是居家环境下的康复锻炼缺乏规范化导致话费的金钱和时间事倍功半。如今，计算机技术可以进行远程监督锻炼，但通过计算机进行人体动作识别面临的技术问题主要是多模态的特征融合和动作类型的识别。

在多模态特征融合中，研究重点主要集中在设计新的特征提取和融合方案以实现不同模态的特征融合，来实现信息互补，如惯性传感器和深度视频模态的融合。目前普通的特征提取方案如HOG特征和Gabor特征都受到类内差异和类间相似问题的困扰，深度特征则会遇到与其他特征难以融合的问题。对于分类识别，选择许多经典分类器用于诊断，例如支持向量机（SVM），随机森林（RF），卷积神经网络（CNN），但是每个分类器都需要分别对应自己合适的分类对象。

不同模态和不同类别的人体动作信息的载体不同，动作的相似度较大，单一模态的特征提取-分类器识别模型难以取得较好的分类效果，且不适应无监督锻炼的家居环境。

发明内容

为了解决上述问题，本发明采用以下技术方案。

一种基于双通道异构神经网络的多模态人体动作识别方案，包括如下步骤：

101、利用惯性传感器和深度相机分别捕捉待处理的人体动作过程的惯性传感器数据和深度视频数据，对获取的所述惯性传感器数据和深度视频数据进行预处理；

102、利用运动历史图算法将获得深度视频处理得到深度运动历史图；

103、基于卷积神经网络和长短期记忆网络构建一个新的双通道异构神经网络；

104、利用卷积神经网络作为图像处理通道对处理得到深度运动历史图进行深度特征提取；

105、利用长短期记忆网络作为时序信号处理通道对经过预处理的时序信号进行深度特征提取，所述时序信号为惯性传感器获得的人体动作信号；

106、输出步骤104、105中获取的深度特征数据，将两个模态的深度特征通过级联的方式融合在一起；

107、将获得的特征融合数据输入分类器，从而完成人体动作具体类别的识别。

进一步的，步骤101所述预处理包括：

A1、将获取的惯性传感器数据进行数据清洗，剔除异常和冗余数据，并对数据进行归一化处理；

A2、利用关键帧提取算法对获取的深度视频保留人体运动过程中关键动作信息。

进一步的，步骤102包括：

B1、将深度视频制进行灰度化处理；

B2、将选择运动历史图算法，将处理之后的深度视频生成深度运动历史图，并对深度历史图进行伪彩色编码；

进一步的，步骤103中新的双通道异构神经网络构建包括：

C1、基于卷积神经网络构建图像特征提取网络，基于长短期记忆网络构建信号特征提取网络；

C2、将两个特征提取网络搭建在一起，构建最后的特征融合层和分类层。

本发明的有益效果为：

本发明针对居家康复锻炼的人群无法达到标准化的问题，提出一种基于异构神经网络的多模态人体动作识别模型。本发明对惯性传感器数据和深度视频数据进行预处理，减少异常数据和冗余数据影响分类结果，对惯性传感器数据进行归一化处理也可避免数据因量纲不同影响分类结果，提取深度视频关键帧数据生成新的深度视频数据，突出关键数据，减少分类模型的计算复杂度。基于卷积神经网络和长短期记忆网络模型构建了异构神经网络模型证明了其出色的分类人体动作类别的能力。

通过构建新的神经网络，其分类UTD-MHAD数据集中惯性传感器模态和深度视频模态的成功率达到了99％。实验在信号数据和图像数据特征提取方面，跳过了传统的机器学习方法，不对图像进行手动的特征选择(如信号的统计学特征提取，图像进行颜色、形状、纹理等特征提取), 而是利用神经网络逐层提取信号和图像的深层特征。并引入迁移学习的概念，提高了诊断模型的分类性能，证明本文设计的异构神经网络模型经过训练可以有效区分人体动作的具体类型。

本发明为医生的远程医疗提供参考，让患者和有需要的用户群体可以实现无监督、标准化的家庭锻炼。

附图说明

图1为本发明总流程图；

图2为实施例中人体动作信息的识别流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种如图1所示流程的基于双通道异构神经网络的多模态人体动作识别方法，包括步骤：

S1利用惯性传感器和深度相机分别获取两个模态表征的人体动作信息：惯性传感器数据和深度视频数据；

S1.1 将获取的惯性传感器数据进行数据清洗，避免异常数据影响结果，并对数据进行归一化处理，避免数据的量纲不同影响结果；

S1.2 利用关键帧提取算法对深度相机获得的深度视频进行预处理，保留人体运动过程中关键动作信息，减少分类算法的计算复杂度；

S2 利用运动历史图算法对获得深度视频进行处理，计算最优的算法参数，处理得到深度运动历史图；

S2.1 将获取的惯性传感器数据进行数据清洗，避免异常数据影响结果，并对数据进行归一化处理，避免数据的量纲不同影响结果；

S2.2 利用关键帧提取算法对深度相机获得的深度视频进行处理，保留人体运动过程中关键动作信息，减少分类算法的计算复杂度；

S3 基于卷积神经网络和长短期记忆网络构建一个新的双通道异构神经网络：

S3.1 将深度视频制进行灰度化处理；

S3.2 选择最优的运动历史图算法，将处理之后的深度视频生成深度运动历史图，并对深度历史图进行伪彩色编码，以增强其细节信息；

S4利用卷积神经网络作为图像处理通道对处理得到深度历史图进行深度特征提取；

S4.1 基于卷积神经网络构建图像特征提取网络，基于长短期记忆网络构建信号特征提取网络；

S4.2 将两个特征提取网络搭建在一起，构建最后的特征融合层和分类层；

S5 利用长短时记忆网络作为时序信号处理通道对经过预处理的时序信号进行深度特征提取；

S6 输出步骤4、5中获取的深度特征数据，将两个模态的深度特征通过级联的方式融合在一起；

S7 将获得的特征融合数据输入分类器，从而完成人体动作具体类别的识别。

如图2所示，人体动作信息被分为深度视频数据和惯性传感器数据，深度视频数据中提取关键动作信息生成运动历史图（MHI），进行灰度化处理、伪彩色编码后利用卷积神经网络VGG16对其进行特征提取；同时，惯性传感器数据也基于长短期记忆神经网络（LSTM）对其时序信号进行特征提取。

将两个特征提取网络搭建融合，最终进行分类。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于双通道异构神经网络的多模态人体动作识别方案，其特征在于：包括如下步骤：

2.根据权利要求1所述的动作分类方法，其特征在于，步骤101所述预处理包括：

3.根据权利要求1所述的动作分类方法，其特征在于，所述步骤102包括：

B1、将深度视频制进行灰度化处理；

B2、将选择运动历史图算法，将处理之后的深度视频生成深度运动历史图，并对深度历史图进行伪彩色编码。

4.根据权利要求1所述的动作分类方法，其特征在于，步骤103所述新的双通道异构神经网络构建包括：