CN112700840A - 一种基于双通道异构神经网络的多模态人体动作识别方案 - Google Patents

一种基于双通道异构神经网络的多模态人体动作识别方案 Download PDF

Info

Publication number
CN112700840A
CN112700840A CN202110144941.2A CN202110144941A CN112700840A CN 112700840 A CN112700840 A CN 112700840A CN 202110144941 A CN202110144941 A CN 202110144941A CN 112700840 A CN112700840 A CN 112700840A
Authority
CN
China
Prior art keywords
depth
data
neural network
human body
body action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110144941.2A
Other languages
English (en)
Inventor
邢蒙蒙
曹慧
张俊忠
魏德健
刘静
杨锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University of Traditional Chinese Medicine
Original Assignee
Shandong University of Traditional Chinese Medicine
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University of Traditional Chinese Medicine filed Critical Shandong University of Traditional Chinese Medicine
Priority to CN202110144941.2A priority Critical patent/CN112700840A/zh
Publication of CN112700840A publication Critical patent/CN112700840A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/30ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to physical therapies or activities, e.g. physiotherapy, acupressure or exercising
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/08Feature extraction

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Multimedia (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Physical Education & Sports Medicine (AREA)
  • Epidemiology (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Image Analysis (AREA)

Abstract

本发明针对居家康复锻炼的人群无法达到标准化的问题提出一种基于双通道异构神经网络的多模态人体动作识别方案,利用惯性传感器和深度相机分别捕捉待处理的人体动作过程的惯性传感器数据和深度视频数据,再利用卷积神经网络、长短期记忆网络分别对深度运动历史图和时序信号进行深度特征提取,将两个模态的深度特征通过级联的方式融合在一起,获得的特征融合数据输入分类器,从而完成人体动作具体类别的识别。本发明减少了异常数据和冗余数据对分类结果的影响,提取深度视频关键帧数据生成新的深度视频数据,突出关键数据,减少分类模型的计算复杂度,可以有效区分人体动作的具体类型,让用户可以实现无监督、标准化的家庭锻炼。

Description

一种基于双通道异构神经网络的多模态人体动作识别方案
技术领域
本发明属于智慧医疗的无监督康复锻炼领域,尤其涉及一种基于双通道异构神经网络的多模态人体动作识别方法。
背景技术
一些年长者、或致残率较高的心脑血管疾病患者在治愈之后,往往会伴随不同程度的上肢运动功能障碍,例如,30%~66%的缺血性脑卒中患者在6个月之后上肢运动功能仍不能康复,另一方面却有研究表明,脑卒中患者在发病后进行长期规范化的康复锻炼能够有效缓解患者运动功能障碍问题。运动功能恢复是一个长期而缓慢的过程,漫长的医院治疗给患者的家庭造成巨大的负担,但是居家环境下的康复锻炼缺乏规范化导致话费的金钱和时间事倍功半。如今,计算机技术可以进行远程监督锻炼,但通过计算机进行人体动作识别面临的技术问题主要是多模态的特征融合和动作类型的识别。
在多模态特征融合中,研究重点主要集中在设计新的特征提取和融合方案以实现不同模态的特征融合,来实现信息互补,如惯性传感器和深度视频模态的融合。目前普通的特征提取方案如HOG特征和Gabor特征都受到类内差异和类间相似问题的困扰,深度特征则会遇到与其他特征难以融合的问题。对于分类识别,选择许多经典分类器用于诊断,例如支持向量机(SVM),随机森林(RF),卷积神经网络(CNN),但是每个分类器都需要分别对应自己合适的分类对象。
不同模态和不同类别的人体动作信息的载体不同,动作的相似度较大,单一模态的特征提取-分类器识别模型难以取得较好的分类效果,且不适应无监督锻炼的家居环境。
发明内容
为了解决上述问题,本发明采用以下技术方案。
一种基于双通道异构神经网络的多模态人体动作识别方案,包括如下步骤:
101、利用惯性传感器和深度相机分别捕捉待处理的人体动作过程的惯性传感器数据和深度视频数据,对获取的所述惯性传感器数据和深度视频数据进行预处理;
102、利用运动历史图算法将获得深度视频处理得到深度运动历史图;
103、基于卷积神经网络和长短期记忆网络构建一个新的双通道异构神经网络;
104、利用卷积神经网络作为图像处理通道对处理得到深度运动历史图进行深度特征提取;
105、利用长短期记忆网络作为时序信号处理通道对经过预处理的时序信号进行深度特征提取,所述时序信号为惯性传感器获得的人体动作信号;
106、输出步骤104、105中获取的深度特征数据,将两个模态的深度特征通过级联的方式融合在一起;
107、将获得的特征融合数据输入分类器,从而完成人体动作具体类别的识别。
进一步的,步骤101所述预处理包括:
A1、将获取的惯性传感器数据进行数据清洗,剔除异常和冗余数据,并对数据进行归一化处理;
A2、利用关键帧提取算法对获取的深度视频保留人体运动过程中关键动作信息。
进一步的,步骤102包括:
B1、将深度视频制进行灰度化处理;
B2、将选择运动历史图算法,将处理之后的深度视频生成深度运动历史图,并对深度历史图进行伪彩色编码;
进一步的,步骤103中新的双通道异构神经网络构建包括:
C1、基于卷积神经网络构建图像特征提取网络,基于长短期记忆网络构建信号特征提取网络;
C2、将两个特征提取网络搭建在一起,构建最后的特征融合层和分类层。
本发明的有益效果为:
本发明针对居家康复锻炼的人群无法达到标准化的问题,提出一种基于异构神经网络的多模态人体动作识别模型。本发明对惯性传感器数据和深度视频数据进行预处理,减少异常数据和冗余数据影响分类结果,对惯性传感器数据进行归一化处理也可避免数据因量纲不同影响分类结果,提取深度视频关键帧数据生成新的深度视频数据,突出关键数据,减少分类模型的计算复杂度。基于卷积神经网络和长短期记忆网络模型构建了异构神经网络模型证明了其出色的分类人体动作类别的能力。
通过构建新的神经网络,其分类UTD-MHAD数据集中惯性传感器模态和深度视频模态的成功率达到了99%。实验在信号数据和图像数据特征提取方面,跳过了传统的机器学习方法,不对图像进行手动的特征选择(如信号的统计学特征提取,图像进行颜色、形状、纹理等特征提取), 而是利用神经网络逐层提取信号和图像的深层特征。并引入迁移学习的概念,提高了诊断模型的分类性能,证明本文设计的异构神经网络模型经过训练可以有效区分人体动作的具体类型。
本发明为医生的远程医疗提供参考,让患者和有需要的用户群体可以实现无监督、标准化的家庭锻炼。
附图说明
图1为本发明总流程图;
图2为实施例中人体动作信息的识别流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种如图1所示流程的基于双通道异构神经网络的多模态人体动作识别方法,包括步骤:
S1利用惯性传感器和深度相机分别获取两个模态表征的人体动作信息:惯性传感器数据和深度视频数据;
S1.1 将获取的惯性传感器数据进行数据清洗,避免异常数据影响结果,并对数据进行归一化处理,避免数据的量纲不同影响结果;
S1.2 利用关键帧提取算法对深度相机获得的深度视频进行预处理,保留人体运动过程中关键动作信息,减少分类算法的计算复杂度;
S2 利用运动历史图算法对获得深度视频进行处理,计算最优的算法参数,处理得到深度运动历史图;
S2.1 将获取的惯性传感器数据进行数据清洗,避免异常数据影响结果,并对数据进行归一化处理,避免数据的量纲不同影响结果;
S2.2 利用关键帧提取算法对深度相机获得的深度视频进行处理,保留人体运动过程中关键动作信息,减少分类算法的计算复杂度;
S3 基于卷积神经网络和长短期记忆网络构建一个新的双通道异构神经网络:
S3.1 将深度视频制进行灰度化处理;
S3.2 选择最优的运动历史图算法,将处理之后的深度视频生成深度运动历史图,并对深度历史图进行伪彩色编码,以增强其细节信息;
S4利用卷积神经网络作为图像处理通道对处理得到深度历史图进行深度特征提取;
S4.1 基于卷积神经网络构建图像特征提取网络,基于长短期记忆网络构建信号特征提取网络;
S4.2 将两个特征提取网络搭建在一起,构建最后的特征融合层和分类层;
S5 利用长短时记忆网络作为时序信号处理通道对经过预处理的时序信号进行深度特征提取;
S6 输出步骤4、5中获取的深度特征数据,将两个模态的深度特征通过级联的方式融合在一起;
S7 将获得的特征融合数据输入分类器,从而完成人体动作具体类别的识别。
如图2所示,人体动作信息被分为深度视频数据和惯性传感器数据,深度视频数据中提取关键动作信息生成运动历史图(MHI),进行灰度化处理、伪彩色编码后利用卷积神经网络VGG16对其进行特征提取;同时,惯性传感器数据也基于长短期记忆神经网络(LSTM)对其时序信号进行特征提取。
将两个特征提取网络搭建融合,最终进行分类。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种基于双通道异构神经网络的多模态人体动作识别方案,其特征在于:包括如下步骤:
101、利用惯性传感器和深度相机分别捕捉待处理的人体动作过程的惯性传感器数据和深度视频数据,对获取的所述惯性传感器数据和深度视频数据进行预处理;
102、利用运动历史图算法将获得深度视频处理得到深度运动历史图;
103、基于卷积神经网络和长短期记忆网络构建一个新的双通道异构神经网络;
104、利用卷积神经网络作为图像处理通道对处理得到深度运动历史图进行深度特征提取;
105、利用长短期记忆网络作为时序信号处理通道对经过预处理的时序信号进行深度特征提取,所述时序信号为惯性传感器获得的人体动作信号;
106、输出步骤104、105中获取的深度特征数据,将两个模态的深度特征通过级联的方式融合在一起;
107、将获得的特征融合数据输入分类器,从而完成人体动作具体类别的识别。
2.根据权利要求1所述的动作分类方法,其特征在于,步骤101所述预处理包括:
A1、将获取的惯性传感器数据进行数据清洗,剔除异常和冗余数据,并对数据进行归一化处理;
A2、利用关键帧提取算法对获取的深度视频保留人体运动过程中关键动作信息。
3.根据权利要求1所述的动作分类方法,其特征在于,所述步骤102包括:
B1、将深度视频制进行灰度化处理;
B2、将选择运动历史图算法,将处理之后的深度视频生成深度运动历史图,并对深度历史图进行伪彩色编码。
4.根据权利要求1所述的动作分类方法,其特征在于,步骤103所述新的双通道异构神经网络构建包括:
C1、基于卷积神经网络构建图像特征提取网络,基于长短期记忆网络构建信号特征提取网络;
C2、将两个特征提取网络搭建在一起,构建最后的特征融合层和分类层。
CN202110144941.2A 2021-02-03 2021-02-03 一种基于双通道异构神经网络的多模态人体动作识别方案 Pending CN112700840A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110144941.2A CN112700840A (zh) 2021-02-03 2021-02-03 一种基于双通道异构神经网络的多模态人体动作识别方案

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110144941.2A CN112700840A (zh) 2021-02-03 2021-02-03 一种基于双通道异构神经网络的多模态人体动作识别方案

Publications (1)

Publication Number Publication Date
CN112700840A true CN112700840A (zh) 2021-04-23

Family

ID=75516545

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110144941.2A Pending CN112700840A (zh) 2021-02-03 2021-02-03 一种基于双通道异构神经网络的多模态人体动作识别方案

Country Status (1)

Country Link
CN (1) CN112700840A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113221726A (zh) * 2021-05-08 2021-08-06 天津大学 一种基于视觉与惯性信息融合的手部姿态估计方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111209434A (zh) * 2020-01-09 2020-05-29 国网江苏省电力有限公司徐州供电分公司 一种基于多源异构数据融合的变电站设备巡检系统及方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111209434A (zh) * 2020-01-09 2020-05-29 国网江苏省电力有限公司徐州供电分公司 一种基于多源异构数据融合的变电站设备巡检系统及方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
刘强;张文英;陈恩庆: ""基于异构多流网络的多模态人体动作识别"", 《信号处理》, vol. 36, no. 9, 15 September 2020 (2020-09-15), pages 1422 - 1428 *
滕千礼;A.ESMAEILI KELISHOMI;蔡忠闽;: "采用运动传感器的人体运动识别深度模型", 西安交通大学学报, no. 08, 22 June 2018 (2018-06-22) *
罗会兰;童康;孔繁胜;: "基于深度学习的视频中人体动作识别进展综述", 电子学报, no. 05, 15 May 2019 (2019-05-15) *
邢蒙蒙、魏国辉、刘静等: ""多模态人体动作表示识别及其正骨康复训练应用综述"", 《生物医学工程学杂志》, vol. 37, no. 1, 29 February 2020 (2020-02-29), pages 174 - 178 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113221726A (zh) * 2021-05-08 2021-08-06 天津大学 一种基于视觉与惯性信息融合的手部姿态估计方法及系统

Similar Documents

Publication Publication Date Title
Liao et al. A deep learning framework for assessing physical rehabilitation exercises
Han et al. A survey on visual transformer
Kim et al. Efficient facial expression recognition algorithm based on hierarchical deep neural network structure
CN106919903B (zh) 一种鲁棒的基于深度学习的连续情绪跟踪方法
Abdullah et al. Facial expression recognition based on deep learning convolution neural network: A review
CN109190566B (zh) 一种融合局部编码与cnn模型手指静脉识别方法
CN103605972B (zh) 一种基于分块深度神经网络的非限制环境人脸验证方法
Barros et al. Real-time gesture recognition using a humanoid robot with a deep neural architecture
CN106529504B (zh) 一种复合时空特征的双模态视频情感识别方法
Jalal et al. Daily human activity recognition using depth silhouettes and transformation for smart home
Chen et al. Automated pain detection from facial expressions using facs: A review
Cheng et al. Visual speaker authentication with random prompt texts by a dual-task CNN framework
CN114550057A (zh) 一种基于多模态表示学习的视频情绪识别方法
Maruyama et al. Word-level sign language recognition with multi-stream neural networks focusing on local regions
Ahammad et al. Recognizing Bengali sign language gestures for digits in real time using convolutional neural network
CN113159002B (zh) 一种基于自注意力权重辅助模块的人脸表情识别方法
CN112700840A (zh) 一种基于双通道异构神经网络的多模态人体动作识别方案
Sarin et al. Cnn-based multimodal touchless biometric recognition system using gait and speech
Minu A extensive survey on sign language recognition methods
Aslam et al. Gender classification based on isolated facial features and foggy faces using jointly trained deep convolutional neural network
CN110135253B (zh) 一种基于长期递归卷积神经网络的手指静脉认证方法
Semwal et al. Automated facial expression based pain assessment using deep convolutional neural network
Liu et al. Two-Channel feature extraction convolutional neural network for facial expression recognition
CN112990123B (zh) 图像处理方法、装置、计算机设备和介质
Zhou The application of machine learning in activity recognition with healthy older people using a batteryless wearable sensor

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination