CN112700840A - 一种基于双通道异构神经网络的多模态人体动作识别方案 - Google Patents
一种基于双通道异构神经网络的多模态人体动作识别方案 Download PDFInfo
- Publication number
- CN112700840A CN112700840A CN202110144941.2A CN202110144941A CN112700840A CN 112700840 A CN112700840 A CN 112700840A CN 202110144941 A CN202110144941 A CN 202110144941A CN 112700840 A CN112700840 A CN 112700840A
- Authority
- CN
- China
- Prior art keywords
- depth
- data
- neural network
- human body
- body action
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000009471 action Effects 0.000 title claims abstract description 25
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 17
- 238000000034 method Methods 0.000 claims abstract description 17
- 230000002159 abnormal effect Effects 0.000 claims abstract description 6
- 238000000605 extraction Methods 0.000 claims description 25
- 238000012545 processing Methods 0.000 claims description 19
- 238000013527 convolutional neural network Methods 0.000 claims description 12
- 238000004422 calculation algorithm Methods 0.000 claims description 11
- 230000004927 fusion Effects 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 8
- 230000015654 memory Effects 0.000 claims description 6
- 230000007787 long-term memory Effects 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 5
- 230000006403 short-term memory Effects 0.000 claims description 5
- 238000004140 cleaning Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 abstract description 4
- 238000013145 classification model Methods 0.000 abstract description 2
- 239000000284 extract Substances 0.000 abstract description 2
- 206010061296 Motor dysfunction Diseases 0.000 description 2
- 238000007635 classification algorithm Methods 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 230000007659 motor function Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 210000001364 upper extremity Anatomy 0.000 description 2
- 208000024172 Cardiovascular disease Diseases 0.000 description 1
- 208000032382 Ischaemic stroke Diseases 0.000 description 1
- 208000006011 Stroke Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 208000026106 cerebrovascular disease Diseases 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000002526 effect on cardiovascular system Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H20/00—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
- G16H20/30—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to physical therapies or activities, e.g. physiotherapy, acupressure or exercising
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/08—Feature extraction
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Multimedia (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Physical Education & Sports Medicine (AREA)
- Epidemiology (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Image Analysis (AREA)
Abstract
本发明针对居家康复锻炼的人群无法达到标准化的问题提出一种基于双通道异构神经网络的多模态人体动作识别方案,利用惯性传感器和深度相机分别捕捉待处理的人体动作过程的惯性传感器数据和深度视频数据,再利用卷积神经网络、长短期记忆网络分别对深度运动历史图和时序信号进行深度特征提取,将两个模态的深度特征通过级联的方式融合在一起,获得的特征融合数据输入分类器,从而完成人体动作具体类别的识别。本发明减少了异常数据和冗余数据对分类结果的影响,提取深度视频关键帧数据生成新的深度视频数据,突出关键数据,减少分类模型的计算复杂度,可以有效区分人体动作的具体类型,让用户可以实现无监督、标准化的家庭锻炼。
Description
技术领域
本发明属于智慧医疗的无监督康复锻炼领域,尤其涉及一种基于双通道异构神经网络的多模态人体动作识别方法。
背景技术
一些年长者、或致残率较高的心脑血管疾病患者在治愈之后,往往会伴随不同程度的上肢运动功能障碍,例如,30%~66%的缺血性脑卒中患者在6个月之后上肢运动功能仍不能康复,另一方面却有研究表明,脑卒中患者在发病后进行长期规范化的康复锻炼能够有效缓解患者运动功能障碍问题。运动功能恢复是一个长期而缓慢的过程,漫长的医院治疗给患者的家庭造成巨大的负担,但是居家环境下的康复锻炼缺乏规范化导致话费的金钱和时间事倍功半。如今,计算机技术可以进行远程监督锻炼,但通过计算机进行人体动作识别面临的技术问题主要是多模态的特征融合和动作类型的识别。
在多模态特征融合中,研究重点主要集中在设计新的特征提取和融合方案以实现不同模态的特征融合,来实现信息互补,如惯性传感器和深度视频模态的融合。目前普通的特征提取方案如HOG特征和Gabor特征都受到类内差异和类间相似问题的困扰,深度特征则会遇到与其他特征难以融合的问题。对于分类识别,选择许多经典分类器用于诊断,例如支持向量机(SVM),随机森林(RF),卷积神经网络(CNN),但是每个分类器都需要分别对应自己合适的分类对象。
不同模态和不同类别的人体动作信息的载体不同,动作的相似度较大,单一模态的特征提取-分类器识别模型难以取得较好的分类效果,且不适应无监督锻炼的家居环境。
发明内容
为了解决上述问题,本发明采用以下技术方案。
一种基于双通道异构神经网络的多模态人体动作识别方案,包括如下步骤:
101、利用惯性传感器和深度相机分别捕捉待处理的人体动作过程的惯性传感器数据和深度视频数据,对获取的所述惯性传感器数据和深度视频数据进行预处理;
102、利用运动历史图算法将获得深度视频处理得到深度运动历史图;
103、基于卷积神经网络和长短期记忆网络构建一个新的双通道异构神经网络;
104、利用卷积神经网络作为图像处理通道对处理得到深度运动历史图进行深度特征提取;
105、利用长短期记忆网络作为时序信号处理通道对经过预处理的时序信号进行深度特征提取,所述时序信号为惯性传感器获得的人体动作信号;
106、输出步骤104、105中获取的深度特征数据,将两个模态的深度特征通过级联的方式融合在一起;
107、将获得的特征融合数据输入分类器,从而完成人体动作具体类别的识别。
进一步的,步骤101所述预处理包括:
A1、将获取的惯性传感器数据进行数据清洗,剔除异常和冗余数据,并对数据进行归一化处理;
A2、利用关键帧提取算法对获取的深度视频保留人体运动过程中关键动作信息。
进一步的,步骤102包括:
B1、将深度视频制进行灰度化处理;
B2、将选择运动历史图算法,将处理之后的深度视频生成深度运动历史图,并对深度历史图进行伪彩色编码;
进一步的,步骤103中新的双通道异构神经网络构建包括:
C1、基于卷积神经网络构建图像特征提取网络,基于长短期记忆网络构建信号特征提取网络;
C2、将两个特征提取网络搭建在一起,构建最后的特征融合层和分类层。
本发明的有益效果为:
本发明针对居家康复锻炼的人群无法达到标准化的问题,提出一种基于异构神经网络的多模态人体动作识别模型。本发明对惯性传感器数据和深度视频数据进行预处理,减少异常数据和冗余数据影响分类结果,对惯性传感器数据进行归一化处理也可避免数据因量纲不同影响分类结果,提取深度视频关键帧数据生成新的深度视频数据,突出关键数据,减少分类模型的计算复杂度。基于卷积神经网络和长短期记忆网络模型构建了异构神经网络模型证明了其出色的分类人体动作类别的能力。
通过构建新的神经网络,其分类UTD-MHAD数据集中惯性传感器模态和深度视频模态的成功率达到了99%。实验在信号数据和图像数据特征提取方面,跳过了传统的机器学习方法,不对图像进行手动的特征选择(如信号的统计学特征提取,图像进行颜色、形状、纹理等特征提取), 而是利用神经网络逐层提取信号和图像的深层特征。并引入迁移学习的概念,提高了诊断模型的分类性能,证明本文设计的异构神经网络模型经过训练可以有效区分人体动作的具体类型。
本发明为医生的远程医疗提供参考,让患者和有需要的用户群体可以实现无监督、标准化的家庭锻炼。
附图说明
图1为本发明总流程图;
图2为实施例中人体动作信息的识别流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种如图1所示流程的基于双通道异构神经网络的多模态人体动作识别方法,包括步骤:
S1利用惯性传感器和深度相机分别获取两个模态表征的人体动作信息:惯性传感器数据和深度视频数据;
S1.1 将获取的惯性传感器数据进行数据清洗,避免异常数据影响结果,并对数据进行归一化处理,避免数据的量纲不同影响结果;
S1.2 利用关键帧提取算法对深度相机获得的深度视频进行预处理,保留人体运动过程中关键动作信息,减少分类算法的计算复杂度;
S2 利用运动历史图算法对获得深度视频进行处理,计算最优的算法参数,处理得到深度运动历史图;
S2.1 将获取的惯性传感器数据进行数据清洗,避免异常数据影响结果,并对数据进行归一化处理,避免数据的量纲不同影响结果;
S2.2 利用关键帧提取算法对深度相机获得的深度视频进行处理,保留人体运动过程中关键动作信息,减少分类算法的计算复杂度;
S3 基于卷积神经网络和长短期记忆网络构建一个新的双通道异构神经网络:
S3.1 将深度视频制进行灰度化处理;
S3.2 选择最优的运动历史图算法,将处理之后的深度视频生成深度运动历史图,并对深度历史图进行伪彩色编码,以增强其细节信息;
S4利用卷积神经网络作为图像处理通道对处理得到深度历史图进行深度特征提取;
S4.1 基于卷积神经网络构建图像特征提取网络,基于长短期记忆网络构建信号特征提取网络;
S4.2 将两个特征提取网络搭建在一起,构建最后的特征融合层和分类层;
S5 利用长短时记忆网络作为时序信号处理通道对经过预处理的时序信号进行深度特征提取;
S6 输出步骤4、5中获取的深度特征数据,将两个模态的深度特征通过级联的方式融合在一起;
S7 将获得的特征融合数据输入分类器,从而完成人体动作具体类别的识别。
如图2所示,人体动作信息被分为深度视频数据和惯性传感器数据,深度视频数据中提取关键动作信息生成运动历史图(MHI),进行灰度化处理、伪彩色编码后利用卷积神经网络VGG16对其进行特征提取;同时,惯性传感器数据也基于长短期记忆神经网络(LSTM)对其时序信号进行特征提取。
将两个特征提取网络搭建融合,最终进行分类。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种基于双通道异构神经网络的多模态人体动作识别方案,其特征在于:包括如下步骤:
101、利用惯性传感器和深度相机分别捕捉待处理的人体动作过程的惯性传感器数据和深度视频数据,对获取的所述惯性传感器数据和深度视频数据进行预处理;
102、利用运动历史图算法将获得深度视频处理得到深度运动历史图;
103、基于卷积神经网络和长短期记忆网络构建一个新的双通道异构神经网络;
104、利用卷积神经网络作为图像处理通道对处理得到深度运动历史图进行深度特征提取;
105、利用长短期记忆网络作为时序信号处理通道对经过预处理的时序信号进行深度特征提取,所述时序信号为惯性传感器获得的人体动作信号;
106、输出步骤104、105中获取的深度特征数据,将两个模态的深度特征通过级联的方式融合在一起;
107、将获得的特征融合数据输入分类器,从而完成人体动作具体类别的识别。
2.根据权利要求1所述的动作分类方法,其特征在于,步骤101所述预处理包括:
A1、将获取的惯性传感器数据进行数据清洗,剔除异常和冗余数据,并对数据进行归一化处理;
A2、利用关键帧提取算法对获取的深度视频保留人体运动过程中关键动作信息。
3.根据权利要求1所述的动作分类方法,其特征在于,所述步骤102包括:
B1、将深度视频制进行灰度化处理;
B2、将选择运动历史图算法,将处理之后的深度视频生成深度运动历史图,并对深度历史图进行伪彩色编码。
4.根据权利要求1所述的动作分类方法,其特征在于,步骤103所述新的双通道异构神经网络构建包括:
C1、基于卷积神经网络构建图像特征提取网络,基于长短期记忆网络构建信号特征提取网络;
C2、将两个特征提取网络搭建在一起,构建最后的特征融合层和分类层。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110144941.2A CN112700840A (zh) | 2021-02-03 | 2021-02-03 | 一种基于双通道异构神经网络的多模态人体动作识别方案 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110144941.2A CN112700840A (zh) | 2021-02-03 | 2021-02-03 | 一种基于双通道异构神经网络的多模态人体动作识别方案 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112700840A true CN112700840A (zh) | 2021-04-23 |
Family
ID=75516545
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110144941.2A Pending CN112700840A (zh) | 2021-02-03 | 2021-02-03 | 一种基于双通道异构神经网络的多模态人体动作识别方案 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112700840A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113221726A (zh) * | 2021-05-08 | 2021-08-06 | 天津大学 | 一种基于视觉与惯性信息融合的手部姿态估计方法及系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111209434A (zh) * | 2020-01-09 | 2020-05-29 | 国网江苏省电力有限公司徐州供电分公司 | 一种基于多源异构数据融合的变电站设备巡检系统及方法 |
-
2021
- 2021-02-03 CN CN202110144941.2A patent/CN112700840A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111209434A (zh) * | 2020-01-09 | 2020-05-29 | 国网江苏省电力有限公司徐州供电分公司 | 一种基于多源异构数据融合的变电站设备巡检系统及方法 |
Non-Patent Citations (4)
Title |
---|
刘强;张文英;陈恩庆: ""基于异构多流网络的多模态人体动作识别"", 《信号处理》, vol. 36, no. 9, 15 September 2020 (2020-09-15), pages 1422 - 1428 * |
滕千礼;A.ESMAEILI KELISHOMI;蔡忠闽;: "采用运动传感器的人体运动识别深度模型", 西安交通大学学报, no. 08, 22 June 2018 (2018-06-22) * |
罗会兰;童康;孔繁胜;: "基于深度学习的视频中人体动作识别进展综述", 电子学报, no. 05, 15 May 2019 (2019-05-15) * |
邢蒙蒙、魏国辉、刘静等: ""多模态人体动作表示识别及其正骨康复训练应用综述"", 《生物医学工程学杂志》, vol. 37, no. 1, 29 February 2020 (2020-02-29), pages 174 - 178 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113221726A (zh) * | 2021-05-08 | 2021-08-06 | 天津大学 | 一种基于视觉与惯性信息融合的手部姿态估计方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liao et al. | A deep learning framework for assessing physical rehabilitation exercises | |
Han et al. | A survey on visual transformer | |
Kim et al. | Efficient facial expression recognition algorithm based on hierarchical deep neural network structure | |
CN106919903B (zh) | 一种鲁棒的基于深度学习的连续情绪跟踪方法 | |
Abdullah et al. | Facial expression recognition based on deep learning convolution neural network: A review | |
CN109190566B (zh) | 一种融合局部编码与cnn模型手指静脉识别方法 | |
CN103605972B (zh) | 一种基于分块深度神经网络的非限制环境人脸验证方法 | |
Barros et al. | Real-time gesture recognition using a humanoid robot with a deep neural architecture | |
CN106529504B (zh) | 一种复合时空特征的双模态视频情感识别方法 | |
Jalal et al. | Daily human activity recognition using depth silhouettes and transformation for smart home | |
Chen et al. | Automated pain detection from facial expressions using facs: A review | |
Cheng et al. | Visual speaker authentication with random prompt texts by a dual-task CNN framework | |
CN114550057A (zh) | 一种基于多模态表示学习的视频情绪识别方法 | |
Maruyama et al. | Word-level sign language recognition with multi-stream neural networks focusing on local regions | |
Ahammad et al. | Recognizing Bengali sign language gestures for digits in real time using convolutional neural network | |
CN113159002B (zh) | 一种基于自注意力权重辅助模块的人脸表情识别方法 | |
CN112700840A (zh) | 一种基于双通道异构神经网络的多模态人体动作识别方案 | |
Sarin et al. | Cnn-based multimodal touchless biometric recognition system using gait and speech | |
Minu | A extensive survey on sign language recognition methods | |
Aslam et al. | Gender classification based on isolated facial features and foggy faces using jointly trained deep convolutional neural network | |
CN110135253B (zh) | 一种基于长期递归卷积神经网络的手指静脉认证方法 | |
Semwal et al. | Automated facial expression based pain assessment using deep convolutional neural network | |
Liu et al. | Two-Channel feature extraction convolutional neural network for facial expression recognition | |
CN112990123B (zh) | 图像处理方法、装置、计算机设备和介质 | |
Zhou | The application of machine learning in activity recognition with healthy older people using a batteryless wearable sensor |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |