CN111126280B - 基于融合手势识别的失语症患者辅助康复训练系统及方法 - Google Patents
基于融合手势识别的失语症患者辅助康复训练系统及方法 Download PDFInfo
- Publication number
- CN111126280B CN111126280B CN201911352287.3A CN201911352287A CN111126280B CN 111126280 B CN111126280 B CN 111126280B CN 201911352287 A CN201911352287 A CN 201911352287A CN 111126280 B CN111126280 B CN 111126280B
- Authority
- CN
- China
- Prior art keywords
- training
- yolov2
- neural network
- convolutional neural
- patient
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/107—Static hand or arm
- G06V40/113—Recognition of static hand signs
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61M—DEVICES FOR INTRODUCING MEDIA INTO, OR ONTO, THE BODY; DEVICES FOR TRANSDUCING BODY MEDIA OR FOR TAKING MEDIA FROM THE BODY; DEVICES FOR PRODUCING OR ENDING SLEEP OR STUPOR
- A61M21/00—Other devices or methods to cause a change in the state of consciousness; Devices for producing or ending sleep by mechanical, optical, or acoustical means, e.g. for hypnosis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/017—Gesture based interaction, e.g. based on a set of recognized hand gestures
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H20/00—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
- G16H20/30—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to physical therapies or activities, e.g. physiotherapy, acupressure or exercising
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61M—DEVICES FOR INTRODUCING MEDIA INTO, OR ONTO, THE BODY; DEVICES FOR TRANSDUCING BODY MEDIA OR FOR TAKING MEDIA FROM THE BODY; DEVICES FOR PRODUCING OR ENDING SLEEP OR STUPOR
- A61M21/00—Other devices or methods to cause a change in the state of consciousness; Devices for producing or ending sleep by mechanical, optical, or acoustical means, e.g. for hypnosis
- A61M2021/0005—Other devices or methods to cause a change in the state of consciousness; Devices for producing or ending sleep by mechanical, optical, or acoustical means, e.g. for hypnosis by the use of a particular sense, or stimulus
- A61M2021/0027—Other devices or methods to cause a change in the state of consciousness; Devices for producing or ending sleep by mechanical, optical, or acoustical means, e.g. for hypnosis by the use of a particular sense, or stimulus by the hearing sense
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61M—DEVICES FOR INTRODUCING MEDIA INTO, OR ONTO, THE BODY; DEVICES FOR TRANSDUCING BODY MEDIA OR FOR TAKING MEDIA FROM THE BODY; DEVICES FOR PRODUCING OR ENDING SLEEP OR STUPOR
- A61M21/00—Other devices or methods to cause a change in the state of consciousness; Devices for producing or ending sleep by mechanical, optical, or acoustical means, e.g. for hypnosis
- A61M2021/0005—Other devices or methods to cause a change in the state of consciousness; Devices for producing or ending sleep by mechanical, optical, or acoustical means, e.g. for hypnosis by the use of a particular sense, or stimulus
- A61M2021/0044—Other devices or methods to cause a change in the state of consciousness; Devices for producing or ending sleep by mechanical, optical, or acoustical means, e.g. for hypnosis by the use of a particular sense, or stimulus by the sight sense
- A61M2021/005—Other devices or methods to cause a change in the state of consciousness; Devices for producing or ending sleep by mechanical, optical, or acoustical means, e.g. for hypnosis by the use of a particular sense, or stimulus by the sight sense images, e.g. video
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Public Health (AREA)
- Human Computer Interaction (AREA)
- Evolutionary Biology (AREA)
- Artificial Intelligence (AREA)
- Medical Informatics (AREA)
- Acoustics & Sound (AREA)
- Epidemiology (AREA)
- Biophysics (AREA)
- Multimedia (AREA)
- Primary Health Care (AREA)
- Probability & Statistics with Applications (AREA)
- Physical Education & Sports Medicine (AREA)
- Psychology (AREA)
- Anesthesiology (AREA)
- Biomedical Technology (AREA)
- Heart & Thoracic Surgery (AREA)
- Hematology (AREA)
- Animal Behavior & Ethology (AREA)
- Veterinary Medicine (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于融合手势识别的失语症患者辅助康复训练系统,包括:嵌入式计算平台:包括物体检测和手势识别单元、康复训练与用户交互单元和训练结果评估单元;场景摄像头;用户监控摄像头;显示屏:用于显示前端交互界面并与使用者进行交互;语音模块:用于合成并播放训练指令语音;外部电源:用于整套训练系统的供电;所述嵌入式计算平台分别与场景摄像头、用户监控摄像头、语音模块、显示器和外部电源连接。本发明还提供一种基于融合手势识别的失语症患者辅助康复训练方法,该训练系统及方法具有良好的贴近患者现实生活的能力和部署的方便性,极大地满足了日益增长的失语症康复训练需求,提高了失语症患者人群的康复训练效果。
Description
技术领域
本发明涉及计算机视觉与康复医学技术领域,更具体地说,涉及一种基于融合手势识别的失语症患者辅助康复训练系统及方法。
背景技术
近年来,随着计算机科学技术的发展,在新的智能技术方法深度学习的巨大推动下,人工智能的各项技术,譬如语音识别技术、图像识别技术、数据挖掘技术等都有了实质性的发展并且成功地应用在多项产品中。深度学习是目前计算机视觉领域研究的重点和热点,也是解决复杂环境问题中常用的方法之一。计算机视觉作为人类科学技术发展历史上的一个里程碑,对智能技术的发展起到举足轻重的作用,毋庸置疑地受到了学术界以及工业界的广泛关注。在现有的深度学习方法中,神经网络在目标检测方面取得了很好的成果。
目前,在市面上出现的计算机辅助失语症患者康复训练系统,主要还是将传统训练项目的内容制作成训练题库,通过医生辅助患者答题并评分的形式完成康复训练,训练题目枯燥单一,使得许多患者没有进行康复训练的兴趣;此外,市面上并没有家用辅助训练系统出现,训练过程需要在专门的康复治疗科室中进行,并且由医师主导,对众多有康复训练需求的患者相当不便。
当前利用计算机视觉技术帮助失语症患者进行康复训练的智能系统尚未成熟,主要原因其一是目前应用在在失语症康复医学上的计算机视觉技术甚少,尚未有人探索过两者之间结合的应用;其二是受限于计算能力的限制,基于深度学习的物体检测技术在实际生活中落地应用比较困难,比较依赖于云端计算支持;目前已有部分微型目标检测网络取得跟常用目标检测网络相近的准确度与精确度,但是所需的计算资源已大幅减小,这使得在低功耗且价格便宜的嵌入式计算设备中部署深度神经网络成为可能。
发明内容
本发明的目的在于克服现有技术中的缺点与不足,提供一种基于融合手势识别的失语症患者辅助康复训练系统及方法,该训练系统及方法具有良好的贴近患者现实生活的能力和部署的方便性,极大地满足了日益增长的失语症康复训练需求,提高了失语症患者人群的康复训练效果。
为了达到上述目的,本发明通过下述技术方案予以实现:一种基于融合手势识别的失语症患者辅助康复训练系统,其特征在于:包括:
嵌入式计算平台:用于部署本系统的软件,并包括物体检测和手势识别单元、康复训练与用户交互单元和训练结果评估单元;
场景摄像头:用于采集场景RGB图像输入到嵌入式计算平台;
用户监控摄像头:用于采集用户手势RGB图像及输入到嵌入式计算平台;
显示屏:用于显示前端交互界面并与使用者进行交互;
语音模块:用于合成并播放训练指令语音;
外部电源:用于整套训练系统的供电;
所述嵌入式计算平台分别与场景摄像头、用户监控摄像头、语音模块、显示器和外部电源连接;
所述物体检测和手势识别单元为:使用整理的数据集对Yolov2卷积神经网络进行训练,得到训练好的Yolov2卷积神经网络,通过训练好的Yolov2卷积神经网络实现康复训练场景中的目标检测以供训练内容提取,以及实现患者手势的识别;
所述康复训练与用户交互单元为:处理物体检测和手势识别单元识别结果和用户数据,从现实场景中提取并智能生成康复训练计划和康复训练内容,其包括训练计划生成模块、训练内容生成模块、训练过程维持模块和用户交互模块。
所述训练结果评估单元为:利用训练过程维持模块获取的训练时间、配合专家决策判断患者训练效果。
所述训练计划生成模块为:负责患者的康复训练计划的生成和后续处理;所述训练内容生成模块为:负责动态生成训练内容;所述训练过程维持模块为:用于训练过程的引导和监督。
一种基于融合手势识别的失语症患者辅助康复训练方法,其特征在于:包括以下步骤:
S101,确定康复训练计划后,开启一个训练周期:首先从场景摄像头获取场景图像,输入Yolov2卷积神经网络,则获得场景中的目标物体类别和位置信息,融合颜色信息后输入随机森林获得康复训练内容输出;通过用户交互模块向患者传达训练指令;如果Yolov2卷积神经网络的输出不足以生成训练内容,则重复步骤S101;
S102,确定训练内容后,在训练周期中,不断从用户监控摄像头中获取图像,并输入Yolov2卷积神经网络中,获得患者的手势信息和患者周边的物体类别和位置信息与本训练周期的训练指令相匹配;如果训练内容为发音训练,则从语音模块获取识别到患者发音的词汇内容,匹配发音指令,判断患者的指令执行情况;
S103,如果患者发音错误、动作错误或移动的物品错误导致无法完成训练指令,则重复训练指令若干次,直到达到重复次数上限,视该条训练内容为不成功,训练周期结束,开启新的训练周期,重复S101;
在步骤S101前,使用整理的数据集对Yolov2卷积神经网络进行训练,得到训练好的Yolov2卷积神经网络。
步骤S101中,所述确定康复训练计划后,开启一个训练周期:首先从场景摄像头获取场景图像,输入Yolov2卷积神经网络,则获得场景中的目标物体类别和位置信息,融合颜色信息后输入随机森林获得康复训练内容输出是指:按照训练计划,选择相应的训练数据库,将训练计划转换为特征和属性{Fn,an},作为训练内容生成算法的输入I1;
当进行命名和听理解训练计划时,使用Yolov2卷积神经网络检测场景中的物体,选取合适的物体信息生成训练内容,从Yolov2卷积神经网络识别结果到训练内容,包括以下步骤:
第一步,在一个检测周期内统计Yolov2卷积神经网络的识别结果按概率排序,得到概率最高的类别与其最终位置ROI,经过颜色统计,空间距离推算方法结合类别固有特征转换为n维特征和属性{Fn,an}向量;
第二步,将特征和属性{Fn,an}作为生成算法的输入I2;
第三步,将I1和I2组合输入到决策树/随机森林中进行分类,经过多个决策树分类并投票得到给定输入条件下的决策结果D。
所述训练内容生成算法采用随机森林分类算法,将目标检测得到的物体类别、位置信息以及预先选定的训练计划参数以特征的形式输入到随机森林中进行分类得到最终的训练内容,利用少量的训练数据即可生成鲁棒性能较高的决策树,并通过对决策树分类结果投票决定给定输入条件下的生成结果,具体包括以下步骤:
S6.2计算森林中所有树的特征在各自树上的重要程度,统计得到该特征在整个森林中的重要程度,将所有特征按照重要程度进行排序,去除森林中重要程度低的部分特征,得到新的特征集,重复步骤S6.1重新生成森林,此过程成为迭代;
S6.3,进行多次迭代,使用套外误差率OOB评价套外样本在森林中的误差率,从多次迭代得到的森林中选择套外误差率最小的森林作为最终的分类模型。
在步骤S102中,获得患者的手势信息包括以下步骤:
S2.1,当物体检测单元识别到物体类别为手时,截取该类别位置ROI;
S2.2,将ROI图像的颜色空间转换为灰度图,并对其进行规范化,即每一点的像素值减去均值除以方差,以削弱光照变化造成的影响;
S2.3,选择比较小的cell,block则是由2x2的cell组成;其中,将图像分为nxn的部分,称为cell,选取2x2的cell组成滑动窗口,称为block;
S2.4,对所有像素计算梯度及梯度方向;对所有cell计算梯度方向直方图;对所有block内的特征向量做规范化;
S2.5,使用改进的HOG特征提取算法来解决多尺度输入:
S2.5.1,把SPPNET里面的spatial pyramid pooling的思想运用在了提取HOG特征上,对一个输入的图像采用固定大小的cell和block,当输入图像的尺寸不同时,cell和block的数量将会不同,得到的方向梯度直方图的特征向量的个数也会不同;
S2.5.2,对SPPNET中的spatial pyramid pooling进行改进,让其可以对向量进行池化;将每个bin都取所有被池化向量里的最大值组成一个新的特征向量,再对其做归一化使其变成一个概率向量,具体的spatial pyramid pooling操作是把图像分成8*8,4*4,2*2,1*1的区域做池化得到特征向量;将分块区域池化结果组合后,由8*8+4*4+2*2+1*1=85得到特征向量的第一个维度为长度85;同时因为每个block得到的梯度方向直方图都有9个bin,故特征向量的第二个维度长度为9;由此,可以实现在任意尺度的图像上提取出固定长度的特征向量,并将其输入后面的SVM分类器来进行训练或推断,其中,选取10个常见手势类别图像对SVM分类器进行训练。
步骤S103中,训练周期结束后,还包括判断训练是否正确完成以及记录训练过程中数据的步骤:
S7.1,单个训练周期开始后,将训练内容生成模块生成的指令合成为语音和文字提示;单个训练周期结束后,对患者某一任务的完成度进行评价,并且在训练过程中适时给予答案提示;语音提示通过语音模块播放,同时在场景摄像头拍摄的场景画面上根据文字提示生成字幕,显示在显示屏上;
S7.2,识别患者的手势和语音,与训练内容的指令相匹配:
当训练内容为动作类训练内容,将手势识别结果与指令内容相匹配,如果为同类动作则判定为正确;否则判定为错误;
当训练内容为物体移动类训练内容,通过比对场景摄像头和用户监控摄像头采集得到的图像输入Yolov2卷积神经网络得到的结果中的同类别物体相似度,高于一定阈值则判定正确;否则判定为错误;
当训练内容为发音类训练内容,将语音模块识别得到的单词与训练指令的目标单词使用Word2Vec模型将单词变换为特征向量,进行余弦相似度计算得到分数,评估分数高低,若高于一定阈值则判定正确;否则判定为错误;
S7.3,记录整个训练过程中的相关数据,包括训练时长,训练结果正确与否,统计训练正确率。
在步骤S101前,所述使用整理的数据集对Yolov2卷积神经网络进行训练,得到训练好的Yolov2卷积神经网络,包括以下步骤:
S1.1、针对日常生活中常见的类别,通过真实场景的拍照收集以及开源数据集的整合,选取出18个类别进行物体检测的学习,其中,数据集经过随机翻转、旋转、裁剪、亮度调节等数据增强操作;18个类别中包括17个日常生活用品类别和一个手类别,Yolov2网络先将所有手势视为同一类别,再由串联的算法进行更深层的特征提取;
S1.2、通过K-means算法对数据集的标注进行聚类学习,即统计每个标注框的宽高度占全图宽高度的比例作为K-means算法的学习样本,通过设置k=5得到5个聚类中心;
S1.3、修改Yolov2卷积神经网络:将Yolov2卷积神经网络的5个锚框预设值修改为S2提及的聚类中心;训练图片大小调整为416*416,Yolov2卷积神经网络通过5次下采样得到2^5下采样率,Yolov2卷积神经网络输出的宽高维度为13*13,长为(5+18)*5=115,其中18为18个类别,括号内的5表示锚框的中心点坐标以及宽高度的补偿值以及置信度,括号外的5表示5个锚框;
S1.4、Yolov2卷积神经网络的训练:通过Adam优化器的默认参数值,设置0.001的学习率,对网络进行训练至收敛为止;
S1.5、Yolov2卷积神经网络的部署以及手势识别的融合:将训练好的Yolov2卷积神经网络模型部署于Nvidia Jetson tx2中用于实时的物体检测,Yolov2卷积神经网络模型实时读取摄像头的图片信息,图片大小调整为416*416,输入到Yolov2卷积神经网络模型进行识别,待模型以高于0.8的置信度识别到手部的类别时,将识别框部分提取至手势识别单元进行进一步的识别;识别到其余类别时即继续运行物体检测的功能。
与现有技术相比,本发明具有如下优点与有益效果:本发明基于融合手势识别的失语症患者辅助康复训练系统及方法,该训练系统及方法具有良好的贴近患者现实生活的能力和部署的方便性,极大地满足了日益增长的失语症康复训练需求,提高了失语症患者人群的康复训练效果。
附图说明
图1是本发明基于融合手势识别的失语症患者辅助康复训练系统的示意图;
图2是本发明基于融合手势识别的失语症患者辅助康复训练方法的流程图。
具体实施方式
下面结合附图与具体实施方式对本发明作进一步详细的描述。
实施例
如图1和图2所示,本发明基于融合手势识别的失语症患者辅助康复训练系统,包括:
嵌入式计算平台:用于部署本系统的软件,并包括物体检测和手势识别单元、康复训练与用户交互单元和训练结果评估单元;
场景摄像头:用于采集场景RGB图像输入到嵌入式计算平台;
用户监控摄像头:用于采集用户手势RGB图像及输入到嵌入式计算平台;
显示屏:用于显示前端交互界面并与使用者进行交互;
语音模块:用于合成并播放训练指令语音;
外部电源:用于整套训练系统的供电;
其中,嵌入式计算平台分别与场景摄像头、用户监控摄像头、语音模块、显示器和外部电源连接。
本发明基于融合手势识别的失语症患者辅助康复训练方法,包括以下步骤:
S101,确定康复训练计划后,开启一个训练周期:首先从场景摄像头获取场景图像,输入Yolov2卷积神经网络,则获得场景中的目标物体类别和位置信息,融合颜色信息后输入随机森林获得康复训练内容输出;通过用户交互模块向患者传达训练指令;如果Yolov2卷积神经网络的输出不足以生成训练内容,则重复步骤S101;
S102,确定训练内容后,在训练周期中,不断从用户监控摄像头中获取图像,并输入Yolov2卷积神经网络中,获得患者的手势信息和患者周边的物体类别和位置信息与本训练周期的训练指令相匹配;如果训练内容为发音训练,则从语音模块获取识别到患者发音的词汇内容,匹配发音指令,判断患者的指令执行情况;
S103,如果患者发音错误、动作错误或移动的物品错误导致无法完成训练指令,则重复训练指令若干次,直到达到重复次数上限,视该条训练内容为不成功,训练周期结束,开启新的训练周期,重复S101;
在步骤S101前,使用整理的数据集对Yolov2卷积神经网络进行训练,得到训练好的Yolov2卷积神经网络。
本实施例中,采用NVIDIA Jetson TX2开发套件作为嵌入式计算平台。其中,嵌入式计算平台的物体检测和手势识别单元:基于本发明改进的Yolov2卷积神经网络实现,用于从场景图像中提取出能够作为训练内容的日常生活物品信息,以及识别并截取用户手势作为手势识别算法的输入,包括以下步骤:
S1.1、针对日常生活中常见的类别,通过真实场景的拍照收集以及开源数据集的整合,选取出18个类别进行物体检测的学习,其中,数据集经过随机翻转、旋转、裁剪、亮度调节等数据增强操作;18个类别中包括17个日常生活用品类别和一个手类别,Yolov2网络先将所有手势视为同一类别,再由串联的算法进行更深层的特征提取;
S1.2、通过K-means算法对数据集的标注进行聚类学习,即统计每个标注框的宽高度占全图宽高度的比例作为K-means算法的学习样本,通过设置k=5得到5个聚类中心;
S1.3、修改Yolov2卷积神经网络:将Yolov2卷积神经网络的5个锚框预设值修改为S2提及的聚类中心;训练图片大小调整为416*416,Yolov2卷积神经网络通过5次下采样得到2^5下采样率,Yolov2卷积神经网络输出的宽高维度为13*13,长为(5+18)*5=115,其中18为18个类别,括号内的5表示锚框的中心点坐标以及宽高度的补偿值以及置信度,括号外的5表示5个锚框;
S1.4、Yolov2卷积神经网络的训练:通过Adam优化器的默认参数值,设置0.001的学习率,对网络进行训练至收敛为止;
S1.5、Yolov2卷积神经网络的部署以及手势识别的融合:将训练好的Yolov2卷积神经网络模型部署于Nvidia Jetson tx2中用于实时的物体检测,Yolov2卷积神经网络模型实时读取摄像头的图片信息,图片大小调整为416*416,输入到Yolov2卷积神经网络模型进行识别,待模型以高于0.8的置信度识别到手部的类别时,将识别框部分提取至手势识别单元进行进一步的识别;识别到其余类别时即继续运行物体检测的功能。
物体检测和手势识别单元还具有以下作用:用于提取用户手势信息,采用改进的HOG特征算法提取手部特征输入SVM分类器中。在步骤S102中,获得患者的手势信息包括以下步骤:
S2.1,当物体检测单元识别到物体类别为手时,截取该类别位置ROI;
S2.2,将ROI图像的颜色空间转换为灰度图,并对其进行规范化,即每一点的像素值减去均值除以方差,以削弱光照变化造成的影响;
S2.3,选择比较小的cell,block则是由2x2的cell组成;其中,将图像分为nxn的部分,称为cell,选取2x2的cell组成滑动窗口,称为block;
S2.4,对所有像素计算梯度及梯度方向;对所有cell计算梯度方向直方图;对所有block内的特征向量做规范化;
S2.5,使用改进的HOG特征提取算法来解决多尺度输入:
S2.5.1,把SPPNET里面的spatial pyramid pooling的思想运用在了提取HOG特征上,对一个输入的图像采用固定大小的cell和block,当输入图像的尺寸不同时,cell和block的数量将会不同,得到的方向梯度直方图的特征向量的个数也会不同;
S2.5.2,对SPPNET中的spatial pyramid pooling进行改进,让其可以对向量进行池化;将每个bin都取所有被池化向量里的最大值组成一个新的特征向量,再对其做归一化使其变成一个概率向量,具体的spatial pyramid pooling操作是把图像分成8*8,4*4,2*2,1*1的区域做池化得到特征向量;将分块区域池化结果组合后,由8*8+4*4+2*2+1*1=85得到特征向量的第一个维度为长度85;同时因为每个block得到的梯度方向直方图都有9个bin,故特征向量的第二个维度长度为9;由此,可以实现在任意尺度的图像上提取出固定长度的特征向量,并将其输入后面的SVM分类器来进行训练或推断;其中,选取10个常见手势类别图像对SVM分类器进行训练。
采用改进的HOG特征提取算法,目的在于:
S3.1、实现多尺度下的HOG特征子提取,图像不用经过resize,避免了在图像放缩造成的形变影响分类结果;
S3.2、spatial pyramid pooling可以得到多尺度的池化结果(本应用实例中将其分成8*8,4*4,2*2,1*1,4种尺度),与传统的HOG特征子相比能得到更上层的特征,如8*8得到的特征的细节比较强,2*2得到的特征则是比较有全局观,把这些不同尺度下得到的特征综合起来的改进版HOG特征子比起传统的HOG特征子的特征表述能力要更强,提高了SVM分类的准确率。
本发明的康复训练与用户交互单元为:处理物体检测和手势识别单元识别结果和用户数据,从现实场景中提取并智能生成康复训练计划和康复训练内容,其包括训练计划生成模块、训练内容生成模块、训练过程维持模块和用户交互模块。训练计划生成模块在每个训练计划进行周期中只运行一次,确定训练计划后,训练内容生成模块在每一条训练指令的执行周期中只运行一次,训练过程维持模块和用户交互模块在系统运行的整段时间中保持持续运行,各子模块作用及工作流程如下:
训练计划生成模块:用于生成训练计划,包括:
S4.1根据医嘱和患者兴趣生成相应的科学训练计划,提供适合的多样化的训练模式,并根据不同阶段的病情和训练情况调整难度等级和训练量,针对性地进行如记忆、命名、听理解和发音等训练,配合以音乐疗法等相对轻松的训练方式,提高训练效率;
S4.2按照训练计划,选择相应的训练数据库,将训练计划转换为特征和属性{Fn,an},作为训练内容生成算法的输入I1。
训练内容生成模块:用于动态生成训练内容,根据不同的训练计划,系统将提供不同的训练内容和难度模式,具体地:
S5.1进行命名和听理解训练时,使用目标检测网络检测场景中的物体,选取合适的物体信息生成训练内容,从目标检测网络识别结果到训练内容的具体过程包括:
S5.1.1在一个检测周期内统计目标检测网络的识别结果(物体类别和位置)按概率排序,得到概率最高的类别与其最终位置ROI,经过颜色统计,空间距离推算等方法结合类别固有特征(如形状、大小)等转换为n维特征和属性{Fn,an}向量;
S5.1.2将特征和属性{Fn,an}作为生成算法的输入I2;
S5.1.3将I1和I2组合(I1T,I2T)输入到决策树/随机森林中进行分类,经过多个决策树分类并投票得到给定输入条件下的决策结果D;
S5.2采用音乐疗法时,患者可自行在系统预存的歌单或用户添加的歌单中选择歌曲播放,也可由系统随机播放;
S5.3训练内容数据库可由专业医生拓展,由患者家属从云端服务器同步最新的数据库到本地。
该训练内容生成算法采用随机森林分类算法,将目标检测得到的物体类别、位置信息以及预先选定的训练计划参数以特征的形式输入到随机森林中进行分类得到最终的训练内容,利用少量的训练数据即可生成鲁棒性能较高的决策树,并通过对决策树分类结果投票决定给定输入条件下的生成结果,具体包括以下步骤:
S6.2计算森林中所有树的特征在各自树上的重要程度,统计得到该特征在整个森林中的重要程度,将所有特征按照重要程度进行排序,去除森林中重要程度低的部分特征,得到新的特征集,重复步骤S6.1重新生成森林,此过程成为迭代;
S6.3,进行多次迭代,使用套外误差率OOB评价套外样本在森林中的误差率,从多次迭代得到的森林中选择套外误差率最小的森林作为最终的分类模型。
训练过程维持模块:此模块的主要功能包括合成任务指令引导患者完成训练内容,判断训练是否正确完成以及记录训练过程中的数据。步骤S103中,训练周期结束后,还包括判断训练是否正确完成以及记录训练过程中数据的步骤:
S7.1,单个训练周期开始后,将训练内容生成模块生成的指令合成为语音和文字提示;单个训练周期结束后,对患者某一任务的完成度进行评价,并且在训练过程中适时给予答案提示;语音提示通过语音模块播放,同时在场景摄像头拍摄的场景画面上根据文字提示生成字幕,显示在显示屏上;
S7.2,识别患者的手势和语音,与训练内容的指令相匹配:
当训练内容为动作类训练内容,将手势识别结果与指令内容相匹配,如果为同类动作则判定为正确;否则判定为错误;
当训练内容为物体移动类训练内容,通过比对场景摄像头和用户监控摄像头采集得到的图像输入Yolov2卷积神经网络得到的结果中的同类别物体相似度,高于一定阈值则判定正确;否则判定为错误;
当训练内容为发音类训练内容,将语音模块识别得到的单词与训练指令的目标单词使用Word2Vec模型将单词变换为特征向量,进行余弦相似度计算得到分数,评估分数高低,若高于一定阈值则判定正确;否则判定为错误;
S7.3,记录整个训练过程中的相关数据,包括训练时长,训练结果正确与否,统计训练正确率。
康复训练与用户交互单元的用户交互模块:系统利用触摸显示屏通过人性化UI界面与用户进行交互,提供不同训练功能的入口按钮。主屏幕上实时显示摄像头当前拍摄的画面,下方的字幕栏实时显示语音合成的字幕,同时外放语音,在视觉和听觉上辅助患者完成训练任务。患者可以利用触摸屏点击按钮,通过麦克风发音,操作简洁方便。
本发明的训练结果评估单元:可以将训练过程中记录的正确率等统计数据以及患者录音资料整理成文件保存,提供给医生和治疗师等专业人士进行评估。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (7)
1.一种基于融合手势识别的失语症患者辅助康复训练方法,其特征在于:包括以下步骤:
S101,确定康复训练计划后,开启一个训练周期:首先从场景摄像头获取场景图像,输入Yolov2卷积神经网络,则获得场景中的目标物体类别和位置信息,融合颜色信息后输入随机森林获得康复训练内容输出;通过用户交互模块向患者传达训练指令;如果Yolov2卷积神经网络的输出不足以生成训练内容,则重复步骤S101;
S102,确定训练内容后,在训练周期中,不断从用户监控摄像头中获取图像,并输入Yolov2卷积神经网络中,获得患者的手势信息和患者周边的物体类别和位置信息与本训练周期的训练指令相匹配;如果训练内容为发音训练,则从语音模块获取识别到患者发音的词汇内容,匹配发音指令,判断患者的指令执行情况;
S103,如果患者发音错误、动作错误或移动的物品错误导致无法完成训练指令,则重复训练指令若干次,直到达到重复次数上限,视内容为不成功,训练周期结束,开启新的训练周期,重复S101;
在步骤S101前,使用整理的数据集对Yolov2卷积神经网络进行训练,得到训练好的Yolov2卷积神经网络;
在步骤S102中,获得患者的手势信息包括以下步骤:
S2.1,当物体检测单元识别到物体类别为手时,截取该类别位置ROI;
S2.2,将ROI图像的颜色空间转换为灰度图,并对其进行规范化,即每一点的像素值减去均值除以方差,以削弱光照变化造成的影响;
S2.3,选择小的cell,block则是由2x2的cell组成;其中,将图像分为nxn的部分,称为cell,选取2x2的cell组成滑动窗口,称为block;
S2.4,对所有像素计算梯度及梯度方向;对所有cell计算梯度方向直方图;对所有block内的特征向量做规范化;
S2.5,使用改进的HOG特征提取算法来解决多尺度输入:
S2.5.1,把SPPNET里面的spatial pyramid pooling的思想运用在了提取HOG特征上,对一个输入的图像采用固定大小的cell和block,当输入图像的尺寸不同时,cell和block的数量将会不同,得到的方向梯度直方图的特征向量的个数也会不同;
S2.5.2,对SPPNET中的spatial pyramid pooling进行改进,让其对向量进行池化;将每个bin都取所有被池化向量里的最大值组成一个新的特征向量,再对其做归一化使其变成一个概率向量,具体的spatial pyramid pooling操作是把图像分成8*8,4*4,2*2,1*1的区域做池化得到特征向量;将分块区域池化结果组合后,由8*8+4*4+2*2+1*1=85得到特征向量的第一个维度为长度85;同时因为每个block得到的梯度方向直方图都有9个bin,故特征向量的第二个维度长度为9;由此,实现在任意尺度的图像上提取出固定长度的特征向量,并将其输入后面的SVM分类器来进行训练或推断,其中,选取10个常见手势类别图像对SVM分类器进行训练;
步骤S103中,训练周期结束后,还包括判断训练是否正确完成以及记录训练过程中数据的步骤:
S7.1,单个训练周期开始后,将训练内容生成模块生成的指令合成为语音和文字提示;单个训练周期结束后,对患者某一任务的完成度进行评价,并且在训练过程中适时给予答案提示;语音提示通过语音模块播放,同时在场景摄像头拍摄的场景画面上根据文字提示生成字幕,显示在显示屏上;
S7.2,识别患者的手势和语音,与训练内容的指令相匹配:
当训练内容为动作类训练内容,将手势识别结果与指令内容相匹配,如果为同类动作则判定为正确;否则判定为错误;
当训练内容为物体移动类训练内容,通过比对场景摄像头和用户监控摄像头采集得到的图像输入Yolov2卷积神经网络得到的结果中的同类别物体相似度,高于阈值则判定正确;否则判定为错误;
当训练内容为发音类训练内容,将语音模块识别得到的单词与训练指令的目标单词使用Word2Vec模型将单词变换为特征向量,进行余弦相似度计算得到分数,评估分数高低,若高于阈值则判定正确;否则判定为错误;
S7.3,记录整个训练过程中的相关数据,包括训练时长,训练结果正确与否,统计训练正确率。
2.根据权利要求1所述的基于融合手势识别的失语症患者辅助康复训练方法,其特征在于:步骤S101中,所述确定康复训练计划后,开启一个训练周期:首先从场景摄像头获取场景图像,输入Yolov2卷积神经网络,则获得场景中的目标物体类别和位置信息,融合颜色信息后输入随机森林获得康复训练内容输出是指:按照训练计划,选择相应的训练数据库,将训练计划转换为特征和属性{Fn,an},作为训练内容生成算法的输入I1;
当进行命名和听理解训练计划时,使用Yolov2卷积神经网络检测场景中的物体,选取物体信息生成训练内容,从Yolov2卷积神经网络识别结果到训练内容,包括以下步骤:
第一步,在一个检测周期内统计Yolov2卷积神经网络的识别结果按概率排序,得到概率最高的类别与其最终位置ROI,经过颜色统计,空间距离推算方法结合类别固有特征转换为n维特征和属性{Fn,an}向量;
第二步,将特征和属性{Fn,an}作为生成算法的输入I2;
第三步,将I1和I2组合输入到决策树/随机森林中进行分类,经过多个决策树分类并投票得到给定输入条件下的决策结果D。
3.根据权利要求2所述的基于融合手势识别的失语症患者辅助康复训练方法,其特征在于:所述训练内容生成算法采用随机森林分类算法,将目标检测得到的物体类别、位置信息以及预先选定的训练计划参数以特征的形式输入到随机森林中进行分类得到最终的训练内容,利用少量的训练数据生成鲁棒性能的决策树,并通过对决策树分类结果投票决定给定输入条件下的生成结果,具体包括以下步骤:
S6.2计算森林中所有树的特征在各自树上的重要程度,统计得到该特征在整个森林中的重要程度,将所有特征按照重要程度进行排序,去除森林中重要程度低的部分特征,得到新的特征集,重复步骤S6.1重新生成森林,此过程成为迭代;
S6.3,进行多次迭代,使用套外误差率OOB评价套外样本在森林中的误差率,从多次迭代得到的森林中选择套外误差率最小的森林作为最终的分类模型。
4.根据权利要求1所述的基于融合手势识别的失语症患者辅助康复训练方法,其特征在于:在步骤S101前,所述使用整理的数据集对Yolov2卷积神经网络进行训练,得到训练好的Yolov2卷积神经网络,包括以下步骤:
S1.1、针对日常生活中常见的类别,通过真实场景的拍照收集以及开源数据集的整合,选取出18个类别进行物体检测的学习,其中,数据集经过随机翻转、旋转、裁剪、亮度调节数据增强操作;18个类别中包括17个日常生活用品类别和一个手类别,Yolov2网络先将所有手势视为同一类别,再由串联的算法进行更深层的特征提取;
S1.2、通过K-means算法对数据集的标注进行聚类学习,即统计每个标注框的宽高度占全图宽高度的比例作为K-means算法的学习样本,通过设置k=5得到5个聚类中心;
S1.3、修改Yolov2卷积神经网络:将Yolov2卷积神经网络的5个锚框预设值修改为S2提及的聚类中心;训练图片大小调整为416*416,Yolov2卷积神经网络通过5次下采样得到2^5下采样率,Yolov2卷积神经网络输出的宽高维度为13*13,长为(5+18)*5=115,其中18为18个类别,括号内的5表示锚框的中心点坐标以及宽高度的补偿值以及置信度,括号外的5表示5个锚框;
S1.4、Yolov2卷积神经网络的训练:通过Adam优化器的默认参数值,设置0.001的学习率,对网络进行训练至收敛为止;
S1.5、Yolov2卷积神经网络的部署以及手势识别的融合:将训练好的Yolov2卷积神经网络模型部署于Nvidia Jetson tx2中用于实时的物体检测,Yolov2卷积神经网络模型实时读取摄像头的图片信息,图片大小调整为416*416,输入到Yolov2卷积神经网络模型进行识别,待模型以高于0.8的置信度识别到手部的类别时,将识别框部分提取至手势识别单元进行进一步的识别;识别到其余类别时即继续运行物体检测的功能。
5.一种基于融合手势识别的失语症患者辅助康复训练系统,其特征在于:包括:
嵌入式计算平台:用于部署本系统的软件,并包括物体检测和手势识别单元、康复训练与用户交互单元和训练结果评估单元;
场景摄像头:用于采集场景RGB图像输入到嵌入式计算平台;
用户监控摄像头:用于采集用户手势RGB图像及输入到嵌入式计算平台;
显示屏:用于显示前端交互界面并与使用者进行交互;
语音模块:用于合成并播放训练指令语音;
外部电源:用于整套训练系统的供电;
所述嵌入式计算平台分别与场景摄像头、用户监控摄像头、语音模块、显示器和外部电源连接;
所述物体检测和手势识别单元为:使用整理的数据集对Yolov2卷积神经网络进行训练,得到训练好的Yolov2卷积神经网络,通过训练好的Yolov2卷积神经网络实现康复训练场景中的目标检测以供训练内容提取,以及实现患者手势的识别;
所述康复训练与用户交互单元为:处理物体检测和手势识别单元识别结果和用户数据,从现实场景中提取并智能生成康复训练计划和康复训练内容,其包括训练计划生成模块、训练内容生成模块、训练过程维持模块和用户交互模块;
上述基于融合手势识别的失语症患者辅助康复训练系统可实现权利要求1至4中任一项所述的基于融合手势识别的失语症患者辅助康复训练方法。
6.根据权利要求5所述的基于融合手势识别的失语症患者辅助康复训练系统,其特征在于:所述训练结果评估单元为:利用训练过程维持模块获取的训练时间、配合专家决策判断患者训练效果。
7.根据权利要求5所述的基于融合手势识别的失语症患者辅助康复训练系统,其特征在于:所述训练计划生成模块为:负责患者的康复训练计划的生成和后续处理;所述训练内容生成模块为:负责动态生成训练内容;所述训练过程维持模块为:用于训练过程的引导和监督。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911352287.3A CN111126280B (zh) | 2019-12-25 | 2019-12-25 | 基于融合手势识别的失语症患者辅助康复训练系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911352287.3A CN111126280B (zh) | 2019-12-25 | 2019-12-25 | 基于融合手势识别的失语症患者辅助康复训练系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111126280A CN111126280A (zh) | 2020-05-08 |
CN111126280B true CN111126280B (zh) | 2023-03-21 |
Family
ID=70502197
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911352287.3A Active CN111126280B (zh) | 2019-12-25 | 2019-12-25 | 基于融合手势识别的失语症患者辅助康复训练系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111126280B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113117295B (zh) * | 2021-04-22 | 2022-07-15 | 合肥工业大学 | 一种基于手部识别的脑认知康复机器人系统及训练方法 |
CN114306871A (zh) * | 2021-12-30 | 2022-04-12 | 首都医科大学附属北京天坛医院 | 基于人工智能的失语症患者康复训练方法和系统 |
CN114617769B (zh) * | 2022-03-15 | 2024-03-12 | 北京中医药大学东直门医院 | 基于融合语音识别的失语症患者辅助康复训练装置 |
CN114783049B (zh) * | 2022-03-21 | 2023-06-23 | 广东工业大学 | 一种基于深度神经网络视觉识别的口语学习方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105787442A (zh) * | 2016-02-19 | 2016-07-20 | 电子科技大学 | 一种基于视觉交互面向视障人群的穿戴式辅助系统及其使用方法 |
CN106372564A (zh) * | 2015-07-23 | 2017-02-01 | 株式会社理光 | 手势识别方法和装置 |
CN108171133A (zh) * | 2017-12-20 | 2018-06-15 | 华南理工大学 | 一种基于特征协方差矩阵的动态手势识别方法 |
CN109032337A (zh) * | 2018-06-28 | 2018-12-18 | 济南大学 | 一种基于数据手套的kem手势识别算法 |
CN109977777A (zh) * | 2019-02-26 | 2019-07-05 | 南京邮电大学 | 基于新型RF-Net模型的手势识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160092726A1 (en) * | 2014-09-30 | 2016-03-31 | Xerox Corporation | Using gestures to train hand detection in ego-centric video |
-
2019
- 2019-12-25 CN CN201911352287.3A patent/CN111126280B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106372564A (zh) * | 2015-07-23 | 2017-02-01 | 株式会社理光 | 手势识别方法和装置 |
CN105787442A (zh) * | 2016-02-19 | 2016-07-20 | 电子科技大学 | 一种基于视觉交互面向视障人群的穿戴式辅助系统及其使用方法 |
CN108171133A (zh) * | 2017-12-20 | 2018-06-15 | 华南理工大学 | 一种基于特征协方差矩阵的动态手势识别方法 |
CN109032337A (zh) * | 2018-06-28 | 2018-12-18 | 济南大学 | 一种基于数据手套的kem手势识别算法 |
CN109977777A (zh) * | 2019-02-26 | 2019-07-05 | 南京邮电大学 | 基于新型RF-Net模型的手势识别方法 |
Non-Patent Citations (1)
Title |
---|
基于时间上下文跟踪-学习-检测的指尖跟踪方法;康文雄 等;《计算机应用》;20160510;第36卷(第5期);第1371-1377页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111126280A (zh) | 2020-05-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111126280B (zh) | 基于融合手势识别的失语症患者辅助康复训练系统及方法 | |
US10354362B2 (en) | Methods and software for detecting objects in images using a multiscale fast region-based convolutional neural network | |
US20210174072A1 (en) | Microexpression-based image recognition method and apparatus, and related device | |
CN106485984B (zh) | 一种钢琴的智能教学方法和装置 | |
CN110556129A (zh) | 双模态情感识别模型训练方法及双模态情感识别方法 | |
CN109359538A (zh) | 卷积神经网络的训练方法、手势识别方法、装置及设备 | |
James et al. | Emotion based music recommendation system | |
CN103092329A (zh) | 一种基于唇读技术的唇语输入方法 | |
Alrubayi et al. | A pattern recognition model for static gestures in malaysian sign language based on machine learning techniques | |
CN113723312B (zh) | 基于视觉transformer的水稻病害识别方法 | |
CN103593654A (zh) | 一种人脸定位的方法与装置 | |
CN105787442A (zh) | 一种基于视觉交互面向视障人群的穿戴式辅助系统及其使用方法 | |
Bu | Human motion gesture recognition algorithm in video based on convolutional neural features of training images | |
CN102930270A (zh) | 基于肤色检测与背景消除的手部识别方法及系统 | |
Alshamsi et al. | Automated facial expression and speech emotion recognition app development on smart phones using cloud computing | |
CN109815920A (zh) | 基于卷积神经网络和对抗卷积神经网络的手势识别方法 | |
CN112307975A (zh) | 融合语音与微表情的多模态情感识别方法及系统 | |
CN111967334A (zh) | 一种人体意图识别方法、系统以及存储介质 | |
CN110096991A (zh) | 一种基于卷积神经网络的手语识别方法 | |
CN115936944A (zh) | 一种基于人工智能的虚拟教学管理方法及装置 | |
CN113435335A (zh) | 微观表情识别方法、装置、电子设备及存储介质 | |
CN115188074A (zh) | 一种互动式体育训练测评方法、装置、系统及计算机设备 | |
CN114639150A (zh) | 情绪识别方法、装置、计算机设备和存储介质 | |
CN111797705A (zh) | 一种基于人物关系建模的动作识别方法 | |
CN114639152A (zh) | 基于人脸识别的多模态语音交互方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |