CN115101191A - 一种帕金森疾病诊断系统 - Google Patents

一种帕金森疾病诊断系统 Download PDF

Info

Publication number
CN115101191A
CN115101191A CN202210280920.8A CN202210280920A CN115101191A CN 115101191 A CN115101191 A CN 115101191A CN 202210280920 A CN202210280920 A CN 202210280920A CN 115101191 A CN115101191 A CN 115101191A
Authority
CN
China
Prior art keywords
facial
module
voice
fundamental frequency
diagnosis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210280920.8A
Other languages
English (en)
Inventor
金博
张旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN202210280920.8A priority Critical patent/CN115101191A/zh
Publication of CN115101191A publication Critical patent/CN115101191A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/0059Measuring for diagnostic purposes; Identification of persons using light, e.g. diagnosis by transillumination, diascopy, fluorescence
    • A61B5/0077Devices for viewing the surface of the body, e.g. camera, magnifying lens
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/40Detecting, measuring or recording for evaluating the nervous system
    • A61B5/4076Diagnosing or monitoring particular conditions of the nervous system
    • A61B5/4082Diagnosing or monitoring movement diseases, e.g. Parkinson, Huntington or Tourette
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/48Other medical applications
    • A61B5/4803Speech analysis specially adapted for diagnostic purposes
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7235Details of waveform analysis
    • A61B5/7264Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7235Details of waveform analysis
    • A61B5/7264Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
    • A61B5/7267Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems involving training the classification device
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A40/00Adaptation technologies in agriculture, forestry, livestock or agroalimentary production
    • Y02A40/70Adaptation technologies in agriculture, forestry, livestock or agroalimentary production in livestock or poultry

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Pathology (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Molecular Biology (AREA)
  • Surgery (AREA)
  • Animal Behavior & Ethology (AREA)
  • Biophysics (AREA)
  • Veterinary Medicine (AREA)
  • Artificial Intelligence (AREA)
  • Neurology (AREA)
  • Physiology (AREA)
  • Data Mining & Analysis (AREA)
  • Epidemiology (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Psychiatry (AREA)
  • Signal Processing (AREA)
  • Fuzzy Systems (AREA)
  • Evolutionary Computation (AREA)
  • Neurosurgery (AREA)
  • Primary Health Care (AREA)
  • Databases & Information Systems (AREA)
  • Developmental Disabilities (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开一种帕金森疾病诊断系统,涉及医疗技术领域,具体包括控制模块、数据获取模块、语音数据预处理模块、图片数据预处理模块、语音特征提取模块、面部特征提取模块、分类模块、显示模块;通过采集语音信号、面部表情图片,提取语音特征和面部特征,将数据送入设计的包含BP神经网络、随机森林和支持向量机的集成模型投票系统,经过分类预测即得到最终诊断结果。本发明公开的诊断系统的预测准确率比较高。

Description

一种帕金森疾病诊断系统
技术领域
本发明涉及医疗技术领域,特别涉及一种帕金森疾病诊断系统。
背景技术
总的来说,人口正在老龄化。虽然人口老龄化代表着医疗和社会进步战胜 疾病的胜利,但它也带来了严峻的挑战。年龄是疾病发生、发展和诊断的重要 参数。随着年龄的增长,中枢神经系统的形态、代谢和功能都会发生不同程度 的衰退,从而导致一定的神经系统疾病。一个典型的例子是帕金森病,它是由 多巴胺分泌减少引起的。PD又称震颤麻痹,是一种常见的神经退行性疾病,主 要表现为运动迟缓、肌强直、静止性震颤和姿势不稳。临床症状还包括嗅觉功 能下降、便秘和抑郁等非运动性症状。作为一种进行性疾病,各种症状,包括 运动性和非运动性,随着病程的发展变得越来越严重,而且各种各样并发症, 如“开-关”现象、运动障碍、药物疗效下降等,常发生在后期。患有严重疾病 的患者可能会受到平衡障碍、步态僵硬、跌倒和言语障碍的困扰,导致他们无 法自理,生活质量下降。因此,准确的诊断和及时有效的药物治疗非常重要。
据世界帕金森病协会统计,全球已有500多万帕金森病患者,该病症已成 为继脑卒中后遗症和癫痫之后危害神经系统的第三大疾病。然而,在进行帕金 森检测时,当前的检测方法依旧是依靠专业医生对检测者进行长期临床观察, 以从其行为表现上判断检测者是否患有帕金森症。显然,上述检测过程过度依 赖医生个人能力,且其明显具有检测周期长、成本高等缺点。因此,探索出新 的帕金森疾病诊断途径,以更方便、更有效的方式帮助该类病人接受会诊、追 踪疾病以及接受康复训练,缓解病人“挂号难”的问题,减轻医护工作人员长 期反复诊断的压力,具有非常大的潜在社会与市场价值。
近年来,随着计算机视觉技术的发展,人脸图像识别已被用于疾病诊断。 2017年,美国国家人类基因组研究所(National Human Genome Research Institute) 开发了面部诊断软件,以确定儿童是否患有迪格奥尔格(DiGeorge)综合征。这 是一种非常罕见的疾病,在全世界儿童发病率从1/6000到1/3000不等。由于发 病率如此之广,疾病诊断可能很困难。然而,所有患有迪格奥尔格(DiGeorge) 综合征的儿童都有临床上明显的面部特征,这些特征被国家人类基因组研究所 用于疾病诊断。2016年,FDNA公司开发了Face2Gene系统,可以帮助医生通 过面部识别诊断遗传疾病。一些相对罕见的遗传病甚至可以通过比较病人和健 康人的照片来发现。这有助于患者发现疾病并在相对较短的时间内获得治疗。
对于帕金森病来说,患者疾病特异性的面部表情引起了研究者的关注。19 世纪60年代,Charcot首次描述了PD患者的“面具脸”特征。根据多年的研究, “面具脸”被认为是帕金森病的常见症状之一。它的症状包括无脸和双眼凝视。 人类的面部表情是由面部浅表肌肉来表达的。这些肌肉被称为“面部肌肉”或 “表情肌肉”。帕金森病患者的微笑和其他面部表情通常表现为无反应,振幅明 显较小。形成表情所需的时间也会延长。对于许多病人的家属来说,“面具脸” 症状会引起问题,因为它是一种郁闷的表现。因此,探索一种基于人脸特征点 识别的诊断方法是很有前途的。注意,检测PD患者的语言障碍,这也是一种无 创性的诊断方法,已经被证明是有效的。因此,面部表情识别可以与语音障碍 识别相结合,获得更全面、多方位、无创、远程的诊断。
基于所设计的语音和面部特征,所用诊断模型为集成模型投票系统,包含 了支持向量机(SVM)和BP神经网络模型。支持向量机(SVM)使用核函数 向量映射到一个更高维的空间里,在这个空间里建立有一个最大间隔超平面。 在分开数据的超平面的两边建有两个互相平行的超平面,分隔超平面使两个平 行超平面的距离最大化,可以解决非线性的分类。具有误差反向传播学习功能 的多层前馈神经网络(BP神经网络)是目前应用最为广泛的神经网络之一。BP网 络模型具有结构严谨、工作状态稳定、可操作性强等特点,同时由于隐结点的 引入,使得一个三层非线性网络可以以任意精度逼近任何连续函数。BP神经网络是由简单神经单元构成的具有输入层、隐层和输出层的网络模型,具有很强 的学习、联想和容错功能,能进行大规模并行信息处理。模型结构如图1所示。
本发明还使用了Resnet50网络模型,网络结构如图2所示。
具体的,Resnet是残差网络(Residual Network)的缩写,该系列网络广泛用于 目标分类等领域以及作为计算机视觉任务主干经典神经网络的一部分,典型的 网络有resnet50,resnet101等。一般的卷积神经网络,随着网络的加深,优化效 果反而越差,测试数据和训练数据的准确率反而降低了。这是由于网络的加深 会造成梯度爆炸和梯度消失的问题。而Resnet系列网络则解决了网络加深之后 导致的上述问题,使得网络加深的同时能够提升分类准确率,证明了网络可以 向更深(包括更多隐藏层)的方向发展。手势解锁功能是系统的最开始的部分, 只有准确快速的解锁才能使得系统高效反复的工作,手势识别部分在整个诊断 系统的运作中至关重要,因此需要神经网络模型具有较高的准确率,resnet50在 效率、训练难度、性能表现上十分符合要求。
发明内容
一种帕金森疾病诊断系统,包括控制模块、数据获取模块、语音数据预处 理模块、图片数据预处理模块、语音特征提取模块、面部特征提取模块、分类 模块、显示模块。
所述控制模块包括手势识别模块,基于深度学习算法进行手势识别,当识 别结果为指定手势,并且概率值大于所设定阈值,会产生特定的图像。图像随 着手势保持的时间上移,当图像上移到预设区域时即解锁诊断系统;诊断结束 后一定时间,自动退出诊断系统,若要继续诊断,再次通过手势识别模块解锁 即可。
所述数据获取模块,用来采集潜在患者的语音、面部图片数据;具体使用 方法包括潜在患者模仿微笑表情,与此同时读一段元音字符,通过语音采集设 备、摄像头来同时采集语音信号、面部表情图片,获得的面部表情图片按序号 命名。
所述语音数据预处理模块,对采集到的语音数据进行格式转换、采样频率 转换,预加重、加窗和分帧处理,去除无声部分。最后提取基频序列;
具体包括对之前所述采集到的语音信号进行短时自相关计算。对于确定性 的所述语音信号,短时自相关函数的定义为:
Figure BDA0003557793260000031
其对应的下标k值就是该帧语音对应的基音周期,取倒数就是基频。
基频用F0来表示,由于在语音预处理的时候对语音信号进行了分帧处理, 所以每一帧都会有一个对应的F0,这样就可以得到一个基频序列。
所述语音特征提取模块,基于语音特征提取算法来提取语音特征,所述语 音特征包括基频特征、基频扰动特征、振幅扰动特征。
所述基频特征、基频扰动特征、振幅扰动特征具体包括如下特征:
Figure BDA0003557793260000041
基频特征就是在提取出的基频序列基础上,计算一些简单的统计学的参数。
(1)F0_mean:即对基频序列求平均值,反映了受试者声带振动频率的整 体高低,男女之间有一定的差别。
(2)F0_max:即对基频序列求最大值,反映了受试者声带振动频率的最 大值。
(3)F0_min:即对基频序列求最小值,反映了受试者声带振动频率的最 小值。
(4)F0_median:即对基频序列求中值,一定程度上反映了受试者声带振 动频率的整体高低。
(5)F0_std:即对基频序列求标准差,反映了受试者声带振动频率的离散 程度。
基频扰动特征Jitter通过基音周期计算,基音周期定义如下:
Figure RE-GDA0003816763410000051
s.t.n=1,2,...,N (2)
其中,n表示帧,N代表了帧的总数,F0,n指的是第n帧的基频,Tn指的就 是第n帧的基音周期。
Figure BDA0003557793260000052
Figure BDA0003557793260000053
Figure BDA0003557793260000054
Figure BDA0003557793260000055
Figure BDA0003557793260000056
振幅扰动特征通过振幅A0计算。
振幅A0的定义是:A0,n=max(Pn)-min(Pn)
s.t.n=1,2,...,N (8)
其中,序列Pn表示第n帧的语音信号值序列,是可以直接通过输入语音测 得的。A0,n指第n帧对应的振幅。
Figure BDA0003557793260000057
Figure BDA0003557793260000058
Figure BDA0003557793260000059
Figure BDA0003557793260000061
Figure BDA0003557793260000062
Figure BDA0003557793260000063
所述图片数据预处理模块,将采集到的所有面部图片按名称序号进行从小 到大排序,保证图片的顺序是按时间顺序排列,利用Face++API按顺序提取所 有图片中106个人脸关键点的绝对坐标,例如提取的面部鼻尖的坐标序列为 [(x1,y1),(x2,y2),(x3,y3),…,(x106,y106)],其它部位的关键点坐标也类似。进一步考 虑受试者录制视频时会可能会晃动身体,从而导致提取的面部幅度特征不准确, 所以根据得到的绝对坐标构建相对坐标系,并计算得到对应的相对坐标,用于 后面提取更精确的面部幅度特征;
通过Face++API提取摄像头所捕获的受试者面部表情图片序列中的106个 人脸关键点坐标,此时获得是绝对坐标。再将其转为相对坐标,转换公式如式 16所示。
将眼睛内角两个关键点之间的中点坐标设定为(0,0),作为相对坐标系中坐 标原点。连接眼睛内角两个关键点的线设置为x轴,连接鼻子关键点和原点的 线设置为y轴,从而创建一个非笛卡尔坐标系。定义双眼内眼角的两个坐标分 别为(-1,0)和(1,0),鼻子的坐标为(0,1)。式16中(m1,n1)为鼻子绝对坐标值, (b1,b2)和(a1,a2)分别为两个双眼内眼角的绝对坐标。(m2,n2)为要转换的绝对坐标 关键点。
Figure BDA0003557793260000064
(x,y)即转换所得的相对坐标,在绝对坐标系中,通过绝对坐标(m2,n2)进行转 换。
将面部表情图片序列中第i张图片的关键点z的位置定义为一个向量pi,z=(xi,z,yi,z),其中x和y分别是相对坐标的横坐标和纵坐标。
所述面部特征提取模块,基于面部特征提取算法,来提取面部特征,所述 面部特征包括面部幅度特征、面部震颤特征。
面部幅度特征公式如下:
Rx_max=xz_max-xz_min (16)
Ry_max=yz_max-yz_min (17)
Cov(X,Y)=E(XY)-E(X)E(Y) (18)
其中E(X)和E(Y)分别是x和y的期望值。
Cov(X_abs,Y_abs)=E(X_absY_abs)-E(X_abs)E(Y_abs) (19)
Cov(X_abs,Y_abs)为绝对坐标X_abs,Y_abs之间的协方差,某种程度上它反 映了被测者头部的晃动。
进一步,采用绝对坐标测量患者的震动。用p表示第i张图片中关键点z的 位置。两个位置之间的欧氏距离定义为:
Figure BDA0003557793260000071
当位移向量较多时,集合P被定义为:
P={pa(1,1),a(1,2),pa(2,1),a(2,2),...pa(N,1),a(N,2)} (21)
其中有N个位移向量。P集合的平均位置为:
Figure BDA0003557793260000072
面部震颤特征公式如下:
Figure BDA0003557793260000073
Figure BDA0003557793260000074
Figure BDA0003557793260000081
Figure BDA0003557793260000082
所述分类模块,用于将提取的所述语音特征与所述面部特征进行整合并送 入设计的包含BP神经网络C1、随机森林C2和支持向量机C3的集成模型投票 系统,进行分类预测.
集成模型投票系统在实际应用时的流程如下,以语音特征为例:
1、得到各自分类器的交叉验证准确率。进行分类之前,首先利用数据集训 练集三种分类器,再利用验证集分别对三种分类器进行10次交叉验证,最终取 10次交叉验证的平均准确率作为三种分类器的交叉验证准确率C1a、C2a、C3a.
2、利用训练好的模型对某受试者执行帕金森疾病诊断任务。此时基于的语 音或面部特征,三种分类器会得到各自的概率输出值,C1分类器对应的是C1p1, C1p2,C2分类器对应的是C2p1,C2p2,C3分类器对应的是C3p1,C3p2
此时基于三种分类器最终的受试者健康未患病(class1)的概率是:
class1=C1a α*C1p1+C2a α*C2p1+C3a α*C3p1 (27)
此时基于三种分类器最终的受试者患病(class2)的概率是:
class2=C1a α*C1p2+C2a α*C2p2+C3a α*C3p2 (28)
其中α经过调参确定值为4,用于对分类器交叉验证精度进行加权,缩小各 自分类器精度估计的差异。
最终经过投票系统,若class1>class2,则分类预测为0则表示健康未患病, 若class1<class2预测结果为1则表示患有帕金森疾病,每种分类模型最后会得 出两个结果,取值为0或1,若为0则表示健康,未患有帕金森疾病,若为1则 表示患有帕金森疾病。最终三个模型基于分类结果进行投票,票数多的结果为 最终的分类预测结果。
基于面部特征的分类流程同上所述,每种分类模型最后会得出两个结果, 取值为0或1,若为0则表示健康,未患有帕金森疾病,若为1则表示患有帕金 森疾病。
考虑不同的帕金森患者在不同的时期表现出的症状不一样,有的可能面部 存在帕金森症状,有的可能语音存在帕金森症状,因此只要两种结果任一一种 被判定为患有帕金森疾病,则认为其患有帕金森疾病。
BP神经网络计算公式如下:
Figure BDA0003557793260000091
经网络的权重,x为提取出来的面部或语音特征。
对于支持向量机模型,首先引入松弛变量与高斯核函数,在超平面集 g(x)=wTx+b中寻找最佳分离超平面wTx+b=0使得训练样本集可容忍的 情况下上正负样本间隔最大,得到训练好的支持向量机分类模型。
对于随机森林分类器,将若干个决策树分类器的分类结果进行投票选择, 从而得出最终的分类结果。
显示模块由初始界面、特征提取前的提示与准备界面、诊断界面组成。
优选的是,所述手势识别模块的使用方法包括检测输入手势,通过摄像头 获取输入参数Inp_ges,当预测结果为指定手势,并且概率值大于所设定阈值时, 会产生“爱心”动画效果,并随着手势保持的时间持续,图像会上移,当“爱 心”图像上移到屏幕顶端时即成功解锁帕金森疾病诊断系统。
优选的是,诊断结束后一定时间,自动退出诊断系统,若要继续诊断,再 次通过指定手势解锁即可。
优选的是,所述数据采集模块中,每0.1s采集一张面部表情图片,共采集 5s时间,同时采集到语音信号、面部表情图片,采集到的面部表情图片按序号 命名。
优选的是,所述图片数据预处理模块将采集到的所有面部图片按名称序号 进行从小到大排序,保证图片的顺序是按时间顺序排列,利用Face++API按顺 序提取所有图片中106个人脸关键点的绝对坐标,根据得到的绝对坐标构建相 对坐标系,并计算得到对应的相对坐标,用于提取面部特征。
优选的是,所述显示模块用于用户和诊断系统进行良好交互,可视化整个 诊断流程,包括显示用户信息、诊断前提示信息、诊断状态、诊断进度、诊断 结果等,使整个诊断流程进行可视化。
优选的是,所述初始界面包括指定手势输入区域,其他区域处于模糊化状 态,通过指定手势可以解锁系统。
优选的是,在刚解锁帕金森疾病诊断系统时,由所述初始界面转变为所述 特征提取前的提示与准备界面,其中的当前状态提示区域将显示诊断前相关文 字说明信息,以及正确的数据采集操作动画,预留一定准备时间以引导用户正 确的进行数据采集。
优选的是,在所述显示模块中,所述诊断界面由当前状态提示区域、诊断 日志、检测区域、病人信息四个区域组成。
优选的是,在诊断过程中,所述诊断界面的四个区域将显示相应的信息, 所述诊断日志区域记录整个诊断流程以及提示诊断进度;所述当前状态提示区 域显示当前所处状态;所述检测区域用于输入用户的脸部图像;所述病人信息 区域用于显示病人信息,并随着诊断的进行,最终会更新出诊断结果。
本发明的有益效果如下:
本发明采集了95个受试者的语音、面部表情图片数据,其中患有帕金森疾 病数量为56人,健康人的数量为39人。提取语音、面部特征送入设计的包含 BP神经网络、随机森林和支持向量机的集成模型投票系统,预测准确率(即正 常人预测为健康,患者预测为患有帕金森疾病)为0.9713639301874596。
附图说明
图1为帕金森疾病诊断系统的总体结构图。
图2为显示模块初始界面示意图。
图3为显示模块特征提取前的提示与准备界面示意图。
图4为显示模块诊断界面示意图。
图5为帕金森疾病诊断系统整体运行的流程图。
图6为实施例1中提取的语音特征参数。
图7为实施例2中提取的面部幅度特征参数。
图8为实施例2中提取的面部震颤特征参数。
图9为实施例3中获取的语音特征参数和面部特征参数。
图10为实施例4中获取的语音特征参数和面部特征参数。
具体实施方式
本发明实施例的一个总体结构如图1所示,包括以下装置:具备windows 操作系统平台的电脑1,电脑1用于控制诊断系统的启动与关闭;装有摄像头、 语音采集设备并且支持外接显示器、录音设备的微型计算机设备3,设备3为 Linux系统,用于诊断系统的开发;连接电脑1与微型计算机设备3的网线2, 通过网线可以建立微型计算机设备与电脑的联系,完成诊断系统的注册。微型 计算机3内的语音采集设备4,用于外接录音设备进行语音数据采集;装在微型 计算机设备3上的摄像头5,用于捕捉画面,用于采集潜在患者的面部图片数据。 显示器7,用于显示摄像头捕捉的画面、可视化诊断过程。连接微型计算机设备3和显示器7的HDMI接口连接线6;还包括微型计算机设备的开关键8。
微型计算机设备3为一种支持编程语言远程开发、深度学习框架、GPU加 速的装有摄像头、语音采集设备并且支持外接显示器、录音设备的微型计算机 设备,该设备自身拥有操作系统,并且可以通过具有操作系统平台的电脑连接 该微型计算机设备,通过编程在该设备上开发帕金森疾病智能诊断系统。并最 终在具有操作系统平台的电脑控制诊断系统的启动与关闭。所开发的诊断系统 包括控制模块、数据获取模块、语音数据预处理模块、图片数据预处理模块、 语音特征提取模块、面部特征提取模块、分类模块、显示模块。
显示模块由系统初始界面、特征提取前的提示与准备界面、诊断界面组成。
系统初始界面示意图如图2所示,包括手势输入区域9;模糊化区域12; 爱心图像10,系统识别出手势即产生爱心图像10,继续保持手势,爱心图像10 则上移,否则爱心图像10消失;屏幕顶端11,当爱心图像10升至屏幕顶端11 时,诊断系统成功解锁。
特征提取前的提示与准备界面如图3所示。包括提示文字显示区域13,该 处进行数据采集操作文字说明信息;动画显示区域14,该区域显示数据采集操 作动画提示信息。
诊断界面如图4所示,包括当前状态提示区域15,诊断日志区域16,检测 区域17,病人信息区域18。
本发明运作的整个流程图如图5所示。系统包括控制模块19,数据获取模 块20表示,语音数据预处理模块21,语音特征提取模块22,面部图片数据预 处理模块23,面部特征提取模块24,分类模块25,显示模块26。通过所有模 块的循环执行,实现了帕金森疾病诊断系统的运作。
下面基于所提出的帕金森疾病诊断系统进行实例演示。
实施例1
基于设备麦克风获取的某受试者语音片段,通过语音特征公式可以提出16 个特征参数,如图6所示。
实施例2
让某个受试者模仿微笑表情,通过摄像头捕捉受试者微笑-不微笑整个过程 的表情图片,基于表情图片与面部特征提取公式获得的所有关键点的面部幅度 特征参数如图7所示。
获得的所有关键点的面部震颤特征如图8所示。
实施例3
某患者解锁诊断系统,根据系统提示模仿微笑表情读一段元音字符,通过 模块20录下音频、采集面部表情图片序列,通过模块21、22、23、24,基于该 音频文件、面部表情图片序列以及上述语音特征公式、面部特征公式提取语音、 面部特征参数;通过模块25将面部特征参数与语音特征参数合并,如图9所示:
通过模块25将数据送入设计的包含BP神经网络、随机森林和支持向量机 的集成模型投票系统,经过预测,显示该受试者患有帕金森疾病,符合实际情 况。
实施例4
某正常人解锁诊断系统,根据系统提示模仿微笑表情读一段元音字符,通 过模块20录下音频、采集面部表情图片序列,通过模块21、22、23、24,基于 该音频文件、面部表情图片序列以及上述语音特征公式、面部特征公式提取语 音、面部特征参数;通过模块25将面部特征参数与语音特征参数合并,如图10 所示。
通过模块25将数据送入设计的包含BP神经网络、随机森林和支持向量机 的集成模型投票系统,经过预测,显示该受试者患有帕金森疾病,符合实际情 况。

Claims (10)

1.一种帕金森疾病诊断系统,包括控制模块、数据获取模块、语音数据预处理模块、图片数据预处理模块、语音特征提取模块、面部特征提取模块、分类模块、显示模块;
所述控制模块包括手势识别模块;当识别结果为指定手势,并且概率值大于所设定阈值,会产生特定的图像;图像随着手势保持的时间上移,当图像上移到预设区域时即解锁诊断系统;诊断结束后一定时间,自动退出诊断系统,继续诊断需再次通过手势识别模块解锁;
所述数据获取模块用于采集潜在患者的语音、面部图片数据;所述语音、面部图片数据包括语音信号与面部表情图片;
所述语音特征提取模块,基于语音特征提取算法提取语音特征,所述语音特征包括基频特征、基频扰动特征、振幅扰动特征;
所述基频特征、基频扰动、振幅扰动特征具体包括如下特征:
所述基频特征包括基频的平均值F0_mean、基频的最大值F0_max,基频的最小值F0_min,基频的中值F0_median,基频的标准差F0_std;
所述基频扰动特征包括Jitter、Jitter_PPQ5、Jitter_rap、Jitter_rap、Jitter_ddp;
所述振幅扰动特征包括Shimmer、Shimmer_dB、Shimmer_APQ5、Shimmer_APQ3、Shimmer_dda、Shimmer_APQ11;
所述语音特征算法如下:
对之前采集的所述语音信号进行短时自相关计算,短时自相关计算函数的定义为:
Figure FDA0003557793250000011
然后对于每一帧的自相关函数,需要找到其第一个过零点之后最大的峰值,其对应的下标k值就是该帧语音对应的基音周期,取倒数就是基频;
所述基频用F0来表示,由于在语音预处理的时候对语音信号进行了分帧处理,所以每一帧都会有一个对应的基频序列;
通过所述基频序列计算基频的平均值F0_mean、基频的最大值F0_max,基频的最小值F0_min,基频的中值F0_median,基频的标准差F0_std;
基音周期Tn定义如下:
Figure FDA0003557793250000012
其中,n表示帧,N代表了帧的总数,F0,n指的是第n帧的基频,Tn指的就是第n帧的基音周期;
通过所述基音周期Tn计算所述Jitter、所述Jitter_PPQ5、所述Jitter_rap、所述Jitter_rap、所述Jitter_ddp;
Figure FDA0003557793250000021
Figure FDA0003557793250000022
Figure FDA0003557793250000023
Figure FDA0003557793250000024
Figure FDA0003557793250000025
振幅A0的定义是:
Figure FDA0003557793250000026
通过振幅A0计算Shimmer、Shimmer_dB、Shimmer_APQ5、Shimmer_APQ3、Shimmer_dda、Shimmer_APQ11;
Figure FDA0003557793250000027
Figure FDA0003557793250000028
Figure FDA0003557793250000029
Figure FDA00035577932500000210
Figure FDA00035577932500000211
Figure FDA0003557793250000031
通过Face++API按时间顺序提取采集的受试者面部表情图片序列中的106个人脸关键点坐标,将获得的关键点坐标由绝对坐标转为相对坐标,转换公式如式16所示;
将眼睛内角两个关键点之间的中点坐标设定为(0,0),作为相对坐标系中坐标原点;连接眼睛内角两个关键点的线设置为x轴,连接鼻子关键点和原点的线设置为y轴,从而创建一个非笛卡尔坐标系;定义双眼内眼角的两个坐标分别为(-1,0)和(1,0),鼻子的坐标为(0,1);式16中(m1,n1)为鼻子绝对坐标值,(b1,b2)和(a1,a2)分别为两个双眼内眼角的绝对坐标;(m2,n2)为要转换的绝对坐标关键点;
Figure FDA0003557793250000032
(x,y)即转换所得的相对坐标,在绝对坐标系中,通过绝对坐标(m2,n2)进行转换;
将面部表情图片序列中第i张图片的关键点z的位置定义为一个向量pi,z=(xi,z,yi,z),其中x和y分别是相对坐标的横坐标和纵坐标;
所述面部特征提取模块基于面部特征提取算法提取面部特征,所述面部特征包括面部幅度特征、面部震颤特征;
所述面部幅度特征算法的公式如下:
Rx_max=xz_max-xz_min (16)
Ry_max=yz_max-yz_min (17)
Cov(X,Y)=E(XY)-E(X)E(Y) (18)
其中E(X)和E(Y)分别是x和y的期望值;
Cov(X_abs,Y_abs)=E(X_absY_abs)-E(X_abs)E(Y_abs) (19)
Cov(X_abs,Y_abs)为绝对坐标X_abs,Y_abs之间的协方差;
同时采用绝对坐标测量患者的震动;用p表示第i张图片中关键点z的位置,两个位置之间的欧氏距离定义为:
Figure FDA0003557793250000041
当位移向量较多时,集合P被定义为:
P={pa(1,1),a(1,2),pa(2,1),a(2,2),...pa(N,1),a(N,2)} (21)
其中有N个位移向量,P集合的平均位置为:
Figure FDA0003557793250000042
计算所述面部震颤特征的公式如下:
Figure FDA0003557793250000043
Figure FDA0003557793250000044
Figure FDA0003557793250000045
Figure FDA0003557793250000046
所述分类模块,用于将提取的所述语音特征与所述面部特征进行整合并送入设计的包含BP神经网络C1、随机森林C2和支持向量机C3的集成模型投票系统,进行分类预测;
集成模型投票系统在实际应用时的流程如下:
S1.得到各自分类器的交叉验证准确率;进行分类之前,首先利用数据集训练三种分类器,再利用验证集分别对三种分类器进行10次交叉验证,最终取10次交叉验证的平均准确率作为所述BP神经网络C1、所述随机森林C2和所述支持向量机C3的交叉验证准确率C1a、C2a、C3a
S2.利用训练好的模型对受试者执行帕金森疾病诊断任务;此时基于的语音或面部特征,三种分类器会得到各自的概率输出值,C1分类器对应的是C1p1,C1p2,C2分类器对应的是C2p1,C2p2,C3分类器对应的是C3p1,C3p2
此时基于三种分类器最终的受试者健康未患病概率class1是:
class1=C1a α*C1p1+C2a α*C2p1+C3a α*C3p1 (27)
此时基于三种分类器最终的受试者患病概率class2是:
class2=C1a α*C1p2+C2a α*C2p2+C3a α*C3p2 (28)
其中α的值为4;
最终经过投票系统,若健康未患病概率class1>患病概率class2,则分类预测为0,表示健康未患病;若健康未患病概率class1<患病概率class2,预测结果为1,则表示患有帕金森疾病;每种分类模型最后会得出两个结果,取值为0或1,最终三个模型基于分类结果进行投票,票数多的结果为最终的分类预测结果;基于语音或面部特征,只要所述语音特征与面部特征的预测结果中任一一种被判定为患有帕金森疾病,则认为受试者患有帕金森疾病;
所述显示模块,由初始界面、特征提取前的提示与准备界面、诊断界面组成。
2.根据权利要求1所述的帕金森疾病诊断系统,其特征在于,所述手势识别模块的使用方法包括检测输入手势,通过摄像头获取输入参数Inp_ges,当预测结果为指定手势,并且概率值大于所设定阈值时,会产生“爱心”动画效果,并随着手势保持的时间持续,图像会上移,当“爱心”图像上移到屏幕顶端时即成功解锁帕金森疾病诊断系统。
3.根据权利要求2所述的帕金森疾病诊断系统,其特征在于,诊断结束后一定时间,自动退出诊断系统,若要继续诊断,再次通过指定手势解锁即可。
4.根据权利要求1所述的帕金森疾病诊断系统,其特征在于,所述数据采集模块中,每0.1s采集一张面部表情图片,共采集5s时间,同时采集到语音信号、面部表情图片,采集到的面部表情图片按序号命名。
5.根据权利要求1所述的帕金森疾病诊断系统,其特征在于,所述图片数据预处理模块将采集到的所有面部图片按名称序号进行从小到大排序,保证图片的顺序是按时间顺序排列,利用Face++API按顺序提取所有图片中106个人脸关键点的绝对坐标,根据得到的绝对坐标构建相对坐标系,并计算得到对应的相对坐标,用于提取面部特征。
6.根据权利要求1所述的帕金森疾病诊断系统,其特征在于,所述显示模块用于用户和诊断系统进行良好交互,可视化整个诊断流程,包括显示用户信息、诊断前提示信息、诊断状态、诊断进度、诊断结果等,使整个诊断流程进行可视化。
7.根据权利要求1所述的帕金森疾病诊断系统,其特征在于,所述初始界面包括指定手势输入区域,其他区域处于模糊化状态,通过指定手势可以解锁系统。
8.根据权利要求1所述的帕金森疾病诊断系统,其特征在于,在刚解锁帕金森疾病诊断系统时,由所述初始界面转变为所述特征提取前的提示与准备界面,其中的当前状态提示区域将显示诊断前相关文字说明信息,以及正确的数据采集操作动画,预留一定准备时间以引导用户正确的进行数据采集。
9.根据权利要求1所述的帕金森疾病诊断系统,其特征在于,在所述显示模块中,所述诊断界面由当前状态提示区域、诊断日志、检测区域、病人信息四个区域组成。
10.根据权利要求9所述的帕金森疾病诊断系统,其特征在于,在诊断过程中,所述诊断界面的四个区域将显示相应的信息,所述诊断日志区域记录整个诊断流程以及提示诊断进度;所述当前状态提示区域显示当前所处状态;所述检测区域用于输入用户的脸部图像;所述病人信息区域用于显示病人信息,并随着诊断的进行,最终会更新出诊断结果。
CN202210280920.8A 2022-08-26 2022-08-26 一种帕金森疾病诊断系统 Pending CN115101191A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210280920.8A CN115101191A (zh) 2022-08-26 2022-08-26 一种帕金森疾病诊断系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210280920.8A CN115101191A (zh) 2022-08-26 2022-08-26 一种帕金森疾病诊断系统

Publications (1)

Publication Number Publication Date
CN115101191A true CN115101191A (zh) 2022-09-23

Family

ID=83287672

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210280920.8A Pending CN115101191A (zh) 2022-08-26 2022-08-26 一种帕金森疾病诊断系统

Country Status (1)

Country Link
CN (1) CN115101191A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115985490A (zh) * 2023-03-17 2023-04-18 四川大学华西医院 一种帕金森疾病客观化、定量化早期诊断系统及存储介质
CN116052872A (zh) * 2023-01-06 2023-05-02 南昌大学 一种基于面部表情的帕金森疾病智能数据评估方法和系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116052872A (zh) * 2023-01-06 2023-05-02 南昌大学 一种基于面部表情的帕金森疾病智能数据评估方法和系统
CN116052872B (zh) * 2023-01-06 2023-10-13 南昌大学 一种基于面部表情的帕金森疾病智能数据评估方法和系统
CN115985490A (zh) * 2023-03-17 2023-04-18 四川大学华西医院 一种帕金森疾病客观化、定量化早期诊断系统及存储介质
CN115985490B (zh) * 2023-03-17 2023-06-13 四川大学华西医院 一种帕金森疾病客观化、定量化早期诊断系统及存储介质

Similar Documents

Publication Publication Date Title
US11989340B2 (en) Systems, methods, apparatuses and devices for detecting facial expression and for tracking movement and location in at least one of a virtual and augmented reality system
CN111728609B (zh) 脑电信号的分类方法、分类模型的训练方法、装置及介质
CN111225612A (zh) 基于机器学习的神经障碍识别和监测系统
CN115101191A (zh) 一种帕金森疾病诊断系统
WO2020119355A1 (zh) 自闭症谱系障碍患者的多模态情感认知能力的评估方法
US11699529B2 (en) Systems and methods for diagnosing a stroke condition
CN111920420B (zh) 一种基于统计学习的患者行为多模态分析与预测系统
CN113317763A (zh) 基于多模态的帕金森病检测装置及计算机可读存储介质
CN116807476B (zh) 基于界面式情感交互的多模态心理健康评估系统及方法
CN117438048B (zh) 一种精神科患者用心理障碍测评方法及系统
CN115064246A (zh) 一种基于多模态信息融合的抑郁症评估系统及设备
CN111222464B (zh) 情感分析方法以及系统
CN112890815A (zh) 一种基于深度学习的孤独症辅助评估系统和方法
Pereira et al. Physiotherapy Exercises Evaluation using a Combined Approach based on sEMG and Wearable Inertial Sensors.
CN114565957A (zh) 基于微表情识别的意识评估方法及系统
Skaramagkas et al. Multi-modal Deep Learning Diagnosis of Parkinson’s Disease-A Systematic Review
Cheng et al. Computer-aided autism spectrum disorder diagnosis with behavior signal processing
CN114035678A (zh) 一种基于深度学习和虚拟现实的辅助判断方法
WO2024038134A1 (en) Methods and devices in performing a vision testing procedure on a person
CN115813343A (zh) 儿童行为异常评估方法和系统
Gu et al. AI-Driven Depression Detection Algorithms from Visual and Audio Cues
Mantri et al. Real time multimodal depression analysis
WO2019227690A1 (zh) 行为范式指标的筛选及其应用
CN219439095U (zh) 一种用于婴儿早期神经功能评测的智能诊断设备
WO2023190391A1 (ja) 疾患該当性判定プログラム及び疾患該当性判定装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination