CN114400026A - 基于语音特征选择的帕金森病患者updrs得分预测方法 - Google Patents

基于语音特征选择的帕金森病患者updrs得分预测方法 Download PDF

Info

Publication number
CN114400026A
CN114400026A CN202210114255.5A CN202210114255A CN114400026A CN 114400026 A CN114400026 A CN 114400026A CN 202210114255 A CN202210114255 A CN 202210114255A CN 114400026 A CN114400026 A CN 114400026A
Authority
CN
China
Prior art keywords
voice
feature set
feature
features
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210114255.5A
Other languages
English (en)
Inventor
张涛
薛在发
卢辉斌
李林
汪洋
牛晓霞
田静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yanshan University
Original Assignee
Yanshan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yanshan University filed Critical Yanshan University
Priority to CN202210114255.5A priority Critical patent/CN114400026A/zh
Publication of CN114400026A publication Critical patent/CN114400026A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/66Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开实施例公开了一种基于语音特征选择的帕金森病患者UPDRS得分预测方法,所述方法包括:选取UCI数据库中帕金森病远程监测数据集数据;根据计算得到的所述待分析语音特征与UPDRS得分之间的最大信息系数MIC值,从所述待分析语音特征中选取预设比例的第一语音特征;将所述第一语音特征进行聚类得到若干簇的语音特征集;对每一簇的语音特征集进行处理:将每一簇的语音特征集经过处理得到的所述已选特征集中的语音特征汇总,作为预测所述UPDRS得分的语音特征。上述技术方案通过对每类中的特征进行选择,有利于减少特征之间的冗余性,最终确定的已选特征集中的语音特征具有相关性高,冗余性低和互补性高的特点,能有效提升帕金森病患者UPDRS得分预测的准确性。

Description

基于语音特征选择的帕金森病患者UPDRS得分预测方法
技术领域
本公开涉及数据处理技术领域,具体涉及一种基于语音特征选择的帕金森病患者UPDRS得分预测方法。
背景技术
语音信号中包含丰富的信息,具有采集方便,非接触,易接受等优点,使得其在人工智能和医疗诊断等多个领域具有广泛应用。尤其在医疗领域,根据语音信号提取相应的特征以表示不同的信息,可以解决多个现实的医疗诊断问题。因此,通过采集语音信号并提取相应的特征近年来已被证明是一种有效的医疗诊断方式。随着科技的不断进步,语音数据规模也在增大,从而出现了“维数灾难”等问题,根据实际需求降低语音特征维数已成为亟待解决的问题。
发明内容
为了解决相关技术中的问题,本公开实施例提供一种基于语音特征选择的帕金森病患者UPDRS得分预测方法。
第一方面,本公开实施例中提供了一种基于语音特征选择的帕金森病患者UPDRS得分预测方法。
具体地,所述基于语音特征选择的帕金森病患者UPDRS得分预测方法,包括:
选取UCI数据库中帕金森病远程监测数据集数据,其中包括每位患者的待分析语音特征以及UPDRS得分;
根据计算得到的所述待分析语音特征与UPDRS得分之间的最大信息系数MIC值,从所述待分析语音特征中选取预设比例的第一语音特征;
将所述第一语音特征进行聚类得到若干簇的语音特征集;
对每一簇的语音特征集进行如下处理:
将其中MIC值最大的语音特征加入已选特征集,其余语音特征加入候选特征集;
根据候选特征集中每一语音特征与UPDRS得分之间的MIC值、以及计算得到的候选特征集每一语音特征与已选特征集中语音特征的MIC值,确定候选特征集中每一语音特征与已选特征集的互补性Cf值;
根据所述Cf值的大小降序排列候选特征集中的语音特征,并依照排序依次将所述候选特征集中的语音特征加入所述已选特征集;
将加入所述候选特征集中的语音特征前后的已选特征集中的语音特征分别输入至UPDRS得分预测模型,并根据预测结果的相对大小确定是否将所述候选特征集中的语音特征加入所述已选特征集;
将每一簇的语音特征集经过处理得到的所述已选特征集中的语音特征汇总,作为预测所述UPDRS得分的语音特征。
可选地,所述待分析语音特征与UPDRS得分之间的最大信息系数MIC值采用如下方式计算得到:
待分析语音特征与UPDRS得分构成有序对集合D={(fk,yk),k=1,2,…,M},其中,f表示待分析语音特征,y表示UPDRS得分,M表示样本容量;
进行网格划分,将f的值域划分为a段,将y的值域分成b段,定义a×b的网格为G;
计算每个网格中f与y的互信息MI(f,y),所述互信息定义为:
Figure BDA0003495736410000021
其中,p(fk,yk)表示f和y之间的联合概率分布函数,由落入某个小网格的数量占样本容量的比例近似得出;p(fk)和p(yk)分别表示f和y的边缘概率分布函数;
取不同划分方式下产生的最大互信息值,记为MI′,作为网格G的互信息值;给定网格G下D的最大互信息公式为:
MI′(D,a,b)=maxMI(D|G)
其中,D|G表示给定网格G之后D的不同分布;
将不同划分方式下的MI′进行归一化,得到归一化互信息值C(D)a,b
Figure BDA0003495736410000031
则f与y之间最大信息系数MIC值的定义为:
Figure BDA0003495736410000032
其中,B(M)表示网格G划分的上限值。
可选地,所述将所述第一语音特征进行聚类得到若干簇的语音特征集,包括:
将所述第一语音特征输入自组织映射网络SOM,确定所述第一语音特征与SOM中竞争层中L个神经元之间的相似度dis=‖f(t)-Wv(t)‖,其中,v=1,…,L;W表示神经元对应的权重向量,t表示当前时刻;
遍历所有神经元之后,使得dis最小的神经元称为最佳匹配单元BMU,每一时刻只有BMU神经元被激活;BMU邻域内神经元的权重向量根据学习率η(t,d)的变化进行更新:Wv(t+1)=Wv(t)+η(t,d)(f(t)-Wv(t));
迭代T次之后,获取竞争层各个神经元的权重向量W,通过判断所述第一语音特征和竞争层中每个神经元的最短距离,将所述第一语音特征映射到竞争层的二维平面上,从而将所述第一语音特征聚为N′类。
可选地,所述互补性Cf值按照以下公式计算得到:
对候选特征集中每一语音特征与已选特征集中语音特征之间的平均冗余性Rf进行计算:
Figure BDA0003495736410000033
其中,Fs表示已选特征集,fi表示已选特征集中语音特征,|Fs|表示已选特征集Fs中语音特征的数量;
按照以下公式计算候选特征集中每一语音特征与已选特征集的互补性Cf值:
Figure BDA0003495736410000034
可选地,所述根据预测结果的相对大小确定是否将所述候选特征集中的语音特征加入所述已选特征集,包括:
按照以下公式进行评估:
Figure BDA0003495736410000041
其中,MAE表示平均绝对误差,M′表示测试样本的数量,yk和y′k分别表示实际值和模型预测值;
如果MAE(Fs′)≤MAE(Fs)则将语音特征f加入已选特征集Fs,并从候选特征集Fc中删除f;
如果MAE(Fs′)>MAE(Fs)则将Fc中第二个特征加入已选特征集Fs中判断MAE的相对大小,以此类推,完成该类的语音特征选择;
其中,Fs′为将所述候选特征集中的语音特征加入后的已选特征集。
可选地,所述UPDRS得分预测模型为随机森林RF预测模型。
可选地,还包括:
利用汇总所述已选特征集中的语音特征预测帕金森病患者UPDRS得分。
第二方面,本公开实施例中提供了一种基于语音特征选择的帕金森病患者UPDRS得分预测装置。
具体地,所述基于语音特征选择的帕金森病患者UPDRS得分预测装置,包括:
获取模块,被配置为选取UCI数据库中帕金森病远程监测数据集数据,其中包括每位患者的待分析语音特征以及UPDRS得分;
选取模块,被配置为根据计算得到的所述待分析语音特征与UPDRS得分之间的最大信息系数MIC值,从所述待分析语音特征中选取预设比例的第一语音特征;
聚类模块,被配置为将所述第一语音特征进行聚类得到若干簇的语音特征集;
处理模块,被配置为对每一簇的语音特征集进行如下处理:
将其中MIC值最大的语音特征加入已选特征集,其余语音特征加入候选特征集;
根据候选特征集中每一语音特征与UPDRS得分之间的MIC值、以及计算得到的候选特征集每一语音特征与已选特征集中语音特征的MIC值,确定候选特征集中每一语音特征与已选特征集的互补性Cf值;
根据所述Cf值的大小降序排列候选特征集中的语音特征,并依照排序依次将所述候选特征集中的语音特征加入所述已选特征集;
将加入所述候选特征集中的语音特征前后的已选特征集中的语音特征分别输入至UPDRS得分预测模型,并根据预测结果的相对大小确定是否将所述候选特征集中的语音特征加入所述已选特征集;
汇总模块,被配置为将每一簇的语音特征集经过处理得到的所述已选特征集中的语音特征汇总,作为预测所述UPDRS得分的语音特征。
第三方面,本公开实施例提供了一种电子设备,包括存储器和处理器,其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现如第一方面任一项所述的方法。
第四方面,本公开实施例中提供了一种可读存储介质,其上存储有计算机指令,该计算机指令被处理器执行时实现如第一方面任一项所述的方法。
本公开实施例提供的技术方案可以包括以下有益效果:
本公开实施例提供的基于语音特征选择的帕金森病患者UPDRS得分预测方法,通过对待分析的语音特征与帕金森病患者UPDRS得分之间相关性进行计算,保留相关度高的语音特征,然后将与UPDRS得分相关性高的语音特征进行聚类,分别对每类中的语音特征进行分析,大大减少了后续特征选择步骤的计算量,通过分别对每类中的候选特征进行重要度评估,可以动态地更新候选特征与已选特征集之间的互补程度,由于每类中的特征相似度较高,通过该方法对每类中的特征进行选择,有利于减少特征之间的冗余性,最终确定的已选特征集中的语音特征具有相关性高,冗余性低和互补性高的特点,能有效提升帕金森病患者UPDRS得分预测的准确性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
结合附图,通过以下非限制性实施方式的详细描述,本公开的其它特征、目的和优点将变得更加明显。在附图中:
图1示出根据本公开实施例的基于语音特征选择的帕金森病患者UPDRS得分预测方法的流程图;
图2示出根据本公开实施例的选取第一语音特征的示意图;
图3示出根据本公开的实施例的基于语音特征选择的帕金森病患者UPDRS得分预测装置的结构框图;
图4示出根据本公开的实施例的电子设备的结构框图;
图5示出适于用来实现根据本公开实施例的基于语音特征选择的帕金森病患者UPDRS得分预测方法的计算机系统的结构示意图。
具体实施方式
下文中,将参考附图详细描述本公开的示例性实施例,以使本领域技术人员可容易地实现它们。此外,为了清楚起见,在附图中省略了与描述示例性实施例无关的部分。
在本公开中,应理解,诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在,并且不欲排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。
另外还需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
语音信号中包含丰富的信息,具有采集方便,非接触,易接受等优点,使得其在人工智能和医疗诊断等多个领域具有广泛应用。尤其在医疗领域,根据语音信号提取相应的特征以表示不同的信息,可以解决多个现实的医疗诊断问题。因此,通过采集语音信号并提取相应的特征近年来已被证明是一种有效的医疗诊断方式。随着科技的不断进步,语音数据规模也在增大,从而出现了“维数灾难”等问题,根据实际需求降低语音特征维数已成为亟待解决的问题。
为至少部分地解决发明人发现的现有技术中的问题而提出本公开。
图1示出根据本公开实施例的基于语音特征选择的帕金森病患者UPDRS得分预测方法的流程图。
如图1所示,所述基于语音特征选择的帕金森病患者UPDRS得分预测方法包括以下步骤S101-S105:
在步骤S101中,选取UCI数据库中帕金森病远程监测数据集数据,其中包括每位患者的待分析语音特征以及UPDRS得分;
在步骤S102中,根据计算得到的所述待分析语音特征与UPDRS得分之间的最大信息系数MIC值,从所述待分析语音特征中选取预设比例的第一语音特征;
在步骤S103中,将所述第一语音特征进行聚类得到若干簇的语音特征集;
在步骤S104中,对每一簇的语音特征集进行如下处理:
将其中MIC值最大的语音特征加入已选特征集,其余语音特征加入候选特征集;
根据候选特征集中每一语音特征与UPDRS得分之间的MIC值、以及计算得到的候选特征集每一语音特征与已选特征集中语音特征的MIC值,确定候选特征集中每一语音特征与已选特征集的互补性Cf值;
根据所述Cf值的大小降序排列候选特征集中的语音特征,并依照排序依次将所述候选特征集中的语音特征加入所述已选特征集;
将加入所述候选特征集中的语音特征前后的已选特征集中的语音特征分别输入至UPDRS得分预测模型,并根据预测结果的相对大小确定是否将所述候选特征集中的语音特征加入所述已选特征集;
在步骤S105中,将每一簇的语音特征集经过处理得到的所述已选特征集中的语音特征汇总,作为预测所述UPDRS得分的语音特征。
本公开实施例提供的基于语音特征选择的帕金森病患者UPDRS(UnifiedParkinson's Disease Rating Scale,UPDRS)得分预测方法,通过对待分析的语音特征与帕金森病患者UPDRS得分之间相关性进行计算,保留相关度高的语音特征,然后将与UPDRS得分相关性高的语音特征进行聚类,分别对每类中的语音特征进行分析,大大减少了后续特征选择步骤的计算量,通过分别对每类中的候选特征进行重要度评估,可以动态地更新候选特征与已选特征集之间的互补程度,由于每类中的特征相似度较高,通过该方法对每类中的特征进行选择,有利于减少特征之间的冗余性,最终确定的已选特征集中的语音特征具有相关性高,冗余性低和互补性高的特点,能有效提升帕金森病患者UPDRS得分预测的准确性。
根据本公开的实施例,步骤S102中所述待分析语音特征与UPDRS得分之间的最大信息系数MIC(Maximal Information Coefficient,MIC)值采用如下方式计算得到:
A1:待分析语音特征与UPDRS得分构成有序对集合D={(fk,yk),k=1,2,…,M},其中,f表示待分析语音特征,为D中一个特征向量,y表示UPDRS得分,M表示样本容量;例如M可以取值为5875;
A2:进行网格划分,将f的值域划分为a段,将y的值域分成b段,定义a×b的网格为G;一般地,a×b的值要小于M0.6≈182,a和b可以均取值为13,则G为13×13的网格,网格划分的大小固定后,划分位置可以任意选取;
A3:计算每个网格中f与y的互信息MI(f,y),所述互信息定义为:
Figure BDA0003495736410000081
其中,p(fk,yk)表示f和y之间的联合概率分布函数,由落入某个小网格的数量占样本容量的比例近似得出;p(fk)和p(yk)分别表示f和y的边缘概率分布函数;
A4:取不同划分方式下产生的最大互信息值,记为MI′,作为网格G的互信息值;给定网格G下D的最大互信息公式为:
MI′(D,a,b)=maxMI(D|G)
其中,D|G表示给定网格G之后D的不同分布;
A5:将不同划分方式下的MI′进行归一化,得到归一化互信息值C(D)a,b
Figure BDA0003495736410000082
则f与y之间最大信息系数MIC值的定义为:
Figure BDA0003495736410000083
其中,B(M)表示网格G划分的上限值,一般地,B(M)=M0.6
根据本公开的实施例,分别计算所有的待分析语音特征与UPDRS得分之间的MIC值,降序排列,删除例如后20%相关性较低的特征,保留80%相关度较高的第一语音特征;示例的,语音特征总数量为18,删除20%之后,剩余14个与UPDRS得分相关度高的第一语音特征。
图2示出根据本公开实施例的选取第一语音特征的示意图。例如图2所示,假设特征集为{Age,Sex,Jitter(%),Jitter(Abs),Jitter:RAP,Jitter:PPQ5,Jitter:DDP,Shimmer,Shimmer(dB),Shimmer:APQ3,Shimmer:APQ5,Shimmer:APQ11,Shimmer:DDA,NHR,HNR,RPDE,DFA,PPE},UPDRS得分为motor-UPDRS或total-UPDRS,表示疾病的严重程度。按照步骤A1-A5计算出各个语音特征与UPDRS得分之间的MIC值,并按照MIC值对待分析语音特征降序排序,对于motor-UPDRS和total-UPDRS,需删除MIC值较小的4个特征Jitter(%),Jitter:RAP,Jitter:DDP和NHR,保留剩余的14个特征。
根据本公开的实施例,步骤S103中所述将所述第一语音特征进行聚类得到若干簇的语音特征集,包括:
B1:将所述第一语音特征输入自组织映射网络SOM(Self-organizing map,SOM),确定所述第一语音特征与SOM中竞争层中L个神经元之间的相似度dis=‖f(t)-Wv(t)‖,其中,v=1,…,L;W表示神经元对应的权重向量,t表示当前时刻;具体地,L可以取值为4,也可以取其他值,在此不做限制,对W随机初始化,可以取值为W=[0.01,0.2,…,0.08],W的维数为5875,与M相同,相似度dis的衡量可以包括欧式距离,余弦相似度等多种相似度计算方法,在此不做限制;
B2:遍历所有神经元之后,使得dis最小的神经元称为最佳匹配单元BMU(BestMatching Unit,BMU),每一时刻只有BMU神经元被激活;BMU邻域内神经元的权重向量根据学习率η(t,d)的变化进行更新:Wv(t+1)=Wv(t)+η(t,d)(f(t)-Wv(t));随着训练时间t以及邻域内神经元与BMU之间的拓扑距离d的增大,η不断下降,例如,η(t,d)=(-t+0.9)·d,d表示BMU和其邻域节点的欧氏距离与时间t之间的比值,η(t,d)也可以取其他值,在此不做限制;
B3:迭代T次之后,获取竞争层各个神经元的权重向量W,通过判断所述第一语音特征和竞争层中每个神经元的最短距离,将所述第一语音特征映射到竞争层的二维平面上,从而将所述第一语音特征聚为N′类,例如,迭代次数T=1000,语音特征聚类个数为N′=4。
例如,将步骤S102得到的14个特征输入自组织映射网络SOM中,按照步骤B1至B3得到4个类,第一类至第四类中的特征分别是:
{Age,HNR,RPDE,DFA},
{Sex},
{Jitter(Abs),Jitter:PPQ5,Shimmer,Shimmer(dB),Shimmer:APQ3,Shimmer:APQ5,Shimmer:APQ11,Shimmer:DDA},
{PPE}。
根据本公开的实施例,步骤S104中所述互补性Cf值按照以下公式计算得到:
C1:对候选特征集中每一语音特征与已选特征集中语音特征之间的平均冗余性Rf进行计算:
Figure BDA0003495736410000101
其中,Fs表示已选特征集,fi表示已选特征集中语音特征,|Fs|表示已选特征集Fs中语音特征的数量;
例如,得到的4个类中,第一类包含4个语音特征,将MIC值最大所对应的语音特征加入已选特征集,此时,|Fs|=1,除了加入已选特征集的1个特征,还剩余3个候选特征,分别利用上式计算,将会得到3个Rf值。
C2:按照以下公式计算候选特征集中每一语音特征与已选特征集的互补性Cf值:
Figure BDA0003495736410000102
其中,Cf将相关性和冗余性进行结合以度量候选特征的重要性,也代表了候选特征集中的语音特征与已选特征集的互补程度。Cf越大,表示该候选语音特征和已选特征集的互补性越大。同理,对于第一类中的每个语音特征,计算得到3个Cf值。
根据本公开的实施例,按照Cf值的大小对候选语音特征进行排序,构成候选特征集Fc。将Fc中第一个候选特征f加入已选特征集Fs组成新的特征集Fs′。例如,对于第一类中的每个语音特征,已选特征集Fs中特征数为1,候选特征集Fc中的特征数为3,将最大Cf值对应的特征f加入已选特征集之后,组成新的特征集Fs′中的特征数为2。
在本公开方式中,步骤S104中所述根据预测结果的相对大小确定是否将所述候选特征集中的语音特征加入所述已选特征集,包括:
按照以下公式进行评估:
Figure BDA0003495736410000111
其中,MAE表示平均绝对误差,M′表示测试样本的数量,例如,本公开实施例按照8:1:1的比例随机地将数据集划分为训练集,验证集和测试集,在动态特征选择的过程中,使用训练集进行特征选择,验证集用来评估已选特征子集的质量,测试集用来测试特征选择框架与分类器或回归器相结合的预测模型的性能,如样本容量M=5875,那么测试样本数量M’=M×(1/10)=587,yk和y′k分别表示实际值和模型预测值;MAE值越小表示真实值与预测值之间的偏差越小,预测性能更好;
如果MAE(Fs′)≤MAE(Fs)则将语音特征f加入已选特征集Fs,并从候选特征集Fc中删除f;
如果MAE(Fs′)>MAE(Fs)则将Fc中第二个特征加入已选特征集Fs中判断MAE的相对大小,以此类推,完成该类的语音特征选择;
其中,Fs′为将所述候选特征集中的语音特征加入后的已选特征集。
在本公开方式中,所述UPDRS得分预测模型为随机森林RF(Random Forest,RF)预测模型。根据互补性Cf值由大到小的顺序对所述候选特征集中的语音特征进行排序,依次输入至随机森林RF预测模型,通过所述RF预测模型性能提升与否判定所述候选特征能否加入所述已选特征集,获取各类中语音特征的互补性Cf值,更新所述候选特征集和已选特征集。根据本公开的实施例,所述方法还包括:
利用汇总所述已选特征集中的语音特征预测帕金森病患者UPDRS得分。
例如,按照步骤S104判断候选特征集中的语音特征是否能加入已选特征集,按照步骤S105对所有类中的语音特征进行选择并汇总,确定最终的已选特征集Fs包含8个语音特征,即{Age,RPDE,DFA,HNR,Sex,Shimmer:APQ3,Jitter(Abs),Shimmer:APQ11}。将Fs中的语音特征输入RF预测模型,即可预测motor-UPDRS和total-UPDRS。
图3示出根据本公开的实施例的基于语音特征选择的帕金森病患者UPDRS得分预测装置的结构框图。其中,该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。如图3所示,所述基于语音特征选择的帕金森病患者UPDRS得分预测装置300包括获取模块310、选取模块320、聚类模块330、处理模块340和汇总模块350。
所述获取模块310被配置为选取UCI数据库中帕金森病远程监测数据集数据,其中包括每位患者的待分析语音特征以及UPDRS得分;
所述选取模块320被配置为根据计算得到的所述待分析语音特征与UPDRS得分之间的最大信息系数MIC值,从所述待分析语音特征中选取预设比例的第一语音特征;
所述聚类模块330被配置为将所述第一语音特征进行聚类得到若干簇的语音特征集;
所述处理模块340被配置为对每一簇的语音特征集进行如下处理:
将其中MIC值最大的语音特征加入已选特征集,其余语音特征加入候选特征集;
根据候选特征集中每一语音特征与UPDRS得分之间的MIC值、以及计算得到的候选特征集每一语音特征与已选特征集中语音特征的MIC值,确定候选特征集中每一语音特征与已选特征集的互补性Cf值;
根据所述Cf值的大小降序排列候选特征集中的语音特征,并依照排序依次将所述候选特征集中的语音特征加入所述已选特征集;
将加入所述候选特征集中的语音特征前后的已选特征集中的语音特征分别输入至UPDRS得分预测模型,并根据预测结果的相对大小确定是否将所述候选特征集中的语音特征加入所述已选特征集;
所述汇总模块350被配置为将每一簇的语音特征集经过处理得到的所述已选特征集中的语音特征汇总,作为预测所述UPDRS得分的语音特征。
本公开实施例的基于语音特征选择的帕金森病患者UPDRS得分预测装置,通过对待分析的语音特征与帕金森病患者UPDRS得分之间相关性进行计算,保留相关度高的语音特征,然后将与UPDRS得分相关性高的语音特征进行聚类,分别对每类中的语音特征进行分析,大大减少了后续特征选择步骤的计算量,通过分别对每类中的候选特征进行重要度评估,可以动态地更新候选特征与已选特征集之间的互补程度,由于每类中的特征相似度较高,通过该方法对每类中的特征进行选择,有利于减少特征之间的冗余性,最终确定的已选特征集中的语音特征具有相关性高,冗余性低和互补性高的特点,能有效提升帕金森病患者UPDRS得分预测的准确性。
本公开还公开了一种电子设备,图4示出根据本公开的实施例的电子设备的结构框图。
如图4所示,所述电子设备400包括存储器401和处理器402;其中,
所述存储器401用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器402执行以实现以下方法步骤:
选取UCI数据库中帕金森病远程监测数据集数据,其中包括每位患者的待分析语音特征以及UPDRS得分;
根据计算得到的所述待分析语音特征与UPDRS得分之间的最大信息系数MIC值,从所述待分析语音特征中选取预设比例的第一语音特征;
将所述第一语音特征进行聚类得到若干簇的语音特征集;
对每一簇的语音特征集进行如下处理:
将其中MIC值最大的语音特征加入已选特征集,其余语音特征加入候选特征集;
根据候选特征集中每一语音特征与UPDRS得分之间的MIC值、以及计算得到的候选特征集每一语音特征与已选特征集中语音特征的MIC值,确定候选特征集中每一语音特征与已选特征集的互补性Cf值;
根据所述Cf值的大小降序排列候选特征集中的语音特征,并依照排序依次将所述候选特征集中的语音特征加入所述已选特征集;
将加入所述候选特征集中的语音特征前后的已选特征集中的语音特征分别输入至UPDRS得分预测模型,并根据预测结果的相对大小确定是否将所述候选特征集中的语音特征加入所述已选特征集;
将每一簇的语音特征集经过处理得到的所述已选特征集中的语音特征汇总,作为预测所述UPDRS得分的语音特征。
根据本公开的实施例,所述待分析语音特征与UPDRS得分之间的最大信息系数MIC值采用如下方式计算得到:
待分析语音特征与UPDRS得分构成有序对集合D={(fk,yk),k=1,2,…,M},其中,f表示待分析语音特征,y表示UPDRS得分,M表示样本容量;
进行网格划分,将f的值域划分为a段,将y的值域分成b段,定义a×b的网格为G;
计算每个网格中f与y的互信息MI(f,y),所述互信息定义为:
Figure BDA0003495736410000141
其中,p(fk,yk)表示f和y之间的联合概率分布函数,由落入某个小网格的数量占样本容量的比例近似得出;p(fk)和p(yk)分别表示f和y的边缘概率分布函数;
取不同划分方式下产生的最大互信息值,记为MI′,作为网格G的互信息值;给定网格G下D的最大互信息公式为:
MI′(D,a,b)=maxMI(D|G)
其中,D|G表示给定网格G之后D的不同分布;
将不同划分方式下的MI′进行归一化,得到归一化互信息值C(D)a,b
Figure BDA0003495736410000142
则f与y之间最大信息系数MIC值的定义为:
Figure BDA0003495736410000143
其中,B(M)表示网格G划分的上限值。
根据本公开的实施例,所述将所述第一语音特征进行聚类得到若干簇的语音特征集,包括:
将所述第一语音特征输入自组织映射网络SOM,确定所述第一语音特征与SOM中竞争层中L个神经元之间的相似度dis=‖f(t)-Wv(t)‖,其中,v=1,…,L;W表示神经元对应的权重向量,t表示当前时刻;
遍历所有神经元之后,使得dis最小的神经元称为最佳匹配单元BMU,每一时刻只有BMU神经元被激活;BMU邻域内神经元的权重向量根据学习率η(t,d)的变化进行更新:Wv(t+1)=Wv(t)+η(t,d)(f(t)-Wv(t));
迭代T次之后,获取竞争层各个神经元的权重向量W,通过判断所述第一语音特征和竞争层中每个神经元的最短距离,将所述第一语音特征映射到竞争层的二维平面上,从而将所述第一语音特征聚为N′类。
根据本公开的实施例,所述互补性Cf值按照以下公式计算得到:
对候选特征集中每一语音特征与已选特征集中语音特征之间的平均冗余性Rf进行计算:
Figure BDA0003495736410000151
其中,Fs表示已选特征集,fi表示已选特征集中语音特征,|Fs|表示已选特征集Fs中语音特征的数量;
按照以下公式计算候选特征集中每一语音特征与已选特征集的互补性Cf值:
Figure BDA0003495736410000152
根据本公开的实施例,所述根据预测结果的相对大小确定是否将所述候选特征集中的语音特征加入所述已选特征集,包括:
按照以下公式进行评估:
Figure BDA0003495736410000153
其中,MAE表示平均绝对误差,M′表示测试样本的数量,yk和y′k分别表示实际值和模型预测值;
如果MAE(Fs′)≤MAE(Fs)则将语音特征f加入已选特征集Fs,并从候选特征集Fc中删除f;
如果MAE(Fs′)>MAE(Fs)则将Fc中第二个特征加入已选特征集Fs中判断MAE的相对大小,以此类推,完成该类的语音特征选择;
其中,F′s为将所述候选特征集中的语音特征加入后的已选特征集。
根据本公开的实施例,
所述UPDRS得分预测模型为随机森林RF预测模型。
根据本公开的实施例,
还包括:
利用汇总所述已选特征集中的语音特征预测帕金森病患者UPDRS得分。
图5示出适于用来实现根据本公开实施例的基于语音特征选择的帕金森病患者UPDRS得分预测方法的计算机系统的结构示意图。
如图5所示,计算机系统500包括处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行上述实施例中的各种处理。在RAM503中,还存储有系统500操作所需的各种程序和数据。CPU501、ROM502以及RAM503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。其中,所述处理单元501可实现为CPU、GPU、TPU、FPGA、NPU等处理单元。
特别地,根据本公开的实施例,上文描述的方法可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,所述计算机程序包含用于执行上述方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元或模块可以通过软件的方式实现,也可以通过可编程硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。
作为另一方面,本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中电子设备或计算机系统中所包含的计算机可读存储介质;也可以是单独存在,未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序,所述程序被一个或者一个以上的处理器用来执行描述于本公开的方法。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (10)

1.一种基于语音特征选择的帕金森病患者UPDRS得分预测方法,其特征在于,包括:
选取UCI数据库中帕金森病远程监测数据集数据,其中包括每位患者的待分析语音特征以及UPDRS得分;
根据计算得到的所述待分析语音特征与UPDRS得分之间的最大信息系数MIC值,从所述待分析语音特征中选取预设比例的第一语音特征;
将所述第一语音特征进行聚类得到若干簇的语音特征集;
对每一簇的语音特征集进行如下处理:
将其中MIC值最大的语音特征加入已选特征集,其余语音特征加入候选特征集;
根据候选特征集中每一语音特征与UPDRS得分之间的MIC值、以及计算得到的候选特征集每一语音特征与已选特征集中语音特征的MIC值,确定候选特征集中每一语音特征与已选特征集的互补性Cf值;
根据所述Cf值的大小降序排列候选特征集中的语音特征,并依照排序依次将所述候选特征集中的语音特征加入所述已选特征集;
将加入所述候选特征集中的语音特征前后的已选特征集中的语音特征分别输入至UPDRS得分预测模型,并根据预测结果的相对大小确定是否将所述候选特征集中的语音特征加入所述已选特征集;
将每一簇的语音特征集经过处理得到的所述已选特征集中的语音特征汇总,作为预测所述UPDRS得分的语音特征。
2.根据权利要求1所述的方法,其特征在于,所述待分析语音特征与UPDRS得分之间的最大信息系数MIC值采用如下方式计算得到:
待分析语音特征与UPDRS得分构成有序对集合D={(fk,yk),k=1,2,…,M},其中,f表示待分析语音特征,y表示UPDRS得分,M表示样本容量;
进行网格划分,将f的值域划分为a段,将y的值域分成b段,定义a×b的网格为G;
计算每个网格中f与y的互信息MI(f,y),所述互信息定义为:
Figure FDA0003495736400000021
其中,p(fk,yk)表示f和y之间的联合概率分布函数,由落入某个小网格的数量占样本容量的比例近似得出;p(fk)和p(yk)分别表示f和y的边缘概率分布函数;
取不同划分方式下产生的最大互信息值,记为MI′,作为网格G的互信息值;给定网格G下D的最大互信息公式为:
MI′(D,a,b)=maxMI(D|G)
其中,D|G表示给定网格G之后D的不同分布;
将不同划分方式下的MI′进行归一化,得到归一化互信息值C(D)a,b
Figure FDA0003495736400000022
则f与y之间最大信息系数MIC值的定义为:
Figure FDA0003495736400000023
其中,B(M)表示网格G划分的上限值。
3.根据权利要求1所述的方法,其特征在于,所述将所述第一语音特征进行聚类得到若干簇的语音特征集,包括:
将所述第一语音特征输入自组织映射网络SOM,确定所述第一语音特征与SOM中竞争层中L个神经元之间的相似度dis=‖f(t)-Wv(t)‖,其中,v=1,…,L;W表示神经元对应的权重向量,t表示当前时刻;
遍历所有神经元之后,使得dis最小的神经元称为最佳匹配单元BMU,每一时刻只有BMU神经元被激活;BMU邻域内神经元的权重向量根据学习率η(t,d)的变化进行更新:Wv(t+1)=Wv(t)+η(t,d)(f(t)-Wv(t));
迭代T次之后,获取竞争层各个神经元的权重向量W,通过判断所述第一语音特征和竞争层中每个神经元的最短距离,将所述第一语音特征映射到竞争层的二维平面上,从而将所述第一语音特征聚为N′类。
4.根据权利要求1所述的方法,其特征在于,所述互补性Cf值按照以下公式计算得到:
对候选特征集中每一语音特征与已选特征集中语音特征之间的平均冗余性Rf进行计算:
Figure FDA0003495736400000031
其中,Fs表示已选特征集,fi表示已选特征集中语音特征,|Fs|表示已选特征集Fs中语音特征的数量;
按照以下公式计算候选特征集中每一语音特征与已选特征集的互补性Cf值:
Figure FDA0003495736400000032
5.根据权利要求1所述的方法,其特征在于,所述根据预测结果的相对大小确定是否将所述候选特征集中的语音特征加入所述已选特征集,包括:
按照以下公式进行评估:
Figure FDA0003495736400000033
其中,MAE表示平均绝对误差,M′表示测试样本的数量,yk和y′k分别表示实际值和模型预测值;
如果MAE(F′s)≤MAE(Fs)则将语音特征f加入已选特征集Fs,并从候选特征集Fc中删除f;
如果MAE(F′s)>MAE(Fs)则将Fc中第二个特征加入已选特征集Fs中判断MAE的相对大小,以此类推,完成该类的语音特征选择;
其中,F′s为将所述候选特征集中的语音特征加入后的已选特征集。
6.根据权利要求1所述的方法,其特征在于,所述UPDRS得分预测模型为随机森林RF预测模型。
7.根据权利要求1-6任一项所述的方法,其特征在于,还包括:
利用汇总所述已选特征集中的语音特征预测帕金森病患者UPDRS得分。
8.一种基于语音特征选择的帕金森病患者UPDRS得分预测装置,其特征在于,包括:
获取模块,被配置为选取UCI数据库中帕金森病远程监测数据集数据,其中包括每位患者的待分析语音特征以及UPDRS得分;
选取模块,被配置为根据计算得到的所述待分析语音特征与UPDRS得分之间的最大信息系数MIC值,从所述待分析语音特征中选取预设比例的第一语音特征;
聚类模块,被配置为将所述第一语音特征进行聚类得到若干簇的语音特征集;
处理模块,被配置为对每一簇的语音特征集进行如下处理:
将其中MIC值最大的语音特征加入已选特征集,其余语音特征加入候选特征集;
根据候选特征集中每一语音特征与UPDRS得分之间的MIC值、以及计算得到的候选特征集每一语音特征与已选特征集中语音特征的MIC值,确定候选特征集中每一语音特征与已选特征集的互补性Cf值;
根据所述Cf值的大小降序排列候选特征集中的语音特征,并依照排序依次将所述候选特征集中的语音特征加入所述已选特征集;
将加入所述候选特征集中的语音特征前后的已选特征集中的语音特征分别输入至UPDRS得分预测模型,并根据预测结果的相对大小确定是否将所述候选特征集中的语音特征加入所述已选特征集;
汇总模块,被配置为将每一簇的语音特征集经过处理得到的所述已选特征集中的语音特征汇总,作为预测所述UPDRS得分的语音特征。
9.一种电子设备,其特征在于,包括存储器和处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现权利要求1-7任一项所述的方法步骤。
10.一种可读存储介质,其上存储有计算机指令,其特征在于,该计算机指令被处理器执行时实现权利要求1-7任一项所述的方法步骤。
CN202210114255.5A 2022-01-30 2022-01-30 基于语音特征选择的帕金森病患者updrs得分预测方法 Pending CN114400026A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210114255.5A CN114400026A (zh) 2022-01-30 2022-01-30 基于语音特征选择的帕金森病患者updrs得分预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210114255.5A CN114400026A (zh) 2022-01-30 2022-01-30 基于语音特征选择的帕金森病患者updrs得分预测方法

Publications (1)

Publication Number Publication Date
CN114400026A true CN114400026A (zh) 2022-04-26

Family

ID=81232013

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210114255.5A Pending CN114400026A (zh) 2022-01-30 2022-01-30 基于语音特征选择的帕金森病患者updrs得分预测方法

Country Status (1)

Country Link
CN (1) CN114400026A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105975589A (zh) * 2016-05-06 2016-09-28 哈尔滨理工大学 一种高维数据的特征选择方法及装置
CN107391365A (zh) * 2017-07-06 2017-11-24 武汉大学 一种面向软件缺陷预测的混合特征选择方法
CN107609588A (zh) * 2017-09-12 2018-01-19 大连大学 一种基于语音信号的帕金森患者updrs得分预测方法
CN110135494A (zh) * 2019-05-10 2019-08-16 南京工业大学 基于最大信息系数和基尼指标的特征选择方法
CN113344075A (zh) * 2021-06-02 2021-09-03 湖南湖大金科科技发展有限公司 基于特征学习与集成学习的高维不平衡数据分类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105975589A (zh) * 2016-05-06 2016-09-28 哈尔滨理工大学 一种高维数据的特征选择方法及装置
CN107391365A (zh) * 2017-07-06 2017-11-24 武汉大学 一种面向软件缺陷预测的混合特征选择方法
CN107609588A (zh) * 2017-09-12 2018-01-19 大连大学 一种基于语音信号的帕金森患者updrs得分预测方法
CN110135494A (zh) * 2019-05-10 2019-08-16 南京工业大学 基于最大信息系数和基尼指标的特征选择方法
CN113344075A (zh) * 2021-06-02 2021-09-03 湖南湖大金科科技发展有限公司 基于特征学习与集成学习的高维不平衡数据分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
肖旎旖: "基于相关性和冗余性分析的特征选择算法研究", 中国优秀硕士学位论文全文数据库 信息科技辑, no. 9, 15 September 2013 (2013-09-15), pages 27 - 32 *

Similar Documents

Publication Publication Date Title
CN111292853B (zh) 基于多参数的心血管疾病风险预测网络模型及其构建方法
CN111899882B (zh) 一种预测癌症的方法及系统
CN112633601B (zh) 疾病事件发生概率的预测方法、装置、设备及计算机介质
CN111180068A (zh) 一种基于多任务学习模型的慢病预测系统
CN111883223B (zh) 患者样本数据中结构变异的报告解读方法及系统
CN111653359A (zh) 一种出血性疾病的智能预测模型构建方法和预测系统
CN114187979A (zh) 数据处理、模型训练、分子预测和筛选方法及其装置
CN115801600B (zh) 一种面向噪声数据环境的传播网络结构重构方法及装置
CN111986814A (zh) 一种红斑狼疮患者的狼疮性肾炎预测模型的建模方法
CN117195027A (zh) 基于成员选择的簇加权聚类集成方法
CN112233742A (zh) 一种基于聚类的病历文档分类系统、设备、存储介质
Dörterler et al. Hybridization of k-means and meta-heuristics algorithms for heart disease diagnosis
CN116705310A (zh) 围术期风险评估的数据集构建方法、装置、设备及介质
CN114400026A (zh) 基于语音特征选择的帕金森病患者updrs得分预测方法
CN114664410B (zh) 一种基于视频的病灶分类方法、装置、电子设备及介质
CN113782121B (zh) 随机分组方法、装置、计算机设备及存储介质
CN114121296B (zh) 基于数据驱动的临床信息规则提取方法、存储介质及设备
Muhasshanah et al. Comparison of the performance results of c4. 5 and random forest algorithm in data mining to predict childbirth process
Riyaz et al. Ensemble learning for coronary heart disease prediction
CN113989543A (zh) 一种covid-19医学影像检测分类方法及装置
CN110265151B (zh) 一种基于ehr中异构时态数据的学习方法
CN113971984A (zh) 分类模型构建方法及装置、电子设备、存储介质
CN111310857A (zh) 特征提取方法、电子装置及医疗案例相似度模型构建方法
WO2023231184A1 (zh) 一种特征筛选方法、装置、存储介质及电子设备
JP2003527662A (ja) 関連ネットワークを使用するデータベースからデータを取り出すシステムおよび装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination