CN114373484A - 语音驱动的帕金森病多症状特征参数的小样本学习方法 - Google Patents

语音驱动的帕金森病多症状特征参数的小样本学习方法 Download PDF

Info

Publication number
CN114373484A
CN114373484A CN202210280063.1A CN202210280063A CN114373484A CN 114373484 A CN114373484 A CN 114373484A CN 202210280063 A CN202210280063 A CN 202210280063A CN 114373484 A CN114373484 A CN 114373484A
Authority
CN
China
Prior art keywords
sample
voice
symptom
symptoms
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210280063.1A
Other languages
English (en)
Inventor
季薇
符宇辰
李云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202210280063.1A priority Critical patent/CN114373484A/zh
Publication of CN114373484A publication Critical patent/CN114373484A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/66Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/103Detecting, measuring or recording devices for testing the shape, pattern, colour, size or movement of the body or parts thereof, for diagnostic purposes
    • A61B5/11Measuring movement of the entire body or parts thereof, e.g. head or hand tremor, mobility of a limb
    • A61B5/1101Detecting tremor
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/103Detecting, measuring or recording devices for testing the shape, pattern, colour, size or movement of the body or parts thereof, for diagnostic purposes
    • A61B5/11Measuring movement of the entire body or parts thereof, e.g. head or hand tremor, mobility of a limb
    • A61B5/112Gait analysis
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/40Detecting, measuring or recording for evaluating the nervous system
    • A61B5/4076Diagnosing or monitoring particular conditions of the nervous system
    • A61B5/4082Diagnosing or monitoring movement diseases, e.g. Parkinson, Huntington or Tourette
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/48Other medical applications
    • A61B5/4803Speech analysis specially adapted for diagnostic purposes
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7203Signal processing specially adapted for physiological signals or for diagnostic purposes for noise prevention, reduction or removal
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7235Details of waveform analysis
    • A61B5/725Details of waveform analysis using specific filters therefor, e.g. Kalman or adaptive filters
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7235Details of waveform analysis
    • A61B5/7264Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
    • A61B5/7267Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems involving training the classification device
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Abstract

本发明是一种语音驱动的帕金森病多症状特征参数的小样本学习方法,实现了在小规模数据集下对帕金森病患者的语音分析,将语音的初阶特征输入卷积神经网络,将得到的高阶特征进行组合,得到原型向量,再通过比较距离的方法计算原型和待测语音的差异性,并预测出待测样本在每一种症状下的概率,然后使用深度学习中的交叉熵损失函数和Adam优化器训练模型,使得原型向量接近于患者具有症状的真实分布,并将最终得到的原型向量作为关键性特征,实现帕金森病患者多种症状的同时预测分析。

Description

语音驱动的帕金森病多症状特征参数的小样本学习方法
技术领域
本发明属于深度学习领域在医学方面的应用,涉及一种语音驱动的帕金森病多症状特征参数的小样本学习方法及系统。
背景技术
帕金森病是一种常见的慢性神经性退化疾病,其症状包括运动症状和非运动症状。而根据运动障碍的不同,又可将患者分为震颤主导型(TD)和姿势/步态障碍型(PIGD)。运动症状包括震颤,冻结步态,吞咽困难,异动,开关期等。震颤主要表现为患者四肢或全身持续性或间歇性地颤抖,多见于震颤主导型;冻结步态主要表现为患者行走时步幅降低或突然中止,起步困难,迈腿受阻,难以行走,多见于姿势/步态障碍型;吞咽困难主要表现为患者在饮食过程中吞咽延迟、误吸、呛咳等,任何患者都有可能具有吞咽苦难的症状,甚至是患者的唯一症状;异动症状主要表现为患者作舞蹈样、手足徐动或简单重复的不自主运动,可累及头面部、四肢和躯干;开关期主要表现为患者运动症状接近消失,日常活动接近正常,并在未用药的情况下在短时间内重新出现运动障碍,一段时间后又自然缓解,一日当中可重复交替出现多次。异动症和开关期症状仅见于服用左旋多巴药物的患者,此类患者往往处于疾病的中晚期。帕金森病患者往往具有上述症状的一种或多种,大部分具有上述症状的患者的饮食起居需要借助他人照顾,严重影响患者的生活质量。
已有的研究表明,帕金森病的运动障碍和语音障碍之间存在病理联系。语音损伤可能是帕金森病最早期的症状之一,其症状主要表现为讲话缓慢、声音嘶哑、音量低和发音震颤等。语音障碍是由于患者的喉部病变,声带控制能力下降,以及唇齿舌等器官的不规律运动引起的。人的语音主要通过肺部产生气流,经过声带振动和唇齿舌的规律运动产生,而人体各个器官之间的合作由神经元统一协调控制。帕金森病患者由于体内多巴胺的缺失,导致部分神经元退化损失,进而无法控制器官准确发音,使得帕金森病患者均有不同程度的语音障碍。随着病情的发展,患者的运动症状随之体现,语音障碍也会恶化,因此可以利用语音信号对帕金森病患者进行症状分析。
利用语音信号分析帕金森病的病情时首先要对语音的质量进行评估,以判断语音中是否包含过多的噪声以至于影响分析结果,患者录制语音一般采用普通智能手机,录制环境一般为住宅或者医院,这样的环境无法保证每条数据的语音质量,导致能达到质量评估标准的语音数据很少,这造成训练模型的数据样本数量较少。
另外,同一患者在不同时期的健康状况和身体状态不同,受到疾病恶化、服药与否、开期关期等因素的影响,因此来自同一患者的语音数据并不能简单归为一类,数据集具有异质性,这导致了数据集类别数多,而同类数据的数量少的情况。
发明内容
为了解决上述问题,本发明提供了一种一种基于小样本学习的帕金森病多症状关键特征参数的获取方法,将语音数据集划分为多个任务集合,对语音信号提取初阶特征后,将其输入卷积神经网络,得到高阶特征,再计算其原型特征,通过原型特征和查询特征的对比学习训练神经网络,使得卷积神经网络提取的高阶特征接近帕金森病患者运动症状的真实分布,实现帕金森病患者多种运动症状的关键特征参数的提取,以帮助评估病情并制定个性化的治疗方案。
为了达到上述目的,本发明是通过以下技术方案实现的:
本发明是一种语音驱动的帕金森病多症状特征参数的小样本学习方法,多症状为吞咽困难症状、冻结步态症状、震颤症状、异动症状和开关期症状,所述语音分析方法包括如下步骤:
步骤1:采集帕金森病患者参与多语音任务的语音数据,并对所述语音数据进行多标签标注;
步骤2:对步骤1中采集的帕金森患者的语音数据进行预处理,然后提取梅尔频率特征,得到能够表征语音数据的特征向量,并构造多任务数据集,具体为:具体包括如下步骤:
步骤2-1:将步骤1中采集的帕金森患者的语音转换为频谱图后通过梅尔滤波器组得到语音的梅尔频谱特征;
步骤2-2:对于数据集
Figure 56941DEST_PATH_IMAGE001
中的
Figure 742000DEST_PATH_IMAGE002
个样本语音的梅尔频谱特征,根据语音来源的患者症状定义标签信息
Figure 827768DEST_PATH_IMAGE003
,组成样本对
Figure 649093DEST_PATH_IMAGE004
,其中
Figure 60483DEST_PATH_IMAGE005
代表第
Figure 967259DEST_PATH_IMAGE006
个样本
Figure 856718DEST_PATH_IMAGE007
Figure 795199DEST_PATH_IMAGE008
为第
Figure 111911DEST_PATH_IMAGE006
个样本的标签,是一个长度为5的one-hot向量,向量中的0代表受试者没有该标签所代表的症状,反之为1;将整个数据集划分为多个任务集合,在每个任务集合中,对于标签
Figure 505983DEST_PATH_IMAGE009
,从
Figure 199133DEST_PATH_IMAGE001
中无放回采样
Figure 260630DEST_PATH_IMAGE010
个正样本,其中
Figure 13822DEST_PATH_IMAGE011
,即每一个样本的标签
Figure 895191DEST_PATH_IMAGE012
都等于1,构成标签k的正支撑集
Figure 392031DEST_PATH_IMAGE013
,再采样
Figure 42455DEST_PATH_IMAGE010
个负样本,即每一个样本的标签
Figure 232128DEST_PATH_IMAGE012
都等于0,构成标签k的负支撑集
Figure 600792DEST_PATH_IMAGE014
,然后再从数据集
Figure 635745DEST_PATH_IMAGE001
中随机采样1个样本
Figure 140675DEST_PATH_IMAGE015
作为查询样本,每个任务集合需包含所有的5个标签的正负支撑集,即
Figure 501249DEST_PATH_IMAGE016
,因此每个任务集合中包含
Figure 357210DEST_PATH_IMAGE017
条数据。
步骤3:语音数据的梅尔频率特征向量输入Resnet34卷积神经网络得到每一种标签的正类高层表征向量和负类高层表征向量,具体过程包括如下步骤:
步骤3-1:初始化Resnet34卷积神经网络参数:采用在AudioSet音频数据集上预训练好的模型参数作为初始化参数,AudioSet音频数据集具有600多个音频类别,远超此处所需的类别数,可以让模型预先学习到数据的普遍特征,加快训练速度;
步骤3-2:设Resnet34为函数
Figure 930274DEST_PATH_IMAGE018
,将每一个任务集中的正支撑集
Figure 820869DEST_PATH_IMAGE013
当中的样本输入网络得到标签k下的正特征集
Figure 86766DEST_PATH_IMAGE019
,即
Figure 430022DEST_PATH_IMAGE020
,负支撑集
Figure 69427DEST_PATH_IMAGE014
输入网络得到标签k下的负特征集
Figure 548949DEST_PATH_IMAGE021
,即
Figure 985747DEST_PATH_IMAGE022
,查询样本xi输入网络得到查询特征
Figure 550721DEST_PATH_IMAGE023
步骤4:由步骤3的高层表征向量计算得到每一个标签的原型向量,并计算支持集原型和查询集原型之间的距离,将距离通过softmax后得到样本具有每一种标签的概率。
具体包括如下步骤:
步骤4-1:将正特征集中所有的C个向量相加求平均得到正原型向量,即:
Figure DEST_PATH_IMAGE024
同样地,可以得到负原型向量
Figure 200008DEST_PATH_IMAGE025
步骤4-2:分别计算标签k下查询样本的特征
Figure 799616DEST_PATH_IMAGE026
Figure 672894DEST_PATH_IMAGE027
Figure 725164DEST_PATH_IMAGE025
的欧氏距离:
Figure 709301DEST_PATH_IMAGE028
步骤4-3:通过softmax函数计算查询样本
Figure DEST_PATH_IMAGE029
是每一种标签
Figure 632257DEST_PATH_IMAGE030
, k=(1,2,3,4,5)正样本的概率
Figure 410857DEST_PATH_IMAGE031
Figure 216002DEST_PATH_IMAGE032
步骤5:定义损失函数并训练模型,具体包括如下步骤:
步骤5-1:采用交叉熵损失函数计算模型预测结果和查询样本之间的损失值:
Figure 738250DEST_PATH_IMAGE033
其中T为数据集
Figure 46872DEST_PATH_IMAGE001
中包含的任务集合数量,
Figure DEST_PATH_IMAGE034
为符号函数,代表观测样本
Figure 730794DEST_PATH_IMAGE035
是否具有标签
Figure 757656DEST_PATH_IMAGE012
的真实值,
Figure DEST_PATH_IMAGE036
代表观测样本
Figure 549507DEST_PATH_IMAGE035
属于类别k的预测概率;
步骤5-2:训练模型时,batch size为可以调整的超参数,设batch size为
Figure 978214DEST_PATH_IMAGE037
,即代表一个batch中包含B个任务集合,利用Adam优化器进行随机梯度下降,每训练一个batch更新一次模型参数,基于训练数据迭代更新Resnet34卷积神经网络的参数。
步骤6:得到训练好的模型,输入新的语音样本,输出预测的5种标签值,辅助医生做出吞咽困难症状、冻结步态症状、震颤症状、异动症状和开关期症状下的评估。
本发明还提供了一种基于小样本学习的帕金森病多症状关键特征参数的语音分析系统,该系统包括:
1)语音信号采集模块;用于执行步骤一:采集帕金森病患者的语音数据,以及帕金森病患者吞咽困难症状、冻结步态症状、震颤症状、异动症状和开关期症状的特征信息;
2)语音信号预处理模块;用于执行步骤二:对语音数据进行预处理,包括去除环境噪声,去除静音片段,然后提起梅尔频谱特征,并将数据集划分为多个任务集合;
3)语音特征提取模块;用于执行步骤三:利用Resnet34卷积神经网络提取语音的高层表征向量,并计算原型向量;
4)距离度量模块;用于执行步骤四:计算原型样本和查询样本之间的欧氏距离,并通过softmax函数计算查询样本的标签概率;
5)原型网络模型训练模块;用于执行步骤五:采用交叉熵损失函数和Adam优化器训练原型网络模型;
6)语音分析模块,用于执行步骤六:将待测语音输入训练好的模型,得到待测者吞咽困难症状、冻结步态症状、震颤症状、异动症状和开关期症状的关键特征指标。
本发明的有益效果是:本发明通过小样本学习中的原型网络模型能够从有限的样本中学习到与当前分类任务相关的有用特征信息,甄别出语音信号当中与帕金森病亚型有关的特征,排除其他干扰信息,更好地表征帕金森病特定亚型,从而根据语音信号实现由多种运动症状抽象成的多标签分类任务;同时在遇到未知的类别样本时,模型也具有一定的鲁棒性,可以实现对新任务集合的分类预测,具有可迁移性;因此可以利用深度学习领域的原型网络技术模型进行帕金森病的多种运动症状的同时分析。
附图说明
图1是本发明流程示意图。
具体实施方式
以下将以图式揭露本发明的实施方式,为明确说明起见,许多实务上的细节将在以下叙述中一并说明。然而,应了解到,这些实务上的细节不应用以限制本发明。也就是说,在本发明的部分实施方式中,这些实务上的细节是非必要的。
如图1所示,本发明是一种语音驱动的帕金森病多症状特征参数的小样本学习方法,多症状为吞咽困难症状、冻结步态症状、震颤症状、异动症状和开关期症状,所述语音分析方法包括如下步骤:
步骤一:采集帕金森病患者参与多语音任务的语音数据,并对所述语音数据进行多标签标注。
步骤二:对步骤1中采集的帕金森患者的语音数据进行预处理,然后提取梅尔频率特征,得到能够表征语音数据的特征向量,并构造多任务数据集,具体为:
步骤2-1:将步骤1中采集的帕金森患者的语音转换为频谱图后通过梅尔滤波器组得到语音的梅尔频谱特征;
步骤2-2:对于数据集
Figure 98617DEST_PATH_IMAGE001
中的
Figure 612775DEST_PATH_IMAGE002
个样本语音的梅尔频谱特征,根据语音来源的患者症状定义标签信息
Figure 742405DEST_PATH_IMAGE003
,组成样本对
Figure 760040DEST_PATH_IMAGE004
,其中
Figure 316923DEST_PATH_IMAGE005
代表第
Figure 318377DEST_PATH_IMAGE006
个样本
Figure 720540DEST_PATH_IMAGE007
Figure 123839DEST_PATH_IMAGE008
为第
Figure 851624DEST_PATH_IMAGE006
个样本的标签,是一个长度为5的one-hot向量,向量中的0代表受试者没有该标签所代表的症状,反之为1;
步骤2-3:将整个数据集划分为多个任务集合,在每个任务集合中,对于标签
Figure 809215DEST_PATH_IMAGE009
,从
Figure 280648DEST_PATH_IMAGE001
中无放回采样
Figure 538454DEST_PATH_IMAGE010
个正样本,其中
Figure 171561DEST_PATH_IMAGE011
,即每一个样本的标签
Figure 147607DEST_PATH_IMAGE012
都等于1,构成标签k的正支撑集
Figure 157151DEST_PATH_IMAGE013
,再采样
Figure 3884DEST_PATH_IMAGE010
个负样本,即每一个样本的标签
Figure 336121DEST_PATH_IMAGE012
都等于0,构成标签k的负支撑集
Figure 268305DEST_PATH_IMAGE014
步骤2-4:然后再从数据集
Figure 81540DEST_PATH_IMAGE001
中随机采样1个样本
Figure 313939DEST_PATH_IMAGE015
作为查询样本,每个任务集合需包含所有的5个标签的正负支撑集,即
Figure 288848DEST_PATH_IMAGE016
,因此每个任务集合中包含
Figure 973907DEST_PATH_IMAGE017
条数据。
步骤三:代表语音数据的梅尔频谱特征向量为二维张量,第一维为1代表通道数为1,即单声道语音,第二维为24000,代表采样点数,与语音时长有关。提取高层向量的模型为Resnet34卷积神经网络,原因是Resnet网络在图像分类领域取得了良好的表现,而语音数据的梅尔频谱特征向量的结构等价于由灰度图像提取得到的特征。提取得到的高层特征也为二维张量,第一维为1,代表是否具有标签
Figure 325254DEST_PATH_IMAGE038
,第二维为512,代表特征值,与网络结构有关。具体为:
步骤3-1:初始化Resnet34卷积神经网络参数:采用在AudioSet音频数据集上预训练好的模型参数作为初始化参数;AudioSet音频数据集具有600多个音频类别,远超此处所需的类别数,可以让模型预先学习到数据的普遍特征,加快训练速度;
步骤3-2:设Resnet34为函数
Figure 146579DEST_PATH_IMAGE018
,将每一个任务集中的正支撑集
Figure 292390DEST_PATH_IMAGE013
当中的样本输入网络得到标签k下的正特征集
Figure 464745DEST_PATH_IMAGE019
,即
Figure 619783DEST_PATH_IMAGE020
步骤3-3:负支撑集
Figure 561194DEST_PATH_IMAGE014
输入网络得到标签k下的负特征集
Figure 143485DEST_PATH_IMAGE021
,即
Figure 803137DEST_PATH_IMAGE022
步骤3-4:查询样本xi输入网络得到查询特征
Figure 496286DEST_PATH_IMAGE023
步骤4:由步骤3的高层表征向量计算得到每一个标签的原型向量,并计算支持集原型和查询集原型之间的距离,将距离通过softmax后得到样本具有每一种标签的概率,具体为:
步骤4-1:将正特征集中所有的C个向量相加求平均得到正原型向量,即:
Figure 557783DEST_PATH_IMAGE024
同样地,可以得到负原型向量
Figure 310976DEST_PATH_IMAGE025
步骤4-2:分别计算标签k下查询样本的特征
Figure 192344DEST_PATH_IMAGE026
Figure 423605DEST_PATH_IMAGE027
Figure 71100DEST_PATH_IMAGE025
的欧氏距离:
Figure 995193DEST_PATH_IMAGE028
步骤4-3:通过softmax函数计算查询样本
Figure 629437DEST_PATH_IMAGE029
是每一种标签
Figure 664389DEST_PATH_IMAGE030
, k=(1,2,3,4,5)正样本的概率
Figure 434899DEST_PATH_IMAGE031
Figure 529894DEST_PATH_IMAGE032
步骤5:定义损失函数并训练模型,具体包括如下步骤:
步骤5-1:采用交叉熵损失函数计算模型预测结果和查询样本之间的损失值:
Figure 385855DEST_PATH_IMAGE033
其中T为数据集
Figure 224498DEST_PATH_IMAGE001
中包含的任务集合数量,
Figure 115093DEST_PATH_IMAGE034
为符号函数,代表观测样本
Figure 646569DEST_PATH_IMAGE035
是否具有标签
Figure 724246DEST_PATH_IMAGE012
的真实值,
Figure 366580DEST_PATH_IMAGE036
代表观测样本
Figure 846103DEST_PATH_IMAGE035
属于类别k的预测概率;
步骤5-2:训练模型时,batch size为可以调整的超参数,设batch size为
Figure 548480DEST_PATH_IMAGE037
,即代表一个batch中包含B个任务集合;
步骤5-3:利用Adam优化器进行随机梯度下降,每训练一个batch更新一次模型参数,基于训练数据迭代更新Resnet34卷积神经网络的参数。
步骤6:得到训练好的模型,输入新的语音样本,输出预测的5种标签值,辅助医生做出吞咽困难症状、冻结步态症状、震颤症状、异动症状和开关期症状下的评估。
采用以下实验验证本发明:
步骤一、采集帕金森病患者参与多语音任务(元音/a/,重复音节/pa-ka-la/,固定短句)的语音数据,并对上述语音数据进行多标签标注(是否具有震颤、冻结步态、吞咽困难、异动、开关期的症状),本实验选用本发明所采集到的帕金森病患者的语音数据集作为研究对象。该数据集共包含66位帕金森病确诊患者,其中包括40位男性和26位女性。采集的语音语言均为普通话,患者的年龄由55岁至87岁不等,平均年龄为69岁。每个患者都采集了多条语音数据,包括持续元音/a/,重复音节/pa-ka-la/和阅读固定短句,总共包含405条语音数据,即
Figure 113453DEST_PATH_IMAGE039
。每一条语音数据对应一个长度为5的标签信息,代表5种帕金森病症状的信息,1代表具有该症状,0代表未出现该症状。
步骤二、对语音信号进行预处理,包括去噪增强,剪辑掉静音片段等。并对语音信号提取梅尔频率特征,采样率选择16000Hz,FFT点数选择1024,梅尔滤波器个数选择128。并构建多任务数据集。
将数据集划分为多个任务集合:在每个任务集合中,选择
Figure 559478DEST_PATH_IMAGE040
的大小为1,即每个任务集合中支持集的大小为10,每个症状都有1条正样本和1条负样本,并且不同症状的样本不重复,查询样本和支持集中的样本也不能重复。不同任务集合中的样本可以重复,但是样本重复率不能大于50%,训练集和测试集中的样本也不能重复。最终得到375个训练任务集合125个测试任务集。
步骤三、将语音的梅尔频率特征输入卷积神经网络,得到数据的高阶特征表示。选择Resnet34作为embedding model,在输入之前需要对模型进行初始化参数,使用Resnet34在AudioSet数据集上预训练之后的模型参数来初始化。其次需要修改Resnet34的输入通道数和输出类别数,分别修改为1和32。
步骤四、计算同一任务集中正支持集的原型向量和负支持集的原型向量,并计算原型向量和查询样本之间的欧氏距离,再通过softtmax函数得到查询样本在每一个标签下的预测概率。
步骤五、选择交叉熵损失函数和Adam优化器训练模型。
步骤六、给出语音分析结果:将待测语音输入模型,得到待测者关于5种症状的关键特征参数。
与传统的帕金森病评估方法相比,本发明利用语音信号来检测帕金森病更加经济且高效,语音检测有着非侵入式、方便、快捷等优点。至于发音方式,可以使用持续元音/a/,连续重复音节/pa-ka-la/和阅读固定的短句。元音/a/能够体现声带持续振动的能力以及喉部肌肉的健康状况;重复音节能够衡量唇齿舌等器官运动的规律性以及下颌关节的咬合能力;阅读固定的句子则能够帮助综合评估所有的发声组件和发音的可理解性。通过语音信号来分析帕金森病的多种运动症状时需要通过信号处理算法对待测语音进行分析,提取出能够表征帕金森病运动症状病理特征的语音特征信息。
以上所述仅为本发明的实施方式而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理的内所作的任何修改、等同替换、改进等,均应包括在本发明的权利要求范围之内。

Claims (6)

1.一种语音驱动的帕金森病多症状特征参数的小样本学习方法,多症状为吞咽困难症状、冻结步态症状、震颤症状、异动症状和开关期症状,其特征在于:所述小样本学习方法包括如下步骤:
步骤1:采集帕金森病患者参与多语音任务的语音数据,并对所述语音数据进行多标签标注;
步骤2:对步骤1中采集的帕金森患者的语音数据进行预处理,然后提取梅尔频率特征,得到能够表征语音数据的特征向量,并构造多任务数据集;
步骤3:语音数据的梅尔频率特征向量输入卷积神经网络得到每一种标签的正类高层表征向量和负类高层表征向量;
步骤4:由步骤3的高层表征向量计算得到每一个标签的原型向量,并计算支持集原型和查询集原型之间的距离,将距离通过softmax后得到样本具有每一种标签的概率;
步骤5:定义损失函数并训练模型;
步骤6:得到训练好的模型,输入新的语音样本,输出预测的5种标签值,辅助医生做出吞咽困难症状、冻结步态症状、震颤症状、异动症状和开关期症状下的评估。
2.根据权利要求1所述语音驱动的帕金森病多症状特征参数的小样本学习方法,其特征在于:所述步骤2具体包括如下步骤:
步骤2-1:将步骤1中采集的帕金森患者的语音转换为频谱图后通过梅尔滤波器组得到语音的梅尔频谱特征;
步骤2-2:对于数据集
Figure 31996DEST_PATH_IMAGE001
中的
Figure 639695DEST_PATH_IMAGE002
个样本语音的梅尔频谱特征,根据语音来源的患者症状定义标签信息
Figure 426385DEST_PATH_IMAGE003
,组成样本对
Figure 676101DEST_PATH_IMAGE004
,其中
Figure 130216DEST_PATH_IMAGE005
代表第
Figure 174396DEST_PATH_IMAGE006
个样本
Figure 445453DEST_PATH_IMAGE007
Figure 233280DEST_PATH_IMAGE008
为第
Figure 541902DEST_PATH_IMAGE006
个样本的标签,是一个长度为5的one-hot向量,向量中的0代表受试者没有该标签所代表的症状,反之为1;
步骤2-3:将整个数据集划分为多个任务集合,在每个任务集合中,对于标签,从
Figure 756982DEST_PATH_IMAGE001
中无放回采样
Figure 783844DEST_PATH_IMAGE009
个正样本,其中
Figure 844204DEST_PATH_IMAGE010
,即每一个样本的标签
Figure 272911DEST_PATH_IMAGE011
都等于1,构成标签k的正支撑集
Figure 658893DEST_PATH_IMAGE012
,再采样
Figure 907472DEST_PATH_IMAGE009
个负样本,即每一个样本的标签
Figure 771523DEST_PATH_IMAGE011
都等于0,构成标签k的负支撑集
Figure 320316DEST_PATH_IMAGE013
步骤2-4:然后再从数据集
Figure 877199DEST_PATH_IMAGE001
中随机采样1个样本
Figure 613074DEST_PATH_IMAGE014
作为查询样本,每个任务集合需包含所有的5个标签的正负支撑集,即
Figure 546395DEST_PATH_IMAGE015
,因此每个任务集合中包含
Figure 684115DEST_PATH_IMAGE016
条数据。
3.根据权利要求1所述语音驱动的帕金森病多症状特征参数的小样本学习方法,其特征在于:步骤3具体为将语音数据的梅尔频谱特征向量输入Resnet34卷积神经网络以获得语音数据的高层表征,具体包括如下步骤:
步骤3-1:初始化Resnet34卷积神经网络参数:采用在AudioSet音频数据集上预训练好的模型参数作为初始化参数;
步骤3-2:设Resnet34为函数
Figure 411900DEST_PATH_IMAGE017
,将每一个任务集中的正支撑集
Figure 635071DEST_PATH_IMAGE012
当中的样本输入网络得到标签k下的正特征集
Figure 372082DEST_PATH_IMAGE018
,即
Figure 364309DEST_PATH_IMAGE019
步骤3-3:负支撑集
Figure 997416DEST_PATH_IMAGE013
输入网络得到标签k下的负特征集
Figure 973462DEST_PATH_IMAGE020
,即
Figure 980077DEST_PATH_IMAGE021
步骤3-4:查询样本xi输入网络得到查询特征
Figure 92389DEST_PATH_IMAGE022
4.根据权利要求1所述语音驱动的帕金森病多症状特征参数的小样本学习方法,其特征在于:所述步骤4具体包括如下步骤:
步骤4-1:将正特征集中所有的C个向量相加求平均得到正原型向量,即:
Figure 161976DEST_PATH_IMAGE023
同样地,可以得到负原型向量
Figure 359740DEST_PATH_IMAGE024
步骤4-2:分别计算标签k下查询样本的特征
Figure 172975DEST_PATH_IMAGE025
Figure 139794DEST_PATH_IMAGE026
Figure 380282DEST_PATH_IMAGE024
的欧氏距离:
Figure 65342DEST_PATH_IMAGE027
步骤4-3:通过softmax函数计算查询样本
Figure 416688DEST_PATH_IMAGE028
是每一种标签
Figure 503593DEST_PATH_IMAGE029
, k=(1,2,3,4,5)正样本的概率
Figure 914983DEST_PATH_IMAGE030
Figure 87338DEST_PATH_IMAGE031
5.根据权利要求1所述语音驱动的帕金森病多症状特征参数的小样本学习方法,其特征在于:所述步骤5定义损失函数并训练模型具体包括如下步骤:
步骤5-1:采用交叉熵损失函数计算模型预测结果和查询样本之间的损失值:
Figure 507955DEST_PATH_IMAGE032
其中T为数据集
Figure 183787DEST_PATH_IMAGE001
中包含的任务集合数量,
Figure 766078DEST_PATH_IMAGE033
为符号函数,代表观测样本
Figure 425730DEST_PATH_IMAGE034
是否具有标签
Figure 118879DEST_PATH_IMAGE011
的真实值,
Figure 180376DEST_PATH_IMAGE035
代表观测样本
Figure 933569DEST_PATH_IMAGE034
属于类别k的预测概率;
步骤5-2:训练模型时,batch size为可以调整的超参数,设batch size为
Figure 814937DEST_PATH_IMAGE036
,即代表一个batch中包含B个任务集合;
步骤5-3:利用Adam优化器进行随机梯度下降,每训练一个batch更新一次模型参数,基于训练数据迭代更新Resnet34卷积神经网络的参数。
6.根据权利要求1-5任一项所述语音驱动的帕金森病多症状特征参数的小样本学习方法,其特征在于:该方法通过语音分析系统实现,所述语音分析系统包括:
语音信号采集模块:用于采集帕金森病患者的语音数据,以及帕金森病患者吞咽困难症状、冻结步态症状、震颤症状、异动症状和开关期症状的特征信息;
语音信号预处理模块:对语音数据进行预处理,然后提起梅尔频谱特征,并将数据集划分为多个任务集合;
语音特征提取模块:利用Resnet34卷积神经网络提取语音的高层表征向量,并计算原型向量;
距离度量模块:计算原型样本和查询样本之间的欧氏距离,并通过softmax函数计算查询样本的标签概率;
原型网络模型训练模块:采用交叉熵损失函数和Adam优化器训练原型网络模型;
语音分析模块:将待测语音输入训练好的模型,得到待测者吞咽困难症状、冻结步态症状、震颤症状、异动症状和开关期症状的关键特征指标。
CN202210280063.1A 2022-03-22 2022-03-22 语音驱动的帕金森病多症状特征参数的小样本学习方法 Pending CN114373484A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210280063.1A CN114373484A (zh) 2022-03-22 2022-03-22 语音驱动的帕金森病多症状特征参数的小样本学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210280063.1A CN114373484A (zh) 2022-03-22 2022-03-22 语音驱动的帕金森病多症状特征参数的小样本学习方法

Publications (1)

Publication Number Publication Date
CN114373484A true CN114373484A (zh) 2022-04-19

Family

ID=81146670

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210280063.1A Pending CN114373484A (zh) 2022-03-22 2022-03-22 语音驱动的帕金森病多症状特征参数的小样本学习方法

Country Status (1)

Country Link
CN (1) CN114373484A (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108899052A (zh) * 2018-07-10 2018-11-27 南京邮电大学 一种基于多带谱减法的帕金森语音增强方法
CN110335624A (zh) * 2019-07-29 2019-10-15 吉林大学 基于功率归一化倒谱系数特征的帕金森病语音检测方法
CN111382679A (zh) * 2020-02-25 2020-07-07 上海交通大学 帕金森病步态运动障碍严重程度的评估方法、系统及设备
CN111724899A (zh) * 2020-06-28 2020-09-29 湘潭大学 一种基于Fbank和MFCC融合特征的帕金森音频智能检测方法及系统
CN112233700A (zh) * 2020-10-09 2021-01-15 平安科技(深圳)有限公司 基于音频的用户状态识别方法、装置及存储介质
CN112820279A (zh) * 2021-03-12 2021-05-18 深圳市臻络科技有限公司 基于语音上下文动态特征的帕金森病检测方法
CN113140226A (zh) * 2021-04-28 2021-07-20 桂林电子科技大学 一种采用双Token标签的声事件标注及识别方法
CN113284512A (zh) * 2021-05-25 2021-08-20 重庆大学 一种基于深度稀疏迁移学习的帕金森语音分类方法
CN113821799A (zh) * 2021-09-07 2021-12-21 南京邮电大学 基于图卷积神经网络的恶意软件多标签分类方法
CN113902256A (zh) * 2021-09-10 2022-01-07 支付宝(杭州)信息技术有限公司 训练标签预测模型的方法、标签预测方法和装置
CN114067805A (zh) * 2021-10-19 2022-02-18 北京百度网讯科技有限公司 声纹识别模型的训练与声纹识别方法及装置

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108899052A (zh) * 2018-07-10 2018-11-27 南京邮电大学 一种基于多带谱减法的帕金森语音增强方法
CN110335624A (zh) * 2019-07-29 2019-10-15 吉林大学 基于功率归一化倒谱系数特征的帕金森病语音检测方法
CN111382679A (zh) * 2020-02-25 2020-07-07 上海交通大学 帕金森病步态运动障碍严重程度的评估方法、系统及设备
CN111724899A (zh) * 2020-06-28 2020-09-29 湘潭大学 一种基于Fbank和MFCC融合特征的帕金森音频智能检测方法及系统
CN112233700A (zh) * 2020-10-09 2021-01-15 平安科技(深圳)有限公司 基于音频的用户状态识别方法、装置及存储介质
CN112820279A (zh) * 2021-03-12 2021-05-18 深圳市臻络科技有限公司 基于语音上下文动态特征的帕金森病检测方法
CN113140226A (zh) * 2021-04-28 2021-07-20 桂林电子科技大学 一种采用双Token标签的声事件标注及识别方法
CN113284512A (zh) * 2021-05-25 2021-08-20 重庆大学 一种基于深度稀疏迁移学习的帕金森语音分类方法
CN113821799A (zh) * 2021-09-07 2021-12-21 南京邮电大学 基于图卷积神经网络的恶意软件多标签分类方法
CN113902256A (zh) * 2021-09-10 2022-01-07 支付宝(杭州)信息技术有限公司 训练标签预测模型的方法、标签预测方法和装置
CN114067805A (zh) * 2021-10-19 2022-02-18 北京百度网讯科技有限公司 声纹识别模型的训练与声纹识别方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张德丰编著: "《TensorFlow深度学习从入门到进阶》", 30 April 2020, 北京:机械工业出版社, pages: 10 - 11 *

Similar Documents

Publication Publication Date Title
Amoh et al. Deep neural networks for identifying cough sounds
Sardari et al. Audio based depression detection using Convolutional Autoencoder
Ghassemi et al. Learning to detect vocal hyperfunction from ambulatory neck-surface acceleration features: Initial results for vocal fold nodules
Huang et al. Exploiting vocal tract coordination using dilated cnns for depression detection in naturalistic environments
Travieso et al. Detection of different voice diseases based on the nonlinear characterization of speech signals
Hemmerling et al. Voice data mining for laryngeal pathology assessment
Yap Speech production under cognitive load: Effects and classification
Matikolaie et al. Automated newborn cry diagnostic system using machine learning approach
Turan et al. Monitoring Infant's Emotional Cry in Domestic Environments Using the Capsule Network Architecture.
Wang et al. Automatic hypernasality detection in cleft palate speech using cnn
Hantke et al. EAT- The ICMI 2018 Eating Analysis and Tracking Challenge
Kuang et al. Simplified inverse filter tracked affective acoustic signals classification incorporating deep convolutional neural networks
Ribeiro et al. Binary neural networks for classification of voice commands from throat microphone
Sharan Cough sound detection from raw waveform using SincNet and bidirectional GRU
Faragó et al. CNN-Based Identification of Parkinson’s Disease from Continuous Speech in Noisy Environments
Tripathi et al. CNN based Parkinson's Disease Assessment using Empirical Mode Decomposition.
Deepa et al. Speech technology in healthcare
Kumar et al. A Comparison of Time-Frequency Distributions for Deep Learning-Based Speech Assessment of Aphasic Patients
Mostafa et al. Voiceless Bangla vowel recognition using sEMG signal
CN114373484A (zh) 语音驱动的帕金森病多症状特征参数的小样本学习方法
Ditthapron et al. Adl-gan: Data augmentation to improve in-the-wild adl recognition using gans
Marck et al. Identification, analysis and characterization of base units of bird vocal communication: The white spectacled bulbul (Pycnonotus xanthopygos) as a case study
Meng et al. A lightweight CNN and Transformer hybrid model for mental retardation screening among children from spontaneous speech
Mohan et al. Real Time Audio-Based Distress Signal Detection as Vital Signs of Myocardial Infarction Using Convolutional Neural Networks [J]
Prawira et al. Emotion Classification Using Fast Fourier Transform and Recurrent Neural Networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20220419

RJ01 Rejection of invention patent application after publication