CN116269223A - 阿尔茨海默症的预测方法、装置、设备和存储介质 - Google Patents

阿尔茨海默症的预测方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN116269223A
CN116269223A CN202310151768.8A CN202310151768A CN116269223A CN 116269223 A CN116269223 A CN 116269223A CN 202310151768 A CN202310151768 A CN 202310151768A CN 116269223 A CN116269223 A CN 116269223A
Authority
CN
China
Prior art keywords
prediction
network
semantic features
voice data
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310151768.8A
Other languages
English (en)
Inventor
陈闽川
马骏
王少军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202310151768.8A priority Critical patent/CN116269223A/zh
Publication of CN116269223A publication Critical patent/CN116269223A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/40Detecting, measuring or recording for evaluating the nervous system
    • A61B5/4076Diagnosing or monitoring particular conditions of the nervous system
    • A61B5/4088Diagnosing of monitoring cognitive diseases, e.g. Alzheimer, prion diseases or dementia
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/48Other medical applications
    • A61B5/4803Speech analysis specially adapted for diagnostic purposes
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7271Specific aspects of physiological measurement analysis
    • A61B5/7275Determining trends in physiological measurement data; Predicting development of a medical condition based on physiological measurements, e.g. determining a risk factor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Pathology (AREA)
  • Surgery (AREA)
  • Molecular Biology (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Biophysics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Neurology (AREA)
  • Veterinary Medicine (AREA)
  • Physiology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Psychiatry (AREA)
  • Artificial Intelligence (AREA)
  • Child & Adolescent Psychology (AREA)
  • Hospice & Palliative Care (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Developmental Disabilities (AREA)
  • Neurosurgery (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Psychology (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本申请涉及人工智能技术,提出一种阿尔茨海默症的预测方法、装置、设备和存储介质,该方法包括:获取待评估对象在认知功能评估测试中的目标语音数据;利用已训练的病症预测模型提取目标语音数据的语义特征和非语义特征,根据语义特征和非语义特征对待评估对象的认知水平进行分类预测,得到目标预测结果。本申请通过根据从待评估对象的语音数据中提取的语义特征和非语义特征来综合评判待评估对象是否患有阿尔茨海默症,克服了现有技术只能从单一特征进行疾病预测的缺陷,提高了阿尔茨海默症的预测和诊断的准确度和可靠性,广泛应用于数字医疗领域。

Description

阿尔茨海默症的预测方法、装置、设备和存储介质
技术领域
本申请涉及人工智能技术领域,尤其涉及一种阿尔茨海默症的预测方法、装置、设备和存储介质。
背景技术
随着当前社会老龄化程度的不断加深,人口老龄化也将伴随诸多健康问题,其中失能和失智等认知障碍疾病将对社会现行健康体系带来严峻挑战。
医学研究表明,语音和语言的某些特征变化是阿尔茨海默病或其他神经退行性疾病的信号,比其他严重的症状出现得更早。早期阿尔茨海默症的精准预测对于预防阿尔茨海默症病情的恶化具有重大意义。
现有技术通常是通过评估员和受试者进行一对一的认知评估,这种评估方式往往带有主观性,评估结果不精准,而且效率低。现有技术中还公开了通过人工智能技术来预测阿尔茨海默症,但是现有技术中都是从人物的表情、运动数据等层面单一的评估,导致评估结果也不准确。
发明内容
为了解决现有技术中对阿尔茨海默症的评估不准确的技术问题。本申请提供了一种阿尔茨海默症的预测方法、装置、设备和存储介质,其主要目的在于通过多种特征综合预测阿尔茨海默症,提高阿尔茨海默症的预测准确度。
为实现上述目的,本申请提供了一种阿尔茨海默症的预测方法,该方法包括:
获取待评估对象在认知功能评估测试中的目标语音数据;
利用已训练的病症预测模型提取目标语音数据的语义特征和非语义特征,根据语义特征和非语义特征对待评估对象的认知水平进行分类预测,得到目标预测结果。
此外,为实现上述目的,本申请还提供了一种阿尔茨海默症的预测装置,该装置包括:
第一获取模块,用于获取待评估对象在认知功能评估测试中的目标语音数据;
预测模块,用于利用已训练的病症预测模型提取目标语音数据的语义特征和非语义特征,根据语义特征和非语义特征对待评估对象的认知水平进行分类预测,得到目标预测结果。
为实现上述目的,本申请还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令,处理器执行计算机可读指令时执行如前面任一项的阿尔茨海默症的预测方法的步骤。
为实现上述目的,本申请还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行如前面任一项的阿尔茨海默症的预测方法的步骤。
本申请提出的阿尔茨海默症的预测方法、装置、设备和存储介质,根据阿尔茨海默症患者与正常人在理解能力和语言表达上的较大差异,通过神经网络模型学习正常人群和阿尔茨海默症患者的语音数据中语义特征分布规律和非语义特征分布规律,实现了对语音数据的全面分析,根据从待评估对象的语音数据中提取的语义特征和非语义特征来综合评判待评估对象是否患有阿尔茨海默症,克服了现有技术只能从单一特征进行疾病预测的缺陷,提高了阿尔茨海默症的预测和诊断的准确度和可靠性。
附图说明
图1为本申请一实施例中阿尔茨海默症的预测方法的流程示意图;
图2为本申请一实施例中阿尔茨海默症的预测装置的结构框图;
图3为本申请一实施例中计算机设备的内部结构框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
图1为本申请一实施例中阿尔茨海默症的预测方法的流程示意图。参考图1。该阿尔茨海默症的预测方法包括以下步骤S100-S200。
S100:获取待评估对象在认知功能评估测试中的目标语音数据。
具体地,语言能力的衰退在阿尔茨海默症的早期就有所反映,阿尔茨海默症患者的语言缺陷包括命名困难、口语和书面语的理解能力受损、流利但空洞的言语和语义失语症等。因此,本申请通过语音数据进行阿尔茨海默症的预测。
采集评估员与待评估对象在认知功能评估测试的语言功能测试项目中的对话语音,剔除对话语音中评估员的语音、保留待评估对象的语音得到第一语音数据作为目标语音数据。
优选地,可以对第一语音数据进行预处理得到目标语音数据。预处理包括但不限于语音降噪处理、语音信号增强处理、音量归一化处理和语音端点检测处理中的至少一种。
S200:利用已训练的病症预测模型提取目标语音数据的语义特征和非语义特征,根据语义特征和非语义特征对待评估对象的认知水平进行分类预测,得到目标预测结果。
具体地,语义特征具体指从语音数据中获取到的说话内容、意思表示、情感、意图、语法、句子逻辑、词频等其中的至少一种。非语义特征具体包括语音的基频、共振峰、停顿频率、语速、语调、基频微扰(Jitter)和振幅微扰(Shimmer)等特征中的一种或多种,但不局限于此。
正常人群的说话内容或意思表示是逻辑清晰、有条理的,情感是稳定的,意图是明显的,说话语句也是符合逻辑的,而且在认知功能测试中口语流利、带有情感,存在的障碍较少。而阿尔茨海默症患者则会出现不同程度的理解能力受损导致说话不流利、口语失常、失语症各种语言障碍。正常人群和阿尔茨海默症患者的语音数据反映了说话内容是否清楚明了或者句子逻辑是否清晰或者意图和情感是否符合正常人群特征以及在语音的基频、共振峰、停顿频率、语速、语调、基频微扰(Jitter)和振幅微扰(Shimmer)等特征上存在不同。
已训练的病症预测模型是通过正常人群的样本语音数据和阿尔茨海默症患者的样本语音数据训练得到的,或者是通过不同疾病程度的阿尔茨海默症患者(晚期阿尔茨海默症患者、中期阿尔茨海默症患者、早期阿尔茨海默症患者)和正常人群的样本语音数据训练得到的。已训练的病症预测模型已经学习到了不同疾病状态的阿尔茨海默症患者和正常人群的语义特征分布规律以及非语义特征分布规律。
将目标语音数据输入至已训练的病症预测模型,已训练的病症预测模型可以提取出目标语音数据的语义特征和非语义特征。根据从语音数据中提取的语义特征和非语义特征从两个大的维度对阿尔茨海默症的可能性进行预测。
目标预测结果具体为正常人群或阿尔茨海默症患者。或者,目标预测结果具体为晚期阿尔茨海默症患者、中期阿尔茨海默症患者、早期阿尔茨海默症患者、正常人群中的一种。目标预测结果与已训练的病症预测模型的分类预测种类相关,即与训练样本及训练样本的分类标签相关。在实际应用中可以进一步细分预测种类,本申请对此不作限定。
本实施例根据阿尔茨海默症患者与正常人在理解能力和语言表达上的较大差异,通过神经网络模型学习正常人群和阿尔茨海默症患者的语音数据中语义特征分布规律和非语义特征分布规律,实现了对语音数据的全面分析,根据从待评估对象的语音数据中提取的语义特征和非语义特征来综合评判待评估对象是否患有阿尔茨海默症,克服了现有技术只能从单一特征进行疾病预测的缺陷,提高了阿尔茨海默症的预测准确度和可靠性。
在一个实施例中,已训练的病症预测模型包括第一预测网络、第二预测网络和决策网络;
步骤S200中根据语义特征和非语义特征对待评估对象的认知水平进行分类预测,得到目标预测结果,包括:
利用第一预测网络根据语义特征对待评估对象的认知水平进行第一分类预测,得到第一预测结果;
利用第二预测网络根据非语义特征对待评估对象的认知水平进行第二分类预测,得到第二预测结果;
将第一预测结果和第二预测结果作为决策网络的输入,利用决策网络对第一预测结果和第二预测结果进行融合,得到目标预测结果。
具体地,第一预测网络学习了阿尔茨海默症患者和正常人群的语义特征的分布规律,用于根据目标语音数据的语义特征进行第一分类预测。第二预测网络学习了阿尔茨海默症患者和正常人群的非语义特征的分布规律,用于根据目标语音数据的非语义特征进行第二分类预测。第一预测网络和第二预测网络分别与决策网络连接。第一预测网络的第一预测结果输入至决策网络,第二预测网络的第二预测结果输入至决策网络。
在病症预测模型的每轮训练过程中第一预测网络和第二预测网络根据不同维度的特征对同一个受试者的认知能力进行预测,第一预测结果和第二预测结果都是一种小于或等于1的概率值,而受试者的真实认知能力是已知的,即确定受试者为阿尔茨海默症患者还是正常人群。决策网络学习了第一预测网络和第二预测网络的预测能力,具体学习了如何对两个预测网络的预测结果进行融合以得到接近真实的准确结果。更具体地,决策网络学习了第一预测网络和第二预测网络对预测结果的权重。例如决策网络在学习过程中学习到第一预测网络的预测能力更准确则会对第一预测网络的权重设置得更大,而第二预测网络的权重则设置得相对较小一些,这样在融合的时候第一预测网络的结果对最终预测结果的影响更大。因此,在已训练的病症预测模型中决策网络可以准确的将第一预测结果和第二预测结果进行融合得到准确的最终目标预测结果。
第一预测结果包括了第一预测网络预测对每种预测分类的概率,第二预测结果包括了第二预测网络对每种预测分类的概率。决策网络对第一预测网络分配了第一权重,对第二预测网络分配了第二权重。决策网络根据第一权重和第二权重对第一预测结果和第二预测结果中相同的预测分类进行加权计算,得到该预测分类的加权概率;最终选出所有预测分类对应的加权概率中最大加权概率和对应的预测分类作为最终结果输出。
决策网络可以采用经典的机器学习算法,比如逻辑回归、支持向量机、随机森林等算法,该模型可以是具有S型阈值函数sigmoid的输出层,该输出层可以预测输出一个与待检测者的认知状况相关的概率值(最大加权概率),该概率值为区间[0,1]中的一个数值,并且,该概率值表征了待检测者具有认知障碍的程度,比如,概率值越大,代表待检测者具有认知障碍的程度越高。
本实施例利用决策网络学习第一预测网络和第二预测网络的预测能力,通过将第一预测网络的第一预测结果和第二预测网络的第二预测结果进行融合得到最终预测结果,本实施例通过两个预测网络的预测结果的融合来综合评判待评估对象是否患有阿尔茨海默症,克服了现有技术只能从单一特征进行疾病预测的缺陷,提高了阿尔茨海默症的预测准确度和可靠性。
在一个实施例中,已训练的病症预测模型包括特征融合网络和预测网络;
步骤S200中根据语义特征和非语义特征对待评估对象的认知水平进行分类预测,得到目标预测结果,包括:
利用特征融合网络对语义特征和非语义特征进行特征融合,得到融合特征;
将融合特征作为预测网络的输入,利用预测网络对待评估对象的认知水平进行分类预测,得到目标预测结果。
具体地,本实施例是先对语义特征和非语义特征进行融合,再根据融合特征进行认知水平的分类预测,得到目标预测结果。
其中,预测网络学习了正常人群和阿尔茨海默症患者的融合特征的分布规律,因此能够根据待评估对象的融合特征对待评估对象的认知水平进行分类预测。
本实施例通过先进行特征融合再根据融合特征进行分类预测的方式来综合评判待评估对象是否患有阿尔茨海默症,克服了现有技术只能从单一特征进行疾病预测的缺陷,提高了阿尔茨海默症的预测准确度和可靠性。
在一个实施例中,已训练的病症预测模型还包括语音预训练网络;
步骤S200中利用已训练的病症预测模型提取目标语音数据中的语义特征和非语义特征,包括:
利用语音预训练网络对目标语音数据进行语音识别,得到识别文本,将识别文本输入至第一预测网络;
利用第一预测网络对识别文本进行语义特征提取,得到目标语音数据的语义特征;
利用语音预训练网络对目标语音数据进行第二编码,得到目标语音数据对应的第二编码向量;
利用第二预测网络对第二编码向量进行非语义特征提取,得到目标语音数据的非语义特征。
具体地,语音预训练网络是采用大量无标签的语音数据训练的,利用大规模无监督数据进行训练的语音预训练模型有着非常好的泛化性,模型能够从海量数据中学习到语音的高维空间表征,作为上游的预训练模型。通过使用少量带标签的数据微调模型,就可以在相应任务上有所提高,用于相应的下游任务中,例如语音识别、说话人识别、声音事件监测等。语音预训练网络可以采用WavLM、wav2vec、HuBERT等其中的一种。
为了加强语音预训练网络在阿尔茨海默症预测领域的语音识别功能,预先使用少量带文本标签的第一样本语音数据对语音预训练网络进行语音识别功能的微调,其中,第一样本语音数据包括阿尔茨海默症患者和正常人群在认知能力评估测试中的语音数据,其标签为对应的文本标签。
语音预训练网络在训练后可以对目标语音数据进行语音识别,得到对应的识别文本。
第一预测网络对识别文本进行第一编码,得到识别文本对应的第一编码向量,对第一编码向量进行语义特征提取,得到目标语音数据的语义特征。语义特征具体包括文本的情感、意图、意思表示、语法、句子逻辑、词频等其中的至少一种。
第一预测网络可以采用基于Transformer的BERT预训练模型、RoBERTa、ALBERT等其中的一种自然语言处理的预训练模型构建,BERT模型使用大量的维基百科等开源或网络文本数据训练,通过使用掩码语言模型(MLM)和下一句预测(NSP)任务来训练模型对文本单词、短语和句子的处理能力,可以作为上游预训练模型。通常使用少量带有标签的文本数据微调模型,使之能够应用于各类下游任务中,例如文本分类、文本的情感预测等。
为了加强第一预测网络在阿尔茨海默症预测领域根据文本对阿尔茨海默症进行预测的能力,预先使用带分类标签的第一样本文本对第一预测网络进行微调,以加强其分类预测能力,其中,第一样本文本包括阿尔茨海默症患者和正常人群在认知能力评估测试中的文本,其标签为阿尔茨海默症患者或正常人群等其中的一个分类标签。
第二预测网络具体为经过微调的语音预训练模型,语音预训练模型可以对目标语音数据进行第二编码并对得到的第二编码向量进行非语义特征提取。非语义特征具体包括语音数据的基频、共振峰、停顿频率、语速、语调、基频微扰(Jitter)和振幅微扰(Shimmer)等特征中的一种或多种。
本实施例实现了从语音识别的文本中提取语义特征、从语音中提取非语义特征,从文本和语音两个方面进行病症预测。
在一个实施例中,已训练的病症预测模型还包括语音预训练网络、第一特征提取网络和第二特征提取网络;
步骤S200中利用已训练的病症预测模型提取目标语音数据中的语义特征和非语义特征,包括:
利用语音预训练网络对目标语音数据进行语音识别,得到识别文本,将识别文本输入至第一特征提取网络;
利用第一特征提取网络对识别文本进行语义特征提取,得到目标语音数据的语义特征;
利用语音预训练网络对目标语音数据进行第二编码,得到目标语音数据对应的第二编码向量;
利用第二特征提取网络对第二编码向量进行非语义特征提取,得到目标语音数据的非语义特征。
具体地,第一特征提取网络具体用于对文本进行语义特征提取,第一特征提取网络可以采用BERT预训练模型中的特征提取层构建。
第二特征提取网络可以采用经过微调的语音预训练模型的特征提取层构建。
在一个实施例中,第二预测网络是基于生成对抗网络构建的;
该方法还包括:
获取样本语音集合,其中,样本语音集合包括标注有多种认知水平标签的样本语音数据;
使用反向传播最小化损失函数的策略,利用样本语音集合对待训练的病症预测模型中的决策网络、第一预测网络和第二预测网络进行迭代更新训练。
具体地,阿尔茨海默病患者的语音数据难以收集,带有临床诊断的标注数据量通常很小,因此相关预测模型的开发困难较大。因此,需要解决数据稀疏和数据不平衡的问题。
在微调模型的过程中,为了解决阿尔茨海默症领域带标签数据不足与数据不平衡的问题,引入对抗学习来进行构建网络和模型训练。第二预测网络具体为基于生成对抗网络构建的语音预训练模型。
对抗学习涉及一种生成对抗网络(Generative Adversarial Networks,GANs)。其中GAN模型由两个网络组成:用来拟合数据分布的生成网络G,和用来判断输入是否“真实”的判别网络D。生成器的目标是通过生成尽可能接近实际数据的样本来“欺骗”鉴别器。本实施例还可以使用双向生成对抗网络(Bidirectional Generative Adversarial Networks,BiGAN)。除了来自标准GAN框架的生成器G和判别器D之外,BiGAN还包括编码器E,目的是将数据x映射到潜在表示z。BiGAN编码器学习预测给定数据x的特征,这些特征能够捕获数据的语义属性,训练好的BiGAN编码器可以作为相关任务的有用特征表示。
在生成对抗网络中生成器生成假数据样本(假的样本语音数据)并试图欺骗鉴别器。另一方面,鉴别器试图区分真假样本。生成器和判别器都是神经网络,它们在训练阶段都相互竞争。重复这些步骤,在这个过程中,生成器和鉴别器在每次重复后在各自的工作中变得越来越好。
语音预训练网络中的生成对抗网络可以预先利用其他样本语音数据训练好,使生成对抗网络具有生成新的语音数据的能力。因此向语音预训练网络输入阿尔茨海默症患者和正常人群的样本语音数据后,可以复制生成新的样本语音数据,以解决样本少和数据不平衡的问题。另外,使用生成对抗网络可以使模型能够更好的学习语音数据的特征以及更好的辨别和分类,实现语音分析。
本实施例是利用样本语音集合对决策网络、第一预测网络和第二预测网络进行联合训练。其中,语音预训练网络、第一预测网络和第二预测网络在联合训练之前还可以预先进行单独训练。
本实施例结合阿尔茨海默病临床病症研究、语言学、语音学和数据分析来进行疾病预测和预警。采用基于海量无标签数据训练的语音预训练模型以及基于对抗学习的生成对抗网络模型,解决了医疗问题中样本量少和数据不平衡的问题。同时解决了完全端到端模型的可解释性低,无法对语音信号特征进行全面分析的问题。提高了病症预测的准确度。
在一个实施例中,该方法还包括:
获取样本语音集合,其中,样本语音集合包括标注有多种认知水平标签的样本语音数据;
使用反向传播最小化损失函数的策略,利用样本语音集合对待训练的病症预测模型中的第一特征提取网络、第二特征提取网络、融合网络和预测网络进行迭代更新训练。
具体地,获取已知认知水平的受试者在认知功能评估测试中的语音数据作为样本语音数据;根据受试者的真实认知水平对样本语音数据进行认知水平标注,形成语音样本集合。
本实施例实现了对第一特征提取网络、第二特征提取网络、融合网络和预测网络进行联合训练。
另外,本申请在模型训练过程中可以采用交叉熵损失函数,采用随机梯度下降法计算损失函数,根据损失函数来更新各个网络的模型参数。
在一个实施例中,获取样本语音集合,包括:
获取受试者在认知功能评估测试中的原始语音数据;
对原始语音数据进行预处理得到样本语音数据,其中,预处理包括语音降噪处理、语音信号增强处理、语音端点检测处理和音量归一化处理中的至少一种;
将根据受试者的真实认知水平进行认知水平标签标注后的样本语音数据组成样本语音集合。
具体地,采集至少两种已知认知水平的受试者的音频数据作为原始语音数据。预处理包括但不限于语音降噪处理、语音信号增强处理、音量归一化处理和语音端点检测处理中的至少一种。
语音降噪处理可以对语音数据进行噪声干扰排除,获得更纯净的语音,降低对后续结果的干扰。语音信号增强处理可以改进语音质量,降低或消除背景噪声的干扰。语音端点检测(Voice Activity Detection,简称VAD)可以获得切除掉静音段的说话人语音片段。音量归一化的结果是使不同录音人在不同条件下录音的音量在一个合理范围,便于后续语音分析。语音降噪处理、语音信号增强处理、音量归一化处理和语音端点检测处理的执行顺序不做限制。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本申请的阿尔茨海默症的预测方案可以应用于数字医疗领域,利用人工智能技术、自然语言处理技术和语音识别技术对阿尔茨海默症进行精准诊断和预测。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
图2为本申请一实施例中阿尔茨海默症的预测装置的结构框图。参考图2,该装置包括:
第一获取模块100,用于获取待评估对象在认知功能评估测试中的目标语音数据;
预测模块200,用于利用已训练的病症预测模型提取目标语音数据的语义特征和非语义特征,根据语义特征和非语义特征对待评估对象的认知水平进行分类预测,得到目标预测结果。
在一个实施例中,已训练的病症预测模型包括第一预测网络、第二预测网络和决策网络;
预测模块200具体包括:
第一预测模块,用于利用第一预测网络根据语义特征对待评估对象的认知水平进行第一分类预测,得到第一预测结果;
第二预测模块,用于利用第二预测网络根据非语义特征对待评估对象的认知水平进行第二分类预测,得到第二预测结果;
决策模块,用于将第一预测结果和第二预测结果作为决策网络的输入,利用决策网络对第一预测结果和第二预测结果进行融合,得到目标预测结果。
在一个实施例中,已训练的病症预测模型包括特征融合网络和预测网络;
预测模块200具体包括:
特征融合模块,用于利用特征融合网络对语义特征和非语义特征进行特征融合,得到融合特征;
分类预测模块,用于将融合特征作为预测网络的输入,利用预测网络对待评估对象的认知水平进行分类预测,得到目标预测结果。
在一个实施例中,已训练的病症预测模型还包括语音预训练网络;
预测模块200具体包括:
语音识别模块,用于利用语音预训练网络对目标语音数据进行语音识别,得到识别文本,将识别文本输入至第一预测网络;
第一特征提取模块,用于利用第一预测网络对识别文本进行语义特征提取,得到目标语音数据的语义特征;
第二编码模块,用于利用语音预训练网络对目标语音数据进行第二编码,得到目标语音数据对应的第二编码向量;
第二特征提取模块,用于利用第二预测网络对第二编码向量进行非语义特征提取,得到目标语音数据的非语义特征。
在一个实施例中,已训练的病症预测模型还包括语音预训练网络、第一特征提取网络和第二特征提取网络;
预测模块200具体包括:
语音识别模块,用于利用语音预训练网络对目标语音数据进行语音识别,得到识别文本,将识别文本输入至第一特征提取网络;
第一特征提取模块,用于利用第一特征提取网络对识别文本进行语义特征提取,得到目标语音数据的语义特征;
第二编码模块,用于利用语音预训练网络对目标语音数据进行第二编码,得到目标语音数据对应的第二编码向量;
第二特征提取模块,用于利用第二特征提取网络对第二编码向量进行非语义特征提取,得到目标语音数据的非语义特征。
在一个实施例中,第二预测网络是基于生成对抗网络构建的;
该装置还包括:
样本获取模块,用于获取样本语音集合,其中,样本语音集合包括标注有多种认知水平标签的样本语音数据;
模型训练模块,用于使用反向传播最小化损失函数的策略,利用样本语音集合对待训练的病症预测模型中的决策网络、第一预测网络和第二预测网络进行迭代更新训练。
在一个实施例中,样本获取模块具体包括:
原始语音获取模块,用于获取受试者在认知功能评估测试中的原始语音数据;
预处理模块,用于对原始语音数据进行预处理得到样本语音数据,其中,预处理包括语音降噪处理、语音信号增强处理、语音端点检测处理和音量归一化处理中的至少一种;
样本集合模块,用于将根据受试者的真实认知水平进行认知水平标签标注后的样本语音数据组成样本语音集合。
其中上述模块/单元中的“第一”和“第二”的意义仅在于将不同的模块/单元加以区分,并不用于限定哪个模块/单元的优先级更高或者其它的限定意义。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块,本申请中所出现的模块的划分,仅仅是一种逻辑上的划分,实际应用中实现时可以有另外的划分方式。
关于阿尔茨海默症的预测装置的具体限定可以参见上文中对于阿尔茨海默症的预测方法的限定,在此不再赘述。上述阿尔茨海默症的预测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
图3为本申请一实施例中计算机设备的内部结构框图。如图3所示,该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中,该计算机设备的处理器用于提供计算和控制能力。存储器包括存储介质和内存储器。存储介质可以是非易失性存储介质,也可以是易失性存储介质。存储介质存储有操作系统,还可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器实现阿尔茨海默症的预测方法。该内存储器为存储介质中的操作系统和计算机可读指令的运行提供环境。该内存储器中也可储存有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行阿尔茨海默症的预测方法。该计算机设备的网络接口用于与外部服务器通过网络连接通信。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令(例如计算机程序),处理器执行计算机可读指令时实现上述实施例中阿尔茨海默症的预测方法的步骤,例如图1所示的步骤S100至步骤S200及该方法的其它扩展和相关步骤的延伸。或者,处理器执行计算机可读指令时实现上述实施例中阿尔茨海默症的预测装置的各模块/单元的功能,例如图2所示模块100至模块200的功能。为避免重复,这里不再赘述。
处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,处理器是计算机装置的控制中心,利用各种接口和线路连接整个计算机装置的各个部分。
存储器可用于存储计算机可读指令和/或模块,处理器通过运行或执行存储在存储器内的计算机可读指令和/或模块,以及调用存储在存储器内的数据,实现计算机装置的各种功能。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、视频数据等)等。
存储器可以集成在处理器中,也可以与处理器分开设置。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机可读指令,计算机可读指令被处理器执行时实现上述实施例中阿尔茨海默症的预测方法的步骤,例如图1所示的步骤S100至步骤S200及该方法的其它扩展和相关步骤的延伸。或者,计算机可读指令被处理器执行时实现上述实施例中阿尔茨海默症的预测装置的各模块/单元的功能,例如图2所示模块100至模块200的功能。为避免重复,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指示相关的硬件来完成,的计算机可读指令可存储于一计算机可读取存储介质中,该计算机可读指令在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双倍速率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例的方法。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种阿尔茨海默症的预测方法,其特征在于,所述方法包括:
获取待评估对象在认知功能评估测试中的目标语音数据;
利用已训练的病症预测模型提取所述目标语音数据的语义特征和非语义特征,根据所述语义特征和非语义特征对所述待评估对象的认知水平进行分类预测,得到目标预测结果。
2.根据权利要求1所述的方法,其特征在于,所述已训练的病症预测模型包括第一预测网络、第二预测网络和决策网络;
所述根据所述语义特征和非语义特征对所述待评估对象的认知水平进行分类预测,得到目标预测结果,包括:
利用所述第一预测网络根据所述语义特征对所述待评估对象的认知水平进行第一分类预测,得到第一预测结果;
利用所述第二预测网络根据所述非语义特征对所述待评估对象的认知水平进行第二分类预测,得到第二预测结果;
将所述第一预测结果和第二预测结果作为所述决策网络的输入,利用所述决策网络对所述第一预测结果和第二预测结果进行融合,得到目标预测结果。
3.根据权利要求1所述的方法,其特征在于,所述已训练的病症预测模型包括特征融合网络和预测网络;
所述根据所述语义特征和非语义特征对所述待评估对象的认知水平进行分类预测,得到目标预测结果,包括:
利用所述特征融合网络对所述语义特征和非语义特征进行特征融合,得到融合特征;
将所述融合特征作为所述预测网络的输入,利用所述预测网络对所述待评估对象的认知水平进行分类预测,得到目标预测结果。
4.根据权利要求2所述的方法,其特征在于,所述已训练的病症预测模型还包括语音预训练网络;
所述利用已训练的病症预测模型提取所述目标语音数据中的语义特征和非语义特征,包括:
利用所述语音预训练网络对所述目标语音数据进行语音识别,得到识别文本,将所述识别文本输入至所述第一预测网络;
利用所述第一预测网络对所述识别文本进行语义特征提取,得到所述目标语音数据的语义特征;
利用所述语音预训练网络对所述目标语音数据进行第二编码,得到所述目标语音数据对应的第二编码向量;
利用所述第二预测网络对所述第二编码向量进行非语义特征提取,得到所述目标语音数据的非语义特征。
5.根据权利要求3所述的方法,其特征在于,所述已训练的病症预测模型还包括语音预训练网络、第一特征提取网络和第二特征提取网络;
所述利用已训练的病症预测模型提取所述目标语音数据中的语义特征和非语义特征,包括:
利用所述语音预训练网络对所述目标语音数据进行语音识别,得到识别文本,将所述识别文本输入至所述第一特征提取网络;
利用所述第一特征提取网络对所述识别文本进行语义特征提取,得到所述目标语音数据的语义特征;
利用所述语音预训练网络对所述目标语音数据进行第二编码,得到所述目标语音数据对应的第二编码向量;
利用所述第二特征提取网络对所述第二编码向量进行非语义特征提取,得到所述目标语音数据的非语义特征。
6.根据权利要求4所述的方法,其特征在于,所述第二预测网络是基于生成对抗网络构建的;
所述方法还包括:
获取样本语音集合,其中,所述样本语音集合包括标注有多种认知水平标签的样本语音数据;
使用反向传播最小化损失函数的策略,利用所述样本语音集合对待训练的病症预测模型中的决策网络、第一预测网络和第二预测网络进行迭代更新训练。
7.根据权利要求6所述的方法,其特征在于,所述获取样本语音集合,包括:
获取受试者在认知功能评估测试中的原始语音数据;
对所述原始语音数据进行预处理得到样本语音数据,其中,所述预处理包括语音降噪处理、语音信号增强处理、语音端点检测处理和音量归一化处理中的至少一种;
将根据所述受试者的真实认知水平进行认知水平标签标注后的样本语音数据组成样本语音集合。
8.一种阿尔茨海默症的预测装置,其特征在于,所述装置包括:
第一获取模块,用于获取待评估对象在认知功能评估测试中的目标语音数据;
预测模块,用于利用已训练的病症预测模型提取所述目标语音数据的语义特征和非语义特征,根据所述语义特征和非语义特征对所述待评估对象的认知水平进行分类预测,得到目标预测结果。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令,其特征在于,所述处理器执行所述计算机可读指令时执行如权利要求1-7任一项所述的阿尔茨海默症的预测方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机可读指令,其特征在于,所述计算机可读指令被处理器执行时,使得所述处理器执行如权利要求1-7任一项所述的阿尔茨海默症的预测方法的步骤。
CN202310151768.8A 2023-02-10 2023-02-10 阿尔茨海默症的预测方法、装置、设备和存储介质 Pending CN116269223A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310151768.8A CN116269223A (zh) 2023-02-10 2023-02-10 阿尔茨海默症的预测方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310151768.8A CN116269223A (zh) 2023-02-10 2023-02-10 阿尔茨海默症的预测方法、装置、设备和存储介质

Publications (1)

Publication Number Publication Date
CN116269223A true CN116269223A (zh) 2023-06-23

Family

ID=86837115

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310151768.8A Pending CN116269223A (zh) 2023-02-10 2023-02-10 阿尔茨海默症的预测方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN116269223A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116936108A (zh) * 2023-09-19 2023-10-24 之江实验室 一种面向不平衡数据的疾病预测系统
CN117898684A (zh) * 2024-03-20 2024-04-19 北京大学 一种心力衰竭病情监测方法、装置、设备及可读存储介质
CN117976198A (zh) * 2024-03-28 2024-05-03 神州医疗科技股份有限公司 基于数据筛选和对抗网络的医学跨域辅助诊断方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116936108A (zh) * 2023-09-19 2023-10-24 之江实验室 一种面向不平衡数据的疾病预测系统
CN116936108B (zh) * 2023-09-19 2024-01-02 之江实验室 一种面向不平衡数据的疾病预测系统
CN117898684A (zh) * 2024-03-20 2024-04-19 北京大学 一种心力衰竭病情监测方法、装置、设备及可读存储介质
CN117976198A (zh) * 2024-03-28 2024-05-03 神州医疗科技股份有限公司 基于数据筛选和对抗网络的医学跨域辅助诊断方法及装置

Similar Documents

Publication Publication Date Title
CN110728997B (zh) 一种基于情景感知的多模态抑郁症检测系统
US10475442B2 (en) Method and device for recognition and method and device for constructing recognition model
CN116269223A (zh) 阿尔茨海默症的预测方法、装置、设备和存储介质
US20220139384A1 (en) System and methods for training task-oriented dialogue (tod) language models
Rohanian et al. Alzheimer's dementia recognition using acoustic, lexical, disfluency and speech pause features robust to noisy inputs
CN116386862A (zh) 多模态认知障碍的评估方法、装置、设备和存储介质
CN116130092A (zh) 多语言预测模型的训练及阿尔茨海默病预测的方法、装置
US20200043495A1 (en) Method and apparatus for performing multi-language communication
Khan et al. Stacked deep dense neural network model to predict alzheimer’s dementia using audio transcript data
Yadav et al. A novel automated depression detection technique using text transcript
Abdulmajeed et al. A review on voice pathology: Taxonomy, diagnosis, medical procedures and detection techniques, open challenges, limitations, and recommendations for future directions
Isa et al. CNN comparisons models on dyslexia handwriting classification
Kaushik et al. SLINet: Dysphasia detection in children using deep neural network
CN113853651B (zh) 用量化的情感状态进行语音-情感识别的装置和方法
Feng Toward knowledge-driven speech-based models of depression: Leveraging spectrotemporal variations in speech vowels
Rosdi et al. An FPN-based classification method for speech intelligibility detection of children with speech impairments
CN114898779A (zh) 融合多模态的语音情感识别方法及系统
Birajdar et al. Indian language identification using time-frequency texture features and kernel ELM
Deepa et al. Speech technology in healthcare
Jones et al. Density and distinctiveness in early word learning: Evidence from neural network simulations
Gupta et al. REDE-Detecting human emotions using CNN and RASA
Kavitha et al. Deep Learning based Audio Processing Speech Emotion Detection
Hossain et al. Stacked Convolutional Autoencoder with Multi-label Extreme Learning Machine (SCAE-MLELM) for Bangla Regional Language Classification
Tripathi et al. Speech-based detection of multi-class Alzheimer’s disease classification using machine learning
Tang et al. Analysis on Gated Recurrent Unit Based Question Detection Approach.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination