CN116130092A - 多语言预测模型的训练及阿尔茨海默病预测的方法、装置 - Google Patents

多语言预测模型的训练及阿尔茨海默病预测的方法、装置 Download PDF

Info

Publication number
CN116130092A
CN116130092A CN202310154350.2A CN202310154350A CN116130092A CN 116130092 A CN116130092 A CN 116130092A CN 202310154350 A CN202310154350 A CN 202310154350A CN 116130092 A CN116130092 A CN 116130092A
Authority
CN
China
Prior art keywords
sample
alzheimer
disease
multilingual
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310154350.2A
Other languages
English (en)
Inventor
陈闽川
马骏
王少军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202310154350.2A priority Critical patent/CN116130092A/zh
Publication of CN116130092A publication Critical patent/CN116130092A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/40Detecting, measuring or recording for evaluating the nervous system
    • A61B5/4076Diagnosing or monitoring particular conditions of the nervous system
    • A61B5/4088Diagnosing of monitoring cognitive diseases, e.g. Alzheimer, prion diseases or dementia
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/48Other medical applications
    • A61B5/4803Speech analysis specially adapted for diagnostic purposes
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7235Details of waveform analysis
    • A61B5/7264Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
    • A61B5/7267Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems involving training the classification device
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Pathology (AREA)
  • Surgery (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Veterinary Medicine (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Neurology (AREA)
  • Molecular Biology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Psychiatry (AREA)
  • Databases & Information Systems (AREA)
  • Physiology (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Hospice & Palliative Care (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • Evolutionary Computation (AREA)
  • Neurosurgery (AREA)
  • Psychology (AREA)
  • Child & Adolescent Psychology (AREA)
  • Developmental Disabilities (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本申请涉及人工智能技术,提出一种多语言预测模型的训练及阿尔茨海默病预测的方法、装置,该方法包括:获取第一样本语音集合,利用预训练的多语言阿尔茨海默症预测模型对样本语音数据进行语音识别得到样本识别文本,对样本识别文本进行第一特征提取得到样本语义特征,对第一样本语音数据进行第二特征提取得到样本非语义特征,利用样本语义特征和样本非语义特征对受试者的认知水平进行分类预测,得到样本预测结果;根据样本预测结果和认知水平标签计算的损失函数更新预训练的多语言阿尔茨海默症预测模型的模型参数直至模型收敛。本申请提高了阿尔茨海默症的预测和诊断的准确度和可靠性,且实现了多语种的疾病预测,广泛应用于数字医疗领域。

Description

多语言预测模型的训练及阿尔茨海默病预测的方法、装置
技术领域
本申请涉及人工智能技术领域,尤其涉及一种多语言预测模型的训练及阿尔茨海默病预测的方法、装置。
背景技术
随着当前社会老龄化程度的不断加深,人口老龄化也将伴随诸多健康问题,其中失能和失智等认知障碍疾病将对社会现行健康体系带来严峻挑战。
医学研究表明,语音和语言的某些特征变化是阿尔茨海默病或其他神经退行性疾病的信号,比其他严重的症状出现得更早。早期阿尔茨海默症的精准预测对于预防阿尔茨海默症病情的恶化具有重大意义。
现有技术通常是通过评估员和受试者进行一对一的认知评估,这种评估方式往往带有主观性,评估结果不精准,而且效率低。现有技术中还公开了通过人工智能技术来预测阿尔茨海默症,但是现有技术中都是从人物的表情、运动数据等层面单一的评估,导致评估结果也不准确。另外,对于不同语言的人群,受限于语种的差异,目前无法实现使用单一模型对不同语种的人群进行疾病的预测。
发明内容
为了解决现有技术中对阿尔茨海默症的评估不准确以及只能对单一特定语种的人群进行疾病预测的技术问题。本申请提供了一种多语言预测模型的训练及阿尔茨海默病预测的方法、装置,其主要目的在于通过多种特征综合预测阿尔茨海默症,提高阿尔茨海默症的预测准确度,以及实现多语种的疾病预测。
为实现上述目的,本申请提供了一种多语言阿尔茨海默症预测模型的训练方法,该方法包括:
获取第一样本语音集合,其中,第一样本语音集合包括至少两种不同的目标语种的第一子样本语音集合,每个第一子样本语音集合包括标注有多种认知水平标签的第一样本语音数据,第一样本语音数据为对应受试者在认知功能评估测试中的语音数据;
利用预训练的多语言阿尔茨海默症预测模型对输入的第一样本语音数据进行语音识别得到样本识别文本,对样本识别文本进行第一特征提取得到样本语义特征,对输入的第一样本语音数据进行第二特征提取得到样本非语义特征,利用样本语义特征和样本非语义特征对对应的受试者的认知水平进行分类预测,得到样本预测结果;
根据样本预测结果和对应的认知水平标签计算损失函数,根据损失函数更新预训练的多语言阿尔茨海默症预测模型的模型参数,直至模型收敛。
此外,为实现上述目的,本申请还提供了一种阿尔茨海默症的预测方法,该方法包括:
获取待评估对象在认知功能评估测试中的目标语音数据;
利用已训练的多语言阿尔茨海默症预测模型提取目标语音数据的目标语义特征和目标非语义特征,根据目标语义特征和目标非语义特征对待评估对象的认知水平进行分类预测,得到目标预测结果,其中,已训练的多语言阿尔茨海默症预测模型是根据前面任一项的多语言阿尔茨海默症预测模型的训练方法得到的。
此外,为实现上述目的,本申请还提供了一种多语言阿尔茨海默症预测模型的训练装置,该装置包括:
第一数据获取模块,用于获取第一样本语音集合,其中,第一样本语音集合包括至少两种不同的目标语种的第一子样本语音集合,每个第一子样本语音集合包括标注有多种认知水平标签的第一样本语音数据,第一样本语音数据为对应受试者在认知功能评估测试中的语音数据;
训练预测模块,用于利用预训练的多语言阿尔茨海默症预测模型对输入的第一样本语音数据进行语音识别得到样本识别文本,对样本识别文本进行第一特征提取得到样本语义特征,对输入的第一样本语音数据进行第二特征提取得到样本非语义特征,利用样本语义特征和样本非语义特征对对应的受试者的认知水平进行分类预测,得到样本预测结果;
参数更新模块,用于根据样本预测结果和对应的认知水平标签计算损失函数,根据损失函数更新预训练的多语言阿尔茨海默症预测模型的模型参数,直至模型收敛。
为实现上述目的,本申请还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令,处理器执行计算机可读指令时执行如前面任一项的多语言阿尔茨海默症预测模型的训练方法的步骤,或,处理器执行计算机可读指令时执行如前面任一项的阿尔茨海默症的预测方法的步骤。
为实现上述目的,本申请还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行如前面任一项的多语言阿尔茨海默症预测模型的训练方法的步骤,或,使得处理器执行如前面任一项的阿尔茨海默症的预测方法的步骤。
本申请提出的多语言预测模型的训练及阿尔茨海默病预测的方法、装置,通过根据阿尔茨海默症患者与正常人在理解能力和语言表达上的较大差异,通过神经网络模型学习不同语种的正常人群和阿尔茨海默症患者的语音数据中语义特征分布规律和非语义特征分布规律,且由于非语义特征与语种无关,因此能够对共享的跨语言的非语义特征进行学习,实现了对语音数据的全面分析,使得训练出来的多语言阿尔茨海默症预测模型能够综合进行阿尔茨海默症的预测,克服了现有技术只能从单一特征进行疾病预测的缺陷,提高了阿尔茨海默症的预测准确度和可靠性,且实现了多语种的疾病预测。
附图说明
图1为本申请一实施例中多语言阿尔茨海默症预测模型的训练方法的流程示意图;
图2为本申请一实施例中阿尔茨海默症的预测方法的流程示意图;
图3为本申请一实施例中多语言阿尔茨海默症预测模型的训练装置的结构框图;
图4为本申请一实施例中阿尔茨海默症的预测装置的结构框图;
图5为本申请一实施例中计算机设备的内部结构框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
图1为本申请一实施例中多语言阿尔茨海默症预测模型的训练方法的流程示意图。参考图1,该多语言阿尔茨海默症预测模型的训练方法包括以下步骤S110-S130。
S110:获取第一样本语音集合,其中,第一样本语音集合包括至少两种不同的目标语种的第一子样本语音集合,每个第一子样本语音集合包括标注有多种认知水平标签的第一样本语音数据,第一样本语音数据为对应受试者在认知功能评估测试中的语音数据。
具体地,语言能力的衰退在阿尔茨海默症的早期就有所反映,阿尔茨海默症患者的语言缺陷包括命名困难、口语和书面语的理解能力受损、流利但空洞的言语和语义失语症等。因此,本申请通过语音数据进行阿尔茨海默症的预测。
本实施例的多语言阿尔茨海默症预测模型可以应用于至少两种目标语种的阿尔茨海默症的预测。因此,在模型训练过程中,需要获取每种目标语种的第一样本语音数据。每种目标语种的第一子样本语音集合包括多个对应目标语种的第一样本语音数据,且该第一样本语音数据已打标签,且该标签与对应的第一样本语音数据为相同的目标语种。标签为正常人群或阿尔茨海默症患者;或者,标签为晚期阿尔茨海默症患者、中期阿尔茨海默症患者、早期阿尔茨海默症患者、正常人群中的一种。
采集不同目标语种的评估员与受试者在认知功能评估测试的语言功能测试项目中的对话语音,剔除对话语音中评估员的语音、保留受试者的语音,得到该目标语种的第一样本语音数据。
优选地,可以对第一样本语音数据进行预处理。预处理包括但不限于语音降噪处理、语音信号增强处理、音量归一化处理和语音端点检测处理中的至少一种。
另外,不同目标语种可以包括汉语、英语、德语、西班牙语、意大利语、日语、韩语等其中的至少两种。
S120:利用预训练的多语言阿尔茨海默症预测模型对输入的第一样本语音数据进行语音识别得到样本识别文本,对样本识别文本进行第一特征提取得到样本语义特征,对输入的第一样本语音数据进行第二特征提取得到样本非语义特征,利用样本语义特征和样本非语义特征对对应的受试者的认知水平进行分类预测,得到样本预测结果。
具体地,语义特征具体指从语音数据中获取到的说话内容、意思表示、情感、意图、语法、句子逻辑、词频等其中的至少一种。非语义特征具体包括语音的基频、共振峰、停顿频率、语速、语调、基频微扰(Jitter)和振幅微扰(Shimmer)等特征中的一种或多种,但不局限于此。
正常人群的说话内容或意思表示是逻辑清晰、有条理的,情感是稳定的,意图是明显的,说话语句也是符合逻辑的,而且在认知功能测试中口语流利、带有情感,存在的障碍较少。而阿尔茨海默症患者则会出现不同程度的理解能力受损导致说话不流利、口语失常、失语症各种语言障碍。正常人群和阿尔茨海默症患者的语音数据反映了说话内容是否清楚明了或者句子逻辑是否清晰或者意图和情感是否符合正常人群特征以及在语音的基频、共振峰、停顿频率、语速、语调、基频微扰(Jitter)和振幅微扰(Shimmer)等特征上存在不同。
在训练过程中,预训练的多语言阿尔茨海默症预测模型通过正常人群的样本语音数据和阿尔茨海默症患者的样本语音数据,或者学习不同疾病程度的阿尔茨海默症患者(晚期阿尔茨海默症患者、中期阿尔茨海默症患者、早期阿尔茨海默症患者)和正常人群的样本语音数据,学习不同疾病状态的阿尔茨海默症患者和正常人群的语义特征分布规律以及非语义特征分布规律。
其中,语义特征是从语音识别到的识别文本中提取的,非语义特征是从样本语音数据中提取的。非语义特征与语种无关,即使是不同语种的正常人群,其语言行为中的非语义特征也是相似的,同理,不同语种的阿尔茨海默症患者的语言行为中的非语义特征也是相似的,例如音调、语速、停顿频率等。因此预训练的多语言阿尔茨海默症预测模型可以跨语言学习不同语种共享的非语义特征。
对于不同语种,不一样的主要是文本中的语义特征,所以需要对不同语言的音频转为文字后,进行语义语法分析,例如对词频、句法逻辑、口语词,语义等进行分析处理。对比正常人的语音中这些特征的区别,从而可以发现阿尔茨海默病患者的语义特征。
在训练过程中,预训练的多语言阿尔茨海默症预测模型会根据从语音数据中提取的语义特征和非语义特征从两个大的维度对阿尔茨海默症的可能性进行预测,得到样本预测结果。
S130:根据样本预测结果和对应的认知水平标签计算损失函数,根据损失函数更新预训练的多语言阿尔茨海默症预测模型的模型参数,直至模型收敛。
具体地,根据第一样本语音数据对应的样本预测结果与真实的认知水平标签计算得到损失函数,根据损失函数更新预训练的多语言阿尔茨海默症预测模型的模型参数后得到新的预训练的多语言阿尔茨海默症预测模型。
再次输入一个带标签的第一样本语音数据至新的预训练的多语言阿尔茨海默症预测模型,新的预训练的多语言阿尔茨海默症预测模型根据输入的第一样本语音数据进行阿尔茨海默症可能性的预测,得到样本预测结果,根据再次输入的第一样本语音数据对应的样本预测结果与其真实的认知水平标签计算得到损失函数,根据损失函数更新预训练的多语言阿尔茨海默症预测模型的模型参数。如此循环迭代训练,直至模型收敛,得到已训练的多语言阿尔茨海默症预测模型。其中,模型收敛的条件包括训练次数达到预设次数,或者,损失函数小于预设值。
本实施例根据阿尔茨海默症患者与正常人在理解能力和语言表达上的较大差异,通过神经网络模型学习不同语种的正常人群和阿尔茨海默症患者的语音数据中语义特征分布规律和非语义特征分布规律,且由于非语义特征与语种无关,因此能够对共享的跨语言的非语义特征进行学习,实现了对语音数据的全面分析,使得训练出来的多语言阿尔茨海默症预测模型能够综合进行阿尔茨海默症的预测,克服了现有技术只能从单一特征进行疾病预测的缺陷,提高了阿尔茨海默症的预测准确度和可靠性,且实现了多语种的疾病预测。
在一个实施例中,预训练的多语言阿尔茨海默症预测模型包括多语言文本预训练网络、多语言语音预训练网络和决策网络;
步骤S110具体包括:
利用多语言语音预训练网络对输入的第一样本语音数据进行语音识别,得到样本识别文本,将样本识别文本输入至多语言文本预训练网络;
利用多语言文本预训练网络对样本识别文本进行语义特征提取,根据得到的样本语义特征对对应的受试者的认知水平进行第一分类预测,得到第一样本预测结果;
利用多语言语音预训练网络对输入的第一样本语音数据进行非语义特征提取,根据得到的样本非语义特征对受试者的认知水平进行第二分类预测,得到第二样本预测结果;
利用决策网络对第一样本预测结果和第二样本预测结果进行融合,得到样本预测结果。
具体地,多语言文本预训练网络和多语言语音预训练网络分别与决策网络连接。多语言文本预训练网络的第一样本预测结果输入至决策网络,多语言语音预训练网络的第二样本预测结果输入至决策网络。
在模型训练过程中,多语言文本预训练网络学习了阿尔茨海默症患者和正常人群的语义特征的分布规律,用于根据第一样本语音数据的样本语义特征进行第一分类预测。
多语言文本预训练网络可以采用开源的基于Transformer的BERT预训练模型、RoBERTa、ALBERT等其中的一种自然语言处理的预训练模型构建。
对自然语言处理的预训练模型使用各种目标语种的文本数据进行训练,得到的多语言文本预训练网络可适用于多种语种。其中,BERT模型使用大量的维基百科等开源或网络文本数据训练,通过使用掩码语言模型(MLM)和下一句预测(NSP)任务来训练模型对文本单词、短语和句子的处理能力,可以作为上游预训练模型。通常使用少量带有标签的文本数据微调模型,使之能够应用于各类下游任务中,例如文本分类、文本的情感预测等。
多语言语音预训练网络学习了阿尔茨海默症患者和正常人群的非语义特征的分布规律,用于根据第一样本语音数据的样本非语义特征进行第二分类预测。
多语言语音预训练网络是采用大量无标签的语音数据训练的,利用大规模无监督数据进行训练的多语言语音预训练网络有着非常好的泛化性,模型能够从海量数据中学习到语音的高维空间表征,作为上游的预训练模型。通过使用少量带标签的数据微调模型,就可以在相应任务上有所提高,用于相应的下游任务中,例如语音识别、说话人识别、声音事件监测等。
多语言语音预训练网络可以采用开源的WavLM、wav2vec、HuBERT等其中的一种。对WavLM、wav2vec、HuBERT等其中的一种网络使用各种目标语种的语音数据进行训练,得到的多语言语音预训练网络可适用于多种语种。
多语言语音预训练网络解决掩蔽潜在语音表示的问题,共同学习跨语言共享的潜在量化信息即非语义特征。从多种语言的语音原始波形中,预训练单个模型来学习跨语言语音表示。
在多语言阿尔茨海默症预测模型的每轮训练过程中多语言文本预训练网络和多语言语音预训练网络根据不同维度的特征对同一个受试者的认知能力进行预测,第一样本预测结果和第二样本预测结果都是一种小于或等于1的概率值,而受试者的真实认知能力是已知的,即确定受试者为阿尔茨海默症患者还是正常人群。
在训练过程中,决策网络学习多语言文本预训练网络和多语言语音预训练网络的预测能力,具体学习如何对多语言文本预训练网络和多语言语音预训练网络的预测结果进行融合以得到接近真实的准确结果。更具体地,决策网络在学习多语言文本预训练网络和多语言语音预训练网络对预测结果的权重。例如决策网络在学习过程中学习到多语言文本预训练网络的预测能力更准确则会对多语言文本预训练网络的权重设置得更大,而多语言语音预训练网络的权重则设置得相对较小一些,这样在融合的时候多语言文本预训练网络的结果对最终预测结果的影响更大。
第一样本预测结果包括了多语言文本预训练网络通过预测得到的每种预测分类的概率,第二样本预测结果包括了多语言语音预训练网络通过预测得到的每种预测分类的概率。决策网络对多语言文本预训练网络分配了第一权重,对多语言语音预训练网络分配了第二权重。决策网络根据第一权重和第二权重对第一样本预测结果和第二样本预测结果中相同预测分类的概率进行加权计算,得到该预测分类的加权概率;最终选出所有预测分类对应的加权概率中最大加权概率和对应的预测分类作为样本预测结果。
在已训练的多语言阿尔茨海默症预测模型中决策网络可以准确的将多语言文本预训练网络的第一预测结果和多语言语音预训练网络的第二预测结果进行融合得到准确的最终目标预测结果。
决策网络可以采用经典的机器学习算法,比如逻辑回归、支持向量机、随机森林等算法,该模型可以是具有S型阈值函数sigmoid的输出层,该输出层可以预测输出一个与待检测者的认知状况相关的概率值,该概率值为区间[0,1]中的一个数值,并且,该概率值表征了待检测者具有认知障碍的程度,比如,概率值越大,代表待检测者具有认知障碍的程度越高。
本实施例利用决策网络学习多语言文本预训练网络和多语言语音预训练网络的预测能力,并将第一样本预测结果和第二样本预测结果进行融合得到样本预测结果,本实施例通过两个预训练网络的预测结果的融合来综合评判训练模型对阿尔茨海默症预测的能力,克服了现有技术只能从单一特征进行疾病预测的缺陷,提高了阿尔茨海默症的预测准确度和可靠性。
在一个实施例中,步骤S130具体包括:
使用反向传播最小化损失函数的策略,根据损失函数迭代更新决策网络、多语言文本预训练网络和多语言语音预训练网络的模型参数。
具体地,本实施例通过联合训练的方式迭代训练多语言阿尔茨海默症预测模型中的决策网络、多语言文本预训练网络和多语言语音预训练网络。
在一个实施例中,在预训练的多语言阿尔茨海默症预测模型构建之前,多语言语音预训练网络预先使用无标签且不同目标语种的第二样本语音数据训练过其中,不同的第二样本语音数据中包括与阿尔茨海默症无关的常见语音数据;
和/或,
在预训练的多语言阿尔茨海默症预测模型构建之前,多语言文本预训练网络预先使用无标签且不同目标语种的第一样本文本训练过,其中,不同的第一样本文本中包括与阿尔茨海默症无关的常见文本。
具体地,阿尔茨海默病患者的语音数据难以收集,带有临床诊断的标注数据量通常很小,而且是针对不同目标语种的数据的收集则困难更大,因此需要解决数据稀疏和数据不平衡的问题。
为了使多语言阿尔茨海默症预测模型用于多种语种的预测任务,本实施例预先使用不同目标语种的第一样本文本预训练多语言文本预训练网络,以及预先使用不同目标语种的第二样本语音数据预训练多语言语音预训练网络。
使用不同目标语种的第一样本文本进行预训练是为了加强多语言文本预训练网络对不同目标语种的识别能力。第一样本文本可以是与阿尔茨海默症无关的常见文本,这样第一样本文本的数据量大容易收集,且在减少数据标注的情况下,能够对多语言文本预训练网络能够进行大量无标签的自训练。
使用不同目标语种的第二样本语音数据进行预训练是为了加强多语言语音预训练网络对不同目标语种的识别能力。第二样本语音数据可以是与阿尔茨海默症无关的常见语音数据,这样第二样本语音数据的数据量大容易收集,且在减少数据标注的情况下,能够对多语言语音本预训练网络能够进行大量无标签的自训练。
本实施例通过与阿尔茨海默症无关的常见文本和语音数据预先对多语言语音本预训练网络和多语言语音预训练网络进行语种识别方面的训练,使得由此构建的预训练的多语言阿尔茨海默症预测模型在训练之前具有强大的不同语种的识别功能。为后续在阿尔茨海默症预测功能上的训练打下了坚实的语言基础,提高了后续训练的进度和效率。
在一个实施例中,在预训练的多语言阿尔茨海默症预测模型构建之前,多语言语音预训练网络预先使用第二样本语音集合训练过,其中,第二样本语音集合包括不同目标语种的第二子样本语音集合,每个第二子样本语音集合包括对应语种的第二样本语音数据,第二样本语音数据使用相同语种且内容一致的文本标签标注,不同的第二样本语音数据中包括与阿尔茨海默症无关的常见语音数据;
和/或,
在预训练的多语言阿尔茨海默症预测模型构建之前,多语言文本预训练网络预先使用第一样本文本集合训练过,其中,第一样本文本集合包括不同目标语种的第一子样本文本集合,每个第一子样本文本集合包括对应语种的第一样本文本,第一样本文本使用相同语种的分类标签标注,不同的第一样本文本中包括与阿尔茨海默症无关的常见文本。
具体地,阿尔茨海默病患者的语音数据难以收集,带有临床诊断的标注数据量通常很小,而且是针对不同目标语种的数据的收集则困难更大,因此需要解决数据稀疏和数据不平衡的问题。
为了使多语言阿尔茨海默症预测模型用于多种语种的预测任务,本实施例预先使用不同目标语种的第一样本文本预训练多语言文本预训练网络,以及预先使用不同目标语种的第二样本语音数据预训练多语言语音预训练网络。
多语言语音预训练网络具有语音识别功能,可以预先使用不同目标语种的第二样本语音数据对多语言语音预训练网络进行不同语种的语音识别功能的训练,使得多语言语音预训练网络在后续阿尔茨海默症预测功能训练之前具有对各种不同目标语种的语音识别功能,即学习各种目标语种语音与文本的对应关系。为预训练的多语言阿尔茨海默症预测模型在后续的阿尔茨海默症预测功能上的训练打下了坚实的语言基础和语音识别基础,提高了后续训练的进度和效率。另外,第二样本语音数据可以是与阿尔茨海默症无关的常见语音数据,样本具有易得性,因此可以解决在阿尔茨海默症领域数据稀疏和数据不平衡的问题。
多语言文本预训练网络具有根据文本分类预测的功能,可以预先使用不同语种的第一样本文本对多语言文本预训练网络进行不同语种的文本分类功能的训练,使得多语言文本预训练网络在后续阿尔茨海默症预测功能训练之前具有对各种不同目标语种的文本分类功能。为预训练的多语言阿尔茨海默症预测模型在后续的阿尔茨海默症预测功能上的训练打下了坚实的语言基础和文本分类基础,提高了后续训练的进度和效率。另外,第一样本文本可以是与阿尔茨海默症无关的常见文本,样本具有易得性,因此可以解决在阿尔茨海默症领域数据稀疏和数据不平衡的问题。
在一个实施例中,预训练的多语言阿尔茨海默症预测模型包括多语言文本预训练网络、多语言语音预训练网络、特征融合网络和预测网络;
步骤S110具体包括:
利用多语言语音预训练网络对输入的样本语音数据进行语音识别,得到样本识别文本,将样本识别文本输入至多语言文本预训练网络;
利用多语言文本预训练网络对样本识别文本进行语义特征提取,得到样本语义特征;
利用多语言语音预训练网络对输入的样本语音数据进行非语义特征提取,得到样本非语义特征;
利用特征融合网络对样本语义特征和样本非语义特征进行特征融合,得到样本融合特征;
将样本融合特征作为预测网络的输入,利用预测网络对对应的受试者的认知水平进行分类预测,得到样本预测结果。
在一个实施例中,根据损失函数更新预训练的多语言阿尔茨海默症预测模型的模型参数,包括:使用反向传播最小化损失函数的策略,根据损失函数迭代更新预测网络、特征融合网络、多语言文本预训练网络和多语言语音预训练网络的模型参数。
本申请还提供了一种阿尔茨海默症的预测方法,参考图2,该阿尔茨海默症的预测方法包括:
S110:获取第一样本语音集合,其中,第一样本语音集合包括至少两种不同的目标语种的第一子样本语音集合,每个第一子样本语音集合包括标注有多种认知水平标签的第一样本语音数据,第一样本语音数据为对应受试者在认知功能评估测试中的语音数据。
S120:利用预训练的多语言阿尔茨海默症预测模型对输入的第一样本语音数据进行语音识别得到样本识别文本,对样本识别文本进行第一特征提取得到样本语义特征,对输入的第一样本语音数据进行第二特征提取得到样本非语义特征,利用样本语义特征和样本非语义特征对对应的受试者的认知水平进行分类预测,得到样本预测结果。
S130:根据样本预测结果和对应的认知水平标签计算损失函数,根据损失函数更新预训练的多语言阿尔茨海默症预测模型的模型参数,直至模型收敛,得到已训练的多语言阿尔茨海默症预测模型。
具体地,本实施例的步骤S110-S130参见上述内容,此处不再赘述。
S140:获取待评估对象在认知功能评估测试中的目标语音数据。
S150:利用已训练的多语言阿尔茨海默症预测模型提取目标语音数据的目标语义特征和目标非语义特征,根据目标语义特征和目标非语义特征对待评估对象的认知水平进行分类预测,得到目标预测结果。
具体地,采集评估员与待评估对象在认知功能评估测试的语言功能测试项目中的对话语音,剔除对话语音中评估员的语音、保留待评估对象的语音得到第一语音数据作为目标语音数据。
优选地,可以对第一语音数据进行预处理得到目标语音数据。预处理包括但不限于语音降噪处理、语音信号增强处理、音量归一化处理和语音端点检测处理中的至少一种。
已训练的多语言阿尔茨海默症预测模型是通过正常人群的样本语音数据和阿尔茨海默症患者的样本语音数据训练得到的,或者是通过不同疾病程度的阿尔茨海默症患者(晚期阿尔茨海默症患者、中期阿尔茨海默症患者、早期阿尔茨海默症患者)和正常人群的样本语音数据训练得到的。已训练的多语言阿尔茨海默症预测模型已经学习到了不同疾病状态的阿尔茨海默症患者和正常人群的语义特征分布规律以及非语义特征分布规律。
将目标语音数据输入至已训练的多语言阿尔茨海默症预测模型,已训练的多语言阿尔茨海默症预测模型可以提取出目标语音数据的语义特征和非语义特征。根据从语音数据中提取的语义特征和非语义特征从两个大的维度对阿尔茨海默症的可能性进行预测。
目标预测结果具体为正常人群或阿尔茨海默症患者。或者,目标预测结果具体为晚期阿尔茨海默症患者、中期阿尔茨海默症患者、早期阿尔茨海默症患者、正常人群中的一种。目标预测结果与已训练的多语言阿尔茨海默症预测模型的分类预测种类相关,即与训练样本及训练样本的分类标签相关。在实际应用中可以进一步细分预测种类,本申请对此不作限定。
本实施例根据阿尔茨海默症患者与正常人在理解能力和语言表达上的较大差异,通过神经网络模型学习正常人群和阿尔茨海默症患者的语音数据中语义特征分布规律和非语义特征分布规律,实现了对语音数据的全面分析,根据从待评估对象的语音数据中提取的语义特征和非语义特征来综合评判待评估对象是否患有阿尔茨海默症,克服了现有技术只能从单一特征进行疾病预测的缺陷,提高了阿尔茨海默症的预测准确度和可靠性。
在一个实施例中,S150具体包括:
确定目标语音数据所属目标语种;
获取与目标语音数据所属目标语种相同的第三子样本语音集合,其中,第三子样本语音集合包括标注有多种认知水平标签的第三样本语音数据,第三样本语音数据为相同目标语种受试者在认知功能评估测试中的语音数据;
利用第三样本语音数据对已训练的多语言阿尔茨海默症预测模型进行微调,得到目标多语言阿尔茨海默症预测模型;
利用目标多语言阿尔茨海默症预测模型提取目标语音数据的目标语义特征和目标非语义特征,根据目标语义特征和目标非语义特征对待评估对象的认知水平进行分类预测,得到目标预测结果。
具体地,已训练的多语言阿尔茨海默症预测模型具有对各种不同目标语种的待评估对象的认知水平进行预测。为了加强已训练的多语言阿尔茨海默症预测模型在特定语种下的预测能力,可以使用第三样本语音数据对已训练的多语言阿尔茨海默症预测模型进行微调。
更具体地,已训练的多语言阿尔茨海默症预测模型能够识别出不同种语言说话人的阿尔茨海默病患者。如果使用英语、中文、德文来进行模型训练,那么模型将能够处理这3种语言的患者的语音数据,并进行疾病的预测。例如特意用中文来微调目的是专门用中文来继续强化训练一下,让多语言阿尔茨海默症预测模型能够更好的对中文说话人进行预测。
使用多种语言大量的无标签数据训练预训练模型,然后使用特定语种下受试者与医生的样本语音数据微调模型,比仅使用单一语言的数据微调模型效果更好。而且单一语言微调能让模型能够对于这个特定语种的识别率更高,同时保留模型对其他语种的识别和预测能力。最终得到的目标多语言阿尔茨海默症预测模型对于与目标语音数据所属目标语种相同的其他语音数据具有更高的疾病预测能力。
由于不同语种的阿尔茨海默病患者具有相似的语音模式和语言特征,但单一语种的预测模型无法处理不同语种的受试者数据样本。本申请目的是基于多语言自监督模型,首先利用大量数据训练自监督预训练模型,然后使用少量有标签的单一语种数据进行微调,从而解决不同语种下的阿尔茨海默病预测问题。本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本申请的阿尔茨海默症的预测方案可以应用于数字医疗领域,利用人工智能技术、自然语言处理技术和语音识别技术对阿尔茨海默症进行精准诊断和预测。
图3为本申请一实施例中多语言阿尔茨海默症预测模型的训练装置的结构框图。参考图3,该多语言阿尔茨海默症预测模型的训练装置包括:
第一数据获取模块110,用于获取第一样本语音集合,其中,第一样本语音集合包括至少两种不同的目标语种的第一子样本语音集合,每个第一子样本语音集合包括标注有多种认知水平标签的第一样本语音数据,第一样本语音数据为对应受试者在认知功能评估测试中的语音数据;
训练预测模块120,用于利用预训练的多语言阿尔茨海默症预测模型对输入的第一样本语音数据进行语音识别得到样本识别文本,对样本识别文本进行第一特征提取得到样本语义特征,对输入的第一样本语音数据进行第二特征提取得到样本非语义特征,利用样本语义特征和样本非语义特征对对应的受试者的认知水平进行分类预测,得到样本预测结果;
参数更新模块130,用于根据样本预测结果和对应的认知水平标签计算损失函数,根据损失函数更新预训练的多语言阿尔茨海默症预测模型的模型参数,直至模型收敛。
图4为本申请一实施例中阿尔茨海默症的预测装置的结构框图。参考图4,该阿尔茨海默症的预测装置包括:
第一数据获取模块110,用于获取第一样本语音集合,其中,第一样本语音集合包括至少两种不同的目标语种的第一子样本语音集合,每个第一子样本语音集合包括标注有多种认知水平标签的第一样本语音数据,第一样本语音数据为对应受试者在认知功能评估测试中的语音数据;
训练预测模块120,用于利用预训练的多语言阿尔茨海默症预测模型对输入的第一样本语音数据进行语音识别得到样本识别文本,对样本识别文本进行第一特征提取得到样本语义特征,对输入的第一样本语音数据进行第二特征提取得到样本非语义特征,利用样本语义特征和样本非语义特征对对应的受试者的认知水平进行分类预测,得到样本预测结果;
参数更新模块130,用于根据样本预测结果和对应的认知水平标签计算损失函数,根据损失函数更新预训练的多语言阿尔茨海默症预测模型的模型参数,直至模型收敛,得到已训练的多语言阿尔茨海默症预测模型;
第二数据获取模块140,用于获取待评估对象在认知功能评估测试中的目标语音数据;
预测模块150,用于利用已训练的多语言阿尔茨海默症预测模型提取目标语音数据的目标语义特征和目标非语义特征,根据目标语义特征和目标非语义特征对待评估对象的认知水平进行分类预测,得到目标预测结果。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
其中上述模块/单元中的“第一”和“第二”的意义仅在于将不同的模块/单元加以区分,并不用于限定哪个模块/单元的优先级更高或者其它的限定意义。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块,本申请中所出现的模块的划分,仅仅是一种逻辑上的划分,实际应用中实现时可以有另外的划分方式。
关于多语言阿尔茨海默症预测模型的训练装置的具体限定可以参见上文中对于多语言阿尔茨海默症预测模型的训练方法的限定,在此不再赘述。上述多语言阿尔茨海默症预测模型的训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
关于阿尔茨海默症的预测装置的具体限定可以参见上文中对于阿尔茨海默症的预测方法的限定,在此不再赘述。上述阿尔茨海默症的预测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
图5为本申请一实施例中计算机设备的内部结构框图。如图5所示,该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中,该计算机设备的处理器用于提供计算和控制能力。存储器包括存储介质和内存储器。存储介质可以是非易失性存储介质,也可以是易失性存储介质。存储介质存储有操作系统,还可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器实现多语言阿尔茨海默症预测模型的训练方法或阿尔茨海默症的预测方法。该内存储器为存储介质中的操作系统和计算机可读指令的运行提供环境。该内存储器中也可储存有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行多语言阿尔茨海默症预测模型的训练方法或阿尔茨海默症的预测方法。该计算机设备的网络接口用于与外部服务器通过网络连接通信。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令(例如计算机程序),处理器执行计算机可读指令时实现上述实施例中多语言阿尔茨海默症预测模型的训练方法的步骤,例如图1所示的步骤S110至步骤S130及该方法的其它扩展和相关步骤的延伸;或,处理器执行计算机可读指令时实现上述实施例中阿尔茨海默症的预测方法的步骤,例如图2所示的步骤S110至步骤S150及该方法的其它扩展和相关步骤的延伸。或者,处理器执行计算机可读指令时实现上述实施例中多语言阿尔茨海默症预测模型的训练装置的各模块/单元的功能,例如图3所示模块110至模块130的功能;或,处理器执行计算机可读指令时实现上述实施例中阿尔茨海默症的预测装置的各模块/单元的功能,例如图4所示模块110至模块150的功能。为避免重复,这里不再赘述。
处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,处理器是计算机装置的控制中心,利用各种接口和线路连接整个计算机装置的各个部分。
存储器可用于存储计算机可读指令和/或模块,处理器通过运行或执行存储在存储器内的计算机可读指令和/或模块,以及调用存储在存储器内的数据,实现计算机装置的各种功能。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、视频数据等)等。
存储器可以集成在处理器中,也可以与处理器分开设置。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机可读指令,计算机可读指令被处理器执行时实现上述实施例中多语言阿尔茨海默症预测模型的训练方法的步骤,例如图1所示的步骤S110至步骤S130及该方法的其它扩展和相关步骤的延伸;或,计算机可读指令被处理器执行时实现上述实施例中阿尔茨海默症的预测方法方法的步骤,例如图2所示的步骤S110至步骤S150及该方法的其它扩展和相关步骤的延伸。或者,计算机可读指令被处理器执行时实现上述实施例中多语言阿尔茨海默症预测模型的训练装置的各模块/单元的功能,例如图3所示模块110至模块130的功能。或者,计算机可读指令被处理器执行时实现上述实施例中阿尔茨海默症的预测装置的各模块/单元的功能,例如图4所示模块110至模块150的功能为避免重复,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指示相关的硬件来完成,的计算机可读指令可存储于一计算机可读取存储介质中,该计算机可读指令在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双倍速率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例的方法。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种多语言阿尔茨海默症预测模型的训练方法,其特征在于,所述方法包括:
获取第一样本语音集合,其中,所述第一样本语音集合包括至少两种不同的目标语种的第一子样本语音集合,每个所述第一子样本语音集合包括标注有多种认知水平标签的第一样本语音数据,所述第一样本语音数据为对应受试者在认知功能评估测试中的语音数据;
利用预训练的多语言阿尔茨海默症预测模型对输入的第一样本语音数据进行语音识别得到样本识别文本,对所述样本识别文本进行第一特征提取得到样本语义特征,对所述输入的第一样本语音数据进行第二特征提取得到样本非语义特征,利用所述样本语义特征和样本非语义特征对对应的受试者的认知水平进行分类预测,得到样本预测结果;
根据所述样本预测结果和对应的认知水平标签计算损失函数,根据所述损失函数更新所述预训练的多语言阿尔茨海默症预测模型的模型参数,直至模型收敛。
2.根据权利要求1所述的方法,其特征在于,所述预训练的多语言阿尔茨海默症预测模型包括多语言文本预训练网络、多语言语音预训练网络和决策网络;
所述利用预训练的多语言阿尔茨海默症预测模型对输入的第一样本语音数据进行语音识别得到样本识别文本,对所述样本识别文本进行第一特征提取得到样本语义特征,对所述输入的第一样本语音数据进行第二特征提取得到样本非语义特征,利用所述样本语义特征和样本非语义特征对对应的受试者的认知水平进行分类预测,得到样本预测结果,包括:
利用所述多语言语音预训练网络对输入的第一样本语音数据进行语音识别,得到样本识别文本,将所述样本识别文本输入至所述多语言文本预训练网络;
利用所述多语言文本预训练网络对所述样本识别文本进行语义特征提取,根据提取的样本语义特征对对应的受试者的认知水平进行第一分类预测,得到第一样本预测结果;
利用所述多语言语音预训练网络对输入的第一样本语音数据进行非语义特征提取,根据得到的样本非语义特征对所述受试者的认知水平进行第二分类预测,得到第二样本预测结果;
利用所述决策网络对所述第一样本预测结果和第二样本预测结果进行融合,得到样本预测结果。
3.根据权利要求2所述的方法,其特征在于,所述根据所述损失函数更新所述预训练的多语言阿尔茨海默症预测模型的模型参数,包括:
使用反向传播最小化损失函数的策略,根据所述损失函数迭代更新所述决策网络、多语言文本预训练网络和多语言语音预训练网络的模型参数。
4.根据权利要求2所述的方法,其特征在于,在所述预训练的多语言阿尔茨海默症预测模型构建之前,所述多语言语音预训练网络预先使用无标签且不同目标语种的第二样本语音数据训练过,其中,不同的第二样本语音数据中包括与阿尔茨海默症无关的常见语音数据;
和/或,
在所述预训练的多语言阿尔茨海默症预测模型构建之前,所述多语言文本预训练网络预先使用无标签且不同目标语种的第一样本文本训练过,其中,不同的第一样本文本中包括与阿尔茨海默症无关的常见文本。
5.根据权利要求2或4所述的方法,其特征在于,在所述预训练的多语言阿尔茨海默症预测模型构建之前,所述多语言语音预训练网络预先使用第二样本语音集合训练过,其中,所述第二样本语音集合包括不同目标语种的第二子样本语音集合,每个所述第二子样本语音集合包括对应语种的第二样本语音数据,所述第二样本语音数据使用相同语种且内容一致的文本标签标注,不同的第二样本语音数据中包括与阿尔茨海默症无关的常见语音数据;
和/或,
在所述预训练的多语言阿尔茨海默症预测模型构建之前,所述多语言文本预训练网络预先使用第一样本文本集合训练过,其中,所述第一样本文本集合包括不同目标语种的第一子样本文本集合,每个所述第一子样本文本集合包括对应语种的第一样本文本,所述第一样本文本使用相同语种的分类标签标注,不同的第一样本文本中包括与阿尔茨海默症无关的常见文本。
6.一种阿尔茨海默症的预测方法,其特征在于,所述方法包括:
获取待评估对象在认知功能评估测试中的目标语音数据;
利用已训练的多语言阿尔茨海默症预测模型提取所述目标语音数据的目标语义特征和目标非语义特征,根据所述目标语义特征和目标非语义特征对所述待评估对象的认知水平进行分类预测,得到目标预测结果,其中,所述已训练的多语言阿尔茨海默症预测模型是根据权利要求1-5任一项所述的多语言阿尔茨海默症预测模型的训练方法得到的。
7.根据权利要求6所述的方法,其特征在于,所述利用已训练的多语言阿尔茨海默症预测模型提取所述目标语音数据的目标语义特征和目标非语义特征,根据所述目标语义特征和目标非语义特征对所述待评估对象的认知水平进行分类预测,得到目标预测结果,包括:
确定所述目标语音数据所属目标语种;
获取与所述目标语音数据所属目标语种相同的第三子样本语音集合,其中,所述第三子样本语音集合包括标注有多种认知水平标签的第三样本语音数据,所述第三样本语音数据为相同目标语种受试者在认知功能评估测试中的语音数据;
利用所述第三样本语音数据对已训练的多语言阿尔茨海默症预测模型进行微调,得到目标多语言阿尔茨海默症预测模型;
利用所述目标多语言阿尔茨海默症预测模型提取所述目标语音数据的目标语义特征和目标非语义特征,根据所述目标语义特征和目标非语义特征对所述待评估对象的认知水平进行分类预测,得到目标预测结果。
8.一种多语言阿尔茨海默症预测模型的训练装置,其特征在于,所述装置包括:
第一数据获取模块,用于获取第一样本语音集合,其中,所述第一样本语音集合包括至少两种不同的目标语种的第一子样本语音集合,每个所述第一子样本语音集合包括标注有多种认知水平标签的第一样本语音数据,所述第一样本语音数据为对应受试者在认知功能评估测试中的语音数据;
训练预测模块,用于利用预训练的多语言阿尔茨海默症预测模型对输入的第一样本语音数据进行语音识别得到样本识别文本,对所述样本识别文本进行第一特征提取得到样本语义特征,对所述输入的第一样本语音数据进行第二特征提取得到样本非语义特征,利用所述样本语义特征和样本非语义特征对对应的受试者的认知水平进行分类预测,得到样本预测结果;
参数更新模块,用于根据所述样本预测结果和对应的认知水平标签计算损失函数,根据所述损失函数更新所述预训练的多语言阿尔茨海默症预测模型的模型参数,直至模型收敛。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令,其特征在于,所述处理器执行所述计算机可读指令时执行如权利要求1-5任一项所述的多语言阿尔茨海默症预测模型的训练方法的步骤,或,所述处理器执行所述计算机可读指令时执行如权利要求6-7任一项所述的阿尔茨海默症的预测方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机可读指令,其特征在于,所述计算机可读指令被处理器执行时,使得所述处理器执行如权利要求1-5任一项所述的多语言阿尔茨海默症预测模型的训练方法的步骤,或,使得所述处理器执行如权利要求6-7任一项所述的阿尔茨海默症的预测方法的步骤。
CN202310154350.2A 2023-02-10 2023-02-10 多语言预测模型的训练及阿尔茨海默病预测的方法、装置 Pending CN116130092A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310154350.2A CN116130092A (zh) 2023-02-10 2023-02-10 多语言预测模型的训练及阿尔茨海默病预测的方法、装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310154350.2A CN116130092A (zh) 2023-02-10 2023-02-10 多语言预测模型的训练及阿尔茨海默病预测的方法、装置

Publications (1)

Publication Number Publication Date
CN116130092A true CN116130092A (zh) 2023-05-16

Family

ID=86299076

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310154350.2A Pending CN116130092A (zh) 2023-02-10 2023-02-10 多语言预测模型的训练及阿尔茨海默病预测的方法、装置

Country Status (1)

Country Link
CN (1) CN116130092A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116530944A (zh) * 2023-07-06 2023-08-04 荣耀终端有限公司 声音处理方法及电子设备
CN116687410A (zh) * 2023-08-03 2023-09-05 中日友好医院(中日友好临床医学研究所) 一种慢性病患者的述情障碍评估方法和系统
CN117637163A (zh) * 2023-11-21 2024-03-01 中国人民解放军总医院第二医学中心 一种基于音视频文本预测阿尔兹海默病的处理方法和装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116530944A (zh) * 2023-07-06 2023-08-04 荣耀终端有限公司 声音处理方法及电子设备
CN116530944B (zh) * 2023-07-06 2023-10-20 荣耀终端有限公司 声音处理方法及电子设备
CN116687410A (zh) * 2023-08-03 2023-09-05 中日友好医院(中日友好临床医学研究所) 一种慢性病患者的述情障碍评估方法和系统
CN116687410B (zh) * 2023-08-03 2023-11-14 中日友好医院(中日友好临床医学研究所) 一种慢性病患者的述情障碍评估方法和系统
CN117637163A (zh) * 2023-11-21 2024-03-01 中国人民解放军总医院第二医学中心 一种基于音视频文本预测阿尔兹海默病的处理方法和装置

Similar Documents

Publication Publication Date Title
CN110728997B (zh) 一种基于情景感知的多模态抑郁症检测系统
Wani et al. A comprehensive review of speech emotion recognition systems
Clarke et al. How to do things with (thousands of) words: Computational approaches to discourse analysis in Alzheimer's disease
CN116130092A (zh) 多语言预测模型的训练及阿尔茨海默病预测的方法、装置
Rohanian et al. Alzheimer's dementia recognition using acoustic, lexical, disfluency and speech pause features robust to noisy inputs
CN116269223A (zh) 阿尔茨海默症的预测方法、装置、设备和存储介质
Tasnim et al. Detecting depression from voice
CN116386862A (zh) 多模态认知障碍的评估方法、装置、设备和存储介质
Kumar et al. A deep learning approaches and fastai text classification to predict 25 medical diseases from medical speech utterances, transcription and intent
Khan et al. Stacked deep dense neural network model to predict alzheimer’s dementia using audio transcript data
Yadav et al. A novel automated depression detection technique using text transcript
CN114997174B (zh) 意图识别模型训练及语音意图识别方法、装置和相关设备
Lin et al. A deep learning-based model for detecting depression in senior population
Kaushik et al. SLINet: Dysphasia detection in children using deep neural network
Rosdi et al. An FPN-based classification method for speech intelligibility detection of children with speech impairments
Özkanca et al. Multi-lingual depression-level assessment from conversational speech using acoustic and text features
Shi et al. Speech and language processing with deep learning for dementia diagnosis: A systematic review
Birajdar et al. Indian language identification using time-frequency texture features and kernel ELM
Pérez-Espinosa et al. Using acoustic paralinguistic information to assess the interaction quality in speech-based systems for elderly users
Selvan et al. Emotion detection on phone calls during emergency using ensemble model with hyper parameter tuning
CN116341497A (zh) 一种基于多特征融合与文本情感分析的日志异常检测方法
Gómez-Zaragozá et al. An online attachment style Recognition System based on Voice and Machine Learning
Ohta et al. Response type selection for chat-like spoken dialog systems based on LSTM and multi-task learning
Tang et al. Analysis on Gated Recurrent Unit Based Question Detection Approach.
Han et al. Automatic classification of dementia using text and speech data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination