CN115346657B - 利用迁移学习提升老年痴呆的识别效果的训练方法及装置 - Google Patents

利用迁移学习提升老年痴呆的识别效果的训练方法及装置 Download PDF

Info

Publication number
CN115346657B
CN115346657B CN202210791040.7A CN202210791040A CN115346657B CN 115346657 B CN115346657 B CN 115346657B CN 202210791040 A CN202210791040 A CN 202210791040A CN 115346657 B CN115346657 B CN 115346657B
Authority
CN
China
Prior art keywords
sample
training
feature vector
samples
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210791040.7A
Other languages
English (en)
Other versions
CN115346657A (zh
Inventor
黄立
苏里
周善斌
纪丽燕
彭晓哲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHENZHEN JINGXIANG TECHNOLOGY CO LTD
Original Assignee
SHENZHEN JINGXIANG TECHNOLOGY CO LTD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHENZHEN JINGXIANG TECHNOLOGY CO LTD filed Critical SHENZHEN JINGXIANG TECHNOLOGY CO LTD
Priority to CN202210791040.7A priority Critical patent/CN115346657B/zh
Publication of CN115346657A publication Critical patent/CN115346657A/zh
Application granted granted Critical
Publication of CN115346657B publication Critical patent/CN115346657B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/16Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/66Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Epidemiology (AREA)
  • Data Mining & Analysis (AREA)
  • Pathology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Primary Health Care (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Child & Adolescent Psychology (AREA)
  • Developmental Disabilities (AREA)
  • Educational Technology (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Psychology (AREA)
  • Social Psychology (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Molecular Biology (AREA)
  • Surgery (AREA)
  • Animal Behavior & Ethology (AREA)

Abstract

本申请提供一种利用迁移学习提升老年痴呆的识别效果的训练方法、训练装置、电子设备及非易失性计算机可读存储介质。方法包括:获取第一样本及与所述第一样本对应的第二样本,所述第一样本和所述第二样本的语言类型不同;输入所述第一样本及与所述第一样本对应的第二样本至预设的第一特征提取模型中,以训练所述第一特征提取模型至收敛;输入训练样本至收敛后的所述第一特征提取模型,以输出特征向量,所述训练样本包括不同语言类型的样本;及输入所述特征向量至预设的分类模型,以训练所述分类模型至收敛。能够利用不同语言类型的训练样本来对分类模型进行训练,由于不同语言类型的训练样本的样本量较大,能够提高训练样本的训练效果。

Description

利用迁移学习提升老年痴呆的识别效果的训练方法及装置
技术领域
本申请涉及深度学习技术领域,特别涉及一种利用迁移学习提升老年痴呆的识别效果的训练方法、训练装置、电子设备及非易失性计算机可读存储介质。
背景技术
近年来深度学习技术出现诸多重大突破,给音视频和文本处理领域带来更强的计算机自动分析能力,使医学上更多事项可以由人工转为半自动化甚至全自动化处理。使用深度学习技术读取医学影像资料并作出病症结论也是当前一个热门研究领域。阿尔兹海默症(Alzheimer’s Disease,AD)在临床上会采用核磁共振成像(Magnetic ResonanceImaging,MRI)、量表和医师问诊来综合判定患者的病症阶段。AD造成的认知功能受损会影响语言表述能力,进而体现在语言表达的过程和内容中。基于语音分析的算法识别通过检验使用者的语言表述能力,进而评估使用者的认知功能受损程度。然而,由于不同国家对AD的研究程度不同,导致一些语言类型的样本量较少,难以保证深度学习模型的训练效果。
发明内容
本申请实施方式提供了一种利用迁移学习提升老年痴呆的识别效果的训练方法、训练装置、电子设备及非易失性计算机可读存储介质。
本申请实施例提供一种利用迁移学习提升老年痴呆的识别效果的训练方法。所述训练方法包括:获取第一样本及与所述第一样本对应的第二样本,所述第一样本和所述第二样本的语言类型不同;输入所述第一样本及与所述第一样本对应的第二样本至预设的第一特征提取模型中,以训练所述第一特征提取模型至收敛,收敛后的所述第一特征提取模型提取所述第一样本的第一特征向量和与所述第一样本对应的所述第二样本的第二特征向量的相似度大于预设阈值;输入训练样本至收敛后的所述第一特征提取模型,以输出特征向量,所述训练样本包括不同语言类型的样本;及输入所述特征向量至预设的分类模型,以训练所述分类模型至收敛。
本申请实施方式提供一种训练装置。所述训练装置包括获取模块、第一训练模块、提取模块和第二训练模块。所述获取模块用于获取第一样本及与所述第一样本对应的第二样本,所述第一样本和所述第二样本的语言类型不同;所述第一训练模块用于输入所述第一样本及与所述第一样本对应的第二样本至预设的第一特征提取模型中,以训练所述第一特征提取模型至收敛,收敛后的所述第一特征提取模型提取所述第一样本的第一特征向量和与所述第一样本对应的所述第二样本的第二特征向量的相似度大于预设阈值;所述提取模块用于输入训练样本至收敛后的所述第一特征提取模型,以输出特征向量,所述训练样本包括不同语言类型的样本;及所述第二训练模块用于输入所述特征向量至预设的分类模型,以训练所述分类模型至收敛。
本申请实施方式提供一种电子设备。所述电子设备包括处理器,所述处理器用于获取第一样本及与所述第一样本对应的第二样本,所述第一样本和所述第二样本的语言类型不同;输入所述第一样本及与所述第一样本对应的第二样本至预设的第一特征提取模型中,以训练所述第一特征提取模型至收敛,收敛后的所述第一特征提取模型提取所述第一样本的第一特征向量和与所述第一样本对应的所述第二样本的第二特征向量的相似度大于预设阈值;输入训练样本至收敛后的所述第一特征提取模型,以输出特征向量,所述训练样本包括不同语言类型的样本;及输入所述特征向量至预设的分类模型,以训练所述分类模型至收敛。
本申请实施方式提供一种非易失性计算机可读存储介质,其上存储有计算机程序。该计算机程序被处理器执行时实现训练方法。所述训练方法包括:获取第一样本及与所述第一样本对应的第二样本,所述第一样本和所述第二样本的语言类型不同;输入所述第一样本及与所述第一样本对应的第二样本至预设的第一特征提取模型中,以训练所述第一特征提取模型至收敛,收敛后的所述第一特征提取模型提取所述第一样本的第一特征向量和与所述第一样本对应的所述第二样本的第二特征向量的相似度大于预设阈值;输入训练样本至收敛后的所述第一特征提取模型,以输出特征向量,所述训练样本包括不同语言类型的样本;及输入所述特征向量至预设的分类模型,以训练所述分类模型至收敛。
本申请的利用迁移学习提升老年痴呆的识别效果的训练方法、训练装置、电子设备及非易失性计算机可读存储介质中,通过获取对应(如语料对应)且语言类型不同第一样本和第二样本,并输入到第一特征提取模型,从而将第一特征提取模型训练至收敛,收敛后的第一特征提取模型在提取对应的第一样本的第一特征向量和第二样本的第二特征向量基本相似,从而使得第一特征提取模型能够实现不同语言类型的训练样本的特征提取,从而能够利用不同语言类型的训练样本来对分类模型进行训练,训练分类模型至收敛,由于不同语言类型的训练样本的样本量较大,能够提高训练样本的训练效果。
本申请实施方式的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请的上述和/或附加的方面和优点可以从结合下面附图对实施方式的描述中将变得明显和容易理解,其中:
图1是本申请某些实施方式的训练方法的流程示意图;
图2是本申请某些实施方式的训练方法的原理示意图;
图3是本申请某些实施方式的训练方法的流程示意图;
图4是本申请某些实施方式的训练方法的流程示意图;
图5是本申请某些实施方式的训练方法的原理示意图;
图6是本申请某些实施方式的训练方法的场景示意图;
图7是本申请某些实施方式的训练装置的模块示意图;
图8是本申请某些实施方式的电子设备的平面示意图;及
图9是本申请某些实施方式的非易失性计算机可读存储介质与处理器的交互示意图。
具体实施方式
下面详细描述本申请的实施方式,实施方式的示例在附图中示出,其中,相同或类似的标号自始至终表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本申请的实施方式,而不能理解为对本申请的实施方式的限制。
下面首先对本申请出现的名词进行解释:
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
深度学习(Deep Learning,DL):是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是学习训练样本数据的内在规律和表示层次,这些学习过程中获得的信息对文字、图像和声音等数据的解释有很大的帮助。深度学习的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法,在语音和图像识别方面取得的效果,远远超过先前相关技术。
阿尔兹海默症(Alzheimer’s Disease,AD)俗称老年痴呆,是一种发病进程缓慢、随着时间不断恶化的神经退化性疾病。据统计,截至2019年,中国阿尔兹海默症患病人数超过1000万,是全球阿尔兹海默症患者数目最多的国家。该病症会导致患者神经元及其神经连接逐渐损伤,最终死于该病或该病的并发症。AD的早期阶段为轻度认知受损(mildcognitive impairment,MCI),该阶段患者具备正常的日常生活能力,但存在进行性认知功能下降。从治疗的角度,AD具有不可逆的特点,在治疗上存在较大困难,但若能在MCI阶段对患者进行治疗则可有效延缓痴呆的发生。
自动语音识别(Automatic Speech Recognition,ASR)技术的目标是让计算机能够“听写”出不同人所说出的连续语音,也就是俗称的“语音听写机”,是实现“声音”到“文字”转换的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。
基于Transformer的双向编码器表示(BidirectionalEncoder Representationsfrom Transformer,BERT),是一个预训练的语言表征模型,它强调了不再像以往一样采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练,而是采用新的掩码语言模型(Masked Language Model,MLM),以致能生成深度的双向语言表征。BERT模型的目标是利用大规模无标注语料训练、获得文本的包含丰富语义信息的描述,即:文本的语义表示。
卷积神经网络(Convolutional Neural Networks,CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks),是深度学习的代表算法之一。卷积神经网络具有表征学习能力,能够按其阶层结构对输入信息进行平移不变分类,因此也被称为“平移不变人工神经网络”。
请参阅图1和图2,本申请实施方式的利用迁移学习提升老年痴呆的识别效果的训练方法包括:
步骤011:获取第一样本及与第一样本对应的第二样本,第一样本和第二样本的语言类型不同。
具体地,在进行第一特征提取模块进行训练时,需要先获取语料相同的多组第一样本和第二样本,语料相同即表示第一样本和第二样本表达同一个意思。第一样本和第二样本的语言类型不同,例如第一样本为中文,第二样本为英文,可以理解,第一样本和第二样本的语言类型可根据后续进行分类模型的训练所需的样本的语言类型确定,如分类模型用于对中文样本进行分类,但中文样本数量较少,英文样本数量较多,因此,需要通过语料相同的中文样本和英文样本来训练第一特征提取模型。
可选地,第一样本和第二样本均为语音类型样本,或,第一样本和第二样本均为文本类型样本。
可以理解,对于AD而言,直接获取到的一般是语音样本,文本样本一般由语音样本转换而来,语音样本除了包含被测对象说话的内容,还包含了说话的语气等信息,包含了更多的有效信息,因此,第一样本和第二样本均为语音类型样本时,能够得到更多有效信息,从而提高后续分类模型的训练效果。而文本样本虽然包含的信息相较于语音信息会少一些,但文本样本的信息较为明确,在进行训练时的难度也较低。
步骤012:输入第一样本及与第一样本对应的第二样本至预设的第一特征提取模型中,以训练第一特征提取模型至收敛,收敛后的第一特征提取模型提取第一样本的第一特征向量和与第一样本对应的第二样本的第二特征向量的相似度大于预设阈值。
具体地,在获取到语料相同但语言类型不同的多组第一样本和第二样本后,将多组第一样本和第二样本输入到预设的第一特征提取模型进行训练,从而将第一特征提取模块训练至收敛。
可选地,第一特征提取模型可以是BERT模型,经过分词,中文和英文表达同一个意思的词会使用不同的标识进行表达。经过足够的训练,对话中每个词都会被表达成100维的向量数据(同时包含中文和英文词汇)。在该模型中,单个向量的数值并没有意义,它表达了经过模型学习后该词汇在100维空间中的相对位置。对于所有词汇来说,两个词的意思越接近,他们的距离就会越近。
训练至收敛后的第一特征提取模型在提取语料相同的但语言类型不同的样本的特征向量时,得到的特征向量基本一致。例如,收敛后的第一特征提取模型提取第一样本的第一特征向量和与第一样本语料相同的第二样本的第二特征向量的相似度大于预设阈值(如95%、96%、98%等)。
如此,通过语料相同但语言类型不同的多组第一样本和第二样本训练至收敛的第一特征提取模块,能够提取不同语言类型的样本的特征向量,且预料相同的样本的特征向量也基本相同,从而利用不同语言类型的训练样本进行特征向量的提取,以保证后续训练分类模型时的样本数量。
步骤013:输入训练样本至收敛后的第一特征提取模型,以输出特征向量,训练样本包括不同语言类型的样本。
具体地,在第一特征提取模型训练收敛后,即可将第一特征提取模型进行迁移训练,将训练至收敛的第一特征提取模型进行迁移,即在训练样本输入到分类模型进行训练之前,先经过第一特征提取模型进行特征提取,提取训练样本中的特征向量,以作为训练分类模型时的输入。
可以理解,由于第一特征提取模型训练收敛后,提取语料相同但语言类型不同的样本的特征向量基本相同,因此,训练样本不仅可以包含分类模型最终需要进行检测的语言类型的样本,而且还可以包含第一特征提取模型能够进行特征提取的不同语言类型的训练样本,例如,训练样本同时包含中文训练样本和英文训练样本。
步骤014:输入特征向量至预设的分类模型,以训练分类模型至收敛。
具体地,在通过第一特征提取模型对训练样本进行特征提取后,即可将提取得到的特征向量输入到分类模型进行训练,添加激活函数(如softmax激活函数)的全链接层进行三分类,经过训练,可以得到训练至收敛且准确率较高的分类模型。
收敛后的分类模型能够对目标对象的待测样本进行检测,以输出待测样本的检测结果,例如,输出待测样本的正常概率、轻度认知障碍概率和阿兹海默症概率,从而实现对目标对象的AD及MCI检测。
可选地,为了实现分类模型能够对目标对象进行AD及MCI检测,训练样本还包括标签信息,标签信息包括正常概率、轻度认知障碍概率和阿兹海默症概率;步骤014包括:
步骤0141:输入特征向量及标签信息到预设的分类模型,以训练分类模型至收敛。
具体地,在得到特征向量后,即可将特征向量输入到预设的分类模型中,分类模型会输出最初的检测结果,然后根据检测结果和特征向量对应的标签信息计算损失值,如将检测结果中的正常概率、轻度认知障碍概率和阿兹海默症概率分别与标签信息中的正常概率、轻度认知障碍概率和阿兹海默症概率作差,得到三个差值,以确定损失值,根据损失值来调整分类模型的参数,使得分类模型输出的检测结果和对应的标签信息之间的损失值逐渐降低,直至降低到预设阈值,即可认为分类模型收敛。如此,通过不同语言类型的大量训练样本训练分类模型,且训练样本融合了语音特征和文本特征,能够提高分类模型的训练效果。
请参阅图3,训练样本包括语音样本和由语音样本转换而成的文本样本,步骤013:输入训练样本至收敛后的第一特征提取模型,以输出特征向量,可包括以下步骤:
0131:基于第一特征提取模型提取文本样本的多个第一特征,以生成第三特征向量、及提取语音样本的多个第二特征,以生成第四特征向量;及
0132:拼接第三特征向量和第四特征向量,以生成特征向量。
具体地,从深度学习的分类模型的原理上来说,在梯度下降的训练过程中,模型会自行修正参数来表达不同特征对于分类模型输出的检测结果的影响,因此更多的有效信息能提高分类模型的泛化能力,减少误判。因此,通过同时包含语音样本和由语音样本转换而成的文本样本的训练样本进行训练,将语音样本转换为文本样本,语音样本和文本样本均包含了相同的语料,能够得到更多不同的角度的有效信息,从而能够提高分类模型的泛化能力,提高分类模型的检测准确性。
其中,将语音样本转换为文本样本可通过ASR来实现,ASR来将语音样本转换为文本样本时不仅能够得到每个语音对应的文字,而且每个文字的音调信息同样能够得到,从而转换出更为丰富且准确的文本信息。
通过第一特征提取模型首先提取文本的多个第一特征,以生成第三特征向量;并直接提取语音样本的多个第二特征,以生成第四特征向量。或者,在提取语音样本的特征时,可先将语音样本转化为文本样本,如将语音信息转化为文本信息,同时将语音信息中的停顿信息、语调信息等均转化为对应的文本信息,然后对语音样本转化后的文本样本进行特征提取,从而得到第四特征向量。也即是说,第一特征提取模块还包括进行文本类型转换的转换模块,以同时实现语音特征的提取及文本特征的提取。
本申请中,特征的时序性基本不会影响检测准确性,因此,在进行第三特征向量和第四特征向量的拼接时,可将第三特征向量和第四特征向量直接进行拼接成完整矩阵即可,如[n*100]的第三特征向量和[m*100]的第四特征向量拼接后,可得到[(m+n)*100]的待测特征向量,以进行后续的训练。
请参阅图4和图5,由于进行语音的特征提取和文本的特征提取的差异性,需要使用适合的特征提取模型来分别提取语音特征和文本特征,从而提高对语音样本和文本样本的特征提取准确性。
可选地,步骤013可包括以下步骤:
步骤0133:基于第一特征提取模型提取文本样本的多个第一特征,以生成第三特征向量;
步骤0134:基于预设的第二特征提取模块提取语音样本的多个第二特征,以生成第四特征向量;及
步骤0135:拼接第三特征向量和第四特征向量,以生成特征向量。
具体地,第一特征提取模型可以是BERT模型,第二特征提取模块可以是卷积神经网络模型。可首先基于BERT模型提取文本样本中的多个第一特征,从而生成第三特征向量,然后基于CNN提取语音样本中的多个第二特征,以生成第四特征向量,最后将第三特征向量和第四特征向量进行拼接,从而得到进行训练的特征向量。
其中,文本样本的特征提取,可提取文本样本中的词性信息、重复词汇信息和无意义词汇信息等文本特征,以得到多个第一特征。然后多个第一特征经过特征处理,同样可被转换成了[m*100]维度的第三特征向量,其中,m为预设值,可根据的单个第一特征中最大长度的特征确定,以保证所有第一特征形成的特征向量能够包含所有特征的所有信息。
其中,在识别文本样本中的词性信息、重复词汇信息和无意义词汇信息,以作为多个第一特征时,可先识别文本样本中的不同词性的词汇的数量,以作为词性信息,可以理解,文本样本中包含了各种不同词性的词汇,如名词、动词等,认知功能受损越严重可能越倾向于使用某种词性的词汇,因此,通过提取词性信息的特征,能够提高检测准确性。同样地,可识别文本样本中的不同词汇的重复次数,以作为重复词汇信息,如统计文本中每个词汇的重复次数,可以理解,认知功能受损越严重的患者,可能对于词汇的重复次数越多;最后,可识别文本样本中的无意义词汇的数量,以作为无意义词汇信息,文本中可能存在无意义的词汇,如“啊”、“嗯”等,对于认知功能受损越严重的患者来说,越容易说出大量的无意义词汇。如此,通过提取与检测认知功能受损程度有关的多个文本特征,能够提高对AD、MCI的检测准确性。
其中,语音样本的特征提取可通过提取语音中的停顿信息、语音的连续性信息等语音特征,以得到多个第二特征,然后经过池化层、ReLU激活函数以及Sigmoid函数激活函数的全连接层,最终将采集的语音特征转换为[n*100]的第四特征向量,其中,n为预设值,可根据的单个第二特征中最大长度的特征确定,以保证所有第二特征形成的特征向量能够包含所有特征的所有信息。
其中,在识别语音样本中的停顿信息和语音的连续性信息时,首先识别语音样本中不同语句之间的停顿时长,以确定停顿信息,例如停顿信息包括不同停顿时长的停顿的数量;可以理解,停顿的数量以及时长越久,说明用户的认知功能受损越严重,反之则说明认知功能受损较轻。然后,根据多个停顿时长的方差,确定语音的连续性信息,如确定所有停顿时长的方差以表示语音的连续性,可以理解,方差越小,说明用户在说话时的停顿一致性较好,表示用户的语音连续性较好,而方差越大,则说明用户在语音时的停顿一致性较差,表示用户的语音连续性较差。如此,通过提取与检测认知功能受损程度有关的多个语音特征,能够提高对AD、MCI的检测准确性。
可选地,在进行目标对象是否患有AD、MCI的检测时,可以首先获取目标对象的语音信息。
可以理解,AD造成的认知功能受损会影响语言表述能力,进而体现在语言表达的过程和内容中。因此,通过采集用户执行预设的描述任务的语音(如通过电子设备的麦克风采集语音),以得到语音信息,基于分类模型来对语音信息进行处理,从而输出检测结果,以评估目标对象的认知功能受损程度,从而基于语音信息来进行AD和MCI的检测。
其中,预设的描述任务可包括描述预设图像的内容和在预设时长内描述目标类型的不同目标对象的名称。可以理解,认知功能受损会影响对预设图像的描述准确性,对于图像中的内容,认知功能受损越严重,描述的准确性就越差,如图6所示,在执行描述任务时,电子设备的显示屏可显示预设图像,正常用户和认知功能受损的用户对该预设图像的描述准确性显然是不同的;同样地,认知功能受损也会影响描述流畅性,例如,在预设时长内描述目标类型的不同目标对象的名称可以是在预设时长(如30秒、1分钟、2分钟等)内说出尽量多的动物名称。因此,通过采集用户执行预设描述任务的语音信息,能够用于对认知功能受损程度的检测,从而检测出用户患有AD和MCI的概率。
然后,将语音信息转换为文本信息。将语音信息转换为文本信息,语音信息和文本信息均包含了用户执行预设的描述任务时的语音内容,能够得到更多不同的角度的有效信息。
之后,在获取到用户执行描述任务后的语音信息及文本信息后,即可进行特征提取操作。从文本信息中提取多个第一特征,以生成第三特征向量;从语音信息中提取多个第二特征,以生成第四特征向量,并拼接第三特征向量和第四特征向量,以生成待测特征向量。
最后,在得到待测特征向量后,即可将待测特征向量输入到预设的分类模型中,即可输出对AD及MCI的检测结果,例如检测结果包括正常概率、轻度认知障碍概率和阿兹海默症概率,如此,可直观的指示用户患有AD、MCI的概率,帮助用户提早发现,从而有利于对AD、MCI的治疗。
本申请中训练方法训练得到的分类模型,能够通过获取用户执行预设描述任务的语音信息,并将语音信息转化为文本信息,通过提取语音信息和文本信息中与AD及MCI有关的特征,并根据提取并拼接的待测特征向量,以输出检测结果,从而判断用户患有AD、MCI等的概率,能够被部署在任何具备麦克风的电子设备上,因此可被广泛应用于各种场景。且通过语音信息和文本信息分别得到第三特征向量和第四特征向量,以拼接得到待测特征向量进行检测,通过文本和语音融合的方式可以提取到更多的特征信息,可排除语音采集过程中因客观原因造成的数据不完整的问题,提升分类模型的准确性。
可以理解,ASR、CNN、BERT及分类模型可均部署在电子设备中,从而使得单个电子设备即可实现AD及MCI的检测。
为便于更好的实施本申请实施例的训练方法,本申请实施例还提供一种训练装置10。
请参阅图7,该训练装置10可以包括:
获取模块11,用于获取第一样本及与第一样本对应的第二样本,第一样本和第二样本的语言类型不同;
第一训练模块12,用于输入第一样本及与第一样本对应的第二样本至预设的第一特征提取模型中,以训练第一特征提取模型至收敛,收敛后的第一特征提取模型提取第一样本的第一特征向量和与第一样本对应的第二样本的第二特征向量的相似度大于预设阈值;
提取模块13,用于输入训练样本至收敛后的第一特征提取模型,以输出特征向量,训练样本包括不同语言类型的样本。
提取模块13具体还用于:
基于第一特征提取模型提取文本样本的多个第一特征,以生成第三特征向量、及转换所述语音样本为文本样本,并提取语音样本转化的文本样本的多个第二特征,以生成第四特征向量;及
拼接第三特征向量和第四特征向量,以生成特征向量。
提取模块13具体还用于:
基于第一特征提取模型提取文本样本的多个第一特征,以生成第三特征向量;
基于预设的第二特征提取模块提取语音样本的多个第二特征,以生成第四特征向量;
拼接第三特征向量和第四特征向量,以生成特征向量,第一特征提取模型为掩码语言模型,第二特征提取模型为卷积神经网络模型。
提取模块13具体还用于提取文本信息中的词性信息、重复词汇信息和无意义词汇信息,以作为多个第一特征;及提取语音信息中的停顿信息和语音的连续性信息,以作为多个第二特征。
第二训练模块14,用于输入特征向量至预设的分类模型,以训练分类模型至收敛。
第二训练模块14具体还用于输入特征向量及标签信息到预设的分类模型,以训练分类模型至收敛。
上述训练装置10中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各个模块可以以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行上述各个模块对应的操作。
请参阅图8,本申请实施方式的电子设备100包括处理器30。处理器30用于执行上述任意一种实施方式的训练方法,为了简洁,在此不再赘述。
其中,电子设备100可以是移动电话,智能电话,个人数字助理(personal digitalassistants,PDA),平板电脑和视频游戏设备,便携式终端(例如笔记本电脑),或较大尺寸的设备(例如台式计算机和电视)。
请参阅图9,本申请实施方式还提供了一种计算机可读存储介质300,其上存储有计算机程序310,计算机程序310被处理器30执行的情况下,实现上述任意一种实施方式的训练方法的步骤,为了简洁,在此不再赘述。
可以理解,计算机程序310包括计算机程序代码。计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读存储介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、以及软件分发介质等。
在本说明书的描述中,参考术语“一个实施方式”、“一些实施方式”、“示意性实施方式”、“示例”、“具体示例”或“一些示例”等的描述意指结合所述实施方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
尽管上面已经示出和描述了本申请的实施方式,可以理解的是,上述实施方式是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施方式进行变化、修改、替换和变型。

Claims (10)

1.一种利用迁移学习提升老年痴呆的识别效果的训练方法,其特征在于,包括:
获取第一样本及与所述第一样本对应的第二样本,所述第一样本和所述第二样本的语言类型不同;
输入所述第一样本及与所述第一样本对应的第二样本至预设的第一特征提取模型中,以训练所述第一特征提取模型至收敛,收敛后的所述第一特征提取模型提取所述第一样本的第一特征向量和与所述第一样本对应的所述第二样本的第二特征向量的相似度大于预设阈值;
输入训练样本至收敛后的所述第一特征提取模型,以输出特征向量,所述训练样本包括不同语言类型的样本;及
输入所述特征向量至预设的分类模型,以训练所述分类模型至收敛。
2.根据权利要求1所述的训练方法,其特征在于,所述第一样本的语言类型为中文,所述第二样本的语言类型为英文。
3.根据权利要求1或2所述的训练方法,其特征在于,所述第一样本和所述第二样本均为语音类型样本;或,所述第一样本和所述第二样本均为文本类型样本。
4.根据权利要求1所述的训练方法,其特征在于,所述训练样本包括语音样本和与所述语音样本对应的文本样本,所述输入训练样本至收敛后的所述第一特征提取模型,以输出特征向量,包括:
基于所述第一特征提取模型提取所述文本样本的多个第一特征,以生成第三特征向量、及提取所述语音样本的多个第二特征,以生成第四特征向量;及
拼接所述第三特征向量和所述第四特征向量,以生成所述特征向量。
5.根据权利要求1所述的训练方法,其特征在于,所述训练样本包括语音样本和由所述语音样本转换而成的文本样本,所述输入训练样本至收敛后的所述第一特征提取模型,以输出特征向量,包括:
基于所述第一特征提取模型提取所述文本样本的多个第一特征,以生成第三特征向量;
基于预设的第二特征提取模块提取所述语音样本的多个第二特征,以生成第四特征向量;
拼接所述第三特征向量和所述第四特征向量,以生成所述特征向量。
6.根据权利要求4或5所述的训练方法,其特征在于,所述训练样本还包括标签信息,所述标签信息包括正常概率、轻度认知障碍概率和阿兹海默症概率;所述输入所述特征向量至预设的分类模型,以训练所述分类模型至收敛,包括:
输入所述特征向量及所述标签信息到预设的分类模型,以训练所述分类模型至收敛。
7.根据权利要求4或5所述的训练方法,其特征在于,所述提取所述文本信息的多个第一特征,包括:
提取所述文本信息中的词性信息、重复词汇信息和无意义词汇信息,以作为多个所述第一特征;
所述提取所述语音信息的多个第二特征,包括:
提取所述语音信息中的停顿信息和语音的连续性信息,以作为多个所述第二特征。
8.一种训练装置,其特征在于,包括:
获取模块,用于获取第一样本及与所述第一样本对应的第二样本,所述第一样本和所述第二样本的语言类型不同;
第一训练模块,用于输入所述第一样本及与所述第一样本对应的第二样本至预设的第一特征提取模型中,以训练所述第一特征提取模型至收敛,收敛后的所述第一特征提取模型提取所述第一样本的第一特征向量和与所述第一样本对应的所述第二样本的第二特征向量的相似度大于预设阈值;
提取模块,用于输入训练样本至收敛后的所述第一特征提取模型,以输出特征向量,所述训练样本包括不同语言类型的样本;及
第二训练模块,用于输入所述特征向量至预设的分类模型,以训练所述分类模型至收敛。
9.一种电子设备,其特征在于,包括处理器,所述处理器用于执行权利要求1-7任意一项所述的训练方法。
10.一种计算机程序的非易失性计算机可读存储介质,其特征在于,当所述计算机程序被一个或多个处理器执行时,实现权利要求1-7任意一项所述的训练方法。
CN202210791040.7A 2022-07-05 2022-07-05 利用迁移学习提升老年痴呆的识别效果的训练方法及装置 Active CN115346657B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210791040.7A CN115346657B (zh) 2022-07-05 2022-07-05 利用迁移学习提升老年痴呆的识别效果的训练方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210791040.7A CN115346657B (zh) 2022-07-05 2022-07-05 利用迁移学习提升老年痴呆的识别效果的训练方法及装置

Publications (2)

Publication Number Publication Date
CN115346657A CN115346657A (zh) 2022-11-15
CN115346657B true CN115346657B (zh) 2023-07-28

Family

ID=83948646

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210791040.7A Active CN115346657B (zh) 2022-07-05 2022-07-05 利用迁移学习提升老年痴呆的识别效果的训练方法及装置

Country Status (1)

Country Link
CN (1) CN115346657B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112989828A (zh) * 2019-12-17 2021-06-18 医渡云(北京)技术有限公司 命名实体识别模型的训练方法、装置、介质及电子设备
CA3123387A1 (en) * 2021-06-28 2021-11-10 Ada Support Inc. Method and system for generating an intent classifier
CN113836925A (zh) * 2021-09-16 2021-12-24 北京百度网讯科技有限公司 预训练语言模型的训练方法、装置、电子设备及存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107506797A (zh) * 2017-08-25 2017-12-22 电子科技大学 一种基于深度神经网络和多模态影像阿尔兹海默病分类方法
US10977445B2 (en) * 2019-02-01 2021-04-13 International Business Machines Corporation Weighting features for an intent classification system
CN110728997B (zh) * 2019-11-29 2022-03-22 中国科学院深圳先进技术研究院 一种基于情景感知的多模态抑郁症检测系统
KR102211391B1 (ko) * 2020-04-21 2021-02-03 주식회사 카이아이컴퍼니 고령자 대상 인지장애 조기 검진 및 커뮤니티케어 매칭 서비스를 제공하는 시스템 및 방법
US20220108714A1 (en) * 2020-10-02 2022-04-07 Winterlight Labs Inc. System and method for alzheimer's disease detection from speech
CN112927781A (zh) * 2021-02-10 2021-06-08 杭州医典智能科技有限公司 一种基于自然语言处理和时序卷积网络的抑郁症检测方法
CN113208629A (zh) * 2021-04-06 2021-08-06 北京脑陆科技有限公司 一种基于eeg信号的阿尔兹海默症筛查方法及系统
CN114596960B (zh) * 2022-03-01 2023-08-08 中山大学 基于神经网络和自然对话的阿尔兹海默症风险预估方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112989828A (zh) * 2019-12-17 2021-06-18 医渡云(北京)技术有限公司 命名实体识别模型的训练方法、装置、介质及电子设备
CA3123387A1 (en) * 2021-06-28 2021-11-10 Ada Support Inc. Method and system for generating an intent classifier
CN113836925A (zh) * 2021-09-16 2021-12-24 北京百度网讯科技有限公司 预训练语言模型的训练方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN115346657A (zh) 2022-11-15

Similar Documents

Publication Publication Date Title
CN110728997B (zh) 一种基于情景感知的多模态抑郁症检测系统
JP6198872B2 (ja) 聴覚注意手がかりを用いた音声の音節/母音/音素の境界の検出
Han et al. A deep learning-based stress detection algorithm with speech signal
CN110148400A (zh) 发音类型的识别方法、模型的训练方法、装置及设备
WO2024000867A1 (zh) 情绪识别方法、装置、设备及存储介质
CN112487139A (zh) 基于文本的自动出题方法、装置及计算机设备
CN115662435B (zh) 一种虚拟教师拟真化语音的生成方法及终端
CN111145903A (zh) 获取眩晕症问诊文本的方法、装置、电子设备及问诊系统
CN110136726A (zh) 一种语音性别的估计方法、装置、系统及存储介质
CN111292851A (zh) 数据分类方法、装置、计算机设备和存储介质
Nandi et al. Implicit processing of LP residual for language identification
CN110348482A (zh) 一种基于深度模型集成架构的语音情感识别系统
CN116522212B (zh) 基于图像文本融合的谎言检测方法、装置、设备及介质
CN114595692A (zh) 一种情绪识别方法、系统及终端设备
CN115424108B (zh) 一种基于视听融合感知的认知功能障碍评测方法
CN115346657B (zh) 利用迁移学习提升老年痴呆的识别效果的训练方法及装置
Akinpelu et al. Lightweight Deep Learning Framework for Speech Emotion Recognition
Zhu et al. Emotion Recognition of College Students Based on Audio and Video Image.
CN114170997A (zh) 发音技巧检测方法、装置、存储介质及电子设备
CN115964484A (zh) 基于多标签分类模型实现的法律多意图识别方法和装置
CN115512692A (zh) 语音识别方法、装置、设备及存储介质
CN115169472A (zh) 针对多媒体数据的音乐匹配方法、装置和计算机设备
CN114492579A (zh) 情绪识别方法、摄像装置、情绪识别装置及存储装置
CN115547484A (zh) 基于语音分析的阿尔兹海默症的检测方法及装置
Oota et al. Speech Taskonomy: Which Speech Tasks are the most Predictive of fMRI Brain Activity?

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant