CN116189668B

CN116189668B - 语音分类、认知障碍检测方法、装置、设备及介质

Info

Publication number: CN116189668B
Application number: CN202310443620.1A
Authority: CN
Inventors: 丁昕昀; 徐飞扬; 李鑫
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2023-04-24
Filing date: 2023-04-24
Publication date: 2023-07-25
Anticipated expiration: 2043-04-24
Also published as: CN116189668A

Abstract

本发明涉及人工智能技术领域，提供一种语音分类、认知障碍检测方法、装置、设备及介质，其中方法包括：获取待分类的第一语音；对第一语音进行低通滤波，得到滤除语言信息后的第一语音，作为第二语音；对第二语音进行语音分类，得到第二语音的分类结果；基于第二语音的分类结果，确定第一语音的分类结果。本发明提供的方法、装置、电子设备及存储介质，第二语音是滤除语言信息后的第一语音，对第二语音进行语音分类，得到第二语音的分类结果，再基于第二语音的分类结果，确定第一语音的分类结果，从而使得无论是哪种语种的语音，都能进行语音分类，极大降低了基于较小众的语种的语音分类的执行门槛，有助于扩宽语音分类的应用范围。

Description

语音分类、认知障碍检测方法、装置、设备及介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种语音分类、认知障碍检测方法、装置、设备及介质。

背景技术

语音分类技术通常是结合正常与异常的被试语音数据作为训练集训练语音分类模型。

然而，对于较小众的语种、低资源、语音数据较少，很难收集足够的异常语音数据训练该语种的语音分类模型。

发明内容

本发明提供一种语音分类、认知障碍检测方法、装置、设备及介质，用以解决现有技术中对于较小众的语种、低资源、语音数据较少，很难收集足够的异常语音数据训练该语种的语音分类模型的缺陷。

本发明提供一种语音分类方法，包括：

获取待分类的第一语音；

对所述第一语音进行低通滤波，得到滤除语言信息后的第一语音，作为第二语音；

对所述第二语音进行语音分类，得到所述第二语音的分类结果；

基于所述第二语音的分类结果，确定所述第一语音的分类结果。

根据本发明提供的一种语音分类方法，所述对所述第二语音进行语音分类，得到所述第二语音的分类结果，包括：

基于语音分类模型，对所述第二语音的语音特征分别进行语音状态评分和语音类型分类，得到所述第二语音的得分回归结果和类型分类结果；

基于所述得分回归结果和所述类型分类结果，确定所述第二语音的分类结果；

所述语音分类模型是基于得分回归和分类两个任务训练得到的。

根据本发明提供的一种语音分类方法，所述语音分类模型的训练步骤包括：

获取初始模型，并获取样本语音，以及所述样本语音的语音状态得分标签和语音类型标签；

基于所述初始模型，对所述样本语音的语音特征分别进行语音状态评分和语音类型分类，得到所述样本语音的样本得分回归结果和样本类型分类结果；

基于所述样本得分回归结果和样本类型分类结果，以及所述语音状态得分标签和语音类型标签，对所述初始模型进行参数迭代，得到所述语音分类模型。

根据本发明提供的一种语音分类方法，所述基于所述样本得分回归结果和样本类型分类结果，以及所述语音状态得分标签和语音类型标签，对所述初始模型进行参数迭代，得到所述语音分类模型，包括：

基于所述样本得分回归结果与所述语音状态得分标签间的差异，所述样本类型分类结果与所述语音类型标签间的差异，以及所述样本得分回归结果与所述样本类型分类结果间的差异，对所述初始模型进行参数迭代，得到所述语音分类模型。

根据本发明提供的一种语音分类方法，所述基于所述第二语音的分类结果，确定所述第一语音的分类结果，包括：

基于所述第一语音的文本结构信息和/或所述第一语音的静音检测信息，对所述第一语音进行语音分类，得到第一分类结果；

基于所述第二语音的分类结果，以及所述第一分类结果，确定所述第一语音的分类结果。

根据本发明提供的一种语音分类方法，所述静音检测信息的确定步骤包括：

对所述第一语音进行静音检测，得到所述第一语音中的静音段；

基于所述静音段的数量和/或时长，确定所述静音检测信息。

本发明还提供一种认知障碍检测方法，包括：

获取待分类的第一语音；

对所述第二语音进行认知障碍分类，得到所述第二语音的认知障碍分类结果；

基于所述第二语音的认知障碍分类结果，确定所述第一语音的认知障碍分类结果。

本发明还提供一种语音分类装置，包括：

获取单元，用于获取待分类的第一语音；

低通滤波单元，用于对所述第一语音进行低通滤波，得到滤除语言信息后的第一语音，作为第二语音；

语音分类单元，用于对所述第二语音进行语音分类，得到所述第二语音的分类结果；

确定分类结果单元，用于基于所述第二语音的分类结果，确定所述第一语音的分类结果。

本发明还提供一种认知障碍检测装置，包括：

获取第一语音单元，用于获取待分类的第一语音；

滤波单元，用于对所述第一语音进行低通滤波，得到滤除语言信息后的第一语音，作为第二语音；

认知障碍分类单元，用于对所述第二语音进行认知障碍分类，得到所述第二语音的认知障碍分类结果；

确定认知障碍分类结果单元，用于基于所述第二语音的认知障碍分类结果，确定所述第一语音的认知障碍分类结果。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述语音分类方法，或实现所述认知障碍检测方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述语音分类方法，或实现所述认知障碍检测方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述语音分类方法，或实现所述认知障碍检测方法。

本发明提供的语音分类、认知障碍检测方法、装置、设备及介质，对第一语音进行低通滤波，得到滤除语言信息后的第一语音，作为第二语音，对第二语音进行语音分类，得到第二语音的分类结果，再基于第二语音的分类结果，确定第一语音的分类结果，从而使得无论是哪种语种的语音，都能进行语音分类，极大降低了基于较小众的语种的语音分类的执行门槛，有助于扩宽语音分类的应用范围。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的语音分类方法的流程示意图；

图2是本发明提供的语音分类方法中步骤130的流程示意图；

图3是本发明提供的语音分类模型的训练步骤的流程示意图；

图4是本发明提供的语音分类方法中步骤140的流程示意图；

图5是本发明提供的确定第一语音的分类结果的流程示意图；

图6是本发明提供的静音检测信息的确定步骤的流程示意图；

图7是本发明提供的认知障碍检测方法的流程示意图之一；

图8是本发明提供的认知障碍检测方法的流程示意图之二；

图9是本发明提供的语音分类装置的结构示意图；

图10是本发明提供的认知障碍检测装置的结构示意图；

图11是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类。

相关技术中，对于较小众的语种、低资源、语音数据较少，很难收集足够的异常语音数据训练该语种的语音分类模型。

针对上述问题，本发明提供一种语音分类方法，图1是本发明提供的语音分类方法的流程示意图，如图1所示，该方法包括：

步骤110，获取待分类的第一语音。

具体地，可以获取待分类的第一语音，此处的待分类的第一语音是指后续需要进行语音分类的语音，第一语音可以通过拾音设备得到，此处拾音设备可以是智能手机、平板电脑，还可以是智能电器，例如音响、电视和空调等，拾音设备在经过麦克风阵列拾音得到第一语音后，还可以对语音数据进行放大和降噪，本发明实施例对此不作具体限定。

可以理解的是，在进行认知障碍检测时，第一语音可以是在对被试者进行认知障碍检测过程中，记录得到的语音。通常，通过看图说话任务进行认知障碍检测，在进行看图说话任务时，第一语音可以是在被试者在完成看图说话任务中，根据给出的特定图片，描述图片上的内容的过程中记录到的语音。

步骤120，对所述第一语音进行低通滤波，得到滤除语言信息后的第一语音，作为第二语音。

具体地，在获取到第一语音之后，可以对第一语音进行低通滤波，得到滤除语言信息后的第一语音，作为第二语音。例如，可以对第一语音进行0~1000hz低通滤波。此处的语言信息是指与语种、语义等语言学特征相关的信息。

可以理解的是，通过低通滤波的方法滤除了第一语音中的语言信息，由此，保留了第一语音中底层的声学信息，而大部分语音辨别信息都集中在声学信息的频率区域，并且在所有语言中都是一致的，而滤除了第一语音中的语言信息，保留了第一语音中非语言的信息，即，第二语音保留了与语种无关的信息。

可以理解的是，由于本发明实施例考虑的是非语言信息，本发明实施例提供的语音分类方法，可以用于认知障碍检测，也可以用于情绪识别，还可以用于其他与语言无关的场景等，本发明实施例对此不作具体限定。

步骤130，对所述第二语音进行语音分类，得到所述第二语音的分类结果。

具体地，在得到第二语音之后，可以对第二语音进行语音分类，得到第二语音的分类结果。

此处，在对第二语音进行语音分类之前，还可以基于语音特征提取模型，提取第二语音的语音特征，再基于第二语音的语音特征进行语音分类，此处的语音特征提取模型可以是多语种wav2vec2模型，也可以是HuBERT（Hidden-Unit Bidirectional EncoderRepresentation from Transformers）模型，还可以是WavLM模型等，本发明实施例对此不作具体限定。

此处，对第二语音进行语音分类，可以借助语音分类模型对第二语音分别进行语音状态评分和语音类型分类，也可以对第二语音进行语音状态评分，还可以对第二语音进行语音类型分类，本发明实施例对此不作具体限定。

此处的语音状态评分反映了对语音当前状态的打分情况，且语音状态评分可以反映语音属于正常语音或异常语音中的哪类语音。此处的语音类型分类反映了对语音类型的分类情况。

相应地，第二语音的分类结果可以包括得分回归结果和类型分类结果，也可以包括得分回归结果，还可以包括类型分类结果等。此处的得分回归结果是指第二语音的得分结果，此处的类型分类结果是指第二语音的语音分类结果。例如，在进行认知障碍检测的情况下，类型分类结果可以包括正常和认知障碍。

可以理解的是，对第二语音进行语音分类，即从非语言信息的层面进行语音分类，从而使得无论是哪种语种的语音，都能进行语音分类，极大降低了基于较小众的语种（例如，夏威夷语、纳瓦霍语、阿亚帕涅科语、西班牙语等语种）的语音分类的执行门槛，有助于扩宽语音分类的应用范围。

步骤140，基于所述第二语音的分类结果，确定所述第一语音的分类结果。

具体地，在得到第二语音的分类结果后，可以基于第二语音的分类结果，确定第一语音的分类结果。相应地，例如在进行认知障碍检测的情况下，第一语音的分类结果可以包括正常和认知障碍。

例如，可以直接将第二语音的分类结果，作为第一语音的分类结果，还可以基于第一语音的其他维度上的非语言信息，例如第一语音的文本结构信息和第一语音的静音检测信息，对第一语音进行语音分类，得到第一分类结果，再结合第一分类结果和第二语音的分类结果，确定第一语音的分类结果，本发明实施例对此不作具体限定。

本发明实施例提供的方法，对第一语音进行低通滤波，得到滤除语言信息后的第一语音，作为第二语音，对第二语音进行语音分类，得到第二语音的分类结果，再基于第二语音的分类结果，确定第一语音的分类结果，从而使得无论是哪种语种的语音，都能进行语音分类，极大降低了基于较小众的语种的语音分类的执行门槛，有助于扩宽语音分类的应用范围。

基于任一实施例，本发明实施例所提供的语音分类方法，可应用于老年人认知障碍检测和定量分析。并且，本发明实施例基于语音分类所得的第一语音的分类结果，可以应用到临床诊断中，作为医生进行老年人认知障碍诊断的参考因素。此外，本发明实施例基于语音分类所得的第一语音的分类结果，还可以应用到病历质检中，将自动化分析得到的第一语音的分类结果，与病历中记载的由医生诊断得到的患者老年人认知障碍的结果进行比对，从而检验病历质量，本发明实施例对此不作具体限定。

基于上述实施例，图2是本发明提供的语音分类方法中步骤130的流程示意图，如图2所示，步骤130包括：

步骤131，基于语音分类模型，对所述第二语音的语音特征分别进行语音状态评分和语音类型分类，得到所述第二语音的得分回归结果和类型分类结果；

步骤132，基于所述得分回归结果和所述类型分类结果，确定所述第二语音的分类结果；

具体地，为了能够更好地确定第二语音的分类结果，需要在步骤131执行之前对语音分类模型进行得分回归和分类两个任务训练，以使得语音分类模型具备得分回归和语音分类的能力。

在对语音分类模型进行得分回归和分类两个任务训练之后，可以基于语音分类模型，对第二语音的语音特征分别进行语音状态评分和语音类型分类，得到第二语音的得分回归结果和类型分类结果。此处的得分回归结果是指第二语音的得分结果，此处的类型分类结果是指第二语音的语音分类结果。例如，在进行认知障碍检测的情况下，类型分类结果可以包括正常和认知障碍，正常可以对应为0，认知障碍可以对应为1。

例如，在进行认知障碍检测的情况下，得分回归结果可以为25分，也可以为26分，还可以为10分等，本发明实施例对此不作具体限定。

例如，在进行认知障碍检测的情况下，可以以25分作为得分回归结果的分界线，当得分回归结果高于25分时，对得分回归结果进行0/1化，得到的最终的得分回归结果为0（正常）；当得分回归结果低于25分时，对得分回归结果进行0/1化，得到的最终的得分回归结果为1（认知障碍）等，本发明实施例对此不作具体限定。

在得到得分回归结果和类型分类结果之后，可以基于得分回归结果和类型分类结果，确定第二语音的分类结果。例如，在进行认知障碍检测的情况下，当得分回归结果为1，类型分类结果也为1时，可以确定第二语音的分类结果为1，即第二语音的分类结果为认知障碍；当得分回归结果为0，类型分类结果也为0时，可以确定第二语音的分类结果为0，即第二语音的分类结果为正常；当得分回归结果为0，类型分类结果也为1时，还可以结合第一语音的其他维度上的非语言信息，确定第二语音的分类结果，本发明实施例对此不作具体限定。

本发明实施例提供的方法，基于语音分类模型，对第二语音的语音特征分别进行语音状态评分和语音类型分类，得到第二语音的得分回归结果和类型分类结果，再基于得分回归结果和类型分类结果，确定第二语音的分类结果，语音分类模型是基于得分回归和分类两个任务训练得到的，由此，通过得分回归和分类的损失函数控制语音分类模型收敛，提高了语音分类模型的预测的准确性和可靠性。

基于上述实施例，图3是本发明提供的语音分类模型的训练步骤的流程示意图，如图3所示，所述语音分类模型的训练步骤包括：

步骤310，获取初始模型，并获取样本语音，以及所述样本语音的语音状态得分标签和语音类型标签；

步骤320，基于所述初始模型，对所述样本语音的语音特征分别进行语音状态评分和语音类型分类，得到所述样本语音的样本得分回归结果和样本类型分类结果；

步骤330，基于所述样本得分回归结果和样本类型分类结果，以及所述语音状态得分标签和语音类型标签，对所述初始模型进行参数迭代，得到所述语音分类模型。

具体地，为了能够更好地确定第二语音的分类结果，需要对语音分类模型进行得分回归和分类两个任务训练：

可以预先获取初始模型，并获取样本语音，以及样本语音的语音状态得分标签和语音类型标签。此处的初始模型的参数可以是预先设置的，也可以是随机生成的，本发明实施例对此不作具体限定。

在得到初始模型之后，即可应用预先收集好的样本语音、样本语音的语音状态得分标签和语音类型标签，对初始模型进行训练：

首先，可以将样本语音输入至初始模型中，由初始模型对样本语音的语音特征分别进行语音状态评分和语音类型分类，得到样本语音的样本得分回归结果和样本类型分类结果。

此处的样本语音的语音特征可以是对样本语音进行语音特征提取得到的，此处，对样本语音进行语音特征提取可以使用wav2vec2模型，也可以使用HuBERT模型，还可以使用WavLM模型等，本发明实施例对此不作具体限定。

在基于初始模型得到样本得分回归结果和样本类型分类结果之后，即可将样本得分回归结果与预先收集的语音状态得分标签进行比较，根据此两者之间的差异程度计算得到第一损失函数值，以及可以将样本类型分类结果和预先收集的语音类型标签进行比较，根据此两者之间的差异程度计算得到第二损失函数值，并基于第一损失函数值和第二损失函数值，对初始模型进行参数迭代，并将完成参数迭代之后的初始模型确定为语音分类模型。

可以理解的是，样本得分回归结果与预先收集的语音状态得分标签之间的差异程度越大，第一损失函数值越大；样本得分回归结果与预先收集的语音状态得分标签之间的差异程度越小，第一损失函数值越小。

可以理解的是，样本类型分类结果与预先收集的语音类型标签之间的差异程度越大，第二损失函数值越大；样本类型分类结果与预先收集的语音类型标签之间的差异程度越小，第二损失函数值越小。

此处，第一损失函数可以是均方误差损失函数（Mean Squared Error，MSE），第二损失函数可以是交叉熵损失函数（Cross Entropy Loss Function，CE），还可以使用随机梯度下降法对初始模型的参数进行更新等，本发明实施例对此不作具体限定。

此处，语音分类模型即训练得到的具备语音状态评分和语音类型分类能力的模型。

本发明实施例提供的方法，基于样本得分回归结果和样本类型分类结果，以及语音状态得分标签和语音类型标签，对初始模型进行参数迭代，得到语音分类模型，提高了后续应用语音分类模型对第二语音的语音特征分别进行语音状态评分和语音类型分类的准确性和可靠性。

基于上述实施例，步骤330包括：

具体地，为了使得语音分类模型的得分回归和分类任务的预测结果尽可能一致，从而进一步提高语音分类模型的准确性，可以基于样本得分回归结果与样本类型分类结果间的差异，确定第三损失函数值，第三损失函数值可以用loss3表示。

可以理解的是，样本得分回归结果与样本类型分类结果之间的差异越大，第三损失函数值越大；样本得分回归结果与样本类型分类结果之间的差异越小，第三损失函数值越小。

此处的第三损失函数的目标是最小化得分回归和分类任务之间的平均方差，使得得分回归和分类任务的预测结果尽可能一致。

此外，可以基于样本类型分类结果与语音类型标签间的差异，确定第二损失函数值，第二损失函数值可以用CE loss表示。并且，可以基于样本得分回归结果与语音状态得分标签间的差异，确定第一损失函数值，第一损失函数值可以用MSE loss表示。

在得到第一损失函数值、第二损失函数值和第三损失函数值之后，可以基于第一损失函数值、第二损失函数值和第三损失函数值，或者可以基于第一损失函数值、第二损失函数值和第三损失函数值的加权之和，对初始模型进行参数迭代，并将参数迭代之后的初始模型确定为语音分类模型。

此处，基于第一损失函数值、第二损失函数值和第三损失函数值的加权之和，对初始模型进行参数迭代的公式如下：

其中，表示总损失函数值，/>表示第一损失函数值，/>表示第二损失函数值，/>表示第三损失函数值，/>表示权重系数。

本发明实施例提供的方法，基于样本得分回归结果与语音状态得分标签间的差异，样本类型分类结果与语音类型标签间的差异，以及样本得分回归结果与样本类型分类结果间的差异，对初始模型进行参数迭代，得到语音分类模型，由此，提高了语音分类模型的语音状态评分和语音类型分类的准确性和可靠性。

基于上述实施例，图4是本发明提供的语音分类方法中步骤140的流程示意图，如图4所示，步骤140包括：

步骤141，基于所述第一语音的文本结构信息和/或所述第一语音的静音检测信息，对所述第一语音进行语音分类，得到第一分类结果；

步骤142，基于所述第二语音的分类结果，以及所述第一分类结果，确定所述第一语音的分类结果。

具体地，第一语音的文本结构信息反映了第一语音的文本结构层面的特征信息，文本结构信息具体可以包括词法、句法和语句连贯性层面的特征信息。第一语音的静音检测信息反映了第一语音中静音时段的检测信息，静音检测信息具体可以包括静音段的数量和静音段时长层面的信息。

考虑到文本结构信息和静音检测信息反映了第一语音的词法、句法、语句连贯性和静音时段的检测信息等与语言信息不相关的特征信息，即文本结构信息和静音检测信息也滤除了语音中的语言信息，即文本结构信息和静音检测信息也属于非语言信息。因此，可以基于第一语音的文本结构信息和/或第一语音的静音检测信息，对第一语音进行语音分类，得到第一分类结果。

即，可以基于第一语音的文本结构信息，对第一语音进行语音分类，得到第一分类结果，也可以基于第一语音的静音检测信息，对第一语音进行语音分类，得到第一分类结果，还可以基于第一语音的文本结构信息和静音检测信息的融合信息，对第一语音进行语音分类，得到第一分类结果，本发明实施例对此不作具体限定。

此处，对第一语音的文本结构信息和静音检测信息进行融合，可以是将文本结构信息和静音检测信息进行拼接，还可以是利用注意力机制将文本结构信息和静音检测信息进行加权之后再拼接，本发明实施例对此不作具体限定。此处的融合信息的维度为文本结构信息和静音检测信息的二者维度之和。

例如，在进行认知障碍检测的情况下，此处的第一分类结果可以包括正常和认知障碍。

此处，可以对第一语音进行文本相关词嵌入（word embeddings）特征提取，得到第一语音的文本结构信息。此处，对第一语音进行文本相关词嵌入（word embeddings）特征提取可以使用多语种预训练语言模型，此处的多语种预训练语言模型可以为XLM-RoBERTa，也可以为XLM-BERT模型等，本发明实施例对此不作具体限定。

在对第一语音进行文本相关词嵌入特征提取之前，可以使用多语种wav2vec2模型对第一语音进行语音识别得到文本。

此处，可以使用VAD（Voice Activity Detection，语音活动检测）模型对第一语音根据静音段进行切分，将第一语音切分为数条语音段及数条静音段。

图5是本发明提供的确定第一语音的分类结果的流程示意图，如图5所示，在得到第一分类结果之后，可以基于第二语音的分类结果，以及第一分类结果，确定第一语音的分类结果。

由于第二语音的分类结果中包括得分回归结果和类型分类结果，即可以基于多数投票原则以及得分回归结果、类型分类结果和第一分类结果，确定第一语音的分类结果。

此处的多数投票原则是指将大多数分类预测结果作为最终的类别，即将得票占多数的结果作为第一语音的分类结果。

例如，得分回归结果为1（AD），类型分类结果为1（AD），第一分类结果为0（HC），由于三组结果中分类为AD的结果数量大于分类为HC的结果，因此，可以选取AD作为第一语音的分类结果。

本发明实施例提供的方法，基于第一语音的文本结构信息和/或第一语音的静音检测信息，对第一语音进行语音分类，得到第一分类结果，再基于第二语音的分类结果，以及第一分类结果，确定第一语音的分类结果，即采用多数投票原则确定第一语音的分类结果，由此，提高了确定第一语音的分类结果的准确性和可靠性，并且结合第一语音的文本结构信息和/或第一语音的静音检测信息的多模态信息，可以大幅提高语音分类的准确率。

基于上述实施例，图6是本发明提供的静音检测信息的确定步骤的流程示意图，如图6所示，所述静音检测信息的确定步骤包括：

步骤610，对所述第一语音进行静音检测，得到所述第一语音中的静音段；

步骤620，基于所述静音段的数量和/或时长，确定所述静音检测信息。

具体地，可以使用VAD模型对第一语音进行静音检测，得到第一语音中的静音段，此处的第一语音中的静音段是指第一语音中说话者没有说话的时段。

在得到第一语音中的静音段之后，可以基于静音段的数量和/或时长，确定静音检测信息。

例如，可以基于静音段的数量，静音段时长占第一语音总体时长的比例以及静音段的平均值、方差，确定静音检测信息。

本发明实施例提供的方法，对第一语音进行静音检测，得到第一语音中的静音段，基于静音段的数量和/或时长，确定静音检测信息，静音检测信息也属于非语言信息，提高了非语言信息的丰富度。

现有的认知障碍检测方法主要依赖于MoCA-B(Montreal Cognitive AssessmentBasic，蒙特利尔认知评估基础量表)、MMSE(Mini-mental State Examination，简易智力状态检查量表)等心理学测试量表，通过专业医生面对面询问病人问题并记录和分析被试答题时的反应。例如简易智力状态检查量表（MMSE），将通过简单的问答题考察被试注意力、记忆、语言、执行能力和视空间等多维度的认知能力，测试成绩与被试的受教育水平密切相关，完成答题后专业医生将结合被试的知识水平和量表得分给出被试的初步认知标签。

现有的传统技术方案存在依赖专业人员、成本高、耗时久、难以普及等问题。测试的开展和结果的评定都需要受过专业训练的人员，并且常常出现不一致、评估准确率低等天然问题，因此这一类方法难以广泛推广应用。

现有的基于语音的自动化阿尔兹海默症检测系统而言，通常都是结合正常与认知障碍的被试语音数据作为训练集训练认知障碍检测模型。而对于较小众的语种，低资源、语音数据较少，很难收集足够的认知障碍语音数据训练该语种的检测模型。

针对上述问题，本发明提供一种认知障碍检测方法，图7是本发明提供的认知障碍检测方法的流程示意图之一，如图7所示，该方法包括：

步骤710，获取待分类的第一语音。

具体地，在进行认知障碍检测时，第一语音可以是在对被试者进行认知障碍检测过程中，记录得到的语音。通常，通过看图说话任务进行认知障碍检测，在进行看图说话任务时，第一语音可以是在被试者在完成看图说话任务中，根据医生给出的特定图片，描述图片上的内容的过程中记录到的语音。

步骤720，对所述第一语音进行低通滤波，得到滤除语言信息后的第一语音，作为第二语音。

可以理解的是，通过低通滤波的方法滤除了第一语音中的语言信息，由此，保留了第一语音中底层的声学信息，而大部分语音辨别信息都集中在声学信息的频率区域，并且在所有语言中都是一致的，而滤除了第一语音中的语言信息，保留了第一语音中非语言的信息，即第二语音保留了与语种无关的信息。

步骤730，对所述第二语音进行认知障碍分类，得到所述第二语音的认知障碍分类结果。

具体地，在得到第二语音之后，可以对第二语音进行认知障碍分类，得到第二语音的认知障碍分类结果。

此处，在对第二语音进行认知障碍分类之前，还可以基于语音特征提取模型，提取第二语音的语音特征，再基于第二语音的语音特征进行认知障碍分类，此处的语音特征提取模型可以是多语种wav2vec2模型，也可以是HuBERT（Hidden-Unit BidirectionalEncoder Representation from Transformers）模型，还可以是WavLM模型等，本发明实施例对此不作具体限定。

此处，对第二语音进行认知障碍分类，可以借助认知障碍分类模型对第二语音分别进行认知障碍状态评分和认知障碍类型分类，也可以对第二语音进行认知障碍状态评分，还可以对第二语音进行认知障碍类型分类，本发明实施例对此不作具体限定。

此处的认知障碍状态评分反映了对语音当前认知障碍状态的打分情况，且认知障碍状态评分可以反映语音属于正常语音或认知障碍语音中的哪类语音。此处的认知障碍类型分类反映了对认知障碍类型的分类情况。

相应地，第二语音的分类结果可以包括得分回归结果和类型分类结果，也可以包括得分回归结果，还可以包括类型分类结果等。此处的得分回归结果是指第二语音的认知障碍得分结果，此处的类型分类结果是指第二语音的认知障碍分类结果。例如，类型分类结果可以包括正常和认知障碍。

可以理解的是，对第二语音进行认知障碍分类，即从非语言信息的层面进行认知障碍分类，从而使得无论是哪种语种的语音，都能进行认知障碍分类，极大降低了基于较小众的语种（例如，夏威夷语、纳瓦霍语、阿亚帕涅科语、西班牙语等语种）的认知障碍检测的执行门槛，有助于扩宽认知障碍检测的应用范围。

步骤740，基于所述第二语音的认知障碍分类结果，确定所述第一语音的认知障碍分类结果。

具体地，在得到第二语音的认知障碍分类结果后，可以基于第二语音的认知障碍分类结果，确定第一语音的认知障碍分类结果。相应地，第一语音的认知障碍分类结果可以包括正常和认知障碍。

例如，可以直接将第二语音的认知障碍分类结果，作为第一语音的认知障碍分类结果，还可以基于第一语音的其他维度上的非语言信息，例如第一语音的文本结构信息和第一语音的静音检测信息，对第一语音进行认知障碍分类，得到第一分类结果，再结合第一分类结果和第二语音的认知障碍分类结果，确定第一语音的认知障碍分类结果，本发明实施例对此不作具体限定。

可以理解的是，利用看图说话这一公认的经典认知障碍检测任务，通过对采集到的语音数据，采用跨语种语音预训练模型微调和自动化分析的方法，充分利用与认知状态更相关的语音底层信息，避免不同语种的语言信息影响，针对患者的认知能力进行检测，不仅可以大幅减少测试时间，极大提高认知障碍的检测效率，使得普筛和居家自检成为可能，有助于更早地检出认知障碍患者以便尽早开展干预治疗，另外也同步解决了低资源情况下的阿尔兹海默症检测问题，更好地实现了模型的跨语种迁移。

本发明实施例提供的方法，对第一语音进行低通滤波，得到滤除语言信息后的第一语音，作为第二语音，对第二语音进行认知障碍分类，得到第二语音的认知障碍分类结果，再基于第二语音的认知障碍分类结果，确定第一语音的认知障碍分类结果，从而使得无论是哪种语种的语音，都能进行认知障碍分类，极大降低了基于较小众的语种的认知障碍检测的执行门槛，有助于扩宽认知障碍检测的应用范围。

基于上述实施例，本发明实施例所提供的认知障碍检测方法，可应用于阿尔茨海默症检测和定量分析。并且，本发明实施例基于认知障碍检测所得的第一语音的认知障碍分类结果，可以应用到临床诊断中，作为医生进行阿尔茨海默症诊断的参考因素。此外，本发明实施例基于认知障碍检测所得的第一语音的认知障碍分类结果，还可以应用到病历质检中，将自动化分析得到的第一语音的认知障碍分类结果，与病历中记载的由医生诊断得到的患者阿尔茨海默症的结果进行比对，从而检验病历质量，本发明实施例对此不作具体限定。

基于上述实施例，步骤730包括：

步骤731，基于认知障碍分类模型，对所述第二语音的语音特征分别进行认知障碍状态评分和认知障碍类型分类，得到所述第二语音的得分回归结果和类型分类结果；

步骤732，基于所述得分回归结果和所述类型分类结果，确定所述第二语音的认知障碍分类结果；

所述认知障碍分类模型是基于得分回归和分类两个任务训练得到的。

具体地，本发明实施例中的认知障碍分类模型与上述语音分类方法中的语音分类模型对应，认知障碍分类模型的训练过程与语音分类模型的训练过程一致，此处不再赘述。

本发明实施例提供的方法，基于认知障碍分类模型，对第二语音的语音特征分别进行认知障碍状态评分和认知障碍类型分类，得到第二语音的得分回归结果和类型分类结果，再基于得分回归结果和类型分类结果，确定第二语音的认知障碍分类结果，认知障碍分类模型是基于得分回归和分类两个任务训练得到的，由此，通过得分回归和分类的损失函数控制认知障碍分类模型收敛，提高了认知障碍分类模型的预测的准确性和可靠性。

基于上述实施例，所述认知障碍分类模型的训练步骤包括：

获取初始模型，并获取样本语音，以及所述样本语音的认知障碍状态得分标签和认知障碍类型标签；

基于所述初始模型，对所述样本语音的语音特征分别进行认知障碍状态评分和认知障碍类型分类，得到所述样本语音的样本得分回归结果和样本类型分类结果；

基于所述样本得分回归结果和样本类型分类结果，以及所述认知障碍状态得分标签和认知障碍类型标签，对所述初始模型进行参数迭代，得到所述认知障碍分类模型。

具体地，本发明实施例中的认知障碍分类模型与上述语音分类方法中的语音分类模型对应，样本语音的认知障碍状态得分标签与上述语音分类方法中样本语音的语音状态得分标签对应，样本语音的认知障碍类型标签与上述语音分类方法中样本语音的语音类型标签对应，认知障碍状态评分与上述语音分类方法中语音状态评分对应，认知障碍类型分类与上述语音分类方法中语音类型分类对应，认知障碍分类模型的训练步骤与语音分类模型的训练步骤一致，此处不再赘述。

本发明实施例提供的方法，基于样本得分回归结果和样本类型分类结果，以及认知障碍状态得分标签和认知障碍类型标签，对初始模型进行参数迭代，得到认知障碍分类模型，提高了后续应用认知障碍分类模型对第二语音的语音特征分别进行认知障碍状态评分和认知障碍类型分类的准确性和可靠性。

基于上述实施例，步骤730包括：

基于所述样本得分回归结果与所述认知障碍状态得分标签间的差异，所述样本类型分类结果与所述认知障碍类型标签间的差异，以及所述样本得分回归结果与所述样本类型分类结果间的差异，对所述初始模型进行参数迭代，得到所述认知障碍分类模型。

具体地，因为阿尔兹海默症患者通常具有较低的MMSE得分，所以希望回归任务的结果和分类任务的结果具有较强的相关性，由此提高认知障碍分类模型的准确率。

本发明实施例中样本语音的认知障碍类型标签与上述语音分类方法中样本语音的语音类型标签对应，认知障碍状态评分与上述语音分类方法中语音状态评分对应，认知障碍分类模型的训练过程中使用的损失函数与上述语音分类模型的训练过程中使用的损失函数一致，此处不再赘述。

本发明实施例提供的方法，基于样本得分回归结果与认知障碍状态得分标签间的差异，样本类型分类结果与认知障碍类型标签间的差异，以及样本得分回归结果与样本类型分类结果间的差异，对初始模型进行参数迭代，得到认知障碍分类模型，由此，提高了认知障碍分类模型的认知障碍状态评分和认知障碍类型分类的准确性和可靠性。

基于上述实施例，步骤740包括：

基于所述第一语音的文本结构信息和/或所述第一语音的静音检测信息，对所述第一语音进行认知障碍分类，得到第一分类结果；

基于所述第二语音的认知障碍分类结果，以及所述第一分类结果，确定所述第一语音的认知障碍分类结果。

具体地，本发明实施例中确定第一语音的认知障碍分类结果的过程与上述语音分类方法中确定第一语音的分类结果的过程一致，此处不再赘述。

本发明实施例提供的方法，基于第一语音的文本结构信息和/或第一语音的静音检测信息，对第一语音进行认知障碍分类，得到第一分类结果，再基于第二语音的认知障碍分类结果，以及第一分类结果，确定第一语音的认知障碍分类结果，即采用多数投票原则确定第一语音的认知障碍分类结果，由此，提高了确定第一语音的认知障碍分类结果的准确性和可靠性，并且结合第一语音的文本结构信息和/或第一语音的静音检测信息的多模态信息，可以大幅提高认知障碍分类的准确率。

基于上述实施例，所述静音检测信息的确定步骤包括：

基于所述静音段的数量和/或时长，确定所述静音检测信息。

基于上述任一实施例，图8是本发明提供的认知障碍检测方法的流程示意图之二，如图8所示，该方法包括：

第一步，获取待分类的第一语音。

第二步，对第一语音进行低通滤波，得到滤除语言信息后的第一语音，作为第二语音。

第三步，基于认知障碍分类模型，对第二语音的语音特征分别进行认知障碍状态评分和认知障碍类型分类，得到第二语音的得分回归结果和类型分类结果。

此处，在对第二语音进行认知障碍状态评分和认知障碍类型分类之前，还可以基于语音特征提取模型，提取第二语音的语音特征，再基于第二语音的语音特征进行认知障碍状态评分和认知障碍类型分类，此处的语音特征提取模型可以是多语种wav2vec2模型，也可以是HuBERT（Hidden-Unit Bidirectional Encoder Representation fromTransformers）模型，还可以是WavLM模型等，本发明实施例对此不作具体限定。

此外，在得到第二语音的得分回归结果之后，还可以对得分回归结果进行0/1化，得到的最终的得分回归结果。

此处的认知障碍分类模型的训练步骤包括：

获取初始模型，并获取样本语音，以及样本语音的认知障碍状态得分标签和认知障碍类型标签；

基于初始模型，对样本语音的语音特征分别进行认知障碍状态评分和认知障碍类型分类，得到样本语音的样本得分回归结果和样本类型分类结果；

基于样本得分回归结果与认知障碍状态得分标签间的差异，样本类型分类结果与认知障碍类型标签间的差异，以及样本得分回归结果与样本类型分类结果间的差异，对初始模型进行参数迭代，得到认知障碍分类模型。

第四步，基于得分回归结果和类型分类结果，确定第二语音的认知障碍分类结果。

第五步，基于第一语音的文本结构信息和/或第一语音的静音检测信息，对第一语音进行认知障碍分类，得到第一分类结果。

此处，可以将第一语音的文本结构信息和第一语音的静音检测信息进行融合，并将融入后的特征输入分类器中，由分类器得到并输出第一分类结果。

此处的静音检测信息的确定步骤包括：

对第一语音进行静音检测，得到第一语音中的静音段；

基于静音段的数量和/或时长，确定静音检测信息。

第六步，基于第二语音的认知障碍分类结果，以及第一分类结果，确定第一语音的认知障碍分类结果。

下面对本发明提供的语音分类装置进行描述，下文描述的语音分类装置与上文描述的语音分类方法可相互对应参照。

基于上述任一实施例，本发明提供一种语音分类装置，图9是本发明提供的语音分类装置的结构示意图，如图9所示，该装置包括：

获取单元910，用于获取待分类的第一语音；

低通滤波单元920，用于对所述第一语音进行低通滤波，得到滤除语言信息后的第一语音，作为第二语音；

语音分类单元930，用于对所述第二语音进行语音分类，得到所述第二语音的分类结果；

确定分类结果单元940，用于基于所述第二语音的分类结果，确定所述第一语音的分类结果。

本发明实施例提供的装置，对第一语音进行低通滤波，得到滤除语言信息后的第一语音，作为第二语音，对第二语音进行语音分类，得到第二语音的分类结果，再基于第二语音的分类结果，确定第一语音的分类结果，从而使得无论是哪种语种的语音，都能进行语音分类，极大降低了基于较小众的语种的语音分类的执行门槛，有助于扩宽语音分类的应用范围。

基于上述任一实施例，语音分类单元930具体用于：

基于上述任一实施例，所述语音分类模型的训练步骤包括：

获取初始模型单元，用于获取初始模型，并获取样本语音，以及所述样本语音的语音状态得分标签和语音类型标签；

分类单元，用于基于所述初始模型，对所述样本语音的语音特征分别进行语音状态评分和语音类型分类，得到所述样本语音的样本得分回归结果和样本类型分类结果；

参数迭代单元，用于基于所述样本得分回归结果和样本类型分类结果，以及所述语音状态得分标签和语音类型标签，对所述初始模型进行参数迭代，得到所述语音分类模型。

基于上述任一实施例，参数迭代单元具体用于：

基于上述任一实施例，确定分类结果单元940具体用于：

基于上述任一实施例，所述静音检测信息的确定步骤包括：

基于所述静音段的数量和/或时长，确定所述静音检测信息。

下面对本发明提供的认知障碍检测装置进行描述，下文描述的认知障碍检测装置与上文描述的认知障碍检测方法可相互对应参照。

基于上述任一实施例，本发明提供一种认知障碍检测装置，图10是本发明提供的认知障碍检测装置的结构示意图，如图10所示，该装置包括：

获取第一语音单元1010，用于获取待分类的第一语音；

滤波单元1020，用于对所述第一语音进行低通滤波，得到滤除语言信息后的第一语音，作为第二语音；

认知障碍分类单元1030，用于对所述第二语音进行认知障碍分类，得到所述第二语音的认知障碍分类结果；

确定认知障碍分类结果单元1040，用于基于所述第二语音的认知障碍分类结果，确定所述第一语音的认知障碍分类结果。

本发明实施例提供的装置，对第一语音进行低通滤波，得到滤除语言信息后的第一语音，作为第二语音，对第二语音进行认知障碍分类，得到第二语音的认知障碍分类结果，再基于第二语音的认知障碍分类结果，确定第一语音的认知障碍分类结果，从而使得无论是哪种语种的语音，都能进行认知障碍分类，极大降低了基于较小众的语种的认知障碍检测的执行门槛，有助于扩宽认知障碍检测的应用范围。

图11示例了一种电子设备的实体结构示意图，如图11所示，该电子设备可以包括：处理器（processor）1110、通信接口（Communications Interface）1120、存储器（memory）1130和通信总线1140，其中，处理器1110，通信接口1120，存储器1130通过通信总线1140完成相互间的通信。处理器1110可以调用存储器1130中的逻辑指令，以执行语音分类方法，该方法包括：获取待分类的第一语音；对所述第一语音进行低通滤波，得到滤除语言信息后的第一语音，作为第二语音；对所述第二语音进行语音分类，得到所述第二语音的分类结果；基于所述第二语音的分类结果，确定所述第一语音的分类结果。

处理器1110还可以调用存储器1130中的逻辑指令，以执行认知障碍检测方法，该方法包括：获取待分类的第一语音；对所述第一语音进行低通滤波，得到滤除语言信息后的第一语音，作为第二语音；对所述第二语音进行认知障碍分类，得到所述第二语音的认知障碍分类结果；基于所述第二语音的认知障碍分类结果，确定所述第一语音的认知障碍分类结果。

此外，上述的存储器1130中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的语音分类方法，该方法包括：获取待分类的第一语音；对所述第一语音进行低通滤波，得到滤除语言信息后的第一语音，作为第二语音；对所述第二语音进行语音分类，得到所述第二语音的分类结果；基于所述第二语音的分类结果，确定所述第一语音的分类结果。

所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的认知障碍检测方法，该方法包括：获取待分类的第一语音；对所述第一语音进行低通滤波，得到滤除语言信息后的第一语音，作为第二语音；对所述第二语音进行认知障碍分类，得到所述第二语音的认知障碍分类结果；基于所述第二语音的认知障碍分类结果，确定所述第一语音的认知障碍分类结果。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的语音分类方法，该方法包括：获取待分类的第一语音；对所述第一语音进行低通滤波，得到滤除语言信息后的第一语音，作为第二语音；对所述第二语音进行语音分类，得到所述第二语音的分类结果；基于所述第二语音的分类结果，确定所述第一语音的分类结果。

该计算机程序被处理器执行时实现以执行上述各方法提供的认知障碍检测方法，该方法包括：获取待分类的第一语音；对所述第一语音进行低通滤波，得到滤除语言信息后的第一语音，作为第二语音；对所述第二语音进行认知障碍分类，得到所述第二语音的认知障碍分类结果；基于所述第二语音的认知障碍分类结果，确定所述第一语音的认知障碍分类结果。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语音分类方法，其特征在于，包括：

获取待分类的第一语音；

基于所述第二语音的分类结果，确定所述第一语音的分类结果；

所述对所述第二语音进行语音分类，得到所述第二语音的分类结果，包括：

2.根据权利要求1所述的语音分类方法，其特征在于，所述语音分类模型的训练步骤包括：

3.根据权利要求2所述的语音分类方法，其特征在于，所述基于所述样本得分回归结果和样本类型分类结果，以及所述语音状态得分标签和语音类型标签，对所述初始模型进行参数迭代，得到所述语音分类模型，包括：

4.根据权利要求1至3中任一项所述的语音分类方法，其特征在于，所述基于所述第二语音的分类结果，确定所述第一语音的分类结果，包括：

5.根据权利要求4所述的语音分类方法，其特征在于，所述静音检测信息的确定步骤包括：

基于所述静音段的数量和/或时长，确定所述静音检测信息。

6.一种认知障碍检测方法，其特征在于，包括：

获取待分类的第一语音；

基于所述第二语音的认知障碍分类结果，确定所述第一语音的认知障碍分类结果；

所述对所述第二语音进行认知障碍分类，得到所述第二语音的认知障碍分类结果，包括：

基于认知障碍分类模型，对所述第二语音的语音特征分别进行认知障碍状态评分和认知障碍类型分类，得到所述第二语音的得分回归结果和类型分类结果；

基于所述得分回归结果和所述类型分类结果，确定所述第二语音的认知障碍分类结果；

7.一种语音分类装置，其特征在于，包括：

获取单元，用于获取待分类的第一语音；

确定分类结果单元，用于基于所述第二语音的分类结果，确定所述第一语音的分类结果；

所述语音分类单元具体用于：

8.一种认知障碍检测装置，其特征在于，包括：

获取第一语音单元，用于获取待分类的第一语音；

确定认知障碍分类结果单元，用于基于所述第二语音的认知障碍分类结果，确定所述第一语音的认知障碍分类结果；

所述认知障碍分类单元具体用于：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5任一项所述语音分类方法，或实现如权利要求6所述的认知障碍检测方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述语音分类方法，或实现如权利要求6所述的认知障碍检测方法。