CN112086108B

CN112086108B - 认知障碍预测方法及电子设备、存储装置

Info

Publication number: CN112086108B
Application number: CN202010774495.9A
Authority: CN
Inventors: 徐飞扬; 张弢; 李鑫; 凌震华
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2020-08-04
Filing date: 2020-08-04
Publication date: 2023-04-04
Anticipated expiration: 2040-08-04
Also published as: CN112086108A

Abstract

本申请公开了一种认知障碍预测方法及电子设备、存储装置，其中，认知障碍预测方法包括：获取测试对象回答预设问题的语音数据；利用初始识别模型识别语音数据，得到初始文本；利用语音数据和初始文本进行初始预测，得到测试对象是否存在认知障碍的初始预测结果；基于初始预测结果，选择第一识别模型、第二识别模型中至少一者识别语音数据，得到最终文本；利用语音数据和最终文本进行最终预测，得到测试对象是否存在认知障碍的最终预测结果。上述方案，能够提高认知障碍预测的精度。

Description

认知障碍预测方法及电子设备、存储装置

技术领域

本申请涉及语音识别领域，特别是涉及一种认知障碍预测方法及电子设备、存储装置。

背景技术

认知障碍(如，阿尔兹海默症的重要表征)在临床上通常包含记忆障碍、视觉空间功能障碍、执行功能障碍等特征，故导致生活水平的急剧降低。因此，认知障碍的精确预测对于预防病情的恶化具有极其重大的意义。

然而，现有的预测方式往往存在精度较低的问题，从而对预防认知障碍造成影响。有鉴于此，如何提高认知障碍预测的精度成为亟待解决的问题。

发明内容

本申请主要解决的技术问题是提供一种认知障碍预测方法及电子设备、存储装置，能够确提高认知障碍预测的精度。

为了解决上述问题，本申请第一方面提供了一种认知障碍预测方法，包括：获取测试对象回答预设问题的语音数据；利用初始识别模型识别语音数据，得到初始文本；利用语音数据和初始文本进行初始预测，得到测试对象是否存在认知障碍的初始预测结果；基于初始预测结果，选择第一识别模型、第二识别模型中的至少一者识别语音数据，得到最终文本；利用语音数据和最终文本进行最终预测，得到测试对象是否存在认知障碍的最终预测结果；其中，初始识别模型是基于存在认知障碍和不存在认知障碍的训练数据得到的，第一识别模型是基于不存在认知障碍的训练数据得到的，第二识别模型是基于存在认知障碍的训练数据得到的。

为了解决上述问题，本申请第二方面提供了一种电子设备，包括相互耦接的存储器和处理器，存储器中存储有程序指令，处理器用于执行程序指令以实现上述第一方面中的认知障碍预测方法。

为了解决上述问题，本申请第三方面提供了一种存储装置，存储有能够被处理器运行的程序指令，程序指令用于实现上述第一方面中的认知障碍预测方法。

上述方案，通过获取预测对象回答预设问题的语音数据，并利用初始识别模型识别语音数据，得到初始文本，且初始识别模型是基于存在认知障碍和不存在认知障碍的训练数据得到的，并利用语音数据和初始文本进行初始预测，得到测试对象是否存在认知障碍的初始预测结果，从而基于初始预测结果，再次选择第一识别模型、第二识别模型中的至少一者识别语音数据，得到最终文本，且第一识别模型是基于不存在认知障碍的训练数据得到的，第二识别模型是基于存在认知障碍的训练数据得到的，从而利用语音数据和最终文本进行最终预测，得到测试对象是否存在认知障碍的最终预测结果。故此，能够基于一次预测的初始预测结果，自适应地选择与不存在认知障碍对应的第一识别模型、与存在认知障碍对应的第二识别模型中的至少一者再次识别语音数据，并进行二次预测，从而能够在认知障碍的预测过程中进行两次识别、预测，进而能够提高认知障碍预测的精度。

附图说明

图1是本申请认知障碍预测方法一实施例的流程示意图；

图2是图1中初始识别模型训练过程一实施例的状态示意图；

图3是图1中第一识别模型和第二识别模型训练过程一实施例的状态示意图；

图4是本申请认知障碍预测方法另一实施例的流程示意图；

图5是认知障碍预测方法一实施例的状态示意图；

图6是本申请电子设备一实施例的框架示意图；

图7是本申请存储装置一实施例的框架示意图。

具体实施方式

下面结合说明书附图，对本申请实施例的方案进行详细说明。

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、接口、技术之类的具体细节，以便透彻理解本申请。

本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。此外，本文中的“多”表示两个或者多于两个。

请参阅图1，图1是本申请认知障碍预测方法一实施例的流程示意图。具体而言，可以包括如下步骤：

步骤S11：获取测试对象回答预设问题的语音数据。

测试对象可以根据实际应用需要进行设置。在一个实施场景中，可以以年龄为维度，将属于预设年龄范围之内的目标人群中的对象，作为测试对象。具体地，预设年龄范围也可以根据实际应用需要进行设置，如可以将预设年龄范围设置为大于65周岁，即可以将目标人群设置为老年人。此外，预设年龄范围也可以设置为其他数值范围，例如，50周岁至65周岁、65周岁至75周岁等等，在此不做限定。在另一个实施场景中，还可以以同时结合年龄与性别，将属于预设年龄范围之内且为预设性别的目标人群中的对象，作为测试对象。预设年龄范围的设置方式可以参考前述描述，在此不再赘述。预设年龄可以根据实际应用需要，设置为男性或者女性，在此不做限定。在其他实施场景中，还可以设置其他维度，例如，地域范围(如，亚洲、美洲、欧洲等)、受教育程度(如，小学、初中、高中、本科等)等等，具体可以根据实际应用需要进行设置，在此不做限定。

预设问题可以包括但不限于：与看图说话任务相关的问题、与简易精神状态量表(Mini-mental State Examination，MMSE)相关的问题、与蒙特利尔认知评估基础量表(Montreal Cognitive Assessment Basic，MOCA-B)相关的问题、与词语流畅性测验(Verbal Fluency Test，VFT)相关的问题，与波士顿命名测验(Boston Naming Test，BNT)相关的问题。此外，预设问题还可以是认知障碍测试相关领域的专家根据实际情况所定制的问题，在此不做限定。

在一个具体的实施场景中，具体可以通过平板电脑、微型计算机、智能机器人等终端获取测试对象回答预设问题的语音数据。例如，上述终端在面向认知障碍筛查测试的过程中，可以将预设问题以文字显示、语音播报中的至少一者予以呈现，以便测试对象对预设问题进行回答，终端通过麦克风(如，领夹式麦克风、麦克风阵列)采集测试对象的语音数据，从而能够通过语音自助式地实现与测试对象进行交互，完成语音数据的采集。

步骤S12：利用初始识别模型识别语音数据，得到初始文本。

本公开实施例中，初始识别模型可以是基于存在认知障碍和不存在认知障碍的训练数据得到的。具体地，在利用初始识别模型识别语音数据之前，可以先采集上述训练数据，并利用上述训练数据对初始识别模型进行训练。

在一个实施场景中，训练数据具体可以包括样本语音数据以及与样本语音数据对应的样本文本。具体地，在对测试对象进行认知障碍预测过程中，可以先获取与测试对象相关的样本采集对象回答预设问题的语音数据，作为样本语音数据，并对样本语音数据进行转写，得到与样本语音数据对应的样本文本。

在一个具体的实施场景中，为了提高初始识别模型的准确性，与测试对象相关的样本采集对象属于同一目标人群，例如，测试对象为老年人，则样本采集对象也为老年人。通过上述设置，可以进一步提高初始识别模型对于目标人群的针对性，提高对目标人群进行语音识别的准确性，进而有利于提高后续认知障碍预测的准确性。

在另一个具体的实施场景中，样本采集对象中具体可以包括存在认知障碍的对象和不存在认知障碍的对象。

在又一个具体的实施场景中，在采集得到样本语音数据之后，可以利用人工转写的方式，得到与样本语音数据对应的样本文本。

在又一个具体的实施场景中，训练数据还可以进一步标注有是否存在认知障碍，上述标注表示与训练数据对应的样本采集对象是否具有认知障碍。具体地，可以通过专家会诊的方式确定样本采集对象是否具有认知障碍。

在又一个具体的实施场景中，为了提高初始识别模型的准确性，还可以对采集得到的样本语音数据进行预处理，预处理的操作可以包括以下至少一者：剔除无效声段、降低背景噪声、音量归一化。具体地，直接对样本采集对象采集得到的样本语音数据可能包含了较多的噪声、无效声段(如静音段)等等，故可以通过语音活性检测(Voice activitydetection，VAD)方式定位语音开始点和结束点，分离出语音段和非语音段，从而可以剔除无效声段，并利用数据降噪增强方式滤除非人声的低频信号，从而可以降低背景噪声，以及对语音信号进行音量归一化处理，具体在此不再赘述。

在另一个实施场景中，初始识别模型是利用存在认知障碍和不存在认知障碍的训练数据对预设识别模型进行训练得到的。具体地，预设识别模型可以是一通用识别模型，该通用识别模型可以基于通用样本语音数据(具体可以包含各年龄阶段的数据)训练得到。请结合参阅图2，图2是图1中初始识别模型训练过程一实施例的状态示意图，如图2所示，该通用识别模型具体可以包括通用声学模型和通用语言模型，从而利用上述包含存在认知障碍和不存在认知障碍的训练数据(如，老年人的训练数据)对通用识别模型进行重新训练，得到初始识别模型。具体地，在声学模型方面，可以比较分析DNN-HMM(Deep Neural NetworkHidden Markov Model，深度神经网络-隐形马尔可夫模型)、LSTM-HMM(Long-Short TermMemory Hidden Markov Model，长短期记忆网络-隐形马尔可夫模型)等已有混合模型对训练数据(如，老年人的训练数据)的识别性能，结合性能最好的模型框架和训练数据(如，老年人的训练数据)，调整通用识别模型的声学模型的至少部分参数，得到初始识别模型中的初始声学模型；而在语音模型方面，可以基于训练数据(如，老年人的训练数据)，调整通用识别模型的语言模型的至少部分参数，得到初始识别模型中的初始语言模型。通过上述设置，可以利用训练数据对预设识别模型进行参数微调，即可得到初始识别模型，从而能够提高模型训练效率，且通过对训练数据所属目标人群(如，老年人)的设置，能够使得训练得到的初始识别模型能够适应于目标人群(如，老年人)的语音特点，从而能够有利于提高对同属于该目标人群(如，老年人)语音识别准确性。

在又一个实施场景中，为了提高语音识别的准确性，在利用初始识别模型识别语音数据，得到初始文本之前，还可以对对语音数据进行预处理，且预处理的操作包括以下至少一者：剔除无效声段、降低背景噪声、音量归一化。具体可以参阅前述描述，在此不再赘述。

步骤S13：利用语音数据和初始文本进行初始预测，得到测试对象是否存在认知障碍的初始预测结果。

在一个实施场景中，可以分别对语音数据和初始文本进行特征提取，得到语音数据的声学特征、初始文本的文本特征，从而结合声学特征和文本特征进行初始预测，得到测试对象是否存在认知障碍的初始预测结果。通过上述设置，融合声学特征和文本特征进行初始预测，能够有利于提高初始预测结果的准确性。

在一个具体的实施场景中，在声学特征方面，可以通过语音帧、音节、短语和句子等多个层面的声学特征提取。具体地，可以在语音帧层面提取反映短时语音产生过程的声源激励与声道滤波器特征，具体可以包括但不限于：清浊分类、基频、音质特征、非周期成分比例、频谱倾斜、倒谱、对数幅度谱等，具体可以根据实际应用需要进行设置，在此不做限定；而在音节层面，可以提取反映语音局部特性的声学特征，包括但不限于：音节时长、音节内基频/频谱等帧级特征的起始值/终止值/最大值/最小值等，具体可以根据实际应用需要进行设置，在此不做限定；而在短语和句子层面，可以提取语音信号的超音段与长时声学特征，包括但不限于：语速、短语语调、长时平均基频/频谱特征等，具体可以根据实际应用需要进行设置，在此不做限定。

在另一个具体的实施场景中，在文本特征方面，可以通过词汇、句法、语义三个层面的文本特征提取。具体地，可以在词汇层面，提取初始文本中的词频、词性比例等特征，进一步计算初始文本中的词汇丰富度指标和困惑度指标，其中困惑度指标可以基于前述语言模型计算，用于反映测试对象用词的可预测性；在句法层面，可以利用句法分析器提取初始文本的句法结构与置信度得分，反映测试对象句法合理性；而在语义层面，可以采用词嵌入和卷积神经网络(Convolutional Neural Network，CNN)、LSTM-RNN(Long Short TermMemory Recurrent Neural Network，长短时记忆网络-循环神经网络)、Tree-LSTM(树形长短时记忆网络)等神经网络模型对词汇和句子层面的语义信息进行表达，提取反映预设问题与测试对象回答之间以及测试对象前后语句之间的语义关联性度量。

在另一个实施场景中，在初始预测之前，可以训练一预测模型，从而可以直接将语音数据和初始文本输入预测模型，利用预测模型对语音数据和初始文本进行初始预测，得到测试对象是否存在认知障碍的初始预测结果。通过上述设置，利用预测模型进行是否存在认知障碍的预测，能够提高预测效率。

在一个具体实施场景中，可以分别对语音数据和初始文本进行特征提取，得到语音数据的声学特征、初始文本的文本特征，从而将语音数据的声学特征、初始文本的文本特征输入预测模型，得到测试对象是否存在认知障碍的初始预测结果。提取声学特征和文本特征的具体方式，可以参阅前述描述，在此不再赘述。

在又一个实施场景中，预测模型具体可以是利用标注有是否存在认知障碍的训练数据训练得到的。训练数据的标注方式可以参阅前述描述，在此不再赘述。具体地，可以提取训练数据中样本语音数据的样本声学特征，并提取训练数据中与样本语音数据对应的样本文本的样本文本特征，从而将样本声学特征和样本文本特征输入预测模型进行预测，得到训练数据是否存在认知障碍的预测结果，进而可以基于训练数据是否存在认知障碍的标注结果和预测结果之间的差异(如，可以利用二分类交叉熵损失等方式计算差异)，调整预测模型的网络参数，直至满足预设训练结束条件为止。提取样本声学特征和样本文本特征的具体方式，具体可以参阅前述关于提取声学特征和提取文本特征的相关描述，在此不再赘述。

在一个实施场景中，初始预测结果具体可以包括以下任一者：测试对象存在认知障碍，测试对象不存在认知障碍；或者，初始预测结果还可以具体包括：测试对象存在认知障碍的概率、测试对象不存在认知障碍的概率，具体地，存在认知障碍的概率和不存在认知障碍的概率之和为1。

步骤S14：基于初始预测结果，选择第一识别模型、第二识别模型中的至少一者识别语音数据，得到最终文本。

本公开实施例中，第一识别模型是基于不存在认知障碍的训练数据得到的，第二识别模型是基于存在认知障碍的训练数据得到的。具体地，请结合参阅图3，图3是图1中第一识别模型和第二识别模型训练过程一实施例的状态示意图，如图3所示，第一识别模型是利用不存在认知障碍的训练数据对预设识别模型进行训练得到的，故第一识别模型可以认为是适用于不存在认知障碍的情况对应的识别模型，第二识别模型是利用存在认知障碍的训练数据对第一识别模型进行训练得到的，故第二识别模型可以认为是适用于存在认知障碍的情况对应的识别模型。具体训练过程，可以参阅前述关于初始识别模型的训练步骤，在此不再赘述。

在一个实施场景中，初始预测结果具体可以包括以下任一者：测试对象存在认知障碍，测试对象不存在认知障碍，在测试结果表示测试对象不存在认知障碍时，可以选择第一识别模型识别语音数据，得到最终文本，在测试结果表示存在认知障碍时，可以选择第二识别模型识别语音数据，得到最终文本。

在另一个实施场景中，初始预测结果具体可以包括：测试对象不存在认知障碍的第一初始概率值和存在认知障碍的第二初始概率值，从而可以基于第一初始概率值和第二初始概率值的大小关系，选择第一识别模型、第二识别模型中的至少一者识别语音数据，得到最终识别文本。具体在此暂不赘述。

通过上述设置，可以基于初始预测结果，自适应地从第一识别模型、第二识别模型中选择与初始预测结果更加匹配的识别模型识别语音数据，从而能够有利于提高语音识别准确性，有利于后续最终预测的准确性。

步骤S15：利用语音数据和最终文本进行最终预测，得到测试对象是否存在认知障碍的最终预测结果。

在一个实施场景中，可以分别对语音数据和最终文本进行特征提取，得到语音数据的声学特征、最终文本的文本特征，从而结合声学特征和文本特征进行最终预测，得到测试对象是否存在认知障碍的最终预测结果。通过上述设置，融合声学特征和文本特征进行最终预测，能够有利于提高初始预测结果的准确性。具体地，声学特征和文本特征的提取方式可以参阅前述相关描述，在此不再赘述。

在另一个实施场景中，还可以直接将语音数据和最终文本输入预测模型，利用预测模型对语音数据和最终文本进行最终预测，得到测试对象是否存在认知障碍的最终预测结果。通过上述设置，利用预测模型进行是否存在认知障碍的预测，能够提高预测效率。此外，还可以分别对语音数据和最终文本进行特征提取，得到语音数据的声学特征、最终文本的文本特征，从而将语音数据的声学特征、最终文本的文本特征输入预测模型，得到测试对象是否存在认知障碍的初始预测结果。预测模型的训练方式具体可以参阅前述相关描述，在此不再赘述。

在一个实施场景中，最终预测结果具体可以包括以下任一者：测试对象存在认知障碍，测试对象不存在认知障碍；或者，最终预测结果还可以具体包括：测试对象存在认知障碍的概率、测试对象不存在认知障碍的概率，具体地，存在认知障碍的概率和不存在认知障碍的概率之和为1。

请参阅图4，图4是本申请认知障碍预测方法另一实施例的流程示意图。具体而言，可以包括如下步骤：

步骤S41：获取测试对象回答预设问题的语音数据。

请结合参阅图5，图5是认知障碍预测方法一实施例的状态示意图。在对测试对象进行认知障碍预测时，可以先获取测试对象回答预设问题的语音数据。具体可以参阅前述实施例中的相关步骤，在此不再赘述。

步骤S42：利用初始识别模型识别语音数据，得到初始文本。

本公开实施例中，初始识别模型是基于存在认知障碍和不存在认知障碍的训练数据得到的。具体可以参阅前述实施例中的相关描述，在此不再赘述。

请继续结合参阅图5，在一个实施场景中，为了提高语音识别的准确性，还可以在利用初始识别模型识别语音数据，得到初始文本之前，对语音数据进行预处理，且预处理的操作包括以下至少一者：剔除无效声段、降低背景噪声、音量归一化。剔除无效声段、降低背景噪声以及音量归一化的具体过程可以参阅前述实施例中的相关描述，在此不再赘述。

具体可以参阅前述实施例中的相关步骤，在此不再赘述。

步骤S43：对语音数据和初始文本进行特征提取，得到初始特征。

请结合参阅图5，在得到初始文本之后，可以对语音数据和初始文本进行特征提取，得到初始特征。具体地，可以对语音数据进行特征提取，得到语音数据的初始声学特征，并对初始文本进行特征提取，得到初始文本的初始文本特征。具体提取方式可以参阅前述实施例中的相关描述，在此不再赘述。

步骤S44：利用初始特征进行初始预测，得到测试对象不存在认知障碍的第一初始概率值和存在认知障碍的第二初始概率值。

本公开实施例中，初始预测结果包括：测试对象不存在认知障碍的第一初始概率值和存在认知障碍的第二初始概率值。

请结合参阅图5，在一个实施场景中，为了提高预测效率，还可以预先训练一预测模型，从而可以利用预测模型对初始特征进行初始预测，得到测试对象不存在认知障碍的第一初始概率值和存在认知障碍的第二初始概率值。预测模型的具体训练过程，可以参阅前述实施例中的相关描述，在此不再赘述。

步骤S45：基于初始预测结果，选择第一识别模型、第二识别模型中的至少一者识别语音数据，得到最终文本。

本公开实施例中，第一识别模型是基于不存在认知障碍的训练数据得到的，第二识别模型是基于存在认知障碍的训练数据得到的。

具体地，可以基于第一初始概率值和第二初始概率值的大小关系，选择第一识别模型、第二识别模型中的至少一者识别语音数据，得到最终文本。上述大小关系具体可以包括以下任一者：第一初始概率值大于第二初始概率值、第一初始概率值小于第二初始概率值、第一初始概率值等于第二初始概率值。

在一个实施场景中，若第一初始概率值大于第二初始概率值，则可以选择第一识别模型识别语音数据，得到第一最终文本。由于第一初始概率值大于第二初始概率值，故可以认为初始预测结果表示，测试对象不存在认知障碍的可能性比较大，故可以选择与不存在认知障碍对应的第一识别模型对语音数据进行再次识别，得到第一最终文本，能够有利于提高语音识别的准确性，从而能够有利于提高后续最终预测的准确性。

在另一个实施场景中，若第一初始概率值小于第二初始概率值，则可以选择第二识别模型识别语音数据，得到第二最终文本。由于第一初始概率值小于第二初始概率值，故可以认为初始预测结果表示，测试对象存在认知障碍的可能性比较大，故可以选择与存在认知障碍对应的第二识别模型对语音数据进行再次识别，得到第二最终文本，能够有利于提高语音识别的准确性，从而能够有利于提高后续最终预测的准确性。

在又一个实施场景中，若第一初始概率值和第二初始概率值相等，则可以采用第一识别模型识别语音数据，得到第一最终文本，并采用第二识别模型识别语音数据，得到第二最终文本。由于第一初始概率值等于第二初始概率值，故可以认为初始预测结果无法确定测试对象存在认知障碍的可能性大，还是不存在认知障碍的可能性大，则利用与不存在认知障碍对应的第一识别模型对语音数据进行再次识别，得到第一最终文本，并利用与存在认知障碍对应的第二识别模型对语音数据进行再次识别，得到第二最终文本，从而利用第一最终文本和第二最终文本进行最终预测，能够有利于提高语音识别的准确性，从而能够有利于提高后续最终预测的准确性。

步骤S46：对语音数据和最终文本进行特征提取，得到最终特征。

具体地，可以对语音数据进行特征提取，得到语音数据的最终声学特征，并对最终文本进行特征提取，得到最终文本的最终文本特征。具体提取方式可以参阅前述实施例中的相关描述，在此不再赘述。

请结合参阅图5，在一个实施场景中，当第一初始概率值大于第二初始概率值时，利用第一识别模型识别语音数据，得到第一最终文本，从而对第一最终文本和语音数据进行特征提取得到第一最终特征。具体地，第一最终特征可以包括：对语音数据进行特征得到的最终声学特征和对第一最终文本进行特征提取得到的第一最终文本特征。

请结合参阅图5，在另一个实施场景中，当第一初始概率值小于第二初始概率值时，利用第二识别模型识别语音数据，得到第二最终文本，从而对第二最终文本和语音数据进行特征提取得到第二最终特征。具体地，第二最终特征可以包括：对语音数据进行特征提取得到的最终声学特征和对第一最终文本进行特征提取得到的第二最终文本特征。

请继续结合参阅图5，在又一个实施场景中，当第一初始概率值等于第二初始概率值时，利用第一识别模型识别语音数据，得到第一最终文本，并利用第二识别模型识别语音数据，得到第二最终文本，从而对第一最终文本和语音数据进行特征提取得到第一最终特征，并对第二最终文本和语音数据进行特征提取得到第二最终特征。具体地，第一最终特征可以包括：对语音数据进行特征得到的最终声学特征和对第一最终文本进行特征提取得到的第一最终文本特征，第二最终特征可以包括：对语音数据进行特征提取得到的最终声学特征和对第一最终文本进行特征提取得到的第二最终文本特征。

步骤S47：基于第一初始概率值和第二初始概率值的大小关系，利用第一初始概率值和第二初始概率值对初始特征和最终特征进行加权处理，得到加权特征。

请结合参阅图5，在一个实施场景中，在第一初始概率值大于第二初始概率值的情况下，利用第一初始概率值和第二初始概率值分别对第一最终特征和初始特征进行加权处理，得到加权特征。故此，在测试对象不存在认知障碍的情况下，利用与不存在认知障碍对应的第一识别模型识别语音数据，可以进一步提升第一最终特征的精度，且由于第一初始概率值大于第二初始概率值，能够在加权特征中凸出第一最终特征，进而进一步提高加权特征的精度，从而进一步提升后续最终预测不存在认知障碍的概率值；反之，在测试对象存在认知障碍的情况下，利用与不存在认知障碍对应的第一识别模型识别语音数据，可以进一步降低第一最终特征的精度，且由于第一初始概率值大于第二初始概率值，能够在加权特征中凸出第一最终特征，进而进一步降低加权特征的精度，进而进一步降低后续最终预测不存在认知障碍的概率值，即提高后续最终预测存在认知障碍的概率值。故此，无论测试对象是否存在认知障碍，在第一初始概率值大于第二初始概率值的情况下，利用第一初始概率值和第二初始概率值分别对第一最终特征和初始特征进行加权处理，均能够提高后续最终预测的准确性。具体地，在加权处理的过程中，可以利用第一初始概率值和第二初始概率值分别对最终声学特征和初始声学特征进行加权处理，得到加权声学特征，并利用第一初始概率值和第二初始概率值分别对第一最终文本特征和初始文本特征进行加权处理，得到加权文本特征，即加权特征可以具体包括加权声学特征和加权文本特征。

请结合参阅图5，在另一个实施场景中，在第一初始概率值小于第二初始概率值的情况下，利用第一初始概率值和第二初始概率值分别对初始特征和第二最终特征进行加权处理，得到加权特征。故此，在测试对象存在认知障碍的情况下，利用与存在认知障碍对应的第二识别模型识别语音数据，可以进一步提升第二最终特征的精度，且由于第二初始概率值大于第一初始概率值，能够在加权特征中凸出第二最终特征，进而进一步提高加权特征的精度，从而进一步提升后续最终预测存在认知障碍的概率值；反之，在测试对象不存在认知障碍的情况下，利用与存在认知障碍的第二识别模型识别语音数据，可以进一步降低第二最终特征的精度，且由于爹初始概率值大于第一初始概率值，能够在加权特征中凸出第二最终特征，进而进一步降低加权特征的精度，从而进一步降低后续最终预测存在认知障碍的概率值，即提高后续最终预测不存在认知障碍的概率值。故此，无论测试对象是否存在认知障碍，在第一初始概率值小于第二初始概率值的情况下，利用第一初始概率值和第二初始概率值分别对初始特征和第二最终特征进行加权处理，均能够提高后续最终预测的准确性。具体地，可以利用第一初始概率值和第二初始概率值分别对初始声学特征和最终声学特征进行加权处理，得到加权声学特征，并利用第一初始概率值和第二初始概率值分别对初始文本特征和第二最终文本特征进行加权处理，得到加权文本特征，即加权特征可以具体包括加权声学特征和加权文本特征。

请结合参阅图5，在又一个实施场景中，在第一初始概率值等于第二初始概率值的情况下，利用第一初始概率值和第二初始概率值分别对第一最终特征和第二最终特征进行加权处理，得到加权特征。故此，在测试对象不存在认知障碍的情况下，利用与不存在认知障碍对应的第一识别模型对语音数据进行识别，可以进一步提升第一最终特征的精度，而利用与存在认知障碍对应的第二识别模型对语音数据进行识别，可以进一步降低第二最终特征的精度，从而进一步提升后续最终预测不存在认知障碍的概率值，并进一步降低后续最终预测存在认知障碍的概率值；反之，在测试对象存在认知障碍的情况下，利用与不存在认知障碍对应的第一识别模型对语音数据进行识别，可以进一步降低第一最终特征的精度，而利用与存在认知障碍对应的第二识别模型对语音数据进行识别，可以进一步提高第二最终特征的精度，从而进一步降低后续最终预测不存在认知障碍的概率值，并进一步提高后续最终预测存在认知障碍的概率值。故此，无论测试对象是否存在认知障碍，在第一初始概率值等于第二初始概率值的情况下，利用第一初始概率值和第二初始概率值分别对第一最终特征和第二最终特征进行加权处理，均能够提高后续最终预测的准确性。具体地，可以利用第一初始概率值和第二初始概率值分别对第一最终文本特征和第二最终文本特征进行加权处理，得到加权文本特征，即加权特征可以具体包括最终声学特征和加权文本特征。

步骤S48：对加权特征进行最终预测，得到最终预测结果。

请结合参阅图5，在一个实施场景中，为了提高预测效率，还可以预先训练一预测模型，从而可以利用预测模型对加权特征进行最终预测，得到测试对象不存在认知障碍的第一最终概率值和存在认知障碍的第二最终概率值。预测模型的具体训练过程，可以参阅前述实施例中的相关描述，在此不再赘述。

区别于前述实施例，通过获取测试对象回答预设问题的语音数据，并利用初始识别模型识别语音数据，得到初始文本，对语音数据和初始文本进行特征提取，得到初始特征，从而利用初始特征进行初始预测，得到测试对象不存在认知障碍的第一初始概率值和存在认知障碍的第二初始概率值，并基于初始预测结果，选择第一识别模型、第二识别模型中的至少一者识别语音数据，得到最终文本，并对语音数据和最终文本进行特征提取，得到最终特征，从而基于第一初始概率值和第二初始概率值的大小关系，利用第一初始概率值和第二初始概率值对初始特征和最终特征进行加权处理，得到加权特征，进而对加权特征进行最终预测，得到最终预测结果，故此，能够在整个预测障碍过程中实现二次识别，并基于初始预测结果，自适应地选择第一识别模型、第二识别模型进行语音识别，从而能够有利于提升语音识别的准确性，并能够基于初始预测的概率值对初始特征、最终特征进行加权处理，能够有利于进一步提升最终预测的准确性。

请参阅图6，图6是本申请电子设备60一实施例的框架示意图。电子设备60包括相互耦接的存储器61和处理器62，所述存储器61中存储有程序指令，所述处理器62用于执行所述程序指令以实现上述任一认知障碍预测方法实施例中的步骤。

具体而言，处理器62用于控制其自身以及存储器61以实现上述任一认知障碍预测方法实施例中的步骤。处理器62还可以称为CPU(Central Processing Unit，中央处理单元)。处理器62可能是一种集成电路芯片，具有信号的处理能力。处理器62还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器62可以由多个集成电路芯片共同实现。

本实施例中，处理器62用于获取测试对象回答预设问题的语音数据；处理器62用于利用初始识别模型识别语音数据，得到初始文本；处理器62用于利用语音数据和初始文本进行初始预测，得到测试对象是否存在认知障碍的初始预测结果；处理器62用于基于初始预测结果，选择第一识别模型、第二识别模型中的至少一者识别语音数据，得到最终文本；处理器62用于利用语音数据和最终文本进行最终预测，得到测试对象是否存在认知障碍的最终预测结果；其中，初始识别模型是基于存在认知障碍和不存在认知障碍的训练数据得到的，第一识别模型是基于不存在认知障碍的训练数据得到的，第二识别模型是基于存在认知障碍的训练数据得到的。

在一些实施例中，初始预测结果包括：测试对象不存在认知障碍的第一初始概率值和存在认知障碍的第二初始概率值，处理器62基于第一初始概率值和第二初始概率值的大小关系，选择第一识别模型、第二识别模型中的至少一者识别语音数据，得到最终文本。

区别于前述实施例，基于第一初始概率值和第二初始概率值的大小关系，选择第一识别模型、第二识别模型中的至少一者识别语音数据，得到最终文本，能够自适应地选择第一识别模型、第二识别模型进行二次语音识别，从而能够有利于提高语音识别准确性。

在一些实施例中，处理器62还用于在第一初始概率值大于第二初始概率值时，采用第一识别模型识别语音数据，得到第一最终文本；处理器62还用于在第一初始概率值小于第二初始概率值时，采用第二识别模型识别语音数据，得到第二最终文本；处理器62还用于在第一初始概率值等于第二初始概率值时，采用第一识别模型识别语音数据，得到第一最终文本，并采用第二识别模型识别语音数据，得到第二最终文本。

区别于前述实施例，在第一初始概率值大于第二初始概率值时，采用第一识别模型识别语音数据，得到第一最终文本，并在第一初始概率值小于第二初始概率值时，采用第二识别模型识别语音数据，得到第二最终文本，在第一初始概率值等于第二初始概率值时，采用第一识别模型识别语音数据，得到第一最终文本，并采用第二识别模型识别语音数据，得到第二最终文本，能够自适应地选择第一识别模型、第二识别模型进行二次语音识别，从而能够有利于提高语音识别准确性。

在一些实施例中，处理器62还用于对语音数据和初始文本进行特征提取，得到初始特征；处理器62还用于利用初始特征进行初始预测，得到测试对象不存在认知障碍的第一初始概率值和存在认知障碍的第二初始概率值；处理器62还用于对语音数据和最终文本进行特征提取，得到最终特征，处理器62还用于基于第一初始概率值和第二初始概率值的大小关系，利用第一初始概率值和第二初始概率值对初始特征和最终特征进行加权处理，得到加权特征，处理器62还用于对加权特征进行最终预测，得到最终预测结果。

区别于前述实施例，能够在整个预测障碍过程中实现二次识别，并基于初始预测结果，自适应地选择第一识别模型、第二识别模型进行语音识别，从而能够有利于提升语音识别的准确性，并能够基于初始预测的概率值对初始特征、最终特征进行加权处理，能够有利于进一步提升最终预测的准确性。

在一些实施例中，处理器62还用于在第一初始概率值大于第二初始概率值的情况下，利用第一初始概率值和第二初始概率值分别对第一最终特征和初始特征进行加权处理，得到加权特征；其中，第一最终特征是对第一最终文本和语音数据进行特征提取得到的，第一最终文本是利用第一识别模型对语音数据进行识别得到的；处理器62还用于在第一初始概率值小于第二初始概率值的情况下，利用第一初始概率值和第二初始概率值分别对初始特征和第二最终特征进行加权处理，得到加权特征；其中，第二最终特征是对第二最终文本和语音数据进行特征提取得到的，第二最终文本是利用第二识别模型对语音数据进行识别得到的；处理器62还用于在第一初始概率值等于第二初始概率值的情况下，利用第一初始概率值和第二初始概率值分别对第一最终特征和第二最终特征进行加权处理，得到加权特征。

区别于前述实施例，在第一初始概率值和第二初始概率值具有不同的大小关系，采用不同的加权方式对初始特征、最终特征进行加权处理，能够在测试对象存在认知障碍和不存在认知障碍的情况下，均能够提高后续最终预测的准确性。

在一些实施例中，初始识别模型是利用存在认知障碍和不存在认知障碍的训练数据对预设识别模型进行训练得到的，第一识别模型是利用不存在认知障碍的训练数据对预设识别模型进行训练得到的，第二识别模型是利用存在认知障碍的训练数据对第一识别模型进行训练得到的。

区别于前述实施例，初始识别模型设置为利用存在认知障碍的不存在认知障碍的训练数据对预设识别模型训练得到，能够有利于提高初始识别模型对存在认知障碍和不存在认知障碍进行语音识别的全面性；第一识别模型设置为利用不存在认知障碍的训练数据对预设识别模型进行训练得到，且第二识别模型设置为利用存在障碍的训练数据对第一识别模型进行训练得到，能够有利于训练得到分别与不存在认知障碍对应的第一识别模型，以及与存在认知障碍对应的第二识别模型，且通过利用不同的训练数据对预设识别模型、第一识别模型、第二识别模型逐步训练，能够有利于降低模型训练复杂度。

在一些实施例中，处理器62还用于在利用初始识别模型识别语音数据，得到初始文本之前，方法还包括：对语音数据进行预处理；其中，预处理的操作包括以下至少一者：剔除无效声段、降低背景噪声、音量归一化。

区别于前述实施例，在利用初始识别模型识别语音数据，得到初始文本之前，对语音数据进行预处理，且预处理的操作包括以下至少一者：剔除无效声段、降低背景噪声、音量归一化，能够有利于提高语音识别的准确性。

在一些实施例中，测试对象属于预设年龄范围之内的目标人群，训练数据为对目标人群进行数据采集得到的；和/或，训练数据包括样本语音数据以及与样本语音数据对应的样本文本；和/或，初始预测和最终预测是利用预测模型执行的，预测模型是利用标注有是否存在认知障碍的训练数据训练得到的。

区别于前述实施例，将测试对象设置为属于预设年龄范围之内的目标人群，训练数据设置为对目标人群进行数据采集得到的，能够有利于针对预设年龄范围之内的目标人群实现认知障碍预测；通过将训练数据设置为包括样本语音数据和与样本语音数据对应的样本文本，能够有利于从语音和文本两个维度进行预测，从而能够有利于提高认知障碍预测的准确性；通过将初始预测和最终预测设置为利用预测模型执行，且预测模型是利用标注有是否存在认知障碍的训练数据训练得到，能够有利于提高认知障碍预测效率。

请参阅图7，图7是本申请存储装置70一实施例的框架示意图。存储装置70存储有能够被处理器运行的程序指令701，程序指令701用于实现上述任一认知障碍预测方法实施例中的步骤。

上述方案，能够提高认知障碍预测的精度。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种认知障碍预测方法，其特征在于，包括：

获取测试对象回答预设问题的语音数据；

利用初始识别模型识别所述语音数据，得到初始文本；

利用所述语音数据和所述初始文本进行初始预测，得到所述测试对象是否存在认知障碍的初始预测结果；

基于所述初始预测结果，选择第一识别模型、第二识别模型中的至少一者识别所述语音数据，得到最终文本；

利用所述语音数据和所述最终文本进行最终预测，得到所述测试对象是否存在认知障碍的最终预测结果；

其中，所述初始识别模型是基于存在认知障碍和不存在认知障碍的训练数据得到的，所述第一识别模型是基于不存在认知障碍的训练数据得到的，所述第二识别模型是基于存在认知障碍的训练数据得到的。

2.根据权利要求1所述的方法，其特征在于，所述初始预测结果包括：所述测试对象不存在认知障碍的第一初始概率值和存在认知障碍的第二初始概率值；所述基于所述初始预测结果，选择第一识别模型、第二识别模型中的至少一者识别所述语音数据，得到最终文本，包括：

基于所述第一初始概率值和所述第二初始概率值的大小关系，选择第一识别模型、第二识别模型中的至少一者识别所述语音数据，得到所述最终文本。

3.根据权利要求2所述的方法，其特征在于，所述基于所述第一初始概率值和所述第二初始概率值的大小关系，选择第一识别模型、第二识别模型中的至少一者识别所述语音数据，得到所述最终文本，包括：

若所述第一初始概率值大于所述第二初始概率值，则采用所述第一识别模型识别所述语音数据，得到第一最终文本；

若所述第一初始概率值小于所述第二初始概率值，则采用所述第二识别模型识别所述语音数据，得到第二最终文本；

若所述第一初始概率值等于所述第二初始概率值，则采用所述第一识别模型识别所述语音数据，得到所述第一最终文本，并采用所述第二识别模型识别所述语音数据，得到所述第二最终文本。

4.根据权利要求1所述的方法，其特征在于，所述利用所述语音数据和所述初始文本进行初始预测，得到所述测试对象是否存在认知障碍的初始预测结果，包括：

对所述语音数据和所述初始文本进行特征提取，得到初始特征；

利用所述初始特征进行初始预测，得到所述测试对象不存在认知障碍的第一初始概率值和存在认知障碍的第二初始概率值；

所述利用所述语音数据和所述最终文本进行最终预测，得到所述测试对象是否存在认知障碍的最终预测结果，包括：

对所述语音数据和所述最终文本进行特征提取，得到最终特征；

基于所述第一初始概率值和所述第二初始概率值的大小关系，利用所述第一初始概率值和所述第二初始概率值对所述初始特征和所述最终特征进行加权处理，得到加权特征；

对所述加权特征进行最终预测，得到所述最终预测结果。

5.根据权利要求4所述的方法，其特征在于，所述基于所述第一初始概率值和所述第二初始概率值的大小关系，利用所述第一初始概率值和所述第二初始概率值对所述初始特征和所述最终特征进行加权处理，得到加权特征，包括：

在所述第一初始概率值大于所述第二初始概率值的情况下，利用所述第一初始概率值和所述第二初始概率值分别对第一最终特征和所述初始特征进行加权处理，得到所述加权特征；其中，所述第一最终特征是对第一最终文本和所述语音数据进行特征提取得到的，所述第一最终文本是利用所述第一识别模型对所述语音数据进行识别得到的；

在所述第一初始概率值小于所述第二初始概率值的情况下，利用所述第一初始概率值和所述第二初始概率值分别对所述初始特征和第二最终特征进行加权处理，得到所述加权特征；其中，所述第二最终特征是对第二最终文本和所述语音数据进行特征提取得到的，所述第二最终文本是利用第二识别模型对所述语音数据进行识别得到的；

在所述第一初始概率值等于所述第二初始概率值的情况下，利用所述第一初始概率值和所述第二初始概率值分别对所述第一最终特征和所述第二最终特征进行加权处理，得到所述加权特征。

6.根据权利要求1所述的方法，其特征在于，所述初始识别模型是利用存在认知障碍和不存在认知障碍的训练数据对预设识别模型进行训练得到的，所述第一识别模型是利用不存在认知障碍的训练数据对所述预设识别模型进行训练得到的，所述第二识别模型是利用存在认知障碍的训练数据对所述第一识别模型进行训练得到的。

7.根据权利要求1所述的方法，其特征在于，在所述利用初始识别模型识别所述语音数据，得到初始文本之前，所述方法还包括：

对所述语音数据进行预处理；

其中，所述预处理的操作包括以下至少一者：剔除无效声段、降低背景噪声、音量归一化。

8.根据权利要求1所述的方法，其特征在于，所述测试对象属于预设年龄范围之内的目标人群，所述训练数据为对所述目标人群进行数据采集得到的；

和/或，所述训练数据包括样本语音数据以及与所述样本语音数据对应的样本文本；

和/或，所述初始预测和所述最终预测是利用预测模型执行的，所述预测模型是利用标注有是否存在认知障碍的训练数据训练得到的。

9.一种电子设备，其特征在于，包括相互耦接的存储器和处理器，所述存储器中存储有程序指令，所述处理器用于执行所述程序指令以实现权利要求1至8任一项所述的认知障碍预测方法。

10.一种存储装置，其特征在于，存储有能够被处理器运行的程序指令，所述程序指令用于实现权利要求1至8任一项所述的认知障碍预测方法。