CN115424108B

CN115424108B - 一种基于视听融合感知的认知功能障碍评测方法

Info

Publication number: CN115424108B
Application number: CN202211388075.2A
Authority: CN
Inventors: 兰时勇; 于广宇; 黄伟康; 马一童; 马伟
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2022-11-08
Filing date: 2022-11-08
Publication date: 2023-03-28
Anticipated expiration: 2042-11-08
Also published as: CN115424108A

Abstract

本发明提供了一种基于视听融合感知的认知功能障碍评测方法，所述方法包括：提取待评估对象针对既定量表文本作答的视频中的多帧图像以及音频，得到图像信息和音频信息；对基于已时间配准的文本信息，图像信息以及音频信息预处理后进行特征提取，得到文本特征、图像特征以及音频特征；将文本特征、图像特征以及音频特征输入到多模态特征融合及分类处理的深度网络模型中，得出认知功能障碍评测分类结果。本发明基于待评估人对既定量表文本的对应作答视频中的图像信息、语音信息，构建多模态融合感知的深度学习模型，实现对待评估人的认知能力进行综合判读，从而得出其认知功能障碍的客观评测，同时也提高了认知功能障碍评测的准确率。

Description

一种基于视听融合感知的认知功能障碍评测方法

技术领域

本发明涉及计算机技术领域，特别是涉及一种基于视听融合感知的认知功能障碍评测方法。

背景技术

认知是大脑对客观事物做出反应的过程。认知功能主要包括记忆、计算、理解、思维、想象和执行能力等。认知功能障碍的患者会表现为记忆力减退、判断力下降、语言功能、认知功能等障碍，严重者会影响日常生活和社会功能。影响认知老化的因素包括社会经济状况、生活行为方式、教育背景、心理状态、激素水平和遗传、疾病等。

认知功能衰退更容易发生在老年人身上，且表现与记忆力衰退相似，容易混淆。以医护人员为中心的认知功能评估，对专业知识具有一定要求，且会引入主观性，无法定量判断。而现有通过计算机技术检测通常通过眼动或脑电波作为样本进行检测，检测的准确率不高。

发明内容

有鉴于此，本发明旨在提出一种基于视听融合感知的认知功能障碍评测方法，以解决现有技术通过单一样本进行认知功能障碍检测准确率不高的问题。

为达到上述目的，本发明的技术方案是这样实现的：

一种基于视听融合感知的认知功能障碍评测方法，包括：

提取待评估对象针对既定量表文本作答的视频中的多帧图像以及音频，得到图像信息和音频信息；

对基于已时间配准的既定量表文本得到的文本信息，以及所述图像信息、所述音频信息预处理后进行特征提取，得到文本特征、图像特征以及音频特征；

将所述文本特征、所述图像特征以及所述音频特征输入到多模态特征融合及分类处理的深度网络模型中，获取认知功能障碍评测分类结果；其中，所述分类结果用于表征所述评估对象是否存在认知功能障碍；

其中，所述多模态特征融合及分类处理的深度网络模型是以认知功能障碍患者对所述既定量表文本作答的视频提取的图像信息、音频信息以及所述既定量表文本的文本信息作为训练样本训练得到的。

进一步地，所述多模态特征融合及分类处理的深度网络模型包括：特征融合模块和分类模块；

其中，所述特征融合模块用于将所述图像特征、所述音频特征以及所述文本特征进行特征融合，得到目标融合特征向量；

所述分类模块用于将所述融合特征向量进行特征增强后，基于特征增强后的所述目标融合特征向量，得到认知功能障碍评测分类结果。

进一步地，所述将所述图像特征、所述音频特征以及所述文本特征进行特征融合，得到目标融合特征向量的步骤，包括：

对输入至所述特征融合模块的所述图像特征、所述音频特征以及所述文本特征，将所述文本特征与所述图像特征融合，得到第一融合向量；以及，将所述文本特征与所述音频特征融合，得到第二融合向量；

再将所述第一融合向量与所述第二融合向量进行特征融合，得到所述目标融合特征向量。

进一步地，所述将所述文本特征与所述图像特征融合，得到第一融合向量，包括：

确定所述图像特征中与所述文本特征关联的第一关联特征，将所述第一关联特征与所述文本特征融合，得到所述第一融合向量；

将所述文本特征与所述音频特征融合，得到第二融合向量，包括：

确定所述音频特征中与所述文本特征关联的第二关联特征，将所述第二关联特征与所述文本特征融合，得到所述第二融合向量。

进一步地，所述将所述第一融合向量与所述第二融合向量进行特征融合，得到所述目标融合特征向量，包括：

确定所述第二融合向量中与所述第一融合向量关联的关联特征，将所述关联特征融合到所述第一融合向量中，得到目标融合特征向量。

进一步地，所述将所述目标融合特征向量进行特征增强后，基于特征增强后的所述目标融合特征向量，得到认知功能障碍评测分类结果的步骤，包括：

采用门控转换单元对所述目标融合特征向量进行特征选择，以对所述目标融合特征向量进行特征增强，其中，所述门控转换单元通过自适应学习来控制与所述认知功能障碍评测分类结果相关联特征的传播；

对增强后的所述目标融合特征向量进行分类，得到所述认知功能障碍评测分类结果。

进一步地，所述多模态特征融合及分类处理的深度网络模型的训练方法包括：

提取待评估对象针对所述既定量表文本作答的视频中的多帧图像以及音频，得到图像样本和音频样本；

将基于已时间配准的既定量表文本得到的文本样本，以及所述图像样本、音频样本输入预设模型，得到认知功能障碍评测结果；

基于所述认知功能障碍患者的认知能力标签和所述认知功能障碍评测分类结果，构建损失函数，得到损失值；

基于所述损失值，更新所述预设模型的参数，得到所述多模态特征融合及分类处理的深度网络模型。

相对于现有技术，本发明所述的认知功能障碍检测方法具有以下优势：

本发明通过提取待评估对象针对既定量表文本作答的视频中的多帧图像以及音频，得到图像信息和音频信息；对基于已时间配准的既定量表文本得到的文本信息，以及所述图像信息、所述音频信息预处理后进行特征提取，得到文本特征、图像特征以及音频特征；将所述文本特征、所述图像特征以及所述音频特征输入到多模态特征融合及分类处理的深度网络模型中，获取认知功能障碍评测分类结果；其中，所述分类结果用于表征所述评估对象是否存在认知功能障碍；其中，所述多模态特征融合及分类处理的深度网络模型是以认知功能障碍患者对所述既定量表文本作答的视频提取的图像信息、音频信息以及所述既定量表文本的文本信息作为训练样本训练得到的。

本发明通过对待评估对象进行量表测试，并将待评估对象针对量表问题的回答的图像和视频对待评估对象进行检测，通过文本、图像以及音频三种不同模态的信息对待评估对象的认知能力进行分析，提高了认知功能障碍检测的准确度，同时通过多模态特征融合及分类处理的深度网络模型进行认知功能障碍检测，无需具有专业知识的医护人员，避免了医疗资源缺乏带来的不便。

本发明的另一目的在于提供一种基于视听融合感知的认知功能障碍评测装置，以解决通过单一样本进行认知功能障碍检测准确率不高的问题。

为达到上述目的，本发明的技术方案是这样实现的：

一种基于视听融合感知的认知功能障碍评测装置，包括：

获取模块，用于提取待评估对象针对既定量表文本作答的视频中的多帧图像以及音频，得到图像信息和音频信息；

特征提取模块，用于对基于已时间配准的既定量表文本得到的文本信息，以及所述图像信息、所述音频信息预处理后进行特征提取，得到文本特征、图像特征以及音频特征；

确定模块，用于将所述文本特征、所述图像特征以及所述音频特征输入到多模态特征融合及分类处理的深度网络模型中，获取认知功能障碍评测分类结果；其中，所述分类结果用于表征所述评估对象是否存在认知功能障碍；

其中，所述多模态特征融合及分类处理的深度网络模型是以认知功能障碍患者对所述既定量表文本作答的视频信息提取的图像信息、音频信息以及所述既定量表文本的文本信息作为训练样本训练得到的。

所述认知功能障碍评测装置与上述认知功能障碍评测方法相对于现有技术所具有的优势相同，在此不做赘述。

本发明的另一目的在于提出一种电子设备，以解决通过单一样本进行认知功能障碍检测准确率不高的问题。

为达到上述目的，本发明的技术方案是这样实现的：

一种电子设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行时实现上述认知功能障碍评测方法中的步骤。

所述电子设备与上述认知功能障碍评测方法相对于现有技术所具有的优势相同，在此不做赘述。

本发明的另一目的在于提出一种计算机可读存储介质，以解决通过单一样本进行认知功能障碍检测准确率不高的问题。

为达到上述目的，本发明的技术方案是这样实现的：

一种计算机可读存储介质，其上存储有计算机程序/指令，所述计算机程序/指令被处理器执行时实现上述认知功能障碍评测方法中的步骤。

所述计算机可读存储介质与上述认知功能障碍评测方法相对于现有技术所具有的优势相同，在此不做赘述。

附图说明

构成本发明的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1示出了本发明实施例的一种基于视听融合感知的认知功能障碍评测方法的步骤流程图；

图2示出了本发明又一实施例的一种基于视听融合感知的认知功能障碍评测方法的步骤流程图；

图3示出了本发明又一实施例中图像特征的提取方法示意图；

图4示出了本发明又一实施例中文本特征的提取方法示意图；

图5示出了本发明又一实施例中音频特征的提取方法示意图；

图6示出了本发明又一实施例中两个不同特征的特征融合方法示意图；

图7示出了图6中多尺度通道注意力内的特征融合的过程；

图8示出了本发明又一实施例中图像特征、文本特征以及音频特征再特征融合模块的融合过程示意图；

图9示出了本发明又一实施例中门控转换单元的结构示意图；

图10示出了本发明又一实施例中认知功能障碍评测方法的整体架构图；

图11示出了本发明实施例二的一种基于视听融合感知的认知功能障碍评测装置的结构示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

下面将参考附图并结合实施例来详细说明本发明提供的一种基于视听融合感知的认知功能障碍评测方法。

实施例一

参照图1，图1示出了本发明实施例提供的一种基于视听融合感知的认知功能障碍评测方法的步骤流程图，如图1所示，包括：

S101，提取待评估对象针对既定量表文本作答的视频中的多帧图像以及音频，得到图像信息和音频信息。

本发明实施例中，通过显示的量表问题对待评估对象进行提问，以对每个量表问题录制对应的视频，通过视频中截取的多帧图像，以及音频和对应的问题对待评估对象的认知能力进行评估。

S102，对基于已时间配准的既定量表文本得到的文本信息，以及所述图像信息、所述音频信息预处理后进行特征提取，得到文本特征、图像特征以及音频特征。

本发明实施例中，为方便后续对文本信息、图像信息以及音频信息进行特征处理，先对文本信息、图像信息以及音频信息分别进行预处理。示例地，对音频信息，首先将音频重采样为16kHz单声道音频，然后使用25ms的Hann时窗，10 ms的帧移对音频进行短时傅里叶变换得到频谱图。通过将频谱图映射到64阶Mel滤波器组中计算Mel谱。然后这些特征被以0.96s时长被组帧，并且没有帧的重叠，每一帧都包含64个Mel频带，时长10ms（即总共96帧）。

由于在评估认知能力时需要用到的是人脸的信息，如说话时肌肉运动，眼球的运动等，因此，对于图像信息，首先检测图像中是否包含人脸信息，将不包含人脸的图像直接剔除。对于包含人脸的图像，检测出人脸64个关键点位置信息坐标，计算坐标中最大、最小的值，包含这些值的关键点坐标即为最左、最右、最上、最下的四个关键点坐标。根据四个关键点坐标，对图像中人脸信息和背景信息进行分割，去除多余的背景图像。

对于文本信息，使用结巴分词工具文本进行分词，剔除分词结果中无用的标签，特殊符号和非文本内容。

在分别对文本信息、图像信息以及音频信息进行预处理后，分别进行特征处理，以得到文本特征、图像特征以及音频特征，其中，在特征提取时，由于三种信息的模态不同，可采用不同的特征提取方式，以得到合适的特征。

S103，将所述文本特征、所述图像特征以及所述音频特征输入到多模态特征融合及分类处理的深度网络模型中，获取认知功能障碍评测分类结果；其中，所述分类结果用于表征所述评估对象是否存在认知功能障碍。

其中，多模态特征融合及分类处理的深度网络模型是以认知功能障碍患者对目标文本作答的视频提取的图像信息、音频信息以及所述目标文本的文本信息作为训练样本训练得到的。

具体地，在得到文本特征、图像特征以及音频特征后，将文本特征、图像特征以及音频特征输入到多模态特征融合及分类处理的深度网络模型中，通过训练好的多模态特征融合及分类处理的深度网络模型，得到待评估对象的认知评测结果，该结果表示待评估对象是否存在认知功能障碍，示例地，可以设定1表示存在认知功能障碍，0表示不存在认知功能障碍，则分类结果为1时，则输出该评估对象存在认知功能障碍；分类结果为0时，则输出该评估对象存在认知功能障碍。

本发明实施例通过待评估对象针对既定量表文本作答视频中的多帧图像和音频，以及基于已时间配准的既定量表文本提取文本特征、图像特征以及音频特征输入到多模态特征融合及分类处理的深度网络模型中，通过多模态特征融合及分类处理的深度网络模型判断待评估对象是否存在认知功能障碍，由于该模型通过认知功能障碍患者对既定量表文本的作答视频提取的图像和音频以及基于时间配准的既定量表文本训练得到的，从而能够判断出基于待评估对象对于文本问题回答时的人脸特征和音频特征的认知功能障碍分类结果。本发明实施例通过待评估对象的文本特征、图像特征以及音频特征三种不同模态的特征从待评估对象对问题的回答语音及回答过程中的人脸图像，综合判断待评估对象是否存在认知功能障碍，一方面，通过多模态特征融合及分类处理的深度网络模型判断，通过计算机技术进行医疗诊断，降低了医疗资源缺乏带来的不便，另一方面通过多种模态信息综合评估，提高了评估的准确度。

参照图2，图2示出了本发明又一实施例的一种基于视听融合感知的认知功能障碍评测方法的步骤流程图，如图2所示，包括：

S201，提取待评估对象针对既定量表文本作答的视频中的多帧图像以及音频，得到图像信息和音频信息。

S202，对基于已时间配准的既定量表文本得到的文本信息，以及所述图像信息、所述音频信息预处理后进行特征提取，得到文本特征、图像特征以及音频特征。

具体地，对文本信息、图像信息以及音频信息进行预处理后，采用不同的方式进行特征提取。

对图像信息，参照图3，图3为一种Encoder-bank-Decoder结构的特征提取模块。Encoder中的模块由一个步长为1和步长为2的卷积操作堆叠而成，通过模块，可以得到尺度逐渐变小的特征。在编码器的最后，一个卷积操作和全连接层用于提取潜在矩阵，即，是输入图像信息的高度压缩表征，潜在矩阵用于Encoder-bank-Decoder结构中的bank部分。基于Encoder结构中提取到的潜在矩阵及特征，在bank中，使用预训练的VGG-16模型进一步特征编码，VGG每一层以上一层特征、Encoder中提取出的特征以及潜在矩阵的一列作为输入。以不同分辨率、不同维度的特征作为输入，有利于提取出包含即包含全局语义信息和局部语义信息的特征。Decoder渐进式的融合Encoder和bank中的特征，Decoder中的是卷积核大小为3的卷积操作。

对于文本信息，使用堆叠的TextBlock模块进行特征提取，文本特征提取模块及TextBlock模块，如图4所示，其中，文本特征提取模块通过三个TextBlock模块提取得到文本特征，每个TextBlock模块中包含一个多头注意力、层归一化、前馈神经网络MLP组成。

对于音频信息，采用一种基于卷积神经网络的音频特征提取器，该提取器支持从音频波形中提取具有语义的128维embedding特征向量，音频特征提取器整体架构如图5所示，该音频特征提取模块由多个特征提取单元和全连接层组成，每个特征提取单元如虚线部分所示，每个特征提取单元由二维卷积操作Conv、RELU激活函数、二维全局最大池化MaxPool组成，其中两个特征提取单元由二维卷积操作Conv、RELU激活函数以及二维全局最大池化MaxPool组成，另两个特征提取单元由二维卷积操作Conv、RELU激活函数、二维卷积操作Conv、RELU激活函数以及二维全局最大池化MaxPool组成，最后的全连接层输出128维的音频特征。

S203，对输入至所述特征融合模块的所述图像特征、所述音频特征以及所述文本特征，将所述文本特征与所述图像特征融合，得到第一融合向量；以及，将所述文本特征与所述音频特征融合，得到第二融合向量。

本发明实施例中，在得到文本特征、图像特征以及文本特征后，将文本特征、图像特征以及文本特征输入多模态特征融合及分类处理的深度网模型的特征融合模块，通过特征融合模块进行特征融合。

参照图8，图8示出了在特征融合模块图像特征X、文本特征Y以及音频特征Z的融合过程，其中，先将文本特征Y分别与图像特征X、音频特征Z融合，具体地，确定图像特征中与文本特征关联的第一关联特征，将第一关联特征与文本特征融合，得到第一融合向量f₁；以及，确定音频特征中与文本特征关联的第二关联特征，将第二关联特征与文本特征融合，得到所述第二融合向量f₂。

由于文本特征、图像特征以及音频特征提取自三种不同的模态信息，仅是简单的相加进行融合效果不佳，因此，本发明实施例提供了一种融合不同语义特征的多语义特征融合模块，通过将不同模态的特征输入多尺度通道注意力模块，如图6所示，X、Y分别表示文本特征、图像特征以及文本特征中的一种特征，将X、Y两种特征相加后，经过多尺度通道注意力模块进行融合后得到融合向量E，具体地，将特征X和特征Y相加后，输入多尺度通道注意力模块，再对原特征X和原特征Y进行注意力操作，进而将两者融合，得到融合向量E。

其中，在多尺度通道注意力模块分别进行局部特征提取和全局特征提取，流程如图7所示，左支路表示对全局特征的提取过程，通过对相加后的特征进行一次全局平均池化操作，再依次通过点卷积、归一化、RELU激活函数、第二次点卷积和归一化操作，得到全局特征；右支路表示对局部特征的提取过程，依次通过点卷积、归一化、RELU激活函数、第二次点卷积和归一化操作得到局部特征，最后将局部特征和全局特征相加后经过Sigmoid函数后对输入特征做注意力操作。

S204，再将所述第一融合向量与所述第二融合向量进行特征融合，得到目标融合特征向量。

具体地，确定第二融合向量中与第一融合向量关联的关联特征，将关联特征融合到所述第一融合向量中，得到目标融合特征向量。继续参照图8，在通过特征融合得到第一融合向量f₁和第二融合向量f₂后，继续对第一融合向量f₁和第二融合向量f₂进行特征融合，得到目标融合特征向量F₀。

S205，将所述目标融合特征向量进行特征增强后，基于特征增强后的所述目标融合特征向量，得到分类结果。

在本发明实施例中，采用门控转换单元对目标融合特征向量进行特征选择，从而对目标融合特征向量进行特征增强，其中，所述门控转换单元通过自适应学习来控制与所述认知功能障碍检测相关联特征的传播。示例地，在门控单元确定每个特征与认知功能障碍检测的关联程度，选择关联程度大于50%的特征进行输出而对关联程度不大于50%的特征不进行输出，由此，进行特征选择后的目标融合特征向量与认知功能障碍检测关联度高，分类的结果更加准确。其中，门控转换单元具体结构如图9所示，门控转换单元主要包括三个模块，全局上下文嵌入、通道归一化、门控自适应模块。其中

是自定义的可学习参数，负责自适应嵌入输出。门控权重和偏置负责控制门的激活。门控单元整体可表示为

,其中，F₀表示目标融合向量，/>

。门控转换单元中，考虑到较大的感受野可以避免局部语义歧义，因此设计了一个全局上下文嵌入模块来聚合每个通道中的全局上下文信息。全局上下文嵌入模块使用了p-norm进行全局上下文嵌入，当P=1时，对于非负输入，1-norm等价于全局平均池化。全局上下文嵌入模块可定义为：

，其中，H表示特征图X_c中的长尺度；W表示特征图X_c中的宽尺度；α表示可训练参数；/>

为一个极小的常数，用于避免零点处求导问题；p表示p范数。通过归一化模块可以在特征通道之间建立竞争关系，使得其中通道响应较大的值变得相对更大，并抑制其他反馈较小的通道。这里使用l₂正则化来进行通道归一化，通道归一化模块可定义如下：/>

，其中，S_c表示全局上下文嵌入模块；c表示经过全局上下文嵌入模块的输出；/>

为一个极小的常数，用于避免零点处求导问题。门控自适应模块定义如下：/>

,其中/>

，/>

为可学习参数；/>

表示通道归一化模块。当一个通道的门控权重被积极激活时，门控转换单元促进该通道与其他通道竞争。当门控权重被消极激活时，门控转换单元鼓励该通道与其他通道合作。此外，当门控权重和门控偏置为0时，允许原始特征传递到下一层，表示为：/>

，其中/>

，/>

为可学习参数，F₀为目标融合特征向量，其中/>

，/>

设置为0，效果类似于残差连接Resnet的思想，可以学习到恒等映射。门控转换单元初始化时将γ和β初始化为0，有助于训练过程的初始步骤更加稳定，门控转换单元的最终表现也会更好。

在特征选择后，将增强后的目标融合特征向量输入全连接层进行分类，得到分类结果，其中，确定分类结果可通过确定目标融合特征向量属于存在认知功能障碍的概率以及不存在认知功能障碍的概率确定，示例地，在概率大于90%时，输出对应概率的分类结果，则若是存在认知功能障碍的概率为95%，而不存在认知功能障碍的概率是5%，则输出结果：待评估对象存在认知功能障碍。

其中，多模态特征融合及分类处理的深度网模型的具体训练方法如下：

首先，通过采集待评估对象对既定量表文本的作答视频，提取其中的作答视频中的多帧图像以及音频，得到图像样本和音频样本。

接着，对基于已时间配准的既定量表文本得到的文本样本、图像样本以及音频样本进行特征提取，得到文本特征、图像特征以及音频特征。

之后，将文本特征、图像特征以及音频特征输入特征融合模块，特征融合模块将文本特征分别与图像特征和音频特征融合，得到第一融合向量和第二融合向量，再将第一融合向量和第二融合向量融合，得到目标融合特征向量。

之后，将目标融合特征向量输入分类模块，通过门控转换单元对目标融合特征向量进行特征增强，再将特征增强后的目标融合特征向量输入全连接层进行分类，得到评估对象存在认知功能障碍的概率以及评估对象不存在认知功能障碍的概率，并将概率大于阈值的行为障碍的预测结果作为分类结果输出。

之后，根据分类结果和样本对应的行为障碍标签，构建损失函数，交叉熵损失函数可以表示为

，其中

表示一例训练数据的输出，c表示该样本的标签，基于损失函数计算得到损失值后，通过反向传播方法对预设模型的参数进行更新。

如此，不断重复以上训练过程，直到达到预设的迭代更新次数，或者模型收敛，从而得到用于推理阶段的模态特征融合及分类处理的深度网络模型。

本发明实施例通过待评估对象针对既定量表文本作答视频中的多帧图像和音频，以及基于已时间配准的既定量表文本得，提取文本特征、图像特征以及音频特征输入到多模态特征融合及分类处理的深度网络模型中，通过多模态特征融合及分类处理的深度网络模型判断待评估对象是否存在认知功能障碍，由于多模态特征融合及分类处理的深度网络模型通过认知功能障碍患者对既定量表文本的作答视频提取的图像和音频以及对应的文本训练得到的，从而能够判断出待评估对象对于文本问题回答时的人脸特征和音频特征。本发明实施例通过待评估对象的文本特征、图像特征以及音频特征三种不同模态的特征从待评估对象对问题的回答语音及回答过程中的人脸图像，综合判断待评估对象是否存在认知功能障碍，一方面，通过多模态特征融合及分类处理的深度网络模型判断，联合计算机技术进行医疗诊断，降低了医疗资源缺乏带来的不便，另一方面通过多种模态信息综合评估，提高了评估的准确度。

下面结合一个示例对上述过程进行具体阐述：

参照图10，图10示出了本发明又一实施例的一种基于视听融合感知的认知功能障碍评测方法示意图，如图10所示，在获取到的待评估对象针对既定量表文本的作答视频后，获取作答视频中的多帧图像和语音，得到图像信息、语音信息以及既定量表文本对应的文本信息，对图像信息、语音信息以及文本信息分别预处理后进行特征提取，得到图像特征、语音特征以及文本特征，将文本特征、图像特征以及语音特征输入多模态特征融合及分类处理的深度网络模型中，其中，多模态特征融合及分类处理的深度网络模型包括特征融合模块和分类模块。

在多模态特征融合及分类处理的深度网络模型的特征融合模块对文本特征、图像特征以及语音特征进行融合，得到目标融合向量；之后将目标融合特征向量输入分类模块，在将目标融合特征向量经门控转换单元增强后，通过全连接层进行分类，得到分类结果。

具体地，可用分类标识表示分类结果，输出分类标识为1则表示待评估对象存在认知功能障碍，而输出分类标识为0则表示待评估对象不存在认知功能障碍，进而根据分类结果显示待评估对象的认知功能障碍评测结果，由此确定待评估对象是否存在认知功能障碍。

实施例二

参照图11，图11示出了本发明实施例的一种基于视听融合感知的认知功能障碍评测装置的结构示意图，如图11所示，包括：

获取模块1101，用于提取待评估对象针对既定量表文本作答的视频中的多帧图像以及音频，得到图像信息和音频信息；

特征提取模块1102，用于对基于已时间配准的既定量表文本得到的文本信息，以及所述图像信息、所述音频信息预处理后进行特征提取，得到文本特征、图像特征以及音频特征；

确定模块1103，用于将所述文本特征、所述图像特征以及所述音频特征输入到多模态特征融合及分类处理的深度网络模型中，获取认知功能障碍评测分类结果；其中，所述分类结果用于表征所述评估对象是否存在认知功能障碍；

其中，所述到多模态特征融合及分类处理的深度网络模型是以认知功能障碍患者对既定量表文本作答的视频信息提取的图像信息、音频信息以及所述既定量表文本的文本信息作为训练样本训练得到的。

在一种可选的实施例中，所述多模态特征融合及分类处理的深度网络模型包括：特征融合模块和分类模块；

所述分类模块用于将所述融合特征向量进行特征增强后，基于特征增强后的所述融合特征向量，得到认知功能障碍评测分类结果。

在一种可选的实施例中，所述特征融合模块包括第一融合模块和第二融合模块；

所述第一融合模块用于对输入至所述特征融合模块的所述图像特征、所述音频特征以及所述文本特征，将所述文本特征与所述图像特征融合，得到第一融合向量；以及，将所述文本特征与所述音频特征融合，得到第二融合向量；

所述第二融合模块用于将所述第一融合向量与所述第二融合向量进行特征融合，得到目标融合特征向量。

在一种可选的实施例中，所述分类模块包括特征增强模块和特征分类模块；

所述特征增强模块用于采用门控转换单元对所述目标融合特征向量进行特征选择，以对所述目标融合特征向量进行特征增强，其中，所述门控转换单元通过自适应学习来控制与所述认知功能障碍检测相关联特征的传播；

所述特征分类模块用于对增强后的所述目标融合特征向量进行分类，得到认知功能障碍评测分类结果。

基于同一发明构思，本发明实施例还提供了一种电子设备，包括：存储器和处理器，存储器中存储有计算机程序，该计算机程序可在处理器上运行，进而实现上述任一实施例所述的认知功能障碍评测方法中的步骤。

基于同一发明构思，本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序/指令，该计算机程序/指令被处理器执行时实现如上述任一实施例所述的认知功能障碍评测方法中的步骤。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内；

对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和部件并不一定是本发明所必须的。

以上对本发明所提供的一种基于视听融合感知的认知功能障碍评测方法进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于视听融合感知的认知功能障碍评测方法，其特征在于，所述方法包括：

提取待评估对象针对既定量表文本作答的视频中的多帧图像以及音频，得到图像信息和音频信息；其中，所述视频是针对所述既定量表文本进行作答时对所述待评估对象进行录制得到的；所述既定量表文本对应所述多帧图像与所述音频；

其中，所述多模态特征融合及分类处理的深度网络模型是以认知功能障碍患者对所述既定量表文本作答的视频提取的图像信息、音频信息以及所述既定量表文本的文本信息作为训练样本训练得到的；

其中，所述多模态特征融合具体用于：将所述文本特征与所述图像特征融合，得到第一融合向量；以及，将所述文本特征与所述音频特征融合，得到第二融合向量；再将所述第一融合向量与所述第二融合向量进行特征融合，以通过多级融合，得到目标融合特征向量；

其中，所述目标融合特征向量在经门控转换单元特征选择后进行所述分类处理，以提高所述分类结果的准确度。

2.根据权利要求1所述的基于视听融合感知的认知功能障碍评测方法，其特征在于，所述多模态特征融合及分类处理的深度网络模型包括：特征融合模块和分类模块；

其中，所述特征融合模块用于将所述图像特征、所述音频特征以及所述文本特征进行特征融合，得到所述目标融合特征向量；

所述分类模块用于将所述目标融合特征向量进行特征增强后，基于特征增强后的所述目标融合特征向量，得到认知功能障碍评测分类结果。

3.根据权利要求2所述的基于视听融合感知的认知功能障碍评测方法，其特征在于，所述将所述图像特征、所述音频特征以及所述文本特征进行特征融合，得到目标融合特征向量的步骤，包括：

对输入至所述特征融合模块的所述图像特征、所述音频特征以及所述文本特征，将所述文本特征与所述图像特征融合，得到所述第一融合向量；以及，将所述文本特征与所述音频特征融合，得到所述第二融合向量；

4.根据权利要求3所述的基于视听融合感知的认知功能障碍评测方法，其特征在于，所述将所述文本特征与所述图像特征融合，得到第一融合向量，包括：

5.根据权利要求4所述的基于视听融合感知的认知功能障碍评测方法，其特征在于，所述将所述第一融合向量与所述第二融合向量进行特征融合，得到所述目标融合特征向量，包括：

确定所述第二融合向量中与所述第一融合向量关联的关联特征，将所述关联特征融合到所述第一融合向量中，得到所述目标融合特征向量。

6.根据权利要求2所述的基于视听融合感知的认知功能障碍评测方法，其特征在于，所述将所述目标融合特征向量进行特征增强后，基于特征增强后的所述目标融合特征向量，得到认知功能障碍评测分类结果的步骤，包括：

采用所述门控转换单元对所述目标融合特征向量进行特征选择，以对所述目标融合特征向量进行特征增强，其中，所述门控转换单元通过自适应学习来控制与所述认知功能障碍评测分类结果相关联特征的传播；

7.根据权利要求1-6任一所述的基于视听融合感知的认知功能障碍评测方法，其特征在于，所述多模态特征融合及分类处理的深度网络模型的训练方法包括：

将基于已时间配准的既定量表文本得到的文本样本，以及所述图像样本、音频样本输入预设模型，得到认知功能障碍评测分类结果；