CN115590481B

CN115590481B - 一种用于预测认知障碍的装置和计算机可读存储介质

Info

Publication number: CN115590481B
Application number: CN202211611022.2A
Authority: CN
Inventors: 夏鹏; 琚烈; 胡铭; 马彤; 王斌; 戈宗元; 张大磊
Original assignee: Beijing Airdoc Technology Co Ltd
Current assignee: Beijing Airdoc Technology Co Ltd
Priority date: 2022-12-15
Filing date: 2022-12-15
Publication date: 2023-04-11
Anticipated expiration: 2042-12-15
Also published as: CN115590481A

Abstract

本申请公开了一种用于预测认知障碍的装置和计算机可读存储介质。所述装置包括：存储器，其存储有用于预测认知障碍的程序指令，当所述程序指令由所述处理器执行时，使得所述装置实现以下操作：获取眼底图像数据和与认知障碍相关的多模态数据；使用第一网络模型对所述眼底图像数据执行特征提取，以获得第一特征结果；使用第二网络模型对所述多模态数据执行特征提取，以获得第二特征结果；将所述第一特征结果和所述第二特征结果进行拼接，以获得预测认知障碍的初始预测结果；以及基于所述初始预测结果和所述第二特征结果获得预测认知障碍的最终预测结果。利用本申请的方案，可以提高预测认知障碍的预测结果的准确性。

Description

一种用于预测认知障碍的装置和计算机可读存储介质

技术领域

本申请一般涉及人工智能技术领域。更具体地，本申请涉及一种用于预测认知障碍的装置和计算机可读存储介质。

背景技术

认知障碍是一种异质性疾病，近年来随着发病率不断增加，其对医疗保健系统和社会造成重大负担。据研究表明，全球超过三分之一的痴呆症病例，可通过干预危险因素的方法得到预防，并且对于干预过程进行数据模拟发现，采用公共卫生预防策略可使未来10年的痴呆发病率下降30%，使痴呆症发病延迟5至10年。因此，早期发现和正确治疗对认知障碍具有重要意义。

与其他眼部扫描（例如OCT图像和血管造影）不同，眼底图像是由单目相机捕获的眼底在2D平面上的投影，可以以非侵入性和经济高效的方式获取，使得利用眼底图像对部分疾病进行检测与筛查具有重要的临床意义。近年来，许多研究工作在眼底图像上有效利用了深度学习技术，探索了对一些疾病进行筛查和预测的可行性，例如预测认知障碍。然而，由于存在认知障碍的眼底图像的数据较为稀缺，采用现有的方式获得的预测结果的准确性较低。

有鉴于此，亟需提供一种用于预测认知障碍的方案，以便提高预测认知障碍的预测结果的准确性。

发明内容

为了至少解决如上所提到的一个或多个技术问题，本申请在多个方面中提出了用于预测认知障碍的方案。

在第一方面中，本申请提供一种用于预测认知障碍的装置，包括：处理器；存储器，其存储有用于预测认知障碍的程序指令，当所述程序指令由所述处理器执行时，使得所述装置实现以下操作：获取眼底图像数据和与认知障碍相关的多模态数据；使用第一网络模型对所述眼底图像数据执行特征提取，以获得第一特征结果；使用第二网络模型对所述多模态数据执行特征提取，以获得第二特征结果；将所述第一特征结果和所述第二特征结果进行拼接，以获得预测认知障碍的初始预测结果；以及基于所述初始预测结果和所述第二特征结果获得预测认知障碍的最终预测结果。

在一个实施例中，其中所述多模态数据至少包括年龄、教育程度、身体质量指数、心衰病史和睡眠呼吸暂停综合症。

在另一个实施例中，其中当所述程序指令由所述处理器执行时，使得所述装置进一步实现以下操作，以获得第一特征结果：使用所述第一网络模型对所述眼底图像数据执行多尺度特征提取，获得多个尺度的特征向量；在所述多个尺度的特征向量中增加注意力机制，获得多个尺度的注意力特征；以及根据所述多个尺度的注意力特征获得所述第一特征结果。

在又一个实施例中，其中当所述程序指令由所述处理器执行时，使得所述装置进一步实现以下操作，以获得多个尺度的注意力特征：对相应尺度的特征向量执行自注意力操作，获得对应的自注意力特征；以及将所述对应的自注意力特征与下一尺度的特征向量进行融合并且执行下一尺度的注意力操作，以获得多个尺度的注意力特征。

在又一个实施例中，其中当所述程序指令由所述处理器执行时，使得所述装置进一步实现以下操作，以获得对应的自注意力特征：对相应尺度的特征向量分别执行多次卷积操作，获得多个卷积向量；以及基于所述多个卷积向量获得对应的自注意力特征。

在又一个实施例中，其中所述多个卷积向量包括查询向量、键向量和值向量，并且当所述程序指令由所述处理器执行时，使得所述装置进一步实现以下操作，以获得对应的自注意力特征：基于所述查询向量和所述键向量确定注意力权值；以及根据所述注意力权值映射的所述值向量的加权求和获得对应的自注意力特征。

在又一个实施例中，其中当所述程序指令由所述处理器执行时，使得所述装置进一步实现以下操作，以获得所述第一特征结果：将所述多个尺度的注意力特征进行融合，以获得所述第一特征结果。

在又一个实施例中，其中所述第一网络模型包括ResBlocks模型，所述第二网络模型包括全连接模型。

在又一个实施例中，其中当所述程序指令由所述处理器执行时，使得所述装置进一步实现以下操作：将所述第一特征结果和所述第二特征结果的拼接结果输入初始预测模块，以获得预测认知障碍的所述初始预测结果。

在第二方面中，本申请提供一种计算机可读存储介质，其上存储有用于预测认知障碍的计算机可读指令，该计算机可读指令被一个或多个处理器执行时，实现前述第一方面中的装置所执行的操作。

通过如上所提供的用于预测认知障碍的方案，本申请实施例通过第一、第二网络模型分别对眼底图像数据和多模态数据进行特征提取，以获得对应的第一、第二特征结果。接着，通过多阶段操作，获得最终预测结果。即，首先通过第一特征结果和第二特征结果获得初始预测结果，再由初始预测结果结合第二特征结果获得最终预测结果。基于此，可以降低在数据稀缺的情形下仅有单一阶段结果的错误率，提高了预测结果的准确性。进一步地，本申请实施例还通过获取多尺度的特征向量，以学习眼底图像的局部和全局特征。此外，本申请实施例还通过将多个尺度的注意力特征进行融合，以便获得的第一特征结果包含更丰富的信息，从而进一步提升预测结果的准确性。

附图说明

通过参考附图阅读下文的详细描述，本申请示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本申请的若干实施方式，并且相同或对应的标号表示相同或对应的部分，其中：

图1是示出根据本申请实施例的用于预测认知障碍的装置的示例性结构框图；

图2是示出根据本申请实施例的用于预测认知障碍的整体的示例性示意图；

图3是示出根据本申请实施例的获得第一特征结果的示例性示例图；

图4是示出根据本申请实施例的自注意力操作的示例性示意图；

图5是示出根据本申请实施例的用于预测认知障碍的装置所执行的操作的示例性流程框图；以及

图6是示出根据本申请实施例的用于预测认知障碍的设备的示例性结构框图。

具体实施方式

下面将结合附图对本申请实施例中的技术方案进行清楚和完整地描述。应当理解的是本说明书所描述的实施例仅是本申请为了便于对方案的清晰理解和符合法律的要求而提供的部分实施例，而并非可以实现本申请的所有实施例。基于本说明书公开的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1是示出根据本申请实施例的用于预测认知障碍的装置100的示例性结构框图。如图1中所示，该装置100可以包括处理器110和存储器120。其中，前述处理器110可以包括例如通用处理器(“CPU”)或专用图形处理器(“GPU”)，前述存储器120中存储有可在所述处理器上执行的程序指令。在一些实施例中，前述存储器120可以包括但不仅限于阻变式存储器RRAM（Resistive Random Access Memory）、动态随机存取存储器DRAM（Dynamic RandomAccess Memory）、静态随机存取存储器SRAM（Static Random-Access Memory）、增强动态随机存取存储器EDRAM（Enhanced Dynamic Random Access Memory）。

进一步地，上述存储器120可以存储有用于预测认知障碍的程序指令，当程序指令由所述处理器执行时，使得装置100执行以下操作：获取眼底图像数据和与认知障碍相关的多模态数据，使用第一网络模型对眼底图像数据执行特征提取，以获得第一特征结果，使用第二网络模型对多模态数据执行特征提取，以获得第二特征结果。接着，将第一特征结果和第二特征结果进行拼接，以获得预测认知障碍的初始预测结果，进而基于初始预测结果和第二特征结果获得预测认知障碍的最终预测结果。

在一个实施例中，上述眼底图像数据可以通过例如眼底相机进行采集获得。可以理解，眼底图像中包含大量重要的生物标志特征，例如视盘（“Optic Disc”）、视杯（“OpticCup”）、黄斑（“Macula”）、中央凹（“Fovea”）、血管（“Blood Vessel”）以及微动脉瘤（“Microaneurysms”）、出血（“Hemorrhages”）、硬渗出液（“Hard Exudates)”）和软渗出液（“Soft Exudates”）等。前述生物标志特征往往与某种疾病相关，例如微动脉瘤、出血、硬渗出液和软渗出液与糖尿病性视网膜（“Diabetic Retinopathy”）病变相关。在一些实施例中，前述生物标志特征中的黄斑、视盘以及血管也与认知障碍相关。由此，基于眼底图像可以对认知障碍进行检测与筛查。

为了使得基于眼底图像识别认知障碍更具说服力，本申请实施例还获取了与认知障碍相关的多模态数据，该多模态数据可以来源于被检者的主诉信息或者检查信息，并且可以从医疗系统中获取。在一个实施例中，前述多模态数据可以包括但不仅限于年龄、教育程度、身体质量指数、心衰病史和睡眠呼吸暂停综合症。在一些实施例中，前述多模态数据还可以包括例如性别、高压病病史、糖尿病史、脑血管疾病、冠心病、周围动脉疾病以及药物（例如抗凝药物）史和血清肌酐水平等。

基于上述获取的眼底图像数据和多模态数据，可以使用第一、第二网络模型分别对眼底图像数据和多模态数据提取特征，以获得对应的第一、第二特征结果。在一个实施例中，前述第一网络模型可以例如是ResBlocks模型，前述第二网络模型可以例如是全连接模型（也即全连接网络）。

具体地，当程序指令由处理器执行时，使得装置100进一步执行以下操作，以获得第一特征结果：首先使用第一网络模型对眼底图像数据执行多尺度特征提取，获得多个尺度的特征向量，接着在多个尺度的特征向量中增加注意力机制，获得多个尺度的注意力特征，以根据多个尺度的注意力特征获得第一特征结果。也即，本申请实施例通过例如ResBlocks模型并融合注意力机制对眼底图像数据执行多尺度编码，并且生成多个尺度的注意力特征，以提取眼底图像数据中的局部和全局特征。接着，根据多个尺度的注意力特征可以获得第一特征结果。另外，本申请实施例通过使用例如全连接模型对多模态模型执行全连接操作，可以获得对应的第二特征结果。

更进一步地，当程序指令由处理器执行时，使得装置100进一步执行以下操作，以获得多个尺度的注意力特征：对相应尺度的特征向量执行自注意力操作，获得对应的自注意力特征，进而将对应的自注意力特征与下一尺度的特征向量进行融合并且执行下一尺度的注意力操作，以获得多个尺度的注意力特征。在一个实施例中，通过对相应尺度的特征向量分别执行多次卷积操作，获得多个卷积向量，以基于多个卷积向量获得对应的自注意力特征。其中，前述多个卷积向量包括查询向量、键向量和值向量，当程序指令由所述处理器执行时，使得装置100进一步实现以下操作，以获得对应的自注意力特征：基于查询向量和所述键向量确定注意力权值，并根据注意力权值映射的值向量的加权求和获得对应的自注意力特征。

可以理解，注意力机制（Self-Attention，“SA”）旨在突出特征图中的区分区域，同时抑制无关信息。在实际应用场景中，可以在卷积神经网络中嵌入注意力机制，以通过探索覆盖原始特征图的可学习的注意力权重图来生成注意力特征。在本申请实施例中，通过在第一网络模型（例如ResBlocks模型）中嵌入注意力机制，以获得多个尺度的自注意力特征，即根据特征映射本身推断注意映射。作为示例，假设自注意模块接收特征映射

，可以输出自注意力特征映射

，该形状自注意力特征映射

与

相同，其中C,W,H分别对应表示特征映射的通道、宽度和高度大小。

在该场景下，为了生成自注意力特征映射，首先可以将输入特征映射F分别输入多个可学习的1×1卷积运算，从而生成多个向量，例如查询向量

、键向量

和值向量

。进一步地，可以通过计算查询向量

与所有键向量

的点积来确定注意力权值，进而根据注意力权值映射的值向量

的加权求和获得各尺度特征对应的自注意力特征

，并且

，其中

)，SA表示自注意力模块。

在获得对应的自注意力特征后，通过将对应的自注意力特征与下一尺度的特征向量进行融合并且执行下一尺度的注意力操作，以获得多个尺度的注意力特征。基于前述多个尺度的注意力特征，上述装置100可以进一步将多个尺度的注意力特征进行融合，以获得第一特征结果。即，本申请实施例将不同尺度的注意力特征融合成一个特征结果，使得第一特征结果包含更丰富的信息，以提升预测结果的准确性。

基于上述获得的第一特征结果和第二特征结果，在本申请实施例的第一阶段，可以将第一特征结果和第二特征结果进行拼接，以获得预测认知障碍的初始预测结果。具体地，在一个实施例中，可以将第一特征结果和第二特征结果的拼接结果输入初始预测模块，以获得预测认知障碍的所述初始预测结果。在一个实施场景中，初始预测模块可以包括一层全连接层，第一特征结果和第二特征结果的拼接结果经由该一层全连接层，输出预测结果。

进一步地，在本申请实施例的第二阶段，可以根据初始预测结果和第二特征结果获得预测认知障碍的最终预测结果。需要理解的是，初始预测结果和第二特征结果均对应是否存在认知障碍的概率值。在判断最终预测结果时，首先可以计算初始预测结果和第二特征结果对应的概率值的平均值，接着将该平均值与初始预测结果进行比较，以根据比较结果确定预测认知障碍的最终预测结果。例如，当将平均值大于初始预测结果时，将最终预测结果确定为存在认知障碍；当将平均值小于初始预测结果时，将最终预测结果确定为无认知障碍。在一个示例性场景中，假设初始预测结果和第二特征结果对应的概率值分别为0.5和0.6，其二者的平均值大于0.5，则将最终预测结果确定为存在认知障碍。特别地，本申请是针对认知障碍中的房颤进行预测。

结合上述描述可知，本申请实施例通过第一、第二网络模型分别对眼底图像数据和多模态数据进行特征提取，以获得对应的第一、第二特征结果。接着，通过两个阶段操作，即通过在第一阶段将第一特征结果和第二特征结果拼接后输入初始预测模块，获得初始预测结果，并且在第二阶段结合初始预测结果和第二特征结果获得最终预测结果。基于此，可以降低在数据稀缺的情形下仅有单一阶段结果的错误率，从而提高预测结果的准确性。进一步地，本申请实施例通过在第一网络模型中增加注意力机制并进行多尺度编码，获得多个尺度的注意力特征，以提取局部和全局的特征。此外，本申请实施例还通过将多个尺度的注意力特征进行融合，以进一步提升预测结果的准确性。

图2是示出根据本申请实施例的用于预测认知障碍的整体的示例性示意图。如图2中所示，本申请实施例的预测认知障碍可以包括第一阶段和第二阶段。其中，在第一阶段中，将眼底图像数据201和多模态数据202分别输入至第一网络模型203和第二网络模型204中执行特征提取，以分别获得第一特征结果205和第二特征结果206。在一个实施例中，前述眼底图像数据201可以通过例如眼底相机进行采集获得。前述多模态数据202可以例如是年龄、教育程度、身体质量指数、心衰病史和睡眠呼吸暂停综合症等。在一个实现场景中，前述第一网络模型203可以例如是ResBlocks模型，并且在ResBlocks模型还嵌入有注意力机制执行多尺度编码。

具体地，首先使用第一网络模型203对眼底图像数据201执行多尺度特征提取，获得多个尺度的特征向量，接着通过自注意力模块对相应尺度的特征向量执行自注意力操作，即通过对相应尺度的特征向量分别执行多次卷积操作，获得查询向量、键向量和值向量，通过计算查询向量和键向量的点积确定注意力权值，并且根据注意力权值映射的值向量的加权求和获得各尺度特征对应的自注意力特征。进一步地，通过将对应的自注意力特征与下一尺度的特征向量进行融合并且执行下一尺度的注意力操作，以获得多个尺度的注意力特征，通过将多个尺度的注意力特征进行融合为一个特征，以获得第一特征结果205。稍后将结合图3表示详细描述如何获得第一特征结果。

在另一个实现场景中，上述第二网络模型204可以例如是全连接模型，并且该全连接模型可以依次包括全连接层、ReLU激活层、Dropout层、全连接层和ReLU激活层。在实现场景中，首先可以对多模态数据202执行归一化操作，再经由全连接模型对归一化后的多模态数据进行特征提取，以获得第二特征结果206。基于第一特征结果205和第二特征结果206，将第一特征结果205和第二特征结果206进行拼接，获得拼接结果207，通过将拼接结果207输入至初始预测模块（全连接层）中，以输出初始预测结果208。

图中进一步示出，在第二阶段中，联合初始预测结果208和第二特征结果206获得最终预测结果209。在一个实施例中，可以通过计算初始预测结果和第二特征结果对应的概率值的平均值，通过将平均值与初始预测结果进行比较确定预测认知障碍的最终预测结果。例如，当将平均值大于初始预测结果时，将最终预测结果确定为存在认知障碍；当将平均值小于初始预测结果时，将最终预测结果确定为无认知障碍。

图3是示出根据本申请实施例的获得第一特征结果的示例性示例图。如图3中示例性示出经第一网络模型（例如ResBlocks模型）对眼底图像数据201执行多尺度特征提取，获得多个尺度的特征向量，例如不同尺度下的特征向量310-1、特征向量310-2、特征向量310-3、特征向量310-4和特征向量310-5。如前所述，基于前述获取的多个尺度的特征向量310-1至特征向量310-5，可以使用自注意力模块对相应尺度的特征向量执行自注意力操作，以获得自注意力特征。以特征向量310-1为例，其经自注意力操作后获得自注意力特征320-1。

图中进一步示出，将自注意力特征320-1与下一尺度的特征向量310-2进行融合并且执行下一尺度的注意力操作，以获得下一尺度的注意力特征320-2。类似地，将该尺度的注意力特征320-2与下一尺度的特征向量310-3进行融合并且执行下一尺度的注意力操作，以获得下一尺度的注意力特征320-3；将该尺度的注意力特征320-3与下一尺度的特征向量310-4进行融合并且执行下一尺度的注意力操作，以获得下一尺度的注意力特征320-4以及该尺度的注意力特征320-4与下一尺度的特征向量310-5进行融合并且执行下一尺度的注意力操作，以获得下一尺度的注意力特征320-5，从而获得多个尺度的注意力特征320-1至注意力特征320-5。

进一步地，通过将多个尺度的注意力特征320-1至注意力特征320-5进行融合，以获得第一特征结果205。基于此，获得的第一特征结果包含了不同尺度的特征，融合了不同细节的信息，使得第一特征结果包含更丰富的信息，以进一步提升预测结果的准确性。

图4是示出根据本申请实施例的自注意力操作的示例性示意图。如图4中所示，在执行注意力操作时，通过对相应尺度的特征向量分别执行多次卷积操作，以获得多个卷积向量。例如图中示例性示出三个

卷积运算，并对应获得三个卷积向量，即查询向量、键向量和键向量。以上述特征向量310-1为例，经前述三个

卷积运算后获得查询向量、键向量和键向量。在实现场景中，首先计算查询向量与所有键向量的点积（如图中“

”所示）来确定注意力权值，接着将根据注意力权值映射的值向量的加权求和（如图中“

”所示）获得特征向量310-1对应的自注意力特征320-1。

图5是示出根据本申请实施例的用于预测认知障碍的装置所执行的操作500的示例性流程框图。如图5中所示，在步骤501处，获取眼底图像数据和与认知障碍相关的多模态数据。如前所述，前述眼底图像数据可以通过例如眼底相机进行采集获得。前述多模态数据可以例如是年龄、教育程度、身体质量指数、心衰病史和睡眠呼吸暂停综合症等。基于获得的眼底图像数据和多模态数据，在步骤502处，使用第一网络模型对眼底图像数据执行特征提取，以获得第一特征结果。在一个实施例中，第一网络模型可以例如是ResBlocks模型。通过在第一网络模型增加自注意力机制并进行多尺度编码，可以获得多个尺度的注意力特征。

接着，在步骤503处，使用第二网络模型对多模态数据执行特征提取，以获得第二特征结果。在一个实施例中，第二网络模型可以例如是全连接模型。具体地，通过全连接模型中的全连接层、ReLU激活层、Dropout层、全连接层和ReLU激活层，获得第二特征结果。在获取前述第一、第二特征结果后，在步骤504处，将第一特征结果和第二特征结果进行拼接，以获得预测认知障碍的初始预测结果，进而在步骤505处，基于初始预测结果和第二特征结果获得预测认知障碍的最终预测结果。关于用于预测认知障碍的装置所执行的操作的更多细节，可以参考上述图1-图4所描述的内容，本申请在此不再赘述。

图6是示出根据本申请实施例的用于预测认知障碍的设备600的示例性结构框图。可以理解的是，实现本申请方案的设备可以是单一的设备（例如计算设备）或包括各种外围设备的多功能设备。

如图6中所示，本申请的设备可以包括中央处理器或中央处理单元（“CPU”）611，其可以是通用CPU、专用CPU或者其他信息处理以及程序运行的执行单元。进一步，设备600还可以包括大容量存储器612和只读存储器（“ROM”）613，其中大容量存储器612可以配置用于存储各类数据，包括各种与眼底图像数据和与认知障碍相关的多模态数据、算法数据、中间结果和运行设备600所需要的各种程序。ROM 613可以配置成存储对于设备600的加电自检、系统中各功能模块的初始化、系统的基本输入/输出的驱动程序及引导操作系统所需的数据和指令。

可选地，设备600还可以包括其他的硬件平台或组件，例如示出的张量处理单元（“TPU”）614、图形处理单元（“GPU”）615、现场可编程门阵列（“FPGA”）616和机器学习单元（“MLU”）617。可以理解的是，尽管在设备600中示出了多种硬件平台或组件，但这里仅仅是示例性的而非限制性的，本领域技术人员可以根据实际需要增加或移除相应的硬件。例如，设备600可以仅包括CPU、相关存储设备和接口设备来实现本申请的用于预测认知障碍的装置所执行的操作。

在一些实施例中，为了便于数据与外部网络的传递和交互，本申请的设备600还包括通信接口618，从而可以通过该通信接口618连接到局域网/无线局域网（“LAN/WLAN”）605，进而可以通过该LAN/WLAN连接到本地服务器606或连接到因特网（“Internet”）607。替代地或附加地，本申请的设备600还可以通过通信接口618基于无线通信技术直接连接到因特网或蜂窝网络，例如基于第3代（“3G”）、第4代（“4G”）或第5代（“5G”）的无线通信技术。在一些应用场景中，本申请的设备600还可以根据需要访问外部网络的服务器608和数据库609，以便获得各种已知的算法、数据和模块，并且可以远程地存储各种数据，例如用于呈现例如眼底图像数据和与认知障碍相关的多模态数据等的各类数据或指令。

设备600的外围设备可以包括显示装置602、输入装置603和数据传输接口604。在一个实施例中，显示装置602可以例如包括一个或多个扬声器和/或一个或多个视觉显示器，其配置用于对本申请的预测认知障碍进行语音提示和/或图像视频显示。输入装置603可以包括例如键盘、鼠标、麦克风、姿势捕捉相机等其他输入按钮或控件，其配置用于接收音频数据的输入和/或用户指令。数据传输接口604可以包括例如串行接口、并行接口或通用串行总线接口（“USB”）、小型计算机系统接口（“SCSI”）、串行ATA、火线（“FireWire”）、PCIExpress和高清多媒体接口（“HDMI”）等，其配置用于与其他设备或系统的数据传输和交互。根据本申请的方案，该数据传输接口604可以接收来自于眼底相机采集的眼底图像数据，并且向设备600传送包括眼底图像数据、多模态数据或各种其他类型的数据或结果。

本申请的设备600的上述CPU 611、大容量存储器612、ROM 613、TPU 614、GPU 615、FPGA 616、MLU 617和通信接口618可以通过总线619相互连接，并且通过该总线与外围设备实现数据交互。在一个实施例中，通过该总线619，CPU 611可以控制设备600中的其他硬件组件及其外围设备。

以上结合图6描述了可以用于执行本申请的用于预测认知障碍的设备。需要理解的是这里的设备结构或架构仅仅是示例性的，本申请的实现方式和实现实体并不受其限制，而是可以在不偏离本申请的精神下做出改变。

根据上述结合附图的描述，本领域技术人员也可以理解本申请的实施例还可以通过软件程序来实现。由此本申请还提供了一种计算机程序产品。该计算机程序产品可以用于实现本申请结合附图1所描述的用于预测认知障碍的装置所执行的操作。

应当注意，尽管在附图中以特定顺序描述了本申请方法的操作，但是这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。相反，流程图中描绘的步骤可以改变执行顺序。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

应当理解，当本申请的权利要求、当说明书及附图中使用到术语“第一”、“第二”、“第三”和“第四”等时，其仅用于区别不同对象，而不是用于描述特定顺序。本申请的说明书和权利要求书中使用的术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的，而并不意在限定本申请。如在本申请说明书和权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。还应当进一步理解，在本申请说明书和权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

虽然本申请的实施方式如上，但所述内容只是为便于理解本申请而采用的实施例，并非用以限定本申请的范围和应用场景。任何本申请所述技术领域内的技术人员，在不脱离本申请所揭露的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本申请的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种用于预测认知障碍的装置，包括：

处理器；

存储器，其存储有用于预测认知障碍的程序指令，当所述程序指令由所述处理器执行时，使得所述装置实现以下操作：

获取眼底图像数据和与认知障碍相关的多模态数据；

使用第一网络模型提取所述眼底图像数据的多个尺度的特征向量；

对相应尺度的特征向量执行自注意力操作，获得对应的自注意力特征；

将所述对应的自注意力特征与下一尺度的特征向量进行融合并且执行下一尺度的注意力操作，以获得多个尺度的注意力特征；

根据所述多个尺度的注意力特征获得第一特征结果；

使用第二网络模型对所述多模态数据执行特征提取，以获得第二特征结果；

将所述第一特征结果和所述第二特征结果进行拼接，以获得预测认知障碍的初始预测结果；以及

基于所述初始预测结果和所述第二特征结果获得预测认知障碍的最终预测结果。

2.根据权利要求1所述的装置，其中所述多模态数据至少包括年龄、教育程度、身体质量指数、心衰病史和睡眠呼吸暂停综合症。

3.根据权利要求1所述的装置，其中当所述程序指令由所述处理器执行时，使得所述装置进一步实现以下操作，以获得多个尺度的特征向量：

使用所述第一网络模型对所述眼底图像数据执行多尺度特征提取，获得多个尺度的特征向量。

4. 根据权利要求3所述的装置，其中当所述程序指令由所述处理器执行时，使得所述装置进一步实现以下操作，以获得对应的自注意力特征：

对相应尺度的特征向量分别执行多次卷积操作，获得多个卷积向量；以及

基于所述多个卷积向量获得对应的自注意力特征。

5. 根据权利要求4所述的装置，其中所述多个卷积向量包括查询向量、键向量和值向量，并且当所述程序指令由所述处理器执行时，使得所述装置进一步实现以下操作，以获得对应的自注意力特征：

基于所述查询向量和所述键向量确定注意力权值；以及

根据所述注意力权值映射的所述值向量的加权求和获得对应的自注意力特征。

6.根据权利要求1所述的装置，其中当所述程序指令由所述处理器执行时，使得所述装置进一步实现以下操作，以获得所述第一特征结果：

将所述多个尺度的注意力特征进行融合，以获得所述第一特征结果。

7.根据权利要求1所述的装置，其中所述第一网络模型包括ResBlocks模型，所述第二网络模型包括全连接模型。

8.根据权利要求1所述的装置，其中当所述程序指令由所述处理器执行时，使得所述装置进一步实现以下操作：

将所述第一特征结果和所述第二特征结果的拼接结果输入初始预测模块，以获得预测认知障碍的所述初始预测结果。

9.一种计算机可读存储介质，其上存储有用于预测认知障碍的计算机可读指令，该计算机可读指令被一个或多个处理器执行时，实现如权利要求1-8任意一项所述的装置所执行的操作。