CN114708465A

CN114708465A - 图像分类方法、装置、电子设备与存储介质

Info

Publication number: CN114708465A
Application number: CN202210628109.4A
Authority: CN
Inventors: 崔玥; 李超; 余山
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2022-06-06
Filing date: 2022-06-06
Publication date: 2022-07-05
Anticipated expiration: 2042-06-06
Also published as: CN114708465B

Abstract

本发明涉及人工智能技术领域，提供一种图像分类方法、装置、电子设备与存储介质，其中方法包括：确定待分类的神经影像；将神经影像输入至分类模型，得到分类模型输出的神经影像的分类结果；分类模型是在多任务学习预训练模型的基础上，基于第一样本神经影像及其对应的样本分类结果训练得到的，多任务学习预训练模型是在无监督预训练模型的基础上，基于第二样本神经影像及其对应的各任务下的样本标签训练得到的，无监督预训练模型是基于第三样本神经影像无监督训练得到的。本发明提供的方法、装置、电子设备与存储介质，节省了数据的标注成本，避免了模型出现过拟合的问题，提升了模型在图像分类任务上的性能与泛化性，提升了分类结果的准确性。

Description

图像分类方法、装置、电子设备与存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种图像分类方法、装置、电子设备与存储介质。

背景技术

在深度学习中，数据集的大小直接影响着深度模型的表现，样本数量越多，训练出来的模型效果越好，模型的泛化能力越强。

目前，基于神经影像的深度模型的分类研究，大多采用基于单一有监督任务的训练方式，然而，脑部神经影像数据集通常规模较小，仅有几十例或几百例数据量，且高质量的标注成本代价较高，使得此种有监督的训练方式容易出现过拟合的问题，从而导致深度模型的性能较差。

发明内容

本发明提供一种图像分类方法、装置、电子设备与存储介质，用以解决现有技术中神经影像的分类模型的训练方式容易出现过拟合的缺陷。

本发明提供一种图像分类方法，包括：

确定待分类的神经影像；

将所述神经影像输入至分类模型，得到所述分类模型输出的所述神经影像的分类结果；

所述分类模型是在多任务学习预训练模型的基础上，基于第一样本神经影像及其对应的样本分类结果训练得到的，所述多任务学习预训练模型是在无监督预训练模型的基础上，基于第二样本神经影像及其对应的各任务下的样本标签训练得到的，所述无监督预训练模型是基于第三样本神经影像无监督训练得到的。

根据本发明提供的一种图像分类方法，所述无监督预训练模型基于如下步骤训练得到：

基于所述第三样本神经影像，构建正样本对和负样本对；

将所述正样本对中的各个影像输入至图像重建预训练模型，得到所述图像重建预训练模型输出的所述正样本对对应的各个特征向量；

将所述负样本对中的各个影像输入至图像重建预训练模型，得到所述图像重建预训练模型输出的所述负样本对对应的各个特征向量；

以所述正样本对对应的各个特征向量的一致性，以及所述负样本对对应的各个特征向量的差异性为目标，对图像重建预训练模型进行训练，得到所述对比学习预训练模型。

根据本发明提供的一种图像分类方法，所述图像重建预训练模型基于如下步骤构建：

基于第四样本神经影像，对第一初始网络进行训练，得到第一网络；

将第五样本神经影像输入至所述第一网络中的第一编码器，得到所述第一编码器输出的样本特征图；

基于所述样本特征图，对第二初始网络进行训练，得到第二网络；

基于所述第一网络中的第一编码器和所述第二网络中的第二编码器，构建所述图像重建预训练模型。

根据本发明提供的一种图像分类方法，所述基于第四样本神经影像，对第一初始网络进行训练，得到第一网络，包括：

将所述第四样本神经影像输入至所述第一初始网络，得到所述第一初始网络输出的预测神经影像；

以所述第四样本神经影像与所述预测神经影像的一致性为目标，对所述第一初始网络进行训练，得到所述第一网络。

根据本发明提供的一种图像分类方法，所述基于所述样本特征图，对第二初始网络进行训练，得到第二网络，包括：

将所述样本特征图分为遮挡区域图像和无遮挡区域图像；

将共享向量和所述无遮挡区域图像输入至所述第二初始网络，得到所述第二初始网络输出的所述遮挡区域图像对应的预测特征图，所述共享向量用于表示所述遮挡区域图像；

以所述预测特征图与所述遮挡区域图像的一致性为目标，对所述第二初始网络进行训练，得到所述第二网络。

根据本发明提供的一种图像分类方法，所述将共享向量和所述无遮挡区域图像输入至所述第二初始网络，得到所述第二初始网络输出的所述遮挡区域图像对应的预测特征图，包括：

将所述无遮挡区域图像输入至所述第二初始网络中的编码器，得到所述编码器输出的所述无遮挡区域图像的特征；

将所述共享向量以及所述无遮挡区域图像的特征输入至所述第二初始网络中的解码器，得到所述解码器输出的所述预测特征图。

根据本发明提供的一种图像分类方法，所述神经影像为多模态神经影像。

本发明还提供一种图像分类装置，包括：

确定单元，用于确定待分类的神经影像；

分类单元，用于将所述神经影像输入至分类模型，得到所述分类模型输出的所述神经影像的分类结果；

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述图像分类方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述图像分类方法。

本发明提供的图像分类方法、装置、电子设备与存储介质，通过基于第三样本神经影像无监督训练得到无监督预训练模型，再在无监督预训练模型的基础上，基于第二样本神经影像及其对应的各任务下的样本标签训练得到多任务学习预训练模型，并在多任务学习预训练模型的基础上，基于第一样本神经影像及其对应的样本分类结果训练得到分类模型，从而节省了数据的标注成本，同时避免了模型出现过拟合的问题，极大提升了模型在图像分类任务上的性能与泛化性，在此基础上，应用分类模型对输入的神经影像进行分类，从而能够极大提升分类结果的准确性。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的图像分类方法的流程示意图；

图2是本发明提供的分类模型的训练流程示意图；

图3是本发明提供的分类模型的网络结构示意图；

图4是本发明提供的图像分类装置的结构示意图；

图5是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在深度学习中，数据集的大小直接影响着深度模型的表现，样本数量越多，训练出来的模型效果越好，模型的泛化能力越强。大规模预训练方法（例如利用几万例神经影像数据）具有对大量数据建模和特征学习能力，挖掘神经影像本身的内在特性，其学习到的预训练模型经过微调后可以应用于多个下游任务，从而有效提高深度模型在小数据集上的表现。

目前，基于神经影像的深度模型的分类研究，大多采用基于单一有监督任务的训练方式，不能充分探索不同有监督任务以及任务组合对下游任务的影响，导致深度模型的性能较差。并且，脑部神经影像数据集通常规模较小，仅有几十例或几百例数据量，高质量的标注成本代价较高，使得此种有监督的训练方式容易出现过拟合的问题，不能充分利用大量的无标签神经影像数据，不能充分挖掘神经影像本身的固有属性，从而也会导致深度模型的性能较差。

无监督预训练方法可以充分利用大量的无标签神经影像数据，从神经影像数据中抽取更好的表征能力，提升下游任务的性能。无监督表征学习策略已经应用于自然语言处理、二维自然图像处理等领域，目前尚缺乏基于无监督预训练框架的三维神经影像表征学习策略，或有监督和无监督预训练框架融合的表征学习策略。

对此，本发明提供一种图像分类方法。图1是本发明提供的图像分类方法的流程示意图，如图1所示，该方法包括：

步骤110，确定待分类的神经影像；

步骤120，将神经影像输入至分类模型，得到分类模型输出的神经影像的分类结果；

分类模型是在多任务学习预训练模型的基础上，基于第一样本神经影像及其对应的样本分类结果训练得到的，多任务学习预训练模型是在无监督预训练模型的基础上，基于第二样本神经影像及其对应的各任务下的样本标签训练得到的，无监督预训练模型是基于第三样本神经影像无监督训练得到的。

具体地，待分类的神经影像即需要进行分类的三维神经影像。考虑到无监督预训练方法可以充分利用大量的无标签神经影像数据，从神经影像数据中抽取更好的表征能力，提升下游任务的性能，对此，本发明实施例针对用于执行图像分类的分类模型，采用无监督和有监督融合的多阶段式预训练策略，从而能够有效利用无标签大数据集，提高神经影像的表征学习能力，进而可以提升模型在分类任务上的性能与泛化性，同时能够降低对于有标签数据集的依赖性，节省数据的标注成本。

其中，在无监督预训练阶段，可以应用无标签的第三样本神经影像，对图像重建预训练模型进行无监督训练，从而得到无监督预训练模型，用于后续的有监督预训练阶段。此处，无监督预训练阶段可以采用单个无监督训练任务，也可以采用多个无监督训练任务的组合，无监督训练的具体方式例如可以采用GAN（Generative Adversarial Network，生成对抗网络）算法、VAE（Variational Auto-Encoder，变分自编码器）算法、对比学习算法等，本发明实施例对此均不作具体限定。

基于此，又考虑到基于单一有监督任务的训练方式容易出现过拟合的问题，对此，本发明实施例在有监督预训练阶段引入多任务学习方法，在无监督预训练模型的基础上添加特定于各个任务的层，并应用第二样本神经影像及其对应的各任务下的样本标签进行训练，从而得到多任务学习预训练模型。随即，为了使得多任务学习预训练模型更好地应用于图像分类任务，本发明实施例在多任务学习预训练模型的基础上添加特定于图像分类任务的层，并应用第一样本神经影像及其对应的样本分类结果进行训练，最终即可得到微调后的分类模型。

需要说明的是，分类模型采用无监督和有监督融合的多阶段式预训练策略得到，并在有监督预训练阶段引入多任务学习方法，从而极大促进了模型学习到泛化性更强的特征表示，同时也通过不同多任务共享参数的训练方式缓解了模型在单一任务上所出现的过拟合问题，进而极大提升了模型在图像分类任务上的性能与泛化性，在此基础上，应用分类模型对输入的神经影像进行分类，从而能够得到较为准确的神经影像的分类结果。

本发明实施例提供的方法，通过基于第三样本神经影像无监督训练得到无监督预训练模型，再在无监督预训练模型的基础上，基于第二样本神经影像及其对应的各任务下的样本标签训练得到多任务学习预训练模型，并在多任务学习预训练模型的基础上，基于第一样本神经影像及其对应的样本分类结果训练得到分类模型，从而节省了数据的标注成本，同时避免了模型出现过拟合的问题，极大提升了模型在图像分类任务上的性能与泛化性，在此基础上，应用分类模型对输入的神经影像进行分类，从而能够极大提升分类结果的准确性。

基于上述实施例，无监督预训练模型基于如下步骤训练得到：

基于第三样本神经影像，构建正样本对和负样本对；

将正样本对中的各个影像输入至图像重建预训练模型，得到图像重建预训练模型输出的正样本对对应的各个特征向量；

将负样本对中的各个影像输入至图像重建预训练模型，得到图像重建预训练模型输出的负样本对对应的各个特征向量；

以正样本对对应的各个特征向量的一致性，以及负样本对对应的各个特征向量的差异性为目标，对图像重建预训练模型进行训练，得到无监督预训练模型。

具体地，为了从无标签大数据集中学习潜在空间的表征，保证同类数据的表征尽量相似，异类数据的表征尽量不同，以利用学习到的表征能力来提升模型在下游任务上的性能表现，本发明实施例在无监督预训练阶段引入对比学习方法，即对图像重建预训练模型进行对比学习预训练，从而得到无监督预训练模型，具体的训练过程可以如下：

首先，对原始的第三样本神经影像进行一定的旋转、翻转、颜色变换、模糊等数据增强操作，根据增强处理后的影像构建正样本对和负样本对，正样本对为来自相同的样本神经影像的两个影像，负样本对为来自不同的样本神经影像的两个影像；将正样本对中的每个影像输入到图像重建预训练模型中，得到图像重建预训练模型输出的每个影像的特征向量，由此即可得到正样本对对应的两个特征向量；将负样本对中的每个影像输入到图像重建预训练模型中，得到图像重建预训练模型输出的每个影像的特征向量，由此即可得到负样本对对应的两个特征向量；

在此基础上，可以以正样本对对应的两个特征向量之间的一致性，以及负样本对对应的两个特征向量之间的差异性为目标，对图像重建预训练模型进行训练，即在训练过程中结合正样本对对应的两个特征向量之间的一致性的损失，以及负样本对对应的两个特征向量之间的差异性的损失，来更新模型的参数，最终得到无监督预训练模型。

此处，图像重建预训练模型可以采用单一的神经网络，也可以采用多个神经网络的组合，本发明实施例对此不作具体限定。

基于上述任一实施例，图像重建预训练模型基于如下步骤构建：

将第五样本神经影像输入至第一网络中的第一编码器，得到第一编码器输出的样本特征图；

基于样本特征图，对第二初始网络进行训练，得到第二网络；

基于第一网络中的第一编码器和第二网络中的第二编码器，构建图像重建预训练模型。

具体地，考虑到现有的神经影像的预训练方法仅使用单一的神经网络模型，而单一的神经网络模型存在缺陷和局限性，例如CNN（Convolutional Neural Network，卷积神经网络）提取局部位置信息的能力强，但是不易于对长距离信息进行建模。

针对上述问题，本发明实施例中图像重建预训练模型可以由第一网络中的第一编码器和第二网络中的第二编码器按先后顺序进行拼接得到。此处，第一网络和第二网络可以均由预训练得到，从而通过引入预训练任务，提升图像重建预训练模型的泛化性能，进而可以进一步提升分类模型在图像分类任务上的性能与泛化性。

其中，可以首先应用第四样本神经影像对第一初始网络进行无监督训练，得到第一网络，再将第五样本神经影像输入到第一网络中的第一编码器进行特征提取，得到第一编码器提取出的样本特征图，随即应用样本特征图，对第二初始网络进行训练，得到第二网络。

可以理解的是，第三样本神经影像、第四样本神经影像和第五样本神经影像均为无监督的神经影像数据，具体可以是相同的样本神经影像，也可以是不同的样本神经影像，第一网络和第二网络具体可以采用相同的无监督训练方式，也可以采用不同的无监督训练方式，本发明实施例对此均不作具体限定。

基于上述任一实施例，第一初始网络可以采用ResNet、Inception等主流的CNN网络架构进行构建，第二初始网络可以采用Transformer构建，分别对第一初始网络和第二初始网络进行训练即可得到第一网络和第二网络，再将第一网络中的第一编码器与第二网络中的第二编码器按先后顺序进行拼接，得到图像重建预训练模型，从而可以使得图像重建预训练模型同时兼具了Transformer易于对长距信息进行建模的优点，以及CNN易于对局部位置信息进行建模的优点。

本发明实施例提供的方法，通过使用CNN与Transformer结合的模型，兼顾了CNN擅长提取局部信息与Transformer擅长提取全局信息的特点，其性能优于仅用CNN或仅用Transformer模型架构。

基于上述任一实施例，基于第四样本神经影像，对第一初始网络进行训练，得到第一网络，包括：

将第四样本神经影像输入至第一初始网络，得到第一初始网络输出的预测神经影像；

以第四样本神经影像与预测神经影像的一致性为目标，对第一初始网络进行训练，得到第一网络。

具体地，为了提升第一网络对神经影像的表征能力，本发明实施例中第一网络可以通过如下方式训练得到：

首先，将第四样本神经影像输入到第一初始网络中，由编码器在特征提取过程中将第四样本神经影像降采样至较小尺寸，再由解码器将从编码器获取的降采样的图像不断上采样，以恢复为原始尺寸的图像，即预测神经影像；在此基础上，即可以第四样本神经影像与预测神经影像的一致性为目标，对第一初始网络进行训练，即在训练过程中结合第四样本神经影像与预测神经影像的一致性的损失，来更新第一初始网络的参数，最终即可得到能够实现输入图像和输出图像一致的第一网络。

基于上述任一实施例，基于样本特征图，对第二初始网络进行训练，得到第二网络，包括：

将样本特征图分为遮挡区域图像和无遮挡区域图像；

将共享向量和无遮挡区域图像输入至第二初始网络，得到第二初始网络输出的遮挡区域图像对应的预测特征图，共享向量用于表示遮挡区域图像；

以预测特征图与遮挡区域图像的一致性为目标，对第二初始网络进行训练，得到第二网络。

具体地，为了提升第二网络对神经影像的表征能力，本发明实施例中第二网络可以通过如下方式训练得到：

首先，将样本特征图进行随机遮挡，遮挡部分的样本特征图即为遮挡区域图像，未遮挡部分的样本特征图即为无遮挡区域图像，随即，采用共享向量表示遮挡区域图像，将共享向量和无遮挡区域图像输入到第二初始网络中进行遮挡区域图像的重建，从而得到第二初始网络输出的遮挡区域图像对应的预测特征图，在此基础上，即可以预测特征图与遮挡区域图像的一致性为目标，对第二初始网络进行训练，即在训练过程中结合预测特征图与遮挡区域图像的一致性的损失，来更新第二初始网络的参数，最终即可得到第二网络。

基于上述任一实施例，将共享向量和无遮挡区域图像输入至第二初始网络，得到第二初始网络输出的遮挡区域图像对应的预测特征图，包括：

将无遮挡区域图像输入至第二初始网络中的编码器，得到编码器输出的无遮挡区域图像的特征；

将共享向量以及无遮挡区域图像的特征输入至第二初始网络中的解码器，得到解码器输出的预测特征图。

具体地，第二初始网络可以包括编码器和解码器，将样本特征图分为遮挡区域图像和无遮挡区域图像之后，遮挡区域图像所对应位置可以使用共享向量表示，此处的共享向量由网络在训练过程中进行更新；将无遮挡区域图像输入到编码器中，编码器对无遮挡区域图像进行特征提取，从而提取得到无遮挡区域图像的特征；随即，将遮挡区域图像对应的共享向量以及无遮挡区域图像的特征输入到解码器中进行遮挡区域图像的重建，从而得到解码器输出的遮挡区域图像对应的预测特征图，用于第二初始网络的损失值的计算。

进一步地，在得到无遮挡区域图像的特征之后，可以将共享向量以及无遮挡区域图像的特征分别与对应的包含位置信息的位置编码向量（Position Encoding）相加后，再一起输入到解码器中进行遮挡区域图像的重建，从而可以使得解码器分辨出所输入的共享向量具体属于哪个位置，并基于此重建出遮挡区域图像对应的预测特征图。

可以理解的是，当第二初始网络训练完毕，训练完成的第二初始网络即第二网络，对应地，训练完成的第二初始网络中的编码器即第二网络中的第二编码器，可以用于构建图像重建预训练网络。

基于上述任一实施例，目前，人工智能领域的Masked autoencoder预训练方法主要用于二维图像重建任务，此预训练方法的具体思路是：随机大比例遮挡原始图像中的图像块（patch），让模型预测遮挡住的patch，对此，本发明实施例提供了一种改进的图像重建的预训练方法，首先通过第一编码器提取得到三维样本神经影像的样本特征图，再将样本特征图按照位置划分为多个三维patch，并以一定比例遮挡部分patch，未被遮挡patch即组成无遮挡区域图像，被遮挡patch即组成遮挡区域图像，此处的比例可以根据需求进行任意设定，本发明实施例对此不作具体限定。

随即，第二初始网络中的编码器接收未被遮挡patch作为输入，对每个patch进行特征提取，第二初始网络中的解码器的输入包括所有patch的输入，其中未被遮挡patch的输入为编码器提取的特征，被遮挡patch的输入使用共享向量表示，解码器的输出为遮挡部分对应的预测特征图，并在训练过程中，使用预测特征图与遮挡部分的原始特征图的逐体素的均方误差作为损失值（loss），对第二初始网络进行参数迭代更新，最终即可得到第二网络。

需要说明的是，相较于传统的Cutout式遮罩方法（在三维图像中随机选取唯一一个点作为中心点，遮罩唯一一个固定大小的立方体），或者在原始图像上遮罩的方法，本发明实施例在图像重建阶段引入随机遮罩特征图的patch并对其进行重建的预训练方式，实验证明能够取得更好的预训练效果。并且，相比于CNN的感受野有限，该种图像重建预训练方法更适合能获取全局关联信息的Transformer模型。

进一步地，还可以在图像重建的预训练阶段引入更多的无监督预训练任务，例如，随机遮挡住样本特征图的左脑区域或右脑区域，并通过未遮挡的部分对遮挡部分进行重建，随即根据重建的预测特征图与遮挡部分的原始特征图对网络进行参数迭代更新，又例如，输入的样本特征图包含多个通道（例如灰质、白质和脑脊液等），可遮挡住其中一个通道，通过剩余通道对所遮挡通道进行重建，随即根据重建的预测特征图与遮挡通道的原始特征图对网络进行参数迭代更新。

基于上述任一实施例，考虑到不同模态的神经影像包含的信息不一样，步骤110中待分类的神经影像可以是多模态神经影像，从而可以通过采用多模态融合策略，引入更多的数据模态，进而可以使得深度模型利用不同模态提供的互补信息，进一步提升深度模型的分类表现。对应地，用于训练模型的各类样本神经影像也可以是多模态的样本神经影像。

此处，多模态神经影像例如可以是T1加权影像，T2加权影像，弥散磁共振影像，功能磁共振影像等方式得到的脑部神经影像，以及根据其进行处理和计算得到的衍生图像，本发明实施例对此不作具体限定。

基于上述任一实施例，已有的基于图像的无监督表征学习方法主要有对比学习和图像重建两种方法。对比学习方法是将样本与和其相似以及不相似的样例进行对比，希望通过设计模型结构和对比损失，使相近的样本对应的表示在表示空间更接近，不相近的样本对应的表示距离更远，以达到类似聚类的效果。图像重建方法是对样本进行一定的遮罩或模糊处理，令模型通过处理后的图像预测原始图像。

对此，本发明提供一种神经影像的分类模型的训练方法。图2是本发明提供的分类模型的训练流程示意图，如图2所示，该方法包括：

S1、采用Autoencoder的预训练方式获取第一网络：

采用CNN构建第一初始网络，并应用样本神经影像数据，对第一初始网络进行训练，从而得到第一网络。需要说明的是，样本神经影像数据为完整的三维多模态神经影像，且在以下各个步骤中，模型所输入数据的模态均与此步骤保持一致。

可以以Autoencoder（自编码器）的形式对第一初始网络在大规模数据集上进行预训练，具体过程可以是，将样本神经影像数据输入到第一初始网络中，由于样本神经影像数据为完整的三维多模态神经影像，第一初始网络可以先将多个模态的神经影像数据在通道维度上进行拼接，得到拼接后的样本神经影像，再由第一初始网络中的编码器（encoder）在特征提取过程中将样本神经影像降采样至较小尺寸，解码器（decoder）负责将从编码器获取的降采样的图像不断上采样，以恢复为原始尺寸的图像，即预测神经影像，并对预测神经影像与样本神经影像进行逐体素的均方误差计算，将其作为loss，对第一初始网络进行参数迭代更新，最终即可得到能够实现输入图像和输出图像一致的第一网络。

此处，第一初始网络中的编码器和解码器可以采用ResNet、Inception等主流的CNN网络架构，本发明实施例对此不作具体限定。

S2、采用图像重建的预训练方式获取第二网络：

采用Transformer构建第二初始网络，并应用样本神经影像数据，对第二初始网络进行训练，从而得到第二网络。

可选地，可以采用根据遮挡后的图像对原始特征图进行重建的方式，对第二初始网络进行预训练，预训练过程中固定第一网络中的第一编码器的参数，仅训练第二初始网络，具体过程可以是，将样本神经影像输入至步骤S1中训练好的第一编码器，得到第一编码器提取出的样本特征图，按照位置将样本特征图划分为多个三维patch，并以一定比例遮挡部分patch，第二初始网络同样分为编码器和解码器两部分，第二初始网络中的编码器接收未被遮挡patch作为输入，对每个patch进行特征提取，第二初始网络中的解码器的输入包括所有patch的输入，其中未被遮挡patch的输入为编码器提取的特征，遮挡patch的输入使用共享向量表示（共享向量由网络在训练过程中进行更新，训练完毕后就完全固定，对任何样本都是一致的），解码器的输出为遮挡部分对应的预测特征图，并在训练过程中，使用预测特征图与遮挡部分的原始特征图的逐体素的均方误差作为loss，对第二初始网络进行参数迭代更新，最终即可得到第二网络。

S3、采用对比学习的预训练方法获取无监督预训练模型：

步骤S1训练完毕后，去除第一网络中的解码器部分；步骤S2训练完毕后，去除第二网络中的解码器部分；在此基础上，将第一网络中的第一编码器与第二网络中的第二编码器按先后顺序进行拼接，得到图像重建预训练模型。

在大规模数据集上进行对比学习预训练，对原始的样本神经影像进行一定的旋转、翻转、颜色变换、模糊等数据增强操作，根据增强处理后的影像构建正样本对和负样本对，正样本对为来自相同的样本神经影像的样本对，负样本对为来自不同的样本神经影像的样本对，训练过程中，每次取样本对中的两个影像分别输入到图像重建预训练模型，图像重建预训练模型针对每个输入的影像输出一个长度相同的特征向量，计算两个特征向量的余弦距离

，不同的是，针对于正样本对，将

作为其loss，针对于负样本对，将

作为其loss。

S4、采用多任务学习的有监督预训练方法获取多任务学习预训练模型：

在无监督预训练模型的基础上，再添加特定于各个任务的层，并应用样本神经影像以及样本神经影像对应的各任务下的样本标签进行多任务有监督预训练，从而得到多任务学习预训练模型。

此处，可以以年龄、性别、体重指数等多项指标同时作为模型的预测目标进行多任务训练。训练的反向传播（Back Propagation）过程中，CNN与Transformer模型部分的参数均进行更新，模型的输入为原始的样本神经影像，输出为对多个任务指标的预测值，对每个任务分别计算分类/回归的loss，加和后作为整体loss进行梯度更新。

S5、在下游任务上对多任务学习预训练模型进行微调，得到分类模型：

可以将多任务学习预训练模型应用于下游任务中进行微调训练，例如，可以应用于图像分类任务中，在多任务学习预训练模型的基础上添加特定于图像分类任务的层，并应用第一样本神经影像及其对应的样本分类结果进行训练，最终即可得到微调后的分类模型。由于模型已在原始数据上收敛，此时应设置较小学习率（例如≤0.0001）在新的目标数据集即第一样本神经影像上进行训练。

图3是本发明提供的分类模型的网络结构示意图，如图3所示，在分类模型的应用过程中，可以将待分类的多模态的神经影像

（通道、高度、宽度和深度分别为C、H、W和D）输入到分类模型中，由第一网络（3D CNN）的第一编码器对该神经影像进行特征提取，得到特征图

（通道、高度、宽度和深度分别为

、

、

和

），第二网络（Transformer）的线性展平层（Linear Flatten）对特征图分成的各个patch进行Flatten操作，映射得到各个 patch向量（Patch Embedding）以及对应的位置编码，再将各个patch向量及其对应的位置编码输入到第二网络的第二编码器中，得到第二编码器输出的各个编码向量，再由GAP （Global Average Pooling，全局平均池化）转换成向量，最后由MLP Head（Multilayer Perceptron Head，多层感知机分类任务头）根据该向量进行分类，输出

对应的分类结果。

本发明实施例提供的方法，使用无监督和有监督融合的多阶段式预训练策略，引入图像重建（无监督）、对比学习（无监督）、多任务监督学习多个预训练任务，能够有效利用无标签大数据集，提升深度模型在下游任务上的性能与泛化性，提高神经影像的表征学习能力。

下面对本发明提供的图像分类装置进行描述，下文描述的图像分类装置与上文描述的图像分类方法可相互对应参照。

基于上述任一实施例，本发明提供一种图像分类装置。图4是本发明提供的图像分类装置的结构示意图，如图4所示，该装置包括：

确定单元410，用于确定待分类的神经影像；

分类单元420，用于将神经影像输入至分类模型，得到分类模型输出的神经影像的分类结果；

本发明实施例提供的装置，通过基于第三样本神经影像无监督训练得到无监督预训练模型，再在无监督预训练模型的基础上，基于第二样本神经影像及其对应的各任务下的样本标签训练得到多任务学习预训练模型，并在多任务学习预训练模型的基础上，基于第一样本神经影像及其对应的样本分类结果训练得到分类模型，从而节省了数据的标注成本，同时避免了模型出现过拟合的问题，极大提升了模型在图像分类任务上的性能与泛化性，在此基础上，应用分类模型对输入的神经影像进行分类，从而能够极大提升分类结果的准确性。

基于上述任一实施例，无监督预训练模型基于如下步骤训练得到：

基于第三样本神经影像，构建正样本对和负样本对；

将样本特征图分为遮挡区域图像和无遮挡区域图像；

将共享向量和无遮挡区域图像输入至第二初始网络，得到第二初始网络输出的遮挡区域图像对应的预测特征图，共享向量用于表示所述遮挡区域图像；

基于上述任一实施例，神经影像为多模态神经影像。

图5示例了一种电子设备的实体结构示意图，如图5所示，该电子设备可以包括：处理器（processor）510、通信接口（Communications Interface）520、存储器（memory）530和通信总线540，其中，处理器510，通信接口520，存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令，以执行图像分类方法，该方法包括：确定待分类的神经影像；将所述神经影像输入至分类模型，得到所述分类模型输出的所述神经影像的分类结果；所述分类模型是在多任务学习预训练模型的基础上，基于第一样本神经影像及其对应的样本分类结果训练得到的，所述多任务学习预训练模型是在无监督预训练模型的基础上，基于第二样本神经影像及其对应的各任务下的样本标签训练得到的，所述无监督预训练模型是基于第三样本神经影像无监督训练得到的。

此外，上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的图像分类方法，该方法包括：确定待分类的神经影像；将所述神经影像输入至分类模型，得到所述分类模型输出的所述神经影像的分类结果；所述分类模型是在多任务学习预训练模型的基础上，基于第一样本神经影像及其对应的样本分类结果训练得到的，所述多任务学习预训练模型是在无监督预训练模型的基础上，基于第二样本神经影像及其对应的各任务下的样本标签训练得到的，所述无监督预训练模型是基于第三样本神经影像无监督训练得到的。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的图像分类方法，该方法包括：确定待分类的神经影像；将所述神经影像输入至分类模型，得到所述分类模型输出的所述神经影像的分类结果；所述分类模型是在多任务学习预训练模型的基础上，基于第一样本神经影像及其对应的样本分类结果训练得到的，所述多任务学习预训练模型是在无监督预训练模型的基础上，基于第二样本神经影像及其对应的各任务下的样本标签训练得到的，所述无监督预训练模型是基于第三样本神经影像无监督训练得到的。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种图像分类方法，其特征在于，包括：

确定待分类的神经影像；

2.根据权利要求1所述的图像分类方法，其特征在于，所述无监督预训练模型基于如下步骤训练得到：

基于所述第三样本神经影像，构建正样本对和负样本对；

以所述正样本对对应的各个特征向量的一致性，以及所述负样本对对应的各个特征向量的差异性为目标，对图像重建预训练模型进行训练，得到所述无监督预训练模型。

3.根据权利要求2所述的图像分类方法，其特征在于，所述图像重建预训练模型基于如下步骤构建：

4.根据权利要求3所述的图像分类方法，其特征在于，所述基于第四样本神经影像，对第一初始网络进行训练，得到第一网络，包括：

5.根据权利要求3所述的图像分类方法，其特征在于，所述基于所述样本特征图，对第二初始网络进行训练，得到第二网络，包括：

将所述样本特征图分为遮挡区域图像和无遮挡区域图像；

6.根据权利要求5所述的图像分类方法，其特征在于，所述将共享向量和所述无遮挡区域图像输入至所述第二初始网络，得到所述第二初始网络输出的所述遮挡区域图像对应的预测特征图，包括：

7.根据权利要求1至6中任一项所述的图像分类方法，其特征在于，所述神经影像为多模态神经影像。

8.一种图像分类装置，其特征在于，包括：

确定单元，用于确定待分类的神经影像；

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述图像分类方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述图像分类方法。