CN115994558A

CN115994558A - 医学影像编码网络的预训练方法、装置、设备及存储介质

Info

Publication number: CN115994558A
Application number: CN202111211672.3A
Authority: CN
Inventors: 黎安伟
Original assignee: Guangzhou Shiyuan Electronics Thecnology Co Ltd; Guangzhou Shiyuan Artificial Intelligence Innovation Research Institute Co Ltd
Current assignee: Guangzhou Shiyuan Electronics Thecnology Co Ltd; Guangzhou Shiyuan Artificial Intelligence Innovation Research Institute Co Ltd
Priority date: 2021-10-18
Filing date: 2021-10-18
Publication date: 2023-04-21

Abstract

本申请实施例公开了医学影像编码网络的预训练方法、装置、设备及存储介质，其包括：获取被划分为多个图像块的医学影像；在多个图像块中选择待掩盖图像块；使用掩码图像块掩盖待掩盖图像块得到被掩盖图像；分别利用编码网络和动量平均网络得到查询特征和平均特征，编码网络和动量平均网络的结构相同，查询特征和平均特征中一个为被掩盖图像的全局特征，一个为掩码图像块的局部特征；基于查询特征和平均特征计算对比损失并根据对比损失更新编码网络的模型参数；根据编码网络更新后的模型参数更新动量平均网络的模型参数；继续进行训练，直到编码网络满足预训练停止条件。采用上述方法可以解决相关技术中缺少针对于医学影像的预训练模型的技术问题。

Description

医学影像编码网络的预训练方法、装置、设备及存储介质

技术领域

本申请实施例涉及神经网络技术领域，尤其涉及一种医学影像编码网络的预训练方法、装置、设备及存储介质。

背景技术

深度学习(Deep Learning，DL)是指学习样本数据的内在规律和表示层次，以让机器能够像人一样具有分析学习能力。随着深度学习技术的发展，深度学习模型被广泛应用在医学影像处理方向。例如，通过磁共振检查(Magnetic Resonance,MR)拍摄脑部医学影像，并利用深度学习模型对脑部医学影像中的脑胶质瘤进行分割，以实现辅助检测脑胶质瘤。再如，利用电子计算机断层扫描(Computed Tomography，CT)得到肺部医学影像，并利用深度学习模型检测肺部医学影像中的肺部结节，以实现辅助检测肺部结节。还如，利用直接数字化X射线摄影系统(DR)拍摄胸部医学影像，并利用深度学习模型检测胸部异常，以实现辅助检测胸部。

然而，相比于深度学习模型对自然图像(如人脸图像)的处理任务，深度学习模型对医学影像的处理任务中，缺少大数据集上的预训练模型。其中，预训练模型可以认为是基于大数据集预训练得到的、与具体任务无关的深度学习模型，在应用过程中，可以结合具体的任务，直接在预训练模型上进行微调训练，以使预训练模型快速适用于具体任务。但是，当前缺少用于医学影像的预训练模型。因此，在处理医学影像时，需要对深度学习模型从随机的初始化模型参数开始训练，这对训练使用的标注医学影像数据量的要求较高，且对模型调参策略要求较高，并且，存在模型训练困难、精度受限以及泛化能力不足的问题。

发明内容

本申请实施例提供了一种医学影像编码网络的预训练方法、装置、设备及存储介质，以解决相关技术中缺少针对于医学影像的预训练模型的技术问题。

第一方面，本申请一个实施例提供了一种医学影像编码网络的预训练方法，包括：

获取三维的医学影像，所述医学影像被划分为多个尺寸相同的图像块；

在多个所述图像块中，选择待掩盖图像块；

使用掩码图像块对所述医学影像中的所述待掩盖图像块进行掩盖，得到被掩盖图像；

分别利用编码网络和动量平均网络得到查询特征和平均特征，所述查询特征为所述掩码图像块的第一局部特征时，所述平均特征为所述被掩盖图像的第二全局特征，所述查询特征为所述被掩盖图像的第一全局特征时，所述平均特征为所述掩码图像块的第二局部特征，所述编码网络和所述动量平均网络的结构相同；

基于所述查询特征和所述平均特征计算对比损失，并根据所述对比损失更新所述编码网络的模型参数；

根据所述编码网络更新后的模型参数，更新所述动量平均网络的模型参数；

继续获取三维的医学影像，并返回执行选择待掩盖图像块的操作，直到所述编码网络满足预训练停止条件。

第二方面，本申请一个实施例还提供了一种医学影像编码网络的预训练装置，包括：

获取模块，用于获取三维的医学影像，所述医学影像被划分为多个尺寸相同的图像块；

选择模块，用于在多个所述图像块中，选择待掩盖图像块；

掩盖模块，用于使用掩码图像块对所述医学影像中的所述待掩盖图像块进行掩盖，得到被掩盖图像；

特征确定模块，用于分别利用编码网络和动量平均网络得到查询特征和平均特征，所述查询特征为所述掩码图像块的第一局部特征时，所述平均特征为所述被掩盖图像的第二全局特征，所述查询特征为所述被掩盖图像的第一全局特征时，所述平均特征为所述掩码图像块的第二局部特征，所述编码网络和所述动量平均网络的结构相同；

第一更新模块，用于基于所述查询特征和所述平均特征计算对比损失，并根据所述对比损失更新所述编码网络的模型参数；

第二更新模块，用于根据所述编码网络更新后的模型参数，更新所述动量平均网络的模型参数；

重复训练模块，用于继续获取三维的医学影像，并返回执行选择待掩盖图像块的操作，直到所述编码网络满足预训练停止条件。

第三方面，本申请一个实施例还提供了一种医学影像编码网络的预训练设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面所述的医学影像编码网络的预训练方法。

第四方面，本申请一个实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面所述的医学影像编码网络的预训练方法。

在本申请一个实施例中，通过获取三维的医学影像，该医学影像被划分为多个尺寸相同的图像块，之后，在各图像块中，选择待掩盖图像块，并使用掩码图像块对待掩盖图像块进行掩盖，得到被掩盖图像，由编码网络得到被掩盖图像的查询特征，由动量平均网络得到被掩盖图像的平均特征，并基于查询特征和平均特征进行对比学习以计算得到对比损失，根据对比损失更新编码网络的模型参数，并根据编码网络更新后的模型参数，更新动量平均网络的模型参数，以完成一次预训练，并继续新的预训练直到编码网络满足预训练停止条件的技术手段，解决了相关技术中缺少针对于医学影像的预训练模型的技术问题。进行对比学习时，利用被掩盖图像的全局特征和被掩盖图像中掩码图像块的局部特征，基于同一被掩盖图像的全局特征和局部特征匹配度高、不同被掩盖图像的全局特征和局部特征匹配度低的思想，构建样本对以进行全局特征和局部特征的匹配对比学习机制，可以解决同一部位同一模态下医学影像相似度高不利于对比学习的问题，并且，无需对医学影像进行数据扩增，减小了对数据扩增的依赖。

附图说明

图1为本申请一个实施例提供的一种医学影像编码网络的预训练方法的流程图；

图2为本申请一个实施例提供的一种医学影像；

图3为本申请一个实施例提供的一种医学影像编码网络的预训练方法的流程图；

图4为本申请一个实施例提供的一种多层感知网络的结构示意图；

图5为本申请一个实施例提供的一种影像编码网络的预训练方法的流程图；

图6为本申请一个实施例提供的一种重建模块的示意图；

图7为本申请一个实施例提供的利用MoCo的动量平均模型处理流程示意图；

图8为本申请一个实施例提供的被掩盖图像的构建流程图；

图9为本申请一个实施例提供的自监督预训练流程图；

图10为本申请一个实施例提供的训练损失示意图；

图11为本申请一个实施例提供的验证损失示意图；

图12为本申请一个实施例提供的一种医学影像编码网络的预训练装置的结构示意图；

图13为本申请一个实施例提供的一种医学影像编码网络的预训练设备的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例用于解释本申请，而非对本申请的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本申请相关的部分而非全部结构。

针对于自然图像的处理任务，预训练深度学习模型时，可以使用动量对比学习(MOCO)或视觉表示对比学习(SIMCLR)的方式进行自监督预训练。其中，自监督是指直接从无标签数据中自行学习，无需标注数据。这种训练方式的思想是让不同个体图像之间进行对比学习，同一图像在不同的数据扩增之后，经编码网络提取的图像高层语义特征相似度高，不同图像之间的相似度低，这种训练方式在百万大数据的监督预训练上取得了相对或更好的成果。但是，对于医学影像而言，同一部分同一模态的不同个体数据之间的相似度很高，比如，利用CT得到不同人的胸部医学影像，各胸部医学影像的灰度空间和结构内容都很相似，数据扩增效果不明显，进而使得预训练效果较差。因此，很难用对比学习的思想直接对使用数据增广的医学影像进行自监督预训练。

基于此，本申请实施例中提供一种医学影像编码网络的预训练方法、装置、设备及存储介质，以实现对医学影像深度学习模型的自监督预训练，得到对应的预训练模型，并且，可以避免因不同个体的医学影像间相似度高而影像预训练效果的问题。

本申请一个实施例提供的一种医学影像编码网络的预训练方法可以由医学影像编码网络的预训练设备执行，该医学影像编码网络的预训练设备可以通过软件和/或硬件的方式实现，该医学影像编码网络的预训练设备可以是两个或多个物理实体构成，也可以是一个物理实体构成，实施例对此不作限定。一个实施例中，医学影像编码网络的预训练设备可以是台式电脑、笔记本电脑、交互智能平板、服务器、CT设备、MR设备、DR设备等电子设备。

示例性的，图1为本申请一个实施例提供的一种医学影像编码网络的预训练方法的流程图。参考图1，该医学影像编码网络的预训练方法包括：

步骤110、获取三维的医学影像，该医学影像被划分为多个尺寸相同的图像块。

医学影像为预训练过程中使用的图像，其为三维的图像，此时，医学影像也可以记为3D医学影像。医学影像的获取方式当前不作限定，如通过CT、MR或DR等方式采集医学影像，再如，通过互联网或查找数据库的方式查找已经公开并且可以使用的医学影像。医学影像对应的人体部位当前不作限定，如医学影像可以是胸部影像、肺部影像或脑部影像等。一个实施例中，预先构建医学影像数据集，该数据集中的各医学影像为预训练过程使用的医学影像，之后，在每次预训练时，直接从医学影像数据集中获取医学影像。可理解，同一张医学影像，在预训练过程中可以被重复使用。

示例性的，医学影像预先被划分成多个图像块，每个图像块均可认为是医学影像的一个子三维图像，各图像块组成了医学影像。一个实施例中，各图像块的尺寸相同。此时，可以根据医学影像的尺寸以及实际需求，设置各图像块的尺寸，且需要保证医学影像的尺寸可以整除图像块的尺寸。举例而言，图2为本申请一个实施例提供的一种医学影像，参考图2，该医学影像的尺寸为D×H×W，图像块的尺寸为p_d×p_h×p_w，其被划分成多个尺寸相等的图像块。需说明，图2中仅示出医学影像中一个平面的图像块。假设，D＝32，W＝H＝256，设置p_d＝4，p_h＝p_w＝32，基于图像块的尺寸对医学影像切割后，可以得到数量为8×8×8的图像块。可理解，上述提及的尺寸的计量单位当前不作限定，可以以像素为单位，或者以距离为单位(如cm、mm)。

一个实施例中，预先对医学影像数据集中各医学影像进行划分，并以图像块组合的方式存储各医学影像，此时，获取医学影像可以是直接获取以图像块组合的方式得到的三维医学影像。另一实施例中，不预先对医学影像进行划分，每次获取医学影像后，均按照图像块的尺寸对医学影像进行切割，以得到组成医学影像的各图像块。

步骤120、在多个图像块中，选择待掩盖图像块。

待掩盖图像块是指需要被掩盖的图像块。待掩盖图像块的数量通常为1。一个实施例中，医学影像的各图像块中，有一个图像块被选择为待掩盖图像块。后续深度学习模型对医学影像进行学习和预测时，不再学习预测待掩盖图像块所表达的信息。

示例性的，通过图像块的熵表示图像块所表达的信息量。其中，图像的熵可以理解为图像“繁忙”程度的估计值，熵越大，图像块表达的信息量越多。图像块的熵可以是图像块的一维熵、二维熵或者三维熵等，当前不作限定。计算各图像块的熵后，根据各图像块的熵选择信息量较多的一个图像块作为待掩盖图像块，以使后续深度学习模型对各图像块的学习和预测具有意义。一个实施例中，选择图像块时，可以是：预先设置熵的阈值，之后，在熵大于该阈值的各图像块中随机选择一个图像块作为待掩盖图像块；还可以是：按照熵由高到低的顺序，选择一定数量或一定比例的图像块，之后，在选择的各图像块中随机选择一个图像块作为待掩盖图像块。可理解，通过随机选择的方式，可以在医学影像被重复使用时，使得每次选择的待掩盖图像块不完全相同。

步骤130、使用掩码图像块对医学影像中的待掩盖图像块进行掩盖，得到被掩盖图像。

掩码图像块为预先生成的一个图像块，掩码图像块用于屏蔽医学影像中的待掩盖图像块，即用掩码图像块替代待掩盖图像块，以使后续深度学习模型不再学习预测待掩盖图像块所表达的信息。其中，掩码图像块的尺寸与各图像块的尺寸相等。掩码图像块的生成规则可以根据实际情况设置，例如，生成一个图像块且图像块中每个像素的像素值均为0，以作为掩码图像块。再如，在医学影像的各图像块(除待遮盖图像块)中随机选择一个图像块作为掩码图像块。为了保证掩码图像块的多样性，可以将像素值固定的图像块、医学影像中除待掩盖图像块的其他图像块以及待掩盖图像块均作为掩码图像块，之后，在三类掩码图像块中选择一个当前使用的掩码图像块。

一个实施例中，使用掩码图像块对待掩盖图像块进行掩盖后，医学影像发生了变化，不再显示待掩盖图像块，而是显示掩码图像块。当前，将显示掩码图像块的医学影像记为被掩盖图像。

步骤140、分别利用编码网络和动量平均网络得到查询特征和平均特征，查询特征为掩码图像块的第一局部特征时，平均特征为所述被掩盖图像的第二全局特征，查询特征为被掩盖图像的第一全局特征时，平均特征为掩码图像块的第二局部特征，编码网络和动量平均网络的结构相同。

编码网络为预先构建的神经网络模型，其可以对输入的医学影像进行处理，以编码得到相关的特征。一个实施例中，编码网络至少包括需要预训练的深度学习模型，该深度学习模型为特征编码器，主要用于提取医学影像的特征。可选的，除了深度学习模型外，编码网络还可以包含其他预训练所需的结构，例如，编码网络还包含由多层感知机组成的投影器，该投影器用于对深度学习模型提取的特征进行投影映射，以使投影映射后的特征与深度学习模型的具体任务(如分类任务)相解耦，保证投影映射后的特征仅与医学影像有关，而与深度学习模型当前具体的任务无关，进而保证预训练的效果。

示例性的，将被掩盖图像输入至编码网络后，编码网络输出全局特征和局部特征。其中，全局特征表示被掩盖图像的特征，其通过学习被掩盖图像的每个图像块(包含掩码图像块)表达的信息得到。局部特征表示掩码图像块的特征，其通过学习掩码图像块以及掩码图像块周边的各图像块表达的信息得到。可理解，通过编码网络中的深度学习模型提取被掩盖图像的特征时，被掩盖图像的各图像块(包含掩码图像块)均有对应的特征，之后，基于各图像块的特征可以得到全局特征，通过掩码图像块对应的特征可以得到局部特征。

可理解，编码网络得到局部特征时，参考了掩码图像块周边的各图像块表达的信息，因此，该局部特征与同一张被掩盖图像的全局特征之间的匹配度较高，该局部特征与其他被掩盖图像的全局特征之间的匹配度较低。基于此，一个实施例中，将全局特征与局部特征构建为样本对，并且同一被掩盖图像的全局特征和局部特征作为正样本对(正样本对的匹配程度较高)，不同被掩盖图像的全局特征和局部特征作为负样本对(负样本对的匹配程度较低)，以通过正样本对和负样本对对比学习的方式对编码网络进行预训练。其中，对比学习是一种常用的自监督学习方法，其核心思想是把正样本距离拉近、正样本与负样本距离拉远。一个实施例中，利用MoCo的动量平均模型思想实现对比学习。其中，MoCo是非监督式机器学习在图象识别(表征)领域的应用，属预训练，可做迁移学习使用。利用MoCo时，还需要构建一个动量平均网络，该动量平均网络与编码网络具有相同的结构。将被掩盖图像输入至动量平均网络后，动量平均网络也可以输出全局特征和局部特征，为了进行区别，将编码网络输出的全局特征和局部特征分别记为第一全局特征和第一局部特征，将动量学习网络输出的全局特征和局部特征分别记为第二全局特征和第二局部特征。动量平均网络和编码网络的区别在于，医学影像编码网络采用常规的梯度反向传播来更新模型参数，动量平均网络则根据编码网络更新后的模型参数进行动量更新。

基于对比学习的思想，将编码网络输出的第一局部特征与动量学习网络输出的第二全局特征组成样本对，或者是，将编码网络输出的第一全局特征与动量学习网络输出的第二局部特征组成样本对。由于两种组合方式的后续处理手段相同，因此，当前以第一局部特征和第二全局特征组成样本对为例进行描述。

MOCO的实现过程中，动量学习模型设置有动态字典，该动态字典可以认为是动态的队列，且队列的长度可以根据实际情况设置。动量学习模型每得到一个第二全局特征后，将第二全局特征放入动态字典中，并且，移除动态字典最先记录的第二全局特征。编码网络得到第一局部特征后，将第一局部特征与动态字典中的各第二全局特征分别组成一个样本对。组成的各样本对中相同的特征为编码网络输出的特征(这里指第一局部特征)，各样本对中不同的特征为动量学习模型输出的特征(这里指第二全局特征)，此时，将各样本对中相同的特征记为查询特征，不同的特征记为平均特征，以通过查询特征和平均特征组成的各样本对计算对应的损失函数。可理解，预训练刚开始时，可以先生成一定数量的被掩盖图像，并选择其中一张输入至编码网络，以得到查询特征，将各张被掩盖图像依次输入至动量学习网络，以得到各平均特征并写入动态字典中，之后，基于查询特征和各平均特征组成正样本对和负样本对。下次训练时，可以向编码网络和动量学习网络输入同一张被掩盖图像，此时，动量学习网络将输出的平均特征写入动态字典，并移出动态字典中第一个写入的平均特征，并再次组成新的样本对。

得到平均特征和查询特征，并组成样板对后，可以进行损失函数的计算。即执行步骤150。

步骤150、基于查询特征和平均特征计算对比损失，并根据对比损失更新编码网络的模型参数。

得到查询特征和平均特征，并组成各样本对后，进行对比学习，并基于对比学习的结果编码网络的模型参数进行更新。其中，对比学习的结果可以通过对比损失体现。对比损失为通过对比损失函数计算得到的具体值，对比损失函数是常见的一种损失函数，其可以体现同一种类(即正样本对)的聚类效果以及不同种类(即负样本对)的隔开效果。将正样本对和负样本对代入对比损失函数中，可以得到一个损失值，该损失值为对比损失，对比损失越低，对比学习的成果越好。

之后，基于对比损失调整编码网络的模型参数，该模型参数包括编码网络中使用的各卷积核的权重、偏置等参数。可理解，在预训练过程中，以最小化对比损失为目标，通过每次得到的对比损失不断调整编码网络的模型参数，可以使得编码网络的对比学习成果越来越好。可理解，编码网络的对比学习成果越来越好时，编码网络中的深度学习模型对被掩盖图像进行的特征提取越准确，而掩码图像块遮盖的是信息量较多的图像块，因此，即使被掩盖图像缺少了信息量较多的图像块，深度学习模型也可以提取较为准确的特征，进一步提高了深度学习模型的性能。

步骤160、根据编码网络更新后的模型参数，更新动量平均网络的模型参数。

示例性的，通过编码网络的模型参数对动量平均网络的模型参数进行动量更新。一个实施例中，动量更新时的公式如下：

θ_k←mθ_k+(1-m)θ_q

其中，θ_k表示动量平均网络的模型参数，θ_q表示编码网络的模型参数，m为更新动量(即动量系数)，可选的，m介于0-1之间。示例性的，将编码网络更新后的模型参数代入上述公式，便可以得到动量平均网络新的模型参数，进而实现动量平均网络模型参数的更新。可理解，动量平均网络的模型参数同样包括动量平均网络中使用的各卷积核的权重、偏置等参数。

步骤170、继续获取三维的医学影像，并返回执行选择待掩盖图像块的操作，直到编码网络满足预训练停止条件。

示例性的，编码网络和动量平均网络的模型参数均更新后，可以认为本次预训练结束，之后，确定当前编码网络是否满足预训练停止条件，若满足预训练停止条件，则说明编码网络中深度学习模型已经达到了期望的性能(例如已经较为准确提取医学影像的特征)，无需继续预训练，因此，结束对编码网络的预训练。若不满足预训练停止条件，则说明编码网络中深度学习模型没有达到期望的性能，需要继续预训练。继续预训练时，选择一张新的医学影像，由于医学影像可以重复使用，因此，新的医学影像与前一次使用的医学影像可以相同或不同。之后，再次重复步骤120至步骤160的操作，以再次更新编码网络和动量平均网络的模型参数，之后，再次判断是否满足预训练停止条件，直到编码网络满足预训练停止条件。

预训练停止条件可以根据实际需求设置，例如，预训练停止条件为预先设置的次数阈值，每次更新编码网络和动量平均网络的模型参数后，将预训练的次数加1，之后，将当前记录的预训练次数与次数阈值进行比较，若达到次数阈值，则确认满足预训练停止条件，若未达到次数阈值，则确认未满足预训练停止条件。再如，预训练停止条件为损失函数收敛，即连续次数的对比损失在预设的范围内，可理解，损失函数收敛后，编码网络的性能较为稳定。损失函数收敛是指连续训练次数内的对比损失在预设范围内。

一个实施例中，预训练结束后，获取编码网络中的深度学习模型，该深度学习模型作为适用于医学影像的预训练模型，该预训练模型可以较为准确的提取医学影像的特征。该预训练模型可以作为下游任务的初始化深度学习模型，并使用下游任务的少量标注样本对预训练模型训练微调，便可以使得预训练模型适用于下游任务且具有较好的精度。举例而言，下游任务是检测肺部结节，此时，获取少量带有肺部结节标记结果的肺部医学影像作为标注样本，之后，使用标注样本对预训练模型进行训练，并在训练过程中调整预训练模型的模型参数，可理解，由于标注样本的数量较少，所以对预训练模型只要进行少量的训练便可以使得预训练模型适应于肺部结节检测的任务。

上述，通过获取三维的医学影像，该医学影像被划分为多个尺寸相同的图像块，之后，在各图像块中，选择待掩盖图像块，并使用掩码图像块对待掩盖图像块进行掩盖，得到被掩盖图像，由编码网络得到被掩盖图像的查询特征，由动量平均网络得到被掩盖图像的平均特征，并基于查询特征和平均特征进行对比学习以计算得到对比损失，根据对比损失更新编码网络的模型参数，并根据编码网络更新后的模型参数，更新动量平均网络的模型参数，以完成一次预训练，并继续新的预训练直到编码网络满足预训练停止条件的技术手段，解决了相关技术中缺少针对于医学影像的预训练模型的技术问题。进行对比学习时，利用被掩盖图像的全局特征和被掩盖图像中掩码图像块的局部特征，基于同一被掩盖图像的全局特征和局部特征匹配度高、不同被掩盖图像的全局特征和局部特征匹配度低的思想，构建样本对以进行全局特征和局部特征的匹配对比学习机制，可以解决同一部位同一模态下医学影像相似度高不利于对比学习的问题，并且，无需对医学影像进行数据扩增，减小了对数据扩增的依赖。

图3为本申请一个实施例提供的一种医学影像编码网络的预训练方法的流程图。该实施例是在上述实施例的基础上进行具体化。参考图3，该预训练方法具体包括：

步骤210、获取三维的医学影像，该医学影像被划分为多个尺寸相同的图像块。

步骤220、计算每个图像块的一维熵。

一个实施例中，通过一维熵来体现各图像块所表达的信息量。其中，一维熵是图像块中灰度分布的聚集特征所包含的信息量。每个图像块均有对应的一维熵。

步骤230、根据一维熵对图像块进行过滤。

示例性的，根据各图像块的一维熵，选择信息量比较多的图像块进行保留，以过滤掉信息量比较少的图像块。一个实施例中，步骤230包括步骤231-步骤232：

步骤231、在全部一维熵中选择大于预设阈值的一维熵，或，基于各一维熵的大小排序结果，从最大一维熵开始选择预设数量的一维熵。

一个实施例中，预设阈值为预先设定的一维熵阈值，该具体值可以根据实际情况设置。一维熵大于预设阈值，说明其对应的图像块表达的信息量较多，图像块被保留。一维熵未大于预设阈值，说明其对应的图像块表达的信息量较少，图像块被过滤。据此，将三维医学影像中各图像块的一维熵依次与预设阈值进行比较，之后，选择高于预设阈值的一维熵。

一个实施例中，预设数量通过图像块的总数量和预设比例得到，预设比例为预先设定的一个比例值，其具体值可以根据实际情况设置，预设比例越大，选择的图像块的数量越多。示例性的，根据预设比例和医学影像中图像块的总数量，确定选择的图像块数量，即预设数量，之后，从最大的一维熵开始，根据预设数量选择一维熵。一个实施例中，选择一维熵时，可以是对一维熵由大到小进行排序，并根据排序结果由大至小，选择预设数量的一维熵。

步骤232、保留被选择的一维熵对应的图像块。

保留步骤231中选择的一维熵对应的图像块，剩余图像块被过滤掉。

步骤240、在保留的图像块中，选择一个图像块作为待掩盖图像块。

保留的图像块表示的信息量较多，每个图像块均可作为待掩盖图像块。一个实施例中，在保留的图像块中，随机选择一个图像块作为待掩盖图像块。

步骤250、在固定值图像块、待掩盖图像块以及医学影像的其他图像块中选择当前使用的掩码图像块。

一个实施例中，使用固定值图像块、待掩盖图像块和医学影像的其他图像块作为掩码图像块。其中，固定值图像块是指该图像块中各像素均为固定的值。固定值可以根据实际情况设置，例如，固定值为0时，固定值图像块是指像素均为0的图像块。待掩盖图像块也可以作为掩码图像块，此时，使用掩码图像块掩盖该待掩盖图像块后，对应的医学影像未发生变化。其他图像块是医学影像中除待掩盖图像块外的其他图像块。

对上述三类掩码图像块设置对应的被选择概率，各被选择概率可以根据实际情况设置，以在保证掩码图像块多样性的基础上，保证掩码图像块的合理性。其中，固定值图像块对应第一被选择概率，其他图像块对应第二被选择概率，待掩盖图像块对应第三被选择概率，第一被选择概率大于第二被选择概率，第二被选择概率大于第三被选择概率。第一被选择概率、第二被选择概率和第三被选择概率可以根实际情况设置，举例而言，第一被选择概率为80％，第二被选择概率为15％，第三被选择概率为5％，即掩码图像块为固定值图像块的概率为80％、为其他图像块的概率为15％、为待掩盖图像块的概率为5％。当医学影像被重复使用时，由于待掩盖掩码块的随机性和掩码图像块的多样性，可以保证医学影像对应的被掩盖图像的多样性，即保证了训练样本的多样性。

可选的，还可以将预训练过程中使用的全部医学影像的各图像块均作为掩码图像块，此时，全部医学影像的各图像块可以认为是其他图像块且对应第二被选择概率。

步骤260、使用掩码图像块对医学影像中的待掩盖图像块进行掩盖，得到被掩盖图像。

步骤270、分别利用编码网络和动量平均网络得到查询特征和平均特征，查询特征为掩码图像块的第一局部特征时，平均特征为被掩盖图像的第二全局特征，查询特征为被掩盖图像的第一全局特征时，平均特征为掩码图像块的第二局部特征，编码网络和动量平均网络的结构相同。

示例性的，利用编码网络得到被掩盖图像的查询特征，由动量平均网络得到被掩盖图像的平均特征。

一个实施例中，编码网络由特征编码器、第一池化层、投影器、第二池化层和预测器组成。此时，利用编码网络得到查询特征可包括步骤271-步骤275：

步骤271、由特征编码器对被掩盖图像进行特征提取，得到三维特征图。

其中，特征编码器为编码网络中需要预训练的深度学习模型，用于提取医学影像的特征。特征编码器可以采用卷积神经网络(Convolutional Neural Networks,CNN)模型、Transformer模型或者CNN和Tarnsformer结合的模型等编码器模型。一个实施例中，特征编码器采用3D卷积神经网络，以处理三维的医学影像。举例而言，特征编码器参数如表1所示。

表1

参考表1，Layer name表示网络层的名称。Conv1表示特征编码器中第一个卷积层、Conv2_x表示第二个卷积层、Conv3_x第三个卷积层、Conv4_x表示第四个卷积层、Conv5_x表示第五个卷积层。第二至第五个卷积层中的x表示该卷积层内叠加的卷积层数量，不同卷积层对应的x可以不同。Output_size表示各层输出的特征图的尺寸，其可以体现卷积层的下采样比例，举例而言，输入某个卷积层的三维图像的尺寸为D×H×W，该卷积层输出的尺寸为

此时，该卷积层在三个方向上的下采样比例分别为s_d、s_h、s_w。由表1可知，Conv2输入的特征图尺寸为32×128×128、输出的特征图尺寸为32×64×64，即Conv2采用了非对称的下采样比例。33-layer代表网络层中使用的参数，Conv1中的卷积核大小为1×5×5，输出通道数为16，步长为1×2×2。Conv2为3D卷积层，

表示3D卷积层中的卷积核大小以及输出通道数其中，卷积核大小为1×3×3，输出通道数为32。

表示Conv2包含3个叠加的卷积层，即x为3。由Conv2的卷积核和输出特征图的尺寸可知，Conv2为非对称的3D卷积。Conv3为3D卷积层，

表示3D卷积中的卷积核大小以及输出通道数，其中，卷积核大小为3×3×3，输出通道数为64。

表示Conv3中包含4个叠加的卷积层，即x为4。Conv4和Conv5对应的参数与Conv3类似，当前不作赘述。基于上述参数可知，特征编码器的卷积层数量与resnet34(一种常见的残差网络)的卷积层数量相同，不同之处在于特征编码器中采用了3D卷积层，并且特征编码器的前端部分(表1中的Conv2)采用了非对称的卷积层和非对称的下采样比例。此时，可以认为特征编码器采用非对称的3D卷积网络。可理解，表1仅为一种特征编码器的示例性描述，实际应用中，特征编码器还可以采用其他的结构和参数，当前不作限定。

可理解，对编码网络进行预训练时，具体是对特征编码器进行自监督的预训练。

示例性的，将被掩盖图像输入至特征编码器后，特征编码器提取被掩盖图像的特征并输出三维的特征图，一个实施例中，将特征编码器输出的特征图记为三维特征图。可理解，被掩盖图像中每个图像块(包括掩码图像块)的特征均在三维特征图中体现。

一个实施例中，特征编码器的下采样比例小于或等于图像块的尺寸，由于医学影像为三维图像，其包含三个方向的尺寸，因此，每个方向的下采样比例均小于对应方向上图像块的尺寸。举例而言，被掩盖图像的尺寸为D×H×W，三维特征图的尺寸为

该三维特征图在三个方向上的下采样比例分别为s_d、s_h、s_w。被掩盖图像中各图像块的尺寸为p_d×p_h×p_w，图像块的数量为

当

大于或等于

时，即s_d小于或等于p_d、s_h小于或等于p_h、s_w小于或等于p_w时，被掩盖图像中各图像块的特征在三维特征图中容易区分，即三维特征图中特征点表示的特征向量为对应一个图像块的特征编码向量。可理解，当三维特征图在对应方向上的下采样比例大于图像块在对应方向上的尺寸时，会出现三维特征图中一个特征点表示的特征向量为至少两个图像块的特征编码向量，此时，不易区分各图像块对应的特征。为了取得较好的对应效果，一个实施例中，图像块的尺寸为特征编码器的下采样比例的整数倍，即每个方向上图像块的尺寸均为该方向上下采样比例的整数倍。此时，三维特征图中每个特征点的特征向量均为对应一个图像块中的特征编码向量，以便于后续提取掩码图像块的第一局部特征。举例而言，被掩盖图像的尺寸为32×256×256，图像块的尺寸为4×32×32，被掩盖图像包含的图像块数量(含掩码图像块)为8×8×8，三维特征图中三个方向上的下采样比例为4×32×32，三维特征图的尺寸为8×8×8，此时，三维特征图中每个特征点对应一个图像块，表示该图像块的特征编码向量。

特征编码器输出三维特征图后执行步骤272。

步骤272、由第一池化层在三维特征图中获取掩码图像块的掩码特征以及被掩盖图像中其他图像块的图像特征，每个图像块对应一个图像特征。

池化层可以实现下采样降维、去除冗余信息等作用。一个实施例中，通过池化层处理三维特征图，可以获取被掩盖图像中各图像块(包含掩码图像块)的特征编码向量，即将三维特征图中描述图像块的三维特征变为描述该图像块的一维特征向量。其中，将当前使用的池化层记为第一池化层，将掩码图像块的特征编码向量记为掩码特征，将其他非掩码的图像块的特征编码向量记为图像特征，可理解，掩码特征和图像特征均为一维特征向量。

一个实施例中，图像块的尺寸为所述特征编码器的下采样比例的整数倍时，采用感兴趣区域池化(Region of interest pooling，ROI pooling)获取掩码特征和图像特征，即第一池化层采用ROI pooling。此时，本步骤具体包括：利用ROI pooling在三维特征图中获取掩码特征块的掩码特征以及被掩盖三维图像中其他图像块对应的图像特征。其中，ROIpooling是用于目标检测任务的神经网络层，当前，ROI pooling的目标检测任务是将掩码特征和图像特征作为目标对三维特征图进行检测，以获取到掩码特征和图像特征，即获取各图像块的特征编码向量。由于图像块的尺寸为特征编码器的下采样比例的整数倍，因此，ROI pooling可以在三维特征图中准确找到各图像块对应的三维特征，进而基于三维特征得到对应的一维特征向量。

步骤273、由投影器分别对掩码特征和各图像特征进行映射投影，以得到各隔离特征块。

一个实施例中，特征编码器使用过程中需要根据具体的任务提取三维特征图，例如，特征编码器用于分类时，根据分类的类别提取三维特征图，再如，特征编码器用于分割时，根据分割的目标提取三维特征图。为了完成特征编码器的预训练，进行自监督训练时，需要对特征编码器假设任务。然而，预训练的特征编码器需要适用于不同的任务，此时，需要将基于假设任务得到的三维特征图与假设任务相隔离，即隔离自监督训练中假设任务对掩码特征和图像特征的影响。

为了隔离假设任务对掩码特征和图像特征的影响，在第一池化层后设计了投影器，该投影器用于对掩码特征和图像特征进行映射投影，即对掩码特征块和图像特征块进行映射变换，一个实施例中，将映射投影后得到的特征记为隔离特征，隔离特征为一维特征，此时，每个图像特征和掩码特征均有对应的隔离特征。隔离特征可以认为是映射到新空间的特征，新空间的特征与假设任务无关，即隔离特征是与假设任务隔离后得到的特征。

一个实施例中，投影器采用多层感知机网络。其中，多层感知机网络(MultilayerPerceptron，MLP)也可以记为多层感知器，其是一种前馈人工神经网络模型，可以将输入的多个数据集映射到单一的输出的数据集上。当前，将投影器采用的多层感知机网络记为第一多层感知机网络，即投影器采用第一多层感知机网络。第一多层感知机网络中包含的隐含层数量和模型参数可以根据实际情况设置，当前不作限定。

步骤274、利用第二池化层融合全部隔离特征，得到被掩盖图像的第一全局特征。

示例性的，投影器后接有一池化层，该池化层用于对各隔离特征进行融合。当前，将投影器后接有的池化层记为第二池化层。一个实施例中，第二池化层为全局平均池化(Global Average Pooling，GAP)层。即通过全局平均池化的方式对各隔离特征进行融合，融合后的特征包含了被掩盖图像中全部图像块的特征，因此，融合后的特征可理解为被掩盖图像的第一全局特征，第一全局特征为一维特征。

实际应用中，还可以由卷积层替换第二池化层，对各隔离特征进行融合，或者是，不设置第二池化层，而是采用加权平均的方式对各隔离特征进行融合，其中，加权平均过程中使用的参数(如权重)为可学习参数，如该参数可以根据预训练的进行而调整。

步骤275、由预测器对掩码图像块对应的隔离特征块进行预测，以得到掩码图像块对应的第一局部特征。

一个实施例中，为了得到掩码图像块对应的第一局部特征，在投影器后还接有预测器。该预测器用于对掩码图像块对应的隔离特征块进行预测，以得到掩码图像块的第一局部特征，即将与掩码图像块有关的隔离特征进行投影映射，以得到表示掩码图像块的第一局部特征。第一局部特征为一维特征。

一个实施例中，预测器也为多层感知机网络，并且，将预测器采用的多层感知机网络记为第二多层感知机网络，即预测器采用第二多层感知机网络，第二多层感知网络中包含的隐含层数量和模型参数可以根据实际情况设置，当前不作限定。一个实施例中，投影器和预测器的多层感知网络均设置1个隐含层，图4为本申请一个实施例提供的一种多层感知网络的结构示意图。参考图4，其示出了隐含层的具体结构，其中，Linear层为线性层，Norm层为归一化层，Activation层为激活函数层。

可理解，编码网络得到第一局部特征和第一全局特征时，动量平均网络同样处理被掩盖图像，以得到第二局部特征和第二全局特征。动量平均网络与编码网络的结构相同，动量平均网络得到第二全局特征和第二局部特征的方式与编码网络得到第一全局特征和第一局部特征的方式相同，当前不做赘述。

得到第一局部特征、第一全局特征、第二全局特征和第二局部特征后，将第一局部特征和第二全局特征分别作为查询特征和平均特征，或者是，将第一全局特征和第二局部特征分别作为查询特征和平均特征，执行步骤280。

步骤280、将当前得到的平均特征加入动态字典，动态字典中还记录其他被掩盖图像的平均特征。

动态字典也可以认为是动态列队，其用于记录动量平均网络得到的平均特征。动态字典的长度可以根据实际情况设置。每次得到的平均特征加入动态字典时，动态字典中最先加入的平均特征便会被移除。可选的，首次训练时，动量平均网络处理的被掩盖图像的数量与动态字典的长度相等，以便于后续预训练时，每加入新的平均特征时，动态字典均会移除最先记录的平均特征。

步骤290、将属于同一被掩盖图像的平均特征和查询特征作为正样本对，将属于不同被掩盖图像的平均特征和查询特征作为负样本对。

一个实施例中，动态字典中每个平均特征均可与编码网络得到的查询特征组成样本对，其中，基于同一被掩盖图像得到的平均特征和查询特征间匹配度高，作为正样本对。基于不同被掩盖图像得到的平均特征和查询特征间匹配度低，作为负样本对。

步骤2100、通过正样本对和负样本对计算对比损失。

示例性的，得到正样本对和负样本对后，进行对比学习，即计算对比损失函数(Contrastive Loss)的具体损失值。对比损失函数主要是用于降维中，即本来相似的样本，在经过降维(特征提取)后，在特征空间中，两个样本仍旧相似；而原本不相似的样本，在经过降维后，在特征空间中，两个样本仍旧不相似。同样，该损失函数也可以很好的表达成对样本(即正样本对和负样本对)的匹配程度。对比损失函数常用于利用MoCo的动量平均模型中。将正样本对和负样本对代入对比损失函数时，可以得到对比损失。

步骤2110、根据对比损失函数更新编码网络的模型参数。

示例性的，得到对比损失后，便可以根据对比损失更新医学影像编码网络的模型参数。其中，通过梯度计算的方式，更新模型参数，以在更新后，可以计算得到更小的对比损失，即更好表达成对样本的匹配程度。梯度计算是神经网络训练时最常用的优化算法，其具体实现过程当前不做赘述。

步骤2120、根据编码网络更新后的模型参数，更新动量平均网络的模型参数。

步骤2130、继续获取三维的医学影像，并返回执行选择待掩盖图像块的操作，直到编码网络满足预训练停止条件。

上述，选择待掩盖图像块时，通过一维熵对三维医学图像的各图像块进行过滤，可以避免低信息量的图像块干扰编码网络的预训练，出现无意义的对比学习，保证了预训练准确度。通过设置不同类型的掩码图像块以及设置每个类型的被选择概率，可以保证掩码图像块的多样性，增加了输入样本(即被掩盖图像)的多样性。根据图像块的尺寸，为特征编码器设置合理的下采样比例，可以使得三维特征图中每个特征点仅对应一个图像块，利于后续提取各图像块的特征。通过投影器和预测器，可以避免预训练过程中假设任务对特征的影响，使得预训练得到的特征编码器与具体任务解耦。通过全局特征和局部特征的匹配对比学习机制，利用同一被掩盖图像的全局特征和局部特征匹配度高，不同被掩盖图像的全局特征和局部特征匹配度低，构建正负样本对，并进行对比学习，避免因不同个体的医学影像间相似度高而影像预训练效果的问题，保证了预训练效果。

图5为本申请一个实施例提供的一种影像编码网络的预训练方法的流程图。该实施例是在上述实施例的基础上进行具体化。参考图5，该预训练方法具体包括：

步骤310、获取三维的医学影像，该医学影像被划分为多个尺寸相同的图像块。

步骤320、计算每个图像块的一维熵。

步骤330、根据一维熵对图像块进行过滤；

步骤340、在保留的图像块中，选择一个图像块作为待掩盖图像块。

步骤350、在固定值图像块、待掩盖图像块以及医学影像的其他图像块中选择当前使用的掩码图像块。

步骤360、使用掩码图像块对医学影像中的待掩盖图像块进行掩盖，得到被掩盖图像。

步骤370、分别利用编码网络和动量平均网络得到查询特征和平均特征，查询特征为掩码图像块的第一局部特征时，平均特征为被掩盖图像的第二全局特征，查询特征为被掩盖图像的第一全局特征时，平均特征为掩码图像块的第二局部特征，编码网络和所述动量平均网络的结构相同。

步骤380、将当前得到的平均特征加入动态字典，动态字典中还记录其他被掩盖图像的平均特征。

步骤390、将属于同一被掩盖图像的平均特征和查询特征作为正样本对，将属于不同被掩盖图像的平均特征和查询特征作为负样本对。

步骤3100、通过正样本对和负样本对计算对比损失。

步骤310-步骤3100的实现过程可参考步骤210-步骤2100的实现过程相同，当前不作赘述。

步骤3110、基于第一局部特征或第二局部特征，重建出低分辨率图像块。

第一局部特征或第二局部特征越准确，基于第一局部特征或第二局部特征重建出的图像块与待掩盖图像块的相似度越高，即编码网络处理过程中，即使待掩盖图像块被掩盖，编码网络仍然可以结合其周围的图像块得到待掩盖图像块较为准确的特征。一个实施例中，基于第一局部特征或第二局部特征重建出低分辨率的三维图像，该三维图像可以认为是待掩盖图像块的低分辨率重建图像，当前，将重建出的三维图像记为低分辨率图像块。

一个实施例中，以使用第一局部特征为例进行描述。可选的，编码网络中还设置有重建模块，该重建模块接在预测器后面，用于基于预测器输出的第一局部特征重建出低分辨率图像块。图6为本申请一个实施例提供的一种重建模块的示意图。参考图6，该重建模块中的Reshape层用于对第一局部特征描述的特征进行空间重排，得到对应的三维特征，可理解，第一局部特征为一维的特征向量，如果需要重建三维的图像，需要先将一维的特征向量变为三维的特征，且以特征图的方式表示，Upsample层用于对重排后的三维的特征图进行上采样，Conv3D层为三维卷积层，其具体参数可根据实际情况设置，Conv3D用于对输入的内容进行卷积，BN层为批归一化层，用于进行归一化处理。Relu层为使用Relu作为激活函数的激活参数层。将第一局部特征输入至上述重建模块后，便可以得到低分辨率图像块。

低分辨率图像块的分辨率可根据实际情况设置，当前不作限定。

步骤3120、对待掩盖图像块进行下采样，以得到下采样图像块。

示例性的，对待掩盖图像块进行下采样，以降低待掩盖图像块的分辨率，当前，将下采样后得到的图像块记为下采样图像块，可理解，下采样图像块与低分辨率图像块的分辨率相同。下采样的具体实现手段当前不作限定。

步骤3130、根据低分辨率图像块和下采样图像块计算重建损失。

重建使用的第一局部特征或第二局部特征越准确，低分辨率图像块和下采样图像块越相似。一个实施例中，基于低分辨率图像块和下采样图像块构建用于描述重建后图像相似度的损失函数，当前，将构建的损失函数记为重建损失函数。其中，重建损失函数的类型可以根据实际情况设置，一个实施例中，重建损失函数为Smooth-L1损失函数，Smooth-L1损失函数可以体现预测值(即低分辨率图像块)和真实值(即下采样图像块)之间的差异。低分辨率图像块和下采样图像块越相似，Smooth-L1损失函数越小。可理解，将低分辨率图像块和下采样图像块代入重建损失函数，便可以得到重建损失(即重建损失函数计算的具体值)，并且，重建损失通过Smooth-L1损失函数计算得到。

可理解，步骤380-步骤3100与步骤3110-步骤3130可以同时执行或顺序执行，当前不作限定。

步骤3140、根据对比损失和重建损失更新编码网络的模型参数。

一个实施例中，将对比损失和重建损失一同作为编码网络的总损失，并基于该总损失更新编码网络的模型参数。此时，编码网络的损失函数可以表示为：

Loss＝L_reconstruct+α*L_contrast

其中，Loss表示编码网络的损失函数，L_reconstruct表示重建损失函数，L_contrast表示对比损失函数，α表示平衡系数，α的值可以根据实际情况设置。将重建损失和对比损失代入上述公式中，可得到编码网络的总损失。

步骤3150、根据编码网络更新后的模型参数，更新动量平均网络的模型参数。

步骤3160、继续获取三维的医学影像，并返回执行选择待掩盖图像块的操作，直到编码网络满足预训练停止条件。

上述，在预训练过程中，设计了基于局部特征对待掩盖图像块进行低分辨率重建，使得编码网络学习到的特征能表示图像块的主要结构信息，忽略图像块的细节或噪声信息，提高了特征的指示性。并且，相比于对被掩盖图像进行低分辨率重建，对待掩盖图像块进行低分辨率重建的计算量更小，不受被掩盖图像损坏的影响，即使被掩盖图像出现损坏，也可以对待掩盖图像块进行低分辨率重建。将对比学习和低分辨率重建组合后，一同作为预训练的环节，可以将对比学习的鲁棒性强和低分辨率重建的指示性高相结合，使得特征编码器具有较强的特征提取和表示能力，在下游任务中，只需要少量的标注数据进行微调，便可以取得较好的精度。

下面对本申请实施例提供的医学影像编码网络的预训练方法进行示例性描述。医学影像编码网络的损失函数包括对比损失函数和重建损失函数，且平衡系数设置为0.5。医学影像为MR拍摄的医学影像。预训练时，利用MoCo的动量平均模型，并且，查询特征为第一局部特征，平均特征为第二全局特征。

图7为本申请一个实施例提供的利用MoCo的动量平均模型处理流程示意图。参考图7，被掩盖图像x(图7中记为masked image x)分别输入至编码网络和动量平均网络，以分别得到查询特征q和平均特征

将平均特征

加入动态字典queue，并移除动态字典queue中最先记录的平均特征。查询特征q和动态字典queue中的每个平均特征

均可以组成一个样本对

之后，根据动态字典queue和查询特征q得到对比损失contrastive loss，并基于对比损失contrastive loss更新编码网络的模型参数。之后，基于编码网络动量更新的动量平均网络的模型参数。

一次预训练过程中，图8为本申请一个实施例提供的被掩盖图像的构建流程图。参考图8，获取尺寸为D×H×W的医学影像，之后，划分得到

个的图像块，每个图像块的尺寸为p_d×p_h×p_w，之后，按照图像块选择策略选择待掩盖图像块，其中，图像块选择策略为计算各图像块的一维熵，并基于一维熵对图像块进行过滤，保留一维熵比较大的图像块，并在保留的图像块中随机选择一个图像块作为待掩盖图像块。之后，生成掩码图像块，并使用掩码图像块替换待掩盖图像块，得到被掩盖图像，被掩盖图像和待掩盖图像块组成预训练过程中使用的样本对，用于计算对比损失和重建损失。

图9为本申请一个实施例提供的自监督预训练流程图。参考图9，得到被掩盖图像后，将其输入至医学影像编码网络的特征编码器f得到三维特征图，之后，利用ROI pooling得到被掩盖三维图像中各图像块(不包含待掩盖图像块)的图像特征和掩码图像块对应的掩码特征，之后，利用投影器projector对图像特征和掩码特征进行映射投影，得到各隔离特征，之后，利用GAP融合各隔离特征，以得到第一全局特征k。并且，利用预测器predictor对掩码图像块对应的隔离特征块进行映射，得到第一局部特征q。同样的，利用动量平均网络得到第二局部特征

和第二全局特征

之后，将第二全局特征

加入动态字典queue，并基于第一局部特征q和动态字典queue计算对比损失。并且，基于第一局部特征q重建出低分辨率重建图像low resolution reconstructor。对待掩盖图像块进行下采样得到下采样图像块，之后，基于低分辨率图像块和下采样图像块得到重建损失。之后，基于重建损失和对比损失更新编码网络的模型参数。之后，基于编码网络动量更新的动量平均网络的模型参数，以此完成一次预训练。之后，继续开始新的预训练，直到满足预训练停止条件。

图10为本申请一个实施例提供的训练损失示意图。参考图10，其是预训练过程中，基于训练集得到的损失值示意图。其中，训练集为预训练过程中训练编码网络使用的数据集，其包含多张t1、t2等模态的三维的医学影像。图10中，线条1表示对比损失，线条2表示重建损失，线条3表示平衡系数为0.5时总的损失(基于对比损失和重建损失得到的损失值)，横坐标表示迭代次数(即预训练次数)，纵坐标表示损失值。图11为本申请一个实施例提供的验证损失示意图。参考图11，其是预训练过程中，基于验证集得到的损失值示意图。其中，验证集用于在预训练过程中对编码网络中的模型参数进行微调，验证集和训练集可以基于同一数据集构建，例如，获取一数据集，选择80％的数据作为训练集，选择剩余20％的数据作为验证集。图11中，线条1表示对比损失，线条2表示重建损失，线条3表示平衡系数为0.5时总的损失(基于对比损失和重建损失得到的损失值)。由图10和图11可知，随着预训练次数的增加，损失函数收敛较快。

一个实施例中，预训练完成后，将特征编码器作为骨干网络，分别应用在鼻咽癌的分类模型和分割模型中。参考表2，其包括使用预训练的特征编码器的鼻咽癌分类模型和分割模型的性能数据和使用随机初始化(即未进行预训练)的特征编码器的鼻咽癌分类模型和分割模型的性能数据。

表2

由表2可知，相比于使用随机初始化的特征编码器，使用预训练的特征编码器后，鼻咽癌分类模型在测试集上的性能数据提高3.8个百分点，鼻咽癌分割模型在测试集上的性能数据提高2.4个百分点。

图12为本申请一个实施例提供的一种医学影像编码网络的预训练装置的结构示意图，参考图12，该医学影像编码网络的预训练装置包括获取模块401、选择模块402、掩盖模块403、特征确定模块404、第一更新模块405、第二更新模块406和重复训练模块407。

其中，获取模块401，用于获取三维的医学影像，医学影像被划分为多个尺寸相同的图像块；选择模块402，用于在多个图像块中，选择待掩盖图像块；掩盖模块403，用于使用掩码图像块对医学影像中的待掩盖图像块进行掩盖，得到被掩盖图像；特征确定模块404，用于分别利用编码网络和动量平均网络得到查询特征和平均特征，查询特征为掩码图像块的第一局部特征时，平均特征为被掩盖图像的第二全局特征，查询特征为被掩盖图像的第一全局特征时，平均特征为掩码图像块的第二局部特征，编码网络和动量平均网络的结构相同；第一更新模块405，用于基于查询特征和平均特征计算对比损失，并根据对比损失更新编码网络的模型参数；第二更新模块406，用于根据编码网络更新后的模型参数，更新动量平均网络的模型参数；重复训练模块407，用于继续获取三维的医学影像，并返回执行选择待掩盖图像块的操作，直到编码网络满足预训练停止条件。

本申请一个实施例中，第一更新模块405包括：加入单元，用于将当前得到的平均特征加入动态字典，动态字典中还记录其他被掩盖图像的平均特征；样本对构建单元，用于将属于同一被掩盖图像的平均特征和查询特征作为正样本对，将属于不同被掩盖图像的平均特征和查询特征作为负样本对；对比学习单元，用于通过正样本对和负样本对计算对比损失；参数更新单元，用于根据所述对比损失更新所述编码网络的模型参数。

本申请一个实施例中，还包括：重建模块，用于根据第一局部特征或第二局部特征，重建出低分辨率图像块；下采样模块，用于对待掩盖图像块进行下采样，得到下采样图像块；重建损失计算模块，用于根据低分辨率图像块和下采样图像块计算重建损失。相应的，第一更新模块405中根据对比损失更新编码网络的模型参数具体为：根据对比损失和重建损失更新编码网络的模型参数。

本申请一个实施例中，重建损失通过Smooth-L1损失函数计算得到。

本申请一个实施例中，编码网络由特征编码器、第一池化层、投影器、第二池化层和预测器组成，特征确定模块404包括：提取单元，用于由特征编码器对被掩盖图像进行特征提取，得到三维特征图；第一池化单元，用于由第一池化层在三维特征图中获取掩码图像块的掩码特征以及被掩盖图像中其他图像块的图像特征，每个图像块对应一个图像特征；投影单元，用于由投影器分别对掩码特征和各图像特征进行映射投影，以得到各隔离特征；第二池化单元，用于利用第二池化层融合全部隔离特征，得到被掩盖图像的第一全局特征；预测单元，用于由预测器对掩码图像块对应的隔离特征进行预测，得到掩码图像块对应的第一局部特征；平均特征确定单元，用于利用动量平均网络得到平均特征，编码网络得到的查询特征为掩码图像块的第一局部特征时，平均特征为被掩盖图像的第二全局特征，查询特征为被掩盖图像的第一全局特征时，平均特征为掩码图像块的第二局部特征，编码网络和动量平均网络的结构相同。

本申请一个实施例中，特征编码器采用非对称的3D卷积网络，投影器采用第一多层感知机网络，预测器采用第二多层感知机网络。

本申请一个实施例中，特征编码器的下采样比例小于或等于所述图像块的尺寸。

本申请一个实施例中，图像块的尺寸为特征编码器的下采样比例的整数倍，第一池化层采用ROI pooling。

本申请一个实施例中，选择模块402包括：熵计算单元，用于计算每个图像块的一维熵；过滤单元，用于根据一维熵对图像块进行过滤；图像块选择单元，用于在保留的图像块中，选择一个图像块作为待掩盖图像块。

本申请一个实施例中，过滤单元包括：熵选择子单元，用于在全部一维熵中选择大于预设阈值的一维熵，或，基于各一维熵的大小排序，从最大一维熵开始选择预设数量的一维熵；保留子单元，用于保留被选择的一维熵对应的图像块。

本申请一个实施例中，还包括：掩码选择模块，用于使用掩码图像块对医学影像中的待掩盖图像块进行掩盖之前，在固定值图像块、待掩盖图像块以及所述医学影像的其他图像块中选择当前使用的掩码图像块。

本申请一个实施例中，固定值图像块对应第一被选择概率，其他图像块对应第二被选择概率，待掩盖图像块对应第三被选择概率，第一被选择概率大于第二被选择概率，第二被选择概率大于第三被选择概率。

上述提供的医学影像编码网络的预训练装置可用于执行上述任意实施例提供的医学影像编码网络的预训练方法，具备相应的功能和有益效果。

值得注意的是，上述医学影像编码网络的预训练装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。

图13为本申请一个实施例提供的一种医学影像编码网络的预训练设备的结构示意图。如图13所示，该医学影像编码网络的预训练设备包括处理器50、存储器51、输入装置52、输出装置53；医学影像编码网络的预训练设备中处理器50的数量可以是一个或多个，图13中以一个处理器50为例。医学影像编码网络的预训练设备中处理器50、存储器51、输入装置52、输出装置53可以通过总线或其他方式连接，图13中以通过总线连接为例。

存储器51作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本申请一个实施例中的医学影像编码网络的预训练方法对应的程序指令/模块(例如，医学影像编码网络的预训练装置中的获取模块401、选择模块402、掩盖模块403、特征确定模块404、第一更新模块405、第二更新模块406和重复训练模块407)。处理器50通过运行存储在存储器51中的软件程序、指令以及模块，从而执行医学影像编码网络的预训练设备的各种功能应用以及数据处理，即实现上述的医学影像编码网络的预训练方法。

存储器51可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据医学影像编码网络的预训练设备的使用所创建的数据等。此外，存储器51可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器51可进一步包括相对于处理器50远程设置的存储器，这些远程存储器可以通过网络连接至医学影像编码网络的预训练设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置52可用于接收输入的数字或字符信息，以及产生与医学影像编码网络的预训练设备的用户设置以及功能控制有关的键信号输入，还可以包括采集医学影像所需的装置。输出装置53可包括显示屏等显示设备。

上述医学影像编码网络的预训练设备包含医学影像编码网络的预训练装置，可以用于执行任意医学影像编码网络的预训练方法，具备相应的功能和有益效果。

此外，本申请实施例还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行本申请任意实施例所提供的医学影像编码网络的预训练方法中的相关操作，且具备相应的功能和有益效果。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。

因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

注意，上述仅为本申请的较佳实施例及所运用技术原理。本领域技术人员会理解，本申请不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此，虽然通过以上实施例对本申请进行了较为详细的说明，但是本申请不仅仅限于以上实施例，在不脱离本申请构思的情况下，还可以包括更多其他等效实施例，而本申请的范围由所附的权利要求范围决定。

Claims

1.一种医学影像编码网络的预训练方法，其特征在于，包括：

在多个所述图像块中，选择待掩盖图像块；

2.根据权利要求1所述的预训练方法，其特征在于，所述基于所述查询特征和所述平均特征计算对比损失包括：

将当前得到的所述平均特征加入动态字典，所述动态字典中还记录其他被掩盖图像的平均特征；

将属于同一被掩盖图像的平均特征和查询特征作为正样本对，将属于不同被掩盖图像的平均特征和查询特征作为负样本对；

通过所述正样本对和所述负样本对计算对比损失。

3.根据权利要求1或2所述的预训练方法，其特征在于，还包括：

根据所述第一局部特征或所述第二局部特征，重建出低分辨率图像块；

对所述待掩盖图像块进行下采样，得到下采样图像块；

根据所述低分辨率图像块和所述下采样图像块计算重建损失；

所述根据所述对比损失更新所述编码网络的模型参数包括：

根据所述对比损失和所述重建损失更新所述编码网络的模型参数。

4.根据权利要求3所述的预训练方法，其特征在于，所述重建损失通过Smooth-L1损失函数计算得到。

5.根据权利要求1所述的预训练方法，其特征在于，所述编码网络由特征编码器、第一池化层、投影器、第二池化层和预测器组成，

利用编码网络得到查询特征包括：

由所述特征编码器对所述被掩盖图像进行特征提取，得到三维特征图；

由第一池化层在所述三维特征图中获取所述掩码图像块的掩码特征以及所述被掩盖图像中其他图像块的图像特征，每个所述图像块对应一个图像特征；

由所述投影器分别对所述掩码特征和各所述图像特征进行映射投影，以得到各隔离特征；

利用所述第二池化层融合全部所述隔离特征，得到所述被掩盖图像的第一全局特征；

由所述预测器对所述掩码图像块对应的隔离特征进行预测，得到所述掩码图像块对应的第一局部特征。

6.根据权利要求5所述的预训练方法，其特征在于，所述特征编码器采用非对称的3D卷积网络，所述投影器采用第一多层感知机网络，所述预测器采用第二多层感知机网络。

7.根据权利要求5所述的预训练方法，其特征在于，所述特征编码器的下采样比例小于或等于所述图像块的尺寸。

8.根据权利要求7所述的预训练方法，其特征在于，所述图像块的尺寸为所述特征编码器的下采样比例的整数倍，所述第一池化层采用ROIpooling。

9.根据权利要求1所述的预训练方法，其特征在于，所述在多个所述图像块中，选择待掩盖图像块包括：

计算每个所述图像块的一维熵；

根据所述一维熵对所述图像块进行过滤；

在保留的所述图像块中，选择一个图像块作为待掩盖图像块。

10.根据权利要求9所述的预训练方法，其特征在于，所述根据所述一维熵对所述图像块进行过滤包括：

在全部所述一维熵中选择大于预设阈值的一维熵，或，基于各所述一维熵的大小排序，从最大一维熵开始选择预设数量的一维熵；

保留被选择的一维熵对应的图像块。

11.根据权利要求1所述的预训练方法，其特征在于，所述使用掩码图像块对所述医学影像中的所述待掩盖图像块进行掩盖之前，还包括：

在固定值图像块、待掩盖图像块以及所述医学影像的其他图像块中选择当前使用的掩码图像块。

12.根据权利要求11所述的预训练方法，其特征在于，所述固定值图像块对应第一被选择概率，所述其他图像块对应第二被选择概率，所述待掩盖图像块对应第三被选择概率，所述第一被选择概率大于所述第二被选择概率，所述第二被选择概率大于所述第三被选择概率。

13.一种医学影像编码网络的预训练装置，其特征在于，包括：

选择模块，用于在多个所述图像块中，选择待掩盖图像块；

14.一种医学影像编码网络的预训练设备，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-12中任一所述的医学影像编码网络的预训练方法。

15.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-12中任一所述的医学影像编码网络的预训练方法。