CN112651916A

CN112651916A - 自监督模型预训练方法、系统及介质

Info

Publication number: CN112651916A
Application number: CN202011567684.5A
Authority: CN
Inventors: 张娅; 张小嫚; 张小云; 王延峰
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2021-04-13

Abstract

本发明提供了一种自监督模型预训练方法、系统及介质，包括：对不同模态图像使用归一化方法进行预处理；对归一化图像使用非线性变换、局部扰动、内部填充和外部填充得到变换后的图像；对变换后的图像使用深度卷积神经网络提取图像的模态不变图像特征；对变换后的图像，使用密集连接模态判别网络提取图像特征，与模态不变图像特征进行对抗学习；对模态不变图像特征，使用多层次特征学习网络进行尺度预测；对模态不变特征图像特征使用图像恢复网络得到恢复图像；根据恢复图像和归一化图像实现自监督学习。本发明对不同模态图像提取模态不变的且有较强多层次判别力的特征，通过有效的自监督学习，提高了预训练模型的泛化能力，实现良好的通用性。

Description

自监督模型预训练方法、系统及介质

技术领域

本发明涉及计算机视觉和图像处理技术领域，具体地，涉及一种自监督模型预训练方法、系统及介质。尤其地，涉及一种基于模态不变对抗学习和多层次特征学习的自监督模型预训练方法。

背景技术

基于深度学习的模型在各种计算机视觉任务中取得了可观的进展。这种数据驱动方法通常需要大量的有标注数据。为了减少对训练数据的需求，我们一般会从大规模的数据预训练得到的模型上进行迁移学习，然后在特定的目标任务上进行微调。然而典型的医疗影像是3D图像，无法直接从已有的2D预训练模型上进行迁移。为了利用已有的2D预训练模型，常用的方法是将3D的图像转为2D的切片进行训练，没有考虑slice间的关联性，效果不佳。部分工作使用基于视频预训练的3D模型，但是由于视频时空维度不对称，与医疗3D数据的特性差别很大，也没有取得理想结果。同时由于医疗影像数据的标注挑战极高，需要专业的医师标注，且不同的医生的标注之间存在一定的不确定性。此外，医疗数据存在因为设备、采集方式等原因造成的跨域问题。

由于大规模的有标注的医疗影像数据难以获取，目前很多方法均是通过自监督学习的框架。通过预先定义的伪标签任务来学习特征表达，再通过有标注的数据来进一步微调模型。但是这种方法一般都是在单一模态的数据下进行训练，不能解决跨模态的泛化问题。此外，现有很多方法在利用多个数据集进行训练的时候，忽略了多中心数据之间存在的领域差异。

专利文献CN111260594A(申请号：CN201911332757.X)公开了一种无监督的多模态图像融合方法，包括下列步骤：基于多场景下的可见光和红外多源模态视频和图像配准数据构建数据集；搭建融合模型，其结构基于含残差模块的卷积神经网络；搭建判别模型；设计生成对抗模型的损失函数，分别是多源信息损失，用于提升融合网络的多源信息保留能力；相似性损失，用于判别融合结果与源图像的相似性；对抗损失，用于融合网络和判别网络间的联合训练方向约束；第五步，通过迭代步骤进行模型联合对抗训练。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种自监督模型预训练方法、系统及介质。

根据本发明提供的自监督模型预训练方法，包括：

数据归一化步骤：对不同模态的图像，进行多尺度裁剪，使用空间和强度归一化方法对图像进行预处理，得到归一化图像；

图像变换步骤：对归一化图像，使用非线性变换、局部扰动、内部填充和外部填充得到变换后的图像；

模态不变特征提取步骤：对变换后的图像，使用深度卷积神经网络提取图像的模态不变特征，得到不同模态的图像特征；

模态不变对抗学习步骤：对变换后的图像，使用密集连接模态判别网络提取图像特征，与模态不变特征提取出的图像特征进行对抗学习；

多层次特征学习步骤：对模态不变特征提取步骤提取出的图像特征，使用全连接层构成的多层次特征学习网络进行尺度预测；

图像恢复步骤：对模态不变特征提取步骤提取出的图像特征，使用卷积和升采样构成的图像恢复网络得到恢复后的图像；

恢复图像对齐步骤：根据恢复图像和归一化图像，使用均方误差损失函数实现自监督学习。

优选的，所述模态不变对抗学习步骤包括：对模态不变特征提取网络和模态判别网络进行min-max的游戏，模态判别网络区分两个模态的图像，模态不变特征提取网络混淆模态判别网络，通过提取模态不变的特征使得模态判别网络不能区分特征的来源；

模态不变特征提取网络和模态判别网络进行min-max的游戏，目标函数如下：

其中，θ_E是模态不变特征提取网络的参数，θ_D是模态判别网络的参数，

和

代表归一化后的两个模态的图像，

和

代表变换后的两个模态的图像，

和

是特征提取网络提取到的对应模态的特征，

是模态判别网络预测特征

来自CT模态的概率，

是模态判别网络预测特征

来自MRI模态的概率。

优选的，所述多层次特征学习步骤包括：

对图像归一化步骤得到的不同尺度的归一化图像，将多层次特征学习步骤预测得到的概率与相应生成的尺度标注进行对比，从而计算损失函数：

其中，θ_E是特征提取网络的参数，θ_S是尺度预测网络的参数，x_i代表不同尺度的归一化图像，

代表经过图像变换步骤得到的图像，y_i是其尺度标签，E代表特征提取网络，S代表尺度预测网络，H代表交叉熵函数。

优选的，所述恢复图像对齐步骤包括：

对经过图像变换步骤得到的图像，将图像恢复步骤得到的恢复图像与相应的经过图像归一化步骤得到的不同尺度的归一化图像进行对比，从而计算均方误差损失函数：

其中，θ_E是特征提取网络的参数，θ_G是图像恢复网络的参数，x_i代表不同尺度的归一化图像，

代表经过图像变换步骤得到的图像，E代表特征提取网络，G代表图像恢复网络。

根据本发明提供的自监督模型预训练系统，包括：

数据归一化模块：对不同模态的图像，进行多尺度裁剪，使用空间和强度归一化方法对图像进行预处理，得到归一化图像；

图像变换模块：对归一化图像，使用非线性变换、局部扰动、内部填充和外部填充得到变换后的图像；

模态不变特征提取模块：对变换后的图像，使用深度卷积神经网络提取图像的模态不变特征，得到不同模态的图像特征；

模态不变对抗学习模块：对变换后的图像，使用密集连接模态判别网络提取图像特征，与模态不变特征提取出的图像特征进行对抗学习；

多层次特征学习模块：对模态不变特征提取模块提取出的图像特征，使用全连接层构成的多层次特征学习网络进行尺度预测；

图像恢复模块：对模态不变特征提取模块提取出的图像特征，使用卷积和升采样构成的图像恢复网络得到恢复后的图像；

恢复图像对齐模块：根据恢复图像和归一化图像，使用均方误差损失函数实现自监督学习。

优选的，所述模态不变对抗学习模块包括：对模态不变特征提取网络和模态判别网络进行min-max的游戏，模态判别网络区分两个模态的图像，模态不变特征提取网络混淆模态判别网络，通过提取模态不变的特征使得模态判别网络不能区分特征的来源；

和

代表归一化后的两个模态的图像，

和

代表变换后的两个模态的图像，

和

是特征提取网络提取到的对应模态的特征，

是模态判别网络预测特征

来自CT模态的概率，

是模态判别网络预测特征

来自MRI模态的概率。

优选的，所述多层次特征学习模块包括：

对图像归一化模块得到的不同尺度的归一化图像，将多层次特征学习模块预测得到的概率与相应生成的尺度标注进行对比，从而计算损失函数：

代表经过图像变换模块得到的图像，y_i是其尺度标签，E代表特征提取网络，S代表尺度预测网络，H代表交叉熵函数。

优选的，所述恢复图像对齐模块包括：

对经过图像变换模块得到的图像，将图像恢复模块得到的恢复图像与相应的经过图像归一化模块得到的不同尺度的归一化图像进行对比，从而计算均方误差损失函数：

代表经过图像变换模块得到的图像，E代表特征提取网络，G代表图像恢复网络。

根据本发明提供的一种存储有计算机程序的计算机可读存储介质，所述计算机程序被处理器执行时实现上述的方法的步骤。

与现有技术相比，本发明具有如下的有益效果：

1、本发明通过对两个模态构建一个特征提取网络，并且使特征判别网络无法判断特征的来源，迫使特征提取网络提取两个模态之间的共享的特征，即图像的通用特征，而忽略每个模态特有的特征。由于提取的特征是模态不变的，因此可以实现对于目标任务和目标数据的更好地泛化；

2、本发明考虑了多层次的特征学习，通过多层次特征学习网络进行尺度预测，从而更好地提升了特征对不同任务的泛化能力；

3、本发明提出了自监督方法帮助学习特征表达，对所述图像恢复模块得到的恢复后的图像和所述数据归一化模块得到的图像进行对齐操作，让二者图像相一致，从而提升特征表达能力。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明方法流程图；

图2为本发明系统原理图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

实施例：

如图1所示，为本发明基于模态不变对抗学习和多层次特征学习的自监督模型预训练方法实施例的流程图，该方法通过数据归一化步骤将不同模态的图像，进行多尺度裁剪，并且通过空间和强度归一化进行预处理，并使用图像变换步骤通过非线性变换、局部扰动、内部填充和外部填充，对归一化图像进行变换，通过模态不变特征提取步骤将变换后的图像处理称为对应模态的图像特征，并通过模态不变对抗学习步骤使得提取的特征是模态不变的，因此由该预训练方法提取的特征可以应用到多模态上，实现模态泛化。通过多层次特征学习步骤，对所述模态不变特征提取步骤提取出的图像特征，使用全连接层构成的多层次特征学习网络进行尺度预测，实现多层次的特征学习，使得提取的特征可以泛化到不同的任务上。此外，通过图像恢复步骤将所述模态不变特征提取步骤提取出的图像特征恢复成图像，再使用恢复图像对齐步骤与归一化后的图像对其，从而实现自监督方法学习特征表达。

本发明通过在不同模态的数据间使用一个特征提取网络，并且使模态判别网络无法判断特征的来源，迫使特征提取网络能够提取两个模态之间共享的特征，而忽略模态特有的信息。通过共享同一个特征提取网络，两个模态的图像特征是联合学习的，并且在泛化到目标任务的时候，不需要知道图像的模态信息。

具体地，参照图1，所述方法包括如下步骤：

数据归一化步骤：对不同模态的图像，进行多尺度裁剪，使用空间和强度归一化方法对数据进行预处理；

图像变换步骤：对所述数据归一化步骤得到的归一化图像，使用非线性变换、局部扰动、内部填充和外部填充得到变换后的图像；

模态不变特征提取步骤：对所述图像变换步骤得到多模态、多尺度图像，使用深度卷积神经网络提取图像的模态不变特征，得到不同模态的图像特征；

模态不变对抗学习步骤：对所述图像变换步骤得到多模态、多尺度图像，使用密集连接模态判别网络提取图像特征，与所述模态不变特征提取步骤提取出的图像特征进行对抗学习；

多层次特征学习步骤：对所述模态不变特征提取步骤提取出的图像特征，使用全连接层构成的多层次特征学习网络进行尺度预测；

图像恢复步骤：对所述模态不变特征提取步骤提取出的图像特征，使用卷积和升采样构成的图像恢复网络得到恢复后的图像；

恢复图像对齐步骤：根据所述图像恢复步骤得到的恢复图像和数据归一化步骤得到的图像，使用均方误差损失函数实现自监督学习。

对应于上述方法，本发明还提供一种基于模态不变对抗学习和多层次特征学习的自监督模型预训练系统的实施例，包括：

数据归一化模块：对不同模态的图像，进行多尺度裁剪，使用空间和强度归一化方法对数据进行预处理；

图像变换模块：对所述数据归一化步骤得到的归一化图像，使用非线性变换、局部扰动、内部填充和外部填充得到变换后的图像；

模态不变特征提取模块：对所述图像变换步骤得到多模态、多尺度图像，使用深度卷积神经网络提取图像的模态不变特征，得到不同模态的图像特征；

模态不变对抗学习模块：对所述图像变换步骤得到多模态、多尺度图像，使用密集连接模态判别网络提取图像特征，与所述模态不变特征提取步骤提取出的图像特征进行对抗学习；

多层次特征学习模块：对所述模态不变特征提取步骤提取出的图像特征，使用全连接层构成的多层次特征学习网络进行尺度预测；

图像恢复模块：对所述模态不变特征提取步骤提取出的图像特征，使用卷积和升采样构成的图像恢复网络得到恢复后的图像；

恢复图像对齐模块：根据所述图像恢复步骤得到的恢复图像和数据归一化步骤得到的图像，使用均方误差损失函数实现自监督学习。

上述基于模态不变对抗学习和多层次特征学习的自监督模型预训练系统各个模块实现的技术特征可以与上述基于模态不变对抗学习和多层次特征学习的自监督模型预训练方法中对应步骤实现的技术特征相同。

以下对上述各个步骤和模块的具体实现进行详细的描述，以便理解本发明技术方案。

在本发明部分实施例中，所述数据归一化步骤，其中：利用空间和强度归一化方法，对来自不同模态、不同扫描区域、不同器官的图像进行预处理，同时进行多尺度裁剪得到不同模态的多尺度的归一化的数据。

在本发明部分实施例中，所述图像变换步骤，其中：利用非线性变换、局部扰动、内部填充和外部填充等操作，随机组合对经过所述数据归一化步骤得到的图像进行变换。

在本发明部分实施例中，所述模态不变特征提取步骤，其中：利用深度卷积神经网络模型，将两个模态的图像输入共享的特征提取网络，提取网络各层的模态不变特征，即两个模态共享的特征信息。

在本发明部分实施例中，所述模态不变对抗学习步骤，其中：模态不变特征提取网络和模态判别网络进行min-max的游戏，模态判别网络尽可能地区分两个模态的图像，而模态不变特征提取网络尽可能地混淆模态判别网络，通过提取模态不变的特征使得模态判别网络不能区分特征来自于哪个模态。

在本发明部分实施例中，所述多层次特征学习步骤，其中：利用全连接层构成的尺度预测网络，对输入图像的尺度进行预测。

在本发明部分实施例中，所述图像恢复步骤，其中：图像恢复网络由若干层卷积和上采样操作构成。利用改图像恢复网络，将特征提取网络提取出的模态不变特征生成其恢复图像。

在本发明部分实施例中，所述恢复图像对齐步骤，其中，将所述图像恢复步骤得到的恢复图像与相应的经过所述图像归一化步骤得到的图像对齐，实现自监督学习。

具体地，数据归一化模块、图像变换模块、模态不变特征提取模块、模态不变对抗学习模块、多层次特征学习模块、图像恢复模块、恢复图像对齐模块组成的自监督模型预训练系统网络框架如图2所示，整个系统框架能够端到端地进行训练。

在如图2所示的实施例的系统框架中，来自不同模态、不同扫描区域、不同器官的图像通过空间和强度归一化方法进行预处理；同时进行多尺度裁剪得到不同模态的多尺度的归一化的数据。通过数据归一化模块的图像输入图像变换模块，经过非线性变换、局部扰动、内部填充和外部填充等一系列变换，输入模态不变特征提取模块、输出对应的图像特征、模态不变特征提取模块是由一系列卷积层和池化层组成的下采样模块构成的。图像特征通过密集连接的模态不变对抗学习模块。模态不变特征提取网络和模态判别网络进行min-max的游戏，模态判别网络尽可能地区分两个模态的图像，而模态不变特征提取网络尽可能地混淆模态判别网络，通过提取模态不变的特征使得模态判别网络不能区分特征来自于哪个模态。模态不变特征提取网络和模态判别网络进行min-max的游戏的目标函数如下：

和

代表归一化后的两个模态的图像，

和

代表变换后的两个模态的图像，

和

是特征提取网络提取到的对应模态的特征，

是模态判别网络预测特征

来自CT模态的概率，

是模态判别网络预测特征

来自MRI模态的概率。通过这样的min-max对抗学习，模态判别网络使预测对图像模态的概率尽可能大；特征提取网络则是相反的作用，它的目的是提取模态不变的特征，从而混淆模态判别网络，使模态判别网络误判。

为了更好地泛化到不同的任务，模态不变特征提取模块输出的特征会输入多层次特征学习模块，其中，多层次特征学习网络是由全连接层构成的，预测输入图像的尺度。对于所述图像归一化步骤得到的不同尺度的归一化图像，将所属多层次特征学习步骤得到的概率与相应生成的尺度标注进行对比，从而计算下面的损失函数：

代表经过所述图像变换步骤得到的图像，y_i是其尺度标签，E代表特征提取网络，S代表尺度预测网络，H代表交叉熵函数。

为了使提取的特征学习到更好地表达，如图2所示，通过模态不变特征提取模块提取的特征会输入图像恢复模块，图像恢复网络由若干层卷积和上采样操作构成。利用改图像恢复网络，将特征提取网络提取出的模态不变特征生成其恢复图像。将所述图像恢复模块得到的恢复图像与相应的经过所述图像归一化模块得到的图像对齐，实现自监督学习，从而计算如下损失函数：

其中，x_i代表不同尺度的归一化图像，

代表经过所述图像变换步骤得到的图像，G代表图像恢复网络，使用均方误差损失函数。

综上，本发明通过数据归一化步骤将不同模态的图像，进行多尺度裁剪，并且通过空间和强度归一化进行预处理，并使用图像变换步骤通过非线性变换、局部扰动、内部填充和外部填充，对归一化图像进行变换。在不同的模态之间共享一个特征提取网络，并且使模态判别网络无法判断特征的来源，迫使特征提取网络能够提取到不同模态之间共享的特征，忽略每个模态特有的信息。由于提取的特征是模态不变的，因此可以实现对于目标任务和目标数据的更好地泛化。进一步地，通过多层次特征学习网络进行尺度预测，从而更好地提升了特征对不同任务的泛化能力。此外，通过自监督学习，即对所述图像恢复模块得到的恢复后的图像和所述数据归一化模块得到的图像进行对齐操作，让二者图像相一致，从而提升特征表达能力。

通过共享一个特征提取网络，不同模态的图像特征是联合学习的，在向目标任务泛化的时候，不需要知道图像的模态信息。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。