CN112651916A - 自监督模型预训练方法、系统及介质 - Google Patents
自监督模型预训练方法、系统及介质 Download PDFInfo
- Publication number
- CN112651916A CN112651916A CN202011567684.5A CN202011567684A CN112651916A CN 112651916 A CN112651916 A CN 112651916A CN 202011567684 A CN202011567684 A CN 202011567684A CN 112651916 A CN112651916 A CN 112651916A
- Authority
- CN
- China
- Prior art keywords
- image
- network
- mode
- invariant
- feature extraction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000012549 training Methods 0.000 title claims abstract description 24
- 238000012544 monitoring process Methods 0.000 title description 3
- 238000010606 normalization Methods 0.000 claims abstract description 44
- 230000009466 transformation Effects 0.000 claims abstract description 43
- 238000011084 recovery Methods 0.000 claims abstract description 18
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 238000013528 artificial neural network Methods 0.000 claims abstract description 7
- 238000000605 extraction Methods 0.000 claims description 83
- 230000006870 function Effects 0.000 claims description 30
- 238000004590 computer program Methods 0.000 claims description 2
- 239000000284 extract Substances 0.000 abstract 1
- 230000014509 gene expression Effects 0.000 description 5
- 230000004927 fusion Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 210000000056 organ Anatomy 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10072—Tomographic images
- G06T2207/10081—Computed x-ray tomography [CT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10072—Tomographic images
- G06T2207/10088—Magnetic resonance imaging [MRI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20076—Probabilistic image processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
- Apparatus For Radiation Diagnosis (AREA)
Abstract
本发明提供了一种自监督模型预训练方法、系统及介质,包括:对不同模态图像使用归一化方法进行预处理;对归一化图像使用非线性变换、局部扰动、内部填充和外部填充得到变换后的图像;对变换后的图像使用深度卷积神经网络提取图像的模态不变图像特征;对变换后的图像,使用密集连接模态判别网络提取图像特征,与模态不变图像特征进行对抗学习;对模态不变图像特征,使用多层次特征学习网络进行尺度预测;对模态不变特征图像特征使用图像恢复网络得到恢复图像;根据恢复图像和归一化图像实现自监督学习。本发明对不同模态图像提取模态不变的且有较强多层次判别力的特征,通过有效的自监督学习,提高了预训练模型的泛化能力,实现良好的通用性。
Description
技术领域
本发明涉及计算机视觉和图像处理技术领域,具体地,涉及一种自监督模型预训练方法、系统及介质。尤其地,涉及一种基于模态不变对抗学习和多层次特征学习的自监督模型预训练方法。
背景技术
基于深度学习的模型在各种计算机视觉任务中取得了可观的进展。这种数据驱动方法通常需要大量的有标注数据。为了减少对训练数据的需求,我们一般会从大规模的数据预训练得到的模型上进行迁移学习,然后在特定的目标任务上进行微调。然而典型的医疗影像是3D图像,无法直接从已有的2D预训练模型上进行迁移。为了利用已有的2D预训练模型,常用的方法是将3D的图像转为2D的切片进行训练,没有考虑slice间的关联性,效果不佳。部分工作使用基于视频预训练的3D模型,但是由于视频时空维度不对称,与医疗3D数据的特性差别很大,也没有取得理想结果。同时由于医疗影像数据的标注挑战极高,需要专业的医师标注,且不同的医生的标注之间存在一定的不确定性。此外,医疗数据存在因为设备、采集方式等原因造成的跨域问题。
由于大规模的有标注的医疗影像数据难以获取,目前很多方法均是通过自监督学习的框架。通过预先定义的伪标签任务来学习特征表达,再通过有标注的数据来进一步微调模型。但是这种方法一般都是在单一模态的数据下进行训练,不能解决跨模态的泛化问题。此外,现有很多方法在利用多个数据集进行训练的时候,忽略了多中心数据之间存在的领域差异。
专利文献CN111260594A(申请号:CN201911332757.X)公开了一种无监督的多模态图像融合方法,包括下列步骤:基于多场景下的可见光和红外多源模态视频和图像配准数据构建数据集;搭建融合模型,其结构基于含残差模块的卷积神经网络;搭建判别模型;设计生成对抗模型的损失函数,分别是多源信息损失,用于提升融合网络的多源信息保留能力;相似性损失,用于判别融合结果与源图像的相似性;对抗损失,用于融合网络和判别网络间的联合训练方向约束;第五步,通过迭代步骤进行模型联合对抗训练。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种自监督模型预训练方法、系统及介质。
根据本发明提供的自监督模型预训练方法,包括:
数据归一化步骤:对不同模态的图像,进行多尺度裁剪,使用空间和强度归一化方法对图像进行预处理,得到归一化图像;
图像变换步骤:对归一化图像,使用非线性变换、局部扰动、内部填充和外部填充得到变换后的图像;
模态不变特征提取步骤:对变换后的图像,使用深度卷积神经网络提取图像的模态不变特征,得到不同模态的图像特征;
模态不变对抗学习步骤:对变换后的图像,使用密集连接模态判别网络提取图像特征,与模态不变特征提取出的图像特征进行对抗学习;
多层次特征学习步骤:对模态不变特征提取步骤提取出的图像特征,使用全连接层构成的多层次特征学习网络进行尺度预测;
图像恢复步骤:对模态不变特征提取步骤提取出的图像特征,使用卷积和升采样构成的图像恢复网络得到恢复后的图像;
恢复图像对齐步骤:根据恢复图像和归一化图像,使用均方误差损失函数实现自监督学习。
优选的,所述模态不变对抗学习步骤包括:对模态不变特征提取网络和模态判别网络进行min-max的游戏,模态判别网络区分两个模态的图像,模态不变特征提取网络混淆模态判别网络,通过提取模态不变的特征使得模态判别网络不能区分特征的来源;
模态不变特征提取网络和模态判别网络进行min-max的游戏,目标函数如下:
其中,θE是模态不变特征提取网络的参数,θD是模态判别网络的参数,和代表归一化后的两个模态的图像,和代表变换后的两个模态的图像,和是特征提取网络提取到的对应模态的特征,是模态判别网络预测特征来自CT模态的概率,是模态判别网络预测特征来自MRI模态的概率。
优选的,所述多层次特征学习步骤包括:
对图像归一化步骤得到的不同尺度的归一化图像,将多层次特征学习步骤预测得到的概率与相应生成的尺度标注进行对比,从而计算损失函数:
优选的,所述恢复图像对齐步骤包括:
对经过图像变换步骤得到的图像,将图像恢复步骤得到的恢复图像与相应的经过图像归一化步骤得到的不同尺度的归一化图像进行对比,从而计算均方误差损失函数:
根据本发明提供的自监督模型预训练系统,包括:
数据归一化模块:对不同模态的图像,进行多尺度裁剪,使用空间和强度归一化方法对图像进行预处理,得到归一化图像;
图像变换模块:对归一化图像,使用非线性变换、局部扰动、内部填充和外部填充得到变换后的图像;
模态不变特征提取模块:对变换后的图像,使用深度卷积神经网络提取图像的模态不变特征,得到不同模态的图像特征;
模态不变对抗学习模块:对变换后的图像,使用密集连接模态判别网络提取图像特征,与模态不变特征提取出的图像特征进行对抗学习;
多层次特征学习模块:对模态不变特征提取模块提取出的图像特征,使用全连接层构成的多层次特征学习网络进行尺度预测;
图像恢复模块:对模态不变特征提取模块提取出的图像特征,使用卷积和升采样构成的图像恢复网络得到恢复后的图像;
恢复图像对齐模块:根据恢复图像和归一化图像,使用均方误差损失函数实现自监督学习。
优选的,所述模态不变对抗学习模块包括:对模态不变特征提取网络和模态判别网络进行min-max的游戏,模态判别网络区分两个模态的图像,模态不变特征提取网络混淆模态判别网络,通过提取模态不变的特征使得模态判别网络不能区分特征的来源;
模态不变特征提取网络和模态判别网络进行min-max的游戏,目标函数如下:
其中,θE是模态不变特征提取网络的参数,θD是模态判别网络的参数,和代表归一化后的两个模态的图像,和代表变换后的两个模态的图像,和是特征提取网络提取到的对应模态的特征,是模态判别网络预测特征来自CT模态的概率,是模态判别网络预测特征来自MRI模态的概率。
优选的,所述多层次特征学习模块包括:
对图像归一化模块得到的不同尺度的归一化图像,将多层次特征学习模块预测得到的概率与相应生成的尺度标注进行对比,从而计算损失函数:
优选的,所述恢复图像对齐模块包括:
对经过图像变换模块得到的图像,将图像恢复模块得到的恢复图像与相应的经过图像归一化模块得到的不同尺度的归一化图像进行对比,从而计算均方误差损失函数:
根据本发明提供的一种存储有计算机程序的计算机可读存储介质,所述计算机程序被处理器执行时实现上述的方法的步骤。
与现有技术相比,本发明具有如下的有益效果:
1、本发明通过对两个模态构建一个特征提取网络,并且使特征判别网络无法判断特征的来源,迫使特征提取网络提取两个模态之间的共享的特征,即图像的通用特征,而忽略每个模态特有的特征。由于提取的特征是模态不变的,因此可以实现对于目标任务和目标数据的更好地泛化;
2、本发明考虑了多层次的特征学习,通过多层次特征学习网络进行尺度预测,从而更好地提升了特征对不同任务的泛化能力;
3、本发明提出了自监督方法帮助学习特征表达,对所述图像恢复模块得到的恢复后的图像和所述数据归一化模块得到的图像进行对齐操作,让二者图像相一致,从而提升特征表达能力。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明方法流程图;
图2为本发明系统原理图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
实施例:
如图1所示,为本发明基于模态不变对抗学习和多层次特征学习的自监督模型预训练方法实施例的流程图,该方法通过数据归一化步骤将不同模态的图像,进行多尺度裁剪,并且通过空间和强度归一化进行预处理,并使用图像变换步骤通过非线性变换、局部扰动、内部填充和外部填充,对归一化图像进行变换,通过模态不变特征提取步骤将变换后的图像处理称为对应模态的图像特征,并通过模态不变对抗学习步骤使得提取的特征是模态不变的,因此由该预训练方法提取的特征可以应用到多模态上,实现模态泛化。通过多层次特征学习步骤,对所述模态不变特征提取步骤提取出的图像特征,使用全连接层构成的多层次特征学习网络进行尺度预测,实现多层次的特征学习,使得提取的特征可以泛化到不同的任务上。此外,通过图像恢复步骤将所述模态不变特征提取步骤提取出的图像特征恢复成图像,再使用恢复图像对齐步骤与归一化后的图像对其,从而实现自监督方法学习特征表达。
本发明通过在不同模态的数据间使用一个特征提取网络,并且使模态判别网络无法判断特征的来源,迫使特征提取网络能够提取两个模态之间共享的特征,而忽略模态特有的信息。通过共享同一个特征提取网络,两个模态的图像特征是联合学习的,并且在泛化到目标任务的时候,不需要知道图像的模态信息。
具体地,参照图1,所述方法包括如下步骤:
数据归一化步骤:对不同模态的图像,进行多尺度裁剪,使用空间和强度归一化方法对数据进行预处理;
图像变换步骤:对所述数据归一化步骤得到的归一化图像,使用非线性变换、局部扰动、内部填充和外部填充得到变换后的图像;
模态不变特征提取步骤:对所述图像变换步骤得到多模态、多尺度图像,使用深度卷积神经网络提取图像的模态不变特征,得到不同模态的图像特征;
模态不变对抗学习步骤:对所述图像变换步骤得到多模态、多尺度图像,使用密集连接模态判别网络提取图像特征,与所述模态不变特征提取步骤提取出的图像特征进行对抗学习;
多层次特征学习步骤:对所述模态不变特征提取步骤提取出的图像特征,使用全连接层构成的多层次特征学习网络进行尺度预测;
图像恢复步骤:对所述模态不变特征提取步骤提取出的图像特征,使用卷积和升采样构成的图像恢复网络得到恢复后的图像;
恢复图像对齐步骤:根据所述图像恢复步骤得到的恢复图像和数据归一化步骤得到的图像,使用均方误差损失函数实现自监督学习。
对应于上述方法,本发明还提供一种基于模态不变对抗学习和多层次特征学习的自监督模型预训练系统的实施例,包括:
数据归一化模块:对不同模态的图像,进行多尺度裁剪,使用空间和强度归一化方法对数据进行预处理;
图像变换模块:对所述数据归一化步骤得到的归一化图像,使用非线性变换、局部扰动、内部填充和外部填充得到变换后的图像;
模态不变特征提取模块:对所述图像变换步骤得到多模态、多尺度图像,使用深度卷积神经网络提取图像的模态不变特征,得到不同模态的图像特征;
模态不变对抗学习模块:对所述图像变换步骤得到多模态、多尺度图像,使用密集连接模态判别网络提取图像特征,与所述模态不变特征提取步骤提取出的图像特征进行对抗学习;
多层次特征学习模块:对所述模态不变特征提取步骤提取出的图像特征,使用全连接层构成的多层次特征学习网络进行尺度预测;
图像恢复模块:对所述模态不变特征提取步骤提取出的图像特征,使用卷积和升采样构成的图像恢复网络得到恢复后的图像;
恢复图像对齐模块:根据所述图像恢复步骤得到的恢复图像和数据归一化步骤得到的图像,使用均方误差损失函数实现自监督学习。
上述基于模态不变对抗学习和多层次特征学习的自监督模型预训练系统各个模块实现的技术特征可以与上述基于模态不变对抗学习和多层次特征学习的自监督模型预训练方法中对应步骤实现的技术特征相同。
以下对上述各个步骤和模块的具体实现进行详细的描述,以便理解本发明技术方案。
在本发明部分实施例中,所述数据归一化步骤,其中:利用空间和强度归一化方法,对来自不同模态、不同扫描区域、不同器官的图像进行预处理,同时进行多尺度裁剪得到不同模态的多尺度的归一化的数据。
在本发明部分实施例中,所述图像变换步骤,其中:利用非线性变换、局部扰动、内部填充和外部填充等操作,随机组合对经过所述数据归一化步骤得到的图像进行变换。
在本发明部分实施例中,所述模态不变特征提取步骤,其中:利用深度卷积神经网络模型,将两个模态的图像输入共享的特征提取网络,提取网络各层的模态不变特征,即两个模态共享的特征信息。
在本发明部分实施例中,所述模态不变对抗学习步骤,其中:模态不变特征提取网络和模态判别网络进行min-max的游戏,模态判别网络尽可能地区分两个模态的图像,而模态不变特征提取网络尽可能地混淆模态判别网络,通过提取模态不变的特征使得模态判别网络不能区分特征来自于哪个模态。
在本发明部分实施例中,所述多层次特征学习步骤,其中:利用全连接层构成的尺度预测网络,对输入图像的尺度进行预测。
在本发明部分实施例中,所述图像恢复步骤,其中:图像恢复网络由若干层卷积和上采样操作构成。利用改图像恢复网络,将特征提取网络提取出的模态不变特征生成其恢复图像。
在本发明部分实施例中,所述恢复图像对齐步骤,其中,将所述图像恢复步骤得到的恢复图像与相应的经过所述图像归一化步骤得到的图像对齐,实现自监督学习。
具体地,数据归一化模块、图像变换模块、模态不变特征提取模块、模态不变对抗学习模块、多层次特征学习模块、图像恢复模块、恢复图像对齐模块组成的自监督模型预训练系统网络框架如图2所示,整个系统框架能够端到端地进行训练。
在如图2所示的实施例的系统框架中,来自不同模态、不同扫描区域、不同器官的图像通过空间和强度归一化方法进行预处理;同时进行多尺度裁剪得到不同模态的多尺度的归一化的数据。通过数据归一化模块的图像输入图像变换模块,经过非线性变换、局部扰动、内部填充和外部填充等一系列变换,输入模态不变特征提取模块、输出对应的图像特征、模态不变特征提取模块是由一系列卷积层和池化层组成的下采样模块构成的。图像特征通过密集连接的模态不变对抗学习模块。模态不变特征提取网络和模态判别网络进行min-max的游戏,模态判别网络尽可能地区分两个模态的图像,而模态不变特征提取网络尽可能地混淆模态判别网络,通过提取模态不变的特征使得模态判别网络不能区分特征来自于哪个模态。模态不变特征提取网络和模态判别网络进行min-max的游戏的目标函数如下:
其中,θE是模态不变特征提取网络的参数,θD是模态判别网络的参数,和代表归一化后的两个模态的图像,和代表变换后的两个模态的图像,和是特征提取网络提取到的对应模态的特征,是模态判别网络预测特征来自CT模态的概率,是模态判别网络预测特征来自MRI模态的概率。通过这样的min-max对抗学习,模态判别网络使预测对图像模态的概率尽可能大;特征提取网络则是相反的作用,它的目的是提取模态不变的特征,从而混淆模态判别网络,使模态判别网络误判。
为了更好地泛化到不同的任务,模态不变特征提取模块输出的特征会输入多层次特征学习模块,其中,多层次特征学习网络是由全连接层构成的,预测输入图像的尺度。对于所述图像归一化步骤得到的不同尺度的归一化图像,将所属多层次特征学习步骤得到的概率与相应生成的尺度标注进行对比,从而计算下面的损失函数:
其中,θE是特征提取网络的参数,θS是尺度预测网络的参数,xi代表不同尺度的归一化图像,代表经过所述图像变换步骤得到的图像,yi是其尺度标签,E代表特征提取网络,S代表尺度预测网络,H代表交叉熵函数。
为了使提取的特征学习到更好地表达,如图2所示,通过模态不变特征提取模块提取的特征会输入图像恢复模块,图像恢复网络由若干层卷积和上采样操作构成。利用改图像恢复网络,将特征提取网络提取出的模态不变特征生成其恢复图像。将所述图像恢复模块得到的恢复图像与相应的经过所述图像归一化模块得到的图像对齐,实现自监督学习,从而计算如下损失函数:
综上,本发明通过数据归一化步骤将不同模态的图像,进行多尺度裁剪,并且通过空间和强度归一化进行预处理,并使用图像变换步骤通过非线性变换、局部扰动、内部填充和外部填充,对归一化图像进行变换。在不同的模态之间共享一个特征提取网络,并且使模态判别网络无法判断特征的来源,迫使特征提取网络能够提取到不同模态之间共享的特征,忽略每个模态特有的信息。由于提取的特征是模态不变的,因此可以实现对于目标任务和目标数据的更好地泛化。进一步地,通过多层次特征学习网络进行尺度预测,从而更好地提升了特征对不同任务的泛化能力。此外,通过自监督学习,即对所述图像恢复模块得到的恢复后的图像和所述数据归一化模块得到的图像进行对齐操作,让二者图像相一致,从而提升特征表达能力。
通过共享一个特征提取网络,不同模态的图像特征是联合学习的,在向目标任务泛化的时候,不需要知道图像的模态信息。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以,本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件,而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构;也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。
Claims (9)
1.一种自监督模型预训练方法,其特征在于,包括:
数据归一化步骤:对不同模态的图像,进行多尺度裁剪,使用空间和强度归一化方法对图像进行预处理,得到归一化图像;
图像变换步骤:对归一化图像,使用非线性变换、局部扰动、内部填充和外部填充得到变换后的图像;
模态不变特征提取步骤:对变换后的图像,使用深度卷积神经网络提取图像的模态不变特征,得到不同模态的图像特征;
模态不变对抗学习步骤:对变换后的图像,使用密集连接模态判别网络提取图像特征,与模态不变特征提取出的图像特征进行对抗学习;
多层次特征学习步骤:对模态不变特征提取步骤提取出的图像特征,使用全连接层构成的多层次特征学习网络进行尺度预测;
图像恢复步骤:对模态不变特征提取步骤提取出的图像特征,使用卷积和升采样构成的图像恢复网络得到恢复后的图像;
恢复图像对齐步骤:根据恢复图像和归一化图像,使用均方误差损失函数实现自监督学习。
2.根据权利要求1所述的自监督模型预训练方法,其特征在于,所述模态不变对抗学习步骤包括:对模态不变特征提取网络和模态判别网络进行min-max的游戏,模态判别网络区分两个模态的图像,模态不变特征提取网络混淆模态判别网络,通过提取模态不变的特征使得模态判别网络不能区分特征的来源;
模态不变特征提取网络和模态判别网络进行min-max的游戏,目标函数如下:
5.一种自监督模型预训练系统,其特征在于,包括:
数据归一化模块:对不同模态的图像,进行多尺度裁剪,使用空间和强度归一化方法对图像进行预处理,得到归一化图像;
图像变换模块:对归一化图像,使用非线性变换、局部扰动、内部填充和外部填充得到变换后的图像;
模态不变特征提取模块:对变换后的图像,使用深度卷积神经网络提取图像的模态不变特征,得到不同模态的图像特征;
模态不变对抗学习模块:对变换后的图像,使用密集连接模态判别网络提取图像特征,与模态不变特征提取出的图像特征进行对抗学习;
多层次特征学习模块:对模态不变特征提取模块提取出的图像特征,使用全连接层构成的多层次特征学习网络进行尺度预测;
图像恢复模块:对模态不变特征提取模块提取出的图像特征,使用卷积和升采样构成的图像恢复网络得到恢复后的图像;
恢复图像对齐模块:根据恢复图像和归一化图像,使用均方误差损失函数实现自监督学习。
6.根据权利要求5所述的自监督模型预训练方法,其特征在于,所述模态不变对抗学习模块包括:对模态不变特征提取网络和模态判别网络进行min-max的游戏,模态判别网络区分两个模态的图像,模态不变特征提取网络混淆模态判别网络,通过提取模态不变的特征使得模态判别网络不能区分特征的来源;
模态不变特征提取网络和模态判别网络进行min-max的游戏,目标函数如下:
9.一种存储有计算机程序的计算机可读存储介质,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011567684.5A CN112651916A (zh) | 2020-12-25 | 2020-12-25 | 自监督模型预训练方法、系统及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011567684.5A CN112651916A (zh) | 2020-12-25 | 2020-12-25 | 自监督模型预训练方法、系统及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112651916A true CN112651916A (zh) | 2021-04-13 |
Family
ID=75363441
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011567684.5A Pending CN112651916A (zh) | 2020-12-25 | 2020-12-25 | 自监督模型预训练方法、系统及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112651916A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113159223A (zh) * | 2021-05-17 | 2021-07-23 | 湖北工业大学 | 一种基于自监督学习的颈动脉超声图像识别方法 |
CN113449613A (zh) * | 2021-06-15 | 2021-09-28 | 北京华创智芯科技有限公司 | 多任务长尾分布图像识别方法、系统、电子设备及介质 |
CN117274656A (zh) * | 2023-06-06 | 2023-12-22 | 天津大学 | 基于自适应深度监督模块的多模态模型对抗训练方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110544275A (zh) * | 2019-08-19 | 2019-12-06 | 中山大学 | 生成配准的带病灶分割标签的多模态mri的方法、系统及介质 |
CN110544239A (zh) * | 2019-08-19 | 2019-12-06 | 中山大学 | 基于条件生成对抗网络的多模态mri转换方法、系统及介质 |
CN111243066A (zh) * | 2020-01-09 | 2020-06-05 | 浙江大学 | 一种基于自监督学习与生成对抗机制的人脸表情迁移方法 |
CN112052754A (zh) * | 2020-08-24 | 2020-12-08 | 西安电子科技大学 | 基于自监督表征学习的极化sar影像地物分类方法 |
-
2020
- 2020-12-25 CN CN202011567684.5A patent/CN112651916A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110544275A (zh) * | 2019-08-19 | 2019-12-06 | 中山大学 | 生成配准的带病灶分割标签的多模态mri的方法、系统及介质 |
CN110544239A (zh) * | 2019-08-19 | 2019-12-06 | 中山大学 | 基于条件生成对抗网络的多模态mri转换方法、系统及介质 |
CN111243066A (zh) * | 2020-01-09 | 2020-06-05 | 浙江大学 | 一种基于自监督学习与生成对抗机制的人脸表情迁移方法 |
CN112052754A (zh) * | 2020-08-24 | 2020-12-08 | 西安电子科技大学 | 基于自监督表征学习的极化sar影像地物分类方法 |
Non-Patent Citations (1)
Title |
---|
XIAOMAN ZHANG: "Universal Model for 3D Medical Image Analysis", 《ARXIV》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113159223A (zh) * | 2021-05-17 | 2021-07-23 | 湖北工业大学 | 一种基于自监督学习的颈动脉超声图像识别方法 |
CN113449613A (zh) * | 2021-06-15 | 2021-09-28 | 北京华创智芯科技有限公司 | 多任务长尾分布图像识别方法、系统、电子设备及介质 |
CN113449613B (zh) * | 2021-06-15 | 2024-02-27 | 北京华创智芯科技有限公司 | 多任务长尾分布图像识别方法、系统、电子设备及介质 |
CN117274656A (zh) * | 2023-06-06 | 2023-12-22 | 天津大学 | 基于自适应深度监督模块的多模态模型对抗训练方法 |
CN117274656B (zh) * | 2023-06-06 | 2024-04-05 | 天津大学 | 基于自适应深度监督模块的多模态模型对抗训练方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Multi-label image recognition by recurrently discovering attentional regions | |
CN110781843B (zh) | 课堂行为检测方法及电子设备 | |
CN112651916A (zh) | 自监督模型预训练方法、系统及介质 | |
CN108734210B (zh) | 一种基于跨模态多尺度特征融合的对象检测方法 | |
US8379994B2 (en) | Digital image analysis utilizing multiple human labels | |
US20230084910A1 (en) | Semantic segmentation network model uncertainty quantification method based on evidence inference | |
CN110728209A (zh) | 一种姿态识别方法、装置、电子设备及存储介质 | |
CN110852256B (zh) | 时序动作提名的生成方法、装置、设备及存储介质 | |
CN113344206A (zh) | 融合通道与关系特征学习的知识蒸馏方法、装置及设备 | |
US20220327816A1 (en) | System for training machine learning model which recognizes characters of text images | |
CN107247952B (zh) | 基于深层监督的循环卷积神经网络的视觉显著性检测方法 | |
CN111325766B (zh) | 三维边缘检测方法、装置、存储介质和计算机设备 | |
Zhu et al. | Few-shot common-object reasoning using common-centric localization network | |
CN112862799A (zh) | 基于图像属性恢复的图像异常检测方法和系统 | |
CN115223020A (zh) | 图像处理方法、装置、电子设备以及可读存储介质 | |
CN114359622A (zh) | 基于卷积神经网络-转换器混合架构的图像分类方法 | |
CN112149526A (zh) | 一种基于长距离信息融合的车道线检测方法及系统 | |
Liu et al. | A deep Q-learning network based active object detection model with a novel training algorithm for service robots | |
Khazaee et al. | An accurate real-time license plate detection method based on deep learning approaches | |
CN110647917B (zh) | 一种模型复用方法与系统 | |
CN115240121B (zh) | 一种用于增强行人局部特征的联合建模方法和装置 | |
CN116403278A (zh) | 一种基于文本监督的人体动作识别方法 | |
CN113158870B (zh) | 2d多人姿态估计网络的对抗式训练方法、系统及介质 | |
CN116168418A (zh) | 一种图像的多模态目标感知与重识别方法 | |
Gokhale et al. | Blocksworld revisited: Learning and reasoning to generate event-sequences from image pairs |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210413 |