CN111260055B

CN111260055B - 基于三维图像识别的模型训练方法、存储介质和设备

Info

Publication number: CN111260055B
Application number: CN202010033108.6A
Authority: CN
Inventors: 魏东; 郑冶枫
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-01-13
Filing date: 2020-01-13
Publication date: 2023-09-01
Anticipated expiration: 2040-01-13
Also published as: CN111260055A

Abstract

本申请涉及一种基于三维图像识别的模型训练方法、装置、计算机可读存储介质和计算机设备，所述方法包括：获取三维原始图像、以及带有标注信息的三维样本图像；对所述三维原始图像中至少一张的原始切片进行干扰处理，得到对应的三维噪声图像；将所述三维噪声图像作为样本输入，并将所述三维原始图像作为训练标签来对目标网络进行预训练，得到预训练好的目标网络；根据预训练好的目标网络中至少一部分的网络结构和相应的网络参数，构建待训练的任务模型；通过所述三维样本图像和相应的标注信息对所述任务模型进行再训练，得到最终训练好的任务模型。本申请提供的方案可以提高模型训练效率。

Description

基于三维图像识别的模型训练方法、存储介质和设备

技术领域

本申请涉及机器学习领域，特别是涉及一种基于三维图像识别的模型训练方法、装置、计算机可读存储介质和计算机设备。

背景技术

随着计算机技术的发展，出现了图像处理技术，可对各种不同场景中的图像进行处理分析。结合神经网络对图像进行处理，可大大提高对图像处理的速度和效果。而在训练神经网络的过程中，分别训练处理二维图像和三维图像的模型所需求的样本数量的完全不同的。对于常见的三维医学图像，比如计算机断层成像(CT)，核磁共振成像(MRI)等，用于处理三维医学图像的三维深度卷积神经网络拥有远远多于二维网络的网络参数需要学习，因此需要更大量的标注信息进行训练，才能取得不错的效果。

然而，在实际应用中，由于各种客观限制往往难以获取大量标注的标注信息，比如，三维医学图像的分割标注耗时费力，并且，对于三维医学图像中的医学数据的标注需要相当的专业知识或培训，这就使得训练数据难以获取，进而导致模型训练效率低的问题。

发明内容

基于此，有必要针对模型训练效率低的技术问题，提供一种基于三维图像识别的模型训练方法、装置、计算机可读存储介质和计算机设备。

一种基于三维图像识别的模型训练方法，包括：

获取三维原始图像、以及带有标注信息的三维样本图像；

对所述三维原始图像中至少一张的原始切片进行干扰处理，得到对应的三维噪声图像；

将所述三维噪声图像作为样本输入，并将所述三维原始图像作为训练标签来对目标网络进行预训练，得到预训练好的目标网络；

根据所述预训练好的目标网络中至少一部分的网络结构和相应的网络参数，构建待训练的任务模型；

通过所述三维样本图像和相应的标注信息对所述任务模型进行再训练，得到最终训练好的任务模型。

一种基于三维图像识别的模型训练装置，所述装置包括：

获取模块，用于获取三维原始图像、以及带有标注信息的三维样本图像；

干扰模块，用于对所述三维原始图像中至少一张的原始切片进行干扰处理，得到对应的三维噪声图像；

预训练模块，用于将所述三维噪声图像作为样本输入，并将所述三维原始图像作为训练标签来对目标网络进行预训练，得到预训练好的目标网络；

构建模块，用于根据所述预训练好的目标网络中至少一部分的网络结构和相应的网络参数，构建待训练的任务模型；

再训练模块，用于通过所述三维样本图像和相应的标注信息对所述任务模型进行再训练，得到最终训练好的任务模型。

一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行以下步骤：

获取三维原始图像、以及带有标注信息的三维样本图像；

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行以下步骤：

获取三维原始图像、以及带有标注信息的三维样本图像；

上述基于三维图像识别的模型训练方法、装置、计算机可读存储介质和计算机设备，采用未标注的三维原始图像来实现对目标网络的自监督预训练，可通过预测还原三维噪声图像中缺失的原始切片的信息，使得目标网络可以学习到三维原始图像中不同部件的特征、以及不同部件间的相互关系，而学习到的这些能力可极大的帮助任务模型的训练。这样，通过无标注信息的三维原始图像预训练目标网络，该预训练好的目标网络可用于构建待训练的任务模型，进而可通过少量的带有标注信息的三维样本图像继续训练该任务模型，从而得到理想效果的任务模型。在任务模型的训练过程中，可大大减少任务模型取得同样效果所需的训练标注信息，从而提高了模型训练效率。

附图说明

图1为一个实施例中基于三维图像识别的模型训练方法的应用环境图；

图2为一个实施例中基于三维图像识别的模型训练方法的流程示意图；

图3(a)为一个实施例中从三维原始图像中选取一张原始切片的示意图；

图3(b)为一个实施例中从三维原始图像中选取两张平行的原始切片的示意图；

图3(c)为一个实施例中从三维原始图像中选取两张相交的原始切片的示意图；

图4为一个实施例中通过差值处理方式预测缺失的原始切片的原理示意图；

图5为一个实施例中对目标网络进行预训练时的原理图；

图6为一个实施例中包括编码器-解码器结构的目标网络的网络结构图；

图7为一个实施例中训练分割任务模型的原理图；

图8为一个实施例中训练分类任务模型的原理图；

图9为一个实施例中基于三维图像识别的模型训练装置的结构框图；

图10为另一个实施例中基于三维图像识别的模型训练装置的结构框图；

图11为一个实施例中计算机设备的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

图1为一个实施例中基于三维图像识别的模型训练方法的应用环境图。参照图1，该基于三维图像识别的模型训练方法应用于基于三维图像识别的模型训练系统。该基于三维图像识别的模型训练系统包括三维图像采集设备110和计算机设备120。三维图像采集设备110和计算机设备120通过网络连接。三维图像采集设备110具体可以是用于医学检测的CT检测仪、核磁共振仪、或其他的带有摄像采集装置的设备等。其中，图1中显示的三维图像采集设备正在对用户的脑部进行三维图像采集，该用户仅用于示例性说明该三维图像采集设备的使用方式，不用于限定该三维图像采集设备，可以理解，该三维图像采集设备还可以采集的是其他生物或非生物所对应的三维图像。计算机设备120具体可以是终端或服务器。其中，终端具体可以是台式终端或移动终端，移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

如图2所示，在一个实施例中，提供了一种基于三维图像识别的模型训练方法。本实施例主要以该方法应用于上述图1中的计算机设备120来举例说明。参照图2，该基于三维图像识别的模型训练方法具体包括如下步骤：

S202，获取三维原始图像、以及带有标注信息的三维样本图像。

其中，三维原始图像是具有完整图像信息的初始的三维图像。三维图像是立体图像，在视觉呈现上具有高度、宽度和深度三个维度的效果，区别与常规的二维图像。带有标注信息的三维样本图像是对初始的三维图像进行标注处理所得到的图像。标注信息具体可以是通过计算机设备或人工处理等对初始的三维图像进行标注的信息，标注信息具体可作为训练标签。比如，对于分割任务而言，标注信息具体可以是用于标记区分初始的三维图像中不同部件的信息；对于分类任务而言，标注信息具体可以是对该初始的三维图像进行分类后该初始的三维图像所属的类别标签。

三维原始图像和三维样本图像具体可根据不同的应用场景而对应不同的三维图像。比如，当将该基于三维图像识别的模型训练方法应用于医学领域时，对应的三维原始图像和三维样本图像具体可以是三维医学图像；当将该基于三维图像识别的模型训练方法应用于图像处理领域时，对应的三维原始图像和三维样本图像具体可以是包括有目标对象的三维图像，该目标对象具体可以是动物、植物或非生命物体等。

具体地，三维图像采集设备可采集初始的三维图像并发送至计算机设备。计算机设备可从中获取三维原始图像。计算机设备还可对至少一部分的初始的三维图像进行标注处理，得到带有标注信息的三维样本图像。

S204，对三维原始图像中至少一张的原始切片进行干扰处理，得到对应的三维噪声图像。

其中，原始切片是从三维原始图像中分割出的扁薄部分。干扰处理是对三维原始图像中的体素值进行干扰，使得三维图像中包含无效信息的处理。三维噪声图像是包含无效信息的图像。

具体地，计算机设备可从三维原始图像中抽取至少一张的原始切片，进而可对该原始切片进行干扰处理，从而得到包含有无效信息的三维噪声图像。在一个实施例中，计算机设备可从三维原始图像X中随机选择N(N为大于等于1的正整数)个原始切片，可去除原始切片上至少一部分的有效信息，从而得到对应的三维噪声图像。

可以理解，在实际操作中，N可以为一张或数张原始切片。参考图3(a)-图3(c)，图3(a)为一个实施例中从三维原始图像中选取一张原始切片的示意图；图3(b)为一个实施例中从三维原始图像中选取两张平行原始切片的示意图；图3(c)为一个实施例中从三维原始图像中选取两张相交原始切片的示意图。可以理解的是，这N个切片可以彼此相交也可彼此不相交。比如，如图3(c)展示了两张彼此相交的原始切片，相交的原始切片可以是垂直相交也可以不是垂直相交，本申请实施例对此不做限定。比如，设定一张三维原始图像用X表示，计算机设备可随机选择其中的一到数张原始切片(原始切片可彼此相交)。计算机设备对原始切片进行干扰处理，得到三维噪声图像

可以理解，计算机设备所采用的干扰处理具体可以是通过噪声值替代原始切片中的至少一部分的原始体素值，也可以是将噪声切片替换掉原始切片等不同的方式，还可以是打乱原始切片中不同的原始体素的排布顺序等方式，本申请实施例对此不做限定，只要最后得到的三维噪声图像中含有无效信息即可。

S206，将三维噪声图像作为样本输入，并将三维原始图像作为训练标签来对目标网络进行预训练，得到预训练好的目标网络。

具体地，计算机设备可将该三维噪声图像作为样本输入，将相应的三维原始图像作为训练标签来对目标网络进行自监督预训练，得到预训练好的目标网络。其中，目标网络是待训练和待使用的一种深度卷积神经网络，具体可用于将三维噪声图像朝三维原始图像进行还原处理。本申请实施例中对该目标网络的具体层数和模块设计等不做限定，只要满足一般的编码器(encoder)-解码器(decoder)结构，并保障输入输出尺寸一致即可。比如，该目标网络具体可以是在医学影像分割中广泛使用的U-Net(U-网)神经网络或FCN网络(Fully Convolutional Networks，全卷积神经网络)等。

其中，训练标签是此次预训练过程中的待参考的输出，也可称为预期的输出，用于提供目标网络在预训练过程中的监督信号。也就是说，在目标网络的预训练过程中，是期望该目标网络的实际输出能够尽可能地贴近训练标签，训练逻辑就是希望目标网络可以在学习的过程中，将三维噪声尽可能的还原成三维原始图像。在目标网络的预训练过程中，计算机设备可根据目标网络对样本输入进行处理后的实际输出，与训练标签之间的差异情况来调整目标网络的网络参数，以对目标网进行预训练。

自监督预训练(self-supervised pretraining)是直接依赖当前任务数据上所进行预训练，并由当前的任务数据本身提供监督信号(无需提供额外标注信息)。该当前的任务数据具体可以是本申请实施例所提及的三维原始图像。比如，传统方案中存在对图像窗体(patch)进行的随机变换操作，如非线性亮度变换、局部像素混洗(local pixelshuffling)、外画(out painting)、或内画(in painting)等操作，并以从变换后的图像恢复原图作为网络的训练目标。当然在实际使用中，这四种随机变换可进行随机组合使用。

但传统的针对图像patch的变换操作，从而对目标网络进行自监督预训练的方式，针对patch的操作不够直观，没有对应的物理意义，在某些应用场景(比如在三维医学任务)中，并不能带来很好的效果。而本申请基于上述缺陷，提出了基于对整个切片(slice)进行插值/预测，以对目标网络进行自监督预训练，在通过预训练好的目标网络的基础上，通过较少的带有标注信息的三维样本图像即可训练得到效果满意的任务模型。这样，以预测缺失的原始切片为训练目标，物理意义明确且易于理解与实现，能更有效利用计算资源。

在一个实施例中，计算机设备可将三维噪声图像输入至目标网络进行训练，通过目标网络对输入的三维噪声图像分别进行一系列的下采样和上采样处理等，从而得到预测的三维还原图像。其中，下采样操作逐级提取越来越抽象的特征，而上采样操作逐级还原图像尺寸和细节，最终输出的三维还原图像的尺寸大小和三维噪声图像保持一致。这样，计算机设备即可根据三维还原图像与三维原始图像间的差异，超减小差异的方向来调整模型参数。进而不断输入三维噪声图像，以不断训练该目标网络，直到满足第一训练停止条件时停止训练，得到预训练好的目标网络。其中，第一训练停止条件是结束网络训练的条件，具体可以是达到预设的迭代次数，或者是调整网络参数后的目标网络的性能指标达到预设指标等。

在一个具体应用场景中，比如在三维医学影像的处理中，对于缺失的原始切片或包含无效信息的原始切片，计算机设备可采用插值(interpolation和extrapolation)的处理方式对三维医学图像进行补全，以便在三维空间上进行处理。插值方式主要是利用缺失的原始切片的相邻切片上的信息，基于器官和组织等的空间连续性假设，对缺失的原始切片进行合理的猜测。参考图4，图4为一个实施例中通过差值处理方式预测缺失的原始切片的原理示意图。

其中，具体的差值方式有多种，比如线性插值方式，通过线性差值方式处理时，该缺失的原始切片上某个体素点的值可由相邻切片上临近体素点的值经过加权平均取得。可以理解，预测缺失切片是非常适合针对医学影像分析的三维卷积神经网络的自监督预训练任务，因为通过预测还原缺失的原始切片，目标网络必须学习到训练数据中的器官和组织等规律性的相互关系才能完成此任务，而这些相互关系不管是对于分割还是分类任务都是十分有帮助的。也就是说，通过对三维原始图像进行自监督预训练处理所得到的目标网络，可适用于构建待训练的任务模型，该任务模型通过少量的带有标注信息的三维样本图像训练即可得到效果好的任务模型。

S208，根据预训练好的目标网络中至少一部分的网络结构和相应的网络参数，构建待训练的任务模型。

具体地，计算机设备可根据不同的任务所需的网络结构，基于预训练好的目标网络中至少一部分的网络结构和网络参数，来构建待训练的任务模型。

在一个实施例中，目标网络具体包括编码器和解码器(编码器和解码器也可称作编解码器)。计算机设备可根据预训练好的目标网络中的编码器和相应的网络参数构建待训练的任务模型，或者，计算机设备可根据预训练好的目标网络中的编解码器和相应的网络参数构建待训练的任务模型。

在一个实施例中，当需要训练的任务模型为分类任务模型时，计算机设备可从预训练好的目标网络中，提取出编码器部分的网络结构和相应的网络参数，再结合未训练的分类器，共同构建分类任务模型。

在一个实施例，当需要训练的任务模型为分割任务模型时，计算机设备可根据预训练好的目标网络的整个网络结构和相应的网络参数，基于当前的任务，适当调整部分网络层的运算逻辑，从而得到分割任务模型。比如，对于目标网络而言，该目标网络的最后一层具体可以是1*1或3*3的卷积层，具有一个通道，执行回归任务，用于输出三维还原图像。计算机设备可调整该最后一层的卷积层，使其具有M个通道，输出对应不同类别标签的概率值。其中，M为预设置的类别标签的总数，M为大于1的正整数。

可以理解，对于不同的目标任务，计算机设备可根据全部或部分预训练好的目标网络的网络结构和网络参数，来构建相应的任务模型，并不仅仅局限于上述实施例所提及的分类任务模型和分割任务模型。

在一个实施例中，目标网络中编解码器的网络结构具体可以是深度神经网络结构，其中的编码器和解码器所对应的网络层数可依据实际应用而灵活设计，本申请实施例对此不做限定。目标网络中的编码器具体用于执行卷积操作和上采样操作，目标网络中的解码器具体用于执行反卷积操作和下采样操作。

S210，通过三维样本图像和相应的标注信息对任务模型进行再训练，得到最终训练好的任务模型。

具体地，计算机设备可将三维样本图像作为该任务模型的训练数据，并将相应的标注信息作为训练标签，对该任务模型进行训练，以一个较小的学习率来调整模型参数，并继续训练，直到满足第二训练停止条件时停止训练，得到最终训练好的任务模型。其中，模型参数是任务模型的模型参数，包括用于构建该任务模型的至少一部分预训练好的目标网络所对应的网络参数。第二训练停止条件是结束模型训练的条件，具体可以是达到预设的迭代次数，或者是调整模型参数后的任务模型的性能指标达到预设指标等。可以理解，该第二训练停止条件和第一训练停止条件具体可以是相同的条件，也可以是不同的条件，本申请实施例对此不做限定。

在一个实施例中，步骤S210，也就是通过三维样本图像和相应的标注信息对任务模型进行再训练，得到最终训练好的任务模型，包括：将三维样本图像输入至任务模型，得到预测输出；根据标注信息和预测输出的差异，以小于等于预设值的学习率调整任务模型的模型参数并继续训练，直到满足第二训练停止条件时停止训练，得到最终训练好的任务模型。

其中，该预设值具体可以是进行目标网络训练的学习率，或预设置的某个学习率阈值。具体地，计算机设备可将三维样本图像输入至任务模型，由该任务模型对三维样本图像进行处理，得到与标注信息具有相同格式的预测输出。计算机设备可比较标注信息和预测输出的差异，从而朝减少差异的方向，以比进行目标网络训练的学习率小的学习率，调整任务模型的模型参数。如果调整模型参数后，不满足训练停止条件，则重复执行该S210的具体步骤并继续训练，直到满足训练停止条件时结束训练。

在一个实施例中，计算机设备可根据预测输出和对应的标注信息间的差异构建损失函数，通过最小化该损失函数来调整模型参数。具体地，计算机设备可选择交叉熵、均方误差或dice(一种计算相似度的算法)函数等作为损失函数。

这样，计算机设备就可基于预训练好的目标网络构建任务模型，从而基于少量的带有标注信息的三维样本图像再训练任务模型，通过微调模型参数即可得到效果不错的任务模型，大大提高了模型训练的效率和效果。

上述基于三维图像识别的模型训练方法，采用未标注的三维原始图像来实现对目标网络的自监督预训练，可通过预测还原三维噪声图像中缺失的原始切片的信息，使得目标网络可以学习到三维原始图像中不同部件的特征、以及不同部件间的相互关系，而学习到的这些能力可极大的帮助任务模型的训练。这样，通过无标注信息的三维原始图像预训练目标网络，该预训练好的目标网络可用于构建待训练的任务模型，进而可通过少量的带有标注信息的三维样本图像继续训练该任务模型，从而得到理想效果的任务模型。在任务模型的训练过程中，可大大减少任务模型取得同样效果所需的训练标注信息，从而提高了模型训练效率。

在一个实施例中，步骤S204，也就是对三维原始图像中至少一张的原始切片进行干扰处理，得到对应的三维噪声图像的步骤具体包括：从三维原始图像中抽取至少一张的原始切片；通过噪声值替代原始切片中的至少一部分的原始体素值，得到对应的噪声切片；根据噪声切片确定与三维原始图像对应的三维噪声图像。

具体地，计算机设备可从三维原始图像中随机抽取至少一张的原始切片，并通过随机的噪声值替代所抽取的原始切片中的至少一部分的原始体素值，得到对应的噪声切片。进而计算机设备可将噪声切片替换原来的原始切片得到三维噪声图像。

在一个实施例中，计算机设备可使用全黑或全白的噪声值来填充原始切片，从而在三维原始图像中添加无效信息。

上述实施例中，通过噪声值替代三维原始图像的原始切片中的至少一部分的原始体素值，从而得到三维噪声图像，可在三维原始图像中方便快捷地添加无效信息。

在一个实施例中，步骤S204，也就是对三维原始图像中至少一张的原始切片进行干扰处理，得到对应的三维噪声图像的步骤具体包括：从三维原始图像中抽取至少一张的原始切片；分别打乱原始切片中原始体素的排布顺序，得到对应的噪声切片；根据噪声切片确定与三维原始图像对应的三维噪声图像。

具体地，计算机设备可采用像素混洗(pixel shuffling)的方式打乱三维原始图像中的原始切片中原始体素的排布顺序，从而得到对应的噪声切片。可以理解，计算机设备也可采用其他的方式打乱原始切片中原始体素的排布顺序，比如直接替换将不同的原始切片进行交换，也可改变固定位置处的该原始切片的提素质等，本申请实施例对此不做限定。进而计算机设备可将噪声切片替换对应位置处的原始切片得到三维噪声图像。

上述实施例中，计算机设备可分别打乱三维原始图像中原始切片中原始体素的排布顺序，从而得到对应的三维噪声图像，可在三维原始图像中方便快捷地添加无效信息。

在一个实施例中，步骤S206，也就是将三维噪声图像作为样本输入，并将三维原始图像作为训练标签来对目标网络进行预训练，得到预训练好的目标网络的步骤具体包括：将三维噪声图像输入至目标网络进行训练，通过目标网络中的编码器和解码器进行还原处理，得到对应的三维还原图像；根据三维原始图像和三维还原图像的差异，调整目标网络的网络参数并继续训练，直到满足第一训练停止条件时停止训练，以得到预训练好的目标网络。

具体地，计算机设备可将三维样本图像输入至目标网络，通过该目标网络中的编码器和解码器进行还原处理，得到对应的三维还原图像。进而根据该三维原始图像和该三维还原图像的差异，从而朝减少差异的方向调整该目标网络的网络参数。如果调整网络参数后，不满足第一训练停止条件，则继续输入新的三维噪声图像继续训练，直到满足第一训练停止条件时结束训练，得到预训练好的目标网络。

在一个实施例中，将三维噪声图像输入至目标网络进行训练，通过目标网络中的编码器和解码器进行还原处理，得到对应的三维还原图像的步骤具体包括以下步骤：将三维噪声图像输入至目标网络中，通过目标网络的编码器进行卷积操作和下采样操作，得到与三维噪声图像对应的第一特征图；通过目标网络的解码器对第一特征图进行卷积操作和上采样操作，得到与三维噪声图像对应的三维还原图像。

具体地，计算机设备可将三维噪声图像分别输入至目标网络中，通过该目标网络的编码器进行一系列的卷积操作和下采样操作，得到与该三维噪声图像对应的第一特征图(feature map)。计算机设备可通过该目标网络的解码器对该第一特征图进行一系列的卷积操作和上采样操作，得到与该三维噪声图像对应的三维还原图像。该三维还原图像的尺寸与该三维噪声图像的尺寸相同。可以理解，目标网络的编码器和解码器还可分别单独进行池化操作或仅编码器执行池化操作等，该编码器和解码器还可以联合执行skip-connection操作(跳连接，是一种融合操作)，以融合底层信息的位置信息与深层特征的语义信息。

在一个实施例中，解码器进行上采样的方式有多种，比如通过反卷积操作或差值操作等，本申请实施例对此不做限定。其中，差值操作比如双线性插值。计算机设备通过编码器和解码器联合执行的融合操作，具体可以是通过对应像素相加的方式或者是拼接的方式等，本申请实施例对此不做限定。

上述实施例中，目标网络可通过编码器解码器结构实现对三维原始图像的预测还原，可使得该目标网络的编码器和解码器可以学习到三维原始图像中不同部件各自的特征、以及不同部件间的相互关系。

在一个实施例中，该根据三维原始图像和三维还原图像的差异，调整目标网络的网络参数并继续训练的步骤具体包括以下步骤：根据三维原始图像和三维还原图像的差异，构建相应的损失函数；调整目标网络的网络参数，以控制损失函数的值减小；将使得损失函数最小化时的网络参数，作为对目标网络进行训练时当次训练得到的网络参数，并基于当次训练得到的网络参数继续训练。

具体地，计算机设备在训练目标网络时，进而根据三维原始图像和相应的三维还原图像的差异，构建相应的损失函数。在当次训练过程中，计算机设备可通过调整该目标网络的网络参数，以控制该损失函数的值减小。计算机设备将使得该损失函数最小化时的网络参数，作为对目标网络进行训练时当次训练得到的网络参数，并基于当次训练得到的网络参数继续训练该目标网络，直到满足第一训练停止条件时停止训练，以得到预训练好的目标网络。

参考图5，图5为一个实施例中对目标网络进行预训练时的原理图。如图5所示，对于三维原始图像X，随机选择其中的一到数张原始切片。使用随机噪声替代这些原始切片原有的体素值，并用表示由此得到的新的三维噪声图像。将三维噪声图像/>输入至目标网络，通过目标网络的编码器-解码器进行处理，得到三维还原图像X′。预训练的目标是从三维噪声图像/>预测缺失的原始切片，从而尽可能地还原三维原始图像X，因而该损失函数的物理意义就是三维原始图像X和三维还原图像X′之间的差异。该预训练过程是一个自监督过程，仅需三维原始图像本身而无需人工标注。预训练完成后，再使用有限的标注信息对目标网络的网络参数进行微调，即可得到训练好的任务模型。

在一个实施例中，参考图6，图6为一个实施例中包括编码器一解码器结构的目标网络的网络结构图。如图6所示，目标网络的编码器和解码器可分别执行一系列的下采样(downsample)和上采样(upsample)操作，并联合执行concatenate(级联，是一种融合操作，用于以融合编码器和解码器中的信息)操作等，从而输出X′。下采样操作逐级提取越来越抽象的特征，而上采样操作逐级还原图像尺寸和细节。最终输出的X′大小和一致。继续参考图5，该损失函数定义为X和X′之间的L1距离：/>当然，也可采用其他的损失函数，比如L2距离等，本申请实施例对此不做限定。该目标网络的预训练仅需三维原始图像，而无需对应的标注。目标网络的参数通过最小化公式上述损失函数进行优化，常用的优化器譬如SGD(Stochastic Gradient Descent，随机梯度下降)和Adam(adaptivemoment estimation，一种一阶优化算法)等都可以采用，本申请实施例对此不做限定。

上述实施例中，通过目标网络中的编码器和解码器对三维噪声图像进行还原处理，得到三维还原图像，再根据三维原始图像和三维还原图像的差异，来调整目标网络的网络参数的训练方式，可使得目网络学习到三维原始图像中不同部件各自的特征、以及不同部件间的相互关系。这样，通过自监督预训练的方式训练得到目标网络，无需人工标注，也不会引入标注误差等误差，大大提高了训练效率和效果。

在一个实施例中，对于不同的训练任务，可根据其对应的新样本来对该预训练好的目标网络进行再次训练，从而得到最终训练好的任务模型。如果目标任务是分类任务，则只需使用预训练好的编码器部分；如果目标任务是分割任务，则需使用完整的编码器-解码器结构。

在一个实施例中，标注信息包括用于标记三维样本图像中不同部件的参考掩模。步骤S208，也就是根据预训练好的目标网络中至少一部分的网络结构和相应的网络参数，构建待训练的任务模型的步骤具体包括：调整预训练好的目标网络中输出层的运算逻辑，得到适用于进行语义分割的分割任务模型，其中，分割任务模型的模型参数包括所述预训练好的目标网络的网络参数。步骤S210，也就是通过三维样本图像和相应的标注信息对任务模型进行再训练，得到最终训练好的任务模型的步骤具体包括：将三维样本图像输入至分割任务模型，输出与三维样本图像对应的预测掩模；预测掩模用于预测三维样本图像中不同部件各自对应的区域位置；根据参考掩模和预测掩模的差异，调整分割任务模型的模型参数并继续训练，直到满足第三训练停止条件时停止训练，以得到最终训练好的分割任务模型。

其中，三维样本图像中不同部件具体可以是三维样本图像中的具有不同物理意义的区域部分。比如，当三维样本图像为三维医学样本图像时，对应的部件具体可以是组织部件；当三维样本图像为三维人体图像时，对应的部件具体可以是器官部件；当三维样本图像为三维环境图像时，对应的部件具体可以是该环境中不同的物体对象。

参考掩模是带有不同部件各自对应的类别信息的掩模(mask)，可作为对任务模型进行再训练时的训练标签。在本申请实施例中，该参考掩模具体可以是与三维样本图像的尺寸相同的多值图像，不同部件对应不同的部件类别，在参考掩模中则体现为对应不同的数值。举例说明，当三维样本图像中包括3种不同的部件，部件1、部件2和部件3，这三种部件分别对应部件类别1、部件类别2和部件类别3，那么在参考掩模中，与部件1对应的区域的体素值可设置为数值1、与部件1对应的区域的体素值可设置为数值2、与部件3对应的区域的体素值可设置为数值3。在一个实施例中，参考掩模还可以对不同数值的区域设置不同的显示颜色以示区分。这样，就可以实现通过参考掩模来分割出三维样本图像中不同的部件。

具体地，计算机设备可获取预训练好的目标网络，当需要训练的任务模型为分割任务模型时，计算机设备可根据预训练好的目标网络的整个网络结构和相应的网络参数，基于当前的目标任务，调整该目标网络最后一层输出层的运算逻辑，使得调整后的网络结构适用于执行分割任务，从而得到分割任务模型。相应的，该预训练好的目标网络的网络参数，将作为相应分割任务模型的初始的模型参数，后面对该分割任务模型进行再训练时，将会基于该分割任务模型的初始的模型参数进行调整。

在一个实施例中，该目标网络为编码器解码器结构的网络，包括多层卷积神经网络。该解码器中最后一层的输出层具体可以是卷积层。在对目标网络进行自监督预训练时，该最后一层输出层具体可以是1*1或3*3的卷积层，具有一个通道，执行回归任务，用于输出三维还原图像。而在设计分割任务模型时，基于分割任务的需求，计算机设备可调整该输出层，使其具有M个通道，输出对应不同类别标签的概率值。其中，M为预设置的类别标签的总数。

进一步地，计算机设备可将三维样本图像分别输入至构建的分割任务模型中，通过该分割任务模型的编码器和解码器进行处理，输出与该三维样本图像对应的预测掩模。可以理解，该预测掩模用于预测三维样本图像中不同部件各自对应的区域位置。进而，计算机设备可根据参考掩模和预测掩模的差异，构建相应的损失函数。以比训练目标网络时的学习率更小的学习率来调整模型参考，以控制该损失函数的值减小，将使得该损失函数最小化时的模型参数，作为当次训练得到的模型参数。如果调整模型参数后，不满足第二训练停止条件，则继续输入新的三维样本图像并继续训练，直到满足第二训练停止条件时结束训练，得到最终训练好的分割任务模型。在对分割任务模型进行训练的过程中，可通过少量的带有标签信息的训练数据(包括三维样本图像和参考掩模)即可训练得到效果很好的分割任务模型，其中，少量的带有标签信息的训练数据是指，对于不通过预训练而直接对未经过任何训练的分割任务模型进行训练时所需的带有标签信息的训练数据的数量，远远大于采用本申请实施例所提及的基于三维图像识别的模型训练方法时所需要的带有标签信息的训练数据。

在一个实施例中，将三维样本图像输入至分割任务模型，输出与三维样本图像对应的预测掩模，包括：将三维样本图像输入至分割任务模型，通过分割任务模型对三维样本图像中的各体素分别进行分类，得到各体素分别对应的部件类别；依据各体素分别对应的部件类别，确定对三维样本图像进行分割处理所得到的预测掩模。

在一个实施例中，计算机设备可将三维样本图像输入至待训练的分割任务模型，通过分割任务模型对三维样本图像进行一系列的下采样和上采样处理，以对三维样本图像中的各体素逐个进行分类，得到各体素各自所属的部件类别。对各体素进行逐个分类是指在体素维度上进行分类处理，是一种精细的分类方式。具体可以是对三维样本图像中的每个体素都产生一个预测,进而得到该三维样本图像中每个体素各自所对应的部件类别。

进一步地，计算机设备可依据各体素分别对应的部件类别，确定对该三维样本图像进行分割处理所得到的预测掩模。计算机设备可将对应相同部件类别的体素值所对应的掩模区域的值设置为相同的值，从而得到预测掩模。这样，根据预测掩模中不同的值，可将三维样本图像中的不同部件进行预测区分。在一个实施例中，计算机设备可对预测掩模中不同数值的区域设置不同的显示颜色以示区分。这样，就可以实现通过预测掩模来预测分割出三维样本图像中不同的部件。

上述实施例中，通过分割任务模型对三维样本图像中的各体素分别进行分类，可得到各体素分别对应的部件类别，从而依据各体素所对应的部件类别，可从体素的维度预测分割出三维样本图像中的不同部件，提高了对三维样本图像的分割能力。

参考图7，图7为一个实施例中训练分割任务模型的原理图。如图7所示，计算机设备可将三维样本图像输入至分割任务模型中，通过任务分割模型中预训练好的编码器和解码器对三维样本图像进行处理，得到预测掩模(也称预测mask)。计算机设备可根据与三维样本图像对应的参考掩模(也成参考mask)与预测掩模之间的差异来计算损失(比如常用的Dice损失函数)。通过优化算法最小化损失函数，通过微调模型参数即可训练得到效果很好的分割任务模型。

上述实施例中，当目标任务为分割任务时，可根据预训练好的目标网络来构建分割任务模型，进而通过少量的三维样本图像和参考掩模即可实现对分割任务模型的再训练，大大减少了准备训练数据所花费的时间，提高了模型训练效率。

在一个实施例中，标注信息包括三维样本图像所对应的类别标签。步骤S208，也就是根据预训练好的目标网络中至少一部分的网络结构和相应的网络参数，构建待训练的任务模型的步骤具体包括：根据预训练好的目标网络中的编码器和未训练的分类器，构建待训练的分类任务模型。步骤S210，也就是通过三维样本图像和相应的标注信息对任务模型进行再训练，得到最终训练好的任务模型的步骤具体包括：将三维样本图像输入至分类任务模型，通过分类任务模型中的编码器对三维样本图像进行卷积操作和下采样操作，得到与三维样本图像对应的第二特征图；通过分类器对第二特征图进行分类处理，得到对应的预测类别；根据类别标签和预测类别的差异，调整分类任务模型的模型参数并继续训练，直到满足第四训练停止条件时停止训练，以得到最终训练好的分类任务模型。

其中，类别标签是该三维样本图像所属的类别的标签。比如，当三维样本图像为三维医学样本图像时，相应的目标任务为判断该三维医学样本图像中是否存在异常组织，相应的类别标签具体可以为“是”或“否”。

具体地，计算机设备可获取预训练好的目标网络，并根据预训练好的目标网络中的编码器的网络结构和网络参数，结合未训练的分类器，共同构建待训练的分类任务模型。进而计算机设备可将三维样本图像输入至分类任务模型，通过分类任务模型中的编码器对三维样本图像进行一系列的卷积操作和下采样操作等，得到与该三维样本图像对应的第二特征图。进而通过分类器对第二特征图进行分类处理，得到对应的预测类别。计算机设备可根据类别标签和预测类别的差异，构建相应的损失函数。以比训练目标网络时的学习率更小的学习率来调整模型参考，以控制该损失函数的值减小，将使得该损失函数最小化时的模型参数，作为当次训练得到的模型参数。如果调整模型参数后，不满足第二训练停止条件，则继续输入新的三维样本图像并继续训练，直到满足第二训练停止条件时结束训练，得到最终训练好的分类任务模型。在对分类任务模型进行训练的过程中，可通过少量的带有标签信息的训练数据(包括三维样本图像、以及该三维样本图像所属的类别标签)即可训练得到效果很好的分类任务模型。其中，少量的带有标签信息的训练数据是指，对于不通过预训练而直接对未经过任何训练的分类任务模型进行训练时所需的带有标签信息的训练数据的数量，远远大于采用本申请实施例所提及的基于三维图像识别的模型训练方法时所需要的带有标签信息的训练数据。

在一个实施例中，该分类器具体可以是全连接层，或者由池化层和全连接层共同构成。计算机设备将第二特征图输入至该分类器中时，可通过该分类器对第二特征图进行处理，预测与该第二特征图对应的三维样本图像属于各个类别标签的概率，将最大概率所对应的类别标签作为当次的预测类别。

参考图8，图8为一个实施例中训练分类任务模型的原理图。如图8所示，当目标任务是分类任务时，计算机设备可使用经过预训练的编码器部分与未训练的分类器共同构成待训练的分类任务模型。对于这样的分类任务，标注信息通常是类别标签(比如，在医学领域具体可以是正常/异常，或者不同疾病的分期)。计算机设备可通过分类任务模型预测输入的三维样本图像属于不同类别的概率，并且与对应的真实的类别标签进行对比计算损失(比如分类任务常用的交叉熵损失等)。进而计算机设备可通过优化算法最小化损失函数，以通过微调模型参数得到最终训练好的分类任务模型。

上述实施例中，当目标任务为分类任务时，可根据预训练好的目标网络中的编码器来构建分类任务模型，进而通过少量的三维样本图像和类别标签即可实现对分类任务模型的再训练，大大减少了准备训练数据所花费的时间，提高了模型训练效率。

在一个实施例中，该基于三维图像识别的模型训练方法还包括对三维图像进行识别处理的步骤，该步骤具体包括：获取待处理的三维图像；将待处理的三维图像输入至最终训练好的任务模型，通过最终训练好的任务模型对三维图像进行分类处理得到对应的分类结果，或者，通过最终训练好的任务模型对三维图像进行分割处理得到对应的分割结果。

在一个实施例中，该任务模型具体可以是分类任务模型，该分类任务模型通过预训练好的目标网络的编码器和未训练的分类器构成，再通过三维样本图像和对应的类别标签，对该分类任务模型进行再训练，得到最终训练好的分类任务模型。也就是说，该分类任务模型具体可包括编码器和分类器。计算机设备可获取待处理的三维图像，将该三维图像输入至最终训练好的该分类任务模型中，通过最终训练好的分类任务模型中的编码器对输入的三维图像进行特征提取，并通过分类器对提取出的特征进行分类处理，输出与该三维图像对应的分类结果，也就是确定该三维图像所属的类别标签。

在一个实施例中，该任务模型具体可以是分割任务模型，该分割任务模型通过预训练好的目标网络的编码器和解码器构成，再通过三维样本图像和对应的用于标记三维样本图像中不同部件的参考掩模，对该分割任务模型进行再训练，得到最终训练好的分割任务模型。也就是说，该分割任务模型具体可包括编码器和解码器。计算机设备可获取待处理的三维图像，将该三维图像输入至最终训练好的该分割任务模型中，通过最终训练好的分割任务模型中的编码器对输入的三维图像进行特征提取，并通过解码器对提取出的特征进行语义分割处理，输出与该三维图像对应的分割结果，也就是确定该三维图像所包括的不同部件。

在一个实施例中，可将上述的分类任务模型和分割任务模型分别在三维医学图像上进行使用。比如，计算机设备可将待处理的三维医学图像输入至该分类任务模型中，通过该分类任务模型输出预测类别，该预测类别即是对三维医学图像进行分类的分类结果。或者，计算机设备可将待处理的三维医学图像输入至该分割任务模型中，通过该分割任务模型对三维医学图像中不同的组织进行分割，从而根据分割的结果从三维医学图像中确定异常组织。

上述实施例中，通过最终训练好的任务模型，可实现对三维图像进行准确快捷地分类，或者，可对三维图像进行语义分割处理，从而从三维图像中准确快捷地分割出不同的部件。

在一个实施例中，三维原始图像包括三维医学原始图像，带有标注信息的三维样本图像包括带有标注信息的三维医学样本图像；任务模型包括分割任务模型和分类任务模型中的至少一种；分割任务模型用于从三维医学图像中分割出异常组织；分类任务模型用于对三维医学图像进行异常分类。

在具体应用场景中，计算机设备可获取三维医学原始图像、以及带有标注信息的三维医学样本图像。三维医学原始图像和三维医学样本图像是作为训练样本的三维医学图像。进而，计算机设备可对三维医学原始图像中至少一张的原始切片进行干扰处理，得到对应的三维医学噪声图像。计算机设备可将三维医学噪声图像作为样本输入，并将三维医学原始图像作为训练标签来对目标网络进行预训练，得到预训练好的目标网络。计算机设备可根据包括至少一部分预训练好的目标网络，构建待训练的任务模型，进而通过三维医学样本图像和相应的标注信息对任务模型进行再训练，得到最终训练好的任务模型。

可以理解，当目标任务为分割任务时，计算机设备可调整预训练好的目标网络中输出层的运算逻辑，得到适用于进行语义分割的分割任务模型，从而将三维医学样本图像输入至该分割任务模型，输出与该三维医学样本图像对应的预测掩模，进而计算机设备根据参考掩模和预测掩模的差异，调整分割任务模型的模型参数并继续训练，直到满足第二训练停止条件时停止训练，以得到最终训练好的分割任务模型。该最终训练好的分割任务模型可用于从三维医学图像中分割出异常组织。也就是说，在模型使用阶段，计算机设备可将待处理的三维医学图像输入至该分割任务模型中，通过该分割任务模型输出预测掩模，该预测掩模即是对三维医学图像中不同的组织进行分割的结果。计算机设备可根据分割的结果从三维医学图像中确定异常组织。比如计算机设备可通过该分割任务模型从生物肝脏的CT影像中分割储肝癌部分。

当目标任务为分类任务时，计算机设备可根据预训练好的目标网络中的编码器和未训练的分类器，构建待训练的分类任务模型。将三维医学样本图像输入至该分类任务模型，通过分类任务模型中的编码器对三维医学样本图像进行卷积操作和下采样操作，得到与三维医学样本图像对应的第二特征图。进而计算机设备可通过分类器对第二特征图进行分类处理，得到对应的预测类别，根据类别标签和预测类别的差异，调整分类任务模型的模型参数并继续训练，直到满足第二训练停止条件时停止训练，以得到最终训练好的分类任务模型。该最终训练好的分类任务模型可用于对三维医学图像进行异常分类。也就是说，在模型使用阶段，计算机设备可将待处理的三维医学图像输入至该分类任务模型中，通过该分类任务模型输出预测类别，该预测类别即是对三维医学图像进行分类的结果。比如计算机设备可通过该分类任务模型基于脑部MRI影像预测肿瘤分子亚型等。

图2为一个实施例中基于三维图像识别的模型训练方法的流程示意图。应该理解的是，虽然图2的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

如图9所示，在一个实施例中，提供了基于三维图像识别的模型训练装置900，包括获取模块901、干扰模块902、预训练模块903、构建模块904和再训练模块905。

获取模块901，用于获取三维原始图像、以及带有标注信息的三维样本图像。

干扰模块902，用于对三维原始图像中至少一张的原始切片进行干扰处理，得到对应的三维噪声图像。

预训练模块903，用于将三维噪声图像作为样本输入，并将三维原始图像作为训练标签来对目标网络进行预训练，得到预训练好的目标网络。

构建模块904，用于根据预训练好的目标网络中至少一部分的网络结构和相应的网络参数，构建待训练的任务模型。

再训练模块905，用于通过三维样本图像和相应的标注信息对任务模型进行再训练，得到最终训练好的任务模型。

在一个实施例中，干扰模块902还用于从三维原始图像中抽取至少一张的原始切片；通过噪声值替代原始切片中的至少一部分的原始体素值，得到对应的噪声切片；根据噪声切片确定与三维原始图像对应的三维噪声图像。

在一个实施例中，干扰模块902还用于从三维原始图像中抽取至少一张的原始切片；分别打乱原始切片中原始体素的排布顺序，得到对应的噪声切片；根据噪声切片确定与三维原始图像对应的三维噪声图像。

在一个实施例中，预训练模块903还用于将三维噪声图像输入至目标网络进行训练，通过目标网络中的编码器和解码器进行还原处理，得到对应的三维还原图像；根据三维原始图像和三维还原图像的差异，调整目标网络的网络参数并继续训练，直到满足第一训练停止条件时停止训练，以得到预训练好的目标网络。

在一个实施例中，预训练模块903还用于将三维噪声图像输入至目标网络中，通过目标网络的编码器进行卷积操作和下采样操作，得到与三维噪声图像对应的第一特征图；通过目标网络的解码器对第一特征图进行卷积操作和上采样操作，得到与三维噪声图像对应的三维还原图像。

在一个实施例中，预训练模块903还用于根据三维原始图像和三维还原图像的差异，构建相应的损失函数；调整目标网络的网络参数，以控制损失函数的值减小；将使得损失函数最小化时的网络参数，作为对目标网络进行训练时当次训练得到的网络参数，并基于当次训练得到的网络参数继续训练。

在一个实施例中，再训练模块905还用于将三维样本图像输入至任务模型，得到预测输出；根据标注信息和预测输出的差异，以小于等于预设值的学习率调整任务模型的模型参数并继续训练，直到满足第二训练停止条件时停止训练，得到最终训练好的任务模型。

在一个实施例中，标注信息包括用于标记三维样本图像中不同部件的参考掩模；构建模块904还用于调整预训练好的目标网络中输出层的运算逻辑，得到适用于进行语义分割的分割任务模型，其中，分割任务模型的模型参数包括预训练好的目标网络的网络参数。再训练模块905还用于将三维样本图像输入至分割任务模型，输出与三维样本图像对应的预测掩模；预测掩模用于预测三维样本图像中不同部件各自对应的区域位置；根据参考掩模和预测掩模的差异，调整分割任务模型的模型参数并继续训练，直到满足第二训练停止条件时停止训练，以得到最终训练好的分割任务模型。

在一个实施例中，再训练模块905还用于将三维样本图像输入至分割任务模型，通过分割任务模型对三维样本图像中的各体素分别进行分类，得到各体素分别对应的部件类别；依据各体素分别对应的部件类别，确定对三维样本图像进行分割处理所得到的预测掩模。

在一个实施例中，标注信息包括三维样本图像所对应的类别标签；构建模块904还用于根据预训练好的目标网络中的编码器和相应的网络参数、以及未训练的分类器，构建待训练的分类任务模型。再训练模块905还用于将三维样本图像输入至分类任务模型，通过分类任务模型中的编码器对三维样本图像进行卷积操作和下采样操作，得到与三维样本图像对应的第二特征图；通过分类器对第二特征图进行分类处理，得到对应的预测类别；根据类别标签和预测类别的差异，调整分类任务模型的模型参数并继续训练，直到满足第二训练停止条件时停止训练，以得到最终训练好的分类任务模型。

在一个实施例中，三维原始图像包括三维医学原始图像、带有标注信息的三维样本图像包括带有标注信息的三维医学样本图像；任务模型包括分割任务模型和分类任务模型中的至少一种；分割任务模型用于从三维医学图像中分割出异常组织；分类任务模型用于对三维医学图像进行异常分类。

参考图10，在一个实施例中，该基于三维图像识别的模型训练装置900还包括三维图像处理模块906，用于获取待处理的三维图像；将待处理的三维图像输入至最终训练好的任务模型，通过最终训练好的任务模型对三维图像进行分类处理得到对应的分类结果，或者，通过最终训练好的任务模型对三维图像进行分割处理得到对应的分割结果。

图11示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的计算机设备。如图11所示，该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现基于三维图像识别的模型训练方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行基于三维图像识别的模型训练方法。

本领域技术人员可以理解，图11中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的基于三维图像识别的模型训练装置可以实现为一种计算机程序的形式，计算机程序可在如图11所示的计算机设备上运行。计算机设备的存储器中可存储组成该基于三维图像识别的模型训练装置的各个程序模块，比如，图9所示的获取模块、干扰模块、预训练模块、构建模块和再训练模块。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的基于三维图像识别的模型训练方法中的步骤。

例如，图11所示的计算机设备可以通过如图9所示的基于三维图像识别的模型训练装置中的获取模块执行步骤S202。计算机设备可通过干扰模块执行步骤S204。计算机设备可通过预训练模块执行步骤S206。计算机设备可通过构建模块执行步骤S208。计算机设备可通过再训练模块执行步骤S210。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述基于三维图像识别的模型训练方法的步骤。此处基于三维图像识别的模型训练方法的步骤可以是上述各个实施例的基于三维图像识别的模型训练方法中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述基于三维图像识别的模型训练方法的步骤。此处基于三维图像识别的模型训练方法的步骤可以是上述各个实施例的基于三维图像识别的模型训练方法中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于三维图像识别的模型训练方法，包括：

获取三维原始图像、以及带有标注信息的三维样本图像；

将所述三维噪声图像作为样本输入，并将所述三维原始图像作为训练标签来对目标网络进行预训练，得到预训练好的目标网络；所述目标网络包括编码器和解码器，所述编码器和解码器用于对所述三维噪声图像进行还原处理；

2.根据权利要求1所述的方法，其特征在于，所述对所述三维原始图像中至少一张的原始切片进行干扰处理，得到对应的三维噪声图像，包括：

从所述三维原始图像中抽取至少一张的原始切片；

通过噪声值替代所述原始切片中的至少一部分的原始体素值，得到对应的噪声切片；

根据所述噪声切片确定与所述三维原始图像对应的三维噪声图像。

3.根据权利要求1所述的方法，其特征在于，所述对所述三维原始图像中至少一张的原始切片进行干扰处理，得到对应的三维噪声图像，包括：

从所述三维原始图像中抽取至少一张的原始切片；

分别打乱所述原始切片中原始体素的排布顺序，得到对应的噪声切片；

4.根据权利要求1所述的方法，其特征在于，所述将所述三维噪声图像作为样本输入，并将所述三维原始图像作为训练标签来对目标网络进行预训练，得到预训练好的目标网络，包括：

将所述三维噪声图像输入至目标网络进行训练，通过所述目标网络中的编码器和解码器进行还原处理，得到对应的三维还原图像；

根据所述三维原始图像和所述三维还原图像的差异，调整所述目标网络的网络参数并继续训练，直到满足第一训练停止条件时停止训练，以得到预训练好的目标网络。

5.根据权利要求4所述的方法，其特征在于，所述将所述三维噪声图像输入至目标网络进行训练，通过所述目标网络中的编码器和解码器进行还原处理，得到对应的三维还原图像，包括：

将所述三维噪声图像输入至目标网络中，通过所述目标网络的编码器进行卷积操作和下采样操作，得到与所述三维噪声图像对应的第一特征图；

通过所述目标网络的解码器对所述第一特征图进行卷积操作和上采样操作，得到与所述三维噪声图像对应的三维还原图像。

6.根据权利要求4所述的方法，其特征在于，所述根据所述三维原始图像和所述三维还原图像的差异，调整所述目标网络的网络参数并继续训练，包括：

根据所述三维原始图像和所述三维还原图像的差异，构建相应的损失函数；

调整所述目标网络的网络参数，以控制所述损失函数的值减小；

将使得所述损失函数最小化时的网络参数，作为对所述目标网络进行训练时当次训练得到的网络参数，并基于当次训练得到的网络参数继续训练。

7.根据权利要求1所述的方法，其特征在于，所述通过所述三维样本图像和相应的标注信息对所述任务模型进行再训练，得到最终训练好的任务模型，包括：

将所述三维样本图像输入至所述任务模型，得到预测输出；

根据所述标注信息和所述预测输出的差异，以小于等于预设值的学习率调整所述任务模型的模型参数并继续训练，直到满足第二训练停止条件时停止训练，得到最终训练好的任务模型。

8.根据权利要求1所述的方法，其特征在于，所述标注信息包括用于标记所述三维样本图像中不同部件的参考掩模；所述根据所述预训练好的目标网络中至少一部分的网络结构和相应的网络参数，构建待训练的任务模型，包括：

调整所述预训练好的目标网络中输出层的运算逻辑，得到适用于进行语义分割的分割任务模型；所述分割任务模型的模型参数包括所述预训练好的目标网络的网络参数；

所述通过所述三维样本图像和相应的标注信息对所述任务模型进行再训练，得到最终训练好的任务模型，包括：

将所述三维样本图像输入至所述分割任务模型，输出与所述三维样本图像对应的预测掩模；所述预测掩模用于预测所述三维样本图像中不同部件各自对应的区域位置；

根据所述参考掩模和预测掩模的差异，调整所述分割任务模型的模型参数并继续训练，直到满足第二训练停止条件时停止训练，以得到最终训练好的分割任务模型。

9.根据权利要求8所述的方法，其特征在于，所述将所述三维样本图像输入至所述分割任务模型，输出与所述三维样本图像对应的预测掩模，包括：

将所述三维样本图像输入至所述分割任务模型，通过所述分割任务模型对所述三维样本图像中的各体素分别进行分类，得到各体素分别对应的部件类别；

依据各体素分别对应的部件类别，确定对所述三维样本图像进行分割处理所得到的预测掩模。

10.根据权利要求1所述的方法，其特征在于，所述标注信息包括所述三维样本图像所对应的类别标签；所述根据所述预训练好的目标网络中至少一部分的网络结构和相应的网络参数，构建待训练的任务模型，包括：

根据所述预训练好的目标网络中的编码器和相应的网络参数、以及未训练的分类器，构建待训练的分类任务模型；

将所述三维样本图像输入至所述分类任务模型，通过所述分类任务模型中的编码器对所述三维样本图像进行卷积操作和下采样操作，得到与所述三维样本图像对应的第二特征图；

通过所述分类器对所述第二特征图进行分类处理，得到对应的预测类别；

根据所述类别标签和预测类别的差异，调整所述分类任务模型的模型参数并继续训练，直到满足第二训练停止条件时停止训练，以得到最终训练好的分类任务模型。

11.根据权利要求1至10中任一项所述的方法，其特征在于，所述三维原始图像包括三维医学原始图像，所述带有标注信息的三维样本图像包括带有标注信息的三维医学样本图像；所述任务模型包括分割任务模型和分类任务模型中的至少一种；所述分割任务模型用于从三维医学图像中分割出异常组织；所述分类任务模型用于对三维医学图像进行异常分类。

12.根据权利要求1至10中任一项所述的方法，其特征在于，所述方法还包括：

获取待处理的三维图像；

将所述待处理的三维图像输入至最终训练好的任务模型，通过所述最终训练好的任务模型对所述三维图像进行分类处理得到对应的分类结果，或者，通过所述最终训练好的任务模型对所述三维图像进行分割处理得到对应的分割结果。

13.一种基于三维图像识别的模型训练装置，其特征在于，所述装置包括：

预训练模块，用于将所述三维噪声图像作为样本输入，并将所述三维原始图像作为训练标签来对目标网络进行预训练，得到预训练好的目标网络；所述目标网络包括编码器和解码器，所述编码器和解码器用于对所述三维噪声图像进行还原处理；

构建模块，用于根据包括至少一部分所述预训练好的目标网络，构建待训练的任务模型；

14.根据权利要求13所述的装置，其特征在于，所述干扰模块还用于从所述三维原始图像中抽取至少一张的原始切片；通过噪声值替代所述原始切片中的至少一部分的原始体素值，得到对应的噪声切片；根据所述噪声切片确定与所述三维原始图像对应的三维噪声图像。

15.根据权利要求13所述的装置，其特征在于，所述干扰模块还用于从所述三维原始图像中抽取至少一张的原始切片；分别打乱所述原始切片中原始体素的排布顺序，得到对应的噪声切片；根据所述噪声切片确定与所述三维原始图像对应的三维噪声图像。

16.根据权利要求13所述的装置，其特征在于，所述预训练模块还用于将所述三维噪声图像输入至目标网络进行训练，通过所述目标网络中的编码器和解码器进行还原处理，得到对应的三维还原图像；根据所述三维原始图像和所述三维还原图像的差异，调整所述目标网络的网络参数并继续训练，直到满足第一训练停止条件时停止训练，以得到预训练好的目标网络。

17.根据权利要求16所述的装置，其特征在于，所述预训练模块还用于将所述三维噪声图像输入至目标网络中，通过所述目标网络的编码器进行卷积操作和下采样操作，得到与所述三维噪声图像对应的第一特征图；通过所述目标网络的解码器对所述第一特征图进行卷积操作和上采样操作，得到与所述三维噪声图像对应的三维还原图像。

18.根据权利要求16所述的装置，其特征在于，所述预训练模块还用于根据所述三维原始图像和所述三维还原图像的差异，构建相应的损失函数；调整所述目标网络的网络参数，以控制所述损失函数的值减小；将使得所述损失函数最小化时的网络参数，作为对所述目标网络进行训练时当次训练得到的网络参数，并基于当次训练得到的网络参数继续训练。

19.根据权利要求13所述的装置，其特征在于，所述再训练模块还用于将所述三维样本图像输入至所述任务模型，得到预测输出；根据所述标注信息和所述预测输出的差异，以小于等于预设值的学习率调整所述任务模型的模型参数并继续训练，直到满足第二训练停止条件时停止训练，得到最终训练好的任务模型。

20.根据权利要求13所述的装置，其特征在于，所述标注信息包括用于标记所述三维样本图像中不同部件的参考掩模；所述构建模块还用于调整所述预训练好的目标网络中输出层的运算逻辑，得到适用于进行语义分割的分割任务模型；所述分割任务模型的模型参数包括所述预训练好的目标网络的网络参数；所述再训练模块还用于将所述三维样本图像输入至所述分割任务模型，输出与所述三维样本图像对应的预测掩模；所述预测掩模用于预测所述三维样本图像中不同部件各自对应的区域位置；根据所述参考掩模和预测掩模的差异，调整所述分割任务模型的模型参数并继续训练，直到满足第二训练停止条件时停止训练，以得到最终训练好的分割任务模型。

21.根据权利要求20所述的装置，其特征在于，所述再训练模块还用于将所述三维样本图像输入至所述分割任务模型，通过所述分割任务模型对所述三维样本图像中的各体素分别进行分类，得到各体素分别对应的部件类别；依据各体素分别对应的部件类别，确定对所述三维样本图像进行分割处理所得到的预测掩模。

22.根据权利要求13所述的装置，其特征在于，所述标注信息包括所述三维样本图像所对应的类别标签；所述构建模块还用于根据所述预训练好的目标网络中的编码器和相应的网络参数、以及未训练的分类器，构建待训练的分类任务模型；所述再训练模块还用于将所述三维样本图像输入至所述分类任务模型，通过所述分类任务模型中的编码器对所述三维样本图像进行卷积操作和下采样操作，得到与所述三维样本图像对应的第二特征图；通过所述分类器对所述第二特征图进行分类处理，得到对应的预测类别；根据所述类别标签和预测类别的差异，调整所述分类任务模型的模型参数并继续训练，直到满足第二训练停止条件时停止训练，以得到最终训练好的分类任务模型。

23.根据权利要求13至22中任一项所述的装置，其特征在于，所述三维原始图像包括三维医学原始图像，所述带有标注信息的三维样本图像包括带有标注信息的三维医学样本图像；所述任务模型包括分割任务模型和分类任务模型中的至少一种；所述分割任务模型用于从三维医学图像中分割出异常组织；所述分类任务模型用于对三维医学图像进行异常分类。

24.根据权利要求13至22中任一项所述的装置，其特征在于，所述装置还包括三维图像处理模块，所述三维图像处理模块用于获取待处理的三维图像；将所述待处理的三维图像输入至最终训练好的任务模型，通过所述最终训练好的任务模型对所述三维图像进行分类处理得到对应的分类结果，或者，通过所述最终训练好的任务模型对所述三维图像进行分割处理得到对应的分割结果。

25.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至12中任一项所述方法的步骤。

26.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至12中任一项所述方法的步骤。