CN111915555A

CN111915555A - 一种3d网络模型预训练方法、系统、终端及存储介质

Info

Publication number: CN111915555A
Application number: CN202010564007.1A
Authority: CN
Inventors: 张树; 俞益洲
Original assignee: Beijing Shenrui Bolian Technology Co Ltd; Shenzhen Deepwise Bolian Technology Co Ltd
Current assignee: Beijing Shenrui Bolian Technology Co Ltd; Shenzhen Deepwise Bolian Technology Co Ltd
Priority date: 2020-06-19
Filing date: 2020-06-19
Publication date: 2020-11-10

Abstract

本申请所提供的一种3D网络模型预训练方法、系统、终端及存储介质，所述方法包括：将2D自然图像作为连续三个层面图像输入至3D网络模型中，并将2D自然图像标记标签输入至3D网络模型中；构建3D网络模型的主干网络，在z方向中不做池化或跨步卷积处理；将3D网络模型的预测结果进行2D转换，输出2D预测结果；根据所述2D预测结果与标记标签计算不同视觉任务的损失，利用回传损失梯度对所述3D网络模型进行训练，得到3D网络模型预训练模型；将3D网络模型预训练模型参数对目标3D网络模型进行初始化，使用目标数据集中的图像数据和对应的标注结果对目标3D网络模型进行训练；本申请使用2D自然图像进行3D网络模型预训练，提升了3D模型建模收敛速度和收敛精度。

Description

一种3D网络模型预训练方法、系统、终端及存储介质

技术领域

本申请涉及医学影像处理技术领域，尤其是涉及一种3D网络模型预训练方法、系统、终端及存储介质。

背景技术

随着人工智能技术的飞速发展，基于计算机视觉技术的医学影像处理技术受到了极大关注。和传统的2D自然图像不同，常见的CT，MRI等医学影像通常由多层图像组成，其本质上是对3D空间进行描述的3D图像。对于这一类医学影像的处理，需要具有3D上下文建模能力的3D卷积神经网络。由于医学影像领域里，数据集规模的限制，直接使用随机初始化的3D神经网络训练通常会遇到比较严重的过拟合问题，从而无法取得良好的效果。

针对这一问题，研究人员提出使用多种网络预训练的方法先获得一个具有一定特征表达能力的3D模型，使用该3D模型的参数对待训练模型进行参数初始化，然后再在此基础上使用医学影像数据和对应标注进行网络模型的训练。

目前获得3D预训练模型的方法主要有以下三种，第一是基于3D医疗图像(比如CT或者MRI)的自监督学习方法，第二是基于视频数据的有监督学习方法，第三种则是将2D预训练网络通过维度扩展，变化成3D预训练参数。第一种方案，优点在于直接使用了医疗数据，因此数据分布上和目标视觉任务比较一致，但是由于缺乏大规模的有标记标签的医疗影像数据库，此类方法退而求其次的采用自监督信号来驱动模型训练，不便于网络学到语义概念上具有不变形和判别性的特征，因此其性能有较大进步空间。第二种方案的优点在于可以使用大量视频数据进行有监督训练，学习到具有良好判别性和不变形的图像特征，但是视频数据因其规模通常特别大，存在着存储不便，训练时间偏长的缺点。第三种方案则由于缺少系统的训练，直接扩展后的参数通常并不能有效挖掘层与层之间的上下文信息，达到良好的3D建模能力，因此其性能通常并不稳定。

因此，亟需一种3D网络模型预训练方法、系统、终端及存储介质，以解决3D模型训练时医疗图像数据集缺乏标记标签、大规模视频数据集在样本量不大的情况下就需要占据大量存储空间，导致由于缺少完善的3D预训练方法，使得基于3D卷积的神经网络医疗影像处理任务中效果不理想的问题。

发明内容

针对现有技术的不足，本申请提供一种3D网络模型预训练方法、系统、终端及存储介质，解决了现有技术中由于缺少完善的3D预训练方法，使得基于3D卷积的神经网络医疗影像处理任务中效果不理想的问题。

为解决上述技术问题，第一方面，本申请提供一种3D网络模型预训练方法，包括：

将2D自然图像作为连续三个层面图像输入至3D网络模型中，并将2D自然图像标记标签输入至3D网络模型中；

构建3D网络模型的主干网络，在z方向中不做池化或跨步卷积处理；

将3D网络模型的预测结果进行2D转换，输出2D预测结果；

根据所述2D预测结果与标记标签计算不同视觉任务的损失，利用回传损失梯度对所述3D网络模型进行训练，得到3D网络模型预训练模型；

将所述3D网络模型预训练模型的参数对目标3D网络模型进行初始化，使用目标数据集中的图像数据和对应的标注结果对目标3D网络模型进行训练。

可选的，所述将2D自然图像作为连续三个层面图像输入至3D网络模型中，并将2D自然图像标记标签输入至3D网络模型中，包括：

获取ImageNet、COOC object detection或Pascal Voc segmentation等大规模训练数据库中的2D自然图像；

将2D自然图像的RGB三个通道作为连续三个层面图像输入至3D网络模型中；

并将2D自然图像标记标签输入至3D网络模型中；

其中，所述标签包括分类、分割、检测或关键点定位，所述标记为标注结果。

可选的，所述构建3D网络模型的主干网络，在z方向中不做池化或跨步卷积处理，还包括：

根据具体视觉任务的不同，主干网络选择相应的网络结构：

对于分类任务，使用类似ResNet的网络结构；

对于分割、检测或关键点定位任务，使用FPN或者U-Net的网络结构。

可选的，所述将3D网络模型的预测结果进行2D转换，输出2D预测结果，包括：

使用中心层特征图抽取的方式将3D网络模型输出的3D特征图组合成2D特征图。

可选的，所述根据所述2D预测结果与标记标签计算不同视觉任务的损失，利用回传损失梯度对所述3D网络模型进行训练，得到3D网络模型预训练模型，包括：

对于分类任务，通过cross-entropy损失函数计算2D预测结果和标注金标准之间的损失；

对于分割任务，计算2D预测结果每个预测像素上的损失；

对于检测任务，利用smooth L1回归损失函数和cross-entropy分类损失函数计算预测出来的包围盒(bounding box)和标注金标准之间的损失；

对于关键点定位任务，利用mse回归损失函数或cross-entropy分类损失函数计算出预测关键点和标注金标准之间的损失；

利用回传损失梯度对所述3D网络模型进行训练，得到3D网络模型预训练模型。

第二方面，本申请还提供一种3D网络模型预训练系统，包括：

模型输入单元，配置用于将2D自然图像作为连续三个层面图像输入至3D网络模型中，并将2D自然图像标记标签输入至3D网络模型中；

模型构建单元，配置用于构建3D网络模型的主干网络，在z方向中不做池化或跨步卷积处理；

模型输出单元，配置用于将3D网络模型的预测结果进行2D转换，输出2D预测结果；

模型训练单元，配置用于根据所述2D预测结果与标记标签计算不同视觉任务的损失，利用回传损失梯度对所述3D网络模型进行训练，得到3D网络模型预训练模型；

预训练单元，配置用于将所述3D网络模型预训练模型的参数对目标3D网络模型进行初始化，使用目标数据集中的图像数据和对应的标注结果对目标3D网络模型进行训练。

可选的，所述模型输入单元具体用于：

并将2D自然图像标记标签输入至3D网络模型中；

可选的，所述模型构建单元具体用于：

根据具体视觉任务的不同，主干网络选择相应的网络结构：

对于分类任务，使用类似ResNet的网络结构；

可选的，所述模型输出单元具体用于：

可选的，所述模型训练单元具体用于：

对于分割任务，计算2D预测结果每个预测像素上的损失；

第三方面，本申请提供一种终端，包括：

处理器、存储器，其中，

该存储器用于存储计算机程序，

该处理器用于从存储器中调用并运行该计算机程序，使得终端执行上述的终端的方法。

第四方面，本申请提供了一种计算机存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

与现有技术相比，本申请具有如下有益效果：

1、本申请通过使用规模大、标注质量高的2D自然图像数据库进行3D网络模型预训练，既解决了传统医疗图像数据集不存在有监督标记标签的问题，又避免了大规模视频数据集在样本量不大的情况下就需要占据大量存储空间的弊端，为网络学习提供充足的信息，显著提高预训练参数的特征表达能力，从而提升基于3D模型建模的医疗影像处理(比如图像分割、病灶检测、病灶分类等)的收敛速度和收敛精度；

2、本申请将RGB图像作连续三层图像输出到3D神经网络中，取消池化或跨步卷积的降采样处理使得模型可以学习层间的信息建模，将3D特征转换为2D特征实现2D预测，对模型输入和模型结构进行了针对性的改进，实现了使用2D自然图像来训练3D神经网络的方案。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例所提供的一种3D网络模型预训练方法的流程图；

图2为本申请实施例所提供的一种3D网络模型结构示意图；

图3为本申请另一实施例所提供的一种3D网络模型预训练系统的结构示意图；

图4为本申请实施例所提供的一种终端系统的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参考图1，图1为本申请实施例所提供的一种3D网络模型预训练方法的流程图，该方法100包括：

S101：将2D自然图像作为连续三个层面图像输入至3D网络模型中，并将2D自然图像标记标签输入至3D网络模型中；

S102：构建3D网络模型的主干网络，在z方向中不做池化或跨步卷积处理；

S103：将3D网络模型的预测结果进行2D转换，输出2D预测结果；

S104：根据所述2D预测结果与标记标签计算不同视觉任务的损失，利用回传损失梯度对所述3D网络模型进行训练，得到3D网络模型预训练模型；

S105：将所述3D网络模型预训练模型的参数对目标3D网络模型进行初始化，使用目标数据集中的图像数据和对应的标注结果对目标3D网络模型进行训练

基于上述实施例，作为可选的实施例，所述S101将2D自然图像作为连续三个层面图像输入至3D网络模型中，并将2D自然图像标记标签输入至3D网络模型中，包括：

并将2D自然图像标记标签输入至3D网络模型中；

具体的，如图2所示，将2D自然图像数据拆分成RGB3个通道，并当做连续的3个层面图像进行输入，以模拟3D输入(N*1*3*H*W，N代表batch-size，1代表channel为1)，可以使得模型能够学习到连续层之间的3D空间建模。

需要说明的是，网络模型的输入主要包括两个方面，第一是图像输入，第二是标注结果，即训练目标输入。就图像来说，输入图像可以是任意2D自然图像，2D自然图像根据视觉任务的不同可以是ImageNet、COOC object detection或Pascal Voc segmentation等常见自然图像中使用的大规模训练数据库。就标注结果来说，根据使用的数据库不同分为分类、分割、检测、关键点检测等标签。

基于上述实施例，作为可选的实施例，所述S102构建3D网络模型的主干网络，在z方向中不做池化或跨步卷积处理，还包括：

根据具体视觉任务的不同，主干网络选择相应的网络结构：

对于分类任务，使用类似ResNet的网络结构；

需要说明的是，3D主干网络包含需要预训练的所有参数，为了使得3D主干网络可以适应z方向(即depth维度)只有3层的输入，需要对3D主干网络进行一个简单的改造以避免主干网络在经过几次z方向的下采样之后，退化成z方向只有一层的情况。因此在主干网络构建时在z方向中不做池化pooling或者跨步卷积strided-convolution的操作，即避免进行降采样。模型从始至终可以保持在z方向上有3层图像，从而可以让模型的参数去学习如何建模上下层之间的关系，保证学到有效的3D特征。

此外，根据具体视觉任务的不同，使用的3D主干网络会有所不同，对于分类任务而言，使用类似ResNet3D的网络结构；对于检测或者分割任务，则增加上采样和跳跃连接模块，构造成FPN或者U-Net结构来进行网络模型的训练，对于分割和检测视觉任务，还需要引入Group Normalization层或者同步Batch Normalization层来对模型进行有效训练。

基于上述实施例，作为可选的实施例，所述S103将3D网络模型的预测结果进行2D转换，输出2D预测结果，包括：

具体的，将3D网络模型输出的3D特征图的每一个channel中截取其中心特征图得到N*1*1*H’*W’，合并所有中心特征图得到N*C’*1*H’*W’的3D特征图，进行squeeze转换得到N*C’*H’*W’的2D特征图。通过转换后的2D特征图，配上对应的预测层就可以得到和标记标签对应的网络预测。

需要说明的是，由于预测结果是对2D图像的标记，比如2D的检测框，2D的分割结果或者是分类结果，因此3D主干模型的最终输出需要转换为2D的预测才能够进行模型的训练。在网络结构中增加一个模块，将3D特征转换为2D特征得到2D的预测结果。

基于上述实施例，作为可选的实施例，所述S104根据所述2D预测结果与标记标签计算不同视觉任务的损失，利用回传损失梯度对所述3D网络模型进行训练，得到3D网络模型预训练模型，包括：

对于分割任务，计算2D预测结果每个预测像素上的损失；

需要说明的是，根据3D网络模型的预测结果和输入的标注结果，可以计算出不同视觉任务的损失，比如对于分类任务，可以通过cross-entropy损失函数计算网络预测和标注金标准之间的损失；对于分割任务，则可以计算每个预测像素上的损失。再通过回传损失的梯度对网络进行训练，得到3D网络模型预训练模型。

此外，3D网络模型的训练模型训练和正常检测网络没有区别，只不过针对3D模型显存消耗相对较大这个问题，在网络训练的时候可以对网络参数使用混合精度训练(MIXEDPRECISION TRAINING)，从而达到降低显存和加快训练速度的目的。模型训练通常需要对训练数据进行比较多的训练迭代，以基于COCO检测数据集的预训练模型训练为例，需要迭代72个epoch以使得预训练模型收敛到比较好的状态。

发明有效性验证试验：

为验证本发明的有效性，在DeepLesion上进行目标检测试验。DeepLesion是一个大规模CT图像数据库，包含32120张人体各个部位的CT扫描，32735个病变标注。对比经本申请预训练的3D检测网络和直接从头开始训练的3D检测网络在使用不同数据量的数据(100％，80％，60％，40％，20％的所有训练数据)进行模型训练时的效果，效果使用检测中常用的MAP@IOU＝0.5来代表。需要注意的是，本实施例中3D模型预训练的时候使用了COCO数据集进行训练，网络的输入是连续3个slice。但在医疗影像数据集中进行训练的时候，使用了连续9层进行网络训练，这从侧面证明了本申请预训练方法的鲁棒性。

实验的结果如表1所示，从表1对比结果中可以看到本申请图像处理的方法更优。基于本申请预训练参数训练的网络模型获得了更好的实验效果，特别是当训练数据量比较小的时候，本申请预训练参数训练的3D检测模型效果远好于从头开始训练的3D检测模型，证明了本申请的预训练方案对于医疗影像数据集的重要意义。

表1在不同训练数据量下检测模型的MAP@50的效果

MAP@IOU＝0.5	100％	80％	60％	40％	20％
						3D模型从头训练，9slices	74.00	71.58	68.79	63.40	50.67
本实施例预训练方案，9slices	76.87	75.66	73.33	71.07	65.55

请参考图3，图3为本申请实施例所提供的一种3D网络模型预训练系统的结构示意图，该系统300，包括：

模型输入单元301，配置用于将2D自然图像作为连续三个层面图像输入至3D网络模型中，并将2D自然图像标记标签输入至3D网络模型中；

模型构建单元302，配置用于构建3D网络模型的主干网络，在z方向中不做池化或跨步卷积处理；

模型输出单元303，配置用于将3D网络模型的预测结果进行2D转换，输出2D预测结果；

模型训练单元304，配置用于根据所述2D预测结果与标记标签计算不同视觉任务的损失，利用回传损失梯度对所述3D网络模型进行训练，得到3D网络模型预训练模型；

预训练单元305，配置用于将所述3D网络模型预训练模型的参数对目标3D网络模型进行初始化，使用目标数据集中的图像数据和对应的标注结果对目标3D网络模型进行训练。

基于上述实施例，作为可选的实施例，所述模型输入单元301具体用于：

并将2D自然图像标记标签输入至3D网络模型中；

基于上述实施例，作为可选的实施例，所述模型构建单元302具体用于：

根据具体视觉任务的不同，主干网络选择相应的网络结构：

对于分类任务，使用类似ResNet的网络结构；

基于上述实施例，作为可选的实施例，所述模型输出单元303具体用于：

基于上述实施例，作为可选的实施例，所述模型训练单元304具体用于：

对于分割任务，计算2D预测结果每个预测像素上的损失；

请参考图4，图4为本申请实施例所提供的一种终端系统400的结构示意图，该终端系统400可以用于执行本发明实施例提供的3D网络模型预训练方法。

其中，该终端系统400可以包括：处理器401、存储器402及通信单元403。这些组件通过一条或多条总线进行通信，本领域技术人员可以理解，图中示出的服务器的结构并不构成对本发明的限定，它既可以是总线形结构，也可以是星型结构，还可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

其中，该存储器402可以用于存储处理器401的执行指令，存储器402可以由任何类型的易失性或非易失性存储终端或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。当存储器402中的执行指令由处理器401执行时，使得终端系统400能够执行以下上述方法实施例中的部分或全部步骤。

处理器401为存储终端的控制中心，利用各种接口和线路连接整个电子终端的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器内的数据，以执行电子终端的各种功能和/或处理数据。所述处理器可以由集成电路(Integrated Circuit，简称IC)组成，例如可以由单颗封装的IC所组成，也可以由连接多颗相同功能或不同功能的封装IC而组成。举例来说，处理器401可以仅包括中央处理器(Central Processing Unit，简称CPU)。在本发明实施方式中，CPU可以是单运算核心，也可以包括多运算核心。

通信单元403，用于建立通信信道，从而使所述存储终端可以与其它终端进行通信。接收其他终端发送的用户数据或者向其他终端发送用户数据。

本申请还提供一种计算机存储介质，其中，该计算机存储介质可存储有程序，该程序执行时可包括本发明提供的各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(英文：read-only memory，简称：ROM)或随机存储记忆体(英文：random access memory，简称：RAM)等。

本申请通过使用规模大、标注质量高的2D自然图像数据库进行3D网络模型预训练，既解决了传统医疗图像数据集不存在有监督标记标签的问题，又避免了大规模视频数据集在样本量不大的情况下就需要占据大量存储空间的弊端，为网络学习提供充足的信息，显著提高预训练参数的特征表达能力，从而提升基于3D模型建模的医疗影像处理(比如图像分割、病灶检测、病灶分类等)的收敛速度和收敛精度；本申请将RGB图像作连续三层图像输出到3D神经网络中，取消池化或跨步卷积的降采样处理使得模型可以学习层间的信息建模，将3D特征转换为2D特征实现2D预测，对模型输入和模型结构进行了针对性的改进，实现了使用2D自然图像来训练3D神经网络的方案。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例提供的系统而言，由于其与实施例提供的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种3D网络模型预训练方法，其特征在于，包括：

将3D网络模型的预测结果进行2D转换，输出2D预测结果；

2.根据权利要求1所述的3D网络模型预训练方法，其特征在于，所述将2D自然图像作为连续三个层面图像输入至3D网络模型中，并将2D自然图像标记标签输入至3D网络模型中，包括：

并将2D自然图像标记标签输入至3D网络模型中；

3.根据权利要求1所述的3D网络模型预训练方法，其特征在于，所述构建3D网络模型的主干网络，在z方向中不做池化或跨步卷积处理，还包括：

根据具体视觉任务的不同，主干网络选择相应的网络结构：

对于分类任务，使用类似ResNet的网络结构；

4.根据权利要求1所述的3D网络模型预训练方法，其特征在于，所述将3D网络模型的预测结果进行2D转换，输出2D预测结果，包括：

5.根据权利要求1所述的3D网络模型预训练方法，其特征在于，所述根据所述2D预测结果与标记标签计算不同视觉任务的损失，利用回传损失梯度对所述3D网络模型进行训练，得到3D网络模型预训练模型，包括：

对于分割任务，计算2D预测结果每个预测像素上的损失；

6.一种3D网络模型预训练系统，其特征在于，包括：

7.根据权利要求6所述的3D网络模型预训练系统，其特征在于，所述模型输入单元具体用于：

并将2D自然图像标记标签输入至3D网络模型中；

8.根据权利要求6所述的3D网络模型预训练系统，其特征在于，所述模型构建单元具体用于：

根据具体视觉任务的不同，主干网络选择相应的网络结构：

对于分类任务，使用类似ResNet的网络结构；

9.根据权利要求6所述的3D网络模型预训练系统，其特征在于，所述模型输出单元具体用于：

10.根据权利要求6所述的3D网络模型预训练系统，其特征在于，所述模型训练单元具体用于：

对于分割任务，计算2D预测结果每个预测像素上的损失；

11.一种终端，其特征在于，包括：

处理器；

用于存储处理器的执行指令的存储器；

其中，所述处理器被配置为执行权利要求1-5任一项所述的方法。

12.一种存储有计算机程序的计算机可读存储介质，其特征在于，该程序被处理器执行时实现如权利要求1-5中任一项所述的方法。