CN116188509A - 一种高效率三维图像分割方法 - Google Patents

一种高效率三维图像分割方法 Download PDF

Info

Publication number
CN116188509A
CN116188509A CN202310437274.6A CN202310437274A CN116188509A CN 116188509 A CN116188509 A CN 116188509A CN 202310437274 A CN202310437274 A CN 202310437274A CN 116188509 A CN116188509 A CN 116188509A
Authority
CN
China
Prior art keywords
scale
model
segmentation
layer
equation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310437274.6A
Other languages
English (en)
Inventor
王国泰
赵乾飞
钟岚烽
张少霆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202310437274.6A priority Critical patent/CN116188509A/zh
Publication of CN116188509A publication Critical patent/CN116188509A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • G06T2207/10012Stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10072Tomographic images
    • G06T2207/10081Computed x-ray tomography [CT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30056Liver; Hepatic

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Quality & Reliability (AREA)
  • Radiology & Medical Imaging (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及的是一种高效率三维图像分割方法,属于图像分割技术领域。本发明是通过以下技术方案实现的:首先利用可分离卷积和注意力机制构建轻量化三维图像分割模型LightNet并将其作为学生模型,然后采用知识蒸馏方法进行训练,结合一个性能强大的教师模型,利用教师模型的软标签和类别相似性矩阵对学生模型进行监督,完成LightNet的训练。对于待分割的样本,使用训练后的LightNet模型进行推理得到分割结果。本发明能克服传统的三维分割模型参数量大、占内存大、对计算资源要求高的问题,通过引入轻量化神经网络和知识蒸馏的方法,能够在较少的参数量和计算开销的情况下得到高质量的分割结果。

Description

一种高效率三维图像分割方法
技术领域
本发明属于图像自动识别技术领域,特别是三维图像中基于深度学习的高效率自动分割方法。
背景技术
随着成像技术的发展,大量的各种图像数据,如自然图像、医学图像、卫星图像等,为现代科学技术的进步提供了数据支持。图像识别在工业、安防、娱乐、医学诊断等多个场景具有广泛的应用。图像分割技术旨在从图像中准确地提取不同物体的边界,是众多图像识别应用中的核心任务。
目前,随着计算机算力的提升和图像分割算法的发展,图像分割技术取得了广泛的应用。现有的高精度图像分割算法普遍采用深度学习(如卷积神经网络)的方法。深度学习由于模型巨大,对计算机的算力和存储空间的要求较高。对于普通的二维图像,常规的计算机基本能完成对深度学习模型的训练并用该模型对图像进行快速分割。然而,三维图像由于体量巨大,对三维图像采用深度学习模型进行分割需要消耗更大的存储空间、计算复杂度和更长的模型运行时间。在某些对图像分割的精度和效率要求较高的情况下,由于计算机资源的限制,常规的三维分割模型难以实现实时的高精度分割。
为了克服这一问题,减少深度学习模型的参数量和计算开销,开发轻量化的三维图像分割模型具有巨大的需求。轻量化的分割模型通过减少卷积核大小、将空间和通道上的卷积进行分离等方式,拥有更少的需要学习的参数。这使得它们的计算开销变小,运行效率更高,并降低了对计算设备算力的要求,使其在计算能力较弱的微型设备(如手机、平板电脑)上的使用成为可能。然而,过多地降低分割模型的尺寸,会让模型的特征表达能力变弱,在提高模型运行效率的同时,降低了模型的分割精度。目前针对三维图像的轻量化模型的分割精度仍然难以达到常规的参数量较大的模型的精度。因此,一个好的轻量化分割模型在拥有更小的模型尺寸的同时,也需要保证分割精度下降幅度尽量小。
发明内容
本发明的目的在于克服现有的三维图像分割模型参数量大、计算开销大的不足,提出一种轻量化的三维图像分割模型,在减少模型参数的同时,保持其分割精度,从而实现高精度、高效率的三维图像分割。本发明首先提出一种新颖的轻量化三维图像分割的卷积神经网络结构LightNet,利用可分离卷积和注意力模块,实现轻量化的神经网络模型,提高其运行效率。然后进一步提出基于多尺度、多类别知识蒸馏的训练方法,让一个高性能的教师分割模型对该轻量化模型的训练过程进行指导监督,从而进一步提高轻量化模型的分割精度。
本发明的目的可以通过以下技术方案来实现:一种高效率三维图像分割方法,该方法包括:
步骤1:建立三维图像分割训练数据集;
针对一个给定的三维图像分割任务,收集图像数据,并由人工将各个图像中需要分割的不同类别的目标手工分割出来,作为该图像中的分割金标准;这些三维图像及其分割金标准组成训练数据集;
步骤2:构建基于可分离卷积和注意力机制的轻量化三维图像分割模型LightNet;
所述轻量化三维图像分割模型LightNet由一个包含轻量化模块的编码器和解码器组成,如图2所示;编码器由S个尺度组成,前S-1个尺度上每个尺度包含一个高分辨率轻量化模块HLB和一个下采样层,下采样层将第s个尺度的特征图分辨率降为第S-1个尺度的特征图分辨率的一半;各个尺度的特征图通道数量分别为
Figure SMS_1
,第s个尺度的特征图输入一个低分辨率轻量化模块LLB,然后输入解码器;解码器也由S个尺度组成,各个尺度特征图的分辨率依次变为上一个尺度的两倍,其输出通道数量与编码器中对应尺度的特征图通道数量一致;在解码器的第s个尺度上,来自编码器中同样尺度的特征图通过跳跃链接与解码器第s+1个尺度的特征图进行拼接后,输入到高分辨率轻量化模块HLB,进行上采样后再输入到解码器第s-1个尺度上;
最终,解码器的特征图分辨率恢复到原始输入图像大小,因此解码器各个尺度上分别得到一个特征图,其通道数与编码器中相同尺度的通道数相同,即分别为
Figure SMS_3
;在解码器的第s个尺度上,分别使用一个由点卷积组成的预测头,其输出特征图为
Figure SMS_6
,其中
Figure SMS_8
表示第s个尺度上的图像大小,
Figure SMS_4
是该分割任务中的类别个数;然后,
Figure SMS_5
输入一个标准的Softmax层得到概率预测结果
Figure SMS_7
,
Figure SMS_9
同时输入一个含温度校正的Softmax,称为T-Softmax,得到一个软标签
Figure SMS_2
;T-Softmax的定义为:
Figure SMS_10
公式1
其中,
Figure SMS_11
是T-Softmax前一层输出中某个像素的特征向量,
Figure SMS_12
是该像素属于类别
Figure SMS_13
的分数,
Figure SMS_14
表示向量的模长;
步骤3:采用训练数据集,选择一个教师模型,对所构建的轻量化卷积神经网络模型LightNet进行训练,训练过程引入多尺度、多类别知识蒸馏方法来提高该模型的分割性能;
所述步骤3中,对轻量化神经网络的训练过程中,以该模型作为学生模型,通过一个教师模型进行多尺度知识蒸馏监督学生模型的学习;该教师模型分别在多尺度的预测结果和特征上对该学生模型进行监督;训练该学生模型的损失函数为:
Figure SMS_15
公式3
其中,
Figure SMS_16
是基于训练图像的标注的多尺度监督损失函数,
Figure SMS_17
是基于教师模型的多尺度知识蒸馏损失函数;
Figure SMS_18
是一个调整二者权重的参数;
Figure SMS_19
是基于交叉熵损失
Figure SMS_20
和Dice损失函数
Figure SMS_21
的组合函数,其定义为:
Figure SMS_22
公式4
Figure SMS_23
公式5
Figure SMS_24
公式6
其中,
Figure SMS_26
表示像素个数,
Figure SMS_28
Figure SMS_30
中第
Figure SMS_27
个像素属于第
Figure SMS_29
个类别的概率,
Figure SMS_31
是对应的金标准,
Figure SMS_32
是第
Figure SMS_25
个尺度上的权重;
步骤4:对于新的待分割样本,使用训练好的LightNet模型进行分割预测,得到分割结果。
进一步的,上述高分辨率轻量化模块HLB的结构如图3中的(a)所示;用
Figure SMS_33
表示该模块的输入特征图,首先通过一个层间卷积单元进行特征转换,其输出为
Figure SMS_34
, 然后
Figure SMS_35
输入一个层内卷积单元,其输出为
Figure SMS_36
;所述层间卷积单元包含一个大小为
Figure SMS_37
的卷积层、一个批归一化层和一个LeakyReLu激活函数,层内卷积单元包含一个大小为
Figure SMS_38
的卷积层、一个批归一化层和一个LeakyReLu激活函数;
通过一个特征校正分支对
Figure SMS_39
进行校正,该分支由一个下采样层、一个点卷积层和一个上采样层组成,上采样后的特征图输入一个Sigmoid函数得到一个注意力图
Figure SMS_40
, HLB的输出
Figure SMS_41
通过以下操作得到:
Figure SMS_42
公式2
低分辨率轻量化模块低分辨率轻量化模块LLB的结构与高分辨率轻量化模块HLB的结构不同点在于:在校正分支上没有下采样层和上采样层,仅由一个点卷积层组成,其余结构与高分辨率轻量化模块HLB相同,如图3中的(b)所示;
进一步的,所述步骤3中基于教师模型的多尺度知识蒸馏损失函数
Figure SMS_43
包含两部分,分别为基于软标签的知识蒸馏和基于类别相似性的知识蒸馏;
首先,基于软标签的知识蒸馏使用教师模型的软标签对学生模型的软标签进行监督;学生模型在第s个尺度上的特征图记为
Figure SMS_44
, 通过公式1得到其在第s个尺度上的软标签
Figure SMS_45
;将教师模型在第
Figure SMS_46
个尺度上的特征表示为
Figure SMS_47
, 将其输入公式1得到其对应的软标签,表示为
Figure SMS_48
Figure SMS_49
Figure SMS_50
之间的蒸馏损失函数为:
Figure SMS_51
公式7
其中
Figure SMS_52
为交叉熵损失函数,如公式5所定义;
其次,基于类别相似性的知识蒸馏用于鼓励学生模型能更好地理解不同类别之间的关联情况;为此,分别计算
Figure SMS_55
Figure SMS_57
中的类别相似性,对于
Figure SMS_60
,将其维度改为
Figure SMS_54
, 其转置后的形状为
Figure SMS_58
, 将这两个矩阵相乘得到学生模型的在第s个尺度上的类别相似矩阵
Figure SMS_61
,同理,对
Figure SMS_63
,将其维度重置为
Figure SMS_53
后乘以对应的转置矩阵,得到教师模型在第s个尺度上的类别相似矩阵
Figure SMS_56
Figure SMS_59
Figure SMS_62
之间的蒸馏损失函数为:
Figure SMS_64
公式8
在上述两种知识蒸馏损失函数的基础上,总体多尺度知识蒸馏损失函数为:
Figure SMS_65
公式9
其中
Figure SMS_66
是第
Figure SMS_67
个尺度上的权重。
与现有技术相比,本发明具有以下优点:
(1)轻量化的三维分割模型。由于传统的三维卷积层参数多,使得传统的三维分割模型参数量大、占用内存大、计算开销大。本发明通过利用时空可分离三维卷积层来替代传统三维卷积层,并且引入基于注意力机制的特征校正分支来增加上下文信息的传输。相较于传统的三维分割模型,大大降低了模型的参数量和计算开销。
(2)精确的分割结果。现有的轻量化三维分割模型的分割精度受限于其模型的尺寸。本发明通过引入类别相似度、多尺度知识蒸馏将高性能的教师模型的知识提取出来,用于监督轻量化的学生模型,使得学生模型的分割精度提高。
附图说明
图1为本发明的流程图。
图2为本发明的轻量化神经网络模型LightNet的结构图。
图3为基于注意力机制的轻量化模块,(a)为高分辨轻量化模块,(b)为低分辨率轻量化模块。
图4为本发明的方法与现有方法分割结果的比较,(a)为金标准,(b)为本发明的分割结果,(c)为DMF-Net的分割结果,(d)为EPS-Net的分割结果。
具体实施方式
结合本发明的内容,提供以下在三维腹部CT图像中多结构分割的实施例,本实施例在CPU为Intel(R) Core(TM) i7-6850K 3.60GHz, GPU为NVIDIA GTX2080Ti, 内存为24.0GB的计算机中实现,编程语言为Python,框架为Pytorch,系统为Ubuntu 20.04。本发明流程图如图1所示:
第一步,建立训练数据集。收集150例三维腹部CT图像,通过专家将感兴趣的分割(包含肝脏、脾脏、左肾、右肾、胆囊等结构)目标手工勾画出来,作为相应个体的分割金标准,建立训练数据集。
第二步,构建基于可分离卷积和注意力机制的轻量化卷积神经网络LightNet。
该轻量化卷积神经网络LightNet由一个包含轻量化模块的编码器和解码器组成,如图2所示。编码器由S=5个尺度组成,前4个尺度上每个尺度包含一个高分辨率轻量化模块(HLB)和一个下采样层,下采样层将第s个尺度的特征图分辨率降为第s-1个尺度的特征图分辨率的一半。各个尺度的特征图通道数量分别为
Figure SMS_68
Figure SMS_69
,
Figure SMS_70
,
Figure SMS_71
,
Figure SMS_72
。第5个尺度的特征图输入一个低分辨率轻量化模块(LLB),然后输入解码器。解码器也由S=5个尺度组成,各个尺度特征图的分辨率依次变为上一个尺度的两倍,其输出通道数量与编码器中对应尺度的特征图通道数量一致。在解码器的第s个尺度上,来自编码器中同样尺度的特征图通过跳跃链接与解码器第s+1个尺度的特征图进行拼接后,输入到HLB模块,进行上采样后再输入到第s-1个尺度上。
高分辨率轻量化模块HLB的结构如图3中的(a)所示。用
Figure SMS_73
表示该模块的输入特征图,首先通过一个层间卷积单元(包含一个大小为1x1x3的卷积层、一个批归一化层和一个LeakyReLu激活函数)进行特征转换,其输出为
Figure SMS_74
,然后
Figure SMS_75
输入一个层内卷积单元(包含一个大小为3x3x1的卷积层、一个批归一化层和一个LeakyReLu激活函数),其输出为
Figure SMS_76
。同时,通过一个特征校正分支对
Figure SMS_77
进行校正,该分支由一个下采样层、一个点卷积层和一个上采样层组成,上采样后的特征图输入一个Sigmoid函数得到一个注意力图
Figure SMS_78
, HLB的输出
Figure SMS_79
通过以下操作得到:
Figure SMS_80
公式10
低分辨率轻量化模块LLB的结构与HLB的结构类似,不同的是在校正分支上没有下采样层和上采样层,仅由一个点卷积层组成,其余结构与HLB相同,低分辨率轻量化模块如图3中的(b)所示。
上述解码器各个尺度上分别得到一个特征图,其通道数与编码器中相同尺度的通道数相同,即分别为
Figure SMS_82
。在解码器的第s个尺度上,分别使用一个由点卷积组成的预测头,其输出特征图为
Figure SMS_85
, 其中
Figure SMS_87
表示第s个尺度上的图像大小,
Figure SMS_83
是该分割任务中的类别个数(
Figure SMS_86
)。然后,
Figure SMS_88
输入一个标准的Softmax层得到概率预测结果
Figure SMS_89
,
Figure SMS_81
同时输入一个含温度校正的Softmax(称为T-Softmax),得到一个软标签
Figure SMS_84
;T-Softmax的定义为:
Figure SMS_90
公式11
Figure SMS_91
是T-Softmax前一层输出中某个像素的特征向量,
Figure SMS_92
是该像素属于类别
Figure SMS_93
的分数,
Figure SMS_94
表示向量的模长。
第三步,构建教师网络,并利用多尺度多类别知识蒸馏方法对轻量化网络LightNet进行训练。
教师网络采用3D U-Net结构,该结构也是由编码器-解码器组成,和所提出的的LightNet的骨架类似,不同的是3D U-Net中不采用HLB和LLB模块,而是用常规的三维卷积层替代。将所提出的LightNet作为学生模型,教师模型分别在多尺度的预测结果和特征上对学生模型进行监督。训练学生模型的损失函数为:
Figure SMS_95
公式12
其中
Figure SMS_96
是基于训练图像的标注的多尺度监督损失函数,
Figure SMS_97
是基于教师模型的多尺度知识蒸馏损失函数。
Figure SMS_98
是一个调整二者权重的参数,这里设为0.8。
Figure SMS_99
是基于交叉熵损失
Figure SMS_100
和Dice损失函数
Figure SMS_101
的组合函数,其定义为:
Figure SMS_102
公式13
Figure SMS_103
公式14
Figure SMS_104
公式15
其中
Figure SMS_107
表示像素个数,
Figure SMS_109
Figure SMS_112
中第
Figure SMS_106
个像素属于第
Figure SMS_108
个类别的概率,
Figure SMS_110
是对应的金标准。
Figure SMS_111
是第
Figure SMS_105
个尺度上的权重。
这里的多尺度知识蒸馏损失函数
Figure SMS_114
包含两部分,分别为基于软标签的知识蒸馏和基于类别相似性的知识蒸馏。首先,学生模型在第s个尺度上的特征图记为
Figure SMS_116
, 通过公式1得到其在第s个尺度上的软标签
Figure SMS_118
。将教师模型在第
Figure SMS_115
个尺度上的特征表示为
Figure SMS_117
, 将其输入公式1得到其对应的软标签,表示为
Figure SMS_119
Figure SMS_120
Figure SMS_113
之间的蒸馏损失函数为:
Figure SMS_121
公式16
其中
Figure SMS_122
为交叉熵损失函数,如公式5所定义。
其次,利用基于类别相似性的知识蒸馏鼓励学生模型能更好地理解不同类别之间的关联情况。为此,分别计算
Figure SMS_124
Figure SMS_127
中的类别相似性。对于
Figure SMS_130
,将其维度改为
Figure SMS_125
, 其转置后的形状为
Figure SMS_128
, 将这两个矩阵相乘得到学生模型的在第s个尺度上的类别相似矩阵
Figure SMS_131
。同理,对
Figure SMS_133
,将其维度重置为
Figure SMS_123
后乘以对应的转置矩阵,得到教师模型在第s个尺度上的类别相似矩阵
Figure SMS_126
Figure SMS_129
Figure SMS_132
之间的蒸馏损失函数为:
Figure SMS_134
公式17
在上述两种知识蒸馏损失函数的基础上,总体多尺度知识蒸馏损失函数为:
Figure SMS_135
公式18
其中
Figure SMS_136
是第
Figure SMS_137
个尺度上的权重。其值为
Figure SMS_138
分别设为0.4,0.3, 0.2,0.1和0.0。
利用公式3中的损失函数,采用Adam优化器,学习率设为0.001进行训练,迭代200轮,完成LightNet模型的训练。
第四步,待分割样本的推理。使用训练好的分割模型LightNet对待分割样本进行推理得到分割结果。
本实施例的流程如下。
首先利用SimpleITK(一个医学图像计算库)和Numpy(一个矩阵运算库)编写函数对三维CT图像进行预处理。
利用Pytorch(一个开源深度学习计算库)对本发明的轻量化卷积神经网络LightNet进行编程实现,将各个分辨率上的通道数分别设为32, 64, 128, 256和512。
编程实现本发明的知识蒸馏和模型训练方法。将3D UNet作为教师模型,LightNet作为学生模型,然后在训练图像上进行模型训练,采用Adam优化器,结合公式3中的损失函数进行模型更新。模型收敛后得到训练完成的轻量化模型。
对于待分割的样本,使用训练模型进行推理得到分割结果。
本发明的方法与现有方法分割结果的比较如图4所示,本发明的分割模型LightNet经过训练后的分割结果与现有两种轻量化模型的比较。(a)是专家手工分割得到的金标准,(b)是本发明方法得到的结果,(c)和(d)分别是现有的轻量化分割模型DMF-Net和ESP-Net的分割结果。可以看出,现有的两种轻量化模型分割结果中有较大误差,而本发明的方法的结果更接近于金标准,假阳性区域显著减少,分割结果更加精确。

Claims (3)

1.一种高效率三维图像分割方法,其特征在于,该方法包括:
步骤1:建立三维图像分割训练数据集;
针对一个给定的三维图像分割任务,收集图像数据,并由人工将各个图像中需要分割的不同类别的目标手工分割出来,作为该图像中的分割金标准;这些三维图像及其分割金标准组成训练数据集;
步骤2:构建基于可分离卷积和注意力机制的轻量化三维图像分割模型LightNet;
所述轻量化三维图像分割模型LightNet由一个包含轻量化模块的编码器和解码器组成;编码器由S个尺度组成,前S-1个尺度上每个尺度包含一个高分辨率轻量化模块HLB和一个下采样层,下采样层将第s个尺度的特征图分辨率降为第S-1个尺度的特征图分辨率的一半;各个尺度的特征图通道数量分别为
Figure QLYQS_1
,第s个尺度的特征图输入一个低分辨率轻量化模块LLB,然后输入解码器;解码器也由S个尺度组成,各个尺度特征图的分辨率依次变为上一个尺度的两倍,其输出通道数量与编码器中对应尺度的特征图通道数量一致;在解码器的第s个尺度上,来自编码器中同样尺度的特征图通过跳跃链接与解码器第s+1个尺度的特征图进行拼接后,输入到高分辨率轻量化模块HLB,进行上采样后再输入到解码器第s-1个尺度上;
最终,解码器的特征图分辨率恢复到原始输入图像大小,因此解码器各个尺度上分别得到一个特征图,其通道数与编码器中相同尺度的通道数相同,即分别为
Figure QLYQS_4
;在解码器的第s个尺度上,分别使用一个由点卷积组成的预测头,其输出特征图为
Figure QLYQS_6
,其中
Figure QLYQS_8
表示第s个尺度上的图像大小,
Figure QLYQS_3
是该分割任务中的类别个数;然后,
Figure QLYQS_5
输入一个标准的Softmax层得到概率预测结果
Figure QLYQS_7
,
Figure QLYQS_9
同时输入一个含温度校正的Softmax,称为T-Softmax,得到一个软标签
Figure QLYQS_2
;T-Softmax的定义为:
Figure QLYQS_10
公式1
其中,
Figure QLYQS_11
是T-Softmax前一层输出中某个像素的特征向量,
Figure QLYQS_12
是该像素属于类别
Figure QLYQS_13
的分数,
Figure QLYQS_14
表示向量的模长;
步骤3:采用训练数据集,选择一个教师模型,对所构建的轻量化卷积神经网络模型LightNet进行训练,训练过程引入多尺度、多类别知识蒸馏方法来提高该模型的分割性能;
所述步骤3中,对轻量化神经网络的训练过程中,以该模型作为学生模型,通过一个教师模型进行多尺度知识蒸馏监督学生模型的学习;该教师模型分别在多尺度的预测结果和特征上对该学生模型进行监督;训练该学生模型的损失函数为:
Figure QLYQS_15
公式3
其中,
Figure QLYQS_16
是基于训练图像的标注的多尺度监督损失函数,
Figure QLYQS_17
是基于教师模型的多尺度知识蒸馏损失函数;
Figure QLYQS_18
是一个调整二者权重的参数;
Figure QLYQS_19
是基于交叉熵损失
Figure QLYQS_20
和Dice损失函数
Figure QLYQS_21
的组合函数,其定义为:
Figure QLYQS_22
公式4
Figure QLYQS_23
公式5
Figure QLYQS_24
公式6
其中,
Figure QLYQS_26
表示像素个数,
Figure QLYQS_28
Figure QLYQS_30
中第
Figure QLYQS_27
个像素属于第
Figure QLYQS_29
个类别的概率,
Figure QLYQS_31
是对应的金标准,
Figure QLYQS_32
是第
Figure QLYQS_25
个尺度上的权重;
步骤4:对于新的待分割样本,使用训练好的LightNet模型进行分割预测,得到分割结果。
2.如权利要求1所述的一种高效率三维图像分割方法,其特征在于,上述高分辨率轻量化模块HLB;用
Figure QLYQS_33
表示该模块的输入特征图,首先通过一个层间卷积单元进行特征转换,其输出为
Figure QLYQS_34
, 然后
Figure QLYQS_35
输入一个层内卷积单元,其输出为
Figure QLYQS_36
;所述层间卷积单元包含一个大小为
Figure QLYQS_37
的卷积层、一个批归一化层和一个LeakyReLu激活函数,层内卷积单元包含一个大小为
Figure QLYQS_38
的卷积层、一个批归一化层和一个LeakyReLu激活函数;
通过一个特征校正分支对
Figure QLYQS_39
进行校正,该分支由一个下采样层、一个点卷积层和一个上采样层组成,上采样后的特征图输入一个Sigmoid函数得到一个注意力图
Figure QLYQS_40
, HLB的输出
Figure QLYQS_41
通过以下操作得到:
Figure QLYQS_42
公式2
低分辨率轻量化模块低分辨率轻量化模块LLB的结构与高分辨率轻量化模块HLB的结构不同点在于:在校正分支上没有下采样层和上采样层,仅由一个点卷积层组成,其余结构与高分辨率轻量化模块HLB相同。
3.如权利要求1所述的一种高效率三维图像分割方法,其特征在于,所述步骤3中基于教师模型的多尺度知识蒸馏损失函数
Figure QLYQS_43
包含两部分,分别为基于软标签的知识蒸馏和基于类别相似性的知识蒸馏;
首先,基于软标签的知识蒸馏使用教师模型的软标签对学生模型的软标签进行监督;学生模型在第s个尺度上的特征图记为
Figure QLYQS_44
, 通过公式1得到其在第s个尺度上的软标签
Figure QLYQS_45
;将教师模型在第
Figure QLYQS_46
个尺度上的特征表示为
Figure QLYQS_47
, 将其输入公式1得到其对应的软标签,表示为
Figure QLYQS_48
Figure QLYQS_49
Figure QLYQS_50
之间的蒸馏损失函数为:
Figure QLYQS_51
公式7
其中
Figure QLYQS_52
为交叉熵损失函数,如公式5所定义;
其次,基于类别相似性的知识蒸馏用于鼓励学生模型能更好地理解不同类别之间的关联情况;为此,分别计算
Figure QLYQS_55
Figure QLYQS_57
中的类别相似性,对于
Figure QLYQS_60
,将其维度改为
Figure QLYQS_54
, 其转置后的形状为
Figure QLYQS_58
, 将这两个矩阵相乘得到学生模型的在第s个尺度上的类别相似矩阵
Figure QLYQS_61
,同理,对
Figure QLYQS_63
,将其维度重置为
Figure QLYQS_53
后乘以对应的转置矩阵,得到教师模型在第s个尺度上的类别相似矩阵
Figure QLYQS_56
Figure QLYQS_59
Figure QLYQS_62
之间的蒸馏损失函数为:
Figure QLYQS_64
公式8
在上述两种知识蒸馏损失函数的基础上,总体多尺度知识蒸馏损失函数为:
Figure QLYQS_65
公式9
其中
Figure QLYQS_66
是第
Figure QLYQS_67
个尺度上的权重。
CN202310437274.6A 2023-04-23 2023-04-23 一种高效率三维图像分割方法 Pending CN116188509A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310437274.6A CN116188509A (zh) 2023-04-23 2023-04-23 一种高效率三维图像分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310437274.6A CN116188509A (zh) 2023-04-23 2023-04-23 一种高效率三维图像分割方法

Publications (1)

Publication Number Publication Date
CN116188509A true CN116188509A (zh) 2023-05-30

Family

ID=86449233

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310437274.6A Pending CN116188509A (zh) 2023-04-23 2023-04-23 一种高效率三维图像分割方法

Country Status (1)

Country Link
CN (1) CN116188509A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116825130A (zh) * 2023-08-24 2023-09-29 硕橙(厦门)科技有限公司 一种深度学习模型蒸馏方法、装置、设备及介质
CN117173200A (zh) * 2023-11-03 2023-12-05 成都数之联科技股份有限公司 一种图像分割方法、装置、设备和介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190205748A1 (en) * 2018-01-02 2019-07-04 International Business Machines Corporation Soft label generation for knowledge distillation
CN110414368A (zh) * 2019-07-04 2019-11-05 华中科技大学 一种基于知识蒸馏的无监督行人重识别方法
CN111091130A (zh) * 2019-12-13 2020-05-01 南京邮电大学 基于轻量级卷积神经网络的实时图像语义分割方法及系统
CN111798462A (zh) * 2020-06-30 2020-10-20 电子科技大学 一种基于ct图像的鼻咽癌放疗靶区自动勾画方法
CN112308019A (zh) * 2020-11-19 2021-02-02 中国人民解放军国防科技大学 基于网络剪枝和知识蒸馏的sar舰船目标检测方法
CN113449680A (zh) * 2021-07-15 2021-09-28 北京理工大学 一种基于知识蒸馏的多模小目标检测方法
CN115578353A (zh) * 2022-10-18 2023-01-06 中科(黑龙江)数字经济研究院有限公司 一种基于图流蒸馏的多模态医学影像分割方法及装置
CN115601723A (zh) * 2022-10-24 2023-01-13 成都信息工程大学(Cn) 基于改进ResNet的夜间热红外图像语义分割增强方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190205748A1 (en) * 2018-01-02 2019-07-04 International Business Machines Corporation Soft label generation for knowledge distillation
CN110414368A (zh) * 2019-07-04 2019-11-05 华中科技大学 一种基于知识蒸馏的无监督行人重识别方法
CN111091130A (zh) * 2019-12-13 2020-05-01 南京邮电大学 基于轻量级卷积神经网络的实时图像语义分割方法及系统
CN111798462A (zh) * 2020-06-30 2020-10-20 电子科技大学 一种基于ct图像的鼻咽癌放疗靶区自动勾画方法
CN112308019A (zh) * 2020-11-19 2021-02-02 中国人民解放军国防科技大学 基于网络剪枝和知识蒸馏的sar舰船目标检测方法
CN113449680A (zh) * 2021-07-15 2021-09-28 北京理工大学 一种基于知识蒸馏的多模小目标检测方法
CN115578353A (zh) * 2022-10-18 2023-01-06 中科(黑龙江)数字经济研究院有限公司 一种基于图流蒸馏的多模态医学影像分割方法及装置
CN115601723A (zh) * 2022-10-24 2023-01-13 成都信息工程大学(Cn) 基于改进ResNet的夜间热红外图像语义分割增强方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
梁新宇;罗晨;权冀川;肖铠鸿;高伟嘉;: "基于深度学习的图像语义分割技术研究进展", 计算机工程与应用, no. 02, pages 18 - 28 *
琚泽立;邢伟;金鸿鹏;徐方植;蒲路;侯?;: "基于轻量化网络的变电站缺陷图片检测算法", 电网与清洁能源, no. 08, pages 43 - 49 *
赵乾飞钟岚烽等: "用于腹部CT图像的基于轻量化网络和知识蒸馏的高效三维多器官分割方法", IEEE TRANSACTIONS ON MEDICAL IMAGING ( EARLY ACCESS ), pages 1 - 11 *
赵延: "基于知识蒸馏的3D心脏医学图像分割方法研究", 中国优秀硕士学位论文全文数据库, pages 006 - 914 *
郑凯;李建胜;: "基于深度神经网络的图像语义分割综述", 测绘与空间地理信息, no. 10, pages 119 - 125 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116825130A (zh) * 2023-08-24 2023-09-29 硕橙(厦门)科技有限公司 一种深度学习模型蒸馏方法、装置、设备及介质
CN116825130B (zh) * 2023-08-24 2023-11-21 硕橙(厦门)科技有限公司 一种深度学习模型蒸馏方法、装置、设备及介质
CN117173200A (zh) * 2023-11-03 2023-12-05 成都数之联科技股份有限公司 一种图像分割方法、装置、设备和介质
CN117173200B (zh) * 2023-11-03 2024-02-02 成都数之联科技股份有限公司 一种图像分割方法、装置、设备和介质

Similar Documents

Publication Publication Date Title
WO2022252272A1 (zh) 一种基于迁移学习的改进vgg16网络猪的身份识别方法
EP3678059B1 (en) Image processing method, image processing apparatus, and a neural network training method
WO2020200030A1 (zh) 神经网络的训练方法、图像处理方法、图像处理装置和存储介质
CN113096017B (zh) 基于深度坐标注意力网络模型的图像超分辨率重建方法
CN116188509A (zh) 一种高效率三维图像分割方法
CN110706214B (zh) 融合条件随机与残差的三维U-Net大脑肿瘤分割方法
CN112070768B (zh) 基于Anchor-Free的实时实例分割方法
CN111583285A (zh) 一种基于边缘关注策略的肝脏影像语义分割方法
CN110930378A (zh) 基于低数据需求的肺气肿影像处理方法及系统
CN115311194A (zh) 一种基于transformer和SE块的CT自动肝脏图像分割方法
CN116863194A (zh) 一种足溃疡图像分类方法、系统、设备及介质
CN113689545A (zh) 一种2d到3d端对端的超声或ct医学影像跨模态重建方法
CN116168197A (zh) 一种基于Transformer分割网络和正则化训练的图像分割方法
CN116309632A (zh) 基于多尺度级联特征注意策略的三维肝脏语义分割方法
CN118212415A (zh) 一种基于混合卷积和多尺度注意力门的图像分割方法
CN117237623B (zh) 一种无人机遥感图像语义分割方法及系统
CN113436224A (zh) 一种基于显式构图规则建模的智能图像裁剪方法及装置
CN116844039A (zh) 一种联合多注意的跨尺度遥感图像耕地提取方法
CN113689544B (zh) 一种跨视图几何约束的医学影像三维重建方法
CN114758190A (zh) 训练图像识别模型的方法、图像识别方法、装置和农机
Qian et al. A Hybrid Network Based on nnU-Net and Swin Transformer for Kidney Tumor Segmentation
CN118470048B (zh) 一种实时反馈的交互式树木图像抠图方法
LU102992B1 (en) Siamese network target tracking method based on channel and spatial attention mechanisms
CN115909045B (zh) 一种基于对比学习的two-stage滑坡图谱特征智能识别方法
CN117036893B (zh) 一种基于局部跨阶段和快速下采样的图像融合方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20230530