CN113222899B

CN113222899B - 一种基于深度学习通过ct检测分割分类肝脏肿瘤的方法

Info

Publication number: CN113222899B
Application number: CN202110404710.0A
Authority: CN
Inventors: 卜佳俊; 吴磊; 顾静军
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-04-15
Filing date: 2021-04-15
Publication date: 2022-09-30
Anticipated expiration: 2041-04-15
Also published as: CN113222899A

Abstract

一种通过CT的检测分割分类肝脏肿瘤的深度学习方法，包括：(1)对待预测的CT图像进行预处理，使其符合训练好的网络的输入要求；(2)使用训练好的模型对(1)中的待预测CT进行分割，得到最终的分割结果,包括：(21)将CT图像送入特征提取器提取特征；(22)将经特征提取器提取到的特征送入背景注意力模块，融合上下文信息与位置信息；(23)将融合了上下文信息与位置信息的特征图送入head模块，进一步整合多尺度的信息；(24)融合了多尺度信息的特征与特征提取器提取到的low‑level features结合，通过解码器模块还原为原图大小(C，512，512)，这即为最后的肿瘤分割结果。本发明利用肝脏CT图像的连续上下多层信息以及像素点的位置信息。

Description

一种基于深度学习通过CT检测分割分类肝脏肿瘤的方法

技术领域

本发明涉及一种通过CT的检测分割分类肝脏肿瘤的方法。

背景技术

肝脏是人体的重要器官，功能繁多。但是肝脏也是比较容易病变的器官，常见的就是各类肝脏结节，如肝细胞肝癌，囊肿，肝血管瘤等。肝脏的CT图像是检测肝脏病变部位的重要工具。但是，肝脏部位的图像环境十分复杂，肝脏内外的血管、肺部隔膜、心脏、胰腺和胃等都很容易造成误识别。传统的分割方法已经难以适应如此复杂的图像环境，深度学习等更加智能化的方法的优势逐渐凸显。

目前市面上最常见的深度学习方法都是基于U-Net，该网络简单易用，但是性能有限。也有诸多方法提出对U-Net网络结构的改造或者是训练方式上的改造。但是，这些方法存在几个方面的局限性，一是没有利用更多相邻层的上下文信息辅助检测，二是没有利用CT图像中各个像素点之间的位置关系。而这些信息对于防止模型对血管、胆囊等组织的误识别是至关重要的。

发明内容

本发明要克服现有的技术的上述不足，提供一种基于深度学习通过CT检测分割分类肝脏肿瘤的方法。本发明采用一种可以利用肝脏CT图像的连续上下多层信息和像素点的位置信息的肝脏结节的分割算法。

本发明通过以下方案来实现：

一种基于深度学习通过CT的检测分割分类肝脏肿瘤的方法，包括以下步骤：

步骤1.对待预测的CT图像进行预处理，使其符合训练好的网络的输入要求；

步骤2.使用训练好的模型对(1)中的待预测CT进行分割，得到最终的分割结果，具体包括：

每一例CT由M张图像组成，其中每一张为大小为(W，H)的矩阵，即每一例CT图像的规格为(M，W，H)；由于经过预训练的卷积神经网络(CNN)用作特征提取器时的输入图像为3通道，即输入的矩阵规格为(3，W，H)，因此，在预测CT中的第i张图像时，会利用CT的第i-1和第i+1张图像与第i张图像拼接在一起，组成(3，W，H)的矩阵；为了使得模型能够捕捉到更加丰富的上下文信息，在预测第i张图像时，会使用连续的N张图像作为输入辅助预测，N可以取1，3，5，7，9；因此送入特征提取器的输入规格为(N，3，W，H)，将此输入记作contextinput，即上下文输入,而将需要预测的第i张图像记作key input；

context input经过特征提取器后得到一个规格(N，1024，W/32，H/32)的特征图，记为context features；key input经过特征提取器后得到一个规格为(1024，W/32，H/32)的特征图，记为key features，一个(256，W/4，H/4)的特征图，记为low-level features；

(22)将经特征提取器提取到的特征送入背景注意力模块，融合上下文信息与位置信息；背景注意力模块记为Context attention，通过目标层的上下层所组成上下文，像素点的位置来过滤和修正提取到的特征信息，得到融合了上下文信息与位置信息的特征图；

(23)将融合了上下文信息与位置信息的特征图送入head模块，进一步整合多尺度的信息；

(24)融合了多尺度信息的特征与特征提取器提取到的low-level features结合，通过解码器模块，记为decoder，还原为原图大小(C，512，512)，这即为最后的肿瘤分割结果，其中C为肿瘤类别数目，即肝结节类别数量。

本发明的优点是：弥补了市面上大部分基于U-Net的分割算法的缺陷，可以利用肝脏CT图像的连续上下多层信息以及像素点的位置信息，从而实现表现优异的分割结果。

附图说明

图1是本发明方法的算法模型的整体设计图；

图2是本发明的背景注意力模块(context attention)的结构示意图；

图3是本发明的层间注意力模块(slice attention)的结构示意图；

图4是本发明的空间注意力模块(spatial attention)的结构示意图。

具体实施方式

下面结合实例对本发明进行进一步说明。

步骤(1)中的预处理过程会将CT图像的HU值剪切为[-55,155]，并对其进行归一化，归一化到[-1,1]。将预处理后的CT图像送入步骤(2)中的分割模型进行预测，该预测过程具体包括以下步骤：

(1)将CT图像送入特征提取器提取特征。具体说明如下：

每一例CT由M张图像组成，其中每一张为大小为(W，H)的矩阵，即每一例CT图像的规格为(M，W，H)。由于经过预训练的卷积神经网络(CNN)用作特征提取器时的输入图像为3通道，即输入的矩阵规格为(3，W，H)，因此，在预测CT中的第i张图像时，会利用CT的第i-1和第i+1张图像与第i张图像拼接在一起，组成(3，W，H)的矩阵。本发明中，为了使得模型能够捕捉到更加丰富的上下文信息，在预测第i张图像时，会使用连续的N张图像作为输入辅助预测，N可以取1，3，5，7，9。因此送入特征提取器的输入规格为(N，3，W，H)，本发明中将此输入记作context input，即上下文输入。而将需要预测的第i张图像记作key input。

context input经过特征提取器后得到一个规格(N，1024，W/32，H/32)的特征图，记为context features。key input经过特征提取器后得到一个规格为(1024，W/32，H/32)的特征图，记为key features，一个(256，W/4，H/4)的特征图，记为low-level features。

(2)将经特征提取器提取到的特征送入背景注意力模块，融合上下文信息与位置信息。背景注意力模块是本发明的核心组件，记为Context attention。它会通过目标层的上下层所组成上下文，像素点的位置来过滤和修正提取到的特征信息，得到融合了上下文信息与位置信息的特征图。

(3)将融合了上下文信息与位置信息的特征图送入head模块，进一步整合多尺度的信息。

(4)融合了多尺度信息的特征与特征提取器提取到的low-level features结合，通过解码器模块，记为decoder，还原为原图大小(C，512，512)，这即为最后的肿瘤分割结果，其中C为肿瘤类别数目，即肝结节类别数量。

下面对本模型中的各个模块进行进一步说明：

所述的特征提取器可以采用任意的卷积神经网络(CNN)。比如resnet-50或者dla102x等。则特征提取器提取到的特征表示为：

f_{key_low},f_key＝CNN(I_key) (1)

f_ctx＝CNN(I_ctx) (2)

所述的背景注意力模块(context attention)主要由三部分组成，位置编码器(positional embedding)，负责给每个像素点产生一个位置编码；层间注意力(sliceattention)负责将相邻层的信息整合起来。空间注意力(spatial attention)结合位置编码，筛选和整合各个像素点的信息。其具体计算过程为：

首先计算层间的注意力：

x1＇＝SA(f_key,f_ctx,f_ctx)+f_key (3)

x1＝BN(x1＇) (4)

计算空间注意力：

x2＇＝SPA((x1+pos),(f_ctx+pos),f_ctx)+x1 (5)

x2＝BN(x2＇) (6)

该模块的输出结果为：

f_ca＝ReLU(x1+x2) (7)

所述的层间注意力(slice attention)表示为：

O_SA＝SA(Q,K,V) (8)

所述的空间注意力(spatial attention)表示为：

O_SPA＝SPA(Q,K,V) (9)

接下来，位置信息编码：

pos＝Position(f_key) (10)

其中，(x,y)是需要预测的关键帧的特征key feature中的某一点的坐标，i的取值范围为[0,D/2)，D是key feature的通道数。

计算slice attention，具体计算如下：

q_sa＝GlobalAvg(conv2d(Q)) (15)

k_sa＝GlobalAvg(conv2d(K)) (16)

O_SA＝ReLU(BN(cond2d(c_sa))) (19)

首先，输入q，k，v都需要各自经过一个kernel为1，stride为1的2D卷积层conv2d，之后计算出相似度，通过softmax计算出各层的权重α，之后使用加权和将各层特征相加。

空间注意力的具体方式如下：

q_spa＝conv2d(Q) (20)

k_spa＝conv2d(K) (21)

O_SPA＝ReLU(BN(cond2d(c_spa))) (25)

和slice attention一样，也是Q，K，V先各自经过一个2D的卷积网络conv2d，其中(l,h)为key feature的大小，(i,j)为context feature的大小，n是context feature的层数，实际上在该模型中，l＝h＝i＝j,n＝N，但是为了区分，给了不同的代号。之后再W和H的平面上计算权重，并与V做加权和。

所述的head模块可以采用ASPP模块(Rethinking Atrous Convolution forSemantic Image Segmentation.Liang-Chieh Chen,George Papandreou,FlorianSchroff,Hartwig Adam)。ASPP模块对所给定的输入以不同采样率的空洞卷积并行采样，相当于以多个比例捕捉图像的上下文。

本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims

1.一种通过CT的检测分割分类肝脏肿瘤的深度学习方法，包括以下步骤：

(1)对待预测的CT图像进行预处理，使其符合训练好的网络的输入要求；

(2)使用训练好的模型对(1)中的待预测CT进行分割，得到最终的分割结果,预测过程具体包括：

(21)将CT图像送入特征提取器提取特征；具体包括：

每一例CT由M张图像组成，其中每一张为大小为(W，H)的矩阵，即每一例CT图像的规格为(M，W，H)；由于经过预训练的卷积神经网络CNN用作特征提取器时的输入图像为3通道，即输入的矩阵规格为(3，W，H)，因此，在预测CT中的第i张图像时，会利用CT的第i-1和第i+1张图像与第i张图像拼接在一起，组成(3，W，H)的矩阵；为了使得模型能够捕捉到更加丰富的上下文信息，在预测第i张图像时，会使用连续的N张图像作为输入辅助预测，N可以取1，3，5，7，9；因此送入特征提取器的输入规格为(N，3，W，H)，将此输入记作context input，即上下文输入,而将需要预测的第i张图像记作key input；

(22)将经特征提取器提取到的特征送入背景注意力模块，融合上下文信息与位置信息；背景注意力模块记为Context attention，通过目标层的上下层所组成上下文，像素点的位置来过滤和修正提取到的特征信息，得到融合了上下文信息与位置信息的特征图；所述背景注意力模块由三部分组成：位置编码器即positional embedding，负责给每个像素点产生一个位置编码；层间注意力即slice attention，负责将相邻层的信息整合起来；空间注意力即spatial attention，结合位置编码，筛选和整合各个像素点的信息；其具体计算过程为：

首先计算层间的注意力：

x1＇＝SA(f_key,f_ctx,f_ctx)+f_xey (3)

x1＝BN(x1＇) (4)

计算空间注意力：

x2＇＝SPA((x1+pos),(f_ctx+pos),f_ctx)+x1 (5)

x2＝BN(x2＇) (6)

该模块的输出结果为：

f_ca＝ReLU(x1+x2) (7)

所述的层间注意力表示为：

O_SA＝SA(Q,K,V) (8)

所述的空间注意力表示为：

O_SPA＝SPA(Q,K,V) (9)

接下来，位置信息编码：

pos＝Position(f_key) (10)

其中，(x,y)是需要预测的关键帧的特征key feature中的某一点的坐标，i的取值范围为[0,D/2)，D是key feature的通道数；

计算slice attention，具体计算如下：

q_sa＝GlobalAvg(conv2d(Q)) (15)

k_sa＝GlobalAvg(conv2d(K)) (16)

O_SA＝ReLU(BN(cond2d(c_sa))) (19)

首先，输入q，k，v都需要各自经过一个kernel为1，stride为1的2D卷积层conv2d，之后计算出相似度，通过softmax计算出各层的权重α，之后使用加权和将各层特征相加；

空间注意力的具体方式如下：

q_spa＝conv2d(Q) (20)

k_spa＝conv2d(K) (21)

O_SPA＝ReLU(BN(cond2d(c_spa))) (25)

和slice attention一样，也是Q，K，V先各自经过一个2D的卷积网络conv2d，其中(l,h)为key feature的大小，(i,j)为context feature的大小，n是context feature的层数，实际上在该模型中，l＝h＝i＝j,n＝N，但是为了区分，给了不同的代号；之后再W和H的平面上计算权重，并与V做加权和；

2.如权利要求1所述的通过CT的检测分割分类肝脏肿瘤的深度学习方法，其特征在于：所述的特征提取器可以采用任意的卷积神经网络CNN；则特征提取器提取到的特征表示为：

f_{key_low},f_key＝CNN(I_key) (1)

f_ctx＝CNN(I_ctx) (2)。

3.如权利要求1所述的通过CT的检测分割分类肝脏肿瘤的深度学习方法，其特征在于：所述的head模块可以采用ASPP模块；ASPP模块对所给定的输入以不同采样率的空洞卷积并行采样，相当于以多个比例捕捉图像的上下文。