CN116758102A

CN116758102A - 一种基于CNN与Transformer的超声图像分割方法

Info

Publication number: CN116758102A
Application number: CN202310921204.8A
Authority: CN
Inventors: 宋艳涛; 路云里
Original assignee: Shanxi University
Current assignee: Shanxi University
Priority date: 2023-07-26
Filing date: 2023-07-26
Publication date: 2023-09-15

Abstract

本发明一种基于CNN与Transformer的超声图像分割方法，属于医学图像分割技术领域。解决超声图像分割精度低、鲁棒性不强的问题。技术方案：获取原始超声图像；将原始超声图像通过图像Unet编码器获取特征图；将原始超声图像通过图像SwinT编码器获取特征图进行输入图像序列化在随后的Swin‑Transformer块中；对两个通道的特征图进行特征融合经过Swin‑T编码器与U‑Net编码器进行特征提取后，得到了不同尺度的的特征，将不同层级不同模块的特征进行深度融合；将得到逐层的特征与得到的融合底层特征与解码器结合与U‑Net编码器模块对应层次所提取的特征进行拼接与双层卷积，批归一化与激活操作，得到分割结果。本发明具有超声图像分割精度高、鲁棒性强等优点。

Description

一种基于CNN与Transformer的超声图像分割方法

技术领域

本发明属于医学影像分割技术领域，具体涉及一种基于CNN与Transformer的超声图像分割方法。

背景技术

超声影像是一种利用超声设备发射超声波并接收人体反射信号，经过处理后得到人体内部器官图像的技术，它具有无创伤、无放射、便捷、低成本等优势。超声影像在医学影像中占据了很大的比例，约占医学影像设备总保有量的74.44％，在心脏病学、妇产科、肿瘤学、神经科等领域有着广泛的应用，对于疾病的诊断和治疗起着关键的作用。然而，由于超声影像的特点，如低对比度、噪声干扰以及疾病在形态、大小和位置上的多样性，使得从超声图像中准确地提取出感兴趣的区域仍然是一个难题。目前超声影像的识别与分割主要依赖于经验丰富的医生，因此开发一种能够自动分割超声图像的算法具有很大的实用价值和现实意义。

目前主流的医学影像分割方法主要包括基于阈值的分割、基于区域的分割、基于边缘的分割以及基于深度学习的分割四大类。

其中，基于阈值的分割方法是一种简单而有效的方法，它根据图像中像素的灰度值或颜色值来划分图像，但是对于图像中灰度值或颜色值不均匀或存在噪声的情况，效果较差；

基于区域的分割方法是一种根据图像中像素之间的相似性或连通性来划分图像的方法，它可以处理图像中灰度值或颜色值不均匀或存在噪声的情况，但是对于图像中存在复杂背景或目标边界不清晰的情况，效果较差；

基于边缘的分割方法是一种根据图像中目标与背景之间的灰度值或颜色值变化来检测目标边界的方法，它可以处理图像中存在复杂背景或目标边界不清晰的情况，但是对于图像中存在噪声或目标边界不连续的情况，效果较差；

基于深度学习的分割方法是一种利用深度神经网络来学习图像中目标与背景之间的特征表示，并根据特征表示来预测每个像素属于目标还是背景的方法，其中卷积神经网络被广泛应用于医学图像分割，但是卷积神经网络对于图像中的噪声、伪影、低对比度等因素非常敏感，这些因素会影响卷积神经网络提取图像特征的能力，从而降低分割的精度和鲁棒性。

发明内容

本发明的目的是为解决上述现有技术中存在的超声图像分割精度低、对噪声、伪影、低对比度等因素非常敏感的问题，而提供一种基于CNN与Transformer的超声图像分割方法。

为实现上述目的，本发明所采用的技术方案是：将传统卷积操作和自注意力机制相结合，充分利用两者在提取特征和捕捉全局依赖方面的优势，从而提出了一种基于CNN与Transformer的超声图像分割方法。

其中：包括以下步骤：

(1)获取超声图像；

其中，所述原始图像序列获取方法：通过医学超声影像设备来获得一张医学图像X，具有H×W的空间分辨率和C个通道。

(2)将原始超声图像通过图像Unet编码器获取特征图；

在U-Net编码器中，编码器由多个卷积层和池化层组成，用于提取图像的特征。图像送入编码器中后，每经过一个池化层，图像的分辨率就会减半，特征的通道数就会加倍。编码器的输出是一个低分辨率高通道数的特征图。

编码器的作用是逐层提取图像特征，其结构分为4个阶段，每个阶段包含两个3×3卷积、批归一化与激活和一个以2×2最大池化实现的下采样层。每经过一个阶段，输出特征图尺度缩小一半，通道维度加倍。在经过U-net编码器进行特征提取后，特征向量的维度变为H/16×W/16×1024。

(3)将原始超声图像通过图像SwinT编码器获取特征图进行输入图像序列化，补丁分割会通过卷积操作将输入图像X分解为大小为P×P的N个图像块并将其展平为序列

之后在线性嵌入层会通过卷积操作对做线性变换，将其映射到维度为C的空间中去。

在随后的Swin-Transformer块中，包含窗口自注意力和滑动窗口自注意力两个模块，通过这两个模块可以得到：

其中与x^l表示第l层窗口自注意力模块和多层感知机模块的输出，/>与x^l+1为l+1层滑动窗口自注意力模块与多层感知机模块的输出，LN为层归一化。经过四阶段堆叠的SwinT模块，最终得到了超声图像的特征图。

(4)对步骤(2)(3)两个通道的特征图进行特征融合经过Swin-T编码器与U-Net编码器进行特征提取后，得到了两个的特征图，通过GDFF模块将两个途径所得到的特征进行深度融合。该模块的具体公式如下：

F_conv＝DC(TP(F_Swin-T)) (5)

F_fuse＝G(Convcat(F_conv,F_U-net)) (6)

其中DC表示两层卷积，批量归一化以及激活，TP表示转置卷积模块，G表示门控机制，x_sw与x_u分别为Swin-T编码器与U-Net编码器所提取出的不同尺度的特征；

(5)将步骤(2)得到逐层的特征与步骤(4)得到的融合底层特征与解码器结合，在解码过程中，首先将门控卷积特征融合模块所提取出的特征与经过上采样的Swin-T编码器所提取到的特征，通过转置卷积进行×2上采样将特征维度转换为与U-Net编码器模块对应层次所提取的特征进行拼接与双层卷积，批归一化与激活操作。在得到本层级的输出之后，下一层解码器会再次将上一层的特征与Swin-T编码器进行上采样操作，再次与对应层次的U-Net编码器模块进行拼接并卷积。这样在之后的三个阶段中，就会分别得到维度为/>以及H×W×64的特征向量，之后在经过两次3×3卷积，得到最后维度为H×W×1的分割预测结果。

本发明是一种基于深度学习的超声图像分割方法，能够有效地识别和提取超声图像中的感兴趣区域，如胎儿、胎盘、肿瘤等。与现有的基于阈值、边缘、区域生长等技术相比，本发明具有以下优点：(1)超声图像分割精度高，能够准确地划分出目标区域的边界，避免了过分割或欠分割的问题；(2)鲁棒性强，能够适应不同的超声图像质量、噪声、对比度等因素的变化，保证了分割结果的稳定性和一致性；(3)计算效率高，利用深度学习模型的并行计算能力，能够快速地处理大量的超声图像数据，满足临床应用的需求。

附图说明

图1是本发明一种基于CNN与Transformer的超声图像分割方法的流程图。

图2是本发明GDFF特征融合方法的流程图。

具体实施方式

如图1、图2所示，本实施一种基于CNN与Transformer的超声图像分割方法，包括以下步骤：

(1)获取超声图像；

(2)将原始超声图像通过图像Unet编码器获取特征图；

F_conv＝DC(TP(F_Swin-T)) (5)

F_fuse＝G(Concat(F_conv,F_U-net)) (6)

Claims

1.一种基于CNN与Transformer的超声图像分割方法，其特征是：包括以下步骤：

(1)获取超声图像；

其中，所述原始图像序列获取方法：通过医学超声影像设备来获得一张医学图像X，具有H×W的空间分辨率和C个通道；

(2)将原始超声图像通过图像Unet编码器获取特征图；

在U-Net编码器中，编码器由多个卷积层和池化层组成，用于提取图像的特征；图像送入编码器中后，每经过一个池化层，图像的分辨率就会减半，特征的通道数就会加倍；编码器的输出是一个低分辨率高通道数的特征图；

(3)将原始超声图像通过图像SwinT编码器获取特征图进行输入图像序列化在随后的Swin-Transformer块中，包含窗口自注意力和滑动窗口自注意力两个模块，通过这两个模块可以得到：

其中与x^l表示第l层窗口自注意力模块和多层感知机模块的输出，/>与x^l+1为l+1层滑动窗口自注意力模块与多层感知机模块的输出，LN为层归一化。经过四阶段堆叠的SwinT模块，最终得到了超声图像的特征图；

(4)对步骤(2)(3)两个通道的特征图进行特征融合经过Swin-T编码器与U-Net编码器进行特征提取后，得到了不同尺度的的特征，通过GDFF模块将不同层级不同模块的特征进行深度融合，GDFF模块公式如下：

F_conv＝DC(TP(F_swin-T)) (5)

F_fuse＝G(Concat(F_conv,F_U-net)) (6)

(5)将步骤(2)得到逐层的特征与步骤(4)得到的融合底层特征与解码器结合与U-Net编码器模块对应层次所提取的特征进行拼接与双层卷积，批归一化与激活操作。在得到本层级的输出之后，下一层解码器会再次将上一层的特征与Swin-T编码器进行上采样操作，再次与对应层次的U-Net编码器模块进行拼接并卷积，之后在经过两次3×3卷积，得到结果。