CN115439470B

CN115439470B - 息肉图像分割方法、计算机可读存储介质及计算机设备

Info

Publication number: CN115439470B
Application number: CN202211261125.0A
Authority: CN
Inventors: 施连焘; 李正国; 王玉峰; 李建阳
Original assignee: Shenzhen Polytechnic
Current assignee: Shenzhen Vocational And Technical University
Priority date: 2022-10-14
Filing date: 2022-10-14
Publication date: 2023-05-26
Anticipated expiration: 2042-10-14
Also published as: CN115439470A

Abstract

本申请提供了一种息肉图像分割方法、计算机可读存储介质及计算机设备，包括：将待分割的息肉图像输入到多尺度语义融合模型，得到语义信息图像，再将语义信息图像经过下采样得到下采样后的语义信息图像，重新将下采样后的语义信息图像输入到多尺度语义融合模型后再进行下采样，多次重复，获得高维的语义信息图像；将高维的语义信息图像输入到上下文感知金字塔聚合模型，输出融合后的特征图，将融合后的特征图进行上采样后再通过卷积提取特征，重新将特征提取后的特征图进行上采样后再通过卷积提取特征，多次重复，直到获得与所述待分割的息肉图像通道尺寸相同的最终的特征图。可以适应息肉变化实现精准息肉分割。

Description

息肉图像分割方法、计算机可读存储介质及计算机设备

技术领域

本申请属于图像分割领域，尤其涉及一种息肉图像分割方法、计算机可读存储介质及计算机设备。

背景技术

结直肠癌是在最早期主要表现形式是肠道内所形成的息肉(肠胃通道内隆起的肿块)经过长时间以及诸多原因发展导致结直肠癌，如果能够在早期进行干预发现和切除息肉，直肠癌是可以被预防的，那么最为有效的筛查和诊断结直肠癌的方法是结直肠内窥镜检查也是目前最为主流诊断准确率最高的方法。

然而，当前的诊断方式虽然先进和准确依旧存在一些问题，根据一些专业的研究报道，在内窥镜检查的过程中每四个息肉就会遗漏掉一个导致切除不干净留下隐患，另外息肉的形状大小不一且多变，难以通过肉眼进行每一个精细地判断，尤其在一些息肉与肠胃通道背景差异不大的情况下，最后就是不能够进行快速识别纯靠人为是需要大量的时间精力和判断在当前医疗系统之下需要增加消化科医生大量的工作量进行。

发明内容

本申请的目的在于提供一种息肉图像分割方法、计算机可读存储介质及计算机设备，旨在解决内窥镜检查息肉会遗漏掉导致切除不干净留下隐患的问题。

第一方面，本申请提供了一种息肉图像分割方法，包括：

获取待分割的息肉图像；

将待分割的息肉图像输入到多尺度语义融合模型，得到语义信息图像，再将语义信息图像经过下采样得到下采样后的语义信息图像，重新将下采样后的语义信息图像输入到多尺度语义融合模型后再进行下采样，多次重复，获得高维的语义信息图像；所述多尺度语义融合模型为将待分割的息肉图像通过特征提取得到与待分割的息肉图像尺寸相同的初始特征图，将初始特征图分成4个通道数量相等的特征图，选择其中3个特征图经由卷积和批量正则化算法后与剩余的一个特征图依次以通道维度进行拼接，经由残差连接拼接后得到的特征图再与待分割的息肉图像进行融合，得到语义信息图像；

将高维的语义信息图像输入到上下文感知金字塔聚合模型，输出融合后的特征图，将融合后的特征图进行上采样后再通过卷积提取特征，重新将特征提取后的特征图进行上采样后再通过卷积提取特征，多次重复，直到获得与所述待分割的息肉图像通道尺寸相同的最终的特征图；

所述上下文感知金字塔聚合模型为将输入的高维的语义信息图像进行多个不同尺度的池化操作，提取四个通道数不变、分辨率不同的特征图，将四个特征图降维后再依次进行上采样，得到与高维的语义信息图像尺寸相同的上采样后的特征图，将上采样后的特征图以通道维度进行拼接，得到拼接后的特征图；将拼接后的特征图采用卷积进行通道维度的降维，再利用Sigmoid激活函数得到注意力权重图，将注意力权重图进行注意力矩阵乘法运算，重塑拼接后的特征图的权值，得到基于空间注意力机制的特征图；将拼接后的特征图进行特征提取后输入到通道注意力机制中，得到通道权重，得到基于通道注意力机制的特征图；将基于空间注意力机制的特征图与基于通道注意力机制的特征图进行融合，得到融合后的特征图。

进一步地，所述多尺度语义融合模型的具体流程为：

定义待分割的息肉图像X为：X∈R^C×H×W，将待分割的息肉图像通过W₁(·)进行特征提取，得到一个与待分割的息肉图像尺寸相同的初始特征图X′为：X′∈R^C×H×W；

所述W₁(·)包括1×1的卷积、批量正则化算法和ReLU非线性激活函数；

根据通道维度将初始特征图X′∈R^C×H×W分成4个通道数量相同的特征图

将其中3个特征图X₁，X₂，X₃经由W₂(·)进行转变，将转变后的特征图W₂(X₁),W₂(X₂),W₂(X₃)与剩余的一个特征图X₀依次以通道维度进行拼接，得到与待分割的息肉图像通道数量一致的拼接后的特征图X_Cat，即：

X_Cat＝CONCAT(W₂(X₁),W₂(X₂),W₂(X₃),X₀)；

所述W₂(·)包括3×3卷积和批量正则化算法；

由残差连接拼接后的特征图，再与待分割的息肉图像进行融合，输出语义信息图像X_Out，即：

其中，R代表三维数组图像，C，H和W分别表示图像的通道数，长度和宽度；

表示像素级别的加法求和运算，CONCAT表示通道维度上的拼接；W₃(·)包括1×1的卷积、批量正则化算法和ReLU非线性激活函数。

进一步地，所述上下文感知金字塔聚合模型包括上下文感知融合模型和注意力校正模型。

进一步地，所述上下文感知融合模型的具体操作流程为：

定义输入的高维的语义信息图像D为D∈R^C×H×W，使用多个不同尺度的池化操作，提取四个通道数不变、分辨率不同的特征图，分别为：D₀∈R^C×6×6，D₁∈R^C×3×3，D₂∈R^C×2×2和D₃∈R^C×1×1；

将四个特征图经过1×1的卷积、批量正则化算法和ReLU非线性激活函数分别进行降维，将通道数压缩至四分之一，即：

和

再将降维后的特征图进行上采样，得到与高维的语义信息图像D尺寸相同的上采样后的特征图D″_i，即：

D″_i＝(Up(D′_i,β_i))；

将上采样后的特征图以通道维度进行拼接，得到拼接后的特征图D_Cat，即：

D_Cat＝CONCAT(D″₀,D″₁,D″₂,D″₃)；

其中，

i代表自然数，β_i表示相关系数，Up为常规的双线性插值上采样，CONCAT为通道维度上的拼接。

进一步地，所述注意力校正模型的具体操作流程为：

将拼接后的特征图采用1×1卷积进行通道维度的降维，再经过Sigmoid激活函数得到注意力权重图，将注意力权重图进行注意力矩阵乘法运算，重塑拼接后的特征图的权值，建模空间注意力机制，得到基于空间注意力机制的特征图D_Spatial，即：

其中，

表示注意力矩阵的乘法运算，σ(·)是Sigmiod激活函数，S₀代表1×1卷积操作，α是与S₀相关的系数；

将拼接后的特征图进行特征提取得到提取后的特征图，将提取后的特征图输入到通道注意力机制中，得到通道权重，和基于通道注意力机制的特征图，即：

其中，F_Adaptive(i)能采用不同的卷积核大小局部地实现跨通道信息交互，G(i)表示全局平均池化

H′，W′指的是像素空间坐标，D_channel代表通道维度注意力机制，i，j代表自然数，θ是G(i)的相关系数；

将基于空间注意力机制的特征图与基于通道注意力机制的特征图进行融合，得到融合后的特征图D_Out，即：

第二方面，本申请提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现所述的息肉图像分割方法的步骤。

第三方面，本申请提供了一种计算机设备，包括：一个或多个处理器、存储器以及一个或多个计算机程序，所述处理器和所述存储器通过总线连接，其中所述一个或多个计算机程序被存储在所述存储器中，并且被配置成由所述一个或多个处理器执行，所述处理器执行所述计算机程序时实现所述的息肉图像分割方法的步骤。

在本申请中，设计了多尺度语义融合模型，通过多种滤波器去收集不同尺度的语义信息图像来提升表征能力，从而适应息肉尺寸变化，尤其是对较小的息肉，内部采用了更细粒度级别，通过使用不同尺度的卷积核来进行特征提取从而实现增大网络的感受野；设计了上下文感知金字塔聚合模型，引导不同区域的特征信息进行融合，内部包含双重注意力机制，进一步强化重要特征，高效的抑制非重要区域的特征，实现精准息肉分割并兼顾实时性。

附图说明

图1是本申请一实施例提供的一种息肉图像分割方法的流程图。

图2是本申请一实施例提供的另一种息肉图像分割方法的流程图。

图3是本申请一实施例提供的多尺度语义融合模型的流程图。

图4是本申请一实施例提供的上下文感知融合模型的流程图。

图5是本申请一实施例提供的注意力校正模型的流程图。

图6是本申请一实施例提供的与当前先进的息肉图像分割方法对比的数据分析表格。

图7是本申请一实施例提供的计算机设备的具体结构框图。

具体实施方式

为了使本申请的目的、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

为了说明本申请所述的技术方案，下面通过具体实施例来进行说明。

请参阅图1，本申请一实施例提供的息肉图像分割方法包括以下步骤：需注意的是，若有实质上相同的结果，本申请的息肉图像分割方法并不以图1所示的流程顺序为限。

S101、获取待分割的息肉图像；

S102、将待分割的息肉图像输入到多尺度语义融合模型，得到语义信息图像，再将语义信息图像经过下采样得到下采样后的语义信息图像，重新将下采样后的语义信息图像输入到多尺度语义融合模型后再进行下采样，多次重复，获得高维的语义信息图像；所述多尺度语义融合模型为将待分割的息肉图像通过特征提取得到与待分割的息肉图像尺寸相同的初始特征图，将初始特征图分成4个通道数量相等的特征图，选择其中3个特征图经由卷积和批量正则化算法后与剩余的一个特征图依次以通道维度进行拼接，经由残差连接拼接后得到的特征图再与待分割的息肉图像进行融合，得到语义信息图像；

S103、将高维的语义信息图像输入到上下文感知金字塔聚合模型，输出融合后的特征图，将融合后的特征图进行上采样后再通过卷积提取特征，重新将特征提取后的特征图进行上采样后再通过卷积提取特征，多次重复，直到获得与所述待分割的息肉图像通道尺寸相同的最终的特征图；

S104、所述上下文感知金字塔聚合模型为将输入的高维的语义信息图像进行多个不同尺度的池化操作，提取四个通道数不变、分辨率不同的特征图，将四个特征图降维后再依次进行上采样，得到与高维的语义信息图像尺寸相同的上采样后的特征图，将上采样后的特征图以通道维度进行拼接，得到拼接后的特征图；将拼接后的特征图采用卷积进行通道维度的降维，再利用Sigmoid激活函数得到注意力权重图，将注意力权重图进行注意力矩阵乘法运算，重塑拼接后的特征图的权值，得到基于空间注意力机制的特征图；将拼接后的特征图进行特征提取后输入到通道注意力机制中，得到通道权重，得到基于通道注意力机制的特征图；将基于空间注意力机制的特征图与基于通道注意力机制的特征图进行融合，得到融合后的特征图。

参阅图2，001代表多尺度语义融合模型，002代表下采样，003代表上下文感知金字塔聚合模型，004代表上采样；CAF代表上下文感知融合模型，APO代表注意力校正模型；005代表卷积特征提取；左右两边对称，左边区域为编码区，右边为解码区，折线箭头代表跳跃连接操作。

请参阅图3，在本申请一实施例中，所述多尺度语义融合模型(即MSFM)的具体流程为：

定义待分割的息肉图像X为：X∈R^C×H×W，将待分割的息肉图像通过W₁(i)进行特征提取，得到一个与待分割的息肉图像尺寸相同的初始特征图X′为：X′∈R^C×H×W；

所述W₁(i)包括1×1的卷积、批量正则化算法和ReLU非线性激活函数；

X_Cat＝CONCAT(W₂(X₁),W₂(X₂),W₂(X₃),X₀)；

所述W₂(·)包括3×3卷积和批量正则化算法；

在本申请一实施例中，所述上下文感知金字塔聚合模型(即CPAM)包括上下文感知融合模型和注意力校正模型。

在本申请一实施例中，所述上下文感知融合模型的具体操作流程为：

和

D″_i＝(Up(D′_i,β_i))；

D_Cat＝CONCAT(D″₀,D″₁,D″₂,D″₃)；

其中，

请参阅图4，图中CBR代表1×1的卷积、批量正则化算法和ReLU非线性激活函数。

在本申请一实施例中，请参阅图5，所述注意力校正模型的具体操作流程为：

其中，

其中，F_Adaptive(·)能采用不同的卷积核大小局部地实现跨通道信息交互，G(·)表示全局平均池化

H′，W′指的是像素空间坐标，D_channel代表通道维度注意力机制，i，j代表自然数，θ是G(·)的相关系数；

图6是本申请一实施例提供的与当前先进的息肉图像分割方法的对比的数据分析表格，可以更直观的展示各类性能指标。

本申请一实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如本申请一实施例提供的息肉图像分割方法的步骤。

图7示出了本申请一实施例提供的计算机设备的具体结构框图，一种计算机设备100包括：一个或多个处理器101、存储器102、以及一个或多个计算机程序，其中所述处理器101和所述存储器102通过总线连接，所述一个或多个计算机程序被存储在所述存储器102中，并且被配置成由所述一个或多个处理器101执行，所述处理器101执行所述计算机程序时实现如本申请一实施例提供的息肉图像分割方法的步骤。

计算机设备包括服务器和终端等。该计算机设备可以是台式计算机、移动终端或车载设备，移动终端包括手机、平板电脑、个人数字助理或可穿戴设备等中的至少一种。

在本申请实施例中，设计了多尺度语义融合模型，通过多种滤波器去收集不同尺度的语义信息图像来提升表征能力，从而适应息肉尺寸变化，尤其是对较小的息肉，内部采用了更细粒度级别，通过使用不同尺度的卷积核来进行特征提取从而实现增大网络的感受野；设计了上下文感知金字塔聚合模型，引导不同区域的特征信息进行融合，内部包含双重注意力机制，进一步强化重要特征，高效的抑制非重要区域的特征，实现精准息肉分割并兼顾实时性。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，RandomAccess Memory)、磁盘或光盘等。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本申请的保护范围之内。