CN116824139A

CN116824139A - 一种基于边界监督和时序关联的内窥镜息肉分割方法

Info

Publication number: CN116824139A
Application number: CN202310709572.6A
Authority: CN
Inventors: 韩军伟; 史航飞; 杨乐; 张鼎文; 韩龙飞; 黄培亮
Original assignee: Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Current assignee: Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Priority date: 2023-06-14
Filing date: 2023-06-14
Publication date: 2023-09-29
Anticipated expiration: 2043-06-14
Also published as: CN116824139B

Abstract

本发明公开了一种基于边界监督和时序关联的内窥镜息肉分割方法，包括获取内窥镜息肉视频数据生成mask标签，同时形成数据集；构建内窥镜息肉分割模型；将数据集输入内窥镜息肉分割模型进行训练并得到预测分割结果，再根据mask标签计算损失函数，同时利用AdamW优化器优化模型参数，进行优化后得到内窥镜息肉分割模型，并进行模型部署；实时获取内窥镜息肉图像数据，并输入模型中，得到内窥镜息肉分割结果，确定息肉位置辅助诊断。本发明通过边界监督模块来约束息肉边界部分的分割，可以有效改善模型在息肉边界处分割的性能，通过时序关联模块关联视频息肉分割任务中的时序信息，利用之前的分割信息来辅助当前帧的息肉分割，提升了视频息肉分割的性能。

Description

一种基于边界监督和时序关联的内窥镜息肉分割方法

技术领域

本发明涉及医学图像分割处理技术领域，特别涉及一种基于边界监督和时序关联的内窥镜息肉分割方法。

背景技术

结直肠癌发病率多年来位居癌症发病率的世界第三，已严重危害人民生命健康。当前预防结直肠癌最有效的方式就是定期进行内窥镜检查并及时进行息肉切除手术。计算机辅助检测系统可以实时地在内窥镜视频中显示息肉的位置，辅助内窥镜医生进行诊断，从而可以减少息肉被漏诊或误诊的概率。近年来，利用深度学习进行医学图像分割和语义分割任务取得很大进展，可以很大程度上提高息肉分割的准确性。

对于不同的息肉，形状、大小、颜色和纹理也各不相同，医生需要根据不同形状、大小的息肉来判断病人的病变情况，就需要对息肉进行准确分割，从而可以对息肉的形状和大小以及息肉所在的位置进行直观的观察，从而能够更好地对病人进行疾病诊断，并且能够更好地进行息肉切除手术。

然而针对内窥镜下的息肉分割模型，目前还面临以下挑战：一是由于部分息肉的颜色和质地与周围环境组织非常相似，对比度低，显示不明显，导致息肉在边界部分的分割性能下降，对息肉边界的准确分割造成了挑战；二是许多现有的分割方法忽略了内窥镜检查过程中有价值的时间线索，导致分割模型无法充分利用时间信息，对息肉的准确分割造成了挑战。

发明内容

本发明的目的克服现有技术存在的不足，为实现以上目的，采用一种基于边界监督和时序关联的内窥镜息肉分割方法，以解决上述背景技术中提出的问题。

一种基于边界监督和时序关联的内窥镜息肉分割方法，包括以下步骤：

步骤S1、获取历史的内窥镜息肉视频数据，并对包含息肉部分的视频数据进行数据标注，得到息肉分割的真实mask标签，并生成相应的边界mask标签，同时形成数据集；

步骤S2、基于边界监督和时序关联构建内窥镜息肉分割模型，所述内窥镜息肉分割模型包括边界监督模块，以及时序关联模块；

步骤S3、将标注后得到的数据集输入内窥镜息肉分割模型进行训练并得到预测分割结果，再根据获得息肉分割的真实mask标签和生成的边界mask标签计算损失函数，同时利用AdamW优化器优化模型参数，进行多轮迭代优化后得到最优的内窥镜息肉分割模型；

步骤S4、将得到的最优的内窥镜息肉分割模型进行模型部署；

步骤S5、实时获取内窥镜息肉图像数据，并输入部署完成的内窥镜息肉分割模型中，得到内窥镜息肉分割结果，确定息肉位置辅助诊断。

作为本发明的进一步的方案：所述步骤S1中的具体步骤包括：

步骤S11、采集医院各类历史的内窥镜息肉视频数据；

步骤S12、利用交互式分割标注工具对获取包含息肉部分的内窥镜息肉视频数据进行数据标注，得到息肉部分的二值化分割mask标签；

步骤S13、再利用得到的息肉二值化分割mask标签生成相应的边界mask标签；

步骤S14、将内窥镜息肉视频数据进行视频分帧成图像形式的息肉图像数据，并对分帧后的图像缩放至预设大小，再进行随机角度旋转，随机水平或垂直翻转，随机亮度、饱和度、对比度调整，对息肉图像进行数据增强，得到数据集；

步骤S15、再依据预设比例4:1对数据集进行划分，得到训练集和验证集。

作为本发明的进一步的方案：所述步骤S2中的具体步骤包括：

S21、构建边界监督模块，将输入的浅层特征图首先利用快速傅里叶变换和高通滤波器来提取特征图当中的边界高频信息得到高频边界特征图，具体公式为：

其中，X为输入边界监督模块的特征图，FFT(·)和FFT^-1(·)分别表示快速傅里叶变换和其逆变换，表示高通滤波器，X_H为输出的只保留边界信息的高频边界特征图；

然后将该高频边界特征图分别通过1×1，膨胀系数为1的卷积，3×3，膨胀系数为1的卷积，3×3，膨胀系数为3的卷积，3×3，膨胀系数为5的卷积，利用这四路卷积来提取不同尺度的有用的边界信息从而消除高频边界特征图中的背景噪声；

之后通过1×1的卷积调整通道数得到精细边界mask标签，并将该精细边界mask标签和输入模块的特征图融合得到增强边界后的边界强化特征图；

S22、构建时序关联模块，每帧息肉图像经过模型后都会产生其对应的息肉预测二值化mask标签，记为a∈R^1×H×W，将输入该模块的特征图记为f∈R^C×H×W，也就是每帧息肉经过backbone所得到的最后一层特征图，其中C为输入特征图的通道数，H×W为特征图的大小，利用a和f可以分别生成息肉原型和背景原型，分别记为p和b，具体公式为：

p＝mean(a×f)；

b＝mean((1-a)×f)；

其中，×为两个矩阵的逐像素相乘，mean(·)为对每个通道的矩阵中所有的矩阵元素取平均值；

将得到的p和b一起存入内存中，除第一帧息肉以外，之后的每帧息肉都会利用交叉注意力机制将对应的f结合内存中所存储的所有原型来辅助当前帧的息肉分割，首先将f分别做两个1×1的卷积，并将H×W拉直为HW得到两个特征向量q_k∈R^C×HW和q_v∈R^C×HW，将内存中的每个原型也分别做卷积得到对应的特征向量m_k∈R^N×C和m_v∈R^N×C，其中N为内存中原型的数量，之后就是将q_k和所有原型中的m_k进行相似度计算，并使用softmax归一化：

其中，代表矩阵乘法，S∈R^N×HW代表相似度矩阵，之后将转置后的m_v和相似度矩阵相乘得到特征图，并和q_v相加得到该模块最终输出的特征图：

其中，T代表转置，表示将C×HW维度还原回C×H×W,f′∈R^C×H×W表示最终的输出特征图。

作为本发明的进一步的方案：所述步骤S3中的具体步骤包括：

S31、将得到的数据集的训练集输入至内窥镜息肉分割模型中进行训练，并计算损失函数，利用AdamW优化器对网络参数进行优化，其中损失函数L设置为：

L＝L_Edge+L_Mask；

其中，L_Edge代表边界监督的损失，通过计算边界监督模块所得到的精细边界mask标签与之前所生成的真实边界mask标签的BCE loss得到：

其中，N为整个图像的像素点个数，i表示每一个像素，m_i表示真实边界mask标签，表示边界监督模块所得到的精细边界mask标签，L_Mask代表预测息肉二值化mask的损失，公式为：

L_Mask＝L_BCE+L_IoU+L_Dice；

其中，L_BCE为模型预测的mask标签和之前标注的真实mask标签直接的二值交叉熵损失，L_IoU为IoU损失，L_Dice为Dice损失，具体计算分别如下：

其中，N为整个图像的像素点个数，i表示每一个像素，y_i表示真实息肉二值化mask标签，表示模型预测输出的息肉mask标签；

S32、利用数据集的验证集测试训练完成后的内窥镜息肉分割模型的分割性能，并筛选出最优模型，模型每训练一个epoch后都会将参数保存至相应的模型文件中；

在测试的过程中，从对应的模型文件中加载参数至模型中，并将验证集数据输入至模型中得到模型预测输出的息肉mask标签，并与真实的二值化mask标签计算Dice和IoU，计算公式分别如下：

其中，TP为预测准确的区域，FP为预测为True实际为False的区域，即假阳性区域，FN为预测为False实际为True的区域，即假阴性区域；

最后选取最高的Dice和IoU所对应的模型参数文件作为最优的内窥镜息肉分割模型输出。

作为本发明的进一步的方案：所述步骤S4中的具体步骤包括：

步骤S41、将得到的最优内窥镜息肉分割模型转移至对应型号的开发板中，并利用torch2trt工具在开发板中将模型转化为fp16精度的tensorRT模型；

步骤S42、在开发板中基于QT框架编写tensorRT模型的部署和推理代码，用于对输入的实时息肉图像进行正确图像分割。

作为本发明的进一步的方案：所述步骤S5中的具体步骤包括：

步骤S51、将部署好内窥镜息肉分割模型的开发板设置于内窥镜设备系统；

步骤S52、实时获取内窥镜息肉图像数据，并输入部署好的内窥镜息肉分割模型中，并实时输出包含息肉图像的内窥镜息肉分割结果；

步骤S53、根据得到的内窥镜息肉分割结果确定息肉的形状、大小，以及所在的位置，辅助医生对患者病情进行诊断。

与现有技术相比，本发明存在以下技术效果：

采用上述的技术方案，通过基于边界监督和时序关联构建内窥镜息肉分割模型，通过两个模块，利用边界监督模块，通过快速傅里叶变换和高通滤波器提取浅层特征图中的高频边界信息，并利用不同尺度的四路卷积来去除高频边界信息中的背景噪声信息，最终得到精细化的边界mask来对息肉的边界分割进行额外监督，从而更好地帮助模型完成对息肉边界处的分割。利用时序关联模块，将之前帧的息肉分割结果分别以息肉原型和背景原型保存至内存中，在之后的息肉分割的过程中会结合内存中所有的原型来利用之前帧的分割信息辅助当前帧的息肉分割，利用时序信息更好地提升视频息肉分割的性能。

从而得到最优的内窥镜息肉分割模型，解决了现有技术中导致息肉在边界部分的分割性能下降，对息肉边界的分割不准确，以及导致分割模型无法充分利用时间信息的问题。实现了实时识别分割内窥镜息肉图像数据，辅助医生对患者进行准确诊断。

附图说明

下面结合附图，对本发明的具体实施方式进行详细描述：

图1为本申请公开实施例的内窥镜息肉分割方法的步骤示意图；

图2为本申请公开实施例的基于边界监督和时序关联的内窥镜息肉分割方法整体网络结构图；

图3为本申请公开实施例的边界监督模块结构图；

图4为本申请公开实施例的时序关联模块结构图；

图5为本申请公开实施例的时序关联模块中交叉注意力机制计算图；

图6为本申请公开实施例的息肉分割模型对息肉分割的结果图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，本发明实施例中，一种基于边界监督和时序关联的内窥镜息肉分割方法，包括以下步骤：

步骤S1、获取历史的内窥镜息肉视频数据，并对包含息肉部分的视频数据进行数据标注，得到息肉分割的真实mask标签，并生成相应的边界mask标签，同时形成数据集，具体步骤包括：

步骤S11、可从不同医院采集各类历史的内窥镜息肉视频数据；

步骤S12、利用交互式分割标注工具MiVOS对获取包含息肉部分的内窥镜息肉视频数据进行数据标注，得到息肉部分的二值化分割mask标签；

步骤S14、将内窥镜息肉视频数据进行视频分帧成图像形式的息肉图像数据，并对分帧后的图像，通过线性插值方法，缩放至320×320大小，再进行随机角度旋转，随机水平或垂直翻转，随机亮度、饱和度、对比度调整等方法，对息肉图像进行数据增强，得到数据集；

步骤S15、再依据预设比例4:1对数据集中的图像进行划分，得到训练集和验证集。

如图2所示，使用SegNeXt中的多尺度卷积注意网络MSCAN作为特征提取主干网络，会生成一系列的特征图，将最浅层的特征图输入至边界监督模块，并利用快速傅里叶变换和高通滤波器提取特征图中的边界高频信息得到高频边界特征图，之后将高频边界特征图通过四路卷积来进行多尺度层级融合去除背景噪声，并最终通过一层1×1卷积来得到去噪后的精细化边界mask，并利用这个mask来约束模型的分割边界，从而来提升息肉边界分割性能，之后还需将该边界mask与原特征图相加得到增强边界后的特征图并继续往之后的网络传递。在每帧息肉分割得到最终的mask之后，分别用主干网络提取得到的最后一层特征图结合息肉和背景的mask分别生成息肉原型和背景原型保存至内存中，除了第一帧进行正常的息肉图像分割外，之后的息肉分割都将利用交叉注意力机制结合内存中的原型来辅助当前帧的息肉分割，得到时序关联后的特征图，最后将该特征图通过decoder层得到最终的息肉分割结果。

边界监督模块，以及时序关联模块的具体构建步骤包括：

S21、构建边界监督模块，如图3所示，图示为边界监督模块结构图，将输入的浅层特征图首先利用快速傅里叶变换和高通滤波器来提取特征图当中的边界高频信息得到高频边界特征图，具体公式为：

S22、构建时序关联模块，如图4所示，图示为时序关联模块结构图，每帧息肉图像经过模型后都会产生其对应的息肉预测二值化mask标签，记为a∈R^1×H×W，将输入该模块的特征图记为f∈R^C×H×W，也就是每帧息肉经过backbone所得到的最后一层特征图，其中C为输入特征图的通道数，H×W为特征图的大小，利用a和f可以分别生成息肉原型和背景原型，分别记为p和b，具体公式为：

p＝mean(a×f)；

b＝mean((1-a)×f)；

将得到的p和b一起存入内存中，除第一帧息肉以外，之后的每帧息肉都会利用交叉注意力机制将对应的f结合内存中所存储的所有原型来辅助当前帧的息肉分割；

本实施例中，如图5所示，图示为时序关联模块中交叉注意力机制计算图，首先将f分别做两个1×1的卷积，并将H×W拉直为HW得到两个特征向量q_k∈q^C×HW和q_v∈q^C×HW，将内存中的每个原型也分别做卷积得到对应的特征向量m_k∈q^N×C和m_v∈R^N×C，其中N为内存中原型的数量，之后就是将q_k和所有原型中的m_k进行相似度计算，并使用softmax归一化：

步骤S3、将标注后得到的数据集输入内窥镜息肉分割模型进行训练并得到预测分割结果，再根据获得息肉分割的真实mask标签和生成的边界mask标签计算损失函数，包括mask loss和edge loss，同时利用AdamW优化器优化模型参数，进行多轮迭代优化后得到最优的内窥镜息肉分割模型，具体步骤包括：

L＝L_Edge+L_Mask；

L_Mask＝L_BCE+L_IoU+L_Dice；

步骤S4、将得到的最优的内窥镜息肉分割模型进行模型部署，具体步骤包括：

步骤S41、将得到的最优内窥镜息肉分割模型转移至对应Jetson Xavier NX型号的开发板中，同时在开发板中配置好相应的python环境，并利用torch2trt工具在开发板中将模型转化为fp16精度的tensorRT模型；

步骤S42、本实施例中，在开发板中基于C++语言的QT框架编写tensorRT模型的部署和推理代码，确保输入的息肉图像或视频经过tensorRT模型后能够正常得到息肉分割结果并展示在图形化界面中。

步骤S5、实时获取内窥镜息肉图像数据，并输入部署完成的内窥镜息肉分割模型中，得到内窥镜息肉分割结果，确定息肉位置辅助诊断，具体步骤包括：

步骤S51、将部署好内窥镜息肉分割模型的开发板设置于内窥镜设备系统中，确保能够走通从输入内窥镜图像到显示息肉分割结果这一完整流程；

步骤S53、医生可根据得到的内窥镜息肉分割结果确定息肉的形状、大小，以及所在的位置，辅助医生对患者病情进行病情诊断。

具体实验例：

(1)选取实验数据

实验中选择的数据集来自大型息肉开源数据集SUN-SEG数据集，训练集和测试集在开源数据集中就已经划分好了，在我们的实验中也使用这样的方式去划分训练集和测试集。

(2)实验结果

按照上述基于边界监督和时序关联的内窥镜息肉分割方法步骤训练模型，构造完模型后，对所有生成的模型文件都进行测试，并计算Dice和IoU，选出指标最高所对应的模型作为最终模型，并利用最终模型对息肉进行分割，得到分割结果。如图6所示，图示为部分息肉分割结果。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定，均应包含在本发明的保护范围之内。

Claims

1.一种基于边界监督和时序关联的内窥镜息肉分割方法，其特征在于，包括以下步骤：

2.根据权利要求1所述一种基于边界监督和时序关联的内窥镜息肉分割方法，其特征在于，所述步骤S1中的具体步骤包括：

步骤S11、采集医院各类历史的内窥镜息肉视频数据；

3.根据权利要求1所述一种基于边界监督和时序关联的内窥镜息肉分割方法，其特征在于，所述步骤S2中的具体步骤包括：

X_H＝FFT^-1(f_r ^H(FFT(X)))；

其中，X为输入边界监督模块的特征图，FFT(·)和FFT^-1(·)分别表示快速傅里叶变换和其逆变换，f_r ^H(·)表示高通滤波器，X_H为输出的只保留边界信息的高频边界特征图；

p＝mean(a×f)；

b＝mean((1-a)×f)；

4.根据权利要求1所述一种基于边界监督和时序关联的内窥镜息肉分割方法，其特征在于，所述步骤S3中的具体步骤包括：

L＝L_Edge+L_Mask；

L_Mask＝L_BCE+L_IoU+L_Dice；

5.根据权利要求1所述一种基于边界监督和时序关联的内窥镜息肉分割方法，其特征在于，所述步骤S4中的具体步骤包括：

6.根据权利要求1所述一种基于边界监督和时序关联的内窥镜息肉分割方法，其特征在于，所述步骤S5中的具体步骤包括：