CN110288597B

CN110288597B - 基于注意力机制的无线胶囊内窥镜视频显著性检测方法

Info

Publication number: CN110288597B
Application number: CN201910599232.6A
Authority: CN
Inventors: 王宽全; 李佳欣; 骆功宁; 王立国; 庄丽维
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2019-07-01
Filing date: 2019-07-01
Publication date: 2021-04-02
Anticipated expiration: 2039-07-01
Also published as: CN110288597A

Abstract

基于注意力机制的无线胶囊内窥镜视频显著性检测方法，它属于图像处理技术领域。本发明解决了采用人工方式对WCE视频进行检查易受消化道复杂环境影响、导致无法对显著性区域进行快速定位的问题。本发明通过胶囊内窥镜成像技术获取消化道内视频影像数据，对视频进行预处理后，分别对CNN分类模型和LSTM分割模型进行训练，两者相互补充，进行优化，可以快速获得WCE视频中图像的显著性检测结果，克服了人工方式无法对显著性区域进行快速定位的不足。本发明可以应用于图像处理技术领域。

Description

基于注意力机制的无线胶囊内窥镜视频显著性检测方法

技术领域

本发明属于图像处理技术领域，具体涉及一种无线胶囊内窥镜视频显著性检测方法。

背景技术

由于无线胶囊内窥镜(Wireless Capsule Endoscopy，WCE)技术的无创伤性和操作方便性，使用WCE对消化道进行检查已经成为进行小肠检查的一种最常见的方案。此外，近年来，随着成像技术的发展，WCE的图像捕获速度越来越快，图像捕获角度越来越广，对每位患者的每一次检查都能获取到大量视频帧。

当今，临床上医生进行对于WCE视频的诊断主要依赖于人工对获取的完整WCE视频先进行有效帧获取，再对筛选出的有效帧进一步分析和诊断。其中对于WCE视频的有效帧的获取需要逐帧检查，且视频中的图像大多是非异常图像，而由于不同器官、不同异常的内窥镜形态上具有很多相似之处，异常区域的大小和位置多变，对于异常帧的图像检测也很大程度上依赖于医生的经验与设备的进步，医生人工对于数万张甚至数十万张视频帧的快速判断是当前WCE检查的一大难题。而且，采用人工方式对WCE视频进行检查易受消化道复杂环境影响、无法对显著性区域进行快速定位。因此，如何通过显著性检测技术对视频中的感兴趣区域进行突出的研究是很有必要的。

发明内容

本发明的目的是为解决采用人工方式对WCE视频进行检查易受消化道复杂环境影响、导致无法对显著性区域进行快速定位的问题，而提出了一种基于注意力机制的无线胶囊内窥镜视频显著性检测方法。

本发明为解决上述技术问题采取的技术方案是：基于注意力机制的无线胶囊内窥镜视频显著性检测方法，该方法包括以下步骤：

步骤一、获取完整的无线胶囊内窥镜视频影像数据，并对获取的视频影像数据进行逐帧筛查，得到视频影像数据中的全部有效帧图像；

步骤二、将步骤一得到的全部有效帧图像转换为HSV模式图像，并对转换成的HSV模式图像进行去噪处理，获得去噪处理后图像；

对去噪处理后的图像进行颜色空间变换，获得颜色空间变换后图像；

步骤三、从内窥镜语义分割数据库中选取图像数据，并对选取出的图像数据进行步骤二的处理，获得处理后的图像；

步骤四、对步骤二和步骤三获得的图像进行样本重采样，获得类别分布平衡的数据集，将获得的数据集中图像的尺寸统一后，再进行归一化操作获得归一化后图像；将获得的归一化后图像组成的数据集作为训练集；

步骤五、为CNN分类网络的每一阶段增添一个注意力分支来构建新的CNN分类网络，利用步骤四获得的训练集对构建的新的CNN分类网络进行训练，直至损失函数值小于阈值

或迭代次数达到设置的最大迭代次数Iteration1_max时停止训练，获得训练好的CNN分类网络；

步骤六、利用内窥镜视频帧序列的分割数据集(ASU-Mayo Clinic ColonoscopyVideo Data base)对LSTM循环神经网络进行训练，直至损失函数值小于阈值

或迭代次数达到设置的最大迭代次数Iteration2_max时停止训练，获得训练好的LSTM循环神经网络；

步骤七、对于待测视频序列，采用步骤二的方式对待测视频序列中的每帧图像进行处理，获得处理后的图像；

将处理后的图像按照其在待测视频序列中的顺序逐帧输入训练好的CNN分类网络，采用类激活映射方式对CNN分类网络的分类结果进行回溯，将每帧图像对应的回溯结果(显著性区域的初步检测结果)依次输入训练好的LSTM循环神经网络；

将训练好的LSTM循环神经网络的当前帧的显著性检测输出作为下一帧的显著性检测的先验融合进训练好的CNN分类模型的注意力机制中；直至全部帧图像显著性检测完成，将训练好的LSTM循环神经网络的输出作为待测视频序列的显著性检测结果。

本发明的有益效果是：本发明的基于注意力机制的无线胶囊内窥镜视频显著性检测方法，通过胶囊内窥镜成像技术获取消化道内视频影像数据，对视频进行预处理后，分别对CNN分类模型和LSTM分割模型进行训练，两者相互补充，进行优化，可以快速获得WCE视频中图像的显著性检测结果，克服了人工方式无法对显著性区域进行快速定位的不足。

附图说明

图1是本发明构建的CNN分类网络的结构示意图；

图2是视频显著性检测网络模型的示意图；

F_t-1代表CNN分类网络输入的第t-1帧图像，S_t-1代表CNN分类网络输出的第t-1帧图像的预测结果，S′_t-1代表LSTM显著性检测网络输出的第t-1帧图像的显著性检测结果，第t帧及第t+1帧的定义类似；

图3是本发明的一幅包含显著性区域的内窥镜视频帧的示意图；

图4是本发明的一幅不包含显著性区域的内窥镜视频帧的示意图。

具体实施方式

具体实施方式一：如图1至图4所示，本实施方式所述的基于注意力机制的无线胶囊内窥镜视频显著性检测方法，该方法包括以下步骤：

有效帧中的正常帧标记为类别0，包含异常区域的帧标记为类别1，图像类型总数为2；

步骤二、将步骤一得到的全部有效帧图像转换为HSV(Hue,Saturation,Value)模式图像，并对转换成的HSV模式图像进行去噪处理，获得去噪处理后图像；

步骤三、从内窥镜语义分割数据库(指本领域现有的内窥镜语义分割数据库)中选取图像数据，并对选取出的图像数据进行步骤二的处理，获得处理后的图像；

步骤四、对步骤二和步骤三获得的图像进行样本重采样，获得类别分布平衡(是指标记为正常和异常的图像的数据量相当)的数据集，将获得的数据集中图像的尺寸统一后，再进行归一化操作获得归一化后图像；将获得的归一化后图像组成的数据集作为训练集；

CNN分类网络的每一阶段是指每个经过下采样层之前的阶段，在每个阶段内图像尺寸不变；

用于对LSTM循环神经网络进行训练的数据集还可以是CVC-CINIC、CVC-ColonDB；

将处理后的图像按照其在待测视频序列中的顺序逐帧输入训练好的CNN分类网络，采用类激活映射(Class Activation Mapping，CAM)方式对CNN分类网络的分类结果进行回溯，将每帧图像对应的回溯结果依次输入训练好的LSTM循环神经网络；

将训练好的LSTM循环神经网络的当前帧的显著性检测输出作为下一帧的显著性检测的先验融合进训练好的CNN分类模型的注意力机制中(第一帧使用第二帧的CNN显著性检测输出作为先验)；直至全部帧图像显著性检测完成，将训练好的LSTM循环神经网络的输出作为待测视频序列的显著性检测结果。

注意力分支使用语义分割数据集(仅进行前后景分割)进行训练，使得分类网络可以逐渐关注到视频帧中的前景区域。

步骤五中为基础CNN分类网络的每一阶段增添一个注意力分支来构建新的CNN分类网络，所述基础CNN分类网络包括输入层、卷积层、Batch-Normalization层、Pooling层、dropout层、全连接层以及输出层。卷积层可选卷积方式有深度可分离卷积、空洞卷积、可形变卷积、常规卷积。CNN分类网络优选设计如图1所示，但不局限于如图1所示的网络结构，VGG、AlexNet、ResNet、GoogLeNet等图像分类模型结构均可以应用在分类模型的构造中。

而且，在对构建的新的CNN分类网络进行训练之前，可以先进行CNN分类网络的预训练；预训练具体包括以下几个步骤：

1)、在大规模自然场景图像分类任务上进行模型的预训练(这种训练方式可能针对多分类问题)，获得预训练模型参数；

2)、用预训练模型初始化深度卷积神经网络除最后一个全连接层之外的每层的参数，其中，由于消化道内窥镜与自然场景图像分类数量不同，导致最后一个全连接层的网络参数数目不同，因此初始化的网络参数不包含最后一个全连接层的参数，最后一个全连接层的参数采用高斯均匀初始化的方式进行初始化。在此基础上进行调优训练；这种方式可以在数据集有限的情况下，让深度学习技术得以最大限度的使用；

3)、采用有监督的学习方法对预测模型进行训练，通过反向传播算法进行模型的求解，得到对于消化道内窥镜视频的每帧的类别概率预测模型。

CNN分类模型和LSTM分割模型二者结合得到的为弱监督视频显著性检测模型，解决了现有医学图像处理领域像素级标注数据集较少的问题。

本发明不是以获得疾病诊断结果或健康状况为直接目的，本发明只是属于中间的一个图像处理过程，并不能直接获得诊断结果，在本发明的基础上，如果想要获得最终诊断结果还需要经过其他一系列操作，因此，本发明不属于疾病的诊断方法。

具体实施方式二：本实施方式与具体实施方式一不同的是：所述对获取的视频影像数据进行逐帧筛查，得到视频影像数据中的全部有效帧图像，其具体过程为：

根据无线胶囊内窥镜视频影像数据中有效帧图像和无效帧图像所包含的信息量不同，使用图像的信息量表示方式，如图像熵对整个视频影响数据进行分析；可直接采用阈值法，通过实验验证得到一个最佳的图像熵阈值；

将视频影像数据中包含信息量大于图像熵阈值的帧筛选出来作为有效帧图像，全部有效帧图像组成各个有效帧序列。

具体实施方式三：本实施方式与具体实施方式一不同的是：所述对转换成的HSV模式图像进行去噪处理所采用的方法为：均值滤波、高斯平滑滤波、拉普拉斯滤波、3D盒式滤波或3D中值滤波。

具体实施方式四：本实施方式与具体实施方式一不同的是：所述对去噪处理后的图像进行颜色空间变换是指将去噪处理后图像变换至YCbCr或RGB颜色空间。

将图像变换至合适的颜色空间有利于图像的特征的提取，如YCbCr颜色空间内内窥镜图像的颜色较为集中，这对于提取内窥镜图像的颜色特征、降低特征向量的维度是十分有利的。

具体实施方式五：本实施方式与具体实施方式一不同的是：所述步骤五中采用的损失函数为loss；

其中，损失函数loss由类别预测的交叉熵损失函数loss_cls和每个阶段的注意力分支的交叉熵损失函数

构成，i代表第i个阶段的注意力分支，i＝1,2,…,s；为了使语义分割标签匹配每个阶段的特征图谱的分辨率，需要对语义分割数据集的标签在每个阶段进行适当的缩放。β为平衡因子，β由图像标签A中正像素A₊和负像素A_-的比例决定，|A|代表标签A中像素的总数，|A_-|代表标签A中负像素的个数，P(a_j＝1)和P(a_j＝0)分别代表每个阶段的注意力分支预测的对应像素属于前景和背景的概率，y和

分别代表图像的真实类别和预测类别为1的概率。

具体实施方式六：本实施方式与具体实施方式一不同的是：所述方法还包括步骤八，所述步骤八的具体过程为：

对步骤七获得的显著性检测结果进行后处理，若显著性检测结果为当前帧图像中不存在显著性区域，但在当前帧图像的前一帧和后一帧中存在响应大于阈值T的相同的显著性区域，则根据视频序列的一致性，当前帧图像中也存在显著性区域，通过对当前帧图像的前一帧和后一帧中响应大于阈值T的相同的显著性区域进行插值得到当前帧图像的显著性检测结果；

存在显著性区域的图像组成各个视频帧序列；对于每一个视频帧序列，使用异常点检测法对视频帧序列的每帧图像中的显著性响应最强的区域的中心点进行分析，若当前帧存在异常的中心点，则使用当前帧的前一帧和后一帧的插值作为当前帧修正后的显著性检测结果。

具体实施方式七：本实施方式与具体实施方式六不同的是：每一阶段的注意力分支可以并不独立，不同尺度的注意力信息之间可以相互融合，如金字塔状融合、max_out融合、map拼接融合等。

具体实施方式八：本实施方式与具体实施方式六不同的是：采用了注意力机制的CNN的训练可以分两个阶段训练，即先训练CNN分类骨架再使用分割数据集训练注意力分支；或CNN骨架与注意力分支使用多任务损失函数联合训练。

具体实施方式九：LSTM模型的上一帧中的显著性检测结果与当前帧的注意力分支的融合可以通过多种方式实现，如map拼接、map点乘或相加等方法。

本发明的上述算例仅为详细地说明本发明的计算模型和计算流程，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动，这里无法对所有的实施方式予以穷举，凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。

Claims

1.基于注意力机制的无线胶囊内窥镜视频显著性检测方法，其特征在于，该方法包括以下步骤：

步骤五、为CNN分类网络的每一阶段增添一个注意力分支来构建新的CNN分类网络，每一阶段是指每个经过下采样层之前的阶段；利用步骤四获得的训练集对构建的新的CNN分类网络进行训练，直至损失函数值小于阈值

步骤六、利用内窥镜视频帧序列的分割数据集对LSTM循环神经网络进行训练，直至损失函数值小于阈值

将处理后的图像按照其在待测视频序列中的顺序逐帧输入训练好的CNN分类网络，采用类激活映射方式对CNN分类网络的分类结果进行回溯，将每帧图像对应的回溯结果依次输入训练好的LSTM循环神经网络；

2.根据权利要求1所述的基于注意力机制的无线胶囊内窥镜视频显著性检测方法，其特征在于，所述对获取的视频影像数据进行逐帧筛查，得到视频影像数据中的全部有效帧图像，其具体为：

将视频影像数据中包含信息量大于图像熵阈值的帧筛选出来作为有效帧图像。

3.根据权利要求1所述的基于注意力机制的无线胶囊内窥镜视频显著性检测方法，其特征在于，所述对转换成的HSV模式图像进行去噪处理所采用的方法为：均值滤波、高斯平滑滤波、拉普拉斯滤波、3D盒式滤波或3D中值滤波。

4.根据权利要求1所述的基于注意力机制的无线胶囊内窥镜视频显著性检测方法，其特征在于，所述对去噪处理后的图像进行颜色空间变换是指将去噪处理后图像变换至YCbCr或RGB颜色空间。

5.根据权利要求1所述的基于注意力机制的无线胶囊内窥镜视频显著性检测方法，其特征在于，所述步骤五中采用的损失函数为loss；

构成，i代表第i个阶段的注意力分支，i＝1,2,…,s；β为平衡因子，β由图像标签A中正像素A₊和负像素A_-的比例决定，|A|代表标签A中像素的总数，|A_-|代表标签A中负像素的个数，P(a_j＝1)和P(a_j＝0)分别代表每个阶段的注意力分支预测的对应像素属于前景和背景的概率，y和

分别代表图像的真实类别和预测类别为1的概率。

6.根据权利要求1所述的基于注意力机制的无线胶囊内窥镜视频显著性检测方法，其特征在于，所述方法还包括步骤八，所述步骤八的具体过程为：