CN113284110A

CN113284110A - 基于双流法的胃镜视频部位识别网络结构

Info

Publication number: CN113284110A
Application number: CN202110575372.7A
Authority: CN
Inventors: 李全林; 诸炎; 周平红; 张丹枫; 耿子寒
Original assignee: Zhongshan Hospital Fudan University
Current assignee: Zhongshan Hospital Fudan University
Priority date: 2021-05-26
Filing date: 2021-05-26
Publication date: 2021-08-20

Abstract

本发明涉及一种基于双流法的胃镜视频的消化道识别网络结构，包括两个卷积分支，多帧胃镜视频数据分别输入两个卷积分支，其中Slow pathway分支提取视频背景静态特征，Fast pathway分支提取前景动态特征，在时间通道上不进行降维，两个卷积分支输出分别经过全局池化层后，将池化后的静态全局特征和动态全局特征在特征通道上concatenate，最后经过FC全连接层输出预测部位类别。可以针对视频数据中的静态特征(在连续数据中特征变化较小的部分)和动态特征(视频中特征出现较大变化)分别处理，模型在识别精度和鲁棒性上更高，可以有效的提升胃镜视频识别时的分类精度，同时提升医生胃镜拍摄效率，辅助胃镜拍摄。

Description

基于双流法的胃镜视频部位识别网络结构

技术领域

本发明涉及一种视频识别技术，特别涉及一种基于双流法的胃镜视频部位识别网络结构。

背景技术

当下对于胃镜视频识别，现有的发现基本都是针对单帧图像进行分类或多帧图像建立3D全卷积网络模型进行分类，如R3D等系列模型，这些方法都是利用3D卷积来同时提取空间和时间特征，再通过提取的特征进行聚合得到视频分类结果。然而胃部消化道图像特征在空间上的有较高共性，在时间通道上的变化较小，所以用3D卷积之间聚合空间和时间上特征较为冗余，无法捕捉长时间序列间的关系，计算复杂度也较高，所以在判断胃镜视频的类别和识别效率上面有所欠缺，从而导致针对胃镜视频分类精度和实用性不高。

胃内窥镜检查是诊断上消化道病变的关键步骤。高质量的内窥镜检查可带来更好的诊断效果。然而，内镜医师在拍摄内窥镜视频时表现有很大差异，影响了胃癌和前体病变的发现率。在中国，早期胃癌的诊断率仍低于20％，在世界大部分地区也有类似的结果。确保镜下胃镜位置，保证胃镜拍摄能够遍历胃部所有位置，是后续诊断治疗的重要先决条件。

发明内容

针对胃内窥镜检查具体部位识别精度差的问题，提出了一种基于双流法的胃镜视频部位识别网络结构，通过两个卷积流，分别是Slow pathway和Fast pathway分别提取视频中静态内容和快速发生变化的动态区域，这通常说明视频中胃部特征出现明显变化，根据提取的静态特征和动态特征来提高视频识别的准确率。

本发明的技术方案为：一种基于双流法的胃镜视频部位识别网络结构，包括两个卷积分支，多帧胃镜视频数据分别输入两个卷积分支，其中Slow pathway分支提取视频背景静态特征，Fast pathway分支提取前景动态特征，在时间通道上不进行降维，两个卷积分支输出分别经过全局池化层后，将池化后的静态全局特征和动态全局特征在特征通道上concatenate，最后经过FC全连接层输出预测部位类别。

优选的，所述多帧胃镜视频数据为64帧尺寸为256*256的图像，其中Slow pathway分支等间隔采样32帧图像组成3D数据，Fast pathway分支等间隔采样的4帧图像组成3D数据，分别在两个pathway中使用3×3×3的卷积核来提取特征，在时间通道上不进行降维，进行四层卷积层来提取空间及时间通道上的特征。

使用所述基于双流法的胃镜视频部位识别网络结构的识别运用，内镜检查下基于双流法的胃镜视频部位识别网络结构实时识别胃镜检查所在位置，辅助医生完成胃镜拍摄。

本发明的有益效果在于：本发明基于双流法的胃镜视频部位识别网络结构，可以针对视频数据中的静态特征(在连续数据中特征变化较小的部分)和动态特征(视频中特征出现较大变化)分别处理，模型在识别精度和鲁棒性上更高，可以有效的提升胃镜视频识别时的分类精度，同时提升医生胃镜拍摄效率，辅助胃镜拍摄。

附图说明

图1为本发明基于双流法的胃镜视频部位识别网络结构示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

如图1所示基于双流法的胃镜视频部位识别网络结构示意图，做胃镜的时候一般只有空腹状态，所以每个部位运动频率稳定，本发明设计了两个卷积分支，分别是Slowpathway和Fast pathway提取视频中胃部视频中相对静态的内容和快速发生变化的动态区域。在视频数据中，背景一般在连续的时间域上语义特征变化慢，而前景一般会随时间发生运动，在关注相对快速变化的前景特征时也要保证对背景特征的关注，Slow pathway和Fast pathway正是根据视频前景与背景不同特点来分别捕捉运动特征和背景静态特征，在胃镜视频中，既可以准确提取在视频帧中缓慢变化的胃部基本特征，和具有快速变化的显著特征，从而根据提取的静态特征和动态特征来提高视频识别的准确率和鲁棒性。

输入图像为64帧尺寸为256*256的彩色图像，使用两种不同卷积核将输入分为不同尺寸的图像块，其中Slow pathway分支输入是等间隔采样32帧图像组成3D数据，以此来关注在视频中变化缓慢的静态特征，在Fast pathway分支输入是等间隔采样的4帧图像组成3D数据，关注变化快的动态特征；

分别在上下两个pathway中使用3×3×3的卷积核来提取特征，其中在时间通道上不进行降维，进行四层卷积层来提取空间及时间通道上的特征；

GAP(global average pooling)为全局池化层，将池化后的静态全局特征和动态全局特征在特征通道上concatenate之后，经过FC全连接层输出预测的类别。

胃镜图像数据，使用其单帧图进行分类来判断当前视频属于胃的哪一部位，在准确度上要远低于根据多帧视频分类，所以基于视频流建立相关视频识别模型进行分类在识别可靠性上要远远高于单帧图像分类。双流模型根据视频中静态特征和动态特征分别提取特征，不是简单的使用3D卷积提取时间和空间特征，在视频识别精度上更有优势。

胃镜医生在拍摄视频时，根据当前拍摄的若干帧(比如64帧)的视频，将视频数据送入模型，经过模型预测出当前视频拍摄于所在胃的部位，并实时显示给医生，以帮助医生进行胃镜拍摄。

基于双流法的视频识别网络可以针对视频数据中的静态特征(在连续数据中特征变化缓慢的部分)和动态特征(视频中特征出现快速变化)分别处理，模型在识别精度和鲁棒性上更高，可以有效的提升胃镜视频识别时的分类精度，同时提升医生胃镜拍摄效率，辅助胃镜拍摄。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于双流法的胃镜视频部位识别网络结构，其特征在于，包括两个卷积分支，多帧胃镜视频数据分别输入两个卷积分支，其中Slow pathway分支提取视频背景静态特征，Fast pathway分支提取前景动态特征，在时间通道上不进行降维，两个卷积分支输出分别经过全局池化层后，将池化后的静态全局特征和动态全局特征在特征通道上concatenate，最后经过FC全连接层输出预测部位类别。

2.根据权利要求1所述基于双流法的胃镜视频部位识别网络结构，其特征在于，所述多帧胃镜视频数据为64帧尺寸为256*256的图像，其中Slow pathway分支等间隔采样32帧图像组成3D数据，Fast pathway分支等间隔采样的4帧图像组成3D数据，分别在两个pathway中使用3×3×3的卷积核来提取特征，在时间通道上不进行降维，进行四层卷积层来提取空间及时间通道上的特征。

3.使用权利要求1或2所述基于双流法的胃镜视频部位识别网络结构的识别运用，其特征在于，内镜检查下基于双流法的胃镜视频部位识别网络结构实时识别胃镜检查所在位置，辅助医生完成胃镜拍摄。