CN113284110A - 基于双流法的胃镜视频部位识别网络结构 - Google Patents

基于双流法的胃镜视频部位识别网络结构 Download PDF

Info

Publication number
CN113284110A
CN113284110A CN202110575372.7A CN202110575372A CN113284110A CN 113284110 A CN113284110 A CN 113284110A CN 202110575372 A CN202110575372 A CN 202110575372A CN 113284110 A CN113284110 A CN 113284110A
Authority
CN
China
Prior art keywords
gastroscope
video
network structure
double
flow method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110575372.7A
Other languages
English (en)
Inventor
李全林
诸炎
周平红
张丹枫
耿子寒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongshan Hospital Fudan University
Original Assignee
Zhongshan Hospital Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongshan Hospital Fudan University filed Critical Zhongshan Hospital Fudan University
Priority to CN202110575372.7A priority Critical patent/CN113284110A/zh
Publication of CN113284110A publication Critical patent/CN113284110A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30092Stomach; Gastric

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于双流法的胃镜视频的消化道识别网络结构,包括两个卷积分支,多帧胃镜视频数据分别输入两个卷积分支,其中Slow pathway分支提取视频背景静态特征,Fast pathway分支提取前景动态特征,在时间通道上不进行降维,两个卷积分支输出分别经过全局池化层后,将池化后的静态全局特征和动态全局特征在特征通道上concatenate,最后经过FC全连接层输出预测部位类别。可以针对视频数据中的静态特征(在连续数据中特征变化较小的部分)和动态特征(视频中特征出现较大变化)分别处理,模型在识别精度和鲁棒性上更高,可以有效的提升胃镜视频识别时的分类精度,同时提升医生胃镜拍摄效率,辅助胃镜拍摄。

Description

基于双流法的胃镜视频部位识别网络结构
技术领域
本发明涉及一种视频识别技术,特别涉及一种基于双流法的胃镜视频部位识别网络结构。
背景技术
当下对于胃镜视频识别,现有的发现基本都是针对单帧图像进行分类或多帧图像建立3D全卷积网络模型进行分类,如R3D等系列模型,这些方法都是利用3D卷积来同时提取空间和时间特征,再通过提取的特征进行聚合得到视频分类结果。然而胃部消化道图像特征在空间上的有较高共性,在时间通道上的变化较小,所以用3D卷积之间聚合空间和时间上特征较为冗余,无法捕捉长时间序列间的关系,计算复杂度也较高,所以在判断胃镜视频的类别和识别效率上面有所欠缺,从而导致针对胃镜视频分类精度和实用性不高。
胃内窥镜检查是诊断上消化道病变的关键步骤。高质量的内窥镜检查可带来更好的诊断效果。然而,内镜医师在拍摄内窥镜视频时表现有很大差异,影响了胃癌和前体病变的发现率。在中国,早期胃癌的诊断率仍低于20%,在世界大部分地区也有类似的结果。确保镜下胃镜位置,保证胃镜拍摄能够遍历胃部所有位置,是后续诊断治疗的重要先决条件。
发明内容
针对胃内窥镜检查具体部位识别精度差的问题,提出了一种基于双流法的胃镜视频部位识别网络结构,通过两个卷积流,分别是Slow pathway和Fast pathway分别提取视频中静态内容和快速发生变化的动态区域,这通常说明视频中胃部特征出现明显变化,根据提取的静态特征和动态特征来提高视频识别的准确率。
本发明的技术方案为:一种基于双流法的胃镜视频部位识别网络结构,包括两个卷积分支,多帧胃镜视频数据分别输入两个卷积分支,其中Slow pathway分支提取视频背景静态特征,Fast pathway分支提取前景动态特征,在时间通道上不进行降维,两个卷积分支输出分别经过全局池化层后,将池化后的静态全局特征和动态全局特征在特征通道上concatenate,最后经过FC全连接层输出预测部位类别。
优选的,所述多帧胃镜视频数据为64帧尺寸为256*256的图像,其中Slow pathway分支等间隔采样32帧图像组成3D数据,Fast pathway分支等间隔采样的4帧图像组成3D数据,分别在两个pathway中使用3×3×3的卷积核来提取特征,在时间通道上不进行降维,进行四层卷积层来提取空间及时间通道上的特征。
使用所述基于双流法的胃镜视频部位识别网络结构的识别运用,内镜检查下基于双流法的胃镜视频部位识别网络结构实时识别胃镜检查所在位置,辅助医生完成胃镜拍摄。
本发明的有益效果在于:本发明基于双流法的胃镜视频部位识别网络结构,可以针对视频数据中的静态特征(在连续数据中特征变化较小的部分)和动态特征(视频中特征出现较大变化)分别处理,模型在识别精度和鲁棒性上更高,可以有效的提升胃镜视频识别时的分类精度,同时提升医生胃镜拍摄效率,辅助胃镜拍摄。
附图说明
图1为本发明基于双流法的胃镜视频部位识别网络结构示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
如图1所示基于双流法的胃镜视频部位识别网络结构示意图,做胃镜的时候一般只有空腹状态,所以每个部位运动频率稳定,本发明设计了两个卷积分支,分别是Slowpathway和Fast pathway提取视频中胃部视频中相对静态的内容和快速发生变化的动态区域。在视频数据中,背景一般在连续的时间域上语义特征变化慢,而前景一般会随时间发生运动,在关注相对快速变化的前景特征时也要保证对背景特征的关注,Slow pathway和Fast pathway正是根据视频前景与背景不同特点来分别捕捉运动特征和背景静态特征,在胃镜视频中,既可以准确提取在视频帧中缓慢变化的胃部基本特征,和具有快速变化的显著特征,从而根据提取的静态特征和动态特征来提高视频识别的准确率和鲁棒性。
输入图像为64帧尺寸为256*256的彩色图像,使用两种不同卷积核将输入分为不同尺寸的图像块,其中Slow pathway分支输入是等间隔采样32帧图像组成3D数据,以此来关注在视频中变化缓慢的静态特征,在Fast pathway分支输入是等间隔采样的4帧图像组成3D数据,关注变化快的动态特征;
分别在上下两个pathway中使用3×3×3的卷积核来提取特征,其中在时间通道上不进行降维,进行四层卷积层来提取空间及时间通道上的特征;
GAP(global average pooling)为全局池化层,将池化后的静态全局特征和动态全局特征在特征通道上concatenate之后,经过FC全连接层输出预测的类别。
胃镜图像数据,使用其单帧图进行分类来判断当前视频属于胃的哪一部位,在准确度上要远低于根据多帧视频分类,所以基于视频流建立相关视频识别模型进行分类在识别可靠性上要远远高于单帧图像分类。双流模型根据视频中静态特征和动态特征分别提取特征,不是简单的使用3D卷积提取时间和空间特征,在视频识别精度上更有优势。
胃镜医生在拍摄视频时,根据当前拍摄的若干帧(比如64帧)的视频,将视频数据送入模型,经过模型预测出当前视频拍摄于所在胃的部位,并实时显示给医生,以帮助医生进行胃镜拍摄。
基于双流法的视频识别网络可以针对视频数据中的静态特征(在连续数据中特征变化缓慢的部分)和动态特征(视频中特征出现快速变化)分别处理,模型在识别精度和鲁棒性上更高,可以有效的提升胃镜视频识别时的分类精度,同时提升医生胃镜拍摄效率,辅助胃镜拍摄。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (3)

1.一种基于双流法的胃镜视频部位识别网络结构,其特征在于,包括两个卷积分支,多帧胃镜视频数据分别输入两个卷积分支,其中Slow pathway分支提取视频背景静态特征,Fast pathway分支提取前景动态特征,在时间通道上不进行降维,两个卷积分支输出分别经过全局池化层后,将池化后的静态全局特征和动态全局特征在特征通道上concatenate,最后经过FC全连接层输出预测部位类别。
2.根据权利要求1所述基于双流法的胃镜视频部位识别网络结构,其特征在于,所述多帧胃镜视频数据为64帧尺寸为256*256的图像,其中Slow pathway分支等间隔采样32帧图像组成3D数据,Fast pathway分支等间隔采样的4帧图像组成3D数据,分别在两个pathway中使用3×3×3的卷积核来提取特征,在时间通道上不进行降维,进行四层卷积层来提取空间及时间通道上的特征。
3.使用权利要求1或2所述基于双流法的胃镜视频部位识别网络结构的识别运用,其特征在于,内镜检查下基于双流法的胃镜视频部位识别网络结构实时识别胃镜检查所在位置,辅助医生完成胃镜拍摄。
CN202110575372.7A 2021-05-26 2021-05-26 基于双流法的胃镜视频部位识别网络结构 Pending CN113284110A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110575372.7A CN113284110A (zh) 2021-05-26 2021-05-26 基于双流法的胃镜视频部位识别网络结构

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110575372.7A CN113284110A (zh) 2021-05-26 2021-05-26 基于双流法的胃镜视频部位识别网络结构

Publications (1)

Publication Number Publication Date
CN113284110A true CN113284110A (zh) 2021-08-20

Family

ID=77281544

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110575372.7A Pending CN113284110A (zh) 2021-05-26 2021-05-26 基于双流法的胃镜视频部位识别网络结构

Country Status (1)

Country Link
CN (1) CN113284110A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109102491A (zh) * 2018-06-28 2018-12-28 武汉大学人民医院(湖北省人民医院) 一种胃镜图像自动采集系统及方法
CN110136106A (zh) * 2019-05-06 2019-08-16 腾讯科技(深圳)有限公司 医疗内窥镜图像的识别方法、系统、设备和内窥镜影像系统
CN110265122A (zh) * 2019-06-20 2019-09-20 深圳开立生物医疗科技股份有限公司 基于内窥镜系统的图像处理方法、装置、设备及存储介质
CN111383214A (zh) * 2020-03-10 2020-07-07 苏州慧维智能医疗科技有限公司 实时内窥镜肠镜息肉检测系统
CN111783520A (zh) * 2020-05-18 2020-10-16 北京理工大学 基于双流网络的腹腔镜手术阶段自动识别方法及装置
US20200364859A1 (en) * 2019-05-16 2020-11-19 The Regents Of The University Of Michigan Automated Anatomic And Regional Location Of Disease Features In Colonoscopy Videos
US20210000404A1 (en) * 2019-07-05 2021-01-07 The Penn State Research Foundation Systems and methods for automated recognition of bodily expression of emotion
CN112446348A (zh) * 2020-12-08 2021-03-05 电子科技大学 一种基于特征谱流的行为识别方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109102491A (zh) * 2018-06-28 2018-12-28 武汉大学人民医院(湖北省人民医院) 一种胃镜图像自动采集系统及方法
CN110136106A (zh) * 2019-05-06 2019-08-16 腾讯科技(深圳)有限公司 医疗内窥镜图像的识别方法、系统、设备和内窥镜影像系统
WO2020224470A1 (zh) * 2019-05-06 2020-11-12 腾讯科技(深圳)有限公司 医疗内窥镜图像的识别方法、系统和内窥镜影像系统
US20200364859A1 (en) * 2019-05-16 2020-11-19 The Regents Of The University Of Michigan Automated Anatomic And Regional Location Of Disease Features In Colonoscopy Videos
CN110265122A (zh) * 2019-06-20 2019-09-20 深圳开立生物医疗科技股份有限公司 基于内窥镜系统的图像处理方法、装置、设备及存储介质
US20210000404A1 (en) * 2019-07-05 2021-01-07 The Penn State Research Foundation Systems and methods for automated recognition of bodily expression of emotion
CN111383214A (zh) * 2020-03-10 2020-07-07 苏州慧维智能医疗科技有限公司 实时内窥镜肠镜息肉检测系统
CN111783520A (zh) * 2020-05-18 2020-10-16 北京理工大学 基于双流网络的腹腔镜手术阶段自动识别方法及装置
CN112446348A (zh) * 2020-12-08 2021-03-05 电子科技大学 一种基于特征谱流的行为识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CHRISTOPH FEICHTENHOFER等: "SlowFast Networks for Video Recognition", 《2019 IEEE/CVF INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV)》, 27 February 2020 (2020-02-27), pages 6201 - 6210 *
CHRISTOPH FEICHTENHOFER等: "SlowFast Networks for Video Recognition", 《2019 IEEE/CVF INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV)》, pages 6201 - 6210 *
祁宝莲;钟坤华;陈芋文;: "基于卷积神经网络的半监督手术视频流程识别", 计算机科学, no. 1 *

Similar Documents

Publication Publication Date Title
Zhou et al. Learning rich features for image manipulation detection
Fan et al. Opengait: Revisiting gait recognition towards better practicality
Gao et al. Unified information fusion network for multi-modal RGB-D and RGB-T salient object detection
WO2021147500A1 (zh) 内窥镜图像处理方法、装置、电子设备及存储介质
Chang et al. ESFPNet: efficient deep learning architecture for real-time lesion segmentation in autofluorescence bronchoscopic video
Song et al. Global and local feature reconstruction for medical image segmentation
US20220296081A1 (en) Method for real-time detection of objects, structures or patterns in a video, an associated system and an associated computer readable medium
WO2006100808A1 (ja) カプセル内視鏡画像表示制御装置
Ding et al. Motion-aware contrastive video representation learning via foreground-background merging
US8768024B1 (en) System and method for real time detection of villi texture in an image stream of the gastrointestinal tract
CN110855889B (zh) 图像处理方法、装置、图像处理设备及存储介质
JP2010183290A (ja) 画像処理装置、画像処理プログラムおよび画像処理方法
Li et al. Nr-dfernet: Noise-robust network for dynamic facial expression recognition
WO2020108573A1 (zh) 视频图像遮挡方法、装置、设备及存储介质
Iakovidis et al. Efficient homography-based video visualization for wireless capsule endoscopy
CN111080639A (zh) 基于人工智能的多场景消化道内镜图像识别方法及系统
Zhang et al. Deepfake video detection with spatiotemporal dropout transformer
Zheng et al. Polyp tracking in video colonoscopy using optical flow with an on-the-fly trained CNN
Leibetseder et al. Real-time image-based smoke detection in endoscopic videos
CN115018767A (zh) 基于本征表示学习的跨模态内镜图像转换及病灶分割方法
Ashour et al. Colored video analysis in wireless capsule endoscopy: a survey of state-of-the-art
Jin et al. Automatic detection of early gastric cancer in endoscopy based on Mask region-based convolutional neural networks (Mask R-CNN)(with video)
CN113284110A (zh) 基于双流法的胃镜视频部位识别网络结构
Spyrou et al. Panoramic visual summaries for efficient reading of capsule endoscopy videos
US8929629B1 (en) Method and system for image-based ulcer detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination