CN112348125A - 基于深度学习的胶囊内窥镜影像识别方法、设备及介质 - Google Patents
基于深度学习的胶囊内窥镜影像识别方法、设备及介质 Download PDFInfo
- Publication number
- CN112348125A CN112348125A CN202110010379.4A CN202110010379A CN112348125A CN 112348125 A CN112348125 A CN 112348125A CN 202110010379 A CN202110010379 A CN 202110010379A CN 112348125 A CN112348125 A CN 112348125A
- Authority
- CN
- China
- Prior art keywords
- image
- rgb
- groups
- optical flow
- original
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 239000002775 capsule Substances 0.000 title claims abstract description 34
- 238000013135 deep learning Methods 0.000 title claims abstract description 23
- 230000003287 optical effect Effects 0.000 claims abstract description 40
- 238000003062 neural network model Methods 0.000 claims abstract description 8
- 238000013527 convolutional neural network Methods 0.000 claims description 27
- 238000012545 processing Methods 0.000 claims description 14
- 238000010606 normalization Methods 0.000 claims description 12
- 238000010586 diagram Methods 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 8
- 230000011218 segmentation Effects 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 6
- 239000000126 substance Substances 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 5
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 230000003902 lesion Effects 0.000 description 8
- 230000006872 improvement Effects 0.000 description 6
- 230000002123 temporal effect Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000033001 locomotion Effects 0.000 description 2
- 208000025865 Ulcer Diseases 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000000740 bleeding effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003628 erosive effect Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 210000001035 gastrointestinal tract Anatomy 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000001727 in vivo Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 210000000813 small intestine Anatomy 0.000 description 1
- 210000002784 stomach Anatomy 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 231100000397 ulcer Toxicity 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/20—Image enhancement or restoration using local operators
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/771—Feature selection, e.g. selecting representative features from a multi-dimensional feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/809—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/84—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using probabilistic graphical models from image or video features, e.g. Markov models or Bayesian networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/49—Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10068—Endoscopic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/03—Recognition of patterns in medical or anatomical images
- G06V2201/031—Recognition of patterns in medical or anatomical images of internal organs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/03—Recognition of patterns in medical or anatomical images
- G06V2201/032—Recognition of patterns in medical or anatomical images of protuberances, polyps nodules, etc.
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Radiology & Medical Imaging (AREA)
- Quality & Reliability (AREA)
- Image Analysis (AREA)
- Endoscopes (AREA)
- Image Processing (AREA)
Abstract
本发明提供了一种基于深度学习的胶囊内窥镜影像识别方法、设备及介质,所述方法包括:通过胶囊内窥镜按照时间生成顺序收集N幅原始图像;采用滑动窗口分割方法将N幅原始图像分割为大小相同的M组原始图像序列;解析N幅原始图像或解析M组原始图像序列形成M组RGB图像序列,以及解析N幅原始图像或解析M组RGB图像序列形成M组光流图像;每一所述RGB图像序列由RGB格式的图像数据构成,每一所述光流图像序列由通过计算相邻RGB图像的光流场所形成的图像数据构成;将所述RGB图像序列和所述光流图像序列分别输入到3D卷积神经网络模型以输出识别结果;所述识别结果为预设参数出现的概率值。本发明提高图像识别精度。
Description
技术领域
本发明涉及医疗设备成像领域,尤其涉及一种基于深度学习的胶囊内窥镜影像识别方法、电子设备及可读存储介质。
背景技术
胶囊内窥镜是一种医疗设备,其将摄像头、无线传输天线等核心器件集成;并在体内的消化道内采集图像并同步传送到体外,以根据获得的图像数据进行医疗检查。胶囊内窥镜在检测过程中会采集几万张图像,大量的图像数据使得阅片工作变得艰巨且耗时;随着技术的发展,利用图像处理和计算机视觉技术进行病灶识别获得了广泛的关注。
现有技术中,公开号为CN103984957A的中国专利申请,公开了一种胶囊内窥镜图像可疑病变区域自动预警系统,该系统采用图像增强模块对图像进行自适应增强,再通过纹理特征提取模块对平坦性病变的纹理特征进行检测,最后用分类预警模块进行分类,实现了对小肠平坦性病变的检测和预警功能。
公开号为CN111462082A的中国专利申请,公开了一种病灶图片识别装置、方法、设备及可读存储介质,其利用训练好的2D目标深度学习模型对单张图像进行病灶识别。
现有技术所提及的方案都是对单张图像进行识别,识别过程中只能利用单张图像拍摄的信息,不能综合利用前后拍摄的图像信息;如此,单一角度拍摄的图像并不能直观的反映出病灶的整体情况,尤其是在某些特定角度下拍摄的消化道褶皱、胃壁等图像容易和息肉、隆起等病变相混淆;另外,现有技术不能同时获得拍摄内容的空间和时间信息,病灶识别的准确率较低。
发明内容
为解决上述技术问题,本发明的目的在于提供一种基于深度学习的胶囊内窥镜影像识别方法、设备及介质。
为了实现上述发明目的之一,本发明一实施方式提供一种基于深度学习的胶囊内窥镜影像识别方法,所述方法包括:通过胶囊内窥镜按照时间生成顺序收集N幅原始图像;
采用滑动窗口分割方法将N幅原始图像分割为大小相同的M组原始图像序列;
解析N幅原始图像或解析M组原始图像序列形成M组RGB图像序列,以及解析N幅原始图像或解析M组RGB图像序列形成M组光流图像;
每一所述RGB图像序列由RGB格式的图像数据构成,每一所述光流图像序列由通过计算相邻RGB图像的光流场所形成的图像数据构成;
将所述RGB图像序列和所述光流图像序列分别输入到3D卷积神经网络模型以输出识别结果;所述识别结果为预设参数出现的概率值;
其中,将所述RGB图像序列和所述光流图像序列分别输入到3D卷积神经网络模型以输出识别结果,包括:
所述3D卷积神经网络模型包括:RGB支路和光流支路;
作为本发明一实施方式的进一步改进,采用滑动窗口分割方法将N幅原始图像分割为大小相同的M组原始图像序列,包括:
依据时间生成顺序为N幅原始图像进行编号,其依次为1,2,……N;
作为本发明一实施方式的进一步改进,3D卷积神经网络模型的训练方式包括:
将复制后的各核参数分别除以N,使得每一位置的核参数为原来的1/3;
利用随机梯度下降法训练参数初始化后的3D卷积神经网络模型,迭代更新模型的参数,直到满足迭代停止条件,形成用于输出识别结果的所述3D卷积神经网络模型。
作为本发明一实施方式的进一步改进,自处理流程的先后顺序排布,所述3D卷积神经网络模型包括:
7*7*7的3D卷积层,3*3*3的3D池化层,至少1个协同时空特征结构,3D池化层,全连接层。
作为本发明一实施方式的进一步改进,所述协同时空特征结构的数量为P个,P∈(4,16);
自输入至输出的处理流程的先后顺序排布,所述协同时空特征结构包括:第一协同时空卷积层,第一归一化层,激活层;以及与第一协同时空卷积层,第一归一化层,激活层并行执行、且从所述协同时空特征结构输入到输出的快连接。
作为本发明一实施方式的进一步改进,自输入至输出的处理流程的先后顺序排布,所述协同时空特征结构还包括:处于激活层之后的第二协同时空卷积层,第二归一化层。
作为本发明一实施方式的进一步改进,所述第一协同时空卷积层处理数据的流程包括:
为了解决上述发明目的之一,本发明一实施方式提供一种电子设备,包括存储器和处理器,所述存储器存储有可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如上所述基于深度学习的胶囊内窥镜影像识别方法中的步骤。
为了解决上述发明目的之一,本发明一实施方式提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述基于深度学习的胶囊内窥镜影像识别方法中的步骤。
与现有技术相比,本发明的有益效果是:本发明的基于深度学习的胶囊内窥镜影像识别方法、设备及介质,将连续拍摄的多帧图像形成特定格式的图像序列后,通过3D卷积神经网络模型对多帧图像进行多通道识别,进而联合各通道的识别概率输出识别结果,提高图像识别精度。
附图说明
图1是本发明第一实施方式基于深度学习的胶囊内窥镜影像识别方法的流程示意图;
图2是本发明一具体示例提供的滑动窗口分割示意图;
图3是本发明一具体示例提供的利用已训练好的2D识别模型卷积核参数生成3D卷积神经网络模型卷积核初始化参数的示意图;
图4是本发明提供的3D卷积神经网络模型的结构示意图;
图5是本发明提供的协同时空特征结构的结构示意图;
图6是本发明具体示例中协同时空卷积层处理数据的流程示意图。
具体实施方式
以下将结合附图所示的具体实施方式对本发明进行详细描述。但这些实施方式并不限制本发明,本领域的普通技术人员根据这些实施方式所做出的结构、方法、或功能上的变换均包含在本发明的保护范围内。
如图1所示,本发明第一实施方式中提供一种基于深度学习的胶囊内窥镜影像识别方法,所述方法包括:
S1、通过胶囊内窥镜按照时间生成顺序收集N幅原始图像;
S2、采用滑动窗口分割方法将N幅原始图像分割为大小相同的M组原始图像序列;
解析N幅原始图像或解析M组原始图像序列形成M组RGB图像序列,以及解析N幅原始图像或解析M组RGB图像序列形成M组光流图像;
每一所述RGB图像序列由RGB格式的图像数据构成,每一所述光流图像序列由通过计算相邻RGB图像的光流场所形成的图像数据构成;
S3、将所述RGB图像序列和所述光流图像序列分别输入到3D卷积神经网络模型以输出识别结果;所述识别结果为预设参数出现的概率值。
对于步骤S1,胶囊内窥镜运行过程中,通过其上设置的摄像头连续拍摄图像,并同步或异步地进行收集存储以形成原始图像;
对于步骤S2,采用滑动窗口分割方法将N幅原始图像分割为大小相同的M组原始图像序列,包括:依据时间生成顺序为N幅原始图像进行编号,其依次为1,2,……N;以预设窗口大小K,预设滑动步长S依次分割N幅图像,将其划分为M组原始图像序列,其中,。
具体的,经过分割后的第一组原始图像序列由编号为1、2、...、K的原始图像组成,第二组原始图像序列由编号为S+1、S+2、...、S+K的原始图像组成,经过依次分割后,最后一组原始图像序列由编号为N-K、N-K+1、...、N的原始图像组成,共分割成组原始图像序列,公式中符号表示向上取整。较佳的,K的取值范围为2≤K≤1000,S的取值范围为1≤S<K。
需要说明的是,若N不能被K整除,则存在一组原始图像序列的数量不为K,较佳的,将该数量不为K的原始图像序列设定为第一组或者最后一组;通常情况下,为了计算方便,选取用于计算的原始图像的数量N可以被K整除,在此不做进一步的赘述。
结合图2所示,本发明一具体示例中,原始图像总张数为N=10000张,滑动窗口的大小设置为K=10,滑动步长设置为S=5,则分割后的第一组原始图像序列由原始图像1、2、...、10组成,第二组原始图像序列由原始图像6、7、...、15组成,一直到最后一组原始图像序列由原始图像9991、9992、...、10000组成,共分割成1999个原始图像序列。
相应的,解析N幅原始图像或解析M组原始图像序列形成M组RGB图像序列,每一所述RGB图像序列由RGB格式的图像数据构成;具体的,将原始图像序列中的每一原始图像分别转换为RGB格式的图像,以将每一原始图像序列分别形成一对应的RGB图像序列;这里需要说明的是,也可以对N幅原始图像先做RGB格式转换,再采用与形成原始图像序列相同的滑动窗口分割方法形成M组RGB图像序列,上述两种方式形成的RGB图像序列相同。
另外,若原始图像为RGB格式的图像,则无需再次变换,原始图像序列即为RGB图像序列,在此不做进一步的赘述。
相应的,解析N幅原始图像或解析M组RGB图像序列形成M组光流图像,与RGB图像序列形成过程相类似的,可直接解析原始图像获取光流图像,再将光流图像按照形成原始图像序列相同的滑动窗口分割方法形成M组光流图像序列;也可以解析原始图像序列直接形成光流图像序列;具体的,以原始图像序列为例,先将原始图像序列转换为RGB图像序列,之后,通过计算相邻RGB图像的光流场得到光流场图像数据;在原始图像已知,获得原始图像相对应的RGB图像,光流图像均为现有技术,因此,在本专利中不做过多赘述。
对于步骤S3,3D卷积神经网络模型包括:RGB支路和光流支路;
将RGB图像序列输入RGB支路进行计算以输出第一分类概率p1;
将光流图像序列输入光流支路进行计算以输出第二分类概率p2;
对所述第一分类概率和所述第二分类概率进行融合形成所述识别结果p;
具体的,所述识别精度为成功识别的概率。
在具体应用中,所示识别结果为当前图像序列中包含病灶的概率,所述病灶例如:出血,溃疡,息肉,糜烂等,所述识别结果P的值越大,表示出现病灶的概率越大。
相应的,RGB支路对局部时空信息进行建模,能够很好的描述拍摄内容的外形轮廓;光流支路对相邻帧图像的变化进行建模,能够很好的捕捉胶囊内镜运动造成的拍摄内容的动态变化过程,有利于恢复全局的空间信息,因此,同一图像序列经过变换形成两种数据,并分别通过构建的两个支路进行识别输出,并进一步的将两个支路的结果进行融合,提高识别效果。
本发明具体实施方式中,RGB支路和光流支路的构建方式相同,本发明以下描述中以3D卷积神经网络模型概括两种支路。3D卷积神经网络模型通过将卷积核从二维扩展到三维,能够同时编码空间和时间信息;以对多帧图像进行病灶识别,综合利用连续拍摄的相邻图像得到的不同角度的拍摄信息,相对于2D卷积神经网络模型对单帧图像识别,能够利用的信息更多,从而提高识别精度。
具体的,3D卷积神经网络模型的训练方式包括:
M1、将预训练的2D识别模型中尺寸为的2D卷积核参数复制N遍;所述的2D识别模型通过有病灶标签的图像训练获得,其输入为单帧图像,且只能对单帧图像进行识别;2D识别模型的构建及应用均为现有技术,例如:背景技术CN111462082A的中国专利申请所公开内容,在此不做赘述。
M2、将复制后的各核参数分别除以N,使得每一位置的核参数为原来的1/3;
具体参考图3所示,将2D识别模型的3*3的卷积核复制3遍,进行维度扩充;进一步的,将每一维的数据单独除以3,形成3*3*3的3D卷积核的初始化参数。
进一步的,3D卷积神经网络模型的训练方式还包括:M4、利用随机梯度下降法训练参数初始化后的3D卷积神经网络模型,迭代更新模型的参数,直到满足迭代停止条件,形成用于输出识别结果的所述3D卷积神经网络模型。
较佳的,结合图4所示,自处理流程的先后顺序排布,所述3D卷积神经网络模型包括:7*7*7的3D卷积层,3*3*3的3D池化层,至少1个协同时空特征结构,3D池化层,全连接层。
所述协同时空特征结构的数量为P个,P∈(4,16),本发明具体实施方式中,配置P=8。
较佳的,结合图5所示,自输入至输出的处理流程的先后顺序排布,所述协同时空特征结构包括:第一协同时空卷积层,第一归一化层,激活层;以及与第一协同时空卷积层,第一归一化层,激活层并行执行、且从所述协同时空特征结构输入到输出的快连接。
较佳的,结合图6所示,第一协同时空卷积层和第二协同时空卷积层的处理流程相同,这里,将其均以协同时空卷积层表述;具体的,协同时空卷积层处理数据的流程包括:
所示协同时空卷积层对输入数据的三个正交视图进行卷积,分别学习空间外观和时间运动信息,通过共享不同视图的卷积核,协作学习空间和时间特征。
进一步的,本发明一实施方式提供一种电子设备,包括存储器和处理器,所述存储器存储有可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如上所述基于深度学习的胶囊内窥镜影像识别方法中的步骤。
进一步的,本发明一实施方式提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述基于深度学习的胶囊内窥镜影像识别方法中的步骤。
综上所述,本发明的基于深度学习的胶囊内窥镜影像识别方法、设备及介质,将连续拍摄的多帧图像形成特定格式的图像序列后,通过3D卷积神经网络模型对多帧图像进行多通道识别,进而联合各通道的识别概率输出识别结果,提高图像识别精度。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本发明时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
以上所描述的装置实施方式仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施方式方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施方式中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明,它们并非用以限制本发明的保护范围,凡未脱离本发明技艺精神所作的等效实施方式或变更均应包含在本发明的保护范围之内。
Claims (9)
1.一种基于深度学习的胶囊内窥镜影像识别方法,其特征在于,所述方法包括:
通过胶囊内窥镜按照时间生成顺序收集N幅原始图像;
采用滑动窗口分割方法将N幅原始图像分割为大小相同的M组原始图像序列;
解析N幅原始图像或解析M组原始图像序列形成M组RGB图像序列,以及解析N幅原始图像或解析M组RGB图像序列形成M组光流图像;
每一所述RGB图像序列由RGB格式的图像数据构成,每一所述光流图像序列由通过计算相邻RGB图像的光流场所形成的图像数据构成;
将所述RGB图像序列和所述光流图像序列分别输入到3D卷积神经网络模型以输出识别结果;所述识别结果为预设参数出现的概率值;
其中,将所述RGB图像序列和所述光流图像序列分别输入到3D卷积神经网络模型以输出识别结果,包括:
所述3D卷积神经网络模型包括:RGB支路和光流支路;
4.根据权利要求1所述的基于深度学习的胶囊内窥镜影像识别方法,其特征在于,自处理流程的先后顺序排布,所述3D卷积神经网络模型包括:
7*7*7的3D卷积层,3*3*3的3D池化层,至少1个协同时空特征结构,3D池化层,全连接层。
5.根据权利要求4所述的基于深度学习的胶囊内窥镜影像识别方法,其特征在于,所述协同时空特征结构的数量为P个,P∈(4,16);
自输入至输出的处理流程的先后顺序排布,所述协同时空特征结构包括:第一协同时空卷积层,第一归一化层,激活层;以及与第一协同时空卷积层,第一归一化层,激活层并行执行、且从所述协同时空特征结构输入到输出的快连接。
6.根据权利要求5所述的基于深度学习的胶囊内窥镜影像识别方法,其特征在于,自输入至输出的处理流程的先后顺序排布,所述协同时空特征结构还包括:处于激活层之后的第二协同时空卷积层,第二归一化层。
8.一种电子设备,包括存储器和处理器,所述存储器存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1-7任意一项所述基于深度学习的胶囊内窥镜影像识别方法中的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7任意一项所述基于深度学习的胶囊内窥镜影像识别方法中的步骤。
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110010379.4A CN112348125B (zh) | 2021-01-06 | 2021-01-06 | 基于深度学习的胶囊内窥镜影像识别方法、设备及介质 |
US18/260,528 US20240070858A1 (en) | 2021-01-06 | 2021-12-14 | Capsule endoscope image recognition method based on deep learning, and device and medium |
JP2023540947A JP7507318B2 (ja) | 2021-01-06 | 2021-12-14 | 深層学習に基づくカプセル内視鏡画像認識方法、機器及び媒体 |
PCT/CN2021/137938 WO2022148216A1 (zh) | 2021-01-06 | 2021-12-14 | 基于深度学习的胶囊内窥镜影像识别方法、设备及介质 |
EP21917257.4A EP4276684A4 (en) | 2021-01-06 | 2021-12-14 | CAPSULE ENDOSCOPE IMAGE RECOGNITION METHOD BASED ON DEEP LEARNING, DEVICE AND MEDIUM |
KR1020237022485A KR20230113386A (ko) | 2021-01-06 | 2021-12-14 | 딥러닝 기반의 캡슐 내시경 영상 식별 방법, 기기 및매체 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110010379.4A CN112348125B (zh) | 2021-01-06 | 2021-01-06 | 基于深度学习的胶囊内窥镜影像识别方法、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112348125A true CN112348125A (zh) | 2021-02-09 |
CN112348125B CN112348125B (zh) | 2021-04-02 |
Family
ID=74427399
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110010379.4A Active CN112348125B (zh) | 2021-01-06 | 2021-01-06 | 基于深度学习的胶囊内窥镜影像识别方法、设备及介质 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20240070858A1 (zh) |
EP (1) | EP4276684A4 (zh) |
KR (1) | KR20230113386A (zh) |
CN (1) | CN112348125B (zh) |
WO (1) | WO2022148216A1 (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113159238A (zh) * | 2021-06-23 | 2021-07-23 | 安翰科技(武汉)股份有限公司 | 内窥镜影像识别方法、电子设备及存储介质 |
CN113487605A (zh) * | 2021-09-03 | 2021-10-08 | 北京字节跳动网络技术有限公司 | 用于内窥镜的组织腔体定位方法、装置、介质及设备 |
CN113591761A (zh) * | 2021-08-09 | 2021-11-02 | 成都华栖云科技有限公司 | 一种视频镜头语言识别方法 |
CN113591961A (zh) * | 2021-07-22 | 2021-11-02 | 深圳市永吉星光电有限公司 | 一种基于神经网络的微创医用摄像头图像识别方法 |
WO2022148216A1 (zh) * | 2021-01-06 | 2022-07-14 | 安翰科技(武汉)股份有限公司 | 基于深度学习的胶囊内窥镜影像识别方法、设备及介质 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116309604B (zh) * | 2023-05-24 | 2023-08-22 | 中山大学肿瘤防治中心(中山大学附属肿瘤医院、中山大学肿瘤研究所) | 动态分析时序mr图像的方法、系统、设备和存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170372471A1 (en) * | 2016-06-28 | 2017-12-28 | Contextvision Ab | Method and system for detecting pathological anomalies in a digital pathology image and method for annotating a tissue slide |
CN108292366A (zh) * | 2015-09-10 | 2018-07-17 | 美基蒂克艾尔有限公司 | 在内窥镜手术中检测可疑组织区域的系统和方法 |
CN109886358A (zh) * | 2019-03-21 | 2019-06-14 | 上海理工大学 | 基于多时空信息融合卷积神经网络的人体行为识别方法 |
CN110705463A (zh) * | 2019-09-29 | 2020-01-17 | 山东大学 | 基于多模态双流3d网络的视频人体行为识别方法及系统 |
CN111383214A (zh) * | 2020-03-10 | 2020-07-07 | 苏州慧维智能医疗科技有限公司 | 实时内窥镜肠镜息肉检测系统 |
CN111950444A (zh) * | 2020-08-10 | 2020-11-17 | 北京师范大学珠海分校 | 一种基于时空特征融合深度学习网络的视频行为识别方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5191240B2 (ja) * | 2008-01-09 | 2013-05-08 | オリンパス株式会社 | シーン変化検出装置およびシーン変化検出プログラム |
JP5281826B2 (ja) * | 2008-06-05 | 2013-09-04 | オリンパス株式会社 | 画像処理装置、画像処理プログラムおよび画像処理方法 |
CN103984957A (zh) | 2014-05-04 | 2014-08-13 | 中国科学院深圳先进技术研究院 | 胶囊内窥镜图像可疑病变区域自动预警系统 |
CN109740670B (zh) * | 2019-01-02 | 2022-01-11 | 京东方科技集团股份有限公司 | 视频分类的方法及装置 |
CN109934276B (zh) * | 2019-03-05 | 2020-11-17 | 安翰科技(武汉)股份有限公司 | 基于迁移学习的胶囊内窥镜图像分类系统及方法 |
CN110222574B (zh) * | 2019-05-07 | 2021-06-29 | 杭州智尚云科信息技术有限公司 | 基于结构化双流卷积神经网络的生产操作行为识别方法、装置、设备、系统及存储介质 |
CN111462082A (zh) | 2020-03-31 | 2020-07-28 | 重庆金山医疗技术研究院有限公司 | 一种病灶图片识别装置、方法、设备及可读存储介质 |
CN112348125B (zh) * | 2021-01-06 | 2021-04-02 | 安翰科技(武汉)股份有限公司 | 基于深度学习的胶囊内窥镜影像识别方法、设备及介质 |
-
2021
- 2021-01-06 CN CN202110010379.4A patent/CN112348125B/zh active Active
- 2021-12-14 EP EP21917257.4A patent/EP4276684A4/en active Pending
- 2021-12-14 US US18/260,528 patent/US20240070858A1/en active Pending
- 2021-12-14 WO PCT/CN2021/137938 patent/WO2022148216A1/zh active Application Filing
- 2021-12-14 KR KR1020237022485A patent/KR20230113386A/ko active Search and Examination
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108292366A (zh) * | 2015-09-10 | 2018-07-17 | 美基蒂克艾尔有限公司 | 在内窥镜手术中检测可疑组织区域的系统和方法 |
US20170372471A1 (en) * | 2016-06-28 | 2017-12-28 | Contextvision Ab | Method and system for detecting pathological anomalies in a digital pathology image and method for annotating a tissue slide |
CN109886358A (zh) * | 2019-03-21 | 2019-06-14 | 上海理工大学 | 基于多时空信息融合卷积神经网络的人体行为识别方法 |
CN110705463A (zh) * | 2019-09-29 | 2020-01-17 | 山东大学 | 基于多模态双流3d网络的视频人体行为识别方法及系统 |
CN111383214A (zh) * | 2020-03-10 | 2020-07-07 | 苏州慧维智能医疗科技有限公司 | 实时内窥镜肠镜息肉检测系统 |
CN111950444A (zh) * | 2020-08-10 | 2020-11-17 | 北京师范大学珠海分校 | 一种基于时空特征融合深度学习网络的视频行为识别方法 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022148216A1 (zh) * | 2021-01-06 | 2022-07-14 | 安翰科技(武汉)股份有限公司 | 基于深度学习的胶囊内窥镜影像识别方法、设备及介质 |
CN113159238A (zh) * | 2021-06-23 | 2021-07-23 | 安翰科技(武汉)股份有限公司 | 内窥镜影像识别方法、电子设备及存储介质 |
CN113159238B (zh) * | 2021-06-23 | 2021-10-26 | 安翰科技(武汉)股份有限公司 | 内窥镜影像识别方法、电子设备及存储介质 |
WO2022267981A1 (zh) * | 2021-06-23 | 2022-12-29 | 安翰科技(武汉)股份有限公司 | 内窥镜影像识别方法、电子设备及存储介质 |
CN113591961A (zh) * | 2021-07-22 | 2021-11-02 | 深圳市永吉星光电有限公司 | 一种基于神经网络的微创医用摄像头图像识别方法 |
CN113591761A (zh) * | 2021-08-09 | 2021-11-02 | 成都华栖云科技有限公司 | 一种视频镜头语言识别方法 |
CN113487605A (zh) * | 2021-09-03 | 2021-10-08 | 北京字节跳动网络技术有限公司 | 用于内窥镜的组织腔体定位方法、装置、介质及设备 |
CN113487605B (zh) * | 2021-09-03 | 2021-11-19 | 北京字节跳动网络技术有限公司 | 用于内窥镜的组织腔体定位方法、装置、介质及设备 |
WO2023029741A1 (zh) * | 2021-09-03 | 2023-03-09 | 北京字节跳动网络技术有限公司 | 用于内窥镜的组织腔体定位方法、装置、介质及设备 |
Also Published As
Publication number | Publication date |
---|---|
EP4276684A4 (en) | 2024-05-29 |
WO2022148216A1 (zh) | 2022-07-14 |
CN112348125B (zh) | 2021-04-02 |
JP2024502105A (ja) | 2024-01-17 |
US20240070858A1 (en) | 2024-02-29 |
KR20230113386A (ko) | 2023-07-28 |
EP4276684A1 (en) | 2023-11-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112348125B (zh) | 基于深度学习的胶囊内窥镜影像识别方法、设备及介质 | |
US20210406591A1 (en) | Medical image processing method and apparatus, and medical image recognition method and apparatus | |
CN109522874B (zh) | 人体动作识别方法、装置、终端设备及存储介质 | |
Rahim et al. | A deep convolutional neural network for the detection of polyps in colonoscopy images | |
JP2021513435A (ja) | 胃腸腫瘍を診断するシステム及び方法 | |
CN112236779A (zh) | 基于卷积神经网络的图像处理方法和图像处理装置 | |
CN111276240B (zh) | 一种基于图卷积网络的多标签多模态全息脉象识别方法 | |
CN110859642B (zh) | 一种基于AlexNet网络模型实现医学影像辅助诊断的方法、装置、设备及存储介质 | |
CN111091536A (zh) | 医学图像处理方法、装置、设备、介质以及内窥镜 | |
CN112183541B (zh) | 一种轮廓提取方法及装置、电子设备、存储介质 | |
CN112085736B (zh) | 一种基于混维卷积的肾肿瘤分割方法 | |
CN114187296B (zh) | 胶囊内窥镜图像病灶分割方法、服务器及系统 | |
CN110648331A (zh) | 用于医学图像分割的检测方法、医学图像分割方法及装置 | |
CN115223193B (zh) | 一种基于病灶特征重要性的胶囊内窥镜图像病灶识别方法 | |
CN113781489A (zh) | 一种息肉影像语义分割方法及装置 | |
CN115115575A (zh) | 一种图像检测方法、装置、计算机设备及存储介质 | |
Guo et al. | Blind image quality assessment for pathological microscopic image under screen and immersion scenarios | |
CN116935044B (zh) | 一种多尺度引导和多层次监督的内镜息肉分割方法 | |
Sushma et al. | CNN based U-net with modified skip connections for colon polyp segmentation | |
CN115984949B (zh) | 一种带有注意力机制的低质量人脸图像识别方法及设备 | |
JP7507318B2 (ja) | 深層学習に基づくカプセル内視鏡画像認識方法、機器及び媒体 | |
Amirthalingam et al. | Improved Water Strider Optimization with Deep Learning based Image Classification for Wireless Capsule Endoscopy | |
US11961225B2 (en) | Systems and methods for detecting potential malignancies | |
Jin et al. | EAC-net: efficient and accurate convolutional network for video recognition | |
Zhang et al. | Semantic feature attention network for liver tumor segmentation in large-scale CT database |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |