CN112348125B - 基于深度学习的胶囊内窥镜影像识别方法、设备及介质 - Google Patents

基于深度学习的胶囊内窥镜影像识别方法、设备及介质 Download PDF

Info

Publication number
CN112348125B
CN112348125B CN202110010379.4A CN202110010379A CN112348125B CN 112348125 B CN112348125 B CN 112348125B CN 202110010379 A CN202110010379 A CN 202110010379A CN 112348125 B CN112348125 B CN 112348125B
Authority
CN
China
Prior art keywords
image
rgb
optical flow
sequence
groups
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110010379.4A
Other languages
English (en)
Other versions
CN112348125A (zh
Inventor
张行
张皓
袁文金
张楚康
刘慧�
黄志威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ankon Technologies Co Ltd
Original Assignee
Ankon Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ankon Technologies Co Ltd filed Critical Ankon Technologies Co Ltd
Priority to CN202110010379.4A priority Critical patent/CN112348125B/zh
Publication of CN112348125A publication Critical patent/CN112348125A/zh
Application granted granted Critical
Publication of CN112348125B publication Critical patent/CN112348125B/zh
Priority to EP21917257.4A priority patent/EP4276684A1/en
Priority to JP2023540947A priority patent/JP2024502105A/ja
Priority to PCT/CN2021/137938 priority patent/WO2022148216A1/zh
Priority to KR1020237022485A priority patent/KR20230113386A/ko
Priority to US18/260,528 priority patent/US20240070858A1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration by the use of local operators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/771Feature selection, e.g. selecting representative features from a multi-dimensional feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/84Arrangements for image or video recognition or understanding using pattern recognition or machine learning using probabilistic graphical models from image or video features, e.g. Markov models or Bayesian networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10068Endoscopic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/03Recognition of patterns in medical or anatomical images
    • G06V2201/031Recognition of patterns in medical or anatomical images of internal organs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/03Recognition of patterns in medical or anatomical images
    • G06V2201/032Recognition of patterns in medical or anatomical images of protuberances, polyps nodules, etc.

Abstract

本发明提供了一种基于深度学习的胶囊内窥镜影像识别方法、设备及介质,所述方法包括:通过胶囊内窥镜按照时间生成顺序收集N幅原始图像;采用滑动窗口分割方法将N幅原始图像分割为大小相同的M组原始图像序列;解析N幅原始图像或解析M组原始图像序列形成M组RGB图像序列,以及解析N幅原始图像或解析M组RGB图像序列形成M组光流图像;每一所述RGB图像序列由RGB格式的图像数据构成,每一所述光流图像序列由通过计算相邻RGB图像的光流场所形成的图像数据构成;将所述RGB图像序列和所述光流图像序列分别输入到3D卷积神经网络模型以输出识别结果;所述识别结果为预设参数出现的概率值。本发明提高图像识别精度。

Description

基于深度学习的胶囊内窥镜影像识别方法、设备及介质
技术领域
本发明涉及医疗设备成像领域,尤其涉及一种基于深度学习的胶囊内窥镜影像识别方法、电子设备及可读存储介质。
背景技术
胶囊内窥镜是一种医疗设备,其将摄像头、无线传输天线等核心器件集成;并在体内的消化道内采集图像并同步传送到体外,以根据获得的图像数据进行医疗检查。胶囊内窥镜在检测过程中会采集几万张图像,大量的图像数据使得阅片工作变得艰巨且耗时;随着技术的发展,利用图像处理和计算机视觉技术进行病灶识别获得了广泛的关注。
现有技术中,公开号为CN103984957A的中国专利申请,公开了一种胶囊内窥镜图像可疑病变区域自动预警系统,该系统采用图像增强模块对图像进行自适应增强,再通过纹理特征提取模块对平坦性病变的纹理特征进行检测,最后用分类预警模块进行分类,实现了对小肠平坦性病变的检测和预警功能。
公开号为CN111462082A的中国专利申请,公开了一种病灶图片识别装置、方法、设备及可读存储介质,其利用训练好的2D目标深度学习模型对单张图像进行病灶识别。
现有技术所提及的方案都是对单张图像进行识别,识别过程中只能利用单张图像拍摄的信息,不能综合利用前后拍摄的图像信息;如此,单一角度拍摄的图像并不能直观的反映出病灶的整体情况,尤其是在某些特定角度下拍摄的消化道褶皱、胃壁等图像容易和息肉、隆起等病变相混淆;另外,现有技术不能同时获得拍摄内容的空间和时间信息,病灶识别的准确率较低。
发明内容
为解决上述技术问题,本发明的目的在于提供一种基于深度学习的胶囊内窥镜影像识别方法、设备及介质。
为了实现上述发明目的之一,本发明一实施方式提供一种基于深度学习的胶囊内窥镜影像识别方法,所述方法包括:通过胶囊内窥镜按照时间生成顺序收集N幅原始图像;
采用滑动窗口分割方法将N幅原始图像分割为大小相同的M组原始图像序列;
解析N幅原始图像或解析M组原始图像序列形成M组RGB图像序列,以及解析N幅原始图像或解析M组RGB图像序列形成M组光流图像;
每一所述RGB图像序列由RGB格式的图像数据构成,每一所述光流图像序列由通过计算相邻RGB图像的光流场所形成的图像数据构成;
将所述RGB图像序列和所述光流图像序列分别输入到3D卷积神经网络模型以输出识别结果;所述识别结果为预设参数出现的概率值;
其中,将所述RGB图像序列和所述光流图像序列分别输入到3D卷积神经网络模型以输出识别结果,包括:
所述3D卷积神经网络模型包括:RGB支路和光流支路;
将RGB图像序列输入RGB支路进行计算以输出第一分类概率
Figure 95866DEST_PATH_IMAGE001
将光流图像序列输入光流支路进行计算以输出第二分类概率
Figure 618114DEST_PATH_IMAGE002
对所述第一分类概率和所述第二分类概率进行融合形成所述识别结果
Figure 777001DEST_PATH_IMAGE003
Figure 851137DEST_PATH_IMAGE004
Figure 877998DEST_PATH_IMAGE005
Figure 203938DEST_PATH_IMAGE006
;
其中
Figure DEST_PATH_IMAGE007
,
Figure 960541DEST_PATH_IMAGE008
分别表示构建3D卷积神经网络模型过程中,验证集分别在RGB支路和光流支路的识别精度。
作为本发明一实施方式的进一步改进,采用滑动窗口分割方法将N幅原始图像分割为大小相同的M组原始图像序列,包括:
依据时间生成顺序为N幅原始图像进行编号,其依次为1,2,……N;
以预设窗口大小K,预设滑动步长S依次分割N幅图像,将其划分为M组原始图像序列,其中,
Figure DEST_PATH_IMAGE009
作为本发明一实施方式的进一步改进,3D卷积神经网络模型的训练方式包括:
将预训练的2D识别模型中尺寸为
Figure 674419DEST_PATH_IMAGE010
的2D卷积核参数复制N遍;所述的2D识别模型通过有病灶标签的图像训练获得,其输入为单帧图像,且只能对单帧图像进行识别;
将复制后的各核参数分别除以N,使得每一位置的核参数为原来的1/3;
将新的核参数重新组合形成尺寸为
Figure 313211DEST_PATH_IMAGE011
的卷积核参数,以构成3D卷积神经网络模型中3D卷积核的初始化参数;
利用随机梯度下降法训练参数初始化后的3D卷积神经网络模型,迭代更新模型的参数,直到满足迭代停止条件,形成用于输出识别结果的所述3D卷积神经网络模型。
作为本发明一实施方式的进一步改进,自处理流程的先后顺序排布,所述3D卷积神经网络模型包括:
7*7*7的3D卷积层,3*3*3的3D池化层,至少1个协同时空特征结构,3D池化层,全连接层。
作为本发明一实施方式的进一步改进,所述协同时空特征结构的数量为P个,P∈(4,16);
自输入至输出的处理流程的先后顺序排布,所述协同时空特征结构包括:第一协同时空卷积层,第一归一化层,激活层;以及与第一协同时空卷积层,第一归一化层,激活层并行执行、且从所述协同时空特征结构输入到输出的快连接。
作为本发明一实施方式的进一步改进,自输入至输出的处理流程的先后顺序排布,所述协同时空特征结构还包括:处于激活层之后的第二协同时空卷积层,第二归一化层。
作为本发明一实施方式的进一步改进,所述第一协同时空卷积层处理数据的流程包括:
将其入口输入特征图分解为三个视图,分别以
Figure 177262DEST_PATH_IMAGE012
Figure 319530DEST_PATH_IMAGE013
Figure 735468DEST_PATH_IMAGE014
表示,
配置三个视图的输出特征分别以
Figure 736922DEST_PATH_IMAGE015
Figure 404664DEST_PATH_IMAGE016
Figure 401438DEST_PATH_IMAGE017
表示,则:
Figure 129223DEST_PATH_IMAGE018
其中,
Figure 479957DEST_PATH_IMAGE019
为尺寸
Figure 951390DEST_PATH_IMAGE020
的输入数据,
Figure 802671DEST_PATH_IMAGE021
为输入特征图,
Figure 701357DEST_PATH_IMAGE022
为输入特征图的通道数,
Figure 270879DEST_PATH_IMAGE023
表示三维卷积,
Figure 546002DEST_PATH_IMAGE024
表示卷积滤波核;
对三组输入数据进行加权求和得到第一协同时空卷积层的输出
Figure 782949DEST_PATH_IMAGE025
Figure 586957DEST_PATH_IMAGE026
其中,
Figure 50299DEST_PATH_IMAGE027
为尺寸
Figure 722589DEST_PATH_IMAGE028
的系数,且
Figure 689408DEST_PATH_IMAGE029
使用softmax进行归一化,
Figure 54530DEST_PATH_IMAGE030
为输出的通道数,数字3表示三个视图。
为了解决上述发明目的之一,本发明一实施方式提供一种电子设备,包括存储器和处理器,所述存储器存储有可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如上所述基于深度学习的胶囊内窥镜影像识别方法中的步骤。
为了解决上述发明目的之一,本发明一实施方式提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述基于深度学习的胶囊内窥镜影像识别方法中的步骤。
与现有技术相比,本发明的有益效果是:本发明的基于深度学习的胶囊内窥镜影像识别方法、设备及介质,将连续拍摄的多帧图像形成特定格式的图像序列后,通过3D卷积神经网络模型对多帧图像进行多通道识别,进而联合各通道的识别概率输出识别结果,提高图像识别精度。
附图说明
图1是本发明第一实施方式基于深度学习的胶囊内窥镜影像识别方法的流程示意图;
图2是本发明一具体示例提供的滑动窗口分割示意图;
图3是本发明一具体示例提供的利用已训练好的2D识别模型卷积核参数生成3D卷积神经网络模型卷积核初始化参数的示意图;
图4是本发明提供的3D卷积神经网络模型的结构示意图;
图5是本发明提供的协同时空特征结构的结构示意图;
图6是本发明具体示例中协同时空卷积层处理数据的流程示意图。
具体实施方式
以下将结合附图所示的具体实施方式对本发明进行详细描述。但这些实施方式并不限制本发明,本领域的普通技术人员根据这些实施方式所做出的结构、方法、或功能上的变换均包含在本发明的保护范围内。
如图1所示,本发明第一实施方式中提供一种基于深度学习的胶囊内窥镜影像识别方法,所述方法包括:
S1、通过胶囊内窥镜按照时间生成顺序收集N幅原始图像;
S2、采用滑动窗口分割方法将N幅原始图像分割为大小相同的M组原始图像序列;
解析N幅原始图像或解析M组原始图像序列形成M组RGB图像序列,以及解析N幅原始图像或解析M组RGB图像序列形成M组光流图像;
每一所述RGB图像序列由RGB格式的图像数据构成,每一所述光流图像序列由通过计算相邻RGB图像的光流场所形成的图像数据构成;
S3、将所述RGB图像序列和所述光流图像序列分别输入到3D卷积神经网络模型以输出识别结果;所述识别结果为预设参数出现的概率值。
对于步骤S1,胶囊内窥镜运行过程中,通过其上设置的摄像头连续拍摄图像,并同步或异步地进行收集存储以形成原始图像;
对于步骤S2,采用滑动窗口分割方法将N幅原始图像分割为大小相同的M组原始图像序列,包括:依据时间生成顺序为N幅原始图像进行编号,其依次为1,2,……N;以预设窗口大小K,预设滑动步长S依次分割N幅图像,将其划分为M组原始图像序列,其中,
Figure 739589DEST_PATH_IMAGE009
具体的,经过分割后的第一组原始图像序列由编号为1、2、...、K的原始图像组成,第二组原始图像序列由编号为S+1、S+2、...、S+K的原始图像组成,经过依次分割后,最后一组原始图像序列由编号为N-K、N-K+1、...、N的原始图像组成,共分割成
Figure 215570DEST_PATH_IMAGE031
组原始图像序列,公式中符号
Figure 302475DEST_PATH_IMAGE032
表示向上取整。较佳的,K的取值范围为2≤K≤1000,S的取值范围为1≤S<K。
需要说明的是,若N不能被K整除,则存在一组原始图像序列的数量不为K,较佳的,将该数量不为K的原始图像序列设定为第一组或者最后一组;通常情况下,为了计算方便,选取用于计算的原始图像的数量N可以被K整除,在此不做进一步的赘述。
结合图2所示,本发明一具体示例中,原始图像总张数为N=10000张,滑动窗口的大小设置为K=10,滑动步长设置为S=5,则分割后的第一组原始图像序列由原始图像1、2、...、10组成,第二组原始图像序列由原始图像6、7、...、15组成,一直到最后一组原始图像序列由原始图像9991、9992、...、10000组成,共分割成1999个原始图像序列。
相应的,解析N幅原始图像或解析M组原始图像序列形成M组RGB图像序列,每一所述RGB图像序列由RGB格式的图像数据构成;具体的,将原始图像序列中的每一原始图像分别转换为RGB格式的图像,以将每一原始图像序列分别形成一对应的RGB图像序列;这里需要说明的是,也可以对N幅原始图像先做RGB格式转换,再采用与形成原始图像序列相同的滑动窗口分割方法形成M组RGB图像序列,上述两种方式形成的RGB图像序列相同。
另外,若原始图像为RGB格式的图像,则无需再次变换,原始图像序列即为RGB图像序列,在此不做进一步的赘述。
相应的,解析N幅原始图像或解析M组RGB图像序列形成M组光流图像,与RGB图像序列形成过程相类似的,可直接解析原始图像获取光流图像,再将光流图像按照形成原始图像序列相同的滑动窗口分割方法形成M组光流图像序列;也可以解析原始图像序列直接形成光流图像序列;具体的,以原始图像序列为例,先将原始图像序列转换为RGB图像序列,之后,通过计算相邻RGB图像的光流场得到光流场图像数据;在原始图像已知,获得原始图像相对应的RGB图像,光流图像均为现有技术,因此,在本专利中不做过多赘述。
对于步骤S3,3D卷积神经网络模型包括:RGB支路和光流支路;
将RGB图像序列输入RGB支路进行计算以输出第一分类概率p1;
将光流图像序列输入光流支路进行计算以输出第二分类概率p2;
对所述第一分类概率和所述第二分类概率进行融合形成所述识别结果p;
Figure 713864DEST_PATH_IMAGE004
Figure 745274DEST_PATH_IMAGE005
Figure 231138DEST_PATH_IMAGE006
;
其中
Figure 172549DEST_PATH_IMAGE007
,
Figure 879474DEST_PATH_IMAGE008
分别表示构建3D卷积神经网络模型过程中,验证集分别在RGB支路和光流支路的识别精度。
具体的,所述识别精度为成功识别的概率。
本发明一具体示例中,
Figure 273546DEST_PATH_IMAGE033
Figure 91330DEST_PATH_IMAGE034
,则
Figure 887247DEST_PATH_IMAGE035
,则
Figure 765073DEST_PATH_IMAGE036
在具体应用中,所示识别结果为当前图像序列中包含病灶的概率,所述病灶例如:出血,溃疡,息肉,糜烂等,所述识别结果P的值越大,表示出现病灶的概率越大。
相应的,RGB支路对局部时空信息进行建模,能够很好的描述拍摄内容的外形轮廓;光流支路对相邻帧图像的变化进行建模,能够很好的捕捉胶囊内镜运动造成的拍摄内容的动态变化过程,有利于恢复全局的空间信息,因此,同一图像序列经过变换形成两种数据,并分别通过构建的两个支路进行识别输出,并进一步的将两个支路的结果进行融合,提高识别效果。
本发明具体实施方式中,RGB支路和光流支路的构建方式相同,本发明以下描述中以3D卷积神经网络模型概括两种支路。3D卷积神经网络模型通过将卷积核从二维扩展到三维,能够同时编码空间和时间信息;以对多帧图像进行病灶识别,综合利用连续拍摄的相邻图像得到的不同角度的拍摄信息,相对于2D卷积神经网络模型对单帧图像识别,能够利用的信息更多,从而提高识别精度。
具体的,3D卷积神经网络模型的训练方式包括:
M1、将预训练的2D识别模型中尺寸为
Figure 646442DEST_PATH_IMAGE010
的2D卷积核参数复制N遍;所述的2D识别模型通过有病灶标签的图像训练获得,其输入为单帧图像,且只能对单帧图像进行识别;2D识别模型的构建及应用均为现有技术,例如:背景技术CN111462082A的中国专利申请所公开内容,在此不做赘述。
M2、将复制后的各核参数分别除以N,使得每一位置的核参数为原来的1/3;
M3、将新的核参数重新组合形成尺寸为
Figure 143282DEST_PATH_IMAGE011
的卷积核参数,以构成3D卷积神经网络模型中3D卷积核的初始化参数;
具体参考图3所示,将2D识别模型的3*3的卷积核复制3遍,进行维度扩充;进一步的,将每一维的数据单独除以3,形成3*3*3的3D卷积核的初始化参数。
进一步的,3D卷积神经网络模型的训练方式还包括:M4、利用随机梯度下降法训练参数初始化后的3D卷积神经网络模型,迭代更新模型的参数,直到满足迭代停止条件,形成用于输出识别结果的所述3D卷积神经网络模型。
较佳的,结合图4所示,自处理流程的先后顺序排布,所述3D卷积神经网络模型包括:7*7*7的3D卷积层,3*3*3的3D池化层,至少1个协同时空特征结构,3D池化层,全连接层。
所述协同时空特征结构的数量为P个,P∈(4,16),本发明具体实施方式中,配置P=8。
较佳的,结合图5所示,自输入至输出的处理流程的先后顺序排布,所述协同时空特征结构包括:第一协同时空卷积层,第一归一化层,激活层;以及与第一协同时空卷积层,第一归一化层,激活层并行执行、且从所述协同时空特征结构输入到输出的快连接。
较佳的,结合图6所示,第一协同时空卷积层和第二协同时空卷积层的处理流程相同,这里,将其均以协同时空卷积层表述;具体的,协同时空卷积层处理数据的流程包括:
将其入口输入特征图分解为三个视图,分别以
Figure 918340DEST_PATH_IMAGE012
Figure 108013DEST_PATH_IMAGE013
Figure 601311DEST_PATH_IMAGE014
表示,
配置三个视图的输出特征分别以
Figure 636263DEST_PATH_IMAGE015
Figure 406773DEST_PATH_IMAGE016
Figure 626402DEST_PATH_IMAGE017
表示,则:
Figure 747942DEST_PATH_IMAGE018
其中,
Figure 445639DEST_PATH_IMAGE019
为尺寸
Figure 336235DEST_PATH_IMAGE020
的输入数据,
Figure 602131DEST_PATH_IMAGE021
为输入特征图,
Figure 807372DEST_PATH_IMAGE022
为输入特征图的通道数,
Figure 715285DEST_PATH_IMAGE023
表示三维卷积,
Figure 319442DEST_PATH_IMAGE024
表示卷积滤波核;
对三组输入数据进行加权求和得到第一协同时空卷积层的输出
Figure 21819DEST_PATH_IMAGE025
Figure 586792DEST_PATH_IMAGE038
其中,
Figure 626292DEST_PATH_IMAGE027
为尺寸
Figure 491480DEST_PATH_IMAGE039
的系数,且
Figure 223813DEST_PATH_IMAGE029
使用softmax进行归一化,
Figure 276083DEST_PATH_IMAGE030
为输出的通道数,数字3表示三个视图。
所示协同时空卷积层对输入数据的三个正交视图进行卷积,分别学习空间外观和时间运动信息,通过共享不同视图的卷积核,协作学习空间和时间特征。
Figure 260219DEST_PATH_IMAGE027
使用softmax进行归一化,可以防止响应的数量级爆炸。
进一步的,本发明一实施方式提供一种电子设备,包括存储器和处理器,所述存储器存储有可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如上所述基于深度学习的胶囊内窥镜影像识别方法中的步骤。
进一步的,本发明一实施方式提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述基于深度学习的胶囊内窥镜影像识别方法中的步骤。
综上所述,本发明的基于深度学习的胶囊内窥镜影像识别方法、设备及介质,将连续拍摄的多帧图像形成特定格式的图像序列后,通过3D卷积神经网络模型对多帧图像进行多通道识别,进而联合各通道的识别概率输出识别结果,提高图像识别精度。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本发明时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
以上所描述的装置实施方式仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施方式方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施方式中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明,它们并非用以限制本发明的保护范围,凡未脱离本发明技艺精神所作的等效实施方式或变更均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于深度学习的胶囊内窥镜影像识别方法,其特征在于,所述方法包括:
通过胶囊内窥镜按照时间生成顺序收集N幅原始图像;
采用滑动窗口分割方法将N幅原始图像分割为大小相同的M组原始图像序列;
解析N幅原始图像或解析M组RGB图像序列形成M组光流图像;
每一所述RGB图像序列由RGB格式的图像数据构成,每一所述光流图像序列由通过计算相邻RGB图像的光流场所形成的图像数据构成;
将所述RGB图像序列和所述光流图像序列分别输入到3D卷积神经网络模型以输出识别结果;所述识别结果为预设参数出现的概率值;
所述3D卷积神经网络模型包括:RGB支路和光流支路;自处理流程的先后顺序排布,所述3D卷积神经网络模型包括:7*7*7的3D卷积层,3*3*3的3D池化层,至少1个协同时空特征结构,3D池化层,全连接层;
其中,将所述RGB图像序列和所述光流图像序列分别输入到3D卷积神经网络模型以输出识别结果,包括:
将RGB图像序列输入RGB支路进行计算以输出第一分类概率
Figure 379879DEST_PATH_IMAGE001
将光流图像序列输入光流支路进行计算以输出第二分类概率
Figure 641227DEST_PATH_IMAGE002
对所述第一分类概率和所述第二分类概率进行融合形成所述识别结果
Figure 217702DEST_PATH_IMAGE003
Figure 81753DEST_PATH_IMAGE004
Figure 240333DEST_PATH_IMAGE005
Figure 531637DEST_PATH_IMAGE006
;
其中
Figure 392146DEST_PATH_IMAGE007
,
Figure 59887DEST_PATH_IMAGE008
分别表示构建3D卷积神经网络模型过程中,验证集分别在RGB支路和光流支路的识别精度;
第一协同时空卷积层处理数据的流程包括:
将其入口输入特征图分解为三个视图,分别以
Figure 72974DEST_PATH_IMAGE009
Figure 535179DEST_PATH_IMAGE010
Figure 882984DEST_PATH_IMAGE011
表示,
配置三个视图的输出特征分别以
Figure 885575DEST_PATH_IMAGE012
Figure 956430DEST_PATH_IMAGE013
Figure 651854DEST_PATH_IMAGE014
表示,则:
Figure 690217DEST_PATH_IMAGE015
其中,
Figure 434182DEST_PATH_IMAGE016
Figure 421861DEST_PATH_IMAGE017
的输入数据,
Figure 22606DEST_PATH_IMAGE018
为输入特征图的尺寸,
Figure 220370DEST_PATH_IMAGE019
为输入特征图的通道数,
Figure 95922DEST_PATH_IMAGE020
表示三维卷积,
Figure 938107DEST_PATH_IMAGE021
表示卷积滤波核;
对三组输入数据进行加权求和得到第一协同时空卷积层的输出
Figure 975333DEST_PATH_IMAGE022
Figure 394813DEST_PATH_IMAGE023
其中,
Figure 870794DEST_PATH_IMAGE024
为尺寸
Figure 426540DEST_PATH_IMAGE025
的系数,且
Figure 973016DEST_PATH_IMAGE024
使用softmax进行归一化,
Figure 614213DEST_PATH_IMAGE026
为输出的通道数,数字3表示三个视图。
2.根据权利要求1所述的基于深度学习的胶囊内窥镜影像识别方法,其特征在于,采用滑动窗口分割方法将N幅原始图像分割为大小相同的M组原始图像序列,包括:
依据时间生成顺序为N幅原始图像进行编号,其依次为1,2,……N;
以预设窗口大小K,预设滑动步长S依次分割N幅图像,将其划分为M组原始图像序列,其中,
Figure 893884DEST_PATH_IMAGE027
3.根据权利要求1所述的基于深度学习的胶囊内窥镜影像识别方法,其特征在于,3D卷积神经网络模型的训练方式包括:
将预训练的2D识别模型中尺寸为
Figure 835296DEST_PATH_IMAGE028
的2D卷积核参数复制N遍;所述的2D识别模型通过有病灶标签的图像训练获得,其输入为单帧图像,且只能对单帧图像进行识别;
将复制后的各核参数分别除以N,使得每一位置的核参数为原来的1/3;
将新的核参数重新组合形成尺寸为
Figure 292953DEST_PATH_IMAGE029
的卷积核参数,以构成3D卷积神经网络模型中3D卷积核的初始化参数;
利用随机梯度下降法训练参数初始化后的3D卷积神经网络模型,迭代更新模型的参数,直到满足迭代停止条件,形成用于输出识别结果的所述3D卷积神经网络模型。
4.根据权利要求1所述的基于深度学习的胶囊内窥镜影像识别方法,其特征在于,所述协同时空特征结构的数量为P个,P∈(4,16);
自输入至输出的处理流程的先后顺序排布,所述协同时空特征结构包括:第一协同时空卷积层,第一归一化层,激活层;以及与第一协同时空卷积层,第一归一化层,激活层并行执行、且从所述协同时空特征结构输入到输出的快连接。
5.根据权利要求4所述的基于深度学习的胶囊内窥镜影像识别方法,其特征在于,自输入至输出的处理流程的先后顺序排布,所述协同时空特征结构还包括:处于激活层之后的第二协同时空卷积层,第二归一化层。
6.一种电子设备,包括存储器和处理器,所述存储器存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1-5任意一项所述基于深度学习的胶囊内窥镜影像识别方法中的步骤。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-5任意一项所述基于深度学习的胶囊内窥镜影像识别方法中的步骤。
CN202110010379.4A 2021-01-06 2021-01-06 基于深度学习的胶囊内窥镜影像识别方法、设备及介质 Active CN112348125B (zh)

Priority Applications (6)

Application Number Priority Date Filing Date Title
CN202110010379.4A CN112348125B (zh) 2021-01-06 2021-01-06 基于深度学习的胶囊内窥镜影像识别方法、设备及介质
EP21917257.4A EP4276684A1 (en) 2021-01-06 2021-12-14 Capsule endoscope image recognition method based on deep learning, and device and medium
JP2023540947A JP2024502105A (ja) 2021-01-06 2021-12-14 深層学習に基づくカプセル内視鏡画像認識方法、機器及び媒体
PCT/CN2021/137938 WO2022148216A1 (zh) 2021-01-06 2021-12-14 基于深度学习的胶囊内窥镜影像识别方法、设备及介质
KR1020237022485A KR20230113386A (ko) 2021-01-06 2021-12-14 딥러닝 기반의 캡슐 내시경 영상 식별 방법, 기기 및매체
US18/260,528 US20240070858A1 (en) 2021-01-06 2021-12-14 Capsule endoscope image recognition method based on deep learning, and device and medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110010379.4A CN112348125B (zh) 2021-01-06 2021-01-06 基于深度学习的胶囊内窥镜影像识别方法、设备及介质

Publications (2)

Publication Number Publication Date
CN112348125A CN112348125A (zh) 2021-02-09
CN112348125B true CN112348125B (zh) 2021-04-02

Family

ID=74427399

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110010379.4A Active CN112348125B (zh) 2021-01-06 2021-01-06 基于深度学习的胶囊内窥镜影像识别方法、设备及介质

Country Status (6)

Country Link
US (1) US20240070858A1 (zh)
EP (1) EP4276684A1 (zh)
JP (1) JP2024502105A (zh)
KR (1) KR20230113386A (zh)
CN (1) CN112348125B (zh)
WO (1) WO2022148216A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112348125B (zh) * 2021-01-06 2021-04-02 安翰科技(武汉)股份有限公司 基于深度学习的胶囊内窥镜影像识别方法、设备及介质
CN113159238B (zh) * 2021-06-23 2021-10-26 安翰科技(武汉)股份有限公司 内窥镜影像识别方法、电子设备及存储介质
CN113591961A (zh) * 2021-07-22 2021-11-02 深圳市永吉星光电有限公司 一种基于神经网络的微创医用摄像头图像识别方法
CN113591761B (zh) * 2021-08-09 2023-06-06 成都华栖云科技有限公司 一种视频镜头语言识别方法
CN113487605B (zh) * 2021-09-03 2021-11-19 北京字节跳动网络技术有限公司 用于内窥镜的组织腔体定位方法、装置、介质及设备
CN116309604B (zh) * 2023-05-24 2023-08-22 中山大学肿瘤防治中心(中山大学附属肿瘤医院、中山大学肿瘤研究所) 动态分析时序mr图像的方法、系统、设备和存储介质

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103984957A (zh) 2014-05-04 2014-08-13 中国科学院深圳先进技术研究院 胶囊内窥镜图像可疑病变区域自动预警系统
EP3405908B1 (en) * 2015-09-10 2021-12-15 Magentiq Eye Ltd. A system and method for detection of suspicious tissue regions in an endoscopic procedure
US10572996B2 (en) * 2016-06-28 2020-02-25 Contextvision Ab Method and system for detecting pathological anomalies in a digital pathology image and method for annotating a tissue slide
CN109740670B (zh) * 2019-01-02 2022-01-11 京东方科技集团股份有限公司 视频分类的方法及装置
CN109886358B (zh) * 2019-03-21 2022-03-08 上海理工大学 基于多时空信息融合卷积神经网络的人体行为识别方法
CN110222574B (zh) * 2019-05-07 2021-06-29 杭州智尚云科信息技术有限公司 基于结构化双流卷积神经网络的生产操作行为识别方法、装置、设备、系统及存储介质
CN110705463A (zh) * 2019-09-29 2020-01-17 山东大学 基于多模态双流3d网络的视频人体行为识别方法及系统
CN111383214B (zh) * 2020-03-10 2021-02-19 长沙慧维智能医疗科技有限公司 实时内窥镜肠镜息肉检测系统
CN111462082A (zh) 2020-03-31 2020-07-28 重庆金山医疗技术研究院有限公司 一种病灶图片识别装置、方法、设备及可读存储介质
CN111950444A (zh) * 2020-08-10 2020-11-17 北京师范大学珠海分校 一种基于时空特征融合深度学习网络的视频行为识别方法
CN112348125B (zh) * 2021-01-06 2021-04-02 安翰科技(武汉)股份有限公司 基于深度学习的胶囊内窥镜影像识别方法、设备及介质

Also Published As

Publication number Publication date
US20240070858A1 (en) 2024-02-29
CN112348125A (zh) 2021-02-09
WO2022148216A1 (zh) 2022-07-14
EP4276684A1 (en) 2023-11-15
KR20230113386A (ko) 2023-07-28
JP2024502105A (ja) 2024-01-17

Similar Documents

Publication Publication Date Title
CN112348125B (zh) 基于深度学习的胶囊内窥镜影像识别方法、设备及介质
JP6993371B2 (ja) ディープラーニングに基づいたコンピュータ断層撮影肺結節検出法
WO2021036616A1 (zh) 一种医疗图像处理方法、医疗图像识别方法及装置
CN112236779A (zh) 基于卷积神经网络的图像处理方法和图像处理装置
CN111276240B (zh) 一种基于图卷积网络的多标签多模态全息脉象识别方法
CN110752028A (zh) 一种图像处理方法、装置、设备以及存储介质
CN110648331B (zh) 用于医学图像分割的检测方法、医学图像分割方法及装置
CN111091536A (zh) 医学图像处理方法、装置、设备、介质以及内窥镜
CN112183541B (zh) 一种轮廓提取方法及装置、电子设备、存储介质
CN110859642B (zh) 一种基于AlexNet网络模型实现医学影像辅助诊断的方法、装置、设备及存储介质
CN114187296B (zh) 胶囊内窥镜图像病灶分割方法、服务器及系统
CN111667459A (zh) 一种基于3d可变卷积和时序特征融合的医学征象检测方法、系统、终端及存储介质
WO2023207743A1 (zh) 图像检测方法、装置、计算机设备、存储介质及程序产品
Guo et al. Blind image quality assessment for pathological microscopic image under screen and immersion scenarios
Alam et al. Rat-capsnet: A deep learning network utilizing attention and regional information for abnormality detection in wireless capsule endoscopy
CN115984949B (zh) 一种带有注意力机制的低质量人脸图像识别方法及设备
Sushma et al. CNN based U-net with modified skip connections for colon polyp segmentation
CN116935044A (zh) 一种多尺度引导和多层次监督的内镜息肉分割方法
Amirthalingam et al. Improved Water Strider Optimization with Deep Learning based Image Classification for Wireless Capsule Endoscopy
US11961225B2 (en) Systems and methods for detecting potential malignancies
CN114022458A (zh) 骨架检测方法、装置、电子设备和计算机可读存储介质
CN111369564A (zh) 一种图像处理的方法、模型训练的方法及装置
Jin et al. EAC-net: efficient and accurate convolutional network for video recognition
Zhang et al. Semantic feature attention network for liver tumor segmentation in large-scale CT database
CN109961083A (zh) 用于将卷积神经网络应用于图像的方法和图像处理实体

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant