CN117058467B - 一种胃肠道病变类型识别方法及系统 - Google Patents

一种胃肠道病变类型识别方法及系统 Download PDF

Info

Publication number
CN117058467B
CN117058467B CN202311300871.0A CN202311300871A CN117058467B CN 117058467 B CN117058467 B CN 117058467B CN 202311300871 A CN202311300871 A CN 202311300871A CN 117058467 B CN117058467 B CN 117058467B
Authority
CN
China
Prior art keywords
model
resnet50
training
layer
stage module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311300871.0A
Other languages
English (en)
Other versions
CN117058467A (zh
Inventor
张乐婷
漆博文
舒智
王淑芳
王博
傅影兵
查伟
叶波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hubei University
Original Assignee
Hubei University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hubei University filed Critical Hubei University
Priority to CN202311300871.0A priority Critical patent/CN117058467B/zh
Publication of CN117058467A publication Critical patent/CN117058467A/zh
Application granted granted Critical
Publication of CN117058467B publication Critical patent/CN117058467B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/096Transfer learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0985Hyperparameter optimisation; Meta-learning; Learning-to-learn
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10068Endoscopic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30028Colon; Small intestine
    • G06T2207/30032Colon polyp
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/03Recognition of patterns in medical or anatomical images
    • G06V2201/032Recognition of patterns in medical or anatomical images of protuberances, polyps nodules, etc.
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Radiology & Medical Imaging (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种胃肠道病变类型识别方法及系统,属于图像处理技术领域,包括:获取待检测WCE图像;采集WCE图像数据集,调用ResNet50预训练模型,在ResNet50预训练模型中增加训练注意力模块,利用Grad‑CAM模型进行可视化,得到胃肠病变分类模型;将待检测WCE图像输入胃肠病变分类模型,输出胃肠病变类型识别结果。本发明采用基于ResNet50与注意力模块结合迁移学习的分类方法,不仅能够显著提高精度,而且针对不同的病变组织和各种环境下的胃肠道图像拥有极高的精准度以及良好的鲁棒性。

Description

一种胃肠道病变类型识别方法及系统
技术领域
本发明涉及图像处理技术领域,尤其涉及一种胃肠道病变类型识别方法及系统。
背景技术
为了降低传统胃肠道疾病检查方式对病人身体的痛苦和伤害,无线胶囊内窥镜(Wireless Capsule Endoscopy, WCE)成为检查胃肠道疾病的更优选择,它为病人提供了一种安全、无痛、无创伤筛查和诊断胃肠道疾病的方法并且能够深入到传统内窥镜难以到达的小肠区域进行分类检测。在使用WCE的过程中,一次WCE检查将在患者体内连续拍摄8个小时的图像并获得大约5万到8万张消化道图像,这些图像通过无线传输储存到便携设备上,内科医生通过分析图像作出症状分类,且因为其高效性与续航能力,WCE已经得到广泛试用。
但由于WCE图像数量过多,而其中的病变图像较少,内科医生往往需要消耗大量的时间和精力来检查这些图像,因此很有可能因为内科医生的视觉疲劳而错过造成漏诊和误诊,这时医生往往要重复筛查这些图像,不但效率不高且加重了医生的负担。为了减少医生的工作量和提高病变分类的准确性,许多科研人员开始使用计算机辅助进行病变分类。随着深度学习技术的迅速发展,计算机辅助分类系统也日趋成熟。计算机辅助分类系统在WCE图像上的应用主要有病变分类和病变区域检测两个部分。由于病变区域的大小、纹理、颜色等特征在不同时期表现不同,不同病变的图像差异小,加大了对WCE图像病变精准检测的难度,而基于深度学习的WCE图像识别方法可以解决这些问题。比如,采用堆叠稀疏自编码器去识别WCE图像中的息肉,该方法能够准确识别WCE视频中的息肉并且可以进一步用于临床试验。注意力和残差学习方法的密集连接卷积神经网络对皮肤病变进行分类,在提高分类精度的同时大大减少了模型的参数。即便如此,现代医学图像中的病理图像具有多样性且具有相同类别差异大不同类别差异小的特点,医学分类任务还面临着许多挑战。
发明内容
本发明提供一种胃肠道病变类型识别方法及系统,用以解决现有技术中针对胃肠病症类型采用传统分类识别方法往往存在识别准确率不够高,分类结果不够精细的缺陷。
第一方面,本发明提供一种胃肠道病变类型识别方法,包括:
获取待检测WCE图像;
采集WCE图像数据集,调用ResNet50预训练模型,在所述ResNet50预训练模型中增加训练注意力模块,利用Grad-CAM模型进行可视化,得到胃肠病变分类模型;
将所述待检测WCE图像输入所述胃肠病变分类模型,输出胃肠病变类型识别结果。
根据本发明提供的一种胃肠道病变类型识别方法,采集WCE图像数据集,包括:
采集WCE原始图像集合;
对所述WCE原始图像集合进行数据增强和去噪,得到所述WCE图像数据集。
根据本发明提供的一种胃肠道病变类型识别方法,调用ResNet50预训练模型,包括:
获取预设计算机视觉数据集;
确定ResNet50初始模型结构,设置所述ResNet50初始模型结构的参数;
基于所述预设计算机视觉数据集对所述ResNet50初始模型结构进行训练,得到所述ResNet50预训练模型。
根据本发明提供的一种胃肠道病变类型识别方法,确定ResNet50初始模型结构,设置所述ResNet50初始模型结构的参数,包括:
所述ResNet50初始模型结构包括顺次连接的零填充、第一阶段模块、第二阶段模块、第三阶段模块、第四阶段模块、第五阶段模块平均池化、压平数据维度和全连接层;
所述第一阶段模块包括卷积层、批量归一化、激活函数层和池化层;
所述第二阶段模块包括卷积块和两个实现块,所述第三阶段模块包括卷积块和三个实现块,所述第四阶段模块包括卷积块和五个实现块,所述第五阶段模块包括卷积块和五个实现块。
根据本发明提供的一种胃肠道病变类型识别方法,在所述ResNet50预训练模型中增加训练注意力模块,利用Grad-CAM模型进行可视化,得到胃肠病变分类模型,包括:
分别在所述ResNet50预训练模型中的第一阶段模块与第二阶段模块之间,以及第五阶段模块和平均池化之间,增加注意力模块,形成ResNet50预训练注意力模型;
对ResNet50预训练注意力模型进行迁移学习,采用大幅度余弦损失LMCL函数和Adam优化器对所述ResNet50预训练注意力模型进行优化,得到不同分类性能的模型权重文件;
将最佳分类性能的模型权重文件放入Grad-CAM进行热图可视化,得到所述胃肠病变分类模型。
根据本发明提供的一种胃肠道病变类型识别方法,采用LMCL函数和Adam优化器对所述ResNet50预训练注意力模型进行优化,包括:
利用增加预设权重偏置的LMCL函数对所述ResNet50预训练注意力模型进行收敛;
采用Adam优化器的动量优化学习率更新所述ResNet50预训练注意力模型的梯度,并自动调整参数步长。
根据本发明提供的一种胃肠道病变类型识别方法,将最佳分类性能的模型权重文件放入Grad-CAM进行热图可视化,包括:
将所述最佳分类性能的模型权重文件输入Grad-CAM,进行前向传播,获取任意层特征图,所述任意层特征图包括通道标号;
对所述任意层特征图进行反向传播,得到模型相对于任一类别的预测概率,计算所述预测概率关于所述任意层特征图的梯度;
利用所述梯度、任意层特征图坐标和特征层宽度与高度乘积,计算得到任一类别对输出特征图的任一通道权重;
对所述任一通道权重和所述任意层特征图进行线性加权求和,并通过线性整流函数抑制无关权重,得到特征热力图。
根据本发明提供的一种胃肠道病变类型识别方法,得到胃肠病变分类模型之后,还包括:
采用准确度、精确率和召回率对所述胃肠病变分类模型进行测评,基于测评结果调整所述胃肠病变分类模型。
第二方面,本发明还提供一种胃肠道病变类型识别系统,包括:
获取模块,用于获取待检测WCE图像;
训练模块,用于采集WCE图像数据集,调用ResNet50预训练模型,在所述ResNet50预训练模型中增加训练注意力模块,得到胃肠病变分类模型;
识别模块,用于将所述待检测WCE图像输入所述胃肠病变分类模型,输出胃肠病变类型识别结果。
第三方面,本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述胃肠道病变类型识别方法。
第四方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述胃肠道病变类型识别方法。
本发明提供的胃肠道病变类型识别方法及系统,通过采用基于ResNet50与注意力模块结合迁移学习的分类方法,不仅能够显著提高精度,而且针对不同的病变组织和各种环境下的胃肠道图像拥有极高的精准度以及良好的鲁棒性。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的胃肠道病变类型识别方法的流程示意图之一;
图2是本发明提供的胃肠道病变类型识别方法的流程示意图之二;
图3是本发明提供的ResNet50预训练模型结构图;
图4是本发明提供的ResNet50预训练模型增加训练注意力模块结构图;
图5是本发明提供的几种WCE病变图像的热力图与标注病变区域对比图;
图6是本发明提供的胃肠道病变类型识别系统的结构示意图;
图7是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明实施例提供的胃肠道病变类型识别方法的流程示意图之一,如图1所示,包括:
获取待检测WCE图像;
采集WCE图像数据集,调用ResNet50预训练模型,在所述ResNet50预训练模型中增加训练注意力模块,利用Grad-CAM模型进行可视化,得到胃肠病变分类模型;
将所述待检测WCE图像输入所述胃肠病变分类模型,输出胃肠病变类型识别结果。
本发明实施例通过将注意力机制添加在原始ResNet50模型中,形成一种新的(Squeeze and Excitation,SE)注意力机制+ResNet50模型。再将迁移学习与SE注意力机制+ResNet50模型相融合,对无线胶囊内窥镜(Wireless Capsule Endoscopy,WCE)图像进行分类。最后,通过梯度加权类激活映射对模型进行可视化,改进之后的模型能很好的聚焦病灶区域,具有良好的性能,优于原始ResNet50模型的识别方式。
具体地,如图2所示,首先采集WCE图像数据集,调用ResNet50预训练模型,将训练注意力模块增加在ResNet50预训练模型上,训练得到胃肠病变分类模型,将模型进行保存,将待检测WCE图像输入该胃肠病变分类模型,得到胃肠病变类型识别结果。
其中的ResNet50预训练模型是通过ImageNet数据集输入到原始的ResNet50模型中,对模型设置参数并进行模型训练所得到的。
本发明通过采用基于ResNet50与注意力模块结合迁移学习的分类方法,不仅能够显著提高精度,而且针对不同的病变组织和各种环境下的胃肠道图像拥有极高的精准度以及良好的鲁棒性。
在上述实施例的基础上,采集WCE图像数据集,包括:
采集WCE原始图像集合;
对所述WCE原始图像集合进行数据增强和去噪,得到所述WCE图像数据集。
具体地,本发明实施例在数据集准备阶段,使用数据增强技术来处理图像数据分布不均衡、图像数量不足以及图像质量差的问题,处理之后还辅助降噪技术,提高图像数据集的质量,确保后续模型训练的效果。
在上述实施例的基础上,调用ResNet50预训练模型,包括:
获取预设计算机视觉数据集;
确定ResNet50初始模型结构,设置所述ResNet50初始模型结构的参数;
基于所述预设计算机视觉数据集对所述ResNet50初始模型结构进行训练,得到所述ResNet50预训练模型。
其中,确定ResNet50初始模型结构,设置所述ResNet50初始模型结构的参数,包括:
所述ResNet50初始模型结构包括顺次连接的零填充、第一阶段模块、第二阶段模块、第三阶段模块、第四阶段模块、第五阶段模块平均池化、压平数据维度和全连接层;
所述第一阶段模块包括卷积层、批量归一化、激活函数层和池化层;
所述第二阶段模块包括卷积块和两个实现块,所述第三阶段模块包括卷积块和三个实现块,所述第四阶段模块包括卷积块和五个实现块,所述第五阶段模块包括卷积块和五个实现块。
需要说明的是,残差神经网络(Residual neural network, ResNet)模型在图像分类任务中取得了非常好的成绩,它的出现很好的解决了深度卷积神经网络(DeepConvolutional Neural Networks, DCNN)。通过引入残差模块,ResNet可以避免深层网络出现退化问题。
本发明实施例所使用的ResNet50模型其网络结构如图3所示,ResNet50主要由5个部分组成,第一部分stage0(第一阶段模块)主要是对输入的图片进行预处理。模型后面四个stage(stage1至stage4分别对应第二阶段模块、第三阶段模块、第四阶段模块和第五阶段模块)的第一个残差模块为Conv Block(卷积层),其主要功能改变输入特征图的通道数,之后为几个相同的Identity Block(实现块),每个stage的Identity Block保持输入特征图的通道数不变,但不同的stage其Identity Block不相同,输入特征图经过四个stage后再经过一个全局平局池化操作缩小尺寸,之后通过Flatten(压平数据维度)操作,将特征图的尺寸转换为批次量大小乘2048,然后输送至全连接层,最后输出经softmax层计算后得出类别概率。
在上述实施例的基础上,在所述ResNet50预训练模型中增加训练注意力模块,利用Grad-CAM模型进行可视化,得到胃肠病变分类模型,包括:
分别在所述ResNet50预训练模型中的第一阶段模块与第二阶段模块之间,以及第五阶段模块和平均池化之间,增加注意力模块,形成ResNet50预训练注意力模型;
对ResNet50预训练注意力模型进行迁移学习,采用大幅度余弦损失LMCL函数和Adam优化器对所述ResNet50预训练注意力模型进行优化,得到不同分类性能的模型权重文件;
将最佳分类性能的模型权重文件放入Grad-CAM进行热图可视化,得到所述胃肠病变分类模型。
其中,采用LMCL函数和Adam优化器对所述ResNet50预训练注意力模型进行优化,包括:
利用增加预设权重偏置的LMCL函数对所述ResNet50预训练注意力模型进行收敛;
采用Adam优化器的动量优化学习率更新所述ResNet50预训练注意力模型的梯度,并自动调整参数步长。
其中,将最佳分类性能的模型权重文件放入Grad-CAM进行热图可视化,包括:
将所述最佳分类性能的模型权重文件输入Grad-CAM,进行前向传播,获取任意层特征图,所述任意层特征图包括通道标号;
对所述任意层特征图进行反向传播,得到模型相对于任一类别的预测概率,计算所述预测概率关于所述任意层特征图的梯度;
利用所述梯度、任意层特征图坐标和特征层宽度与高度乘积,计算得到任一类别对输出特征图的任一通道权重;
对所述任一通道权重和所述任意层特征图进行线性加权求和,并通过线性整流函数抑制无关权重,得到特征热力图。
具体地,在本发明实施例中,将ResNet50和SE注意力模块进行融合,能够减少图像中无关区域的干扰,提升了对图像中判别性区域的特征提取能力,从而使模型的分类性能得以提升。SE注意力机制是通道注意力模式下的一种确定权重的方法,它通过在不同通道间分配权重达到主次优先的目的。
采用迁移学习的方式,将ResNet50在ImageNet数据集上训练得到的预训练模型用于WCE病变图像分类,使用WCE图像数据集训练SE注意力机制+ResNet网络模型时加载预训练模型参数。由于训练一个良好性能的DCNN模型需要大量的标记数据,然而WCE图像标注数据非常少。迁移学习可以使DCNN模型学习其他数据集的底层图像特征,模型通过调参后能够学习目标数据集的高级特征,迁移学习不但可以减少模型训练时间和计算资源还能够提高模型的泛化能力和精度。大量研究表明,DCNN的主干网络在ImageNet数据集上预训练后,可以迁移到其他领域的小数据集上,例如医学图像领域,也能表现出很好的效果。ResNet50模型结构简单,采用ImageNet数据集训练时参数量少,运行速度快,同时具有很好的分类精度。本发明实施例的分类算法将ResNet50在ImageNet数据集上训练得到的预训练模型用于WCE病变图像分类,使用WCE图像数据集训练注意力机制+ResNet网络模型时加载预训练模型参数。
实现WCE图像的精准分类其核心在于图像中的差异部分能够被模型的特征提取器聚焦。注意力机制的出现很好地解决了上述问题,在分类任务中添加注意力机制,能够减少图像中无关区域的干扰,提升对图像中判别性区域的特征提取能力,从而使模型的分类性能得以提升。
首先ResNet50具有良好的模型复杂性、模型大小及适配性,因此选用它作为骨干网络。然后将注意力机制模块添加到残差模块中。如图4所示,在stage0和stage1中间及在stage4后面添加注意力模块,将会更有利于准确率与召回率的提升。
进一步地,需要对模型进行优化,采用LMCL损失函数将输入特征向量和输出特征向量的余弦相似度作为损失函数,余弦值通过一个最大边缘限制来实现最大化,确保输入特征向量和输出特征向量之间保持较小的角度和较大的距离,从而解决输出特征向量之间重叠的问题。
损失函数用于衡量DCNN模型在训练数据上的预测准确率,它表示模型的预测偏离训练数据的程度,以评估模型的表现。在损失函数中添加一个权重偏置可以改善模型拟合效果提高分类性能。
LMCL的定义式如下:
其中是一个固定参数,其值大于或等于0,用来改变余弦量的大小,/>为训练样本的数量,/>为/>的真实标签对应的第/>个特征向量,其中/>表示/>和/>之间的夹角。
然后使用Adam优化器通过动量优化学习率来更新梯度,能够缓解SGD优化器中摆动问题,同时能够自适应调整学习率,能够根据不同的参数自动调整步长,使得训练过程更加顺畅。Adam算法步骤如下:
Require:步长
Require:据估计指数衰减速率,和/>在区间[0,1)内
Require:初始向量参数
1:初始化一阶矩变量:;初始化二阶矩变量:/>
2:初始化时间步长:
3:当未收敛:/>
4:更新梯度值:
5:更新一阶矩变量偏置估计:
6:更新二阶矩变量偏置估计:
7:修正一阶矩的偏差:
8:修正二阶矩的偏差:
9:更新参数:
10:应用参数
11:end while
利用梯度加权类激活映射(Gradient-weighted Class Activation Mapping,Grad-CAM)可视化卷积神经网络预测的过程,有助于理解模型的决策过程和验证模型的性能。Grad-CAM可视化的步骤如下:
首先将图片送入模型中,进行前向传播,一般获取最后一个卷积层输出的特征图,也可任意层,/>指某一个特征图,/>为通道标号。
进行反向传播,先得到模型对类别的预测概率/>,然后计算/>关于/>的梯度,计算公式如下:
计算类别c对输出特征图的第K个通道的权重,其公式如下所示,其中/>分别表示该坐标处的数据,/>表示特征层宽度和高度的乘积。
对获取的卷积层赋予权重并进行线性组合,加权求和后通过一个Relu函数限制不感兴趣的权重。其公式如下,/>就是我们要生成的热力图。
在上述实施例的基础上,得到胃肠病变分类模型之后,还包括:
采用准确度、精确率和召回率对所述胃肠病变分类模型进行测评,基于测评结果调整所述胃肠病变分类模型。
具体地,本发明实施例为了评价模型对WCE图像分类算法的性能,在HyperKvasir胃肠道开放数据集和来自某医院的患者图像,将图像像素统一为256×256(共8944张图片,包含正常1862张,息肉1965张,溃疡性结肠炎1936张,粪便阻塞1300张,食管炎1881张)作为验证数据集。使用准确度(accuracy)、精确率(precision)、召回率(recall)作为分类性能的定量评价。这些测量被定义为:
其中为模型对验证集图片中分类正确的数量占整个验证集的比例,表示模型预测为正例的图片中其真实值也为正例的图片占整个验证集被预测为正例的比例。/>表示验证集中实际为正的图片中被预测为正的图片占实际为正的图片的比例。/>为该类WCE图像正确分类的数量,/>表示其他类的WCE图像识别为该类的数量,/>表示对该类WCE图像识别为其他类的数量,/>表示其他类的图像识别正确的数量。表1和表2分别表示原始Resnet50与se+Resnet50图像分类结果准确度(accuracy)、精确率(precision)、召回率(recall)的对比。
表1
表2
如图5所示,上方的图像为病变图像,其中的框线为内科医生标注的病灶区域,下方为生成的热力图,图中发亮的区域更接近病灶区域。从图中可以看出se+ResNet50模型能够聚焦于图像的病变区域,使其能够获得不同类别WCE图像具有差异性的特征,从而提高分类准确率。本发明提出的SE+ResNet50模型能够很好地聚焦病灶区域,验证该模型具有很好的特征提取性能。
下面对本发明提供的胃肠道病变类型识别系统进行描述,下文描述的胃肠道病变类型识别系统与上文描述的胃肠道病变类型识别方法可相互对应参照。
图6是本发明实施例提供的胃肠道病变类型识别系统的结构示意图,如图6所示,包括:获取模块61、训练模块62和识别模块63,其中:
获取模块61用于获取待检测WCE图像;训练模块62用于采集WCE图像数据集,调用ResNet50预训练模型,在所述ResNet50预训练模型中增加训练注意力模块,得到胃肠病变分类模型;识别模块63用于将所述待检测WCE图像输入所述胃肠病变分类模型,输出胃肠病变类型识别结果。
图7示例了一种电子设备的实体结构示意图,如图7所示,该电子设备可以包括:处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740,其中,处理器710,通信接口720,存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令,以执行胃肠道病变类型识别方法,该方法包括:获取待检测WCE图像;采集WCE图像数据集,调用ResNet50预训练模型,在所述ResNet50预训练模型中增加训练注意力模块,利用Grad-CAM模型进行可视化,得到胃肠病变分类模型;将所述待检测WCE图像输入所述胃肠病变分类模型,输出胃肠病变类型识别结果。
此外,上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的胃肠道病变类型识别方法,该方法包括:获取待检测WCE图像;采集WCE图像数据集,调用ResNet50预训练模型,在所述ResNet50预训练模型中增加训练注意力模块,利用Grad-CAM模型进行可视化,得到胃肠病变分类模型;将所述待检测WCE图像输入所述胃肠病变分类模型,输出胃肠病变类型识别结果。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (5)

1.一种胃肠道病变类型识别方法,其特征在于,包括:
获取待检测无线胶囊内窥镜WCE图像;
采集WCE图像数据集,调用残差神经网络ResNet50预训练模型,在所述ResNet50预训练模型中增加训练注意力模块,利用梯度加权类激活映射Grad-CAM模型进行可视化,得到胃肠病变分类模型;
将所述待检测WCE图像输入所述胃肠病变分类模型,输出胃肠病变类型识别结果;
在所述ResNet50预训练模型中增加训练注意力模块,利用Grad-CAM模型进行可视化,得到胃肠病变分类模型,包括:
分别在所述ResNet50预训练模型中的第一阶段模块与第二阶段模块之间,以及第五阶段模块和平均池化之间,增加注意力模块,形成ResNet50预训练注意力模型;
对ResNet50预训练注意力模型进行迁移学习,采用大幅度余弦损失LMCL函数和Adam优化器对所述ResNet50预训练注意力模型进行优化,得到不同分类性能的模型权重文件;
将最佳分类性能的模型权重文件放入Grad-CAM进行热图可视化,得到所述胃肠病变分类模型;
采用LMCL函数和Adam优化器对所述ResNet50预训练注意力模型进行优化,包括:
利用增加预设权重偏置的LMCL函数对所述ResNet50预训练注意力模型进行收敛;
采用Adam优化器的动量优化学习率更新所述ResNet50预训练注意力模型的梯度,并自动调整参数步长;
将最佳分类性能的模型权重文件放入Grad-CAM进行热图可视化,包括:
将所述最佳分类性能的模型权重文件输入Grad-CAM,进行前向传播,获取任意层特征图,所述任意层特征图包括通道标号;
对所述任意层特征图进行反向传播,得到模型相对于任一类别的预测概率,计算所述预测概率关于所述任意层特征图的梯度;
利用所述梯度、任意层特征图坐标和特征层宽度与高度乘积,计算得到任一类别对输出特征图的任一通道权重;
对所述任一通道权重和所述任意层特征图进行线性加权求和,并通过线性整流函数抑制无关权重,得到特征热力图;
调用ResNet50预训练模型,包括:
获取预设计算机视觉数据集;
确定ResNet50初始模型结构,设置所述ResNet50初始模型结构的参数;
基于所述预设计算机视觉数据集对所述ResNet50初始模型结构进行训练,得到所述ResNet50预训练模型;
其中,确定ResNet50初始模型结构,设置所述ResNet50初始模型结构的参数,包括:
所述ResNet50初始模型结构包括顺次连接的零填充、第一阶段模块、第二阶段模块、第三阶段模块、第四阶段模块、第五阶段模块平均池化、压平数据维度和全连接层;
所述第一阶段模块包括卷积层、批量归一化、激活函数层和池化层;
所述第二阶段模块包括卷积块和两个实现块Identity Block,所述第三阶段模块包括卷积块和三个实现块Identity Block,所述第四阶段模块包括卷积块和五个实现块Identity Block,所述第五阶段模块包括卷积块和五个实现块Identity Block。
2.根据权利要求1所述的胃肠道病变类型识别方法,其特征在于,采集WCE图像数据集,包括:
采集WCE原始图像集合;
对所述WCE原始图像集合进行数据增强和去噪,得到所述WCE图像数据集。
3.根据权利要求1所述的胃肠道病变类型识别方法,其特征在于,得到胃肠病变分类模型之后,还包括:
采用准确度、精确率和召回率对所述胃肠病变分类模型进行测评,基于测评结果调整所述胃肠病变分类模型。
4.一种胃肠道病变类型识别系统,其特征在于,包括:
获取模块,用于获取待检测WCE图像;
训练模块,用于采集WCE图像数据集,调用ResNet50预训练模型,在所述ResNet50预训练模型中增加训练注意力模块,利用Grad-CAM模型进行可视化,得到胃肠病变分类模型;
识别模块,用于将所述待检测WCE图像输入所述胃肠病变分类模型,输出胃肠病变类型识别结果;
所述训练模块中的在所述ResNet50预训练模型中增加训练注意力模块,利用Grad-CAM模型进行可视化,得到胃肠病变分类模型,包括:
分别在所述ResNet50预训练模型中的第一阶段模块与第二阶段模块之间,以及第五阶段模块和平均池化之间,增加注意力模块,形成ResNet50预训练注意力模型;
对ResNet50预训练注意力模型进行迁移学习,采用大幅度余弦损失LMCL函数和Adam优化器对所述ResNet50预训练注意力模型进行优化,得到不同分类性能的模型权重文件;
将最佳分类性能的模型权重文件放入Grad-CAM进行热图可视化,得到所述胃肠病变分类模型;
采用LMCL函数和Adam优化器对所述ResNet50预训练注意力模型进行优化,包括:
利用增加预设权重偏置的LMCL函数对所述ResNet50预训练注意力模型进行收敛;
采用Adam优化器的动量优化学习率更新所述ResNet50预训练注意力模型的梯度,并自动调整参数步长;
将最佳分类性能的模型权重文件放入Grad-CAM进行热图可视化,包括:
将所述最佳分类性能的模型权重文件输入Grad-CAM,进行前向传播,获取任意层特征图,所述任意层特征图包括通道标号;
对所述任意层特征图进行反向传播,得到模型相对于任一类别的预测概率,计算所述预测概率关于所述任意层特征图的梯度;
利用所述梯度、任意层特征图坐标和特征层宽度与高度乘积,计算得到任一类别对输出特征图的任一通道权重;
对所述任一通道权重和所述任意层特征图进行线性加权求和,并通过线性整流函数抑制无关权重,得到特征热力图;
所述训练模块中的调用ResNet50预训练模型,包括:
获取预设计算机视觉数据集;
确定ResNet50初始模型结构,设置所述ResNet50初始模型结构的参数;
基于所述预设计算机视觉数据集对所述ResNet50初始模型结构进行训练,得到所述ResNet50预训练模型;
其中,确定ResNet50初始模型结构,设置所述ResNet50初始模型结构的参数,包括:
所述ResNet50初始模型结构包括顺次连接的零填充、第一阶段模块、第二阶段模块、第三阶段模块、第四阶段模块、第五阶段模块平均池化、压平数据维度和全连接层;
所述第一阶段模块包括卷积层、批量归一化、激活函数层和池化层;
所述第二阶段模块包括卷积块和两个实现块Identity Block,所述第三阶段模块包括卷积块和三个实现块Identity Block,所述第四阶段模块包括卷积块和五个实现块Identity Block,所述第五阶段模块包括卷积块和五个实现块Identity Block。
5.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至3任一项所述胃肠道病变类型识别方法。
CN202311300871.0A 2023-10-10 2023-10-10 一种胃肠道病变类型识别方法及系统 Active CN117058467B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311300871.0A CN117058467B (zh) 2023-10-10 2023-10-10 一种胃肠道病变类型识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311300871.0A CN117058467B (zh) 2023-10-10 2023-10-10 一种胃肠道病变类型识别方法及系统

Publications (2)

Publication Number Publication Date
CN117058467A CN117058467A (zh) 2023-11-14
CN117058467B true CN117058467B (zh) 2023-12-22

Family

ID=88657538

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311300871.0A Active CN117058467B (zh) 2023-10-10 2023-10-10 一种胃肠道病变类型识别方法及系统

Country Status (1)

Country Link
CN (1) CN117058467B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110020610A (zh) * 2019-03-16 2019-07-16 复旦大学 基于深度学习的肠镜质量检查控制系统
CN110288597A (zh) * 2019-07-01 2019-09-27 哈尔滨工业大学 基于注意力机制的无线胶囊内窥镜视频显著性检测方法
WO2021054477A2 (ja) * 2019-09-20 2021-03-25 株式会社Aiメディカルサービス 消化器官の内視鏡画像による疾患の診断支援方法、診断支援システム、診断支援プログラム及びこの診断支援プログラムを記憶したコンピュータ読み取り可能な記録媒体
CN112598086A (zh) * 2021-03-04 2021-04-02 四川大学 基于深度神经网络的常见结肠部疾病分类方法及辅助系统
KR102283265B1 (ko) * 2020-12-31 2021-07-29 가천대학교 산학협력단 스케일 확장 기반의 컨볼루션 신경망을 이용한 대장 질환 분류 방법 및 그 장치
CN113256561A (zh) * 2021-04-21 2021-08-13 浙江工业大学 一种基于无归一化深度残差与注意力机制的肠道病灶辅助诊断方法
CN114127858A (zh) * 2019-07-05 2022-03-01 韩国科学技术院 利用深度学习模型的影像诊断装置及其方法
WO2022108465A1 (en) * 2020-11-19 2022-05-27 Digestaid - Artificial Intelligence Development, Lda. Automatic detection of colon lesions and blood in colon capsule endoscopy
CN115358966A (zh) * 2022-07-11 2022-11-18 华南农业大学 基于3D Grad-CAM的直肠癌等级分类的可解释方法、系统、设备及介质
WO2023001190A1 (zh) * 2021-07-23 2023-01-26 天津御锦人工智能医疗科技有限公司 结直肠息肉图像的识别方法、装置及存储介质
CN116012367A (zh) * 2023-02-14 2023-04-25 山东省人工智能研究院 一种基于深度学习的胃部胃黏膜特征及位置识别方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106529555B (zh) * 2016-11-04 2019-12-06 四川大学 一种基于全卷积网络的dr片肺轮廓提取方法
US20230267721A1 (en) * 2022-02-24 2023-08-24 Vinbrain Joint Stock Company Method and system for training a machine learning model for medical image classification

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110020610A (zh) * 2019-03-16 2019-07-16 复旦大学 基于深度学习的肠镜质量检查控制系统
CN110288597A (zh) * 2019-07-01 2019-09-27 哈尔滨工业大学 基于注意力机制的无线胶囊内窥镜视频显著性检测方法
CN114127858A (zh) * 2019-07-05 2022-03-01 韩国科学技术院 利用深度学习模型的影像诊断装置及其方法
WO2021054477A2 (ja) * 2019-09-20 2021-03-25 株式会社Aiメディカルサービス 消化器官の内視鏡画像による疾患の診断支援方法、診断支援システム、診断支援プログラム及びこの診断支援プログラムを記憶したコンピュータ読み取り可能な記録媒体
WO2022108465A1 (en) * 2020-11-19 2022-05-27 Digestaid - Artificial Intelligence Development, Lda. Automatic detection of colon lesions and blood in colon capsule endoscopy
KR102283265B1 (ko) * 2020-12-31 2021-07-29 가천대학교 산학협력단 스케일 확장 기반의 컨볼루션 신경망을 이용한 대장 질환 분류 방법 및 그 장치
CN112598086A (zh) * 2021-03-04 2021-04-02 四川大学 基于深度神经网络的常见结肠部疾病分类方法及辅助系统
CN113256561A (zh) * 2021-04-21 2021-08-13 浙江工业大学 一种基于无归一化深度残差与注意力机制的肠道病灶辅助诊断方法
WO2023001190A1 (zh) * 2021-07-23 2023-01-26 天津御锦人工智能医疗科技有限公司 结直肠息肉图像的识别方法、装置及存储介质
CN115358966A (zh) * 2022-07-11 2022-11-18 华南农业大学 基于3D Grad-CAM的直肠癌等级分类的可解释方法、系统、设备及介质
CN116012367A (zh) * 2023-02-14 2023-04-25 山东省人工智能研究院 一种基于深度学习的胃部胃黏膜特征及位置识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization;Ramprasaath R. Selvaraju et al;《arXiv》;全文 *
胶囊内窥镜主动控制研究;叶波等;《湖北大学学报(自然科学版)》;第36卷(第01期);全文 *

Also Published As

Publication number Publication date
CN117058467A (zh) 2023-11-14

Similar Documents

Publication Publication Date Title
CN110197493B (zh) 眼底图像血管分割方法
CN110232383B (zh) 一种基于深度学习模型的病灶图像识别方法及病灶图像识别系统
CN108389201B (zh) 基于3d卷积神经网络与深度学习的肺结节良恶性分类方法
CN107464250B (zh) 基于三维mri图像的乳腺肿瘤自动分割方法
CN110852396A (zh) 一种宫颈图像的样本数据处理方法
Ashwin et al. Efficient and reliable lung nodule detection using a neural network based computer aided diagnosis system
CN114693961B (zh) 眼底照片分类方法、眼底图像处理方法和系统
CN110991254A (zh) 超声图像视频分类预测方法及系统
CN112071418B (zh) 基于增强ct影像组学的胃癌腹膜转移的预测系统及方法
CN112508884A (zh) 一种癌变区域综合检测装置及方法
CN113989551A (zh) 一种基于改进ResNet网络的阿尔茨海默病分类方法
Shamrat et al. Analysing most efficient deep learning model to detect COVID-19 from computer tomography images
R-Prabha et al. Design of hybrid deep learning approach for covid-19 infected lung image segmentation
Elayaraja et al. An efficient approach for detection and classification of cancer regions in cervical images using optimization based CNN classification approach
CN116030063B (zh) Mri图像的分类诊断系统、方法、电子设备及介质
CN113421228A (zh) 一种基于参数迁移的甲状腺结节识别模型训练方法及系统
CN117058467B (zh) 一种胃肠道病变类型识别方法及系统
CN114648509B (zh) 一种基于多分类任务的甲状腺癌检出系统
Guo et al. Thyroid nodule ultrasonic imaging segmentation based on a deep learning model and data augmentation
CN115222651A (zh) 一种基于改进Mask R-CNN的肺结节检测系统
Mathina Kani et al. Classification of skin lesion images using modified Inception V3 model with transfer learning and augmentation techniques
Roni et al. Deep convolutional comparison architecture for breast cancer binary classification
Şengül et al. Performance Evaluation of Basic Capsule Network Architecture in Classification of Biomedical Images
Wu et al. Mscan: Multi-scale channel attention for fundus retinal vessel segmentation
Paul et al. Computer-Aided Diagnosis Using Hybrid Technique for Fastened and Accurate Analysis of Tuberculosis Detection with Adaboost and Learning Vector Quantization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant