CN115375975B - 一种基于深度卷积生成对抗网络的wce图像生成方法 - Google Patents

一种基于深度卷积生成对抗网络的wce图像生成方法 Download PDF

Info

Publication number
CN115375975B
CN115375975B CN202211077791.9A CN202211077791A CN115375975B CN 115375975 B CN115375975 B CN 115375975B CN 202211077791 A CN202211077791 A CN 202211077791A CN 115375975 B CN115375975 B CN 115375975B
Authority
CN
China
Prior art keywords
network
wce
image
generating
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211077791.9A
Other languages
English (en)
Other versions
CN115375975A (zh
Inventor
肖治国
卢佳
于桦
鲁光男
李念峰
孙立岩
杨永吉
陈发青
范媛媛
赵楠
王春湘
丁天娇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changchun University
Original Assignee
Changchun University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changchun University filed Critical Changchun University
Priority to CN202211077791.9A priority Critical patent/CN115375975B/zh
Publication of CN115375975A publication Critical patent/CN115375975A/zh
Application granted granted Critical
Publication of CN115375975B publication Critical patent/CN115375975B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02EREDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
    • Y02E60/00Enabling technologies; Technologies with a potential or indirect contribution to GHG emissions mitigation
    • Y02E60/10Energy storage using batteries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明一种基于深度卷积生成对抗网络的WCE图像生成方法,通过应用改进的DCGAN网络根据原始样本图像生成高质量的WCE图像,涉及深度学习中计算机视觉的图像增广技术领域;本方法包括以下步骤:获取WCE图像,并对其进行预处理;然后对DCGAN模型进行改进,使其能够生成高分辨率高质量的WCE图像;对改进的DCGAN模型进行训练直至达到纳什均衡,保存网络状态;使用训练好的生成网络进行WCE图像生成。本发明能够生成高质量多样性的WCE图像,更加符合临床场景。

Description

一种基于深度卷积生成对抗网络的WCE图像生成方法
技术领域
本发明属于深度学习中计算机视觉的图像增广技术领域,尤其涉及一种基于深度卷积生成对抗网络的WCE图像生成方法。
背景技术
无线胶囊内窥镜(wireless capsule endoscopy,简称WCE)是一种常见的消化道疾病的检查方式,具有非入侵、无痛、安全、可对全消化道进行可视化观察等优点。自2001年面世以来,它就被广泛地应用在消化道的临床检查中。虽然WCE在消化道疾病的检查方面具有很好的使用效果,但是患者进行一次消化道检查需要持续6-8小时,会产生5-8万张的图片。WCE图片整体数量庞大,且异常图像的占比较小,这些问题使得内镜专家在定位异常图像时会花费很多时间,也会存在漏检的可能性。同时尽管近年来关于人工智能技术辅助WCE异常图像自动检测的研究取得了很大的进展,但是现有研究中的数据集规模较小、异常图像种类数量分布不均匀,严重限制了目标检测模型的性能提升。
目前针对图像的数据增强方法有很多,传统的方法包括平移、翻转、旋转、亮度调整、放射变化、高斯噪声和局部擦除等,这些对图像的微小修改只能获得很少的额外信息,无法提高数据多样性,没有泛化能力。
发明内容
本发明目的在于提供一种基于深度卷积生成对抗网络的WCE图像生成方法,利用已有的异常WCE图像数据进行数据增强从而生成更多的WCE图像,以解决现有的WCE图像数据集较少,异常图像种类数量分布不均匀的技术问题。
为实现上述目的,本发明的一种基于深度卷积生成对抗网络的WCE图像生成方法的具体技术方案如下:
本发明的一种基于深度卷积生成对抗网络的WCE图像生成方法,包括以下步骤:
获取WCE图像数据,对数据进行预处理。
对深度卷积生成对抗网络DCGAN进行改进,得到改进的DCGAN模型。
对改进的DCGAN网络模型进行训练,直至改进的DCGAN模型达到纳什均衡。
利用训练好的生成网络进行WCE图像生成。
获取WCE的原始图像数据,并调整WCE图像的大小,将原始图像裁剪缩放至256*256px大小。该数据可以是自行获取的已标注WCE图像,也可是公开的WCE数据集,本发明不做限制。
所述改进的DCGAN模型包括生成网络和判别网络两部分。对于生成网络,其输入是随机生成的100维的噪声向量,之后将其重构为4*4*1024的特征图,再经过六个卷积核为4*4、步长为2、padding为1的反卷积网络,这时生成的WCE图像大小为256*256px。对于判别网络,其输入包括生成网络生成的虚假WCE图像和权利要求2中处理过的真实WCE图像,然后经过六个卷积核为4*4、步长为2、padding为1的卷积网络,一个SENet注意力模块和一个卷积核为4*4、步长为1的卷积网络,最后利用softmax函数判断输入图像是否为真。
所述的改进的DCGAN模型中判别网络中的SENet模块先进行squeeze操作,将各通道的全局空间特征作为该通道的表示,使用全局平均池化生成各通道的统计量,再进行excitation操作,学习得到各通道的依赖程度,并根据依赖程度对不同的特征图进行调整,得到最后的输出。
所述的改进的DCGAN模型,生成网络的1-6层反卷积网络使用的是ReLU函数,最后一层反卷积网络使用的是Tanh函数;而对于判别网络,其1-6层卷积使用的是LeakeReLU函数,且其2-6层卷积网络后加入概率为0.5的Dropout网络层。
在训练过程中,生成网络用于生成和原始的WCE图像相似的样本,判别网络用来判别输入图像是来自于原始WCE图像还是来自于生成的虚假图像,其训练过程可表示为:
Figure BDA0003832369360000031
式(1)中x代表原始图像数据服从分布p_data(x);z表示输入的100维噪音,服从随机分布p_z(z),其中G(z)是生成网络根据噪音z生成的图像,D(x)是一个概率分布,表示将x分类为真实数据,而非生成数据的概率。
式(1)描述的是判别网络将真样本分类成真的,假样本分类成假的能力。
对于判别网络来说,这种能力越高,代表判别网络的效果越好,D的参数优化过程就是将目标函数最大化的过程,即公式(2):
Figure BDA0003832369360000032
优化好D之后,接下来固定D的参数,然后优化G的参数。当D的参数固定时,目标函数的第一项就变成了常数,只有第二项在变化。第二项代表把假样本分类成假的能力,对于生成器来说,这种能力越小越好,这样代表生成网络能够很好的欺骗D,如公式(3):
Figure BDA0003832369360000033
进一步的,对改进的DCGAN模型的训练直到达到纳什均衡,纳什均衡是指判别网络辨别的概率为0.5。
本发明的一种基于深度卷积生成对抗网络的WCE图像生成方法具有以下优点:解决了现有的WCE图像数据集较少且异常图像种类数量不均匀的问题。
附图说明
图1为本发明的一种基于深度卷积生成对抗网络的WCE图像生成方法的流程图。
图2为本发明采用的DCGAN网络的总体架构图。
图3为本发明的改进的DCGAN网络模型。
图4为本发明采用的SENet注意力模块。
图5为本发明实施例1中采用的源WCE图像数据(从左到右每列图像分别属于ulcer、polyp、blood、erosion)。
图6为本发明实施例1中生成的WCE图像数据(从左到右每列分别为ulcer、polyp、blood、erosion)。
图7为本发明实施例1中四类异常WCE源图像和生成图像的FID值。
具体实施方式
为了更好地了解本发明的目的、结构及功能,下面结合附图,对本发明一种基于深度卷积生成对抗网络的WCE图像生成方法做进一步详细的描述。
如图1所示,本发明提出利用已有的WCE图像数据进行数据增强得到WCE生成图像,可用来解决WCE图像数据集较少且种类数量分布不均匀的问题。
实施例1:
如附图所示,一种基于深度卷积生成对抗网络的WCE图像生成方法,所述方法的具体步骤如下:
S1、从WCE图像数据集中选取四类异常图像,分别为ulcer、polyp、blood、erosion。将四类图片的大小设置为256*256px,默认为*.jpg。称之为源WCE图像。
S2、对DCGAN网络进行改进,本发明采用的DCGAN网络的总体架构图如图2所示,将噪声z输入到向生成网络G,会生成虚假的图像;将G生成的虚假图像和源WCE图像输入到判别网络D,D会判别出输入图像为G生成的虚假图像(FAKE)还是源WCE图像(REAL);
本发明在原有DCGAN的基础上增加生成网络与判别网络的网络层数,并且在鉴别网络中引入Dropout层和注意力模块,提高WCE图像生成质量和网络的收敛速度;
生成网络为七层结构,主要利用反卷积学习图像细节信息,实现图像的上采样。七层网络结构为一层卷积核为4*4、步长为1的反卷积,批量正则化,ReLU激活函数;五层卷积核为4*4、步长为2、填充为1的反卷积,批量正则化,ReLU函数;一层卷积核为4*4、步长为2、填充为1的反卷积,Tanh函数。具体可参看图3a,图3a为对生成网络输入100维度的噪音z,经过生成网络中的一连串反卷积操作会生成256*256*3的虚假WCE图像。
判别网络为八层结构,包括七个卷积层和一个注意力层,判别网络通过卷积层实现下采样,提取图像信息,并利用注意力模块通过显式地建模通道之间的相互依赖性,自适应地重新校准通道特征响应,可以帮助网络在提取图像过程中主动选用作用更大的特征图。八层网络结构为一层卷积核为4*4、步长为2、填充为1的卷积,LeakyReLU函数;五层卷积核为4*4、步长为2、填充为1的卷积,批量正则化,LeakyReLU函数,概率为0.5的Dropout层;一层SENet注意力模块,一层卷积核为4*4、步长为1的卷积,Sigmoid函数。具体可参见图3b,在判别网络的卷积层后加入dropout层可以加快模型的收敛速度、提高整体DCGAN模型的生成图像质量,添加的SENet注意力模块也有助于模型快速选择有效的图像信息,提高WCE图像生成质量。
本发明采用的SENet注意力模块具体如图4所示,SENet注意力模块主要包括squeeze、excitation两部分,squeeze部分将原始维度为H*W*C的特征图压缩为1*1*C,获得全局的感受野;excitation部分对每个通道的重要性进行预测,将这些通道重要性大小作用到之前的特征图的对应通道。
S3、对改进的DCGAN模型进行训练,设置迭代次数为1000,Adam的学习率默认为0.0002,批图像的个数batch_size设置为为128,采用BCELoss损失函数。在训练过程中,生成网络用于生成和原始的WCE图像相似的样本,判别网络用来判断输入图像是来自于原始WCE图像还是来自于生成的虚假图像,生成网络和判别网络互相博弈不断加强彼此的能力直至达到动态平衡。其训练过程可表示为:
Figure BDA0003832369360000051
S4、当改进的DCGAN模型达到纳什均衡,也就是判别网络的判别概率为0.5时,保存网络参数,使用此状态下的生成网络来生成WCE图像。
Frechet Inception Distance(FID)可以很好地捕捉对抗生成网络的生成图像和真实图像之间的相似性,可以用来评估对抗生成网络的性能。FID从原始图像的计算机视觉特征的统计方面的相似度来衡量两组图像的相似度,可以用来评估对抗生成网络生成的图像的质量,FID分数越低代表两组图像越相似。
Figure BDA0003832369360000061
其中μx,∑x分别是真实图像集合在Inception Net-V3输出的特征向量集合的均值和协方差矩阵,μg,∑g分别是生成图像集合在Inception Net-V3输出的特征向量集合的均值和协方差矩阵,Tr表示矩阵的迹。
WCE-DCGAN网络生成图像和真实图像的FID值(维度768)如图7所示,从图中可以看出各类别的FID值都很低,可以证明生成图像和真实图像之间有着较高的相似性,并结合图5和图6也可以看出生成图像质量很好。
可以理解,本发明是通过一些实施例进行描述的,本领域技术人员知悉的,在不脱离本发明的精神和范围的情况下,可以对这些特征和实施例进行各种改变或等效替换。另外,在本发明的教导下,可以对这些特征和实施例进行修改以适应具体的情况及材料而不会脱离本发明的精神和范围。因此,本发明不受此处所公开的具体实施例的限制,所有落入本申请的权利要求范围内的实施例都属于本发明所保护的范围内。

Claims (3)

1.一种基于深度卷积生成对抗网络的WCE图像生成方法,其特征在于,包括以下步骤,且以下步骤顺次进行:
S1:获取WCE图像数据,对数据进行预处理;
S2:对深度卷积生成对抗网络DCGAN进行改进,得到改进的DCGAN模型;
所述S2中,所述改进的DCGAN模型包括生成网络和判别网络两部分:
所述生成网络,输入是随机生成的100维的噪声向量,之后将其重构为4*4*1024的特征图,再经过六个卷积核为4*4、步长为2、填充为1的反卷积网络,生成大小为256*256px的WCE图像;
所述判别网络,其输入包括生成网络生成的虚假WCE图像和预处理过的真实WCE图像,然后经过六个卷积核为4*4、步长为2、padding为1的卷积网络,一个SENet注意力模块和一个卷积核为4*4、步长为1的卷积网络,最后利用softmax函数判断输入图像是否为真;
所述的判别网络中的SENet模块先进行Squeeze操作,将各通道的全局空间特征作为该通道的表示,使用全局平均池化生成各通道的统计量,再进行Excitation操作,学习各通道的依赖程度,并根据依赖程度对不同的特征图进行调整,得到最后的输出;
所述生成网络的1-6层反卷积网络使用的是ReLU函数,最后一层反卷积网络使用的是Tanh函数;所述判别网络,其1-6层卷积使用的是LeakeReLU函数,且其2-6层卷积网络后加入概率为0.5的Dropout网络层;
S3:对改进的DCGAN网络模型进行训练,直至改进的DCGAN模型达到纳什均衡;
在训练过程中,所述生成网络用于生成和原始的WCE图像相似的样本,所述判别网络用来判别输入图像是来自于原始WCE图像还是来自于生成的虚假图像,其训练过程可表示为:
Figure FDA0004208912280000021
式(1)中,x代表原始图像数据服从分布pdata(x);z表示输入的100维噪音,服从随机分布pz(z),其中G(z)是生成网络根据噪音z生成的图像,D(x)是一个概率分布,表示将x分类为真实数据,而非生成数据的概率;
S4:利用训练好的生成网络进行WCE图像生成。
2.根据权利要求1所述的基于深度卷积生成对抗网络的WCE图像生成方法,其特征在于,所述S1包括以下步骤:
S1-1,获取标注好的WCE图像数据,所述WCE图像数据可以是自行获取的已标注WCE图像,也可是公开的WCE数据集;
S1-2,调整WCE图像的大小,将原始图像裁剪缩放至256*256px大小。
3.根据权利要求1所述的基于深度卷积生成对抗网络的WCE图像生成方法,其特征在于,所述S3中,纳什均衡是指判别网络辨别的概率为0.5。
CN202211077791.9A 2022-09-05 2022-09-05 一种基于深度卷积生成对抗网络的wce图像生成方法 Active CN115375975B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211077791.9A CN115375975B (zh) 2022-09-05 2022-09-05 一种基于深度卷积生成对抗网络的wce图像生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211077791.9A CN115375975B (zh) 2022-09-05 2022-09-05 一种基于深度卷积生成对抗网络的wce图像生成方法

Publications (2)

Publication Number Publication Date
CN115375975A CN115375975A (zh) 2022-11-22
CN115375975B true CN115375975B (zh) 2023-06-06

Family

ID=84069954

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211077791.9A Active CN115375975B (zh) 2022-09-05 2022-09-05 一种基于深度卷积生成对抗网络的wce图像生成方法

Country Status (1)

Country Link
CN (1) CN115375975B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111563841A (zh) * 2019-11-13 2020-08-21 南京信息工程大学 一种基于生成对抗网络的高分辨率图像生成方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110705440B (zh) * 2019-09-27 2022-11-01 贵州大学 一种基于神经网络特征融合的胶囊内镜图像识别模型
CN110827216B (zh) * 2019-10-23 2023-07-14 上海理工大学 图像去噪的多生成器生成对抗网络学习方法
CN111583109B (zh) * 2020-04-23 2024-02-13 华南理工大学 基于生成对抗网络的图像超分辨率方法
CN112509092B (zh) * 2020-12-14 2024-03-15 上海海事大学 基于卷积生成对抗网络的乳腺X-ray图像自动生成方法
CN113222957A (zh) * 2021-05-25 2021-08-06 长春大学 一种基于胶囊镜图像的多类别病灶高速检测方法及系统
CN113420639A (zh) * 2021-06-21 2021-09-21 南京航空航天大学 基于生成对抗网络的近地面红外目标数据集建立方法及装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111563841A (zh) * 2019-11-13 2020-08-21 南京信息工程大学 一种基于生成对抗网络的高分辨率图像生成方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
一种基于自注意力机制的文本图像生成对抗网络;黄宏宇;谷子丰;;重庆大学学报(03);第59-65页 *

Also Published As

Publication number Publication date
CN115375975A (zh) 2022-11-22

Similar Documents

Publication Publication Date Title
CN112446270B (zh) 行人再识别网络的训练方法、行人再识别方法和装置
CN109166126B (zh) 一种基于条件生成式对抗网络在icga图像上分割漆裂纹的方法
CN110188824B (zh) 一种小样本植物病害识别方法及系统
CN110097554B (zh) 基于密集卷积和深度可分离卷积的视网膜血管分割方法
CN112990097B (zh) 一种基于对抗消除的人脸表情识别方法
CN111476283A (zh) 基于迁移学习的青光眼眼底图像识别方法
CN110210608B (zh) 基于注意力机制和多层次特征融合的低照度图像增强方法
CN111797683A (zh) 一种基于深度残差注意力网络的视频表情识别方法
CN112529146B (zh) 神经网络模型训练的方法和装置
EP4163832A1 (en) Neural network training method and apparatus, and image processing method and apparatus
CN112446835B (zh) 图像恢复方法、图像恢复网络训练方法、装置和存储介质
Wang et al. Active fine-tuning from gMAD examples improves blind image quality assessment
CN114266898A (zh) 一种基于改进EfficientNet的肝癌识别方法
Ahmed et al. Improve of contrast-distorted image quality assessment based on convolutional neural networks.
CN114511502A (zh) 一种基于人工智能的胃肠道内窥镜图像息肉检测系统、终端及存储介质
CN115131503A (zh) 一种虹膜三维识别的健康监测方法及其系统
CN114596233A (zh) 基于注意引导和多尺度特征融合的低照度图像增强方法
CN113239825A (zh) 一种复杂场景下高精度烟草甲虫检测方法
CN114463176B (zh) 基于改进esrgan的图像超分辨重建方法
CN112070767A (zh) 一种基于生成式对抗网络的显微图像中微血管分割方法
CN115035127A (zh) 一种基于生成式对抗网络的视网膜血管分割方法
CN112560034B (zh) 基于反馈式深度对抗网络的恶意代码样本合成方法及装置
CN115375975B (zh) 一种基于深度卷积生成对抗网络的wce图像生成方法
CN113673670A (zh) 基于改进的dcgan的输电线路图像增广方法及系统
CN111767842A (zh) 基于迁移学习和自编码器数据增强的微表情种类判别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant