CN115375975B

CN115375975B - 一种基于深度卷积生成对抗网络的wce图像生成方法

Info

Publication number: CN115375975B
Application number: CN202211077791.9A
Authority: CN
Inventors: 肖治国; 卢佳; 于桦; 鲁光男; 李念峰; 孙立岩; 杨永吉; 陈发青; 范媛媛; 赵楠; 王春湘; 丁天娇
Original assignee: Changchun University
Current assignee: Changchun University
Priority date: 2022-09-05
Filing date: 2022-09-05
Publication date: 2023-06-06
Anticipated expiration: 2042-09-05
Also published as: CN115375975A

Abstract

本发明一种基于深度卷积生成对抗网络的WCE图像生成方法，通过应用改进的DCGAN网络根据原始样本图像生成高质量的WCE图像，涉及深度学习中计算机视觉的图像增广技术领域；本方法包括以下步骤：获取WCE图像，并对其进行预处理；然后对DCGAN模型进行改进，使其能够生成高分辨率高质量的WCE图像；对改进的DCGAN模型进行训练直至达到纳什均衡，保存网络状态；使用训练好的生成网络进行WCE图像生成。本发明能够生成高质量多样性的WCE图像，更加符合临床场景。

Description

一种基于深度卷积生成对抗网络的WCE图像生成方法

技术领域

本发明属于深度学习中计算机视觉的图像增广技术领域，尤其涉及一种基于深度卷积生成对抗网络的WCE图像生成方法。

背景技术

无线胶囊内窥镜(wireless capsule endoscopy，简称WCE)是一种常见的消化道疾病的检查方式，具有非入侵、无痛、安全、可对全消化道进行可视化观察等优点。自2001年面世以来，它就被广泛地应用在消化道的临床检查中。虽然WCE在消化道疾病的检查方面具有很好的使用效果，但是患者进行一次消化道检查需要持续6-8小时，会产生5-8万张的图片。WCE图片整体数量庞大，且异常图像的占比较小，这些问题使得内镜专家在定位异常图像时会花费很多时间，也会存在漏检的可能性。同时尽管近年来关于人工智能技术辅助WCE异常图像自动检测的研究取得了很大的进展，但是现有研究中的数据集规模较小、异常图像种类数量分布不均匀，严重限制了目标检测模型的性能提升。

目前针对图像的数据增强方法有很多，传统的方法包括平移、翻转、旋转、亮度调整、放射变化、高斯噪声和局部擦除等，这些对图像的微小修改只能获得很少的额外信息，无法提高数据多样性，没有泛化能力。

发明内容

本发明目的在于提供一种基于深度卷积生成对抗网络的WCE图像生成方法，利用已有的异常WCE图像数据进行数据增强从而生成更多的WCE图像，以解决现有的WCE图像数据集较少，异常图像种类数量分布不均匀的技术问题。

为实现上述目的，本发明的一种基于深度卷积生成对抗网络的WCE图像生成方法的具体技术方案如下：

本发明的一种基于深度卷积生成对抗网络的WCE图像生成方法，包括以下步骤：

获取WCE图像数据，对数据进行预处理。

对深度卷积生成对抗网络DCGAN进行改进，得到改进的DCGAN模型。

对改进的DCGAN网络模型进行训练，直至改进的DCGAN模型达到纳什均衡。

利用训练好的生成网络进行WCE图像生成。

获取WCE的原始图像数据，并调整WCE图像的大小，将原始图像裁剪缩放至256*256px大小。该数据可以是自行获取的已标注WCE图像，也可是公开的WCE数据集，本发明不做限制。

所述改进的DCGAN模型包括生成网络和判别网络两部分。对于生成网络，其输入是随机生成的100维的噪声向量，之后将其重构为4*4*1024的特征图，再经过六个卷积核为4*4、步长为2、padding为1的反卷积网络，这时生成的WCE图像大小为256*256px。对于判别网络，其输入包括生成网络生成的虚假WCE图像和权利要求2中处理过的真实WCE图像，然后经过六个卷积核为4*4、步长为2、padding为1的卷积网络，一个SENet注意力模块和一个卷积核为4*4、步长为1的卷积网络，最后利用softmax函数判断输入图像是否为真。

所述的改进的DCGAN模型中判别网络中的SENet模块先进行squeeze操作，将各通道的全局空间特征作为该通道的表示，使用全局平均池化生成各通道的统计量，再进行excitation操作，学习得到各通道的依赖程度，并根据依赖程度对不同的特征图进行调整，得到最后的输出。

所述的改进的DCGAN模型，生成网络的1-6层反卷积网络使用的是ReLU函数，最后一层反卷积网络使用的是Tanh函数；而对于判别网络，其1-6层卷积使用的是LeakeReLU函数，且其2-6层卷积网络后加入概率为0.5的Dropout网络层。

在训练过程中，生成网络用于生成和原始的WCE图像相似的样本，判别网络用来判别输入图像是来自于原始WCE图像还是来自于生成的虚假图像，其训练过程可表示为：

式(1)中x代表原始图像数据服从分布p_data(x)；z表示输入的100维噪音，服从随机分布p_z(z)，其中G(z)是生成网络根据噪音z生成的图像，D(x)是一个概率分布，表示将x分类为真实数据，而非生成数据的概率。

式(1)描述的是判别网络将真样本分类成真的，假样本分类成假的能力。

对于判别网络来说，这种能力越高，代表判别网络的效果越好，D的参数优化过程就是将目标函数最大化的过程，即公式(2)：

优化好D之后，接下来固定D的参数，然后优化G的参数。当D的参数固定时，目标函数的第一项就变成了常数，只有第二项在变化。第二项代表把假样本分类成假的能力，对于生成器来说，这种能力越小越好，这样代表生成网络能够很好的欺骗D，如公式(3):

进一步的，对改进的DCGAN模型的训练直到达到纳什均衡，纳什均衡是指判别网络辨别的概率为0.5。

本发明的一种基于深度卷积生成对抗网络的WCE图像生成方法具有以下优点：解决了现有的WCE图像数据集较少且异常图像种类数量不均匀的问题。

附图说明

图1为本发明的一种基于深度卷积生成对抗网络的WCE图像生成方法的流程图。

图2为本发明采用的DCGAN网络的总体架构图。

图3为本发明的改进的DCGAN网络模型。

图4为本发明采用的SENet注意力模块。

图5为本发明实施例1中采用的源WCE图像数据(从左到右每列图像分别属于ulcer、polyp、blood、erosion)。

图6为本发明实施例1中生成的WCE图像数据(从左到右每列分别为ulcer、polyp、blood、erosion)。

图7为本发明实施例1中四类异常WCE源图像和生成图像的FID值。

具体实施方式

为了更好地了解本发明的目的、结构及功能，下面结合附图，对本发明一种基于深度卷积生成对抗网络的WCE图像生成方法做进一步详细的描述。

如图1所示，本发明提出利用已有的WCE图像数据进行数据增强得到WCE生成图像，可用来解决WCE图像数据集较少且种类数量分布不均匀的问题。

实施例1：

如附图所示，一种基于深度卷积生成对抗网络的WCE图像生成方法，所述方法的具体步骤如下：

S1、从WCE图像数据集中选取四类异常图像，分别为ulcer、polyp、blood、erosion。将四类图片的大小设置为256*256px，默认为*.jpg。称之为源WCE图像。

S2、对DCGAN网络进行改进，本发明采用的DCGAN网络的总体架构图如图2所示，将噪声z输入到向生成网络G，会生成虚假的图像；将G生成的虚假图像和源WCE图像输入到判别网络D，D会判别出输入图像为G生成的虚假图像(FAKE)还是源WCE图像(REAL)；

本发明在原有DCGAN的基础上增加生成网络与判别网络的网络层数，并且在鉴别网络中引入Dropout层和注意力模块，提高WCE图像生成质量和网络的收敛速度；

生成网络为七层结构，主要利用反卷积学习图像细节信息，实现图像的上采样。七层网络结构为一层卷积核为4*4、步长为1的反卷积，批量正则化，ReLU激活函数；五层卷积核为4*4、步长为2、填充为1的反卷积，批量正则化，ReLU函数；一层卷积核为4*4、步长为2、填充为1的反卷积，Tanh函数。具体可参看图3a，图3a为对生成网络输入100维度的噪音z，经过生成网络中的一连串反卷积操作会生成256*256*3的虚假WCE图像。

判别网络为八层结构，包括七个卷积层和一个注意力层，判别网络通过卷积层实现下采样，提取图像信息，并利用注意力模块通过显式地建模通道之间的相互依赖性，自适应地重新校准通道特征响应，可以帮助网络在提取图像过程中主动选用作用更大的特征图。八层网络结构为一层卷积核为4*4、步长为2、填充为1的卷积，LeakyReLU函数；五层卷积核为4*4、步长为2、填充为1的卷积，批量正则化，LeakyReLU函数，概率为0.5的Dropout层；一层SENet注意力模块，一层卷积核为4*4、步长为1的卷积，Sigmoid函数。具体可参见图3b，在判别网络的卷积层后加入dropout层可以加快模型的收敛速度、提高整体DCGAN模型的生成图像质量，添加的SENet注意力模块也有助于模型快速选择有效的图像信息，提高WCE图像生成质量。

本发明采用的SENet注意力模块具体如图4所示，SENet注意力模块主要包括squeeze、excitation两部分，squeeze部分将原始维度为H*W*C的特征图压缩为1*1*C，获得全局的感受野；excitation部分对每个通道的重要性进行预测，将这些通道重要性大小作用到之前的特征图的对应通道。

S3、对改进的DCGAN模型进行训练，设置迭代次数为1000，Adam的学习率默认为0.0002，批图像的个数batch_size设置为为128，采用BCELoss损失函数。在训练过程中，生成网络用于生成和原始的WCE图像相似的样本，判别网络用来判断输入图像是来自于原始WCE图像还是来自于生成的虚假图像，生成网络和判别网络互相博弈不断加强彼此的能力直至达到动态平衡。其训练过程可表示为：

S4、当改进的DCGAN模型达到纳什均衡，也就是判别网络的判别概率为0.5时，保存网络参数，使用此状态下的生成网络来生成WCE图像。

Frechet Inception Distance(FID)可以很好地捕捉对抗生成网络的生成图像和真实图像之间的相似性，可以用来评估对抗生成网络的性能。FID从原始图像的计算机视觉特征的统计方面的相似度来衡量两组图像的相似度，可以用来评估对抗生成网络生成的图像的质量，FID分数越低代表两组图像越相似。

其中μ_x,∑_x分别是真实图像集合在Inception Net-V3输出的特征向量集合的均值和协方差矩阵，μ_g,∑_g分别是生成图像集合在Inception Net-V3输出的特征向量集合的均值和协方差矩阵，Tr表示矩阵的迹。

WCE-DCGAN网络生成图像和真实图像的FID值(维度768)如图7所示，从图中可以看出各类别的FID值都很低，可以证明生成图像和真实图像之间有着较高的相似性，并结合图5和图6也可以看出生成图像质量很好。

可以理解，本发明是通过一些实施例进行描述的，本领域技术人员知悉的，在不脱离本发明的精神和范围的情况下，可以对这些特征和实施例进行各种改变或等效替换。另外，在本发明的教导下，可以对这些特征和实施例进行修改以适应具体的情况及材料而不会脱离本发明的精神和范围。因此，本发明不受此处所公开的具体实施例的限制，所有落入本申请的权利要求范围内的实施例都属于本发明所保护的范围内。

Claims

1.一种基于深度卷积生成对抗网络的WCE图像生成方法，其特征在于，包括以下步骤，且以下步骤顺次进行：

S1：获取WCE图像数据，对数据进行预处理；

S2：对深度卷积生成对抗网络DCGAN进行改进，得到改进的DCGAN模型；

所述S2中，所述改进的DCGAN模型包括生成网络和判别网络两部分：

所述生成网络，输入是随机生成的100维的噪声向量，之后将其重构为4*4*1024的特征图，再经过六个卷积核为4*4、步长为2、填充为1的反卷积网络，生成大小为256*256px的WCE图像；

所述判别网络，其输入包括生成网络生成的虚假WCE图像和预处理过的真实WCE图像，然后经过六个卷积核为4*4、步长为2、padding为1的卷积网络，一个SENet注意力模块和一个卷积核为4*4、步长为1的卷积网络，最后利用softmax函数判断输入图像是否为真；

所述的判别网络中的SENet模块先进行Squeeze操作，将各通道的全局空间特征作为该通道的表示，使用全局平均池化生成各通道的统计量，再进行Excitation操作，学习各通道的依赖程度，并根据依赖程度对不同的特征图进行调整，得到最后的输出；

所述生成网络的1-6层反卷积网络使用的是ReLU函数，最后一层反卷积网络使用的是Tanh函数；所述判别网络，其1-6层卷积使用的是LeakeReLU函数，且其2-6层卷积网络后加入概率为0.5的Dropout网络层；

S3：对改进的DCGAN网络模型进行训练，直至改进的DCGAN模型达到纳什均衡；

在训练过程中，所述生成网络用于生成和原始的WCE图像相似的样本，所述判别网络用来判别输入图像是来自于原始WCE图像还是来自于生成的虚假图像，其训练过程可表示为：

式(1)中，x代表原始图像数据服从分布p_data(x)；z表示输入的100维噪音，服从随机分布p_z(z)，其中G(z)是生成网络根据噪音z生成的图像，D(x)是一个概率分布，表示将x分类为真实数据，而非生成数据的概率；

S4：利用训练好的生成网络进行WCE图像生成。

2.根据权利要求1所述的基于深度卷积生成对抗网络的WCE图像生成方法，其特征在于，所述S1包括以下步骤：

S1-1，获取标注好的WCE图像数据，所述WCE图像数据可以是自行获取的已标注WCE图像，也可是公开的WCE数据集；

S1-2，调整WCE图像的大小，将原始图像裁剪缩放至256*256px大小。

3.根据权利要求1所述的基于深度卷积生成对抗网络的WCE图像生成方法，其特征在于，所述S3中，纳什均衡是指判别网络辨别的概率为0.5。