CN113178255B

CN113178255B - 一种基于gan的医学诊断模型对抗攻击方法

Info

Publication number: CN113178255B
Application number: CN202110550784.5A
Authority: CN
Inventors: 王小银; 吕硕; 王曙燕; 孙家泽; 舒新峰; 候东海; 王春梅
Original assignee: Xian University of Posts and Telecommunications
Current assignee: Xian University of Posts and Telecommunications
Priority date: 2021-05-18
Filing date: 2021-05-18
Publication date: 2023-05-26
Anticipated expiration: 2041-05-18
Also published as: CN113178255A

Abstract

本发明针对人工智能医疗影像诊断模型的安全性问题，公开了一种基于GAN的医学诊断模型对抗攻击方法。首先是对采集到的医学病理影像搭建基于ResNet‑101的高精度残差神经网络诊断模型，然后构建基于GAN的对抗攻击网络模型，该对抗攻击网络包括一个生成器G和一个判别器D，其中生成器G用于对输入的医学影像通过叠加高维随机噪声扰动x进而生成医学影像对抗样本，判别器D用于鉴别对抗样本的真实性，通过使用一种基于特征提取图像块的PatchGAN判别器，设计包括残差块、扩张卷积和通道注意力机制三层特征块作为特征提取的主要方法，让不同尺度的卷积核感受野使用该方法都能够提取到更精细化的特征图信息，得到最有效的输入医学影像扰动区域，从而提高医疗诊断模型的对抗攻击有效性，进而可以对医学诊断模型进行加固和防御对抗攻击。

Description

一种基于GAN的医学诊断模型对抗攻击方法

技术领域

本发明涉及深度学习的人工智能安全领域，具体地，涉及一种基于GAN的医学诊断模型对抗攻击方法。

背景技术

随着AI技术的发展，特别是深度学习DeepLearning算法，最近已成为智能医疗的理想解决方案选择。使用AI医学影像辅助诊断病情能够极大提高疾病的诊断水平与效率。虽然现在医学诊断系统在DeepLesion等大型医学数据集上的识别准确率及表现良好，但是研究发现，在训练完毕的医学诊断模型中添加处理过后的对抗样本数据集，将会导致医疗模型产生致命性的错误。

传统的对抗攻击方法主要有两种，第一种是基于梯度的生成方式如FGSM和PGD等一系列FGSM的变体，主要思想是按照深度学习模型的梯度变化最大的方向添加图像扰动；第二种是基于优化的生成方式如CW和JSMA等，通过计算样本的预测值与真实值之间的损失函数，在迭代训练过程中将网络参数固定下来，把对抗样本当做唯一需要训练的参数，通过反向传递过程调整对抗样本。当前的深度学习系统通常出于安全原因不允许对模型进行白盒访问，只允许对模型进行查询访问，即将模型视作黑盒，使用传统对抗攻击方法的大多数黑盒攻击的成功率都不高。

GoodFellow等人提出了通过对抗过程来优化生成模型的新框架生成对抗网络GAN，GAN作为生成模型之一，同样可以生成对抗样本，其表现出来的对数据分布的良好的学习能力，使得GAN在对抗攻击样本生成方面具有很大的潜力。医学图像通过GAN进行合成时，生成对抗网络由生成网络和判别网络组成，能够捕捉到描述高水平医学图像的语义特征信息。通过采用对抗神经网络生成对抗样本也可以验证医学模型的健壮性及衡量医学模型的置信度，并可以解决医学图像样本量过小的问题。

结合医学图像的特殊性，使用GAN生成的对抗样本来进行对抗攻击，可以很好解决黑盒对抗攻击时的对抗样本可迁移问题，并且提高了对抗攻击的收敛速度，对抗攻击的有效性也优于使用传统对抗攻击的方法，随着大规模医疗诊断模型的落地，GAN在AI医疗安全领域的使用会更加的广泛。

发明内容

本发明的目的是提供一种基于GAN的医学诊断模型对抗攻击方法，针对医学病理影像构建AI模型，利用生成式对抗神经网络来生成对抗样本，使用对抗样本对AI医学模型进行攻击和对抗，对医学数据集进行扩充和增强，让AI医学诊断模型能够更好的满足医学场景需求，增强医学模型健壮性和诊断能力，解决医学数据集存在的数量过少和类不平衡问题，提高模型健壮性，显著提高计算机辅助医疗诊断的能力，并且加固AI模型的安全性。

本发明的一种基于GAN的医学诊断模型对抗攻击方法，具体包括如下步骤：

(1)构建面向医学病理影像诊断的残差神经网络目标模型，具体实施过程：

搭建ResNet-101迁移学习目标模型，构建残差单元，调节模型训练参数；

训练过程中选用Adam+SGD梯度下降策略，先使用Adam快速下降算法，再使用SGD调优；

直到目标模型达到最佳准确率后保存黑盒目标模型。

(2)基于模型蒸馏技术进行黑盒攻击，具体实施过程：

在黑盒模型的输出基础上构建一个蒸馏网络f，得到蒸馏网络f后，最小化网络蒸馏目标；

通过优化所有训练图像的蒸馏目标，得到一个非常接近目标模型f的黑盒模型b，对经过蒸馏提炼的网络进行对抗攻击。

(3)使用GAN对抗网络动态蒸馏模型，实现高黑盒攻击成功率和有针对性的黑盒攻击，具体实施过程：

训练一个条件对抗性网络CGAN，直接生成对抗扰动x+G(x)；

首先执行白盒攻击，目标模型为f；

f以x+G(x)为输入输出其损失L_GAN，它表示预测目标类(有针对性攻击)的距离，与预测真实类(无针对性攻击)的距离相反。

(4)生成器特征提取块编码解码结构设计，具体实施过程：

在为医学对抗网络创建的整体端到端训练网络中，使用ResNet架构作为生成器模型；

设计包括残差块、扩张卷积和通道注意力机制三层特征块作为特征提取的主要方法，主要特征是：

编码器将输入图像编码之后进入特征提取块，通过不同尺度的感受野(卷积神经网络的特征图上的像素点在上层输入图像映射的区域大小)将特征图的信息提取出来，得到输入图像最有效的扰动区域；

网络主体由残差块组成，每个残差块包含两个3*3卷积层，通过使用残差块结构来简化深度学习过程，增强梯度传播的同时也解决了深度神经网络的退化问题；

通过设计使用扩张卷积的残差块结构，将卷积权值分散到一个更大的区域，从而有效的增大卷积核感受野，在提取特征时能够高效率的生成具有针对性的扰动；

在原始样本输入和生成器输出之间引入通道注意力机制来学习出每个通道的权重，使用SENet通道注意力机制来对各通道的依赖性进行建模以提高网络的适应能力。

(5)PatchGAN判别器增强对抗样本的图像纹理细节。

使用PatchGAN判别器给出预测的N*N矩阵，修改对抗网络为可判断输出图像二维矩阵的GAN验证器，从而聚焦和增强图像的纹理细节，用于判别输入的局部区域的真实性，其特征包括：在判别器网络共享架构之后，传统的GAN判别器被PatchGAN判别器取代，完全连接的PatchGAN层被添加在判别器网络的末端，以确定局部Patch纹理的相似性依赖；

判别器会产生对抗损失，并反馈给生成网络，以实现更好的局部纹理细节和全局结构一致性；

使用PatchGAN保留了局部连续性，生成网络可以从可用的上下文中揭示更多细节，可以有效的衡量图像整体的质量以及局部细节的一致性，从而获得一个客观的值来衡量图像的整体质量以及局部细节的一致性。

附图说明

附图仅为更加充分的说明本发明的流程，并不构成对本发明范围的限制。

图1为本发明中对抗训练流程图；

图2为本发明提出的基于GAN的医学诊断模型对抗攻击整体架构图；

图3为本发明中对抗网络生成器的编码解码结构图；

图4为本发明中对抗网络判别器的网络结构图。

图5为本发明中的MSE实验对比评价图；

图6为本发明中的PSNR实验对比评价图；

图7为本发明中的SSIM实验对比评价图。

具体实施方案

步骤1、残差神经网络目标模型的构建。

按照普通疾病影像、特殊疾病影像、正常组织影像进行目标分类，并按照8：2的比例划分医学影像数据集为训练集和测试集；

将图像数据转换为一维特征向量，网络末端采用全连接网络，主要用于医学数据集的分类和预测；

在训练过程中先使用Adam快速下降算法，再使用SGD调优；

直到目标模型达到最佳准确率后保存黑盒目标模型。

步骤2、使用对抗网络动态蒸馏模型进行黑盒攻击。

随机抽取与黑盒攻击模型训练数据不相交的数据进行模型蒸馏；

在黑盒模型的输出基础上构建一个蒸馏网络f；

得到蒸馏网络f后，最小化以下网络蒸馏目标：

其中E_x为蒸馏网络和目标网络输出的期望值，f(x)、b(x)分别为给定训练图像的蒸馏模型和黑盒模型的输出，H为交叉熵损失；

只使用来自原始类的真实数据来鼓励生成的实例与原始类接近，这里使用所有训练集训练经过提炼的模型；

通过优化所有训练图像的蒸馏目标，得到一个目标模型f，f的特征非常接近黑盒模型b，然后对经过蒸馏提炼的网络进行攻击。

步骤3、构建GAN医学诊断对抗攻击模型，包括生成器G和判别器D，图1绘示了本发明中对抗训练流程图，图2绘示了本发明中医学诊断模型对抗攻击整体架构图。

G以原始实例x作为输入，生成一个扰动G(x)；

然后x+G(x)将被发送给判别器D，它用于区分生成的数据和原始实例x，D的目标是使生成的实例与原始输入的数据无法区分；

首先执行白盒攻击，目标模型为f；

f以x+G(x)为输入输出其损失L_adv，它表示预测到目标类t(有针对性攻击)的距离，或者与预测到真实类(无针对性攻击)的距离相反，这里，判别器D的目的是从源数据输入x中区分出扰动数据x+G(x)，实际数据是从真实类中取样的，以便鼓励生成的实例与原始类中的数据接近，在目标攻击中愚弄目标模型f的损失函数是：

这里t是目标类别，l表示用于训练原始模型f的损失函数。L损失鼓励干扰图像被错误分类到目标t中；

通过最大化预测与周围真实样本之间的距离来执行无目标攻击，限制扰动的大小，在L2范数上增加了一个铰链损失：

L_hinge＝R_x max(0，||g(x)||_x-c)

这里c表示用户指定的约束，可以稳固GAN的训练，此时对抗攻击的目标可以表示为：

这里α,β控制每个目标的关联程度，L_GAN用于鼓励受扰动的数据与原始数据x相似，而L_adv用于生成对抗性示例，从而优化攻击成功率，通过求解GAN对抗网络：

这里得到G和D，一旦G被训练数据和目标模型进行训练，就可以对任何输入实例产生扰动，执行半白盒攻击。

攻击目标模型f，向f输入x+G(x)，并输出损失，该损失在定向攻击时表示预测结果与目标结果间的距离，在非定向攻击时表示与真实类的距离，其中GAN的损失为：

L_GAN＝Q_x log D(x)+P_x log(1-D(x+G(x)))

其中Q_x表示判别器输出的期望值，P_x表示生成器输出的期望值，判别器D的目的是将被扰动的数据x+G(x)与原始数据x区分开来，可以确保生成的对抗样本与真实图像的数据接近。

步骤4、生成器特征提取块编码解码结构设计，图3绘示了本发明中对抗网络生成器的编码解码结构图。

在为医学模型对抗网络创建的整体端到端训练网络中，使用ResNet架构作为生成器模型，设计一个三层的特征提取块，主要是通过使用残差块、扩张卷积和通道注意力机制来对生成器的编码解码结构进行重组和优化，主要特征是：

(1)编码器将输入图像编码之后进入特征提取块，通过不同尺度的感受野将特征图的信息给提取出来，得到最有效的输入图像扰动区域。

(2)网络主体由残差块组成，每个残差块包含两个3*3卷积层，通过使用残差块结构来简化深度学习过程，增强梯度传播的同时也解决了深度神经网络的退化问题，残差块公式如下：

x_l+1＝x_l+F(x_l，W_l)其中x_l+1是这一层残差块的输入，x_l为上层特征图输入值，W_l为权重参数，F(x)是经过第一层线性变化并激活后的残差输出。

(3)对于生成网络来说，信息损失将会误导生成网络生成与预期不相符的图像，通过设计扩张卷积的残差块结构，将卷积权值分散到一个更大的区域，从而有效的增大卷积核感受野，在提取特征时能够高效率的生成具有针对性的扰动。

每组的第一层进行降采样，卷积滤波器对偶数行和偶数列进行评估；

每一组的卷积层记为g，其中每一层都有单一的特征映射，然后直接扩展到多个特征映射，每一层理想化的输出公式是：

其中g_i表示组中的第i层，f_i是与g_i关联的过滤器，p的定义域是g_i中的特征映射；

通过对图像进行上采样操作来提高图像的分辨率，改变g⁴,g⁵卷积层的卷积算子为两个空洞卷积：

当i≥2时，同样的变换也适用于g⁵卷积层：

g⁵中的后续卷积层需要放大4倍以补偿步幅消除时的维度损失：

原始的ResNet对输入图像每维下采样32倍，使用扩张卷积后对输入图像下采样8倍；

感受野和原ResNet对应层一样，可以帮助目标模型识别覆盖输入图像中较少像素的对象，并进行有效的分类和预测。

(4)使用SENet通道注意力机制来对各通道的依赖性进行建模以提高网络的适应能力。

对通道进行特征调整，使得网络可以通过学习全局信息来对有效和无效信息进行选择性增强或减弱，从而提高网络对扰动的适应能力；

在原始样本输入和生成器输出之间引入通道注意力机制来学习出每个通道的权重；

该方法的通道注意力机制的操作流程是：

Squeeze操作流程如下：

为了利用到图像特征的局部接受域，将全局空间信息压缩到通道中，使用全局平均池生成通道特征信息，各通道的全局空间特征作为该通道的公式表示为：

u可以被解释为局部接受域信道描述符的集合，z_c由u通过空间维度H*W收敛而产生，这些局部描述符的统计信息可以表达整个图像的特征信息。

Excitation操作流程如下：

为了利用挤压操作中聚合的信息以及完全捕获各通道方面的依赖关系，需要考察各通道的关联程度，激励函数为：

s＝F_ex(z，W)＝σ(g(z，W))＝σ(W₂δ(W₁z))

其中，δ指ReLU函数，W₁属于

W₂属于/>

通过形成两个完全连接层的边界来对通道输入机制进行非线性参数化；

通过设计一个降维率为r的降维层以及一个ReLU函数，再设计一个维度增加层，返回输出u的通道维度，通过激活s重新压缩u得到块的最终输出，尺度函数为：

其中，

F_scale指向s_C和u_C之间的通道。

Attention操作流程如下：

通过把体系结构中的模块更改为SE注意力初始网络，然后和构造好的ResNet残差网络进行结合，并在进行下一次注意力转换之前，通过挤压和激励两步重新校准滤波器响应。

步骤5、PatchGAN判别器增强对抗样本的图像纹理细节，图4绘示了本发明中对抗网络判别器的网络结构图。

使用PatchGAN判别器给出预测的N*N矩阵，修改对抗网络为可判断输出图像二维矩阵的GAN验证器，其特征包括：

该判别器在整个图像上卷积，对N*N个判定结果取平均以提供最终的判别器输出；

在判别器网络前几层设计一个参数权重共享架构，然后设计PatchGAN判别器网络结构，以捕捉图像的局部连续性视觉特征和整体视觉特征；

在判别器网络共享架构之后，传统的GAN判别器被PatchGAN判别器取代，完全连接的PatchGAN层被添加在判别器网络的末端，以确定局部Patch纹理的相似性依赖；

对于前三个卷积层(即I→C1→C2→C3)，将padding设置为“same”，然后对于接下来的两个卷积层(即C3→C4→O)，将padding设置为“valid”，C3和C4层接下来进行零填充；

将256*256输入图像和生成器G创建的伪图像混合之后，最终获得了30*30*1尺寸的特征图；

该特征图的一个像素对应于输入图像的70*70输入补丁；

将30*30*1特征图的所有值平均化并用作判别器的输出；

通过使用L1损耗，生成器不仅可以欺骗判别器，还可以减小L1与地面真相的距离；

进而判别器会产生两个对抗损失，并反馈给生成网络；

从而捕获图像纹理的局部连续性和图像中的普遍全局特征，以实现更好的局部纹理细节和全局结构一致性；

步骤6、在对抗攻击训练阶段，使用Adam优化器对生成器和判别器中的损失函数进行反向传播联合优化整体网络。

其中的损失函数的特征如下：

图像重建损失函数L_rec描述真实图像与GAN合成的图像之间的距离：

其中M是样本数，y是预测的像素，x是真实图片的像素，WHC是图像的长宽比和通道；

生成器G通过在原始医学影像实例x叠加干扰噪声后生成对抗样本x+G(x)，判别器D主要是通过优化损失函数进而引导生成器G的训练过程。对抗攻击损失函数：

其中E_x～p(x)为判别器对于x真实样本输出的期望值，E_y～pG(x)为生成器对于生成样本y输出的期望值，L_GAN主要由训练阶段引入的PatchGAN中的判别器网络D的损失函数计算，并且生成器和判别器在训练时要使arg min_Gmax_DL_GAN(G,D)最小,

属于损失图像；

通过Adam优化器优化目标函数后，生成对抗网络在结构上达到最大一致性。联合损失函数：

L＝λ₁L_rec+λ₂L_g-adv+λ₃L_p-adv

其中L_g-adv是L_GAN中生成器的期望分布，L_p-adv是L_GAN中判别器的期望分布，L是对抗网络总的对抗损失，三个损失函数的每个分量由λ₁、λ₂、λ₃系数控制。

下面通过实验结果分析，来说明本发明的优势和可行性。

在医学CT图上使用advGAN、PatchGAN、SEGAN与本文提出的AmdGAN方法进行比较。

在对抗攻击领域，扰动图像缺乏良好的定量评估指标，在经过权衡之后，决定使用MSE、PSNR、SSIM指标来评估图像的质量。

图5绘示了本发明的MSE评价图，较低的MSE说明实验数据具有更好的精确度，由图可知本发明的MSE值较小，预测精确度最高。

图6绘示了本发明的PSNR评价图，较低的PSNR说明生成的对抗样本图像失真越小，由图可知本发明的PSNR值较大，图像失真最小。

图7绘示了本发明的SSIM评价图，较低的SSIM说明生成的对抗样本在亮度、对比度、结构三方面和真实图像的相似性越高，由图可知本发明的SSIM值较大，图像失真最小。

Claims

1.一种基于GAN的医学诊断模型对抗攻击方法，其特征包括：

A.使用GAN对抗网络动态蒸馏模型，实现高黑盒攻击成功率和有针对性的黑盒攻击，具体步骤如下：

a1：选择基于Resnet-101模型搭建迁移学习神经网络目标模型，构建残差单元，调节模型训练参数；

a2：构造GAN对抗攻击网络结构，主要由三部分组成:生成器G、判别器D和目标网络f；

a3：在黑盒模型的输出基础上构建一个蒸馏网络f，蒸馏网络模型的目标为：

其中E_x为蒸馏网络和目标网络输出的期望值，f(x)和b(x)分别表示蒸馏模型和黑盒模型对给定训练医学图像的输出，H表示常用的交叉熵损失；

a4：通过对所有训练图像的目标进行优化，得到一个非常接近黑盒的模型，然后对蒸馏网络进行攻击，并联合训练蒸馏模型f和生成器G；

a5：训练一个条件对抗性网络CGAN，直接生成对抗扰动样本；

a6：向生成器G输入真实医学图像x,叠加高维噪声后生成扰动x+G(x)，将x+G(x)送入判别器D，判别为原始数据或对抗样本；

a7：攻击目标模型f，向f输入x+G(x)，并输出损失，该损失在定向攻击时表示预测结果与目标结果间的距离，在非定向攻击时表示与真实类的距离，其中GAN的损失为：

LGAN＝Q_x log D(x)+P_x log(1-D(x+G(x)))

其中Q_x表示判别器输出的期望值，P_x表示生成器输出的期望值，判别器D的目的是将被扰动的数据x+G(x)与原始数据x区分开来，可以确保生成的对抗样本与真实图像的数据接近；

a8：固定生成器G，训练蒸馏网络f，向黑盒模型输入用生成器G生成的扰动图像x+G(x)，根据黑盒模型的输出，训练出蒸馏模型；

B.在为医学对抗网络创建的整体端到端训练网络中，使用ResNet架构作为生成器模型，设计一个三层的特征提取块，主要是通过使用残差块、扩张卷积和通道注意力机制来对生成器的编码解码结构进行重组和优化，主要特征是：

b1：编码器将输入图像编码之后进入特征提取块，通过不同尺度的感受野将特征图的信息给提取出来，得到输入图像最有效的扰动区域；

b2：网络主体由残差块组成，每个残差块包含两个3*3卷积层，通过使用残差块结构来简化深度学习过程，增强梯度传播的同时也解决了深度神经网络的退化问题，残差块公式如下：

x_l+1＝x_l+F(x_l，W_l)

其中x_l+1是这一层残差块的输入，x_l为上层特征图输入值，W_l为权重参数，F(x)是经过第一层线性变化并激活后的残差输出；

b3：使用SE通道注意力机制来对通道特征进行调整，提高网络对扰动的识别能力；

C.使用PatchGAN判别器给出预测的N*N矩阵，修改对抗网络为可判断输出图像二维矩阵的GAN验证器，其特征包括：

c1：在判别器网络前几层设计一个参数权重共享架构，设计PatchGAN判别器网络结构以捕捉图像的局部连续性视觉特征和整体视觉特征；

c2：在判别器网络参数权重共享架构之后，传统的GAN判别器被PatchGAN判别器取代，完全连接的PatchGAN层被添加在判别器网络的末端；

c3：进而判别器会产生对抗损失，并反馈给生成网络；

c4：使用PatchGAN保留局部连续性；

D.在对抗攻击训练阶段，使用Adam优化器对生成器和判别器中的三个损失函数进行反向传播联合优化整体网络，其中的损失函数的特征如下：

d1：图像重建损失函数L_rec描述真实图像与GAN合成的图像之间的距离：

其中M是样本数，y是预测的像素，x是真实图片的像素，WHC是图像的长宽比通道；

d2：对抗攻击损失函数：

属于损失图像；

d3：联合损失函数：

L＝λ₁L_rec+λ₂L_g-adv+λ₃L_p-adv