CN112215339B

CN112215339B - 基于生成对抗网络的医疗数据扩充方法

Info

Publication number: CN112215339B
Application number: CN202011090696.3A
Authority: CN
Inventors: 罗森林; 李班; 潘丽敏
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2020-10-13
Filing date: 2020-10-13
Publication date: 2023-01-03
Anticipated expiration: 2040-10-13
Also published as: CN112215339A

Abstract

本发明涉及一种医疗数据扩充方法，尤其是指一种针对医疗中具有复杂分布的表格类型数据扩充方法，属于计算机与信息科学技术领域。该方法包括：首先学习表格数据的边缘概率分布，具体方法是利用累积概率分布函数将表格的每一维数据处理为均匀分布数据并训练一个神经网络拟合累积概率分布函数的逆函数将均匀分布数据映射回目标分布的数据；利用改进的生成对抗网络模型WGAN‑GP学习预处理后均匀分布数据的联合概率分布；最终利用训练好的表示累积概率分布函数逆函数的神经网络将从GAN的生成器采样出的均匀分布数据变换至目标分布的数据，从而生成和训练样本具有相同概率分布的生成样本。

Description

基于生成对抗网络的医疗数据扩充方法

技术领域

本发明涉及一种医疗数据扩充方法，尤其是指一种针对医疗中具有复杂分布的表格类型数据扩充方法，属于计算机与信息科学技术领域。

背景技术

近年来，随着人工智能技术的迅速发展，许多机器学习方法被应用于医疗领域。机器学习模型尤其深度学习模型往往需要大量的训练数据才能发挥较好的性能。而在医疗领域，由于患者数据的隐私性、罕见疾病数据采集困难、成本昂贵等原因常常难以获取大量的训练数据，因此需要对此类小规模数据集进行数据扩充。传统数据扩充方法利用过采样技术，扩充数据仍然来自于已有真实数据，而生成模型通过拟合训练数据的概率分布进行数据生成，已经成为目前较先进的数据扩充方法。

生成模型作为机器学习中无监督学习的重要研究领域之一，一般是指根据随机产生的观测数据建立数据观测值的联合概率分布模型。在机器学习中，生成模型构建出的联合概率分布模型用于数据采样(数据扩充)和构建变量间的条件概率分布模型。为了更好地拟合数据的概率分布模型从而生成真实性较高的生成数据，研究者们结合神经网络模型设计了变分自编码器(Variational Auto-Encoder，VAE)，生成对抗网络(GenerativeAdversarial Networks，GAN)，深度玻尔兹曼机(Deep Boltzmann Machines，DBM)等深度生成模型。

生成对抗网络(Generative Adversarial Networks，GAN)是目前流行的深度生成模型之一，它以利用生成器和鉴别器的相互博弈来生成逼真的图像数据和文本数据而著称。生成对抗网络的架构包含两个神经网络模型：一、生成模型G，它的任务是根据输入的随机向量输出尽可能真实的生成样本；二、判别模型D，它的任务是尽可能准确地判定输入的样本是真实样本还是生成样本。GAN训练目标函数如下：

其中，p_data(x)表示真实数据分布，x表示服从真实样本，p_z(z)表示随机向量z的概率分布，一般为高斯分布。模型训练时，首先训练判别模型，然后生成模型和判别模型交替进行对抗训练，直至达到纳什均衡状态。而实际上GAN难以被训练至最优的纳什均衡状态，原因是一、GAN的生成器优化目标实质上是最小化目标分布和生成分布之间的JS散度，而当两个分布没有交集时，JS散度无法衡量两个分布之间的距离，所以出现梯度消失问题；二、模式崩坏问题，生成器只拟合真实数据概率分布的一部分，导致生成样本只保证了真实性而失去了多样性。

综上所述，随着深度学习方法在数据扩充领域的应用和发展，以生成对抗网络为代表的深度生成模型在图像数据生成方面取得了较好的研究成果。但仍存在梯度消失和模式崩坏的问题导致生成模型难以被稳定地训练至最优的状态，另外，相比图像数据，医疗领域中表格类型数据每一维的概率分布类型更为复杂，比如多模式分布，重尾分布，边界分布等，现有的深度生成模型难以直接应用于医疗领域中具有高维复杂分布类型的表格数据。

发明内容

本发明的目的是解决医疗领域中，由于隐私性、罕见疾病数据量小、采集困难等原因通常难以获取大量训练数据的问题，提出一种基于生成对抗网络的表格类型数据扩充方法。

本发明的设计原理为：首先学习表格数据的边缘概率分布，具体方法是利用累积概率分布函数将表格的每一维数据处理为均匀分布数据并训练一个神经网络拟合累积概率分布函数的逆函数将均匀分布数据映射回目标分布的数据；利用改进的生成对抗网络模型WGAN-GP学习预处理后均匀分布数据的联合概率分布；最终利用训练好的表示累积概率分布函数逆函数的神经网络将从GAN的生成器采样出的均匀分布数据变换至目标分布的数据，从而生成和训练样本具有相同概率分布的生成样本。

本发明的技术方案是通过如下步骤实现的：

步骤1，预处理训练数据为每一维都服从均匀分布的数据；

步骤1.1，对输入原始数据Data^Real按列进行min-max归一化至[-0.99,0.99]，记为

步骤1.2，计算累计概率分布函数值，并将处理后的结果归一化至[-0.99,0.99]，结果记为

步骤2，训练神经网络Inverse_CDF拟合累积概率分布函数的逆函数；

步骤3，利用预处理后的数据

作为训练数据训练改进的生成对抗网络模型WGAN-GP；

步骤4，利用训练好的生成器生成目标分布的数据；

步骤4.1，输入一组随机向量，从生成器采样出生成数据；

步骤4.2，利用训练好的神经网络Inverse_CDF将生成数据映射至目标分布。Inverse_CDF输出min-max归一化后的数据，最后根据每一列的最小值和最大值将上述生成数据放缩至和原始数据相同尺度。

步骤5，最后，将上述扩充数据同真实数据一并用于训练机器学习模型以达到提升模型泛化性能及准确率的效果。

有益效果

相比于其它生成模型，本发明结合了目前较先进的生成对抗网络方法，它最大的特点是能够拟合真实数据的联合概率分布，并通过采样生成不同于已有训练数据且和真实数据分布相近的扩充数据。

相比于原始的生成对抗网络，本发明首先将具有复杂分布的表格类型数据处理为均匀分布数据，然后进行训练，降低了GAN的学习难度，有利于神经网络参数的收敛。

附图说明

图1为本发明提出的医疗数据扩充方法的算法原理图。

具体实施方式

为了更好的说明本发明的目的和优点，下面结合附图和实例对本发明方法的实施方式做进一步详细说明。

以下流程是针对医疗领域中的表格类型数据的扩充技术，但不限定于单一的疾病类型或数据属性，可以应用的数据包括糖尿病数据(主要属性有身高、体重、BMI、空腹血糖、胆固醇、甘油三酯)，心脏病数据(主要属性有年龄、血浆类固醇含量、最高心率、运动引起ST段下降)，乳腺癌数据(主要属性有块厚度、细胞大小一致性、边缘附着力、上皮细胞大小)等等。

具体流程是：

步骤1，预处理训练数据为每一维都服从均匀分布的数据。

步骤1.2，计算累积概率分布函数值，并将处理后的结果归一化至[-0.99,0.99]，结果记为：

这里

每一维数据都应服从均匀分布。

步骤2，训练神经网络Inverse_CDF拟合累积概率分布函数的逆函数，训练目标为：

Inverse_CDF的网络结构采用多层全连接神经网络，神经网络具体深度和每层神经元的个数由数据分布的复杂度决定。输出层激活函数使用Tanh，中间层激活函数使用ReLU函数。损失函数使用均方误差损失。

步骤3，为了解决原始GAN梯度消失和模式崩坏的问题，本发明利用经过改进的生成对抗网络模型WGAN-GP学习目标概率分布，WGAN-GP的主要原理是最小化真实分布和生成分布之间的Wasserstein距离，Wasserstein距离的形式如下：

其中：Π(P_r,P_g)是真实数据分布P_r和生成数据分布P_g所有可能联合分布的集合，从该联合分布采样(x,y)～γ得到真实样本x和生成样本y，这一对样本之间距离的期望值

在所有可能的联合分布中取到的下界

定义为Wasserstein距离。

为了最小化生成数据分布与目标分布之间的Wasserstein距离，WGAN-GP对原始生成对抗网络模型的主要修改如下：一、判别器去掉最后一层的sigmoid；二、在判别器目标函数中添加梯度惩罚损失项(Gradient Penalty，GP)控制训练过程中判别器参数更新的梯度的p-范数稳定在1附近；三、生成器和判别器优化目标函数修改为：

其中：L_WGAN-GP(D)为判别器训练的目标函数，L_WGAN-GP(G)为生成器的目标函数，

为梯度惩罚项，p_r,p_g分别表示真实数据分布和生成数据分布。

利用步骤1中预处理后的数据

作为训练数据训练WGAN-GP。步骤1.2已经提到，

是服从均匀分布的数据，为了生成器更快收敛，本发明在生成器损失函数最后添加一项统计特性损失项鼓励生成器生成每一维服从均匀分布的数据，具体形式如下：

其中

表示从生成器采样出数据的第i列，第一项表示生成数据一列的统计方差和其期望值之间的差异，第二项表示生成数据一列的统计平均值和其期望值之间的差异，α，β为权重系数；为了更好地避免梯度消失问题，本发明将WGAN-GP的生成器设计为残差网络结构；训练神经网络的优化算法选择Adam；输入随机向量的维度、神经网络的层数及每层的神经元个数根据数据概率分布的复杂程度确定。

步骤4，利用训练好的生成器生成目标分布的数据。

步骤4.1，输入一组随机向量，从生成器采样出生成数据，记为Data^Fake。

步骤4.2，利用训练好的神经网络Inverse_CDF将生成数据映射至目标分布。Inverse_CDF输出的是min-max归一化后的数据，因此还需根据每一列的最小值和最大值计算和原始数据相同尺度下的生成数据，最后的结果即为上述数据扩充方法的生成数据。

以上步骤所述数据扩充技术不仅可用于医疗中某些疾病数据由于采集困难、获取成本高导致数据量不足的情况，也可用于生成罕见疾病数据集少数类样本来弥补数据不平衡的问题。同时，本发明只针对数据集进行扩充，因此在不同的机器学习模型都可直接使用，具备自适应性。

如上所述，便可较好地实现本发明。

本发明通过累积概率分布函数学习表格类型医疗数据的边缘概率分布，利用生成对抗网络的生成器拟合数据各维度之间联合概率分布，避免生成器直接学习相对较复杂的边缘分布类型，是一种有效的针对医疗领域表格类型数据的扩充方法。

Claims

1.基于生成对抗网络的医疗表格数据扩充方法，其特征在于所述方法包括如下步骤：

步骤1，预处理训练数据为每一维都服从均匀分布的数据；

步骤1.2，计算累积概率分布函数值，并将处理后的结果归一化至[-0.99,0.99]，结果记为

步骤2，基于变换后数据

和原始数据Data^Real，训练神经网络Inverse_CDF拟合累积概率分布函数的逆函数；

步骤3，利用预处理后的数据

作为训练数据训练WGAN-GP；

步骤4，利用训练好的生成器生成目标分布的数据；

步骤4.1，输入一组随机向量，从生成器采样出生成数据；

步骤4.2，利用训练好的神经网络Inverse_CDF将生成数据映射至目标分布，得到归一化后的生成数据，最后根据每一列的最小值和最大值将上述生成数据放缩至和原始数据相同尺度；

2.根据权利要求1所述的基于生成对抗网络的医疗表格数据扩充方法，其特征在于：步骤1、2中通过利用累积概率分布函数预处理数据学习原始数据的边缘概率分布并在步骤3中利用处理后的数据训练WGAN-GP。

3.根据权利要求1所述的基于生成对抗网络的医疗表格数据扩充方法，其特征在于：步骤3中，根据训练数据每一维都服从均匀分布的先验知识，在生成器的损失函数中添加统计特性损失项：

其中，N为生成数据的列数，

表示生成数据的第i列，S²(*)和E(*)表示批量数据的统计方差和平均值，α，β为权重系数。