CN112215339B - 基于生成对抗网络的医疗数据扩充方法 - Google Patents

基于生成对抗网络的医疗数据扩充方法 Download PDF

Info

Publication number
CN112215339B
CN112215339B CN202011090696.3A CN202011090696A CN112215339B CN 112215339 B CN112215339 B CN 112215339B CN 202011090696 A CN202011090696 A CN 202011090696A CN 112215339 B CN112215339 B CN 112215339B
Authority
CN
China
Prior art keywords
data
probability distribution
training
generated
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011090696.3A
Other languages
English (en)
Other versions
CN112215339A (zh
Inventor
罗森林
李班
潘丽敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN202011090696.3A priority Critical patent/CN112215339B/zh
Publication of CN112215339A publication Critical patent/CN112215339A/zh
Application granted granted Critical
Publication of CN112215339B publication Critical patent/CN112215339B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Public Health (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本发明涉及一种医疗数据扩充方法,尤其是指一种针对医疗中具有复杂分布的表格类型数据扩充方法,属于计算机与信息科学技术领域。该方法包括:首先学习表格数据的边缘概率分布,具体方法是利用累积概率分布函数将表格的每一维数据处理为均匀分布数据并训练一个神经网络拟合累积概率分布函数的逆函数将均匀分布数据映射回目标分布的数据;利用改进的生成对抗网络模型WGAN‑GP学习预处理后均匀分布数据的联合概率分布;最终利用训练好的表示累积概率分布函数逆函数的神经网络将从GAN的生成器采样出的均匀分布数据变换至目标分布的数据,从而生成和训练样本具有相同概率分布的生成样本。

Description

基于生成对抗网络的医疗数据扩充方法
技术领域
本发明涉及一种医疗数据扩充方法,尤其是指一种针对医疗中具有复杂分布的表格类型数据扩充方法,属于计算机与信息科学技术领域。
背景技术
近年来,随着人工智能技术的迅速发展,许多机器学习方法被应用于医疗领域。机器学习模型尤其深度学习模型往往需要大量的训练数据才能发挥较好的性能。而在医疗领域,由于患者数据的隐私性、罕见疾病数据采集困难、成本昂贵等原因常常难以获取大量的训练数据,因此需要对此类小规模数据集进行数据扩充。传统数据扩充方法利用过采样技术,扩充数据仍然来自于已有真实数据,而生成模型通过拟合训练数据的概率分布进行数据生成,已经成为目前较先进的数据扩充方法。
生成模型作为机器学习中无监督学习的重要研究领域之一,一般是指根据随机产生的观测数据建立数据观测值的联合概率分布模型。在机器学习中,生成模型构建出的联合概率分布模型用于数据采样(数据扩充)和构建变量间的条件概率分布模型。为了更好地拟合数据的概率分布模型从而生成真实性较高的生成数据,研究者们结合神经网络模型设计了变分自编码器(Variational Auto-Encoder,VAE),生成对抗网络(GenerativeAdversarial Networks,GAN),深度玻尔兹曼机(Deep Boltzmann Machines,DBM)等深度生成模型。
生成对抗网络(Generative Adversarial Networks,GAN)是目前流行的深度生成模型之一,它以利用生成器和鉴别器的相互博弈来生成逼真的图像数据和文本数据而著称。生成对抗网络的架构包含两个神经网络模型:一、生成模型G,它的任务是根据输入的随机向量输出尽可能真实的生成样本;二、判别模型D,它的任务是尽可能准确地判定输入的样本是真实样本还是生成样本。GAN训练目标函数如下:
Figure BDA0002722008980000011
其中,pdata(x)表示真实数据分布,x表示服从真实样本,pz(z)表示随机向量z的概率分布,一般为高斯分布。模型训练时,首先训练判别模型,然后生成模型和判别模型交替进行对抗训练,直至达到纳什均衡状态。而实际上GAN难以被训练至最优的纳什均衡状态,原因是一、GAN的生成器优化目标实质上是最小化目标分布和生成分布之间的JS散度,而当两个分布没有交集时,JS散度无法衡量两个分布之间的距离,所以出现梯度消失问题;二、模式崩坏问题,生成器只拟合真实数据概率分布的一部分,导致生成样本只保证了真实性而失去了多样性。
综上所述,随着深度学习方法在数据扩充领域的应用和发展,以生成对抗网络为代表的深度生成模型在图像数据生成方面取得了较好的研究成果。但仍存在梯度消失和模式崩坏的问题导致生成模型难以被稳定地训练至最优的状态,另外,相比图像数据,医疗领域中表格类型数据每一维的概率分布类型更为复杂,比如多模式分布,重尾分布,边界分布等,现有的深度生成模型难以直接应用于医疗领域中具有高维复杂分布类型的表格数据。
发明内容
本发明的目的是解决医疗领域中,由于隐私性、罕见疾病数据量小、采集困难等原因通常难以获取大量训练数据的问题,提出一种基于生成对抗网络的表格类型数据扩充方法。
本发明的设计原理为:首先学习表格数据的边缘概率分布,具体方法是利用累积概率分布函数将表格的每一维数据处理为均匀分布数据并训练一个神经网络拟合累积概率分布函数的逆函数将均匀分布数据映射回目标分布的数据;利用改进的生成对抗网络模型WGAN-GP学习预处理后均匀分布数据的联合概率分布;最终利用训练好的表示累积概率分布函数逆函数的神经网络将从GAN的生成器采样出的均匀分布数据变换至目标分布的数据,从而生成和训练样本具有相同概率分布的生成样本。
本发明的技术方案是通过如下步骤实现的:
步骤1,预处理训练数据为每一维都服从均匀分布的数据;
步骤1.1,对输入原始数据DataReal按列进行min-max归一化至[-0.99,0.99],记为
Figure BDA0002722008980000021
步骤1.2,计算累计概率分布函数值,并将处理后的结果归一化至[-0.99,0.99],结果记为
Figure BDA0002722008980000022
步骤2,训练神经网络Inverse_CDF拟合累积概率分布函数的逆函数;
步骤3,利用预处理后的数据
Figure BDA0002722008980000023
作为训练数据训练改进的生成对抗网络模型WGAN-GP;
步骤4,利用训练好的生成器生成目标分布的数据;
步骤4.1,输入一组随机向量,从生成器采样出生成数据;
步骤4.2,利用训练好的神经网络Inverse_CDF将生成数据映射至目标分布。Inverse_CDF输出min-max归一化后的数据,最后根据每一列的最小值和最大值将上述生成数据放缩至和原始数据相同尺度。
步骤5,最后,将上述扩充数据同真实数据一并用于训练机器学习模型以达到提升模型泛化性能及准确率的效果。
有益效果
相比于其它生成模型,本发明结合了目前较先进的生成对抗网络方法,它最大的特点是能够拟合真实数据的联合概率分布,并通过采样生成不同于已有训练数据且和真实数据分布相近的扩充数据。
相比于原始的生成对抗网络,本发明首先将具有复杂分布的表格类型数据处理为均匀分布数据,然后进行训练,降低了GAN的学习难度,有利于神经网络参数的收敛。
附图说明
图1为本发明提出的医疗数据扩充方法的算法原理图。
具体实施方式
为了更好的说明本发明的目的和优点,下面结合附图和实例对本发明方法的实施方式做进一步详细说明。
以下流程是针对医疗领域中的表格类型数据的扩充技术,但不限定于单一的疾病类型或数据属性,可以应用的数据包括糖尿病数据(主要属性有身高、体重、BMI、空腹血糖、胆固醇、甘油三酯),心脏病数据(主要属性有年龄、血浆类固醇含量、最高心率、运动引起ST段下降),乳腺癌数据(主要属性有块厚度、细胞大小一致性、边缘附着力、上皮细胞大小)等等。
具体流程是:
步骤1,预处理训练数据为每一维都服从均匀分布的数据。
步骤1.1,对输入原始数据DataReal按列进行min-max归一化至[-0.99,0.99],记为
Figure BDA0002722008980000031
步骤1.2,计算累积概率分布函数值,并将处理后的结果归一化至[-0.99,0.99],结果记为:
Figure BDA0002722008980000041
这里
Figure BDA0002722008980000042
每一维数据都应服从均匀分布。
步骤2,训练神经网络Inverse_CDF拟合累积概率分布函数的逆函数,训练目标为:
Figure BDA0002722008980000043
Inverse_CDF的网络结构采用多层全连接神经网络,神经网络具体深度和每层神经元的个数由数据分布的复杂度决定。输出层激活函数使用Tanh,中间层激活函数使用ReLU函数。损失函数使用均方误差损失。
步骤3,为了解决原始GAN梯度消失和模式崩坏的问题,本发明利用经过改进的生成对抗网络模型WGAN-GP学习目标概率分布,WGAN-GP的主要原理是最小化真实分布和生成分布之间的Wasserstein距离,Wasserstein距离的形式如下:
Figure BDA0002722008980000044
其中:Π(Pr,Pg)是真实数据分布Pr和生成数据分布Pg所有可能联合分布的集合,从该联合分布采样(x,y)~γ得到真实样本x和生成样本y,这一对样本之间距离的期望值
Figure BDA0002722008980000045
在所有可能的联合分布中取到的下界
Figure BDA0002722008980000046
定义为Wasserstein距离。
为了最小化生成数据分布与目标分布之间的Wasserstein距离,WGAN-GP对原始生成对抗网络模型的主要修改如下:一、判别器去掉最后一层的sigmoid;二、在判别器目标函数中添加梯度惩罚损失项(Gradient Penalty,GP)控制训练过程中判别器参数更新的梯度的p-范数稳定在1附近;三、生成器和判别器优化目标函数修改为:
Figure BDA0002722008980000047
Figure BDA0002722008980000048
其中:LWGAN-GP(D)为判别器训练的目标函数,LWGAN-GP(G)为生成器的目标函数,
Figure BDA0002722008980000049
为梯度惩罚项,pr,pg分别表示真实数据分布和生成数据分布。
利用步骤1中预处理后的数据
Figure BDA0002722008980000051
作为训练数据训练WGAN-GP。步骤1.2已经提到,
Figure BDA0002722008980000052
是服从均匀分布的数据,为了生成器更快收敛,本发明在生成器损失函数最后添加一项统计特性损失项鼓励生成器生成每一维服从均匀分布的数据,具体形式如下:
Figure BDA0002722008980000053
其中
Figure BDA0002722008980000054
表示从生成器采样出数据的第i列,第一项表示生成数据一列的统计方差和其期望值之间的差异,第二项表示生成数据一列的统计平均值和其期望值之间的差异,α,β为权重系数;为了更好地避免梯度消失问题,本发明将WGAN-GP的生成器设计为残差网络结构;训练神经网络的优化算法选择Adam;输入随机向量的维度、神经网络的层数及每层的神经元个数根据数据概率分布的复杂程度确定。
步骤4,利用训练好的生成器生成目标分布的数据。
步骤4.1,输入一组随机向量,从生成器采样出生成数据,记为DataFake
步骤4.2,利用训练好的神经网络Inverse_CDF将生成数据映射至目标分布。Inverse_CDF输出的是min-max归一化后的数据,因此还需根据每一列的最小值和最大值计算和原始数据相同尺度下的生成数据,最后的结果即为上述数据扩充方法的生成数据。
步骤5,最后,将上述扩充数据同真实数据一并用于训练机器学习模型以达到提升模型泛化性能及准确率的效果。
以上步骤所述数据扩充技术不仅可用于医疗中某些疾病数据由于采集困难、获取成本高导致数据量不足的情况,也可用于生成罕见疾病数据集少数类样本来弥补数据不平衡的问题。同时,本发明只针对数据集进行扩充,因此在不同的机器学习模型都可直接使用,具备自适应性。
如上所述,便可较好地实现本发明。
本发明通过累积概率分布函数学习表格类型医疗数据的边缘概率分布,利用生成对抗网络的生成器拟合数据各维度之间联合概率分布,避免生成器直接学习相对较复杂的边缘分布类型,是一种有效的针对医疗领域表格类型数据的扩充方法。

Claims (3)

1.基于生成对抗网络的医疗表格数据扩充方法,其特征在于所述方法包括如下步骤:
步骤1,预处理训练数据为每一维都服从均匀分布的数据;
步骤1.1,对输入原始数据DataReal按列进行min-max归一化至[-0.99,0.99],记为
Figure FDA0003897041320000011
步骤1.2,计算累积概率分布函数值,并将处理后的结果归一化至[-0.99,0.99],结果记为
Figure FDA0003897041320000012
步骤2,基于变换后数据
Figure FDA0003897041320000013
和原始数据DataReal,训练神经网络Inverse_CDF拟合累积概率分布函数的逆函数;
步骤3,利用预处理后的数据
Figure FDA0003897041320000014
作为训练数据训练WGAN-GP;
步骤4,利用训练好的生成器生成目标分布的数据;
步骤4.1,输入一组随机向量,从生成器采样出生成数据;
步骤4.2,利用训练好的神经网络Inverse_CDF将生成数据映射至目标分布,得到归一化后的生成数据,最后根据每一列的最小值和最大值将上述生成数据放缩至和原始数据相同尺度;
步骤5,最后,将上述扩充数据同真实数据一并用于训练机器学习模型以达到提升模型泛化性能及准确率的效果。
2.根据权利要求1所述的基于生成对抗网络的医疗表格数据扩充方法,其特征在于:步骤1、2中通过利用累积概率分布函数预处理数据学习原始数据的边缘概率分布并在步骤3中利用处理后的数据训练WGAN-GP。
3.根据权利要求1所述的基于生成对抗网络的医疗表格数据扩充方法,其特征在于:步骤3中,根据训练数据每一维都服从均匀分布的先验知识,在生成器的损失函数中添加统计特性损失项:
Figure FDA0003897041320000015
其中,N为生成数据的列数,
Figure FDA0003897041320000016
表示生成数据的第i列,S2(*)和E(*)表示批量数据的统计方差和平均值,α,β为权重系数。
CN202011090696.3A 2020-10-13 2020-10-13 基于生成对抗网络的医疗数据扩充方法 Active CN112215339B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011090696.3A CN112215339B (zh) 2020-10-13 2020-10-13 基于生成对抗网络的医疗数据扩充方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011090696.3A CN112215339B (zh) 2020-10-13 2020-10-13 基于生成对抗网络的医疗数据扩充方法

Publications (2)

Publication Number Publication Date
CN112215339A CN112215339A (zh) 2021-01-12
CN112215339B true CN112215339B (zh) 2023-01-03

Family

ID=74053829

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011090696.3A Active CN112215339B (zh) 2020-10-13 2020-10-13 基于生成对抗网络的医疗数据扩充方法

Country Status (1)

Country Link
CN (1) CN112215339B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113238957B (zh) * 2021-05-28 2022-08-05 北京理工大学 智能化场景下流量监测系统的测试样本生成方法
CN113378991A (zh) * 2021-07-07 2021-09-10 上海联影医疗科技股份有限公司 医疗数据生成方法、装置、电子设备及存储介质
CN114324124A (zh) * 2021-12-21 2022-04-12 桂林优利特医疗电子有限公司 一种基于概率密度估计的散点样本数据扩充方法
CN116975611B (zh) * 2023-08-07 2024-04-16 天津大学 一种基于扩散模型ode形式的高频负荷数据生成方法和系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109816044A (zh) * 2019-02-11 2019-05-28 中南大学 一种基于wgan-gp和过采样的不平衡学习方法
CN110334434B (zh) * 2019-07-03 2021-06-01 中国科学院武汉岩土力学研究所 一种岩土体参数随机场建模方法
CN111724344A (zh) * 2020-05-18 2020-09-29 天津大学 一种基于对抗网络生成医学超声影像数据的方法

Also Published As

Publication number Publication date
CN112215339A (zh) 2021-01-12

Similar Documents

Publication Publication Date Title
CN112215339B (zh) 基于生成对抗网络的医疗数据扩充方法
Kukačka et al. Regularization for deep learning: A taxonomy
CN108491765B (zh) 一种蔬菜图像的分类识别方法及系统
CN107122809B (zh) 基于图像自编码的神经网络特征学习方法
CN110276745B (zh) 一种基于生成对抗网络的病理图像检测算法
CN107729999A (zh) 考虑矩阵相关性的深度神经网络压缩方法
CN105160249B (zh) 一种基于改进的神经网络集成的病毒检测方法
Ye et al. ECG generation with sequence generative adversarial nets optimized by policy gradient
Jha et al. Alzheimer’s disease detection using sparse autoencoder, scale conjugate gradient and softmax output layer with fine tuning
CN110516724A (zh) 可视化作战场景的高性能多层字典学习特征图像处理方法
Dogan et al. Semi-supervised image attribute editing using generative adversarial networks
CN111414928A (zh) 一种人脸图像数据生成方法、装置及设备
CN109948589B (zh) 基于量子深度信念网络的人脸表情识别方法
Zhuang et al. A handwritten Chinese character recognition based on convolutional neural network and median filtering
Shin et al. A novel method for fashion clothing image classification based on deep learning
CN111091916A (zh) 人工智能中基于改进粒子群算法的数据分析处理方法及系统
CN114332565A (zh) 一种基于分布估计的条件生成对抗网络文本生成图像方法
CN117611428A (zh) 一种时装人物图像风格变换方法
CN116863965A (zh) 一种改进型病理嗓音生成模型及其构建方法
Darma et al. Balinese carving recognition using pre-trained convolutional neural network
Kasi et al. A deep learning based cross model text to image generation using DC-GAN
CN114077895A (zh) 对抗性策略的变分自编码模型
Dai et al. Procedural level generation with diffusion models from a single example
CN116226629B (zh) 一种基于特征贡献的多模型特征选择方法及系统
CN110046708A (zh) 一种基于无监督深度学习算法的信用评分方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant