CN109522973A

CN109522973A - 基于生成式对抗网络与半监督学习的医疗大数据分类方法及系统

Info

Publication number: CN109522973A
Application number: CN201910042727.9A
Authority: CN
Inventors: 杨云; 南峰涛
Original assignee: Yunnan University YNU
Current assignee: Yunnan University YNU
Priority date: 2019-01-17
Filing date: 2019-01-17
Publication date: 2019-03-26

Abstract

本发明公开了一种基于生成式对抗网络与半监督学习的医疗大数据分类方法及系统，该系统包括：数据采集模块，用于采集医疗大数据，获取大量数据维数高、类标不确定性高的医疗数据和医学影像；数据处理模块，用于对获取的医疗数据和医学影像进行预处理；算法应用模块，用于初始化及训练子学习器，对无标签医疗数据和无标签医学影像进行标记，对有标签医疗数据和有标签医学影像进行扩充；辅助决策模块，用于对测试集的医疗大数据进行分类。数据处理模块进一步包括医疗数据降维模块、影像处理模块、数据分类模块和医疗数据处理模块；算法应用模块进一步包括训练样本生成模块、训练模块、标记模块、扩充模块和集成模块。提高医疗大数据分类的准确度。

Description

基于生成式对抗网络与半监督学习的医疗大数据分类方法及系统

技术领域

本发明属于医疗数据处理领域，特别是涉及一种基于生成式对抗网络与半监督学习的医疗大数据分类方法及系统。

背景技术

半监督学习领域的研究大多集中于采用基于标签渗透及数据分布模型的思想解决标签样本不足的问题，标签渗透类算法利用有标签数据预训练得到一个学习器，并通过不断优化该学习器，并给无标签样本贴标签的方式进行模型训练，如S3VM、Tri-Training等；现有的数据分布类算法假设样本服从某种分布，并通过有标签样本及无标签样本共同确定模型参数。半监督学习方法，都是建立在有标签样本缺少的情况下，这就导致半监督学习的泛化能力差；目前半监督学习大多基于各种半监督方法假设，且抗干扰性较弱，若无类标数据给定类标错误，将导致算法性能降低。然而实际应用中，得到无噪声干扰的数据难度较大，且半监督学习过程中也难免引入噪声，导致传统方法无法充分考虑无类标数据的不确定性及复杂性等问题，因而不具备普遍适应性。其次，半监督学习使用的无类标数据通常来自于所给样本，样本量较少，导致半监督学习训练样本的局限，使得给定无类标数据的类标正确度低。

在不平衡数据集的情况下，大多数学习算法倾向于识别多数类，而忽略了少数类的重要性。目前常用的解决不平衡数据的缺点有以下几点：过采样和欠采样都有其缺点，欠采样可能会删除某些重要的样本，过采样可能会导致对学习过程的过度拟合；合成数据生成是通过添加人工生成的数据来克服不平衡类的另一种方法，SMOTE是一种典型的合成数据生成方法，它生成任意数量的合成少数样本，将分类器的学习偏向推到少数样本中。然而，SMOTE方法通过只考虑少数样本和样本之间的关系来创建人工样本，而忽略了多数样本中的空间分布；对于集成学习，SMOTEBoost将SMOTE嵌入到Adaboost过程中，这种方法利用了SMOTE来提高对少数类的泛化能力，进一步利用boost来保持对整个数据集的精度。然而，这种方法对于有噪声的样本和外部数据非常敏感，在实际应用中不可行。

生成式对抗网络(GAN)的核心思想来源于博弈论，近年来，GAN被广泛应用于图像处理等领域，并被证明该模型能够产生逼真的视觉图像。整个模型由生成器网络及判别器网络两大部分组成，GAN在生成器和判别器之间建立了一个对抗游戏，判别器的目的是判断一个样本是从真实数据中获取的还是由生成器产生的，而生成器在于判别器对抗的过程中，将根据判别器的判别损失不断优化自身模型，从而生成不可区分的伪样本。为了游戏取胜，两个模型都将在不断迭代中优化自身性能，最终达到对抗平衡的状态，GAN的算法流程如图1所示。图中，生成模型的初始输入为随机噪声z，生成模型为一个神经网络，随机噪声经过生成模型的加工，产生初始的伪造数据，该过程由于没有任何判别器的参与，因而产生的数据与真实数据相似程度较低。此时固定生成器，对判别器进行训练。判别器的输入为混合的真实数据x与生成模型的输出数据G(z)，判别器对输入数据进行二分类，即判别数据的真伪，若认为输入数据来源于真实样本，则标记为1，否则标记为0。训练完成时，得到判别器的判别损失，并将该损失分别返回给生成器及判别器。此时固定判别器，训练生成器。如此进行反复迭代。最终生成器的判别能力达到一定水平，且生成器生成的数据在判别器上的表现与真实样本一致时，即判别器无法判断该样本来源，训练结束。此时我们认为生成模型生成的数据接近于真实数据分布。

基于机器学习的医疗数据分类方法，层出不穷，其目的在于采用机器学习方法来对医疗数据进行分类，以提高病人的诊断效率和医生诊疗水平。目前大多数基于机器学习的医疗数据分类方法都是建立在医疗样本数据足够多并且数据类别十分平衡的基础之上，然而现实中有标记医疗数据往往样本量很少，并且极度不平衡，影响医疗数据分类准确度，使得医疗数据分类准确度不高，且如通过人工标记大量医疗数据，费时费力。

发明内容

本发明的目的在于提供一种基于生成式对抗网络与半监督学习的医疗大数据分类方法，以解决目前有标记医疗大数据样本量少、数据极度不平衡使得医疗大数据分类准确度不高的问题和人工标记大量医疗大数据费时费力的问题。

本发明的另一目的在于提供一种基于生成式对抗网络与半监督学习的医疗大数据分类系统。

本发明所采用的技术方案是，基于生成式对抗网络与半监督学习的医疗大数据分类方法，具体步骤如下：

步骤S1、通过物联网平台采集大医疗数据，获取大量数据维数高、类标不确定性高的医疗数据和医学影像；

步骤S2、对获取的医疗数据进行特征提取以对其进行数据降维，并对医学影像依次进行特征提取、图像分割和图像去噪；

步骤S3、将降维后的医疗数据分为有标签医疗数据和无标签医疗数据，并将经图像去噪后的医学影像分为有标签医学影像和无标签医学影像；

步骤S4、对有标签医疗数据的类标依次进行数值化和归一化；

步骤S5、采用生成式对抗网络对有标签医疗数据进行数据平衡化；

步骤S6、通过重采样方法在有标签医疗数据和有标签医学影像中获得不同的样本子集；

步骤S7、采用生成式对抗网络对采样得到的多个样本子集进行扩充，获得多个训练样本；

步骤S8、初始化多个子学习器，并将训练样本分配给子学习器，对子学习器进行优化；

步骤S9、利用优化后的子学习器对无标签医疗数据和无标签医学影像进行标记；并将利用标记的医疗数据和医学影像对有标签医疗数据及有标签医学影像进行一次扩充；

步骤S10、采用生成式对抗网络对有标签医疗数据和有标签医学影像进行二次扩充；

步骤S11、对步骤S4～S10进行循环迭代，直到有标签医疗数据集和有标签医学影像集中的数据量不再发生变化，迭代结束；

步骤S12、采用boosting方法对最终优化的子学习器进行集成学习；并将集成的学习器用于测试集，对测试集进行分类。

进一步的，所述步骤S2中对获取的医疗数据进行特征提取，进行数据降维采用PCA方法，对获取的医学影像进行特征提取基于多粒度卷积神经网络。

进一步的，所述基于多粒度卷积神经网络对医学影像进行特征提取的具体步骤如下：

步骤S21、对输入的医学影像进行第一卷积和第一池化；

步骤S22、对第一池化后的医学影像进行批量归一化；

步骤S23、对归一化后的医学影像进行第二卷积和第二池化；

步骤S24、对第二池化后的医学影像进行flatten操作。

进一步的，所述第一卷积和第二卷积均采用了不同尺寸和类型的卷积核。

进一步的，所述步骤S4中对有标签医疗数据进行数值化采用Onehot编码方法；

所述步骤S4中对有标签医疗数据进行归一化采用如下公式：

其中，表示数据归一化处理前第i个有标签医疗数据的第j个指标值；表示数据归一化处理后第i个有标签医疗数据的第j个指标值；表示第i个医疗数据的第j个指标值的最大值，m_j表示第i个医疗数据的第j个指标值的最小值，

进一步的，所述步骤S5采用生成式对抗网络对有标签医疗数据进行数据平衡化是采用生成式对抗网络对有标签个人信用数据中数据量少的类别数据进行扩充，使该类别的数据量与其他类别的数据量相同；

所述步骤S7采用生成式对抗网络对采样得到的多个样本子集进行扩充，是将由生成式对抗网络的生成器生成且判别器判别为真的医疗数据或医学影像加入到需要扩充的类别中。

进一步的，所述步骤S9中对无标签医疗数据或无标签医学影像进行标记，是依据各子学习器给出的类标确定：子学习器总数T≤3时，当各子学习器给出当前输入的无标签医疗数据或无标签医学影像的类标均相同，则该数据为高置信度医疗数据，将各子学习器给出的类标分配给该医疗数据，或该医学影像为高置信度医学影像，将各子学习器给出的类标分配给该医学影像；子学习器总数T＞3时，设置阈值进行确定，当给出的当前输入的无标签个人信用数据或无标签医学影像的类标相同的子学习器数量占学习器总数的比例高于该阈值时，则该医疗数据为高置信度的医疗数据数据，该医学影像为高置信度的医学影像，将学习器给出的类标分配给该医疗数据或医学影像；

所述步骤S9中利用标记的医疗数据和医学影像对有标签医疗数据及有标签医学影像进行一次扩充是将从无标签医疗数据中确定的高置信度医疗数据置于有标签医疗数据中，将从无标签医学影像中确定的高置信度医学影像置于有标签医学影像中。

本发明所采用的另一技术方案是，基于生成式对抗网络与半监督学习的医疗大数据分类系统，包括：

数据采集模块，用于采集医疗大数据，获取大量数据维数高、类标不确定性高的医疗数据和医学影像；

数据处理模块，用于对获取的医疗数据和医学影像进行预处理；

算法应用模块：用于初始化及训练子学习器，对无标签医疗数据和无标签医学影像进行标记，对有标签医疗数据和有标签医学影像进行扩充；

辅助决策模块：用于对测试集的医疗大数据进行分类。

进一步的，所述数据处理模块进一步包括：

医疗数据降维模块，用于对获取的医疗数据进行数据降维；

影像处理模块，用于对获取的医学影像依次进行特征提取、图像分割和图像去噪；

数据分类模块，用于将降维后的医疗数据分为有标签医疗数据和无标签医疗数据，并将经图像去噪后的医学影像分为有标签医学影像和无标签医学影像；

医疗数据处理模块，用于对有标签医疗数据依次进行数值化、归一化和数据平衡化；

算法应用模块进一步包括：

训练样本生成模块，用于对有标签医疗数据和有标签医学影像进行采样，获取不同的样本子集，并对获取的样本子集进行扩充，获得训练样本；

训练模块，用于初始化多个子学习器，并将训练样本分配给子学习器，对子学习器进行优化；

标记模块，用于利用优化的子学习器，对无标签医疗数据和无标签医学影像进行标记；

扩充模块，用于对有标签医疗数据和有标签医学影像进行扩充；

集成模块，用于对优化的子学习器进行集成学习，获得最终的学习器；

所述辅助决策模块，用于利用最终的学习器，对测试集的医疗大数据进行分类。

进一步的，所述医疗数据处理模块采用生成式对抗网络对有标签医疗数据进行数据平衡化；

所述学习器训练模块采用半监督学习方法对子学习器进行优化；

所述训练样本生成模块采用生成式对抗网络对获取的样本子集进行扩充；

所述扩充模块首先利用所述标记模块标记的无标签医疗数据对有标签医疗数据进行一次扩充，利用所述标记模块标记的无标签医学影像对有标签医学影像进行一次扩充，然后采用生成式对抗网络对有标签医疗数据和有标签医学影像进行二次扩充。

本发明的有益效果是，基于生成式对抗网络和半监督学习的医疗大数据分类方法及系统，采用少量的有标签医疗大数据和大量无标签大医疗数据，基于生成式对抗网络与半监督学习方法对医疗大数据进行分类，有效提高医疗大数据分类的准确度，辅助医生了解病人病情。在本发明的方法中，GAN被优化配置为生成与原始数据集具有相似分布的人工标记集，这种标记集的补偿可以显著提高医疗数据分类准确率，进一步提高半监督学习的泛化能力，解决目前有标签医疗大数据少、医疗大数据不对称造成医疗大数据分类准确率低的问题及人工标注大量医疗大数据费时费力的问题。针对医疗数据中普遍存在的不平衡类，提出了一种基于GAN的对于医疗不平衡数据的补偿方法来补偿不平衡类；采用半监督学习方法，将自训练与协同训练相结合，显著提高了无标签医疗大数据预测标签的可靠性；手工标注大量的医疗大数据是非常耗时和昂贵的，但我们的方法由于其优越的半监督学习性能，能够自动标注医疗大数据，这对医疗大数据的挖掘和管理具有重要的价值。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是GAN的基本结构和计算流程图；

图2是基于生成式对抗网络与半监督的医疗数据分类系统示意图；

图3是有标签医疗数据的不平衡数据分布示意图；

图4是有标签医疗数据平衡后的数据分布示意图；

图5是不同半监督学习方法对于医疗数据分类的准确率统计直方图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在基于物联网的医疗数据分类系统中，可以通过物联网设备收集大量的医疗数据，为数据驱动的临床决策支持功能奠定了坚实的基础。该决策支持系统从采集的数据集中学习医学知识，模拟人工分类医疗数据，提供可靠的分类结果。如图2所示，我们将我们的方法扩展到一个临床决策支持系统(基于生成式对抗网络和半监督学习的医疗大数据分类系统)的框架中；它的设计主要是为了在医疗数据集上实现一个鲁棒的性能，只有小部分的标签集和不平衡类。整个系统可以分为四个模块：

数据采集模块，过物联网平台上的多个传感器采集医疗数据，获取大量数据维数高、类标不确定性高的医疗大数据，即医疗数据和医学影像，医学影像主要是CT和贺词共振检测结果；

数据处理模块，对获取的医疗数据和医学影像进行预处理，包括：

医疗数据降维模块，采用PCA方法对获取的医疗数据进行数据降维；

影像处理模块，用于对获取的医学影像依次进行特征提取、图像分割和图像去噪，对获取的医学影像进行特征提取基于多粒度卷积神经网络，具体步骤如下：

步骤S21、对输入的医学影像进行第一卷积和第一池化；

步骤S22、对第一池化后的医学影像进行批量归一化；

步骤S23、对归一化后的医学影像进行第二卷积和第二池化；

步骤S24、对第二池化后的医学影像进行flatten操作。

进行两次卷积+池化，首先是便于后续步骤的进行，其次保证特征提取效果，使得特征提取的更好。最后进行flatten操作，是将池化层输出的矩阵转化成一维向量，方便计算，批量归一化也是为了方便计算；第一卷积和第二卷积均采用了不同尺寸和类型的卷积核，卷积核的尺寸根据特征提取处理的图像大小选取，卷积层和filter的数量依据具体的实验进行选择。

分割医学影像，是因为医疗影像有很多不需要的信息，分割是选择重要的图像部分，且因为医学影像的尺寸不同，所以要对医学影像进行分割，保证所有医学影像的大小相同，便于处理。因为有些医学影像受到外界的影像可能存在一些问题，所以要对医学影像进行去噪处理，提高医学影像的质量。

因医疗影像数据具有以下特点：1)数据复杂：B超超声检查仪下的医疗成像数据维度大且类间差距极小，医生只有借助先验知识和专业知识才能准确判断出病因；2)数据具有噪声：图像的边缘有大量文字，对于我们的算法来说，这无疑会限制我们方法的分类性能。针对以上问题，我们提出的多粒度卷积神经网络。一方面，不同的卷积核设计能提取到图像不同的特征，保证了特征的多样性；其次，比起单一粒度的卷积核，多粒度卷积核保证了方法的健壮性，使得方法在处理噪声数据时也能表现出良好的鲁棒性。

对有标签医疗数据进行数值化采用Onehot编码方法，对有标签医疗数据进行归一化采用如下公式：

其中，x_ij表示数据归一化处理前第i个有标签医疗数据的第j个指标值；表示数据归一化处理后第i个有标签医疗数据的第j个指标值；M_j表示第i个医疗数据的第j个指标值的最大值，m_j表示第i个医疗数据的第j个指标值的最小值，

数据平衡化是利用生成式对抗网络对有标签医疗数据中存在的不平衡类进行平衡化，即对其进行补偿，是采用生成式对抗网络对有标签个人信用数据中数据量少的类别数据进行扩充，使该类别的数据量与其他类别的数据量相同。

算法应用模块，初始化及训练子学习器，对无标签医疗数据和无标签医学影像进行标记，对有标签医疗数据和有标签医学影像进行扩充，包括：

训练样本生成模块，用于对有标签医疗数据和有标签医学影像进行采样，获取不同的样本子集，并对获取的样本子集进行扩充，获得训练样本。采用生成式对抗网络对采样得到的多个样本子集进行扩充，即将由生成式对抗网络的生成器生成且判别器判别为真的医疗数据或医学影像加入到需要扩充的类别中。

训练模块，训练半监督学习器，先初始化多个子学习器，并将训练样本分配给子学习器，然后通过半监督学习方法对子学习器进行训练，以对子学习器进行优化；

对无标签医疗数据或无标签医学影像进行标记，是依据各子学习器给出的类标确定：子学习器总数T≤3时，当各子学习器给出当前输入的无标签医疗数据或无标签医学影像的类标均相同，则该数据为高置信度医疗数据，将各子学习器给出的类标分配给该医疗数据，或该医学影像为高置信度医学影像，将各子学习器给出的类标分配给该医学影像；子学习器总数T＞3时，设置阈值进行确定，当给出的当前输入的无标签个人信用数据或无标签医学影像的类标相同的子学习器数量占学习器总数的比例高于该阈值时，则该医疗数据为高置信度的医疗数据数据，该医学影像为高置信度的医学影像，将学习器给出的类标分配给该医疗数据或医学影像。

扩充模块，用于对有标签医疗数据和有标签医学影像进行扩充，首先利用所述标记模块标记的无标签医疗数据对有标签医疗数据进行一次扩充，利用所述标记模块标记的无标签医学影像对有标签医学影像进行一次扩充，即将从无标签医疗数据中确定的高置信度医疗数据置于有标签医疗数据中，将从无标签医学影像中确定的高置信度医学影像置于有标签医学影像中。然后采用生成式对抗网络对有标签医疗数据和有标签医学影像进行二次扩充。

集成模块，采用boosting方法对优化的子学习器进行集成学习，获得最终的学习器。

辅助决策模块，利用最终的学习器，对测试集的医疗大数据进行分类。

自我训练和共同训练是最流行的半监督学习方法。在自训练方法中，首先在小有标签医疗数据集上训练分类器，然后使用经过训练的分类器对无标签医疗数据进行分类即标记，使这些无标签医疗数据被赋以伪标签。然后，选择伪标签置信度最高的无标签医疗数据部分，并将其添加到有标签医疗数据集中。分类器迭代地使用有标签医疗数据和已选择带有伪标签的无标签医疗数据训练自身。另一方面，协同训练将有标签医疗数据集的特征分解为两个子集，作为两个视图，它们是有条件独立的。分别在两个子集上训练两个子分类器，用伪标记对未标记集进行分类。然后，将由一个分类器确定的最可靠的无标签医疗数据作为附加的伪标记数据输入另一个分类器进行进一步训练。对于这两种方法，很明显，使用伪标签选择置信度最高的无标签医疗数据，严重地决定了半监督学习的性能。然而，由于单分类器的局限性和目标数据集的多样性，预测标签的可靠性往往得不到保证。因此，我们将自训练和协同训练结合起来。在我们的方法中，我们使用两个不同的在有标签医疗数据上训练的基础学习器来对无标签医疗数据进行分类，然后将由两个基础学习器分配的具有相同伪标记的自信的无标签医疗数据添加到有标签医疗数据中，以便下一次迭代学习。经过多次迭代后，有标签医疗数据集中数据不再改变，如果无标签医疗数据集不是空的，我们将丢弃它。这样的结束程序将显著地防止无标签医疗数据集和不确定的伪标签所引起的性能退化。

事实上，半监督学习方法在有标签医疗数据集的不平衡和极小部分上的训练是相当具有挑战性的。为了解决这些问题，我们进一步改进了我们的方法，采用生成对抗性网络(GAN)。在我们的方法中，GAN被用来自适应地构造训练集，通过在每次迭代期间向有标签医疗数据集添加人工生成的数据，两个基础学习器在此基础上进行了充分的训练。在对有标签医疗数据集进行初步扩展后，再次使用GAN填充扩展的有标签医疗数据集，并进一步补偿其少数类。然后，从结构良好的有标签医疗数据集中得到最终的分类器。

以标签集为输入，GAN生成与输入量相同的人工数据。这样的人工数据生成不仅填充标记集，也补偿不平衡类的标签集。然后，两个不同的学习器最初训练基于标记数据和人工数据和预测的标签标记集。在那之后，无标号数据相同的伪标签预测的基础学习者都添加到标记集。重复以上过程，直到标签集的扩张停止。此时，如果未标记集不是空的，我们将丢弃它。将扩展标签集作为输入，再次使用GAN生成与扩展标签集相同的人工数据量，最后对扩展标签集和人工集进行训练，得到最终的分类器。

基于生成式对抗网络与半监督学习的医疗大数据分类方法，具体步骤如下：

基于生成式对抗网络与半监督学习使我医疗大数据分类系统可采用上述基于生成式对抗网络与半监督学习的医疗大数据分类方法。

对基于生成式对抗网络的半监督学习方法进行实验，我们在基准数据集上测试了该方法的性能，并且与一些常用的半监督分类算法(meanS3VM,TSVM,S4VM)进行比较。如表1所示，基准数据集是从UCI数据库中收集的20个医疗数据集，它们的数据量范围从80个到2000，数据集属性范围从3个到30。表1中所示的索引为1到10的数据集是平衡数据集(正负样本很接近，没有超过1：2)，其余的都是不平衡的。由于基准数据集最初是由分类任务的训练集和测试集组成的，为了便于我们在模拟实验中划分训练集和测试集，我们将两个集合并为一个整体。

表1 基准数据集信息

由于半监督学习方法没有公开的实现代码，我们在Matlab仿真中实现了这些方法，为了与我们的方法进行比较，我们记录了10次运行的平均运算结果和标准差。表2列出了基于生成式对抗网络的半监督学习方法在医疗平衡数据集上的分类正确率。可以看出，我们的方法在10个数据集，分别在核函数为Linear/RBF上有6个数据集中获胜。而TSVM在选择RBF核函数时，在heart数据集上优于其他RBF内核算法。从两两比较的角度来看，我们的方法在10个数据集中，在选择Linear核函数时，有6次高于meanS3VM，并且在选择RBF核函数时，有7次优于meanS3VM。另一方面，我们的方法在同S4VM比较时，在Linear/RBF时，分别获得了7/6次胜利。与TSVM相比，我们的方法分别对Linear和RBF核函数，10例中有8例和6例取得了较好的效果。这些结果显著地证明了我们的方法在平衡医学数据集上与目前最先进的半监督学习算法相比的出色性能。

表3列出了对不平衡医疗数据集的测试方法所取得的结果。很明显，我们的方法在10个不平衡数据集中，在核函数为Linear/RBF时，7/6都优于meanS3VM。与S4VM相比较，在核函数为Linear/RBF时，分别取得7/7次胜利。与TSVM相比，在核函数为Linear/RBF时，有8/6都优于TSVM算法。总体而言，我们的方法在10个不平衡数据集中，核函数为Linear/RBF核函数，分别取得了8/7次最好的结果。对于不平衡数据集，我们可以看到我们的方法总是在同一数据集上具有最好的性能，同时具有Linear和RBF内核。它显著地证明了我们的方法的健壮性。

综上所述，从表2和表3中可以看出，我们的方法在分类准确率上普遍比其他方法获得较高的平均值和较低的标准差，这充分说明了我们的方法在准确率和稳定性方面的突出表现。这是由于我们的方法有效地选择最可靠的无标号数据改善学习输出，而更重要的是，它成功地排除了高危险标记医疗数据，以便半监督学习性能不会退化，此外，GAN不仅用于填充标记集，而且确保平衡了训练集。

表2 分类正确率(均值±标准差)平衡的数据集

表3 分类正确率(均值±标准差)不平衡的数据集

在此部分，为了证明基于生成式对抗网络与半监督学习的临床决策支持系统框架，我们选择了昆明某医院的患者的医疗数据，用我们的方法进行分类。其数据集信息，如表4所示，数据分类结果可辅助医生了解病人病情。

表4 病人集合信息

在本部分中，我们模拟了基于比较的半监督学习方法的临床决策支持系统。医疗数据通过医疗物联网采集，针对医疗数据库建立样本空间，其记为X＝{x₁,x₂.....x₁₁₀₃₉}，其中有标签样本集合为：X_L＝{x₁,x₂.....x₁₀₀}，无标签样本集合记为：X_U＝{x₁₀₁,x₁₀₂.....x₁₁₀₃₉}，标签信息定义为Y＝{y₁,y₂}；在样本集合中，我们选择了70％的数据作为训练数据，30％作为测试数据，图3展示了医疗数据集的数据分布，可以看出数据集不平衡。因此，GAN被用来生成构建一个平衡标记集的人工数据，如图4所示。然后，采用PCA方法进行数据特征提取，对高影响度的属性进行降维，抛弃一些对学习器起抑制作用的属性，确定医疗数据库的高影响属性，提高训练效率。

如图5所示，与三种最先进的半监督学习方法相比，我们的方法达到了最高的分类准确率。通过对目标数据集进行预处理，提高了所有比较方法的分类精度2％～4％。说明所提出的临床决策支持系统框架不仅适用于我们的方法，也适用于其他半监督学习方法，以解决医学数据集中常见的标签不平衡和小样本数据的问题。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.基于生成式对抗网络与半监督学习的医疗大数据分类方法，其特征在于，具体步骤如下：

步骤S1、通过物联网平台采集大医疗数据，获取大量数据维数高、类标不确定性高的医疗大数据，即医疗数据和医学影像；

2.根据权利要求1所述的基于生成式对抗网络与半监督学习的医疗大数据分类方法，其特征在于，所述步骤S2中对获取的医疗数据进行特征提取，进行数据降维采用PCA方法，对获取的医学影像进行特征提取基于多粒度卷积神经网络。

3.根据权利要求2所述的基于生成式对抗网络与半监督学习的医疗大数据分类方法，其特征在于，所述基于多粒度卷积神经网络对医学影像进行特征提取的具体步骤如下：

步骤S21、对输入的医学影像进行第一卷积和第一池化；

步骤S22、对第一池化后的医学影像进行批量归一化；

步骤S23、对归一化后的医学影像进行第二卷积和第二池化；

步骤S24、对第二池化后的医学影像进行flatten操作。

4.根据权利要求3所述的基于生成式对抗网络与半监督学习的医疗大数据分类方法，其特征在于，所述第一卷积和第二卷积均采用了不同尺寸和类型的卷积核。

5.根据权利要求1所述的基于生成式对抗网络与半监督学习的医疗大数据分类方法，其特征在于，所述步骤S4中对有标签医疗数据进行数值化采用One hot编码方法；

所述步骤S4中对有标签医疗数据进行归一化采用如下公式：

其中，x_ij表示数据归一化处理前第i个有标签医疗数据的第j个指标值；x_ij ^*表示数据归一化处理后第i个有标签医疗数据的第j个指标值；M_j表示第i个医疗数据的第j个指标值的最大值，m_j表示第i个医疗数据的第j个指标值的最小值，

6.根据权利要求1所述的基于生成式对抗网络与半监督学习的医疗大数据分类方法，其特征在于，所述步骤S5采用生成式对抗网络对有标签医疗数据进行数据平衡化是采用生成式对抗网络对有标签个人信用数据中数据量少的类别数据进行扩充，使该类别的数据量与其他类别的数据量相同；

7.根据权利要求1～6任一项所述的基于生成式对抗网络与半监督学习的医疗大数据分类方法，其特征在于，所述步骤S9中对无标签医疗数据或无标签医学影像进行标记，是依据各子学习器给出的类标确定：子学习器总数T≤3时，当各子学习器给出当前输入的无标签医疗数据或无标签医学影像的类标均相同，则该数据为高置信度医疗数据，将各子学习器给出的类标分配给该医疗数据，或该医学影像为高置信度医学影像，将各子学习器给出的类标分配给该医学影像；子学习器总数T＞3时，设置阈值进行确定，当给出的当前输入的无标签个人信用数据或无标签医学影像的类标相同的子学习器数量占学习器总数的比例高于该阈值时，则该医疗数据为高置信度的医疗数据数据，该医学影像为高置信度的医学影像，将学习器给出的类标分配给该医疗数据或医学影像；

8.基于生成式对抗网络与半监督学习的医疗大数据分类系统，其特征在于，包括：

数据采集模块，用于采集医疗大数据，获取大量数据维数高、类标不确定性高的医疗大数据，即医疗数据和医学影像；

算法应用模块，用于初始化及训练子学习器，对无标签医疗数据和无标签医学影像进行标记，对有标签医疗数据和有标签医学影像进行扩充；

辅助决策模块，用于对测试集的医疗大数据进行分类。

9.根据权利要求8所述的基于生成式对抗网络与半监督学习的医疗大数据分类系统，其特征在于，所述数据处理模块进一步包括：

医疗数据降维模块，用于对获取的医疗数据进行数据降维；

算法应用模块进一步包括：

10.根据权利要求9所述的基于生成式对抗网络与半监督学习的医疗大数据分类系统，其特征在于，所述医疗数据处理模块采用生成式对抗网络对有标签医疗数据进行数据平衡化；