CN109522973A - 基于生成式对抗网络与半监督学习的医疗大数据分类方法及系统 - Google Patents
基于生成式对抗网络与半监督学习的医疗大数据分类方法及系统 Download PDFInfo
- Publication number
- CN109522973A CN109522973A CN201910042727.9A CN201910042727A CN109522973A CN 109522973 A CN109522973 A CN 109522973A CN 201910042727 A CN201910042727 A CN 201910042727A CN 109522973 A CN109522973 A CN 109522973A
- Authority
- CN
- China
- Prior art keywords
- data
- medical
- label
- medical image
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 94
- 238000004519 manufacturing process Methods 0.000 title claims abstract description 54
- 238000012549 training Methods 0.000 claims abstract description 51
- 238000012545 processing Methods 0.000 claims abstract description 22
- 230000009467 reduction Effects 0.000 claims abstract description 20
- 238000012360 testing method Methods 0.000 claims abstract description 17
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 16
- 230000008569 process Effects 0.000 claims abstract description 8
- 230000010354 integration Effects 0.000 claims abstract description 4
- 238000000605 extraction Methods 0.000 claims description 19
- 238000013480 data collection Methods 0.000 claims description 16
- 238000005457 optimization Methods 0.000 claims description 13
- 238000010606 normalization Methods 0.000 claims description 10
- 238000005070 sampling Methods 0.000 claims description 10
- 230000008859 change Effects 0.000 claims description 9
- 239000003814 drug Substances 0.000 claims description 8
- 241001269238 Data Species 0.000 claims description 6
- 238000013527 convolutional neural network Methods 0.000 claims description 6
- 238000003709 image segmentation Methods 0.000 claims description 6
- 238000012952 Resampling Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 10
- 238000009826 distribution Methods 0.000 description 9
- 239000012141 concentrate Substances 0.000 description 3
- 238000002059 diagnostic imaging Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 230000004069 differentiation Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000008595 infiltration Effects 0.000 description 2
- 238000001764 infiltration Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- TVZRAEYQIKYCPH-UHFFFAOYSA-N 3-(trimethylsilyl)propane-1-sulfonic acid Chemical compound C[Si](C)(C)CCCS(O)(=O)=O TVZRAEYQIKYCPH-UHFFFAOYSA-N 0.000 description 1
- 230000008485 antagonism Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 230000007786 learning performance Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000032696 parturition Effects 0.000 description 1
- 239000000843 powder Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
- 238000002604 ultrasonography Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/03—Recognition of patterns in medical or anatomical images
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于生成式对抗网络与半监督学习的医疗大数据分类方法及系统,该系统包括:数据采集模块,用于采集医疗大数据,获取大量数据维数高、类标不确定性高的医疗数据和医学影像;数据处理模块,用于对获取的医疗数据和医学影像进行预处理;算法应用模块,用于初始化及训练子学习器,对无标签医疗数据和无标签医学影像进行标记,对有标签医疗数据和有标签医学影像进行扩充;辅助决策模块,用于对测试集的医疗大数据进行分类。数据处理模块进一步包括医疗数据降维模块、影像处理模块、数据分类模块和医疗数据处理模块;算法应用模块进一步包括训练样本生成模块、训练模块、标记模块、扩充模块和集成模块。提高医疗大数据分类的准确度。
Description
技术领域
本发明属于医疗数据处理领域,特别是涉及一种基于生成式对抗网络与半监督学习的医疗大数据分类方法及系统。
背景技术
半监督学习领域的研究大多集中于采用基于标签渗透及数据分布模型的思想解决标签样本不足的问题,标签渗透类算法利用有标签数据预训练得到一个学习器,并通过不断优化该学习器,并给无标签样本贴标签的方式进行模型训练,如S3VM、Tri-Training等;现有的数据分布类算法假设样本服从某种分布,并通过有标签样本及无标签样本共同确定模型参数。半监督学习方法,都是建立在有标签样本缺少的情况下,这就导致半监督学习的泛化能力差;目前半监督学习大多基于各种半监督方法假设,且抗干扰性较弱,若无类标数据给定类标错误,将导致算法性能降低。然而实际应用中,得到无噪声干扰的数据难度较大,且半监督学习过程中也难免引入噪声,导致传统方法无法充分考虑无类标数据的不确定性及复杂性等问题,因而不具备普遍适应性。其次,半监督学习使用的无类标数据通常来自于所给样本,样本量较少,导致半监督学习训练样本的局限,使得给定无类标数据的类标正确度低。
在不平衡数据集的情况下,大多数学习算法倾向于识别多数类,而忽略了少数类的重要性。目前常用的解决不平衡数据的缺点有以下几点:过采样和欠采样都有其缺点,欠采样可能会删除某些重要的样本,过采样可能会导致对学习过程的过度拟合;合成数据生成是通过添加人工生成的数据来克服不平衡类的另一种方法,SMOTE是一种典型的合成数据生成方法,它生成任意数量的合成少数样本,将分类器的学习偏向推到少数样本中。然而,SMOTE方法通过只考虑少数样本和样本之间的关系来创建人工样本,而忽略了多数样本中的空间分布;对于集成学习,SMOTEBoost将SMOTE嵌入到Adaboost过程中,这种方法利用了SMOTE来提高对少数类的泛化能力,进一步利用boost来保持对整个数据集的精度。然而,这种方法对于有噪声的样本和外部数据非常敏感,在实际应用中不可行。
生成式对抗网络(GAN)的核心思想来源于博弈论,近年来,GAN被广泛应用于图像处理等领域,并被证明该模型能够产生逼真的视觉图像。整个模型由生成器网络及判别器网络两大部分组成,GAN在生成器和判别器之间建立了一个对抗游戏,判别器的目的是判断一个样本是从真实数据中获取的还是由生成器产生的,而生成器在于判别器对抗的过程中,将根据判别器的判别损失不断优化自身模型,从而生成不可区分的伪样本。为了游戏取胜,两个模型都将在不断迭代中优化自身性能,最终达到对抗平衡的状态,GAN的算法流程如图1所示。图中,生成模型的初始输入为随机噪声z,生成模型为一个神经网络,随机噪声经过生成模型的加工,产生初始的伪造数据,该过程由于没有任何判别器的参与,因而产生的数据与真实数据相似程度较低。此时固定生成器,对判别器进行训练。判别器的输入为混合的真实数据x与生成模型的输出数据G(z),判别器对输入数据进行二分类,即判别数据的真伪,若认为输入数据来源于真实样本,则标记为1,否则标记为0。训练完成时,得到判别器的判别损失,并将该损失分别返回给生成器及判别器。此时固定判别器,训练生成器。如此进行反复迭代。最终生成器的判别能力达到一定水平,且生成器生成的数据在判别器上的表现与真实样本一致时,即判别器无法判断该样本来源,训练结束。此时我们认为生成模型生成的数据接近于真实数据分布。
基于机器学习的医疗数据分类方法,层出不穷,其目的在于采用机器学习方法来对医疗数据进行分类,以提高病人的诊断效率和医生诊疗水平。目前大多数基于机器学习的医疗数据分类方法都是建立在医疗样本数据足够多并且数据类别十分平衡的基础之上,然而现实中有标记医疗数据往往样本量很少,并且极度不平衡,影响医疗数据分类准确度,使得医疗数据分类准确度不高,且如通过人工标记大量医疗数据,费时费力。
发明内容
本发明的目的在于提供一种基于生成式对抗网络与半监督学习的医疗大数据分类方法,以解决目前有标记医疗大数据样本量少、数据极度不平衡使得医疗大数据分类准确度不高的问题和人工标记大量医疗大数据费时费力的问题。
本发明的另一目的在于提供一种基于生成式对抗网络与半监督学习的医疗大数据分类系统。
本发明所采用的技术方案是,基于生成式对抗网络与半监督学习的医疗大数据分类方法,具体步骤如下:
步骤S1、通过物联网平台采集大医疗数据,获取大量数据维数高、类标不确定性高的医疗数据和医学影像;
步骤S2、对获取的医疗数据进行特征提取以对其进行数据降维,并对医学影像依次进行特征提取、图像分割和图像去噪;
步骤S3、将降维后的医疗数据分为有标签医疗数据和无标签医疗数据,并将经图像去噪后的医学影像分为有标签医学影像和无标签医学影像;
步骤S4、对有标签医疗数据的类标依次进行数值化和归一化;
步骤S5、采用生成式对抗网络对有标签医疗数据进行数据平衡化;
步骤S6、通过重采样方法在有标签医疗数据和有标签医学影像中获得不同的样本子集;
步骤S7、采用生成式对抗网络对采样得到的多个样本子集进行扩充,获得多个训练样本;
步骤S8、初始化多个子学习器,并将训练样本分配给子学习器,对子学习器进行优化;
步骤S9、利用优化后的子学习器对无标签医疗数据和无标签医学影像进行标记;并将利用标记的医疗数据和医学影像对有标签医疗数据及有标签医学影像进行一次扩充;
步骤S10、采用生成式对抗网络对有标签医疗数据和有标签医学影像进行二次扩充;
步骤S11、对步骤S4~S10进行循环迭代,直到有标签医疗数据集和有标签医学影像集中的数据量不再发生变化,迭代结束;
步骤S12、采用boosting方法对最终优化的子学习器进行集成学习;并将集成的学习器用于测试集,对测试集进行分类。
进一步的,所述步骤S2中对获取的医疗数据进行特征提取,进行数据降维采用PCA方法,对获取的医学影像进行特征提取基于多粒度卷积神经网络。
进一步的,所述基于多粒度卷积神经网络对医学影像进行特征提取的具体步骤如下:
步骤S21、对输入的医学影像进行第一卷积和第一池化;
步骤S22、对第一池化后的医学影像进行批量归一化;
步骤S23、对归一化后的医学影像进行第二卷积和第二池化;
步骤S24、对第二池化后的医学影像进行flatten操作。
进一步的,所述第一卷积和第二卷积均采用了不同尺寸和类型的卷积核。
进一步的,所述步骤S4中对有标签医疗数据进行数值化采用Onehot编码方法;
所述步骤S4中对有标签医疗数据进行归一化采用如下公式:
其中,表示数据归一化处理前第i个有标签医疗数据的第j个指标值;表示数据归一化处理后第i个有标签医疗数据的第j个指标值;表示第i个医疗数据的第j个指标值的最大值,mj表示第i个医疗数据的第j个指标值的最小值,
进一步的,所述步骤S5采用生成式对抗网络对有标签医疗数据进行数据平衡化是采用生成式对抗网络对有标签个人信用数据中数据量少的类别数据进行扩充,使该类别的数据量与其他类别的数据量相同;
所述步骤S7采用生成式对抗网络对采样得到的多个样本子集进行扩充,是将由生成式对抗网络的生成器生成且判别器判别为真的医疗数据或医学影像加入到需要扩充的类别中。
进一步的,所述步骤S9中对无标签医疗数据或无标签医学影像进行标记,是依据各子学习器给出的类标确定:子学习器总数T≤3时,当各子学习器给出当前输入的无标签医疗数据或无标签医学影像的类标均相同,则该数据为高置信度医疗数据,将各子学习器给出的类标分配给该医疗数据,或该医学影像为高置信度医学影像,将各子学习器给出的类标分配给该医学影像;子学习器总数T>3时,设置阈值进行确定,当给出的当前输入的无标签个人信用数据或无标签医学影像的类标相同的子学习器数量占学习器总数的比例高于该阈值时,则该医疗数据为高置信度的医疗数据数据,该医学影像为高置信度的医学影像,将学习器给出的类标分配给该医疗数据或医学影像;
所述步骤S9中利用标记的医疗数据和医学影像对有标签医疗数据及有标签医学影像进行一次扩充是将从无标签医疗数据中确定的高置信度医疗数据置于有标签医疗数据中,将从无标签医学影像中确定的高置信度医学影像置于有标签医学影像中。
本发明所采用的另一技术方案是,基于生成式对抗网络与半监督学习的医疗大数据分类系统,包括:
数据采集模块,用于采集医疗大数据,获取大量数据维数高、类标不确定性高的医疗数据和医学影像;
数据处理模块,用于对获取的医疗数据和医学影像进行预处理;
算法应用模块:用于初始化及训练子学习器,对无标签医疗数据和无标签医学影像进行标记,对有标签医疗数据和有标签医学影像进行扩充;
辅助决策模块:用于对测试集的医疗大数据进行分类。
进一步的,所述数据处理模块进一步包括:
医疗数据降维模块,用于对获取的医疗数据进行数据降维;
影像处理模块,用于对获取的医学影像依次进行特征提取、图像分割和图像去噪;
数据分类模块,用于将降维后的医疗数据分为有标签医疗数据和无标签医疗数据,并将经图像去噪后的医学影像分为有标签医学影像和无标签医学影像;
医疗数据处理模块,用于对有标签医疗数据依次进行数值化、归一化和数据平衡化;
算法应用模块进一步包括:
训练样本生成模块,用于对有标签医疗数据和有标签医学影像进行采样,获取不同的样本子集,并对获取的样本子集进行扩充,获得训练样本;
训练模块,用于初始化多个子学习器,并将训练样本分配给子学习器,对子学习器进行优化;
标记模块,用于利用优化的子学习器,对无标签医疗数据和无标签医学影像进行标记;
扩充模块,用于对有标签医疗数据和有标签医学影像进行扩充;
集成模块,用于对优化的子学习器进行集成学习,获得最终的学习器;
所述辅助决策模块,用于利用最终的学习器,对测试集的医疗大数据进行分类。
进一步的,所述医疗数据处理模块采用生成式对抗网络对有标签医疗数据进行数据平衡化;
所述学习器训练模块采用半监督学习方法对子学习器进行优化;
所述训练样本生成模块采用生成式对抗网络对获取的样本子集进行扩充;
所述扩充模块首先利用所述标记模块标记的无标签医疗数据对有标签医疗数据进行一次扩充,利用所述标记模块标记的无标签医学影像对有标签医学影像进行一次扩充,然后采用生成式对抗网络对有标签医疗数据和有标签医学影像进行二次扩充。
本发明的有益效果是,基于生成式对抗网络和半监督学习的医疗大数据分类方法及系统,采用少量的有标签医疗大数据和大量无标签大医疗数据,基于生成式对抗网络与半监督学习方法对医疗大数据进行分类,有效提高医疗大数据分类的准确度,辅助医生了解病人病情。在本发明的方法中,GAN被优化配置为生成与原始数据集具有相似分布的人工标记集,这种标记集的补偿可以显著提高医疗数据分类准确率,进一步提高半监督学习的泛化能力,解决目前有标签医疗大数据少、医疗大数据不对称造成医疗大数据分类准确率低的问题及人工标注大量医疗大数据费时费力的问题。针对医疗数据中普遍存在的不平衡类,提出了一种基于GAN的对于医疗不平衡数据的补偿方法来补偿不平衡类;采用半监督学习方法,将自训练与协同训练相结合,显著提高了无标签医疗大数据预测标签的可靠性;手工标注大量的医疗大数据是非常耗时和昂贵的,但我们的方法由于其优越的半监督学习性能,能够自动标注医疗大数据,这对医疗大数据的挖掘和管理具有重要的价值。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是GAN的基本结构和计算流程图;
图2是基于生成式对抗网络与半监督的医疗数据分类系统示意图;
图3是有标签医疗数据的不平衡数据分布示意图;
图4是有标签医疗数据平衡后的数据分布示意图;
图5是不同半监督学习方法对于医疗数据分类的准确率统计直方图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在基于物联网的医疗数据分类系统中,可以通过物联网设备收集大量的医疗数据,为数据驱动的临床决策支持功能奠定了坚实的基础。该决策支持系统从采集的数据集中学习医学知识,模拟人工分类医疗数据,提供可靠的分类结果。如图2所示,我们将我们的方法扩展到一个临床决策支持系统(基于生成式对抗网络和半监督学习的医疗大数据分类系统)的框架中;它的设计主要是为了在医疗数据集上实现一个鲁棒的性能,只有小部分的标签集和不平衡类。整个系统可以分为四个模块:
数据采集模块,过物联网平台上的多个传感器采集医疗数据,获取大量数据维数高、类标不确定性高的医疗大数据,即医疗数据和医学影像,医学影像主要是CT和贺词共振检测结果;
数据处理模块,对获取的医疗数据和医学影像进行预处理,包括:
医疗数据降维模块,采用PCA方法对获取的医疗数据进行数据降维;
影像处理模块,用于对获取的医学影像依次进行特征提取、图像分割和图像去噪,对获取的医学影像进行特征提取基于多粒度卷积神经网络,具体步骤如下:
步骤S21、对输入的医学影像进行第一卷积和第一池化;
步骤S22、对第一池化后的医学影像进行批量归一化;
步骤S23、对归一化后的医学影像进行第二卷积和第二池化;
步骤S24、对第二池化后的医学影像进行flatten操作。
进行两次卷积+池化,首先是便于后续步骤的进行,其次保证特征提取效果,使得特征提取的更好。最后进行flatten操作,是将池化层输出的矩阵转化成一维向量,方便计算,批量归一化也是为了方便计算;第一卷积和第二卷积均采用了不同尺寸和类型的卷积核,卷积核的尺寸根据特征提取处理的图像大小选取,卷积层和filter的数量依据具体的实验进行选择。
分割医学影像,是因为医疗影像有很多不需要的信息,分割是选择重要的图像部分,且因为医学影像的尺寸不同,所以要对医学影像进行分割,保证所有医学影像的大小相同,便于处理。因为有些医学影像受到外界的影像可能存在一些问题,所以要对医学影像进行去噪处理,提高医学影像的质量。
因医疗影像数据具有以下特点:1)数据复杂:B超超声检查仪下的医疗成像数据维度大且类间差距极小,医生只有借助先验知识和专业知识才能准确判断出病因;2)数据具有噪声:图像的边缘有大量文字,对于我们的算法来说,这无疑会限制我们方法的分类性能。针对以上问题,我们提出的多粒度卷积神经网络。一方面,不同的卷积核设计能提取到图像不同的特征,保证了特征的多样性;其次,比起单一粒度的卷积核,多粒度卷积核保证了方法的健壮性,使得方法在处理噪声数据时也能表现出良好的鲁棒性。
数据分类模块,用于将降维后的医疗数据分为有标签医疗数据和无标签医疗数据,并将经图像去噪后的医学影像分为有标签医学影像和无标签医学影像;
医疗数据处理模块,用于对有标签医疗数据依次进行数值化、归一化和数据平衡化;
对有标签医疗数据进行数值化采用Onehot编码方法,对有标签医疗数据进行归一化采用如下公式:
其中,xij表示数据归一化处理前第i个有标签医疗数据的第j个指标值;表示数据归一化处理后第i个有标签医疗数据的第j个指标值;Mj表示第i个医疗数据的第j个指标值的最大值,mj表示第i个医疗数据的第j个指标值的最小值,
数据平衡化是利用生成式对抗网络对有标签医疗数据中存在的不平衡类进行平衡化,即对其进行补偿,是采用生成式对抗网络对有标签个人信用数据中数据量少的类别数据进行扩充,使该类别的数据量与其他类别的数据量相同。
算法应用模块,初始化及训练子学习器,对无标签医疗数据和无标签医学影像进行标记,对有标签医疗数据和有标签医学影像进行扩充,包括:
训练样本生成模块,用于对有标签医疗数据和有标签医学影像进行采样,获取不同的样本子集,并对获取的样本子集进行扩充,获得训练样本。采用生成式对抗网络对采样得到的多个样本子集进行扩充,即将由生成式对抗网络的生成器生成且判别器判别为真的医疗数据或医学影像加入到需要扩充的类别中。
训练模块,训练半监督学习器,先初始化多个子学习器,并将训练样本分配给子学习器,然后通过半监督学习方法对子学习器进行训练,以对子学习器进行优化;
标记模块,用于利用优化的子学习器,对无标签医疗数据和无标签医学影像进行标记;
对无标签医疗数据或无标签医学影像进行标记,是依据各子学习器给出的类标确定:子学习器总数T≤3时,当各子学习器给出当前输入的无标签医疗数据或无标签医学影像的类标均相同,则该数据为高置信度医疗数据,将各子学习器给出的类标分配给该医疗数据,或该医学影像为高置信度医学影像,将各子学习器给出的类标分配给该医学影像;子学习器总数T>3时,设置阈值进行确定,当给出的当前输入的无标签个人信用数据或无标签医学影像的类标相同的子学习器数量占学习器总数的比例高于该阈值时,则该医疗数据为高置信度的医疗数据数据,该医学影像为高置信度的医学影像,将学习器给出的类标分配给该医疗数据或医学影像。
扩充模块,用于对有标签医疗数据和有标签医学影像进行扩充,首先利用所述标记模块标记的无标签医疗数据对有标签医疗数据进行一次扩充,利用所述标记模块标记的无标签医学影像对有标签医学影像进行一次扩充,即将从无标签医疗数据中确定的高置信度医疗数据置于有标签医疗数据中,将从无标签医学影像中确定的高置信度医学影像置于有标签医学影像中。然后采用生成式对抗网络对有标签医疗数据和有标签医学影像进行二次扩充。
集成模块,采用boosting方法对优化的子学习器进行集成学习,获得最终的学习器。
辅助决策模块,利用最终的学习器,对测试集的医疗大数据进行分类。
自我训练和共同训练是最流行的半监督学习方法。在自训练方法中,首先在小有标签医疗数据集上训练分类器,然后使用经过训练的分类器对无标签医疗数据进行分类即标记,使这些无标签医疗数据被赋以伪标签。然后,选择伪标签置信度最高的无标签医疗数据部分,并将其添加到有标签医疗数据集中。分类器迭代地使用有标签医疗数据和已选择带有伪标签的无标签医疗数据训练自身。另一方面,协同训练将有标签医疗数据集的特征分解为两个子集,作为两个视图,它们是有条件独立的。分别在两个子集上训练两个子分类器,用伪标记对未标记集进行分类。然后,将由一个分类器确定的最可靠的无标签医疗数据作为附加的伪标记数据输入另一个分类器进行进一步训练。对于这两种方法,很明显,使用伪标签选择置信度最高的无标签医疗数据,严重地决定了半监督学习的性能。然而,由于单分类器的局限性和目标数据集的多样性,预测标签的可靠性往往得不到保证。因此,我们将自训练和协同训练结合起来。在我们的方法中,我们使用两个不同的在有标签医疗数据上训练的基础学习器来对无标签医疗数据进行分类,然后将由两个基础学习器分配的具有相同伪标记的自信的无标签医疗数据添加到有标签医疗数据中,以便下一次迭代学习。经过多次迭代后,有标签医疗数据集中数据不再改变,如果无标签医疗数据集不是空的,我们将丢弃它。这样的结束程序将显著地防止无标签医疗数据集和不确定的伪标签所引起的性能退化。
事实上,半监督学习方法在有标签医疗数据集的不平衡和极小部分上的训练是相当具有挑战性的。为了解决这些问题,我们进一步改进了我们的方法,采用生成对抗性网络(GAN)。在我们的方法中,GAN被用来自适应地构造训练集,通过在每次迭代期间向有标签医疗数据集添加人工生成的数据,两个基础学习器在此基础上进行了充分的训练。在对有标签医疗数据集进行初步扩展后,再次使用GAN填充扩展的有标签医疗数据集,并进一步补偿其少数类。然后,从结构良好的有标签医疗数据集中得到最终的分类器。
以标签集为输入,GAN生成与输入量相同的人工数据。这样的人工数据生成不仅填充标记集,也补偿不平衡类的标签集。然后,两个不同的学习器最初训练基于标记数据和人工数据和预测的标签标记集。在那之后,无标号数据相同的伪标签预测的基础学习者都添加到标记集。重复以上过程,直到标签集的扩张停止。此时,如果未标记集不是空的,我们将丢弃它。将扩展标签集作为输入,再次使用GAN生成与扩展标签集相同的人工数据量,最后对扩展标签集和人工集进行训练,得到最终的分类器。
基于生成式对抗网络与半监督学习的医疗大数据分类方法,具体步骤如下:
步骤S1、通过物联网平台采集大医疗数据,获取大量数据维数高、类标不确定性高的医疗数据和医学影像;
步骤S2、对获取的医疗数据进行特征提取以对其进行数据降维,并对医学影像依次进行特征提取、图像分割和图像去噪;
步骤S3、将降维后的医疗数据分为有标签医疗数据和无标签医疗数据,并将经图像去噪后的医学影像分为有标签医学影像和无标签医学影像;
步骤S4、对有标签医疗数据的类标依次进行数值化和归一化;
步骤S5、采用生成式对抗网络对有标签医疗数据进行数据平衡化;
步骤S6、通过重采样方法在有标签医疗数据和有标签医学影像中获得不同的样本子集;
步骤S7、采用生成式对抗网络对采样得到的多个样本子集进行扩充,获得多个训练样本;
步骤S8、初始化多个子学习器,并将训练样本分配给子学习器,对子学习器进行优化;
步骤S9、利用优化后的子学习器对无标签医疗数据和无标签医学影像进行标记;并将利用标记的医疗数据和医学影像对有标签医疗数据及有标签医学影像进行一次扩充;
步骤S10、采用生成式对抗网络对有标签医疗数据和有标签医学影像进行二次扩充;
步骤S11、对步骤S4~S10进行循环迭代,直到有标签医疗数据集和有标签医学影像集中的数据量不再发生变化,迭代结束;
步骤S12、采用boosting方法对最终优化的子学习器进行集成学习;并将集成的学习器用于测试集,对测试集进行分类。
基于生成式对抗网络与半监督学习使我医疗大数据分类系统可采用上述基于生成式对抗网络与半监督学习的医疗大数据分类方法。
对基于生成式对抗网络的半监督学习方法进行实验,我们在基准数据集上测试了该方法的性能,并且与一些常用的半监督分类算法(meanS3VM,TSVM,S4VM)进行比较。如表1所示,基准数据集是从UCI数据库中收集的20个医疗数据集,它们的数据量范围从80个到2000,数据集属性范围从3个到30。表1中所示的索引为1到10的数据集是平衡数据集(正负样本很接近,没有超过1:2),其余的都是不平衡的。由于基准数据集最初是由分类任务的训练集和测试集组成的,为了便于我们在模拟实验中划分训练集和测试集,我们将两个集合并为一个整体。
表1 基准数据集信息
由于半监督学习方法没有公开的实现代码,我们在Matlab仿真中实现了这些方法,为了与我们的方法进行比较,我们记录了10次运行的平均运算结果和标准差。表2列出了基于生成式对抗网络的半监督学习方法在医疗平衡数据集上的分类正确率。可以看出,我们的方法在10个数据集,分别在核函数为Linear/RBF上有6个数据集中获胜。而TSVM在选择RBF核函数时,在heart数据集上优于其他RBF内核算法。从两两比较的角度来看,我们的方法在10个数据集中,在选择Linear核函数时,有6次高于meanS3VM,并且在选择RBF核函数时,有7次优于meanS3VM。另一方面,我们的方法在同S4VM比较时,在Linear/RBF时,分别获得了7/6次胜利。与TSVM相比,我们的方法分别对Linear和RBF核函数,10例中有8例和6例取得了较好的效果。这些结果显著地证明了我们的方法在平衡医学数据集上与目前最先进的半监督学习算法相比的出色性能。
表3列出了对不平衡医疗数据集的测试方法所取得的结果。很明显,我们的方法在10个不平衡数据集中,在核函数为Linear/RBF时,7/6都优于meanS3VM。与S4VM相比较,在核函数为Linear/RBF时,分别取得7/7次胜利。与TSVM相比,在核函数为Linear/RBF时,有8/6都优于TSVM算法。总体而言,我们的方法在10个不平衡数据集中,核函数为Linear/RBF核函数,分别取得了8/7次最好的结果。对于不平衡数据集,我们可以看到我们的方法总是在同一数据集上具有最好的性能,同时具有Linear和RBF内核。它显著地证明了我们的方法的健壮性。
综上所述,从表2和表3中可以看出,我们的方法在分类准确率上普遍比其他方法获得较高的平均值和较低的标准差,这充分说明了我们的方法在准确率和稳定性方面的突出表现。这是由于我们的方法有效地选择最可靠的无标号数据改善学习输出,而更重要的是,它成功地排除了高危险标记医疗数据,以便半监督学习性能不会退化,此外,GAN不仅用于填充标记集,而且确保平衡了训练集。
表2 分类正确率(均值±标准差)平衡的数据集
表3 分类正确率(均值±标准差)不平衡的数据集
在此部分,为了证明基于生成式对抗网络与半监督学习的临床决策支持系统框架,我们选择了昆明某医院的患者的医疗数据,用我们的方法进行分类。其数据集信息,如表4所示,数据分类结果可辅助医生了解病人病情。
表4 病人集合信息
在本部分中,我们模拟了基于比较的半监督学习方法的临床决策支持系统。医疗数据通过医疗物联网采集,针对医疗数据库建立样本空间,其记为X={x1,x2.....x11039},其中有标签样本集合为:XL={x1,x2.....x100},无标签样本集合记为:XU={x101,x102.....x11039},标签信息定义为Y={y1,y2};在样本集合中,我们选择了70%的数据作为训练数据,30%作为测试数据,图3展示了医疗数据集的数据分布,可以看出数据集不平衡。因此,GAN被用来生成构建一个平衡标记集的人工数据,如图4所示。然后,采用PCA方法进行数据特征提取,对高影响度的属性进行降维,抛弃一些对学习器起抑制作用的属性,确定医疗数据库的高影响属性,提高训练效率。
如图5所示,与三种最先进的半监督学习方法相比,我们的方法达到了最高的分类准确率。通过对目标数据集进行预处理,提高了所有比较方法的分类精度2%~4%。说明所提出的临床决策支持系统框架不仅适用于我们的方法,也适用于其他半监督学习方法,以解决医学数据集中常见的标签不平衡和小样本数据的问题。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (10)
1.基于生成式对抗网络与半监督学习的医疗大数据分类方法,其特征在于,具体步骤如下:
步骤S1、通过物联网平台采集大医疗数据,获取大量数据维数高、类标不确定性高的医疗大数据,即医疗数据和医学影像;
步骤S2、对获取的医疗数据进行特征提取以对其进行数据降维,并对医学影像依次进行特征提取、图像分割和图像去噪;
步骤S3、将降维后的医疗数据分为有标签医疗数据和无标签医疗数据,并将经图像去噪后的医学影像分为有标签医学影像和无标签医学影像;
步骤S4、对有标签医疗数据的类标依次进行数值化和归一化;
步骤S5、采用生成式对抗网络对有标签医疗数据进行数据平衡化;
步骤S6、通过重采样方法在有标签医疗数据和有标签医学影像中获得不同的样本子集;
步骤S7、采用生成式对抗网络对采样得到的多个样本子集进行扩充,获得多个训练样本;
步骤S8、初始化多个子学习器,并将训练样本分配给子学习器,对子学习器进行优化;
步骤S9、利用优化后的子学习器对无标签医疗数据和无标签医学影像进行标记;并将利用标记的医疗数据和医学影像对有标签医疗数据及有标签医学影像进行一次扩充;
步骤S10、采用生成式对抗网络对有标签医疗数据和有标签医学影像进行二次扩充;
步骤S11、对步骤S4~S10进行循环迭代,直到有标签医疗数据集和有标签医学影像集中的数据量不再发生变化,迭代结束;
步骤S12、采用boosting方法对最终优化的子学习器进行集成学习;并将集成的学习器用于测试集,对测试集进行分类。
2.根据权利要求1所述的基于生成式对抗网络与半监督学习的医疗大数据分类方法,其特征在于,所述步骤S2中对获取的医疗数据进行特征提取,进行数据降维采用PCA方法,对获取的医学影像进行特征提取基于多粒度卷积神经网络。
3.根据权利要求2所述的基于生成式对抗网络与半监督学习的医疗大数据分类方法,其特征在于,所述基于多粒度卷积神经网络对医学影像进行特征提取的具体步骤如下:
步骤S21、对输入的医学影像进行第一卷积和第一池化;
步骤S22、对第一池化后的医学影像进行批量归一化;
步骤S23、对归一化后的医学影像进行第二卷积和第二池化;
步骤S24、对第二池化后的医学影像进行flatten操作。
4.根据权利要求3所述的基于生成式对抗网络与半监督学习的医疗大数据分类方法,其特征在于,所述第一卷积和第二卷积均采用了不同尺寸和类型的卷积核。
5.根据权利要求1所述的基于生成式对抗网络与半监督学习的医疗大数据分类方法,其特征在于,所述步骤S4中对有标签医疗数据进行数值化采用One hot编码方法;
所述步骤S4中对有标签医疗数据进行归一化采用如下公式:
其中,xij表示数据归一化处理前第i个有标签医疗数据的第j个指标值;xij *表示数据归一化处理后第i个有标签医疗数据的第j个指标值;Mj表示第i个医疗数据的第j个指标值的最大值,mj表示第i个医疗数据的第j个指标值的最小值,
6.根据权利要求1所述的基于生成式对抗网络与半监督学习的医疗大数据分类方法,其特征在于,所述步骤S5采用生成式对抗网络对有标签医疗数据进行数据平衡化是采用生成式对抗网络对有标签个人信用数据中数据量少的类别数据进行扩充,使该类别的数据量与其他类别的数据量相同;
所述步骤S7采用生成式对抗网络对采样得到的多个样本子集进行扩充,是将由生成式对抗网络的生成器生成且判别器判别为真的医疗数据或医学影像加入到需要扩充的类别中。
7.根据权利要求1~6任一项所述的基于生成式对抗网络与半监督学习的医疗大数据分类方法,其特征在于,所述步骤S9中对无标签医疗数据或无标签医学影像进行标记,是依据各子学习器给出的类标确定:子学习器总数T≤3时,当各子学习器给出当前输入的无标签医疗数据或无标签医学影像的类标均相同,则该数据为高置信度医疗数据,将各子学习器给出的类标分配给该医疗数据,或该医学影像为高置信度医学影像,将各子学习器给出的类标分配给该医学影像;子学习器总数T>3时,设置阈值进行确定,当给出的当前输入的无标签个人信用数据或无标签医学影像的类标相同的子学习器数量占学习器总数的比例高于该阈值时,则该医疗数据为高置信度的医疗数据数据,该医学影像为高置信度的医学影像,将学习器给出的类标分配给该医疗数据或医学影像;
所述步骤S9中利用标记的医疗数据和医学影像对有标签医疗数据及有标签医学影像进行一次扩充是将从无标签医疗数据中确定的高置信度医疗数据置于有标签医疗数据中,将从无标签医学影像中确定的高置信度医学影像置于有标签医学影像中。
8.基于生成式对抗网络与半监督学习的医疗大数据分类系统,其特征在于,包括:
数据采集模块,用于采集医疗大数据,获取大量数据维数高、类标不确定性高的医疗大数据,即医疗数据和医学影像;
数据处理模块,用于对获取的医疗数据和医学影像进行预处理;
算法应用模块,用于初始化及训练子学习器,对无标签医疗数据和无标签医学影像进行标记,对有标签医疗数据和有标签医学影像进行扩充;
辅助决策模块,用于对测试集的医疗大数据进行分类。
9.根据权利要求8所述的基于生成式对抗网络与半监督学习的医疗大数据分类系统,其特征在于,所述数据处理模块进一步包括:
医疗数据降维模块,用于对获取的医疗数据进行数据降维;
影像处理模块,用于对获取的医学影像依次进行特征提取、图像分割和图像去噪;
数据分类模块,用于将降维后的医疗数据分为有标签医疗数据和无标签医疗数据,并将经图像去噪后的医学影像分为有标签医学影像和无标签医学影像;
医疗数据处理模块,用于对有标签医疗数据依次进行数值化、归一化和数据平衡化;
算法应用模块进一步包括:
训练样本生成模块,用于对有标签医疗数据和有标签医学影像进行采样,获取不同的样本子集,并对获取的样本子集进行扩充,获得训练样本;
训练模块,用于初始化多个子学习器,并将训练样本分配给子学习器,对子学习器进行优化;
标记模块,用于利用优化的子学习器,对无标签医疗数据和无标签医学影像进行标记;
扩充模块,用于对有标签医疗数据和有标签医学影像进行扩充;
集成模块,用于对优化的子学习器进行集成学习,获得最终的学习器;
所述辅助决策模块,用于利用最终的学习器,对测试集的医疗大数据进行分类。
10.根据权利要求9所述的基于生成式对抗网络与半监督学习的医疗大数据分类系统,其特征在于,所述医疗数据处理模块采用生成式对抗网络对有标签医疗数据进行数据平衡化;
所述学习器训练模块采用半监督学习方法对子学习器进行优化;
所述训练样本生成模块采用生成式对抗网络对获取的样本子集进行扩充;
所述扩充模块首先利用所述标记模块标记的无标签医疗数据对有标签医疗数据进行一次扩充,利用所述标记模块标记的无标签医学影像对有标签医学影像进行一次扩充,然后采用生成式对抗网络对有标签医疗数据和有标签医学影像进行二次扩充。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910042727.9A CN109522973A (zh) | 2019-01-17 | 2019-01-17 | 基于生成式对抗网络与半监督学习的医疗大数据分类方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910042727.9A CN109522973A (zh) | 2019-01-17 | 2019-01-17 | 基于生成式对抗网络与半监督学习的医疗大数据分类方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109522973A true CN109522973A (zh) | 2019-03-26 |
Family
ID=65799144
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910042727.9A Pending CN109522973A (zh) | 2019-01-17 | 2019-01-17 | 基于生成式对抗网络与半监督学习的医疗大数据分类方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109522973A (zh) |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110009038A (zh) * | 2019-04-04 | 2019-07-12 | 北京百度网讯科技有限公司 | 筛查模型的训练方法、装置及存储介质 |
CN110097131A (zh) * | 2019-05-08 | 2019-08-06 | 南京大学 | 一种基于对抗协同训练的半监督医疗图像分割方法 |
CN110148194A (zh) * | 2019-05-07 | 2019-08-20 | 北京航空航天大学 | 图像重建方法和装置 |
CN110189323A (zh) * | 2019-06-05 | 2019-08-30 | 深圳大学 | 一种基于半监督学习的乳腺超声图像病灶分割方法 |
CN110197716A (zh) * | 2019-05-20 | 2019-09-03 | 广东技术师范大学 | 医学影像的处理方法、装置及计算机可读存储介质 |
CN110400610A (zh) * | 2019-06-19 | 2019-11-01 | 西安电子科技大学 | 基于多通道随机森林的小样本临床数据分类方法及系统 |
CN110458786A (zh) * | 2019-07-31 | 2019-11-15 | 重庆邮电大学 | 一种先验gan模型医学影像生成方法 |
CN110517787A (zh) * | 2019-08-30 | 2019-11-29 | 山东健康医疗大数据有限公司 | 一种基于中文医疗主诉分析的临床数据组分类方法 |
CN110647117A (zh) * | 2019-09-06 | 2020-01-03 | 青岛科技大学 | 一种化工过程故障识别方法及系统 |
CN110648318A (zh) * | 2019-09-19 | 2020-01-03 | 泰康保险集团股份有限公司 | 用于皮肤病的辅助分析方法及装置、电子设备、存储介质 |
CN110766652A (zh) * | 2019-09-06 | 2020-02-07 | 上海联影智能医疗科技有限公司 | 网络训练方法、装置、分割方法、计算机设备和存储介质 |
CN111863236A (zh) * | 2019-04-24 | 2020-10-30 | 通用电气精准医疗有限责任公司 | 医疗机器合成数据和对应事件生成 |
CN112052750A (zh) * | 2020-08-20 | 2020-12-08 | 南京信息工程大学 | 基于类不平衡传感数据与深度模型的心律失常分类方法 |
CN112215268A (zh) * | 2020-09-27 | 2021-01-12 | 浙江工业大学 | 一种灾害天气卫星云图分类方法和装置 |
CN112259247A (zh) * | 2020-10-22 | 2021-01-22 | 平安科技(深圳)有限公司 | 对抗网络训练、医疗数据补充方法、装置、设备及介质 |
CN112419324A (zh) * | 2020-11-24 | 2021-02-26 | 山西三友和智慧信息技术股份有限公司 | 一种基于半监督任务驱动的医学图像数据扩充方法 |
CN112417767A (zh) * | 2020-12-09 | 2021-02-26 | 东软睿驰汽车技术(沈阳)有限公司 | 一种衰减趋势确定模型构建方法、衰减趋势确定方法 |
CN112819765A (zh) * | 2021-01-25 | 2021-05-18 | 西南交通大学 | 一种肝脏图像处理方法 |
CN114270349A (zh) * | 2019-09-10 | 2022-04-01 | 国际商业机器公司 | 用于加固机器学习模型的学习输入预处理 |
CN114330439A (zh) * | 2021-12-28 | 2022-04-12 | 盐城工学院 | 一种基于卷积神经网络的轴承诊断方法 |
EP3968222A4 (en) * | 2019-05-07 | 2022-06-29 | Tencent Technology (Shenzhen) Company Limited | Classification task model training method, apparatus and device and storage medium |
CN114783572A (zh) * | 2022-04-07 | 2022-07-22 | 西安和华瑞博科技有限公司 | 医疗影像处理方法、装置及医疗影像传输系统 |
CN117421657A (zh) * | 2023-10-27 | 2024-01-19 | 江苏开放大学(江苏城市职业学院) | 一种基于过采样策略的带噪标签样本筛选学习方法及系统 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101551854A (zh) * | 2009-05-13 | 2009-10-07 | 西安电子科技大学 | 不平衡医学影像处理系统及其处理方法 |
CN105354583A (zh) * | 2015-08-24 | 2016-02-24 | 西安电子科技大学 | 基于局部均值的不平衡数据分类方法 |
CN106845528A (zh) * | 2016-12-30 | 2017-06-13 | 湖北工业大学 | 一种基于K‑means与深度学习的图像分类算法 |
CN107291822A (zh) * | 2017-05-24 | 2017-10-24 | 北京邮电大学 | 基于深度学习的问题分类模型训练方法、分类方法及装置 |
CN108388929A (zh) * | 2018-03-27 | 2018-08-10 | 四川大学 | 基于代价敏感和半监督分类的客户分类方法及装置 |
CN108416370A (zh) * | 2018-02-07 | 2018-08-17 | 深圳大学 | 基于半监督深度学习的图像分类方法、装置和存储介质 |
CN108460391A (zh) * | 2018-03-09 | 2018-08-28 | 西安电子科技大学 | 基于生成对抗网络的高光谱图像无监督特征提取方法 |
CN108520282A (zh) * | 2018-04-13 | 2018-09-11 | 湘潭大学 | 一种基于Triple-GAN的分类方法 |
CN108664996A (zh) * | 2018-04-19 | 2018-10-16 | 厦门大学 | 一种基于深度学习的古文字识别方法及系统 |
CN108846405A (zh) * | 2018-04-11 | 2018-11-20 | 东莞迪赛软件技术有限公司 | 基于ssgan的不平衡医保数据分类方法 |
CN108875909A (zh) * | 2018-01-22 | 2018-11-23 | 深圳市铱硙医疗科技有限公司 | 医学影像的分类方法及装置 |
CN108961358A (zh) * | 2017-05-22 | 2018-12-07 | 阿里巴巴集团控股有限公司 | 一种获得样本图片的方法、装置及电子设备 |
CN109063743A (zh) * | 2018-07-06 | 2018-12-21 | 云南大学 | 基于半监督多任务学习的医疗数据分类模型的构建方法 |
CN109086799A (zh) * | 2018-07-04 | 2018-12-25 | 江苏大学 | 一种基于改进卷积神经网络模型AlexNet的作物叶片病害识别方法 |
CN109165664A (zh) * | 2018-07-04 | 2019-01-08 | 华南理工大学 | 一种基于生成对抗网络的属性缺失数据集补全与预测方法 |
-
2019
- 2019-01-17 CN CN201910042727.9A patent/CN109522973A/zh active Pending
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101551854A (zh) * | 2009-05-13 | 2009-10-07 | 西安电子科技大学 | 不平衡医学影像处理系统及其处理方法 |
CN105354583A (zh) * | 2015-08-24 | 2016-02-24 | 西安电子科技大学 | 基于局部均值的不平衡数据分类方法 |
CN106845528A (zh) * | 2016-12-30 | 2017-06-13 | 湖北工业大学 | 一种基于K‑means与深度学习的图像分类算法 |
CN108961358A (zh) * | 2017-05-22 | 2018-12-07 | 阿里巴巴集团控股有限公司 | 一种获得样本图片的方法、装置及电子设备 |
CN107291822A (zh) * | 2017-05-24 | 2017-10-24 | 北京邮电大学 | 基于深度学习的问题分类模型训练方法、分类方法及装置 |
CN108875909A (zh) * | 2018-01-22 | 2018-11-23 | 深圳市铱硙医疗科技有限公司 | 医学影像的分类方法及装置 |
CN108416370A (zh) * | 2018-02-07 | 2018-08-17 | 深圳大学 | 基于半监督深度学习的图像分类方法、装置和存储介质 |
CN108460391A (zh) * | 2018-03-09 | 2018-08-28 | 西安电子科技大学 | 基于生成对抗网络的高光谱图像无监督特征提取方法 |
CN108388929A (zh) * | 2018-03-27 | 2018-08-10 | 四川大学 | 基于代价敏感和半监督分类的客户分类方法及装置 |
CN108846405A (zh) * | 2018-04-11 | 2018-11-20 | 东莞迪赛软件技术有限公司 | 基于ssgan的不平衡医保数据分类方法 |
CN108520282A (zh) * | 2018-04-13 | 2018-09-11 | 湘潭大学 | 一种基于Triple-GAN的分类方法 |
CN108664996A (zh) * | 2018-04-19 | 2018-10-16 | 厦门大学 | 一种基于深度学习的古文字识别方法及系统 |
CN109086799A (zh) * | 2018-07-04 | 2018-12-25 | 江苏大学 | 一种基于改进卷积神经网络模型AlexNet的作物叶片病害识别方法 |
CN109165664A (zh) * | 2018-07-04 | 2019-01-08 | 华南理工大学 | 一种基于生成对抗网络的属性缺失数据集补全与预测方法 |
CN109063743A (zh) * | 2018-07-06 | 2018-12-21 | 云南大学 | 基于半监督多任务学习的医疗数据分类模型的构建方法 |
Cited By (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110009038A (zh) * | 2019-04-04 | 2019-07-12 | 北京百度网讯科技有限公司 | 筛查模型的训练方法、装置及存储介质 |
CN111863236A (zh) * | 2019-04-24 | 2020-10-30 | 通用电气精准医疗有限责任公司 | 医疗机器合成数据和对应事件生成 |
US11984201B2 (en) | 2019-04-24 | 2024-05-14 | GE Precision Healthcare LLC | Medical machine synthetic data and corresponding event generation |
CN110148194A (zh) * | 2019-05-07 | 2019-08-20 | 北京航空航天大学 | 图像重建方法和装置 |
EP3968222A4 (en) * | 2019-05-07 | 2022-06-29 | Tencent Technology (Shenzhen) Company Limited | Classification task model training method, apparatus and device and storage medium |
CN110097131A (zh) * | 2019-05-08 | 2019-08-06 | 南京大学 | 一种基于对抗协同训练的半监督医疗图像分割方法 |
CN110197716A (zh) * | 2019-05-20 | 2019-09-03 | 广东技术师范大学 | 医学影像的处理方法、装置及计算机可读存储介质 |
CN110197716B (zh) * | 2019-05-20 | 2022-05-20 | 广东技术师范大学 | 医学影像的处理方法、装置及计算机可读存储介质 |
CN110189323A (zh) * | 2019-06-05 | 2019-08-30 | 深圳大学 | 一种基于半监督学习的乳腺超声图像病灶分割方法 |
CN110400610A (zh) * | 2019-06-19 | 2019-11-01 | 西安电子科技大学 | 基于多通道随机森林的小样本临床数据分类方法及系统 |
CN110400610B (zh) * | 2019-06-19 | 2022-04-15 | 西安电子科技大学 | 基于多通道随机森林的小样本临床数据分类方法及系统 |
CN110458786A (zh) * | 2019-07-31 | 2019-11-15 | 重庆邮电大学 | 一种先验gan模型医学影像生成方法 |
CN110458786B (zh) * | 2019-07-31 | 2022-05-17 | 重庆邮电大学 | 一种先验gan模型医学影像生成方法 |
CN110517787A (zh) * | 2019-08-30 | 2019-11-29 | 山东健康医疗大数据有限公司 | 一种基于中文医疗主诉分析的临床数据组分类方法 |
CN110766652A (zh) * | 2019-09-06 | 2020-02-07 | 上海联影智能医疗科技有限公司 | 网络训练方法、装置、分割方法、计算机设备和存储介质 |
CN110647117A (zh) * | 2019-09-06 | 2020-01-03 | 青岛科技大学 | 一种化工过程故障识别方法及系统 |
CN114270349A (zh) * | 2019-09-10 | 2022-04-01 | 国际商业机器公司 | 用于加固机器学习模型的学习输入预处理 |
CN110648318A (zh) * | 2019-09-19 | 2020-01-03 | 泰康保险集团股份有限公司 | 用于皮肤病的辅助分析方法及装置、电子设备、存储介质 |
CN112052750A (zh) * | 2020-08-20 | 2020-12-08 | 南京信息工程大学 | 基于类不平衡传感数据与深度模型的心律失常分类方法 |
CN112215268A (zh) * | 2020-09-27 | 2021-01-12 | 浙江工业大学 | 一种灾害天气卫星云图分类方法和装置 |
CN112259247A (zh) * | 2020-10-22 | 2021-01-22 | 平安科技(深圳)有限公司 | 对抗网络训练、医疗数据补充方法、装置、设备及介质 |
CN112259247B (zh) * | 2020-10-22 | 2022-08-23 | 平安科技(深圳)有限公司 | 对抗网络训练、医疗数据补充方法、装置、设备及介质 |
CN112419324B (zh) * | 2020-11-24 | 2022-04-19 | 山西三友和智慧信息技术股份有限公司 | 一种基于半监督任务驱动的医学图像数据扩充方法 |
CN112419324A (zh) * | 2020-11-24 | 2021-02-26 | 山西三友和智慧信息技术股份有限公司 | 一种基于半监督任务驱动的医学图像数据扩充方法 |
CN112417767A (zh) * | 2020-12-09 | 2021-02-26 | 东软睿驰汽车技术(沈阳)有限公司 | 一种衰减趋势确定模型构建方法、衰减趋势确定方法 |
CN112417767B (zh) * | 2020-12-09 | 2024-02-27 | 东软睿驰汽车技术(沈阳)有限公司 | 一种衰减趋势确定模型构建方法、衰减趋势确定方法 |
CN112819765A (zh) * | 2021-01-25 | 2021-05-18 | 西南交通大学 | 一种肝脏图像处理方法 |
CN114330439A (zh) * | 2021-12-28 | 2022-04-12 | 盐城工学院 | 一种基于卷积神经网络的轴承诊断方法 |
CN114783572A (zh) * | 2022-04-07 | 2022-07-22 | 西安和华瑞博科技有限公司 | 医疗影像处理方法、装置及医疗影像传输系统 |
CN117421657A (zh) * | 2023-10-27 | 2024-01-19 | 江苏开放大学(江苏城市职业学院) | 一种基于过采样策略的带噪标签样本筛选学习方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109522973A (zh) | 基于生成式对抗网络与半监督学习的医疗大数据分类方法及系统 | |
Al-Haija et al. | Breast cancer diagnosis in histopathological images using ResNet-50 convolutional neural network | |
CN111047594B (zh) | 肿瘤mri弱监督学习分析建模方法及其模型 | |
CN109584254B (zh) | 一种基于深层全卷积神经网络的心脏左心室分割方法 | |
Son et al. | TW3-based fully automated bone age assessment system using deep neural networks | |
Guo et al. | Classification of thyroid ultrasound standard plane images using ResNet-18 networks | |
CN108364006A (zh) | 基于多模式深度学习的医学图像分类装置及其构建方法 | |
CN109493308A (zh) | 基于条件多判别生成对抗网络的医疗图像合成与分类方法 | |
CN109886273A (zh) | 一种cmr图像分割分类系统 | |
CN108806792A (zh) | 深度学习面诊系统 | |
CN106682616A (zh) | 基于双通道特征深度学习的新生儿疼痛表情识别方法 | |
CN109919928A (zh) | 医学影像的检测方法、装置和存储介质 | |
CN106296699A (zh) | 基于深度神经网络和多模态mri图像的脑肿瘤分割方法 | |
CN109544518A (zh) | 一种应用于骨骼成熟度评估的方法及其系统 | |
CN106127263A (zh) | 基于三维特征提取的人脑磁共振图像分类识别方法及系统 | |
CN116883768B (zh) | 基于多模态特征融合的肺结节智能分级方法及系统 | |
CN115690072A (zh) | 基于多模态深度学习的胸片特征提取和疾病分类方法 | |
CN111462082A (zh) | 一种病灶图片识别装置、方法、设备及可读存储介质 | |
CN114863185A (zh) | 一种轻量化超声心动图标准切面识别方法、装置和介质 | |
Kumar et al. | Medical image classification and manifold disease identification through convolutional neural networks: a research perspective | |
Cao et al. | 3D convolutional neural networks fusion model for lung nodule detection onclinical CT scans | |
Younis et al. | Deep learning techniques for the classification of brain tumor: A comprehensive survey | |
CN117095241B (zh) | 一种耐药性肺结核类别的筛查方法、系统、设备及介质 | |
CN115862837A (zh) | 一种基于类型推理与语义约束的医学视觉问答方法 | |
Liu et al. | Image Classification and Recognition of Medicinal Plants Based on Convolutional Neural Network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190326 |