CN113239022B - 医疗诊断缺失数据补全方法及补全装置、电子设备、介质 - Google Patents
医疗诊断缺失数据补全方法及补全装置、电子设备、介质 Download PDFInfo
- Publication number
- CN113239022B CN113239022B CN202110419669.4A CN202110419669A CN113239022B CN 113239022 B CN113239022 B CN 113239022B CN 202110419669 A CN202110419669 A CN 202110419669A CN 113239022 B CN113239022 B CN 113239022B
- Authority
- CN
- China
- Prior art keywords
- model
- data
- completion
- sample point
- initial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000003745 diagnosis Methods 0.000 title claims abstract description 42
- 238000012549 training Methods 0.000 claims abstract description 45
- 238000005070 sampling Methods 0.000 claims abstract description 11
- 238000010845 search algorithm Methods 0.000 claims abstract description 10
- 238000005457 optimization Methods 0.000 claims abstract description 7
- 239000011159 matrix material Substances 0.000 claims description 40
- 230000006870 function Effects 0.000 claims description 36
- 230000008859 change Effects 0.000 claims description 19
- 238000012217 deletion Methods 0.000 claims description 8
- 230000037430 deletion Effects 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 7
- 238000011156 evaluation Methods 0.000 claims description 5
- 238000012795 verification Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 238000003860 storage Methods 0.000 claims description 3
- 230000001502 supplementing effect Effects 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 claims 2
- 230000000694 effects Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000007812 deficiency Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
- G16H70/60—ICT specially adapted for the handling or processing of medical references relating to pathologies
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Pathology (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Quality & Reliability (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了一种医疗诊断缺失数据的补全方法及补全装置、电子设备、介质,该方法包括:获取存在数据缺失问题的医疗诊断数据集;将所述原始数据随机划分成初始样本点数据和候选样本点数据,并利用所述初始样本点数据,构建并训练生成对抗网络初始补全模型;利用影响函数估计出样本点对生成对抗网络初始补全模型参数和对生成对抗网络初始补全模型预测结果的影响力;利用二分搜索算法采样所述候选样本点数据中最具影响力的样本点,进一步迭代优化所述生成对抗网络初始补全模型,实现医疗诊断缺失数据补全。本发明针对在医疗诊断数据中存在的数据缺失和数据规模大等问题,提出补全方法,拥有补全效果好、效率高、可扩展性强等优点。
Description
技术领域
本发明涉及数据库补全技术,特别是指一种医疗诊断缺失数据补全方法及补全装置、电子设备、介质。
背景技术
数据缺失是医疗诊断数据经常面临的问题,出现缺失的主要原因可以包括:
(a)医疗检测仪器工作状态不稳定:现场环境因素或人为原因导致医疗检测仪器在某些时间段内没有正常工作,从而造成数据缺失;
(b)医疗监测数据:医疗监测过程中,由于检测仪器精准度、生产异常波动等原因,常常存在异常监测数据,此类“坏数据”与实际生产状况不符,需要剔除,而剔除的过程相当于引入了数据缺失。
医疗数据的缺失会造成数据信息不完全,直接影响到后期的医疗诊断。因此,需要对医疗诊断数据中的缺失数据进行补全以提高数据的完整性,从而提高后期医疗诊断数据分析的质量。
众所周知,针对存在数据缺失问题的医疗诊断数据进行数据补全是提高数据完整性的有效途径。但由于传统补全方法的模型复杂度较高,无法直接有效的处理医疗诊断数据。目前针对缺失数据补全问题,国内外学者已经做出了一些工作,但这些工作还存在局限性:(1)数据补全方法补全效果有限;(2)数据补全方法复杂度较高,无法处理缺失数据。
发明内容
本发明的目的是提供一种医疗诊断缺失数据补全方法及补全装置、电子设备、介质,以解决传统补全方法难以处理医疗诊断缺失数据的问题,针对存在数据缺失问题的医疗诊断数据进行有效的补全,尽可能地提高医疗数据完整性。
为了达到上述目的,本发明采用如下技术方案:
第一方面,本发明实施例提供一种医疗诊断缺失数据补全方法,包括:
获取存在数据缺失问题的原始数据,其中,所述原始数据为存在数据缺失的医疗诊断数据集;
将所述原始数据随机划分成初始样本点数据和候选样本点数据,并利用所述初始样本点数据,构建并训练生成对抗网络初始补全模型;
利用影响函数,估计出所述候选样本点数据中样本点对所述生成对抗网络初始补全模型参数上的变化;
在模型参数变化基础上,利用链式法则计算出所述候选样本点数据中样本点对所述生成对抗网络初始补全模型预测结果的影响力;
利用所述影响力估计出所述对抗网络初始补全模型的预测结果;
利用二分搜索算法采样所述候选样本点数据中最具影响力的样本点,进一步迭代优化所述生成对抗网络初始补全模型,得到生成对抗网络补全模型;
利用所述生成对抗网络补全模型,对待补全医疗诊断缺失数据进行缺失补全。
第二方面,本发明实施例提供一种医疗诊断缺失数据的补全装置,包括:
获取模块,用于获取存在数据缺失问题的原始数据,其中,所述原始数据为存在数据缺失的医疗诊断数据集;
构建模块,用于将所述原始数据随机划分成初始样本点数据和候选样本点数据,并利用所述初始样本点数据,构建并训练生成对抗网络初始补全模型;
参数估计模块,用于利用影响函数估计出所述候选样本点数据中样本点对所述生成对抗网络初始补全模型参数上的变化;
影响力评估模块,用于在模型参数变化基础上,利用链式法则计算出所述候选样本点数据中样本点对所述生成对抗网络初始补全模型预测结果的影响力;
结果预测模块,用于利用所点影响力估计出所述对抗网络初始补全模型的预测结果;
采样模块,用于利用二分搜索算法采样所述候选样本点数据中最具影响力的样本点,进一步迭代优化所述生成对抗网络初始补全模型,得到生成对抗网络补全模型;
生成模块,用于利用所述训练得到的生成对抗网络补全模型,对待补全医疗诊断缺失数据进行缺失补全。
第三方面,本发明实施例提供一种设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的方法。
第四方面,本发明实施例提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如第一方面所述的方法。
根据以上技术方案,本发明实施例构建并训练生成对抗网络初始补全模型;利用影响函数,本发明估计出所述候选样本点数据中样本点对所述生成对抗网络初始补全模型参数上的变化;在模型参数变化基础上,本发明利用链式法则计算出所述候选样本点数据中样本点对所述生成对抗网络初始补全模型预测结果的影响力;本发明利用所述样本点影响力估计出对抗网络补全模型的预测结果;本发明利用二分搜索算法采样所述候选样本点数据中最具影响力的样本点,进一步迭代优化所述生成对抗网络初始补全模型,得到生成对抗网络补全模型,实现医疗诊断缺失数据补全。在保证模型补全精确度的情况下,所述补全方法能够通过采样最具影响力样本点的方式,极大降低模型所需的训练样本和训练时间,极大增强补全模型的实用性和处理大规模缺失数据的效率。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明实施例的一种医疗诊断缺失数据的补全方法的流程图;
图2是本发明实施例的样本点数据的影响力函数评估方法框图;
图3是本发明实施例的一种医疗诊断缺失数据的补全装置的框图。
具体实施方式
现结合附图和具体实施对本发明的技术方案作进一步说明。
实施例一
图1是本发明实施例的一种医疗诊断缺失数据补全方法的流程图,该方法包括如下步骤:
步骤S100:获取存在数据缺失问题的原始数据,其中,所述原始数据为存在数据缺失的医疗诊断数据集。
所述存在数据缺失的医疗诊断数据集具体可以为人工呼吸机、心音传感器、血红蛋白仪等医疗仪器中采集的数据,医疗诊断数据出现数据缺失是由于医疗诊断仪器出现故障使得诊断数据存在遗漏的现象。
步骤S200,将所述原始数据随机划分成初始样本点数据和候选样本点数据,并利用所述初始样本点数据,构建并训练生成对抗网络初始补全模型;该步骤可以包括以下子步骤:
步骤S201:根据获取的原始数据X,计算得到对应原始数据X中数据缺失状态的缺失矩阵M,其中若原始数据X的特征存在则其在缺失矩阵M中对应位置的缺失状态为1,若数据矩阵X的特征缺失则其在缺失矩阵M中对应位置的缺失状态为0;
步骤S202:将原始数据X划分成初始样本点数据X0和候选样本点数据Xc。
步骤S203:根据初始样本点数据X0,构建并训练生成对抗网络初始补全模型。
具体地,所述对抗网络初始补全模型包括生成器模型G和判别器模型D,所述生成器模型G用于将所述初始样本点数据X0进行数据补全,并将补全后数据输入到判别器模型D;所述判别器模型D用于最大程度判别补全后数据与所述初始样本点数据X0。所述生成器模型和判别器模型均为多种激活函数组成的深层神经网络结构。
下面描述生成器模型和判别器模型的训练策略。
生成器模型的训练策略:
固定当前判别器模型D的模型参数,依据生成器模型G中的自编码器损失函数以及判别器模型D对生成器模型G生成数据的判别结果反馈,训练生成器模型G,因此生成器模型G的训练过程描述如下:
首先,基于原始数据矩阵大小生成随机高斯噪声矩阵Z,并利用随机高斯噪声矩阵Z初始化数据矩阵X0,得到噪声补全矩阵X(z):
判别器模型的训练策略:
固定当前生成器模型模型参数,将训练好的生成器模型G补全原始数据后输出的补全矩阵作为判别器模型D的输入,判别器模型D判断所有样本中每个特征属于真实特征的概率。因此,判别器模型D的损失函数的计算公式如下所示:
利用批量训练方法重复生成器模型和判别器模型的训练策略,直到达到模型的最大迭代次数,从而最终得到对抗网络初始补全模型。
步骤S300,利用影响函数,估计出所述候选样本点数据中样本点对所述生成对抗网络初始补全模型参数上的变化。图2是本发明的样本点数据的影响力函数评估方法框图。
步骤S400,在模型参数变化基础上,利用链式法则计算出所述候选样本点数据中样本点对所述生成对抗网络初始补全模型预测结果的影响力。
步骤S500,利用所述影响力估计出所述对抗网络初始补全模型的预测结果。
步骤S600,利用二分搜索算法采样所述候选样本点数据中最具影响力的样本点,进一步迭代优化所述生成对抗网络初始补全模型,得到生成对抗网络补全模型。
具体地,利用二分搜索算法检索出最具影响力的最小样本点集合Xn*,且同时保证由Xn*训练得到的模型在验证集H上预测损失函数,即
并在此基础上进一步迭代优化所述生成对抗网络初始补全模型,得到生成对抗网络补全模型;
步骤S700,利用所述生成对抗网络补全模型,实现医疗诊断缺失数据补全。
由上述实施例可知,本发明实施例构建并训练生成对抗网络初始补全模型;利用影响函数,本发明估计出所述候选样本点数据中样本点对所述生成对抗网络初始补全模型参数上的变化;在模型参数变化基础上,本发明利用链式法则计算出所述候选样本点数据中样本点对所述生成对抗网络初始补全模型预测结果的影响力;本发明利用所述样本点影响力估计出对抗网络补全模型的预测结果;本发明利用二分搜索算法采样所述候选样本点数据中最具影响力的样本点,进一步迭代优化所述生成对抗网络初始补全模型,得到生成对抗网络补全模型,实现医疗诊断缺失数据补全。在保证模型补全精确度的情况下,所述补全方法能够通过采样最具影响力样本点的方式,极大降低模型所需的训练样本和训练时间,极大增强补全模型的实用性和处理大规模缺失数据的效率。
与前述的一种医疗诊断缺失数据的补全方法的实施例相对应,本申请还提供了一种医疗诊断缺失数据的补全装置的实施例。
图3是根据一示例性实施例示出的一种医疗诊断缺失数据的补全装置框图。参照图3,该装置包括:
获取模块91,用于获取存在数据缺失问题的原始数据,其中,所述原始数据为存在数据缺失的医疗诊断数据集;
构建模块92,用于将所述原始数据随机划分成初始样本点数据和候选样本点数据,并利用所述初始样本点数据,构建并训练生成对抗网络初始补全模型;
参数估计模块93,用于利用影响函数估计出所述候选样本点数据中样本点对所述生成对抗网络初始补全模型参数上的变化;
影响力评估模块94,用于在模型参数变化基础上,利用链式法则计算出所述候选样本点数据中样本点对所述生成对抗网络初始补全模型预测结果的影响力;
结果预测模块95,用于利用所点影响力估计出所述对抗网络初始补全模型的预测结果;
采样模块96,用于利用二分搜索算法采样所述候选样本点数据中最具影响力的样本点,进一步迭代优化所述生成对抗网络初始补全模型,得到生成对抗网络补全模型;
生成模块97,用于利用所述训练得到的生成对抗网络补全模型,对待补全医疗诊断缺失数据进行缺失补全。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
相应的,本申请还提供一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述的一种医疗诊断缺失数据的补全方法。
相应的,本申请还提供一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该指令被处理器执行时实现如上述的一种医疗诊断缺失数据的补全方法。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (4)
1.一种医疗诊断缺失数据补全方法,其特征在于,包括:
步骤S100:获取存在数据缺失问题的原始数据,其中,所述原始数据为存在数据缺失的医疗诊断数据集;
步骤S200:将所述原始数据随机划分成初始样本点数据和候选样本点数据,并利用所述初始样本点数据,构建并训练生成对抗网络初始补全模型,包括:
步骤S201:根据获取的原始数据X,计算得到对应原始数据X中数据缺失状态的缺失矩阵M,其中若原始数据X的特征存在则其在缺失矩阵M中对应位置的缺失状态为1,若数据矩阵X的特征缺失则其在缺失矩阵M中对应位置的缺失状态为0;
步骤S202:将原始数据X划分成初始样本点数据X0和候选样本点数据Xc;
步骤S203:根据初始样本点数据X0,构建并训练生成对抗网络初始补全模型;
其中所述生成对抗网络初始补全模型包括生成器模型G和判别器模型D,所述生成器模型G用于将所述初始样本点数据X0进行数据补全,并将补全后数据输入到判别器模型D;所述判别器模型D用于最大程度判别补全后数据与所述初始样本点数据X0,所述生成器模型和判别器模型均为多种激活函数组成的深层神经网络结构;
所述生成器模型的训练策略为:
固定当前判别器模型D的模型参数,依据生成器模型G中的自编码器损失函数以及判别器模型D对生成器模型G生成数据的判别结果反馈,训练生成器模型G,因此生成器模型G的训练过程描述如下:
基于原始数据矩阵大小生成随机高斯噪声矩阵Z,并利用随机高斯噪声矩阵Z初始化数据矩阵X0,得到噪声补全矩阵X(z):
所述判别器模型的训练策略为:
固定当前生成器模型模型参数,将训练好的生成器模型G补全原始数据后输出的补全矩阵作为判别器模型D的输入,判别器模型D判断所有样本中每个特征属于真实特征的概率,因此,判别器模型D的损失函数的计算公式如下所示:
利用批量训练方法重复生成器模型和判别器模型的训练策略,直到达到模型的最大迭代次数,从而最终得到生成对抗网络初始补全模型;
步骤S500:利用所述影响力估计出所述生成对抗网络初始补全模型的预测结果,具体为当使用所有数据样本点进行训练时补全模型在验证集H上预测损失函数:
步骤S600:利用二分搜索算法采样所述候选样本点数据中最具影响力的样本点,进一步迭代优化所述生成对抗网络初始补全模型,得到生成对抗网络补全模型;
步骤S700:利用所述生成对抗网络补全模型,对待补全医疗诊断缺失数据进行缺失补全。
2.一种医疗诊断缺失数据的补全装置,其特征在于,包括:
获取模块,用于获取存在数据缺失问题的原始数据,其中,所述原始数据为存在数据缺失的医疗诊断数据集;
构建模块,用于将所述原始数据随机划分成初始样本点数据和候选样本点数据,并利用所述初始样本点数据,构建并训练生成对抗网络初始补全模型,包括:
步骤S201:根据获取的原始数据X,计算得到对应原始数据X中数据缺失状态的缺失矩阵M,其中若原始数据X的特征存在则其在缺失矩阵M中对应位置的缺失状态为1,若数据矩阵X的特征缺失则其在缺失矩阵M中对应位置的缺失状态为0;
步骤S202:将原始数据X划分成初始样本点数据X0和候选样本点数据Xc;
步骤S203:根据初始样本点数据X0,构建并训练生成对抗网络初始补全模型;
其中所述生成对抗网络初始补全模型包括生成器模型G和判别器模型D,所述生成器模型G用于将所述初始样本点数据X0进行数据补全,并将补全后数据输入到判别器模型D;所述判别器模型D用于最大程度判别补全后数据与所述初始样本点数据X0,所述生成器模型和判别器模型均为多种激活函数组成的深层神经网络结构;
所述生成器模型的训练策略为:
固定当前判别器模型D的模型参数,依据生成器模型G中的自编码器损失函数以及判别器模型D对生成器模型G生成数据的判别结果反馈,训练生成器模型G,因此生成器模型G的训练过程描述如下:
基于原始数据矩阵大小生成随机高斯噪声矩阵Z,并利用随机高斯噪声矩阵Z初始化数据矩阵X0,得到噪声补全矩阵X(z):
所述判别器模型的训练策略为:
固定当前生成器模型模型参数,将训练好的生成器模型G补全原始数据后输出的补全矩阵作为判别器模型D的输入,判别器模型D判断所有样本中每个特征属于真实特征的概率,因此,判别器模型D的损失函数的计算公式如下所示:
利用批量训练方法重复生成器模型和判别器模型的训练策略,直到达到模型的最大迭代次数,从而最终得到生成对抗网络初始补全模型;
结果预测模块,用于利用所点影响力估计出所述对抗网络初始补全模型的预测结果,具体为当使用所有数据样本点进行训练时补全模型在验证集H上预测损失函数:
采样模块,用于利用二分搜索算法采样所述候选样本点数据中最具影响力的样本点,进一步迭代优化所述生成对抗网络初始补全模型,得到生成对抗网络补全模型;
生成模块,用于利用所述训练得到的生成对抗网络补全模型,对待补全医疗诊断缺失数据进行缺失补全。
3.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1所述的方法。
4.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1所述的方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110419669.4A CN113239022B (zh) | 2021-04-19 | 2021-04-19 | 医疗诊断缺失数据补全方法及补全装置、电子设备、介质 |
PCT/CN2021/088359 WO2022222026A1 (zh) | 2021-04-19 | 2021-04-20 | 医疗诊断缺失数据补全方法及补全装置、电子设备、介质 |
US17/874,230 US12119114B2 (en) | 2021-04-19 | 2022-07-26 | Missing medical diagnosis data imputation method and apparatus, electronic device and medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110419669.4A CN113239022B (zh) | 2021-04-19 | 2021-04-19 | 医疗诊断缺失数据补全方法及补全装置、电子设备、介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113239022A CN113239022A (zh) | 2021-08-10 |
CN113239022B true CN113239022B (zh) | 2023-04-07 |
Family
ID=77128424
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110419669.4A Active CN113239022B (zh) | 2021-04-19 | 2021-04-19 | 医疗诊断缺失数据补全方法及补全装置、电子设备、介质 |
Country Status (3)
Country | Link |
---|---|
US (1) | US12119114B2 (zh) |
CN (1) | CN113239022B (zh) |
WO (1) | WO2022222026A1 (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113239022B (zh) * | 2021-04-19 | 2023-04-07 | 浙江大学 | 医疗诊断缺失数据补全方法及补全装置、电子设备、介质 |
CN114091615B (zh) * | 2021-11-26 | 2024-08-23 | 广东工业大学 | 一种基于生成对抗网络的电能计量数据补全方法和系统 |
CN116843941A (zh) * | 2023-05-15 | 2023-10-03 | 北京中润惠通科技发展有限公司 | 电力设备检测数据智能分析系统 |
CN116844733B (zh) * | 2023-08-31 | 2023-11-07 | 吉林大学第一医院 | 一种基于人工智能的医疗数据完整性分析方法 |
CN117421548B (zh) * | 2023-12-18 | 2024-03-12 | 四川互慧软件有限公司 | 基于卷积神经网络对生理指标数据缺失的治理方法及系统 |
CN118050803B (zh) * | 2024-02-28 | 2024-10-18 | 广州海洋地质调查局 | 一种海洋地震数据补全方法、装置、电子设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103177088A (zh) * | 2013-03-08 | 2013-06-26 | 北京理工大学 | 一种生物医学空缺数据弥补方法 |
CN109815223A (zh) * | 2019-01-21 | 2019-05-28 | 北京科技大学 | 一种针对工业监测数据缺失的补全方法及补全装置 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7007027B2 (ja) * | 2018-03-30 | 2022-01-24 | Necソリューションイノベータ株式会社 | 予測システム、モデル生成システム、方法およびプログラム |
US10225277B1 (en) * | 2018-05-24 | 2019-03-05 | Symantec Corporation | Verifying that the influence of a user data point has been removed from a machine learning classifier |
CN109165664B (zh) * | 2018-07-04 | 2020-09-22 | 华南理工大学 | 一种基于生成对抗网络的属性缺失数据集补全与预测方法 |
CN109360159A (zh) * | 2018-09-07 | 2019-02-19 | 华南理工大学 | 一种基于生成对抗网络模型的图像补全方法 |
GB201818159D0 (en) * | 2018-11-07 | 2018-12-19 | Cancer Research Tech Ltd | Enhanced detection of target dna by fragment size analysis |
CN110414601A (zh) * | 2019-07-30 | 2019-11-05 | 南京工业大学 | 基于深度卷积对抗网络的光伏组件故障诊断方法、系统及设备 |
CN111581189B (zh) * | 2020-03-27 | 2022-11-08 | 浙江大学 | 一种空气质量检测数据缺失的补全方法及补全装置 |
CN111738420B (zh) * | 2020-06-24 | 2023-06-06 | 莫毓昌 | 一种基于多尺度抽样的机电设备状态数据补全与预测方法 |
CN112259247B (zh) * | 2020-10-22 | 2022-08-23 | 平安科技(深圳)有限公司 | 对抗网络训练、医疗数据补充方法、装置、设备及介质 |
CN112286824B (zh) * | 2020-11-18 | 2022-08-02 | 长江大学 | 基于二分搜索迭代的测试用例生成方法、系统及电子设备 |
CN112529209A (zh) * | 2020-12-07 | 2021-03-19 | 上海云从企业发展有限公司 | 模型训练方法、装置以及计算机可读存储介质 |
CN113239022B (zh) * | 2021-04-19 | 2023-04-07 | 浙江大学 | 医疗诊断缺失数据补全方法及补全装置、电子设备、介质 |
TWI779846B (zh) * | 2021-09-24 | 2022-10-01 | 國立清華大學 | 並聯轉換器之載波同步方法及其系統 |
CN113902897B (zh) * | 2021-09-29 | 2022-08-23 | 北京百度网讯科技有限公司 | 目标检测模型的训练、目标检测方法、装置、设备和介质 |
-
2021
- 2021-04-19 CN CN202110419669.4A patent/CN113239022B/zh active Active
- 2021-04-20 WO PCT/CN2021/088359 patent/WO2022222026A1/zh active Application Filing
-
2022
- 2022-07-26 US US17/874,230 patent/US12119114B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103177088A (zh) * | 2013-03-08 | 2013-06-26 | 北京理工大学 | 一种生物医学空缺数据弥补方法 |
CN109815223A (zh) * | 2019-01-21 | 2019-05-28 | 北京科技大学 | 一种针对工业监测数据缺失的补全方法及补全装置 |
Also Published As
Publication number | Publication date |
---|---|
US20220367057A1 (en) | 2022-11-17 |
CN113239022A (zh) | 2021-08-10 |
US12119114B2 (en) | 2024-10-15 |
WO2022222026A1 (zh) | 2022-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113239022B (zh) | 医疗诊断缺失数据补全方法及补全装置、电子设备、介质 | |
JP6740247B2 (ja) | 異常検出システム、異常検出方法、異常検出プログラム及び学習済モデル生成方法 | |
JP6922284B2 (ja) | 情報処理装置及びプログラム | |
KR101958674B1 (ko) | 시퀀스 재귀 필터링 3차원 변분(3d-var) 기반의 실측 해양 환경 데이터 동화방법 | |
CN111581189B (zh) | 一种空气质量检测数据缺失的补全方法及补全装置 | |
CN112528564A (zh) | 一种基于稀疏贝叶斯学习的桥梁结构损伤识别方法 | |
CN109034225B (zh) | 一种结合随机变量灰性和贝叶斯模型修正的不确定性参数估计方法 | |
CN107704962B (zh) | 一种基于不完整训练数据集的蒸汽流量区间预测方法 | |
CN112086144B (zh) | 分子生成方法、装置、电子设备及存储介质 | |
CN109919229A (zh) | 基于人工蜂群和神经网络的监测有害气体预测方法及系统 | |
EP4131075A1 (en) | Methods and systems for solving a stochastic differential equation using a hybrid computer system | |
CN106228026A (zh) | 一种基于最优退化特征量的剩余寿命预测算法 | |
JP2019105871A (ja) | 異常候補抽出プログラム、異常候補抽出方法および異常候補抽出装置 | |
Wang et al. | Precisely modeling offshore jacket structures considering model parameters uncertainty using Bayesian updating | |
CN109145399A (zh) | 一种基于改进的粒子滤波算法的疲劳裂纹扩展预测方法 | |
CN117150243B (zh) | 一种基于故障影响解耦网络的故障隔离与估计方法 | |
CN117169716B (zh) | 一种基于马尔科夫随机场算法的电机健康诊断系统 | |
JP6398991B2 (ja) | モデル推定装置、方法およびプログラム | |
CN116664265A (zh) | 一种数据处理的方法、装置、电子设备及存储介质 | |
CN117058079A (zh) | 基于改进ResNet模型的甲状腺显像图像自动诊断方法 | |
CN116680639A (zh) | 一种基于深度学习的深海潜水器传感器数据的异常检测方法 | |
CN116243680A (zh) | 一种黑盒域适应的工业设备诊断方法、系统及存储介质 | |
CN115577612A (zh) | 基于深度学习的隧道电阻率极化率联合反演梯度优化方法 | |
JP2011145905A (ja) | 予測関数生成装置、方法、及び、プログラム | |
CN118094314B (zh) | 一种基于改进时空模型的化工过程故障诊断方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |