CN113239022A - 医疗诊断缺失数据补全方法及补全装置、电子设备、介质 - Google Patents

医疗诊断缺失数据补全方法及补全装置、电子设备、介质 Download PDF

Info

Publication number
CN113239022A
CN113239022A CN202110419669.4A CN202110419669A CN113239022A CN 113239022 A CN113239022 A CN 113239022A CN 202110419669 A CN202110419669 A CN 202110419669A CN 113239022 A CN113239022 A CN 113239022A
Authority
CN
China
Prior art keywords
data
model
sample point
completion
initial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110419669.4A
Other languages
English (en)
Other versions
CN113239022B (zh
Inventor
苗晓晔
吴洋洋
朋环环
茹钟莹
尹建伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202110419669.4A priority Critical patent/CN113239022B/zh
Priority to PCT/CN2021/088359 priority patent/WO2022222026A1/zh
Publication of CN113239022A publication Critical patent/CN113239022A/zh
Priority to US17/874,230 priority patent/US20220367057A1/en
Application granted granted Critical
Publication of CN113239022B publication Critical patent/CN113239022B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/60ICT specially adapted for the handling or processing of medical references relating to pathologies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Pathology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种医疗诊断缺失数据的补全方法及补全装置、电子设备、介质,该方法包括:获取存在数据缺失问题的医疗诊断数据集;将所述原始数据随机划分成初始样本点数据和候选样本点数据,并利用所述初始样本点数据,构建并训练生成对抗网络初始补全模型;利用影响函数估计出样本点对生成对抗网络初始补全模型参数和对生成对抗网络初始补全模型预测结果的影响力;利用二分搜索算法采样所述候选样本点数据中最具影响力的样本点,进一步迭代优化所述生成对抗网络初始补全模型,实现医疗诊断缺失数据补全。本发明针对在医疗诊断数据中存在的数据缺失和数据规模大等问题,提出补全方法,拥有补全效果好、效率高、可扩展性强等优点。

Description

医疗诊断缺失数据补全方法及补全装置、电子设备、介质
技术领域
本发明涉及数据库补全技术,特别是指一种医疗诊断缺失数据补全方法及补全装置、电子设备、介质。
背景技术
数据缺失是医疗诊断数据经常面临的问题,出现缺失的主要原因可以包括:
(a)医疗检测仪器工作状态不稳定:现场环境因素或人为原因导致医疗检测仪器在某些时间段内没有正常工作,从而造成数据缺失;
(b)医疗监测数据:医疗监测过程中,由于检测仪器精准度、生产异常波动等原因,常常存在异常监测数据,此类“坏数据”与实际生产状况不符,需要剔除,而剔除的过程相当于引入了数据缺失。
医疗数据的缺失会造成数据信息不完全,直接影响到后期的医疗诊断。因此,需要对医疗诊断数据中的缺失数据进行补全以提高数据的完整性,从而提高后期医疗诊断数据分析的质量。
众所周知,针对存在数据缺失问题的医疗诊断数据进行数据补全是提高数据完整性的有效途径。但由于传统补全方法的模型复杂度较高,无法直接有效的处理医疗诊断数据。目前针对缺失数据补全问题,国内外学者已经做出了一些工作,但这些工作还存在局限性:(1)数据补全方法补全效果有限;(2)数据补全方法复杂度较高,无法处理缺失数据。
发明内容
本发明的目的是提供一种医疗诊断缺失数据补全方法及补全装置、电子设备、介质,以解决传统补全方法难以处理医疗诊断缺失数据的问题,针对存在数据缺失问题的医疗诊断数据进行有效的补全,尽可能地提高医疗数据完整性。
为了达到上述目的,本发明采用如下技术方案:
第一方面,本发明实施例提供一种医疗诊断缺失数据补全方法,包括:
获取存在数据缺失问题的原始数据,其中,所述原始数据为存在数据缺失的医疗诊断数据集;
将所述原始数据随机划分成初始样本点数据和候选样本点数据,并利用所述初始样本点数据,构建并训练生成对抗网络初始补全模型;
利用影响函数,估计出所述候选样本点数据中样本点对所述生成对抗网络初始补全模型参数上的变化;
在模型参数变化基础上,利用链式法则计算出所述候选样本点数据中样本点对所述生成对抗网络初始补全模型预测结果的影响力;
利用所述影响力估计出所述对抗网络初始补全模型的预测结果;
利用二分搜索算法采样所述候选样本点数据中最具影响力的样本点,进一步迭代优化所述生成对抗网络初始补全模型,得到生成对抗网络补全模型;
利用所述生成对抗网络补全模型,对待补全医疗诊断缺失数据进行缺失补全。
第二方面,本发明实施例提供一种医疗诊断缺失数据的补全装置,包括:
获取模块,用于获取存在数据缺失问题的原始数据,其中,所述原始数据为存在数据缺失的医疗诊断数据集;
构建模块,用于将所述原始数据随机划分成初始样本点数据和候选样本点数据,并利用所述初始样本点数据,构建并训练生成对抗网络初始补全模型;
参数估计模块,用于利用影响函数估计出所述候选样本点数据中样本点对所述生成对抗网络初始补全模型参数上的变化;
影响力评估模块,用于在模型参数变化基础上,利用链式法则计算出所述候选样本点数据中样本点对所述生成对抗网络初始补全模型预测结果的影响力;
结果预测模块,用于利用所点影响力估计出所述对抗网络初始补全模型的预测结果;
采样模块,用于利用二分搜索算法采样所述候选样本点数据中最具影响力的样本点,进一步迭代优化所述生成对抗网络初始补全模型,得到生成对抗网络补全模型;
生成模块,用于利用所述训练得到的生成对抗网络补全模型,对待补全医疗诊断缺失数据进行缺失补全。
第三方面,本发明实施例提供一种设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的方法。
第四方面,本发明实施例提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如第一方面所述的方法。
根据以上技术方案,本发明实施例构建并训练生成对抗网络初始补全模型;利用影响函数,本发明估计出所述候选样本点数据中样本点对所述生成对抗网络初始补全模型参数上的变化;在模型参数变化基础上,本发明利用链式法则计算出所述候选样本点数据中样本点对所述生成对抗网络初始补全模型预测结果的影响力;本发明利用所述样本点影响力估计出对抗网络补全模型的预测结果;本发明利用二分搜索算法采样所述候选样本点数据中最具影响力的样本点,进一步迭代优化所述生成对抗网络初始补全模型,得到生成对抗网络补全模型,实现医疗诊断缺失数据补全。在保证模型补全精确度的情况下,所述补全方法能够通过采样最具影响力样本点的方式,极大降低模型所需的训练样本和训练时间,极大增强补全模型的实用性和处理大规模缺失数据的效率。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明实施例的一种医疗诊断缺失数据的补全方法的流程图;
图2是本发明实施例的样本点数据的影响力函数评估方法框图;
图3是本发明实施例的一种医疗诊断缺失数据的补全装置的框图。
具体实施方式
现结合附图和具体实施对本发明的技术方案作进一步说明。
实施例一
图1是本发明实施例的一种医疗诊断缺失数据补全方法的流程图,该方法包括如下步骤:
步骤S100:获取存在数据缺失问题的原始数据,其中,所述原始数据为存在数据缺失的医疗诊断数据集。
所述存在数据缺失的医疗诊断数据集具体可以为人工呼吸机、心音传感器、血红蛋白仪等医疗仪器中采集的数据,医疗诊断数据出现数据缺失是由于医疗诊断仪器出现故障使得诊断数据存在遗漏的现象。
步骤S200,将所述原始数据随机划分成初始样本点数据和候选样本点数据,并利用所述初始样本点数据,构建并训练生成对抗网络初始补全模型;该步骤可以包括以下子步骤:
步骤S201:根据获取的原始数据X,计算得到对应原始数据X中数据缺失状态的缺失矩阵M,其中若原始数据X的特征存在则其在缺失矩阵M中对应位置的缺失状态为1,若数据矩阵X的特征缺失则其在缺失矩阵M中对应位置的缺失状态为0;
步骤S202:将原始数据X划分成初始样本点数据X0和候选样本点数据Xc
步骤S203:根据初始样本点数据X0,构建并训练生成对抗网络初始补全模型。
具体地,所述对抗网络初始补全模型包括生成器模型G和判别器模型D,所述生成器模型G用于将所述初始样本点数据X0进行数据补全,并将补全后数据输入到判别器模型D;所述判别器模型D用于最大程度判别补全后数据与所述初始样本点数据X0。所述生成器模型和判别器模型均为多种激活函数组成的深层神经网络结构。
下面描述生成器模型和判别器模型的训练策略。
生成器模型的训练策略:
固定当前判别器模型D的模型参数,依据生成器模型G中的自编码器损失函数以及判别器模型D对生成器模型G生成数据的判别结果反馈,训练生成器模型G,因此生成器模型G的训练过程描述如下:
首先,基于原始数据矩阵大小生成随机高斯噪声矩阵Z,并利用随机高斯噪声矩阵Z初始化数据矩阵X0,得到噪声补全矩阵X(z)
Figure BDA0003027401340000051
其中
Figure BDA0003027401340000052
表示逐元素乘法符号;
其次,将噪声补全矩阵X(z)输入到生成器模型G中,生成器模型的损失函数
Figure BDA0003027401340000053
包括:重构损失函数Lrec和判别器模型的判别结果反馈函数Lpro,如下所示。
Figure BDA0003027401340000061
其中超参数λ用以权衡生成器模型,
Figure BDA0003027401340000062
表示生成器模型G补全原始数据后输出的补全矩阵,
Figure BDA0003027401340000063
表示判别器模型D预测补全矩阵
Figure BDA00030274013400000612
中所有样本的每个特征属于真实特征的概率。
最终,生成器模型G通过最小化其损失函数
Figure BDA0003027401340000064
进行模型训练,得到当前最优生成器模型参数。
判别器模型的训练策略:
固定当前生成器模型模型参数,将训练好的生成器模型G补全原始数据后输出的补全矩阵
Figure BDA0003027401340000065
作为判别器模型D的输入,判别器模型D判断所有样本中每个特征属于真实特征的概率。因此,判别器模型D的损失函数的计算公式如下所示:
Figure BDA0003027401340000066
判别器模型D通过最小化损失函数
Figure BDA0003027401340000067
进行模型训练,得到当前最优判别器模型参数。
利用批量训练方法重复生成器模型和判别器模型的训练策略,直到达到模型的最大迭代次数,从而最终得到对抗网络初始补全模型。
步骤S300,利用影响函数,估计出所述候选样本点数据中样本点对所述生成对抗网络初始补全模型参数上的变化。图2是本发明的样本点数据的影响力函数评估方法框图。
具体地,利用影响函数
Figure BDA0003027401340000068
计算每个样本x添加到初始训练集时,初始补全模型参数上的变化:
Figure BDA0003027401340000069
其中
Figure BDA00030274013400000610
表示模型的海森矩阵,
Figure BDA00030274013400000611
表述模型损失函数在计算样本点x时所对应的模型梯度。
步骤S400,在模型参数变化基础上,利用链式法则计算出所述候选样本点数据中样本点对所述生成对抗网络初始补全模型预测结果的影响力。
具体地,在模型参数变化基础上,利用链式法则计算出样本点影响力
Figure BDA0003027401340000071
即初始补全模型在验证集H上预测损失函数的变化:
Figure BDA0003027401340000072
步骤S500,利用所述影响力估计出所述对抗网络初始补全模型的预测结果。
具体地,利用所有样本点影响力
Figure BDA0003027401340000073
估计出,当使用所有数据样本点进行训练时补全模型在验证集H上预测损失函数,
Figure BDA0003027401340000074
步骤S600,利用二分搜索算法采样所述候选样本点数据中最具影响力的样本点,进一步迭代优化所述生成对抗网络初始补全模型,得到生成对抗网络补全模型。
具体地,利用二分搜索算法检索出最具影响力的最小样本点集合Xn*,且同时保证由Xn*训练得到的模型在验证集H上预测损失函数,即
Figure BDA0003027401340000075
并在此基础上进一步迭代优化所述生成对抗网络初始补全模型,得到生成对抗网络补全模型;
步骤S700,利用所述生成对抗网络补全模型,实现医疗诊断缺失数据补全。
由上述实施例可知,本发明实施例构建并训练生成对抗网络初始补全模型;利用影响函数,本发明估计出所述候选样本点数据中样本点对所述生成对抗网络初始补全模型参数上的变化;在模型参数变化基础上,本发明利用链式法则计算出所述候选样本点数据中样本点对所述生成对抗网络初始补全模型预测结果的影响力;本发明利用所述样本点影响力估计出对抗网络补全模型的预测结果;本发明利用二分搜索算法采样所述候选样本点数据中最具影响力的样本点,进一步迭代优化所述生成对抗网络初始补全模型,得到生成对抗网络补全模型,实现医疗诊断缺失数据补全。在保证模型补全精确度的情况下,所述补全方法能够通过采样最具影响力样本点的方式,极大降低模型所需的训练样本和训练时间,极大增强补全模型的实用性和处理大规模缺失数据的效率。
与前述的一种医疗诊断缺失数据的补全方法的实施例相对应,本申请还提供了一种医疗诊断缺失数据的补全装置的实施例。
图3是根据一示例性实施例示出的一种医疗诊断缺失数据的补全装置框图。参照图3,该装置包括:
获取模块91,用于获取存在数据缺失问题的原始数据,其中,所述原始数据为存在数据缺失的医疗诊断数据集;
构建模块92,用于将所述原始数据随机划分成初始样本点数据和候选样本点数据,并利用所述初始样本点数据,构建并训练生成对抗网络初始补全模型;
参数估计模块93,用于利用影响函数估计出所述候选样本点数据中样本点对所述生成对抗网络初始补全模型参数上的变化;
影响力评估模块94,用于在模型参数变化基础上,利用链式法则计算出所述候选样本点数据中样本点对所述生成对抗网络初始补全模型预测结果的影响力;
结果预测模块95,用于利用所点影响力估计出所述对抗网络初始补全模型的预测结果;
采样模块96,用于利用二分搜索算法采样所述候选样本点数据中最具影响力的样本点,进一步迭代优化所述生成对抗网络初始补全模型,得到生成对抗网络补全模型;
生成模块97,用于利用所述训练得到的生成对抗网络补全模型,对待补全医疗诊断缺失数据进行缺失补全。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
相应的,本申请还提供一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述的一种医疗诊断缺失数据的补全方法。
相应的,本申请还提供一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该指令被处理器执行时实现如上述的一种医疗诊断缺失数据的补全方法。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种医疗诊断缺失数据补全方法,其特征在于,包括:
获取存在数据缺失问题的原始数据,其中,所述原始数据为存在数据缺失的医疗诊断数据集;
将所述原始数据随机划分成初始样本点数据和候选样本点数据,并利用所述初始样本点数据,构建并训练生成对抗网络初始补全模型;
利用影响函数,估计出所述候选样本点数据中样本点对所述生成对抗网络初始补全模型参数上的变化;
在模型参数变化基础上,利用链式法则计算出所述候选样本点数据中样本点对所述生成对抗网络初始补全模型预测结果的影响力;
利用所述影响力估计出所述对抗网络初始补全模型的预测结果;
利用二分搜索算法采样所述候选样本点数据中最具影响力的样本点,进一步迭代优化所述生成对抗网络初始补全模型,得到生成对抗网络补全模型;
利用所述生成对抗网络补全模型,对待补全医疗诊断缺失数据进行缺失补全。
2.根据权利要求1所述的一种医疗诊断缺失数据补全方法,其特征在于:所述生成对抗网络初始补全模型包括生成器模型和判别器模型,所述生成器模型用于将所述初始样本点数据进行数据补全,并将补全后数据输入到判别器模型;所述判别器模型用于最大程度判别补全后数据与初始样本点数据。
3.根据权利要求2所述的一种医疗诊断缺失数据补全方法,其特征在于:所述生成器模型和判别器模型均为多种激活函数组成的深层神经网络结构。
4.根据权利要求3所述的一种医疗诊断缺失数据补全方法,其特征在于:依据所述生成器模型中的重构损失函数以及所述判别器模型对所述生成器模型生成数据的判别结果反馈,训练所述生成器模型。
5.一种医疗诊断缺失数据的补全装置,其特征在于,包括:
获取模块,用于获取存在数据缺失问题的原始数据,其中,所述原始数据为存在数据缺失的医疗诊断数据集;
构建模块,用于将所述原始数据随机划分成初始样本点数据和候选样本点数据,并利用所述初始样本点数据,构建并训练生成对抗网络初始补全模型;
参数估计模块,用于利用影响函数估计出所述候选样本点数据中样本点对所述生成对抗网络初始补全模型参数上的变化;
影响力评估模块,用于在模型参数变化基础上,利用链式法则计算出所述候选样本点数据中样本点对所述生成对抗网络初始补全模型预测结果的影响力;
结果预测模块,用于利用所点影响力估计出所述对抗网络初始补全模型的预测结果;
采样模块,用于利用二分搜索算法采样所述候选样本点数据中最具影响力的样本点,进一步迭代优化所述生成对抗网络初始补全模型,得到生成对抗网络补全模型;
生成模块,用于利用所述训练得到的生成对抗网络补全模型,对待补全医疗诊断缺失数据进行缺失补全。
6.根据权利要求5所述的一种医疗诊断缺失数据补全方法,其特征在于:所述生成对抗网络初始补全模型包括生成器模型和判别器模型,所述生成器模型用于将所述初始样本点数据进行数据补全,并将补全后数据输入到判别器模型;所述判别器模型用于最大程度判别补全后数据与初始样本点数据。
7.根据权利要求6所述的一种医疗诊断缺失数据补全方法,其特征在于:所述生成器模型和判别器模型均为多种激活函数组成的深层神经网络结构。
8.根据权利要求7所述的一种医疗诊断缺失数据补全方法,其特征在于:依据所述生成器模型中的重构损失函数以及所述判别器模型对所述生成器模型生成数据的判别结果反馈,训练所述生成器模型。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-4任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-4中任一项所述的方法。
CN202110419669.4A 2021-04-19 2021-04-19 医疗诊断缺失数据补全方法及补全装置、电子设备、介质 Active CN113239022B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202110419669.4A CN113239022B (zh) 2021-04-19 2021-04-19 医疗诊断缺失数据补全方法及补全装置、电子设备、介质
PCT/CN2021/088359 WO2022222026A1 (zh) 2021-04-19 2021-04-20 医疗诊断缺失数据补全方法及补全装置、电子设备、介质
US17/874,230 US20220367057A1 (en) 2021-04-19 2022-07-26 Missing medical diagnosis data imputation method and apparatus, electronic device and medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110419669.4A CN113239022B (zh) 2021-04-19 2021-04-19 医疗诊断缺失数据补全方法及补全装置、电子设备、介质

Publications (2)

Publication Number Publication Date
CN113239022A true CN113239022A (zh) 2021-08-10
CN113239022B CN113239022B (zh) 2023-04-07

Family

ID=77128424

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110419669.4A Active CN113239022B (zh) 2021-04-19 2021-04-19 医疗诊断缺失数据补全方法及补全装置、电子设备、介质

Country Status (3)

Country Link
US (1) US20220367057A1 (zh)
CN (1) CN113239022B (zh)
WO (1) WO2022222026A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116843941A (zh) * 2023-05-15 2023-10-03 北京中润惠通科技发展有限公司 电力设备检测数据智能分析系统
CN116844733B (zh) * 2023-08-31 2023-11-07 吉林大学第一医院 一种基于人工智能的医疗数据完整性分析方法
CN117421548B (zh) * 2023-12-18 2024-03-12 四川互慧软件有限公司 基于卷积神经网络对生理指标数据缺失的治理方法及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103177088A (zh) * 2013-03-08 2013-06-26 北京理工大学 一种生物医学空缺数据弥补方法
CN109360159A (zh) * 2018-09-07 2019-02-19 华南理工大学 一种基于生成对抗网络模型的图像补全方法
US10225277B1 (en) * 2018-05-24 2019-03-05 Symantec Corporation Verifying that the influence of a user data point has been removed from a machine learning classifier
CN109815223A (zh) * 2019-01-21 2019-05-28 北京科技大学 一种针对工业监测数据缺失的补全方法及补全装置
CN110414601A (zh) * 2019-07-30 2019-11-05 南京工业大学 基于深度卷积对抗网络的光伏组件故障诊断方法、系统及设备
CN111581189A (zh) * 2020-03-27 2020-08-25 浙江大学 一种空气质量检测数据缺失的补全方法及补全装置
CN112259247A (zh) * 2020-10-22 2021-01-22 平安科技(深圳)有限公司 对抗网络训练、医疗数据补充方法、装置、设备及介质
CN112286824A (zh) * 2020-11-18 2021-01-29 长江大学 基于二分搜索迭代的测试用例生成方法、系统及电子设备
CN112529209A (zh) * 2020-12-07 2021-03-19 上海云从企业发展有限公司 模型训练方法、装置以及计算机可读存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109165664B (zh) * 2018-07-04 2020-09-22 华南理工大学 一种基于生成对抗网络的属性缺失数据集补全与预测方法
CN111738420B (zh) * 2020-06-24 2023-06-06 莫毓昌 一种基于多尺度抽样的机电设备状态数据补全与预测方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103177088A (zh) * 2013-03-08 2013-06-26 北京理工大学 一种生物医学空缺数据弥补方法
US10225277B1 (en) * 2018-05-24 2019-03-05 Symantec Corporation Verifying that the influence of a user data point has been removed from a machine learning classifier
CN109360159A (zh) * 2018-09-07 2019-02-19 华南理工大学 一种基于生成对抗网络模型的图像补全方法
CN109815223A (zh) * 2019-01-21 2019-05-28 北京科技大学 一种针对工业监测数据缺失的补全方法及补全装置
CN110414601A (zh) * 2019-07-30 2019-11-05 南京工业大学 基于深度卷积对抗网络的光伏组件故障诊断方法、系统及设备
CN111581189A (zh) * 2020-03-27 2020-08-25 浙江大学 一种空气质量检测数据缺失的补全方法及补全装置
CN112259247A (zh) * 2020-10-22 2021-01-22 平安科技(深圳)有限公司 对抗网络训练、医疗数据补充方法、装置、设备及介质
CN112286824A (zh) * 2020-11-18 2021-01-29 长江大学 基于二分搜索迭代的测试用例生成方法、系统及电子设备
CN112529209A (zh) * 2020-12-07 2021-03-19 上海云从企业发展有限公司 模型训练方法、装置以及计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
DAVID 9: "用影响函数(Influence Functions)理解机器学习中的黑盒预测", 《HTTP://NOOVERFIT.COM/WP/ICML-2017论文精选1-用影响函数理解机器学习中的黑盒预/》 *

Also Published As

Publication number Publication date
US20220367057A1 (en) 2022-11-17
CN113239022B (zh) 2023-04-07
WO2022222026A1 (zh) 2022-10-27

Similar Documents

Publication Publication Date Title
CN113239022B (zh) 医疗诊断缺失数据补全方法及补全装置、电子设备、介质
CN108959794B (zh) 一种基于深度学习的结构频响动力学模型修正方法
JP2020119605A (ja) 異常検出システム、異常検出方法、異常検出プログラム及び学習済モデル生成方法
CN111581189B (zh) 一种空气质量检测数据缺失的补全方法及补全装置
CN109034225B (zh) 一种结合随机变量灰性和贝叶斯模型修正的不确定性参数估计方法
CN114357594B (zh) 一种基于sca-gru的桥梁异常监测方法、系统、设备及存储介质
CN111275108A (zh) 基于生成对抗网络对局部放电数据进行样本扩展的方法
CN113032929A (zh) 一种数值仿真驱动深度对抗迁移学习的轴承故障诊断方法
CN115296984B (zh) 异常网络节点的检测方法及装置、设备、存储介质
CN114742115B (zh) 滚动轴承故障诊断模型的构建方法及诊断方法
JP2019105871A (ja) 異常候補抽出プログラム、異常候補抽出方法および異常候補抽出装置
CN114662386A (zh) 一种轴承故障诊断方法及系统
CN116383606B (zh) 一种分布式医疗设备的恒流温度采集方法及系统
CN110399279B (zh) 一种用于非人智能体的智能度量方法
CN116680639A (zh) 一种基于深度学习的深海潜水器传感器数据的异常检测方法
CN116243680A (zh) 一种黑盒域适应的工业设备诊断方法、系统及存储介质
CN115577612A (zh) 基于深度学习的隧道电阻率极化率联合反演梯度优化方法
CN114972695A (zh) 一种点云生成方法、装置、电子设备及存储介质
JP2011145905A (ja) 予測関数生成装置、方法、及び、プログラム
CN116027770B (zh) 一种复杂工业过程中分布式故障定位方法及装置
CN114114910B (zh) 一种基于模型-数据混合驱动的电力工控系统动态异常检测方法
CN117169716B (zh) 一种基于马尔科夫随机场算法的电机健康诊断系统
CN113393940B (zh) 控制方法以及医疗系统
EP4116853A1 (en) Computer-readable recording medium storing evaluation program, evaluation method, and information processing device
JP2022034752A (ja) 情報処理装置、情報処理方法、及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant