CN116913445A - 一种基于表格学习的医疗缺失数据插补方法 - Google Patents
一种基于表格学习的医疗缺失数据插补方法 Download PDFInfo
- Publication number
- CN116913445A CN116913445A CN202310654968.5A CN202310654968A CN116913445A CN 116913445 A CN116913445 A CN 116913445A CN 202310654968 A CN202310654968 A CN 202310654968A CN 116913445 A CN116913445 A CN 116913445A
- Authority
- CN
- China
- Prior art keywords
- data
- medical
- missing
- deep
- shallow
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 239000011159 matrix material Substances 0.000 claims abstract description 45
- 238000012545 processing Methods 0.000 claims abstract description 29
- 238000007781 pre-processing Methods 0.000 claims abstract description 9
- 238000006243 chemical reaction Methods 0.000 claims abstract description 4
- 238000012937 correction Methods 0.000 claims description 52
- 230000006870 function Effects 0.000 claims description 11
- 230000004913 activation Effects 0.000 claims description 10
- 230000007812 deficiency Effects 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 10
- 239000013598 vector Substances 0.000 claims description 10
- 230000004927 fusion Effects 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 4
- 239000010410 layer Substances 0.000 description 34
- 238000012217 deletion Methods 0.000 description 8
- 230000037430 deletion Effects 0.000 description 8
- 238000013135 deep learning Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 102000001554 Hemoglobins Human genes 0.000 description 2
- 108010054147 Hemoglobins Proteins 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 239000008280 blood Substances 0.000 description 2
- 210000004369 blood Anatomy 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 206010019233 Headaches Diseases 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000003042 antagnostic effect Effects 0.000 description 1
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008033 biological extinction Effects 0.000 description 1
- 230000036772 blood pressure Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 208000002173 dizziness Diseases 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 231100000869 headache Toxicity 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 229910052760 oxygen Inorganic materials 0.000 description 1
- 239000001301 oxygen Substances 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/094—Adversarial learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Algebra (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本发明属于医疗数据处理技术领域,具体涉及一种基于表格学习的医疗缺失数据插补方法;该方法包括:获取待插补的医疗缺失数据并对其进行预处理,得到预处理好的医疗缺失数据;对预处理好的医疗缺失数据分别进行预插补和转换操作,得到初步完整医疗数据和缺失掩码矩阵;采用改进的生成器对初步完整医疗数据和缺失掩码矩阵进行处理,得到修正后的完整医疗数据;将缺失掩码矩阵输入到提示生成器中,得到提示矩阵;采用改进的鉴别器对修正医疗数据和提示矩阵进行处理,得到估计掩码矩阵;计算模型损失并根据模型损失调整模型参数,得到训练好的医疗缺失数据插补模型;本发明插补精度高,插补速度快。
Description
技术领域
本发明属于医疗数据处理技术领域,具体涉及一种基于表格学习的医疗缺失数据插补方法。
背景技术
近年来随着计算机技术的兴起,各行各业都取得了飞速的发展,尤其是医疗领域。但是在医疗领域中,要分析数据必然会遇到缺失数据的问题。这个问题是不可避免的,并且在医学或者社会研究中无处不在。缺失数据往往会使得数据分析和数据挖掘复杂化并且影响随机试验和观察性研究。因此处理缺失数据已经成为了领域数据分析的重要环节。
在现有的研究中,缺失值可以分为三类:完全随机缺失、随机缺失和非随机缺失。在完全随机缺失中,缺失值不与任何变量有关,换言之就是不与其他缺失值和现有的不缺失值相关,缺失值的出现完全是随机事件。这样的数据可以看成是完整数据的随机样本。随机缺失意味着缺失值不是完全随机的,它仅仅依赖于现有的不缺失值。最后在非随机缺失中,数据的缺失不是随机的,它依赖于其他的缺失值和现有的不缺失值,并且无法通过已有的数据来掌握数据的情况。
本发明中的模型和数据是针对完全随机缺失情况而言,在现有的研究中,很少有表格学习结合缺失值插补方法的研究。并且由于表格数据的特殊性,深度学习在表格数据上容易造成过拟合效果,但是深度学习和表示学习近年也展现出强大的优势。
发明内容
针对现有技术存在的不足,本发明提出了一种基于表格学习的医疗缺失数据插补方法,该方法包括:获取待插补的医疗缺失数据并对其进行预处理,将预处理好的医疗缺失数据输入到训练好的医疗缺失数据插补模型中,得到完整医疗数据;
医疗缺失数据插补模型的训练过程包括:
S1:获取待插补的医疗缺失数据并对其进行预处理,得到预处理好的医疗缺失数据;
S2:对预处理好的医疗缺失数据分别进行预插补和转换操作,得到初步完整医疗数据和缺失掩码矩阵;
S3:采用改进的生成器对初步完整医疗数据和缺失掩码矩阵进行处理,得到修正后的完整医疗数据;
S4:将缺失掩码矩阵输入到提示生成器中,得到提示矩阵;
S5:采用改进的鉴别器对修正医疗数据和提示矩阵进行处理,得到估计掩码矩阵;
S6:根据缺失掩码矩阵和估计掩码矩阵计算鉴别器损失,根据生成器和鉴别器损失调整模型参数,得到训练好的医疗缺失数据插补模型。
优选的,采用改进的生成器对初步完整医疗数据和缺失掩码矩阵进行处理的过程包括:连接初步完整医疗数据和缺失掩码矩阵,得到连接向量;分别采用深层网络和浅层网络对连接向量进行处理,得到深层修正数据和浅层修正数据;融合深层修正数据和浅层修正数据,得到修正医疗数据。
进一步的,所述深层网络由多个基础块构成,两个基础块之间采用门控残差连接;每个基础块由特征选择层、注意力层和线性层组成。
进一步的,特征选择层对数据的处理过程包括:采用第一线性层和tanh激活函数对输入数据进行处理,得到第一输出;采用第二线性层和sparsemax激活函数对第一输出进行处理,得到稀疏概率;将稀疏概率和输入数据相乘得到特征选择层输出。
进一步的,融合深层修正数据和浅层修正数据的过程包括:计算深层修正数据与待插补医疗缺失数据不缺失部分的深层MSE损失,计算浅层修正数据与待插补医疗缺失数据不缺失部分的浅层MSE损失;计算深层修正数据的相似度和浅层修正数据的相似度;将深层MSE损失、浅层MSE损失、深层修正数据的相似度和浅层修正数据的相似度输入到线性层和sparsemax激活函数中进行处理,得到深层权重和浅层权重;根据深层权重和浅层权重对深层修正数据和浅层修正数据进行加权求和,得到修正医疗数据。
优选的,改进的鉴别器和改进的生成器结构相同。
优选的,计算生成器损失的公式为:
其中,N表示样本数,G表示生成器,表示i样本j维度的掩码变量,/>表示鉴别器生成的i样本j维度的掩码变量,/>表示第一权重参数,/>表示生成器输入的i样本j维度数据,/>表示深层网络输出的i样本j维度数据,β表示第二权重参数,/>表示浅层网络输出的i样本j维度数据,γ表示第三权重参数,/>表示融合层输出的i样本j维度数据,d表示样本维度个数。
优选的,计算鉴别器损失的公式为:
其中,D表示鉴别器,表示i样本j维度的掩码变量,/>表示鉴别器生成的i样本j维度的掩码变量,N表示样本数,d表示样本维度个数。
本发明的有益效果为:本发明通过采用改进的生成器和鉴别器对待插补的医疗缺失数据进行处理,在融合深层网络数据和浅层网络数据过程中,考虑了不同通道的多样性和准确性,可以根据数据本身动态融合出不同的结果,从而得到更好的修正数据;本发明将对抗插补网络与表格数据的深度学习以及表示学习的模型结合,可以提高缺失数据插补精度,实现高效率插补。
附图说明
图1为本发明中基于表格学习的医疗缺失数据插补方法流程框图;
图2为本发明中特征选择结构示意图;
图3为本发明中不同通道融合示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提出了一种基于表格学习的医疗缺失数据插补方法,如图1所示,所述方法包括以下内容:获取待插补的医疗缺失数据并对其进行预处理,将预处理好的医疗缺失数据输入到训练好的医疗缺失数据插补模型中,得到完整医疗数据。
医疗缺失数据插补模型的训练过程包括:
S1:获取待插补的医疗缺失数据并对其进行预处理,得到预处理好的医疗缺失数据。
优选的,可从医院获取患者的高原反应数据集作为待插补的医疗缺失数据,该数据包括10年左右的数据,其中每一年进行体检的项目可能存在区别,并且每一年的体检的人也是基本不同的,同时每一年的样本还有特征缺失的情况,数据比较复杂。该数据包括常见的人口统计信息,比如说出生年月、身高、体重等信息,还包括检查信息,比如说血糖、血压、血氧饱和度等,还有各种的问卷信息,比如说有无口唇发紫、有无记忆力减退、有无头痛头晕等信息。
对待插补的医疗缺失数据进行预处理,具体的:针对数据的特征情况,参考青海CMS记分系统,选择容易得到的自测信息作为特征,不容易得到的HGB(血红蛋白)含量作为标签,且过滤了不包含标签的年份数据和缺失率超过50%的样本数据,最终得到可用数据如表1所示。
表1数据集情况
由于该数据集是半结构化数据,有很多文字类别信息。比如说民族、高原地点、单位等。同时还有很多时间信息,比如说出生年月、初次到高原时间等信息。最为重要的一点是表头比较复杂,因为表头中是融合了多个调查的结果,但是把有的调查项目所属的小类,大类都包含了进去。因此如果要输入到机器学习或者深度学习等模型中,就必须要对数据进行进一步预处理;具体的:
对表头进行处理,把表头处理成一行才能输入到计算机中。具体处理方式是把所属的类的信息加上“_”再加上检查的项目。这么做可以最大程度的保留检查项目所属的类别信息,以确保信息的不丢失。对于文字类别的信息采用one_hot编码的形式进行编码,因为有的类别信息的值是有程度大小关系的,比如说无、轻、中、重是用0、1、2、3来表示,所以对于此类数据不进行处理。最后对于时间信息,采取与当前时间进行差值计算,以与当前时间的差值表示数据的时间。
S2:对预处理好的医疗缺失数据分别进行预插补和转换操作,得到初步完整医疗数据和缺失掩码矩阵。
本发明是在现有的插补方法的基础上完成,现有的Gain对抗神经网络进行缺失数据插补的方法中,对于缺失数据的初始化采用了随机数的补齐。在神经网络的参数初始化,又或者数据增强等方法中都证明了初始化对于最后结果的影响,因此本发明认为缺失数据的初始化也能一定程度影响到数据插补的性能。为使得初始的完整数据更好,本发明使用knn插补方法对预处理好的医疗缺失数据进行预插补,得到初步完整医疗数据。
同时,对预处理好的医疗缺失数据进行转换操作,得到缺失掩码矩阵(Maskmatrix)。其中每个样本中,缺失特征表示为1,不缺失特征表示为0。形成01掩码矩阵。
S3:采用改进的生成器对初步完整医疗数据和缺失掩码矩阵进行处理,得到修正医疗数据;计算生成器损失。
改进的生成器由深层网络和浅层网络构成;特征选择层,注意力层和线性层组成的基础块堆叠组成深层网络,且深层网络采用残差网络防止过拟合的产生;浅层网络为单层线性层;此外,本发明采用新颖方法对两个通道进行融合操作,进而生成完整数据。
改进的生成器对初步完整医疗数据和缺失掩码矩阵进行处理的过程包括:连接初步完整医疗数据和缺失掩码矩阵为一个连接向量;将连接向量分别输入到深层网络和浅层网络;深层网络对连接向量的处理过程包括:输入数据在特征选择层进行特征的软概率选择,然后输入到注意力层和线性层对软概率选择之后的特征进行表示,然后将基础块的输入向量和表示后的向量进行门控残差操作后输入到下一个基础块中,依此往下最终得到深层修正数据。
连接向量输入到浅层网络中得到浅层修正数据;采用融合层对深层修正数据和浅层修正数据进行融合,得到修正医疗数据。
如图2所示,特征选择层对数据的处理过程包括:将数据输入到线性层和tanh激活函数中进行处理,得到第一输出;再将第一输出输入到线性层和sparsemax激活函数中进行处理,得到稀疏概率,将稀疏概率和输入数据相乘得到特征选择层输出。其中。sparsemax函数可以生成比softmax更稀疏的权重。sparsemax激活函数表示为:
如图3所示,融合深层修正数据和浅层修正数据的过程包括:计算深层修正数据与待插补医疗缺失数据不缺失部分的深层MSE损失(均方误差损失),计算浅层修正数据与待插补医疗缺失数据不缺失部分的浅层MSE损失;计算深层修正数据的相似度和浅层修正数据的相似度;将深层MSE损失、浅层MSE损失、深层修正数据的相似度和浅层修正数据的相似度输入到线性层和sparsemax激活函数中进行处理,得到深层权重和浅层权重;根据深层权重和浅层权重对深层修正数据和浅层修正数据进行加权求和,得到修正医疗数据。其中,深层修正数据的相似度包括第一相似度和第二相似度;第一相似度为深层修正数据与深层修正数据的余弦相似度,第二相似度为深层修正数据与浅层修正数据的余弦相似度;浅层修正数据的相似度的计算过程与深层修正数据的相似度计算过程类似。
传统的残差是xl+1=xl+F(xl),因为残差网络可能比较好的避免梯度消失问题,从而可以让网络加深并且泛化性能提高。但是传统的残差连接只是简单的输入加上前一层的输出,本发明为了让深度网络进行优化调节使用门控残差,具体的,在输入数据和前一层输出间添加权重,表示为:
xl+1=αxl+(1-α)*F(xl)其中,α=sigmoid(Wxl+b)
其中,xl+1表示下一层网络的输入,α表示生成的权重,xl表示当前基础块的输入,F(xl)表示当前基础块的输出,W,b表示线性层的权重。
由于该医疗数据集是表格数据,因此传统的cnn或者rnn网络可能并不太适用,因此本发明采用深层网络和浅层网络结合,并且融合机制考虑了不同通道的多样性和准确性,可以更好的融合。其中深层网络采用的基础块包含特征选择和注意力加线性层的表示层,即融入了表示能力强的注意力机制,也融入了表格数据的常规处理方法。残差网络也进行了一定修改。该网络可以防止过拟合问题,同时保留了深层网络的拟合优势和浅层网络的修正能力。并且数据融合过程中的权重由数据自身决定,可以根据数据本身动态融合出不同的结果,从而得到更好的修正数据。
计算生成器损失的公式为:
其中,N表示样本数,G表示生成器,表示i样本j维度的掩码变量,/>表示鉴别器生成的i样本j维度的掩码变量,/>表示第一权重参数,/>表示生成器输入的i样本j维度数据,/>表示深层网络输出的i样本j维度数据,β表示第二权重参数,/>表示浅层网络输出的i样本j维度数据,γ表示权重参数,/>表示融合层输出的i样本j维度数据,d表示样本维度个数。
S4:将缺失掩码矩阵输入到提示生成器中,得到提示矩阵。
将缺失掩码矩阵输入到提示生成器(Hint Generator)中进行处理,输出提示矩阵(Hint matrix)。流程如下:
定义:B=(B1,...,Bd)∈{0,1}d,其中d为一个样本的维度。B中的具体值为随机均匀选取1到d中的一个数字,设置:
H=B⊙M+0.5(1-B)得出Hint matrix。
S5:采用改进的鉴别器对修正医疗数据和提示矩阵进行处理,得到估计掩码矩阵(Estimated mask matrix)。
本发明设计的改进的鉴别器和改进的生成器结构相同,改进的鉴别器对修正医疗数据和提示矩阵进行处理的过程和生成器一样。
S6:根据缺失掩码矩阵和估计掩码矩阵计算鉴别器损失,根据生成器损失和鉴别器损失调整模型参数,得到训练好的医疗缺失数据插补模型。
计算鉴别器损失的公式为:
其中,D表示鉴别器,表示i样本j维度的掩码变量,/>表示鉴别器生成的i样本j维度的掩码变量,N表示样本数,d表示维度个数。
根据生成器损失和鉴别器损失调整模型参数,可得到训练好的医疗缺失数据插补模型。生成器与鉴别器对抗训练完成后,取修正医疗数据中与待插补的医疗缺失数据缺失部分对应的数据补充进然待插补的医疗缺失数据中,可得到插补好的完整医疗数据。
获取待插补的医疗缺失数据并对其进行预处理,将预处理好的医疗缺失数据输入到训练好的医疗缺失数据插补模型中,可得到插补好的完整医疗数据。
以上所举实施例,对本发明的目的、技术方案和优点进行了进一步的详细说明,所应理解的是,以上所举实施例仅为本发明的优选实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于表格学习的医疗缺失数据插补方法,其特征在于,包括:获取待插补的医疗缺失数据并对其进行预处理,将预处理好的医疗缺失数据输入到训练好的医疗缺失数据插补模型中,得到完整医疗数据;
医疗缺失数据插补模型的训练过程包括:
S1:获取待插补的医疗缺失数据并对其进行预处理,得到预处理好的医疗缺失数据;
S2:对预处理好的医疗缺失数据分别进行预插补和转换操作,得到初步完整医疗数据和缺失掩码矩阵;
S3:采用改进的生成器对初步完整医疗数据和缺失掩码矩阵进行处理,得到修正医疗数据;计算生成器损失;
S4:将缺失掩码矩阵输入到提示生成器中,得到提示矩阵;
S5:采用改进的鉴别器对修正医疗数据和提示矩阵进行处理,得到估计掩码矩阵;
S6:根据缺失掩码矩阵和估计掩码矩阵计算鉴别器损失,根据生成器损失和鉴别器损失调整模型参数,得到训练好的医疗缺失数据插补模型。
2.根据权利要求1所述的一种基于表格学习的医疗缺失数据插补方法,其特征在于,采用改进的生成器对初步完整医疗数据和缺失掩码矩阵进行处理的过程包括:连接初步完整医疗数据和缺失掩码矩阵,得到连接向量;分别采用深层网络和浅层网络对连接向量进行处理,得到深层修正数据和浅层修正数据;融合深层修正数据和浅层修正数据,得到修正医疗数据。
3.根据权利要求2所述的一种基于表格学习的医疗缺失数据插补方法,其特征在于,所述深层网络由多个基础块构成,两个基础块之间采用门控残差连接;每个基础块由特征选择层、注意力层和线性层组成。
4.根据权利要求3所述的一种基于表格学习的医疗缺失数据插补方法,其特征在于,特征选择层对数据的处理过程包括:采用第一线性层和tanh激活函数对输入数据进行处理,得到第一输出;采用第二线性层和sparsemax激活函数对第一输出进行处理,得到稀疏概率;将稀疏概率和输入数据相乘得到特征选择层输出。
5.根据权利要求2所述的一种基于表格学习的医疗缺失数据插补方法,其特征在于,融合深层修正数据和浅层修正数据的过程包括:计算深层修正数据与待插补医疗缺失数据不缺失部分的深层MSE损失,计算浅层修正数据与待插补医疗缺失数据不缺失部分的浅层MSE损失;计算深层修正数据的相似度和浅层修正数据的相似度;将深层MSE损失、浅层MSE损失、深层修正数据的相似度和浅层修正数据的相似度输入到线性层和sparsemax激活函数中进行处理,得到深层权重和浅层权重;根据深层权重和浅层权重对深层修正数据和浅层修正数据进行加权求和,得到修正医疗数据。
6.根据权利要求1所述的一种基于表格学习的医疗缺失数据插补方法,其特征在于,改进的鉴别器和改进的生成器结构相同。
7.根据权利要求1所述的一种基于表格学习的医疗缺失数据插补方法,其特征在于,计算生成器损失的公式为:
其中,N表示样本数,G表示生成器,表示i样本j维度的掩码变量,/>表示鉴别器生成的i样本j维度的掩码变量,/>表示第一权重参数,/>表示生成器输入的i样本j维度数据,/>表示深层网络输出的i样本j维度数据,β表示第二权重参数,/>表示浅层网络输出的i样本j维度数据,γ表示第三权重参数,/>表示融合层输出的i样本j维度数据,d表示样本维度个数。
8.根据权利要求1所述的一种基于表格学习的医疗缺失数据插补方法,其特征在于,计算鉴别器损失的公式为:
其中,D表示鉴别器,表示i样本j维度的掩码变量,/>表示鉴别器生成的i样本j维度的掩码变量,N表示样本数,d表示样本维度个数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310654968.5A CN116913445B (zh) | 2023-06-05 | 2023-06-05 | 一种基于表格学习的医疗缺失数据插补方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310654968.5A CN116913445B (zh) | 2023-06-05 | 2023-06-05 | 一种基于表格学习的医疗缺失数据插补方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116913445A true CN116913445A (zh) | 2023-10-20 |
CN116913445B CN116913445B (zh) | 2024-05-07 |
Family
ID=88361713
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310654968.5A Active CN116913445B (zh) | 2023-06-05 | 2023-06-05 | 一种基于表格学习的医疗缺失数据插补方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116913445B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210034977A1 (en) * | 2019-08-02 | 2021-02-04 | Google Llc | Interpretable Tabular Data Learning Using Sequential Sparse Attention |
CN114757335A (zh) * | 2022-04-01 | 2022-07-15 | 重庆邮电大学 | 一种基于双重条件生成对抗网络的缺失数据填补生成方法 |
CN115510174A (zh) * | 2022-09-29 | 2022-12-23 | 重庆邮电大学 | 一种基于路网像素化的Wasserstein生成对抗流量数据插补方法 |
CN115658672A (zh) * | 2022-11-04 | 2023-01-31 | 大连海事大学 | 一种基于改进Transformer和掩蔽训练的KPIs缺失值插补方法 |
-
2023
- 2023-06-05 CN CN202310654968.5A patent/CN116913445B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210034977A1 (en) * | 2019-08-02 | 2021-02-04 | Google Llc | Interpretable Tabular Data Learning Using Sequential Sparse Attention |
CN114757335A (zh) * | 2022-04-01 | 2022-07-15 | 重庆邮电大学 | 一种基于双重条件生成对抗网络的缺失数据填补生成方法 |
CN115510174A (zh) * | 2022-09-29 | 2022-12-23 | 重庆邮电大学 | 一种基于路网像素化的Wasserstein生成对抗流量数据插补方法 |
CN115658672A (zh) * | 2022-11-04 | 2023-01-31 | 大连海事大学 | 一种基于改进Transformer和掩蔽训练的KPIs缺失值插补方法 |
Non-Patent Citations (4)
Title |
---|
SERCAN O¨ . ARIK, TOMAS PFISTER: "TabNet: Attentive Interpretable Tabular Learning", 9 December 2020 (2020-12-09), pages 1908 * |
吴文辉,何家峰,蔡高琰,骆德汉 网: "基于TabNet-LSTNet 的多特征短期负荷预测", 重庆大学学报, 15 March 2023 (2023-03-15), pages 50 * |
邓维斌,王智莹,高荣壕,王国胤,胡峰: "融合注意力与CorNet 的多标签文本分类", 西北大学学报( 自然科学版), vol. 52, no. 5, 31 October 2022 (2022-10-31), pages 824 - 833 * |
陈雁声;: "基于贝叶斯高斯CP分解在医疗数据插补中的应用", 数码世界, no. 06, 1 June 2020 (2020-06-01), pages 283 - 284 * |
Also Published As
Publication number | Publication date |
---|---|
CN116913445B (zh) | 2024-05-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112991354B (zh) | 一种基于深度学习的高分辨率遥感影像语义分割方法 | |
CN109389151B (zh) | 一种基于半监督嵌入表示模型的知识图谱处理方法和装置 | |
CN113159163A (zh) | 一种基于多元时序数据分析的轻量级无监督异常检测方法 | |
CN110048827A (zh) | 一种基于深度学习卷积神经网络的类模板攻击方法 | |
CN113627543B (zh) | 一种对抗攻击检测方法 | |
CN109446414A (zh) | 一种基于神经网络分类的软件信息站点快速标签推荐方法 | |
CN112861976A (zh) | 一种基于孪生图卷积哈希网络的敏感图像识别方法 | |
CN114004333A (zh) | 一种基于多假类生成对抗网络的过采样方法 | |
CN110826056A (zh) | 一种基于注意力卷积自编码器的推荐系统攻击检测方法 | |
CN113723295A (zh) | 一种基于图像域频域双流网络的人脸伪造检测方法 | |
Alvi et al. | Deep learning approach on tabular data to predict early-onset neonatal sepsis | |
CN116363423A (zh) | 面向小样本学习的知识蒸馏方法、装置及存储介质 | |
CN114998615A (zh) | 一种基于深度学习的协同显著性检测方法 | |
CN116913445B (zh) | 一种基于表格学习的医疗缺失数据插补方法 | |
CN112668543B (zh) | 一种手模型感知的孤立词手语识别方法 | |
CN104573726B (zh) | 基于四等分及各成分重构误差最优组合的人脸图像识别方法 | |
CN111768803B (zh) | 基于卷积神经网络和多任务学习的通用音频隐写分析方法 | |
Shao et al. | A novel hybrid transformer-CNN architecture for environmental microorganism classification | |
Zhang et al. | Fault Diagnosis Method of Waterproof Valves in Engineering Mixing Machinery Based on a New Adaptive Feature Extraction Model | |
Zhai et al. | Bearing fault diagnosis based on a novel adaptive ADSD-gcForest model | |
CN116129251A (zh) | 办公桌椅的智能化制造方法及其系统 | |
CN115294424A (zh) | 一种基于生成对抗网络的样本数据增强方法 | |
Lu et al. | Improving the reversible LSB matching scheme based on the likelihood re-encoding strategy | |
CN112154453A (zh) | 用于对输入数据进行聚类的设备和方法 | |
CN111984800B (zh) | 基于字典对学习的哈希跨模态信息检索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |