CN116913445A

CN116913445A - 一种基于表格学习的医疗缺失数据插补方法

Info

Publication number: CN116913445A
Application number: CN202310654968.5A
Authority: CN
Inventors: 胡峰; 周西川; 于洪; 苏祖强; 刘运胜; 代劲; 刘净枫
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2023-06-05
Filing date: 2023-06-05
Publication date: 2023-10-20
Anticipated expiration: 2043-06-05
Also published as: CN116913445B

Abstract

本发明属于医疗数据处理技术领域，具体涉及一种基于表格学习的医疗缺失数据插补方法；该方法包括：获取待插补的医疗缺失数据并对其进行预处理，得到预处理好的医疗缺失数据；对预处理好的医疗缺失数据分别进行预插补和转换操作，得到初步完整医疗数据和缺失掩码矩阵；采用改进的生成器对初步完整医疗数据和缺失掩码矩阵进行处理，得到修正后的完整医疗数据；将缺失掩码矩阵输入到提示生成器中，得到提示矩阵；采用改进的鉴别器对修正医疗数据和提示矩阵进行处理，得到估计掩码矩阵；计算模型损失并根据模型损失调整模型参数，得到训练好的医疗缺失数据插补模型；本发明插补精度高，插补速度快。

Description

一种基于表格学习的医疗缺失数据插补方法

技术领域

本发明属于医疗数据处理技术领域，具体涉及一种基于表格学习的医疗缺失数据插补方法。

背景技术

近年来随着计算机技术的兴起，各行各业都取得了飞速的发展，尤其是医疗领域。但是在医疗领域中，要分析数据必然会遇到缺失数据的问题。这个问题是不可避免的，并且在医学或者社会研究中无处不在。缺失数据往往会使得数据分析和数据挖掘复杂化并且影响随机试验和观察性研究。因此处理缺失数据已经成为了领域数据分析的重要环节。

在现有的研究中，缺失值可以分为三类：完全随机缺失、随机缺失和非随机缺失。在完全随机缺失中，缺失值不与任何变量有关，换言之就是不与其他缺失值和现有的不缺失值相关，缺失值的出现完全是随机事件。这样的数据可以看成是完整数据的随机样本。随机缺失意味着缺失值不是完全随机的，它仅仅依赖于现有的不缺失值。最后在非随机缺失中，数据的缺失不是随机的，它依赖于其他的缺失值和现有的不缺失值，并且无法通过已有的数据来掌握数据的情况。

本发明中的模型和数据是针对完全随机缺失情况而言，在现有的研究中，很少有表格学习结合缺失值插补方法的研究。并且由于表格数据的特殊性，深度学习在表格数据上容易造成过拟合效果，但是深度学习和表示学习近年也展现出强大的优势。

发明内容

针对现有技术存在的不足，本发明提出了一种基于表格学习的医疗缺失数据插补方法，该方法包括：获取待插补的医疗缺失数据并对其进行预处理，将预处理好的医疗缺失数据输入到训练好的医疗缺失数据插补模型中，得到完整医疗数据；

医疗缺失数据插补模型的训练过程包括：

S1：获取待插补的医疗缺失数据并对其进行预处理，得到预处理好的医疗缺失数据；

S2：对预处理好的医疗缺失数据分别进行预插补和转换操作，得到初步完整医疗数据和缺失掩码矩阵；

S3：采用改进的生成器对初步完整医疗数据和缺失掩码矩阵进行处理，得到修正后的完整医疗数据；

S4：将缺失掩码矩阵输入到提示生成器中，得到提示矩阵；

S5：采用改进的鉴别器对修正医疗数据和提示矩阵进行处理，得到估计掩码矩阵；

S6：根据缺失掩码矩阵和估计掩码矩阵计算鉴别器损失，根据生成器和鉴别器损失调整模型参数，得到训练好的医疗缺失数据插补模型。

优选的，采用改进的生成器对初步完整医疗数据和缺失掩码矩阵进行处理的过程包括：连接初步完整医疗数据和缺失掩码矩阵，得到连接向量；分别采用深层网络和浅层网络对连接向量进行处理，得到深层修正数据和浅层修正数据；融合深层修正数据和浅层修正数据，得到修正医疗数据。

进一步的，所述深层网络由多个基础块构成，两个基础块之间采用门控残差连接；每个基础块由特征选择层、注意力层和线性层组成。

进一步的，特征选择层对数据的处理过程包括：采用第一线性层和tanh激活函数对输入数据进行处理，得到第一输出；采用第二线性层和sparsemax激活函数对第一输出进行处理，得到稀疏概率；将稀疏概率和输入数据相乘得到特征选择层输出。

进一步的，融合深层修正数据和浅层修正数据的过程包括：计算深层修正数据与待插补医疗缺失数据不缺失部分的深层MSE损失，计算浅层修正数据与待插补医疗缺失数据不缺失部分的浅层MSE损失；计算深层修正数据的相似度和浅层修正数据的相似度；将深层MSE损失、浅层MSE损失、深层修正数据的相似度和浅层修正数据的相似度输入到线性层和sparsemax激活函数中进行处理，得到深层权重和浅层权重；根据深层权重和浅层权重对深层修正数据和浅层修正数据进行加权求和，得到修正医疗数据。

优选的，改进的鉴别器和改进的生成器结构相同。

优选的，计算生成器损失的公式为：

其中，N表示样本数，G表示生成器，表示i样本j维度的掩码变量，/>表示鉴别器生成的i样本j维度的掩码变量，/>表示第一权重参数，/>表示生成器输入的i样本j维度数据，/>表示深层网络输出的i样本j维度数据，β表示第二权重参数，/>表示浅层网络输出的i样本j维度数据，γ表示第三权重参数，/>表示融合层输出的i样本j维度数据，d表示样本维度个数。

优选的，计算鉴别器损失的公式为：

其中，D表示鉴别器，表示i样本j维度的掩码变量，/>表示鉴别器生成的i样本j维度的掩码变量，N表示样本数，d表示样本维度个数。

本发明的有益效果为：本发明通过采用改进的生成器和鉴别器对待插补的医疗缺失数据进行处理，在融合深层网络数据和浅层网络数据过程中，考虑了不同通道的多样性和准确性，可以根据数据本身动态融合出不同的结果，从而得到更好的修正数据；本发明将对抗插补网络与表格数据的深度学习以及表示学习的模型结合，可以提高缺失数据插补精度，实现高效率插补。

附图说明

图1为本发明中基于表格学习的医疗缺失数据插补方法流程框图；

图2为本发明中特征选择结构示意图；

图3为本发明中不同通道融合示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提出了一种基于表格学习的医疗缺失数据插补方法，如图1所示，所述方法包括以下内容：获取待插补的医疗缺失数据并对其进行预处理，将预处理好的医疗缺失数据输入到训练好的医疗缺失数据插补模型中，得到完整医疗数据。

医疗缺失数据插补模型的训练过程包括：

S1：获取待插补的医疗缺失数据并对其进行预处理，得到预处理好的医疗缺失数据。

优选的，可从医院获取患者的高原反应数据集作为待插补的医疗缺失数据，该数据包括10年左右的数据，其中每一年进行体检的项目可能存在区别，并且每一年的体检的人也是基本不同的，同时每一年的样本还有特征缺失的情况，数据比较复杂。该数据包括常见的人口统计信息，比如说出生年月、身高、体重等信息，还包括检查信息，比如说血糖、血压、血氧饱和度等，还有各种的问卷信息，比如说有无口唇发紫、有无记忆力减退、有无头痛头晕等信息。

对待插补的医疗缺失数据进行预处理，具体的：针对数据的特征情况，参考青海CMS记分系统，选择容易得到的自测信息作为特征，不容易得到的HGB(血红蛋白)含量作为标签，且过滤了不包含标签的年份数据和缺失率超过50％的样本数据，最终得到可用数据如表1所示。

表1数据集情况

由于该数据集是半结构化数据，有很多文字类别信息。比如说民族、高原地点、单位等。同时还有很多时间信息，比如说出生年月、初次到高原时间等信息。最为重要的一点是表头比较复杂，因为表头中是融合了多个调查的结果，但是把有的调查项目所属的小类，大类都包含了进去。因此如果要输入到机器学习或者深度学习等模型中，就必须要对数据进行进一步预处理；具体的：

对表头进行处理，把表头处理成一行才能输入到计算机中。具体处理方式是把所属的类的信息加上“_”再加上检查的项目。这么做可以最大程度的保留检查项目所属的类别信息，以确保信息的不丢失。对于文字类别的信息采用one_hot编码的形式进行编码，因为有的类别信息的值是有程度大小关系的，比如说无、轻、中、重是用0、1、2、3来表示，所以对于此类数据不进行处理。最后对于时间信息，采取与当前时间进行差值计算，以与当前时间的差值表示数据的时间。

S2：对预处理好的医疗缺失数据分别进行预插补和转换操作，得到初步完整医疗数据和缺失掩码矩阵。

本发明是在现有的插补方法的基础上完成，现有的Gain对抗神经网络进行缺失数据插补的方法中，对于缺失数据的初始化采用了随机数的补齐。在神经网络的参数初始化，又或者数据增强等方法中都证明了初始化对于最后结果的影响，因此本发明认为缺失数据的初始化也能一定程度影响到数据插补的性能。为使得初始的完整数据更好，本发明使用knn插补方法对预处理好的医疗缺失数据进行预插补，得到初步完整医疗数据。

同时，对预处理好的医疗缺失数据进行转换操作，得到缺失掩码矩阵(Maskmatrix)。其中每个样本中，缺失特征表示为1，不缺失特征表示为0。形成01掩码矩阵。

S3：采用改进的生成器对初步完整医疗数据和缺失掩码矩阵进行处理，得到修正医疗数据；计算生成器损失。

改进的生成器由深层网络和浅层网络构成；特征选择层，注意力层和线性层组成的基础块堆叠组成深层网络，且深层网络采用残差网络防止过拟合的产生；浅层网络为单层线性层；此外，本发明采用新颖方法对两个通道进行融合操作，进而生成完整数据。

改进的生成器对初步完整医疗数据和缺失掩码矩阵进行处理的过程包括：连接初步完整医疗数据和缺失掩码矩阵为一个连接向量；将连接向量分别输入到深层网络和浅层网络；深层网络对连接向量的处理过程包括：输入数据在特征选择层进行特征的软概率选择，然后输入到注意力层和线性层对软概率选择之后的特征进行表示，然后将基础块的输入向量和表示后的向量进行门控残差操作后输入到下一个基础块中，依此往下最终得到深层修正数据。

连接向量输入到浅层网络中得到浅层修正数据；采用融合层对深层修正数据和浅层修正数据进行融合，得到修正医疗数据。

如图2所示，特征选择层对数据的处理过程包括：将数据输入到线性层和tanh激活函数中进行处理，得到第一输出；再将第一输出输入到线性层和sparsemax激活函数中进行处理，得到稀疏概率，将稀疏概率和输入数据相乘得到特征选择层输出。其中。sparsemax函数可以生成比softmax更稀疏的权重。sparsemax激活函数表示为：

如图3所示，融合深层修正数据和浅层修正数据的过程包括：计算深层修正数据与待插补医疗缺失数据不缺失部分的深层MSE损失(均方误差损失)，计算浅层修正数据与待插补医疗缺失数据不缺失部分的浅层MSE损失；计算深层修正数据的相似度和浅层修正数据的相似度；将深层MSE损失、浅层MSE损失、深层修正数据的相似度和浅层修正数据的相似度输入到线性层和sparsemax激活函数中进行处理，得到深层权重和浅层权重；根据深层权重和浅层权重对深层修正数据和浅层修正数据进行加权求和，得到修正医疗数据。其中，深层修正数据的相似度包括第一相似度和第二相似度；第一相似度为深层修正数据与深层修正数据的余弦相似度，第二相似度为深层修正数据与浅层修正数据的余弦相似度；浅层修正数据的相似度的计算过程与深层修正数据的相似度计算过程类似。

传统的残差是x_l+1＝x_l+F(x_l)，因为残差网络可能比较好的避免梯度消失问题，从而可以让网络加深并且泛化性能提高。但是传统的残差连接只是简单的输入加上前一层的输出，本发明为了让深度网络进行优化调节使用门控残差，具体的，在输入数据和前一层输出间添加权重，表示为：

x_l+1＝αx_l+(1-α)*F(x_l)其中，α＝sigmoid(Wx_l+b)

其中，x_l+1表示下一层网络的输入，α表示生成的权重，x_l表示当前基础块的输入，F(x_l)表示当前基础块的输出，W，b表示线性层的权重。

由于该医疗数据集是表格数据，因此传统的cnn或者rnn网络可能并不太适用，因此本发明采用深层网络和浅层网络结合，并且融合机制考虑了不同通道的多样性和准确性，可以更好的融合。其中深层网络采用的基础块包含特征选择和注意力加线性层的表示层，即融入了表示能力强的注意力机制，也融入了表格数据的常规处理方法。残差网络也进行了一定修改。该网络可以防止过拟合问题，同时保留了深层网络的拟合优势和浅层网络的修正能力。并且数据融合过程中的权重由数据自身决定，可以根据数据本身动态融合出不同的结果，从而得到更好的修正数据。

计算生成器损失的公式为：

其中，N表示样本数，G表示生成器，表示i样本j维度的掩码变量，/>表示鉴别器生成的i样本j维度的掩码变量，/>表示第一权重参数，/>表示生成器输入的i样本j维度数据，/>表示深层网络输出的i样本j维度数据，β表示第二权重参数，/>表示浅层网络输出的i样本j维度数据，γ表示权重参数，/>表示融合层输出的i样本j维度数据，d表示样本维度个数。

S4：将缺失掩码矩阵输入到提示生成器中，得到提示矩阵。

将缺失掩码矩阵输入到提示生成器(Hint Generator)中进行处理，输出提示矩阵(Hint matrix)。流程如下：

定义：B＝(B₁,...,B_d)∈{0,1}_d，其中d为一个样本的维度。B中的具体值为随机均匀选取1到d中的一个数字，设置：

H＝B⊙M+0.5(1-B)得出Hint matrix。

S5：采用改进的鉴别器对修正医疗数据和提示矩阵进行处理，得到估计掩码矩阵(Estimated mask matrix)。

本发明设计的改进的鉴别器和改进的生成器结构相同，改进的鉴别器对修正医疗数据和提示矩阵进行处理的过程和生成器一样。

S6：根据缺失掩码矩阵和估计掩码矩阵计算鉴别器损失，根据生成器损失和鉴别器损失调整模型参数，得到训练好的医疗缺失数据插补模型。

计算鉴别器损失的公式为：

其中，D表示鉴别器，表示i样本j维度的掩码变量，/>表示鉴别器生成的i样本j维度的掩码变量，N表示样本数，d表示维度个数。

根据生成器损失和鉴别器损失调整模型参数，可得到训练好的医疗缺失数据插补模型。生成器与鉴别器对抗训练完成后，取修正医疗数据中与待插补的医疗缺失数据缺失部分对应的数据补充进然待插补的医疗缺失数据中，可得到插补好的完整医疗数据。

获取待插补的医疗缺失数据并对其进行预处理，将预处理好的医疗缺失数据输入到训练好的医疗缺失数据插补模型中，可得到插补好的完整医疗数据。

以上所举实施例，对本发明的目的、技术方案和优点进行了进一步的详细说明，所应理解的是，以上所举实施例仅为本发明的优选实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于表格学习的医疗缺失数据插补方法，其特征在于，包括：获取待插补的医疗缺失数据并对其进行预处理，将预处理好的医疗缺失数据输入到训练好的医疗缺失数据插补模型中，得到完整医疗数据；

医疗缺失数据插补模型的训练过程包括：

S3：采用改进的生成器对初步完整医疗数据和缺失掩码矩阵进行处理，得到修正医疗数据；计算生成器损失；

S4：将缺失掩码矩阵输入到提示生成器中，得到提示矩阵；

2.根据权利要求1所述的一种基于表格学习的医疗缺失数据插补方法，其特征在于，采用改进的生成器对初步完整医疗数据和缺失掩码矩阵进行处理的过程包括：连接初步完整医疗数据和缺失掩码矩阵，得到连接向量；分别采用深层网络和浅层网络对连接向量进行处理，得到深层修正数据和浅层修正数据；融合深层修正数据和浅层修正数据，得到修正医疗数据。

3.根据权利要求2所述的一种基于表格学习的医疗缺失数据插补方法，其特征在于，所述深层网络由多个基础块构成，两个基础块之间采用门控残差连接；每个基础块由特征选择层、注意力层和线性层组成。

4.根据权利要求3所述的一种基于表格学习的医疗缺失数据插补方法，其特征在于，特征选择层对数据的处理过程包括：采用第一线性层和tanh激活函数对输入数据进行处理，得到第一输出；采用第二线性层和sparsemax激活函数对第一输出进行处理，得到稀疏概率；将稀疏概率和输入数据相乘得到特征选择层输出。

5.根据权利要求2所述的一种基于表格学习的医疗缺失数据插补方法，其特征在于，融合深层修正数据和浅层修正数据的过程包括：计算深层修正数据与待插补医疗缺失数据不缺失部分的深层MSE损失，计算浅层修正数据与待插补医疗缺失数据不缺失部分的浅层MSE损失；计算深层修正数据的相似度和浅层修正数据的相似度；将深层MSE损失、浅层MSE损失、深层修正数据的相似度和浅层修正数据的相似度输入到线性层和sparsemax激活函数中进行处理，得到深层权重和浅层权重；根据深层权重和浅层权重对深层修正数据和浅层修正数据进行加权求和，得到修正医疗数据。

6.根据权利要求1所述的一种基于表格学习的医疗缺失数据插补方法，其特征在于，改进的鉴别器和改进的生成器结构相同。

7.根据权利要求1所述的一种基于表格学习的医疗缺失数据插补方法，其特征在于，计算生成器损失的公式为：

8.根据权利要求1所述的一种基于表格学习的医疗缺失数据插补方法，其特征在于，计算鉴别器损失的公式为：