CN114356911A

CN114356911A - 基于集合划分信息量最大化的数据缺失处理方法及系统

Info

Publication number: CN114356911A
Application number: CN202210267142.9A
Authority: CN
Inventors: 吴行伟; 童荣生; 常欢; 吴竞鲜; 温亚林
Original assignee: Sichuan Peoples Hospital of Sichuan Academy of Medical Sciences
Current assignee: Sichuan Peoples Hospital of Sichuan Academy of Medical Sciences
Priority date: 2022-03-18
Filing date: 2022-03-18
Publication date: 2022-04-15
Anticipated expiration: 2042-03-18
Also published as: CN114356911B

Abstract

本发明涉及医疗数据处理技术领域，尤其涉及一种基于集合划分信息量最大化的数据缺失处理方法及系统，所述的系统包括数据获取单元、数据处理单元、特征删除单元、最优子集输出单元。本发明通过信息量的判断，得到了一种快速找到缺失数据的最优子集的方法，大大减少了计算量，提高了医疗数据分析中数据处理的效率。采用本发明的方法为医药领域的缺失数据提供了一种新思路，避免了传统删除法和填充法带来的计算量大和掩盖真实数据规律的问题。

Description

基于集合划分信息量最大化的数据缺失处理方法及系统

技术领域

本发明涉及医疗数据处理技术领域，尤其涉及一种基于集合划分信息量最大化的数据缺失处理方法及系统。

背景技术

数据缺失问题在真实世界研究中通常难以避免，不仅结局变量可能缺失，协变量也可能存在缺失。数据的缺失可能存在多种原因，如：1、患者拒绝回答具体问题，例如患者没有报告收入数据等敏感信息；2、患者失访，例如患者迁移、死亡、退出研究等；3、医生没有为某些患者安排某些检查例如，没有为某些患者安排胆固醇检查；4、调查员或机械故障，例如调查员由于主观原因忘记录入数据、血压计出现故障等。

数据的缺失会给统计分析带来一系列的影响，如：1、未收集到完整可靠的数据，使有效数据量减少，统计分析的精确度降低、标准误差增大；2、部分基于完整数据的假设推断不能使用，影响统计分析方法的选择；3、数据缺失使样本与总体之间存在偏差，影响最终的统计决策。

因此对于存在缺失数据的真实世界研究数据，需要采用恰当的方法进行处理，尽量降低其对统计分析的不利影响。目前常用的处理缺失数据的方法主要包括：1、删除含有缺失数据的个案，得到完整的数据组；2、数据填充：可分为单值填充，即采用均值、中位数、众数或某些特殊值如“unknown”进行填充；多值填充，即为每一个空值插补一系列可能的值，产生若干个完整数据集合，采用针对完整数据集的统计方法进行统计分析，并根据评分函数对来自各个插补数据集的分析结果进行选择，选择最优的插补值作为最终的插补结果。

但是，在真实世界研究中，我们发现上述方法存在以下问题：1、真实世界的数据，缺失值分布往往是不平衡的，比如某些检查价格昂贵，则易缺失该项数据，采用简单删除法不仅会导致信息的丢失，而且没有依据数据缺失分布情况进行删失，处理后的数据集对原始数据集代表性差；2、通过预测或使用均值等填充缺失值，由于变量之间存在一定程度的相关性，极易导致多重共线性，增加参数估计的方差，影响置信区间和假设检验。3、由已知变量预测填充缺失值，易导致过拟合，导致算法的有效性被高估，对未知的数据的预测能力降低；4、真实世界数据量大，填充不是必须的稀疏变量会导致资源和时间的浪费，且填充之后常会引入偏差，掩盖原始数据的实际规律。

因此，在医药数据处理领域中，为了对缺失数据进行后续处理，设计一种计算快速并与原始缺失数据信息量最接近的最优子集的方法，成为本领域技术人员亟待解决的技术问题。

发明内容

本发明的目的在于提供一种基于集合划分信息量最大化的数据缺失处理方法及系统来克服现有技术存在的计算量大和掩盖原始数据规律的问题。

为实现上述目的，本发明所采用的技术方案是：

一种基于集合划分信息量最大化的数据缺失处理方法，获取患者数据，该患者数据包含N个患者的样本，每个患者包含F个特征，获取的数据中存在缺失值，将获取的N个患者的F个特征数据以矩阵S的形式进行保存，

将矩阵S进行转换，得到矩阵T，将矩阵S转换为矩阵T的映射关系为：若S_i,j存在采集的数据，将定义T_i,j=C，C为常数，若S_i,j不存在采集的数据，将定义T_i,j=a_i/F×C,其中a_i为第i个样本数据中非缺失数据的数量，计算矩阵T的每一列之和得到Sum₁,Sum₂，…,Sum_F，

其中i=1,…,N，

j=1,…,F，

并且i、j、N和F均为正整数，

根据矩阵T每列之和从小到大在矩阵T的列序号对矩阵S的该列序号下的特征数据进行删除，得到F+1种特征的特征删除方式，并且对应的特征删除数量依次为0,1,2，…，F,得到矩阵S剩余的患者特征数量Num_1,n依次为F，F-1,…，1,0，

其中n=1,…,F+1,

对每种特征删除方式获取得到剩余特征不存在缺失值的样本数量Num_2,n，根据特征删除方式的特征数量和该特征删除方式下对应的不存在缺失数据的样本数量计算信息量,选择最大信息量对应的特征删除方式及该删除方式下的无缺失数据的样本数据，构成原始数据的最优子集。

优选地，所述的计算信息量的方式为：信息量I_n=Num_1,n×Num_2,n，n=1,…,F+1,且n为正整数。

优选地，患者数据的特征类型包含患者的基本信息数据、生命特征数据、合并疾病数据、用药信息数据及生理生化指标数据。

优选地，根据矩阵T每列之和从小到大在矩阵T的列序号对矩阵S的该列序号下的特征数据进行删除时，若存在多列和相同的情况，则按照系统保存的特征序号，对列和相同特征依次删除。

优选地，根据矩阵T每列之和从小到大在矩阵T的列序号对矩阵S的该列序号下的特征数据进行删除时，若存在多列和相同的情况，则系统采用随机的方式对列和相同的特征依次删除。

优选地，设置所述常数C=100。

一种基于集合划分信息量最大化的数据缺失处理系统，包括数据获取单元、数据处理单元、特征删除单元、最优子集输出单元；

所述数据获取单元用于获取患者数据，该患者数据包含N个患者的样本，每个患者包含F个特征，获取的数据中存在缺失值，将获取的N个患者的F个特征数据以矩阵S的形式进行保存；

所述数据处理单元用于将矩阵S进行转换，得到矩阵T，将矩阵S转换为矩阵T的映射关系为：若S_i,j存在采集的数据，将定义T_i,j= C，C为常数，若S_i,j不存在采集的数据，将定义T_i,j=a_i/F×C,其中a_i为第i个样本数据中非缺失数据的数量，计算矩阵T的每一列之和Sum₁,Sum₂，…,Sum_F, 其中i=1,…,N，j=1,…,F，并且i、j、N和F均为正整数；

所述特征删除单元用于根据矩阵T每列之和从小到大在矩阵T的列序号对矩阵S的该列序号下的特征数据进行删除，得到F+1种特征的特征删除方式，对应的特征删除数量依次为0,1,2，…，F,得到矩阵S剩余的患者特征数量Num_1,n依次为F，F-1,…，1,0，对每种特征删除方式获取得到剩余特征不存在缺失值的样本数量Num_2,n, 其中n=1,…,F+1,且n为正整数；

最优子集输出单元，用于根据特征删除方式的特征数量和该特征删除方式下对应的不存在缺失数据的样本数量计算信息量, 选择最大信息量对应的特征删除方式及该删除方式下的无缺失数据的样本数据，构成原始数据的最优子集。

优选地，所述的计算信息量的方式为：信息量I_n=Num_1,n×Num_2,n，n=1,…,F+1,且i,j，n均为正整数。

优选地，设置所述常数C=100。

与现有技术相比，本发明的有益效果：

1、与传统的数据缺失处理中的特征删除方法相比，本方法获取的最优子集的信息量更大；

2、与传统的数据缺失处理中的缺失样本删除方法相比，本方法获取的数据样本更多；

3、与传统的数据缺失处理中的填充方法相比，本方法获取的最优子集更能符合数据的实际规律；

4、本方法通过信息量的定义，与传统的特征选择方法相比，将特征集合的划分从2^F-1减少到了F+1,其中F为原始数据的特征数，计算量大大地降低，获取有效数据的效率大大提高，并能够广泛应用于存在缺失数据的大数据处理中；

5、与现有的处理缺失数据的方法相比，通过本方法处理具有缺失数据的数据集，所得到的最优子集是原真实世界数据集的子集，并未填充其他值，避免了由于填充数据带来的多重共线性和填充错误引起的数据误差；

6、本方法获取的最优子集用于后期的医药数据分析，能够获得不错的性能，并在实践中得到了验证。

附图说明

图1为一种基于集合划分信息量最大化的数据缺失处理方法的流程示意图；

图2为实施例2中的示例数据使用本方法的变化流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图，对本发明实施例中的技术方案进行清楚、完整的描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。

因此，以下对本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的部分实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征和技术方案可以相互组合。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

实施例1

其中i=1,…,N，

j=1,…,F，

并且i、j、N和F均为正整数，

其中n=1,…,F+1,

优选地，根据矩阵T每列之和从小到大在矩阵T的列序号对矩阵S的该列序号下的特征数据进行删除时，若存在多列和相同的情况，则系统采用随机的方式对列和相同的特征依次删除。优选地，设置所述常数C=100。

本方法为缺失值处理提供了一种新的思路，避免了传统删除法和填充法带来的一系列问题，并很大程度解决了真实世界研究中不可避免会遇到的数据缺失问题，且得到的结果是最优的。

实施例2

对于一个有缺失的数据集，其中样本数=N，特征数=F，可以采用不同的删除缺失数据的方法，得到包含不同数据量的具有完整数据的子集，从中选择包含数据量最多的子集作为最优子集进行后续的数据分析。以表1为例，V代表观测值，空白即为缺失值，

表1 原始数据

如删除第4列，并删除相应具有缺失数据的行，即可得到包含样本2、5、6、8，特征1、2、3的子集；类似地，删除第3列，可得到包含样本2、8，特征1、2、4的子集；删除第3和第4列，即可得到包含样本2、3、5、6、8，特征1、2的子集……但是随着特征数量的增多，删除方式数量也随之增长，在本例中，共有

种删除方式，如表2所示，

表2 原始数据的特征遍历删除方式

特征数量为12时，删除方式有4095种，当特征数量为30时，删除方式将达到上亿次，研究者需要遍历所有删除方式，通过比较才能选出最优子集，工作量无疑是巨大的。采用本发明的技术方案对表1的数据进行缺失处理，对本发明的方法进行解释。对其处理过程如表3-表5，该数据包含8个样本，4个特征，存在14个缺失值。首先对原数据进行转换，获得表3的数据，转换的方法为：计算每个样本观察到的特征数量为a_n ,将数据集中所有的V替换为100，各样本的缺失数据替换为m_n =a_n/F×100，其中F为原数据的特征数,然后对各列的数值求和，由此可得表4；其次，按照求和数从小到大对特征进行删除，然后计算各种删除方式下对应的不存在缺失数据的样本数，并计算信息量，删除方法如表4，表中n子集为删除特征后的样本数，f子集为删除特征后剩余的特征数,上述过程示意图见图2；最后，选择信息量最大的特征删除方式为删除特征X4，在删除特征X4时不存在缺失数据的样本数据包括第2、5、6、8个样本，输出原始数据的最优子集，如表5所示，

表3 原始数据转换后的中间数据

表4 本方法的特征删除方式

表5 最优数据子集

对于上述结果，我们用遍历的方法进行如下验证，该数据存在15种特征删除方式，如表2的第2列，在各种不同的特征删除方式下，计算保留的特征数、无缺失的样本数及信息量，由表可知，最大的信息量为12，其对应的删除方式为：删除特征X4，此时无缺失的样本数为4个，保留的特征数为3个。

因此，通过本发明的方法能够获得与遍历法一样的最优删除方式和最优子集，但本发明的删除方式从遍历法的15种变为了5种，计算量可以大幅降低，对大数据的处理提供了基础。该实施例验证了对存在空数据的样本时，本发明的技术方案有效。

实施例3

以表6的极端数据为例对本发明的方法进行分析，该数据第6个特征的数据均为缺失数据，

表6 实施例3的原始数据

该数据集共有10个样本，6个特征，各列缺失情况不同，假设每个样本观察到的特征数量为a_n ,将数据集中所有的V替换为100，各样本的缺失数据替换为m_n =a_n/F

100，对于样本1，m_n=100/3，以此类推，将数据集中的观测变量和缺失数据都进行相应的替换，并对各列的数值求和，由此可得表7，

表7 实施例3转换后的中间数据

此处，为方便计算，m_n计算时进行四舍五入取整。求得的和即可反应各样本在对特征的数据保留情况，该值越大即意味着该特征下数据保留最多，反之亦然。依照所得和的从小到大的顺序，进行删除，因此，在不同的删除组合中就有唯一最佳组合，如出现两列所求和相等，则认为可从中随机选择一列进行删除。

不同删除情况所保留的数据量即为我们的信息量，用C表示，C=n子集×f子集，其中n子集为特征删除后不存在缺失数据的样本数量，f子集为特征删除后剩余的特征数量，结果如表8所示，

表8 本方法的特征删除方式

从表8中，可以发现，删除X5、X6时，所得到的子集保留的数据量最多，信息量最大，因此，删除X5、X6是最佳的删除方式，所得到的子集是最优子集，即样本2、3、5、6、8、9、10对应的特征X1、X2、X3、X4所对应的数据，该数据可用于后续的数据分析，总体的流程图如图2所示。通过前述实施例类似的遍历法，对本实施例的结果进行验证，验证可知，本发明的最优子集结果和遍历法的最优子集结果相同，但删除方式从63种减小到了7种，计算量大大降低。该实施例验证了对存在某个特征的数据全部缺失的极端数据，本发明的技术方案有效。

实施例4

优选地，设置所述常数C=100。

该实施例的数据处理流程图如图1所示，先进行原始缺失数据的获取，然后进行数据的处理，进而对特征进行删除，最后根据计算的信息量输出原始数据的最优子数据集。

实施例5

随着我国中医药产业的不断发展和相关政策上的支持，中药注射剂在临床上的使用日趋广泛，其不良反应发生率普遍高于其他中药制剂，它的安全性已经引起政府和公众的重视，含三七皂苷类成分的中药注射剂是国家不良反应监测中心发布的2018年不良反应前五名之一的中成药注射剂，主要代表药物为血栓通和血塞通注射剂。

为预防含三七皂苷类成分注射剂，建立前置个体化不良反应预测系统，收集了四川省四家医院于2010年1月1日至2018年12月31日上报到国家药物不良反应监测中心的报告，选择其中使用血塞通、血栓通注射液并且药物关联性评价为可能、很可能、肯定的不良反应数据，同时收集四川省另一家医院2018年9月1月到2019年9月1日使用血塞通、血栓通注射液，同时应用患者异丙嗪、地塞米松、维生素C、葡萄糖酸钙、氯雷他定等抗过敏药之一的患者。根据这五家医院的数据，分析使用血塞通、血栓通注射液的患者中可能出现的影响其ADR发生的相关因素。

将不同医院、格式的数据汇总到同一个信息表中。并以ID号为每一单元组的识别号，将同一患者的信息进行汇总。本研究共搜集了530例患者数据，涉及83个变量，包括：性别、年龄、BMI、民族、家族遗传史、过敏史、吸烟、饮酒史等患者基本信息数据；体温、脉搏、呼吸、血压分级等生命特征信息；查尔森合并症指数、心血管系统、内分泌系统、呼吸系统、神经系统、消化系统肿瘤疾病、骨科疾病、泌尿系统、血液系统、眼疾病、耳鼻喉疾病、皮肤疾病、风湿免疫系统、其他（例如：妇科疾病）等合并疾病数据；溶媒、单次用药浓度、抗感染药物、心脑血管系统药物、消化系统药物、呼吸系统药物、神经系统药物、治疗精神障碍药物、解热镇痛抗炎抗痛风药物、抗变态反应药物、泌尿系统药物、血液和造血系统药物、激素类及影响内分泌药物、抗肿瘤药、维生素、矿物质、复方氨基酸制剂及调节水电解质和酸碱平衡药物、麻醉药及辅助麻醉药、诊断用药、生物制品、妇产科用药、口腔科用药、眼科用药、耳鼻喉科用药、皮肤科用药、中药、中成药等用药信息数据；尿素、肌酐、肾功能分级、葡萄糖、钾、钠、总胆固醇、甘油三酯、高密度脂蛋白、低密度脂蛋白、白蛋白、低蛋白血症、球蛋白、白球比、谷草转氨酶（AST）、谷丙转氨酶（ALT）、肝功能分级、总胆红素、乳酸脱氢酶、肌酸激酶、白细胞计数、中性粒细胞率、淋巴细胞率、单核细胞率、嗜酸性粒细胞率、红细胞、血红蛋白、血小板计数、超敏C反应蛋白、治疗前癌性指标、治疗前凝血全套等生理生化指标数据。

由于各家医院信息收集标准不同、患者失访、医生记录不完整等原因，收集到的数据存在一定程度的缺失，其中共有23个变量存在数据缺失，缺失情况如下表9所示，

表9 数据缺失情况

为了比较各方法的数据缺失处理效果，将缺失数据处理后的完整数据集分别建立机器学习模型，一共建立了1020种机器学习模型，并进行模型预测性能评价，依据评价指标AUC进行从高到低排序，AUC值高，代表采用该缺失值处理方法得到的数据集建立的机器学习模型预测能力好，反之则差。以XGBoost机器学习算法为例，采用四种不同的数据采样方法，采样方法包括borderline SMOTE上采样、SMOTE上采样、不采样、随机上采样，结果显示，在XGBoost模型中，四种不同采样对应的机器学习模型中，AUC性能最优的模型采样的缺失数据处理方法均为本发明所述的缺失数据处理方法，如表10所示，表中，本法为本发明所述的缺失数据处理方法，

表10 XGBoost算法下不同缺失数据处理方法和不同采样方法的性能比较

此外，固定采样方法为borderline SMOTE采样，对四种缺失数据处理方法和四种机器学习模型（SVM、RF、GBDT、KNN）进行组合，得到的性能结果如表11所示的，

表11 borderline SMOTE采样下不同学习算法和不同缺失数据处理方法的性能比较

由表11可知，本发明的数据缺失方法在SVM、RF、GBDT、KNN这四类机器学习模型中的性能均为最优。

与现有的处理缺失数据的方法相比，通过本方法处理具有缺失数据的数据集，所得到的最优子集是原真实世界数据集的子集，并未填充其他值，避免了由于填充数据带来的多重共线性和填充错误引起的数据误差。并且，本算法效率高，在处理大样本、多变量的医学数据集方面具有显著优势。该优势在实践中也得到了验证。

以上实施例仅用以说明本发明而并非限制本发明所描述的技术方案，尽管本说明书参照上述的各个实施例对本发明已进行了详细的说明，但本发明不局限于上述具体实施方式，因此任何对本发明进行修改或等同替换；而一切不脱离发明的精神和范围的技术方案及其改进，其均涵盖在本发明的权利要求范围当中。

Claims

1.基于集合划分信息量最大化的数据缺失处理方法，其特征在于：获取患者数据，该患者数据包含N个患者的样本，每个患者包含F个特征，获取的数据中存在缺失值，将获取的N个患者的F个特征数据以矩阵S的形式进行保存，

其中i=1,…,N，

j=1,…,F，

并且i、j、N和F均为正整数，

其中n=1,…,F+1,

2.如权利要求1所述的基于集合划分信息量最大化的数据缺失处理方法，其特征在于：所述的计算信息量的方式为：信息量I_n=Num_1,n×Num_2,n。

3.如权利要求1所述的基于集合划分信息量最大化的数据缺失处理方法，其特征在于：患者数据的特征类型包含患者的基本信息数据、生命特征数据、合并疾病数据、用药信息数据及生理生化指标数据。

4.如权利要求1所述的基于集合划分信息量最大化的数据缺失处理方法，其特征在于：根据矩阵T每列之和从小到大在矩阵T的列序号对矩阵S的该列序号下的特征数据进行删除时，若存在多列和相同的情况，则按照系统保存的特征序号，对列和相同特征依次删除。

5.如权利要求1所述的基于集合划分信息量最大化的数据缺失处理方法，其特征在于：根据矩阵T每列之和从小到大在矩阵T的列序号对矩阵S的该列序号下的特征数据进行删除时，若存在多列和相同的情况，则系统采用随机的方式对列和相同的特征依次删除。

6.如权利要求1-5任意一项所述的基于集合划分信息量最大化的数据缺失处理方法，其特征在于：所述C=100。

7.一种基于集合划分信息量最大化的数据缺失处理系统，其特征在于：包括数据获取单元、数据处理单元、特征删除单元、最优子集输出单元；

最优子集输出单元，用于根据特征删除方式的特征数量和该特征删除方式下对应的不存在缺失数据的样本数量计算信息量, 选择最大信息量对应的特征删除方式及该删除方式下的无缺失数据的样本数据，构成原始数据的最优子集；

所述的计算信息量的方式为：信息量I_n=Num_1,n×Num_2,n。

8.如权利要求7所述的基于集合划分信息量最大化的数据缺失处理系统，其特征在于：患者数据的特征类型包含患者的基本信息数据、生命特征数据、合并疾病数据、用药信息数据及生理生化指标数据。

9.如权利要求7所述的基于集合划分信息量最大化的数据缺失处理系统，其特征在于：根据矩阵T每列之和从小到大在矩阵T的列序号对矩阵S的该列序号下的特征数据进行删除时，若存在多列和相同的情况，则按照系统保存的特征序号，对列和相同特征依次删除。

10.如权利要求7所述的基于集合划分信息量最大化的数据缺失处理系统，其特征在于：根据矩阵T每列之和从小到大在矩阵T的列序号对矩阵S的该列序号下的特征数据进行删除时，若存在多列和相同的情况，则系统采用随机的方式对列和相同的特征依次删除。

11.如权利要求8所述的基于集合划分信息量最大化的数据缺失处理系统，其特征在于：所述患者的基本信息数据包括：性别、年龄、BMI、民族、家族遗传史、过敏史、吸烟和饮酒史中的至少一项；

所述患者的生命特征数据，包括：体温、脉搏、呼吸和血压分级中的至少一项；

所述患者的合并疾病数据，包括：查尔森合并症指数、心血管系统、内分泌系统、呼吸系统、神经系统、消化系统肿瘤疾病、骨科疾病、泌尿系统、血液系统、眼疾病、耳鼻喉疾病、皮肤疾病和风湿免疫系统中的至少一项；

所述患者的用药信息数据，包括：溶媒、单次用药浓度、抗感染药物、心脑血管系统药物、消化系统药物、呼吸系统药物、神经系统药物、治疗精神障碍药物、解热镇痛抗炎抗痛风药物、抗变态反应药物、泌尿系统药物、血液和造血系统药物、激素类及影响内分泌药物、抗肿瘤药、维生素、矿物质、复方氨基酸制剂及调节水电解质和酸碱平衡药物、麻醉药及辅助麻醉药、诊断用药、生物制品、妇产科用药、口腔科用药、眼科用药、耳鼻喉科用药、皮肤科用药、中药和中成药中的至少一项；

所述患者的生理生化指标数据，包括：尿素、肌酐、肾功能分级、葡萄糖、钾、钠、总胆固醇、甘油三酯、高密度脂蛋白、低密度脂蛋白、白蛋白、低蛋白血症、球蛋白、白球比、谷草转氨酶、谷丙转氨酶、肝功能分级、总胆红素、乳酸脱氢酶、肌酸激酶、白细胞计数、中性粒细胞率、淋巴细胞率、单核细胞率、嗜酸性粒细胞率、红细胞、血红蛋白、血小板计数、超敏C反应蛋白、治疗前癌性指标和治疗前凝血全套中的至少一项。