CN115116616A

CN115116616A - 基于组内组间优化的多重插补的乳腺癌缺失数据插补模型

Info

Publication number: CN115116616A
Application number: CN202210924114.XA
Authority: CN
Inventors: 程可; 苗世迪; 贾浩波
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2022-08-02
Filing date: 2022-08-02
Publication date: 2022-09-27

Abstract

本发明是涉及基于组内组间优化的多重插补的乳腺癌缺失数据插补模型。该插补模型由组内优化插补和组间优化插补组成，将均值插补、随机森林插补、贝叶斯线性回归插补、分类回归树插补和线性回归插补五种方法作为多重插补的基础方法，并结合医学特征的参考阈值进行综合插补。得到组内最优插补数据集，最后以均方根误差作为组间最优插补的评判标准。在插补过程中，加入临床特征阈值判别有利于增强医学数据特征的结构分布，让数据更具真实性。在组内优化中考虑到不同特征间的差异以及特征缺失值的不确定性，组间优化中考虑各插补方法的横向比较，让缺失数据的插补更具稳健性。

Description

基于组内组间优化的多重插补的乳腺癌缺失数据插补模型

技术领域：

本发明涉及数据清洗技术，尤其涉及到一种基于组内组间优化的多重插补的乳腺癌缺失数据插补模型，该模型在数据插补方面有着很好的应用效果。

背景技术：

对于乳腺癌临床数据集的研究可以有效的预测和开发早期干预治疗手段。由于客观或主观因素的限制，经常会出现临床数据的缺失，给后期数据处理以及疾病预测带来不确定性。

数据集获取后，数据预处理的质量能影响后续数据建模的准确度，一个较为完整和接近真实分布的数据集是验证模型好坏的前提。数据预处理得当能使模型充分挖掘数据所隐含的信息。在数据预处理阶段最为重要的就是对数据缺失值的处理。在以往的数据缺失值处理中，采用插补方式对数据的处理是目前最为普遍的，也是尽可能的在不改变数据分布的情况下保留完整数据信息的方法。

对于乳腺癌样本数据的缺失值处理上，传统的插补方法大多基于两类，一类是基于统计学的插补方法，另一类是基于机器学习的插补方法。然而前者是基于数据集本身做出假设，然后利用原数据集对缺失数据进行相应的插补，这类方法没有考虑数据对象本身的类别，插补值往往受其他类别对象的影响，插补结果的准确性较差。后者大多是先对缺失数据集进行分类或聚类，然后进行插补，但在缺失属性较多时容易导致所分类别较多。上述两种类别的插补方法都是单一插补方法，这种方式即没有考虑插补过程中的不确定性和偶然性，也没有考虑到不同特征间的差异性，对插补后数据分布产生的结论偏差也没有进行相应的处理，缺少数据分布矫正。同时也缺乏领域知识对插补结果的约束。

在医学诊断领域医学数据量会逐年增加，且不同疾病数据有着较大的差异，对于特定的缺失数据需要有特定的领域知识介入。数据的缺失增加的临床预测的难度可能会导致结果出现偏差。为解决这一问题，本发明采用一种基于组内组间优化的多重插补的乳腺癌缺失数据插补模型来增强数据的完整性与真实性。

发明内容：

为了解决数据缺失的问题，本发明公开了一种基于内组间优化的多重插补方模型。

为此，本发明提供了如下技术方案：

1.基于组内组间优化的多重插补模型，其特征在于，该方法包括以下步骤：

步骤1：记录原始数据集D中各缺失特征的缺失比例。数据集D中删除含有缺失属性的样本个例，获取完整的数据集合D′。

步骤2：在数据集D′中按步骤1中记录的特征缺失比例对各特征进行等比例设空，生成新数据集D″。

步骤3：对数据集D″利用N(N＝5)种插补方法进行多重估算插补M(M＝10)次，插补过程中将每列特征得到的M(M＝10)个结果按照综合评价指标进行排序，选择综合指标最小的多重插补方式作为特征的最优插补重数，并记录各个特征最优插补重数的序号。遍历插补数据集D″中的各个特征，得到组内最优插补数据集D″′。

步骤4：对N(N＝5)个插补方法得到的组内最优数据集选择综合指标最小的按整体均方根误差进行排序，选择误差最小的作为组间最优插补数据集。

步骤5：遍历数据集D中各缺失特征，按步骤3中记录的各特征的最优插补方式进行组内插补。按步骤4对数据集D进行组间插补，最终得到完整数据集D_c。

步骤6：插补性能的稳定性验证，对单一插补方法和本发明方法进行50次重复实验，得到每组插补方法的50组均方根误差结果。

2.根据权利要求1所述的基于组内组间的多重插补的乳腺癌缺失数据插补模型，其特征在于，所述步骤1中，实验的完整数据集准备，具体步骤为：

步骤1-1遍历数据集D中各特征属性，记录各特征的缺失比例。对含有缺失属性的样本个例进行删除，以获得完整数据集D′。

3.根据权利要求1所述的基于组内组间的多重插补的乳腺癌缺失数据插补模型，其特征在于，所述步骤2中，实验的缺失数据集准备，具体步骤为：

步骤2-1按步骤1-1记录的各特征缺失比例对完整数据集D′进行设空，以完成缺失数据集的准备。

4.根据权利要求1所述的基于组内组间的多重插补的乳腺癌缺失数据插补模型，其特征在于，所述步骤3中，缺失数据集的组内插补，具体步骤为：

步骤3-1将均值插补、随机森林插补、贝叶斯线性回归插补、分类回归树插补和线性回归插补五种方法作为多重插补的基础方法。插补过程中将每列特征得到的十个结果按照综合评价指标进行排序。

步骤3-2对插补的每个临床特征进行阈值判别，计算出其阈值外的插补值个数。计算过程如下：

其中QL_k为第k个特征的下四分位数，QU_k为第k个特征的上四分位数，IQR_k＝QU_k-QL_k，k＝1,2,3,…,K；j＝1,2,3,…,M；K为数据集特征个数，M为插补重数；

步骤3-3对阈值的左侧范围进行调整，小于0的阈值范围缩小到0；

步骤3-4计算阈值判别分数，计算公式如下：

其中x_kj为第j重插补的第k个特征的阈值外插补值个数，k＝1,2,3,…,K；j＝1,2,3,…,M；K为数据集特征个数，M为插补重数；

步骤3-5对每列特征进行归一化均方根误差计算，计算公式如下：

X_true,kj为第j重插补的第k个原完整特征属性集合，X_imp,kj为第j重插补的第k个插补后的完整特征属性集合；

步骤3-6整合组内插补的评价指标，形成综合评价指标，计算公式如下：

其中y_kj是阈值判别分数，NRMSE_kj是特征插补的误差衡量指标，

为综合评价指标；

步骤3-7选择综合评价指标最小的多重插补方式作为组内特征的最优插补重数，并记录各个特征最优插补重数的序号；

步骤3-8遍历插补数据集D″中的各个特征，得到组内最优插补数据集D″′。

5.根据权利要求1所述的基于组内组间的多重插补的乳腺癌缺失数据插补模型，其特征在于，所述步骤4中，缺失数据集的组间插补，具体步骤为：

步骤4-1对五种插补方法得到的组内最优数据集选择综合指标最小的按整体均方根误差进行排序，整体均方根误差计算公式如下：

其中X_true,i为第i个缺失属性的真实值，X_imp,i为第i个缺失属性的插补值，n为缺失属性个数。

6.根据权利要求1所述的基于组内组间的多重插补的乳腺癌缺失数据插补模型，其特征在于，所述步骤5中，对原始数据集进行插补，完成插补目标，具体步骤为：

步骤5-1遍历数据集D中各缺失特征，按步骤3-1、3-2、3-3、3-4、3-5、3-6、3-7、3-8中记录的各特征的最优插补方式进行组内插补。按步骤4-1对数据集D进行组间插补，最终得到完整数据集D_c。

7.根据权利要求1所述的基于组内组间的多重插补的乳腺癌缺失数据插补模型，其特征在于，所述步骤6中，插补性能的稳定性验证，具体步骤为：

步骤6-1等比例随机设空对单一插补方法和本发明方法进行50次重复实验，得到每组插补方法的50组均方根误差结果。

有益效果：

1.本发明是一种基于组内组间的多重插补的乳腺癌缺失数据插补模型，作为乳腺癌数据方面的一种新的插补模型，可以利用领域知识对乳腺癌数据集的约束性插补，插补过程和评估过程交替进行，使得插补过程被有效的监督，更有效的解决了乳腺癌医学临床数据的缺失问题。

2.本发明可以作为一种通用的插补框架，选择不同的插补基础方法可以使得本插补模型在不同领域数据集上得到更好的插补效果。

附图说明：

图1为本发明基于组内组间的多重插补的乳腺癌缺失数据插补模型的执行流程图。

图2为原数据集D的缺失数据集分布图。

图3为等比例下六种插补方法的均方根误差的箱线图。

具体实施方式：

为了使本发明的目的、技术方案及优点更加的清楚明白，以下结合附图及实施样例，对本发进一步详细说明。应当理解，此处所描述的具体实施样例仅仅用以解释本发明，并不限定本发明。

以某医院五年来关于乳腺癌患者的临床结构化数据集为例，建立基于组内组间的多重插补的乳腺癌缺失数据插补模型。

本发明实施样例基于组内组间的多重插补的乳腺癌缺失数据插补模型的流程图，如图1所示，包括以下步骤：

步骤1-1遍历数据集D中各特征属性，记录各特征的缺失比例如图2。对含有缺失属性的样本个例进行删除，以获得完整数据集D′。

步骤3：对数据集D″利用N(N＝5)种插补方法进行多重估算插补M(M＝10)次，插补过程中将每列特征得到的M(M＝10)个结果按照综合评价指标进行排序，选择综合指标最小的多重插补方式作为特征的最优插补方式，并记录各个特征最优插补方式的序号。遍历插补数据集D″中的各个特征，得到组内最优插补数据集D″′。

步骤3-4计算阈值判别分数，计算公式如下：

其中y_ki是阈值判别分数，NRMSE_kj是特征插补的误差衡量指标，

为综合评价指标；

步骤3-7选择综合评价指标最小的多重插补方式作为特征的最优插补重数，并记录各个特征最优插补重数的序号；

步骤6-1等比例随机设空对单一插补方法和本发明方法进行50次重复实验，得到每组插补方法的50组均方根误差结果，如图3。

以上所述是结合附图对本发明的实施例进行的详细介绍，需要指出的是，本文的具体实施方式只是用于帮助理解本发明的方法，对于本技术领域的普通技术人员在依据本发明的前提下，可以做出若干变化和修改，上述变化和修改的技术方案，皆应在由权利要求书所确定的保护范围内。