CN115116616A - 基于组内组间优化的多重插补的乳腺癌缺失数据插补模型 - Google Patents
基于组内组间优化的多重插补的乳腺癌缺失数据插补模型 Download PDFInfo
- Publication number
- CN115116616A CN115116616A CN202210924114.XA CN202210924114A CN115116616A CN 115116616 A CN115116616 A CN 115116616A CN 202210924114 A CN202210924114 A CN 202210924114A CN 115116616 A CN115116616 A CN 115116616A
- Authority
- CN
- China
- Prior art keywords
- interpolation
- data set
- missing
- group
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
Landscapes
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Complex Calculations (AREA)
Abstract
本发明是涉及基于组内组间优化的多重插补的乳腺癌缺失数据插补模型。该插补模型由组内优化插补和组间优化插补组成,将均值插补、随机森林插补、贝叶斯线性回归插补、分类回归树插补和线性回归插补五种方法作为多重插补的基础方法,并结合医学特征的参考阈值进行综合插补。得到组内最优插补数据集,最后以均方根误差作为组间最优插补的评判标准。在插补过程中,加入临床特征阈值判别有利于增强医学数据特征的结构分布,让数据更具真实性。在组内优化中考虑到不同特征间的差异以及特征缺失值的不确定性,组间优化中考虑各插补方法的横向比较,让缺失数据的插补更具稳健性。
Description
技术领域:
本发明涉及数据清洗技术,尤其涉及到一种基于组内组间优化的多重插补的乳腺癌缺失数据插补模型,该模型在数据插补方面有着很好的应用效果。
背景技术:
对于乳腺癌临床数据集的研究可以有效的预测和开发早期干预治疗手段。由于客观或主观因素的限制,经常会出现临床数据的缺失,给后期数据处理以及疾病预测带来不确定性。
数据集获取后,数据预处理的质量能影响后续数据建模的准确度,一个较为完整和接近真实分布的数据集是验证模型好坏的前提。数据预处理得当能使模型充分挖掘数据所隐含的信息。在数据预处理阶段最为重要的就是对数据缺失值的处理。在以往的数据缺失值处理中,采用插补方式对数据的处理是目前最为普遍的,也是尽可能的在不改变数据分布的情况下保留完整数据信息的方法。
对于乳腺癌样本数据的缺失值处理上,传统的插补方法大多基于两类,一类是基于统计学的插补方法,另一类是基于机器学习的插补方法。然而前者是基于数据集本身做出假设,然后利用原数据集对缺失数据进行相应的插补,这类方法没有考虑数据对象本身的类别,插补值往往受其他类别对象的影响,插补结果的准确性较差。后者大多是先对缺失数据集进行分类或聚类,然后进行插补,但在缺失属性较多时容易导致所分类别较多。上述两种类别的插补方法都是单一插补方法,这种方式即没有考虑插补过程中的不确定性和偶然性,也没有考虑到不同特征间的差异性,对插补后数据分布产生的结论偏差也没有进行相应的处理,缺少数据分布矫正。同时也缺乏领域知识对插补结果的约束。
在医学诊断领域医学数据量会逐年增加,且不同疾病数据有着较大的差异,对于特定的缺失数据需要有特定的领域知识介入。数据的缺失增加的临床预测的难度可能会导致结果出现偏差。为解决这一问题,本发明采用一种基于组内组间优化的多重插补的乳腺癌缺失数据插补模型来增强数据的完整性与真实性。
发明内容:
为了解决数据缺失的问题,本发明公开了一种基于内组间优化的多重插补方模型。
为此,本发明提供了如下技术方案:
1.基于组内组间优化的多重插补模型,其特征在于,该方法包括以下步骤:
步骤1:记录原始数据集D中各缺失特征的缺失比例。数据集D中删除含有缺失属性的样本个例,获取完整的数据集合D′。
步骤2:在数据集D′中按步骤1中记录的特征缺失比例对各特征进行等比例设空,生成新数据集D″。
步骤3:对数据集D″利用N(N=5)种插补方法进行多重估算插补M(M=10)次,插补过程中将每列特征得到的M(M=10)个结果按照综合评价指标进行排序,选择综合指标最小的多重插补方式作为特征的最优插补重数,并记录各个特征最优插补重数的序号。遍历插补数据集D″中的各个特征,得到组内最优插补数据集D″′。
步骤4:对N(N=5)个插补方法得到的组内最优数据集选择综合指标最小的按整体均方根误差进行排序,选择误差最小的作为组间最优插补数据集。
步骤5:遍历数据集D中各缺失特征,按步骤3中记录的各特征的最优插补方式进行组内插补。按步骤4对数据集D进行组间插补,最终得到完整数据集Dc。
步骤6:插补性能的稳定性验证,对单一插补方法和本发明方法进行50次重复实验,得到每组插补方法的50组均方根误差结果。
2.根据权利要求1所述的基于组内组间的多重插补的乳腺癌缺失数据插补模型,其特征在于,所述步骤1中,实验的完整数据集准备,具体步骤为:
步骤1-1遍历数据集D中各特征属性,记录各特征的缺失比例。对含有缺失属性的样本个例进行删除,以获得完整数据集D′。
3.根据权利要求1所述的基于组内组间的多重插补的乳腺癌缺失数据插补模型,其特征在于,所述步骤2中,实验的缺失数据集准备,具体步骤为:
步骤2-1按步骤1-1记录的各特征缺失比例对完整数据集D′进行设空,以完成缺失数据集的准备。
4.根据权利要求1所述的基于组内组间的多重插补的乳腺癌缺失数据插补模型,其特征在于,所述步骤3中,缺失数据集的组内插补,具体步骤为:
步骤3-1将均值插补、随机森林插补、贝叶斯线性回归插补、分类回归树插补和线性回归插补五种方法作为多重插补的基础方法。插补过程中将每列特征得到的十个结果按照综合评价指标进行排序。
步骤3-2对插补的每个临床特征进行阈值判别,计算出其阈值外的插补值个数。计算过程如下:
其中QLk为第k个特征的下四分位数,QUk为第k个特征的上四分位数,IQRk=QUk-QLk,k=1,2,3,…,K;j=1,2,3,…,M;K为数据集特征个数,M为插补重数;
步骤3-3对阈值的左侧范围进行调整,小于0的阈值范围缩小到0;
步骤3-4计算阈值判别分数,计算公式如下:
其中xkj为第j重插补的第k个特征的阈值外插补值个数,k=1,2,3,…,K;j=1,2,3,…,M;K为数据集特征个数,M为插补重数;
步骤3-5对每列特征进行归一化均方根误差计算,计算公式如下:
Xtrue,kj为第j重插补的第k个原完整特征属性集合,Ximp,kj为第j重插补的第k个插补后的完整特征属性集合;
步骤3-6整合组内插补的评价指标,形成综合评价指标,计算公式如下:
步骤3-7选择综合评价指标最小的多重插补方式作为组内特征的最优插补重数,并记录各个特征最优插补重数的序号;
步骤3-8遍历插补数据集D″中的各个特征,得到组内最优插补数据集D″′。
5.根据权利要求1所述的基于组内组间的多重插补的乳腺癌缺失数据插补模型,其特征在于,所述步骤4中,缺失数据集的组间插补,具体步骤为:
步骤4-1对五种插补方法得到的组内最优数据集选择综合指标最小的按整体均方根误差进行排序,整体均方根误差计算公式如下:
其中Xtrue,i为第i个缺失属性的真实值,Ximp,i为第i个缺失属性的插补值,n为缺失属性个数。
6.根据权利要求1所述的基于组内组间的多重插补的乳腺癌缺失数据插补模型,其特征在于,所述步骤5中,对原始数据集进行插补,完成插补目标,具体步骤为:
步骤5-1遍历数据集D中各缺失特征,按步骤3-1、3-2、3-3、3-4、3-5、3-6、3-7、3-8中记录的各特征的最优插补方式进行组内插补。按步骤4-1对数据集D进行组间插补,最终得到完整数据集Dc。
7.根据权利要求1所述的基于组内组间的多重插补的乳腺癌缺失数据插补模型,其特征在于,所述步骤6中,插补性能的稳定性验证,具体步骤为:
步骤6-1等比例随机设空对单一插补方法和本发明方法进行50次重复实验,得到每组插补方法的50组均方根误差结果。
有益效果:
1.本发明是一种基于组内组间的多重插补的乳腺癌缺失数据插补模型,作为乳腺癌数据方面的一种新的插补模型,可以利用领域知识对乳腺癌数据集的约束性插补,插补过程和评估过程交替进行,使得插补过程被有效的监督,更有效的解决了乳腺癌医学临床数据的缺失问题。
2.本发明可以作为一种通用的插补框架,选择不同的插补基础方法可以使得本插补模型在不同领域数据集上得到更好的插补效果。
附图说明:
图1为本发明基于组内组间的多重插补的乳腺癌缺失数据插补模型的执行流程图。
图2为原数据集D的缺失数据集分布图。
图3为等比例下六种插补方法的均方根误差的箱线图。
具体实施方式:
为了使本发明的目的、技术方案及优点更加的清楚明白,以下结合附图及实施样例,对本发进一步详细说明。应当理解,此处所描述的具体实施样例仅仅用以解释本发明,并不限定本发明。
以某医院五年来关于乳腺癌患者的临床结构化数据集为例,建立基于组内组间的多重插补的乳腺癌缺失数据插补模型。
本发明实施样例基于组内组间的多重插补的乳腺癌缺失数据插补模型的流程图,如图1所示,包括以下步骤:
步骤1:记录原始数据集D中各缺失特征的缺失比例。数据集D中删除含有缺失属性的样本个例,获取完整的数据集合D′。
步骤1-1遍历数据集D中各特征属性,记录各特征的缺失比例如图2。对含有缺失属性的样本个例进行删除,以获得完整数据集D′。
步骤2:在数据集D′中按步骤1中记录的特征缺失比例对各特征进行等比例设空,生成新数据集D″。
步骤2-1按步骤1-1记录的各特征缺失比例对完整数据集D′进行设空,以完成缺失数据集的准备。
步骤3:对数据集D″利用N(N=5)种插补方法进行多重估算插补M(M=10)次,插补过程中将每列特征得到的M(M=10)个结果按照综合评价指标进行排序,选择综合指标最小的多重插补方式作为特征的最优插补方式,并记录各个特征最优插补方式的序号。遍历插补数据集D″中的各个特征,得到组内最优插补数据集D″′。
步骤3-1将均值插补、随机森林插补、贝叶斯线性回归插补、分类回归树插补和线性回归插补五种方法作为多重插补的基础方法。插补过程中将每列特征得到的十个结果按照综合评价指标进行排序。
步骤3-2对插补的每个临床特征进行阈值判别,计算出其阈值外的插补值个数。计算过程如下:
其中QLk为第k个特征的下四分位数,QUk为第k个特征的上四分位数,IQRk=QUk-QLk,k=1,2,3,…,K;j=1,2,3,…,M;K为数据集特征个数,M为插补重数;
步骤3-3对阈值的左侧范围进行调整,小于0的阈值范围缩小到0;
步骤3-4计算阈值判别分数,计算公式如下:
其中xkj为第j重插补的第k个特征的阈值外插补值个数,k=1,2,3,…,K;j=1,2,3,…,M;K为数据集特征个数,M为插补重数;
步骤3-5对每列特征进行归一化均方根误差计算,计算公式如下:
Xtrue,kj为第j重插补的第k个原完整特征属性集合,Ximp,kj为第j重插补的第k个插补后的完整特征属性集合;
步骤3-6整合组内插补的评价指标,形成综合评价指标,计算公式如下:
步骤3-7选择综合评价指标最小的多重插补方式作为特征的最优插补重数,并记录各个特征最优插补重数的序号;
步骤3-8遍历插补数据集D″中的各个特征,得到组内最优插补数据集D″′。
步骤4:对N(N=5)个插补方法得到的组内最优数据集选择综合指标最小的按整体均方根误差进行排序,选择误差最小的作为组间最优插补数据集。
步骤4-1对五种插补方法得到的组内最优数据集选择综合指标最小的按整体均方根误差进行排序,整体均方根误差计算公式如下:
其中Xtrue,i为第i个缺失属性的真实值,Ximp,i为第i个缺失属性的插补值,n为缺失属性个数。
步骤5:遍历数据集D中各缺失特征,按步骤3中记录的各特征的最优插补方式进行组内插补。按步骤4对数据集D进行组间插补,最终得到完整数据集Dc。
步骤5-1遍历数据集D中各缺失特征,按步骤3-1、3-2、3-3、3-4、3-5、3-6、3-7、3-8中记录的各特征的最优插补方式进行组内插补。按步骤4-1对数据集D进行组间插补,最终得到完整数据集Dc。
步骤6:插补性能的稳定性验证,对单一插补方法和本发明方法进行50次重复实验,得到每组插补方法的50组均方根误差结果。
步骤6-1等比例随机设空对单一插补方法和本发明方法进行50次重复实验,得到每组插补方法的50组均方根误差结果,如图3。
以上所述是结合附图对本发明的实施例进行的详细介绍,需要指出的是,本文的具体实施方式只是用于帮助理解本发明的方法,对于本技术领域的普通技术人员在依据本发明的前提下,可以做出若干变化和修改,上述变化和修改的技术方案,皆应在由权利要求书所确定的保护范围内。
Claims (7)
1.基于组内组间优化的多重插补模型,其特征在于,该方法包括以下步骤:
步骤1:记录原始数据集D中各缺失特征的缺失比例。数据集D中删除含有缺失属性的样本个例,获取完整的数据集合D′。
步骤2:在数据集D′中按步骤1中记录的特征缺失比例对各特征进行等比例设空,生成新数据集D″。
步骤3:对数据集D″利用N(N=5)种插补方法进行多重估算插补M(M=10)次,插补过程中将每列特征得到的M(M=10)个结果按照综合评价指标进行排序,选择综合指标最小的多重插补方式作为特征的最优插补重数,并记录各个特征最优插补重数的序号。遍历插补数据集D″中的各个特征,得到组内最优插补数据集D″′。
步骤4:对N(N=5)个插补方法得到的组内最优数据集选择综合指标最小的按整体均方根误差进行排序,选择误差最小的作为组间最优插补数据集。
步骤5:遍历数据集D中各缺失特征,按步骤3中记录的各特征的最优插补方式进行组内插补。按步骤4对数据集D进行组间插补,最终得到完整数据集Dc。
步骤6:插补性能的稳定性验证,对单一插补方法和本发明方法进行50次重复实验,得到每组插补方法的50组均方根误差结果。
2.根据权利要求1所述的基于组内组间的多重插补的乳腺癌缺失数据插补模型,其特征在于,所述步骤1中,实验的完整数据集准备,具体步骤为:
步骤1-1遍历数据集D中各特征属性,记录各特征的缺失比例。对含有缺失属性的样本个例进行删除,以获得完整数据集D′。
3.根据权利要求1所述的基于组内组间的多重插补的乳腺癌缺失数据插补模型,其特征在于,所述步骤2中,实验的缺失数据集准备,具体步骤为:
步骤2-1按步骤1-1记录的各特征缺失比例对完整数据集D′进行设空,以完成缺失数据集的准备。
4.根据权利要求1所述的基于组内组间的多重插补的乳腺癌缺失数据插补模型,其特征在于,所述步骤3中,缺失数据集的组内插补,具体步骤为:
步骤3-1将均值插补、随机森林插补、贝叶斯线性回归插补、分类回归树插补和线性回归插补五种方法作为多重插补的基础方法。插补过程中将每列特征得到的十个结果按照综合评价指标进行排序。
步骤3-2对插补的每个临床特征进行阈值判别,计算出其阈值外的插补值个数。计算过程如下:
其中QLk为第k个特征的下四分位数,QUk为第k个特征的上四分位数,IQRk=QUk-QLk,k=1,2,3,…,K;j=1,2,3,…,M;K为数据集特征个数,M为插补重数;
步骤3-3对阈值的左侧范围进行调整,小于0的阈值范围缩小到0;
步骤3-4计算阈值判别分数,计算公式如下:
其中xkj为第j重插补的第k个特征的阈值外插补值个数,k=1,2,3,…,K;j=1,2,3,…,M;K为数据集特征个数,M为插补重数;
步骤3-5对每列特征进行归一化均方根误差计算,计算公式如下:
Xtrue,kj为第j重插补的第k个原完整特征属性集合,Ximp,kj为第j重插补的第k个插补后的完整特征属性集合;
步骤3-6整合组内插补的评价指标,形成综合评价指标,计算公式如下:
步骤3-7选择综合评价指标最小的多重插补方式作为组内特征的最优插补重数,并记录各个特征最优插补重数的序号;
步骤3-8遍历插补数据集D″中的各个特征,得到组内最优插补数据集D″′。
6.根据权利要求1所述的基于组内组间的多重插补的乳腺癌缺失数据插补模型,其特征在于,所述步骤5中,对原始数据集进行插补,完成插补目标,具体步骤为:
步骤5-1遍历数据集D中各缺失特征,按步骤3-1、3-2、3-3、3-4、3-5、3-6、3-7、3-8中记录的各特征的最优插补方式进行组内插补。按步骤4-1对数据集D进行组间插补,最终得到完整数据集Dc。
7.根据权利要求1所述的基于组内组间的多重插补的乳腺癌缺失数据插补模型,其特征在于,所述步骤6中,插补性能的稳定性验证,具体步骤为:
步骤6-1等比例随机设空对单一插补方法和本发明方法进行50次重复实验,得到每组插补方法的50组均方根误差结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210924114.XA CN115116616A (zh) | 2022-08-02 | 2022-08-02 | 基于组内组间优化的多重插补的乳腺癌缺失数据插补模型 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210924114.XA CN115116616A (zh) | 2022-08-02 | 2022-08-02 | 基于组内组间优化的多重插补的乳腺癌缺失数据插补模型 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115116616A true CN115116616A (zh) | 2022-09-27 |
Family
ID=83334281
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210924114.XA Pending CN115116616A (zh) | 2022-08-02 | 2022-08-02 | 基于组内组间优化的多重插补的乳腺癌缺失数据插补模型 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115116616A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117893139A (zh) * | 2024-03-15 | 2024-04-16 | 山东未来网络研究院(紫金山实验室工业互联网创新应用基地) | 一种基于产业链的物料配比方法 |
-
2022
- 2022-08-02 CN CN202210924114.XA patent/CN115116616A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117893139A (zh) * | 2024-03-15 | 2024-04-16 | 山东未来网络研究院(紫金山实验室工业互联网创新应用基地) | 一种基于产业链的物料配比方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111753101B (zh) | 一种融合实体描述及类型的知识图谱表示学习方法 | |
CN112951413B (zh) | 一种基于决策树和改进smote算法的哮喘病诊断系统 | |
CN109273096A (zh) | 一种基于机器学习的药品风险分级评估方法 | |
CN110020712B (zh) | 一种基于聚类的优化粒子群bp网络预测方法和系统 | |
CN110826618A (zh) | 一种基于随机森林的个人信用风险评估方法 | |
CN112232526B (zh) | 一种基于集成策略的地质灾害易发性评价方法及系统 | |
CN110163262A (zh) | 模型训练方法、业务处理方法、装置、终端及存储介质 | |
CN108280236A (zh) | 一种基于LargeVis的随机森林可视化数据分析方法 | |
CN104850868A (zh) | 一种基于k-means和神经网络聚类的客户细分方法 | |
CN111639882B (zh) | 一种基于深度学习的用电风险的判定方法 | |
CN115470962A (zh) | 一种基于LightGBM的企业失信风险预测模型构建方法 | |
CN115116616A (zh) | 基于组内组间优化的多重插补的乳腺癌缺失数据插补模型 | |
CN116187835A (zh) | 一种基于数据驱动的台区理论线损区间估算方法及系统 | |
Chu et al. | Co-training based on semi-supervised ensemble classification approach for multi-label data stream | |
CN117556369B (zh) | 一种动态生成的残差图卷积神经网络的窃电检测方法及系统 | |
CN116468536A (zh) | 一种自动化风险控制规则生成的方法 | |
CN113377991B (zh) | 一种基于最难正负样本的图像检索方法 | |
CN111414973A (zh) | 基于生成对抗网络的极度不均衡数据的分类框架 | |
CN113392877B (zh) | 一种基于蚁群算法与c-k算法的日负荷曲线聚类方法 | |
CN117150232B (zh) | 一种大模型非时序训练数据质量评价方法 | |
CN111863135B (zh) | 一种假阳性结构变异过滤方法、存储介质及计算设备 | |
CN114978931B (zh) | 基于流形学习的网络流量预测方法、装置及存储介质 | |
CN110009024A (zh) | 一种基于id3算法的数据分类方法 | |
CN115017988A (zh) | 一种用于状态异常诊断的竞争聚类方法 | |
CN112766537B (zh) | 一种短期电负荷预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |