CN110176309A

CN110176309A - 一种用于预测心血管疾病的医疗数据处理方法

Info

Publication number: CN110176309A
Application number: CN201910452847.6A
Authority: CN
Inventors: 谢江; 吴蕊颖; 王海涛; 张武; 孔艳艳
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2019-05-28
Filing date: 2019-05-28
Publication date: 2019-08-27

Abstract

本发明提出了一种用于预测心血管疾病的医疗数据处理方法。本发明方法包含三个步骤：1、数据预处理：补全数据集中的缺失值，对数据集中的属性进行标准化处理。2、密度权重学习：在利用DBSCAN算法将样本点分为核心样本点、噪声样本点和边界样本点的基础上，对核心样本点的密度信息进一步量化，对处于不同密度区域的点赋予不同权重。3、特征工程：将所有样本点的权重值作为一维新的特征加入数据集，然后对整个数据集进行特征选择和数据离散化两步。本发明通过为处于不同分布密度的样本点赋予相应的权重，强调核心样本点在模型建立时的贡献度，从而帮助机器学习模型决策边界的建立，提高模型的预测心血管疾病精度。

Description

一种用于预测心血管疾病的医疗数据处理方法

技术领域

本发明涉及数据处理领域，特别是涉及一种用于心血管疾病预测的密度权重机器学习及处理方法。

背景技术

心脑血管疾病是全球致死疾病位列第一的疾病。2015年，全球因心血管疾病死亡的人数有1770万人，占全球死亡总数的31%。因此，对心血管疾病进行早期诊断和预防十分必要，但是，目前临床医学上还没有有效的预测手段。在信息化迅速发展的时代，将先进的计算机科学技术运用在医学数据上，是目前热门的研究方向。如果将机器学习模型运用于心血管疾病，就能更加稳定精准地预测患病的风险，提前识别高危个体，预防心血管疾病，对于降低心血管疾病的发病率和死亡率具有非常重要的意义。

自上世纪四五十年代，大多数发达国家中心血管疾病的死亡率急速上升，位居致死疾病的首位，引起了医学界的广泛关注。多个国家和地区开展了大规模的心血管疾病风险因素研究，先后推出了如Framingham风险积分（Framingham risk score，FRS）系统、SCORE积分系统、QRISK2积分系统等多个心血管疾病风险评估系统。尽管国内外已经建立了心血管病或脑卒中复发的预测模型，预测因子主要基于传统的危险因素，未能包括脑血管病变检测的参数，直接影响其预测效能。国外的预测模型还存在文化、经济和人种等差异，不适宜在国内外推应用。

除此之外，想要利用机器学习方法精确预测心血管疾病的发生还面临着更多的问题，例如：（1）原始医疗数据存在缺失值，需要进行合适筛选和补全处理。（2）如何选取关键有效的风险因素进行机器学习建模。（3）如何设计出高度吻合的风险预测模型。

发明内容

本发明要解决的技术问题：将时下流行的机器学习技术与医疗健康数据相结合，针对医疗数据的特异性进行预处理，提出密度权重学习算法有效地甄别数据集中样本点的密度分布情况，通过为处于不同分布密度的样本点赋予相应的权重，强调核心样本点在模型建立时的贡献度，从而帮助机器学习模型决策边界的建立，提高模型的预测心血管疾病精度。

为达到上述目的，本发明的构思是：首先对心血管数据集进行预处理操作，将数据集补全，数据标准化；然后利用DBSCAN算法识别出数据集所有样本点的密度水平，将样本点分成核心样本点、边界样本点和噪声样本点，提出k-distance和k-density对核心样本点的密度水平进行更细致的量化，并根据量化结果给予不同类型样本点不同的权重；最后将权重作为一维新的特征加入数据集，对数据集进行特征工程后，使用流行机器学习算法建模。

本发明采用下述技术方案：

一种用于预测心血管疾病的医疗数据处理方法，包括：

A、数据预处理，包括缺失值补全和数据标准化；

B、对数据集进行密度权重学习，识别数据集样本点的密度分布情况，并根据分布情况给予每个样本点相应的权重；

C、将所有样本点的权重值作为该样本点的一维新特征加入数据集，然后对整个数据集进行特征工程，包括特征选择和数据离散化；

D、建立预测模型，在经处理过的数据集上建立预测模型，预测模型包括SVM、KNN、RF、GBDT、NN等。

缺失值补全使用KNNI算法补全缺失值，假设有一个包含m个样本点的数据集，每个样本点具有n个属性，则可以得到对应的m×n矩阵：X=(𝑥𝑖𝑗)𝑚∗𝑛，𝑥𝑖中缺失的值将被其邻域k个点的j属性的平均值所代替：。

所述A具体步骤如下：数据标准化：使用z-score对数据集中的特征值进行标准化处理，转化函数：其中μ为样本均值，σ为样本方差，𝑥为原始属性值，𝑥^∗为标准化后属性值。

所述步骤B具体步骤如下：

B1、对数据集的所有样本点进行密度识别，首先使用DBSCAN方法将数据集中所有样本点分为核心样本点、边界样本点及噪声样本点，然后进一步对核心样本点的密度进行量化，计算核心样本点的k-distance，再根据每个核心样本点的k-distance计算其k-density；

所述步骤B1包括：

B11、首先使用DBSCAN方法将数据集中所有样本点分为核心样本点、边界样本点及噪声样本点；基于样本集的邻域(𝜀,𝑀𝑖𝑛𝑃𝑡𝑠)来描述样本分布紧密程度。其中𝜀为样本的邻域距离阈值，𝑀𝑖𝑛𝑃𝑡𝑠则描述了样本的𝜀邻域中其余样本个数的阈值，假设当前有数据集，对于核心样本点、边界样本点及噪声样本点具体的定义如下：对于任意一个样本点,若其𝜀领域中至少包含𝑀𝑖𝑛𝑃𝑡𝑠个其他样本点，则该样本点为核心样本点，若其𝜀领域中少于𝑀𝑖𝑛𝑃𝑡𝑠个其他样本点，则该样本点为边界样本点，若其𝜀领域中少于𝑀𝑖𝑛𝑃𝑡𝑠个其他样本点且其他样本点均为边界样本点，则该样本点为噪声样本点；𝜀的取值根据实际计算的样本点距离而定，一般需要通过在多组值里面选择一个合适的阈值。𝜀过大，则更多的点会落在核心对象的ϵ邻域，此时DBSCAN聚类后的类别数可能会减少，反之则类别数可能会增大。

B12、将数据集所有样本点分为三类后，计算每个核心样本点的k-distance，其中𝑑𝑘为样本点P 与其周围第k 个邻居点的距离，k-distance 为样本点P 与其邻域𝜀其他样本点距离的集合，具体计算公式如下：𝑘-𝑑𝑖𝑠𝑡𝑎𝑛𝑐𝑒 = {𝑑𝑘 }(1 ≤ 𝑘 ≤ 𝑀𝑖𝑛𝑃𝑡𝑠)；

B13、根据k-distance 计算每个核心样本点的k-density，k-density 为样本点P 与其𝜀邻域内周围k个邻居点的距离的平均值，具体计算公式如下：

B2、根据每个核心样本点的k-density值给予该样本点不同的权重值。

步骤B2包括：首先求出k-density的四分位数Q1、Q2、Q3、Q4，得到k-density的四分位数区间：(min value, Q1]，(Q1, Q2]，(Q2, Q3]，(Q3, max value]。然后根据每个核心样本点k-density值所处的区间进行赋值。若该核心样本点的k-density属于(min value,Q1]，则其权重赋值2；若k-density属于(Q1, Q2]，则其权重赋值4；若k-density属于(Q2,Q3]，则其权重赋值6；若k-density属于(Q3, Q4]，则其权重赋值8。

对所有边界样本点的权重赋值1，所有噪声样本点的权重赋值0。

所述步骤C中的特征选取包括：使用随机森林法对样本的所有特征进行重要性评分，剔除分数较低的特征。

所述步骤C中的数据离散化包括：使用Sturges' formula离散化方法对数据集进行离散化，公式为 𝑘=⌈𝑙𝑜𝑔2𝑛⌉+1；其中n代表样本大小，k为离散化时分箱的箱数。

本发明与现有技术相比较，具有如下突出的实质性特点和显著优点：

1.常规的机器学习方法并未考虑到样本点的密度分布情况，而新提出的密度权重学习算法考虑了样本点的密度分布，并根据分布给予样本点不同的权重，更符合数据集的真实情况，更有利于模型决策。

2.针对DBSCAN算法得到的核心样本点，提出k-distance和k-density量化核心样本点的密度水平，并根据密度水平给予核心样本点不同的权重，将核心样本点也进行了权重划分。

3.该方法使用KNNI补全数据保留数据间的相关性和差异性。

附图说明

图1是本发明的预测心血管疾病的密度权重学习算法的总流程图。

图2是图1中步骤B所述的，使用DBSCAN方法识别核心样本点、噪声样本点、边界样本点的原理示意图。

图3是图1中步骤B所述的，根据样本点类型和k-density给样本点进行权重分配的流程图。

图4是图3中计算k-density的结果图，展示了所有核心样本点的k-density。

图5是图1中步骤C所述的，使用随机森林进行特征选择时，每个特征的重要性评分排序情况。

图6列出了机器学习算法SVM经过密度权重学习算法之后的性能对比情况。

图7列出了机器学习算法KNN在经过密度权重学习算法之后的性能对比情况。

图8列出了机器学习算法Random Forest在经过密度权重学习算法之后的性能对比情况。

图9列出了机器学习算法GBDT经过密度权重学习算法之后的性能对比情况。

图10列出了机器学习算法NN在经过密度权重学习算法之后的性能对比情况。

具体实施方式

以下结合附图对本发明的优选实施例进一步详细说明。

本实施例中，密度权重学习算法使用 Python实现， SVM、KNN、Random Forest、 NN和 GBDT等分类算法则是基于 Python开源机器学习工具Scikit-Learn实现。对于每个机器方法的参数设置，使用网格搜索（Grid Search）算法进行调优，所有实验的硬件环境为具有英特尔酷睿I5主频为3.2GHz的中央处理器，6GB内存和64位Windows 10操作系统的台式机。

本发明的本发明的预测心血管疾病的密度权重学习算法，如图 1-图 3所示，包含以下所示，包含以下步骤：

A、由于医疗数据集中普遍存在数据缺失值较多情况，因此首先对数据集进行预处理操作，主要包括缺失值补全和数据标准化两部分内容。具体步骤包括：

A1、缺失值补全：本算法使用KNNI算法补全缺失值，KNNI的主要思想是先计算缺失点与完整点之间的距离，然后选取k个最近的数据点，通过这些邻域样本点对缺失的属性进行缺失值补全。具体来讲，假设有一个包含m个样本点的数据集，每个样本点具有n个属性，则可以得到对应的m×n矩阵：X=(𝑥𝑖𝑗)𝑚∗𝑛，𝑥𝑖中缺失的值将被其邻域k个点的j属性的平均值所代替：。

A2、数据标准化：使用z-score对数据集中的特征值进行标准化处理。转化函数如下：。

B、对数据集进行密度权重学习，识别数据集样本点的密度分布情况，并根据分布情况给予该样本点合适的权重。具体步骤包括：

B1、样本点的密度进行量化，计算核心样本点的k-distance，再根据每个核心样本点的k-distance 计算其k-density；

B11、首先使用DBSCAN 方法将数据集中所有样本点分为核心样本点、边界样本点及噪声样本点。DBSCAN 是一种基于密度的聚类算法，它假定类别可以通过样本分布的紧密程度决定，紧密连接的样本的周围一定有其同类别的样本存在。具体来讲，给定空间中的一组点，将紧密排列在一起的点归为一类，把低密度区域的离群点归为噪声样本点。DBSCAN 是基于样本集的邻域(𝜀, 𝑀𝑖𝑛𝑃𝑡𝑠 )来描述样本分布紧密程度。其中𝜀为样本的邻域距离阈值，𝑀𝑖𝑛𝑃𝑡𝑠则描述了样本的𝜀邻域中其余样本个数的阈值。假设当前有数据集D = (x1, x2 , ,xn )，则 DBSCAN算法中对于核心样本点、边界样本点及噪声样本点具体的定义如下：

核心样本点：对于任意一个样本点x _j∈D，若其𝜀邻域中至少包含MinPts个其他样本点，则x _j为核心样本点。

边界样本点：对于任意一个样本点x _j∈D，若其𝜀邻域中少于MinPts个其他样本点，则x _j为边界样本点。

噪声样本点：对于任意一个样本点x _j∈D，若其𝜀邻域中少于MinPts个其他样本点且其他样本点为边界样本点，则x _j为噪声样本点。根据上述定义将数据集中所有样本点分为核心样本点、边界样本点和噪声样本点，其中𝑀𝑖𝑛𝑃𝑡𝑠设置为5，图2展示了样本点密度识别DBSCAN聚类的效果。

B12、将数据集所有样本点分为三类后，计算每个核心样本点的k-distance，其中𝑑𝑘为样本点P 与其周围第k 个邻居点的距离，k-distance 为样本点P 与其邻域𝜀其他样本点距离的集合，具体计算公式如下：𝑘 − 𝑑𝑖𝑠𝑡𝑎𝑛𝑐𝑒 = {𝑑𝑘 }(1 ≤ 𝑘 ≤ 𝑀𝑖𝑛𝑃𝑡𝑠)。

B13、根据k-distance 计算每个核心样本点的k-density，k-density 为样本点P与其𝜀邻域内周围k 个邻居点的距离的平均值，具体计算公式如下：。

B2、根据每个核心样本点的k-density值给予该样本点不同的权重值。具体来讲，首先求出k-density的四分位数Q1、Q2、Q3、Q4，得到k-density的四分位数区间：(minvalue, Q1]，(Q1, Q2]，(Q2, Q3]，(Q3, max value]。然后根据每个核心样本点k-density值所处的区间进行赋值。若该核心样本点的k-density属于(min value, Q1]，则其权重赋值2；若k-density属于(Q1, Q2]，则其权重赋值4；若k-density属于(Q2, Q3]，则其权重赋值6；若k-density属于(Q3, Q4]，则其权重赋值8；

B3、对所有边界样本点的权重赋值1，所有噪声样本点的权重赋值0。

C、将所有样本点的权重值作为一维新特征加入数据集，然后对整个数据集进行特征工程，主要包含特征选择和数据离散化两步操作。具体步骤包括：

C1、特征选择：使用随机森林方法对所有特征进行重要性评分，根据分数分析排名前几的特征，剔除分数较低的特征，保留分数较高的特征为实验所用。

C2、数据离散化：本算法使用Sturges' formula离散化方法对数据集进行离散化，Sturges' formula公式如下，其中n代表样本大小，k为离散化时分箱的箱数bins。𝑘=⌈𝑙𝑜𝑔2𝑛⌉+1 。

D、建立预测模型：在当下数据集上测试多种流行机器学习预测模型，比如SVM，KNN，RF，GBDT，NN等，并确定出最适合该数据集的分类器。

参照图3，示出了步骤B2及步骤B3的具体流程图。DBSCAN算法将数据集中样本点划分成三种类型的点以后，计算核心样本点的k-distance、k-density，然后根据核心样本点的k-density的值赋予不同权重。

参照图4，示出了图3中计算k-density的结果示意图，将k-density的计算结果按照从小到大排序进行可视化的结果。

参照图5，示出了步骤C1中，计算特征重要性评分的结果示意图。可以看出特征Oldpeak和特征Fbs的分数最低，且与前一名特征Sex相差较远，因此剔除Oldpeak和Fbs两个特征，保留其余特征为后续实验所用。

参照图6，示出了本发明的预测心血管疾病的密度权重算法应用在传统机器学习算法SVM之后的预测结果对比。

参照图7，示出了本发明的预测心血管疾病的密度权重算法应用在传统机器学习算法KNN之后的预测结果对比。

参照图8，示出了本发明的预测心血管疾病的密度权重算法应用在传统机器学习算法Random Forest之后的预测结果对比。

参照图9，示出了本发明的预测心血管疾病的密度权重算法应用在传统机器学习算法GBDT之后的预测结果对比。

参照图10，示出了本发明的预测心血管疾病的密度权重算法应用在传统机器学习算法NN之后的预测结果对比。

从图6至图10的实验结果可以看出以上机器学习模型经过密度权重学习以后，其准确率（accuracy）、𝐹-measure、精确率（precision）和召回率（recall）都有不同程度的提升，证明密度权重学习算法的有效性。同时每个机器学习性能提升的情况也有相应的差异，NN性能提升比KNN、SVM、Random Forest、GBDT等算法更明显，分析可能是神经网络算法对于这类心血管疾病数据集，更能分辨出样本点之间的区别。

综上所述，本发明的预测心血管疾病的密度权重学习算法，与同类代表性方法相比，不仅使用KNNI算法补全样本缺失值，而且考虑了样本点的密度信息，其总体计算准确度更高，具有更高的稳定性。能更加精确、全面地分析患者情况，判定病人是否患病。

本文结合说明书附图和具体实施例进行阐述只是用于帮助理解本发明的方法和核心思想。本发明所述的方法并不限于具体实施方式中所述的实施例，本领域技术人员依据本发明的方法和思想得出的其它实施方式，同样属于本发明的技术创新范围。本说明书内容不应理解为对本发明的限制。

Claims

1.一种用于预测心血管疾病的医疗数据处理方法，其特征在于包括：

A、数据预处理，包括缺失值补全和数据标准化；

C、将所有样本点的权重值作为该样本点的一维新特征加入数据集，然后对整个数据集进行特征工程，包括特征选择和数据离散化。

2.根据权利要求1所述用于预测心血管疾病的医疗数据处理方法，其特征在于：缺失值补全使用KNNI算法补全缺失值，假设有一个包含m个样本点的数据集，每个样本点具有n个属性，则可以得到对应的m×n矩阵：X=(𝑥_𝑖𝑗)𝑚∗𝑛，𝑥𝑖中缺失的值将被其邻域k个点的j属性的平均值所代替：。

3.根据权利要求1所述用于预测心血管疾病的医疗数据处理方法，其特征在于：数据标准化：使用z-score对数据集中的特征值进行标准化处理，转化函数：其中μ为样本均值，σ为样本方差，𝑥为原始属性值，𝑥^∗为标准化后属性值。

4.根据权利要求1所述用于预测心血管疾病的医疗数据处理方法，其特征在于所述步骤B具体步骤如下：

5.根据权利要求4所述用于预测心血管疾病的医疗数据处理方法，其特征在于步骤B2包括：首先求出k-density的四分位数Q1、Q2、Q3、Q4，得到k-density的四分位数区间：(minvalue, Q1]，(Q1, Q2]，(Q2, Q3]，(Q3, max value]，

然后根据每个核心样本点k-density值所处的区间进行赋值，

若该核心样本点的k-density属于(min value, Q1]，则其权重赋值2；若k-density属于(Q1, Q2]，则其权重赋值4；若k-density属于(Q2, Q3]，则其权重赋值6；若k-density属于(Q3, Q4]，则其权重赋值8。

6.根据权利要求4所述用于预测心血管疾病的医疗数据处理方法，其特征在于：对所有边界样本点的权重赋值1，所有噪声样本点的权重赋值0。

7.根据权利要求4所述用于预测心血管疾病的医疗数据处理方法，其特征在于所述步骤B1包括：

B11、首先使用DBSCAN方法将数据集中所有样本点分为核心样本点、边界样本点及噪声样本点；基于样本集的邻域(𝜀,𝑀𝑖𝑛𝑃𝑡𝑠)来描述样本分布紧密程度；其中𝜀为样本的邻域距离阈值，𝑀𝑖𝑛𝑃𝑡𝑠则描述了样本的𝜀邻域中其余样本个数的阈值，假设当前有数据集，对于核心样本点、边界样本点及噪声样本点具体的定义如下：对于任意一个样本点,若其𝜀领域中至少包含𝑀𝑖𝑛𝑃𝑡𝑠个其他样本点，则该样本点为核心样本点，若其𝜀领域中少于𝑀𝑖𝑛𝑃𝑡𝑠个其他样本点，则该样本点为边界样本点，若其𝜀领域中少于𝑀𝑖𝑛𝑃𝑡𝑠个其他样本点且其他样本点均为边界样本点，则该样本点为噪声样本点；

根据权利要求1所述用于预测心血管疾病的医疗数据处理方法，其特征在于所述步骤C中的特征选取包括：使用随机森林法对样本的所有特征进行重要性评分，剔除分数较低的特征。

8.根据权利要求1所述用于预测心血管疾病的医疗数据处理方法，其特征在于所述步骤C中的数据离散化包括：使用Sturges' formula离散化方法对数据集进行离散化，公式为𝑘=⌈𝑙𝑜𝑔₂𝑛⌉+1；其中n代表样本大小，k为离散化时分箱的箱数。

9.根据权利要求1所述用于预测心血管疾病的医疗数据处理方法，其特征在于：建立预测模型，在经处理过的数据集上运行该预测模型，预测模型包括SVM、KNN、RF、GBDT、NN等。