CN103714261A

CN103714261A - 二阶段混合模型的智能辅助医疗决策支持方法

Info

Publication number: CN103714261A
Application number: CN201410014993.8A
Authority: CN
Inventors: 欧阳继红; 马超; 王旭; 李锡铭; 周晓堂
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2014-01-14
Filing date: 2014-01-14
Publication date: 2014-04-09
Anticipated expiration: 2034-01-14
Also published as: CN103714261B

Abstract

一种二阶段混合模型的智能辅助医疗决策支持方法，包括下列主要步骤：基于减聚类方法，对真实的医疗样本数据信息进行加权预处理，将非线性不可分的特征空间转化为可分的线性数据特征空间；基于高效的极限学习机模型，利用预处理得到的加权特征数据，通过数据自学习构建医疗决策支持模型；基于构建的学习模型，采用真实的医疗数据，对研究对象进行分类预测，从而实现为目标用户提供可靠高效的辅助预测支持，主要优点：(1)方法简单，易于实现，并且能产生准确度很高的预测结果；(2)该方法涉及的参数较少，且参数影响较小，即需要人为干预较少，便于操作；(3)该方法计算速度极快，效率高。

Description

二阶段混合模型的智能辅助医疗决策支持方法

技术领域

本发明属于智能决策领域，具体涉及一种二阶段混合模型的智能辅助医疗决策支持方法。

背景技术

智能决策是数据挖掘、模式识别和机器学习等领域中最活跃的研究内容之一，它具有凭借其对数据自动学习，从中提取其中隐含的规则或模型，并作出智能决策的强大能力，在现实中有着非常广泛的应用（如医疗诊断和金融风险预测等）。

医疗诊断是智能决策技术在医疗领域的应用，通过构建诊断系统辅助医生更好地对各种疾病进行诊断。传统的医疗诊断过程是医生根据临床经验对新来的病人进行推理诊断的决策过程，在很大程度上主要依赖于个人的实际经验，需要经过长时间的经验积累才能达到足够丰富的决策水平；同时决策过程也在很大程度上受主观意识和外界因素干扰等影响，容易做出偏差较大的分析，影响决策的准确度。原始的医疗诊断方法已经不能满足现代社会发展的需求，因此发挥计算机推理和学习能力，开发出高效高精度的智能辅助医疗诊断模型或系统是一个重要的发展方向。这些智能决策方法可以尽可能减少因经验不足造成的决策错误，为复杂的医疗决策支持提供准确、客观的定量分析方法，在为解决这些复杂决策问题提供客观和科学的决策等方面具有重要意义。

泛化能力对决策模型在实际应用中发挥效果起到至关重要的作用，然而直接应用传统的学习方法往往难以达到理想的决策效果，如何构造出强泛化能力的学习模型为决策者提供合理科学的决策支持是目前亟待解决的难题。

智能医疗诊断的基本原理是利用已知收集到的数据捕获其中未知的、潜在的概率分布等重要特征，数据可以看作是揭示观察到的变量之间关系的样本，通过对数据自动进行学习，识别其中的复杂模式并作出智能决策。智能决策模型能够根据给定的实例进行泛化以便对新的病例进行分析判断。

目前，已提出了一些决策支持方法：

1)基于神经网络(ANN)的智能医疗诊断方法。ANN具有很强的自组织性、鲁棒性和容错性，以及非线性和并行处理能力，在医疗诊断中得到广泛应用，2010年，Er等提出利用多种ANN模型诊断胸部疾病，同年Ayer等利用多种ANN模型对乳腺癌诊断进行研究；

2)基于演化计算的智能医疗诊断方法。2008年，zhang提出改进的遗传规划(GP)方法，对两种疾病诊断问题进行研究，和其他机器学习方法包括KNN，ANN等相比，获得更高的分类精度，2011年，Lambrou提出基于GA的保角预测方法进行疾病诊断，实验表明该模型不仅能达到已有模型的分类准确率，还能给分类器提供可靠的置信度，并从数据中提取出易理解的可信的规则；

3)基于支持向量机(SVM)的智能医疗诊断方法。2010年，Peng提出一种结合过滤算法和打包算法的混合特征选择，并结合SVM分类器在多种疾病进行了诊断。

但每种学习方法都有各自的优缺点，如ANN模型的权重值需要多次计算，训练时间长；GA中涉及许多参数需要人为调节；SVM模型的参数对结果影响很大，需要慎重选择等，并且诊断模型大多依赖于现有学习模型，其泛化能力还有待进一步改善，对数据的分析不够充分，可能存在异常值严重影响诊断的准确率，另外，随着学习理论和方法的不断完善，各种新方法不断提出，整个医疗诊断领域需要强泛化能力的新方法。

发明内容

针对医疗诊断过度依赖经验积累或经验不足造成的决策错误，需要构造出强泛化能力的诊断模型等问题，本发明的目的是提供一种二阶段混合模型的智能辅助医疗决策支持方法。该方法针对医疗数据，通过预处理研究潜在的分布特征，利用减聚类算法进行加权化，再结合新颖的极限学习机分类方法进行分类预测并进行评估，可以获得更准确的预测结果。

本发明提供了一种二阶段混合模型的智能辅助医疗决策支持方法，所述方法包括如下步骤：

S1，基于减聚类方法，对真实的医疗样本数据信息进行加权预处理，将非线性不可分的特征空间转化为可分的线性数据特征空间；

S2，基于高效的极限学习机模型，利用预处理得到的加权特征数据，通过数据自学习构建医疗决策支持模型；

S3，基于S2构建的模型，采用开源的数据，对研究对象进行分类预测，从而实现为目标用户提供可靠高效的辅助预测支持。

附图说明

图1给出了二阶段混合模型的智能辅助医疗决策支持方法的流程示意图。

图2是减聚类算法对数据样本进行加权处理方法的流程示意图。

图3是真实数据帕金森疾病(Parkinsons)原始数据集在三维空间上的分布示意图。

图4是真实数据帕金森疾病(Parkinsons)数据集加权预处理之后在三维空间上的分布示意图。

图5是本发明方法进行自学习构建学习模型的流程示意图。

图6是本方法与其它三种相关学习方法在四个评价指标下得到的结果。

图7是本方法与其它三种相关学习方法在四个评价指标下的平均误差。

具体实施方式

以下实施例用于说明本发明，现通过附图和实施例对本发明作进一步的详细描述。

本发明实施例的前提是已获得了医疗数据样本的特征描述以及相应的标签值。

图1为本发明实施例提供的混合模型的智能辅助医疗决策支持方法的流程示意图，本实施例主要包括以下步骤：

步骤S1，根据给定的医疗数据样本，按照如下方法进行数据的加权预处理：将数据样本表示成矩阵结构M(m,n)，其中m表示样本数目，n表示特征，首先，用减聚类方法进行聚类并计算各簇的中心值cluster_center以及数据中每个特征的平均值mean(s)；

其次，按照公式（1）计算矩阵数据中特征均值在各簇中的比值：

ratios(i,j)=mean(s_j)/cluster_center_j; （1）

其中，mean(s_j)为第s_j个特征的平均值，cluster_center_j为第j个簇中心值。

最后，按照公式（2）对矩阵中的每个数据特征进行加权化处理：

weighted_features(i,j)=M(m,n)*ratios(i,j); （2）

图2为上述S1步骤所描述的减聚类算法加权化数据样本的流程示意图。

图3为数据样本在三维空间上的分布情况，实施例的数据为真实帕金森数据样本，其中黑色实心点(.)表示患者，黑色(+)为正常(非患者)。

图4为经过加权化预处理之后的数据样本在三维空间上的分布情况，与图3对比，可见采用本发明的加权化处理方法，数据间的辨别力进一步的增强。

步骤S2，将步骤1所得到的加权化数据集作为极限学习机分类器的输入，对数据进行分析和自学习，构建辅助医疗决策支持模型；

图5为根据步骤S2方法构建的决策医疗决策支持模型的流程示意图。

步骤S3，依据步骤S2的辅助医疗决策支持模型，判断目标对象属于两分类中一类：患者和正常(非患者)，并显示出结果。

本实施例，通过对数据进行预处理，采用减聚类算法进行聚类，并将数据样本特征加权化处理，得到加权化之后的数据样本，基于极限学习机分类器对新生成的数据进行分析自学习，构建辅助医疗决策支持模型，以此来进行目标对象的分析预测，最后获得目标对象的预测结果和评价。

以上实施例仅用于说明本发明而非对其进行限制，有关领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明的范畴，本发明的专利保护范围应由权利要求限定。

例1本发明在真实数据帕金森数据集上的实验结果

帕金森数据集是从数据挖掘中UCI公共数据库获得的，它包含195个样本，其中样本包含22个特征，48个正常，147个患者，年龄段是从46到85岁。例1将本发明方法应用到此数据集上进行测试验证，并选用四个指标评价方法的性能，分别是准确率（ACC）、灵敏性（Sensitivity）、特效性（Specificity）、AUC曲线，同时与三个相关方法进行了对比，三个对比方法分别是基于Ｋ近邻方法（KNN）、支持向量机方法（SVM）和简单极限学习机方法（ELM）。

图6表示本方法在四个评价指标下的预测结果，同时与相关的三个方法进行比较，相关的这三个方法都运行在各自最优的参数设定下，图6反映的实验结果：

在ACC、Sensitivity、Specificity和AUC四个评价指标下，本发明方法的效果均明显好于其他三个方法，且四个指标的预测值均高达99%以上；

图7给出了本发明方法在四个评价指标下的均方根误差（RMSE），同时与相关的三个方法进行比较，相关的这三个方法都运行在各自最优的参数设定下，图7反映了重要的实验结果：

在ACC、Sensitivity、Specificity和AUC四个评价指标下，本发明方法的误差相比于其他三个方法是最低的，这说明本发明方法计算不仅稳定并且产生误差最小。

Claims

1.一种二阶段混合模型的智能辅助医疗决策支持方法，其特征在于，包括如下步骤：

S3，基于S2构建的模型，采用真实的医疗数据，对研究对象进行分类预测，从而实现为目标用户提供可靠高效的辅助预测支持。

2.根据权利要求1所述的二阶段混合模型的智能辅助医疗决策支持方法，其特征在于，该方法采用如下的基本原理对目标用户进行诊断预测：

医疗数据通常具有维度高且分布复杂，根据其数据的特征分布，利用聚类加权化的方法将数据从非线性不可分的特征空间转化到线性可分的特征空间，将特征相近的数据聚集到一起，提高数据间的分辨关系，基于这种新的数据特征空间，并结合新颖的高效高精度的分类器，进而产生更准确的预测诊断结果。

3.根据权利要求1所述的二阶段混合模型的智能辅助医疗决策支持方法，其特征在于，基于给定的医疗数据，按照如下方法进行数据的加权预处理：

将医疗数据用矩阵形式表示，设M(m,n)为矩阵数据，其中m表示样本数目，n表示特征，首先，用减聚类算法计算各簇中心值cluster_center和每个特征的平均值mean；

其次，按如下公式计算矩阵数据中每一个特征的比值：

ratios(i,j)=mean(s_j)/cluster_center_j;

其中，cluster_center_j为第j个簇中心值，mean(s_j)为第s_j个特征的平均值；

最后，按照如下方法矩阵中的每个数据特征进行加权化处理：

weighted_features(i,j)=M(m,n)*ratios(i,j)。

4.根据权利要求1所述的二阶段混合模型的智能辅助医疗决策支持方法，其特征在于，基于加权之后的特征数据，结合新颖的极限学习机分类器，对数据集样本进行十折交叉的自学习训练，构建医疗决策支持模型，十折交叉验证是常用的测试方法，将数据分成十份，轮流将其中九份作为训练数据，一份作为测试数据进行试验，每次都会得出相应的正确率，然后取十次的平均值作为算法精度的估计。

5.根据权利要求1所述的二阶段混合模型的智能辅助医疗决策支持方法，其特征在于，按照如下方法计算验证测试数据的预测结果：

其中，真正(True Positive，TP)是指被模型预测为正类的正类样本；假负(False Negative，FN)是指被模型预测为负类的正类样本；假正(False Positive，FP)是指被模型预测为正类的负类样本；真负(True Negative，TN)是指被模型预测为负类的负类样本；根据这四个指标衍生的指标：ACC为预测准确率，即(在医疗诊断领域)正确预测患者或是非患者占总样本数的比例；Sensitivity为灵敏性，即(在医疗诊断领域)预测为患者的结果数占实际为患者样本数的比例；Specificity为特效性，即(在医疗诊断领域)预测为非患者的结果数占实际为非患者样本数的比例。