CN110010246A

CN110010246A - 一种基于神经网络和置信区间的疾病智能诊断技术

Info

Publication number: CN110010246A
Application number: CN201910301611.2A
Authority: CN
Inventors: 王森林; 周军海; 秦拯
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2019-04-16
Filing date: 2019-04-16
Publication date: 2019-07-12

Abstract

本发明提出了一种基于神经网络和置信区间的疾病智能诊断技术。首先，对训练样本进行预处理及归一化操作，其次是用主成分分析(PCA)来减小维数以获得最优特征，然后使用BP神经网络来训练特征以获得诊断模型。在利用诊断模型对预测样本进行预测前，我们首先获得训练样本输出值分布的置信区间，然后根据预测值所属的置信区间确定最终预测结果，本发明将BP神经网络算法与置信区间结合起来，相较于传统的检测算法，可显著提高恶性肿瘤的检测率，且误检率低。

Description

一种基于神经网络和置信区间的疾病智能诊断技术

技术领域

本发明涉及的是一种机器学习领域的技术，具体是基于神经网络和置信区间的疾病智能诊断技术。

背景技术

使用传统的方法对疾病进行诊断时，诊断精确度从因人而异，并且受主观因素的影响较大，且不同地区的整体医疗水平参差不齐。

机器学习在医疗领域的应用具有巨大的潜力，能帮助医生和研究人员从数据集中发现规律，从而提升医疗诊断效率，改善医疗服务质量。

目前，机器学习在医疗诊断领域发展迅速，提高了医疗工作人员的诊断效率，一定程度上改善了整体的医疗诊断水平。

当数据的正样本属性和负样本属性特征相似时，大多数机器学习算法通常无法在诊断单一疾病时正确分类数据。

发明内容

本发明的目的旨在解决所述技术缺陷。

为此本发明的目的在于提出了一种基于神经网络和置信区间的疾病智能诊断技术。

本发明涉及一种基于神经网络和置信区间的疾病智能诊断技术，采用的数据集是UCI数据资源库中的威斯康辛大学医学院提供的乳腺癌病灶组织的数据集，本发明包括以下步骤：

步骤S1，对数据进行预处理和归一化操作。

步骤S2，对归一化后的样本进行PCA降维。

步骤S3，使用交叉验证的方法利用神经网络训练样本，得到神经网络模型。

步骤S4，根据网络的输出值，计算出样本的置信区间。

步骤S5，结合测试集落入的置信区间，对样本进行归类。

与现有的机器学习技术，包括决策树、SVM、随机森林、KNN、神经网络相比，本发明在评价样本分类的三项模型评估指标上，即准确率(ACC)、真正率(TPR)、真负率(TNR)分别高于其他机器学习算法1.19％，0.35％、2.67％以上。

附图说明

图1为本发明示意图；

图2为本发明与决策树、SVM、随机森林、KNN、神经网络得到的实验次数和模型准确率之间的关系图。

图3为本发明与决策树、SVM、随机森林、KNN、神经网络得到的实验次数和模型真正率之间的关系图。

图4为本发明与决策树、SVM、随机森林、KNN、神经网络得到的实验次数和模型真负率之间的关系图。

具体实施方式

如图1所示，本实施例包括以下步骤：

第一步：对数据进行预处理和归一化操作，其处理方法为：对数据进行清洗，将数据转为数值型，数据归一化采用的转换公式为：其中x_max为样本数据的最大值，x_min为样本数据的最小值，x为原样本数据，x^*为归一化后的新数据。

第二步：对归一化后的数据进行PCA降维操作，其处理方法为：对所有样本进行中心化，计算协方差矩阵XX^T并做特征值分解，然后取最大的d′个特征值所对应的特征向量w₁，w₂，...，w_d′。其中降维后低维空间的维数d′通常是由用户事先指定，本发明将原数据集的32维的属性降至10维。

第三步：采用交叉验证的方法利用神经网络训练样本，其处理方法为：构建三层神经网络结构，其中输入层10个节点，对应数据样本的10个维度，采用relu激励函数。隐藏层13个节点，采用sigmod激励函数，输出层1 个节点，输出范围是[0，1]。其中0对应样本中的良性肿瘤，1对应样本中的恶性肿瘤。神经网络在训练的过程中采用了机器学习中常用的交叉验证方法，交叉验证采用的是5折交叉验证方法，即将数据集平分成5份，其中4份作为训练集，剩余的1份做为测试集。

第四步：神经网络模型训练完成后，可得到正负样本的实际输出值，利用统计学知识分别算出正负样本的置信区间，本发明选取了3σ区间，即通过训练集在神经网络的输出结果，可分别得到正负样本的置信区间 (μ-3σ＜x＜μ-3σ)。

第五步：结合测试集落入的置信区间，对样本进行归类，其处理方法为：将测试集运行在训练好的网络模型上，得到网络输出值后，根据输出值判断其落入了哪个置信区间，如果落入了正样本的置信区间，则归为正类，如果落入了负样本的置信区间，则归为负类。如果均没有落入在正负样本的置信区间，则分别算出该输出值与正负样本的均值的距离，距离近的，则归在相应类。

表1中列出了使用决策树、支持向量机、随机森林、KNN、BP神经网络和本发明所提算法通过100次实验获得的ACC指标，TPR指标和TNR指标的平均值。可以看到在ACC指标上，本发明比其他方法高出了1.19％到7.21％,相比较于SVM和KNN算法，虽然本发明的准确率有较大的波动，但是其最差的情况的准确率也高于SVM和KNN算法。在TPR指标上，本发明比决策树、随机森林、神经网络高出了0.35％到6.86％，略低于SVM和KNN算法。在TNR指标上，本发明的真负率达到了99.77％，明显优于其他算法，比其他算法高出了2.67％到 10.3％，即患有恶性肿瘤的样本几乎均能检测出来。

表1客观评价指标比较

Claims

1.一种基于神经网络和置信区间的疾病智能诊断技术，其特征是，对样本进行归一化操作，然后用主成分分析(PCA)来减小维数以获得最优特征，再使用BP神经网络来训练特征以获得诊断模型，再根据网络的输出值计算样本的置信区间，最后结合测试集落入的置信区间，对样本进行归类。

2.根据权利要求1所述的基于神经网络和置信区间的疾病智能诊断技术，其特征是，首先对数据集进行归一化操作，再采用PCA降维，然后使用神经网络训练样本，并计算出正负样本输出值的置信区间，最后对预测样本输出值落入的置信区间进行归类，具体包含以下步骤：

1)对数据进行预处理和归一化操作。

2)对归一化后的样本进行PCA降维。

3)使用交叉验证的方法利用神经网络训练样本，得到神经网络模型。

4)根据网络的输出值，计算出样本的置信区间。

5)结合测试集落入的置信区间，对样本进行归类。

3.根据权利要求1或2所述的基于神经网络和置信区间的疾病智能诊断技术，其特征是，所述的归一化操作的方法是其中x_max为样本数据的最大值，x_min为样本数据的最小值，x为原样本数据，x^*为归一化后的新数据。

4.根据权利要求1或2所述的基于神经网络和置信区间的疾病智能诊断技术，其特征是，所述的PCA降维操作的方法是对所有样本进行中心化，计算协方差矩阵XX^T并做特征值分解，然后取最大的d′个特征值所对应的特征向量w₁，w₂，...，w_d′。

5.根据权利要求1或2所述的基于神经网络和置信区间的疾病智能诊断技术，其特征是，所述的根据置信区间对样本进行归类的方法是利用神经网络训练样本得到模型后，统计出正负训练样本输出值的3σ内的置信区间，再判断预测样本的输出值落入了哪个置信区间，如果落入了正样本的置信区间，则归为正类，如果落入了负样本的置信区间，则归为负类。如果均没有落入在正负样本的置信区间，则分别算出该输出值与正负样本的均值的距离，距离近的，则归在相应类。