CN110010246A - 一种基于神经网络和置信区间的疾病智能诊断技术 - Google Patents
一种基于神经网络和置信区间的疾病智能诊断技术 Download PDFInfo
- Publication number
- CN110010246A CN110010246A CN201910301611.2A CN201910301611A CN110010246A CN 110010246 A CN110010246 A CN 110010246A CN 201910301611 A CN201910301611 A CN 201910301611A CN 110010246 A CN110010246 A CN 110010246A
- Authority
- CN
- China
- Prior art keywords
- confidence interval
- sample
- neural network
- output valve
- intelligent diagnosis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- Public Health (AREA)
- Pathology (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Investigating Or Analysing Biological Materials (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明提出了一种基于神经网络和置信区间的疾病智能诊断技术。首先,对训练样本进行预处理及归一化操作,其次是用主成分分析(PCA)来减小维数以获得最优特征,然后使用BP神经网络来训练特征以获得诊断模型。在利用诊断模型对预测样本进行预测前,我们首先获得训练样本输出值分布的置信区间,然后根据预测值所属的置信区间确定最终预测结果,本发明将BP神经网络算法与置信区间结合起来,相较于传统的检测算法,可显著提高恶性肿瘤的检测率,且误检率低。
Description
技术领域
本发明涉及的是一种机器学习领域的技术,具体是基于神经网络和置信区间的疾病智能诊断技术。
背景技术
使用传统的方法对疾病进行诊断时,诊断精确度从因人而异,并且受主观因素的影响较大,且不同地区的整体医疗水平参差不齐。
机器学习在医疗领域的应用具有巨大的潜力,能帮助医生和研究人员从数据集中发现规律,从而提升医疗诊断效率,改善医疗服务质量。
目前,机器学习在医疗诊断领域发展迅速,提高了医疗工作人员的诊断效率,一定程度上改善了整体的医疗诊断水平。
当数据的正样本属性和负样本属性特征相似时,大多数机器学习算法通常无法在诊断单一疾病时正确分类数据。
发明内容
本发明的目的旨在解决所述技术缺陷。
为此本发明的目的在于提出了一种基于神经网络和置信区间的疾病智能诊断技术。
本发明涉及一种基于神经网络和置信区间的疾病智能诊断技术,采用的数据集是UCI数据资源库中的威斯康辛大学医学院提供的乳腺癌病灶组织的数据集,本发明包括以下步骤:
步骤S1,对数据进行预处理和归一化操作。
步骤S2,对归一化后的样本进行PCA降维。
步骤S3,使用交叉验证的方法利用神经网络训练样本,得到神经网络模型。
步骤S4,根据网络的输出值,计算出样本的置信区间。
步骤S5,结合测试集落入的置信区间,对样本进行归类。
与现有的机器学习技术,包括决策树、SVM、随机森林、KNN、神经网络相比,本发明在评价样本分类的三项模型评估指标上,即准确率(ACC)、真正率(TPR)、真负率(TNR)分别高于其他机器学习算法1.19%,0.35%、2.67%以上。
附图说明
图1为本发明示意图;
图2为本发明与决策树、SVM、随机森林、KNN、神经网络得到的实验次数和模型准确率之间的关系图。
图3为本发明与决策树、SVM、随机森林、KNN、神经网络得到的实验次数和模型真正率之间的关系图。
图4为本发明与决策树、SVM、随机森林、KNN、神经网络得到的实验次数和模型真负率之间的关系图。
具体实施方式
如图1所示,本实施例包括以下步骤:
第一步:对数据进行预处理和归一化操作,其处理方法为:对数据进行清洗,将数据转为数值型,数据归一化采用的转换公式为:其中xmax为样本数据的最大值,xmin为样本数据的最小值,x为原样本数据,x*为归一化后的新数据。
第二步:对归一化后的数据进行PCA降维操作,其处理方法为:对所有样本进行中心化,计算协方差矩阵XXT并做特征值分解,然后取最大的d′个特征值所对应的特征向量w1,w2,...,wd′。其中降维后低维空间的维数d′通常是由用户事先指定,本发明将原数据集的32维的属性降至10维。
第三步:采用交叉验证的方法利用神经网络训练样本,其处理方法为:构建三层神经网络结构,其中输入层10个节点,对应数据样本的10个维度,采用relu激励函数。隐藏层13个节点,采用sigmod激励函数,输出层1 个节点,输出范围是[0,1]。其中0对应样本中的良性肿瘤,1对应样本中的恶性肿瘤。神经网络在训练的过程中采用了机器学习中常用的交叉验证方法,交叉验证采用的是5折交叉验证方法,即将数据集平分成5份,其中4份作为训练集,剩余的1份做为测试集。
第四步:神经网络模型训练完成后,可得到正负样本的实际输出值,利用统计学知识分别算出正负样本的置信区间,本发明选取了3σ区间,即通过训练集在神经网络的输出结果,可分别得到正负样本的置信区间 (μ-3σ<x<μ-3σ)。
第五步:结合测试集落入的置信区间,对样本进行归类,其处理方法为:将测试集运行在训练好的网络模型上,得到网络输出值后,根据输出值判断其落入了哪个置信区间,如果落入了正样本的置信区间,则归为正类,如果落入了负样本的置信区间,则归为负类。如果均没有落入在正负样本的置信区间,则分别算出该输出值与正负样本的均值的距离,距离近的,则归在相应类。
表1中列出了使用决策树、支持向量机、随机森林、KNN、BP神经网络和本发明所提算法通过100次实验获得的ACC指标,TPR指标和TNR指标的平均值。可以看到在ACC指标上,本发明比其他方法高出了1.19%到7.21%,相比较于SVM和KNN算法,虽然本发明的准确率有较大的波动,但是其最差的情况的准确率也高于SVM和KNN算法。在TPR指标上,本发明比决策树、随机森林、神经网络高出了0.35%到6.86%,略低于SVM和KNN算法。在TNR指标上,本发明的真负率达到了99.77%,明显优于其他算法,比其他算法高出了2.67%到 10.3%,即患有恶性肿瘤的样本几乎均能检测出来。
表1客观评价指标比较
Claims (5)
1.一种基于神经网络和置信区间的疾病智能诊断技术,其特征是,对样本进行归一化操作,然后用主成分分析(PCA)来减小维数以获得最优特征,再使用BP神经网络来训练特征以获得诊断模型,再根据网络的输出值计算样本的置信区间,最后结合测试集落入的置信区间,对样本进行归类。
2.根据权利要求1所述的基于神经网络和置信区间的疾病智能诊断技术,其特征是,首先对数据集进行归一化操作,再采用PCA降维,然后使用神经网络训练样本,并计算出正负样本输出值的置信区间,最后对预测样本输出值落入的置信区间进行归类,具体包含以下步骤:
1)对数据进行预处理和归一化操作。
2)对归一化后的样本进行PCA降维。
3)使用交叉验证的方法利用神经网络训练样本,得到神经网络模型。
4)根据网络的输出值,计算出样本的置信区间。
5)结合测试集落入的置信区间,对样本进行归类。
3.根据权利要求1或2所述的基于神经网络和置信区间的疾病智能诊断技术,其特征是,所述的归一化操作的方法是其中xmax为样本数据的最大值,xmin为样本数据的最小值,x为原样本数据,x*为归一化后的新数据。
4.根据权利要求1或2所述的基于神经网络和置信区间的疾病智能诊断技术,其特征是,所述的PCA降维操作的方法是对所有样本进行中心化,计算协方差矩阵XXT并做特征值分解,然后取最大的d′个特征值所对应的特征向量w1,w2,...,wd′。
5.根据权利要求1或2所述的基于神经网络和置信区间的疾病智能诊断技术,其特征是,所述的根据置信区间对样本进行归类的方法是利用神经网络训练样本得到模型后,统计出正负训练样本输出值的3σ内的置信区间,再判断预测样本的输出值落入了哪个置信区间,如果落入了正样本的置信区间,则归为正类,如果落入了负样本的置信区间,则归为负类。如果均没有落入在正负样本的置信区间,则分别算出该输出值与正负样本的均值的距离,距离近的,则归在相应类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910301611.2A CN110010246A (zh) | 2019-04-16 | 2019-04-16 | 一种基于神经网络和置信区间的疾病智能诊断技术 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910301611.2A CN110010246A (zh) | 2019-04-16 | 2019-04-16 | 一种基于神经网络和置信区间的疾病智能诊断技术 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110010246A true CN110010246A (zh) | 2019-07-12 |
Family
ID=67172087
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910301611.2A Pending CN110010246A (zh) | 2019-04-16 | 2019-04-16 | 一种基于神经网络和置信区间的疾病智能诊断技术 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110010246A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110427663A (zh) * | 2019-07-17 | 2019-11-08 | 武汉大学 | 基于时间序列网络的面降水-水位模拟方法 |
CN112185548A (zh) * | 2020-09-25 | 2021-01-05 | 广州宝荣科技应用有限公司 | 一种基于神经网络算法的智能中医诊断方法及装置 |
-
2019
- 2019-04-16 CN CN201910301611.2A patent/CN110010246A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110427663A (zh) * | 2019-07-17 | 2019-11-08 | 武汉大学 | 基于时间序列网络的面降水-水位模拟方法 |
CN112185548A (zh) * | 2020-09-25 | 2021-01-05 | 广州宝荣科技应用有限公司 | 一种基于神经网络算法的智能中医诊断方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108389201B (zh) | 基于3d卷积神经网络与深度学习的肺结节良恶性分类方法 | |
CN108877949B (zh) | 基于孤立森林算法和投票机制的唐氏综合症筛查方法 | |
CN106897570A (zh) | 一种基于机器学习的慢性阻塞性肺疾病测试系统 | |
CN111009321A (zh) | 一种机器学习分类模型在青少年孤独症辅助诊断中的应用方法 | |
CN112950614B (zh) | 一种基于多尺度空洞卷积的乳腺癌病理图片分类方法 | |
Kangra et al. | Comparative analysis of predictive machine learning algorithms for diabetes mellitus | |
CN108304887A (zh) | 基于少数类样本合成的朴素贝叶斯数据处理系统及方法 | |
CN106529165A (zh) | 基于稀疏相似矩阵的谱聚类算法识别癌症分子亚型的方法 | |
CN108847285A (zh) | 基于机器学习的孕前期及孕中期唐氏综合征筛查方法 | |
CN108492877A (zh) | 一种基于ds证据理论的心血管病辅助预测方法 | |
WO2023198224A1 (zh) | 一种精神障碍类磁共振图像初步筛查模型构建方法 | |
CN110010246A (zh) | 一种基于神经网络和置信区间的疾病智能诊断技术 | |
CN111370126A (zh) | 基于惩罚集成模型的icu死亡率预测方法及系统 | |
CN117116477A (zh) | 基于随机森林和XGBoost的前列腺癌患病风险预测模型的构建方法及系统 | |
CN115083604A (zh) | 一种术后不良事件预测模型的构建方法、系统和预测装置 | |
CN113593708A (zh) | 基于集成学习算法的脓毒症预后预测方法 | |
CN116259415A (zh) | 一种基于机器学习的患者服药依从性预测方法 | |
CN116564521A (zh) | 一种慢性病风险评估模型建立方法、介质及系统 | |
CN118312816A (zh) | 基于成员选择的簇加权聚类集成医学数据处理方法及系统 | |
CN114864086A (zh) | 一种基于肺功能报告模板的疾病预测方法 | |
CN118173276A (zh) | 一种出血性脑卒中临床智能预测方法 | |
CN106601271A (zh) | 一种语音异常信号检测系统 | |
CN113539473A (zh) | 一种仅使用血常规检验数据诊断布氏杆菌病的方法及系统 | |
Krawczyk et al. | Breast thermogram analysis using a cost-sensitive multiple classifier system | |
CN116313111A (zh) | 基于组合模型的乳腺癌风险预测方法、系统、介质、设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190712 |