CN112635064A - 一种基于深度pca变换的早期糖尿病风险预测方法 - Google Patents
一种基于深度pca变换的早期糖尿病风险预测方法 Download PDFInfo
- Publication number
- CN112635064A CN112635064A CN202011624374.2A CN202011624374A CN112635064A CN 112635064 A CN112635064 A CN 112635064A CN 202011624374 A CN202011624374 A CN 202011624374A CN 112635064 A CN112635064 A CN 112635064A
- Authority
- CN
- China
- Prior art keywords
- pca
- transformation
- deep
- feature
- diabetes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Public Health (AREA)
- Medical Informatics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Pathology (AREA)
- Primary Health Care (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明属于数据处理技术领域,具体涉及一种基于深度PCA变换的早期糖尿病风险预测方法,包括下列步骤:输入早期糖尿病数据集;数据预处理,计算皮尔森相关系数,滤除冗余特征,得到输入数据;通过深度PCA提取输入数据的特征集合,作为训练逻辑回归分类器的输入;基于特征集合训练逻辑回归分类器,用于待评估病例样本的判断;输入新的病例样本信息,输出该样本是否患糖尿病的结果判定及相应的置信度。本发明通过基于深度PCA的特征变换方法实现了对病例样本二值化信息的有效提取,同时建立逻辑回归分类器实现对患病样本判定并输出结果的置信度量化指标,便捷有效实现对现有糖尿病病例的早期辅助诊断,及时发现病情。
Description
技术领域
本发明属于数据处理技术领域,具体涉及一种基于深度PCA变换的早期糖尿病风险预测方法。
背景技术
根据世界卫生组织2018年的报告,糖尿病是增长最快的慢性威胁生命的疾病之一,已经影响到全球4.22亿人,由于糖尿病有一个相对较长的无症状期,大约50%的糖尿病患者由于长期无症状期而未被及时诊断,然而糖尿病的早期发现对患者的治疗非常重要,只有通过对常见和不太常见的体征症状进行适当的评估才有可能,这些症状可以在疾病发生到确诊的不同阶段被发现。
存在问题或缺陷的原因:目前糖尿病的诊断基本依靠临床病理分析,无法有效实现糖尿病的早期诊断。
发明内容
针对上述目前糖尿病的诊断基本依靠临床病理分析无法有效实现糖尿病的早期诊断的技术问题,本发明提供了一种使用方便、效率高、准确率高的基于深度PCA变换的早期糖尿病风险预测方法。
为了解决上述技术问题,本发明采用的技术方案为:
一种基于深度PCA变换的早期糖尿病风险预测方法,包括下列步骤:
S100、输入早期糖尿病数据集;
S200、数据预处理,计算皮尔森相关系数,滤除冗余特征,得到输入数据;
S300、通过深度PCA提取输入数据的特征集合,作为训练逻辑回归分类器的输入;
S400、基于特征集合训练逻辑回归分类器,用于待评估病例样本的判断;
S500、输入新的病例样本信息,输出该样本是否患糖尿病的结果判定及相应的置信度。
所述S100中的早期糖尿病数据集包含与糖尿病在早期阶段相关的生理学和病理学指标,以行表示样本个体,以列表示特征变量,并标注是否罹患糖尿病,作为输入。
所述S200中数据预处理的方法为:首先计算各个特征变量之间的相关性,滤除相关性高的冗余特征,相关性的计算取皮尔森相关系数来衡量各特征之间的关系,以0.9为阈值。
所述S300中提取输入数据的特征集合的方法为:首先取前两维主成分作为初始变换的特征,用F1表示进行第一次PCA变换之后获得的两维特征向量,即F1大小为m*2的矩阵,以F1为基底,对其进行扩张,具体方式为以该特征以矩阵乘法的方式乘以该特征的转置,用特征矩阵M1表示,即M1=F1%*%t(F1),其中%*%表示矩阵乘法,t()表示取输入向量的转置,M1为m*m的矩阵,得到M1之后,对M1继续进行PCA变换,获得F2,以上述方式同样进行扩张和变换,直到进行PCA变换得到Fq+1,若Fq+1提供的方差占据原始数据的95%以上,就停止变换,并以F1,F2,…,Fq+1为特征集合,构建逻辑回归分类器。
所述S400中训练逻辑回归分类器的方法为:逻辑回归分类器通过最大化似然函数来求取各个特征向量之间的权重关系,并建立线性回归模型输出对于待测样本的打分值score,结合Sigmoid函数输出分类结果,当score不小于0.5时,输出score的值作为结果的置信度,而当score的结果小于0.5时,输出1-score作为结果的置信度评估。
所述S500中基于构建的逻辑回归分类器,输入待评估的病例样本,得到最终样本判定结果,并输出结果的置信度。
本发明与现有技术相比,具有的有益效果是:
本发明通过基于深度PCA的特征变换方法实现了对病例样本二值化信息的有效提取,同时建立逻辑回归分类器实现对患病样本判定并输出结果的置信度量化指标,便捷有效实现对现有糖尿病病例的早期辅助诊断,及时发现病情。
附图说明
图1为本发明的主要步骤流程图;
图2为本发明的特征计算流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种基于深度PCA变换的早期糖尿病风险预测方法,如图1所示,包括下列步骤:
S100、输入早期糖尿病数据集;
S200、数据预处理,计算皮尔森相关系数,滤除冗余特征,得到输入数据;
S300、通过深度PCA提取输入数据的特征集合,作为训练逻辑回归分类器的输入;
S400、基于特征集合训练逻辑回归分类器,用于待评估病例样本的判断;
S500、输入新的病例样本信息,输出该样本是否患糖尿病的结果判定及相应的置信度。
进一步,步骤S100中,基于可获得的早期糖尿病风险数据集,其中包含与糖尿病在早期阶段相关的生理学和病理学指标,以行表示样本个体,以列表示特征变量,并标注是否罹患糖尿病,作为输入,假设有m个样本,n维特征。
进一步,步骤S200中,输入上述数据后,首先进行预处理,由于目前可获取的早期糖尿病相关数据集基本都是描述型数据,即每列特征取值均为0或者1,表示该特征对应的两种情况,以是“否经常口渴为例”,取值为1,表示该病例患者经常口渴,取值为0,则相反,因此,对该类型的数据,首先计算各个特征变量之间的相关性,滤除相关性高的冗余特征,相关性的计算取皮尔森相关系数,用来衡量各特征之间的关系,以0.9为阈值,当任意两列特征之间的皮尔森系数超过0.9时,就滤除其中一列,保留另一列。
进一步,步骤S300中,如图2所示,基于上述完成预处理的数据,通过深度PCA变换获取特征信息,由于PCA是将原始的n维特征映射到k维上,k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构造出来的k维特征,PCA是从原始的空间中顺序地找一组相互正交的坐标轴,新的坐标轴的选择与数据本身密切相关,其中,第一个新坐标轴选择是原始数据中方差最大的方向,第二个新坐标轴选取是与第一个坐标轴正交的平面中使得方差最大的,第三个轴是与第1,2个轴正交的平面中方差最大的,依次类推,可以得到n个这样的坐标轴。通过这种方式获得的新的特征向量,大部分方差都包含在前面k个坐标轴中,后面的特征向量所含的方差几乎为0,因此可以忽略余下的坐标轴,只保留前面k个含有绝大部分方差的坐标轴,深度PCA就是通过对数据进行多次PCA变换以获取多特征信息,本方法取前两维主成分作为初始变换的特征,用F1表示进行第一次PCA变换之后获得的两维特征向量,即F1大小为m*2的矩阵,考虑到F1包含了关于原始数据的主要信息,以F1为基底,对其进行扩张,具体方式为以该特征矩阵乘法的方式乘以该特征的转置,用特征矩阵M1表示,即M1=F1%*%t(F1),其中%*%表示矩阵乘法,t()表示取输入向量的转置,M1为m*m的矩阵,得到M1之后,对M1继续进行PCA变换,获得F2,以上述方式同样进行扩张和变换,假设进行q次PCA变换得到Mq,对Mq进行PCA变换得到Fq+1,若Fq+1提供的方差占据原始数据的95%以上,就停止变换,并以F1,F2,…,Fq+1为特征集合,构建逻辑回归分类器。
进一步,步骤S400中,基于上述深度PCA变换得到的特征集合,构建逻辑回归分类器,通过最大化似然函数来求取各个特征向量之间的权重关系,并建立线性回归模型输出对于待测样本的打分值score,结合Sigmoid函数输出分类结果,提取打分score作为结果置信度评估,由于打分的值越靠近0或者1就表示结果越容易判断,因此当score不小于0.5时,输出score的值作为结果的置信度;而当score的结果小于0.5时,输出1-score作为结果的置信度评估。
进一步,步骤S500中,基于上述建立好的逻辑回归分类器,对于待评估的病例样本,首先通过深度PCA计算特征集合,然后输入建立好的逻辑回归分类得到最终样本判定结果,并且输出结果的置信度评估。
上面仅对本发明的较佳实施例作了详细说明,但是本发明并不限于上述实施例,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化,各种变化均应包含在本发明的保护范围之内。
Claims (6)
1.一种基于深度PCA变换的早期糖尿病风险预测方法,其特征在于:包括下列步骤:
S100、输入早期糖尿病数据集;
S200、数据预处理,计算皮尔森相关系数,滤除冗余特征,得到输入数据;
S300、通过深度PCA提取输入数据的特征集合,作为训练逻辑回归分类器的输入;
S400、基于特征集合训练逻辑回归分类器,用于待评估病例样本的判断;
S500、输入新的病例样本信息,输出该样本是否患糖尿病的结果判定及相应的置信度。
2.根据权利要求1所述的一种基于深度PCA变换的早期糖尿病风险预测方法,其特征在于:所述S100中的早期糖尿病数据集包含与糖尿病在早期阶段相关的生理学和病理学指标,以行表示样本个体,以列表示特征变量,并标注是否罹患糖尿病,作为输入。
3.根据权利要求1所述的一种基于深度PCA变换的早期糖尿病风险预测方法,其特征在于:所述S200中数据预处理的方法为:首先计算各个特征变量之间的相关性,滤除相关性高的冗余特征,相关性的计算取皮尔森相关系数来衡量各特征之间的关系,以0.9为阈值。
4.根据权利要求1所述的一种基于深度PCA变换的早期糖尿病风险预测方法,其特征在于:所述S300中提取输入数据的特征集合的方法为:首先取前两维主成分作为初始变换的特征,用F1表示进行第一次PCA变换之后获得的两维特征向量,即F1大小为m*2的矩阵,以F1为基底,对其进行扩张,具体方式为以该特征以矩阵乘法的方式乘以该特征的转置,用特征矩阵M1表示,即M1=F1%*%t(F1),其中%*%表示矩阵乘法,t()表示取输入向量的转置,M1为m*m的矩阵,得到M1之后,对M1继续进行PCA变换,获得F2,以上述方式同样进行扩张和变换,直到进行PCA变换得到Fq+1,若Fq+1提供的方差占据原始数据的95%以上,就停止变换,并以F1,F2,…,Fq+1为特征集合,构建逻辑回归分类器。
5.根据权利要求1所述的一种基于深度PCA变换的早期糖尿病风险预测方法,其特征在于:所述S400中训练逻辑回归分类器的方法为:逻辑回归分类器通过最大化似然函数来求取各个特征向量之间的权重关系,并建立线性回归模型输出对于待测样本的打分值score,结合Sigmoid函数输出分类结果,当score不小于0.5时,输出score的值作为结果的置信度,而当score的结果小于0.5时,输出1-score作为结果的置信度评估。
6.根据权利要求1所述的一种基于深度PCA变换的早期糖尿病风险预测方法,其特征在于:所述S500中基于构建的逻辑回归分类器,输入待评估的病例样本,得到最终样本判定结果,并输出结果的置信度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011624374.2A CN112635064B (zh) | 2020-12-31 | 2020-12-31 | 一种基于深度pca变换的早期糖尿病风险预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011624374.2A CN112635064B (zh) | 2020-12-31 | 2020-12-31 | 一种基于深度pca变换的早期糖尿病风险预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112635064A true CN112635064A (zh) | 2021-04-09 |
CN112635064B CN112635064B (zh) | 2022-08-09 |
Family
ID=75289714
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011624374.2A Active CN112635064B (zh) | 2020-12-31 | 2020-12-31 | 一种基于深度pca变换的早期糖尿病风险预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112635064B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113096815A (zh) * | 2021-05-28 | 2021-07-09 | 齐齐哈尔大学 | 一种基于logistic回归的慢性肾病预测方法 |
CN115359916A (zh) * | 2022-10-19 | 2022-11-18 | 四川大学华西医院 | 糖尿病风险评估方法及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140222349A1 (en) * | 2013-01-16 | 2014-08-07 | Assurerx Health, Inc. | System and Methods for Pharmacogenomic Classification |
CN105825288A (zh) * | 2015-12-07 | 2016-08-03 | 北京师范大学 | 一种消除复杂系统中回归数据共线性问题的优化分析方法 |
CN107403072A (zh) * | 2017-08-07 | 2017-11-28 | 北京工业大学 | 一种基于机器学习的2型糖尿病预测预警方法 |
CN109271555A (zh) * | 2018-09-19 | 2019-01-25 | 上海哔哩哔哩科技有限公司 | 信息聚类方法、系统、服务器及计算机可读存储介质 |
CN111009321A (zh) * | 2019-08-14 | 2020-04-14 | 电子科技大学 | 一种机器学习分类模型在青少年孤独症辅助诊断中的应用方法 |
CN111797692A (zh) * | 2020-06-05 | 2020-10-20 | 武汉大学 | 一种基于半监督学习的深度图像手势估计方法 |
CN111951953A (zh) * | 2020-07-20 | 2020-11-17 | 肾泰网健康科技(南京)有限公司 | 基于ai技术的糖尿病肾脏疾病筛查方法、模型及系统 |
US20200402660A1 (en) * | 2019-06-20 | 2020-12-24 | Latha Chakravarthy | Diagnostic Process for Disease Detection using Gene Expression based Multi Layer PCA Classifier |
-
2020
- 2020-12-31 CN CN202011624374.2A patent/CN112635064B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140222349A1 (en) * | 2013-01-16 | 2014-08-07 | Assurerx Health, Inc. | System and Methods for Pharmacogenomic Classification |
CN105825288A (zh) * | 2015-12-07 | 2016-08-03 | 北京师范大学 | 一种消除复杂系统中回归数据共线性问题的优化分析方法 |
CN107403072A (zh) * | 2017-08-07 | 2017-11-28 | 北京工业大学 | 一种基于机器学习的2型糖尿病预测预警方法 |
CN109271555A (zh) * | 2018-09-19 | 2019-01-25 | 上海哔哩哔哩科技有限公司 | 信息聚类方法、系统、服务器及计算机可读存储介质 |
US20200402660A1 (en) * | 2019-06-20 | 2020-12-24 | Latha Chakravarthy | Diagnostic Process for Disease Detection using Gene Expression based Multi Layer PCA Classifier |
CN111009321A (zh) * | 2019-08-14 | 2020-04-14 | 电子科技大学 | 一种机器学习分类模型在青少年孤独症辅助诊断中的应用方法 |
CN111797692A (zh) * | 2020-06-05 | 2020-10-20 | 武汉大学 | 一种基于半监督学习的深度图像手势估计方法 |
CN111951953A (zh) * | 2020-07-20 | 2020-11-17 | 肾泰网健康科技(南京)有限公司 | 基于ai技术的糖尿病肾脏疾病筛查方法、模型及系统 |
Non-Patent Citations (3)
Title |
---|
MAFIZUR RAHMAN,ETC: "Diabetes Recognition in Pregnant Women by Extracting Features Using PCA and Data Mining Algorithms", 《 2019 IEEE PUNE SECTION INTERNATIONAL CONFERENCE (PUNECON)》 * |
王洁 等: "基于Logistic回归和多层神经网络的Ⅱ型糖尿病并发症预测", 《高技术通讯》 * |
章权 等: "基于Stacking的糖尿病预测方法研究", 《智能计算机与应用》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113096815A (zh) * | 2021-05-28 | 2021-07-09 | 齐齐哈尔大学 | 一种基于logistic回归的慢性肾病预测方法 |
CN115359916A (zh) * | 2022-10-19 | 2022-11-18 | 四川大学华西医院 | 糖尿病风险评估方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112635064B (zh) | 2022-08-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108806792B (zh) | 深度学习面诊系统 | |
CN112635064B (zh) | 一种基于深度pca变换的早期糖尿病风险预测方法 | |
CN108090509B (zh) | 一种数据长度自适应的心电图分类方法 | |
CN112419321B (zh) | X射线图像识别方法、装置、计算机设备及存储介质 | |
CN113610118B (zh) | 一种基于多任务课程式学习的青光眼诊断方法、装置、设备及方法 | |
CN117116477A (zh) | 基于随机森林和XGBoost的前列腺癌患病风险预测模型的构建方法及系统 | |
CN113012163A (zh) | 一种基于多尺度注意力网络的视网膜血管分割方法、设备及存储介质 | |
CN112932499A (zh) | 网络训练和单导联心电数据处理方法、计算机装置和介质 | |
Laxmikant et al. | An efficient approach to detect diabetes using XGBoost classifier | |
Pavithra et al. | Hybrid feature selection technique for prediction of cardiovascular diseases | |
CN109907751B (zh) | 一种基于人工智能监督学习的实验室胸痛数据检查辅助识别方法 | |
CN112233742A (zh) | 一种基于聚类的病历文档分类系统、设备、存储介质 | |
Andi et al. | Analysis of the random forest and grid search algorithms in early detection of diabetes mellitus disease | |
CN117116475A (zh) | 缺血性脑卒中的风险预测方法、系统、终端及存储介质 | |
CN116172573A (zh) | 一种基于改进的Inception-ResNet-v2的心律失常图像分类方法 | |
KR102373778B1 (ko) | 심전도 데이터로부터 광용적맥파 데이터를 생성하는 장치 및 방법 | |
CN113647954A (zh) | 双通道混合网络模型的心血管疾病识别方法、装置及介质 | |
Umamaheswari et al. | Prediction of myocardial infarction using K-medoid clustering algorithm | |
CN113171105A (zh) | 基于集成cnn的心肌缺血的识别分类方法 | |
Choudhary et al. | Prediction of cardiovascular disease using data mining technique | |
Singh et al. | Heart Disease Prediction Using Machine Learning Algorithm | |
Chowdary et al. | Multiple Disease Prediction by Applying Machine Learning and Deep Learning Algorithms | |
JP2021189093A (ja) | 自己免疫性水疱症の診断装置 | |
JP2011257816A (ja) | 受診者状態推定装置及びプログラム | |
Kaur et al. | Brain Stroke Prediction System–A Review |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |