CN112635064A

CN112635064A - 一种基于深度pca变换的早期糖尿病风险预测方法

Info

Publication number: CN112635064A
Application number: CN202011624374.2A
Authority: CN
Inventors: 潘晓光; 田奇; 李娟�; 宋晓晨; 韩丹
Original assignee: Shanxi Sanyouhe Smart Information Technology Co Ltd
Current assignee: Shanxi Sanyouhe Smart Information Technology Co Ltd
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2021-04-09
Anticipated expiration: 2040-12-31
Also published as: CN112635064B

Abstract

本发明属于数据处理技术领域，具体涉及一种基于深度PCA变换的早期糖尿病风险预测方法，包括下列步骤：输入早期糖尿病数据集；数据预处理，计算皮尔森相关系数，滤除冗余特征，得到输入数据；通过深度PCA提取输入数据的特征集合，作为训练逻辑回归分类器的输入；基于特征集合训练逻辑回归分类器，用于待评估病例样本的判断；输入新的病例样本信息，输出该样本是否患糖尿病的结果判定及相应的置信度。本发明通过基于深度PCA的特征变换方法实现了对病例样本二值化信息的有效提取，同时建立逻辑回归分类器实现对患病样本判定并输出结果的置信度量化指标，便捷有效实现对现有糖尿病病例的早期辅助诊断，及时发现病情。

Description

一种基于深度PCA变换的早期糖尿病风险预测方法

技术领域

本发明属于数据处理技术领域，具体涉及一种基于深度PCA变换的早期糖尿病风险预测方法。

背景技术

根据世界卫生组织2018年的报告，糖尿病是增长最快的慢性威胁生命的疾病之一，已经影响到全球4.22亿人，由于糖尿病有一个相对较长的无症状期，大约50％的糖尿病患者由于长期无症状期而未被及时诊断，然而糖尿病的早期发现对患者的治疗非常重要，只有通过对常见和不太常见的体征症状进行适当的评估才有可能，这些症状可以在疾病发生到确诊的不同阶段被发现。

存在问题或缺陷的原因：目前糖尿病的诊断基本依靠临床病理分析，无法有效实现糖尿病的早期诊断。

发明内容

针对上述目前糖尿病的诊断基本依靠临床病理分析无法有效实现糖尿病的早期诊断的技术问题，本发明提供了一种使用方便、效率高、准确率高的基于深度PCA变换的早期糖尿病风险预测方法。

为了解决上述技术问题，本发明采用的技术方案为：

一种基于深度PCA变换的早期糖尿病风险预测方法，包括下列步骤：

S100、输入早期糖尿病数据集；

S200、数据预处理，计算皮尔森相关系数，滤除冗余特征，得到输入数据；

S300、通过深度PCA提取输入数据的特征集合，作为训练逻辑回归分类器的输入；

S400、基于特征集合训练逻辑回归分类器，用于待评估病例样本的判断；

S500、输入新的病例样本信息，输出该样本是否患糖尿病的结果判定及相应的置信度。

所述S100中的早期糖尿病数据集包含与糖尿病在早期阶段相关的生理学和病理学指标，以行表示样本个体，以列表示特征变量，并标注是否罹患糖尿病，作为输入。

所述S200中数据预处理的方法为：首先计算各个特征变量之间的相关性，滤除相关性高的冗余特征，相关性的计算取皮尔森相关系数来衡量各特征之间的关系，以0.9为阈值。

所述S300中提取输入数据的特征集合的方法为：首先取前两维主成分作为初始变换的特征，用F1表示进行第一次PCA变换之后获得的两维特征向量，即F1大小为m*2的矩阵，以F1为基底，对其进行扩张，具体方式为以该特征以矩阵乘法的方式乘以该特征的转置，用特征矩阵M1表示，即M1＝F1％*％t(F1)，其中％*％表示矩阵乘法，t()表示取输入向量的转置，M1为m*m的矩阵，得到M1之后，对M1继续进行PCA变换，获得F2，以上述方式同样进行扩张和变换，直到进行PCA变换得到Fq+1，若Fq+1提供的方差占据原始数据的95％以上，就停止变换，并以F1，F2，…，Fq+1为特征集合，构建逻辑回归分类器。

所述S400中训练逻辑回归分类器的方法为：逻辑回归分类器通过最大化似然函数来求取各个特征向量之间的权重关系，并建立线性回归模型输出对于待测样本的打分值score，结合Sigmoid函数输出分类结果，当score不小于0.5时，输出score的值作为结果的置信度，而当score的结果小于0.5时，输出1-score作为结果的置信度评估。

所述S500中基于构建的逻辑回归分类器，输入待评估的病例样本，得到最终样本判定结果，并输出结果的置信度。

本发明与现有技术相比，具有的有益效果是：

本发明通过基于深度PCA的特征变换方法实现了对病例样本二值化信息的有效提取，同时建立逻辑回归分类器实现对患病样本判定并输出结果的置信度量化指标，便捷有效实现对现有糖尿病病例的早期辅助诊断，及时发现病情。

附图说明

图1为本发明的主要步骤流程图；

图2为本发明的特征计算流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种基于深度PCA变换的早期糖尿病风险预测方法，如图1所示，包括下列步骤：

S100、输入早期糖尿病数据集；

进一步，步骤S100中，基于可获得的早期糖尿病风险数据集，其中包含与糖尿病在早期阶段相关的生理学和病理学指标，以行表示样本个体，以列表示特征变量，并标注是否罹患糖尿病，作为输入，假设有m个样本，n维特征。

进一步，步骤S200中，输入上述数据后，首先进行预处理，由于目前可获取的早期糖尿病相关数据集基本都是描述型数据，即每列特征取值均为0或者1，表示该特征对应的两种情况，以是“否经常口渴为例”，取值为1，表示该病例患者经常口渴，取值为0，则相反，因此，对该类型的数据，首先计算各个特征变量之间的相关性，滤除相关性高的冗余特征，相关性的计算取皮尔森相关系数，用来衡量各特征之间的关系，以0.9为阈值，当任意两列特征之间的皮尔森系数超过0.9时，就滤除其中一列，保留另一列。

进一步，步骤S300中，如图2所示，基于上述完成预处理的数据，通过深度PCA变换获取特征信息，由于PCA是将原始的n维特征映射到k维上，k维是全新的正交特征也被称为主成分，是在原有n维特征的基础上重新构造出来的k维特征，PCA是从原始的空间中顺序地找一组相互正交的坐标轴，新的坐标轴的选择与数据本身密切相关，其中，第一个新坐标轴选择是原始数据中方差最大的方向，第二个新坐标轴选取是与第一个坐标轴正交的平面中使得方差最大的，第三个轴是与第1,2个轴正交的平面中方差最大的，依次类推，可以得到n个这样的坐标轴。通过这种方式获得的新的特征向量，大部分方差都包含在前面k个坐标轴中，后面的特征向量所含的方差几乎为0，因此可以忽略余下的坐标轴，只保留前面k个含有绝大部分方差的坐标轴，深度PCA就是通过对数据进行多次PCA变换以获取多特征信息，本方法取前两维主成分作为初始变换的特征，用F1表示进行第一次PCA变换之后获得的两维特征向量，即F1大小为m*2的矩阵，考虑到F1包含了关于原始数据的主要信息，以F1为基底，对其进行扩张，具体方式为以该特征矩阵乘法的方式乘以该特征的转置，用特征矩阵M1表示，即M1＝F1％*％t(F1)，其中％*％表示矩阵乘法，t()表示取输入向量的转置，M1为m*m的矩阵，得到M1之后，对M1继续进行PCA变换，获得F2，以上述方式同样进行扩张和变换，假设进行q次PCA变换得到Mq，对Mq进行PCA变换得到Fq+1，若Fq+1提供的方差占据原始数据的95％以上，就停止变换，并以F1，F2，…，Fq+1为特征集合，构建逻辑回归分类器。

进一步，步骤S400中，基于上述深度PCA变换得到的特征集合，构建逻辑回归分类器，通过最大化似然函数来求取各个特征向量之间的权重关系，并建立线性回归模型输出对于待测样本的打分值score，结合Sigmoid函数输出分类结果，提取打分score作为结果置信度评估，由于打分的值越靠近0或者1就表示结果越容易判断，因此当score不小于0.5时，输出score的值作为结果的置信度；而当score的结果小于0.5时，输出1-score作为结果的置信度评估。

进一步，步骤S500中，基于上述建立好的逻辑回归分类器，对于待评估的病例样本，首先通过深度PCA计算特征集合，然后输入建立好的逻辑回归分类得到最终样本判定结果，并且输出结果的置信度评估。

上面仅对本发明的较佳实施例作了详细说明，但是本发明并不限于上述实施例，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化，各种变化均应包含在本发明的保护范围之内。

Claims

1.一种基于深度PCA变换的早期糖尿病风险预测方法，其特征在于：包括下列步骤：

S100、输入早期糖尿病数据集；

2.根据权利要求1所述的一种基于深度PCA变换的早期糖尿病风险预测方法，其特征在于：所述S100中的早期糖尿病数据集包含与糖尿病在早期阶段相关的生理学和病理学指标，以行表示样本个体，以列表示特征变量，并标注是否罹患糖尿病，作为输入。

3.根据权利要求1所述的一种基于深度PCA变换的早期糖尿病风险预测方法，其特征在于：所述S200中数据预处理的方法为：首先计算各个特征变量之间的相关性，滤除相关性高的冗余特征，相关性的计算取皮尔森相关系数来衡量各特征之间的关系，以0.9为阈值。

4.根据权利要求1所述的一种基于深度PCA变换的早期糖尿病风险预测方法，其特征在于：所述S300中提取输入数据的特征集合的方法为：首先取前两维主成分作为初始变换的特征，用F1表示进行第一次PCA变换之后获得的两维特征向量，即F1大小为m*2的矩阵，以F1为基底，对其进行扩张，具体方式为以该特征以矩阵乘法的方式乘以该特征的转置，用特征矩阵M1表示，即M1＝F1％*％t(F1)，其中％*％表示矩阵乘法，t()表示取输入向量的转置，M1为m*m的矩阵，得到M1之后，对M1继续进行PCA变换，获得F2，以上述方式同样进行扩张和变换，直到进行PCA变换得到Fq+1，若Fq+1提供的方差占据原始数据的95％以上，就停止变换，并以F1，F2，…，Fq+1为特征集合，构建逻辑回归分类器。

5.根据权利要求1所述的一种基于深度PCA变换的早期糖尿病风险预测方法，其特征在于：所述S400中训练逻辑回归分类器的方法为：逻辑回归分类器通过最大化似然函数来求取各个特征向量之间的权重关系，并建立线性回归模型输出对于待测样本的打分值score，结合Sigmoid函数输出分类结果，当score不小于0.5时，输出score的值作为结果的置信度，而当score的结果小于0.5时，输出1-score作为结果的置信度评估。

6.根据权利要求1所述的一种基于深度PCA变换的早期糖尿病风险预测方法，其特征在于：所述S500中基于构建的逻辑回归分类器，输入待评估的病例样本，得到最终样本判定结果，并输出结果的置信度。