CN110634563A

CN110634563A - 一种糖尿病肾病-非糖尿病肾病鉴别诊断装置

Info

Publication number: CN110634563A
Application number: CN201910541801.1A
Authority: CN
Inventors: 陈香美; 刘晓敏; 张伟光; 董哲毅
Original assignee: Chinese PLA General Hospital
Current assignee: Chinese PLA General Hospital
Priority date: 2019-06-21
Filing date: 2019-06-21
Publication date: 2019-12-31

Abstract

本发明提供了一种糖尿病肾病‑非糖尿病肾病鉴别诊断装置，涉及生物检测技术领域，克服了传统慢性肾脏病临床实践指南(KDOQI)中的标准并不客观和统一，不适合作为诊断标准以及传统肾穿刺活检技术创伤性较大，术后会引起并发症，且技术难度较高的弊端。本发明提供的糖尿病肾病‑非糖尿病肾病鉴别诊断过程通过采用机器学习方法选取新的指标构建糖尿病肾病和非糖尿病肾病的鉴别诊断模型，能够减少病人痛苦、诊断结果准确、且适用范围广，对临床实践提供了良好的辅助诊断作用。

Description

一种糖尿病肾病-非糖尿病肾病鉴别诊断装置

技术领域

本发明涉及生物检测技术领域，尤其是涉及一种糖尿病肾病-非糖尿病肾病鉴别诊断装置。

背景技术

对于合并糖尿病和慢性肾脏病的患者来说，其慢性肾脏病引发的原因可能是糖尿病，这就是糖尿病肾病(Diabetic nephropathy，DN)。糖尿病肾病是糖尿病最严重的慢性微血管并发症之一，由糖尿病引起的微血管病变而导致的肾小球硬化，是本症的特点，并最终引起终末肾衰竭，是糖尿病患者死亡的主要原因之一。

但是还有一部分糖尿病患者，其慢性肾脏病的病因是其它原因，把其它病因引起的统称为非糖尿病肾病(Non-diabetic renal disease，NDRD)。

糖尿病肾病和非糖尿病肾病两类患者的临床特征相似。由于NDRD与DN 病因不同，病理特征不同，治疗方法不同，因此NDRD与DN的鉴别诊断具有重要意义，对进一步的治疗起决定性作用，与疾病预后直接相关。

现有的诊断方法是根据相应的诊断标准，即慢性肾脏病临床实践指南 (KDOQI)。诊断糖尿病肾病DN的标准是：以下三条满足任意一条即可诊断为糖尿病肾病：(1)出现显性白蛋白尿；(2)出现微量白蛋白尿，且出现DR； (3)出现微量白蛋白尿，且T1DM病史大于10年。诊断非糖尿病肾病NDRD 的标准是：如果出现以下任意一条，则糖尿病合并CKD的患者应该诊断为非糖尿病肾病：(1)无糖尿病视网膜病变；(2)较低的GFR或较快的GFR下降；(3)快速增加的蛋白尿或者肾病综合征；(4)难治性高血压；(5)活性尿沉渣；(6)合并其它系统性疾病；(7)开始使用ACEI或者ARB药物后，在2-3个月内GFR下降大于30％。

但是慢性肾脏病临床实践指南(KDOQI)中的标准的信息获取来自于医生病史询问，常规检查，以及医生的自主判断。因所有的指标均为二分类变量，且很多指标的定义不清，诊断指标模糊，诊断标准的具体适用规则也不清楚，所以不同的人会对其有不同的理解。诊断标准的可实用性差，诊断结果精确度也并不权威。总之，传统糖尿病肾病-非糖尿病肾病鉴别诊断方法为二分类变量，诊断指标模糊，诊断过程和诊断结果不够准确，另外在中国人群中验证发现，此诊断方法对NDRD的诊断，虽然灵敏度较高，但特异度较低。因此慢性肾脏病临床实践指南(KDOQI)中的标准并不客观和统一，不适合作为诊断标准。

此外，通过传统肾穿刺活检技术虽可以明确临床糖尿病肾病鉴别诊断，但该技术的创伤性较大，术后会引起并发症，病人很痛苦，且技术难度较高，不能作为糖尿病肾病患者检查的常规项目。另外，在实际应用过程中，通常当临床确诊时，糖尿病肾病患者往往错过了最佳的治疗时机，致使疾病急剧恶化，不可逆转。

因此，迫切研究一种新的糖尿病肾病-非糖尿病肾病鉴别诊断方法。

发明内容

本发明的目的在于提供一种糖尿病肾病-非糖尿病肾病鉴别诊断装置，通过采用机器学习方法选取新的指标构建糖尿病肾病和非糖尿病肾病的鉴别诊断模型，能够减少病人痛苦、诊断结果准确、且适用范围广，对临床实践提供了良好的辅助诊断作用。

为实现上述目的，本发明提供了以下技术方案：

本发明提供的糖尿病肾病-非糖尿病肾病鉴别诊断装置，包括：

初步筛选模块，用于根据入选标准和排除标准，初步筛选进行过肾活检且患有2型糖尿病的病人；

所述入选标准为所述病人应该同时满足四个入选条件，所述四个入选条件分别为：入选条件一，所述病人满足男性或者女性；入选条件二，所述病人的年龄为18岁以上；入选条件三，所述病人患有慢性肾脏病合并2型糖尿病；入选条件四，肾活检病理结果明确。

所述排除标准为所述病人满足三个排除条件中任一项，所述三个排除条件分别为：排除条件一，所述病人满足病史不清或临床实验室检查结果不全；排除条件二，所述病人满足肾活检结果为糖尿病肾病合并非糖尿病肾病；排除条件三，所述病人满足合并严重的急性感染或者肿瘤；

指标变量筛选模块，用于统计所述病人的各项指标变量，排除所述指标变量缺失值比例大于或者等于k％的所述指标变量；应用填补方法填补所述指标变量缺失值比例小于k％的所述指标变量；0＜k＜20；

诊断模型构建模块，用于对经过所述指标变量筛选模块筛选后的指标变量的重要性进行分级，对分级后的所述指标变量进行重要性排序，分析结果，得到糖尿病肾病-非糖尿病肾病鉴别诊断指标变量。

可选地，所述指标变量筛选模块中所述填补方法为随机回归填补法。

可选地，所述指标变量筛选模块中k＝15。

可选地，所述诊断模型构建模块中所述诊断模型分别为随机森林模型或支持向量机模型。

本发明提供的技术方案中，根据入选标准和排除标准进行初步筛选，然后进行指标变量筛选；然后统计病人的各项指标变量分级和重要性排序，通过采用机器学习方法选取新的指标构建糖尿病肾病和非糖尿病肾病的鉴别诊断模型，能够克服传统肾穿刺活检技术的创伤性较大，术后会引起并发症，病人很痛苦，且技术难度较高，不能作为糖尿病肾病患者检查的常规项目的弊端以及传统二分类变量诊断指标模糊，诊断过程和诊断结果不够准确的弊端。总之，本发明提供的糖尿病肾病-非糖尿病肾病鉴别诊断方法能够减少病人痛苦、诊断结果准确、适用范围广，对临床实践提供了良好的辅助诊断作用。

在本发明的优选方案中，指标变量筛选阶段，统计病人的各项指标变量，排除指标变量缺失值比例大于或者等于k％的指标变量；应用填补方法填补指标变量缺失值比例小于k％的指标变量，k优选为15。在缺失比例较低时 (10％-20％)，进行数据填补效果较好，综合考虑统计精确度和样本信息利用度，选择缺失比例为15％(即k选为15)以内的数据进行填补，而对于缺失比例大于15％的指标删除，能够有效避免数据缺失带来的精度低、准确度低的问题。

在本发明的优选方案中，诊断模型构建模块中所述诊断模型分别为随机森林模型或支持向量机模型，机器学习技术是目前最为快速发展的领域之一，并且在疾病的诊断、鉴别诊断中发挥了很好的作用。甚至现在已经有关于人工智能医生是否会在未来取代人类医生的讨论。由于机器学习技术可以很好的挖掘大量数据后隐藏的信息，因此机器学习技术一定会在帮助医生进行更好的临床决策方面发挥令人瞩目的作用，甚至在特定的领域可以优于人类的判断和决策。支持向量机分类模型是一种基于核的分类器，可以将数据分为两类或者三类。因此，支持向量机可以用于设计成具有鉴别诊断功能的预测模型。支持向量机本身具有诸多优势保证其分类诊断的准确度。首先，它可以通过增加超平面来最大化两类数据之间的距离，从而增加分类准确性，这是基于“结构风险最小化原则”；其次，它是在高维空间工作，这使得其可以处理高维度数据而保证鉴别效能。随机森林是另一种机器学习模型，是一种基于多数决定的机器学习模型。所有数据通过标准决策树进行分类，且重复多次，然后将所有形成的决策树模型中的信息进行综合，从而可以同时评价变量之间的联系和相互作用。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例中糖尿病肾病-非糖尿病肾病鉴别诊断流程图；

图2是本发明实施例中糖尿病肾病-非糖尿病肾病鉴别诊断装置结构模块图；

图3是本发明实施例中糖尿病肾病-非糖尿病肾病鉴别诊断运用流程图；

图4是本发明实施例中糖尿病肾病-非糖尿病肾病鉴别诊断不同变量数目下SVM和RF的ROC曲线下面积(AUC)。

图中：101、初步筛选模块；102、指标变量筛选模块；103、诊断模型构建模块。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将对本发明的技术方案进行详细的描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式，都属于本发明所保护的范围。

本发明提供了一种糖尿病肾病-非糖尿病肾病鉴别诊断装置，如图1-图3所示，其过程，包括以下几个步骤，分别为初步筛选-指标变量筛选-重要性分级和重要性排序-构建诊断模型、分析结果、得到糖尿病肾病-非糖尿病肾病鉴别诊断指标变量，能够减少病人痛苦、诊断结果准确、且适用范围广，对临床实践提供了良好的辅助诊断作用。然而，现有的诊断方法是根据相应的诊断标准，即慢性肾脏病临床实践指南(KDOQI)，诊断糖尿病肾病DN的标准是：以下三条满足任意一条即可诊断为糖尿病肾病：(1)出现显性白蛋白尿；(2) 出现微量白蛋白尿，且出现DR；(3)出现微量白蛋白尿，且T1DM病史大于 10年。诊断非糖尿病肾病NDRD的标准是：如果出现以下任意一条，则糖尿病合并CKD的患者应该诊断为非糖尿病肾病：(1)无糖尿病视网膜病变；(2) 较低的GFR或较快的GFR下降；(3)快速增加的蛋白尿或者肾病综合征；(4) 难治性高血压；(5)活性尿沉渣；(6)合并其它系统性疾病；(7)开始使用ACEI或者ARB药物后，在2-3个月内GFR下降大于30％。

但是慢性肾脏病临床实践指南KDOQI中的标准的信息获取来自于医生病史询问，常规检查，以及医生的自主判断。因所有的指标均为二分类变量，且很多指标的定义不清，诊断指标模糊，诊断标准的具体适用规则也不清楚，所以不同的人会对其有不同的理解，诊断标准的可实用性差，诊断结果精确度也并不权威。总之，传统糖尿病肾病-非糖尿病肾病鉴别诊断方法为二分类变量，诊断指标模糊，诊断过程和诊断结果不够准确，另外在中国人群中验证发现，此诊断方法对NDRD的诊断，虽然灵敏度较高，但特异度较低。因此慢性肾脏病临床实践指南KDOQI中的标准并不客观和统一，不适合作为诊断标准。

此外，通过传统肾穿刺活检技术虽可以明确临床糖尿病肾病鉴别诊断，但该技术的创伤性较大，术后会引起并发症，病人很痛苦，且技术难度较高，不能作为糖尿病肾病患者检查的常规项目。另外，在实际应用过程中，通常当临床确诊时，糖尿病肾病患者往往错过了最佳的治疗时机，致使疾病急剧恶化，不可逆转。本发明提供的糖尿病肾病-非糖尿病肾病鉴别诊断装置，包括以下几个过程，分别为初步筛选-指标变量筛选-重要性分级和重要性排序-构建诊断模型、分析结果、得到糖尿病肾病-非糖尿病肾病鉴别诊断指标变量，能够减少病人痛苦、诊断结果准确、且适用范围广，对临床实践提供了良好的辅助诊断作用，具体过程如下：

步骤一：初步筛选；

根据入选标准和排除标准，初步筛选进行过肾活检且患有2型糖尿病的病人；

入选标准为病人应该同时满足四个入选条件，四个入选条件分别为：入选条件一，病人满足男性或者女性；入选条件二，病人的年龄为18岁以上；入选条件三，病人患有慢性肾脏病合并2型糖尿病；入选条件四，肾活检病理结果明确。

排除标准为病人满足三个排除条件中任一项，三个排除条件分别为：排除条件一，病人满足病史不清或临床实验室检查结果不全；排除条件二，病人满足肾活检结果为糖尿病肾病合并非糖尿病肾病；排除条件三，病人满足合并严重的急性感染或者肿瘤。

于本发明的具体实施例中，如果病人同时满足以下条件：满足男性或者女性；病人的年龄为18岁以上；病人患有慢性肾脏病合并2型糖尿病；肾活检病理结果明确，那么这部分病人会被筛选出来，作为初步筛选的入选标准。

于本发明的具体实施例中，如果病人满足以下任一项：病人满足病史不清或临床实验室检查结果不全；病人满足肾活检结果为糖尿病肾病合并非糖尿病肾病；病人满足合并严重的急性感染或者肿瘤。那么这部分病人会被排除出来，作为初步筛选的排除标准。

步骤二：指标变量筛选；

统计病人的各项指标变量，指标变量缺失值比例大于或者等于一定比例的指标变量属于缺失较多的指标变量，不能作为可靠的指标变量，该部分指标变量应该被排除，于本发明的具体实施例中排除指标变量缺失值比例大于或者等于k％的指标变量，即，排除的比例为k％。

于本发明的具体实施例中，糖尿病肾病-非糖尿病肾病鉴别诊断过程中，排除指标如：尿渗透压，糖尿病视网膜病变(diabetic retinopathy，DR)分级，由于这些指标变量缺失值比例大于或者等于k％，不能作为可靠的指标变量，因此需要把尿渗透压等指标排除。

缺失值比例小于k％的变量会被纳入指标变量缺失值比例小于一定比例的指标变量属于缺失不太多的指标变量，可以作为可靠的指标变量。变量中缺失值比例大于等于k％的将被排除。为了进一步统计和优化数据结果，对统计的指标变量进行适应性填补，于本发明的具体实施例中，应用填补方法填补指标变量缺失值比例小于k％的指标变量，于本发明的具体实施例中，0＜k＜20。

临床数据集中的数据缺失不可避免，良好的缺失数据处理非常重要，于本发明的具体实施例中，对缺失数据进行了填补处理或删除处理，提高了模型的准确性。本申请人通过相关研究和试验认证，在缺失比例较低时(10％-20％)，进行数据填补效果较好，能够有效避免误差，提高鉴别诊断模型的准确度。综合考虑统计精确度和样本信息利用度，于本发明的具体实施例中，选择缺失比例为15％(即k选为15)以内的数据进行填补，而对于缺失比例大于15％的指标删除，大大提高鉴别诊断模型的准确度，充分避免诊断误差。

采用随机回归填补法进行填补或预测均值匹配法等方法进行数据填补，提高了模型的准确性。

实施例1：于本发明的具体实施例中，采用随机回归填补法进行填补。该方法是通过拟合一个回归方程，建立缺失数据对关联变量的非缺失数据的回归方程并以预测值作为缺失数据的填补值将观测值代入回归方程估算缺失值，同时从残差项分布中随机抽取数据，将两者加和作为预测值，以反映填补值的不确定性。这种方法能够降低对处理效应方差的过低估计，有效解决数据缺失资料中相对普遍的问题(如数据缺失呈任意模式)，从而提高统计效率，因而在临床试验研究中的适用范围较广。

实施例2：于本发明的具体实施例中，还可以采用预测均值匹配 (Predictivemean matching)进行数据填补。预测均值匹配(PMM)是一种对缺失数据进行多重拟合的方法，是一种将参数和非参数技术相结合的计算方法，尤其是对非正态分布的定量变量的拟合。预测均值匹配，并不是直接根据数值来计算，而是根据所对应的缺失变量的期望值，由此来计算缺失值，即根据群体数据均值来预测缺失变量的可能，在一般预测均值与期望值匹配的情况下，采用线性回归模型进行计算。

步骤三：分级和重要性排序；

于本发明的具体实施例中，经过步骤一初步筛选和步骤二指标变量筛选后，需要对指标变量的重要性进行分级，每次分级有5个变量进行筛选，共有500 个树生成，并采用决策树对结果进行再次确认，每个节点采用基尼系数 (Gini-index)进行决策，之后结合变量的临床意义，对所有变量进行综合排序。

结果得到了变量的重要性排序，即DR、DM病程、血红蛋白、脉压差、血肌酐、血白蛋白、总胆固醇、空腹血糖、24小时尿蛋白定量、高血压病程、突然出现的大量蛋白尿、年龄、血尿素氮、血尿、糖尿病家族史共15个指标。

步骤四：构建诊断模型，分析结果，得到糖尿病肾病-非糖尿病肾病鉴别诊断指标变量。具体地，将所有初步筛选出的变量循环代入模型中，通过不断调整变量的数目和组合，进行筛选。

筛选后，得到结果如下表1所示：

表1 不同变量数目下SVM和RF的ROC曲线下面积(AUC)

SVM(Support Vector Machine)指的是支持向量机，是常见的一种判别方法。在机器学习领域，是一个有监督的学习模型，通常用来进行模式识别、分类以及回归分析，支持向量机基于结构风险最小化理论之上在特征空间中构建最优超平面，使得学习器得到全局最优化，并且在整个样本空间的期望以某个概率满足一定上界。

随机森林(Random Forests)方法是机器学习中的一种，一种系统学习方法用于解决分类问题。包含多个决策树的分类器，其输出结果是由个别树输出的类别的众数所决定。随机森林优点：

1)具有极高的准确率；

2)可以处理大量的输入变数，并可以评估变数的重要性；

3)随机性的引入，使得随机森林不容易过拟合；

4)随机性的引入，使得随机森林有很好的抗噪声能力；

5)能处理很高维度的数据，并且不用做特征选择；

6)在创建随机森林的时候，对generlization error使用的是无偏估计；

7)既能处理离散型数据，也能处理连续型数据，数据集无需规范化；

8)对于不平衡的分类资料集来说，可以平衡误差；

9)训练速度快，可以得到变量重要性排序；

10)容易实现并行化。

具体地，于本发明的具体实施例中，将所有的数据变量和目标变量代入到模型中。将所有患者平均随机分为N份。其中一份用于验证，即独立验证，其余的N-1份用于训练、学习，这N份数据循环进行。

最终得到N次的模型诊断效能的验证结果，平均之后的结果即为最终的模型诊断效能建模结果。

为了提高实验结果的准确度并保证一定的工作效率，N取值为5，即，将所有的数据变量和目标变量代入到模型中。将所有患者平均随机分为5份。其中一份用于验证，即独立验证，其余的4份用于训练、学习，这5份数据循环进行。

最终得到5次的模型诊断效能的验证结果，平均之后的结果即为最终的模型诊断效能建模结果。

如上表1所示，当变量数目为6个时，SVM的ROC曲线下面积AUC为 0.9295，RF的ROC曲线下面积AUC为0.9413，当变量数目为7个时，SVM 的ROC曲线下面积AUC为0.9394，RF的ROC曲线下面积AUC为0.9494，当变量数目为8个时，SVM的ROC曲线下面积AUC为0.9457，RF的ROC曲线下面积AUC为0.9549，当变量数目为9个时，SVM的ROC曲线下面积 AUC为0.9531，RF的ROC曲线下面积AUC为0.9550，当变量数目为10个时，SVM的ROC曲线下面积AUC为0.9580，RF的ROC曲线下面积AUC为 0.9594，当变量数目为11个时，SVM的ROC曲线下面积AUC为0.9606，RF 的ROC曲线下面积AUC为0.9630，当变量数目为12个时，SVM的ROC曲线下面积AUC为0.9620，RF的ROC曲线下面积AUC为0.9633，结合说明书附图4，综合考虑收益和变量数目，最终确定变量的数目。

于本发明的具体实施例中，如图4所示，通过对图4中ROC曲线下面积 AUC的增长幅度进行观察和分析，当变量数目为10个时，ROC曲线下面积 AUC的增长幅度趋于平缓，综合考虑诊断模型使用的便利性和诊断效能，最终选择变量数目为10个，建立诊断模型。变量数目为10个的组合有多种，通过将所有可能的组合全部代入模型中计算出其诊断效能，挑选诊断效能最高的组合，即最优组合。

最终，得到的最优组合的10个指标中，连续变量分别为：糖尿病病程、血肌酐、血红蛋白、总胆固醇、脉压差、白蛋白，分类变量分别为：糖尿病视网膜病变、突然出现的大量蛋白尿或肾综、血尿、糖尿病家族史。

如下表2所示，评价指标为：灵敏度、特异度、阳性预测值、阴性预测值、受试者工作特征曲线下面积。

表2

灵敏度(Sensitivity，也称为真阳性率)是指实际为阳性的样本中，判断为阳性的比例。在本发明的具体实施例中是指真正为NDRD的患者，被判定为 NDRD的比例。真阳性为X1，假阴性为Y2，灵敏度为M，M＝X1/(X1+Y2)，其中，其中假阴性是指实际为阳性，但判断为阴性。

特异度(Specificity，也称为真阴性率)是指实际为阴性的样本中，判断为阴性的比例。在本发明的具体实施例中是指真正为DN的患者，被判定为DN 的比例。计算方式是：真阴性为Y1，假阳性为X2，特异度为N，N＝Y1/(Y1+X2)，其中假阳性是指实际为阴性，但判断为阳性。

阳性预测值是指判断为阳性的样本中，实际为阳性的比例。在本发明的具体实施例中是指判定为NDRD的患者，实际是NDRD的比例。计算方式是：真阳性为X1，假阳性为X2，阳性预测值为P，P＝X1/(X1+X2)_。

阴性预测值是指判断为阳性的样本中，实际为阴性的比例。在本发明的具体实施例中是指判定为DN的患者，实际是DN的比例。计算方式是：真阴性为Y1，假阴性为Y2，阴性预测值为Q，Q＝Y1/(Y1+Y2)。

受试者工作特征曲线(receiver operating characteristic curve，ROC)下面积(area under the raw current curves，AUC)，是反映敏感性和特异性连续变量的综合指标，是用构图法揭示敏感性和特异性的相互关系，它通过将连续变量设定出多个不同的临界值，从而计算出一系列敏感性和特异性，再以敏感性为纵坐标、(1-特异性)为横坐标绘制成曲线，曲线下面积越大，诊断准确性越高。

这几个指标均为衡量诊断模型的诊断效能的工具，可以综合考虑分析，根据临床实际情况进行评判。

为了进一步统计和优化数据结果，对统计的指标变量进行适应性填补，于本发明的具体实施例中，填补方法为随机回归填补法。该方法是通过拟合一个回归方程，建立缺失数据对关联变量的非缺失数据的回归方程并以预测值作为缺失数据的填补值将观测值代入回归方程估算缺失值，同时从残差项分布中随机抽取数据，将两者加和作为预测值，以反映填补值的不确定性。这种方法能够降低对处理效应方差的过低估计，有效解决数据缺失资料中相对普遍的问题 (如数据缺失呈任意模式)，从而提高统计效率，因而在临床试验研究中的适用范围较广。

于本发明的具体实施例中，k优选为15。临床数据集中的数据缺失时不可避免的，因此良好的缺失数据处理非常重要。有研究表明，在缺失比例较低时 (10％-20％)，进行数据填补效果较好。综合考虑统计精确度和样本信息利用度，我们选择缺失比例为15％(即k选为15)以内的数据进行填补，而对于缺失比例大于15％的指标删除。

于本发明的具体实施例中，糖尿病肾病-非糖尿病肾病鉴别诊断过程中，排除指标如：尿渗透压，糖尿病视网膜病变(diabetic retinopathy，DR)分级，由于这些指标变量缺失值比例大于或者等于15％，不能作为可靠的指标变量，因此需要把尿渗透压等指标排除。

缺失值比例小于15％的变量会被纳入指标变量缺失值比例小于一定比例的指标变量属于缺失不太多的指标变量，可以作为可靠的指标变量。变量中缺失值比例大于等于15％的将被排除。为了进一步统计和优化数据结果，对统计的指标变量进行适应性填补，于本发明的具体实施例中，应用填补方法填补指标变量缺失值比例小于15％的指标变量。

步骤四，构建诊断模型，分析结果，得到糖尿病肾病-非糖尿病肾病鉴别诊断指标变量。于本发明的具体实施例中，诊断模型分别为随机森林模型或支持向量机模型。

本发明的糖尿病肾病-非糖尿病肾病鉴别诊断装置，包括初步筛选模块101、指标变量筛选模块102和诊断模型构建模块103，具体如下：

初步筛选模块101，用于根据入选标准和排除标准，初步筛选进行过肾穿且患有2型糖尿病的病人；

于本发明的具体实施例中，如果病人同时满足以下条件：满足男性或者女性；病人的年龄为18岁以上；病人患有慢性肾脏病合并2型糖尿病，肾活检结果明确。那么这部分病人会被筛选出来，作为初步筛选的入选标准。

指标变量筛选模块102，用于统计病人的各项指标变量，排除指标变量缺失值比例大于或者等于k％的指标变量；统计病人的各项指标变量，指标变量缺失值比例大于或者等于一定比例的指标变量属于缺失较多的指标变量，不能作为可靠的指标变量，该部分指标变量应该被排除，于本发明的具体实施例中排除指标变量缺失值比例大于或者等于k％的指标变量，即，排除的比例为k％。于本发明的具体实施例中，糖尿病肾病-非糖尿病肾病鉴别诊断过程中，排除指标如：尿渗透压，糖尿病视网膜病变(diabetic retinopathy，DR)分级，由于这些指标变量缺失值比例大于或者等于k％，不能作为可靠的指标变量，因此需要把尿渗透压等指标排除。缺失值比例小于k％的变量会被纳入指标变量缺失值比例小于一定比例的指标变量属于缺失不太多的指标变量，可以作为可靠的指标变量。变量中缺失值比例大于等于k％的将被排除。为了进一步统计和优化数据结果，对统计的指标变量进行适应性填补，于本发明的具体实施例中，应用填补方法填补指标变量缺失值比例小于k％的指标变量，于本发明的具体实施例中，0＜k＜20。

诊断模型构建模块103，用于对经过指标变量筛选模块102筛选后的指标变量的重要性进行分级，对分级后的指标变量进行重要性排序，分析结果，得到糖尿病肾病-非糖尿病肾病鉴别诊断指标变量。

为了进一步统计和优化数据结果，对统计的指标变量进行适应性填补，于本发明的具体实施例中，指标变量筛选模块102中填补方法为随机回归填补法。

该方法是通过拟合一个回归方程，建立缺失数据对关联变量的非缺失数据的回归方程并以预测值作为缺失数据的填补值将观测值代入回归方程估算缺失值，同时从残差项分布中随机抽取数据，将两者加和作为预测值，以反映填补值的不确定性。这种方法能够降低对处理效应方差的过低估计，有效解决数据缺失资料中相对普遍的问题(如数据缺失呈任意模式)，从而提高统计效率，因而在临床试验研究中的适用范围较广。

于本发明的具体实施例中，指标变量筛选模块102中k优选为15。临床数据集中的数据缺失时不可避免的，因此良好的缺失数据处理非常重要。在缺失比例较低时(10％-20％)，进行数据填补效果较好。综合考虑统计精确度和样本信息利用度，我们选择缺失比例为15％(即k选为15)以内的数据进行填补，而对于缺失比例大于15％的指标删除。

缺失值比例小于15％的变量会被纳入指标变量缺失值比例小于一定比例的指标变量属于缺失不太多的指标变量，可以作为可靠的指标变量。变量中缺失值比例大于等于15％的将被排除。为了进一步统计和优化数据结果，对统计的指标变量进行适应性填补，于本发明的具体实施例中，应用填补方法填补指标变量缺失值比例小于15％的指标变量。在本实施例中，对原始数据进行了合理保留，避免了由于数据内容因一个或一部分变量的缺失而被完全删除导致的数据量下降的问题，也可以根据不同的数据缺失率采取不同的数据填补方式，在保留缺失值部分原有的信息和属性的情况下，减少对无缺失值部分数据的分布和属性的破坏，能够自动进行数据填补，提高数据填补效率，并减轻了人工负担。在本实施例中，通过获取存在数据缺失的原始数据以及目标函数，确定样本数据的数据缺失率，依据数据缺失率的大小采取相应的数据填补方式进行数据缺失值的填补，数据填补方式包括标签分组填补、BETA分布填补、随机抽取填补、逻辑回归填补以及均值填补中至少一种，提高了数据缺失值的填补效率，并能够保证数据填补的有效性，使得通过填补后的数据在进行建模等计算，能够提高计算结果的准确性，进而为用户提供匹配度较高的服务。

作为可选的实施方式，于本发明的具体实施例中，诊断模型构建模块103 中诊断模型分别为随机森林模型或支持向量机模型。机器学习技术是目前最为快速发展的领域之一，并且在疾病的诊断、鉴别诊断中发挥了很好的作用。甚至现在已经有关于人工智能医生是否会在未来取代人类医生的讨论。由于机器学习技术可以很好的挖掘大量数据后隐藏的信息，因此机器学习技术一定会在帮助医生进行更好的临床决策方面发挥令人瞩目的作用，甚至在特定的领域可以优于人类的判断和决策。

支持向量机分类模型是一种基于核的分类器，可以将数据分为两类或者三类。因此，支持向量机可以用于设计成具有鉴别诊断功能的预测模型。支持向量机本身具有诸多优势保证其分类诊断的准确度。首先，它可以通过增加超平面来最大化两类数据之间的距离，从而增加分类准确性，这是基于“结构风险最小化原则”；其次，它是在高维空间工作，这使得其可以处理高维度数据而保证鉴别效能。

随机森林是另一种机器学习模型，是一种基于多数决定的机器学习模型。所有数据通过标准决策树进行分类，且重复多次。然后将所有形成的决策树模型中的信息进行综合，从而可以同时评价变量之间的联系和相互作用。

需要说明的是，本发明研究的数据填补方法并不局限于随机回归填补法或者预测均值匹配法，还可以为其他数据填补方法，只要是能够对数据结果进行优化即可，K的取值范围，也并不局限于本发明的具体实施例中，诊断模型也不局限于随机森林模型或支持向量机模型，均可以根据实际进行适应性调整。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种糖尿病肾病-非糖尿病肾病鉴别诊断装置，其特征在于，包括：

初步筛选模块(101)，用于根据入选标准和排除标准，初步筛选进行过肾活检且患有2型糖尿病的病人；

所述排除标准为所述病人满足三个排除条件中任一项，所述三个排除条件分别为：排除条件一，所述病人满足病史不清或临床实验室检查结果不全；排除条件二，所述病人满足肾活检结果为糖尿病肾病合并非糖尿病肾病；排除条件三，所述病人满足全身性感染或肿瘤；

指标变量筛选模块(102)，用于统计所述病人的各项指标变量，排除所述指标变量缺失值比例大于或者等于k％的所述指标变量；应用填补方法填补所述指标变量缺失值比例小于k％的所述指标变量；0＜k＜20；

诊断模型构建模块(103)，用于对经过所述指标变量筛选模块(102)筛选后的指标变量的重要性进行分级，对分级后的所述指标变量进行重要性排序，分析结果，得到糖尿病肾病-非糖尿病肾病鉴别诊断指标变量。

2.根据权利要求1所述的糖尿病肾病-非糖尿病肾病鉴别诊断装置，其特征在于，所述指标变量筛选模块(102)中所述填补方法为随机回归填补法。

3.根据权利要求1所述的糖尿病肾病-非糖尿病肾病鉴别诊断装置，其特征在于，所述指标变量筛选模块(102)中k＝15。

4.根据权利要求1-3中任一项所述的糖尿病肾病-非糖尿病肾病鉴别诊断装置，其特征在于，所述诊断模型构建模块(103)中所述诊断模型分别为随机森林模型或支持向量机模型。