CN103150611A

CN103150611A - Ii型糖尿病发病概率分层预测方法

Info

Publication number: CN103150611A
Application number: CN 201310073852
Authority: CN
Inventors: 罗森林; 赵海秀; 潘丽敏; 郭伟东; 张铁梅
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2013-03-08
Filing date: 2013-03-08
Publication date: 2013-06-12

Abstract

本发明涉及一种II型糖尿病发病概率分层预测方法，属于生物信息处理技术领域。本发明首先对Ⅱ型糖尿病人群进行风险等级判定，然后对不同风险等级人群采用包装法进行属性选择，选择出关键发病危险属性；然后利用朴素贝叶斯算法，计算出个体初始发病概率；个体初始发病概率与单步转移矩阵构建马尔可夫链，从而建立针对不同风险等级人群的Ⅱ型糖尿病发病概率预测系统。与现有技术相比，本发明在进一步提升II型糖尿病发病概率预测准确率的同时，可以根据不同个体输入的数据选择对应风险等级的预测模型，预测多年内的发病概率，处理速度快。能够达到对Ⅱ型糖尿病早发现、早重视、提前干预，降低（或延缓）Ⅱ型糖尿病发生的目的。

Description

II型糖尿病发病概率分层预测方法

技术领域

本发明涉及一种II型糖尿病发病概率分层预测方法，属于生物信息处理技术领域。

背景技术

II型糖尿病是由遗传因素和环境因素长期相互作用而引起的临床综合征，可导致心脏、脑血管、肾功能、眼睛下肢等多器官并发症发生，具有很高的致残率，甚至很多在确诊糖尿病之前就已经出现了并发症。因此，对于II型糖尿病控制，关键是预防，即在糖尿病发生以前通过生活方式和饮食等干预，从而避免或者延缓糖尿病的发生，也是目前控制II型糖尿病最有效、最经济的方法。

II型糖尿病发病概率分层预测需要解决2个基本问题：1.如何提取与II型糖尿病发病紧密相关的关键属性，提高发病概率预测的准确性；2.如何根据关键属性合理的预测个体发病概率。综观现有II型糖尿病发病概率预测方法，通常使用的方法有：

1.在关键属性提取方面：

根据算法原理一般分为过滤法和包装法，过滤法一般包括以下方法：

(1)Relief方法：该方法是根据统计相关性标准提取关键属性，根据特征值的区分能力来评价特征的相关度，即关键属性应该使同类的样本接近，而使不同类的样本之间远离，基本思想是：对样本进行抽样，在根据抽取的样本与同类、不同类的两个最接近样本的差异计算相关度，从而确定每个属性的不同权重。Relief方法选择的关键属性相关性较强，且能够处理离散和连续属性，但该方法不能消除冗余属性，且由于计算样本间距离将产生较大的时间开销，无法满足高维数据关键属性提取的时间性能要求。

(2)主成分分析方法：该方法研究各个属性之间的相关关系，将原来一组具有一定相关性的属性，通过变换成为一组新的属性集合作为关键属性，通过这种变换达到用较少的新属性代替原来较多属性的目的，并且使新属性尽可能多保留原来较多属性反映的信息。但是主成分分析法涉及到特征方程等矩阵运算，算法的时间消耗不能满足高维数据关键属性提取的要求。

(3)粗糙集方法：该方法是在保持属性的分类能力下，不断筛除冗余属性从而获得关键属性集合。粗糙集方法一般根据差别矩阵、属性重要度或JOHNSON约简方法，通过属性依赖程度的不同消除对分类结果影响较低的属性，达到提取关键属性的目的。虽然该方法可以有效地删除不相关属性，但没有考虑噪声数据的影响，并且计算效率低。

(4)信息熵方法：该方法主要用于信息理论中分析信息不确定度，也可用作属性作用度的评价，即关键属性提取。其基本思想是根据计算信息增益等方法划分数据，并从新计算划分后的数据增益，典型方法有ID3和C4.5，但该方法时间复杂度高。

(5)遗传算法：该方法将解表示为以二进制串编码的“染色体”，在执行算法前，给出假设解的“染色体”，然后把这些假设解置于具体问题也即“环境”中，按照一定原则从中选择出较适应环境的编码串模拟生物遗传过程的复制、交叉、变异产生更适应环境的新一代。依此进化，最后就会逐渐收敛到最适应环境的一个编码串上，也即最优解。通过该过程即可提取关键属性。但该方法需要不停迭代计算，算法时间复杂度高，在关键属性提取中很少应用。

包装法：该方法将学习算法作为测试用的黑盒子，利用相关的学习算法对属性子集进行评价，其主要思想是用训练数据和相应的学习算法训练一个分类模型，然后用测试数据来评估这个分类器的分类准确率，通过迭代提取关键属性，同时能够发现比较适合的学习算法以及算法的相关参数设定值。包装法优点是对学习算法的支持度高，缺点是该模型需要耗费大量的时间进行学习和训练，时间复杂度高，效率低，不适用于学习算法经常变动的情况。

2.在发病概率预测方面：

(1)多元回归

多元回归模型是应用较广泛的一种建模方法，既可以横断面资料用于群体水平糖尿病危险因素的探索，也可以队列资料用于个体水平糖尿病的发病风险的预测上。利用logistic回归建立糖尿病个体水平预测模型对资料的要求比较宽松。模型因变量是发生糖尿病和不发生糖尿病概率之比的自然对数，很容易获得未来一定时间发生糖尿病或者某种并发症的概率；自变量可以是分类资料也可以是连续变量。

(2)决策树

决策树模型是对偶然事件或者按照时间顺序列出所有由此引发的不同结果绘制成图形，由于这个图形就像一棵树干，故称为决策树。每一个偶然事件都分配一个概率，这种概率是静态概率，也是决策树的缺点所在。所以决策树只是一种决策方法，或者说是一种建模思路，一般并不单独用于模型的建立，而是用其他建模方法，按照决策树的思路建立一个混合模型。

(3)Cox比例风险

在糖尿病相关预测模型中，Cox比例风险模型应用于糖尿病发病风险评估，糖尿病并发症风险评估和糖尿病死亡率评估等。Cox比例风险模型能有效利用结局变量所经历的时间信息，可以分析删失数据，比较符合队列研究的实际情况。利用Cox比例风险模型获得相关变量的RR值后，转化形成危险评分，避免了数学公式推广应用的局限性，任何一个人用评分规则对模型变量进行评分，就可以获得今后若干年的糖尿病发病概率。无论是普通居民还是专业人士均可以轻松做出自己未来患糖尿病的概率，进而采取相应措施。在用Cox比例风险模型建立糖尿病发病概率、糖尿病并发症发病概率或者是成本效益分析时，要求连续观察，确定每一观测对象的结局，并计算相应的人年数，应用该法建立模型，对数据要求高，追踪时间不宜过短，成本较高。

(4)人工神经网络

人工神经网络是20世纪80年代中期基于大脑和神经系统研究而建立的一种计算模型，由许多并行计算、功能简单的单元按照一定的层次排列组成，具有很强的自组织、自适应和容错能力等特征，在处理非线性问题上，具有独特的优越性，广泛应用于糖尿病等慢性病的预测，但是人工神经网络建模复杂，且规则不易理解。

(5)阿基米德预测法

阿基米德模型是一个通过模拟生物器官来对“人”进行模拟。人的模型是利用一组方程，可以表征人类的所有相关的生理系统活动；并且阿基米德模型还可以模拟个体生理、疾病、干预和卫生保健，它用一组方程去描述疾病和相关并发症的生理工作方式。阿基米德模型可以预测糖尿病、冠心病、心肌收缩等13种疾病的发病概率，并且经过验证，达到很好的预测效果。

阿基米德模型与其他预测模型的不同之处：1）它是一个针对个体的模拟方法，而不是所有的人用同一个模型；2）它需要很多的生物细节，包括：治疗过程、资源和治疗开销等；3）它在时间上面是连续的，而不是离散化的；4）它能模拟很多的疾病，包括II型糖尿病和它的并发症。

虽然阿基米德模型可以预测多年以后糖尿病的发病概率，但是需要大量的临床数据去建立模型。在公开的21个方程中涉及的变量就超过30个，并且许多变量都是领域性比较强的属性，一般人很难获取。由于医学数据中同一个人长期的跟踪数据是比较少的，如果能够根据小数据集的跟踪数据就可以预测多年的糖尿病发病概率，则对糖尿病的干预和控制有重要实际应用价值。

糖尿病相关预测模型的建立方法较多，除了上述几种主要方法外，也有人用可加模型、Gompertzm模型和模糊模型建立了糖尿病、糖尿病并发症发生概率的预测模型。甚至在缺乏队列数据的情况下有人采用文献查阅和专家经验相结合，根据哈佛癌症风险评估方法建立。

综上所述，对于II型糖尿病的预测这一应用场景，现有的预测方法都是将人群初始时刻视为相同健康状况，但是不同人群初始风险等级是不同的。而且现有预测技术的预测准确率不够理想，模型过于复杂，解释性较差。

发明内容

本发明的目的是解决预测个体和人群N年以后Ⅱ型糖尿病发病概率的问题,提出一种基于马尔科夫链的II型糖尿病发病概率分层预测方法。

本发明的设计原理为根据Ⅱ型糖尿病风险等级判定标准，将人群分层处理；再对不同风险等级人群采用包装法进行属性选择，选择出与Ⅱ型糖尿病发病密切相关的8维发病危险属性；然后利用朴素贝叶斯算法，根据8维发病危险属性计算出个体初始发病概率；个体初始发病概率与单步转移矩阵构建马尔可夫链，从而建立针对不同风险等级人群的Ⅱ型糖尿病发病概率预测系统。本发明在进一步提升II型糖尿病发病概率预测准确率的同时，可以根据不同个体输入的数据选择对应风险等级的预测模型，预测N年内的发病概率。

本发明的技术方案是通过如下步骤实现的：

步骤1，发病风险状态判定。具体方法如下：

为了实现对未患病人群S进行发病概率预测，本发明首先对未患II型糖尿病的人群进行发病风险状态的判定，将人群划分为无风险、低中风险、和高风险3个风险等级。并且无风险、低中风险和高风险作为数据的分类的类别变量，在本文中分别使用0,1和2表示。

步骤2，在步骤1的基础上，求解初始状态向量。具体过程如下：

步骤2.1，首先对训练数据进行属性选择，具体方法为：输入经过RSD处理以后的数据，运用包装法作为属性选择算法，采用朴素贝叶斯算法作为包装法中的学习算法，选择出N维关键属性。

步骤2.2，在步骤2.1的基础上，将属性选择输出的N维属性作为求解初始状态向量的输入，采用朴素贝叶斯算法，求解初始状态向量。

基于朴素贝叶斯求解初始状态向量的具体方法为：首先设初始状态空间为：0，1，2分别代表无风险、低中风险和高风险状态。

步骤2.2.1，计算先验概率

P (C_{i}) = \frac{S_{i}}{S}

式中P(C_i)为先验概率，表示风险等级为i的概率。训练样本是对整体的一个随机抽样，可以通过统计训练数据得到该概率，其中S_i表示状态为i的样本个数，S表示样本的总个数。

步骤2.2.2，计算关键属性中第k属性对于类别C_i的作用程度P(X_k|C_i)。

这个要分两种情况分别进行说明。如果属性为离散属性，则用公式

进行计算，其中S_ki表示第k属性在类别C_i中的个数，而S_i表示类别C_i的总个数。如果属性为连续属性，则统计第k属性在类别C_i中的均值和方差，计算该属性在对应类型的作用贡献程度，其中和分别为均值和方差，具体计算公式如下所示。

P (X_{k} | C_{i}) = g (X_{k}, μ_{C_{i}}, σ_{C_{i}}) = \frac{1}{\sqrt{2 π σ_{C_{i}}}} e^{- \frac{{(X_{k} - μ_{C_{i}})}^{2}}{2 σ_{C_{i}}^{2}}}

步骤2.2.3，计算所有属性在对于类别C_i总的作用程度P(X|C_i)。

上文已经详细介绍了属性选择的原理及过程，所以可以认定，经过属性选择以后的属性子集中，各个属性之间是相对相互独立的，则总贡献计算公式为

P (X | C_{j}) = Π_{k = 1}^{n} P (X_{k} | C_{j})

式中P(X_k|C_i)是第k属性对于类别C_i的作用程度。

步骤2.2.4，计算初始状态向量P(C_i|X)。

采用朴素贝叶斯分类算法，首先把个体X分到它所作用总的程度最大的类别中去。也就是分到P(C_i|X)最大的类别C_i中去。为计算该个体的发病概率值，需分别计算个体X分到各个类别中的概率，具体计算公式如下所示：

P (C_{j} | X) = \frac{P (X | C_{j}) * P (C_{j})}{P (X)}

对于同一个体X来说，P(X)一样，分母P(X)对P(C_i|X)的分布比例没有影响，不用计算，根据上式和

求解P(C_i|X)的概率，求得初始状态概率向量为：

P_{0} = (\begin{matrix} P (C_{i} | X) \\ 1 - P (C_{i} | X) \end{matrix})

步骤3，求解一步状态转移矩阵。具体方法如下：

从状态i经过1步转移到达状态j的概率大小，如果q_ij(1)=0，那说明经过一步是不可能从状态i转移到达状态j的。

结合算法原理和状态转移两部分的介绍，得以下结论，经过RSD判定以后经过统计分析可以得到各个风险等级的m步转移矩阵如下式所示。

Q_{M} = \{\begin{matrix} q_{i 00} (m) & q_{i 01} (m) \\ 0 & 1 \end{matrix}\}

单步转移矩阵为：

Q = \{\begin{matrix} a_{i} & 1 - a_{i} \\ 0 & 1 \end{matrix}\}

上式中a_i是属于[0,1]的实数。本文通过实际跟踪数据获得转移矩阵，并假设其是经过m步一次转移之后的转移矩阵，即m次一步转移矩阵的累积以后的转移矩阵，其计算公式为：

Q^m＝Q_M

式中Q表示一步状态转移矩阵；Q_M表示通过统计获得的转移矩阵。通过设置优化任务函数和优化任务函数的目标解来决定是否要停止训练。其中优化任务函数采用限制最大相对误差，即求解转移矩阵的对应位置上最大的相对误差，相对误差公式如下式所示。

f = \min (\frac{| q_{ij} - q_{ij}^{'} |}{q_{ij}})

步骤4，构建马尔科夫链。

在步骤2和3的基础上，构建马尔科夫链式的公式如下式所示。

P_n＝P₀×Qⁿ

式中，P₀是初始状态向量，Q是一步状态转移矩阵，n表示转移的次数。

概率预测模块是借助本模块构造完成的马尔科夫链进行预测的，通过输入数据当前时刻的身体指标，判定其所属风险等级，然后输入到相应的模型中，预测个体长时间的发病概率。

有益效果

相比于粗糙集方法、遗传算法，Relief方法、主成分分析方法等属性选择算法，由于本发明计算初始状态向量时利用朴素贝叶斯算法，所以属性选择的采用包装法，学习算法采用朴素贝叶斯算法进行属性选择，使计算结果分类准确率最高，为下一步组建马尔科夫链进行II型糖尿病发病概率预测提供最合理的属性集。

相比于COX比例风险、多元回归、神经网络等预测方法，本发明采用的基于马尔科夫链的II型糖尿病发病概率分层预测方法具有识别速度快、准确率高的特点，而且能够预测个体多年以后的II型糖尿病发病概率。相比于阿基米德模型，本发明计算简单，模型复杂度低，而且可以根据小数据集的跟踪数据预测多年的糖尿病发病概率，对糖尿病的干预和控制有重要实际应用价值。

本发明首先进行人群风险等级判定，根据个体风险等级来更有针对性的建立II型糖尿病发病概率预测模型，使预测结果更具有普适性和实用性，并满足实时处理及移动计算的需求。

附图、表说明

图1为本发明的II型糖尿病发病概率分层预测原理图；

图2为具体实施方式中数据分层原理图；

图3为具体实施方式中属性选择原理图；

图4为具体实施方式中状态转移图；

图5为具体实施方式中，使用中科院实测数据源进行测试时，使用同一个体数据，本发明与阿基米德模型对比，(a)图为阿基米德模型预测曲线图，(b)图为本发明所提出的II型糖尿病发病概率分层预测曲线图。

具体实施方式

为了更好的说明本发明的目的和优点，下面结合附图和表格以及实例对本发明方法的实施方式做进一步详细说明。

分别以2001年2月至9月从北京市西城区和海淀区科研院所59839条数据作为输入，设计并部署2项测试：(1)针对个体数据计算个体长时间的发病概率曲线，并与阿基米德模型预测曲线进行对比；(2)针对群体进行测试，进行准确率的计算。

下面将对上述2个测试流程逐一进行说明，所有测试均在同一台计算机上完成，具体配置为：Intel双核CPU（主频1.8G），1G内存，WindowsXP SP3操作系统。

测试1和2两项首先对测试数据进行分层，将人群进行风险状态判定，根据个体的初始风险等级选择相应的风险等级预测模型进行发病概率的预测。表1为测试数据风险等级分布图。

表1数据源风险等级分布图

1.针对个体数据计算个体长时间的发病概率曲线，并与阿基米德模型预测曲线进行对比。

实施过程原理按照图1所示的II型糖尿病发病概率分层预测原理图进行。

步骤1，发病风险状态判定。把训练集1中人群划分为3层：无风险人群、低中风险人群和高风险人群，然后分别和患病人群混合，未患病数据标定为0，患病数据标定为1，形成不同风险等级初始状态概率计算模型的训练数据源。RSD判定过程按照图2所示的数据分层原理图进行。

步骤2，在步骤1的基础上，求解初始状态向量，得到只有两个分类的基于朴素贝叶斯的分类模型。

步骤2.1，首先对训练数据进行属性选择，属性选择原理按照图3所示进行。

步骤2.2，在步骤2.1的基础上，将属性选择输出的N属性作为求解初始状态向量的输入，基于朴素贝叶斯算法，求解初始状态向量。这里的状态空间只分为两种，未患病和患病，因此其初始状态概率矩阵是一个1×2的矩阵。

步骤2.2.1，根据个体所属风险等级计算个体的先验概率。训练集中的各个风险等级的先验概率根据公式

已经求解，测试集个体只需要判定所属风险等级，则先验概率等于所属风险等级的先验概率。

这个要分两种情况分别进行说明。如果属性为离散属性，则用公式进行计算，其中S_ki表示第k属性在类别C_i中的个数，而S_i表示类别C_i的总个数。输入的8维与糖尿病有关的属性子集中，性别和家族史是离散属性，年龄进行分段处理视为离散属性进行计算，剩下的属性为连续属性，计算公式如下所示：

P (X_{k} | C_{i}) = g (X_{k}, μ_{C_{i}}, σ_{C_{i}}) = \frac{1}{\sqrt{2 π σ_{C_{i}}}} e^{- \frac{{(X_{k} - μ_{C_{i}})}^{2}}{2 σ_{C_{i}}^{2}}}

步骤2.2.3，计算所有属性在对于类别C_i总的作用程度P(X|C_i)。

经过属性选择以后的属性子集中，各个属性之间是相对相互独立的，则总贡献计算公式为

P (X | C_{j}) = Π_{k = 1}^{n} P (X_{k} | C_{j})

式中P(X_k|C_i)是第k属性对于类别C_i的作用程度。

步骤2.2.4，计算个体初始状态向量P(C_i|X)。

个体X的发病概率具体计算公式如下所示：

P (C_{j} | X) = \frac{P (X | C_{j}) * P (C_{j})}{P (X)}

其中对于同一条X来说，利用上式和求解P(C_i|X)的概率，最后解得的初始状态概率向量为：

P_{0} = (\begin{matrix} P (C_{i} | X) \\ 1 - P (C_{i} | X) \end{matrix})

根据以上步骤就可以完成求解一条数据在当前时刻分别在各个状态的概率大小，也就获得了马尔科夫链中非常关键的一项内容，初始状态概率空间。

步骤3，求解一步状态转移矩阵。

结合算法原理和状态转移两部分的介绍，经过统计分析可以得到各个风险等级的m步转移矩阵如下式所示：

Q_{M} = \{\begin{matrix} q_{i 00} (m) & q_{i 01} (m) \\ 0 & 1 \end{matrix}\}

单步转移矩阵为：

Q = \{\begin{matrix} a_{i} & 1 - a_{i} \\ 0 & 1 \end{matrix}\}

上式中a_i是属于[0,1]的实数。本发明通过实际中科院体检六年跟踪数据获得转移矩阵，并且假设其是经过m步一次转移之后的转移矩阵，即m次一步转移矩阵的累积以后的转移矩阵，其计算公式为：

Q^m＝Q_M

f = \min (\frac{| q_{ij} - q_{ij}^{'} |}{q_{ij}})

针对数据分层处理以后的数据源，可以得到不同风险等级的2×2的单步转移矩阵，因为状态空间只有两种：患病和未患病。不同风险状态的状态转移矩阵见图4所示。所得到的无风险等级的单步转移矩阵为：

低中风险的单步转移矩阵为：

高风险的单步转移矩阵为：

步骤4，构建马尔科夫链，并与阿基米德模型结果进行对比。

随机在测试数据集中选择100个个体样本，分别利用两种不同模型（阿基米德模型和本文提出的模型）进行发病概率预测，然后通过预测曲线对比分析，可以非常直观的得到模型的准确程度。其中100个数据输入到阿基米德模型及本文构建的发病概率分层预测模型中进行测试，由于每个个体都会输出两个模型，限于篇幅，只选取了一个个体构建的预测曲线，如图5所示。

2.针对群体进行测试，进行准确率的计算。

针对群体进行测试即根据上述计算个体的发病概率步骤进行计算，只是不是计算个体长时间的发病概率曲线，而是建立个体某年发病概率。本发明测试所预测的为个体3年后的发病概率。统计个体的发病概率，计算群体的预测准确率。

实验数据源必须是具有两个时间节点的数据。介绍概念时会涉及到的几个基本概念：初始状态指数据源第一次采样时的状态（利用本文的状态空间中的值去表示）。预测状态指通过本文提出的模型对数据进行预测，得到预测的固定时间间隔后的状态；实际状态指数据源第二个时间节点上实际的状态。根据前面介绍的三个基本概念，模型的准确率如下描述：利用测试集第一次采样的数据进行固定时间间隔的预测，可以得到固定时间间隔后各个状态的概率，采用朴素贝叶斯分类的思想，把预测状态划分为状态概率最大的状态，通过与实际状态的对比，便可以得到一个实际状态和预测状态的预测矩阵。模型的准确率定义如下式所示：

针对本发明的分层预测方法，提出了基于分层数据预测方法整体准确率的概念，具体的计算如下式所示：

p＝w₁×p₁+w₂×p₂+w₃×p₃

p表示所有风险对应的预测方法的准确率的加权和，w_i表示该风险人群在未患病人群的中分布比例，而p_i代表对应风险人群预测模型的准确率。每个风险对应的预测模型的预测矩阵是一个2×2的矩阵。

测试集选用中科院体检中心三年间隔数据集。根据上面评价指标的描述，实验的操作步骤如下：首先把体检中心三年间隔数据第一次采样的数据进行RSD判定，把无风险、低中风险和高风险数据分离；其次分别把按照风险等级分开的数据分别输入到对应风险的预测模型中，预测各类人群三年以后的状态；然后，对于不同风险状态的预测结果分别进行统计分析，得到不同风险状态的预测矩阵，分别计算对应的准确率；最后计算基于分层数据预测方法整体的准确率。根据上面的描述可知，本次实验针对不同的风险人群数据（无风险、低中风险和高风险人群）分别得到一个预测模型，共3个预测模型，分别利用这3个预测模型对体检中心三年间隔的数据进行发病状态的预测。

按照实验过程中的描述，可以得到不同风险状态的预测矩阵，无风险、低中风险和高风险预测模型的预测矩阵分别如表2～表4所示，0表示未患病，1表示患病。

表2无风险预测模型的预测结果

表错误!文档中没有指定样式的文字。低中风险预测模型的预测结果

表4高风险预测模型的预测结果

测试结果

对于测试1，图5中描述了个体发病概率预测结果，由图5可以看出抽样数据通过不同模型的预测，其发病趋势是一致的，并且不同时间点上预测的发病概率值相近；但是阿基米德模型预测结果可能会出现一些拐点，而本文模型中是一条光滑的曲线，这是因为阿基米德模型是通过预测个体身体指标，通过预测的指标建立预测曲线，而本文模型是通过马尔科夫链的一步转移矩阵进行时间序列的扩展，并且假设转移矩阵在短时间内不发生改变，因此，描绘出的曲线没有拐点；本文中展示的两组实验结果中，发病概率均随着年龄的增加而增大，因此，可以证明出中老年人的确实发病率大于青少年的发病率。而且本模型预测步骤简单，而阿基米德模型构建复杂，需要大量的临床数据去建立模型，而且模型计算复杂，在公开的21的方程中已经涉及的变量就超过30个。由于医学数据中同一个人长期的跟踪数据较少。所以本发明只根据小数据集的跟踪数据就可以预测多年的糖尿病发病概率，对糖尿病的干预和控制有重要的应用价值。

对于测试2，根据表2～4所示的结果可以看出无风险、低中风险和高风险3种预测模型的准确率分别为90.3%、96.4和81.2%，计算出基于分层数据的预测方法整体的准确率为91.3%。由此可以看出，把原始数据进行分层处理，对数据源进行细化，针对不同的风险人群分别建模，得到了多个预测模型，这样就避免了未患病人群信息的相互淹没。虽然模型比以前更加的复杂，但是准确率也得到了很大的提升。

上述2项测试的实验结果表明，本发明具有准确率高、速度快的特点。而且可以根据不同个体输入的数据选择对应风险等级的预测模型，预测多年内的发病概率，从而能够对Ⅱ型糖尿病早发现、早重视、提前干预，降低（或延缓）Ⅱ型糖尿病发生。

Claims

1.一种II型糖尿病发概率分层预测方法，其特征在于，包括如下步骤：

步骤1，将N个被评估对象作为样本集S，其中每个对象包含M个影响2型糖尿病发病的关键属性；将关键属性作为列，不同样本对应的属性值作为行，建立样本集S的矩阵表示[s_(a+c)b]；采用包装法中朴素贝叶斯学习算法对样本集进行属性选择，选择出影响II型糖尿病发病的J维属性。

步骤2，求解初始状态向量。具体过程如下：

步骤2.1，利用风险状态判定系统对人群进行风险状态判定，判定为无风险、低风险、中风险或高风险4个风险等级中的一种。基于模型复杂程度的考虑，将低风险和中风险人群合并，统称为低中风险人群，并且无风险、低中风险和高风险作为数据的分类的类别变量，在本文中分别使用类别C_i(0、1、2)表示。

步骤2.2，在步骤2.1的基础上，将属性选择输出的J维属性作为求解初始状态向量的输入，基于朴素贝叶斯算法，求解初始状态向量。具体方法为：

步骤2.2.1，计算先验概率

P (C_{i}) = \frac{S_{i}}{S}

其中P(C_i)为先验概率，表示风险等级为i的概率。训练样本是对整体的一个随机抽样，可以通过统计训练数据得到该概率，其中N_i表示状态为i的样本个数，N表示样本的总个数。

步骤2.2.2，计算关键J个属性中第k个属性X_k对于类别C_i的作用程度P(X_k|C_i)。这个要分两种情况分别进行说明。如果属性为离散属性，则用公式

进行计算，其中S_ki表示第k属性在类别C_i中的个数，而S_i表示类别C_i的总个数。如果属性为连续属性，则统计第k属性在类别C_i中的均值和方差，计算该属性在对应类型的作用贡献程度，其中

和

分别为均值和方差，具体计算公式如下所示。

P (X_{k} | C_{i}) = g (X_{k}, μ_{C_{i}}, σ_{C_{i}}) = \frac{1}{\sqrt{2 π σ_{C_{i}}}} e^{- \frac{{(X_{k} - μ_{C_{i}})}^{2}}{2 σ_{C_{i}}^{2}}}

步骤2.2.3，计算所有属性在对于类别C_i总的作用程度P(X|C_i)。

各个属性之间是相对相互独立的，则总贡献计算公式为

P (X | C_{j}) = Π_{k = 1}^{n} P (X_{k} | C_{j})

其中P(X_k|C_i)是第k属性对于类别C_i的作用程度。

步骤2.2.4，计算初始状态向量P(C_i|X)。

把训练样本X分到它所作用总的程度最大的类别中去。也就是分到P(C_i|X)最大的类别C_i中去。具体计算公式如下所示：

P (C_{j} | X) = \frac{P (X | C_{j}) * P (C_{j})}{P (X)}

式中对于同一条X来说，P(X)一样的，所以分母P(X)对P(C_i|X)的分布比例是没有影响的，可以不用去计算，并且任意一个样本被分到某一风险等级和患病的概率之和为1，所以可以利用上式和

求解P(C_i|X)的概率，最后解得的初始状态概率向量为：

P_{0} = (\begin{matrix} P (C_{i} | X) \\ 1 - P (C_{i} | X) \end{matrix})

步骤3，认为马尔科夫链中的一个吸收态。结合算法原理和状态转移两部分的介绍，求解一步状态转移矩阵，得到各个风险等级的m步转移矩阵如下式所示。

Q_{M} = \{\begin{matrix} q_{i 00} (m) & q_{i 01} (m) \\ 0 & 1 \end{matrix}\}

单步转移矩阵为：

Q = \{\begin{matrix} a_{i} & 1 - a_{i} \\ 0 & 1 \end{matrix}\}

上式中a_i是属于[0,1]的实数。通过实际跟踪数据获得转移矩阵，假设其是经过m步一次转移之后的转移矩阵，即m次一步转移矩阵的累积以后的转移矩阵，其计算公式为：

Q^m＝Q_M

式中Q表示一步状态转移矩阵；Q_M表示通过统计获得的转移矩阵，通过设置优化任务函数和优化任务函数的目标解来决定是否要停止训练。其中优化任务函数采用限制最大相对误差，即求解转移矩阵的对应位置上最大的相对误差，相对误差公式如下式所示。

f = \min (\frac{| q_{ij} - q_{ij}^{'} |}{q_{ij}})

步骤4，在步骤2和3的基础上，即在已知初始状态向量和一步状态转移矩阵的情况下构建马尔科夫链，其构建的公式如下式所示。

P_n＝P₀×Qⁿ

个体II型糖尿病发概率预测是根据上述方法构造完成的马尔科夫链进行预测的，通过输入数据当前时刻的身体指标，判定其所属风险等级，然后输入到相应的模型中，预测个体长时间的发病概率。

2.根据权利要求1所述的II型糖尿病发病概率分层预测方法，其特征在于：步骤2.2.4，计算初始状态向量P(C_i|X)。

朴素贝叶斯分类算法，把记录X分到它所作用总的程度最大的类别中去。也就是分到P(C_i|X)最大的类别C_i中去。具体计算公式如下所示：

P (C_{j} | X) = \frac{P (X | C_{j}) * P (C_{j})}{P (X)}

其中对于同一条X来说，P(X)一样的，所以分母P(X)对P(C_i|X)的分布比例是没有影响的，可以不用去计算，并且任意一个样本被分到某一风险等级和患病的概率之和为1，所以可以利用上式和

求解P(C_i|X)的概率，最后解得的初始状态概率向量为：

P_{0} = (\begin{matrix} P (C_{i} | X) \\ 1 - P (C_{i} | X) \end{matrix})

3.根据权利要求1所述的II型糖尿病发病概率分层预测方法，其特征在于：步骤3，求解一步状态转移矩阵。

认为马尔科夫链中的一个吸收态。结合算法原理和状态转移两部分的介绍，我们可以得到以下结论，经过风险状态判定以后经过统计分析可以得到各个风险等级的m步转移矩阵如下式所示：

Q_{M} = \{\begin{matrix} q_{i 00} (m) & q_{i 01} (m) \\ 0 & 1 \end{matrix}\}

单步转移矩阵为：

Q = \{\begin{matrix} a_{i} & 1 - a_{i} \\ 0 & 1 \end{matrix}\}

Q^m＝Q_M

针对数据分层处理以后的数据源，可以得到不同风险等级的2×2的单步转移矩阵，因为状态空间只有两种：患病和未患病，可以得到不同风险状态的状态转移矩阵。

4.根据权利要求1所述的II型糖尿病发病概率分层预测方法，其特征在于：在步骤2和3的基础上，即在已知初始状态向量和一步状态转移矩阵的情况下构建马尔科夫链式，其构建的公式如下式所示。

P_n＝P₀×Qⁿ