CN103150611A - Ii型糖尿病发病概率分层预测方法 - Google Patents

Ii型糖尿病发病概率分层预测方法 Download PDF

Info

Publication number
CN103150611A
CN103150611A CN 201310073852 CN201310073852A CN103150611A CN 103150611 A CN103150611 A CN 103150611A CN 201310073852 CN201310073852 CN 201310073852 CN 201310073852 A CN201310073852 A CN 201310073852A CN 103150611 A CN103150611 A CN 103150611A
Authority
CN
China
Prior art keywords
risk
attribute
probability
transition matrix
formula
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 201310073852
Other languages
English (en)
Inventor
罗森林
赵海秀
潘丽敏
郭伟东
张铁梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN 201310073852 priority Critical patent/CN103150611A/zh
Publication of CN103150611A publication Critical patent/CN103150611A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本发明涉及一种II型糖尿病发病概率分层预测方法,属于生物信息处理技术领域。本发明首先对Ⅱ型糖尿病人群进行风险等级判定,然后对不同风险等级人群采用包装法进行属性选择,选择出关键发病危险属性;然后利用朴素贝叶斯算法,计算出个体初始发病概率;个体初始发病概率与单步转移矩阵构建马尔可夫链,从而建立针对不同风险等级人群的Ⅱ型糖尿病发病概率预测系统。与现有技术相比,本发明在进一步提升II型糖尿病发病概率预测准确率的同时,可以根据不同个体输入的数据选择对应风险等级的预测模型,预测多年内的发病概率,处理速度快。能够达到对Ⅱ型糖尿病早发现、早重视、提前干预,降低(或延缓)Ⅱ型糖尿病发生的目的。

Description

II型糖尿病发病概率分层预测方法
技术领域
本发明涉及一种II型糖尿病发病概率分层预测方法,属于生物信息处理技术领域。
背景技术
II型糖尿病是由遗传因素和环境因素长期相互作用而引起的临床综合征,可导致心脏、脑血管、肾功能、眼睛下肢等多器官并发症发生,具有很高的致残率,甚至很多在确诊糖尿病之前就已经出现了并发症。因此,对于II型糖尿病控制,关键是预防,即在糖尿病发生以前通过生活方式和饮食等干预,从而避免或者延缓糖尿病的发生,也是目前控制II型糖尿病最有效、最经济的方法。
II型糖尿病发病概率分层预测需要解决2个基本问题:1.如何提取与II型糖尿病发病紧密相关的关键属性,提高发病概率预测的准确性;2.如何根据关键属性合理的预测个体发病概率。综观现有II型糖尿病发病概率预测方法,通常使用的方法有:
1.在关键属性提取方面:
根据算法原理一般分为过滤法和包装法,过滤法一般包括以下方法:
(1)Relief方法:该方法是根据统计相关性标准提取关键属性,根据特征值的区分能力来评价特征的相关度,即关键属性应该使同类的样本接近,而使不同类的样本之间远离,基本思想是:对样本进行抽样,在根据抽取的样本与同类、不同类的两个最接近样本的差异计算相关度,从而确定每个属性的不同权重。Relief方法选择的关键属性相关性较强,且能够处理离散和连续属性,但该方法不能消除冗余属性,且由于计算样本间距离将产生较大的时间开销,无法满足高维数据关键属性提取的时间性能要求。
(2)主成分分析方法:该方法研究各个属性之间的相关关系,将原来一组具有一定相关性的属性,通过变换成为一组新的属性集合作为关键属性,通过这种变换达到用较少的新属性代替原来较多属性的目的,并且使新属性尽可能多保留原来较多属性反映的信息。但是主成分分析法涉及到特征方程等矩阵运算,算法的时间消耗不能满足高维数据关键属性提取的要求。
(3)粗糙集方法:该方法是在保持属性的分类能力下,不断筛除冗余属性从而获得关键属性集合。粗糙集方法一般根据差别矩阵、属性重要度或JOHNSON约简方法,通过属性依赖程度的不同消除对分类结果影响较低的属性,达到提取关键属性的目的。虽然该方法可以有效地删除不相关属性,但没有考虑噪声数据的影响,并且计算效率低。
(4)信息熵方法:该方法主要用于信息理论中分析信息不确定度,也可用作属性作用度的评价,即关键属性提取。其基本思想是根据计算信息增益等方法划分数据,并从新计算划分后的数据增益,典型方法有ID3和C4.5,但该方法时间复杂度高。
(5)遗传算法:该方法将解表示为以二进制串编码的“染色体”,在执行算法前,给出假设解的“染色体”,然后把这些假设解置于具体问题也即“环境”中,按照一定原则从中选择出较适应环境的编码串模拟生物遗传过程的复制、交叉、变异产生更适应环境的新一代。依此进化,最后就会逐渐收敛到最适应环境的一个编码串上,也即最优解。通过该过程即可提取关键属性。但该方法需要不停迭代计算,算法时间复杂度高,在关键属性提取中很少应用。
包装法:该方法将学习算法作为测试用的黑盒子,利用相关的学习算法对属性子集进行评价,其主要思想是用训练数据和相应的学习算法训练一个分类模型,然后用测试数据来评估这个分类器的分类准确率,通过迭代提取关键属性,同时能够发现比较适合的学习算法以及算法的相关参数设定值。包装法优点是对学习算法的支持度高,缺点是该模型需要耗费大量的时间进行学习和训练,时间复杂度高,效率低,不适用于学习算法经常变动的情况。
2.在发病概率预测方面:
(1)多元回归
多元回归模型是应用较广泛的一种建模方法,既可以横断面资料用于群体水平糖尿病危险因素的探索,也可以队列资料用于个体水平糖尿病的发病风险的预测上。利用logistic回归建立糖尿病个体水平预测模型对资料的要求比较宽松。模型因变量是发生糖尿病和不发生糖尿病概率之比的自然对数,很容易获得未来一定时间发生糖尿病或者某种并发症的概率;自变量可以是分类资料也可以是连续变量。
(2)决策树
决策树模型是对偶然事件或者按照时间顺序列出所有由此引发的不同结果绘制成图形,由于这个图形就像一棵树干,故称为决策树。每一个偶然事件都分配一个概率,这种概率是静态概率,也是决策树的缺点所在。所以决策树只是一种决策方法,或者说是一种建模思路,一般并不单独用于模型的建立,而是用其他建模方法,按照决策树的思路建立一个混合模型。
(3)Cox比例风险
在糖尿病相关预测模型中,Cox比例风险模型应用于糖尿病发病风险评估,糖尿病并发症风险评估和糖尿病死亡率评估等。Cox比例风险模型能有效利用结局变量所经历的时间信息,可以分析删失数据,比较符合队列研究的实际情况。利用Cox比例风险模型获得相关变量的RR值后,转化形成危险评分,避免了数学公式推广应用的局限性,任何一个人用评分规则对模型变量进行评分,就可以获得今后若干年的糖尿病发病概率。无论是普通居民还是专业人士均可以轻松做出自己未来患糖尿病的概率,进而采取相应措施。在用Cox比例风险模型建立糖尿病发病概率、糖尿病并发症发病概率或者是成本效益分析时,要求连续观察,确定每一观测对象的结局,并计算相应的人年数,应用该法建立模型,对数据要求高,追踪时间不宜过短,成本较高。
(4)人工神经网络
人工神经网络是20世纪80年代中期基于大脑和神经系统研究而建立的一种计算模型,由许多并行计算、功能简单的单元按照一定的层次排列组成,具有很强的自组织、自适应和容错能力等特征,在处理非线性问题上,具有独特的优越性,广泛应用于糖尿病等慢性病的预测,但是人工神经网络建模复杂,且规则不易理解。
(5)阿基米德预测法
阿基米德模型是一个通过模拟生物器官来对“人”进行模拟。人的模型是利用一组方程,可以表征人类的所有相关的生理系统活动;并且阿基米德模型还可以模拟个体生理、疾病、干预和卫生保健,它用一组方程去描述疾病和相关并发症的生理工作方式。阿基米德模型可以预测糖尿病、冠心病、心肌收缩等13种疾病的发病概率,并且经过验证,达到很好的预测效果。
阿基米德模型与其他预测模型的不同之处:1)它是一个针对个体的模拟方法,而不是所有的人用同一个模型;2)它需要很多的生物细节,包括:治疗过程、资源和治疗开销等;3)它在时间上面是连续的,而不是离散化的;4)它能模拟很多的疾病,包括II型糖尿病和它的并发症。
虽然阿基米德模型可以预测多年以后糖尿病的发病概率,但是需要大量的临床数据去建立模型。在公开的21个方程中涉及的变量就超过30个,并且许多变量都是领域性比较强的属性,一般人很难获取。由于医学数据中同一个人长期的跟踪数据是比较少的,如果能够根据小数据集的跟踪数据就可以预测多年的糖尿病发病概率,则对糖尿病的干预和控制有重要实际应用价值。
糖尿病相关预测模型的建立方法较多,除了上述几种主要方法外,也有人用可加模型、Gompertzm模型和模糊模型建立了糖尿病、糖尿病并发症发生概率的预测模型。甚至在缺乏队列数据的情况下有人采用文献查阅和专家经验相结合,根据哈佛癌症风险评估方法建立。
综上所述,对于II型糖尿病的预测这一应用场景,现有的预测方法都是将人群初始时刻视为相同健康状况,但是不同人群初始风险等级是不同的。而且现有预测技术的预测准确率不够理想,模型过于复杂,解释性较差。
发明内容
本发明的目的是解决预测个体和人群N年以后Ⅱ型糖尿病发病概率的问题,提出一种基于马尔科夫链的II型糖尿病发病概率分层预测方法。
本发明的设计原理为根据Ⅱ型糖尿病风险等级判定标准,将人群分层处理;再对不同风险等级人群采用包装法进行属性选择,选择出与Ⅱ型糖尿病发病密切相关的8维发病危险属性;然后利用朴素贝叶斯算法,根据8维发病危险属性计算出个体初始发病概率;个体初始发病概率与单步转移矩阵构建马尔可夫链,从而建立针对不同风险等级人群的Ⅱ型糖尿病发病概率预测系统。本发明在进一步提升II型糖尿病发病概率预测准确率的同时,可以根据不同个体输入的数据选择对应风险等级的预测模型,预测N年内的发病概率。
本发明的技术方案是通过如下步骤实现的:
步骤1,发病风险状态判定。具体方法如下:
为了实现对未患病人群S进行发病概率预测,本发明首先对未患II型糖尿病的人群进行发病风险状态的判定,将人群划分为无风险、低中风险、和高风险3个风险等级。并且无风险、低中风险和高风险作为数据的分类的类别变量,在本文中分别使用0,1和2表示。
步骤2,在步骤1的基础上,求解初始状态向量。具体过程如下:
步骤2.1,首先对训练数据进行属性选择,具体方法为:输入经过RSD处理以后的数据,运用包装法作为属性选择算法,采用朴素贝叶斯算法作为包装法中的学习算法,选择出N维关键属性。
步骤2.2,在步骤2.1的基础上,将属性选择输出的N维属性作为求解初始状态向量的输入,采用朴素贝叶斯算法,求解初始状态向量。
基于朴素贝叶斯求解初始状态向量的具体方法为:首先设初始状态空间为:0,1,2分别代表无风险、低中风险和高风险状态。
步骤2.2.1,计算先验概率
P ( C i ) = S i S
式中P(Ci)为先验概率,表示风险等级为i的概率。训练样本是对整体的一个随机抽样,可以通过统计训练数据得到该概率,其中Si表示状态为i的样本个数,S表示样本的总个数。
步骤2.2.2,计算关键属性中第k属性对于类别Ci的作用程度P(Xk|Ci)。
这个要分两种情况分别进行说明。如果属性为离散属性,则用公式
Figure BDA00002896628500052
进行计算,其中Ski表示第k属性在类别Ci中的个数,而Si表示类别Ci的总个数。如果属性为连续属性,则统计第k属性在类别Ci中的均值和方差,计算该属性在对应类型的作用贡献程度,其中分别为均值和方差,具体计算公式如下所示。
P ( X k | C i ) = g ( X k , μ C i , σ C i ) = 1 2 π σ C i e - ( X k - μ C i ) 2 2 σ C i 2
步骤2.2.3,计算所有属性在对于类别Ci总的作用程度P(X|Ci)。
上文已经详细介绍了属性选择的原理及过程,所以可以认定,经过属性选择以后的属性子集中,各个属性之间是相对相互独立的,则总贡献计算公式为
P ( X | C j ) = Π k = 1 n P ( X k | C j )
式中P(Xk|Ci)是第k属性对于类别Ci的作用程度。
步骤2.2.4,计算初始状态向量P(Ci|X)。
采用朴素贝叶斯分类算法,首先把个体X分到它所作用总的程度最大的类别中去。也就是分到P(Ci|X)最大的类别Ci中去。为计算该个体的发病概率值,需分别计算个体X分到各个类别中的概率,具体计算公式如下所示:
P ( C j | X ) = P ( X | C j ) * P ( C j ) P ( X )
对于同一个体X来说,P(X)一样,分母P(X)对P(Ci|X)的分布比例没有影响,不用计算,根据上式和
Figure BDA00002896628500064
求解P(Ci|X)的概率,求得初始状态概率向量为:
P 0 = P ( C i | X ) 1 - P ( C i | X )
步骤3,求解一步状态转移矩阵。具体方法如下:
从状态i经过1步转移到达状态j的概率大小,如果qij(1)=0,那说明经过一步是不可能从状态i转移到达状态j的。
结合算法原理和状态转移两部分的介绍,得以下结论,经过RSD判定以后经过统计分析可以得到各个风险等级的m步转移矩阵如下式所示。
Q M = q i 00 ( m ) q i 01 ( m ) 0 1
单步转移矩阵为:
Q = a i 1 - a i 0 1
上式中ai是属于[0,1]的实数。本文通过实际跟踪数据获得转移矩阵,并假设其是经过m步一次转移之后的转移矩阵,即m次一步转移矩阵的累积以后的转移矩阵,其计算公式为:
Qm=QM
式中Q表示一步状态转移矩阵;QM表示通过统计获得的转移矩阵。通过设置优化任务函数和优化任务函数的目标解来决定是否要停止训练。其中优化任务函数采用限制最大相对误差,即求解转移矩阵的对应位置上最大的相对误差,相对误差公式如下式所示。
f = min ( | q ij - q ij ′ | q ij )
步骤4,构建马尔科夫链。
在步骤2和3的基础上,构建马尔科夫链式的公式如下式所示。
Pn=P0×Qn
式中,P0是初始状态向量,Q是一步状态转移矩阵,n表示转移的次数。
概率预测模块是借助本模块构造完成的马尔科夫链进行预测的,通过输入数据当前时刻的身体指标,判定其所属风险等级,然后输入到相应的模型中,预测个体长时间的发病概率。
有益效果
相比于粗糙集方法、遗传算法,Relief方法、主成分分析方法等属性选择算法,由于本发明计算初始状态向量时利用朴素贝叶斯算法,所以属性选择的采用包装法,学习算法采用朴素贝叶斯算法进行属性选择,使计算结果分类准确率最高,为下一步组建马尔科夫链进行II型糖尿病发病概率预测提供最合理的属性集。
相比于COX比例风险、多元回归、神经网络等预测方法,本发明采用的基于马尔科夫链的II型糖尿病发病概率分层预测方法具有识别速度快、准确率高的特点,而且能够预测个体多年以后的II型糖尿病发病概率。相比于阿基米德模型,本发明计算简单,模型复杂度低,而且可以根据小数据集的跟踪数据预测多年的糖尿病发病概率,对糖尿病的干预和控制有重要实际应用价值。
本发明首先进行人群风险等级判定,根据个体风险等级来更有针对性的建立II型糖尿病发病概率预测模型,使预测结果更具有普适性和实用性,并满足实时处理及移动计算的需求。
附图、表说明
图1为本发明的II型糖尿病发病概率分层预测原理图;
图2为具体实施方式中数据分层原理图;
图3为具体实施方式中属性选择原理图;
图4为具体实施方式中状态转移图;
图5为具体实施方式中,使用中科院实测数据源进行测试时,使用同一个体数据,本发明与阿基米德模型对比,(a)图为阿基米德模型预测曲线图,(b)图为本发明所提出的II型糖尿病发病概率分层预测曲线图。
具体实施方式
为了更好的说明本发明的目的和优点,下面结合附图和表格以及实例对本发明方法的实施方式做进一步详细说明。
分别以2001年2月至9月从北京市西城区和海淀区科研院所59839条数据作为输入,设计并部署2项测试:(1)针对个体数据计算个体长时间的发病概率曲线,并与阿基米德模型预测曲线进行对比;(2)针对群体进行测试,进行准确率的计算。
下面将对上述2个测试流程逐一进行说明,所有测试均在同一台计算机上完成,具体配置为:Intel双核CPU(主频1.8G),1G内存,WindowsXP SP3操作系统。
测试1和2两项首先对测试数据进行分层,将人群进行风险状态判定,根据个体的初始风险等级选择相应的风险等级预测模型进行发病概率的预测。表1为测试数据风险等级分布图。
表1数据源风险等级分布图
Figure BDA00002896628500081
1.针对个体数据计算个体长时间的发病概率曲线,并与阿基米德模型预测曲线进行对比。
实施过程原理按照图1所示的II型糖尿病发病概率分层预测原理图进行。
步骤1,发病风险状态判定。把训练集1中人群划分为3层:无风险人群、低中风险人群和高风险人群,然后分别和患病人群混合,未患病数据标定为0,患病数据标定为1,形成不同风险等级初始状态概率计算模型的训练数据源。RSD判定过程按照图2所示的数据分层原理图进行。
步骤2,在步骤1的基础上,求解初始状态向量,得到只有两个分类的基于朴素贝叶斯的分类模型。
步骤2.1,首先对训练数据进行属性选择,属性选择原理按照图3所示进行。
步骤2.2,在步骤2.1的基础上,将属性选择输出的N属性作为求解初始状态向量的输入,基于朴素贝叶斯算法,求解初始状态向量。这里的状态空间只分为两种,未患病和患病,因此其初始状态概率矩阵是一个1×2的矩阵。
步骤2.2.1,根据个体所属风险等级计算个体的先验概率。训练集中的各个风险等级的先验概率根据公式
Figure BDA00002896628500091
已经求解,测试集个体只需要判定所属风险等级,则先验概率等于所属风险等级的先验概率。
步骤2.2.2,计算关键属性中第k属性对于类别Ci的作用程度P(Xk|Ci)。
这个要分两种情况分别进行说明。如果属性为离散属性,则用公式进行计算,其中Ski表示第k属性在类别Ci中的个数,而Si表示类别Ci的总个数。输入的8维与糖尿病有关的属性子集中,性别和家族史是离散属性,年龄进行分段处理视为离散属性进行计算,剩下的属性为连续属性,计算公式如下所示:
P ( X k | C i ) = g ( X k , μ C i , σ C i ) = 1 2 π σ C i e - ( X k - μ C i ) 2 2 σ C i 2
步骤2.2.3,计算所有属性在对于类别Ci总的作用程度P(X|Ci)。
经过属性选择以后的属性子集中,各个属性之间是相对相互独立的,则总贡献计算公式为
P ( X | C j ) = Π k = 1 n P ( X k | C j )
式中P(Xk|Ci)是第k属性对于类别Ci的作用程度。
步骤2.2.4,计算个体初始状态向量P(Ci|X)。
个体X的发病概率具体计算公式如下所示:
P ( C j | X ) = P ( X | C j ) * P ( C j ) P ( X )
其中对于同一条X来说,利用上式和求解P(Ci|X)的概率,最后解得的初始状态概率向量为:
P 0 = P ( C i | X ) 1 - P ( C i | X )
根据以上步骤就可以完成求解一条数据在当前时刻分别在各个状态的概率大小,也就获得了马尔科夫链中非常关键的一项内容,初始状态概率空间。
步骤3,求解一步状态转移矩阵。
结合算法原理和状态转移两部分的介绍,经过统计分析可以得到各个风险等级的m步转移矩阵如下式所示:
Q M = q i 00 ( m ) q i 01 ( m ) 0 1
单步转移矩阵为:
Q = a i 1 - a i 0 1
上式中ai是属于[0,1]的实数。本发明通过实际中科院体检六年跟踪数据获得转移矩阵,并且假设其是经过m步一次转移之后的转移矩阵,即m次一步转移矩阵的累积以后的转移矩阵,其计算公式为:
Qm=QM
式中Q表示一步状态转移矩阵;QM表示通过统计获得的转移矩阵。通过设置优化任务函数和优化任务函数的目标解来决定是否要停止训练。其中优化任务函数采用限制最大相对误差,即求解转移矩阵的对应位置上最大的相对误差,相对误差公式如下式所示。
f = min ( | q ij - q ij ′ | q ij )
针对数据分层处理以后的数据源,可以得到不同风险等级的2×2的单步转移矩阵,因为状态空间只有两种:患病和未患病。不同风险状态的状态转移矩阵见图4所示。所得到的无风险等级的单步转移矩阵为:
Figure BDA00002896628500112
低中风险的单步转移矩阵为:
Figure BDA00002896628500113
高风险的单步转移矩阵为:
Figure BDA00002896628500114
步骤4,构建马尔科夫链,并与阿基米德模型结果进行对比。
随机在测试数据集中选择100个个体样本,分别利用两种不同模型(阿基米德模型和本文提出的模型)进行发病概率预测,然后通过预测曲线对比分析,可以非常直观的得到模型的准确程度。其中100个数据输入到阿基米德模型及本文构建的发病概率分层预测模型中进行测试,由于每个个体都会输出两个模型,限于篇幅,只选取了一个个体构建的预测曲线,如图5所示。
2.针对群体进行测试,进行准确率的计算。
针对群体进行测试即根据上述计算个体的发病概率步骤进行计算,只是不是计算个体长时间的发病概率曲线,而是建立个体某年发病概率。本发明测试所预测的为个体3年后的发病概率。统计个体的发病概率,计算群体的预测准确率。
实验数据源必须是具有两个时间节点的数据。介绍概念时会涉及到的几个基本概念:初始状态指数据源第一次采样时的状态(利用本文的状态空间中的值去表示)。预测状态指通过本文提出的模型对数据进行预测,得到预测的固定时间间隔后的状态;实际状态指数据源第二个时间节点上实际的状态。根据前面介绍的三个基本概念,模型的准确率如下描述:利用测试集第一次采样的数据进行固定时间间隔的预测,可以得到固定时间间隔后各个状态的概率,采用朴素贝叶斯分类的思想,把预测状态划分为状态概率最大的状态,通过与实际状态的对比,便可以得到一个实际状态和预测状态的预测矩阵。模型的准确率定义如下式所示:
Figure BDA00002896628500121
针对本发明的分层预测方法,提出了基于分层数据预测方法整体准确率的概念,具体的计算如下式所示:
p=w1×p1+w2×p2+w3×p3
p表示所有风险对应的预测方法的准确率的加权和,wi表示该风险人群在未患病人群的中分布比例,而pi代表对应风险人群预测模型的准确率。每个风险对应的预测模型的预测矩阵是一个2×2的矩阵。
测试集选用中科院体检中心三年间隔数据集。根据上面评价指标的描述,实验的操作步骤如下:首先把体检中心三年间隔数据第一次采样的数据进行RSD判定,把无风险、低中风险和高风险数据分离;其次分别把按照风险等级分开的数据分别输入到对应风险的预测模型中,预测各类人群三年以后的状态;然后,对于不同风险状态的预测结果分别进行统计分析,得到不同风险状态的预测矩阵,分别计算对应的准确率;最后计算基于分层数据预测方法整体的准确率。根据上面的描述可知,本次实验针对不同的风险人群数据(无风险、低中风险和高风险人群)分别得到一个预测模型,共3个预测模型,分别利用这3个预测模型对体检中心三年间隔的数据进行发病状态的预测。
按照实验过程中的描述,可以得到不同风险状态的预测矩阵,无风险、低中风险和高风险预测模型的预测矩阵分别如表2~表4所示,0表示未患病,1表示患病。
表2无风险预测模型的预测结果
表错误!文档中没有指定样式的文字。低中风险预测模型的预测结果
表4高风险预测模型的预测结果
Figure BDA00002896628500133
测试结果
对于测试1,图5中描述了个体发病概率预测结果,由图5可以看出抽样数据通过不同模型的预测,其发病趋势是一致的,并且不同时间点上预测的发病概率值相近;但是阿基米德模型预测结果可能会出现一些拐点,而本文模型中是一条光滑的曲线,这是因为阿基米德模型是通过预测个体身体指标,通过预测的指标建立预测曲线,而本文模型是通过马尔科夫链的一步转移矩阵进行时间序列的扩展,并且假设转移矩阵在短时间内不发生改变,因此,描绘出的曲线没有拐点;本文中展示的两组实验结果中,发病概率均随着年龄的增加而增大,因此,可以证明出中老年人的确实发病率大于青少年的发病率。而且本模型预测步骤简单,而阿基米德模型构建复杂,需要大量的临床数据去建立模型,而且模型计算复杂,在公开的21的方程中已经涉及的变量就超过30个。由于医学数据中同一个人长期的跟踪数据较少。所以本发明只根据小数据集的跟踪数据就可以预测多年的糖尿病发病概率,对糖尿病的干预和控制有重要的应用价值。
对于测试2,根据表2~4所示的结果可以看出无风险、低中风险和高风险3种预测模型的准确率分别为90.3%、96.4和81.2%,计算出基于分层数据的预测方法整体的准确率为91.3%。由此可以看出,把原始数据进行分层处理,对数据源进行细化,针对不同的风险人群分别建模,得到了多个预测模型,这样就避免了未患病人群信息的相互淹没。虽然模型比以前更加的复杂,但是准确率也得到了很大的提升。
上述2项测试的实验结果表明,本发明具有准确率高、速度快的特点。而且可以根据不同个体输入的数据选择对应风险等级的预测模型,预测多年内的发病概率,从而能够对Ⅱ型糖尿病早发现、早重视、提前干预,降低(或延缓)Ⅱ型糖尿病发生。

Claims (4)

1.一种II型糖尿病发概率分层预测方法,其特征在于,包括如下步骤:
步骤1,将N个被评估对象作为样本集S,其中每个对象包含M个影响2型糖尿病发病的关键属性;将关键属性作为列,不同样本对应的属性值作为行,建立样本集S的矩阵表示[s(a+c)b];采用包装法中朴素贝叶斯学习算法对样本集进行属性选择,选择出影响II型糖尿病发病的J维属性。
步骤2,求解初始状态向量。具体过程如下:
步骤2.1,利用风险状态判定系统对人群进行风险状态判定,判定为无风险、低风险、中风险或高风险4个风险等级中的一种。基于模型复杂程度的考虑,将低风险和中风险人群合并,统称为低中风险人群,并且无风险、低中风险和高风险作为数据的分类的类别变量,在本文中分别使用类别Ci(0、1、2)表示。
步骤2.2,在步骤2.1的基础上,将属性选择输出的J维属性作为求解初始状态向量的输入,基于朴素贝叶斯算法,求解初始状态向量。具体方法为:
步骤2.2.1,计算先验概率
P ( C i ) = S i S
其中P(Ci)为先验概率,表示风险等级为i的概率。训练样本是对整体的一个随机抽样,可以通过统计训练数据得到该概率,其中Ni表示状态为i的样本个数,N表示样本的总个数。
步骤2.2.2,计算关键J个属性中第k个属性Xk对于类别Ci的作用程度P(Xk|Ci)。这个要分两种情况分别进行说明。如果属性为离散属性,则用公式
Figure FDA00002896628400012
进行计算,其中Ski表示第k属性在类别Ci中的个数,而Si表示类别Ci的总个数。如果属性为连续属性,则统计第k属性在类别Ci中的均值和方差,计算该属性在对应类型的作用贡献程度,其中
Figure FDA00002896628400015
Figure FDA00002896628400016
分别为均值和方差,具体计算公式如下所示。
P ( X k | C i ) = g ( X k , μ C i , σ C i ) = 1 2 π σ C i e - ( X k - μ C i ) 2 2 σ C i 2
步骤2.2.3,计算所有属性在对于类别Ci总的作用程度P(X|Ci)。
各个属性之间是相对相互独立的,则总贡献计算公式为
P ( X | C j ) = Π k = 1 n P ( X k | C j )
其中P(Xk|Ci)是第k属性对于类别Ci的作用程度。
步骤2.2.4,计算初始状态向量P(Ci|X)。
把训练样本X分到它所作用总的程度最大的类别中去。也就是分到P(Ci|X)最大的类别Ci中去。具体计算公式如下所示:
P ( C j | X ) = P ( X | C j ) * P ( C j ) P ( X )
式中对于同一条X来说,P(X)一样的,所以分母P(X)对P(Ci|X)的分布比例是没有影响的,可以不用去计算,并且任意一个样本被分到某一风险等级和患病的概率之和为1,所以可以利用上式和
Figure FDA00002896628400022
求解P(Ci|X)的概率,最后解得的初始状态概率向量为:
P 0 = P ( C i | X ) 1 - P ( C i | X )
根据以上步骤就可以完成求解一条数据在当前时刻分别在各个状态的概率大小,也就获得了马尔科夫链中非常关键的一项内容,初始状态概率空间。
步骤3,认为马尔科夫链中的一个吸收态。结合算法原理和状态转移两部分的介绍,求解一步状态转移矩阵,得到各个风险等级的m步转移矩阵如下式所示。
Q M = q i 00 ( m ) q i 01 ( m ) 0 1
单步转移矩阵为:
Q = a i 1 - a i 0 1
上式中ai是属于[0,1]的实数。通过实际跟踪数据获得转移矩阵,假设其是经过m步一次转移之后的转移矩阵,即m次一步转移矩阵的累积以后的转移矩阵,其计算公式为:
Qm=QM
式中Q表示一步状态转移矩阵;QM表示通过统计获得的转移矩阵,通过设置优化任务函数和优化任务函数的目标解来决定是否要停止训练。其中优化任务函数采用限制最大相对误差,即求解转移矩阵的对应位置上最大的相对误差,相对误差公式如下式所示。
f = min ( | q ij - q ij ′ | q ij )
步骤4,在步骤2和3的基础上,即在已知初始状态向量和一步状态转移矩阵的情况下构建马尔科夫链,其构建的公式如下式所示。
Pn=P0×Qn
式中,P0是初始状态向量,Q是一步状态转移矩阵,n表示转移的次数。
个体II型糖尿病发概率预测是根据上述方法构造完成的马尔科夫链进行预测的,通过输入数据当前时刻的身体指标,判定其所属风险等级,然后输入到相应的模型中,预测个体长时间的发病概率。
2.根据权利要求1所述的II型糖尿病发病概率分层预测方法,其特征在于:步骤2.2.4,计算初始状态向量P(Ci|X)。
朴素贝叶斯分类算法,把记录X分到它所作用总的程度最大的类别中去。也就是分到P(Ci|X)最大的类别Ci中去。具体计算公式如下所示:
P ( C j | X ) = P ( X | C j ) * P ( C j ) P ( X )
其中对于同一条X来说,P(X)一样的,所以分母P(X)对P(Ci|X)的分布比例是没有影响的,可以不用去计算,并且任意一个样本被分到某一风险等级和患病的概率之和为1,所以可以利用上式和
Figure FDA00002896628400033
求解P(Ci|X)的概率,最后解得的初始状态概率向量为:
P 0 = P ( C i | X ) 1 - P ( C i | X )
根据以上步骤就可以完成求解一条数据在当前时刻分别在各个状态的概率大小,也就获得了马尔科夫链中非常关键的一项内容,初始状态概率空间。
3.根据权利要求1所述的II型糖尿病发病概率分层预测方法,其特征在于:步骤3,求解一步状态转移矩阵。
认为马尔科夫链中的一个吸收态。结合算法原理和状态转移两部分的介绍,我们可以得到以下结论,经过风险状态判定以后经过统计分析可以得到各个风险等级的m步转移矩阵如下式所示:
Q M = q i 00 ( m ) q i 01 ( m ) 0 1
单步转移矩阵为:
Q = a i 1 - a i 0 1
上式中ai是属于[0,1]的实数。本发明通过实际中科院体检六年跟踪数据获得转移矩阵,并且假设其是经过m步一次转移之后的转移矩阵,即m次一步转移矩阵的累积以后的转移矩阵,其计算公式为:
Qm=QM
针对数据分层处理以后的数据源,可以得到不同风险等级的2×2的单步转移矩阵,因为状态空间只有两种:患病和未患病,可以得到不同风险状态的状态转移矩阵。
4.根据权利要求1所述的II型糖尿病发病概率分层预测方法,其特征在于:在步骤2和3的基础上,即在已知初始状态向量和一步状态转移矩阵的情况下构建马尔科夫链式,其构建的公式如下式所示。
Pn=P0×Qn
式中,P0是初始状态向量,Q是一步状态转移矩阵,n表示转移的次数。
CN 201310073852 2013-03-08 2013-03-08 Ii型糖尿病发病概率分层预测方法 Pending CN103150611A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201310073852 CN103150611A (zh) 2013-03-08 2013-03-08 Ii型糖尿病发病概率分层预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201310073852 CN103150611A (zh) 2013-03-08 2013-03-08 Ii型糖尿病发病概率分层预测方法

Publications (1)

Publication Number Publication Date
CN103150611A true CN103150611A (zh) 2013-06-12

Family

ID=48548671

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201310073852 Pending CN103150611A (zh) 2013-03-08 2013-03-08 Ii型糖尿病发病概率分层预测方法

Country Status (1)

Country Link
CN (1) CN103150611A (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103366183A (zh) * 2013-07-19 2013-10-23 南方医科大学 一种局灶性病灶的非参数自动检测方法
CN106407706A (zh) * 2016-09-29 2017-02-15 北京理工大学 基于boruta算法的多层次老年人体能状态量化等级计算方法
CN107169284A (zh) * 2017-05-12 2017-09-15 北京理工大学 一种生物医学关键属性选择方法
JP2017527399A (ja) * 2014-09-09 2017-09-21 レイドス イノベイションズ テクノロジー,インコーポレイティド 疾患検出のための装置及び方法
CN107194138A (zh) * 2016-01-31 2017-09-22 青岛睿帮信息技术有限公司 一种基于体检数据建模的空腹血糖预测方法
CN107622801A (zh) * 2017-02-20 2018-01-23 平安科技(深圳)有限公司 疾病概率的检测方法和装置
CN107680685A (zh) * 2017-10-24 2018-02-09 山东浪潮云服务信息科技有限公司 一种疾病预警方法及系统
CN109616218A (zh) * 2018-12-04 2019-04-12 泰康保险集团股份有限公司 数据处理方法、装置、介质及电子设备
CN111062800A (zh) * 2019-11-27 2020-04-24 同盾控股有限公司 数据处理方法、装置、电子设备及计算机可读介质
CN111091916A (zh) * 2019-12-24 2020-05-01 郑州科技学院 人工智能中基于改进粒子群算法的数据分析处理方法及系统
CN111223569A (zh) * 2019-04-25 2020-06-02 岭南师范学院 一种基于特征权重的lars糖尿病预测方法
CN111243738A (zh) * 2019-12-31 2020-06-05 东软集团股份有限公司 生存分析模型的构建、生存率的预测方法、装置及设备
CN111297329A (zh) * 2020-02-24 2020-06-19 苏州大学 预测糖尿病患者心血管并发症动态发病风险的方法及系统
CN113208629A (zh) * 2021-04-06 2021-08-06 北京脑陆科技有限公司 一种基于eeg信号的阿尔兹海默症筛查方法及系统
CN113611412A (zh) * 2020-09-03 2021-11-05 北京大学 一种t2dm引起冠心病风险的预测方法、装置及系统
CN114504298A (zh) * 2022-01-21 2022-05-17 南京航空航天大学 基于多源健康感知数据融合的生理特征判别方法及系统

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103366183B (zh) * 2013-07-19 2017-05-10 南方医科大学 一种局灶性病灶的非参数自动检测方法
CN103366183A (zh) * 2013-07-19 2013-10-23 南方医科大学 一种局灶性病灶的非参数自动检测方法
JP2017527399A (ja) * 2014-09-09 2017-09-21 レイドス イノベイションズ テクノロジー,インコーポレイティド 疾患検出のための装置及び方法
CN107194138A (zh) * 2016-01-31 2017-09-22 青岛睿帮信息技术有限公司 一种基于体检数据建模的空腹血糖预测方法
CN106407706A (zh) * 2016-09-29 2017-02-15 北京理工大学 基于boruta算法的多层次老年人体能状态量化等级计算方法
CN107622801A (zh) * 2017-02-20 2018-01-23 平安科技(深圳)有限公司 疾病概率的检测方法和装置
WO2018149300A1 (zh) * 2017-02-20 2018-08-23 平安科技(深圳)有限公司 疾病概率的检测方法、装置、设备及计算机可读存储介质
CN107169284A (zh) * 2017-05-12 2017-09-15 北京理工大学 一种生物医学关键属性选择方法
CN107680685A (zh) * 2017-10-24 2018-02-09 山东浪潮云服务信息科技有限公司 一种疾病预警方法及系统
CN109616218A (zh) * 2018-12-04 2019-04-12 泰康保险集团股份有限公司 数据处理方法、装置、介质及电子设备
CN111223569A (zh) * 2019-04-25 2020-06-02 岭南师范学院 一种基于特征权重的lars糖尿病预测方法
CN111062800A (zh) * 2019-11-27 2020-04-24 同盾控股有限公司 数据处理方法、装置、电子设备及计算机可读介质
CN111062800B (zh) * 2019-11-27 2023-09-08 同盾控股有限公司 数据处理方法、装置、电子设备及计算机可读介质
CN111091916A (zh) * 2019-12-24 2020-05-01 郑州科技学院 人工智能中基于改进粒子群算法的数据分析处理方法及系统
CN111243738A (zh) * 2019-12-31 2020-06-05 东软集团股份有限公司 生存分析模型的构建、生存率的预测方法、装置及设备
CN111297329A (zh) * 2020-02-24 2020-06-19 苏州大学 预测糖尿病患者心血管并发症动态发病风险的方法及系统
CN113611412A (zh) * 2020-09-03 2021-11-05 北京大学 一种t2dm引起冠心病风险的预测方法、装置及系统
CN113208629A (zh) * 2021-04-06 2021-08-06 北京脑陆科技有限公司 一种基于eeg信号的阿尔兹海默症筛查方法及系统
CN114504298A (zh) * 2022-01-21 2022-05-17 南京航空航天大学 基于多源健康感知数据融合的生理特征判别方法及系统
CN114504298B (zh) * 2022-01-21 2024-02-13 南京航空航天大学 基于多源健康感知数据融合的生理特征判别方法及系统

Similar Documents

Publication Publication Date Title
CN103150611A (zh) Ii型糖尿病发病概率分层预测方法
Wang et al. Bi-directional long short-term memory method based on attention mechanism and rolling update for short-term load forecasting
Wang et al. Deep learning-based socio-demographic information identification from smart meter data
Wu et al. Evolving RBF neural networks for rainfall prediction using hybrid particle swarm optimization and genetic algorithm
Zekić-Sušac et al. Predicting energy cost of public buildings by artificial neural networks, CART, and random forest
Potharaju et al. Distributed feature selection (DFS) strategy for microarray gene expression data to improve the classification performance
CN113537600B (zh) 一种全过程耦合机器学习的中长期降水预报建模方法
CN105893609A (zh) 一种基于加权混合的移动app推荐方法
Deng et al. A multi-granularity combined prediction model based on fuzzy trend forecasting and particle swarm techniques
Li et al. A hybrid model for river water level forecasting: cases of Xiangjiang River and Yuanjiang River, China
Elayidom et al. A generalized data mining framework for placement chance prediction problems
Ozyegen et al. Evaluation of interpretability methods for multivariate time series forecasting
CN116644970A (zh) 一种基于vmd分解和叠层深度学习的光伏功率预测方法
CN114519508A (zh) 基于时序深度学习和法律文书信息的信用风险评估方法
Ye et al. A crypto market forecasting method based on Catboost model and bigdata
Roy et al. Air quality index forecasting using hybrid neural network model with LSTM on AQI sequences
Pavlekovic et al. Modeling children’s mathematical gift by neural networks and logistic regression
Li et al. TopoPhy-CNN: integrating topological information of phylogenetic tree for host phenotype prediction from metagenomic data
Mao et al. Naive Bayesian algorithm classification model with local attribute weighted based on KNN
Shujaaddeen et al. A New Machine Learning Model for Detecting levels of Tax Evasion Based on Hybrid Neural Network
Keskin et al. Cohort fertility heterogeneity during the fertility decline period in Turkey
Shukla et al. Sentiment analysis of international relations with artificial intelligence
Jackson et al. Machine learning for classification of economic recessions
De Fausti et al. Multilayer perceptron models for the estimation of the attained level of education in the Italian Permanent Census
Wang et al. Joint medical ontology representation learning for healthcare predictions

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20130612