CN112233802A - 基于改进函数因果似然度的糖尿病危险因素因果发现方法 - Google Patents

基于改进函数因果似然度的糖尿病危险因素因果发现方法 Download PDF

Info

Publication number
CN112233802A
CN112233802A CN202010913729.3A CN202010913729A CN112233802A CN 112233802 A CN112233802 A CN 112233802A CN 202010913729 A CN202010913729 A CN 202010913729A CN 112233802 A CN112233802 A CN 112233802A
Authority
CN
China
Prior art keywords
causal
likelihood
diabetes risk
risk factor
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010913729.3A
Other languages
English (en)
Inventor
高秀娥
陈波
陈世峰
周生彬
桑海涛
谢文学
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lingnan Normal University
Original Assignee
Lingnan Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lingnan Normal University filed Critical Lingnan Normal University
Priority to CN202010913729.3A priority Critical patent/CN112233802A/zh
Publication of CN112233802A publication Critical patent/CN112233802A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • Physics & Mathematics (AREA)
  • Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本发明公开了基于改进函数因果似然度的糖尿病危险因素因果发现方法,属于医学信息化技术领域;该方法包括获取糖尿病危险因素变量子集的联合分布;根据所述联合分布与因果结构求观察数据的对数似然度;将所述观察数据的对数似然度转化成观察数据噪声的对数似然度,进而建立糖尿病危险因素FCL模型;通过调整阈值对所述糖尿病危险因素FCL模型进行修正,获得糖尿病危险因素IFCL模型,利用所述糖尿病危险因素IFCL模型发现危险因素的因果关系。本申请引入调整阈值,构建糖尿病危险因素IFCL模型,利用所述糖尿病危险因素IFCL模型发现危险因素的因果关系,减少糖尿病危险因素因果结构的冗余边和错误边,进而生成优化的糖尿病危险因素因果结构。

Description

基于改进函数因果似然度的糖尿病危险因素因果发现方法
技术领域
本发明涉及医学信息化技术领域,具体涉及基于改进函数因果似然度的糖尿病危险因素因果发现方法。
背景技术
糖尿病患者数量逐年上升,已成为继心脑血管疾病、恶性肿瘤后威胁人类健康的第三大疾病。分析各类危险因素相互关系、危险因素与糖尿病关系是揭示糖尿病发病病理的关键,也是糖尿病防治的前提。
目前,国内外的研究主要集中在糖尿病患病危险因素分析和糖尿病患病预测模型构建两个方面。糖尿病患病危险因素分析研究主要包括两方面:新危险因素发现和危险因素相关性分析。探究新危险因素有助于发现糖尿病患病潜在因子,了解糖尿病病因以协助预防;同时,糖尿病的发病由多因素导致,分析危险因素之间关系也尤为重要,且具有实用的临床意义。危险因素相关性研究能够发现未被认识到的糖尿病生理和病理现象,为揭示病理提供一定程度的理论支撑。糖尿病患病预测模型有助于糖尿病预防和早期诊断。然而目前危险因素相互关系研究只能反映相关性,不能直接反映因果关系;糖尿病患病预测模型本质上是统计相关性模型,也不能反映因果关系。因此,迫切需要开展糖尿病危险因素因果关系研究,进而揭示糖尿病病理、生理因果关系,对糖尿病防治有重要的理论意义和临床指导作用。
随机控制实验是传统的因果关系发现方法,但其需要对实验组进行大量干预,这不仅成本高,而且还可能违背伦理道德。基于观察数据的因果关系发现方法可以避免以上问题,但是数据中的噪音会影响因果关系发现效果。在显著噪音条件下,基于FCL算法[文献:Ruichu Cai,Jie Qiao,Zhenjie Zhang,Zhifeng Hao.SELF:Structural EquationalEmbedded Likelihood Framework for Causal Discovery.AAAI.2018.]可以有效发现因果关系,然而该方法在糖尿病危险因素因果关系发现问题上,会保留较多冗余边和错误边。
发明内容
基于FCL算法输出的因果结构存在较多冗余边和错误边的问题,本发明提供一种基于改进函数因果似然度的糖尿病危险因素因果发现方法,其提高了糖尿病危险因素因果发现算法的挖掘性能,生成了优化的糖尿病危险因素因果结构。
为实现上述目的,本发明的技术方案为:基于改进函数因果似然度的糖尿病危险因素因果发现方法,包括:
获取糖尿病危险因素变量子集的联合分布;
根据所述联合分布与因果结构求观察数据的对数似然度;
将所述观察数据的对数似然度转化成观察数据噪声的对数似然度,进而建立糖尿病危险因素FCL模型;
通过调整阈值对所述糖尿病危险因素FCL模型进行修正,获得糖尿病危险因素IFCL模型,利用所述糖尿病危险因素IFCL模型发现危险因素的因果关系。
进一步的,获取糖尿病危险因素变量子集的联合分布,具体包括:
设{X1,X2,···,XN}为糖尿病危险因素变量集合,其中N为糖尿病危险因素变量个数;令G为子集X={X1,X2,···,Xn}上的因果结构,n为具有因果关系的糖尿病危险因素变量个数;P(Xi=x)为变量Xi=x的概率,x为对应的观测值;
Figure BDA0002664294370000028
为变量Xi在其所有因变量
Figure BDA00026642943700000210
条件下的概率,其中1≤i≤n≤N,i为具有因果关系的糖尿病危险因素变量下标;设因果结构G满足因果马尔可夫假设、因果忠诚性假设,则其联合分布P(X)表示为:
Figure BDA0002664294370000021
其中
Figure BDA0002664294370000029
为变量Xi的所有因变量。
进一步的,根据所述联合分布与因果结构观察数据的对数似然度,具体包括:
给定危险因素观察数据
Figure BDA0002664294370000022
其中
Figure BDA0002664294370000023
为n维向量,即
Figure BDA0002664294370000024
1≤j≤m;令
Figure BDA0002664294370000025
表示为包含
Figure BDA0002664294370000026
的观测值,观察数据的对数似然度为:
Figure BDA0002664294370000027
进一步的,将所述观察数据的对数似然度转化成观察数据噪声的对数似然度,进而建立糖尿病危险因素FCL模型,具体包括:
设Ei表示Xi对应的随机噪声变量,采用加性噪声模型
Figure BDA0002664294370000031
作为因果关系生成机制,其中Fi是Xi的因果函数,随机噪声变量Ei独立于因变量
Figure BDA0002664294370000032
因此,有如下等式:
Figure BDA0002664294370000033
由式(2)和(3)可知,观察数据的对数似然度等于观察数据噪声的对数似然度;又设S=<G,F>为其因果结构,F为因果函数集合,则观察数据噪声的对数似然度为:
Figure BDA0002664294370000034
O为观察数据集合,在数据集有限的情况下,对式(4)正则化以避免产生过多的冗余因果关系边;加入贝叶斯信息准则后的正则化对数似然度为:
Figure BDA0002664294370000035
式(5)为糖尿病危险因素FCL模型,其中di为估计Xi使用的系数;通过最大化式(5)来得到因果结构,maxLB(S;O)=maxGsupFLB(<G,F>;O),即为基于糖尿病危险因素FCL模型因果发现方法,其包含两个过程:①拟合与优化因果函数supF LB(<G,F>;O),得到初始因果结构;②采用爬山法筛选目标对数似然度最大的因果结构maxGLB(<G,F>;O),在迭代更新过程中,Xi的局部更新规则为:
Figure BDA0002664294370000036
进一步的,通过调整阈值对所述糖尿病危险因素FCL模型进行修正,获得糖尿病危险因素IFCL模型,利用所述糖尿病危险因素IFCL模型发现危险因素的因果关系,具体包括:迭代后的糖尿病危险因素因果结构对数似然度为
Figure BDA0002664294370000037
由于爬山法筛选目标对数似然度最大的因果结构终止条件为
Figure BDA0002664294370000038
其中LB(S;O)为初始因果结构的FCL模型,这就导致输出的糖尿病危险因素因果结构存在较多冗余边或者错误边;因此,在式(5)中引入调整阈值进行修正,修正后的模型为:
Figure BDA0002664294370000041
式(7)为改进的糖尿病危险因素IFCL模型,其中α为调整阈值;在爬山法中,式(6)依然为迭代过程中Xi的局部更新规则,迭代终止条件变为
Figure BDA0002664294370000042
在迭代过程中未发生更新的节点对数似然度为:
Figure BDA0002664294370000043
迭代后的糖尿病危险因素因果结构对数似然度表示为:
Figure BDA0002664294370000044
其中,α′是迭代后的总阈值;由(7)式可知,初始糖尿病危险因素IFCL模型的总阈值为nα,视为每个因果节点对数似然度都具有一个阈值α,即
Figure BDA0002664294370000045
每次使用式(6)进行迭代后,更新的节点对数似然度都会有一个阈值α减少,这会致使迭代后的总阈值小于初始糖尿病危险因素IFCL模型的总阈值,即α′<nα;因此,迭代过程中必须搜索到对数似然度更大的因果节点,才能达到迭代终止条件
Figure BDA0002664294370000046
这是基于IFCL模型的糖尿病危险因素因果发现方法能输出更优化因果结构的根本原因。
上述一种基于改进函数因果似然度的糖尿病危险因素因果发现方法,具体实现方法为:
Step 1:输入糖尿病危险因素的观察数据
Figure BDA0002664294370000047
预处理和标准化观察数据;
Step 2:首先采用回归方法估计因果边对应的因果函数Fi;其次计算回归得到的噪声范数;然后采用核密度估计近似得到噪声的分布来优化因果函数Fi;最终得到初始因果结构G;
Step 3:使用式(7)初始化噪声对数似然度
Figure BDA0002664294370000051
且令变量
Figure BDA0002664294370000052
Step 4:使用爬山法搜索最优因果结构;每次迭代因果结构G中仅有一条因果边进行增加、删除或者被翻转因果方向的操作;更新因果函数Fi和因果结构,将更新后的因果结构储存在G*
Step 5:比较G*与G,对有变化的节点进行局部对数似然度更新,得到L′Bi,其中更新公式为式(6);然后所有更新后的对数似然度
Figure BDA0002664294370000053
与未更新的对数似然度
Figure BDA0002664294370000054
相加,且
Figure BDA0002664294370000055
Step 6:判断
Figure BDA0002664294370000056
与LB的大小,若
Figure BDA0002664294370000057
Figure BDA0002664294370000058
G=G*且执行Step 7;否则执行Step 4;
Step 7:输出最大对数似然度
Figure BDA0002664294370000059
和相应最佳因果结构G。
本发明由于采用以上技术方案,能够取得如下的技术效果:引入调整阈值,构建糖尿病危险因素IFCL模型,利用所述糖尿病危险因素IFCL模型发现危险因素的因果关系,减少糖尿病危险因素因果结构的冗余边和错误边,进而生成优化的糖尿病危险因素因果结构。
附图说明
图1为利用所述糖尿病危险因素IFCL模型发现危险因素因果关系流程图;
图2为样本量为768的变量散点图、柱状图和相关系数;
图3为样本量为2000的变量散点图、柱状图和相关系数;
图4为基于糖尿病危险因素FCL模型的因果结构图,样本量为768;
图5为基于糖尿病危险因素FCL模型的因果结构图,样本量为2000;
图6为基于糖尿病危险因素IFCL模型的因果结构图,样本量为768,阈值α=0.05-0.06;
图7为基于糖尿病危险因素IFCL模型的因果结构,样本量为768,阈值α=0.07-0.14;
图8为基于糖尿病危险因素IFCL模型的因果结构图,样本量为768,阈值α=0.15;
图9为基于糖尿病危险因素IFCL模型的因果结构图,样本量为2000,阈值α=0.05-0.06;
图10为基于糖尿病危险因素IFCL模型的因果结构图,样本量为2000,阈值α=0.07-0.15;
图11为基于糖尿病危险因素IFCL模型的因果结构图,样本量为2000样本量,阈值α=0.18。
具体实施方式
下面结合附图和具体实施例对本发明作进一步详细的描述:以此为例对本申请做进一步的描述说明。
实施例
为了验证本发明的可行性和有效性,进行了三个实验,分别是变量间散点图及其相关系数分析实验、基于糖尿病危险因素FCL模型的因果发现实验和基于糖尿病危险因素IFCL模型的因果发现实验。实验数据是kaggle平台上样本量为768[https://www.kaggle.com/uciml/pima-indians-diabetes-database]和2000[https://www.kaggle.com/uciml/pima-indians-diabetes-database]的糖尿病数据集,分别来自美国国家糖尿病、消化和肾脏疾病研究所和德国法兰克福医院。数据集受试者均在21岁以上,数据集包括9个变量,分别是怀孕次数、口服葡萄糖耐量试验中2小时的血浆葡萄糖浓度(简称血糖)、舒张压(mmHg)、三头肌皮肤褶皱厚度(mm)、2小时的血清胰岛素(muU/ml,简称胰岛素)、身体质量指数(BMI)、糖尿病血统函数、年龄和糖尿病诊断二值变量,其中糖尿病血统函数含有受试者的家族糖尿病遗传信息。剔除糖尿病诊断二值变量,只对8个变量进行因果关系分析;为极大程度保留数据信息,采用均值插补方法填补数据集中的缺失值;对原始数据进行Z-score标准化,采用均值替代异常值。
(1)变量间散点图及其相关系数分析实验
为观察8个变量之间的因果关系,首先分析两两变量的散点图及其相关系数,样本量768、样本量2000的变量散点图如图2和3所示。在图2和图3中,左下角为变量散点图、对角线所在图像为变量柱状图、右上角为变量之间的线性相关系数。一般地,相关系数为0-0.1之间时,变量可视为线性无关,因此剔除这些变量,将大于0.1的线性相关系数及显著性检验结果汇总于表1和表2。从表1和表2发现,所有P值都小于0.01,表明变量间存在线性相关关系。
表1为768样本量的变量相关系数及P值汇总表;
Figure BDA0002664294370000061
Figure BDA0002664294370000071
表2为2000样本量的变量相关系数及P值汇总表;
Figure BDA0002664294370000072
(2)基于糖尿病危险因素FCL模型的因果发现实验
为探究这8个变量之间是否具有因果性,采用糖尿病危险因素FCL模型的因果发现方法,对样本量为768和2000的数据集进行因果发现实验,因果结构如图4和5所示,其对应的最大似然度汇总于表3,其中图4-5的因果结构分别命名为结构1-2。
表3为因果结构1-2的最大似然度汇总表;
Figure BDA0002664294370000081
①图4和图5相同之处。具有6对相同因果关系:1→7、7→3、4→6、5→2、2→6和6→3,其中1→7表示怀孕次数导致年龄变化、7→3表示年龄导致舒张压变化、4→6表示三头肌皮肤褶皱厚度导致BMI变化、5→2表示胰岛素导致血糖变化、2→6表示血糖导致BMI变化、6→3表示BMI导致舒张压变化;另外,糖尿病血统函数与其他变量不存在因果关系。
②图4和图5不同之处。图4具有6→7这对因果关系、图5具有7→2和4→7这两对因果关系,其中6→7表示BMI导致年龄变化,7→2表示年龄导致血糖变化和4→7表示三头肌皮肤褶皱厚度导致年龄变化。
从图2可知BMI与年龄的相关系数为0.07,且其P值为0.072,所以BMI与年龄可视为不存在线性相关关系,显然,由回归方法得到的因果函数没通过显著性检验,不具统计意义,6→7可视为错误因果关系。从图5可知,采用2000样本量进行因果关系发现时,去除了错误因果边如6→7;但同时还发现了4→7和7→2其它因果边。同时,从表3可知,图5比图4的最大似然度更大。由此可见,样本量的大小影响因果关系发现结果,样本量越大越有利于去除错误因果边、发现其他因果边;但是,发现的因果边越多,因果结构冗余边可能越多。从图4和图5可以看出,其因果结构图的结构错综复杂、存在很多冗余边或错误边,需要研究新的因果发现方法。
(3)基于糖尿病危险因素IFCL模型的因果发现实验
采用本发明提出的基于糖尿病危险因素IFCL模型的因果发现方法对样本量为768和2000的数据集进行因果发现实验。该方法的流程图如图1所示。其结果与阈值α的取值紧密相关,实验中阈值的范围为0.05≤α≤0.18,取值间隔为0.01;α<0.05时,生成的因果结构图冗余边较多,这里不考虑。
①样本量为768的数据集的因果结构分析。α=0.05-0.06时,生成的因果结构(结构3)如图6所示,与图4相比,因果结构中的错误边即6→7和因果边7→3被剔除,且因果边6→3被反转成3→6;α=0.07-0.14时,生成的因果结构(结构4)如图7所示,与图6相比,因果边5→2被剔除;α=0.15时,生成的因果结构(结构5)如图8所示,因果结构简化成只剩两条因果边1→7和4→6,且随着α的增加,因果结构图不再简化。
②样本量为2000的数据集的因果结构分析。α=0.05-0.06时,生成的因果结构(结构6)如图9所示,与图5相比,因果边7→3与7→2被剔除,且因果边6→3被反转成3→6;α=0.07-0.15时,生成的因果结构(结构7)如图10所示,与图9相比,因果边5→2被剔除;α=0.16-0.17时,无法搜索到最优因果结构;α≥0.18时,生成的因果结构(结构8)如图11所示,因果结构简化成只剩两条因果边1→7和4→7,且随着α的增加,因果结构图不再变化。
因果结构3-8的最大似然度汇总如表4所示,样本量越大,因果结构相应的最大似然度越大。
表4为因果结构3-8的最大似然度汇总表
Figure BDA0002664294370000091
从上面分析可以得到如下结果。样本量越大,错误因果关系更少,同时还可以挖掘其他潜在因果关系;在因果发现过程中,需要加入阈值减少冗余边和错误边,随着阈值α取值增大,采用本发明方法的因果结构不断简化,且有最简化的结构;当α取0.05和0.06时,因果结构的冗余边最少且保留信息最多,α取0.05和0.06是糖尿病危险因素因果关系发现的最佳阈值。
为了进一步分析实验结果的合理性,对实验结果进行深入讨论。从实验结果看,如图6和图9所示,糖尿病危险因素之间共存在6对因果关系(5→2、2→6、4→6、3→6、1→7和4→7),下面逐一进行分析。
①因果关系5→2、2→6。该因果关系为大众所熟知,胰岛素是人体内唯一降低血糖的激素,影响着血糖浓度。如果发生胰岛素抵抗,体内血糖消耗就会发生异常,血糖浓度提高,容易致使糖尿病病发。此外,因果关系5→2和2→6可以合并成5→2→6。正常人体内胰岛素分泌正常,血糖正常代谢,BMI会保持正常。糖尿病患者存在胰岛素抵抗,血糖不能被肝、肌肉和脂肪组织摄取利用,会导致患者消瘦,BMI变小。这说明因果关系5→2→6也成立。
②因果关系4→6。三头肌皮肤褶皱厚度能反映体内脂肪含量,三头肌皮肤褶皱厚度越大表示越肥胖,体重也越高,从而导致BMI变大,糖尿病患病风险随之提高;糖尿病患者会消瘦,三头肌皮肤褶皱厚度变小,体重下降,BMI也随之变小。因此,因果关系4→6也是成立的。
③因果关系3→6。采用文献[Ruichu Cai,Jie Qiao,Zhenjie Zhang,ZhifengHao.SELF:Structural Equational Embedded Likelihood Framework for CausalDiscovery.AAAI.2018.]的方法进行因果关系发现时,3与6的关系为6→3(如图4、图5所示),即BMI会影响舒张压,越肥胖的人BMI越大,越容易导致高血压,这符合医学常理且说明BMI是高血压的诱因之一。然而,采用本发明方法进行因果关系发现时,3与6的关系为3→6(如图6、图9所示)。因果关系3→6的说明可能存在某种潜在因果因子,舒张压导致该潜在因子变化,该潜在因子导致BMI变化,从而影响糖尿病患病风险大小。此外,糖尿病患者会伴发高血压疾病且身体消瘦,医学上认为糖尿病导致患者消瘦,但也可能为糖尿病和高血压所共同影响,进而影响BMI。因此,因果关系3→6可能真实存在,却不为人熟知。
④因果关系1→7。表示怀孕次数会导致年龄变化,文献[Ryan C P,Geoffrey H M,Lee N R,et al.Reproduction predicts shorter telomeres and epigenetic ageacceleration among young adult women[J].Scientific Reports,2018,8(1):11100.]研究发现怀孕次数越多,生理年龄越大,即细胞会加速老化,患某些疾病的概率也变大。因此,因果关系1→7预示的因果机制可能为:随着怀孕次数增加,导致胰岛β细胞加剧老化,容易发生胰岛素抵抗,糖尿病患病风险增大。
⑤因果关系4→7。表示三头肌皮肤褶皱厚度会导致年龄变化,三头肌皮肤褶皱厚度能反映人的营养状况,因果关系4→7预示的因果机制可能为:三头肌皮肤褶皱厚度低于标准值会产生营养不良,影响生理年龄和胰岛β细胞老化,导致胰岛素抵抗,增大糖尿病患病概率;三头肌皮肤褶皱厚度超标意味着肥胖,体内过多葡萄糖导致胰岛β细胞需要长时间超负荷工作,容易使胰岛老化和功能受损,糖尿病患病风险变大。
综上所述,本发明提出的糖尿病危险因素因果发现方法得到了确认的因果关系有:5→2→6和4→6;也有待进一步验证的因果关系有:3→6、1→7和4→7,这表明本发明方法在糖尿病危险因素因果发现方面具有巨大潜力,有助于进一步揭示危险影响因素之间的因果关系,为糖尿病危险因素的因果关系挖掘提供一定的参考。
以上所述,仅为本发明创造较佳的具体实施方式,但本发明创造的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明创造披露的技术范围内,根据本发明创造的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明创造的保护范围之内。

Claims (5)

1.基于改进函数因果似然度的糖尿病危险因素因果发现方法,其特征在于,包括:
获取糖尿病危险因素变量子集的联合分布;
根据所述联合分布与因果结构求观察数据的对数似然度;
将所述观察数据的对数似然度转化成观察数据噪声的对数似然度,进而建立糖尿病危险因素FCL模型;
通过调整阈值对所述糖尿病危险因素FCL模型进行修正,获得糖尿病危险因素IFCL模型,利用所述糖尿病危险因素IFCL模型发现危险因素的因果关系。
2.根据权利要求1所述基于改进函数因果似然度的糖尿病危险因素因果发现方法,其特征在于,获取糖尿病危险因素变量子集的联合分布,具体包括:
设{X1,X2,···,XN}为糖尿病危险因素变量集合,其中N为糖尿病危险因素变量个数;令G为子集X={X1,X2,···,Xn}上的因果结构,n为具有因果关系的糖尿病危险因素变量个数;P(Xi=x)为变量Xi=x的概率,x为对应的观测值;
Figure FDA0002664294360000011
为变量Xi在其所有因变量
Figure FDA0002664294360000012
条件下的概率,其中1≤i≤n≤N,i为具有因果关系的糖尿病危险因素变量下标;设因果结构G满足因果马尔可夫假设、因果忠诚性假设,则其联合分布P(X)表示为:
Figure FDA0002664294360000013
其中
Figure FDA0002664294360000014
为变量Xi的所有因变量。
3.根据权利要求1所述基于改进函数因果似然度的糖尿病危险因素因果发现方法,其特征在于,根据所述联合分布与因果结构求观察数据的对数似然度,具体包括:
给定危险因素观察数据
Figure FDA0002664294360000015
其中
Figure FDA0002664294360000016
为n维向量,即
Figure FDA0002664294360000017
Figure FDA0002664294360000018
表示为包含
Figure FDA0002664294360000019
的观测值,观察数据的对数似然度为:
Figure FDA00026642943600000110
4.根据权利要求1所述基于改进函数因果似然度的糖尿病危险因素因果发现方法,其特征在于,将所述观察数据的对数似然度转化成观察数据噪声的对数似然度,进而建立糖尿病危险因素FCL模型,具体包括:
设Ei表示Xi对应的随机噪声变量,采用加性噪声模型
Figure FDA0002664294360000021
作为因果关系生成机制,其中Fi是Xi的因果函数,随机噪声变量Ei独立于因变量
Figure FDA0002664294360000022
因此,有如下等式:
Figure FDA0002664294360000023
由式(2)和(3)可知,观察数据的对数似然度等于观察数据噪声的对数似然度;又设S=<G,F>为其因果结构,F为因果函数集合,则观察数据噪声的对数似然度为:
Figure FDA0002664294360000024
O为观察数据集合,加入贝叶斯信息准则后的正则化对数似然度为:
Figure FDA0002664294360000025
式(5)为糖尿病危险因素FCL模型,其中di为估计Xi使用的系数;通过最大化式(5)来得到因果结构,max LB(S;O)=maxGsupFLB(<G,F>;O),即为基于糖尿病危险因素FCL模型因果发现方法,其包含两个过程:①拟合与优化因果函数supF LB(<G,F>;O),得到初始因果结构;②采用爬山法筛选目标对数似然度最大的因果结构maxGLB(<G,F>;O),在迭代更新过程中,Xi的局部更新规则为:
Figure FDA0002664294360000026
5.根据权利要求1所述基于改进函数因果似然度的糖尿病危险因素因果发现方法,其特征在于,通过调整阈值对所述糖尿病危险因素FCL模型进行修正,获得糖尿病危险因素IFCL模型,利用所述糖尿病危险因素IFCL模型发现危险因素的因果关系,具体包括:在式(5)中引入调整阈值进行修正,修正后的模型为:
Figure FDA0002664294360000027
式(7)为改进的糖尿病危险因素IFCL模型,其中α为调整阈值;在爬山法中,式(6)依然为迭代过程中Xi的局部更新规则,迭代终止条件变为
Figure FDA0002664294360000031
在迭代过程中未发生更新的节点对数似然度为:
Figure FDA0002664294360000032
迭代后的糖尿病危险因素因果结构对数似然度表示为:
Figure FDA0002664294360000033
其中,α′是迭代后的总阈值;由(7)式可知,初始糖尿病危险因素IFCL模型的总阈值为nα,视为每个因果节点对数似然度都具有一个阈值α,即
Figure FDA0002664294360000034
每次使用式(6)进行迭代后,更新的节点对数似然度都会有一个阈值α减少,这会致使迭代后的总阈值小于初始糖尿病危险因素IFCL模型的总阈值,即α′<nα;因此,迭代过程中必须搜索到对数似然度更大的因果节点,才能达到迭代终止条件
Figure FDA0002664294360000035
这是基于IFCL模型的糖尿病危险因素因果发现方法能输出更优化因果结构的根本原因。
CN202010913729.3A 2020-09-03 2020-09-03 基于改进函数因果似然度的糖尿病危险因素因果发现方法 Pending CN112233802A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010913729.3A CN112233802A (zh) 2020-09-03 2020-09-03 基于改进函数因果似然度的糖尿病危险因素因果发现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010913729.3A CN112233802A (zh) 2020-09-03 2020-09-03 基于改进函数因果似然度的糖尿病危险因素因果发现方法

Publications (1)

Publication Number Publication Date
CN112233802A true CN112233802A (zh) 2021-01-15

Family

ID=74116960

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010913729.3A Pending CN112233802A (zh) 2020-09-03 2020-09-03 基于改进函数因果似然度的糖尿病危险因素因果发现方法

Country Status (1)

Country Link
CN (1) CN112233802A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117153429A (zh) * 2023-09-05 2023-12-01 岭南师范学院 一种ⅱ型糖尿病危险因素的强化学习因果发现方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110082672A1 (en) * 2009-10-02 2011-04-07 Nova Southeastern University Statistical model for predicting falling in humans
JP2016045185A (ja) * 2014-08-25 2016-04-04 真理 船木 メタボリックシンドローム発症の危険性の予測方法
CN108877943A (zh) * 2018-06-21 2018-11-23 天津医科大学 基于循证医学证据的ii型糖尿病风险评估模型
CN111028232A (zh) * 2019-12-31 2020-04-17 上海鹰瞳医疗科技有限公司 基于眼底图像的糖尿病分类方法及设备
CN111223569A (zh) * 2019-04-25 2020-06-02 岭南师范学院 一种基于特征权重的lars糖尿病预测方法
CN114822835A (zh) * 2022-02-24 2022-07-29 岭南师范学院 一种糖尿病关键特征参数获取方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110082672A1 (en) * 2009-10-02 2011-04-07 Nova Southeastern University Statistical model for predicting falling in humans
JP2016045185A (ja) * 2014-08-25 2016-04-04 真理 船木 メタボリックシンドローム発症の危険性の予測方法
CN108877943A (zh) * 2018-06-21 2018-11-23 天津医科大学 基于循证医学证据的ii型糖尿病风险评估模型
CN111223569A (zh) * 2019-04-25 2020-06-02 岭南师范学院 一种基于特征权重的lars糖尿病预测方法
CN111028232A (zh) * 2019-12-31 2020-04-17 上海鹰瞳医疗科技有限公司 基于眼底图像的糖尿病分类方法及设备
CN114822835A (zh) * 2022-02-24 2022-07-29 岭南师范学院 一种糖尿病关键特征参数获取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
RUICHU CAI,等: "SELF: Structural Equational Likelihood Framework for Causal Discovery", 《THE THIRTY-SECOND AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE》, 31 December 2018 (2018-12-31), pages 1787 - 1794 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117153429A (zh) * 2023-09-05 2023-12-01 岭南师范学院 一种ⅱ型糖尿病危险因素的强化学习因果发现方法

Similar Documents

Publication Publication Date Title
Rubenfeld Epidemiology of acute lung injury
Austin et al. Logistic regression had superior performance compared with regression trees for predicting in-hospital mortality in patients hospitalized with heart failure
Mayaud et al. Dynamic data during hypotensive episode improves mortality predictions among patients with sepsis and hypotension
EP2959009B1 (en) Tracking changes in average glycemia in diabetics
Venero et al. A multicenter evaluation of a new post-processing method with depth-dependent collimator resolution applied to full-time and half-time acquisitions without and with simultaneously acquired attenuation correction
Frøslie et al. Shape information from glucose curves: functional data analysis compared with traditional summary measures
EP2402903A1 (en) Medical decision support device and control method therefor
US20230301542A1 (en) Brain atlas individualization method and system based on magnetic resonance and twin graph neural network
CN110246577B (zh) 一种基于人工智能辅助妊娠期糖尿病遗传风险预测的方法
CN110808097A (zh) 一种妊娠期糖尿病预测系统及方法
CN111297329B (zh) 预测糖尿病患者心血管并发症动态发病风险的方法及系统
Cui et al. Butyrate-producing bacteria and insulin homeostasis: The microbiome and insulin longitudinal evaluation study (MILES)
Gutiérrez-Tobal et al. Ensemble-learning regression to estimate sleep apnea severity using at-home oximetry in adults
Boiroux et al. An ensemble nonlinear model predictive control algorithm in an artificial pancreas for people with type 1 diabetes
Shahin et al. Data mining in healthcare information systems: case studies in Northern Lebanon
CN112233802A (zh) 基于改进函数因果似然度的糖尿病危险因素因果发现方法
Ripoll-Vera et al. Sudden cardiac death in persons aged 50 years or younger: diagnostic yield of a regional molecular autopsy program using massive sequencing
Novaes et al. Prediction of secondary testosterone deficiency using machine learning: A comparative analysis of ensemble and base classifiers, probability calibration, and sampling strategies in a slightly imbalanced dataset
CN116580846B (zh) 基于相关性分析的结直肠癌预后风险模型构建方法及系统
Yang et al. Model selection and model over-fitting
Matabuena et al. Multilevel functional distributional models with application to continuous glucose monitoring in diabetes clinical trials
Gecili et al. Functional data analysis and prediction tools for continuous glucose-monitoring studies
Ferrannini et al. Identifying glucose thresholds for incident diabetes by physiological analysis: a mathematical solution
Furió-Novejarque et al. Assessment of a new model of glucagon action with glucagon receptor dynamics
Hu et al. Application of robust estimating equations to the analysis of quantitative longitudinal data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination