CN112233802A - 基于改进函数因果似然度的糖尿病危险因素因果发现方法 - Google Patents
基于改进函数因果似然度的糖尿病危险因素因果发现方法 Download PDFInfo
- Publication number
- CN112233802A CN112233802A CN202010913729.3A CN202010913729A CN112233802A CN 112233802 A CN112233802 A CN 112233802A CN 202010913729 A CN202010913729 A CN 202010913729A CN 112233802 A CN112233802 A CN 112233802A
- Authority
- CN
- China
- Prior art keywords
- causal
- likelihood
- diabetes risk
- risk factor
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 206010012601 diabetes mellitus Diseases 0.000 title claims abstract description 131
- 238000000034 method Methods 0.000 title claims abstract description 49
- 230000000694 effects Effects 0.000 title claims description 31
- 230000001364 causal effect Effects 0.000 claims abstract description 167
- 230000009194 climbing Effects 0.000 claims description 6
- 230000001419 dependent effect Effects 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 5
- 238000012804 iterative process Methods 0.000 claims description 4
- 230000007246 mechanism Effects 0.000 claims description 4
- 238000012937 correction Methods 0.000 claims description 3
- 239000000654 additive Substances 0.000 claims description 2
- 230000000996 additive effect Effects 0.000 claims description 2
- 238000005457 optimization Methods 0.000 abstract 1
- 230000008859 change Effects 0.000 description 16
- 239000008280 blood Substances 0.000 description 12
- 210000004369 blood Anatomy 0.000 description 12
- 238000002474 experimental method Methods 0.000 description 11
- 238000004458 analytical method Methods 0.000 description 9
- NOESYZHRGYRDHS-UHFFFAOYSA-N insulin Chemical compound N1C(=O)C(NC(=O)C(CCC(N)=O)NC(=O)C(CCC(O)=O)NC(=O)C(C(C)C)NC(=O)C(NC(=O)CN)C(C)CC)CSSCC(C(NC(CO)C(=O)NC(CC(C)C)C(=O)NC(CC=2C=CC(O)=CC=2)C(=O)NC(CCC(N)=O)C(=O)NC(CC(C)C)C(=O)NC(CCC(O)=O)C(=O)NC(CC(N)=O)C(=O)NC(CC=2C=CC(O)=CC=2)C(=O)NC(CSSCC(NC(=O)C(C(C)C)NC(=O)C(CC(C)C)NC(=O)C(CC=2C=CC(O)=CC=2)NC(=O)C(CC(C)C)NC(=O)C(C)NC(=O)C(CCC(O)=O)NC(=O)C(C(C)C)NC(=O)C(CC(C)C)NC(=O)C(CC=2NC=NC=2)NC(=O)C(CO)NC(=O)CNC2=O)C(=O)NCC(=O)NC(CCC(O)=O)C(=O)NC(CCCNC(N)=N)C(=O)NCC(=O)NC(CC=3C=CC=CC=3)C(=O)NC(CC=3C=CC=CC=3)C(=O)NC(CC=3C=CC(O)=CC=3)C(=O)NC(C(C)O)C(=O)N3C(CCC3)C(=O)NC(CCCCN)C(=O)NC(C)C(O)=O)C(=O)NC(CC(N)=O)C(O)=O)=O)NC(=O)C(C(C)CC)NC(=O)C(CO)NC(=O)C(C(C)O)NC(=O)C1CSSCC2NC(=O)C(CC(C)C)NC(=O)C(NC(=O)C(CCC(N)=O)NC(=O)C(CC(N)=O)NC(=O)C(NC(=O)C(N)CC=1C=CC=CC=1)C(C)C)CC1=CN=CN1 NOESYZHRGYRDHS-UHFFFAOYSA-N 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000011160 research Methods 0.000 description 7
- WQZGKKKJIJFFOK-GASJEMHNSA-N Glucose Natural products OC[C@H]1OC(O)[C@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-GASJEMHNSA-N 0.000 description 6
- 238000007476 Maximum Likelihood Methods 0.000 description 6
- 239000008103 glucose Substances 0.000 description 6
- 230000035487 diastolic blood pressure Effects 0.000 description 5
- 230000035935 pregnancy Effects 0.000 description 5
- 241000282414 Homo sapiens Species 0.000 description 4
- 206010020772 Hypertension Diseases 0.000 description 4
- 102000004877 Insulin Human genes 0.000 description 4
- 108090001061 Insulin Proteins 0.000 description 4
- 206010022489 Insulin Resistance Diseases 0.000 description 4
- 229940125396 insulin Drugs 0.000 description 4
- 208000001072 type 2 diabetes mellitus Diseases 0.000 description 4
- 210000000227 basophil cell of anterior lobe of hypophysis Anatomy 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 230000002265 prevention Effects 0.000 description 3
- 201000010099 disease Diseases 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 230000001575 pathological effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 208000024172 Cardiovascular disease Diseases 0.000 description 1
- 208000002720 Malnutrition Diseases 0.000 description 1
- 208000008589 Obesity Diseases 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000032683 aging Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000037396 body weight Effects 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 230000032677 cell aging Effects 0.000 description 1
- 208000026106 cerebrovascular disease Diseases 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000001079 digestive effect Effects 0.000 description 1
- 208000010643 digestive system disease Diseases 0.000 description 1
- 238000013399 early diagnosis Methods 0.000 description 1
- 230000002526 effect on cardiovascular system Effects 0.000 description 1
- 238000000556 factor analysis Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 229940088597 hormone Drugs 0.000 description 1
- 239000005556 hormone Substances 0.000 description 1
- 238000001727 in vivo Methods 0.000 description 1
- 239000000411 inducer Substances 0.000 description 1
- 230000003914 insulin secretion Effects 0.000 description 1
- 208000017169 kidney disease Diseases 0.000 description 1
- 210000004185 liver Anatomy 0.000 description 1
- 230000001071 malnutrition Effects 0.000 description 1
- 235000000824 malnutrition Nutrition 0.000 description 1
- 210000003205 muscle Anatomy 0.000 description 1
- 235000016709 nutrition Nutrition 0.000 description 1
- 230000035764 nutrition Effects 0.000 description 1
- 208000015380 nutritional deficiency disease Diseases 0.000 description 1
- 235000020824 obesity Nutrition 0.000 description 1
- 238000007410 oral glucose tolerance test Methods 0.000 description 1
- 230000008506 pathogenesis Effects 0.000 description 1
- 230000007170 pathology Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 210000002966 serum Anatomy 0.000 description 1
- 210000001519 tissue Anatomy 0.000 description 1
- 230000002792 vascular Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/50—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- General Health & Medical Sciences (AREA)
- Epidemiology (AREA)
- Physics & Mathematics (AREA)
- Pathology (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本发明公开了基于改进函数因果似然度的糖尿病危险因素因果发现方法,属于医学信息化技术领域;该方法包括获取糖尿病危险因素变量子集的联合分布;根据所述联合分布与因果结构求观察数据的对数似然度;将所述观察数据的对数似然度转化成观察数据噪声的对数似然度,进而建立糖尿病危险因素FCL模型;通过调整阈值对所述糖尿病危险因素FCL模型进行修正,获得糖尿病危险因素IFCL模型,利用所述糖尿病危险因素IFCL模型发现危险因素的因果关系。本申请引入调整阈值,构建糖尿病危险因素IFCL模型,利用所述糖尿病危险因素IFCL模型发现危险因素的因果关系,减少糖尿病危险因素因果结构的冗余边和错误边,进而生成优化的糖尿病危险因素因果结构。
Description
技术领域
本发明涉及医学信息化技术领域,具体涉及基于改进函数因果似然度的糖尿病危险因素因果发现方法。
背景技术
糖尿病患者数量逐年上升,已成为继心脑血管疾病、恶性肿瘤后威胁人类健康的第三大疾病。分析各类危险因素相互关系、危险因素与糖尿病关系是揭示糖尿病发病病理的关键,也是糖尿病防治的前提。
目前,国内外的研究主要集中在糖尿病患病危险因素分析和糖尿病患病预测模型构建两个方面。糖尿病患病危险因素分析研究主要包括两方面:新危险因素发现和危险因素相关性分析。探究新危险因素有助于发现糖尿病患病潜在因子,了解糖尿病病因以协助预防;同时,糖尿病的发病由多因素导致,分析危险因素之间关系也尤为重要,且具有实用的临床意义。危险因素相关性研究能够发现未被认识到的糖尿病生理和病理现象,为揭示病理提供一定程度的理论支撑。糖尿病患病预测模型有助于糖尿病预防和早期诊断。然而目前危险因素相互关系研究只能反映相关性,不能直接反映因果关系;糖尿病患病预测模型本质上是统计相关性模型,也不能反映因果关系。因此,迫切需要开展糖尿病危险因素因果关系研究,进而揭示糖尿病病理、生理因果关系,对糖尿病防治有重要的理论意义和临床指导作用。
随机控制实验是传统的因果关系发现方法,但其需要对实验组进行大量干预,这不仅成本高,而且还可能违背伦理道德。基于观察数据的因果关系发现方法可以避免以上问题,但是数据中的噪音会影响因果关系发现效果。在显著噪音条件下,基于FCL算法[文献:Ruichu Cai,Jie Qiao,Zhenjie Zhang,Zhifeng Hao.SELF:Structural EquationalEmbedded Likelihood Framework for Causal Discovery.AAAI.2018.]可以有效发现因果关系,然而该方法在糖尿病危险因素因果关系发现问题上,会保留较多冗余边和错误边。
发明内容
基于FCL算法输出的因果结构存在较多冗余边和错误边的问题,本发明提供一种基于改进函数因果似然度的糖尿病危险因素因果发现方法,其提高了糖尿病危险因素因果发现算法的挖掘性能,生成了优化的糖尿病危险因素因果结构。
为实现上述目的,本发明的技术方案为:基于改进函数因果似然度的糖尿病危险因素因果发现方法,包括:
获取糖尿病危险因素变量子集的联合分布;
根据所述联合分布与因果结构求观察数据的对数似然度;
将所述观察数据的对数似然度转化成观察数据噪声的对数似然度,进而建立糖尿病危险因素FCL模型;
通过调整阈值对所述糖尿病危险因素FCL模型进行修正,获得糖尿病危险因素IFCL模型,利用所述糖尿病危险因素IFCL模型发现危险因素的因果关系。
进一步的,获取糖尿病危险因素变量子集的联合分布,具体包括:
设{X1,X2,···,XN}为糖尿病危险因素变量集合,其中N为糖尿病危险因素变量个数;令G为子集X={X1,X2,···,Xn}上的因果结构,n为具有因果关系的糖尿病危险因素变量个数;P(Xi=x)为变量Xi=x的概率,x为对应的观测值;为变量Xi在其所有因变量条件下的概率,其中1≤i≤n≤N,i为具有因果关系的糖尿病危险因素变量下标;设因果结构G满足因果马尔可夫假设、因果忠诚性假设,则其联合分布P(X)表示为:
进一步的,根据所述联合分布与因果结构观察数据的对数似然度,具体包括:
进一步的,将所述观察数据的对数似然度转化成观察数据噪声的对数似然度,进而建立糖尿病危险因素FCL模型,具体包括:
由式(2)和(3)可知,观察数据的对数似然度等于观察数据噪声的对数似然度;又设S=<G,F>为其因果结构,F为因果函数集合,则观察数据噪声的对数似然度为:
O为观察数据集合,在数据集有限的情况下,对式(4)正则化以避免产生过多的冗余因果关系边;加入贝叶斯信息准则后的正则化对数似然度为:
式(5)为糖尿病危险因素FCL模型,其中di为估计Xi使用的系数;通过最大化式(5)来得到因果结构,maxLB(S;O)=maxGsupFLB(<G,F>;O),即为基于糖尿病危险因素FCL模型因果发现方法,其包含两个过程:①拟合与优化因果函数supF LB(<G,F>;O),得到初始因果结构;②采用爬山法筛选目标对数似然度最大的因果结构maxGLB(<G,F>;O),在迭代更新过程中,Xi的局部更新规则为:
进一步的,通过调整阈值对所述糖尿病危险因素FCL模型进行修正,获得糖尿病危险因素IFCL模型,利用所述糖尿病危险因素IFCL模型发现危险因素的因果关系,具体包括:迭代后的糖尿病危险因素因果结构对数似然度为由于爬山法筛选目标对数似然度最大的因果结构终止条件为其中LB(S;O)为初始因果结构的FCL模型,这就导致输出的糖尿病危险因素因果结构存在较多冗余边或者错误边;因此,在式(5)中引入调整阈值进行修正,修正后的模型为:
迭代后的糖尿病危险因素因果结构对数似然度表示为:
其中,α′是迭代后的总阈值;由(7)式可知,初始糖尿病危险因素IFCL模型的总阈值为nα,视为每个因果节点对数似然度都具有一个阈值α,即每次使用式(6)进行迭代后,更新的节点对数似然度都会有一个阈值α减少,这会致使迭代后的总阈值小于初始糖尿病危险因素IFCL模型的总阈值,即α′<nα;因此,迭代过程中必须搜索到对数似然度更大的因果节点,才能达到迭代终止条件这是基于IFCL模型的糖尿病危险因素因果发现方法能输出更优化因果结构的根本原因。
上述一种基于改进函数因果似然度的糖尿病危险因素因果发现方法,具体实现方法为:
Step 2:首先采用回归方法估计因果边对应的因果函数Fi;其次计算回归得到的噪声范数;然后采用核密度估计近似得到噪声的分布来优化因果函数Fi;最终得到初始因果结构G;
Step 4:使用爬山法搜索最优因果结构;每次迭代因果结构G中仅有一条因果边进行增加、删除或者被翻转因果方向的操作;更新因果函数Fi和因果结构,将更新后的因果结构储存在G*;
本发明由于采用以上技术方案,能够取得如下的技术效果:引入调整阈值,构建糖尿病危险因素IFCL模型,利用所述糖尿病危险因素IFCL模型发现危险因素的因果关系,减少糖尿病危险因素因果结构的冗余边和错误边,进而生成优化的糖尿病危险因素因果结构。
附图说明
图1为利用所述糖尿病危险因素IFCL模型发现危险因素因果关系流程图;
图2为样本量为768的变量散点图、柱状图和相关系数;
图3为样本量为2000的变量散点图、柱状图和相关系数;
图4为基于糖尿病危险因素FCL模型的因果结构图,样本量为768;
图5为基于糖尿病危险因素FCL模型的因果结构图,样本量为2000;
图6为基于糖尿病危险因素IFCL模型的因果结构图,样本量为768,阈值α=0.05-0.06;
图7为基于糖尿病危险因素IFCL模型的因果结构,样本量为768,阈值α=0.07-0.14;
图8为基于糖尿病危险因素IFCL模型的因果结构图,样本量为768,阈值α=0.15;
图9为基于糖尿病危险因素IFCL模型的因果结构图,样本量为2000,阈值α=0.05-0.06;
图10为基于糖尿病危险因素IFCL模型的因果结构图,样本量为2000,阈值α=0.07-0.15;
图11为基于糖尿病危险因素IFCL模型的因果结构图,样本量为2000样本量,阈值α=0.18。
具体实施方式
下面结合附图和具体实施例对本发明作进一步详细的描述:以此为例对本申请做进一步的描述说明。
实施例
为了验证本发明的可行性和有效性,进行了三个实验,分别是变量间散点图及其相关系数分析实验、基于糖尿病危险因素FCL模型的因果发现实验和基于糖尿病危险因素IFCL模型的因果发现实验。实验数据是kaggle平台上样本量为768[https://www.kaggle.com/uciml/pima-indians-diabetes-database]和2000[https://www.kaggle.com/uciml/pima-indians-diabetes-database]的糖尿病数据集,分别来自美国国家糖尿病、消化和肾脏疾病研究所和德国法兰克福医院。数据集受试者均在21岁以上,数据集包括9个变量,分别是怀孕次数、口服葡萄糖耐量试验中2小时的血浆葡萄糖浓度(简称血糖)、舒张压(mmHg)、三头肌皮肤褶皱厚度(mm)、2小时的血清胰岛素(muU/ml,简称胰岛素)、身体质量指数(BMI)、糖尿病血统函数、年龄和糖尿病诊断二值变量,其中糖尿病血统函数含有受试者的家族糖尿病遗传信息。剔除糖尿病诊断二值变量,只对8个变量进行因果关系分析;为极大程度保留数据信息,采用均值插补方法填补数据集中的缺失值;对原始数据进行Z-score标准化,采用均值替代异常值。
(1)变量间散点图及其相关系数分析实验
为观察8个变量之间的因果关系,首先分析两两变量的散点图及其相关系数,样本量768、样本量2000的变量散点图如图2和3所示。在图2和图3中,左下角为变量散点图、对角线所在图像为变量柱状图、右上角为变量之间的线性相关系数。一般地,相关系数为0-0.1之间时,变量可视为线性无关,因此剔除这些变量,将大于0.1的线性相关系数及显著性检验结果汇总于表1和表2。从表1和表2发现,所有P值都小于0.01,表明变量间存在线性相关关系。
表1为768样本量的变量相关系数及P值汇总表;
表2为2000样本量的变量相关系数及P值汇总表;
(2)基于糖尿病危险因素FCL模型的因果发现实验
为探究这8个变量之间是否具有因果性,采用糖尿病危险因素FCL模型的因果发现方法,对样本量为768和2000的数据集进行因果发现实验,因果结构如图4和5所示,其对应的最大似然度汇总于表3,其中图4-5的因果结构分别命名为结构1-2。
表3为因果结构1-2的最大似然度汇总表;
①图4和图5相同之处。具有6对相同因果关系:1→7、7→3、4→6、5→2、2→6和6→3,其中1→7表示怀孕次数导致年龄变化、7→3表示年龄导致舒张压变化、4→6表示三头肌皮肤褶皱厚度导致BMI变化、5→2表示胰岛素导致血糖变化、2→6表示血糖导致BMI变化、6→3表示BMI导致舒张压变化;另外,糖尿病血统函数与其他变量不存在因果关系。
②图4和图5不同之处。图4具有6→7这对因果关系、图5具有7→2和4→7这两对因果关系,其中6→7表示BMI导致年龄变化,7→2表示年龄导致血糖变化和4→7表示三头肌皮肤褶皱厚度导致年龄变化。
从图2可知BMI与年龄的相关系数为0.07,且其P值为0.072,所以BMI与年龄可视为不存在线性相关关系,显然,由回归方法得到的因果函数没通过显著性检验,不具统计意义,6→7可视为错误因果关系。从图5可知,采用2000样本量进行因果关系发现时,去除了错误因果边如6→7;但同时还发现了4→7和7→2其它因果边。同时,从表3可知,图5比图4的最大似然度更大。由此可见,样本量的大小影响因果关系发现结果,样本量越大越有利于去除错误因果边、发现其他因果边;但是,发现的因果边越多,因果结构冗余边可能越多。从图4和图5可以看出,其因果结构图的结构错综复杂、存在很多冗余边或错误边,需要研究新的因果发现方法。
(3)基于糖尿病危险因素IFCL模型的因果发现实验
采用本发明提出的基于糖尿病危险因素IFCL模型的因果发现方法对样本量为768和2000的数据集进行因果发现实验。该方法的流程图如图1所示。其结果与阈值α的取值紧密相关,实验中阈值的范围为0.05≤α≤0.18,取值间隔为0.01;α<0.05时,生成的因果结构图冗余边较多,这里不考虑。
①样本量为768的数据集的因果结构分析。α=0.05-0.06时,生成的因果结构(结构3)如图6所示,与图4相比,因果结构中的错误边即6→7和因果边7→3被剔除,且因果边6→3被反转成3→6;α=0.07-0.14时,生成的因果结构(结构4)如图7所示,与图6相比,因果边5→2被剔除;α=0.15时,生成的因果结构(结构5)如图8所示,因果结构简化成只剩两条因果边1→7和4→6,且随着α的增加,因果结构图不再简化。
②样本量为2000的数据集的因果结构分析。α=0.05-0.06时,生成的因果结构(结构6)如图9所示,与图5相比,因果边7→3与7→2被剔除,且因果边6→3被反转成3→6;α=0.07-0.15时,生成的因果结构(结构7)如图10所示,与图9相比,因果边5→2被剔除;α=0.16-0.17时,无法搜索到最优因果结构;α≥0.18时,生成的因果结构(结构8)如图11所示,因果结构简化成只剩两条因果边1→7和4→7,且随着α的增加,因果结构图不再变化。
因果结构3-8的最大似然度汇总如表4所示,样本量越大,因果结构相应的最大似然度越大。
表4为因果结构3-8的最大似然度汇总表
从上面分析可以得到如下结果。样本量越大,错误因果关系更少,同时还可以挖掘其他潜在因果关系;在因果发现过程中,需要加入阈值减少冗余边和错误边,随着阈值α取值增大,采用本发明方法的因果结构不断简化,且有最简化的结构;当α取0.05和0.06时,因果结构的冗余边最少且保留信息最多,α取0.05和0.06是糖尿病危险因素因果关系发现的最佳阈值。
为了进一步分析实验结果的合理性,对实验结果进行深入讨论。从实验结果看,如图6和图9所示,糖尿病危险因素之间共存在6对因果关系(5→2、2→6、4→6、3→6、1→7和4→7),下面逐一进行分析。
①因果关系5→2、2→6。该因果关系为大众所熟知,胰岛素是人体内唯一降低血糖的激素,影响着血糖浓度。如果发生胰岛素抵抗,体内血糖消耗就会发生异常,血糖浓度提高,容易致使糖尿病病发。此外,因果关系5→2和2→6可以合并成5→2→6。正常人体内胰岛素分泌正常,血糖正常代谢,BMI会保持正常。糖尿病患者存在胰岛素抵抗,血糖不能被肝、肌肉和脂肪组织摄取利用,会导致患者消瘦,BMI变小。这说明因果关系5→2→6也成立。
②因果关系4→6。三头肌皮肤褶皱厚度能反映体内脂肪含量,三头肌皮肤褶皱厚度越大表示越肥胖,体重也越高,从而导致BMI变大,糖尿病患病风险随之提高;糖尿病患者会消瘦,三头肌皮肤褶皱厚度变小,体重下降,BMI也随之变小。因此,因果关系4→6也是成立的。
③因果关系3→6。采用文献[Ruichu Cai,Jie Qiao,Zhenjie Zhang,ZhifengHao.SELF:Structural Equational Embedded Likelihood Framework for CausalDiscovery.AAAI.2018.]的方法进行因果关系发现时,3与6的关系为6→3(如图4、图5所示),即BMI会影响舒张压,越肥胖的人BMI越大,越容易导致高血压,这符合医学常理且说明BMI是高血压的诱因之一。然而,采用本发明方法进行因果关系发现时,3与6的关系为3→6(如图6、图9所示)。因果关系3→6的说明可能存在某种潜在因果因子,舒张压导致该潜在因子变化,该潜在因子导致BMI变化,从而影响糖尿病患病风险大小。此外,糖尿病患者会伴发高血压疾病且身体消瘦,医学上认为糖尿病导致患者消瘦,但也可能为糖尿病和高血压所共同影响,进而影响BMI。因此,因果关系3→6可能真实存在,却不为人熟知。
④因果关系1→7。表示怀孕次数会导致年龄变化,文献[Ryan C P,Geoffrey H M,Lee N R,et al.Reproduction predicts shorter telomeres and epigenetic ageacceleration among young adult women[J].Scientific Reports,2018,8(1):11100.]研究发现怀孕次数越多,生理年龄越大,即细胞会加速老化,患某些疾病的概率也变大。因此,因果关系1→7预示的因果机制可能为:随着怀孕次数增加,导致胰岛β细胞加剧老化,容易发生胰岛素抵抗,糖尿病患病风险增大。
⑤因果关系4→7。表示三头肌皮肤褶皱厚度会导致年龄变化,三头肌皮肤褶皱厚度能反映人的营养状况,因果关系4→7预示的因果机制可能为:三头肌皮肤褶皱厚度低于标准值会产生营养不良,影响生理年龄和胰岛β细胞老化,导致胰岛素抵抗,增大糖尿病患病概率;三头肌皮肤褶皱厚度超标意味着肥胖,体内过多葡萄糖导致胰岛β细胞需要长时间超负荷工作,容易使胰岛老化和功能受损,糖尿病患病风险变大。
综上所述,本发明提出的糖尿病危险因素因果发现方法得到了确认的因果关系有:5→2→6和4→6;也有待进一步验证的因果关系有:3→6、1→7和4→7,这表明本发明方法在糖尿病危险因素因果发现方面具有巨大潜力,有助于进一步揭示危险影响因素之间的因果关系,为糖尿病危险因素的因果关系挖掘提供一定的参考。
以上所述,仅为本发明创造较佳的具体实施方式,但本发明创造的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明创造披露的技术范围内,根据本发明创造的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明创造的保护范围之内。
Claims (5)
1.基于改进函数因果似然度的糖尿病危险因素因果发现方法,其特征在于,包括:
获取糖尿病危险因素变量子集的联合分布;
根据所述联合分布与因果结构求观察数据的对数似然度;
将所述观察数据的对数似然度转化成观察数据噪声的对数似然度,进而建立糖尿病危险因素FCL模型;
通过调整阈值对所述糖尿病危险因素FCL模型进行修正,获得糖尿病危险因素IFCL模型,利用所述糖尿病危险因素IFCL模型发现危险因素的因果关系。
4.根据权利要求1所述基于改进函数因果似然度的糖尿病危险因素因果发现方法,其特征在于,将所述观察数据的对数似然度转化成观察数据噪声的对数似然度,进而建立糖尿病危险因素FCL模型,具体包括:
由式(2)和(3)可知,观察数据的对数似然度等于观察数据噪声的对数似然度;又设S=<G,F>为其因果结构,F为因果函数集合,则观察数据噪声的对数似然度为:
O为观察数据集合,加入贝叶斯信息准则后的正则化对数似然度为:
式(5)为糖尿病危险因素FCL模型,其中di为估计Xi使用的系数;通过最大化式(5)来得到因果结构,max LB(S;O)=maxGsupFLB(<G,F>;O),即为基于糖尿病危险因素FCL模型因果发现方法,其包含两个过程:①拟合与优化因果函数supF LB(<G,F>;O),得到初始因果结构;②采用爬山法筛选目标对数似然度最大的因果结构maxGLB(<G,F>;O),在迭代更新过程中,Xi的局部更新规则为:
5.根据权利要求1所述基于改进函数因果似然度的糖尿病危险因素因果发现方法,其特征在于,通过调整阈值对所述糖尿病危险因素FCL模型进行修正,获得糖尿病危险因素IFCL模型,利用所述糖尿病危险因素IFCL模型发现危险因素的因果关系,具体包括:在式(5)中引入调整阈值进行修正,修正后的模型为:
迭代后的糖尿病危险因素因果结构对数似然度表示为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010913729.3A CN112233802A (zh) | 2020-09-03 | 2020-09-03 | 基于改进函数因果似然度的糖尿病危险因素因果发现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010913729.3A CN112233802A (zh) | 2020-09-03 | 2020-09-03 | 基于改进函数因果似然度的糖尿病危险因素因果发现方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112233802A true CN112233802A (zh) | 2021-01-15 |
Family
ID=74116960
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010913729.3A Pending CN112233802A (zh) | 2020-09-03 | 2020-09-03 | 基于改进函数因果似然度的糖尿病危险因素因果发现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112233802A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117153429A (zh) * | 2023-09-05 | 2023-12-01 | 岭南师范学院 | 一种ⅱ型糖尿病危险因素的强化学习因果发现方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110082672A1 (en) * | 2009-10-02 | 2011-04-07 | Nova Southeastern University | Statistical model for predicting falling in humans |
JP2016045185A (ja) * | 2014-08-25 | 2016-04-04 | 真理 船木 | メタボリックシンドローム発症の危険性の予測方法 |
CN108877943A (zh) * | 2018-06-21 | 2018-11-23 | 天津医科大学 | 基于循证医学证据的ii型糖尿病风险评估模型 |
CN111028232A (zh) * | 2019-12-31 | 2020-04-17 | 上海鹰瞳医疗科技有限公司 | 基于眼底图像的糖尿病分类方法及设备 |
CN111223569A (zh) * | 2019-04-25 | 2020-06-02 | 岭南师范学院 | 一种基于特征权重的lars糖尿病预测方法 |
CN114822835A (zh) * | 2022-02-24 | 2022-07-29 | 岭南师范学院 | 一种糖尿病关键特征参数获取方法 |
-
2020
- 2020-09-03 CN CN202010913729.3A patent/CN112233802A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110082672A1 (en) * | 2009-10-02 | 2011-04-07 | Nova Southeastern University | Statistical model for predicting falling in humans |
JP2016045185A (ja) * | 2014-08-25 | 2016-04-04 | 真理 船木 | メタボリックシンドローム発症の危険性の予測方法 |
CN108877943A (zh) * | 2018-06-21 | 2018-11-23 | 天津医科大学 | 基于循证医学证据的ii型糖尿病风险评估模型 |
CN111223569A (zh) * | 2019-04-25 | 2020-06-02 | 岭南师范学院 | 一种基于特征权重的lars糖尿病预测方法 |
CN111028232A (zh) * | 2019-12-31 | 2020-04-17 | 上海鹰瞳医疗科技有限公司 | 基于眼底图像的糖尿病分类方法及设备 |
CN114822835A (zh) * | 2022-02-24 | 2022-07-29 | 岭南师范学院 | 一种糖尿病关键特征参数获取方法 |
Non-Patent Citations (1)
Title |
---|
RUICHU CAI,等: "SELF: Structural Equational Likelihood Framework for Causal Discovery", 《THE THIRTY-SECOND AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE》, 31 December 2018 (2018-12-31), pages 1787 - 1794 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117153429A (zh) * | 2023-09-05 | 2023-12-01 | 岭南师范学院 | 一种ⅱ型糖尿病危险因素的强化学习因果发现方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Rubenfeld | Epidemiology of acute lung injury | |
Austin et al. | Logistic regression had superior performance compared with regression trees for predicting in-hospital mortality in patients hospitalized with heart failure | |
Mayaud et al. | Dynamic data during hypotensive episode improves mortality predictions among patients with sepsis and hypotension | |
EP2959009B1 (en) | Tracking changes in average glycemia in diabetics | |
Venero et al. | A multicenter evaluation of a new post-processing method with depth-dependent collimator resolution applied to full-time and half-time acquisitions without and with simultaneously acquired attenuation correction | |
Frøslie et al. | Shape information from glucose curves: functional data analysis compared with traditional summary measures | |
EP2402903A1 (en) | Medical decision support device and control method therefor | |
US20230301542A1 (en) | Brain atlas individualization method and system based on magnetic resonance and twin graph neural network | |
CN110246577B (zh) | 一种基于人工智能辅助妊娠期糖尿病遗传风险预测的方法 | |
CN110808097A (zh) | 一种妊娠期糖尿病预测系统及方法 | |
CN111297329B (zh) | 预测糖尿病患者心血管并发症动态发病风险的方法及系统 | |
Cui et al. | Butyrate-producing bacteria and insulin homeostasis: The microbiome and insulin longitudinal evaluation study (MILES) | |
Gutiérrez-Tobal et al. | Ensemble-learning regression to estimate sleep apnea severity using at-home oximetry in adults | |
Boiroux et al. | An ensemble nonlinear model predictive control algorithm in an artificial pancreas for people with type 1 diabetes | |
Shahin et al. | Data mining in healthcare information systems: case studies in Northern Lebanon | |
CN112233802A (zh) | 基于改进函数因果似然度的糖尿病危险因素因果发现方法 | |
Ripoll-Vera et al. | Sudden cardiac death in persons aged 50 years or younger: diagnostic yield of a regional molecular autopsy program using massive sequencing | |
Novaes et al. | Prediction of secondary testosterone deficiency using machine learning: A comparative analysis of ensemble and base classifiers, probability calibration, and sampling strategies in a slightly imbalanced dataset | |
CN116580846B (zh) | 基于相关性分析的结直肠癌预后风险模型构建方法及系统 | |
Yang et al. | Model selection and model over-fitting | |
Matabuena et al. | Multilevel functional distributional models with application to continuous glucose monitoring in diabetes clinical trials | |
Gecili et al. | Functional data analysis and prediction tools for continuous glucose-monitoring studies | |
Ferrannini et al. | Identifying glucose thresholds for incident diabetes by physiological analysis: a mathematical solution | |
Furió-Novejarque et al. | Assessment of a new model of glucagon action with glucagon receptor dynamics | |
Hu et al. | Application of robust estimating equations to the analysis of quantitative longitudinal data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |