CN112233802A

CN112233802A - 基于改进函数因果似然度的糖尿病危险因素因果发现方法

Info

Publication number: CN112233802A
Application number: CN202010913729.3A
Authority: CN
Inventors: 高秀娥; 陈波; 陈世峰; 周生彬; 桑海涛; 谢文学
Original assignee: Lingnan Normal University
Current assignee: Lingnan Normal University
Priority date: 2020-09-03
Filing date: 2020-09-03
Publication date: 2021-01-15

Abstract

本发明公开了基于改进函数因果似然度的糖尿病危险因素因果发现方法，属于医学信息化技术领域；该方法包括获取糖尿病危险因素变量子集的联合分布；根据所述联合分布与因果结构求观察数据的对数似然度；将所述观察数据的对数似然度转化成观察数据噪声的对数似然度，进而建立糖尿病危险因素FCL模型；通过调整阈值对所述糖尿病危险因素FCL模型进行修正，获得糖尿病危险因素IFCL模型，利用所述糖尿病危险因素IFCL模型发现危险因素的因果关系。本申请引入调整阈值，构建糖尿病危险因素IFCL模型，利用所述糖尿病危险因素IFCL模型发现危险因素的因果关系，减少糖尿病危险因素因果结构的冗余边和错误边，进而生成优化的糖尿病危险因素因果结构。

Description

基于改进函数因果似然度的糖尿病危险因素因果发现方法

技术领域

本发明涉及医学信息化技术领域，具体涉及基于改进函数因果似然度的糖尿病危险因素因果发现方法。

背景技术

糖尿病患者数量逐年上升，已成为继心脑血管疾病、恶性肿瘤后威胁人类健康的第三大疾病。分析各类危险因素相互关系、危险因素与糖尿病关系是揭示糖尿病发病病理的关键，也是糖尿病防治的前提。

目前，国内外的研究主要集中在糖尿病患病危险因素分析和糖尿病患病预测模型构建两个方面。糖尿病患病危险因素分析研究主要包括两方面：新危险因素发现和危险因素相关性分析。探究新危险因素有助于发现糖尿病患病潜在因子，了解糖尿病病因以协助预防；同时，糖尿病的发病由多因素导致，分析危险因素之间关系也尤为重要，且具有实用的临床意义。危险因素相关性研究能够发现未被认识到的糖尿病生理和病理现象，为揭示病理提供一定程度的理论支撑。糖尿病患病预测模型有助于糖尿病预防和早期诊断。然而目前危险因素相互关系研究只能反映相关性，不能直接反映因果关系；糖尿病患病预测模型本质上是统计相关性模型，也不能反映因果关系。因此，迫切需要开展糖尿病危险因素因果关系研究，进而揭示糖尿病病理、生理因果关系，对糖尿病防治有重要的理论意义和临床指导作用。

随机控制实验是传统的因果关系发现方法，但其需要对实验组进行大量干预，这不仅成本高，而且还可能违背伦理道德。基于观察数据的因果关系发现方法可以避免以上问题，但是数据中的噪音会影响因果关系发现效果。在显著噪音条件下，基于FCL算法[文献：Ruichu Cai,Jie Qiao,Zhenjie Zhang,Zhifeng Hao.SELF:Structural EquationalEmbedded Likelihood Framework for Causal Discovery.AAAI.2018.]可以有效发现因果关系，然而该方法在糖尿病危险因素因果关系发现问题上，会保留较多冗余边和错误边。

发明内容

基于FCL算法输出的因果结构存在较多冗余边和错误边的问题，本发明提供一种基于改进函数因果似然度的糖尿病危险因素因果发现方法，其提高了糖尿病危险因素因果发现算法的挖掘性能，生成了优化的糖尿病危险因素因果结构。

为实现上述目的，本发明的技术方案为：基于改进函数因果似然度的糖尿病危险因素因果发现方法，包括：

获取糖尿病危险因素变量子集的联合分布；

根据所述联合分布与因果结构求观察数据的对数似然度；

将所述观察数据的对数似然度转化成观察数据噪声的对数似然度，进而建立糖尿病危险因素FCL模型；

通过调整阈值对所述糖尿病危险因素FCL模型进行修正，获得糖尿病危险因素IFCL模型，利用所述糖尿病危险因素IFCL模型发现危险因素的因果关系。

进一步的，获取糖尿病危险因素变量子集的联合分布，具体包括：

设{X₁,X₂,···,X_N}为糖尿病危险因素变量集合，其中N为糖尿病危险因素变量个数；令G为子集X＝{X₁,X₂,···,X_n}上的因果结构，n为具有因果关系的糖尿病危险因素变量个数；P(X_i＝x)为变量X_i＝x的概率，x为对应的观测值；

为变量X_i在其所有因变量

条件下的概率，其中1≤i≤n≤N，i为具有因果关系的糖尿病危险因素变量下标；设因果结构G满足因果马尔可夫假设、因果忠诚性假设，则其联合分布P(X)表示为：

其中

为变量X_i的所有因变量。

进一步的，根据所述联合分布与因果结构观察数据的对数似然度，具体包括：

给定危险因素观察数据

其中

为n维向量，即

1≤j≤m；令

表示为包含

的观测值，观察数据的对数似然度为：

进一步的，将所述观察数据的对数似然度转化成观察数据噪声的对数似然度，进而建立糖尿病危险因素FCL模型，具体包括：

设E_i表示X_i对应的随机噪声变量，采用加性噪声模型

作为因果关系生成机制，其中F_i是X_i的因果函数，随机噪声变量E_i独立于因变量

因此，有如下等式：

由式(2)和(3)可知，观察数据的对数似然度等于观察数据噪声的对数似然度；又设S＝<G,F>为其因果结构，F为因果函数集合，则观察数据噪声的对数似然度为：

O为观察数据集合，在数据集有限的情况下，对式(4)正则化以避免产生过多的冗余因果关系边；加入贝叶斯信息准则后的正则化对数似然度为：

式(5)为糖尿病危险因素FCL模型，其中d_i为估计X_i使用的系数；通过最大化式(5)来得到因果结构，maxL_B(S；O)＝max_Gsup_FL_B(<G,F>；O)，即为基于糖尿病危险因素FCL模型因果发现方法，其包含两个过程：①拟合与优化因果函数sup_F L_B(<G,F>；O)，得到初始因果结构；②采用爬山法筛选目标对数似然度最大的因果结构max_GL_B(<G,F>；O)，在迭代更新过程中，X_i的局部更新规则为：

进一步的，通过调整阈值对所述糖尿病危险因素FCL模型进行修正，获得糖尿病危险因素IFCL模型，利用所述糖尿病危险因素IFCL模型发现危险因素的因果关系，具体包括：迭代后的糖尿病危险因素因果结构对数似然度为

由于爬山法筛选目标对数似然度最大的因果结构终止条件为

其中L_B(S；O)为初始因果结构的FCL模型，这就导致输出的糖尿病危险因素因果结构存在较多冗余边或者错误边；因此，在式(5)中引入调整阈值进行修正，修正后的模型为：

式(7)为改进的糖尿病危险因素IFCL模型，其中α为调整阈值；在爬山法中，式(6)依然为迭代过程中X_i的局部更新规则，迭代终止条件变为

在迭代过程中未发生更新的节点对数似然度为：

迭代后的糖尿病危险因素因果结构对数似然度表示为：

其中，α′是迭代后的总阈值；由(7)式可知，初始糖尿病危险因素IFCL模型的总阈值为nα，视为每个因果节点对数似然度都具有一个阈值α，即

每次使用式(6)进行迭代后，更新的节点对数似然度都会有一个阈值α减少，这会致使迭代后的总阈值小于初始糖尿病危险因素IFCL模型的总阈值，即α′＜nα；因此，迭代过程中必须搜索到对数似然度更大的因果节点，才能达到迭代终止条件

这是基于IFCL模型的糖尿病危险因素因果发现方法能输出更优化因果结构的根本原因。

上述一种基于改进函数因果似然度的糖尿病危险因素因果发现方法，具体实现方法为：

Step 1：输入糖尿病危险因素的观察数据

预处理和标准化观察数据；

Step 2：首先采用回归方法估计因果边对应的因果函数F_i；其次计算回归得到的噪声范数；然后采用核密度估计近似得到噪声的分布来优化因果函数F_i；最终得到初始因果结构G；

Step 3：使用式(7)初始化噪声对数似然度

且令变量

Step 4：使用爬山法搜索最优因果结构；每次迭代因果结构G中仅有一条因果边进行增加、删除或者被翻转因果方向的操作；更新因果函数F_i和因果结构，将更新后的因果结构储存在G^*；

Step 5：比较G^*与G，对有变化的节点进行局部对数似然度更新，得到L′_Bi，其中更新公式为式(6)；然后所有更新后的对数似然度

与未更新的对数似然度

相加，且

Step 6：判断

与L_B的大小，若

则

G＝G^*且执行Step 7；否则执行Step 4；

Step 7：输出最大对数似然度

和相应最佳因果结构G。

本发明由于采用以上技术方案，能够取得如下的技术效果：引入调整阈值，构建糖尿病危险因素IFCL模型，利用所述糖尿病危险因素IFCL模型发现危险因素的因果关系，减少糖尿病危险因素因果结构的冗余边和错误边，进而生成优化的糖尿病危险因素因果结构。

附图说明

图1为利用所述糖尿病危险因素IFCL模型发现危险因素因果关系流程图；

图2为样本量为768的变量散点图、柱状图和相关系数；

图3为样本量为2000的变量散点图、柱状图和相关系数；

图4为基于糖尿病危险因素FCL模型的因果结构图，样本量为768；

图5为基于糖尿病危险因素FCL模型的因果结构图，样本量为2000；

图6为基于糖尿病危险因素IFCL模型的因果结构图，样本量为768，阈值α＝0.05-0.06；

图7为基于糖尿病危险因素IFCL模型的因果结构，样本量为768，阈值α＝0.07-0.14；

图8为基于糖尿病危险因素IFCL模型的因果结构图，样本量为768，阈值α＝0.15；

图9为基于糖尿病危险因素IFCL模型的因果结构图，样本量为2000，阈值α＝0.05-0.06；

图10为基于糖尿病危险因素IFCL模型的因果结构图，样本量为2000，阈值α＝0.07-0.15；

图11为基于糖尿病危险因素IFCL模型的因果结构图，样本量为2000样本量，阈值α＝0.18。

具体实施方式

下面结合附图和具体实施例对本发明作进一步详细的描述：以此为例对本申请做进一步的描述说明。

实施例

为了验证本发明的可行性和有效性，进行了三个实验，分别是变量间散点图及其相关系数分析实验、基于糖尿病危险因素FCL模型的因果发现实验和基于糖尿病危险因素IFCL模型的因果发现实验。实验数据是kaggle平台上样本量为768[https://www.kaggle.com/uciml/pima-indians-diabetes-database]和2000[https://www.kaggle.com/uciml/pima-indians-diabetes-database]的糖尿病数据集，分别来自美国国家糖尿病、消化和肾脏疾病研究所和德国法兰克福医院。数据集受试者均在21岁以上，数据集包括9个变量，分别是怀孕次数、口服葡萄糖耐量试验中2小时的血浆葡萄糖浓度(简称血糖)、舒张压(mmHg)、三头肌皮肤褶皱厚度(mm)、2小时的血清胰岛素(muU/ml，简称胰岛素)、身体质量指数(BMI)、糖尿病血统函数、年龄和糖尿病诊断二值变量，其中糖尿病血统函数含有受试者的家族糖尿病遗传信息。剔除糖尿病诊断二值变量，只对8个变量进行因果关系分析；为极大程度保留数据信息，采用均值插补方法填补数据集中的缺失值；对原始数据进行Z-score标准化，采用均值替代异常值。

(1)变量间散点图及其相关系数分析实验

为观察8个变量之间的因果关系，首先分析两两变量的散点图及其相关系数，样本量768、样本量2000的变量散点图如图2和3所示。在图2和图3中，左下角为变量散点图、对角线所在图像为变量柱状图、右上角为变量之间的线性相关系数。一般地，相关系数为0-0.1之间时，变量可视为线性无关，因此剔除这些变量，将大于0.1的线性相关系数及显著性检验结果汇总于表1和表2。从表1和表2发现，所有P值都小于0.01，表明变量间存在线性相关关系。

表1为768样本量的变量相关系数及P值汇总表；

表2为2000样本量的变量相关系数及P值汇总表；

(2)基于糖尿病危险因素FCL模型的因果发现实验

为探究这8个变量之间是否具有因果性，采用糖尿病危险因素FCL模型的因果发现方法，对样本量为768和2000的数据集进行因果发现实验，因果结构如图4和5所示，其对应的最大似然度汇总于表3，其中图4-5的因果结构分别命名为结构1-2。

表3为因果结构1-2的最大似然度汇总表；

①图4和图5相同之处。具有6对相同因果关系：1→7、7→3、4→6、5→2、2→6和6→3，其中1→7表示怀孕次数导致年龄变化、7→3表示年龄导致舒张压变化、4→6表示三头肌皮肤褶皱厚度导致BMI变化、5→2表示胰岛素导致血糖变化、2→6表示血糖导致BMI变化、6→3表示BMI导致舒张压变化；另外，糖尿病血统函数与其他变量不存在因果关系。

②图4和图5不同之处。图4具有6→7这对因果关系、图5具有7→2和4→7这两对因果关系，其中6→7表示BMI导致年龄变化，7→2表示年龄导致血糖变化和4→7表示三头肌皮肤褶皱厚度导致年龄变化。

从图2可知BMI与年龄的相关系数为0.07，且其P值为0.072，所以BMI与年龄可视为不存在线性相关关系，显然，由回归方法得到的因果函数没通过显著性检验，不具统计意义，6→7可视为错误因果关系。从图5可知，采用2000样本量进行因果关系发现时，去除了错误因果边如6→7；但同时还发现了4→7和7→2其它因果边。同时，从表3可知，图5比图4的最大似然度更大。由此可见，样本量的大小影响因果关系发现结果，样本量越大越有利于去除错误因果边、发现其他因果边；但是，发现的因果边越多，因果结构冗余边可能越多。从图4和图5可以看出，其因果结构图的结构错综复杂、存在很多冗余边或错误边，需要研究新的因果发现方法。

(3)基于糖尿病危险因素IFCL模型的因果发现实验

采用本发明提出的基于糖尿病危险因素IFCL模型的因果发现方法对样本量为768和2000的数据集进行因果发现实验。该方法的流程图如图1所示。其结果与阈值α的取值紧密相关，实验中阈值的范围为0.05≤α≤0.18，取值间隔为0.01；α＜0.05时，生成的因果结构图冗余边较多，这里不考虑。

①样本量为768的数据集的因果结构分析。α＝0.05-0.06时，生成的因果结构(结构3)如图6所示，与图4相比，因果结构中的错误边即6→7和因果边7→3被剔除，且因果边6→3被反转成3→6；α＝0.07-0.14时，生成的因果结构(结构4)如图7所示，与图6相比，因果边5→2被剔除；α＝0.15时，生成的因果结构(结构5)如图8所示，因果结构简化成只剩两条因果边1→7和4→6，且随着α的增加，因果结构图不再简化。

②样本量为2000的数据集的因果结构分析。α＝0.05-0.06时，生成的因果结构(结构6)如图9所示，与图5相比，因果边7→3与7→2被剔除，且因果边6→3被反转成3→6；α＝0.07-0.15时，生成的因果结构(结构7)如图10所示，与图9相比，因果边5→2被剔除；α＝0.16-0.17时，无法搜索到最优因果结构；α≥0.18时，生成的因果结构(结构8)如图11所示，因果结构简化成只剩两条因果边1→7和4→7，且随着α的增加，因果结构图不再变化。

因果结构3-8的最大似然度汇总如表4所示，样本量越大，因果结构相应的最大似然度越大。

表4为因果结构3-8的最大似然度汇总表

从上面分析可以得到如下结果。样本量越大，错误因果关系更少，同时还可以挖掘其他潜在因果关系；在因果发现过程中，需要加入阈值减少冗余边和错误边，随着阈值α取值增大，采用本发明方法的因果结构不断简化，且有最简化的结构；当α取0.05和0.06时，因果结构的冗余边最少且保留信息最多，α取0.05和0.06是糖尿病危险因素因果关系发现的最佳阈值。

为了进一步分析实验结果的合理性，对实验结果进行深入讨论。从实验结果看，如图6和图9所示，糖尿病危险因素之间共存在6对因果关系(5→2、2→6、4→6、3→6、1→7和4→7)，下面逐一进行分析。

①因果关系5→2、2→6。该因果关系为大众所熟知，胰岛素是人体内唯一降低血糖的激素，影响着血糖浓度。如果发生胰岛素抵抗，体内血糖消耗就会发生异常，血糖浓度提高，容易致使糖尿病病发。此外，因果关系5→2和2→6可以合并成5→2→6。正常人体内胰岛素分泌正常，血糖正常代谢，BMI会保持正常。糖尿病患者存在胰岛素抵抗，血糖不能被肝、肌肉和脂肪组织摄取利用，会导致患者消瘦，BMI变小。这说明因果关系5→2→6也成立。

②因果关系4→6。三头肌皮肤褶皱厚度能反映体内脂肪含量，三头肌皮肤褶皱厚度越大表示越肥胖，体重也越高，从而导致BMI变大，糖尿病患病风险随之提高；糖尿病患者会消瘦，三头肌皮肤褶皱厚度变小，体重下降，BMI也随之变小。因此，因果关系4→6也是成立的。

③因果关系3→6。采用文献[Ruichu Cai,Jie Qiao,Zhenjie Zhang,ZhifengHao.SELF:Structural Equational Embedded Likelihood Framework for CausalDiscovery.AAAI.2018.]的方法进行因果关系发现时，3与6的关系为6→3(如图4、图5所示)，即BMI会影响舒张压，越肥胖的人BMI越大，越容易导致高血压，这符合医学常理且说明BMI是高血压的诱因之一。然而，采用本发明方法进行因果关系发现时，3与6的关系为3→6(如图6、图9所示)。因果关系3→6的说明可能存在某种潜在因果因子，舒张压导致该潜在因子变化，该潜在因子导致BMI变化，从而影响糖尿病患病风险大小。此外，糖尿病患者会伴发高血压疾病且身体消瘦，医学上认为糖尿病导致患者消瘦，但也可能为糖尿病和高血压所共同影响，进而影响BMI。因此，因果关系3→6可能真实存在，却不为人熟知。

④因果关系1→7。表示怀孕次数会导致年龄变化，文献[Ryan C P,Geoffrey H M,Lee N R,et al.Reproduction predicts shorter telomeres and epigenetic ageacceleration among young adult women[J].Scientific Reports,2018,8(1):11100.]研究发现怀孕次数越多，生理年龄越大，即细胞会加速老化，患某些疾病的概率也变大。因此，因果关系1→7预示的因果机制可能为：随着怀孕次数增加，导致胰岛β细胞加剧老化，容易发生胰岛素抵抗，糖尿病患病风险增大。

⑤因果关系4→7。表示三头肌皮肤褶皱厚度会导致年龄变化，三头肌皮肤褶皱厚度能反映人的营养状况，因果关系4→7预示的因果机制可能为：三头肌皮肤褶皱厚度低于标准值会产生营养不良，影响生理年龄和胰岛β细胞老化，导致胰岛素抵抗，增大糖尿病患病概率；三头肌皮肤褶皱厚度超标意味着肥胖，体内过多葡萄糖导致胰岛β细胞需要长时间超负荷工作，容易使胰岛老化和功能受损，糖尿病患病风险变大。

综上所述，本发明提出的糖尿病危险因素因果发现方法得到了确认的因果关系有：5→2→6和4→6；也有待进一步验证的因果关系有：3→6、1→7和4→7，这表明本发明方法在糖尿病危险因素因果发现方面具有巨大潜力，有助于进一步揭示危险影响因素之间的因果关系，为糖尿病危险因素的因果关系挖掘提供一定的参考。

以上所述，仅为本发明创造较佳的具体实施方式，但本发明创造的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明创造披露的技术范围内，根据本发明创造的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明创造的保护范围之内。

Claims

1.基于改进函数因果似然度的糖尿病危险因素因果发现方法，其特征在于，包括：

获取糖尿病危险因素变量子集的联合分布；

根据所述联合分布与因果结构求观察数据的对数似然度；

2.根据权利要求1所述基于改进函数因果似然度的糖尿病危险因素因果发现方法，其特征在于，获取糖尿病危险因素变量子集的联合分布，具体包括：

为变量X_i在其所有因变量

其中

为变量X_i的所有因变量。

3.根据权利要求1所述基于改进函数因果似然度的糖尿病危险因素因果发现方法，其特征在于，根据所述联合分布与因果结构求观察数据的对数似然度，具体包括：

给定危险因素观察数据

其中

为n维向量，即

令

表示为包含

的观测值，观察数据的对数似然度为：

4.根据权利要求1所述基于改进函数因果似然度的糖尿病危险因素因果发现方法，其特征在于，将所述观察数据的对数似然度转化成观察数据噪声的对数似然度，进而建立糖尿病危险因素FCL模型，具体包括：

设E_i表示X_i对应的随机噪声变量，采用加性噪声模型

因此，有如下等式：

O为观察数据集合，加入贝叶斯信息准则后的正则化对数似然度为：

式(5)为糖尿病危险因素FCL模型，其中d_i为估计X_i使用的系数；通过最大化式(5)来得到因果结构，max L_B(S；O)＝max_Gsup_FL_B(<G,F>；O)，即为基于糖尿病危险因素FCL模型因果发现方法，其包含两个过程：①拟合与优化因果函数sup_F L_B(<G,F>；O)，得到初始因果结构；②采用爬山法筛选目标对数似然度最大的因果结构max_GL_B(<G,F>；O)，在迭代更新过程中，X_i的局部更新规则为：

5.根据权利要求1所述基于改进函数因果似然度的糖尿病危险因素因果发现方法，其特征在于，通过调整阈值对所述糖尿病危险因素FCL模型进行修正，获得糖尿病危险因素IFCL模型，利用所述糖尿病危险因素IFCL模型发现危险因素的因果关系，具体包括：在式(5)中引入调整阈值进行修正，修正后的模型为：

在迭代过程中未发生更新的节点对数似然度为：

迭代后的糖尿病危险因素因果结构对数似然度表示为：