CN115862869A

CN115862869A - 一种基于因果网络不确定性推理的疾病预测预警系统

Info

Publication number: CN115862869A
Application number: CN202211619721.1A
Authority: CN
Inventors: 薛付忠; 胡锡峰; 侯蕾; 孙晓茹; 井明; 李洪凯; 仉率杰; 张琪; 张健; 屈静; 邵敬毅; 宋喜喜; 田子桐; 王履昊; 蔡叠; 冯俊智
Original assignee: Jinan Xingteng Information Technology Co ltd; Shandong University
Current assignee: Jinan Xingteng Information Technology Co ltd; Shandong University
Priority date: 2022-12-15
Filing date: 2022-12-15
Publication date: 2023-03-28
Anticipated expiration: 2042-12-15
Also published as: CN115862869B

Abstract

本发明公开一种基于因果网络不确定性推理的疾病预测预警系统，通过构建稳健的、具备不确定性因果推理功能的多慢病一体化因果网络医学图脑模型，且经多疾病模型融合后，在患病推断过程中，对涉及到的患病影响因素进行分类，并根据分类结果进行三维分层显示；实现多慢病一体化联动在线实时智能预测预警和个性化干预决策，实现区域性、大规模的人群癌症筛查与慢病风险评估，基于动态三维可视化技术，实现推理过程的可视化。

Description

一种基于因果网络不确定性推理的疾病预测预警系统

技术领域

本发明涉及慢性病疾病预测技术领域，特别是涉及一种基于因果网络不确定性推理的疾病预测预警系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

根据常见定义，慢性疾病是指“持续一年或一年以上且需要持续医疗护理、限制日常生活活动或两者兼而有之的状况”，如包括肺癌、胃癌、肝癌、结直肠癌、食管癌、高血压、中风、冠心病、糖尿病等典型慢性病。

在慢性病的预防及诊疗干预的智慧健康过程中，尽管已有众多疾病预测预警模型和干预决策支持系统，但由于存在如下局限性，尚难以实现在缺失及稀疏数据的环境下，进行实时在线智能预测预警和个性化干预决策支持。

(1)目前一些基于贝叶斯网络所构建的预测模型，仅局限于关联关系，缺乏因果证据的支撑，因此，使得其预测结果不稳健，干预策略难以泛化。

(2)在面对多源异构高噪稀疏的健康医疗大数据时，目前存在的基于回归模型和深度学习模型而构建的预测预警模型，由于缺乏在高度缺失和稀疏数据背景下的不确定性推理功能，所以无法实现多病联动在线实时预测预警和个性化干预方案推理支持。

(3)虽然基于深度神经网络模型等深度学习算法可以实现较高效率的预测预警，但预测模型可解释性差，因而难以针对预测因子的干预进行个性化干预决策支持。

(4)基于深度神经网络等所构建的预测模型，其推理过程是一个黑箱，这使得医生无法通过可视化直观理解模型的推理过程，那么后续也就无法在模型的指导下精准制定个性化干预措施。

发明内容

为了解决上述问题，本发明提出了一种基于因果网络不确定性推理的疾病预测预警系统，构建具备不确定性因果推理功能的因果网络医学图脑模型，实现多慢病一体化联动在线实时智能预测预警和个性化干预决策，实现区域性、大规模的人群癌症筛查与慢病风险评估，基于动态三维可视化技术，实现推理过程的可视化。

为了实现上述目的，本发明采用如下技术方案：

第一方面，本发明提供一种基于因果网络不确定性推理的疾病预测预警系统，包括：

知识图谱构建模块，被配置为构建多慢病一体化的循证医学概念知识图谱；

数据获取模块，被配置为获取多慢病一体化的相关危险因素；

因果网络构建模块，被配置为：

基于循证医学概念知识图谱，对获取的相关危险因素两两进行双向孟德尔随机化，得到边际因果图；采用深度优先搜索算法寻找边际因果图的因果拓扑序，基于因果拓扑序对边际因果图中的每条边进行多元孟德尔随机化，去掉虚假直接边，得到条件因果图；

以条件因果图作为下一次迭代的边际因果图，重复上述步骤，直至迭代停止，得到循证因果网络图；

一体化模型构建模块，被配置为基于循证因果网络图，进行单因素回归和多因素回归的变量筛选，得到触发危险因素，并构建多慢病一体化的因果网络医学图脑模型；

预测模块，被配置为获取受试者的生物特征，采用多慢病一体化的因果网络医学图脑模型，得到多慢病患病风险的排序结果，且在患病推断过程中，对涉及到的患病影响因素进行分类，并根据分类结果进行三维分层显示。

作为可选择的实施方式，对边际因果图中的任意一条边X_p→X_q，定义充分调整集合为

使用两样本孟德尔随机化，将X_q的直接因果效应对X_p的直接因果效应做加权回归，调整/>

的直接因果效应。

作为可选择的实施方式，对于边际因果图中的任意一条边X_p→X_q，充分调整集合的调整策略包括：

(1)X_p到X_q之间所有通路上的点集合；

(2)X_p到X_q之间的最小充分调整集合与所有中介集合的并集；

(3)V\{X_p,X_q,S^d}，为边际因果图中除边所对应的两变量(X_p,X_q)以及碰撞点S^d之外的所有变量，S^d表示同时直接指向X_p和X_q的碰撞点。

作为可选择的实施方式，去掉虚假直接边的过程包括：对于边际因果图中的任意一条边X_p→X_q，如果存在一个充分调整集合

使得条件独立性/>

成立，则将边X_p→X_q移除。

作为可选择的实施方式，对多慢病一体化的因果网络医学图脑模型的随机变量进行分类层级的划分，具体为L＝{l₁,l₂,l₃,l₄,l₅}，权重分配为：w(l₁)<w(l₂)<w(l₃)<w(l₄)<w(l₅)；其中l₁为遗传因子、l₂为初始因子、l₃为中间因子、l₄为触发因子、l₅为疾病标签。

作为可选择的实施方式，在疾病推断过程中，对涉及到的患病影响因素按遗传因子、初始因子、中间因子、触发因子、疾病标签的层次顺序，在三维空间的Y轴坐标自上而下分层布局，且依次高亮显示。

作为可选择的实施方式，使用三维力引导算法对多慢病一体化的因果网络医学图脑模型中的随机变量进行坐标布局，且布局动态调整过程保持每个随机变量的Y轴坐标不变。

作为可选择的实施方式，多慢病患病风险的预测过程采用风险映射方法，将个人绝对风险映射到人群基准风险分布上，得到多慢病患病风险的排序结果，并划分风险量化等级。

第二方面，本发明提供一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成基于因果网络不确定性推理的疾病预测预警方法；

所述基于因果网络不确定性推理的疾病预测预警方法包括：

构建多慢病一体化的循证医学概念知识图谱；

获取多慢病一体化的相关危险因素；

基于循证因果网络图，进行单因素回归和多因素回归的变量筛选，得到触发危险因素，并构建多慢病一体化的因果网络医学图脑模型；

获取受试者的生物特征，采用多慢病一体化的因果网络医学图脑模型，得到多慢病患病风险的排序结果，且在患病推断过程中，对涉及到的患病影响因素进行分类，并根据分类结果进行三维分层显示。

第三方面，本发明提供一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成基于因果网络不确定性推理的疾病预测预警方法；

所述基于因果网络不确定性推理的疾病预测预警方法包括：

构建多慢病一体化的循证医学概念知识图谱；

获取多慢病一体化的相关危险因素；

与现有技术相比，本发明的有益效果为：

本申请提出一种基于因果网络不确定性推理的疾病预测预警系统，将各种疾病的孟德尔随机化循证医学证据纳入因果网络学习中，通过因果迁移算法实现循证因果图的构建，提供了一种基于公开的遗传汇总数据进行因果网络结构学习的新算法，其优势是有效控制未知混杂因素，从而得到真正意义上的循证因果网络图，并且不需要使用个体数据。

本申请提出一种基于因果网络不确定性推理的疾病预测预警系统，依托于循证因果网络图，基于潜在结局因果理论框架和do-算子，研发了能够准确筛选出影响疾病结局的触发危险因素的筛选新方法，是实现在缺失数据下进行因果网络推理的关键，实现了因果网络的不确定性推理，且由此构建的因果网络医学图脑模型同样具备不确定性因果推理功能。

本申请提出一种基于因果网络不确定性推理的疾病预测预警系统，利用多源异构高噪稀疏和缺失的健康医疗大数据资源，基于构建的具备不确定性因果推理功能的因果网络医学图脑模型，实现“因果推理、诊断推理、支持推理、情景分析、压力测试”五种推理为一体的因果网络推理，实现多慢病一体化联动在线实时智能预测预警和个性化干预决策，实现区域性、大规模的人群癌症筛查与慢病风险评估，基于动态三维可视化技术，实现推理过程的可视化。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例1提供的多慢病一体化的循证医学概念知识图谱示意图；

图2为本发明实施例1提供的循证因果网络图构建方法流程图；

图3(a)-图3(d)为本发明实施例1提供的基于循证因果网络图的变量筛选原理示意图；

图4为本发明实施例1提供的多慢病一体化的因果网络医学图脑模型构建流程图；

图5为本发明实施例1提供的变量分层示意图；

图6(a)-图6(b)为本发明实施例1提供的不同缺失率下模型统计模拟结果。

具体实施方式

下面结合附图与实施例对本发明做进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例1

本实施例提供一种基于因果网络不确定性推理的疾病预测预警系统，包括：

因果网络构建模块，被配置为：

在本实施例中，基于临床指南、随机临床试验、孟德尔随机化循证先验证据，采用自然语言处理和因果深度学习算法，构建多慢病一体化的循证医学概念知识图谱，所述循证医学概念知识图谱中包括疾病的“分子标记测量-分子病理分型诊断-靶向治疗-疗效评估”的循证因果网络关系。

如图1所示，本实施例克服现有关联知识图谱的局限性，提出了“测量(M)-诊断(D)-治疗(T)-评估(E)”的医学图脑概念模型，沿“病因-病理生理-疾病诊断-临床表现-治疗效果-后遗症-转归结局”的临床路径，面向药物治疗及手术治疗等多项诊疗措施，采用自然语言处理及深度学习技术，提取临床指南、经典教科书、RCT循证证据研究和孟德尔随机化因果关联研究的循证医学知识三元组，创建了符合临床诊疗实际的多慢病一体化的循证医学概念知识图谱。

目前，在本实施例的多慢病一体化循证医学概念知识图谱中，已涵盖了30余种常见恶性肿瘤、9种心脑血管病及相关疾病、6种重症精神疾病，展示了每种疾病“分子标记测量(M)-分子病理分型诊断(D)-靶向治疗(T)-疗效评估(E)”的循证因果网络关系。

在本实施例中，基于多慢病一体化的循证医学概念知识图谱，通过基于迁移学习的贝叶斯结构学习算法，以后续构建稳健的且具备不确定性因果推理功能的因果网络医学图脑模型。

在多慢病一体化的循证医学概念知识图谱的介导下，研发了基于海量GWASsummary数据的循证因果网络图，综合运用8种两样本孟德尔随机化方法，将各种疾病的孟德尔随机化循证医学证据纳入因果网络学习中，并通过因果迁移算法实现循证因果图的构建；

其中，因果迁移算法的基本思想是：实时读取多源异构高噪稀疏的健康医疗大数据，通过单变量筛选，筛选出多慢病一体化的相关危险因素，进而将这些危险因素输入循证医学概念知识图谱，利用两样本孟德尔随机化的GWAS summary数据，进行结构学习；

基于此，提出基于迁移学习的贝叶斯结构学习算法(MRSL)，该算法是一种基于公开的遗传汇总数据进行因果网络结构学习的新算法，其优势是有效控制未知混杂因素，从而得到真正意义上的循证因果网络图，并且不需要使用个体数据。

如图2所示，MRSL算法包括以下步骤：

S1：对d个表型(相关危险因素)两两进行双向孟德尔随机化，得到边际因果图θ_M(marginal causal graph)；

其中，孟德尔随机化MR有三个假设：

假设1(相关性)：工具IV与暴露强相关；

假设2(可交换性)：工具IV独立于暴露与结局之间的混杂；

假设3(排他性)：工具IV只能通过暴露来影响结局。

主要分析方法：逆方差加权(inverse-variance weighted(IVW)method)，

对于任意两个表型X_p和X_q，首先选择J_p个SNP作为X_p的工具，判断X_p到X_q的因果效应b_p→q：

其中，

和/>

分别为第i个工具对X_p和X_q的遗传关联效应，/>

为/>

的标准误差，/>

为服从均值为0、标准差为/>

的正态分布的残差项。

反过来，选择J_q个SNP作为X_q的工具，判断X_q到X_p的因果效应b_q→p：

使用Wald test对因果效应b_p→q和b_q→p进行假设检验。

引理1：对于真实因果图

与边际因果图/>

和/>

成立；其中，/>

和/>

分别表示真实因果图/>

与边际因果图/>

中的边集合；/>

和/>

分别表示真实因果图/>

与边际因果图/>

中的碰撞点集合。

证明：对任意两个表型X_p和X_Q，如果X_p对X_q存在因果作用，即在真实因果图

中，X_p到X_q存在直接或间接的因果路，那么在边际因果图/>

中，一定存在X_p→X_q。

相反，如果X_p对X_q不存在因果作用，即在真实因果图

中，X_p到X_q不存在直接或者间接的因果路，那么在边际因果图/>

中，一定不存在X_p→X_q。

由此可得，真实因果图

中的边是边际因果图/>

中的边的子集，即/>

成立；那么边际因果图/>

中多出来的边/>

一定会导致一些新的虚假碰撞点，例如，若真实图为X₁→X₂→X₃，边际因果图会新增一条边X₁→X₃，于是边际因果图中就新增了虚假碰撞X₁→X₃←X₂。由此，/>

成立。

S2：利用深度优先搜索算法(Depth First Search(DFS))寻找边际因果图

的因果拓扑序(topologicalsorting)。

引理2(拓扑序不变性)：真实因果图

与边际因果图/>

的拓扑序是相同的，即

证明：对任意两个表型X_p和X_q，如果在真实因果图

中，，X_p排序在X_q之前，即X_p是X_q的父节点，X_p到X_q至少有一条有向路；然而如果在边际因果图/>

中，X_p排序在X_q之后，则X_q到X_p至少有一条有向路，那么X_q到X_q之间就会存在环。

S3：基于边际因果图

的因果拓扑序，对边际因果图/>

中的每条边做多元孟德尔随机化(MVMR)，去掉虚假直接边，得到条件因果图(conditionalcausalgraph)。

其中，多元孟德尔随机化(MVMR)的三个假设：

假设1(相关性)：工具IV至少与一个暴露强相关；

假设2(可交换性)：工具IV独立于暴露与结局之间的混杂；

假设3(排他性)：工具IV只能通过暴露来影响结局。

对边际因果图

中的任意一条边X_p→X_q，定义充分调整集合为/>

使用多元IVW，将X_q的直接因果效应对X_p的直接因果效应做加权回归，调整/>

的直接因果效应：

使用Wald test对直接因果效应a_p→q进行假设检验。

对于边际因果图

中的任意一条边X_p→X_q，多元孟德尔随机化的变量调整策略(即充分调整集合/>

的候选集合)有三种：

(1)X_p到X_q之间所有通路上的点集合；

(2)X_p到X_q之间的最小充分调整集合与所有中介集合的并集；

(3)V\{X_p,X_q,S^d}，即网络中除这条边所对应的两变量(X_p,X_q)以及碰撞变量(S^d)之外的所有变量；S^d表示同时直接指向X_p和X_q的碰撞点，即X_p→S←X_q，而不是X_p→S←C→X_q。

这三种调整策略会阻断所有的中介路，同时不会打开碰撞路。

定理1：在因果马尔科夫假设(the causal Markov condition)，忠实性假设(thecausal faithfulness assumption)以及MVMR的三个假设下，对于边际因果图中的任意一条边X_p→X_q，如果存在一个充分调整集合

使得/>

成立，那么X_p→X_q被移除；

条件独立性

通过MVMR调整/>

来检测：

其中，a_p→q代表X_p到X_q的直接因果效应，使用Wald test来检验X_p→X_q是否存在。

证明：对任意两个表型X_p和X_q，如果存在一个充分调整集合

使得

成立，那么X_p和X_q在真实因果图中一定没有直接边；然后用MVMR检测条件独立的准确性：

在选择有效工具的前提下，MVMR可以克服未知混杂的影响，调整充分调整集合得到两个点之间的直接因果效应；以两个连续的表型为例：

X_p、X_q和

之间的线性关系模型为：

其中，U为X_p和X_q之间的未知混杂变量，a_p→q为调整了

和U后，X_p到X_q的直接因果作用。

引入工具变量G_j后有：

/>

如果工具变量G_j是一个有效的工具，即满足MVMR的三个假设，则

成立，有：

也可以简化为：

即MVMR的因果效应估计模型公式。

S4：将步骤S3得到的条件因果图作为下一次迭代的边际因果图，重新迭代步骤S2和步骤S3，直到输出的条件因果图收敛，得到最终的循证因果网络图；这一步的目的是为了减小随机误差与统计学检验误差的影响。

在本实施例中，依托于循证因果网络图，基于潜在结局因果理论框架和do-算子，研发了能够准确筛选出影响疾病结局的触发危险因素(即“父节点”变量)的筛选新方法，是实现在缺失数据下进行因果网络推理的关键，实现了因果网络不确定性推理和多慢病一体化在线预测预警与决策支持干预。

本实施例提供一种基于循证因果网络图的变量筛选方法，以寻找疾病Y的触发危险因素，以线性模型为例，该方法的基本原理介绍如下：

(1)基本假定；假定目标疾病受多个预测因子的影响，用线性模型表示多个预测因子与目标疾病的关系为y＝b+e，其中y＝{y_i}表示n×1的目标疾病向量，n为样本个数；X＝{x_ij}为n×P的预测因子矩阵，P为预测因子的个数；b＝{b_i}是P×1的向量，代表了预测因子的效应值。

为简单起见，进行中心化处理，从而可以省略模型中的截距项；基于此模型，使用最小二乘方法估计多个预测因子的联合效应为

方差为/>

为联合分析残差项的方差。

(2)因果推断的基本思想；在对多个预测因子联合分析的线性回归模型中，给定一组预测因子后，另一组预测因子的联合效应的最小而成估计值b₂|₁表示为：

其中，

为条件回归中残差项的方差。

如图3(a)-图3(d)所示，如果在二元回归模型中同时调整了因果预测因子和虚假相关的预测因子，则只有因果预测因子被选入候选因果预测因子集，虚假预测因子被剔除；

如果因果预测因子缺失，并且在模型中调整了两个虚假关联的预测因子，最终将选择与真正因果预测因子相关性较高的预测因子；

考虑两个因果预测因子，如果在三元回归模型中对这两个因果预测因子进行调整，则排除所有虚假相关的预测因子；

如果真正因果预测因子缺失，与之有较高相关性的预测因子将保留。

总结这一思想，即为真正的预测因子不会因虚假关联的预测因子而与结局条件独立；给定真正的因果致病因素后虚假关联的预测因子与结局条件独立；当两个因果致病因素存在强的多重共线性时，可能会同时条件独立于结局；当模型中没有因果致病因素时，与因果致病因素相关性较大的预测因子更容易被保留。

(3)基于上述原理，采用以下的逐步选择策略来进行筛选：

(3-1)采用Cox单因素回归模型，判断每个预测因子与目标疾病Y是否独立；基于分析结果筛选P值小于0.05的显著预测因子，并将其纳入候选集S₀中，将候选集S₀中的预测因子按照P值从小到大进行排序；

(3-2)固定候选集S₀中P值最小的预测因子x₀₁，与剩余变量依次进行二元回归分析，计算两个预测因子与结局Y的条件独立性；

考虑到共线性问题，如果两个预测因子之间的相关性等于1，则这两个预测因子都保留在候选集S₀中，即分析两个条件P值，若其中一个P值为缺失值，则将两个预测因子都保留在S₀中；若两个P值都不缺失，将P值与定义的显著阈值(如定义显著水平为0.05)作比较，如果两个P值都大于或都小于0.05，两个预测因子都保留在S₀中；若两个P值中一个大于0.05，一个小于0.05，则将P值大于0.05的变量从S₀中剔除，不再做进一步分析；若被删除的预测因子为x₀₁，固定排序后S₀中的第二个预测因子x₀₂，重复上述过程，直至不再有预测因子被移出S₀；记完成此过程后仍保留在S₀中的剩余预测因子为候选预测因子集S₁。

(3-3)若候选预测因子集S₁中的变量个数小于或等于2或S₁＝S₀，计算结束，所得预测因子集S₁中的所有变量即为因果预测因子；否则继续使用三元回归模型对S₁进行上述分析，得到候选集S₂；

重复上述过程，直至S_m＝S_m-1或S_m中变量个数小于等于m+1，运算停止。此时S_m为真正的因果致病因素集合。

(3-4)需要注意的是，当使用多元回归模型对候选集S_q-1(q＝1，...，m)进行分析时，均给定S_q-1中的前q-1个预测因子，将剩余的预测因子一次添加到回归模型中与结局Y做回归分析；

如果所得的q个条件P值均大于或小于0.05，则q个预测因子均保留在S_q-1中；否则，删除P值大于或等于0.05的预测因子。若在添加某个新的预测因子时与某一给定的预测因子出现共线性问题，则同时保留这两个预测因子。最终仍保留在S_q-1中的所有变量记为S_q。

在本实施例中，如图4所示，基于上述循证因果网络图、筛选出的触发危险因素与Cox回归模型通过截尾逆概率加权函数相桥接后，构建多慢病一体化在线智能预测预警与个性化干预决策支持的因果网络医学图脑模型；目前可包括11种慢性病(高血压、糖尿病、冠心病、脑卒中、代谢综合征、慢性肾病、房颤、心脑血管事件、非酒精性脂肪肝、急性心肌梗死、重症精神病)和12种癌症(结直肠癌、胃癌、肝癌、食管癌、卵巢癌、乳腺癌、宫颈癌、子宫内膜癌、肺癌、甲状腺癌、白血病、膀胱癌)。

进而，基于因果网络的不确定性推理功能，可以实现“因果推理、诊断推理、支持推理、情景分析、压力测试”五种推理为一体的因果网络推理。该模型具备基于多源异构高燥稀疏的健康大数据进行在线实时智能预测预警和个性化干预决策支持的功能，从研究设计、问题提出、预测因子编码、构建因果网络医学图脑模型、模型估计、模型表现、模型验证、模型展示八个步骤实现一体化流程。

步骤如下：

(1)研究设计：选择队列，借助国家健康医疗大数据研究院协作中心区域化健康大数据队列，构建基于循证知识图谱的因果贝叶斯网络方法的预测模型。

(2)研究问题提出：选择结局和对应预测因子。

(3)预测因子编码：选择具有临床意义和可干预指标的预测因子，根据临床参考介值将数值变量转化为分类变量，以便实际中数据使用。

(4)预测模型构建：选用不确定性贝叶斯网络推理模型，利用基于循证知识图谱的因果贝叶斯网络方法构建因果网络医学图脑模型。

(5)模型估计：确定因果网络医学图脑模型之后，对模型参数进行估计。

(6)模型表现：从模型校准、判别及临床获益等进行评价。

(7)模型验证：对模型进行内部验证和外部验证。

(8)模型展示：通过风险映射图，绘制各年龄组人群的基准风险图，以人群平均基准风险为界，将其划分为高低风险区。

在本实施例中，所述多慢病一体化的因果网络医学图脑模型，实现多慢病一体化联动在线实时智能预测预警和个性化干预决策，基于动态三维可视化技术，实现多慢病推理过程的一体化展示。

针对上述多慢病一体化的因果网络医学图脑模型，首先给出多慢病一体化的因果网络医学图脑模型G’定义为：G’＝(V’,E’)，其中V’＝V₁∪V₂∪…∪V_n,E’＝E₁∪E₂∪…∪E_n，V表示模型网络中的随机变量，E＝(v_i,v_j)，v_i∈V，v_j∈V，i≠j，n个网络集合{G₁,G₂,…,G_n}；

然后，指定分类层级；定义因果网络医学图脑模型的随机变量划分体系为L＝{l₁,l₂,l₃,l₄,l₅}，其中l₁为遗传因子、l₂为初始因子、l₃为中间因子、l₄为触发因子、l₅为疾病标签(结局)；5个层级权重分配为：w(l₁)<w(l₂)<w(l₃)<w(l₄)<w(l₅)；将G’中每个随机变量v指定一个分类层级l∈L，且每个随机变量v仅对应一个分类层级。

再者，对因果网络医学图脑模型的循环边检测并剔除；假设检测到的循环边集合E_c＝{v₁→v₂,v₂→v₃,…,v_n→v₁}，剔除循环边后的集合为E_c’，检查E_c中随机变量对应的层级分类集合L_c；

循环边的剔除原则为：

(1)如果|L_c|>1，则必存在至少一个e＝(v_i→v_j)∈E_c，且v_i,v_j对应的层级l_i,l_j，w(l_i)>w(l_j)，则E_c’＝E_c-e；

(2)如果|L_c|＝1，则E_c’＝E_c-e’，其中e’为E_c中随机的一个边。

在本实施例中，三维可视化展示过程为：

(1)变量分层，如图5所示；将因果网络医学图脑模型G’的变量集合V’中每个v的布局坐标对应为p＝{x,y,z}，假设三维布局分层的间隔距离为d，则p_y＝(5-i)*d，其中i为变量v对应的层级l_i；

颜色编码初始规则：

c(l₁)＝rgb(128,21,0)；c(l₂)＝rgb(85,128,0)；c(l₃)＝rgb(0,128,64)；

c(l₄)＝rgb(0,43,128)；c(l₅)＝rgb(107,0,128)；

颜色编码高亮规则：

c(l₁)＝rgb(255,43,0)；c(l₂)＝rgb(171,255,0)；c(l₃)＝rgb(0,255,128)；

c(l₄)＝rgb(0,85,255)；c(l₅)＝rgb(213,0,255)。

(2)三维布局；在保证分层布局的前提下，使用三维力引导算法对G’中的变量V’进行坐标布局，布局动态调整过程保持每个随机变量v的坐标p_y不变。

(3)分类标签；以(0,-d,0)为圆心，以r为半径，均匀放置n个疾病标签(结局)。

(4)动画效果；在疾病推断过程中，计算至结局所有通路经过的患病影响因子，按照l₁-l₅的层次顺序，在三维空间的Y轴坐标自上而下分层布局，依次高亮显示影响因子对应的三维球，使得医生可视化直观理解推理过程。

在本实施例中，基于构建的多慢病一体化的因果网络医学图脑模型，根据受试者过往的体检、诊疗数据等，批量在线实时输出多慢病一体化预测预警报告，以实现区域性、大规模人群癌症筛查、慢病风险评估。

疾病预测预警采用风险映射方法，将个人绝对风险映射到人群基准风险分布上，得到多慢病患病风险的排序结果，划分风险量化等级，从而实现实时精准报警、分析风险演化和风险预警可视化；其中，人群的基准风险是一定时期内(如10年、5年等)各年龄段发病率，代表同性别同年龄人群期内发生某病的平均风险水平，是划分风险等级的重要依据。

多慢病一体化预测预警报告分为筛查报告和预测报告；筛查报告中的患病风险是指具备特定危险因素集的某个体在当下年龄α时发生所研究的结局(如肺癌)的概率。预测报告中的患病风险是指具备特定危险因素集的某个体在年龄α时未发生所研究的结局(如肺癌)，而在年龄(α+τ)时段内发生该结局的概率，其中τ是人为规定的随访时间。

对具有一种或多种病高风险的个体标签，提示报警信号，并提供个性化风险评估报告和个性化干预处置方案；还可实时通过微信APP、互联网医院、家庭医生管理系统、基本公共卫生服务系统、商业保险客户服务端等渠道，将风险报告和干预方案告知受试者。

在本实施例中，借助国家健康医疗大数据研究院协作中心区域化健康体检队列，使用基于循证知识图谱的因果贝叶斯网络方法，完成了10种癌症的因果网络医学图脑模型的构建及预测，对其预测效果进行评估。

队列数据信息包括有人口学信息(年龄、性别等)、疾病(ICD-10编码)、药品(YPID标码)、实验室检查(CNAS-AL09)等2080个标准指标变量。利用基于孟德尔随机化的因果贝叶斯网络方法构建10种癌症(肺癌、结直肠癌、食管癌、胃癌、肝癌、胰腺癌、膀胱癌、前列腺癌、乳腺癌、子宫内膜癌)的因果贝叶斯网络。

具体构建流程如下：

(1)分别建立10种癌症的队列，结局定义为目标癌症的发生，将血液指标、性别、年龄、身高、体重、脉搏、舒张压、收缩压、体重指数及疾病变量作为预测因子，共1468个预测因子。

(2)从高维数据中利用单因素回归分析筛选用于构建网络的变量，以提高网络的运算效率。

(3)从综合疾病防控指南和国内外杂志发表文章获得上述筛选得到的变量的先验信息，即构建黑白名单。

(4)将筛选出来的变量以及黑白名单纳入到基于孟德尔随机化的因果贝叶斯网络构建方法中，构建10种癌症的因果网络结构(仅包含自变量)，进一步利用极大似然估计学习网络参数。

(5)利用基于因果图的变量筛选方法得到目标癌症的触发危险因素，将触发危险因素和结局Y直接相连，这些触发危险因素作为固定变量纳入Cox模型中，即触发危险因素和Y相连边的参数使用Cox回归模型学习。

采用校准曲线、区分力和决策曲线作为评价指标；其中，

校准曲线的横轴是预测发病风险

纵轴是实际发病风险y，校准曲线是

其中A是截距，B是斜率；参考线是/>

即A＝0，B＝1，预测风险与实际风险完全重合；如果预测风险等于实际风险，校准曲线与参考线重合；如果预测风险大于实际风险，即高估了风险，则校准曲线在参考线以上；如果预测风险小于实际风险，即低估了风险，则校准曲线在参考线以下。

区分力指的是预测模型区分发病/不发病、有效/无效、死亡/存活等结局的预测能力，常使用AUC(Area Under Curve)和一致性指数(index of concordance，C-index)；AUC(Area Under Curve)为ROC曲线下与坐标轴围成的面积；C-index估计预测结果与实际观察到的结果相一致的概率。

决策曲线中净获益为：

决策曲线下面积为累计净收益，累计净获益越大的预测模型，临床效应越高。

以肝癌为例进行详细阐述，筛选出来的肝癌直接因果变量有：γ-谷氨酰转肽酶、天冬氨酸氨基转移酶、癌胚抗原、肝纤维化和肝硬变、胆囊胆道和胰腺疾患、消化系统的其他疾病、非胰岛素依赖型糖尿病、性别、胆囊炎、胆道的其他疾病、胰腺的其他疾病。

比较肝癌因果网络医学图脑模型在训练集及测试集不同缺失率情况下的模型表现性能，如图6(a)-图6(b)所示，可以看出，随着测试集缺失率不断增大，本实施例的模型校准曲线始终稳定在1附近，而传统Cox模型随着缺失率的不断增大，校准曲线斜率逐渐偏离1；从一致性指数上可以看出，本实施例的模型在缺失率70％的情况下比传统Cox模型预测性能高出15％。该结果表明，本实施例的方法在高噪稀疏数据上预测更有优势。

在更多实施例中，还提供：

一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成基于因果网络不确定性推理的疾病预测预警方法；

所述基于因果网络不确定性推理的疾病预测预警方法包括：

构建多慢病一体化的循证医学概念知识图谱；

获取多慢病一体化的相关危险因素；

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成基于因果网络不确定性推理的疾病预测预警方法；

所述基于因果网络不确定性推理的疾病预测预警方法包括：

构建多慢病一体化的循证医学概念知识图谱；

获取多慢病一体化的相关危险因素；

该方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元即算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于因果网络不确定性推理的疾病预测预警系统，其特征在于，包括：

因果网络构建模块，被配置为：

2.如权利要求1所述的一种基于因果网络不确定性推理的疾病预测预警系统，其特征在于，对边际因果图中的任意一条边X_p→X_q，定义充分调整集合为

的直接因果效应。

3.如权利要求2所述的一种基于因果网络不确定性推理的疾病预测预警系统，其特征在于，对于边际因果图中的任意一条边X_p→X_q，充分调整集合的调整策略包括：

(1)X_p到X_q之间所有通路上的点集合；

(2)X_p到X_q之间的最小充分调整集合与所有中介集合的并集；

4.如权利要求2所述的一种基于因果网络不确定性推理的疾病预测预警系统，其特征在于，去掉虚假直接边的过程包括：对于边际因果图中的任意一条边X_p→X_q，如果存在一个充分调整集合

使得条件独立性/>

成立，则将边X_p→X_q移除。

5.如权利要求1所述的一种基于因果网络不确定性推理的疾病预测预警系统，其特征在于，对多慢病一体化的因果网络医学图脑模型的随机变量进行分类层级的划分，具体为L＝{l₁,l₂,l₃,l₄,l₅}，权重分配为：w(l₁)<w(l₂)<w(l₃)<w(l₄)<w(l₅)；其中l₁为遗传因子、l₂为初始因子、l₃为中间因子、l₄为触发因子、l₅为疾病标签。

6.如权利要求5所述的一种基于因果网络不确定性推理的疾病预测预警系统，其特征在于，在疾病推断过程中，对涉及到的患病影响因素按遗传因子、初始因子、中间因子、触发因子、疾病标签的层次顺序，在三维空间的Y轴坐标自上而下分层布局，且依次高亮显示。

7.如权利要求5所述的一种基于因果网络不确定性推理的疾病预测预警系统，其特征在于，使用三维力引导算法对多慢病一体化的因果网络医学图脑模型中的随机变量进行坐标布局，且布局动态调整过程保持每个随机变量的Y轴坐标不变。

8.如权利要求1所述的一种基于因果网络不确定性推理的疾病预测预警系统，其特征在于，多慢病患病风险的预测过程采用风险映射方法，将个人绝对风险映射到人群基准风险分布上，得到多慢病患病风险的排序结果，并划分风险量化等级。

9.一种电子设备，其特征在于，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成基于因果网络不确定性推理的疾病预测预警方法；

所述基于因果网络不确定性推理的疾病预测预警方法包括：

构建多慢病一体化的循证医学概念知识图谱；

获取多慢病一体化的相关危险因素；

10.一种计算机可读存储介质，其特征在于，用于存储计算机指令，所述计算机指令被处理器执行时，完成基于因果网络不确定性推理的疾病预测预警方法；

所述基于因果网络不确定性推理的疾病预测预警方法包括：

构建多慢病一体化的循证医学概念知识图谱；

获取多慢病一体化的相关危险因素；