CN111833964A

CN111833964A - 一种整数线性规划优化贝叶斯网络的上位性位点挖掘方法

Info

Publication number: CN111833964A
Application number: CN202010592324.4A
Authority: CN
Inventors: 刘建晓; 杨轩; 杨晨; 雷继萌
Original assignee: Huazhong Agricultural University
Current assignee: Huazhong Agricultural University
Priority date: 2020-06-24
Filing date: 2020-06-24
Publication date: 2020-10-27
Anticipated expiration: 2040-06-24

Abstract

本发明涉及一种整数线性规划优化贝叶斯网络的上位性位点挖掘方法，包括S1‑S4四个步骤。首先使用条件互信息计算，并经过扩张、收缩和检查一致性三个阶段，得到每个节点的马尔科夫毯，将每个节点的马尔科夫毯作为其候选父节点集，构建每个节点的所有子结构。然后利用可分解的贝叶斯网络打分函数α‑BIC，求得每个子结构的分数。利用可分解贝叶斯网络打分函数的性质，删除一些子结构，得到每个节点筛选后的候选父集及其贝叶斯网络打分。最后根据这些候选父集和分数将构建贝叶斯网络转换成整数线性规划问题，并使用分支定界和割平面两种方法，快速求解得到最高分数的全局最优的包括SNP位点和表型性状的贝叶斯网络，进而实现更有效、更准确的上位性检测。

Description

一种整数线性规划优化贝叶斯网络的上位性位点挖掘方法

技术领域

本发明涉及生物信息技术领域，具体为一种整数线性规划优化贝叶斯网络的上位性位点挖掘方法。

背景技术

随着现代医疗水平的提高和分子生物学技术的不断发展，目前影响人类健康的疾病主要包括孟德尔遗传病和复杂疾病。孟德尔遗传病是单基因疾病，通过定位克隆的方法和孟德尔遗传定律，可以很容易确定相关遗传基因以及阐明其遗传方式。然而复杂疾病却远比孟德尔遗传病复杂，从生物遗传学的角度看，决定生物复杂性状的遗传因素主要包括三个方面：基因主效应、基因与基因之间的相互作用和基因与环境之间的相互作用。非孟德尔遗传病的复杂性主要体现在表型复杂、遗传模式复杂以及致病机理复杂。复杂疾病是由多个基因和环境因素共同作用的结果，其病因非常复杂。众所周知，复杂疾病占人类疾病的80％以上，包括癌症、2型糖尿病、哮喘、糖尿病、高血压、老年痴呆症、类风湿性关节炎、精神分裂症、心脏病、心血管疾病、肥胖、肿瘤等，这些疾病极大的困扰了的健康。因此，需要研究新的方法来阐明复杂疾病的致病原因及其遗传机制。

全基因组关联研究(GWAS,Genome-Wide Association Study)是常用的在全基因组范围内筛检出与表型显著关联的单核苷酸多态性(SNP,Single NucleotidePolymorphism)的方法。其基本原理为在一定数量的病例/对照样本中，比较全基因组范围内SNP位点的频率差异。但该方法主要侧重于检测主效基因，利用该方法尽管可以找到很多与表型相关的位点，但是也只能解释极少数的遗传变异。造成这种结果一个最重要的原因是忽略了基因与基因之间的相互作用，即上位性。目前研究者们提出了多种上位性检测方法。然而，这些方法假阳性率高，且在全基因组数据范围中存在计算困难、算法时间复杂度高、效率低下等问题，导致不能准确高效地检测出与表型性状相关联的SNP位点及其组合。

发明内容

本发明的目的在于提供一种整数线性规划优化贝叶斯网络的上位性位点挖掘方法，至少可以解决现有技术中的部分缺陷。

为实现上述目的，本发明实施例提供如下技术方案：一种整数线性规划优化贝叶斯网络的上位性位点挖掘方法，

S1，将基因型数据中SNP用0/1/2形式的数据表示，同时将基因型数据中表型Class用0/1形式的数据表示，并将SNP和Class看成构成贝叶斯网络的节点，在SNP中，0表示纯合子常见基因型，1表示杂合子，2表示纯合子少见基因型，在表型Class中，1表示该样本患病，0表示该样本未患病；

S2，通过计算互信息和条件互信息，利用扩张、收缩、检查一致性三个阶段得到每个节点的马尔科夫毯，将每个节点的马尔科夫毯中的节点作为该节点的候选父节点；

S3，在得到的每个节点的候选父节点中，对于特定节点和其所有的候选父节点构成的子结构，利用可分解贝叶斯网络打分函数计算所有子结构的分数，然后利用贝叶斯网络可分解打分函数的四个性质删除一些候选父集，得到不同节点筛选后的候选父集；

S4，基于每个节点的候选父集及其贝叶斯网络打分，将构建SNP位点和表型性状的贝叶斯网络转换成求满足约束条件的整数线性规划问题，然后利用割平面法和分支定界两种整数线性规划求解方法得到全局最优的贝叶斯网络。

进一步，在进行所述S2步骤前，设将挖掘影响表型性状的k-locus上位性位点，SNP和Class的数量为n，对于每个SNP节点，其初始的马尔科夫毯节点集共有

种情况，每种情况的初始马尔科夫毯包含Class和其它k-2个SNP，对于Class节点，其初始的马尔科夫毯节点集共有

种情况，每种情况的初始马尔科夫毯包含其它k-1个SNP。

进一步，在所述S2步骤中，扩张阶段具体为：对于一个目标节点的任意一种初始马尔科夫毯情况，计算任意节点与当前目标节点在该初始马尔科夫毯条件下的条件互信息，若条件互信息小于阈值，将节点加入到马尔科夫毯中，不断重复此过程，直到马尔科夫毯内节点不再增加为止，对目标节点的所有初始马尔科夫毯都进行上述计算过程，并对计算得到的所有马尔科夫毯求并集，得到该目标节点最终的马尔科夫毯。

进一步，在所述S2步骤中，收缩阶段具体为：在该阶段主要是去除错误的马尔科夫毯节点，对于目标节点，去除其马尔科夫毯内的任意一个节点，计算该节点与目标节点在去除后的马尔科夫毯的条件下的互信息，若互信息值大于阈值，则将该节点删除，如条件互信息小于阈值，则保留该节点，直到没有可删除的节点为止。

进一步，在所述S2步骤中，检查一致性阶段具体为：若SNP₁的马尔科夫毯内有SNP₂，则SNP₂的马尔科夫毯内也应当有SNP₁；若SNP₂的马尔科夫毯内没有SNP₁，将SNP₁的马尔科夫毯内的SNP₂删除；通过检查一致性，可以进一步的精简不同的节点的马尔科夫毯，进而缩小候选父节点的个数。

进一步，在所述S3步骤中，通过使用更适合上位性数据处理的可分解贝叶斯网络打分函数α-BIC来对子结构进行打分。

进一步，在所述S3步骤中，使用可分解贝叶斯网络打分函数的四个性质，删除不同节点的候选父集，从而减少每个节点的候选父集个数，提高后续整数线性规划算法求解的效率。

进一步，在所述S4步骤中，将构建贝叶斯网络转换成整数线性规划问题，即目标函数为使整个网络的贝叶斯网络分数最高，约束条件为每个节点只能选择一个父集，且所选父集构成的网络不能存在环，通过将构建贝叶斯网络转换成整数线性规划问题，能够避免陷入局部最优，进而得到全局最优的网络结构。

进一步，在所述S4步骤中，所述割平面法是将不满足约束条件的解，转换为约束条件加入到原问题的约束条件中，直到找到满足条件的解为止。

进一步，在所述S4步骤中，所述分支定界方法是将非整数解分为向上取整和向下取整两个分支，并将其分别加入到约束条件中构成两个子问题，然后分别进行求解。不断重复此过程，直到找到整数解为止。

与现有技术相比，本发明的有益效果是：一种整数线性规划优化贝叶斯网络的上位性位点挖掘方法，通过SNP位点和表型性状Class的贝叶斯网络结构，进而挖掘上位性位点的方法，首先使用条件互信息计算，并经过扩张、收缩和检查一致性三个阶段，得到每个节点的马尔科夫毯，将每个节点的马尔科夫毯作为其的候选父节点集，构建每个节点所有候选父集，即子结构，利用可分解的贝叶斯网络打分函数α-BIC，求得每个子结构的分数，然后利用可分解打分函数的性质，删除一些子结构，得到每个节点筛选后的候选父集及其贝叶斯网络打分，最后根据这些候选父集和分数将构建贝叶斯网络转换成整数线性规划问题，并使用分支定界和割平面两种方法，快速求解得到最高分数的全局最优的贝叶斯网络，通过对得到网络进行分析，快速准确的获取到影响表型性状的上位性基因位点，辅助基因功能挖掘，进而获得更有效、更准确的上位性检测算法，对复杂疾病致病机理的发现、诊断、治疗和预防有着非常重要的作用。

附图说明

图1为本发明实施例提供的一种整数线性规划优化贝叶斯网络的上位性位点挖掘方法的流程示意图；

图2为本发明实施例提供的一种整数线性规划优化贝叶斯网络的上位性位点挖掘方法使用可分解打分函数四个性质的流程示意图；

图3为本发明实施例提供的一种整数线性规划优化贝叶斯网络的上位性位点挖掘方法的不同方法2-locus上位性检测效率比较；

图4为本发明实施例提供的一种整数线性规划优化贝叶斯网络的上位性位点挖掘方法的不同方法2-locus位点上位性检测准确率比较；

图5为本发明实施例提供的一种整数线性规划优化贝叶斯网络的上位性位点挖掘方法的不同方法2-locus位点上位性检测FPR比较；

图6为本发明实施例提供的一种整数线性规划优化贝叶斯网络的上位性位点挖掘方法的不同方法2-locus位点上位性检测F1score比较；

图7为本发明实施例提供的一种整数线性规划优化贝叶斯网络的上位性位点挖掘方法的不同方法3-locus上位性检测效率比较；

图8为本发明实施例提供的一种整数线性规划优化贝叶斯网络的上位性位点挖掘方法的不同方法3-locus位点上位性检测准确率比较；

图9为本发明实施例提供的一种整数线性规划优化贝叶斯网络的上位性位点挖掘方法的不同方法3-locus位点上位性检测FPR比较；

图10为本发明实施例提供的一种整数线性规划优化贝叶斯网络的上位性位点挖掘方法的不同方法3-locus位点上位性检测F1score比较；

图11为本发明实施例提供的一种整数线性规划优化贝叶斯网络的上位性位点挖掘方法的不同方法2×2-locus位点上位性检测F1score比较；

图12为本发明实施例提供的一种整数线性规划优化贝叶斯网络的上位性位点挖掘方法的不同方法2×2-locus位点上位性检测FPR比较；

图13为本发明实施例提供的一种整数线性规划优化贝叶斯网络的上位性位点挖掘方法的不同方法2×3-locus位点上位性检测F1score比较；

图14为本发明实施例提供的一种整数线性规划优化贝叶斯网络的上位性位点挖掘方法的不同方法2×3-locus位点上位性检测FPR比较；

图15为本发明实施例提供的一种整数线性规划优化贝叶斯网络的上位性位点挖掘方法的5-locus上位性位点检测准确性、F1score和FPR比较。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1和图2，本发明实施例提供一种整数线性规划优化贝叶斯网络的上位性位点挖掘方法，包括如下步骤：S1，将基因型数据中SNP用0/1/2形式的数据表示，同时将基因型数据中表型Class用0/1形式的数据表示，并将SNP和Class看成构成贝叶斯网络的节点，将SNP基因型数据用0/1/2表示，例如AT，进行如下表示：AA用0表示，TT用2表示，AT/TA用1表示，在SNP中，0表示纯合子常见基因型，1表示杂合子，2表示纯合子少见基因型，在表型Class中，1表示该样本患病，0表示该样本未患病；S2，基于信息熵理论，通过计算互信息和条件互信息，利用扩张、收缩、检查一致性三个阶段得到每个节点的马尔科夫毯，将每个节点的马尔科夫毯中的节点作为该节点的候选父节点；S3，在得到的每个节点的候选父节点中，对于特定节点和其所有的候选父节点构成的子结构，利用可分解贝叶斯网络打分函数计算所有子结构的分数，然后利用贝叶斯网络可分解打分函数的四个性质删除一些候选父集，得到不同节点筛选后的候选父集；S4，基于每个节点的候选父集及其贝叶斯网络打分，将构建SNP位点和表型性状的贝叶斯网络转换成求满足约束条件的整数线性规划问题，然后利用割平面法和分支定界两种整数线性规划求解方法得到全局最优的贝叶斯网络。在本实施例中，用0/1/2形式的数据表示基因型数据，如对SNP基因型为AT的数据表示如下：AA用0表示，TT用2表示，AT/TA用1表示，0表示纯合子常见基因型，1表示杂合子，2表示纯合子少见基因型，Class表示表型性状，其中Class＝1表示case(患病)，Class＝0表示control(未患病，对照)，将SNP和Class看作贝叶斯网络中的节点。通过SNP位点和表型性状Class的贝叶斯网络结构，进而挖掘上位性位点的方法，首先使用条件互信息计算，并经过扩张、收缩和检查一致性三个阶段，得到每个节点的马尔科夫毯。将每个节点的马尔科夫毯作为其的候选父节点集，构建每个节点所有候选父集，即子结构，利用可分解的贝叶斯网络打分函数α-BIC，求得每个子结构的分数。然后利用可分解打分函数的性质，删除一些子结构，得到每个节点筛选后的候选父集及其贝叶斯网络打分，最后根据这些候选父集和分数将构建贝叶斯网络转换成整数线性规划问题，并使用分支定界和割平面两种方法，快速求解得到最高分数的全局最优的贝叶斯网络。通过对得到网络进行分析，快速准确的获取到影响表型性状的上位性基因位点，辅助基因功能挖掘，进而获得更有效、更准确的上位性检测算法，对复杂疾病致病机理的发现、诊断、治疗和预防有着非常重要的作用。

作为本发明实施例的优化方案，请参阅图1和图2，在进行所述S2步骤前，设将挖掘影响表型性状的k-locus上位性位点，SNP和Class的数量为n，对于每个SNP节点，其初始的马尔科夫毯节点集共有

种情况，每种情况的初始马尔科夫毯包含其它k-1个SNP。

作为本发明实施例的优化方案，请参阅图1和图2，在所述S2步骤中，扩张阶段具体为：对于一个目标节点的任意一种初始马尔科夫毯情况，计算任意节点与当前目标节点在该初始马尔科夫毯条件下的条件互信息，若条件互信息小于阈值，将节点加入到马尔科夫毯中，不断重复此过程，直到马尔科夫毯内节点不再增加为止，对目标节点的所有初始马尔科夫毯都进行上述计算过程，并对计算得到的所有马尔科夫毯求并集，得到该目标节点最终的马尔科夫毯。在本实施例中，具体地，计算其它任意SNP在当前马尔科夫毯情况下与目标节点(SNP或Class)的条件互信息。若计算的条件互信息小于阈值，则将该SNP加入到该马尔科夫毯中，直到马尔科夫毯不再增加为止，对于目标节点SNP₁，设其初始的马尔科夫毯mb_i(SNP₁)，利用Eq.(1)计算SNP₁和任意非mb_i(SNP₁)内的节点SNP₂在mb_i(SNP₁)条件下的条件互信息I(SNP₁,SNP₂|mb_i(SNP₁))。若条件互信息小于给定阈值，则将SNP₂加入到mb_i(SNP₁)中，循环执行此过程，直到mb_i(SNP₁)不再增加为止。对SNP₁所有情况的初始马尔科夫毯都进行上述操作，对得到的所有mb_i(SNP₁)求并集，得到SNP₁最终的马尔科夫毯，如Eq.(2)所示。同理，目标节点为Class的计算过程类似，如Eq.(3)所示。

作为本发明实施例的优化方案，请参阅图1和图2，在所述S2步骤中，收缩阶段具体为：在该阶段主要是去除错误的的马尔科夫毯节点，对于目标节点，去除其马尔科夫毯内的任意一个节点，计算该节点与目标节点在去除后的马尔科夫毯的条件下的互信息。若互信息值大于阈值，则将该节点删除，如条件互信息小于阈值，则保留该节点，直到没有可删除的节点为止。在本实施例中，具体地，去除目标节点(SNP或Class)马尔科夫毯中的任意一个SNP，若目标节点(SNP或Class)与去除SNP在去除该SNP的马尔可夫毯的条件下的条件互信息大于阈值，则去除该SNP。然后通过检查马尔科夫毯的一致性，得到最终每个节点的马尔科夫毯。对于任意目标节点SNP₁(或Class)，计算目标节点SNP₁与SNP₂在去除节点SNP₂的马尔可夫毯的条件下的条件互信息I(SNP₁,SNP₂|mb(SNP₁))。若条件互信息大于阈值，则删除节点SNP₂并更新节点SNP₁的马尔可夫毯。

作为本发明实施例的优化方案，请参阅图1和图2，在所述S2步骤中，检查一致性阶段具体为：若SNP₁的马尔科夫毯内有SNP₂，则SNP₂的马尔科夫毯内也应当有SNP₁；若SNP₂的马尔科夫毯内没有SNP₁，将SNP₁的马尔科夫毯内的SNP₂删除；通过检查一致性，可以进一步的精简不同的节点的马尔科夫毯，进而缩小候选父节点的个数。在本实施例中，具体地，若SNP₁的马尔科夫毯中有SNP₂，则SNP₂的马尔科夫毯中一定有SNP₁，删除违反一致性的马尔科夫毯中的节点。

作为本发明实施例的优化方案，请参阅图1和图2，在所述S3步骤中，通过使用更适合上位性数据处理的可分解贝叶斯网络打分函数α-BIC来对子结构进行打分。在本实施例中，α-BIC打分函数是基于AIC和BIC打分函数进行计算的。对于节点X_i，AIC/BIC打分计算方式如Eq.(4)所示。

score_i(Pa_i)＝L_i(Pa_i)-t_i(Pa_i)*W (4)

其中Pa_i是节点X_i的父节点集合，L_i(Pa_i)是条件概率P(X_i|Pa_i)的似然，计算公式如Eq.(5)所示。

其中q_i表示节点X_i当前父集取值的组合数，r_i表示节点X_i的可取值数。Eq.(4)中t_i(Pa_i)*W是惩罚项，t_i(Pa_i)＝q_i*(r_i-1).W＝1为AIC打分函数。W＝logN/2为BIC打分函数,N表示样本量。整个贝叶斯网络G的打分方式如Eq.(6)所示。

在α-BIC打分函数中，通过调整BIC/AIC打分函数的惩罚项，使其更适合上位性数据处理，定义Eq.(7)所示。

score_i(Pa_i)＝L_i(Pa_i)-t_i(Pa_i)·(α·W_Bic+(1-α)·W_AIC) (7)

当α＝1,score_i(Pa_i)相当于BIC打分函数。当α＝0时，score_i(Pa_i)相当于AIC打分函数。

作为本发明实施例的优化方案，请参阅图1和图2，在所述S3步骤中，使用可分解贝叶斯网络打分函数的四个性质，删除不同节点的候选父集，从而减少每个节点的候选父集个数，提高后续整数线性规划算法求解的效率。能够大大缩减候选父集的数量，避免每个节点的父集过多，影响运行效率。在本实施例中，通过贝叶斯网络可分解打分函数的四个性质对每个节点的候选父集进行筛选，缩小候选父集的个数。

性质一，定义一个父集为空的基本分数score_i-base，

如果节点候选父集的分数小于score_i-base，则不考虑这些候选父集成为该节点最终的父集。仅仅考虑那些分数大于score_i-base的候选父集。也就是，删除分数小于score_i-base的候选父集。

性质二，如果Pa_i1和Pa_i2是节点X_i的两个候选父集，且

如果score_i(Pa_i1)>score_i(Pa_i2),Pa_i2不可能是X_i的父集，更可能选择Pa_i1作为X_i的父集。因此，从节点X_i的候选父集中删除Pa_i2。

性质三，每个节点最多有

个父亲节点，即删除节点个数超过

的父集，其中N表示节点的个数。

性质四，如果Pa_i1和Pa_i2是节点X_i的两个候选父集，且

如果t_i(Pa_i2)+score_i(Pa_i1)>0，则Pa_i2和其所有的父集

都不可能在最后的贝叶斯网络中成为X_i的父集。

通过上述四个性质，可以删除节点的一些候选父集，进而提高算法的效率，执行流程如图2所示。

作为本发明实施例的优化方案，请参阅图1和图2，在所述S4步骤中，将构建贝叶斯网络转换成整数线性规划问题，即目标函数为使整个网络(每个节点与其父集)的贝叶斯网络分数最高，约束条件为每个节点只能选择一个父集，且所选父集构成的网络不能存在环，通过将构建贝叶斯网络转换成整数线性规划问题，能够避免陷入局部最优，进而得到全局最优的网络结构。通过分析得到的网络结构，快速准确的获得影响表型性状的上位性基因位点。在本实施例中，在得到SNP节点和表型节点Class不同候选父集及其贝叶斯网络打分的基础上，将构建SNP节点和Class的最优贝叶斯网络看作求满足约束条件的最优化问题。即为每个节点选择父节点集，使构建的贝叶斯网络分数最高。该过程主要包括两个约束条件。第一是为每个节点选择且只选择一个父集。对于节点的所有候选父集，要么选择其作为该节点的父集，要么不选，最终只有一个父集被选中。第二是为每个节点所选的父集构成的贝叶斯网络必须是无环的。为了解决上述最优化问题，我们采用效率和准确性较高的整数线性规划方法进行求解。

对于节点v和它的一个父集W，定义二元变量I(W->v)。如果I(W->v)＝1，表示W在最终的贝叶斯网络中作为v的父集。I(W->v)＝0，表示在最终的贝叶斯网络中W不能作为v的父集。整个贝叶斯网络的打分是所有节点及其父节点对应子结构得分的总和。分数越高，表示贝叶斯网络越优。定义c(v,W)为节点v，在其父集W条件下的贝叶斯得分，故整数线性规划的目标函数如Eq.(8)所示。

每个节点选择且只能选择一个父集，故约束一的定义如Eq.(9)所示。

如约束条件二所述，贝叶斯网络是无环的有向图。因此在贝叶斯网络中一定存在一个节点没有父集，或者一定有一个节点没有子节点。因为一个有向无环图的导出子图也是一个有向无环图。一个有向无环图可以对应一个节点的拓扑排序，则拓扑排序的第一个节点一定是没有父节点的。同理拓扑排序的最后一个节点一定没有子节点。故约束二的定义如Eq.(10)所示。

Eq.(8)-Eq.(10)所示为所求最优贝叶斯网络的整数线性规划问题的定义。通过求解该问题可以得到全局最优的贝叶斯网络。主要通过分支定界和割平面算法解决该问题。分支定界和割平面两种算法主要是通过不断缩小可行域，直到找到满足条件的整数解为止。通过将两个方法相结合，求解整数线性规划问题得到全局最优的贝叶斯网络，结合使用分支定界和割平面方法，对于一个松弛解x^*，如果其违反了约束条件二，则将其加入到该问题的约束集中，然后重复执行此过程。如果没有违反约束条件二，但x^*不是整数，则使用分支定界方法，重复执行此过程。如果x^*是整数，则为该问题的解，算法结束。

作为本发明实施例的优化方案，请参阅图1和图2，在所述S4步骤中，所述割平面法是将不满足约束条件的解，转换为约束条件加入到原问题的约束条件中，直到找到满足条件的解为止。在本实施例中，如果有n个节点，对于上述约束条件二，共有2^n-1个约束。在求解该整数线性规划问题时，不能在一开始就加入所有的约束条件。而是在求解的过程中进行判断，当松弛解x^*违反了那个约束条件，就将该约束条件加入到约束条件集中。重复该过程，直到没有更多的约束条件(割平面)或者当前解可以形成一个有向无环图，算法结束。割平面法可以大大提高求解的效率，因为大部分的约束条件在求解过程中都没有被违反。通过加入割平面，可以大大缩减可行解域，进而提高运算效率。

作为本发明实施例的优化方案，请参阅图1和图2，在所述S4步骤中，所述分支定界方法是将非整数解分为向上取整和向下取整两个分支，并将其分别加入到约束条件中构成两个子问题，然后分别进行求解。不断重复此过程，直到找到整数解为止。在本实施例中，如果有w个父集，即I(W->v)的数量是w，且I(W->v)的值为0或1。求解该问题的松弛解时(I(W->v)∈R)，得到解x^*。因此该整数线性规划的可行解属于w维空间

中的一个点。x^*∈[0,1]^w。例如，如果I(W₁->v)＝0.7且I(W₂->v)＝0.3,I(W₁->v)+I(W₂->v)＝1。对于节点v，W₁和W₂在x^*中是正确的取值。而当I(W->v)不是整数时，对该问题进行分支，使得I＝0或I＝1。采用同样的方法递归地解决每个子问题。

在另外的实施例中，通过实验来说明基于整数线性规划优化贝叶斯网络的上位性位点挖掘方法的有效性，分别比较2-locus，3-locus，2×2locus，2×3-locus，5-locus上位性位点检测的准确率、效率、FPR和F1score。

下面是应用本发明中的方法在GAMETES软件生成数据集上进行上位性位点挖掘的实例，通过相关的实验来详细说明本发明方法挖掘上位性位点的高效性。GAMETES软件是一款业界常用的用于生成Epistasis模拟数据的软件，该软件可以快速准确地生成Epistasis模拟数据，通过改变不同的参数生成特定的两位点甚至多位点Epistasis模型。可以设置的参数包括：SNP位点的个数、遗传率(heritability,h²)、最小等位基因频率(MAF)以及患病率(prevalence)等。生成模拟数据的文件中第1行为位点名称，最后1列为Class标签，1表示患病，0表示对照。基因型数据用0/1/2表示，0表示纯合子常见基因型，1表示杂合子，2表示纯合子少见基因型。

将本发明中整数线性规划优化贝叶斯网络的上位性位点挖掘方法记为ILPBN，实验比较的上位性检测方法包括以下几种：AntEpiSeeker,BEAM,BOOST，ESMO，MDR和SNPruler。通过设置不同的遗传率h²和最小等位基因频率MAF，采用GAMETES软件生成了不同的数据集，每个参数设置下的数据集包括100个文件。利用了下述几个评价指标对上位性检测的效果进行比较：准确率(Eq.(11)),精确率(Eq.(12)),召回率(Eq.(13)),F1score(Eq.(14)),假阳性率(FalsePositiveRate,FPR)(Eq.(15))。其中准确率用于评价输出结果中能否包含所有正确结果。召回率是指输出结果中真阳性的数目和数据中总共真阳性数目的比率。在上位性挖掘研究中，较高的召回率意味着不管SNP组合数有多少，该算法也能检测到较全的SNP组合。精确率是指输出结果中真阳性的数目占输出总数的多少，较高的精确率意味着该算法的输出结果与标准结果吻合度较高。F1score综合考虑了精确率与召回率这两个指标。FPR表示输出中假阳性结果的数目占数据中假阳性数目的多少。

实验1. 2-locus上位性检测的效率、准确率、FPR及F1-score对比

在本实验中，比较了设置不同遗传率heritability和最小等位基因频率MAF情况下2-locus上位性位点挖掘的时间、准确率、FPR以及F1-score，如图3-图6所示。

通过图3可见，AntEpiSeeker所花费的时间显著高于其它方法。由于需要对所有的节点对进行判断，MDR方法所用的时间也比较长，其它几种方法所花费时间都比较少。由图4可见BEAM方法的准确性最低，明显低于其它方法。其他几种方法的准确率基本保持100％，其中SNPRuler的准确率略低于其它5种方法。当heritability＝0.025时，BOOST,MDR和SNPRuler准确性略微降低。对于所有的参数，AntEpiSeeker，ESMO和ILPBN的准确性基本保持100％。图5中，AntEpiSeeker的FPR最高，明显高于其他方法。SNPRuler的FPR也较高，其它五种方法的FPR都比较小，接近于0。图6中，BOOST,MDR,ESMO和ILPBN方法的F1score较高，接近100％。BEAM的F1score最低，基本为0。AntEpiSeeker和SNPRuler的F1score也不高，在50％以下。

总之，AntEpiSeeker,BOOST,MDR,SNPRuler,ESMO和ILPBN方法的准确性都比较高。但AntEpiSeeker方法的效率比较，FPR高且F1score很低。SNPRuler的F1score也较低，以及FPR较高。BOOST只能检测2-locus型的数据。MDR,ESMO和ILPBN的准确性，FPR和F1-Score基本相同，但MDR的运行时间明显高于其他两种方法。同时,ILPBN和ESMO具有较高的准确性,F1-score和较低的FPR，且运行时间最少。

实验2.3-locus上位性检测的效率、准确率、FPR及F1-score对比

在本实验中，比较了设置不同遗传率heritability和最小等位基因频率MAF情况下3-locus上位性位点挖掘的时间、准确率、FPR以及F1-score，如图7-图10所示。

图7中，ILPBN所用的时间最多，要多于其他一些方法。这主要是由于ILPBN获取每个结点的马尔科夫毯时花费了一些时间。另外，ILPBN方法可以得到上位性位点影响表型性状的网络结构，而其他几种方法不能得到这种网络结构。图8中，BEAM方法的准确性最低。当heritability＝0.025和0.2时，MDR和SNPRuler的准确性低于ESMO和ILPBN。在所有参数的情况下，ESMO和ILPBN的准确性基本为100％。图9中，SNPRuler的FPR最高，在heritability＝0.025时，MDR的FPR也相对较高。在所有参数的情况下，ESMO和ILPBN的FPR都为0。图10中，BEAM和SNPRuler方法的F1score要低于其他方法。在heritability＝0.025时，MDR的F1score要低于ESMO和ILPBN方法。在所有参数的情况下，ESMO和ILPBN的F1score基本为100％。

综上所述，BEAM的准确性最低。SNPRuler的FPR较高，且该方法的准确性在heritability＝0.025时不高。在heritability＝0.025时，MDR的准确性不高且FPR较高。相比较其他方法，ILPBN和ESMO具有高准确性,高F1-score和低FPR。但是ESMO的效率要优于ILPBN方法，但ESMO方法不能得到上位性位点影响表型性状的网络结构。

实验3.2×2-locus上位性检测的F1-score以及FPR对比

在本实验中，比较了设置不同遗传率heritability和最小等位基因频率MAF情况下2×2-locus上位性位点挖掘的F1-score以及FPR，如图11-图12所示。

图11中，当heritability＝0.4时，BOOST,MDR,ESMO和ILPBN的F1score都为1，远高于其他三种方法。当heritability＝0.025时，MAF＝0.2对应各种方法的F1score都高于MAF＝0.4。所有参数的情况下，SNPRuler和BEAM的F1score基本为0。MDR,AntEpiSeeker和ESMO的F1score明显小于ILPBN和BOOST。当heritability＝0.025/0.4时，ILPBN的F1score要好于BOOST方法。

图12中，可见SNPRuler和AntEpiSeeker的FPR远高于其他方法。BOOST，MDR和ESMO的FPR非常小，稍微大于0。BEAM和ILPBN的FPR基本为0。综合图11和图12，可见ILPBN方法的F1score和FPR都优于其它方法。

实验4.2×3-locus上位性检测的F1-score以及FPR对比

在本实验中，比较了设置不同遗传率heritability和最小等位基因频率MAF情况下2×3-locus上位性位点挖掘的F1-score以及FPR，如图13-图14所示。

图13中，当heritability＝0.025时，MAF＝0.2对应各种方法的F1score都高于MAF＝0.4。当heritability＝0.2时，MDR,ESMO和ILPBN的F1score都为1，远高于其他两种方法。所有参数情况下，BEAM的F1score基本为0，且MDR,AntEpiSeeker和ESMO的F1score明显小于ILPBN。

图14中，对于所有的参数设置，SNPRuler的FPR远高于其他方法。BEAM的FRP都为0，但是BEAM的F1score也最差，基本为0。当heritability＝0.2时，ILPBN，ESMO和MDR的FRP等于0。当heritability＝0.025，ILPBN的FPR略低于MDR和ESMO。综合图13和图14，可见ILPBN方法在具有最好的F1score的前提下，对应的FPR也低于其它方法。

实验5.5-locus上位性检测的准确率、F1score和FPR对比

通过构建SNP位点和表型性状的网络，ILPBN方法利用网络间的节点间的联系实现上位性检测。因此，ILPBN方法可以用于multi-locus位点的上位性检测。在本实验中，比较了设置不同遗传率heritability和最小等位基因频率MAF情况下，ILPBN方法实现5-locus上位性位点挖掘的准确率、F1-score以及FPR，如图15所示。

图15中，ILPBN方法准确性为100％，F1score为1且FPR为0。通过对最终的网络结果进行分析，发现表型Class只与5个目标SNPs有关联关系，与其它SNPs没有关联关系。可见ILPBN方法能够较好的用于multi-locus上位性检测。而其他一些方法(AntEpiSeeker,BEAM,BOOST,MDR,SNPRuler,ESMO)在处理5-locus实验数据时，不能得到有效的上位性位点。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种整数线性规划优化贝叶斯网络的上位性位点挖掘方法，其特征在于，包括如下步骤：

2.如权利要求1所述的一种整数线性规划优化贝叶斯网络的上位性位点挖掘方法，其特征在于，在进行所述S2步骤前，设将挖掘影响表型性状的k-locus上位性位点，SNP和Class的数量为n，对于每个SNP节点，其初始的马尔科夫毯节点集共有

种情况，每种情况的初始马尔科夫毯包含其它k-1个SNP。

3.如权利要求1所述的一种整数线性规划优化贝叶斯网络的上位性位点挖掘方法，其特征在于，在所述S2步骤中，扩张阶段具体为：对于一个目标节点的任意一种初始马尔科夫毯情况，计算任意节点与当前目标节点在该初始马尔科夫毯条件下的条件互信息，若条件互信息小于阈值，将节点加入到马尔科夫毯中，不断重复此过程，直到马尔科夫毯内节点不再增加为止，对目标节点的所有初始马尔科夫毯都进行上述计算过程，并对计算得到的所有马尔科夫毯求并集，得到该目标节点最终的马尔科夫毯。

4.如权利要求1所述的一种整数线性规划优化贝叶斯网络的上位性位点挖掘方法，其特征在于，在所述S2步骤中，收缩阶段具体为：在该阶段主要是去除错误的的马尔科夫毯节点，对于目标节点，去除其马尔科夫毯内的任意一个节点，计算该节点与目标节点在去除后的马尔科夫毯的条件下的互信息，若互信息值大于阈值，则将该节点删除，如条件互信息小于阈值，则保留该节点，直到没有可删除的节点为止。

5.如权利要求1所述的一种整数线性规划优化贝叶斯网络的上位性位点挖掘方法，其特征在于，在所述S2步骤中，检查一致性阶段具体为：若SNP₁的马尔科夫毯内有SNP₂，则SNP₂的马尔科夫毯内也应当有SNP₁；若SNP₂的马尔科夫毯内没有SNP₁，将SNP₁的马尔科夫毯内的SNP₂删除；通过检查一致性，可以进一步的精简不同的节点的马尔科夫毯，进而缩小候选父节点的个数。

6.如权利要求1所述的一种整数线性规划优化贝叶斯网络的上位性位点挖掘方法，其特征在于：在所述S3步骤中，通过使用更适合上位性数据处理的可分解贝叶斯网络打分函数α-BIC来对子结构进行打分。

7.如权利要求1所述的一种整数线性规划优化贝叶斯网络的上位性位点挖掘方法，其特征在于：在所述S3步骤中，使用可分解贝叶斯网络打分函数的四个性质，删除不同节点的候选父集，从而减少每个节点的候选父集个数，提高后续整数线性规划算法求解的效率。

8.如权利要求1所述的一种整数线性规划优化贝叶斯网络的上位性位点挖掘方法，其特征在于，在所述S4步骤中，将构建贝叶斯网络转换成整数线性规划问题，即目标函数为使整个网络的贝叶斯网络分数最高，约束条件为每个节点只能选择一个父集，且所选父集构成的网络不能存在环，通过将构建贝叶斯网络转换成整数线性规划问题，能够避免陷入局部最优，进而得到全局最优的网络结构。

9.如权利要求1所述的一种整数线性规划优化贝叶斯网络的上位性位点挖掘方法，其特征在于：在所述S4步骤中，所述割平面法是将不满足约束条件的解，转换为约束条件加入到原问题的约束条件中，直到找到满足条件的解为止。

10.如权利要求1所述的一种整数线性规划优化贝叶斯网络的上位性位点挖掘方法，其特征在于：在所述S4步骤中，所述分支定界方法是将非整数解分为向上取整和向下取整两个分支，并将其分别加入到约束条件中构成两个子问题，然后分别进行求解。不断重复此过程，直到找到整数解为止。