CN102855398A

CN102855398A - 基于多源信息融合的疾病潜在关联基因的获取方法

Info

Publication number: CN102855398A
Application number: CN2012103093757A
Authority: CN
Inventors: 高一波; 陈迪; 卢朋; 陈琳; 刘西; 代文; 宋江龙; 温伟娜
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2012-08-28
Filing date: 2012-08-28
Publication date: 2013-01-02
Anticipated expiration: 2032-08-28
Also published as: CN102855398B

Abstract

本发明公开了一种基于多源信息融合的疾病潜在关联基因的获取方法，该方法包括：基于非相关文献知识发现的疾病关联基因预测步骤、基于功能相似性的疾病关联基因预测步骤以及基于回归预测模型的疾病关联基因预测步骤；以及对所述基于非相关文献知识发现的疾病关联基因预测步骤、基于功能相似性的疾病关联基因预测步骤以及基于回归预测模型的疾病关联基因预测步骤所获得的关联基因分别进行打分，建立对关联基因的初步分析，然后对各步骤的结果进行融合，得到最终的判决结果，确定疾病的潜在关联基因。

Description

基于多源信息融合的疾病潜在关联基因的获取方法

技术领域

本发明涉及生物信息学领域，特别涉及利用计算机技术预测疾病潜在关联基因领域。

背景技术

目前，随着生物技术、计算机技术及高通量技术的发展，各个领域积累了疾病相关的大量文献和数据，面对这些数据，需要采用有效方法从这些数据中找到最有意义的部分，预测疾病相关的基因，从而用于帮助疾病的治疗。深入挖掘复杂疾病的关联基因成为一项在疾病相关研究中的重要挑战，对于临床诊治具有重要的指导意义，而且大量已有研究表明如果能深入挖掘疾病关联基因潜在的知识，对于揭示疾病发病机理和生物学基础，对于促进诊断和防治疾病的手段，都将产生十分重要的理论和现实意义。

有关疾病关联基因的预测方法多种多样，本发明所涉及的主要有以下三个方面内容：一是生物网络技术。复杂疾病一般是由多个遗传基因及环境因素共同交互作用而发生发展的，并且生物实体之间(如表型与基因型)没有简单对应关系，而是由多基因、多因素等共同作用的结果。因此，生物网络作为这种复杂关系的有效表达方式，越来越受到领域重视。目前，国内外均已开展了大量针对生物网络数据的研究工作，尽管生物网络在生物信息挖掘中具有重要的作用，但是生物网络没有方向性，没有语义性，在信息获取和信息挖掘中有着一定的制约。如何建立对于复杂疾病研究更有效的生物网络还需要进一步的努力。二是关联基因预测。近年来关于基因功能、基因和疾病关系的生物医学文献大量涌现，为了能够充分利用已有的研究成果，节省人力物力，需要将文献、文本中的生物学知识抽取出来提供给研究人员，帮助他们预测基因或疾病，加快相关研究的进展。这方面的研究最早追溯到1986年，芝加哥大学教授Swanson曾提出“基于非相关文献发现”的方法，具体思想被描述为典型的形式是ABC模式。Seki等人采用Swanson的ABC模式，构建了疾病-基因网络，逐层计算传递概率，从而评价基因与目标疾病的相关性，将相关性高的未知相关基因识别为潜在的与目标疾病相关的基因。Lina等人提出一种基于联合网络拓扑特征的挖掘算法来预测潜在的与目标疾病相关的基因，定义了四种网络拓扑特征来描述基因网络，结合这些拓扑特征通过训练支持向量机来甄选潜在的相关基因。吴雪兵等人则假设功能上相似的基因可能引起表型上相似的疾病，对基因和疾病表型间的关系直接建模，利用得到的模型结果预测与症状相关的新致病基因或发现基因间的协作关系。赵研等人基于基因功能一致性和其在蛋白质互作网络中的拓扑属性对疾病与基因进行关联，预测出了51个新的疾病致病基因。三是多源信息融合方法。基因组数据量庞大，疾病基因之间的关系复杂，不同的预测方法实现的结果并非完全相同，每个方法相应的结果都有一定的意义，为了更好地对关联基因进行预测，不仅需要更好的疾病潜在基因获取的方法，更应该关心如何融合不同的有效方法来更精确地预测疾病潜在关联基因。D-S证据理论是由Dempster于1986年提出，并由他的学生Sharer于1971年改进使之符合有限离散领域中的推理形式。它是一种决策理论，不但能够处理由于知识的不准确引起的不确定信息，而且能够处理由于不知道引起的不确定信息，它能满足比贝叶斯理论更弱的公理系统，当概率值已知时，证据理论就变成了贝叶斯理论。该理论引入信任函数、似然函数及类概率函数等来分别描述命题的精确信任度、不可驳斥的信任度及估计信任度，从而使D-S理论不仅能从不同角度刻画命题的不确定性，还能处理由于“不知道”而引起的不确定性，即它既能将未知事件明白的表示出来，也能描述事件及其补，使其主观概率之和为1，因而克服了纯概率论模型“不知道”处理的不合理性。

发明内容

(一)要解决的技术问题

本发明的目的在于提出一种基于多源信息融合的疾病潜在关联基因的获取方法，融合基于非相关文献知识发现算法的疾病关联基因预测方法、基于基因功能相似度算法的疾病关联基因预测方法和基于回归预测模型算法的疾病关联基因预测方法，从全局上预测潜在的关联基因，为疾病关联基因获取提供最佳结果。

(二)技术方案

为了解决上述技术问题，本发明提供了一种基于多源信息融合的疾病潜在关联基因获取方法，该方法包括：

步骤1：基于非相关文献知识发现算法的疾病关联基因预测步骤，获取第一关联基因集合；

步骤2：基于功能相似性算法的疾病关联基因预测步骤，获取第二关联基因集合；

步骤3：基于回归预测模型算法的疾病关联基因预测步骤，获取第三关联基因集合；

步骤4：根据第一、第二和第三关联基因集合及相应方法下对基因的打分，对骤1、2和3的结果进行基于D-S证据理论的融合，即根据三种方法下的打分结果对三个关联基因集合中的所有基因重新进行打分，得到最终的判决结果，取排名靠前的作为疾病的潜在关联基因。

所述步骤1包括以下步骤：

步骤11：构建疾病的生物网络；

步骤12：计算疾病同现表型与通过非相关文献关联的基因的相关度；

步骤13：计算疾病与关联基因的相关度，并对得到的基因进行排序，得到以非相关文献关联为依据的疾病潜在的关联基因。

所述步骤2包括以下步骤：

步骤21：利用在所述步骤1中得到的疾病同现的基因，计算同现基因与非同现基因之间功能相似度，利用基因功能相似度的结果，确定每个疾病同现基因的10个相似基因，扩展生物网络；

步骤22：利用相似度计算排序前10的基因作为疾病同现基因的相似基因，计算疾病与相似基因的关联度，并对得到的基因进行排序，得到以功能相似为依据的疾病潜在的关联基因。

所述步骤3包括以下步骤：

步骤31：从OMIM数据库中获取疾病关联基因，获得与疾病相关的已知疾病基因，构成已知关联基因；从OMIM数据库得到表型网络，表型之间的相似度利用表型对应的医学主题词表术语间的重叠程度得到；从人类蛋白质相互作用数据库得到基因相互作用网络；

步骤32：计算基因与表型的关联度；

步骤33：根据已知疾病关联基因评估回归模型参数；

步骤34：根据回归模型预测潜在的关联基因。

所述步骤4包括以下步骤：

步骤41：利用所述步骤1、2和3获取疾病的潜在关联基因，其中分别用B表示基于步骤1得到的疾病潜在关联基因的集合，C表示基于步骤2得到的疾病潜在关联基因的集合，D表示基于步骤3得到的疾病潜在关联基因的集合，B_i，C_j，D_k分别为B，C，D的任一子集；

定义集合Θ为疾病候选关联基因的集合，E表示Θ的任一子集，Ω＝2^Θ，即Ω表示所有可能的E集合，Φ表示空集，m为针对潜在关联基因的基本概率分配，是从2^Θ到(0，1)上的映射函数，m(E)定义为：

m (E) = \frac{\underset{g_{i} &Element; E}{Σ} P (g_{i})}{\underset{E_{i} &Element; Ω}{Σ} \underset{g_{i} &Element; E_{i}}{Σ} P (g_{i})};

并且满足：m(Φ)＝0，

P(g_i)表示一个基因g_i在对应于获得集合E所采用步骤1、2或3中得到的打分；

步骤42：按照m(E)的表达式计算B_i，C_i，D_k三个对应的基本概率分配m₁(B_i)，m₂(C_j)，m₃(D_k)；

步骤43：对上述三个基本概率分配进行融合，表达式为：

m (A) = m_{1} &CirclePlus; m_{2} &CirclePlus; m_{3} (A) = \frac{1}{K} \underset{B_{i} \cap C_{j} \cap D_{k} = A}{Σ} m_{1} (B_{i}) \cdot m_{2} (C_{j}) \cdot m_{3} (D_{k})

其中，A满足：A∈B∪C∪D，且A中仅含一个元素；即A表示一个候选疾病潜在关联基因，m₁(B_i)，m₂(C_j)，m₃(D_k)分别为上述三个集合B_i，C_j，D_k的基本概率分配；K为归一化常数，表达式为：

步骤44：计算所有满足条件的A对应的m(A)，根据m(A)的值由大到小对基因排序，排序靠前的更有可能作为疾病潜在关联基因。

(三)有益效果

本发明提出的多源信息融合的疾病潜在关联基因获取方法在最高层次上对基于非相关文献知识发现算法的疾病关联基因预测方法、基于功能相似性算法的疾病关联基因预测方法以及基于回归预测模型算法的疾病关联基因预测方法进行融合处理，保留了每种算法所提供的信息，同时对潜在基因进行综合的排序，得到全局最优决策结果，为疾病关联基因获取提供最佳结果。

附图说明

图1是根据本发明的基于多源信息融合的疾病潜在关联基因的获取方法的示意图；

图2是根据本发明的基于非相关文献知识发现算法的疾病潜在关联基因预测步骤的关联关系网络构建示意图；

图3是根据本发明的基于功能相似性算法的疾病潜在关联基因预测步骤中使用基因功能相似度扩展的疾病生物网络关系构建示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。

图1是本发明所提供的基于多源信息融合的疾病潜在关联基因的获取方法的示意图。如图1所示，本发明提供一种基于多源信息融合的疾病潜在关联基因的获取方法，图1中从左到右依次给出了三个步骤：基于非相关文献知识发现算法的疾病关联基因预测步骤，基于功能相似性算法的疾病关联基因预测步骤，以及基于回归预测模型算法的疾病关联基因预测步骤；进而，对上述三个步骤进行了整合，对应图1所示的三个步骤下方的方框，最后得到了潜在的关联基因，对应最下方的潜在关联基因数据库，具体内容包括：

步骤1：基于非相关文献知识发现算法的疾病关联基因预测步骤；

所述步骤1主要在Swanson的非相关文献知识发现算法基础上，对疾病的表型和基因进行关联扩展，所关联扩展的基因为新发现的候选基因；分别计算预候选基因与疾病的关联性，最后对疾病相关基因进行打分，得到基因与疾病的关联性得分，得分排在前10％的基因作为第一关联基因集合。

步骤2：基于功能相似性算法的疾病关联基因预测步骤；

所述步骤2以疾病同现基因作为种子，通过计算得到种子基因的相似基因，最后计算疾病与相似基因的关联性，取关联性得分排在前10％的基因作为第二关联基因集合。

步骤3：基于回归预测模型算法的疾病关联基因预测步骤；

所述步骤3结合了文本挖掘和已有知识，使用文本挖掘方法获取生物网络，同时又使用了OMIM数据库(Online Mendelian Inheritance in Man)中疾病已知关联基因，通过这些关联关系，确定了疾病潜在关联基因的回归预测模型，对基因进行打分，得分值排在前10％的基因作为第三候选基因集合。

由于不同的预测步骤各有优缺点，本发明所提供的方法使用信息融合方法对上述三个步骤在决策级进行分析处理。对上述三个步骤所获得的三个关联基因集合，每个关联基因集合都有相应方法下的得分，然后对各步骤的结果进行基于D-S证据理论的融合，得到最终的判决结果，确定疾病的潜在关联基因。

以下对上述所涉及的各个步骤进行详细阐述。

步骤1：基于非相关文献知识发现算法的疾病潜在关联基因获取步骤。

所述步骤1包括以下步骤：

步骤11：构建疾病的生物网络；

基于文献挖掘的疾病生物网络构建如下：利用医学文献检索系统(PubMed)的网络服务(Web Services)接口批量下载符合要求的与所研究疾病相关的生物医学文献题录数据，主要利用文本挖掘技术和非相关文献知识发现技术，分析处理疾病相关的医学文献，建立疾病生物网络。不同于传统的生物网络，这里以医学文献为基础，通过生物实体识别和实体关系抽取，并根据非相关文献知识发现，确定关联表型和基因，同时得到非相关文献关联的基因。根据疾病与关联表型，关联基因之间，关联表型、基因与非相关文献关联基因之间的关联关系构建网络，如图2所示，为疾病关联基因的挖掘提供信息和知识。这部分内容主要包括生物实体识别、生物实体关系抽取和非相关文献关联。

优选地，所述步骤11包括：

步骤111：生物实体识别；把表型和基因作为生物实体，GENIA语料库和GENETAG语料库(适用于生物文本挖掘的语义注释语料库)作为训练语料，使用条件随机场方法训练相关参数，获取表型和基因的识别器。同时又针对新实体不断出现以及实体同义变体等方面，还采用了词典方法进行识别，主要以医学主题词表(Medical Subject Headings，MeSH)、基因信息数据库(Entrez Gene数据库)中相关表型和基因实体名称，合成为生物实体词典，通过最大匹配方法，对医学文献进行分析，识别出生物实体。

步骤112：生物实体关系抽取；主要是对基因生物实体之间的关系进行抽取与识别，并不确定基因之间的深层语义关系，而是采用了自然语言处理方法，使用浅层句法分析，对文献摘要进行分析，确定基因之间的传递方向。

步骤113：非相关文献关联；分别将文献中出现的表型和基因作为关键词，查询PubMed数据库获取关联文献集合，再通过生物实体识别和生物实体抽取，从关联文献集合中获取与同现实体关联的表型和基因，其中获取的基因为非相关文献关联的基因。

根据以上关联关系，计算疾病与同现表型的相关度(疾病与同现表型的条件概率)

即所有与表型p_i相关的文献中与疾病d相关的文献所占的比例；以及疾病与同现基因的相关度(疾病与同现基因的条件概率)

即所有与基因g_i相关的文献中与疾病d相关的文献所占的比例。

步骤12：计算疾病同现表型与通过非相关文献关联的基因的相关度(同现表型与关联基因的条件概率)即所有基因gg相关的文献中与表型p_i相关的文献所占的比例；以及同现基因与通过非相关文献关联的基因之间的相关度(同现基因与关联基因的条件概率)

即所有与基因gg相关的文献中与基因g_i相关的文献所占的比例。

步骤13：计算疾病与关联基因的相关度，并对得到的基因进行排序，得到以非相关文献关联为依据的疾病潜在的关联基因；

对于疾病与潜在相关基因的关联性P(gg|d)，其表达式为：

P (gg | d) = \frac{P (d | gg) \times P (gg)}{P (d)} &Proportional; P (d | gg)

P (d | gg) = Σ_{i = 1}^{N_{g}} P (d | {\overset{&RightArrow;}{g}}_{i}) \times P ({\overset{&RightArrow;}{g}}_{i} | gg) + \frac{N_{p}}{i = 1} P (d | {\overset{&RightArrow;}{p}}_{i}) \times P ({\overset{&RightArrow;}{p}}_{i} | gg)

其中，N_g为疾病文献中出现基因的个数，N_p为出现表型的个数；P(d|gg)为疾病与通过非相关文献关联的基因的条件概率，由于P(gg|d)正比于P(d|gg)，因此只需要计算出P(d|gg)，即可对疾病潜在关联基因的关联性进行打分，根据打分从大到小进行排名，取排名前10％作为该疾病的潜在关联基因，即第一关联基因集合。

步骤2：基于功能相似性算法的疾病潜在关联基因获取步骤。

使用基因功能相似度扩展的疾病生物网络如图3所示。

步骤21：利用步骤1中从文献中得到的疾病同现的基因，计算同现基因与非同现基因之间功能相似度，利用基因功能相似度的结果，确定每个疾病同现基因的10个相似基因，扩展生物网络。

基因功能相似度的计算：

针对基因的GO注释，计算两个基因的相似度，表达式为：

Sim (G_{1}, G_{2}) = \frac{Σ_{1 \leq i \leq m} Sim ({go}_{1 i}, G_{2}) + Σ_{1 \leq j \leq n} Sim ({go}_{2 i}, G_{1})}{m + n}

其中，G₁，G₂表示两个基因，m，n表示G₁，G₂注释中术语个数，且G₁，G₂表示为G₁＝{go₁₁，go₁₂…，go_1n}G₂＝{go₂₁，go₂₂，…，go_2n}，Sim(go，GO)表示为术语与基因的相似度，

Sim (go, GO) = \max_{1 \leq i \leq k} (S_{GO} (go, {go}_{i})),

其中GO表示一个基因对应的所有注释条目，而go表示单一一个注释条目。

S_{GO} (go, {go}_{i}) = \frac{2 \times Share (go, {go}_{i}) + Comp (go, {go}_{i})}{IC (go) + IC ({go}_{i}) + Comp (go, {go}_{i})},

IC(go)表示go的信息量，其表达式为：

IC (go) = - \log (p (go)), p (go) = \frac{freq (go)}{N} = \frac{\underset{n &Element; words (go)}{Σ} count (n)}{N}

其中，p(go)表示注释条目go出现的概率，freq(go)表示注释条目go出现的次数，words(go)表示go条目对应的基因，n为words(go)中的一个元素，count(n)表示n出现的次数；

Share(go，go_i)表示go，go_i共享的信息量；

Comp表示Go术语语义复合度，其表达式为：

其中，n为t₁，t₂间的距离；M_i在节点i与i+1为成员关系时，为i节点的下位节点的个数，否则为1。

步骤22：利用相似度计算排序前10的基因作为疾病同现基因的相似基因，计算疾病与相似基因的关联度，并对得到的基因进行排序，得到以功能相似为依据的疾病潜在的关联基因；

疾病与功能相似基因的关联度P(gg|d)计算表达式如下所示：

P (gg | d) = \frac{P (d | gg) \times P (gg)}{P (d)} &Proportional; P (d | gg)

P (d | gg) = Σ_{i = 1}^{N_{g}} P (d | {\overset{&RightArrow;}{g}}_{i}) \times P ({\overset{&RightArrow;}{g}}_{i} | gg)

其中，N_g为疾病文献中出现基因的个数：

表示同现基因与疾病的条件概率；

表示同现基因与相似基因的条件概率。P(d|gg)为疾病与以功能相似为依据得到的基因之间条件概率，由于P(gg|d)正比于P(d|gg)，因此只需要计算出P(d|gg)，即可对疾病潜在关联基因的关联性进行打分，根据打分从大到小进行排名，取排名前10％作为该疾病的潜在关联基因，即第二关联基因集合。

步骤3：基于回归预测模型算法的疾病潜在关联基因获取。

步骤31：从OMIM数据库中获取疾病关联基因，获得与疾病相关的已知疾病基因，构成已知关联基因，其他基因作为候选基因；从OMIM数据库得到表型网络，表型之间的相似度通过文本挖掘方法，利用表型对应的MeSH术语间的重叠程度得到；从人类蛋白质相互作用数据库(HumanProtein Reference Database，HPRD)得到基因相互作用网络。

步骤32：计算基因与表型的关联度Φ_gp′

Φ_{{gp}^{'}} = \underset{g^{'} &Element; G (p^{'})}{Σ} e^{{- d}_{{gg}^{'}}}

其中g表示一个基因，p’表示一个表型，g’表示与这个表型相关的其他基因，d_gg′表示两个基因间的最短路径长度，G(p)表示与表型p相关的已知的疾病关联基因。

步骤33：根据已知疾病关联基因评估回归模型参数。

回归模型为：

S_{{pp}^{'}} = C_{p} + \underset{g &Element; G (p)}{Σ} β_{pg} Φ_{{gp}^{'}}

其中用S_pp′为表型p与p’的关联度，C_p为常数，β_pg为该回归模型的系数。

步骤34：根据回归模型预测潜在的关联基因。

根据前面得到的Φ_gp′，S_pp′得到表型向量S_p＝(S_pp1，S_pp2，…，S_ppn)，基因向量Φ_g＝(Φ_gp1，Φ_gp2，…，Φ_gpn)，计算表型p与基因g之间的一致性得分CS_pg，

{CS}_{pg} = \frac{cov (S_{p}, Φ_{g})}{σ (S_{p}) σ (Φ_{g})}

其中cov和σ分别代表协方差和标准差。通过计算预候选基因与疾病表型的一致性得分，作为给候选基因的得分，根据打分从大到小进行排名，取排名前10％作为该疾病的潜在关联基因，即第三关联基因集合。

步骤4：基于多源信息融合的疾病潜在关联基因获取方法。

步骤4从最高层次上进行融合处理，属于决策级融合。根据非相关文献、基因功能相似度和回归预测模型三种方法所获取的疾病潜在关联基因获取结果，利用多源信息融合技术，进行决策级融合判决，得到全局的最优决策结果。该方法采用D-S证据理论方法，根据各个算法的结果，实现最优决策融合。具体过程如下：

步骤41：利用上述非相关文献、基因功能相似度和回归预测模型三种算法获取疾病的潜在关联基因，分别用B表示第一关联基因集合，C表示第二关联基因集合，D表示第三关联基因集合，B_i，C_j，D_k分别为B，C，D的任一子集；

m (E) = \frac{\underset{g_{i} &Element; E}{Σ} P (g_{i})}{\underset{E_{i} &Element; Ω}{Σ} \underset{g_{i} &Element; E_{i}}{Σ} P (g_{i})}

并且满足：m(Φ)＝0，

\underset{E &Element; Ω}{Σ} m (E) = 1;

其中P(g_i)表示一个基因g_i在对应于获得集合E所采用方法中得到的打分；

步骤42：按照m(E)的表达式计算B_i，C_j，D_k三个对应的基本概率分配m₁(B_i)，m₂(C_j)，m₃(D_k)；

步骤43：对上述三个基本概率分配进行融合，表达式为：

m (A) = m_{1} &CirclePlus; m_{2} &CirclePlus; m_{3} (A) = \frac{1}{K} \underset{B_{i} \cap C_{j} \cap D_{k} = A}{Σ} m_{1} (B_{i}) \cdot m_{2} (C_{j}) \cdot m_{3} (D_{k})

其中A满足：A∈B∪C∪D，且A中仅含一个元素；即A表示一个候选疾病潜在关联基因，m₁(B_i)，m₂(C_j)，m₃(D_k)分别为上述三个集合B_i，C_j，D_k的基本概率分配；K为归一化常数，表达式为：

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多源信息融合的疾病潜在关联基因的获取方法，该方法包括以下步骤：

步骤1：通过基于非相关文献知识发现算法的疾病关联基因预测步骤获取第一关联基因集合；

步骤2：通过基于功能相似性算法的疾病关联基因预测步骤获取第二关联基因集合；

步骤3：通过基于回归预测模型算法的疾病关联基因预测步骤获取第三关联基因集合；

步骤4：根据所述第一、第二和第三关联基因集合及在相应步骤下对基因的打分情况，对所述第一、第二和第三关联基因集合中的所有基因重新进行打分，得到最终的判决结果，取排名靠前的作为疾病的潜在关联基因。

2.如权利要求1所述的方法，其特征在于，所述步骤1包括以下步骤：

步骤11：构建疾病的生物网络；

3.如权利要求1所述的方法，其特征在于，所述步骤2包括以下步骤：

4.如权利要求1所述的方法，其特征在于，所述步骤3包括以下步骤：

步骤31：从OMIM数据库中获取疾病关联基因，获得与疾病相关的已知疾病基因，构成已知关联基因；从OMIM数据库得到表型网络，表型之间的相似度利用表型对应的医学主题词表术语间的重叠程度得到；从人类蛋白质相互作用数据库中得到基因相互作用网络；

步骤32：计算基因与表型的关联度；

步骤33：根据已知疾病关联基因评估回归模型参数；

步骤34：根据回归模型预测潜在的关联基因。

5.如权利要求1所述的方法，其特征在于，所述步骤4包括以下步骤：

步骤41：利用所述步骤1、2和3获取疾病的潜在关联基因，其中分别用B表示基于步骤1得到的第一关联基因集合，C表示基于步骤2得到的第二关联基因集合，D表示基于步骤3得到的第三关联基因集合，B_i，C_j，D_k分别为B，C，D的任一子集；

定义集合Θ为基因的集合，E表示Θ的任一子集，Ω＝2^Θ，即Ω表示所有可能的E集合，Φ表示空集，m为针对潜在关联基因的基本概率分配，是从2^Θ到(0，1)上的映射函数，m(E)定义为：

m (E) = \frac{\underset{g_{i} &Element; E}{Σ} P (g_{i})}{\underset{E_{i} &Element; Ω}{Σ} \underset{g_{i} &Element; E_{i}}{Σ} P (g_{i})};

并且满足：m(Φ)＝0，

步骤43：对上述三个基本概率分配进行融合，表达式为：

m (A) = m_{1} &CirclePlus; m_{2} &CirclePlus; m_{3} (A) = \frac{1}{K} \underset{B_{i} \cap C_{j} \cap D_{k} = A}{Σ} m_{1} (B_{i}) \cdot m_{2} (C_{j}) \cdot m_{3} (D_{k})