CN102855398A - 基于多源信息融合的疾病潜在关联基因的获取方法 - Google Patents

基于多源信息融合的疾病潜在关联基因的获取方法 Download PDF

Info

Publication number
CN102855398A
CN102855398A CN2012103093757A CN201210309375A CN102855398A CN 102855398 A CN102855398 A CN 102855398A CN 2012103093757 A CN2012103093757 A CN 2012103093757A CN 201210309375 A CN201210309375 A CN 201210309375A CN 102855398 A CN102855398 A CN 102855398A
Authority
CN
China
Prior art keywords
gene
disease
associated gene
association
phenotype
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012103093757A
Other languages
English (en)
Other versions
CN102855398B (zh
Inventor
高一波
陈迪
卢朋
陈琳
刘西
代文
宋江龙
温伟娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN201210309375.7A priority Critical patent/CN102855398B/zh
Publication of CN102855398A publication Critical patent/CN102855398A/zh
Application granted granted Critical
Publication of CN102855398B publication Critical patent/CN102855398B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种基于多源信息融合的疾病潜在关联基因的获取方法,该方法包括:基于非相关文献知识发现的疾病关联基因预测步骤、基于功能相似性的疾病关联基因预测步骤以及基于回归预测模型的疾病关联基因预测步骤;以及对所述基于非相关文献知识发现的疾病关联基因预测步骤、基于功能相似性的疾病关联基因预测步骤以及基于回归预测模型的疾病关联基因预测步骤所获得的关联基因分别进行打分,建立对关联基因的初步分析,然后对各步骤的结果进行融合,得到最终的判决结果,确定疾病的潜在关联基因。

Description

基于多源信息融合的疾病潜在关联基因的获取方法
技术领域
本发明涉及生物信息学领域,特别涉及利用计算机技术预测疾病潜在关联基因领域。
背景技术
目前,随着生物技术、计算机技术及高通量技术的发展,各个领域积累了疾病相关的大量文献和数据,面对这些数据,需要采用有效方法从这些数据中找到最有意义的部分,预测疾病相关的基因,从而用于帮助疾病的治疗。深入挖掘复杂疾病的关联基因成为一项在疾病相关研究中的重要挑战,对于临床诊治具有重要的指导意义,而且大量已有研究表明如果能深入挖掘疾病关联基因潜在的知识,对于揭示疾病发病机理和生物学基础,对于促进诊断和防治疾病的手段,都将产生十分重要的理论和现实意义。
有关疾病关联基因的预测方法多种多样,本发明所涉及的主要有以下三个方面内容:一是生物网络技术。复杂疾病一般是由多个遗传基因及环境因素共同交互作用而发生发展的,并且生物实体之间(如表型与基因型)没有简单对应关系,而是由多基因、多因素等共同作用的结果。因此,生物网络作为这种复杂关系的有效表达方式,越来越受到领域重视。目前,国内外均已开展了大量针对生物网络数据的研究工作,尽管生物网络在生物信息挖掘中具有重要的作用,但是生物网络没有方向性,没有语义性,在信息获取和信息挖掘中有着一定的制约。如何建立对于复杂疾病研究更有效的生物网络还需要进一步的努力。二是关联基因预测。近年来关于基因功能、基因和疾病关系的生物医学文献大量涌现,为了能够充分利用已有的研究成果,节省人力物力,需要将文献、文本中的生物学知识抽取出来提供给研究人员,帮助他们预测基因或疾病,加快相关研究的进展。这方面的研究最早追溯到1986年,芝加哥大学教授Swanson曾提出“基于非相关文献发现”的方法,具体思想被描述为典型的形式是ABC模式。Seki等人采用Swanson的ABC模式,构建了疾病-基因网络,逐层计算传递概率,从而评价基因与目标疾病的相关性,将相关性高的未知相关基因识别为潜在的与目标疾病相关的基因。Lina等人提出一种基于联合网络拓扑特征的挖掘算法来预测潜在的与目标疾病相关的基因,定义了四种网络拓扑特征来描述基因网络,结合这些拓扑特征通过训练支持向量机来甄选潜在的相关基因。吴雪兵等人则假设功能上相似的基因可能引起表型上相似的疾病,对基因和疾病表型间的关系直接建模,利用得到的模型结果预测与症状相关的新致病基因或发现基因间的协作关系。赵研等人基于基因功能一致性和其在蛋白质互作网络中的拓扑属性对疾病与基因进行关联,预测出了51个新的疾病致病基因。三是多源信息融合方法。基因组数据量庞大,疾病基因之间的关系复杂,不同的预测方法实现的结果并非完全相同,每个方法相应的结果都有一定的意义,为了更好地对关联基因进行预测,不仅需要更好的疾病潜在基因获取的方法,更应该关心如何融合不同的有效方法来更精确地预测疾病潜在关联基因。D-S证据理论是由Dempster于1986年提出,并由他的学生Sharer于1971年改进使之符合有限离散领域中的推理形式。它是一种决策理论,不但能够处理由于知识的不准确引起的不确定信息,而且能够处理由于不知道引起的不确定信息,它能满足比贝叶斯理论更弱的公理系统,当概率值已知时,证据理论就变成了贝叶斯理论。该理论引入信任函数、似然函数及类概率函数等来分别描述命题的精确信任度、不可驳斥的信任度及估计信任度,从而使D-S理论不仅能从不同角度刻画命题的不确定性,还能处理由于“不知道”而引起的不确定性,即它既能将未知事件明白的表示出来,也能描述事件及其补,使其主观概率之和为1,因而克服了纯概率论模型“不知道”处理的不合理性。
发明内容
(一)要解决的技术问题
本发明的目的在于提出一种基于多源信息融合的疾病潜在关联基因的获取方法,融合基于非相关文献知识发现算法的疾病关联基因预测方法、基于基因功能相似度算法的疾病关联基因预测方法和基于回归预测模型算法的疾病关联基因预测方法,从全局上预测潜在的关联基因,为疾病关联基因获取提供最佳结果。
(二)技术方案
为了解决上述技术问题,本发明提供了一种基于多源信息融合的疾病潜在关联基因获取方法,该方法包括:
步骤1:基于非相关文献知识发现算法的疾病关联基因预测步骤,获取第一关联基因集合;
步骤2:基于功能相似性算法的疾病关联基因预测步骤,获取第二关联基因集合;
步骤3:基于回归预测模型算法的疾病关联基因预测步骤,获取第三关联基因集合;
步骤4:根据第一、第二和第三关联基因集合及相应方法下对基因的打分,对骤1、2和3的结果进行基于D-S证据理论的融合,即根据三种方法下的打分结果对三个关联基因集合中的所有基因重新进行打分,得到最终的判决结果,取排名靠前的作为疾病的潜在关联基因。
所述步骤1包括以下步骤:
步骤11:构建疾病的生物网络;
步骤12:计算疾病同现表型与通过非相关文献关联的基因的相关度;
步骤13:计算疾病与关联基因的相关度,并对得到的基因进行排序,得到以非相关文献关联为依据的疾病潜在的关联基因。
所述步骤2包括以下步骤:
步骤21:利用在所述步骤1中得到的疾病同现的基因,计算同现基因与非同现基因之间功能相似度,利用基因功能相似度的结果,确定每个疾病同现基因的10个相似基因,扩展生物网络;
步骤22:利用相似度计算排序前10的基因作为疾病同现基因的相似基因,计算疾病与相似基因的关联度,并对得到的基因进行排序,得到以功能相似为依据的疾病潜在的关联基因。
所述步骤3包括以下步骤:
步骤31:从OMIM数据库中获取疾病关联基因,获得与疾病相关的已知疾病基因,构成已知关联基因;从OMIM数据库得到表型网络,表型之间的相似度利用表型对应的医学主题词表术语间的重叠程度得到;从人类蛋白质相互作用数据库得到基因相互作用网络;
步骤32:计算基因与表型的关联度;
步骤33:根据已知疾病关联基因评估回归模型参数;
步骤34:根据回归模型预测潜在的关联基因。
所述步骤4包括以下步骤:
步骤41:利用所述步骤1、2和3获取疾病的潜在关联基因,其中分别用B表示基于步骤1得到的疾病潜在关联基因的集合,C表示基于步骤2得到的疾病潜在关联基因的集合,D表示基于步骤3得到的疾病潜在关联基因的集合,Bi,Cj,Dk分别为B,C,D的任一子集;
定义集合Θ为疾病候选关联基因的集合,E表示Θ的任一子集,Ω=2Θ,即Ω表示所有可能的E集合,Φ表示空集,m为针对潜在关联基因的基本概率分配,是从2Θ到(0,1)上的映射函数,m(E)定义为:
m ( E ) = Σ g i ∈ E P ( g i ) Σ E i ∈ Ω Σ g i ∈ E i P ( g i ) ;
并且满足:m(Φ)=0,
Figure BDA00002063123600042
P(gi)表示一个基因gi在对应于获得集合E所采用步骤1、2或3中得到的打分;
步骤42:按照m(E)的表达式计算Bi,Ci,Dk三个对应的基本概率分配m1(Bi),m2(Cj),m3(Dk);
步骤43:对上述三个基本概率分配进行融合,表达式为:
m ( A ) = m 1 ⊕ m 2 ⊕ m 3 ( A ) = 1 K Σ B i ∩ C j ∩ D k = A m 1 ( B i ) · m 2 ( C j ) · m 3 ( D k )
其中,A满足:A∈B∪C∪D,且A中仅含一个元素;即A表示一个候选疾病潜在关联基因,m1(Bi),m2(Cj),m3(Dk)分别为上述三个集合Bi,Cj,Dk的基本概率分配;K为归一化常数,表达式为:
Figure BDA00002063123600051
步骤44:计算所有满足条件的A对应的m(A),根据m(A)的值由大到小对基因排序,排序靠前的更有可能作为疾病潜在关联基因。
(三)有益效果
本发明提出的多源信息融合的疾病潜在关联基因获取方法在最高层次上对基于非相关文献知识发现算法的疾病关联基因预测方法、基于功能相似性算法的疾病关联基因预测方法以及基于回归预测模型算法的疾病关联基因预测方法进行融合处理,保留了每种算法所提供的信息,同时对潜在基因进行综合的排序,得到全局最优决策结果,为疾病关联基因获取提供最佳结果。
附图说明
图1是根据本发明的基于多源信息融合的疾病潜在关联基因的获取方法的示意图;
图2是根据本发明的基于非相关文献知识发现算法的疾病潜在关联基因预测步骤的关联关系网络构建示意图;
图3是根据本发明的基于功能相似性算法的疾病潜在关联基因预测步骤中使用基因功能相似度扩展的疾病生物网络关系构建示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明作进一步的详细说明。
图1是本发明所提供的基于多源信息融合的疾病潜在关联基因的获取方法的示意图。如图1所示,本发明提供一种基于多源信息融合的疾病潜在关联基因的获取方法,图1中从左到右依次给出了三个步骤:基于非相关文献知识发现算法的疾病关联基因预测步骤,基于功能相似性算法的疾病关联基因预测步骤,以及基于回归预测模型算法的疾病关联基因预测步骤;进而,对上述三个步骤进行了整合,对应图1所示的三个步骤下方的方框,最后得到了潜在的关联基因,对应最下方的潜在关联基因数据库,具体内容包括:
步骤1:基于非相关文献知识发现算法的疾病关联基因预测步骤;
所述步骤1主要在Swanson的非相关文献知识发现算法基础上,对疾病的表型和基因进行关联扩展,所关联扩展的基因为新发现的候选基因;分别计算预候选基因与疾病的关联性,最后对疾病相关基因进行打分,得到基因与疾病的关联性得分,得分排在前10%的基因作为第一关联基因集合。
步骤2:基于功能相似性算法的疾病关联基因预测步骤;
所述步骤2以疾病同现基因作为种子,通过计算得到种子基因的相似基因,最后计算疾病与相似基因的关联性,取关联性得分排在前10%的基因作为第二关联基因集合。
步骤3:基于回归预测模型算法的疾病关联基因预测步骤;
所述步骤3结合了文本挖掘和已有知识,使用文本挖掘方法获取生物网络,同时又使用了OMIM数据库(Online Mendelian Inheritance in Man)中疾病已知关联基因,通过这些关联关系,确定了疾病潜在关联基因的回归预测模型,对基因进行打分,得分值排在前10%的基因作为第三候选基因集合。
由于不同的预测步骤各有优缺点,本发明所提供的方法使用信息融合方法对上述三个步骤在决策级进行分析处理。对上述三个步骤所获得的三个关联基因集合,每个关联基因集合都有相应方法下的得分,然后对各步骤的结果进行基于D-S证据理论的融合,得到最终的判决结果,确定疾病的潜在关联基因。
以下对上述所涉及的各个步骤进行详细阐述。
步骤1:基于非相关文献知识发现算法的疾病潜在关联基因获取步骤。
所述步骤1包括以下步骤:
步骤11:构建疾病的生物网络;
基于文献挖掘的疾病生物网络构建如下:利用医学文献检索系统(PubMed)的网络服务(Web Services)接口批量下载符合要求的与所研究疾病相关的生物医学文献题录数据,主要利用文本挖掘技术和非相关文献知识发现技术,分析处理疾病相关的医学文献,建立疾病生物网络。不同于传统的生物网络,这里以医学文献为基础,通过生物实体识别和实体关系抽取,并根据非相关文献知识发现,确定关联表型和基因,同时得到非相关文献关联的基因。根据疾病与关联表型,关联基因之间,关联表型、基因与非相关文献关联基因之间的关联关系构建网络,如图2所示,为疾病关联基因的挖掘提供信息和知识。这部分内容主要包括生物实体识别、生物实体关系抽取和非相关文献关联。
优选地,所述步骤11包括:
步骤111:生物实体识别;把表型和基因作为生物实体,GENIA语料库和GENETAG语料库(适用于生物文本挖掘的语义注释语料库)作为训练语料,使用条件随机场方法训练相关参数,获取表型和基因的识别器。同时又针对新实体不断出现以及实体同义变体等方面,还采用了词典方法进行识别,主要以医学主题词表(Medical Subject Headings,MeSH)、基因信息数据库(Entrez Gene数据库)中相关表型和基因实体名称,合成为生物实体词典,通过最大匹配方法,对医学文献进行分析,识别出生物实体。
步骤112:生物实体关系抽取;主要是对基因生物实体之间的关系进行抽取与识别,并不确定基因之间的深层语义关系,而是采用了自然语言处理方法,使用浅层句法分析,对文献摘要进行分析,确定基因之间的传递方向。
步骤113:非相关文献关联;分别将文献中出现的表型和基因作为关键词,查询PubMed数据库获取关联文献集合,再通过生物实体识别和生物实体抽取,从关联文献集合中获取与同现实体关联的表型和基因,其中获取的基因为非相关文献关联的基因。
根据以上关联关系,计算疾病与同现表型的相关度(疾病与同现表型的条件概率)
Figure BDA00002063123600071
即所有与表型pi相关的文献中与疾病d相关的文献所占的比例;以及疾病与同现基因的相关度(疾病与同现基因的条件概率)
Figure BDA00002063123600072
即所有与基因gi相关的文献中与疾病d相关的文献所占的比例。
步骤12:计算疾病同现表型与通过非相关文献关联的基因的相关度(同现表型与关联基因的条件概率)即所有基因gg相关的文献中与表型pi相关的文献所占的比例;以及同现基因与通过非相关文献关联的基因之间的相关度(同现基因与关联基因的条件概率)
Figure BDA00002063123600081
即所有与基因gg相关的文献中与基因gi相关的文献所占的比例。
步骤13:计算疾病与关联基因的相关度,并对得到的基因进行排序,得到以非相关文献关联为依据的疾病潜在的关联基因;
对于疾病与潜在相关基因的关联性P(gg|d),其表达式为:
P ( gg | d ) = P ( d | gg ) × P ( gg ) P ( d ) ∝ P ( d | gg )
P ( d | gg ) = Σ i = 1 N g P ( d | g → i ) × P ( g → i | gg ) + N p i = 1 P ( d | p → i ) × P ( p → i | gg )
其中,Ng为疾病文献中出现基因的个数,Np为出现表型的个数;P(d|gg)为疾病与通过非相关文献关联的基因的条件概率,由于P(gg|d)正比于P(d|gg),因此只需要计算出P(d|gg),即可对疾病潜在关联基因的关联性进行打分,根据打分从大到小进行排名,取排名前10%作为该疾病的潜在关联基因,即第一关联基因集合。
步骤2:基于功能相似性算法的疾病潜在关联基因获取步骤。
使用基因功能相似度扩展的疾病生物网络如图3所示。
步骤21:利用步骤1中从文献中得到的疾病同现的基因,计算同现基因与非同现基因之间功能相似度,利用基因功能相似度的结果,确定每个疾病同现基因的10个相似基因,扩展生物网络。
基因功能相似度的计算:
针对基因的GO注释,计算两个基因的相似度,表达式为:
Sim ( G 1 , G 2 ) = Σ 1 ≤ i ≤ m Sim ( go 1 i , G 2 ) + Σ 1 ≤ j ≤ n Sim ( go 2 i , G 1 ) m + n
其中,G1,G2表示两个基因,m,n表示G1,G2注释中术语个数,且G1,G2表示为G1={go11,go12…,go1n}G2={go21,go22,…,go2n},Sim(go,GO)表示为术语与基因的相似度, Sim ( go , GO ) = max 1 ≤ i ≤ k ( S GO ( go , go i ) ) , 其中GO表示一个基因对应的所有注释条目,而go表示单一一个注释条目。
S GO ( go , go i ) = 2 × Share ( go , go i ) + Comp ( go , go i ) IC ( go ) + IC ( go i ) + Comp ( go , go i ) ,
IC(go)表示go的信息量,其表达式为:
IC ( go ) = - log ( p ( go ) ) , p ( go ) = freq ( go ) N = Σ n ∈ words ( go ) count ( n ) N
其中,p(go)表示注释条目go出现的概率,freq(go)表示注释条目go出现的次数,words(go)表示go条目对应的基因,n为words(go)中的一个元素,count(n)表示n出现的次数;
Share(go,goi)表示go,goi共享的信息量;
Comp表示Go术语语义复合度,其表达式为:
Figure BDA00002063123600092
其中,n为t1,t2间的距离;Mi在节点i与i+1为成员关系时,为i节点的下位节点的个数,否则为1。
步骤22:利用相似度计算排序前10的基因作为疾病同现基因的相似基因,计算疾病与相似基因的关联度,并对得到的基因进行排序,得到以功能相似为依据的疾病潜在的关联基因;
疾病与功能相似基因的关联度P(gg|d)计算表达式如下所示:
P ( gg | d ) = P ( d | gg ) × P ( gg ) P ( d ) ∝ P ( d | gg )
P ( d | gg ) = Σ i = 1 N g P ( d | g → i ) × P ( g → i | gg )
其中,Ng为疾病文献中出现基因的个数:
Figure BDA00002063123600095
表示同现基因与疾病的条件概率;
Figure BDA00002063123600096
表示同现基因与相似基因的条件概率。P(d|gg)为疾病与以功能相似为依据得到的基因之间条件概率,由于P(gg|d)正比于P(d|gg),因此只需要计算出P(d|gg),即可对疾病潜在关联基因的关联性进行打分,根据打分从大到小进行排名,取排名前10%作为该疾病的潜在关联基因,即第二关联基因集合。
步骤3:基于回归预测模型算法的疾病潜在关联基因获取。
步骤31:从OMIM数据库中获取疾病关联基因,获得与疾病相关的已知疾病基因,构成已知关联基因,其他基因作为候选基因;从OMIM数据库得到表型网络,表型之间的相似度通过文本挖掘方法,利用表型对应的MeSH术语间的重叠程度得到;从人类蛋白质相互作用数据库(HumanProtein Reference Database,HPRD)得到基因相互作用网络。
步骤32:计算基因与表型的关联度Φgp′
Φ gp ′ = Σ g ′ ∈ G ( p ′ ) e - d gg ′
其中g表示一个基因,p’表示一个表型,g’表示与这个表型相关的其他基因,dgg′表示两个基因间的最短路径长度,G(p)表示与表型p相关的已知的疾病关联基因。
步骤33:根据已知疾病关联基因评估回归模型参数。
回归模型为: S pp ′ = C p + Σ g ∈ G ( p ) β pg Φ gp ′
其中用Spp′为表型p与p’的关联度,Cp为常数,βpg为该回归模型的系数。
步骤34:根据回归模型预测潜在的关联基因。
根据前面得到的Φgp′,Spp′得到表型向量Sp=(Spp1,Spp2,…,Sppn),基因向量Φg=(Φgp1,Φgp2,…,Φgpn),计算表型p与基因g之间的一致性得分CSpg
CS pg = cov ( S p , Φ g ) σ ( S p ) σ ( Φ g )
其中cov和σ分别代表协方差和标准差。通过计算预候选基因与疾病表型的一致性得分,作为给候选基因的得分,根据打分从大到小进行排名,取排名前10%作为该疾病的潜在关联基因,即第三关联基因集合。
步骤4:基于多源信息融合的疾病潜在关联基因获取方法。
步骤4从最高层次上进行融合处理,属于决策级融合。根据非相关文献、基因功能相似度和回归预测模型三种方法所获取的疾病潜在关联基因获取结果,利用多源信息融合技术,进行决策级融合判决,得到全局的最优决策结果。该方法采用D-S证据理论方法,根据各个算法的结果,实现最优决策融合。具体过程如下:
步骤41:利用上述非相关文献、基因功能相似度和回归预测模型三种算法获取疾病的潜在关联基因,分别用B表示第一关联基因集合,C表示第二关联基因集合,D表示第三关联基因集合,Bi,Cj,Dk分别为B,C,D的任一子集;
定义集合Θ为疾病候选关联基因的集合,E表示Θ的任一子集,Ω=2Θ,即Ω表示所有可能的E集合,Φ表示空集,m为针对潜在关联基因的基本概率分配,是从2Θ到(0,1)上的映射函数,m(E)定义为:
m ( E ) = Σ g i ∈ E P ( g i ) Σ E i ∈ Ω Σ g i ∈ E i P ( g i )
并且满足:m(Φ)=0, Σ E ∈ Ω m ( E ) = 1 ;
其中P(gi)表示一个基因gi在对应于获得集合E所采用方法中得到的打分;
步骤42:按照m(E)的表达式计算Bi,Cj,Dk三个对应的基本概率分配m1(Bi),m2(Cj),m3(Dk);
步骤43:对上述三个基本概率分配进行融合,表达式为:
m ( A ) = m 1 ⊕ m 2 ⊕ m 3 ( A ) = 1 K Σ B i ∩ C j ∩ D k = A m 1 ( B i ) · m 2 ( C j ) · m 3 ( D k )
其中A满足:A∈B∪C∪D,且A中仅含一个元素;即A表示一个候选疾病潜在关联基因,m1(Bi),m2(Cj),m3(Dk)分别为上述三个集合Bi,Cj,Dk的基本概率分配;K为归一化常数,表达式为:
Figure BDA00002063123600114
步骤44:计算所有满足条件的A对应的m(A),根据m(A)的值由大到小对基因排序,排序靠前的更有可能作为疾病潜在关联基因。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于多源信息融合的疾病潜在关联基因的获取方法,该方法包括以下步骤:
步骤1:通过基于非相关文献知识发现算法的疾病关联基因预测步骤获取第一关联基因集合;
步骤2:通过基于功能相似性算法的疾病关联基因预测步骤获取第二关联基因集合;
步骤3:通过基于回归预测模型算法的疾病关联基因预测步骤获取第三关联基因集合;
步骤4:根据所述第一、第二和第三关联基因集合及在相应步骤下对基因的打分情况,对所述第一、第二和第三关联基因集合中的所有基因重新进行打分,得到最终的判决结果,取排名靠前的作为疾病的潜在关联基因。
2.如权利要求1所述的方法,其特征在于,所述步骤1包括以下步骤:
步骤11:构建疾病的生物网络;
步骤12:计算疾病同现表型与通过非相关文献关联的基因的相关度;
步骤13:计算疾病与关联基因的相关度,并对得到的基因进行排序,得到以非相关文献关联为依据的疾病潜在的关联基因。
3.如权利要求1所述的方法,其特征在于,所述步骤2包括以下步骤:
步骤21:利用在所述步骤1中得到的疾病同现的基因,计算同现基因与非同现基因之间功能相似度,利用基因功能相似度的结果,确定每个疾病同现基因的10个相似基因,扩展生物网络;
步骤22:利用相似度计算排序前10的基因作为疾病同现基因的相似基因,计算疾病与相似基因的关联度,并对得到的基因进行排序,得到以功能相似为依据的疾病潜在的关联基因。
4.如权利要求1所述的方法,其特征在于,所述步骤3包括以下步骤:
步骤31:从OMIM数据库中获取疾病关联基因,获得与疾病相关的已知疾病基因,构成已知关联基因;从OMIM数据库得到表型网络,表型之间的相似度利用表型对应的医学主题词表术语间的重叠程度得到;从人类蛋白质相互作用数据库中得到基因相互作用网络;
步骤32:计算基因与表型的关联度;
步骤33:根据已知疾病关联基因评估回归模型参数;
步骤34:根据回归模型预测潜在的关联基因。
5.如权利要求1所述的方法,其特征在于,所述步骤4包括以下步骤:
步骤41:利用所述步骤1、2和3获取疾病的潜在关联基因,其中分别用B表示基于步骤1得到的第一关联基因集合,C表示基于步骤2得到的第二关联基因集合,D表示基于步骤3得到的第三关联基因集合,Bi,Cj,Dk分别为B,C,D的任一子集;
定义集合Θ为基因的集合,E表示Θ的任一子集,Ω=2Θ,即Ω表示所有可能的E集合,Φ表示空集,m为针对潜在关联基因的基本概率分配,是从2Θ到(0,1)上的映射函数,m(E)定义为:
m ( E ) = Σ g i ∈ E P ( g i ) Σ E i ∈ Ω Σ g i ∈ E i P ( g i ) ;
并且满足:m(Φ)=0,
Figure FDA00002063123500022
P(gi)表示一个基因gi在对应于获得集合E所采用步骤1、2或3中得到的打分;
步骤42:按照m(E)的表达式计算Bi,Cj,Dk三个对应的基本概率分配m1(Bi),m2(Cj),m3(Dk);
步骤43:对上述三个基本概率分配进行融合,表达式为:
m ( A ) = m 1 ⊕ m 2 ⊕ m 3 ( A ) = 1 K Σ B i ∩ C j ∩ D k = A m 1 ( B i ) · m 2 ( C j ) · m 3 ( D k )
其中,A满足:A∈B∪C∪D,且A中仅含一个元素;即A表示一个候选疾病潜在关联基因,m1(Bi),m2(Cj),m3(Dk)分别为上述三个集合Bi,Cj,Dk的基本概率分配;K为归一化常数,表达式为:
Figure FDA00002063123500031
步骤44:计算所有满足条件的A对应的m(A),根据m(A)的值由大到小对基因排序,排序靠前的更有可能作为疾病潜在关联基因。
CN201210309375.7A 2012-08-28 2012-08-28 基于多源信息融合的疾病潜在关联基因的获取方法 Active CN102855398B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210309375.7A CN102855398B (zh) 2012-08-28 2012-08-28 基于多源信息融合的疾病潜在关联基因的获取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210309375.7A CN102855398B (zh) 2012-08-28 2012-08-28 基于多源信息融合的疾病潜在关联基因的获取方法

Publications (2)

Publication Number Publication Date
CN102855398A true CN102855398A (zh) 2013-01-02
CN102855398B CN102855398B (zh) 2016-03-02

Family

ID=47401981

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210309375.7A Active CN102855398B (zh) 2012-08-28 2012-08-28 基于多源信息融合的疾病潜在关联基因的获取方法

Country Status (1)

Country Link
CN (1) CN102855398B (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103246828A (zh) * 2013-02-04 2013-08-14 中国人民解放军军事医学科学院放射与辐射医学研究所 一种检测待测蛋白网络的功能的方法
CN103279666A (zh) * 2013-05-30 2013-09-04 中国科学院自动化研究所 中医证候的分子解释工具构造方法
CN104021316A (zh) * 2014-06-27 2014-09-03 中国科学院自动化研究所 基于基因空间融合的矩阵分解对老药预测新适应症的方法
CN104484844A (zh) * 2014-12-30 2015-04-01 天津迈沃医药技术有限公司 基于疾病圈数据信息的自我诊疗方法
CN105354779A (zh) * 2015-10-31 2016-02-24 大连医科大学 一种用于复杂大脑疾病靶向组合治疗分析的系统及方法
CN106295249A (zh) * 2016-08-08 2017-01-04 温州大学 基于复杂生物网络集的频繁模式挖掘基因功能的预测方法
CN106295248A (zh) * 2016-08-08 2017-01-04 温州大学 基于复杂生物网络集的频繁模式挖掘酵母菌基因共表达团的预测方法
CN106295247A (zh) * 2016-08-08 2017-01-04 温州大学 基于复杂生物网络集的频繁模式挖掘老鼠基因共表达因的预测方法
CN107506617A (zh) * 2017-09-29 2017-12-22 杭州电子科技大学 半局部社交信息miRNA‑疾病关联性预测方法
CN107506608A (zh) * 2017-09-29 2017-12-22 杭州电子科技大学 一种改进的基于协同过滤的miRNA‑疾病关联预测方法
WO2018067595A1 (en) * 2016-10-03 2018-04-12 Illuminia, Inc. Phenotype/disease specific gene ranking using curated, gene library and network based data structures
CN109411023A (zh) * 2018-09-30 2019-03-01 华中农业大学 一种基于贝叶斯网络推理的基因间交互关系挖掘方法
CN109473169A (zh) * 2018-10-18 2019-03-15 安吉康尔(深圳)科技有限公司 一种疾病诊断方法、装置及终端设备
CN109585024A (zh) * 2018-11-14 2019-04-05 金色熊猫有限公司 数据挖掘方法及装置、存储介质、电子设备
CN110349632A (zh) * 2019-06-28 2019-10-18 广州序科码生物技术有限责任公司 一种从PubMed文献筛选基因关键词的方法
CN112151191A (zh) * 2020-10-16 2020-12-29 山东管理学院 基于注意力机制的微生物与疾病关联关系预测方法及系统
CN112151130A (zh) * 2019-01-15 2020-12-29 合肥工业大学 一种基于文献检索的决策支持系统和构建方法
WO2022134252A1 (zh) * 2020-12-23 2022-06-30 深圳华大基因股份有限公司 一种基因关联程度确定方法及相关设备
CN116246701A (zh) * 2023-02-13 2023-06-09 广州金域医学检验中心有限公司 基于表型术语和变异基因的数据分析装置、介质和设备
CN117116355A (zh) * 2023-08-30 2023-11-24 中国农业科学院农业信息研究所 一种优异多效基因的挖掘方法、装置、设备及介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102559856A (zh) * 2010-12-22 2012-07-11 深圳华大基因科技有限公司 去除测序文库中的载体片段的方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102559856A (zh) * 2010-12-22 2012-07-11 深圳华大基因科技有限公司 去除测序文库中的载体片段的方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
任少敏等: "内蒙地区蒙汉族儿童过敏性紫癜HLA_A_B关联基因的探讨及测序分析", 《现代免疫学》 *
刘西等: "基于二分图评价模型的网络药物靶标预测改进方法", 《中国中药杂志》 *
左晓晗等: "基于靶标识别的心脑血管潜在致病基因预测", 《中国中药杂志》 *

Cited By (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103246828B (zh) * 2013-02-04 2016-06-22 中国人民解放军军事医学科学院放射与辐射医学研究所 一种检测待测蛋白网络的功能的方法
CN103246828A (zh) * 2013-02-04 2013-08-14 中国人民解放军军事医学科学院放射与辐射医学研究所 一种检测待测蛋白网络的功能的方法
CN103279666A (zh) * 2013-05-30 2013-09-04 中国科学院自动化研究所 中医证候的分子解释工具构造方法
CN103279666B (zh) * 2013-05-30 2016-04-13 中国科学院自动化研究所 中医证候的分子解释工具构造方法
CN104021316B (zh) * 2014-06-27 2017-04-05 中国科学院自动化研究所 基于基因空间融合的矩阵分解对老药预测新适应症的方法
CN104021316A (zh) * 2014-06-27 2014-09-03 中国科学院自动化研究所 基于基因空间融合的矩阵分解对老药预测新适应症的方法
CN104484844A (zh) * 2014-12-30 2015-04-01 天津迈沃医药技术有限公司 基于疾病圈数据信息的自我诊疗方法
CN104484844B (zh) * 2014-12-30 2018-07-13 天津迈沃医药技术股份有限公司 一种基于疾病圈数据信息的自我诊疗网站平台
CN105354779A (zh) * 2015-10-31 2016-02-24 大连医科大学 一种用于复杂大脑疾病靶向组合治疗分析的系统及方法
CN105354779B (zh) * 2015-10-31 2019-09-27 大连医科大学 一种用于复杂大脑疾病靶向组合治疗分析的系统及方法
CN106295247A (zh) * 2016-08-08 2017-01-04 温州大学 基于复杂生物网络集的频繁模式挖掘老鼠基因共表达因的预测方法
CN106295248A (zh) * 2016-08-08 2017-01-04 温州大学 基于复杂生物网络集的频繁模式挖掘酵母菌基因共表达团的预测方法
CN106295249A (zh) * 2016-08-08 2017-01-04 温州大学 基于复杂生物网络集的频繁模式挖掘基因功能的预测方法
US10810213B2 (en) 2016-10-03 2020-10-20 Illumina, Inc. Phenotype/disease specific gene ranking using curated, gene library and network based data structures
WO2018067595A1 (en) * 2016-10-03 2018-04-12 Illuminia, Inc. Phenotype/disease specific gene ranking using curated, gene library and network based data structures
AU2017338775B2 (en) * 2016-10-03 2022-08-11 Illumina, Inc. Phenotype/disease specific gene ranking using curated, gene library and network based data structures
CN107506608A (zh) * 2017-09-29 2017-12-22 杭州电子科技大学 一种改进的基于协同过滤的miRNA‑疾病关联预测方法
CN107506617A (zh) * 2017-09-29 2017-12-22 杭州电子科技大学 半局部社交信息miRNA‑疾病关联性预测方法
CN107506608B (zh) * 2017-09-29 2020-09-29 杭州电子科技大学 一种改进的基于协同过滤的miRNA-疾病关联预测方法
CN109411023A (zh) * 2018-09-30 2019-03-01 华中农业大学 一种基于贝叶斯网络推理的基因间交互关系挖掘方法
CN109411023B (zh) * 2018-09-30 2022-03-18 华中农业大学 一种基于贝叶斯网络推理的基因间交互关系挖掘方法
CN109473169A (zh) * 2018-10-18 2019-03-15 安吉康尔(深圳)科技有限公司 一种疾病诊断方法、装置及终端设备
CN109585024A (zh) * 2018-11-14 2019-04-05 金色熊猫有限公司 数据挖掘方法及装置、存储介质、电子设备
CN109585024B (zh) * 2018-11-14 2021-03-09 金色熊猫有限公司 数据挖掘方法及装置、存储介质、电子设备
CN112151130B (zh) * 2019-01-15 2022-11-04 合肥工业大学 一种基于文献检索的决策支持系统和构建方法
CN112151130A (zh) * 2019-01-15 2020-12-29 合肥工业大学 一种基于文献检索的决策支持系统和构建方法
CN112233736A (zh) * 2019-01-15 2021-01-15 合肥工业大学 一种知识库的构建方法和系统
CN110349632A (zh) * 2019-06-28 2019-10-18 广州序科码生物技术有限责任公司 一种从PubMed文献筛选基因关键词的方法
CN110349632B (zh) * 2019-06-28 2020-06-16 南方医科大学 一种从PubMed文献筛选基因关键词的方法
CN112151191A (zh) * 2020-10-16 2020-12-29 山东管理学院 基于注意力机制的微生物与疾病关联关系预测方法及系统
CN112151191B (zh) * 2020-10-16 2023-02-03 山东管理学院 基于注意力机制的微生物与疾病关联关系预测方法及系统
WO2022134252A1 (zh) * 2020-12-23 2022-06-30 深圳华大基因股份有限公司 一种基因关联程度确定方法及相关设备
CN116246701A (zh) * 2023-02-13 2023-06-09 广州金域医学检验中心有限公司 基于表型术语和变异基因的数据分析装置、介质和设备
CN116246701B (zh) * 2023-02-13 2024-03-22 广州金域医学检验中心有限公司 基于表型术语和变异基因的数据分析装置、介质和设备
CN117116355A (zh) * 2023-08-30 2023-11-24 中国农业科学院农业信息研究所 一种优异多效基因的挖掘方法、装置、设备及介质
CN117116355B (zh) * 2023-08-30 2024-02-20 中国农业科学院农业信息研究所 一种优异多效基因的挖掘方法、装置、设备及介质

Also Published As

Publication number Publication date
CN102855398B (zh) 2016-03-02

Similar Documents

Publication Publication Date Title
CN102855398B (zh) 基于多源信息融合的疾病潜在关联基因的获取方法
CN108509551B (zh) 一种基于Spark环境下的微博网络关键用户挖掘系统及方法
Yu et al. Geo-friends recommendation in gps-based cyber-physical social network
CN107506591B (zh) 一种基于多元信息融合和随机游走模型的药物重定位方法
CN104133837B (zh) 一种基于分布式计算的互联网信息投放渠道优化系统
CN103235974B (zh) 一种提高海量空间数据处理效率的方法
Giannetti et al. Five sector sustainability model: A proposal for assessing sustainability of production systems
CN104572583B (zh) 用于数据致密化的方法和系统
CN105138665B (zh) 一种基于改进lda模型的互联网话题在线挖掘方法
Zhang et al. A novelty-seeking based dining recommender system
CN110459264A (zh) 基于梯度增强决策树预测环状rna与疾病相关性的方法
CN108198621A (zh) 一种基于神经网络的数据库数据综合诊疗决策方法
Lee et al. High-resolution poverty maps in sub-saharan africa
CN106485096B (zh) 基于双向随机游走和多标签学习的miRNA-环境因子关系预测方法
Kang et al. LR-GNN: A graph neural network based on link representation for predicting molecular associations
CN110990718A (zh) 一种公司形象提升系统的社会网络模型构建模块
CN108206056A (zh) 一种鼻咽癌人工智能辅助诊疗决策终端
Fang et al. URPI-GRU: An approach of next POI recommendation based on user relationship and preference information
Folino et al. A recommendation engine for disease prediction
Lin et al. How does urban heat island differ across urban functional zones? Insights from 2D/3D urban morphology using geospatial big data
CN110096651A (zh) 基于在线社交媒体个人中心网络的可视化分析方法
CN108320797A (zh) 一种鼻咽癌数据库及基于所述数据库的综合诊疗决策方法
CN106779181A (zh) 一种基于线性回归因子非负矩阵分解模型的医疗机构推荐方法
Lin et al. Construction of disease risk scoring systems using logistic group lasso: application to porcine reproductive and respiratory syndrome survey data
CN103077404B (zh) 基于马尔科夫随机场的局部增量式可视化聚类方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant