CN110010196A - 一种基于异质网的基因相似性搜索算法 - Google Patents

一种基于异质网的基因相似性搜索算法 Download PDF

Info

Publication number
CN110010196A
CN110010196A CN201910206801.6A CN201910206801A CN110010196A CN 110010196 A CN110010196 A CN 110010196A CN 201910206801 A CN201910206801 A CN 201910206801A CN 110010196 A CN110010196 A CN 110010196A
Authority
CN
China
Prior art keywords
disease
phenotype
matrix
gene
indicate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910206801.6A
Other languages
English (en)
Other versions
CN110010196B (zh
Inventor
杜金莲
杨开敏
付利华
王丹
赵文兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201910206801.6A priority Critical patent/CN110010196B/zh
Publication of CN110010196A publication Critical patent/CN110010196A/zh
Application granted granted Critical
Publication of CN110010196B publication Critical patent/CN110010196B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于异质网的基因相似性搜索算法,获取基因‑疾病‑表型关联信息、疾病本体信息、表型本体信息,建立基因‑疾病‑表型异质网、疾病和表型本体有向无环图。首先,分别基于疾病、表型本体有向无环图,计算疾病本体和表型本体的语义相似性;其次,分别基于基因‑疾病网络和疾病‑表型网络计算疾病、表型的拓扑相似性,并将语义相似性和拓扑相似性进行融合;然后,将疾病本体的相似性网络和表型本体的相似性网络通过构建邻接矩阵的方式融入基因‑疾病‑表型异质网中,利用二部图算法分别计算基因和疾病之间的关联程度、疾病和表型之间的关联程度;通过以上步骤构建一个蕴含丰富生物信息的加权异质网,在此基础上应用PathSim算法计算基因的相似性,提高基因相似性搜索算法的准确率。

Description

一种基于异质网的基因相似性搜索算法
技术领域
本发明属于推荐算法领域,具体涉及一种基于异质网的基因相似性搜索算法。
背景技术
随着基因测序技术的发展,基因数据呈现出迅猛增长的趋势。庞大的数据导致生物学家 无法有效、准确地获得相似基因,因此通过生物信息学挖掘相似基因成为现今的研究热点。
近年来,基于异质网络结构研究基因相似性关联搜索算法已经成为生物信息学研究的热 点,国内外学者在该领域做了大量的研究工作。由于元路径具有表达丰富语义信息的特点, 所以基于元路径进行关联搜索已成为研究基因相似性的方法之一。典型的研究工作有侯泳旭、 段磊基于PathSim算法提出了gSim-Miner相似性搜索算法,该算法充分考虑了在基因-疾病 -表型异质网中不同类型对象间的多种链接关系,解决了因为计算路径实例数而涉及大量连 通性计算和因为候选基因为网络中的所有基因而导致的算法执行效率较低的两大问题。然而 算法存在两个不足:一是对疾病、表型自身潜在的相似性挖掘不够充分;二是对非直接链接 的关联程度考虑不够全面,因此导致异质网中链接稀疏,使基因相似性计算结果的准确率比 较低。
发明内容
本文为解决gSim-Miner算法应用PathSim算法时因为在表达疾病、表型自身潜在的相 似性不够全面以及链接的关联程度不准确而导致的准确率低的问题,提出了一种加权元路径 基因相似性搜索算法gSim-Search。该算法利用二部图算法在基因-疾病-表型异质网中挖掘出 更多潜在的链接关系,并合理地量化和表达链接的关联权重,从而提升了基因关联搜索的准 确率。
本发明方法的主要思路是:将疾病本体和表型本体自身相似性融入基因-疾病-表型异质 网中,并利用二部图算法合理量化链接权重,构建蕴含丰富生物信息的加权元路径异质网。 在此基础上,利用PathSim算法思想将路径实例的链接权重考虑在内来计算基因的相似度, 使得基因相似性搜索结果更加准确。
本发明的实现包含如下步骤:
(1)建立基因-疾病-表型异质网、疾病本体有向无环图、表型本体有向无环图、基因- 疾病二分网络(即基因疾病邻接矩阵Sgd)、疾病-表型二分网络(即疾病表型邻接矩阵Sdp)。
本步骤通过对获取到的基因-疾病-表型关联数据、疾病本体数据、表型本体数据进行整 理和处理,构建本文研究所需要的基因-疾病-表型异质网、疾病本体有向无环图、表型本体 有向无环图、基因-疾病二分网络和疾病-表型二分网络。
(2)计算疾病本体和表型本体的语义相似性矩阵
基于步骤(1)中构建的疾病本体和表型本体的有向无环图,利用一种基于边的方法计算 疾病(表型)的语义相似性。一个疾病(表型)所包含的语义信息是由该疾病(表型)的祖先疾病 (表型)赋予的,所包含语义信息的详细程度则是由该疾病(表型)在有向无环图中的位置决定 的。该方法能够有效地表达疾病、表型内部的语义相似性。
(3)计算疾病本体和表型本体的拓扑相似性矩阵
异构网络的拓扑结构具有一定的真实性和可参考性,因此利用网络拓扑结构计算疾病、 表型本体的相似性是比较可行的。在步骤(1)构建的基因疾病邻接矩阵Sgd和疾病表型邻接矩 阵Sdp的基础上,采用高斯核函数分别计算疾病本体的拓扑相似性矩阵Kd和表型本体的拓 扑相似性矩阵Kp
(4)分别将疾病和表型的语义相似性矩阵和拓扑相似性矩阵进行融合得到疾病相似性 矩阵Sd和表型的相似性矩阵Sp
由于HPO、OMIM、人类疾病本体库中的数据不够完备和不够统一的原因,在应用基于边的方法探究疾病、表型潜在语义相似性时,不能覆盖整个疾病、表型网络。异构网络的拓扑结构具有一定的真实性和可参考性,因此利用网络拓扑结构计算疾病、表型本体的相似 性是比较可行的。因此,采用基于边的方法和高斯核函数融合的方法挖掘疾病、表型自身潜 在的相似性。将步骤(2)得到的疾病语义相似性矩阵Sdis和步骤(3)得到的疾病拓扑相似性矩阵 Kd进行融合得到疾病相似性矩阵Sd。将步骤(2)得到的表型语义相似性矩阵Shpo和步骤(3) 得到的表型拓扑相似性矩阵Kp进行融合得到表型相似性矩阵Sp
(5)利用二部图算法计算基因-疾病二分网络中的链接权重
为了解决二部图算法资源均等扩散这一问题,采用整合邻接矩阵的方式,将疾病相似性 融入基因-疾病二分网络中,实现资源的非均等扩散;同时为了解决二部图算法削弱已有链 接权重这一问题,本文对算法进行了修改。步骤分解如下:
(a)将步骤(4)得到的疾病相似性矩阵Sd融入基因-疾病二分网络中,即将基因疾病邻接矩 阵Sgd与疾病相似性矩阵Sd相乘,构建基因疾病整合邻接矩阵Agd
(b)先进行疾病到基因的第一次资源扩散,即资源通过基因疾病整合邻接矩阵Agd从疾 病扩散到基因。
(c)再进行基因到疾病的第二次资源扩散,将(b)中第一次资源扩散的结果通过基因疾病 整合邻接矩阵Agd从基因扩散到疾病,并将第二次扩散的结果与步骤(1)中初始的基因疾病 的关联关系(即基因疾病邻接矩阵Sgd)按比例结合。
通过步骤(5)可以得到基因-疾病关联矩阵WSgd,该矩阵中的每一个数值代表基因到疾病 的关联程度。
(6)利用二部图算法计算疾病-表型网络中的链接权重
步骤分解如下:
(a)将步骤(4)得到的表型相似性矩阵Sp融入疾病-表型二分网络中,即将疾病表型邻接矩 阵Sdp与表型相似性矩阵Sp相乘,构建疾病表型的整合邻接矩阵Adp
(b)先进行表型到疾病的第一次资源扩散,即资源通过疾病表型整合邻接矩阵Adp从表型 扩散到疾病。
(c)再进行疾病到表型的第二次资源扩散,将(b)中第一次资源扩散的结果通过疾病表型 整合邻接矩阵Adp从疾病扩散到表型,并将第二次扩散的结果与步骤(1)中初始的疾病表型的 关联关系(即疾病表型邻接矩阵Sdp)按比例结合。
通过步骤(6)可以得到疾病-表型关联矩阵WSdp,该矩阵中的每一个数值代表疾病到表型 的关联程度。
通过前6个步骤形成一个加权的基因-疾病-表型异质网。
(7)基于加权异质网计算基因的相似性
首先计算基因通过基因-疾病-表型-疾病-基因(GDPDG)元路径到每个表型的链接权重, 即将步骤(5)中得到的基因-疾病关联矩阵WSgd和步骤(6)得到的疾病-表型关联矩阵WSdp相 乘得到基因-表型关联矩阵WSgp
其次,根据基因-表型关联矩阵WSgp计算通过基因-疾病-表型-疾病-基因(GDPDG)元路 径可达的链接权重之和。
最后,利用PathSim算法计算基因间的相似度。
与现有技术相比,本发明具有以下明显的优势和较好的效果:
本发明提出了一种加权元路径基因相似性搜索算法gSim-Search。该算法将疾病本体、 表型本体的有向无环图与基因-疾病-表型异质网进行融合,在此基础上利用二部图算法在基 因-疾病-表型异质网中挖掘出更多潜在的链接关系,并合理地量化和表达链接的关联权重, 从而提升了基因关联搜索的准确率。
附图说明
图1疾病本体的语义贡献值图;
图2表型本体的语义贡献值图;
图3疾病本体高斯核相似性计算过程图;
图4表型本体高斯核相似性计算过程图;
图5疾病语义和拓扑相似性融合过程图;
图6表型语义和拓扑相似性融合过程图;
图7构建基因疾病整合邻接矩阵图;
图8利用二部图算法计算基因-疾病网络中的链接权重过程图;
图9构建疾病表型整合邻接矩阵图;
图10利用二部图算法计算疾病-表型网络中的链接权重过程图;
图11基因-疾病-表型生物信息网络模型图;
图12计算WSgp矩阵图;
图13计算路径权重之和过程图;
图14计算基因相似性过程图;
具体实施方式
下面结合附图和具体实施方式对本发明做进一步的描述。
步骤1,建立基因-疾病-表型异质网、疾病本体有向无环图和表型本体有向无环图、基 因-疾病二分网络、疾病-表型二分网络。
使用MySQL数据库存储基因-疾病-表型异质网中的链接关系。疾病本体和表型本体的 有向无环图是通过邻接矩阵的方式构建的。在构建疾病本体、表型本体的有向无环图时,我 们分别使用邻接矩阵来存储该疾病以及其祖先疾病、表型以及其祖先表型。下面是构建基因 疾病邻接矩阵Sgd和疾病表型邻接矩阵Sdp的方法:通过MySQL中存储的基因-疾病-表型 链接关系,首先从中分别获取不同的基因、疾病和表型的id,并分别为每个基因、疾病和表 型从0开始进行编号,这些编号对应矩阵的下标,将其保存在对应的数据库中。在构建Sgd时,通过数据库多表连接查询可以得到对应的基因、疾病的下标,在矩阵中对应的位置填 充”1”,其它的数据库中没有遍历到的下标填充“0”。在构建Sdp时,通过数据库多表连接查 询可以得到对应的疾病、表型的下标,在矩阵中对应的位置填充”1”,其它的数据库中没有 遍历到的下标填充“0”。
步骤2,计算疾病本体和表型本体的语义相似性矩阵。
计算疾病的语义相似性。首先计算疾病d的每个祖先疾病(包括疾病d)对d的语义贡献 值Rd,疾病本体的语义贡献值如图1所示,各个疾病对疾病“DOID:4084”的语义贡献度已 用文字标出。计算公式如(1)所示:
其中,Rd(v)表示疾病d的每个祖先疾病(包括疾病d)贡献给疾病d的语义值,v'表示 疾病节点,Vd表示疾病d的祖先节点和疾病d组成的集合,W=0.7是赋予的经验权重。 Rd(v')表示疾病v'对疾病d的所有可能的语义贡献值,由于路径层次不同,所以Rd(v')对 疾病d的语义贡献值也不同,因此,max表示选取最大值作为疾病d的祖先疾病贡献给疾 病d语义值。
然后,将疾病d的所有祖先疾病对其语义贡献值进行累加,得到疾病d获得的语义值 Rs(d),见公式(2)。
Rs(d)=∑v∈VdRd(v) (2)
其中,Rs(d)表示疾病d的所有祖先疾病(包括疾病d)对疾病d的语义贡献值,此处的Rd(v)表示疾病d的每个祖先疾病(包括疾病d)贡献给疾病d的语义值,v∈Vd表示节点v 属于疾病d的祖先集合Vd(Vd中包括疾病d)。
最后根据公式(1)可以得到Rd(v),将其代入公式(2)可以得到Rs(d),将公式(1)得到的 Rd(v)和公式(2)得到的Rs(d)代入公式(3),可以计算出任意两个疾病di、dj的语义相似性, 则di和dj的语义相似性计算公式见公式(3)。
其中,Vdi表示疾病di的祖先疾病集合,Vdj表示疾病dj的祖先疾病集合,v∈Vdi∩Vdj表 示疾病v为疾病di和dj的公共祖先疾病,Rdi(v)表示每个公共祖先疾病对疾病di的语义贡献值,Rdj(v)表示每个公共祖先疾病对疾病dj的语义贡献值,Rs(di)为疾病di的所有祖先 疾病(包括疾病di)对疾病di的语义贡献值,Rs(dj)为疾病dj的所有祖先疾病(包括疾病dj) 对疾病dj的语义贡献值,Sdis(di,dj)表示疾病di和疾病dj的语义相似性。
利用以上公式进行重复计算即可得到疾病的语义相似性矩阵Sdis
计算表型的语义相似性。首先计算表型p的每个祖先表型(包括表型p)对p的语义贡献 值Rp,表型本体的语义贡献值如图2所示,各个表型对表型“HP:0000032”的语义贡献度已 用文字标出。计算公式如(4)所示。
其中,Rp(v)表示表型p的每个祖先表型(包括表型p)贡献给表型p的语义值,v'表示 表型节点,Vp表示表型p的祖先节点和表型p组成的集合,W=0.7是赋予的经验权重。 Rp(v')表示表型v'对表型p的所有可能的语义贡献值,由于路径层次不同,所以Rp(v')对 表型p的语义贡献值也不同,因此,max表示选取最大值作为表型p的祖先表型贡献给表 型p语义值。
然后,将表型p的所有祖先表型对其语义贡献值进行累加,得到表型p获得的语义值 Rs(p),如公式(5)。
其中,Rs(p)表示表型p的所有祖先表型(包括表型p)对表型p的语义贡献值,此处的Rp(v)表示表型p的每个祖先表型(包括表型p)贡献给表型p的语义值,v∈Vp表示节点v 属于表型p的祖先集合Vp(Vp中包括表型p)。
最后,根据公式(4)可以得到Rp(v),将其代入公式(5)可以得到Rs(p),将公式(4)得到 的Rp(v)和公式(5)得到的Rs(p)代入公式(6),可以计算出任意两个表型pi、pj的语义相似 性,则pi和pj的语义相似性计算公式见公式(6)。
其中,Vpi表示表型pi的祖先表型集合,Vpj表示表型pj的祖先表型集合,v∈Vpi∩Vpj表 示表型v为表型pi和pj的公共祖先表型,Rpi(v)表示每个公共祖先表型对表型pi的语义贡 献值,Rpj(v)表示每个公共祖先表型对表型pj的语义贡献值,Rs(pi)为表型pi的所有祖先表型(包括表型pi)对表型pi的语义贡献值,Rs(pj)为表型pj的所有祖先表型(包括表型pj)对表型pj的语义贡献值,Shpo(pi,pj)表示表型pi和表型pj的语义相似性。
利用以上公式进行重复计算即可得到表型的语义相似性矩阵Shpo
步骤3,分别计算疾病本体、表型本体的拓扑相似性矩阵。
利用基因-疾病二分网络计算疾病高斯核相似性,用Sdg表示疾病-基因矩阵(即Sgd的转 置矩阵),给定两个疾病,di和dj,设Sdg(di)是一个二进制向量,表示di与gene之间是否存 在关联关系,若存在关联关系,对应位置的元素为1,否则为0。Sdg(di)和Sdg(dj)分别表示矩阵Sdg的第i行和第j行。则di和dj之间的高斯核相似性计算公式见公式(7),计算过程如图 3所示。
Kd(di,dj)=exp(-γd||Sdg(di)-Sdg(dj)||2) (7)
其中,Sdg(di)和Sdg(dj)分别表示矩阵Sdg的第i行和第j行,Kd(di,dj)表示di和dj的高斯核相似性,此处γd控制高斯核的宽度,γd的计算公式见公式(8)。
其中,Sdg(di)表示矩阵Sdg的第i行,Nd表示疾病的个数,这里设γ'd=1。
利用疾病-表型二分网络计算表型的拓扑相似性。此处用Spd表示表型-疾病矩阵(即Sdp的转置矩阵),给定两个表型,pi和pj,设Spd(pi)是一个二进制向量,表示pi与disease之 间是否存在关联关系,若存在关联关系,对应位置的元素为1,否则为0。Spd(pi)和Spd(pj)分别表示矩阵Spd的第i行和第j行,则pi和pj之间的高斯核相似性计算公式见公式(3-9),计算过程如图4所示。
Kp(pi,pj)=exp(-γd||Spd(pi)-Spd(pj)||2) (9)
其中,Spd(pi)和Spd(pj)分别表示矩阵Spd的第i行和第j行,Kp(pi,pj)表示pi和pj之间 的高斯核相似性,此处γd控制高斯核的宽度,γd的计算公式见公式(10)。
其中,Spd(pi)表示矩阵Spd的第i行,Np表示表型的个数,这里设γ'd=1。
步骤4,将语义相似性矩阵和拓扑相似性矩阵进行融合。
疾病相似性矩阵的融合公式分别见公式(11),融合过程如图5所示,将疾病的语义相似 性矩阵Sdis和拓扑相似性矩阵Kd按公式(11)进行融合,得到疾病相似性矩阵Sd
其中,Sdis(di,dj)表示疾病di和dj的语义相似性,Kd(di,dj)表示疾病di和dj的拓扑相似性,Sd(di,dj)表示疾病di和dj综合语义和拓扑两方面的相似性。
表型相似性矩阵的融合公式分别见公式(12),融合过程如图6所示,将表型的语义相似 性矩阵Shpo和拓扑相似性矩阵Kp按公式(3-12)进行融合,得到表型相似性矩阵Sp
其中,Shpo(pi,pj)表示表型pi和pj的语义相似性,Kp(pi,pj)表示表型pi和pj的拓扑相似性,Sp(pi,pj)表示表型pi和pj综合语义和拓扑两方面的相似性。
步骤5,利用二部图算法计算基因疾病二分网络中的链接权重。
在步骤5中的第(a)步,构建基因疾病整合邻接矩阵Agd方法如公式(13)所示,构建过程 如图7。
其中,Sgd(i,l)表示基因疾病邻接矩阵Sgd中第i行第l列的元素,Sd(l,j)表示疾病相似性 矩阵的第l行第j列的元素,gdij表示基因疾病整合邻接矩阵Agd={gdij}中第i行第j列的值,Nd代表疾病的个数。
在步骤5中第(b)步,疾病到基因的第一次资源扩散表达式如公式(14)所示。
对于基因集合G,疾病集合D中所有的资源通过基因疾病整合邻接矩阵Agd扩散到G,则位于第j个节点上Gj的资源为:
其中Nd表示疾病的数目,aji表示基因疾病整合邻接矩阵Agd中基因和疾病间的链接关 联程度,ri(di)表示Sgd中初始化的疾病资源,K(di)表示基因疾病整合邻接矩阵Agd中第i个 疾病所在列向量之和,rd->g(j)表示疾病扩散到g(j)的资源。
在步骤5中第(c)步,基因到疾病的第二次资源扩散表达式如公式(15)所示。
基因集合G上的所有资源通过基因疾病整合邻接矩阵Agd扩散到疾病集合D,Di获得的资源为:
其中Ng表示基因的数目,aji表示基因疾病整合邻接矩阵Agd中基因和疾病间的链接关 联程度,rj(gj)表示疾病扩散到基因的资源,K(gj)表示基因疾病整合邻接矩阵Agd中第j个 基因所在的行向量之和,seed代表基因种子节点的下标,aseedi表示Agd矩阵中的第seed行 第i列,rg->d(i)表示基因扩散到疾病di的资源,α表示参数,通过迭代法进行确定。
至此可以得到WSgd矩阵。
利用二部图算法计算基因-疾病二分网络中的链接权重的过程如图8,其中矩阵Sgd表示 基因-疾病之间的邻接关系,该矩阵的第i行代表以gi为种子节点时,疾病的初始化资源。 图中种子节点为g1时(用圆圈圈出),初始化资源为Sgd的第一行(在Sgd矩阵中用方框圈出)。 Agd的第i列代表以gi为种子节点时资源第一次非均等扩散的权重,该矩阵的第i行代表以 gi为种子节点时资源第二次非均等扩散的权重。在图8中该矩阵的第1列代表以g1为种子 节点时资源第一次非均等扩散的权重(在Agd矩阵中用纵向方框框出),该矩阵的第1行代表 以g1为种子节点时资源第二次非均等扩散的权重(在Agd矩阵中用横向方框框出)。
步骤6,利用二部图算法计算疾病-表型二分网络中的链接权重。
在步骤6中所述的利用二部图算法计算疾病-表型网络中链接权重的过程如下所示:
首先,构建疾病表型整合邻接矩阵Adp={dpij},表达式见公式(16),构建过程如图9。
其中,Sdp(i,l)表示疾病表型邻接矩阵Sdp中第i行第l列的元素,Sp(l,j)表示表型相似性 矩阵的第l行第j列的元素,dpij表示疾病表型整合邻接矩阵Adp={dpij}中第i行第j列的值,Np代表表型的个数。
然后,资源从表型扩散到疾病,表达式如公式(17)所示。
表型集合P中所有资源通过疾病表型整合邻接矩阵Adp扩散到疾病集合D,则位于第j个节点上Dj的资源为:
其中Np表示表型的数目,aji表示疾病表型整合邻接矩阵Adp中疾病和表型间的链接关 联程度,ri(pi)表示Sdp中初始化的表型资源,K(pi)表示矩阵Adp中第i个表型所在列向量之和,rp->d(j)表示表型扩散到疾病d(j)的资源。
最后,资源再从疾病扩散到表型,表达式如公式(18)所示。
疾病集合D上的所有资源通过疾病表型整合邻接矩阵Adp扩散到表型集合P,Pi获得的资源为:
其中Nd表示疾病的数目,aji表示疾病表型整合邻接矩阵Adp中疾病和表型间的链接关 联程度,rj(dj)表示表型扩散到疾病的资源,K(dj)表示Adp矩阵中第j个疾病所在的行向量 之和,seed代表疾病种子节点的下标,aseedi表示Adp矩阵中的第seed行第i列,rd->p(i)表示疾病扩散到表型pi的资源,β表示参数,通过迭代法进行确定。
至此可以得到WSdp矩阵。
利用二部图算法计算疾病-表型二分网络中的链接权重过程见图10,其中矩阵Sdp表示 疾病-表型之间的邻接关系,该矩阵的第i行代表以di为种子节点时,表型的初始化资源。图 中种子节点为d1时(用圆圈圈出),初始化资源为Sdp的第一行(在Sdp矩阵中用方框圈出)。 Adp中的第i列代表以di为种子节点时资源第一次非均等扩散的权重,该矩阵的第i行代表以 di为种子节点时资源第二次非均等扩散的权重。该矩阵的第1列代表以d1为种子节点时资 源第一次非均等扩散的权重(在Adp矩阵中用纵向方框框出),该矩阵的第1行代表以d1为种 子节点时资源第二次非均等扩散的权重(在Adp矩阵中用横向方框框出)。
步骤7,基于加权异质网计算基因的相似性
通过一个简单的基因-疾病-表型生物信息网络来说明gSim-Search算法原理,基因-疾病 -表型生物信息网络模型图如图11所示。
首先将步骤5得到的WSgd矩阵和步骤6得到的WSdp矩阵相乘得到WSgp矩阵,如图12。
然后,计算满足元路径(基因-疾病-表型-疾病-基因)的路径权重之和,计算公式见公式 (19),计算过程如图13。
其中,WSgp由WSgd矩阵和WSdp矩阵相乘得到,通过步骤5可以得到WSgd矩阵,通过 步骤6可以得到WSdp矩阵,WSgd矩阵中的数值表示基因到疾病的关联程度,WSdp矩阵中 的数值表示疾病到表型的关联程度,Np表示表型的个数,weights(gi,gj)表示gi到gj满足 元路径(基因-疾病-表型-疾病-基因)的路径权重之和。
最后,计算基因相似性,计算公式见公式(20),计算过程如图14。
其中,wpgi→gj代表gi和gj间所有路径上的链接权重之和;
wpgi→gi代表gi和gi间所有路径上的链接权重之和;
wpgj→gj代表gj到gj间所有路径上的链接权重之和。
WP表示加权的基因-疾病-表型-疾病-基因元路径,gSim(gi,gj)表示基因gi和gj的相似 度。

Claims (7)

1.一种基于异质网的基因相似性搜索算法,其特征在于,采用如下步骤:
步骤1、建立基因-疾病-表型异质网、疾病本体有向无环图、表型本体有向无环图、基因-疾病二分网络即基因疾病邻接矩阵Sgd、疾病-表型二分网络即疾病表型邻接矩阵Sdp
通过对获取到的基因-疾病-表型关联数据、疾病本体数据、表型本体数据进行整理和处理,构建基因-疾病-表型异质网、疾病本体有向无环图、表型本体有向无环图、基因-疾病二分网络和疾病-表型二分网络;
步骤2、基于步骤1中构建的疾病本体和表型本体的有向无环图,利用一种基于边的方法分别计算疾病语义相似性矩阵Sdis和表型的语义相似性矩阵Shpo
步骤3、利用高斯核函数计算疾病本体的拓扑相似性矩阵Kd和表型本体的拓扑相似性矩阵Kp
在步骤1构建的基因疾病邻接矩阵Sgd和疾病表型邻接矩阵Sdp的基础上,采用高斯核函数计算疾病本体的拓扑相似性矩阵Kd和表型本体的拓扑相似性矩阵Kp
步骤4、分别将疾病和表型的语义相似性矩阵和拓扑相似性矩阵进行融合得到疾病相似性矩阵Sd和表型的相似性矩阵Sp
将步骤2得到的疾病语义相似性矩阵Sdis和步骤3得到的疾病拓扑相似性矩阵Kd进行融合得到疾病相似性矩阵Sd;将步骤2得到的表型语义相似性矩阵Shpo和步骤3得到的表型拓扑相似性矩阵Kp进行融合得到表型相似性矩阵Sp
步骤5、利用二部图算法计算基因-疾病二分网络中的链接权重:
(a)将步骤4得到的疾病相似性矩阵Sd融入基因-疾病二分网络中,即将基因疾病邻接矩阵Sgd与疾病相似性矩阵Sd相乘,构建基因疾病整合邻接矩阵Agd
(b)先进行疾病到基因的第一次资源扩散,即资源通过基因疾病整合邻接矩阵Agd从疾病扩散到基因;
(c)再进行基因到疾病的第二次资源扩散,将(b)中第一次资源扩散的结果通过基因疾病整合邻接矩阵Agd从基因扩散到疾病,并将第二次扩散的结果与步骤1中初始的基因疾病的关联关系即基因疾病邻接矩阵Sgd按比例结合;
通过步骤5得到基因-疾病关联矩阵WSgd,该矩阵中的每一个数值代表基因到疾病的关联程度;
步骤6、利用二部图算法计算疾病-表型二分网络中链接的权重:
(a)将步骤4得到的表型相似性矩阵Sp融入疾病-表型二分网络中,即将疾病表型邻接矩阵Sdp与表型相似性矩阵Sp相乘,构建疾病表型的整合邻接矩阵Adp
(b)先进行表型到疾病的第一次资源扩散,即资源通过疾病表型整合邻接矩阵Adp从表型扩散到疾病;
(c)再进行疾病到表型的第二次资源扩散,将(b)中第一次资源扩散的结果通过疾病表型整合邻接矩阵Adp从疾病扩散到表型,并将第二次扩散的结果与步骤1中初始的疾病表型的关联关系即疾病表型邻接矩阵Sdp按比例结合;
通过步骤6得到疾病-表型关联矩阵WSdp,该矩阵中的每一个数值代表疾病到表型的关联程度;
通过前6个步骤形成一个加权的基因-疾病-表型异质网;
步骤7、在加权的基因-疾病-表型异质网中,应用PathSim算法计算基因的相似性:
首先计算基因通过基因-疾病-表型-疾病-基因元路径到每个表型的链接权重,即将步骤5中得到的基因-疾病关联矩阵WSgd和步骤6得到的疾病-表型关联矩阵WSdp相乘得到基因-表型关联矩阵WSgp
其次,根据基因-表型关联矩阵WSgp计算通过基因-疾病-表型-疾病-基因元路径可达的链接权重之和;
最后,利用PathSim算法计算基因间的相似度。
2.根据权利要求1所述的一种基于异质网的基因相似性搜索算法,其特征在于,包含如下步骤:
在步骤1中所述的建立基因-疾病-表型异质网、疾病本体有向无环图、表型本体有向无环图基因-疾病二分网络、疾病表型二分网络,构建方法如下所示:
使用MySQL数据库存储基因-疾病-表型异质网中的链接关系;疾病本体和表型本体的有向无环图是通过邻接矩阵的方式构建的;在构建疾病本体、表型本体的有向无环图时,我们分别使用邻接矩阵来存储该疾病以及其祖先疾病、表型以及其祖先表型;下面是构建基因疾病邻接矩阵Sgd和疾病表型邻接矩阵Sdp的方法:通过MySQL中存储的基因-疾病-表型链接关系,首先从中分别获取不同的基因、疾病和表型的id,并分别为每个基因、疾病和表型从0开始进行编号,这些编号对应矩阵的下标,将其保存在对应的数据库中;在构建Sgd时,通过数据库多表连接查询得到对应的基因、疾病的下标,在矩阵中对应的位置填充”1”,其它的数据库中没有遍历到的下标填充“0”;在构建Sdp时,通过数据库多表连接查询得到对应的疾病、表型的下标,在矩阵中对应的位置填充”1”,其它的数据库中没有遍历到的下标填充“0”。
3.根据权利要求1所述的一种基于异质网的基因相似性搜索算法,其特征在于,包含如下步骤:
在步骤2中所述的采用一种基于边的方法计算疾病本体和表型本体的语义相似性矩阵,计算过程如下所示:
计算疾病的语义相似性;首先计算疾病d的每个祖先疾病包括疾病d对d的语义贡献值Rd,计算公式见公式(1);
其中,Rd(v)表示疾病d的每个祖先疾病包括疾病d贡献给疾病d的语义值,v'表示疾病节点,Vd表示疾病d的祖先节点和疾病d组成的集合,W=0.7;Rd(v')表示疾病v'对疾病d的所有可能的语义贡献值,由于路径层次不同,所以Rd(v')对疾病d的语义贡献值也不同,因此,max表示选取最大值作为疾病d的祖先疾病贡献给疾病d语义值;
然后,将疾病d的所有祖先疾病对其语义贡献值进行累加,得到疾病d获得的语义值Rs(d),见公式(2);
Rs(d)=∑v∈VdRd(v) (2)
其中,Rs(d)表示疾病d的所有祖先疾病包括疾病d对疾病d的语义贡献值,此处的Rd(v)表示疾病d的每个祖先疾病贡献给疾病d的语义值,v∈Vd表示节点v属于疾病d的祖先集合Vd
最后根据公式(1)得到Rd(v),将其代入公式(2)得到Rs(d),将公式(1)得到的Rd(v)和公式(2)得到的Rs(d)代入公式(3),计算出任意两个疾病di、dj的语义相似性,则di和dj的语义相似性计算公式见公式(3);
其中,Vdi表示疾病di的祖先疾病集合,Vdj表示疾病dj的祖先疾病集合,v∈Vdi∩Vdj表示疾病v为疾病di和dj的公共祖先疾病,Rdi(v)表示每个公共祖先疾病对疾病di的语义贡献值,Rdj(v)表示每个公共祖先疾病对疾病dj的语义贡献值,Rs(di)为疾病di的所有祖先疾病包括疾病di对疾病di的语义贡献值,Rs(dj)为疾病dj的所有祖先疾病包括疾病dj对疾病dj的语义贡献值,Sdis(di,dj)表示疾病di和疾病dj的语义相似性;
利用以上公式进行重复计算得到疾病的语义相似性矩阵Sdis
计算表型的语义相似性;首先计算表型p的每个祖先表型(包括表型p)对p的语义贡献值Rp,计算公式如(4)所示;
其中,Rp(v)表示表型p的每个祖先表型包括表型p贡献给表型p的语义值,v'表示表型节点,Vp表示表型p的祖先节点和表型p组成的集合,W=0.7;Rp(v')表示表型v'对表型p的所有可能的语义贡献值,由于路径层次不同,所以Rp(v')对表型p的语义贡献值也不同,因此,max表示选取最大值作为表型p的祖先表型贡献给表型p语义值;
然后,将表型p的所有祖先表型对其语义贡献值进行累加,得到表型p获得的语义值Rs(p),如公式(5);
其中,Rs(p)表示表型p的所有祖先表型包括表型p对表型p的语义贡献值,此处的Rp(v)表示表型p的每个祖先表型贡献给表型p的语义值,v∈Vp表示节点v属于表型p的祖先集合Vp
最后,根据公式(4)得到Rp(v),将其代入公式(5)得到Rs(p),将公式(4)得到的Rp(v)和公式(5)得到的Rs(p)代入公式(6),计算出任意两个表型pi、pj的语义相似性,则pi和pj的语义相似性计算公式见公式(6);
其中,Vpi表示表型pi的祖先表型集合,Vpj表示表型pj的祖先表型集合,v∈Vpi∩Vpj表示表型v为表型pi和pj的公共祖先表型,Rpi(v)表示每个公共祖先表型对表型pi的语义贡献值,Rpj(v)表示每个公共祖先表型对表型pj的语义贡献值,Rs(pi)为表型pi的所有祖先表型包括表型pi对表型pi的语义贡献值,Rs(pj)为表型pj的所有祖先表型包括表型pj对表型pj的语义贡献值,Shpo(pi,pj)表示表型pi和表型pj的语义相似性;
利用以上公式进行重复计算得到表型的语义相似性矩阵Shpo
4.根据权利要求1所述的一种基于异质网的基因相似性搜索算法,其特征在于,包含如下步骤:
在步骤3中所述的计算疾病本体和表型本体的拓扑相似性,该方法计算过程如下所示:
利用基因-疾病二分网络计算疾病高斯核相似性,用Sdg表示疾病-基因矩阵即Sgd的转置矩阵,给定两个疾病,di和dj,设Sdg(di)是一个二进制向量,表示di与gene之间是否存在关联关系,若存在关联关系,对应位置的元素为1,否则为0;Sdg(di)和Sdg(dj)分别表示矩阵Sdg的第i行和第j行;则di和dj之间的高斯核相似性计算公式见公式(7);
Kd(di,dj)=exp(-γd||Sdg(di)-Sdg(dj)||2) (7)
其中,Sdg(di)和Sdg(dj)分别表示矩阵Sdg的第i行和第j行,Kd(di,dj)表示di和dj的高斯核相似性,此处γd控制高斯核的宽度,γd的计算公式见公式(8);
其中,Sdg(di)表示矩阵Sdg的第i行,Nd表示疾病的个数,这里设γ'd=1;
利用疾病-表型二分网络计算表型的拓扑相似性;此处用Spd表示表型-疾病矩阵即Sdp的转置矩阵,给定两个表型,pi和pj,设Spd(pi)是一个二进制向量,表示pi与disease之间是否存在关联关系,若存在关联关系,对应位置的元素为1,否则为0;Spd(pi)和Spd(pj)分别表示矩阵Spd的第i行和第j行,则pi和pj之间的高斯核相似性计算公式见公式(3-9);
Kp(pi,pj)=exp(-γd||Spd(pi)-Spd(pj)||2) (9)
其中,Spd(pi)和Spd(pj)分别表示矩阵Spd的第i行和第j行,Kp(pi,pj)表示pi和pj之间的高斯核相似性,此处γd控制高斯核的宽度,γd的计算公式见公式(10);
其中,Spd(pi)表示矩阵Spd的第i行,Np表示表型的个数,这里设γ'd=1;
步骤4,将语义相似性矩阵和拓扑相似性矩阵进行融合;
疾病相似性矩阵的融合公式分别见公式(11),将疾病的语义相似性矩阵Sdis和拓扑相似性矩阵Kd按公式(11)进行融合,得到疾病相似性矩阵Sd
其中,Sdis(di,dj)表示疾病di和dj的语义相似性,Kd(di,dj)表示疾病di和dj的拓扑相似性,Sd(di,dj)表示疾病di和dj综合语义和拓扑两方面的相似性;
表型相似性矩阵的融合公式分别见公式(12),将表型的语义相似性矩阵Shpo和拓扑相似性矩阵Kp按公式(3-12)进行融合,得到表型相似性矩阵Sp
其中,Shpo(pi,pj)表示表型pi和pj的语义相似性,Kp(pi,pj)表示表型pi和pj的拓扑相似性,Sp(pi,pj)表示表型pi和pj综合语义和拓扑两方面的相似性。
5.根据权利要求1所述的一种基于异质网的基因相似性搜索算法,其特征在于,包含如下步骤:
在步骤5中的第(a)步,构建基因疾病整合邻接矩阵Agd方法如公式(13)所示;
其中,Sgd(i,l)表示基因疾病邻接矩阵Sgd中第i行第l列的元素,Sd(l,j)表示疾病相似性矩阵的第l行第j列的元素,gdij表示基因疾病整合邻接矩阵Agd={gdij}中第i行第j列的值,Nd代表疾病的个数;
在步骤5中第(b)步,疾病到基因的第一次资源扩散表达式如公式(14)所示;
对于基因集合G,疾病集合D中所有的资源通过基因疾病整合邻接矩阵Agd扩散到G,则位于第j个节点上Gj的资源为:
其中Nd表示疾病的数目,aji表示基因疾病整合邻接矩阵Agd中基因和疾病间的链接关联程度,ri(di)表示Sgd中初始化的疾病资源,K(di)表示基因疾病整合邻接矩阵Agd中第i个疾病所在列向量之和,rd->g(j)表示疾病扩散到g(j)的资源;
在步骤5中第(c)步,基因到疾病的第二次资源扩散表达式如公式(15)所示;
基因集合G上的所有资源通过基因疾病整合邻接矩阵Agd扩散到疾病集合D,Di获得的资源为:
其中Ng表示基因的数目,aji表示基因疾病整合邻接矩阵Agd中基因和疾病间的链接关联程度,rj(gj)表示疾病扩散到基因的资源,K(gj)表示基因疾病整合邻接矩阵Agd中第j个基因所在的行向量之和,seed代表基因种子节点的下标,aseedi表示Agd矩阵中的第seed行第i列,rg->d(i)表示基因扩散到疾病di的资源,α表示参数,通过迭代法进行确定;
至此得到WSgd矩阵。
6.根据权利要求1所述的一种基于异质网的基因相似性搜索算法,其特征在于,包含如下步骤:
在步骤6中所述的利用二部图算法计算疾病-表型网络中链接权重的过程如下所示:
首先,构建疾病表型整合邻接矩阵Adp={dpij},表达式见公式(16);
其中,Sdp(i,l)表示疾病表型邻接矩阵Sdp中第i行第l列的元素,Sp(l,j)表示表型相似性矩阵的第l行第j列的元素,dpij表示疾病表型整合邻接矩阵Adp={dpij}中第i行第j列的值,Np代表表型的个数;
然后,资源从表型扩散到疾病,表达式如公式(17)所示;
表型集合P中所有资源通过疾病表型整合邻接矩阵Adp扩散到疾病集合D,则位于第j个节点上Dj的资源为:
其中Np表示表型的数目,aji表示疾病表型整合邻接矩阵Adp中疾病和表型间的链接关联程度,ri(pi)表示Sdp中初始化的表型资源,K(pi)表示矩阵Adp中第i个表型所在列向量之和,rp->d(j)表示表型扩散到疾病d(j)的资源;
最后,资源再从疾病扩散到表型,表达式如公式(18)所示;
疾病集合D上的所有资源通过疾病表型整合邻接矩阵Adp扩散到表型集合P,Pi获得的资源为:
其中Nd表示疾病的数目,aji表示疾病表型整合邻接矩阵Adp中疾病和表型间的链接关联程度,rj(dj)表示表型扩散到疾病的资源,K(dj)表示Adp矩阵中第j个疾病所在的行向量之和,seed代表疾病种子节点的下标,aseedi表示Adp矩阵中的第seed行第i列,rd->p(i)表示疾病扩散到表型pi的资源,β表示参数,通过迭代法进行确定;
至此得到WSdp矩阵。
7.根据权利要求1所述的一种基于异质网的基因相似性搜索算法,其特征在于,包含如下步骤:
在步骤7中所述的应用PathSim算法计算基因的相似性,计算过程如下:
首先将步骤5得到的WSgd矩阵和步骤6得到的WSdp矩阵相乘得到WSgp矩阵;
然后,计算满足元路径即基因-疾病-表型-疾病-基因的路径权重之和,计算公式见公式(19);
其中,WSgp由WSgd矩阵和WSdp矩阵相乘得到,通过步骤5得到WSgd矩阵,通过步骤6得到WSdp矩阵,WSgd矩阵中的数值表示基因到疾病的关联程度,WSdp矩阵中的数值表示疾病到表型的关联程度,Np表示表型的个数,weights(gi,gj)表示gi到gj满足元路径(基因-疾病-表型-疾病-基因)的路径权重之和;
最后,计算基因相似性,计算公式见公式(20);
其中,wpgi→gj代表gi和gj间所有路径上的链接权重之和;
wpgi→gi代表gi和gi间所有路径上的链接权重之和;
wpgj→gj代表gj到gj间所有路径上的链接权重之和;
WP表示加权的基因-疾病-表型-疾病-基因元路径,gSim(gi,gj)表示基因gi和gj的相似度。
CN201910206801.6A 2019-03-19 2019-03-19 一种基于异质网的基因相似性搜索方法 Active CN110010196B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910206801.6A CN110010196B (zh) 2019-03-19 2019-03-19 一种基于异质网的基因相似性搜索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910206801.6A CN110010196B (zh) 2019-03-19 2019-03-19 一种基于异质网的基因相似性搜索方法

Publications (2)

Publication Number Publication Date
CN110010196A true CN110010196A (zh) 2019-07-12
CN110010196B CN110010196B (zh) 2020-11-06

Family

ID=67167699

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910206801.6A Active CN110010196B (zh) 2019-03-19 2019-03-19 一种基于异质网的基因相似性搜索方法

Country Status (1)

Country Link
CN (1) CN110010196B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111540405A (zh) * 2020-04-29 2020-08-14 新疆大学 一种基于快速网络嵌入的疾病基因预测方法
CN111584000A (zh) * 2020-05-07 2020-08-25 重庆医科大学 基于网络融合基因信息反馈的行为干预方法
CN112069290A (zh) * 2020-07-27 2020-12-11 中国科学院计算机网络信息中心 基于图局部结构和文本语义相似性的学术论文推荐方法
CN112086187A (zh) * 2020-09-16 2020-12-15 电子科技大学 一种基于复杂网络的疾病进展路径挖掘方法
CN113241118A (zh) * 2021-07-12 2021-08-10 法玛门多(常州)生物科技有限公司 一种基因突变有害性预测的方法
CN113626567A (zh) * 2021-07-28 2021-11-09 上海基绪康生物科技有限公司 一种从生物医学文献中挖掘基因与疾病相关性信息的方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102231178A (zh) * 2011-05-18 2011-11-02 天津大学 基因组织特异性序列模式元搜索方法及搜索结果评价方法
CN103559318A (zh) * 2013-11-21 2014-02-05 北京邮电大学 对异质信息网络包含的对象进行排序的方法
US20140093903A1 (en) * 2012-08-27 2014-04-03 Nodality, Inc. Methods for diagnosis, prognosis and methods of treatment
CN104111969A (zh) * 2014-06-04 2014-10-22 百度移信网络技术(北京)有限公司 一种相似性度量的方法以及系统
US20150045237A1 (en) * 2012-03-16 2015-02-12 Max-Delbbruck-Certrum Fuer Molekulare Medizin Method for identification of the sequence of poly(a)+rna that physically interacts with protein

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102231178A (zh) * 2011-05-18 2011-11-02 天津大学 基因组织特异性序列模式元搜索方法及搜索结果评价方法
US20150045237A1 (en) * 2012-03-16 2015-02-12 Max-Delbbruck-Certrum Fuer Molekulare Medizin Method for identification of the sequence of poly(a)+rna that physically interacts with protein
US20140093903A1 (en) * 2012-08-27 2014-04-03 Nodality, Inc. Methods for diagnosis, prognosis and methods of treatment
CN103559318A (zh) * 2013-11-21 2014-02-05 北京邮电大学 对异质信息网络包含的对象进行排序的方法
CN104111969A (zh) * 2014-06-04 2014-10-22 百度移信网络技术(北京)有限公司 一种相似性度量的方法以及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
PHUC DO ETC.: ""W-PathSim++:the novel approach of topic-driven similarity search in large-sacaled heterogeneous network with the support of Spark-based DataLog"", 《2018 10TH INTERNATIONAL CONFERENCE ON KNOWLEDGE AND SYSTEMS ENGINEERING》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111540405A (zh) * 2020-04-29 2020-08-14 新疆大学 一种基于快速网络嵌入的疾病基因预测方法
CN111540405B (zh) * 2020-04-29 2023-07-07 新疆大学 一种基于快速网络嵌入的疾病基因预测方法
CN111584000A (zh) * 2020-05-07 2020-08-25 重庆医科大学 基于网络融合基因信息反馈的行为干预方法
CN112069290A (zh) * 2020-07-27 2020-12-11 中国科学院计算机网络信息中心 基于图局部结构和文本语义相似性的学术论文推荐方法
CN112069290B (zh) * 2020-07-27 2022-07-12 中国科学院计算机网络信息中心 基于图局部结构和文本语义相似性的学术论文推荐方法
CN112086187A (zh) * 2020-09-16 2020-12-15 电子科技大学 一种基于复杂网络的疾病进展路径挖掘方法
CN113241118A (zh) * 2021-07-12 2021-08-10 法玛门多(常州)生物科技有限公司 一种基因突变有害性预测的方法
CN113626567A (zh) * 2021-07-28 2021-11-09 上海基绪康生物科技有限公司 一种从生物医学文献中挖掘基因与疾病相关性信息的方法

Also Published As

Publication number Publication date
CN110010196B (zh) 2020-11-06

Similar Documents

Publication Publication Date Title
CN110010196A (zh) 一种基于异质网的基因相似性搜索算法
Guo et al. Development of stock correlation networks using mutual information and financial big data
US20170213127A1 (en) Method and System for Discovering Ancestors using Genomic and Genealogic Data
Liu et al. SMALF: miRNA-disease associations prediction based on stacked autoencoder and XGBoost
CN106126577A (zh) 一种基于数据源划分矩阵的加权关联规则挖掘方法
Hajiabadi et al. IEDC: An integrated approach for overlapping and non-overlapping community detection
Rodrigues et al. A multi-objective artificial butterfly optimization approach for feature selection
CN101436206A (zh) 基于本体推理的旅游问答系统答案抽取方法
Zhang et al. Spectral embedding network for attributed graph clustering
Wang et al. Unlabeled skin lesion classification by self-supervised topology clustering network
CN110957002A (zh) 一种基于协同矩阵分解的药物靶点相互作用关系预测方法
Liu et al. Link prediction approach combined graph neural network with capsule network
CN103034687B (zh) 一种基于2‑类异质网络的关联模块识别方法
Xue et al. Optimizing ontology alignment through memetic algorithm based on partial reference alignment
Shang et al. Large-scale community detection based on node membership grade and sub-communities integration
CN103020163A (zh) 一种网络中基于节点相似度的网络社区划分方法
CN109978050A (zh) 基于svm-rf的决策规则提取及约简方法
Coelho et al. Multi-objective design of hierarchical consensus functions for clustering ensembles via genetic programming
Arasteh et al. Bölen: Software module clustering method using the combination of shuffled frog leaping and genetic algorithm
Ye et al. Molecular substructure graph attention network for molecular property identification in drug discovery
Moretti et al. Variational combinatorial sequential Monte Carlo methods for Bayesian phylogenetic inference
CN108256030B (zh) 一种基于本体的密度自适应概念语义相似度计算方法
CN109213869A (zh) 基于多源数据的热点技术预测方法
Meqdad et al. New prediction method for data spreading in social networks based on machine learning algorithm
CN105761152A (zh) 社交网络中一种基于三元组的参与话题预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant