CN110010196A

CN110010196A - 一种基于异质网的基因相似性搜索算法

Info

Publication number: CN110010196A
Application number: CN201910206801.6A
Authority: CN
Inventors: 杜金莲; 杨开敏; 付利华; 王丹; 赵文兵
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2019-03-19
Filing date: 2019-03-19
Publication date: 2019-07-12
Anticipated expiration: 2039-03-19
Also published as: CN110010196B

Abstract

本发明涉及一种基于异质网的基因相似性搜索算法，获取基因‑疾病‑表型关联信息、疾病本体信息、表型本体信息，建立基因‑疾病‑表型异质网、疾病和表型本体有向无环图。首先，分别基于疾病、表型本体有向无环图，计算疾病本体和表型本体的语义相似性；其次，分别基于基因‑疾病网络和疾病‑表型网络计算疾病、表型的拓扑相似性，并将语义相似性和拓扑相似性进行融合；然后，将疾病本体的相似性网络和表型本体的相似性网络通过构建邻接矩阵的方式融入基因‑疾病‑表型异质网中，利用二部图算法分别计算基因和疾病之间的关联程度、疾病和表型之间的关联程度；通过以上步骤构建一个蕴含丰富生物信息的加权异质网，在此基础上应用PathSim算法计算基因的相似性，提高基因相似性搜索算法的准确率。

Description

一种基于异质网的基因相似性搜索算法

技术领域

本发明属于推荐算法领域，具体涉及一种基于异质网的基因相似性搜索算法。

背景技术

随着基因测序技术的发展，基因数据呈现出迅猛增长的趋势。庞大的数据导致生物学家无法有效、准确地获得相似基因，因此通过生物信息学挖掘相似基因成为现今的研究热点。

近年来，基于异质网络结构研究基因相似性关联搜索算法已经成为生物信息学研究的热点，国内外学者在该领域做了大量的研究工作。由于元路径具有表达丰富语义信息的特点，所以基于元路径进行关联搜索已成为研究基因相似性的方法之一。典型的研究工作有侯泳旭、段磊基于PathSim算法提出了gSim-Miner相似性搜索算法，该算法充分考虑了在基因-疾病 -表型异质网中不同类型对象间的多种链接关系，解决了因为计算路径实例数而涉及大量连通性计算和因为候选基因为网络中的所有基因而导致的算法执行效率较低的两大问题。然而算法存在两个不足：一是对疾病、表型自身潜在的相似性挖掘不够充分；二是对非直接链接的关联程度考虑不够全面，因此导致异质网中链接稀疏，使基因相似性计算结果的准确率比较低。

发明内容

本文为解决gSim-Miner算法应用PathSim算法时因为在表达疾病、表型自身潜在的相似性不够全面以及链接的关联程度不准确而导致的准确率低的问题，提出了一种加权元路径基因相似性搜索算法gSim-Search。该算法利用二部图算法在基因-疾病-表型异质网中挖掘出更多潜在的链接关系，并合理地量化和表达链接的关联权重，从而提升了基因关联搜索的准确率。

本发明方法的主要思路是：将疾病本体和表型本体自身相似性融入基因-疾病-表型异质网中，并利用二部图算法合理量化链接权重，构建蕴含丰富生物信息的加权元路径异质网。在此基础上，利用PathSim算法思想将路径实例的链接权重考虑在内来计算基因的相似度，使得基因相似性搜索结果更加准确。

本发明的实现包含如下步骤：

(1)建立基因-疾病-表型异质网、疾病本体有向无环图、表型本体有向无环图、基因- 疾病二分网络(即基因疾病邻接矩阵S_gd)、疾病-表型二分网络(即疾病表型邻接矩阵S_dp)。

本步骤通过对获取到的基因-疾病-表型关联数据、疾病本体数据、表型本体数据进行整理和处理，构建本文研究所需要的基因-疾病-表型异质网、疾病本体有向无环图、表型本体有向无环图、基因-疾病二分网络和疾病-表型二分网络。

(2)计算疾病本体和表型本体的语义相似性矩阵

基于步骤(1)中构建的疾病本体和表型本体的有向无环图，利用一种基于边的方法计算疾病(表型)的语义相似性。一个疾病(表型)所包含的语义信息是由该疾病(表型)的祖先疾病 (表型)赋予的，所包含语义信息的详细程度则是由该疾病(表型)在有向无环图中的位置决定的。该方法能够有效地表达疾病、表型内部的语义相似性。

(3)计算疾病本体和表型本体的拓扑相似性矩阵

异构网络的拓扑结构具有一定的真实性和可参考性，因此利用网络拓扑结构计算疾病、表型本体的相似性是比较可行的。在步骤(1)构建的基因疾病邻接矩阵S_gd和疾病表型邻接矩阵S_dp的基础上，采用高斯核函数分别计算疾病本体的拓扑相似性矩阵K_d和表型本体的拓扑相似性矩阵K_p。

(4)分别将疾病和表型的语义相似性矩阵和拓扑相似性矩阵进行融合得到疾病相似性矩阵S_d和表型的相似性矩阵S_p。

由于HPO、OMIM、人类疾病本体库中的数据不够完备和不够统一的原因，在应用基于边的方法探究疾病、表型潜在语义相似性时，不能覆盖整个疾病、表型网络。异构网络的拓扑结构具有一定的真实性和可参考性，因此利用网络拓扑结构计算疾病、表型本体的相似性是比较可行的。因此，采用基于边的方法和高斯核函数融合的方法挖掘疾病、表型自身潜在的相似性。将步骤(2)得到的疾病语义相似性矩阵S_dis和步骤(3)得到的疾病拓扑相似性矩阵 K_d进行融合得到疾病相似性矩阵S_d。将步骤(2)得到的表型语义相似性矩阵S_hpo和步骤(3) 得到的表型拓扑相似性矩阵K_p进行融合得到表型相似性矩阵S_p。

(5)利用二部图算法计算基因-疾病二分网络中的链接权重

为了解决二部图算法资源均等扩散这一问题，采用整合邻接矩阵的方式，将疾病相似性融入基因-疾病二分网络中，实现资源的非均等扩散；同时为了解决二部图算法削弱已有链接权重这一问题，本文对算法进行了修改。步骤分解如下：

(a)将步骤(4)得到的疾病相似性矩阵S_d融入基因-疾病二分网络中，即将基因疾病邻接矩阵S_gd与疾病相似性矩阵S_d相乘，构建基因疾病整合邻接矩阵A_gd。

(b)先进行疾病到基因的第一次资源扩散，即资源通过基因疾病整合邻接矩阵A_gd从疾病扩散到基因。

(c)再进行基因到疾病的第二次资源扩散，将(b)中第一次资源扩散的结果通过基因疾病整合邻接矩阵A_gd从基因扩散到疾病，并将第二次扩散的结果与步骤(1)中初始的基因疾病的关联关系(即基因疾病邻接矩阵S_gd)按比例结合。

通过步骤(5)可以得到基因-疾病关联矩阵WS_gd，该矩阵中的每一个数值代表基因到疾病的关联程度。

(6)利用二部图算法计算疾病-表型网络中的链接权重

步骤分解如下：

(a)将步骤(4)得到的表型相似性矩阵S_p融入疾病-表型二分网络中，即将疾病表型邻接矩阵S_dp与表型相似性矩阵S_p相乘，构建疾病表型的整合邻接矩阵A_dp。

(b)先进行表型到疾病的第一次资源扩散，即资源通过疾病表型整合邻接矩阵A_dp从表型扩散到疾病。

(c)再进行疾病到表型的第二次资源扩散，将(b)中第一次资源扩散的结果通过疾病表型整合邻接矩阵A_dp从疾病扩散到表型，并将第二次扩散的结果与步骤(1)中初始的疾病表型的关联关系(即疾病表型邻接矩阵S_dp)按比例结合。

通过步骤(6)可以得到疾病-表型关联矩阵WS_dp，该矩阵中的每一个数值代表疾病到表型的关联程度。

通过前6个步骤形成一个加权的基因-疾病-表型异质网。

(7)基于加权异质网计算基因的相似性

首先计算基因通过基因-疾病-表型-疾病-基因(GDPDG)元路径到每个表型的链接权重，即将步骤(5)中得到的基因-疾病关联矩阵WS_gd和步骤(6)得到的疾病-表型关联矩阵WS_dp相乘得到基因-表型关联矩阵WS_gp。

其次，根据基因-表型关联矩阵WS_gp计算通过基因-疾病-表型-疾病-基因(GDPDG)元路径可达的链接权重之和。

最后，利用PathSim算法计算基因间的相似度。

与现有技术相比，本发明具有以下明显的优势和较好的效果：

本发明提出了一种加权元路径基因相似性搜索算法gSim-Search。该算法将疾病本体、表型本体的有向无环图与基因-疾病-表型异质网进行融合，在此基础上利用二部图算法在基因-疾病-表型异质网中挖掘出更多潜在的链接关系，并合理地量化和表达链接的关联权重，从而提升了基因关联搜索的准确率。

附图说明

图1疾病本体的语义贡献值图；

图2表型本体的语义贡献值图；

图3疾病本体高斯核相似性计算过程图；

图4表型本体高斯核相似性计算过程图；

图5疾病语义和拓扑相似性融合过程图；

图6表型语义和拓扑相似性融合过程图；

图7构建基因疾病整合邻接矩阵图；

图8利用二部图算法计算基因-疾病网络中的链接权重过程图；

图9构建疾病表型整合邻接矩阵图；

图10利用二部图算法计算疾病-表型网络中的链接权重过程图；

图11基因-疾病-表型生物信息网络模型图；

图12计算WS_gp矩阵图；

图13计算路径权重之和过程图；

图14计算基因相似性过程图；

具体实施方式

下面结合附图和具体实施方式对本发明做进一步的描述。

步骤1，建立基因-疾病-表型异质网、疾病本体有向无环图和表型本体有向无环图、基因-疾病二分网络、疾病-表型二分网络。

使用MySQL数据库存储基因-疾病-表型异质网中的链接关系。疾病本体和表型本体的有向无环图是通过邻接矩阵的方式构建的。在构建疾病本体、表型本体的有向无环图时，我们分别使用邻接矩阵来存储该疾病以及其祖先疾病、表型以及其祖先表型。下面是构建基因疾病邻接矩阵S_gd和疾病表型邻接矩阵S_dp的方法：通过MySQL中存储的基因-疾病-表型链接关系，首先从中分别获取不同的基因、疾病和表型的id，并分别为每个基因、疾病和表型从0开始进行编号，这些编号对应矩阵的下标，将其保存在对应的数据库中。在构建S_gd时，通过数据库多表连接查询可以得到对应的基因、疾病的下标，在矩阵中对应的位置填充”1”，其它的数据库中没有遍历到的下标填充“0”。在构建S_dp时，通过数据库多表连接查询可以得到对应的疾病、表型的下标，在矩阵中对应的位置填充”1”，其它的数据库中没有遍历到的下标填充“0”。

步骤2，计算疾病本体和表型本体的语义相似性矩阵。

计算疾病的语义相似性。首先计算疾病d的每个祖先疾病(包括疾病d)对d的语义贡献值R_d，疾病本体的语义贡献值如图1所示，各个疾病对疾病“DOID:4084”的语义贡献度已用文字标出。计算公式如(1)所示：

其中，R_d(v)表示疾病d的每个祖先疾病(包括疾病d)贡献给疾病d的语义值，v'表示疾病节点，V_d表示疾病d的祖先节点和疾病d组成的集合，W＝0.7是赋予的经验权重。 R_d(v')表示疾病v'对疾病d的所有可能的语义贡献值，由于路径层次不同，所以R_d(v')对疾病d的语义贡献值也不同，因此，max表示选取最大值作为疾病d的祖先疾病贡献给疾病d语义值。

然后，将疾病d的所有祖先疾病对其语义贡献值进行累加，得到疾病d获得的语义值 R_s(d)，见公式(2)。

R_s(d)＝∑_v∈VdR_d(v) (2)

其中，R_s(d)表示疾病d的所有祖先疾病(包括疾病d)对疾病d的语义贡献值，此处的R_d(v)表示疾病d的每个祖先疾病(包括疾病d)贡献给疾病d的语义值，v∈V_d表示节点v 属于疾病d的祖先集合V_d(V_d中包括疾病d)。

最后根据公式(1)可以得到R_d(v)，将其代入公式(2)可以得到R_s(d)，将公式(1)得到的 R_d(v)和公式(2)得到的R_s(d)代入公式(3)，可以计算出任意两个疾病d_i、d_j的语义相似性，则d_i和d_j的语义相似性计算公式见公式(3)。

其中，V_di表示疾病d_i的祖先疾病集合，V_dj表示疾病d_j的祖先疾病集合，v∈V_di∩V_dj表示疾病v为疾病d_i和d_j的公共祖先疾病，R_di(v)表示每个公共祖先疾病对疾病d_i的语义贡献值，R_dj(v)表示每个公共祖先疾病对疾病d_j的语义贡献值，R_s(d_i)为疾病d_i的所有祖先疾病(包括疾病d_i)对疾病d_i的语义贡献值，R_s(d_j)为疾病d_j的所有祖先疾病(包括疾病d_j) 对疾病d_j的语义贡献值，S_dis(d_i,d_j)表示疾病d_i和疾病d_j的语义相似性。

利用以上公式进行重复计算即可得到疾病的语义相似性矩阵S_dis。

计算表型的语义相似性。首先计算表型p的每个祖先表型(包括表型p)对p的语义贡献值R_p，表型本体的语义贡献值如图2所示，各个表型对表型“HP:0000032”的语义贡献度已用文字标出。计算公式如(4)所示。

其中，R_p(v)表示表型p的每个祖先表型(包括表型p)贡献给表型p的语义值，v'表示表型节点，V_p表示表型p的祖先节点和表型p组成的集合，W＝0.7是赋予的经验权重。 R_p(v')表示表型v'对表型p的所有可能的语义贡献值，由于路径层次不同，所以R_p(v')对表型p的语义贡献值也不同，因此，max表示选取最大值作为表型p的祖先表型贡献给表型p语义值。

然后，将表型p的所有祖先表型对其语义贡献值进行累加，得到表型p获得的语义值 R_s(p)，如公式(5)。

其中，R_s(p)表示表型p的所有祖先表型(包括表型p)对表型p的语义贡献值，此处的R_p(v)表示表型p的每个祖先表型(包括表型p)贡献给表型p的语义值，v∈V_p表示节点v 属于表型p的祖先集合V_p(V_p中包括表型p)。

最后，根据公式(4)可以得到R_p(v)，将其代入公式(5)可以得到R_s(p)，将公式(4)得到的R_p(v)和公式(5)得到的R_s(p)代入公式(6)，可以计算出任意两个表型p_i、p_j的语义相似性，则p_i和p_j的语义相似性计算公式见公式(6)。

其中，V_pi表示表型p_i的祖先表型集合，V_pj表示表型p_j的祖先表型集合，v∈V_pi∩V_pj表示表型v为表型pi和p_j的公共祖先表型，R_pi(v)表示每个公共祖先表型对表型p_i的语义贡献值，R_pj(v)表示每个公共祖先表型对表型p_j的语义贡献值，R_s(p_i)为表型p_i的所有祖先表型(包括表型p_i)对表型p_i的语义贡献值，R_s(p_j)为表型p_j的所有祖先表型(包括表型p_j)对表型p_j的语义贡献值，S_hpo(p_i,p_j)表示表型p_i和表型p_j的语义相似性。

利用以上公式进行重复计算即可得到表型的语义相似性矩阵S_hpo。

步骤3，分别计算疾病本体、表型本体的拓扑相似性矩阵。

利用基因-疾病二分网络计算疾病高斯核相似性，用S_dg表示疾病-基因矩阵(即S_gd的转置矩阵)，给定两个疾病，d_i和d_j，设S_dg(di)是一个二进制向量，表示d_i与gene之间是否存在关联关系，若存在关联关系，对应位置的元素为1，否则为0。S_dg(di)和S_dg(dj)分别表示矩阵S_dg的第i行和第j行。则d_i和d_j之间的高斯核相似性计算公式见公式(7)，计算过程如图 3所示。

K_d(d_i,d_j)＝exp(-γ_d||S_dg(di)-S_dg(dj)||²) (7)

其中，S_dg(di)和S_dg(dj)分别表示矩阵S_dg的第i行和第j行，K_d(di,dj)表示d_i和d_j的高斯核相似性，此处γ_d控制高斯核的宽度，γ_d的计算公式见公式(8)。

其中，S_dg(di)表示矩阵S_dg的第i行，N_d表示疾病的个数，这里设γ'_d＝1。

利用疾病-表型二分网络计算表型的拓扑相似性。此处用S_pd表示表型-疾病矩阵(即S_dp的转置矩阵)，给定两个表型，pi和p_j，设S_pd(pi)是一个二进制向量，表示p_i与disease之间是否存在关联关系，若存在关联关系，对应位置的元素为1，否则为0。S_pd(pi)和S_pd(pj)分别表示矩阵S_pd的第i行和第j行，则p_i和p_j之间的高斯核相似性计算公式见公式(3-9)，计算过程如图4所示。

K_p(pi,pj)＝exp(-γ_d||S_pd(pi)-S_pd(pj)||²) (9)

其中，S_pd(pi)和S_pd(pj)分别表示矩阵S_pd的第i行和第j行，K_p(pi,pj)表示p_i和p_j之间的高斯核相似性，此处γ_d控制高斯核的宽度，γ_d的计算公式见公式(10)。

其中，S_pd(pi)表示矩阵S_pd的第i行，N_p表示表型的个数，这里设γ'_d＝1。

步骤4，将语义相似性矩阵和拓扑相似性矩阵进行融合。

疾病相似性矩阵的融合公式分别见公式(11)，融合过程如图5所示，将疾病的语义相似性矩阵S_dis和拓扑相似性矩阵K_d按公式(11)进行融合，得到疾病相似性矩阵S_d。

其中，S_dis(di,dj)表示疾病d_i和d_j的语义相似性，K_d(di,dj)表示疾病d_i和d_j的拓扑相似性，S_d(di,dj)表示疾病d_i和d_j综合语义和拓扑两方面的相似性。

表型相似性矩阵的融合公式分别见公式(12)，融合过程如图6所示，将表型的语义相似性矩阵S_hpo和拓扑相似性矩阵K_p按公式(3-12)进行融合，得到表型相似性矩阵S_p。

其中，S_hpo(pi,pj)表示表型pi和p_j的语义相似性，K_p(pi,pj)表示表型pi和p_j的拓扑相似性，S_p(pi,pj)表示表型p_i和p_j综合语义和拓扑两方面的相似性。

步骤5，利用二部图算法计算基因疾病二分网络中的链接权重。

在步骤5中的第(a)步，构建基因疾病整合邻接矩阵A_gd方法如公式(13)所示，构建过程如图7。

其中，S_gd(i,l)表示基因疾病邻接矩阵S_gd中第i行第l列的元素，S_d(l,j)表示疾病相似性矩阵的第l行第j列的元素，gd_ij表示基因疾病整合邻接矩阵A_gd＝{gd_ij}中第i行第j列的值，N_d代表疾病的个数。

在步骤5中第(b)步，疾病到基因的第一次资源扩散表达式如公式(14)所示。

对于基因集合G，疾病集合D中所有的资源通过基因疾病整合邻接矩阵A_gd扩散到G，则位于第j个节点上G_j的资源为：

其中N_d表示疾病的数目，a_ji表示基因疾病整合邻接矩阵A_gd中基因和疾病间的链接关联程度，r_i(d_i)表示S_gd中初始化的疾病资源，K(d_i)表示基因疾病整合邻接矩阵A_gd中第i个疾病所在列向量之和，r_d-＞g_(j)表示疾病扩散到g_(j)的资源。

在步骤5中第(c)步，基因到疾病的第二次资源扩散表达式如公式(15)所示。

基因集合G上的所有资源通过基因疾病整合邻接矩阵A_gd扩散到疾病集合D，D_i获得的资源为：

其中N_g表示基因的数目，a_ji表示基因疾病整合邻接矩阵A_gd中基因和疾病间的链接关联程度，r_j(g_j)表示疾病扩散到基因的资源，K(g_j)表示基因疾病整合邻接矩阵A_gd中第j个基因所在的行向量之和，seed代表基因种子节点的下标，a_seedi表示A_gd矩阵中的第seed行第i列，r_g-＞d_(i)表示基因扩散到疾病d_i的资源，α表示参数，通过迭代法进行确定。

至此可以得到WS_gd矩阵。

利用二部图算法计算基因-疾病二分网络中的链接权重的过程如图8，其中矩阵S_gd表示基因-疾病之间的邻接关系，该矩阵的第i行代表以g_i为种子节点时，疾病的初始化资源。图中种子节点为g₁时(用圆圈圈出)，初始化资源为S_gd的第一行(在S_gd矩阵中用方框圈出)。 A_gd的第i列代表以g_i为种子节点时资源第一次非均等扩散的权重，该矩阵的第i行代表以 g_i为种子节点时资源第二次非均等扩散的权重。在图8中该矩阵的第1列代表以g₁为种子节点时资源第一次非均等扩散的权重(在A_gd矩阵中用纵向方框框出)，该矩阵的第1行代表以g₁为种子节点时资源第二次非均等扩散的权重(在A_gd矩阵中用横向方框框出)。

步骤6，利用二部图算法计算疾病-表型二分网络中的链接权重。

在步骤6中所述的利用二部图算法计算疾病-表型网络中链接权重的过程如下所示：

首先，构建疾病表型整合邻接矩阵A_dp＝{dp_ij}，表达式见公式(16)，构建过程如图9。

其中，S_dp(i,l)表示疾病表型邻接矩阵S_dp中第i行第l列的元素，S_p(l,j)表示表型相似性矩阵的第l行第j列的元素，dp_ij表示疾病表型整合邻接矩阵A_dp＝{dp_ij}中第i行第j列的值，N_p代表表型的个数。

然后，资源从表型扩散到疾病，表达式如公式(17)所示。

表型集合P中所有资源通过疾病表型整合邻接矩阵A_dp扩散到疾病集合D，则位于第j个节点上D_j的资源为：

其中N_p表示表型的数目，a_ji表示疾病表型整合邻接矩阵A_dp中疾病和表型间的链接关联程度，r_i(p_i)表示S_dp中初始化的表型资源，K(p_i)表示矩阵A_dp中第i个表型所在列向量之和，r_p-＞d_(j)表示表型扩散到疾病d_(j)的资源。

最后，资源再从疾病扩散到表型，表达式如公式(18)所示。

疾病集合D上的所有资源通过疾病表型整合邻接矩阵A_dp扩散到表型集合P，P_i获得的资源为：

其中N_d表示疾病的数目，a_ji表示疾病表型整合邻接矩阵A_dp中疾病和表型间的链接关联程度，r_j(d_j)表示表型扩散到疾病的资源，K(d_j)表示A_dp矩阵中第j个疾病所在的行向量之和，seed代表疾病种子节点的下标，a_seedi表示A_dp矩阵中的第seed行第i列，rd-＞p₍i)表示疾病扩散到表型pi的资源，β表示参数，通过迭代法进行确定。

至此可以得到WS_dp矩阵。

利用二部图算法计算疾病-表型二分网络中的链接权重过程见图10，其中矩阵S_dp表示疾病-表型之间的邻接关系，该矩阵的第i行代表以d_i为种子节点时，表型的初始化资源。图中种子节点为d₁时(用圆圈圈出)，初始化资源为S_dp的第一行(在S_dp矩阵中用方框圈出)。 A_dp中的第i列代表以d_i为种子节点时资源第一次非均等扩散的权重，该矩阵的第i行代表以 d_i为种子节点时资源第二次非均等扩散的权重。该矩阵的第1列代表以d₁为种子节点时资源第一次非均等扩散的权重(在A_dp矩阵中用纵向方框框出)，该矩阵的第1行代表以d₁为种子节点时资源第二次非均等扩散的权重(在A_dp矩阵中用横向方框框出)。

步骤7，基于加权异质网计算基因的相似性

通过一个简单的基因-疾病-表型生物信息网络来说明gSim-Search算法原理，基因-疾病 -表型生物信息网络模型图如图11所示。

首先将步骤5得到的WS_gd矩阵和步骤6得到的WS_dp矩阵相乘得到WS_gp矩阵，如图12。

然后，计算满足元路径(基因-疾病-表型-疾病-基因)的路径权重之和，计算公式见公式 (19)，计算过程如图13。

其中，WS_gp由WS_gd矩阵和WS_dp矩阵相乘得到，通过步骤5可以得到WS_gd矩阵，通过步骤6可以得到WS_dp矩阵，WS_gd矩阵中的数值表示基因到疾病的关联程度，WS_dp矩阵中的数值表示疾病到表型的关联程度，N_p表示表型的个数，weights(g_i,g_j)表示gi到g_j满足元路径(基因-疾病-表型-疾病-基因)的路径权重之和。

最后，计算基因相似性，计算公式见公式(20)，计算过程如图14。

其中，wp_gi→gj代表gi和g_j间所有路径上的链接权重之和；

wp_gi→gi代表g_i和g_i间所有路径上的链接权重之和；

wp_gj→gj代表g_j到g_j间所有路径上的链接权重之和。

WP表示加权的基因-疾病-表型-疾病-基因元路径，gSim(_gi,gj)表示基因gi和g_j的相似度。

Claims

1.一种基于异质网的基因相似性搜索算法，其特征在于，采用如下步骤：

步骤1、建立基因-疾病-表型异质网、疾病本体有向无环图、表型本体有向无环图、基因-疾病二分网络即基因疾病邻接矩阵S_gd、疾病-表型二分网络即疾病表型邻接矩阵S_dp；

通过对获取到的基因-疾病-表型关联数据、疾病本体数据、表型本体数据进行整理和处理，构建基因-疾病-表型异质网、疾病本体有向无环图、表型本体有向无环图、基因-疾病二分网络和疾病-表型二分网络；

步骤2、基于步骤1中构建的疾病本体和表型本体的有向无环图，利用一种基于边的方法分别计算疾病语义相似性矩阵S_dis和表型的语义相似性矩阵S_hpo；

步骤3、利用高斯核函数计算疾病本体的拓扑相似性矩阵K_d和表型本体的拓扑相似性矩阵K_p：

在步骤1构建的基因疾病邻接矩阵S_gd和疾病表型邻接矩阵S_dp的基础上，采用高斯核函数计算疾病本体的拓扑相似性矩阵K_d和表型本体的拓扑相似性矩阵K_p；

步骤4、分别将疾病和表型的语义相似性矩阵和拓扑相似性矩阵进行融合得到疾病相似性矩阵S_d和表型的相似性矩阵S_p；

将步骤2得到的疾病语义相似性矩阵S_dis和步骤3得到的疾病拓扑相似性矩阵K_d进行融合得到疾病相似性矩阵S_d；将步骤2得到的表型语义相似性矩阵S_hpo和步骤3得到的表型拓扑相似性矩阵K_p进行融合得到表型相似性矩阵S_p；

步骤5、利用二部图算法计算基因-疾病二分网络中的链接权重：

(a)将步骤4得到的疾病相似性矩阵S_d融入基因-疾病二分网络中，即将基因疾病邻接矩阵S_gd与疾病相似性矩阵S_d相乘，构建基因疾病整合邻接矩阵A_gd；

(b)先进行疾病到基因的第一次资源扩散，即资源通过基因疾病整合邻接矩阵A_gd从疾病扩散到基因；

(c)再进行基因到疾病的第二次资源扩散，将(b)中第一次资源扩散的结果通过基因疾病整合邻接矩阵A_gd从基因扩散到疾病，并将第二次扩散的结果与步骤1中初始的基因疾病的关联关系即基因疾病邻接矩阵S_gd按比例结合；

通过步骤5得到基因-疾病关联矩阵WS_gd，该矩阵中的每一个数值代表基因到疾病的关联程度；

步骤6、利用二部图算法计算疾病-表型二分网络中链接的权重：

(a)将步骤4得到的表型相似性矩阵S_p融入疾病-表型二分网络中，即将疾病表型邻接矩阵S_dp与表型相似性矩阵S_p相乘，构建疾病表型的整合邻接矩阵A_dp；

(b)先进行表型到疾病的第一次资源扩散，即资源通过疾病表型整合邻接矩阵A_dp从表型扩散到疾病；

(c)再进行疾病到表型的第二次资源扩散，将(b)中第一次资源扩散的结果通过疾病表型整合邻接矩阵A_dp从疾病扩散到表型，并将第二次扩散的结果与步骤1中初始的疾病表型的关联关系即疾病表型邻接矩阵S_dp按比例结合；

通过步骤6得到疾病-表型关联矩阵WS_dp，该矩阵中的每一个数值代表疾病到表型的关联程度；

通过前6个步骤形成一个加权的基因-疾病-表型异质网；

步骤7、在加权的基因-疾病-表型异质网中，应用PathSim算法计算基因的相似性：

首先计算基因通过基因-疾病-表型-疾病-基因元路径到每个表型的链接权重，即将步骤5中得到的基因-疾病关联矩阵WS_gd和步骤6得到的疾病-表型关联矩阵WS_dp相乘得到基因-表型关联矩阵WS_gp；

其次，根据基因-表型关联矩阵WS_gp计算通过基因-疾病-表型-疾病-基因元路径可达的链接权重之和；

最后，利用PathSim算法计算基因间的相似度。

2.根据权利要求1所述的一种基于异质网的基因相似性搜索算法，其特征在于，包含如下步骤：

在步骤1中所述的建立基因-疾病-表型异质网、疾病本体有向无环图、表型本体有向无环图基因-疾病二分网络、疾病表型二分网络，构建方法如下所示：

使用MySQL数据库存储基因-疾病-表型异质网中的链接关系；疾病本体和表型本体的有向无环图是通过邻接矩阵的方式构建的；在构建疾病本体、表型本体的有向无环图时，我们分别使用邻接矩阵来存储该疾病以及其祖先疾病、表型以及其祖先表型；下面是构建基因疾病邻接矩阵S_gd和疾病表型邻接矩阵S_dp的方法：通过MySQL中存储的基因-疾病-表型链接关系，首先从中分别获取不同的基因、疾病和表型的id，并分别为每个基因、疾病和表型从0开始进行编号，这些编号对应矩阵的下标，将其保存在对应的数据库中；在构建S_gd时，通过数据库多表连接查询得到对应的基因、疾病的下标，在矩阵中对应的位置填充”1”，其它的数据库中没有遍历到的下标填充“0”；在构建S_dp时，通过数据库多表连接查询得到对应的疾病、表型的下标，在矩阵中对应的位置填充”1”，其它的数据库中没有遍历到的下标填充“0”。

3.根据权利要求1所述的一种基于异质网的基因相似性搜索算法，其特征在于，包含如下步骤：

在步骤2中所述的采用一种基于边的方法计算疾病本体和表型本体的语义相似性矩阵，计算过程如下所示：

计算疾病的语义相似性；首先计算疾病d的每个祖先疾病包括疾病d对d的语义贡献值R_d，计算公式见公式(1)；

其中，R_d(v)表示疾病d的每个祖先疾病包括疾病d贡献给疾病d的语义值，v'表示疾病节点，V_d表示疾病d的祖先节点和疾病d组成的集合，W＝0.7；R_d(v')表示疾病v'对疾病d的所有可能的语义贡献值，由于路径层次不同，所以R_d(v')对疾病d的语义贡献值也不同，因此，max表示选取最大值作为疾病d的祖先疾病贡献给疾病d语义值；

然后，将疾病d的所有祖先疾病对其语义贡献值进行累加，得到疾病d获得的语义值R_s(d)，见公式(2)；

R_s(d)＝∑_v∈VdR_d(v) (2)

其中，R_s(d)表示疾病d的所有祖先疾病包括疾病d对疾病d的语义贡献值，此处的R_d(v)表示疾病d的每个祖先疾病贡献给疾病d的语义值，v∈V_d表示节点v属于疾病d的祖先集合V_d；

最后根据公式(1)得到R_d(v)，将其代入公式(2)得到R_s(d)，将公式(1)得到的R_d(v)和公式(2)得到的R_s(d)代入公式(3)，计算出任意两个疾病d_i、d_j的语义相似性，则d_i和d_j的语义相似性计算公式见公式(3)；

其中，V_di表示疾病d_i的祖先疾病集合，V_dj表示疾病d_j的祖先疾病集合，_{v∈Vdi∩Vdj}表示疾病v为疾病d_i和d_j的公共祖先疾病，R_di(v)表示每个公共祖先疾病对疾病d_i的语义贡献值，R_dj(v)表示每个公共祖先疾病对疾病d_j的语义贡献值，R_s(d_i)为疾病d_i的所有祖先疾病包括疾病d_i对疾病d_i的语义贡献值，R_s(d_j)为疾病d_j的所有祖先疾病包括疾病d_j对疾病d_j的语义贡献值，S_dis(d_i,d_j)表示疾病d_i和疾病d_j的语义相似性；

利用以上公式进行重复计算得到疾病的语义相似性矩阵S_dis；

计算表型的语义相似性；首先计算表型p的每个祖先表型(包括表型p)对p的语义贡献值R_p，计算公式如(4)所示；

其中，R_p(v)表示表型p的每个祖先表型包括表型p贡献给表型p的语义值，v'表示表型节点，V_p表示表型p的祖先节点和表型p组成的集合，W＝0.7；R_p(v')表示表型v'对表型p的所有可能的语义贡献值，由于路径层次不同，所以R_p(v')对表型p的语义贡献值也不同，因此，max表示选取最大值作为表型p的祖先表型贡献给表型p语义值；

然后，将表型p的所有祖先表型对其语义贡献值进行累加，得到表型p获得的语义值R_s(p)，如公式(5)；

其中，R_s(p)表示表型p的所有祖先表型包括表型p对表型p的语义贡献值，此处的R_p(v)表示表型p的每个祖先表型贡献给表型p的语义值，v∈V_p表示节点v属于表型p的祖先集合V_p；

最后，根据公式(4)得到R_p(v)，将其代入公式(5)得到R_s(p)，将公式(4)得到的R_p(v)和公式(5)得到的R_s(p)代入公式(6)，计算出任意两个表型p_i、p_j的语义相似性，则p_i和p_j的语义相似性计算公式见公式(6)；

其中，V_pi表示表型p_i的祖先表型集合，V_pj表示表型p_j的祖先表型集合，v∈V_pi∩V_pj表示表型v为表型p_i和p_j的公共祖先表型，R_pi(v)表示每个公共祖先表型对表型p_i的语义贡献值，R_pj(v)表示每个公共祖先表型对表型p_j的语义贡献值，R_s(p_i)为表型p_i的所有祖先表型包括表型p_i对表型p_i的语义贡献值，R_s(p_j)为表型p_j的所有祖先表型包括表型p_j对表型p_j的语义贡献值，S_hpo(p_i,p_j)表示表型p_i和表型p_j的语义相似性；

利用以上公式进行重复计算得到表型的语义相似性矩阵S_hpo。

4.根据权利要求1所述的一种基于异质网的基因相似性搜索算法，其特征在于，包含如下步骤：

在步骤3中所述的计算疾病本体和表型本体的拓扑相似性，该方法计算过程如下所示：

利用基因-疾病二分网络计算疾病高斯核相似性，用S_dg表示疾病-基因矩阵即S_gd的转置矩阵，给定两个疾病，d_i和d_j，设S_dg(di)是一个二进制向量，表示d_i与gene之间是否存在关联关系，若存在关联关系，对应位置的元素为1，否则为0；S_dg(di)和S_dg(dj)分别表示矩阵S_dg的第i行和第j行；则d_i和d_j之间的高斯核相似性计算公式见公式(7)；

K_d(d_i,d_j)＝exp(-γ_d||S_dg(di)-S_dg(dj)||²) (7)

其中，S_dg(di)和S_dg(dj)分别表示矩阵S_dg的第i行和第j行，K_d(di,dj)表示d_i和d_j的高斯核相似性，此处γ_d控制高斯核的宽度，γ_d的计算公式见公式(8)；

其中，S_dg(di)表示矩阵S_dg的第i行，N_d表示疾病的个数，这里设γ'_d＝1；

利用疾病-表型二分网络计算表型的拓扑相似性；此处用S_pd表示表型-疾病矩阵即S_dp的转置矩阵，给定两个表型，p_i和p_j，设S_pd(pi)是一个二进制向量，表示p_i与disease之间是否存在关联关系，若存在关联关系，对应位置的元素为1，否则为0；S_pd(pi)和S_pd(pj)分别表示矩阵S_pd的第i行和第j行，则p_i和p_j之间的高斯核相似性计算公式见公式(3-9)；

K_p(pi,pj)＝exp(-γ_d||S_pd(pi)-S_pd(pj)||²) (9)

其中，S_pd(pi)和S_pd(pj)分别表示矩阵S_pd的第i行和第j行，K_p(pi,pj)表示p_i和p_j之间的高斯核相似性，此处γ_d控制高斯核的宽度，γ_d的计算公式见公式(10)；

其中，S_pd(pi)表示矩阵S_pd的第i行，N_p表示表型的个数，这里设γ'_d＝1；

步骤4，将语义相似性矩阵和拓扑相似性矩阵进行融合；

疾病相似性矩阵的融合公式分别见公式(11)，将疾病的语义相似性矩阵S_dis和拓扑相似性矩阵K_d按公式(11)进行融合，得到疾病相似性矩阵S_d；

其中，S_dis(di,dj)表示疾病d_i和d_j的语义相似性，K_d(di,dj)表示疾病d_i和d_j的拓扑相似性，S_d(di,dj)表示疾病d_i和d_j综合语义和拓扑两方面的相似性；

表型相似性矩阵的融合公式分别见公式(12)，将表型的语义相似性矩阵S_hpo和拓扑相似性矩阵K_p按公式(3-12)进行融合，得到表型相似性矩阵S_p；

其中，S_hpo(pi,pj)表示表型p_i和p_j的语义相似性，K_p(pi,pj)表示表型p_i和p_j的拓扑相似性，S_p(pi,pj)表示表型p_i和p_j综合语义和拓扑两方面的相似性。

5.根据权利要求1所述的一种基于异质网的基因相似性搜索算法，其特征在于，包含如下步骤：

在步骤5中的第(a)步，构建基因疾病整合邻接矩阵A_gd方法如公式(13)所示；

其中，S_gd(i,l)表示基因疾病邻接矩阵S_gd中第i行第l列的元素，S_d(l,j)表示疾病相似性矩阵的第l行第j列的元素，gd_ij表示基因疾病整合邻接矩阵A_gd＝{gd_ij}中第i行第j列的值，N_d代表疾病的个数；

在步骤5中第(b)步，疾病到基因的第一次资源扩散表达式如公式(14)所示；

其中N_d表示疾病的数目，a_ji表示基因疾病整合邻接矩阵A_gd中基因和疾病间的链接关联程度，r_i(d_i)表示S_gd中初始化的疾病资源，K(d_i)表示基因疾病整合邻接矩阵A_gd中第i个疾病所在列向量之和，r_d-＞g_(j)表示疾病扩散到g_(j)的资源；

在步骤5中第(c)步，基因到疾病的第二次资源扩散表达式如公式(15)所示；

其中N_g表示基因的数目，a_ji表示基因疾病整合邻接矩阵A_gd中基因和疾病间的链接关联程度，r_j(g_j)表示疾病扩散到基因的资源，K(g_j)表示基因疾病整合邻接矩阵A_gd中第j个基因所在的行向量之和，seed代表基因种子节点的下标，a_seedi表示A_gd矩阵中的第seed行第i列，r_g-＞d_(i)表示基因扩散到疾病d_i的资源，α表示参数，通过迭代法进行确定；

至此得到WS_gd矩阵。

6.根据权利要求1所述的一种基于异质网的基因相似性搜索算法，其特征在于，包含如下步骤：

首先，构建疾病表型整合邻接矩阵A_dp＝{dp_ij}，表达式见公式(16)；

其中，S_dp(i,l)表示疾病表型邻接矩阵S_dp中第i行第l列的元素，S_p(l,j)表示表型相似性矩阵的第l行第j列的元素，dp_ij表示疾病表型整合邻接矩阵A_dp＝{dp_ij}中第i行第j列的值，N_p代表表型的个数；

然后，资源从表型扩散到疾病，表达式如公式(17)所示；

其中N_p表示表型的数目，a_ji表示疾病表型整合邻接矩阵A_dp中疾病和表型间的链接关联程度，r_i(p_i)表示S_dp中初始化的表型资源，K(p_i)表示矩阵A_dp中第i个表型所在列向量之和，r_p-＞d_(j)表示表型扩散到疾病d_(j)的资源；

最后，资源再从疾病扩散到表型，表达式如公式(18)所示；

其中N_d表示疾病的数目，a_ji表示疾病表型整合邻接矩阵A_dp中疾病和表型间的链接关联程度，r_j(d_j)表示表型扩散到疾病的资源，K(d_j)表示A_dp矩阵中第j个疾病所在的行向量之和，seed代表疾病种子节点的下标，a_seedi表示A_dp矩阵中的第seed行第i列，r_d-＞p_(i)表示疾病扩散到表型pi的资源，β表示参数，通过迭代法进行确定；

至此得到WS_dp矩阵。

7.根据权利要求1所述的一种基于异质网的基因相似性搜索算法，其特征在于，包含如下步骤：

在步骤7中所述的应用PathSim算法计算基因的相似性，计算过程如下：

首先将步骤5得到的WS_gd矩阵和步骤6得到的WS_dp矩阵相乘得到WS_gp矩阵；

然后，计算满足元路径即基因-疾病-表型-疾病-基因的路径权重之和，计算公式见公式(19)；

其中，WS_gp由WS_gd矩阵和WS_dp矩阵相乘得到，通过步骤5得到WS_gd矩阵，通过步骤6得到WS_dp矩阵，WS_gd矩阵中的数值表示基因到疾病的关联程度，WS_dp矩阵中的数值表示疾病到表型的关联程度，N_p表示表型的个数，weights(g_i,g_j)表示g_i到g_j满足元路径(基因-疾病-表型-疾病-基因)的路径权重之和；

最后，计算基因相似性，计算公式见公式(20)；

其中，wp_gi→gj代表g_i和g_j间所有路径上的链接权重之和；

wp_gi→gi代表g_i和g_i间所有路径上的链接权重之和；

wp_gj→gj代表g_j到g_j间所有路径上的链接权重之和；

WP表示加权的基因-疾病-表型-疾病-基因元路径，gSim(_gi,gj)表示基因g_i和g_j的相似度。