CN109920478B

CN109920478B - 一种基于相似性和低秩矩阵填充的微生物-疾病关系预测方法

Info

Publication number: CN109920478B
Application number: CN201910173280.9A
Authority: CN
Inventors: 王建新; 严承; 张雅妍; 朱粤婕
Original assignee: Central South University
Current assignee: HUNAN CREATOR INFORMATION TECHNOLOGIES CO LTD
Priority date: 2019-03-07
Filing date: 2019-03-07
Publication date: 2020-12-08
Anticipated expiration: 2039-03-07
Also published as: CN109920478A

Abstract

本发明公开了一种基于相似性和低秩矩阵填充的微生物‑疾病关系预测方法，首先通过疾病高斯核相似性、疾病表征相似性和疾病功能相似性均值集成方式得到最终的疾病相似性。利用已知的微生物‑疾病关联关系计算微生物的高斯核相似性，再根据微生物的寄生组织信息对高斯核相似性进行调节处理，得到最终的微生物相似性。最终通过已知微生物‑疾病关联关系将微生物相似性网络和疾病相似性网络进行连接，构建一个微生物和疾病的异构网络。根据此异构网络的关联关系矩阵，采用低秩矩阵填充的方法来进行微生物‑疾病关联关系的预测，并在填充之前增加了关联关系初始化处理过程提高了其预测精度。本发明能够有效预测微生物‑疾病关联关系。

Description

一种基于相似性和低秩矩阵填充的微生物-疾病关系预测方法

技术领域

本发明属于系统生物学领域，涉及一种基于相似性和低秩矩阵填充的微生物-疾病关系预测方法。

背景技术

随着高通量测序技术和微生物组学的发展，许多研究表明微生物与人类疾病之间存在密不可分的关联关系。微生物通过参与代谢、凋亡等重要的生命进程来对人类疾病和身体健康产生影响，比如心血管疾病、自身炎症性疾病以及癌症等。当前对微生物-疾病关联关系主要分为四类。一类是微生物的改变是疾病的直接原因；另一类为微生物和疾病没有直接的关联关系，但是存在一个共同的第三方因素；第三类为疾病能够影响微生物的改变使得其能够作为疾病诊断的生物标记；最后一类为疾病能够影响微生物的改变，其反过来又进一步影响疾病的严重程度。所以，确认微生物与疾病之间的关联关系有助于加深对疾病机制的理解，提高疾病的诊断和治疗效率。

此外，研究人员通过手动方式从生物医学实验文献中提取微生物-疾病关联关系建立了微生物-疾病关联关系数据库，为通过计算模型预测微生物-疾病关联关系提供了重要的基础。计算方法相对传统的生物医学实验具有高效、低成本的优势。到目前为止，基于微生物-疾病关系数据库的建立，微生物-疾病关联关系预测的方法也得到了发展。KATZHMDA方法通过集成疾病的表征和高斯核相似性，微生物高斯核相似性和已知的微生物-疾病关联关系利用基于KATZ度信息的网络方法来预测微生物-疾病关联关系。在基于网络路径的PBHMDA方法中，利用了已知的微生物高斯核相似性，疾病高斯核相似性和已知的微生物-疾病关联关系来预测潜在的微生物-疾病关联关系。NGRHMDA也利用了疾病的表征相似性和高斯核相似性，微生物高斯核相似性和已知的微生物-疾病关系来预测新的微生物-疾病关联关系。该方法的主要特点是最终的候选微生物-疾病对的关联关系分数通过基于邻居的预测模型和基于图的预测模型的均值来得到。LRLSHMDA是一个基于最小二乘法的机器学习方法，其也利用了疾病的高斯核相似性，微生物高斯核相似性和已知的微生物-疾病关联关系。这些方法在微生物-疾病关系的预测上取得了不错的预测效果，也为后续的研究提供了可能的删选依据。

但是，在当前的微生物-疾病关系的预测过程中，还存在噪声，影响最终的预测性能。比如，在对疾病的生物网络信息的集成中，这些方法都只利用了疾病的高斯核相似性或者疾病表征相似性，而对疾病的功能相似性没有考虑。此外微生物的寄生组织信息也是值得考虑的一个重要方面。故介于传统的生物医学实验在试验环境、效率和成本方面的限制，迫切需要通过计算模型来确认潜在的微生物-疾病关联关系。尽管当前已有的预测方法取得了不错的进展，但还是有进一步改进的余地。总而言之，当前对微生物-疾病关联关系的理解还是远远不够的，对发展更加有效的计算模型来预测微生物-疾病关系提出了紧迫的需求。为了更加系统的理解疾病的致病机理，提高疾病的诊断和治疗效率，有必要提出一种有效的微生物-疾病关联关系预测的计算方法。

发明内容

本发明所要解决的技术问题是，针对当前通过计算模型对微生物-疾病关系进行预测的方法中存在的微生物和疾病相关生物信息利用不够的问题，提出一种基于相似性和低秩矩阵填充的微生物-疾病关系预测方法，该方法集成疾病高斯核、表征相似性和功能相似性的均值来得到最终的疾病相似性网络，微生物相似性在高斯核相似性基础上利用其寄生组织信息进行调节来获取。本发明能够充分利用微生物和疾病相关生物信息，以减少预测过程中的噪声，能较准确的预测微生物-疾病关系，为后续生物医学实验提供基础，进一步提高疾病的诊断和治疗效率。

本发明的技术解决方案如下：

一种基于相似性和低秩矩阵填充的微生物-疾病关系预测方法,包括以下步骤：

步骤1：构建疾病功能相似性矩阵D_funsim、疾病的表征相似性矩阵D_symsim、疾病高斯核相似性矩阵K_GIP,d和微生物高斯核相似性矩阵K_GIP,m；

步骤2：集成疾病功能相似性矩阵D_funsim、疾病的表征相似性矩阵D_symsim和疾病高斯核相似性矩阵K_GIP,d，得到最终的疾病相似性矩阵S_d；

步骤3：根据微生物寄生组织信息对微生物高斯核相似性矩阵K_GIP,m进行调节处理，得到最终的微生物相似性矩阵S_m；

步骤4：根据获取微生物相似性矩阵S_m和疾病相似性矩阵S_d对不存在任何已知的关联关系的微生物/疾病的关联关系进行初始化处理；

步骤5：利用已知的微生物-疾病关联关系将微生物相似性网络和疾病相似性网络连接起来构建一个双层的异构网络，基于此异构网络的邻接矩阵利用低秩矩阵填充方法对微生物-疾病对的关联关系进行预测(预测潜在的关联关系)。

进一步地，所述步骤1中，首先根据已知的疾病-基因关系和基因—基因的功能相似性计算两种疾病之间的功能相似性，然后由所有疾病两两之间的功能相似性构建疾病功能相似性矩阵D_funsim；

对于任意两种疾病d_i和d_j，其功能相似性计算公式如下：

其中，G_i＝{g_i1,g_i2,......,g_iM}和G_j＝{g_j1,g_j2,......,g_jN}分别为与疾病d_i和d_j相关联的基因集合，M和N分别为基因集合G_i和G_j中的基因数目；

为基因g_im与基因集合G_j的功能相似性值，

为基因g_jn与基因集合G_i的功能相似性值，其计算公式如下：

其中F(g_im,g_jn)为基因g_im和g_jn之间的功能相似性值，在HumanNet数据库提供了基于对数似然函数的基因之间的功能相似性值计算方式：

F(g_im,g_jn)＝LLS(g_im,g_jn).

其中，LLS表示对数似然函数。

进一步地，所述步骤1中，首先根据疾病的表征信息利用余弦夹角的方法来计算两种疾病之间的表征相似性，然后由所有疾病两两之间的表征相似性构建疾病表征相似性矩阵D_symsim；

对于任意两种疾病d_i和d_j，其表征相似性计算公式如下：

其中，w_il和w_jl分别表示疾病d_i和d_j与表征f_l之间的权重，通过0到1之间的值来表示，每种疾病的表征信息通过一个向量来进行表示，以疾病d_i为例，其表征向量定义如下：w_i＝{w_i1,w_i2,...,w_iL}，L为表征的维度。权重计算的基本思想是让出现频率越低的表征在区分疾病上起到更重要的作用，w_il的具体计算公式如下：

其中，W_il用于表示疾病d_i是否存在表征f_l，如果存在则为1，否则为0；另外，N_d和n_l分别代表总的疾病数量和存在表征f_l的疾病数量。

进一步地，所述步骤1中，构建疾病高斯核相似性矩阵K_GIP,d和微生物高斯核相似性矩阵K_GIP,m的过程如下：

首先，定义M＝{m₁,m₂,···,m_Nm}为微生物的集合，N_m为微生物的数量；定义D＝{d₁,d₂,···,d_Nd}为疾病的集合，N_d为疾病的数量；定义Y∈N_m*N_d为微生物和疾病的关联关系矩阵，如果微生物m_h和疾病d_i存在已知的关联关系，则y_hi值为1，否则值为0；

然后，计算所有疾病两两之间的高斯核相似性；对于任意两种疾病d_i和d_j，其高斯核相似性的具体计算过程如下：

K_GIP,d(i,j)＝exp(-γ_d||yd_i-yd_j||²)

其中，

和

分别是表示疾病d_i和d_j与各个微生物的关联关系的向量，γ_d为控制核宽度的调节参数，γ'_d为疾病带宽参数，为经验值；

再计算所有微生物两两之间的高斯核相似性；对于任意两种微生物m_h和m_k，其高斯核相似性的计算方式定义如下：

K_GIP,m(h,k)＝exp(-γ_m||ym_h-ym_k||²)

其中，

和

分别是表示微生物m_h和m_k与各个疾病的关联关系的向量，γ_m为控制核宽度的调节参数，γ'_m为微生物带宽参数，为经验值；

最后，由所有疾病两两之间的高斯核相似性构建疾病高斯核相似性矩阵K_GIP,d，由所有微生物两两之间的高斯核相似性构建微生物高斯核相似性矩阵K_GIP,m。

进一步地，所述步骤2中，最终的疾病相似性矩阵S_d计算公式如下：

即疾病最终相似性为疾病功能相似性、疾病表征相似性和疾病高斯核相似性的平均值。

进一步地，所述步骤3中，微生物相似性矩阵S_m的计算过程如下：

首先，对于任意两种微生物m_h和m_k，根据以下公式调节其高斯核相似性K_GIP,m(h,k)：

其中，α为调节参数，其值根据经验设置为0.5；调节的具体意义为寄生在同一个组织中的微生物增加一个值，使得其具有更高相似性；

然后，基于最大相似性值对S_m(h,k)进行归一化处理，公式如下：

S_m(h,k)＝S_m(h,k)/max(S_m)

其中，max(S_m)为S_m(h,k)中的最大值，h,k＝1,2···,N_m；

最后，由归一化处理后得到的S_m(h,k)，h,k＝1,2···,N_m构成最终的微生物相似性矩阵S_m，其第h行第k列的元素为S_m(h,k)。

进一步地，所述步骤4中初始化处理方法为：若微生物m_h与所有疾病均不存在已知的关联关系(原始矩阵Y中第h行，即ym_h中所有元素均为0)，则根据微生物相似性矩阵S_m通过K近邻方法对ym_h进行处理，公式如下：

其中，Kset(m_h)为与微生物m_h最相似且与疾病存在已知的关联关系的K个邻居的集合，

其中K为经验值；

同样地，若疾病d_i与所有微生物均不存在已知的关联关系(原始矩阵Y中第i列，即yd_i中所有元素均为0)，则根据疾病相似性矩阵S_d通过K近邻方法对yd_i进行处理，公式如下：

其中，Kset(d_i)为与d_i最相似且与微生物存在已知的关联关系的K个邻居的集合；

进一步地，所述步骤5包括以下步骤：

首先，基于初始化处理后的矩阵Y，微生物相似性矩阵S_m和疾病相似性矩阵S_d构建异构网络的邻接矩阵A：

低秩矩阵填充方法的目标在于通过寻找一个秩尽可能低的近似于矩阵A的矩阵A^*。其模型定义如下：

min rank(A^*)

s.t.P_Ω(A^*)＝P_Ω(A)

其中，Ω为矩阵A中已知元素的集合；矩阵A中的未知元素也就是需要预测的潜在的微生物-疾病关联关系，只存在子矩阵Y和Y^T中，Y和Y^T中未知元素的值为0，已知元素的值为1；P_Ω(A)为矩阵A的映射矩阵，若矩阵A中的第(x,y)个元素存在于Ω，则P_Ω(A)中的第(x,y)个元素为A(x,y)，否则为0。由于秩最小化问题为一个NP难问题，故本发明将其近似为一个奇异值总和最小化的优化问题，其定义如下：

s.t.P_Ω(A^*)＝P_Ω(A)

其中，||A^*||_*为矩阵A^*的核范式，||A^*||_F为矩阵A^*的F范式，τ为奇异值阀值参数并设置为τ＝||P_Ω(A)||_F。

通过SVT(singular value thresholding，奇异值阀值)方法对问题进行迭代求解。SVT方法在迭代过程中有两个关键的步骤会产生一系列的中间矩阵{X⁽¹⁾,X⁽²⁾,...}和{Z⁽⁰⁾,Z⁽¹⁾,...}，第t次迭代的表达式如下：

其中，t为迭代次数，t＝1,2,...；δ为迭代步长，为经验值；Z⁰的初始化设置为「τ/(δ||P_Ω(A)||₂)]δP_Ω(A)；D_τ(·)表示软阀值操作，D_τ(·)定义如下：

其中，

为第t次迭代过程中的Z^(t-1)的奇异值分解结果中的奇异值对角矩阵中的第s个对角元素值，S为对角元素的总个数，

和

分别为第t次迭代过程中Z^(t-1)的奇异值分解后得到的左右两个酉矩阵的第s行；

定义为当

时为

否则为0。据此计算方式矩阵的奇异值衰减为0。本发明利用矩阵的奇异值分解(SVD：Singular Value Decompostion)来选择大于τ的奇异值以及其向量。为了控制求解过程中迭代的过程，本发明设置了两个迭代限制条件。第一个为控制迭代步数的限制数maxiter，为经验值。另一个为每次迭代过程中的与矩阵A中的已知元素的误差控制条件，定义如下：

||P_Ω(A-X^(t))||_F＜ε||P_Ω(A)||_F

其中ε为控制近似误差的参数，为经验值。

每一轮迭代过后，判断是否满足上述两个迭代限制条件，若满足中的其中任意一个，则结束迭代，将第i次迭代过程中获得的X^(t)作为最终的结果矩阵，也就是最终的微生物-疾病异构网络邻接矩阵A^*。然后，根据矩阵Y在矩阵A中的位置，在矩阵A^*中获取对应位置的矩阵作为预测得到的微生物-疾病关联关系矩阵，从而得到每一个微生物-疾病对的关联关系分数。关联关系分数越大，存在关联关系可能性越大。

有益效果：

本发明针对当前通过计算模型预测微生物-疾病关系过程中预测性能不高的问题，提出了一种基于相似性和低秩矩阵填充的微生物-疾病关联关系预测方法。首先通过疾病高斯核相似性、疾病表征相似性和疾病功能相似性均值集成方式得到最终的疾病相似性。疾病的高斯核相似性通过已知的微生物-疾病关联关系来计算。疾病表征相似性通过疾病的表征信息采用余弦夹角的方式来计算。疾病的功能相似性通过疾病的疾病-基因关系和基因-基因功能相似性来计算。同样基于已知的微生物-疾病关系计算微生物高斯核相似性，然后基于不同的人体组织寄生的微生物不同的特点，根据微生物的寄生组织信息对高斯核相似性进行调节处理来得到最终的微生物相似性。最终通过已知的微生物-疾病关联关系连接微生物相似性网络和疾病相似性网络得到一个双层异构网络。然后基于该异构网络的邻接矩阵，利用低秩矩阵填充方法来预测微生物-疾病对的关联关系分数。

本发明根据构建的微生物-疾病异构网络的邻接矩阵利用低秩矩阵填充的方法来计算候选微生物-疾病对的关联关系分数。在构建异构网络之前，基于微生物(疾病)相似性通过K近邻的方法对不存在已知的关联关系的微生物(疾病)的关联关系进行了初始化处理，进一步提高了本发明的预测性能。

通过五倍交叉和留一验证的方式来评估本发明的预测性能，采用AUC作为基准的度量指标来表示预测方法的预测性能。与其他方法的预测性能结果的比较表明本发明能够更加有效地预测微生物-疾病之间的关联关系。为后续的生物医学实验提供基本的删选依据，提高其实验效率和节省其实验成本，并提高疾病的诊断和治疗效率。

本发明针对微生物-疾病关系领域，提供了一种微生物-疾病关联关系的预测方法，通过充分利用微生物和疾病相关生物信息，尽可能减少了预测过程中的噪声，能够为有效的预测潜在的微生物-疾病关联关系，有利于系统的理解疾病的致病机理以及提高其治疗和诊断效率。

附图说明

图1基于相似性和低秩矩阵填充的微生物-疾病关系预测方法总体流程图；

图2为本发明与其他比较方法在微生物-疾病关系数据集上的五倍交叉验证比较图；

图3为本发明与其他比较方法在微生物-疾病关系数据集上的留一交叉验证比较图；

图4为本发明微生物相似性调整参数α在五倍交叉中的性能图；

图5为本发明初始化处理过程中参数K在五倍交叉中的性能图；

具体实施方式

以下将结合附图和具体实施例对本发明做进一步详细说明：

首先利用疾病-基因关系和基因-基因功能相似性来计算疾病的功能相似性；利用疾病的表征信息来计算疾病的表征相似性；基于已知的微生物-疾病关系计算疾病高斯核相似性；基于疾病功能相似性，表征相似性和高斯核相似性采用均值的方法来集成疾病的最终相似性。同样，基于已知的微生物-疾病关联关系计算微生物的高斯核相似性，并根据微生物的寄生组织信息对其进行调整得到最终的微生物相似性。利用微生物(疾病)相似性对没有关联关系的微生物(疾病)进行关联关系初始化处理。然后通过已知微生物-疾病关联关系连接微生物相似性网络和疾病相似性网络得到微生物-疾病的异构网络，并基于其邻接矩阵利用低秩矩阵填充的方法来计算微生物-疾病对的关联关系分数。

本发明中使用的微生物-疾病关联关系基础数据来自HMDAD(http://www.cuilab.cn/hmdad)数据库，通过去重处理，最终的微生物种类数目为292，疾病数目为39，微生物疾病关联关系数目为450。另外，疾病的表征数据来自PubMed书目记录，HSDN中提供了疾病的表征相似性数据。疾病-基因关系数据和基因-基因功能相似性数据分别来自于DisGeNET和HumanNet数据库。

基于相似性和低秩矩阵填充的微生物-疾病关系预测的整个流程如图1所示，可以划分为以下几个步骤：

(1)计算疾病功能相似性D_funsim的具体过程为：

首先，以疾病d_i和d_j为例，其功能相似性的计算公式定义如下：

为基因g_im与基因集合G_j的功能相似性值，

为基因g_jn与基因集合G_i的功能相似性值，其计算公式如下：

其中F(g_im,g_jn)为基因g_im和g_jn之间的功能相似性值，具体值从HumanNet数据库中得到。HumanNet数据库中，基因功能相似性值利用对数似然函数来计算，具体计算过程如下：

F(g_im,g_jn)＝LLS(g_im,g_jn).

从HumanNet数据库中，基因2956和4436的功能相似性值为0.9342，再进一步根据疾病-基因关联关系，依照上述计算方式，疾病Asthma和Atopic dermatitis的功能相似性值为0.2590。

(2)计算疾病的表征相似性过程定义如下。首先对疾病的表征信息通过一个二进制向量来进行定义，以疾病d_i为例，其表征信息定义如下：

w_i＝{w_i1,w_i2,...,w_iL}

其中，w_il和w_jl分别表示疾病d_i和d_j与表征f_l之间的权重，通过0到1的值来表示，n为表征的维度。权重计算的基本思想是让出现频率越低的表征在区分疾病上应该起到更重要的作用。w_il的计算方式如下：

其中，W_il用于表示疾病d_i是否存在表征f_l，如果存在则为1，否则为0。另外，N_d和n_l分别代表总的疾病数量和存在表征f_l的疾病数量。接下来，基于疾病的表征信息利用余弦夹角的方法来计算疾病的表征相似性，对应疾病d_i和d_j来说，其表征相似性的具体计算方式如下：

依照上述计算公式，疾病COPD和Asthma的表征相似性为0.3962。

(3)根据已知的微生物疾病关系，构建微生物高斯核相似性的过程如下。首先，定义M＝{m₁,m₂,···,m_Nm}为微生物的集合，N_m为微生物的数量；D＝{d₁,d₂,···,d_Nd}为所有疾病的集合，N_d为疾病的数量；用矩阵Y∈N_m*N_d来表示各微生物与疾病之间是否存在已知的关联关系，如果微生物m_h和疾病d_i存在已知的关联关系，则y_hi值为1，否则值为0；

对于任意两种疾病d_i和d_j，其高斯核相似性的具体计算过程如下：

K_GIP,d(i,j)＝exp(-γ_d||yd_i-yd_j||²)

其中，

和

分别是表示疾病d_i和d_j与各个微生物的关联关系的向量，γ_d为控制核宽度的调节参数，γ'_d为疾病带宽参数，本实施例中依照高斯核使用经验设置为1；依据上述计算公式，疾病Atopic sensitisation和Gastro-oesophageal reflux的高斯核相似性值为0.8409。

K_GIP,m(h,k)＝exp(-γ_m||ym_h-ym_k||²)

其中，

和

分别是表示微生物m_h和m_k与各个疾病的关联关系的向量，γ_m为控制核宽度的调节参数，γ'_m为微生物带宽参数，本实施例中依照高斯核使用经验设置为1；按照上述计算方式，微生物Bacteroidaceae和Aeromonadaceae的高斯核相似性值为0.1427。

(4)根据前面计算的疾病功能相似性D_funsim、疾病表征相似性D_symsim和疾病高斯核相似性K_GIP,d集成最终的疾病相似性，其具体集成方式计算如下：

疾病最终相似性为疾病功能相似性、表征相似性和高斯核相似性的平均值。依据上述计算公式，疾病Allergic asthma和Obesity最终相似性为0.1528。

(5)对微生物高斯核相似性K_GIP,m根据微生物的寄生组织进行调节处理得到最终的微生物相似性。以微生物m_h和m_k为例，其具体的相似性调节过程计算如下：

其中α为调节参数，本实施例中设置为0.5。调节的具体意义为寄生在同一个组织中的微生物增加一个值，让其具有更高的相似性。然后，接下来对微生物相似性值基于最大相似性值做归一化处理来得到最终的相似性矩阵，以微生物m_h和m_k为例，其调节过程如下：

S_m(h,k)＝S_m(h,k)/max(S_m)

其中max(S_m)为矩阵S_m中最大值。按照上述过程，微生物Actinobacillus和Bacteroidales的最终相似性值为0.5154。

(6)根据获取的微生物相似性和疾病相似性对不存在任何已知的关联关系的微生物/疾病的关联关系初始化，其流程如下：

首先，根据微生物相似性(疾病相似性)对不存在已知的关联关系的微生物(疾病)通过K近邻方法进行关联关系初始化，以微生物m_h为例，其初始化过程如下：

其中Kset(m_h)为与微生物m_h最相似且与疾病存在已知的关联关系的K个邻居的集合，本实施例中K的值设置为1。同样也采用同样的方法对不存在关联关系的疾病进行关联关系初始化。以疾病d_i为例，其具体的初始化过程如下：

其中，Kset(d_i)为与d_i最相似且与微生物存在已知的关联关系的K个邻居的集合，K的值与微生物初始化过程中的K取值一样。

(7)基于初始化处理后的微生物-疾病关系矩阵Y，微生物相似性和疾病相似性构建的异构网络的邻接矩阵定义如下：

其中S_m和S_d分别为微生物相似性矩阵和疾病相似性矩阵，Y为经过初始化处理的已知的微生物-疾病关联关系矩阵。

低秩矩阵填充方法的目标在通过寻找一个秩尽可能低的近似于矩阵A的矩阵A^*。其模型定义如下：

min rank(A^*)

s.t.P_Ω(A^*)＝P_Ω(A)

其中Ω为矩阵A中已知元素的集合，P_Ω为映射矩阵，使得其中的第(i,j)个元素存在于时Ω为A(i,j)，否则为0。由于秩最小化问题为一个NP难问题，故我们将其近似为一个奇异值总和最小化的优化问题，其定义如下：

s.t.P_Ω(A^*)＝P_Ω(A)

其中||A^*||_*为矩阵A^*的核范式，||A^*||_F为矩阵的F范式，τ为奇异值阀值参数其设置为τ＝||P_Ω(A)||_F。通过奇异值阀值(SVT：singular value thresholding)方法对问题进行求解。得到最终的结果矩阵A^*。再根据矩阵Y在矩阵A中的位置，在矩阵A^*中获取对应位置的矩阵作为预测得到的微生物-疾病关联关系矩阵，从而得到每一个微生物-疾病对的关联关系分数。

为了进一步说明本发明的有效性，我们采用了两种验证方式来评估其预测性能并与其他方法进行比较：(1)五倍交叉验证；(2)留一验证。五倍交叉验证将已知的微生物-疾病关系随机分成5份，依次选择其中1份为测试集，剩下其他4份为训练集。留一验证依次选择每1条已知的微生物-疾病关系为测试集，剩下其他的为训练集。验证的性能指标通过AUC来表示，AUC值趋向为1时表明算法具备完美的预测性能，小于0.5表明没有预测能力，越大的AUC表明算法的预测性能更好。

图2显示了本发明和其他比较方法在五倍交叉验证中的预测性能。从图中可以看出，本发明MCHMDA的AUC值为0.9251，优于其他4个方法NGRHMDA(0.9025)，LRLSHMDA(0.8797)，BRWH-MDI(0.8676)，KATZHMDA(0.8571)。实验结果证明了本发明在五倍交叉中的预测性能优于其他算法。

图3描述了本发明和其他比较方法在留一验证中的预测性能。从图中也可以看出，本发明MCHMDA的AUC值为0.9495，也同样优于其他4个方法的表现(NGRHMDA：0.9111，LRLSHMDA：0.8909，BRWH-MDI：0.8787，KATZHMDA：8644)。并且在FPR值低的时候，TPR值更高，表明了本发明的预测结果中排名在前的微生物-疾病关系具有更高的准确性。

图4描述了本发明在五倍交叉验证过程中增加的微生物调整过程参数α对预测性能的影响。当α＝0时等价于对其相似性不做任何调整，其预测性能最差，证明了根据微生物寄生组织这个特征能够有效的提高预测性能。此外，当时α＝0.5，本方法取得了最好的预测效果。

图5描述了本发明在五倍交叉验证过程中增加的初始化处理过程中参数对预测性能的影响，当α＝0时等价于未做任何的初始化处理。从图中可以看出当α＝1时，本发明取得了最好的预测性能，证明了增加的初始化过程也有利于本发明取得更好的预测精度。

通过上述案例的实验结果和参数分析表明本发明能够较准确的预测新潜在的微生物-疾病关系。此外，增加的初始化处理过程也进一步提高了预测性能。故本发明有利于理解疾病的致病机制，提高其诊断和治疗效率。

Claims

1.一种基于相似性和低秩矩阵填充的微生物-疾病关系预测方法,其特征在于，包括以下步骤：

步骤5：利用已知的微生物-疾病关联关系将微生物相似性网络和疾病相似性网络连接起来构建一个双层的异构网络，基于此异构网络的邻接矩阵利用低秩矩阵填充方法对微生物-疾病对的关联关系进行预测。

2.根据权利要求1所述的一种基于相似性和低秩矩阵填充的微生物-疾病关系预测方法，其特征在于，所述步骤1中，首先根据已知的疾病-基因关系和基因—基因的功能相似性计算两种疾病之间的功能相似性，然后由所有疾病两两之间的功能相似性构建疾病功能相似性矩阵D_funsim；

对于任意两种疾病d_i和d_j，其功能相似性计算公式如下：

为基因g_im与基因集合G_j的功能相似性值，

为基因g_jn与基因集合G_i的功能相似性值，其计算公式如下：

F(g_im,g_jn)＝LLS(g_im,g_jn)

其中，LLS表示对数似然函数。

3.根据权利要求1所述的一种基于相似性和低秩矩阵填充的微生物-疾病关系预测方法，其特征在于，所述步骤1中，首先根据疾病的表征信息来计算两种疾病之间的表征相似性，然后由所有疾病两两之间的表征相似性构建疾病表征相似性矩阵D_symsim；

对于任意两种疾病d_i和d_j，其表征相似性计算公式如下：

其中，w_i,l和w_j,l分别表示疾病d_i和d_j与表征f_l之间的权重，通过0到1之间的值来表示，w_i,l的具体计算公式如下：

其中，W_il用于表示疾病d_i是否存在表征f_l，如果存在则为1，否则为0；N_d和n_l分别代表总的疾病数量和存在表征f_l的疾病数量。

4.根据权利要求1所述的一种基于相似性和低秩矩阵填充的微生物-疾病关系预测方法，其特征在于，所述步骤1中，构建疾病高斯核相似性矩阵K_GIP,d和微生物高斯核相似性矩阵K_GIP,m的过程如下：

然后，计算所有疾病两两之间的高斯核相似性；

K_GIP,d(i,j)＝exp(-γ_d||yd_i-yd_j||²)

其中，

和

K_GIP,m(h,k)＝exp(-γ_m||ym_h-ym_k||²)

其中，ym_h＝(y_h1,y_h2,...,y_hNd)和ym_k＝(y_k1,y_k2,...,y_kNd)分别是表示微生物m_h和m_k与各个疾病的关联关系的向量，γ_m为控制核宽度的调节参数，γ'_m为微生物带宽参数，为经验值；

5.根据权利要求1所述的一种基于相似性和低秩矩阵填充的微生物-疾病关系预测方法，其特征在于，所述步骤2中，最终的疾病相似性矩阵S_d计算公式如下：

6.根据权利要求1所述的一种基于相似性和低秩矩阵填充的微生物-疾病关系预测方法，其特征在于，所述步骤3中，微生物相似性矩阵S_m的计算过程如下：

其中，α为调节参数，为经验值；

S_m(h,k)＝S_m(h,k)/max(S_m)

其中，max(S_m)为S_m(h,k)中的最大值，h,k＝1,2···,N_m；

最后，由归一化处理后得到的S_m(h,k)，h,k＝1,2···,N_m构成最终的微生物相似性矩阵S_m。

7.根据权利要求4所述的一种基于相似性和低秩矩阵填充的微生物-疾病关系预测方法，其特征在于，所述步骤4中初始化处理方法为：

若微生物m_h与所有疾病均不存在已知的关联关系，则根据微生物相似性矩阵S_m通过K近邻方法对ym_h进行处理，公式如下：

其中，Kset(m_h)为与微生物m_h最相似且与疾病存在已知的关联关系的K个邻居的集合，其中K为经验值；

同样地，若疾病d_i与所有微生物均不存在已知的关联关系，则根据疾病相似性矩阵S_d通过K近邻方法对yd_i进行处理，公式如下：

其中，Kset(d_i)为与d_i最相似且与微生物存在已知的关联关系的K个邻居的集合。

8.根据权利要求7所述的一种基于相似性和低秩矩阵填充的微生物-疾病关系预测方法，其特征在于，所述步骤5包括以下步骤：

然后，定义如下优化问题，用于寻找一个秩尽可能低的近似于矩阵A的矩阵A^*：

s.t.P_Ω(A^*)＝P_Ω(A)

其中，Ω为矩阵A中已知元素的集合，P_Ω(A)为矩阵A的映射矩阵，若矩阵A中的第(x,y)个元素存在于Ω，则P_Ω(A)中的第(x,y)个元素为A(x,y)，否则为0；||A^*||_*为矩阵A^*的核范式，||A^*||_F为矩阵A^*的F范式，τ为奇异值阀值参数并设置为τ＝||P_Ω(A)||_F；

再通过SVT方法对上述优化问题进行迭代求解，得到最终的结果矩阵A^*；

最后，根据矩阵Y在矩阵A中的位置，在矩阵A^*中获取对应位置的矩阵作为预测得到的微生物-疾病关联关系矩阵，从而得到每一个微生物-疾病对的关联关系分数。