CN109920478B - 一种基于相似性和低秩矩阵填充的微生物-疾病关系预测方法 - Google Patents

一种基于相似性和低秩矩阵填充的微生物-疾病关系预测方法 Download PDF

Info

Publication number
CN109920478B
CN109920478B CN201910173280.9A CN201910173280A CN109920478B CN 109920478 B CN109920478 B CN 109920478B CN 201910173280 A CN201910173280 A CN 201910173280A CN 109920478 B CN109920478 B CN 109920478B
Authority
CN
China
Prior art keywords
similarity
disease
matrix
microorganism
diseases
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910173280.9A
Other languages
English (en)
Other versions
CN109920478A (zh
Inventor
王建新
严承
张雅妍
朱粤婕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HUNAN CREATOR INFORMATION TECHNOLOGIES Co.,Ltd.
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN201910173280.9A priority Critical patent/CN109920478B/zh
Publication of CN109920478A publication Critical patent/CN109920478A/zh
Application granted granted Critical
Publication of CN109920478B publication Critical patent/CN109920478B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

本发明公开了一种基于相似性和低秩矩阵填充的微生物‑疾病关系预测方法,首先通过疾病高斯核相似性、疾病表征相似性和疾病功能相似性均值集成方式得到最终的疾病相似性。利用已知的微生物‑疾病关联关系计算微生物的高斯核相似性,再根据微生物的寄生组织信息对高斯核相似性进行调节处理,得到最终的微生物相似性。最终通过已知微生物‑疾病关联关系将微生物相似性网络和疾病相似性网络进行连接,构建一个微生物和疾病的异构网络。根据此异构网络的关联关系矩阵,采用低秩矩阵填充的方法来进行微生物‑疾病关联关系的预测,并在填充之前增加了关联关系初始化处理过程提高了其预测精度。本发明能够有效预测微生物‑疾病关联关系。

Description

一种基于相似性和低秩矩阵填充的微生物-疾病关系预测 方法
技术领域
本发明属于系统生物学领域,涉及一种基于相似性和低秩矩阵填充的微生物-疾病关系预测方法。
背景技术
随着高通量测序技术和微生物组学的发展,许多研究表明微生物与人类疾病之间存在密不可分的关联关系。微生物通过参与代谢、凋亡等重要的生命进程来对人类疾病和身体健康产生影响,比如心血管疾病、自身炎症性疾病以及癌症等。当前对微生物-疾病关联关系主要分为四类。一类是微生物的改变是疾病的直接原因;另一类为微生物和疾病没有直接的关联关系,但是存在一个共同的第三方因素;第三类为疾病能够影响微生物的改变使得其能够作为疾病诊断的生物标记;最后一类为疾病能够影响微生物的改变,其反过来又进一步影响疾病的严重程度。所以,确认微生物与疾病之间的关联关系有助于加深对疾病机制的理解,提高疾病的诊断和治疗效率。
此外,研究人员通过手动方式从生物医学实验文献中提取微生物-疾病关联关系建立了微生物-疾病关联关系数据库,为通过计算模型预测微生物-疾病关联关系提供了重要的基础。计算方法相对传统的生物医学实验具有高效、低成本的优势。到目前为止,基于微生物-疾病关系数据库的建立,微生物-疾病关联关系预测的方法也得到了发展。KATZHMDA方法通过集成疾病的表征和高斯核相似性,微生物高斯核相似性和已知的微生物-疾病关联关系利用基于KATZ度信息的网络方法来预测微生物-疾病关联关系。在基于网络路径的PBHMDA方法中,利用了已知的微生物高斯核相似性,疾病高斯核相似性和已知的微生物-疾病关联关系来预测潜在的微生物-疾病关联关系。NGRHMDA也利用了疾病的表征相似性和高斯核相似性,微生物高斯核相似性和已知的微生物-疾病关系来预测新的微生物-疾病关联关系。该方法的主要特点是最终的候选微生物-疾病对的关联关系分数通过基于邻居的预测模型和基于图的预测模型的均值来得到。LRLSHMDA是一个基于最小二乘法的机器学习方法,其也利用了疾病的高斯核相似性,微生物高斯核相似性和已知的微生物-疾病关联关系。这些方法在微生物-疾病关系的预测上取得了不错的预测效果,也为后续的研究提供了可能的删选依据。
但是,在当前的微生物-疾病关系的预测过程中,还存在噪声,影响最终的预测性能。比如,在对疾病的生物网络信息的集成中,这些方法都只利用了疾病的高斯核相似性或者疾病表征相似性,而对疾病的功能相似性没有考虑。此外微生物的寄生组织信息也是值得考虑的一个重要方面。故介于传统的生物医学实验在试验环境、效率和成本方面的限制,迫切需要通过计算模型来确认潜在的微生物-疾病关联关系。尽管当前已有的预测方法取得了不错的进展,但还是有进一步改进的余地。总而言之,当前对微生物-疾病关联关系的理解还是远远不够的,对发展更加有效的计算模型来预测微生物-疾病关系提出了紧迫的需求。为了更加系统的理解疾病的致病机理,提高疾病的诊断和治疗效率,有必要提出一种有效的微生物-疾病关联关系预测的计算方法。
发明内容
本发明所要解决的技术问题是,针对当前通过计算模型对微生物-疾病关系进行预测的方法中存在的微生物和疾病相关生物信息利用不够的问题,提出一种基于相似性和低秩矩阵填充的微生物-疾病关系预测方法,该方法集成疾病高斯核、表征相似性和功能相似性的均值来得到最终的疾病相似性网络,微生物相似性在高斯核相似性基础上利用其寄生组织信息进行调节来获取。本发明能够充分利用微生物和疾病相关生物信息,以减少预测过程中的噪声,能较准确的预测微生物-疾病关系,为后续生物医学实验提供基础,进一步提高疾病的诊断和治疗效率。
本发明的技术解决方案如下:
一种基于相似性和低秩矩阵填充的微生物-疾病关系预测方法,包括以下步骤:
步骤1:构建疾病功能相似性矩阵Dfunsim、疾病的表征相似性矩阵Dsymsim、疾病高斯核相似性矩阵KGIP,d和微生物高斯核相似性矩阵KGIP,m
步骤2:集成疾病功能相似性矩阵Dfunsim、疾病的表征相似性矩阵Dsymsim和疾病高斯核相似性矩阵KGIP,d,得到最终的疾病相似性矩阵Sd
步骤3:根据微生物寄生组织信息对微生物高斯核相似性矩阵KGIP,m进行调节处理,得到最终的微生物相似性矩阵Sm
步骤4:根据获取微生物相似性矩阵Sm和疾病相似性矩阵Sd对不存在任何已知的关联关系的微生物/疾病的关联关系进行初始化处理;
步骤5:利用已知的微生物-疾病关联关系将微生物相似性网络和疾病相似性网络连接起来构建一个双层的异构网络,基于此异构网络的邻接矩阵利用低秩矩阵填充方法对微生物-疾病对的关联关系进行预测(预测潜在的关联关系)。
进一步地,所述步骤1中,首先根据已知的疾病-基因关系和基因—基因的功能相似性计算两种疾病之间的功能相似性,然后由所有疾病两两之间的功能相似性构建疾病功能相似性矩阵Dfunsim
对于任意两种疾病di和dj,其功能相似性计算公式如下:
Figure GDA0002620101650000031
其中,Gi={gi1,gi2,......,giM}和Gj={gj1,gj2,......,gjN}分别为与疾病di和dj相关联的基因集合,M和N分别为基因集合Gi和Gj中的基因数目;
Figure GDA0002620101650000032
为基因gim与基因集合Gj的功能相似性值,
Figure GDA0002620101650000033
为基因gjn与基因集合Gi的功能相似性值,其计算公式如下:
Figure GDA0002620101650000034
Figure GDA0002620101650000035
其中F(gim,gjn)为基因gim和gjn之间的功能相似性值,在HumanNet数据库提供了基于对数似然函数的基因之间的功能相似性值计算方式:
F(gim,gjn)=LLS(gim,gjn).
其中,LLS表示对数似然函数。
进一步地,所述步骤1中,首先根据疾病的表征信息利用余弦夹角的方法来计算两种疾病之间的表征相似性,然后由所有疾病两两之间的表征相似性构建疾病表征相似性矩阵Dsymsim
对于任意两种疾病di和dj,其表征相似性计算公式如下:
Figure GDA0002620101650000036
其中,wil和wjl分别表示疾病di和dj与表征fl之间的权重,通过0到1之间的值来表示,每种疾病的表征信息通过一个向量来进行表示,以疾病di为例,其表征向量定义如下:wi={wi1,wi2,...,wiL},L为表征的维度。权重计算的基本思想是让出现频率越低的表征在区分疾病上起到更重要的作用,wil的具体计算公式如下:
Figure GDA0002620101650000041
其中,Wil用于表示疾病di是否存在表征fl,如果存在则为1,否则为0;另外,Nd和nl分别代表总的疾病数量和存在表征fl的疾病数量。
进一步地,所述步骤1中,构建疾病高斯核相似性矩阵KGIP,d和微生物高斯核相似性矩阵KGIP,m的过程如下:
首先,定义M={m1,m2,···,mNm}为微生物的集合,Nm为微生物的数量;定义D={d1,d2,···,dNd}为疾病的集合,Nd为疾病的数量;定义Y∈Nm*Nd为微生物和疾病的关联关系矩阵,如果微生物mh和疾病di存在已知的关联关系,则yhi值为1,否则值为0;
然后,计算所有疾病两两之间的高斯核相似性;对于任意两种疾病di和dj,其高斯核相似性的具体计算过程如下:
KGIP,d(i,j)=exp(-γd||ydi-ydj||2)
Figure GDA0002620101650000042
其中,
Figure GDA0002620101650000047
Figure GDA0002620101650000043
分别是表示疾病di和dj与各个微生物的关联关系的向量,γd为控制核宽度的调节参数,γ'd为疾病带宽参数,为经验值;
再计算所有微生物两两之间的高斯核相似性;对于任意两种微生物mh和mk,其高斯核相似性的计算方式定义如下:
KGIP,m(h,k)=exp(-γm||ymh-ymk||2)
Figure GDA0002620101650000044
其中,
Figure GDA0002620101650000045
Figure GDA0002620101650000046
分别是表示微生物mh和mk与各个疾病的关联关系的向量,γm为控制核宽度的调节参数,γ'm为微生物带宽参数,为经验值;
最后,由所有疾病两两之间的高斯核相似性构建疾病高斯核相似性矩阵KGIP,d,由所有微生物两两之间的高斯核相似性构建微生物高斯核相似性矩阵KGIP,m
进一步地,所述步骤2中,最终的疾病相似性矩阵Sd计算公式如下:
Figure GDA0002620101650000051
即疾病最终相似性为疾病功能相似性、疾病表征相似性和疾病高斯核相似性的平均值。
进一步地,所述步骤3中,微生物相似性矩阵Sm的计算过程如下:
首先,对于任意两种微生物mh和mk,根据以下公式调节其高斯核相似性KGIP,m(h,k):
Figure GDA0002620101650000052
其中,α为调节参数,其值根据经验设置为0.5;调节的具体意义为寄生在同一个组织中的微生物增加一个值,使得其具有更高相似性;
然后,基于最大相似性值对Sm(h,k)进行归一化处理,公式如下:
Sm(h,k)=Sm(h,k)/max(Sm)
其中,max(Sm)为Sm(h,k)中的最大值,h,k=1,2···,Nm
最后,由归一化处理后得到的Sm(h,k),h,k=1,2···,Nm构成最终的微生物相似性矩阵Sm,其第h行第k列的元素为Sm(h,k)。
进一步地,所述步骤4中初始化处理方法为:若微生物mh与所有疾病均不存在已知的关联关系(原始矩阵Y中第h行,即ymh中所有元素均为0),则根据微生物相似性矩阵Sm通过K近邻方法对ymh进行处理,公式如下:
Figure GDA0002620101650000053
其中,Kset(mh)为与微生物mh最相似且与疾病存在已知的关联关系的K个邻居的集合,
其中K为经验值;
同样地,若疾病di与所有微生物均不存在已知的关联关系(原始矩阵Y中第i列,即ydi中所有元素均为0),则根据疾病相似性矩阵Sd通过K近邻方法对ydi进行处理,公式如下:
Figure GDA0002620101650000061
其中,Kset(di)为与di最相似且与微生物存在已知的关联关系的K个邻居的集合;
进一步地,所述步骤5包括以下步骤:
首先,基于初始化处理后的矩阵Y,微生物相似性矩阵Sm和疾病相似性矩阵Sd构建异构网络的邻接矩阵A:
Figure GDA0002620101650000062
低秩矩阵填充方法的目标在于通过寻找一个秩尽可能低的近似于矩阵A的矩阵A*。其模型定义如下:
min rank(A*)
s.t.PΩ(A*)=PΩ(A)
其中,Ω为矩阵A中已知元素的集合;矩阵A中的未知元素也就是需要预测的潜在的微生物-疾病关联关系,只存在子矩阵Y和YT中,Y和YT中未知元素的值为0,已知元素的值为1;PΩ(A)为矩阵A的映射矩阵,若矩阵A中的第(x,y)个元素存在于Ω,则PΩ(A)中的第(x,y)个元素为A(x,y),否则为0。由于秩最小化问题为一个NP难问题,故本发明将其近似为一个奇异值总和最小化的优化问题,其定义如下:
Figure GDA0002620101650000063
s.t.PΩ(A*)=PΩ(A)
其中,||A*||*为矩阵A*的核范式,||A*||F为矩阵A*的F范式,τ为奇异值阀值参数并设置为τ=||PΩ(A)||F
通过SVT(singular value thresholding,奇异值阀值)方法对问题进行迭代求解。SVT方法在迭代过程中有两个关键的步骤会产生一系列的中间矩阵{X(1),X(2),...}和{Z(0),Z(1),...},第t次迭代的表达式如下:
Figure GDA0002620101650000064
其中,t为迭代次数,t=1,2,...;δ为迭代步长,为经验值;Z0的初始化设置为「τ/(δ||PΩ(A)||2)]δPΩ(A);Dτ(·)表示软阀值操作,Dτ(·)定义如下:
Figure GDA0002620101650000071
其中,
Figure GDA0002620101650000072
为第t次迭代过程中的Z(t-1)的奇异值分解结果中的奇异值对角矩阵中的第s个对角元素值,S为对角元素的总个数,
Figure GDA0002620101650000073
Figure GDA0002620101650000074
分别为第t次迭代过程中Z(t-1)的奇异值分解后得到的左右两个酉矩阵的第s行;
Figure GDA0002620101650000075
定义为当
Figure GDA0002620101650000076
时为
Figure GDA0002620101650000077
否则为0。据此计算方式矩阵的奇异值衰减为0。本发明利用矩阵的奇异值分解(SVD:Singular Value Decompostion)来选择大于τ的奇异值以及其向量。为了控制求解过程中迭代的过程,本发明设置了两个迭代限制条件。第一个为控制迭代步数的限制数maxiter,为经验值。另一个为每次迭代过程中的与矩阵A中的已知元素的误差控制条件,定义如下:
||PΩ(A-X(t))||F<ε||PΩ(A)||F
其中ε为控制近似误差的参数,为经验值。
每一轮迭代过后,判断是否满足上述两个迭代限制条件,若满足中的其中任意一个,则结束迭代,将第i次迭代过程中获得的X(t)作为最终的结果矩阵,也就是最终的微生物-疾病异构网络邻接矩阵A*。然后,根据矩阵Y在矩阵A中的位置,在矩阵A*中获取对应位置的矩阵作为预测得到的微生物-疾病关联关系矩阵,从而得到每一个微生物-疾病对的关联关系分数。关联关系分数越大,存在关联关系可能性越大。
有益效果:
本发明针对当前通过计算模型预测微生物-疾病关系过程中预测性能不高的问题,提出了一种基于相似性和低秩矩阵填充的微生物-疾病关联关系预测方法。首先通过疾病高斯核相似性、疾病表征相似性和疾病功能相似性均值集成方式得到最终的疾病相似性。疾病的高斯核相似性通过已知的微生物-疾病关联关系来计算。疾病表征相似性通过疾病的表征信息采用余弦夹角的方式来计算。疾病的功能相似性通过疾病的疾病-基因关系和基因-基因功能相似性来计算。同样基于已知的微生物-疾病关系计算微生物高斯核相似性,然后基于不同的人体组织寄生的微生物不同的特点,根据微生物的寄生组织信息对高斯核相似性进行调节处理来得到最终的微生物相似性。最终通过已知的微生物-疾病关联关系连接微生物相似性网络和疾病相似性网络得到一个双层异构网络。然后基于该异构网络的邻接矩阵,利用低秩矩阵填充方法来预测微生物-疾病对的关联关系分数。
本发明根据构建的微生物-疾病异构网络的邻接矩阵利用低秩矩阵填充的方法来计算候选微生物-疾病对的关联关系分数。在构建异构网络之前,基于微生物(疾病)相似性通过K近邻的方法对不存在已知的关联关系的微生物(疾病)的关联关系进行了初始化处理,进一步提高了本发明的预测性能。
通过五倍交叉和留一验证的方式来评估本发明的预测性能,采用AUC作为基准的度量指标来表示预测方法的预测性能。与其他方法的预测性能结果的比较表明本发明能够更加有效地预测微生物-疾病之间的关联关系。为后续的生物医学实验提供基本的删选依据,提高其实验效率和节省其实验成本,并提高疾病的诊断和治疗效率。
本发明针对微生物-疾病关系领域,提供了一种微生物-疾病关联关系的预测方法,通过充分利用微生物和疾病相关生物信息,尽可能减少了预测过程中的噪声,能够为有效的预测潜在的微生物-疾病关联关系,有利于系统的理解疾病的致病机理以及提高其治疗和诊断效率。
附图说明
图1基于相似性和低秩矩阵填充的微生物-疾病关系预测方法总体流程图;
图2为本发明与其他比较方法在微生物-疾病关系数据集上的五倍交叉验证比较图;
图3为本发明与其他比较方法在微生物-疾病关系数据集上的留一交叉验证比较图;
图4为本发明微生物相似性调整参数α在五倍交叉中的性能图;
图5为本发明初始化处理过程中参数K在五倍交叉中的性能图;
具体实施方式
以下将结合附图和具体实施例对本发明做进一步详细说明:
首先利用疾病-基因关系和基因-基因功能相似性来计算疾病的功能相似性;利用疾病的表征信息来计算疾病的表征相似性;基于已知的微生物-疾病关系计算疾病高斯核相似性;基于疾病功能相似性,表征相似性和高斯核相似性采用均值的方法来集成疾病的最终相似性。同样,基于已知的微生物-疾病关联关系计算微生物的高斯核相似性,并根据微生物的寄生组织信息对其进行调整得到最终的微生物相似性。利用微生物(疾病)相似性对没有关联关系的微生物(疾病)进行关联关系初始化处理。然后通过已知微生物-疾病关联关系连接微生物相似性网络和疾病相似性网络得到微生物-疾病的异构网络,并基于其邻接矩阵利用低秩矩阵填充的方法来计算微生物-疾病对的关联关系分数。
本发明中使用的微生物-疾病关联关系基础数据来自HMDAD(http://www.cuilab.cn/hmdad)数据库,通过去重处理,最终的微生物种类数目为292,疾病数目为39,微生物疾病关联关系数目为450。另外,疾病的表征数据来自PubMed书目记录,HSDN中提供了疾病的表征相似性数据。疾病-基因关系数据和基因-基因功能相似性数据分别来自于DisGeNET和HumanNet数据库。
基于相似性和低秩矩阵填充的微生物-疾病关系预测的整个流程如图1所示,可以划分为以下几个步骤:
(1)计算疾病功能相似性Dfunsim的具体过程为:
首先,以疾病di和dj为例,其功能相似性的计算公式定义如下:
Figure GDA0002620101650000091
其中,Gi={gi1,gi2,......,giM}和Gj={gj1,gj2,......,gjN}分别为与疾病di和dj相关联的基因集合,M和N分别为基因集合Gi和Gj中的基因数目;
Figure GDA0002620101650000092
为基因gim与基因集合Gj的功能相似性值,
Figure GDA0002620101650000093
为基因gjn与基因集合Gi的功能相似性值,其计算公式如下:
Figure GDA0002620101650000094
Figure GDA0002620101650000095
其中F(gim,gjn)为基因gim和gjn之间的功能相似性值,具体值从HumanNet数据库中得到。HumanNet数据库中,基因功能相似性值利用对数似然函数来计算,具体计算过程如下:
F(gim,gjn)=LLS(gim,gjn).
从HumanNet数据库中,基因2956和4436的功能相似性值为0.9342,再进一步根据疾病-基因关联关系,依照上述计算方式,疾病Asthma和Atopic dermatitis的功能相似性值为0.2590。
(2)计算疾病的表征相似性过程定义如下。首先对疾病的表征信息通过一个二进制向量来进行定义,以疾病di为例,其表征信息定义如下:
wi={wi1,wi2,...,wiL}
其中,wil和wjl分别表示疾病di和dj与表征fl之间的权重,通过0到1的值来表示,n为表征的维度。权重计算的基本思想是让出现频率越低的表征在区分疾病上应该起到更重要的作用。wil的计算方式如下:
Figure GDA0002620101650000101
其中,Wil用于表示疾病di是否存在表征fl,如果存在则为1,否则为0。另外,Nd和nl分别代表总的疾病数量和存在表征fl的疾病数量。接下来,基于疾病的表征信息利用余弦夹角的方法来计算疾病的表征相似性,对应疾病di和dj来说,其表征相似性的具体计算方式如下:
Figure GDA0002620101650000102
依照上述计算公式,疾病COPD和Asthma的表征相似性为0.3962。
(3)根据已知的微生物疾病关系,构建微生物高斯核相似性的过程如下。首先,定义M={m1,m2,···,mNm}为微生物的集合,Nm为微生物的数量;D={d1,d2,···,dNd}为所有疾病的集合,Nd为疾病的数量;用矩阵Y∈Nm*Nd来表示各微生物与疾病之间是否存在已知的关联关系,如果微生物mh和疾病di存在已知的关联关系,则yhi值为1,否则值为0;
对于任意两种疾病di和dj,其高斯核相似性的具体计算过程如下:
KGIP,d(i,j)=exp(-γd||ydi-ydj||2)
Figure GDA0002620101650000103
其中,
Figure GDA0002620101650000104
Figure GDA0002620101650000105
分别是表示疾病di和dj与各个微生物的关联关系的向量,γd为控制核宽度的调节参数,γ'd为疾病带宽参数,本实施例中依照高斯核使用经验设置为1;依据上述计算公式,疾病Atopic sensitisation和Gastro-oesophageal reflux的高斯核相似性值为0.8409。
再计算所有微生物两两之间的高斯核相似性;对于任意两种微生物mh和mk,其高斯核相似性的计算方式定义如下:
KGIP,m(h,k)=exp(-γm||ymh-ymk||2)
Figure GDA0002620101650000111
其中,
Figure GDA0002620101650000112
Figure GDA0002620101650000113
分别是表示微生物mh和mk与各个疾病的关联关系的向量,γm为控制核宽度的调节参数,γ'm为微生物带宽参数,本实施例中依照高斯核使用经验设置为1;按照上述计算方式,微生物Bacteroidaceae和Aeromonadaceae的高斯核相似性值为0.1427。
最后,由所有疾病两两之间的高斯核相似性构建疾病高斯核相似性矩阵KGIP,d,由所有微生物两两之间的高斯核相似性构建微生物高斯核相似性矩阵KGIP,m
(4)根据前面计算的疾病功能相似性Dfunsim、疾病表征相似性Dsymsim和疾病高斯核相似性KGIP,d集成最终的疾病相似性,其具体集成方式计算如下:
Figure GDA0002620101650000114
疾病最终相似性为疾病功能相似性、表征相似性和高斯核相似性的平均值。依据上述计算公式,疾病Allergic asthma和Obesity最终相似性为0.1528。
(5)对微生物高斯核相似性KGIP,m根据微生物的寄生组织进行调节处理得到最终的微生物相似性。以微生物mh和mk为例,其具体的相似性调节过程计算如下:
Figure GDA0002620101650000115
其中α为调节参数,本实施例中设置为0.5。调节的具体意义为寄生在同一个组织中的微生物增加一个值,让其具有更高的相似性。然后,接下来对微生物相似性值基于最大相似性值做归一化处理来得到最终的相似性矩阵,以微生物mh和mk为例,其调节过程如下:
Sm(h,k)=Sm(h,k)/max(Sm)
其中max(Sm)为矩阵Sm中最大值。按照上述过程,微生物Actinobacillus和Bacteroidales的最终相似性值为0.5154。
(6)根据获取的微生物相似性和疾病相似性对不存在任何已知的关联关系的微生物/疾病的关联关系初始化,其流程如下:
首先,根据微生物相似性(疾病相似性)对不存在已知的关联关系的微生物(疾病)通过K近邻方法进行关联关系初始化,以微生物mh为例,其初始化过程如下:
Figure GDA0002620101650000121
其中Kset(mh)为与微生物mh最相似且与疾病存在已知的关联关系的K个邻居的集合,本实施例中K的值设置为1。同样也采用同样的方法对不存在关联关系的疾病进行关联关系初始化。以疾病di为例,其具体的初始化过程如下:
Figure GDA0002620101650000122
其中,Kset(di)为与di最相似且与微生物存在已知的关联关系的K个邻居的集合,K的值与微生物初始化过程中的K取值一样。
(7)基于初始化处理后的微生物-疾病关系矩阵Y,微生物相似性和疾病相似性构建的异构网络的邻接矩阵定义如下:
Figure GDA0002620101650000123
其中Sm和Sd分别为微生物相似性矩阵和疾病相似性矩阵,Y为经过初始化处理的已知的微生物-疾病关联关系矩阵。
低秩矩阵填充方法的目标在通过寻找一个秩尽可能低的近似于矩阵A的矩阵A*。其模型定义如下:
min rank(A*)
s.t.PΩ(A*)=PΩ(A)
其中Ω为矩阵A中已知元素的集合,PΩ为映射矩阵,使得其中的第(i,j)个元素存在于时Ω为A(i,j),否则为0。由于秩最小化问题为一个NP难问题,故我们将其近似为一个奇异值总和最小化的优化问题,其定义如下:
Figure GDA0002620101650000124
s.t.PΩ(A*)=PΩ(A)
其中||A*||*为矩阵A*的核范式,||A*||F为矩阵的F范式,τ为奇异值阀值参数其设置为τ=||PΩ(A)||F。通过奇异值阀值(SVT:singular value thresholding)方法对问题进行求解。得到最终的结果矩阵A*。再根据矩阵Y在矩阵A中的位置,在矩阵A*中获取对应位置的矩阵作为预测得到的微生物-疾病关联关系矩阵,从而得到每一个微生物-疾病对的关联关系分数。
为了进一步说明本发明的有效性,我们采用了两种验证方式来评估其预测性能并与其他方法进行比较:(1)五倍交叉验证;(2)留一验证。五倍交叉验证将已知的微生物-疾病关系随机分成5份,依次选择其中1份为测试集,剩下其他4份为训练集。留一验证依次选择每1条已知的微生物-疾病关系为测试集,剩下其他的为训练集。验证的性能指标通过AUC来表示,AUC值趋向为1时表明算法具备完美的预测性能,小于0.5表明没有预测能力,越大的AUC表明算法的预测性能更好。
图2显示了本发明和其他比较方法在五倍交叉验证中的预测性能。从图中可以看出,本发明MCHMDA的AUC值为0.9251,优于其他4个方法NGRHMDA(0.9025),LRLSHMDA(0.8797),BRWH-MDI(0.8676),KATZHMDA(0.8571)。实验结果证明了本发明在五倍交叉中的预测性能优于其他算法。
图3描述了本发明和其他比较方法在留一验证中的预测性能。从图中也可以看出,本发明MCHMDA的AUC值为0.9495,也同样优于其他4个方法的表现(NGRHMDA:0.9111,LRLSHMDA:0.8909,BRWH-MDI:0.8787,KATZHMDA:8644)。并且在FPR值低的时候,TPR值更高,表明了本发明的预测结果中排名在前的微生物-疾病关系具有更高的准确性。
图4描述了本发明在五倍交叉验证过程中增加的微生物调整过程参数α对预测性能的影响。当α=0时等价于对其相似性不做任何调整,其预测性能最差,证明了根据微生物寄生组织这个特征能够有效的提高预测性能。此外,当时α=0.5,本方法取得了最好的预测效果。
图5描述了本发明在五倍交叉验证过程中增加的初始化处理过程中参数对预测性能的影响,当α=0时等价于未做任何的初始化处理。从图中可以看出当α=1时,本发明取得了最好的预测性能,证明了增加的初始化过程也有利于本发明取得更好的预测精度。
通过上述案例的实验结果和参数分析表明本发明能够较准确的预测新潜在的微生物-疾病关系。此外,增加的初始化处理过程也进一步提高了预测性能。故本发明有利于理解疾病的致病机制,提高其诊断和治疗效率。

Claims (8)

1.一种基于相似性和低秩矩阵填充的微生物-疾病关系预测方法,其特征在于,包括以下步骤:
步骤1:构建疾病功能相似性矩阵Dfunsim、疾病的表征相似性矩阵Dsymsim、疾病高斯核相似性矩阵KGIP,d和微生物高斯核相似性矩阵KGIP,m
步骤2:集成疾病功能相似性矩阵Dfunsim、疾病的表征相似性矩阵Dsymsim和疾病高斯核相似性矩阵KGIP,d,得到最终的疾病相似性矩阵Sd
步骤3:根据微生物寄生组织信息对微生物高斯核相似性矩阵KGIP,m进行调节处理,得到最终的微生物相似性矩阵Sm
步骤4:根据获取微生物相似性矩阵Sm和疾病相似性矩阵Sd对不存在任何已知的关联关系的微生物/疾病的关联关系进行初始化处理;
步骤5:利用已知的微生物-疾病关联关系将微生物相似性网络和疾病相似性网络连接起来构建一个双层的异构网络,基于此异构网络的邻接矩阵利用低秩矩阵填充方法对微生物-疾病对的关联关系进行预测。
2.根据权利要求1所述的一种基于相似性和低秩矩阵填充的微生物-疾病关系预测方法,其特征在于,所述步骤1中,首先根据已知的疾病-基因关系和基因—基因的功能相似性计算两种疾病之间的功能相似性,然后由所有疾病两两之间的功能相似性构建疾病功能相似性矩阵Dfunsim
对于任意两种疾病di和dj,其功能相似性计算公式如下:
Figure FDA0002620101640000011
其中,Gi={gi1,gi2,......,giM}和Gj={gj1,gj2,......,gjN}分别为与疾病di和dj相关联的基因集合,M和N分别为基因集合Gi和Gj中的基因数目;
Figure FDA0002620101640000012
为基因gim与基因集合Gj的功能相似性值,
Figure FDA0002620101640000013
为基因gjn与基因集合Gi的功能相似性值,其计算公式如下:
Figure FDA0002620101640000014
Figure FDA0002620101640000015
其中F(gim,gjn)为基因gim和gjn之间的功能相似性值,在HumanNet数据库提供了基于对数似然函数的基因之间的功能相似性值计算方式:
F(gim,gjn)=LLS(gim,gjn)
其中,LLS表示对数似然函数。
3.根据权利要求1所述的一种基于相似性和低秩矩阵填充的微生物-疾病关系预测方法,其特征在于,所述步骤1中,首先根据疾病的表征信息来计算两种疾病之间的表征相似性,然后由所有疾病两两之间的表征相似性构建疾病表征相似性矩阵Dsymsim
对于任意两种疾病di和dj,其表征相似性计算公式如下:
Figure FDA0002620101640000021
其中,wi,l和wj,l分别表示疾病di和dj与表征fl之间的权重,通过0到1之间的值来表示,wi,l的具体计算公式如下:
Figure FDA0002620101640000022
其中,Wil用于表示疾病di是否存在表征fl,如果存在则为1,否则为0;Nd和nl分别代表总的疾病数量和存在表征fl的疾病数量。
4.根据权利要求1所述的一种基于相似性和低秩矩阵填充的微生物-疾病关系预测方法,其特征在于,所述步骤1中,构建疾病高斯核相似性矩阵KGIP,d和微生物高斯核相似性矩阵KGIP,m的过程如下:
首先,定义M={m1,m2,···,mNm}为微生物的集合,Nm为微生物的数量;定义D={d1,d2,···,dNd}为疾病的集合,Nd为疾病的数量;定义Y∈Nm*Nd为微生物和疾病的关联关系矩阵,如果微生物mh和疾病di存在已知的关联关系,则yhi值为1,否则值为0;
然后,计算所有疾病两两之间的高斯核相似性;
对于任意两种疾病di和dj,其高斯核相似性的具体计算过程如下:
KGIP,d(i,j)=exp(-γd||ydi-ydj||2)
Figure FDA0002620101640000031
其中,
Figure FDA0002620101640000032
Figure FDA0002620101640000033
分别是表示疾病di和dj与各个微生物的关联关系的向量,γd为控制核宽度的调节参数,γ'd为疾病带宽参数,为经验值;
再计算所有微生物两两之间的高斯核相似性;对于任意两种微生物mh和mk,其高斯核相似性的计算方式定义如下:
KGIP,m(h,k)=exp(-γm||ymh-ymk||2)
Figure FDA0002620101640000034
其中,ymh=(yh1,yh2,...,yhNd)和ymk=(yk1,yk2,...,ykNd)分别是表示微生物mh和mk与各个疾病的关联关系的向量,γm为控制核宽度的调节参数,γ'm为微生物带宽参数,为经验值;
最后,由所有疾病两两之间的高斯核相似性构建疾病高斯核相似性矩阵KGIP,d,由所有微生物两两之间的高斯核相似性构建微生物高斯核相似性矩阵KGIP,m
5.根据权利要求1所述的一种基于相似性和低秩矩阵填充的微生物-疾病关系预测方法,其特征在于,所述步骤2中,最终的疾病相似性矩阵Sd计算公式如下:
Figure FDA0002620101640000035
6.根据权利要求1所述的一种基于相似性和低秩矩阵填充的微生物-疾病关系预测方法,其特征在于,所述步骤3中,微生物相似性矩阵Sm的计算过程如下:
首先,对于任意两种微生物mh和mk,根据以下公式调节其高斯核相似性KGIP,m(h,k):
Figure FDA0002620101640000036
其中,α为调节参数,为经验值;
然后,基于最大相似性值对Sm(h,k)进行归一化处理,公式如下:
Sm(h,k)=Sm(h,k)/max(Sm)
其中,max(Sm)为Sm(h,k)中的最大值,h,k=1,2···,Nm
最后,由归一化处理后得到的Sm(h,k),h,k=1,2···,Nm构成最终的微生物相似性矩阵Sm
7.根据权利要求4所述的一种基于相似性和低秩矩阵填充的微生物-疾病关系预测方法,其特征在于,所述步骤4中初始化处理方法为:
若微生物mh与所有疾病均不存在已知的关联关系,则根据微生物相似性矩阵Sm通过K近邻方法对ymh进行处理,公式如下:
Figure FDA0002620101640000041
其中,Kset(mh)为与微生物mh最相似且与疾病存在已知的关联关系的K个邻居的集合,其中K为经验值;
同样地,若疾病di与所有微生物均不存在已知的关联关系,则根据疾病相似性矩阵Sd通过K近邻方法对ydi进行处理,公式如下:
Figure FDA0002620101640000042
其中,Kset(di)为与di最相似且与微生物存在已知的关联关系的K个邻居的集合。
8.根据权利要求7所述的一种基于相似性和低秩矩阵填充的微生物-疾病关系预测方法,其特征在于,所述步骤5包括以下步骤:
首先,基于初始化处理后的矩阵Y,微生物相似性矩阵Sm和疾病相似性矩阵Sd构建异构网络的邻接矩阵A:
Figure FDA0002620101640000043
然后,定义如下优化问题,用于寻找一个秩尽可能低的近似于矩阵A的矩阵A*
Figure FDA0002620101640000044
s.t.PΩ(A*)=PΩ(A)
其中,Ω为矩阵A中已知元素的集合,PΩ(A)为矩阵A的映射矩阵,若矩阵A中的第(x,y)个元素存在于Ω,则PΩ(A)中的第(x,y)个元素为A(x,y),否则为0;||A*||*为矩阵A*的核范式,||A*||F为矩阵A*的F范式,τ为奇异值阀值参数并设置为τ=||PΩ(A)||F
再通过SVT方法对上述优化问题进行迭代求解,得到最终的结果矩阵A*
最后,根据矩阵Y在矩阵A中的位置,在矩阵A*中获取对应位置的矩阵作为预测得到的微生物-疾病关联关系矩阵,从而得到每一个微生物-疾病对的关联关系分数。
CN201910173280.9A 2019-03-07 2019-03-07 一种基于相似性和低秩矩阵填充的微生物-疾病关系预测方法 Active CN109920478B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910173280.9A CN109920478B (zh) 2019-03-07 2019-03-07 一种基于相似性和低秩矩阵填充的微生物-疾病关系预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910173280.9A CN109920478B (zh) 2019-03-07 2019-03-07 一种基于相似性和低秩矩阵填充的微生物-疾病关系预测方法

Publications (2)

Publication Number Publication Date
CN109920478A CN109920478A (zh) 2019-06-21
CN109920478B true CN109920478B (zh) 2020-12-08

Family

ID=66963774

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910173280.9A Active CN109920478B (zh) 2019-03-07 2019-03-07 一种基于相似性和低秩矩阵填充的微生物-疾病关系预测方法

Country Status (1)

Country Link
CN (1) CN109920478B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111540405B (zh) * 2020-04-29 2023-07-07 新疆大学 一种基于快速网络嵌入的疾病基因预测方法
CN114496275A (zh) * 2021-12-20 2022-05-13 山东师范大学 基于条件随机场的微生物-疾病关联性预测方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9703929B2 (en) * 2014-10-21 2017-07-11 uBiome, Inc. Method and system for microbiome-derived diagnostics and therapeutics
EP3276516A1 (en) * 2016-07-30 2018-01-31 Tata Consultancy Services Limited Method and system for identification of key driver organisms from microbiome / metagenomics studies
CN107710205A (zh) * 2015-04-14 2018-02-16 优比欧迈公司 用于心血管疾病状况的微生物组来源的表征、诊断和治疗的方法及系统
CN107887023A (zh) * 2017-12-08 2018-04-06 中南大学 一种基于相似性和双随机游走的微生物‑疾病关系预测方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107644678A (zh) * 2017-10-12 2018-01-30 中南大学 一种基于网络推断算法预测微生物和疾病关系的方法
CN107862179A (zh) * 2017-11-06 2018-03-30 中南大学 一种基于相似性和逻辑矩阵分解的miRNA‑疾病关联关系预测方法
CN109243538B (zh) * 2018-07-19 2021-11-23 长沙学院 一种预测疾病与LncRNA关联关系的方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9703929B2 (en) * 2014-10-21 2017-07-11 uBiome, Inc. Method and system for microbiome-derived diagnostics and therapeutics
CN107710205A (zh) * 2015-04-14 2018-02-16 优比欧迈公司 用于心血管疾病状况的微生物组来源的表征、诊断和治疗的方法及系统
EP3276516A1 (en) * 2016-07-30 2018-01-31 Tata Consultancy Services Limited Method and system for identification of key driver organisms from microbiome / metagenomics studies
CN107887023A (zh) * 2017-12-08 2018-04-06 中南大学 一种基于相似性和双随机游走的微生物‑疾病关系预测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
A novel approach based on KATZ measure to predict associations of human microbiota with non-infectious diseases;Xing Chen et al.;《Bioinformatics》;20161214;第33卷(第5期);第733-739页 *
Computational drug repositioning using low-rank matrix approximation and randomized algorithms;Huimin Luo et al.;《Bioinformatics》;20180122;第34卷(第11期);第1904-1912页 *
SDTRLS: Predicting Drug-Target Interactions for Complex Diseases Based on Chemical Substructures;Cheng Yan et al.;《Complexity 2017》;20171203;第1-11页 *
基于微生物社交网络和随机游走策略的微生物—疾病关联预测;陈尧;《中国优秀硕士学位论文全文数据库 医药卫生科技辑》;20180215(第2期);第32-36页 *

Also Published As

Publication number Publication date
CN109920478A (zh) 2019-06-21

Similar Documents

Publication Publication Date Title
Bandyopadhyay et al. A survey and comparative study of statistical tests for identifying differential expression from microarray data
Serban et al. CATS: clustering after transformation and smoothing
CN111933212B (zh) 一种基于机器学习的临床组学数据处理方法及装置
CN114927162A (zh) 基于超图表征与狄利克雷分布的多组学关联表型预测方法
CN112966114A (zh) 基于对称图卷积神经网络的文献分类方法和装置
CN108877947B (zh) 基于迭代均值聚类的深度样本学习方法
CN109920478B (zh) 一种基于相似性和低秩矩阵填充的微生物-疾病关系预测方法
CN110556184B (zh) 基于Hessian正则非负矩阵分解的非编码RNA与疾病关系预测方法
Zhong et al. Nested cross-validation with ensemble feature selection and classification model for high-dimensional biological data
CN108427865B (zh) 一种预测LncRNA和环境因素关联关系的方法
CN113241122A (zh) 自适应弹性网与深度神经网络融合的基因数据变量选择及分类方法
CN110993113A (zh) 基于MF-SDAE的lncRNA-疾病关系预测方法及系统
Huang et al. Clustering gene expression pattern and extracting relationship in gene network based on artificial neural networks
Jiang et al. Flexible non-negative matrix factorization to unravel disease-related genes
Chakraborty et al. A Bayesian hybrid Huberized support vector machine and its applications in high-dimensional medical data
Liu et al. Ensemble component selection for improving ICA based microarray data prediction models
Hu et al. Cancer gene selection with adaptive optimization spiking neural p systems and hybrid classifiers
Guo et al. A new population initialization of metaheuristic algorithms based on hybrid fuzzy rough set for high-dimensional gene data feature selection
Fan et al. Assisted graphical model for gene expression data analysis
CN115295156A (zh) 一种基于关系图卷积网络融合多源信息预测miRNA-疾病的方法
CN114822689A (zh) 基于grnn的肿瘤基因点突变特征图谱提取与分类方法
CN110739028B (zh) 一种基于k-近邻约束矩阵分解的细胞系药物响应预测方法
CN110459266B (zh) Snp致病因素与疾病关联关系模型建立方法
Wang et al. Semisupervised Bacterial Heuristic Feature Selection Algorithm for High‐Dimensional Classification with Missing Labels
CN117727373B (zh) 基于样本和特征双加权的特征约简中智c-均值聚类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20210127

Address after: 410000 No. 678 Qingshan Road, Yuelu District, Changsha City, Hunan Province

Patentee after: HUNAN CREATOR INFORMATION TECHNOLOGIES Co.,Ltd.

Address before: Yuelu District City, Hunan province 410083 Changsha Lushan Road No. 932

Patentee before: CENTRAL SOUTH University

TR01 Transfer of patent right