CN112951321B

CN112951321B - 一种基于张量分解的miRNA-疾病关联预测方法及系统

Info

Publication number: CN112951321B
Application number: CN202110224119.7A
Authority: CN
Inventors: 骆嘉伟; 刘祎; 吴昊
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2021-03-01
Filing date: 2021-03-01
Publication date: 2023-10-24
Anticipated expiration: 2041-03-01
Also published as: CN112951321A

Abstract

本发明公开了一种基于张量分解的miRNA‑疾病关联预测方法及系统，该方法用张量表示miRNA‑疾病、miRNA‑基因和基因‑疾病之间的复杂关系，在张量分解过程中，结合辅助信息探索复杂的生物机制，再整合交替方向乘子法(ADMM)框架和共轭梯度(GC)法的优化策略求解目标函数，得到miRNA‑基因‑疾病关联评分张量，将关联评分张量转换为miRNA‑疾病关联评分矩阵，通过miRNA‑疾病关联评分矩阵评估方法性能，为疾病关联miRNA的获取提供有效结果；通过实验表明本发明所述方法具有良好的预测性能，可以为疾病关联miRNA的获取提供有效结果。

Description

一种基于张量分解的miRNA-疾病关联预测方法及系统

技术领域

本发明属于miRNA和疾病关联预测的生物信息学领域，涉及一种基于张量分解的miRNA-疾病关联预测方法及系统。

背景技术

miRNA是一类非编码RNA在动物体内通过靶向mRNA发挥重要的调控作用。在动物体内，miRNA参与细胞增殖、细胞分化、细胞凋亡等多个生命进程。有研究表明，miRNA的功能失调与疾病有重要联系，例如，在人类乳腺癌标本中，miR-892b的表达会产生明显变化，其表达情况与患者的生存期有密切联系。miR-218的缺失对机体的肌肉有重要影响。因此，研究疾病相关的miRNA对识别疾病的生物标志物有重要意义。进一步地研究显示，miRNA的功能失调会导致其调控的靶基因出现功能失调，进而影响疾病的产生与发展过程。例如，miR-27a-3p及其向调控的FBLN5会影响卵巢癌细胞发生和发展，miR-27a靶向TGF-βRI可影响宫颈腺癌发展。因此在研究过程中整合更多类型的信息，如miRNA调控的基因，对识别与疾病相关的miRNA和更加细致和深入地了解疾病的发病机制和分子积极的影响。

高通量测序技术的发展和应用使大量的生物数据被发现和积累，通过研究者们的收集和处理，不同类型的生物数据被整合进入不同的数据库，这为使用计算方法挖掘生物数据，探索生物数据间的关联提供了坚实的基础。目前，已有多个数据库提供大量数据用于miRNA-疾病关联数据研究，如HMDD、miRBase、miRTarBase等。在现有的miRNA-疾病关联预测方法中，与miRNA相关的基因信息和与疾病相关的基因信息作为影响miRNA和疾病关联研究的重要信息，常与miRNA之间的相似性信息和疾病之间的相似性信息一起，作为补充信息，被整合到用于miRNA-疾病关联预测的研究方法中。如何整合复杂的生物信息使其以更合理且有效的方式用于miRNA-疾病关联预测研究，也一直在miRNA-疾病关联预测研究中被积极探索。

张量作为一个高维数组，具有表示多类型数据间复杂关联的能力。一个n(>＝3)阶张量，可以表示为一个n维数组，其每一维，可以表示一类数据。因此，可以用一个3阶张量，即miRNA-基因-疾病关联张量，表示miRNA、基因和疾病这三类的数据。在miRNA-基因-疾病关联张量中，一个元素可以表示一个miRNA、一个基因和一个疾病之间的关联，这将miRNA、基因、疾病之间的复杂关联整合为一个整体。在该张量中，存在大量的未知关联，可以通过张量分解技术，利用张量中已知的关联去对未知的关联进行预测。在实际应用中，miRNA-基因-疾病关联张量中的已知关联数量远远少于未知关联数据，即张量的稀疏度很高，为了缓解张量的高稀疏度问题，可以通过将如生物相似性信息等的辅助信息整合进张量分解的方法中，提高基于张量分解方法的性能。目前，缺乏高效的基于张量分解的方法识别miRNA-疾病的潜在关联。

因此，有必要设计一种基于张量分解的方法，整合多类型数据间的复杂关联，用于有效的预测miRNA-疾病间的关联。

发明内容

本发明目的在于提供一种有效的基于张量分解的miRNA-疾病关联预测方法及系统，该方法可以通过集成多类型的数据和这些数据间多复杂的关联，探索复杂的生物机制，为疾病关联miRNA的获取提供有效结果。

一方面，一种基于张量分解的miRNA-疾病关联预测方法，包括以下步骤：

步骤1：基于已知的miRNA-疾病关联数据、miRNA-基因关联数据和基因-疾病关联数据，构建miRNA-基因-疾病关联张量；

从HMDD数据库下载miRNA-疾病关联数据，从miRNATarBase数据库下载miRNA-基因关联数据，从DisGeNet下载基因-疾病关联数据。

步骤2：基于miRNA-基因-疾病关联张量，计算miRNA、基因、疾病之间的生物相似性信息和邻接信息，构建相似性矩阵和邻接矩阵；

步骤3：构造基于张量分解的目标函数；

基于张量分解方式，分解miRNA-基因-疾病关联张量，保留miRNA-基因-疾病关联张量中已知关联信息，并对未知关联信息进行评分，采用三个因子矩阵重构miRNA-基因-疾病关联张量，并引入因子矩阵和与因子矩阵对应的投影矩阵的Tikhonov正则化项，获得基于张量分解的目标函数；

其中，利用相似性矩阵，对三个因子矩阵进行图正则化处理；同时，利用邻接矩阵，对三个因子矩阵均进行投影处理，投影函数为f(X,Y)＝XBY^T，B是投影矩阵,X和Y表示两类节点的因子矩阵，Y^T表示Y的转置；

步骤4：对目标函数进行求解，获得各因子矩阵，并利用各因子矩阵重构的miRNA-基因-疾病关联张量和miRNA-基因-疾病关联结构未知的索引张量的哈达玛积作为miRNA-基因-疾病关联评分张量，将miRNA-基因-疾病关联评分张量转换为miRNA-疾病关联评分矩阵，获得miRNA-疾病关联预测值；其中，miRNA-基因-疾病关联结构未知的索引张量用于记录miRNA-基因-疾病关联张量χ初始值中关联未知的元素位置。

进一步地，所述目标函数表达式如下：

其中，χ表示构建的miRNA-基因-疾病关联张量，M、T、D分别表示分解得到的用于重构张量的miRNA、基因、疾病的因子矩阵，I表示miRNA的数量、J表示基因的数量、K表示疾病的数量，R表示张量χ的秩，R<<min(I,J,K)；表示重构的miRNA-基因-疾病关联张量；L_m、L_t、L_d分别表示miRNA、基因、疾病的相似性矩阵的图拉普拉斯矩阵，tr(·)是矩阵的迹；A_mt表示miRNA-基因邻接矩阵,A_md表示miRNA-疾病邻接矩阵，A_td表示基因-疾病邻接矩阵；B₁、B₂、B₃分别为用作miRNA因子矩阵M与基因因子矩阵T，miRNA因子矩阵M与疾病因子矩阵D，基因因子矩阵T与疾病因子矩阵D之间的投影矩阵，α控制相似性信息的影响，β控制邻接信息的影响，α和β的取值范围均为[0.125，2]；λ是Tikhonov正则化项的正则化系数，取值范围为[0.001,10]；表示Frobenius范数，*表示哈达玛积，Ω是一个miRNA-基因-疾病关联结构已知的索引张量，大小与χ相同，Ω中元素的值仅为0或1，用于记录χ初始值中关联已知的元素的位置，当χ中元素χ_ijk关联已知时，Ω_ijk＝1，当χ_ijk关联未知时，Ω_ijk＝0；为观察张量，表示χ中关联已知的部分，的数据与χ的初始值相同。

进一步地，采用交替方向乘子法和共轭梯度法分别求解目标函数中的因子矩阵和投影矩阵。

进一步地，利用交替方向乘子法迭代更新求解因子矩阵；

对于每个因子矩阵，从目标函数中提取包含该因子矩阵的项，构成因子矩阵的目标函数，然后利用交替方向乘子法求解因子矩阵目标函数，得到因子矩阵的更新方式，利用具体计算公式将因子矩阵的更新方式表示如下：

M＝(χ₍₁₎E₁+βA_mtTB₁ ^T+βA_mdDB₂ ^T+ηO+Y₁)(E₁ ^TE₁+βB₁T^TTB₁ ^T+βB₂D^TDB₂ ^T+λI+ηI)^-1

T＝(χ₍₂₎E₂+βA_mt ^TMB₁+βA_tdDB₃ ^T+ηP+Y₂)(E₂ ^TE₂+βB₁ ^TM^TMB₁+βB₃D^TDB₃ ^T+λI+ηI)^-1

D＝(χ₍₃₎E₃+βA_md ^TMB₂+βA_td ^TTB₃+ηQ+Y₃)(E₃ ^TE₃+βB₂ ^TM^TMB₂+βB₃ ^TT^TTB₃+λI+ηI)^-1

其中，χ₍₁₎、χ₍₂₎、χ₍₃₎分别表示χ沿miRNA、基因、疾病维度展开的矩阵，⊙是Khatri-Rao乘积，O、P、Q是辅助变量，Y₁、Y₂、Y₃表示是拉格朗日乘子，η是惩罚参数，E₁＝D⊙T，E₂＝D⊙M，E₃＝T⊙M,是单位矩阵。

进一步地，利用共轭梯度法迭代更新投影矩阵B₁，B₂，B₃；

用矩阵统一表示投影矩阵B₁，B₂和B₃，则投影矩阵B₁，B₂和B₃的目标函数统一用一个关于矩阵B目标函数表示：

其中，W表示邻接矩阵，U和V分别表示与W相关的因子矩阵；

如，W表示miRNA-基因邻接矩阵，U表示miRNA因子矩阵，V表示基因因子矩阵；

利用共轭梯度法对矩阵B进行更新，在更新过程中，第n次迭代的内容如下：

B⁽ⁿ⁺¹⁾＝B⁽ⁿ⁾+ξ⁽ⁿ⁾C⁽ⁿ⁾

G⁽ⁿ⁺¹⁾＝G⁽ⁿ⁾-ξ⁽ⁿ⁾(ωU^TUC⁽ⁿ⁾V^TV+υC⁽ⁿ⁾)

其中，G和C为中间变量，初始化B⁽⁰⁾＝0，G⁽⁰⁾＝ωU^TWV-ωU^TUB⁽⁰⁾V^TV-υB⁽⁰⁾，C⁽⁰⁾＝G⁽⁰⁾，上标(0)表示第0次迭代；

当W表示miRNA-基因邻接矩阵A_mt时，U表示miRNA因子矩阵M，V表示基因因子矩阵T，更新后的B表示更新后的投影矩阵B₁；

当W表示miRNA-疾病邻接矩阵A_md时，U表示miRNA因子矩阵M，V表示疾病因子矩阵D，更新后的B表示更新后的投影矩阵B₂；

当W表示基因-疾病邻接矩阵A_td时，U表示基因因子矩阵T，V表示疾病因子矩阵D，更新后的B表示更新后的投影矩阵B₃。

进一步地，所述miRNA-基因-疾病关联评分张量采用以下公式计算获得：

其中，表示miRNA-基因-疾病关联评分张量中的元素，表示重构的miRNA-基因-疾病关联张量中的元素，M_i,r、T_j,r、D_k,r分别表示M中第(i，r)个值，T中第(j，r)个值，D中第(k，r)个值；Ω^-表示miRNA-基因-疾病关联结构未知的索引张量，当Ω_ijk＝1，Ω^- _ijk＝0，当Ω_ijk＝0，Ω^- _ijk＝1；当χ初始值中元素χ_ijk关联已知时Ω^- _ijk＝0，当χ_ijk关联未知时，Ω^- _ijk＝1。

进一步地，将miRNA-基因-疾病关联评分张量转换为miRNA-疾病关联评分矩阵的具体过程如下：

针对miRNAi-疾病k对，从关联评分张量中获得一个数组表示该miRNAi-疾病k对关于全部基因的评分，计算该数组的平均值作为该miRNAi-疾病k对的预测评分；从而获得关联评分张量中全部的miRNA-疾病对的预测评分，按照矩阵形式存储，得到miRNA-疾病关联评分矩阵。

进一步地，所述miRNA-基因-疾病关联张量是指：如果miRNA i与疾病k有关联，miRNA i与基因j有关联，基因j与疾病k有关联，将张量中的元素χ_ijk设置为1，表示张量中的元素χ_ijk关联已知，否则将元素χ_ijk设置为0，得到规模为I×J×K的张量，I表示miRNA的数量、J表示基因的数量、K表示疾病的数量。

进一步地，所述相似性矩阵包括miRNA相似性矩阵、基因相似性矩阵，疾病相似性矩阵；

所述邻接矩阵包括miRNA-疾病邻接矩阵、miRNA-基因邻接矩阵和疾病-基因邻接矩阵；

通过min-max正则化，将相似性矩阵中，相似性值超出[0,1]范围的约束在[0,1]的范围内。

从miRBase下载miRNA的序列信息，计算得到miRNA之间的序列相似性评分矩阵、从HumanNet数据库获取基因之间相似性评分矩阵，从人类症状-疾病网络中获取疾病相似性评分矩阵。

通过min-max正则化，将分数超出[0,1]范围的相似性评分约束在[0,1]的范围内：

从人类症状-疾病网络中获取疾病相似性评分的分数范围在[0,1]之间，故不需要进行min-max正则化。

通过min-max正则化，将miRNA相似性评分表示为MSscore(m_i,m_j)，基因相似性评分表示为TFscore(t_i,t_j)，将MSscore(m_i,m_j)和TFscore(t_i,t_j)约束在[0,1]的范围内:

其中S_mmax和S_mmin表示miRNA相似性评分的最大值和最小值，S_tmax和S_tmin表示基因相似性评分的最大值和最小值。用表示miRNA相似性矩阵，用基因相似性矩阵，用疾病相似性矩阵。

另一方面，一种基于张量分解的miRNA-疾病关联预测系统，包括：

miRNA-基因-疾病关联张量构建模块，通过采用已知的miRNA-疾病关联数据、miRNA-基因关联数据和基因-疾病关联数据，提取关联信息，构建miRNA-基因-疾病关联张量；

辅助矩阵构建模块，通过利用构建的miRNA-基因-疾病关联张量，计算miRNA、基因、疾病之间的生物相似性信息和邻接信息，构建相似性矩阵和邻接矩阵；

目标函数构建模块：通过采用张量分解单元，对miRNA-基因-疾病关联张量进行张量分解，保留miRNA-基因-疾病关联张量中已知关联的信息，并未知对关联的信息进行评分，采用三个因子矩阵重构miRNA-基因-疾病关联张量，并引入因子矩阵和与因子矩阵对应的投影矩阵的Tikhonov正则化项，获得基于张量分解的目标函数；

目标函数求解模块：通过对目标函数进行求解，获得各因子矩阵，并利用各因子矩阵重构的miRNA-基因-疾病关联张量和miRNA-基因-疾病关联结构未知的索引张量的哈达玛积作为miRNA-基因-疾病关联评分张量，将miRNA-基因-疾病关联评分张量转换为miRNA-疾病关联评分矩阵，获得miRNA-疾病关联预测值；

miRNA-基因-疾病关联结构未知的索引张量用于记录miRNA-基因-疾病关联张量χ初始值中关联未知的元素的位置。

有益效果

本研究提供了一种基于张量分解的miRNA-疾病关联预测方法及系统，该方法用张量表示miRNA-疾病、miRNA-基因和基因-疾病之间的复杂关系，在张量分解过程中，结合辅助信息(生物相似性信息和邻接信息)探索复杂的生物机制，再整合交替方向乘子法和共轭梯度法的优化策略求解目标函数，得到miRNA-基因-疾病关联评分张量，将关联评分张量转换为miRNA-疾病关联评分矩阵，通过miRNA-疾病关联评分矩阵评估方法性能，为疾病关联miRNA的获取提供有效结果；将使用本发明实例所述方法计算得到的AUC值与使用其他方法计算得到的AUC值进行对比，实验结果表明本发明实例所述方法具有良好的预测性能，可以为疾病关联miRNA的获取提供有效结果。

附图说明

图1是本发明实例所述方法(TDMDA)的流程示意图；

图2是本发明实例所述方法与其它方法的ROC曲线展示图。

具体实施方式

下面将结合实例和附图对本发明方案做进一步的说明。

如图1所示，一种基于张量分解的miRNA-疾病关联预测方法，包括以下步骤：

步骤1具体包括以下步骤：

步骤11：构建miRNA-基因-疾病关联张量：

合并已知的miRNA-疾病关联数据、miRNA-基因关联数据和基因-疾病关联数据用于构建关联数据集<miRNA,基因,疾病>。通过一个3阶张量χ建模关联，其三个维度分别表示miRNA、基因、疾病。

所述miRNA-基因-疾病关联张量是指：如果miRNAi与疾病k有关联，miRNAi与基因j有关联，基因j与疾病k有关联，将张量中的元素χ_ijk设置为1，表示张量中的元素χ_ijk关联已知，否则将元素χ_ijk设置为0，得到规模为I×J×K的张量，I表示miRNA的数量、J表示基因的数量、K表示疾病的数量。

在构建的miRNA-基因-疾病关联张量χ中，元素χ_ijk关联已知，即χ_ijk＝1表示miRNAi，基因j和疾病k作为一个整体，该整体的关联是存在的，是已知的，而元素χ_ijk关联未知，即χ_ijk＝0表示miRNAi，基因j和疾病k作为一个整体，该整体的关联是未知的，需要进行预测评估。

步骤2：基于miRNA-基因-疾病关联张量，计算miRNA、基因、疾病之间的生物相似性信息和邻接信息，构建相似性矩阵和邻接矩阵：

步骤2具体包括以下步骤：

步骤21：根据由步骤1得到的miRNA-基因-疾病关联张量中的miRNA，基因和疾病，构建miRNA相似性评分矩阵、基因相似性评分矩阵，疾病相似性评分矩阵；

步骤22：通过min-max正则化，将分数超出[0,1]范围的相似性评分约束在[0,1]的范围内：

其中，S_mmax和S_mmin表示miRNA相似性评分的最大值和最小值，S_tmax和S_tmin表示基因相似性评分的最大值和最小值。用表示miRNA相似性矩阵，用基因相似性矩阵，用疾病相似性矩阵。

步骤23：构建miRNA-疾病邻接矩阵、miRNA-基因邻接矩阵和疾病-基因邻接矩阵：

在张量构建的过程中，如果miRNAi与疾病k有关联，miRNAi与基因j有关联，基因j与疾病k有关联，将张量中的元素χ_ijk设置为1，表示张量中的元素χ_ijk关联已知，否则将元素χ_ijk设置为0。这表示如果χ_ijk＝1，那么在原始数据中，miRNAi，基因j和疾病k，三者之间存在三个已知的关联，即，在原始数据中存在miRNAi与基因j的关联，miRNA i与疾病k的关联和基因j与疾病k的关联。

因此，在构建张量的过程中，会存在miRNAm，基因t和疾病d，在原始数据中，因为三者之间只有一个或两个已知的关联，无法满足“三者之间存在三个已知的关联”的条件而被移除，但这些被移出的关联是有价值的关联，因此将上述所有已知的关联(移除的和未移除的)作为邻接信息。用表示miRNA-基因邻接矩阵,表示miRNA-疾病邻接矩阵,表示基因-疾病邻接矩阵。

步骤3：构造基于CP分解的目标函数；

基于CP分解方法对miRNA-基因-疾病关联张量进行分解，保留miRNA-基因-疾病关联张量中已知关联的信息，并对未知关联的信息进行评分，采用三个因子矩阵重构miRNA-基因-疾病关联张量，并引入因子矩阵和与因子矩阵对应的投影矩阵的Tikhonov正则化项，获得基于CP分解的目标函数；

步骤3具体包括以下步骤：

步骤31：构建基于CP分解(一种张量分解方法)的目标函数，CP分解是张量分解方法中被应用最广泛的方法之一。它旨在于从原始张量中学习低秩因子矩阵，并用这些因子矩阵重构一个张量。在尽可能保留原始张量已知的关联结构的同时，对原始张量中的未知关联进行评分：

在本实施例中，在用于研究miRNA-基因-疾病关联张量的CP分解中，使用三个因子矩阵重构一个张量，其数据规模与miRNA-基因-疾病关联张量相等，最小化重构张量与miRNA-基因-疾病关联张量之间的区别，在尽可能保留miRNA-基因-疾病关联张量的已知结构的同时，对该张量中的未知关联进行评分，为完成该目标，构建目标函数如下：

其中，χ表示构建的miRNA-基因-疾病关联张量，M、T、D分别表示分解得到的用于重构张量的miRNA、基因、疾病的因子矩阵，I表示miRNA的数量、J表示基因的数量、K表示疾病的数量，R表示张量χ的秩,R<<min(I,J,K)；表示重构的miRNA-基因-疾病关联张量；向量M_i,:,T_j,:,D_k,:被称为因子向量，是重构张量中的第(i,j,k)个元素。表示Frobenius范数。*表示哈达玛积。Ω是一个miRNA-基因-疾病关联结构已知的索引张量，大小与χ相同，Ω中元素的值仅为0或1，用于记录χ初始值中关联已知的元素的位置，当χ中元素χ_ijk关联已知时，Ω_ijk＝1，当χ_ijk关联未知时，Ω_ijk＝0；为观察张量，表示χ中关联已知的部分，的数据与χ的初始值相同。

步骤32：构建用图正则化将相似性信息整合进因子矩阵的目标函数：

在步骤31中，获得了miRNA，基因和疾病的因子矩阵M，T，D，通过步骤31中的目标函数的约束，尽可能保留miRNA-基因-疾病关联张量的已知结构，在此基础上，通过图正则化向因子矩阵中添加miRNA，基因和疾病各自的相似性信息，为对miRNA-基因-疾病关联张量中未知关联的评分提供更多信息。

如果两个对象(例如：miRNA)之间的相似度较高，那么它们的特征表示之间的距离就应该更近。图正则化可以最小化两个相邻对象的潜在特征向量之间的距离，用图正则化将相似性信息整合进因子矩阵的目标函数如下：

其中分别表示miRNA，基因，疾病的相似性矩阵；tr(·)是矩阵的迹；相似性矩阵S_m,S_t,S_d的图拉普拉斯矩阵。

步骤33：构建使用型如f(X,Y)＝XBY^T的投影函数将邻接信息整合进因子矩阵的目标函数，B是投影矩阵,X和Y表示两类对象各自的因子矩阵(例如，X可以表示miRNA,Y可以表示疾病)：

在投影函数f(X,Y)＝XBY^T中，B是投影矩阵,X和Y表示两类对象各自的因子矩阵，将其用于整合miRNA与基因，miRNA与疾病和基因与疾病的邻接信息的目标函数如下：

其中，表示miRNA-基因邻接矩阵,表示miRNA-疾病邻接矩阵,表示基因-疾病邻接矩阵。分别用miRNA因子矩阵M与基因因子矩阵T，miRNA因子矩阵M与疾病因子矩阵D，和基因因子矩阵T与疾病因子矩阵D替换投影函数中的X和Y，并使用数据规模相同的作为投影矩阵。通过最小化邻接矩阵与投影函数之间的近似误差，从而达到向因子矩阵整合邻接信息的目标。

步骤34：将步骤31、32、33的目标函数整合，同时引入Tikhonov正则化项。得到最终的目标函数，用于使用张量分解技术更新由步骤1得到的miRNA-基因-疾病关联张量并整合由步骤2得到的辅助信息(生物相似性信息和邻接信息)：

将步骤31中基于张量分解的目标函数，步骤32中用于整合相似性信息的目标函数和步骤33中用于整合邻接信息的目标函数相加，同时加入Tikhonov正则化项去防止过拟合，然后得到最终的目标函数，该目标函数通过同时最小化重构张量与已知张量的近似误差，和两个相邻对象的潜在特征向量之间的距离和邻接矩阵与投影函数之间的近似误差，将由步骤2得到的辅助信息(生物相似性信息和邻接信息)分别整合进miRNA，基因，疾病的因子矩阵M，T，D，使用M，T，D重构张量。

整体的目标函数表示如下：

其中，α控制相似性信息的影响,β控制邻接信息的影响,λ是Tikhonov正则化项的正则化系数。设置α，β的取值范围均为[0.125，2]，在本实施例中，设置α，β均为0.25。设置λ取值范围为[0.001,10]，在本实施例中，设置λ为0.001。

步骤4：对目标函数进行求解，获得各因子矩阵，并利用各因子矩阵重构的miRNA-基因-疾病关联张量和miRNA-基因-疾病关联结构未知的索引张量的哈达玛积作为miRNA-基因-疾病关联评分张量，将miRNA-基因-疾病关联评分张量转换为miRNA-疾病关联评分矩阵，获得miRNA-疾病关联预测值；

所述步骤4具体包括以下步骤：

步骤41：利用交替方向乘子法迭代更新求解因子矩阵：

步骤42：利用共轭梯度法迭代更新投影矩阵B₁，B₂，B₃：

其中，W表示邻接矩阵，U和V分别表示与W相关的因子矩阵；

如，W表示miRNA-基因邻接矩阵，U表示miRNA因子矩阵,V表示基因因子矩阵；

B⁽ⁿ⁺¹⁾＝B⁽ⁿ⁾+ξ⁽ⁿ⁾C⁽ⁿ⁾

G⁽ⁿ⁺¹⁾＝G⁽ⁿ⁾-ξ⁽ⁿ⁾(ωU^TUC⁽ⁿ⁾V^TV+υC⁽ⁿ⁾)

步骤43：利用更新后得到的因子矩阵M，T，D重构miRNA-基因-疾病关联张量，得到miRNA-基因-疾病关联评分张量：

由步骤31中，对miRNA-基因-疾病三元张量进行CP分解的目标函数可知，在重构张量中，每一个元素都是利用因子矩阵M，T，D计算得到的，计算方式如下：

M_i,r表示因子矩阵M的第(i，r)个值，T_j,r表示因子矩阵T的第(j，r)个值，D_k,r表示因子矩阵D的第(k，r)个值。R表示因子矩阵的秩，即因子矩阵的列数。M，T，D三个因子矩阵的列数是相同的。

由步骤11可知，在构建好的miRNA-基因-疾病三元张量χ中，关联未已知的元素，即χ_ijk＝0表示miRNAi，基因j和疾病k作为一个整体，该整体的关联是未知的，需要进行预测评估。因此在最小化miRNA-基因-疾病关联张量χ中的元素与重构中的元素之间的区别过程中，χ中关联未知的元素值会被更新，其更新方式如下：

表示χ中被观察到的部分，的数据与χ的初始值相同。Ω^-表示一个关联结构未知的索引张量，数据规模与步骤31中的Ω相同，当Ω_ijk＝1，Ω^- _ijk＝0，当Ω_ijk＝0，Ω^- _ijk＝1，当χ初始值中元素χ_ijk关联已知时Ω^- _ijk＝0，当χ_ijk关联未知时，Ω^- _ijk＝1。其中*表示哈达玛积。用保持χ中关联已知的部分，用更新χ中关联未知的部分。当足够小时，表示χ中的元素与中的元素之间的区别足够小。重构张量即可用于miRNA-基因-疾病三元关联预测。

在训练好的重构张量中，元素的值为一个预测得分，表示用本发明中的方法预测出miRNA i，基因j和疾病k，三者之间存在关联的可能性大小。

将Ω^-和训练好的的哈达玛积作为关联评分张量所述miRNA-基因-疾病关联评分张量采用以下公式计算获得：

其中，表示miRNA-基因-疾病关联评分张量中的元素，表示重构的miRNA-基因-疾病关联张量中的元素，M_i,r、T_j,r、D_k,r分别表示M中第(i，r)个值，T中第(j，r)个值，D中第(k，r)个值；Ω^-表示miRNA-基因-疾病关联结构未知的索引张量，当Ω_ijk＝1，Ω^- _ijk＝0，当Ω_ijk＝0，Ω^- _ijk＝1；当χ初始值中元素χ_ijk关联结构已知时Ω^- _ijk＝0，当χ_ijk关联结构未知时，Ω^- _ijk＝1。

当Ω^- _ijk＝0时，当Ω^- _ijk＝1时，即中的元素由得到，评分张量中的元素表示对原始miRNA-基因-疾病关联张量中未知关联的预测得分。评分张量中的元素，当Ω^- _ijk＝0时，表示对应于原始miRNA-基因-疾病关联张量中关联结构已知的部分，该部分的不需要进行预测。

步骤44：将miRNA-基因-疾病关联评分张量转换为miRNA-疾病关联评分矩阵:

针对miRNA i-疾病k对，从关联评分张量中获得一个数组表示该miRNA i-疾病k对关于全部基因的评分，计算该数组的平均值作为该miRNA i-疾病k对的预测评分；按相同方法，获得关联评分张量中全部的miRNA-疾病对的预测评分，按照矩阵形式存储，得到miRNA-疾病关联评分矩阵。将所有已知的miRNA-疾病关联作为全部正样本随机分为5个子集，进行五折交叉验证。每个子集轮流作测试集。选取和已知关联子集数量相等的未知关联，作为负样本，训练结束后，可以得到测试集中的miRNA-疾病对的关联评分，将这些关联评分进行排名，给定的不同的阈值，当miRNA-疾病对的评分高于阈值则认为该miRNA-疾病对被预测为正例，低于阈值则被预测为负例。通过对比预测值和真实值的差异，计算出真阳性率(TPR)和假阳性率(FPR)，真阳性率表示：相对于所有正样本，被正确地判断为正例的比率；假阳性率表示：对于所有负样本，被错误地判断为正例的比率。在不同阈值下，会得到不同的TPR和FPR，根据不同阈值下的TPR和FPR绘制ROC曲线，计算ROC曲线下的面积，即AUC值。重复10次5折交叉验证，取所有结果的平均值对方法进行评估。

图2展示了TDMDA，CP，TDRC，GRNMF*(除去GRNMF方法中的WKNNP预处理步骤)，IMCMDA，INMCGCN和MDA-CNN的平均ROC曲线和平均AUC值，TDMDA、CP、TDRC、GRNMF*、IMCMDA、INMCGCN、MDA-CNN的平均AUC值分别为0.943、0.915、0.773、0.932、0.806、0.889、0.817。与其他方法相比，TDMDA具有更好的性能。

基于上述方法，本发明实施例还提供一种基于张量分解的miRNA-疾病关联预测系统，包括：

目标函数构建模块：通过采用张量分解单元，对miRNA-基因-疾病关联张量进行张量分解，保留miRNA-基因-疾病关联张量中已知关联的信息，并对未知关联的信息进行评分，采用三个因子矩阵重构miRNA-基因-疾病关联张量，并引入因子矩阵和与因子矩阵对应的投影矩阵的Tikhonov正则化项，获得基于张量分解的目标函数；

应当理解，本发明各个实施例中的功能单元模块可以集中在一个处理单元中，也可以是各个单元模块单独物理存在，也可以是两个或两个以上的单元模块集成在一个单元模块中，可以采用硬件或软件的形式来实现。

Claims

1.一种基于张量分解的miRNA-疾病关联预测方法，其特征在于，包括以下步骤：

步骤3：构造基于张量分解的目标函数；

步骤4：对目标函数进行求解，获得各因子矩阵，并利用各因子矩阵重构的miRNA-基因-疾病关联张量和miRNA-基因-疾病关联结构未知的索引张量的哈达玛积作为miRNA-基因-疾病关联评分张量，将miRNA-基因-疾病关联评分张量转换为miRNA-疾病关联评分矩阵，获得miRNA-疾病关联预测值；其中，miRNA-基因-疾病关联结构未知的索引张量用于记录miRNA-基因-疾病关联张量初始值中关联未知的元素的位置；

所述相似性矩阵包括miRNA相似性矩阵、基因相似性矩阵，疾病相似性矩阵；

通过min-max正则化，将相似性矩阵中，相似性值超出[0,1]范围的约束在[0,1]的范围内；

所述目标函数表达式如下：

其中，表示构建的miRNA-基因-疾病关联张量，M、T、D分别表示分解得到的用于重构张量的miRNA、基因、疾病的因子矩阵，I表示miRNA的数量、J表示基因的数量、K表示疾病的数量，R表示张量的秩，R<<min(I,J,K)；表示重构的miRNA-基因-疾病关联张量；L_m、L_t、L_d分别表示miRNA、基因、疾病的相似性矩阵的图拉普拉斯矩阵，tr(·)是矩阵的迹；A_mt表示miRNA-基因邻接矩阵,A_md表示miRNA-疾病邻接矩阵，A_td表示基因-疾病邻接矩阵；B₁、B₂、B₃分别为用作miRNA因子矩阵M与基因因子矩阵T，miRNA因子矩阵M与疾病因子矩阵D，基因因子矩阵T与疾病因子矩阵D之间的投影矩阵，α控制相似性信息的影响，β控制邻接信息的影响，α和β的取值范围均为[0.125，2]；λ是Tikhonov正则化项的正则化系数，取值范围为[0.001,10]；表示Frobenius范数，*表示哈达玛积，Ω是一个miRNA-基因-疾病关联结构已知的索引张量，大小与相同，Ω中元素的值仅为0或1，用于记录初始值中关联已知的元素的位置，当中元素关联已知时，Ω_ijk＝1，当关联未知时，Ω_ijk＝0；为观察张量，表示中关联已知的部分，的数据与的初始值相同。

2.根据权利要求1所述的方法，其特征在于，采用交替方向乘子和共轭梯度法分别求解目标函数中的因子矩阵和投影矩阵。

3.根据权利要求2所述的方法，其特征在于，利用交替方向乘子法迭代更新求解因子矩阵；

其中，分别表示沿miRNA、基因、疾病维度展开的矩阵，⊙是Khatri-Rao乘积，O、P、Q是辅助变量，Y₁、Y₂、Y₃表示是拉格朗日乘子，η是惩罚参数，E₁＝D⊙T，E₂＝D⊙M，E₃＝T⊙M,是单位矩阵。

4.根据权利要求2所述的方法，其特征在于，利用共轭梯度法迭代更新投影矩阵B₁，B₂，B₃；

其中，W表示邻接矩阵，U和V分别表示与W相关的因子矩阵；

B⁽ⁿ⁺¹⁾＝B⁽ⁿ⁾+ξ⁽ⁿ⁾C⁽ⁿ⁾

G⁽ⁿ⁺¹⁾＝G⁽ⁿ⁾-ξ⁽ⁿ⁾(ωU^TUC⁽ⁿ⁾V^TV+υC⁽ⁿ⁾)

5.根据权利要求1所述的方法，其特征在于，所述miRNA-基因-疾病关联评分张量采用以下公式计算获得：

其中，表示miRNA-基因-疾病关联评分张量中的元素，表示重构的miRNA-基因-疾病关联张量中的元素，M_i,r、T_j,r、D_k,r分别表示M中第(i，r)个值，T中第(j，r)个值，D中第(k，r)个值；Ω^-表示miRNA-基因-疾病关联结构未知的索引张量，当Ω_ijk＝1，Ω^- _ijk＝0，当Ω_ijk＝0，Ω^- _ijk＝1；当初始值中元素关联已知时Ω^- _ijk＝0，当关联未知时，Ω^- _ijk＝1。

6.根据权利要求1所述的方法，其特征在于，将miRNA-基因-疾病关联评分张量转换为miRNA-疾病关联评分矩阵的具体过程如下：

7.根据权利要求1所述的方法，其特征在于，所述miRNA-基因-疾病关联张量是指：如果miRNAi与疾病k有关联，miRNAi与基因j有关联，基因j与疾病k有关联，将张量中的元素设置为1，表示张量中的元素关联已知，否则将元素设置为0，得到规模为I×J×K的张量，I表示miRNA的数量、J表示基因的数量、K表示疾病的数量。

8.一种基于张量分解的miRNA-疾病关联预测系统，其特征在于，包括：

miRNA-基因-疾病关联结构未知的索引张量用于记录miRNA-基因-疾病关联张量初始值中关联未知的元素的位置；

所述目标函数表达式如下：