CN112599202B

CN112599202B - 疾病相关miRNA预测系统

Info

Publication number: CN112599202B
Application number: CN202011553109.XA
Authority: CN
Inventors: 丁平尖; 武紫玉; 罗凌云; 李跃
Original assignee: University of South China
Current assignee: University of South China
Priority date: 2020-12-24
Filing date: 2020-12-24
Publication date: 2024-04-26
Anticipated expiration: 2040-12-24
Also published as: CN112599202A

Abstract

本申请公开了一种疾病相关miRNA预测系统，包括数据采集模块、数据处理模块和预测模块。数据采集模块用于获取疾病样本数据、疾病‑miRNA关系数据、疾病‑基因关系数据、基因相互作用数据和miRNA‑基因相互作用数据；数据处理模块用于根据数据采集模块获取的数据构建miRNA‑基因‑疾病异构信息网络，并通过多任务矩阵分解处理miRNA‑基因‑疾病异构信息网络得到疾病、基因、miRNA最终表示特征；预测模块用于根据疾病最终表示特征和miRNA最终表示特征预测疾病相关miRNA。本申请可有效结合基因信息和已知疾病相关miRNA进行预测，提升疾病相关miRNA预测性能。

Description

疾病相关miRNA预测系统

技术领域

本申请涉及系统生物学技术领域，特别是涉及一种疾病相关miRNA预测系统。

背景技术

miRNA(microRNA，微小核糖核酸)是一种小型，内生，单链，非编码RNAs，其大小长约20～25个核苷酸。它主要通过绑定靶基因的30-untraslated区域来抑制携带遗传信息的信使核糖核酸mRNA的表达，从而导致mRNA的卵裂或翻译抑制。越来越多的证据表明miRNAs在转录后水平起正调控的作用，这是疾病发展的关键点。越来越多的实验证据表明，miRNA突变的功能障碍、miRNA和靶基因生物合成的失调均会导致各种各样的疾病。

因此，识别miRNA与疾病之间的关系是一个重要的问题。利用生物实验的方法来验证miRNA与疾病之间的相关性有很多的瓶颈，如所耗费时间较长、设备要求高、成本高等。随着高通量测序技术的迅猛发展，其已经成为基因表达和转录组分析的重要手段，为很多核糖核酸RNA分子提供到了有意义的信息。利用高通量测序数据，计算方法可以作为生物实验验证的补充。计算方法可以在短时间内获得潜在的疾病miRNA链接，能够减少生物实验工作量。然而，这些新的计算方法依然面临着很多挑战。首先，通过生物实验往往只能证明一个miRNA与疾病相关，而难以说明miRNA与疾病完全无关。因此，只能获得正样本，而难以获得负样本。其次，当一个新的miRNA被发现时，无法获得相关的其它信息，现有计算方法很难推断miRNA相关的疾病。

现有的疾病相关miRNA预测方法主要可以分为两类。第一，利用miRNA对靶基因表达的调控这一事实，这类方法利用miRNA基因关系和疾病基因关系预测疾病相关的miRNA。第二，利用现有的疾病相关miRNA关系构建疾病-miRNA异构信息网络，然后进行新的miRNA-疾病关系推断。这类方法被提出的依据是具有相似功能的miRNA往往与相似的疾病相关，反之亦然。尽管目前已经展开了对疾病相关miRNA预测的研究，但如何结合基因信息和已知疾病相关miRNA进一步提升疾病相关miRNA预测性能，是所属领域技术人员需要解决的技术问题。

发明内容

本申请提供了一种疾病相关miRNA预测系统，可以有效结合基因信息和已知疾病相关miRNA进行预测，提升疾病相关miRNA预测性能。

为解决上述技术问题，本发明实施例提供以下技术方案：

本发明实施例提供了一种疾病相关miRNA预测系统，包括数据采集模块、数据处理模块和预测模块；

所述数据采集模块用于获取疾病样本数据、疾病-miRNA关系数据、疾病-基因关系数据、基因相互作用数据和miRNA-基因相互作用数据；

所述数据处理模块用于根据所述数据采集模块获取的数据构建miRNA-基因-疾病异构信息网络，并通过多任务矩阵分解方法和所述miRNA-基因-疾病异构信息网络得到疾病、基因、miRNA最终表示特征；

所述预测模块用于根据疾病最终表示特征和miRNA最终表示特征预测疾病相关miRNA。

可选的，所述数据处理模块包括疾病语义相似性计算子模块；

所述疾病语义相似性计算子模块用于根据所述疾病样本数据、利用有向无环图的层次结构计算各疾病间的疾病语义相似性。

可选的，所述疾病语义相似性计算子模块进一步用于：

调用预先存储的语义相关性计算关系式计算各疾病之间的语义相似性，所述语义相关性计算关系式为：

其中，

式中，S(R,U)为疾病R和疾病U的语义相似性，D_R(t)为疾病t对疾病R的语义贡献值，D_U(t)为疾病t对疾病U的语义贡献值，DV(R)为疾病R的语义值，DV(U)为疾病U的语义值，T_U表示节点U和U的祖先节点，T_R表示节点R和R的祖先节点，Δ是语义贡献因子，D_R(t')为疾病t'对疾病R的语义贡献值，疾病t'为疾病t的一种疾病类型。

可选的，所述数据处理模块包括miRNA功能相似性计算子模块；

所述miRNA功能相似性计算子模块用于调用预先存储的功能相关性计算关系式计算各miRNA之间的功能相似性，所述功能相关性计算关系式为：

其中，SIM(M1,M2)为miRNA M1与miRNA M2之间的功能相似性；miRNA M1相关的疾病组为DT₁，DT₁共含m个疾病，miRNA M2相关的疾病组为DT₂，DT₂共含n个疾病；S(dt_1i,DT₂)为与miRNA M1相关的第i个疾病与疾病组DT₂之间相似性，S(dt_2j,DT₁)为与miRNA M2相关的第j个疾病与疾病组DT₁之间相似性。

可选的，所述数据处理模块包括：

矩阵构建子模块，用于根据所述疾病-miRNA关系数据、所述疾病-基因关系数据、所述基因相互作用数据和所述miRNA-基因相互作用数据分别构建多个任务矩阵，多个任务矩阵构成所述miRNA-基因-疾病异构信息网络；

计算方法确定子模块，用于根据先验知识和预测结果的差异最小化、同一疾病相关的两个miRNAs相似确定多任务矩阵分解目标函数；

初始化子模块，用于初始化疾病、miRNA、基因在不同数据信息中的初始化表示特征；

最终特征表示子模块，用于通过不断对所述多任务矩阵分解目标函数进行优化更新各初始化表示矩阵直至满足特征更新结束条件，得到疾病、基因、miRNA最终表示特征。

可选的，所述矩阵构建子模块包括：

疾病-miRNA邻接矩阵构建单元，用于根据所述疾病-miRNA关系数据构建疾病-miRNA邻接矩阵；

疾病-基因邻接矩阵构建单元，用于根据所述疾病-基因关系数据构建疾病-基因邻接矩阵；

miRNA-基因邻接矩阵构建单元，用于根据所述miRNA-基因相互作用数据构建miRNA-基因邻接矩阵；

基因邻接矩阵构建单元，用于根据所述基因相互作用数据构建基因邻接矩阵；

相似性矩阵构建单元，用于基于疾病语义相似性和miRNA功能相似性分别构建疾病相似性矩阵和miRNA相似性矩阵。

可选的，所述多任务矩阵分解目标函数为：

式中，T表示矩阵转置符号，k′为特征维度，分别表示在疾病-miRNA关系中的疾病表示特征和miRNA表示特征，/>分别表示在疾病-基因信息中的疾病表示和基因表示特征，/>分别表示在miRNA-基因信息中miRNA表示特征和基因表示特征；L_A＝D_A-S_A、L_B＝D_B-S_A、L_D＝D_D-S_D分别表示疾病相似性网络、miRNA功能相似性网络和基因相互作用网络中的拉普拉斯矩阵；D_A、D_B和D_D为对角矩阵，D_A(i,i)＝∑_j＝1S_A(i,j)、D_B(i,i)＝∑_j＝1S_B(i,j)、D_D(i,i)＝∑_j＝1S_D(i,j)；α₁、β₁、γ₁为超参数，分别用于表示疾病-miRNA关系，疾病-基因关系，miRNA-基因关系的重要性；α₂、β₂、γ₂为超参数，分别用于表示疾病语义相似性，miRNA功能相似性，基因相互作用的重要性。

可选的，所述初始化子模块为基于奇异值分解方法初始化疾病、miRNA、基因分别在疾病-miRNA关系、疾病-基因信息、miRNA-基因信息的初始化表示特征。

可选的，所述最终特征表示子模块包括：

增广拉格朗日函数获取单元，用于利用交替方向乘子法的目标函数优化方法处理多任务矩阵分解目标函数，得到所述多任务矩阵分解目标函数的增广拉格朗日函数；

特征梯度计算单元，用于根据所述增广拉格朗日函数得到疾病-miRNA关系中的疾病表示特征和miRNA表示特征、疾病-基因信息中的疾病表示和基因表示特征、miRNA-基因信息中miRNA表示特征和基因表示特征的梯度；

参数更新单元，用于利用梯度下降法更新疾病、miRNA、基因分别在疾病-miRNA关系、疾病-基因信息、miRNA-基因信息的表示特征，拉格朗日乘子和惩罚参数；

疾病相关miRNA矩阵计算单元，用于利用疾病表示特征和miRNA表示特征计算疾病-miRNA得分矩阵；

迭代终止判断单元，用于根据相邻两次迭代下的两个疾病-miRNA得分矩阵的差异性与预设阈值判断是否达到所述特征更新结束条件。

可选的，所述迭代终止判断单元为调用预先存储的迭代判断关系式判断是否达到所述特征更新结束条件的单元，所述迭代判断关系式为：

式中，X^(k+1)为第k+1次迭代下的疾病-miRNA得分矩阵，X^(k)为第k次迭代下的疾病-miRNA得分矩阵，threshold为所述预设阈值。

本申请提供的技术方案的优点在于，通过整合疾病特征、疾病-miRNA链接关系，疾病-基因链接关系和miRNA-基因相互作用来构建miRNA-基因-疾病异构信息网络，考虑到已知疾病基因和miRNA基因关系极为稀疏，基于多任务矩阵分解进行数据处理，可以有效地结合已知疾病相关miRNA、miRNA-基因关系、疾病基因、miRNA功能相似性、疾病语义相似性和基因相互作用来预测潜在的疾病-miRNA关系，能够有效地融合多源信息来准确地预测疾病相关miRNA，且对稀疏的疾病基因和miRNA-基因关系进行预测，提升疾病相关miRNA预测性能。对于疾病多miRNA生物标志物的发现和研究具有重要推动作用，同时以miRNA作为药物靶点的治疗方法提供了理论依据，为实施精准医疗奠定基础。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本公开。

附图说明

为了更清楚的说明本发明实施例或相关技术的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种疾病相关miRNA预测系统在一种实施方式下的结构框架示意图；

图2为本发明实施例提供的疾病相关miRNA预测系统的数据流处理流程示意图；

图3为本发明实施例提供的采用五折交叉验证本申请技术方案与现有方法的对第一种示意性疾病预测性能比较结果示意图；

图4为本发明实施例提供的采用五折交叉验证本申请技术方案与现有方法的对第二种示意性疾病预测性能比较结果示意图；

图5为本发明实施例提供的采用本申请技术方案进行重新预测实验的性能结果示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等是用于区别不同的对象，而不是用于描述特定的顺序。此外术语“包括”和“具有”以及他们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可包括没有列出的步骤或单元。

在介绍了本发明实施例的技术方案后，下面详细的说明本申请的各种非限制性实施方式。

首先参见图1，图1为本发明实施例提供的一种疾病相关miRNA预测系统在一种具体实施方式下的结构框架示意图，本发明实施例可包括以下内容：

疾病相关miRNA预测系统可包括数据采集模块1、数据处理模块2和预测模块3。数据采集模块1可用于获取疾病样本数据、疾病-miRNA关系数据、疾病-基因关系数据、基因相互作用数据和miRNA-基因相互作用数据。数据处理模块2可用于根据数据采集模块1获取的数据构建miRNA-基因-疾病异构信息网络，并通过多任务矩阵分解处理miRNA-基因-疾病异构信息网络得到疾病、基因、miRNA最终表示特征。预测模块3用于根据疾病最终表示特征和miRNA最终表示特征预测疾病相关miRNA。

在本实施例中，疾病样本数据、疾病-miRNA关系数据、疾病-基因关系数据、基因相互作用数据和miRNA-基因相互作用数据为从现有的数据库中获取的已知数据或者是说历史样本数据。miRNA-基因-疾病异构信息网络为融合有已知疾病相关miRNA、miRNA-基因关系、疾病基因关系、miRNA功能相似性、疾病语义相似性和基因相互作用的网络结构。可以理解的是，两个元素之间的数据关系可使用矩阵来表示，本申请的miRNA-基因-疾病异构信息网络为多个元素之间的数据关系，其可包括多个矩阵。考虑到已知疾病基因和miRNA基因关系极为稀疏，对包含多个矩阵的miRNA-基因-疾病异构信息网络进行处理可采用多任务矩阵分解方法，多任务矩阵分解方法同时会对疾病相关miRNA、致病基因和miRNA-基因关系进行预测，最终得到疾病最终表示特征、基因最终表示特征和miRNA最终表示特征。由于本申请的目的是对疾病相关miRNA进行预测，所以可采用数据处理模块2计算得到的miRNA最终表示特征和疾病最终表示特征对疾病相关miRNA进行预测。

在本发明实施例提供的技术方案中，通过整合疾病特征、疾病-miRNA链接关系，疾病-基因链接关系和miRNA-基因相互作用来构建miRNA-基因-疾病异构信息网络，考虑到已知疾病基因和miRNA基因关系极为稀疏，基于多任务矩阵分解进行数据处理，可以有效地结合已知疾病相关miRNA、miRNA-基因关系、疾病基因关系、miRNA功能相似性、疾病语义相似性和基因相互作用来预测潜在的疾病-miRNA关系，能够有效地融合多源信息来准确地预测疾病相关miRNA，且对稀疏的疾病基因和miRNA-基因关系进行预测，提升疾病相关miRNA预测性能。对于疾病多miRNA生物标志物的发现和研究具有重要推动作用，同时以miRNA作为药物靶点的治疗方法提供了理论依据，为实施精准医疗奠定基础。

上述实施例对数据处理模块2的结构并未进行限定，本实施例还给出数据处理模块2的一种实施方式，可包括下述内容：

数据处理模块2可包括疾病语义相似性计算子模块和miRNA功能相似性计算子模块。疾病语义相似性计算子模块用于根据疾病样本数据、利用有向无环图的层次结构计算各疾病间的疾病语义相似性。

数据采集模块1中的疾病样本数据例如可从MeSH数据库下载得到相应的疾病名称及编号，该数据库网站为http：//www.ncbi.nlm.nih.gov/。MeSH数据库为疾病分类提供了一个严格的系统，有助于研究疾病之间的关系。它可以描述为一个有向无环图(directedacyclic graph，DAG)，其中节点表示疾病，链接表示节点之间的关系。在DAG中，只有一种类型的关系，定义为‘is-a’，用于将子节点连接到父节点。每个疾病在DAG中有一个或多个编码，子节点的编码是父节点的编码加上子节点的地址。在MeSH数据集中，对于一个疾病R可以表示为一个有向无环图，DAG_R＝(R,T_R,E_R)，其中，R为疾病节点，T_R表示节点R和R的祖先节点，E_R是相关链接的集合，可定义DAG_R中疾病t对疾病R的语义贡献值D_R(t)为：

其中，Δ是语义贡献因子，在本实施例中可设置为0.5。此外，在疾病R的有向无环图DAG_R中，疾病R是最具特异性的疾病，因此，将疾病R对自己的语义贡献值设置为1。根据计算关系式(1)可将疾病R的语义值DV(R)可定义为：

接着，通过考虑疾病在有向无环图DAG中的位置度量疾病语义相似性。假设共享有向无环图DAG中大部分的疾病往往具有更高的语义相似性，那么疾病R和疾病U的语义相似性S(R,U)可定义为计算关系式(3)所示。也就是说，疾病语义相似性计算子模块进一步用于：调用预先存储的语义相关性计算关系式计算各疾病之间的语义相似性，语义相关性计算关系式可表示为：

本实施例从MeSH数据集中获得疾病有向无环图，该数据集对疾病进行了严格分类，MTMFDMA方法利用有向无环图的层次结构计算得到疾病语义相似性。由于与相似疾病相关的miRNAs往往具有相似功能，反之亦然，因此，本申请利用miRNA相关疾病集合之间的相关性度量miRNA功能相似性。为了准确度量两个miRNAs之间的功能相似性，需要考虑这两个miRNAs相关相似疾病的贡献。因此，首先可定义一种疾病与一组疾病的语义相似性。假设dt表示一种疾病，dt_k表示第k种疾病，DT＝{dt₁,dt₂,...,dt_k}表示一组疾病，那么疾病dt和疾病组DT之间的相似性S(dt,DT)为：

若miRNA M1相关的疾病组为DT₁，DT₁共含m个疾病，miRNA M2相关的疾病组为DT₂，DT₂共含n个疾病，那么，通过两个疾病组的相似性来度量miRNA之间的功能相似性。也就是说，miRNA功能相似性计算子模块可用于调用预先存储的功能相关性计算关系式计算各miRNA之间的功能相似性，功能相关性计算关系式可表示为：

上述实施例对数据处理模块2的结构并未进行限定，本实施例还给出数据处理模块2的另一种实施方式，可包括下述内容：

数据处理模块2可利用交替方向乘子法求解多任务矩阵分解目标函数计算得到疾病、miRNA、基因的最终表示特征。具体可包括矩阵构建子模块、计算方法确定子模块、初始化子模块和最终特征表示子模块。其中，矩阵构建子模块用于根据疾病-miRNA关系数据、疾病-基因关系数据、基因相互作用数据和miRNA-基因相互作用数据分别构建多个任务矩阵，多个任务矩阵构成miRNA-基因-疾病异构信息网络；计算方法确定子模块用于根据先验知识和预测结果的差异最小化、同一疾病相关的两个miRNAs相似确定多任务矩阵分解目标函数；初始化子模块用于初始化疾病、miRNA、基因在不同数据信息中的初始化表示特征；最终特征表示子模块用于通过不断对多任务矩阵分解目标函数进行优化更新各初始化表示矩阵直至满足特征更新结束条件，得到疾病、基因、miRNA最终表示特征。

作为本实施例的一种可选的实施方式，矩阵构建子模块可包括：

疾病-miRNA邻接矩阵构建单元，用于根据疾病-miRNA关系数据构建疾病-miRNA邻接矩阵；疾病-基因邻接矩阵构建单元，用于根据疾病-基因关系数据构建疾病-基因邻接矩阵；miRNA-基因邻接矩阵构建单元，用于根据miRNA-基因相互作用数据构建miRNA-基因邻接矩阵；基因邻接矩阵构建单元，用于根据基因相互作用数据构建基因邻接矩阵；相似性矩阵构建单元，用于基于疾病语义相似性和miRNA功能相似性分别构建疾病相似性矩阵和miRNA相似性矩阵。

假设m₁、m₂、m₃分别表示疾病数、miRNA数和基因数。从HMDD数据集中下载得到miRNA-疾病链接，构建疾病-miRNA邻接矩阵HMDD数据集网站地址为http：//cmbi.bjmu.edu.cn/hmdd。从SIDD数据集中下载得到疾病相关基因集合，构建疾病-基因邻接矩阵/>SIDD数据集网址为http：//mlg.hit.edu.cn/SIDD。从数据集MiRTarBase和DIANA-Tarbase中下载得到miRNA-基因相互作用关系，构建miRNA-基因邻接矩阵/>从HPRD数据集中下载得到基因相互作用，构建基因邻接矩阵HPRD数据集网站为http：//www.hprd.org/。利用上述实施例计算得到的疾病语义相似性和miRNA功能相似性，分别构建疾病相似性矩阵/>和miRNA相似性矩阵/>

根据以下两个原则：1)先验知识和预测结果的差异最小化；2)与同一疾病相关的两个miRNAs即疾病或基因应该是相似的，作为本实施例的另一种可选的实施方式，多任务矩阵分解目标函数可表示为：

作为本实施例的另外一种可选的实施方式，初始化子模块可为基于奇异值分解方法初始化疾病、miRNA、基因分别在疾病-miRNA关系、疾病-基因信息、miRNA-基因信息的初始化表示特征。

在本实施例中，可基于奇异值分解(Singular Value Decomposition，SVD)初始化疾病、miRNA、基因在不同信息中的初始化表示特征。假定疾病miRNA邻接矩阵SVD分解为疾病基因邻接矩阵SVD分解为/>miRNA基因邻接矩阵SVD分解为：/>其中，矩阵/>为正交矩阵，Σ₁、Σ₂、Σ₃为包含k′个最大特征值的对角矩阵。对于疾病miRNA关系信息，疾病和miRNA的初始化表示特征分别为/>和/>对于疾病基因相关信息，疾病和基因的初始化表示特征分别为/>和/>对于miRNA基因相关信息，miRNA和基因的初始化表示特征分别为/>和/>

在本实施例的其他一些实施方式中，最终特征表示子模块可包括：

增广拉格朗日函数获取单元，用于利用交替方向乘子法的目标函数优化方法处理多任务矩阵分解目标函数，得到多任务矩阵分解目标函数的增广拉格朗日函数；

特征梯度计算单元，用于根据增广拉格朗日函数得到疾病-miRNA关系中的疾病表示特征和miRNA表示特征、疾病-基因信息中的疾病表示和基因表示特征、miRNA-基因信息中miRNA表示特征和基因表示特征的梯度；

迭代终止判断单元，用于根据相邻两次迭代下的两个疾病-miRNA得分矩阵的差异性与预设阈值判断是否达到特征更新结束条件。其中，迭代终止判断单元例如可为调用预先存储的迭代判断关系式判断是否达到特征更新结束条件的单元，迭代判断关系式可表示为：

式中，X^(k+1)为第k+1次迭代下的疾病-miRNA得分矩阵，X^(k)为第k次迭代下的疾病-miRNA得分矩阵，threshold为预设阈值。

在本实施例中，在本申请中，提出一种基于交替方向乘子法(AlternatingDirection Method of Multipliers，ADMM)的目标函数优化方法。根据上述计算关系式(6)可以得到其增广拉格朗日函数：

其中，U，V，W为拉格朗日乘子，＜.,.＞表示两个矩阵的内积，σ₁,σ₂,σ₃为惩罚参数，可在算法中有效地被调整。然后，通过固定多个变量更新其中一个变量的方式来求解目标函数。根据上述增广拉格朗日函数，可以分别获得关于矩阵A，B，C，D，E，F的梯度，T为矩阵转置符号，如下：

那么利用梯度下降可以优化疾病、miRNA、基因的表示特征，如下：

利用梯度上升可以优化拉格朗日乘子，如下：

U^(k+1)＝U^k+σ₁(A^(k+1)-C^(k+1))； (20)

V^(k+1)＝V^k+σ₂(B^(k+1)-E^(k+1))； (21)

W^(k+1)＝W^k+σ₃(D^(k+1)-F^(k+1))； (22)

最终，可以利用矩阵AB^T对潜在的疾病-miRNA对进行排名。算法的整体步骤如下所述：

由上可知，本实施例能同时基于疾病表示特征，miRNA表示特征和基因表示特征预测疾病相关基因和miRNA-基因相互作用，这为进一步提升疾病相关miRNA预测性能提供了重要基础。利用矩阵分解可以同时考虑疾病，miRNA和基因多源信息。通过融合已知疾病-miRNA关系、疾病-基因关系、miRNA-基因关系、疾病语义相似性、miRNA功能相似性和基因相互作用，能够有效地预测疾病相关miRNAs，并且可以预测没有已知疾病相关的miRNA或者没有已知miRNA的疾病。

为了使所属领域技术人员更加清楚明白本申请的技术方案，本申请还结合图2提供了一个示意性例子，该示意性例子采自网址http：//cmbi.bjmu.edu.cn/hmdd上的HMDD数据集中的疾病相关miRNA，该数据库共含有330个疾病和1726个miRNAs；网址为http：//mlg.hit.edu.cn/SIDD中的SIDD数据集中的疾病相关基因，网址为http：//mirtarbase.mbc.nctu.edu.tw/上的MiRTarBase数据集和网址为http：//www.microrna.gr/tarbase上的DIANA-Tarbase中的miRNA基因关系为仿真数据集。仿真数据集中包含330个疾病，1726个miRNAs，6180个基因，5219条miRNA-疾病链接，19476条疾病-基因链接，25031条基因-基因链接和242860条miRNA-基因链接。实验环境为：CPU采用IntelCore i7-10875H，内存为32G，系统为Windows 10，集成开发环境为PyCharm社区版，解释器为python 3.7.6。该示意性例子以HMDD 2.0数据库为例采用多任务矩阵分解方法预测疾病相关miRNA的步骤如下，表1为本实施例中采用数学符号对应的描述信息：

表1数学符号含义表

/>

A1：疾病语义相似性计算。

根据MeSH数据库建立有向无环图，然后利用有向无环图中的层次结构，按照如下关系式计算有向无环图DAG中疾病t对其子孙节点R的语义贡献值D_R(t)为：

其中，Δ是语义贡献因子，在本实施例中可设置为0.5。此外，将疾病R对自己的语义贡献值设置为1。根据上述公式，将疾病R的语义值DV(R)可定义为：

接着，根据疾病语义值利用下述计算关系式可以计算得到疾病语义相似性：

其中，D_R(t)表示疾病t对疾病R的语义贡献值，D_U(t)表示疾病t对疾病U的语义贡献值，DV(U)为疾病U的语义值，T_U表示节点U和U的祖先节点。再计算出所有疾病之间的语义相似性，从而构建330*330的矩阵S_A表示疾病语义相似性。

A2：miRNA功能相似性计算。

基于已知的miRNA和疾病的关系可以计算得到miRNA功能相似性。按照下述关系式可以计算得到疾病dt和疾病组DT之间的相似性为：

若miRNA M1相关的疾病组为DT₁，DT₁共含m个疾病，miRNA M2相关的疾病组为DT₂，DT₂共含n个疾病，那么，通过两个疾病组的相似性来度量miRNA之间的功能相似性，miRNAM1与miRNA M2之间的功能相似性SIM(M1,M2)可表示为：

A3：初始化疾病、miRNA和基因的表示特征。

将包含330个疾病，1726个miRNAs以及5219条疾病-miRNA链接转换为疾病-miRNA邻接矩阵A，其中，若疾病i和miRNA j存在已知关系，则A(i,j)＝1，否则A(i,j)＝1；将包含330个疾病，6180个基因以及19476条疾病-基因链接转换为疾病-基因邻接矩阵B，其中，若疾病i和基因g存在已知关系，则B(i,g)＝1，否则B(i,g)＝0；将包含1726个miRNAs，6180个基因以及242860条miRNA-基因链接转换为miRNA-基因邻接矩阵C，其中，若miRNAj和基因k存在已知关系，则C(j,g)＝1，否则C(j,g)＝0。然后基于奇异值分解分别将矩阵X，Y，Z进行分解：

矩阵为正交矩阵，Σ₁、Σ₂、Σ₃为包含k个最大特征值的对角矩阵。对于疾病miRNA关系信息，疾病和miRNA的初始化表示特征分别为和/>对于疾病基因相关信息，疾病和基因的初始化表示特征分别为和/>对于miRNA基因相关信息，miRNA和基因的初始化表示特征分别为/>和/>

A4：获取疾病、miRNA、基因的最终表示特征并进行疾病相关miRNA预测。

根据计算得到的疾病语义相似性，miRNA功能相似性和HPRD数据集中下载得到的基因相互作用，分别构建疾病相似性矩阵S_A，miRNA相似性矩阵S_B和基因相互作用矩阵S_D。然后，分别计算疾病相似性网络，miRNA功能相似性网络和基因相互作用网络的拉普拉斯矩阵L_A，L_B和L_D：

L_A＝D_A-S_A、L_B＝D_B-S_A、L_D＝D_D-S_D。

其中，D_A、D_B和D_D为对角矩阵，D_A(i,i)＝∑_j＝1S_A(i,j)、D_B(i,i)＝∑_j＝1S_B(i,j)、D_D(i,i)＝∑_j＝1S_D(i,j)。

初始化拉格朗日乘子：U＝A-C，V＝B-E，W＝D-F。然后，给定学习率θ，分别更新不同信息下的疾病表示特征，miRNA表示特征和基因表示特征。

(1)根据梯度下降方法更新疾病-miRNA信息中的疾病表示特征，如下所述关系式计算：

(2)根据梯度下降方法更新疾病-miRNA信息中的miRNA表示特征，如下所述关系式计算：

(3)根据梯度下降方法更新疾病基因信息中的疾病表示特征，如下所述关系式计算：

(4)根据梯度下降方法更新疾病基因信息中的基因表示特征，如下述关系式计算：

(5)根据梯度下降方法更新miRNA-基因信息中的miRNA表示特征，如下关系式计算：

(6)根据梯度上升方法更新miRNA-基因信息中的基因表示特征，如下关系式计算：

然后，利用梯度上升优化拉格朗日乘子，计算如下：

U^(k+1)＝U^k+σ₁(A^(k+1)-C^(k+1))

V^(k+1)＝V^k+σ₂(B^(k+1)-E^(k+1))

W^(k+1)＝W^k+σ₃(D^(k+1)-F^(k+1))

更新疾病-miRNA得分矩阵X^(k+1)＝A^(k+1)*B^(k+1T)。

重新更新惩罚参数{σ₁,σ₂,σ₃}，更新规则如下：

σ₁ ^(k+1)＝min(a*σ₁ ^(k),σ_max)

σ₂ ^(k+1)＝min(a*σ₂ ^(k),σ_max))

σ₃ ^(k+1)＝min(a*σ₃ ^(k),σ_max)

其中，σ₁ ⁽⁰⁾＝σ₂ ⁽⁰⁾＝σ₃ ⁽⁰⁾＝10^-5、a＝1.15，σ_max＝10¹⁰。

基于X^(k+1)与X^(k)的差异判断是否终止迭代，计算公式如下：

若迭代终止，利用矩阵X^(k+1)的元素值对潜在的疾病相关miRNA进行排名。

最后，为了验证本申请技术方案的有效性，本申请分别通过五折交叉验证和重新预测实验这两种验证方式进行有效性验证，如下为本申请提供验证性实施例：

五折交叉验证：每次将每个疾病已知相关的miRNA分为五份，每次使用一份作为测试集，其余的四份作为训练集。重新预测实验：将目标疾病相关的所有miRNA关联关系全部去除，这些被去除的关联关系被认为是测试数据及中的正样本。

对于两种验证方式均采用AUC作为评价指标，其中AUC是指接收者操作特征曲线(receiver operating characteristic curve，ROC)下方的面积大小。每次进行五次交叉实验或重新预测实验时将根据选择的miRNA-疾病链接训练集重新计算miRNA功能相似性。采用本申请基于多任务矩阵分解的疾病相关miRNA预测方法对HMDD数据库中的疾病miRNA的关系进行预测并且与CPTL和HDMP这两种现有方法进行了对比。图3-图4描述了对于2种疾病在五折交叉验证中各方法的性能比较图，已知相关miRNA数大于200的疾病如乳腺癌(Breast neoplasms)和肝细胞癌(Hepatocellular carcinoma)，本申请的平均AUC值为0.8743，比其他两种方法的AUC值更大。图5描述了在重新预测实验中的性能图，本申请在常见的重要疾病如前列腺癌和胃癌中的AUC分别为0.90611和0.86116。

本实施例使用五折交叉验证进行了预测性能的比较，并通过AUC指标反应了本申请技术方案的预测性能，可见本申请可有效提升疾病相关miRNA预测性能。

此外，本申请还可从硬件角度描述本申请技术方案，疾病相关miRNA预测系统可包括存储器和处理器，存储器用于存储计算机程序，处理器用于执行计算机程序时实现如上述任一实施例提到的疾病相关miRNA预测系统的各功能模块所对应实现方法。

其中，处理器可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central Processing Unit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器还可以包括AI(ArtificialIntelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。本实施例中，存储器至少用于存储以下计算机程序，其中，该计算机程序被处理器加载并执行之后，能够实现前述任一实施例公开的疾病相关miRNA预测方法的相关步骤。另外，存储器所存储的资源还可以包括操作系统和数据等，存储方式可以是短暂存储或者永久存储。其中，操作系统可以包括Windows、Unix、Linux等。数据可以包括但不限于疾病相关miRNA预测结果对应的数据等。

在一些实施例中，疾病相关miRNA预测系统还可包括有显示屏、输入输出接口、通信接口、电源以及通信总线。本领域技术人员可以理解，上述示出的结构并不构成对疾病相关miRNA预测系统的限定，可以包括比图示更多或更少的组件，例如还可包括传感器。

可以理解的是，如果上述实施例中的疾病相关miRNA预测系统以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

以上对本申请所提供的一种疾病相关miRNA预测系统进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

Claims

1.一种疾病相关miRNA预测系统，其特征在于，包括数据采集模块、数据处理模块和预测模块；

所述预测模块用于根据疾病最终表示特征和miRNA最终表示特征预测疾病相关miRNA；

其中，所述数据处理模块包括：

最终特征表示子模块，用于通过不断对所述多任务矩阵分解目标函数进行优化更新各初始化表示矩阵直至满足特征更新结束条件，得到疾病、基因、miRNA最终表示特征；

其中，所述矩阵构建子模块包括：

相似性矩阵构建单元，用于基于疾病语义相似性和miRNA功能相似性分别构建疾病相似性矩阵和miRNA相似性矩阵；

其中，所述多任务矩阵分解目标函数为：

式中，T表示矩阵转置符号，k′为特征维度，分别表示在疾病-miRNA关系中的疾病表示特征和miRNA表示特征，/> 分别表示在疾病-基因信息中的疾病表示和基因表示特征，/>分别表示在miRNA-基因信息中miRNA表示特征和基因表示特征；L_A＝D_A-S_A、L_B＝D_B-S_A、L_D＝D_D-S_D分别表示疾病相似性网络、miRNA功能相似性网络和基因相互作用网络中的拉普拉斯矩阵；D_A、D_B和D_D为对角矩阵，D_A(i,i)＝∑_j＝1S_A(i,j)、D_B(i,i)＝∑_j＝1S_B(i,j)、D_D(i,i)＝∑_j＝1S_D(i,j)；α₁、β₁、γ₁为超参数，分别用于表示疾病-miRNA关系，疾病-基因关系，miRNA-基因关系的重要性；α₂、β₂、γ₂为超参数，分别用于表示疾病语义相似性，miRNA功能相似性，基因相互作用的重要性；

其中，所述最终特征表示子模块包括：

2.根据权利要求1所述的疾病相关miRNA预测系统，其特征在于，所述数据处理模块包括疾病语义相似性计算子模块；

3.根据权利要求2所述的疾病相关miRNA预测系统，其特征在于，所述疾病语义相似性计算子模块进一步用于：

其中，

4.根据权利要求1所述的疾病相关miRNA预测系统，其特征在于，所述数据处理模块包括miRNA功能相似性计算子模块；

5.根据权利要求1所述的疾病相关miRNA预测系统，其特征在于，所述初始化子模块为基于奇异值分解方法初始化疾病、miRNA、基因分别在疾病-miRNA关系、疾病-基因信息、miRNA-基因信息的初始化表示特征。

6.根据权利要求1所述的疾病相关miRNA预测系统，其特征在于，所述迭代终止判断单元为调用预先存储的迭代判断关系式判断是否达到所述特征更新结束条件的单元，所述迭代判断关系式为：