CN114613438B

CN114613438B - 一种miRNA与疾病的关联预测方法及系统

Info

Publication number: CN114613438B
Application number: CN202210219782.2A
Authority: CN
Inventors: 宋继辉; 刘勇国; 张云; 朱嘉静; 李巧勤; 陆鑫; 傅翀
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2022-03-08
Filing date: 2022-03-08
Publication date: 2023-05-26
Anticipated expiration: 2042-03-08
Also published as: ZA202209094B; CN114613438A

Abstract

本发明提供了一种miRNA与疾病的关联预测方法及系统，属于miRNA与疾病的关联预测技术领域。首先在相似度矩阵生成过程中融合其他生物学数据来计算miRNA和疾病的高斯谱核相似度，根据功能或语义相似度的miRNA或疾病所占的比重来计算相似度融合的权重，得到更加合理的综合相似度矩阵；基于归纳矩阵分解，对原始矩阵的模拟分解为两个参数矩阵，并设计双流生成器，生成低秩的相似度投影系数矩阵；添加Dropout层以保证生成矩阵的稀疏性，最后，对多次生成结果取均值获得最终的miRNA疾病关联预测结果，获得更高的miRNA与疾病关联预测能力和预测的可靠性，为科研人员确定疾病关联的候选miRNA提供辅助决策。

Description

一种miRNA与疾病的关联预测方法及系统

技术领域

本发明属于miRNA与疾病的关联预测技术领域，尤其涉及一种miRNA与疾病的关联预测方法及系统。

背景技术

随着生物学对人体研究的深入，发现人体内的非编码RNA(ncRNA)对人体的各种生物过程起着十分重要的作用。miRNA是一组单链内源短链ncRNA，miRNA通过与mRNA的碱基配对抑制基因的转录和表达，与各种疾病尤其是癌症的发生密切相关。然而确定miRNA与疾病的关联的生物实验昂贵而费时，因此使用计算模型预测miRNA和疾病的关联显得尤为重要。

应用计算模型预测miRNA和疾病的关联时，通常首先通过miRNA的功能相关性和miRNA的其他信息计算miRNA的综合相似度矩阵，然后通过疾病的有向无环图(DAG)计算疾病的语义相关性并结合其他疾病相关信息计算语义相似度矩阵，最后结合已知的miRNA与疾病关联矩阵，对未知的miRNA与疾病关联进行预测。

现有研究中提出基于变分自动编码器(VAE)的模型VAEMDA，将miRNA相似度矩阵、疾病相似度矩阵分别与已知miRNA疾病关联矩阵拼接获得两个拼接矩阵，然后将两个拼接矩阵分别送入VAE中学习分布得到新的miRNA疾病关联矩阵，最终将两个VAE学习到的新的miRNA疾病关联矩阵进行平均获得最终miRNA疾病关联评分。但VAEMDA在未知关联矩阵真实分布的情况下，强制将原来的关联矩阵投影到高斯分布上，这将导致最终模型生成的关联矩阵缺乏合理性；另外，VAEMDA没有对生成的预测矩阵的低秩性和稀疏性进行约束，影响最终结果的准确性。

发明内容

针对现有技术中的上述不足，本发明提供的一种miRNA与疾病的关联预测方法及系统，以解决现有关联预测中缺乏合理性以及准确度不高的问题。

为了达到以上目的，本发明采用的技术方案为：

本方案提供一种miRNA与疾病的关联预测方法，包括以下步骤：

S1、获取miRNA和疾病数据，并根据miRNA和疾病数据结合额外生物信息，构建综合相似度矩阵；

S2、基于归纳矩阵分解设计双流生成器，并将所述综合相似度矩阵作为双流生成器的固定参数训练双流生成器和判别器，生成miRNA与疾病关联预测矩阵；

S3、利用所述miRNA与疾病关联预测矩阵对疾病关联进行预测，完成miRNA与疾病关联的预测。

本发明的有益效果是：本发明融合其他生物数据计算综合相似度矩阵，基于归纳矩阵分解的GAN能够从分布的角度预测miRNA和疾病的关联，获得更高的miRNA与疾病关联预测能力，提高预测的可靠性，为科研人员确定疾病关联的候选miRNA提供辅助决策。

进一步地，所述步骤S1包括以下步骤：

S101、收集miRNA功能相似度数据，并构建miRNA功能相似度矩阵FM；

S102、获取疾病术语，对每个疾病构建有向无环图DAG，并基于语义影响逐层递减的假设构建第一语义值；

S103、根据所述第一语义值，计算得到疾病d_i和疾病d_j的第一语义相似度；

S104、根据所述有向无环图DAG，计算得到以包含特定疾病占所有疾病比例的第二语义值；

S105、根据所述第二语义值，计算得到疾病d_i和疾病d_j的第二语义相似度；

S106、根据所述第一语义相似度和第二语义相似度，结合额外生物信息构建包括综合miRNA相似度矩阵和综合疾病相似度矩阵的综合相似度矩阵。

上述进一步方案的有益效果是：收集出可靠的miRNA相似度信息和疾病相似度信息，为此后关联预测做好材料准备。

再进一步地，所述步骤S106包括以下步骤：

S1061、分别获取miRNA-lncRNA相似度矩阵MI和疾病-lncRNA相似度矩阵DI；

S1062、基于所述miRNA-lncRNA相似度矩阵MI和疾病-lncRNA相似度矩阵DI，得到miRNA高斯谱核相似度矩阵和疾病高斯谱核相似度矩阵；

S1063、根据所述第一语义相似度的疾病对集合、第二语义相似度的疾病对集合以及未知语义相似度的疾病对集合，计算得到第一语义相似度的权重、第二语义相似度的权重以及未知语义相似度的权重；

S1064、根据所述第一语义相似度的权重、第二语义相似度的权重、未知语义相似度的权重以及疾病高斯谱核相似度矩阵，计算得到综合疾病相似度矩阵；

S1065、根据功能相似度矩阵FM的miRNA对集合以及未知功能相似度的miRNA对的集合，计算得到功能相似度矩阵FM的权重和未知功能相似度的权重；

S1066、根据所述功能相似度矩阵FM的权重、未知功能相似度的权重以及miRNA高斯谱核相似度矩阵，计算得到综合miRNA相似度矩阵。

上述进一步方案的有益效果是：针对无法获取功能相似性的miRNA和语义相似性的疾病也能计算可靠的相似度信息，防止此后出现无法计算的问题。

再进一步地，所述步骤S1062中miRNA高斯谱核相似度矩阵的表达式如下：

AM＝[A,MI]

GM(m_i,m_j)＝exp(-β_m||IV_AM(m_i)-IV_AM(m_j)||²)

所述疾病高斯谱核相似度矩阵的表达式如下：

AD＝[A^T,DI]

GD(d_i,d_j)＝exp(-β_d||IV_AD(d_i)-IV_AD(d_j)||²)

其中，A表示已知miRNA和疾病关联矩阵，GM(·)表示miRNA高斯谱核相似度矩阵，m_i表示第i个miRNA，m_j表示第j个miRNA，β_m和β_d均表示用于调整谱核带宽的系数，IV_AM(m_i)表示AM的第i行，AM表示融合了lncRNA数据的miRNA与疾病关联矩阵，IV_AM(m_j)表示AM的第j行，MI表示miRNA-lncRNA相似度矩阵，nm表示miRNA的数量，β'_m和β'_d均表示为确定GM(·)和GD(·)的谱核带宽系数的超参数，GD(·)表示疾病高斯谱核相似度矩阵，IV_AD(d_i)表示AD的第i行，IV_AD(d_j)表示AD的第j行，AD表示融合了lncRNA数据的疾病与miNRA关联矩阵，A^T表示已知关联矩阵的转置，DI表示疾病-lncRNA相似度矩阵，nd表示疾病的数量。

上述进一步方案的有益效果是：提供了无法获取功能相似性的miRNA和语义相似性的疾病的相似度计算。

再进一步地，所述步骤S1064中综合疾病相似度的表达式如下：

SD(d_i,d_j)＝I_D(d_i,d_j)

*(λ_SS1*SS1(d_i,d_j)+λ_SS2*SS2(d_i,d_j)+λ_gd

*GD(d_i,d_j))+(1-I_D(d_i,d_j))*GD(d_i,d_j)

其中，SD(d_i,d_j)表示综合疾病相似度，I_D(d_i,d_j)表示疾病d_i与疾病d_j间是否存在语义相似度的二值函数，λ_SS1和λ_SS2分别表示第一语义相似度值和第二语义相似度值的权重，λ_gd表示未知语义相似度的权重，SS1(d_i,d_j)表示疾病d_i与疾病d_j间的第一语义相似度，SS2(d_i,d_j)表示疾病d_i与疾病d_j间的第二语义相似度，GD(d_i,d_j)表示疾病d_i与疾病d_j间的高斯谱核相似度

上述进一步方案的有益效果是：综合各种相似度获得最佳的疾病相似度，减少数据倾向性。

再进一步地，所述步骤S1066中综合miRNA相似度的表达式如下：

SM(m_i,m_j)＝I_M(m_i,m_j)

*(λ_fm*FM(m_i,m_j)+λ_gm*GM(m_i,m_j))+(1-I_M(m_i,m_j))*GM(m_i,m_j)

其中，SM(m_i,m_j)表示综合miRNA相似度，I_M(m_i,m_j)表示m_i与m_j间是否存在功能相似度的二值函数，λ_fm和λ_gm分别表示功能相似度矩阵FM和未知功能相似度的权重，GM(m_i,m_j)表示m_i与m_j间的高斯谱核相似度。

上述进一步方案的有益效果是：综合各种相似度获得最佳的miRNA相似度，减少数据倾向性。

再进一步地，所述步骤S2包括以下步骤：

S201、基于归纳矩阵分解设计双流生成器，并将所述综合疾病相似度和综合miRNA相似度作为双流生成器的固定参数；

S202、设置判别器，并预训练判别器；

S203、固定双流生成器训练判别器，以及固定判别器训练双流生成器；

S204、判断双流生成器的参数变化是否小于预设的阈值，若是，则进入步骤S205，否则，返回步骤S203；

S205、生成miRNA与疾病关联预测矩阵。

上述进一步方案的有益效果是：利用对抗训练提高生成矩阵的质量。

再进一步地，所述生成器包括：两个均由128个节点的网络层、256个节点的网络层、512个节点的网络层、RReLU激活函数、线性投影、dropout层以及softmax层组成的对抗网络；

所述判别器包括：五层节点，第一层节点至第四层节点后均设置有RReLU激活函数，第五层节点后设置有sigmoid函数，且各层节点的个数分别为512、256、128、256和512。

上述进一步方案的有益效果是：生成器和判别器具有较深的网络层数，具有较强的表达能力，生成器具有稀疏性，适合关联矩阵的生成。

再进一步地，所述预训练判别器的损失函数的表达式如下：

L_pre＝[M-||D_ω(x_pre)-x_pre||₂]⁺

所述训练后判别器的损失函数的表达式如下：

[·]⁺＝max(0,·)

训练后双流生成器的损失函数的表达式如下：

其中，L_pre表示预训练判别器的损失函数，x_pre表示预训练模型的输入矩阵，且x_pre＝A，A表示已知miRNA与疾病关联矩阵，M表示重构误差正边际，L_D表示训练后判别器的损失函数，G_θ表示以θ为参数的生成器，D_ω表示以ω为参数的判别器，x表示从真实矩阵集合T0中采样的真实样本，使用loocv依次对A的每一个已知关联进行忽略，构成一系列矩阵，称为真实矩阵集合T0，P_x表示x对应的掩膜，且真实样本位置为1，其余为0，k₁、k₂表示一个mini-batch中取样的随机噪声向量个数，z⁽ⁱ⁾表示根据正态分布取样的随机噪声向量，G_θ(z⁽ⁱ⁾)表示双流生成器的生成矩阵。

上述进一步方案的有益效果是：能保证生成的预测矩阵模拟真实关联矩阵的分布，又能保证生成的多样性，避免网络退化为恒等函数。

本发明提供了一种miRNA与疾病的关联预测系统，包括：

综合相似度矩阵构建模块，用于获取miRNA和疾病数据，并根据miRNA和疾病数据结合额外生物信息，构建综合相似度矩阵；

疾病关联预测矩阵构建模块，用于基于归纳矩阵分解设计双流生成器，并将所述综合相似度矩阵作为双流生成器的固定参数训练双流生成器和判别器，生成miRNA与疾病关联预测矩阵；

预测模块，利用所述miRNA与疾病关联预测矩阵对疾病关联进行预测，完成miRNA与疾病关联的预测。

本发明的有益效果是：本发明融合其他生物数据计算综合相似度矩阵，基于归纳矩阵分解的GAN能够从分布的角度预测miRNA和疾病的关联，与VAE等生成模型相比获得更高的miRNA与疾病关联预测能力，提高预测的可靠性，为科研人员确定疾病关联的候选miRNA提供辅助决策。

附图说明

图1为本发明的方法流程图。

图2为本实施例中双流生成器的结构图。

图3为本实施例中判别器的结构图。

图4为本发明的系统结构示意图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

实施例1

有鉴于背景技术，本发明综合其他生物信息构建相似度矩阵，保证预测矩阵的低秩性和稀疏性，提高预测的可靠性，如图1所示，本发明提供了一种miRNA与疾病的关联预测方法，其实现方法如下：

S1、获取miRNA和疾病数据，并根据miRNA和疾病数据结合额外生物信息，构建综合相似度矩阵，其实现方法如下：

S106、根据所述第一语义相似度和第二语义相似度，结合额外生物信息构建包括综合miRNA相似度矩阵和综合疾病相似度矩阵的综合相似度矩阵，其实现方法如下：

本实施例中，疾病数据的获取：

从HMDD2.0中获取已知miRNA和疾病关联5430条，确定已知miRNA和疾病关联矩阵

nm＝485，表示miRNA的个数，nd＝383，表示疾病个数。若第i号miRNA与第j号疾病相关，则A(i,j)＝1，否则A(i,j)＝0。从MISIM收集miRNA功能相似度数据并构建功能相似度矩阵FM。从miRBase中获得疾病术语，对每个疾病构建有向无环图DAG，并基于语义影响逐层递减的假设构建了第一语义值：

其中，Δ表示不同层的语义的衰减系数，每一个DAG中的语义值除了本身外递归衰减，头节点的语义值是子树语义值的最大值，最终头节点的语义值是DAG中所有节点的语义值的和。将疾病d_i和疾病d_j的DAG的交集除以两个DAG的并集作为第一语义相似度：

基于更少DAG出现的疾病具有更高的代表性的假设，令包含t的DAG的个数为n_t，以包含特定疾病占所有疾病的比例定义了此疾病的第二语义值，将DAG头节点的语义值定义为所有节点语义值的和：

类比第一语义值计算了疾病d_i和疾病d_j间的DAG的交并比作为第二语义相似度。

本实施例中，构建综合相似度矩阵：

本发明在已知关联矩阵基础上，进一步融合更多的生物学数据以丰富高斯谱核相似度的计算。在本发明中以lncRNA数据为例，从star-base v2.0数据库中获得miRNA-lncRNA相似度矩阵MI，从LncRNADisease数据库中获得疾病-lncRNA相似度矩阵DI。本发明中提出在已知关联中分别融入其他生物学数据以计算高斯谱核相似度矩阵如下：

AM＝[A,MI]

AD＝[A^T,DI]

GM(m_i,m_j)＝exp(-β_m||IV_AM(m_i)-IV_AM(m_j)||²)

GD(d_i,d_j)＝exp(-β_d||IV_AD(d_i)-IV_AD(d_j)||²)

/>

其中，AM表示融合了lncRNA数据的miRNA与疾病关联矩阵，AD表示融合了lncRNA数据的疾病与miNRA关联矩阵，GM表示生成的miRNA高斯谱核相似度矩阵，GD表示生成的疾病高斯谱核相似度矩阵，m_i表示第i个miRNA，d_i表示第i个疾病，IV_AM(m_i)表示AM的第i行，IV_AD(d_i)表示AD的第i行，β_m和β_d表示用于调整谱核带宽的系数，β'_m和β'_d分别表示确定GM和GD的谱核带宽系数的超参数，在这里根据先前研究设置为1。因此对miRNA相似度而言，需要综合第一语义相似度SS1、第二语义相似度SS2、生成的疾病高斯谱核相似度矩阵GD计算综合相似度，对疾病而言，需要综合FM、GM计算综合相似度。基于生成的疾病高斯谱核相似度矩阵GD是对未知语义相似度的疾病对的补充的假设，本发明令已知第一语义相似度SS1的疾病对的集合为Ω_d1，已知第二语义相似度SS2的疾病对的集合为Ω_d2，未知语义相似度的疾病对的集合为

以此计算各个相似度在最终相似度中的权重：

其中，λ表示在计算综合相似度时所占的权重参数，λ_ss表示SS1和SS2的总权重，λ_ss1、λ_ss2分别表示SS1和SS2各自的权重，λ_gd表示GD的权重，|*|表示集合的数目。根据权重计算综合疾病相似度：

SD(d_i,d_j)＝I_D(d_i,d_j)

*(λ_SS1*SS1(d_i,d_j)+λ_SS2*SS2(d_i,d_j)+λ_gd

*GD(d_i,d_j))+(1-I_D(d_i,d_j))*GD(d_i,d_j)

类似地，令已知功能相似度FM的miRNA对的集合为Ω_m，未知功能相似度的miRNA对的集合为

以此计算各个相似度在最终相似度中的权重并表示综合miRNA相似度如下，其中，λ_fm表示计算综合miRNA相似度时FM的权重，λ_gm表示GM的权重。

SM(m_i,m_j)＝I_M(m_i,m_j)

*(λ_fm*FM(m_i,m_j)+λ_gm*GM(m_i,m_j))+(1-I_M(m_i,m_j))*GM(m_i,m_j)

S2、基于归纳矩阵分解设计双流生成器，并将所述综合相似度矩阵作为双流生成器的固定参数训练双流生成器和判别器，生成miRNA与疾病关联预测矩阵，其实现方法如下：

本实施例中，生成器的目标是生成miRNA与疾病关联矩阵，输入一个随机向量，生成一个生成矩阵。

本实施例中，根据归纳矩阵分解，对关联矩阵A可以用两个参数矩阵P和Q进行模拟：

A≈SM*P*(SD*Q)^T

其中，

k＜＜min(nm,nd)保证了低秩性，k在本发明中取100，因此，双流生成器设计了两个网络分别生成P矩阵和Q矩阵，如图2所示，两个网络均由128、256、512个节点和RReLU激活函数组成，并在最后添加了线性投影以匹配维数，并使用dropout进行稀疏化，为了保证生成矩阵的非负性，使用softmax进行归一化。网络生成P矩阵和Q矩阵后与对应相似度矩阵相乘最后进入双线性池做內积生成最终的生成矩阵，即疾病关联预测矩阵。

S202、设计判别器，并预训练判别器；

本实施例中，判别器的目标是判断生成的关联矩阵是否具有类似原矩阵的分布，输入一个矩阵，生成一个真实或虚假的二分类结果。使用loocv依次对A的每一个已知关联进行忽略，构成一系列矩阵，形成真实矩阵集合T0。为了便于训练，同时增强生成的多样性，使用自动编码器作为判别器，如图3所示，同时为了捕获深层关联，判别器构造成一个深层自动编码器，由5层节点构成，每层节点个数为512、256、128、256、512，为了增加模型的稀疏性，5层的激活函数除了最后使用sigmoid将预测得分压缩到0-1之间，前面均使用RReLU。

本实施例中，预训练判别器。令预训练模型的输入为x_pre＝A，根据深层自动编码器的损失函数计算损失：

L_pre＝[M-||D_ω(x_pre)-x_pre||₂]⁺

其中，根据正态分布取样k_pre个随机噪声向量，D_ω是以ω为参数的判别器。M表示重构误差正边际，本方案设置为10，[·]⁺表示取正函数。使用Adam更新判别器参数ω，Adam的参数设置为a＝0.0001，β₁＝0，β₂＝0.9，重复预训练10次，获得判别器参数的初始值。

S203、固定生成器训练判别器，以及固定判别器训练生成器；

本实施例中，固定生成器训练判别器。每次根据正态分布取样k₁个随机噪声向量

本发明中将所有矩阵视为1通道的图像样本，然后从T0中采样真实样本x，P_x表示真实样本x对应的掩膜，其中只有真实样本位置为1，其余为0，计算判别器损失如下：/>

[·]⁺＝max(0,·)

其中，G_θ是以θ为参数的生成器，G_θ(z⁽ⁱ⁾)表示生成器生成的矩阵，上述损失函数中的第一项用于减小真实关联矩阵的重构误差，第二项中减小生成关联矩阵的重构误差，同时维持一定的重构误差防止网络退化成恒等函数，使得模型学习真实关联矩阵分布的同时又保留多样性，与一般的BCGAN不同，因为求解的是矩阵单一元素的重构误差，所以训练中M设置为0.1。根据损失函数计算梯度并使用Adam算法进行参数优化，Adam参数设置如S202，使用T0上所有样本重复训练5次后固定判别器参数。

本实施例中，固定判别器训练生成器。根据正态分布取样k₂个z，只训练1轮，损失函数计算如下：

计算损失函数并使用Adam算法进行参数优化，Adam参数设置如固定生成器训练判别器中的设置，使用T0上所有样本训练1次后固定生成器参数。

本实施例中，所述阈值为直至双流生成器的参数变化小于10^-6。

S205、生成miRNA与疾病关联预测矩阵。

本实施例中，正态分布取样100个z，使用训练后的生成器生成100次miRNA与疾病关联矩阵取平均，设定阈值∈＝0.5，大于阈值∈的关联确定为预测关联。

本发明通过以上设计，在相似度矩阵生成过程中融合其他生物学数据来计算miRNA和疾病的高斯谱核相似度，根据有功能或语义相似度的miRNA或疾病所占的比重来计算相似度融合的权重，得到更加合理的综合相似度矩阵，然后基于归纳矩阵分解，将对原始矩阵的模拟分解为两个参数矩阵，并设计一个双流生成器，生成低秩的相似度投影系数矩阵，同时添加Dropout层以保证生成矩阵的稀疏性，最后，对多次生成结果取均值获得最终的miRNA疾病关联预测结果，获得更高的miRNA与疾病关联预测能力，提高预测的可靠性，为科研人员确定疾病关联的候选miRNA提供辅助决策。

实施例2

如图4所示，本发明提供了一种miRNA与疾病的关联预测系统，包括：

如图4所示实施例提供的miRNA与疾病的关联预测系统可以执行上述miRNA与疾病的关联预测方法实施例所示的技术方案，其实现原理与有益效果类似，此处不再赘述。

Claims

1.一种miRNA与疾病的关联预测方法，其特征在于，包括以下步骤：

所述步骤S1包括以下步骤：

S106、根据所述第一语义相似度和第二语义相似度，结合额外生物信息构建包括综合miRNA相似度矩阵和综合疾病相似度矩阵的综合相似度矩阵；

所述综合疾病相似度矩阵的表达式如下：

SD(d_i,d_j)＝I_D(d_i,d_j)*(λ_SS1*SS1(d_i,d_j)+λ_SS2*SS2(d_i,d_j)+λ_gd*GD(d_i,d_j))+(1-I_D(d_i,d_j))*GD(d_i,d_j)

其中，SD(d_i,d_j)表示综合疾病相似度，I_D(d_i,d_j)表示疾病d_i与疾病d_j间是否存在语义相似度的二值函数，λ_SS1和λ_SS2分别表示第一语义相似度值和第二语义相似度值的权重，λ_gd表示未知语义相似度的权重，SS1(d_i,d_j)表示疾病d_i与疾病d_j间的第一语义相似度，SS2(d_i,d_j)表示疾病d_i与疾病d_j间的第二语义相似度，GD(d_i,d_j)表示疾病d_i与疾病d_j间的高斯谱核相似度；

所述综合miRNA相似度矩阵的表达式如下：