CN114171124A

CN114171124A - 一种基于回归的性能优异的疾病和miRNA关联预测方法

Info

Publication number: CN114171124A
Application number: CN202111387787.8A
Authority: CN
Inventors: 王树林; 陈嘉
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2021-11-22
Filing date: 2021-11-22
Publication date: 2022-03-11

Abstract

本发明涉及生物信息学中的数据挖掘领域，具体涉及一种基于回归的性能优异的miRNA与疾病关联预测方法。其发明内容主要包括：(1)数据集的收集和处理；(2)构建疾病语义相似性矩阵SS、miRNA功能相似性矩阵FS、疾病/miRNA高斯相互作用轮廓核相似性矩阵KD和KM以及疾病/miRNA综合相似性矩阵SD和SM；(3)利用嵌入层的概念，利用回归模型训练嵌入层，将一种疾病/miRNA映射成一个特征向量；(4)利用k均值聚类挑选负样本；(5)构建BP神经网络并训练；(6)利用训练好的BP神经网络做预测；(7)利用dbDEMC数据库验证预测结果的准确性。和现有的技术相比，本发明提供了一种基于回归提取特征向量，并用k均值聚类提取负样本以识别未知的疾病‑miRNA关联，具有更强的鲁棒性。本发明的方法可行且有效，在预测miRNA与疾病关联方方面能取得良好的效果，对于疾病/miRNA特征向量的提取的发展具有重要意义。

Description

一种基于回归的性能优异的疾病和miRNA关联预测方法

技术领域

本发明涉及生物信息学中的数据挖掘领域，具体涉及一种基于回归的性能优异的miRNA 与疾病关联预测方法。

背景技术

自人类出现以来，人类就一直与疾病做斗争。这背后，与人们对疾病本质的研究和了解，有重大的关联。为了从本质上了解自身和认识疾病，人们曾开展过一系列的研究，比如人类基因组计划、癌症基因组学等。MicroRNA(miRNA)是一类长约20-24个核苷酸的非编码 miRNA，目前大量的研究表明，miRNA与多种疾病的发生及发展有关，例如免疫疾病，先天性疾病，甚至癌症等，研究miRNA与疾病之间的关联对于人类复杂疾病的诊断，治疗等具有重要的价值。

探究miRNA与疾病之间的关系的方法可以概括为生物湿实验法和生物信息学方法，生物湿实验耗时长，成本高，实验条件苛刻，但是准确性高。生物信息学方法耗时较少，成本低，实验要求低，但是还是需要生物湿实验证明预测结果的有效性，所以生物信息学方法预测结果的准确性就非常重要。在生物信息学方法中，基于网络的预测模型和基于机器学习的预测模型。基于网络的方法的共同点是假设功能相关的miRNA与表型相似的疾病密切相关，反之亦然。例如，Han等人提出了DismiPred方法，这种方法通过整合miRNA相似网络和公共关联信息来对未知的miRNA与疾病关联做预测。Chen等人提出了HAMDA方法，HAMDA 充分利用了miRNA功能相似性网络以及疾病语义相似性网络这双层网络中的网络结构节点属性，使得预测效果较好。但是DismiPred和HAMDA都不能应用于涉及孤立疾病或者孤立 miRNA的关系预测。除了网络的预测模型外，还有基于机器学习算法的预测模型，基于机器学习的方法使用已知的疾病和miRNA关联来训练学习模型，然后运用训练后的模型对未知的关联进行预测。例如，Li等人提出了NIMCCGCN方法,NIMCCGCN首先利用不同的数据集构建miRNA-疾病网络，再利用图卷积网络以及线性变换从miRNA-疾病网络提取出miRNA和疾病的特征表达，接着利用这些特征向量训练模型，最后利用训练好的模型对未知的miRNA-疾病对做预测。Chen等人提出了RFMDA机器模型框架，RFMDA基于随机森林提取特征向量，然后从未知的miRNA-疾病关联中选择负样本，但是由于分样本的选择是随机的，导致模型性能不稳定。Zhao等人提出了ABMDA，ABMDA是一种自适应增强模型，选取负样本的方法是利用k均值聚类算法先将负样本分成23簇，再从这23簇中的每一簇随机选取相同数量的负样本，但是没有考虑到每一簇的样本数是不同的。

因此针对上面方法中存在的孤立miRNA/疾病无法预测问题，负样本选取不平衡等问题本文提出了一种基于回归以提取特征向量以及k均值选取负样本的性能优异的机器学习方法，以预测未知miRNA-疾病对之间的相关性。

发明内容

本发明提出了一种基于回归的性能优异的miRNA与疾病关联预测方法，用以预测未知的miRNA-疾病之间是否存在关联，主要包括以下步骤：

(1)收集已知疾病-miRNA相互作用数据，疾病、miRNA之间的成对关联信息，miRNA语义信息和疾病相似性数据。

(2)构建疾病语义相似性矩阵、疾病/miRNA高斯相互作用轮廓核相似性矩阵以及miRNA/疾病综合相似性矩阵；

(3)基于回归提取miRNA/疾病的特征向量；

(4)将已知的miRNA-疾病作为正样本，利用k均值聚类方法从未知miRNA-疾病关联中提取负样本。

(5)构建和训练神经网络。

(6)利用训练好的神经网络预测未知miRNA和疾病的关联。

(7)利用dbDEMC数据库验证预测结果的正确性。

具体内容如下：

(1)数据收集阶段

我们收集并整合而来HMDD v2.0数据集，将HMDD v2.0数据集中的已知miRNA- 疾病关联整合，整合后的数据集包含495种miRNA和383种疾病以及5430对已知miRNA- 疾病关联，接着构建一个矩阵A描述疾病d(i)和miRNA m(j)是否存在关联，A(i，j)等于0或者1，0表示疾病d(i)和miRNA m(j)无关，1表示疾病d(i)和miRNA m(j)有关。从 http：// ww.cuilab.cn/files/images/cuilab/mism.zip下载miRNA功能相似矩阵FS，在矩阵FS 中，FS(i，j)表示miRNA m(i)和m(j)的功能相似性。从www.nlm.nih.gov下载mesh数据集，用于计算疾病的语义相似性。

(2)获得疾病语义相似性、miRNA功能相似性、疾病/miRNA高斯相似作用轮廓核相似性以及miRNA/疾病综合相似性

计算疾病语义相似性方法为，根据mesh数据集构建有向无环图DAG，每种疾病D对应一个DAG图，DAG(D)＝(D，T(D)，E(D))，T(D)表示疾病D的祖先节点以及节点D本身，E(D)表示每个父亲节点和子节点之间的边，DAG图中每种疾病d对疾病D的语义值贡献值为：

其中Δ的值设为0.5.所以疾病D的语义值的计算公式为：

疾病d(i)和d(j)的语义相似性计算公式1为：

但是单纯的利用上述公式没有考虑两种出现次数不同疾病出现在DAG(D)图中的同一层时，它们的贡献度应该不同的情况，需要利用以下几个公式进行改进：

DV2(D)＝∑_d∈T(D)D2_D(d) (5)

疾病d(i)和d(j)的语义相似性计算公式为：

疾病/miRNA高斯相互作用轮廓核相似性矩阵计算基于假设：存在功能相似性的miRNAs 与有相似表型的疾病之间的联系更加密切。IP(d(i))表示已知关联矩阵A的第i行，则疾病d(i) 和d(j)高斯相似作用轮廓核相似性定义为：

KD(d(i)，d(j))＝exp(-r_d||IP(d(i))-IP(d(j))||²) (8)

其中r_d的计算公式为：

r′_d的值设为1.

类似的m(i)和m(j)高斯相似作用轮廓核相似性定义为：

KM(m(i)，m(j))＝exp(-r_m||IP(m(i))-IP(m(j))||²) (10)

同样的r′_m的值设为1.

疾病综合相似性计算公式为：

miRNA综合相似性计算公式为：

(3)基于回归模型提取特征向量

在自然语言处理中，可以利用嵌入层将一个词映射成向量，同样的，本文就是利用这种思想，利用回归训练嵌入层对应的向量，将一种疾病或者miRNA映射成一个向量，利用这个向量作为疾病或者miRNA的特征向量。

在(2)中，我们可以计算得到疾病的综合相似性矩阵SD以及miRNA的综合相似性矩阵 SM。先随机生成一个嵌入层对应的矩阵D作为疾病的特征向量矩阵：

D＝(d₁，d₂，...，d_nd)^T，d_i∈R^kd (14)

其中nd表示疾病的个数，kd表示疾病特征向量所对应的维度。d_i和d_j分别表示疾病i和疾病j所对应的特征向量，SD(i，j)表示疾病i和疾病j的综合相似性，利用d_i和d_j计算两向量之间改进的余弦相似性：

本文构建了一个回归模型来学习疾病特征向量矩阵D，目标优化函数为：

N_d表示训练样本数量，并使用带反向传播的随机梯度下降(SDG)来更新疾病特征向量矩阵D。

同理可得miRNA特征向量矩阵SM：

M＝(m₁，m₂，...，m_nm)^T，m_i∈R^km (17)

(4)利用k均值聚类选取负样本

通过(2)得到了疾病的综合相似性矩阵SD和miRNA的综合相似性矩阵SM，假设疾病d_i和miRNA m_j是未知关联的疾病-miRNA对，则用SD(i)表示疾病d_i对应的SD矩阵中的第i行，同理SM(j)表示miRNA m_j在SM矩阵中对应的第j行，[SD(i)，SM(j)]表示该未知疾病-miRNA对应的组合向量，基于tensorflow框架，利用k-means将所有未知疾病-miRNA关联对对应的组合向量分成23簇，再根据划分结果将所有的未知疾病-miRNA对分成23簇，再从这23簇根据簇的大小按比例挑选与正样本相同数目的负样本。

(5)构建和训练神经网络

通过(3)得到特征向量矩阵D和M，通过(4)得到了正负样本，接着就是构建神经网络了，本文基于pytorch框架构建了一个四层BP全连接神经网络网络，其中包含一层输入层，二层隐藏层和一层输层，并使用Relu作为激活函数，并使用带反向传播的随机梯度下降(SDG) 来更新网络中的参数矩阵，损失函数为交叉熵损失函数。

对于一对已知关联的疾病d_i和miRNA m_j，我们首先在疾病嵌入层对应矩阵D中查找d对应的特征向量D(i)，也就是矩阵D的第i行，在miRNA嵌入层对应的M中查找m_j对应的特征向量M(j)，也就是矩阵M的第j行。以所有的正负样本对应的[D(i)，M(j)]^T作为BP神经网络的输入数据，用于训练BP神经网络。

(6)利用训练好的神经网络预测未知miRNA和疾病的关联

在利用已知的疾病-miRNA关联数据集训练好了BP神经网络之后，就以未知的疾病- miRNA关联对对应的[D′(i)，M′(j)]^T向量作为输入数据并得到输出结果output，由于本问题是一个二分类问题，所以output是一个1行2列的向量，经过softmax函数处理之后下标1对应的那个分量作为关联预测得分。并用关联得分来判断某疾病与某miRNA是否有关。

(7)利用dbDEMC数据库验证预测结果的准确性

dbDEMC数据库是一个整合和收录与人类癌症有关的miRNA的数据库，可以用该数据库中已知的疾病-miRNA关联来验证我们模型预测结果的准确性。选定某种疾病，将本模型预测的与该疾病存在潜在关联的各种miRNA的关联得分从大到小排序，然后验证在dbDEMC 数据库中是否存在关联，从而验证结果的准确性。

与现有技术相比，上述方案至少具有以下有益效果：

本发明提供的一种基于回归的性能优异的miRNA与疾病关联预测方法，使用嵌入层，并利用回归模型训练嵌入层，将每个疾病/miRNA映射成一个向量，将该向量作为疾病/miRNA 的特征向量。并基于k均值聚类挑选从每簇中根据簇与总样本的比例挑选负样本。和以往基于网络的方法或整个机器学习的方法相比，本方法利用嵌入层的思想，并使用回归模型来训练嵌入层，以得到所需的特征向量，非常的新颖，提供了额外的提取特征向量的思路，对疾病和miRNA特征向量的提取的发展具有重要的意义；并基于k均值从每簇中根据簇与总样本的比例挑选的负样本也使得整个预测模型具有更强的鲁棒性，同时也可以对孤立疾病/孤立 miRNAs做预测。

附图说明

为了更清楚地说明本说明书中一个或多个实施例或现有技术中的技术方案，下面对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书一个或多个实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1：基于回归的疾病和miRNA关联预测方法的流程示意图

图2：疾病特征向量提取示意图

具体实施方式

本发明是一种基于回归的性能优异的miRNA与疾病关联预测方法。为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实验，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

1.数据集概述

本发明使用HMDD v2.0数据集来对模型进行训练，该数据集涉及495种miRNA和383种疾病，其中5430对疾病-miRNA对关联是已知的，剩下的184155对疾病-miRNA对的关联未知的，在利用训练好的模型得到预测结果之后，利dbDEMC数据库验证预测结果的准确性。

2.实验环境和参数配置

硬件环境主要是一台PC主机。其中，PC主机的CPU为AMD Ryzen 54600H withRadeon Graphics 3.00GHz，内存为16GB RAM，64位操作系统。软件以Windows 10为平台，在Pycharm 环境下用Python语言实现，python版本为3.6.7，Tensorflow版本为2.1.0，pytorch版本为1.9.0。

本方法中，疾病、miRNA对应的特征向量的维度设置为2048，本文基于pytorch框架构建了一个四层BP全连接神经网络网络，其中包含一层输入层，二层隐藏层和一层输层，每一层的神经元个数为1024，256，32，2。并使用Relu作为激活函数，并使用带反向传播的随机梯度下降(SDG)来更新网络中的参数矩阵，损失函数为交叉熵损失函数。

3.评价指标

本文中的疾病-miRNA预测模型属于分类模型中的二分类问题，二分类模型的评价指标有准确率、精确率、召回率、F₁分数、AUC、AUPR。

表1二分类混淆矩阵

其中TP表示某样本实际是正样本在预测结果中也是正样本，FP表示某样本实际是负样本在预测结果中是正样本，FN表示某样本实际是正样本在预测结果中显示为负样本，TN表示某样本实际是负样本在预测结果中也是负样本。

准确率：用来衡量所有正样本和负样本中被正确分类的样本数量所占的比重，计算公式如下：

精确率：用来衡量预测结果中显示为正样本的数目中真正正样本所占的比重，计算公式如下：

召回率：用来衡量被正确分类的正样本的数量占实际总样本数量的比重，计算公式如下：

F₁分数：是一个综合指标，作为精准率和召回率这两个指标的调和平均值，计算公式为：

AUC：全称为Area under curve,即ROC曲线下的面积，ROC曲线的横坐标是假阳性率，纵坐标是真阳性率，主要用于评价不同模型的优劣。

AUPR:全称为Area under Precision/Recall curve，即PR曲线下的面积，PR曲线的横坐标是召回率，纵坐标是精确率，AUPR和AUC都是值越大，代表模型越好。

4.实验结果评估

4.1模型性能评估

本文评估了本文的方法与GBDT-LR、ABMDA、LRMCMDA这三种方法在五折交叉验证框架上的性能对比，评价指标包括了AUC、AUPR、准确率、精确率、召回率和F₁分数。

表2本模型与GBDT-LR、ABMDA、LRMCMDA模型性能对比

模型名称	AUC	AUPR	准确率	精确率	召回率	F<sub>1</sub>分数
							本模型	0.9270	0.9250	0.8561	0.8526	0.8591	0.8554
GBDT-LR	0.9250	0.9031	0.8627	0.8654	0.8273	0.8488
							ABMDA	0.8912	0.8870	0.8553	0.8446	0.7928	0.8179
LRMCMDA	0.8735	0.8714	0.8124	0.8515	0.8121	0.8331

从上表可以看出本模型除了在准确率和精确率这两个指标比GBDT-LR稍差之外，其他的指标都占优。

4.2案例研究

为了进一步验证本模型的适用性和预测性能，本发明对结肠癌和食管癌这两种人类常见癌症案例进行了研究。用本模型预测与结肠癌和食管癌存在潜在关系的miRNAs，并利用 dbDEMC数据库进行验证。

表3本发明预测的前20种与结肠癌相关的miRNAs

从上表可知本模型预测的20种潜在相关的miRNAs中有18种在dbDEMC数据库中被证实， hsa-mir-16和hsa-mir-200c未被证实，这代表这2种miRNAs可能代表了新的治疗靶点和预后产物，具有非常大的意义，能够对后续生物实验起到指导的作用。

表4本发明预测的前20种与食管癌相关的miRNAs

miRNA	验证结果	miRNA	验证结果
				hsa-mir-15b	已验证	hsa-mir-21	已验证
hsa-mir-133a	已验证	hsa-mir-199a	已验证
				hsa-mir-196a	已验证	hsa-mir-221	已验证
hsa-mir-218	已验证	hsa-mir-31	已验证
				hsa-mir-141	已验证	hsa-mir-34c	未验证
hsa-mir-122	已验证	hsa-mir-145	已验证
				hsa-mir-150	已验证	hsa-mir-200a	已验证
hsa-mir-1	已验证	hsa-mir-93	已验证
				hsa-mir-222	已验证	hsa-let-7a	已验证
hsa-mir-200c	已验证	hsa-mir-214	已验证

从上表可知本模型预测的20种潜在相关的miRNAs中有19种在dbDEMC数据库中被证实.

本领域技术人员可以理解，本发明的保护范围不局限于所述的具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征进行等同的更改或替换，需要注意的是，更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于回归的性能优异的疾病和miRNA关联预测方法，其特征在于，实施步骤为：

(1)收集和预处理数据集；

(2)计算疾病语义相似性矩阵SS、miRNA功能相似性矩阵FS、疾病/miRNA高斯相互作用轮廓核相似性矩阵KD和KM以及疾病/miRNA综合相似性矩阵SD和SM。

(3)基于回归模型将一种疾病/miRNA映射成一个特征向量。

(4)利用k均值聚类挑选负样本，利用已知疾病-miRNA关联作为正样本。

(5)构建BP神经网络并训练。

(6)利用训练好的BP神经网络做预测。

(7)验证预测结果的准确性。

2.根据权利要求1所述的一种基于回归的性能优异的疾病和miRNA关联预测方法，其特征在于，对数据集进行收集和预处理，具体包括：

收集并处理HMDD v2.0数据集，处理过后的数据包含495种miRNA和383种疾病，5430对疾病-miRNA是已证实存在关联，其余的184155对疾病-miRNA是未知的。

3.根据权利要求1所述的一种基于回归的性能优异的疾病和miRNA关联预测方法，其特征在于，计算所需的各种备用矩阵,具体包括：

计算疾病语义相似性矩阵SS、miRNA功能相似性矩阵FS、疾病/miRNA高斯相互作用轮廓核相似性矩阵KD和KM以及疾病/miRNA综合相似性矩阵SD和SM。

4.根据权利要求1所述的一种基于回归的性能优异的疾病和miRNA关联预测方法，其特征在于，基于回归将一种疾病/miRNA映射成一个特征向量，具体包括：

根据矩阵SD和SM,以及随机生成一个矩阵D和M,构建一个回归模型，利用D(i)和D(j)的改进余弦值学习SD(i,j)元素，利用M(i)和M(j)的余弦值学习SM(i,j),最后得到的矩阵D和M就是疾病嵌入层和miRNA嵌入层对应的矩阵。

5.根据权利要求1所述的一种基于回归的性能优异的疾病和miRNA关联预测方法，其特征在于，利用k均值聚类挑选负样本，利用已知疾病-miRNA作为正样本，具体包括：

根据矩阵SD和SM，[SD(i),SM(j)]表示该未知疾病d_i和miRNA m_j对应的组合向量，利用k-means将所有未知疾病-miRNA关联对对应的组合向量进行聚类，再根据划分结果将所有的未知疾病-miRNA对分成簇，再根据每簇的大小与总样本的大小的比例来挑选负样本。

6.根据权利要求1所述的一种基于回归的性能优异的疾病和miRNA关联预测方法，其特征在于，构建BP神经网络并训练，具体包括：

构建BP神经网络，并用正负样本对应的组合特征向量训练神经网络。

7.根据权利要求1所述的一种基于回归的性能优异的疾病和miRNA关联预测方法，其特征在于，利用训练好BP神经网络做预测，具体包括：

将184155对疾病-miRNA对应的特征向量输入神经网络中，得到关联预测得分。

8.根据权利要求1所述的一种基于回归的性能优异的疾病和miRNA关联预测方法，其特征在于，利用dbDEMC数据库验证预测结果的准确性，具体包括：

选定某种疾病，将本模型预测的与该疾病存在潜在关联的各种miRNA的关联得分从大到小排序，然后验证在dbDEMC数据库中是否存在关联，从而验证预测结果的准确性。