CN114496092B

CN114496092B - 基于图卷积网络的miRNA和疾病关联关系预测方法

Info

Publication number: CN114496092B
Application number: CN202210122912.0A
Authority: CN
Inventors: 邝祝芳; 刘寄文; 贺御笔
Original assignee: Central South University of Forestry and Technology
Current assignee: Central South University of Forestry and Technology
Priority date: 2022-02-09
Filing date: 2022-02-09
Publication date: 2024-05-03
Anticipated expiration: 2042-02-09
Also published as: CN114496092A

Abstract

本发明公开一种基于图卷积网络的miRNA和疾病关联关系预测方法，主要包括：1、下载数据集，得到miRNA与疾病关联关系的矩阵A，计算miRNA、疾病的高斯相互作用属性核相似性KM、KD；2、下载miRNA的序列信息，计算miRNA序列相似性LM；3、计算改进的疾病语义相似性FD和miRNA基于疾病的功能相似性FM；4、将FM、LM和KM整合得到miRNA相似矩阵SM，将FD和KD整合得到疾病相似矩阵SD；5、整合SM、SD构建异构网络，将异构网络输入到图卷积网络中进行结构特征提取；采用主成分分析法对SM、SD进行属性特征提取；6、将属性特征和结构特征进行融合，采用随机森林分类器进行训练；7、使用5倍交叉验证方法对提出的方法进行验证；应用本发明预测miRNA和疾病的关联关系的精度高。

Description

基于图卷积网络的miRNA和疾病关联关系预测方法

技术领域

本发明涉及生物信息学领域，具体涉及一种基于图卷积网络的miRNA和疾病关联关系预测方法。

背景技术

据有关证明，miRNA(microRNA)在生命进程当中扮演者重要角色，因此对miRNA的研究有助于人类对于疾病的预测、发现、治疗等，具有重大意义。然而，随着miRNA数据量的爆炸式增长，仅仅通过生物实验对miRNA进行研究是非常耗时和昂贵的，因此通过利用计算机的高速计算能力，依据miRNA与疾病的相似性等方法预测出潜在的miRNA与疾病的相似性，可以为生物实验提供理论依据。

按照人类全基因转录组分析，人类基因组有大量的基因产生转录为RNA，但是仅有百分之一到百分之二的RNA翻译成蛋白质，这暗示了人类基因组有大量序列不编码蛋白质，生物体有大量微型RNA(micro-coding RNA,miRNA)产生。随着高通量测序技术的飞速发展以及对RNA研究的深入，miRNA的研究也越来越成为热点。有研究表明miRNA在某些生物过程起着十分重要的作用，例如染色质修饰、转录及转录调节和人类疾病。然而，由于miRNA的调控网络复杂,其调控的潜在机制仍然不清楚，大多数miRNA的功能仍然未知，需要进一步的探索研究。

然而，与基因和miRNA相比，利用生物信息学方法以及计算方法研究与疾病有关的miRNA和疾病之间的关联关系存在成本昂贵，耗时较长，且成功率不高等缺点。因此，基于可用的生物数据发明有效的计算方法来预测潜在的miRNA和疾病之间的联系就显得非常重要。

发明内容

本发明的目的是针对现有生物技术耗费较高，提出一种在异构网络中基于图卷积网络的miRNA和疾病关联关系预测方法，能更准确地预测出潜在的miRNA和疾病的关联关系。

本发明提出的基于图卷积网络的miRNA和疾病关联关系预测方法，步骤如下：

1.计算miRNA和疾病的高斯相互作用属性核相似性KM、KD，首先从公开数据库HMDDV3.2下载miRNA-疾病关联关系数据集，进行去重等处理，得到miRNA-疾病关联关系的关联矩阵A；利用公开的MeSH Browser工具规范了疾病的命名，统一成MeSH数据库中疾病的标准名称，将MeSH数据库中没有的疾病去除，得到了新的miRNA和疾病的列表，以新的列表筛选出miRNA-疾病的关联关系的关联矩阵A，然后分别计算KM、KD，具体步骤如下：

构建miRNA-疾病关联关系的关联矩阵A，A的行数为miRNA的数量，A的列数为疾病的数量，A(M_i,D_j)如公式(1)所示:

其中A(M_i,D_j)＝1，表示miRNA M_i和疾病D_j存在关联关系，值为0表示不存在关联关系。

构建miRNA的高斯相互作用属性核相似矩阵KM，对于一个miRNA M_i,它的IP₁(M_i)值定义为miRNA-疾病关联关系的关联矩阵A的第i行，计算每一对miRNA M_i和miRNA M_j之间的高斯相互作用属性核相似性，如公式(2)所示:

KM(M_i,M_j)＝exp(-γ_m||IP₁(M_i)-IP₁(M_j)||²) (2)

其中，KM表示miRNA的高斯相互作用属性核相似矩阵，元素KM(M_i,M_j)表示miRNA M_i和miRNA M_j的高斯相互作用属性核相似性，γ_m用于控制高斯相互作用属性核相似性的频宽，它表示基于新的频宽参数γ'_m的正规化的高斯相互作用属性核相似性频宽，n₁表示miRNA的数量。

构建疾病的高斯相互作用属性核相似矩阵KD，同样地，基于功能相似的miRNA与相似的疾病之间具有关联关系的假设，利用已知的miRNA-疾病关联关系网络，对于一个疾病D_i，它的IP₂(D_i)值定义为miRNA-疾病关联关系的关联矩阵A的第i列，计算每一对疾病D_i和疾病D_j之间的高斯相互作用属性核相似性，如式(4)所示:

KD(D_i,D_j)＝exp(-γ_d||IP₂(D_i)-IP₂(D_j)||²) (4)

其中，KD表示疾病的高斯相互作用属性核相似矩阵，元素KD(D_i,D_j)表示疾病D_i和疾病D_j的高斯相互作用属性核相似性，γ_d表示基于频宽参数，γ'_d的正规化的高斯相互作用核相似性频宽，n₂表示疾病的数量。

2.计算miRNA序列相似性矩阵LM。

计算miRNA的序列相似性，从miRBase公开数据库下载miRNA序列信息，因为miRNA的序列决定了其独特性和功能，可以最大程度地保留生物学特性，所以我们将两个miRNAM_i和M_j的序列相似性值定义为S(m_i,m_j)，如公式(6)所示:

0≤Levenshtein(M_i,M_j)≤len(M_i)+len(M_j) (7)

其中len(M_i)表示M_i的长度，len(M_j)表示M_j的长度，Levenshtein(M_i,M_j)是指两个miRNA序列的编辑距离，表示序列M_i和M_j之间，由一个转成另外一个所需要的最少编辑操作次数。两个miRNA序列，一个是has-mir-21(CAACACCAGUCGAUGGGCUGU)，另一个是has-mir-155(CUCCUACAUAUUAGCGCAUUAACA)，其中len(has-mir-21)＝21，len(has-mir-155)＝22，两个序列has-mir-21和has-mir-155的编辑距离Levenshtein为19，其序列相似性值为1-19/(21+22)＝0.5581。

3.计算改进的疾病语义相似性FD和miRNA功能相似性矩阵FM。

传统的疾病语义相似性有两种计算方式，两种疾病之间的疾病语义相似度可以使用它们的DAGs来计算，而改进的IDSSIM模型综合了这两种传统疾病语义相似性的优点；

(1)第一种疾病语义相似性的步骤如下：

其中T_A是A包括其自身的祖先节点的集合，E_A是有向无环图DAG中所有边的集合。DAG_A中的疾病术语t∈T_A对疾病A具有语义贡献，其被定义为t对疾病A的语义值，并且可以通过公式(8)计算：

其中C(t)是t的子集，Δ是E_A中连接t和t'的边的语义贡献因子，通常设置为0.5。

(2)第二种疾病语义相似性的步骤如下：

使用公式(9)来计算DAG_A中的疾病术语t∈T_A对疾病A的语义值的贡献。

其中D是MeSH中的疾病数量，Dags(t)是包含t的DAG的数量。

(3)而在改进的IDSSIM模型中，将DAG_A中的疾病术语t∈T_A对疾病A的语义值的贡献定义为公式(10)，

其中P_t为IC贡献因子，定义公式(11)为，

其中K是MeSH中所有疾病的集合。对于疾病，其P_t值随着Mesh版本而变化，即SV(A)是DAG_A中所有疾病术语对疾病A的贡献之和。

此外，基于两个疾病A和B在DAG中共享的疾病术语，定义了公式(13)两个疾病A和B之间的疾病语义相似度。

计算miRNA功能相似性的步骤如下：假设DG(u)和DG(v)分别是从人类miRNA-疾病关联矩阵中收集的miRNA u和v的疾病组，则u和v之间的miRNA功能相似性可以利用DG(u)和DG(v)中出现的疾病的语义相似性来计算。更具体地说，首先构建疾病语义相似度子矩阵，其中行和列表示在DG(u)和DG(v)中的疾病，每个元素都是对应疾病之间的疾病语义相似度；然后，一个疾病组和另一个疾病组的疾病之间的相似性被定义为公式(14)。

其中d_u和d_v分别代表DG(u)和DG(v)中的一种疾病。接下来，两个疾病组的相似性被定义为公式(15)，

最后，u和v之间的miRNA功能相似性被定义为公式(16)，

其中|·|表示相应疾病组中的疾病数量。

4.将FM、LM和KM整合成miRNA的相似矩阵SM，将FD和KD整合为疾病的相似矩阵SD。

构建miRNA相似性网络SM，基于miRNA高斯相互作用属性核相似性矩阵KM、miRNA功能相似性矩阵FM和miRNA序列相似性矩阵LM构造miRNA相似性矩阵SM，其中SM(M_i,M_j)的值是三个矩阵中对应的miRNA对相似值的平均值。

构建疾病相似性网络SD，基于疾病高斯相互作用属性核相似性矩阵KD和疾病的语义相似性矩阵FD构造疾病的相似性矩阵SD，其中SD(D_i,D_j)的值是两个矩阵中对应的疾病对相似值的平均值。

5.提取全局异构网络的结构特征和原始相似矩阵的属性特征。

融合miRNA-疾病关联关系网络的关联矩阵A、miRNA的相似矩阵SM和疾病的相似矩阵SD三个子网，构建一个全局异构网络；在异构网络上，利用图卷积神经网络提取特征得到结构特征；图卷积网络的概念最早是在(Thomas，etal.2017)提出的，它是一种能够对图数据进行深度学习的方法，它的核心思想是通过将与节点相关联的边的信息进行整合从而得到新的节点信息。大致分为以下三个步骤：

(1)对于图中的每一个节点，它将自身的特征信息进行转换，将转换后的信息发送给自己的邻居节点。

(2)对于图中的每一个节点，它能够将邻居节点的特征信息集合在一起。

(3)通过将上述得到的信息做线性变换来加强模型的表现力。

根据构建完成的全局异构网络G，其中共有N个节点，每个节点都有其特征，将这些节点的特征组成一个N×D维的矩阵H，因此H和G作为模型的输入，层与层之间的传递关系如公式(17)所示：

公式(17)即为图卷积网络的核心公式。在该公式中，H代表了每一层的特征，σ是一个激活函数，G是图的原始邻接矩阵A和一个单位矩阵I的和，D是G的度矩阵，W是参数矩阵。通过对公式的观察能够知道，由于图的邻接矩阵G对角线上的数字均为0，那么在与矩阵H相乘的时候，该特征会被忽略掉，因此需要给邻接矩阵A加上一个单位矩阵I。通过让G乘上度矩阵可以得到一个对称且归一化的矩阵。GCN的强大之处在于该模型即使不通过训练，只使用原始的随机初始化参数W就可以提取出不错的特征，再给出一定的标注信息后，它的效果就得到了更大的提升。图卷积网络是卷积神经网络的一种扩展，非常适用于学习拓扑图类型的数据。

在图卷积网络中引入了注意力机制，图卷积网络设置了五层，分别为输入层，隐藏层1，隐藏层2，隐藏层3和输出层，在3层隐藏层分别加上一个注意力权重，层关注是图卷积网络体系结构的一个组成部分，负责管理和量化不同卷积层的相互依赖性。3层隐藏层设置了相应的注意力权重，分别为第一层提取直接临近节点的结构特征，第二层和第三层提取更深结构的结构特征；第一层的注意力权重设置为0.5，第二层为0.3，第三层为0.2。通过三层图卷积层的传播，最后得到异构网络的结构特征矩阵。

miRNA相似矩阵SM，disease相似矩阵SD，通过主成分分析法PCA进行特征提取，作为属性特征矩阵。

主成分分析(Principal Component Analysis,PCA)的主要思想是将整合后的疾病相似矩阵SD和miRNA相似矩阵SM的n维特征映射到k维上，这k维是全新的正交特征也被称为主成分。在输入数据矩阵后，对于数据的每一行先计算其均值，之后再对每个特征进行去中心化处理，即用每一个特征减去各自行的平均值。其次，计算出已经去中心化之后的矩阵的协方差，再用特征值分解的方法计算出协方差矩阵的特征值与特征向量。对特征值从大到小排序，选择其中最大的k个，将其对应的k个特征向量分别作为行向量组成特征向量矩阵P。最后，将数据转换到k个特征向量构建的新空间中作为特征矩阵DF、MF。PCA的具体方法如下：

对于输入数据集X＝{x₁,x₂,x₃,…,x_n}，X为疾病相似矩阵和miRNA相似矩阵的行向量，先计算其均值，如公式(18)所示：

计算出均值之后再进行去中心化，即每一位特征减去各自的平均值。再计算协方差矩阵X^T表示X的转置，协方差矩阵的计算公式如公式(19)所示：

Cov(X,X^T)＝E[(X-E(X))(X^T-E(X^T))] (19)

再用特征值分解的方法求协方差矩阵的特征值与特征向量。令/>特征值分解方法如公式(20)所示：

A＝Q∑Q^-1 (20)

其中，Q是矩阵A的特征向量组成的矩阵，∑则是一个对角阵，对角线上的元素就是特征值。之后对特征值从大到小排序，选择其中最大的k个。然后将其对应的k个特征向量分别作为行向量组成特征向量矩阵P。最后，将数据转换到k个特征向量构建的新空间中，如公式(21)所示：

Y＝PX (21)

其中，X表示输入数据集，Y为经过PCA转换后的输入数据集X的映射坐标。

6.将结构特征和属性特征进行融合进行随机森林(RF)分类器的训练。

结合结构特征和属性特征得到特征数据，根据关联矩阵A得到正样本和负样本的下标，取正负样本数量比例为1：1，将得到的特征数据用于训练随机森林(RF，RandomForest)分类器，再将RF分类器用于预测miRNA-疾病的关联关系。

随机森林是由决策树构成的集成学习算法。因此，从决策树算法的演进过程、集成学习算法以及随机森林构建过程的顺序进行阐述。决策树(Decision Tree)主要由三部分构成，节点包含根节点、内部节点和叶子节点，节点之间通过概率相连接。每一个节点表示对特征信息的判断条件，根据条件划分为左子树和右子树，根据设定的标准选择一侧向下分裂，叶子节点表示对象所属分类的预测结果，所有数据最终都会由根节点落至叶子节点上。

在选择根节点时，会遍历计算所有特征的不纯度，选择不纯度最低的特征作为根节点，同时也根据不纯度选择对该特征进行分割的最佳分割点。所以，构建决策树的关键是找出合适的不纯度衡量指标，而这种指标经过不同学者的研究产生了以下三类决策树算法：ID3、C4.5和CART。

关于集成学习算法，如决策树、逻辑回归等传统的机器学习算法使用的是单独的分类器，这类算法易产生过拟合问题，而且其性能优化具有一定的局限性。所以，集成学习算法的思想应运而生，通过训练多个基分类器，将多个分类器的预测结果进行综合评估，从而得到最终的预测结果。在集成学习算法中主要应用两种方式来构建模型，即Bagging(装袋法)和Boosting(提升法)。

基于决策树算法的不足，L.Breiman引入了集成学习的思想，利用Bagging方法结合随机特征子空间方法形成多棵不同的决策树，将所有决策树的预测结果通过少数服从多数原则或者求平均值的方式进行最终预测，其主要流程可以概括为以下三个步骤：对训练数据集进行随机抽取、随机选取特征子集、并行训练每棵决策树，综合全部决策树的预测结果进行分类。

为了保证每棵决策树的相对独立性，需要抽取训练数据集中不同行与不同列的数据，从而形成多个相对独立的数据集，使用这些数据集对每棵决策树进行训练，采用这种方式训练出的决策树之间也是相对独立的。这就涉及了对数据抽样方式的选择问题，随机森林采取的抽样方式是有放回抽样。

有放回抽样指的是在所有样本中，每批次抽取一定量样本，在抽取下一批次样本之前，将本次抽取的所有样本放回到原始样本中，即在下次抽样时本批次抽取的样本依然有机会被抽取到。在有放回抽样中也分为有权重抽样(Boosting)和无权重抽样(Bagging)，有权重抽样在抽样过程中会给每个抽样赋予相应的权重值，会对那些在训练时表现较差的抽样数据权重进行提升；无权重抽样是从训练数据中不断抽取样本，每条数据都可能被抽到，也可能抽不到。

随机森林算法抽取数据采用的是有放回抽样中的无权重抽样，根据事先设定的决策树数量n，对训练集数据进行n次有放回抽样，每次抽样产生相应的决策树，由于是随机采样，每棵决策树的训练数据不同，决策树之间也就存在着差异，通过这种方式可以有效克服单棵决策树产生的过拟合问题。

随机森林中的决策树采用的是上文提到的CART树算法进行构建。在节点分裂的过程中随机挑选训练数据集中的n个特征，选取不纯度指标最小的节点，从n个特征中随机选取一个特征进行分裂，再按照相同的步骤直到节点的不纯度达到最小或者没有特征可以选择时，决策树停止生长。将构造好的决策树合并为随机森林，每棵决策树会对每条样本数据输出预测结果，将所有预测结果汇总通过投票的方式产生最终预测结果。

7.使用5倍交叉验证进行验证。

训练集随机分为5组大小大致相同的子集。每个子集依次用作验证测试数据，其余4个子集用作训练数据。交叉验证过程重复5次，并使用5次的平均性能度量进行性能评估。我们使用多种指标来评估性能，包括召回(REC)、F-score(FSC)、准确度(ACC)、ROC曲线下与坐标轴围成的面积(AUC)和PR曲线下与坐标轴围成的面积(AUPR)。

8.性能评估。

本发明的方法是基于图卷积网络和主成分分析法进行特征提取，采用随机森林算法训练分类器，将本发明的方法与广泛使用的分类器进行比较，包括K近邻算法(KNN)，梯度提升决策树(GBDT)和Adaboost分类器(ABc)，在构建标准训练集上使用5倍交叉验证；为了体现本实验特征的性能，将本实验使用的不同特征组合(仅使用结构特征、仅使用属性特征和组合结构特征和属性特征)进行了性能比较。

有益效果：

发明解决了一种基于图卷积网络的miRNA和疾病关联关系预测方法。本发明采用机器学习方法，通过图卷积网络和主成分分析法进行特征提取，使用随机森林算法利用已知的miRNA与疾病关联关系网络的拓扑结构，训练分类器；这对生物学家的实验研究能够起到指导的作用，生物学家可以针对关联关系概率较大的miRNA和疾病对进行试验测试，避免了盲目的测试，减少了工作量，有效预测miRNA和疾病的关联关系。

附图说明：

下面结合附图对本发明作进一步的详细描述

图1为本发明miRNA和疾病关联关系预测方法的流程图。

图2为本发明对HDMM数据库中疾病的名称进行规范的流程图。

图3为本发明计算改进的疾病语义相似性流程图。

图4为本发明计算miRNA基于疾病的功能相似性流程图。

图5为本发明计算miNRA之间的综合相似性矩阵SM的流程图。

图6为本发明计算疾病之间的综合相似性矩阵SD的流程图。

图7为本发明GCN提取结构特征的网络结构图。

图8为本发明PCA提取属性特征的流程图。

图9为本发明随机森林分类器的模型结构图。

图10为本发明计算邻居矩阵A、相似矩阵KM、KD、FD、FM和LM的流程图。

图11为本发明miRNA和疾病关联关系预测方法的示意图。

图12为本发明的疾病有向无环图DAG。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例1：

本实施例提供了一种预测miRNA和疾病关联关系的方法，所述方法的流程图如图1所示，本实施例需要的数据从HDMM v3.2数据库下载miRNA-disease的关联数据，版本是2019年3月。HDMM数据库收集了35547个miRNA-疾病关联条目，其中包括1206个miRNA基因，来自19280篇论文的893种疾病，利用MeSH数据库对疾病的命名进行规范之后，保留了1122个miRNA基因和631种疾病。如表1和表2所示。

表1.miRNA列表

表2.疾病列表

编号	疾病名称(HDMM)	规范后的疾病名称(MeSH)
			1	Colon Neoplasms	Colon Neoplasms
2	Neoplasms[unspecific]	Neoplasms
			3	Systemic Lupus Erythematosus	Lupus Erythematosus,Systemic
…	…	…
			631	Placenta Cancer	Placenta Diseases

根据上面的数据，具体实施包括以下步骤：

1、根据已知的miRNA-疾病关联关系，进行去重等处理，得到miRNA-疾病关联关系网络的关联矩阵A,利用公开的MeSH Browser工具规范了疾病的命名，统一成MeSH数据库中的疾病名称，将MeSH数据库中没有的疾病去除，得到了新的miRNA和疾病的列表，以新的列表筛选出miRNA-疾病的关联关系的关联矩阵A，所述方法的流程图如图2所示，然后分别计算出miRNA的高斯相互作用属性核相似性KM和疾病的高斯相互作用属性核相似性KD；

例：

构建miRNA的高斯相互作用属性核相似矩阵KM:

KM(m_i,m_j)＝exp(-γ_m||IP(m_i)-IP(m_j)||²) (24)

其中,γ'_m取值为1。

例：

IP(m₀)_631×1：[0…此处省略88个0…100000000000000000000000000000000000000000000000000000000000000]

IP(m₁)_631×1：[0000000000000000000000010…此处省略570个0…000000000000000000000000000000000000000]

KL(m₀,m₁)＝exp(-γ_m||IP(m₀)-IP(m₁)||²)＝0.27457879588970013

同样地,构建疾病的高斯相互作用属性核相似矩阵KD:

KD(d_i,d_j)＝exp(-γ_d||IP'(d_i)-IP'(d_j)||²) (27)

其中,γ_d取值为1。

例：

IP(d₀)_1122×1：[00000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000010…此处省略957个0…0]

IP(d₁)_1122×1：[0000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000010…此处省略880个0…0]

KD(d₀,d₁)＝exp(-γ_d||IP(d₀)-IP(d₁)||²)＝0.6612618058200487 (29)

2、从公开数据库miRBase下载miRNA基因序列信息，根据miRNA的列表，得到所需miRNA的所有miRNA序列信息，利用Levenshtein函数计算miRNA的序列相似性LM。

3、应用了IDSSIM中的改进的疾病语义相似性，计算了疾病语义相似性FD，基于改进的疾病语义相似性，计算得出了miRNAs的功能相似性FM，所述方法的流程图如图3和图4所示；

(1)在IDSSIM模型中，将有向无环图DAG_A中的疾病术语t∈T_A对疾病A的语义值的贡献定义为，

其中P_t为IC贡献因子，定义为，

其中K是MeSH中所有疾病的集合。需要注意的是，对于疾病，其P_t值随不断更新的Mesh版本而变化。然后，IDSSIM中疾病A的语义值的计算方法是DAG_A中所有疾病术语对疾病A的贡献之和。

如图11所示的两个疾病组，分别为Pancreatic Neoplasms(A)和Liver Neoplasms(B)通过上式公式分别计算得到疾病A和疾病B的所在的有向无环图中的各疾病的语义值，所述方法的流程图如图11所示，其中Δ＝0.5，D＝29578，

表3.疾病A所在的DAG中各疾病的参数

Disease A	layer	Dags	Δ+Pt
				Pancreatic Neoplasms	0	5	0.630029
Digestive Dystem Neoplasms	1	2	0.630313
				Pancreatic Diseases	1	1	0.630146
Endocrime gland Neoplasms	1	2	0.630313
				Endocrime System Diseases	2	170	0.624451
Digestive System Diseases	2	310	0.619717
				Neoplasms by Site	2	1	0.630164
Neoplasms	3	691	0.606836

表4.疾病A所在的DAG中各疾病的语义值

Disease A	SV³(t)
		Pancreatic Neoplasms	1.000000
Digestive Dystem Neoplasms	0.630131
		Pancreatic Diseases	0.630313
Endocrime gland Neoplasms	0.630146
		Endocrime System Diseases	0.390524
Digestive System Diseases	0.393485
		Neoplasms by Site	0.397086
Neoplasms	0.240966

表5.疾病B所在的DAG中各疾病的参数

Disease B	layer	Dags	Δ+Pt
				Liver Neoplasms	0	3	0.630097
Liver Diseases	1	1	0.630164
				Digestive Dystem Neoplasms	1	2	0.630131
Neoplasms by Site	2	1	0.630164
				Digestive System Diseases	2	310	0.619717
Neoplasms	3	691	0.606836

表6.疾病B所在的DAG中各疾病的语义值

Disease B	SV³(t)
		Liver Neoplasms	1.000000
Liver Diseases	0.630164
		Digestive Dystem Neoplasms	0.630131
Neoplasms by Site	0.397086
		Digestive System Diseases	0.390524
Neoplasms	0.240966

疾病Pancreatic Neoplasms(A)语义值：

疾病Liver Neoplasms(B)语义值：

计算得到A和B之间的语义相似性：

(2)计算miRNA功能相似性的步骤如下：假设DG(u)和DG(v)分别是从人类miRNA-疾病关联矩阵中收集的miRNA u和v的疾病组，则u和v之间的miRNA功能相似性可以利用DG(u)和DG(v)中出现的疾病的语义相似性来计算。

更具体地说，首先构建疾病语义相似度子矩阵，其中行和列都表示出现在DG(u)和DG(v)中的疾病，每个元素都是对应疾病之间的疾病语义相似度。

表7.疾病语义相似子矩阵

然后，一个疾病组和另一个疾病组的疾病之间的相似性被定义为，

其中d_u和d_v分别代表DG(u)和DG(v)中的一种疾病。接下来，两个疾病组的相似性被定义为，

最后，u和v之间的miRNA功能相似性被定义为，

其中|·|表示相应疾病组中的疾病数量。

4.将FM、LM和KM整合成miRNA的相似矩阵SM，将FD和KD整合成疾病的相似矩阵SD，所述方法的流程图如图5和图6所示。

/>

5.融合miRNA-疾病关联关系网络的关联矩阵A、miRNA的相似矩阵SM和疾病的相似矩阵SD三个子网，构建一个全局异构网络；异构网络上，利用图卷积神经网络得到结构特征。使用主成分分析法(PCA)对原始相似特征进行特征提取，得到属性特征。所述方法的流程图如图7和图8所示，具体子步骤为：

(1)构建异构网络

我们融合了miRNA-疾病关联关系网络的关联矩阵A、miRNA的相似矩阵SM和疾病的相似矩阵SD三个子网，构成全局异构网络的邻接矩阵G。G中共1753×1753维，其中miRNA的数量是1122，疾病的数量是631。

其中A^T表示A的转置。

(2)提取异构网络的结构特征

我们将初始嵌入定义为经过GCN的分层传播规则公式/> 得到第一层的节点嵌入/>

更高层通过迭代更新嵌入来捕获多跳邻居信息(高阶邻近)。考虑到不同嵌入在不同层的贡献是不一致的，故引入了一种注意机制来组合这些嵌入，其中三层的注意力权重设置0.5、0.3和0.2。

其中的分别为0.5、0.3和0.2。

不同层的嵌入捕获异构网络的不同结构信息，经过4000次epoch迭代之后，得到miRNA和疾病的最终节点嵌入矩阵；

公式(53)表示miRNA的1122*128维结构特征，公式(54)表示疾病的631*128维结构特征。

(3)提取miRNA和疾病相似矩阵的属性特征

miRNA相似矩阵SM为1122维，disease相似矩阵SD为631维，通过主成分分析法PCA进行特征提取，得到属性特征矩阵。分别使用主成分分析(PCA)算法中提取特征，以疾病相似矩阵SD为例：

1)先求出异构矩阵每一列的平均值：

得出平均值矩阵如下：

avg_1×631＝[0.02481 0.01889 0.02709 … 0.00864] (56)

2)然后对于所有的样例，都减去对应的均值，得到矩阵如下：

3)求特征协方差矩阵，如下：

Cov(X,Y)＝E[(X-E(X))(Y-E(Y))] (58)

求得的协方差矩阵结果为：

4)求协方差的特征值和特征向量，得到:

5)将特征值按照从大到小的顺序排序，选择其中最大的k个，然后将其对应的k个特征向量分别作为列向量组成特征向量矩阵,k取74:

公式(62)表示疾病的631*74维属性特征，类似地，MF为：

公式(63)表示miRNA的1122*132维属性特征。

6、将提取的结构特征和属性特征进行组合，生成正样本数量14953和负样本数量14953，正负样本比例为1：1。根据正负样本的下标，得到对应的每一对miRNA和疾病的样本特征数据，比如对应其中一个样本miRNA和疾病分别为mi和dj，则将对应miRNA的128维结构特征和132维的属性特征与对应疾病的128维结构特征和74维的属性特征，得到miRNA和疾病的462维样本数据。采取类似的方法得到29906个样本的462维的特征数据。

根据关联矩阵，获取正负样本的下标，根据下标将256维(其中miRNA的128维，疾病的128维)的结构矩阵和206维(其中miRNA的132维，疾病的74维)的属性特征组成462维的样本特征，在每一行的后面加上1维的样本标签值(其中正样本标签值为1，负样本标签值为0)，得到样本矩阵为29906*463，如下所示：

将得到的特征数据用于训练随机森林(RF，Random Forest)分类器，再将RF分类器用于预测miRNA-疾病的关联关系，所述方法的模型结构如图9所示。

RF用于算法的步骤如下：

输入：训练样本D＝{(x1,y1),(x2,y2),…,(x29906,y29906)},最后一列为标签，样本个数为29906，损失函数定义为CART分类树默认的基尼系数Gini。

本发明专利中用于构建随机森林算法模型的框架使用的是Python中第三方机器学习库Scikit-learn，使用该库中的RandomForestClassifier类进行模型构建。随机森林算法模型本质上是基于Bagging集成思想的多个决策树组成的。

在本专利进行实验时，分别设定了控制整个森林的超参数和控制每棵决策树的超参数。其中n_estimators设置为120，max_depth设置为23，min_samples_leaf设置为2，min_samples_split设置为2，max_features设置为2。

1)随机森林的取样原则，对于包含m个样本的原始数据集，对该原始数据集进行可放回抽样m次，每次被采集到的概率是不被采集到的概率是/>次采样不被抽到的概率是/>因此在bagging的每轮抽样中，训练集大约有36.8％的数据没有被采样，这份数据称之为袋外数据。

本专利中从原始训练集中随机且有放回采样取出120个样本，共进行120次采样，生成120个训练集，第一个训练集样例：

2)对120个训练集，我们分别训练120个决策树模型。

3)对于单个决策树模型，训练样本特征的个数为462，那么每次分裂时根据基尼指数，在节点分裂的过程中随机挑选特征，选取不纯度指标最小的节点，从462个特征中随机选取一个特征进行分裂，再按照相同的步骤直到节点的不纯度达到最小或者没有特征可以选择时，决策树停止生长。

基尼指数(基尼不纯度)：表示在样本集合中一个随机选中的样本被分错的概率。Gini指数越小表示集合中被选中的样本被分错的概率越小，也就是说集合的纯度越高，反之，集合越不纯。

即基尼指数(基尼不纯度)＝样本被选中的概率×样本被分错的概率

对以上公式进行说明:

1、p_k表示选中的样本属于k类别的概率，则这个样本被分错的概率是(1-p_k)。

2、样本集合中有k个类别，一个随机选中的样本可以属于这k个类别中的任意一个。

本专利为二分类，故基尼系数计算如下公式：

Gini(p)＝p_k(1-p_k) (68)

4)将生成的多颗决策树组成随机森林。按照120棵树分类器投票决定最终分类结果。

第一个样本可能有两种类别取值：0和1，使用规模为120的随机森林模型发现，有110棵树预测的类别是1，10棵树预测的结果是0，那么，少数服从多数，新样本的类别会判断为1。

所有样本的预测结果如下：

其中D(d)表示miRNA和疾病的关联关系预测，D(d)_29906×1表示29906个样本分别属于哪一个类别，0表示miRNA与疾病无关联，1表示miRNA与疾病有关联。

7、使用5倍交叉验证进行验证。我们采用网格搜索策略，在5倍交叉验证的基准数据集上选择RF的最优参数。决策树的数目为120棵，树的选择深度为23。其余参数设置为默认值。使用5倍交叉验证来评估方法的性能，训练集随机分为5组大小大致相同的子集。每个子集依次用作验证测试数据，其余4个子集用作训练数据。交叉验证过程重复5次，并使用超过5次的平均性能度量进行性能评估。实验使用多种方法来评估性能，包括召回率(REC)、F-score(FSC)、准确度(ACC)、ROC曲线下与坐标轴围成的面积(AUC)和PR曲线下与坐标轴围成的面积(AUPR)。5倍交叉验证的性能如表8所示：

表8. 5倍交叉验证的性能

8、性能评估：本发明的方法是基于随机森林算法，将本发明的方法与广泛使用的分类器进行比较，包括k近邻算法(KNN)，梯度提升决策树(GBDT)和Adaboost分类器(ABc)，在构建标准训练集上使用5倍交叉验证。对应的分类器是从python工具包scikit-learn中获得的。对于KNN分类器，我们使用了5个最近邻和2个点的叶子大小。对于梯度提升决策树(GBDT)，使用了10个最近邻和最大决策树深度为3。对于Adaboost分类器，使用了30个最近邻，将SAMME函数作为分类算法。表9和表10分别给出了本发明使用的分类器方法的预测性能比较和使用不同的特征提取方式的预测性能比较。表9中的GCNPCA_KNN表示GCNPCA模型的特征提取与KNN分类器组合，GCNPCA_GBDT表示GCNPCA模型的特征提取与GBDT分类器组合，GCNPCA_ABc表示GCNPCA模型的特征提取与ABc分类器组合，GCNPCA_RF表示GCNPCA模型的特征提取与RF分类器组合。表10中的GCNPCA_RF表示模型的完整体，包含属性特征和结构特征，GCNPCA_RF-Attribute表示在原模型的基础上减掉了图卷积网络提取特征部分，只包含属性特征，GCNPCA_RF-Structure表示在原模型的基础上减掉了主成分分析法提取特征部分，只包含结构特征。

表9.使用其他机器学习方法的性能对比

	ACC	RECALL	F1-score	MCC	AUC	AUPR
							GCNPCA_KNN	0.900	0.816	0.891	0.812	0.937	0.957
GCNPCA_GBDT	0.859	0.756	0.843	0.734	0.925	0.943
							GCNPCA_ABc	0.915	0.864	0.910	0.835	0.962	0.972
GCNPCA_RF	0.949	0.906	0.947	0.902	0.984	0.988

表10.不同特征组合的性能对比

	ACC	RECALL	F1-score	MCC	AUC	AUPR
							GCNPCA_RF	0.949	0.906	0.947	0.902	0.984	0.988
GCNPCA_RF-Attribute	0.841	0.866	0.845	0.684	0.916	0.915
							GCNPCA_RF-Structure	0.842	0.859	0.842	0.684	0.919	0.919

Claims

1.一种基于图卷积网络的miRNA和疾病关联关系预测方法，其特征在于，包括以下步骤：

步骤1：从公开数据库HMDD V3.2下载miRNA-疾病关联关系数据集，进行去重处理，得到miRNA的列表和疾病的列表，利用公开的MeSH Browser工具规范了疾病的命名，统一成MeSH数据库中疾病的标准名称，将MeSH数据库中没有的疾病去除，得到了新的miRNA和疾病的列表，以新的列表筛选出miRNA-疾病的关联关系的关联矩阵A，分别计算出miRNA的高斯相互作用属性核相似性KM和疾病的高斯相互作用属性核相似性KD；

步骤2：从公开数据库miRBase下载miRNA序列信息，根据miRNA的列表，得到所需miRNA的所有miRNA序列信息，计算得到miRNA的序列相似性LM；

步骤3：应用了IDSSIM中的改进的疾病语义相似性，计算了疾病语义相似性FD，基于改进的疾病语义相似性，计算得出了miRNAs的功能相似性FM；

步骤4：将FD和KD整合成疾病的相似矩阵SD，将FM、LM和KM整合成miRNA的相似矩阵SM；

步骤5：利用miRNA-疾病关联关系网络的关联矩阵A、miRNA的相似矩阵SM和疾病的相似矩阵SD三个子网，构建一个全局异构网络；在异构网络上，利用图卷积神经网络提取特征得到结构特征；使用主成分分析法(PCA)对原始相似特征进行特征提取，得到属性特征；

步骤6：融合属性特征和结构特征得到特征数据集，将得到的特征数据用于训练随机森林(RF)分类器，该分类器用于预测miRNA-疾病的关联关系；

步骤7：使用5倍交叉验证进行验证；

步骤1中计算miRNA和疾病的高斯相互作用属性核相似性KM、KD，首先从公开数据库HMDD V3.2下载miRNA-疾病关联关系数据集，进行去重处理，得到miRNA-疾病关联关系的关联矩阵A；利用公开的MeSH Browser工具规范了疾病的命名，统一成MeSH数据库中疾病的标准名称，将MeSH数据库中没有的疾病去除，得到了新的miRNA和疾病的列表，以新的列表筛选出miRNA-疾病的关联关系的关联矩阵A，然后分别计算KM、KD，具体步骤如下：

其中A(M_i,D_j)＝1，表示miRNA M_i和疾病D_j存在关联关系，值为0表示不存在关联关系；

KM(M_i,M_j)＝exp(-γ_m||IP₁(M_i)-IP₁(M_j)||²) (2)

其中，KM表示miRNA的高斯相互作用属性核相似矩阵，元素KM(M_i,M_j)表示miRNA M_i和miRNA M_j的高斯相互作用属性核相似性，γ_m用于控制高斯相互作用属性核相似性的频宽，它表示基于新的频宽参数γ'_m的正规化的高斯相互作用属性核相似性频宽，n₁表示miRNA的数量；

KD(D_i,D_j)＝exp(-γ_d||IP₂(D_i)-IP₂(D_j)||²) (4)

其中，KD表示疾病的高斯相互作用属性核相似矩阵，元素KD(D_i,D_j)表示疾病D_i和疾病D_j的高斯相互作用属性核相似性，γ_d表示基于频宽参数，γ'_d的正规化的高斯相互作用核相似性频宽，n₂表示疾病的数量；

步骤2中从公开数据库miRBase下载miRNA序列信息，根据miRNA的列表，得到所需miRNA的所有miRNA序列信息，计算miRNA序列相似性矩阵LM；

计算miRNA的序列相似性，从miRBase公开数据库下载miRNA序列信息，因为miRNA的序列决定了其独特性和功能，保留了生物学特性，所以将两个miRNA M_i和M_j的序列相似性值定义为S(m_i,m_j)，如公式(6)所示:

0≤Levenshtein(M_i,M_j)≤len(M_i)+len(M_j) (7)

其中len(M_i)表示M_i的长度，len(M_j)表示M_j的长度，Levenshtein(M_i,M_j)是指两个miRNA序列的编辑距离，表示序列M_i和M_j之间，由一个转成另外一个所需要的最少编辑操作次数；两个miRNA序列，一个是has-mir-21(CAACACCAGUCGAUGGGCUGU)，另一个是has-mir-155(CUCCUACAUAUUAGCGCAUUAACA)，其中len(has-mir-21)＝21，len(has-mir-155)＝22，两个序列has-mir-21和has-mir-155的编辑距离Levenshtein为19，其序列相似性值为1-19/(21+22)＝0.5581；

步骤3中计算改进的疾病语义相似性FD和miRNA功能相似性矩阵FM；

(1)第一种疾病语义相似性的步骤如下：

其中T_A是A包括其自身的祖先节点的集合，E_A是有向无环图DAG中所有边的集合；DAG_A中的疾病术语t∈T_A对疾病A具有语义贡献，其被定义为t对疾病A的语义值，并且可以通过公式(8)计算：

其中C(t)是t的子集，Δ是E_A中连接t和t'的边的语义贡献因子，设置为0.5；

(2)第二种疾病语义相似性的步骤如下：

使用公式(9)来计算DAG_A中的疾病术语t∈T_A对疾病A的语义值的贡献；

其中D是MeSH中的疾病数量，Dags(t)是包含t的DAG的数量；

其中P_t为IC贡献因子，定义公式(11)为，

其中K是MeSH中所有疾病的集合；对于疾病，其P_t值随着Mesh版本而变化，即SV(A)是DAG_A中所有疾病术语对疾病A的贡献之和；

此外，基于两个疾病A和B在DAG中共享的疾病术语，定义了公式(13)两个疾病A和B之间的疾病语义相似度；

计算miRNA功能相似性的步骤如下：假设DG(u)和DG(v)分别是从人类miRNA-疾病关联矩阵中收集的miRNA u和v的疾病组，则u和v之间的miRNA功能相似性可以利用DG(u)和DG(v)中出现的疾病的语义相似性来计算；更具体地说，首先构建疾病语义相似度子矩阵，其中行和列表示在DG(u)和DG(v)中的疾病，每个元素都是对应疾病之间的疾病语义相似度；然后，一个疾病组和另一个疾病组的疾病之间的相似性被定义为公式(14)；

其中d_u和d_v分别代表DG(u)和DG(v)中的一种疾病，d表示疾病组DG(u)和DG(v)中的疾病；接下来，两个疾病组的相似性被定义为公式(15)，

最后，u和v之间的miRNA功能相似性被定义为公式(16)，

其中|·|表示相应疾病组中的疾病数量；

步骤4中将FD和KD对应的数值取平均值，得到疾病的相似矩阵SD，将FM、LM和KM对应的数值取平均值，得到miRNA的相似矩阵SM；

构建miRNA相似性网络SM，基于miRNA高斯相互作用属性核相似性矩阵KM、miRNA功能相似性矩阵FM和miRNA序列相似性矩阵LM构造miRNA相似性矩阵SM，其中SM(M_i,M_j)的值是三个矩阵中对应的miRNA对相似值的平均值；

构建疾病相似性网络SD，基于疾病高斯相互作用属性核相似性矩阵KD和疾病的语义相似性矩阵FD构造疾病的相似性矩阵SD，其中SD(D_i,D_j)的值是两个矩阵中对应的疾病对相似值的平均值；

步骤5中利用miRNA-疾病关联关系网络的关联矩阵A、miRNA的相似矩阵SM和疾病的相似矩阵SD三个子网，构建一个全局异构网络；在异构网络上，利用图卷积神经网络提取特征得到结构特征；使用主成分分析法(PCA)对原始相似特征进行特征提取，得到属性特征；

融合miRNA-疾病关联关系网络的关联矩阵A、miRNA的相似矩阵SM和疾病的相似矩阵SD三个子网，构建一个全局异构网络；在异构网络上，利用图卷积神经网络提取特征得到结构特征；图卷积网络是一种能够对图数据进行深度学习的方法，它是通过将与节点相关联的边的信息进行整合从而得到新的节点信息；分为以下三个步骤：

(1)对于图中的每一个节点，它将自身的特征信息进行转换，将转换后的信息发送给自己的邻居节点；

(2)对于图中的每一个节点，它能够将邻居节点的特征信息集合在一起；

(3)通过将上述得到的信息做线性变换来加强模型的表现力；

公式(17)即为图卷积网络的核心公式；在该公式中，H代表了每一层的特征，σ是一个激活函数，G是图的原始邻接矩阵A和一个单位矩阵I的和，D是G的度矩阵，W是参数矩阵；通过对公式的观察能够知道，由于图的邻接矩阵G对角线上的数字均为0，那么在与矩阵H相乘的时候，该特征会被忽略掉，因此需要给邻接矩阵A加上一个单位矩阵I；通过让G乘上度矩阵可以得到一个对称且归一化的矩阵；GCN的强大之处在于该模型即使不通过训练，只使用原始的随机初始化参数W就可以提取出不错的特征，再给出一定的标注信息后，它的效果就得到了更大的提升；图卷积网络是卷积神经网络的一种扩展，非常适用于学习拓扑图类型的数据；

在图卷积网络中引入了注意力机制，图卷积网络设置了五层，分别为输入层，隐藏层1，隐藏层2，隐藏层3和输出层，在3层隐藏层分别加上一个注意力权重，层关注是图卷积网络体系结构的一个组成部分，负责管理和量化不同卷积层的相互依赖性；3层隐藏层设置了相应的注意力权重，分别为第一层提取直接临近节点的结构特征，第二层和第三层提取更深结构的结构特征；第一层的注意力权重设置为0.5，第二层为0.3，第三层为0.2；通过三层图卷积层的传播，最后得到异构网络的结构特征矩阵；

miRNA相似矩阵SM，disease相似矩阵SD，通过主成分分析法PCA进行特征提取，作为属性特征矩阵；

主成分分析(Principal Component Analysis,PCA)的思想是将整合后的疾病相似矩阵SD和miRNA相似矩阵SM的n维特征映射到k维上，这k维是全新的正交特征也被称为主成分；在输入数据矩阵后，对于数据的每一行先计算其均值，之后再对每个特征进行去中心化处理，即用每一个特征减去各自行的平均值；其次，计算出已经去中心化之后的矩阵的协方差，再用特征值分解的方法计算出协方差矩阵的特征值与特征向量；对特征值从大到小排序，选择其中最大的k个，将其对应的k个特征向量分别作为行向量组成特征向量矩阵P；最后，将数据转换到k个特征向量构建的新空间中作为特征矩阵DF、MF；PCA的具体方法如下：

计算出均值之后再进行去中心化，即每一位特征减去各自的平均值；再计算协方差矩阵X^T表示X的转置，协方差矩阵的计算公式如公式(19)所示：

Cov(X,X^T)＝E[(X-E(X))(X^T-E(X^T))] (19)

再用特征值分解的方法求协方差矩阵的特征值与特征向量；令/>特征值分解方法如公式(20)所示：

A＝Q∑Q^-1 (20)

其中，Q是矩阵A的特征向量组成的矩阵，∑则是一个对角阵，对角线上的元素就是特征值；之后对特征值从大到小排序，选择其中最大的k个；然后将其对应的k个特征向量分别作为行向量组成特征向量矩阵P；最后，将数据转换到k个特征向量构建的新空间中，如公式(21)所示：

Y＝PX (21)

其中，X表示输入数据集，Y为经过PCA转换后的输入数据集X的映射坐标；

步骤6中将属性特征和结构特征进行融合进行随机森林(RF)分类器的训练；

结合结构特征和属性特征得到特征数据，根据关联矩阵A得到正样本和负样本的下标，取正负样本数量比例为1：1，将得到的特征数据用于训练随机森林(RF，Random Forest)分类器，再将RF分类器用于预测miRNA-疾病的关联关系；

随机森林是由决策树构成的集成学习算法；因此，从决策树算法的演进过程、集成学习算法以及随机森林构建过程的顺序进行阐述；决策树(Decision Tree)由三部分构成，节点包含根节点、内部节点和叶子节点，节点之间通过概率相连接；每一个节点表示对特征信息的判断条件，根据条件划分为左子树和右子树，根据设定的标准选择一侧向下分裂，叶子节点表示对象所属分类的预测结果，所有数据最终都会由根节点落至叶子节点上；

在选择根节点时，会遍历计算所有特征的不纯度，选择不纯度最低的特征作为根节点，同时也根据不纯度选择对该特征进行分割的最佳分割点；所以，构建决策树的关键是找出合适的不纯度衡量指标，而这种指标经过研究产生了以下三类决策树算法：ID3、C4.5和CART；

关于集成学习算法，决策树、逻辑回归使用的是单独的分类器，这类算法易产生过拟合问题，而且其性能优化具有一定的局限性；所以，集成学习算法的思想应运而生，通过训练多个基分类器，将多个分类器的预测结果进行综合评估，从而得到最终的预测结果；在集成学习算法中应用两种方式来构建模型，即装袋法Bagging和提升法Boosting；

基于决策树算法的不足，利用Bagging方法结合随机特征子空间方法形成多棵不同的决策树，将所有决策树的预测结果通过少数服从多数原则或者求平均值的方式进行最终预测，其概括为以下三个步骤：对训练数据集进行随机抽取、随机选取特征子集、并行训练每棵决策树，综合全部决策树的预测结果进行分类；

为了保证每棵决策树的相对独立性，需要抽取训练数据集中不同行与不同列的数据，从而形成多个相对独立的数据集，使用这些数据集对每棵决策树进行训练，采用这种方式训练出的决策树之间也是相对独立的；这就涉及了对数据抽样方式的选择问题，随机森林采取的抽样方式是有放回抽样；

有放回抽样指的是在所有样本中，每批次抽取一定量样本，在抽取下一批次样本之前，将本次抽取的所有样本放回到原始样本中，即在下次抽样时本批次抽取的样本依然有机会被抽取到；在有放回抽样中也分为有权重抽样和无权重抽样，有权重抽样在抽样过程中会给每个抽样赋予相应的权重值，会对那些在训练时表现较差的抽样数据权重进行提升；无权重抽样是从训练数据中不断抽取样本，每条数据都可能被抽到，也可能抽不到；

随机森林算法抽取数据采用的是有放回抽样中的无权重抽样，根据事先设定的决策树数量n，对训练集数据进行n次有放回抽样，每次抽样产生相应的决策树，由于是随机采样，每棵决策树的训练数据不同，决策树之间也就存在着差异，通过这种方式可以有效克服单棵决策树产生的过拟合问题；

随机森林中的决策树采用的是上文提到的CART树算法进行构建；在节点分裂的过程中随机挑选训练数据集中的n个特征，选取不纯度指标最小的节点，从n个特征中随机选取一个特征进行分裂，再按照相同的步骤直到节点的不纯度达到最小或者没有特征可以选择时，决策树停止生长；将构造好的决策树合并为随机森林，每棵决策树会对每条样本数据输出预测结果，将所有预测结果汇总通过投票的方式产生最终预测结果；

步骤7中使用5倍交叉验证进行验证；

训练集随机分为5组大小大致相同的子集；每个子集依次用作验证测试数据，其余4个子集用作训练数据；交叉验证过程重复5次，并使用5次的平均性能度量进行性能评估；使用多种指标来评估性能，包括召回(REC)、F-score(FSC)、准确度(ACC)、ROC曲线下与坐标轴围成的面积(AUC)和PR曲线下与坐标轴围成的面积(AUPR)。