CN109920476A

CN109920476A - 基于混沌博弈算法的miRNA-疾病相关性预测方法

Info

Publication number: CN109920476A
Application number: CN201910091125.2A
Authority: CN
Inventors: 郑凯; 尤著宏; 周勇; 李政伟; 詹朝惠
Original assignee: China University of Mining and Technology CUMT
Current assignee: China University of Mining and Technology CUMT
Priority date: 2019-01-30
Filing date: 2019-01-30
Publication date: 2019-06-21

Abstract

本发明公开了一种基于混沌博弈算法的miRNA‑疾病相关性预测方法，包括数据集的选择与建立，疾病语义相似矩阵、疾病高斯相似矩阵、miRNA高斯相似矩阵的生成，相似矩阵的融合，混沌博弈算法提取特征值，训练集和测试集的构建，分类器模型构建步骤完成，该方法是利用混沌博弈算法处理序列样本集的特征并得到特征值，使数据集的信息量大为增加；本发明能够利用宽度学习的方法构建模型，大大提高了预测精度，能够得到比较好的预测效果；本发明方法计算代价低，功耗小。

Description

基于混沌博弈算法的miRNA-疾病相关性预测方法

技术领域

本发明涉及一种基于混沌博弈算法的miRNA-疾病相关性预测方法，属于数字处理技术领域。

背景技术

由于发现miRNA越来越重要的生理作用，人们将越来越多的经历投入到其与人类自身相关的领域中去。miRNA被猜测与多种疾病的发生具有重要关联人们已经开展了相关的miRNA与疾病的相关性研究，然而miRNA具体机制还有待进一步的挖掘，这包括miRNA结合位点的配对以及多miRNA协同调控的机制，都将是该领域可以深入研究的方向。

到目前为止，大多数预测miRNA-疾病相关性的计算方法对miRNA-疾病相关性检测有一定的局限性。这些局限性在于，这些方法通常未考虑miRNA序列相关信息，或者未考虑miRNA序列相似度信息等。然而，这样的信息对于miRNA-疾病相关性预测应用效果很好。

发明内容

发明目的：为了克服现有技术中存在的不足，本发明提供一种预测精度高、预测效果好的基于混沌博弈算法的miRNA-疾病相关性预测方法。

技术方案：为实现上述目的，本发明采用的技术方案为：

一种基于混沌博弈算法的miRNA-疾病相关性预测方法，包括以下步骤：

步骤a、数据集的选择与建立：利用HMDD v3.0数据库中的数据集构建预测miRNA-疾病相关性的数据集。

步骤b、疾病高斯相似度矩阵和miRNA高斯相似度矩阵的生成：根据步骤a得到的miRNA-疾病相关性的数据集利用“两个功能相近的miRNA倾向于与表型相似的疾病存在关联，反之亦然”的假设，计算得到疾病高斯相似度矩阵、miRNA高斯相似度矩阵。

步骤c、语义相似度矩阵的生成：每个疾病根据MeSH主题词(医学主题词表)构建出对应有向无环图，根据每个疾病的有向无环图得到所有疾病的语义相似度矩阵。

步骤d、整合疾病相似度矩阵和miRNA相似度矩阵：疾病相似度矩阵以语义相似度矩阵为基础，其他矩阵空位由疾病高斯相似度矩阵填补，miRNA相似度矩阵以现有的miRNA功能相似度矩阵为基础，其他矩阵空位由miRNA高斯相似度矩阵填补，最后按照HMDD v3.0的关系对将疾病高斯相似度矩阵和miRNA相似度矩阵拼接成阳性特征集，并在未出现在HMDD v3.0中的关系对中随机抽取相同数量的关系对，将疾病高斯相似度矩阵和miRNA相似度矩阵拼接成阴性特征集。

步骤e、利用混沌博弈提取miRNA序列特征值：将每一条miRNA序列通过混沌博弈提取特征，形成一个64维的混沌博弈谱，并根据混沌博弈谱通过相关系数计算得到miRNA序列相似度矩阵。优点:1.在相似度计算中不考虑位置信息，允许它量化非线性序列关系。一般方法都是量化miRNA之间的线性序列同源性。2.传统的对齐算法只能对相似度进行量化，而该方法可以利用皮尔逊相关对相似度和差异进行量化。3.该方法可以量化miRNA之间的关系，尽管总长度存在差异，而长度差异可以混淆传统的比对算法。

步骤f、奇异值分解方法降维：利用奇异值分解方法分别将阳性特征集、阴性特征集、miRNA序列相似度矩阵降低到32维，以去除噪音因素的影响。

步骤g、整合数据集：将降32维的阳性特征集和阴性特征集与降至32维的miRNA序列相似度矩阵再次拼接得到最终的数据集。

步骤h、训练集和测试集的构建：在HMDD v3.0数据集上，分别以数量比为4:1的比例随机切割步骤g得到的最终的数据集，其中4/5作为训练集，1/5作为测试集，然后利用5折交叉验证的方法进行五次切割并验证。

步骤i、分类器模型构建：利用宽度学习方式构建分类器模型，将步骤h得到的训练集和测试集放入到分类器模型进行训练，得到训练好的分类器模型，通过训练好的分类器模型对miRNA-疾病相关性进行预测。

步骤a中的miRNA-疾病相关性的数据集包括阳数据集和阴数据集，阳数据集是miRNA-疾病对在HMDD v3.0数据库中筛选后得到的，阴数据集是在排除阳数据集miRNA-疾病对后所有可能的miRNA-疾病对中随机抽取得到的。

步骤b中根据HMDD v3.0数据库提供的关系矩阵和步骤a得到的miRNA-疾病相关性的数据集，通过下式分别计算得到疾病高斯相似度矩阵和miRNA高斯相似度矩阵。

KD(d(a),d(b))＝exp(-γ_d*||IP(d(a))-IP(d(b))||²)

KM(m(a),m(b))＝exp(-γ_d*||IP(m(a))-IP(m(b))||²)

其中

其中，KD(d(a),d(b))表示疾病高斯相似度矩阵，d(a)表示，d(b)表示，a表示，b表示，γ_d表示，n表示，d表示，IP(d(a))表示，m(a)表示，m(b)表示，γ_m表示，m表示。

步骤c中根据每个疾病的有向无环图得到两个的语义相似度矩阵，其公式为：

语义相似矩阵1：

其中，Δ是语义贡献度惩罚系数，D_d(t)表示，t表示，D表示，D1_d(t′)表示，childrenof t表示，DV(D)表示，T_d表示，Sim1(d(i),d(j))表示，T_d(i)表示，i表示，j表示，D_d(i)(t)表示，D_d(j)(t)表示，DV(d(i))表示，DV(d(j))表示。

语义相似矩阵2：

其中，D2_d(t)表示，number of DAGs including t表示，number of disease表示，Sim2(d(i),d(j))表示，D2_d(i)(t)表示，D2_d(j)(t)表示。

步骤d中疾病相似度矩阵和miRNA相似度矩阵计算公式如下：

其中，SD(d(a),d(b))表示，Sim1(d(a),d(b))表示，Sim2(d(a),d(b))表示，KD(d(a),d(b))表示，Sim1表示，Sim2表示，KD(d(a),d(b))表示，SM(m(a),m(b))表示，FS(m(a),m(b))表示，FS表示，KM(m(a),m(b))表示。

将得到的疾病相似度矩阵与miRNA相似度矩阵根据HMDD v3.0提供的关系矩阵进行拼接，得到阳性特征集，在随机抽取相同数量的未证实的关系对，将疾病相似度矩阵与miRNA相似度矩阵拼接成阴性特征集。

所述步e中利用混沌博弈提取miRNA序列特征值：利用混沌博弈提取miRNA序列特征值：将每一条miRNA序列通过混沌博弈提取特征，形成一个64维的混沌博弈谱，公式如下：

CGR_i＝CGR_i-1+θ*(CGR_i-1-g_i)

其中，CGR_i表示，i表示，CGR_i-1表示，θ表示，g_i表示。

根据混沌博弈表示图计算得到频率矩阵，将得到的频率矩阵与其他频率矩阵计算相关系数得到miRNA序列相似度矩阵，再根据阴、阳性特征集得到序列特征向量，使得miRNA与其序列特征一一对应。

所述步骤i中分类器模型的构建：

提供输入数据X并利用函数φ_i(XW_ei+β_ei)映射产生第i组映射特征Z_i，其中，W_ei是具有适当维度的随机权重系数，β_ei表示，给定记号Zⁱ≡[Z₁,…,Z_i]表示前i组所有映射特征，称为特征层。同样的，计算出第j组增强节点ξ_j(ZⁱW_hj+β_hj)被记为H_j，同时前j组所有增强节点被记为H^j≡[H₁,…,H_j]，称为增强层。并将特征层和增强层合并成A＝[Z|H]，竖线表示合并成一行。由于训练数据的标签Y已知，权重可由公式W＝A^-1Y计算得到。

本发明相比现有技术，具有以下有益效果：

本发明提出得基于混沌博弈算法的miRNA-疾病相关性预测方法，该方法是利用混沌博弈的方法获取序列样本集的特征值，使计算数据集的任务量大为减少，也节省了成本。本发明能够利用宽度学习的方法构建模型，大大提高了预测精度，能够得到比较好的预测效果。本发明方法计算代价低，功耗小。可以有效地预测miRNA-疾病相关性，预测效果可以达到93％以上。

附图说明

图1为本发明实施例预测方法的流程图。图中，

miRNA sequence：miRNA序列

MISIM dababase：MISIM数据库

HMDD V3.0dataset：HMDD V3.0数据库

MeSH database：MeSH数据库

known miRNA-disease associations(A)：已知的miRNA-疾病关系对矩阵

miRNAfunctional similarity(RF)：miRNA功能相似度矩阵

Gaussian interaction profile kernel similarity for miRNA(GR)：miRNA高斯相似度矩阵

Gaussian interaction profile kernel similarity for diseases(GD)：疾病高斯相似度矩阵

Numerical miRNA sequence information(RSeq)：数值化的miRNA序列信息矩阵

integrate similarity for miRNA(RSim)：整合的miRNA相似度矩阵

integrate similarity for disease(RSim)：整合的疾病相似度矩阵

Disease semantic similarity(SV)：疾病语义相似度

Fusion of multi-source features：融合多源数据

p Additional Enhancement Nodes:增加的增强节点

Enhancement Nodes：增强节点

Final-class：最后分类

strong classifier to predict potential miRNA-disease association withhigh accuracy：用强分类器预测潜在miRNA-疾病关系对

图2为混沌博弈表示图。

图3为频率矩阵示意图。

图4为本发明-实施例预测结果ROC对比图。

图5为图4中预测结果ROC在0.8-1区间的局部放大示意图。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

一种基于混沌博弈算法的miRNA-疾病相关性预测方法，如图1所示，包括数据集的选择与建立，疾病语义相似矩阵、疾病高斯相似矩阵、miRNA高斯相似矩阵的生成，相似矩阵的融合，混沌博弈算法提取特征值，训练集和测试集的构建，分类器模型构建步骤完成，该方法是利用混沌博弈算法处理序列样本集的特征并得到特征值，使数据集的信息量大为增加。本发明能够利用宽度学习的方法构建模型，大大提高了预测精度，能够得到比较好的预测效果。本发明方法计算代价低，功耗小。具体包括以下步骤：

步骤a、数据集的选择与建立：利用HMDD v3.0等数据库中的数据集构建预测miRNA-疾病相关性的数据集。

miRNA-疾病相关性的数据集包括阳数据集和阴数据集，阳数据集是miRNA-疾病对在HMDD v3.0数据库中筛选后得到的(32226条)，阴数据集是在排除阳数据集miRNA-疾病对后所有可能的miRNA-疾病对中随机抽取(32226条)得到的，阴数据集中的所有miRNA和疾病均出现在HMDD v.3.0中。

根据HMDD v3.0数据库提供的关系矩阵和步骤a得到的miRNA-疾病相关性的数据集，通过下式分别计算得到一个850×850的疾病高斯相似度矩阵和一个1057×1057的miRNA高斯相似度矩阵，其公式为：

KD(d(a),d(b))＝exp(-γ_d*||IP(d(a))-IP(d(b))||²)

KM(m(a),m(b))＝exp(-γ_d*||IP(m(a))-IP(m(b))||²)

其中

步骤c、语义相似度矩阵的生成：每个疾病都可以根据美国国家医学图书馆数据库网站下载的MeSH主题词构建出对应有向无环图，根据每个疾病的有向无环图得到所有疾病的两个850×850的疾病语义相似度矩阵，其公式为：

语义相似矩阵1：

语义相似矩阵2：

其中疾病相似度矩阵和miRNA相似度矩阵计算公式如下：

将得到的疾病相似度矩阵(850×850)与miRNA相似度矩阵1057×1057)根据HMDDv3.0提供的关系矩阵进行拼接，得到32226×1907阳性特征集，在随机抽取相同数量的未证实的关系对，将疾病相似度矩阵与miRNA相似度矩阵拼接成32226×1907阴性特征集。

步骤e、利用混沌博弈提取miRNA序列特征值：将每一条miRNA序列通过混沌博弈提取特征，形成一个64维的混沌博弈谱，并根据混沌博弈谱通过相关系数计算得到miRNA序列相似度矩阵。

CGR_i＝CGR_i-1+θ*(CGR_i-1-g_i)

其中，CGR_i表示，i表示，CGR_i-1表示，θ表示，g_i表示。

举例：hsa-mir-135的序列为AGGCCUCGCUGUUCUCUAUGGCUUUU

UAUUCCUAUGUGAUUCUACUGCUCACUCAUAUAGGGAUUGGAGCCGUGGCGCACGGCGGGGACA

得到混沌博弈表示图，如图2所示。

根据混沌博弈表示图计算得到频率矩阵，如图3所示。

将得到的频率矩阵与其他频率矩阵计算相关系数得到1057×1057的miRNA序列相似度矩阵，再根据阴、阳性特征集得到64452×1057的序列特征向量，使得miRNA与其序列特征一一对应。

步骤f、奇异值分解方法降维：利用奇异值分解方法分别将阳性特征集、阴性特征集、miRNA序列相似度矩阵降低到32维，以去除噪音因素的影响。可以得到阳性特征集为32226×32，阴性特征集为32226×32，miRNA序列相似度矩阵为64452×32。再将阴、阳数据集和miRNA序列相似度矩阵进行拼接得到新的阳性特征集(32226×64)和新的阴性特征集(32226×64)。

步骤h、训练集和测试集的构建：在HMDD v3.0数据集上，分别以数量比为4:1的比例随机切割步骤g得到的最终的数据集，其中4/5作为训练集，1/5作为测试集，然后利用5折交叉验证的方法进行五次切割并验证，分别以数量比为4:1的比例随机切割数据集5次，可以得到human数据集前4次的训练集为51562×64，测试集为12890×64，第5次的训练集为51560×64，测试集为12892×52。

所述步骤i中分类器模型的构建：

提供输入数据X并利用函数φ_i(XW_ei+β_ei)映射产生第i组映射特征Z_i，其中，W_ei是具有适当维度的随机权重系数，β_ei表示，给定记号Zⁱ≡[Z₁,…,Z_i]表示前i组所有映射特征，称为特征层。同样的，计算出第j组增强节点ξ_j(ZⁱW_hj+β_hj)被记为H_j，同时前j组所有增强节点被记为H^j≡[H₁,…,H_j]，称为增强层。并将特征层和增强层合并成A＝[Z|H]，竖线表示合并成一行。由于训练数据的标签Y已知，权重W可由公式W＝A^-1Y计算得到。

图4、5所示，为实施例预测结果ROC对比图，其结果如下表所示：

由图4、5以及上表可知，本发明可以有效地预测miRNA-疾病相关性，预测效果可以达到91％以上(ROC)。解决了预测miRNA是否与疾病相关的问题。本发明最终采用的阴阳数据集其中的阳数据集是根据HMDD v.3.0提供的miRNA-疾病对筛选后得到的(32226条)，阴数据集是在排除阳数据集miRNA-疾病对后所有可能的miRNA-疾病对中随机抽取32226条，阴数据集中的所有miRNA和疾病均出现在HMDD v.3.0中，准确率可以达到91％以上，效果相当不错。而且，本发明在特征处理过程中，使用奇异值分解法降维去噪处理，对数据特征进行了优化，对特征向量维数进行控制，使得整个算法流程更加完整，移植性更高。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于混沌博弈算法的miRNA-疾病相关性预测方法，其特征在于，包括以下步骤：

步骤a、数据集的选择与建立：利用HMDD v3.0数据库中的数据集构建预测miRNA-疾病相关性的数据集；

步骤b、疾病高斯相似度矩阵和miRNA高斯相似度矩阵的生成：根据步骤a得到的miRNA-疾病相关性的数据集利用“两个功能相近的miRNA倾向于与表型相似的疾病存在关联，反之亦然”的假设，通过下式分别计算得到疾病高斯相似度矩阵、miRNA高斯相似度矩阵；

KD(d(a)，d(b))＝exp(-γ_d*||IP(d(a))-IP(d(b))||²)

KM(m(a)，m(b))＝exp(-γ_d*||IP(m(a))-IP(m(b))||²)

其中，KD(d(a)，d(b))表示疾病高斯相似度矩阵，d(a)表示疾病a，d(b)表示疾病b，a表示疾病序号，b表示疾病序号，γ_d表示疾病的核宽系数，nd表示疾病数量，d表示疾病，IP(d(a))表示邻接矩阵A的第a行向量，m(a)表示miRNA a，m(b)表示miRNA b，γ_m表示核宽系数，nm表示miRNA数量；

步骤c、语义相似度矩阵的生成：每个疾病根据MeSH主题词构建出对应有向无环图，根据每个疾病的有向无环图通过以下公式计算得到两个的语义相似度矩阵：

语义相似矩阵1：

其中，Δ是语义贡献度惩罚系数，D_d(t)表示某个疾病中疾病t的语义贡献度，t表示疾病t，D表示疾病D，D_d(t′)表示某个疾病中疾病t‘的语义贡献度，children of t表示疾病t的孩子节点，DV(D)表示疾病D的语义值，T_d表示一个节点包含疾病和他的祖先疾病，Sim1(d(i)，d(j))表示疾病i与疾病j的语义相似度1，T_d(i)表示一个节点包含疾病i和他的祖先疾病，i表示疾病序号，j表示疾病序号，D_d(i)(t)表示疾病i中疾病t的语义贡献度，D_d(j)(t)表示疾病j中疾病t的语义贡献度，DV(d(i))表示疾病i的语义值，DV(d(j))表示疾病j的语义值；

语义相似矩阵2：

其中，D2_d(t)表示某个疾病中疾病t的语义贡献度，number of DAGs including t表示所有包含疾病t的DAG图的数量，number of disease表示疾病数量，Sim2(d(i)，d(j))表示疾病i与疾病j的语义相似度2，D2_d(i)(t)表示疾病i中疾病t的语义贡献度，D2_d(j)(t)表示疾病i中疾病t的语义贡献度2；

步骤d、整合疾病相似度矩阵和miRNA相似度矩阵：疾病相似度矩阵以语义相似度矩阵为基础，其他矩阵空位由疾病高斯相似度矩阵填补，miRNA相似度矩阵以现有的miRNA功能相似度矩阵为基础，其他矩阵空位由miRNA高斯相似度矩阵填补，疾病相似度矩阵和miRNA相似度矩阵计算公式如下：

其中，SD(d(a)，d(b))表示整合后的疾病相似度矩阵，Sim1(d(a)，d(b))表示疾病a中疾病b的语义相似度1，Sim2(d(a)，d(b))表示疾病a中疾病b的语义相似度2，KD(d(a)，d(b))表示疾病高斯相似度矩阵，Sim1表示语义相似度1，Sim2表示语义相似度2，KD(d(a)，d(b))表示，SM(m(a)，m(b))表示整合后的miRNA相似度矩阵，FS(m(a)，m(b))表示，FS表示miRNA功能相似度矩阵，KM(m(a)，m(b))表示miRNA高斯相似度矩阵；

将得到的疾病相似度矩阵与miRNA相似度矩阵根据HMDD v3.0提供的关系矩阵进行拼接，得到阳性特征集，在随机抽取相同数量的未证实的关系对，将疾病相似度矩阵与miRNA相似度矩阵拼接成阴性特征集；

步骤e、利用混沌博弈提取miRNA序列特征值：利用混沌博弈提取miRNA序列特征值：将每一条miRNA序列通过混沌博弈提取特征，形成一个64维的混沌博弈谱，公式如下：

CGR_i＝CGR_i-1+θ*(CGR_i-1-g_i)

其中，CGR_i表示第i个核苷酸，i表示核苷酸序号，CGR_i-1表示第i-1个核苷酸，θ表示惩罚系数，g_i表示核苷酸系数；

根据混沌博弈表示图计算得到频率矩阵，将得到的频率矩阵与其他频率矩阵计算相关系数得到miRNA序列相似度矩阵，再根据阴、阳性特征集得到序列特征向量，使得miRNA与其序列特征一一对应；

步骤f、奇异值分解方法降维：利用奇异值分解方法分别将阳性特征集、阴性特征集、miRNA序列相似度矩阵降低到32维，以去除噪音因素的影响；

步骤g、整合数据集：将降32维的阳性特征集和阴性特征集与降至32维的miRNA序列相似度矩阵再次拼接得到最终的数据集；

步骤h、训练集和测试集的构建：在HMDD v3.0数据集上，分别以数量比为4∶1的比例随机切割步骤g得到的最终的数据集，其中4/5作为训练集，1/5作为测试集，然后利用5折交叉验证的方法进行五次切割并验证；

2.根据权利要求1所述基于混沌博弈算法的miRNA-疾病相关性预测方法，其特征在于：步骤a中的miRNA-疾病相关性的数据集包括阳数据集和阴数据集，阳数据集是miRNA-疾病对在HMDD v3.0数据库中筛选后得到的，阴数据集是在排除阳数据集miRNA-疾病对后所有可能的miRNA-疾病对中随机抽取得到的。

3.根据权利要求2所述基于混沌博弈算法的miRNA-疾病相关性预测方法，其特征在于：所述步骤i中分类器模型的构建：

提供输入数据X并利用函数φ_i(XW_ei+β_ei)映射产生第i组映射特征Z_i，其中，W_ei是具有适当维度的随机权重系数，β_ei表示偏差值，给定记号Zⁱ≡[Z₁，...，Z_i]表示前i组所有映射特征，称为特征层；同样的，计算出第j组增强节点ξ_j(ZⁱW_hj+β_hj)被记为H_j，同时前j组所有增强节点被记为H^j≡[H₁，...，H_j]，称为增强层；并将特征层和增强层合并成A＝[Z|H]，竖线表示合并成一行；由于训练数据的标签Y已知，权重可由公式W＝A^-1Y计算得到。