CN108537005B

CN108537005B - 一种基于BPSO-KNN模型的关键lncRNA预测方法

Info

Publication number: CN108537005B
Application number: CN201810288364.2A
Authority: CN
Inventors: 郑相涵; 欧阳毅; 叶少珍
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2018-04-03
Filing date: 2018-04-03
Publication date: 2019-04-02
Anticipated expiration: 2038-04-03
Also published as: CN108537005A

Abstract

本发明涉及一种基于BPSO‑KNN模型的关键lncRNA预测方法，首先对lncRNA表达谱进行数据挖掘，依据不同疾病表达谱中lncRNA的表达比，分析相应lncRNA对不同类型疾病的影响；接着对LncRNA表达谱数据进行降维去燥、以及标准化处理；其次构建ML‑KNN预测结果评估模型来评价LncRNA粒子，并将评估值作为离散粒子群算法DPSO的适应度函数，用以指导DPSO中微粒的最优解；最后采用迭代法选择最终的LncRNA。本发明能够根据基因表达数据图谱，有效地预测出与癌症有关联的LncRNA。

Description

一种基于BPSO-KNN模型的关键lncRNA预测方法

技术领域

本发明涉及生物治疗领域，特别是一种基于BPSO-KNN模型的关键lncRNA预测方法。

背景技术

长链非编码RNA(long non-coding RNA，lncRNA)是一类转录本长度超过200nt、不编码蛋白的RNA。lncRNA起初被认为是基因组转录的“噪音”，不具有生物学功能。然而，近年来的研究表明LncRNA能在表观遗传、转录及转录后水平上调控基因表达，参与了X染色体沉默、基因组印记以及染色质修饰、转录激活、转录干扰、核内运输等多种重要的调控过程，与人类疾病的发生、发展和防治都有着密切联系,尤其在恶性肿瘤的发生发展过程中扮演着重要角色。随着基因芯片技术与高通量技术的飞速发展，LncRNA的研究作为RNA研究的新领域，已经成为一个新的研究热点。

癌症是一种复杂疾病，与多个基因的突变相关，包括表观遗传变异、染色体易位、基因缺失和拷贝数变异。非编码RNA(non-coding RNA，ncRNA)是一种具有基因组的编码域但大部分都没有翻译成蛋白质的新兴转录本，在各种细胞的生理功能中，ncRNAs扮演关键角色，特别是长非编码RNA(long non-coding RNA，lncRNA)，在染色质动力学、基因表达、细胞生长和分化调节中，lncRNA起着关键作用。肿瘤样本的全基因组关联研究已经确定了，大量lncRNAs与多种癌症有关，lncRNA表达量的改变及其突变促进肿瘤发生和转移，lncRNAs可能表现出肿瘤抑制和促进(致癌)的功能。由于它们的组织特异性表达特点,lncRNAs可以被作为新型生物标志物和治疗癌症的目标。

发明内容

有鉴于此，本发明的目的是提出一种基于BPSO-KNN模型的关键lncRNA预测方法，能够根据基因表达数据图谱，有效地预测出与癌症有关联的LncRNA。

本发明采用以下方案实现：一种基于BPSO-KNN模型的关键lncRNA预测方法，包括以下步骤：

步骤S1：对lncRNA表达谱进行数据挖掘，依据不同疾病表达谱中lncRNA的表达比，分析相应lncRNA对不同类型疾病的影响；

步骤S2：对LncRNA表达谱数据进行降维去噪、以及标准化处理；

步骤S3：构建ML-KNN预测结果评估模型来评价LncRNA粒子，并将评估值作为离散粒子群算法DPSO的适应度函数，用以指导DPSO中微粒的最优解；

本发明采用ML-KNN分类器来评价LncRNA粒子，评估值将作为DPSO的适应度函数，来指导DPSO中微粒的最优解。BPSO的自适应能力是无需对大量组合进行检索便可以找到最佳的lncRNA组合，极大地提高了搜索的效率。邻近算法(KNN)是一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。KNN算法中，所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。本发明中最终选择LncRNA的效果评判，同样由ML-KNN评估模型进行。

步骤S4：采用迭代法选择最终的LncRNA。

本发明采取的Wrapper方式由搜索算法(BPSO)和邻近算法(ML-KNN)两部分组成，搜索结果LncRNA集合将作为BPSO模型的搜索空间，第一次迭代中，首先初始微粒群体的速度与位置，每个微粒表示一个LncRNA粒子。同时赋予每个微粒和整个粒子群记忆能力，来记忆迭代过程中的个体最优解和群体最优解。依照ML-KNN分类返回来的验证集合的准确率评价各个微粒，并不断更新BPSO模型里微粒的速度与位置进而寻找全局优化解。

进一步地，所述步骤S2具体包括以下步骤：

步骤S21：将LncRNA表达谱数据的原始数据按照50％、30％、20％的比例分成训练集、测试集与验证集；对LncRNA表达谱数据的原始数据进行特征提取得到初始LncRNA集合；

其中，训练集是学习样本数据集，训练一些参数来构造一个分类器。验证集是对学习出来的模型，适当调整分类器的参数，如在神经网络中选择隐藏单元数。验证集还用来指导网络结构的参数。测试集是测试训练好的模型的泛化能力。所述分类器采用ML-KNN分类器。

步骤S22：采用信息增益率对初始LncRNA集合中的每个基因特征度量值进行评价，用以评判每个基因特征为系统带来的信息量大小；设定一阈值，评分低于该阈值的基因作为冗余基因去除，评分高于该阈值的基因子集则被保留用于分析或者二次过滤。

其中，信息增益是特征选择的一个重要指标。本发明采用信息增益率对每个特征度量值进行评价，评判每个特征为系统带来信息量的多少，依赖于与基因表达数据集本身有关的度量标准。评分低的基因将作为冗余基因被去除；而评分高的基因子集则被保留用于分析或者二次过滤。作用是能排除很大数量的非关键性的噪声，优化特征子集搜索范围，作为预处理步骤。信息增益率的计算公式如下：

Gain-ratio＝Gain(A)/I；

其中，Gain(A)按如下规则进行计算：

Gain(S,A)＝E(S)-E(S,A)；

其中，Gain表示信息增益，ratio表示信息增益率，Gain(A)表示A的信息增益，I表示信息函数，Gain(S,A)表示属性A对于样集S进行划分所获得的信息增益，E(S)表示S的信息熵，E(S,A)表示属性A对于样集S的信息熵，p_i表示发生概率，S表示一个样本数据集，S_v表示S样本集中特征A等于V的样本子集，E(S_v)表示S_v的信息熵。

进一步地，步骤S4具体包括以下步骤：

步骤S41：采用Wrapper的方式对步骤S22中评分高于阈值的基因子集进行搜索，并将搜索结果LncRNA集合作为BPSO模型的搜索空间；

步骤S42：初始微粒群体的速度与位置，每个微粒表示一个LncRNA粒子；

步骤S43：赋予每个微粒和整个粒子群记忆能力，用以记忆迭代过程中的个体最优解和群体最优解；

步骤S44：依照步骤S2中ML-KNN预测结果评估模型返回的验证集合的准确率评价各个微粒，并不断更新BPSO模型里微粒的速度与位置进而寻找全局优化解

进一步地，步骤S44中，所述BPSO在更新微粒的速度与位置时采用以下公式：

v_id(t+1)＝w·v_id(t)+c₁r₁[p_id(t)-x_id(t)]+c₂r₂[p_gd-x_id(t)]；

x_id(t+1)＝x_id(t)+v_id(t+1)；

其中，v_id(t+1)为下一时刻的微粒速度，v_id(t)为当前时刻的微粒速度，x_id(t+1)为下一时刻的微粒位置，x_id(t)为当前时刻的微粒位置。c₁为自身加速学习因子，c₂为全局加速学习因子，r₁、r₂表示的是概率参数，p_id表示的是个体最优位置，p_gd表示的是群体最优位置。

进一步地，所述步骤S44中还包括采用下式将微粒的速度与位置转化为二进制粒子：

较佳的，所述步骤S4具体的算法可以描述如下：

Step1：利用BPSO结合ML-KNN的Wrapper方法分析系统性能。筛选后将作为BPSO的搜索空间。随机初始化微粒群体的速度与位置，找到候选lncRNA子集。

Step2：根据ML-KNN分类器评价各个微粒，也就是各个LncRNA子集的适应度，根据微粒自身的个体最优解与群体最优解不断调节微粒的位置与速度，产生新一代粒子群。

Step3：到达预定次数，或者分类器达到某一精度，则得到最终的关键LncRNA子集并测试其准确率。否则回到Step2。

与现有技术相比，本发明有以下有益效果：本发明能够根据基因表达数据图谱，有效地预测出与癌症有关联的LncRNA。同时，本发明将机器学习融入到lncRNA领域，具有准确度高、运行速度快、以及具有较好的鲁棒性等特点。

附图说明

图1为本发明实施例的原理框架示意图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

如图1所示，本实施例提供了一种基于BPSO-KNN模型的关键lncRNA预测方法，包括以下步骤：

本实施例采用ML-KNN分类器来评价LncRNA粒子，评估值将作为DPSO的适应度函数，来指导DPSO中微粒的最优解。BPSO的自适应能力是无需对大量组合进行检索便可以找到最佳的lncRNA组合，极大地提高了搜索的效率。邻近算法(KNN)是一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。KNN算法中，所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。本发明中最终选择LncRNA的效果评判，同样由ML-KNN评估模型进行。

步骤S4：采用迭代法选择最终的LncRNA。

本实施例采取的Wrapper方式由搜索算法(BPSO)和邻近算法(ML-KNN)两部分组成，搜索结果LncRNA集合将作为BPSO模型的搜索空间，第一次迭代中，首先初始微粒群体的速度与位置，每个微粒表示一个LncRNA粒子。同时赋予每个微粒和整个粒子群记忆能力，来记忆迭代过程中的个体最优解和群体最优解。依照ML-KNN分类返回来的验证集合的准确率评价各个微粒，并不断更新BPSO模型里微粒的速度与位置进而寻找全局优化解。

在本实施例中，所述步骤S2具体包括以下步骤：

Gain-ratio＝Gain(A)/I；

其中，Gain(A)按如下规则进行计算：

Gain(S,A)＝E(S)-E(S,A)；

在本实施例中，步骤S4具体包括以下步骤：

在本实施例中，步骤S44中，所述BPSO在更新微粒的速度与位置时采用以下公式：

v_id(t+1)＝w·v_id(t)+c₁r₁[p_id(t)-x_id(t)]+c₂r₂[p_gd-x_id(t)]；

x_id(t+1)＝x_id(t)+v_id(t+1)；

在本实施例中，所述步骤S44中还包括采用下式将微粒的速度与位置转化为二进制粒子：

较佳的，在本实施例中，所述步骤S4具体的算法可以描述如下：

本实施例能够根据基因表达数据图谱，有效地预测出与癌症有关联的LncRNA。同时，本实施例将机器学习融入到lncRNA领域，具有准确度高、运行速度快、以及具有较好的鲁棒性等特点

以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。

Claims

1.一种基于BPSO-KNN模型的关键lncRNA预测方法，其特征在于：包括以下步骤：

步骤S4：采用迭代法选择最终的LncRNA；

其中，所述步骤S2具体包括以下步骤：

步骤S22：采用信息增益率对初始LncRNA集合中的每个基因特征度量值进行评价，用以评判每个基因特征为系统带来的信息量大小；设定一阈值，评分低于该阈值的基因作为冗余基因去除，评分高于该阈值的基因子集则被保留用于分析或者二次过滤；

其中，步骤S4具体包括以下步骤：

步骤S44：依照步骤S2中ML-KNN预测结果评估模型返回的验证集合的准确率评价各个微粒，并不断更新BPSO模型里微粒的速度与位置进而寻找全局优化解。

2.根据权利要求1所述的一种基于BPSO-KNN模型的关键lncRNA预测方法，其特征在于：步骤S44中，所述BPSO在更新微粒的速度与位置时采用以下公式：

v_id(t+1)＝w·v_id(t)+c₁r₁[p_id(t)-x_id(t)]+c₂r₂[p_gd-x_id(t)]；

x_id(t+1)＝x_id(t)+v_id(t+1)；

其中，v_id(t+1)为下一时刻的微粒速度，v_id(t)为当前时刻的微粒速度，x_id(t+1)为下一时刻的微粒位置，x_id(t)为当前时刻的微粒位置，c₁为自身加速学习因子，c₂为全局加速学习因子，r₁、r₂表示的是概率参数，p_id表示的是个体最优位置，p_gd表示的是群体最优位置。

3.根据权利要求2所述的一种基于BPSO-KNN模型的关键lncRNA预测方法，其特征在于：所述步骤S44中还包括采用下式将微粒的速度与位置转化为二进制粒子：