CN110046714A

CN110046714A - 基于多特征信息融合的长链非编码rna亚细胞定位方法

Info

Publication number: CN110046714A
Application number: CN201910229621.XA
Authority: CN
Inventors: 杜朴风; 杨晓飞
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-03-25
Filing date: 2019-03-25
Publication date: 2019-07-23

Abstract

本发明公开了一种基于多特征信息融合的长链非编码RNA的亚细胞定位方法，介绍了一种新颖的方法来对长链非编码RNA亚细胞位置进行预测。该方法通过将k‑mer组分与三元组结构‑序列融合起来将长链非编码RNA序列表示为向量，更加全面的利用了长链非编码RNA的序列与结构信息。为获取最优的特征子集，基于方差分析进行了特征选择。在留一法交叉验证实验中，本发明方法的准确率达到了92.38％，优于同类别算法。

Description

基于多特征信息融合的长链非编码RNA亚细胞定位方法

技术领域

本发明涉及生物信息学领域，具体涉及一种新的长链非编码RNA亚细胞定位方法。

背景技术

长链非编码RNA(long non-coding RNA,lncRNA)是一种长度超过200个核苷酸的转录本。起初他们被认为是基因组转录的“噪音”，没有生物功能。然而，近年来研究人员发现长链非编码RNA在多种细胞和生物进程中发挥着重大的作用，如细胞分化、细胞内转运、染色质修饰、mRNA剪接，转录以及转录后调控等。此外，长链非编码RNA的失调还与多种人类疾病相关，如心血管疾病、神经退行性疾病、肥胖症以及癌症。越来越多的证据表明长链非编码RNA的亚细胞位置对其生物学功能有非常大的影响。例如，出现在细胞质中的长链非编码RNA可能参与翻译或信号传导，而出现在细胞核中的长链非编码RNA则发挥着调控基因表达的作用。因此，确定长链非编码RNA的亚细胞位置十分重要。

近年来，通过实验的方法，越来越多关于长链非编码RNA亚细胞位置的信息被获取。与此同时，研究人员也构建了一系列长链非编码RNA相关的数据库，如RNALocate、LncATLAS 以及lncSLdb等。这些数据库的构建进一步加快了通过计算的方法来预测长链非编码RNA亚细胞位置的进程。近来，Cao等人[1]构建了一个集成的分类器，lncLocator，该分类器将四个分类器整合到一起，通过堆叠集成的策略来预测长链非编码RNA的亚细胞位置。随后，Su 等人[2]提出了一个新颖的分类工具，iLoc-lncRNA，该工具通过二项分布的方法来预测长链非编码RNA的亚细胞位置。然而，这两个分类器都仅仅基于长链非编码RNA的核苷酸组分，并没有考虑到长链非编码RNA的结构信息。因此，这两个分类器的预测能力会受到限制。

发明内容

本发明的目的是提供一种基于多特征信息融合的长链非编码RNA的亚细胞定位方法，以解决现有技术中分类器对长链非编码RNA的亚细胞位置预测不准确的问题。

本发明的技术方案为：一种基于多特征信息融合的长链非编码RNA的亚细胞定位方法，该方法包括以下内容：

1.数据集的构建

本发明中使用了Su论文[2]中提到的数据集。这一数据集来源于RANLocate数据库，网址是：http://www.rna-society.org/rnalocate/，筛选过程如下：

首先，只选取标注亚细胞位置的长链非编码RNA序列；其次，为避免过学习，去除在同一个数据子集中序列一致性大于80％的长链非编码RNA序列；最后Su等人[2]获取了655条长链非编码RNA序列。然而，我们发现其中有11条长链非编码RNA序列包含歧义符号。为保证基准数据集的质量，我们也排除了这些序列。由于本发明使用repRNA方法[3]来生成三元组结构-序列特征，该方法对序列的长度做了限制，因此我们排除了1条过长的序列。最终，我们获取了643条分布于4个不同亚细胞位置的长链非编码RNA序列，其中有153条长链非编码RNA位于细胞核，417条长链非编码RNA位于细胞质，43条长链非编码RNA位于核糖体以及30条长链非编码RNA位于外来体。我们也将最终获取的643条长链非编码RNA 的序列号和序列信息进行了共享，网址为：https://github.com/NicoleYXF/dataset643。

2.特征向量的构建

由于几乎所有现存的机器学习算法都只能处理向量，需要将长链非编码RNA表示为向量的形式。本发明中为了更加全面的利用长链非编码RNA的序列与结构信息，将长链非编码 RNA的k-mer组分(k-mer nucleotide composition)和三元组结构-序列(tripletstructure-sequence elements)融合起来形成特征向量。具体构建过程如下：

2.1K-mer组分

对一条长度为L的长链非编码RNA序列来说，k-mer组分指的是这条长链非编码RNA的所有长度为k的子序列。设计一个大小为k的滑窗，使其沿着长链非编码RNA序列以步长为1个核苷酸向前滑动，当滑窗中的长链非编码RNA子序列与第i个k-mer组分匹配时，将第i个k-mer组分对应的数量值，表示为ξ_i，加1。因此，特征向量的第一部分可以表示为：

其中，ψ_i代表第i个k-mer出现的频率，可以通过以下公式来计算：

2.2三元组结构-序列

三元组结构-序列是一种使用RNA序列的结构信息来表示序列的方法。在预测RNA二级结构的过程中，对于每一个核苷酸来说，只有两种状态：匹配或不匹配。当匹配时，采用左括号“(”或右括号“)”表示；当不匹配时，采用点“.”的形式表示。左括号“(”表示该核苷酸靠近5’端并能与靠近3’端的核苷酸匹配。右括号“)”表示该核苷酸靠近3’端并能与靠近5’端的核苷酸匹配。通常，我们不区分这两种情况，都用“(”来表示。对于任何三个相邻的核苷酸，都有8(2³)种可能的结构组成：“(((”,“((.”,“(..”,“(.(”,“.((”,“.(.”,“..(”以及“…”。考虑到三个相邻核苷酸的中间位置的核苷酸，总共有32(4×8)种可能的结构组成，在这里我们将其表示为g_A(″(((″)，g_U(″(((″)等。因此，三元组结构-序列可以将一条长链非编码RNA序列表示为：

V₂＝[g_A(″(((″)，g_A(″((.″)，...，g_A(″...″)，...，g_C(″(((″)，...，g_U(″...″)]^T (3)

其中，g表示对32种不同结构组成的出现次数进行归一化处理。本发明中三元组结构-序列特征是通过Liu等人[3]提出的repRNA方法获取的。

为了更加全面的利用长链非编码RNA的序列与结构信息，将k-mer组分与三元组结构序列融合起来，最终将长链非编码RNA表示为：

3.特征选择

由于特征向量中可能存在一些噪声或冗余信息，为选取最优的特征子集，采用了方差分析(analysis of variance，ANOVA)的方法。该方法通过计算每个特征的F-score来衡量该特征对分类器的重要性。第i个特征的F-score可以表示为：

其中，MS_b(i)表示组间方差，MS_w(i)表示组内方差，他们的计算公式如下：

其中，m_j代表位于第j个亚细胞位置的长链非编码RNA序列个数，φ_i(q，j)表示位于第j个亚细胞位置的第q个样本的第i个特征值。特征对分类器的重要性越大，该特征对应的F-score 值越大。

为了获取最优的特征子集，我们首先将所有的特征基于他们的F-score进行降序排序。之后，我们构建了一系列特征子集，定义如下：

Θ(n)＝{θ¹，...，θⁿ}，n∈[1，4^k+32] (8)

其中，θⁿ表示F-score值第n大的特征。由于支持向量机对数据的缩放比较敏感，因此在使用支持向量机来评估每个特征子集的性能之前，需要对特征子集进行特征缩放。应用scikit-leam 库中的MinMaxScaler方法将特征平移缩放到[0，1]。最后，我们进行预测，具有最高准确率的特征子集被视为最优特征子集。

4.支持向量机

支持向量机(support vector machine，SVM)是一种非常经典的有监督机器学习算法，能够解决生物信息学研究中的很多问题。针对非线性分类问题，它首先将输入的特征向量映射到高维的Hibert空间，之后在这一空间中寻找最优的分割超平面。采用scikit-leam库来实现支持向量机算法。为了建立一个最优的分类器，使用网格搜索方法来调整参数γ和C。γ和C的搜索空间分别为[2^-15，2³]和[2^-5，2¹⁵]。

5性能评估

交叉检验是一种最为常见的评估分类器泛化性能的统计方法。在计算生物学中通常使用独立测试集测试、子集抽样测试和留一法交叉验证这三种交叉验证方法对分类器的性能进行评估。其中，留一法交叉验证对于给定的输入数据能产生固定的结果，因此被认为是最为客观和有效的方法。然后，考虑到留一法交叉验证的时间复杂性太高，首先使用5折交叉验证来获取确定最优的参数γ和C，并获取最优的特征子集，然后使用留一法交叉验证来获取最终的评估结果。

采用4个指标来评估分类器的质量，包括：灵敏性(Sn)，特异性(Sp)，马修相关系数(MCC) 以及整体准确率(OA)。这些指标的定义如下：

其中，N⁺(i)表示位于第i个亚细胞位置的长链非编码RNA序列的总数目，表示位于第 i个亚细胞位置但被错误的预测为位于其他亚细胞位置的长链非编码RNA序列数。N^-(i)表示位于除第i个亚细胞位置外其它位置的所有长链非编码RNA序列的总数目，表示错误的被预测为位于第i个亚细胞位置的长链非编码RNA序列的总数目。δ是基准数据集中长链非编码RNA的总数目，是亚细胞位置的总数。

与此同时，采用ROC曲线(Receiver Operating Characteristic curve，ROCcurve)来衡量分类器的性能。横轴表示假正例率(False positive rate，也可表示为1-specificity)，纵轴表示真正例率(true positive rate，也可表示为sensitivity)。ROC曲线下方的面积，称为AUC(Area under the curve)，以数值的形式直观的反映了ROC曲线表达的分类器的分类性能。AUC的值越大，分类器的分类性能越好。

本发明的有益效果：

本发明介绍了一种新颖的方法来对长链非编码RNA亚细胞位置进行预测。该方法通过将 k-mer组分与三元组结构-序列融合起来将长链非编码RNA序列表示为向量，更加全面的利用了长链非编码RNA的序列与结构信息。为获取最优的特征子集，我们基于方差分析进行了特征选择。在留一法交叉验证实验中，我们方法的准确率达到了92.38％，优于同类别算法。

附图说明：

图1是本发明方法的整体流程图；

图2是使用5折交叉验证进行特征选择的过程中，特征数目与整体准确率之间的关系图；

图3是针对4个不同类别的ROC曲线；

图4是针对分类器整体的ROC曲线。

具体实施方式：

下面将结合附图对本发明作进一步详细的描述。

参见图1，本发明主要包括5部分，(i)构建基准数据集。通过对RNALocate数据库中的数据进行筛选，获取到643条位于不同亚细胞位置的长链非编码RNA序列。(ii)构建特征向量。通过将长链非编码RNA的k-mer组分与三元组结构-序列融合起来形成特征向量，更加全面的利用了长链非编码RNA的序列与结构信息。由于8-mer组分有独特的进化机制，因此，参数k取值为8，至此，我们可将一条长链非编码RNA序列表示为(4⁸+32)维的特征向量。(iii)特征选择。采用了方差分析的方法，选取最优的特征子集。(iv)应用机器学习算法。选择支持向量机来进行预测。(v)评估分类器性能。采用4个指标以及ROC曲线与AUC值来评价分类器性能。

参见图2，展示了使用5折交叉验证进行特征选择的过程。横轴表示特征数目，纵轴表示整体准确率，当选择14100维特征向量时，准确率达到最大，为90.05％。

参见图3，展示了针对4个不同类别的ROC曲线。具体来说，对于特定的类别，我们将多分类问题简化为二分类问题。如我们可以将位于细胞核的长链非编码RNA视为一类，将位于其它位置的长链非编码RNA视作另一类，利用本发明所提出的分类器对该二分类问题进行预测，进而绘制ROC曲线并计算AUC值，结果表明我们所提出的算法针对各个类别的预测均非常有效。

参见图4，为了体现分类器的整体性能，我们绘制了macro-average ROC曲线。Macro-average ROC曲线是对图3所取得的4条ROC曲线横轴不变，纵轴相加取平均值的结果，AUC结果表明我们提出的算法是可行的。

参见表1，是本发明中的算法与已有算法的实验结果对比。从图中我们可以看出，我们的方法比iLoc-lncRNA[2]方法在留一法交叉验证所获取的整体准确率上高了4.2％，并且各个类别所对应的灵敏性与马修相关系数均高于iLoc-lncRNA方法，这表明我们的算法是非常有效的。

表1

以上对本发明做了示例性的描述，应该说明的是，在不脱离本发明的核心的情况下，任何简单的变形、修改或者其他本领域技术人员能够不花费创造性劳动的等同替换均落入本发明的保护范围。

参考文献：

[1]Cao Z,Pan X,Yang Y,et al.The lncLocator:a subcellular localizationpredictor for long non-coding RNAs based on a stacked ensemble classifier[J].Bioinformatics,2018,34(13): 2185-2194.

[2]Su Z D,Huang Y,Zhang Z Y,et al.iLoc-lncRNA:predict the subcellularlocation of lncRNAs by incorporating octamer composition into general PseKNC[J].Bioinformatics,2018,34(24): 4196-4204.

[3]Liu B,Liu F,Fang L,et al.repRNA:a web server for generatingvarious feature vectors of RNA sequences[J].Molecular Genetics and Genomics,2016,291(1):473-481.

Claims

1.一种基于多特征信息融合的长链非编码RNA的亚细胞定位方法，其特征在于，包括如下步骤：

(1)构建基准数据集；通过对RNALocate数据库中的数据进行筛选，获取到643条位于不同亚细胞位置的长链非编码RNA序列；

(2)构建特征向量；通过将长链非编码RNA的k-mer组分与三元组结构-序列融合起来形成特征向量，更加全面的利用了长链非编码RNA的序列与结构信息；由于8-mer组分有独特的进化机制，因此，参数k取值为8，至此，可将一条长链非编码RNA序列表示为(4⁸+32)维的特征向量；

(3)特征选择；采用了方差分析的方法，选取最优的特征子集；

(4)应用机器学习算法；选择支持向量机来进行预测；

(5)评估分类器性能；采用4个指标以及ROC曲线与AUC值来评价分类器性能。

2.根据权利要求1所述基于多特征信息融合的长链非编码RNA的亚细胞定位方法，其特征在于，所述步骤(2)构建特征向量具体步骤为：

(1)K-mer组分；对一条长度为L的长链非编码RNA序列来说，k-mer组分指的是这条长链非编码RNA的所有长度为k的子序列；设计一个大小为k的滑窗，使其沿着长链非编码RNA序列以步长为1个核苷酸向前滑动，当滑窗中的长链非编码RNA子序列与第i个k-mer组分匹配时，将第i个k-mer组分对应的数量值，表示为ξ_i，加1；因此，特征向量的第一部分可以表示为：

(2)三元组结构-序列可以将一条长链非编码RNA序列表示为：

V₂＝[g_A(″(((″)，g_A(″((.″)，...，g_A(″...″)，...，g_C(″(((″)，...，g_U(″，...″)]^T (3)

其中，g表示对32种不同结构组成的出现次数进行归一化处理；

3.根据权利要求1所述基于多特征信息融合的长链非编码RNA的亚细胞定位方法，其特征在于，所述步骤(3)方法通过计算每个特征的F-score来衡量该特征对分类器的重要性；第i个特征的F-score可以表示为：

其中，m_j代表位于第j个亚细胞位置的长链非编码RNA序列个数，φ_i(q，j)表示位于第j个亚细胞位置的第q个样本的第i个特征值；特征对分类器的重要性越大，该特征对应的F-score值越大；

为了获取最优的特征子集，首先将所有的特征基于他们的F-score进行降序排序；之后，构建一系列特征子集，定义如下：

Θ(n)＝{θ¹，...，θⁿ}，n∈[1，4^k+32] (8)

其中，θⁿ表示F-score值第n大的特征；由于支持向量机对数据的缩放比较敏感，因此在使用支持向量机来评估每个特征子集的性能之前，需要对特征子集进行特征缩放；应用scikit-learn库中的MinMaxScaler方法将特征平移缩放到[0,1]；最后进行预测，具有最高准确率的特征子集被视为最优特征子集。

4.根据权利要求1所述基于多特征信息融合的长链非编码RNA的亚细胞定位方法，其特征在于，所述步骤(4)采用scikit-learn库来实现支持向量机算法；为了建立一个最优的分类器，使用网格搜索方法来调整参数γ和C；γ和C的搜索空间分别为[2^-15,2³]和[2^-5,2¹⁵]。

5.根据权利要求1所述基于多特征信息融合的长链非编码RNA的亚细胞定位方法，其特征在于，所述步骤(4)首先使用5折交叉验证来获取确定最优的参数γ和C，并获取最优的特征子集，然后使用留一法交叉验证来获取最终的评估结果；

所述4个指标为灵敏性(Sn)，特异性(Sp)，马修相关系数(MCC)以及整体准确率(OA)；这些指标的定义如下：

其中，N⁺(i)表示位于第i个亚细胞位置的长链非编码RNA序列的总数目，表示位于第i个亚细胞位置但被错误的预测为位于其他亚细胞位置的长链非编码RNA序列数；N^-(i)表示位于除第i个亚细胞位置外其它位置的所有长链非编码RNA序列的总数目，表示错误的被预测为位于第i个亚细胞位置的长链非编码RNA序列的总数目；δ是基准数据集中长链非编码RNA的总数目，ζ是亚细胞位置的总数。