CN115295079A

CN115295079A - 基于元图学习的长链非编码rna亚细胞定位预测方法

Info

Publication number: CN115295079A
Application number: CN202210064104.3A
Authority: CN
Inventors: 蔡俊哲; 刘琳; 唐麟
Original assignee: Yunnan Normal University
Current assignee: Yunnan Normal University
Priority date: 2022-01-20
Filing date: 2022-01-20
Publication date: 2022-11-04

Abstract

本发明公开了一种基于元图学习的长链非编码RNA亚细胞定位预测方法包括以下5步骤：构建lncRNA亚细胞定位预测训练数据集；平衡数据集中不同类别之间样本的数量；将数据集中的向量数据构建成图结构；使用图卷积神经网络GCN和模型不可知元学习MAML结合的算法对lncRNA亚细胞定位进行预测；评价指标。本发明除了利用lncRNA的序列信息，还能够通过GCN自动捕获lncRNA序列之间的关联信息。利用MAML的训练方式，能够从若干个任务中提取出元参数让分类器快速学会对其它相似任务的分类能力，有效地解决了在以往技术中用深度学习预测lncRNA亚细胞定位准确率不高的问题。在10折交叉验证实验中，我们方法在4分类和5分类数据集中准确率达到了94.2%和93.4%，优于同类别算法。

Description

基于元图学习的长链非编码RNA亚细胞定位预测方法

技术领域

本发明涉及生物信息学领域，特别是基于元图学习的长链非编码RNA亚细胞定位预测方法。

背景技术

人类基因组中有超过98％的基因序列不能编码成蛋白质，这些基因序列被称作非编码DNA，而大量非编码DNA会被转录为无编码蛋白能力的RNA，这些不能编码蛋白的RNA被称为非编码RNA(ncRNA)。ncRNA根据其分子链长度进一步可以划分为两类：分子链长度小于200个核苷酸的短链非编码RNA(sncRNA)和分子链长度超过200个核苷酸的长链非编码RNA(lncRNA)。在过去的一段时间，lncRNAs最初被认为是基因组转录的“噪音”，是RNA聚合酶II转录的副产物，不具有生物学功能。然而,越来越多的研究表明lncRNA参与了很多生物功能。另外，lncRNAs的异常行为导致多种癌症的形成比如阿尔茨海默病、亨廷顿病和心血管疾病等。如果我们对lncRNA的功能有更好了解，将促进我们对特定细胞的细胞发育和生理的理解，且多项研究表明，它高度依赖于lncRNA在细胞内的位置。所以，识别lncRNA亚细胞位置非常重要。

目前lncRNA亚细胞定位相关的数据库主要有：RNALocate、LncATLAS和lnncsldb。关于预测lncRNA亚细胞定位的实验方法，主要有两种。一种是生化实验，这种实验的优势是定位结果十分精确，但同时也有耗时、昂贵的劣势；所以近十年来越来越多的研究人员尝试用第二种方法(生物信息方法)寻找突破口，后者有着省时、效率高、稳定的优势。目前，使用生物信息方法对蛋白质的亚细胞定位进行预测，已经能够达到较高的准确率。受此启发，近三年已经开始有研究人员使用生物信息方法对lncRNA亚细胞定位进行预测。比如Zhen C等人在《a subcellular localization predictor for long non-coding RNAs based on astacked ensemble classifier》提出了lncLocator，用堆叠集成的方式将4个分类器整合到一起，进而预测lncRNA的亚细胞位置；还有Su等人在《predict the subcellularlocation of lncRNAs by incorporating octamer composition into general PseKNC》提出了iLoc-lncRNA；Aa A等人在《Subcellular localization of long non-coding RNAsusing nucleotide compositions》提出了Locate-R；Xiao-Fei Yang等人在《PredictingLncRNA Subcellular Localization Using Unbalanced Pseudo-kNucleotideComposition》的论文；Gudenas等人在《Prediction of LncRNA SubcellularLocalization with Deep Learning from Sequence Features》提出了DeepLncRNA；Yang等人在《a cell-line-specific subcellular localization predictor for long non-coding RNAs with interpretable deep learning,Bioinformatics》提出了lncLocator2.0；Fan等人在《Predicting LncRNA Subcellular Localization Using MultipleSequence Feature Information》提出了lncLocPred。这些分类器所用的方法主要分两种：传统机器学习和深度学习。其中，传统机器学习的方法相较于能够自动提取高级特征的深度学习来说并没有优势。然而，目前构建的lncRNA数据集的数据量比较少，导致深度学习的效果反而没有传统机器学习的效果好。

发明内容

本发明的目的在于提供一种基于元图学习的lncRNA亚细胞定位预测方法。以解决现有技术中分类器用深度学习方法对lncRNA亚细胞定位预测不准确的问题。

本发明所述的基于元图学习的lncRNA亚细胞定位预测算法GM-lncLoc，其整体流程图如图1，通过以下技术方案实现：

Step1、构建lncRNA亚细胞定位预测训练数据集

本发明中使用的数据集是Zhen C等人的《a subcellular localizationpredictor for long non-coding RNAs based on a stacked ensemble classifier》论文中的数据集。这个数据集的来源是RNALocate数据库，通过对样本合并多个亚细胞位置、清洗序列信息、删除冗余度在80％以上等筛选步骤后，得到包含位于5个亚细胞区域的612条序列信息，参照表1的数据集1。

在此数据集的基础上，我们为了减少信息冗余和噪声，进一步删除了11条包含歧义符号的序列和1条长度为91671的序列。然后，我们得到600条分布于5个不同亚细胞位置的lncRNA序列，其中292条lncRNA位于细胞质，149条lncRNA位于细胞核，91条lncRNA位于细胞质基质，43条lncRNA位于核糖体，25条位于外泌体，参照表1的数据集2。接着，从lncRNA序列中提取k-mer频率向量作为lncRNA序列的初级特征，具体如下：

假设lncRNA序列表示为：R＝N₁N₂N₃...N_L-1N_L。

其中，N_i表示四个核苷酸碱基之一，A,C,G和T；i表示碱基N_i在lncRNA序列中的位置；L表示lncRNA序列的长度，即核苷酸碱基的个数。k-mer中k的取值代表核苷酸片段的长度，得到的片段为N₁N₂...N_k，其中每个N_i都有4种核苷酸碱基的可能，故整个片段就有4^k种不同的组合。然后沿着lncRNA序列以步长为1个核苷酸向前滑动，并计算整条lncRNA序列中对应4^k种不同组合的个数，得到k-mer频次向量，记为

最后对所有lncRNA序列的k-mer频次向量做归一化，得到k-mer频率向量，记为

其中，

最终，所有k-mer频率向量构成数据集，该数据集类别标签分为|C|个种类，如表1所示，本发明的数据集中|C|的取值是5。

表1：本发明中用于训练的lncRNA亚细胞定位数据集

Step2、平衡数据集中不同类别之间样本的数量

参照表1的数据集2，可以看到数据非常不平衡，而且数据量非常少。位于外泌体的lncRNA仅有25条，占整个数据集的4.17％；而位于细胞质的lncRNA却有292条，占了数据集约48.7％。后者几乎是前者的12倍，这种比例的数据集对于预测模型来说是及其不利的，特别是基于统计学习的分类算法，往往会更倾向于数据量比较多类别。所以在我们的发明中，采用合成少数类过采样技术(SMOTE)来平衡数据集。SMOTE是基于随机过采样算法的一种改进算法，它的基本思想是对少数类样本进行分析并根据少数类样本人工合成新样本添加到数据集中，以达到类别之间样本的数量平衡。首先，计算少数类中所有样本的欧氏距离，然后为少数类的每一个样本随机选取若干个近邻样本，接着根据需要采样的数量，反复用以下公式构建新样本

其中，x表示少数类中的样本，

表示x的近邻样本，α表示0到1之间的随机数。最终得到的数据集参照表1的数据集3。

Step3、将数据集中的向量数据构建成图结构

构建图结构就是修改lncRNA序列的初级特征的数据格式为图数据的过程，其目的是使数据能够应用于图神经网络，同时让分类器能够从非欧式空间的视角提取数据的信息。合适的图结构能够帮助图神经网络聚合更加有效的邻居节点信息。构建的图由三部分组成，节点集V、特征集X和边集E。构建步骤如下：

Step3-1、将每条lncRNA序列提取出来的初级特征表示为一个节点，构成节点集V＝{v₁,v₂,…,v_n}；

Step3-2、将每条lncRNA序列提取出来的初始特征表示为对应节点的初始特征，构成特征集X＝{x₁,x₂,…,x_n}；

Step3-3、计算节点集中各条lncRNA序列提取出来的初级特征之间的余弦相似度S，当两个初级特征(节点)v_i和v_j之间的余弦相似度S_i,j超过某个阈值λ时，为这两个初级特征(节点)建立一条边，即e_i,j＝1；否则e_i,j＝0。其中，

λ是一个超参数。需要注意，步骤1和步骤2中的节点集和特征集所用的初始特征可以用不同方法从lncRNA序列中提取。但是在我们的实验过程中，我们发现当节点集和特征集都用k-mer的时候，GM-lncLoc的性能最好。另外说明一点，最后构建完成的图可以有孤立节点，并不要求是连通图。

Step4、使用图卷积神经网络(GCN)和模型不可知元学习(MAML)结合的算法对lncRNA亚细胞定位进行预测

把lncRNA亚细胞定位问题中的数据置于图结构之后，还存在lncRNA数据样本少的问题。受Kexin Huang等人发表的《Graph meta learning via local subgraphs》论文的启发，本发明在预测lncRNA亚细胞定位时，将GCN和MAML结合起来，也就是将MAML的训练模式应用到GCN模型的训练中，在该发明中我们称这种训练方式为元图学习。GCN是一种半监督学习的图神经网络，可以应用于节点分类和链接预测等任务。MAML是元学习领域中性能较好的模型，主要研究如何从一系列任务中学习到元参数，以快速学习新任务的参数。由于MAML的训练是基于任务的，其任务需要反复地从数据集中抽取样本来构建。故为了适应MAML的训练模式，首先需要为图结构中每个节点抽取出它们的局部图。算法流程图如图2，具体步骤如下：

Step4-1、抽取局部图：把为lncRNA序列构建好图数据记为G＝(V，E，X)，把图G中每个节点{v₁，v₂，...，v_n}及其邻居节点抽取出来，构成n个节点对应的子图{G₁，G₂，...，G_n}。其中G_i∈G表示第i个节点的局部图，G_i＝{V_i，E_i，X_i}；V_i＝{v_i}∪{v_j∈V|e_i，j＝1}；E_i＝{e_i，j∈E|e_i，j＝1}；X_i＝{x_i}∪{x_j∈X|e_i，j＝1}；

Step4-2、划分数据集：首先根据10折交叉验证法将数据集D＝{G₁，G₂，...，G_n}切分为D_train＝{G_a，...，G_o}、D_val＝{G_b，...，G_p}和D_test＝{G_c，...，G_q}3个数据集，且满足条件：

然后按照MAML的方式从D_train中反复随机选取|C|×(k_support+k_query)个样本G_i组成m个任务T_train＝{T₁，T₂，...，T_m}，其中|C|表示类别标签数量，k_support，k_query and m是超参数；D_val和D_test中的样本分别组成单个任务T_val和T_test；最后将每个任务T_i进一步划分为支持集和查询集，分别记为T_i-support和T_i-query；

Step4-3、元训练：先将T_train中m个任务的T_{train-support}分别放到m个初始参数为θ的GCN(即f_θ)中训练，分别更新后得到m个对应的参数{θ₁，θ₂，...，θ_m}；然后用T_train中m个任务的T_train-query和

计算总损失进而更新θ，最后得到元参数θ′；

Step4-4、元测试：利用T_test中的T_test-support微调以元参数θ′为初始参数的GCN(即f_θ′)，然后用T_test-query来评估f_θ′的性能。

实际训练的过程中，可以在Step4-4的元测试之前用T_val的数据来验证模型，进而调整超参数。

Step5、评价指标

为了更加客观地评价GM-lncLoc的性能，我们用10折交叉验证方法评估了GM-lncLoc的以下几个指标，除了常用的准确率(Acc)，还包括了精确度(P)、召回率(R)和分数F1(F1)。

其中TP，FP和FN分别代表预测结果中的真正例，假正例和假反例，|C|表示类别标签的种类数量，i代表具体某个标签。

与现有技术相比，本发明具有如下的有益效果：

1、本发明除了利用lncRNA的序列信息，还能够通过GCN自动捕获lncRNA序列之间的关联信息。

2、利用MAML的训练方式，能够从若干个任务中提取出元参数让分类器快速学会对其它相似任务的分类能力，有效地解决了在以往技术中用深度学习预测lncRNA亚细胞定位准确率不高的问题。

3、在10折交叉验证实验中，我们方法在4分类和5分类数据集中准确率达到了94.2％和93.4％，优于同类别算法。

附图说明：

图1为：本发明所提出的GM-lncLoc算法的整体流程图；

图2为：基于图卷积神经网络(GCN)和模型不可知元学习(MAML)结合的算法流程图；

图3为：在局部图中不同层数邻居节点的性能对比图；

图4为：图卷积神经网络是否以元参数为初始参数的训练时长对比图；

具体实施方式

下面结合具体实施方式对本发明做进一步详细描述。

参照图1，本发明先对Zhen C等人在《a subcellular localization predictorfor long non-coding RNAs based on a stacked ensemble classifier》论文中的数据集进行初步筛选，得到600条lncRNA序列。然后提取序列的7-mer频率向量(16384维)，作为序列的初级特征。考虑到数据集的不平衡性，用SMOTE对数据集进行重采样，最终得到1460条数据，其中每一个类都有292条数据。接着计算这1460个向量之间的余弦相似度，设置阈值λ为0.42，当两个向量之间的余弦相似度大于0.42时，为其构建一条边。以此方法构建得到图结构，该图结构包含1460个节点和69892条边。进一步，为图结构中每个节点抽取局部图，进而得到1460个局部图。再将1460个局部图按照10折交叉验证的方法分为训练集、验证集和测试集。进一步，将训练集中的局部图放到图卷积神经网络(GCN)和模型不可知元学习(MAML)相结合的算法中进行训练，训练过程中用验证集的数据做测试以调整超参数。最后用训练好的模型对测试集的数据做预测，并计算其准确率、召回率和F1分数。在基于图卷积神经网络(GCN)和模型不可知元学习(MAML)相结合的模型部分，本发明在图卷积神经网络中，epoch设置为15，batchsz设置为1000，隐藏层数量设置为1，隐藏层的神经元个数设置为256。在模型不可知元学习中，k_support设置为5，k_query设置为10。

参照表2，展示了k-mer频率向量中k值的选择过程。当k值为7时，7-mer频率向量的维度是16384，准确率达到最大，为93.4％。

表2：k-mer频率向量中不同k值的性能对比

参照图3，对比了在抽取局部图时，选取1层邻居节点和前2层邻居节点的效果。横轴表示邻居节点层数，左纵轴表示准确率，右纵轴表示内存消耗。虽然选取1层邻居节点作为局部图的效果只比取前2层的稍微好一点，后者消耗的内存却是前者的两到三倍。

参照表3，为了体现图卷积神经网络(GCN)结合了模型不可知元学习(MAML)之后的效果，在实验过程中还与单独的图卷积神经网络算法做对比，前者的准确率比后者提高了40％左右。

表3：图卷积神经网络(GCN)是否结合模型不可知元学习(MAML)的性能对比

参照图4，在实验中我们用模型不可知元学习(MAML)得到的元参数作为元测试任务的初始参数时，只需要大约34.4秒就可以完成训练，而单独用图卷积神经网络完成训练则需要325.3秒左右，所花费的时间将近是利用元参数训练的9.5倍，说明我们的方法所得到的元参数可以大大提高训练的效率。

参照表4和表5，是本发明中的算法与已有算法的实验结果对比。从表中可以看出，本发明的算法在5分类数据集中，准确率比Zhen C等人在《a subcellular localizationpredictor for long non-coding RNAs based on a stacked ensemble classifier》提出的方法提高了34.3％左右。另外，在4分类的数据集中，准确率也比目前最高的LncLocPred在论文《Predicting LncRNA Subcellular Localization Using MultipleSequence Feature Information》提高了1.8％左右。从而可以看出我们所提出的GM-lncLoc在lncRNA亚细胞定位预测中的有效性。在4分类数据集对比中，为了方便与其它方法对比，我们引入了其它评价指标，包括灵敏性(Sn)，特异性(Sp)，马修相关系数(MCC)。

表4：在5分类数据集中与其它方法的性能对比

表5：在4分类数据集中与其它方法的性能对比

综上，本发明所提出的基于元图学习的lncRNA亚细胞定位方法是一种全新的方法。一方面，我们为初始数据构建图结构，这是以往方法中未曾用到的；另一方面，我们结合了图神经网络和元学习，这样能够有效地在只有少量样本的情况下应用深度学习预测lncRNA亚细胞的位置，并且获得一组可以快速学习新任务的元参数。

以上所述，仅为本发明部分具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本领域的人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于元图学习的长链非编码RNA亚细胞定位预测方法，其特征在于：包括以下步骤：

Step1、构建lncRNA亚细胞定位预测训练数据集；

Step2、平衡数据集中不同类别之间样本的数量；

Step3、将数据集中的向量数据构建成图结构；

Step4、使用图卷积神经网络GCN和模型不可知元学习MAML结合的算法对lncRNA亚细胞定位进行预测；

Step5、评价指标。

2.根据权利要求1所述的一种基于元图学习的长链非编码RNA亚细胞定位预测方法，其特征在于：Step1中所述lncRNA亚细胞定位预测训练数据集是从lncRNA序列中提取k-mer频率向量作为lncRNA序列的初级特征，其中k的取值代表核苷酸片段的长度，该数据集类别标签分为|C|个种类。

3.根据权利要求1所述的一种基于元图学习的长链非编码RNA亚细胞定位预测方法，其特征在于：Step2中所述平衡数据集中不同类别之间样本的数量是采用合成少数类过采样技术SMOTE来平衡。

4.根据权利要求1所述的一种基于元图学习的长链非编码RNA亚细胞定位预测方法，其特征在于：Step3中所述构建的图由三部分组成，节点集V、特征集X和边集E。

5.根据权利要求1所述的一种基于元图学习的长链非编码RNA亚细胞定位预测方法，其特征在于：Step4中所述GCN和MAML结合的算法包括以下步骤：

Step4-1、抽取局部图：把为lncRNA序列构建好图数据记为G＝(V，E，X)，把图G中每个节点{v₁，v₂，...，v_n}及其邻居节点抽取出来，构成n个节点对应的子图{G₁，G₂，...，G_n}。其中G_i∈G表示第i个节点的局部图。

Step4-2、划分数据集：首先根据10折交叉验证法将数据集D＝{G₁，G₂，...，G_n}切分为D_train＝{G_a，...，G_o}、D_val＝{G_b，...，G_p}和D_test＝{G_c，...，G_q}₃个数据集，且满足条件：

然后按照MAML的方式从D_train中反复随机选取|C|×(k_support+k_query)个样本G_i组成m个任务T_train＝{T₁，T₂，...，T_m}，其中|C|表示类别数量，k_support，k_queryand m是超参数；D_val和D_test中的样本分别组成单个任务T_val和T_test；最后将每个任务T_i进一步划分为支持集和查询集，分别记为T_i-support和T_i-query；

Step4-3、元训练：先将T_train中m个任务的T_{train-support}分别放到m个初始参数为θ的GCN中训练，分别更新后得到m个对应的参数{θ₁，θ₂，...，θ_m}；然后用T_train中m个任务的T_train-query和

计算总损失进而更新θ，最后得到元参数θ′；

Step4-4、元测试：利用T_test中的T_test-support微调以元参数θ’为初始参数的GCN，然后用T_test-query来评估f_θ′的性能。

6.根据权利要求2所述的一种基于元图学习的长链非编码RNA亚细胞定位预测方法，其特征在于：Step5中所述的评价指标包括：准确率Acc、精确度P、召回率R和分数F1；其计算公式如下：

其中TP，FP和FN分别代表预测结果中的真正例，假正例和假反例，|C|类别标签的种类数量，i代表具体某个标签。