CN116070157B

CN116070157B - 基于级联森林和双流结构的circRNA识别方法

Info

Publication number: CN116070157B
Application number: CN202310041103.1A
Authority: CN
Inventors: 滕志霞; 李羽清; 汪国华
Original assignee: Northeast Forestry University
Current assignee: Northeast Forestry University
Priority date: 2023-01-13
Filing date: 2023-01-13
Publication date: 2024-04-16
Anticipated expiration: 2043-01-13
Also published as: CN116070157A

Abstract

基于级联森林和双流结构的circRNA识别方法，具体涉及一种利用级联森林基于RNA序列k‑mer生物特征和circRNA剪接位置特征的双流结构的circRNA识别方法，为了解决现有circRNA识别方法识别的结果不准确的问题。获取预处理后包含circRNA或lncRNA的RNA序列，获得每条RNA序列剪接位置序列的位置特征向量，以及RNA序列k‑mer信息的k‑mer特征向量，将二者分别输入位置森林和k‑mer森林中，分别输出位置类别概率向量和k‑mer类别概率向量，将位置类别概率向量和k‑mer类别概率向量分别与超参数u进行融合，将融合后的两个结果相加，得到RNA序列最终的类别概率向量，获得RNA序列是否为circRNA的识别结果。属于生物信息领域。

Description

基于级联森林和双流结构的circRNA识别方法

技术领域

本发明涉及一种circRNA识别方法，具体涉及一种利用级联森林基于RNA序列k-mer生物特征和circRNA剪接位置特征的双流结构的circRNA识别方法，属于生物信息领域。

背景技术

环形RNA(circular RNA,circRNA)是一种新兴的具有特殊共价键结构的非编码RNA,环形RNA作为动物与植物的内源性RNA，形成于RNA剪接过程，外显子的5’和3’末端在反向剪接(头到尾)共价形成环状RNA。circRNA通过与疾病关联的miRNA相互作用，在疾病中发挥重要的调控作用。目前，国内外研究者对circRNA的关注度持续升温，准确识别circRNA可以为研究circRNA的研究人员提供丰富的研究材料。目前主流识别circRNA的机器学习方法分为两类，一种是基于RNA序列中AGCT间位置关系的识别方法，如DeepCirCode(将RNA序列start端和end端前后各50bp提取出来合并为全长200bp的特征序列进行onehot编码，形成4x200的特征矩阵送入CNN进行识别)，另一种是基于RNA的生物特征信息的识别方法，如circPL(通过提取RNA序列的2-mer、3-mer、Mismatch、subsequence、DAC、DCC、DACC、MAC、GAC、NMBAC、PC、SC、Triplet、PseSSC和PseDPC这15种生物信息特征合并成特征向量，送入优化的ELM进行训练)。这两种识别circRNA的方法仅单独使用了RNA序列的位置信息和生物特征信息，并没有将二者结合起来，单独使用RNA序列的位置信息或生物特征信息会使得模型对RNA的特征提取有所遗漏，导致识别的结果不准确。即便这两种方法在各自的数据集上均取得了较好的性能，但本发明认为将二者结合起来可以进一步提升模型的性能。

发明内容

本发明为了解决现有circRNA识别方法仅单独使用RNA序列的位置信息或生物特征信息，使得模型对RNA的特征提取有所遗漏，导致识别的结果不准确的问题，提出了一种基于级联森林和双流结构的circRNA识别方法。

它包括以下步骤：

S1、分别获取circRNA样本集和lncRNA样本集，将circRNA样本集和lncRNA样本集合并，作为原始样本集，在GRCh37人类基因库中根据原始样本集获取对应的RNA序列，得到初始训练集，对初始训练集进行预处理，得到训练集；

S2、提取训练集中每条RNA序列的剪接位置序列，以及所述RNA序列的k-mer信息，获得剪接位置序列的位置特征向量，以及k-mer信息的k-mer特征向量；

S3、将训练集中每条RNA序列的位置特征向量和k-mer特征向量分别输入两个独立的级联森林模型中进行训练，分别输出位置类别概率向量和k-mer类别概率向量，直至每个级联森林模型输出的类别概率向量不变，分别获得位置森林和k-mer森林；

S4、将位置类别概率向量和k-mer类别概率向量分别与超参数u进行融合，将融合后的两个结果相加，得到RNA序列最终的类别概率向量，获得RNA序列是否为circRNA的识别结果，并对识别结果进行评估；

S5、获取待识别RNA序列的位置特征向量和k-mer特征向量，分别输入S3中位置森林和k-mer森林内，分别输出位置类别概率向量和k-mer类别概率向量，执行S4，得到RNA序列是否为circRNA的识别结果。

进一步地，S1具体过程为：

S11、在circRNADb数据库和circRNAbase数据库中分别获取人类circRNA样本集，将两个人类circRNA样本集合并，得到人类circRNA样本总集，在GENCODE数据库中获取人类lncRNA样本集，将人类circRNA样本总集与人类lncRNA样本集合并，作为原始样本集；

S12、circRNA样本与lncRNA样本的数据格式均为bed格式，即每个RNA序列均包括染色体号、起始位置、终止位置、正负链标识四列表示，根据所述四列表示从GRCh37人类基因库中提取多条完整的RNA序列，将多条完整的RNA序列组合为初始训练集；

S13、去除初始训练集中重复的RNA序列，以及相互包含的RNA序列，得到训练集。

进一步地，S2具体过程为：

S21、在训练集中每条RNA序列的start端和end端各取50bp长度的序列，将它们合并为全长是200bp的AGCT序列，利用Transformer的Position Encoder过程对AGCT序列进行位置编码操作，获得维数为[1,200]的位置特征向量；

S22、提取S21中所述RNA序列的k-mer信息，得到维数为[1,4^k]的k-mer特征向量。

进一步地，S21中利用Transformer的Position Encoder过程对AGCT序列进行位置编码操作，获得维数为[1,200]位置特征向量，具体过程为：

将AGCT序列中AGCT出现的频数由高到低进行排序，分别以0,1,2,3代替排序后的AGCT，将排序后的AGCT序列与编码器根据编码公式生成的[1,200]维向量的对应位置相加，获得维数为[1,200]位置特征向量。

进一步地，编码公式为：

其中，i为当前字符在输入序列中的位置，j为列数，d为该字符的维度；根据公式(1)和公式(2)得，在偶数位置使用正弦编码，在奇数位置使用余弦编码，即偶数位置用公式(1)所得值填入序列的对应位置，奇数位置用公式(2)所得值填入序列的对应位置。

进一步地，S3具体过程为：

S31、在级联森林模型的Multi-Grained Scanning阶段，利用步长为100或200或300的滑动窗口对每条RNA序列的位置特征向量或k-mer特征向量进行采样步长为1的逐步采样，得到所有的采样向量，将得到的所有采样向量分别输入两个随机森林模型中进行训练，每个随机森林模型的输出均为二维向量，将两个随机森林模型的输出合并，得到向量Ⅰ；

S32、级联森林模型的Cascade Forest阶段的每层level均包括两个完全随机森林和两个随机森林，将向量Ⅰ分别输入第一层level的每个完全随机森林和每个随机森林中，每个随机森林和完全随机森林的输出均为一个二维的类向量，根据上述随机森林的数量和输出，得到第一层level的输出为8个增强特征向量；

将8个增强特征向量和向量Ⅰ输入第二层level中，输出新的增强特征向量，直至最后一层level输出最终的增强特征向量，求解最终的增强特征向量的平均值，根据平均值获得位置类别概率向量或k-mer类别概率向量，得到当前的位置森林或k-mer森林，直至每个级联森林模型输出的类别概率向量不变，得到最终的位置森林或k-mer森林。

进一步地，S32中每个完全随机森林拥有1000棵完全随机树，每个随机森林也拥有1000棵随机树。

进一步地，S32中每个完全随机森林中的每棵完全随机树通过随机选择一个特征在树上每个节点进行分割，直到每个叶节点只包含相同类的实例或不超过10个互异实例，完成完全随机树的生长；

每个随机森林的每棵随机树通过随机选择个特征，d为特征总量的大小，选择gini值最佳的特征在树上每个节点进行分割，直到每个叶节点只包含相同类的实例或不超过10个互异实例，完成随机树的生长。

进一步地，S4具体过程为：

S41、将位置森林输出的位置类别概率向量与超参数u相乘，将k-mer森林输出的k-mer类别概率向量与超参数(1-u)相乘，将上述相乘后的结果相加，获得RNA序列最终的类别概率向量，得到RNA序列是否为circRNA的识别结果；

S42、利用精确度、F1分数、特异性、敏感性、准确率和马修斯相关系数作为评价指标，对识别结果进行评估。

进一步地，精确度：

F1分数：

特异性：

敏感性：

准确率：

马修斯相关系数：

其中，TP是真阳性，即RNA序列实际标签为阳性且预测标签为阳性；TN是真阴性，即RNA序列实际标签为阴性且预测标签为阴性；FP是假阳性，即RNA序列实际标签为阴性且预测标签为阳性；FN是假阴性，即RNA序列实际标签为阳性且预测标签为阴性，F1分数中P为Precision,R为Recall,马修斯相关系数表示预测和标签间的相关性，MCC＝0表示随即猜测，MCC＝1表示完美模型。

有益效果：

本发明提取人类RNA序列的剪接位置特征信息和生物特征信息，基于双流结构识别人类RNA序列中的circRNA，并将剪接位置特征信息和生物特征信息分别送入两个相同的级联森林DeepForest模型进行训练，分别输出位置类别概率向量和k-mer类别概率向量，再将位置类别概率向量和k-mer类别概率向量分别与超参数u进行融合，将融合后的两个结果相加，得到RNA序列最终的类别概率，获得RNA序列是否为circRNA的识别结果。

本发明在结合上述两种方式各自的优势下解决了位置信息与生物特征信息相独立的缺点，使得circRNA识别的结果准确性更高，且本发明利用级联森林学习特征，能够在获得最优识别特征时，具有较高的泛化能力和鲁棒性，经过少量数据的训练，便可达到较高的准确性。

附图说明

图1是本发明的流程图；

图2是级联森林模型的示意图；

图3是级联森林模型与传统机器学习的对比图；

图4是级联森林模型对RNA剪接位置特征的权重分配图；

图5是提取RNA剪接位置特征向量时，以位置森林的预测系数为最终的预测系数，即不与k-mer森林的预测系数结合，截取start端和end端前后不同长度对模型准确度的影响示意图；

具体实施方式

具体实施方式一：结合图1-图5说明本实施方式，本实施方式所述一种基于级联森林和双流结构的circRNA识别方法，它包括以下步骤：

S1、分别获取circRNA样本集和lncRNA样本集，将circRNA样本集和lncRNA样本集合并，作为原始样本集，在GRCh37人类基因库中根据原始样本集获取对应的RNA序列，得到初始训练集，对初始训练集进行预处理，得到训练集，具体过程为：

S11、在circRNADb数据库和circRNAbase数据库中分别获取人类circRNA样本集，将两个人类circRNA样本集合并，得到人类circRNA样本总集，在GENCODE数据库中获取人类lncRNA样本集，将人类circRNA样本总集与人类lncRNA样本集合并，作为原始样本集。本发明将circRNA做正样本,lncRNA做负样本，如此是为了在lncRNA和circRNA混合的数据集中将circRNA划分出来。

S12、获取的circRNA样本与lncRNA样本的数据格式均为bed格式，即每个RNA序列均包括chrom(染色体号)、chromStart(起始位置)、chromEnd(终止位置)、strand(正负链标识)四列表示，因此需要根据这四列信息从GRCh37人类基因库中提取多条完整的RNA序列，即一串AGCT的组合，将多条完整的RNA序列组合为初始训练集。

对初始训练集进行预处理，即是去除初始训练集中冗余的RNA序列，再对RNA序列进行清洗的过程。

S2、提取训练集中每条RNA序列的剪接位置序列，以及所述RNA序列的k-mer信息，获得剪接位置序列的位置特征向量，以及k-mer信息的k-mer特征向量，具体过程为：

S21、在训练集中每条RNA序列的start端和end端各取50bp长度的序列，将它们合并为全长是200bp的AGCT序列，利用Transformer的Position Encoder过程对AGCT序列进行位置编码操作，加强位置信息，即将序列中AGCT出现的频数由高到低进行排序，分别以0,1,2,3代替排序后的AGCT，将排序后的AGCT序列与编码器根据公式(1)和公式(2)生成的[1,200]维向量的对应位置相加，即偶数位置用公式(1)所得值填入对应位置，奇数位置用公式(2)所得值填入对应位置，获得维数为[1,200]位置特征向量。

编码公式如下，

其中，i为当前字符在输入序列中的位置，j为列数，d为该字符的维度。由此可以看出，在偶数位置使用正弦编码，在奇数位置使用余弦编码。

S22、提取S21中所述RNA序列的k-mer信息，直接得到维数为[1,4^k]k-mer特征向量。

S3、将训练集中每条RNA序列的位置特征向量和k-mer特征向量分别输入两个独立的级联森林模型中进行训练，分别输出位置类别概率向量和k-mer类别概率向量，直至每个级联森林模型输出的类别概率向量不变，分别获得位置森林和k-mer森林，在后续的识别过程中，位置森林针对待识别RNA的位置特征向量进行分析，k-mer森林针对待识别RNA的k-mer信息进行分析。

级联森林提取最优识别特征的过程如图2所示，其分为3个过程：

S31、在级联森林模型的Multi-Grained Scanning阶段：该阶段负责提取特征。通过步长为100或200或300的滑动窗口对每条RNA序列的位置特征向量或k-mer特征向量进行采样步长为1的逐步采样，得到所有的采样向量。对本实例的200维位置特征向量而言，长度为100的滑动窗口完成采样后生成191个10维的向量，对于维数为[1,4^k]k-mer特征向量，k值由用户所要选择的k-mer中的k决定，如果使用3-mer，那么k就为3，所生产的向量就为[1,64]。Multi-Grained Scanning阶段包括两个并列的随机森林模型，然后将得到的所有采样向量分别输入两个随机森林模型中训练，每个随机森林模型输出191个2维向量，将两个随机森林模型的输出合并为一个382维向量Ⅰ。同理可得，窗口大小为200的滑动窗口在该阶段最终生成一个724维的向量Ⅰ。

S32、级联森林模型的Cascade Forest阶段：该阶段由多层level组成，每一层level从前一层level中获得特征信息，并将该level处理过的特征信息输入下一层level。Cascade Forest中的每层level均包含两个完全随机森林(图2中黑色斜线标记)和两个随机森林(图2中普通黑边标记)，两个完全随机森林和两个随机森林并列设置。CascadeForest的输入来自Multi-Grained Scanning最终生成的向量Ⅰ，将向量Ⅰ分别输入每个完全随机森林和每个随机森林中，每个随机森林和完全随机森林都将产生一个二维的类向量，而每层level含有两个完全随机森林和两个随机森林，因此下一层level将会接收8(2(二维的类向量)x4(两个完全随机森林和两个随机森林))个增强特征向量。每个完全随机森林拥有1000棵(该数量为级联森林模型的超参数，是人为设定的)完全随机树，每个随机森林也拥有1000棵随机树。完全随机树通过随机选择一个特征在其每个节点进行分割，以实现树的生长，直到每个叶节点只包含相同类的实例或不超过10个互异实例。随机森林的树通过随机选择个特征，d为特征总量的大小，然后选择gini(超参数可调，可选entropy)值最佳的特征在其每个节点进行分割，直到每个叶节点只包含相同类的实例或不超过10个互异实例。Gini和entropy是模型在训练过程中得到的，模型会自动选择gini值或entropy值最优的划分方式进行分割。人为可调的是规定以gini为标准还是以entroy为标准。在该二分类任务中，

第一层level的输入是Multi-Grained Scanning过程得到的382维向量(以滑动窗口长度为100的Multi-Grained Scanning为例)，以后每一层level的输入是将前一层level得到的8维的增强特征向量和Multi-Grained Scanning过程得到的向量合并为一个整体，进行该层level的训练，输出新的增强特征向量，直至最后一层level输出最终的增强特征向量，求解最终的增强特征向量的平均值，根据平均值获得位置类别概率向量或k-mer类别概率向量，即能够实现利用RNA序列的位置特征向量或k-mer特征向量求解位置类别概率向量或k-mer类别概率向量。得到当前的位置森林或k-mer森林，直至输出的类别概率向量不变，即当前迭代输出的类别概率向量与上一轮迭代输出的类别概率向量没有提升或提升很小，得到最终的位置森林和k-mer森林。

S4、将位置类别概率向量和k-mer类别概率向量分别与超参数u进行融合，将融合后的两个结果相加，得到RNA序列最终的类别概率向量，获得RNA序列是否为circRNA的识别结果，并对识别结果进行性能评估。位置特征向量经过位置森林输出[1,2]维位置类别概率向量，k-mer经过的k-mer森林输出[1,2]维k-mer类别概率向量。

S41、将位置森林输出的预测系数与超参数u相乘，将k-mer森林输出的预测系数与超参数(1-u)相乘，将上述相乘后的结果相加，获得最终的预测系数，该2维向量中最大值所在位置用来指示该RNA序列为circRNA还是lncRNA。

在识别circRNA时，将待识别RNA序列提取剪接位置的位置特征和RNA序列的k-mer特征后，分别送入位置森林和k-mer森林中获得预测系数，再计算最终的预测系数。

S42、在进行评估时，使用精确度(Precision)、F1分数(F1-Score)、特异性(Specificity)、敏感性(Sensitivity)、准确率(Accuracy)和马修斯相关系数(MCC)作为评价指标，具体计算公式如下：

在上述公式中，TP是真阳性，即样本实际标签为阳性且预测标签为阳性；TN是真阴性，即样本实际标签为阴性且预测标签为阴性；FP是假阳性，即样本实际标签为阴性且预测标签为阳性；FN是假阴性，即样本实际标签为阳性且预测标签为阴性。F1-Score中，P为Precision,R为Recall。马修斯相关系数(MCC)表示预测和标签间的相关性(MCC＝0表示随即猜测，1表示完美模型)。

实施例

从circRNADb和circRNAbase两个数据库共搜集到92369条人类circRNA作为正样本，从GENCODE中搜集到111557条人类lncRNA作为负样本，在GRCh37人类基因库中根据正样本和负样本获取92369条circRNA和111557条lncRNA，去除其中重复的RNA序列，RNA序列长度小于1000，以及相互包含的RNA序列，剩余38950条circRNA和34132条lncRNA。

以某条RNA序列为例，取某条RNA序列的start端和end端各取50bp长度的序列，将它们合并为全长是200bp的AGCT序列，将序列中AGCT出现的频数由高到低进行排序，得到如GATC的排序，再分别以0,1,2,3代替排序后的GATC，即建立G:0,A:1,T:2,C:3的映射。将排序后的GATC序列与编码器根据编码公式生成的[1,200]维向量的对应位置(如,[1,2]+[2,3]＝[1+2,2+3]＝[3,5])相加，获得维数为[1,200]位置特征向量。提取该RNA序列的k-mer信息，直接得到维数为[1,4^k]k-mer特征向量。将每条RNA序列的位置特征向量和k-mer特征向量分别输入位置森林和k-mer森林中，分别输出位置类别概率向量和k-mer类别概率向量。将位置类别概率向量与超参数u相乘，将k-mer类别概率向量与超参数(1-u)相乘，将相乘后的两个结果相加，得到RNA序列最终的类别概率向量，如，如，位置类别概率向量[1,1],k-mer类别概率向量[2,2],则最终的类别概率向量为[1*u+2*(1-u),1*u+2*(1-u)]，即可获得RNA序列是否为circRNA的识别结果。以此类推，得到所有RNA序列的识别结果，并对识别结果进行性能评估。

评估结果为

评价指标	人类
		Accuracy	0.98082
Sensitivity	0.977513
		Specifictiy	0.983549
Precision	0.980015
		Recall	0.978763
MCC	0.961279

Claims

1.基于级联森林和双流结构的circRNA识别方法，其特征在于：它包括以下步骤：

2.根据权利要求1中所述的基于级联森林和双流结构的circRNA识别方法，其特征在于：S1具体过程为：

3.根据权利要求2中所述的基于级联森林和双流结构的circRNA识别方法，其特征在于：S2具体过程为：

4.根据权利要求3中所述的基于级联森林和双流结构的circRNA识别方法，其特征在于：S21中利用Transformer的Position Encoder过程对AGCT序列进行位置编码操作，获得维数为[1,200]位置特征向量，具体过程为：

5.根据权利要求4中所述的基于级联森林和双流结构的circRNA识别方法，其特征在于：编码公式为：

6.根据权利要求5中所述的基于级联森林和双流结构的circRNA识别方法，其特征在于：S3具体过程为：

7.根据权利要求6中所述的基于级联森林和双流结构的circRNA识别方法，其特征在于：S32中每个完全随机森林拥有1000棵完全随机树，每个随机森林也拥有1000棵随机树。

8.根据权利要求7中所述的基于级联森林和双流结构的circRNA识别方法，其特征在于：S32中每个完全随机森林中的每棵完全随机树通过随机选择一个特征在树上每个节点进行分割，直到每个叶节点只包含相同类的实例或不超过10个互异实例，完成完全随机树的生长；

9.根据权利要求8中所述的基于级联森林和双流结构的circRNA识别方法，其特征在于：S4具体过程为：

10.根据权利要求9中所述的基于级联森林和双流结构的circRNA识别方法，其特征在于：精确度：

F1分数：

特异性：

敏感性：

准确率：

马修斯相关系数：