CN116070157B - 基于级联森林和双流结构的circRNA识别方法 - Google Patents
基于级联森林和双流结构的circRNA识别方法 Download PDFInfo
- Publication number
- CN116070157B CN116070157B CN202310041103.1A CN202310041103A CN116070157B CN 116070157 B CN116070157 B CN 116070157B CN 202310041103 A CN202310041103 A CN 202310041103A CN 116070157 B CN116070157 B CN 116070157B
- Authority
- CN
- China
- Prior art keywords
- forest
- mer
- circrna
- vector
- rna sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 239000013598 vector Substances 0.000 claims abstract description 163
- 108091028043 Nucleic acid sequence Proteins 0.000 claims abstract description 72
- 108020005198 Long Noncoding RNA Proteins 0.000 claims abstract description 19
- 238000007637 random forest analysis Methods 0.000 claims description 45
- 238000012549 training Methods 0.000 claims description 39
- 108091032973 (ribonucleotides)n+m Proteins 0.000 claims description 30
- 241000282414 Homo sapiens Species 0.000 claims description 30
- 238000005070 sampling Methods 0.000 claims description 12
- 238000011156 evaluation Methods 0.000 claims description 8
- 108090000623 proteins and genes Proteins 0.000 claims description 7
- 230000035945 sensitivity Effects 0.000 claims description 7
- 210000000349 chromosome Anatomy 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 108091028075 Circular RNA Proteins 0.000 description 43
- 102100036263 Glutamyl-tRNA(Gln) amidotransferase subunit C, mitochondrial Human genes 0.000 description 3
- 101001001786 Homo sapiens Glutamyl-tRNA(Gln) amidotransferase subunit C, mitochondrial Proteins 0.000 description 3
- 108091046869 Telomeric non-coding RNA Proteins 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000012163 sequencing technique Methods 0.000 description 3
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- VYZAMTAEIAYCRO-UHFFFAOYSA-N Chromium Chemical compound [Cr] VYZAMTAEIAYCRO-UHFFFAOYSA-N 0.000 description 1
- 108700024394 Exon Proteins 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 108020005067 RNA Splice Sites Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 108091070501 miRNA Proteins 0.000 description 1
- 239000002679 microRNA Substances 0.000 description 1
- 108091027963 non-coding RNA Proteins 0.000 description 1
- 102000042567 non-coding RNA Human genes 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Biophysics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
基于级联森林和双流结构的circRNA识别方法,具体涉及一种利用级联森林基于RNA序列k‑mer生物特征和circRNA剪接位置特征的双流结构的circRNA识别方法,为了解决现有circRNA识别方法识别的结果不准确的问题。获取预处理后包含circRNA或lncRNA的RNA序列,获得每条RNA序列剪接位置序列的位置特征向量,以及RNA序列k‑mer信息的k‑mer特征向量,将二者分别输入位置森林和k‑mer森林中,分别输出位置类别概率向量和k‑mer类别概率向量,将位置类别概率向量和k‑mer类别概率向量分别与超参数u进行融合,将融合后的两个结果相加,得到RNA序列最终的类别概率向量,获得RNA序列是否为circRNA的识别结果。属于生物信息领域。
Description
技术领域
本发明涉及一种circRNA识别方法,具体涉及一种利用级联森林基于RNA序列k-mer生物特征和circRNA剪接位置特征的双流结构的circRNA识别方法,属于生物信息领域。
背景技术
环形RNA(circular RNA,circRNA)是一种新兴的具有特殊共价键结构的非编码RNA,环形RNA作为动物与植物的内源性RNA,形成于RNA剪接过程,外显子的5’和3’末端在反向剪接(头到尾)共价形成环状RNA。circRNA通过与疾病关联的miRNA相互作用,在疾病中发挥重要的调控作用。目前,国内外研究者对circRNA的关注度持续升温,准确识别circRNA可以为研究circRNA的研究人员提供丰富的研究材料。目前主流识别circRNA的机器学习方法分为两类,一种是基于RNA序列中AGCT间位置关系的识别方法,如DeepCirCode(将RNA序列start端和end端前后各50bp提取出来合并为全长200bp的特征序列进行onehot编码,形成4x200的特征矩阵送入CNN进行识别),另一种是基于RNA的生物特征信息的识别方法,如circPL(通过提取RNA序列的2-mer、3-mer、Mismatch、subsequence、DAC、DCC、DACC、MAC、GAC、NMBAC、PC、SC、Triplet、PseSSC和PseDPC这15种生物信息特征合并成特征向量,送入优化的ELM进行训练)。这两种识别circRNA的方法仅单独使用了RNA序列的位置信息和生物特征信息,并没有将二者结合起来,单独使用RNA序列的位置信息或生物特征信息会使得模型对RNA的特征提取有所遗漏,导致识别的结果不准确。即便这两种方法在各自的数据集上均取得了较好的性能,但本发明认为将二者结合起来可以进一步提升模型的性能。
发明内容
本发明为了解决现有circRNA识别方法仅单独使用RNA序列的位置信息或生物特征信息,使得模型对RNA的特征提取有所遗漏,导致识别的结果不准确的问题,提出了一种基于级联森林和双流结构的circRNA识别方法。
它包括以下步骤:
S1、分别获取circRNA样本集和lncRNA样本集,将circRNA样本集和lncRNA样本集合并,作为原始样本集,在GRCh37人类基因库中根据原始样本集获取对应的RNA序列,得到初始训练集,对初始训练集进行预处理,得到训练集;
S2、提取训练集中每条RNA序列的剪接位置序列,以及所述RNA序列的k-mer信息,获得剪接位置序列的位置特征向量,以及k-mer信息的k-mer特征向量;
S3、将训练集中每条RNA序列的位置特征向量和k-mer特征向量分别输入两个独立的级联森林模型中进行训练,分别输出位置类别概率向量和k-mer类别概率向量,直至每个级联森林模型输出的类别概率向量不变,分别获得位置森林和k-mer森林;
S4、将位置类别概率向量和k-mer类别概率向量分别与超参数u进行融合,将融合后的两个结果相加,得到RNA序列最终的类别概率向量,获得RNA序列是否为circRNA的识别结果,并对识别结果进行评估;
S5、获取待识别RNA序列的位置特征向量和k-mer特征向量,分别输入S3中位置森林和k-mer森林内,分别输出位置类别概率向量和k-mer类别概率向量,执行S4,得到RNA序列是否为circRNA的识别结果。
进一步地,S1具体过程为:
S11、在circRNADb数据库和circRNAbase数据库中分别获取人类circRNA样本集,将两个人类circRNA样本集合并,得到人类circRNA样本总集,在GENCODE数据库中获取人类lncRNA样本集,将人类circRNA样本总集与人类lncRNA样本集合并,作为原始样本集;
S12、circRNA样本与lncRNA样本的数据格式均为bed格式,即每个RNA序列均包括染色体号、起始位置、终止位置、正负链标识四列表示,根据所述四列表示从GRCh37人类基因库中提取多条完整的RNA序列,将多条完整的RNA序列组合为初始训练集;
S13、去除初始训练集中重复的RNA序列,以及相互包含的RNA序列,得到训练集。
进一步地,S2具体过程为:
S21、在训练集中每条RNA序列的start端和end端各取50bp长度的序列,将它们合并为全长是200bp的AGCT序列,利用Transformer的Position Encoder过程对AGCT序列进行位置编码操作,获得维数为[1,200]的位置特征向量;
S22、提取S21中所述RNA序列的k-mer信息,得到维数为[1,4k]的k-mer特征向量。
进一步地,S21中利用Transformer的Position Encoder过程对AGCT序列进行位置编码操作,获得维数为[1,200]位置特征向量,具体过程为:
将AGCT序列中AGCT出现的频数由高到低进行排序,分别以0,1,2,3代替排序后的AGCT,将排序后的AGCT序列与编码器根据编码公式生成的[1,200]维向量的对应位置相加,获得维数为[1,200]位置特征向量。
进一步地,编码公式为:
其中,i为当前字符在输入序列中的位置,j为列数,d为该字符的维度;根据公式(1)和公式(2)得,在偶数位置使用正弦编码,在奇数位置使用余弦编码,即偶数位置用公式(1)所得值填入序列的对应位置,奇数位置用公式(2)所得值填入序列的对应位置。
进一步地,S3具体过程为:
S31、在级联森林模型的Multi-Grained Scanning阶段,利用步长为100或200或300的滑动窗口对每条RNA序列的位置特征向量或k-mer特征向量进行采样步长为1的逐步采样,得到所有的采样向量,将得到的所有采样向量分别输入两个随机森林模型中进行训练,每个随机森林模型的输出均为二维向量,将两个随机森林模型的输出合并,得到向量Ⅰ;
S32、级联森林模型的Cascade Forest阶段的每层level均包括两个完全随机森林和两个随机森林,将向量Ⅰ分别输入第一层level的每个完全随机森林和每个随机森林中,每个随机森林和完全随机森林的输出均为一个二维的类向量,根据上述随机森林的数量和输出,得到第一层level的输出为8个增强特征向量;
将8个增强特征向量和向量Ⅰ输入第二层level中,输出新的增强特征向量,直至最后一层level输出最终的增强特征向量,求解最终的增强特征向量的平均值,根据平均值获得位置类别概率向量或k-mer类别概率向量,得到当前的位置森林或k-mer森林,直至每个级联森林模型输出的类别概率向量不变,得到最终的位置森林或k-mer森林。
进一步地,S32中每个完全随机森林拥有1000棵完全随机树,每个随机森林也拥有1000棵随机树。
进一步地,S32中每个完全随机森林中的每棵完全随机树通过随机选择一个特征在树上每个节点进行分割,直到每个叶节点只包含相同类的实例或不超过10个互异实例,完成完全随机树的生长;
每个随机森林的每棵随机树通过随机选择个特征,d为特征总量的大小,选择gini值最佳的特征在树上每个节点进行分割,直到每个叶节点只包含相同类的实例或不超过10个互异实例,完成随机树的生长。
进一步地,S4具体过程为:
S41、将位置森林输出的位置类别概率向量与超参数u相乘,将k-mer森林输出的k-mer类别概率向量与超参数(1-u)相乘,将上述相乘后的结果相加,获得RNA序列最终的类别概率向量,得到RNA序列是否为circRNA的识别结果;
S42、利用精确度、F1分数、特异性、敏感性、准确率和马修斯相关系数作为评价指标,对识别结果进行评估。
进一步地,精确度:
F1分数:
特异性:
敏感性:
准确率:
马修斯相关系数:
其中,TP是真阳性,即RNA序列实际标签为阳性且预测标签为阳性;TN是真阴性,即RNA序列实际标签为阴性且预测标签为阴性;FP是假阳性,即RNA序列实际标签为阴性且预测标签为阳性;FN是假阴性,即RNA序列实际标签为阳性且预测标签为阴性,F1分数中P为Precision,R为Recall,马修斯相关系数表示预测和标签间的相关性,MCC=0表示随即猜测,MCC=1表示完美模型。
有益效果:
本发明提取人类RNA序列的剪接位置特征信息和生物特征信息,基于双流结构识别人类RNA序列中的circRNA,并将剪接位置特征信息和生物特征信息分别送入两个相同的级联森林DeepForest模型进行训练,分别输出位置类别概率向量和k-mer类别概率向量,再将位置类别概率向量和k-mer类别概率向量分别与超参数u进行融合,将融合后的两个结果相加,得到RNA序列最终的类别概率,获得RNA序列是否为circRNA的识别结果。
本发明在结合上述两种方式各自的优势下解决了位置信息与生物特征信息相独立的缺点,使得circRNA识别的结果准确性更高,且本发明利用级联森林学习特征,能够在获得最优识别特征时,具有较高的泛化能力和鲁棒性,经过少量数据的训练,便可达到较高的准确性。
附图说明
图1是本发明的流程图;
图2是级联森林模型的示意图;
图3是级联森林模型与传统机器学习的对比图;
图4是级联森林模型对RNA剪接位置特征的权重分配图;
图5是提取RNA剪接位置特征向量时,以位置森林的预测系数为最终的预测系数,即不与k-mer森林的预测系数结合,截取start端和end端前后不同长度对模型准确度的影响示意图;
具体实施方式
具体实施方式一:结合图1-图5说明本实施方式,本实施方式所述一种基于级联森林和双流结构的circRNA识别方法,它包括以下步骤:
S1、分别获取circRNA样本集和lncRNA样本集,将circRNA样本集和lncRNA样本集合并,作为原始样本集,在GRCh37人类基因库中根据原始样本集获取对应的RNA序列,得到初始训练集,对初始训练集进行预处理,得到训练集,具体过程为:
S11、在circRNADb数据库和circRNAbase数据库中分别获取人类circRNA样本集,将两个人类circRNA样本集合并,得到人类circRNA样本总集,在GENCODE数据库中获取人类lncRNA样本集,将人类circRNA样本总集与人类lncRNA样本集合并,作为原始样本集。本发明将circRNA做正样本,lncRNA做负样本,如此是为了在lncRNA和circRNA混合的数据集中将circRNA划分出来。
S12、获取的circRNA样本与lncRNA样本的数据格式均为bed格式,即每个RNA序列均包括chrom(染色体号)、chromStart(起始位置)、chromEnd(终止位置)、strand(正负链标识)四列表示,因此需要根据这四列信息从GRCh37人类基因库中提取多条完整的RNA序列,即一串AGCT的组合,将多条完整的RNA序列组合为初始训练集。
S13、去除初始训练集中重复的RNA序列,以及相互包含的RNA序列,得到训练集。
对初始训练集进行预处理,即是去除初始训练集中冗余的RNA序列,再对RNA序列进行清洗的过程。
S2、提取训练集中每条RNA序列的剪接位置序列,以及所述RNA序列的k-mer信息,获得剪接位置序列的位置特征向量,以及k-mer信息的k-mer特征向量,具体过程为:
S21、在训练集中每条RNA序列的start端和end端各取50bp长度的序列,将它们合并为全长是200bp的AGCT序列,利用Transformer的Position Encoder过程对AGCT序列进行位置编码操作,加强位置信息,即将序列中AGCT出现的频数由高到低进行排序,分别以0,1,2,3代替排序后的AGCT,将排序后的AGCT序列与编码器根据公式(1)和公式(2)生成的[1,200]维向量的对应位置相加,即偶数位置用公式(1)所得值填入对应位置,奇数位置用公式(2)所得值填入对应位置,获得维数为[1,200]位置特征向量。
编码公式如下,
其中,i为当前字符在输入序列中的位置,j为列数,d为该字符的维度。由此可以看出,在偶数位置使用正弦编码,在奇数位置使用余弦编码。
S22、提取S21中所述RNA序列的k-mer信息,直接得到维数为[1,4k]k-mer特征向量。
S3、将训练集中每条RNA序列的位置特征向量和k-mer特征向量分别输入两个独立的级联森林模型中进行训练,分别输出位置类别概率向量和k-mer类别概率向量,直至每个级联森林模型输出的类别概率向量不变,分别获得位置森林和k-mer森林,在后续的识别过程中,位置森林针对待识别RNA的位置特征向量进行分析,k-mer森林针对待识别RNA的k-mer信息进行分析。
级联森林提取最优识别特征的过程如图2所示,其分为3个过程:
S31、在级联森林模型的Multi-Grained Scanning阶段:该阶段负责提取特征。通过步长为100或200或300的滑动窗口对每条RNA序列的位置特征向量或k-mer特征向量进行采样步长为1的逐步采样,得到所有的采样向量。对本实例的200维位置特征向量而言,长度为100的滑动窗口完成采样后生成191个10维的向量,对于维数为[1,4k]k-mer特征向量,k值由用户所要选择的k-mer中的k决定,如果使用3-mer,那么k就为3,所生产的向量就为[1,64]。Multi-Grained Scanning阶段包括两个并列的随机森林模型,然后将得到的所有采样向量分别输入两个随机森林模型中训练,每个随机森林模型输出191个2维向量,将两个随机森林模型的输出合并为一个382维向量Ⅰ。同理可得,窗口大小为200的滑动窗口在该阶段最终生成一个724维的向量Ⅰ。
S32、级联森林模型的Cascade Forest阶段:该阶段由多层level组成,每一层level从前一层level中获得特征信息,并将该level处理过的特征信息输入下一层level。Cascade Forest中的每层level均包含两个完全随机森林(图2中黑色斜线标记)和两个随机森林(图2中普通黑边标记),两个完全随机森林和两个随机森林并列设置。CascadeForest的输入来自Multi-Grained Scanning最终生成的向量Ⅰ,将向量Ⅰ分别输入每个完全随机森林和每个随机森林中,每个随机森林和完全随机森林都将产生一个二维的类向量,而每层level含有两个完全随机森林和两个随机森林,因此下一层level将会接收8(2(二维的类向量)x4(两个完全随机森林和两个随机森林))个增强特征向量。每个完全随机森林拥有1000棵(该数量为级联森林模型的超参数,是人为设定的)完全随机树,每个随机森林也拥有1000棵随机树。完全随机树通过随机选择一个特征在其每个节点进行分割,以实现树的生长,直到每个叶节点只包含相同类的实例或不超过10个互异实例。随机森林的树通过随机选择个特征,d为特征总量的大小,然后选择gini(超参数可调,可选entropy)值最佳的特征在其每个节点进行分割,直到每个叶节点只包含相同类的实例或不超过10个互异实例。Gini和entropy是模型在训练过程中得到的,模型会自动选择gini值或entropy值最优的划分方式进行分割。人为可调的是规定以gini为标准还是以entroy为标准。在该二分类任务中,
第一层level的输入是Multi-Grained Scanning过程得到的382维向量(以滑动窗口长度为100的Multi-Grained Scanning为例),以后每一层level的输入是将前一层level得到的8维的增强特征向量和Multi-Grained Scanning过程得到的向量合并为一个整体,进行该层level的训练,输出新的增强特征向量,直至最后一层level输出最终的增强特征向量,求解最终的增强特征向量的平均值,根据平均值获得位置类别概率向量或k-mer类别概率向量,即能够实现利用RNA序列的位置特征向量或k-mer特征向量求解位置类别概率向量或k-mer类别概率向量。得到当前的位置森林或k-mer森林,直至输出的类别概率向量不变,即当前迭代输出的类别概率向量与上一轮迭代输出的类别概率向量没有提升或提升很小,得到最终的位置森林和k-mer森林。
S4、将位置类别概率向量和k-mer类别概率向量分别与超参数u进行融合,将融合后的两个结果相加,得到RNA序列最终的类别概率向量,获得RNA序列是否为circRNA的识别结果,并对识别结果进行性能评估。位置特征向量经过位置森林输出[1,2]维位置类别概率向量,k-mer经过的k-mer森林输出[1,2]维k-mer类别概率向量。
S41、将位置森林输出的预测系数与超参数u相乘,将k-mer森林输出的预测系数与超参数(1-u)相乘,将上述相乘后的结果相加,获得最终的预测系数,该2维向量中最大值所在位置用来指示该RNA序列为circRNA还是lncRNA。
在识别circRNA时,将待识别RNA序列提取剪接位置的位置特征和RNA序列的k-mer特征后,分别送入位置森林和k-mer森林中获得预测系数,再计算最终的预测系数。
S42、在进行评估时,使用精确度(Precision)、F1分数(F1-Score)、特异性(Specificity)、敏感性(Sensitivity)、准确率(Accuracy)和马修斯相关系数(MCC)作为评价指标,具体计算公式如下:
在上述公式中,TP是真阳性,即样本实际标签为阳性且预测标签为阳性;TN是真阴性,即样本实际标签为阴性且预测标签为阴性;FP是假阳性,即样本实际标签为阴性且预测标签为阳性;FN是假阴性,即样本实际标签为阳性且预测标签为阴性。F1-Score中,P为Precision,R为Recall。马修斯相关系数(MCC)表示预测和标签间的相关性(MCC=0表示随即猜测,1表示完美模型)。
S5、获取待识别RNA序列的位置特征向量和k-mer特征向量,分别输入S3中位置森林和k-mer森林内,分别输出位置类别概率向量和k-mer类别概率向量,执行S4,得到RNA序列是否为circRNA的识别结果。
实施例
从circRNADb和circRNAbase两个数据库共搜集到92369条人类circRNA作为正样本,从GENCODE中搜集到111557条人类lncRNA作为负样本,在GRCh37人类基因库中根据正样本和负样本获取92369条circRNA和111557条lncRNA,去除其中重复的RNA序列,RNA序列长度小于1000,以及相互包含的RNA序列,剩余38950条circRNA和34132条lncRNA。
以某条RNA序列为例,取某条RNA序列的start端和end端各取50bp长度的序列,将它们合并为全长是200bp的AGCT序列,将序列中AGCT出现的频数由高到低进行排序,得到如GATC的排序,再分别以0,1,2,3代替排序后的GATC,即建立G:0,A:1,T:2,C:3的映射。将排序后的GATC序列与编码器根据编码公式生成的[1,200]维向量的对应位置(如,[1,2]+[2,3]=[1+2,2+3]=[3,5])相加,获得维数为[1,200]位置特征向量。提取该RNA序列的k-mer信息,直接得到维数为[1,4k]k-mer特征向量。将每条RNA序列的位置特征向量和k-mer特征向量分别输入位置森林和k-mer森林中,分别输出位置类别概率向量和k-mer类别概率向量。将位置类别概率向量与超参数u相乘,将k-mer类别概率向量与超参数(1-u)相乘,将相乘后的两个结果相加,得到RNA序列最终的类别概率向量,如,如,位置类别概率向量[1,1],k-mer类别概率向量[2,2],则最终的类别概率向量为[1*u+2*(1-u),1*u+2*(1-u)],即可获得RNA序列是否为circRNA的识别结果。以此类推,得到所有RNA序列的识别结果,并对识别结果进行性能评估。
评估结果为
评价指标 | 人类 |
Accuracy | 0.98082 |
Sensitivity | 0.977513 |
Specifictiy | 0.983549 |
Precision | 0.980015 |
Recall | 0.978763 |
MCC | 0.961279 |
Claims (10)
1.基于级联森林和双流结构的circRNA识别方法,其特征在于:它包括以下步骤:
S1、分别获取circRNA样本集和lncRNA样本集,将circRNA样本集和lncRNA样本集合并,作为原始样本集,在GRCh37人类基因库中根据原始样本集获取对应的RNA序列,得到初始训练集,对初始训练集进行预处理,得到训练集;
S2、提取训练集中每条RNA序列的剪接位置序列,以及所述RNA序列的k-mer信息,获得剪接位置序列的位置特征向量,以及k-mer信息的k-mer特征向量;
S3、将训练集中每条RNA序列的位置特征向量和k-mer特征向量分别输入两个独立的级联森林模型中进行训练,分别输出位置类别概率向量和k-mer类别概率向量,直至每个级联森林模型输出的类别概率向量不变,分别获得位置森林和k-mer森林;
S4、将位置类别概率向量和k-mer类别概率向量分别与超参数u进行融合,将融合后的两个结果相加,得到RNA序列最终的类别概率向量,获得RNA序列是否为circRNA的识别结果,并对识别结果进行评估;
S5、获取待识别RNA序列的位置特征向量和k-mer特征向量,分别输入S3中位置森林和k-mer森林内,分别输出位置类别概率向量和k-mer类别概率向量,执行S4,得到RNA序列是否为circRNA的识别结果。
2.根据权利要求1中所述的基于级联森林和双流结构的circRNA识别方法,其特征在于:S1具体过程为:
S11、在circRNADb数据库和circRNAbase数据库中分别获取人类circRNA样本集,将两个人类circRNA样本集合并,得到人类circRNA样本总集,在GENCODE数据库中获取人类lncRNA样本集,将人类circRNA样本总集与人类lncRNA样本集合并,作为原始样本集;
S12、circRNA样本与lncRNA样本的数据格式均为bed格式,即每个RNA序列均包括染色体号、起始位置、终止位置、正负链标识四列表示,根据所述四列表示从GRCh37人类基因库中提取多条完整的RNA序列,将多条完整的RNA序列组合为初始训练集;
S13、去除初始训练集中重复的RNA序列,以及相互包含的RNA序列,得到训练集。
3.根据权利要求2中所述的基于级联森林和双流结构的circRNA识别方法,其特征在于:S2具体过程为:
S21、在训练集中每条RNA序列的start端和end端各取50bp长度的序列,将它们合并为全长是200bp的AGCT序列,利用Transformer的Position Encoder过程对AGCT序列进行位置编码操作,获得维数为[1,200]的位置特征向量;
S22、提取S21中所述RNA序列的k-mer信息,得到维数为[1,4k]的k-mer特征向量。
4.根据权利要求3中所述的基于级联森林和双流结构的circRNA识别方法,其特征在于:S21中利用Transformer的Position Encoder过程对AGCT序列进行位置编码操作,获得维数为[1,200]位置特征向量,具体过程为:
将AGCT序列中AGCT出现的频数由高到低进行排序,分别以0,1,2,3代替排序后的AGCT,将排序后的AGCT序列与编码器根据编码公式生成的[1,200]维向量的对应位置相加,获得维数为[1,200]位置特征向量。
5.根据权利要求4中所述的基于级联森林和双流结构的circRNA识别方法,其特征在于:编码公式为:
其中,i为当前字符在输入序列中的位置,j为列数,d为该字符的维度;根据公式(1)和公式(2)得,在偶数位置使用正弦编码,在奇数位置使用余弦编码,即偶数位置用公式(1)所得值填入序列的对应位置,奇数位置用公式(2)所得值填入序列的对应位置。
6.根据权利要求5中所述的基于级联森林和双流结构的circRNA识别方法,其特征在于:S3具体过程为:
S31、在级联森林模型的Multi-Grained Scanning阶段,利用步长为100或200或300的滑动窗口对每条RNA序列的位置特征向量或k-mer特征向量进行采样步长为1的逐步采样,得到所有的采样向量,将得到的所有采样向量分别输入两个随机森林模型中进行训练,每个随机森林模型的输出均为二维向量,将两个随机森林模型的输出合并,得到向量Ⅰ;
S32、级联森林模型的Cascade Forest阶段的每层level均包括两个完全随机森林和两个随机森林,将向量Ⅰ分别输入第一层level的每个完全随机森林和每个随机森林中,每个随机森林和完全随机森林的输出均为一个二维的类向量,根据上述随机森林的数量和输出,得到第一层level的输出为8个增强特征向量;
将8个增强特征向量和向量Ⅰ输入第二层level中,输出新的增强特征向量,直至最后一层level输出最终的增强特征向量,求解最终的增强特征向量的平均值,根据平均值获得位置类别概率向量或k-mer类别概率向量,得到当前的位置森林或k-mer森林,直至每个级联森林模型输出的类别概率向量不变,得到最终的位置森林或k-mer森林。
7.根据权利要求6中所述的基于级联森林和双流结构的circRNA识别方法,其特征在于:S32中每个完全随机森林拥有1000棵完全随机树,每个随机森林也拥有1000棵随机树。
8.根据权利要求7中所述的基于级联森林和双流结构的circRNA识别方法,其特征在于:S32中每个完全随机森林中的每棵完全随机树通过随机选择一个特征在树上每个节点进行分割,直到每个叶节点只包含相同类的实例或不超过10个互异实例,完成完全随机树的生长;
每个随机森林的每棵随机树通过随机选择个特征,d为特征总量的大小,选择gini值最佳的特征在树上每个节点进行分割,直到每个叶节点只包含相同类的实例或不超过10个互异实例,完成随机树的生长。
9.根据权利要求8中所述的基于级联森林和双流结构的circRNA识别方法,其特征在于:S4具体过程为:
S41、将位置森林输出的位置类别概率向量与超参数u相乘,将k-mer森林输出的k-mer类别概率向量与超参数(1-u)相乘,将上述相乘后的结果相加,获得RNA序列最终的类别概率向量,得到RNA序列是否为circRNA的识别结果;
S42、利用精确度、F1分数、特异性、敏感性、准确率和马修斯相关系数作为评价指标,对识别结果进行评估。
10.根据权利要求9中所述的基于级联森林和双流结构的circRNA识别方法,其特征在于:精确度:
F1分数:
特异性:
敏感性:
准确率:
马修斯相关系数:
其中,TP是真阳性,即RNA序列实际标签为阳性且预测标签为阳性;TN是真阴性,即RNA序列实际标签为阴性且预测标签为阴性;FP是假阳性,即RNA序列实际标签为阴性且预测标签为阳性;FN是假阴性,即RNA序列实际标签为阳性且预测标签为阴性,F1分数中P为Precision,R为Recall,马修斯相关系数表示预测和标签间的相关性,MCC=0表示随即猜测,MCC=1表示完美模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310041103.1A CN116070157B (zh) | 2023-01-13 | 2023-01-13 | 基于级联森林和双流结构的circRNA识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310041103.1A CN116070157B (zh) | 2023-01-13 | 2023-01-13 | 基于级联森林和双流结构的circRNA识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116070157A CN116070157A (zh) | 2023-05-05 |
CN116070157B true CN116070157B (zh) | 2024-04-16 |
Family
ID=86171129
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310041103.1A Active CN116070157B (zh) | 2023-01-13 | 2023-01-13 | 基于级联森林和双流结构的circRNA识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116070157B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101979540A (zh) * | 2010-10-26 | 2011-02-23 | 南京大学 | 一种microRNA探针序列的设计方法 |
CN105975809A (zh) * | 2016-05-13 | 2016-09-28 | 万康源(天津)基因科技有限公司 | 一种影响rna剪接的snv检测方法 |
CN111210871A (zh) * | 2020-01-09 | 2020-05-29 | 青岛科技大学 | 基于深度森林的蛋白质-蛋白质相互作用预测方法 |
CN111584006A (zh) * | 2020-05-06 | 2020-08-25 | 西安交通大学 | 基于机器学习策略的环形rna识别方法 |
CN111599409A (zh) * | 2020-05-20 | 2020-08-28 | 电子科技大学 | 基于MapReduce并行的circRNA识别方法 |
WO2021167672A2 (en) * | 2019-11-26 | 2021-08-26 | New York Genome Center, Inc | Methods and compositions involving crispr class 2, type vi guides |
CN113344272A (zh) * | 2021-06-08 | 2021-09-03 | 汕头大学 | 一种基于机器学习的circRNA与miRNA、RBP相互作用关系的预测方法 |
CN113823356A (zh) * | 2021-09-27 | 2021-12-21 | 电子科技大学长三角研究院(衢州) | 一种甲基化位点识别方法及装置 |
WO2022029489A1 (en) * | 2020-08-06 | 2022-02-10 | Agendia NV | Systems and methods of using cell-free nucleic acids to tailor cancer treatment |
CN114694746A (zh) * | 2022-04-02 | 2022-07-01 | 大连理工大学 | 基于改进的MRMD算法和DF模型的植物pri-miRNA编码肽预测方法 |
CN114841262A (zh) * | 2022-04-29 | 2022-08-02 | 西安理工大学 | 一种基于ds证据理论的滚动轴承故障诊断方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109241987A (zh) * | 2018-06-29 | 2019-01-18 | 南京邮电大学 | 基于加权的深度森林的机器学习方法 |
CN109390037A (zh) * | 2018-10-08 | 2019-02-26 | 齐齐哈尔大学 | 基于SVM-AdaBoost的成熟miRNA全位点识别方法 |
CN109872773A (zh) * | 2019-02-26 | 2019-06-11 | 哈尔滨工业大学 | 基于Adaboost、BP神经网络和随机森林融合的mirco-RNA前体识别方法 |
-
2023
- 2023-01-13 CN CN202310041103.1A patent/CN116070157B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101979540A (zh) * | 2010-10-26 | 2011-02-23 | 南京大学 | 一种microRNA探针序列的设计方法 |
CN105975809A (zh) * | 2016-05-13 | 2016-09-28 | 万康源(天津)基因科技有限公司 | 一种影响rna剪接的snv检测方法 |
WO2021167672A2 (en) * | 2019-11-26 | 2021-08-26 | New York Genome Center, Inc | Methods and compositions involving crispr class 2, type vi guides |
CN111210871A (zh) * | 2020-01-09 | 2020-05-29 | 青岛科技大学 | 基于深度森林的蛋白质-蛋白质相互作用预测方法 |
CN111584006A (zh) * | 2020-05-06 | 2020-08-25 | 西安交通大学 | 基于机器学习策略的环形rna识别方法 |
CN111599409A (zh) * | 2020-05-20 | 2020-08-28 | 电子科技大学 | 基于MapReduce并行的circRNA识别方法 |
WO2022029489A1 (en) * | 2020-08-06 | 2022-02-10 | Agendia NV | Systems and methods of using cell-free nucleic acids to tailor cancer treatment |
CN113344272A (zh) * | 2021-06-08 | 2021-09-03 | 汕头大学 | 一种基于机器学习的circRNA与miRNA、RBP相互作用关系的预测方法 |
CN113823356A (zh) * | 2021-09-27 | 2021-12-21 | 电子科技大学长三角研究院(衢州) | 一种甲基化位点识别方法及装置 |
CN114694746A (zh) * | 2022-04-02 | 2022-07-01 | 大连理工大学 | 基于改进的MRMD算法和DF模型的植物pri-miRNA编码肽预测方法 |
CN114841262A (zh) * | 2022-04-29 | 2022-08-02 | 西安理工大学 | 一种基于ds证据理论的滚动轴承故障诊断方法 |
Non-Patent Citations (1)
Title |
---|
基于深度学习的环形RNA剪接位点识别研究;孙晓勇;《中国优秀硕博士学位论文全文数据库(硕士) 基础科学辑》(第第3期期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116070157A (zh) | 2023-05-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106446600B (zh) | 一种基于CRISPR/Cas9的sgRNA的设计方法 | |
CA2424031C (en) | System and process for validating, aligning and reordering genetic sequence maps using ordered restriction map | |
CN112256828B (zh) | 医学实体关系抽取方法、装置、计算机设备及可读存储介质 | |
WO2018218788A1 (zh) | 一种基于全局种子打分优选的三代测序序列比对方法 | |
JP4912646B2 (ja) | 遺伝子の転写物マッピング方法及びシステム | |
CN113779260B (zh) | 一种基于预训练模型的领域图谱实体和关系联合抽取方法及系统 | |
CN115345458A (zh) | 业务流程合规性检查方法、计算机设备以及可读存储介质 | |
CN116070157B (zh) | 基于级联森林和双流结构的circRNA识别方法 | |
CN112908414B (zh) | 一种大规模单细胞分型方法、系统及存储介质 | |
US11482304B2 (en) | Alignment methods, devices and systems | |
CN114566215B (zh) | 一种双端成对的剪接位点预测方法 | |
CN111460160B (zh) | 一种基于强化学习的流式文本数据的事件聚类方法 | |
CN111696629A (zh) | 一种rna测序数据的基因表达量计算方法 | |
CN114663130A (zh) | 一种基于决策树供应商采购管理方法及系统 | |
CN113610194A (zh) | 一种数字档案自动分类方法 | |
CN113821642B (zh) | 一种基于gan聚类的文本清洗方法及系统 | |
CN113792552B (zh) | 一种基于用户产生内容的观点转变指标计算方法 | |
CN116863195A (zh) | 一种基于图像关键数据提取的半监督学习主动方法 | |
CN117540742A (zh) | 融合位置标签并基于ernie3.0和多网络的命名实体识别方法 | |
CN116884630A (zh) | 一种提高疾病自动编码效率的方法 | |
CN116665776A (zh) | 一种序列合成周期预测模型的构建方法及其应用 | |
CN115273965A (zh) | 一种多类型rna甲基化修饰位点预测方法 | |
CN117711527A (zh) | 一种基于风格转换的药物分子优化方法 | |
CN117632249A (zh) | 一种基于节点特征融合的图神经网络代码差异检测方法 | |
CN116720143A (zh) | 泛在电力物联网的高精度负载预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |