CN115775592A - circRNA检测方法、计算机程序产品及系统 - Google Patents

circRNA检测方法、计算机程序产品及系统 Download PDF

Info

Publication number
CN115775592A
CN115775592A CN202111048948.0A CN202111048948A CN115775592A CN 115775592 A CN115775592 A CN 115775592A CN 202111048948 A CN202111048948 A CN 202111048948A CN 115775592 A CN115775592 A CN 115775592A
Authority
CN
China
Prior art keywords
circrna
reinjected
reference genome
candidate
selecting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111048948.0A
Other languages
English (en)
Inventor
张盼玉
范文涛
裘宇容
王勇斯
温韵洁
李奎
全智慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Huayinkang Medical Group Co ltd
Guangzhou Huayin Medical Laboratory Center Co Ltd
Original Assignee
Guangzhou Huayinkang Medical Group Co ltd
Guangzhou Huayin Medical Laboratory Center Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Huayinkang Medical Group Co ltd, Guangzhou Huayin Medical Laboratory Center Co Ltd filed Critical Guangzhou Huayinkang Medical Group Co ltd
Priority to CN202111048948.0A priority Critical patent/CN115775592A/zh
Publication of CN115775592A publication Critical patent/CN115775592A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提供了一种circRNA检测方法、计算机程序产品及系统。所述circRNA检测方法包括:从待测样品中筛选出符合预定品质的目标样品;基于所述目标样品与参考基因组的比对关系,选择出候选circRNA;从所述候选circRNA中选出待重注释circRNA,其中所述待重注释circRNA的起始碱基与参考circRNA数据库中的已知circRNA的起始碱基相对于所述参考基因组的绝对位置差不大于第一阈值,并且所述待重注释circRNA的终止碱基与所述已知circRNA的终止碱基相对于所述参考基因组的绝对位置差不大于第二阈值;以及基于所述已知circRNA的信息为所述待重注释circRNA添加注释信息。

Description

circRNA检测方法、计算机程序产品及系统
技术领域
本申请涉及生物信息领域,更具体地,涉及一种circRNA检测方法、计算机程序产品及系统。
背景技术
circRNA也称为环状RNA,通过特殊的可变剪切而形成,是一类不具有5’末端帽子(cap)和3’末端poly(A)尾巴,并且以共价键形成环形结构的RNA。circRNA是近些年RNA领域的研究和应用热点。
circRNA相较于线性RNA具有诸多特性和功能。由于circRNA以封闭环状结构的形式存在,不容易被RNA核酸外切酶或者RNase R降解,因此其比线性RNA稳定。另外,许多circRNA可作为竞争性内源RNA,可以竞争性地结合miRNA,是miRNA的海绵吸附体,可以调控生物体基因的表达。此外,circRNA具有组织特异性和发育阶段特异性,可以作为许多疾病诊断的生物标记物(biomarker)。由于circRNA所具有的诸多特性和功能,对circRNA进行检测分析,具有重要的应用价值。
发明内容
本申请提供了一种circRNA检测方法,包括:从待测样品中筛选出符合预定品质的目标样品;基于所述目标样品与参考基因组的比对关系,选择出候选circRNA;从所述候选circRNA中选出待重注释circRNA,其中所述待重注释circRNA的起始碱基与参考circRNA数据库中的已知circRNA的起始碱基相对于所述参考基因组的绝对位置差不大于第一阈值,并且所述待重注释circRNA的终止碱基与所述已知circRNA的终止碱基相对于所述参考基因组的绝对位置差不大于第二阈值;以及基于所述已知circRNA的信息为所述待重注释circRNA添加注释信息。
根据本申请实施方式,所述第一阈值和所述第二阈值被设置为:随着所述第一阈值和/或所述第二阈值的增加,所述候选circRNA中能够匹配到所述参考circRNA数据库中的已知circRNA的数量变化曲线的拐点值。
根据本申请实施方式,所述第一阈值和所述第二阈值在0至5之间。
根据本申请实施方式,所述第一阈值和所述第二阈值在3至5之间。
根据本申请实施方式,所述第一阈值和所述第二阈值均为5。
根据本申请实施方式,所述第一阈值和所述第二阈值均为3。
根据本申请实施方式,基于所述目标样品与参考基因组的比对关系,选择出候选circRNA包括:将所述目标样品与所述参考基因组进行匹配,并从所述目标样品中的、无法匹配到所述参考基因组的序列中选出所述候选circRNA。
根据本申请实施方式,基于所述已知circRNA的信息为所述待重注释circRNA添加注释信息包括:基于所述待重注释circRNA的起始碱基与所述已知circRNA的起始碱基相对于所述参考基因组的绝对位置差以及所述待重注释circRNA的终止碱基与所述已知circRNA的终止碱基相对于所述参考基因组的绝对位置差,标记所述待重注释circRNA与所述已知circRNA的相似度。
根据本申请实施方式,从所述目标样品中的、无法匹配到所述参考基因组的序列中选出所述候选circRNA包括:分别使用find_circ软件和CIRCexplorer2软件基于反向剪切点将所述无法匹配到所述参考基因组的序列与所述参考基因组重新进行比对,选择出所述候选circRNA,其中,所述候选circRNA是以下两组候选circRNA的交集:使用所述find_circ软件基于重新比对结果选择出的第一候选circRNA;以及使用所述CIRCexplorer2软件基于重新比对结果选择出的第二候选circRNA。
根据本申请实施方式,所述circRNA检测方法还包括:基于开放阅读框和内部核糖体进入位点预测添加注释信息后的所述待重注释circRNA的编码潜能。
本申请还提供了一种用于circRNA检测的计算机程序产品,包括计算机可读指令,所述计算机可读指令被处理器执行时实现以下操作:从待测样品中筛选出符合预定品质的目标样品;基于所述目标样品与参考基因组的比对关系,选择出候选circRNA;从所述候选circRNA中选出待重注释circRNA,其中所述待重注释circRNA的起始碱基与参考circRNA数据库中的已知circRNA的起始碱基相对于所述参考基因组的绝对位置差不大于第一阈值,并且所述待重注释circRNA的终止碱基与所述已知circRNA的终止碱基相对于所述参考基因组的绝对位置差不大于第二阈值;以及基于所述已知circRNA的信息为所述待重注释circRNA添加注释信息。
根据本申请实施方式,所述第一阈值和所述第二阈值被设置为:随着所述第一阈值和/或所述第二阈值的增加,所述候选circRNA中能够匹配到所述参考circRNA数据库中的已知circRNA的数量变化曲线的拐点值。
根据本申请实施方式,所述第一阈值和所述第二阈值在0至5之间。
根据本申请实施方式,所述第一阈值和所述第二阈值在3至5之间。
根据本申请实施方式,所述第一阈值和所述第二阈值均为5。
根据本申请实施方式,所述第一阈值和所述第二阈值均为3。
根据本申请实施方式,基于所述目标样品与参考基因组的比对关系,选择出候选circRNA包括:将所述目标样品与所述参考基因组进行匹配,并从所述目标样品中的、无法匹配到所述参考基因组的序列中选出所述候选circRNA。
根据本申请实施方式,基于所述已知circRNA的信息为所述待重注释circRNA添加注释信息包括:基于所述待重注释circRNA的起始碱基与所述已知circRNA的起始碱基相对于所述参考基因组的绝对位置差以及所述待重注释circRNA的终止碱基与所述已知circRNA的终止碱基相对于所述参考基因组的绝对位置差,标记所述待重注释circRNA与所述已知circRNA的相似度。
根据本申请实施方式,从所述目标样品中的、无法匹配到所述参考基因组的序列中选出所述候选circRNA包括:分别使用find_circ软件和CIRCexplorer2软件基于反向剪切点将所述无法匹配到所述参考基因组的序列与所述参考基因组重新进行比对,选择出所述候选circRNA,其中,所述候选circRNA是以下两组候选circRNA的交集:使用所述find_circ软件基于重新比对结果选择出的第一候选circRNA;以及使用所述CIRCexplorer2软件基于重新比对结果选择出的第二候选circRNA。
根据本申请实施方式,所述操作还包括:基于开放阅读框和内部核糖体进入位点预测添加注释信息后的所述待重注释circRNA的编码潜能。
本申请还提供了一种用于circRNA检测的系统,包括:存储器,所述存储器存储可执行指令;一个或多个处理器,所述一个或多个处理器与所述存储器通信以执行可执行指令从而完成以下操作:从待测样品中筛选出符合预定品质的目标样品;基于所述目标样品与参考基因组的比对关系,选择出候选circRNA;从所述候选circRNA中选出待重注释circRNA,其中所述待重注释circRNA的起始碱基与参考circRNA数据库中的已知circRNA的起始碱基相对于所述参考基因组的绝对位置差不大于第一阈值,并且所述待重注释circRNA的终止碱基与所述已知circRNA的终止碱基相对于所述参考基因组的绝对位置差不大于第二阈值;以及基于所述已知circRNA的信息为所述待重注释circRNA添加注释信息。
根据本申请实施方式,所述第一阈值和所述第二阈值被设置为:随着所述第一阈值和/或所述第二阈值的增加,所述候选circRNA中能够匹配到所述参考circRNA数据库中的已知circRNA的数量变化曲线的拐点值。
根据本申请实施方式,所述第一阈值和所述第二阈值在3至5之间。
根据本申请实施方式,所述第一阈值和所述第二阈值均为5。
根据本申请实施方式,所述第一阈值和所述第二阈值均为3。
根据本申请实施方式,基于所述目标样品与参考基因组的比对关系,选择出候选circRNA包括:将所述目标样品与所述参考基因组进行匹配,并从所述目标样品中的、无法匹配到所述参考基因组的序列中选出所述候选circRNA。
根据本申请实施方式,基于所述已知circRNA的信息为所述待重注释circRNA添加注释信息包括:基于所述待重注释circRNA的起始碱基与所述已知circRNA的起始碱基相对于所述参考基因组的绝对位置差,以及所述待重注释circRNA的终止碱基与所述已知circRNA的终止碱基相对于所述参考基因组的绝对位置差,标记所述待重注释circRNA与所述已知circRNA的相似度。
根据本申请实施方式,从所述目标样品中的、无法匹配到所述参考基因组的序列中选出所述候选circRNA包括:分别使用find_circ软件和CIRCexplorer2软件基于反向剪切点将所述无法匹配到所述参考基因组的序列与所述参考基因组重新进行比对,选择出所述候选circRNA,其中,所述候选circRNA是以下两组候选circRNA的交集:使用所述find_circ软件基于重新比对结果选择出的第一候选circRNA;以及使用所述CIRCexplorer2软件基于重新比对结果选择出的第二候选circRNA。
根据本申请实施方式,所述操作还包括:基于开放阅读框和内部核糖体进入位点预测添加注释信息后的所述待重注释circRNA的编码潜能。
本申请提供的技术方案可以实现更精确的circRNA检测效果。
附图说明
通过阅读参照以下附图所作的对非限制性实施方式所作的详细描述,本申请的其它特征、目的和有益效果将会变得更明显:
图1是根据本申请实施方式的一种circRNA检测方法的流程图;
图2是根据本申请实施方式在三次不同的circRNA检测过程中使用不同方法检测得到的circRNA的数量的示意图;
图3是根据本申请实施方式随着适配距离的变化能够匹配到circBase数据库中的已知circRNA的数量变化的示意图;以及
图4是根据本申请实施方式实现circRNA检测方法的计算机系统的示意图。
具体实施方式
为了更好地理解本申请,将参考附图对本申请的技术方案做出更详细的说明。应理解,这些详细说明只是对本申请的示例性实施方式的描述,而非旨在以任何方式限制本申请的范围。在说明书全文中,相同的附图标记指代相同的元件。表述“和/或”包括相关联的所列项目中的一个或多个项目的任何组合或全部组合。
应注意,在本说明书中,“第一”“第二”“第三”等表述仅用于将一个特征与另一个特征区分开来,而不表示对特征的任何限制。因此,在不背离本申请的教导的情况下,下文中讨论的第一阈值也可被称作第二阈值。反之亦然。
在附图中,为了便于说明,已稍微调整了图例的尺寸、比例和形状。附图仅为示例而并非严格按比例绘制。如在本文中使用的,用语“大致”“大约”以及类似的用语用作表近似的用语,而不用作表程度的用语,并且旨在说明将由本领域普通技术人员认识到的测量值或计算值中的固有偏差。
还应理解的是,诸如“包括”“包括有”“具有”“包含”和/或“包含有”等表述在本说明书中是开放性而非封闭性的表述,其表示存在所陈述的特征、元件和/或部件,但不排除一个或多个其它特征、元件、部件和/或它们的组合的存在。此外,当诸如“...中的至少一个”的表述出现在所列特征的列表之后时,其修饰整列特征,而非仅仅修饰列表中的单个特征。此外,当描述本申请的实施方式时,使用“可”表示“本申请的一个或多个实施方式”。并且,措辞“示例性的”旨在指代示例或举例说明。
除非另外限定,否则本文中使用的所有措辞(包括工程术语和科技术语)均具有与本申请所属领域普通技术人员的通常理解相同的含义。还应理解的是,除非本申请中有明确的说明,否则在常用词典中定义的词语应被解释为具有与它们在相关技术的上下文中的含义一致的含义,而不应以理想化或过于形式化的意义解释。
需要说明的是,在不冲突的情况下,本申请中的实施方式及实施例中的特征可以相互组合。另外,除非明确限定或与上下文相矛盾,否则本申请所记载的方法中包含的具体步骤不必限于所记载的顺序,而可以任意顺序执行或并行地执行。下面将参考附图并结合实施方式来详细说明本申请。
图1示出了根据本申请实施方式的一种circRNA检测方法1000的流程图。
在步骤S1010,从待测样品中筛选出符合预定品质的目标样品。
为了保证circRNA的检测精度,通常需要先对待测样品进行数据质量控制(以下称“质控”),滤除样本中品质较低的数据。本领域普通技术人员可知,可以通过多种方式和软件来对待测样品进行质控过滤。根据本申请实施方式的circRNA检测方法例如可以通过高通量测序技术来实现。在这种情况下,用于质控过滤的软件包括但不限于FastQC、cutadapt、SOAPnuke filter。
在质控过滤过程中,可以根据检测任务需求设定过滤条件,从而仅筛选出符合预定品质的目标样品。例如,可以去除样本中以下数据:碱基质量值(quality score,Q-score)小于10的碱基占本样品读长(reads,测序仪单次测序所得到的碱基序列)的比例大于50%的数据;无法确定碱基信息(一般用N表示)的碱基比例大于10%的数据;包含接头(adapter)的数据;和包含polyA的数据。
表1示出了根据设定的过滤条件筛选出的符合预定品质的目标样品的统计结果。
表1
Figure BDA0003251994370000071
Figure BDA0003251994370000081
待测样品经测序得到的原始图像可以被转化成序列数据,例如可以是fastq文件格式。该数据存储读长的序列以及读长的测序质量。在fastq格式文件中每个读长由四行描述:第1行和第3行是序列名称,由测序仪产生;第2行是序列内容;第4行是序列的测序质量。
在表1中,原始序列数量是以四行为一个单位统计得出的每个样本的测序序列的个数。筛选后序列数量是经过质控过滤后得到的用于后续处理的序列的个数。原始序列数据总碱基数是指原始序列测序得到的总碱基数;筛选后序列数据总碱基数是指经过质控过滤后得到的用于后续处理的序列的总碱基数。有效利用率是指过滤后的序列占原始序列的比例。碱基测序错误率是指未被采用的(或,被滤除的)序列占原始序列的比例。Q20和Q30分别表示Phred数值在20和30以上的碱基在总碱基数的比例。GC碱基比例表示碱基G和碱基C的数量总和占总碱基数的比例。
在步骤S1020,基于所述目标样品与参考基因组的比对关系,选择出候选circRNA。由于circRNA在成环位置存在反向剪切,因此circRNA的这部分序列无法比对到参考基因组上,这也构成了circRNA与线性RNA的主要区别。可以基于目标样品与参考基因组的比对关系以及circRNA特性选择出可能属于circRNA的序列,以下称候选circRNA。
在步骤S1030,从所述候选circRNA中选出待重注释circRNA,其中所述待重注释circRNA的起始碱基与参考circRNA数据库中的已知circRNA的起始碱基的相对于参考基因组的绝对位置差不大于第一阈值并且候选circRNA的终止碱基与所述已知circRNA的终止碱基相对于参考基因组绝对位置差不大于第二阈值。
在样品制备过程或者测序过程的各个环节中,可能因为一些因素导致目标样品的测序数据在碱基序列上存在一些误差。如果在circRNA鉴定过程中无视这些误差,可能导致circRNA鉴定的结果不够准确。例如,这些误差可能导致将实际已经被现有的参考circRNA数据库收录的circRNA序列识读为新circRNA序列,这将降低circRNA检测的精度,并且无法充分利用参考circRNA数据库的数据。为此,本申请实施方式提供了一种距离适配算法来优化鉴定精度。
在circRNA鉴定过程中,距离适配的参数可以用以下公式来表达:
StaTy(x)=|StaSiInfo(i)-StaSiPre(j)|
EndTy(x)=|EndSiInfo(i)-EndSiPre(j)|
其中:StaSiInfo(i)表示在参考circRNA数据库中,某已知circRNA在参考基因组的起始位置;StaSiPre(j)表示正在检测的候选circRNA在参考基因组的起始位置;EndSiInfo(i)表示在参考circRNA数据库中,某已知circRNA在参考基因组的终止位置;EndSiPre(j)表示正在检测的候选circRNA在参考基因组的终止位置。参考circRNA数据库包括但不限于circBase数据库等现有数据库。
在距离适配过程中,可以将StaTy(x)不大于第一阈值并且EndTy(x)不大于第二阈值的候选circRNA进行重新注释。在实际应用中,可以将第一阈值设置为与第二阈值相同。
在步骤S1040,基于所述已知circRNA的信息为所述待重注释circRNA添加注释信息。注释信息可以是circRNA的名称、待重注释circRNA和已知circRNA在参考基因组中的位置相似度等。例如,可以基于所述待重注释circRNA的起始碱基与所述已知circRNA的起始碱基相对于所述参考基因组的绝对位置差StaTy(x),以及所述待重注释circRNA的终止碱基与所述已知circRNA的终止碱基相对于所述参考基因组的绝对位置差EndTy(x),标记所述待重注释circRNA与所述已知circRNA的相似度。
根据本申请实施方式,基于所述目标样品与参考基因组的比对关系,选择出候选circRNA包括:将所述目标样品与所述参考基因组进行匹配,并从所述目标样品中的、无法匹配到所述参考基因组的序列中选出所述候选circRNA。
在高通量测序的技术框架下,为得到测序reads与参考基因组对应关系,无论在线性RNA检测还是circRNA检测的过程中,在质控过滤后都需将目标样品匹配到参考基因组中。这类似于在拼图游戏中将一个“拼板”匹配到完整的“拼图”中,以明确“拼板”在“拼图”的关系。由于circRNA在成环位置存在反向剪切,所以circRNA的这部分序列无法比对到参考基因组上。基于该原理,可以将目标样品中的无法匹配到参考基因组上的序列选出以用于后续的鉴定分析,这部分序列有较大可能属于circRNA。
具体而言,可以使用bowtie和/或tophat算法将质控过滤后得到的目标样品与参考基因组进行比对,选择出无法匹配到参考基因组的序列。这部分序列可称为未匹配读长(Unmapped Reads)。随后可进一步利用find_circ和/或CIRCexplorer2等软件对未匹配读长进一步分析鉴定。
在分析鉴定中,可以分别使用find_circ软件和CIRCexplorer2软件对未匹配读长进行比对分析。由于circRNA存在反向剪切,因此circRNA在反向剪切位点(Backsplicejunction)附近区域的部分序列与参考基因组中的相应基因序列在位置上是相反的。在比对分析过程中,可以考虑circRNA的反向剪切性质,将未匹配读长重新处理并与参考基因组进行比对。
在比对过程中,find_circ软件和CIRCexplorer2软件各有其特点:CIRCexplorer2需要依赖Bowtie1和Bowtie2根据参考基因组的索引文件,可以在一定程度上降低假阳性;而find_circ不需要与参考基因组相关的索引文件,可鉴定的circRNA种类较多。在分别使用find_circ软件和CIRCexplorer2软件对未匹配读长进行进一步比对分析后,可以将两者都鉴定为circRNA的序列选为将进行下一步分析的候选circRNA。两种软件结果综合,可以降低将非circRNA鉴定为circRNA的概率(也称“假阳性率”)。
图2示出了在三次不同的circRNA检测过程中,单独使用find_circ软件、单独使用CIRCexplorer2软件以及同时使用find_circ软件和CIRCexplorer2软件检测得到的circRNA的数量。可以看出,将使用find_circ软件选择出的第一候选circRNA和使用CIRCexplorer2软件选择出的第二候选circRNA中共同包含的circRNA选作为所述候选circRNA,可以有效降低假阳性率。
根据本申请实施方式,可以对候选circRNA进行重注释。重注释的好处在于,可以更好地利用参考circRNA数据库的资源,从而实现更精确的circRNA检测,并为后续研究提供便利。如上所述,在样品制备过程或者测序过程的各个环节中,可能因为一些因素导致目标样品的测序数据在碱基序列上存在一些误差。如果在circRNA鉴定过程中无视这些误差,可能导致circRNA鉴定的结果不够准确。例如,这些误差可能导致将实际已经被参考circRNA数据库收录的序列识读为新circRNA序列。因此,本申请实施方式给出了一种距离适配的重注释方法。在距离适配算法中,如果第一阈值和第二阈值设置得过小,可能失去了距离适配的意义;然而,如果第一阈值和第二阈值设置得过大,可能导致重注释的信息误差过大。
申请人探索了在采用不同适配距离(即,第一阈值和/或第二阈值)时能够匹配到circBase数据库中的已知circRNA的数量变化,并提出了基于数量变化曲线的拐点选择合适适配距离的方案。
图3示出了随着适配距离的变化,能够匹配到circBase数据库中的已知circRNA的数量变化。在图3所示的实验中,我们设定第一阈值与第二阈值相同,均表示为适配距离,单位为碱基对(bp)。
随着适配距离的增加,候选circRNA与circBase数据库进行位置匹配的容错率增加,候选circRNA中匹配到circBase数据库中的已知circRNA的数量会增加,这可以更充分地利用circBase数据库中已知circRNA的数据。但与此同时,匹配结果的准确度也会下降。尤其是,在利用高通量测序结果进行circRNA鉴定时,find_circ仅抽取未比对至参考基因组序列的前后20个bp切开,从而重新与参考基因组序列进行比对,因此,当适配距离过大时,例如,超过20个bp时,注释结果将变得不可信。
然而,申请人发现,随着适配距离的增加,候选circRNA中匹配到circBase数据库中的已知circRNA的数量的增加并非是线性的,而是存在增长拐点。这意味着,在拐点位置处,适配距离的增长所带来的收益达到一个极值。因此,本申请提出,可以将适配距离设置为:随着适配距离的增加,候选circRNA中能够重注释到参考circRNA数据库中的已知circRNA的数量变化曲线的拐点值。
如图3所示,在使用circBase数据库时,适配距离在3bp和5bp处时,候选circRNA中能够重注释到circBase数据库中的已知circRNA的数量增长达到拐点。因此,第一阈值和第二阈值均可以设定在0-5之间,优选地,第一阈值和第二阈值均可以设定在3-5之间,更优选地,第一阈值可以设定为3或者5并且第二阈值也可以设定为3或者5。例如,第一阈值可以设定为3,而第二阈值可以设定为5。或者,为保证准确度,在一些实施例,可以将第一阈值设定为0,而将第二阈值设定为3。
依据上述适配距离结果,可以将候选circRNA的起始位置(相对于参考基因组)与circRNA数据库中的已知circRNA的起始位置(相对于参考基因组)之间的差值小于第一阈值并且候选circRNA的终止位置(相对于参考基因组)与circRNA数据库中的已知circRNA的终止位置(相对与参考基因组)之间的差值小于第二阈值的序列(即,待重注释circRNA)选出,并基于已知circRNA的信息为该序列添加注释信息。例如,可以基于所述待重注释某circRNA在参考基因组中起始位置对与所述已知circRNA在参考基因组中起始位置相对于所述参考基因组的绝对位置差以及所述待重注释circRNA在参考基因组的终止位置与所述已知circRNA相对于参考基因组的终止位置的绝对位置差,标记所述待重注释circRNA与所述已知circRNA的相似度。
表2和表3示出了采用距离适配算法前和距离适配算法后检测得到的circRNA的注释信息表。
表2
Figure BDA0003251994370000121
Figure BDA0003251994370000131
在表2中,由于未采用距离适配进行重注释,鉴定得到的circRNA与已知circRNA不能联系起来,因此,检测出的circRNA均被标记为新的circRNA。
表3
Figure BDA0003251994370000132
在表3中,适配距离设定为3。NA表示候选circRNA中起始位置和终止位置与参考circRNA数据库中的已知circRNA的相应位置差均大于3的circRNA;Likely表示候选circRNA中起始位置和终止位置与参考circRNA数据库中的已知circRNA的相应位置差均在1至3之间的circRNA。虽然在表3中未示出,但可以将完全匹配到参考circRNA数据库中的已知circRNA的候选circRNA的Type值设定为Perfect。
由于circRNA在很长一段时间内都被认为是长链非编码RNA(lncRNA)的一部分,因此,早期的circRNA检测方法都不包含对circRNA的蛋白质编码潜能的预测。但新的研究表明,部分circRNA本身即具有蛋白质编码能力,可以控制多肽的生成。因此,根据本申请实施方式,在对候选circRNA进行重注释之后,还可基于开放阅读框(ORF)和核糖体进入位点(IRES)预测注释后circRNA的编码潜能。例如,可以使用TransDecoder软件,结合Pfam、Uniprot数据库对重注释之后的circRNA进行ORF预测,并从中提取最长ORF区。然后,可以根据ORF预测结果使用IRESfinder软件预测circRNA的IRES位点。最后,可以基于ORF和IRES的预测结果,判断该circRNA的编码潜能。
本申请还提供了一种circRNA检测系统,可以通过移动终端、个人计算机(PC)、平板电脑、服务器等形式实现。下面参考图4,其示出了适于用来实现本申请实施方式的circRNA检测系统的结构示意图。
如图4所示,计算机系统400包括一个或多个处理器、通信部等,所述一个或多个处理器例如:一个或多个中央处理单元(CPU)401,和/或一个或多个图像处理器(GPU)413等,处理器可以根据存储在只读存储器(ROM)402中的可执行指令或者从存储部408加载到随机存取存储器(RAM)403中的可执行指令而执行各种适当的动作和处理。通信部412可包括但不限于网卡,所述网卡可包括但不限于IB(Infiniband)网卡。
处理器可与只读存储器402和/或随机存取存储器403通信以执行可执行指令,通过总线404与通信部412相连、并经通信部412与其他目标设备通信,从而完成本申请实施方式提供的任一项方法对应的操作,例如:从待测样品中筛选出符合预定品质的目标样品;基于所述目标样品与参考基因组的比对关系,选择出候选circRNA;从所述候选circRNA中选出待重注释circRNA,其中所述待重注释circRNA的起始碱基与参考circRNA数据库中的已知circRNA的起始碱基相对于所述参考基因组的绝对位置差不大于第一阈值,并且所述待重注释circRNA的终止碱基与所述已知circRNA的终止碱基相对于所述参考基因组的绝对位置差不大于第二阈值;以及基于所述已知circRNA的信息为所述待重注释circRNA添加注释信息。
此外,在RAM 403中,还可存储有装置操作所需的各种程序和数据。CPU 401、ROM402以及RAM 403通过总线404彼此相连。在有RAM 403的情况下,ROM 402为可选模块。RAM403存储可执行指令,或在运行时向ROM 402中写入可执行指令,可执行指令使处理器401执行上述通信方法对应的操作。输入/输出接口(I/O接口)405也连接至总线404。通信部412可以集成设置,也可以设置为具有多个子模块(例如多个IB网卡),并在总线链接上。
以下部件连接至I/O接口405:包括键盘、鼠标等的输入部406;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部407;包括硬盘等的存储部408;以及包括诸如LAN卡、调制解调器等的网络接口卡的通讯部409。通讯部409经由诸如因特网的网络执行通信处理。驱动器410也根据需要连接至I/O接口405。可拆卸介质411,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器410上。
需要说明的,如图4所示的架构仅为一种可选实现方式,在具体实践过程中,可根据实际需要对上述图4的部件数量和类型进行选择、删减、增加或替换;在不同功能部件设置上,也可采用分离设置或集成设置等实现方式,例如GPU和CPU可分离设置或者可将GPU集成在CPU上,通信部412可分离设置,也可集成设置在CPU或GPU上,等等。这些可替换的实施方式均落入本发明公开的保护范围。
特别地,根据本申请,参考流程图1描述的过程可以被实现为计算机程序产品。例如,本申请提供一种计算机程序产品,包括计算机可读指令,所述计算机可读指令被处理器执行时实现以下操作:从待测样品中筛选出符合预定品质的目标样品;基于所述目标样品与参考基因组的比对关系,选择出候选circRNA;从所述候选circRNA中选出待重注释circRNA,其中所述待重注释circRNA的起始碱基与参考circRNA数据库中的已知circRNA的起始碱基相对于所述参考基因组的绝对位置差不大于第一阈值,并且所述待重注释circRNA的终止碱基与所述已知circRNA的终止碱基相对于所述参考基因组的绝对位置差不大于第二阈值;以及基于所述已知circRNA的信息为所述待重注释circRNA添加注释信息。在这样的实施方式中,该计算机程序产品可以通过通讯部409从网络上被下载和安装,和/或从可拆卸介质411中读取并安装。在该计算机程序产品被中央处理单元(CPU)401执行时,执行本申请的方法中限定的上述功能。
可能以许多方式来实现本申请的技术方案。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本申请的技术方案。用于说明方法的步骤顺序仅是为了更清楚地说明技术方案的目的而提供。除非经特别限定,否则本申请的方法步骤不限于以上具体描述的顺序。此外,在一些实施方式中,还可将本申请实施为存储计算机程序产品的存储介质。
以上描述仅为本申请的实施方式以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的保护范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述技术构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (12)

1.一种circRNA检测方法,包括:
从待测样品中筛选出符合预定品质的目标样品;
基于所述目标样品与参考基因组的比对关系,选择出候选circRNA;
从所述候选circRNA中选出待重注释circRNA,其中所述待重注释circRNA的起始碱基与参考circRNA数据库中的已知circRNA的起始碱基相对于所述参考基因组的绝对位置差不大于第一阈值,并且所述待重注释circRNA的终止碱基与所述已知circRNA的终止碱基相对于所述参考基因组的绝对位置差不大于第二阈值;以及
基于所述已知circRNA的信息为所述待重注释circRNA添加注释信息。
2.根据权利要求1所述的circRNA检测方法,其中,所述第一阈值和所述第二阈值被设置为:随着所述第一阈值和/或所述第二阈值的增加,所述候选circRNA中能够匹配到所述参考circRNA数据库中的已知circRNA的数量变化曲线的拐点值。
3.根据权利要求1所述的circRNA检测方法,其中,所述第一阈值和所述第二阈值在0至5之间。
4.根据权利要求3所述的circRNA检测方法,其中,所述第一阈值和所述第二阈值在3至5之间。
5.根据权利要求3所述的circRNA检测方法,其中,所述第一阈值和所述第二阈值均为5。
6.根据权利要求3所述的circRNA检测方法,其中,所述第一阈值和所述第二阈值均为3。
7.根据权利要求1所述的circRNA检测方法,其中,基于所述目标样品与参考基因组的比对关系,选择出候选circRNA包括:
将所述目标样品与所述参考基因组进行匹配,并从所述目标样品中的、无法匹配到所述参考基因组的序列中选出所述候选circRNA。
8.根据权利要求1所述的circRNA检测方法,其中,基于所述已知circRNA的信息为所述待重注释circRNA添加注释信息包括:
基于所述待重注释circRNA的起始碱基与所述已知circRNA的起始碱基相对于所述参考基因组的绝对位置差,以及所述待重注释circRNA的终止碱基与所述已知circRNA的终止碱基相对于所述参考基因组的绝对位置差,标记所述待重注释circRNA与所述已知circRNA的相似度。
9.根据权利要求7所述的circRNA检测方法,其中,从所述目标样品中的、无法匹配到所述参考基因组的序列中选出所述候选circRNA,包括:
分别使用find_circ软件和CIRCexplorer2软件基于反向剪切点将所述无法匹配到所述参考基因组的序列与所述参考基因组重新进行比对,选择出所述候选circRNA,其中,所述候选circRNA是以下两组候选circRNA的交集:使用所述find_circ软件基于重新比对结果选择出的第一候选circRNA;以及使用所述CIRCexplorer2软件基于重新比对结果选择出的第二候选circRNA。
10.根据权利要求1-9中任一项所述的circRNA检测方法,其中,所述circRNA检测方法还包括:
基于开放阅读框和内部核糖体进入位点预测添加注释信息后的所述待重注释circRNA的编码潜能。
11.一种用于circRNA检测的计算机程序产品,包括计算机可读指令,其特征在于,所述计算机可读指令被处理器执行时实现以下操作:
从待测样品中筛选出符合预定品质的目标样品;
基于所述目标样品与参考基因组的比对关系,选择出候选circRNA;
从所述候选circRNA中选出待重注释circRNA,其中所述待重注释circRNA的起始碱基与参考circRNA数据库中的已知circRNA的起始碱基相对于所述参考基因组的绝对位置差不大于第一阈值,并且所述待重注释circRNA的终止碱基与所述已知circRNA的终止碱基相对于所述参考基因组的绝对位置差不大于第二阈值;以及
基于所述已知circRNA的信息为所述待重注释circRNA添加注释信息。
12.一种用于circRNA检测的系统,包括:
存储器,所述存储器存储可执行指令;以及
一个或多个处理器,所述一个或多个处理器与所述存储器通信以执行可执行指令从而完成以下操作:
从待测样品中筛选出符合预定品质的目标样品;
基于所述目标样品与参考基因组的比对关系,选择出候选circRNA;
从所述候选circRNA中选出待重注释circRNA,其中所述待重注释circRNA的起始碱基与参考circRNA数据库中的已知circRNA的起始碱基相对于所述参考基因组的绝对位置差不大于第一阈值,并且所述待重注释circRNA的终止碱基与所述已知circRNA的终止碱基相对于所述参考基因组的绝对位置差不大于第二阈值;以及
基于所述已知circRNA的信息为所述待重注释circRNA添加注释信息。
CN202111048948.0A 2021-09-08 2021-09-08 circRNA检测方法、计算机程序产品及系统 Pending CN115775592A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111048948.0A CN115775592A (zh) 2021-09-08 2021-09-08 circRNA检测方法、计算机程序产品及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111048948.0A CN115775592A (zh) 2021-09-08 2021-09-08 circRNA检测方法、计算机程序产品及系统

Publications (1)

Publication Number Publication Date
CN115775592A true CN115775592A (zh) 2023-03-10

Family

ID=85388076

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111048948.0A Pending CN115775592A (zh) 2021-09-08 2021-09-08 circRNA检测方法、计算机程序产品及系统

Country Status (1)

Country Link
CN (1) CN115775592A (zh)

Similar Documents

Publication Publication Date Title
US11702708B2 (en) Systems and methods for analyzing viral nucleic acids
US20230272483A1 (en) Systems and methods for analyzing circulating tumor dna
US11649495B2 (en) Systems and methods for mitochondrial analysis
Ronen et al. netSmooth: Network-smoothing based imputation for single cell RNA-seq
US20160259880A1 (en) Systems and methods for genomic pattern analysis
AU2014337093B2 (en) Methods and systems for identifying disease-induced mutations
CN105793859B (zh) 用于检测序列变异体的系统
US20210272649A1 (en) Systems and methods for automating rna expression calls in a cancer prediction pipeline
US20170199959A1 (en) Genetic analysis systems and methods
WO2015123269A1 (en) System and methods for analyzing sequence data
JP2017500004A (ja) 遺伝子試料について遺伝子型解析するための方法およびシステム
WO2018218788A1 (zh) 一种基于全局种子打分优选的三代测序序列比对方法
US20210332354A1 (en) Systems and methods for identifying differential accessibility of gene regulatory elements at single cell resolution
US20180247016A1 (en) Systems and methods for providing assisted local alignment
US20150142334A1 (en) System, method and computer-accessible medium for genetic base calling and mapping
CN115083521B (zh) 一种单细胞转录组测序数据中肿瘤细胞类群的鉴定方法及系统
CN113470743A (zh) 一种基于bd单细胞转录组和蛋白组测序数据的差异基因分析方法
CN108595912B (zh) 检测染色体非整倍性的方法、装置及系统
Kearse et al. The Geneious 6.0. 3 read mapper
US20140288844A1 (en) Characterization of biological material in a sample or isolate using unassembled sequence information, probabilistic methods and trait-specific database catalogs
WO2019213811A1 (zh) 检测染色体非整倍性的方法、装置及系统
CN108715891B (zh) 一种转录组数据的表达定量方法及系统
CN115775592A (zh) circRNA检测方法、计算机程序产品及系统
WO2019213810A1 (zh) 检测染色体非整倍性的方法、装置及系统
CN110462056A (zh) 基于dna测序数据的样本来源检测方法、装置和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination