CN112735527B - 一种串联序列解析方法、装置和存储介质 - Google Patents

一种串联序列解析方法、装置和存储介质 Download PDF

Info

Publication number
CN112735527B
CN112735527B CN202110013886.3A CN202110013886A CN112735527B CN 112735527 B CN112735527 B CN 112735527B CN 202110013886 A CN202110013886 A CN 202110013886A CN 112735527 B CN112735527 B CN 112735527B
Authority
CN
China
Prior art keywords
primer
sequence
full
length
fragment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110013886.3A
Other languages
English (en)
Other versions
CN112735527A (zh
Inventor
朱欠华
杨林峰
黎剑波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Huada Gene Technology Service Co ltd
Original Assignee
Wuhan Huada Gene Technology Service Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Huada Gene Technology Service Co ltd filed Critical Wuhan Huada Gene Technology Service Co ltd
Priority to CN202110013886.3A priority Critical patent/CN112735527B/zh
Publication of CN112735527A publication Critical patent/CN112735527A/zh
Application granted granted Critical
Publication of CN112735527B publication Critical patent/CN112735527B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本申请公开了一种串联序列解析方法、装置和存储介质。本申请的方法包括,从引物序列或其反向互补序列中截取锚片段P,在测序片段中与锚片段P完全匹配处截取与引物序列等长的片段S;将两者进行精确比对,保留比对长度占引物序列50%以上的结果,记录引物序列及其类型;根据引物序列的类型判断全长插入片段和连接点,根据连接点的引物类型,进行两端延伸,分析全长插入片段和非全长插入片段。本申请的方法,通过较短的锚片段P进行引物序列的快速定位,结合精确比对,提升了引物序列的比对效率;通过识别连接点,再根据连接点的引物类型,进行两端延伸,有效地避免了引物比对假阳性导致的拆分错误的问题,提升了拆分准确性和数据拆分率。

Description

一种串联序列解析方法、装置和存储介质
技术领域
本申请涉及核酸测序数据分析技术领域,特别是涉及一种串联序列解析方法、装置和存储介质。
背景技术
为了提升数据利用率,降低测序成本,目前的全长转录组产品,是先把目的片段基于特定的酶将多个目的片段连接起来,形成串联序列,然后再构建文库进行上机测序。但是在片段连接的过程中,由于酶活性或者片段本身的一些结构特征等影响,会出现部分片段嵌合的现象。并且,测序还会引入碱基错误率,尤其是ONT平台的数据,其错误率高达10%左右。这些因素极大的阻碍了测序数据的拆分。如何准确地进行数据拆分,是后续信息分析的基础,将极大的影响下游结果的准确性。
目前常用的做法是基于blast比对,定位接头序列的位置,然后基于相邻的两个接头序列的关系进行数据拆分。因为需要考虑测序错误率,所以一般在blast匹配接头都是容错匹配,这样会引入一些错误的接头匹配位置;而拆分是基于相邻的接头进行判断其类别,所以会出现错误拆分的情况,其拆分准确率较低。此外,一般的测序数据都是几十万条,blast比对的速度较慢,运算成本也较高。
因此,如何准确、有效的进行串联序列解析,仍然是本领域的研究重点和难点之一。
发明内容
本申请的目的是提供一种新的串联序列解析方法、串联序列解析装置和存储介质。
为了实现上述目的,本申请采用了以下技术方案:
本申请的第一方面公开了一种串联序列解析方法,包括以下步骤:
引物定位步骤,包括将5端primer序列、5端primer反向互补序列、3端primer序列和3端primer序列反向互补序列作为待分析primer序列,分别进行如下操作,根据锚长度对待分析primer序列进行连续截取得到锚片段P,在测序片段中与锚片段P完全匹配处截取与待分析primer序列等长的片段S;将待分析primer序列与片段S进行精确比对,保留比对长度占待分析primer序列的50%以上的结果,根据比对结果,记录在测序片段中相应位置上匹配的待分析primer序列及其类型;
解析测序片段步骤,包括根据引物定位步骤获得的测序片段中的待分析primer序列的类型判断全长插入片段和连接点;其中,全长插入片段判断条件为相邻的两个primer之间的距离大于10bp,并且满足下列情形之一:(i)前后相邻的两个primer分别为5端primer序列和3端primer反向互补序列,(ii)前后相邻的两个primer分别为3端primer序列和5端primer反向互补序列;连接点判断条件为相邻的两个primer之间的距离小于或等于10bp,并且满足下列情形之一:(i)相邻的两个primer分别为5端primer反向互补序列和3端primer序列,(ii)相邻的两个primer分别为3端primer反向互补序列和5端primer序列,(iii)相邻的两个primer分别为3端primer反向互补序列和3端primer序列;根据连接点位置确定插入片段序列及其类型具体包括:(i)第一个连接点的primer,往前回溯至满足全长插入片段判断条件且得分最高的primer处,截取这两个primer之间的序列,记录为全长插入片段;如果不存在满足全长插入片段判断条件的primer,则从截取测序片段起点至该第一个连接点的primer处的片段,记录为非全长插入片段;(ii)最后一个连接点的primer,往后延伸至满足全长插入片段判断条件且得分最高的primer,截取这两个primer之间的序列,记录为全长插入片段;如果不存在满足全长插入片段判断条件的primer,则截取该最后一个连接点的primer至测序片段末尾的序列,记录为非全长插入片段;(iii)中间的连接点,截取两个primer之间的序列,若满足全长插入片段判断条件,则记录为全长插入片段,否则为非全长插入片段;对所有的测序片段分别进行全长插入片段判断,获得全部的全长插入片段和非全长插入片段,即完成串联序列解析。
本申请中测序片段是指测序下机获得的尚未经过解析的片段,例如reads;当然,在进行本申请的串联序列解析之前,可以对下机获得的测序片段预先进行质检,过滤去除其中不符合测序质量要求的片段,在此不作具体限定。本申请中primer即引物,5端primer序列即5’端的引物序列,5端primer反向互补序列即5’端的引物序列的反向互补序列,3端primer序列即3’端的引物序列,3端primer序列反向互补序列即3’端的引物序列的反向互补序列。
本申请中,得分最高的primer中,primer得分是指primer定位中精确比对的得分。本申请的截取测序片段起点是指对测序片段进行优化后,去除其接头序列等其它序列后的起点。本申请的第一个连接点primer和最后一个连接点primer是指一个测序片段中按从5’到3’端的顺序排列的所有连接点primer。
需要说明的是,相邻的两个primer除了以上的几种情况以外,其它情况,例如相邻两个primer分别为5端primer和3端primer、5端primer和5端primer、5端primer和5端primer反向互补序列等,都属于非正常连接,拆分时会去掉。另外,本申请中,判断连接点的条件必须是相邻的两个primer之间的距离小于或等于10bp,因为实验操作时是加的6bp的连接片段,不满足小于或等于10bp这个条件的,不能认定为连接点。
还需要说明的是,本申请的串联序列解析方法,通过锚片段快速定位,结合精确比对,极大的提升了比对效率;通过先识别连接点,再根据连接点的引物类型,进行两端延伸,有效地避免了primer比对假阳性导致的拆分错误的问题,极大的提升了拆分的准确性和数据拆分率,能够快速、准确、有效的进行串联序列解析。可以理解,本申请的关键在于利用锚片段P进行快速定位,并通过识别连接点的方式,提高拆分准确性和数据拆分率;至于获得所有测序片段的全部的全长插入片段和非全长插入片段后,后续的测序数据处理和分析,都可以参考现有技术,在此不作具体限定。
本申请的一种实现方式中,锚长度的大小为4-10bp。
需要说明的是,锚长度即锚片段P的长度,取决于primer的长度以及测序错误率;可以理解,锚片段P越长,其能够将待分析primer匹配到测序片段中的能力越强,但是,相应的匹配的速度和效率会受影响。本申请之所以不直接用primer序列进行比对,就是为了采用更短的锚片段P实现primer序列的快速定位。原则上,锚长度这个值越大,理论上就越快,但是可能就会漏掉很多因为测序错误不能匹配上,导致拆分率低;如果越小,肯定就越慢,一般建议的范围为4-10bp即可。
本申请的一种实现方式中,截取与待分析primer序列等长的片段S,具体包括,根据锚片段P在待分析primer序列中的位置,在测序片段中截取片段S,使得锚片段P在片段S中的位置与其在待分析primer序列中的位置相同。
本申请的一种实现方式中,精确比对采用Smith-Waterman算法进行局部序列比对。
本申请的第二方面公开了一种串联序列解析装置,包括引物定位模块和解析测序片段模块;
引物定位模块,包括用于将5端primer序列、5端primer反向互补序列、3端primer序列和3端primer序列反向互补序列作为待分析primer序列,分别进行如下操作,根据锚长度对待分析primer序列进行连续截取得到锚片段P,在测序片段中与锚片段P完全匹配处截取与待分析primer序列等长的片段S;将待分析primer序列与片段S进行精确比对,保留比对长度占待分析primer序列的50%以上的结果,根据比对结果,记录在测序片段中相应位置上匹配的待分析primer序列及其类型;
解析测序片段模块,包括用于根据引物定位模块获得的测序片段中的待分析primer序列的类型判断全长插入片段和连接点;其中,全长插入片段判断条件为相邻的两个primer之间的距离大于10bp,并且满足下列情形之一:(i)前后相邻的两个primer分别为5端primer序列和3端primer反向互补序列,(ii)前后相邻的两个primer分别为3端primer序列和5端primer反向互补序列;连接点判断条件为相邻的两个primer之间的距离小于或等于10bp,并且满足下列情形之一:(i)相邻的两个primer分别为5端primer反向互补序列和3端primer序列,(ii)相邻的两个primer分别为3端primer反向互补序列和5端primer序列,(iii)相邻的两个primer分别为3端primer反向互补序列和3端primer序列;根据连接点位置确定插入片段序列及其类型具体包括:(i)第一个连接点的primer,往前回溯至满足所述全长插入片段判断条件且得分最高的primer处,截取这两个primer之间的序列,记录为全长插入片段;如果不存在满足所述全长插入片段判断条件的primer,则从截取测序片段起点至该第一个连接点的primer处的片段,记录为非全长插入片段;(ii)最后一个连接点的primer,往后延伸至满足所述全长插入片段判断条件且得分最高的primer,截取这两个primer之间的序列,记录为全长插入片段;如果不存在满足所述全长插入片段判断条件的primer,则截取该最后一个连接点的primer至测序片段末尾的序列,记录为非全长插入片段;(iii)中间的连接点,截取两个primer之间的序列,若满足所述全长插入片段判断条件,则记录为全长插入片段,否则为非全长插入片段;对所有的测序片段分别进行全长插入片段判断,获得全部的全长插入片段和非全长插入片段,即完成串联序列解析。
需要说明的是,本申请的串联序列解析装置,实际上就是通过各模块分别实现本申请的串联序列解析方法中的各步骤;因此,各模块的具体限定可以参考本申请的串联序列解析方法,在此不累述。
本申请的第三方面公开了一种串联序列解析装置,该装置包括存储器和处理器;其中,存储器,包括用于存储程序;处理器,包括用于通过执行该存储器存储的程序以实现本申请的串联序列解析方法。
本申请的第四方面公开了一种计算机可读存储介质,该存储介质中存储有程序,该程序能够被处理器执行以实现本申请的串联序列解析方法。
由于采用以上技术方案,本申请的有益效果在于:
本申请的串联序列解析方法和装置,通过截取自引物序列的较短的锚片段P进行引物序列的快速定位,结合精确比对,提升了引物序列的比对效率;然后通过识别连接点,再根据连接点的引物类型,进行两端延伸,有效地避免了引物比对假阳性导致的拆分错误的问题,提升了拆分准确性和数据拆分率,能够快速、准确、有效的进行串联序列解析。
附图说明
图1是本申请实施例中串联序列解析方法的流程框图;
图2是本申请实施例中串联序列解析装置的结构框图。
具体实施方式
下面通过具体实施方式结合附图对本申请作进一步详细说明。在以下的实施方式中,很多细节描述是为了使得本申请能被更好的理解。然而,本领域技术人员可以毫不费力的认识到,其中部分特征在不同情况下是可以省略的,或者可以由其他元件、材料、方法所替代。在某些情况下,本申请相关的一些操作并没有在说明书中显示或者描述,是为了避免本申请的核心部分被过多的描述所淹没,而对于本领域技术人员而言,详细描述这些相关操作并不是必要的,他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。
现有的串联序列解析存在拆分准确率低、比对速度慢、运算成本高等问题,因此,需要研发一种准确、有效的进行串联序列解析的方案。
本申请创造性的提出,采用截取自引物序列的较短的锚片段P进行引物序列的快速定位,再结合精确比对,提升比对效率;然后再通过连接点识别,根据连接点的类型,进行两端延伸,提升拆分的准确性和拆分率。
具体的,本申请的串联序列解析方法,如图1所示,包括引物定位步骤11和解析测序片段步骤12。
引物定位步骤11,包括将5端primer序列、5端primer反向互补序列、3端primer序列和3端primer序列反向互补序列作为待分析primer序列,分别进行如下操作,根据锚长度对待分析primer序列进行连续截取得到锚片段P,在测序片段中与锚片段P完全匹配处截取与待分析primer序列等长的片段S;将待分析primer序列与片段S进行精确比对,保留比对长度占待分析primer序列的50%以上的结果,根据比对结果,记录在测序片段中相应位置上匹配的待分析primer序列及其类型。
其中,待分析primer序列的类型即5端primer序列、5端primer反向互补序列、3端primer序列或3端primer反向互补序列。锚长度,具体是参考primer的长度以及测序错误率设定锚的长度值,一般为4-10bp,例如5bp。锚片段P是截取自待分析primer序列中的一段序列,例如,待分析primer序列长度为10bp,锚片段P在待分析primer序列中的位置为3-7,即连续截取引物中第3bp至第7bp这段序列作为锚片段P,该锚片段匹配在测序片段上的位置为20-24,那么截取的片段S为18-27。保留比对长度占待分析primer序列的50%以上的结果,主要是为了过滤掉一些假阳性的匹配位置。该步骤可以通过较短的锚片段P快速的比对匹配找到待分析primer在待分析的测序片段中的位置;并在待分析的测序片段中依据锚片段P在待分析primer中的位置,还原待分析的测序片段中与待分析primer相应的序列,即片段S。再通过将待分析primer与片段S的局部精确比对,确定待分析primer的位置;并在待分析测序片段中确定该primer的类型为5端primer序列、5端primer反向互补序列、3端primer序列或3端primer反向互补序列。
解析测序片段步骤12,包括根据引物定位步骤11获得的测序片段中的待分析primer序列的类型判断全长插入片段和连接点;其中,全长插入片段判断条件为相邻的两个primer之间的距离大于10bp,并且满足下列情形之一:(i)前后相邻的两个primer分别为5端primer序列和3端primer反向互补序列,(ii)前后相邻的两个primer分别为3端primer序列和5端primer反向互补序列;连接点判断条件为相邻的两个primer之间的距离小于或等于10bp,并且满足下列情形之一:(i)相邻的两个primer分别为5端primer反向互补序列和3端primer序列,(ii)相邻的两个primer分别为3端primer反向互补序列和5端primer序列,(iii)相邻的两个primer分别为3端primer反向互补序列和3端primer序列;根据连接点位置确定插入片段序列及其类型具体包括:(i)第一个连接点的primer,往前回溯至满足全长插入片段判断条件且得分最高的primer处,截取这两个primer之间的序列,记录为全长插入片段;如果不存在满足全长插入片段判断条件的primer,则从截取测序片段起点至该第一个连接点的primer处的片段,记录为非全长插入片段;(ii)最后一个连接点的primer,往后延伸至满足全长插入片段判断条件且得分最高的primer,截取这两个primer之间的序列,记录为全长插入片段;如果不存在满足全长插入片段判断条件的primer,则截取该最后一个连接点的primer至测序片段末尾的序列,记录为非全长插入片段;(iii)中间的连接点,截取两个primer之间的序列,若满足全长插入片段判断条件,则记录为全长插入片段,否则为非全长插入片段;对所有的测序片段分别进行全长插入片段判断,获得全部的全长插入片段和非全长插入片段,即完成串联序列解析。
本领域技术人员可以理解,上述方法的全部或部分功能可以通过硬件的方式实现,也可以通过计算机程序的方式实现。当上述方法中全部或部分功能通过计算机程序的方式实现时,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器、随机存储器、磁盘、光盘、硬盘等,通过计算机执行该程序以实现上述功能。例如,将程序存储在设备的存储器中,当通过处理器执行存储器中程序,即可实现上述全部或部分功能。另外,当上述实施方式中全部或部分功能通过计算机程序的方式实现时,该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中,通过下载或复制保存到本地设备的存储器中,或对本地设备的系统进行版本更新,当通过处理器执行存储器中的程序时,即可实现上述方法中全部或部分功能。
因此,基于本申请的串联序列解析方法,本申请提出了一种串联序列解析装置,如图2所示,包括引物定位模块21和解析测序片段模块22。
引物定位模块21,包括用于将5端primer序列、5端primer反向互补序列、3端primer序列和3端primer序列反向互补序列作为待分析primer序列,分别进行如下操作,根据锚长度对待分析primer序列进行连续截取得到锚片段P,在测序片段中与锚片段P完全匹配处截取与待分析primer序列等长的片段S;将待分析primer序列与片段S进行精确比对,保留比对长度占待分析primer序列的50%以上的结果,根据比对结果,记录在测序片段中相应位置上匹配的待分析primer序列及其类型。
解析测序片段模块22,包括用于根据引物定位模块21获得的测序片段中的待分析primer序列的类型判断全长插入片段和连接点;其中,全长插入片段判断条件为相邻的两个primer之间的距离大于10bp,并且满足下列情形之一:(i)前后相邻的两个primer分别为5端primer序列和3端primer反向互补序列,(ii)前后相邻的两个primer分别为3端primer序列和5端primer反向互补序列;连接点判断条件为相邻的两个primer之间的距离小于或等于10bp,并且满足下列情形之一:(i)相邻的两个primer分别为5端primer反向互补序列和3端primer序列,(ii)相邻的两个primer分别为3端primer反向互补序列和5端primer序列,(iii)相邻的两个primer分别为3端primer反向互补序列和3端primer序列;根据连接点位置确定插入片段序列及其类型具体包括:(i)第一个连接点的primer,往前回溯至满足所述全长插入片段判断条件且得分最高的primer处,截取这两个primer之间的序列,记录为全长插入片段;如果不存在满足所述全长插入片段判断条件的primer,则从截取测序片段起点至该第一个连接点的primer处的片段,记录为非全长插入片段;(ii)最后一个连接点的primer,往后延伸至满足所述全长插入片段判断条件且得分最高的primer,截取这两个primer之间的序列,记录为全长插入片段;如果不存在满足所述全长插入片段判断条件的primer,则截取该最后一个连接点的primer至测序片段末尾的序列,记录为非全长插入片段;(iii)中间的连接点,截取两个primer之间的序列,若满足所述全长插入片段判断条件,则记录为全长插入片段,否则为非全长插入片段;对所有的测序片段分别进行全长插入片段判断,获得全部的全长插入片段和非全长插入片段,即完成串联序列解析。
本申请的装置,利用各模块相互协调作用,能够实现本申请的串联序列解析方法,特别是通过本申请装置的各模块能够实现本申请串联序列解析方法中的相应的各个步骤,从而实现自动化的串联序列解析。
本申请的另一实现方式中还提供了一种串联序列解析装置,该装置包括存储器和处理器;存储器,包括用于存储程序;处理器,包括用于通过执行存储器存储的程序以实现以下方法:引物定位步骤,包括将5端primer序列、5端primer反向互补序列、3端primer序列和3端primer序列反向互补序列作为待分析primer序列,分别进行如下操作,根据锚长度对待分析primer序列进行连续截取得到锚片段P,在测序片段中与锚片段P完全匹配处截取与待分析primer序列等长的片段S;将待分析primer序列与片段S进行精确比对,保留比对长度占待分析primer序列的50%以上的结果,根据比对结果,记录在测序片段中相应位置上匹配的待分析primer序列及其类型;解析测序片段步骤,包括根据引物定位步骤获得的测序片段中的待分析primer序列的类型判断全长插入片段和连接点;其中,全长插入片段判断条件为相邻的两个primer之间的距离大于10bp,并且满足下列情形之一:(i)前后相邻的两个primer分别为5端primer序列和3端primer反向互补序列,(ii)前后相邻的两个primer分别为3端primer序列和5端primer反向互补序列;连接点判断条件为相邻的两个primer之间的距离小于或等于10bp,并且满足下列情形之一:(i)相邻的两个primer分别为5端primer反向互补序列和3端primer序列,(ii)相邻的两个primer分别为3端primer反向互补序列和5端primer序列,(iii)相邻的两个primer分别为3端primer反向互补序列和3端primer序列;根据连接点位置确定插入片段序列及其类型具体包括:(i)第一个连接点的primer,往前回溯至满足全长插入片段判断条件且得分最高的primer处,截取这两个primer之间的序列,记录为全长插入片段;如果不存在满足全长插入片段判断条件的primer,则从截取测序片段起点至该第一个连接点的primer处的片段,记录为非全长插入片段;(ii)最后一个连接点的primer,往后延伸至满足全长插入片段判断条件且得分最高的primer,截取这两个primer之间的序列,记录为全长插入片段;如果不存在满足全长插入片段判断条件的primer,则截取该最后一个连接点的primer至测序片段末尾的序列,记录为非全长插入片段;(iii)中间的连接点,截取两个primer之间的序列,若满足全长插入片段判断条件,则记录为全长插入片段,否则为非全长插入片段;对所有的测序片段分别进行全长插入片段判断,获得全部的全长插入片段和非全长插入片段,即完成串联序列解析。
本申请另一种实现方式中还提供一种计算机可读存储介质,该存储介质中存储有程序,该程序能够被处理器执行以实现如下方法:引物定位步骤,包括将5端primer序列、5端primer反向互补序列、3端primer序列和3端primer序列反向互补序列作为待分析primer序列,分别进行如下操作,根据锚长度对待分析primer序列进行连续截取得到锚片段P,在测序片段中与锚片段P完全匹配处截取与待分析primer序列等长的片段S;将待分析primer序列与片段S进行精确比对,保留比对长度占待分析primer序列的50%以上的结果,根据比对结果,记录在测序片段中相应位置上匹配的待分析primer序列及其类型;解析测序片段步骤,包括根据引物定位步骤获得的测序片段中的待分析primer序列的类型判断全长插入片段和连接点;其中,全长插入片段判断条件为相邻的两个primer之间的距离大于10bp,并且满足下列情形之一:(i)前后相邻的两个primer分别为5端primer序列和3端primer反向互补序列,(ii)前后相邻的两个primer分别为3端primer序列和5端primer反向互补序列;连接点判断条件为相邻的两个primer之间的距离小于或等于10bp,并且满足下列情形之一:(i)相邻的两个primer分别为5端primer反向互补序列和3端primer序列,(ii)相邻的两个primer分别为3端primer反向互补序列和5端primer序列,(iii)相邻的两个primer分别为3端primer反向互补序列和3端primer序列;根据连接点位置确定插入片段序列及其类型具体包括:(i)第一个连接点的primer,往前回溯至满足全长插入片段判断条件且得分最高的primer处,截取这两个primer之间的序列,记录为全长插入片段;如果不存在满足全长插入片段判断条件的primer,则从截取测序片段起点至该第一个连接点的primer处的片段,记录为非全长插入片段;(ii)最后一个连接点的primer,往后延伸至满足全长插入片段判断条件且得分最高的primer,截取这两个primer之间的序列,记录为全长插入片段;如果不存在满足全长插入片段判断条件的primer,则截取该最后一个连接点的primer至测序片段末尾的序列,记录为非全长插入片段;(iii)中间的连接点,截取两个primer之间的序列,若满足全长插入片段判断条件,则记录为全长插入片段,否则为非全长插入片段;对所有的测序片段分别进行全长插入片段判断,获得全部的全长插入片段和非全长插入片段,即完成串联序列解析。
实施例
按照以上串联序列解析方法,本试验从测序样品中截取899条测序结果,即899条测序片段,进行串联序列解析。899条测序片段的部分数据如表1所示。
表1测序片段部分数据信息
Figure BDA0002886186250000101
具体的,对每条测序片段分别进行以下操作:
1.本试验的5端primer序列为SEQ ID No.1所示序列,3端primer序列为SEQIDNo.2所示序列;
SEQ ID No.1:5’-AAGCAGTGGTATCAACGCAGAGTACGGGGG-3’
SEQ ID No.2:5’-AAGCAGTGGTATCAACGCAGAGTAC-3’;
2.将5端primer序列、5端primer反向互补序列、3端primer序列和3端primer序列反向互补序列作为待分析primer序列,分别进行如下操作,根据锚长度对待分析primer序列进行连续截取得到锚片段P,本试验具体的锚长度为5bp,即锚片段P的长度为5bp,在测序片段中与锚片段P完全匹配处截取与待分析primer序列等长的片段S;这样的片段S可能会有很多条,将待分析primer序列与全部的片段S分别进行精确比对,保留比对长度占待分析primer序列的50%以上的结果,根据比对结果,记录在测序片段中相应位置上匹配的待分析primer序列及其类型;
3.将两个primer之间的距离小于等于10bp的primer判定为连接点,并根据引物定位步骤获得的测序片段中的待分析primer序列的类型判断全长插入片段和连接点;具体如下:
全长插入片段判断条件为相邻的两个primer之间的距离大于10bp,并且满足下列情形之一:
(i)前后相邻的两个primer分别为5端primer序列和3端primer反向互补序列,
(ii)前后相邻的两个primer分别为5端primer反向互补序列和3端primer序列;
连接点判断条件为下列情形之一:
(i)相邻的两个primer分别为5端primer反向互补序列和3端primer序列,且两个primer之间的距离小于等于10;
(ii)相邻的两个primer分别为3端primer反向互补序列和5端primer序列,且两个primer之间的距离小于等于10;
(iii)相邻的两个primer分别为3端primer反向互补序列和3端primer序列,且两个primer之间的距离小于等于10;
根据连接点位置确定插入片段序列及其类型具体包括:
(i)第一个连接点的primer,往前回溯至满足全长插入片段判断条件且得分最高的primer处,截取这两个primer之间的序列,记录为全长插入片段;如果不存在满足全长插入片段判断条件的primer,则从截取测序片段起点至该第一个连接点的primer处的片段,记录为非全长插入片段;
(ii)最后一个连接点的primer,往后延伸至满足全长插入片段判断条件且得分最高的primer,截取这两个primer之间的序列,记录为全长插入片段;如果不存在满足全长插入片段判断条件的primer,则截取该最后一个连接点的primer至测序片段末尾的序列,记录为非全长插入片段;
(iii)中间的连接点,截取两个primer之间的序列,若满足全长插入片段判断条件,则记录为全长插入片段,否则为非全长插入片段。
对899条测序片段分别进行全长插入片段判断,获得全部的全长插入片段和非全长插入片段。
拆分后的结果包含两个SAM格式文件:全长片段结果lrs_fl.bam和非全长片段结果lrs_nfl.bam。本试验具体得到全长片段569条,非全长片段540条,全长拆分率占约51%左右;而现有方法的全长片段拆分率仅仅约为20~35%。由此可见,本试验的串联序列解析方法,能够提高数据拆分率;并且,本试验的串联序列解析方法,通过锚片段快速定位,结合精确比对,极大的提升了比对效率;通过先识别连接点,再根据连接点的引物类型,进行两端延伸,有效地避免了primer比对假阳性导致的拆分错误的问题,极大的提升了拆分的准确性。
以上内容是结合具体的实施方式对本申请所作的进一步详细说明,不能认定本申请的具体实施只局限于这些说明。对于本申请所属技术领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干简单推演或替换。

Claims (10)

1.一种串联序列解析方法,其特征在于:包括以下步骤,
引物定位步骤,包括将5端primer序列、5端primer反向互补序列、3端primer序列和3端primer序列反向互补序列作为待分析primer序列,分别进行如下操作,根据锚长度对待分析primer序列进行连续截取得到锚片段P,在测序片段中与锚片段P完全匹配处截取与待分析primer序列等长的片段S;将待分析primer序列与片段S进行精确比对,保留比对长度占待分析primer序列的50%以上的结果,根据比对结果,记录在测序片段中相应位置上匹配的待分析primer序列及其类型;
解析测序片段步骤,包括根据所述引物定位步骤获得的测序片段中的待分析primer序列的类型判断全长插入片段和连接点;其中,全长插入片段判断条件为相邻的两个primer之间的距离大于10bp,并且满足下列情形之一:(i)前后相邻的两个primer分别为5端primer序列和3端primer反向互补序列,(ii)前后相邻的两个primer分别为3端primer序列和5端primer反向互补序列;连接点判断条件为相邻的两个primer之间的距离小于或等于10bp,并且满足下列情形之一:(i)相邻的两个primer分别为5端primer反向互补序列和3端primer序列,(ii)相邻的两个primer分别为3端primer反向互补序列和5端primer序列,(iii)相邻的两个primer分别为3端primer反向互补序列和3端primer序列;根据连接点位置确定插入片段序列及其类型具体包括:(i)第一个连接点的primer,往前回溯至满足所述全长插入片段判断条件且得分最高的primer处,截取这两个primer之间的序列,记录为全长插入片段;如果不存在满足所述全长插入片段判断条件的primer,则从截取测序片段起点至该第一个连接点的primer处的片段,记录为非全长插入片段;(ii)最后一个连接点的primer,往后延伸至满足所述全长插入片段判断条件且得分最高的primer,截取这两个primer之间的序列,记录为全长插入片段;如果不存在满足所述全长插入片段判断条件的primer,则截取该最后一个连接点的primer至测序片段末尾的序列,记录为非全长插入片段;(iii)中间的连接点,截取两个primer之间的序列,若满足所述全长插入片段判断条件,则记录为全长插入片段,否则为非全长插入片段;对所有的测序片段分别进行全长插入片段判断,获得全部的全长插入片段和非全长插入片段,即完成串联序列解析。
2.根据权利要求1所述的串联序列解析方法,其特征在于:所述锚长度的大小为4-10bp。
3.根据权利要求1所述的串联序列解析方法,其特征在于:所述截取与待分析primer序列等长的片段S,具体包括,根据锚片段P在待分析primer序列中的位置,在测序片段中截取片段S,使得锚片段P在片段S中的位置与其在待分析primer序列中的位置相同。
4.根据权利要求1-3任一项所述的串联序列解析方法,其特征在于:所述精确比对采用Smith-Waterman算法进行局部序列比对。
5.一种串联序列解析装置,其特征在于:包括引物定位模块和解析测序片段模块;
所述引物定位模块,包括用于将5端primer序列、5端primer反向互补序列、3端primer序列和3端primer序列反向互补序列作为待分析primer序列,分别进行如下操作,根据锚长度对待分析primer序列进行连续截取得到锚片段P,在测序片段中与锚片段P完全匹配处截取与待分析primer序列等长的片段S;将待分析primer序列与片段S进行精确比对,保留比对长度占待分析primer序列的50%以上的结果,根据比对结果,记录在测序片段中相应位置上匹配的待分析primer序列及其类型;
所述解析测序片段模块,包括用于根据所述引物定位模块获得的测序片段中的待分析primer序列的类型判断全长插入片段和连接点;其中,全长插入片段判断条件为相邻的两个primer之间的距离大于10bp,并且满足下列情形之一:(i)前后相邻的两个primer分别为5端primer序列和3端primer反向互补序列,(ii)前后相邻的两个primer分别为3端primer序列和5端primer反向互补序列;连接点判断条件为相邻的两个primer之间的距离小于或等于10bp,并且满足下列情形之一:(i)相邻的两个primer分别为5端primer反向互补序列和3端primer序列,(ii)相邻的两个primer分别为3端primer反向互补序列和5端primer序列,(iii)相邻的两个primer分别为3端primer反向互补序列和3端primer序列;根据连接点位置确定插入片段序列及其类型具体包括:(i)第一个连接点的primer,往前回溯至满足所述全长插入片段判断条件且得分最高的primer处,截取这两个primer之间的序列,记录为全长插入片段;如果不存在满足所述全长插入片段判断条件的primer,则从截取测序片段起点至该第一个连接点的primer处的片段,记录为非全长插入片段;(ii)最后一个连接点的primer,往后延伸至满足所述全长插入片段判断条件且得分最高的primer,截取这两个primer之间的序列,记录为全长插入片段;如果不存在满足所述全长插入片段判断条件的primer,则截取该最后一个连接点的primer至测序片段末尾的序列,记录为非全长插入片段;(iii)中间的连接点,截取两个primer之间的序列,若满足所述全长插入片段判断条件,则记录为全长插入片段,否则为非全长插入片段;对所有的测序片段分别进行全长插入片段判断,获得全部的全长插入片段和非全长插入片段,即完成串联序列解析。
6.根据权利要求5所述的串联序列解析装置,其特征在于:所述锚长度的大小为4-10bp。
7.根据权利要求5所述的串联序列解析装置,其特征在于:所述截取与待分析primer序列等长的片段S,具体包括,根据锚片段P在待分析primer序列中的位置,在测序片段中截取片段S,使得锚片段P在片段S中的位置与其在待分析primer序列中的位置相同。
8.根据权利要求5-7任一项所述的串联序列解析装置,其特征在于:所述精确比对采用Smith-Waterman算法进行局部序列比对。
9.一种串联序列解析装置,其特征在于:所述装置包括存储器和处理器;
所述存储器,包括用于存储程序;
所述处理器,包括用于通过执行所述存储器存储的程序以实现权利要求1-4任一项所述的串联序列解析方法。
10.一种计算机可读存储介质,其特征在于:所述存储介质中存储有程序,所述程序能够被处理器执行以实现权利要求1-4任一项所述的串联序列解析方法。
CN202110013886.3A 2021-01-06 2021-01-06 一种串联序列解析方法、装置和存储介质 Active CN112735527B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110013886.3A CN112735527B (zh) 2021-01-06 2021-01-06 一种串联序列解析方法、装置和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110013886.3A CN112735527B (zh) 2021-01-06 2021-01-06 一种串联序列解析方法、装置和存储介质

Publications (2)

Publication Number Publication Date
CN112735527A CN112735527A (zh) 2021-04-30
CN112735527B true CN112735527B (zh) 2022-09-13

Family

ID=75590323

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110013886.3A Active CN112735527B (zh) 2021-01-06 2021-01-06 一种串联序列解析方法、装置和存储介质

Country Status (1)

Country Link
CN (1) CN112735527B (zh)

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101240341B (zh) * 2008-03-14 2010-06-09 东南大学 利用硫代寡核苷酸探针的dna测序方法
US20120183952A1 (en) * 2009-07-22 2012-07-19 Rangarajan Sampath Compositions for use in identification of caliciviruses
US20150232919A1 (en) * 2012-04-06 2015-08-20 Geneohm Sciences Canada, Inc. Sequences for detection and identification of methicillin-resistant staphylococcus aureus (mrsa) of mrej type xxi
CN102864158B (zh) * 2012-09-29 2014-04-23 北京大学 用于基因定点修饰的tale重复片段的高效合成方法
AU2016252998B2 (en) * 2015-04-24 2021-11-04 Atila Biosystems Incorporated Amplification with primers of limited nucleotide composition
CN106319039A (zh) * 2015-12-30 2017-01-11 中国农业科学院蔬菜花卉研究所 快速检测百合鳞茎腐烂病病原菌——尖孢镰刀菌的方法
CN110452974B (zh) * 2019-08-26 2022-09-16 北京群峰纳源健康科技有限公司 一种检测细菌16S rDNA全长的建库测序方法

Also Published As

Publication number Publication date
CN112735527A (zh) 2021-04-30

Similar Documents

Publication Publication Date Title
CN114743594B (zh) 一种用于结构变异检测的方法、装置和存储介质
US20130211729A1 (en) Data analysis of dna sequences
CN111081318B (zh) 一种融合基因检测方法、系统和介质
CN108595915B (zh) 一种基于dna变异检测的三代数据校正方法
EP0799320B1 (en) Automated dna sequencing
US20190325990A1 (en) Process for aligning targeted nucleic acid sequencing data
CN111326212A (zh) 一种结构变异的检测方法
AU2022298428B2 (en) Gene sequencing analysis method and apparatus, and storage medium and computer device
CN112687339B (zh) 一种统计血浆dna片段测序数据中序列错误的方法和装置
CN110993023A (zh) 复杂突变的检测方法及检测装置
CN116312780A (zh) 靶向基因二代测序数据体细胞突变检测方法、终端及介质
CN111292809B (zh) 用于检测rna水平基因融合的方法、电子设备和计算机存储介质
CN115433768A (zh) 一种基于ngs扩增子测序技术的igh超突变检测方法及系统
CN115896256A (zh) 基于二代测序技术的rna插入缺失突变的检测方法、装置、设备和存储介质
CN111676276A (zh) 一种快速精准确定基因编辑突变情况的方法及其应用
CN115101128A (zh) 一种杂交捕获探针脱靶危险性评估的方法
CN112735527B (zh) 一种串联序列解析方法、装置和存储介质
CN111916147B (zh) 一种转录本的分类方法
KR20160039386A (ko) Itd 검출 장치 및 방법
WO2019213810A1 (zh) 检测染色体非整倍性的方法、装置及系统
JP2012235723A (ja) 大規模塩基配列解析方法、プログラム及び装置
CN111816254A (zh) 一种基于perl语言快速批量去除载体序列的方法
CN114464252B (zh) 一种检测结构变异的方法及装置
CN115331736B (zh) 基于文本匹配延伸高通量测序基因的拼接方法
Gunady et al. Yanagi: transcript segment library construction for RNA-Seq quantification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40051693

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant