CN114540471B - 一种利用缺失核酸测序信息进行比对的方法和系统 - Google Patents

一种利用缺失核酸测序信息进行比对的方法和系统 Download PDF

Info

Publication number
CN114540471B
CN114540471B CN202210104037.3A CN202210104037A CN114540471B CN 114540471 B CN114540471 B CN 114540471B CN 202210104037 A CN202210104037 A CN 202210104037A CN 114540471 B CN114540471 B CN 114540471B
Authority
CN
China
Prior art keywords
sequencing
nucleic acid
sequence
signal
alignment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210104037.3A
Other languages
English (en)
Other versions
CN114540471A (zh
Inventor
周文雄
吴思彧
张春艳
李昂
乔朔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN202210104037.3A priority Critical patent/CN114540471B/zh
Publication of CN114540471A publication Critical patent/CN114540471A/zh
Application granted granted Critical
Publication of CN114540471B publication Critical patent/CN114540471B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Organic Chemistry (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Zoology (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Analytical Chemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Wood Science & Technology (AREA)
  • Immunology (AREA)
  • Biochemistry (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Microbiology (AREA)
  • Genetics & Genomics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供一种利用缺失核酸测序信息进行比对的方法,在测序过程中,对于预先选择的部分测序反应循环进行测序信号采集,其余测序反应循环不进行信号采集,将采集到的测序信号编码为序列,得到缺失核酸序列;用相同的编码方式对参考序列进行编码,得到缺失参考序列;再将缺失核酸序列比对到缺失参考序列上。本发明的方法仅在一部分测序循环中采集测序信号,在现有高通量测序技术的基础上进一步减少运行时间,同时不影响后续生物信息学分析解读。

Description

一种利用缺失核酸测序信息进行比对的方法和系统
技术领域
本发明涉及一种利用缺失核酸测序信息进行比对的方法和系统,属于基因测序领域。
背景技术
高通量测序技术已被广泛应用于生物学研究和临床诊断。大部分高通量测序技术都分为多个循环步骤,每个循环中包含化学反应和信号采集两个先后发生的子步骤。其中信号采集往往非常耗时,而且往往测序仪的通量越高,则信号采集过程需要扫描更大范围的芯片面积,因而耗时越长。测序时长已经成为制约高通量测序仪进一步提升通量的主要因素之一。
本发明提供一种缺失信息的核酸测序及序列比对方法,可以减少高通量测序中的信号采集时间,提供一种快速的测序手段;同时还提供了与此相对应的序列比对方法,能够实现常规的生物信息学分析。
发明内容
本发明公开一种利用缺失核酸测序信息进行比对的方法,其特征在于,包括以下步骤:
利用基因测序芯片对待测核酸分子进行多个测序化学反应循环;其中,预先选择至少一个循环,仅在所述至少一个循环中进行信号采集;在其他循环中仅进行测序化学反应,不进行信号采集;将采集到的所述信号编码为序列,得到缺失核酸序列;用相同的编码方式对待测核酸分子对应的参考序列进行编码,得到缺失参考序列;将所述缺失核酸序列和所述缺失参考序列进行比对;
其中,一个测序化学反应循环包括,提供一种测序试剂,将该种测序试剂中具有可检测标记的核苷酸单体掺入所述待测核酸分子发生测序化学反应,并对所述可检测标记生成的测序信号进行信号采集或者不进行信号采集的过程。
根据优选的实施方式,所述测序化学反应包括焦磷酸测序、半导体测序、荧光发生测序、循环可逆终止测序。
根据优选的实施方式,所述荧光发生测序为3’端不封闭的测序反应,在测序反应中,包括两种不同的测序试剂:第一测序试剂和第二测序试剂;两种测序试剂循环加入;其中所述第一测序试剂包含具有可检测标记的两种不同的核苷酸单体;所述第二测序试剂包含具有可检测标记的两种核苷酸单体,且所述两种核苷酸单体不同于所述第一测序试剂中存在的所述核苷酸单体,并且其中所述第二测序试剂是在提供了所述第一测序试剂随后提供的,所述核苷酸单体掺入待测核酸序列之后所述标记生成可检测的信号。
根据优选的实施方式,所述荧光发生测序为3’端不封闭的测序反应,在测序反应中,包括两种不同的测序试剂:第一测序试剂和第二测序试剂;两种测序试剂循环加入;其中所述第一测序试剂包含具有可检测标记的三种不同的核苷酸单体;所述第二测序试剂包含具有可检测标记的一种核苷酸单体,且所述核苷酸单体不同于所述第一测序试剂中存在的所述核苷酸单体,并且其中所述第二测序试剂是在提供了所述第一测序试剂随后提供的,所述核苷酸单体掺入待测核酸序列之后所述标记生成可检测的信号。
根据优选的实施方式,提供第一测序试剂后,对所述可检测的信号进行信号采集,提供第二测序试剂后,不进行信号采集。
根据优选的实施方式,提供第二测序试剂后,对所述可检测的信号进行信号采集,提供第一测序试剂后,不进行信号采集。
根据优选的实施方式,在所述进行信号采集的测序化学反应循环中需要进行油封;在所述不进行信号采集的测序化学反应循环中进行油封或不进行油封;所述油封指的是,首先将水相流体通过流体入口通入芯片的流体室,再通入油相流体将水相流体排出流体室,同时将部分水相流体封闭在芯片表面的微反应室内,形成相互隔离的反应单元。
根据优选的实施方式,所述将采集到的所述信号编码为序列指的是,对于进行信号采集的测序循环,用与所述信号相对应的碱基符来表示序列,碱基符的个数对应于所述信号的强度;对于没有进行信号采集的循环,在序列中对应的位置写一个单独的占位符。
根据优选的实施方式,所述碱基符和所述占位符优选的为A、G、C、T/U中的一种或多种,且所述碱基符和所述占位符不同。
根据优选的实施方式,所述参考序列是参考基因组,或参考转录组,或参考基因组的一个子集,或参考转录组的一个子集。
根据优选的实施方式,所述缺失参考序列是一组序列,或是多组序列;所述缺失参考序列是多组序列时,需要将所述缺失核酸序列分别比对到每组缺失参考序列上,再从中选择一个较好的比对结果;所述“选择一个较好的比对结果”,可以是多个比对结果中比对质量较高的,也可以是比对上的序列部分较长的,也可以是比对结果中错误较少的,也可以是比对到参考序列中特定区域的。
根据优选的实施方式,利用包括但不限于Smith-Waterman算法、Bowtie、BWA、SOAP、Needleman-Wunch算法、Bowtie2、BLAST、ELAND、TMAP、MAQ、minimap2、SHRiMP的软件或算法,将所述缺失核酸序列比对到所述缺失参考序列上,得到序列比对结果。
根据优选的实施方式,所述方法进一步包括,对所述序列比对结果进行生物信息学分析;所述生物信息学分析包括,检测基因变异、检测基因表达量、检测RNA可变剪接状态、检测基因修饰状态、鉴定核酸来源的物种或个体、检测基因组三维结构、检测核酸与核酸间的相互作用、检测核酸与蛋白质间的相互作用、检测染色质可及性、解析RNA结构等。
本发明还公开一种利用缺失核酸测序信息进行比对的系统,包括处理器、存储介质、计算机程序,所述系统被用于实施本发明前述的利用缺失核酸测序信息进行比对的方法。
本发明的有益之处
本发明的方法相比于背景技术提到的方法,具有以下优点:
1.仅在一部分测序循环中采集测序信号,在现有高通量测序技术的基础上进一步减少运行时间,同时不影响后续生物信息学分析解读和/或临床诊断。
2.可以对含有缺失信息的序列进行比对和分析。此处缺失信息是指,所得序列中部分序列信息是缺失的。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对具体实施方式中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据此附图获得其他的附图。
图1.缺失测序流程示意图。其中,101所示为将待测核酸片段固接在芯片上的载体(例如,微球),102为测序引物,103为待测核酸分子,104为测序反应释放的信号(例如,荧光信号)。
具体实施方式
现阶段,高通量测序技术发展日趋成熟,对于测序速度的要求越来越高,无论是基础科学研究还是临床诊疗,都希望能在尽可能短的时间内得到测序结果。在现有的二代测序技术中,比较耗时的一步是对测序信号的收集过程,因为每进行一个循环测序化学反应,都需要进行一次单独的信号采集过程,对于上百个测序循环,这意味着要花费上百次信号采集的时间,占用了近一半的测序时间。因此,如果能够只收集部分测序循环的信号而不影响最终的序列比对及生物信息学分析,将大大缩减测序所需时间,更好地满足基础科研及临床诊疗的需求。
针对于此,本发明公开了一种利用缺失核酸测序信息进行比对的方法,其特征在于,包括以下步骤:
利用基因测序芯片对待测核酸分子进行多个测序化学反应循环;其中,预先选择至少一个循环,仅在所述至少一个循环中进行信号采集;在其他循环中仅进行测序化学反应,不进行信号采集;将采集到的所述信号编码为序列,得到缺失核酸序列;用相同的编码方式对待测核酸分子对应的参考序列进行编码,得到缺失参考序列;将所述缺失核酸序列和所述缺失参考序列进行比对;
其中,一个测序化学反应循环包括,提供一种测序试剂,将该种测序试剂中具有可检测标记的核苷酸单体掺入所述待测核酸分子发生测序化学反应,并对所述可检测标记生成的测序信号进行信号采集或者不进行信号采集的过程。
除非另有定义,否则本文使用的所有科技术语具有与本领域普通技术人员通常理解的含义相同的含义。为了更好地公开本发明的方法和内容,在此对于本发明中较为关键的术语做详细的解释说明。
核酸分子:本文所述的核酸分子为待测核酸分子被打断成10bp-10kb的片段后,经过文库构建后得到的模板多核苷酸。所述核酸分子可以来源于生物流体、细胞、组织、器官或生物体的样品。所述样品包括但不限于血液、痰液、羊水、细针穿刺活检样品(例如,外科活检、细针穿刺活检等)、尿液、腹膜液、胸膜液、组织外植体、器官培养物、分泌物和任何其他组织或细胞制剂,或其馏分或衍生物或从中分离的物质。
缺失序列:即含有缺失信息的序列,此处缺失信息是指,所得序列中部分序列信息是缺失的,例如:序列ATTCGNNTTT,这个序列即为缺失序列,N表示序列信息未知,即此处序列信息是缺失的,则此序列为缺失序列。本发明中缺失序列包括缺失核酸序列和缺失参考序列两类,其中,缺失参考序列是将原本全部已知的序列按照与所述缺失核酸序列相一致的编码方式表示为部分序列信息缺失的序列。
荧光发生测序:使用荧光发生核苷酸,核酸聚合酶(DNA聚合酶),磷酸酶,与核酸底物一起进行的测序反应。首先DNA聚合酶将荧光发生核苷酸聚合进入核酸底物中,释放出磷酸化的荧光发生荧光团,再进一步被磷酸酶水解去除磷酸,释放荧光状态改变的荧光发生荧光团。通过检测荧光发生荧光团的荧光改变(光强和光谱),便可以得到发生延伸反应的核苷酸的信息。荧光发生荧光团是核苷酸单体上的一种可检测标记。
2+2测序:2+2测序是边合成边测序技术的一种新形式,是一种3’端不封闭的测序反应,在测序反应中,包括两种不同的测序试剂:第一测序试剂和第二测序试剂;两种测序试剂循环加入;其中所述第一测序试剂包含具有可检测标记的两种不同的核苷酸单体;所述第二测序试剂包含具有可检测标记的两种核苷酸单体,且所述两种核苷酸单体不同于所述第一测序试剂中存在的所述核苷酸单体,并且其中所述第二测序试剂是在提供了所述第一测序试剂随后提供的,所述核苷酸单体掺入待测核酸序列之后所述标记生成可检测的信号。除了第一轮进样外每轮可以有1至多个碱基反应,测序中没有空轮次。所述空轮次指的是此轮反应未发生碱基的延伸。第一测序试剂和第二测序试剂的核苷酸单体包括3种可能的组合,即AC/GT,或AG/CT,或AT/CG;或按照标准简并碱基标识,写作MK,RY,WS;M表示A和/或C,K表示G和/或T。具体可参照表1。
表1.表示简并碱基的字母
字母 所代表的碱基
M A/C
K G/T
R A/G
Y C/T
W A/T
S C/G
B C/G/T
D A/G/T
H A/C/T
V A/C/G
1+3测序:与2+2测序类似,也是一种3’端不封闭的测序反应,在测序反应中,包括两种不同的测序试剂:第一测序试剂和第二测序试剂;两种测序试剂循环加入;其中所述第一测序试剂包含具有可检测标记的三种不同的核苷酸单体;所述第二测序试剂包含具有可检测标记的一种核苷酸单体,且所述核苷酸单体不同于所述第一测序试剂中存在的所述核苷酸单体,并且其中所述第二测序试剂是在提供了所述第一测序试剂随后提供的,所述核苷酸单体掺入待测核酸序列之后所述标记生成可检测的信号。为了实现更简洁的表达,将只进样1种核苷酸单体的循环简称为1底物阶段,将进样3种核苷酸单体的循环简称为3底物阶段。相比于2+2测序,理论上1+3测序反应更加不均衡,只加入一种核苷酸单体的反应循环能较快反应充分,而加入三种核苷酸单体的反应循环可能会发生较长的延伸,在微小的反应体积内可能没有足量的反应底物使其反应完全,导致失相等的发生,并进一步影响后续的反应,因此,相比于1+3测序,2+2测序反应是目前经常使用的方法。
比对(align或alignment):“比对”是生物信息学中的常见概念,在生物信息学中,比对经常用于比较不同核酸之间或者不同蛋白质之间的相似性。本发明中的比对特指的是将缺失核酸序列和缺失参考序列进行比较,从而确定参考序列是否包含编码后的缺失核酸序列的过程。常用的序列比对算法及软件包括但不限于,例如的,Smith-Waterman算法、Bowtie、BWA、SOAP、Needleman-Wunch算法、Bowtie2、BLAST、ELAND、TMAP、MAQ、minimap2、SHRiMP等。
编码:编码是信息从一种形式或格式转换为另一种形式的过程,本发明所述将采集到的信号编码为序列指的是,对于进行信号采集的测序循环,用与所述信号相对应的碱基符来表示序列,碱基符的个数对应于所述信号的强度;对于没有进行信号采集的循环,在序列中对应的位置写一个单独的占位符。对于参考序列的编码方式,需要满足与测序序列的编码方式相同。所述碱基符和所述占位符优选的为A、G、C、T/U中的一种或多种,且所述碱基符和所述占位符不同。
油封:当测序反应释放的信号是游离状态时,为了精确记录测序信号,需要将其限制在测序反应发生的原位,由于测序反应液是水相液体,因此可以利用水油不相容用油相液体将反应室封闭,具体的,首先将水相流体通过流体入口通入流体室,再通入油相流体将水相流体排出流体室,同时将部分水相流体封闭在芯片表面的微反应室内,形成相互隔离的反应单元,此过程即称为油封。油封试剂可选自各种电子氟化液,例如3M的NovecTM电子氟化液71DA,NovecTM电子氟化液71IPA,NovecTM 7100电子氟化液,NovecTM 7300电子氟化液,NovecTM 7200电子氟化液,NovecTM 7000电子氟化液,NovecTM 7500电子氟化液,FC-3284,FC-72,FC-3283,FC-40等等。
测序化学反应循环(cycle):或称测序轮,一个测序化学反应循环包括,提供一种测序试剂,将该种测序试剂中具有可检测标记的核苷酸单体掺入所述待测核酸分子发生测序化学反应,并对所述可检测标记生成的测序信号进行信号采集或者不进行信号采集的过程。传统意义上,一个cycle即进行一次完整的测序反应过程,包括通入测序反应物进行生物化学反应、收集测序信号。本发明中,对于部分测序循环,并不是完整的循环,因为其只包括测序化学反应,而不包括信号采集过程。
根据优选的实施方式,所述测序化学反应包括焦磷酸测序、半导体测序、荧光发生测序、循环可逆终止测序等。本发明的方法对测序反应类型没有特别要求,无论是Illumina的循环可逆终止测序,还是Ion Torrent的半导体测序方法,以及Helicos的单分子测序技术,只要是测序化学反应和测序信号采集过程不同时发生的测序类型,都可以使用本发明的缺失测序比对方法。
根据优选的实施方式,当进行荧光发生测序反应时,常规的,在一个测序循环中,通入测序反应液后,需要进行油封,从而将测序反应释放的荧光信号限制在反应室内,但采用本发明的方法进行缺失测序时,例如2+2测序反应,选择所有的奇数轮,收集测序信号,需要进行油封,而对于所有的偶数轮反应,并不收集测序信号,此时可以进行油封,也可以不进行油封。当然也可以偶数轮反应收集测序信号并进行油封,而奇数轮不收集测序信号,油封与否都可以。在不收集测序信号的反应循环里不进行油封操作有很多优点:第一,进一步节省反应时间,无论是加入油封液体还是清洗掉油封液体,都需要一定的时间,对于上百个测序循环来说,省略油封这一步骤可以节省大量时间;第二,核苷酸延伸不局限在反应室内,有利于核酸链充分延伸,降低失相中滞后的发生,从而使得核酸链的有效延伸长度更长,有利于发现基因变异;第三,节省了约一半的油封试剂以及清洗液。对于1+3测序反应,在3底物阶段,一次通入3种测序底物,可以延伸的长度可能很长,在这种情况下,如果反应局限在微小的反应室内发生,则反应底物有可能是不足的,这样会导致扩增簇无法完全延伸充分,会导致失相反应,且随着反应的进行,失相逐渐累积,最终会导致有效测序读长大大降低。此时在不收集测序信号的3底物阶段不进行油封的优势更加明显,能有效降低失相的发生率,增加读长。优选的,在不采集测序信号的反应循环,还可以使用天然核苷酸底物(不带有可检测标记的核苷酸),这样一来可以降低反应成本。
根据优选的实施方式,预先选择至少一个循环,仅在所述至少一个循环中进行信号采集,所述选择并不是从所有的循环中随机选择,而是有一定的规则,例如对于单核苷酸添加的测序方法,以T-C-A-G的顺序循环,仅在加入某种特定碱基类型的循环中进行信号采集,例如,仅在加入A碱基的循环进行信号采集,而对于其他循环,只进行测序化学反应而不采集信号;或者仅在加入T和C的循环中进行信号采集;或者仅在加入T、C、A的循环中进行信号采集。
根据优选的实施方式,所述2+2测序方法,在所有的奇数轮进行信号采集,偶数轮不进行信号采集;或者在所有的偶数轮进行信号采集,奇数轮不进行信号采集。以M-K的顺序循环为例,如图1所示,仅在加入M(A和C)的循环中进行信号采集且进行油封,加入K(G和T)的测序反应不采集信号,也不进行油封。
根据优选的实施方式,所述1+3测序方法,当通入的测序反应液中的核苷酸只可以和待测核酸序列上的一种碱基互补时,进行信号采集;当通入的测序反应液中的核苷酸可以和待测核酸序列上的另外三种碱基互补时,不进行信号采集。
根据优选的实施方式,对于循环可逆终止测序,每次循环均添加4种核苷酸,仅在奇数轮循环中进行信号采集,在偶数轮不采集测序信号。或者仅在偶数轮进行信号采集,在奇数轮不采集测序信号。
根据优选的实施方式,在测序结束后,将采集到的所述信号编码为序列,得到缺失核酸序列。所述编码方式为,对于进行信号采集的测序循环,用与所述信号相对应的碱基符来表示序列,碱基符的个数对应于所述信号的强度;对于没有进行信号采集的循环,在序列中对应的位置写一个单独的占位符;对多个连续的未采集信号的循环,只写一个占位字符。所述碱基符和所述占位符优选的为A、G、C、T/U中的一种或多种,且所述碱基符和所述占位符不同。所述占位符还可以选自M、K、R、Y、W、S、B、D、H、V、N;其他字符(如X或标点符号等)理论上也可以用,但在比对时的效果和N是相同的。例如,对于单核苷酸添加的测序方法仅在加入A碱基的循环进行信号采集,测得2个A信号,则编码为AA;对于没有进行信号采集的循环,则在序列里写一个单独的占位字符T(或C,或G),相对应的,用相同的编码方式对待测核酸分子对应的参考序列进行编码,对于参考序列的编码方式为:保持参考序列中所有的A不变,其他所有连续的1个或多个非A字符全部变成1个T(或C,或G)。
对于2+2测序,以M-K的顺序循环,仅在加入M的循环中进行信号采集,测得2个M信号,则编码为AA,对于K循环,写一个单独的占位字符T(或G);对于参考序列的编码,保持所有的A不变,所有的C改成A,连续1个或多个K(G或T)改成1个T(或G)。
对于1+3测序,以A-B的顺序循环,仅在加入A的循环中进行信号采集,测得的信号写作A,对于B循环,写一个单独的占位字符T(或C,或G);对于参考序列的编码,保持所有的A不变,连续1个或多个B(C/G/T)改成1个T(或C,或G)。
根据优选的实施方式,对于循环可逆终止测序,每次循环均添加4种核苷酸,仅在奇数轮循环中进行信号采集,则奇数轮测到什么碱基就写成什么碱基,对于偶数轮,写一个单独的占位符N;对于参考序列的编码,将其编码为2组序列:第一组是保持奇数位碱基不变,偶数位碱基改为N;第二组是保持偶数位碱基不变,奇数位碱基改为N。
根据优选的实施方式,所述参考序列可以是参考基因组,或参考转录组,或参考基因组的一个子集,或参考转录组的一个子集。例如,利用靶向测序检测特定基因集或基因组区域内已知和新型的变异时,此时并不需要整个基因组作为参考序列,而只需要目标区域的一段基因组序列,也就是参考基因组的一个子集。
根据优选的实施方式,所述缺失参考序列是一组序列,或是多组序列;例如的,除了对参考基因组进行编码,还需要对其反向互补序列进行编码,因此编码的结果是多于一组;在鉴定核酸来源的微生物种类时,需要对多种微生物的参考基因组进行编码,形成多组参考序列,以观察所测序列将比对到哪种微生物的参考基因组上。
根据优选的实施方式,在编码为多组缺失参考序列的情况下,需要将所述缺失核酸序列分别比对到每组缺失参考序列上,然后从中选择一个较好的比对结果。所述“选择一个较好的比对结果”,可以是多个比对结果中比对质量较高的,也可以是比对上的序列部分较长的,也可以是比对结果中错误较少的,也可以是比对到参考序列中特定区域的。
根据优选的实施方式,将所述缺失核酸序列和所述缺失参考序列进行比对得到比对结果,比对是生物信息学中的常见概念,本发明使用的比对算法和软件包括但不限于,例如:Smith-Waterman算法、Bowtie、BWA、SOAP、Needleman-Wunch算法、Bowtie2、BLAST、ELAND、TMAP、MAQ、minimap2、SHRiMP等;Smith-Waterman算法是经典的局部比对算法;Bowtie则适合将小序列比对至大基因组上,适用于二代测序得到的序列读长较短;BWA,即Burrows-Wheeler-Alignment Tool,是一种能够将差异度较小的序列比对到一个较大的参考基因组上的软件包,包括三个不同的算法BWA-backtrack、BWA-SW、BWA-MEM;SOAP,即Short Oligonucleotide Analysis Package,是由华大公司开发的序列比对软件包。可以理解的,本发明公开的方法对于比对算法或软件并没有特殊要求,比对算法或软件的使用也并非本发明的独特之处,因此,具体使用的比对算法和软件不应构成对本发明保护范围的限制。
本发明中,对所述序列比对结果进行生物信息学分析;所述生物信息学分析,包括但不限于,检测基因变异、检测基因表达量、检测RNA可变剪接状态、检测基因修饰状态、鉴定核酸来源的物种或个体、检测基因组三维结构、检测核酸与核酸间的相互作用、检测核酸与蛋白质间的相互作用、检测染色质可及性、解析RNA结构等。特别的,本发明的方法对于鉴定基因变异中的大范围结构变异具有明显的优势,在1+3测序中,对于3底物阶段不收集测序信号,同时也不进行油封,此时每个反应室内的待测核酸的底物是相对充足的,不容易发生失相,尤其是滞后反应的发生率会大大降低,这样得到的有效读长将大大增加,比2+2测序增加约33%,从而为发现大范围结构变异创造有利条件。
本发明还提供一种利用缺失核酸测序信息进行比对的系统,包括处理器、存储介质、计算机程序,所述系统被用于实施本发明前述的利用缺失核酸测序信息进行比对的方法。
实施例1
利用荧光发生测序对来自人的基因组DNA进行测序。分别进行以下4种1+3测序:AB,CD,GH,TV,且仅在加入A、C、G、T时采集信号,在加入B、D、H、V时仅进行化学反应,但不采集信号。采集信号时,测到多少倍的信号,就在序列中写多少个对应的碱基(例如加入A时采集到3倍信号,就在序列中写AAA)。在不采集信号的B、D、H、V中,分别用1个T、1个G、1个C、1个A来作为占位字符。将人的参考基因组GRCh38及其反向互补序列分别按以下4种方式编码:
1.AB:保持所有的A不变,1个或多个连续的B都改成1个T。
2.CD:保持所有的C不变,1个或多个连续的D都改成1个G。
3.GH:保持所有的G不变,1个或多个连续的H都改成1个C。
4.TV:保持所有的T不变,1个或多个连续的V都改成1个A。
以AB测序为例,描述具体测序过程如下:
配制测序反应液母液(简称母液),含有:
20mM Tris-HCl pH 8.8
10mM(NH4)2SO4
50mM KCl
2mM MgSO4
0.1%Tween20
8000unit/mL Bst polymerase
100unit/mL CIP
配制测序反应液,共2组。分别为:
A.母液+20uM dA4P-TG
B.母液+20uM dG4P-TG+20uM dT4P-TG+20uM dC4P-TG
将配制好的反应液和母液,置于4℃冰箱或冰上待用。
杂交测序引物:
向测序芯片内注入测序引物溶液(10uM溶解于1x SSC buffer),升温至90℃,再以5℃/min的速度降温至40℃。用洗液冲洗掉测序引物溶液。
进行测序:
将测序芯片置于测序仪上,遵循如下流程。
1.通入洗液10mL,冲洗芯片;
2.将芯片降温至4℃;
3.通入100uL反应液A,油封;
4.将芯片升温至65℃;
5.等待1min;
6.信号采集:用473nm激光激发,拍摄荧光图像;
7.通入洗液10mL,冲洗芯片;
8.将芯片降温至4℃;
9.通入100uL反应液B;
10.将芯片升温至65℃;
11.等待1min。
重复步骤1-11若干次。
这4次测序分别获得了1×106条序列,将这些序列分别比对到对应的上述4种编码后参考基因组上,统计总比对率、独特比对率、Q20比对率、Q30比对率如下表。
从表2的结果可以看出,当测序循环次数在30次及30次以上时,上述4种1+3测序的总比对率都能达到100%,证明本发明所述的利用缺失核酸测序信息进行比对的方法的效果理想。对于测序循环次数低于30次的,总比对率较低,但在实际测序应用中,测序循环至少是几十次到上百次。
表2.总比对率
循环次数 AB CD GH TV
5 0.03% 0.00% 0.00% 0.03%
10 0.18% 0.00% 0.00% 0.18%
15 1.19% 0.09% 0.09% 1.20%
20 11.30% 2.49% 2.50% 11.62%
25 61.90% 40.53% 40.95% 62.41%
30 100.00% 100.00% 100.00% 100.00%
35 100.00% 100.00% 100.00% 100.00%
40 100.00% 100.00% 100.00% 100.00%
45 100.00% 100.00% 100.00% 100.00%
50 100.00% 100.00% 100.00% 100.00%
55 100.00% 100.00% 100.00% 100.00%
60 100.00% 100.00% 100.00% 100.00%
65 100.00% 100.00% 100.00% 100.00%
70 100.00% 100.00% 100.00% 100.00%
75 100.00% 100.00% 100.00% 100.00%
80 100.00% 100.00% 100.00% 100.00%
85 100.00% 100.00% 100.00% 100.00%
90 100.00% 100.00% 100.00% 100.00%
95 100.00% 100.00% 100.00% 100.00%
100 100.00% 100.00% 100.00% 100.00%
125 100.00% 100.00% 100.00% 100.00%
150 100.00% 100.00% 100.00% 100.00%
从表3的结果可以看出,当测序循环次数在70次及70次以上时,上述4种1+3测序的独特比对率都能达到70%以上,其中AB和TV测序的独特比对率达到85%以上,证明本发明所述的利用缺失核酸测序信息进行比对的方法的效果理想。
表3.独特比对率
从表4和表5的结果可以看出,当测序循环次数在90次及以上时,上述4种1+3测序的Q20比对率和Q30比对率都能达到70%以上,其中AB和TV测序的Q20比对率和Q30比对率达到85%以上,证明本发明所述的利用缺失核酸测序信息进行比对的方法的效果理想。
表4.Q20比对率
表5.Q30比对率
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (11)

1.一种利用缺失核酸测序信息进行比对的方法,其特征在于,包括以下步骤:
利用基因测序芯片对待测核酸分子进行多个测序化学反应循环;其中,预先选择至少一个循环,仅在所述至少一个循环中进行信号采集;在其他循环中仅进行测序化学反应,不进行信号采集;将采集到的所述信号编码为序列,得到缺失核酸序列;用相同的编码方式对待测核酸分子对应的参考序列进行编码,得到缺失参考序列;将所述缺失核酸序列和所述缺失参考序列进行比对;其中,一个测序化学反应循环包括,提供一种测序试剂,将该种测序试剂中具有可检测标记的核苷酸单体掺入所述待测核酸分子发生测序化学反应,并对所述可检测标记生成的测序信号进行信号采集或者不进行信号采集的过程;
其中,所述测序化学反应为荧光发生测序反应,选自下面两种测序方法中的一种:
(1)所述荧光发生测序为3’端不封闭的测序反应,在测序反应中,包括两种不同的测序试剂:第一测序试剂和第二测序试剂;两种测序试剂循环加入;其中所述第一测序试剂包含具有可检测标记的两种不同的核苷酸单体;所述第二测序试剂包含具有可检测标记的两种核苷酸单体,且所述两种核苷酸单体不同于所述第一测序试剂中存在的所述核苷酸单体,并且其中所述第二测序试剂是在提供了所述第一测序试剂随后提供的,所述核苷酸单体掺入待测核酸序列之后所述标记生成可检测的信号;
(2)所述荧光发生测序为3’端不封闭的测序反应,在测序反应中,包括两种不同的测序试剂:第一测序试剂和第二测序试剂;两种测序试剂循环加入;其中所述第一测序试剂包含具有可检测标记的三种不同的核苷酸单体;所述第二测序试剂包含具有可检测标记的一种核苷酸单体,且所述核苷酸单体不同于所述第一测序试剂中存在的所述核苷酸单体,并且其中所述第二测序试剂是在提供了所述第一测序试剂随后提供的,所述核苷酸单体掺入待测核酸序列之后所述标记生成可检测的信号。
2.根据权利要求1所述的方法,其特征在于,提供第一测序试剂后,对所述可检测的信号进行信号采集,提供第二测序试剂后,不进行信号采集。
3.根据权利要求1所述的方法,其特征在于,提供第二测序试剂后,对所述可检测的信号进行信号采集,提供第一测序试剂后,不进行信号采集。
4.根据权利要求2或3所述的方法,其特征在于,在所述进行信号采集的测序化学反应循环中需要进行油封;在所述不进行信号采集的测序化学反应循环中进行油封或不进行油封;所述油封指的是,首先将水相流体通过流体入口通入芯片的流体室,再通入油相流体将水相流体排出流体室,同时将部分水相流体封闭在芯片表面的微反应室内,形成相互隔离的反应单元。
5.根据权利要求1所述的方法,其特征在于,所述将采集到的所述信号编码为序列指的是,对于进行信号采集的测序循环,用与所述信号相对应的碱基符来表示序列,碱基符的个数对应于所述信号的强度;对于没有进行信号采集的循环,在序列中对应的位置写一个单独的占位符。
6.根据权利要求5所述的方法,其特征在于,所述碱基符和所述占位符为A、G、C、T/U中的一种或多种,且所述碱基符和所述占位符不同。
7.根据权利要求1所述的方法,其特征在于,所述参考序列是参考基因组,或参考转录组,或参考基因组的一个子集,或参考转录组的一个子集。
8.根据权利要求1所述的方法,其特征在于,所述缺失参考序列是一组序列,或是多组序列;所述缺失参考序列是多组序列时,需要将所述缺失核酸序列分别比对到每组缺失参考序列上,再从中选择一个较好的比对结果;所述“选择一个较好的比对结果”,可以是多个比对结果中比对质量较高的,也可以是比对上的序列部分较长的,也可以是比对结果中错误较少的,也可以是比对到参考序列中特定区域的。
9.根据权利要求8所述的方法,其特征在于,利用包括但不限于Smith-Waterman算法、Bowtie、BWA、SOAP、Needleman-Wunch算法、Bowtie2、BLAST、ELAND、TMAP、MAQ、minimap2、SHRiMP的软件或算法,将所述缺失核酸序列比对到所述缺失参考序列上,得到序列比对结果。
10.根据权利要求9所述的方法,其特征在于,所述方法进一步包括,对所述序列比对结果进行生物信息学分析;所述生物信息学分析包括,检测基因变异、检测基因表达量、检测RNA可变剪接状态、检测基因修饰状态、鉴定核酸来源的物种或个体、检测基因组三维结构、检测核酸与核酸间的相互作用、检测核酸与蛋白质间的相互作用、检测染色质可及性、解析RNA结构。
11.一种利用缺失核酸测序信息进行比对的系统,其特征在于:包括处理器、存储介质、计算机程序,所述系统被用于实施如权利要求1-10任一项所述的利用缺失核酸测序信息进行比对的方法。
CN202210104037.3A 2022-01-28 2022-01-28 一种利用缺失核酸测序信息进行比对的方法和系统 Active CN114540471B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210104037.3A CN114540471B (zh) 2022-01-28 2022-01-28 一种利用缺失核酸测序信息进行比对的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210104037.3A CN114540471B (zh) 2022-01-28 2022-01-28 一种利用缺失核酸测序信息进行比对的方法和系统

Publications (2)

Publication Number Publication Date
CN114540471A CN114540471A (zh) 2022-05-27
CN114540471B true CN114540471B (zh) 2024-05-14

Family

ID=81674038

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210104037.3A Active CN114540471B (zh) 2022-01-28 2022-01-28 一种利用缺失核酸测序信息进行比对的方法和系统

Country Status (1)

Country Link
CN (1) CN114540471B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102203292A (zh) * 2008-10-29 2011-09-28 南克森制药公司 通过质谱分析法测序核酸分子
WO2018089567A1 (en) * 2016-11-10 2018-05-17 Life Technologies Corporation Methods, systems and computer readable media to correct base calls in repeat regions of nucleic acid sequence reads
CN108165616A (zh) * 2016-12-01 2018-06-15 北京大学 一种利用模糊核酸测序信息进行比对及变异鉴定的方法和系统
CN113281324A (zh) * 2021-06-29 2021-08-20 江苏大学 一种小分子挥发物的特征信息提取方法及便携式检测系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102203292A (zh) * 2008-10-29 2011-09-28 南克森制药公司 通过质谱分析法测序核酸分子
WO2018089567A1 (en) * 2016-11-10 2018-05-17 Life Technologies Corporation Methods, systems and computer readable media to correct base calls in repeat regions of nucleic acid sequence reads
CN108165616A (zh) * 2016-12-01 2018-06-15 北京大学 一种利用模糊核酸测序信息进行比对及变异鉴定的方法和系统
CN111667882A (zh) * 2016-12-01 2020-09-15 赛纳生物科技(北京)有限公司 一种测序模糊序列信息进行比对的方法
CN113281324A (zh) * 2021-06-29 2021-08-20 江苏大学 一种小分子挥发物的特征信息提取方法及便携式检测系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Csuroes,M et al..Fast Mapping and Precise Alignment of AB SOLiD Color Reads to Reference DNA.ALGORITHMS IN BIOINFOMATICS.2010,第6293卷176-187. *
同源DNA序列比对缺失位点的核苷酸最大似然插补;潘克迈等;福建农林大学学报(自然科学版);第50卷(第4期);570-576 *

Also Published As

Publication number Publication date
CN114540471A (zh) 2022-05-27

Similar Documents

Publication Publication Date Title
AU2018266377B2 (en) Universal short adapters for indexing of polynucleotide samples
EP3289097B1 (en) Error suppression in sequenced dna fragments using redundant reads with unique molecular indices (umis)
RU2390561C2 (ru) Виртуальные наборы фрагментов нуклеотидных последовательностей
US20210024996A1 (en) Method for verifying bioassay samples
US10801062B2 (en) Methods and systems for sequencing long nucleic acids
CA2906818C (en) Generating cell-free dna libraries directly from blood
CN106434873B (zh) 使核酸分子同步化的方法
CA3220983A1 (en) Optimal index sequences for multiplex massively parallel sequencing
US20100279882A1 (en) Sequencing methods
US20190360034A1 (en) Methods and systems for sequencing nucleic acids
Matsumura et al. SuperSAGE: a modern platform for genome-wide quantitative transcript profiling
CA3114759A1 (en) Sequence-graph based tool for determining variation in short tandem repeat regions
CA3184609A1 (en) Methods and systems for visualizing short reads in repetitive regions of the genome
CN111575355B (zh) 一种测序模糊序列分析的方法
CN114540471B (zh) 一种利用缺失核酸测序信息进行比对的方法和系统
US20230101896A1 (en) Enhanced Detection of Target Nucleic Acids by Removal of DNA-RNA Cross Contamination
Cai Spatial mapping of single cells in human cerebral cortex using DARTFISH: A highly multiplexed method for in situ quantification of targeted RNA transcripts
CN109790587B (zh) 从100pg以下的人类基因组DNA判别其来源的方法、识别个人的方法及分析造血干细胞的植活程度的方法
WO2023287876A1 (en) Efficient duplex sequencing using high fidelity next generation sequencing reads
CN118056911A (zh) 一种检测探针的捕获效率的方法
CN112375828A (zh) 用于食蟹猴遗传关系鉴定的方法和应用
MXPA05012638A (en) Virtual representations of nucleotide sequences

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant