CN111575355B - 一种测序模糊序列分析的方法 - Google Patents

一种测序模糊序列分析的方法 Download PDF

Info

Publication number
CN111575355B
CN111575355B CN202010525787.9A CN202010525787A CN111575355B CN 111575355 B CN111575355 B CN 111575355B CN 202010525787 A CN202010525787 A CN 202010525787A CN 111575355 B CN111575355 B CN 111575355B
Authority
CN
China
Prior art keywords
sequencing
sequence
reaction solution
fuzzy
nucleic acid
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010525787.9A
Other languages
English (en)
Other versions
CN111575355A (zh
Inventor
周文雄
陈子天
康力
乔朔
段海峰
黄岩谊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN202010525787.9A priority Critical patent/CN111575355B/zh
Publication of CN111575355A publication Critical patent/CN111575355A/zh
Application granted granted Critical
Publication of CN111575355B publication Critical patent/CN111575355B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Biotechnology (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供一种测序模糊序列分析的方法:将待测的核苷酸片段固定,通过测序反应,获得模糊序列信息;模糊序列信息和参考基因组进行比对;同时可以对于变异进行鉴定。本发明提供的方法不需要完整的核酸碱基序列,仅通过多碱基反应液测序获得的模糊信息就可以进行比对和发现变异,不仅节省了测序的费用,还加快了比对的速度,降低了成本。

Description

一种测序模糊序列分析的方法
技术领域
本发明涉及一种测序模糊序列分析的方法和系统,属于基因测序领域。
背景技术
高通量测序技术又被称为下一代测序技术(NGS),是近年发展起来的新型测序技术。高通量测序技术是对于传统的测序技术的一次革命性改变,同时对几万到几百万的核酸分子进行同时测序。高通量测序中会产生大量的数据。数据的处理和利用是高通量测序的重要组成部分。
高通量测序技术可以发现基因变异,为临床诊断、筛查等提供依据。基因变异包括单核苷酸变异(SNV)、拷贝数变异(CNV)、染色体倍数变异、DNA修饰的变异(如DNA甲基化)等。临床诊断上要求能够以较低廉的价格,快速准确地检测基因变异。然而现有基于高通量测序技术的基因变异检测方法均需要先得到完整的DNA序列,然后寻找变异,从而提高了时间和价格成本。本发明提供一种模糊分析的方法,可以利用模糊的核酸序列快速的进行比对并且寻找变异。
发明内容
本发明提供一种获得DNA序列的部分信息,将该部分信息比对到参考基因组上,并利用该部分信息发现/鉴定基因变异的方法。
本发明提供一种测序模糊序列分析的方法,其特征在于,
将待测的核苷酸片段固定,通过测序反应,获得模糊序列信息;
模糊序列信息和参考核酸序列进行比对;
其中,所述的测序反应的反应液中包含两种或者两种以上不同碱基的核苷酸底物分子;
其中,所述的测序指的是利用5’端在多磷酸上修饰有荧光切换性质的荧光团的核苷酸底物分子进行测序;
所述的荧光切换性质指的是测序后荧光信号相比测序反应前有明显改变。
根据优选的实施方式,所述的模糊序列信息和参考核酸序列进行比对包括以下步骤:
(1)对测序结果和参考基因组用相同的方法进行编码;
(2)将编码后的测序结果比对到编码后的参考基因组上;
(3)比对结果中发现基因变异。
根据优选的实施方式,编码的过程中,如果两条DNA序列的理论测序信号是相同的,那么编码结果也相同。
根据优选的实施方式,还包括对任意一条DNA序列先编码、再作反向互补操作;或者先作反向互补操作、再编码;这两种情况下得到的结果均相同。
根据优选的实施方式,编码的过程中,不满足编码与反向互补可交换,则步骤(1)中,需要要同时对参考基因组及其反向互补序列都进行编码,并在步骤(2)中同时将每条DNA分子的测序结果比对到其参考基因组及其反向互补序列的编码结果上,并从中选择一个较好的比对结果;其中所述的编码与反向互补可交换指的是:对任意一条DNA序列先编码、再作反向互补操作,或者先作反向互补操作、再编码,这两种情况下得到的结果均相同。
根据优选的实施方式,所述的模糊序列信息进行编码以及参考核酸序列进行编码得到的是相同表示方式的编码。
根据优选的实施方式,所述的反应液是一套反应液组,每套反应液中包含两种或者三种的反应液。
根据优选的实施方式,将测序获得的模糊序列信息,编码成其可能的碱基序列信息中的一种。
本发明提供一种将测序获得的模糊序列信息进行分析的系统,包括计算系统,其特征在于,利用前面任一项所述的方法进行测序;将测序获得的模糊序列信息与参考核酸序列进行比对。
本发明提供一种通过测序获得的模糊序列信息进行比对以及变异鉴定的方法:将待测的核苷酸片段固定,通过测序反应,获得模糊序列信息;模糊序列信息和参考基因组进行比对;其中,所述的测序反应的反应液中包含两种或者两种以上不同碱基的核苷酸底物分子。
本发明所述的测序反应的反应液中包含两种或者两种以上的不同碱基的核苷酸底物分子。当其进行测序反应的时候,每次获得的是对应于测序反应液中核苷酸底物分子的序列信息。该信息可能含有两种或者两种以上的碱基数量信息,并不是确定的序列信息,是模糊的序列信息。
根据本发明优选的实施方式,利用5’端多磷酸修饰有荧光切换性质的荧光团的核苷酸底物分子进行测序;所述的荧光切换性质指的是测序后荧光信号相比测序反应前有明显改变。
根据本发明优选的实施方式,所述的测序是边成边测序方法。
根据本发明优选的实施方式,还包括将模糊序列信息和参考基因组用相同方式进行编码,然后进行比对。
根据本发明优选的实施方式,还包括将模糊序列信息或参考基因组进行编码,然后进行比对。在该编码的过程中,可能涉及到了碱基排列次序的改变,也可以用其它字母或符号的替代,以相同形式并且有利于比对为原则。
根据本发明优选的实施方式,还包括将参考基因组进行编码,更改其次序信息,然后与模糊序列信息进行比对。
根据本发明优选的实施方式,将参考基因组进行编码,更改其次序信息,然后与模糊序列信息的编码进行比对。
根据本发明优选的实施方式,所述的模糊序列信息指的是不能由该序列信息得出核苷酸序列的完整碱基序列信息。
根据本发明优选的实施方式,所述的完整碱基序列信息指的是以A、G、T、C为编码的核酸序列信息,或者可以获得以A、G、U、C为编码的核酸序列信息;其中碱基可以是甲基化的碱基。
根据本发明优选的实施方式,所述的模糊序列信息可以是使用M、K、R、Y、W、S、B、D、H、V字母表示的简并序列。
根据本发明优选的实施方式,所述的模糊序列信息可以是简并序列信息和非简并序列信息的结合。
根据本发明优选的实施方式,还包括将参考基因组进行编码,然后将模糊序列信息的编码和参考基因组编码进行比对
根据本发明优选的实施方式,所述的模糊序列信息进行编码以及参考基因组进行编码得到的是相同表示方式的编码。
根据本发明优选的实施方式,所述的测序是3端不封闭的测序方法。
根据本发明优选的实施方式,测序所用的反应液包含两种或两种以上不同碱基的核苷酸底物分子。
根据本发明优选的实施方式,测序所用的反应液中的两种或两种以上不同碱基的核苷酸底物分子用相同或者不相同的荧光分子标记。
根据本发明优选的实施方式,测序所用的反应液是一套反应液组,每套反应液中包含两种或者两种以上的反应液。
根据本发明优选的实施方式,所述的测序反应液是一套反应液组,每套反应液组包括两个反应液,每个反应液包含两种不同碱基的核苷酸;其中一个反应液中的核苷酸可以和待测核苷酸序列上的两种碱基互补,另一个反应液中的核苷酸可以和待测核酸序列上的另外两种碱基互补。
根据本发明优选的实施方式,利用Smith-Waterman算法、Bowtie、BWA或SOAP,将编码后的模糊序列信息比对到编码后的参考基因组上.
根据本发明优选的实施方式,利用常见的发现基因变异的方法,优选mutect、strelka、control-freec、cns-seq中的一种或多种,从比对的结果中发现变异的基因。
根据本发明优选的实施方式,将测序获得的模糊序列信息中,模糊序列信息编码成其可能的碱基序列信息中的一种.
根据本发明优选的实施方式,将测序获得的模糊序列信息中,所有模糊序列信息编码成数字。
根据本发明优选的实施方式,模糊序列信息进行编码以及参考基因组进行编码先后次序是可以调换的。
根据本发明优选的实施方式,利用5’端多磷酸修饰有荧光切换性质的荧光团的核苷酸底物分子进行测序;所述的荧光切换性质指的是测序后荧光信号相比测序反应前有明显改变。
根据本发明优选的实施方式,所述的荧光切换性质指的是每一步的测序反应后,荧光信号相比于测序反应前有明显增强或者有明显减弱或者发射光频率范围有明显改变。
根据本发明优选的实施方式,所述的5’端多磷酸修饰有荧光切换性质的荧光团的核苷酸底物分子,指的是5’末端磷酸修饰有荧光切换性质的荧光团的核苷酸底物分子。
根据本发明优选的实施方式,利用5’多磷酸末端或中间磷酸修饰有具有荧光切换性质荧光团的核苷酸底物分子进行测序;所述的荧光切换性质指的是测序后荧光信号强度相比测序反应前有明显上升;每轮测序使用一套反应液组,每套反应液组包括两个反应液,每个反应液包含两种不同碱基的核苷酸底物分子;其中一个反应液中的核苷酸底物分子可以和待测核苷酸序列上的两种碱基互补,另一个反应液中的核苷酸底物分子可以和待测核酸序列上的另外两种碱基互补;首先,将待测的核苷酸序列片段固定在反应室中,然后通入一套反应液组中的一个反应液;使用酶将具有荧光切换性质荧光团的核苷酸底物上面的荧光团释放,从而导致荧光切换;然后通入同一套反应液组中的第二个反应液;使用酶将具有荧光切换性质的荧光团的核苷酸底物上面的荧光团释放,从而导致荧光切换;两个反应液循环加入,通过荧光信息获得待测核苷酸底物的模糊编码信息。
本发明提供一种测序试剂,其特征在于,将待测的核苷酸片段固定,通过测序试剂与固定的核苷酸片段反应,获得模糊序列信息;其中,所述的测序反应的反应液中包含两种或者两种以上不同碱基的核苷酸底物分子。
根据本发明优选的实施方式,利用5’端多磷酸修饰有荧光切换性质的荧光团的核苷酸底物分子测序试剂进行测序;所述的荧光切换性质指的是测序后荧光信号相比测序反应前有明显改变。
根据本发明优选的实施方式,所述的反应试剂中的两种或两种以上不同碱基的核苷酸底物分子用相同或者不相同的荧光分子标记。
根据本发明优选的实施方式,所述的反应试剂是一套反应液组,每套反应液中包含两种或者两种以上的反应液。
根据本发明优选的实施方式,所述的测序反应试剂是一套反应液组,每套反应液组包括两个反应液,每个反应液包含两种不同碱基的核苷酸;其中一个反应液中的核苷酸可以和待测核苷酸序列上的两种碱基互补,另一个反应液中的核苷酸可以和待测核酸序列上的另外两种碱基互补。
根据本发明优选的实施方式,利用5’多磷酸末端或中间磷酸修饰有具有荧光切换性质荧光团的核苷酸底物分子进行测序;所述的荧光切换性质指的是测序后荧光信号强度相比测序反应前有明显上升;每轮测序使用一套反应液组,每套反应液组包括两个反应液,每个反应液包含两种不同碱基的核苷酸底物分子;其中一个反应液中的核苷酸底物分子可以和待测核苷酸序列上的两种碱基互补,另一个反应液中的核苷酸底物分子可以和待测核酸序列上的另外两种碱基互补;首先,将待测的核苷酸序列片段固定,通入一套反应液组中的一个反应液;使用酶将具有荧光切换性质荧光团的核苷酸底物上面的荧光团释放,从而导致荧光切换;然后通入同一套反应液组中的第二个反应液;使用酶将具有荧光切换性质荧光团的核苷酸底物上面的荧光团释放,从而导致荧光切换;两个反应液循环加入,通过荧光信息获得待测核苷酸底物的模糊编码信息。
本发明提供一种获得模糊的核酸编码信息的核酸测序方法,其特征在于,将待测的核苷酸片段固定,通过测序试剂与固定的核苷酸片段反应,获得模糊序列信息;其中,所述的测序反应的反应液中包含两种或者两种以上不同碱基的核苷酸底物分子。
根据本发明优选的实施方式,利用5’端多磷酸修饰有荧光切换性质的荧光团的核苷酸底物分子测序试剂进行测序;
所述的荧光切换性质指的是测序后荧光信号相比测序反应前有明显改变。
根据本发明优选的实施方式,所述的反应试剂中的两种或两种以上不同碱基的核苷酸底物分子用相同或者不相同的荧光分子标记。
根据本发明优选的实施方式,所述的反应试剂是一套反应液组,每套反应液中包含两种或者两种以上的反应液。
根据本发明优选的实施方式,所述的测序反应试剂是一套反应液组,每套反应液组包括两个反应液,每个反应液包含两种不同碱基的核苷酸;其中一个反应液中的核苷酸可以和待测核苷酸序列上的两种碱基互补,另一个反应液中的核苷酸可以和待测核酸序列上的另外两种碱基互补。
根据本发明优选的实施方式,利用5’多磷酸末端或中间磷酸修饰有具有荧光切换性质荧光团的核苷酸底物分子进行测序;所述的荧光切换性质指的是测序后荧光信号强度相比测序反应前有明显上升;每轮测序使用一套反应液组,每套反应液组包括两个反应液,每个反应液包含两种不同碱基的核苷酸底物分子;其中一个反应液中的核苷酸底物分子可以和待测核苷酸序列上的两种碱基互补,另一个反应液中的核苷酸底物分子可以和待测核酸序列上的另外两种碱基互补;首先,将待测的核苷酸序列片段固定,通入一套反应液组中的一个反应液;使用酶将具有荧光切换性质荧光团的核苷酸底物上面的荧光团释放,从而导致荧光切换;然后通入同一套反应液组中的第二个反应液;使用酶将具有荧光切换性质荧光团的核苷酸底物上面的荧光团释放,从而导致荧光切换;两个反应液循环加入,通过荧光信息获得待测核苷酸底物的模糊编码信息。
本发明提供一种将测序获得的模糊序列信息进行比对以及变异鉴定的系统,包括计算系统,利用测序获得的模糊序列信息进行比对和/或变异鉴定。
模糊测序信息指的是不能由该序列信息得出核苷酸序列确定的碱基序列信息。模糊碱基序列是科研领域的常见概念,比如用字母W代表碱基A和/或T。WIKIPEDIA上也有相关的定义(https://en.wikipedia.org/wiki/Nucleotide)。
模糊编码指的是不同DNA序列可能有相同的编码结果。反过来说,同一个编码结果可能有多个不同的来源。
模糊信息编码指的是对DNA序列的操作,不同的DNA序列可能有相同的操作结果。将参考基因组进行编码指的是对参考基因组序列的操作,局部不同的参考基因组可能有相同的操作结果。模糊信息编码指的是将按照其对应碱基,进行序列局部忽略实际序列次序的简单重排。序列局部指的是一个测序反应(一次测序由多个测序反应组成)所对应的序列上的区域。
本发明中所述的2+2测序方法指的是,每轮测序使用一套反应液组,每套反应液组包括两个反应液,每个反应液包含两种不同碱基的核苷酸底物分子;其中一个反应液中的核苷酸底物分子可以和待测核苷酸序列上的两种碱基互补,另一个反应液中的核苷酸底物分子可以和待测核酸序列上的另外两种碱基互补。例如一套反应液中含有两种反应液,第一种含有A和T的底物分子,另一种含有G和C的底物分子。可以用两个反应液中的核苷酸分子组成来命名2+2测序方法。例如一套反应液中含有两种反应液,第一种含有A和T的底物分子(合称W),另一种含有G和C的底物分子(合称S),则利用该套反应液进行的2+2测序称为WS测序。2+2测序共有MK、RY和WS三种组合的测序方法,每一种又可以分为单色和双色测序。
本发明中所述的1+3测序指的是,每轮测序使用一套反应液,每套反应液中包括两个反应液,其中一个反应液中的核苷酸底物分子可以和待测核苷酸序列上的一种碱基互补反应,另一个反应液中的核苷酸底物分子可以和待测核苷酸序列上的其它三种碱基互补反应。例如一套反应液中含有两种反应液,第一种含有A的底物分子,另一种含有G、C和T的底物分子。
本发明提供的方法具有以下优点:只进行一次2+2或1+3测序,无需针对同一DNA序列进行多次反复2+2或1+3测序。每轮测序使用的反应液中的核苷酸底物可以标记相同的荧光基团,也可以分别标记不同的荧光基团。本发明可以同时对测序结果和参考基因组进行编码。编码的特征是如果两条DNA序列的理论测序信号是相同的,那么编码结果也相同。本发明利用通用的序列比对和鉴定基因变异的方法将编码后的测序结果比对到编码后的参考基因组上,并鉴定基因变异。本发明所提供的方法在双色2+2测序信息编码中需要丢弃每条序列的第一个和最后一个子字符串。本发明首次提出了2+2或1+3模糊测序信息的应用。
本发明所涉及到的所有名词,除特殊说明外,均为基因测序领域的常用含义。
具体实施方式
在公开描述本发明的化合物、测序步骤、比对方法等仅是对于本发明的进一步说明,所使用的术语也仅仅用于描述特定形式,并不够成本发明的限制因素。
本发明的基本步骤如下:
1.对DNA样品进行一轮2+2或1+3测序。
2.对测序结果和参考基因组用相同的方法进行编码。编码的特征是,如果两条DNA序列的理论测序信号是相同的,那么编码结果也相同(即使这两条序列本身不同)。编码的结果是一条或多条字符串(或说序列)。
3.利用通常使用的序列比对方法(如Smith-Waterman算法、Bowtie、BWA、SOAP等),将编码后的测序结果比对到编码后的参考基因组上。
4.利用通常使用的发现基因变异的方法(如mutect、strelka、control-freec、cns-seq、GATK等)从第3步的比对结果中发现基因变异。
5.根据第2步中的编码方法,解读第4步中发现的基因变异。
理论测序信号指理想情况下,不考虑测序错误、信号衰减、DNA分子不同步等异常情况下,理论上测序应该得到的信号。理论测序信号直接反映了DNA序列的碱基组成。
上述编码方法可以满足(也可以不满足)以下“编码与反向互补可交换”性质:对任意一条DNA序列先编码、再作反向互补操作,或者先作反向互补操作、再编码,这两种情况下得到的结果均相同。例如,对一条DNA序列作单MK测序,规定编码方式为:将所测得的M全部改写为A,所测得的K全部改写为T。
那么:
Figure BDA0002533741840000091
Figure BDA0002533741840000092
可以看到,这种编码方式是符合该“编码与反向互补可交换”性质的。但如果规定编码方式为:将所测得的M全部改写为A,所测得的K全部改写为C。
那么:
Figure BDA0002533741840000093
Figure BDA0002533741840000094
那就不符合该“编码与反向互补可交换”性质了。
如果选择的编码方式不符合“编码与反向互补可交换”性质,那么第2步中需要同时对参考基因组及其反向互补序列都进行编码,并在第3步中同时将每条DNA分子的(编码后)测序结果比对到其参考基因组及其反向互补序列的编码结果上,并从中选择一个较好的比对结果。如果选择的编码方式符合“编码与反向互补可交换”性质,那么第2步中只需要对参考基因组进行编码,不需要对其反向互补序列也进行编码。
单色2+2测序中符合“编码与反向互补可交换”性质的编码方式的示例:
1.MK测序:1)M改写为A,K改写为T;或2)M改写为C,K改写为G;
2.RY测序:1)R改写为A,Y改写为T;或2)R改写为C,Y改写为G;
3.WS测序:编码与反向互补可交换”性质的编码单色WS测序的方法:W字符编码成字符串AT,S字符编码成字符串CG;以此类推,WW编码成ATAT,SS编码成CGCG,WWW编码成ATATAT,SSS编码成CGCGCG,等。
双色2+2测序中符合“编码与反向互补可交换”性质的编码方式的示例:
1.将序列按顺序分割成若干子字符串,每个子字符串仅含有和该2+2测序组合相对应的碱基。例如双色MK测序下,每个子字符串仅由A和/或C组成,或仅由G和/或T组成。例如序列AAGTGGCACT被分割成(AA,GTGG,CAC,T)。
2.每个子字符串分别按照字母表顺序由小到大重新排列。例如(AA,GTGG,CAC,T)被重新排列成(AA,GGGT,ACC,T)。
3.将重排后的子字符串按顺序连接起来,组成新的字符串,作为编码结果。例如(AA,GGGT,ACC,T)被连接成字符串AAGGGTACCT。
上述双色编码方式符合“编码与反向互补可交换”性质:
Figure BDA0002533741840000101
Figure BDA0002533741840000102
为了提高第3步中的比对准确性,双色2+2编码中每条序列的第一个和最后一个子字符串可能需要丢弃。如上例中,序列AAGTGGCACT需要被编码为GGTACCC。因为这两部分容易出现比对错误。
以下实施例如无特殊说明,单色和双色2+2均采用前述示例所给编码方式。dMK、dRY、dWS分别指双色MK、双色RY和双色WS,sMK、sRY分别指单色MK和单色RY。为了进一步阐明本发明,现列出如下具体实施方式。其中所涉及的具体的参数、步骤等,为本领域的常规知识。具体实施方式和实施例并不限制本发明的保护范围。除特殊说明外,本发明涉及到的所有名词均为本领域的常规含义。除特殊说明外,本发明涉及到的所有的基因序列,均为市场上人工合成的序列。常见的序列合成的公司有很多,例如invitrogen。
实施例1
按照本发明的描述,对人基因组DNA样品(Thermo公司的Ion PITM Controls200Kit中的试剂Human CEPH Genomic DNA,货号4488985)分别进行双色MK、双色RY、双色WS、单色MK、单色RY测序,每组各测一百万条DNA序列。将结果编码后用Bowtie2比对到对应的编码基因组上,统计仅能比对到编码后基因组上唯一位置的DNA序列的比例(独特比对率)。并将结果和Illumina测序仪(HiSeq 2000)的测序结果(可以获得完整的DNA序列信息)对照。独特比对率如下表:
读长/bp illumina dMK dRY dWS sMK sRY
20 72.15% 4.22% 4.28% 8.87% 0.00% 0.00%
50 91.32% 89.88% 88.98% 90.04% 87.64% 77.74%
100 96.10% 95.95% 95.85% 95.96% 95.34% 89.26%
150 97.11% 97.04% 97.01% 97.05% 96.68% 93.64%
200 97.60% 97.57% 97.54% 97.57% 97.30% 95.46%
250 97.87% 97.85% 97.84% 97.85% 97.66% 96.35%
300 98.06% 98.05% 98.04% 98.05% 97.89% 96.85%
表中,dMK表示双色MK测序方法。小写字母d和s分别表示双色测序和单色测序。
实施例2
按照本发明的描述,对大肠杆菌基因组DNA样品(thermo的E.coli DNA Control,货号4458450)分别进行双色MK、双色RY、双色WS、单色MK、单色RY测序,每组各测一百万条DNA序列。将结果编码后用Bowtie2比对到对应的编码基因组上,统计仅能比对到编码后基因组上唯一位置的DNA序列的比例(独特比对率)。并将结果和Illumina测序仪的测序结果(可以获得完整的DNA序列信息)对照。独特比对率的结果如下表:
Figure BDA0002533741840000111
Figure BDA0002533741840000121
实施例3
由于本发明仅根据DNA序列的部分信息来推断基因变异,因此存在一部分基因变异是本发明理论上不可能发现的。例如在单色MK测序中,点突变A→C不可能被发现(但在单色RY中理论上可以发现);而在双色MK测序中,相邻的两个碱基AC如果在突变中交换位置,变成CA,那么也是理论上不可能被发现的。我们统计了目前已知的所有人类SNV中(dbSNP数据库下载:https://www.ncbi.nlm.nih.gov/snp。文件名:All_20150605.vcf.gz)理论上不可能被本发明所检测到的比例,如下表:
编码类型 总数 比例
sMK 23766415 16.829475%
dMK 1578 0.001117%
sRY 89087273 63.084486%
dRY 5983 0.004237%
dWS 1181 0.000836%
实施例4
2+2三轮测序,单色:配置3套反应液,每套两瓶,每瓶有两种标记有荧光基团的碱基,荧光基团均为常见核酸标记用荧光基团。一套中的两瓶反应液,恰好包含完整的4种碱基。6瓶溶液互不重复。
第一瓶 第二瓶
第一套 AX+CX GX+TX
第二套 AX+GX CX+TX
第三套 AX+TX CX+GX
完整的测序过程包括三轮,三轮依次进行。每轮的测序过程分别使用上述三套试剂。除此之外完全相同(使用相同的测序引物,反应条件完全相同)。
每轮测序包含:
1.将测序引物杂交在已经制备好的DNA阵列上
2.开始测序过程。重复2.1-2.4过程有限次。
2.1进第一瓶试剂。反应并采集荧光信号。
2.2清洗flowcell中的全部残留反应液和产生的荧光分子
2.3进第二瓶试剂。反应并采集荧光信号。
2.2清洗flowcell中的全部残留反应液和产生的荧光分子
3.将延伸过的测序引物解旋。
至此,便可进行下一轮实验。
准备反应液:
配制测序反应液洗液,简称洗液,含有:
20mM Tris-HCl pH 8.8
10mM(NH4)2SO4
50mM KCl
2mM MgSO4
0.1%
Figure BDA0002533741840000131
20
配制测序反应液母液(简称母液),含有:
20mM Tris-HCl pH 8.8
10mM(NH4)2SO4
50mM KCl
2mM MgSO4
0.1%
Figure BDA0002533741840000141
20
8000unit/mL Bst polymerase
100unit/mL CIP
配制三组测序反应液,共六瓶。分别为:
1A、母液+20uM dA4P-TG+20uM dC4P-TG
1B、母液+20uM dG4P-TG+20uM dG4P-TG
2A、母液+20uM dA4P-TG+20uM dG4P-TG
2B、母液+20uM dC4P-TG+20uM dG4P-TG
3A、母液+20uM dA4P-TG+20uM dT4P-TG
3B、母液+20uM dC4P-TG+20uM dG4P-TG
配制好的反应液和母液,置于4c冰箱或冰上待用。
杂交测序引物:
将测序芯片内注入测序引物溶液(10uM溶解于1X SSC buffer),升温至90度,在以5摄氏度/min的速度降温至40度。用洗液冲洗掉测序引物溶液。
进行第一次测序:
将测序芯片置于测序仪上。
使用第一组反应液进行测序。遵循如下流程。
1,通入洗液10mL,冲洗芯片
2,将芯片降温至4摄氏度
3,通入100uL反应液1A
4,将芯片升温至65摄氏度
5,等待1min
6,用473nm激光激发,拍摄荧光图像。
7,通入洗液10mL,冲洗芯片
8,将芯片降温至4摄氏度
9,通入100uL反应液1B
10,将芯片升温至65摄氏度
11,等待1min
12,用473nm激光激发,拍摄荧光图像。
重复1-12的步骤50次,得到100个荧光信号。
实施例5
双色2+2三轮测序:配置3套反应液,每套两瓶,每瓶有两种碱基。两种碱基标记有不同的荧光发色团,以便进行区分,发射波长不同。
在本例中,全部碱基均使用两种发色基团:X和Y。一套中的两瓶反应液,恰好包含完整的4种碱基。6瓶溶液互不重复。
第一瓶 第二瓶
第一套 AX+CY GX+TY
第二套 AX+GY CX+TY
第三套 AX+TY CX+GY
(XY是符号表示,指的是常见的核酸标记用荧光基团)
完整的测序过程包括三轮,三轮依次进行。每轮的测序过程分别使用上述三套试剂。除此之外完全相同。
每轮测序包含:
1将测序引物杂交在已经制备好的DNA阵列上
2开始测序过程。重复2.1-2.4过程有限次。
2.1进第一瓶试剂。反应并采集两个波长的荧光信号。
2.2清洗flowcell中的全部残留反应液和产生的荧光分子
2.3进第二瓶试剂。反应并采集两个波长的荧光信号。
2.2清洗flowcell中的全部残留反应液和产生的荧光分子
3将延伸过的测序引物解旋。
至此,便可进行下一轮实验。
实施例6
实施例4和实施例5是完整的测序流程。常见的观点认为,实施例4和实施例5的测序流程下,或者至少测两轮的情况下,可以得到完整、明确的序列信息。在存在参考基因组的情况下,只需要测序一轮,获得模糊序列信息,就可以通过与参考基因进行比对或者发现变异。
在实施例4的基础上。仅需要配置三套反应液中的任一套反应液,利用其两瓶反应液进行一轮测序。具体测序步骤可以和实施例4相同。
实施例7
在实施例5的基础上,仅需要配置三套反应液中的任一套反应液,利用其两瓶反应液进行一轮测序。具体测序步骤可以和实施例5相同。
对于本发明的测序方法的进一步阐述可以参照申请人已经申请的专利,CN201510822361.9或者CN 201510815685.X。在这里不再详述。特别需要声明的是,本发明的具体测序步骤并不限制本发明的保护范围。

Claims (7)

1.一种测序模糊序列分析的方法,其特征在于,
将待测的核苷酸片段固定,通过测序反应,获得模糊序列信息;
模糊序列信息和参考核酸序列进行比对;
其中,所述的测序反应的其中一种测序反应液中包含两种不同碱基的核苷酸底物分子;
其中,所述的测序指的是利用5’端在多磷酸上修饰有荧光切换性质的荧光团的核苷酸底物分子进行测序;
所述的荧光切换性质指的是测序后荧光信号相比测序反应前有明显改变;
所述的测序指的是:每轮测序使用一套反应液组,每套反应液组包括两个反应液,每个反应液包含两种不同碱基的核苷酸底物分子;其中一个反应液中的核苷酸底物分子可以和待测核苷酸序列上的两种碱基互补,另一个反应液中的核苷酸底物分子可以和待测核酸序列上的另外两种碱基互补;
其中,所述模糊序列信息和参考核酸序列进行比对,指的是模糊序列信息与参考核酸序列使用相同的方法进行编码,进行比对;
其中,所述的模糊序列信息和参考核酸序列进行比对包括以下步骤:
(1)对测序结果和参考核酸序列用相同的方法进行编码;
(2)将编码后的测序结果比对到编码后的参考核酸序列上;
(3)比对结果中发现基因变异。
2.根据权利要求1所述的方法,其特征在于,
编码的过程中,如果两条DNA序列的理论测序信号是相同的,那么编码结果也相同。
3.根据权利要求1所述的方法,其特征在于,
还包括对任意一条DNA序列先编码、再作反向互补操作;或者先作反向互补操作、再编码;这两种情况下得到的结果均相同。
4.根据权利要求1所述的方法,其特征在于,
编码的过程中,不满足编码与反向互补可交换,则步骤(1)中,需要同时对参考核酸序列及其反向互补序列都进行编码,并在步骤(2)中同时将每条DNA分子的测序结果比对到其参考核酸序列及其反向互补序列的编码结果上,并从中选择一个较好的比对结果;其中所述的编码与反向互补可交换指的是:对任意一条DNA序列先编码、再作反向互补操作,或者先作反向互补操作、再编码,这两种情况下得到的结果均相同。
5.根据前面权利要求1-4任一项所述的方法,其特征在于,
所述的模糊序列信息进行编码以及参考核酸序列进行编码得到的是相同表示方式的编码。
6.根据权利要求1-4任一项所述的方法,其特征在于,
将测序获得的模糊序列信息,编码成其可能的碱基序列信息中的一种。
7.一种将测序获得的模糊序列信息进行分析的系统,包括计算系统,其特征在于,
利用前面任一项权利要求所述的方法进行测序;将测序获得的模糊序列信息与参考核酸序列进行比对。
CN202010525787.9A 2016-12-01 2016-12-01 一种测序模糊序列分析的方法 Active CN111575355B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010525787.9A CN111575355B (zh) 2016-12-01 2016-12-01 一种测序模糊序列分析的方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010525787.9A CN111575355B (zh) 2016-12-01 2016-12-01 一种测序模糊序列分析的方法
CN201611088606.0A CN108165616B (zh) 2016-12-01 2016-12-01 一种利用模糊核酸测序信息进行比对及变异鉴定的方法和系统

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201611088606.0A Division CN108165616B (zh) 2016-12-01 2016-12-01 一种利用模糊核酸测序信息进行比对及变异鉴定的方法和系统

Publications (2)

Publication Number Publication Date
CN111575355A CN111575355A (zh) 2020-08-25
CN111575355B true CN111575355B (zh) 2023-03-10

Family

ID=62525863

Family Applications (3)

Application Number Title Priority Date Filing Date
CN202010525787.9A Active CN111575355B (zh) 2016-12-01 2016-12-01 一种测序模糊序列分析的方法
CN202010525168.XA Active CN111667882B (zh) 2016-12-01 2016-12-01 一种测序模糊序列信息进行比对的方法
CN201611088606.0A Active CN108165616B (zh) 2016-12-01 2016-12-01 一种利用模糊核酸测序信息进行比对及变异鉴定的方法和系统

Family Applications After (2)

Application Number Title Priority Date Filing Date
CN202010525168.XA Active CN111667882B (zh) 2016-12-01 2016-12-01 一种测序模糊序列信息进行比对的方法
CN201611088606.0A Active CN108165616B (zh) 2016-12-01 2016-12-01 一种利用模糊核酸测序信息进行比对及变异鉴定的方法和系统

Country Status (1)

Country Link
CN (3) CN111575355B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112102883B (zh) * 2020-08-20 2023-12-08 深圳华大生命科学研究院 一种fastq文件压缩中的碱基序列编码方法和系统
CN114540471B (zh) * 2022-01-28 2024-05-14 赛纳生物科技(北京)有限公司 一种利用缺失核酸测序信息进行比对的方法和系统
CN114561453A (zh) * 2022-01-28 2022-05-31 赛纳生物科技(北京)有限公司 一种通过简并测序对目标样品定性分析或定量分析的方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100130368A1 (en) * 1998-07-30 2010-05-27 Shankar Balasubramanian Method and system for sequencing polynucleotides
US20100035249A1 (en) * 2008-08-05 2010-02-11 Kabushiki Kaisha Dnaform Rna sequencing and analysis using solid support
CN102329884B (zh) * 2011-10-20 2013-05-08 东南大学 两核苷酸同时合成dna测序方法及其应用
US9238836B2 (en) * 2012-03-30 2016-01-19 Pacific Biosciences Of California, Inc. Methods and compositions for sequencing modified nucleic acids
CN102634586B (zh) * 2012-04-27 2013-10-30 东南大学 一种两核苷酸实时合成dna解码测序方法
CN103951724B (zh) * 2014-04-30 2017-02-15 南京普东兴生物科技有限公司 一种特殊修饰的核苷酸及其在高通量测序方面的应用
CN104910229B (zh) * 2015-04-30 2019-11-12 赛纳生物科技(北京)有限公司 多聚磷酸末端荧光标记核苷酸及其应用
CN110343753B (zh) * 2015-11-19 2022-06-21 赛纳生物科技(北京)有限公司 一种磷酸修饰荧光团的核苷酸分子测序方法

Also Published As

Publication number Publication date
CN111667882A (zh) 2020-09-15
CN108165616A (zh) 2018-06-15
CN111667882B (zh) 2024-05-14
CN108165616B (zh) 2020-09-29
CN111575355A (zh) 2020-08-25

Similar Documents

Publication Publication Date Title
CN110343753B (zh) 一种磷酸修饰荧光团的核苷酸分子测序方法
US8709729B2 (en) Method of making an array of nucleic acid colonies
CN110129415B (zh) 一种ngs建库分子接头及其制备方法和用途
US11789906B2 (en) Systems and methods for genomic manipulations and analysis
CN111575355B (zh) 一种测序模糊序列分析的方法
CN108699599A (zh) 获得和校正生物序列信息的方法
ES2701750T3 (es) Procedimientos para secuenciar un ácido nucleico
CN106834456A (zh) 一种采用新型荧光标记方法标记的y‑str复合扩增检测试剂盒及其使用方法
AU2020231246A1 (en) Sequence-graph based tool for determining variation in short tandem repeat regions
CN112840035B (zh) 对多核苷酸进行测序的方法
Dey Sanger Sequencing and Next Generation Gene Sequencing: Basic Principles and Applications in Pathology
CN106755290B (zh) 利用具有荧光切换性质荧光团的核苷酸底物分子进行测序的方法
CN114540471B (zh) 一种利用缺失核酸测序信息进行比对的方法和系统
CN106916882B (zh) 用于辨识核苷酸基因多型性的基因型鉴定芯片的双重等位基因特异性聚合酶链锁反应的方法
Cai Spatial mapping of single cells in human cerebral cortex using DARTFISH: A highly multiplexed method for in situ quantification of targeted RNA transcripts
CN104388546B (zh) 一种两轮信号耦合编码的dna连接测序方法
RU2799654C2 (ru) Инструмент на основе графов последовательностей для определения вариаций в областях коротких тандемных повторов
RU2825664C2 (ru) Инструмент на основе графов последовательностей для определения вариаций в областях коротких тандемных повторов
Remesh et al. Chapter-7 SOLiD Sequencing: A Comprehensive Overview
WO2023175041A1 (en) Concurrent sequencing of forward and reverse complement strands on concatenated polynucleotides
US20190264259A1 (en) Method for determining origin of human genomic dna of 100 pg or less, method for identifying individual, and method for analyzing level of engraftment of hematopoietic stem cells
Gaikwad Source of Genomic Resources-The genome sequencing facility

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant