CN113373524A - 一种ctDNA测序标签接头、文库、检测方法和试剂盒 - Google Patents
一种ctDNA测序标签接头、文库、检测方法和试剂盒 Download PDFInfo
- Publication number
- CN113373524A CN113373524A CN202110458794.6A CN202110458794A CN113373524A CN 113373524 A CN113373524 A CN 113373524A CN 202110458794 A CN202110458794 A CN 202110458794A CN 113373524 A CN113373524 A CN 113373524A
- Authority
- CN
- China
- Prior art keywords
- artificial sequence
- dna
- sample
- tag
- sequencing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- C—CHEMISTRY; METALLURGY
- C40—COMBINATORIAL TECHNOLOGY
- C40B—COMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
- C40B70/00—Tags or labels specially adapted for combinatorial chemistry or libraries, e.g. fluorescent tags or bar codes
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
-
- C—CHEMISTRY; METALLURGY
- C40—COMBINATORIAL TECHNOLOGY
- C40B—COMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
- C40B40/00—Libraries per se, e.g. arrays, mixtures
- C40B40/04—Libraries containing only organic compounds
- C40B40/06—Libraries containing nucleotides or polynucleotides, or derivatives thereof
-
- C—CHEMISTRY; METALLURGY
- C40—COMBINATORIAL TECHNOLOGY
- C40B—COMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
- C40B80/00—Linkers or spacers specially adapted for combinatorial chemistry or libraries, e.g. traceless linkers or safety-catch linkers
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
Landscapes
- Chemical & Material Sciences (AREA)
- Organic Chemistry (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Biochemistry (AREA)
- Molecular Biology (AREA)
- Physics & Mathematics (AREA)
- Medicinal Chemistry (AREA)
- General Chemical & Material Sciences (AREA)
- Engineering & Computer Science (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Zoology (AREA)
- Biotechnology (AREA)
- Analytical Chemistry (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Wood Science & Technology (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Genetics & Genomics (AREA)
- Immunology (AREA)
- Microbiology (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开一种利用NGS技术检测血浆ctDNA超低频突变的测序方法及分子标签接头。标签接头包括含有11个碱基的样本标签和含有4个碱基的单分子及双链DNA共用标签序列。样本标签实现了超过300种i7/i5“双端唯一”index组合,分子标签可同时用作单分子和双链分子index。采用本发明提供的标签接头,可以有效去除文库富集过程中DNA氧化应激损伤、PCR扩增以及测序引入的随机错误突变;同时能够有效识别发生“标签跳跃”的分子,避免因标签跳跃造成样本间交叉污染引入的假性突变。本发明在保证100%特异性的前提下实现了检测灵敏度的大力提升,ctDNA中丰度0.1%突变的检测敏感性达到95%以上。
Description
技术领域
本发明涉及一种ctDNA的测序方法以及标签接头,属于基因测序技术领域。
背景技术
循环肿瘤DNA(circulating tumor DNA,ctDNA)来源于凋亡、坏死的肿瘤细胞或肿瘤细胞分泌释放产生的小片段DNA,是人体循环游离DNA(circulating cell-free DNA,cfDNA)的一部分。ctDNA含有与其来源肿瘤细胞DNA同样的基因变异,如点突变,插入缺失,重排,拷贝数变异等;其在血液中的半衰期极短,只有大约1.5-2小时;经过人体血液循环系统混匀,其携带的肿瘤基因信息更全面,可克服组织活检中由于肿瘤异质性带来的检测不足的缺陷,检测更全面;此外,ctDNA反映肿瘤负荷大小,可实时监测肿瘤的动态变化;因此ctDNA检测可用于癌症早期筛查与辅助诊断、肿瘤疗效评估、耐药揭示、复发监测和预后判断等。由ctDNA的含量低且变化大,因此需要高特异性和高灵敏度的检测方法。目前常用的方法有微滴式数字PCR(droplet digital PCR,ddPCR)、BEAming、Cobas、ARMS和高通量测序(next generation sequencing,NGS)等。
然而,ctDNA的检测往往受限于灵敏度的问题,对于超低频突变的检出率和准确性没有达到令人满意的水平。第一个原因就是因为ctDNA的起始量低,造成ctDNA多样性在测序上机前就处于较低水平,主要原因包括以下几个:首先,ctDNA在外周血中的含量特别低。人体正常细胞的凋亡和坏死也会释放大量的cfDNA到血液循环系统中,为ctDNA的检测制造了大量的背景噪音。一般认为,血浆中ctDNA占cfDNA的比例从0.1%到10%不等。随着患者肿瘤疾病的进展,肿瘤负荷升高,ctDNA在血液中的含量和比例也随之升高。但是,即使是在晚期癌症患者中,其ctDNA的含量也仅占总cfDNA的1%,甚至更低;而对于早期的癌症患者,外周血中ctDNA的含量甚至少到0.01%。其次,ctDNA多为150-200bp的小片段分子,提取较为困难,损失量大,每10mL全血中平均只能提取到50-100ng左右的cfDNA;再者,由于后续的建库过程中需要经过末端修复、3’端腺苷酸化、加接头、PCR扩增和DNA纯化等多个步骤,样本损失会进一步加剧;因此,以上种种问题导致了ctDNA的多样性较为有限,最终成为影响ctDNA检测灵敏度低的一个重要原因。
第二个影响超低频突变检测的原因是ctDNA检测存在严重而复杂的背景噪音,干扰了真实突变与假性突变的分辨,最终影响突变的判读。这些背景噪音主要发生于文库构建或者测序过程。首先,为了提高测序时DNA的进入量,在文库构建的过程中,通常需要进行PCR扩增,而PCR的过程势必会引入碱基的随机错误。据报道,一般的高保真酶在复制过程中每个碱基出现错误的概率大约在10-6-10-4左右,并且会随着PCR循环数的增多而逐渐增大,尤其是在第一轮PCR扩增过程中引入错误的话,对后续的测序真假判别影响巨大,极有可能造成假阳性结果;同时,在文库构建中的由于探针富集的氧化应激作用,会造成DNA的氧化损伤或脱氨基损伤,也会引入假性碱基变异;其次,目前测序精度最高的测序仪Hiseq的单碱基测序错误率也可能达到0.1%。因此,文库构建和测序过程中的多种原因可能会导致测序得到的每个碱基出现错误的概率达到10-3左右,即每1000个碱基就会出现1个错误碱基。因此,对于检测超低频的ctDNA突变会造成很大的背景噪音。根据权威文献报道,在千分之一及以下的检测限的情况下,背景噪音大幅度升高,很难区分检测到的突变是真实的来源于患者体内的原始DNA的突变还是PCR、氧化损伤或测序引入的错误,最终导致检测的特异度降低。
此外,高通量测序仪的“标签跳跃”也会影响ctDNA检测的背景噪音。在高通量测序文库制备中通过Y型接头或PCR扩增引入标签(barcode或index),通过每个样本独特的标签让生信工程师方便而准确地区分样本。然而,Illumina公司公布的白皮书提到一些高通量型号,如HiSeq 3000/4000,Hiseq X系列及NovaSeq等仪器,容易出现样品标签错配的问题,即建库完成后,多余的游离接头分子即使经过纯化仍无法彻底去除,建库完成后的样本内会有极微量的游离接头分子残留。多个样本混合后,残留的接头分子在簇生成步骤会扩增其他样本的DNA片段,形成错误标记的文库,Illumina公司生动的描述这种现象为“标签跳跃”(index hopping),最终导致大约0.3%-0.5%的样本间交叉污染。造成这种标签跳跃的主要原因在于这些仪器都采用了新型的以Nano-Well为特点的Patterned Flow CellTechnology(PFCT),簇生成的方式也有别于传统的桥式PCR,换成了排他性扩增(ExclusionAmplification)。传统双端index的方法是通过少数几种index序列(8+12,共计20种)排列组合实现96种样品的标签区分。然而,这种方式非常容易导致在加样过程中引入接头分子的交叉污染。接头分子交叉后组成新的i7/i5组合index。而该种组合在样品分配中无法将这部分错误剔除,因为样本混合在一起进行测序,任何i5/i7的组合都是“合法”的。因此原本属于某一个样本中的部分测序数据就被错误的分配到另一个样本中,最终造成样本间交叉污染,影响突变判读。此外,测序过程也可能恰巧在测序接头分子时发生错读,导致错误index序列的产生,而测序平台始终存在一定的测序错误。
患者体内ctDNA含量低属于客观问题,难以从技术层面克服,解决方法就是增加患者血液的采集量,但存在一定困难,提升也相对有限。而对于背景噪音和标签跳跃的问题目前有一些解决方法。首先,为了解决ctDNA超低频突变检测背景噪音高的问题,目前较为常规的办法为提高测序深度,通过加大测序数据量来增加reads(读段)支持数,从而达到对低丰度突变检测的目的。但是,诸如上述所说,由于ctDNA起始多样性有限,且存在文库富集中的氧化应激损伤和PCR过程的随机错误引入,提高测序深度反而容易造成大量的假阳性突变。因此,在造成数据浪费和成本增加的同时还会由于测序深度的盲目提高导致准确性降低。另一种办法为通过模板DNA分子的内源性“单分子标签”,即给单链DNA分子两端添加上特异的分子标签,借助分子标签的碱基序列来判定下机数据中的reads是否来自于同一条DNA原始分子,来源于同一条DNA原始分子的reads将会根据每条reads的突变情况确定真实的突变情况。通过这种单分子标签技术,能够有效的识别检测到的突变是原始单链模板DNA分子原来携带还是PCR过程引入的随机错误,从而有效去除PCR随机错误。但是,富集中的氧化应激造成的DNA损伤突变可能发生在PCR扩增之前,而且单分子标签只能识别单链DNA分子的错误,并不能有效识别DNA双链分子本身存在的碱基变异,仍旧会导致假阳性突变的存在。
其次,为了解决标签跳跃的问题,Illumina公司也对index混合方案提出了“双端唯一”(Dual Unique)标签的建议,即每种i7与独特的一种i5组成双端index,排除由于标签跳跃造成的样本间交叉污染。但是,这种情况导致的后果就是标签index的种类只有8种,数量极少,难以满足大样本检测需求。另一方面,为了解决标签序列错读问题,主要方法是在index的设计中设置理想的汉明距离(Hamming distance)。理想的汉明距离能够允许即使在测序过程中产生index错读,也可以反推回正确的index。体现在index设计方面,与index的容错率有关。index序列长度增加,可供选择的种类越多,容错率也越强。目前,Illumina公司的index序列从最初的6nt增加到8nt,虽然容错率大大提高,但是可供选择的序列种类依旧有限,仍旧不能够满足较大通量的测序。理论上,更长的index序列其容错率会进一步提升。
在极低频ctDNA突变检测中,提高敏感性并且避免假阳性,保证检测结果的准确性是液体活检的重要一环。而由于存在上述种种原因,基于ctDNA的低频突变检测面临巨大的挑战和困难。因此,如何从技术上设计合理的分子标签和样本标签成为提高ctDNA检测敏感性的重要工作。
发明内容
为解决现有液态活检ctDNA检测中灵敏度低等技术不足,本发明提出了一种改进的ctDNA测序方法以及该方法中涉及的标签接头,从而提高检测灵敏度和特异性,实现提升检出率的同时提高对假阳性突变的分辨率,最终提高检测的敏感性和准确性。本发明所提供的标签接头分子和文库的构建方法可以成功的解决超低频ctDNA检测困难的问题,实现了在100%特异性前提下对低至0.1%丰度ctDNA突变的检测敏感性高达95%以上。
本发明的第一个方面,提供了:
一种ctDNA测序标签接头,包括第一接头以及第二接头;
所述的第一接头以及第二接头都为Y型接头,每个Y型接头包括两条链,其中包括互补段和非互补段;在所述的互补段中包括分子标签,在非互补段中包括样本标签。
在一个实施方式中,所述的第一接头中的第一链上的样本标签的核苷酸序列选自如SEQ ID NO.1-368中的任意一条的第1-11个碱基所示的序列;第一接头中的第二链上的样本标签的核苷酸序列选自与第一链在同一条上的第12-22个碱基所示的序列;优选地,第一接头数量为368个,且每个接头之间的样本标签序列都互不相同。
在一个实施方式中,所述的第二接头中的第一链上的样本标签的核苷酸序列选自如SEQ ID NO.1-368中的任意一条的第1-11个碱基所示的序列;第二接头中的第二链上的样本标签的核苷酸序列选自与第一链在同一条上的第12-22个碱基所示的序列;优选地,第二接头数量为368个,且每个接头之间的样本标签序列都互不相同。
在一个实施方式中,所述的第一接头以及第二接头中的样本标签相互构成一个特异性组合。
所述的特异性组合是指:第一接头的第一链的样本标签与第二接头的第二链的样本标签相同;并且第一接头的第二链的样本标签与第二接头的第一链的样本标签相同。
在一个实施方式中,所述的样本标签的长度为6-20bp,更优选10-15bp,最优选11bp。
在一个实施方式中,所述的样本标签的种类数量大于100个,更优选大于200个,最优选大于300个。
在一个实施方式中,所述的样本标签相互之间的汉明距离大于3,更优选大于4。
在一个实施方式中,所述的样本标签序列设计不包含均聚物(homopolymers),同时不以G作为序列的起始,不包含连续的G,颜色平衡且碱基平衡,能够同时满足四通道、双通道平台的要求。
在一个实施方式中,所述的分子标签的长度为3-10bp,更优选3-8bp,最优选4bp。
本发明的第二个方面,提供了:
一种ctDNA测序文库,所述的文库中的DNA片段上连接有上述的的标签接头。
在一个实施方式中,所述的测序文库中的DNA片段为双链,在一个DNA片段中的双链的一端连接第一接头,另一端连接第二接头;并且在一个DNA片段中的双链中的任意一条链上两端的样本标签相互不同。
本发明的第三个方面,提供了:
一种ctDNA检测方法,包括如下步骤:
构建含有上述标签接头的测序文库,并进行上机检测;
对下机数据进行分析:
S1,根据样本标签对数据进行合并;
S2,对于含有相同的样本标签的数据,根据分子标签进行归类;对于含有相同的分子标签的读段,再根据读段的序列进行聚类,在一类中的读段中,只有当全部的读段的碱基完全一致时,则将该类的读段数据标记为真实数据;
S3,对于S2中得到的真实数据结果,选取含有相互互补的分子标签的两类读段数据,若读段数据也在两类中相互互补,则标记为正确读段数据。
本发明的第四个方面,提供了:
一种试剂盒,用于对ctDNA进行文库构建,其中含有上述的标签接头。
本发明的第五个方面,提供了:
一种ctDNA测序装置,包括:
提取模块,用于对血液样品中的ctDNA进行提取;
文库构建模块,用于将提取模块中得到的ctDNA采用上述的标签接头构建出测序文库;
测序模块,用于对文库构建模块中得到的测序文库进行高通量测序,并获得下机数据;
样本分类模块,用于对下机数据按照样本标签的不同进行合并;
第一分析模块,用于对样本分类模块中得到的数据进行处理,对于含有相同的样本标签的数据,根据分子标签进行归类;对于含有相同的分子标签的读段,再根据读段的序列进行聚类,在一类中的读段中,只有当全部的读段的碱基完全一致时,则将该类的读段数据标记为真实数据;
第二分析模块,用于对第一分析模块得到的真实数据结果,选取含有相互互补的分子标签的两类读段数据,若读段数据也在两类中相互互补,则标记为正确读段数据。
本发明的第六个方面,提供了:
一种计算机可读取介质,其中记载有可以运行上述ctDNA测序方法的程序。
本发明的第七个方面,提供了:
上述的ctDNA测序标签接头在用于制备ctDNA检测试剂中的应用。
有益效果
该测序方法包括以下组成部分:1、提供一种ctDNA测序方法;2、该测序方法所涉及的单分子及双链分子标签及样本标签接头;3、30000倍超高深度测序。本发明通过单分子及双链DNA共用分子标签和新型样本标签,解决现有液态活检检测技术中由于ctDNA含量低、PCR随机错误、DNA氧化损伤和标签跳跃等问题导致的测序灵敏度低、假阳性率高、测序结果准确性低的问题。基于新型单分子、双链共用分子标签技术不仅能够识别检出的突变是模板DNA分子本身携带的还是PCR过程引入的随机错误或测序过程中引入的错误,从而有效去除PCR和测序过程引入的随机错误;也能够还原部分双链DNA分子,配对分析双链低频突变,从而彻底去除氧化应激等引起的单链DNA分子假性突变;同时,基于自主设计的样本标签,能够有效判断识别发生标签跳跃的DNA分子,从而避免标签跳跃造成的样本间交叉污染。以上技术再结合30000倍的超高深度测序,从而提升ctDNA检测的敏感性并提高对假阳性突变的分辨率,从而整体提高ctDNA检测的灵敏度和特异性。
本发明在实现检测灵敏度提升的同时大大提高了检测特异性,使得ctDNA检测的敏感性和准确性达到全新的高度。在使用Horizon商品化cfDNA参考品进行性能验证的实验中,应用本发明技术可以在0.1%丰度下,实现95%的灵敏度和100%的特异性;本发明结合分子标签技术、样本标签多样化技术及超高深度测序对ctDNA进行检测,可以有效提高测序灵敏度,目前可以最低检测到丰度为0.03%的突变。同时利用不同细胞系混合后在30ng进入量情况下实现0.1%丰度时96%的灵敏度和100%的特异性;再者利用真实世界早中期结直肠癌患者的术前和术后3-7天cfDNA样本进行检测,术前血浆检出率从常规ctDNA检测的62.7%提高至84.0%,提升近34%;术后3-7天血浆检测率从18.7%提高至33.3%,从而大大提高了早中期患者的ctDNA检测率。
附图说明
图1示出了根据本发明实施方式的标签接头分子结构和文库的构建方法原理示意图;
图2示出了根据本发明实施方式的通过标签接头识别单分子、双链假性错误突变的原理示意图;
图3示出了根据本发明实施方式的文库构建效率和分子回收率的数据展示图;
图4示出了根据本发明实施方式的通过标签接头中样本标签识别标签跳跃或标签测序错误分子的性能展示图;
图5示出了根据本发明实施方式的对于真实世界II/III期结直肠癌患者术前及术后ctDNA突变检出率提高的数据展示图。
具体实施方式
本发明公开了一种利用NGS技术检测血浆ctDNA超低频突变的测序方法及分子标签接头。标签接头包括含有13个碱基的样本标签和含有4个碱基的单分子及双链DNA共用标签序列。13碱基样本标签实现了超过300种i7/i5“双端唯一”(Dual Unique)index组合,4碱基分子标签可同时用作单分子和双链分子index。采用本发明提供的标签接头结合30000倍超高深度测序,可以有效去除文库富集过程中DNA氧化应激损伤、PCR扩增以及测序引入的随机错误突变;同时能够有效识别发生“标签跳跃”(index hopping)的分子,从而避免因标签跳跃造成样本间交叉污染引入的假性突变。本发明在保证100%特异性的前提下实现了检测灵敏度的大力提升,ctDNA中丰度0.1%突变的检测敏感性达到95%以上。采用本发明提供的方法结合30000倍超高深度测序,可以有效的去除掉由于文库富集过程中DNA的氧化应激损伤或脱氨基损伤引起的错误突变、PCR扩增中DNA聚合酶引入的随机错误突变;同时能够有效识别标签跳跃的DNA分子,从而避免标签跳跃造成的样本间交叉污染,排除因样本污染引入的假突变。
如图1所示,本发明提供的接头为Y型接头,其可以分为互补段以及非互补段,互补段的两段序列的核苷酸序列为相互互补,而非互补段之间并不互补。本发明的标签接头中包含了样本标签以及分子标签。样本标签分别位于两个非互补段,而分子标签位于互补段。
对于样本标签,即样本index,用于对来自于不同样本的读段进行标记;本发明中优选将其长度设定为11bp。所有index序列之间的汉明距离大于3,大部分序列之间的汉明距离超过4;序列设计不包含均聚物(homopolymers),同时不以G作为序列的起始,不包含连续的G,颜色平衡且碱基平衡,能够同时满足四通道、双通道平台的要求;index全部采用Dual Unique形式,i7/i5专一特异性组合,Dual Unique index种类数达到300种以上;由于本发明将样本标签设于非互补段且将分子标签设于互补段中,因此,就可以有效地利用Y型标签上的非互补段的长度,使得能够设计的样本标签的种类大幅增加,就进一步提高了测序过程中的样本容纳量,如果减小样本标签的长度,并且需要保证足够的汉明距离时,能够设计的样本标签种类就显著减小。另外,如图1所示,在一个样本中的文库构建过程上,每一个读段两端的样本标签都是特异性组合的,i5/i7样本标签具有特定匹配,因此,只有当下机数据中得到的读段两端的i5-i7是符合设定规则时,才被认为是合格的读段。并且,本发明中实现了提高样本标签数量的效果,能够将双端唯一样本标签的种类扩展到了300种以上,在设计过程中,为了提高样本标签的种类,需要提高其碱基数,并且在设计中需要衡量GC含量平衡、容错性、色彩平衡等因素对于最终结果的影响,在经过了大量反复设计后,确定了如SEQ ID NO.1-736所示的样本标签,将SEQ ID NO.1-2作为一个配对,SEQ ID NO.3-4作为一个配对,……,以此类推。在下机数据分析过程中,通过对i5-i7双端标签进行分析,由于一个样本中的配对是特定的,因此可以将样本标记并且可以去除标签跳跃引起的错误。刚下机的数据是来自若干样本混合的测序读段,举例说明:测序时混合了三个样本,他们的样本标签分别是i5蓝i7黄,i5橙i7紫,i5黑i7白。使用样本标签拆分数据时,对所有读段逐一判断:这条读段是蓝黄,来自样本1;这条读段是黑白,来自样本3;这条读段是蓝紫,肯定是标签跳跃,丢弃;这条读段是蓝红,本次测序由于是没有这条样本标签,则丢弃。
对于分子标签,即分子标签barcode,该分子标签不仅能够识别单分子错误突变,也能够识别双链DNA错误突变,含有4bp的单分子和双链标签序列。本步骤中所使用的分子标签是可以通过随机的方式生成的,因此,分子标签的种类数量可以非常多,在将接头连接于DNA片段时,可以对来源于不同的DNA片断进行标识。这里所采用的是4bp长度的样本标签。对于一个特定的样本的读段数据来说,通过不同的分子标签可以将来自于不同DNA模板的序列进行标记,在进行数据分析时,首先将读段根据分子标签的组合的不同来进行归类,在同一类下的读段,都应当具有相同的分子标签;由于在同一个分子标签下的读段,有可能是来自于不同的DNA模板,因此,需要进一步地进行聚类分析,可以根据读段之间的相似性再进行下一步的归类,例如,将读段之间的差距小于3个碱基的都归为一类,由于它们有可能是来自于同一个DNA模板中,而来源于其它的DNA模板的序列则被归为其它的类别;接下来,如果某一个类别中的读段中,如果有一些读段与其它的读段的碱基不一致(或者说:这一个类别中的读段数据彼此之间不是完全相同的),那么读段间不一致的碱基很可能是PCR后期错误或测序错误,则将这一类别下的全部读段进行censor/打码,留作其它用途。而对于在一个类别中的读段数据相互之间是完全相同的情况,则认为是这个DNA模板的真实情况。至此,则获得了“单链共识序列”。
另外,由于在Y型接头中,互补段中的分子标签相互之间是互补的,那么就可以进一步地对其进行数据分析处理。在上一步中,通过分子标签进行标识,可以对于单链中的错误进行识别;那么在上一步得到的数据中,将原先来源于DNA双螺旋的两条单链DNA分子进行双链还原,并进行配对分析,进一步去除留下的单链分子单独存在而非在双链DNA中均存在的假性突变。理论上来说,来源于同一个分子标签的某类双链DNA分子应该携带反向互补的序列,因此可通过双链分子标签鉴别真正的基因突变,去除氧化应激等引起的只存在于单链DNA分子上而非双链DNA分子均存在的假性突变。在数据分析时,将分子标签按照能够相互互补的条件进行配对,由于相互互补的分子标签的读段数据,理论上也应该相互互补,因此,只有当相互互补时,才被认为数据是正确的;如果不互补,则认为可能是测序过程中引入的错误,则将这此数据进行标记。至此,则获得了“双链共识序列”。共识序列中,合并前,读段间不一致的碱基很可能是PCR早期错误或DNA损伤,会被censor/打码,留作其它用途。
单链共识序列应该去掉大量错误了,双链共识序列里剩下的突变应该都是特别真实存在的突变了。但必然存在一些落单的读段,他们的PCR复制或者互补链没有测到,无法构建共识序列,这些落单的读段里可能依然保留各种PCR错误,测序错误,或DNA损伤。这时,进一步引入生信抛光,获得这一部分标记的读段中的数据信息。
通过对目标DNA分子添加随机标签来进行标记;添加标签的建库方法是基于磁珠链霉亲和素-生物素探针捕获法;通过对添加的随机标签序列进行聚类分析,通过分子计数来区分真突变及PCR或测序错误;同时通过随机标签上的分子标签来还原双链DNA并配对比较来区分真突变及氧化应激等引起的单链损伤性错误;再者结合随机标签上的多样化样本标签i7/i5配对唯一性来识别标签跳跃,排除样本交叉污染引起的错误。
将上述的接头构建测序文库的步骤如下:
S1,从全血中提取cfDNA;S2,对cfDNA进行末端修复及3’端添加A碱基;S3,将S2得到的cfDNA的末端连接含有自主设计的包括样本标签和单分子及双链分子标签的接头;S4,对S3获得的连接产物进行磁珠纯化,去掉多余的标签接头,降低标签跳跃发生率;S5,根据接头的序列及目标区域进行文库的PCR扩增,PCR的引物中上下游引物为通用P5和P7引物;S6,对S5获得的PCR产物进行磁珠纯化,去除掉未非特异性扩增的小片段DNA及引物二聚体;S7,对S6的产物进行探针杂交和磁珠捕获,完成文库富集;S8,对S7的产物进行PCR扩增,PCR的引物中上下游引物为通用P5和P7引物,得到ctDNA超低频突变的文库,并对文库进行纯化和质控。
应用本发明的技术方案,通过对测序前文库中的每条目标序列添加外源的包含4bp长度的单分子及双链分子标签和11bp长度的样本标签的接头,结合30000倍超高深度测序,文库测序后的数据可通过分子标签序列进行聚类分析,识别出原始的DNA模板,排除PCR错误及测序错误;能够还原部分双链DNA分子,配对分析双链低频突变,从而彻底去除氧化应激等引起的单链DNA分子假性突变;通过多样化样本标签i7/i5的配对的唯一性,能够有效判断识别发生标签跳跃的DNA分子,从而避免标签跳跃造成的样本间交叉污染,排除样本污染引起假阳性突变。
本发明中,分子标签位于互补段,可以产生两方面的作用,以降低假阳性率。
给接头添加单分子和双链分子标签序列后,首先,可以通过分子标签将归属相同原始模板的扩增产物测序结果进行鉴别分类,去除单链DNA上由于PCR或测序过程引入的假突变,分辨真正的存在于单链DNA模板上的突变;理论上来说,来源于同一个分子标签的某类DNA分子应该携带相同的序列,因此可通过单分子标签鉴别真正的基因突变和随机错误,去除PCR和测序过程中引入的系统错误。其次,优选的,标签接头中单分子及双链分子标签序列为ATGC四种碱基中任意4个碱基自由组合组成,长度为4bp。
本发明中,分子标签位于非互补段,通过多样化样本标签i7/i5配对唯一性的技术,有效识别发生标签跳跃的分子并进行剔除而不纳入后续分析,从而避免标签跳跃造成的样本间交叉污染,排除样本污染引起假阳性突变。样本标签序列为ATGC四种碱基组成,长度为11bp,汉明距离大于3,大部分序列之间的汉明距离超过4;样本标签序列设计不包含均聚物(homopolymers),同时不以G作为序列的起始,不包含连续的G,且全部采用DualUnique形式,即i7和i5唯一性配对,种类数达到300种以上。含有上述单分子及双链分子标签和样本标签的接头分别连接在cfDNA的前后两端。
本发明的ctDNA超低频突变检测的文库的构建方法的原理示意图如图1所示。其中,第一步为接头的基本结构和组成部分,以及原始模板DNA双链;第二步为模板DNA分子与含单分子及双链分子标签和样本标签序列的接头连接;第三步为首次PCR扩增目标分子(引物为Illumina通用的P7和P5),完成文库预扩增;第四步为预扩增后的PCR产物;第五步为文库探针杂交和磁珠捕获,完成富集获得目标分子;第六为目标文库PCR扩增;第七为构建后的文库结构的示意图。
另外,本方法的目的是用于获得ctDNA检测中的相关突变数据,而存在有突变与疾病之间并无一致的相关性,因此上述的方法是直接用于非治疗与检测的目的。
下面将结合实例进一步说明本发明的有益效果。
本发明的实现步骤主要包括:
1.血浆中cfdna的提取
非小细胞肺癌患者全血10mL,采用Streck公司的Streck Cell-Free血浆游离DNA采血管进行收集和运输,运输温度为室温,运输时间不超过72小时。血浆的分离采用两步离心法,即先1600g离心10分钟,取上清;再16000g离心10分钟,上清即为分离好的血浆,该血浆保存于-80℃中。血浆中cfDNA的提取采用Qiagen公司的Circulating循环DNA(Circulating Nucleic Acid Kit)提取试剂盒,提取好的cfDNA存放在-20℃中备用。
2.标签接头的设计
本发明的ctDNA超低频突变检测的标签接头分子结构如图1(1)所示。标签接头主要包括单分子及双链分子标签和样本标签两大部分构成。其中,标签接头中单分子及双链分子标签序列为ATGC四种碱基中任意4个碱基自由组合组成,长度为4bp;
样本标签序列为ATGC四种碱基组成,长度为11bp,汉明距离大于3,大部分序列之间的汉明距离超过4;样本标签序列设计不包含均聚物(homopolymers),同时不以G作为序列的起始,不包含连续的G,且全部采用Dual Unique形式,即i7和i5唯一性配对,i7/i5index组合种类数达到300种以上。
合成好的标签接头采用EB(Elution Buffer)洗脱缓冲液进行溶解,终浓度为100μM,等比例摩尔数混合之后95℃加热5分钟,然后缓慢降温至室温完成退火。采用乙醇沉淀法对退火完成后的标签接头进行纯化,最后采用100μL无核酸酶水溶解,终浓度为20μM。
3.末端修复及3’端加A碱基
将cfDNA片段进行末端修复,可以利用Klenow片段、T4 DNA聚合酶和T4多核苷酸激酶进行。其中,所述Klenow片段具有5’-3’端聚合酶活性和3’-5’端聚合酶活性,但缺少5’-3’端外切酶活性。由此,能够方便准确地对cfDNA片段进行末端修复。根据本发明的实施例,还可以进一步包括对经过末端修复的cfDNA片段进行纯化的步骤,由此能够方便地进行后续实验步骤的开展。
利用T4聚合酶及Klenow大肠杆菌聚合酶片断,对于cfDNA 5'突出粘末端补平以及3'突出粘末端打平,产生平末端,用于后续的平端连接。反应在PCR扩增仪中进行,20℃,30分钟。按如下表(1)反应体系配置反应混合液,用枪轻柔地上下吹吸混匀。
表(1)
在经过末端修复的cfDNA片段的3’末端添加碱基A,以便获得具有粘性末端A的cfDNA片段。根据本发明的一个实施例,可以利用Klenow具有的3’-5’端外切酶活性,在经过末端修复的cfDNA片段的3’末端添加碱基A。根据本发明的实施例,还可以进一步包括对具有粘性3’末端A的cfDNA片段进行纯化的步骤,由此能够方便地进行实验步骤的开展。
按下表(2)反应体系配置反应混合液,用枪轻柔地上下吹吸混匀。
表(2)
反应材料 | 体积 |
末端修复后cfDNA样本库 | 30μL |
10×Klenow大肠杆菌聚合酶缓冲液 | 15μL |
脱氧碱基dATP(1mM) | 2.5μL |
Klenow大肠杆菌聚合酶片段 | 3μL |
无核酸酶水 | 总体积补至55μL |
反应在PCR扩增仪中进行,20℃,30分钟;65℃,30分钟;达到4℃后可进入下一步实验流程或置于-20℃备用。
4.标签接头连接
cfDNA片段需要进行标签接头连接,之后对连接产物进行纯化。
(1)按照下表(3)的配置反应混合液,用移液枪轻柔地上下吹吸混匀。
表(3)
反应材料 | 体积 |
加3’端碱基A后cfDNA样本库 | 30μL |
2×T4 DNA连接酶缓冲液 | 15μL |
步骤2中的DNA标签接头 | 2.5μL |
T4 DNA连接酶 | 5μL |
无核酸酶水 | 总体积补至55μL |
(2)放于PCR仪上,20℃反应30分钟。
(3)加入一定量0.9×Axygen Beads到上步反应管中,移液枪混匀;
(4)室温放置5分钟,磁力架上放置5分钟至上清澄清,小心移去并遗弃上清;
(5)转移上清置于磁力分离架上,80%乙醇清洗2次,去除残留,用一定体积水洗脱beads;
(6)室温放置5分钟,磁力架上放置5分钟,转移出上清。
(7)取1μL进行Qubit定量,记录产量。
5.文库PCR扩增
cfDNA片段需要进行扩增使得核酸的量能满足探针杂交捕获的需求,之后对扩增产物进行纯化。
(1)按下表(4)反应体系配置反应混合液,用移液枪轻柔地上下吹吸混匀。
表(4)
反应材料 | 体积 |
步骤5纯化后的cfDNA样本库 | 20μL |
10×高准确率超保真DNA聚合酶缓冲液 | 15μL |
高准确率超保真DNA聚合酶 | 2μL |
接头正引物 | 2μL |
接头反引物 | 2μL |
无核酸酶水 | 总体积补至50μL |
(2)PCR反应在PCR扩增仪中进行。PCR条件:置于PCR扩增仪中,98℃预变性45秒,98℃变性30秒,65℃退火30秒,72℃延伸30秒,共循环4-6次;最后在72℃延伸5分钟。达到4℃后可进入下一步实验流程或置于-20℃备用
(3)加入一定量1.5×Axygen Beads到扩增的文库管中,移液枪混匀。
(4)室温放置5分钟,磁力架上放置5分钟直至上清澄清,小心移去并遗弃上清;
(5)置于磁力分离架上,排枪吸取200μL新鲜配制的80%乙醇清洗2次,去除残留,用一定体积水洗脱beads;
(6)室温放置5分钟,磁力架上放置5分钟。转移出上清,至1.5mL离心管中。
(7)取1μL进行Qubit定量,计算文库总量及PCR扩增效率。
6.文库的富集及引入接头标签序列
在本发明的一个实施例中,主要经过文库封闭及干燥、文库探针捕获(杂交反应)、链霉亲和素捕获DNA及清洗回收步骤完成文库富集;接着采用含有Illumina的通用引物对上一步的文库进行扩增,同时对扩增产物引入接头中的单分子及双链标签序列和样本标签序列。
6.1文库探针捕获
(1)在文库中加入封闭液;
(2)将已加入封闭液的混合文库开盖并放入真空干燥机进行干燥,直至文库干燥完全。
(3)重悬上述干燥的DNA混合物于10μL杂交液中。对于每个杂交反应,加入杂交溶液后静置10分钟,然后用p20移液枪上下混匀10次确保DNA完全溶解,并转移到0.2mL低吸附PCR管中;
(4)加入1.5pmole/μL DNA捕获探针,并用p20移液器混匀,将加入探针的杂交混合液置于PCR仪中运行程序,95℃15分钟,每个循环降5℃,直至降到65℃保存。
(5)PCR仪中65℃,设置PCR仪加热盖为100℃,65℃加热过夜(16-18小时)。
6.2磁珠捕获DNA及其清洗和回收
6.2.1准备和清洗链霉亲和素磁珠
(1)将2×Beads Wash Buffer和10×Wash Buffer(I、Ⅱ、Ⅲ和Stringent)在室温解冻,稀释成1×溶液;
(2)将Invitrogen公司的链霉亲和素磁珠取出后蜗旋10秒,混匀之后吸取磁珠至一个1.5mL低吸附离心管中,并置于室温30分钟;
(3)放于磁力架上约1分钟,待液体澄清后小心取出并遗弃液体,用1×Bead WashBuffer重悬。将离心管放于1.5mL磁力架上约1分钟,待液体澄清后小心取出并遗弃液体;
(4)重复第2步操作;
(5)用1×Bead Wash Buffer重悬。转移磁珠到0.2mL低吸附管中。放于0.2mL磁力架上约1分钟,待液体澄清后小心取出并遗弃液体,保证所有的磁珠仍保留在PCR管中;
6.2.2杂交文库与链霉亲和素磁珠结合及文库清洗
(1)将过夜富集的杂交液从PCR仪中取出,短暂离心后,加入到含有链霉亲和素磁珠的管中,P20移液枪混匀;
(2)将捕获反应65℃孵育45分钟,每隔15分钟使用p20移液器上下吹吸混匀5次;
(3)加入65℃提前预热的1×Wash Buffer I。用p200移液枪上下混匀10次,并转移到一个新的1.5mL低吸附离心管,涡旋10秒,放于1.5mL磁力分离架上约1分钟,待液体澄清后小心取出并遗弃含有未结合DNA的上清液体;
(4)加入65℃提前预热的1×Stringent Wash Buffer。用p200移液枪上下混匀10次,并在65℃加热块上400rpm孵育5分钟。放于1.5mL磁力分离架上约1分钟,待液体澄清后小心取出并遗弃上清液体;
(5)重复步骤上述步骤;
(6)加入室温1×Wash Buffer I,并涡旋震荡2分钟,放于1.5mL磁力分离架上约1分钟,待液体澄清后小心取出并遗弃上清液体;
(7)加入室温1×Wash Buffer II,并涡旋震荡1分钟,放于1.5mL磁力分离架上约1分钟,待液体澄清后小心取出并遗弃上清液体;
(8)加入室温1×Wash Buffer III,并涡旋震荡30秒,放于1.5mL磁力分离架上约1分钟,待液体澄清后小心取出并遗弃上清液体;
(9)尽量取出全部液体,并让磁珠在室温下干燥3分钟。
6.3单链DNA模板PCR反应
(1)上述磁珠稍干燥后,加入无酶水重悬磁珠,用P200移液枪上下混匀10次;
(2)分别取适量beads加入0.2mL低吸附PCR管中进行on beads PCR;
(3)按下表(5)反应体系配置PCR混合反应液,进行捕获富集的DNA文库的PCR扩增:
表(5)
反应材料 | 1×反应体系 |
2×KAPA PCR Master Mix | 25μL |
10μM P5引物 | 2.5μL |
10μM P7引物 | 2.5μL |
捕获文库磁珠悬浮液 | 20μL |
总体积 | 50μL |
(4)PCR反应在PCR扩增仪中进行。PCR条件:置于PCR扩增仪中,98℃预变性1分钟,98℃变性15秒,65℃退火30秒,72℃延伸1分钟,共循环4-6次。最后在72℃延伸5分钟。
6.4PCR产物纯化
(1)取微量1.5×Axygen Beads磁珠上下混匀PCR产物;
(2)室温放置5分钟,磁力架上5分钟;
(3)至于磁力架上,取出上清,加入80%乙醇,30秒后弃上清;
(4)室温放5分钟,用无酶水重悬磁珠,混匀磁珠10次;
(5)室温放5分钟,磁力架上放5分钟,取出上清,将文库溶于30μL无酶水中;
(6)采用Qubit荧光计对文库进行精确定量,准备进入下一步测序流程。
6.5文库质控
(1)取微量0.5μL文库,将文库稀释至0.5pg/μL,进行PCR;
(2)按下表(6)反应体系配置PCR混合反应液,进行DNA文库的PCR扩增:
表(6)
(3)置于PCR扩增仪中,98℃预变性1分钟,98℃变性15秒,65℃退火30秒,72℃延伸1分钟,共循环4-6次。最后在72℃延伸5分钟;
(4)扩增结束后,将20μL PCR产物中加入3μL 6×loading dye,混匀。取10μL进行琼脂糖凝胶电泳。
7.文库检测及上机测序
将步骤6中得到的纯化产物稀释到2ng/μL,取出1μL进行安捷伦2100Bioanalyzer(安捷伦)检测;另外,再取出1μL用于qPCR检测,根据检测结果决定上机浓度。根据上步所得的浓度,将文库稀释到上机要求的浓度(2nmol)。按照Hiseq 4000User Guide准备测序试剂,将携有cluster的flow cell上机(Hiseq 4000,Illumina),选用paired-end程序,进行PE150双端测序。
8.下机质控
要求下机数据的平均测序深度30000×以上;下机数据比对到基因组(hs37d5)的比对率达90%;各样本碱基达到Q30的比例75%以上;样本捕获区域的覆盖度均一性值,即变异系数值<1.1;各样本中G碱基和C碱基的比例在46-52%之间,以及插入片段大小的中位数为100-250之间。此外,样本的污染率要求小于等于0.025%。实施例中的样本质控数据见表(7)。
表(7)
GC含量(%) | Q30(%) | 插入片段大小(bp) | 原始平均深度 | 有效深度 | 变异系数值 | 污染率 |
48.14 | 88.55 | 161 | 40521.91 | 12925.92 | 0.32 | 0.0001% |
9.突变分析
9.1合并质控后的数据
(1)将质控后数据中每条序列所携带的标签根据标签特征识别,将标签存放在序列FASTQ的表头前部,标签识别失败的序列丢弃;
(2)将处理好的样本FASTQ数据使用bwa比对至参考基因组(hs37d5)上,并使用picard按照序列名对比,对数据进行排序;
(3)对(2)得到的排序比对数据进行一致序列合并,对于某一个样本中得到的读段数据,根据其读段上的分子标签进行进一步分类,在每一个分子标签下,再进一步地根据读段碱基情况聚类,获得一个小类,在一个小类中,要求所有序列至少大于等于2条;如果在一个小类中读段之间的数据是完全一致的,则认为该碱基突变为真实的单链DNA突变,则进入步骤(3)中继续分析处理;当只要有一个读段与其它的读段数据不完全一致时,则将这个小类的数据全部标记,并不进入后续步骤;该步骤示意图如图2所示。
(4)对于(3)得到的分类数据,当存在反向互补的两条正义和反义链时,对两条链序列构建双链一致序列,碱基一致的序列仍保持原碱基,认为该碱基突变为真实的原双链DNA突变;双链碱基不一致时,则进行标记后,不进入后续的步骤中使用。
9.2突变分析及注释
分别对构建好的双链一致性序列以及全部合并数据进行排序,对数据进行突变分析,然后使用annovar、vep软件进行注释。对比公共数据库和自建数据库,获得癌症靶向用药相关检测结果。
10.性能验证
10.1建库效率和文库回收率
加入新的标签接头后,文库构建效率和分子回收效率是非常重要的测序相关指标,与最终的测序质量密切相关。因此,对于建库效率和DNA分子回收率进行计算和评估。在本实施例中,每次30ng cfDNA建库进入量,理论大约有10000个hGEs(haploid genomicequivalents),分3个批次样本进入。检测结果如图3(A)所示,大约60%的分子,即6000×DNA分子在杂交捕获后以单链一致序列(SSCS)形式被观察到。约800×DNA分子在杂交捕获后以双链一致序列(DCS)形式被观察到。
如图3(B)所示,不同原始cfDNA进入量,不同原始测序深度下,观察的双链一致序列深度符合概率模型计算出来的理论深度,R值为0.98,一致性极高。所以,回收的双链一致序列分子的数目虽然少,但基本也无偏倚现象存在。
10.2标签跳跃分子识别性能验证
标签跳跃容易造成样本间交叉污染,而且难以完全排除和杜绝。为了解决这样的问题,一般采用“双端匹配”(Dual Unique)标签的方式,即每种i7与独特的一种i5组成双端配对样本标签,通过识别DNA分子上的样本标签序列排除由于标签跳跃造成的样本间交叉污染。但是,Illumina提供的标签index种类只有8种,无法实现有效的标签跳跃识别。本发明通过设计极大的提高了样本标签的多样性,实现了超过300种以上的“双端匹配”标签组合,在测序完成后通过“双端匹配”机制,有效的分辨未发生标签跳跃的分子、发生标签跳跃的分子以及那些测序时标签序列发生错读的分子,在后续的生物信息学突变分析中,对于发生标签跳跃和标签序列错误的DNA分子进行排除,排除由于标签跳跃引起的样本间交叉污染,从而降低检测背景噪音,提高检测结果准确性。在本实施例中,如图4所示,通过生物信息学比对,我们能够有效识别并计算未发生标签跳跃的、发生标签跳跃的以及原始不存在的分子数量,标签跳跃发生率与测序平台发布的数据高度吻合。
10.3Horizon商品化cfDNA标准品验证
为了验证上述步骤中采用双分子标签对读段中碱基互补的数据进行筛选的作用,进行了验证实验,实验中对于进行了单链的数据的筛选后(上述第9部分第(3)步)后,不再进行双链互补碱基的数据筛选分析:选取了不同丰度的6个基因突变位点标准品,同时设立空白对照组,6个基因突变位点分别为NRAS Q61K、NRAS A59T、PIK3CA E545K、EGFR T790M、EGFR L858R和KRAS G12D,对应的丰度依次为0.5%,0.2%,0.1%和0%空白对照。同时采用本发明的标签接头技术和常规的标签接头技术进行高通量测序。每个位点每个稀释浓度分别设置4个重复,在不出现假阳性的前提下设定阳性判断值,分别评估两种技术在不同丰度对应突变位点的检出情况,具体检测结果见表(8)。
表(8)
根据本实施例中的检测结果,在不出现假阳性的前提下:对照组实验在0.5%、0.2%和0.1%的标准品检测中灵敏度分别为91.7%、79.2%和41.7%,而使用本发明研究技术后,在0.5%、0.2%和0.1%的标准品检测中灵敏度分别高达100%、100%和95.8%。
本发明标签接头技术相比传统检测技术显著降低了ctDNA检测背景噪音,提高了ctDNA检测灵敏度,最低检测限从不足0.5%提升到0.1%以上。
10.4不同细胞系混合进一步验证准确性
上步验证使用的是商品化样本,位点数量较为有限,无法评估大量位点的检测准确性,进一步采用临床上常用的两个NA细胞系进行梯度稀释,验证本发明标签接头技术的检测性能:分别选择NA18535和NA19240作为背景细胞系和检测细胞系,按照0.5%、0.2%和0.1%三个梯度进行稀释,即NA18535与NA19240的DNA量配比分别为99.9:0.1、99.8:0.2和99.5:0.5。分别采用本发明标签接头技术和未进行双链碱基互补分析的对照数据处理的过程对上述混合后的样本进行高通量测序,通过生信分析获得两个NA样本差异的纯合SNP和杂合SNP位点,考察两种技术对于杂合和纯合SNP位点的检测能力,具体检测结果见表(10)。
表(10)
根据本实施例中的检测结果,未进行双链碱基互补分析技术在检测0.5%丰度时能够达到96%的敏感性,能够符合一般的临床检测要求。但是随着检测丰度的逐渐降低,敏感性大幅度下降,至0.1%丰度时,敏感性只有40%左右;而本发明标签接头技术,即使是0.1%丰度时,对于SNP的检测敏感性也仍旧高达96%;而对于0.1%以上丰度的突变,敏感性几乎达到了100%。
10.5真实世界肿瘤患者cfDNA样本验证
上述验证均为实验条件下的性能验证,而真实患者的cfDNA样本情况更为复杂,且本发明最终需要应用于临床患者的检测。因此,对于真实世界中肿瘤患者的cfDNA样本的检测性能评价十分重要。在本实施例中,我们采集了75例II-IIIA可手术结直肠癌患者手术前的全血样本和手术后3-7天的全血样本,每次采集8-10mL,按照步骤1方式进行离心和样本处理。测序过程也同样进行常规标签接头和本发明标签接头技术高通量测序;对比两种cfDNA检测方法对于20例患者术前和术后血浆ctDNA突变的检出率。结果如图5所示,在添加标签接头后,术前血浆的检出数量从47例患者提高至63例,检出率从62.7%提高至84.0%,检出率增加21.3%,相较于原来提升34.0%;而对于术后3-7天血浆,检出数量从14例患者提高至25例,检出率从18.7%提高至33.3%,检出率增加14.6%,相较于原来提升78.1%。术后患者经手术切除肿瘤后,肿瘤负荷降低甚至清除,大部分患者难以检测到ctDNA突变,呈阴性状态;只有那些依然存在微小残留病灶的患者可能仍旧能够检测到ctDNA突变,而微小残留病灶与患者预后较差明显相关。因此对于这部分患者的ctDNA检测的灵敏度尤其重要。本发明的标签接头和测序方式使得75例可手术的II-III期肠癌患者术后3-7天的血浆ctDNA突变检出率提升超过75%,表明对于低频ctDNA突变的检测确实取得了优良的临床实际效果。
现有的ctDNA突变检测技术对于检测超低频突变(突变丰度在0.1-0.5%范围内)存在较大局限性,通常会采用加大测序深度,从而增加突变的reads支持数来判定真阳性和假阳性。但是,由于ctDNA的含量极低,且存在文库富集中的氧化应激损伤和PCR的随机错误,提高测序深度反而容易会造成大量的假阳性突变。因此,这种方式不仅造成数据大量浪费,增加测序成本,同时对于低丰度突变的真假并不能很好的区分,反而容易造成假阳性,降低特异性。另一种方法是根据分子内源性“标签”来校正背景噪音,即给单链DNA分子两端添加上特异的分子标签,借助分子标签的碱基序列来判定reads是否来自于同一条DNA原始分子。通过这种单分子标签技术,能够有效的识别突变是原始单链模板DNA分子携带还是PCR或测序引入的随机错误。但是,氧化应激造成的DNA损伤突变并不能通过单分子标签被有效排除。另外,测序中的“标签跳跃”(index hopping)也会造成一部分DNA分子的样本间交叉污染,即使采用“双端唯一”(Dual Unique)标签的方式,由于标签种类极其有限,很难做到标签跳跃分子的有效识别。由于存在上述种种原因,ctDNA中低频突变的检测面临巨大的挑战。
本发明提供的方法通过添加包含单分子及双链分子标签和多样化样本标签的分子接头,经过分子标签聚类分析排除PCR错误、测序错误以及氧化应激等损伤错误;同时通过样本标签i7和i5配对唯一性,有效识别发生标签跳跃或者标签序列测序错误的DNA分子,排除样本间交叉污染。最终,通过这样的测序技术有效地降低了背景噪音,并提高了检测的敏感性。在保证100%特异性的前提下使得检测0.1%丰度突变的敏感性提高至95%以上。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和优化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进、优化等,均应包含在本发明的保护范围之内。
序列表
<110> 南京世和基因生物技术股份有限公司
南京世和医疗器械有限公司
<120> 一种ctDNA测序标签接头、文库、检测方法和试剂盒
<130> 无
<160> 368
<170> SIPOSequenceListing 1.0
<210> 1
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 1
cctagcaact aacgcgttca ga 22
<210> 2
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 2
aattcgcagc acaatatgac cg 22
<210> 3
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 3
actactaagc cctaacctca tg 22
<210> 4
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 4
tacgttcgtc gacgtactac ga 22
<210> 5
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 5
tacacgcgtc ttcgcactct tc 22
<210> 6
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 6
acgaacatgc acaagcgtac ag 22
<210> 7
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 7
caatacagcg tcaagagatg ac 22
<210> 8
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 8
cagttaccta cctcgcatct ag 22
<210> 9
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 9
ttcgtcgtgt gctcactcac ag 22
<210> 10
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 10
accatagtct catccacaga gt 22
<210> 11
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 11
cctgaagaca acagtgtaat gc 22
<210> 12
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 12
aacactgatg caccaccatt gc 22
<210> 13
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 13
tagacgtagt gaagttagag cg 22
<210> 14
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 14
acgacaacct gacgccaaca ag 22
<210> 15
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 15
caatctgcag catacgccta tc 22
<210> 16
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 16
taccaagcta gacgtcatgt gc 22
<210> 17
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 17
cacgtaagag tcatccacta tg 22
<210> 18
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 18
ctcatgacgc tccacctaca ct 22
<210> 19
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 19
acgaagctct gtcgtgcata tc 22
<210> 20
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 20
caccgtacat tcagtagcac at 22
<210> 21
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 21
cagttctatc ctatgagtcg ac 22
<210> 22
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 22
tagctaacga gtccgataga tc 22
<210> 23
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 23
cacgatccga acctgtctcc aa 22
<210> 24
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 24
tcgcttaccg acaagtgtca ag 22
<210> 25
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 25
aatgaaccga ctcacaacac ga 22
<210> 26
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 26
caacgtaaga ctcttgcgaa ga 22
<210> 27
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 27
aaccatcatc caccgatgaa tg 22
<210> 28
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 28
cagttgctcg ttctagacgt ga 22
<210> 29
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 29
atgctacgaa gtcgttcgca ct 22
<210> 30
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 30
ctcgactgac aacgcgtact tg 22
<210> 31
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 31
atgacttccg ccctcctgtc ta 22
<210> 32
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 32
acaaccaaca gatagcacca ag 22
<210> 33
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 33
aagctcacta gacttcgaca tg 22
<210> 34
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 34
cactgtgagt cccacattcg ac 22
<210> 35
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 35
ctagttgtag ctcgacgaac at 22
<210> 36
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 36
caacagcatc cccaagacgt aa 22
<210> 37
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 37
atgtcgtcat catgaccata cc 22
<210> 38
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 38
attgttctgc gacctgtcca gt 22
<210> 39
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 39
atcaccgaca atcagctcgt tc 22
<210> 40
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 40
ccgcgattaa gacttgtcca tc 22
<210> 41
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 41
aagagatcga gtctgacagc at 22
<210> 42
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 42
ccaactcctt atctaccaga gt 22
<210> 43
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 43
atagaacctc gccaagaacc aa 22
<210> 44
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 44
cttactgcac cttccttcaa gc 22
<210> 45
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 45
taacgccgct attgcagatg cg 22
<210> 46
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 46
accgagcagt aaagaccaga gt 22
<210> 47
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 47
tacctgacat ctcacaacca gc 22
<210> 48
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 48
tagacaccat gcttgtctca ca 22
<210> 49
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 49
actacattgc cttatctccg ac 22
<210> 50
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 50
ctgcgaagtt gacctcacag aa 22
<210> 51
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 51
atcagcacca ctcattcagc gc 22
<210> 52
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 52
atgtacgctt gccacagtta tg 22
<210> 53
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 53
aatcctacga gctatgtccg at 22
<210> 54
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 54
tcgagccaat gtcttagaca gc 22
<210> 55
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 55
attcgctcaa ccttactgtc cg 22
<210> 56
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 56
acacttccgc atagcagtgt ac 22
<210> 57
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 57
ctctgtcacc ttctgcagag tc 22
<210> 58
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 58
atcagagagc aatcagctat cg 22
<210> 59
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 59
cagtcacgaa gttaagagag cg 22
<210> 60
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 60
atgagaacca gtccatgaac cg 22
<210> 61
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 61
attgcgtcga acagaccatg tc 22
<210> 62
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 62
tctcacgcat aattacagca gc 22
<210> 63
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 63
tcagacctac gatcgttgtg ac 22
<210> 64
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 64
accgatctca gtaacgctac ca 22
<210> 65
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 65
taacttgcga gcacgcgtct at 22
<210> 66
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 66
aagtcagcat cttcacacca tc 22
<210> 67
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 67
acctgaagtc gaacgctcca tt 22
<210> 68
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 68
cagactaaga gaaccgtccg tt 22
<210> 69
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 69
aactcgtcct atccgtctac ta 22
<210> 70
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 70
tctgccgtaa gcacgttcga ct 22
<210> 71
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 71
cattgcgcta gctgtctagc gt 22
<210> 72
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 72
ttagtgaacg ctcacaccgt ca 22
<210> 73
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 73
tcaagcgttg tcacgtctac ca 22
<210> 74
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 74
acttgtcacg ttcgtcttgc ac 22
<210> 75
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 75
acacagcgtc tctaatcacg tg 22
<210> 76
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 76
tctagctgat gctcaacttc cg 22
<210> 77
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 77
cttgtgctca ccaacttgtc ca 22
<210> 78
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 78
acgtgttcac cccatctatc gc 22
<210> 79
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 79
aatgatctcg ctcattccac gt 22
<210> 80
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 80
ctaagaacac gctcgtcctc at 22
<210> 81
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 81
aacgcgttct cacgacgagc aa 22
<210> 82
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 82
acgtcgataa gttgtgagtg cg 22
<210> 83
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 83
catcgacctc tcacaccgat ac 22
<210> 84
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 84
ccttcgcaat aaatagcgcc ag 22
<210> 85
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 85
cttaagcgaa ctcaagtgct ac 22
<210> 86
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 86
aacagcatcg cacactcaca ag 22
<210> 87
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 87
atcgactgtc ccaactcgtt gc 22
<210> 88
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 88
ctacctgagt ccaagctgta ag 22
<210> 89
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 89
ccaagtcttg cctcgcgtat aa 22
<210> 90
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 90
acagtgagtc tttgtgcgaa gt 22
<210> 91
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 91
cataacgaca gacttgccat tc 22
<210> 92
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 92
ctcgtgttag tcaatatcct cc 22
<210> 93
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 93
cacagcctct aaacgttgag cg 22
<210> 94
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 94
tatgatcagc gacctgctag at 22
<210> 95
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 95
atcagacacc taccgcgtta ca 22
<210> 96
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 96
cagtgtacct gtatcttcgc ca 22
<210> 97
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 97
attcgcacct tccttccatc gt 22
<210> 98
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 98
aagtgagcga tcacagtacc aa 22
<210> 99
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 99
accagtgtca gttcgcctga ag 22
<210> 100
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 100
cacctatgtt gtatgaccac ac 22
<210> 101
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 101
acagtgcatc acttcgcgta ct 22
<210> 102
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 102
ctcagttcgt gcttccttgc tg 22
<210> 103
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 103
ttcagacgct ccacaagatg ca 22
<210> 104
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 104
tactgccaac atcgctacct gt 22
<210> 105
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 105
atccagatcg actgtcatac cg 22
<210> 106
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 106
cagcgttaca gaatcgacga tg 22
<210> 107
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 107
tcgtacagag tttgagagcg ct 22
<210> 108
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 108
ctacagtgca taatgccaga ct 22
<210> 109
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 109
catgagtctc gcacagtcgt ta 22
<210> 110
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 110
cctgattctt cttcctctcc tc 22
<210> 111
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 111
atgactaagc gcacagatcg ta 22
<210> 112
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 112
caatcagaga cccgaagtca ca 22
<210> 113
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 113
catctcgaag caactaacga cg 22
<210> 114
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 114
tccatgagtg tttgaccact cc 22
<210> 115
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 115
tccaatccag atatagcgag tg 22
<210> 116
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 116
tcagcatcct cttctaactc gc 22
<210> 117
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 117
ctcacaagat cacgctagtc at 22
<210> 118
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 118
atgagcgcgt taccatacta gc 22
<210> 119
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 119
cttgctacga gtccgagaga ag 22
<210> 120
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 120
ccgcgagaat atacctgcaa ca 22
<210> 121
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 121
tcgacgctat ccagaagttg ac 22
<210> 122
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 122
cagttgtcgt atacgacata cc 22
<210> 123
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 123
acactccatt gtctatgcgt cc 22
<210> 124
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 124
atgtcacgca cacgccacat at 22
<210> 125
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 125
caatgtgctt cccagactca tt 22
<210> 126
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 126
ctgcgtcatg tccatgattc tc 22
<210> 127
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 127
tatgcactgc cttgacgata cg 22
<210> 128
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 128
tacgcttcga gtccacagcg ta 22
<210> 129
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 129
tatcgcctgt atacgtgcgt aa 22
<210> 130
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 130
cttgacaagc gctcgtctaa ct 22
<210> 131
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 131
tctgccatcg atcaccagat ca 22
<210> 132
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 132
ttctcaacgt ccagataagc gc 22
<210> 133
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 133
cacttgacga gacctgacga ga 22
<210> 134
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 134
actgacgcaa cattaccacc ga 22
<210> 135
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 135
accactagtg atcaccgatc gt 22
<210> 136
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 136
tactgagcga gctagctgca at 22
<210> 137
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 137
caagattcca cattctcgcc ag 22
<210> 138
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 138
aacgtcctct gcacacttga tc 22
<210> 139
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 139
tagtcagaac gattgcgcag ct 22
<210> 140
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 140
aatccaacag catcattcgc ac 22
<210> 141
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 141
tatcgacgtc actatccagc ct 22
<210> 142
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 142
cctacattcg tctgattcag tg 22
<210> 143
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 143
acgactgact ctcaatgcag tc 22
<210> 144
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 144
tccagagtat cattgctcct ca 22
<210> 145
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 145
ttccacctcg aacatgaaca cg 22
<210> 146
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 146
acaacgagtg tacagacgta ag 22
<210> 147
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 147
acgtgcttct attcgacgat tg 22
<210> 148
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 148
ttatcgccgc acttctctag ac 22
<210> 149
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 149
cagacatcag attgcgcgac tt 22
<210> 150
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 150
atatcgttgc cattcttcgc ct 22
<210> 151
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 151
atacctgtct gctagttctc ag 22
<210> 152
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 152
aacagagtca cccgtcttgt ag 22
<210> 153
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 153
cacgattacg aactgttgcc aa 22
<210> 154
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 154
ctgcttcact atacctcatg tc 22
<210> 155
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 155
atcacacaac gatgtgctgc gt 22
<210> 156
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 156
atgccacagc taccaccttc tc 22
<210> 157
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 157
tctgtacgaa gaccagttac cg 22
<210> 158
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 158
cctcaacatc taagagacct ac 22
<210> 159
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 159
ttgcgctgaa ttatctcgtg cg 22
<210> 160
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 160
ctctacaccg aaaccaatga gc 22
<210> 161
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 161
atgagacaca ctaacattcg cg 22
<210> 162
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 162
cagatgttcg attcagagtg tg 22
<210> 163
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 163
caccatgtta ccctcagaga ga 22
<210> 164
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 164
aagcacgata gttagcatcc gt 22
<210> 165
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 165
cctcagttcc tcagctcacg tt 22
<210> 166
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 166
ttagagcgca gacgacagac aa 22
<210> 167
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 167
cttcatactc gactctacga ga 22
<210> 168
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 168
ctcttgaaca gacctgtcgt aa 22
<210> 169
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 169
caacagacca attcgtacta cg 22
<210> 170
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 170
tatgtgcatc gctaagcctt ag 22
<210> 171
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 171
ctagcctgac tttgtcctta gc 22
<210> 172
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 172
aaccagctta ccacaagagt cg 22
<210> 173
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 173
aatcaccagt gaccaagagc ca 22
<210> 174
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 174
ctcgacatcc ttccgttgca ga 22
<210> 175
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 175
atagcactga cctcatgaca ga 22
<210> 176
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 176
atcacgtgtt gccttgcttc tg 22
<210> 177
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 177
ccgagatgac acctctagaa gt 22
<210> 178
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 178
acgcatatgt gacttcacct tc 22
<210> 179
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 179
aagctctgtg aaccactacg ca 22
<210> 180
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 180
aagcgttcct accagtagta ct 22
<210> 181
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 181
ttgaatccgt gtccagacgt at 22
<210> 182
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 182
tacacgtacc accgttacga ct 22
<210> 183
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 183
tctcgagaac aacgaacgag aa 22
<210> 184
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 184
ctcatgtaca ccttacgagt ct 22
<210> 185
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 185
tcatgaccag ttacattcgc ga 22
<210> 186
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 186
cagcatcatc tctcgagaac ta 22
<210> 187
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 187
tctcgcactt caagacagag ac 22
<210> 188
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 188
actgaccagt ccatccttgt cg 22
<210> 189
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 189
ctgcagatga taagcgactg ta 22
<210> 190
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 190
acacgcaacc tcaagcatct gc 22
<210> 191
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 191
catgtgcagc ttctcacgac ct 22
<210> 192
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 192
cacgccagat taaccacgtt cg 22
<210> 193
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 193
acacaacaac gtatccatgc ca 22
<210> 194
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 194
catctgtgca caacctatga cg 22
<210> 195
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 195
atcttagcct cctctaacag cc 22
<210> 196
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 196
atcacgagtc aacgtctagt ac 22
<210> 197
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 197
tcgtatgtga cctatccact tc 22
<210> 198
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 198
tagccgttca catgagtcca gt 22
<210> 199
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 199
ccgactgtca taagtgatac cg 22
<210> 200
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 200
acctgctact gttcgcaata cc 22
<210> 201
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 201
ttcgccaaga ccaccgtcta ag 22
<210> 202
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 202
atgatgagcc gtcgctatac ct 22
<210> 203
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 203
tcgaccatga aacaagacac ga 22
<210> 204
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 204
cttgatcagt gtagatagca cc 22
<210> 205
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 205
ccataacctc gctaaccacc gt 22
<210> 206
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 206
aaccgcaacg atagagcctc ca 22
<210> 207
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 207
cctcttgaga cctgccaatc ta 22
<210> 208
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 208
ccgttgtacg accacgttgc at 22
<210> 209
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 209
ctacgcctgt taactaccgc ga 22
<210> 210
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 210
ttaacgacga cctccgagaa tc 22
<210> 211
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 211
ccttacgcca actcgcttcg aa 22
<210> 212
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 212
atccgcaatt gttgcgagct ca 22
<210> 213
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 213
tctctgtcaa ctccgattcc gt 22
<210> 214
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 214
ctccatactg ccagcataac tg 22
<210> 215
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 215
ttaacacctg cacgttcctt ag 22
<210> 216
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 216
caacgctatc gccgcgttag tt 22
<210> 217
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 217
cacaatcaga cacaatccac ca 22
<210> 218
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 218
aagcgtgtta gcctccacta ga 22
<210> 219
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 219
aacgatacca caacctaacc tg 22
<210> 220
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 220
ccgaattcag catgcgccta ca 22
<210> 221
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 221
ctgtcctgca tcttcatcac cg 22
<210> 222
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 222
ccgcttcaac tctgctgtgt ct 22
<210> 223
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 223
tacagtctgt gtaatcgtcg tg 22
<210> 224
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 224
acctgcgtta attaagcctc ga 22
<210> 225
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 225
caccatcata gcatagcgta ac 22
<210> 226
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 226
attcactgtg ctatcgcacg tt 22
<210> 227
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 227
ccgacgaatg ttcagtgctt cc 22
<210> 228
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 228
cctaccttgt tataacaccg tg 22
<210> 229
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 229
tcagtgtgcg tttagccgtc ac 22
<210> 230
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 230
actcaacaga gtcttaacgt gc 22
<210> 231
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 231
acgactcaca gccgagcata ta 22
<210> 232
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 232
acacacacca ccagagctac gt 22
<210> 233
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 233
attgagccag attgttcgtt cg 22
<210> 234
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 234
ttgtcgacgt ttcaccacca ag 22
<210> 235
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 235
tctccgagaa gtcacgactg ct 22
<210> 236
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 236
tcatatccgt ccaagcctat ca 22
<210> 237
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 237
tctctgacga tctcactacc tg 22
<210> 238
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 238
ctactcctaa gctcaccagc ta 22
<210> 239
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 239
ctccattgtc cacacgacca ga 22
<210> 240
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 240
cttagcgtga ttcgacctat gc 22
<210> 241
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 241
tagctctgta gctatgtcac ag 22
<210> 242
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 242
ctgacctcta gaagtgagtc ca 22
<210> 243
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 243
tcgactgcac atagcgccat ca 22
<210> 244
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 244
cctaagagtc ccacgttgcc aa 22
<210> 245
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 245
taacaccaac cttgcacgaa tc 22
<210> 246
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 246
taccgtaccg tcaattgagc ca 22
<210> 247
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 247
cagatcgtga gacttccgtt ga 22
<210> 248
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 248
tcgcatgcaa gtcgagttcc tg 22
<210> 249
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 249
caaccacctt accgaatcac ca 22
<210> 250
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 250
cagtactgaa gacgaacaga ag 22
<210> 251
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 251
acagctacgt actagtcctt gc 22
<210> 252
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 252
catagccaat gcagttgatg cc 22
<210> 253
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 253
atcacgatgc tcttacctgt cg 22
<210> 254
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 254
ctctgtagtc gtacacgatc ac 22
<210> 255
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 255
ttccgccgat atcgtgttac ca 22
<210> 256
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 256
ttccacagct gctcgagcct aa 22
<210> 257
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 257
taccagcgtt caacgcctca ga 22
<210> 258
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 258
aagaactacg ccagaattac cg 22
<210> 259
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 259
ctgctagtct ctactcgagt gc 22
<210> 260
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 260
aacacagccg tcactaagac ct 22
<210> 261
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 261
caaccttact gcacaagaac ag 22
<210> 262
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 262
tccgatgtcc aatacagcgc aa 22
<210> 263
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 263
tcctgattcc gatcactgcc ta 22
<210> 264
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 264
cacatccgag aactacgcct ga 22
<210> 265
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 265
ccgatgacct tacgcgagta ct 22
<210> 266
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 266
ttcagctgac acaccttcga ac 22
<210> 267
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 267
ccagtgctga accttccagt ag 22
<210> 268
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 268
caatctccga aatgtgtcgt gt 22
<210> 269
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 269
acgagcaacc aaccacgatg aa 22
<210> 270
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 270
ctctatgacg cctctaacgc aa 22
<210> 271
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 271
catcagactg taactcgcct aa 22
<210> 272
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 272
tagagctcgc acatctagtc gt 22
<210> 273
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 273
acaatcctcg ccagagttgc ga 22
<210> 274
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 274
ctgctcctac tacttctgct ct 22
<210> 275
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 275
tagtgcgaga gctgaagcag ag 22
<210> 276
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 276
aacagcaagt gaccaccaat ca 22
<210> 277
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 277
tcgaagaacg attccgcgaa ga 22
<210> 278
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 278
catattgcgc caatgatgac cg 22
<210> 279
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 279
tcgagaagct aatactgccg ag 22
<210> 280
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 280
tcgaatgctg actagtcaat cg 22
<210> 281
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 281
tctctacctt gcctagattg ac 22
<210> 282
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 282
ccttgcagag actaccgtta ag 22
<210> 283
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 283
aatgtcacct gataccgtcg tg 22
<210> 284
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 284
acaagccgat cctcagtctc ca 22
<210> 285
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 285
atgcgtcatc ctccttattg cc 22
<210> 286
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 286
cagactgtga ccactcgtac tc 22
<210> 287
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 287
ccacacactt gactgcataa cg 22
<210> 288
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 288
acgtgcaaca gtaaccgtcc aa 22
<210> 289
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 289
tcagtatagc gcttgtgtac ct 22
<210> 290
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 290
tcttcagcgt gtacgtccac at 22
<210> 291
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 291
ccgtgttaag cccacagtag ct 22
<210> 292
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 292
catgtcgagt gcaatctcgt ac 22
<210> 293
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 293
tacgcgctaa gacgagaagt gt 22
<210> 294
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 294
attaagcgcc ttccgcaatc gt 22
<210> 295
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 295
tcgtctagat ccttcagtgt cg 22
<210> 296
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 296
cagtagacga aaagcgatca tg 22
<210> 297
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 297
cttctctcaa gctctgtgta ag 22
<210> 298
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 298
ccgacacatc ttagtcgtag ca 22
<210> 299
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 299
ctgctccaat gctgtgtcta ga 22
<210> 300
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 300
cttatccaac gaacgaacag ag 22
<210> 301
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 301
cctgctaact cacctgagta ag 22
<210> 302
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 302
ttcactctcg acagaaccgt ga 22
<210> 303
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 303
tccgacttga accaaccatt ga 22
<210> 304
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 304
ctcaagcaca ttagcttgac ga 22
<210> 305
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 305
actcgatcct gccgaataca cg 22
<210> 306
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 306
cacgtgtata ctaccaagtg cg 22
<210> 307
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 307
acttgacgac caccatgtga ac 22
<210> 308
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 308
ctcgtgcatg acactaccgt aa 22
<210> 309
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 309
ccactacaac acagcaacca ag 22
<210> 310
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 310
cctcctaata gcttgaagcg ct 22
<210> 311
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 311
tctgtaagcc gccgattatt gc 22
<210> 312
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 312
cacgtgatct aatgatgcac tc 22
<210> 313
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 313
ctctagcgat tctagcatag ag 22
<210> 314
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 314
atcatgcgcg accttctcgt tg 22
<210> 315
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 315
atcgcattgc gactccagct ca 22
<210> 316
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 316
ttgcagaacg cctgagcagt ca 22
<210> 317
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 317
cttaccgtta gcatcagatg cc 22
<210> 318
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 318
aacgtcacaa caatacacgc gt 22
<210> 319
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 319
cttccgtaac gttgtcgcag tc 22
<210> 320
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 320
cagccgcata tataccgaga ag 22
<210> 321
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 321
ctcgcaatgt caacgatcct gc 22
<210> 322
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 322
tcagttacag cacgtaactc ga 22
<210> 323
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 323
ctcctagtca gaagatctct gc 22
<210> 324
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 324
ttgagctaac catactagtc gc 22
<210> 325
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 325
ttgcgaacag cttctctctt cg 22
<210> 326
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 326
acgtgaatgc aactcgttac ac 22
<210> 327
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 327
ctatccagag acatagtcct tc 22
<210> 328
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 328
ctctaaccaa gtcgctctta tg 22
<210> 329
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 329
actagaccga gaccaactac ca 22
<210> 330
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 330
aacgcatgac cacctcatcg tt 22
<210> 331
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 331
tagagacagt gtcaacttgc cg 22
<210> 332
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 332
ttcttgcagc atagtcctag tc 22
<210> 333
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 333
tctcgtacca tattgcgatc ga 22
<210> 334
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 334
cattgagaga gaatcgcaca gt 22
<210> 335
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 335
aacctgatga gtccgaatag ct 22
<210> 336
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 336
ttccgtgtcc tacgaatgct ac 22
<210> 337
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 337
tctcatagct gtactcgacg ac 22
<210> 338
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 338
ccgaagacaa ctcgatgtgt cg 22
<210> 339
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 339
acgacgctta atcagcgcac tt 22
<210> 340
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 340
catcctcctg tactcgcctc ta 22
<210> 341
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 341
ccgattatgc attccgagcc ta 22
<210> 342
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 342
tcagcaacac cctgatgtcc gt 22
<210> 343
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 343
ctaagttgct gcttccgaag ag 22
<210> 344
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 344
ctgaccatcc aacgttcagc ac 22
<210> 345
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 345
ctaaccacaa cactgattgc tc 22
<210> 346
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 346
ttgacagctc gctcacgatc tc 22
<210> 347
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 347
tcatatctcc gtctatgccg aa 22
<210> 348
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 348
cttaccttcc tacgacacca tc 22
<210> 349
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 349
tacgatgctc ctctgtcaac gt 22
<210> 350
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 350
accgctgtat tactgcactc ga 22
<210> 351
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 351
taatcgcgag accgacgaca ta 22
<210> 352
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 352
catacagcag ttcgttccag tc 22
<210> 353
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 353
aaccttaccg atctctgctc tc 22
<210> 354
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 354
tcagagtcta gttccgattc ga 22
<210> 355
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 355
cctgaatacc tcaatgaagc ag 22
<210> 356
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 356
cacgtctaat gatcgctacg ct 22
<210> 357
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 357
caccaacgag ataccactac gc 22
<210> 358
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 358
tcgaccaata gtaattacgc gc 22
<210> 359
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 359
acaagaccgt cacgaagaga tc 22
<210> 360
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 360
ccgtatgtgt tccgttccta ga 22
<210> 361
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 361
ccgttcatac ccctatgcat tc 22
<210> 362
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 362
ctgctagtgc tctaagtcgc ac 22
<210> 363
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 363
ccagcacaca aaccactgca ag 22
<210> 364
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 364
ttagacgtag ctccagctga gt 22
<210> 365
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 365
acacaagcgt gctcaatacg ag 22
<210> 366
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 366
cacctaccta aaattgcaca cg 22
<210> 367
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 367
aacgtgagtc gacgtatgag tg 22
<210> 368
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 368
ttaatcgagc ccaacagcac gt 22
Claims (10)
1.一种ctDNA测序标签接头,包括第一接头以及第二接头;所述的第一接头以及第二接头都为Y型接头,每个Y型接头包括两条链,其中包括互补段和非互补段;在所述的互补段中包括分子标签,在非互补段中包括样本标签。
2.根据权利要求1所述的ctDNA测序标签接头,其特征在于,所述的第一接头中的第一链上的样本标签的核苷酸序列选自如SEQ ID NO.1-368中的任意一条的第1-11个碱基所示的序列;第一接头中的第二链上的样本标签的核苷酸序列选自与第一链在同一条上的第12-22个碱基所示的序列;
所述的第二接头中的第一链上的样本标签的核苷酸序列选自如SEQ ID NO.1-368中的任意一条的第1-11个碱基所示的序列;第二接头中的第二链上的样本标签的核苷酸序列选自与第一链在同一条上的第12-22个碱基所示的序列。
3.根据权利要求2所述的ctDNA测序标签接头,其特征在于,第一接头数量为368个,且每个接头之间的样本标签序列都互不相同;第二接头数量为368个,且每个接头之间的样本标签序列都互不相同。
4.根据权利要求1所述的ctDNA测序标签接头,其特征在于,所述的第一接头以及第二接头中的样本标签相互构成一个特异性组合;所述的特异性组合是指:第一接头的第一链的样本标签与第二接头的第二链的样本标签相同;并且第一接头的第二链的样本标签与第二接头的第一链的样本标签相同。
5.根据权利要求1所述的ctDNA测序标签接头,其特征在于,所述的样本标签的长度为6-20bp;所述的样本标签的种类数量大于100个;所述的样本标签相互之间的汉明距离大于3;所述的样本标签序列设计不包含均聚物(homopolymers),同时不以G作为序列的起始,不包含连续的G;index全部采用Dual Unique形式,i7/i5专一特异性组合;所述的分子标签的长度为3-10bp。
6.一种ctDNA测序文库,其特征在于,所述的文库中的DNA片段上连接有权利要求1所述的标签接头。
7.根据权利要求6所述的ctDNA测序文库,其特征在于所述的测序文库中的DNA片段为双链,在一个DNA片段中的双链的一端连接第一接头,另一端连接第二接头;并且在一个DNA片段中的双链中的任意一条链上两端的样本标签相互不同。
8.一种ctDNA检测方法,其特征在于,包括如下步骤:
S1,根据样本标签对数据进行合并,对于在同一类下的读段,丢弃掉数量小于阈值的结果;
S2,对于含有相同的样本标签的数据,根据分子标签进行归类;对于含有相同的分子标签的读段,再根据读段的序列进行聚类,在一类中的读段中,只有当全部的读段的碱基完全一致时,则将该类的读段数据标记为真实数据;
S3,对于S2中得到的真实数据结果,选取含有相互互补的分子标签的两类读段数据,若读段数据也在两类中相互互补,则标记为正确读段数据。
9.一种试剂盒,用于对ctDNA进行文库构建,其中含有权利要求1所述的标签接头。
10.一种ctDNA测序装置,其特征在于,包括:
提取模块,用于对血液样品中的ctDNA进行提取;
文库构建模块,用于将提取模块中得到的ctDNA采用权利要求1所述的标签接头构建出测序文库;
测序模块,用于对文库构建模块中得到的测序文库进行高通量测序,并获得下机数据;
样本分类模块,用于对下机数据按照样本标签的不同进行合并;
第一分析模块,用于对样本分类模块中得到的数据进行处理,对于含有相同的样本标签的数据,根据分子标签进行归类;对于含有相同的分子标签的读段,再根据读段的序列进行聚类,在一类中的读段中,只有当全部的读段的碱基完全一致时,则将该类的读段数据标记为真实数据;
第二分析模块,用于对第一分析模块得到的真实数据结果,选取含有相互互补的分子标签的两类读段数据,若读段数据也在两类中相互互补,则标记为正确读段数据。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010391890 | 2020-05-11 | ||
CN2020103918909 | 2020-05-11 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113373524A true CN113373524A (zh) | 2021-09-10 |
CN113373524B CN113373524B (zh) | 2022-10-25 |
Family
ID=77570271
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110458794.6A Active CN113373524B (zh) | 2020-05-11 | 2021-04-27 | 一种ctDNA测序标签接头、文库、检测方法和试剂盒 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113373524B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113981056A (zh) * | 2021-11-26 | 2022-01-28 | 广州达安基因股份有限公司 | 基于已知标签的内参进行高通量测序的方法 |
CN114093428A (zh) * | 2021-11-08 | 2022-02-25 | 南京世和基因生物技术股份有限公司 | 一种ctDNA超高测序深度下低丰度突变的检测系统和方法 |
CN114530199A (zh) * | 2022-01-19 | 2022-05-24 | 重庆邮电大学 | 基于双重测序数据检测低频突变的方法、装置及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108893466A (zh) * | 2018-06-04 | 2018-11-27 | 苏州人人基因科技有限公司 | 测序接头、测序接头组和超低频突变的检测方法 |
CN109680054A (zh) * | 2019-01-15 | 2019-04-26 | 北京中源维康基因科技有限公司 | 一种低频dna突变的检测方法 |
CN110257480A (zh) * | 2019-07-04 | 2019-09-20 | 北京京诺玛特科技有限公司 | 核酸序列测序接头及其构建测序文库的方法 |
EP3604525A1 (en) * | 2018-08-02 | 2020-02-05 | TU Dresden | Method for providing a dna-encoded library, dna-encoded library and method of decoding a dna-encoded library |
CN111304288A (zh) * | 2020-02-18 | 2020-06-19 | 江苏先声医学诊断有限公司 | 特异性分子标签umi组及其应用 |
-
2021
- 2021-04-27 CN CN202110458794.6A patent/CN113373524B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108893466A (zh) * | 2018-06-04 | 2018-11-27 | 苏州人人基因科技有限公司 | 测序接头、测序接头组和超低频突变的检测方法 |
EP3604525A1 (en) * | 2018-08-02 | 2020-02-05 | TU Dresden | Method for providing a dna-encoded library, dna-encoded library and method of decoding a dna-encoded library |
CN109680054A (zh) * | 2019-01-15 | 2019-04-26 | 北京中源维康基因科技有限公司 | 一种低频dna突变的检测方法 |
CN110257480A (zh) * | 2019-07-04 | 2019-09-20 | 北京京诺玛特科技有限公司 | 核酸序列测序接头及其构建测序文库的方法 |
CN111304288A (zh) * | 2020-02-18 | 2020-06-19 | 江苏先声医学诊断有限公司 | 特异性分子标签umi组及其应用 |
Non-Patent Citations (2)
Title |
---|
TRAVIS C. GLENN ET AL.: "Adapterama I: universal stubs and primers for 384 unique dual-indexed or 147,456 combinatorially-indexed Illumina libraries (iTru & iNext)", 《PEER J》 * |
陈志森等: "用于Roche/454高通量测序的12个多重标签转录组文库的构建", 《厦门大学学报(自然科学版)》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114093428A (zh) * | 2021-11-08 | 2022-02-25 | 南京世和基因生物技术股份有限公司 | 一种ctDNA超高测序深度下低丰度突变的检测系统和方法 |
CN113981056A (zh) * | 2021-11-26 | 2022-01-28 | 广州达安基因股份有限公司 | 基于已知标签的内参进行高通量测序的方法 |
CN114530199A (zh) * | 2022-01-19 | 2022-05-24 | 重庆邮电大学 | 基于双重测序数据检测低频突变的方法、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113373524B (zh) | 2022-10-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108893466B (zh) | 测序接头、测序接头组和超低频突变的检测方法 | |
CN113373524B (zh) | 一种ctDNA测序标签接头、文库、检测方法和试剂盒 | |
JP7119014B2 (ja) | まれな変異およびコピー数多型を検出するためのシステムおよび方法 | |
Salk et al. | Enhancing the accuracy of next-generation sequencing for detecting rare and subclonal mutations | |
CN107190329B (zh) | 基于dna的融合基因定量测序建库、检测方法及其应用 | |
CN107858414B (zh) | 一种高通量测序接头、其制备方法及其在超低频突变检测中的应用 | |
CN107254514B (zh) | 检测异源cfDNA的SNP分子标记及检测方法、用途 | |
CN106834275A (zh) | ctDNA超低频突变检测文库的构建方法、试剂盒及文库检测数据的分析方法 | |
JP2019523638A (ja) | 遺伝子突然変異を検出するマルチポジショニングダブルタグアダプターセット、及びその調製方法と応用 | |
CN109576347B (zh) | 含单分子标签的测序接头和测序文库的构建方法 | |
EP2971168A2 (en) | Systems and methods to detect rare mutations and copy number variation | |
CN108517567B (zh) | 用于cfDNA建库的接头、引物组、试剂盒和建库方法 | |
CN106676182A (zh) | 一种低频率基因融合的检测方法及装置 | |
CN111748551B (zh) | 封闭序列、捕获试剂盒、文库杂交捕获方法及建库方法 | |
CN111808854B (zh) | 带有分子条码的平衡接头及快速构建转录组文库的方法 | |
WO2022073011A1 (en) | Methods and systems to improve the signal to noise ratio of dna methylation partitioning assays | |
US20230203590A1 (en) | Methods and means for diagnosing lung cancer | |
CN108319817B (zh) | 循环肿瘤dna重复序列的处理方法及装置 | |
CN115803447A (zh) | 染色体邻近实验中的结构变异检测 | |
CN111705135A (zh) | 一种检测mgmt启动子区甲基化的方法 | |
US20190264258A1 (en) | Method for obtaining base sequence information of single cell derived from vertebrate | |
CN107077538B (zh) | 测序数据处理装置和方法 | |
CN116075596A (zh) | 鉴定核酸条形码的方法 | |
CN109680054A (zh) | 一种低频dna突变的检测方法 | |
CN108728515A (zh) | 一种使用duplex方法检测ctDNA低频突变的文库构建和测序数据的分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |