CN104293938B - 构建测序文库的方法及其应用 - Google Patents

构建测序文库的方法及其应用 Download PDF

Info

Publication number
CN104293938B
CN104293938B CN201410519403.7A CN201410519403A CN104293938B CN 104293938 B CN104293938 B CN 104293938B CN 201410519403 A CN201410519403 A CN 201410519403A CN 104293938 B CN104293938 B CN 104293938B
Authority
CN
China
Prior art keywords
sequencing data
sequence
sequencing
chain
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410519403.7A
Other languages
English (en)
Other versions
CN104293938A (zh
Inventor
钱朝阳
易鑫
吕小星
管彦芳
杨玲
朱红梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TIANJIN BGI TECHNOLOGY Co Ltd
BGI Shenzhen Co Ltd
Original Assignee
TIANJIN BGI TECHNOLOGY Co Ltd
BGI Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TIANJIN BGI TECHNOLOGY Co Ltd, BGI Shenzhen Co Ltd filed Critical TIANJIN BGI TECHNOLOGY Co Ltd
Priority to CN201410519403.7A priority Critical patent/CN104293938B/zh
Publication of CN104293938A publication Critical patent/CN104293938A/zh
Application granted granted Critical
Publication of CN104293938B publication Critical patent/CN104293938B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1093General methods of preparing gene libraries, not provided for in other subgroups
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Organic Chemistry (AREA)
  • Zoology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • Physics & Mathematics (AREA)
  • Wood Science & Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Analytical Chemistry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Immunology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Theoretical Computer Science (AREA)
  • Plant Pathology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

公开了构建测序文库的方法及其应用,该方法包括:(a)在双链DNA片段的两端分别连接接头,以便获得连接产物;(b)将所述连接产物裂解为单链DNA片段;(c)利用探针对所述单链DNA片段进行筛选;(d)利用第一引物对所述单链DNA片段进行链延伸反应,以便获得链延伸产物;(e)对所述链延伸产物进行扩增,以便获得扩增产物,所述扩增产物构成所述测序文库。还公开了测序方法、确定核酸序列的方法、构建测序文库的装置、测序设备以及确定核酸序列的系统。

Description

构建测序文库的方法及其应用
技术领域
本发明涉及生物医学领域。具体而言,本发明涉及构建测序文库的方法、测序方法、确定核酸序列的方法、构建测序文库的装置、测序设备以及确定核酸序列的系统。
背景技术
高通量测序日益被关注,但是目前高通量测序用于低频率突变的检测仍有待改进。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。为此,根据本发明的实施例,本发明提出了用于构建测序文库的方法以及检测低频率突变的手段。
在本发明的第一方面,本发明提出了一种构建测序文库的方法。根据本发明的实施例,该方法包括:(a)在双链DNA片段的两端分别连接接头,以便获得连接产物,其中,所述接头包括第一链和第二链,所述第一链和第二链部分匹配并且所述第一链包含第一标签序列,以便所述接头上限定出双链区和两个单链尾部,所述两个单链尾部之一的序列中包含第一标签;(b)将所述连接产物裂解为单链DNA片段;(c)利用探针对所述单链DNA片段进行筛选,其中,所述探针特异性识别预定区域,其中,所述预定区域包括下列之一:(1)表1所示基因的至少之一;(2)(1)的CDS区域;以及(3)(2)的上下游至少10bp的区域;(d)利用第一引物对所述单链DNA片段进行链延伸反应,以便获得链延伸产物,其中,所述第一引物包括第二标签序列,并且所述第一引物适于与所述接头的第一链形成双链结构,只是所述第一标签序列与所述第二标签序列之间存在错配;(e)对所述链延伸产物进行扩增,以便获得扩增产物,所述扩增产物构成所述测序文库,其中,所述扩增采用适于同时扩增所述第一标签序列和所述第二标签序列的引物。。
由此,利用根据本发明实施例的构建测序文库的方法,能够有效地构建测序文库,同时,所构建的测序文库中,针对相同的双链DNA片段(在本文中也被称为“源序列”)的每条链,分别获得了具有第一标签序列和第二标签序列的扩增产物,由此,在后续测序结果的分析中,可以依据两种标签的测序结果进行互相校正,提高分析结果的可靠性。
根据本发明的实施例,所述双链DNA片段是通过下列步骤获得的:将核酸样本进行末端修复,以便获得经过修复的核酸样本;以及在所述核酸样本的5’末端添加碱基A,以便获得两端分别具有粘性末端碱基A的核酸样本,所述两端分别具有粘性末端碱基A的核酸样本构成所述双链DNA片段。由此,可以在后续操作中,方便地在所述双链DNA片段的两端添加接头。从而,提高了构建测序文库的效率。
根据本发明的实施例,所述核酸样本为人基因组DNA的至少一部分或游离核酸。根据本发明的实施例,所述人游离核酸是从患者的外周血提取的。根据本发明的实施例,所述患者患有癌症,所述癌症为选自下列的至少之一:膀胱癌、前列腺癌、肺癌、结直肠癌、胃癌、乳腺癌、肾癌、胰腺癌、卵巢癌、子宫内膜癌、甲状腺癌、宫颈癌、食管癌以及肝癌。由此,利用本发明实施例的方法,能够有效地对人类疾病患者的基因突变进行有效的分析,进而能够有效用于常见肿瘤的早诊、个体化用药、以及术后监控等。
根据本发明的实施例,所述人基因组DNA的至少一部分是通过对人基因组DNA进行随机打断而获得的。由此,可以在后续操作中,方便地在所述双链DNA片段的两端添加接头。从而,提高了构建测序文库的效率。
根据本发明的实施例,所述接头具有3’碱基T粘性末端。由此,可以在后续操作中,方便地在所述双链DNA片段的两端添加接头。从而,提高了构建测序文库的效率。
根据本发明的实施例,所述单链DNA片段是通过将所述连接产物进行变性处理获得的。由此,可以快速有效的获得单链DNA片段。根据本发明的一些实施例,所述变性处理可以为热变性处理或碱变性处理。
根据本发明的实施例,所述探针是以芯片的形式提供的。由此,可以提高探针筛选的效率。
根据本发明的实施例,在存在UDG酶/FPG酶时,进行所述链延伸反应。由此,可以有效地对存在损伤的DNA在链延伸过程中进行修复,减少假阳性的产生,提高构建测序文库的质量。
根据本发明的实施例,所述第一标签序列和所述第二标签序列分别独立地长度为4~10nt。根据本发明的实施例,所述第一标签序列和所述第二标签序列的长度均为8nt。根据本发明的实施例,所述第一标签序列和所述第二标签序列之间存在至少2nt的错配。发明人惊奇地发现,采用如此设置,能够有效地提高在后续分析中,利用第一标签序列和第二标签序列进行校正的效率。
根据本发明的实施例,所述接头的第一链具有SEQ ID NO:1所示的序列,所述接头的第二链具有SEQ ID NO:2所示的序列,所述第一标签具有SEQ ID NO:3-6中任一项所示的序列,所述第二标签具有SEQ ID NO:7-10中至少之一所示的序列,所述第一引物具有SEQID NO:11所示的序列,所述适于同时扩增所述第一标签序列和所述第二标签序列的引物具有SEQ ID NO:12和SEQ ID NO:13所示的序列。
其中,接头的第一链的序列中“XXXXXXXX”表示第一标签序列,第一引物中序列中的“XXXXXXXX”表示第二标签序列。
根据本发明的实施例,标签包括但不限于上述所述的4对,可以根据需要涉及多对标签以用于多样品的同时检测。
在本发明的第二方面,本发明提出了一种测序方法,该方法包括:根据前面所述的方法构建测序文库;对所述测序文库进行测序。
根据本发明的实施例,在Hiseq2000或Hiseq2500上进行所述测序。由此,可以有效地提高测序的效率。另外,前面关于构建测序文库的方法所描述的特征和优点,同样适用该测序方法,在此不再赘述。
在本发明的第三方面,本发明提出了一种确定核酸序列的方法,该方法包括:针对核酸样本,根据权利要求前面所述的方法进行测序,以便获得由多个测序数据构成的测序结果;基于所述测序结果,构建至少一个测序数据子集,其中,每个测序数据子集中的所有测序数据均对应核酸样本上相同的源序列;针对每一个测序数据子集,分别确定与所述第一标签序列对应的测序数据为正链测序数据,与所述第二标签序列对应的测序数据为负链测序数据;针对每一个测序数据子集,分别基于所述正链测序数据和所述负链测序数据,对测序数据进行校正,以便确定经过校正的测序数据;以及基于所述经过校正的测序数据,确定所述核酸样本的序列。由此,可以有效地基于正链测序数据和负链测序数据进行校正,提高分析结果的可靠性。
根据本发明的实施例,所述测序为双末端测序,所述测序结果由多对成对的测序数据构成。
根据本发明的实施例,基于所述测序结果,构建至少一个测序数据子集是通过下列步骤进行的:针对所述多对成对的测序数据的每一对,确定成对测序数据索引,所述成对测序数据索引由成对的测序数据的每一个的最初N个碱基构成,其中,N为10~20之间的整数;基于所述成对测序数据索引,构建至少一个初步测序数据子集,其中,所述初步测序数据子集中的每一个测序数据均具有相同的成对测序数据索引;以及基于所述初步测序数据子集中测序数据之间的汉明距离,对所述至少一个初步测序数据子集进行细分,以便获得多个所述测序数据子集。
根据本发明的实施例,N为12。
根据本发明的实施例,在所述多个测序数据子集的每一个中,任意两对成对测序数据的汉明距离不超过20。
根据本发明的实施例,在所述多个测序数据子集的每一个中,正链测序数据和负链测序数据分别为至少两个。
根据本发明的实施例,基于所述正链测序数据和所述负链测序数据,确定经过校正的测序数据是基于下列原则进行的:经过校正的测序数据中的每一个碱基同时获得至少50%正链测序数据和至少50%负链测序数据的支持。
根据本发明的实施例,经过校正的测序数据中的每一个碱基同时获得至少80%正链测序数据和至少80%负链测序数据的支持。
根据本发明的实施例,进一步包括:将所述经过校正的测序数据比对至参考序列上,并删除比对质量小于30的测序数据。
根据本发明的实施例,进一步包括:基于所述核酸样本的序列,进行SNV分析或Indel分析。
在本发明的第四方面,本发明提出了一种构建测序文库的装置。根据本发明的实施例,该装置包括:连接单元,用于在双链DNA片段的两端分别连接接头,以便获得连接产物,其中,所述接头包括第一链和第二链,所述第一链和第二链部分匹配并且所述第一链包含第一标签序列,以便所述接头上限定出双链区和两个单链尾部,所述两个单链尾部之一的序列中包含第一标签;裂解单元,用于将所述连接产物裂解为单链DNA片段;筛选单元,用于在进行所述链延伸之前,利用探针对所述单链DNA片段进行筛选,其中,所述探针特异性识别预定区域,其中,所述预定区域包括下列之一:(1)表1所示基因的至少之一;(2)(1)的CDS区域;以及(3)(2)的上下游至少10bp的区域;链延伸单元,用于利用第一引物对所述单链DNA片段进行链延伸反应,以便获得链延伸产物,其中,所述第一引物包括第二标签序列,并且所述第一引物适于与所述接头的第一链形成双链结构,只是所述第一标签序列与所述第二标签序列之间存在错配;扩增单元,用于对所述链延伸产物进行扩增,以便获得扩增产物,所述扩增产物构成所述测序文库,其中,所述扩增采用适于同时扩增所述第一标签序列和所述第二标签序列的引物。
根据本发明的实施例,上述装置能够有效地实施前面所描述的构建测序文库的方法,能够有效地构建测序文库,同时,所构建的测序文库中,针对相同的双链DNA片段(在本文中也被称为“源序列”)的每条链,分别获得了具有第一标签序列和第二标签序列的扩增产物,由此,在后续测序结果的分析中,可以依据两种标签的测序结果进行互相校正,提高分析结果的可靠性。
根据本发明的实施例,进一步包括:末端修复单元,用于将核酸样本进行末端修复,以便获得经过修复的核酸样本;以及末端修饰单元,用于在所述核酸样本的5’末端添加碱基A,以便获得两端分别具有粘性末端碱基A的核酸样本,所述两端分别具有粘性末端碱基A的核酸样本构成所述双链DNA片段。
根据本发明的实施例,所述探针是以芯片的形式提供的。
根据本发明的实施例,在存在UDG酶/FPG酶时,进行所述链延伸反应。由此,可以有效地对存在损伤的DNA在链延伸过程中进行修复,减少假阳性的产生,提高构建测序文库的质量。
根据本发明的实施例,所述第一标签序列和所述第二标签序列分别独立地长度为4~10nt。
根据本发明的实施例,所述第一标签序列和所述第二标签序列的长度均为8nt。
根据本发明的实施例,所述第一标签序列和所述第二标签序列之间存在至少2nt的错配。
根据本发明的实施例,所述接头的第一链具有SEQ ID NO:1所示的序列,所述接头的第二链具有SEQ ID NO:2所示的序列,所述第一标签具有SEQ ID NO:3-6中任一项所示的序列,所述第二标签具有SEQ ID NO:7-10中至少之一所示的序列,所述第一引物具有SEQID NO:11所示的序列,所述适于同时扩增所述第一标签序列和所述第二标签序列的引物具有SEQ ID NO:12和SEQ ID NO:13所示的序列。
根据本发明的实施例,标签包括但不限于上述所述的4对,可以根据需要涉及多对标签以用于多样品的同时检测。
本领域技术人员能够理解的是,前面针对构建测序文库的方法所描述的特征和优点,同样适用于该构建测序文库的装置,在此不再赘述。
在本发明的第五方面,本发明提出了一种测序设备。根据本发明的实施例,该测序设备包括:根据前面所述的构建测序文库的装置;测序装置,用于对所述测序文库进行测序。
由此,可以有效地提高测序的效率。另外,前面关于构建测序文库的方法和装置所描述的特征和优点,同样适用该测序设备,在此不再赘述。
根据本发明的实施例,所述测序装置为Hiseq2000或Hiseq2500。
在本发明的第六方面,本发明提出了一种确定核酸序列的系统。根据本发明的实施例,该系统包括:前面所述的测序设备,用于针对核酸样本进行测序,以便获得由多个测序数据构成的测序结果;测序数据子集构建设备,用于基于所述测序结果,构建至少一个测序数据子集,其中,每个测序数据子集中的所有测序数据均对应核酸样本上相同的源序列;测序数据分类设备,用于针对每一个测序数据子集,分别确定与所述第一标签序列对应的测序数据为正链测序数据,与所述第二标签序列对应的测序数据为负链测序数据;测序数据校正设备,用于针对每一个测序数据子集,分别基于所述正链测序数据和所述负链测序数据,对测序数据进行校正,以便确定经过校正的测序数据;以及序列确定设备,用于基于所述经过校正的测序数据,确定所述核酸样本的序列。由此,利用根据本发明实施例的确定核酸序列的系统,能够有效地实施前面确定核酸序列的方法。从而可以有效地基于正链测序数据和负链测序数据进行校正,提高分析结果的可靠性。
根据本发明的实施例,所述测序为双末端测序,所述测序结果由多对成对的测序数据构成。
根据本发明的实施例,测序数据子集构建设备包括:测序数据索引确定设备,用于针对所述多对成对的测序数据的每一对,确定成对测序数据索引,所述成对测序数据索引由成对的测序数据的每一个的最初N个碱基构成,其中,N为10~20之间的整数;初步筛选装置,用于基于所述成对测序数据索引,构建至少一个初步测序数据子集,其中,所述初步测序数据子集中的每一个测序数据均具有相同的成对测序数据索引;以及二次筛选装置,用于基于所述初步测序数据子集中测序数据之间的汉明距离,对所述至少一个初步测序数据子集进行细分,以便获得多个所述测序数据子集。
根据本发明的实施例,N为12。
根据本发明的实施例,在所述多个测序数据子集的每一个中,任意两对成对测序数据的汉明距离不超过20。
根据本发明的实施例,在所述多个测序数据子集的每一个中,正链测序数据和负链测序数据分别为至少两个。
根据本发明的实施例,基于所述正链测序数据和所述负链测序数据,确定经过校正的测序数据是基于下列原则进行的:经过校正的测序数据中的每一个碱基同时获得至少50%正链测序数据和至少50%负链测序数据的支持。
根据本发明的实施例,经过校正的测序数据中的每一个碱基同时获得至少80%正链测序数据和至少80%负链测序数据的支持。
根据本发明的实施例,进一步包括:将所述经过校正的测序数据比对至参考序列上,并删除比对质量小于30的测序数据。
根据本发明的实施例,进一步包括序列分析装置,所述序列分析装置用于基于所述核酸样本的序列,进行SNV分析或Indel分析。
本领域技术人员可以理解的是,前面关于确定核酸序列的方法所描述的优点和特征同样适用该确定核酸序列的系统,在此不再赘述。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1显示了根据本发明的一个实施例,构建测序文库的方法的流程图;
图2显示了根据本发明的一个实施例,相同索引reads簇的分析结果;以及
图3显示了根据本发明的一个实施例,突变谱分析结果。
具体实施方式
下面通过具体的实施例,对本发明进行说明,需要说明的是这些实施例仅仅是为了说明目的,而不能以任何方式解释成对本发明的限制。
一般方法
除非特别说明,在下面的实施例中,按照下面的一般方法进行:
一、设计探针
根据人类基因组HG19,调取相关基因的外显子序列,考虑到捕获区域的大小及成本,最终的芯片只涉及了上述基因的CDS区域,并对CDS区域前后延伸了20bp。芯片上覆盖有丰富的捕获探针,探针覆盖区域达98%,可以从复杂的基因组中富集目标DNA片段,在同一张芯片上以高特异性和高覆盖率捕获基因组区域。
二、构建测序文库和测序
参照图1,构建文库和测序的步骤如下:
1.抽取患者5ml外周血,离心分离血浆和白细胞,分别对血浆样本和白细胞样本提取DNA,白细胞提取的DNA之后将作为对照用于体细胞突变的检出。
2.血浆中提取出的游离循环DNA平均在170BP,之后直接按照常规建库方法进行3步酶促反应:末端修复,加“A”和连接特殊处理的测序接头(该接头上带有8BP的标签,被命名为index1,其不仅具有区别不同样品的功能,也将被用于之后正链的标记)。
3.获得的连接产物,进行CANPer-JK芯片杂交捕获,其洗脱的单链模板产物之后经过1轮1个循环的带有index2标记的引物扩增,使得反链被标记。同时在PCR过程中加入UDG/FPG酶进行孵育,以消除模板链中带有的DNA损伤,减少假阳性的产生。
4.正反链双index标记完成的产物,经过纯化后,进行第二轮PCR富集,完成文库的制备。
5.测序方法采用Hiseq2000或Hiseq2500,根据测序量的不同和样本数,可以灵活选择合适的测序平台。
具体步骤包括:
1.cfDNA的提取
取5ml外周血分离出的血浆约2-3ml,按照QIAamp Circulating Nucleic AcidKit提取试剂说明书,进行血浆cfDNA的提取。Qubit(Invitrogen,the Quant-iTTM dsDNA HSAssay Kit)定量所提取的DNA,总量约为5~50ng。
2.样品文库的制备
血浆中提取的cfDNA,之后按照KAPA LTP Library Preparation Kit建库说明书,进行3步酶促反应。
1)末端修复
之后,加入Agencourt AMPure XP reagent120μL,进行磁珠纯化,最后回溶42μLddH2O,带磁珠进行下一步反应。
2)加A
之后加入PEG/NaCl SPRI溶液90μL,充分混合,进行磁珠纯化,最后回溶(35-接头)μL ddH2O,带磁珠进行下一步反应。
3)接头连接
之后分别加入PEG/NaCl SPRI溶液50μL2次,进行2次磁珠纯化,最后回溶25μLddH2O.
3 芯片杂交捕获
本发明中采用针对12种常见癌症早期筛查和术后监控相关的基因芯片CANPer-JK,参照芯片制造商提供的说明书进行杂交捕获。最后洗脱回溶21μL ddH2O带杂交洗脱磁珠。
4.双index正反链标记和富集:
总共进行2轮PCR,PCR1进行反链标记和模板DNA损伤修复,PCR2进行扩增富集,完成文库制备。
1)PCR1
PCR1程序:
先除去杂交洗脱磁珠,然后加入Agencourt AMPure XP reagent40μL,进行磁珠纯化,最后回溶20μL ddH2O,带磁珠进行下一步反应。
2)PCR2
PCR2程序:
先除去上一步磁珠,然后重新加入Agencourt AMPure XP reagent50μL,进行磁珠纯化,最后回溶25μL ddH2O,进行QC及上机。
三、测序结果分析
1,将paired reads(成对测序数据)的reads1的前12bp碱基和reads2的前12bp碱基(即断点序列)连接成24bp的一条短序列,并且以这24bp作为paired reads的索引,并根据其index标记正链和反链。
2,对索引进行外部排序,以达到将同一个DNA模板的拷贝聚集到一起的目的。
3,对聚集起来的拥有相同索引的reads进行中心聚类,根据其序列之间的汉明距离,将每个有相同索引的大簇聚集成若干个小簇,每个小簇中任意两对paired reads的汉明距离不超过10,以达到区分开拥有相同索引却来自不同DNA模板的reads的目的。
4,对步骤3中获得的同一个DNA模板的拷贝簇进行筛选,若正链和反链的reads数都达到2对以上,则进行后续分析。
5,对满足4中条件的簇进行纠错,并产生一对无错的新reads,对于DNA模板的每一个测序碱基,若某种碱基型在正链的reads中的一致率达到80%,且在反链reads中的一致率也达到80%,则记新reads的这个碱基为此碱基型,否则记为N,这样便得到了代表原始DNA模板序列的新reads。
6,将新reads用bwa mem算法重新比对到基因组上,筛除比对质量小于30的reads。
7,SNV分析:
1)根据6中得到的reads进行统计,得到捕获区域内每个位点的碱基型分布,与主流碱基型(比例大于15%的碱基型)不一致的碱基型既为突变碱基型。统计目标区域覆盖大小、平均测序深度,正反链互配率,低频突变率等。
2)利用CCDS、人类基因组数据库(NCBI36.3)、dbSNP(v130)信息对SNP进行注释,确定突变位点发生的基因、坐标、mRNA位点、氨基酸改变、SNP功能(错义突变/无义突变/可变剪切位点)、SIFT预测SNP影响蛋白功能预测等;
3)根据患者样品与对照样品信息的比对,Call Somatic Mutation。同时在候选的SNV中去除掉在dbSNP、HAPMAP、1000人类基因组、其他外显子测序项目中出现的SNP,以作为最后疾病相关的候选SNV。
8,INDEL分析:
1)根据6中得到的reads中含有indel的reads进行统计,得到所有的indel并选择有2条及以上reads支持的indel作为可靠的突变indel,
2)利用CCDS、人类基因组数据库(NCBI36.3)、dbSNP(v130)信息对Indel进行注释,确定突变位点发生的基因、坐标、mRNA位点、编码区域序列的改变、对氨基酸的影响、InDel功能(氨基酸插入/氨基酸缺失/移码突变);
3)根据患者样品与对照样品信息的比对,Call Somatic Mutation。同时在候选的Indel中去除掉在dbSNP以及其他外显子测序项目中出现的Indel,以作为最后疾病相关的候选Indel。
实施例1:十二种常见癌症术后监控
1)12种常见肿瘤早期筛查及术后监控相关基因芯片的设计:
基于TCGA,ICGC,COSMIC等数据库和相关文献参考,采用迭代算法设计出针对12种常见癌症术后监控相关的基因芯片CANPer-JK。CANPer-JK芯片包括了:12种常见癌症相关的Driver Gene,高频突变基因,以及癌症12条信号通路中重要基因等,共计547个基因,800KB。
芯片主要设计过程分为4步:
1、统计cosmic数据库中有关12种癌症相关的driver gene的每个外显子区变异样本数、变异样本、最热点变异所在的样本数、PI值(以评估患者回复频率在每个外显子上的水平,PI=每外显子上携带突变的累计患者数目/外显子长度),并根据PI值降序排列。之后采用迭代算法:以第一个外显子区变异的样本作为样本数据库,统计其他所有区间和样本数据库不同样本的个数,将不同样本个数最多的样本区间列为第二个筛选到芯片区间,此时以筛选到的两个区间的变异样本作为样本数据库,以同样的方法筛选第三个区间,直到样本数据库包括了所有的样本,以统计外显子区集,而对于没有筛选到任何区间的基因所有区间,则都加到芯片区间上。
2.基于TCGA,ICGC等数据库,以去除driver gene区间并且包括大于等于5个样本的热点变异的区间(SNV>=5)为候选区间,重复上一步的迭代计算。
3.基于TCGA,ICGC等数据库,在去除已被筛选的区间中分别以:PI>=30,SNV>=3和:PI>=20,SNV>=3为候选区间,筛选使得单样本数据库样本数减少最多的区间作为第一个芯片区间,重复以上过程进行迭代计算。
4.加入融合基因等区间。
基因列表详情见表1。
表1
ABCB1 BRAF CHD2 ERBB4 FOXA2 IKBKE MECOM NTRK1 PTCH2 SF3A1 TIPARP
ABL1 BRCA1 CHD4 ERCC2 FOXL2 IKZF1 MED12 NTRK2 PTEN SF3B1 TLR4
ABL2 BRCA2 CHEK1 ERCC3 FPGS IL13RA2 MEF2B NTRK3 PTP4A3 SH2B3 TMEM127
ACVR1B BRIP1 CHEK2 ERG FUBP1 IL2RA MEN1 NUP93 PTPN11 SIK1 TNFAIP3
ACVR2A BTG1 CHUK ESR1 FYN IL2RB MET PAK3 PTPRD SIN3A TNFRSF14
AJUBA BTK CIC ETV1 GAB2 IL2RG MIR142 PAK7 RAC1 SLAMF7 TNFRSF8
AKT1 C11orf30 CRBN ETV6 GATA1 IL7R MITF PALB2 RAC2 SLC4A1 TNFSF11
AKT2 C1QA CREBBP EWSR1 GATA2 INHBA MLH1 PARP1 RAD21 SLIT2 TNFSF13B
AKT3 C1QB CRIPAK EXT1 GATA3 IRF4 MLH3 PARP2 RAD50 SMAD2 top1
ALK C1QC CRKL EXT2 GID4 IRS2 MLL PARP3 RAD51 SMAD3 top2A
ALOX12B C1R CRLF2 EZH2 GNA11 ITGB2 MLL2 PARP4 RAD51B SMAD4 top2B
ANGPT1 C1S CROT FAM123B GNA13 JAK1 MLL3 PAX5 RAD51C SMARCA1 TP53
ANGPT2 CAMK2G CSF1R FAM46C GNAQ JAK2 MLL4 PBRM1 RAD51D SMARCA4 TRAF7
APC CARD11 CTCF FANCA GNAS JAK3 MPL PCBP1 RAD52 SMARCB1 TRRAP
APCDD1 CASP8 CTLA4 FANCC GNRHR JUN MRE11A PCM1 RAD54L SMARCD1 TSC1
AR CBFB CTNNA1 FANCD2 GPR124 KAT6A MS4A1 PDGFRA RAF1 SMC1A TSC2
ARAF CBL CTNNB1 FANCE GRIN2A KCNH2 MSH2 PDGFRB RARA SMC3 TSHR
ARFRP1 CBLB CUL4A FANCF GRM3 KDM5A MSH3 PDK1 RARB SMO TSHZ2
ARHGAP35 CBR1 CUL4B FANCG GSK3B KDM5C MSH4 PHF6 RARG SOCS1 TSHZ3
ARID1A CCND1 CYLD FANCI H3F3A KDM6A MSH5 PIGF RB1 SOX10 TUBA1A
ARID1B CCND2 CYP17A1 FANCL H3F3C KDR MSH6 PIK3C2A REL SOX17 TUBB
ARID2 CCND3 DAXX FANCM HCK KEAP1 MSR1 PIK3C2B RET SOX2 TUBD1
ARID5B CCNE1 DDR1 FAT3 HDAC1 KIF1B MTOR PIK3C2G RFC1 SOX9 TUBE1
ASXL1 CD22 DDR2 FBXW7 HDAC2 KIF5B MUC1 PIK3C3 RHEB SPEN TUBG1
ATM CD33 DIS3 FCGR1A HDAC3 KIT MUTYH PIK3CA RICTOR SPOP TXNRD1
ATR CD3D DNMT1 FCGR2A HDAC4 KLF4 MYC PIK3CB RNASEL SPRY4 TYR
ATRX CD3E DNMT3A FCGR2B HDAC6 KLHL6 MYCL1 PIK3CG RNF43 SRC U2AF1
AURKA CD3G DOCK2 FCGR2C HDAC8 KRAS MYCN PIK3R1 ROBO1 SRD5A2 U2AF2
AURKB CD52 DOT1L FCGR3A HGF LCK MYD88 PIK3R2 ROBO2 SRSF1 USP9X
AXIN1 CD79A DUSP6 FCGR3B HIF1A LHCGR NAV3 PLK1 ROS1 SRSF2 VEGFA
AXIN2 CD79B EDNRA FGF10 HIST1H1C LIFR NBN PML RPA1 SRSF7 VEGFB
AXL CD80 EGFR FGF12 HIST1H2BD LIMK1 NCOA1 PMS1 RPL22 SSTR2 VEZF1
B2M CDC25C EGR3 FGF14 HIST1H3B LMO1 NCOA2 PMS2 RPL5 SSTR3 VHL
B4GALT3 CDC42 EIF4A2 FGF19 HLA-A LRRK2 NCOR1 PNRC1 RPS14 SSTR5 WHSC1L1
BACH1 CDC73 ELAC2 FGF23 HNF1A LYN NEK11 POLQ RPS6KB1 STAG2 WISP3
BAK1 CDH1 ELF3 FGF3 HRAS MALAT1 NF1 PPP2R1A RPTOR STAT4 WWP1
BAP1 CDK12 ELMO1 FGF4 HRH2 MAP2K1 NF2 PRDM1 RUNX1 STAT5B XBP1
BARD1 CDK2 EML4 FGF6 HSD17B3 MAP2K2 NFE2L2 PRKAA1 RUNX1T1 STK11 XIAP
BCL2 CDK4 EP300 FGF7 HSD3B2 MAP2K4 NFE2L3 PRKAR1A RXRA SUFU XPA
BCL2A1 CDK6 EPCAM FGFR1 HSH2D MAP3K1 NFKBIA PRKCA RXRB SUZ12 XPC
BCL2L1 CDK8 EPHA2 FGFR2 HSP90AA1 MAP3K13 NKX2-1 PRKCB RXRG SYK XPO1
BCL2L11 CDKN1A EPHA3 FGFR3 HSPA4 MAPK1 NKX3-1 PRKCG SDHAF2 TACR1 XRCC3
BCL2L2 CDKN1B EPHA5 FGFR4 IDH1 MAPK3 NOTCH1 PRKDC SDHB TAF1 YES1
BCL6 CDKN2A EPHB1 FH IDH2 MAPK8 NOTCH2 PRPF40B SDHC TBL1XR1 ZNF217
BCOR CDKN2B EPHB2 FLCN IFNAR1 MAPK8IP1 NOTCH3 PRSS8 SDHD TBX3 ZNF703
BCORL1 CDKN2C EPHB6 FLT1 IFNAR2 MAX NOTCH4 PRX SEMA3A TEK ZRSR2
BCR CDX2 EPOR FLT3 IGF1 MC1R NPM1 PSMB1 SEMA3E TERT WT1
BLM CEBPA EPPK1 FLT4 IGF1R MCL1 NR3C1 PSMB2 SETBP1 TET2
BMPR1A CFLAR ERBB2 FNTA IGF2 MDM2 NRAS PSMB5 SETD2 TFG
BRAF CHD1 ERBB3 FOXA1 IKBKB MDM4 NSD1 PTCH1 SF1 TGFBR2
二、测序分析
采用本发明,对1例乳腺癌术后患者(12种常见肿瘤中的一种)按照以上方法的步骤进行乳腺癌术后监控检测,结果如下:
测序数据统计结果见下表:
注释:正反链互配率:基于3条reads以上正反链均有的簇/3条reads以上总的簇的比值,以评估可用数据中正反链互配情况;有效数据利用率:基于至少满足2+/2-簇的reads纠错后的个数与总测序reads数的比值;平均测序深度:基于有效数据纠错后,对目标区域碱基的平均覆盖情况。
簇的分析:
相同索引reads簇的分析结果见图2,其中,横坐标代表簇的duplication(dup)个数,纵坐标代表满足某一dup个数的簇的总的reads个数。图2的结果显示:dup簇绝大部分在6左右,大部分簇内能满足2正+2反的条件,最终数据数据有效利用率为4.74%,平均测序深度为:1028.6X
突变谱分析:
突变谱分析结果见图3,其中,互补的突变类型对于来源于双链的分子(DNA),理论突变频率基本相同,横坐标代表碱基突变的类型;纵坐标代表突变的个数。图3的结果显示:突变碱基类型分布基本平衡,其突变频率(Mutations per nucleotide)为:3.1×10-6
变异检测列表详情(基于exon区和非同义突变统计):
结果分析:在患者术后血浆中不仅检测其癌中存在的变异如:ROS1p.A2106T,ARp.G457del;HLA-A p.R138G,还检测到高频的PML p.R284P,IRF4p.E11*等变异。预示着患者术后不良,建议患者到相关医疗机构进行更全面的检测和采取相关干预措施。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。另外,需要说明的是,本领域技术人员能够理解,在本发明所提出的方案中所包含的步骤顺序,本领域技术人员可以进行调整,这也将包括在本发明的范围内。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。

Claims (46)

1.一种构建测序文库的方法,其特征在于,包括:
(a)在双链DNA片段的两端分别连接接头,以便获得连接产物,其中,所述接头包括第一链和第二链,所述第一链和第二链部分匹配并且所述第一链包含第一标签序列,以便所述接头上限定出双链区和两个单链尾部,所述两个单链尾部之一的序列中包含第一标签;
(b)将所述连接产物裂解为单链DNA片段;
(c)利用探针对所述单链DNA片段进行筛选,其中,所述探针特异性识别预定区域,其中,所述预定区域包括下列之一:
(1)ABCB1、BRAF、CHD2、FOXA2、IKBKE、MECOM、PTCH2、SF3A1、TIPARP、ABL1、CHD4、ERCC2、IKZF1、NTRK2、SF3B1、TLR4、ABL2、CHEK1、ERCC3、FPGS、IL13RA2、MEF2B、PTP4A3、SH2B3、TMEM127、ACVR1B、BRIP1、ERG、FUBP1、IL2RA、MEN1、NUP93、PTPN11、SIK1、TNFAIP3、ACVR2A、BTG1、CHUK、ESR1、FYN、IL2RB、PAK3、SIN3A、TNFRSF14、AJUBA、BTK、CIC、ETV1、GAB2、IL2RG、MIR142、PAK7、RAC1、SLAMF7、TNFRSF8、C11orf30、CRBN、ETV6、GATA1、MITF、PALB2、RAC2、SLC4A1、TNFSF11、AKT2、C1QA、EWSR1、GATA2、PARP1、RAD21、SLIT2、TNFSF13B、AKT3、C1QB、CRIPAK、EXT1、GATA3、IRF4、MLH3、PARP2、RAD50、SMAD2、TOP1、C1QC、CRKL、EXT2、GID4、IRS2、MLL、PARP3、RAD51、SMAD3、TOP2A、ALOX12B、C1R、CRLF2、EZH2、GNA11、ITGB2、PARP4、RAD51B、TOP2B、ANGPT1、C1S、CROT、FAM123B、GNA13、JAK1、PAX5、RAD51C、SMARCA1、ANGPT2、CAMK2G、CSF1R、FAM46C、GNAQ、MLL4、PBRM1、RAD51D、SMARCA4、TRAF7、CARD11、CTCF、FANCA、MPL、PCBP1、RAD52、SMARCB1、TRRAP、APCDD1、CASP8、CTLA4、FANCC、GNRHR、JUN、MRE11A、PCM1、RAD54L、SMARCD1、TSC1、AR、CBFB、FANCD2、GPR124、KAT6A、MS4A1、RAF1、SMC1A、TSC2、ARAF、CBL、FANCE、GRIN2A、KCNH2、PDGFRB、RARA、SMC3、TSHR、ARFRP1、CBLB、CUL4A、FANCF、GRM3、KDM5A、MSH3、PDK1、RARB、SMO、TSHZ2、ARHGAP35、CBR1、CUL4B、FANCG、GSK3B、KDM5C、MSH4、PHF6、RARG、SOCS1、CCND1、FANCI、H3F3A、KDM6A、MSH5、PIGF、SOX10、TUBA1A、ARID1B、CCND2、CYP17A1、FANCL、H3F3C、MSH6、PIK3C2A、REL、SOX17、TUBB、ARID2、CCND3、DAXX、FANCM、HCK、MSR1、PIK3C2B、SOX2、TUBD1、ARID5B、CCNE1、DDR1、HDAC1、KIF1B、MTOR、PIK3C2G、RFC1、SOX9、TUBE1、CD22、HDAC2、KIF5B、MUC1、PIK3C3、RHEB、SPEN、TUBG1、CD33、DIS3、FCGR1A、HDAC3、MUTYH、RICTOR、SPOP、TXNRD1、ATR、CD3D、DNMT1、FCGR2A、HDAC4、KLF4、MYC、PIK3CB、RNASEL、SPRY4、TYR、ATRX、CD3E、DNMT3A、FCGR2B、HDAC6、KLHL6、MYCL1、PIK3CG、U2AF1、AURKA、CD3G、DOCK2、FCGR2C、HDAC8、MYCN、ROBO1、SRD5A2、U2AF2、AURKB、CD52、DOT1L、FCGR3A、HGF、LCK、MYD88、PIK3R2、SRSF1、USP9X、CD79A、DUSP6、FCGR3B、HIF1A、LHCGR、PLK1、SRSF2、VEGFA、AXIN2、CD79B、EDNRA、FGF10、HIST1H1C、LIFR、NBN、PML、RPA1、SRSF7、VEGFB、AXL、CD80、FGF12、HIST1H2BD、LIMK1、NCOA1、PMS1、RPL22、SSTR2、VEZF1、B2M、CDC25C、EGR3、FGF14、HIST1H3B、LMO1、NCOA2、PMS2、RPL5、SSTR3、VHL、B4GALT3、CDC42、EIF4A2、FGF19、HLA-A、LRRK2、NCOR1、PNRC1、RPS14、SSTR5、WHSC1L1、BACH1、CDC73、ELAC2、FGF23、HNF1A、LYN、NEK11、POLQ、RPS6KB1、STAG2、WISP3、BAK1、CDH1、ELF3、FGF3、MALAT1、RPTOR、STAT4、WWP1、ELMO1、FGF4、HRH2、NF2、PRDM1、RUNX1、STAT5B、XBP1、BARD1、CDK2、EML4、FGF6、HSD17B3、MAP2K2、PRKAA1、RUNX1T1、XIAP、BCL2、CDK4、FGF7、HSD3B2、MAP2K4、NFE2L3、PRKAR1A、RXRA、SUFU、XPA、BCL2A1、CDK6、EPCAM、HSH2D、MAP3K1、NFKBIA、PRKCA、RXRB、SUZ12、XPC、BCL2L1、CDK8、EPHA2、HSP90AA1、MAP3K13、NKX2-1、PRKCB、RXRG、SYK、XPO1、BCL2L11、CDKN1A、HSPA4、MAPK1、NKX3-1、PRKCG、SDHAF2、TACR1、XRCC3、BCL2L2、CDKN1B、IDH1、MAPK3、PRKDC、SDHB、TAF1、YES1、BCL6、EPHB1、FH、IDH2、MAPK8、PRPF40B、SDHC、TBL1XR1、ZNF217、CDKN2B、EPHB2、FLCN、IFNAR1、MAPK8IP1、NOTCH3、PRSS8、SDHD、TBX3、ZNF703、BCORL1、CDKN2C、EPHB6、FLT1、IFNAR2、MAX、NOTCH4、PRX、SEMA3A、TEK、ZRSR2、BCR、CDX2、EPOR、FLT3、IGF1、MC1R、NPM1、PSMB1、SEMA3E、TERT、WT1、BLM、CEBPA、EPPK1、FLT4、IGF1R、MCL1、NR3C1、PSMB2、SETBP1、TET2、BMPR1A、CFLAR、FNTA、IGF2、MDM2、PSMB5、SETD2、TFG、BRAF、CHD1、ERBB3、FOXA1、IKBKB、MDM4、SF1及TGFBR2基因的至少之一;
(2)(1)的CDS区域;以及
(3)(2)的上下游至少10bp的区域;
(d)利用第一引物对所述单链DNA片段进行链延伸反应,以便获得链延伸产物,其中,所述第一引物包括第二标签序列,并且所述第一引物适于与所述接头的第一链形成双链结构,只是所述第一标签序列与所述第二标签序列之间存在错配;
(e)对所述链延伸产物进行扩增,以便获得扩增产物,所述扩增产物构成所述测序文库,其中,所述扩增采用适于同时扩增所述第一标签序列和所述第二标签序列的引物,所述引物为第二引物和第三引物。
2.根据权利要求1所述的方法,其特征在于,所述双链DNA片段是通过下列步骤获得的:
将核酸样本进行末端修复,以便获得经过修复的核酸样本;以及
在所述核酸样本的5’末端添加碱基A,以便获得两端分别具有粘性末端碱基A的核酸样本,所述两端分别具有粘性末端碱基A的核酸样本构成所述双链DNA片段。
3.根据权利要求2所述的方法,其特征在于,所述核酸样本为人基因组DNA的至少一部分或游离核酸。
4.根据权利要求3所述的方法,其特征在于,所述游离核酸是从患者的外周血提取的。
5.根据权利要求4所述的方法,其特征在于,所述患者患有癌症,所述癌症为选自下列的至少之一:
膀胱癌、前列腺癌、肺癌、结直肠癌、胃癌、乳腺癌、肾癌、胰腺癌、卵巢癌、子宫内膜癌、甲状腺癌、宫颈癌、食管癌以及肝癌。
6.根据权利要求3所述的方法,其特征在于,所述人基因组DNA的至少一部分是通过对人基因组DNA进行随机打断而获得的。
7.根据权利要求1所述的方法,其特征在于,所述接头具有3’碱基T粘性末端。
8.根据权利要求1所述的方法,其特征在于,所述单链DNA片段是通过将所述连接产物进行变性处理获得的。
9.根据权利要求1所述的方法,其特征在于,所述探针是以芯片的形式提供的。
10.根据权利要求1所述的方法,其特征在于,在存在UDG酶/FPG酶时,进行所述链延伸反应。
11.根据权利要求1所述的方法,其特征在于,所述第一标签序列和所述第二标签序列分别独立地长度为4~10nt。
12.根据权利要求11所述的方法,其特征在于,所述第一标签序列和所述第二标签序列的长度均为8nt。
13.根据权利要求1所述的方法,其特征在于,所述第一标签序列和所述第二标签序列之间存在至少2nt的错配。
14.根据权利要求1所述的方法,其特征在于,所述接头的第一链的核苷酸序列为SEQID NO:1所示的序列,所述接头的第二链的核苷酸序列为SEQ ID NO:2所示的序列,所述第一标签的核苷酸序列为SEQ ID NO:3-6中至少之一所示的序列,所述第二标签的核苷酸序列为SEQ ID NO:7-10中至少之一所示的序列,所述第一引物的核苷酸序列为SEQ ID NO:11所示的序列,所述第二引物的核苷酸序列为SEQ ID NO:12所示的序列,所述第三引物的核苷酸序列为SEQ ID NO:13所示的序列。
15.一种测序方法,所述方法用于非诊断目的,其特征在于,包括:
根据权利要求1~14任一项所述的方法构建测序文库;
对所述测序文库进行测序。
16.根据权利要求15所述的方法,其特征在于,在Hiseq2000或Hiseq2500上进行所述测序。
17.一种确定核酸序列的方法,所述方法用于非诊断目的,其特征在于,包括:
针对核酸样本,根据权利要求15或16所述的方法进行测序,以便获得由多个测序数据构成的测序结果;
基于所述测序结果,构建至少一个测序数据子集,其中,每个测序数据子集中的所有测序数据均对应核酸样本上相同的源序列;
针对每一个测序数据子集,分别确定与所述第一标签序列对应的测序数据为正链测序数据,与所述第二标签序列对应的测序数据为负链测序数据;
针对每一个测序数据子集,分别基于所述正链测序数据和所述负链测序数据,对测序数据进行校正,以便确定经过校正的测序数据;以及
基于所述经过校正的测序数据,确定所述核酸样本的序列。
18.根据权利要求17所述的方法,其特征在于,所述测序为双末端测序,所述测序结果由多对成对的测序数据构成。
19.根据权利要求18所述的方法,其特征在于,基于所述测序结果,构建至少一个测序数据子集是通过下列步骤进行的:
针对所述多对成对的测序数据的每一对,确定成对测序数据索引,所述成对测序数据索引由成对的测序数据的每一个的最初N个碱基构成,其中,N为10~20之间的整数;
基于所述成对测序数据索引,构建至少一个初步测序数据子集,其中,所述初步测序数据子集中的每一个测序数据均具有相同的成对测序数据索引;以及
基于所述初步测序数据子集中测序数据之间的汉明距离,对所述至少一个初步测序数据子集进行细分,以便获得多个所述测序数据子集。
20.根据权利要求19所述的方法,其特征在于,N为12。
21.根据权利要求19所述的方法,其特征在于,在所述多个测序数据子集的每一个中,任意两对成对测序数据的汉明距离不超过20。
22.根据权利要求19所述的方法,其特征在于,在所述多个测序数据子集的每一个中,正链测序数据和负链测序数据分别为至少两个。
23.根据权利要求22所述的方法,其特征在于,基于所述正链测序数据和所述负链测序数据,确定经过校正的测序数据是基于下列原则进行的:
经过校正的测序数据中的每一个碱基同时获得至少50%正链测序数据和至少50%负链测序数据的支持。
24.根据权利要求23所述的方法,其特征在于,经过校正的测序数据中的每一个碱基同时获得至少80%正链测序数据和至少80%负链测序数据的支持。
25.根据权利要求23所述的方法,其特征在于,进一步包括:
将所述经过校正的测序数据比对至参考序列上,并删除比对质量小于30的测序数据。
26.根据权利要求17所述的方法,其特征在于,基于所述核酸样本的序列,进行SNV分析或Indel分析。
27.一种构建测序文库的装置,其特征在于,包括:
连接单元,用于在双链DNA片段的两端分别连接接头,以便获得连接产物,其中,所述接头包括第一链和第二链,所述第一链和第二链部分匹配并且所述第一链包含第一标签序列,以便所述接头上限定出双链区和两个单链尾部,所述两个单链尾部之一的序列中包含第一标签;
裂解单元,用于将所述连接产物裂解为单链DNA片段;
筛选单元,用于在进行链延伸之前,利用探针对所述单链DNA片段进行筛选,其中,所述探针特异性识别预定区域,其中,所述预定区域包括下列之一:
(1)ABCB1、BRAF、CHD2、FOXA2、IKBKE、MECOM、PTCH2、SF3A1、TIPARP、ABL1、CHD4、ERCC2、IKZF1、NTRK2、SF3B1、TLR4、ABL2、CHEK1、ERCC3、FPGS、IL13RA2、MEF2B、PTP4A3、SH2B3、TMEM127、ACVR1B、BRIP1、ERG、FUBP1、IL2RA、MEN1、NUP93、PTPN11、SIK1、TNFAIP3、ACVR2A、BTG1、CHUK、ESR1、FYN、IL2RB、PAK3、SIN3A、TNFRSF14、AJUBA、BTK、CIC、ETV1、GAB2、IL2RG、MIR142、PAK7、RAC1、SLAMF7、TNFRSF8、C11orf30、CRBN、ETV6、GATA1、MITF、PALB2、RAC2、SLC4A1、TNFSF11、AKT2、C1QA、EWSR1、GATA2、PARP1、RAD21、SLIT2、TNFSF13B、AKT3、C1QB、CRIPAK、EXT1、GATA3、IRF4、MLH3、PARP2、RAD50、SMAD2、TOP1、C1QC、CRKL、EXT2、GID4、IRS2、MLL、PARP3、RAD51、SMAD3、TOP2A、ALOX12B、C1R、CRLF2、EZH2、GNA11、ITGB2、PARP4、RAD51B、TOP2B、ANGPT1、C1S、CROT、FAM123B、GNA13、JAK1、PAX5、RAD51C、SMARCA1、ANGPT2、CAMK2G、CSF1R、FAM46C、GNAQ、MLL4、PBRM1、RAD51D、SMARCA4、TRAF7、CARD11、CTCF、FANCA、MPL、PCBP1、RAD52、SMARCB1、TRRAP、APCDD1、CASP8、CTLA4、FANCC、GNRHR、JUN、MRE11A、PCM1、RAD54L、SMARCD1、TSC1、AR、CBFB、FANCD2、GPR124、KAT6A、MS4A1、RAF1、SMC1A、TSC2、ARAF、CBL、FANCE、GRIN2A、KCNH2、PDGFRB、RARA、SMC3、TSHR、ARFRP1、CBLB、CUL4A、FANCF、GRM3、KDM5A、MSH3、PDK1、RARB、SMO、TSHZ2、ARHGAP35、CBR1、CUL4B、FANCG、GSK3B、KDM5C、MSH4、PHF6、RARG、SOCS1、CCND1、FANCI、H3F3A、KDM6A、MSH5、PIGF、SOX10、TUBA1A、ARID1B、CCND2、CYP17A1、FANCL、H3F3C、MSH6、PIK3C2A、REL、SOX17、TUBB、ARID2、CCND3、DAXX、FANCM、HCK、MSR1、PIK3C2B、SOX2、TUBD1、ARID5B、CCNE1、DDR1、HDAC1、KIF1B、MTOR、PIK3C2G、RFC1、SOX9、TUBE1、CD22、HDAC2、KIF5B、MUC1、PIK3C3、RHEB、SPEN、TUBG1、CD33、DIS3、FCGR1A、HDAC3、MUTYH、RICTOR、SPOP、TXNRD1、ATR、CD3D、DNMT1、FCGR2A、HDAC4、KLF4、MYC、PIK3CB、RNASEL、SPRY4、TYR、ATRX、CD3E、DNMT3A、FCGR2B、HDAC6、KLHL6、MYCL1、PIK3CG、U2AF1、AURKA、CD3G、DOCK2、FCGR2C、HDAC8、MYCN、ROBO1、SRD5A2、U2AF2、AURKB、CD52、DOT1L、FCGR3A、HGF、LCK、MYD88、PIK3R2、SRSF1、USP9X、CD79A、DUSP6、FCGR3B、HIF1A、LHCGR、PLK1、SRSF2、VEGFA、AXIN2、CD79B、EDNRA、FGF10、HIST1H1C、LIFR、NBN、PML、RPA1、SRSF7、VEGFB、AXL、CD80、FGF12、HIST1H2BD、LIMK1、NCOA1、PMS1、RPL22、SSTR2、VEZF1、B2M、CDC25C、EGR3、FGF14、HIST1H3B、LMO1、NCOA2、PMS2、RPL5、SSTR3、VHL、B4GALT3、CDC42、EIF4A2、FGF19、HLA-A、LRRK2、NCOR1、PNRC1、RPS14、SSTR5、WHSC1L1、BACH1、CDC73、ELAC2、FGF23、HNF1A、LYN、NEK11、POLQ、RPS6KB1、STAG2、WISP3、BAK1、CDH1、ELF3、FGF3、MALAT1、RPTOR、STAT4、WWP1、ELMO1、FGF4、HRH2、NF2、PRDM1、RUNX1、STAT5B、XBP1、BARD1、CDK2、EML4、FGF6、HSD17B3、MAP2K2、PRKAA1、RUNX1T1、XIAP、BCL2、CDK4、FGF7、HSD3B2、MAP2K4、NFE2L3、PRKAR1A、RXRA、SUFU、XPA、BCL2A1、CDK6、EPCAM、HSH2D、MAP3K1、NFKBIA、PRKCA、RXRB、SUZ12、XPC、BCL2L1、CDK8、EPHA2、HSP90AA1、MAP3K13、NKX2-1、PRKCB、RXRG、SYK、XPO1、BCL2L11、CDKN1A、HSPA4、MAPK1、NKX3-1、PRKCG、SDHAF2、TACR1、XRCC3、BCL2L2、CDKN1B、IDH1、MAPK3、PRKDC、SDHB、TAF1、YES1、BCL6、EPHB1、FH、IDH2、MAPK8、PRPF40B、SDHC、TBL1XR1、ZNF217、CDKN2B、EPHB2、FLCN、IFNAR1、MAPK8IP1、NOTCH3、PRSS8、SDHD、TBX3、ZNF703、BCORL1、CDKN2C、EPHB6、FLT1、IFNAR2、MAX、NOTCH4、PRX、SEMA3A、TEK、ZRSR2、BCR、CDX2、EPOR、FLT3、IGF1、MC1R、NPM1、PSMB1、SEMA3E、TERT、WT1、BLM、CEBPA、EPPK1、FLT4、IGF1R、MCL1、NR3C1、PSMB2、SETBP1、TET2、BMPR1A、CFLAR、FNTA、IGF2、MDM2、PSMB5、SETD2、TFG、BRAF、CHD1、ERBB3、FOXA1、IKBKB、MDM4、SF1及TGFBR2基因的至少之一;
(2)(1)的CDS区域;以及
(3)(2)的上下游至少10bp的区域;
链延伸单元,用于利用第一引物对所述单链DNA片段进行链延伸反应,以便获得链延伸产物,其中,所述第一引物包括第二标签序列,并且所述第一引物适于与所述接头的第一链形成双链结构,只是所述第一标签序列与所述第二标签序列之间存在错配;
扩增单元,用于对所述链延伸产物进行扩增,以便获得扩增产物,所述扩增产物构成所述测序文库,其中,所述扩增采用第二引物以及第三引物,所述第二引物识别所述接头的第二链,所述第三引物被设置为适于同时扩增所述第一标签序列和所述第二标签序列。
28.根据权利要求27所述的装置,其特征在于,进一步包括:
末端修复单元,用于将核酸样本进行末端修复,以便获得经过修复的核酸样本;以及
末端修饰单元,用于在所述核酸样本的5’末端添加碱基A,以便获得两端分别具有粘性末端碱基A的核酸样本,所述两端分别具有粘性末端碱基A的核酸样本构成所述双链DNA片段。
29.根据权利要求27所述的装置,其特征在于,所述探针是以芯片的形式提供的。
30.根据权利要求27所述的装置,其特征在于,在存在UDG酶/FPG酶时,进行所述链延伸反应。
31.根据权利要求27所述的装置,其特征在于,所述第一标签序列和所述第二标签序列分别独立地长度为4~10nt。
32.根据权利要求31所述的装置,其特征在于,所述第一标签序列和所述第二标签序列的长度均为8nt。
33.根据权利要求27所述的装置,其特征在于,所述第一标签序列和所述第二标签序列之间存在至少2nt的错配。
34.根据权利要求27所述的装置,其特征在于,所述接头的第一链的核苷酸序列为SEQID NO:1所示的序列,所述接头的第二链的核苷酸序列为SEQ ID NO:2所示的序列,所述第一标签的核苷酸序列为SEQ ID NO:3-6中至少之一所示的序列,所述第二标签的核苷酸序列为SEQ ID NO:7-10中至少之一所示的序列,所述第一引物的核苷酸序列为SEQ ID NO:11所示的序列,所述第二引物的核苷酸序列为SEQ ID NO:12所示的序列,所述第三引物的核苷酸序列为SEQ ID NO:13所示的序列。
35.一种测序设备,其特征在于,包括:
根据权利要求27~34任一项所述的构建测序文库的装置;
测序装置,用于对所述测序文库进行测序。
36.根据权利要求35所述的测序设备,其特征在于,所述测序装置为Hiseq2000或Hiseq2500。
37.一种确定核酸序列的系统,其特征在于,包括:
权利要求35或36所述的测序设备,用于针对核酸样本进行测序,以便获得由多个测序数据构成的测序结果;
测序数据子集构建设备,用于基于所述测序结果,构建至少一个测序数据子集,其中,每个测序数据子集中的所有测序数据均对应核酸样本上相同的源序列;
测序数据分类设备,用于针对每一个测序数据子集,分别确定与所述第一标签序列对应的测序数据为正链测序数据,与所述第二标签序列对应的测序数据为负链测序数据;
测序数据校正设备,用于针对每一个测序数据子集,分别基于所述正链测序数据和所述负链测序数据,对测序数据进行校正,以便确定经过校正的测序数据;以及
序列确定设备,用于基于所述经过校正的测序数据,确定所述核酸样本的序列。
38.根据权利要求37所述的系统,其特征在于,所述测序为双末端测序,所述测序结果由多对成对的测序数据构成。
39.根据权利要求38所述的系统,其特征在于,测序数据子集构建设备包括:
测序数据索引确定设备,用于针对所述多对成对的测序数据的每一对,确定成对测序数据索引,所述成对测序数据索引由成对的测序数据的每一个的最初N个碱基构成,其中,N为10~20之间的整数;
初步筛选装置,用于基于所述成对测序数据索引,构建至少一个初步测序数据子集,其中,所述初步测序数据子集中的每一个测序数据均具有相同的成对测序数据索引;以及
二次筛选装置,用于基于所述初步测序数据子集中测序数据之间的汉明距离,对所述至少一个初步测序数据子集进行细分,以便获得多个所述测序数据子集。
40.根据权利要求39所述的系统,其特征在于,N为12。
41.根据权利要求39所述的系统,其特征在于,在所述多个测序数据子集的每一个中,任意两对成对测序数据的汉明距离不超过20。
42.根据权利要求39所述的系统,其特征在于,在所述多个测序数据子集的每一个中,正链测序数据和负链测序数据分别为至少两个。
43.根据权利要求42所述的系统,其特征在于,基于所述正链测序数据和所述负链测序数据,确定经过校正的测序数据是基于下列原则进行的:
经过校正的测序数据中的每一个碱基同时获得至少50%正链测序数据和至少50%负链测序数据的支持。
44.根据权利要求43所述的系统,其特征在于,经过校正的测序数据中的每一个碱基同时获得至少80%正链测序数据和至少80%负链测序数据的支持。
45.根据权利要求43所述的系统,其特征在于,进一步包括:
将所述经过校正的测序数据比对至参考序列上,并删除比对质量小于30的测序数据。
46.根据权利要求37所述的系统,其特征在于,进一步包括序列分析装置,所述序列分析装置用于基于所述核酸样本的序列,进行SNV分析或Indel分析。
CN201410519403.7A 2014-09-30 2014-09-30 构建测序文库的方法及其应用 Active CN104293938B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410519403.7A CN104293938B (zh) 2014-09-30 2014-09-30 构建测序文库的方法及其应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410519403.7A CN104293938B (zh) 2014-09-30 2014-09-30 构建测序文库的方法及其应用

Publications (2)

Publication Number Publication Date
CN104293938A CN104293938A (zh) 2015-01-21
CN104293938B true CN104293938B (zh) 2017-11-03

Family

ID=52313885

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410519403.7A Active CN104293938B (zh) 2014-09-30 2014-09-30 构建测序文库的方法及其应用

Country Status (1)

Country Link
CN (1) CN104293938B (zh)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104293940B (zh) * 2014-09-30 2017-07-28 天津华大基因科技有限公司 构建测序文库的方法及其应用
CN104789552A (zh) * 2015-03-11 2015-07-22 南方科技大学 一种快速制备高通量测序文库的方法及应用
US10689710B2 (en) 2015-05-27 2020-06-23 Quest Diagnostics Investments Incorporated Methods for screening solid tumors for mutations
CN105087789B (zh) * 2015-08-10 2018-08-03 北京吉因加科技有限公司 一种检测血浆cfDNA中BCR和TCR免疫组库的方法
CN106929564B (zh) * 2015-12-30 2021-04-02 浙江安诺优达生物科技有限公司 乳腺癌易感基因检测试剂盒
CN105986032A (zh) * 2016-03-30 2016-10-05 广州精科生物技术有限公司 试剂盒、建库方法以及检测目标区域变异的方法及系统
CN105671187B (zh) * 2016-04-08 2020-06-05 南方医科大学 一组用于头颈部鳞状细胞癌分子分型的基因及其应用
CN105950750A (zh) * 2016-06-08 2016-09-21 福州市传染病医院 用于肝癌诊断及预后评估的基因群及试剂盒
CN106755322A (zh) * 2016-11-25 2017-05-31 苏州首度基因科技有限责任公司 一种预测肺癌转移的试剂盒及其使用方法
CN108203847B (zh) * 2016-12-16 2022-01-04 深圳华大智造科技股份有限公司 用于二代测序质量评估的文库、试剂及应用
CN108300783A (zh) * 2017-01-11 2018-07-20 上海易毕恩基因科技有限公司 用于筛选肠癌和/或胃癌的基因标志物的方法、用该方法筛选的基因标志物及其用途
CN106755464A (zh) * 2017-01-11 2017-05-31 上海易毕恩基因科技有限公司 用于筛选肠癌和/或胃癌的基因标志物的方法、用该方法筛选的基因标志物及其用途
CN106939337B (zh) * 2017-03-21 2020-06-05 重庆市肿瘤研究所 激素受体阳性乳腺癌复发监测基因突变文库的构建方法
CN107354209B (zh) * 2017-07-14 2021-01-08 广州精科医学检验所有限公司 组合标签、接头及确定含有低频突变核酸序列的方法
CN107523563A (zh) * 2017-09-08 2017-12-29 杭州和壹基因科技有限公司 一种用于循环肿瘤dna分析的生物信息处理方法
CN107988362B (zh) * 2017-10-26 2021-07-20 广东省人民医院(广东省医学科学院) 一种肺癌相关33基因靶向捕获测序试剂盒及其应用
CN107881232A (zh) * 2017-10-26 2018-04-06 上海仁东医学检验所有限公司 探针组合物及基于ngs方法检测肺癌和结直肠癌基因的应用
CN107904668A (zh) * 2018-01-02 2018-04-13 上海美吉生物医药科技有限公司 一种微生物多样性文库构建方法及其应用
CN110117652A (zh) * 2018-02-05 2019-08-13 箐健科技(天津)有限公司 肝癌早期诊断方法
CN108315416A (zh) * 2018-03-02 2018-07-24 中国科学院合肥物质科学研究院 基于高通量测序技术确定肺癌基因突变位点的引物、试剂盒及方法
CN108753820A (zh) * 2018-06-07 2018-11-06 嘉兴学院 Daxx蛋白通过激活erk信号通路促进卵巢癌腹水细胞增殖和转移
CN109097466B (zh) * 2018-09-21 2022-07-15 王赞鑫 与主动脉夹层疾病相关的snp位点及其应用
CN112662759A (zh) * 2020-02-25 2021-04-16 博尔诚(北京)科技有限公司 一种检测3种管腔性器官肿瘤的探针组合物
CN112029866B (zh) * 2020-09-21 2024-02-02 河南尚泰科诺生物科技有限公司 Wwp1在胰腺癌中的应用

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102409048B (zh) * 2010-09-21 2013-10-23 深圳华大基因科技服务有限公司 一种基于高通量测序的dna标签文库构建方法
CN101967476B (zh) * 2010-09-21 2012-11-14 深圳华大基因科技有限公司 一种基于接头连接的DNA PCR-Free标签文库构建方法
CN102127818A (zh) * 2010-12-15 2011-07-20 张康 利用孕妇外周血建立胎儿dna文库的方法
CN102560688B (zh) * 2010-12-15 2013-11-20 深圳华大基因科技服务有限公司 一种新的基于illumina测序平台的文库构建方法
CN103103624B (zh) * 2011-11-15 2014-12-31 深圳华大基因科技服务有限公司 高通量测序文库的构建方法及其应用
CN103806111A (zh) * 2012-11-15 2014-05-21 深圳华大基因科技有限公司 高通量测序文库的构建方法及其应用

Also Published As

Publication number Publication date
CN104293938A (zh) 2015-01-21

Similar Documents

Publication Publication Date Title
CN104293938B (zh) 构建测序文库的方法及其应用
US11001837B2 (en) Low-frequency mutations enrichment sequencing method for free target DNA in plasma
CN104294371B (zh) 构建测序文库的方法及其应用
CN109880910B (zh) 一种肿瘤突变负荷的检测位点组合、检测方法、检测试剂盒及系统
JP7317078B2 (ja) 腫瘍変異負荷を評価するための方法及びシステム
US11827942B2 (en) Methods for early detection of cancer
CN111321140B (zh) 一种基于单样本的肿瘤突变负荷检测方法和装置
JP6905934B2 (ja) 腫瘍試料の多重遺伝子分析
CN109427412B (zh) 用于检测肿瘤突变负荷的序列组合和其设计方法
WO2019157791A1 (zh) 一种拷贝数变异的检测方法、装置以及计算机可读介质
JP2016513959A5 (zh)
CN108009400A (zh) 全基因组肿瘤突变负荷预测方法、设备以及存储介质
CN113249483B (zh) 一种检测肿瘤突变负荷的基因组合、系统及应用
CN104293940B (zh) 构建测序文库的方法及其应用
US10947599B2 (en) Tumor mutation burden
US12049672B2 (en) Methods and systems for screening for conditions
CN114480660A (zh) 一种用于检测泛癌种的基因Panel、探针及应用
WO2016049929A1 (zh) 构建测序文库的方法及其应用
US20230091151A1 (en) Compositions and Methods for Targeted NGS Sequencing of cfRNA and cfTNA
CN114512184B (zh) 一种用于预测癌症疗效和预后的方法及其装置和应用
US20230193355A1 (en) Methods and compositions for high-throughput target sequencing in single cells
Tang et al. Tumor mutation burden derived from small next generation sequencing targeted gene panel as an initial screening method
US20220136070A1 (en) Methods and systems for characterizing tumor response to immunotherapy using an immunogenic profile
KR20240049800A (ko) 비정상적으로 메틸화된 단편을 갖는 체세포 변이 동시 발생
CN114908163A (zh) 预测肺癌免疫检查点抑制剂疗效的标志物及其应用

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant