基于高通量测序用于地中海贫血大样本筛查的建库方法
技术领域
本发明涉及地中海贫血检测技术领域,具体涉及一种基于高通量测序用于地中海贫血大样本筛查的建库方法。
背景技术
地中海贫血是一种珠蛋白生成障碍性贫血,由于基因缺陷造成血红蛋白中一种或者多种珠蛋白链合成缺失或者不足。γ、δ、和β珠蛋白组成β基因族,ζ和α珠蛋白组成α基因族;地中海贫血也分为α型、β型、δβ型和δ型四种,其中以β和α地中海贫血较为常见。α-地中海贫血相关基因包括HBA2和HBA1,β-地中海贫血相关基因为HBB;位于HBA1上的类型多达348个,位于HBA2上的突变类型则为431个,HBB上的突变类型为887个;其中与地中海贫血相关的突变类型有484个,其中包括大片段缺失、点突变、缺失重复等。
地中海贫血的发生主要分布在地中海沿岸地区,其次为中东、印度、东南亚及我国南方地区;其中我国长江以南各省是地中海贫血高发期,广东、广西、福建、海南等尤为突出。中国人群中常见的α-地中海贫血有-αSEA、-α3.7、-α4.2、αCS、αQS和αWS六种缺失型,常见的β-地中海贫血主要有26种点突变型,此外还存在其他数百种在中国人群发生频率较低的突变类型。
目前地中海贫血尚无根治的方法,只能依靠传统方法治疗,即以输血治疗为主,给患者造成极大的经济负担,因此对地中海贫血携带者进行筛查从而指导生育是具有重要意义的。
目前对于缺失型突变的检测主要采用Gap-PCR法,而检测突变型地中海贫血则主要采用sanger测序、MLPA、芯片杂交法或者荧光定量PCR法等其他方法。其中,sanger测序法的优势是能检出目标区域内的已知和未知突变,其缺点是通量低,不适用于大规模筛查。而芯片杂交发和荧光定量PCR法通量相对更高一些,但只能检出已知突变,且检出位点相对较少,在大规模地中海贫血筛查过程中,可能造成一些罕见突变型的漏检。
发明内容
本发明在整理和分析珠蛋白基因HBA1、HBA2、HBB上的与地中海贫血疾病相关的突变位点的基础上,在基因序列两端保守区域设计标记有特定标签序列的特异性引物,将PCR产物进行大样本混合建库。使用本发明的文库并使用高通量测序对PCR片段进行全长测序,不仅覆盖目前已知的与地中海贫血相关的245种HBB基因突变类型和93种HBA基因突变类型,同时也能检测出目标区域范围内的新发型别。
本发明提供一种基于高通量测序用于地中海贫血大样本筛查的建库方法,通过使用在5’端修饰有特定标签序列的特异性引物,对HBA1、HBA2、HBB基因进行扩增,利用超声波打断仪对PCR产物进行不完全打断,再将测序通用接头序列连接到打断产物两端,构建高通量测序文库。本发明的文库经质控上机测序,下机数据可以利用特异性引物两端的标签序列区分样本信息。本发明的方法通量大、操作简单、准确度高、不仅可以检测已知型别,同时也能检出新发的未知型别。
本发明包括如下技术方案:
一种基于高通量测序用于地中海贫血大样本筛查的建库方法,包括:
(1)使用带有标签序列的特异性引物分别扩增HBA1、HBA2和HBB基因,其中上述标签序列用于区分不同样本;
(2)将不同样本的相同基因的扩增产物混合,然后将混合后的不同基因的扩增产物混合;
(3)对上一步的混合产物进行纯化;
(4)对上一步的纯化产物进行不完全打断,然后对打断产物进行纯化;
(5)对上一步的纯化产物进行5’磷酸化平末端修复和3’末端加A,获得具有5’磷酸化和3’粘性末端A的DNA片段;
(6)将上一步的DNA片段与含有区分文库的唯一条形码序列的接头相连,获得可以区分文库信息的连接产物;和
(7)对上述连接产物进行纯化,获得适用于高通量测序的上机文库。
进一步地,用于扩增HBA1基因的特异性引物序列如下所示:
HBA1-F:BBBBBBAGCATAAACCCTGGCGCGC(SEQ ID NO:1);
HBA1-R:BBBBBBCTCAGCAAACGTGCCAGGCA(SEQ ID NO:2);
用于扩增HBA2基因的特异性引物序列如下所示:
HBA2-F:BBBBBBCAAGCATAAACCCTGGCGCGC(SEQ ID NO:3);
HBA2-R:BBBBBBTATCCCGGAATGTGCCAACAATGG(SEQ ID NO:4);
用于扩增HBB基因的特异性引物序列如下所示:
HBB1-F:BBBBBBGCCAGTGCCAGAAGAGCC(SEQ ID NO:5);
HBB1-R:BBBBBBGAATGGGAAACAGACGAATGAT(SEQ ID NO:6);
HBB2-F:BBBBBBTTTCAGGGCAATAATGATACAATG(SEQ ID NO:7);
HBB2-R:BBBBBBGGAATGTGGGAGGTCAGTGC(SEQ ID NO:8);
其中,BBBBBB表示上述标签序列,上述标签序列互相不同。
进一步地,上述步骤(2)中,不同样本的相同基因的扩增产物按照等体积混合;混合后的不同基因的扩增产物,按照HBA1、HBA2、HBB1、HBB2扩增产物体积比为1:1:2:2混合。
进一步地,上述纯化采用磁珠纯化。
进一步地,上述接头序列如下:
正链:
5’-AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGAC GCTCTTCCGATCT-3’(SEQID NO:9);
负链:
5’-GATCGGAAGAGCACACGTCTGAACTCCAGTCACBBBBBBBBATCTCGTATGCCGTCTTCTGCTTG-3’(SEQ ID NO:10);其中BBBBBBBB为上述条形码序列。
进一步地,上述步骤(4)中打断采用超声波打断仪进行。
本发明使用一套带有特定标签序列的特异性引物,实现了大样本量的混合建库并能在下机数据中实现不同样本的数据拆分,极大提高了检测的通量,降低建库的复杂度和成本,适用于地中海贫血基因检测的大样本量筛查。本发明的特异性引物,能够高效特异地扩增出HBA1、HBA2、HBB的目的片段,涵盖已知的主要突变类型。通过不完全打断法和PE测序策略,不仅实现不同样本的数据拆分,而且能够弥补测序读长的局限,实现目标区域的全长序列测通,不仅能检测已知型别,还能检测出新发型别,极大地降低漏检的可能性。
具体实施方式
下面通过具体实施方式对本发明作进一步详细说明。在以下的实施方式中,很多细节描述是为了使得本申请能被更好的理解。然而,本领域技术人员可以毫不费力的认识到,其中部分特征在不同情况下是可以省略的,或者可以由其他元件、材料、方法所替代。在某些情况下,本申请相关的一些操作并没有在说明书中显示或者描述,这是为了避免本申请的核心部分被过多的描述所淹没,而对于本领域技术人员而言,详细描述这些相关操作并不是必要的,他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。
本发明的基于高通量测序用于地中海贫血大样本筛查的建库方法,包括:
(1)使用带有标签序列的特异性引物分别扩增HBA1、HBA2和HBB基因,其中上述标签序列用于区分不同样本;
(2)将不同样本的相同基因的扩增产物混合,然后将混合后的不同基因的扩增产物混合;
(3)对上一步的混合产物进行纯化;
(4)对上一步的纯化产物进行不完全打断,然后对打断产物进行纯化;
(5)对上一步的纯化产物进行5’磷酸化平末端修复和3’末端加A,获得具有5’磷酸化和3’粘性末端A的DNA片段;
(6)将上一步的DNA片段与含有区分文库的唯一条形码序列的接头相连,获得可以区分文库信息的连接产物;和
(7)对上述连接产物进行纯化,获得适用于高通量测序的上机文库。
本发明中,特异性引物带有标签序列,其中标签序列可以是一定碱基长度例如6至10个碱基的随机序列,不同特异性引物的标签序列互不相同,因此能够实现对不同样本的区分。
本发明中,用于扩增HBA1基因的特异性引物序列如下所示:
HBA1-F:BBBBBBAGCATAAACCCTGGCGCGC(SEQ ID NO:1);
HBA1-R:BBBBBBCTCAGCAAACGTGCCAGGCA(SEQ ID NO:2)。
上述用于扩增HBA1基因的特异性引物序列能够扩增到HBA1基因的全长片段,因此能够通过测序检测HBA1基因的所有突变类型。
本发明中,用于扩增HBA2基因的特异性引物序列如下所示:
HBA2-F:BBBBBBCAAGCATAAACCCTGGCGCGC(SEQ ID NO:3);
HBA2-R:BBBBBBTATCCCGGAATGTGCCAACAATGG(SEQ ID NO:4)。
上述用于扩增HBA2基因的特异性引物序列能够扩增到HBA2基因的全长片段,因此能够通过测序检测HBA2基因的所有突变类型。
本发明中,用于扩增HBB基因的特异性引物序列如下所示:
HBB1-F:BBBBBBGCCAGTGCCAGAAGAGCC(SEQ ID NO:5);
HBB1-R:BBBBBBGAATGGGAAACAGACGAATGAT(SEQ ID NO:6);
HBB2-F:BBBBBBTTTCAGGGCAATAATGATACAATG(SEQ ID NO:7);
HBB2-R:BBBBBBGGAATGTGGGAGGTCAGTGC(SEQ ID NO:8)。
上述HBB1-F和HBB1-R引物能够扩增HBB基因的部分片段;HBB2-F和HBB2-R引物能够扩增HBB基因的部分片段。上述两对引物对的扩增产物覆盖HBB基因的全长。
在本发明的一个具体实施例中,步骤(2)中,不同样本的相同基因的扩增产物按照等体积混合;混合后的不同基因的扩增产物,按照HBA1、HBA2、HBB1、HBB2扩增产物体积比为1:1:2:2混合。
在本发明的一个具体实施例中,采用磁珠纯化。
在本发明的一个具体实施例中,接头序列如下:
正链:
5’-AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGAC GCTCTTCCGATCT-3’(SEQID NO:9);
负链:
5’-GATCGGAAGAGCACACGTCTGAACTCCAGTCACBBBBBBBBATCTCGTATGCCGTCTTCTGCTTG-3’(SEQ ID NO:10);其中BBBBBBBB为上述条形码序列。
以下通过实施例详细说明本发明的技术方案和效果,应当理解,实施例仅是示例性的,不能理解为对本发明保护范围的限制。
实施例
本实施例,使用表1所示的带有标签序列(5’端的前6个碱基)的特异性引物分别扩增HBA1、HBA2和HBB基因。其中,针对HBA1、HBA2基因,分别有96对特异性引物(seq1至seq96),分别用于96个样本的扩增;针对HBB基因,分成两段扩增(即HBB1、HBB2),每段分别有96对特异性引物(seq1至seq96),分别用于96个样本的扩增。对于每一个样本的每一个基因片段,分别使用一对特定的特异性引物(例如seq1的HBA1-F和HBA1-R)。
表1
(1)反应体系如下表2:
表2
反应程序为:95℃热变性3min;95℃变性30sec,56℃退火30sec,72℃延伸1min30sec,32个循环;72℃终延伸10min。
(2)采用自动化移液工作站或手工将96个样本的相同基因片段的扩增产物等体积混合得到四种(HBA1、HBA2、HBB1、HBB2)扩增产物的混合物,将四种扩增产物的混合物按照体积比分别为HBA1:HBA2:HBB1:HBB2=1:1:2:2进行混合。
(3)从单管产物混合物中取出300μL,使用1倍体积(即300μL)Ampure XP磁珠进行纯化,洗脱体积为80μL。
(4)使用超声波打断仪对纯化产物进行不完全打断,其中使用的超声波打断仪为Covaris E220,打断参数为:Duty:10%,Intensity:10,Cycle/burst:500,Time(s):20,Cycles:6;打断产物使用1倍体积Ampure XP磁珠进行纯化,洗脱体积为40μL。
(5)对步骤(4)的纯化产物进行5’磷酸化平末端修复和3’末端加A,获得具有5’磷酸化和3’粘性末端A的DNA片段,反应体系如下表3:
表3
反应条件为37℃30min,65℃15min。
(6)将步骤(5)的DNA片段与含有区分文库的唯一条形码序列的接头相连,获得可以区分文库信息的连接产物,其中带有唯一条形码序列接头的序列是:
正链:
5’-AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGAC GCTCTTCCGATCT-3’(SEQID NO:9);
负链:
5’-GATCGGAAGAGCACACGTCTGAACTCCAGTCACBBBBBBBBATCTCGTATGCCGTCTTCTGCTTG-3’(SEQ ID NO:10);其中BBBBBBBB为上述条形码序列。
(7)对步骤(6)的连接产物使用1倍Ampure XP磁珠进行纯化,采用无需PCR(PCR-free)的方法,使用Qubit对文库浓度定量合格后即可上机测序。
通过上机测序,可以获得HBA1、HBA2和HBB的全长序列,能够覆盖目前已知的与地中海贫血相关的245种HBB基因突变类型(表4)和93种HBA基因突变类型(表5),同时也能检测出目标区域范围内的新发型别。
表4与地中海贫血相关的245种HBB基因突变类型
表5与地中海贫血相关的93种HBA基因突变类型
以上应用了具体个例对本发明进行阐述,只是用于帮助理解本发明,并不用以限制本发明。对于本发明所属技术领域的技术人员,依据本发明的思想,还可以做出若干简单推演、变形或替换。
SEQUENCE LISTING
<110> 深圳市乐土精准医疗科技有限公司
<120> 基于高通量测序用于地中海贫血大样本筛查的建库方法
<130> 17I24095
<160> 10
<170> PatentIn version 3.3
<210> 1
<211> 25
<212> DNA
<213> 人工序列
<220>
<221> 标签序列
<222> (1)..(6)
<400> 1
bbbbbbagca taaaccctgg cgcgc 25
<210> 2
<211> 26
<212> DNA
<213> 人工序列
<220>
<221> 标签序列
<222> (1)..(6)
<400> 2
bbbbbbctca gcaaacgtgc caggca 26
<210> 3
<211> 27
<212> DNA
<213> 人工序列
<220>
<221> 标签序列
<222> (1)..(6)
<400> 3
bbbbbbcaag cataaaccct ggcgcgc 27
<210> 4
<211> 30
<212> DNA
<213> 人工序列
<220>
<221> 标签序列
<222> (1)..(6)
<400> 4
bbbbbbtatc ccggaatgtg ccaacaatgg 30
<210> 5
<211> 24
<212> DNA
<213> 人工序列
<220>
<221> 标签序列
<222> (1)..(6)
<400> 5
bbbbbbgcca gtgccagaag agcc 24
<210> 6
<211> 28
<212> DNA
<213> 人工序列
<220>
<221> 标签序列
<222> (1)..(6)
<400> 6
bbbbbbgaat gggaaacaga cgaatgat 28
<210> 7
<211> 30
<212> DNA
<213> 人工序列
<220>
<221> 标签序列
<222> (1)..(6)
<400> 7
bbbbbbtttc agggcaataa tgatacaatg 30
<210> 8
<211> 26
<212> DNA
<213> 人工序列
<220>
<221> 标签序列
<222> (1)..(6)
<400> 8
bbbbbbggaa tgtgggaggt cagtgc 26
<210> 9
<211> 58
<212> DNA
<213> 人工序列
<400> 9
aatgatacgg cgaccaccga gatctacact ctttccctac acgacgctct tccgatct 58
<210> 10
<211> 65
<212> DNA
<213> 人工序列
<220>
<221> 条形码序列
<222> (34)..(41)
<400> 10
gatcggaaga gcacacgtct gaactccagt cacbbbbbbb batctcgtat gccgtcttct 60
gcttg 65