发明内容
本发明利用新的三代测序技术进行全长测序(外显子以及内含子,UTR区域),并且用开发的程序进行超高分辨率的HLA分型,可得到基因全长序列,可达到6位或8位的高精度分型。
本发明公开了一种基于三代测序平台的HLA基因分型方法,包括以下步骤:
(1)对需要分型的HLA基因进行PCR扩增;
(2)PCR所得产物检测合格后,进行三代测序,获得原始数据;
(3)将原始数据与参考基因序列进行长序列比对,所述参考基因序列为IPD-IMGT/HLA数据库中的一条最长序列;
(4)比对后采用如下程序对测序错误进行矫正:
(4.1)编码原始比对矩阵
经过和参考序列的比对,所述HLA基因组成了由碱基构成的特有矩阵;使用samtools软件的tview命令,输出文本格式的碱基与参考基因序列的比对矩阵;以参考基因的位置为横坐标、以i表示,以深度为纵坐标、以j表示,矩阵组成单元以x表示;
设置初始阈值y,所述y表示默认的错误率,所述错误率为测序错误占总深度的比例,所述错误率为10%;
每个i位置的碱基纵向的总深度为Dep_total[i];
统计每个i位置对应的所有j位置x的数量Num(x),并计算x对应的深度Dep(x);
(4.2)纯合、杂合位点的可视化矫正
(4.2.1)设置初始错误率阈值y,所述y为10%;
(4.2.2)确定扩增子杂合等位型j位置及比例;
对于每个i位置,当Dep(x)>y,使用Dep(x1)代表最大深度碱基类型的深度,仅次于Dep(x1)的深度,用Dep(x2)表示,若有第三大碱基类型的深度,为Dep(x3);
对整个扩增子的杂合比例进行计算,当Dep(x2)/(Dep(x1)+Dep(x2))<20%时,假设其为纯合子;当Dep(x2)/(Dep(x1)+Dep(x2))>=20%时,假设其为杂合二倍型别,选取SNV等位型杂合比最接近0.5的四个点,该四个点依照以下规则选取:
以δi衡量SNV等位型杂合比与0.5的接近程度,
δi=(Dep(x1)/Dep_total[i]-0.5)2+(Dep(x2)/Dep_total[i]-0.5)2;选取δi最小的四个i位置;
且该四个位置前后两个位置的Dep(*)小于总深度的20%,否则继续根据δi筛选;
根据该四个i位置确定矩阵中每个j位置的连锁相:
(4.2.2.1)对于矩阵中该四个杂合位点,第一个杂合位点i位置最大深度Dep(x1)的碱基类型对应的矩阵的j位置为相位1,第二大深度Dep(x2)的碱基类型对应的矩阵的j位置为相位2,确定第一个杂合位点的不需要矫正的j坐标的相位;
(4.2.2.2)第二个杂合位点的相位根据第一个杂合位点的每一个j坐标的相位情况确定:
若相位1对应的碱基类型有80%为该i位置的最大深度Dep(x1)的碱基类型,且相位2对应的碱基类型有80%为该i位置的第二大深度Dep(x2)的碱基类型,则最大深度Dep(x1)的碱基类型对应的矩阵的j位置为相位1,第二大深度Dep(x2)的碱基类型对应的矩阵的j位置为相位2;
若相位1对应的碱基类型有80%为该i位置的最大深度Dep(x2)的碱基类型,且相位2对应的碱基类型有80%为该i位置的最大深度Dep(x1)的碱基类型,则第二大深度Dep(x2)的碱基类型对应的矩阵的j位置为相位1,最大深度Dep(x1)的碱基类型对应的矩阵的j位置为相位2;
若满足以上两个条件,则根据该方法确定其它杂合位点的连锁相;若以上两个条件不都满足,继续根据第三个位点分别和第一个杂合位点、第二个杂合位点进行判断;满足(4.2.2.2)所述要求的位点,共同确定连锁相,不满足要求的位点被作为纯合位点;第四个i位置,依照此方法,对前面三个点进行验证和对不确定相位的j位置补缺;
对于该四个杂合位点,相位1对应的j位置组成数组j(phase1),相位2对应的j位置组成数组j(phase2)。以相位1对应的基因型的深度为Dep(phase1),以相位2对应的基因型的深度为Dep(phase2),计算杂合基因型的比例Rh:
Rh=Dep(phase1)/[Dep(phase1)+Dep(phase2)];
(4.2.3)确定纯合位点与杂合位点;
对于每个i位置,满足以下任意一种情况,则为杂合位点:
①Dep(x1)对应的碱基j位置至少80%属于数组j(phase1),Dep(x2)对应的碱基j位置至少80%属于数组j(phase2);
②Dep(x1)对应的碱基j位置至少80%属于数组j(phase2),Dep(x2)对应的碱基j位置至少80%属于数组j(phase1);
否则为纯合位点;
根据矩阵中杂合位点j位置的连锁相的判断,对纯合、杂合位点再次验证调整;初步确定该扩增子或基因为纯合单体型还是杂合二倍型;
(4.2.4)碱基矫正
对于纯合位点,该i位置调整y=Dep(x2);当Dep(x)<=y,则该处ij坐标的碱基被矫正为最大深度Dep(x1)的碱基类型;
对于杂合位点,该i位置调整y=Dep(x3);当Dep(x)<=y,则该处ij坐标将根据其连锁相,从而决定该处ij坐标的碱基被矫正为最大深度Dep(x1)的碱基或第二大深度Dep(x2)的碱基;
(4.2.5)输出后验矩阵
(5)分相得到单体型序列
对矫正后的矩阵进行序列读取;
根据(4.2.3)确定的确定该扩增子为纯合单体型或杂合二倍型,若为纯合单体型,输出最大深度的一条单体型序列;否则根据(4.2.3)确定的每个j位置的连锁相,对校正后的序列按照相位1和相位2归类;输出最大深度的两条单体型序列,以两条单体型序列深度为单位,和对应(4.2.2.2)中的Dep(phase1)、Dep(phase2)进行卡方检验,确定该扩增子为纯合单体型或杂合二倍型,输出一致性序列;
(6)分型判断
(6.1)根据比对位置,确定单体型序列的每个外显子编号及对应的碱基序列;对于每条单体型序列,根据外显子匹配度输出完全匹配结果result1,否则输出最佳匹配的6位分型结果result1,同时打印该基因突变或gap处的位置和突变类型,并标记为新的型别,作为result1;
(6.2)进一步对单体型全长匹配打分
若IPD-IMGT/HLA数据库中基因全长序列文件hla_gen.fasta,有result1的分型,则将单体型中内含子的序列,与数据库中的参考序列进行匹配打分;
给出最佳8位分型结果result2,若突变则同时打印该基因突变或gap处的位置和突变类型,并标记为新的型别result2。
根据本发明的实施方式,上述步骤(4.1)中所述深度Dep(x)表示如下:
匹配:Num(,)+Num(.)=Dep(match)
不匹配:Num(*)=Dep(*)
断开无匹配:Num()=Dep(space)
A突变或插入:Num(A)=Dep(A)
T突变或插入:Num(T)=Dep(T)
C突变或插入:Num(C)=Dep(C)
G突变或插入:Num(G)=Dep(G)
x的类型和samtools tview的输出结果类型一致,Dep(match)表示矩阵中该位点测序序列和参考基因组匹配的深度,分别包括反向匹配和正向匹配,Num(,)表示矩阵中该位点反向匹配的数量,Num(.)表示矩阵中该位点正向匹配的数量;Dep(*)表示矩阵中测序序列及参考序列间该位点无匹配的深度,Num(*)表示不匹配的数量;Dep(space)表示矩阵中该位点没有序列覆盖的深度,Num()表示矩阵中该位点空格的数量;Dep(A)、Dep(T)、Dep(C)、Dep(G)分别表示A、T、C、G突变或插入的深度。
上述步骤(1)中所述HLA基因可为HLA-A、HLA-B、HLA-C、HLA-DRB1、HLA-DQB1或HLA-DPB1中的任意一种或几种。
根据本发明的实施方式,扩增HLA-A所用的引物序列如SEQ ID No:1~2所示,扩增HLA-B所用的引物如SEQ ID No:3~4所示,扩增HLA-C所用的引物如SEQ ID No:5~6所示,扩增HLA-DRB1所用的引物序列如SEQ ID No:7~10所示,扩增HLA-DQB1所用的引物序列如SEQ ID No:11~12所示,扩增HLA-DPB1所用的引物序列如SEQ ID No:13~16所示。
上述HLA基因可来自单个样品。
上述HLA基因可来自多个样品,HLA基因的引物的5’端加有用于区分样品的Barcode(条形码)序列。
根据本发明的实施方式,上述Barcode序列可为如SEQ ID No:17~28所示的序列。
根据本发明的实施方式,其中步骤(3)中所述长序列比对为长序列Blasr比对。
根据本发明的实施方式,上述步骤(2)中可对原始数据进行css矫正,随后步骤(3)中用css矫正后的数据与所述参考基因序列进行长序列Blasr比对。
根据本发明的实施方式,上述css矫正所用软件为smrtlink v5.0软件包中的ccs软件。
在本发明中,三代测序平台可以是但不限于PacBio Sequel、Nonopore或pacbioRSII。
有益效果
近年来随着测序技术的发展,越来越多的HLA基因被命名。二代测序易造成错误比对,很难跨越重复序列,并且由于PCR造成的GC偏好往往导致GC富集区域的错误覆盖,影响变异检测的准确性。
三代在检测HLA基因多样性的优势:准确、快速、长读长。实现无插补等位基因分离,检测5'UTR内含子和3'UTR内调节区的变体,真正的揭示了HLA等位基因多样性。
然而三代测序具有较高的错误率,若直接用来分型;会造成由于错误率引入的SNV/InDel和真正的SNV/InDel区分不开。本发明根据三代错误率特点,有效的矫正了错误的SNV/InDel,确保了分型的准确性。可视化的错误纠正。对HLA分相、分型更清晰。
应用本发明所描述的方法对HLA进行分型,可占用较小的内存,高速、批量的完成HLA分型。
实施例1
30例样品的6个HLA基因(HLAI类(HLA-A、HLA-B、HLA-C)和HLAII类(HLA-DRB1、HLA-DPB1、HLA-DQB1))加Barcode进行混样上机测序并分型,实验步骤如下:
1、样品制备和扩增
1.1试剂准备
1.1.1引物设计
由8个扩增子富集HLA-A,B,C,DRB1,DQB1,DPB1六个HLA基因(其中DRB1,DPB1分开两段进行扩增)的5’UTR和3’UTR区域设计引物,并在引物的5’端加上Barcode序列。Barcode序列是为了区分样品,每个样品针对各个基因加的Barcode一样,但是引物序列不一样。采用Asymmetric Barcode,即上游引物和下游引物使用不同的Barcode。具体编号组合见表1Barcode编号与引物编号组合,其中BC后面的数字代表Barcode编号,A和an代表HLA-A的DNA的扩增子,B和bn代表HLA-B的DNA的扩增子,C和cn代表HLA-C的DNA的扩增子,3-DRB1和rn3代表DRB1的DNA的3’端的扩增子,5-DRB1和rn5代表DRB1的DNA的5’端的扩增子,qn代表DQB1的DNA的扩增子,3-DPB1和pn3代表DPB1的DNA的3’端的扩增子,5-DPB1和pn5代表DPB1的DNA的5’端的扩增子,f代表上游引物,r代表下游引物。引物和Barcode序列见表2。
表1实验Barcode编号与引物编号组合
表2引物和Barcode序列
1.1.2模板DNA
1.1.3 PrimeStar GXL(TAKARA)
1.1.4 PCR水
1.2实验室仪器及耗材准备
1.2.1 Eppendorf移液器(0.5-2.5ul,l-10ul,2-20ul,10-100ul,20-200ul,100-1000ul)及吸头(0.5-10ul,20-200ul,100-1000ul)
1.2.2 1.5mL离心管,0.2mLPCR管,离心管架,96孔PCR管架
1.2.3冰箱(4-℃20,℃)
1.2.4振荡器1台
1.2.5离心管离心机和PCR管离心机各1台
1.2.6 PCR仪
1.2.7酒精喷壶(75%酒精),剪刀,垃圾箱与垃圾袋,吸水纸,镊子,酒精棉球
1.2.8一次性无粉乳胶手套
1.3操作步骤
1.3.1 PCR反应体系配制
按表3配制PCR反应试剂体系。
表3 PCR反应体系表
组分 |
用量ul |
5x Primestar GXL缓冲液 |
4 |
dNTP(每种2.5mM) |
1.6 |
F(10pmol/ul) |
0.8 |
R(10pmol/ul) |
0.8 |
Primestar GXL |
0.4 |
模板DNA |
10ng |
水 |
至20ul |
1.3.2 PCR反应程序
按表4的PCR反应程序进行。
表4 PCR反应程序表
1.3.3扩增片段电泳检测
1%琼脂糖凝胶电泳检测扩增片段。5-DRB1可能出现两条带或一条带,其它扩增子都应产生单一条带。
1.3.4纯化PCR产物
1.3.4.1在96孔PCR板上,每个孔中加入8ul XP磁珠。
1.3.4.2吸取10ul PCR产物,加入相应的已加入磁珠的孔中,并小心吹吸混匀。
1.3.1.3室温结合5分钟后,将96孔板放在96孔磁力架上静置2分钟,吸出上清丢弃。
1.3.4.4每个孔中加入新鲜配制的70%乙醇200ul,清洗磁珠30秒,在磁力架上吸出70%乙醇丢弃。重复本步骤一次。
1.3.4.5取下96孔板,室温晾干残留的乙醇。
1.3.4.6每个孔加入8ul水或EB缓冲液,吹吸混匀磁珠,洗脱5分钟。
1.3.4.7将96孔板放回磁力架上,吸附2分钟。
1.3.4.8吸取上清至新的96孔板。
1.3.4.9 nanodrop测浓度,根据附表5计算摩尔浓度。
表5摩尔浓度计算公式表
1.3.5混合纯化后的PCR产物
1.3.5.1根据表6的比例,混合每个样品所得到的8个PCR产物(其中DRB1与DPB1两个基因分别分为两段扩增)。
表6 PCR产物混合比例表
扩增子名称 |
比例% |
A |
6% |
B |
6% |
C |
6% |
5-DRB1(包含1号外显子) |
10% |
4-DRB1(包含2,3,4号外显子) |
26% |
DQB1 |
26% |
5-DPB1(包含1,2号外显子) |
10% |
4-DPB1(包含3,4,5号外显子) |
10% |
表6的上样量,是根据基因长度和基因特异性、基因扩增效率等综合因素,在多次实践摸索中得到的结果,在充分考虑了上述因素后,以扩增子ABC(3K左右)为基数,其余较长的片段增加为1.5-4倍,其比例按照长度增加而相应增加;5-DRB1由于其扩增特异性及扩增难度,亦上调上样量至基数的1.5倍。
本次实验胶图部分如图1所示,图1中,“RN3”代表DRB1的DNA的3’端的扩增子;“RN5”代表DRB1的DNA的5’端的扩增子;“QN”代表DQB1的DNA的扩增子;“PN3”代表DPB1的DNA的3’端的扩增子;“PN5”代表DPB1的DNA的5’端的扩增子。
1.3.5.2根据样品的数目,芯片的产出,需要的数据量,按需求混合不同的样品,用于三代测序文库构建。
2、三代测序文库构建完成,检测合格后,进行上机测序。
3、对下机数据进行评估,获得5.8G的数据。
4、通过smrtlink v5.0软件包中的bam2bam软件,根据Barcode拆分不同样品,每个样品原始数据通过smrtlink v5.0软件包中的ccs软件进行序列之间的矫正(或不进行)。
5、将ccs矫正后的数据(或下机数据)与参考序列从IPD-IMGT/HLA数据库中每种HLA基因取一条最长序列作为参考序列)进行长序列Blasr比对;
6、比对后采用如下程序批量对每个样品每种基因进行矫正:
6.1、编码原始比对矩阵
ccs经过和参考序列的比对,每个样品的每个基因均组成了由碱基构成的特有矩阵;使用samtools软件,输出文本格式的碱基与参考基因序列的比对矩阵。以参考基因的位置为横坐标、以i表示,以深度为纵坐标、以j表示;
根据三代错误率的规律,设置初始阈值y(y表示默认的错误率10%,即测序错误/占总深度的比例);
每个i位置的碱基纵向的总深度为Dep_total[i];
统计每个i位置对应的所有j位置x的数量Num(x),并按如下表示x对应的深度Dep(x):
匹配:Num(,)+Num(.)=Dep(match)
不匹配:Num(*)=Dep(delition)
断开无匹配:Num()=Dep(space)
A突变或插入:Num(A)=Dep(A)
T突变或插入:Num(T)=Dep(T)
C突变或插入:Num(C)=Dep(C)
G突变或插入:Num(G)=Dep(G)
6.2、纯合、杂合位点的可视化矫正
6.2.1、设置初始错误率阈值y(10%)
6.2.2、确定扩增子杂合等位型j位置及比例;
(4.2.2)确定扩增子杂合等位型j位置及比例;
对于每个i位置,当Dep(x)>y,使用Dep(x1)代表最大深度碱基类型的深度,仅次于Dep(x1)的深度,用Dep(x2)表示,若有第三大碱基类型的深度,为Dep(x3);
对整个扩增子的杂合比例进行计算,当Dep(x2)/(Dep(x1)+Dep(x2))<20%时,假设其为纯合子;当Dep(x2)/(Dep(x1)+Dep(x2))>=20%时,假设其为杂合二倍型别,选取SNV等位型杂合比最接近0.5的四个点,该四个点或n个点依照以下规则选取:
以δi衡量SNV等位型杂合比与0.5的接近程度,
δi=(Dep(x1)/Dep_total[i]-0.5)2+(Dep(x2)/Dep_total[i]-0.5)2;选取δi最小的四个i位置;
且该四个位置前后两个位置的Dep(*)小于总深度的20%,否则继续根据δi筛选;
根据该四个i位置确定矩阵中每个j位置的连锁相:
6.2.2.1、对于矩阵中该四个杂合位点,第一个杂合位点i位置最大深度Dep(x1)的碱基类型对应的矩阵的j位置为相位1,第二大深度Dep(x2)的碱基类型对应的矩阵的j位置为相位2,确定第一个杂合位点的不需要矫正的j坐标的相位;
6.2.2.2、第二个杂合位点的相位根据第一个杂合位点的每一个j坐标的相位情况确定:
若相位1对应的碱基类型有80%为该i位置的最大深度Dep(x1)的碱基类型,且相位2对应的碱基类型有80%为该i位置的第二大深度Dep(x2)的碱基类型,则最大深度Dep(x1)的碱基类型对应的矩阵的j位置为相位1,第二大深度Dep(x2)的碱基类型对应的矩阵的j位置为相位2;
若相位1对应的碱基类型有80%为该i位置的最大深度Dep(x2)的碱基类型,且相位2对应的碱基类型有80%为该i位置的最大深度Dep(x1)的碱基类型,则第二大深度Dep(x2)的碱基类型对应的矩阵的j位置为相位1,最大深度Dep(x1)的碱基类型对应的矩阵的j位置为相位2;
若满足以上两个条件,则根据该方法确定其它杂合位点的连锁相;若以上两个条件不都满足,继续根据第三个位点分别和第一个杂合位点、第二个杂合位点进行判断;满足(6.2.2.2)所述要求的位点,共同确定连锁相,不满足要求的位点被作为纯合位点;第四个i位置,依照此方法,对前面三个点进行验证和对不确定相位的j位置补缺。
对于该四个杂合位点,相位1对应的j位置组成数组j(phase1),相位2对应的j位置组成数组j(phase2)。以相位1对应的基因型的深度为Dep(phase1),以相位2对应的基因型的深度为Dep(phase2),计算杂合基因型的比例Rh:
Rh=Dep(phase1)/[Dep(phase1)+Dep(phase2)];
6.2.3、确定纯合位点与杂合位点;
对于每个i位置,满足以下任意一种情况,则为杂合位点:
①Dep(x1)对应的碱基j位置至少80%属于数组j(phase1),Dep(x2)对应的碱基j位置至少80%属于数组j(phase2);
②Dep(x1)对应的碱基j位置至少80%属于数组j(phase2),Dep(x2)对应的碱基j位置至少80%属于数组j(phase1);
否则为纯合位点;
根据矩阵中杂合位点j位置的连锁相的判断,对纯合、杂合位点再次验证调整;初步确定该扩增子或基因为纯合单体型还是杂合二倍型;
6.2.4、碱基矫正
对于纯合位点,该i位置调整y=Dep(x2);当Dep(x)<=y,则该处ij坐标的碱基被矫正为最大深度Dep(x1)的碱基类型;
对于杂合位点,该i位置调整y=Dep(x3);当Dep(x)<=y,则该处ij坐标将根据其连锁相,从而决定该处ij坐标的碱基被矫正为最大深度Dep(x1)的碱基或第二大深度Dep(x2)的碱基;
6.2.5、输出后验矩阵
矫正后的矩阵,呈现无杂点,具有明显的一致性。
7、分相(phasing)得到单体型序列
对矫正后的矩阵进行序列读取;
根据(6.2.3)确定的确定该扩增子为纯合单体型或杂合二倍型,并根据(6.2.3)确定的每个j位置的连锁相,对校正后的序列按照相位1和相位2归类;
根据(6.2.3.3)确定的确定该扩增子为纯合单体型或杂合二倍型,若为纯合单体型,输出最大深度的一条单体型序列;否则根据(6.2.3.3)确定的每个j位置的连锁相,对校正后的序列按照相位1和相位2归类;输出最大深度的两条单体型序列,以两条单体型序列深度为单位,和对应(6.2.2.2)中的Dep(phase1)、Dep(phase2)进行卡方检验,确定该扩增子为纯合单体型或杂合二倍型,输出一致性序列;
8、分型判断
8.1对分相后的单体型序列加刻度,同时对参考序列(IPD-IMGT/HLA数据库中每个型别的全套外显子序列文件hla_nuc.fasta)加刻度。
每个外显子用exon表示,每个内含子用intron表示;每个外显子/或内含子的碱基位置用k表示。此时,同种基因的刻度相同。
8.2分相后的单体型序列和参考序列进行匹配打分。
①优先对单体型中外显子刻度的序列进行匹配打分
对扩增子的所有外显子的碱基打分,基因的第2个外显子发生突变或gap均减3分,第3、4号外显子发生突变或gap(空位)均减2分;其他外显子突变或gap均减1分,匹配加1分;
对于每条单体型序列,给出最高得分为最佳6位分型result1,若无扣分,则与数据库的分型完全匹配;否则同时打印该基因突变或gap处的刻度和突变类型,并标记为新的型别,作为result1。例如:新:A*11:01:01:01:外显子3,7bp.A-T表示该单体型和A*11:01:01:01基因最相似,在第三个外显子的第7个碱基处发生了A-T的突变。
②进一步对单体型全长匹配打分
若IPD-IMGT/HLA数据库中基因全长序列文件hla_gen.fasta,有result1的分型,则将单体型中内含子的序列,与数据库中的参考序列进行匹配打分;
给出最佳8位分型结果result2,若突变则同时打印该基因突变或gap处的位置和突变类型,并标记为新的型别result2。
所有同刻度下错配或gap均减1分,匹配加1分;
对于每条单体型序列,若内含子减分次数小于3次,给出最高得分为最佳8位分型result2,同时打印该基因突变或gap处的刻度和突变类型,并标记为新的型别result2;否则保留result1。
9、分型结果
在三十个样品的分型中,我们将本发明得到的6位的分型结果和一代测序检测的4位分辨率的分型结果进行了比对,准确率达到100%,结果如表7所示(表7中从左到右第一列为样品编号,第二列为一代分型结果,第三列为三代分型结果)。
表7本发明的分型方法与一代测序分型方法结果比对
尽管本发明的具体实施方式已经得到详细的描述,本领域技术人员将会理解。根据已经公开的所有教导,可以对那些细节进行各种修改和替换,这些改变均在本发明的保护范围之内。本发明的全部范围由所附权利要求及其任何等同物给出。
序列表
<110> 北京希望组生物科技有限公司
<120> 一种基于三代测序平台的HLA基因分型方法
<160> 28
<170> SIPOSequenceListing 1.0
<210> 1
<211> 20
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 1
tgtcgggttt ccagagaagc 20
<210> 2
<211> 20
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 2
gtgggaagag ggtcatggtg 20
<210> 3
<211> 19
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 3
acgcacccac ccggactca 19
<210> 4
<211> 20
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 4
acaaagggga ggmgtgaaga 20
<210> 5
<211> 19
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 5
cgtccccaat tcccactcc 19
<210> 6
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 6
aggctcttga agtcacaaag ga 22
<210> 7
<211> 26
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 7
tcagatgctg attsgttctc caacac 26
<210> 8
<211> 24
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 8
tccaatcccc acagagtagc taga 24
<210> 9
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 9
ggccatcrct ttcactgctc tt 22
<210> 10
<211> 24
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 10
ctgyaggcca caagctatta tgct 24
<210> 11
<211> 24
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 11
tgacagcaat tttctctccc ctga 24
<210> 12
<211> 21
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 12
ygtgacagcc actgtaggac t 21
<210> 13
<211> 20
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 13
actctgtcca atcccagggt 20
<210> 14
<211> 20
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 14
cccctgacaa gctccagatg 20
<210> 15
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 15
ggtactggtg gcagagatcc aa 22
<210> 16
<211> 25
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 16
gggtcctatc aggcagattt gcagt 25
<210> 17
<211> 16
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 17
catagcgact atcgtg 16
<210> 18
<211> 16
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 18
catcactacg ctagat 16
<210> 19
<211> 16
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 19
cgcatctgtg catgca 16
<210> 20
<211> 16
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 20
tatgtgatcg tctctc 16
<210> 21
<211> 16
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 21
gtacacgctg tgacta 16
<210> 22
<211> 16
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 22
cgtgtcgcgc atatct 16
<210> 23
<211> 16
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 23
tatgcatgac tgatat 16
<210> 24
<211> 16
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 24
cgagactgtc gatctc 16
<210> 25
<211> 16
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 25
cgcgcgtgtg tgcgtg 16
<210> 26
<211> 16
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 26
cacacgcgcg tgctcg 16
<210> 27
<211> 16
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 27
atctgtgcga gactac 16
<210> 28
<211> 16
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 28
acgcgcacag agtctc 16