CN110853708B - 用于hla分型的核酸捕获探针的设计方法 - Google Patents
用于hla分型的核酸捕获探针的设计方法 Download PDFInfo
- Publication number
- CN110853708B CN110853708B CN201911104909.0A CN201911104909A CN110853708B CN 110853708 B CN110853708 B CN 110853708B CN 201911104909 A CN201911104909 A CN 201911104909A CN 110853708 B CN110853708 B CN 110853708B
- Authority
- CN
- China
- Prior art keywords
- hla
- artificial sequence
- probe
- dna
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/20—Polymerase chain reaction [PCR]; Primer or probe design; Probe optimisation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
Abstract
本发明公开了一种用于HLA分型的核酸捕获探针的设计方法,步骤包括:1)构建HLA‑A、HLA‑B、HLA‑C序列库;2)多重序列比对,查找每种基因Exon2、Exon3上的及上下游的SNP位点;3)用滑窗分隔算法,挑取覆盖设定数目SNP位点的区域作为探针设计候选区域;4)聚类分析得到每个探针设计候选区域的代表性序列作为候选探针;5)对所有候选探针去重复,获得三种基因各自的捕获探针。本发明还公开了用上述方法设计的探针,其序列如SEQ ID NO:9~88所示。本发明针对HLA基因中GC比例60%以上的Exon2、Exon3区域的所有多态性位点设计核酸捕获探针,提高了HLA基因探针杂交捕获的效果。
Description
技术领域
本发明涉及基因测序领域,特别是涉及探针的设计,更具体的说,是涉及用于HLA分型的核酸捕获探针及其设计方法。
背景技术
高通量测序又称下一代测序,近年来,随着高通量测序技术的进步,测序成本不断下降,测序服务对象和应用细分领域不断拓展,高通量测序的市场规模不断增大。伴随政策利好条件,高通量测序技术在生育健康和肿瘤个性化医疗中的临床应用进入快车道,应用前景广阔。
NGS(二代基因测序)检测技术灵敏度远高于目前传统检测技术,可以检出0.03%的点突变以及0.1%以下的ALK融合,并可以进行DNA、RNA多层面检测以确保检测准确性。
要对基因组序列进行测序,为了降低成本,常常需设计具有一定诊断价值的基因panel,对panel中的靶基因进行富集的常用方法是多重PCR和探针杂交捕获。多重PCR是指用多个DNA片段作为模板,多对引物混合在一个同一反应体系中,同时对多个靶向区域进行扩增的技术。该技术需要设计引物,引物需要具有很高的特异性,同时要注意避免引物之间的二聚体的产生,扩增反应温度也需要严格控制。最终能够扩增的DNA片段长度大多在50bp到2.5kb之间。
杂交捕获需要针对感兴趣的基因组区域设计特异性探针,利用核酸分子碱基互补杂交原理,将其与基因组DNA进行杂交,富集目标基因组区域的DNA片段,然后打断基因组DNA,加上测序接头后,与探针杂交,将基因组DNA目标区域捕获下来,回收目标DNA片段,直接构建高通量测序文库。衡量捕获和测序效果的主要参数是测序深度、目标区域的覆盖度、0.2X均一性以及GC bias(GC偏好)。
目前国内外有关公司已经针对基因检测的各个应用领域开发了一些探针杂交捕获技术。安捷伦SureSelect技术分为固相捕获和靶向序列液相捕获,其中AgilentSureSelect靶向序列捕获技术是一种溶液型杂交捕获技术,该技术由Agilent公司与麻省理工学院-哈佛大学博德研究所共同开发,研究成果随后刊登在《自然生物技术》上。该技术使研究人员能够通过安捷伦网站在线设计RNA探针,将测序范围缩小到感兴趣的基因组区域。主要步骤是将采用的探针和片段化DNA在杂交缓冲液中进行杂交;然后使用Dynal磁珠捕获杂交的目的DNA片段并分离纯化,除去未结合的DNA片段并消化RNA;接着再PCR扩增捕获到的DNA片段并纯化PCR产物;最后用捕获得到的样本构建文库并进行测序分析。罗氏Nimblegen捕获探针为固相捕获,其产品载体是结合了多个捕获探针的芯片,捕获能力与安捷伦固相捕获相当。罗氏的SeqCap EZ则是液相捕获技术,能够捕获全外显子、靶向区域以及重亚硫酸盐处理的DNA或RNA。IDT捕获探针xGenTM LockdownTM,在降低成本的基础上测序质量还能高过固相捕获。艾德针对靶向区域设计了一种双向探针,长度在30-89bp,主要用于富集跟肿瘤密切相关的基因突变区域,这些区域的特异性都很高,只有一种野生型和几种突变型。
影响探针捕获效果的主要因素是序列特异性和磁珠的质量,在探针的3’端连接有生物素,可以被磁珠吸附,通常DNA的3'末端被标记后不会干扰杂交反应,也不会干扰基于序列特异性蛋白结合的EMSA检测。杂交捕获只有两种方法:直接捕获和间接捕获。在直接捕获过程中,双链PCR产物被固定于磁珠上,这些双链可以轻松转换为单链磁珠结合模板,然后用于直接从溶液中捕获特异的RNA或DNA分子。间接捕获方法有时具有更快的反应动力学,这种间接捕获过程先捕获靶点序列,然后将其固定于磁珠上。 首先,将生物素化的捕获序列 (单链DNA) 与样本一起孵育,与溶液中的RNA或DNA靶分子杂交。影响捕获的因素还包括GC和温度,在NGS杂交洗脱操作中即使温度发生了轻微改变,如±2 ℃,都可能会对Flanking区域的中靶率以及GC bias产生影响。略高的洗脱温度,会导致对GC区域捕获的损失;略低的洗脱温度,会导致非特异性捕获增加,中靶率下降。
HLA是一种位于细胞表面的糖蛋白,主要负责调控人类的免疫系统,编码HLA的蛋白亚基的基因位于6号染色体(6p21.3-22.2),是包含200多个基因的基因家族,其中HLAClass I主要功能是将内源性抗原肽递呈给细胞毒性T淋巴细胞(CTLs),诱导机体产生特异的免疫应答。Ⅰ类分子表达于所有有核细胞表面,主要包括经典的HLA-A、HLA-B、HLA-C三类基因,HLA是人类基因组上多态性最高的基因家族,所以要设计能够覆盖各种基因型的HLA的杂交探针也需要具有足够的多态性和容错率;同时杂交捕获也受反应温度、探针GC含量的影响,所以设计一组在一定温度范围内具有较高的捕获效率的探针十分重要。HLA-A编码的alpha亚基多数为365个氨基酸,由于HLA基因本身的多态性,也有部分为320-380个氨基酸不等,HLA-B和HLA-C的alpha亚基与HLA-A大小类似,SNP多态性最高的区域主要在Exon2和Exon3上。
目前,针对HLA基因,主要有以下几种杂交捕获探针。霍夫曼拉罗奇公司(Hoffmann-La Roche Ltd)的SeqCap EZ设计的单向探针,覆盖的基因区域主要是全外显子(参见SeqCap EZ HyperCap Workflow User’s Guide,http://netdocs.roche.com/DDM/Effective/RSS_SeqCap_EZ_HyperCap_UGuide_v2.3.pdf)。文献PMID19182786(Gnirke A1,Melnikov A et al.Solution hybrid selection with ultra-long oligonucleotidesfor massively parallel targeted sequencing. Nat Biotechnol.2009 Feb;27(2):182-9. doi: 10.1038/nbt.1523.)所述的探针为170bp,靶向>15,000 的编码外显子 (大小为2.5 Mb) 和四个其它区域 (总共1.7 Mb) 。艾德设计的双链探针在突变位点改用无碱基基团,正义链和反义链有50%的重叠区域(文献PMID19835619: Tewhey R1, Nakano M etal. Enrichment of sequencing targets from the human genome by solutionhybridization. Genome Biol. 2009;10(10):R116. doi: 10.1186/gb-2009-10-10-r116.采用了1X、1.5X、2X或4X tiling)。文献PMID 15063067(Letowski J1, Brousseau R,Masson L. Designing better probes: effect of probe size, mismatch positionand number on hybridization in DNA oligonucleotide microarrays. J MicrobiolMethods. 2004 May;57(2):269-78.)针对30-100bp的目标区域设计了90% identity的探针进行杂交测试,在GC含量为56%的目标区域,杂交信号损失为0-71%,且GC比例越高,信号损失越少。文献PMID15722479(Karaman MW1, Groshen S et al. Comparisons ofsubstitution,insertion and deletion probes for resequencing and mutationalanalysis using oligonucleotide microarrays. Nucleic Acids Res. 2005 Feb 18;33(3):e33.)设计的含有碱基缺失的探针比mismatch的探针的杂交特异性更好,但是这个实验主要针对的是单一的基因,单一的突变位点。
由于HLA基因高度的多态性,需要对探针做针对性的优化。目前全外显子中的探针能够捕获到的HLA基因亚型有限,本身HLA I型基因的A、B、C均有相似的Exon,同时又包含较多的SNP位点,在设计探针时都需要考虑。另外小片段的INDEL在已有的技术中也未考虑到,HLA基因Exon2和Exon3区域的GC比例均在60%以上,与人类基因组上其它区域差异较大,现有技术并未因为这种差异有实验上的优化。
发明内容
本发明要解决的技术问题之一是提供一种用于HLA分型的核酸捕获探针的设计方法,用该方法设计的核酸捕获探针可以有效地捕获HLA I类基因(包含HLA-A、HLA-B、HLA-C)的高可变区和低可变区。
为解决上述技术问题,本发明的用于HLA分型的核酸捕获探针的设计方法,包括以下步骤:
1)根据HLA基因各种亚型的全长,分别构建HLA-A、HLA-B、HLA-C基因的序列库;
2)进行多重序列比对,查找HLA-A、HLA-B、HLA-C基因的Exon2和Exon3上的以及上、下游的SNP位点;
3)采用滑窗分隔算法,将覆盖所有SNP位点的连续区域分隔为多个长度相等的区域,挑取覆盖设定数目SNP位点的区域作为探针设计候选区域,截取多重序列比对结果在该探针设计候选区域内的序列;
4)利用聚类算法,分析得到HLA-A、HLA-B、HLA-C基因每个探针设计候选区域的多个代表性序列,作为候选探针;
5)对所有候选探针进行去重复,去除HLA-A、HLA-B、HLA-C基因各自的候选探针之间的相同序列,获得HLA-A、HLA-B、HLA-C各自的捕获探针。
所述步骤2)可以采用来源于bioconductor的R包的DECIPHER(参考文献doi:10.1186/s12859-015-0749-z)进行多重序列比对,构建Mutiple Sequence Alignment(MSA)比对文件,从所述比对文件中查找每种基因的Exon2和Exon3上的以及上、下游(优选为100bp以内)的SNP位点,挑选SNP/INDEL密度极高(每100bp有14~30个SNPs)且次等位基因频率超过0.1的SNP位点作为主要SNP位点。
所述步骤3)优选为将覆盖所有SNP位点的连续区域分隔为多个120bp的区域,挑取SNP位点数大于10的120bp区域作为探针设计候选区域,截取多重比对结果在该探针设计候选区域内的序列。本发明的分隔算法使每个Exon的区域为多个120bp构成,相互可以有重叠,但确保所选探针为最少。
所述步骤4),可以采用uclust聚类算法(http://drive5.com/usearch/manual/uclust_algo.html),聚类分析设置的序列间identity(相似度)的最小值优选为95%。每个区域内的探针与所有已知HLA-A、HLA-B、HLA-C上Exon2和Exon3相应区域的identity均大于95%,可以尽可能覆盖更多的HLA Class I的基因亚型,从而提高捕获效果。
本发明要解决的技术问题之二是提供一组用上述方法设计的可用于HLA分型的核酸捕获探针,该组可用于HLA分型的核酸捕获探针具有如SEQ ID NO:9~88所示的序列。
本发明要解决的技术问题之三是提供上述序列如SEQ ID NO:9~88所示的探针组的用途,该组探针可用于捕获HLA基因。
本发明要解决的技术问题之四是提供一种用于HLA分型的核酸捕获试剂盒,该试剂盒包含有上述可用于HLA分型的核酸捕获探针。
本发明针对HLA基因中GC比例均在60%以上的Exon2、Exon3区域的所有多态性位点设计核酸捕获探针,并在探针设计时考虑了小片段的INDEL,如此提高了HLA基因探针杂交捕获的效果,可用于高效捕获HLA基因的高可变区和低可变区。
附图说明
图1是在HLA-A exon2所属区域的四段候选探针区域的SNP分布情况,从左到右依次为区域1、区域2、区域3、区域4。
图2是在图1的HLA-A exon2 区域3设计的多种可能的探针,底部黑色标记为出现SNP的位点。
图3是实施例2中,用本发明实施例1设计的探针进行HLA基因的杂交捕获测序,所得HLA-A、HLA-B、HLA-C基因的Exon2和Exon3的测序平均深度。
图4是实施例2中,用本发明实施例1设计的探针进行HLA基因的杂交捕获测序,HLA-A、HLA-B、HLA-C基因的捕获均一性。
具体实施方式
为对本发明的技术内容、特点与功效有更具体的了解,现结合附图及具体实施例,对本发明的技术方案做进一步详细的说明。
实施例1 用于HLA分型的核酸捕获探针的设计
1)根据已知的HLA基因各种亚型的全长(HLA的基因长度大部分为3503bp),分别构建HLA-A、HLA-B、HLA-C三种HLA基因的序列库。
2)用DECIPHER(来源于bioconductor的R包)进行多重序列比对,查找HLA-A、HLA-B、HLA-C基因的Exon2和Exon3上的以及其上、下游100bp以内的主要SNP位点。
以HLA-A基因的Exon2为例,具体比对步骤如下:
①加载DECIPHER包——library(DECIPHER);
②使用readDNAStringSet读取HLA-A的fasta文件——hla_A.fa;
③使用AlignSeqs函数对读取的序列进行比对;
④使用writeXStringSet将比对后的DNA序列写入到新的fasta文件,新的fasta文件即MSA的结果。
比对后得到长度为3661的Mutiple Sequence Alignment(MSA)比对文件。在该MSA比对文件中,第502个碱基到第882碱基为HLA-A基因的Exon2所在区域,且SNP/INDEL密度极高,大约为209/378个。挑选次等位基因频率(Minor Allele frequency)大于0.1的SNP位点作为HLA-A基因的Exon2的主要SNP位点。
以同样的方法,查找每种HLA基因的Exon2和Exon3上的以及其上、下游100bp以内的SNP位点。
3)将覆盖所有SNP位点的连续区域分隔为多个120bp的候选区域进行探针设计,对于SNP位点数大于10的120bp区段,截取多重比对结果在该区域内的序列。
以HLA-A的Exon2为例,将HLA-A Exon2及其上、下游100bp以内的区域分隔为4个120bp的候选区域:505-625、591-711、677-797、763-883,如图1所示,分别命名为区域1、区域2、区域3、区域4,在这四个区域中,SNP位点数分别为8、3、23、19。其中,区域3和区域4的SNP位点数大于10,因此截取多重比对结果在该区域3和区域4内的序列。
4)使用Uclust聚类算法,设置序列间identity为95%,进行聚类分析,得到每种HLA基因每个候选区域的多个代表性序列,作为候选探针。
Uclust读取的文件为fasta格式,该软件先将fasta转为uc格式文件,然后根据用id 参数自定义聚类结果中各序列之间的相似度,最终的结果也为fasta格式,其中包含了最终两两之间相似度大于95%的各个序列,即为探针序列。
以HLA-A Exon2的区域3为例,设计以95% identity进行聚类,通过聚类分析,得到8条代表性序列(如图2所示,图中最下方竖线表示在该位置存在SNP),可以覆盖HLA-A基因Exon2的区域3最多的可能,同时所需的探针数目也不多,成本较低。在HLA-A Exon2的区域3中的探针ID和序列及其所属的HLA基因型源序列名称如下:
>0|*|hla_a_68_18n
GGATGGAGCCGCGGGCGCCGTGGATAGAGCAGGAGGGGCCGGAGTATTGGGACCGGAACACACGGAATGTGAAGGCCCAGTCACAGACTGACCGAGTGGACCTGGGGACCCTGCGCGGCT(SEQ ID NO:1)
>1|*|hla_a_24_89
GGGCGCCGTGGATAGAGCAGGAGGGGCCGGAGTATTGGGACGGGGAGACACGGAAAGTGAAGGCCCACTCACAGACTCACCGAGTGGACCTGGGGACCCTGCGCGGCT(SEQ ID NO:2)
>2|*|hla_a_24_90n
GGGCGCCGTGGATAGAGCAGGAGGGGCCGGAGTATTGGGACGAGGAGACAGGGAAAGTGAAGGCCCACTCACAGACTGACCGAGAGAACCTGCGGATCGCGCTCCGCT(SEQ ID NO:3)
>3|*|hla_a_25_01_01
GGGCGCCGTGGATAGAGCAGGAGGGGCCGGAGTATTGGGACCGGAACACACGGAATGTGAAGGCCCACTCACAGACTGACCGAGAGAGCCTGCGGATCGCGCTCCGCT(SEQ ID NO:4)
>4|*|hla_a_29_01_01_01
GGGCACCGTGGATAGAGCAGGAGGGGCCGGAGTATTGGGACCTGCAGACACGGAATGTGAAGGCCCAGTCACAGACTGACCGAGCGAACCTGGGGACCCTGCGCGGCT(SEQ ID NO:5)
>5|*|hla_a_80_01_01_02
GGGCGCCGTGGATAGAGCAGGAGGAGCCGGAGTATTGGGACGAGGAGACACGGAATGTGAAGGCCCACTCACAGACTAACCGAGCGAACCTGGGGACCCTGCGCGGCT(SEQ ID NO:6)
>6|*|hla_a_74_14n
GGGCGCCGTGAATAGAGCAGGAGGGGCCGGAGTATTGGGACCAGGAGACACGGAATGTGAAGGCCCACTCACAGACTGACCGAGTGGACCTGGCGACCCTGCGCGGCT(SEQ ID NO:7)
>7|*|hla_a_30_51
GGGCGCCGTGGATAGAGCAGGAGAGGCCTGAGTATTGGGACCAGGAGACACGGAATGTGAAGGCCCACTCACAGACTGACCGAGAGAACCTGGGGACCCTGCGCGGCT(SEQ ID NO:8)
用同样的方法,最终可以分别得到HLA-A、HLA-B、HLA-C 三种基因各28、42、13条候选探针,总计83条候选探针。
5)对上述步骤4)筛选出来的所有83条探针进行去重复,去除HLA-A、HLA-B、HLA-C基因各自的捕获探针之间的相同序列,得到在HLA-A、HLA-B、HLA-C上的探针序列分别为27、41、12条,即最终得到的HLA-A、HLA-B、HLA-C的Exon2、Exon3的探针总数为80条,每条探针序列的长度在93-121bp之间,通过评估得到GC含量为60%-72%。上述80条探针的序列如表1所示,其中,第1列探针序列ID信息中包含捕获的HLA基因名、外显子名称以及探针编号。
表1 用于HLA基因分型的核酸捕获探针的序列
实施例2 核酸捕获效果验证
对23个正常组织样本进行DNA提取,并采用上述实施例1设计的探针,进行HLA基因的杂交捕获。建库采用Swift公司的建库试剂盒Accel-NGS ® 2S Hyb DNA Library Kit(货号:Cat.No.23024/23096)和2S Set A/B Indexing Kit(货号:Cat.No.26148/26248)。
杂交捕获的操作步骤如下:
1.gDNA打断及纯化
1)按照Qubit浓度取500ng gDNA,加水补至100μl,加入covaris 130μl打断管中,设置程序:50W,20%,200个循环,330s。打断结束后取1μl,用Qsep100全自动核酸蛋白分析系统检测片段分布,主峰150~200bp。
2)将打断产物转移到新的1.5ml离心管中,加入1.4倍体积的AMPure beads磁珠,充分涡旋混匀,室温孵育5 min。
3)将离心管放置在磁力架上,等待3~5 min,直到管内溶液完全澄清,小心移除上清。保持离心管在磁力架上,加入200 μl新鲜配制的80%乙醇,室温孵育30s,小心吸取并丢掉乙醇,不要碰到磁珠。重复本步骤一次(即总共清洗两次)。
4)将离心管从磁力架上取下,离心后置于磁力架上,将剩余的乙醇吸取干净,室温下开盖将磁珠晾干(勿过干)。加入52.5 μl水到离心管中,充分涡旋重悬磁珠,室温下放置2min。将离心管置于磁力架上,待上清澄清后(约2min),取50 μl至200 μl PCR管中。取1μl用Qubit® dsDNA HS Assay Kit定量。
2.Repair Ⅰ及纯化
1)取100ng打断纯化后的gDNA至PCR管中, 用low TE补至40µl,加入13µl LowEDTA TE、6µl W1缓冲液、1µl W2酶,总体积60µl,涡旋混匀,在PCR仪上进行反应。PCR反应条件为:37℃ 10 min。
2)Agencourt® AMPure beads磁珠涡旋混匀,取108μl加入上述反应后的PCR管中,充分涡旋混匀,室温孵育5 min。将PCR管放置在磁力架上,等待3~5 min直到管内溶液完全澄清,小心移除上清。
3)保持PCR管在磁力架上,加入200 μl新鲜配制的80%乙醇,室温孵育30s,小心吸取并丢掉乙醇,不要碰到磁珠。重复本步骤一次(即总共清洗两次)。
4)将PCR管从磁力架上取下,离心后置于磁力架上将剩余的乙醇吸取干净,室温下开盖将磁珠晾干(勿过干)。
3.RepairⅡ及纯化
1)配制以下试剂:30µl Low EDTA TE、5µl G1缓冲液、13µl G2试剂、1µl G3酶、1µlG4酶,总体积50µl,涡旋混匀并短暂离心后加入到上一步的晾干磁珠中,吸打混匀,在PCR仪上进行反应。PCR反应条件为:20℃ 20 min;4℃保持。
2)加82.5µl PEG/NaCl到上述反应后的PCR管中,充分涡旋混匀,室温孵育5 min。将PCR管放置在磁力架上,等待3~5 min直到管内溶液完全澄清,小心移除上清。
3)保持PCR管在磁力架上,加入200µl新鲜配制的80%乙醇,室温孵育30s。小心吸取并丢掉乙醇,不要碰到磁珠。重复本步骤一次(即总共清洗两次)。
4)将PCR管从磁力架上取下,离心后置于磁力架上,将剩余的乙醇吸取干净,室温下开盖将磁珠晾干(勿过干)。
4.接头连接Ⅰ
1)配制以下试剂:20µl Low EDTA TE、3µl Y1缓冲液、2µl Y3酶,总体积25µl,涡旋混匀并短暂离心后加入上一步的晾干磁珠中,加入5µl相应index试剂Y2,吸打混匀,在PCR仪上进行反应。PCR反应条件为:25℃ 15min;4℃保持。
2)加49.5µl PEG/NaCl到上述反应后的PCR管中,充分涡旋混匀,室温孵育5 min。将PCR管放置在磁力架上,等待3~5 min直到管内溶液完全澄清,小心移除上清。
3)保持PCR管在磁力架上,加入200µl新鲜配制的80%乙醇,室温孵育30s。小心吸取并丢掉乙醇,不要碰到磁珠。重复本步骤一次(即总共清洗两次)。
4)将PCR管从磁力架上取下,离心后置于磁力架上,将剩余的乙醇吸取干净,室温下开盖将磁珠晾干(勿过干)。
5.接头连接Ⅱ
1)配制以下试剂:30µl Low EDTA TE、5µl缓冲液B1、2µl B2试剂、9µl B3试剂、1µlB4酶、2µl B5酶、1µl B6酶,总体积50µl,涡旋混匀并短暂离心后,加入上一步的晾干磁珠中,吸打混匀,在PCR仪上进行反应。PCR反应条件为:40℃ 10min;25℃保持。
2)加82.5µl PEG/NaCl到上述反应后的PCR管中,充分涡旋混匀,室温孵育5 min。将PCR管放置在磁力架上,等待3~5 min,直到管内溶液完全澄清,小心移除上清。
3)保持PCR管在磁力架上,加入200µl新鲜配制的80%乙醇,室温孵育30s,小心吸取并丢掉乙醇,不要碰到磁珠。重复本步骤一次(即总共清洗两次)。
4)将PCR管从磁力架上取下,离心后置于磁力架上,将剩余的乙醇吸取干净,室温下开盖将磁珠晾干(勿过干)。
5)加入22.5µl low TE到离心管中,充分涡旋重悬磁珠,室温下放置2 min。置于磁力架上,待上清澄清后(约2min)取20µl至新的PCR管中。
6.文库扩增
1)配制以下反应体系:2×KAPA HiFi HotStart ReadyMix 25µl、R1试剂5µl、接头连接纯化产物20µl,总体积50µl,涡旋混匀并短暂离心后,在PCR仪上进行反应。PCR反应条件如表2所示。
表2 文库扩增PCR反应条件
2)加90μl 涡旋混匀的Agencourt® AMPure beads磁珠到上述反应后的PCR管中,充分涡旋混匀,室温孵育5 min。将PCR管放置在磁力架上,等待3~5 min,直到管内溶液完全澄清,小心移除上清。
3)保持PCR管在磁力架上,加入200µl新鲜配制的80%乙醇,室温孵育至少30s,小心吸取并丢掉乙醇,不要碰到磁珠。重复本步骤一次(即总共清洗两次)。
4)将PCR管从磁力架上取下,离心后置于磁力架上,将剩余的乙醇吸取干净,室温下开盖将磁珠晾干(勿过干)。
5)加入25µl low TE到离心管中,充分涡旋重悬磁珠,室温下放置2 min,置于磁力架上,待上清澄清后(约2min)取23µl至新的PCR管中。
7.文库质检
1)取1µl文库用Qubit® dsDNA HS Assay Kit定量。
2)取1µl 稀释到0.1~1 ng/µl,以MB1-MA2为marker,用Qsep100检测片段大小分布。
3)将质检后的文库置于-20℃保存,用于进行后续的文库杂交。
8.文库杂交
1)在1.5ml低吸附离心管中加入500ng混合文库、5µg Cot-1 DNA、2µl xGenUniversal Blockers-TS Mix,45℃抽干,抽干后的样品可以继续进行探针杂交或者室温放置过夜。
2)探针杂交:向抽干的离心管中加入8.5µl 2×杂交缓冲液、2.7µl杂交缓冲增强剂(Hybridization Buffer Enhancer)、1.8µl H2O,室温放置5~10min,吸打混匀后转到0.2ml PCR管中,置于PCR仪上,95℃ 10min,结束后立即从PCR仪上取下并马上加入4µl探针,涡旋并离心,置于PCR仪上,65℃杂交过夜,热盖温度设为75℃。
9.试剂和磁珠准备
1)试剂准备:按照表3(1个样品)将试剂稀释到1x工作液,可于室温放置最多4周。
表3 探针杂交试剂(1个样品)
1×WashⅠBuffer分装出100µl,和1×Stringent Wash Buffer在使用前于65℃微量恒温仪(heat block)上至少放置2小时。
2)磁珠准备:M270磁珠从4℃冰箱取出,室温平衡30min。涡旋混匀后,取100µl /capture到1.5ml低吸附离心管中(一管最多可以洗600µl),置于磁力架上,直到管内溶液完全澄清,小心移除上清。加入200µl 1×Bead Wash Buffer,吸打混匀,置于磁力架上,直到管内溶液完全澄清,小心移除上清;重复一次,共两次清洗。加入100μl /capture 1×BeadWash Buffer, 吸打混匀后分100µl /capture到0.2ml PCR管中,置于磁力架上,直到管内溶液完全澄清,小心移除上清,立即进行后续的捕获。
10.捕获和清洗
1)转移PCR仪上的杂交产物到上一步的磁珠中,吸打10次混匀,置于PCR仪上65℃45min(热盖温度设为75℃)。每隔12min涡旋3s以重悬磁珠。
2)加100µl 65℃预热的1×WashⅠBuffer到上述PCR管中,涡旋并离心,转移到1.5ml低吸附离心管中,涡旋,置于磁力架上直到管内溶液完全澄清,小心移除上清。
3)加200µl 65℃预热的1×Stringent Wash Buffer,吸打混匀不要有气泡,65℃微量恒温仪上放置5min, 置于磁力架上直到管内溶液完全澄清,小心移除上清。重复本步骤一次。
4)加200µl 室温1×WashⅠ Buffer,涡旋2min, 置于磁力架上直到管内溶液完全澄清,小心移除上清。
5)加200µl 室温1×WashⅡ Buffer,涡旋1min, 置于磁力架上直到管内溶液完全澄清,小心移除上清。
6)加200µl 室温1×WashⅢ Buffer,涡旋30s, 置于磁力架上直到管内溶液完全澄清,小心移除上清。
7)将离心管从磁力架上取下,加入20µl H2O,吸打混匀。
11.文库PCR富集纯化
1)配制以下表4所示反应体系,吸打混匀,保证磁珠均匀分散在溶液中。
表4 文库PCR富集反应体系
在PCR仪上进行反应,反应条件如表5所示。
表5 文库PCR富集反应条件
2)加75µl Agencourt® AMPure beads到上述反应后的PCR管中,充分涡旋混匀,室温孵育5min。将PCR管放置在磁力架上,等待3~5min直到管内溶液完全澄清,小心移除上清。保持PCR管在磁力架上,加入200µl新鲜配制的80%乙醇,室温孵育30s,小心吸取并丢掉乙醇,不要碰到磁珠,重复一次,即总共清洗两次。将PCR管从磁力架上取下,离心后置于磁力架上,将剩余的乙醇吸取干净,室温下开盖将磁珠晾干(勿过干)。加入25µl low TE到离心管中,充分涡旋重悬磁珠,室温下放置2min。置于磁力架上,待上清澄清后(约2min)取23µl至新的离心管中。
12.文库质检
1)取1µl上述富集纯化后的文库,用Qubit® dsDNA HS Assay Kit定量。
2)取1µl 稀释到0.1~1ng/µl,以MB1-MA2为marker,用Qsep100检测片段大小分布。
3)质检后的文库置于-20℃保存,用于NGS测序。
13.NGS测序
进行NGS测序,使用polysolver:v4(https://software.broadinstitute.org/cancer/cga/polysolver)对测序结果进行分型分析,HLA各基因的Exon2和Exon3的测序平均深度(比对方法采用BWA MEM,测序深度统计采用SAMTOOLS 1.9)如图3所示,各HLA基因的Uniformity(均一性)如图4所示,最终获得HLA-A、HLA-B、HLA-C的亚型如表6所示(命名规范参照http://hla.alleles.org/nomenclature/naming.html)。
由图3~图4可以看到,用本发明实施例1设计的探针进行HLA基因的杂交捕获测序,测序深度在700以上,捕获效果较均一,普遍的Uniformity在92%以上。
与现有基于PCR的方法(参见中国发明专利申请CN108531568A、CN108192964A、CN109355367A,中国发明专利CN107937487B)比较,本发明实施例1设计的探针不仅可以同时对HLA-A、HLA-B、HLA-C进行分型,而且能够达到6~8位的分型精度。
表6 测试样本HLA分型结果
上述实施例仅为本发明的较佳实施例,是用来说明本发明的,并非用以限制本发明,因此,凡依本发明申请专利范围所作的均等变化与修饰,均应属于本发明专利涵盖的范围。
序列表
<110> 上海仁东医学检验所有限公司
<120> 用于HLA分型的核酸捕获探针的设计方法
<130> LHJ-NP-19-100472
<160> 88
<170> SIPOSequenceListing 1.0
<210> 1
<211> 120
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 1
ggatggagcc gcgggcgccg tggatagagc aggaggggcc ggagtattgg gaccggaaca 60
cacggaatgt gaaggcccag tcacagactg accgagtgga cctggggacc ctgcgcggct 120
<210> 2
<211> 108
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 2
gggcgccgtg gatagagcag gaggggccgg agtattggga cggggagaca cggaaagtga 60
aggcccactc acagactcac cgagtggacc tggggaccct gcgcggct 108
<210> 3
<211> 108
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 3
gggcgccgtg gatagagcag gaggggccgg agtattggga cgaggagaca gggaaagtga 60
aggcccactc acagactgac cgagagaacc tgcggatcgc gctccgct 108
<210> 4
<211> 108
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 4
gggcgccgtg gatagagcag gaggggccgg agtattggga ccggaacaca cggaatgtga 60
aggcccactc acagactgac cgagagagcc tgcggatcgc gctccgct 108
<210> 5
<211> 108
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 5
gggcaccgtg gatagagcag gaggggccgg agtattggga cctgcagaca cggaatgtga 60
aggcccagtc acagactgac cgagcgaacc tggggaccct gcgcggct 108
<210> 6
<211> 108
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 6
gggcgccgtg gatagagcag gaggagccgg agtattggga cgaggagaca cggaatgtga 60
aggcccactc acagactaac cgagcgaacc tggggaccct gcgcggct 108
<210> 7
<211> 108
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 7
gggcgccgtg aatagagcag gaggggccgg agtattggga ccaggagaca cggaatgtga 60
aggcccactc acagactgac cgagtggacc tggcgaccct gcgcggct 108
<210> 8
<211> 108
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 8
gggcgccgtg gatagagcag gagaggcctg agtattggga ccaggagaca cggaatgtga 60
aggcccactc acagactgac cgagagaacc tggggaccct gcgcggct 108
<210> 9
<211> 108
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 9
gggcgccgtg gatagagcag gagaggcctg agtattggga ccaggagaca cggaatgtga 60
aggcccactc acagactgac cgagagaacc tggggaccct gcgcggct 108
<210> 10
<211> 108
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 10
gggcgccgtg aatagagcag gaggggccgg agtattggga ccaggagaca cggaatgtga 60
aggcccactc acagactgac cgagtggacc tggcgaccct gcgcggct 108
<210> 11
<211> 108
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 11
gggcgccgtg gatagagcag gaggggccgg agtattggga cggggagaca cggaaagtga 60
aggcccactc acagactcac cgagtggacc tggggaccct gcgcggct 108
<210> 12
<211> 108
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 12
gggcgccgtg gatagagcag gaggagccgg agtattggga cgaggagaca cggaatgtga 60
aggcccactc acagactaac cgagcgaacc tggggaccct gcgcggct 108
<210> 13
<211> 108
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 13
gggcgccgtg gatagagcag gaggggccgg agtattggga ccggaacaca cggaatgtga 60
aggcccactc acagactgac cgagagagcc tgcggatcgc gctccgct 108
<210> 14
<211> 108
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 14
gggcgccgtg gatagagcag gaggggccgg agtattggga cgaggagaca gggaaagtga 60
aggcccactc acagactgac cgagagaacc tgcggatcgc gctccgct 108
<210> 15
<211> 120
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 15
ggatggagcc gcgggcgccg tggatagagc aggaggggcc ggagtattgg gaccggaaca 60
cacggaatgt gaaggcccag tcacagactg accgagtgga cctggggacc ctgcgcggct 120
<210> 16
<211> 108
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 16
gggcaccgtg gatagagcag gaggggccgg agtattggga cctgcagaca cggaatgtga 60
aggcccagtc acagactgac cgagcgaacc tggggaccct gcgcggct 108
<210> 17
<211> 121
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 17
gactgaccga gagaacctgc ggatcgcgct ccgctactac aaccagagcg aggccggtga 60
gtgaccccgg cccggggcgc aggtcacgac ccctcatccc ccacggacgg gccgggtcgc 120
c 121
<210> 18
<211> 121
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 18
gattgaccga gtggacctgg ggaccctgcg cggctactac aaccagagcg aggccggtga 60
gtgaccccag cccggggcgc aggtcacgac ctctcatccc ccacggacgg gccaggtcac 120
c 121
<210> 19
<211> 121
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 19
gttctcacac catccaggta atgtatggct gcgacgtggg gtcggacggg cgcttcctcc 60
gcgggtatga acagcacgcc tacgacggca aggattacat cgccctgaac gaggacctgc 120
g 121
<210> 20
<211> 121
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 20
gttctcacac cctccagatg atgtttggct gcgacgtggg gtcggacggg cgcttcctcc 60
gcgggtacca ccagtacgcc tacgacggca aggattacat cgccctgaaa gaggacctgc 120
g 121
<210> 21
<211> 121
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 21
gttctcacac catccagata atgtatggct gcgacgtggg gccggacggg cgcttcctcc 60
gcgggtaccg gcaggacgcc tacgacggca aggattacat cgccctgaac gaggacctgc 120
g 121
<210> 22
<211> 121
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 22
gttctcacac cgtccagagg atgtatggct gcgacgtggg gtcggactgg cgcttcctcc 60
gcgggtatga ccagtccgcc tacgacggca aggattacat cgccctgaaa gaggacctgc 120
g 121
<210> 23
<211> 118
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 23
acgaggacct gcgctcttgg accgcggcgg acatggcagc tcagatcacc aagcgcaagt 60
gggaggcggc ccgtcgggcg gagcagcaga gagcctacct ggagggccgg tgcgtgga 118
<210> 24
<211> 119
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 24
acgaggacct gcgctcttgg accgcggcgg acatggcagc tcagatcacc aagcgcaagt 60
gggaggcggt ccatgcggcg ggagcagcgg agagtctacc tggagggccg gtgcgtgga 119
<210> 25
<211> 118
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 25
aagaggacct gcgctcttgg accgcggcgg acatggcggc tcagatcacc cagcgcaagt 60
gggaggcggc ccgtgtggcg gaacgggtga gagcctacct ggagggcacg tgcgtgga 118
<210> 26
<211> 118
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 26
acgaggacct gcgcccttgg accgcggcgg acatggcggc tcagatcacc aagcgcaagt 60
gggaggcggc ccatgaggcg gagcagttga gagcctacct ggatggcacg tgcgtgga 118
<210> 27
<211> 118
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 27
acgaggacct gcgctcctgg accgcggcgg acatggcagc tcagatcacc aagcgcaagt 60
gggaggcggc ccgtcgggcg gagcagcgga gagtctacct ggagggcgag ttcgtgga 118
<210> 28
<211> 118
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 28
aagaggacct gcgctcttgg accgcggcgg acatggcagc tcagaccacc aagcacaagt 60
gggaggcggc ccatgtggcg gagcagttga gagcctacct ggagggcacg tgcgtgga 118
<210> 29
<211> 118
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 29
aagaggacct gcgctctcgg accgcggcgg acatggcggc tcagatcacc aagcgcaagt 60
gggaggcggc ccatgtggcg gagcagcaga gagcctacct ggagggcacg tgcgtgga 118
<210> 30
<211> 118
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 30
aagaggacct gcgctcttgg accgcggcgg acatggcagc tcagaccacc aagcacaagt 60
gggagacggc ccatgaggcg gagcagcaga gagcctacct ggagggccgg tgcgtgga 118
<210> 31
<211> 120
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 31
acgaggacct gcgctcttgg accgcggcgg acatggcggc tcagatcacc cagcgcaagt 60
gggagactcc gcccatgagg cggagcagtg gagagcctac ctggagggcc ggtgcgtgga 120
<210> 32
<211> 118
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 32
acgaggacct gcgctcttgg accgcggcgg acatggcggc tcagatcacc cagcgcaagt 60
gggaggcggc ccgttgggcg gagcagttga gagcctacct ggagggcacg tgcgtgga 118
<210> 33
<211> 121
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 33
gacacgctgt tcgtgaggtt cgacagcgac gccgcgagtc cgagagagga gccgcgggcg 60
ccgtggatag agcaggaggg gccggagtat tgggaccggg agacacagat ctccaagacc 120
a 121
<210> 34
<211> 121
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 34
gacacgctgt tcgtgaggtt cgacagcgac gccacgagtc cgaggaagga gccgcgggcg 60
ccatggatag agcaggaggg gccggagtat tgggaccggg agacacagat ctacaaggcc 120
c 121
<210> 35
<211> 121
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 35
gacacccagt tcgtgaggtt cgacagcgac gccgcgagtc cgaggacgga gccccgggcg 60
ccatggatag agcaggaggg gccggagtat tgggacgggg agacacggaa catgaaggcc 120
t 121
<210> 36
<211> 121
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 36
gacacgcagt tcgtgaggtt cgacagcgac gccgcgagtc cgagagagga gccgcgggcg 60
ccgtggatag agcaggaggg gccggagtat tgggaccggg agacacagaa gtacaagcgc 120
c 121
<210> 37
<211> 121
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 37
gacacccagt tcgtgaggtt cgacagcgac gccgcgagtc cgaggacgga gccccgggcg 60
ccatggatag agcaggaggg gccggagtat tgggaccggg agacacagat ctccaagacc 120
a 121
<210> 38
<211> 121
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 38
gacacccagt tcgtgaggtt cgacagcgac gccgcgagtc cgaggatggc gccccgggcg 60
ccatggatag agcaggaggg gccggagtat tgggaccggg agacacagaa gtacaagcgc 120
c 121
<210> 39
<211> 121
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 39
gacacgcagt tcgtgaggtt cgacagcgac gccgcgagtc cgaggaagga gccgcgggcg 60
ccgtggatag agcaggaggg gccggaatat tgggaccgga acacacagat ctgcaagacc 120
a 121
<210> 40
<211> 121
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 40
gacacgcagt tcgtgcggtt cgacagcgac gccgcgagtc cgagagggga gccgcgggcg 60
ccgtgggtgg agcaggaggg gccggagtat tgggaccgga acacacagat ctacaaggcc 120
c 121
<210> 41
<211> 119
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 41
cggagtattg ggaccggaac acacagatct acaaggccca ggcacagact gagcgagaga 60
gcctgcggaa cctgcgcggc tactacaacc agagcgaggc cggtgagtga ccccggccc 119
<210> 42
<211> 121
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 42
cggagtattg ggaccgggag acacagatct ccaagaccaa cacacagact taccgagaga 60
gcctgcggaa cctgcgcggc tactacacaa ccagagcgag gccggtgagt gaccccggcc 120
t 121
<210> 43
<211> 119
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 43
cggagtattg ggaccgggag acacagaagt acaagggcca ggcacagact gaccgagaga 60
gcctgcggaa cctgcgcggc tactacaacc agagcgaggc cggtgagtga ccccggccc 119
<210> 44
<211> 119
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 44
cggagtattg ggacggggag acacggaaca tgaaggcctc cgcgcagact taccgagaga 60
gcctgcggaa cctgcgcggc tactacaacc agagcgaggc cggtgagtga ccccggccc 119
<210> 45
<211> 119
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 45
cggagtattg ggacggggag acacggaaca tgaaggcctc cgcgcagact taccgagaga 60
acctgcggat cgcgctccgc tactacaacc agagcgaggc cggtgagtga ccccggccc 119
<210> 46
<211> 119
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 46
cggagtattg ggaccggaac acacagatct gcaaggccaa ggcacagact gaccgagtgg 60
gcctgcggaa cctgcgcggc tactacaacc agagcgagga cggtgagtga ccccggcct 119
<210> 47
<211> 119
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 47
cggagtattg ggaccgggag acacagatct gcaaggccaa ggcacagact gaccgagagg 60
acctgcggac cctgctccgc tactacaacc agagcgaggc cggtgagtga ccccggccc 119
<210> 48
<211> 119
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 48
cggagtattg ggaccggaac acacagacct tcaagaccaa cacacagact gaccgagaga 60
gcctgcggaa cctgcgcggc tactacaacc agagcgaggc cggtgagtga ccccggccc 119
<210> 49
<211> 119
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 49
cggagtattg ggaccgggag acacagatct ccaagaccaa cacacagact taccgagaga 60
acctgcgcac cgcgctccgc tactacaacc agagcgaggc cggtgagtga ccccggccc 119
<210> 50
<211> 119
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 50
cggagtattg ggaccggaac acacagatct ccaagaccaa cacacagact taccgagagg 60
acctgcggac cctgctccgc tactacaacc agagcgaggc cggtgagtga ccccggccc 119
<210> 51
<211> 119
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 51
cggagtattg ggaccggaac acacagatct tcaagaccaa cacacagact taccgagaga 60
acctgcggat cgcgctccgc tactagaacc agagcgaggc cggtgagtga ccccggccc 119
<210> 52
<211> 119
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 52
cggagtattg ggaccggaac acacagatct acaaggccca ggcacagact gaccgagaga 60
acctgcggat cgcgctccgc tactacaacc agagcgaggc cggtgagtga ccccggccc 119
<210> 53
<211> 117
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 53
ggtctcacac ttggcagagg atgtatggct gcgacctggg gcccgacggg cgcctcctcc 60
gcgggtataa ccagttagcc tacgacggca aggattacat cgccctgaac gaggacc 117
<210> 54
<211> 117
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 54
ggtctcacac ttggcagagg atgtatggct gcgacctggg gccggacggg cgcctcctcc 60
gcgggcatga ccagtccgcc tacgacggca aggattacat agccctgaac gaggacc 117
<210> 55
<211> 117
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 55
ggtctcacac cctccagaat atgtatggct gcgacgtggg accggacggg cgcctcctcc 60
gcgggtacca ccaggacgcc tacgacggca aggattacat cgccctgaac gaggacc 117
<210> 56
<211> 117
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 56
ggtctcacat catccagagg atgtatggct gcgacctggg gtcggacggg cgcctcctcc 60
gcgggcataa ccagttagcc tacgacggca aggattacat cgccctgaac gaggacc 117
<210> 57
<211> 121
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 57
ggtctcacac cctccagagg atggacgtac ggctgcgacg tggggccgga cgggcgcctc 60
ctccgcgggc atgaccagtc cgcctacgac ggcaaggatt acatcgccct gaacgaggac 120
c 121
<210> 58
<211> 117
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 58
ggtctcacat catccagagg atgtatggct gcgacctggg gcccgacggg cgcctcctcc 60
gcgggcatga ccagtccgcc tacgacggca aggattacat cgccctgaac aaggacc 117
<210> 59
<211> 117
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 59
ggtctcacat catccaggtg atgtatggct gcgacgtggg gccggacggg cgcctcctcc 60
gcgggcataa ccagtacgcc tacgacggca aggattacat cgccctgaac gaggacc 117
<210> 60
<211> 117
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 60
ggtctcacac catccagagg atgtctggct gcgacgtggg gccggacggg cgcctcctcc 60
gcgggtataa ccagttcgcc tacgacggca aggattacat cgccctgaac gaggacc 117
<210> 61
<211> 117
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 61
ggtctcacac ttggcagagg atgtacggct gcgacgtggg gccggacggg cgcctcctcc 60
gcgggtatga ccaggacgcc tacgacggca aggattacat cgccctgaac gaggacc 117
<210> 62
<211> 117
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 62
ggtctcacac ttggcagacg atgtatggct gcgacgtggg gccggacggg cgcctcctcc 60
gcgggcataa ccagtacgcc tacgacggca aagattacat cgccctgaac gaggacc 117
<210> 63
<211> 117
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 63
ggtctcacat catccagagg atgtacggct gcgacgtggg gccggacggg cgcctcctcc 60
gcgggtgtga ccaggacgcc tacgacggca aggattacat cgccctgaac gaggacc 117
<210> 64
<211> 121
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 64
acgacggcaa ggattacatc gccctgaacg aggacctgag ctcctggacc gcggcggaca 60
ccgcggctca gatcacccag cgcaagtggg aggcggcccg tgtggcgggc ggagcagctg 120
a 121
<210> 65
<211> 117
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 65
acgacggcaa ggattacatc gccctgaacg aggacctgcg ctcctggacc gccgcggaca 60
cggcggctca gatctcccag cgcaagttgg aggcggcccg tgtggcggag cagtgga 117
<210> 66
<211> 117
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 66
acgacggcaa ggattacatc gccctgaacg aggacctgcg ctcctggacc gccgcggaca 60
cggcggctca gatcacccag cgcaagtggg aggcggcccg tgaggcggag caggaca 117
<210> 67
<211> 116
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 67
gttggaggcg gcccgtgtgg cggagcagct gagagcctac ctggagggcg agtgcgtgga 60
gtggctccgc agatacctgg agaacagaac gggaaggaca agctggagcg cgctgg 116
<210> 68
<211> 111
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 68
gtgggaggcg gcccgtgtgg cggagcagga cagagcctac ctggagggca cgtgcgtgga 60
gtggctccgc agatacctgg agaacgggaa ggacacgctg gagcgcgcgg g 111
<210> 69
<211> 111
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 69
gtgggaggcg gcccgtgagg cggagcagcg gagagcctac ctggagggcc tgtgcgtgga 60
gtcgctccgc agatacctgg agaacgggaa ggacaagctg gagcgcgctg g 111
<210> 70
<211> 111
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 70
gtgggaggcg gcccgtgtgg cggagcagcg gagagcctac ctggagggca cgtgcgtgga 60
gtggctccgc agacacctgg agaacgggaa ggagacgctg cagcgcgcgg g 111
<210> 71
<211> 115
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 71
gtgggaggcg gcccgtgtgg cgggcggagc agctgagagc ctacctggag ggcctgtgcg 60
tggagtggct ccgcagatac ctggagaacg ggaaggagac gctgcagcgc gcggg 115
<210> 72
<211> 121
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 72
gctcccactc catgaagtat ttcttcacat ccgtgtcccg gcctggccgc ggagagcccc 60
gcttcatctc agtgggctac gtggacgaca cgcagttcgt gcgattcgac agcgacgccg 120
c 121
<210> 73
<211> 121
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 73
gctcccactc catgaggtat ttctccacat ccgtgtcctg gcccggccgc ggggagcccc 60
gcttcatcgc agtgggctac gtggacgaca cgcagttcgt gcggttcgac agcgacgccg 120
c 121
<210> 74
<211> 121
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 74
gctcccactc catgaggtat ttctacacca atgtgtcccg gcccggccgc ggggagcccc 60
acttcatcgc agtgggctac gtggacgaca cgcagttcgt gcggttcgac agcgacgccg 120
c 121
<210> 75
<211> 121
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 75
ggtctcacat catccagagg atgtacggct gcgacgtggg gccggacggg cgcctcctcc 60
gcgggtatga ccagtacgcc tacgacggca aggattacat cgccctgaac gaggatctgc 120
g 121
<210> 76
<211> 119
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 76
ggtctcaccc tccagaggat gtatggctgc gacctggggc ccgacgggcg cctcctccgc 60
gggtataacc agttcgccta cgacggcaag gattacatcg ccctgaatga ggacctgcg 119
<210> 77
<211> 121
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 77
gctcccactc catgaggtat ttctccacat ccgtgtcccg gcccggccgc ggggagcccc 60
gcttcatcgc cgtgggcagc cccgcttcat cgccgtgggc tacgtggacg acacgcagtt 120
c 121
<210> 78
<211> 101
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 78
tcatcgccgt gggctacgtg gacgacacgc agttcgtgcg gttcgacagc gacgccgcga 60
gccagaggat ggagccgcgg gcgccgtgga tagagcagga g 101
<210> 79
<211> 104
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 79
gcgagttcgt ggagtggctc cgcagatacc tggagaacgg gaaggagacg ctgcagcgcg 60
cgggtaccag gggccacagg gcgcctccct gatcgcctgt agat 104
<210> 80
<211> 121
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 80
ccactccatg aggtatttct acaccgccat gtcccggccc ggccgcgggg agccccgctt 60
cattgcagtg ggctacgtgg acgacaccca gttcgtgagg ttcgacagcg acgccgcaag 120
t 121
<210> 81
<211> 116
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 81
agaacgggaa ggagacgctg cagcgcgcgg gtaccagggg cagtggggag ccttccccat 60
ctcctataga tcgcccggga tggcctccca cgaggagggg aggaaaatga gagaag 116
<210> 82
<211> 116
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 82
acgacaccca gttcgtgagg ttcgacagcg acgccgcgag tccgaggatg gcgccccggg 60
cgccatggat agagcaggag gggccggagt attgggaccg ggagacacag aagtac 116
<210> 83
<211> 121
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 83
ccggacggag tattgggacc gggagacaca gaagtacaag cgccaggcac agactgaccg 60
agtgagcctg cggaacctgc gcggctacta caaccagagc gaggccggtg agtgaccccg 120
g 121
<210> 84
<211> 121
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 84
ctactacaac cagagcgagg acggtgagtg accccggccc ggggcgcagg tcacgacccc 60
tccccatccc ccacggacgg cccgggtcgc cccgagtctc cccgtctgag atccacccca 120
a 121
<210> 85
<211> 100
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 85
tacgacggca aggattacat cgccctgaac gaggatctgc gctcctggac cgccgcggac 60
acggcggctc agatcaccca gcgcaagcgg gaggcggccc 100
<210> 86
<211> 93
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 86
gcgcaagtgg gaggcggccc gtgaggcgga gcagtggaga gcctacctgg agggcgagtg 60
cgtggagtgg ctccgcagat acctgaagaa tgg 93
<210> 87
<211> 121
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 87
cagatacctg tggagtggct ccgcagatac ctggagaacg ggaaggagac gctgcagcgc 60
gcaggtacca ggggcagtgg ggagccttcc ccatctccta tagatctccc gggatggcct 120
c 121
<210> 88
<211> 116
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 88
gtgcgtggag tggctccgca gatacctgaa gaatgggaag gagacgctgc agcgcgcggg 60
taccaggggc agtggggagc cttccccatc tcccgtagat ctcccggcat ggcctc 116
Claims (6)
1.用于HLA分型的核酸捕获探针的设计方法,其特征在于,步骤包括:
1)根据HLA基因各种亚型的全长,分别构建HLA-A、HLA-B、HLA-C基因的序列库;
2)进行多重序列比对,查找HLA-A、HLA-B、HLA-C基因的Exon2和Exon3上的以及上、下游的SNP位点;
3)采用滑窗分隔算法,将覆盖所有SNP位点的连续区域分隔为多个长度相等的区域,挑取覆盖设定数目SNP位点的区域作为探针设计候选区域,截取多重序列比对结果在该探针设计候选区域内的序列;
4)利用聚类算法,分析得到HLA-A、HLA-B、HLA-C基因每个探针设计候选区域的多个代表性序列,作为候选探针;
5)对所有候选探针进行去重复,去除HLA-A、HLA-B、HLA-C基因各自的候选探针之间的相同序列,获得HLA-A、HLA-B、HLA-C各自的捕获探针。
2.根据权利要求1所述的方法,其特征在于,步骤2),采用DECIPHER进行多重序列比对,构建比对文件,从比对文件中查找每种基因的Exon2和Exon3上的以及上、下游100bp内的SNP位点。
3.根据权利要求2所述的方法,其特征在于,步骤2),所述SNP位点为SNP/INDEL密度高且次等位基因频率大于0.1的SNP位点,所述SNP/INDEL密度为每100bp有14~30个SNPs。
4.根据权利要求1所述的方法,其特征在于,步骤3),将覆盖所有SNP位点的连续区域分隔为多个120bp的区域,挑取SNP位点数大于10的120bp区域作为探针设计候选区域。
5.根据权利要求1所述的方法,其特征在于,步骤4),所述聚类分析设置序列间相似度最小值为95%。
6.根据权利要求5所述的方法,其特征在于,所述聚类分析采用Uclust聚类算法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911104909.0A CN110853708B (zh) | 2019-11-13 | 2019-11-13 | 用于hla分型的核酸捕获探针的设计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911104909.0A CN110853708B (zh) | 2019-11-13 | 2019-11-13 | 用于hla分型的核酸捕获探针的设计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110853708A CN110853708A (zh) | 2020-02-28 |
CN110853708B true CN110853708B (zh) | 2022-03-08 |
Family
ID=69601027
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911104909.0A Active CN110853708B (zh) | 2019-11-13 | 2019-11-13 | 用于hla分型的核酸捕获探针的设计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110853708B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113035276B (zh) * | 2021-03-11 | 2021-12-03 | 深圳荻硕贝肯精准医学有限公司 | 人类hla染色体区域杂合性缺失的分析方法和系统 |
CN113278687B (zh) * | 2021-05-20 | 2023-11-24 | 广州医科大学附属第二医院 | 用于hla-b1502和hla-a2402基因型检测的试剂盒 |
CN113755555A (zh) * | 2021-09-03 | 2021-12-07 | 浙江工商大学 | 用于检测食物致敏原的捕获探针集、其制备方法及应用 |
CN117737233A (zh) * | 2024-02-21 | 2024-03-22 | 北京医院 | 用于检测hla-a29等位基因的uap寡核苷酸、试剂盒和方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103221551A (zh) * | 2010-11-23 | 2013-07-24 | 深圳华大基因科技有限公司 | Hla基因型别-snp连锁数据库、其构建方法、以及hla分型方法 |
CN105255875A (zh) * | 2015-11-06 | 2016-01-20 | 中山大学肿瘤防治中心 | 一种用于hla基因分型的试剂盒和方法 |
CN110382752A (zh) * | 2016-11-18 | 2019-10-25 | 特韦斯特生物科学公司 | 具有受控化学计量的多核苷酸文库及其合成 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1834261A (zh) * | 2005-11-15 | 2006-09-20 | 北京博奥生物芯片有限责任公司 | 基因分型芯片及其制备方法与应用 |
KR101832834B1 (ko) * | 2017-03-09 | 2018-04-13 | 주식회사 샤인바이오 | 다중점도표 분석 기반 변이 탐색 방법 및 시스템 |
-
2019
- 2019-11-13 CN CN201911104909.0A patent/CN110853708B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103221551A (zh) * | 2010-11-23 | 2013-07-24 | 深圳华大基因科技有限公司 | Hla基因型别-snp连锁数据库、其构建方法、以及hla分型方法 |
CN105255875A (zh) * | 2015-11-06 | 2016-01-20 | 中山大学肿瘤防治中心 | 一种用于hla基因分型的试剂盒和方法 |
CN110382752A (zh) * | 2016-11-18 | 2019-10-25 | 特韦斯特生物科学公司 | 具有受控化学计量的多核苷酸文库及其合成 |
Non-Patent Citations (1)
Title |
---|
"瓦状垒叠靶向测序技术实现HLA基因的高分辨率分型";焦阳;《万方数据知识服务平台》;20190816;正文第14、27、28、48页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110853708A (zh) | 2020-02-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110853708B (zh) | 用于hla分型的核酸捕获探针的设计方法 | |
CN106319065B (zh) | 基于高通量测序检测人brca1/2基因的捕获探针及试剂盒 | |
CN106399546B (zh) | 高通量测序检测人循环肿瘤dna egfr基因的捕获探针及试剂盒 | |
CN113308562A (zh) | 棉花全基因组40k单核苷酸位点及其在棉花基因分型中的应用 | |
JP2008504028A (ja) | 標的特異的コンポマー及び使用法 | |
CN108085387B (zh) | 检测人brca1/2基因突变的特异性捕获探针、试剂盒、测序文库及其构建方法 | |
US20090143245A1 (en) | Microarrays for genotyping and methods of use | |
CN110600082B (zh) | 用于hla分型的核酸捕获探针及其设计方法 | |
US10519502B2 (en) | Mitochondrial disease genetic diagnostics | |
CN105603052B (zh) | 探针及其用途 | |
CN111235270B (zh) | 一种基于高通量测序法的肿瘤抗原表达检测引物及试剂盒 | |
KR20160050106A (ko) | 유전자의 발현량 및 메틸화 프로필을 활용한 돼지의 산자수 예측방법 | |
US20220145368A1 (en) | Methods for noninvasive prenatal testing of fetal abnormalities | |
CN114231635B (zh) | 用于肺癌筛查的标志物、探针组合物及其应用 | |
CN114369664B (zh) | 用于胰腺癌筛查的标志物、探针组合物及其应用 | |
CN116445478B (zh) | 一种构建ighv基因文库的引物组合及其应用 | |
CN114540497B (zh) | 用于膀胱癌筛查的标志物、探针组合物及其应用 | |
CN114703281B (zh) | 用于睾丸癌筛查的标志物、探针组合物及其应用 | |
CN114540474B (zh) | 一种基于暗探针技术的ngs靶向捕获方法及其在差异深度测序中的应用 | |
CN114507734B (zh) | 用于甲状腺癌筛查的标志物、探针组合物及其应用 | |
CN114317732B (zh) | 用于肺癌筛查的组合物及其应用 | |
CN110144403B (zh) | 一种乳腺癌治病基因rbm12b的新突变snp位点及其应用 | |
CN113234822A (zh) | 一种捕获遗传性结直肠癌基因组靶序列的方法 | |
CN114369663A (zh) | 用于肝癌筛查的标志物、探针组合物及其应用 | |
CN112831514A (zh) | 融合基因schlap1-ube2e3及其应用 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |