CN116411066A

CN116411066A - 实现cyp21a2等特殊基因变异精准分型的方法

Info

Publication number: CN116411066A
Application number: CN202310262255.4A
Authority: CN
Inventors: 李洪; 鲍成佳; 王佳; 梁萌萌; 余伟师
Original assignee: Saifu Decoding Beijing Gene Technology Co ltd
Current assignee: Saifu Decoding Beijing Gene Technology Co ltd
Priority date: 2023-03-14
Filing date: 2023-03-14
Publication date: 2023-07-11

Abstract

本发明涉及真假基因测序分型技术领域，具体涉及实现CYP21A2等特殊基因变异精准分型的方法。本发明提出了一种采用特异性long range PCR结合PacBio三代HiFi长度长测序技术，利用一对引物实现对CYP21A2基因和TNXA基因的SNV、INDEL、拷贝数变异、嵌合体的准确检出，并对CYP21A1P/CYP21A2嵌合体(CAH CH1‑9)、TNXA/TNXB嵌合体(CAH‑XCH1‑3)进行精准分型的方法，为其他涉及真假基因嵌合体分型提供了研究思路，同时也为利用常规技术未获诊断的患者提供更多的检测方向和可能性。

Description

实现CYP21A2等特殊基因变异精准分型的方法

技术领域

本发明涉及真假基因测序分型技术领域，具体涉及实现CYP21A2等特殊基因变异精准分型的方法。

背景技术

先天性肾上腺皮质增生症(CAH)是一组常染色体隐性遗传性疾病，最常见的类型为21羟化酶缺陷症(21-OHD)，占全部CAH的90％～95％。根据21羟化酶缺陷的不同程度，21-OHD可分为经典型和非经典型(NCCAH)，经典型又包括失盐型(SW)和单纯男性化型(SV)。CAH会导致低血钠及高血钾、严重者可导致休克，对于新生儿来讲未出现症状时做出尽早的诊断，可有效地减少肾上腺危症的发病率及病死率，这是至关重要的。

21-OHD由CYP21A2双等位基因突变引起，CYP21A2基因与假基因CYP21A1P串联排列位于第6号染色体短臂(6p21.3)MHC位点HLA III区，与编码色氨酸/苏氨酸激酶的RP1基因(RP1和RP2)、编码补体C4的基因(C4A和C4B)及编码细胞外基质蛋白-腱糖蛋白X的TNX基因(TNXA和TNXB)共同构成2拷贝重复的RP-C4-CYP21-TNX结构，称为RCCX单元。除C4基因外，其余功能基因(RP1、CYP21A2、TNXB)均有相应高度同源的假基因(RP2、CYP21A1P、TNXA)。因该区域序列高度同源性，在减数分裂过程中较易发生基因重组，导致基因转换、不均等交叉、基因缺失以及形成无功能的嵌合基因。目前，已在人类中鉴定出200多种致病性CYP21A2基因变体，其中约75％是由于CYP21A1P假基因突变的基因转换，20％～25％是缺失或嵌合基因，1％～2％是新生突变。嵌合基因根据嵌合位点的位置分为CYP21A1P/CYP21A2嵌合和TNXA/TNXB嵌合两类。CYP21A1P/CYP21A2嵌合体进一步分为经典嵌合体(如CH-1、CH-2、CH-3、CH-5、CH-6、CH-7和CH-8)和减毒嵌合体(如CH-4和CH-9)。TNXA/TNXB嵌合体也被称为CAH-X，又分为三种类型:CAH-XCH-1、CH-2和CH-3。因为大多数CAH患者是携带2种不同致病突变的复合杂合子，表型是由保留最多酶活性的突变确定的，一般来说，儿童时期的疾病严重程度可以通过预测导致SW、SV、NCCAH型的基因型来准确预测。

目前分子检测21-OHD最常用的方法是通过MLPA检测大片段缺失或拷贝数增加，结合Sanger测序特异性检测真基因CYP21A2上的点突变。但是CYP21A2和CYP21A1P之间存在复杂的重组关系，即真基因CYP21A2上会存在假基因CYP21A1P上特征性碱基序列，而假基因CYP21A1P上也会存在真基因CYP21A2上特征性序列，而MLPA对DNA质量、探针结合和实验操作中的微小变化极为敏感，这些会干扰MLPA探针的特异性，也会干扰Sanger测序时PCR扩增引物和测序引物的特异性，在实际检测中会导致漏诊和误诊。此外MLPA方法因其探针设计的局限性无法对CYP21A1P/CYP21A2嵌合体做具体分型。当存在两个或多个变体，MLPA+Sanger也无法直接确定顺式或反式位置。遗传病分子诊断较常用的基于二代测序的WES，WGS以及目标区域PCR方法，因测序读长限制，对于高度同源区域无法准确比对重复基因座，发现真假基因转换的变异。因此，亟需发明一种新的能够准确区分真假基因转换并对其融合进行精准分型的技术方法。

发明内容

有鉴于此，本发明要解决的技术问题在于提供实现CYP21A2等特殊基因变异精准分型的方法。

本发明提供了引物组，其靶向序列为6号染色体的32037614～32046170的CYP21A2和TNXA基因区段。

进一步的，所述引物组包括正向引物和反向引物；

正向引物具有如SEQ ID NO:1所示的核苷酸序列；

反向引物具有如SEQ ID NO:2所示的核苷酸序列；

本发明所述的如SEQ ID NO:1所示的正向引物和如SEQ ID NO:1所2所示的反向引物为根据6号染色体的32037614～32046170区段设计，其包括了CYP21A2和TNXA各自的启动子和结构基因区段，结构基因包含内含子以及外线其区域。

进一步的，本发明所述的引物组，也包括与SEQ ID NO:1和SEQ ID NO:2所示的核苷酸序列反向互补组成的引物组，对6号染色体的32037614～32046170区段进行扩增。

本发明中

所述正向引物末端连接有barcode序列，和/或反向引物的末端连接有barcode序列；

所述barcode长度为5～50nt。

每个引物末端连接有一个barcode，依据barcode不同，将引物分为一组或多组。

本发明中，barcode序列为标签序列，用于对同时检测的不同样品进行区分，所述barcode序列可位于扩增引物的5’端，也可以位于扩增引物的3’端，可以添加于上下游引物其中之一的末端，也可以在二者末端均添加；当检测样品只有一个时，可不添加barcode序列。

本发明提供了试剂盒，其包括本发明所述的引物组、用于扩增的试剂、和/或用于三代测序的试剂。

进一步的，本发明所述的试剂盒中，用于三代测序的试剂包括固相载体、接头序列、接头封闭序列、PCR反应缓冲液、无核酸酶的水、DNA聚合酶、分子量marker、靶序列洗脱液、末端修复酶、末端修复缓冲液、DNA连接酶中的至少一种。

本发明提供了的CAH嵌合体突变和分型的检测方法，其包括如下步骤：

步骤1、利用本发明所述的引物对DNA样本进行扩增后三代测序，获得测序数据；

步骤2、提取测序数据后与真基因参考序列比对，获取比对数据样本1；

步骤3、真假基因参考序列比对，获得比对数据样本2，经注释获得注释样本1；

步骤4、对比对数据1进行变异位点检测；部分差异位点遗漏，则需要利用比对数据样本1和比对数据2进行二次检测；

步骤5、对变异位点信息进行单倍型分析并注释，获得注释样本2，利用注释样本1对注释样本2进行二次注释，获取注释样本3；

步骤6、根据注释样本3获取判定样本分型的关键突变后进行精准分型。

本发明所述的检测方法可为诊断方法，也可为非诊断目的的检测方法，本发明对此不做限定。

本发明所述的检测方法中，步骤2和3的顺序发生调换不对所述检测方法的检测结果产生影响，但步骤2和步骤3在整个检测方法中与检测结果密切相关，因此，调换步骤2和3也在本发明的保护范围之内。

进一步的，本发明所述的检测方法中，

步骤2中，

提取测序数据步骤为：利用如SEQ ID NO:1和SEQ ID NO:2所示的引物组提取特异性扩增序列，提取数据每个read允许2个碱基的错配；数据提取的软件为seqkit。

所述参考序列来源于hg38。

步骤3中，变异位点检测的变异频率F设置为0.01，变异位点检测使用软件为freebayes。

步骤6中，

判定样本分型的关键突变后，根据关键突变位点的突变比例给样本突变打上分型标签；精准分型时，设置Tag_rate阈值为1，promtor的Mut_rate为0.85，intron2的Mut_rate为0.75，实际检测到的关键突变等于Tag_rate阈值，则返回该exon或intron对应的分型类型；否则返回“NO”，直至连续出现两个“NO”，则返回上一分型结果；出现一个“NO”，则继续判读直到出现连续两个“NO”，并返回上一分型结果。

更进一步的，本发明检测方法的步骤6中，影响不同分型的关键突变只有1个时，为了避免复合杂合突变造成的干扰，需要该位点的Hap_rate值加以辅助，Hap_rate>0.5，则返回当前分型结果，否则返回上一分型结果；

所述Hap_rate＝n/N，其中

N为分型关键位点的所在行，

N为首行到当前位点行与该样本位点分型一致的行数。

在本发明所述的检测方法中，还可以根据实际检测的需要结合本领域的常规技术知识添加步骤，从而实现对基因的检测分型；并且，本领域技术人员在关键步骤基础上对其他检测细节进行添加或修改，在不改变其实质的基础上均属于本发明的保护范围。

本发明的检测方法中只利用一对引物对样本进行扩增，相比于现有技术利用两对引物对目标样品进行扩增得方式大大降低了不同样本扩增中引物的利用，降低了样本测序的成本，并且，本发明在软件中经上述分析后对分型结果直接判读和显示，不需要人工解读，大大缩减了人力解读的时间和成本。

本发明提取扩增片段时设置允许2个碱基的错配，该值越大，有效数据率越高，但是相应的数据准确性越低。既要保证有足够的数据量用于后续分析，也要保证数据的准确性避免造成分析结果假阳性，本发明通过设置允许2个碱基的错配可以兼顾。

本发明中变异检测时的变异频率F值设置为0.01，只保留变异频率大于该值的位点；该值过大可能会漏掉真阳性变异位点，过低则会造成假阳性，同时降低运行速度。软件默认该参数设为0.2，按该设置进行分析，最终的结果中会漏掉部分阳性位点，导致最后分型不准。变异频率F值设置为0.01有效避免了真阳性位点的漏检。

目前利用三代测序对21-OHD嵌合体突变进行分型的方法较少。本发明利用一对引物对真基因区域进行扩增，获得样本真基因或假基因三代测序数据，随后样本测序数据借助于与真基因参考序列比对数据和真假参考基因比对数据进行分析注释，经由Halpotype参数调整，可完成21-OHD嵌合体突变的精准分型；实验结果表明，本发明所述的检测方法与现有技术相比差异位点覆盖度高，检测结果更加精确。

本发明的一些具体的实施例中，所述Halpotype的promoter的Mut_rate设置为0.85，intron2的Mut_rate设置为0.75；

本发明的另一些具体的实施例中，所述Halpotype的promoter的Mut_rate设置为0.75，intron2的Mut_rate设置为0.75；

本发明的另一些具体的实施例中，所述Halpotype的promoter的Mut_rate设置为0.95，intron2的Mut_rate设置为0.75；

本发明的另一些具体的实施例中，所述Halpotype的promoter的Mut_rate设置为0.85，intron2的Mut_rate设置为0.65；

本发明的另一些具体的实施例中，所述Halpotype的promoter的Mut_rate设置为0.85，intron2的Mut_rate设置为0.85；

结果表明，promoter的Mut_rate设置为0.85，intron2的Mut_rate设置为0.75时的检测结果最准确。

同时，本发明也对是否就借助于Halpotype进行分型结果判读进行了研究，结果表明，借助于Halpotype进行分型的分型结果更准确。

本发明中，对样本进行分型，所述分型包括CYP21A1P/CYP21A2嵌合体和/或TNXA/TNXB嵌合体分型中的至少一种，所述CYP21A1P/CYP21A2嵌合体分型类型包括CH-1、CH-2，CH-9、CH-6，CH-3、CH-8中的至少一种，所述TNXA/TNXB嵌合体的分型类型包括CAH-X:CH-1、CAH-X:CH-2、CAH-X:CH-3中的至少一种。

本发明利用一对引物实现目的基因的三代测序和检测分析并分型，与现有技术中采用多对引物的方案相比，更有利于实现样本的高通量检测；本发明中所述检测区段为6号染色体的32037614～32046170的CYP21A2和TNXA基因区段，并适应性对检测分析、分型的步骤和参数进行调整，从而能更好的使检测分型结果准确可靠；本发明的设计思路可为后续设计真假基因嵌合体分型检测方法提供思路。

本发明中，利用软件对样本DNA分型的判读依据为分型的关键突变，分型关键突变如下所示：

若样本6号染色体32038514位exon1区域的C变为T，则对应分型为CAH:CH4；

若样本6号染色体32038560位exon1区域的C变为A，则对应分型为CAH:CH4

若样本6号染色体32038855位intron2插入TTG，则对应分型为CAH:CH4

若样本6号染色体32039020位intron2区域的G变为A，则对应分型为CAH:CH9

若样本6号染色体32039027位intron2区域的C变为A，则对应分型为CAH:CH9

若样本6号染色体32039081位intron2区域的C/A变为G，则对应分型为CAH:CH6

若样本6号染色体32039133～32039140位exon3区域的GAGACTAC，则对应分型为CAH:CH1

若样本6号染色体32039426位exon4区域的T变为A，则对应分型为CAH:CH2

若样本6号染色体32039807位exon6区域的T变为A，则对应分型为CAH:CH7

若样本6号染色体32039810位exon6区域的T变为A，则对应分型为CAH:CH7

若样本6号染色体32039816位exon6区域的T变为A，则对应分型为CAH:CH7

若样本6号染色体32040110位exon7区域的G变为T，则对应分型为CAH:CH5

若样本6号染色体32040182位exon7区域插入T，则对应分型为CAH:CH5

若样本6号染色体32040421位exon8区域的C变为T，则对应分型为CAH:CH3

若样本6号染色体32040535位exon8区域的C变为T，则对应分型为CAH:CH8

若样本6号染色体32041874位exon43区域的C变为T，则对应分型为CAH-X:CH3

若样本6号染色体32041884位exon43区域的C变为T，则对应分型为CAH-X:CH3

若样本6号染色体32042349位exon41区域的C变为T，则对应分型为CAH-X:CH3

若样本6号染色体32042485位exon40区域的G变为C，则对应分型为CAH-X:CH2

若样本6号染色体32043719～32043838位intron35和exon35区域的122bp缺失，则对应分型为CAH-X:CH1

本发明中，所述的检测方法中的DNA样本来源包括血液、血浆、细胞培养上清、唾液、精液、羊水、骨骼或毛发中的至少一种。

本发明提供了如下A)～C)所示中的任意一种在制备脊髓小脑性共济失调的诊断剂中的应用：

A)、本发明所述的引物组；

B)、本发明所述的试剂盒；

C)、本发明所述的检测方法。

本发明所述的检测方法可用于诊断剂开发中涉及试剂或试剂体系性能的评价，结合本发明的检测方法，对诊断试剂成分配比进行调整，然后根据检测结果判定诊断剂的技术效果。

本发明提出了一种采用特异性long range PCR结合PacBio三代HiFi长度长测序技术，利用一对引物实现对CYP21A2基因和TNXA基因的SNV、INDEL、拷贝数变异、嵌合体的准确检出，并对CYP21A1P/CYP21A2嵌合体(CAH CH1-9)、TNXA/TNXB嵌合体(CAH-X CH1-3)进行精准分型的方法，为其他涉及真假基因嵌合体分型提供了研究思路，同时也为利用常规技术未获诊断的患者提供更多的检测方向和可能性。

附图说明

图1示技术方案流程图；

图2示三代测序平台的示例数据；

图3示需要二次检测样本示例，红色方框内为检测缺失区域；

图4示需要二次检测样本第一次检测，1519行缺失，未能检测到该位点的变异；

图5示需要二次检测样本第二次检测，检测到1519行8碱基缺失突变；

图6示分型逻辑图；

图7示Hap_rate计算示例，其中左侧1代表初始行，38为关键位点分型所在行；

图8示CAH-X CH-1型+c.293-13C>G和p.(Gly111Valfs*21)复合杂合分型结果，其中，c.293-13C>G表示6号染色体的32039081位intron2的C突变成G，此突变为分型关键突变，为CAH:CH6型；p.G111Vfs*21表示6号染色体的32039133～32039140位exon3的GAGACTAC缺失，此突变为分型关键突变，为CAH:CH1型；p.I173N表示6号染色体的32039426位exon4的T突变为A，为分型的关键突变，属于CAH:CH2型；E6 cluster表示6号染色体的32039807、32039810或32039816位的T变为A；除此之外，此样品还具有p.Q319X TNXB:p.G3813fs、TNXB:p.C4060W突变发生；

图9示CAH-CH1型+p.I173N复合杂合分型结果，其中，p.G111Vfs*21表示6号染色体的32039133～32039140位exon3的GAGACTAC缺失，此突变为分型关键突变，为CAH:CH1型；p.I173N表示6号染色体的32039426位exon4的T突变为A，为分型的关键突变，属于CAH:CH2型；除此之外还有c.293-13A>G突变。

具体实施方式

本发明提供了实现CYP21A2等特殊基因变异精准分型的方法，本领域技术人员可以借鉴本文内容，适当改进工艺参数实现。特别需要指出的是，所有类似的替换和改动对本领域技术人员来说是显而易见的，它们都被视为包括在本发明。本发明的方法及应用已经通过较佳实施例进行了描述，相关人员明显能在不脱离本发明内容、精神和范围内对本文的方法和应用进行改动或适当变更与组合，来实现和应用本发明技术。

本发明提出了一种采用特异性long range PCR结合PacBio三代HiFi长度长测序技术，实现对CYP21A2基因SNV、INDEL、拷贝数变异、嵌合体的准确检出，并对CYP21A1P/CYP21A2嵌合体(CAH CH1-9)、TNXA/TNXB嵌合体(CAH-X CH1-3)进行精准分型的方法，为常规技术未获诊断的患者提供更多的检测方向和可能性。

技术方案整体流程汇总如下，具体流程如图1所示：

1.原始数据质控；

2.参考基因组构建及序列比对；

3.真假基因差异位点文件构建；

4.变异检测；

5.haplotype分析；

6.变异结果注释；

7.基于注释结果的融合精准分型。本发明采用的试材皆为普通市售品，皆可于市场购得。

下面结合实施例，进一步阐述本发明：

实施例1 CYP21A1P/CYP21A2嵌合体(CAH CH1-9)、TNXA/TNXB嵌合体(CAH-X CH1-3)进行精准分型的方法

一、原始数据质控

作用：原始测序数据有些数据的质量较低，这些低质量的数据会影响后续数据分析准确性，因此需要进行校正。同时原始数据中存在非特异性扩增片段，这些序列不是目标序列，因此需要去除。

质控过程：

A.获取原始BAM数据。

Pacbio的BAM文件不同于常见的比对结果BAM文件，其未与基因组进行比对，主要作用是序列储存。BAM文件各列格式和比对的BAM文件一致。可以用samtools view命令查看bam文件。图2为三代测序平台的示例数据，每1行代表一条read信息，共包含12列；

第1列：reads信息{movieName}/{holeNumber}/{qStart}_{qEnd}

MovieName是cell的名字，holeNumer是ZMW孔的编号，qStart和qEnd是subreads相对于ZMW reads的位置。

第2列(sum of flags)：比对信息；4代表没有比对上(只储存了序列信息，没有比对信息)；

第3列(RNAM)：参考序列；*代表无参考序列；

第4列(position):比对上的第一个碱基位置；

第5列(Mapping quality):比对质量分数；

第6列(CIGAR值):比对的具体情况；

第7列(MRNM,):mate对应的染色体；

第8列(mate position):mate对应的位置；

第9列(ISIZE,Inferred fragment size):推断的插入片段大小；

第10列(Sequence):序列信息；

第11列(ASCII码):碱基质量分数；ASCII+33

第12列：可选区域；记录Reads的总体属性包括信号长度，信号强度等信息；

B.利用PacBio的配套软件ccs进行序列校正，并转化成FASTQ格式，获得高质量的测序数据。命令行如下：

ccs--reportFile＝Sample.ccs.stat–j 8Sample.subreads.bamSample.ccs.bambam2fastq-u-o Sample.ccs Sample.ccs.bam

C.使用seqkit根据正反向引物(正向引物：GGTGGGCTGTTCTCCATTCA；反向引物：CTGCTGTGCATGGCTTTAGC)进行扩增区域(chr6:32037614～32046170)reads提取，以过滤掉非特异性扩增序列。

命令行如下：Seqkit amplicon-F GGTGGGCTGTTCTCCATTCA-RCTGCTGTGCATGGCTTTAGC-m 2Sample.ccs.fq-o Sample.target.fq.gz

参数说明：

-m 2：提取扩增片段时设置允许2个碱基的错配。该值越大，有效数据率越高，但是相应的数据准确性越低。既要保证有足够的数据量用于后续分析，也要保证数据的准确性避免造成分析结果假阳性，该设置可以兼顾。

二、参考基因组构建及序列比对

作用：根据扩增序列构建参考基因组，并进行扩增区域reads比对，以便进行变异检测。

A.从公共基因数据库(UCSC)中，以hg38为参考基因组，获取CYP21A2扩增区域序列与其对应的CYP21A1P高度同源区域的FASTA格式文件(下文以CYP21A2.fa表示真基因对应扩增区域的序列；CYP21A1P.fa表示假基因与真基因对应区域的序列)；

B.输入CYP21A2.fa，采用序列比对软件创建参考基因组的比对索引，生成的相关文件包括CYP21A2.fa.fai,CYP21A2.bed；

C.通过比对工具，利用扩增区域的FASTQ数据和参考基因组CYP21A2.fa进行序列比对，得到样本的原始比对BAM文件；

命令行如下：minimap2-ax map-pb-t 8CYP21A2.fa-R"@RG\tID:Sample\tSM:Sample"Sample.target.fq.gz|samtools view-bS|samtools sort-o Sample.sort.bam

samtools index Sample.sort.bam

三、真假基因差异位点文件构建；

作用：获取真假基因的差异位点变异，方便后续判断融合分型。

A.以CYP21A1P.fa为参考基因，将CYP21A2.fa比对到CYP21A1P，获取hg38参考基因组上CYP21A2和CYP21A1P所有的差异性位点。命令如下：

根据hg38参考基因组位置信息将比对结果后的差异位点的位置信息进行转换，同时将差异位点进行人工校正修订。

表1.真假基因CYP21A2和CYP21A1P差异位点

表2.真假基因TNXB和TNXA差异位点

B.统计真假基因差异位点所处的exon/intron位置及对应的变异数目，并记录在CYP21A2.exon.bed。

四、变异检测；

作用：获取检测样本的SNP，InDel等突变信息。

A.使用freebayes对比对步骤生成的BAM进行变异检测，获得vcf文件；

命令行如下：

freebayes-f CYP21A2.fa-b Sample.sort.bam-F 0.01-u-X>Sample.raw.vcf

B.使用freebayes对比对步骤生成的BAM进行特殊位点二次变异检测，获得vcf文件；命令行如下：

freebayes-f CYP21A2.fa-b Sample.sort.bam-F 0.01-u-X-tA2_A1P.diff.bed|grep-v"^#">>Sample.raw.vcf

参数说明：

-F 0.01：只保留变异频率大于该值的位点。该值过大可能会漏掉真阳性变异位点，过低则会造成假阳性，同时降低运行速度。软件默认该参数设为0.2，按该设置进行分析，最终的结果中会漏掉部分阳性位点，导致最后分型不准。该值设置有效避免了真阳性位点的漏检。

针对特殊位点需要二次检测，如图3所示，

否则可能会造成漏检。该样本在1519位置可以明显观察到8bp的缺失，但是在一次检测时并未检测到该位点的变异，如图4所示；在单独针对该位点的二次检测时检测到该变异，如图5所示。

C.对变异vcf进行多态拆分，坐标位置转换等，获得Sample.fix.vcf五、Halpotype分析；

作用：获取每个位点的单倍型信息，有效识别复合杂合突变情况，可以更加准确的判断分型。

A.对原始的变异vcf文件进行多态拆分，genotype调整等步骤，获得Sample.hap.vcf；

B.使用单倍型分析软件HAPCUT2进行单倍型分析；

命令行如下：

extractHAIRS--ep 1--indels 1--bam Sample.sort.bam--VCFSample.hap.vcf--out Sample.fragment.txt

HAPCUT2--fragments Sample.fragment.txt--VCF Sample.hap.vcf--outputSample.hap.txt--t 50

C.整理单倍型分析结果，获得Sample.hap.fix.txt结果，方便后续复合杂合突变的精准分型。

六、变异结果注释；

作用：获取每个突变位点的注释信息，以便对变异结果进行进一步筛选和解读。

A.使用Annovar对变异结果进行常规注释；

B.根据真假基因差异位点文件A2_A1P.diff.bed进行来源于假基因的变异注释；

七、基于注释结果的融合精准分型；

作用：根据最终的注释结果，对真假基因融合进行精准分型。

A.根据注释结果，获取判定分型的关键突变(将影响真假基因融合分型的突变称为关键突变)信息，判定分型的关键突变如表3和表4：

a.该突变位于exon或intron编号及其对应的分型；

b.Mut_rate：实际检测到的差异突变/真假基因参考差异突变数目(按该突变所在exon或intron编号划分)；

c.Tag_rate：实际检测到的关键突变/真假基因参考关键突变数目(按该突变所在exon或intron编号划分)；

例1：变异p.I173N：exon4；Mut_rate＝1；Tag_rate＝1，表示p.I173N突变位于4号外显子，实际检测到exon4的真假基因突变比例为1，同时该突变为关键突变，关键突变比例也为1。

表3.真假基因CYP21A2和CYP21A1P判定分型的关键突变位点

表4.真假基因TNXB和TNXA判定分型的关键突变位点

B.根据Halpotype结果计算关键突变的Hap_rate(单倍型比例)，其计算方法如下：

a.获取关键位点的分型(0或1)以及所在行，所在行为N；

经过大样本分析结果发现：越靠后的位点复合杂合突变的现象越频繁，所以N选择当前行而非所有行，可以有效避免因为单倍型计算偏差导致最终分型结果错误。

b.获取首行到当前位点行与该样本位点分型一致的行数，记为n；

c.Hap_rate＝n/N；

如图6所示，关键位点分型所在行为38行，此时N为38，n为2，Hap_rate值为2/38。此处所述的行，为使用前面比对和变异检测(bam和vcf文件)数据，使用默认参数进行分析的结果，利用Halpotype进一步分析后自动显示于该位置行。

C.根据每个exon或intron内的Tag_rate，按不同的阈值，给每个exon或intron的突变打上Label：大于该阈值则返回该exon或intron对应的分型类型；否则返回“NO”。

阈值选择说明：

Tag_rate阈值为1：因为每个exon或intron区域内的关健突变较少，只有1个或者2个，所以该阈值需要设定的足够高，为1；

Mut_rate根据每个promtor、exon或intron区域内设定不同：对于差异突变较多的promtor和intron2区，阈值设定稍低，分别为0.85，0.75；对于差异突变较少的其他区域依然设为1。

promtor和intron2区为判断是否为融合的关健区域，为确保存在融合的样本可以顺利通过该设定，进入到后续的分型阶段，条件要相对宽松，该阈值是根据大量样本的人工解读结果进行确认的。

例2：突变p.I173N：exon4；Mut_rate＝1；Tag_rate＝1→Label exon4:CH-2突变p.I173N：exon4；Mut_rate＝0；Tag_rate＝0→Label exon4:NO

D.根据label进行分型：如果出现连续两个“NO”，则返回上一分型结果；如果出现一个“NO”，则继续判读直到出现连续两个“NO”。

E.当影响不同分型的关键突变只有1个时(CH-1&CH-2，CH-9&CH-6，CH-3&CH-8，CAH-X:CH-1&CH-2，CAH-X:CH-2&CH-3)，为了避免复合杂合突变造成的干扰，需要该位点的Hap_rate值加以辅助。当Hap_rate>0.5时，返回当前分型结果，否则返回上一分型结果。

分型逻辑图如图7。

八、PacBio三代扩增子分型结果示例

(1)CAH-X CH-1型+c.293-13C>G和p.(Gly111Valfs*21)复合杂合，如图8。

图8中，c.293-13C>G表示6号染色体的32039081位intron2的C突变成G，此突变为分型关键突变，为CAH:CH6型；p.G111Vfs*21表示6号染色体的32039133～32039140位exon3的GAGACTAC缺失，此突变为分型关键突变，为CAH:CH1型；p.I173N表示6号染色体的32039426位exon4的T突变为A，为分型的关键突变，属于CAH:CH2型；E6 cluster表示6号染色体的32039807、32039810或32039816位的T变为A，属于CAH:CH7型；p.Q319X表示6号染色体的32040421位exon8的C变为T，为分型的关键突变，属于CAH:CH3型；TNXB:p.G3813fs表示6号染色体的intron35和exon35位置122bp缺失，为分型的关键突变，属于CAH-X:CH2型；TNXB:p.C4060W表示6号染色体的32042485位exon40的G突变位C，为分型的关键突变，属于CAH-X:CH2。在软件中经上述分析对分型结果直接判读和显示(如第七部分基于注释结果的融合精准分型的例2)，不需要人工解读，大大缩减了人力解读的时间和成本。

由此可见，该方法可准确检测到SNV，还可对CYP21A2融合基因做精确分型，而MLPA因探针设计的局限性无法区分所有类型。

(2)CAH-CH1型+p.I173N复合杂合，如图9；

图9中，p.G111Vfs*21表示6号染色体的32039133～32039140位exon3的GAGACTAC缺失，此突变为分型关键突变，为CAH:CH1型；p.I173N表示6号染色体的32039426位exon4的T突变为A，为分型的关键突变，属于CAH:CH2型；c.293-13A>G表示6号染色体的32039081位intron2的A突变成G，此突变为分型关键突变，为CAH:CH6型。图9中，Allele1代表等位基因1，Allele2代表等位基因2，两者是位于一对同源染色体的相同位置上控制着相对性状的一对基因。

该方法可以准确给出CYP21A2基因融合类型，还可容易地检测2个以上变异的顺反式位置，直接确认致病性，无需额外验证父母。

(3)48例样本分析结果展示如表5

表5. 48例样本不同分析方法结果比较

/>

说明1：家庭16的父亲和母亲样本，与MLPA+Sanger结果不一致，是因为MLPA的探针设计的局限性，导致误检，本方法可以弥补MLPA方法的不足，进行准确检测；

说明2：家庭16的母亲样本，与其他专利检测结果不一致，是由于其他专利方法(CN113564247 B)使用的差异位点不足(34个)，而我们使用了全部差异位点(98个)作为辅助判断，结果更准确；

说明3：家庭18的两个样本，与MLPA+Sanger结果不一致，是因为MLPA的探针设计的局限性，导致误检，本方法可以弥补MLPA方法的不足，进行准确检测。

(4)不同阈值48例样本分析结果比较

表6.48例样本是否使用haplotype分析结果比较

/>

/>

表6中，无haplotype分析的判定结果不够准确，其中，无haplotype分析时，样本6和样本8判断错误。所述无haplotype分析指不进行第七部分基于注释结果的融合精准分型的B和E步骤，对结果进行直接判读。

表7. 48例样本promter区域不通过不同突变阈值分析结果比较

/>

表7中，promtor＝0.95；intron2＝0.75时，样品5和样品31结果判定不准确；promtor＝0.75；intron2＝0.75时，样品12结果判定不准确。

表8. 48例样本intron2区域不同突变阈值分析结果比较

/>

表8中，promtor＝0.85；intron2＝0.85时，样品5结果判定不准确；promtor＝0.85；intron2＝0.65时，样品44和48结果判定不准确。

以上仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.引物组，其靶向序列为6号染色体的32037614～32046170的CYP21A2和TNXA基因区段。

2.根据权利要求1所述的引物组，其特征在于，

所述引物组包括正向引物和反向引物；

正向引物具有如SEQ ID NO:1所示的核苷酸序列；

反向引物具有如SEQ ID NO:2所示的核苷酸序列。

3.根据权利要求1或2所述的引物组，其特征在于，

所述barcode长度为5～50nt。

4.试剂盒，其包括权利要求1～3任一项所述的引物组、用于扩增的试剂、和/或用于三代测序的试剂。

5.根据权利要求4所述的试剂盒，其特征在于，所述用于三代测序的试剂包括固相载体、接头序列、接头封闭序列、PCR反应缓冲液、无核酸酶的水、DNA聚合酶、分子量marker、靶序列洗脱液、末端修复酶、末端修复缓冲液、DNA连接酶中的至少一种。

6.CAH嵌合体突变和分型的检测方法，其包括如下步骤：

步骤1、利用权利要求1～3任一项所述的引物对DNA样本进行扩增后三代测序，获得测序数据；

7.根据权利要求6所述的检测方法，其特征在于，

步骤2中，

提取测序数据步骤为：利用如SEQ ID NO:1和SEQ ID NO:2所示的引物组提取特异性扩增序列，提取数据每个read允许2个碱基的错配；

所述参考序列来源于hg38；

步骤3中，变异位点检测的变异频率F设置为0.01；

步骤6中，判定样本分型的关键突变后，根据关键突变位点的突变比例给样本突变打上分型标签；精准分型时，设置Tag_rate阈值为1，promtor的Mut_rate为0.85，intron2的Mut_rate为0.75，实际检测到的关键突变等于Tag_rate阈值，则返回该exon或intron对应的分型类型；否则返回“NO”，直至连续出现两个“NO”，则返回上一分型结果；出现一个“NO”，则继续判读直到出现连续两个“NO”，并返回上一分型结果。

8.根据权利要求6或7所述的检测方法，其特征在于，步骤6中，影响不同分型的关键突变只有1个时，为了避免复合杂合突变造成的干扰，需要该位点的Hap_rate值加以辅助，Hap_rate>0.5，则返回当前分型结果，否则返回上一分型结果；

所述Hap_rate＝n/N，其中，

N为分型关键位点的所在行，

N为首行到当前位点行与该样本位点分型一致的行数。

9.根据权利要求6～8任一项所述的检测方法，其特征在于，所述DNA样本来源包括血液、血浆、细胞培养上清、唾液、精液、羊水、骨骼或毛发中的至少一种。

10.如下A)～B)所示中的任意一种在制备脊髓小脑性共济失调的诊断剂中的应用：

A)、权利要求1～3任一项所述的引物组；

B)、权利要求4或5所述的试剂盒；

C)、权利要求6～8任一项所述的检测方法。