CN116083605B

CN116083605B - 一种包含67个高效能常染色体微单倍型的遗传标记体系及其检测引物和应用

Info

Publication number: CN116083605B
Application number: CN202310227515.4A
Authority: CN
Inventors: 梁伟波; 屈胜秋; 薛佳铭; 谭梦煜; 张冉冉; 杨帆; 吕梅励; 刘桂宏; 郑亚子; 吴秋硕
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2023-03-09
Filing date: 2023-03-09
Publication date: 2024-01-30
Anticipated expiration: 2043-03-09
Also published as: CN116083605A

Abstract

本发明公开了一种包含67个高效能常染色体微单倍型的遗传标记体系及其检测引物和应用。该遗传标记体系mh01ZL‑014、mh01ZL‑015、mh01ZL‑016、mh01ZL‑017、mh01ZL‑018、mh01ZL‑019、mh01ZL‑020、mh02ZL‑011、mh02ZL‑012、mh02ZL‑013、mh02ZL‑014、mh02ZL‑015、mh02ZL‑016、mh02ZL‑017、mh02ZL‑018、mh02ZL‑019、mh02ZL‑020、mh03ZL‑009等67个位点。本发明在传统微单倍型筛选的基础上，将InDels纳入微单倍型中进行全基因组的筛选，构建的遗传标记体系具有无扩增偏差、片段短、扩增子短、突变率低等优点，用于法医检测的个体识别，亲缘关系分析，混合样本的检测时，具有很好的应用潜力。

Description

一种包含67个高效能常染色体微单倍型的遗传标记体系及其检测引物和应用

技术领域

本发明属于法医学鉴定技术领域，具体涉及一种包含67个高效能常染色体微单倍型的遗传标记体系及其检测引物和应用。

背景技术

微单倍型(Microhaplotype，MHs)遗传标记，为Kidd教授等人2013年首次提出，其定义为基因组中片段长度在300bp以内，包含2个及以上紧密分布的SNP(singlenucleotide polymorphisms，单核苷酸多态性)的区域。有效等位基因数目(Effectivenumber of alleles,A_e)是指一个MHs位点上基因频率相等或相近的等位基因的数目，A_e的值越大，MHs多态性程度越大。与STR(short tandem repeat，短串联重复序列)、SNP相比，MHs具有数量多、分布广、多态性较好、突变率较低、重组率较低、无优势扩增、扩增子片段短以及不会产生stutter峰等特点。MHs兼具STR和SNP的优势，在混合样本分析，生物地理学祖先推断，复杂亲缘关系鉴定等法医学领域展现出巨大的应用潜力。

DIP或InDel(Deletion/Insertion Polymorphism，缺失/插入多态性)在很多特性上与SNP相似，突变率较低，且一旦发生突变后不容易再次突变，扩增子片段可以小于200bp且不会产生stutter峰，可携带祖先信息等。在筛选MHs的过程中，往往会发现多个紧密相连的SNP之间存在一个或者多个InDel，此时去除InDel保留SNP，将导致MHs断开，大大减少MHs的多态性。因此，我们认为可以将InDel纳入MHs的广义范畴内，这样不仅保留了MHs的主要优势，而且能够扩大筛选位点数量，在一定程度上增大了可筛选的MHs的多态性。综上所述，我们认为在300bp片段长度范围内，由2个及2个以上紧密分布的SNP或者InDel组成的遗传标记可以认为是广义的MHs微单倍型。

在法医遗传学上，复杂亲缘关系鉴定问题至今还未能得到很好的解决。比如Sun等人针对中国南北方群体筛选出新的30个微单倍型位点，与6个之前报道的位点共同构建了基于二代测序平台的MHs体系，其平均A_e值3.8，目标片段长度区间在63-419bp。使用19个STR位点在55对叔侄或祖孙样本亲缘关系鉴定中有2例错误，7例无法排除。

发明内容

针对现有技术中的上述不足，本发明提供一种包含67个高效能常染色体微单倍型的遗传标记体系及其检测引物和应用，本发明在传统微单倍型筛选的基础上，将InDels纳入微单倍型中进行全基因组的筛选，构建的遗传标记体系具有无扩增偏差、无stutter峰、片段短、扩增子短、突变率低、重组率低、多态性高的优点。本发明构建的遗传标记组合能够有效的用于法医检测，具有良好的重复性、极高的灵敏度、稳定性和系统效能高，且用于法医检测的个体识别，亲缘关系分析，混合样本的检测具有很好的应用潜力。

为实现上述目的，本发明解决其技术问题所采用的技术方案是：

一种包含67个高效能常染色体微单倍型的遗传标记体系，该遗传标记体系包括的位点信息如表1所示。

表1 67个微单倍型遗传标记的具体信息

一种扩增上述遗传标记体系的引物组，该引物组中的引物序列如SEQ ID NO.1～140所示，具体见表2。

上述引物组在法医学鉴定中的用途。

一种法医学鉴定用试剂盒，包括上述引物。

进一步地，试剂盒可用于进行个体识别鉴定或亲缘关系鉴定。

进一步地，还包括缓冲液、DNA聚合酶和dNTP。

上述试剂盒的使用方法，提取待测样品的基因组DNA为模板，用试剂盒进行多重PCR扩增，得到的扩增产物再进行接头序列PCR反应得到扩增文库，对扩增文库进行定量和二代测序检测分析，得到微单倍型基因座的分型结果。

进一步地，提取待测样本的基因组DNA为模板，用试剂盒进行第一轮多重PCR反应(2小时)，使用我们定制的微单倍型位点集(北京东升创新生物技术有限公司)，扩增子在197-300bp之间，进行第一轮磁珠纯化(35分钟)。第二轮包括接头序列PCR反应。通过将Illumina公司的下一代测序接头序列引入扩增产物的两侧获得扩增文库(25分钟)。第二轮磁珠纯化(35分钟)后，对样本进行严格的浓度测量和质量检验。随后，在IlluminaNovaSeq 6000系统上使用PE150双端测序模式的扩增子靶向捕获进行测序。

进一步地，基因组DNA的浓度均大于18ng/μL。

进一步地，67个人类微单倍型位点扩增引物的混合物中，每个引物的浓度为0.2-1.36μM。

本发明的有益效果：

本发明提供的67个人类微单倍型位点的引物可以在同一体系中特异性地扩增得到上述67个微单倍型位点，引物对相互之间不会产生干扰，可以满足多重PCR的要求，进一步提高了法医学鉴定分析的稳定性和准确性，并简化了法医学鉴定的操作步骤，尤其对降解混合样本检测有效，具有很高的应用价值。

本发明中构建了含有67个高识别力微单倍型位点的多重检测体系，利用IlluminaNovaSeq 6000平台对标准品2800M、124个中国西南汉族个体进行检测，得到67个位点具有良好的重复性、极高的灵敏度和稳定性。与常用的常染色体STRs、SNPs或已发表的MH panel相比，结果表明我们的67plex MH panel的位点中65个位点均未在本领域专业期刊公开发表过，且首次将InDel纳入MHs中，平均A_e值为5.34，具有更高的遗传多态性，在个体识别、混合斑解释、亲属关系分析等法医应用方面具有更大的价值。同时，检测动物样本、158个亲缘样本及混合斑样本，本发明鉴定的系统效能高，混合样本的检测能力强，亲缘分析能力强，在法医实际检案中具有很好的应用潜力。

附图说明

图1为233个样本的测序组目标区域平均覆盖率(A)和67MHs的平均覆盖深度(DOC，左轴和绿线)和等位基因覆盖深度比例(ACR，右轴和黑绿色直方图)(B)；

图2测序的124个中国西南汉族无关个体的67MHs的等位基因频率；

图3为随机样本(编号W-07)中mh14ZL-004的三种分析方法实例；

图4为基于1-3级亲属真实亲属样本与无关样本的log₁₀ ^(LR)的频率直方图(上)和基于模拟10000对无关个体和1-3级亲属个体的log₁₀ ^(LR)密度分布图(下)。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

下述实施例中的实验方法，如无特殊说明，均为常规方法，按照本领域内的文献所描述的技术或条件或者按照产品说明书进行。下述实施例中所用的材料、试剂等，如无特殊说明，均可从商业途径得到。利用自制的MHs筛选软件(R语言和Python脚本)结合PHASE软件对千人基因组中中国汉族群体的数据进行位点筛选工作(PHASE 3)。hg19人类基因组的信息：http://hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips。千人基因组群体基因分型数据：https://ftp-trace.ncbi.nih.gov/1000genomes/ftp/release/20130502/ALL.chr1-22.phase3_shapeit2_mvncall_integrated_v5a.201301282.genotypes.vcf.gz。

实施例1微单倍型筛选

一、MH的选择

利用Vcftools提取千人基因组中105名中国南方汉族人群(CHS)的SNP及InDels基因型数据。提取CHS中220bp内包含两个或多个变异位点(SNPs或者InDels)且理论有效等位基因数(A_e)值≥5的MHs。在此基础上，我们根据以下标准筛选候选MHs：1)所有MHs的SNP或InDel在千人基因组中显示最小等位基因频率(MAF)>0；2)理论A_e值≥5，高A_e值可以增强个体识别、混合斑解释和亲缘关系分析；A_e＝1/∑p_i ²,p_i为所有样本数据中现察到的单倍型的频率。3)以每个常染色体为单位，去除有重叠序列的MHs并选择A_e最大的MHs；4)去除碱基序列中有明显重复基序的MHs；5)选取物理位置≥10Mb的初始MHs集，避免位点间的连锁不平衡(LD)；6)仅能够设计出引物及成功复合扩增的MH。最后保留了理论A_e≥5的148个候选微单倍型。

实施例2设计检测引物

在获得148个候选微单倍型后，我们针对感兴趣区域(ROI)，即微单倍型的物理位置信息，基于hg19对各位点设计引物。基于热动力学稳定性，在ROI两侧设计了多个特异性引物；扩增子在197-300bp之间，覆盖率100％。然后我们使用引物评估软件对引物二聚和非特异性扩增进行评估，对设计和合成的引物进行测试，对检测效果较差的引物进行评估和更换。通过摸索实验条件，使多数引物扩增条件尽可能一致，筛选复合扩增效率好的酶进行扩增以达到实验要求。

通过分析实验所得数据证明，在Tm＝60℃，22个循环时所得位点个数最多、分型准确且测序深度较为均一。优化后的PCR扩增反应程序：95℃3min 30s；98℃20s、60℃4min，22个循环；72℃5min；4℃保存。

针对148个候选微单倍型位点设计引物并检测，进行了6轮优化，排除了非特异性扩增产物多、不同样本间扩增和测序偏差大、测序覆盖率低的MHs。保留120个MH以确保panel的最佳系统性能，并分布在22个常染色体上。我们在每个常染色体上观察到1-13个MH，每个MH包含2-18个变异位点(共775个，平均6.45)，标记长度为55-220bp(平均169.88bp)，扩增子为197-300bp(平均282.5bp)。最终复合扩增体系保留67个微单倍型的有效引物组合，包含70对引物(其中有1个位点具有2对引物，1个位点具有3对不同的引物)，用于检测67个微单倍型。67个微单倍型的长度和目标序列信息见表1(表中粗体下划线依次标注各个变异位点，InDel前标注*)，70对引物的详细信息见表2，表2中检测编号序列1位点的正向引物编号为SEQ ID NO.1，反向引物为SEQ ID NO.2，由此向下编号至SEQ ID NO.140。

表2 67个微单倍型的引物信息及在多重PCR反应体系中的输入体积

实施例3基于二代测序技术检测微单倍型位点

一、DNA样本准备

标准品样本：2800M Control DNA(Promega,Madison,WI,USA)。

随机无关样本：口腔拭子，血样采集自一位男性志愿者，编号W-07。

提取随机无关样本的基因组DNA，然后用TE缓冲液稀释至DNA浓度为1ng/μL，即为模板溶液。取标准品样本，用TE缓冲液稀释至DNA浓度为1ng/μL，即为模板溶液。共计两种模板溶液。

二、文库制备和二代测序

1、取模板溶液，进行第一轮多重PCR反应(2小时)，使用微单倍型位点集(北京东升创新生物技术有限公司)，扩增子在197-300bp之间，进行第一轮磁珠纯化(35分钟)。第二轮包括接头序列PCR反应。通过将Illumina公司的下一代测序接头序列引入扩增产物的两侧获得扩增文库(25分钟)。第二轮磁珠纯化(35分钟)后，使用Qubit^TM dsDNA HSAssay试剂盒对样本进行严格的浓度测量，再用Qsep400全自动核酸蛋白分析系统进行质量检验。随后，在Illumina NovaSeq 6000系统上采用PE150双端测序模式的扩增子靶向捕获进行测序。

2、Illumina NovaSeq 6000平台PE150双端捕获测序的流程为：

参照NovaSeq 6000System Denature and Dilute Libraries Guide(DoCument#1000000106351v03)的Protocol A变性和稀释构建好的文库和PhiX，参照IlluminaExperiment Manager Software Guide(DOCument#112831335v08)使用IEM软件编辑样本表格，参照NovaSeq 6000Sequencing System Guide(DoCument#1000000019358v14Material#20023471)进行上机测序。本实验选用的测序试剂为NovaSeq6000S4 Reagent试剂盒v1.5，PE150双端测序。

3、测序数据的分析

本发明共捕获124个中国西南汉族不相关个体的67个MH，并对其进行测序，获得完整的MH等位基因。经过Bonferroni校正后，我们观察到67个MHs在HWE(p＝0.05/67＝0.000746)或LD检测(p＝0.05/2211＝0.00002261)方面均无显著偏差(将MH处的所有等位基因相加，利用Arlequin v3.5软件计算Hardy-Weinberg平衡(HWE)的p值和连锁不平衡(LD)值)。使用所有67MHs的DOC和ACR对这些样本进行1.825-25.992ng输入DNA的基因分型，以评估panel测序性能。整体DOC为422-11733×,总体ACR为0.70～0.99，均值为0.90±0.09(图1B)。DOCs与ACR之间无相关性，结果显示我们67plex MH panel的测序性能很好。

实施例4群体遗传学参数的计算

1、从所有124个不相关个体的测序数据中计算出的单倍型(即等位基因)频率如图2和表3所示。每个MH有2-55个等位基因(平均12.8个)，其中16个MH有2-5个等位基因，17个MH有6-10个等位基因，23个MH有11-19个等位基因，11个MH有20个及以上等位基因。

2、获得了124个中国西南汉族个体的67个MHs的等位基因型、等位基因频率(AF)和法医统计参数，包括杂合度(Het)、A_e值、多态信息含量(PIC)、识别概率(DP)、累积识别概率(CDP)、非父排除概率(PE)、累积非父排除概率(CPE)、和排除二级亲属非父排除概率(PER)，见表4。基于等位基因频率(表3)，法医参数(表4)显示，Het、A_e和PIC分别为0.016～0.942(平均0.735)、1.016～17.296(平均5.532)和0.016～0.940(平均0.700)。67个MHs中，<3.0的A_e有20个，≥3.0且<5.0的有15个，≥5.0且<10.0的有24个，≥10.0的有8个。此外，还观察到DP、CDP、PE、CPE、PER和CPER分别为0.032-0.984(平均0.859)、8.77×10^-72、0.004-0.885(平均0.514)、6.73×10^-25、0.003-0.664(平均0.386)和5.05×10^-25(表4)。结果表明，我们的67-plex MH panel已经超过了常用的23个STRs或52个SNPs和其他几个已报道的MHpanel的效能，这表明我们的panel可能在未来的个体识别、混合斑解释、亲属关系检测方面的应用具有很好的前景。

表3测序的137个中国西南汉族无关个体的67MHs的等位基因频率。

表4测序的124个中国西南汉族无关个体的67个MHs的法医参数。

实施例5灵敏度和准确性的验证

将10,5,1,0.5,0.25和0.125ng的标准品2800M输入MPS平台。根据制造商的协议，所有DNA文库都是手工制备的，并在IlluminaNovaSeq 6000系统上运行。12个样本(1个样本×6个梯度×2次重复)置于同一NovaSeq 6000芯片上。对于2800M输入(10、5、1、0.5、0.25和0.125ng)的二次重复，我们在0.25ng的条件下检测到所有67MHs的完整分型。在0.125ng的第二次重复中，只观察到一次mh05ZL-004的丢失。

随机选择一个无关样本(编号W-07)和6个MH位点(mh14ZL-004、mh01ZL-017、mh06ZL-011、mh08ZL-008、mh07ZL-012及mh16ZL-002)，进行Sanger测序。将从MPS获得的bam原始文件输入到Integrative Genomics Viewer(IGV)中，对目标MH进行基因型分析，最后将我们实验室开发的分析方案(Python和R)获得的MH基因型与IGV和Sanger测序同时获得的MH基因型进行比较。在分析的MH位点和不相关个体中，我们没有观察到Sanger测序、IGV或我们分析方案之间不一致的单倍型。图3为随机样本中随机MH的三种分析方法对应的基因型，结果显示100％的一致性。图3显示了Sanger测序、IGV获得的基因型和我们的方案，框内表示目标SNP，截图只显示目标MH的物理位置和长度。

实施例6真实及模拟家系样本检测分析

为检验本方案在远亲关系鉴定中的应用价值，我们对检测的158个真实家系样本中一到二级亲属与无关个体的区分程度进行了分析(图4)。此外，我们利用124个中国南方汉族无关个体的人群等位基因频率，按照遗传规律模拟一级、二级、三级亲缘关系个体对与无关个体对各10000对，并计算log₁₀ ^(LR)密度分布图(图4)。从图中可以看出，该体系可以区分开一级亲属和无关样本，在二级和三级亲属中，无关个体和亲属个体的密度分布图的重叠面积仅为1.28％和18.73％，表明该体系可以作为补充体系，辅助常规STR体系进行复杂亲缘关系的判断。

实施例7物种特异性的区分

我们测试了常见的动物DNA，以评估本方案的特异性。采用与人类DNA相同的方法，对猫、牛、鸡、鸭、猪、兔和羊的动物DNA样本进行多重PCR靶向捕获测序，输入DNA量为3.753-6.1286ng。所有8个动物DNA样本的1μL DNA输入均未获得完整的基因型。对于动物DNA(兔、猫、羊、猪、鸭、牛和鸡)，其平均深度分别为2.39、2.91、15.56、15.45、7.89、6.59和12.36。根据上述检测数据表明，本方案构建的panel对不同动物样本的基因分型不完全，说明其对人类具有较强的特异性。

最后应说明的是，以上具体实施方式仅用以说明本发明的技术方案而非限制，尽管参照实例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种扩增67个高效能常染色体微单倍型遗传标记体系的引物组，其特征在于，所述引物组中的引物序列如SEQ ID NO.1~140所示。

2.权利要求1中所述引物组在个体识别鉴定或亲缘关系鉴定中的用途。

3.一种法医学鉴定用试剂盒，其特征在于，包括权利要求1中所述的引物组。

4.根据权利要求3所述的试剂盒，其特征在于，所述试剂盒可用于进行个体识别鉴定或亲缘关系鉴定。

5.根据权利要求3所述的试剂盒，其特征在于，还包括缓冲液、DNA聚合酶和dNTP。

6.权利要求3所述的试剂盒的使用方法，其特征在于，提取待测样品的基因组DNA为模板，用所述试剂盒进行多重PCR扩增，得到的扩增产物再进行接头序列PCR反应得到扩增文库，对扩增文库进行定量和二代测序检测分析，得到微单倍型基因座的分型结果。