CN115786455A - 一种基于mlpa-ngs方法用于司法鉴定的snp位点检测组合物及其应用 - Google Patents

一种基于mlpa-ngs方法用于司法鉴定的snp位点检测组合物及其应用 Download PDF

Info

Publication number
CN115786455A
CN115786455A CN202210820635.0A CN202210820635A CN115786455A CN 115786455 A CN115786455 A CN 115786455A CN 202210820635 A CN202210820635 A CN 202210820635A CN 115786455 A CN115786455 A CN 115786455A
Authority
CN
China
Prior art keywords
snp
probe
typing
sample
chromosome
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210820635.0A
Other languages
English (en)
Inventor
杨永臣
夏超然
濮阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangyin Jianhui Biotechnology Co ltd
Original Assignee
Jiangyin Jianhui Biotechnology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangyin Jianhui Biotechnology Co ltd filed Critical Jiangyin Jianhui Biotechnology Co ltd
Priority to CN202210820635.0A priority Critical patent/CN115786455A/zh
Publication of CN115786455A publication Critical patent/CN115786455A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种基于MLPA‑NGS方法用于司法鉴定的SNP位点检测组合物及其应用,检测组合物包括如SEQ ID NO.1~284所示的SNP探针对、如SEQ ID NO.285~286所示的通用引物的序列,如SEQ ID NO.287~288所示的左右侧探针端部的通用序列;每对探针均设置用于区分的特征性序列,以对测序结果进行各探针的reads数分析,从而分析SNP分型、样本的测序质量、核心家系亲子关系、X染色体父母来源;本发明还涉及含有上述检测组合物的SNP位点检测试剂盒及其使用方法。上述检测试剂盒检测信息量大,对X染色体拷贝数可达到SNP芯片的效果,灵敏度高,操作简便,便于大规模推广;与超多重PCR加二代测序的SNP检测方法相比,具有探针容易设计、所测模板长度可降低到50bp左右的优势。

Description

一种基于MLPA-NGS方法用于司法鉴定的SNP位点检测组合物 及其应用
技术领域
本发明涉及法医遗传学技术领域,尤其涉及一种基于MLPA-NGS方法用于司法鉴定的SNP位点检测组合物及其应用。
背景技术
基于毛细管电泳技术(Capillary Electrophoresis,CE)的PCR-STR复合荧光扩增检测是目前进行法医学鉴定的主要技术手段。短串联重复序列(short tandem repeat,STR)又称微卫星DNA(micro satellite DNA),是一类广泛存在于人类基因组中的DNA多态性基因座。它由2~6碱基对构成核心序列,呈串联重复排列。STR基因位点长度一般在100~300bp之间。因个体间DNA片断长度或DNA序列差异而成高度多态性,在基因传递过程中遵循孟德尔共显性方式遗传,因其基因片段短、扩增效率高、判型基本准确等特点,已广泛应用于法医学个体识别和亲子鉴定等领域。目前,法医学DNA数据库大部分均围绕STR基因座展开。但是STR也存在一定的缺陷,这些缺陷包括:STR基因座的突变率过高,有时给亲权鉴定带来困扰;PCR扩增子较长,在以降解检材为模板的检测中不易扩增;STR基因座的数量有限,难于进行复杂亲缘关系的鉴定;毛细管电泳技术中目前可供选择的荧光基团数量有限,不能实现大量STR基因座的并行检测。
SNP(Single Nucleotide Polymorphism,单核苷酸多态性)是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性,它是人类可遗传的变异中最常见的一种,占所有已知多态性的90%以上。SNP在人类基因组中广泛存在,可由单个碱基的转换或颠换所引起,也可由碱基的插入或缺失所致。与STR(自发突变率为10-3~10-5)相比,SNP具有相对较低的自发突变率(10-8);如使用PCR方法,单个的SNP位点扩增产物可以控制在200bp以下,有利于降解检材的分型;大量SNP为二等位基因,此特性也使其分型结果的分析简便易行,易于自动化处理。
在NGS(下一代测序技术),又称高通量测序技术成熟之前,SNP分型采用的技术平台主要包括:Mini sequencing(核心是单碱基延伸)、质谱分析,但只能完成几十个遗传标记的并行检测,难以满足SNP司法鉴定的数量需要。
高通量测序技术成熟之后,使用该技术可以对多达几千个SNP进行并行检测,具有:(1)节约检测样本量及检测时间;(2)对多样本并行检测;(3)将引物设计的尽可能短,提高降解检材的分型成功率等多种优点。由于此原因,美国Thermo Fisher Scientific公司在Ion Torrent PGMTM测序平台推出两款商业化SNP检测试剂盒,一是用于个体识别的“Precision ID Identity Panel”,试剂盒中共含有124个SNP位点,主要针对欧洲人群;另一个是用于族源信息分析的“Precision ID Ancestry Panel”,不适合个体识别和亲缘鉴定。美国Illumina公司推出可同时检测STR和SNP遗传标记的检测试剂盒ForenSeq DNASignature,其中含有95个用于个体识别的SNP位点,24个用于表型鉴定的位点,56个先祖SNP位点。中国司法部司法鉴定科学技术研究所的李成涛、张素华、边英男、刘希玲等人开发的”一种基于高通量测序的SNP位点的检测试剂盒及其检测方法“,包括了273个SNP位点(234个位于常染色体上、9个位于Y染色体上、30个位于X染色体上),可进行三联体亲子鉴定、二联体亲子鉴定、祖孙鉴定、同胞鉴定以及个体识别司法鉴定领域中的应用;片段文库集中于200bp以下,适用于法医学降解检材;所选位点面向中国人群,大大完善了SNP司法遗传检测在中国人群中的利用价值。吴良俊于2019年发表的硕士论文“1245个SNPs靶向捕获与高通量测序体系的构建及法医学应用初探”,是一种基于分子倒置探针技术(molecularinversion probe,MIP)的、以SNP为检测对象的高通量测序重SNP检测方法。该技术检测的SNP位点超过1000个,但每次每个样品中所能测出的SNP只有一半多一些,且在各个样本各次检测中变化极大,不适合用于司法鉴定。
然而,使用超多重PCR对SNP位点进行扩增,进而进行高通量测序的方法,也存在一些缺点:(1)由于扩增体系中包含了大量序列各异的引物,引物与引物之间的非特异扩增难以避免,而降低非特异扩增的引物设计手段极其复杂;降低非特异扩增的引物设计,必然减少对SNP位点选择的灵活性;(2)对SNP所在位点的扩增,产物长度虽可低于200bp但不能过低,对于降解检材检测的优势有限。
因此,基于上述现有SNP检测存在的各种不足,仍需要开发更多的多重的SNP检测方法。
发明内容
为了克服现有技术中存在的至少一个问题,本发明提供一种基于MLPA-NGS方法用于司法鉴定的SNP位点检测组合物及其应用,其设计了一套基于MLPA-NGS方法的、针对中国人群并覆盖人类全基因组的高多态性SNP检测体系,用于满足个体识别及亲权鉴定,为复杂疑难案件的解决提供更多的技术检测手段。与超多重PCR的建库方式相比,MLPA-NGS技术的探针设计基本无需考虑引物之间的非特异扩增,且由于一对探针覆盖50bp左右的模板,其可用于50bp长度左右的降解检材的检测。
为实现上述目的,本发明采用如下技术方案:
本发明的第一个方面是提供一种基于MLPA-NGS方法用于司法鉴定的SNP位点检测组合物,其包括SNP探针组合物和引物组合物;所述SNP探针组合物为分别设计于常染色体的66个SNP位点、X染色体的51个SNP位点、Y染色体的25个SNP位点的SNP探针对;所述引物组合物为用于扩增连接后的探针的带有index序列的通用引物,各所述探针对分别包括左侧探针和右侧探针,所述左侧探针的5’端和所述右侧探针的3’端分别包含一段通用序列,其作为所述通用引物扩增时的结合序列;其中,所述SNP探针对的序列如SEQ ID NO.1~SEQID NO.284所示;所述通用引物的序列如SEQ ID NO.285~SEQ ID NO.286所示,左侧探针的5’端的通用序列如SEQ ID NO.287所示,右侧探针的3’端的通用序列如SEQ ID NO.288所示。具体地,参与反应的探针整体序列为:左侧探针:5’-通用序列-结合模板DNA序列-3’,右侧探针:5’-结合模板DNA序列-通用序列-3’。
具体地,上述每一SNP位点包含两种基因型:野生型和突变型,测试完成后可给出SNP的分型;上述index序列用于区分不同的样本,上述SNP探针组合物在检测后可给出SNP的分型;上述各探针对中,右侧探针的5’端添加磷酸基团,以用于探针的连接。
进一步地,在上述检测组合物中,每条常染色体(基于GRCh38/hg38)上选择3个SNP位点,共66个位点,分别位于首尾和中间区域,因此同处一条染色体上的任意两个被选用的SNP,其距离大于1000K,在用于亲子鉴定时无需进行连锁分析;X染色体和Y染色体选择的SNP均以接近等距的方式分布。
具体地,设计于常染色体的66个SNP位点的探针对序列如SEQ ID NO.1~SEQ IDNO.132所示,设计于X染色体的51个SNP位点的探针对序列如SEQ ID NO.133~SEQ IDNO.234所示,设计于Y染色体的25个SNP位点的探针对序列如SEQ ID NO.235~SEQ IDNO.284所示。
可理解的是,上述SNP探针的选择及设计中,如果更换SNP位点设计新的探针,在其不对司法鉴定的分析产生根本影响的情况,均不应视为对本发明所记载的探针的本质改变。
进一步地,在上述检测组合物中,每一SNP探针对均各自具有3段用于司法鉴定的特征性序列;各所述探针对分别包括左侧探针和右侧探针,所述特征性序列分别为从左侧探针与模板DNA结合区域的左侧、左侧探针与右侧探针连接位置、右侧探针与模板DNA结合区域的右侧各截取的具有预定长度的碱基序列;其中,所述特征性序列的序列长度为10个碱基,所述特征性序列相互之间至少间隔一个碱基(例如间隔2~35个,具体为间隔3个、4个、5个……30个碱基等)。
具体地,使用上述检测组合物进行亲子鉴定时,为了分析各个SNP的等位基因型在fastQ文件中的reads数,需先设计相应探针的如上所述的特征性序列。每一SNP探针对的特征性序列的序列长度为10个碱基,每一SNP探针对可检测该SNP的两个等位基因,每个等位基因均包含3个特征性序列,两个等位基因的两小组探针特征性序列,仅在中间的特异序列有一个碱基的差异,该碱基分别对应野生型和突变型。上述构成了全部检测位点的特征性序列,如将包含简并碱基的一个SNP的探针视为两组探针,则任意一组特征性序列,与相应的探针是一一对应的。
可理解的是,在进行特征性序列设计时,可对序列的数量、长度、位置等进行适当调整,在保证对扩增产物分析无影响的前提下,其应不视为对本发明所记载的特征性序列的本质改变。
本发明的第二个方面是提供一种基于MLPA-NGS方法用于司法鉴定的SNP位点检测试剂盒,其包含如本发明的第一个方面中任一所述的SNP位点检测组合物。
进一步地,在上述检测试剂盒中,所述SNP探针组合物制备成探针工作液,所述探针工作液中每条探针浓度为0.2-20fmol/μL。具体地,所有的SNP探针取适量混合,配制为每条探针浓度为0.2-20fmol/μL的混合液,依测试结果优化浓度,确定最优的探针工作液,所述探针工作液的最优浓度为2fmol/μL。
进一步地,在上述检测试剂盒中,所述引物组合物中,每一通用引物的配制浓度为2~200pMol。具体地,优选10~50pMol,更优选20pMol的浓度,每一引物各自配制而不加混合,只在扩增不同样本的探针连接产物时,上下游引物进行不同的组合,以获得带有不同index、可区分样本的产物。
进一步地,所述检测试剂盒还包括MLPA缓冲液、连接酶、连接酶缓冲液、PCR缓冲液、dNTP、PCR酶中的至少一种。
进一步地,所述检测试剂盒中各组分的用量包括:50-250ng DNA样品5μL,MLPA缓冲液1.5μL,探针工作液1.5μL;连接酶缓冲液6μL,连接酶1μL;PCR缓冲液5μL,dNTP 4μL,PCR酶0.25μL,上下游通用引物各1μL。
可理解的是,在上述检测试剂盒中,对所用试剂及其浓度、用量等可进行适当的改变,其均不视为对上述试剂盒的本质改变。
基于上述探针序列、引物序列等源自Illumina二代测序的接头序列,扩增本身也是Illumina上机前的建库过程。可理解的是,也可进行调整采用其他合适的高通量测序平台;例如Roche/454测序平台、ABI SOLiD测序平台、Ion Torrent测序平台、CG测序平台等。
上述试剂盒涉及的序列信息如下表所示:
表1–探针、引物及特征性序列信息表
Figure BDA0003742334320000051
Figure BDA0003742334320000061
Figure BDA0003742334320000071
Figure BDA0003742334320000081
Figure BDA0003742334320000091
Figure BDA0003742334320000101
Figure BDA0003742334320000111
Figure BDA0003742334320000121
本发明的第三个方面是提供一种如本发明的第二个方面中任一所述的SNP位点检测试剂盒的使用方法,其包括步骤:DNA样品变性;SNP探针组合物与DNA样品进行探针杂交;采用连接酶和连接酶缓冲液进行杂交探针的连接;将探针连接产物与引物组合物进行PCR扩增;将PCR扩增产物测序,获得测序结果。
进一步地,上述检测试剂盒的使用方法具体包括步骤:
步骤S1、DNA变性和探针杂交:将DNA样品进行变性操作;将MLPA缓冲液与探针工作液充分混合,进行杂交反应,反应程序为:95℃2min,65℃至55℃,每降一度孵育1小时,然后在54℃保持3-10小时,获得杂交产物;
步骤S2、配制含有连接酶缓冲液的连接酶主液,将连接酶加入所述连接酶主液并混匀,54℃加热1分钟,于54℃恒温下加入所述杂交产物中混匀,继续孵育25分钟,于98℃加热5分钟,并冷却至20℃暂停,实现杂交探针的连接,获得连接产物;
步骤S3、将所述连接产物与PCR反应液进行PCR扩增反应,所述PCR反应液包括PCR反应缓冲液、dNTP、带有index的上下游通用引物、Taq酶,反应条件为:95℃30s,60℃30s,72℃60s,35个循环;72℃孵育20min,最后15℃孵育,获得PCR扩增产物;
步骤S4、从每个PCR扩增产物中各取适量样本,混合均匀,送NGS测序仪上测序,获得测序结果(具体为fastQ文件)。
在一具体实施方案中,上述检测试剂盒的使用方法可为:(1)第一天进行DNA变性和探针杂交,其方法是:将5微升DNA样品(50-250ng)加到PCR管中,98℃变性5分钟,冷却至25℃取出;将MLPA缓冲液(来自MRC-Holland公司)1.5μL与探针工作液1.5μL混合,加入样品管,充分混合;(2)继续热循环程序:95℃2min,65℃至55℃,每降一度孵育1小时,然后在54℃保持3-10小时;(3)第二天,配制连接酶-65主液:每个反应各含25μL dH2O+3μL连接酶缓冲液B+3μL连接酶缓冲液A,然后加入1μL连接酶-65酶,移液器轻轻吹打混合均匀;缓冲液A、B及连接酶-65均来自MRC-Holland公司;将混合物置PCR仪(54℃)加热1分钟,然后于54℃恒温下加入正在孵育的PCR管,混匀,继续孵育25分钟;(4)将上述反应于98℃加热5分钟,并冷却至20℃暂停,取出PCR管;(5)在进行PCR扩增时,所用PCR酶为来自Takara的HS Taq酶;50μL PCR反应液中包括以下成分:5μL反应缓冲液,4μL dNTP,带有index的上下游通用引物(20pMol)各1μL,连接产物10μL,酶0.25μL,加水补充到50μL;反应条件为:95℃30s,60℃30s,72℃60s,35个循环;72℃孵育20min,最后15℃孵育;(6)从每个PCR扩增产物中各取适量样本,混合均匀,冷冻保存,送Illumina公司生产的NGS测序仪上测序,获得测序的fastQ文件。
可理解的是,在上述使用方法中,对所用试剂、温度、孵育时间、测序仪器等可进行适当的调整,在不影响检测分析的前提下,应均不视为对上述检测试剂盒使用方法的本质改变。
进一步地,在上述使用方法中,每一探针对均具有用于司法鉴定的特征性序列,相关特征性序列的设计及其序列信息详见前述表格。
进一步地,在上述使用方法中,还包括根据所述测序结果进行结果分析的步骤,进行以下分析中的至少一种:分析探针reads数、确定SNP分型、判断样本的测序质量、判断核心家系亲子关系、判断X染色体及X染色体各区段父母来源。
进一步地,在上述使用方法中,当用于分析探针reads数时,其包括步骤:以每对探针的三段特征性序列的组合为待查找的文本,以fastQ文件中的每个reads为查找对象,以python中正则表达式的findall为查找函数,统计含有每个待查文本的reads的数量;其中,对于每个SNP,如果两种等位基因的reads数的和小于20,视为质量不合格,不予分析;通过质控的SNP,每个样本以野生型reads除以该样本SNP的总reads,得到该样本SNP的分型值,所述分型值的取值范围是[0,1]。
进一步地,在上述使用方法中,当用于确定SNP分型时,其包括步骤:使用所述试剂盒测试健康对照的群体样本,对于每个SNP分型值,绘制群体样本的各SNP各分型的分型值分布散点图,计算用以区分各SNP的各分型的分界点;基于所述分界点,对待测样本的相应SNP进行分型。
进一步地,在上述使用方法中,当用于判断样本的测序质量时,其包括步骤:当确定SNP分型后,多个正常样本的同一SNP的野生型或纯合突变型,其群体分型值可以用分型值的平均值加减标准差表示,所述群体分型值作为SNP的测量特征,用于判断该样本的检测质量;其中,所述平均值越大,说明测序质量越差。
可理解的是,本发明并不局限于基于MLPA-NGS原理设计的司法鉴定检测试剂盒或其检测方法的SNP分型。基于MLPA-NGS原理设计的其它的试剂盒或自建方法,为解决SNP的分型问题,如遵循了同样的方法建立SNP分析的判断框架及样本测序质量的判断,其不视为对上述分析方法的本质改变。
进一步地,在上述使用方法中,当用于判断核心家系亲子关系时,其包括步骤:在获得核心家系的常染色体SNP的分型结果之后,基于查到的每个SNP的各等位基因型的人群频率,遵循累积父系指数的分析规则,确认或否认核心家系的亲子关系;其中,每个所述核心家系包括父亲、母亲、孩子,在检测后被鉴定的SNP位点都符合家系分离规律且累积父系指数大于等于10000时,则确认核心家系的亲子关系。上述核心家系亲子关系的确认,是判断先证者X染色体的父母来源的先决条件。
可理解的是,本发明并不局限于基于MLPA-NGS原理设计的司法鉴定检测试剂盒的核心家系亲子关系确认。凡基于MLPA-NGS原理设计的其它的试剂盒或自建方法,为利用SNP的分型解决确认或否认核心家系的亲子关系的问题,其不视为对上述分析方法的本质改变。
进一步地,在上述使用方法中,当用于判断X染色体及X染色体各区段父母来源时,其包括步骤:当确认核心家系的亲子关系后,对于孩子的某个X-SNP,如果父母分别为半合型和纯合型且互不相同(如父母分别为AA,TT),在不考虑SNP突变的情况下,可判断孩子的两种等位基因型只能分别来自父亲和母亲,且父亲和母亲在该SNP位置只能分别提供自有的等位基因型;以及,在检测孩子该X-SNP的分型值后,根据分型值与剂量值的对应关系,计算出孩子两个等位基因的相对剂量,可判断来自父方和来自母方的X染色体的比例(具体为其大致比例)。
可理解的是,本发明并不局限于基于MLPA-NGS原理设计的司法鉴定检测试剂盒。凡基于MLPA-NGS原理设计的其它的试剂盒或自建方法,为判断X染色体及X染色体各区段父母来源,凡使用本发明上述方法的,其不视为对上述分析方法的本质改变。
可理解的是,本发明并不局限于基于MLPA-NGS原理设计的试剂盒或自建方法分析X染色体及X染色体各区段父母来源,为判断其它染色体的父母来源,凡使用本发明上述方法的,其不视为对上述分析方法的本质改变。
进一步地,在上述使用方法中,Y染色体上的SNP位点检测,不但可确认先证者的性别,也可通过SNP辅助进行父子、祖孙、叔侄、兄弟之间的亲缘鉴定。
本发明的第四个方面是提供一种如本发明第一个方面中任一所述的SNP位点检测组合物、或如本发明第二个方面中任一所述的SNP位点检测试剂盒的应用,其具体为:采用所述试剂盒测试待检测者基因组DNA样本,进行MLPA-NGS检测。
进一步地,在上述应用中,通过MLPA-NGS检测获得下述结果中的至少一种:探针reads数、SNP分型、样本的测序质量、核心家系亲子关系、X染色体及X染色体各区段父母来源。
进一步地,在上述应用中,DNA样本的制备包括:采集外周血,使用血液DNA提取试剂盒制备DNA样本。可理解的是,也可采用其他形式的样本。
可理解的是,上述结果的分析可为非诊断目的,用于获得相关分析的中间结果。
为了验证MLPA-NGS在SNP检测方面的准确性,本发明使用Sanger测序和InfiniumOmni ZhongHua-8的SNP芯片进行验证;验证结果表明,与其他结果相比,SNP分析准确率为99.99%。
与现有技术相比,本发明采用上述技术方案具有以下有益效果:
本发明设计的用于司法鉴定的SNP位点检测试剂盒,其是基于MLPA-NGS技术,分别遵循MLPA(Multiples ligation-dependent probe amplification)技术的原理进行建库、遵循二代测序技术(NGS,Next-generation sequencing technology)进行测序,可实现基因上SNP的准确分析,是一种高通量的MLPA方法。基于该MLPA-NGS方法,可超多重地进行SNP的检测,从而可开发出用于个体识别和司法鉴定的SNP位点检测试剂盒。
本发明提供了一种可用于个体识别和司法鉴定的基于MLPA-NGS原理的试剂盒及其分析方法。上述试剂盒是由探针工作液、MLPA缓冲液、耐高温连接液、通用引物、PCR反应液等组成,其操作过程与MLPA技术类似。对于测序后获得的fastQ文件,可进行自动分析。分析内容包括:SNP分型、核心家系(三联体)的司法鉴定、X染色体的父母来源、Y染色体的存在与否等方面。上述试剂盒通过二代测序的方法检测,检测信息量大,对X染色体拷贝数可达到SNP芯片的效果,灵敏度高,试剂成本低,操作简便,对操作人员技能要求低,便于大规模推广。与超多重PCR加二代测序的SNP检测方法相比,具有探针容易设计、所测模板长度可降低到50bp左右的优势。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明仅用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明一实施例中MLPA-NGS方法的流程示意图;其中,A:所设计的左右探针及与目标DNA的结合位置;B:模板解链后,探针与模板杂交;C:在连接酶的作用下探针连接;D:使用二代测序的接头序列为引物对连接产物扩增;E:扩增出两端相同而中间不同的产物;F:进行NGS测序;G:进行数据分析和统计;
图2是本发明一实施例中MLPA-NGS方法用于SNP检测的探针特点的示意图;
图3是本发明一实施例中一典型的SNP分型值分布散点图;
图4是本发明一实施例中rs4608的Sanger测序结果示意图;其中,采用的五个样品依次是p2866,p2801,p2864,p2845,p2806;
图5是本发明一实施例中rs1054480的Sanger测序结果示意图;其中,采用的五个样品依次是p2801,p2864,p2851,p2845,p2806;
图6是本发明一实施例中以HF01样本为例采用样本常染色体SNP分析常染色体的父母来源的结果示意图;
图7是本发明一实施例中以HF53样本为例采用某父供骨髓移植样本常染色体分析常染色体的父母来源的结果示意图;
图8是本发明一实施例中以HF01的孩子样本为例采用某女性样本X-SNP分析X染色体的父母来源的结果示意图;
图9是本发明一实施例中以HF02的孩子样本为例采用某男性样本X-SNP分析X染色体的父母来源的结果示意图;
图10是本发明一实施例中以T8样本为例采用TS患者样本X-SNP分析X染色体的父母来源的结果示意图;
图11是本发明一实施例中以T8样本为例采用TS患者样本X-STR分析X染色体的父母来源的结果示意图;
图12是本发明一实施例中以T1样本为例采用TS患者样本X-SNP分析X染色体的父母来源的结果示意图;
图13是本发明一实施例中以T1样本为例采用TS患者样本X-STR分析X染色体的父母来源的结果示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。下列实施例中未注明具体条件的实验方法,通常按照国家标准测定。下述实施例中未注明出处的实验材料,均为市售原料。下述实施例中的各步骤中采用的设备均为常规设备。若没有相应的国家标准,则按照通用的国际标准、常规条件、或按照制造厂商所建议的条件进行。除非另外说明,否则所有的份数为重量份,所有的百分比为质量百分比。除非另有定义或说明,本发明中所使用的所有专业与科学用语与本领域技术熟练人员所熟悉的意义相同。此外任何与所记载内容相似或均等的方法及材料皆可应用于本发明方法中。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。下面结合附图和具体实施例对本发明作进一步说明,但不作为本发明的限定。
下述实施例中,从设计思路、试剂盒制备方法、样本收集、测试方法和分析方法等进行示例性论述。所用的样本包括50多个健康核心家系样本(每个核心家系包括父亲、母亲、孩子三人)和15例TS(特纳综合征)病患核心家系样本。下述实施例将给出部分样本的统计结果,具体为取3例患者作为实例进行较详细的阐述。上述3例样本的结果阐述仅用于说明本发明,而不应视为限制本发明的范围,下述实施例中所用试剂均为可以通过市售购买获得的常规产品。
下述实施例中,基于MLPA-NGS进行个体识别和司法鉴定的原理简述如下:
(1)基于MLPA-NGS原理设计检测探针;
MLPA-NGS技术,是一种将MLPA技术与NGS技术融合在一起的技术,兼有MLPA技术对可预期SNV检测的高精度和NGS技术对目的片段检测的高通量,是一种高通量的MLPA技术。经典的MLPA技术的扩增产物因长度不同以毛细管电泳进行区分。而MLPA-NGS技术在MLPA探针连接后环节通过PCR为连接片段引入NGS的通用接头序列,融合产物直接进行高通量测序,从而将MLPA的长度检测变为MLPA-NGS对序列本身的检测,打破了MLPA扩增片段长度有限多样性对检测数目的限制,大大提高了检测通量。MLPA一次可检测最多60个左右的位点,而MLPA-NGS据测试可一次检测2000多个位点。为了进行个体识别和司法鉴定,所设计的SNP探针用于检测探针在DNA上杂交位置的连接位点的SNP的基因型。探针分布于各条常染色体、X染色体及Y染色体上,尤以X染色体上分布最为密集。所选择的被检测的SNP,一般为仅包含两种基因型(将这两种基因型称为野生型和突变型)的单碱基置换型SNP,通过在探针上设计分别针对两种基因型的简并碱基检测SNP的两种信号。
(2)使用MLPA-NGS原理设计的试剂盒判断SNP基因型;
所测得的每个SNP的两种基因型的信号,原始数据以reads数表示,进而通过计算一种基因型(野生型)的reads占两种基因型的占比,得出分型值(该数值的取值区间,显然是在[0,1]之内),而又以分型值的大小,判断基因型为野生型、杂合型还是纯合突变型。在使用分型值判断基因型之前,需设定基因型的分界值。其方法是将一系列正常样本的某个SNP的分型值以散点图的方式呈现,多数情况下可见这些位点散布在三个区域,分别为近0区域,近1区域和中间区域。在三个区域之间,留出两块或大或小的空白区域,分别取两个空白区域的两个中点,作为三个分布区域的分界线。如此可将新的待测的分型值划分到三个区域中的一个。根据待测SNP分型值落入近0区域,近1区域或中间区域,判断该SNP归属纯合突变型、野生型还是杂合型。该方法判断基因型的准确性,通过两种实验手段予以验证,一种是一代测序法,即随机取一些SNP位点、随机取一些样品进行一代测序,比较一代测序与MLPA-NGS结果的一致性;一种是使用SNP芯片技术,取一些样本进行SNP芯片检测,比较两种技术所共同涵盖SNP的一致性。
(3)使用MLPA-NGS原理设计的试剂盒判断核心家系的亲子关系;
需将受检者及父母样本同时检测。在此之前,应确保所测父母为受检者的生物学父母。受检者及父母构成核心家系,以核心家系的常染色体SNP为分析对象,判断其是否符合遗传学规律,可进行亲子鉴定。具体而言,亲子关系需通过SNP的累积亲权指数(CPI)的计算进行判定。对于待测的核心家系,在检测后被鉴定的SNP位点都符合家系分离规律且CPI大于等于10000的,则核心家系的亲子关系可被确认。以大量确知关系的核心家系为检测对象,以MLPA-NGS为检测方法,则检测对象的被确证可反过来提示该方法对SNP检测的可靠性。
(4)使用MLPA-NGS原理设计的试剂盒判断先证者X染色体的父母来源;
亲子关系获得证实之后,可进一步判断先证者X染色体的父母来源。通常情况下,父亲有一条X染色体,每个X-SNP都为半合型,母亲有两条X染色体,每个X-SNP为野生型、杂合型或纯合突变型。正常情况下,男孩有一条X染色体,是来自母亲的,女孩有两条X染色体,分别来自父亲和母亲。但患有某些遗传学疾病的人,如患有Turner综合征的人,会出现有一条、两条或者一条多(嵌合体)的X染色体的现象。这些X染色体毕竟只能来自父母。对于某个X-SNP,如果母亲不是杂合型且与父亲不同(如父为AA,母为GG),则孩子SNP的父母来源可清晰判断:如与父亲相同则来自父亲,与母亲相同则来自母亲,既有父亲信号又有母亲信号,则来自父母。孩子来自父母双方的信号的比例即为X染色体来源父母的比例。通常来自父母一方的信号显著小于另一方时,提示存在X染色体的嵌合体。,结合多个连续的X-SNP的父母来源的比值,可确认该段连续X-SNP所在X染色体区域的父母双方的来源和比例。
(5)使用MLPA-NGS原理设计的试剂盒分析检测结果的质量;
常染色体上SNP数据还可以用于分析检测结果的质量。分析发现,质量较好的样本,野生型的分型值更趋近于1,纯合突变型的分型值更趋近于0;而质量较差的样本,或者未严格按照实验流程测试的样本,野生型的分型值会离1远一些,纯合突变型的分型值离0远一些。多个正常样本的同一SNP的野生型或纯合突变型,其群体分型值可以用分型值的平均值加减标准差表示。群体分型值可视为该SNP的测量特征。一个新样本的每个SNP的分型值,与对应SNP对应等位基因的分型值的差的绝对值,比上标准差,命名为“分型偏差”,可视为该SNP符合SNP的测量特征的程度。某样本所有SNP,但凡不是杂合型,分型偏差的平均值,可用于判断该样本的检测质量。显然,该平均值越大,检测质量越差,结果越不可靠。
上述为基于MLPA-NGS方法进行个体识别和司法鉴定的大致原理。
实施例1-试剂盒的设计及使用
本实施例设计一种基于MLPA-NGS方法用于司法鉴定的检测试剂盒,并说明该检测试剂盒的操作方法,上述设计具体包括:
(1)位点的选择与探针设计;
遵循MLPA-NGS技术的原理设计SNP探针,MLPA-NGS技术的流程如图1(该图为先前研究附图,以便于读者理解,不起具体限定作用)所示。在设计SNP探针时,在每条常染色体(基于GRCh38/hg38)上选择3个SNP位点,共66个位点,分别位于首尾和中间区域,因此同处一条染色体上的任意两个被选用的SNP,其距离大于1000K,在用于亲子鉴定时无需进行连锁分析。X染色体上选择了51个SNP,Y染色体上选择了25个SNP。X、Y上SNP以接近等距的方式分布。SNP为单碱基置换型,一般仅包含两种等位基因型,次等位基因频率(MAF)一般大于0.2,但X、Y染色体上SNP的MAF未做严格限定。每个SNP的频率来自NCBI的千人基因组数据库。每个SNP的检测探针是由与模板结合的无缝相邻的两条探针组成,其中左侧探针的3’末端又包含了简并碱基,分别对应SNP的两种等位基因型,右侧探针5’端碱基带有磷酸化基团以备探针的连接,左右探针构成检测一个SNP的一组探针。取SNP野生型位点及两边共20bp的片段,在人基因组中比对,片段不唯一则不予选用;取SNP突变型位点及两边共20bp的片段,在人基因组中比对,片段若存在则不予选用。在有些左侧探针的3’末端第三个碱基引入错配,以提高连接时结合的特异性。引入错配的序列,同样取20bp的片段在基因组中比对,片段若存在不予选用。上述SNP探针序列如SEQ ID NO.1~SEQ ID NO.284所示。使用SNP探针用以检测SNP时,其模式如图2所示,例如:对于野生型和突变型等位基因分别为A和G的某SNP,探针上设计的简并碱基分别与模板上对应的T和C杂交时,可成功连接;如模板上不匹配,则不能成功连接或连接的比例较低,以此原理检测SNP。
SNP探针中,左侧探针的5’端和右侧探针的3’端分别添加一段序列,作为通用引物扩增时的结合序列,其对应的序列如SEQ ID NO.287~SEQ ID NO.288所示。SNP探针合成和加磷酸基团后,每条探针适量混合,配制为每条探针浓度为0.2-20fmol/uL的混合液,依测试结果优化浓度(最优浓度为2fmol/uL),作为探针工作液。结合序列、引物等源自Illumina二代测序的接头序列,扩增本身也是Illumina上机前的建库过程。
(2)设计探针的分析序列(特征性序列)
相邻探针完成连接、扩增和测序后,获得测序结果。测序结果以fastQ文件的方式存在,文件包含了每个被测片段的序列及相关信息,这些序列即为reads。为了分析所设计探针扩增后的reads数,使用探针的特征性序列(即:特异序列)在fastQ文件中搜索。fastQ文件中,凡是包含了这些特异序列的reads,即归类为该探针并计数。每对SNP探针的特异序列包含三段,分别为从左侧探针与模板结合区域的左部、左侧探针与右侧探针连接位置、右侧探针与模板结合区域的右部各截取一段长度为10个碱基的序列,作为该对探针的特异序列。三段序列相互之间至少间隔一个碱基。两个等位基因的两小组特异序列,仅在中间的特异序列有一个碱基的差异,该碱基分别对应野生型和突变型。由此构成了全部检测位点的特异序列。如将包含简并碱基的一个SNP的探针视为两组探针,则任意一组特异序列,与相应的探针是一一对应的。相关的特征性序列信息详见“表1–探针、引物及特征性序列信息表”。
为了将fastQ文件的reads归属到所设计的各对探针,常规的分析方法为将reads与模板比对,然后计算比对成功的reads的深度。本实施例设计的分析方法与上述常规方法不同。常规方法是将测序reads比对到参考序列上,然后提取差异位点和差异位点频次数据,所得的结果与本实施例设计的方法相同。但上述常规方法需生物信息学专业人士使用特定的软件、在服务器上进行分析,时间长、操作复杂。本实施例设计的方法是将每对探针选三段序列在fastQ文件中查找并统计出现次数,该方法可得到与上述常规方法相同的结果,而操作和操作条件更为简单,也无需专业的生信人员和昂贵的服务器。本实施例设计的方法可自动排除低质量测序,因为低质量测序通常会导致随机的测序错误,具有随机错误的序列可被屏蔽在特异序列查找范围之外。查找方法利用了正则表达式。
(3)DNA样本的准备;
本实施例的研究得到了伦理委员会的批准。本实施例使用了53个健康核心家系(父亲、母亲、孩子)的DNA,2个来自血液科的孩子发生过骨髓移植的核心家系,15个诊断为Turner综合征的核心家系,所有家系成员均获得知情同意。各个家系之间无血缘关系。每个成员采集外周血2mL,使用血液DNA提取试剂盒(TIANGEN)制备DNA。DNA浓度由Nanodrop(Thermo Fisher Scientific)测定。已知Turner综合征患者大多在X染色体上存在问题,我们希望通过这些样本分析Turner综合征患者或者类似存在染色体异常的人对SNP用于个体识别和司法鉴定的影响。
(4)MLPA-NGS实验流程;
第一天进行DNA变性和探针杂交,其方法是:将5微升DNA样品(50-250ng)加到PCR管中,98℃变性5分钟,冷却至25℃取出。将MLPA缓冲液(来自MRC-Holland公司)1.5μL与探针工作液1.5μL混合,加入样品管,充分混合。继续热循环程序:95℃2min,65℃至55℃,每降一度孵育1小时,然后在54℃保持3-10小时。第二天,配制连接酶-65主液:每个反应各含25μL dH2O+3μL连接酶缓冲液B+3μL连接酶缓冲液A,然后加入1μL连接酶-65酶,移液器轻轻吹打混合均匀。缓冲液A、B及连接酶-65均来自MRC-Holland公司。将混合物置PCR仪(54℃)加热1分钟,然后于54℃恒温下加入正在孵育的PCR管,混匀,继续孵育25分钟。将上述反应于98℃加热5分钟,并冷却至20℃暂停。取出PCR管。
在进行PCR扩增时,所用PCR酶为来自Takara的HS Taq酶(货号:R007Q)。50uL PCR反应液中包括以下成分:5uL 反应缓冲液,4uL dNTP,上下游引物(20pMol)各1uL,连接产物10uL,酶0.25uL,加水补充到50uL。上游引物的序列和下游引物的序列分别如SEQ IDNO.285和SEQ ID NO.286所示,两条引物中的poly(N)为index序列,以区分样本。反应条件为:95℃30s,60℃30s,72℃60s,35个循环;72℃孵育20min,最后15℃孵育。从每个PCR扩增产物中各取适量样本,混合均匀,冷冻保存,送南京诺禾致源生物科技有限公司进行测序,使用Qubit 2.0对文库浓度进行初步定量,使用Agilent 2100检测文库DNA片段的完整性及插入片段大小,使用Illumina高通量测序仪(如HiSeq2500/HiSeq4000/HiSeqX/MiSeq)进行双端150bp测序,获得测序的fastQ文件。
实施例2–试剂盒测序结果的分析
本实施例对实施例1中获得的fastQ文件进行相应的结果分析,其具体包括:
(1)Reads的统计方法及分型值计算
从高通量测序仪上获得fastQ文件,使用python编写程序进行分析。以实施例1中的“(1)位点的选择与探针设计和(2)设计探针的分析序列”部分设计的每个位点的3个分析序列的组合为待查找的文本,以fastQ文件中的每个reads为查找对象,以python中正则表达式的findall为查找方法,统计含有每个待查文本的reads的数量。对于每个SNP而言,如果两种等位基因的reads数的和小于20,视为质量不合格,不予分析。
通过质控的SNP,每个样本以野生型reads除以该样本此SNP的总reads,得该SNP的分型值,显然该值的取值范围是[0,1]。
(2)制作SNP分型的判断框架进行SNP的分型、SNP分型的质量控制
(A)SNP的分型;
为了根据分型值准确判断每个SNP的分型,本实施例利用取自甲亢核心家系的73个健康人的分型值制作了每个SNP的分型值的分布散点图,以探索SNP的分布规律。
在多数情况下,每个SNP的分型值散点可分为三组:近1散点,近0散点,中间散点。中间散点一般集中分布,与近0散点和近1散点有着清晰的隔离区间。将分型值区间[0,1]拉长1000倍,置于坐标系中,形成包含1000个单位的、X坐标区间为[0,1000]、Y坐标为0的基线。每个分型值乘以1000后在该基线上对应的位点,前后各取10个单位,将基线上对应单位的Y坐标分别减1。该SNP的每个分型值如此处理后,一般将在基线上形成三个凹槽,分别对应纯合突变型、杂合型和野生型。而在纯合突变型与杂合型、杂合型与野生型之间,会保留或长或短的Y值为0的平整基线,令该平整基线的中点为区分纯合突变型与杂合型、杂合型与野生型的分界值,而平整区域的长度代表该位点作为分界点的可靠程度。对于Y染色体上的SNP位点,则只有野生型与突变型两种形态,不存在杂合型。每个SNP的分型值经分界点区分为三组或两组散点,分别对应三种或两种基因型。基线上的分界点除以1000,即为分型值的分界点,所得两组或三组散点的分型值分别以均数±标准差(x±s)表示。
分型值与剂量值之间,存在大致的对应关系。分型值散点图给出的,是野生型剂量分别为0、0.5、1时分型值与剂量值的关系。在此三点之外,则根据上述对应关系进行大致的判断。当分型值位于接近0或接近1的区间时,使用剂量为0和1时分别对应的分型值进行校正;当分型值位于中间区域时,使用剂量值为0.5时对应的分型值进行校正。而分型值位于不同区间的分割值,对大部分SNP,设定为0.1和0.9。
为了建立SNP的分型框架,使用73个样本作为分析对象。按照上述方法,对每个SNP的分型值做散点图,再在散点图的基础上计算两个空白区域(边界)的中点和长度、小值(近0的分型值)的平均值,小值标准差、大值平均值,大值标准差等。其中,一典型的SNP分型值散点图如图3所示,横坐标为分型值区间[0,1]拉长1000倍,纵坐标为样本数,散点为野生型、杂合型、纯合突变型的分布,纵坐标的0点线上两点为纯合突变型和杂合型分界点、杂合型与野生型的分界点,该SNP(rs12040811)的野生型和突变型碱基分别为C和T。
下表包含每个SNP的边界中点、小值平均、小值标准差、大值平均,大值标准差等。因篇幅所限,且杂合型的平均值和方法未使用,故该表未包含。图3中rs12040811的数据,已整合到下表之中。
Figure BDA0003742334320000231
Figure BDA0003742334320000241
Figure BDA0003742334320000251
Figure BDA0003742334320000261
(B)SNP分型的质量控制;
为了辨析样本的测序质量,定义了平均分型偏差的概念。上述样本中某个个体的某SNP,其分型值依分界点区分出基因型,如非杂合型,则与样本中该SNP对应基因型的分型值的均值相减,所得值的绝对值比对应的标准差(设定:当标准差小于0.003时,以0.003为标准差),即定义为该个体该SNP的分型偏差。对该个体全部测得的SNP的全部可计算的分型偏差取平均,为平均分型偏差值。为每个样品做该样品全部SNP的分型值散点图,发现平均分型偏差值越大,该样本的SNP分型值分布越弥散,其分型的可靠性越低。因此,对健康样本中平均分型偏差值过大的样本进行了剔除处理,对其余样本重新计算均数和标准差,之后再以新的均数和标准差计算每个样本的平均分型偏差值。
(3)根据家系的SNP计算累积亲权指数;
对于受试者样本的每个SNP的分型值,根据上述分型值分界点,对受试者进行SNP分型。当一个核心家系的孩子、父、母进行了同样的MLPA-NGS检测和SNP分型后,分析三者符合等位基因分离规律的情况,可鉴定其亲子关系。似然率(Likelihood ratio,LR)用于表示亲子鉴定结果的可信度。LR根据两个假设(H0:受试者是给定谱系中孩子的生父;H1:受试者无关)计算为似然值(L)的比率。总体LR则是通过常染色体上SNP panel计算累积父系指数(CPI)进行确定的。
Figure BDA0003742334320000271
在进行CPI计算时,由于每个染色体上SNP的距离较远,远大于1000K,因此无需对相邻SNP做连锁分析。
(4)使用X-SNP分析X染色体的父母来源;
通过常染色体SNP判断孩子父母为生物学父母后,可进一步通过X-SNP判断X染色体的父母来源及来源的比例。
对于孩子某SNP的两个等位基因(alleles),在判断父母来源方面有三种情况。第一种情况是不能判断,如子父母分别为(AT,AT,AT),孩子的其中一个allele可来自父母的任意一方,因此不能判断。第二种情况是勉强可以判定,如子父母分别为(AT,AT,TT),由于孩子的A只能来自父亲,故虽然父亲也有T,仍可判断孩子的T来自母亲。第三种情况是可强烈判断父母来源的,如子父母分别为(AT,AA,TT),在不考虑SNP突变的情况下,可判断,孩子的A和T只能分别来自父亲和母亲,且父亲和母亲在该SNP位置只能分别提供A和T。在Turner综合征中,由于X染色体的状态存在多种情况,如一条或来自父亲或来自母亲,两条分别来自父母或皆来自母亲,或存在低比例嵌合体的情况,因此,为准确地判断X染色体的父母来源,选择了第三种情况做判断依据。第三种情况的主要特征是,某个SNP在父母基因上分别为半合型和纯合型且alleles不同。在这种情况下,检测孩子该SNP的分型值后,根据分型值与剂量值的对应关系,计算出孩子两个alleles的相对剂量,可判断来自父方和来自母方的X染色体的大致比例。
(5)对照试验;
为了验证MLPA-NGS在SNP检测方面的准确性,使用了两种对照试验。一种是随机选取10个SNP位点,每个位点选择5个样本,5个样本在MLPA-NGS检测中包含了三种基因型,以这些样本的DNA为模板,设计SNP的扩增引物扩增后进行Sanger测序,比较Sanger测序结果与MLPA-NGS分析结果的一致性。第二种对照试验,是使用Illumina公司的名为InfiniumOmni ZhongHua-8的SNP芯片(服务公司:上海和卓医学检验实验室有限公司)进行全基因组范围的染色体拷贝数异常现象检测。上述检测使用了三个样本,分别为T11-先证者,B1026-先证者,H53-孩子。该检测严格按照质控标准进行,包括DNA的提取、酶切、连接、PCR、纯化、片段化、标记、杂交、洗脱、扫描和分析几个步骤。该方法在SNP检测上,包含了117万多个SNP位点,准确率在99%以上。
MLPA-NGS对X染色体父母来源检测的准确性,通过使用X-STR的方法验证。该方法详见马红杜的硕士论文“9个X-STR基因座荧光复合扩增体系的建立及其遗传多态性”。
实施例3–试剂盒的分析方法的验证及应用例
本实施例采用某些样本对实施例2中的分析方法进行验证,并提供了相关的具体应用例,其具体包括:
(1)SNP Reads的统计;
应用实施例2中的分析方法查询程序运行完成后,每对探针的各条特异序列在fastQ文件中出现的次数、每对探针的三条特异序列在fastQ文件一起出现于一条reads中的次数,汇总于excel文件之中。
例如,患者T4家庭的某次测试的某几个SNP的reads数据如下。右三列从左到右依次是孩子、父亲、母亲的reads。
Figure BDA0003742334320000281
Figure BDA0003742334320000291
(2)SNP分型、验证及相关分析;
根据每个SNP三种基因型的分型值的分界点,基于每个SNP计算的分型值,可将每个SNP分型。代入分型结果和等位基因的人群频率,可计算每个SNP的PI值。如某SNP测得的reads总和过低,则视为质量不合格,不予计算。
(A)SNP的分型值、分型结果和PI值;
下表为患者T4家庭的某次测试的某几个SNP的分型值、分型结果和PI值。数据如下:第3-5列,6-8列从左到右依次是孩子、父亲、母亲。该表与T4家庭前一张表存对应关系。将同一核心家系的所有SNP的PI值相乘,即为CPI。
Figure BDA0003742334320000292
下表为患者B1100的某次测试的某几个SNP的分型值、分型结果和PI值。该结果的PI一列,有多个结果为“Err”,提示孩子与父母有多个SNP的分型不符合遗传规律,判断所测父亲非孩子的生物学父亲。该结果与STR检测结果一致。对此类患者,后续X染色体父母来源的分析,是不准确的。使用的来自血液科的两个病例,孩子进行过骨髓移植,在进行PI计算时也出现大量“Err”。
Figure BDA0003742334320000293
Figure BDA0003742334320000301
(B)对SNP分型偏差值的计算可用于实验的质量控制;
下表右侧三列为T4家系几个SNP的分型偏差值。每个样品所有常染色体SNP的分型偏差值的平均值,为平均分型偏差值,代表该样本测序的数据质量。
Figure BDA0003742334320000302
(C)亲子鉴定SNP排除数、平均分型偏差值的分析;
对所测的53的健康家系、2个发生过骨髓移植的家系、15个TS患者家系进行了亲子鉴定SNP排除数、平均分型偏差值的分析,其结果如下:
Figure BDA0003742334320000303
Figure BDA0003742334320000311
Figure BDA0003742334320000321
在这些家系中,HF53和HF55家系为孩子进行了骨髓移植的家系,亲子鉴定SNP排除数分别为6和17个,与预期相符。B1100家系,亲子鉴定SNP排除数分别为11个,判断父亲非亲生父亲。B1100的结果与STR检测结果一致。此外,还有3个健康家系各有1个SNP排除数,本实施例对三个位点进行了测序验证,结果显示,HF42家系的rs2976399,其左相邻存在另一SNP,影响了rs2976399的准确性。另外两个家系,经Sanger测序,应属于二代测序判断问题。因此,在使用该方法进行亲子鉴定时,如果仅仅有一个或极少数SNP位点不符合遗传规律,不能完全排除测序误差的问题。另外该方法还有改进的空间。
(D)验证试验:Sanger测序法和SNP芯片检测;
除了个别位点存在问题外,本实施例对其它位点进行了验证试验。验证采用了两种方法,一种是Sanger测序法,一种是SNP芯片检测。
Sanger测序法是随机选择一些SNP位点,有选择地选择一些样本(以便含有三种基因型),其对应关系及结果如下表和图4~图5所示。见图4,rs4608位点在5个样品上的Sanger测序结果,与MLPA-NGS方法一致;见图5,rs1054480位点在5个样品上的Sanger测序结果,与MLPA-NGS方法一致。上述结果表明,Sanger测序结果与MLPA-NGS结果完全一致。
SNP 样本 样本 样本 样本 样本
rs2976399 p2837 P4002 P4004 P4005 P4252
rs1652727 p2801 p2806 p2845 p2851 p2864
rs2281974 p2801 p2806 p2845 p2851 p2864
rs8451 p2801 p2845 p2851 p2864 p2863
rs2289759 p2801 p2806 p2845 p2851 p2864
rs4608 p2801 p2806 p2845 p2864 p2866
rs11353 p2801 p2806 p2845 p2851 p2864
rs1054480 p2801 p2806 p2845 p2851 p2864
rs2229137 p2801 p2806 p2845 p2851 p2865
rs2270672 p2806 p2845 p2851 p2864 p2863
SNP 结果 结果 结果 结果 结果
rs2976399 GA AA GG AA GA
rs1652727 CT CC TT CT TT
rs2281974 GA GG AA GA GA
rs8451 GG GG GG GA AA
rs2289759 GG AG GG AG AA
rs4608 TT CT CT CT CC
rs11353 TC TC TT CC TC
rs1054480 CC CC TT CT CT
rs2229137 AA CC CC AA AC
rs2270672 CC CC TT TT CT
在使用Infinium Omni ZhongHua-8这款SNP芯片对T11先证者、B1026先证者、H53孩子这三个样品进行检测,经过比对,仅rs5744944的T11先证者样本的测序结果与测序不同。该结果前面已有提及。其余位点,在两种技术皆有结果者,是完全一致的。
Figure BDA0003742334320000331
Figure BDA0003742334320000341
Figure BDA0003742334320000351
(3)基于SNP的染色体父母来源分析及验证;
如上所述,基于核心家系的SNP判断染色体的父母来源,有三种情况。
(A)对常染色体SNP判断染色体的父母来源,本实施例利用的是第二和第三种情况。
以HF01为例,凡是不能区分父母来源的SNP,用蓝色柱状图显示。能区分父母来源的SNP,计算父母来源的剂量,分别用橙色和灰色表示。在转化为黑白图之后,可依图例的颜色进行判断。每个符合遗传规律的SNP,用实心五角星号表示,不符合则用空心五角星号表示,如该SNP未测出,则用※号表示。图6中能分辨父母来源的SNP,来自父母的剂量各半,符合预期。
以HF53为例,该样本的孩子进行过骨髓移植,骨髓供体为其父。图7中,可见SNP上有大量空心五角星,提示不符合遗传的分离规律。然而不符合分离规律的SNP,又一律为橙色,即为父源,提示该方法即使对骨髓移植的判断上也有一定的应用价值。因此,以家系SNP判断父母来源,在常染色体上是有效的。
(B)使用该方法判断X染色体的父母来源,使用了三种情况的第三种情况(某SNP父母非杂合且不同)。HF01和HF02的孩子分别为女性和男性(见图8,图9)。可见HF01凡是可区分父母来源的SNP位点,双方剂量接近,在9个SNP位点得以证明,受检者的X染色体来自父母,父母各半,与女性有两条X染色体且分别来自父母的常识一致。HF02样本凡是可区分父母来源的SNP位点,在3个SNP位点得以证明,受检者的X染色体来自母亲,与男性X染色体来自母亲的常识一致。所测53个健康核心家系皆符合性别特征。
(C)使用同样方法分析TS患者的X染色体的父母来源;
以T8样品为例(见图10),在13个SNP位点得以证明,受检者的X染色体来自父母,来自父亲的部分高于来自母亲的部分。可见来自父方的X染色体远大于来自母亲的X染色体。经计算,来自父亲的X染色体的比例是70.2%。上述结果与X-STR检测结果是一致的。图11为T8先证者及父母的名为GATA172D05的STR检测结果,可见先证者的两个STR位点分别来自父亲和母亲,父母所带的STR长度各不相同,先证者来自母亲的STR的剂量明显低于父母,这表明先证者的X染色体来自父母,其中来自母亲的X染色体信号较弱。T8先证者核型分析的结果为:45,X[12]/46,XX[38],二者是一致的。
以T1样品为例(见图12),使用同样方法分析TS患者的X染色体的父母来源,从图12可见,在10个SNP位点得以证明,受检者的X染色体来自父母,来自父亲的部分远远高于来自母亲的部分,来自父方的X染色体远大于来自母亲的X染色体。经计算,来自父亲的X染色体的比例是89.7%。上述结果与X-STR检测结果是一致的,图13为T1先证者及父母的名为DXS10146的STR检测结果(先证者箭头所指的STR峰,来自母亲),可见先证者的X染色体来自父亲,但有微弱的来自母亲的X染色体信号,这种微弱的信号,有时会视为污染或非特异的影响。而在本实施例的分析方法中,母亲信号在多个SNP位点中重复出现,而在健康家系中无此信号,可见其存在是真实的。而在核型分析中,T1先证者为45,X,可见来自母亲的X染色体被完全忽略了。
由上述实施例可知,(1)基于MLPA-NGS方法的SNP组套检测,可用于进行个体识别和司法鉴定;(2)该SNP组套可判断X染色体的父母来源、比例;(3)使用X-SNP进行个体识别和司法鉴定是困难的,且容易受到在人群中有一定发病率的Turner综合征的影响。
以上所述仅为本发明较佳的实施例,并非因此限制本发明的实施方式及保护范围,对于本领域技术人员而言,应当能够意识到凡运用本发明说明书及图示内容所作出的等同替换和显而易见的变化所得到的方案,均应当包含在本发明的保护范围。

Claims (10)

1.一种基于MLPA-NGS方法用于司法鉴定的SNP位点检测组合物,其特征在于,所述检测组合物包括SNP探针组合物和引物组合物;所述SNP探针组合物为分别设计于常染色体的66个SNP位点、X染色体的51个SNP位点、Y染色体的25个SNP位点的SNP探针对;所述引物组合物为用于扩增连接后的探针的带有index序列的通用引物,各所述探针对分别包括左侧探针和右侧探针,所述左侧探针的5’端和所述右侧探针的3’端分别包含一段通用序列,其作为所述通用引物扩增时的结合序列;其中,所述SNP探针对的序列如SEQ ID NO.1~SEQ IDNO.284所示;所述通用引物的序列如SEQ ID NO.285~SEQ ID NO.286所示,左侧探针的5’端的通用序列如SEQ ID NO.287所示,右侧探针的3’端的通用序列如SEQ ID NO.288所示。
2.根据权利要求1所述的SNP位点检测组合物,其特征在于,每一SNP探针对均各自具有3段用于司法鉴定的特征性序列;各所述探针对分别包括左侧探针和右侧探针,所述特征性序列分别为从左侧探针与模板DNA结合区域的左侧、左侧探针与右侧探针连接位置、右侧探针与模板DNA结合区域的右侧各截取的具有预定长度的碱基序列;其中,所述特征性序列的序列长度为10个碱基,所述特征性序列相互之间至少间隔一个碱基。
3.一种基于MLPA-NGS方法用于司法鉴定的SNP位点检测试剂盒,其特征在于,所述检测试剂盒包含如权利要求1或2所述的SNP位点检测组合物。
4.根据权利要求3所述的SNP位点检测试剂盒,其特征在于,所述SNP探针组合物制备成探针工作液,所述探针工作液中每条探针浓度为0.2~20fmol/μL;和/或,所述引物组合物中,每一通用引物的配制浓度为2~200pMol。
5.根据权利要求3所述的SNP位点检测试剂盒,其特征在于,所述检测试剂盒还包括MLPA缓冲液、连接酶、连接酶缓冲液、PCR缓冲液、dNTP、PCR酶中的至少一种。
6.一种如权利要求3~5中的任一项所述的SNP位点检测试剂盒的使用方法,其特征在于,包括步骤:DNA样品变性;SNP探针组合物与DNA样品进行探针杂交;采用连接酶和连接酶缓冲液与杂交探针进行连接反应;将探针连接产物与引物组合物进行PCR扩增;将PCR扩增产物测序,获得测序结果。
7.根据权利要求6所述的使用方法,其特征在于,具体包括步骤:
步骤S1、DNA变性和探针杂交:将DNA样品进行变性操作;将MLPA缓冲液与探针工作液充分混合,进行杂交反应,反应程序为:95℃2min,65℃至55℃,每降一度孵育1小时,然后在54℃保持3-10小时,获得杂交产物;
步骤S2、配制含有连接酶缓冲液的连接酶主液,将连接酶加入所述连接酶主液并混匀,54℃加热1分钟,于54℃恒温下加入所述杂交产物中混匀,继续孵育25分钟,于98℃加热5分钟,并冷却至20℃暂停,实现杂交探针的连接,获得连接产物;
步骤S3、将所述连接产物与PCR反应液进行PCR扩增反应,所述PCR反应液包括PCR反应缓冲液、dNTP、带有index的上下游通用引物、Taq酶,反应条件为:95℃30s,60℃30s,72℃60s,35个循环;72℃孵育20min,最后15℃孵育,获得PCR扩增产物;
步骤S4、从每个所述PCR扩增产物中各取适量样本,混合均匀,送NGS测序仪上测序,获得测序结果。
8.根据权利要求6所述的使用方法,其特征在于,还包括根据所述测序结果进行结果分析的步骤,进行以下分析中的至少一种:分析探针reads数、确定SNP分型、判断样本的测序质量、判断核心家系亲子关系、判断X染色体及X染色体各区段父母来源。
9.根据权利要求6所述的使用方法,其特征在于,当用于分析探针reads数时,其包括步骤:以每对探针的3段特征性序列的组合为待查找文本,统计含有每个待查文本的reads的数量;其中,对于每个SNP,如果两种等位基因的reads数的和小于20,视为质量不合格,不予分析;通过质控的SNP,每个样本以野生型reads除以该样本SNP的总reads,得到该样本SNP的分型值,所述分型值的取值范围是[0,1];
和/或,当用于确定SNP分型时,其包括步骤:使用所述试剂盒测试健康对照的群体样本,对于每个SNP分型值,绘制群体样本的各SNP各分型的分型值分布散点图,计算用以区分各SNP的各分型的分界点;基于所述分界点,对待测样本的相应SNP进行分型;
和/或,当用于判断样本的测序质量时,其包括步骤:当确定SNP分型后,多个正常样本的同一SNP的野生型或纯合突变型,其群体分型值可以用分型值的平均值加减标准差表示,所述群体分型值作为SNP的测量特征,用于判断该样本的检测质量;其中,所述平均值越大,说明测序质量越差;
和/或,当用于判断核心家系亲子关系时,其包括步骤:在获得核心家系的常染色体SNP的分型结果之后,基于查到的每个SNP的各等位基因型的人群频率,遵循累积父系指数的分析规则,确认或否认核心家系的亲子关系;其中,每个所述核心家系包括父亲、母亲、孩子,在检测后被鉴定的SNP位点都符合家系分离规律且累积父系指数大于等于10000时,则确认核心家系的亲子关系;
和/或,当用于判断X染色体及X染色体各区段父母来源时,其包括步骤:当确认核心家系的亲子关系后,对于孩子的某个X-SNP,如果父母分别为半合型和纯合型且互不相同,在不考虑SNP突变的情况下,可判断孩子的两种等位基因型只能分别来自父亲和母亲,且父亲和母亲在该SNP位置只能分别提供自有的等位基因型;以及,在检测孩子该X-SNP的分型值后,根据分型值与剂量值的对应关系,计算出孩子两个等位基因的相对剂量,可判断来自父方和来自母方的X染色体的比例。
10.一种如权利要求1~2中的任一项所述的SNP位点检测组合物、或如权利要求3~5中的任一项所述的SNP位点检测试剂盒的应用,其特征在于,采用所述检测试剂盒测试待检测者基因组DNA样本,进行MLPA-NGS检测,获得下述结果中的至少一种:探针reads数、SNP分型、样本的测序质量、核心家系亲子关系、X染色体及X染色体各区段父母来源。
CN202210820635.0A 2022-07-12 2022-07-12 一种基于mlpa-ngs方法用于司法鉴定的snp位点检测组合物及其应用 Pending CN115786455A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210820635.0A CN115786455A (zh) 2022-07-12 2022-07-12 一种基于mlpa-ngs方法用于司法鉴定的snp位点检测组合物及其应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210820635.0A CN115786455A (zh) 2022-07-12 2022-07-12 一种基于mlpa-ngs方法用于司法鉴定的snp位点检测组合物及其应用

Publications (1)

Publication Number Publication Date
CN115786455A true CN115786455A (zh) 2023-03-14

Family

ID=85431350

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210820635.0A Pending CN115786455A (zh) 2022-07-12 2022-07-12 一种基于mlpa-ngs方法用于司法鉴定的snp位点检测组合物及其应用

Country Status (1)

Country Link
CN (1) CN115786455A (zh)

Similar Documents

Publication Publication Date Title
US20230416729A1 (en) Nucleic acid sequencing adapters and uses thereof
JP2022103371A5 (zh)
CN107526944A (zh) 一种微卫星不稳定性的测序数据分析方法、装置及计算机可读介质
CN110628891B (zh) 一种对胚胎进行基因异常筛查的方法
WO2014074611A1 (en) Methods and systems for identifying contamination in samples
CN110878345A (zh) 通过分子计数提高等位基因调用的置信度
JP2023052512A (ja) 体細胞および生殖細胞系統バリアントを鑑別するための方法およびシステム
US20220098642A1 (en) Quantitative amplicon sequencing for multiplexed copy number variation detection and allele ratio quantitation
CN106434859A (zh) 先天性肾上腺皮质增生症基因筛查试剂盒、筛查方法及其应用
CN107236037B (zh) 一种突变的msh6蛋白及其编码基因、应用
CN113136422A (zh) 通过成组snp位点检测高通量测序样本污染的方法
EP3931356A1 (en) Method for quantifying the amount of a target sequence in a nucleic acid sample
US20190233889A1 (en) Method for producing dna library and method for analyzing genomic dna using the dna library
CN112011622B (zh) 一种对未知来源个体进行非、东亚、欧洲群体来源分析的方法和系统
CN115786455A (zh) 一种基于mlpa-ngs方法用于司法鉴定的snp位点检测组合物及其应用
CN111032882A (zh) 解决扩增反应中低效的方法和组合物
CN110894531A (zh) 用于猪的str基因座集及用途
CN115948528A (zh) 一种基于mlpa-ngs方法检测特纳综合征的试剂盒及其使用方法和应用
CN108060239B (zh) 用于区分牦牛与非牦牛牛族的引物对组合产品、试剂盒及方法
US20200071754A1 (en) Methods and systems for detecting contamination between samples
JP2021534803A (ja) 無細胞核酸試料におけるアレル不均衡を検出するための方法およびシステム
CN111379032A (zh) 一种用于构建同时实现基因组拷贝数变异检测和基因突变检测的测序文库的方法和试剂盒
US20230348982A1 (en) Methods of identifying markers of graft rejection
KR102486630B1 (ko) 중합효소연쇄반응을 기반으로 한 표적 점 돌연변이의 검출 방법
EP4392578A1 (en) Method of measuring microsatellite length variations

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination