发明内容
本发明的目的在于设计一种低成本、低复杂度,能同时检测拷贝数变异、基因组倍性、ROH以及家系分析的通用型和一体化全基因组分析方法。
实现发明目的的技术方案如下:一种基于基因型填补和低深度测序的一体化基因组分析方法,包括以下步骤:
S1、基于低深度测序方法检测获取样本DNA的原始测序数据;
S2、检测原始测序数据中SNP位点形成SNP位点集;
S3、基于单体型数据库,对原始测序数据中未检测到的SNP位点进行基因型填补,并与SNP位点集合并形成样本SNP位点集;
S4、筛选样本SNP位点集中的SNPs位点形成SNPs位点集,SNPs位点集包括待测样本染色体SNPs位点集以及多个正常样本常染色体SNPs位点集;
S5、基于待测样本的拷贝数信息、正常样本常染色体SNPs位点集,对待测样本染色体SNPs位点集分析,获取待测样本的倍性评估结果、ROH区域检测结果、家系分析结果中任意一种或多种。
在一个实施例中,上述步骤S4中,样本SNP位点集中SNPs位点的筛选方法包括:
S41、基于数据库,筛选样本SNP位点集中MAF值大于预设阈值的SNP位点作为SNPs位点。
在一个改进实施例中,上述步骤S4中,样本SNP位点集中SNPs位点的筛选方法,还包括:
S42、依据基因型填补准确性参数阈值,筛选步骤S41中大于等于基因型填补准确性参数阈值的SNPs位点作为最终的SNPs位点。
在一个实施例中,上述步骤S2中,检测原始测序数据中SNP位点形成SNP位点集前,还包括以下步骤:
依据过滤条件,对原始测序数据中的低测序质量碱基序列、测序接头、重复序列、低比对质量序列中任意一种或多种进行预处理。
可选地,上述原始测序数据中低测序质量碱基序列的过滤条件为:滤除样本原始测序数据中测序质量平均值低于预设阈值范围的碱基序列;原始测序数据中测序接头的过滤条件为:滤除原始测序数据中与实验时加入的接头碱基序列相似的接头序列;原始测序数据中重复序列的过滤条件为:滤除原始测序数据中比对到人类参考基因组中同一位置的重复序列;原始测序数据中低比对质量序列的过滤条件为:滤除原始测序数据中与人类参考基因组比对质量低于预设阈值的序列。
在一个实施例中,上述步骤S5中,基于待测样本的拷贝数信息、正常样本常染色体SNPs位点集,对待测样本染色体SNPs位点集分析,获取待测样本的倍性评估结果的方法,包括:
S501、根据SNPs位点的基因型,获取各正常样本常染色体SNPs位点集的杂合位点比例,计算多个正常样本杂合位点比例的均值μ和标准差δ,并根据均值μ和标准差δ获取正常样本的杂合位点比例范围;
S502、滤除待测样本染色体SNPs位点集中性染色体的SNPs位点,以及待测样本的拷贝数异常区域的SNPs位点后,形成待分析SNPs位点集;
S503、根据SNPs位点的基因型,计算待分析SNPs位点集的杂合位点比例;
S504、将杂合位点比例与正常样本杂合位点比例范围比较;
若杂合位点比例>杂合位点比例范围的上限值,则判断该待测样本为三倍体或多倍体;
若杂合位点比例在杂合位点比例范围内,则判断该待测样本为正常样本;
若杂合位点比例小于杂合位点比例范围的下限值,则判断该待测样本为全基因组ROH。
在一个改进实施例中,上述杂合位点比例范围为(μ-3×δ)~(μ+3×δ)。
在一个实施例中,上述步骤S5中,基于待测样本的拷贝数信息、正常样本常染色体SNPs位点集,对待测样本染色体SNPs位点集分析,获取待测样本的ROH区域检测结果的方法,包括:
S511、将待测样本的染色体划分为多个窗口,提取待测样本染色体SNPs位点集中各窗口的SNPs位点;
S512、依据各窗口的SNPs位点,以及SNPs位点的基因型,计算各窗口SNPs位点的杂合比例A1;
S513、将杂合比例A1与ROH检测阈值比较;
若窗口的杂合比例A1小于ROH检测阈值,则将该窗口作为候选ROH区域;
若窗口的杂合比例A1大于等于ROH检测阈值,则将该窗口作为非ROH区域;
S514、重复步骤S512~S513,获取待测样本所有窗口的候选ROH区域和非ROH区域;
S515、对待测样本的候选ROH区域与其相邻的非ROH区域进行统计检验,筛选显著性大于等于阈值的候选ROH区域作为ROH区域;
S516、滤除ROH区域中待测样本的拷贝数异常区域后,将剩余的ROH区域作为该待测样本的ROH区域,其中拷贝数异常区域包括拷贝数缺失区域。
在一个实施例中,上述步骤S5中,待测样本的家系分析结果包括异常染色体来源分析结果,待测样本中异常染色体来源的分析方法包括以下步骤:
S521、获取待测样本的目标染色体区域,目标染色体区域为拷贝数异常区域;
S522、在待测样本染色体SNPs位点集及其父亲和母亲的染色体SNPs位点集中,分别筛选目标染色体区域内SNPs位点;
S523、计算步骤S522中待测样本筛选的SNPs位点与其父亲共有的等位基因总数f,以及与其母亲共有的等位基因总数m;
S524、计算log(f/m)值及其绝对值;
S525、基于log(f/m)值及待测样本的拷贝数结果,判断待测样本的目标染色体区域的亲本来源。
可选的,上述步骤S525中,基于log(f/m)值及待测样本的拷贝数结果,判断待测样本的目标染色体区域的亲本来源,包括:
当目标染色体区域的拷贝数为重复时,如果log(f/m)值为正且绝对值大于阈值,则判断待测样本的重复染色体来源于父亲,如果log(f/m)值为负且绝对值小于阈值,则判断待测样本的重复染色体来源于母亲;
当目标染色体区域的拷贝数为缺失时,如果log(f/m)值为正且绝对值大于阈值,则判断待测样本的缺失染色体来源于母亲,即剩余的染色体来源于父亲,如果log(f/m)值为负且绝对值小于阈值,则判断待测样本的缺失染色体来源于母亲,即剩余的染色体来源于父亲;
在一个实施例中,上述步骤S5中,待测样本的家系分析结果包括单体型分析结果。
待测样本的单体型的分析方法,包括以下步骤:
S531、依据SNPs位点的基因型,从待测样本染色体SNPs位点集中挑选母亲杂合且父亲纯合的SNPs位点作为母方有效位点集M;挑选父亲杂合且母亲纯合的SNPs作为男方有效位点集P;
S532、依据孟德尔遗传定律确定母方有效位点集M和男方有效位点集P中每个SNPs位点的亲本来源,构建父母双方的单体型,并基于父母双方的单体型确定待测样本的单体型;
S533、依据待测样本的单体型,以及待测样本家系诊断结果,确定待测样本中含有致病位点的异常链。
与现有技术相比,本发明的有益效果是:本发明设计的方法利用基因型填补技术弥补了低深度测序的局限性,实现了一体化的遗传学检测分析,尤其适用于植入前检测、产前和产后检测等领域。且该方法对测序深度要求低,不需特殊建库方式,不需单独设计引物或探针,不增加实验操作复杂度,通用性高,是一种低成本、高效率的全基因组分析方法。另外,基因型填补借助单体型参考数据库,利用连锁不平衡原理提升芯片或测序技术检测的位点密度及准确性,同样适用于芯片、高深度测序、简并基因组测序等测序技术。
具体实施方式
下面结合具体实施例来进一步描述本发明,本发明的优点和特点将会随着描述而更为清楚。但这些实施例仅是范例性的,并不对本发明的范围构成任何限制。本领域技术人员应该理解的是,在不偏离本发明的精神和范围下可以对本发明技术方案的细节和形式进行修改或替换,但这些修改和替换均落入本发明的保护范围内。
本具体实施方式公开了一种基于基因型填补和低深度测序的一体化基因组分析方法,参见图1和图2所示,一体化基因组分析方法包括以下步骤:
S1、基于低深度测序方法检测获取样本DNA的原始测序数据。
本步骤中,样本DNA包括待测样本、正常二倍体样本、以及待测样本的亲本样本,且提取样本DNA的材料可以来自胚胎扩增产物、外周血、羊水、流产组织等,其中胚胎扩增产物是通过采取体外受精方式获得的受精卵在体外发育至卵裂期或囊胚期时提取的细胞,且该细胞发育为胎盘结构,其不是以有生命的人体或者动物体为直接实施对象。
本步骤中,还可以对获取样本DNA的原始测序数据进行建库,建库方式选用全基因组建库、简并基因组建库、捕获建库等。
S2、检测原始测序数据中SNP位点形成SNP位点集。
本步骤中原始测序数据中SNP位点采用GATK软件、bcftools软件、ANGSD软件等基因型检测软件进行检测。
S3、基于单体型数据库,对原始测序数据中未检测到的SNP位点进行基因型填补,并与SNP位点集合并形成样本SNP位点集。
由于上述步骤S2中,原始测序数据中SNP位点由于测序深度低、覆盖率低,导致很多位点不会被检出,因此本发明选用基因型填补技术对步骤S2中提取的SNP位点集合进行填补。
基因型填补技术是一种基于连锁不平衡原理,利用正常人群单体型数据库,对目标样本中未直接检测到的位点进行基因型统计推断,其在全基因组关联分析(GWAS)中得到广泛应用。对使用低成本的基因型检测方法获得稀疏位点的基因型,可以使用公开或私有的单体型参考数据库进行基因型填补,以获得非直接检测位点的基因型,增加了样本的变异位点数目,提升了GWAS的统计效能,更加精确的定位相关位点。
本步骤中,单体型数据库可以选用千人基因组数据库、单体型参考联盟数据库、TOP-Med数据库等人群参考数据库,也可以使用自有数据自建的单体型数据库,且基因填补时采用GLIMPSE、BEAGLE、IMPUTE2等软件进行SNP位点的填补。
本步骤中,相关资料报道,对1~2x低深度测序数据采用基因型填补技术进行填补后获得样本SNP位点集进行检测,其基因型的准确性能达到甚至超过基因芯片检测的准确性,特别是在低频、罕见的变异位点上的准确性更高。经试验验证,当测序深度下降到0.5x时,与基因芯片相比,经基因填补后测序数据的基因型相似性皮尔森相关系数的平方(r^2)能达到0.8以上,且对6个样本在0.2~0.3X侧序深度下进行基因型填补后,其基因型一致率参见下表1所示,其一致率平均值超过90%。
表1:基因型填补后因型一致率
S4、筛选样本SNP位点集中的SNPs位点形成SNPs位点集,SNPs位点集包括待测样本染色体SNPs位点集以及多个正常样本常染色体SNPs位点集。
在本步骤的一个实施例中,样本SNP位点集中SNPs位点的筛选方法包括:S41、基于数据库,筛选样本SNP位点集中MAF值(即次等位基因频率)大于预设阈值的SNP位点作为SNPs位点,其中,预设阈值可以选用为0.01。同时,在本步骤中,数据库可以选用dbSNP、1KGP、gnomAD等数据库。
在本步骤的另一个实施例中,样本SNP位点集中SNPs位点的筛选方法,除了上述步骤S41外还包括步骤S42,即依据基因型填补准确性参数阈值,筛选步骤S41中大于等于基因型填补准确性参数阈值的SNPs位点作为最终的SNPs位点,其中基因型填补准确性参数阈值可以设置为0.3。
S5、基于待测样本的拷贝数信息、正常样本常染色体SNPs位点集,对待测样本染色体SNPs位点集分析,获取待测样本的倍性评估结果、ROH区域检测结果、家系分析结果中任意一种或多种。
本步骤中,待测样本的拷贝数异常区域可以采用现有的方法获取,例如,首先将基因组划分为多个窗口;其次对每个窗口的测序reads计数;再次经过GC、Mappability、基线等校正;最后使用隐马尔可夫模型进行评估分段,获取拷贝数异常区域。
其中,待测样本的倍性评估结果的获取方法,包括:
S501、根据SNPs位点的基因型,获取各正常样本常染色体SNPs位点集的杂合位点比例,计算多个正常样本杂合位点比例的均值μ和标准差δ,并根据均值μ和标准差δ获取正常样本的杂合位点比例范围(μ-3×δ)~(μ+3×δ);
S502、滤除待测样本染色体SNPs位点集中性染色体的SNPs位点,以及待测样本的拷贝数异常区域的SNPs位点后,形成待分析SNPs位点集;
S503、根据SNPs位点的基因型,计算待分析SNPs位点集的杂合位点比例;
S504、将杂合位点比例与正常样本杂合位点比例范围比较;
若杂合位点比例>杂合位点比例范围的上限值,则判断该待测样本为三倍体或多倍体;
若杂合位点比例在杂合位点比例范围内,则判断该待测样本为正常样本;
若杂合位点比例小于杂合位点比例范围的下限值,则判断该待测样本为全基因组ROH(也即单倍体或单亲二倍体)。
本步骤中,根据Hardy–Weinberg平衡定律,假设一个多态性位点的参考等位基因A在人群中频率为p,变异等位基因a频率为q,则在二倍体基因组中,一个位点杂合基因型(Aa)的概率为2pq。假设三倍体来源于减数分裂错误且不考虑重组情况下,三倍体基因组一个位点杂合基因型(AAa或Aaa)的概率为3pq^2+3p^2q=3pq。此时如果待测样本为三倍体,则其杂合基因型的概率理论上高于二倍体,同时通过153例已知二倍体(99例)、三倍体(54例)样本的实验数据显示,参见图3所示,也能够证明该待测样本的三倍体杂合位点比例显著高于二倍体杂合位点比例。例如:对一例样本经低深度测序后,使用本发明方法进行倍性分析,评估杂合位点占比值为0.0949,与二倍体样本基线比较,计算Zscore的值为9.2,超过阈值3,则提示该样本为三倍体,其结果与基因芯片验证的倍性结果一致。
其中,待测样本的ROH区域检测结果的获取方法,包括:
S511、将待测样本的染色体划分为多个窗口,提取待测样本染色体SNPs位点集中各窗口的SNPs位点,其中窗口的大小根据实验评估确定,例如每个窗口的大小可以设定为1000kb;
S512、依据各窗口的SNPs位点,以及SNPs位点的基因型,计算各窗口SNPs位点的杂合比例A1;
S513、将杂合比例A1与ROH检测阈值比较;
若窗口的杂合比例A1小于ROH检测阈值,则将该窗口作为候选ROH区域;
若窗口的杂合比例A1大于等于ROH检测阈值,则将该窗口作为非ROH区域;
S514、重复步骤S512~S513,获取待测样本所有窗口的候选ROH区域和非ROH区域;
S515、对待测样本的候选ROH区域与其相邻的非ROH区域进行统计检验,筛选显著性大于等于阈值的候选ROH区域作为ROH区域;
S516、滤除ROH区域中待测样本的拷贝数异常区域后,将剩余的ROH区域作为该待测样本的ROH区域,其中拷贝数异常区域主要指的是拷贝数缺失区域,还可以包括其它嵌合缺失区域、男性性别染色体区域。
本步骤中,ROH区域指基因组中的纯合区域,理论上ROH区域中只存在一种单体型,不存在杂合位点。但是由于测序数据中存在的测序错误、比对错误、基因型错误等情况,需要在允许一定误差内设置ROH检测阈值。
对一例样本采用本发明方法分析后,结果显示15号染色体中22000000~63000000、96000000~102531392两段区域的杂合位点的比例较低,其提示存在约41M和6M的ROH区域。上述检测结果与已有基因芯片检测的结果:arr[GRCh37]15q11.2q22.2(22474931_62568746)×2hmz和15q26.2q26.3(96147390_102397836)×2 hmz基本吻合。
步骤S5中,待测样本的家系分析结果包括异常染色体来源分析结果和单体型的分析结果。
待测样本中异常染色体来源的分析方法包括以下步骤:
S521、获取待测样本的目标染色体区域,目标染色体区域一般指拷贝数异常区域;
在获取待测样本的目标染色体区域前,需要对待测样本以及其亲本样本进行评估,确定待测样本与其亲本样本之间具有亲缘关系;
S522、在待测样本染色体SNPs位点集及其父亲和母亲的染色体SNPs位点集中,分别筛选目标染色体区域内SNPs位点;
S523、计算步骤S522中待测样本筛选的SNPs位点与其父亲共有的等位基因总数f,以及与其母亲共有的等位基因总数m;
S524、计算log(f/m)值及其绝对值;
S525、基于log(f/m)值及待测样本的拷贝数结果,判断待测样本的目标染色体区域的亲本来源;
可选的,上述步骤S525中,基于log(f/m)值及待测样本的拷贝数结果,判断待测样本的目标染色体区域的亲本来源,包括:
当目标染色体区域的拷贝数为重复时,如果log(f/m)值为正且绝对值大于阈值,则判断待测样本的重复染色体来源于父亲,如果log(f/m)值为负且绝对值小于阈值,则判断待测样本的重复染色体来源于母亲;本步骤中,阈值范围为0.2-0.5,优选为0.3。
当目标染色体区域的拷贝数为缺失时,如果log(f/m)值为正且绝对值大于阈值,则判断待测样本的缺失染色体来源于母亲,即剩余的染色体来源于父亲,如果log(f/m)值为负且绝对值小于阈值,则判断待测样本的缺失染色体来源于母亲,即剩余的染色体来源于父亲;本步骤中,阈值范围为0.2-0.5,优选为0.3。
例如:待测样本的某条染色体存在重复时,且待测样本与父母共有等位基因比值ratio=log(f/m)的值大于0.3时,此时判断待测样本的重复的染色体来源于父亲。
待测样本的单体型的分析方法,包括以下步骤:
S531、依据SNPs位点的基因型,从待测样本染色体SNPs位点集中挑选母亲杂合且父亲纯合的SNPs位点作为母方有效位点集M;挑选父亲杂合且母亲纯合的SNPs作为男方有效位点集P;
S532、依据孟德尔遗传定律确定母方有效位点集M和男方有效位点集P中每个SNPs位点的亲本来源,构建父母双方的单体型,并基于父母双方的单体型确定待测样本的单体型;
S533、依据待测样本的单体型,以及待测样本家系诊断结果,确定待测样本中含有致病位点的异常链;
例如:假设父亲的基因型为杂合,以AB表示,母亲的基因型为纯合,以AA表示。如果待测样本基因型为纯合,则以AA表示,此时AA中一个等位基因来自于父亲,另一个来自于母亲。如果待测样本基因型为杂合,则以AB表示,此时B等位基因来自于父亲,A等位基因来自于母亲。利用母方有效位点集M和男方有效位点集P,可以构建父母双方的单体型,从而确定待测样本的单体型信息。
根据已知的家系诊断结果,可以确定含有致病位点的风险单倍型(致病链)。结合步骤S532中待测样本的单倍型信息,可以区分待测样本是健康样本还是携带致病链的样本。
其中,已知的家系诊断结果中的参考样本,可以是家系中待测样本的兄弟姐妹、其他家系成员、单精子、先证者的流产组织等,同时如果家系中不存在额外的参考样本,则可通过Sanger一代测序等技术在胚胎样本中寻找携带致病变异的样本作为参考样本,通过对所有样本进行聚类区分父母方单体型,进而确定待测样本中的致病链。
待测样本的家系分析时,如果同时对家系内多个样本进行测序,例如父亲、母亲、待测样本三人家系,则可以在完成基因型填补后进行家系分析,包括单体型构建、染色体来源分析、UPD分析等。
例如,以单基因病家系中母亲携带致病位点,并将致病变异遗传给先证者为例,首先,对家系中父亲、母亲、先证者、子代1(即待测样本1)、子代2(即待测样本2)进行测序,经过数据处理得到每个样本的基因型;然后,选取SNPs位点,进行单体型构建,单体型分链结果如图4所示,图4中M0、M1代表母亲单体型链,F0、F1代表父亲单体型链;最后,根据先证者致病位点确定致病链为母亲的M0链,判断待测样本1遗传了母亲的致病链,待测样本2未遗传致病链。
此外,通过对待测样本1进行染色体拷贝数分析,结果提示16号染色体存在重复情况,因此针对该条染色体评估其异常的亲本来源,经计算待测样本1与父亲及母亲的共享等位基因比例后,结果发现16号染色体与母亲的共享等位基因多于父亲,参见图5所示,显示16号染色体log(f/m)为负且绝对值远大于其他正常染色体,因此判断待测样本1的16号染色体的重复来源于母源细胞分裂错误。
在上述基于基因型填补和低深度测序的一体化基因组分析方法的一个改进实施例中,上述步骤S2中,检测原始测序数据中SNP位点形成SNP位点集前,还包括以下步骤:依据过滤条件,对原始测序数据中的低测序质量碱基序列、测序接头、重复序列、低比对质量序列中任意一种或多种进行预处理。例如:低测序质量碱基序列的过滤条件为:滤除样本原始测序数据中测序质量平均值低于预设阈值范围(预设阈值可设置10~20范围内,通常选用15)的碱基序列;测序接头的过滤条件为:滤除原始测序数据中与实验时加入的接头碱基序列相似的接头序列;重复序列的过滤条件为:滤除原始测序数据中比对到人类参考基因组中同一位置的重复序列;低比对质量序列的过滤条件为:滤除原始测序数据中与人类参考基因组比对质量低于预设阈值(例如30,预设阈值可选范围1~40,一般设置为30)的序列。在此需要说明的是,上述低测序质量碱基序列、测序接头、重复序列、低比对质量序列的过滤条件只是对原始测序数据预处理的一种优选方式,本发明还可以采用其他数据过滤方法或者预处理方法对原始测序数据进行处理。
本发明设计的方法利用基因型填补技术弥补了低深度测序的局限性,实现了一体化的遗传学检测分析,尤其适用于植入前检测、产前和产后检测等领域。且该方法对测序深度要求低,不需特殊建库方式,不需单独设计引物或探针,不增加实验操作复杂度,通用性高,是一种低成本、高效率的全基因组分析方法。另外,基因型填补借助单体型参考数据库,利用连锁不平衡原理提升芯片或测序技术检测的位点密度及准确性,同样适用于芯片、高深度测序、简并基因组测序等测序技术。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。