CN115798580A - 基于基因型填补和低深度测序的一体化基因组分析方法 - Google Patents

基于基因型填补和低深度测序的一体化基因组分析方法 Download PDF

Info

Publication number
CN115798580A
CN115798580A CN202310092468.7A CN202310092468A CN115798580A CN 115798580 A CN115798580 A CN 115798580A CN 202310092468 A CN202310092468 A CN 202310092468A CN 115798580 A CN115798580 A CN 115798580A
Authority
CN
China
Prior art keywords
sample
detected
snps
sites
chromosome
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310092468.7A
Other languages
English (en)
Other versions
CN115798580B (zh
Inventor
刘沙沙
费嘉
孙蕾
乔国枝
安松坡
仝微微
黄以宁
金治平
刘海娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jiabao Medical Laboratory Co ltd
Beijing Jiabao Renhe Medical Technology Co ltd
Beijing Zhongyi Kangwei Medical Devices Co ltd
Original Assignee
Beijing Jiabao Renhe Medical Technology Co ltd
Beijing Zhongyi Kangwei Medical Devices Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jiabao Renhe Medical Technology Co ltd, Beijing Zhongyi Kangwei Medical Devices Co ltd filed Critical Beijing Jiabao Renhe Medical Technology Co ltd
Priority to CN202310092468.7A priority Critical patent/CN115798580B/zh
Publication of CN115798580A publication Critical patent/CN115798580A/zh
Application granted granted Critical
Publication of CN115798580B publication Critical patent/CN115798580B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供了一种基于基因型填补和低深度测序的一体化基因组分析方法,包括:基于低深度测序方法检测获取样本DNA的原始测序数据;检测SNP位点并对样本进行基因型填补形成样本SNP位点集;筛选SNPs位点;基于待测样本拷贝数信息、正常样本常染色体SNPs位点信息,对待测样本SNPs位点进行分析,获取待测样本的倍性评估、ROH区域检测以及家系分析结果。本发明的方法具有低通量、低成本、高通用性、操作简单等优点,能够同时检测CNV、ROH、三倍体等异常,可以进行基于家系的单体型、异常来源等分析,且可以减少多种检测实验造成的样本量不足、流程复杂等问题,节省了时间、经济成本,提升了检测效率。

Description

基于基因型填补和低深度测序的一体化基因组分析方法
技术领域
本发明属于分子生物学技术领域,涉及采用低深度测序技术对样本染色体异常分析和其家系分析,具体涉及一种基于基因型填补和低深度测序的一体化基因组分析方法,该方法可以广泛应用于植入前、产前、产后筛查等领域。
背景技术
近年来,随着第二代测序技术(NGS)的不断发展,其应用越来越广泛,但是在临床上应用时检测成本较高,给患者带来较大的经济负担。低深度全基因组测序技术由于具有高通量、低成本、高灵敏度等优点,被广泛应用在胚胎植入前非整倍体筛查(PGT-A)、植入前单基因遗传病检测(PGT-M)、胚胎植入前染色体结构重排检测(PGT-SR)、流产组织和产前染色体拷贝数异常检测(CNV-seq)等领域,PGT筛查技术包括SNP分析、STR分析、芯片技术、高通量测序。
目前,传统的STR分析或SNP分析仅使用几个位点代表染色体状态,通量极低,不能得到高分辨率的全基因组分析结果;芯片方法对样本量要求较高且通量低于测序方法;PGT-M和PGT-SR对目标区域进行捕获测序来获得基因型信息,需要针对每种疾病单独设计探针或引物,分析位点有限,通用性欠佳;高深度测序方法成本高、分析时间较长,而且家系内多人检测则会对患者造成较大经济压力;简并基因组通常使用酶切等建库方式,虽然能通过富集部分位点来降低测序成本,但是增加了实验操作的复杂程度,更易引入操作偏好。
低深度全基因组测序用于检测拷贝数变异(CNV),但是其不能检测出三倍体及多倍体,不能检测出包括单亲二倍体(UPD)在内的杂合性缺失(LOH/ROH),也不能对单个碱基突变(SNP)及小片段缺失/重复(InDels)进行检测。相应的,应用于PGT-A领域的低深度测序技术也无法对样本中是否存在三倍体、单倍体等倍性异常,以及单碱基、Indels等变异进行检测。
因此,亟需一种低成本、低复杂度,且能同时检测样本拷贝数变异、基因组倍性、ROH以及家系分析的通用型、一体化全基因组分析方法。
发明内容
本发明的目的在于设计一种低成本、低复杂度,能同时检测拷贝数变异、基因组倍性、ROH以及家系分析的通用型和一体化全基因组分析方法。
实现发明目的的技术方案如下:一种基于基因型填补和低深度测序的一体化基因组分析方法,包括以下步骤:
S1、基于低深度测序方法检测获取样本DNA的原始测序数据;
S2、检测原始测序数据中SNP位点形成SNP位点集;
S3、基于单体型数据库,对原始测序数据中未检测到的SNP位点进行基因型填补,并与SNP位点集合并形成样本SNP位点集;
S4、筛选样本SNP位点集中的SNPs位点形成SNPs位点集,SNPs位点集包括待测样本染色体SNPs位点集以及多个正常样本常染色体SNPs位点集;
S5、基于待测样本的拷贝数信息、正常样本常染色体SNPs位点集,对待测样本染色体SNPs位点集分析,获取待测样本的倍性评估结果、ROH区域检测结果、家系分析结果中任意一种或多种。
在一个实施例中,上述步骤S4中,样本SNP位点集中SNPs位点的筛选方法包括:
S41、基于数据库,筛选样本SNP位点集中MAF值大于预设阈值的SNP位点作为SNPs位点。
在一个改进实施例中,上述步骤S4中,样本SNP位点集中SNPs位点的筛选方法,还包括:
S42、依据基因型填补准确性参数阈值,筛选步骤S41中大于等于基因型填补准确性参数阈值的SNPs位点作为最终的SNPs位点。
在一个实施例中,上述步骤S2中,检测原始测序数据中SNP位点形成SNP位点集前,还包括以下步骤:
依据过滤条件,对原始测序数据中的低测序质量碱基序列、测序接头、重复序列、低比对质量序列中任意一种或多种进行预处理。
可选地,上述原始测序数据中低测序质量碱基序列的过滤条件为:滤除样本原始测序数据中测序质量平均值低于预设阈值范围的碱基序列;原始测序数据中测序接头的过滤条件为:滤除原始测序数据中与实验时加入的接头碱基序列相似的接头序列;原始测序数据中重复序列的过滤条件为:滤除原始测序数据中比对到人类参考基因组中同一位置的重复序列;原始测序数据中低比对质量序列的过滤条件为:滤除原始测序数据中与人类参考基因组比对质量低于预设阈值的序列。
在一个实施例中,上述步骤S5中,基于待测样本的拷贝数信息、正常样本常染色体SNPs位点集,对待测样本染色体SNPs位点集分析,获取待测样本的倍性评估结果的方法,包括:
S501、根据SNPs位点的基因型,获取各正常样本常染色体SNPs位点集的杂合位点比例,计算多个正常样本杂合位点比例的均值μ和标准差δ,并根据均值μ和标准差δ获取正常样本的杂合位点比例范围;
S502、滤除待测样本染色体SNPs位点集中性染色体的SNPs位点,以及待测样本的拷贝数异常区域的SNPs位点后,形成待分析SNPs位点集;
S503、根据SNPs位点的基因型,计算待分析SNPs位点集的杂合位点比例;
S504、将杂合位点比例与正常样本杂合位点比例范围比较;
若杂合位点比例>杂合位点比例范围的上限值,则判断该待测样本为三倍体或多倍体;
若杂合位点比例在杂合位点比例范围内,则判断该待测样本为正常样本;
若杂合位点比例小于杂合位点比例范围的下限值,则判断该待测样本为全基因组ROH。
在一个改进实施例中,上述杂合位点比例范围为(μ-3×δ)~(μ+3×δ)。
在一个实施例中,上述步骤S5中,基于待测样本的拷贝数信息、正常样本常染色体SNPs位点集,对待测样本染色体SNPs位点集分析,获取待测样本的ROH区域检测结果的方法,包括:
S511、将待测样本的染色体划分为多个窗口,提取待测样本染色体SNPs位点集中各窗口的SNPs位点;
S512、依据各窗口的SNPs位点,以及SNPs位点的基因型,计算各窗口SNPs位点的杂合比例A1;
S513、将杂合比例A1与ROH检测阈值比较;
若窗口的杂合比例A1小于ROH检测阈值,则将该窗口作为候选ROH区域;
若窗口的杂合比例A1大于等于ROH检测阈值,则将该窗口作为非ROH区域;
S514、重复步骤S512~S513,获取待测样本所有窗口的候选ROH区域和非ROH区域;
S515、对待测样本的候选ROH区域与其相邻的非ROH区域进行统计检验,筛选显著性大于等于阈值的候选ROH区域作为ROH区域;
S516、滤除ROH区域中待测样本的拷贝数异常区域后,将剩余的ROH区域作为该待测样本的ROH区域,其中拷贝数异常区域包括拷贝数缺失区域。
在一个实施例中,上述步骤S5中,待测样本的家系分析结果包括异常染色体来源分析结果,待测样本中异常染色体来源的分析方法包括以下步骤:
S521、获取待测样本的目标染色体区域,目标染色体区域为拷贝数异常区域;
S522、在待测样本染色体SNPs位点集及其父亲和母亲的染色体SNPs位点集中,分别筛选目标染色体区域内SNPs位点;
S523、计算步骤S522中待测样本筛选的SNPs位点与其父亲共有的等位基因总数f,以及与其母亲共有的等位基因总数m;
S524、计算log(f/m)值及其绝对值;
S525、基于log(f/m)值及待测样本的拷贝数结果,判断待测样本的目标染色体区域的亲本来源。
可选的,上述步骤S525中,基于log(f/m)值及待测样本的拷贝数结果,判断待测样本的目标染色体区域的亲本来源,包括:
当目标染色体区域的拷贝数为重复时,如果log(f/m)值为正且绝对值大于阈值,则判断待测样本的重复染色体来源于父亲,如果log(f/m)值为负且绝对值小于阈值,则判断待测样本的重复染色体来源于母亲;
当目标染色体区域的拷贝数为缺失时,如果log(f/m)值为正且绝对值大于阈值,则判断待测样本的缺失染色体来源于母亲,即剩余的染色体来源于父亲,如果log(f/m)值为负且绝对值小于阈值,则判断待测样本的缺失染色体来源于母亲,即剩余的染色体来源于父亲;
在一个实施例中,上述步骤S5中,待测样本的家系分析结果包括单体型分析结果。
待测样本的单体型的分析方法,包括以下步骤:
S531、依据SNPs位点的基因型,从待测样本染色体SNPs位点集中挑选母亲杂合且父亲纯合的SNPs位点作为母方有效位点集M;挑选父亲杂合且母亲纯合的SNPs作为男方有效位点集P;
S532、依据孟德尔遗传定律确定母方有效位点集M和男方有效位点集P中每个SNPs位点的亲本来源,构建父母双方的单体型,并基于父母双方的单体型确定待测样本的单体型;
S533、依据待测样本的单体型,以及待测样本家系诊断结果,确定待测样本中含有致病位点的异常链。
与现有技术相比,本发明的有益效果是:本发明设计的方法利用基因型填补技术弥补了低深度测序的局限性,实现了一体化的遗传学检测分析,尤其适用于植入前检测、产前和产后检测等领域。且该方法对测序深度要求低,不需特殊建库方式,不需单独设计引物或探针,不增加实验操作复杂度,通用性高,是一种低成本、高效率的全基因组分析方法。另外,基因型填补借助单体型参考数据库,利用连锁不平衡原理提升芯片或测序技术检测的位点密度及准确性,同样适用于芯片、高深度测序、简并基因组测序等测序技术。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍。
图1为本发明基于基因型填补和低深度测序的一体化基因组分析方法的流程图;
图2为具体实施方式中一体化基因组分析方法的流程框图;
图3为具体实施方式中采用本发明的倍性评估方法,分析样本的二倍体与三倍体杂合位点比例示意图;
图4为具体实施方式中采用本发明的待测样本的家系分析方法中,一例样本的家系单体型结果示意图;
图5为具体实施方式中采用本发明的待测样本的家系分析方法中,一例样本的染色体亲本来源示意图。
具体实施方式
下面结合具体实施例来进一步描述本发明,本发明的优点和特点将会随着描述而更为清楚。但这些实施例仅是范例性的,并不对本发明的范围构成任何限制。本领域技术人员应该理解的是,在不偏离本发明的精神和范围下可以对本发明技术方案的细节和形式进行修改或替换,但这些修改和替换均落入本发明的保护范围内。
本具体实施方式公开了一种基于基因型填补和低深度测序的一体化基因组分析方法,参见图1和图2所示,一体化基因组分析方法包括以下步骤:
S1、基于低深度测序方法检测获取样本DNA的原始测序数据。
本步骤中,样本DNA包括待测样本、正常二倍体样本、以及待测样本的亲本样本,且提取样本DNA的材料可以来自胚胎扩增产物、外周血、羊水、流产组织等,其中胚胎扩增产物是通过采取体外受精方式获得的受精卵在体外发育至卵裂期或囊胚期时提取的细胞,且该细胞发育为胎盘结构,其不是以有生命的人体或者动物体为直接实施对象。
本步骤中,还可以对获取样本DNA的原始测序数据进行建库,建库方式选用全基因组建库、简并基因组建库、捕获建库等。
S2、检测原始测序数据中SNP位点形成SNP位点集。
本步骤中原始测序数据中SNP位点采用GATK软件、bcftools软件、ANGSD软件等基因型检测软件进行检测。
S3、基于单体型数据库,对原始测序数据中未检测到的SNP位点进行基因型填补,并与SNP位点集合并形成样本SNP位点集。
由于上述步骤S2中,原始测序数据中SNP位点由于测序深度低、覆盖率低,导致很多位点不会被检出,因此本发明选用基因型填补技术对步骤S2中提取的SNP位点集合进行填补。
基因型填补技术是一种基于连锁不平衡原理,利用正常人群单体型数据库,对目标样本中未直接检测到的位点进行基因型统计推断,其在全基因组关联分析(GWAS)中得到广泛应用。对使用低成本的基因型检测方法获得稀疏位点的基因型,可以使用公开或私有的单体型参考数据库进行基因型填补,以获得非直接检测位点的基因型,增加了样本的变异位点数目,提升了GWAS的统计效能,更加精确的定位相关位点。
本步骤中,单体型数据库可以选用千人基因组数据库、单体型参考联盟数据库、TOP-Med数据库等人群参考数据库,也可以使用自有数据自建的单体型数据库,且基因填补时采用GLIMPSE、BEAGLE、IMPUTE2等软件进行SNP位点的填补。
本步骤中,相关资料报道,对1~2x低深度测序数据采用基因型填补技术进行填补后获得样本SNP位点集进行检测,其基因型的准确性能达到甚至超过基因芯片检测的准确性,特别是在低频、罕见的变异位点上的准确性更高。经试验验证,当测序深度下降到0.5x时,与基因芯片相比,经基因填补后测序数据的基因型相似性皮尔森相关系数的平方(r^2)能达到0.8以上,且对6个样本在0.2~0.3X侧序深度下进行基因型填补后,其基因型一致率参见下表1所示,其一致率平均值超过90%。
表1:基因型填补后因型一致率
Figure SMS_1
S4、筛选样本SNP位点集中的SNPs位点形成SNPs位点集,SNPs位点集包括待测样本染色体SNPs位点集以及多个正常样本常染色体SNPs位点集。
在本步骤的一个实施例中,样本SNP位点集中SNPs位点的筛选方法包括:S41、基于数据库,筛选样本SNP位点集中MAF值(即次等位基因频率)大于预设阈值的SNP位点作为SNPs位点,其中,预设阈值可以选用为0.01。同时,在本步骤中,数据库可以选用dbSNP、1KGP、gnomAD等数据库。
在本步骤的另一个实施例中,样本SNP位点集中SNPs位点的筛选方法,除了上述步骤S41外还包括步骤S42,即依据基因型填补准确性参数阈值,筛选步骤S41中大于等于基因型填补准确性参数阈值的SNPs位点作为最终的SNPs位点,其中基因型填补准确性参数阈值可以设置为0.3。
S5、基于待测样本的拷贝数信息、正常样本常染色体SNPs位点集,对待测样本染色体SNPs位点集分析,获取待测样本的倍性评估结果、ROH区域检测结果、家系分析结果中任意一种或多种。
本步骤中,待测样本的拷贝数异常区域可以采用现有的方法获取,例如,首先将基因组划分为多个窗口;其次对每个窗口的测序reads计数;再次经过GC、Mappability、基线等校正;最后使用隐马尔可夫模型进行评估分段,获取拷贝数异常区域。
其中,待测样本的倍性评估结果的获取方法,包括:
S501、根据SNPs位点的基因型,获取各正常样本常染色体SNPs位点集的杂合位点比例,计算多个正常样本杂合位点比例的均值μ和标准差δ,并根据均值μ和标准差δ获取正常样本的杂合位点比例范围(μ-3×δ)~(μ+3×δ);
S502、滤除待测样本染色体SNPs位点集中性染色体的SNPs位点,以及待测样本的拷贝数异常区域的SNPs位点后,形成待分析SNPs位点集;
S503、根据SNPs位点的基因型,计算待分析SNPs位点集的杂合位点比例;
S504、将杂合位点比例与正常样本杂合位点比例范围比较;
若杂合位点比例>杂合位点比例范围的上限值,则判断该待测样本为三倍体或多倍体;
若杂合位点比例在杂合位点比例范围内,则判断该待测样本为正常样本;
若杂合位点比例小于杂合位点比例范围的下限值,则判断该待测样本为全基因组ROH(也即单倍体或单亲二倍体)。
本步骤中,根据Hardy–Weinberg平衡定律,假设一个多态性位点的参考等位基因A在人群中频率为p,变异等位基因a频率为q,则在二倍体基因组中,一个位点杂合基因型(Aa)的概率为2pq。假设三倍体来源于减数分裂错误且不考虑重组情况下,三倍体基因组一个位点杂合基因型(AAa或Aaa)的概率为3pq^2+3p^2q=3pq。此时如果待测样本为三倍体,则其杂合基因型的概率理论上高于二倍体,同时通过153例已知二倍体(99例)、三倍体(54例)样本的实验数据显示,参见图3所示,也能够证明该待测样本的三倍体杂合位点比例显著高于二倍体杂合位点比例。例如:对一例样本经低深度测序后,使用本发明方法进行倍性分析,评估杂合位点占比值为0.0949,与二倍体样本基线比较,计算Zscore的值为9.2,超过阈值3,则提示该样本为三倍体,其结果与基因芯片验证的倍性结果一致。
其中,待测样本的ROH区域检测结果的获取方法,包括:
S511、将待测样本的染色体划分为多个窗口,提取待测样本染色体SNPs位点集中各窗口的SNPs位点,其中窗口的大小根据实验评估确定,例如每个窗口的大小可以设定为1000kb;
S512、依据各窗口的SNPs位点,以及SNPs位点的基因型,计算各窗口SNPs位点的杂合比例A1;
S513、将杂合比例A1与ROH检测阈值比较;
若窗口的杂合比例A1小于ROH检测阈值,则将该窗口作为候选ROH区域;
若窗口的杂合比例A1大于等于ROH检测阈值,则将该窗口作为非ROH区域;
S514、重复步骤S512~S513,获取待测样本所有窗口的候选ROH区域和非ROH区域;
S515、对待测样本的候选ROH区域与其相邻的非ROH区域进行统计检验,筛选显著性大于等于阈值的候选ROH区域作为ROH区域;
S516、滤除ROH区域中待测样本的拷贝数异常区域后,将剩余的ROH区域作为该待测样本的ROH区域,其中拷贝数异常区域主要指的是拷贝数缺失区域,还可以包括其它嵌合缺失区域、男性性别染色体区域。
本步骤中,ROH区域指基因组中的纯合区域,理论上ROH区域中只存在一种单体型,不存在杂合位点。但是由于测序数据中存在的测序错误、比对错误、基因型错误等情况,需要在允许一定误差内设置ROH检测阈值。
对一例样本采用本发明方法分析后,结果显示15号染色体中22000000~63000000、96000000~102531392两段区域的杂合位点的比例较低,其提示存在约41M和6M的ROH区域。上述检测结果与已有基因芯片检测的结果:arr[GRCh37]15q11.2q22.2(22474931_62568746)×2hmz和15q26.2q26.3(96147390_102397836)×2 hmz基本吻合。
步骤S5中,待测样本的家系分析结果包括异常染色体来源分析结果和单体型的分析结果。
待测样本中异常染色体来源的分析方法包括以下步骤:
S521、获取待测样本的目标染色体区域,目标染色体区域一般指拷贝数异常区域;
在获取待测样本的目标染色体区域前,需要对待测样本以及其亲本样本进行评估,确定待测样本与其亲本样本之间具有亲缘关系;
S522、在待测样本染色体SNPs位点集及其父亲和母亲的染色体SNPs位点集中,分别筛选目标染色体区域内SNPs位点;
S523、计算步骤S522中待测样本筛选的SNPs位点与其父亲共有的等位基因总数f,以及与其母亲共有的等位基因总数m;
S524、计算log(f/m)值及其绝对值;
S525、基于log(f/m)值及待测样本的拷贝数结果,判断待测样本的目标染色体区域的亲本来源;
可选的,上述步骤S525中,基于log(f/m)值及待测样本的拷贝数结果,判断待测样本的目标染色体区域的亲本来源,包括:
当目标染色体区域的拷贝数为重复时,如果log(f/m)值为正且绝对值大于阈值,则判断待测样本的重复染色体来源于父亲,如果log(f/m)值为负且绝对值小于阈值,则判断待测样本的重复染色体来源于母亲;本步骤中,阈值范围为0.2-0.5,优选为0.3。
当目标染色体区域的拷贝数为缺失时,如果log(f/m)值为正且绝对值大于阈值,则判断待测样本的缺失染色体来源于母亲,即剩余的染色体来源于父亲,如果log(f/m)值为负且绝对值小于阈值,则判断待测样本的缺失染色体来源于母亲,即剩余的染色体来源于父亲;本步骤中,阈值范围为0.2-0.5,优选为0.3。
例如:待测样本的某条染色体存在重复时,且待测样本与父母共有等位基因比值ratio=log(f/m)的值大于0.3时,此时判断待测样本的重复的染色体来源于父亲。
待测样本的单体型的分析方法,包括以下步骤:
S531、依据SNPs位点的基因型,从待测样本染色体SNPs位点集中挑选母亲杂合且父亲纯合的SNPs位点作为母方有效位点集M;挑选父亲杂合且母亲纯合的SNPs作为男方有效位点集P;
S532、依据孟德尔遗传定律确定母方有效位点集M和男方有效位点集P中每个SNPs位点的亲本来源,构建父母双方的单体型,并基于父母双方的单体型确定待测样本的单体型;
S533、依据待测样本的单体型,以及待测样本家系诊断结果,确定待测样本中含有致病位点的异常链;
例如:假设父亲的基因型为杂合,以AB表示,母亲的基因型为纯合,以AA表示。如果待测样本基因型为纯合,则以AA表示,此时AA中一个等位基因来自于父亲,另一个来自于母亲。如果待测样本基因型为杂合,则以AB表示,此时B等位基因来自于父亲,A等位基因来自于母亲。利用母方有效位点集M和男方有效位点集P,可以构建父母双方的单体型,从而确定待测样本的单体型信息。
根据已知的家系诊断结果,可以确定含有致病位点的风险单倍型(致病链)。结合步骤S532中待测样本的单倍型信息,可以区分待测样本是健康样本还是携带致病链的样本。
其中,已知的家系诊断结果中的参考样本,可以是家系中待测样本的兄弟姐妹、其他家系成员、单精子、先证者的流产组织等,同时如果家系中不存在额外的参考样本,则可通过Sanger一代测序等技术在胚胎样本中寻找携带致病变异的样本作为参考样本,通过对所有样本进行聚类区分父母方单体型,进而确定待测样本中的致病链。
待测样本的家系分析时,如果同时对家系内多个样本进行测序,例如父亲、母亲、待测样本三人家系,则可以在完成基因型填补后进行家系分析,包括单体型构建、染色体来源分析、UPD分析等。
例如,以单基因病家系中母亲携带致病位点,并将致病变异遗传给先证者为例,首先,对家系中父亲、母亲、先证者、子代1(即待测样本1)、子代2(即待测样本2)进行测序,经过数据处理得到每个样本的基因型;然后,选取SNPs位点,进行单体型构建,单体型分链结果如图4所示,图4中M0、M1代表母亲单体型链,F0、F1代表父亲单体型链;最后,根据先证者致病位点确定致病链为母亲的M0链,判断待测样本1遗传了母亲的致病链,待测样本2未遗传致病链。
此外,通过对待测样本1进行染色体拷贝数分析,结果提示16号染色体存在重复情况,因此针对该条染色体评估其异常的亲本来源,经计算待测样本1与父亲及母亲的共享等位基因比例后,结果发现16号染色体与母亲的共享等位基因多于父亲,参见图5所示,显示16号染色体log(f/m)为负且绝对值远大于其他正常染色体,因此判断待测样本1的16号染色体的重复来源于母源细胞分裂错误。
在上述基于基因型填补和低深度测序的一体化基因组分析方法的一个改进实施例中,上述步骤S2中,检测原始测序数据中SNP位点形成SNP位点集前,还包括以下步骤:依据过滤条件,对原始测序数据中的低测序质量碱基序列、测序接头、重复序列、低比对质量序列中任意一种或多种进行预处理。例如:低测序质量碱基序列的过滤条件为:滤除样本原始测序数据中测序质量平均值低于预设阈值范围(预设阈值可设置10~20范围内,通常选用15)的碱基序列;测序接头的过滤条件为:滤除原始测序数据中与实验时加入的接头碱基序列相似的接头序列;重复序列的过滤条件为:滤除原始测序数据中比对到人类参考基因组中同一位置的重复序列;低比对质量序列的过滤条件为:滤除原始测序数据中与人类参考基因组比对质量低于预设阈值(例如30,预设阈值可选范围1~40,一般设置为30)的序列。在此需要说明的是,上述低测序质量碱基序列、测序接头、重复序列、低比对质量序列的过滤条件只是对原始测序数据预处理的一种优选方式,本发明还可以采用其他数据过滤方法或者预处理方法对原始测序数据进行处理。
本发明设计的方法利用基因型填补技术弥补了低深度测序的局限性,实现了一体化的遗传学检测分析,尤其适用于植入前检测、产前和产后检测等领域。且该方法对测序深度要求低,不需特殊建库方式,不需单独设计引物或探针,不增加实验操作复杂度,通用性高,是一种低成本、高效率的全基因组分析方法。另外,基因型填补借助单体型参考数据库,利用连锁不平衡原理提升芯片或测序技术检测的位点密度及准确性,同样适用于芯片、高深度测序、简并基因组测序等测序技术。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (10)

1.一种基于基因型填补和低深度测序的一体化基因组分析方法,其特征在于,包括以下步骤:
S1、基于低深度测序方法检测获取样本DNA的原始测序数据;
S2、检测原始测序数据中SNP位点形成SNP位点集;
S3、基于单体型数据库,对原始测序数据中未检测到的SNP位点进行基因型填补,并与SNP位点集合并形成样本SNP位点集;
S4、筛选样本SNP位点集中的SNPs位点形成SNPs位点集,SNPs位点集包括待测样本染色体SNPs位点集以及多个正常样本常染色体SNPs位点集;
S5、基于待测样本的拷贝数信息、正常样本常染色体SNPs位点集,对待测样本染色体SNPs位点集分析,获取待测样本的倍性评估结果、ROH区域检测结果、家系分析结果中任意一种或多种。
2.根据权利要求1所述的一体化基因组分析方法,其特征在于:步骤S4中,样本SNP位点集中SNPs位点的筛选方法包括:
S41、基于数据库,筛选样本SNP位点集中MAF值大于预设阈值的SNP位点作为SNPs位点。
3.根据权利要求2所述的一体化基因组分析方法,其特征在于:步骤S4中,样本SNP位点集中SNPs位点的筛选方法,还包括:
S42、依据基因型填补准确性参数阈值,筛选步骤S41中大于等于基因型填补准确性参数阈值的SNPs位点作为最终的SNPs位点。
4.根据权利要求1所述的一体化基因组分析方法,其特征在于,步骤S2中,检测原始测序数据中SNP位点形成SNP位点集前,还包括以下步骤:
依据过滤条件,对原始测序数据中的低测序质量碱基序列、测序接头、重复序列、低比对质量序列中任意一种或多种进行预处理。
5.根据权利要求1所述的一体化基因组分析方法,其特征在于:步骤S5中,基于待测样本的拷贝数信息、正常样本常染色体SNPs位点集,对待测样本染色体SNPs位点集分析,获取待测样本的倍性评估结果的方法,包括:
S501、根据SNPs位点的基因型,获取各正常样本常染色体SNPs位点集的杂合位点比例,计算多个正常样本杂合位点比例的均值μ和标准差δ,并根据均值μ和标准差δ获取正常样本的杂合位点比例范围;
S502、滤除待测样本染色体SNPs位点集中性染色体的SNPs位点,以及待测样本的拷贝数异常区域的SNPs位点后,形成待分析SNPs位点集;
S503、根据SNPs位点的基因型,计算待分析SNPs位点集的杂合位点比例;
S504、将杂合位点比例与正常样本杂合位点比例范围比较;
若杂合位点比例>杂合位点比例范围的上限值,则判断该待测样本为三倍体或多倍体;
若杂合位点比例在杂合位点比例范围内,则判断该待测样本为正常样本;
若杂合位点比例小于杂合位点比例范围的下限值,则判断该待测样本为全基因组ROH。
6.根据权利要求5所述的一体化基因组分析方法,其特征在于:杂合位点比例范围为(μ-3×δ)~(μ+3×δ)。
7.根据权利要求1所述的一体化基因组分析方法,其特征在于:步骤S5中,基于待测样本的拷贝数信息、正常样本常染色体SNPs位点集,对待测样本染色体SNPs位点集分析,获取待测样本的ROH区域检测结果的方法,包括:
S511、将待测样本的染色体划分为多个窗口,提取待测样本染色体SNPs位点集中各窗口的SNPs位点;
S512、依据各窗口的SNPs位点,以及SNPs位点的基因型,计算各窗口SNPs位点的杂合比例A1;
S513、将杂合比例A1与ROH检测阈值比较;
若窗口的杂合比例A1小于ROH检测阈值,则将该窗口作为候选ROH区域;
若窗口的杂合比例A1大于等于ROH检测阈值,则将该窗口作为非ROH区域;
S514、重复步骤S512~S513,获取待测样本所有窗口的候选ROH区域和非ROH区域;
S515、对待测样本的候选ROH区域与其相邻的非ROH区域进行统计检验,筛选显著性大于等于阈值的候选ROH区域作为ROH区域;
S516、滤除ROH区域中待测样本的拷贝数异常区域后,将剩余的ROH区域作为该待测样本的ROH区域,其中拷贝数异常区域包括拷贝数缺失区域。
8.根据权利要求1所述的一体化基因组分析方法,其特征在于:步骤S5中,待测样本的家系分析结果包括异常染色体来源分析结果;
待测样本中异常染色体来源的分析方法包括以下步骤:
S521、获取待测样本的目标染色体区域,目标染色体区域为拷贝数异常区域;
S522、在待测样本染色体SNPs位点集及其父亲和母亲的染色体SNPs位点集中,分别筛选目标染色体区域内SNPs位点;
S523、计算步骤S522中待测样本筛选的SNPs位点与其父亲共有的等位基因总数f,以及与其母亲共有的等位基因总数m;
S524、计算log(f/m)值及其绝对值;
S525、基于log(f/m)值及待测样本的拷贝数结果,判断待测样本的目标染色体区域的亲本来源。
9.根据权利要求8所述的一体化基因组分析方法,其特征在于:步骤S525中,基于log(f/m)值及待测样本的拷贝数结果,判断待测样本的目标染色体区域的亲本来源,包括:
当目标染色体区域的拷贝数为重复时,如果log(f/m)值为正且绝对值大于阈值,则判断待测样本的重复染色体来源于父亲,如果log(f/m)值为负且绝对值小于阈值,则判断待测样本的重复染色体来源于母亲;
当目标染色体区域的拷贝数为缺失时,如果log(f/m)值为正且绝对值大于阈值,则判断待测样本的缺失染色体来源于母亲;如果log(f/m)值为负且绝对值小于阈值,则判断待测样本的缺失染色体来源于母亲。
10.根据权利要求1或8所述的一体化基因组分析方法,其特征在于:步骤S5中,待测样本的家系分析结果包括单体型分析结果;
待测样本的单体型的分析方法,包括以下步骤:
S531、依据SNPs位点的基因型,从待测样本染色体SNPs位点集中挑选母亲杂合且父亲纯合的SNPs位点作为母方有效位点集M;挑选父亲杂合且母亲纯合的SNPs作为男方有效位点集P;
S532、依据孟德尔遗传定律确定母方有效位点集M和男方有效位点集P中每个SNPs位点的亲本来源,构建父母双方的单体型,并基于父母双方的单体型确定待测样本的单体型;
S533、依据待测样本的单体型,以及待测样本家系诊断结果,确定待测样本中含有致病位点的异常链。
CN202310092468.7A 2023-02-10 2023-02-10 基于基因型填补和低深度测序的一体化基因组分析方法 Active CN115798580B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310092468.7A CN115798580B (zh) 2023-02-10 2023-02-10 基于基因型填补和低深度测序的一体化基因组分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310092468.7A CN115798580B (zh) 2023-02-10 2023-02-10 基于基因型填补和低深度测序的一体化基因组分析方法

Publications (2)

Publication Number Publication Date
CN115798580A true CN115798580A (zh) 2023-03-14
CN115798580B CN115798580B (zh) 2023-11-07

Family

ID=85430776

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310092468.7A Active CN115798580B (zh) 2023-02-10 2023-02-10 基于基因型填补和低深度测序的一体化基因组分析方法

Country Status (1)

Country Link
CN (1) CN115798580B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115985399A (zh) * 2023-03-20 2023-04-18 广州迈景基因医学科技有限公司 用于高通量测序的HRD panel位点选择优化方法及系统
CN117542418A (zh) * 2023-06-14 2024-02-09 河北农业大学 一种基于低深度全基因组重测序技术对保种群保种效果进行评价的方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130274132A1 (en) * 2010-10-01 2013-10-17 Hospital For Sick Children Genetic Modifiers of Cystic Fibrosis
WO2014039556A1 (en) * 2012-09-04 2014-03-13 Guardant Health, Inc. Systems and methods to detect rare mutations and copy number variation
CN113742070A (zh) * 2021-09-01 2021-12-03 人和未来生物科技(长沙)有限公司 一种低深度测序群体基因型填充计算内存优化方法
CN114049914A (zh) * 2022-01-14 2022-02-15 苏州贝康医疗器械有限公司 一体化检测cnv、单亲二体、三倍体和roh的方法及装置
CN114842907A (zh) * 2021-01-30 2022-08-02 中国科学院分子植物科学卓越创新中心 基于高通量全基因组测序的多亲本作物基因型鉴定

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130274132A1 (en) * 2010-10-01 2013-10-17 Hospital For Sick Children Genetic Modifiers of Cystic Fibrosis
WO2014039556A1 (en) * 2012-09-04 2014-03-13 Guardant Health, Inc. Systems and methods to detect rare mutations and copy number variation
CN114842907A (zh) * 2021-01-30 2022-08-02 中国科学院分子植物科学卓越创新中心 基于高通量全基因组测序的多亲本作物基因型鉴定
CN113742070A (zh) * 2021-09-01 2021-12-03 人和未来生物科技(长沙)有限公司 一种低深度测序群体基因型填充计算内存优化方法
CN114049914A (zh) * 2022-01-14 2022-02-15 苏州贝康医疗器械有限公司 一体化检测cnv、单亲二体、三倍体和roh的方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
生信学习小达人: "基因型填补", pages 1, Retrieved from the Internet <URL:https://blog.csdn.net/hgz2020/article/details/129473259> *
薛思瑶 等: "基于 DNA 变异的中国汉族人群脱发表型推断及预测模型评估", 《生物化学与生物物理进展》 *
辛俊逸;葛雨秋;邵卫;杜牧龙;马高祥;储海燕;王美林;张正东;: "基于IMPUTE2的全基因组关联性研究的基因型填补", no. 15 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115985399A (zh) * 2023-03-20 2023-04-18 广州迈景基因医学科技有限公司 用于高通量测序的HRD panel位点选择优化方法及系统
CN115985399B (zh) * 2023-03-20 2023-07-04 广州迈景基因医学科技有限公司 用于高通量测序的HRD panel位点选择优化方法及系统
CN117542418A (zh) * 2023-06-14 2024-02-09 河北农业大学 一种基于低深度全基因组重测序技术对保种群保种效果进行评价的方法

Also Published As

Publication number Publication date
CN115798580B (zh) 2023-11-07

Similar Documents

Publication Publication Date Title
AU2021202149B2 (en) Detecting repeat expansions with short read sequencing data
AU2021200915B2 (en) Genetic analysis method
CN115798580B (zh) 基于基因型填补和低深度测序的一体化基因组分析方法
EP2321642B1 (en) Methods for allele calling and ploidy calling
KR20170016393A (ko) 태아 아-염색체 홀배수체 및 복사수 변이 탐지
CN113593644B (zh) 基于家系的低深度测序检测染色体单亲二体的方法
CN114049914B (zh) 一体化检测cnv、单亲二体、三倍体和roh的方法及装置
CN115052994A (zh) 确定胚胎细胞染色体中预定位点碱基类型的方法及其应用
WO2024027569A1 (zh) 一种不依赖于先证者的单体型构建方法
CN108875307B (zh) 一种基于孕妇外周血中胎儿游离dna的亲子鉴定方法
JP7333838B2 (ja) 胚における遺伝パターンを決定するためのシステム、コンピュータプログラム及び方法
KR20220013349A (ko) 검출 한계 기반 품질 제어 메트릭
CN110373458A (zh) 一种地中海贫血检测的试剂盒及分析系统
CN114921536A (zh) 一种检测单亲二倍体和杂合性缺失的方法、装置、存储介质和设备
JP6564053B2 (ja) 細胞間または細胞群間の同一人かどうか、他人かどうか、親子かどうか、または血縁関係かどうかの判定方法
Vakhrusheva et al. Recombination in a natural population of the bdelloid rotifer Adineta vaga
CN108315436A (zh) 一种应用于鹅亲子鉴定的方法
CN117230175B (zh) 一种基于三代测序的胚胎植入前遗传学检测方法
Al-Tabra et al. Forensic Applications of Markers Present on the X Chromosome
CN116218968A (zh) Hba1/2单基因缺陷检测的引物组合物、方法和试剂盒
이선호 New Methods for SNV/InDel Calling and Haplotyping from Next Generation Sequencing Data
CN117925820A (zh) 一种用于胚胎植入前变异检测的方法
CN115287369A (zh) 基于单细胞测序的非单精子判定方法
CN117004708A (zh) 遗传性Imerslund-Grasbeck综合征的筛查方法、检测组合物及检测试剂盒
CN117230175A (zh) 一种基于三代测序的胚胎植入前遗传学检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240117

Address after: 102629 Room 302, floor 3, building 7, courtyard 19, Tianrong street, Daxing biomedical industry base, Zhongguancun Science and Technology Park, Daxing District, Beijing

Patentee after: Beijing Jiabao Renhe Medical Technology Co.,Ltd.

Patentee after: BEIJING ZHONGYI KANGWEI MEDICAL DEVICES CO.,LTD.

Patentee after: Beijing Jiabao medical laboratory Co.,Ltd.

Address before: Room 204, Building 6, No. 19, Tianrong Street, Daxing Biomedical Industry Base, Zhongguancun Science and Technology Park, Daxing District, Beijing 102600

Patentee before: BEIJING ZHONGYI KANGWEI MEDICAL DEVICES CO.,LTD.

Patentee before: Beijing Jiabao Renhe Medical Technology Co.,Ltd.