CN114743596A - 基于二代测序数据的孟德尔遗传错误分析方法 - Google Patents

基于二代测序数据的孟德尔遗传错误分析方法 Download PDF

Info

Publication number
CN114743596A
CN114743596A CN202210305213.XA CN202210305213A CN114743596A CN 114743596 A CN114743596 A CN 114743596A CN 202210305213 A CN202210305213 A CN 202210305213A CN 114743596 A CN114743596 A CN 114743596A
Authority
CN
China
Prior art keywords
sites
homozygous
mutant
generation sequencing
mie
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210305213.XA
Other languages
English (en)
Inventor
许雄
胡大辉
郝美荣
侯敏
张冉
唐羽叶
孙文佳
王彩琴
周爽
边佳昕
陈蕙卉
肖锐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Bosheng Medical Laboratory Co ltd
Zhejiang Bosheng Biological Technology Ltd By Share Ltd
Original Assignee
Hangzhou Bosheng Medical Laboratory Co ltd
Zhejiang Bosheng Biological Technology Ltd By Share Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Bosheng Medical Laboratory Co ltd, Zhejiang Bosheng Biological Technology Ltd By Share Ltd filed Critical Hangzhou Bosheng Medical Laboratory Co ltd
Priority to CN202210305213.XA priority Critical patent/CN114743596A/zh
Publication of CN114743596A publication Critical patent/CN114743596A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Physics & Mathematics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Organic Chemistry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种基于二代测序数据的孟德尔遗传错误分析方法,其包括:将三人核心家系的双端150bp读长的二代测序原始序列比对到参考基因组,查找出三个样本全基因组范围内的点突变;过滤低质量和致病性为良性或人群多态性CNV区域位点,并根据孟德尔遗传规律对不符合孟德尔遗传的特定基因型位点进行分类标记;在全基因组范围内做分布图,将连续符合某种特征的孟德尔遗传错误的位点连成片段,输出片段分布,同时标注上已知的UPD疾病区域并进行判定。本发明无需再借助额外的甲基化检测项目就可确定亲本来源,同时结合实际情况用于提示质量控制情况,可对二代测序过程中隐含的信息做进一步的核实和确定,最终提高二代测序样本检测的阳性率。

Description

基于二代测序数据的孟德尔遗传错误分析方法
技术领域
本发明属于基于三人核心家系的NGS测序的生物信息数据分析领域,涉及三人核心家系全外显子组测序(Trio-WES)和三人核心家系全基因组测序(Trio-WGS)的数据分析,尤其涉及一种基于二代测序数据的孟德尔遗传错误分析方法。
背景技术
基于三人核心家系的二代测序方法已普遍用于遗传病的筛查和辅助诊断。单亲源二体(Uniparental Disomy,UPD)是一种与表观遗传相关的疾病,指来自父母一方的染色体片段被另一方的同源部分取代,或一个个体的两条同源染色体都来自同一亲本,前者称为节段性单亲源二体。单亲源二体可分为单亲同二体(isodisomy UPD(iUPD),来自同一亲体的同一染色体)和单亲源异二体(heterodisomy UPD(hUPD),分别来自同一亲体的两条同源染色体)。
UPD是一种临床上重要的疾病,在生长衰竭和内分泌异常的病因中占一定比例。最近的研究表明,在3500例活产婴儿中,约存在1例UPD。
全外显子组测序(WES)和全基因组测序(WGS)已经广泛地应用于遗传疾病的筛查和诊断方面,三人核心家系的检测方法结合遗传模式分析可提升新发突变和符合杂合突变的检出率,但对于分析出来的点突变数据用于额外的变异类型(如UPD及其遗传亲本来源)的分析缺乏根据,像15号染色体UPD不同亲本来源可能跟不同的疾病相关,母源缺失导致Angleman-Syndrome,父源缺失导致Prader-Willi syndrome。对于应用Trio-WES或Trio-WGS的不符合孟德尔遗传的位点数目和分布在亲缘关系不符、是否近亲结婚、是否有样本混淆和样本污染等质量控制方面也缺乏方法依据。
目前用于分析ROH的方法主要是基于单核苷酸多态性阵列(SNP-array,CMA)分析拷贝数缺失或拷贝数中性ROH,但目前的方法不能准确区分亲本来源。如果要区分亲本来源,通常还得做甲基化分析,如SNP-array检测15号染色体的情况,通常还需对15q11.2区域做先证者和父母的MS-MLPA以确定亲本来源。基于NGS分析ROH的分析工具AutoMap,也仅用于单样本分析iUPD,不能分析hUPD,且无法做更多的分析和质控。目前亲缘关系是否相符、是否有样本污染或样本混淆一般通过核心家系(Trio)的STR检测来比对。
发明内容
为了克服现有技术的不足,考虑到基于Trio-WES或Trio-WGS的分析方法可根据先证者是否有连续的不符合孟德尔遗传的位点来分析UPD;结合特殊类型的不符合孟德尔遗传的基因型可用于准确推断UPD的亲本来源,区分iUPD和hUPD;对于整个基因组范围内出现有很多大段的ROH且占全基因组范围一定比例的可用于推断先证者的是否存在血亲同源(IBD)的情况;对于全基因组范围均匀分布的不符合孟德尔遗传的位点及其比例可用于提示是否存在亲缘关系不符、样本混淆和样本污染、产前羊水或流产物样本母源污染,及异体骨髓移植或器官移植等情况。本发明提出了一种基于二代测序数据的孟德尔遗传错误分析方法。
本发明基于二代测序数据的孟德尔遗传错误分析方法,包括如下步骤:
1)将三人核心家系的双端150bp读长的二代测序原始序列比对到参考基因组,查找出三个样本全基因组范围内的点突变,包括单核苷酸多态性(SNP)和插入缺失(InDel);
2)对超过2种基因型的突变拆分成多个双等位基因突变;
3)对低质量和位于明确致病性良性或人群多态性CNV区域的SNP和InDel位点进行过滤;
4)标记基因型;
根据不同情况,将突变位点分别标记为denovo、iUPDpat、iUPDmat、UPDpat、UPDmat、duo-del;将所有denovo、iUPDpat、iUPDmat、UPDpat、UPDmat、duo-del位点都标记为MIE(Mendelian Inheritance Error);
5)将denovo、iUPDpat、iUPDmat、MIE、UPDpat、UPDmat、duo-del赋予1、2、3、4、5、6、7数值以便于数据可视化,在全基因组范围内做分布图,用CBS方法将连续符合某种特征的点连成片段,输出片段分布,标注上已知的UPD疾病区域;
6)不同情况的判定:
6.1如果基因组范围内存在某段与已知UPD疾病区域有重叠的UPD片段,结合表型分析提示UPD相关疾病可能;有可能单独存在iUPD或单独hUPD,也有可能iUPD和hUPD同时存在,可结合标记类型判定亲本来源;
6.2如果在基因组范围内存在多段iUPD,且占到基因组范围内一定比例,则提示存在近亲婚配的可能;
6.3如果基因组范围内较均匀分布着MIE的点,但又不那么密集的情况,则可能存在样本污染或者产前样本的母源污染,对于非产前样本提示肿瘤发生可能;
6.4如果全基因组范围内较均匀分布着MIE的点且密集程度高,MIE位点多的情况,则提示可能存在样本混淆或者亲缘关系不符合的情况,或可能存在异体器官/骨髓移植。
根据本发明的优选方案,所述步骤1)中的二代测序的方法为Trio-WES或Trio-WGS。
根据本发明的优选方案,所述步骤1)中,查找出三个样本全基因组范围内的点突变,具体为:基于GATK best practice(http://gatk.broadinstitute.org/hc/en-us/sections/360007226651-Best-Practices-Workfl ows)分析出每个样本点突变gVCF格式文件,然后用joint-calling分析方法合并成一个vcf文件;
根据样本家系关系ped文件(https://www.mv.helsinki.fi/home/tsjuntun/autogscan/pedigreefile.html),将生成的vcf文件按三人核心家系分成多个家系vcf文件,过滤掉每个家系vcf文件中的三个样本都未检出或都为纯合野生型的位点。
根据本发明的优选方案,所述步骤3)对位点进行过滤,具体为:
过滤掉除1-22和X、Y染色体以外的contig上的位点,过滤掉质量值低于30、最大基因分型质量小于20、最大测序深度小于8、最大突变等位基因频率小于0.2、平均测序深度小于5、任意一个样本测序深度为0或未检出的位点。
过滤掉人群频率>1%的且致病性为明确良性或人群多态性的CNV区域的位点。
5.根据权利要求1所述的基于二代测序数据的孟德尔遗传错误分析方法,其特征在于,所述步骤4),具体为:
4.1将父亲和母亲都为纯合野生型、先证者为杂合突变或纯合突变型的位点标记为denovo;
4.2将父亲是纯合野生型、母亲是杂合突变型、先证者是纯合突变型或者父亲是纯合突变型、母亲是杂合突变型、先证者是纯合野生型的位点标记为iUPDmat;
4.3将母亲是纯合野生型、父亲是杂合突变型、先证者是纯合突变型或者母亲是纯合突变型、父亲是杂合突变型、先证者是纯合野生型的位点标记为iUPDpat;
4.4将母亲是纯合野生型,父亲是杂合或者纯合突变型、先证者是纯合突变型的位点标记为UPDpat;
4.5将父亲是纯合野生型,母亲是杂合或者纯合突变型、先证者是纯合突变型的位点标记为UPDmat;
4.6将父亲和母亲都为纯合突变型、先证者为杂合突变或纯合野生型的位点标记为duo-del;
4.7将所有denovo、iUPDpat、iUPDmat、UPDpat、UPDmat、duo-del位点都标记为MIE。
本发明主要解决了Trio-WES或Trio-WGS二代测序数据用于分析UPD(包括iUPD和hUPD)及其亲本来源问题,无需再借助额外的MS-MLPA等甲基化检测项目就可确定亲本来源,同时结合实际情况用于提示亲缘关系不符、是否近亲结婚、是否有样本混淆和样本污染、产前羊水或流产物样本是否存在母源污染,是否存在骨髓移植或器官移植等质量控制情况,可作为二代测序过程中一项常规的质量控制项目,对于二代测序过程中隐含的信息可做进一步的核实和确定,最终提高二代测序样本检测的阳性率。
本方法是基于二代测序突变的生物信息学分析,不涉及实验层面的修改或优化,所提示的信息,均需用金标准的检验方法做进一步验证,不代表最终结果。
附图说明
图1表示先证者存在严重异常临床表型且经Affymetrix Cyto750K SNParray验证的拷贝数正常但存在大段ROH区域样本和父母全血样本的MIE分析结果;
图2表示存先证者在严重异常临床表型且经Affymetrix Cyto750K SNParray验证的存在大片段缺失的样本和父母全血样本的MIE分析结果
图3为图2所示样本的CNV(Copy Number Variation)和VAF分析结果;
图4为通过临床随访明确其祖父母间为近亲关系的三人核心家系全血样本的MIE分析结果;
图5为一对表型正常夫妻和另一个没任何亲缘关系的正常人组成的假三人家系样本的全基因组MIE分析结果。
图6为先证者来自于经STR检测验证存在母源污染的产前羊水及其父母全血样本的MIE分析结果;
图7为先证者为男性的正常表型样本和其父母正常的的全血样本的MIE分析结果;
图8位300例(100个Trio核心家系)的所有染色体上MIE位点总数的箱线图统计分布。
具体实施方式
下面结合具体实施方式对本发明做进一步阐述和说明。所述实施例仅是本公开内容的示范且不圈定限制范围。本发明中各个实施方式的技术特征在没有相互冲突的前提下,均可进行相应组合。
1.本实施例将300例(100个Trio核心家系)由华大基因T7型号测序仪的双末端150bp测序模式输出的Trio-WES数据比对到人参考基因组(参考基因组版本为hg19)上;(大部分是正常样本,其中异常的样本有:1.先证者来自于经STR检测验证存在母源污染的产前羊水及其父母全血样本,2.先证者存在严重异常临床表型且经Affymetrix Cyto750KSNParray验证的拷贝数正常但存在大段ROH区域样本和父母全血样本,3.存在严重异常临床表型且经Affymetrix Cyto750KSNParray验证的存在大片段缺失的样本和父母全血样本,4.通过临床随访明确其祖父母间为近亲关系的三人核心家系全血样本,5.一对表型正常夫妻和另一个没任何亲缘关系的正常人组成的假三人家系样本);
2.基于GATK best practice(http://gatk.broadinstitute.org/hc/en-us/sections/360007226651-Best-Practices-Workflows)分析出每个样本点突变gVCF格式文件,然后用joint-calling分析方法合并成一个vcf文件;
3.根据样本家系关系ped文件(https://www.mv.helsinki.fi/home/tsjuntun/autogscan/pedigreefile.html),我们将步骤2生成的vcf按三人核心家系分成多个家系vcf文件,过滤掉每个家系VCF文件中的三个样本都未检出或都为纯合野生型的位点;
4.对每个家系vcf文件中超过2种基因型的突变拆分成多个双等位基因突变;
5.将每个家系vcf文件过滤掉除1-22和X、Y染色体以外的contig上的位点,过滤掉质量值低于30、最大基因分型质量小于20、最大测序深度小于8、最大突变等位基因频率小于0.2、平均测序深度小于5、任意一个样本测序深度为0或未检出的位点;过滤掉位于人群频率>1%的且致病性为明确良性或人群多态性的CNV区域的位点;
6.将每个家系vcf文件标记上各种位点进行分类,对不符合孟德尔遗传的位点分别进行分类;
其中,将父亲和母亲都为纯合野生型、先证者为杂合突变或纯合突变型的位点标记为denovo;
将父亲是纯合野生型、母亲是杂合突变型、先证者是纯合突变型或者父亲是纯合突变型、母亲是杂合突变型、先证者是纯合野生型的位点标记为iUPDmat;
将母亲是纯合野生型、父亲是杂合突变型、先证者是纯合突变型或者母亲是纯合突变型、父亲是杂合突变型、先证者是纯合野生型的位点标记为iUPDpat;
将母亲是纯合野生型,父亲是杂合或者纯合突变型、先证者是纯合突变型的位点标记为UPDpat;
将父亲是纯合野生型,母亲是杂合或者纯合突变型、先证者是纯合突变型的位点标记为UPDmat;
将父亲和母亲都为纯合突变型、先证者为杂合突变或纯合野生型的位点标记为duo-del;
将所有denovo、iUPDpat、iUPDmat、UPDpat、UPDmat、duo-del位点都标记为MIE。
7.对每个家系vcf文件将denovo、iUPDpat、iUPDmat、MIE、UPDpat、UPDmat、duo-del赋予1、2、3、4、5、6、7数值,在全基因组范围内做分布图,用CBS(circular binarysegmentation)方法将连续符合某种特征的点连成片段,输出片段分布,标注上已知的UPD疾病区域;
8.如没有过多MIE位点的家系,本实施例不做进一步分析。
如果基因组范围内存在某段与已知UPD疾病区域有重叠的UPD片段,那么则结合表型,提示UPD相关疾病可能,即有可能单独存在iUPD或单独hUPD,也有可能iUPD和hUPD同时存在,可结合标记类型判定亲本来源;
如果在基因组范围内存在多段iUPD,且占到基因组范围内一定比例,那么则提示可能存在近亲婚配可能;
如果基因组范围内较均匀分布着MIE的点,但又不那么密集的情况,则可能存在样本污染或者产前样本的母源污染,对于非产前样本可能提示肿瘤发生;
如果全基因组范围内较均匀分布着MIE的点且密集程度高,MIE位点多的情况,则可能存在样本混淆或者亲缘关系不符合的情况,也有可能存在异体器官(骨髓)移植。
图1-8为具体案例情况。其中,图1、2、4、5、6、7为6个Trio(三人核心家系)的MIE分析及其先证者的VAF分布图,denovo、iUPDpat、iUPDmat、MIE、UPDpat、UPDmat、duo-del分别用正方形、圆形、正三角形、加号、叉、菱形、倒三角形表示,对应的数值为1、2、3、4、5、6、7,VAF是Variant Allele Fraction的简写,其定义为突变型基因型的测序深度除以此位点的总测序深度,纯合野生型对应的理论值为0,杂合突变型对应的理论值为0.5,纯合突变型对应的理论值为1。VAF部分的灰色区域采用AutoMap(https://github.com/mquinodo/AutoMap)软件计算的可能存在大段ROH区域。
图1表示先证者存在严重异常临床表型且经Affymetrix Cyto750K SNParray验证的拷贝数正常但存在大段ROH区域(chr4:54441842-109664820)样本和父母全血样本,其MIE分析表明chr4:54441842-109664820区域为iUPDmat,整条4号染色体为UPDmat;
图2表示存先证者在严重异常临床表型且经Affymetrix Cyto750K SNParray验证的存在大片段缺失(chr7:114333664-128000091)的样本和父母全血样本,其MIE分析表明chr7:114333664-128000091区域为iUPDmat和UPDmat,表示父源基因型缺失;
图3为图2所示样本的CNV(Copy Number Variation)和VAF分析,拷贝数变异分析表明,chr7:114333664-128000091区域存在1个拷贝的缺失,且VAF分析提示此区域为ROH区域,结合图2MIE的分析结论我们可推测次样本存在13.7Mb大小的父源拷贝数缺失;
图4为通过临床随访明确其祖父母间为近亲关系的三人核心家系全血样本,VAF分析发现chr11:67395456-84878075、chr11:40106074-48346729、chr11:48388067-56143225、chr19:23676134-30018369、chr13:102235519-107145829等大段的纯合区域,但在这些区域的MIE分布都正常;
图5为一对表型正常夫妻和另一个没任何亲缘关系的正常人组成的假三人家系样本,全基因组MIE分析发现所有染色体都存在数量非常多的MIE位点,VAF分布正常,表明家系关系不符。
图6为先证者来自于经STR检测验证存在母源污染的产前羊水及其父母全血样本,MIE分析发现其总的MIE位点较正常样本稍多。
图7为先证者为男性的正常表型样本和其父母正常的的全血样本的MIE分析结果,MIE位点较少,且VAF分布正常。
图8为300例(100个Trio核心家系)的所有染色体上MIE位点总数的箱线图统计分布。
表1:本发明特定MIE基因型比较及分类
Figure BDA0003564542570000081
表1为本发明特定MIE基因型比较及分类,结合图表中的结果可知,Trio-WGS或Trio-WGS数据通过本发明方法的标记,可确定拷贝数中性或拷贝数缺失情况的LOH(Lossof heterozygous)的亲本来源。性染色体拷贝数异常的情况,也可通过此分析方法确定是哪种配子(精子或卵子)出现了异常。
Trio-WGS或Trio-WGS数据通过本发明方法的标记,可以用于分析亲本是否存在近亲结婚、样本混淆、家系不符、产前样本母源污染等情况、以及受检者是否存在异体器官或骨髓移植情况。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。

Claims (5)

1.一种基于二代测序数据的孟德尔遗传错误分析方法,其特征在于包括如下步骤:
1)将三人核心家系的双端150bp读长的二代测序原始序列比对到参考基因组,查找出三个样本全基因组范围内的点突变,包括单核苷酸多态性(SNP)和插入缺失(InDel);
2)对超过2种基因型的突变拆分成多个双等位基因突变;
3)对低质量和良性多态性CNV区域的SNP和InDel位点进行过滤;
4)标记基因型;
根据不同情况,将突变位点分别标记为denovo、iUPDpat、iUPDmat、UPDpat、UPDmat、duo-del;将所有denovo、iUPDpat、iUPDmat、UPDpat、UPDmat、duo-del位点都标记为MIE(Mendelian Inheritance Error);
5)将denovo、iUPDpat、iUPDmat、MIE、UPDpat、UPDmat、duo-del赋予1、2、3、4、5、6、7数值以便于数据可视化,在全基因组范围内做分布图,用CBS方法将连续符合某种特征的点连成片段,输出片段分布,标注上已知的UPD疾病区域;
6)不同情况的判定:
6.1如果基因组范围内存在某段与已知UPD疾病区域有重叠的UPD片段,结合表型分析提示UPD相关疾病可能;即有可能单独存在iUPD或单独hUPD,也有可能iUPD和hUPD同时存在,可结合标记类型判定亲本来源;
6.2如果在基因组范围内存在多段iUPD,且占到基因组范围内一定比例,则提示存在近亲婚配的可能;
6.3如果基因组范围内较均匀分布着MIE的点,同批次Trio样本中MIE位点的总数超过95%分位数,且MIE总数相比平均值多5倍,则可能存在样本污染或者产前样本的母源污染,对于非产前样本提示肿瘤发生可能;
6.4如果全基因组范围内较均匀分布着MIE的点,MIE位点总数显著高于其他所有类型样本,且比6.3所述样本污染或者产前样本的母源污染样本MIE总数还要高多3倍以上,则提示可能存在样本混淆或者亲缘关系不符合的情况,或可能存在异体器官/骨髓移植。
2.根据权利要求1所述的基于二代测序数据的孟德尔遗传错误分析方法,其特征在于,所述步骤1)中的二代测序的方法为Trio-WES或Trio-WGS。
3.根据权利要求1所述的基于二代测序数据的孟德尔遗传错误分析方法,其特征在于,所述步骤1)中,查找出三个样本全基因组范围内的点突变,具体为:
基于GATK best practice分析出每个样本点突变gVCF格式文件,然后用joint-calling分析方法合并成一个vcf文件;
根据样本家系关系ped文件,将生成的vcf文件按三人核心家系分成多个家系vcf文件,过滤掉每个家系vcf文件中的三个样本都未检出或都为纯合野生型的位点。
4.根据权利要求1所述的基于二代测序数据的孟德尔遗传错误分析方法,其特征在于,所述步骤3)对位点进行过滤,具体为:
过滤掉除1-22和X、Y染色体以外的contig上的位点,过滤掉质量值低于30、最大基因分型质量小于20、最大测序深度小于8、最大突变等位基因频率小于0.2、平均测序深度小于5、任意一个样本测序深度为0或未检出的位点。
过滤掉人群频率>1%的且致病性为明确良性或人群多态性的CNV区域的位点。
5.根据权利要求1所述的基于二代测序数据的孟德尔遗传错误分析方法,其特征在于,所述步骤4),具体为:
4.1将父亲和母亲都为纯合野生型、先证者为杂合突变或纯合突变型的位点标记为denovo;
4.2将父亲是纯合野生型、母亲是杂合突变型、先证者是纯合突变型或者父亲是纯合突变型、母亲是杂合突变型、先证者是纯合野生型的位点标记为iUPDmat;
4.3将母亲是纯合野生型、父亲是杂合突变型、先证者是纯合突变型或者母亲是纯合突变型、父亲是杂合突变型、先证者是纯合野生型的位点标记为iUPDpat;
4.4将母亲是纯合野生型,父亲是杂合或者纯合突变型、先证者是纯合突变型的位点标记为UPDpat;
4.5将父亲是纯合野生型,母亲是杂合或者纯合突变型、先证者是纯合突变型的位点标记为UPDmat;
4.6将父亲和母亲都为纯合突变型、先证者为杂合突变或纯合野生型的位点标记为duo-del;
4.7将所有denovo、iUPDpat、iUPDmat、UPDpat、UPDmat、duo-del位点都标记为MIE。
CN202210305213.XA 2022-03-25 2022-03-25 基于二代测序数据的孟德尔遗传错误分析方法 Pending CN114743596A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210305213.XA CN114743596A (zh) 2022-03-25 2022-03-25 基于二代测序数据的孟德尔遗传错误分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210305213.XA CN114743596A (zh) 2022-03-25 2022-03-25 基于二代测序数据的孟德尔遗传错误分析方法

Publications (1)

Publication Number Publication Date
CN114743596A true CN114743596A (zh) 2022-07-12

Family

ID=82276282

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210305213.XA Pending CN114743596A (zh) 2022-03-25 2022-03-25 基于二代测序数据的孟德尔遗传错误分析方法

Country Status (1)

Country Link
CN (1) CN114743596A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116497106A (zh) * 2023-06-30 2023-07-28 北京大学第三医院(北京大学第三临床医学院) 一种产前诊断中母源污染的鉴别方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116497106A (zh) * 2023-06-30 2023-07-28 北京大学第三医院(北京大学第三临床医学院) 一种产前诊断中母源污染的鉴别方法
CN116497106B (zh) * 2023-06-30 2024-03-12 北京大学第三医院(北京大学第三临床医学院) 一种产前诊断中母源污染的鉴别方法

Similar Documents

Publication Publication Date Title
AU2021200915B2 (en) Genetic analysis method
TWI661049B (zh) 使用不含細胞之dna片段大小以測定複製數變異之方法
TWI817187B (zh) 偵測突變以用於癌症篩選分析
CN107849612B (zh) 比对和变体测序分析管线
CN102770558B (zh) 由母本生物样品进行胎儿基因组的分析
CN110957006B (zh) 一种brca1/2基因变异的解读方法
CN106795562A (zh) Dna混合物中的组织甲基化模式分析
HUE030510T2 (hu) Magzati kromoszómális aneuploidia diagnosztizálása genomszekvenálás alkalmazásával
CN109545281B (zh) 一种基于二代高通量测序的trio家系遗传突变模式的分析方法
CN105555970B (zh) 同时进行单体型分析和染色体非整倍性检测的方法和系统
CN109207606B (zh) 用于亲权鉴定的ssr位点的筛选方法和应用
US11111538B2 (en) Multiplexed parallel analysis of targeted genomic regions for non-invasive prenatal testing
JP2013528391A (ja) 単一細胞をハプロタイピングする方法
EP4095258A1 (en) Target-enriched multiplexed parallel analysis for assesment of tumor biomarkers
CN110846429A (zh) 一种玉米全基因组InDel芯片及其应用
CN110648722B (zh) 新生儿遗传病患病风险评估的装置
CN109461473B (zh) 胎儿游离dna浓度获取方法和装置
CN114743596A (zh) 基于二代测序数据的孟德尔遗传错误分析方法
CN105121660B (zh) 确定多胎妊娠的胎儿基因组
EP3649257A1 (en) Enrichment of targeted genomic regions for multiplexed parallel analysis
CN111593108A (zh) 与噪声性听力下降发生相关的7q36.3区域的多态性的检测方法、试剂盒及其应用
CN117230175B (zh) 一种基于三代测序的胚胎植入前遗传学检测方法
CN113130005B (zh) 一种基于m2群体的候选因果突变位点基因定位的方法
Liu et al. Quantitative thresholds for variant enrichment in 13,845 cases: improving pathogenicity classification in genetic hearing loss
CN117230175A (zh) 一种基于三代测序的胚胎植入前遗传学检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination