CN112375815A - 基于核心家系的遗传病高通量测序致病突变筛选方法 - Google Patents

基于核心家系的遗传病高通量测序致病突变筛选方法 Download PDF

Info

Publication number
CN112375815A
CN112375815A CN202011252380.XA CN202011252380A CN112375815A CN 112375815 A CN112375815 A CN 112375815A CN 202011252380 A CN202011252380 A CN 202011252380A CN 112375815 A CN112375815 A CN 112375815A
Authority
CN
China
Prior art keywords
mutation
gene
combination
pathogenic
genetic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011252380.XA
Other languages
English (en)
Inventor
杨永臣
张颖
宋小珍
张泓
李嫔
黄如方
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANGHAI CHILDREN'S HOSPITAL
Original Assignee
SHANGHAI CHILDREN'S HOSPITAL
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI CHILDREN'S HOSPITAL filed Critical SHANGHAI CHILDREN'S HOSPITAL
Priority to CN202011252380.XA priority Critical patent/CN112375815A/zh
Publication of CN112375815A publication Critical patent/CN112375815A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Physics & Mathematics (AREA)
  • Analytical Chemistry (AREA)
  • Organic Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Biotechnology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Pathology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明属于基因突变检测领域,涉及基于遗传病高通量测序数据,利用核心家系分析方法筛选致病突变的方法。本发明提供了一种基于核心家系的遗传病高通量测序致病突变筛选方法,包括:获得待检测的基因组样本,所述的基因组样本源自子代及其父母;使用高通量方法测定待检测的基因组样本的DNA序列,将测序结果与人类参考基因组进行比对和注释,形成注释文件;使用二分法对注释文件进行分析和筛选,去除高频突变,为检测到的基因突变分类;根据检测到的基因突变的分类和注释去除非致病突变。本发明的方法可成为遗传病高通量测序分析的有效工具,可以快速、准确地找出致病位点,实现分析的标准化、流程化和半自动化。

Description

基于核心家系的遗传病高通量测序致病突变筛选方法
技术领域
本发明基于遗传病高通量测序数据,利用核心家系分析方法筛选致病突变,属于医学中遗传病基因突变检测领域。本发明还提供了上述筛选方法的应用和装置。
技术背景
当前以全外显子测序为代表的高通量测序是人类遗传病检测和诊断的主要手段。高通量测序可以发现海量的变异,判断这些变异的有害性,找出和确认导致病患的致病基因和致病位点,是遗传病基因检测的主要任务。
在测序得到的变异中,有些变异在人群中有较高的分布频率。较高的分布频率意味着,如果该变异是有害的和不利于生存的,在显性遗传的情况下携带该突变的个体将趋于淘汰;在隐性遗传的情况下很容易与同一变异携带者婚配,从而生下纯合型携带者而趋于淘汰,自然地携带该突变的个体数量将趋于减少,因此高频率一般代表无害。在对基因变异进行注释时,根据变异在千人基因组数据库和其它同类数据库中的频率,就可以将大部分变异从致病变异候选者中排除出去。
在较低频率的变异中,有些变异属于移码突变,可导致其后所编码的肽链完全改变且在多数情况下很快中断;或者突变产生一个终止密码子引起所编码的肽链截断,除个别蛋白质外,这通常会导致蛋白质的失活,故该类型突变在大部分的已知机理下是有害的。因此在多数情况下,包括移码突变在内的截断突变是可快速判断为有害性突变的突变类型。
有些突变发生在外显子前面或后面的内含子区域一两个碱基的位置。这些位置是与转录剪切有关的位置,该位置的突变将改变蛋白质序列,通常也是有害的,是较易判断的突变类型。
还有一大类分布于内含子或外显子上的碱基置换型的变异,或者插入或缺失少数碱基且不引起移码突变的变异,这些变异中的一部分已被深入地研究过,突变有害性被广泛认可。在引用这些已经研究过的突变的致病性结果时,既可以检索文献,也可以查阅或通过程序自动调取基因突变数据库,如HGMD,ClinVar,dbSNP,Ensembl数据库等。
然而还有大量非同义突变(即使同义突变,也不一定是无害的),在人群中分布频率较低,又无文献支持,其致病性是难以判断的。在未经实验研究的情况下为了初步判断突变的致病性,可以使用一些基因突变致病性预测软件进行初步的预测,这些软件从比较早期的SIFT,PolyPhen,MutationTaster,到最近几年发展起来的LRT,FATHMM,PROVEAN,VEST3, fathmm-MKL,MetaSVM,MetaLR等等,这个领域的软件越来越多了。
经过一系列筛选,仍然有大量突变的致病性无法判断。而核心家系分析方法可排除不符合家系遗传规律的突变,有效地缩小待分析突变的数目。所谓核心家系,指为了检测遗传病患者的致病突变,而对患者和其生物学父母同时进行高通量测序,并将三人的数据放在一起进行分析的方法。核心家系分析对于先证者双突变分别来自父母,从而构成复合杂合突变的判断是无法替代的。对于新发突变,X连锁等突变致病性的判断,也依赖于对父母同一位置的检测。对先证者及其父母的所有突变进行家系分析通常由人工阅读的方式完成。然而,人工方法进行核心家系分析,是非常费时费力的,也容易出错和遗漏。鉴于此,本发明开发遗传病高通量测序的核心家系分析的整体性和自动化的方法,以提高遗传病的高通量测序的致病变异的检出效率。
发明内容
本发明要解决的技术问题是提供致病突变分析的有效工具,可以快速、准确地找出致病位点,实现分析的标准化、流程化和半自动化,为优生优育提供指导意见基础。
当前以全外显子测序为代表的高通量测序是人类遗传病检测和诊断的主要手段。若突变不属于高频突变、移码突变、终止突变、剪切突变、同义突变、数据库记录了致病性等比较容易判断其致病性的突变,而使用基因突变致病性预测软件如SIFT,PolyPhen,MutationTaster,LRT,FATHMM,PROVEAN,VEST3,fathmm-MKL,MetaSVM,MetaLR等的预测,又不能给出准确的结论,那么使用核心家系分析就成为判断致病突变的重要辅助手段了。
由于核心家系分析通常依赖人工的判断,而人工判断存在着费时费力、易错、易遗漏的问题,因此本发明开发了核心家系分析的方法(以下简称本发明)。本发明的发明内容包括: (1)本发明将病人区分为三种核心家系类型,分别为:孩子(子代)有疾病表型而父母无表型,孩子和父亲有相同或近似疾病表型而母亲无表型,孩子和母亲有相同或近似疾病表型而父亲无表型;(2)对每种核心家系类型,本发明给出孩子、父、母突变的各种基因型组合;(3) 本发明根据家系遗传共分离原则,根据基因型组合出现的可能性及致病可能性对组合或复合组合进行了致病性分类,分别为:弱组合、强可能、弱可能、微可能;(4)本发明为各种基因型组合或复合组合给出了各种遗传模式下的突变致病性分类;(5)本发明总结了三种家系类型下各种遗传模式下致病强可能的基因型组合及复合组合。某个基因或突变如具有致病强可能的突变基因型组合或复合组合,本发明称该基因或突变“遗传合式”,该基因为遗传合式基因,该突变或几个突变为遗传合式突变;(6)根据强致病可能的基因型组合及复合组合的规律,本发明对任一基因的所有突变中,是否包含了致病强组合或复合组合给出了判断。如果某基因的突变包含了致病强组合或复合组合,即该基因为遗传合式的基因,则该基因的所有突变都赋值1,否则该基因的所有突变赋值0。
本发明提供一种基于核心家系的遗传病高通量测序致病突变筛选方法,所述的基于核心家系的遗传病高通量测序致病突变筛选方法包括以下步骤:
获得待检测的基因组样本,所述的基因组样本源自子代及其父母;
使用高通量方法测定待检测的基因组样本的DNA序列,将测序结果与人类参考基因组进行比对和注释,形成基因型组合;
使用二分法对注释文件进行分析和筛选,去除高频突变,为检测到的基因突变分类,所述的分类包括核心家系分类或者致病可能性分类;
根据检测到的基因突变的分类和注释检测致病强组合或复合组合,并去除非致病突变,筛选获得遗传合式的基因。
所述的基因组样本源自子代及其父母的离体样本,包括但不限于血液、唾液、尿液、上皮细胞或者组织样本。
所述的高通量方法包括二代测序或者芯片筛查方法,等等。
所述的注释文件包括但不限于基因位点所属基因名称、在基因组中位置、基因型、相关功能或者文献、变异位点在数据库中的ID、参考基因组上的碱基、变异之后的碱基、变异位点的质量、过滤信息、等位基因测序深度,等等。
所述的基因型组合中,每个突变的基因型组合使用诸如0/1这样的“数字斜杠数字”的方式表示,两个数字代表每个基因的两个等位基因,0表示与参考序列相比未发生变异,1表示与参考序列相比发生了1种变异,在不考虑一个位置发生相对于参考序列两种突变以上的情况下,孩子父母三人的突变的基因型组合的类型包括:0/00/00/0,0/00/00/1,0/00/01/1, 0/00/10/0,0/00/10/1,0/00/11/1,0/01/10/0,0/01/10/1,0/01/11/1,0/10/00/0, 0/10/00/1,0/10/01/1,0/10/10/0,0/10/10/1,0/10/11/1,0/11/10/0,0/11/10/1,0/11/11/1,1/10/00/0,1/10/00/1,1/10/01/1,1/10/10/0,1/10/10/1,1/10/11/1, 1/11/10/0,1/11/10/1,1/11/11/1;
对子代及其父母的基因型进行顺序改变,用其它符号代替/或将/删除,或用其它符号代替0和/或1,或添加空格或其它符号,或在子代及其父母的基础上增加其他亲属或其他人员的基因型,不构成对基因型组合的根本改变。
所述的核心家系分类是根据子代和父母的表型将核心家系类型分为:孩子有疾病表型而父母无表型、孩子和父亲有相同或近似疾病表型而母亲无表型、孩子和母亲有相同或近似疾病表型而父亲无表型;
所述的致病可能性分类基于基因型组合出现的可能性及致病可能性对组合或复合组合进行了致病性分类,分别为:弱组合、强可能、弱可能、微可能。
所述的复合组合指同一基因两个或两个以上不同突变的核心家系基因型组合;
其中,弱组合是指根据遗传原理不太可能出现的遗传组合;
致病强可能指突变如有害,则该组合支持该有害突变为致病突变;
致病弱可能指致病可能性较小但不应轻易排除;
致病微可能指致病可能性极小基本可以排除的情况。
所述的高频突变是指分布频率较高的突变,较高的分布频率意味着,如果该变异是有害的和不利于生存的,在显性遗传的情况下携带该突变的个体将趋于淘汰;在隐性遗传的情况下很容易与同一变异携带者婚配,从而生下纯合型携带者而趋于淘汰,自然地携带该突变的个体数量将趋于减少,因此高频率一般代表无害。
本发明的一种基于遗传病高通量测序进行家系分析以判断突变致病的可能性强弱的筛选方法;其特征包括:特征一,对病人区分为三种核心家系类型,分别为:孩子有疾病表型而父母无表型、孩子和父亲有相同或近似疾病表型而母亲无表型、孩子和母亲有相同或近似疾病表型而父亲无表型;特征二,本发明对每种家系类型,给出孩子、父母的各种突变的基因型组合;特征三,根据家系遗传共分离原则,本发明基于基因型组合出现的可能性及致病可能性对组合或复合组合进行了致病性分类,分别为:弱组合、强可能、弱可能、微可能;特征四,本发明为各种基因型组合或复合组合给出了各种遗传模式下的突变致病性分类;特征五,总结了三种家系类型下各种遗传模式下致病强可能的基因型组合及复合组合;特征六,根据强致病可能的基因型组合及复合组合,给出了判断任一基因的所有突变中,是否包含了致病强组合或复合组合的筛选方法。
所述的特征二是指,每个突变的基因型组合使用诸如“0/1”这样的“数字斜杠数字”的方式表示,两个数字代表每个基因的两个等位基因,“0”表示与参考序列相比未发生变异,“1”表示与参考序列相比发生了1种变异,在不考虑一个位置发生相对于参考序列两种突变以上的情况下,孩子父母三人的突变的基因型组合的类型包括:0/00/00/0,0/00/00/1, 0/00/01/1,0/00/10/0,0/00/10/1,0/00/11/1,0/01/10/0,0/01/10/1,0/01/11/1,0/10/00/0,0/10/00/1,0/10/01/1,0/10/10/0,0/10/10/1,0/10/11/1,0/11/10/0, 0/11/10/1,0/11/11/1,1/10/00/0,1/10/00/1,1/10/01/1,1/10/10/0,1/10/10/1, 1/10/11/1,1/11/10/0,1/11/10/1,1/11/11/1;对孩子父母三人的基因型进行顺序改变,用其它符号代替“/”或将“/”删除,或用其它符号代替“0”和(或)“1”,或添加空格或其它符号,或在孩子、父、母的基础上增加其他亲属或其他人员的基因型,不构成对特征二的根本改变。
所述的特征三是指,复合组合指同一基因两个或两个以上不同突变的核心家系基因型组合;对基因型组合或复合组合进行的致病性分类中,弱组合是指根据遗传原理不太可能出现的遗传组合,例如“1/11/10/0,”;致病强可能指突变如有害,则该组合支持该有害突变为致病突变,例如在父母无疾病表型而孩子有疾病表型情况下,常染色体显性遗传模式下某突变的组合为“0/10/00/0”;致病弱可能指致病可能性较小但不应轻易排除,例如在父母无疾病表型而孩子有疾病表型情况下,常染色体隐性遗传模式下某突变的组合为“0/10/00/1”,是有可能存在未发现的另外的来自父亲的致病突变的;致病微可能指致病可能性极小基本可以排除的情况,例如在父母无疾病表型而孩子有疾病表型情况下,常染色体隐性遗传模式下某突变的组合为“1/11/11/1”,致病突变的可能性可被排除。
所述的特征四是指,本发明为各种基因型组合或复合组合给出了各种遗传模式下的突变致病性分类,但每种组合本身存在多种可能性,例如“1/10/00/0”,既可能是弱组合,也可能是致病强可能,根据可能性的大小进行取舍时,不同人对于突变致病性分类可以有不同,这种差异不构成对特征四的根本改变。
所述的特征五是指,总结了三种家系类型下各种遗传模式下致病强可能的基因型组合及复合组合,某个基因或突变如具有致病强可能的基因型组合或复合组合,本发明称该基因或突变遗传合式,该基因为遗传合式基因,该突变或几个突变为遗传合式突变,否则为遗传不合式,合式与不合式分别用1和0表示;由于对“可能”本身理解的差异,对于致病强可能的基因型组合及复合组合的微小调整,不构成对特征五的根本改变。
所述的特征六是指,本发明根据强致病可能的基因型组合及复合组合,给出了判断任一基因的所有突变中,是否包含了致病强组合或复合组合的筛选方法,对致病强组合或复合组合的个别取舍,及将对结论的展示从“1”和“0”分别代表符合以上规律及不符合以上规律改变为其它展示方式,不构成对特征6的根本改变。
以孩子为先证者,父亲有症状而母亲无症状的类型下的致病突变核心家系分析的家系组合分析情况为:
Figure BDA0002771994360000051
Figure BDA0002771994360000061
以孩子为先证者,父亲无症状而母亲有症状的类型下的突变家系分析的家系组合情况为:
Figure BDA0002771994360000062
Figure BDA0002771994360000071
以孩子为先证者,父母无症状而孩子有症状的类型下的突变家系分析的家系组合信息如下:
Figure BDA0002771994360000081
Figure BDA0002771994360000091
本发明还提供了一种基于核心家系的遗传病高通量测序致病突变筛选系统,包括基因测序装置、基因信息注释装置、基因突变分类装置、非致病突变剔除装置;
基因测序装置,检测的基因组样本的基因序列并且存储于基因测序结果存储元件中,基因测序装置与基因信息注释装置连接,将基因测序结果存储元件中的基因序列检测结果呈递给基因信息注释装置;
基因信息注释装置,接收基因测序装置呈递的基因序列检测结果,与人类参考基因组序列比对,对于比对一致的基因或者基因片段进行注释,根据注释结果形成基因组组合;
非致病突变剔除装置,接收基因测序结果存储元件呈递的基因序列检测结果和/或基因信息注释装置呈递的基因序列注释结果,从检测到的基因突变剔除非致病突变,并将致病突变信息呈递给基因突变分类装置;
基因突变分类装置,接收非致病突变剔除装置呈递的致病突变信息,形成致病强组合或复合组合。
所述的基因信息注释装置包括人类参考基因组信息存储元件和基因信息比对元件,基因信息比对元件接收待测基因的测序结果和人类参考基因组信息存储元件中的人类参考基因组信息,对与人类参考基因组信息匹配的基因测序结果进行注释,并将注释后的基因信息呈递至基因信息注释装置。
本发明中,可用任何计算机语言编写实现本发明,包括但不限于JAVA、VB、python、qb、 c++、vc++、c语言等;可运行的计算机操作系统包括但不限于:windows系列,dos,macos 系列,linux,unix、Android、iOS等;筛选的存在方式包括但不限于:单机版、网络在线版、内置于基因分析仪上、以模块方式或其它方式存在于其它软件之中。
所述的基因突变包括,在基因组水平,在RNA水平,在cDNA水平,突变类型包括但不限于:碱基置换(Substitutions);缺失(Deletion);重复(Duplication);插入(Insertion);倒位(Inversion);缺失/插入(Indels);突变位置包括但不限于:编码蛋白质的外显子区域,不编码蛋白质的外显子区域,内含子区域,5’-UTR区,3’-UTR区,以及其它未归类的 DNA序列;用于发现变异的参考序列包括HG18,HG19,HG38,HG39等各个版本的人基因组序列,包括来源于NCBI数据库、ensembl数据库,ucsc数据库等各种数据库的基因序列,或其它来源的序列。
本发明还提供了上述基于核心家系的遗传病高通量测序致病突变筛选方法的应用,根据子代和父母的基因测序结果剔除非致病突变,获得其他子代致病突变的分析结果。
例如,获得致病突变的基因序列,作为所述遗传病检测的阳性对照。
相应的,本发明提供了一种遗传病的检测试剂盒,所述的检测试剂盒含有检测基于核心家系的遗传病高通量测序致病突变筛选方法所获得的致病突变的基因位点或者基因片段的检测试剂。
较好的,所述的检测试剂盒还含有基于核心家系的遗传病高通量测序致病突变筛选方法所获得的致病突变的基因位点或者基因片段,作为阳性对照。
本发明的方法概括了在各种遗传模式下的各种可能或不可能致病的突变基因型组合,是一种对核心家系分析的整体性的筛选方法。本发明将突变在遗传上简单划分为“遗传合式”与“遗传不合式”两类,并分别赋值1和0,从而分别予以重点关注或有条件排除,更快地和更准确地找到致病突变,排除非致病突变。经过大批量数据的验证,核心家系分析方法已足可成为遗传病高通量测序分析的有效工具。本发明的方法可以用于分析和确定致病基因,预防和减少严重缺陷的遗传病的产生,为优生优育提供理论基础。
使用本发明的系统,通过将这一工具与突变频率、突变类型、ClinVar数据库结果、表型、软件预测等工具的配合使用,可以较好地解决遗传病高通量测序数据的分析问题,较快地和较准确地找出致病位点,实现分析的标准化、流程化和半自动化。
附图说明
图1核心家系分析流程图。该图描述了在孩子有症状而父母无症状类型下,基于基因不同遗传型的家系分析流程。
获得孩子、父母的基因组样本后,经过一系列检测和注释得到基因突变的注释文件。基于注释文件进行家系分析。
设某基因突变为M,首先判断该突变的基因遗传方式是否为AD。如果判断结果为是,则取突变所在基因的所有突变基因型,右侧向左核对,判断右侧任一条件是否在左侧基因型中找到相符者,如果为是,则返回1,否则返回0。
如果判断该突变的基因遗传方式不是AD,则继续判断判断该突变的基因遗传方式是否为 AR。如果判断结果为是,则取突变所在基因的所有突变基因型,左侧向右核对,判断左侧任一条件是否在左侧基因型中找到相符者,如果为是,则返回1,否则返回0。
如果判断该突变的基因遗传方式不是AR,则继续该突变的基因遗传方式是否为CX。如果判断结果为是,则取突变所在基因的所有突变基因型,右侧向左核对,判断右侧任一条件是否在左侧基因型中找到相符者,如果为是,则返回1,否则返回0。
如果判断该突变的基因遗传方式不是AR,则继续该突变的基因遗传方式是否为XD。如果判断结果为是,则取突变所在基因的所有突变基因型,左侧向右核对,判断左侧任一条件是否在左侧基因型中找到相符者,如果为是,则返回1,否则返回0。
如果判断该突变的基因遗传方式不是XD,则继续该突变的基因遗传方式是否为XR。如果判断结果为是,则取突变所在基因的所有突变基因型,右侧向左核对,判断右侧任一条件是否在左侧基因型中找到相符者,如果为是,则返回1,否则返回0。
如果判断该突变的基因遗传方式不是XR,则继续该突变的基因遗传方式是否为未区分。如果判断结果为是,则取突变所在基因的所有突变基因型,左侧向右核对,判断左侧任一条件是否在右侧基因型中找到相符者,如果为是,则返回1,否则返回0。
如果判断该突变的基因遗传方式不是未区分,则返回遗传型未知。
具体实施方式
本发明公开了一种遗传病高通量测序致病突变筛选的核心家系整体性分析方法。该方法利用高通量测序注释的患者及父母的基因型(GTinfo),在三种核心家系类型下、多种遗传方式下将每种基因型组合致病可能性分为强可能、弱可能、微可能、弱组合,进而筛选出强可能(称遗传合式)的组合及复合组合。三种核心家系类型是:(1)父母无疾病表型而孩子有表型;(2)父亲与孩子有类似表型;(3)母亲与孩子有类似表型。对致病突变基因型组合的准确筛选,依赖于:(1)突变所在基因的遗传方式已知(该基因的遗传方式,如AR、AD、CX、 XR、XD、未区分等);(2)对高频突变、已知不致病突变的有效排除。
实施例1二代测序中基因型的展示方式
基因型,是指某一生物个体全部基因组合的总称,反映了生物体从双亲获得的遗传物质的总和。遗传学中具体使用的基因型,一般只表示个别或少数基因位点上的等位基因的组成。例如,某个SNP位点的参考序列为A,某人该位点所在基因的两个等位基因上,该位点分别是A和T,那么此人该位点的基因型就是A/T。基因型包含着多种突变类型,不但有单碱基置换,而且有插入、缺失、插入/缺失,倒位等诸多突变类型。
高通量测序技术也称二代测序技术,可以测定目的片段的序列,并将其中与参考序列不同的位点提取出来,记录于VCF文件之中。在VCF文件中,记录每个变异位点的部分,分为题头(header line)和数据行(data line)两部分。header line以#开头,\t分隔,一般包含以下10个字段:
CHROM:染色体名字。
POS:染色体的位置,起始位置为1。
ID:变异位点在数据库中的ID,如果是dbsnp数据库,一般使用rs号,如果没有ID,用点号表示缺失值。
REF:参考基因组上的碱基。
ALT:变异之后的碱基。
QUAL:变异位点的质量,质量值越高,为真实的变异位点的概率越大。
FILTER:过滤信息,PASS代表通过了过滤;对于过滤失败的位点,会给出对应的过滤失败的原因。
INFO:额外的信息。
FORMAT和18N0XXX:这两行合起来提供了“18N0XXX”这个样本的基因型的信息。“18N0XXX”代表该样品的名称。
另一部分为数据行,包含了所有突变的信息。例如,某一行数据为:
chr1 981131rs9697293A G 1317.13PASS
AC=0;AF=0.167;AN=2;BaseQRankSum=-1.881e+00;ClippingRankSum=0.00;DB;DP=351;Ex cessHet=3.0103;FS=3.308;MLEAC=1;MLEAF=0.167;MQ=60.00;MQRankSum=0.00;PG=0,0,0;POS ITIVE_TRAIN_SITE;QD=9.90;ReadPosRankSum=-2.620e-01;SOR=0.449;VQSLOD=17.4924;culp rit=MQ GT:AD:DP:GQ:JL:JP:PL:PP:Q0/0:107,0:107:99:116:116:0,120,1800:0,120,1860
该行数据由空格分隔为10个部分,与题头的10个项目是一一对应的。
在数据中最后两列数据为:GT:AD:DP:GQ:JL:JP:PL:PP:Q和0/0:107,0:107:99:116:116: 0,120,1800:0,120,1860,二者中前者为后者的说明,除了最后的“Q”外,其它是一一对应的。其中,GT指样品的基因型(genotype)。两个数字中间用“/”分开,这两个数字表示双倍体的样本的基因型。0表示样品中有ref的allele(等位基因);1表示样品中variant的allele;2表示有第二个variant的单倍型allele。因此:0/0表示样本中该位点为纯合的,和ref一致;0/1表示样本中该位点为杂合的,有ref和variant两个基因型;1/1 表示样本中该位点为纯合的,和variant一致。
AD和DP:AD(Allele Depth,等位基因测序深度)为样本中每一种allele的reads覆盖度,在diploid中则是用逗号分割的两个值,前者对应ref基因型,后者对应variant基因型;DP(Depth)为样本中该位点的覆盖度。
GQ:基因型的质量值(Genotype Quality)。Phred格式(Phred_scaled)的质量值,表示在该位点该基因型存在的可能性;该值越高,则Genotype的可能性越大;计算方法:Phred 值=-10*log(1-p)p为基因型存在的概率。
PL:指定的三种基因型的质量值(provieds the likelihoods of the givengenotypes)。这三种指定的基因型为(0/0,0/1,1/1),这三种基因型的概率总和为1。该值越大,表明为该种基因型的可能性越小。Phred值=-10*log(p)p为基因型存在的概率。
因此,如需了解该位点是否发生了变异,是纯合还是杂合,在保证了测序质量的情况下,理论上只需要提取FORMAT中“GT”所对应的数据即可。
在实际检测中,基因型在VCF文件中记录的类型和意义如下:
genotype=./.无法判断基因型。
genotype=0/0等位基因相同且无突变行为。
genotype=0/1等位基因不同且有突变行为,为杂合子。
genotype=1/1等位基因相同且有突变行为,为纯合子。
genotype=0/2等位基因不同且至少有2种突变行为,但是判断为第2种突变行为是主要的可信的,并为杂合子。
genotype=1/2等位基因不同且至少有2种突变行为,但是判断为2种突变杂合为主要的可信的,并为杂合子。
genotype=2/2等位基因不同且至少有2种突变行为,但是判断为第2种突变纯合为主要的可信的,并为纯合子。
genotype=n/m m>=3,等位基因不同且多种突变行为,可能来自于家系的多样,也可能是该位点本身多样性导致,此类情况相对少见。
举例如下:
0/0:Ref:--A/A--Individual:--A/A--
0/1:Ref:--A/A--Individual:--A/C--
1/1:Ref:--A/A--Individual:--C/C--
0/2:Ref:--A/A--Individual:--A/C--or--A/G--(main)
1/2:Ref:--A/A--Individual:--C/G--(main)
2/2:Ref:--A/A--Individual:--G/G--(main)
在遗传病检测中,诸如0/2,1/2,2/2等是比较少见的。特别是有些机构在注释时,为了避免出现2种突变,会将同一位置的两种突变分别注释。例如,在chr12,56398454(HG19) 位置,参考序列为G,某样品的基因型为C/T,该样品的该位置经某些机构的注释,就形成了两个数据行,分别为:1/0:0,100:177:99:5269,2269,1969:5269,2269,1969:5240.77和 0/1:0,77:177:99:5269,3001,2771:5269,3001,2771:5240.77,如果不加分析,当成两个突变,就会产生分析错误。
这样一来,genotype的数目就大大减少了。如果不考虑无法判断基因型的情况,那么一般有四种情况:
genotype=0/0
genotype=0/1
genotype=1/0
genotype=1/1
本发明发现,基因型为1/0的情况是极少的,在核心家系分析中(孩子、父亲、母亲的基因型数据放在一起,例如0/10/00/1),本发明统计了多个样品,每个样品的全部基因型中出现1/0的比例为0.6%左右。“1/0”的出现,一般与一个位置出现多个突变型有关,特别是在碱基插入、碱基缺失,或者微卫星等情况下,出现频率较多。虽然有些机构认为“1/0”和“0/1”是等价的,但背后的意义并不相同。因此,本发明在遇到含有“1/0”的突变时,视为其它突变类型而不加分析,由用户自己判断,或者在方法完善后进行处理。
实施例2二代测序中的核心家系分析
遗传病高通量测序致病突变的核心家系分析模式,英文叫Trios模式,该模式对遗传病先证者和其双亲三个人同时进行二代测序检测及数据平行比对分析,以此来寻找隐藏于疾病表型之下的致病突变,确认疾病的始发根源。如果对先证者进行高通量测序检测,经分析发现可能的致病突变后,再通过一代测序对父母进行验证,以判断先证者该致病突变的来源,那么这种分析方式一般被称为先证者分析,不是本文所说的核心家系分析方法。国内外近几年有关各种遗传病的研究文献中,使用的Trios家系检测模式已经越来越多。2014年,JAMA 上发表了一篇文章(Lee H,Deignan JL,Dorrani N,Strom SP,Kantarci S,Quintero-Rivera F,et al.Clinical exome sequencing for genetic identificationof rare Mendelian disorders.JAMA.2014;312(18):1880-7.),研究对象为临床上诊断未明的疑似遗传疾病患者共814例,检测方案为临床全外显子组测序(Clinical exomesequencing,CES),并分别采用家系(trio-CES)和先证者(proband-CES)两种诊断模式,研究结果提示,不论是总的疑似遗传病患者组还是发育迟缓患儿组,Trios诊断模式的阳性率都明显高于先证者模式。文章还指出,两种诊断模式在阳性率方面的显著差异来自于Trios模式对于新生突变和复合杂合突变的识别。
此处应明确两个相关的概念,致病突变与有害突变。在本文中,突变与变异这两个词是混用的,不加区分的。致病突变与有害突变是不应混用的,是应加以区分的。所谓有害突变,是指某个基因上出现的可严重影响所编码的蛋白质功能的突变。对于常染色体而言,或者女性的X染色体而言,通常每个基因有两个等位基因,同样表达(女性X染色体存在随机失活的情况,属于例外)。当其中一个备份的基因因变异不能正常工作时,本发明称该变异为有害突变,这种有害变异既可能影响个体表型;也可能由于另一个等位基因的弥补而不影响个体表型。可导致疾病的有害突变属于致病突变。因此,所谓致病突变,是指可以导致整体功能缺陷的某基因上的一个或几个变异。有害突变不一定是致病突变,但致病突变一定是有害突变。
核心家系基因突变有害性的分析方法,是基于家系遗传共分离原则,在各种基因的各种遗传模式下,判断某个突变或同一条基因上多个突变是否含有符合致病条件的组合而设计和开发的。所谓共分离是指遗传病表型与基因型是共同绑定的,也就是说在一个家系中,患者和非患者的基因型是不一样的,在疑似致病基因上,患者应该是以致病方式携带,而非患者应该是非致病方式携带的。基于对这个规律的认识,Trios家系模式就可发挥非常强大的遗传学过滤分析作用,其逻辑如下:如果孩子是先证者,父亲和母亲表型正常,那么,以孩子的某个突变基因为核心,对比其父母在相同基因位点上是否携带此变异以及变异的呈现形式 (杂合或纯合),将三者进行平行比对,就可以判断这个基因的变异是否为致病突变。例如,对于某个常染色体显性遗传的基因,先证者携带某个突变,父母双方或一方也携带该突变而无表型,那么在遗传上就不支持该突变可能为致病突变的判断;如果父母都不携带该突变,则支持该突变可能为致病突变的判断。再如,对于某个常染色体隐形遗传的基因,在先证者该基因上发现两个突变,而父母分别是其中一个突变的杂合型携带者,那么就可以判断先证者为复合杂合型突变,在遗传上支持这两个突变为致病突变的判断。
然而,由于人的基因有几万个,从全外显子测序中找到的突变有几万个,人工判断每个基因的每个突变是否符合家系遗传共分离原则是费时的;而只分析感兴趣的突变,又可能产生遗漏。一些可能的辅助方法是:对于显性遗传基因,为了判断新发突变给出一种方法,在 X连锁的隐形遗传模式下,为了给出男性患者是否为半合型携带者给出一种方法,如此等等,每种情况都分别给出一种方法,用户要分别使用不同的方法对不同的情况进行判断,这仍然是低效的。因此,开发一种方法,整体性地给出在各种遗传模式下,各种突变类型是否符合共分离原则,就成为遗传病高通量测序分析的需要了。
实施例3突变的家系组合类型
如前所述,先证者某个突变位点的基因型有三种情况,0/0,0/1,1/1,其父母也有同样的三种情况,将先证者、父、母的某一个突变的基因型组合在一起,在理论上共有27种。它们分别是:0/00/00/0;0/00/00/1;0/00/01/1;0/00/10/0;0/00/10/1;0/00/11/1;0/01/10/0; 0/01/10/1;0/01/11/1;0/10/00/0;0/10/00/1;0/10/01/1;0/10/10/0;0/10/10/1;0/10/11/1; 0/11/10/0;0/11/10/1;0/11/11/1;1/10/00/0;1/10/00/1;1/10/01/1;1/10/10/0;1/10/10/1; 1/10/11/1;1/11/10/0;1/11/10/1;1/11/11/1;加上属于其它情况的特殊组合,共28种。
本发明取10个进行了全外显子高通量测序实验的家系进行数据分析。各种组合的数据如下:
Figure BDA0002771994360000161
Figure BDA0002771994360000171
Figure BDA0002771994360000181
由上表可知,在二代测序分析时,先证者与参考序列相同而与父母不同的位点,分析系统是自动忽略的。应该了解的是,本表包含了所有的突变位点,而不予区分该变异的测序质量是否符合某一参考界限。因此,某些因测序质量较差明显不合理的组合,也被收录进来。
有时本发明要考察的是某个基因单个突变在先证者、父、母的组合情况,有时则是要考察某个基因的两个或两个以上的突变在先证者、父、母的组合情况。前者可称为简单组合,后者可称为复合组合。相比而言,复合组合是更为复杂的组合方式。
为了判断突变是否符合遗传的共分离原则,其基本思路是:(1)突变所在基因是什么遗传方式;(2)在该种遗传方式下,不考虑新发突变或基因缺失等情况下,子父母的基因型组合是否合理。这里的“子”,是指先证者,可为女性或男性,或在生物学上性别不明者。(3) 在考虑了新发突变、女性一条X染色体失活情况下,子父母的基因型组合是否合理。至于基因单倍缺失、同源二倍体等情况,由于比较复杂且比例稀少,暂不考虑。(4)在子父母的基因型组合合理的情况下,可能为致病突变的组合有哪些。
关于基因的遗传方式,目前常见的遗传方式如下:
(1)常染色体显性遗传,简写为AD;
(2)常染色体隐形遗传,简写为AR;
(3)常染色体显性/隐形遗传,简写为AD/AR,如将AD/AR和其它更复杂的遗传方式如体细胞遗传合并起来,则可以写作CX;
(4)X染色体连锁的显性遗传,简写为XD;
(5)X染色体连锁的隐性遗传,简写为XR;
(6)其它遗传方式包括Y染色体的遗传方式,线粒体的遗传方式,不明遗传方式等。对于其它遗传方式,如为基因尚未明确的遗传方式,则默认各种遗传方式都有可能;如为Y染色体连锁遗传方式,或者线粒体连锁的遗传方式,则在筛选时应将数据保留而不分析,由分析者自行判断,在此不予讨论。
在不考虑新发突变或基因缺失等情况下,子父母的基因组合,对于常染色体而言,27种简单组合中合理的情况包括:0/00/00/0,0/00/00/1,0/00/10/0,0/00/10/1,0/10/00/1,0/10/01/1,0/10/10/0,0/10/10/1,0/10/11/1,0/11/10/0,0/11/10/1,1/10/10/1,1/10/11/1, 1/11/10/1,1/11/11/1,其余12种为不合理组合。
在不考虑新发突变或基因缺失等情况下,子父母的基因组合,对于X染色体而言,27种简单组合中,在不区分先证者为男性或女性的情况下,合理的情况包括:0/00/00/0,0/00/00/1,0/01/10/0,0/01/10/1,0/10/00/1,0/10/01/1,0/11/10/0,0/11/10/1,1/11/10/1, 1/11/11/1,其余17种为不合理组合。应注意的是,先证者父亲只应有一个X染色体,因此父亲X染色体上的突变位点如果为杂合的,都不合理。而对于如0/01/10/0和0/01/10/1这样的组合,在父母生育男孩时,父亲的X染色体不能传递给男性后代,而只有母亲的一条X传递给了男性后代,此时是合理的,如生女孩而为此组合,则不合理。
在考虑了基因单倍缺失、同源二倍体等情况下,对于常染色体而言,合理的情况除了上述常染色体合理的组合外,还包括:0/00/01/1;0/00/11/1;0/01/10/0;0/01/10/1;1/10/00/1; 1/10/01/1;1/10/10/0;1/11/10/0。例如,对于0/00/01/1,如先证者母亲未能将该突变所在区域遗传给先证者,造成先证者该区域的单倍缺失或由先证者父同一位置填补缺失所构成的单亲二倍体,那么,在先证者的该区域仅仅显示先证者父亲的基因型,即无突变,是合理的。在使用Sanger测序或者高通量测序时,如果不考虑对拷贝数变异的检测,那么,单亲二倍体与单倍型缺失,对常染色体而言,所显示的突变位点都为纯合型,是不能区分的。对于片段的复制(Duplication),在不考虑拷贝数变异检测能力的情况下,由Sanger测序或高通量测序所显示的突变,与普通二倍体亦无区别。而对于X或Y染色体,如果为男性(只有一条X染色体,只有一条Y染色体),某个区域的缺失,在Sanger测序或高通量测序时,所缺失的区域的变异,是无信号的。由于考虑基因单倍缺失、同源二倍体等情况下,基因的核心家系分析将变得异常复杂,而这些情况又不常见,因此,在本文的分析中,不特别考虑基因单倍缺失和同源二倍体情况。
在考虑了新发突变的情况下,对于常染色体而言,0/10/00/0是合理的。
而反过来,0/11/11/1,理论可以看成某个突变变回了与参考序列相同的序列,是一种逆向的新发突变,但实际上,其合理性要远逊于0/10/00/0作为新发突变的合理性。这是因为,对于人的全外显子测序而言,全外显子的碱基数目约为人全部基因的1%,即约3000万个碱基对。在3000万个碱基对中出现假设30个新发突变,则每个碱基的突变率为百万分之一。这样的突变率,对于3000万个碱基而言,可以产生30个突变,而对于总共2万多个已有变异而言(指每个人的基因组外显子序列与参考序列相比),则只有1/50个碱基对有机会再次发生变异。注意这个突变是从ATGC的某个碱基突变为另外三个碱基中确定的一个,才能构成逆向突变,几率为1/3,因此也就是说,平均150个人中,才可能有一个人的某个外显子上已有突变发生与参考序列相同的逆向突变。这样的概率是非常之低的。
在考虑了基因单倍缺失、同源二倍体等情况下,对于X染色体而言,合理的情况除了上述常染色体合理的组合外,还包括:0/00/01/1,1/10/00/1,1/10/01/1,1/11/10/0。例如,对于0/00/01/1,如果先证者为女性,如先证者母亲未能将该突变所在区域遗传给先证者,即先证者只获得遗传自父亲的该段基因,造成先证者该区域的缺失或由先证者父同一位置填补母亲遗传缺失所构成的单亲二倍体,那么,在先证者的该区域仅仅显示先证者父亲的基因型,即无突变,是合理的。如果先证者为男性,则该位点只能来自母亲,而母亲为纯合型突变的情况下,先证者没有突变,则是不合理的。在不清楚先证者性别,或者不考虑性别的情况下,则认为该组合有其合理性而予以保留。
在考虑了新发突变而不区分先证者性别的情况下,对于X染色体而言,1/10/00/0是合理的。
以上讨论了在各种遗传方式下,各种简单组合的合理性。在实际测序中发现不合理的组合,通常是由于测序质量不合格(容易造成单倍型丢失)或者存在假基因(容易造成杂合型增加)而带来的假象。本发明将此类情况命名为“弱组合”。
在适当条件下判断了遗传组合的合理性后,需要进一步判断可能为致病突变的合理性。例如,某个常染色体显性遗传的基因上的一个变异,其简单组合为0/10/10/1,父母皆无疾病表型,那么该组合就不支持该变异为致病变异的可能。在生物学中,几乎每个规则都存在例外,本发明认为不能将这种情况的“致病不可能”绝对化,只是可能性极小,因此本发明将致病性极小的可能命名为“微可能”。
假设某个常染色体显性遗传的基因上的一个变异,其简单组合为0/10/00/0,在通常情况下该组合可被视为新发突变的依据,如果父母皆无疾病表型,那么该变异组合就支持该变异为致病变异的可能。在该突变为致病突变的情况下,0/10/00/0在极大可能上支持该变异是致病突变。本发明将这种可能性归类为“强可能”。
假设某个常染色体隐性遗传的基因上的一个变异,其简单组合为0/10/10/0,这个组合是合理的,如果父母皆无疾病表型而孩子有表型,那么仅有该组合是不足以支持该变异是导致先证者症状的致病突变的。如果在该基因上同时存在另一个有害变异,其简单组合为 0/10/00/1,则该变异与前者分别来自先证者母亲与父亲,也即两个变异位于同一基因的不同等位基因上,属于复合杂合突变,在这种情况下两个突变共同构成致病突变。然而,如果只看到该基因上其中一个变异,不清楚是否存在其它变异,如何判断该变异致病的可能性呢?本发明认为,应该看另一个致病突变出现的概率。一个常染色体上隐性遗传基因的一个已知致病突变,可构成致病突变的概率,等于该基因所有致病突变在人群中的分布频率之和。假设某个隐性遗传基因的某个致病突变A的人群分布频率为a%,该基因上其它所有致病突变的分布频率为b%,已知某人已经发现了A突变的杂合型分布,在其它变异未知的情况下,A可以构成致病突变的概率,应该等于b%。b%显然不是一个很高的数值,但也不是可以忽略的数值,本发明将数值等于b%的可能性归类为“弱可能”。
因此,本发明根据突变的家系组合导致疾病的可能性大小将组合分成四类:强可能,弱可能,微可能,弱组合。
由于本发明的目的,是分析导致病症的致病突变,而致病突变在很大程度上是由各种异常导致的,如新发突变,缺失,插入等,因此,理论上一切有可能致病的突变都不应遗漏。在分析时,本发明使用了宁滥毋缺的原则,以尽可能地保留一切可能致病的突变。如果一些组合的突变可能性未知,暂时不能分析,则应保留下来,给用户深入分析的机会。
后面将循着以上规则,分别就父母无症状而孩子有症状,父亲和孩子有症状而母亲无症状,母亲与孩子有症状而父亲无症状等情况下,对简单组合和复合组合进行致病可能性强弱的分析。
实施例4以孩子为先证者,父母无症状而孩子有症状的类型下的突变家系分析
按组合的可能性及致病的可能性角度,简单组合可以分为四类:1微可能,2弱可能,3 强可能,0弱组合。仅出现于父母而未出现于先证者身上的突变,其组合不出现在分析文件中的,归类为“不记录”,不记录可视为弱组合,也用0表示。其它的弱组合则是在不考虑大片段缺失、同源二倍体的情况下,出现概率极低的组合类型。
以孩子为先证者,父母无症状而孩子有症状的类型下的简单组合,其归类见下表所示。其中1/10/00/0在常染色体情况下应该归类为弱组合,但因为致病的可能性较强,而归类为强可能,属于特殊情况。
本表分析的限制性条件是,适用于常染色体和X染色体上的突变,考虑了新发突变,适当考虑女性X染色体随机失活,不考虑基因单倍缺失、同源二倍体等情况。
Figure BDA0002771994360000211
Figure BDA0002771994360000221
ψ表示受X染色体随机失活或曰里昂化(lyonization)影响的组合类型。
题头中XD模式或XR模式下标记子或女,指先证者为男性或女性。
0:弱组合;1:微可能;2:弱可能;3:强可能
4.1编号1-9,“0/0*/**/*”(*指0或1),当父母为某个基因的一个或多个突变的杂合型或纯合型,或者无突变,而孩子(先证者)为无突变时,也即孩子记做“0/0”时(先证者相对于参考序列没有发生突变),一般认为不可能成为致病突变,因此在注释时程序会自动排除这种组合。在注释文件中本发明可以看到先证者的每个突变,但看不到在先证者身上没有而在父方或母方有的突变。本发明称“0/0*/**/*”型组合为“零零排除型”,与弱组合一样用0表示。
4.2编号10,“0/10/00/0”,先证者有杂合型突变,而父母无突变时,在AD的遗传模式下,为强可能的致病突变,在AR的遗传模式下为弱可能,即若该突变是已经证实的有害突变,而未发现该基因上的其它致病突变,则不足以致病。若在该基因上发现另外的有害突变,与该突变构成复合杂合突变,则可满足致病的条件。在CX的情况下,考虑到可能为AD的模式,可视为强可能。与AD的情况相同,在XD的情况下,为强可能致病突变。另外,在XD的情况下,“0/1”意味着先证者为女性。如先证者为男性而出现“0/1”,则提示存在假基因或其它问题。在XR的遗传模式下,编号10为弱可能。在未区分遗传模式下,由于这些模式包含了 AD或XD的模式,故视为强可能。
4.3编号11,“0/10/00/1”,先证者为杂合型,父为正常,母为杂合型。在AD的遗传模式下,如该突变为致病突变,则母亲带有该突变,也应致病。既然母亲正常,则该突变不可能致病。故归类为“微可能”。在AR的遗传模式下,存在与该基因其它突变构成复合杂合的可能,故为弱可能。在CX的遗传模式下,存在实际为AR的遗传模式,故为弱可能。在XD的遗传模式下,其逻辑与AD相同,归类为“微可能”。但考虑到母亲X染色体随机失活的情况,携带而不发病,根据宁滥勿缺的原则,改为致病强可能。在XR的遗传模式下,其逻辑与AR 相同,为弱可能。在未区分遗传模式下,为各种可能者中的最大者,为强可能。
4.4编号12,“0/10/01/1”,先证者为杂合型,母亲为纯合型,父亲正常,在各种遗传模式下都为微可能。因为如有害,则带有纯合型突变的母亲,应该先有疾病表型。
4.5编号13,“0/10/10/0”,先证者和父亲为杂合型,母亲为正常,在AD遗传模式下不可能是致病突变。在AR遗传模式下,与同基因的其它有害突变可组合成为复合杂合突变,故为弱可能。在XD和XR模式下父亲不可能为“0/1”,故为弱组合。CX和未区分遗传模式,视为AR的遗传模式,故为弱可能。
4.6编号14,“0/10/10/1”,三人皆为杂合型。在AD的遗传模式下不可能是致病突变,在XD或AR遗传模式下,父不应该是杂合型,判断为弱组合。在AR的遗传模式下,设该突变为A,在先证者,该突变所在基因如有另一个突变B,来自其父或其母,则B的家系组合是“0/10/00/1”或者“0/10/10/0”。以B的“0/10/00/1”为例,先证者B突变只能来自母亲,如先证者A突变也来自母亲,则A突变和B突变在母亲基因组是位于同一染色体上,传递给先证者,也是在同一染色体上,无法构成复合杂合突变,因此是不致病的(不考虑母亲所带的这两个突变在遗传过程中发生重组的特殊情况);如先证者B的突变来自母亲,先证者A突变来自父亲,则先证者母亲带有的A和B突变,位于不同染色体上,既然母亲无病,则先证者的症状不可能是本突变组合引起的。同理,如B为“0/10/10/0”型,也不可能与A在先证者身上构成致病突变。假设B突变既不是来自父亲,也不是来自母亲,而是新发突变,既B 的家系组合为“0/10/00/0”,此时可能与A构成复合杂合突变。因此,本发明将A在AR的遗传模式模式下判断为致病弱可能,在AD的遗传模式模式下判断为致病微可能。
4.7编号15,16,17,18,父母包含一个纯合型突变,如“0/10/11/1”,在各种遗传模式下皆不可能是致病突变,逻辑同编号12。
4.8编号19,“1/10/00/0”,是新发的纯合突变,真实的新发纯合突变在新发突变中是极其罕见的,大部分情况下是由于测序质量不佳造成的假象。尽管如此,如该突变得以确认,则在各种遗传模式下,都是致病强可能的。基于宁滥勿缺的原则,归入致病强可能的类别。
4.9编号20,“1/10/00/1”,对于先证者两个相同突变,在AD,AR,CX遗传模式下,如推断为一个来自先证者母亲,一个为新发突变,其几率是极低的,故归类为弱组合。但若该突变得以证实,则在AR遗传模式下,可归类为致病强可能的,其逻辑同4.8。在AD遗传模式下,则为弱可能或者弱组合。在X染色体遗传模式下,则为母亲的杂合型突变传递给儿子,在儿子基因上为半合型突变,是常见的组合类型。其中在XR情况下,为致病强可能,在XD 情况下,则为弱可能。但是应该考虑,母亲的两条X染色体中,有一条会随机失活,如果失活的染色体是携带致病突变的染色体,而传递给儿子的也是这条染色体,则可以出现基因为显性遗传而母亲不致病,儿子致病的情况。因此,本发明将XR,XD模式下,都归入强可能。未区分模式亦然。但未区分模式的基因如位于常染色体,可归入弱组合(由于未区分模式下仅记录致病性最大的可能,故未将弱组合,即0写入表格)。
4.10编号21,“1/10/01/1”,在AD,AR,CX遗传模式下归类为弱组合,理由同上。在XD, XR模式下,归类为致病微可能。
4.11编号22,“1/10/10/0”,在各种遗传模式下,皆非正常组合,归类为弱组合。
4.12编号23,“1/10/10/1”。在AD模式下,既然父母带有该突变而不发病,则是不致病的,故归类为微可能;在AR的遗传模式下,父母各带一个而孩子为纯合型,符合隐形遗传的致病模式,故致病性为强可能;在CX模式下,考虑到AR遗传模式的可能性,故归类为强可能。在XD模式下,其父不可能是杂合型,而只能是半合型,或者即使不考虑这一点,与 AD模式相同,也不可能带有突变而不致病,故归类为弱组合或微可能;在XR模式下,同理是弱组合;在未区分模式下,取各模式下最大值,为强可能。
4.13编号24,“1/10/11/1”。母亲为纯合型而不致病,故致病性为微可能。
4.14编号25,“1/11/10/0”,为弱组合。
4.15编号26,“1/11/10/1”,为微可能,逻辑同编号24。
4.16编号27,“1/11/11/1”,父母皆为纯合型突变而不致病,故致病性皆为微可能。
4.17特殊组合。特殊组合有可能是将“0/1”写成“1/0”,或者出现大于1的数字,或者出现未区分情况。为免于遗漏予以保留,全部视为强可能。
根据以上表格,具有致病强可能的组合或复合组合,总结如下:
4.18在AD模式下,具有致病强可能的组合为:
(1)“0/10/00/0”组合,
(2)“1/10/00/0”组合;
(3)特殊组合。
4.19在AR模式下,具有致病强可能的组合为:
(1)“1/10/00/0”组合;
(2)“1/10/00/1”组合(弱组合);
(3)“1/10/10/1”组合;
(4)特殊组合;
(5)“0/10/10/0”+“0/10/00/1”的复合组合;
(6)“0/10/10/0”+“0/10/00/0”的复合组合;
(7)“0/10/00/1”+“0/10/00/0”的复合组合;
(8)“0/10/10/1”+“0/10/00/0”的复合组合。
应该理解,“0/10/10/1”+“0/10/00/0”的组合,不是一个纯粹的强组合,如果“0/10/00/0”的等位基因与已有的突变处于同一个等位基因上,并不构成致病的强可能。
当一个基因中有一个突变符合以上(1),(2),(3)中的一种情形时,或者有两个突变符合(4),(5),(6),(7),(8)的情形时,则该基因的突变具有致病强可能,它的所有当前突变,都进行相同的标记,以便与不具备强可能突变的基因区分开来。
4.20在CX模式下,致病强可能的组合为AD与AR遗传模式下强致病组合的并集,包括:
(1)“0/10/00/0”组合;
(2)“1/10/00/0”组合;
(3)“1/10/00/1”组合;
(4)“1/10/10/1”组合;
(5)特殊组合;
(6)“0/10/10/0”+“0/10/00/1”;
(7)“0/10/10/0”+“0/10/00/0”;
(8)“0/10/00/1”+“0/10/00/0”;
(9)“0/10/10/1”+“0/10/00/0”。
4.21在XD遗传模式下,如先证者为男性,致病强可能的组合包括:
(1)“1/10/00/0”组合;
(2)“1/10/00/1”组合(受里昂化影响);
如先证者为女性,强可能致病的组合包括:
(1)“0/10/00/0”组合;
(2)“0/10/00/1”组合(受里昂化影响);
(3)“1/10/00/0”组合(弱组合);
(4)“1/10/00/1”组合(受里昂化影响,弱组合)。
之所以在“0/10/00/1”和“1/10/00/1”后面标记“受里昂化影响”,是考虑到母亲的两条X染色体中,致病突变位于随机失活的X染色体而不发病的可能。这种影响可以是抑制了带致病突变的染色体而不发病,也可以是抑制了正常染色体而发病。标记了“弱组合”的组合,指组合的可能性极低,其出现多伴随测序错误或深度太低导致单倍型遗失。
4.22在XR的遗传模式下,如先证者为男性,强可能致病的组合包括(1)“1/10/00/0”; (2)“1/10/00/1”;如先证者为女性,强可能致病的组合包括(1)“1/10/00/0”(弱组合);(2)“1/10/00/1”(受里昂化影响,弱组合);(3)特殊组合;(4)“0/10/00/1”+“0/10/00/0”。在AR模式下属于强可能的“1/10/10/1”,在XD模式下为弱组合,因为父亲不太可能在X染色体上出现杂合型突变。同理“0/10/10/0”在XR遗传模式下也是弱组合,与之搭配构成的复合组合,也为弱组合。
4.23在未区分遗传模式下,致病强可能为以上所有模式的并集。包括:
(1)“0/10/00/1”组合(仅在XD女性为先证者情况下,受里昂化影响才为致病强可能);
(2)“0/10/00/0”组合;
(3)“1/10/10/1”组合;
(4)“1/10/00/0”组合(弱组合);
(5)“1/10/00/1”组合(弱组合);
(6)特殊组合;
(7)“0/10/00/1”+“0/10/00/0”的复合组合;
(8)“0/10/10/0”+“0/10/00/0”的复合组合;
(9)“0/10/10/1”+“0/10/00/0”的复合组合;
(10)“0/10/10/0”+“0/10/00/1”的复合组合。
实施例5以孩子为先证者,父亲有症状而母亲无症状的类型下的致病突变核心家系分析
本表分析的限制性条件是,适用于常染色体和X染色体上的突变,考虑了新发突变,适当考虑女性X染色体随机失活,不考虑基因单倍缺失、同源二倍体等情况。
Figure BDA0002771994360000271
Figure BDA0002771994360000281
ψ表示受X染色体随机失活或曰里昂化影响的组合类型。
题头中XD模式或XR模式下标记子或女,指先证者为男性或女性。
0:弱组合;1:微可能;2:弱可能;3:强可能
编号1-9,“0/0*/**/*”(*指0或1),当父母为某个基因的一个或多个突变的杂合型或纯合型,或者无突变,而孩子为无突变时,也即孩子记做“0/0”时,先证者相对于参考序列没有发生突变,一般认为不可能成为先证者的致病原因,在注释时程序会自动忽略这种情况。如前所述,本发明称这种类型的组合为“零零排除型”。虽然通常认为可预先排除,但是,当父母一方与先证者带有同样症状时,不能排除父母一方与孩子带有相同的致病基因和不同的致病突变,有病的父母一方未将突变传递给先证者的情况。如果未对父母进行同一基因的数据分析,就可能出现某基因在先证者有致病突变而在带有症状的父母一方未发现致病突变的情况,从而发生漏检。为了避免这种情况,在本文中,对于父母一方与孩子有相同症状的类型,本着宁滥勿缺的原则,对“0/0*/**/*”类型的突变予以分析。
对于每个简单组合的致病可能性,其判断思路参考前一部分,判断过程从略,判断结果见上表。当某个组合为致病弱可能时,那么两个此类组合可能构成一个致病强可能的复合组合,也可能不能构成致病强可能的复合组合。本发明经过分析,强可能致病突变的简单组合与复合组合,总结如下:
5.1在AD模式下,具有致病强可能的组合为:
(1)“0/10/10/0”组合;
(2)“0/11/10/0”组合;
(3)“1/10/10/0”组合(弱组合);
(4)特殊组合;
(5)“0/10/00/0”+“0/00/10/0”复合组合(零零排除型);
(6)“1/10/00/0”+“0/01/10/0”复合组合(弱组合,零零排除型);
(7)“1/10/00/0”+“0/00/10/0”复合组合(弱组合,零零排除型)。
5.2在AR模式下,具有致病强可能的组合为:
(1)“1/11/10/1”组合;
(2)特殊组合;
(3)“0/10/00/0”+“0/11/10/0”的复合组合;
(4)“0/10/00/0”+“0/11/10/1”的复合组合;
(5)“0/10/10/0”+“0/10/10/1”的复合组合;
(6)“0/10/10/1”+“0/11/10/0”的复合组合;
(7)“0/10/10/1”+“1/10/10/1”的复合组合;
(8)“0/11/10/0”+“1/10/10/1”的复合组合;
(9)“1/10/10/0”+“0/00/10/0”的复合组合(弱组合,零零排除型);
(10)“1/10/10/1”+“0/00/10/0”的复合组合(零零排除型);
(11)“1/10/00/0”+“0/01/10/0”的复合组合(弱组合,零零排除型)。
5.3在CX模式下,具有致病强可能的组合是AD和AR遗传模型下的并集,包括: (1)“0/10/10/0”组合;
(2)“0/11/10/0”组合;
(3)“1/10/10/0”组合(弱组合);
(4)“1/11/10/1”组合;
(5)特殊组合;
(6)“0/10/00/0”+“0/00/10/0”的复合组合(零零排除型);
(7)“1/10/00/0”+“0/00/10/0”的复合组合(弱组合,零零排除型);
(8)“0/10/00/0”+“0/11/10/0”的复合组合;
(9)“0/10/00/0”+“0/11/10/1”的复合组合;
(10)“0/10/10/0”+“0/10/10/1”的复合组合;
(11)“0/10/10/1”+“0/11/10/0”的复合组合;
(12)“0/10/10/1”+“1/10/10/1”的复合组合;
(13)“0/11/10/0”+“1/10/10/1”的复合组合;
(14)“1/10/10/0”+“0/00/10/0”的复合组合(弱组合,零零排除型);
(15)“1/10/10/1”+“0/00/10/0”的复合组合(零零排除型);
(16)“1/10/00/0”+“0/01/10/0”的复合组合(弱组合,零零排除型)。
5.4在XD遗传模式下,如先证者为男性,强可能致病的组合包括:
(1)“1/11/10/1”组合(受里昂化影响);
(2)特殊组合;
(3)“1/10/00/0”+“0/01/10/0”的复合组合(零零排除型)。
如先证者为女性,强可能致病的组合包括:
(1)“0/11/10/0”组合;
(2)“0/11/10/1”(受里昂化影响);
(3)“1/11/10/1”(受里昂化影响);
(4)特殊组合;
(5)“0/10/00/0”+“0/01/10/0”(弱组合,零零排除型);
(6)“1/10/00/0”+“0/01/10/0”(弱组合,零零排除型).
5.5在XR的遗传模式下,如先证者为男性,强可能致病的组合包括:
(1)“1/11/10/1”组合(受里昂化影响);
(2)特殊组合;
(3)“1/10/00/0”+“0/01/10/0”的复合组合(零零排除型)。
如先证者为女性,强可能致病的组合包括:
(1)“0/10/00/0”+“0/11/10/0”的复合组合;
(2)“0/10/00/0”+“0/11/10/1”的复合组合;
(3)“1/10/00/0”+“0/01/10/0”的复合组合(弱组合,零零排除型)。
5.6在未区分遗传模式下,致病强可能的组合为其它致病强可能组合的并集,包括(1)“0/10/10/0”组合;
(2)“0/11/10/0”组合;
(3)“1/10/10/0”组合(弱组合);
(4)“1/11/10/1”组合;
(5)“0/11/10/1”组合;
(6)特殊组合;
(7)“0/10/00/0”+“0/00/10/0”的复合组合(零零排除型);
(8)“1/10/00/0”+“0/00/10/0”的复合组合(弱组合,零零排除型)。
(9)“0/10/00/0”+“0/11/10/0”的复合组合;
(10)“0/10/00/0”+“0/11/10/1”的复合组合;
(11)“0/10/10/0”+“0/10/10/1”的复合组合;
(12)“0/10/10/1”+“0/11/10/0”的复合组合;
(13)“0/10/10/1”+“1/10/10/1”的复合组合;
(14)“0/11/10/0”+“1/10/10/1”的复合组合;
(15)“1/10/10/0”+“0/00/10/0”的复合组合(弱组合,零零排除型);
(16)“1/10/10/1”+“0/00/10/0”的复合组合(零零排除型);
(17)“1/10/00/0”+“0/01/10/0”的复合组合(弱组合,零零排除型)。
(18)“0/10/00/0”+“0/01/10/0”的复合组合。
实施例6以孩子为先证者,父亲无症状而母亲有症状的类型下的突变家系分析
本表分析的限制性条件是,适用于常染色体和X染色体上的突变,考虑了新发突变,适当考虑女性X染色体随机失活,不考虑基因单倍缺失、同源二倍体等情况。
Figure BDA0002771994360000311
Figure BDA0002771994360000321
ψ表示受X染色体随机失活或曰里昂化(lyonization)影响的组合类型。
题头中XD模式或XR模式下标记子或女,指先证者为男性或女性。
0:弱组合;1:微可能;2:弱可能;3:强可能
强可能类型的总结:
对于每个简单组合的致病性,其判断思路参考前一部分,判断过程从略,判断结果见上表。据此表,致病强可能突变的简单组合与复合组合,总结如下:
6.1在AD模式下,具有致病强可能的组合为:
(1)“0/10/00/1”组合;
(2)“0/10/01/1”组合;
(3)“1/10/00/1”组合(弱组合);
(4)“1/10/01/1”组合(弱组合);
(5)特殊组合;
(6)“1/10/00/0”+“0/00/00/1”(弱组合,零零排除型);
(7)“0/10/00/0”+“0/00/00/1”(零零排除型);
(8)“1/10/00/0”+“0/00/01/1”(弱组合,零零排除型);
(9)“0/10/00/0”+“0/00/01/1”(弱组合,零零排除型)。
6.2在AR模式下,具有致病强可能的组合为:
(1)“1/10/01/1”组合(弱组合);
(2)“1/10/11/1”组合;
(3)特殊组合;
(4)“0/10/00/0”+“0/10/01/1”的复合组合;
(5)“0/10/00/0”+“0/10/11/1”的复合组合;
(6)“0/10/00/1”+“0/10/10/1”的复合组合;
(7)“0/10/00/1”+“1/10/00/1”的复合组合(弱组合);
(8)“0/10/01/1”+“0/10/10/1”的复合组合;
(9)“0/10/01/1”+“1/10/00/0”的复合组合(弱组合);
(10)“0/10/01/1”+“1/10/00/1”的复合组合(弱组合);
(11)“0/10/01/1”+“1/10/10/1”的复合组合;
(12)“0/10/10/1”+“1/10/10/1”的复合组合;
(13)“0/10/11/1”+“1/10/00/0”的复合组合(弱组合);
(14)“1/10/00/0”+“0/00/01/1”的复合组合(弱组合,零零排除型);
(15)“1/10/10/1”+“0/00/00/1”的复合组合(零零排除型);
(16)“1/10/00/1”+“0/00/00/1”的复合组合(零零排除型,弱组合);
(17)“1/10/10/1”+“0/00/01/1”的复合组合(零零排除型,弱组合)
6.3在CX模式下,具有致病强可能的组合是AD和AR遗传模型下的并集,包括: (1)“0/10/00/1”组合;
(2)“0/10/01/1”组合;
(3)“1/10/00/1”组合(弱组合);
(4)“1/10/01/1”组合(弱组合);
(5)“1/10/11/1”组合;
(6)特殊组合;
(7)“1/10/00/0”+“0/00/00/1”的复合组合(弱组合,零零排除型),
(8)“0/10/00/0”+“0/00/00/1”的复合组合(零零排除型);
(9)“0/10/00/0”+“0/00/01/1”的复合组合(弱组合,零零排除型)。
(10)“0/10/00/0”+“0/10/01/1”的复合组合;
(11)“0/10/00/0”+“0/10/11/1”的复合组合;
(12)“0/10/00/1”+“0/10/10/1”的复合组合;
(13)“0/10/00/1”+“1/10/00/1”的复合组合(弱组合);
(14)“0/10/01/1”+“0/10/10/1”的复合组合;
(15)“0/10/01/1”+“1/10/00/0”的复合组合(弱组合);
(16)“0/10/01/1”+“1/10/00/1”的复合组合(弱组合);
(17)“0/10/01/1”+“1/10/10/1”的复合组合;
(18)“0/10/10/1”+“1/10/10/1”的复合组合;
(19)“0/10/11/1”+“1/10/00/0”的复合组合(弱组合);
(20)“1/10/00/0”+“0/00/01/1”的复合组合(弱组合,零零排除型);
(21)“1/10/10/1”+“0/00/00/1”的复合组合(零零排除型);
(22)“1/10/00/1”+“0/00/00/1”的复合组合(零零排除型,弱组合);
(23)“1/10/10/1”+“0/00/01/1”的复合组合(零零排除型,弱组合)。
6.4在XD遗传模式下,如先证者为男性,致病强可能的组合包括:
(1)“1/10/00/1”组合;
(2)“1/10/01/1”组合;
(3)特殊组合;
(4)“1/10/00/0”+“0/00/00/1”的复合组合(弱组合,零零排除型);
(5)“1/10/00/0”+“0/00/01/1”的复合组合(弱组合,零零排除型)。.
如先证者为女性,致病强可能的组合包括:
(1)“0/10/00/1”组合;
(2)“0/10/01/1”组合;
(3)“1/10/00/1”组合(弱组合);
(4)“1/10/01/1”组合(弱组合);
(5)特殊组合;
(6)“0/10/00/0”+“0/00/00/1”的复合组合(零零排除型);
(7)“1/10/00/0”+“0/00/00/1”的复合组合(弱组合,零零排除型);
(8)“1/10/00/0”+“0/00/01/1”的复合组合(弱组合,零零排除型);
(9)“0/10/00/0”+“0/00/01/1”的复合组合(弱组合,零零排除型)。
6.5在XR的遗传模式下,如先证者为男性,强可能致病的组合包括:
(1)“1/10/01/1”组合;
(2)“1/10/00/1”组合(受里昂化影响);
(3)特殊组合;
(4)“1/10/00/0”+“0/00/00/1”的复合组合(零零排除型,受里昂化影响);
(5)“1/10/00/0”+“0/00/01/1”的复合组合(弱组合,零零排除型)。
如先证者为女性,强可能致病的组合包括:
(1)“1/10/01/1”组合(弱组合);
(2)“0/10/00/1”组合(受里昂化影响);
(3)“1/10/00/1”组合(受里昂化影响);
(4)“0/10/01/1”组合(受里昂化影响);
(5)特殊组合;
(6)“0/10/00/0”+“0/10/01/1”的复合组合(零零排除型);
(7)“0/10/01/1”+“1/10/00/1”的复合组合(弱组合,受里昂化影响);
(8)“1/10/00/0”+“0/00/01/1”的复合组合(弱组合,零零排除型);
(9)“1/10/00/1”+“0/00/00/1”的复合组合(弱组合,零零排除型)。
6.6在未区分遗传模式下,强可能致病的组合为其它强可能致病组合的并集,包括:
(1)“0/10/00/1”组合;
(2)“0/10/01/1”组合;
(3)“1/10/00/1”组合(弱组合);
(4)“1/10/01/1”组合(弱组合);
(5)“1/10/11/1”组合;
(6)特殊组合;
(7)“1/10/00/0”+“0/00/00/1”的复合组合(弱组合,零零排除型),
(8)“0/10/00/0”+“0/00/00/1”的复合组合(零零排除型);
(9)“0/10/00/0”+“0/00/01/1”的复合组合(弱组合,零零排除型)。
(10)“0/10/00/0”+“0/10/01/1”的复合组合;
(11)“0/10/00/0”+“0/10/11/1”的复合组合;
(12)“0/10/00/1”+“0/10/10/1”的复合组合;
(13)“0/10/00/1”+“1/10/00/1”的复合组合(弱组合);
(14)“0/10/01/1”+“0/10/10/1”的复合组合;
(15)“0/10/01/1”+“1/10/00/0”的复合组合(弱组合);
(16)“0/10/01/1”+“1/10/00/1”的复合组合(弱组合);
(17)“0/10/01/1”+“1/10/10/1”的复合组合;
(18)“0/10/10/1”+“1/10/10/1”的复合组合;
(19)“0/10/11/1”+“1/10/00/0”的复合组合(弱组合);
(20)“1/10/00/0”+“0/00/01/1”的复合组合(弱组合,零零排除型);
(21)“1/10/10/1”+“0/00/00/1”的复合组合(零零排除型);
(22)“1/10/00/1”+“0/00/00/1”的复合组合(零零排除型,弱组合);
(23)“1/10/10/1”+“0/00/01/1”的复合组合(零零排除型,弱组合)。
实施例7用核心家系进行致病突变筛选的方法
应明确,根据以上分析,对核心家系进行致病突变筛选,可以有多种方法。例如根据致病可能性的大小将“合式”划分为多个层级,并分别给出每个组合或复合组合的层级;再如,在选用组合时,可选择或者不选择含有弱组合的组合或复合组合,选择或者不选择受里昂化影响的组合等等。本发明不认为类似的改变可以构成新的发明。为简单起见,本文使用的是二分法,即遗传合式与不合式,分别用1和0代替,在组合的取舍方面一般不包含弱组合。
在二代测序VCF文件经过家系注释后,其数据包括以下方面:1某个突变的基因名称 (Gene.refGene)、该基因的遗传方式(InheritanceStatus)、先证者的基因型、先证者父的基因型、先证者母的基因型,见下表。由于先证者及父母的基因型数据较长,每条数据只需要用到前三个字符,后面部分不需要分析,为了简化起见,将先证者及父母的基因型整合在一起,为“Gtinfo子父母”,是先证者及父母的基因型数据取左侧三个字符,依子、父、母的顺序合并。本专利的目的,是根据突变所在的基因,遗传方式,子父母的基因型三个数据,给出本突变所在基因的突变是否可构成强致病组合,如有这样的组合,则认为基因遗传合式(以父母无病而孩子有病的情况为例),合式则记录为1,不合式则记录为0。当一个基因的多个突变中有一个或两个突变合式时,不但这些突变将标记为1,而且该基因的其它所有突变都标记为1。
在分析基因遗传合式与否之前,应先排除明显不致病的变异,减少干扰。如某个隐性遗传的基因有多个变异,其中一个基因的子父母基因型为“0/10/00/1”,其余几个都是“0/10/10/0”,则第一个和其它几个可构成复合杂合突变。经考察,子父母基因型为“0/10/10/0”的几个突变,全部为明显不致病突变,应予排除,则排除之后,剩余的一个子父母基因型为0/10/00/1的突变将不能构成复合杂合突变,该基因上的突变经家系分析后,因为被归类为遗传不合式而无需重点关注。如在进行家系分析之前突变未经筛选,则遗传合式的突变将因为数据过多,而体现不出核心家系分析方法的优势。
Figure BDA0002771994360000361
Figure BDA0002771994360000371
以上表为例,EPB41基因有两个突变,遗传模式为AD,则第一个突变的子父母基因型为“0/10/00/0”,即出现一个新发突变,显然是合式的,因此标记为1,而第二个突变为“0/10/00/1”,虽然不合式,但也标记为1,以便用户可以综合分析该基因的突变情况。
再如PYCR2基因有两个突变,遗传模式为AR,该基因的两个突变的基因型分别为“0/10/10/0”,“0/10/00/1”,符合复合杂合突变的致病模式,因此都标记为1。
根据突变的基因名称、遗传方式、每个突变的子父母的基因型,判断突变在遗传上是否合式的方法,方法的思路如下:
(1)首先对突变进行频率筛选,去掉高频突变和显然不致病的突变。何谓显然不致病的突变?如突变虽然人群分布频率不高,但各种数据库都认为是良性突变,可视为显然不致病突变,再如隐性遗传的基因在正常人群中有很高的纯合子突变的分布,亦可视为显然不致病突变。这些筛选工作,可以有效排除良性突变的干扰。
(2)调取突变所在基因的遗传方式。如为AD,则将该基因的筛选后的所有突变调取出来,构成本次的分析对象。
(3)遗传方式为AD的基因,符合基因遗传合式的突变,有两种条件,分别为条件A:“0/10/00/0”,条件B:“1/10/00/0”。以两个条件分别核对本次分析对象,是否有符合任一条件者。如有,则判定该突变为遗传合式的突变,本次分析对象中的所有突变,都赋值为1。如分析对象中无符合条件者,则皆赋值为0。
(4)如基因遗传方式不为AD,则核对是否为AR,如是,则按照同样的流程进行判断,而每种遗传方式的条件集合是不同的。
(5)如基因的遗传方式不是AR,AD,CX,XD,XR中的任意一种,则归类为未区分遗传方式,未区分遗传方式标记为“nodata”,则采用未区分模式的条件集合进行分析。
(6)如果遗传方式是其它方式,如mit(线粒体遗传),则不予处理,返回“遗传方式未区分”的结果。
图1为先证者有症状,而父母无症状情况下的家系分析流程图。
对于先证者与先证者父有同样症状而母亲正常,或者先证者与先证者母亲有同样症状而父亲正常的情况,其方法流程与上相同,所需要改变的是每个遗传方式下的条件集合。该集合见上文所述。本文不再赘述这两种情况下的方法流程。
对比实施例1
本发明在家系分析方法的基础上开发了遗传病基因检测分析程序(本专利的申请不视为对除了家系分析之外的遗传病基因检测分析程序方法的披露),并基于该程序对数百例遗传病病例进行了致病突变的分析。以下仅举数例进行说明。
9.1对比实施例1
病人1,男7岁,在本院进行全外显子的家系分析检测。其症状为:发作性不自主肢体抖动1年余,全身多处牛奶咖啡斑。
经分析,在本发明的系统中,除了特殊遗传型外,排在前十位的变异分别是: NF1:NM_000267:exon28:c.C3826T:p.R1276X,NF1:NM_001042492:exon28:c.C3826T:p.R1276XPTPRF:NM_001329140:exon24:c.G3680A:p.R1227Q,PTPRF:NM_001329139:exon26:c.G3740A: p.R1247Q,PTPRF:NM_130440:exon26:c.G4565A:p.R1522Q,PTPRF:NM_002840:exon27:c.G4592A :p.R1531Q,PTPRF:NM_001329137:exon28:c.G3758A:p.R1253Q,PTPRF:NM_001329138:exon30: c.G3782A:p.R1261Q
PTPRF:NM_001329139:exon11:c.G1684A:p.D562N,PTPRF:NM_001329140:exon11:c.G1684A: p.D562N,PTPRF:NM_002840:exon11:c.G1684A:p.D562N,PTPRF:NM_130440:exon11:c.G1684A :p.D562N,PTPRF:NM_001329137:exon13:c.G1702A:p.D568N,PTPRF:NM_001329138:exon14:c. G1714A:p.D572N
MASP2:NM_006610:exon4:c.A464G:p.H155R,MASP2:NM_139208:exon4:c.A464G:p.H155R
HYDIN:NM_001270974:exon75:c.A12680G:p.E4227G
HYDIN:NM_001270974:exon74:c.G12478C:p.E4160Q
HYDIN:NM_001270974:exon46:c.G7673A:p.G2558E
HYDIN:NM_001270974:exon66:c.G11224A:p.V3742I
HYDIN:NM_001270974:exon34:c.G5152A:p.V1718M
HYDIN:NM_001270974:exon66:c.G11215A:p.A3739T
经家系分析,在基因有表型数据(人们对有些基因的功能尚无认识)的122个位点中,有10个变异是遗传合式的。它们是:0/10/00/0(NF1遗传模式为AD,因此单突变即判定为遗传合式),0/10/10/0,0/10/00/1,1/10/10/1,0/10/00/1,0/10/10/1,0/10/10/1,0/10/10/1, 0/10/10/0,0/10/10/1(当一个基因有多个变异位点时,只要有一个位点或一组复合组合是遗传合式的,该基因上所有其它变异也一律标记为遗传合式)。
根据文献、数据库、预测软件、突变类型分析,它们的有害性分值(该值越大越有害) 分别是:406,49.34435,18.2902,31.10741,19.33464,18.33636,17.89091,17.29091,16.93636,15.72727。NF1突变的有害性值最高。
根据表型分析,仅有NF1基因变异后可导致咖啡斑。NF1相关疾病包括:
OMIM:193520:腋窝雀斑;多发性咖啡斑;常染色体显性遗传;心血管系统异常;大头畸形;身材矮小;神经纤维瘤;Lisch结节;
ORPHA:139474:身材矮小;语言发育迟缓;智力残疾;鼻翼增厚;薄嘴唇;癫痫发作;小头畸形;巨睾;眉毛稀疏;鼻中隔偏曲;平颧骨;鼻裂;睫毛稀疏;全面发育迟缓;牙釉质发育不良;
OMIM:601321:肌无力;鼻唇沟突出;上睑下垂;颈蹼;下胸骨漏斗胸;后发际低;神经纤维瘤;下斜睑裂;语言发育迟缓;腹股沟雀斑;后旋耳;短颈;特定的学习障碍;身材矮小;平颧骨;牛奶咖啡斑;肺动脉狭窄;肘外翻;大头畸形;内眦赘皮;隐睾;高位鸡胸; Lisch结节;腋窝雀斑;面中部后缩;眼距过宽;第二房间隔缺损;视神经胶质瘤;脊柱侧弯;鼻梁凹陷;低位耳;全面发育迟缓;常染色体显性遗传;
ORPHA:638:眼距过宽;隐睾;淋巴系统异常;出血时间延长;上睑下垂;下斜睑裂;肥厚性心肌病;低位后旋转耳;吞咽困难;肺动脉狭窄;特定的学习障碍;身材矮小;腹壁肌无力;多发性咖啡斑;胸廓异常;耳轮异常;颈蹼;眼距过宽;隐睾;淋巴系统异常;出血时间延长;上睑下垂;下斜睑裂;肥厚性心肌病;低位后旋转耳;吞咽困难;肺动脉狭窄;特定的学习障碍;身材矮小;腹壁肌无力;多发性咖啡斑;胸廓异常;耳轮异常;颈蹼;
OMIM:162200:星形细胞瘤;腋窝雀斑;甲状旁腺腺瘤;神经纤维肉瘤;胫骨假关节;身材矮小;脊柱裂;脊柱侧弯;癫痫发作;横纹肌肉瘤;轻度智力残疾;视神经胶质瘤;大头畸形;脑积水;肾动脉狭窄;嗜铬细胞瘤;眼距过宽;脊髓神经纤维瘤;过度生长;腹股沟雀斑;青光眼;脑膜瘤;高度失律;特定的学习障碍;中脑导水管狭窄;牛奶咖啡斑;常染色体显性遗传;高血压;Lisch结节;膝外翻;丛状神经纤维瘤;
OMIM:162210:下肢轻瘫;雀斑;下肢肌肉无力;脊髓肿瘤;牛奶咖啡斑;常染色体显性遗传;Lisch结节;对称的脊神经根神经纤维瘤;
OMIM:607785:青少年型骨髓单核细胞白血病;常染色体显性遗传;体细胞突变;青少年型骨髓单核细胞白血病;常染色体显性遗传;体细胞突变;青少年型骨髓单核细胞白血病;常染色体显性遗传;体细胞突变;青少年型骨髓单核细胞白血病;常染色体显性遗传;体细胞突变;青少年型骨髓单核细胞白血病;常染色体显性遗传;体细胞突变
从家系分析、生物有害性、表型三个方面分析,可得出致病突变为NF1的结论。该结论与医院所发出报告结果一致。
在该病例的分析中,家系分析对于致病突变的筛选提供了重要支持,大大提高了分析效率。
对比实施例2
病人2,男,4岁,在本院进行全外显子的家系分析检测。其症状为:脑白质病。先证者哥哥具同样症状。
经分析,在本发明的系统中,除了特殊遗传型外,排在前十位的变异分别是:
PEX1:NM_001282677:exon18:c.T2795C:p.I932T,PEX1:NM_000466:exon19:c.T2966C:p.I989T,
PEX1:NM_001282678:exon19:c.T2342C:p.I781T
PEX1:NM_000466:exon6:c.1246_1247del:p.D416fs,PEX1:NM_001282677:exon6:c.1246_1247
del:p.D416fs,PEX1:NM_001282678:exon6:c.622_623del:p.D208fs
VPS33B:NM_001289148:exon17:c.A1226G:p.N409S,VPS33B:NM_001289149:exon17:c.A1034G :p.N345S,VPS33B:NM_018668:exon18:c.A1307G:p.N436S
VPS33B:NM_001289148:exon13:c.A992T:p.Q331L,VPS33B:NM_001289149:exon13:c.A800T: p.Q267L,VPS33B:NM_018668:exon14:c.A1073T:p.Q358L
OBSL1:NM_001173431:exon12:c.G3916A:p.G1306R,OBSL1:NM_015311:exon12:c.G3916A: p.G1306R
OBSL1:NM_001173431:exon11:c.C3752T:p.P1251L,OBSL1:NM_015311:exon11:c.C3752T: p.P1251L
OBSL1:NM_001173408:exon6:c.G2280C:p.E760D,OBSL1:NM_001173431:exon6:c.G2280C: p.E760D,OBSL1:NM_015311:exon6:c.G2280C:p.E760D
TBP:NM_001172085:exon2:c.130_132del:p.44_44del,TBP:NM_003194:exon3:c.190_192del: p.64_64del
HYDIN:NM_001270974:exon46:c.A7588G:p.K2530E
HYDIN:NM_001270974:exon74:c.G12478C:p.E4160Q
经家系分析,在基因有表型数据(人们对有些基因的功能尚无认识)的518个位点中,有16个变异是遗传合式的。其中前十个分别是:0/10/00/1,0/10/10/0,0/10/10/0, 0/10/00/0,0/10/00/1,0/10/10/0,0/10/10/0,0/10/00/0,0/10/10/0,0/10/10/1。遗传合式的变异占分析的突变的比例是3%。
根据文献、数据库、预测软件、突变类型分析,它们的有害性分值(该值越大越有害) 分别是:262.69081,60,40.99997,29.02727,32.1699,21.40813,15.97,19.9979,18.33636。
根据表型分析,仅有PEX1基因变异后可导致脑白质病。PEX1相关疾病包括:
OMIM:214100:癫痫发作;腭高而窄;常染色体隐性遗传;后旋耳;白蛋白尿症;重度智力残疾;肾上腺发育不良;大头畸形;骨骺点状钙化;感音神经性耳聋;钟形胸;额头高;角膜基质的混浊;色素性视网膜病;异质性的;内眦赘皮;异位;室管膜下囊肿;舌头过长;手向尺侧偏斜;全身性肌张力减低;腱反射减弱;Brushfield点;氨基酸尿症;嗅叶发育不良;短尖头畸形;肾积水;骨成熟延迟;多小脑回;巨舌;睑裂上斜;新生儿黄疸期延长;小下颌畸形;动脉导管未闭;跷底足;白内障;长链脂肪酸水平升高;颈部皮肤冗余;不能生长发育;神经反射消失;肾皮质微小囊肿;扁平脸;青光眼;肺发育不良;尿道下裂;肝内胆管发育不良;进行性智力残疾;肝脏肿大;肘外翻;视网膜电流图异常;阴蒂肥大;鼻孔前翻;室间隔缺损;马蹄内翻足;胼胝体发育缺陷/发育不全;圆脸;跖骨异常;臀先露;平颧骨;通贯掌;视盘苍白;眼球震颤;隐睾;耳轮异常;前囟门未闭;眼距过宽;枕骨扁平;!
OMIM:601539:宽鼻梁;凸鼻嵴;视神经萎缩;感音神经性耳聋;新生儿肌张力减退;肝脏肿大;肾囊肿;语言发育迟缓;全身性肌张力减低;内眦赘皮;高草酸尿症;视网膜色素变性;肝纤维化;肝硬化;全面发育迟缓;骨骺点状钙化;面中部后缩;癫痫发作;常染色体隐性遗传;脑白质营养不良;!
OMIM:234580:常染色体隐性遗传;牙釉质发育不全;白甲;感音神经性耳聋;黄斑营养不良;牙釉质发育不良
其中OMIM:601539包含了脑白质病。
从家系分析、生物有害性、表型三个方面分析,可得出致病突变为PEX1的结论。该结论与医院所发出报告结果一致。
在该病例的分析中,家系分析对于致病突变的筛选提供了重要支持,大大提高了分析效率。
对比实施例3
病人3,男,5岁,在本院进行全外显子的家系分析检测。其症状为:语言、精神发育迟缓。语言发育迟缓;主动性差;进行性的走路姿势不协调;有自闭症倾向。另外,患者为试管婴儿。
经分析,在本发明的系统中,排在前十位的变异分别是:
TRIP11:NM_001321851:exon16:c.A5236G:p.I1746V,TRIP11:NM_004239:exon16:c.A5239G: p.I1747V
TRIP11:NM_001321851:exon11:c.C4136T:p.T1379I,TRIP11:NM_004239:exon11:c.C4139T: p.T1380I
KRT10:NM_000421:exon7:c.1683_1684insAGCTCCGGCGGCGGATACGGCGGCGGCAGCAGCTCCGGCGG CGGATACGGCGGCGGCAGC:p.S562delinsSSGGGYGGGSSSGGGYGGGSS
LAMA2:NM_000426:exon5:c.A817T:p.R273X,LAMA2:NM_001079823:exon5:c.A817T:p.R273X
HGD:NM_000187:exon4:c.A221T:p.E74V
F5:NM_000130:exon17:c.G5558T:p.G1853V
TREX1:NM_016381:exon1:c.458dupA:p.Q153fs,TREX1:NM_007248:exon2:c.263dupA:p.Q88fs,
TREX1:NM_033629:exon2:c.293dupA:p.Q98fs
CYP7A1:NM_000780:exon4:c.G1039A:p.D347N
MYH2:NM_001100112:exon26:c.A3334G:p.K1112E,MYH2:NM_017534:exon26:c.A3334G:p.K1112E 内含子变异,rs544985182
经家系分析,在基因有表型数据(人们对有些基因的功能尚无认识)的119个位点中,有3个变异是遗传合式的。其中前十个分别是:0/10/10/0,0/10/00/1,1/10/00/0,0/10/00/1,0/10/00/1,0/10/10/0,0/10/10/0,0/10/10/1,0/10/10/0,0/10/10/0。遗传合式的变异占分析的突变的比例是2.5%。
根据文献、数据库、预测软件、突变类型分析,它们的有害性分值(该值越大越有害) 分别是:28.19052,20.31708,20,405.7,150.29935,142.35364,131.99987,116.50493, 110.89994,109.99997。
在以“发育”为关键词的表型分析中,TREX1存在全面发育迟缓的表型。但由于遗传不合式,故排除。
从家系分析、生物有害性、表型三个方面分析,判断本样品未检测到致病突变。该结论与医院所发出报告结果一致。
在该病例的分析中,家系分析对于致病突变的筛选提供了重要支持,大大提高了分析效率。
对比实施例4
病人4女4月,在本院进行全外显子的家系分析检测。其症状为:怀疑纤毛运动障碍。加做SMA。MRI:脑发育迟缓可能。临床诊断:重症肺炎、ARDS、呼吸衰竭、相关性肺动脉高压、免疫功能紊乱、生长发育迟缓、脑发育迟缓。肺部反反复复感染。
经分析,在本发明的系统中,排在前十位的变异分别是:
IGHMBP2:NM_002180:exon13:c.C2362T:p.R788X
IGHMBP2:NM_002180:exon11:c.A1622G:p.Y541C
ABCA4:NM_000350:exon6:c.C575T:p.A192V
ABCA4:NM_000350:exon25:c.T3626C:p.M1209T
LONP1:NM_001276480:exon13:c.G1333A:p.V445I,LONP1:NM_004793:exon13:c.G1921A:p. V641I,LONP1:NM_001276479:exon14:c.G1729A:p.V577I
FRMD4A:NM_001318338:exon11:c.1738_1739insGCG:p.D580delinsGD,FRMD4A:NM_001318336: exon21:c.2713_2714insGCG:p.D905delinsGD,FRMD4A:NM_001318337:exon21:
c.2764_2765insGCG:p.D922delinsGD,FRMD4A:NM_018027:exon22:c.2665_2666insGCG:
p.D889delinsGD
KRT10:NM_000421:exon7:c.1649_1650insATACGGCGGCGG:p.G550delinsGYGGG
GALNS:NM_001323543:exon7:c.C302T:p.T101M,GALNS:NM_000512:exon8:c.C857T:p.T286M,
GALNS:NM_001323544:exon9:c.C875T:p.T292M
LRP2:NM_004525:exon45:c.T8508G:p.I2836M
HOXD13:NM_000523:exon1:c.G682C:p.G228R
经家系分析,在基因有表型数据(人们对有些基因的功能尚无认识)的124个位点中,有7个变异是遗传合式的。其中前十个分别是:0/10/10/0,0/10/00/1,0/10/10/0,0/10/00/1, 1/10/10/1,1/10/10/1,0/10/00/0,0/10/10/0,0/10/00/1,0/10/10/0。遗传合式的变异占分析的突变的比例是5.6%。
根据文献、数据库、预测软件、突变类型分析,它们的有害性分值(该值越大越有害) 分别是:380.23333,295.21818,32.50899,20.23443,22.95166,20,19.99593,254.32708, 234.20906,210.35455。
在以“呼吸”为关键词的表型分析中,存在呼吸异常的基因有:IGHMBP2。该基因的致病突变可导致的疾病包括:
OMIM:604320:膈肌麻痹;马蹄内翻足;呼吸衰竭;神经传导速度降低;便秘;多汗症;膈肌膨出;常染色体隐性遗传;脊肌萎缩;尿失禁;肌电图神经源性变化;呼吸机依赖无法脱机;手指屈指症;胎动减少;呼吸过速;四肢肌肉无力;吸气性喘鸣;远端肌肉萎缩;早产;远端肌无力;胎儿宫内发育迟缓;小于胎龄儿;前角细胞变性;外围轴索变性;腱反射减弱;哭声微弱;不能生长发育;膈膜的去神经支配;
OMIM:616155:腱反射减弱;神经反射消失;远端感觉障碍;跨阈步态;马蹄内翻足;近端肌肉无力;轴索变性;进程缓慢;足背屈无力;脊柱侧弯;常染色体隐性遗传。
前十位变异中存在呼吸异常的基因还包括:GALNS。该基因的致病突变可导致的疾病包括:
OMIM:253000:脊柱后凸畸形(驼背);灰白色牙釉质;第2-5掌骨近端尖;宽嘴;脊柱前凸过度;牙间隙增宽;髋外翻;常染色体隐性遗传;复发性上呼吸道感染;肘关节偏大;扁平椎;髂骨翼缩窄;肝脏肿大;龋齿;骨质疏松;干骺端增宽;齿状突发育不全;不成比例的短躯干性矮小;下颌前突畸形;面容粗糙;脊髓型颈椎病;听力障碍;脊柱侧弯;角膜基质的混浊;硫酸角质素经尿排泄;颈椎半脱位;关节松弛;卵形椎体;管状骨骨骺变形;腹股沟疝;胸骨突出;硫酸软骨素经尿排泄;心脏瓣膜异常;膝外翻;喇叭状胸廓;手腕向尺侧偏斜;限制性肺疾病;青少年期发病。
由于GALNS在遗传上不合式,其父携带同样突变而不发病,且该基因为隐形遗传,故排除。
从家系分析、生物有害性、表型三个方面分析,判断本样品的致病基因为“IGHMBP2”。该结论与医院所发出报告结果一致。
在该病例的分析中,家系分析对于致病突变的筛选提供了重要支持,大大提高了分析效率。
对比实施例5
病人5,男,9岁,在本院进行全外显子的家系分析检测。其症状为:眼睛无神,下肢肌张力低。具体情况:眼睛无神,眼睑下垂,不能独坐,下肢肌张力低。
经分析,在本发明的系统中,排在前十位的变异分别是:
PYCR1:NM_006907:exon4:c.G356A:p.R119H,PYCR1:NM_153824:exon4:c.G356A:p.R119H,PYCR1: NM_001282279:exon5:c.G356A:p.R119H,PYCR1:NM_001282280:exon5:c.G356A:p.R119H,PYCR1: NM_001282281:exon5:c.G437A:p.R146H,PYCR1:NM_001330523:exon5:c.G356A:p.R119H
PYCR1:NM_006907:exon4:c.C329T:p.A110V,PYCR1:NM_153824:exon4:c.C329T:p.A110V,PYCR1: NM_001282279:exon5:c.C329T:p.A110V,PYCR1:NM_001282280:exon5:c.C329T:p.A110V,PYCR1: NM_001282281:exon5:c.C410T:p.A137V,PYCR1:NM_001330523:exon5:c.C329T:p.A110V
COLQ:NM_080539:exon14:c.A1040C:p.Q347P,COLQ:NM_005677:exon15:c.A1142C:p.Q381P,COLQ: NM_080538:exon15:c.A1112C:p.Q371P
COLQ的内含子变异,
COL4A5:NM_000495:exon28:c.C2215G:p.P739A
COL4A5:NM_000495:exon43:c.C3940T:p.P1314S
HYDIN:NM_001270974:exon67:c.C11332A:p.P3778T
HYDIN:NM_001270974:exon46:c.A7588G:p.K2530E
HYDIN:NM_001270974:exon74:c.G12478C:p.E4160Q
HYDIN:NM_001270974:exon46:c.G7673A:p.G2558E
(HYDIN尚有多个变异未显示)。
经家系分析,在基因有表型数据(人们对有些基因的功能尚无认识)的113个位点中,有14个变异是遗传合式的。其中前十个分别是:0/10/00/1,0/10/10/0,0/10/00/1, 0/10/10/0,1/10/00/1,0/11/10/0,0/10/00/1,0/10/10/0,0/10/10/1,0/10/10/0。
遗传合式的变异占分析的突变的比例是12.4%。
根据文献、数据库、预测软件、突变类型分析,它们的有害性分值(该值越大越有害) 分别是:243.56364,26.18166,103.13636,40.65,85.2633,74.49977,34.59091,19.54, 18.33636,17.89091。
在以“肌张力”为关键词的表型分析中,存在肌张力异常的基因为COLQ,COLQ基因的致病突变可导致的疾病包括:
OMIM:603034:婴儿期喂养困难;眼肌瘫痪;呼吸功能不全;泛发性肌无力;免疫系统异常;四肢肌肉无力;哭声微弱;微终板电流延长;神经终板缩小;上睑下垂;肌肉无力导致的呼吸功能不全;肌肉容积减少;肌电图:复合肌肉动作电位对神经重复刺激的递减反应;构音障碍;婴儿期发病;全身性肌张力减低;脊柱前凸过度;常染色体隐性遗传;吞咽困难;脊柱侧弯;易疲劳性;易疲劳性;2型肌纤维萎缩。
从家系分析、生物有害性、表型三个方面分析,判断本样品的致病基因为“COLQ”。该结论与医院所发出报告结果一致。
在该病例的分析中,家系分析对于致病突变的筛选提供了重要支持,大大提高了分析效率。
本发明已基于该方法进行了数百例样本的检测。以上仅举几例。与手动方法相比,家系分析方法的引入,大大缩小了需要分析的突变的范围,提高了效率,且结果一致。因此,相比于手动方法加文献的组合方法,引入家系分析的方法具有便捷、准确等特点,是一种更好的分析方法。
因本技术领域的技术人员应理解,本发明可以以许多其他具体形式实现而不脱离其本身的精神或范围。尽管已描述了本发明的实施案例,应理解本发明不应限制为这些实施例,本技术领域的技术人员可如所附权利要求书界定的本发明的精神和范围之内做出变化和修改。

Claims (16)

1.一种基于核心家系的遗传病高通量测序致病突变筛选方法,所述的基于核心家系的遗传病高通量测序致病突变筛选方法包括以下步骤:
获得待检测的基因组样本,所述的基因组样本源自子代及其父母;
使用高通量方法测定待检测的基因组样本的DNA序列,将测序结果与人类参考基因组进行比对和注释,形成基因型组合;
使用二分法对注释文件进行分析和筛选,去除高频突变并为检测到的基因突变分类,所述的分类包括核心家系分类或者致病可能性分类;
根据检测到的基因突变的分类和注释检测致病强组合或复合组合,并去除非致病突变,筛选获得遗传合式的基因。
2.根据权利要求1所述的基于核心家系的遗传病高通量测序致病突变筛选方法,其特征在于,所述的高通量方法包括二代测序或者芯片筛查方法。
3.根据权利要求1所述的基于核心家系的遗传病高通量测序致病突变筛选方法,其特征在于,所述的注释文件包括但不限于基因位点所属基因名称、在基因组中位置、片段长度、基因型、相关功能或者文献出处。
4.根据权利要求1所述的基于核心家系的遗传病高通量测序致病突变筛选方法,其特征在于,所述的基因型组合中,每个突变的基因型组合使用“数字斜杠数字”的方式表示,两个数字代表每个基因的两个等位基因,0表示与参考序列相比未发生变异,1表示与参考序列相比发生了1种变异,在不考虑一个位置发生相对于参考序列两种突变以上的情况下,子代父母三人的突变的基因型组合的类型包括:0/00/00/0,0/00/00/1,0/00/01/1,0/00/10/0,0/00/10/1,0/00/11/1,0/01/10/0,0/01/10/1,0/01/11/1,0/10/00/0,0/10/00/1,0/10/01/1,0/10/10/0,0/10/10/1,0/10/11/1,0/11/10/0,0/11/10/1,0/11/11/1,1/10/00/0,1/10/00/1,1/10/01/1,1/10/10/0,1/10/10/1,1/10/11/1,1/11/10/0,1/11/10/1,1/11/11/1;
对子代及其父母的基因型进行顺序改变,用其它符号代替/或将/删除,或用其它符号代替0和/或1,或添加空格或其它符号,或在子代及其父母的基础上增加其他亲属或其他人员的基因型,不构成对基因型组合的根本改变。
5.根据权利要求1所述的基于核心家系的遗传病高通量测序致病突变筛选方法,其特征在于,
所述的核心家系分类是根据子代和父母的表型将核心家系类型分为:子代有疾病表型而父母无表型、子代和父亲有相同或近似疾病表型而母亲无表型、子代和母亲有相同或近似疾病表型而父亲无表型;
所述的致病可能性分类基于基因型组合出现的可能性及致病可能性对组合或复合组合进行了致病性分类,分别为:弱组合、强可能、弱可能、微可能。
6.根据权利要求5所述的基于核心家系的遗传病高通量测序致病突变筛选方法,其特征在于,所述的复合组合指同一基因两个或两个以上不同突变的核心家系基因型组合;
其中,弱组合是指根据遗传原理不太可能出现的遗传组合;
致病强可能指突变如有害,则该组合支持该有害突变为致病突变;
致病弱可能指致病可能性较小但不应轻易排除;
致病微可能指致病可能性极小基本可以排除的情况。
7.根据权利要求1所述的基于核心家系的遗传病高通量测序致病突变筛选方法,其特征在于,以子代为先证者,父亲有症状而母亲无症状的类型下的致病突变核心家系分析的家系组合分析情况为:
Figure FDA0002771994350000021
Figure FDA0002771994350000031
8.根据权利要求1所述的基于核心家系的遗传病高通量测序致病突变筛选方法,其特征在于,以子代为先证者,父亲无症状而母亲有症状的类型下的突变家系分析的家系组合情况为:
Figure FDA0002771994350000032
Figure FDA0002771994350000041
9.根据权利要求1所述的基于核心家系的遗传病高通量测序致病突变筛选方法,其特征在于,以子代为先证者,父母无症状而子代有症状的类型下的突变家系分析的家系组合信息如下:
Figure FDA0002771994350000042
Figure FDA0002771994350000051
10.根据权利要求1-9中任意一项所述的基于核心家系的遗传病高通量测序致病突变筛选方法,其特征在于,所述的基因组样本源自子代及其父母的离体样本,包括但不限于血液、唾液、尿液、上皮细胞或者组织样本。
11.一种基于核心家系的遗传病高通量测序致病突变筛选系统,其特征在于,所述的系统包括基因测序装置、基因信息注释装置、基因突变分类装置、非致病突变剔除装置;
基因测序装置,检测的基因组样本的基因序列并且存储于基因测序结果存储元件中,基因测序装置与基因信息注释装置连接,将基因测序结果存储元件中的基因序列检测结果呈递给基因信息注释装置;
基因信息注释装置,接收基因测序装置呈递的基因序列检测结果,与人类参考基因组序列比对,对于比对一致的基因或者基因片段进行注释,根据注释结果形成基因组组合;
非致病突变剔除装置与基因测序结果存储元件和/或基因信息注释装置连接,接收基因测序结果存储元件呈递的基因序列检测结果和/或基因信息注释装置呈递的基因序列注释结果,从检测到的基因突变剔除非致病突变,并将致病突变信息呈递给基因突变分类装置;
基因突变分类装置与非致病突变剔除装置和/或基因信息注释装置连接,接收非致病突变剔除装置呈递的致病突变信息,形成致病强组合或复合组合。
12.据权利要求11所述的基于核心家系的遗传病高通量测序致病突变筛选系统,其特征在于,所述的基因信息注释装置包括人类参考基因组信息存储元件和基因信息比对元件,基因信息比对元件接收待测基因的测序结果和人类参考基因组信息存储元件中的人类参考基因组信息,对与人类参考基因组信息匹配的基因测序结果进行注释,并将注释后的基因信息呈递至基因信息注释装置。
13.权利要求1-10任意一项所述的基于核心家系的遗传病高通量测序致病突变筛选方法的应用,其特征在于,使用权利要求1-10任意一项所述的基于核心家系的遗传病高通量测序致病突变筛选方法,根据子代和父母的基因测序结果剔除非致病突变,获得其他子代致病突变的分析结果。
14.根据权利要求13所述的应用,其特征在于,使用权利要求11或者12所述的筛选系统获得致病突变的基因序列,作为所述遗传病检测的阳性对照。
15.一种遗传病的检测试剂盒,其特征在于,所述的检测试剂盒含有检测权利要求1-10任意一项所述的基于核心家系的遗传病高通量测序致病突变筛选方法所获得的致病突变的基因位点或者基因片段的检测试剂。
16.根据权利要求15所述的检测试剂盒,其特征在于,所述的检测试剂盒还含有权利要求1-10任意一项所述的基于核心家系的遗传病高通量测序致病突变筛选方法所获得的致病突变的基因位点或者基因片段,作为阳性对照。
CN202011252380.XA 2020-11-11 2020-11-11 基于核心家系的遗传病高通量测序致病突变筛选方法 Pending CN112375815A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011252380.XA CN112375815A (zh) 2020-11-11 2020-11-11 基于核心家系的遗传病高通量测序致病突变筛选方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011252380.XA CN112375815A (zh) 2020-11-11 2020-11-11 基于核心家系的遗传病高通量测序致病突变筛选方法

Publications (1)

Publication Number Publication Date
CN112375815A true CN112375815A (zh) 2021-02-19

Family

ID=74582066

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011252380.XA Pending CN112375815A (zh) 2020-11-11 2020-11-11 基于核心家系的遗传病高通量测序致病突变筛选方法

Country Status (1)

Country Link
CN (1) CN112375815A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113628681A (zh) * 2021-07-21 2021-11-09 哈尔滨星云医学检验所有限公司 一种基于家系denovo突变的分析方法及其应用
CN113782091A (zh) * 2021-09-14 2021-12-10 云南中烟工业有限责任公司 一种判断二代测序检测基因编辑结果可信度的方法及应用
CN114023384A (zh) * 2022-01-06 2022-02-08 天津金域医学检验实验室有限公司 一种全外显子组测序注释表自动生成标准化报告方法
CN114446386A (zh) * 2022-01-17 2022-05-06 中国人民解放军国防科技大学 一种血液ctDNA的检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103602736A (zh) * 2013-11-11 2014-02-26 广东省妇幼保健院 一种快速检测五种β-地中海贫血突变的试剂盒及其应用
CN105506115A (zh) * 2016-01-05 2016-04-20 华中科技大学同济医学院附属同济医院 一种检测诊断遗传性心肌病致病基因的dna文库及其应用
CN106295241A (zh) * 2015-06-25 2017-01-04 杭州圣庭生物技术有限公司 基于brca1和brca2突变的乳腺癌患病风险评估算法
CN107201401A (zh) * 2017-05-23 2017-09-26 深圳市第二人民医院 一种用于乳腺癌发病风险预测的多因素模型及其建立方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103602736A (zh) * 2013-11-11 2014-02-26 广东省妇幼保健院 一种快速检测五种β-地中海贫血突变的试剂盒及其应用
CN106295241A (zh) * 2015-06-25 2017-01-04 杭州圣庭生物技术有限公司 基于brca1和brca2突变的乳腺癌患病风险评估算法
CN105506115A (zh) * 2016-01-05 2016-04-20 华中科技大学同济医学院附属同济医院 一种检测诊断遗传性心肌病致病基因的dna文库及其应用
CN107201401A (zh) * 2017-05-23 2017-09-26 深圳市第二人民医院 一种用于乳腺癌发病风险预测的多因素模型及其建立方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
黎籽秀: "高通量测序数据分析和临床诊断流程的解读", 《中国循证儿科杂志》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113628681A (zh) * 2021-07-21 2021-11-09 哈尔滨星云医学检验所有限公司 一种基于家系denovo突变的分析方法及其应用
CN113782091A (zh) * 2021-09-14 2021-12-10 云南中烟工业有限责任公司 一种判断二代测序检测基因编辑结果可信度的方法及应用
CN114023384A (zh) * 2022-01-06 2022-02-08 天津金域医学检验实验室有限公司 一种全外显子组测序注释表自动生成标准化报告方法
CN114023384B (zh) * 2022-01-06 2022-04-05 天津金域医学检验实验室有限公司 一种全外显子组测序注释表自动生成标准化报告方法
CN114446386A (zh) * 2022-01-17 2022-05-06 中国人民解放军国防科技大学 一种血液ctDNA的检测方法
CN114446386B (zh) * 2022-01-17 2024-02-02 中国人民解放军国防科技大学 一种血液ctDNA的检测方法

Similar Documents

Publication Publication Date Title
CN112375815A (zh) 基于核心家系的遗传病高通量测序致病突变筛选方法
Eppsteiner et al. Prediction of cochlear implant performance by genetic mutation: the spiral ganglion hypothesis
CN1674028A (zh) 诊断支援系统及诊断支援方法
Baron et al. Multiple-threshold transmission of affective disorders
Scheet et al. Twins, tissue, and time: an assessment of SNPs and CNVs
D'angelo et al. Two new cases of 1p21. 3 deletions and an unbalanced translocation t (8; 12) among individuals with syndromic obesity
Wassink et al. NOTCH4 and the frontal lobe in schizophrenia
Shaw et al. EXOME REPORT: Novel mutation in ATP6V1B2 segregating with autosomal dominant epilepsy, intellectual disability and mild gingival and nail abnormalities
Midro et al. Interstitial deletion 9q22. 32‐q33. 2 associated with additional familial translocation t (9; 17)(q34. 11; p11. 2) in a patient with Gorlin–Goltz syndrome and features of Nail‐Patella syndrome
Musolf et al. Caucasian families exhibit significant linkage of myopia to chromosome 11p
D'Amato Sizonenko et al. Supernumerary marker chromosomes 5: confirmation of a critical region and resultant phenotype
CN108642174A (zh) 一组神经精神发育迟缓和高级认知功能障碍致病基因集合及其检测引物和试剂盒
Campaner et al. Manipulative evidence and medical interventions: some qualifications
Yeetong et al. Long-read Nanopore sequencing identified D4Z4 contractions in patients with facioscapulohumeral muscular dystrophy
Tassano et al. 17q23. 3 de novo microdeletion involving only TANC2 gene: a new case
CN108866067B (zh) 一种雷伯氏先天性黑矇的致病突变及其检测试剂
Cheng et al. The VANGL1 P384R variant cause both neural tube defect and Klippel‐Feil syndrome
Mutesa et al. A survey of genetic diseases in Rwanda
Rojnueangnit et al. Genetic diagnosis for adult patients at a genetic clinic
JP6443938B2 (ja) コフィン−サイリス症候群の検出方法
Sarri et al. Supernumerary marker chromosome 5 diagnosed by M-FISH in a child with congenital heart defect and unusual face
Tilghman SEQUENCE ANALYSIS OF FAMILIAL NEURODEVELOPMENTAL DISORDERS
KR20230167289A (ko) 퇴행성 턱관절염의 진단 또는 예후 예측용 유전자 마커 및 이의 용도
Kanwar et al. P665: Genome sequencing defines the breakpoints of a TP53 promoter region deletion required for the purpose of preimplantation genetic testing
van Bever et al. Exclusion of OGDH and BMP4 as candidate genes in two siblings with autosomal recessive DOOR syndrome

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210219