CN111863132A - 一种筛选致病性变异的方法和系统 - Google Patents
一种筛选致病性变异的方法和系统 Download PDFInfo
- Publication number
- CN111863132A CN111863132A CN201910353372.5A CN201910353372A CN111863132A CN 111863132 A CN111863132 A CN 111863132A CN 201910353372 A CN201910353372 A CN 201910353372A CN 111863132 A CN111863132 A CN 111863132A
- Authority
- CN
- China
- Prior art keywords
- annotation
- screening
- variation
- variant
- file
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012216 screening Methods 0.000 title claims abstract description 66
- 238000000034 method Methods 0.000 title claims abstract description 53
- 230000001717 pathogenic effect Effects 0.000 title claims abstract description 43
- 230000035772 mutation Effects 0.000 claims abstract description 50
- 230000007614 genetic variation Effects 0.000 claims abstract description 27
- 238000012163 sequencing technique Methods 0.000 claims abstract description 26
- 108090000623 proteins and genes Proteins 0.000 claims description 34
- 230000007918 pathogenicity Effects 0.000 claims description 18
- 238000003860 storage Methods 0.000 claims description 12
- 230000002068 genetic effect Effects 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 8
- 208000021005 inheritance pattern Diseases 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 4
- 238000005065 mining Methods 0.000 claims description 2
- 201000010099 disease Diseases 0.000 description 28
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 28
- 208000026350 Inborn Genetic disease Diseases 0.000 description 14
- 208000016361 genetic disease Diseases 0.000 description 14
- 239000000523 sample Substances 0.000 description 11
- 230000008569 process Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000003745 diagnosis Methods 0.000 description 4
- 235000018102 proteins Nutrition 0.000 description 4
- 102000004169 proteins and genes Human genes 0.000 description 4
- 208000024891 symptom Diseases 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 210000000349 chromosome Anatomy 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 238000012165 high-throughput sequencing Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 208000024556 Mendelian disease Diseases 0.000 description 2
- 208000001793 Spastic paraplegia type 7 Diseases 0.000 description 2
- 235000001014 amino acid Nutrition 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 238000012268 genome sequencing Methods 0.000 description 2
- 201000007110 hereditary spastic paraplegia 7 Diseases 0.000 description 2
- 238000001727 in vivo Methods 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 208000027905 limb weakness Diseases 0.000 description 2
- 231100000861 limb weakness Toxicity 0.000 description 2
- 208000005264 motor neuron disease Diseases 0.000 description 2
- 239000002773 nucleotide Substances 0.000 description 2
- 125000003729 nucleotide group Chemical group 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000002265 prevention Effects 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 238000003908 quality control method Methods 0.000 description 2
- 239000000344 soap Substances 0.000 description 2
- 208000000187 Abnormal Reflex Diseases 0.000 description 1
- 108700028369 Alleles Proteins 0.000 description 1
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 206010064571 Gene mutation Diseases 0.000 description 1
- 241000238631 Hexapoda Species 0.000 description 1
- 108010033040 Histones Proteins 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 238000012404 In vitro experiment Methods 0.000 description 1
- 108091092878 Microsatellite Proteins 0.000 description 1
- 208000026072 Motor neurone disease Diseases 0.000 description 1
- 208000010428 Muscle Weakness Diseases 0.000 description 1
- 206010028372 Muscular weakness Diseases 0.000 description 1
- 108700026244 Open Reading Frames Proteins 0.000 description 1
- 206010033892 Paraplegia Diseases 0.000 description 1
- 241000590419 Polygonia interrogationis Species 0.000 description 1
- 108091081062 Repeated sequence (DNA) Proteins 0.000 description 1
- 101150093792 SPG7 gene Proteins 0.000 description 1
- 208000032930 Spastic paraplegia Diseases 0.000 description 1
- 208000025954 Y-Linked Genetic disease Diseases 0.000 description 1
- 125000003275 alpha amino acid group Chemical group 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 150000001413 amino acids Chemical class 0.000 description 1
- 238000010171 animal model Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 208000021018 autosomal dominant inheritance Diseases 0.000 description 1
- 208000021024 autosomal recessive inheritance Diseases 0.000 description 1
- 230000014107 chromosome localization Effects 0.000 description 1
- 238000003759 clinical diagnosis Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 235000018417 cysteine Nutrition 0.000 description 1
- XUJNEKJLAYXESH-UHFFFAOYSA-N cysteine Natural products SCC(N)C(O)=O XUJNEKJLAYXESH-UHFFFAOYSA-N 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000003748 differential diagnosis Methods 0.000 description 1
- 238000013399 early diagnosis Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000007672 fourth generation sequencing Methods 0.000 description 1
- 230000008826 genomic mutation Effects 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 206010020745 hyperreflexia Diseases 0.000 description 1
- 230000035859 hyperreflexia Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000000338 in vitro Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 210000002161 motor neuron Anatomy 0.000 description 1
- 108020004707 nucleic acids Proteins 0.000 description 1
- 102000039446 nucleic acids Human genes 0.000 description 1
- 150000007523 nucleic acids Chemical class 0.000 description 1
- 230000008506 pathogenesis Effects 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 102000054765 polymorphisms of proteins Human genes 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 101150054338 ref gene Proteins 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 208000011580 syndromic disease Diseases 0.000 description 1
- 210000002435 tendon Anatomy 0.000 description 1
- 238000007671 third-generation sequencing Methods 0.000 description 1
- 238000011282 treatment Methods 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/30—Data warehousing; Computing architectures
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明涉及一种筛选致病性变异的方法,包括以下步骤:(1)读取测序数据,并获得遗传变异信息;(2)变异注释:用Annovar和选自genomAD、HGMD、Clinvar、dbSNP、HGNC的数据库对遗传变异信息进行注释,获得变异注释文件;(3)变异筛选:基于人群频率和是否有致病性数据支持从变异注释文件中筛选致病性变异。本发明还涉及用于筛选致病性变异的系统和设备。
Description
技术领域
本发明涉及测序数据分析的技术领域。具体地,本发明涉及一种筛选致病性变异的方法以及实施该方法的系统。
背景技术
在循症医学迈向精准医学的时代背景下,基因组测序技术是实现复杂疾病预警、预防、早诊和提高疗效的一种重要手段。随着测序时间和成本的下降,高通量测序数据将面临爆发式增长。但是,基因组测序数据的解读,仍然面临着诸多挑战。如何快速、准确的发现基因组数据中的致病性变异,以及如何系统、全面地服务于临床疾病的诊断是亟待解决的问题。
通常,需要使用一系列分析软件,例如质量控制软件(FastQC、Trimmomatic等)、序列比对软件(BWA、Bowtie、SOAP等)、变异判读软件(GATK、Samtools等)来分析基因组测序产生的原始下机数据,才能获得遗传变异信息。举例而言,通过捕获测序检测到的遗传变异主要包含单核苷酸多态性(SNP)和小的插入缺失(InDel)这两种变异类型。而依据不同的捕获探针,全外显子捕获测序检测到的遗传变异的数量通常在3-5万之间。变异位点通常以VCF文件格式存储。
检测到遗传变异之后,还需对其进行解读。对遗传变异的解读是指对每一个遗传变异进行多维度的信息注释,包括但不限于人群频率、蛋白序列功能预测、致病性预测、遗传方式、是否有其致病性的文献支持等信息。目前广泛使用的变异注释软件,如Annovar(Wang K,Li M,Hakonarson H.ANNOVAR:functional annotation of genetic variantsfrom high-throughput sequencing data.《Nucleic acids research》.2010,Vol.38,No.16)仅支持部分信息的注释,如变异位点在基因组上的位置信息、变异对蛋白质的影响、变异位点是否位于指定的数据库中等。然而,由于数据源有限,数据更新不及时等原因,该类注释工具的致病性检测功能并不完善。而且,现有的变异注释软件注释效率较低,即使在提前准备好预处理后的注释数据后,完成一套全外显子测序数据也比较耗时。此外,Annovar是基于命令行形式的,没有相关专业背景的人(如医生)很难使用。
对遗传变异进行注释之后,还需要从检测到的成千上万个遗传变异中筛选出与特定表型或孟德尔疾病相关的致病性变异,如此才能辅助临床医生进行疾病诊断。然而,筛选方式有许多种组合(例如,考虑哪些参数、所选择参数的截断值、筛选步骤的顺序等),使得高效、快速地进行筛选成为一个挑战。
目前,对于遗传变异的注释与筛选方法还没有达成共识。因此,需要一种简单高效的对遗传变异进行注释与筛选,从而检测致病性变异的方法及系统,以促进对测序数据的下游分析,从而更好地辅助医生的临床诊断。
发明内容
在第一个方面,本发明涉及一种筛选致病性变异的方法,包括以下步骤:
(1)读取测序数据,并获得遗传变异信息;
(2)变异注释:用注释软件和genomAD、HGMD、Clinvar、dbSNP、HGNC数据库对遗传变异信息进行注释,获得变异注释文件;
(3)变异筛选:基于人群频率和是否有致病性数据支持从变异注释文件中筛选致病性变异。
在一个实施方案中,适用于本发明方法的测序数据可以是根据任何高通量测序方法获得的数据,例如通过二代测序技术和三代测序技术获得的测序数据,包括但不限于:Nanopore测序、Solid测序、454测序、捕获探针测序、Hiseq2000、NextSeq、Ion Proton等。在一个优选的实施方案中,适用于本发明方法的测序数据来自捕获探针测序。
在一个实施方案中,步骤(1)可以用本领域已知的任何方法进行。举例而言,首先使用质量控制软件,例如FastQC、Trimmomatic等对测序数据进行质控并去除噪音,以使测序数据可用于后续分析;然后,用序列比对软件,如BWA、Bowtie、SOAP等将测序数据比对到参考基因组上;最后用变异判读软件,如GATK、Samtools等从比对文件中查找变异位点,获得所述测序数据的遗传变异文件。
在一个优选的实施方案中,根据本发明的方法在步骤(1)之后还包括根据变异类型将遗传变异信息分为SNP和InDel两个文件的步骤。
在一个实施方案中,在步骤(2)中,用注释软件和genomAD、HGMD、Clinvar、dbSNP、HGNC数据库进行注释是模块化、并行化进行的。在一个优选的实施方案中,HGNC注释之后还包括用OMIM注释遗传方式的步骤。
如本文所用,“注释软件”是指能够对变异位点进行信息注释的综合性软件。可用于本发明方法的注释软件是本领域技术人员熟知的,包括但不限于Annovar、Oncotator、SnpEff、VEP等。
在一个优选的实施方案中,本发明的方法使用的注释软件是Annovar。如本文所用,Annovar是基于命令行输入的一个注释软件,可以用来分析基因组中的遗传变异。Annovar主要包括三种注释方法:基于基因的注释,其用于揭示变异与已知基因直接的关系以及对其产生的功能性影响;基于区域的注释,其用于揭示变异与染色体上不同基因组特定段的关系,例如它是否落在已知的保守性区域、组蛋白结合修饰区域等;和基于过滤的注释,其使用各种过滤数据库从而给出该变异的一系列信息,例如在全基因组数据中的变异频率、在孤立的或者低代表人群中的变异频率等。Annovar支持多个基因组(包括hg18、hg19、hg38、也包括小鼠、虫等物种),能够确定变异是否导致蛋白质编码变化以及受影响的氨基酸,并且能够自主的选择基因定义系统(如RefSeq/UCSC/Ensemble等)。
GenomAD是一个免费的基因组突变频率数据库,目前包括123136个全外显子数据与15496个全基因组数据,这些数据来源于各自不同的疾病研究项目的大样本种群测序项目。
HGMD数据库收录已发表的人类遗传病致病突变或相关突变,是解析遗传病的金标准数据库。HGMD为医学和临床学遗传学家、生物信息工作者、人类分子遗传学科研人员和遗传咨询师等提供了可靠的数据库支持,并在全世界范围内被广泛使用。根据基因突变与疾病表型的关联程度,HGMD数据库将所收录的突变分为五种类型:DM(Disease causingmutation)-致病突变,已被证实的可导致疾病的突变;DM?-可能的致病突变,问号代表文献中报道很可能是致病突变,但后续研究对突变致病性提出质疑;DP(Disease-associatedpolymorphism)-与疾病/表型显著相关的突变,如果某个突变被报道与某个疾病或者表型有显著的关联性(p<0.05),那么这个突变被假定是有功能性的,尽管现在仍未有其直接的功能性证据;FP(In vitro/laboratory or in vivo functional polymorphism)-由体内或体外实验证明的具有功能性改变的突变,比如影响结构、基因(或基因产物)功能或表达,尽管现在未有其疾病关联性报道;DFP(Disease-associated polymorphism withsupporting functional evidence)-有功能性和疾病显著关联性的突变。
Clinvar是NCBI提供的与疾病相关的人类基因组变异数据库,它显示了基因型和表型之间的关系,并提供了支持证据。具体而言,Cinvar将临床表型、实证数据以及功能注解与分析等四个方面的信息,通过专家评审,逐步形成一个标准的、可信的、稳定的遗传变异-临床表型相关的数据库。
dbSNP是单核苷酸多态性数据库,其收录了SNP、短插入缺失多态性、微卫星标记和短重复序列等数据,以及其来源、检测和验证方法、基因型信息、上下游序列、人群频率等信息。
HGNC数据库为每一个基因提供对基因进行命名描述的基因符号以及与该基因符号对应的ID,这些基因符号以及ID都是唯一的。由于基因命名比较复杂,在各个数据库中同一个基因可能会有不同的命名方式,再加上基因还存在曾用名的情况,基因名的不一致可能导致错失部分注释信息。而HGNC ID的稳定性和唯一性则确保了能够更加全面准确地对基因进行注释。
OMIM数据库是关于人类基因和遗传紊乱的数据库,主要聚焦于可遗传的或遗传性的基因疾病。OMIM数据库包括所有已知的遗传病、遗传决定的性状及其基因,除了简略描述各种疾病的临床特征、诊断、鉴别诊断、治疗与预防外,还提供已知有关致病基因的连锁关系、染色体定位、组成结构和功能、动物模型等资料,并附有经缜密筛选的相关参考文献。
通过使用上述数据库,本发明能够实现对遗传变异信息的全面注释。
在一个优选的实施方案中,预先将用于注释的数据库优化构建为二进制文件,然后再进行注释。更优选地,所述二进制文件中的数据具有哈希结构。以HGMD数据库的注释为例:通常注释数据库以VCF文件格式存储,特点是数据量大,包括十几万至上百万条记录。如果对每一个变异进行HGMD注释,则每次都需要读取HGMD文件,并依据位置信息遍历查找,这在变异数目非常多的情况下非常耗时。本发明的方法对已有的HGMD注释进行了优化。具体而言,将已有的HGMD VCF注释文件预先读取,并将其按照染色体号、位置、ref、alt信息构建一个具有哈希结构的二进制文件,并加载进内存。如此,每次对变异进行注释时,只需直接读取在内存中储存的预先构建好的HGMD二进制文件,即可完成注释,而不需要进行原始HGMD文件的读取与解析。并且,这种优化可以将各种格式储存的注释数据库统一编码成以二进制文件形式存储的哈希数据结构,加速计算机读取,增加了各注释数据库之间的相容性,而不必限于vcf格式。这种优化节省了注释的时间并提升了注释效率。
在一个优选的实施方案中,如果在进行注释之前将遗传变异信息分为SNP和InDel两个文件,则在注释之后需要合并完成注释的SNP和InDel文件,形成最终的变异注释文件。
在一个实施方案中,步骤(3)中用于筛选的人群频率的标准是在所有人群频率数据库中,变异的频率低于0.05或为NA(即,缺失该变异的频率信息)。在人群频率数据库中,一个变异的频率为NA意味着该变异可能是新发突变,因而在数据库中尚未储存其频率信息。本发明的方法将此类变异纳入筛选范围可以确保不遗漏新发突变(de novo)变异,从而提高筛选结果的准确性。
在一个实施方案中,步骤(3)还包括基于表型的筛选。例如,可以通过已知软件(如Phenolyzer等),根据样本的临床症状描述筛选与表型相关的基因,然后从变异注释文件中筛选与所述基因对应的变异。这种筛选方法可以寻找与疾病/表型相关联的基因/变异,进而提高筛选致病性变异的准确性。
在另一个实施方案中,步骤(3)中所述“基于是否有致病性证据支持进行筛选”是指筛选符合HGMD中的DM和DM?划分标准的变异。还在另一个实施方案中,步骤(3)还包括对不符合HGMD中的DM和DM?划分标准的变异进行进一步筛选,筛选标准是:在所有人群频率数据库中,变异频率小于0.01或为NA;并且该变异通过SNP致病性过滤或InDel功能过滤。
在一个优选的实施方案中,步骤(3)还包括基于OMIM注释筛选符合孟德尔遗传方式的变异。在该实施方案中,本发明的方法尤其适于筛选孟德尔遗传疾病的致病性变异。如本文所用,“孟德尔遗传疾病”是指是由一对等位基因控制的疾病或病理性状,人体中只要单个基因发生突变就足以发病的一类遗传性疾病。通常,孟德尔遗传疾病可以分为常染色体显性遗传病、常染色体隐性遗传病、x伴性显性遗传病、x伴性隐性遗传病、Y伴性遗传病五种。
在一个实施方案中,本发明的方法还包括步骤(4):以报告的形式输出筛选的致病性变异及其注释信息。在一个优选的实施方案中,将筛选的致病性变异按照优先级分成P1和P2两类。P1是指由临床医生最先考虑的可能与疾病相关的致病性变异,P2的优先级次之。如果需要,还可以将变异注释文件中没有筛选的变异及其注释信息以报告附录(P3或P4)的形式输出,供临床医生参考。
在第二个方面,本发明涉及一种筛选致病性变异的系统,包括:
-变异挖掘模块:用于读取测序数据,并获得遗传变异信息;
-变异注释模块:用于对遗传变异信息进行注释,获得变异注释文件,其包括注释软件和genomAD、HGMD、Clinvar、dbSNP、HGNC数据库;
-变异筛选模块:用于基于人群频率和是否有致病性数据支持从变异注释文件中筛选致病性变异。
在一个优选的实施方案中,变异注释模块还包括OMIM数据库。
在一个实施方案中,本发明的筛选致病性变异的系统还包括文件拆分整合模块,用于在注释之前将遗传变异文件根据变异类型拆分成SNP和InDel两个文件,并在注释之后,将两个文件合并以获得最终的变异注释文件。
在一个实施方案中,变异注释模块中的注释软件与genomAD、HGMD、Clinvar、dbSNP、HGNC数据库并行进行。优选地,在HGNC注释之后还进行OMIM注释。在一个优选的实施方案中,注释软件是Annovar。
在一个优选的实施方案中,变异注释模块中的genomAD、HGMD、Clinvar、dbSNP、HGNC、OMIM是经过优化的二进制文件,优选其中数据具有哈希结构的二进制文件。
在一个优选的实施方案中,变异筛选模块还可以用于基于表型进行筛选。在另一个优选的实施方案中,变异筛选模块还可以用于基于OMIM注释筛选符合孟德尔遗传方式的变异。
在一个实施方案中,本发明的筛选致病性变异的系统还包括输出模块,用于以报告的形式输出筛选的致病性变异及其注释信息。
在第三个方面,本发明还涉及一种筛选致病性变异的设备,包括:
存储器,被配置为存储一个或多个程序;
处理单元,耦合至所述存储器并且被配置为执行所述一个或多个程序使管理系统执行多个动作,所述动作包括如上所述的筛选致病性变异的方法中的步骤。
在第四个方面,本发明还涉及一种计算机可读存储介质,所述可读存储介质上存储有机器可执行指令,所述机器可执行指令在被执行时使机器执行根据本发明的筛选致病性变异的方法的步骤。
需要进一步说明的是,本公开可以是方法、设备、系统和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于执行本公开的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,该编程语言包括面向对象的编程语言—诸如Python、Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施方案中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理单元,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理单元执行时,产生了实现流程图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图中的一个或多个方框中规定的功能/动作的各个方面的指令。
本发明的优点在于:(1)综合运用多个数据库,确保对遗传变异的注释全面而准确;(2)通过预先将注释数据库构建为二进制文件优化了注释步骤,提高了注释效率。例如,对于一套全外显子测序数据,根据本发明的方法进行注释的时间小于10分钟,而通过未优化的常规方法注释相同的信息则需要至少1小时;(3)现有的筛选疾病,尤其是孟德尔遗传疾病的软件或方法,只能初步实现筛选与表型相关的基因。而进一步的变异层面的筛选,现在还没有固定的或有效的筛选办法。通过本发明的致病性变异筛选方法能够降低遗传解读人员的工作量,使得对每个样本的遗传解读,缩小至几个至十几个变异位点。此外,本发明的致病性变异筛选方法还充分考虑孟德尔遗传病的致病性变异的特性,能够筛选真正的阳性变异位点。
以上已经描述了本公开的各实施方案,上述说明是示例性的,并不意欲以任何方式限制本发明。在不冲突的情况下,各实施方案以及实施方案中的具体特征可以相互组合。在不偏离所说明的各实施方案的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。
附图说明
图1:根据本发明的变异注释流程的一个优选实施方案的示意图。
图2:注释数据库的优化的示意图。
图3:根据本发明的变异筛选流程的一个优选实施方案的示意图。
图4A-4B:根据本发明的方法筛选到的致病性变异及其注释信息的示意图。
具体实施方式
以下将结合附图进一步阐述本发明。
图1示出了根据本发明的变异注释流程的一个优选实施方案。具体而言,输入测序数据后,经过FastQC进行质控,然后用BWA进行序列比对,再用GATK查找变异位点,获得VCF格式的遗传变异文件。然后,根据变异类型,将遗传变异文件分成SNP VCF和InDel VCF两个文件,并同时对这两个文件进行注释。具体而言,一方面,用Annovar注释以下信息:refGene、cytoBand、esp6500人群频率、1000g人群频率、致病性预测、蛋白保守性评估、可串联重复序列注释;同时,用genomAD补充注释所有人群及亚洲人群频率;用HGMD注释变异在HGMD中的id号,变异类别(如,DM、DM?),变异相关疾病名称,文献报导的核苷酸变异及氨基酸变异信息;用Clinvar注释变异在Clinvar中的id号,Clinvar中的变异分类、变异命名,相关的疾病,是否被Pubmed报导,是否被验证,变异位点来源等信息;用dbSNP注释变异id号;用HGNC注释基因标准名及HGNC标注的基因id号,并且用HGNC注释完成之后,用OMIM注释基因的OMIM id号,相关疾病/表型的OMIM id号,对应基因的遗传方式。
其中,用HGMD进行注释的过程如图2所示。具体地,预先将VCF格式的HGMD的注释文件进行读取、解析,并按照染色体号、位置、ref、alt信息构建一个哈希结构的二进制文件。将该二进制文件加载进内存,直接对变异文件进行注释,获得已注释HGMD信息的文件。这使得每次对变异进行注释时,不再需要进行原始HGMD文件的读取与解析,从而节省时间,提高效率。genomAD、Clinvar、dbSNP、HGNC和OMIM的注释与此类似,也是将其先构建为哈希结构的二进制文件,然后直接加载进内存进行注释。
全部注释完成之后,将具有注释信息的SNP和InDel两个文件合并,形成最终的变异注释文件,用于之后的筛选步骤。
以变异“chr1_35227147_C>T”为例,经过上述注释步骤后,该变异的注释结果如下表1所示:
表1.变异“chr1_35227147_C>T”的注释结果
从变异注释文件中筛选致病性变异的一个优选实施方案如图3所示。具体而言,根据样本的临床症状描述,用本地化的phenolyzer筛选高分值的与表型相关的基因,然后从变异注释文件中筛选与所述基因对应的变异。同时,从变异注释文件中筛选在所有人群频率数据库中,频率<0.05或为NA的变异。然后,对于与表型相关的基因对应的且频率<0.05或为NA的变异,依次筛选其中符合HGMD的DM或DM?标准、且符合OMIM的孟德尔遗传方式的变异,作为最高优先级的P1报告正文输出,而符合HGMD的DM或DM?标准但不符合OMIM的孟德尔遗传方式的变异则作为P3报告附录输出。对于不符合HGMD的DM或DM?标准的变异,则进一步基于以下标准依次进行筛选:(1)在所有人群频率数据库中,频率<0.01或为NA;(2)通过SNP致病性过滤或InDel功能过滤;(3)符合OMIM的孟德尔遗传方式,筛选所得的变异作为第二优先级的P2报告正文输出,其余不符合孟德尔遗传方式的变异则作为P4报告附录输出。
发明人利用本发明的方法对一例商业样本“201712061001”进行了致病性变异筛选。其中对35920个变异完成注释用时约6分钟,并且最终筛选到14个P1优先级的变异,7个P2优先级的变异,17个P3优先级的变异,和119个P4优先级的变异。其中14个P1优先级的变异及其注释信息如图4A和4B所示。
该样本的临床表型为进行性四肢无力伴口齿不清,初步诊断可能是四肢无力或运动神经元病。而在通过本发明筛选到的14个P1优先级的致病性变异中,SPG7基因的NM_003119.3:c.2219A>G变异(即,变异10)发生在编码区,导致第740位的络氨酸突变为半胱氨酸。根据HGMD数据库中的文献报道,该变异在痉挛性截瘫7型的病人中检测到,其中一篇文献报告一位病人有散发的上运动神经元综合征症状(upper motor neuron syndrome)。但文献中未经功能实验验证该变异的致病性。本实施例中的检测患者的双侧肢体肌无力、行走拖拽、口齿不清、四肢腱反射亢进等临床症状与痉挛性截瘫7型的表型有重叠。该变异在正常人群中频率极低。并且,Annovar中的多个预测致病性预测软件(SIFT、Polyphen2、Mutationtaster、Radialsvm)均预测其致病。综合以上证据,根据ACMG指南,该变异可能是致病的。该样本检出的变异为杂合突变,因痉挛性截瘫7型的遗传方式大部分报道为常染色体隐形遗传,少部分报道为常染色体显性遗传,所以不排除该变异致病或存在复合杂合变异致病的可能性。综上,该样本患运动神经元疾病的可能性很高。以上结果表明,根据本发明的方法可以准确、高效地筛选致病性变异。
以上所述仅为本发明的实施例,并不用于限制本发明,对于本领域的技术人员来讲,本发明可以有更改和变化。凡在本发明的精神和原则之内,所作的任何修改、同等替换、改进等,均应包含在本发明的保护范围之内。
Claims (24)
1.一种筛选致病性变异的方法,包括以下步骤:
(1)读取测序数据,并获得遗传变异信息;
(2)变异注释:用注释软件和genomAD、HGMD、Clinvar、dbSNP、HGNC数据库对遗传变异信息进行注释,获得变异注释文件;
(3)变异筛选:基于人群频率和是否有致病性数据支持从变异注释文件中筛选致病性变异。
2.根据权利要求1所述的方法,在步骤(1)之后还包括根据变异类型将遗传变异信息分为SNP和InDel两个文件的步骤,且在步骤(2)之后还包括合并完成注释的SNP和InDel文件的步骤。
3.根据权利要求1所述的方法,在步骤(2)中,用注释软件和genomAD、HGMD、Clinvar、dbSNP、HGNC数据库进行注释是模块化、并行化进行的。
4.根据权利要求1-3任一项所述的方法,在HGNC注释之后还包括用OMIM数据库注释遗传方式的步骤。
5.根据权利要求1-4任一项所述的方法,步骤(2)包括预先将用于注释的数据库构建为二进制文件,然后再进行注释并获得变异注释文件。
6.根据权利要求5所述的方法,所述二进制文件中存储的数据具有哈希结构。
7.根据权利要求1-6任一项所述的方法,步骤(3)中用于筛选的人群频率的标准是在所有人群频率数据库中,变异的频率低于0.05或为NA。
8.根据权利要求1-7任一项所述的方法,步骤(3)还包括基于表型的筛选。
9.根据权利要求1-8任一项所述的方法,步骤(3)中所述“基于是否有致病性证据支持进行筛选”是指筛选符合HGMD中的DM和DM?划分标准的变异。
10.根据权利要求9所述的方法,步骤(3)还包括对不符合HGMD中的DM和DM?划分标准的变异进行进一步筛选,筛选标准是:在所有人群频率数据库中,变异频率小于0.01或为NA;并且该变异通过SNP致病性过滤或InDel功能过滤。
11.根据权利要求1-10任一项所述的方法,步骤(3)还包括基于OMIM注释筛选符合孟德尔遗传方式的基因所对应的变异。
12.根据权利要求1-11任一项所述的方法,还包括步骤(4):以报告的形式输出筛选的致病性变异及其注释信息。
13.一种筛选致病性变异的系统,包括:
-变异挖掘模块:用于读取测序数据,并获得遗传变异信息;
-变异注释模块:用于对遗传变异信息进行注释,获得变异注释文件,其包括注释软件和genomAD、HGMD、Clinvar、dbSNP、HGNC数据库;
-变异筛选模块:用于基于人群频率和是否有致病性数据支持从变异注释文件中筛选致病性变异。
14.根据权利要求13所述的系统,其中所述变异注释模块还包括OMIM数据库。
15.根据权利要求13或14所述的系统,还包括文件拆分整合模块,用于在注释之前将遗传变异文件根据变异类型拆分成SNP和InDel两个文件,并将完成注释的两个文件合并以获得最终的变异注释文件。
16.根据权利要求13-15任一项所述的系统,所述变异注释模块中的注释软件与genomAD、HGMD、Clinvar、dbSNP、HGNC数据库并行运行。
17.根据权利要求14-16任一项所述的系统,所述OMIM数据库在HGNC数据库注释之后运行。
18.根据权利要求17所述的系统,变异注释模块中的genomAD、HGMD、Clinvar、dbSNP、HGNC、OMIM是经过优化的二进制文件。
19.根据权利要求18所述的系统,所述二进制文件中存储的数据具有哈希结构。
20.根据权利要求13-19任一项所述的系统,所述变异筛选模块还可以用于基于表型进行筛选。
21.根据权利要求13-20任一项所述的系统,所述变异筛选模块还可以用于基于OMIM注释筛选符合孟德尔遗传方式的变异。
22.根据权利要求13-21任一项所述的系统,还包括输出模块,用于以报告的形式输出筛选的致病性变异及其注释信息。
23.一种筛选致病性变异的设备,包括:
存储器,被配置为存储一个或多个程序;
处理单元,耦合至所述存储器并且被配置为执行所述一个或多个程序使管理系统执行多个动作,所述动作包括根据权利要求1-12任一项所述的筛选致病性变异的方法中的步骤。
24.一种计算机可读存储介质,所述可读存储介质上存储有机器可执行指令,所述机器可执行指令在被执行时使机器执行根据权利要求1-12任一项所述的筛选致病性变异的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910353372.5A CN111863132A (zh) | 2019-04-29 | 2019-04-29 | 一种筛选致病性变异的方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910353372.5A CN111863132A (zh) | 2019-04-29 | 2019-04-29 | 一种筛选致病性变异的方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111863132A true CN111863132A (zh) | 2020-10-30 |
Family
ID=72965352
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910353372.5A Pending CN111863132A (zh) | 2019-04-29 | 2019-04-29 | 一种筛选致病性变异的方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111863132A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112908412A (zh) * | 2021-02-10 | 2021-06-04 | 北京贝瑞和康生物技术有限公司 | 用于复合杂合变异致病证据适用性的方法、设备和介质 |
CN114496080A (zh) * | 2022-01-17 | 2022-05-13 | 中国人民解放军总医院第一医学中心 | 耳聋致病性基因的筛查方法、装置、存储介质及服务器 |
CN117373696A (zh) * | 2023-12-08 | 2024-01-09 | 神州医疗科技股份有限公司 | 一种基于文献证据库的遗传病自动解读系统及方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130332081A1 (en) * | 2010-09-09 | 2013-12-12 | Omicia Inc | Variant annotation, analysis and selection tool |
CN106599613A (zh) * | 2016-12-15 | 2017-04-26 | 博奥生物集团有限公司 | 一种判定遗传性肿瘤变异位点分级的方法 |
US20170255743A1 (en) * | 2014-03-27 | 2017-09-07 | The Scripps Research Institute | Systems and methods for genomic annotation and distributed variant interpretation |
CN108920901A (zh) * | 2018-07-24 | 2018-11-30 | 中国医学科学院北京协和医院 | 一种测序数据突变分析系统 |
CN109616155A (zh) * | 2018-11-19 | 2019-04-12 | 江苏科技大学 | 一种编码区域遗传变异致病性分类的数据处理系统与方法 |
-
2019
- 2019-04-29 CN CN201910353372.5A patent/CN111863132A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130332081A1 (en) * | 2010-09-09 | 2013-12-12 | Omicia Inc | Variant annotation, analysis and selection tool |
US20170255743A1 (en) * | 2014-03-27 | 2017-09-07 | The Scripps Research Institute | Systems and methods for genomic annotation and distributed variant interpretation |
CN106599613A (zh) * | 2016-12-15 | 2017-04-26 | 博奥生物集团有限公司 | 一种判定遗传性肿瘤变异位点分级的方法 |
CN108920901A (zh) * | 2018-07-24 | 2018-11-30 | 中国医学科学院北京协和医院 | 一种测序数据突变分析系统 |
CN109616155A (zh) * | 2018-11-19 | 2019-04-12 | 江苏科技大学 | 一种编码区域遗传变异致病性分类的数据处理系统与方法 |
Non-Patent Citations (1)
Title |
---|
黄莹;刘琪;池连江;石承民;吴祯;胡敏;石宏;陈华;: "BIG-Annotator:基因组测序数据高效功能注释及其在遗传诊断中的应用", 遗传, no. 11, pages 1 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112908412A (zh) * | 2021-02-10 | 2021-06-04 | 北京贝瑞和康生物技术有限公司 | 用于复合杂合变异致病证据适用性的方法、设备和介质 |
CN114496080A (zh) * | 2022-01-17 | 2022-05-13 | 中国人民解放军总医院第一医学中心 | 耳聋致病性基因的筛查方法、装置、存储介质及服务器 |
CN117373696A (zh) * | 2023-12-08 | 2024-01-09 | 神州医疗科技股份有限公司 | 一种基于文献证据库的遗传病自动解读系统及方法 |
CN117373696B (zh) * | 2023-12-08 | 2024-03-01 | 神州医疗科技股份有限公司 | 一种基于文献证据库的遗传病自动解读系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Rakocevic et al. | Fast and accurate genomic analyses using genome graphs | |
Manzoni et al. | Genome, transcriptome and proteome: the rise of omics data and their integration in biomedical sciences | |
Sadedin et al. | Cpipe: a shared variant detection pipeline designed for diagnostic settings | |
US10741291B2 (en) | Systems and methods for genomic annotation and distributed variant interpretation | |
Oliver et al. | Bioinformatics for clinical next generation sequencing | |
EP3837690B1 (en) | Systems and methods for using neural networks for germline and somatic variant calling | |
Sügis et al. | HENA, heterogeneous network-based data set for Alzheimer’s disease | |
Hintzsche et al. | A survey of computational tools to analyze and interpret whole exome sequencing data | |
US20150154354A1 (en) | Systems and Methods for Genomic Annotation and Distributed Variant Interpretation | |
Martin et al. | Transcriptome sequencing from diverse human populations reveals differentiated regulatory architecture | |
Chiara et al. | CoVaCS: a consensus variant calling system | |
CN111863132A (zh) | 一种筛选致病性变异的方法和系统 | |
US20190311785A1 (en) | Systems and methods for genomic annotation and distributed variant interpretation | |
AU2021208684A1 (en) | Screening system and method for acquiring and processing genomic information for generating gene variant interpretations | |
Liu et al. | Joint detection of copy number variations in parent-offspring trios | |
Kroon et al. | Detecting dispersed duplications in high-throughput sequencing data using a database-free approach | |
Wolf et al. | DNAseq workflow in a diagnostic context and an example of a user friendly implementation | |
Wang et al. | The landscape of the methodology in drug repurposing using human genomic data: a systematic review | |
US20220293214A1 (en) | Methods of analyzing genetic variants based on genetic material | |
KR20230102240A (ko) | 다차원 오믹스 데이터 변환 시스템 및 그 방법 | |
Mendoza-Alvarez et al. | Interactive web-based resource for annotation of genetic variants causing hereditary angioedema (hada): Database development, implementation, and validation | |
Fishman et al. | AI in Genomics and Epigenomics | |
Maassen et al. | MOLGENIS VIP: an open-source and modular pipeline for high-throughput and integrated DNA variant analysis | |
Kanterakis et al. | An Introduction to Tools, Databases, and Practical Guidelines for NGS Data Analysis | |
Canal-Alonso et al. | Review of state-of-the-art algorithms for genomics data analysis pipelines |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |