CN113793642A - 一种高通量测序变异风险分组筛选方法及系统 - Google Patents
一种高通量测序变异风险分组筛选方法及系统 Download PDFInfo
- Publication number
- CN113793642A CN113793642A CN202111212516.9A CN202111212516A CN113793642A CN 113793642 A CN113793642 A CN 113793642A CN 202111212516 A CN202111212516 A CN 202111212516A CN 113793642 A CN113793642 A CN 113793642A
- Authority
- CN
- China
- Prior art keywords
- screening
- risk
- variation
- pathogenicity
- setting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012216 screening Methods 0.000 title claims abstract description 235
- 238000012165 high-throughput sequencing Methods 0.000 title claims abstract description 28
- 238000000034 method Methods 0.000 title claims abstract description 25
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 110
- 230000007918 pathogenicity Effects 0.000 claims abstract description 71
- 230000001717 pathogenic effect Effects 0.000 claims abstract description 58
- 208000021018 autosomal dominant inheritance Diseases 0.000 claims abstract description 12
- 208000021024 autosomal recessive inheritance Diseases 0.000 claims abstract description 12
- 230000002068 genetic effect Effects 0.000 claims abstract description 10
- 230000007614 genetic variation Effects 0.000 claims abstract description 9
- 230000035772 mutation Effects 0.000 claims description 12
- 238000012163 sequencing technique Methods 0.000 claims description 6
- 229910001374 Invar Inorganic materials 0.000 claims 1
- 230000004907 flux Effects 0.000 claims 1
- 238000010448 genetic screening Methods 0.000 claims 1
- 230000035945 sensitivity Effects 0.000 description 9
- 238000004458 analytical method Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 8
- 208000026350 Inborn Genetic disease Diseases 0.000 description 4
- 208000016361 genetic disease Diseases 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000001681 protective effect Effects 0.000 description 4
- 230000001131 transforming effect Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 108700024394 Exon Proteins 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 229940079593 drug Drugs 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000007482 whole exome sequencing Methods 0.000 description 2
- 241001354491 Lasthenia californica Species 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000003766 bioinformatics method Methods 0.000 description 1
- 230000002939 deleterious effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007481 next generation sequencing Methods 0.000 description 1
- 238000007480 sanger sequencing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6883—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/156—Polymorphic or mutational markers
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Health & Medical Sciences (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Analytical Chemistry (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biotechnology (AREA)
- General Health & Medical Sciences (AREA)
- Genetics & Genomics (AREA)
- Organic Chemistry (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- Zoology (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Molecular Biology (AREA)
- Wood Science & Technology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Microbiology (AREA)
- Immunology (AREA)
- Pathology (AREA)
- Biochemistry (AREA)
- General Engineering & Computer Science (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明提出了一种高通量测序变异风险分组筛选方法及系统,包括:设置致病性高风险的变异筛选条件,按照致病性高风险的变异筛选条件对基因数据进行筛选;设置致病性高风险的变异及人群频率极低的中风险的变异筛选条件,对基因数据进行筛选;设置致病性中高风险的变异筛选条件,对基因数据进行筛选;设置致病性中高风险的常染色体显性遗传的基因变异筛选条件,对基因数据进行筛选;设置致病性中高风险的常染色体隐性遗传且同一基因的筛选条件,对基因数据进行筛选;设置致病性中高风险的性连锁遗传的变异筛条件,对基因数据进行筛选;设置致病性中高风险的认为是致病性变异或可疑致病性变异的筛选条件,对基因数据进行筛选。
Description
技术领域
本发明涉及高通量测序技术领域,特别涉及一种高通量测序变异风险分组筛选方法及系统。
背景技术
人类核基因相关疾病按遗传方式可分为常染色体显性遗传病(AD遗传)、常染色体隐性遗传病(AR遗传)和性连锁遗传。应用基因测序技术是寻找疾病基因病因的重要手段。
高通量测序技术(High-Throughput Sequencing)又称为下一代测序技术(Next-Generation Sequencing)是基因测序技术的一种,其典型特点是一次可以检测成千上万个基因,与一代测序即Sanger测序一次只能测几百个碱基相比,通过大大增加,同时会产生大量的数据。将产生的数据通过生物信息学的方法注释,即可产生变异注释表。目前,高通量测序技术应用较广的是全外显子组测序,检测大约2万个基因,每个样本的变异注释表数据大约有6万条。
如此巨大的数据信息,几乎不可能人工逐个位点分析。目前独立实验室通常用的方法是按照特定数据库频率、变异类别等自行定义风险。要么筛选后数据量仍然很大,人员要求极高,工作量非常大,要么筛选条件过于苛刻而使风险较高的变异被滤掉了,进而使检出率降低。有公开专利利用特定样本的表型筛选(专利号:CN202010035599.8),这种筛选方法只能用于特定样本的筛选,特异性高了,但是敏感性降低了。
现有的筛选方法,只是按特定的方式筛选,筛选出来的变异不能兼顾其他方式的筛选,使其他条件下高风险变异漏掉的可能性大大提高,由于不是分组的方式,也无法兼顾其他筛选的逻辑。
发明内容
本发明的目的旨在至少解决所述技术缺陷之一。
为此,本发明的目的在于提出一种高通量测序变异风险分组筛选方法及系统。
为了实现上述目的,本发明的实施例提供一种高通量测序变异风险分组筛选方法,包括:
步骤S1,设置致病性高风险的变异筛选条件,按照所述致病性高风险的变异筛选条件对基因数据进行筛选;
步骤S2,设置致病性高风险的变异及人群频率极低的中风险的变异筛选条件,对基因数据进行筛选;
步骤S3,设置致病性中高风险的变异筛选条件,对基因数据进行筛选;
步骤S4,设置致病性中高风险的常染色体显性遗传的基因变异筛选条件,对基因数据进行筛选;
步骤S5,设置致病性中高风险的常染色体隐性遗传且同一基因的不同变异不少于2个或单一变异是纯合的筛选条件,对基因数据进行筛选;
步骤S6,设置致病性中高风险的性连锁遗传的变异筛条件,对基因数据进行筛选;
步骤S7,设置致病性中高风险的认为是致病性变异或可疑致病性变异的,或其他可靠的数据库认为变异是有害的筛选条件,对基因数据进行筛选;
步骤S8,对筛选出的高风险基因进行标记。
进一步,在所述步骤S7中,设置致病性中高风险的同时HGMD数据库有数据的或ClinVar数据库收录认为是致病性变异或可疑致病性变异。
本发明还提出一种高通量测序变异风险分组筛选系统,包括:筛选条件设置模块、高风险基因筛选模块和基因标记模块,其中,
所述筛选条件设置模块用于设置致病性高风险的变异筛选条件、设置致病性高风险的变异及人群频率极低的中风险的变异筛选条件、设置致病性中高风险的变异筛选条件、设置致病性中高风险的常染色体显性遗传的基因变异筛选条件、设置致病性中高风险的常染色体隐性遗传且同一基因的不同变异不少于2个或单一变异是纯合的筛选条件、设置致病性中高风险的性连锁遗传的变异筛条件,以及设置致病性中高风险的认为是致病性变异或可疑致病性变异的,或其他可靠的数据库认为变异是有害的筛选条件;
所述高风险基因筛选模块用于分别根据所述筛选条件设置模块设置的各类条件执行如下筛选动作,包括:
根据设置致病性高风险的变异筛选条件,按照所述致病性高风险的变异筛选条件对基因数据进行筛选;
根据设置致病性高风险的变异及人群频率极低的中风险的变异筛选条件,对基因数据进行筛选;
根据设置致病性中高风险的变异筛选条件,对基因数据进行筛选;
根据设置致病性中高风险的常染色体显性遗传的基因变异筛选条件,对基因数据进行筛选;
根据设置致病性中高风险的常染色体隐性遗传且同一基因的不同变异不少于2个或单一变异是纯合的筛选条件,对基因数据进行筛选;
根据设置致病性中高风险的性连锁遗传的变异筛条件,对基因数据进行筛选;
根据设置致病性中高风险的认为是致病性变异或可疑致病性变异的,或其他可靠的数据库认为变异是有害的筛选条件,对基因数据进行筛选;
所述基因标记模块用于对所述高风险基因筛选模块筛选出的高风险基因进行标记。
进一步,所述高风险基因筛选模块设置致病性中高风险的同时HGMD数据库有数据的或ClinVar数据库收录认为是致病性变异或可疑致病性变异。
根据本发明实施例的高通量测序变异风险分组筛选方法及系统,设定的逻辑系统性地考虑了整体高通量测序变异有害性的风险、不同遗传方式下变异有害性的风险及现有数据库评估变异有害性的风险,使风险筛选细化,创新性地以分组的形式按不同的条件进行变异风险筛选。与现有的筛选相比,本方案筛选条件更有针对性,兼顾了高特异性与高敏感度减小了分析人员的工作负担,提高了效率。本发明采用分组筛选的方法,从不同的角度进行变异高风险筛选,各组相互兼顾,不但可以快速筛选出组内高风险的变异,还大大降低了高风险变异被过滤掉的风险。分组后,各种逻辑清晰,便于分析人员把控变异是否与受检样本相关。本发明可以实现在2分钟内快速准确的从6万条基因中标记出高风险变异基因,大大提高了效率。
本发明将高通量测序变异注释表数据以组为单位筛选出组内高风险变异,综合考虑了实验室自定义的风险级别是高风险变异、Actionable Variants基因变异、不同的遗传方式高风险变异及有可靠的数据库认为变异是有害的等各种因素,这些因素相互补充,使风险筛选变得更加有针对性同时防止高风险的变异漏掉。对全外显子组测序数据来说,每组筛选出来的变异大约平均在50条左右,由于组间筛选出来的变异可能存在相互重叠,合计起来筛选出来的变异大约在300条左右,同时兼有高特异性与高敏感度,有更高的筛选效率。而对于分析人员来说,在分析时只需要考虑单个组的分析,大大降低了分析人员的工作负担。有一些极高风险的变异会在不同的组出现,使在分析过程漏掉的可能性大大降低。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明实施例的高通量测序变异风险分组筛选方法的流程图;
图2至图8为根据本发明实施例的高通量测序变异风险分组筛选方法的操作界面图;
图9为根据本发明实施例的高通量测序变异风险分组筛选系统的结构图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
本发明提供一种高通量测序变异风险分组形式和分组方法。其中,分组形式是指将高通量测序变异分组考虑进行风险筛选;其二,按七组进行分组。本发明采用分组筛选的方法,从不同的角度进行变异高风险筛选,各组相互兼顾,不但可以快速筛选出组内高风险的变异,还大大降低了高风险变异被过滤掉的风险。分组后,各种逻辑清晰,便于分析人员把控变异是否与受检样本相关。
如图1所示,本发明实施例的高通量测序变异风险分组筛选方法,包括如下步骤:
步骤S1,设置致病性高风险的变异筛选条件,按照所述致病性高风险的变异筛选条件对基因数据进行筛选;
具体的,按以下条件筛选:美国医学遗传学与基因组学学会(ACMG)建议的59个Actionable Variants基因或额外自定义的基因,综合考虑为致病性高风险的变异。(注:缩写为ACT)
步骤S2,设置致病性高风险的变异及人群频率极低的中风险的变异筛选条件,对基因数据进行筛选;
具体的,按以下条件筛选:实验室自定义的综合考虑为致病性高风险的变异及人群频率极低的中风险的变异。(注:缩写为H)。人群频度极低可以根据常见遗传病设置,优选0。
步骤S3,设置致病性中高风险的变异筛选条件,对基因数据进行筛选。
具体的,按以下条件筛选:实验室自定义的综合考虑为致病性中高风险的变异。(注:缩写为M)
步骤S4,设置致病性中高风险的常染色体显性遗传的基因变异筛选条件,对基因数据进行筛选;
具体的,按以下条件筛选:实验室自定义的综合考虑为致病性中高风险的常染色体显性遗传的基因变异。(注:缩写为AD)。
步骤S5,设置致病性中高风险的常染色体隐性遗传且同一基因的不同变异不少于2个或单一变异是纯合的筛选条件,对基因数据进行筛选;
具体的,按以下条件筛选:实验室自定义的综合考虑为致病性中高风险的常染色体隐性遗传且同一基因的不同变异不少于2个或单一变异是纯合的。(注:缩写为AR)。
步骤S6,设置致病性中高风险的性连锁遗传的变异筛条件,对基因数据进行筛选;
具体的,按以下条件筛选:实验室自定义的综合考虑为致病性中高风险的性连锁遗传的变异。(注:缩写为XY)。
步骤S7,设置致病性中高风险的认为是致病性变异或可疑致病性变异的,或其他可靠的数据库认为变异是有害的筛选条件,对基因数据进行筛选;
在所述步骤S7中,设置致病性中高风险的同时HGMD数据库有数据的或ClinVar数据库收录认为是致病性变异或可疑致病性变异。
具体的,按以下条件筛选:实验室自定义的综合考虑为致病性中高风险的同时HGMD数据库有数据的或ClinVar数据库收录认为是致病性变异或可疑致病性变异的,或其他可靠的数据库认为变异是有害的。(注:缩写为CD)。
步骤S8,对筛选出的高风险基因进行标记。
按照本发明的方案对数据进行筛选,详细过程如下:
组1(即ACT),按以下条件筛选:Panel列筛选“ACT”;Risk列筛选“2”。
组2(即H),按合并以下条件筛选:其一是Risk列筛选“2”,fmax列筛选≤0.4[2](为了防止漏检,门槛值调整至0.4);其二是Risk列筛选含有“1”或“1.5”或“2”或“1-potential”项,OMIM列筛选“非空项”,fmax列筛选“0”,class列筛选“missense”或“P-splicingCandidate”或“D-splicing”或“N-ncRNA_splicing/N-ncRNA_exonic”或“N-exonic”或“D-stopgain”或“P-scSNV”或“D-stoploss”或“N-ncRNA_exonic;splicing”或“N-exonic;splicing”或“P-nonframeshift”或“D-frameshift”项。
组3(即M),按以下条件筛选:Risk列筛选“1”或“1.5”或“2”或“1-potential”项,OMIM列筛选“非空项”,0<fmax≦0.001,class列筛选“missense”或“P-splicingCandidate”或“D-splicing”或“N-ncRNA_splicing”或“N-ncRNA_exonic”或“N-exonic”或“D-stopgain”或“P-scSNV”或“D-stoploss”或“N-ncRNA_exonic;splicing”或“N-exonic;splicing”或“P-nonframeshift”或“D-frameshift”项,CLNSIG列筛选“.”或“Conflicting_interpretations_of_pathogenicity\x2c_other”或“association”或“Conflicting_interpretations_of_pathogenicity”或“not_provided”或“drug_response”或“Uncertain_significance”或“Risk_factor”或“protective”或“Affects\x2c_association”或“Likely_pathogenic”或“Affects”或“association\x2c_Risk_factor”或“Pathogenic”或“Pathogenic\x2c_protective”项。
组4(即AD),按以下条件筛选:Risk列筛选“1”或“1.5”或“2”或“1-potential”,OMIM列筛选“AD”,fmax≦0.05[1],class列筛选“missense”或“P-splicingCandidate”或“D-splicing”或“N-ncRNA_splicing”或“N-ncRNA_exonic”或“N-exonic”或“D-stopgain”或“P-scSNV”或“D-stoploss”或“N-ncRNA_exonic;splicing”或“N-exonic;splicing”或“P-nonframeshift”或“D-frameshift”项。
组5(即AR),按合并以下条件筛选:其一是Risk列筛选“1”或“1.5”或“2”或“1-potential项”,OMIM列筛选“AR”,fmax≦0.05,class列筛选“missense”或“P-splicingCandidate”或“D-splicing”或“N-ncRNA_splicing”或“N-ncRNA_exonic”或“N-exonic”或“D-stopgain”或“P-scSNV”或“D-stoploss”或“N-ncRNA_exonic;splicing”或“N-exonic;splicing”或“P-nonframeshift”或“D-frameshift”,前几项筛选后将Gene.refGene项只有一条的项去掉;其二是Risk列筛选“1”或“1.5”或“2”或“1-potential”,OMIM列筛选“AR”,fmax≦0.05,Het/Hom列筛选“Hom”,Chr列筛选不含有“chrX”或“chrY”项。
组6(即XY),按以下条件筛选:Risk列筛选“1”或“1.5”或“2”或“1-potential”,OMIM列筛选非空项,fmax≦0.05,Het/Hom列筛选“Hom”,Chr列筛选“chrX”或“chrY”。
组7(即CD),按合并以下条件筛选:其一是Risk列筛选“1”或“1.5”或“2”或“1-potential”,OMIM列筛选“非空项”,fmax≦0.2,HGMD列筛选“非空项”;Risk列筛选“1”或“1.5”或“2”或“1-potential”,OMIM列筛选“非空项,fmax≦0.2,CLNSIG列筛选“Likely_pathogenic”或“Pathogenic”或“Pathogenic\x2c_protective”。
筛选结果如下表1:
表1
下面是对照筛选方式,和本发明的方案不同,没有进行分组风险筛选,筛选过程如下:
筛选条件:Risk列筛选“0.5”或“1”或“1.5”或“2”或“1-potential”,fmax≤0.4。由于没有分组,其他筛选条件不适用。
对于筛选条件,本发明方案和对照方案都是单独考虑了高风险,真阳性数相似,故敏感度相似,但是特异性相差较大。若对照方案额外增加筛选条件,会增加假阴性的概率,进而敏感性降低。
具体实施例1:
本实验室全外显子组测序数据一例,检测的变异位点的数量是59559个,生信注释第一行即表头的标识及表头说明如下:
按照本发明的方案对数据进行筛选,详细过程如下:
组1(即ACT),按以下条件筛选:Panel列筛选“ACT”;Risk列筛选“2”。
组2(即H),按合并以下条件筛选:其一是Risk列筛选“2”,fmax列筛选≤0.4[2](为了防止漏检,门槛值调整至0.4);其二是Risk列筛选含有“1”或“1.5”或“2”或“1-potential”项,OMIM列筛选“非空项”,fmax列筛选“0”,class列筛选“missense”或“P-splicingCandidate”或“D-splicing”或“N-ncRNA_splicing/N-ncRNA_exonic”或“N-exonic”或“D-stopgain”或“P-scSNV”或“D-stoploss”或“N-ncRNA_exonic;splicing”或“N-exonic;splicing”或“P-nonframeshift”或“D-frameshift”项。
组3(即M),按以下条件筛选:Risk列筛选“1”或“1.5”或“2”或“1-potential”项,OMIM列筛选“非空项”,0<fmax≦0.001,class列筛选“missense”或“P-splicingCandidate”或“D-splicing”或“N-ncRNA_splicing”或“N-ncRNA_exonic”或“N-exonic”或“D-stopgain”或“P-scSNV”或“D-stoploss”或“N-ncRNA_exonic;splicing”或“N-exonic;splicing”或“P-nonframeshift”或“D-frameshift”项,CLNSIG列筛选“.”或“Conflicting_interpretations_of_pathogenicity\x2c_other”或“association”或“Conflicting_interpretations_of_pathogenicity”或“not_provided”或“drug_response”或“Uncertain_significance”或“Risk_factor”或“protective”或“Affects\x2c_association”或“Likely_pathogenic”或“Affects”或“association\x2c_Risk_factor”或“Pathogenic”或“Pathogenic\x2c_protective”项。
组4(即AD),按以下条件筛选:Risk列筛选“1”或“1.5”或“2”或“1-potential”,OMIM列筛选“AD”,fmax≦0.05[1],class列筛选“missense”或“P-splicingCandidate”或“D-splicing”或“N-ncRNA_splicing”或“N-ncRNA_exonic”或“N-exonic”或“D-stopgain”或“P-scSNV”或“D-stoploss”或“N-ncRNA_exonic;splicing”或“N-exonic;splicing”或“P-nonframeshift”或“D-frameshift”项。
组5(即AR),按合并以下条件筛选:其一是Risk列筛选“1”或“1.5”或“2”或“1-potential项”,OMIM列筛选“AR”,fmax≦0.05,class列筛选“missense”或“P-splicingCandidate”或“D-splicing”或“N-ncRNA_splicing”或“N-ncRNA_exonic”或“N-exonic”或“D-stopgain”或“P-scSNV”或“D-stoploss”或“N-ncRNA_exonic;splicing”或“N-exonic;splicing”或“P-nonframeshift”或“D-frameshift”,前几项筛选后将Gene.refGene项只有一条的项去掉;其二是Risk列筛选“1”或“1.5”或“2”或“1-potential”,OMIM列筛选“AR”,fmax≦0.05,Het/Hom列筛选“Hom”,Chr列筛选不含有“chrX”或“chrY”项。
组6(即XY),按以下条件筛选:Risk列筛选“1”或“1.5”或“2”或“1-potential”,OMIM列筛选非空项,fmax≦0.05,Het/Hom列筛选“Hom”,Chr列筛选“chrX”或“chrY”。
组7(即CD),按合并以下条件筛选:其一是Risk列筛选“1”或“1.5”或“2”或“1-potential”,OMIM列筛选“非空项”,fmax≦0.2,HGMD列筛选“非空项”;Risk列筛选“1”或“1.5”或“2”或“1-potential”,OMIM列筛选“非空项,fmax≦0.2,CLNSIG列筛选“Likely_pathogenic”或“Pathogenic”或“Pathogenic\x2c_protective”。
筛选结果如下表2:
表2
下面是对照筛选方式,和本发明方案不同,没有进行分组风险筛选,筛选过程如下:
筛选条件:Risk列筛选“0.5”或“1”或“1.5”或“2”或“1-potential”,fmax≤0.4。由于没有分组,其他筛选条件不适用。
筛选结果如下表3:
原数据条数 | 对照方法筛选 | 筛选条数 | 总筛选条数 |
59559 | 筛选项 | 1719 | 1719 |
表3
对于筛选条件,本发明方案和对照方案都是单独考虑了高风险,真阳性数相似,故敏感度相似,但是特异性相差较大。近似比较如下:
本发明方案:假阳性约为0;真阴性=原数据条数-专利方案筛选条数=59269;特异性=真阴性/(假阳性+真阴性)=1
对照方案:由于专利方案与对照方案的真阳性数相似,对照方案的假阳性约为:0+(对照方案筛选条数-专利方案筛选条数)=1429;真阴性=原数据条数-对照筛选条数=57840;特异性=真阴性/(假阳性+真阴性)=97.59%
本发明方案特异性比对照方案的特异性高2.41%
若对照方案额外增加筛选条件,会增加假阴性的概率,进而敏感性降低。
双击打开dist文件夹下的redot.exe可执行文件,如图2所示。页面第一行内容为该软件的说明(说明:redot是由金域公司开发的一款通用的检测高风险变异基因的软件。)。页面第二行提示输入文件所在路径,用户可以在此处输入或粘贴注释文件的路径和文件名,如图3所示。“Enter”后会打印输入的内容以及下一步需要输入的内容,如图4所示。输入基因注释文件的名称(注意:此处文件的名称应与上一步中的名称一致),如图5所示。“Enter”后会打印输入的文件名同时程序开始计算结果,如图6所示。程序运行结束后会自动关闭窗口,生成的文件会放在dist文件夹下,如图7所示。生成文件的命名方式为:文件名称+“.”+“redot”+“.”+“日期”+“.”+“后缀”,如“NP23FW0151.XX.redot.20210125.xlsx”。通过redot软件生成的文件中增加了两列“Fast_analysis”和“Element_analysis”,从59238个基因中标记了322个高风险变异的基因,如图8所示。
如图9所示,本发明实施例还提供一种高通量测序变异风险分组筛选系统,包括:筛选条件设置模块1、高风险基因筛选模块2和基因标记模块3。
具体的,筛选条件设置模块1用于设置致病性高风险的变异筛选条件、设置致病性高风险的变异及人群频率极低的中风险的变异筛选条件、设置致病性中高风险的变异筛选条件、设置致病性中高风险的常染色体显性遗传的基因变异筛选条件、设置致病性中高风险的常染色体隐性遗传且同一基因的不同变异不少于2个或单一变异是纯合的筛选条件、设置致病性中高风险的性连锁遗传的变异筛条件,以及设置致病性中高风险的认为是致病性变异或可疑致病性变异的,或其他可靠的数据库认为变异是有害的筛选条件。
高风险基因筛选模块2用于分别根据筛选条件设置模块1设置的各类条件执行如下筛选动作,包括:
(1)根据设置致病性高风险的变异筛选条件,按照致病性高风险的变异筛选条件对基因数据进行筛选。
具体的,高风险基因筛选模块2按以下条件筛选:美国医学遗传学与基因组学学会(ACMG)建议的59个Actionable Variants基因或额外自定义的基因,综合考虑为致病性高风险的变异。(注:缩写为ACT)
(2)根据设置致病性高风险的变异及人群频率极低的中风险的变异筛选条件,对基因数据进行筛选。
具体的,高风险基因筛选模块2按以下条件筛选:实验室自定义的综合考虑为致病性高风险的变异及人群频率极低的中风险的变异。(注:缩写为H)。人群频度极低可以根据常见遗传病设置,优选0。
(3)根据设置致病性中高风险的变异筛选条件,对基因数据进行筛选。
具体的,高风险基因筛选模块2按以下条件筛选:实验室自定义的综合考虑为致病性中高风险的变异。(注:缩写为M)
(4)根据设置致病性中高风险的常染色体显性遗传的基因变异筛选条件,对基因数据进行筛选。
具体的,高风险基因筛选模块2按以下条件筛选:实验室自定义的综合考虑为致病性中高风险的常染色体显性遗传的基因变异。(注:缩写为AD)。
(5)根据设置致病性中高风险的常染色体隐性遗传且同一基因的不同变异不少于2个或单一变异是纯合的筛选条件,对基因数据进行筛选。
具体的,高风险基因筛选模块2按以下条件筛选:实验室自定义的综合考虑为致病性中高风险的常染色体隐性遗传且同一基因的不同变异不少于2个或单一变异是纯合的。(注:缩写为AR)。
(6)根据设置致病性中高风险的性连锁遗传的变异筛条件,对基因数据进行筛选。
具体的,高风险基因筛选模块2按以下条件筛选:实验室自定义的综合考虑为致病性中高风险的性连锁遗传的变异。(注:缩写为XY)。
(7)根据设置致病性中高风险的认为是致病性变异或可疑致病性变异的,或其他可靠的数据库认为变异是有害的筛选条件,对基因数据进行筛选。
具体的,高风险基因筛选模块2设置致病性中高风险的同时HGMD数据库有数据的或ClinVar数据库收录认为是致病性变异或可疑致病性变异。
基因标记模块3用于对高风险基因筛选模块筛选出的高风险基因进行标记。
在本发明的实施例中,高风险基因筛选模块2设置致病性中高风险的同时HGMD数据库有数据的或ClinVar数据库收录认为是致病性变异或可疑致病性变异。
根据本发明实施例的高通量测序变异风险分组筛选方法及系统,设定的逻辑系统性地考虑了整体高通量测序变异有害性的风险、不同遗传方式下变异有害性的风险及现有数据库评估变异有害性的风险,使风险筛选细化,创新性地以分组的形式按不同的条件进行变异风险筛选。与现有的筛选相比,本方案筛选条件更有针对性,兼顾了高特异性与高敏感度减小了分析人员的工作负担,提高了效率。本发明采用分组筛选的方法,从不同的角度进行变异高风险筛选,各组相互兼顾,不但可以快速筛选出组内高风险的变异,还大大降低了高风险变异被过滤掉的风险。分组后,各种逻辑清晰,便于分析人员把控变异是否与受检样本相关。本发明可以实现在2分钟内快速准确的从6万条基因中标记出高风险变异基因,大大提高了效率。
本发明将高通量测序变异注释表数据以组为单位筛选出组内高风险变异,综合考虑了实验室自定义的风险级别是高风险变异、Actionable Variants基因变异、不同的遗传方式高风险变异及有可靠的数据库认为变异是有害的等各种因素,这些因素相互补充,使风险筛选变得更加有针对性同时防止高风险的变异漏掉。对全外显子组测序数据来说,每组筛选出来的变异大约平均在50条左右,由于组间筛选出来的变异可能存在相互重叠,合计起来筛选出来的变异大约在300条左右,同时兼有高特异性与高敏感度,有更高的筛选效率。而对于分析人员来说,在分析时只需要考虑单个组的分析,大大降低了分析人员的工作负担。有一些极高风险的变异会在不同的组出现,使在分析过程漏掉的可能性大大降低。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。本发明的范围由所附权利要求及其等同限定。
Claims (4)
1.一种高通量测序变异风险分组筛选方法,其特征在于,包括如下步骤:
步骤S1,设置致病性高风险的变异筛选条件,按照所述致病性高风险的变异筛选条件对基因数据进行筛选;
步骤S2,设置致病性高风险的变异及人群频率极低的中风险的变异筛选条件,对基因数据进行筛选;
步骤S3,设置致病性中高风险的变异筛选条件,对基因数据进行筛选;
步骤S4,设置致病性中高风险的常染色体显性遗传的基因变异筛选条件,对基因数据进行筛选;
步骤S5,设置致病性中高风险的常染色体隐性遗传且同一基因的不同变异不少于2个或单一变异是纯合的筛选条件,对基因数据进行筛选;
步骤S6,设置致病性中高风险的性连锁遗传的变异筛条件,对基因数据进行筛选;
步骤S7,设置致病性中高风险的认为是致病性变异或可疑致病性变异的,或其他可靠的数据库认为变异是有害的筛选条件,对基因数据进行筛选;
步骤S8,对筛选出的高风险基因进行标记。
2.如权利要求1所述的高通量测序变异风险分组筛选方法,其特征在于,在所述步骤S7中,设置致病性中高风险的同时HGMD数据库有数据的或Cl inVar数据库收录认为是致病性变异或可疑致病性变异。
3.一种高通量测序变异风险分组筛选系统,其特征在于,包括:筛选条件设置模块、高风险基因筛选模块和基因标记模块,其中,
所述筛选条件设置模块用于设置致病性高风险的变异筛选条件、设置致病性高风险的变异及人群频率极低的中风险的变异筛选条件、设置致病性中高风险的变异筛选条件、设置致病性中高风险的常染色体显性遗传的基因变异筛选条件、设置致病性中高风险的常染色体隐性遗传且同一基因的不同变异不少于2个或单一变异是纯合的筛选条件、设置致病性中高风险的性连锁遗传的变异筛条件,以及设置致病性中高风险的认为是致病性变异或可疑致病性变异的,或其他可靠的数据库认为变异是有害的筛选条件;
所述高风险基因筛选模块用于分别根据所述筛选条件设置模块设置的各类条件执行如下筛选动作,包括:
根据设置致病性高风险的变异筛选条件,按照所述致病性高风险的变异筛选条件对基因数据进行筛选;
根据设置致病性高风险的变异及人群频率极低的中风险的变异筛选条件,对基因数据进行筛选;
根据设置致病性中高风险的变异筛选条件,对基因数据进行筛选;
根据设置致病性中高风险的常染色体显性遗传的基因变异筛选条件,对基因数据进行筛选;
根据设置致病性中高风险的常染色体隐性遗传且同一基因的不同变异不少于2个或单一变异是纯合的筛选条件,对基因数据进行筛选;
根据设置致病性中高风险的性连锁遗传的变异筛条件,对基因数据进行筛选;
根据设置致病性中高风险的认为是致病性变异或可疑致病性变异的,或其他可靠的数据库认为变异是有害的筛选条件,对基因数据进行筛选;
所述基因标记模块用于对所述高风险基因筛选模块筛选出的高风险基因进行标记。
4.如权利要求3所述的通量测序变异风险分组筛选系统,其特征在于,所述高风险基因筛选模块设置致病性中高风险的同时HGMD数据库有数据的或ClinVar数据库收录认为是致病性变异或可疑致病性变异。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110275446.5A CN112951329A (zh) | 2021-03-15 | 2021-03-15 | 一种高通量测序变异风险分组筛选方法 |
CN2021102754465 | 2021-03-15 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113793642A true CN113793642A (zh) | 2021-12-14 |
CN113793642B CN113793642B (zh) | 2024-05-07 |
Family
ID=76229788
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110275446.5A Pending CN112951329A (zh) | 2021-03-15 | 2021-03-15 | 一种高通量测序变异风险分组筛选方法 |
CN202111212516.9A Active CN113793642B (zh) | 2021-03-15 | 2021-10-19 | 一种高通量测序变异风险分组筛选方法及系统 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110275446.5A Pending CN112951329A (zh) | 2021-03-15 | 2021-03-15 | 一种高通量测序变异风险分组筛选方法 |
Country Status (1)
Country | Link |
---|---|
CN (2) | CN112951329A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101302563A (zh) * | 2008-07-08 | 2008-11-12 | 上海中优医药高科技有限公司 | 一种多基因疾病遗传风险综合评估方法 |
US20170329893A1 (en) * | 2016-05-09 | 2017-11-16 | Human Longevity, Inc. | Methods of determining genomic health risk |
KR20180125911A (ko) * | 2018-07-02 | 2018-11-26 | 연세대학교 산학협력단 | 차세대서열분석 스크리닝을 통해 발굴한 단일염기다형성에 의한 염증성 장질환의 예측 또는 진단에 관한 정보 제공 방법 |
WO2019016292A1 (en) * | 2017-07-18 | 2019-01-24 | Congenica Ltd | SYSTEM AND METHOD FOR SCREENING AND PRENATAL DIAGNOSIS |
WO2019029807A1 (en) * | 2017-08-09 | 2019-02-14 | King Faisal Specialist Hospital & Research Centre | GENES SET TO IDENTIFY PREDISPOSITION TO HEREDITARY CANCER |
CN109754856A (zh) * | 2018-12-07 | 2019-05-14 | 北京荣之联科技股份有限公司 | 自动生成基因检测报告的方法及装置、电子设备 |
CN110648722A (zh) * | 2019-09-19 | 2020-01-03 | 北京市儿科研究所 | 新生儿遗传病患病风险评估的装置 |
-
2021
- 2021-03-15 CN CN202110275446.5A patent/CN112951329A/zh active Pending
- 2021-10-19 CN CN202111212516.9A patent/CN113793642B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101302563A (zh) * | 2008-07-08 | 2008-11-12 | 上海中优医药高科技有限公司 | 一种多基因疾病遗传风险综合评估方法 |
US20170329893A1 (en) * | 2016-05-09 | 2017-11-16 | Human Longevity, Inc. | Methods of determining genomic health risk |
WO2019016292A1 (en) * | 2017-07-18 | 2019-01-24 | Congenica Ltd | SYSTEM AND METHOD FOR SCREENING AND PRENATAL DIAGNOSIS |
WO2019029807A1 (en) * | 2017-08-09 | 2019-02-14 | King Faisal Specialist Hospital & Research Centre | GENES SET TO IDENTIFY PREDISPOSITION TO HEREDITARY CANCER |
KR20180125911A (ko) * | 2018-07-02 | 2018-11-26 | 연세대학교 산학협력단 | 차세대서열분석 스크리닝을 통해 발굴한 단일염기다형성에 의한 염증성 장질환의 예측 또는 진단에 관한 정보 제공 방법 |
CN109754856A (zh) * | 2018-12-07 | 2019-05-14 | 北京荣之联科技股份有限公司 | 自动生成基因检测报告的方法及装置、电子设备 |
CN110648722A (zh) * | 2019-09-19 | 2020-01-03 | 北京市儿科研究所 | 新生儿遗传病患病风险评估的装置 |
Non-Patent Citations (2)
Title |
---|
JUNG MIN KO等: "A New Integrated Newborn Screening Workflow Can Provide a Shortcut to Differential Diagnosis and Confirmation of Inherited Metabolic Diseases", 《YONSEI MED J.》, vol. 59, no. 5, pages 652 - 661 * |
梁骥: "利用目标捕获高通量测序筛查人类非梗阻性无精子症单核苷酸变异", 《中国博士学位论文全文数据库医药卫生科技辑》, pages 067 - 13 * |
Also Published As
Publication number | Publication date |
---|---|
CN112951329A (zh) | 2021-06-11 |
CN113793642B (zh) | 2024-05-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Matthey-Doret et al. | Computer vision for pattern detection in chromosome contact maps | |
Fromer et al. | Using XHMM software to detect copy number variation in whole‐exome sequencing data | |
Browning et al. | Haplotype phasing: existing methods and new developments | |
Pugh et al. | VisCap: inference and visualization of germ-line copy-number variants from targeted clinical sequencing data | |
Harvey et al. | QuASAR: quantitative allele-specific analysis of reads | |
Tesson et al. | DiffCoEx: a simple and sensitive method to find differentially coexpressed gene modules | |
Barnes et al. | A robust statistical method for case-control association testing with copy number variation | |
Smadbeck et al. | C opy number variant analysis using genome‐wide mate‐pair sequencing | |
WO2020014280A1 (en) | DEEP LEARNING-BASED FRAMEWORK FOR IDENTIFYING SEQUENCE PATTERNS THAT CAUSE SEQUENCE-SPECIFIC ERRORS (SSEs) | |
Merkel et al. | Detecting short tandem repeats from genome data: opening the software black box | |
Wang et al. | Computational resources for ribosome profiling: from database to Web server and software | |
AU2019272065B2 (en) | Deep learning-based framework for identifying sequence patterns that cause sequence-specific errors (SSEs) | |
Barrio-Hernandez et al. | Network expansion of genetic associations defines a pleiotropy map of human cell biology | |
Yao et al. | A comparison of experimental assays and analytical methods for genome-wide identification of active enhancers | |
Hill et al. | A deep learning approach for detecting copy number variation in next-generation sequencing data | |
Gannamani et al. | Challenges in clinicogenetic correlations: one phenotype–many genes | |
Sun et al. | Targeted next-generation sequencing as a comprehensive test for Mendelian diseases: a cohort diagnostic study | |
Al-Khudhair et al. | Inference of distant genetic relations in humans using “1000 genomes” | |
Fremin et al. | Structured RNA contaminants in bacterial Ribo-Seq | |
Gilgenast et al. | Systematic evaluation of statistical methods for identifying looping interactions in 5C data | |
Liu et al. | Joint detection of copy number variations in parent-offspring trios | |
Dann et al. | Precise identification of cell states altered in disease using healthy single-cell references | |
US20030165869A1 (en) | Computer algorithm for automatic allele determination from fluorometer genotyping device | |
Lee et al. | JAX-CNV: A Whole-genome Sequencing-based Algorithm for Copy Number Detection at Clinical Grade Level | |
Kachouie et al. | Discriminant analysis of lung cancer using nonlinear clustering of copy numbers |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |