CN113793642A - 一种高通量测序变异风险分组筛选方法及系统 - Google Patents

一种高通量测序变异风险分组筛选方法及系统 Download PDF

Info

Publication number
CN113793642A
CN113793642A CN202111212516.9A CN202111212516A CN113793642A CN 113793642 A CN113793642 A CN 113793642A CN 202111212516 A CN202111212516 A CN 202111212516A CN 113793642 A CN113793642 A CN 113793642A
Authority
CN
China
Prior art keywords
screening
risk
variation
pathogenicity
setting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111212516.9A
Other languages
English (en)
Other versions
CN113793642B (zh
Inventor
刘洪洲
喻长顺
李冬梅
陈建春
贾晓冬
李行
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Jinyu Medical Laboratory Co ltd
Original Assignee
Tianjin Jinyu Medical Laboratory Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Jinyu Medical Laboratory Co ltd filed Critical Tianjin Jinyu Medical Laboratory Co ltd
Publication of CN113793642A publication Critical patent/CN113793642A/zh
Application granted granted Critical
Publication of CN113793642B publication Critical patent/CN113793642B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Analytical Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Organic Chemistry (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Zoology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Molecular Biology (AREA)
  • Wood Science & Technology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提出了一种高通量测序变异风险分组筛选方法及系统,包括:设置致病性高风险的变异筛选条件,按照致病性高风险的变异筛选条件对基因数据进行筛选;设置致病性高风险的变异及人群频率极低的中风险的变异筛选条件,对基因数据进行筛选;设置致病性中高风险的变异筛选条件,对基因数据进行筛选;设置致病性中高风险的常染色体显性遗传的基因变异筛选条件,对基因数据进行筛选;设置致病性中高风险的常染色体隐性遗传且同一基因的筛选条件,对基因数据进行筛选;设置致病性中高风险的性连锁遗传的变异筛条件,对基因数据进行筛选;设置致病性中高风险的认为是致病性变异或可疑致病性变异的筛选条件,对基因数据进行筛选。

Description

一种高通量测序变异风险分组筛选方法及系统
技术领域
本发明涉及高通量测序技术领域,特别涉及一种高通量测序变异风险分组筛选方法及系统。
背景技术
人类核基因相关疾病按遗传方式可分为常染色体显性遗传病(AD遗传)、常染色体隐性遗传病(AR遗传)和性连锁遗传。应用基因测序技术是寻找疾病基因病因的重要手段。
高通量测序技术(High-Throughput Sequencing)又称为下一代测序技术(Next-Generation Sequencing)是基因测序技术的一种,其典型特点是一次可以检测成千上万个基因,与一代测序即Sanger测序一次只能测几百个碱基相比,通过大大增加,同时会产生大量的数据。将产生的数据通过生物信息学的方法注释,即可产生变异注释表。目前,高通量测序技术应用较广的是全外显子组测序,检测大约2万个基因,每个样本的变异注释表数据大约有6万条。
如此巨大的数据信息,几乎不可能人工逐个位点分析。目前独立实验室通常用的方法是按照特定数据库频率、变异类别等自行定义风险。要么筛选后数据量仍然很大,人员要求极高,工作量非常大,要么筛选条件过于苛刻而使风险较高的变异被滤掉了,进而使检出率降低。有公开专利利用特定样本的表型筛选(专利号:CN202010035599.8),这种筛选方法只能用于特定样本的筛选,特异性高了,但是敏感性降低了。
现有的筛选方法,只是按特定的方式筛选,筛选出来的变异不能兼顾其他方式的筛选,使其他条件下高风险变异漏掉的可能性大大提高,由于不是分组的方式,也无法兼顾其他筛选的逻辑。
发明内容
本发明的目的旨在至少解决所述技术缺陷之一。
为此,本发明的目的在于提出一种高通量测序变异风险分组筛选方法及系统。
为了实现上述目的,本发明的实施例提供一种高通量测序变异风险分组筛选方法,包括:
步骤S1,设置致病性高风险的变异筛选条件,按照所述致病性高风险的变异筛选条件对基因数据进行筛选;
步骤S2,设置致病性高风险的变异及人群频率极低的中风险的变异筛选条件,对基因数据进行筛选;
步骤S3,设置致病性中高风险的变异筛选条件,对基因数据进行筛选;
步骤S4,设置致病性中高风险的常染色体显性遗传的基因变异筛选条件,对基因数据进行筛选;
步骤S5,设置致病性中高风险的常染色体隐性遗传且同一基因的不同变异不少于2个或单一变异是纯合的筛选条件,对基因数据进行筛选;
步骤S6,设置致病性中高风险的性连锁遗传的变异筛条件,对基因数据进行筛选;
步骤S7,设置致病性中高风险的认为是致病性变异或可疑致病性变异的,或其他可靠的数据库认为变异是有害的筛选条件,对基因数据进行筛选;
步骤S8,对筛选出的高风险基因进行标记。
进一步,在所述步骤S7中,设置致病性中高风险的同时HGMD数据库有数据的或ClinVar数据库收录认为是致病性变异或可疑致病性变异。
本发明还提出一种高通量测序变异风险分组筛选系统,包括:筛选条件设置模块、高风险基因筛选模块和基因标记模块,其中,
所述筛选条件设置模块用于设置致病性高风险的变异筛选条件、设置致病性高风险的变异及人群频率极低的中风险的变异筛选条件、设置致病性中高风险的变异筛选条件、设置致病性中高风险的常染色体显性遗传的基因变异筛选条件、设置致病性中高风险的常染色体隐性遗传且同一基因的不同变异不少于2个或单一变异是纯合的筛选条件、设置致病性中高风险的性连锁遗传的变异筛条件,以及设置致病性中高风险的认为是致病性变异或可疑致病性变异的,或其他可靠的数据库认为变异是有害的筛选条件;
所述高风险基因筛选模块用于分别根据所述筛选条件设置模块设置的各类条件执行如下筛选动作,包括:
根据设置致病性高风险的变异筛选条件,按照所述致病性高风险的变异筛选条件对基因数据进行筛选;
根据设置致病性高风险的变异及人群频率极低的中风险的变异筛选条件,对基因数据进行筛选;
根据设置致病性中高风险的变异筛选条件,对基因数据进行筛选;
根据设置致病性中高风险的常染色体显性遗传的基因变异筛选条件,对基因数据进行筛选;
根据设置致病性中高风险的常染色体隐性遗传且同一基因的不同变异不少于2个或单一变异是纯合的筛选条件,对基因数据进行筛选;
根据设置致病性中高风险的性连锁遗传的变异筛条件,对基因数据进行筛选;
根据设置致病性中高风险的认为是致病性变异或可疑致病性变异的,或其他可靠的数据库认为变异是有害的筛选条件,对基因数据进行筛选;
所述基因标记模块用于对所述高风险基因筛选模块筛选出的高风险基因进行标记。
进一步,所述高风险基因筛选模块设置致病性中高风险的同时HGMD数据库有数据的或ClinVar数据库收录认为是致病性变异或可疑致病性变异。
根据本发明实施例的高通量测序变异风险分组筛选方法及系统,设定的逻辑系统性地考虑了整体高通量测序变异有害性的风险、不同遗传方式下变异有害性的风险及现有数据库评估变异有害性的风险,使风险筛选细化,创新性地以分组的形式按不同的条件进行变异风险筛选。与现有的筛选相比,本方案筛选条件更有针对性,兼顾了高特异性与高敏感度减小了分析人员的工作负担,提高了效率。本发明采用分组筛选的方法,从不同的角度进行变异高风险筛选,各组相互兼顾,不但可以快速筛选出组内高风险的变异,还大大降低了高风险变异被过滤掉的风险。分组后,各种逻辑清晰,便于分析人员把控变异是否与受检样本相关。本发明可以实现在2分钟内快速准确的从6万条基因中标记出高风险变异基因,大大提高了效率。
本发明将高通量测序变异注释表数据以组为单位筛选出组内高风险变异,综合考虑了实验室自定义的风险级别是高风险变异、Actionable Variants基因变异、不同的遗传方式高风险变异及有可靠的数据库认为变异是有害的等各种因素,这些因素相互补充,使风险筛选变得更加有针对性同时防止高风险的变异漏掉。对全外显子组测序数据来说,每组筛选出来的变异大约平均在50条左右,由于组间筛选出来的变异可能存在相互重叠,合计起来筛选出来的变异大约在300条左右,同时兼有高特异性与高敏感度,有更高的筛选效率。而对于分析人员来说,在分析时只需要考虑单个组的分析,大大降低了分析人员的工作负担。有一些极高风险的变异会在不同的组出现,使在分析过程漏掉的可能性大大降低。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明实施例的高通量测序变异风险分组筛选方法的流程图;
图2至图8为根据本发明实施例的高通量测序变异风险分组筛选方法的操作界面图;
图9为根据本发明实施例的高通量测序变异风险分组筛选系统的结构图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
本发明提供一种高通量测序变异风险分组形式和分组方法。其中,分组形式是指将高通量测序变异分组考虑进行风险筛选;其二,按七组进行分组。本发明采用分组筛选的方法,从不同的角度进行变异高风险筛选,各组相互兼顾,不但可以快速筛选出组内高风险的变异,还大大降低了高风险变异被过滤掉的风险。分组后,各种逻辑清晰,便于分析人员把控变异是否与受检样本相关。
如图1所示,本发明实施例的高通量测序变异风险分组筛选方法,包括如下步骤:
步骤S1,设置致病性高风险的变异筛选条件,按照所述致病性高风险的变异筛选条件对基因数据进行筛选;
具体的,按以下条件筛选:美国医学遗传学与基因组学学会(ACMG)建议的59个Actionable Variants基因或额外自定义的基因,综合考虑为致病性高风险的变异。(注:缩写为ACT)
步骤S2,设置致病性高风险的变异及人群频率极低的中风险的变异筛选条件,对基因数据进行筛选;
具体的,按以下条件筛选:实验室自定义的综合考虑为致病性高风险的变异及人群频率极低的中风险的变异。(注:缩写为H)。人群频度极低可以根据常见遗传病设置,优选0。
步骤S3,设置致病性中高风险的变异筛选条件,对基因数据进行筛选。
具体的,按以下条件筛选:实验室自定义的综合考虑为致病性中高风险的变异。(注:缩写为M)
步骤S4,设置致病性中高风险的常染色体显性遗传的基因变异筛选条件,对基因数据进行筛选;
具体的,按以下条件筛选:实验室自定义的综合考虑为致病性中高风险的常染色体显性遗传的基因变异。(注:缩写为AD)。
步骤S5,设置致病性中高风险的常染色体隐性遗传且同一基因的不同变异不少于2个或单一变异是纯合的筛选条件,对基因数据进行筛选;
具体的,按以下条件筛选:实验室自定义的综合考虑为致病性中高风险的常染色体隐性遗传且同一基因的不同变异不少于2个或单一变异是纯合的。(注:缩写为AR)。
步骤S6,设置致病性中高风险的性连锁遗传的变异筛条件,对基因数据进行筛选;
具体的,按以下条件筛选:实验室自定义的综合考虑为致病性中高风险的性连锁遗传的变异。(注:缩写为XY)。
步骤S7,设置致病性中高风险的认为是致病性变异或可疑致病性变异的,或其他可靠的数据库认为变异是有害的筛选条件,对基因数据进行筛选;
在所述步骤S7中,设置致病性中高风险的同时HGMD数据库有数据的或ClinVar数据库收录认为是致病性变异或可疑致病性变异。
具体的,按以下条件筛选:实验室自定义的综合考虑为致病性中高风险的同时HGMD数据库有数据的或ClinVar数据库收录认为是致病性变异或可疑致病性变异的,或其他可靠的数据库认为变异是有害的。(注:缩写为CD)。
步骤S8,对筛选出的高风险基因进行标记。
按照本发明的方案对数据进行筛选,详细过程如下:
组1(即ACT),按以下条件筛选:Panel列筛选“ACT”;Risk列筛选“2”。
组2(即H),按合并以下条件筛选:其一是Risk列筛选“2”,fmax列筛选≤0.4[2](为了防止漏检,门槛值调整至0.4);其二是Risk列筛选含有“1”或“1.5”或“2”或“1-potential”项,OMIM列筛选“非空项”,fmax列筛选“0”,class列筛选“missense”或“P-splicingCandidate”或“D-splicing”或“N-ncRNA_splicing/N-ncRNA_exonic”或“N-exonic”或“D-stopgain”或“P-scSNV”或“D-stoploss”或“N-ncRNA_exonic;splicing”或“N-exonic;splicing”或“P-nonframeshift”或“D-frameshift”项。
组3(即M),按以下条件筛选:Risk列筛选“1”或“1.5”或“2”或“1-potential”项,OMIM列筛选“非空项”,0<fmax≦0.001,class列筛选“missense”或“P-splicingCandidate”或“D-splicing”或“N-ncRNA_splicing”或“N-ncRNA_exonic”或“N-exonic”或“D-stopgain”或“P-scSNV”或“D-stoploss”或“N-ncRNA_exonic;splicing”或“N-exonic;splicing”或“P-nonframeshift”或“D-frameshift”项,CLNSIG列筛选“.”或“Conflicting_interpretations_of_pathogenicity\x2c_other”或“association”或“Conflicting_interpretations_of_pathogenicity”或“not_provided”或“drug_response”或“Uncertain_significance”或“Risk_factor”或“protective”或“Affects\x2c_association”或“Likely_pathogenic”或“Affects”或“association\x2c_Risk_factor”或“Pathogenic”或“Pathogenic\x2c_protective”项。
组4(即AD),按以下条件筛选:Risk列筛选“1”或“1.5”或“2”或“1-potential”,OMIM列筛选“AD”,fmax≦0.05[1],class列筛选“missense”或“P-splicingCandidate”或“D-splicing”或“N-ncRNA_splicing”或“N-ncRNA_exonic”或“N-exonic”或“D-stopgain”或“P-scSNV”或“D-stoploss”或“N-ncRNA_exonic;splicing”或“N-exonic;splicing”或“P-nonframeshift”或“D-frameshift”项。
组5(即AR),按合并以下条件筛选:其一是Risk列筛选“1”或“1.5”或“2”或“1-potential项”,OMIM列筛选“AR”,fmax≦0.05,class列筛选“missense”或“P-splicingCandidate”或“D-splicing”或“N-ncRNA_splicing”或“N-ncRNA_exonic”或“N-exonic”或“D-stopgain”或“P-scSNV”或“D-stoploss”或“N-ncRNA_exonic;splicing”或“N-exonic;splicing”或“P-nonframeshift”或“D-frameshift”,前几项筛选后将Gene.refGene项只有一条的项去掉;其二是Risk列筛选“1”或“1.5”或“2”或“1-potential”,OMIM列筛选“AR”,fmax≦0.05,Het/Hom列筛选“Hom”,Chr列筛选不含有“chrX”或“chrY”项。
组6(即XY),按以下条件筛选:Risk列筛选“1”或“1.5”或“2”或“1-potential”,OMIM列筛选非空项,fmax≦0.05,Het/Hom列筛选“Hom”,Chr列筛选“chrX”或“chrY”。
组7(即CD),按合并以下条件筛选:其一是Risk列筛选“1”或“1.5”或“2”或“1-potential”,OMIM列筛选“非空项”,fmax≦0.2,HGMD列筛选“非空项”;Risk列筛选“1”或“1.5”或“2”或“1-potential”,OMIM列筛选“非空项,fmax≦0.2,CLNSIG列筛选“Likely_pathogenic”或“Pathogenic”或“Pathogenic\x2c_protective”。
筛选结果如下表1:
Figure BDA0003309418230000061
Figure BDA0003309418230000071
表1
下面是对照筛选方式,和本发明的方案不同,没有进行分组风险筛选,筛选过程如下:
筛选条件:Risk列筛选“0.5”或“1”或“1.5”或“2”或“1-potential”,fmax≤0.4。由于没有分组,其他筛选条件不适用。
对于筛选条件,本发明方案和对照方案都是单独考虑了高风险,真阳性数相似,故敏感度相似,但是特异性相差较大。若对照方案额外增加筛选条件,会增加假阴性的概率,进而敏感性降低。
具体实施例1:
本实验室全外显子组测序数据一例,检测的变异位点的数量是59559个,生信注释第一行即表头的标识及表头说明如下:
Figure BDA0003309418230000072
Figure BDA0003309418230000081
按照本发明的方案对数据进行筛选,详细过程如下:
组1(即ACT),按以下条件筛选:Panel列筛选“ACT”;Risk列筛选“2”。
组2(即H),按合并以下条件筛选:其一是Risk列筛选“2”,fmax列筛选≤0.4[2](为了防止漏检,门槛值调整至0.4);其二是Risk列筛选含有“1”或“1.5”或“2”或“1-potential”项,OMIM列筛选“非空项”,fmax列筛选“0”,class列筛选“missense”或“P-splicingCandidate”或“D-splicing”或“N-ncRNA_splicing/N-ncRNA_exonic”或“N-exonic”或“D-stopgain”或“P-scSNV”或“D-stoploss”或“N-ncRNA_exonic;splicing”或“N-exonic;splicing”或“P-nonframeshift”或“D-frameshift”项。
组3(即M),按以下条件筛选:Risk列筛选“1”或“1.5”或“2”或“1-potential”项,OMIM列筛选“非空项”,0<fmax≦0.001,class列筛选“missense”或“P-splicingCandidate”或“D-splicing”或“N-ncRNA_splicing”或“N-ncRNA_exonic”或“N-exonic”或“D-stopgain”或“P-scSNV”或“D-stoploss”或“N-ncRNA_exonic;splicing”或“N-exonic;splicing”或“P-nonframeshift”或“D-frameshift”项,CLNSIG列筛选“.”或“Conflicting_interpretations_of_pathogenicity\x2c_other”或“association”或“Conflicting_interpretations_of_pathogenicity”或“not_provided”或“drug_response”或“Uncertain_significance”或“Risk_factor”或“protective”或“Affects\x2c_association”或“Likely_pathogenic”或“Affects”或“association\x2c_Risk_factor”或“Pathogenic”或“Pathogenic\x2c_protective”项。
组4(即AD),按以下条件筛选:Risk列筛选“1”或“1.5”或“2”或“1-potential”,OMIM列筛选“AD”,fmax≦0.05[1],class列筛选“missense”或“P-splicingCandidate”或“D-splicing”或“N-ncRNA_splicing”或“N-ncRNA_exonic”或“N-exonic”或“D-stopgain”或“P-scSNV”或“D-stoploss”或“N-ncRNA_exonic;splicing”或“N-exonic;splicing”或“P-nonframeshift”或“D-frameshift”项。
组5(即AR),按合并以下条件筛选:其一是Risk列筛选“1”或“1.5”或“2”或“1-potential项”,OMIM列筛选“AR”,fmax≦0.05,class列筛选“missense”或“P-splicingCandidate”或“D-splicing”或“N-ncRNA_splicing”或“N-ncRNA_exonic”或“N-exonic”或“D-stopgain”或“P-scSNV”或“D-stoploss”或“N-ncRNA_exonic;splicing”或“N-exonic;splicing”或“P-nonframeshift”或“D-frameshift”,前几项筛选后将Gene.refGene项只有一条的项去掉;其二是Risk列筛选“1”或“1.5”或“2”或“1-potential”,OMIM列筛选“AR”,fmax≦0.05,Het/Hom列筛选“Hom”,Chr列筛选不含有“chrX”或“chrY”项。
组6(即XY),按以下条件筛选:Risk列筛选“1”或“1.5”或“2”或“1-potential”,OMIM列筛选非空项,fmax≦0.05,Het/Hom列筛选“Hom”,Chr列筛选“chrX”或“chrY”。
组7(即CD),按合并以下条件筛选:其一是Risk列筛选“1”或“1.5”或“2”或“1-potential”,OMIM列筛选“非空项”,fmax≦0.2,HGMD列筛选“非空项”;Risk列筛选“1”或“1.5”或“2”或“1-potential”,OMIM列筛选“非空项,fmax≦0.2,CLNSIG列筛选“Likely_pathogenic”或“Pathogenic”或“Pathogenic\x2c_protective”。
筛选结果如下表2:
Figure BDA0003309418230000091
Figure BDA0003309418230000101
表2
下面是对照筛选方式,和本发明方案不同,没有进行分组风险筛选,筛选过程如下:
筛选条件:Risk列筛选“0.5”或“1”或“1.5”或“2”或“1-potential”,fmax≤0.4。由于没有分组,其他筛选条件不适用。
筛选结果如下表3:
原数据条数 对照方法筛选 筛选条数 总筛选条数
59559 筛选项 1719 1719
表3
对于筛选条件,本发明方案和对照方案都是单独考虑了高风险,真阳性数相似,故敏感度相似,但是特异性相差较大。近似比较如下:
本发明方案:假阳性约为0;真阴性=原数据条数-专利方案筛选条数=59269;特异性=真阴性/(假阳性+真阴性)=1
对照方案:由于专利方案与对照方案的真阳性数相似,对照方案的假阳性约为:0+(对照方案筛选条数-专利方案筛选条数)=1429;真阴性=原数据条数-对照筛选条数=57840;特异性=真阴性/(假阳性+真阴性)=97.59%
本发明方案特异性比对照方案的特异性高2.41%
若对照方案额外增加筛选条件,会增加假阴性的概率,进而敏感性降低。
双击打开dist文件夹下的redot.exe可执行文件,如图2所示。页面第一行内容为该软件的说明(说明:redot是由金域公司开发的一款通用的检测高风险变异基因的软件。)。页面第二行提示输入文件所在路径,用户可以在此处输入或粘贴注释文件的路径和文件名,如图3所示。“Enter”后会打印输入的内容以及下一步需要输入的内容,如图4所示。输入基因注释文件的名称(注意:此处文件的名称应与上一步中的名称一致),如图5所示。“Enter”后会打印输入的文件名同时程序开始计算结果,如图6所示。程序运行结束后会自动关闭窗口,生成的文件会放在dist文件夹下,如图7所示。生成文件的命名方式为:文件名称+“.”+“redot”+“.”+“日期”+“.”+“后缀”,如“NP23FW0151.XX.redot.20210125.xlsx”。通过redot软件生成的文件中增加了两列“Fast_analysis”和“Element_analysis”,从59238个基因中标记了322个高风险变异的基因,如图8所示。
如图9所示,本发明实施例还提供一种高通量测序变异风险分组筛选系统,包括:筛选条件设置模块1、高风险基因筛选模块2和基因标记模块3。
具体的,筛选条件设置模块1用于设置致病性高风险的变异筛选条件、设置致病性高风险的变异及人群频率极低的中风险的变异筛选条件、设置致病性中高风险的变异筛选条件、设置致病性中高风险的常染色体显性遗传的基因变异筛选条件、设置致病性中高风险的常染色体隐性遗传且同一基因的不同变异不少于2个或单一变异是纯合的筛选条件、设置致病性中高风险的性连锁遗传的变异筛条件,以及设置致病性中高风险的认为是致病性变异或可疑致病性变异的,或其他可靠的数据库认为变异是有害的筛选条件。
高风险基因筛选模块2用于分别根据筛选条件设置模块1设置的各类条件执行如下筛选动作,包括:
(1)根据设置致病性高风险的变异筛选条件,按照致病性高风险的变异筛选条件对基因数据进行筛选。
具体的,高风险基因筛选模块2按以下条件筛选:美国医学遗传学与基因组学学会(ACMG)建议的59个Actionable Variants基因或额外自定义的基因,综合考虑为致病性高风险的变异。(注:缩写为ACT)
(2)根据设置致病性高风险的变异及人群频率极低的中风险的变异筛选条件,对基因数据进行筛选。
具体的,高风险基因筛选模块2按以下条件筛选:实验室自定义的综合考虑为致病性高风险的变异及人群频率极低的中风险的变异。(注:缩写为H)。人群频度极低可以根据常见遗传病设置,优选0。
(3)根据设置致病性中高风险的变异筛选条件,对基因数据进行筛选。
具体的,高风险基因筛选模块2按以下条件筛选:实验室自定义的综合考虑为致病性中高风险的变异。(注:缩写为M)
(4)根据设置致病性中高风险的常染色体显性遗传的基因变异筛选条件,对基因数据进行筛选。
具体的,高风险基因筛选模块2按以下条件筛选:实验室自定义的综合考虑为致病性中高风险的常染色体显性遗传的基因变异。(注:缩写为AD)。
(5)根据设置致病性中高风险的常染色体隐性遗传且同一基因的不同变异不少于2个或单一变异是纯合的筛选条件,对基因数据进行筛选。
具体的,高风险基因筛选模块2按以下条件筛选:实验室自定义的综合考虑为致病性中高风险的常染色体隐性遗传且同一基因的不同变异不少于2个或单一变异是纯合的。(注:缩写为AR)。
(6)根据设置致病性中高风险的性连锁遗传的变异筛条件,对基因数据进行筛选。
具体的,高风险基因筛选模块2按以下条件筛选:实验室自定义的综合考虑为致病性中高风险的性连锁遗传的变异。(注:缩写为XY)。
(7)根据设置致病性中高风险的认为是致病性变异或可疑致病性变异的,或其他可靠的数据库认为变异是有害的筛选条件,对基因数据进行筛选。
具体的,高风险基因筛选模块2设置致病性中高风险的同时HGMD数据库有数据的或ClinVar数据库收录认为是致病性变异或可疑致病性变异。
基因标记模块3用于对高风险基因筛选模块筛选出的高风险基因进行标记。
在本发明的实施例中,高风险基因筛选模块2设置致病性中高风险的同时HGMD数据库有数据的或ClinVar数据库收录认为是致病性变异或可疑致病性变异。
根据本发明实施例的高通量测序变异风险分组筛选方法及系统,设定的逻辑系统性地考虑了整体高通量测序变异有害性的风险、不同遗传方式下变异有害性的风险及现有数据库评估变异有害性的风险,使风险筛选细化,创新性地以分组的形式按不同的条件进行变异风险筛选。与现有的筛选相比,本方案筛选条件更有针对性,兼顾了高特异性与高敏感度减小了分析人员的工作负担,提高了效率。本发明采用分组筛选的方法,从不同的角度进行变异高风险筛选,各组相互兼顾,不但可以快速筛选出组内高风险的变异,还大大降低了高风险变异被过滤掉的风险。分组后,各种逻辑清晰,便于分析人员把控变异是否与受检样本相关。本发明可以实现在2分钟内快速准确的从6万条基因中标记出高风险变异基因,大大提高了效率。
本发明将高通量测序变异注释表数据以组为单位筛选出组内高风险变异,综合考虑了实验室自定义的风险级别是高风险变异、Actionable Variants基因变异、不同的遗传方式高风险变异及有可靠的数据库认为变异是有害的等各种因素,这些因素相互补充,使风险筛选变得更加有针对性同时防止高风险的变异漏掉。对全外显子组测序数据来说,每组筛选出来的变异大约平均在50条左右,由于组间筛选出来的变异可能存在相互重叠,合计起来筛选出来的变异大约在300条左右,同时兼有高特异性与高敏感度,有更高的筛选效率。而对于分析人员来说,在分析时只需要考虑单个组的分析,大大降低了分析人员的工作负担。有一些极高风险的变异会在不同的组出现,使在分析过程漏掉的可能性大大降低。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。本发明的范围由所附权利要求及其等同限定。

Claims (4)

1.一种高通量测序变异风险分组筛选方法,其特征在于,包括如下步骤:
步骤S1,设置致病性高风险的变异筛选条件,按照所述致病性高风险的变异筛选条件对基因数据进行筛选;
步骤S2,设置致病性高风险的变异及人群频率极低的中风险的变异筛选条件,对基因数据进行筛选;
步骤S3,设置致病性中高风险的变异筛选条件,对基因数据进行筛选;
步骤S4,设置致病性中高风险的常染色体显性遗传的基因变异筛选条件,对基因数据进行筛选;
步骤S5,设置致病性中高风险的常染色体隐性遗传且同一基因的不同变异不少于2个或单一变异是纯合的筛选条件,对基因数据进行筛选;
步骤S6,设置致病性中高风险的性连锁遗传的变异筛条件,对基因数据进行筛选;
步骤S7,设置致病性中高风险的认为是致病性变异或可疑致病性变异的,或其他可靠的数据库认为变异是有害的筛选条件,对基因数据进行筛选;
步骤S8,对筛选出的高风险基因进行标记。
2.如权利要求1所述的高通量测序变异风险分组筛选方法,其特征在于,在所述步骤S7中,设置致病性中高风险的同时HGMD数据库有数据的或Cl inVar数据库收录认为是致病性变异或可疑致病性变异。
3.一种高通量测序变异风险分组筛选系统,其特征在于,包括:筛选条件设置模块、高风险基因筛选模块和基因标记模块,其中,
所述筛选条件设置模块用于设置致病性高风险的变异筛选条件、设置致病性高风险的变异及人群频率极低的中风险的变异筛选条件、设置致病性中高风险的变异筛选条件、设置致病性中高风险的常染色体显性遗传的基因变异筛选条件、设置致病性中高风险的常染色体隐性遗传且同一基因的不同变异不少于2个或单一变异是纯合的筛选条件、设置致病性中高风险的性连锁遗传的变异筛条件,以及设置致病性中高风险的认为是致病性变异或可疑致病性变异的,或其他可靠的数据库认为变异是有害的筛选条件;
所述高风险基因筛选模块用于分别根据所述筛选条件设置模块设置的各类条件执行如下筛选动作,包括:
根据设置致病性高风险的变异筛选条件,按照所述致病性高风险的变异筛选条件对基因数据进行筛选;
根据设置致病性高风险的变异及人群频率极低的中风险的变异筛选条件,对基因数据进行筛选;
根据设置致病性中高风险的变异筛选条件,对基因数据进行筛选;
根据设置致病性中高风险的常染色体显性遗传的基因变异筛选条件,对基因数据进行筛选;
根据设置致病性中高风险的常染色体隐性遗传且同一基因的不同变异不少于2个或单一变异是纯合的筛选条件,对基因数据进行筛选;
根据设置致病性中高风险的性连锁遗传的变异筛条件,对基因数据进行筛选;
根据设置致病性中高风险的认为是致病性变异或可疑致病性变异的,或其他可靠的数据库认为变异是有害的筛选条件,对基因数据进行筛选;
所述基因标记模块用于对所述高风险基因筛选模块筛选出的高风险基因进行标记。
4.如权利要求3所述的通量测序变异风险分组筛选系统,其特征在于,所述高风险基因筛选模块设置致病性中高风险的同时HGMD数据库有数据的或ClinVar数据库收录认为是致病性变异或可疑致病性变异。
CN202111212516.9A 2021-03-15 2021-10-19 一种高通量测序变异风险分组筛选方法及系统 Active CN113793642B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110275446.5A CN112951329A (zh) 2021-03-15 2021-03-15 一种高通量测序变异风险分组筛选方法
CN2021102754465 2021-03-15

Publications (2)

Publication Number Publication Date
CN113793642A true CN113793642A (zh) 2021-12-14
CN113793642B CN113793642B (zh) 2024-05-07

Family

ID=76229788

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202110275446.5A Pending CN112951329A (zh) 2021-03-15 2021-03-15 一种高通量测序变异风险分组筛选方法
CN202111212516.9A Active CN113793642B (zh) 2021-03-15 2021-10-19 一种高通量测序变异风险分组筛选方法及系统

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202110275446.5A Pending CN112951329A (zh) 2021-03-15 2021-03-15 一种高通量测序变异风险分组筛选方法

Country Status (1)

Country Link
CN (2) CN112951329A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101302563A (zh) * 2008-07-08 2008-11-12 上海中优医药高科技有限公司 一种多基因疾病遗传风险综合评估方法
US20170329893A1 (en) * 2016-05-09 2017-11-16 Human Longevity, Inc. Methods of determining genomic health risk
KR20180125911A (ko) * 2018-07-02 2018-11-26 연세대학교 산학협력단 차세대서열분석 스크리닝을 통해 발굴한 단일염기다형성에 의한 염증성 장질환의 예측 또는 진단에 관한 정보 제공 방법
WO2019016292A1 (en) * 2017-07-18 2019-01-24 Congenica Ltd SYSTEM AND METHOD FOR SCREENING AND PRENATAL DIAGNOSIS
WO2019029807A1 (en) * 2017-08-09 2019-02-14 King Faisal Specialist Hospital & Research Centre GENES SET TO IDENTIFY PREDISPOSITION TO HEREDITARY CANCER
CN109754856A (zh) * 2018-12-07 2019-05-14 北京荣之联科技股份有限公司 自动生成基因检测报告的方法及装置、电子设备
CN110648722A (zh) * 2019-09-19 2020-01-03 北京市儿科研究所 新生儿遗传病患病风险评估的装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101302563A (zh) * 2008-07-08 2008-11-12 上海中优医药高科技有限公司 一种多基因疾病遗传风险综合评估方法
US20170329893A1 (en) * 2016-05-09 2017-11-16 Human Longevity, Inc. Methods of determining genomic health risk
WO2019016292A1 (en) * 2017-07-18 2019-01-24 Congenica Ltd SYSTEM AND METHOD FOR SCREENING AND PRENATAL DIAGNOSIS
WO2019029807A1 (en) * 2017-08-09 2019-02-14 King Faisal Specialist Hospital & Research Centre GENES SET TO IDENTIFY PREDISPOSITION TO HEREDITARY CANCER
KR20180125911A (ko) * 2018-07-02 2018-11-26 연세대학교 산학협력단 차세대서열분석 스크리닝을 통해 발굴한 단일염기다형성에 의한 염증성 장질환의 예측 또는 진단에 관한 정보 제공 방법
CN109754856A (zh) * 2018-12-07 2019-05-14 北京荣之联科技股份有限公司 自动生成基因检测报告的方法及装置、电子设备
CN110648722A (zh) * 2019-09-19 2020-01-03 北京市儿科研究所 新生儿遗传病患病风险评估的装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JUNG MIN KO等: "A New Integrated Newborn Screening Workflow Can Provide a Shortcut to Differential Diagnosis and Confirmation of Inherited Metabolic Diseases", 《YONSEI MED J.》, vol. 59, no. 5, pages 652 - 661 *
梁骥: "利用目标捕获高通量测序筛查人类非梗阻性无精子症单核苷酸变异", 《中国博士学位论文全文数据库医药卫生科技辑》, pages 067 - 13 *

Also Published As

Publication number Publication date
CN112951329A (zh) 2021-06-11
CN113793642B (zh) 2024-05-07

Similar Documents

Publication Publication Date Title
Matthey-Doret et al. Computer vision for pattern detection in chromosome contact maps
Fromer et al. Using XHMM software to detect copy number variation in whole‐exome sequencing data
Browning et al. Haplotype phasing: existing methods and new developments
Pugh et al. VisCap: inference and visualization of germ-line copy-number variants from targeted clinical sequencing data
Harvey et al. QuASAR: quantitative allele-specific analysis of reads
Tesson et al. DiffCoEx: a simple and sensitive method to find differentially coexpressed gene modules
Barnes et al. A robust statistical method for case-control association testing with copy number variation
Smadbeck et al. C opy number variant analysis using genome‐wide mate‐pair sequencing
WO2020014280A1 (en) DEEP LEARNING-BASED FRAMEWORK FOR IDENTIFYING SEQUENCE PATTERNS THAT CAUSE SEQUENCE-SPECIFIC ERRORS (SSEs)
Merkel et al. Detecting short tandem repeats from genome data: opening the software black box
Wang et al. Computational resources for ribosome profiling: from database to Web server and software
AU2019272065B2 (en) Deep learning-based framework for identifying sequence patterns that cause sequence-specific errors (SSEs)
Barrio-Hernandez et al. Network expansion of genetic associations defines a pleiotropy map of human cell biology
Yao et al. A comparison of experimental assays and analytical methods for genome-wide identification of active enhancers
Hill et al. A deep learning approach for detecting copy number variation in next-generation sequencing data
Gannamani et al. Challenges in clinicogenetic correlations: one phenotype–many genes
Sun et al. Targeted next-generation sequencing as a comprehensive test for Mendelian diseases: a cohort diagnostic study
Al-Khudhair et al. Inference of distant genetic relations in humans using “1000 genomes”
Fremin et al. Structured RNA contaminants in bacterial Ribo-Seq
Gilgenast et al. Systematic evaluation of statistical methods for identifying looping interactions in 5C data
Liu et al. Joint detection of copy number variations in parent-offspring trios
Dann et al. Precise identification of cell states altered in disease using healthy single-cell references
US20030165869A1 (en) Computer algorithm for automatic allele determination from fluorometer genotyping device
Lee et al. JAX-CNV: A Whole-genome Sequencing-based Algorithm for Copy Number Detection at Clinical Grade Level
Kachouie et al. Discriminant analysis of lung cancer using nonlinear clustering of copy numbers

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant