CN107229841A - 一种基因变异评估方法及系统 - Google Patents

一种基因变异评估方法及系统 Download PDF

Info

Publication number
CN107229841A
CN107229841A CN201710378155.2A CN201710378155A CN107229841A CN 107229841 A CN107229841 A CN 107229841A CN 201710378155 A CN201710378155 A CN 201710378155A CN 107229841 A CN107229841 A CN 107229841A
Authority
CN
China
Prior art keywords
mutational site
frequency
mutation
threshold value
frequency threshold
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710378155.2A
Other languages
English (en)
Other versions
CN107229841B (zh
Inventor
刘晶星
赵薇薇
孙明明
喻长顺
胡昌明
刘圣艳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CHONGQING KINGMED DIAGNOSTICS Co Ltd
Original Assignee
CHONGQING KINGMED DIAGNOSTICS Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CHONGQING KINGMED DIAGNOSTICS Co Ltd filed Critical CHONGQING KINGMED DIAGNOSTICS Co Ltd
Priority to CN201710378155.2A priority Critical patent/CN107229841B/zh
Publication of CN107229841A publication Critical patent/CN107229841A/zh
Application granted granted Critical
Publication of CN107229841B publication Critical patent/CN107229841B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种基因变异评估方法,其包括以下步骤:获取待评估样本的高通量测序数据;将所述高通量测序数据与参考序列比对,获取所述高通量测序数据中的突变位点,并判断所述突变位点是否为LOF,获取第一判断结果;根据疾病数据库中的信息,判断所述突变位点是否收录于所述疾病数据库中,获取第二判断结果;根据群体遗传数据库中的信息,判断所述突变位点是否收录于所述群体遗传数据库中,获取第三判断结果;并在所述第三判断结果为收录时获取所述突变位点的突变频率;根据所述第一判断结果、第二判断结果、第三判断结果以及突变频率,得到所述突变位点的致病风险评估结果。本发明还公开了一种基因变异评估系统。本发明的基因变异评估方法及系统具有操作简便、高效、节省时间、应用性较强等优势。

Description

一种基因变异评估方法及系统
技术领域
本发明属于生物信息学领域,尤其涉及一种基因变异评估方法及系统。
背景技术
在临床高通量测序实验室中,每一个样本测序的结果都是数以千计甚至上万的基因变异位点。针对这些位点,已有一个广泛应用、广被接受的指南——《美国ACMG协会关于基因变异临床解读的指南(2015)》。但是,该指南的应用评估体系非常复杂,使得手工分析一个病人的结果都会消耗大量的时间。目前还缺乏一种高效的变异位点评估方法及系统。
发明内容
一方面,本发明的目的在于克服现有技术存在的不足之处而提供了一种基因变异评估方法,本发明的基因变异评估方法可以节省大量的时间。
本发明采用的技术方案为:一种基因变异评估方法,包括以下步骤:
获取待评估样本的高通量测序数据;
将所述高通量测序数据与参考序列比对,获取所述高通量测序数据中的突变位点,并判断所述突变位点是否为LOF,获取第一判断结果;
根据疾病数据库中的信息,判断所述突变位点是否收录于所述疾病数据库中,获取第二判断结果;
根据群体遗传数据库中的信息,判断所述突变位点是否收录于所述群体遗传数据库中,获取第三判断结果;并在所述第三判断结果为收录时获取所述突变位点的突变频率;
根据所述第一判断结果、第二判断结果、第三判断结果以及突变频率,得到所述突变位点的致病风险评估结果。
作为对上述技术方案的进一步改进,所述根据所述第一判断结果、第二判断结果、第三判断结果以及突变频率,得到所述突变位点的致病风险评估结果的步骤包括:
当所述第一判断结果为所述突变位点为LOF,或所述第二判断结果为所述突变位点收录于所述疾病数据库中,所述第三判断结果为所述突变位点收录于所述群体遗传数据库中时,将所述突变位点的突变频率与预置的第一频率阈值比较,获取第一比较结果;
当所述第一判断结果为所述突变位点不为LOF且所述第二判断结果为所述突变位点未收录于所述疾病数据库中,所述第三判断结果为所述突变位点收录于所述群体遗传数据库中时,将所述突变位点的突变频率与预置的第二频率阈值比较,获取第二比较结果;
当所述第一比较结果为所述突变位点的突变频率高于或等于预置的第一频率阈值时,得到所述突变位点的致病风险评估结果为中风险位点;
当所述第一比较结果为所述突变位点的突变频率低于预置的第一频率阈值时,得到所述突变位点的致病风险评估结果为高风险位点;
当所述第二比较结果为所述突变位点的突变频率高于或等于预置的第二频率阈值时,得到所述突变位点的致病风险评估结果为低风险位点;
当所述第二比较结果为所述突变位点的突变频率低于预置的第二频率阈值时,得到所述突变位点的致病风险评估结果为中风险位点;
其中,所述第二频率阈值低于所述第一频率阈值。
作为对上述技术方案的进一步改进,所述根据所述第一判断结果、第二判断结果、第三判断结果以及突变频率,得到所述突变位点的致病风险评估结果的步骤进一步包括:
根据所述第一比较结果、第二比较结果以及突变频率,按照预设评分规则对所述突变位点进行评分;其中,所述预设评分规则包括:
当所述第一比较结果为所述突变位点的突变频率高于或等于预置的第一频率阈值时,所述评分为0.5~1.5分;
当所述第一比较结果为所述突变位点的突变频率低于预置的第一频率阈值时,所述评分为2分;
当所述第二比较结果为所述突变位点的突变频率高于或等于预置的第二频率阈值时,所述评分为0分;
当所述第二比较结果为所述突变位点的突变频率低于预置的第二频率阈值,所述评分为1分;
其中,当所述评分为0时,表示所述突变位点的致病风险评估结果为低风险位点,当所述评分为0.5~1.5时,表示所述突变位点的致病风险评估结果为中风险位点,当所述评分为2时,表示所述突变位点的致病风险评估结果为高风险位点。
作为对上述技术方案的进一步改进,所述当所述第一比较结果为所述突变位点的突变频率高于或等于预置的第一频率阈值时,所述评分为0.5~1.5分,具体包括:
当所述第一比较结果为所述突变位点的突变频率高于或等于预置的第一频率阈值时,将所述突变位点的突变频率与预置的第三频率阈值比较,获取第三比较结果,所述第三频率阈值高于所述第一频率阈值;
当所述第三比较结果为所述突变位点的突变频率低于预置的第三频率阈值时,所述评分为1.5分;
当所述第一比较结果为所述突变位点的突变频率高于或等于预置的第三频率阈值时,所述评分为0.5分。
作为对上述技术方案的进一步改进,所述疾病数据库选自:HGMD、ClinVar和OMIM。
作为对上述技术方案的进一步改进,所述群体遗传数据库选自:1000G、ESP6500、KMTD、ExAC、gnomAD和EVS。
作为对上述技术方案的进一步改进,所述群体遗传数据库选自:1000G、ESP6500、KMTD、ExAC和gnomAD;其中,
当所述数据库为1000G时,所述第一频率阈值为2%,所述第二频率阈值为1%;
当所述数据库为ESP6500时,所述第一频率阈值为2%,所述第二频率阈值为1%;
当所述数据库为KMTD时,所述第一频率阈值为4%,所述第二频率阈值为2%;
当所述数据库为ExAC时,所述第一频率阈值为4%,所述第二频率阈值为2%;
当所述数据库为gnomAD时,所述第一频率阈值为4%,所述第二频率阈值为2%。
作为对上述技术方案的进一步改进,所述比对利用高通量测序数据比对软件进行,所述高通量测序数据比对软件包括:BWA、MAQ、SOAP2和Bowtie2。
作为对上述技术方案的进一步改进,所述获取所述高通量测序数据中的突变位点包括:寻找待评估样本的高通量测序数据与参考序列的差异,识别突变位点,并对所述变异位点进行功能注释。
作为对上述技术方案的进一步改进,识别突变位点使用GATK软件进行,功能注释使用annovar软件进行。
另一方面,本发明还提供了一种基因变异评估系统,其包括:
高通量测序数据获取模块,用于获取待评估样本的高通量测序数据;
突变位点获取模块,用于将所述高通量测序数据与参考序列比对,获取所述高通量测序数据中的突变位点,并判断所述突变位点是否为LOF,获取第一判断结果;
第二判断结果获取模块,用于根据疾病数据库中的信息,判断所述突变位点是否收录于所述疾病数据库中,获取第二判断结果;
第三判断结果获取模块,用于根据群体遗传数据库中的信息,判断所述突变位点是否收录于所述群体遗传数据库中,获取第三判断结果;并在所述第三判断结果为收录时获取所述突变位点的突变频率;
致病风险评估模块,用于根据所述第一判断结果、第二判断结果、第三判断结果以及突变频率,得到所述突变位点的致病风险评估结果。
作为对上述技术方案的进一步改进,所述致病风险评估模块具体用于:
当所述第一判断结果为所述突变位点为LOF,或所述第二判断结果为所述突变位点收录于所述疾病数据库中,所述第三判断结果为所述突变位点收录于所述群体遗传数据库中时,将所述突变位点的突变频率与预置的第一频率阈值比较,获取第一比较结果;
当所述第一判断结果为所述突变位点不为LOF且所述第二判断结果为所述突变位点未收录于所述疾病数据库中,所述第三判断结果为所述突变位点收录于所述群体遗传数据库中时,将所述突变位点的突变频率与预置的第二频率阈值比较,获取第二比较结果;
当所述第一比较结果为所述突变位点的突变频率高于或等于预置的第一频率阈值时,得到所述突变位点的致病风险评估结果为中风险位点;
当所述第一比较结果为所述突变位点的突变频率低于预置的第一频率阈值时,得到所述突变位点的致病风险评估结果为高风险位点;
当所述第二比较结果为所述突变位点的突变频率高于或等于预置的第二频率阈值时,得到所述突变位点的致病风险评估结果为低风险位点;
当所述第二比较结果为所述突变位点的突变频率低于预置的第二频率阈值时,得到所述突变位点的致病风险评估结果为中风险位点;
其中,所述第二频率阈值低于所述第一频率阈值。
相对于现有技术,本发明的有益效果为:
本发明的基因变异评估方法及系统适用于高通量测序结果的分析解读,其具有操作简便、高效、节省时间、应用性较强等优势,可用于临床诊断等。
附图说明
图1为本发明的基因变异评估方法的基本流程示意图;
图2为本发明的基因变异评估系统的基本结构框图;
图3为实施例1中经过ANNOVAR软件处理的高通量测序数据示例图;
图4为实施例1中输出结果示例图。
具体实施方式
如图1所示,其为根据本发明的基因变异评估方法的基本流程示意图,该方法包括以下步骤:
S100:获取待评估样本的高通量测序数据;
其中,高通量测序数据可通过测序平台获取,例如Illumina公司的Hisq2000/2500测序平台、Life Technologies公司的Ion Torrent平台和单分子测序平台,测序方式可以选择单端测序,也可以选择双末端测序。
S200:将所述高通量测序数据与参考序列比对,获取所述高通量测序数据中的突变位点,并判断所述突变位点是否为LOF,获取第一判断结果;
其中,所述比对可以利用已知的高通量测序数据比对软件进行,包括但不限于BWA、MAQ、SOAP2和Bowtie2。所述突变位点包括SNP和INDEL。在一个优选的实施例中,所述获取所述高通量测序数据中的突变位点包括:寻找待评估样本的高通量测序数据与参考序列的差异,识别突变位点,并对所述变异位点进行功能注释。进一步地,识别突变位点使用GATK软件进行,功能注释使用annovar软件进行,功能注释后可得一个易于理解的突变位点信息列表(如图3所示)。根据获取的突变位点信息,即可判断所述突变位点是否为LOF。LOF即loss of function mutation,包括Stopgain;Stoploss;frameshift;splicing。
S300:根据疾病数据库中的信息,判断所述突变位点是否收录于所述疾病数据库中,获取第二判断结果;
其中,疾病数据库主要包含病患中发现的变异以及对其致病性的评估,所述疾病数据库选自:HGMD、ClinVar和OMIM。为了增加风险评估的准确性,优选地,所述疾病数据库包括HGMD和ClinVar。显然,所述第二判断结果有两个:其一是所述突变位点收录于所述疾病数据库中,其二是所述突变位点未收录于所述疾病数据库中。
S400:根据群体遗传数据库中的信息,判断所述突变位点是否收录于所述群体遗传数据库中,获取第三判断结果;并在所述第三判断结果为收录时获取所述突变位点的突变频率;
其中,群体遗传数据库适用于获取某变异在大规模人群中发生频率的相关信息,所述群体遗传数据库选自:1000G、ESP6500、KMTD、ExAC、gnomAD和EVS。为了增加风险评估的准确性,优选地,所述群体遗传数据库包括:1000G、ESP6500、KMTD、ExAC和gnomAD。显然,所述第三判断结果有两个:其一是所述突变位点收录于所述群体遗传数据库中,其二是所述突变位点未收录于所述群体遗传数据库中。所述突变频率是指群体内发生某种突变的细胞和个体数的比例,其值可在群体遗传数据库中获取。
S500:根据所述第一判断结果、第二判断结果、第三判断结果以及突变频率,得到所述突变位点的致病风险评估结果。
具体地,S500步骤包括:当所述第一判断结果为所述突变位点为LOF,或所述第二判断结果为所述突变位点收录于所述疾病数据库中,所述第三判断结果为所述突变位点收录于所述群体遗传数据库中时,将所述突变位点的突变频率与预置的第一频率阈值比较,获取第一比较结果;
当所述第一判断结果为所述突变位点不为LOF且所述第二判断结果为所述突变位点未收录于所述疾病数据库中,所述第三判断结果为所述突变位点收录于所述群体遗传数据库中时,将所述突变位点的突变频率与预置的第二频率阈值比较,获取第二比较结果;
当所述第一比较结果为所述突变位点的突变频率高于或等于预置的第一频率阈值时,得到所述突变位点的致病风险评估结果为中风险位点;
当所述第一比较结果为所述突变位点的突变频率低于预置的第一频率阈值时,得到所述突变位点的致病风险评估结果为高风险位点;
当所述第二比较结果为所述突变位点的突变频率高于或等于预置的第二频率阈值时,得到所述突变位点的致病风险评估结果为低风险位点;
当所述第二比较结果为所述突变位点的突变频率低于预置的第二频率阈值时,得到所述突变位点的致病风险评估结果为中风险位点;
其中,所述第二频率阈值低于所述第一频率阈值。
在一个优选的实施例中,所述第一频率阈值为所述第二频率阈值的2~3倍,更优选为2倍。
优选地,S500步骤进一步包括:
根据所述第一比较结果、第二比较结果以及突变频率,按照预设评分规则对所述突变位点进行评分;其中,所述预设评分规则包括:
当所述第一比较结果为所述突变位点的突变频率高于或等于预置的第一频率阈值时,所述评分为0.5~1.5分;
当所述第一比较结果为所述突变位点的突变频率低于预置的第一频率阈值时,所述评分为2分;
当所述第二比较结果为所述突变位点的突变频率高于或等于预置的第二频率阈值时,所述评分为0分;
当所述第二比较结果为所述突变位点的突变频率低于预置的第二频率阈值,所述评分为1分;
其中,当所述评分为0时,表示所述突变位点的致病风险评估结果为低风险位点,当所述评分为0.5~1.5时,表示所述突变位点的致病风险评估结果为中风险位点,当所述评分为2时,表示所述突变位点的致病风险评估结果为高风险位点。可见,评分分值越高,意味着突变位点的致病风险性越高。
进一步地,所述当所述第一比较结果为所述突变位点的突变频率高于或等于预置的第一频率阈值时,所述评分为0.5~1.5分,具体包括:
当所述第一比较结果为所述突变位点的突变频率高于或等于预置的第一频率阈值时,将所述突变位点的突变频率与预置的第三频率阈值比较,获取第三比较结果,所述第三频率阈值高于所述第一频率阈值;
当所述第三比较结果为所述突变位点的突变频率低于预置的第三频率阈值时,所述评分为1.5分;
当所述第一比较结果为所述突变位点的突变频率高于或等于预置的第三频率阈值时,所述评分为0.5分。
在一个优选的实施例中,所述第三频率阈值为所述第一频率阈值的4~6倍。
为了提高评估的准确性,进一步地,当所述数据库为1000G时,所述第一频率阈值为2%,所述第二频率阈值为1%,所述第三频率为10%;当所述数据库为ESP6500时,所述第一频率阈值为2%,所述第二频率阈值为1%,所述第三频率阈值为10%;当所述数据库为KMTD时,所述第一频率阈值为4%,所述第二频率阈值为2%,所述第三频率阈值为20%;当所述数据库为ExAC时,所述第一频率阈值为4%,所述第二频率阈值为2%,所述第三频率阈值为20%;当所述数据库为gnomAD时,所述第一频率阈值为4%,所述第二频率阈值为2%,所述第三频率阈值为20%。
以上所述的低风险位点是风险最低的位点,预示着致病的可能性极低,但不排除疾病风险相关位点。中风险位点的疾病风险介于低风险位点与高风险位点之间,大多数中风险位点的变异实际都是良性的;高风险位点是风险最高的位点,这些位点有显而易见的证据支持其致病性(例如疾病数据库有收录,或者是LOF突变);但高风险位点的变异并非都是病理性的。根据ACMG指南,还需要结合其他证据才能判断变异的致病性。
如图2所示,本发明的实施例还提供了一种基因变异评估系统,其包括:高通量测序数据获取模块100、突变位点获取模块200、第一判断结果获取模块300、第二判断结果获取模块400和致病风险评估模块500,其中,
高通量测序数据获取模块100,用于获取待评估样本的高通量测序数据;
突变位点获取模块200,用于将所述高通量测序数据与参考序列比对,获取所述高通量测序数据中的突变位点,并判断所述突变位点是否为LOF,获取第一判断结果;
第二判断结果获取模块300,用于根据疾病数据库中的信息,判断所述突变位点是否收录于所述疾病数据库中,获取第二判断结果;
第三判断结果获取模块400,用于根据群体遗传数据库中的信息,判断所述突变位点是否收录于所述群体遗传数据库中,获取第三判断结果;并在所述第三判断结果为收录时获取所述突变位点的突变频率;
致病风险评估模块500,用于根据所述第一判断结果、第二判断结果、第三判断结果以及突变频率,得到所述突变位点的致病风险评估结果并输出。
进一步地,致病风险评估模块500具体用于:
当所述第一判断结果为所述突变位点为LOF,或所述第二判断结果为所述突变位点收录于所述疾病数据库中,所述第三判断结果为所述突变位点收录于所述群体遗传数据库中时,将所述突变位点的突变频率与预置的第一频率阈值比较,获取第一比较结果;
当所述第一判断结果为所述突变位点不为LOF且所述第二判断结果为所述突变位点未收录于所述疾病数据库中,所述第三判断结果为所述突变位点收录于所述群体遗传数据库中时,将所述突变位点的突变频率与预置的第二频率阈值比较,获取第二比较结果;
当所述第一比较结果为所述突变位点的突变频率高于或等于预置的第一频率阈值时,得到并输出所述突变位点的致病风险评估结果为中风险位点;
当所述第一比较结果为所述突变位点的突变频率低于预置的第一频率阈值时,得到并输出所述突变位点的致病风险评估结果为高风险位点;
当所述第二比较结果为所述突变位点的突变频率高于或等于预置的第二频率阈值时,得到并输出所述突变位点的致病风险评估结果为低风险位点;
当所述第二比较结果为所述突变位点的突变频率低于预置的第二频率阈值时,得到所述突变位点的致病风险评估结果为中风险位点;
其中,所述第二频率阈值低于所述第一频率阈值。
在一个优选的实施例中,所述第一频率阈值为所述第二频率阈值的2~3倍,更优选为2倍。
进一步地,所述致病风险评估模块500还用于根据所述第一比较结果、第二比较结果以及突变频率,按照预设评分规则对所述突变位点进行评分;其中,所述预设评分规则包括:
当所述第一比较结果为所述突变位点的突变频率高于或等于预置的第一频率阈值时,所述评分为0.5~1.5分;
当所述第一比较结果为所述突变位点的突变频率低于预置的第一频率阈值时,所述评分为2分;
当所述第二比较结果为所述突变位点的突变频率高于或等于预置的第二频率阈值时,所述评分为0分;
当所述第二比较结果为所述突变位点的突变频率低于预置的第二频率阈值,所述评分为1分;
根据所述评分得到所述突变位点的致病风险评估结果;其中,当所述评分为0时,表示所述突变位点的致病风险评估结果为低风险位点,当所述评分为0.5~1.5时,表示所述突变位点的致病风险评估结果为中风险位点,当所述评分为2时,表示所述突变位点的致病风险评估结果为高风险位点。
进一步地,所述当所述第一比较结果为所述突变位点的突变频率高于或等于预置的第一频率阈值时,所述评分为0.5~1.5分,具体包括:
当所述第一比较结果为所述突变位点的突变频率高于或等于预置的第一频率阈值时,将所述突变位点的突变频率与预置的第三频率阈值比较,获取第三比较结果,所述第三频率阈值高于所述第一频率阈值;
当所述第三比较结果为所述突变位点的突变频率低于预置的第三频率阈值时,所述评分为1.5分;
当所述第一比较结果为所述突变位点的突变频率高于或等于预置的第三频率阈值时,所述评分为0.5分。
在一个优选的实施例中,所述第三频率阈值为所述第一频率阈值的4~6倍。
需要说明的是,本发明的方法和系统适用于疑似遗传(主要指孟德尔遗传)疾病患者的变异,并不适用于体细胞变异、药物基因组变异或多基因孟德尔复杂疾病相关的基因变异。
为更好的说明本发明的目的、技术方案和优点,下面将结合具体实施例对本发明作进一步说明。
实施例1
一种基因变异评估方法,具体包括以下步骤:
(1)获取待评估样本的高通量测序数据;
(2)利用BWA软件把待评估样本的高通量测序数据与参考基因组进行比对,使用GATK软件寻找测序数据与参考基因组的差异,识别突变位点,并利用annovar软件对所述变异位点进行功能注释,得到一个易于理解的突变位点信息列表(如图3所示);根据突变位点信息,判断所述突变位点是否为LOF,获取第一判断结果;
(3)根据疾病数据库HGMD和ClinVar中的信息,判断所述突变位点是否收录于所述疾病数据库中,获取第二判断结果;
(4)根据群体遗传数据库1000G、ESP6500、KMTD、ExAC和gnomAD中的信息,判断所述突变位点是否收录于所述群体遗传数据库中,获取第三判断结果;并在所述第三判断结果为收录时获取所述突变位点的突变频率;
(5)根据所述第一判断结果、第二判断结果、第三判断结果以及突变频率,得到所述突变位点的评分结果并输出(输出结果如图4所示,该图中的第A列即计算之后的评分结果),根据评分结果评估致病风险:
当所述第一判断结果为所述突变位点为LOF,或所述第二判断结果为所述突变位点收录于所述疾病数据库中,所述第三判断结果为所述突变位点收录于所述群体遗传数据库中时,将所述突变位点的突变频率与预置的第一频率阈值(其中,1000G对应的第一频率阈值为2%,ESP6500对应的第一频率阈值为2%,KMTD对应的第一频率阈值为4%,ExAC对应的第一频率阈值为4%,gnomAD对应的第一频率阈值为4%)比较,获取第一比较结果;
当所述第一判断结果为所述突变位点不为LOF且所述第二判断结果为所述突变位点未收录于所述疾病数据库中,所述第三判断结果为所述突变位点收录于所述群体遗传数据库中时,将所述突变位点的突变频率与预置的第二频率阈值(其中,1000G对应的第一频率阈值为1%,ESP6500对应的第一频率阈值为1%,KMTD对应的第一频率阈值为2%,ExAC对应的第一频率阈值为5%,gnomAD对应的第二频率阈值为2%)比较,获取第二比较结果;
当所述第一比较结果为所述突变位点的突变频率高于或等于预置的第一频率阈值时,将所述突变位点的突变频率与预置的第三频率阈值(其中,1000G对应的第三频率阈值为10%,ESP6500对应的第三频率阈值为10%,KMTD对应的第三频率阈值为20%,ExAC对应的第三频率阈值为20%,gnomAD对应的第三频率阈值为20%)比较,获取第三比较结果;当所述第三比较结果为所述突变位点的突变频率低于预置的第三频率阈值时,所述评分为1.5分并输出,其致病风险评估结果为中风险位点;当所述第一比较结果为所述突变位点的突变频率高于或等于预置的第三频率阈值时,所述评分为0.5分并输出,其致病风险评估结果为中风险位点;
当所述第一比较结果为所述突变位点的突变频率低于预置的第一频率阈值时,得到此突变位点的评分为2分,其致病风险评估结果为高风险位点;
当所述第二比较结果为所述突变位点的突变频率高于或等于预置的第二频率阈值时,得到此突变位点的评分为0分,其致病风险评估结果为低风险位点;
当所述第二比较结果为所述突变位点的突变频率低于预置的第二频率阈值,得到此突变位点的评分为1分,其致病风险评估结果为中风险位点。虽然0.5分、1分、1.5分的突变位点均表示为中风险位点,但它们的致病风险并非完全相同,而是随着分值的升高而增大。
分别利用本发明的基因变异评估方法和《美国ACMG协会关于基因变异临床解读的指南(2015)》对获取的数千个待评估样本的高通量测序数据进行评估,结果表明本发明的基因变异评估方法与《美国ACMG协会关于基因变异临床解读的指南(2015)》的评估结果符合度很高。
最后所应当说明的是,以上实施例仅用以说明本发明的技术方案而非对本发明保护范围的限制,尽管参照较佳实施例对本发明作了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的实质和范围。

Claims (10)

1.一种基因变异评估方法,其特征在于,包括以下步骤:
获取待评估样本的高通量测序数据;
将所述高通量测序数据与参考序列比对,获取所述高通量测序数据中的突变位点,并判断所述突变位点是否为LOF,获取第一判断结果;
根据疾病数据库中的信息,判断所述突变位点是否收录于所述疾病数据库中,获取第二判断结果;
根据群体遗传数据库中的信息,判断所述突变位点是否收录于所述群体遗传数据库中,获取第三判断结果;并在所述第三判断结果为收录时获取所述突变位点的突变频率;
根据所述第一判断结果、第二判断结果、第三判断结果以及突变频率,得到所述突变位点的致病风险评估结果。
2.根据权利要求1所述的基因变异评估方法,其特征在于,所述根据所述第一判断结果、第二判断结果、第三判断结果以及突变频率,得到所述突变位点的致病风险评估结果的步骤包括:
当所述第一判断结果为所述突变位点为LOF,或所述第二判断结果为所述突变位点收录于所述疾病数据库中,所述第三判断结果为所述突变位点收录于所述群体遗传数据库中时,将所述突变位点的突变频率与预置的第一频率阈值比较,获取第一比较结果;
当所述第一判断结果为所述突变位点不为LOF且所述第二判断结果为所述突变位点未收录于所述疾病数据库中,所述第三判断结果为所述突变位点收录于所述群体遗传数据库中时,将所述突变位点的突变频率与预置的第二频率阈值比较,获取第二比较结果;
当所述第一比较结果为所述突变位点的突变频率高于或等于预置的第一频率阈值时,得到所述突变位点的致病风险评估结果为中风险位点;
当所述第一比较结果为所述突变位点的突变频率低于预置的第一频率阈值时,得到所述突变位点的致病风险评估结果为高风险位点;
当所述第二比较结果为所述突变位点的突变频率高于或等于预置的第二频率阈值时,得到所述突变位点的致病风险评估结果为低风险位点;
当所述第二比较结果为所述突变位点的突变频率低于预置的第二频率阈值时,得到所述突变位点的致病风险评估结果为中风险位点;
其中,所述第二频率阈值低于所述第一频率阈值。
3.根据权利要求2所述的基因变异评估方法,其特征在于,所述根据所述第一判断结果、第二判断结果、第三判断结果以及突变频率,得到所述突变位点的致病风险评估结果的步骤进一步包括:
根据所述第一比较结果、第二比较结果以及突变频率,按照预设评分规则对所述突变位点进行评分;其中,所述预设评分规则包括:
当所述第一比较结果为所述突变位点的突变频率高于或等于预置的第一频率阈值时,所述评分为0.5~1.5分;
当所述第一比较结果为所述突变位点的突变频率低于预置的第一频率阈值时,所述评分为2分;
当所述第二比较结果为所述突变位点的突变频率高于或等于预置的第二频率阈值时,所述评分为0分;
当所述第二比较结果为所述突变位点的突变频率低于预置的第二频率阈值时,所述评分为1分;
其中,当所述评分为0时,表示所述突变位点的致病风险评估结果为低风险位点,当所述评分为0.5~1.5时,表示所述突变位点的致病风险评估结果为中风险位点,当所述评分为2时,表示所述突变位点的致病风险评估结果为高风险位点。
4.根据权利要求3所述的基因变异评估方法,其特征在于,所述当所述第一比较结果为所述突变位点的突变频率高于或等于预置的第一频率阈值时,所述评分为0.5~1.5分,具体包括:
当所述第一比较结果为所述突变位点的突变频率高于或等于预置的第一频率阈值时,将所述突变位点的突变频率与预置的第三频率阈值比较,获取第三比较结果,所述第三频率阈值高于所述第一频率阈值;
当所述第三比较结果为所述突变位点的突变频率低于预置的第三频率阈值时,所述评分为1.5分;
当所述第一比较结果为所述突变位点的突变频率高于或等于预置的第三频率阈值时,所述评分为0.5分。
5.根据权利要求1~4中任一项所述的基因变异评估方法,其特征在于,所述疾病数据库选自:HGMD、ClinVar和OMIM。
6.根据权利要求1~4中任一项所述的基因变异评估方法,其特征在于,所述群体遗传数据库选自:1000G、ESP6500、KMTD、ExAC、gnomAD和EVS。
7.根据权利要求2~4中任一项所述的基因变异评估方法,其特征在于,所述群体遗传数据库选自:1000G、ESP6500、KMTD、ExAC和gnomAD;其中,
当所述数据库为1000G时,所述第一频率阈值为2%,所述第二频率阈值为1%;
当所述数据库为ESP6500时,所述第一频率阈值为2%,所述第二频率阈值为1%;
当所述数据库为KMTD时,所述第一频率阈值为4%,所述第二频率阈值为2%;
当所述数据库为ExAC时,所述第一频率阈值为4%,所述第二频率阈值为2%;
当所述数据库为gnomAD时,所述第一频率阈值为4%,所述第二频率阈值为2%。
8.根据权利要求1所述的基因变异评估方法,其特征在于,所述比对利用高通量测序数据比对软件进行,所述高通量测序数据比对软件包括:BWA、MAQ、SOAP2和Bowtie2。
9.根据权利要求1所述的基因变异评估方法,其特征在于,所述获取所述高通量测序数据中的突变位点包括:寻找待评估样本的高通量测序数据与参考序列的差异,识别突变位点,并对所述变异位点进行功能注释;
优选地,识别突变位点使用GATK软件进行,功能注释使用annovar软件进行。
10.一种基因变异评估系统,其特征在于,包括:
高通量测序数据获取模块,用于获取待评估样本的高通量测序数据;
突变位点获取模块,用于将所述高通量测序数据与参考序列比对,获取所述高通量测序数据中的突变位点,并判断所述突变位点是否为LOF,获取第一判断结果;
第二判断结果获取模块,用于根据疾病数据库中的信息,判断所述突变位点是否收录于所述疾病数据库中,获取第二判断结果;
第三判断结果获取模块,用于根据群体遗传数据库中的信息,判断所述突变位点是否收录于所述群体遗传数据库中,获取第三判断结果;并在所述第三判断结果为收录时获取所述突变位点的突变频率;
致病风险评估模块,用于根据所述第一判断结果、第二判断结果、第三判断结果以及突变频率,得到所述突变位点的致病风险评估结果。
CN201710378155.2A 2017-05-24 2017-05-24 一种基因变异评估方法及系统 Active CN107229841B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710378155.2A CN107229841B (zh) 2017-05-24 2017-05-24 一种基因变异评估方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710378155.2A CN107229841B (zh) 2017-05-24 2017-05-24 一种基因变异评估方法及系统

Publications (2)

Publication Number Publication Date
CN107229841A true CN107229841A (zh) 2017-10-03
CN107229841B CN107229841B (zh) 2018-07-06

Family

ID=59934222

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710378155.2A Active CN107229841B (zh) 2017-05-24 2017-05-24 一种基因变异评估方法及系统

Country Status (1)

Country Link
CN (1) CN107229841B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108509767A (zh) * 2018-03-30 2018-09-07 北京恒华永力电力工程有限公司 一种遗传突变的处理方法及装置
CN108710781A (zh) * 2018-03-30 2018-10-26 北京恒华永力电力工程有限公司 一种遗传突变的排序方法及装置
CN109295198A (zh) * 2018-09-03 2019-02-01 安吉康尔(深圳)科技有限公司 用于检测遗传性疾病基因变异的方法、装置及终端设备
CN109524060A (zh) * 2018-11-19 2019-03-26 江苏科技大学 一种遗传病风险提示的基因测序数据处理系统与处理方法
CN109545277A (zh) * 2018-11-21 2019-03-29 广州市康健基因科技有限公司 一种猝死基因突变点位的评分方法及系统
CN110246581A (zh) * 2019-07-02 2019-09-17 广东瑞昊生物技术有限公司 基于基因检测的评估系统
CN111139291A (zh) * 2020-01-14 2020-05-12 首都医科大学附属北京安贞医院 一种单基因遗传性疾病高通量测序分析方法
CN111292803A (zh) * 2020-02-10 2020-06-16 广州金域医学检验集团股份有限公司 基因组断裂点识别方法及应用
CN111798926A (zh) * 2020-06-30 2020-10-20 广州金域医学检验中心有限公司 致病基因位点数据库及其建立方法
CN112086127A (zh) * 2020-09-17 2020-12-15 中南大学湘雅医院 一种基于突变功能的群体遗传差异比较方法
CN113470746A (zh) * 2021-06-21 2021-10-01 广州市金域转化医学研究院有限公司 降低高通量测序中人工引入错误突变的方法及应用
WO2022266790A1 (zh) * 2021-06-21 2022-12-29 广州市金域转化医学研究院有限公司 降低高通量测序中人工引入错误突变的方法及应用

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101302563A (zh) * 2008-07-08 2008-11-12 上海中优医药高科技有限公司 一种多基因疾病遗传风险综合评估方法
CN102419791A (zh) * 2010-09-28 2012-04-18 上海人类基因组研究中心 人类常见病遗传风险评估方法
CN105678093A (zh) * 2016-02-01 2016-06-15 北京东方亚美基因科技研究院 一种评估疾病遗传风险的基因检测方法
CN106295241A (zh) * 2015-06-25 2017-01-04 杭州圣庭生物技术有限公司 基于brca1和brca2突变的乳腺癌患病风险评估算法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101302563A (zh) * 2008-07-08 2008-11-12 上海中优医药高科技有限公司 一种多基因疾病遗传风险综合评估方法
CN102419791A (zh) * 2010-09-28 2012-04-18 上海人类基因组研究中心 人类常见病遗传风险评估方法
CN106295241A (zh) * 2015-06-25 2017-01-04 杭州圣庭生物技术有限公司 基于brca1和brca2突变的乳腺癌患病风险评估算法
CN105678093A (zh) * 2016-02-01 2016-06-15 北京东方亚美基因科技研究院 一种评估疾病遗传风险的基因检测方法

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108710781A (zh) * 2018-03-30 2018-10-26 北京恒华永力电力工程有限公司 一种遗传突变的排序方法及装置
CN108509767A (zh) * 2018-03-30 2018-09-07 北京恒华永力电力工程有限公司 一种遗传突变的处理方法及装置
CN108509767B (zh) * 2018-03-30 2022-04-15 北京恒华永力电力工程有限公司 一种遗传突变的处理方法及装置
CN108710781B (zh) * 2018-03-30 2022-03-25 北京恒华永力电力工程有限公司 一种遗传突变的排序方法及装置
CN109295198A (zh) * 2018-09-03 2019-02-01 安吉康尔(深圳)科技有限公司 用于检测遗传性疾病基因变异的方法、装置及终端设备
CN109524060B (zh) * 2018-11-19 2022-02-08 江苏科技大学 一种遗传病风险提示的基因测序数据处理系统与处理方法
CN109524060A (zh) * 2018-11-19 2019-03-26 江苏科技大学 一种遗传病风险提示的基因测序数据处理系统与处理方法
CN109545277A (zh) * 2018-11-21 2019-03-29 广州市康健基因科技有限公司 一种猝死基因突变点位的评分方法及系统
CN110246581A (zh) * 2019-07-02 2019-09-17 广东瑞昊生物技术有限公司 基于基因检测的评估系统
CN111139291A (zh) * 2020-01-14 2020-05-12 首都医科大学附属北京安贞医院 一种单基因遗传性疾病高通量测序分析方法
CN111292803A (zh) * 2020-02-10 2020-06-16 广州金域医学检验集团股份有限公司 基因组断裂点识别方法及应用
CN111292803B (zh) * 2020-02-10 2024-04-26 广州金域医学检验集团股份有限公司 基因组断裂点识别方法及应用
CN111798926A (zh) * 2020-06-30 2020-10-20 广州金域医学检验中心有限公司 致病基因位点数据库及其建立方法
CN111798926B (zh) * 2020-06-30 2023-09-29 广州金域医学检验中心有限公司 致病基因位点数据库及其建立方法
CN112086127A (zh) * 2020-09-17 2020-12-15 中南大学湘雅医院 一种基于突变功能的群体遗传差异比较方法
CN112086127B (zh) * 2020-09-17 2023-03-10 中南大学湘雅医院 一种基于突变功能的群体遗传差异比较方法
CN113470746A (zh) * 2021-06-21 2021-10-01 广州市金域转化医学研究院有限公司 降低高通量测序中人工引入错误突变的方法及应用
WO2022266790A1 (zh) * 2021-06-21 2022-12-29 广州市金域转化医学研究院有限公司 降低高通量测序中人工引入错误突变的方法及应用
CN113470746B (zh) * 2021-06-21 2023-11-21 广州市金域转化医学研究院有限公司 降低高通量测序中人工引入错误突变的方法及应用

Also Published As

Publication number Publication date
CN107229841B (zh) 2018-07-06

Similar Documents

Publication Publication Date Title
CN107229841B (zh) 一种基因变异评估方法及系统
US11879158B2 (en) Systems and methods to detect rare mutations and copy number variation
US10982265B2 (en) Systems and methods to detect rare mutations and copy number variation
US20220093212A1 (en) Size-based analysis of fetal dna fraction in plasma
EP3288455B1 (en) Diagnostic methods
Jordan et al. The effects of alignment error and alignment filtering on the sitewise detection of positive selection
US11694764B2 (en) Method for large scale scaffolding of genome assemblies
US20180148765A1 (en) Method and system for determining copy number variation
Verbist et al. VirVarSeq: a low-frequency virus variant detection pipeline for Illumina sequencing using adaptive base-calling accuracy filtering
EP3704264B1 (en) Using nucleic acid size range for noninvasive prenatal testing and cancer detection
US20200185059A1 (en) Systems and methods for classifying patients with respect to multiple cancer classes
CN111733251A (zh) 一种特征miRNA表达谱组合及肾透明细胞癌早期预测方法
CA3190381A1 (en) Detecting cross-contamination in sequencing data
CN111733252A (zh) 一种特征miRNA表达谱组合及胃癌早期预测方法
US20220399079A1 (en) Method and system for combined dna-rna sequencing analysis to enhance variant-calling performance and characterize variant expression status
Verma et al. Benefits of accurate imputations in GWAS

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant