CN109524060A - 一种遗传病风险提示的基因测序数据处理系统与处理方法 - Google Patents

一种遗传病风险提示的基因测序数据处理系统与处理方法 Download PDF

Info

Publication number
CN109524060A
CN109524060A CN201811374485.5A CN201811374485A CN109524060A CN 109524060 A CN109524060 A CN 109524060A CN 201811374485 A CN201811374485 A CN 201811374485A CN 109524060 A CN109524060 A CN 109524060A
Authority
CN
China
Prior art keywords
risk
module
hereditary disease
data
variant sites
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811374485.5A
Other languages
English (en)
Other versions
CN109524060B (zh
Inventor
诸峰
张成红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu University of Science and Technology
Original Assignee
Jiangsu University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu University of Science and Technology filed Critical Jiangsu University of Science and Technology
Priority to CN201811374485.5A priority Critical patent/CN109524060B/zh
Publication of CN109524060A publication Critical patent/CN109524060A/zh
Application granted granted Critical
Publication of CN109524060B publication Critical patent/CN109524060B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种遗传病风险提示的基因测序数据处理系统与处理方法,系统包括依次连接在一起的变异位点发现模块、ANNVOAR信息注释模块、数据资源支撑模块、风险计算模块和风险提示模块;基因测序数据的处理方法为:首先使用变异位点发现模块对原始测序数据进行处理,找出所有变异位点;然后使用ANNVOAR信息注释模块对所有变异位点进行主要信息的注释;随后基于数据资源支撑模块提供的数据资源文件,使用风险计算模块对经过注释的变异位点数据进行遗传病的风险计算;最后风险提示模块响应于风险计算模块的遗传病风险计算结果,结合风险提示判定规则,给出遗传病风险提示结果;本发明实现了对海量基因测序数据的标准化和系统化处理,提升了工作效率。

Description

一种遗传病风险提示的基因测序数据处理系统与处理方法
技术领域
本发明属于生物信息学领域,尤其涉及一种遗传病风险提示的基因测序数据处理系统与处理方法。
背景技术
随着人类基因组计划的完成和新一代高通量测序技术的发展,使得基于外显子组、全基因组的测序以及针对海量基因数据的分析与解读成为可能。其中,通过分析外显子组或全基因组测序数据,寻找疾病相关的易感基因,以及对疾病易感变异位点的预测和功能研究,是目前基因测序数据处理分析领域关注的重点。
早期的测序及数据技术主要基于基因芯片技术,利用杂交测序,即通过与一组已知序列的核酸探针杂交进行核酸序列测定的方法进行测序,并利用全基因组关联分析研究(GWAS)方法来寻找与复杂疾病相关的遗传因素。但是,基于基因芯片设计的GWAS主要关注人群中的常见变异,通常指最小等位基因频率MAF>0.01,其局限性在于通过基因芯片设计的GWAS发现的疾病易感位点主要集中在常见变异上,芯片的探针都是基于目前已知的SNP设计的,不能识别低频的致病变异和新的致病突变。
发明内容
本发明的主要目的在于提供了一种遗传病风险提示的基因测序数据处理系统与处理方法,该系统和方法可实现对大量基因测序数据的精确、快速识别;用以解决现有技术中对致病性变异识别效率低且识别的致病性变异种类有限的问题,具体技术方案如下:
一方面,提供了一种遗传病风险提示的基因测序数据处理系统,所述系统包括:
变异位点发现模块,用于对原始测序数据进行处理,并找出所述原始测序数据中包含的变异位点;
ANNVOAR信息注释模块,对所述变异位点进行所在染色体、参考等位基因、替换等位基因、所在外显子位置、罕见性、所在基因、氨基酸变化、各类可计算工具对变异有害性计算得分及预测结果、不同人群中变异频率的信息注释;
数据资源支撑模块,用以提供所述系统在遗传数据处理过程中需要的数据资源文件;
风险计算模块,基于所述数据资源文件对经过注释的变异位点数据进行遗传病的风险计算;
风险提示模块,用于设定风险提示判定规则,并响应于所述风险计算模块的遗传病风险计算结果,给出遗传病风险提示结果;
其中,所述变异位点发现模块、ANNVOAR信息注释模块、数据资源支撑模块、风险计算模块和风险提示模块依次连接在一起。
进一步的,所述变异位点发现模块包括序列比对与映射单元、序列数据预处理单元和SNPs与小片段INDELs变异发现单元;所述序列比对与映射单元用于接收由序列数据构成的原始测序数据,并将序列数据映射到参考基因组上;所述序列数据预处理单元用于对映射到参考基因组上的序列数据做预处理;所述SNPs与小片段INDELs变异发现单元用于识别预处理后的序列数据相对参考基因组的所述变异位点,并计算每一所述变异位点的基因型。
进一步的,所述变异位点发现模块输入为fastq格式的原始测序数据文件,所述变异位点发现模块输出为包含所有变异位点的vcf格式文件;
所述序列比对与映射单元使用BWA-MEM算法完成所述原始测序数据的映射操作;所述序列数据预处理单元使用Picard工具对映射到参考基因组上的原始测序数据做预处理;所述SNPs与小片段INDELs变异发现单元使用GATK工具寻找所述变异位点。
进一步的,所述ANNVOAR信息注释模块包括基于基因的注释单元、基于区域的注释单元和基于筛选的注释单元;其中,所述基于基因的注释单元包括对refGene、ensGene和knownGene三个不同dbtype参数的信息注释;所述基于区域的注释单元包括对phastConsElements46way、tfbsConsSites、cytoBand、wgRna、targetScanS、genomicSuperDups、dgvMerged、wgEncodeRegDnaseClustered、wgEncodeRegTfbsClustered九个不同dbtype参数的信息注释;所述基于筛选的注释单元包括对1000g2012apr_all、1000g2012apr_asn、1000g2012apr_eur、1000g2012apr_afr、1000g2012apr_amr、snp138、ljb23_all、esp6500si_all、esp6500si_aa、esp6500si_ea、cg46、popfreq_all、clinvar_20170905、caddgt10、cosmic68、nci60、exac03十六个不同dbtype参数的信息注释。
进一步的,所述数据资源文件包括自定义的基因列表、遗传风险因素文件、药物敏感风险因素文件;且所述自定义的基因列表包括ACMG遗传病基因列表、隐性遗传病基因列表和孟德尔遗传病基因列表,其中,所述隐性遗传病基因列表和孟德尔遗传病基因列表基于OMIM数据库设计;
所述OMIM为genemap文件,所述genemap文件包含基因名、OMIM、表型和Cyto位置信息。
进一步的,所述风险计算模块包括遗传病风险因素计算单元、药物敏感风险因素计算单元、ACMG遗传病风险计算单元、隐性遗传病风险计算单元和孟德尔遗传病风险计算单元。
进一步的,所述风险提示模块包括遗传类疾病风险提示单元、药物敏感风险提示单元,ACMG遗传病风险提示单元、隐性遗传病风险提示单元、孟德尔类遗传病风险提示单元。
进一步的,所述原始测序数据包括全外显子组测序数据或全基因组测序数据。
另一方面,提供了一种遗传病风险提示的基因测序数据处理方法,应用与上述的遗传病风险提示的基因测序数据处理系统,所述方法包括步骤:
S1、选取特定的原始测序数据输入至所述变异位点发现模块,找出原始测序数据中的所有变异位点;
S2、利用所述ANNVOAR信息注释模块对所述变异位点进行信息注释;
S3、所述数据资源支撑模块提供资源数据文件,所述风险计算模块基于所述数据资源文件对经过注释的所有变异位点数据进行风险计算,并输出对应的风险计算结果;
S4、所述风险提示模块基于所述风险计算结果,检查所述变异位点所在位置的等位基因是否存在遗传病风险的变异,以及是否是罕见变异,并结合风险提示判定规则,给出遗传病风险提示结果。
进一步的,在步骤S1中,所述原始测序数据为fastq格式,所述变异位点存储在vcf格式文件中。
本发明的遗传病风险提示的基因测序数据处理系统和处理方法中,系统由依次连接在一起的变异位点发现模块、ANNVOAR信息注释模块、数据资源支撑模块、风险计算模块和风险提示模块构成;首先,变异位点发现模块中输入fastq格式的包含外显子组或全基因组的原始测序数据,然后利用BWA-MEM算法将原始测序数据映射到参考基因组,并使用Picard工具对映射到参考基因组上的的原始测序数据进行预处理,并使用GATK工具找出所有变异位点;其中,原始测序数据由若干序列数据组成;随后,ANNVOAR信息注释模块对所有变异位点进行所在染色体、参考等位基因、替换等位基因、所在外显子位置、罕见性、所在基因、氨基酸变化、各类可计算工具对变异有害性计算得分及预测结果、不同人群中变异频率等信息的注释;再由数据资源支撑模块提供的数据资源文件,通过风险计算模块根据数据资源文件对经过注释的所有变异位点数据进行遗传病的风险计算;最后,由风险提示模块响应于风险计算模块的遗传病风险计算结果,检查所述变异位点所在位置的等位基因是否存在遗传病风险的变异,以及是否是罕见变异等,并结合风险提示判定规则,给出遗传病风险提示结果;与现有技术相比,本发明能够处理全外显子组、全基因组测序数据,实现对大规模样本及海量变异位点信息的标准化和系统化的处理;本发明集成了变异位点发现、变异位点注释、数据资源支撑、风险计算、风险提示等处理过程,结合与群体变异数据库的比较,过滤掉大量较高频的变异,可给出孟德尔类遗传病、隐性遗传病和部分药物敏感性的风险提示,整个数据处理流程具有规范性和系统性;本发明能够加快全外显子组、全基因组数据分析速度,极大提升数据解读人员的工作效率,为今后的临床转化应用奠定基础。
附图说明
图1为本发明实施例中所述遗传病风险提示的基因测序数据处理系统的组成结构框图示意;
图2为本发明实施例中所述变异位点发现模块寻找变异位点的流程图示意;
图3为本发明实施例中所述ANNOVAR信息注释模块对变异位点的注释流程图示意;
图4为本发明实施例中所述风险计算模块的计算过程图示意;
图5为本发明实施例中所述遗传病风险提示的基因测序数据处理方法的流程图示意。
1-变异位点发现模块、2-ANNVOAR信息注释模块、3-数据资源支撑模块、4-风险计算模块、5-风险提示模块。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
结合图1~图5对本发明的遗传病风险提示的基因测序数据处理系统及处理方法进行详细说明,具体的,遗传病风险提示的基因测序数据处理系统由依次连接在一起的变异位点发现模块、ANNVOAR信息注释模块、数据资源支撑模块、风险计算模块和风险提示模块构成,用以对原始测试数据进行数据处理,其中,变异位点发现模块用于对原始测序数据进行处理,并找出原始测序数据中包含的变异位点;ANNVOAR信息注释模块用于对变异位点进行所在染色体、参考等位基因、替换等位基因、所在外显子位置、罕见性、所在基因、氨基酸变化、各类可计算工具对变异有害性计算得分及预测结果、不同人群中变异频率的信息注释;数据资源支撑模块用以提供系统在遗传数据处理过程中需要的数据资源文件;风险计算模块基于数据资源文件对经过注释的所有变异位点数据进行遗传病的风险计算;风险提示模块用于设定风险提示判定规则,并响应于风险计算模块的遗传病风险计算结果,给出遗传病风险提示结果。
在具体实施例中,原始测序数据是由外显子组或全基因组的序列数据组成。
基于遗传病风险提示的基因测序数据处理系统对遗传病风险提示的基因测序数据的处理方法具体包括步骤:S1、选取特定的原始测序数据输入至所述变异位点发现模块,找出原始测序数据中的所有变异位点;S2、利用所述ANNVOAR信息注释模块对所述变异位点进行信息注释;S3、所述数据资源支撑模块提供资源数据文件,所述风险计算模块基于所述数据资源文件对经过注释的所有变异位点数据进行风险计算,并输出对应的风险计算结果;S4、所述风险提示模块响应于所述风险计算结果,检查所述变异位点所在位置的等位基因是否存在遗传病风险的变异,以及是否是罕见变异等,并结合风险提示判定规则,给出遗传病风险提示结果。
结合图2,在本发明实施例中,变异位点发现模块包括序列比对与映射单元、序列数据预处理单元和SNPs与小片段INDELs变异发现单元;序列比对与映射单元在接收原始测序数据后,利用BWA-MEM算法,将原始测序数据映射到参考基因组上,并采用多线程方法加速序列比对和映射过程;序列数据预处理单元,采用Picard工具的AddOrReplaceReadGroups方法将序列数据信息添加到映射后的BAM文件中;然后用Picard工具的MarkDuplicate方法来标记重复序列数据,以减轻诸如PCR(Polymerase ChainReaction,聚合酶链式反应)扩增的数据生成步骤所引起的偏差;接下来使用Picard工具对序列进行排序,以方便后续的变异发现;最后,使用GATK工具重新校准序列数据中的碱基质量分数。SNPs与小片段INDELs变异发现单元用来识别相对参考基因组的变异位点,并计算每一变异位点的基因型,具体过程为:首先使用GATK,单独对每个样本执行HaplotypeCaller方法,以产生GVCF(用于基因组VCF)的中间文件格式;然后使用GATK的GenotypeGVCFs方法联合单样本GVCF文件产生多样本的VCF文件;下一步,使用GATK的SelectVariants方法区分SNPS和INDELs;下一步,使用GATK的VariantRecalibrator和ApplyRecalibration方法对遗传变异进行质量分数校正,用来实现对变异位点的过滤;随后,使用GATK的CombineVariants方法将SNPs和INDELs联合放入一个vcf格式文件中;最后,进一步过滤变异数据,抽取出罕见的变异,并抽取过滤列中为“PASS”的变异;其中,罕见变异指AF(Allele Frequency等位基因频率)<1%的变异。
本发明实施例中,变异位点发现模块输入为fastq格式的原始测序数据文件,变异位点发现模块输出为包含所有变异位点的vcf格式文件。
结合图3,在本发明中,ANNVOAR信息注释模块包括基于基因的注释单元、基于区域的注释单元和基于筛选的注释单元;其中,基于基因的注释单元包括对refGene、ensGene和knownGene三个不同dbtype参数的信息注释;基于区域的注释单元包括对phastConsElements46way、tfbsConsSites、cytoBand、wgRna、targetScanS、genomicSuperDups、dgvMerged、wgEncodeRegDnaseClustered、wgEncodeRegTfbsClustered九个不同dbtype参数的信息注释;基于筛选的注释单元包括对1000g2012apr_all、1000g2012apr_asn、1000g2012apr_eur、1000g2012apr_afr、1000g2012apr_amr、snp138、ljb23_all、esp6500si_all、esp6500si_aa、esp6500si_ea、cg46、popfreq_all、clinvar_20170905、caddgt10、cosmic68、nci60、exac03十六个不同dbtype参数的信息注释。
优选的,在对变异位点使用基于基因的注释单元、基于区域的注释单元和基于筛选的注释单元进行信息注释前,还需ANNVOAR信息注释模块通过convert2annovar方法,将vcf格式文件转换成空格分隔格式文件。
在本发明中,ANNVOAR信息注释模块对变异位点的注释信息保存在TXT文件中。
在本发明实施例中,数据资源支撑模块中的数据资源文件包括自定义的基因列表、遗传风险因素文件、药物敏感风险因素文件;为了提升风险计算模块的计算速度,自定义的基因列表中每行只需给出一个基因名,随后使用Grep方法从经ANNVOAR信息注释模块信息注释后的TXT文件中抽取出感兴趣的基因所对应的变异,遗传风险因素文件和药物敏感风险因素文件内容以23andMe UK发布的标准为基础进行设计。
其中,自定义的基因列表包括ACMG遗传病基因列表、隐性遗传病基因列表和孟德尔遗传病基因列表,ACMG遗传病基因列表基于ACMG发布的目标基因集(gene panel),内容包含基因名和疾病名称,共58个基因;隐性遗传病基因列表基于OMIM数据库设计,内容包含OMIM编号、基因名称、表型,共507个基因;孟德尔遗传病基因列表也基于OMIM数据库设计,包含染色体编号、位置、基因名等,共3045个基因;优选的,在本实施例中,自定义的基因列表包括1000基因组文件,使用human_g1k_v37.fa文件;OMIM表型数据资源,OMIM提供的genemap文件,包含基因名、OMIM编号、表型、Cyto位置等;药物敏感风险因素文件包含12类,如乙醛毒性、丙型肝炎治疗反应、苯妥英钠的敏感性等,另外还定义风险因素对应的基因名称、标记物名称、dbSNP编号、染色体编号、位置、参考等位基因、替换等位基因;遗传风险因素文件包含11类,如阿尔兹海默病、家族性高胆固醇血症、遗传性乳腺癌和卵巢癌综合征等。
结合图4,在本发明实施例中,风险计算模块包括遗传病风险因素计算单元、药物敏感风险因素计算单元、ACMG遗传病风险计算单元、隐性遗传病风险计算单元和孟德尔遗传病风险计算单元;其中,所述遗传风险因素计算单元、药物敏感风险因素计算单元的计算过程具体为:首先根据数据资源支撑模块定义的遗传风险因素文件、药物敏感风险因素文件、human_g1k_v37.fa文件,利用samtools的mpileup方法从数据预处理单元处理后的bam文件中抽取对应染色体及位置的序列信息,写入相应的文件;然后,根据遗传风险因素文件、药物敏感风险因素文件中定义的每一种疾病情况,读取出疾病类型对应的基因,从数据资源支撑模块生成的感兴趣基因对应的变异数据文件中抽取出相关变异记录,将变异记录写入新的文件;同时,对于每一种疾病情况,从第一步生成的序列信息文件中读取对应染色体及位置的序列,检查对应染色体及位置处的等位基因,如果和参考等位基因相同,则表示该位置的遗传变异没有风险,不会导致相应疾病或药物敏感情况的发生。否则,如果和替换等位基因相同,则表示该位置遗传变异存在风险,很大可能会导致相应疾病或药物敏感情况的发生。
ACMG遗传病风险计算单元、隐性遗传病风险计算单元和孟德尔遗传病风险计算单元均需输入为相应的基因列表文件,经注释的变异信息文件,输出包含变异记录的相应文件;具体的计算过程具体为:首先对于ACMG遗传病风险构造相应的字典结构,从对应的基因列表文件中读取基因名和对应疾病名,键名为基因名,键值为疾病名;其中,对于隐性遗传病,键名为基因名,键值为OMIM编号+疾病名;对于孟德尔遗传病,键名为基因名,键值为染色体+位置信息;然后,依次读取注释变异文件中的每一行,抽取基因名信息,如果该基因名出现在上一步的字典结构中,则将变异文件中的当前行写入对应的遗传病风险文件中。
在本发明中,风险提示模块包括遗传类疾病风险提示单元、药物敏感风险提示单元,ACMG遗传病风险提示单元、隐性遗传病风险提示单元、孟德尔类遗传病风险提示单元五个提示单元,分别对应风险计算模块中的各单元;其中,所述遗传类疾病风险提示单元、药物敏感风险分析单元进行提示的具体步骤为:首先,读取遗传风险因素文件、药物敏感风险因素文件中的基因名称、标记物名称、dbSNP编号、染色体编号、位置、参考等位基因、替换等位基因等数据;然后,读取风险计算模块生成的变异数据文件;接下来,对风险因素文件中的每一个风险情况,检查指定位置的等位基因是否存在有风险的变异,如果存在,则用红色标出对应的变异记录数据,并给出“存在有风险的等位基因”文字提示,否则不输出任何信息;随后,读取注释变异文件,逐一检查风险情况对应的基因是否存在罕见变异,如果存在罕见变异,则给出罕见等位基因所在染色体编号、位置、参考等位基因、替换等位基因、基因名、变异所在DNA位置,杂合或纯合性、变异类型等信息。
ACMG遗传病风险提示单元、隐性遗传病风险提示单元和孟德尔类遗传病风险提示单元三个提示单元的具体提示过程为:首先打开风险计算模块输出的ACMG、隐性、孟德尔类遗传病变异注释文件,如果文件不为空,则读取变异坐标位置、转录子编号、核酸变化、氨基酸变化、所在外显子编号、杂合或纯合性、深度、频率、Clinvar、基因名、疾病名称等信息。然后,检查Clinvar列内容是否为“致病性”;最后,检查得到Clinvar列内容是致病性,则用红色标出该行变异记录,给出风险提示。
本发明的遗传病风险提示的基因测序数据处理系统和处理方法中,系统由依次连接在一起的变异位点发现模块、ANNVOAR信息注释模块、数据资源支撑模块、风险计算模块和风险提示模块构成;首先,变异位点发现模块中输入fastq格式的包含外显子组或全基因组的原始测序数据,然后利用BWA-MEM算法将原始测序数据映射到参考基因组,并使用Picard工具对映射到参考基因组上的原始测序数据进行预处理,并使用GATK工具找出所有变异位点;其中,原始测序数据由若干序列数据组成;随后,ANNVOAR信息注释模块对所有变异位点进行所在染色体、参考等位基因、替换等位基因、所在外显子位置、罕见性、所在基因、氨基酸变化、各类可计算工具对变异有害性计算得分及预测结果、不同人群中变异频率等信息的注释;再由数据资源支撑模块提供的数据资源文件,通过风险计算模块根据数据资源文件对经过注释的所有变异位点数据进行遗传病的风险计算;最后,由风险提示模块响应于风险计算模块的遗传病风险计算结果,检查所述变异位点所在位置的等位基因是否存在遗传病风险的变异,以及是否是罕见变异等,并结合风险提示判定规则,给出遗传病风险提示结果。
与现有技术相比,本发明能够处理全外显子组、全基因组测序数据,实现对大规模样本及海量变异位点信息的标准化和系统化的处理;本发明集成了变异位点发现、变异位点注释、数据资源支撑、风险计算、风险提示等处理过程,结合与群体变异数据库的比较,过滤掉大量较高频的变异,可给出孟德尔类遗传病、隐性遗传病和部分药物敏感性的风险提示,整个数据处理流程具有规范性和系统性;本发明能够加快全外显子组、全基因组数据分析速度,极大提升数据解读人员的工作效率,为今后的临床转化应用奠定基础。
以上仅为本发明的较佳实施例,但并不限制本发明的专利范围,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本发明说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本发明专利保护范围之内。

Claims (10)

1.一种遗传病风险提示的基因测序数据处理系统,其特征在于,所述系统包括:
变异位点发现模块,用于对原始测序数据进行处理,并找出所述原始测序数据中包含的变异位点;
ANNVOAR信息注释模块,对所述变异位点进行所在染色体、参考等位基因、替换等位基因、所在外显子位置、罕见性、所在基因、氨基酸变化、各类可计算工具对变异有害性计算得分及预测结果、不同人群中变异频率的信息注释;
数据资源支撑模块,用以提供所述系统在遗传数据处理过程中需要的数据资源文件;
风险计算模块,基于所述数据资源文件对经过注释的变异位点数据进行遗传病的风险计算;
风险提示模块,用于设定风险提示判定规则,并响应于所述风险计算模块的遗传病风险计算结果,给出遗传病风险提示结果;
其中,所述变异位点发现模块、ANNVOAR信息注释模块、数据资源支撑模块、风险计算模块和风险提示模块依次连接在一起。
2.根据权利要求1所述的一种遗传病风险提示的基因测序数据处理系统,其特征在于,所述变异位点发现模块包括序列比对与映射单元、序列数据预处理单元和SNPs与小片段INDELs变异发现单元;所述序列比对与映射单元用于接收由序列数据构成的原始测序数据,并将序列数据映射到参考基因组上;所述序列数据预处理单元用于对映射到参考基因组上的序列数据做预处理;所述SNPs与小片段INDELs变异发现单元用于识别预处理后的序列数据相对参考基因组的所述变异位点,并计算每一所述变异位点的基因型。
3.根据权利要求2所述的一种遗传病风险提示的基因测序数据处理系统,其特征在于,所述变异位点发现模块输入为fastq格式的原始测序数据文件,所述变异位点发现模块输出为包含所有变异位点的vcf格式文件;
所述序列比对与映射单元使用BWA-MEM算法完成所述原始测序数据的映射操作;所述序列数据预处理单元使用Picard工具对映射到参考基因组上的原始测序数据做预处理;所述SNPs与小片段INDELs变异发现单元使用GATK工具寻找所述变异位点。
4.根据权利要求1所述的一种遗传病风险提示的基因测序数据处理系统,其特征在于,所述ANNVOAR信息注释模块包括基于基因的注释单元、基于区域的注释单元和基于筛选的注释单元;其中,所述基于基因的注释单元包括对refGene、ensGene和knownGene三个不同dbtype参数的信息注释;所述基于区域的注释单元包括对phastConsElements46way、tfbsConsSites、cytoBand、wgRna、targetScanS、genomicSuperDups、dgvMerged、wgEncodeRegDnaseClustered、wgEncodeRegTfbsClustered九个不同dbtype参数的信息注释;所述基于筛选的注释单元包括对1000g2012apr_all、1000g2012apr_asn、1000g2012apr_eur、1000g2012apr_afr、1000g2012apr_amr、snp138、ljb23_all、esp6500si_all、esp6500si_aa、esp6500si_ea、cg46、popfreq_all、clinvar_20170905、caddgt10、cosmic68、nci60、exac03十六个不同dbtype参数的信息注释。
5.根据权利要求1所述的一种遗传病风险提示的基因测序数据处理系统,其特征在于,所述数据资源文件包括自定义的基因列表、遗传风险因素文件、药物敏感风险因素文件;且所述自定义的基因列表包括ACMG遗传病基因列表、隐性遗传病基因列表和孟德尔遗传病基因列表,其中,所述隐性遗传病基因列表和孟德尔遗传病基因列表基于OMIM数据库设计;
所述OMIM为genemap文件,所述genemap文件包含基因名、OMIM、表型和Cyto位置信息。
6.根据权利要求1所述的一种遗传病风险提示的基因测序数据处理系统,其特征在于,所述风险计算模块包括遗传病风险因素计算单元、药物敏感风险因素计算单元、ACMG遗传病风险计算单元、隐性遗传病风险计算单元和孟德尔遗传病风险计算单元。
7.根据权利要求1所述的一种遗传病风险提示的基因测序数据处理系统,其特征在于,所述风险提示模块包括遗传类疾病风险提示单元、药物敏感风险提示单元,ACMG遗传病风险提示单元、隐性遗传病风险提示单元、孟德尔类遗传病风险提示单元。
8.根据权利要求1所述的一种遗传病风险提示的基因测序数据处理系统,其特征在于,所述原始测序数据包括全外显子组测序数据或全基因组测序数据。
9.一种遗传病风险提示的基因测序数据处理方法,应用与权利要求1~7任一项所述的遗传病风险提示的基因测序数据处理系统,其特征在于,所述方法包括步骤:
S1、选取特定的原始测序数据输入至所述变异位点发现模块,找出原始测序数据中的所有变异位点;
S2、利用所述ANNVOAR信息注释模块对所述变异位点进行信息注释;
S3、所述数据资源支撑模块提供资源数据文件,所述风险计算模块基于所述数据资源文件对经过注释的所有变异位点数据进行风险计算,并输出对应的风险计算结果;
S4、所述风险提示模块基于所述风险计算结果,检查所述变异位点所在位置的等位基因是否存在遗传病风险的变异,以及是否是罕见变异,并结合风险提示判定规则,给出遗传病风险提示结果。
10.根据权利要求9所述的一种遗传病风险提示的基因测序数据处理方法,其特征在于,在步骤S1中,所述原始测序数据为fastq格式,所述变异位点存储在vcf格式文件中。
CN201811374485.5A 2018-11-19 2018-11-19 一种遗传病风险提示的基因测序数据处理系统与处理方法 Active CN109524060B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811374485.5A CN109524060B (zh) 2018-11-19 2018-11-19 一种遗传病风险提示的基因测序数据处理系统与处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811374485.5A CN109524060B (zh) 2018-11-19 2018-11-19 一种遗传病风险提示的基因测序数据处理系统与处理方法

Publications (2)

Publication Number Publication Date
CN109524060A true CN109524060A (zh) 2019-03-26
CN109524060B CN109524060B (zh) 2022-02-08

Family

ID=65778371

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811374485.5A Active CN109524060B (zh) 2018-11-19 2018-11-19 一种遗传病风险提示的基因测序数据处理系统与处理方法

Country Status (1)

Country Link
CN (1) CN109524060B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110544508A (zh) * 2019-07-29 2019-12-06 北京荣之联科技股份有限公司 一种单基因遗传病基因的分析方法、装置及电子设备
CN110648722A (zh) * 2019-09-19 2020-01-03 北京市儿科研究所 新生儿遗传病患病风险评估的装置
CN114496080A (zh) * 2022-01-17 2022-05-13 中国人民解放军总医院第一医学中心 耳聋致病性基因的筛查方法、装置、存储介质及服务器

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102758010B (zh) * 2012-06-07 2013-11-27 中国医学科学院阜外心血管病医院 与冠心病相关的多个基因单核苷酸多态性位点与环境因素组合及其应用
CN107229841A (zh) * 2017-05-24 2017-10-03 重庆金域医学检验所有限公司 一种基因变异评估方法及系统
US20180094311A1 (en) * 2016-09-22 2018-04-05 Invitae Corporation Methods, systems and processes of identifying genetic variations

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102758010B (zh) * 2012-06-07 2013-11-27 中国医学科学院阜外心血管病医院 与冠心病相关的多个基因单核苷酸多态性位点与环境因素组合及其应用
US20180094311A1 (en) * 2016-09-22 2018-04-05 Invitae Corporation Methods, systems and processes of identifying genetic variations
CN107229841A (zh) * 2017-05-24 2017-10-03 重庆金域医学检验所有限公司 一种基因变异评估方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
KIE KYONHUANG ET AL.: "Genomic and Epigenomic Profiling of High-Risk Intestinal Metaplasia Reveals Molecular Determinants of Progression to Gastric Cancer", 《CANCER CELL》 *
王彩月 等: "遗传性疾病致病基因检测报告的解读", 《中华肾病研究电子杂志》 *
郑昭璟: "应用全外显子组测序技术进行遗传性骨病分子缺陷机制的研究", 《中国博士学位论文全文数据库医药卫生科技辑》 *
黄莹 等: "BIG-Annotator:基因组测序数据高效功能注释及其在遗传诊断中的应用", 《HTTP://KNS.CNKI.NET/KCMS/DETAIL/11.1913.R.20181106.1730.006.HTML》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110544508A (zh) * 2019-07-29 2019-12-06 北京荣之联科技股份有限公司 一种单基因遗传病基因的分析方法、装置及电子设备
CN110648722A (zh) * 2019-09-19 2020-01-03 北京市儿科研究所 新生儿遗传病患病风险评估的装置
CN110648722B (zh) * 2019-09-19 2022-05-31 首都医科大学附属北京儿童医院 新生儿遗传病患病风险评估的装置
CN114496080A (zh) * 2022-01-17 2022-05-13 中国人民解放军总医院第一医学中心 耳聋致病性基因的筛查方法、装置、存储介质及服务器

Also Published As

Publication number Publication date
CN109524060B (zh) 2022-02-08

Similar Documents

Publication Publication Date Title
Turakhia et al. Pandemic-scale phylogenomics reveals the SARS-CoV-2 recombination landscape
Gautier et al. Alternative mapping of probes to genes for Affymetrix chips
Jiang et al. PRISM: pair-read informed split-read mapping for base-pair level detection of insertion, deletion and structural variants
CN101346724B (zh) 清除干扰遗传数据,并使用遗传数据进行预测的方法和体系
De et al. Bioinformatics challenges in genome-wide association studies (GWAS)
Minoche et al. ClinSV: clinical grade structural and copy number variant detection from whole genome sequencing data
CN106021984A (zh) 一种全外显子组测序数据分析系统
Chang et al. An overview of genome-wide association studies
CN106068330A (zh) 将已知等位基因用于读数映射中的系统和方法
KR20020075265A (ko) 임상 진단 서비스를 제공하는 방법
US20170228496A1 (en) System and method for process control of gene sequencing
CN109524060A (zh) 一种遗传病风险提示的基因测序数据处理系统与处理方法
KR20140061223A (ko) 차세대 시퀀싱 데이터의 질병변이마커 검출 방법
Zhao et al. SEG-Map: a novel software for genotype calling and genetic map construction from next-generation sequencing
Smart et al. A novel phylogenetic approach for de novo discovery of putative nuclear mitochondrial (pNumt) haplotypes
Roy et al. A LabVIEW-based real-time modeling approach for detection of abnormalities in cancer cells
Phillips Online resources for SNP analysis: a review and route map
CN104968806B (zh) 提供与基于基因序列的个人标记有关的信息的方法和装置
Adam et al. Performing post-genome-wide association study analysis: overview, challenges and recommendations
Xing et al. SECNVs: a simulator of copy number variants and whole-exome sequences from reference genomes
Bueno-Sancho et al. Field pathogenomics: an advanced tool for wheat rust surveillance
Balan et al. MICon Contamination Detection Workflow for Next-Generation Sequencing Laboratories Using Microhaplotype Loci and Supervised Learning
CN112885407B (zh) 一种基于二代测序的微单倍型检测分型系统和方法
Kaiser et al. Automated structural variant verification in human genomes using single-molecule electronic DNA mapping
Dai et al. Evaluating performance and applications of sample-wise cell deconvolution methods on human brain transcriptomic data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant