CN106156538A - 一种全基因组变异数据的注释方法和注释系统 - Google Patents

一种全基因组变异数据的注释方法和注释系统 Download PDF

Info

Publication number
CN106156538A
CN106156538A CN201610502321.0A CN201610502321A CN106156538A CN 106156538 A CN106156538 A CN 106156538A CN 201610502321 A CN201610502321 A CN 201610502321A CN 106156538 A CN106156538 A CN 106156538A
Authority
CN
China
Prior art keywords
annotation
gene
indel
genome
variation data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610502321.0A
Other languages
English (en)
Inventor
相深
杨俊辉
吴俊�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Novo Pharmaceutical Detection Institute Co Ltd
Original Assignee
Tianjin Novo Pharmaceutical Detection Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Novo Pharmaceutical Detection Institute Co Ltd filed Critical Tianjin Novo Pharmaceutical Detection Institute Co Ltd
Priority to CN201610502321.0A priority Critical patent/CN106156538A/zh
Publication of CN106156538A publication Critical patent/CN106156538A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations

Abstract

本发明公开了一种全基因组变异数据的注释方法和注释系统。该方法包括以下步骤:S1,创建变异数据文件:采用国际标准的VCF格式储存变异数据作为输入文件;S2,多等位基因基因分型:首先进行基因型判断,与参考基因组一致的碱基用0表示,与参考基因组不一致的碱基用1,2,3……表示,然后进行SNP和InDel的多等位基因型进行拆分,使得等位基因型都使用0和1表示;S3,InDel发生位置归一化:采用向左对齐和简约的归一化方法进行InDel发生位置归一化;以及S4,注释:进行基因结构注释、等位基因频率注释、变异位点的有害性预测以及致病性注释。应用本发明的技术方案,提高了注释信息的完整性和准确性。

Description

一种全基因组变异数据的注释方法和注释系统
技术领域
本发明涉及生物信息学技术领域,具体而言,涉及一种全基因组变异数据的注释方法和注释系统。
背景技术
随着测序技术的发展,成本的降低,在人类健康领域,人全基因组测序必将成为今后的主流趋势,精准医疗将是测序的最终目的。准确注释人类基因组的变异是实现精准医疗的必要手段。
变异位点发现是指寻找人个体基因组与人参考基因组中相同位置上不同的碱基类型,这些变异位点有可能是影响人类健康,或导致人类患病的致病位点。基于二代测序技术,测序得到的序列和基因组进行比对,从比对的结果中找出不同位置上测序序列和基因组序列的差异碱基,这就是变异位点。一个人的基因组中可能发现百万个SNV、InDel(插入和缺失)变异,这些变异以ATCG四种碱基的各种组合形式出现。人类疾病就和这些变异有关,虽然可以发现百万个变异,但是真正跟疾病相关的变异数量极少。科研工作者要在大量的变异位点中找到候选致病的基因和变异位点,这需要借助数据库进行注释分析,从注释的结果中挖掘出和疾病、药物等相关的变异位点。
现有的变异位点数据库注释方法或系统主要有以下几点内容:
1)变异位点进行基因结构注释:根据变异位点在基因组中的位置,注释位点所在的基因名称,基因结构区。基因和结构信息来源于knownGene数据库,可获得突变发生在什么基因上,发生在基因的什么结构区域,如外显子、内含子或基因间区等,以及这种突变类型属于无义突变、错义突变还是同义突变。
2)位点有害性预测,根据变异位点是否影响蛋白翻译过程中氨基酸的改变,进行有害性预测,常用的有SIFT,Ployphen两种软件进行打分。
3)人群位点频率注释,使用已知的数据库注释该变异位点在全球人群中的等位基因频率。如使用单核苷酸多态性数据库(dbSNP),人类千人基因组数据库(1000genome),美国外显子计划数据库(NHLBI Grand Opportunity Exome Sequencing Project)。
现有的注释工具如美国费城儿童医院开发并广泛使用的Annovar,其基于上述几点内容提供基因结构注释;人群突变频率注释,但不包含特定种群(如中国人种群)频率;在有害性分值注释方面提供的软件较多,没有指导性注释建议。
发明内容
本发明旨在提供一种全基因组变异数据的注释方法和注释系统,以提高注释信息的完整性和准确性。
为了实现上述目的,根据本发明的一个方面,提供了一种全基因组变异数据的注释方法。该方法包括以下步骤:S1,创建变异数据文件:采用国际标准的VCF格式储存变异数据作为输入文件;S2,多等位基因基因型分割:首先进行基因型判断,与参考基因组不一致的碱基用1,2,3……表示,然后进行SNP和InDel的多等位基因型进行拆分,使得等位基因型都使用0和1表示;S3,InDel发生位置归一化:采用向左对齐和简约的归一化方法进行InDel发生位置归一化;以及S4,注释:进行基因结构注释、等位基因频率注释、变异位点的有害性预测以及致病性注释。
进一步地,基因结构注释包括根据数据库注释基因结构,构建基因编码区、非编码区、调控区、剪接体10bp区域的结构文件,以及突变类型文件。
进一步地,等位基因频率注释包括对于种群/地域/性别/病种等位基因频率注释。
进一步地,变异位点的有害性预测包括根据突变位点是否影响蛋白翻译并导致翻译有害氨基酸进行突变位点的有害性预测,使用SIFT,Polyphen,CADD,MutationTaster四种预测方法对突变位点进行打分,结果采取多分值累加计数,在后续分析中满足累加计数条件的会被优先筛选;
进一步地,致病性注释包括根据已研究报道的文献以及数据库,借助ClinVar、HGMD、GWASCatalog、PharmGKB、OMIM、DrugBank、Orphanet整理位点-疾病-药物关系、基因-疾病-药物关系,整合GTEx数据库中的表达数量性状,利用NCBI、KEGG、GO数据库整理基因功能和通路,用整合好的数据库对变异位点进行注释。
进一步地,S1中,种群、疾病、性别作为可选的输入参数。
进一步地,全基因组为人类全基因组。
根据本发明的另一方面,提供了一种全基因组变异数据的注释系统。该注释系统,包括:数据录入装置,采用国际标准的VCF格式储存变异数据作为输入文件;基因型判断装置,在标准的VCF存储格式里,与参考基因组一致的碱基类型用0表示,与参考基因组不一致的碱基类型用1,2,3……表示,根据该标准进行基因型判断;多等位基因型分割装置,用于进行SNP和InDel的多等位基因型进行拆分,使得等位基因型都使用0和1表示;InDel发生位置归一化装置,采用向左对齐和简约的归一化方法进行InDel发生位置归一化;以及注释装置,进行基因结构注释、等位基因频率注释、变异位点的有害性预测以及致病性注释。
进一步地,注释装置包括:基因结构注释装置、等位基因频率注释装置、变异位点的有害性预测装置以及致病性注释装置。
进一步地,基因结构注释装置包括统计基因结构装置和突变类型分类装置。
进一步地,等位基因频率注释装置包括:种群分类装置、性别分类装置和疾病分类装置,种群分类装置、性别分类装置和疾病分类装置的下游设置有MAF计算装置,MAF计算装置的下游设置有结果整合与筛选装置和和中国人种群结果整合分析装置。
应用本发明的技术方案,对全基因组变异数据结果(Variant Call Format(VCF))进行注释,:包括基因结构注释、等位基因频率注释、变异位点的有害性预测以及致病性注释,提高了提高注释信息的完整性;根据向左对齐和简约(Left Alignment&Parsimony)标准修正了插入缺失(InDel)的发生位置,提高了InDel注释的准确性。
附图说明
构成本申请的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了根据本发明实施例1的全基因组变异数据的注释方法的流程示意图;
图2示出了实施例1中多基因型的分割方法;
图3示出了实施例1中实现多等位基因基因分型及InDel发生位置归一化的流程及装置示意图;
图4示出了实施例1中实现基因结构注释的流程及装置示意图;以及
图5示出了实施例1中实现种群/地域/性别/病种等位基因频率注释的流程及装置示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
发明人发现:近些年来,随着科研认知的更新,内含子等非编码区不再被认为是垃圾DNA,而是和启动子、增强子等作为重要调控作用的元件,发挥着重要的作用。有些疾病源于调控区的变异而产生,注释调控区域有助于找到疾病发生的原因。现有的变异位点注释方法或系统没有考虑到全基因组的数据特点,对非编码区和调控区的位点信息缺乏注释,不便于后期对这些区域的变异进行筛选。
另外,现有的注释工具缺乏对InDel发生位置的归一化,导致大量InDel无法得到准确注释,进而丢失了可能的致病性InDel变异。
有些致病位点在种群中发生频率很低,属于罕见的突变位点。由于遗传多样性和差异性的存在,同一个变异位点在不同种群/地域中的频率是不一致的,所以,同一种疾病的致病变异在不同的人群中可能是不同的位点;或者即使是同一个位点,其在不同人群中发生频率也是不一致的。因此,对变异位点的注释必须要使用一致人群的频率数据库。现有的变异位点注释方法或系统没有考虑到种群/地域差异性,这是非常关键的信息,无法注释就不能挖掘种群特有的致病位点。另外,需要考虑性别区分注释,否则无法挖掘具有性别偏好性疾病的致病位点,因此无法适用于现在各国精准医疗的需求。
现有的变异位点注释方法或系统缺乏与疾病、药物相关联的注释,而这些是科学研究以及临床试验获得的真实已知的信息,可以为致病性位点和基因的挖掘提供有效的信息。这些有效的信息得不到注释,给致病性变异位点的挖掘带来的障碍。
综上,现有基因组的注释方法或系统的都展现出了不准确性,使用范围局限性,不适应性。
针对发明人发现的上述技术问题,本发明提供了下列技术方案。
根据本发明一种典型的实施方式,提供一种全基因组变异数据的注释方法。该方法包括以下步骤:S1,创建变异数据文件:采用国际标准的VCF格式储存变异数据作为输入文件;S2,多等位基因基因型分割:首先进行基因型判断,与参考基因组一致的碱基用0表示,与参考基因组不一致的碱基用1,2,3……表示,然后进行SNP和InDel的多等位基因型进行拆分,使得等位基因型都使用0和1表示;S3,InDel发生位置归一化:采用Leftalignment&Parsimony的归一化方法进行InDel发生位置归一化;以及S4,注释:进行基因结构注释、等位基因频率注释、变异位点的有害性预测以及致病性注释。
一个等位基因(Allele)存在多种基因型(Genotype)的情况;在相同或不同的人群/种群中,等位基因的不同的基因型频率是不同的,这可能导致不同表型(Phenotype),不同疾病或发病率,因此必须要对多等位基因进行分类。
目前的变异检测软件检测较为灵活,但也因此忽略的InDel的位置标识标准,导致同一个Indel在不同的检测软件结果中不同,因此需要对InDel位置进行归一化处理,使其位置具有唯一性。
应用本发明的技术方案,对全基因组变异数据结果(Variant Call Format(VCF))进行注释,:包括基因结构注释、等位基因频率注释、变异位点的有害性预测以及致病性注释,提高了提高注释信息的完整性;根据向左对齐和简约(Left Alignment&Parsimony)标准修正了插入缺失(InDel)的发生位置,提高了InDel注释的准确性。
优选的,基因结构注释包括根据数据库注释基因结构,构建基因编码区、非编码区、调控区、剪接体10bp区域的结构文件,以及突变类型文件。
优选的,等位基因频率注释包括对于种群/地域/性别/病种等位基因频率注释。
优选的,变异位点的有害性预测包括根据突变位点是否影响蛋白翻译并导致翻译有害氨基酸进行突变位点的有害性预测,使用SIFT,Polyphen,CADD,MutationTaster四种预测方法对突变位点进行打分,结果采取多分值累加计数,在后续分析中满足累加计数条件的会被优先筛选;其中,翻译有害氨基酸是指从突变位点开始改,突变位点导致氨基酸改变进而影响蛋白功能的变化。
优选的,致病性注释包括根据已研究报道的文献以及数据库,借助ClinVar、HGMD、GWASCatalog、PharmGKB、OMIM、DrugBank、Orphanet整理变异位点-疾病-药物关系、基因-疾病-药物关系,整合GTEx数据库中的表达数量性状,利用NCBI、KEGG、GO数据库整理基因功能和通路,用整合好的数据库对变异位点进行注释。
优选的,S1中,种群、疾病、性别作为可选的输入参数。
根据本发明一种典型的实施方式,全基因组为人类全基因组。
根据本发明一种典型的实施方式,提供一种全基因组变异数据的注释系统。根据本发明的另一方面,提供了一种全基因组变异数据的注释系统。该注释系统,包括:数据录入装置,采用国际标准的VCF格式储存变异数据作为输入文件;基因型判断装置,在标准的VCF存储格式里,与参考基因组一致的碱基类型用0表示,与参考基因组不一致的碱基类型用1,2,3……表示,根据该标准进行基因型判断;多等位基因基因型分割装置,用于进行SNP和InDel的多等位基因型进行拆分使得等位基因型都使用0和1表示;;InDel发生位置归一化装置,采用向左对齐和简约的归一化方法进行Indel发生位置归一化;以及注释装置,进行基因结构注释、等位基因频率注释、变异位点的有害性预测以及致病性注释。
进一步地,注释装置包括:基因结构注释装置、等位基因频率注释装置、变异位点的有害性预测装置以及致病性注释装置。
进一步地,基因结构注释装置包括统计基因结构装置和突变类型分类装置。
进一步地,等位基因频率注释装置包括:种群分类装置、性别分类装置和疾病分类装置,种群分类装置、性别分类装置和疾病分类装置的下游设置有MAF计算装置,MAF计算装置的下游设置有结果整合与筛选装置和和中国人种群结果整合分析装置。
应用本发明的技术方案具有至少以下技术效果:
1)本发明除了对编码区变异进行功能注释外,还提供非编码区和调控区变异的基因结构和功能注释,为该区域致病位点的发现提供了可能。
2)本发明对InDel发生位置进行归一化,保证InDel的准确注释,有效地解决了候选致病InDel的筛选难题。
3)本发明的频率注释充分考虑了种群/地域/性别差异,借助一致人群的频率注释,大大提高了致病位点筛选的可靠性。
4)本发明提供位点-疾病-药物、基因-疾病-药物的关联,对基因与疾病之间的关联提供了全面的信息,为致病变异的挖掘减少障碍。
5)本发明提供基因功能和通路注释,在后续分析中可以通过疾病相关的重要功能通路找到参与功能通路的基因。
下面将结合实施例进一步说明本发明的有益效果。
实施例1
本实施例整合bzgip(v1.0)、tabix(v1.0)、BCFtools(v1.0)中的norm模块、ANNOVAR软件(version 2015-03-22)、自写程序等模块和软件,整合了多种开放数据库和内部数据库,在Linux系统下运行。
以下对本实施例的注释方法的详细说明(如图1所示):
1)变异数据文件:采用国际标准的VCF4.1格式储存,作为输入文件;其中种群、疾病、性别作为可选的输入参数。
2)多等位基因(Multi-Allele)基因型分割:一个等位基因(Allele)存在多种基因型(Genotype)的情况;在相同或不同的人群/种群中,等位基因的不同的基因型频率是不同的,这可能导致不同表型(Phenotype),不同疾病或发病率,因此必须要对Multi-Allele进行分类。首先进行基因型判断,与参考基因组一致的碱基用0表示,与参考基因组不一致的碱基用1,2,3……表示,然后进行SNP和InDel的多等位基因型进行拆分,使得等位基因型都使用0和1表示;则等位基因基因型的表示方法示例:0/0,0/1,0/1,1/1,0/2,1/2等等。这里,0/2和1/2就属于多等位基因,两种基因型需要拆分开,进行后续的分析,具体拆分方式见如图2。在本实施例中实现本步骤的流程及装置主要是图3所示,基因型数据进行基因型判断装置,然后进入多基因型分割装置,最后进入InDel归一化装置进行归一化处理。
3)InDel发生位置归一化:目前的变异检测软件检测较为灵活,但也因此忽略的InDel的位置标识标准,导致同一个InDel在不同的检测软件结果中不同,因此需要对InDel位置进行归一化处理,使其位置具有唯一性。Left alignment&Parsimony是一种标准的归一化方法,它的原理是:将变异位点的起始位置向左移动至不能移动为止,在保证等位基因InDel的长度都不为0的情况下,尽可能用最少碱基来表示,见图3。
4)基因结构注释:根据knownGene数据库注释的人类基因结构,构建基因编码区(外显子区),非编码区(内含子,基因间区),调控区(基因结构上下游1Kb范围内)(UTR,增强子,启动子),剪接体10bp区域的结构文件,以及无义突变、错义突变、同义突变等突变类型文件。将构建好的区域用于变异位点的注释划分,在本实施例中实现本步骤的流程及装置见图4,来自knownGene数据库的数据进入统计基因结构装置和突变类型装置进行处理。
5)种群/地域/性别/病种等位基因频率注释:不同性别,疾病种类的人群存在遗传多样性和差异性。疾病的变异位点在不同的人群中其发生频率不一致,甚至是不一样。因此对变异位点的注释必须要使用一致人群的数据库频率注释。在本平台中已对已知的人群、疾病、性别的变异信息进行归类,并且拥有独有的中国人种群变异数据,注释时选择相应的人群,疾病种群即可完成精准最小等位基因频率(MAF)注释,在本实施例中实现本步骤的流程及装置见图5,人类群体基因组数据库的数据,进入群体分类装置、性别分类装置和疾病分类装置进行处理,然后进入MAF计算装置,最后进入结果整合与筛选装置、中国人种群结果整合分析装置。
6)变异位点的有害性预测:根据突变位点是否影响蛋白翻译并导致翻译有害氨基酸进行突变位点的有害性预测,使用SIFT,Polyphen,CADD,MutationTaster四种预测方法对突变位点进行打分,结果采取多分值累加计数。在后续分析中满足累加计数条件的会被优先筛选。
7)致病性注释:先挖掘已研究报道的文献以及数据库,借助ClinVar、HGMD、GWASCatalog、PharmGKB、OMIM、DrugBank、Orphanet等整理位点-疾病-药物关系、基因-疾病-药物关系,整合GTEx数据库中的表达数量性状,利用NCBI、KEGG、GO等数据库整理基因功能和通路。用整合好数据库对变异位点进行注释。
从以上的描述中,可以看出,本发明上述的实施例实现了如下技术效果:
本实施例的人类全基因组变异数据注释系统,整合了传统注释的优点,解决了传统注释的缺点,实现了变异位点位置、功能人种等多复杂度的精准注释,保证并提高了后续人类疾病精准分析的准确性。
本发明的技术方案,包含内含子区位点注释、基因功能、通路注释、基因-疾病-药物、变异位点-疾病-药物关联注释以及针对等位基因多基因型位点进行分类分型,降低罕见突变的检测假阴性;本发明考虑了基因组种群/地域/性别差异,适用于亚洲/中国人群/各种群/各地域/性别进行疾病候选致病位点的发现;注释信息全面,准确性高,为后续数据挖掘提供更加精准的候选致病性位点。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (11)

1.一种全基因组变异数据的注释方法,其特征在于,包括以下步骤:
S1,创建变异数据文件:采用国际标准的VCF格式储存变异数据作为输入文件;
S2,多等位基因基因型分割:首先进行基因型判断,与参考基因组一致的碱基用0表示,与参考基因组不一致的碱基用1,2,3……表示,然后进行SNP和InDel的多等位基因型进行拆分,使得等位基因型都使用0和1表示;
S3,InDel发生位置归一化:采用向左对齐和简约的归一化方法进行InDel发生位置归一化;以及
S4,注释:进行基因结构注释、等位基因频率注释、变异位点的有害性预测以及致病性注释。
2.根据权利要求1所述的注释方法,其特征在于,所述基因结构注释包括根据数据库注释基因结构,构建基因编码区、非编码区、调控区、剪接体10bp区域的结构文件,以及突变类型文件。
3.根据权利要求1所述的注释方法,其特征在于,所述等位基因频率注释包括对于种群/地域/性别/病种等位基因频率注释。
4.根据权利要求1所述的注释方法,其特征在于,所述变异位点的有害性预测包括根据突变位点是否影响蛋白翻译并导致翻译有害氨基酸进行突变位点的有害性预测,使用SIFT,Polyphen,CADD,MutationTaster四种预测方法对突变位点进行打分,结果采取多分值累加计数,在后续分析中满足累加计数条件的会被优先筛选。
5.根据权利要求1所述的注释方法,其特征在于,所述致病性注释包括根据已研究报道的文献以及数据库,借助ClinVar、HGMD、GWASCatalog、PharmGKB、OMIM、DrugBank、Orphanet整理位点-疾病-药物关系、基因-疾病-药物关系,整合GTEx数据库中的表达数量性状,利用NCBI、KEGG、GO数据库整理基因功能和通路,用整合好的数据库对变异位点进行注释。
6.根据权利要求1所述的注释方法,其特征在于,所述S1中,种群、疾病、性别作为可选的输入参数。
7.根据权利要求1所述的注释方法,其特征在于,所述全基因组为人类全基因组。
8.一种全基因组变异数据的注释系统,其特征在于,包括:
数据录入装置,采用国际标准的VCF格式储存变异数据作为输入文件;
基因型判断装置,在标准的VCF存储格式里,与参考基因组一致的碱基类型用0表示,与参考基因组不一致的碱基类型用1,2,3……表示,根据该标准进行基因型判断;
多等位基因基因型分割装置,用于进行SNP和InDel的多等位基因型进行拆分,使得等位基因型都使用0和1表示;
InDel发生位置归一化装置,采用向左对齐和简约的归一化方法进行InDel发生位置归一化;以及
注释装置,进行基因结构注释、等位基因频率注释、变异位点的有害性预测以及致病性注释。
9.根据权利要求8所述的注释系统,其特征在于,所述注释装置进一步包括:基因结构注释装置、等位基因频率注释装置、变异位点的有害性预测装置以及致病性注释装置。
10.根据权利要求9所述的注释系统,其特征在于,所述基因结构注释装置包括统计基因结构装置和突变类型分类装置。
11.根据权利要求9所述的注释系统,其特征在于,所述等位基因频率注释装置包括:种群分类装置、性别分类装置和疾病分类装置,所述种群分类装置、所述性别分类装置和所述疾病分类装置的下游设置有MAF计算装置,所述MAF计算装置的下游设置有结果整合与筛选装置和和中国人种群结果整合分析装置。
CN201610502321.0A 2016-06-29 2016-06-29 一种全基因组变异数据的注释方法和注释系统 Pending CN106156538A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610502321.0A CN106156538A (zh) 2016-06-29 2016-06-29 一种全基因组变异数据的注释方法和注释系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610502321.0A CN106156538A (zh) 2016-06-29 2016-06-29 一种全基因组变异数据的注释方法和注释系统

Publications (1)

Publication Number Publication Date
CN106156538A true CN106156538A (zh) 2016-11-23

Family

ID=57350559

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610502321.0A Pending CN106156538A (zh) 2016-06-29 2016-06-29 一种全基因组变异数据的注释方法和注释系统

Country Status (1)

Country Link
CN (1) CN106156538A (zh)

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106611106A (zh) * 2016-12-06 2017-05-03 北京荣之联科技股份有限公司 基因变异检测方法及装置
CN106778073A (zh) * 2017-01-19 2017-05-31 北京吉因加科技有限公司 一种评估肿瘤负荷变化的方法和系统
CN106778065A (zh) * 2016-12-30 2017-05-31 同济大学 一种基于多元数据预测dna突变影响蛋白互作的预测方法
CN107122624A (zh) * 2017-05-01 2017-09-01 杨永臣 人类基因突变的hgvs名称生成及分析系统的实现方法
CN107194208A (zh) * 2017-04-25 2017-09-22 北京荣之联科技股份有限公司 一种基因分析注释方法和装置
CN107287285A (zh) * 2017-03-28 2017-10-24 上海至本生物科技有限公司 一种预测同源重组缺失机制及患者对癌症治疗响应的方法
CN107862176A (zh) * 2017-10-13 2018-03-30 浙江大学 一种基于多组学数据整合的植物全基因组多层次生物网络重建方法
CN107885977A (zh) * 2017-11-30 2018-04-06 淮南师范学院 一种用于检测动物类群线粒体基因组重排的方法
CN108108592A (zh) * 2017-12-29 2018-06-01 北京聚道科技有限公司 一种用于遗传变异致病性打分的机器学习模型的构建方法
CN108629148A (zh) * 2017-03-15 2018-10-09 深圳市乐土精准医疗科技有限公司 基于表型分析的眼部生理信息的基因组分析方法和装置
CN108710782A (zh) * 2018-05-16 2018-10-26 为朔医学数据科技(北京)有限公司 基因型转换方法、装置及电子设备
CN109086571A (zh) * 2018-08-03 2018-12-25 国家卫生计生委科学技术研究所 一种单基因病遗传变异智能解读及报告的方法和系统
CN109192245A (zh) * 2018-07-26 2019-01-11 中山大学 基因变异数据的GDS-Huffman压缩方法
CN109243530A (zh) * 2018-11-20 2019-01-18 北京荣之联科技股份有限公司 遗传变异判定方法、系统以及存储介质
CN109566398A (zh) * 2018-12-21 2019-04-05 中国农业科学院农业基因组研究所 一种马铃薯杂交育种亲本的选择方法
CN109686439A (zh) * 2018-12-04 2019-04-26 东莞博奥木华基因科技有限公司 遗传病基因检测的数据分析方法、系统及存储介质
WO2019109732A1 (zh) * 2017-12-05 2019-06-13 华南理工大学 一种基因变异数据分布式存储方法及架构
CN109994154A (zh) * 2017-12-30 2019-07-09 安诺优达基因科技(北京)有限公司 一种单基因隐性遗传疾病候选致病基因的筛选装置
CN110379458A (zh) * 2019-07-15 2019-10-25 中国人民解放军陆军军医大学第一附属医院 致病性变异位点判定方法、装置、计算机设备及存储介质
CN110462063A (zh) * 2017-05-23 2019-11-15 深圳华大生命科学研究院 一种基于测序数据的变异检测方法、装置和存储介质
CN111048173A (zh) * 2019-12-19 2020-04-21 博奥生物集团有限公司 一种用药数据推送方法及装置
CN111091870A (zh) * 2019-12-18 2020-05-01 中国科学院大学 基因变异位点质量控制方法及系统
CN111540406A (zh) * 2020-04-13 2020-08-14 中南大学湘雅医院 一种人类基因变异快速注释的方法
CN111653313A (zh) * 2020-05-25 2020-09-11 中国人民解放军海军军医大学第三附属医院 一种变异序列的注释方法
CN113257347A (zh) * 2021-05-14 2021-08-13 温州谱希医学检验实验室有限公司 注释后的突变检测结果文件的数据处理方法及相关设备
CN113362889A (zh) * 2021-06-25 2021-09-07 广州燃石医学检验所有限公司 基因组结构变异注释方法
WO2022105629A1 (zh) * 2020-11-23 2022-05-27 福建和瑞基因科技有限公司 一种用于检测样本污染水平的snp位点的筛选方法及样本污染水平的检测方法
CN114724628A (zh) * 2022-04-24 2022-07-08 华中农业大学 一种对多物种进行多核苷酸变异鉴定和注释的方法
CN117746989A (zh) * 2024-02-20 2024-03-22 北京贝瑞和康生物技术有限公司 变异描述信息的处理方法、装置及电子设备
CN117746989B (zh) * 2024-02-20 2024-05-10 北京贝瑞和康生物技术有限公司 变异描述信息的处理方法、装置及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104182655A (zh) * 2014-09-01 2014-12-03 上海美吉生物医药科技有限公司 一种判断胎儿基因型的方法
CN105224825A (zh) * 2015-10-30 2016-01-06 景德镇陶瓷学院 一种新的融合核苷酸二联体结构信息和物理化学特性的rna序列表示方法
CN105389482A (zh) * 2015-09-28 2016-03-09 深圳华大基因科技服务有限公司 一种基于云平台的大数据分析方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104182655A (zh) * 2014-09-01 2014-12-03 上海美吉生物医药科技有限公司 一种判断胎儿基因型的方法
CN105389482A (zh) * 2015-09-28 2016-03-09 深圳华大基因科技服务有限公司 一种基于云平台的大数据分析方法
CN105224825A (zh) * 2015-10-30 2016-01-06 景德镇陶瓷学院 一种新的融合核苷酸二联体结构信息和物理化学特性的rna序列表示方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ADRIAN TAN 等: "Unified representation of genetic variants", 《BIOINFORMATICS》 *
葡萄糖的博客: "VCF文件格式详解", 《网络公开(HTTP://SINA.COM.CN/S/BLOG_15D5E3D3C0101QV1U.HTML)》 *
黎籽秀等: "高通量测序数据分析和临床诊断流程的解读", 《中国循证儿科杂志》 *

Cited By (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106611106B (zh) * 2016-12-06 2019-05-03 北京荣之联科技股份有限公司 基因变异检测方法及装置
CN106611106A (zh) * 2016-12-06 2017-05-03 北京荣之联科技股份有限公司 基因变异检测方法及装置
CN106778065A (zh) * 2016-12-30 2017-05-31 同济大学 一种基于多元数据预测dna突变影响蛋白互作的预测方法
CN106778065B (zh) * 2016-12-30 2019-02-01 同济大学 一种基于多元数据预测dna突变影响蛋白互作的预测方法
CN106778073A (zh) * 2017-01-19 2017-05-31 北京吉因加科技有限公司 一种评估肿瘤负荷变化的方法和系统
CN106778073B (zh) * 2017-01-19 2019-09-06 北京吉因加科技有限公司 一种评估肿瘤负荷变化的方法和系统
CN108629148A (zh) * 2017-03-15 2018-10-09 深圳市乐土精准医疗科技有限公司 基于表型分析的眼部生理信息的基因组分析方法和装置
CN107287285A (zh) * 2017-03-28 2017-10-24 上海至本生物科技有限公司 一种预测同源重组缺失机制及患者对癌症治疗响应的方法
CN107194208B (zh) * 2017-04-25 2020-10-02 荣联科技集团股份有限公司 一种基因分析注释方法和装置
CN107194208A (zh) * 2017-04-25 2017-09-22 北京荣之联科技股份有限公司 一种基因分析注释方法和装置
CN107122624A (zh) * 2017-05-01 2017-09-01 杨永臣 人类基因突变的hgvs名称生成及分析系统的实现方法
CN110462063A (zh) * 2017-05-23 2019-11-15 深圳华大生命科学研究院 一种基于测序数据的变异检测方法、装置和存储介质
CN107862176A (zh) * 2017-10-13 2018-03-30 浙江大学 一种基于多组学数据整合的植物全基因组多层次生物网络重建方法
CN107885977A (zh) * 2017-11-30 2018-04-06 淮南师范学院 一种用于检测动物类群线粒体基因组重排的方法
WO2019109732A1 (zh) * 2017-12-05 2019-06-13 华南理工大学 一种基因变异数据分布式存储方法及架构
CN108108592A (zh) * 2017-12-29 2018-06-01 北京聚道科技有限公司 一种用于遗传变异致病性打分的机器学习模型的构建方法
CN108108592B (zh) * 2017-12-29 2020-06-16 北京聚道科技有限公司 一种用于遗传变异致病性打分的机器学习模型的构建方法
CN109994154B (zh) * 2017-12-30 2021-07-13 安诺优达基因科技(北京)有限公司 一种单基因隐性遗传疾病候选致病基因的筛选装置
CN109994154A (zh) * 2017-12-30 2019-07-09 安诺优达基因科技(北京)有限公司 一种单基因隐性遗传疾病候选致病基因的筛选装置
CN108710782A (zh) * 2018-05-16 2018-10-26 为朔医学数据科技(北京)有限公司 基因型转换方法、装置及电子设备
CN109192245A (zh) * 2018-07-26 2019-01-11 中山大学 基因变异数据的GDS-Huffman压缩方法
CN109086571B (zh) * 2018-08-03 2019-08-23 国家卫生健康委科学技术研究所 一种单基因病遗传变异智能解读及报告的方法和系统
CN109086571A (zh) * 2018-08-03 2018-12-25 国家卫生计生委科学技术研究所 一种单基因病遗传变异智能解读及报告的方法和系统
CN109243530B (zh) * 2018-11-20 2021-08-03 荣联科技集团股份有限公司 遗传变异判定方法、系统以及存储介质
CN109243530A (zh) * 2018-11-20 2019-01-18 北京荣之联科技股份有限公司 遗传变异判定方法、系统以及存储介质
CN109686439A (zh) * 2018-12-04 2019-04-26 东莞博奥木华基因科技有限公司 遗传病基因检测的数据分析方法、系统及存储介质
CN109566398A (zh) * 2018-12-21 2019-04-05 中国农业科学院农业基因组研究所 一种马铃薯杂交育种亲本的选择方法
CN110379458A (zh) * 2019-07-15 2019-10-25 中国人民解放军陆军军医大学第一附属医院 致病性变异位点判定方法、装置、计算机设备及存储介质
CN111091870A (zh) * 2019-12-18 2020-05-01 中国科学院大学 基因变异位点质量控制方法及系统
CN111091870B (zh) * 2019-12-18 2021-11-02 中国科学院大学 基因变异位点质量控制方法及系统
CN111048173A (zh) * 2019-12-19 2020-04-21 博奥生物集团有限公司 一种用药数据推送方法及装置
CN111048173B (zh) * 2019-12-19 2024-04-05 博奥生物集团有限公司 一种用药数据推送方法及装置
CN111540406A (zh) * 2020-04-13 2020-08-14 中南大学湘雅医院 一种人类基因变异快速注释的方法
CN111653313A (zh) * 2020-05-25 2020-09-11 中国人民解放军海军军医大学第三附属医院 一种变异序列的注释方法
CN111653313B (zh) * 2020-05-25 2022-07-29 中国人民解放军海军军医大学第三附属医院 一种变异序列的注释方法
WO2022105629A1 (zh) * 2020-11-23 2022-05-27 福建和瑞基因科技有限公司 一种用于检测样本污染水平的snp位点的筛选方法及样本污染水平的检测方法
CN113257347A (zh) * 2021-05-14 2021-08-13 温州谱希医学检验实验室有限公司 注释后的突变检测结果文件的数据处理方法及相关设备
CN113257347B (zh) * 2021-05-14 2022-02-11 温州谱希医学检验实验室有限公司 注释后的突变检测结果文件的数据处理方法及相关设备
CN113362889A (zh) * 2021-06-25 2021-09-07 广州燃石医学检验所有限公司 基因组结构变异注释方法
CN114724628A (zh) * 2022-04-24 2022-07-08 华中农业大学 一种对多物种进行多核苷酸变异鉴定和注释的方法
CN117746989A (zh) * 2024-02-20 2024-03-22 北京贝瑞和康生物技术有限公司 变异描述信息的处理方法、装置及电子设备
CN117746989B (zh) * 2024-02-20 2024-05-10 北京贝瑞和康生物技术有限公司 变异描述信息的处理方法、装置及电子设备

Similar Documents

Publication Publication Date Title
CN106156538A (zh) 一种全基因组变异数据的注释方法和注释系统
Touw et al. Data mining in the Life Sciences with Random Forest: a walk in the park or lost in the jungle?
CA2964902C (en) Ancestral human genomes
US20230377691A1 (en) Estimating predisposition for disease based on classification of artifical image objects created from omics data
KR101542529B1 (ko) 대립유전자의 바이오마커 발굴방법
Kumar et al. Computational SNP analysis: current approaches and future prospects
CN106021984A (zh) 一种全外显子组测序数据分析系统
KR101460520B1 (ko) 차세대 시퀀싱 데이터의 질병변이마커 검출 방법
CN106227992A (zh) 一种治疗方案的推荐方法及系统
EP1514213A2 (en) Computer systems and methods for subdividing a complex disease into component diseases
CN105930690A (zh) 一种全外显子组测序数据分析方法
CN109346130A (zh) 一种直接从全基因组重测序数据中得到微单体型及其分型的方法
CN108256293A (zh) 一种疾病关联基因组合的统计方法及系统
Gratton et al. Testing classical species properties with contemporary data: how “bad species” in the brassy ringlets (Erebia tyndarus complex, Lepidoptera) turned good
Snedecor et al. Fast and accurate kinship estimation using sparse SNPs in relatively large database searches
KR20210103452A (ko) 혈액암 약물 반응성 판단을 위한 바이오 마커 조성물, 바이오 마커 조성물을 이용한 혈액암 약물 반응성 판단 방법 및 혈액암 약물 반응성 판단을 위한 바이오 마커 조성물 검출용 진단칩
CN109993305A (zh) 基于大数据人工智能算法的祖源多态性预测方法
CN109686414A (zh) 仅用于肝癌筛查的特异甲基化检测位点组合的选取方法
CN106682456B (zh) 一种基于基因组表观调控元件特征的复杂疾病易感基因的挖掘方法
KR20180069651A (ko) 개인 유전체 맵 기반 맞춤의학 분석 플랫폼 및 이를 이용한 분석 방법
KR20190000341A (ko) 개인 유전체 맵 기반 맞춤의학 분석 플랫폼 및 이를 이용한 분석 방법
CN108172296A (zh) 一种数据库的建立方法和遗传疾病的风险预测方法
CN104598775A (zh) 一种rna编辑事件识别机制及其高效实现方案
Pandey et al. Identification of Cancer Hotspot Residues and Driver Mutations Using Machine Learning
CN112331290A (zh) 一种基因体检报告自动化生成方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20161123

RJ01 Rejection of invention patent application after publication