CN101914628B - 检测基因组目标区域多态性位点的方法 - Google Patents

检测基因组目标区域多态性位点的方法 Download PDF

Info

Publication number
CN101914628B
CN101914628B CN2010102704646A CN201010270464A CN101914628B CN 101914628 B CN101914628 B CN 101914628B CN 2010102704646 A CN2010102704646 A CN 2010102704646A CN 201010270464 A CN201010270464 A CN 201010270464A CN 101914628 B CN101914628 B CN 101914628B
Authority
CN
China
Prior art keywords
snp site
depth
snp
degree
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2010102704646A
Other languages
English (en)
Other versions
CN101914628A (zh
Inventor
李英睿
余昶
罗锐邦
张帆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BGI Technology Solutions Co Ltd
Original Assignee
BGI Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BGI Shenzhen Co Ltd filed Critical BGI Shenzhen Co Ltd
Priority to CN2010102704646A priority Critical patent/CN101914628B/zh
Publication of CN101914628A publication Critical patent/CN101914628A/zh
Priority to HK11101668.6A priority patent/HK1147528A1/xx
Priority to PCT/CN2011/001431 priority patent/WO2012027958A1/zh
Application granted granted Critical
Publication of CN101914628B publication Critical patent/CN101914628B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection

Landscapes

  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Chemical & Material Sciences (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Analytical Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种检测基因组目标区域多态性位点的方法,该方法包括:获取外显子测序结果步骤,去冗余与排序步骤,统计分析步骤I,探测SNP位点步骤,SNP位点过滤步骤,统计分析步骤II和SNP注释步骤。本发明通过对基因组特定区域测序进行SNP分析,而且本发明检测SNP结果准确度高,速度快,成本低,全过程均可以实现自动化,即以原始测序数据为数据源,自动生成高质量SNP位点,并对SNP位点进行注释与分类。

Description

检测基因组目标区域多态性位点的方法
技术领域
本发明涉及生物技术领域,尤其涉及一种检测基因组目标区域多态性位点的方法。
背景技术
随着人类基因组计划和国际单体型图计划的胜利完成,生物学家通过遗传连锁或关联分析已经定位了大量与人类疾病相关的基因组候选区域,然而识别这些区域中的致病基因或突变需要对这些区域进行重新测序。
如果采用现有的全基因组重测序分析技术,其成本较高;而且对于针对候选区域等部分的研究、或者对于个体医疗给出有针对性的指导来说,全基因组重测序分析的结果包含大量冗余信息,不利于高效率地得出较为准确的研究成果。
为了提高获得有效信息的效率,将现有基因分析技术集中在高价值的基因研究区域对于科学研究和医疗指导具有重大意义。而且,传统的基于PCR(聚合酶链式反应,Polymerase Chain Reaction)来对候选区域进行测序的方法,费时费力,已经无法满足研究者的要求;同时基于基因芯片的SNP(单核苷酸多态性,Single NucleotidePolymorphism)分型技术也无法找出基因组上的稀有变异。
随着新一代高通量测序技术(如Solexa测序技术)的出现以及测序成本的降低,使得高通量,低成本测序成为可能。研究者迫切需要一种可以对基因组上任意感兴趣的区域进行测序从而可以识别该区域上各种突变的技术。
由于基因编码区的突变是导致疾病的主要原因,因此将一个人基因组的所有编码区(即外显子区域)提取出来进行测序就可以很好的了解该个体的基因组突变信息,进而评估该个体的患病风险。因此,在当前对全基因组进行测序的成本还是很高的情况下,对所有的人类外显子进行测序是解码个人基因组和实现个体化医疗的重要手段。
因此,基于外显子区域或目标区域捕获(Target Region Capture)的高通量测序方法应运而生。该技术的基本原理是使用一套寡核苷酸探针来捕获基因组上的目标序列,然后使用通用引物对这些捕获到的序列进行PCR扩增,最后对这些扩增产物进行高通量测序,从而识别DNA样品中的碱基序列。
综上所述,提供一种检测基因组目标区域多态性位点的方法及系统,解决现有基因组外显子检测手段不完善、数据庞杂、准确度不高以及分析速度慢等缺陷,成为本领域亟待解决的技术问题。
发明内容
本发明要解决的一个技术问题是提供一种检测基因组目标区域多态性位点的方法。
本发明的一个方面提供了一种检测基因组目标区域多态性位点的方法,该方法包括:获取外显子测序结果步骤:对人类基因组DNA样品进行测序和纯化处理,得到外显子区域测序结果;将外显子区域测序结果与参考基因序列进行比对得到精确的比对结果;去冗余与排序步骤:对比对后获得的比对结果进行去除重复信息和排序处理;统计分析步骤I:对全局的目标区域进行深度和覆盖度统计,以及用X,Y染色体的目标区域的测序深度,对样本的性别进行检验;判断样品是否被污染;探测SNP位点步骤:从排序处理后的结果中找到SNP位点;SNP位点过滤步骤:以质量值为指标对探测得到的SNP位点进行筛选;统计分析步骤II:对过滤后的SNP位点的覆盖度进行统计,并以每个SNP位点的最优等位基因支持深度和次优等位基因支持深度进行分析,判断样品是否被污染;SNP注释步骤:用过滤后的SNP位点与dbSNP数据库中的信息进行比较,并结合ccds、refseq、ensembl数据库中至少一个中的数据对比对吻合的SNP位点进行注释与分类。
本发明提供的检测基因组目标区域多态性位点的方法的一个实施例中,在获取外显子测序结果步骤中,通过将测序结果中含有的、由测序过程引入的linker序列和adapter序列去除以实现纯化处理;以及利用Soap工具将外显子区域测序结果与参考基因序列进行比对,得到精确的比对结果。
本发明提供的检测基因组目标区域多态性位点的方法的一个实施例中,在去冗余与排序步骤中,将比对结果去除重复信息后按照染色体和坐标排序,排序处理后的结果作为探测SNP位点步骤待处理的对象。
本发明提供的检测基因组目标区域多态性位点的方法的一个实施例中,在统计分析步骤I中,采用工具soap.coverage对全局的目标区域进行深度和覆盖度统计,并绘制具体分布图,用以反映样品目标区域被覆盖的均一性、大于预定值的碱基所占比例;以及用X,Y染色体的目标区域的测序深度,根据支持向量机的分析原理对样本的性别进行检验;判断样品是否被污染;如果样品在实验阶段被污染,则给出具体的污染信息。
本发明提供的检测基因组目标区域多态性位点的方法的一个实施例中,在统计分析步骤II中,如果SNP位点的最优等位基因支持深度和次优等位基因支持深度分析显示全局的SNP杂合率呈现集中趋势,则判断样品被污染。
本发明的另一个方面提供了一种检测基因组目标区域多态性位点的系统,该装置包括:外显子测序结果获取模块,用于对人类基因组DNA样品进行测序和纯化处理,得到外显子区域测序结果;将外显子区域测序结果与参考基因序列进行比对得到精确的比对结果;去冗余与排序模块,用于对比对后获得的比对结果进行去除重复信息和排序处理;统计分析模块,用于对全局的目标区域进行深度和覆盖度统计,以及用X,Y染色体的目标区域的测序深度,对样本的性别进行检验;判断样品是否被污染;对过滤后的SNP位点的覆盖度进行统计,并以每个SNP位点的最优等位基因支持深度和次优等位基因支持深度进行分析,判断样品是否被污染;SNP位点探测模块,用于从排序处理后的结果中找到SNP位点;SNP位点过滤模块,用于以质量值为指标对探测得到的SNP位点进行筛选;SNP注释模块,用于将过滤后的SNP位点与dbSNP数据库中的信息进行比较,并结合ccds、refseq、ensembl数据库中至少一个中的数据对比对吻合的SNP位点进行注释与分类。
本发明提供的检测基因组目标区域多态性位点的系统的一个实施例中,外显子测序结果获取模块进一步包括:纯化处理子模块,用于将测序结果中含有的、由测序过程引入的linker序列和adapter序列去除;比对子模块,用于利用Soap工具将外显子区域测序结果与参考基因序列进行比对,得到精确的比对结果。
本发明提供的检测基因组目标区域多态性位点的系统的一个实施例中,去冗余与排序模块进一步包括:去冗余子模块,用于对比对后获得的比对结果进行去除重复信息处理;排序子模块,用于将去除重复信息后的比对结果按照染色体和坐标进行排序,排序处理后的结果作为SNP位点探测模块待处理的对象。
本发明提供的检测基因组目标区域多态性位点的系统的一个实施例中,统计分析模块进一步包括:第一统计分析子模块,用于对全局的目标区域进行深度和覆盖度统计,以及用X,Y染色体的目标区域的测序深度,对样本的性别进行检验;判断样品是否被污染;第二统计分析子模块,用于对过滤后的SNP位点的覆盖度进行统计,并以每个SNP位点的最优等位基因支持深度和次优等位基因支持深度进行分析,判断样品是否被污染。
本发明提供的检测基因组目标区域多态性位点的系统的一个实施例中,第一统计分析子模块采用工具soap.coverage对全局的目标区域进行深度和覆盖度统计,并绘制具体分布图,用以反映样品目标区域被覆盖的均一性、大于预定值的碱基所占比例;以及用X,Y染色体的目标区域的测序深度,根据支持向量机的分析原理对样本的性别进行检验;判断样品是否被污染;如果样品在实验阶段被污染,则给出具体的污染信息;第二统计分析子模块对过滤后的SNP位点的覆盖度进行统计,并以每个SNP位点的最优等位基因支持深度和次优等位基因支持深度进行分析;如果SNP位点的最优等位基因支持深度和次优等位基因支持深度分析显示全局的SNP杂合率呈现集中趋势,则判断样品被污染。
本发明提供了一种关于检测基因组目标区域多态性位点的方法及系统,对基因组特定区域测序进行SNP分析,检测SNP结果准确度高,速度快,成本低。
进一步,检测基因组目标区域多态性位点的全过程均可以实现自动化,即以原始测序数据为数据源,自动生成高质量SNP位点,并对SNP位点进行注释与分类。
进一步,通过对实验样品进行深度、覆盖度分析、捕获效率分析、性别检验、SNP位点杂合度一致性等检验,解决了基因组外显子区域生物信息学分析方法和工具不完善的问题,大大提高了对基因组外显子数据分析的准确性和可靠性。
进一步,通过对基因组特定区域测序进行比对、SNP位点注释与分类等操作,高效、快速地获取高准确度的SNP注释结果,为解码个人基因组和实现个体化医疗提供保障,解决了基因组外显子区域生物信息学分析方法和工具不完善的问题。
附图说明
图1示出本发明实施例提供的一种检测基因组目标区域多态性位点的方法的流程图;
图2示出本发明提供的检测基因组目标区域多态性位点的方法的另一个实施例的流程图;
图3示出本发明提供的检测基因组目标区域多态性位点的方法的另一个实施例的流程图;
图4示出本发明提供的检测基因组目标区域多态性位点的方法的一个具体实施方式的流程图;
图5示出图4所示的具体实施方式采用soap.coverage对目标区域进行深度和覆盖度统计后绘制的目标区域深度分布直方图;
图6示出图4所示的具体实施方式采用soap.coverage对目标区域进行深度和覆盖度统计后绘制的目标区域深度积累分布图;
图7示出图4所示的具体实施方式采用soap.coverage对目标区域进行深度和覆盖度统计后绘制的测序深度饱和度曲线图;
图8示出图4所示的具体实施方式对每个SNP位点的最优allele支持深度和次优allele支持深度进行分析后绘制的SNP位点杂合度散点图;
图9示出本发明实施例提供的一种检测基因组目标区域多态性位点的系统的结构示意图;
图10示出本发明提供的检测基因组目标区域多态性位点的系统的另一个实施例的结构示意图;
图11示出本发明提供的检测基因组目标区域多态性位点的系统的另一个实施例的结构示意图;
图12示出本发明提供的检测基因组目标区域多态性位点的系统的另一个实施例的结构示意图。
具体实施方式
下面参照附图用本发明的示例性实施例对本发明进行更全面的描述及说明。
图1示出本发明实施例提供的一种检测基因组目标区域多态性位点的方法的流程图。
如图1所示,检测基因组目标区域多态性位点的方法100包括步骤102,获取外显子测序结果步骤:对人类基因组DNA样品进行测序和纯化处理,得到外显子区域测序结果;将外显子区域测序结果与参考基因序列进行比对得到精确的比对结果。本发明实施例中,测序方法可以采用高通量测序技术,例如采用Illumina GA Solexa测序技术;Solexa是一种基于边合成边测序技术(SBS,Sequencing-By-Synthesis)的新型测序方法,通过利用单分子阵列实现在小型芯片(Flow Cell)上进行桥式PCR反应。新的可逆阻断技术可实现每次只合成一个碱基,不需要标记荧光基团,再利用相应的激光激发荧光基团捕获激发光,从而读取碱基信息。
本发明的一个实施例中,可以采用本申请人(深圳华大基因科技有限公司)自主研发的soap工具(该软件可以免费获得,下载网址是http://soap.genomics.org.cn/)将纯化处理后的外显子区域测序结果比对到参考基因组(参考基因组可以来自标准化组织公开发布的基因组信息)上,得到精确的比对结果;其中对soap工具所涉及的具体方法可以参见文献:SOAP:short oligonucleotide alignment program;Ruiqiang Li,Yingrui Li,Karsten Kristiansen and Jun Wang;Bioinformatics;200824(5):713-714;doi:10.1093。
步骤104,去冗余与排序步骤:对比对后获得的比对结果进行去除重复信息和排序处理。本发明提供的一个实施例中,通过将比对结果去除重复信息后按照“染色体和坐标”排序,排序处理后的结果作为探测SNP位点步骤待处理的对象。
步骤106,统计分析步骤I:对全局的目标区域(target region)进行深度和覆盖度统计,以及用X,Y染色体的目标区域的测序深度,对样本的性别进行检验;判断样品是否被污染,从而排除潜在的样品污染。
本发明中目标区域可以是预先设定或已知的一系列参考坐标,来标示所关注的区域。本发明的一个实施例中,可以采用本申请人自主研发的工具soap.coverage(Soap.coverage是一个完备的统计工具,该软件可以免费获得,下载网址是http://soap.genomics.org.cn/)对target区域进行深度和覆盖度统计。在分析报告中可以具体给出Pure或Polluted的定性分析结论。
步骤108,探测SNP位点步骤:从排序处理后的结果中找到SNP位点。单核苷酸多态性(SNP)是指在基因组上单个核苷酸的变异,形成的遗传标记数量很多,多态性丰富。这种发生在基因组序列上的变异,会影响遗传疾病的发生,生物体对于各种病原体,化学品,药物以及疫苗等的反应。人体许多表型差异、对疾病的易感性等等都可能与SNP有关。因此,SNP被普遍认为是实现个体化医疗的关键,对于SNP的分析检测具有重大价值。本发明的一个实施例中,可以采用本申请人自主开发的SNP探测工具soapSNP(该软件可以免费获得,下载网址是http://soap.genomics.org.cn/)找到我们所关心的SNP位点,其中有关SoapSNP工具的原理可以参见文献:SNP detection formassively parallel whole genome resequencing;Ruiqiang Li,YingruiLi,Xiaodong Fang,Huanming Yang,Jian Wang,KarstenKristiansen and Junn Wang Genome Res.;2009.19:1124-1132。
步骤110,SNP位点过滤步骤:以质量值为指标对探测得到的SNP位点进行筛选。本发明的一个实施例中,可以预先规定质量值的阈值为20(阈值20代表错误率是0.01,低于这个值可视为“不可信”),以此阈值作为筛选SNP位点的指标;本领域技术人员根据本发明的教导可以清楚的知晓,根据具体的样品进行SNP位点筛选的标准是可以不同的,本领域技术人员可以根据实际情况选取合适的阈值,前述所举例说明的阈值并不用来限制本发明的。
步骤112,统计分析步骤II:对过滤后的SNP位点的覆盖度进行统计,并以每个SNP位点的最优等位基因(allele)支持深度和次优等位基因支持深度进行分析,判断样品是否被污染。其中最优等位基因“支持深度”,即有多少条基因序列在当前坐标的基因型与最优基因型一致;如果SNP位点的最优等位基因支持深度和次优等位基因支持深度分析显示全局的SNP杂合率呈现集中趋势,例如散点呈现出线性关系,相关系数r的平方趋近于1时,斜率是否偏离0.5(0.5是正常值);据此判断样品被污染。
步骤114,SNP注释步骤:用过滤后的SNP位点与dbSNP数据库中的信息进行比较,并结合ccds(Consensus CDS的简称)、refseq、ensembl数据库中至少一个中的数据对比对吻合的SNP位点进行注释与分类。其中,dbSNP数据库(单核苷酸多态性数据库,SingleNucleotide Polymorphism Database)是美国国家生物技术信息中心(NCBI,National Center for Biotechnology Information)与国家人类基因组研究所(NHGRI,National Human Genome ResearchInstitute)合作主办,向公众免费提供在不同的物种内的遗传变异的权威基因档案。通过把当前样本中出现的SNP位点与数据库中已知的SNP位点信息进行比较,确定基因突变的SNP位点,从而寻找可能受到影响的基因,并对其进行标注分类。
本发明一个实施例提供的检测基因组目标区域多态性位点的方法,对基因组特定区域测序进行SNP分析,而且本发明检测SNP结果准确度高,速度快,成本低,全过程均可以实现自动化,即以原始测序数据为数据源,自动生成高质量SNP位点,并对SNP位点进行注释与分类。
图2示出本发明提供的检测基因组目标区域多态性位点的方法的另一个实施例的流程图。
如图2所示,检测基因组目标区域多态性位点的方法200包括:步骤202、203、204-214,其中步骤204-214可以分别执行与图1所示的步骤104-114相同或相似的技术内容,为简洁起见,这里不再赘述其技术内容。
如图2所示,步骤202,对人类基因组DNA样品进行测序,通过将测序结果中含有的、由测序过程引入的linker序列和adapter序列去除以实现对外显子区域测序结果的纯化处理。
步骤203,利用Soap工具将外显子区域测序结果与参考基因序列进行比对,得到精确的比对结果。
图3示出本发明提供的检测基因组目标区域多态性位点的方法的另一个实施例的流程图。
如图3所示,检测基因组目标区域多态性位点的方法300包括:步骤302、304、306-310、312、314,其中步骤302、304、308、310、312和314可以分别执行与图1所示的步骤102、104、108、110、112和114相同或相似的技术内容,为简洁起见,这里不再赘述其技术内容。
如图3所示,在步骤304后,执行步骤306,采用工具soap.coverage对全局的目标区域进行深度和覆盖度统计,并绘制具体分布图,用以反映样品目标区域被覆盖的均一性、大于预定值的碱基所占比例。例如,根据对目标区域的深度和覆盖度统计可以绘制目标区域深度分布直方图,通过判断该直方图与泊松分布(Poisson distribution)的吻合程度来反映样品被测目标区域被覆盖的均一性;绘制目标区域深度累积分布图,反映某一深度值的碱基占总长度的比率;此外,还可以绘制测序深度饱和度曲线图,用来反映测序深度与目标区域覆盖度的相关性。
步骤307,用X,Y染色体的目标区域的测序深度,根据SVM(支持向量机,Support Vector Machine,一种广泛使用的数理统计学习方法)的分析原理对样本的性别进行检验;判断样品是否被污染;如果是,执行步骤309;否则执行步骤310。即通过用XY染色体深度进行性别检验,以排除潜在的样品被污染的情形。
步骤309,如果样品在实验阶段被污染,则给出具体的污染信息;实验失败,可以终止检测基因组目标区域多态性位点的流程。
步骤312,判断样品是否被污染;如果是,执行步骤309;否则执行步骤314。
图4示出本发明提供的检测基因组目标区域多态性位点的方法的一个具体实施方式的流程图。
本发明中,检测基因组目标区域多态性位点的方法的各步流程都可以整合到软件ECP(Exome Capture processor)中,本软件的运行环境为Unix/Linux操作系统,通过Unix/Linux命令行运行。具体操作步骤如下:
在Linux操作系统计算机终端中输入以下命令:ECP-lsample.list-o outdir-r hg18.fa-t capture_regions/-i hs.fa.index-p-fref.fa.stat-x-q 20-S
ECP命令行参数包括:
-r参考序列路径;
-l样品列表路径(列表格式见下文)
-O输出文件夹路径
-t目标区域文件夹路径
-i参考序列soap建库文件路径
-f参考序列stat文件路径
-x是否生成SNP文件
-p是否为pair-end
-S生成CNS文件
-e外显子区域文件加路径
-a是否去adapter
-L是否去linker
-h帮助
-v当前版本
待分析数据包括:
(1)、测序数据:PE_1.fq PE_2.fq(外显子区域测序结果)
(2)、参考序列:hg18.fa(物种参考序列)
(3)、外显子坐标信息:Exome.target(外显子在基因组中绝对坐标)
(4)、样品初始信息sample.list:
1)样品名:FC61K8AAAXX(该处使用的本样品需经本发明的发明人罗锐邦许可,本领域技术人员应该知晓,此处仅仅是选取一种样品作为检测对象,本发明具体方案的实现不依赖于该特定的样品,该处所使用的样品不对本发明构成任何限制);
2)lane号:
100509_I82_FC61K8AAAXX_L2_HUMlrbXAADCAAPEI-6
3)性别:Male
4)测序数据(该样品对应的测序数据,仅作举例说明,不对本发明技术方案的实现构成任何限制):
100509_I82_FC61K8AAAXX_L2_HUMlrbXAADCAAPEI-6_1.fq
100509_I82_FC61K8AAAXX_L2_HUMlrbXAADCAAPEI-6_2.fq
5)插入片段大小:100-200bp
表一示出针对样品(FC61K8AAAXX)进行检测的结果,涉及数据产量&捕获效率的分析结果等。
Figure GSB00000917555200131
如图4所示,在该具体实施方式中选择一名男性的基因组序列(样品名:FC61K8AAAXX),经过测序得到外显子区域测序结果(reads file(.fq)),经过去除linker和adapter的纯化处理,得到高通量测序结果(solexa reads);随后利用Soap工具将该处理后的该高通量测序结果与参考基因组序列(.fa)进行比对,对结果中的重复信息进行去冗余和排序处理,从而得到具有唯一性的reads;接下来进行统计分析与质量控制检测,具体来说,涉及采用soap.coverage对target区域进行深度和覆盖度统计,给出具体分布图。图5示出图4所示的具体实施方式采用soap.coverage对目标区域进行深度和覆盖度统计后绘制的目标区域深度分布直方图。如图5所示,通过判断该直方图与泊松分布(Poisson distribution)的吻合程度来反映样品被测目标区域被覆盖的均一性;具体来说,主要涉及样品目标区域是否被测到,测到的区域分布是否均一。图6示出图4所示的具体实施方式采用soap.coverage对目标区域进行深度和覆盖度统计后绘制的目标区域深度积累分布图。如图6所示,绘制目标区域深度累积分布图,反映某一深度值的碱基占总长度的比率;具体来说,主要涉及至少有多少百分比的碱基深度在多少层以上。图7示出图4所示的具体实施方式采用soap.coverage对目标区域进行深度和覆盖度统计后绘制的测序深度饱和度曲线图。如图7所示,测序深度饱和度曲线图,用来反映测序深度与目标区域覆盖度的相关性,如多少层深度就能基本覆盖全部区域,避免深度不够导致覆盖度的减少,也避免深度太大造成数据冗余。
以及针对前述排序处理后的结果,用SNP探测工具soapSNP找到我们所关心的SNP位点,如表二所示。
Figure GSB00000917555200141
表二 SNP位点探测结果的节选
根据所探测的SNP位点,以质量值为指标进行筛选过滤,并对外显子区域的SNP位点的覆盖度进行统计,并且以每个SNP位点的最优allele支持深度和次优allele支持深度进行分析。图8示出图4所示的具体实施方式对每个SNP位点的最优allele支持深度和次优allele支持深度进行分析后绘制的SNP位点杂合度散点图。如图8所示,通过显示全局的SNP的杂合率是否有一定的集中趋势来判断样品是否被污染,例如,若杂合位点深度散点图有高度集中的趋势,即相关系数趋近1,且斜率偏离0.5则说明有污染的可能。最后可以将筛选过滤后获得SNP位点结果,与dbSNP数据库中的信息进行比较,结合ccds、refseq和ensembl等数据库中至少一个数据库中的数据对其进行注释(如表三所示)与分类。
Figure GSB00000917555200151
表三 SNP位点注释结果的节选
本发明具体实施方式提供的检测基因组目标区域多态性位点的方法已整合成软件ECP,其检测全过程都能够通过自动化的方式实现,对计算机I/O资源,内存资源有很好控制。以管道技术代替以往以文件作为信息交换的方式,以二进制内存压缩和二进制文件临时存储作为大内存数据的解决方案,在理论上可以使本系统适应任何能够运行SOAP的硬件环境。
图9示出本发明实施例提供的一种检测基因组目标区域多态性位点的系统的结构示意图。
如图9所示,一种检测基因组目标区域多态性位点的系统900包括:外显子测序结果获取模块902、去冗余与排序模块904、统计分析模块906、SNP位点探测模块908、SNP位点过滤模块910和SNP注释模块912。
其中,外显子测序结果获取模块902,用于对人类基因组DNA样品进行测序和纯化处理,得到外显子区域测序结果;将外显子区域测序结果与参考基因序列进行比对得到精确的比对结果。本发明实施例中,测序方法可以采用高通量测序技术,例如Illumina GA Solexa测序技术;本发明的一个实施例中,可以采用本申请人(深圳华大基因科技有限公司)自主研发的soap工具将纯化处理后的外显子区域测序结果比对到参考基因组(参考基因组可以来自标准化组织公开发布的基因组信息)上,得到精确的比对结果;其中对soap工具所涉及的具体方法可以参见文献:SOAP:short oligonucleotide alignment program;Ruiqiang Li,Yingrui Li,Karsten Kristiansen and Jun Wang;Bioinformatics;200824(5):713-714;doi:10.1093。
去冗余与排序模块904,用于对比对后获得的比对结果进行去除重复信息和排序处理。本发明提供的一个实施例中,通过将比对结果去除重复信息后按照“染色体和坐标”排序,排序处理后的结果作为探测SNP位点步骤待处理的对象。
统计分析模块906,用于对全局的目标区域进行深度和覆盖度统计,以及用X,Y染色体的目标区域的测序深度,对样本的性别进行检验;判断样品是否被污染;对过滤后的SNP位点的覆盖度进行统计,并以每个SNP位点的最优等位基因支持深度和次优等位基因支持深度进行分析,判断样品是否被污染。本发明中目标区域可以是预先设定或已知的一系列参考坐标,来标示所关注的区域。本发明的一个实施例中,可以采用本申请人自主研发的工具soap.coverage对target区域进行深度和覆盖度统计。其中,最优等位基因“支持深度”,即有多少条基因序列在当前坐标的基因型与最优基因型一致;如果SNP位点的最优等位基因支持深度和次优等位基因支持深度分析显示全局的SNP杂合率呈现集中趋势,则判断样品被污染。
SNP位点探测模块908,用于从排序处理后的结果中找到SNP位点。本发明的一个实施例中,可以采用本申请人自主开发的SNP探测工具soapSNP找到我们所关心的SNP位点,其中有关SoapSNP工具的原理可以参见文献:SNP detection for massively parallel wholegenome resequencing;Ruiqiang Li,Yingrui Li,Xiaodong Fang,Huanming Yang,Jian Wang,Karsten Kristiansen and Junn WangGenome Res.;2009.19:1124-1132。
SNP位点过滤模块910,用于以质量值为指标对探测得到的SNP位点进行筛选。本发明的一个实施例中,可以预先规定质量值的阈值为20,以此阈值作为筛选SNP位点的指标;本领域技术人员根据本发明的教导可以清楚的知晓,根据具体的样品进行SNP位点筛选的标准是可以不同的,本领域技术人员可以根据实际情况选取合适的阈值,前述所举例说明的阈值并不用来限制本发明的。
SNP注释模块912,用于将过滤后的SNP位点与dbSNP数据库中的信息进行比较,并结合ccds、refseq、ensembl数据库中至少一个中的数据对比对吻合的SNP位点进行注释与分类。通过把当前样本中出现的SNP位点与数据库中已知的SNP位点信息进行比较,确定基因突变的SNP位点,从而寻找可能受到影响的基因,并对其进行标注分类。
本发明一个实施例提供的检测基因组目标区域多态性位点的系统,对基因组特定区域测序进行SNP分析,而且本发明检测SNP结果准确度高,速度快,成本低,全过程均可以实现自动化,即以原始测序数据为数据源,自动生成高质量SNP位点,并对SNP位点进行注释与分类。
图10示出本发明提供的检测基因组目标区域多态性位点的系统的另一个实施例的结构示意图。
如图10所示,一种检测基因组目标区域多态性位点的系统1000包括:外显子测序结果获取模块1002、去冗余与排序模块1004、统计分析模块1006、SNP位点探测模块1008、SNP位点过滤模块1010和SNP注释模块1012,其中去冗余与排序模块1004、统计分析模块1006、SNP位点探测模块1008、SNP位点过滤模块1010和SNP注释模块1012可以是与图9所示去冗余与排序模块904、统计分析模块906、SNP位点探测模块908、SNP位点过滤模块910和SNP注释模块912相同或相似的功能模块。为简洁起见,这里不再赘述。
如图10所示,外显子测序结果获取模块1002进一步包括:纯化处理子模块10021和比对子模块10022;其中
纯化处理子模块10021,用于通过将测序结果中含有的、由测序过程引入的linker序列和adapter序列。
比对子模块10022,用于利用Soap工具将外显子区域测序结果与参考基因序列进行比对,得到精确的比对结果。
图11示出本发明提供的检测基因组目标区域多态性位点的系统的另一个实施例的结构示意图。
如图11所示,一种检测基因组目标区域多态性位点的系统1100包括:外显子测序结果获取模块1102、去冗余与排序模块1104、统计分析模块1106、SNP位点探测模块1108、SNP位点过滤模块1110和SNP注释模块1112,其中外显子测序结果获取模块1102、统计分析模块1106、SNP位点探测模块1108、SNP位点过滤模块1110和SNP注释模块1112可以是与图9所示外显子测序结果获取模块902、统计分析模块906、SNP位点探测模块908、SNP位点过滤模块910和SNP注释模块912相同或相似的功能模块。为简洁起见,这里不再赘述。
如图11所示,去冗余与排序模块1104进一步包括:去冗余子模块11041和排序子模块11042,其中
去冗余子模块11041,用于对比对后获得的比对结果进行去除重复信息处理。
排序子模块11042,用于将去除重复信息后的比对结果按照染色体和坐标进行排序,排序处理后的结果作为SNP位点探测模块待处理的对象。
图12示出本发明提供的检测基因组目标区域多态性位点的系统的另一个实施例的结构示意图。
如图12所示,一种检测基因组目标区域多态性位点的系统1200包括:外显子测序结果获取模块1202、去冗余与排序模块1204、统计分析模块1206、SNP位点探测模块1208、SNP位点过滤模块1010和SNP注释模块1012,其中外显子测序结果获取模块1202、去冗余与排序模块1204、SNP位点探测模块1208、SNP位点过滤模块1010和SNP注释模块1012可以是与图9所示外显子测序结果获取模块902、去冗余与排序模块904、SNP位点探测模块908、SNP位点过滤模块910和SNP注释模块912相同或相似的功能模块。为简洁起见,这里不再赘述。
如图12所示,统计分析模块1206进一步包括:第一统计分析子模块12061和第二统计分析子模块12062,其中
第一统计分析子模块12061,用于对全局的目标区域进行深度和覆盖度统计,以及用X,Y染色体的目标区域的测序深度,对样本的性别进行检验;判断样品是否被污染。本发明提供的一个实施例中,第一统计分析子模块采用工具soap.coverage对全局的目标区域进行深度和覆盖度统计,并绘制具体分布图,用以反映样品目标区域被覆盖的均一性、大于预定值的碱基所占比例;以及用X,Y染色体的目标区域的测序深度,根据支持向量机的分析原理对样本的性别进行检验;判断样品是否被污染;如果样品在实验阶段被污染,则给出具体的污染信息。
第二统计分析子模块12062,用于对过滤后的SNP位点的覆盖度进行统计,并以每个SNP位点的最优等位基因支持深度和次优等位基因支持深度进行分析,判断样品是否被污染。本发明提供的一个实施例中,第二统计分析子模块对过滤后的SNP位点的覆盖度进行统计,并以每个SNP位点的最优等位基因支持深度和次优等位基因支持深度进行分析;如果SNP位点的最优等位基因支持深度和次优等位基因支持深度分析显示全局的SNP杂合率呈现集中趋势,则判断样品被污染。
本发明提供的检测基因组目标区域多态性位点的系统,对实验样品进行详尽统计分析与质量控制,涉及深度、覆盖度分析、捕获效率分析、性别检验、SNP位点杂合度一致性等检验。通过前述分析流程大大提高了了对基因组外显子数据分析的准确性和可靠性,同时还能够对相应错误信息进行适当修正。
参考前述本发明示例性的描述,本领域技术人员可以清楚的知晓本发明提供的检测基因组目标区域多态性位点的方法及系统所具有的前述优点;具体如下:
1、本发明一个实施例提供的检测基因组目标区域多态性位点的方法及系统,对基因组特定区域测序进行SNP分析,而且本发明检测SNP结果准确度高,速度快,成本低,全过程均可以实现自动化,即以原始测序数据为数据源,自动生成高质量SNP位点,并对SNP位点进行注释与分类。
2、本发明一个实施例提供的检测基因组目标区域多态性位点的方法及系统,已整合成软件ECP,其检测全过程都能够通过自动化的方式实现,对计算机I/O资源,内存资源有很好控制。以管道技术代替以往以文件作为信息交换的方式,以二进制内存压缩和二进制文件临时存储作为大内存数据的解决方案,在理论上可以使本系统适应任何能够运行SOAP的硬件环境。
3、本发明一个实施例提供的检测基因组目标区域多态性位点的方法及系统,对实验样品进行详尽统计分析,涉及深度、覆盖度分析、捕获效率分析、性别检验、SNP位点杂合度一致性等检验。通过前述分析流程大大提高了了对基因组外显子数据分析的准确性和可靠性,同时还能够对相应错误信息进行适当修正。
本发明的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。本发明中描述的功能模块以及功能模块的划分方式仅为说明本发明的思想,本领域技术人员根据本发明的教导以及实际应用的需要可以自由改变功能模块的划分方式及其模块构造以实现相同的功能;选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims (5)

1.一种检测基因组目标区域多态性位点的方法,其特征在于,所述方法包括:
获取外显子测序结果步骤:对人类基因组DNA样品进行测序和纯化处理,得到外显子区域测序结果;将所述外显子区域测序结果与参考基因序列进行比对得到精确的比对结果;
去冗余与排序步骤:对比对后获得的比对结果进行去除重复信息和排序处理;
统计分析步骤I:对全局的目标区域进行深度和覆盖度统计,以及用X,Y染色体的目标区域的测序深度,对样本的性别进行检验;判断所述样品是否被污染;
探测SNP位点步骤:从排序处理后的结果中找到SNP位点;
SNP位点过滤步骤:以质量值为指标对探测得到的所述SNP位点进行筛选;
统计分析步骤II:对过滤后的SNP位点的覆盖度进行统计,并以每个SNP位点的最优等位基因支持深度和次优等位基因支持深度进行分析,判断所述样品是否被污染;
SNP注释步骤:用所述过滤后的SNP位点与dbSNP数据库中的信息进行比较,并结合ccds、refseq和ensembl数据库中至少一个中的数据对比对吻合的SNP位点进行注释与分类。
2.如权利要求1所述的方法,其特征在于,在所述获取外显子测序结果步骤中,通过将测序结果中含有的、由测序过程引入的接头linker序列和adapter序列去除以实现所述纯化处理;以及
利用Soap工具将所述外显子区域测序结果与参考基因序列进行比对,得到精确的比对结果。
3.如权利要求1所述的方法,其特征在于,在所述去冗余与排序步骤中,将所述比对结果去除重复信息后按照染色体和坐标排序,排序处理后的结果作为所述探测SNP位点步骤待处理的对象。
4.如权利要求1所述的方法,其特征在于,在所述统计分析步骤I中,采用工具soap.coverage对所述全局的目标区域进行深度和覆盖度统计,并绘制具体分布图,用以反映所述样品目标区域被覆盖的均一性、大于预定值的碱基所占比例;
以及用X,Y染色体的目标区域的测序深度,根据支持向量机的分析原理对样本的性别进行检验;判断所述样品是否被污染;
如果所述样品在实验阶段被污染,则给出具体的污染信息。
5.如权利要求1所述的方法,其特征在于,在所述统计分析步骤II中,如果SNP位点的最优等位基因支持深度和次优等位基因支持深度分析显示全局的SNP杂合率呈现集中趋势,则判断所述样品被污染。
CN2010102704646A 2010-09-02 2010-09-02 检测基因组目标区域多态性位点的方法 Active CN101914628B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN2010102704646A CN101914628B (zh) 2010-09-02 2010-09-02 检测基因组目标区域多态性位点的方法
HK11101668.6A HK1147528A1 (en) 2010-09-02 2011-02-21 The method of detecting polymorphic sites in genomic target region
PCT/CN2011/001431 WO2012027958A1 (zh) 2010-09-02 2011-08-26 检测基因组目标区域多态性位点的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010102704646A CN101914628B (zh) 2010-09-02 2010-09-02 检测基因组目标区域多态性位点的方法

Publications (2)

Publication Number Publication Date
CN101914628A CN101914628A (zh) 2010-12-15
CN101914628B true CN101914628B (zh) 2013-01-09

Family

ID=43322264

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010102704646A Active CN101914628B (zh) 2010-09-02 2010-09-02 检测基因组目标区域多态性位点的方法

Country Status (3)

Country Link
CN (1) CN101914628B (zh)
HK (1) HK1147528A1 (zh)
WO (1) WO2012027958A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113035276A (zh) * 2021-03-11 2021-06-25 深圳荻硕贝肯精准医学有限公司 人类hla染色体区域杂合性缺失的分析方法和系统

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101914628B (zh) * 2010-09-02 2013-01-09 深圳华大基因科技有限公司 检测基因组目标区域多态性位点的方法
CN103270175B (zh) * 2011-01-20 2015-06-24 深圳华大基因科技有限公司 检测转基因外源片段插入位点的方法和系统
CN102952854B (zh) * 2011-08-25 2015-01-14 深圳华大基因科技有限公司 单细胞分类和筛选方法及其装置
CN103020490B (zh) * 2011-09-26 2015-11-25 深圳华大基因科技服务有限公司 目标区域测序中质控位点选取方法及装置
CN104080923A (zh) * 2011-10-19 2014-10-01 深圳华大基因科技有限公司 用于肾癌诊断评估的序列、使用方法及其应用
WO2014019180A1 (zh) * 2012-08-01 2014-02-06 深圳华大基因研究院 确定异常状态生物标记物的方法及系统
CN104603284B (zh) * 2012-09-12 2016-08-24 深圳华大基因研究院 利用基因组测序片段检测拷贝数变异的方法
KR101770962B1 (ko) * 2013-02-01 2017-08-24 에스케이텔레콤 주식회사 유전자 서열 기반 개인 마커에 관한 정보를 제공하는 방법 및 이를 이용한 장치
ES2766860T5 (es) * 2013-05-15 2023-02-23 Bgi Genomics Co Ltd Método para detectar anomalías estructurales cromosómicas y dispositivo para ello
CN103617256B (zh) * 2013-11-29 2018-01-02 北京诺禾致源科技股份有限公司 待变异检测文件的处理方法及装置
CN104699998A (zh) * 2013-12-06 2015-06-10 国际商业机器公司 用于对基因组进行压缩和解压缩的方法和装置
CN103971031B (zh) * 2014-05-04 2017-05-17 南京师范大学 一种面向大规模基因数据的读段定位方法
JP6788587B2 (ja) * 2014-11-25 2020-11-25 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. ゲノムデータの安全な転送
CN104484558B (zh) * 2014-12-08 2018-04-24 深圳华大基因科技服务有限公司 生物信息项目的分析报告自动生成方法及系统
WO2016090583A1 (zh) * 2014-12-10 2016-06-16 深圳华大基因研究院 测序数据处理装置和方法
CN106282320B (zh) * 2015-05-20 2019-10-18 广州华大基因医学检验所有限公司 检测体细胞突变的方法和装置
CN106326689A (zh) * 2015-06-25 2017-01-11 深圳华大基因科技服务有限公司 确定群体中受到选择作用的位点的方法和装置
CN104946765A (zh) * 2015-06-25 2015-09-30 华中农业大学 基于基因组测序的体细胞突变位点挖掘方法
CN105354442B (zh) * 2015-11-25 2018-02-16 广州市金圻睿生物科技有限责任公司 一种高通量测序数据前期处理方法
CN106909806B (zh) * 2015-12-22 2019-04-09 广州华大基因医学检验所有限公司 定点检测变异的方法和装置
CN109074429B (zh) * 2016-04-20 2022-03-29 华为技术有限公司 基因组变异检测方法、装置及终端
CN106021995A (zh) * 2016-05-13 2016-10-12 万康源(天津)基因科技有限公司 一种dna靶向测序覆盖度图形化评估方法
CN106021996A (zh) * 2016-05-13 2016-10-12 万康源(天津)基因科技有限公司 一种dna靶向测序覆盖度图形化评估系统
CN107403076B (zh) * 2016-05-18 2020-06-02 华为技术有限公司 Dna序列的处理方法及设备
CN107794216A (zh) * 2016-08-29 2018-03-13 埃提斯生物技术(上海)有限公司 一种肿瘤基因检测流水线的模块化系统及方法
CN106484881B (zh) * 2016-10-14 2019-10-18 北京百度网讯科技有限公司 文件处理方法和装置
CN106399543B (zh) * 2016-10-26 2019-10-11 四川大学 基于74个y染色体snp遗传标记的法医学二代测序试剂盒
CN107153776B (zh) * 2017-03-30 2020-05-12 深圳市早知道科技有限公司 一种y单倍群检测方法
CN109979534B (zh) * 2017-12-28 2021-07-09 浙江安诺优达生物科技有限公司 一种c位点提取方法及装置
CN109741788A (zh) * 2018-12-24 2019-05-10 广州合众生物科技有限公司 一种snp位点分析方法及系统
CN109949868B (zh) * 2019-03-01 2020-10-16 深圳乐土生物科技有限公司 基于耐受性分析的基因等级排序方法和装置
CN109887547B (zh) * 2019-03-06 2020-10-02 苏州浪潮智能科技有限公司 一种基因序列比对滤波加速处理方法、系统及装置
CN113670865B (zh) * 2020-05-13 2024-05-10 深圳华大智造科技股份有限公司 分辨率板、分辨率评估方法及相关设备
CN111863128B (zh) * 2020-06-23 2023-09-22 深圳大学 一种基因可变剪切分析方法
CN113930492B (zh) * 2021-09-09 2024-09-10 武汉蓝沙医学检验实验室有限公司 对被污染样品进行亲子鉴定的生物信息处理方法
CN117423382B (zh) * 2023-10-21 2024-05-10 云准医药科技(广州)有限公司 一种基于SNP多态性的单细胞barcode身份识别方法
CN117265088B (zh) * 2023-11-03 2024-06-04 中国海洋大学 一种仿刺参性别特异性分子标记及其筛选方法、应用

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101539967A (zh) * 2008-12-12 2009-09-23 深圳华大基因研究院 一种单核苷酸多态性检测方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2722395B1 (en) * 2001-10-15 2018-12-19 Bioarray Solutions Ltd Multiplexed analysis of polymorphic loci by concurrent interrogation and enzyme-mediated detection
JPWO2007055255A1 (ja) * 2005-11-08 2009-04-30 オリンパス株式会社 複数の識別用核酸配列を増幅する方法
CN101246142B (zh) * 2008-04-03 2012-06-20 毅新兴业(北京)科技有限公司 一种检测单核苷酸多态性的方法
CN101914628B (zh) * 2010-09-02 2013-01-09 深圳华大基因科技有限公司 检测基因组目标区域多态性位点的方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101539967A (zh) * 2008-12-12 2009-09-23 深圳华大基因研究院 一种单核苷酸多态性检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于SNP遗传谱的复杂疾病基因作图与网络构建方法研究;张帆;《CNKI中国优秀硕士学位论文全文数据库》;20061114;1-55 *
张帆.基于SNP遗传谱的复杂疾病基因作图与网络构建方法研究.《CNKI中国优秀硕士学位论文全文数据库》.2006,1-55.

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113035276A (zh) * 2021-03-11 2021-06-25 深圳荻硕贝肯精准医学有限公司 人类hla染色体区域杂合性缺失的分析方法和系统

Also Published As

Publication number Publication date
CN101914628A (zh) 2010-12-15
HK1147528A1 (en) 2011-08-12
WO2012027958A1 (zh) 2012-03-08

Similar Documents

Publication Publication Date Title
CN101914628B (zh) 检测基因组目标区域多态性位点的方法
De Coster et al. Towards population-scale long-read sequencing
CN107849612B (zh) 比对和变体测序分析管线
Jónsson et al. Whole genome characterization of sequence diversity of 15,220 Icelanders
Quinn et al. Development of strategies for SNP detection in RNA-seq data: application to lymphoblastoid cell lines and evaluation using 1000 Genomes data
Goodman Biological data becomes computer literate: new advances in bioinformatics
O'Neill et al. Mobile genomics: tools and techniques for tackling transposons
Gonzalez-Garay The road from next-generation sequencing to personalized medicine
Corney RNA-seq using next generation sequencing
Zhao et al. Multiplex Y-STRs analysis using the ion torrent personal genome machine (PGM)
Kingsley Identification of causal sequence variants of disease in the next generation sequencing era
US20190139628A1 (en) Machine learning techniques for analysis of structural variants
Holtgrewe et al. Methods for the detection and assembly of novel sequence in high-throughput sequencing data
Liu Bioinformatics in aquaculture: principles and methods
Zhou et al. PedMiner: a tool for linkage analysis-based identification of disease-associated variants using family based whole-exome sequencing data
CN110592185A (zh) 一种高胆固醇血症致病基因筛查探针设计方法及其基因芯片
Mir Sequencing genomes: from individuals to populations
Bayés et al. Applications of second generation sequencing technologies in complex disorders
CN110373456A (zh) 捕获包含靶寡核苷酸序列的核酸的方法及其用途
Kim et al. Identification of Korean-specific SNP markers from whole-exome sequencing data
CN105787294B (zh) 确定探针集的方法、试剂盒及其用途
Girish et al. Eukaryotic molecular biology databases: An overview
CN110373449A (zh) 捕获包含靶寡核苷酸序列的核酸的方法及其用途
Narayan et al. Computational Tools and Databases for Fusion Transcripts: Therapeutic Targets in Cancer
Pal et al. RNA Sequencing (RNA-seq)

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1147528

Country of ref document: HK

C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: BGI TECHNOLOGY SOLUTIONS CO., LTD.

Free format text: FORMER OWNER: BGI-SHENZHEN CO., LTD.

Effective date: 20130422

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20130422

Address after: 518083 science and Technology Pioneer Park, comprehensive building, Beishan Industrial Zone, Yantian District, Guangdong, Shenzhen 201

Patentee after: BGI Technology Solutions Co., Ltd.

Address before: Beishan Industrial Zone Building in Yantian District of Shenzhen city of Guangdong Province in 518083

Patentee before: BGI-Shenzhen Co., Ltd.

REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1147528

Country of ref document: HK