CN110111844A

CN110111844A - 一种基因数据解读注释系统

Info

Publication number: CN110111844A
Application number: CN201810085446.7A
Authority: CN
Inventors: 刘欣; 黄晶盈; 徐丽
Original assignee: Shenzhen Bestcomm International Life Science & Technology Co Ltd
Current assignee: Shenzhen Bestcomm International Life Science & Technology Co Ltd
Priority date: 2018-01-29
Filing date: 2018-01-29
Publication date: 2019-08-09

Abstract

本发明涉及核酸序列数据技术领域，具体指一种在核酸序列数据中检测的基因数据解读注释系统，它包括用于配置存储经预处理的测试样本基因序列信息的第一数据存储器，用于配置存储基因序列注释数据的第二数据存储器，以及通信连接第一数据存储器和第二数据存储器注释组件，所述注释组件包括功能注释引擎和解释注释引擎，通过索引项将基因序列信息与之相关联，报告模块用于配置生成所述功能类型注释和解释性注释的报告。相比现有技术，本发明更能准确高效的对基因分析注释。

Description

一种基因数据解读注释系统

【技术领域】

本发明涉及核酸序列数据技术领域，具体指一种在核酸序列数据中检测到的基因数据解读注释系统。

【背景技术】

近年来，随着下一代测序技术(Next Generation Sequence，NGS)的广泛应用，基因测序的成本迅速下降，基因测序技术得以在更加广泛的生物、医疗、健康、刑侦、农业等等许多领域被推广应用。其中，基于NGS的全基因组测序(Whole Genome Sequencing，WGS)是一个非常有应用价值的分支领域，受到广泛的关注。与传统的基于Sanger和毛细管电泳的方法相比，下一代测序NGS指的是具有增加的通量的测序技术，如具有一次产生数十万个相对小的序列读取的能力。

全基因组测序是指对一种生物个体的基因组中的全部基因进行测序，即测定其脱氧核糖核酸(Deoxyribo-Nucleic Acid，DNA)的碱基序列。基因组信息已能用于鉴定遗传疾病，查找驱使癌症发展的突变，追踪疾病的爆发。而全基因组测序可谓是基因组最为全面的研究方案和最强有力的研究工具。尽管全基因组测序常被理解为用于测定人类基因组，但实际上NGS的规模和灵活性体现于可以在任何物种上高效运用全基因组测序技术。下一代测序(NGS)技术在进行高通量测序和/或低成本测序时，使测序技术更易于使用。

基于NGS的全基因组测序的优点在于：能够提供高分辨率、精确到逐个碱基的基因组视图；可以捕获大的变异，以及小到可能被遗漏的变异；能够鉴定潜在的致病变异，从而进行基因表达和调控机制的进一步研究；在短时间内提供大量的数据，以支持新基因组的组装。例如，外显子组测序或靶向重测序等有侧重点的方法只分析基因组的有限部分，全基因组测序则不同，能提供整个基因组的全面视图。它是各种发现应用如鉴定致病变异和新基因组组装的理想选择。全基因组测序可检测单核苷酸多态性(SingleNucleotidePolymorphism，SNP)、插入/缺失(indel)、拷贝数变异(Copy NumberVariation，CNV)和大的结构化变异(Structural Variants，SV)。随着技术创新，最新的基因组测序仪能够比以往更高效地开展全基因组测序。如何解读基因的奥秘，是当代生命科学界的一大难题；如何通过解读基因大数据，获取与疾病相关的变异，找到致病基因，是基因应用于精准治疗、药物研发、个人健康管理并产生影响的核心环节。

基于NGS的全基因组测序的数据处理流程包括数据计算和数据解读两大步骤，其中的数据计算步骤完成参考基因组的预处理和原始测序数据的修剪、比对、去重等计算任务以便数据解读时使用；数据解读步骤对数据计算处理后的数据在生物学、医学、健康保健等领域的科学含义进行分析，揭示和解释。

研究快速高效的核酸(如基因组，外显子组等)序列组装方法对于测序行业至关重要，因为NGS技术可以提供超高通量的核酸测序。由于这种包含NGS技术的测序系统可以在相对较短的时间内产生大量的短序列读数。序列组装方法必须能够快速有效地组装和/或映射大量读取，例如通过最小化计算资源的使用。例如，人类基因组的测序可导致数十或数亿的读数，在进一步分析以确定其生物学，诊断和/或治疗相关性之前需要进行组装。NGS技术的示例性应用包括但不限于：基因组变体(例如，插入，拷贝数变异，单核苷酸多态性等)检测，重测序，基因表达分析和基因组分析。

公共和私人的序列数据库现在可以获得大量的核酸序列信息。例如，各种生物的代谢，遗传和生理途径的公共数据库和一些基因库(如Kyoto Encyclopedia基因库)已经在许多传统低通量实验研究的已发表的文献中得到很大的发展。这种丰富数据的优势在于，改进的诊断测试和基因组学指导的治疗方案(例如药物，手术，放射疗法，医疗设备，饮食，精神疗法等)遗传和表观遗传学特征与疾病，药物靶标，蛋白质疗法，装置，治疗方案等等的风险因素相关联，并且被鉴定和表征。

尽管使用常规测序技术可以收集的核酸序列数据的数量是非常大的，但是在最有用的情况下通常不能呈现或分析。遗传和表观遗传学数据的诊断和治疗相关性通常可以通过与其他信息的关系来确定。例如，知道特定的遗传突变(例如SNP，Indel，CNV等)影响特定代谢或生理途径，其在特定疾病的起始，发展或治疗中起作用或以其他方式影响特定疾病的发生，进展或治疗临床上重要的信息。此外，还需要将这些数据与各种类型的临床数据相关联，例如患者的年龄，性别，体重，临床发展阶段，疾病进展阶段等。

常规技术不利于候选基因突变与目前可获得的可为突变提供功能性或解释性上下文的丰富信息的容易关联。这是由于研究人员提供了大量的信息，缺乏足够的工具来组织信息从而促进了对信息的分析。现有的变异位点注释方法或系统缺乏与疾病、药物相关联的注释，而这些是科学研究以及临床试验获得的真实已知的信息，可以为致病性位点和基因的挖掘提供有效的信息。这些有效的信息得不到注释，给致病性变异位点的挖掘带来的障碍。综上，现有基因组的注释方法或系统的都展现出了不准确性，使用范围局限性，不适应性。

因此，有必要提供一种在核酸测序数据中鉴定的基因数据解读注释系统，以克服上述缺陷。

【发明内容】

为解决上述在核酸测序数据中鉴定的基因数据解读注释困难的问题，本发明提供一种基因数据解读注释系统。

本发明一种基因数据解读注释系统，包括：

第一数据存储器，用于配置存储经预处理的VCF标准格式的测试样本基因序列信息；

第二数据存储器，用于配置存储基因序列注释数据，所述基因序列注释数据包括功能类型注释和解释类型注释；

与第一数据存储器和第二数据存储器通信连接的注释组件，所述注释组件包括：

功能注释引擎，用于从第一数据存储器接收基因组变异体数据，并从基因组变异体数据中提取索引项，将索引项与所述第二数据存储器中的功能类型注释相关联；

解释注释引擎，用于从第一数据存储器接收基因组变异体数据，并从基因组变异体数据中提取索引项，并将索引项与所述第二数据存储器中的解释类型数据相关联；

报告模块，与第一数据存储器和注释组件可通信连接，用于配置生成所述功能类型注释和解释性注释的报告。

所述功能类型注释包括氨基酸序列改变的指示，蛋白质表达水平改变的指示，转录物剪接改变的指示、蛋白质功能影响分数、密码子的基础信息。

所述解释类型注释包括基因变异体与疾病的关联，基因变异体与对治疗的响应之间的相关性，所述基因变异体影响的代谢途径、生物信号传导途径、调控途径，与注释变体列表的匹配。

所述索引项包括变异位点的染色体编号、变异位点的起始位置、参考基因组的碱基、变异位点的碱基。

优选的，所述系统还包括第一过滤组件，与所述第一数据存储器通信用于根据一组变异体过滤条件来检索基因序列信息，并查询的结果引入报告中。

优选的，所述系统还包括第二过滤组件，用于将报告中基因测序深度小于10X的数据项；过滤掉报告中记载同义突变的数据项。

进一步包括：注释导入组件，与所述第二数据存储器通信并被配置为将从外部注释源接收的注释信息转换为可以存储在所述第二数据存储器上的格式。

本发明基因数据解读注释系统，包括用于配置存储经预处理的测试样本基因序列信息的第一数据存储器，用于配置存储基因序列注释数据的第二数据存储器，以及通信连接第一数据存储器和第二数据存储器注释组件，所述注释组件包括功能注释引擎和解释注释引擎，通过索引项将基因序列信息与之相关联，报告模块用于配置生成所述功能类型注释和解释性注释的报告。相比现有技术，本发明更能准确高效的对基因分析注释。

【附图说明】

图1是本发明基因数据解读注释系统的结构示意图。

【具体实施方式】

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本发明一种基因数据解读注释系统，参图1所示，包括第一数据存储器101，用于配置存储经预处理的VCF标准格式的测试样本基因序列信息；第二数据存储器102，用于配置存储基因序列注释数据，所述基因序列注释数据包括功能类型注释和解释类型注释；与第一数据存储器101和第二数据存储器102通信连接的注释组件103，所述注释组件103包括：功能注释引擎1031，用于从第一数据存储器101接收基因组变异体数据，并从基因组变异体数据中提取索引项，以及将第二数据存储器的功能类型注释与第一索引项相关联；解释注释引擎1032，用于从第一数据存储器101接收基因组变异体数据，并从基因组变异体数据中提取索引项，并将来自第二数据存储的解释类型注释与第二索引项相关联，报告模块104，它与第一数据存储器101和注释组件103可通信连接，用于配置生成所述功能类型注释和解释性注释的报告，这样构建成一个注释系统。在本系统中的VCF存储格式里，与参考基因组一致的碱基类型用0表示，与参考基因组不一致的碱基类型用1，2，3……表示，根据该标准进行基因型判断；

所述索引项包括变异位点的染色体编号、变异位点的起始位置、参考基因组的碱基、变异位点的碱基。众所周知，DNA(脱氧核糖核酸)是由4种核苷酸组成的核苷酸链：A(腺嘌呤)、T(胸腺嘧啶)、C(胞嘧啶)和G(鸟嘌呤)，RNA(核糖核酸)由4种核苷酸组成：A、U(尿嘧啶)、G和C。还知某些核苷酸对以互补方式彼此特异性结合称为互补碱基配对。也就是说，腺嘌呤(A)与胸腺嘧啶(T)配对(在RNA的情况下，腺嘌呤(A)与尿嘧啶(U)配对)，胞嘧啶(C)与鸟嘌呤(G)配对。当第一条核酸链与第一条核酸链互补的核苷酸组成第二条核酸链结合时，两条链结合形成双链。

为了使系统更为高效，本发明的基因数据解读注释系统还包括第一过滤组件105，与所述第一数据存储器101通信用于根据一组变异体过滤条件来检索基因序列信息，并查询的结果引入报告中。所述系统还包括第二过滤组件106，用于将报告中基因测序深度小于10X的数据项；过滤掉报告中记载同义突变的数据项。注释导入组件107，与所述第二数据存储器通信并被配置为将从外部注释源接收的注释信息转换为可以存储在所述第二数据存储器102上的格式。

另外，本发明还揭示一种基因数据解读注释方法，所述方法包括以下步骤：

步骤一，从至少一个现有基因数据库中抓取原基因序列信息。本步骤中，所述的现有基因数据库一般包括：clinvar，干人基因组，CGD数据库，此外还可以包括：权威基因数据开源网站数据和公开的基因科学文献数据。抓取的原基因序列信息是上述现有基因数据库中与基因变异相关的数据。

上述抓取原基因序列信息的过程具体包括步骤：获取所述现有基因数据库中多个页面地址。其中，抽取现有基因数据库中所有页面地址，将其以队列形式排列，并依次进行后续赴理。

根据预设的抓取规则，抓取目标页面。其中，所述抓取规则为网页地址中的指定字段。对所述目标页面进行解析，获得所述原基因序列信息。其中，根据不同页面的数据类型，相应解析不同内容的数据。具体的，对于标准HTML类型的页面，此类页面解析数据包括：检查项目、项目描述、基因位点、基因型、基因名、基因描述、参考文献名称、参考文献链接优化预取链、提取链、抽取链，增加根据基因网站的过滤规则，在每个处理链中增加对无效网页的过滤，增加次过滤规则后，过滤时间能够缩短。

在本步骤的抓取过程中，还可以对抓取的结果进行存储，生成日志文件，方便后期的维护处理。

下一步、，将上述预处理的测试样本基因序列信息以VCF统一格式存储，并存储在第一数据存储器101中。本步骤中，由于抓取获得的原基因序列信息来自不同的现有基因数据库，则需要对其进行统一格式后再存储。然后，使用原基因序列信息，构建生成注释基因数据库，供后续的步骤使用，为基因分析注释提供相关的基因变异数据。

下一步，获取用于描述基因组变异的注释数据标准文件，从所述标准文件中提取索引项；根据所述索引项，在所述注释基因数据库中检索得到包括功能类型注释和解释类型注释的基因序列注释数据；其中，所述索引项包括：变异位点的染色体编号、变异位点的起始位置、参考基因组(Reference)的碱基、变异位点的碱基。

本步骤中，首先获取用于描述基因组变异的标准文件(Vcf文件，variant callformat)。然后，从标准文件中提取索引项，该索引项用作在注释基因数据库检索获得功能类型注释和解释类型注释的检索依据。经过分析研究，本实施例中确定了索引项的具体内，包括：变异位点的染色体编号(CHROM)、变异位点的起始位置(POS)、reference的碱基(RFF)、变异位点的碱基(ALT)，这四列值可以确定变异的唯一位置以及变异结果，并且这四个值茌注释数据库中可以找到对应的内容，能够用来做匹配关联。

根据上述索引项，匹配到注释基因数据库中，提取相应的功能类型注释和解释类型注释与之相关联，功能类型注释和解释类型注释的具体内容如下：

所述功能类型注释包括氨基酸序列改变的指示，蛋白质表达水平改变的指示，转录物剪接改变的指示、蛋白质功能影响分数、密码子的基础信息；所述解释类型注释包括基因变异体与疾病的关联，基因变异体与对治疗的响应之间的相关性，所述基因变异体影响的代谢途径、生物信号传导途径、调控途径，与注释变体列表的匹配。

进一步的，在本实施例中，索引项由染色体编号，变异位点的起始位置、参考基因组的碱基、变异位点的碱基组成，用这四个值取提取功能类型注释和解释类型注释，如果某个索引项没有提取到相应信息或较少，就将索引项里面的参考基因组碱基，变异位点碱基按照A<->T，G<->C的碱基配对原则转变为相应负链上的碱基，然后与染色体编号，变异位点起始位置组成新的4个值的索引项，再进行一次功能类型注释和解释类型注释的提取。按负链再检索一次的原因是检测数据库中存在有负链的变异信息。通过上述方法能够有效的提升功能类型注释和解释类型注释提取的数量和质量。

根据所述功能类型注释和解释类型注释，对所述标准文件进行实例变异基因注释，生成基因分析注释结果报告。

本步骤中，根据在注释基因数据库检索得到的功能类型注释和解释类型注释，对所述标准文件进行变异基因注释，最终生成基因分析注释结果报告。基因分析注释结果报告作为基因分析注释服务的最终产品，可以直接提供给用户。

其中，利用perl语言的DBI模块将提取的结果导入到相应的mysql数据库中。由于报告数据库类型是mysql数据库，库中存放了生成报告所需要的数据内容，将注释的结果导入到这个mysql数据库中，然后生成最终的基因分析注释结果报告。

进一步的，在本步骤中，为保证结果的准确性及有效性，对注释出来的结果进行过滤，过滤条件如下：

为保证变异检测结果的准确，过滤掉reads支持数偏低的变异位点，设置过滤测序深度小于10×的变异结果。每个检测到的变异位点都有相应数量的reads覆盖，如果覆盖的reads数量过低，该变异就可能不准确，有可能是测序错误导致的，因此，reads覆盖数量过低的变异位点可信度低，为保证变异检测结果的准确，要过滤掉reads覆盖数量偏低的变异位点，设置过滤reads覆盖条数小于10的变异位点。

为更准确快速找到与疾病相关的突变，同时变异位点包含同义突变和非同义突变的两种类型，同义突变不导致氨基酸变化，属于非致病变异，因此这里设置过滤掉同义突变的变异。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基因数据解读注释系统，其特征在于，包括：

解释注释引擎，用于从第一数据存储器接收基因组变异体数据，并从基因组变异体数据中提取索引项，并将索引项与所述第二数据存储器中的功能类型注释相关联；

2.根据权利要求1所述的基因数据解读注释系统，其特征在于：所述系统还包括第一过滤组件，与所述第一数据存储器通信用于根据一组变异体过滤条件来检索基因序列信息，并查询的结果引入报告中。

3.根据权利要求2所述的基因数据解读注释系统，其特征在于：所述系统还包括第二过滤组件，用于将报告中基因测序深度小于10X的数据项；过滤掉报告中记载同义突变的数据项。

4.根据权利要求3所述的基因数据解读注释系统，其特征在于：所述系统还包括注释导入组件，与所述第二数据存储器通信并被配置为将从外部注释源接收的注释信息转换为可以存储在所述第二数据存储器上的格式。

5.根据权利要求1或4所述的基因数据解读注释系统，其特征在于：所述功能类型注释包括氨基酸序列改变的指示，蛋白质表达水平改变的指示，转录物剪接改变的指示、蛋白质功能影响分数、密码子的基础信息。

6.根据权利要求5所述的基因数据解读注释系统，其特征在于：所述解释类型注释包括基因变异体与疾病的关联，基因变异体与对治疗的响应之间的相关性，所述基因变异体影响的代谢途径、生物信号传导途径、调控途径，与注释变体列表的匹配。

7.根据权利要求6所述的基因数据解读注释系统，其特征在于：所述索引项包括变异位点的染色体编号、变异位点的起始位置、参考基因组的碱基、变异位点的碱基。