CN107451422A

CN107451422A - 一种基因序列数据分析与在线交互可视化的方法

Info

Publication number: CN107451422A
Application number: CN201710607539.7A
Authority: CN
Inventors: 杨文婷
Original assignee: Individual
Current assignee: Individual
Priority date: 2017-07-24
Filing date: 2017-07-24
Publication date: 2017-12-08

Abstract

本发明涉及一种基因序列数据分析与在线交互可视化的方法，包括以下步骤：步骤1)上传基因序列数据，填写对应信息；步骤2)选择基因序列数据，进行单基因序列数据分析；步骤3)选择多个单基因序列数据的分析结果，进行组合分析；步骤4)查看组合分析的结果，导出报告；步骤5)对分析结果进行可视化展示。本发明提供的基因序列数据分析与在线交互可视化的方法，能够大幅提高基因序列数据分析的性能并改善用户查看结果的体验，克服了现有技术中存在的缺陷，可以很好地满足实际应用的需要。

Description

一种基因序列数据分析与在线交互可视化的方法

技术领域

本发明属于基因序列分析技术领域，具体涉及一种基因序列数据分析与在线交互可视化的方法。

背景技术

随着二代测序技术的成熟和完善，基因组测序在生物医学研究领域得到了广泛应用。以在肿瘤的基础研究和临床应用领域为例，研究人员可以利用不同来源的肿瘤组织或样本进行肿瘤发生及转移的机制研究、筛查肿瘤早期诊断或复发的标志物，或者结合临床数据，评估不同治疗方案下的早期治疗好坏、探索不同病人预后好坏的机制。

基因具有多样的突变特性，包括单核苷酸突变(SNV)、多核苷酸突变(MNV)、插入、缺失和复杂突变，以及更复杂的结构突变(SV)，例如重复(DUP)、反转(INVs)、插入和易位。与癌症有关的基因如KRAS，NRAS，BRAF和EGFR通常包含错位突变。目前有很多分析和定位基因突变位点的算法和工具，如GATK开发的工具之一，UnifiedGenotyper，它是集合多种变异检测方法而成的一种突变检测工具，既可以用于单个样本的变异检测，也可以用于群体的变异检测。UnifiedGenotyper使用贝叶斯最大似然模型，同时估计基因型和基因频率，最后对每一个样本的每一个变异位点和基因型都会给出一个精确的后验概率。

现有的基因序列分析技术，是将一组基因序列数据比对之后进行目标区域突变检测，得到vcf格式的突变结果文件，对其进行各种注释，包括人群数据库频率注释，疾病数据库、变异危害度预测等等。完成之后，再进行分析与预测，如肿瘤体细胞突变分析、体细胞突变频率及突变频谱图、体细胞突变总览图、体细胞突变circos展示图、突变位点分布情况分析图、体细胞突变富集分析、肿瘤已知驱动基因突变检测、肿瘤驱动基因预测，等等。最后，将结果以表格和统计图的形式进行可视化展示。

许多已有的定位基因突变位点的算法和工具，如GATK，FreeBayes和VarScan等等只能用来分别定位单核苷酸突变和局部的插入和缺失突变，但当这些突变组合在一起时，则不能够准确解决定位和统计基因突变数。此外，TP53，PTEN，BRCA1/2，RB1，STK11和NF1等肿瘤上皮抑制因子通常含有大的基因片段插入和缺失突变或复杂的突变，有时甚至是结构性的突变，这些突变经常被上述算法工具遗漏。为了更全面地分析癌症基因组，需要能够识别所有这些不同类型突变的检测工具。此外，超临界测序越来越多地应用于临床环境中，它对于低等位基因频率突变的检测具有更强大的优势。常见的突变检测方法会随着覆盖深度的增加而计算性能弱化，通常会采取降采样(随机删除数据部分)的方法来提高它的计算性能。然而，降采样会显着降低检测低等位基因频率突变的敏感性。考虑到等位基因频率突变的随机性，在这种情况下采用降采样会遗漏很多信息。

另外，现有的突变检测方法和工具还存在下列局限性：

1.对等位基因频率的插入和缺失突变数量估计偏低；

2.不能检测较大的复杂的插入和缺失突变；

3.在非降采样的情况下，不能根据计算性能对深度覆盖进行有效评估。

目前对于分析结果的展示，只能静态地从一个角度来展示分析结果，当用户需要多角度分析一批基因序列数据的信息价值时，会十分不方便。以分析某种基因突变分布与性别、年龄的关系为例，用户需要先选中男性的基因序列数据进行分析，得到结果，再选中女性的基因序列数据进行分析并得到结果，二者对比来获得结论；然后，用户需要再选中不同年龄段人群的基因序列数据分别分析完成后再对比，才能获得结论。这样做的过程中，存在以下两方面的不足：一方面，同一个基因序列数据可能被重复分析了很多次，而分析一个基因序列样本往往需要几个小时，浪费了大量时间和分析资源；另一方面，操作不连续，非常不便于用户分析数据，当从多个角度分析时，用户需要不断重复选择数据-分析-选择数据-分析的循环，每次分析完成之后都要回到电脑前重新选择数据进行新一次的分析，而分析的过程又非常花时间，十分不方便。

发明内容

针对上述现有技术中存在的问题，本发明的目的在于提供一种可避免出现上述技术缺陷的基因序列数据分析与在线交互可视化的方法。

为了实现上述发明目的，本发明提供的技术方案如下：

一种基因序列数据分析与在线交互可视化的方法，包括以下步骤：

步骤1)上传基因序列数据，填写对应信息；

步骤2)选择基因序列数据，进行单基因序列数据分析；

步骤3)选择多个单基因序列数据的分析结果，进行组合分析；

步骤4)查看组合分析的结果，导出报告；

步骤5)对分析结果进行可视化展示。

进一步地，所述步骤2)包括以下步骤：

步骤一：检测插入和缺失突变；

步骤二：检测插入和缺失突变的组合；

步骤三：检测结构突变；

步骤四：配对检测分析；

步骤五：检测PCR扩增序列；

步骤六：删除重复数据。

进一步地，所述步骤一具体为：当发现插入和缺失突变时，采用有监督的方法来读取错配的序列，将它们添加到插入和缺失突变的基因库中，来增加等位基因频率；而无监督的方法则是扫描软切片附近的局部序列以查找更多的插入和缺失突变，具体步骤为从在等位基因组位置剪切的软切片序列中查找共有序列，如果可以找到共有序列，则使用它来在自定义的距离内查找有无匹配的序列，此时允许小范围的不匹配误差。当在远离切片序列的位置发现匹配序列时，则认为检测到缺失类型的突变；当共有序列的端部匹配与软切片序列相邻时，即检测到插入类型的突变。

进一步地，所述步骤二具体为：将插入和缺失突变的组合视为一个基因突变，当检测到一个插入或者缺失突变中的一种时，在同一条序列中检测是否有另一种突变，如果有，则将它们组合，视为一种插入和缺失突变的组合。

进一步地，所述步骤三具体为：使用软切片序列的方法来构建共有序列，然后搜索该共有序列是否可以在给定5kb的敏感区域内唯一匹配；如果没有找到匹配项，将在不配对的序列区域中进行搜索；对于较大的结构突变，搜索范围以不一致的序列为准，在不一致的序列区域中进行搜索，识别另一个端点位置。

进一步地，所述步骤四具体为：在配对样本分析时，给定两个BAM文件，提取突变和参考等位基因频率的计数次数，通过费舍尔精确检验确定突变是否在两个样本之间的等位基因频率有显著差异；基于等位基因频率差异，如果仅存在于第一个样本中，则将突变分类为“体细胞”，如果存在于两个样本中，则分类为“种系”，如果第二个样本中的突变是杂合的，但在第一个样本中是纯合的或没有突变，则为“杂合缺失突变”，如果仅存在于第二个样本中，在第一个样本中没有覆盖，则为“缺失型突变”。

进一步地，所述步骤五具体为：首先对读取的序列与BED文件中提供的PCR扩增序列进行比较，确定读取的序列是否属于特定的PCR扩增；然后，只筛选与扩增具有90％相同并且落在扩增PCR边缘10bp内的那些序列对；在多个扩增覆盖的区域中，将区域内扩增中不能被检测出的突变认为是扩增偏置，并且作为PCR假阳性滤除。

进一步地，在所述步骤5)中，分析结果分为两种形式展示，一种是对分析结果以表格的形式进行展示，另一种是对分析结果进行统计后以各种形式统计图的形式展示。

进一步地，在所述步骤2)中，对于上传的基因序列数据，在存储器中构建不同的数据结构来表示不同类型的突变，使存储器所需的容量仅与该数据结构的大小有关，而不需要考虑测序深度；通过对降解最严重序列的区域进行一致性分析使本地运行和计算效率与测序深度、扩展线性深度成正比关系。

本发明提供的基因序列数据分析与在线交互可视化的方法，能够大幅提高基因序列数据分析的性能并改善用户查看结果的体验，能检测较大的复杂的插入和缺失突变，检测准确度高，对于分析结果的展示采用表格或者统计图的形式展示，能从多角度对基因序列数据进行展示，避免了对基因序列数据的重复分析，节省了时间和分析资源，操作方便，克服了现有技术中存在的缺陷，可以很好地满足实际应用的需要。

附图说明

图1为本发明的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，下面结合附图和具体实施例对本发明做进一步说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，一种基因序列数据分析与在线交互可视化的方法，包括以下步骤：

步骤1)上传基因序列数据，填写对应信息；

步骤2)选择要进行分析的基因序列数据，进行单基因序列数据分析；

步骤4)查看组合分析的结果，导出报告；

步骤5)对分析结果进行可视化展示。

在所述步骤2)中，对于上传的基因序列数据，在存储器中构建其独特的不同的数据结构，来表示不同类型的突变，使存储器所需的容量仅与该数据结构的大小有关，而不需要考虑测序深度。从而在分析时只需分析比对数据结构中的序列，并实时更新突变数据结构。通过对降解最严重序列的区域进行一致性分析使本地运行和计算效率与测序深度、扩展线性深度成正比关系。这确保能够适用于来自超深度靶向测序的有效计算和灵敏的突变检测，实现低等位基因频率的期望目标，而又不需要降采样。

所述步骤2)包括以下步骤：

步骤一：检测插入和缺失突变

针对插入和缺失突变，本发明提出的方法采用两种局部重组方法来更加准确的估计等位基因频率——有监督的方法和无监督的方法。

等位基因频率是用来衡量一个种群中基因库丰富程度的度量。插入和缺失突变比读取的序列长度短得多，位于读取序列的中心位置，常常与大多数比对工具得到序列的间隙对齐。这种突变通常会导致强制错配对，当配对的序列错误太多时会形成软切片，这些通常会被其他突变定位算法和工具忽视和漏检，但它们却提供了插入和缺失突变的重要证据。当发现这种突变情况时，本发明提出的算法会采用有监督的方法来读取错配的序列，将它们添加到插入和缺失突变的基因库中，来增加等位基因频率。而无监督的方法则是扫描软切片附近的局部序列以查找更多的插入和缺失突变，具体步骤为从在等位基因组位置剪切的软切片序列中查找共有序列，如果可以找到共有序列，则使用它来在自定义的距离(默认为125bp)内查找有无匹配的序列，此时允许小范围的不匹配误差。当在远离切片序列的位置发现匹配序列时，则认为检测到缺失类型的突变；当共有序列的端部匹配与软切片序列相邻时，即检测到插入类型的突变。

步骤二：检测复杂的突变

复杂的突变，这里指插入和缺失突变的组合，对于这种突变，当前已有的大多数突变检测工具检测能力有限，不能准确识别。本发明提出的方法能够将这种组合突变视为一个基因突变，当检测到一个插入或者缺失突变中的一种时，本方法将会在同一条序列中检测是否有另一种突变，如果发现，将它们组合，视为一种插入和缺失突变的组合。

步骤三：检测结构突变

本发明提出的方法采用两步法来检测基因的结构突变，首先，使用上述软切片序列的方法来构建共有序列，然后搜索该共有序列是否可以在给定5kb的敏感区域内唯一匹配。如果没有找到匹配项，将在不配对的序列区域中进行搜索。对于较大的结构突变，例如突变的一段在给定区域内，另一端在给定区域外，此时，搜索范围以不一致的序列为准，在不一致的序列区域中进行搜索，识别另一个端点位置。当成功构建软切片共有序列时，使用上述方法来检测结构突变和估计等位基因频率；当没有得到软切片共有序列时，使用聚类不一致的配对序列来根据距离和方向检测结构突变，并估计切断点以及基于不配对序列数量的等位基因频率。

步骤四：配对检测分析

在配对样本分析时，给定两个BAM文件，提取突变和参考等位基因频率的计数次数，通过费舍尔精确检验确定突变是否在两个样本之间的等位基因频率有显著差异。基于等位基因频率差异，如果仅存在于第一个样本中，则将突变分类为“体细胞”，如果存在于两个样本中，则分类为“种系”，如果第二个样本中的突变是杂合的，但在第一个样本中是纯合的或没有突变，则为“杂合缺失突变”，如果仅存在于第二个样本中，在第一个样本中没有覆盖，则为“缺失型突变”。

步骤五：检测PCR扩增序列

对于给定聚合酶链式反应(PCR)扩增，通过扩增序列来检测扩增突变。首先对读取的序列与BED文件中提供的PCR扩增序列进行比较，确定读取的序列是否属于特定的PCR扩增。然后，只筛选与扩增具有90％相同并且落在扩增PCR边缘10bp内的那些序列对。在多个扩增覆盖的区域中，将区域内扩增中不能被检测出的突变认为是扩增偏置，并且作为PCR假阳性滤除。

步骤六：删除重复数据

NGS中的PCR重复是突变检测中的主要假阳性来源。典型的NGS工作流程包括了单独的重复数据删除步骤来标记或删除重复项。本发明提出的方法能够实时执行重复数据删除，简化了操作步骤，提高了效率。对于两个读取的序列，具有相同比对位置的任何序列对被视为重复型突变，并且只有第一个检测到的突变有效。还适用于已经标记了重复项的BAM文件，使用重复数据删除功能来进行杂交基因测序、全基因组测序(WGS)和RNA-Seq，但不适用于基于PCR的靶向测序。

在所述步骤5)中，分析结果分为两种形式展示，一种是对分析结果以表格的形式进行展示，另一种是对分析结果进行统计后以各种形式统计图的形式展示。

查看分析结果时，初始状态表格中显示的是所有选中的基因序列数据组合分析的结果，统计图是对表格中显示的结果数据的统计，在线交互式可视化结果展示包括以下两项在线功能：

1.表格中的数据可按关键词进行实时筛选，筛选后，统计图中的数据会随着表格内容的改变而改变；

2.表格中的数据可以实时按类别或大小排序。

以上所述实施例仅表达了本发明的实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基因序列数据分析与在线交互可视化的方法，其特征在于，包括以下步骤：

步骤1)上传基因序列数据，填写对应信息；

步骤2)选择基因序列数据，进行单基因序列数据分析；

步骤4)查看组合分析的结果，导出报告；

步骤5)对分析结果进行可视化展示。

2.根据权利要求1所述的基因序列数据分析方法，其特征在于，所述步骤2)包括以下步骤：

步骤一：检测插入和缺失突变；

步骤二：检测插入和缺失突变的组合；

步骤三：检测结构突变；

步骤四：配对检测分析；

步骤五：检测PCR扩增序列；

步骤六：删除重复数据。

3.根据权利要求1、2所述的基因序列数据分析与在线交互可视化的方法，其特征在于，所述步骤一具体为：当发现插入和缺失突变时，采用有监督的方法来读取错配的序列，将它们添加到插入和缺失突变的基因库中，来增加等位基因频率；而无监督的方法则是扫描软切片附近的局部序列以查找更多的插入和缺失突变，具体步骤为从在等位基因组位置剪切的软切片序列中查找共有序列，如果可以找到共有序列，则使用它来在自定义的距离内查找有无匹配的序列，此时允许小范围的不匹配误差。当在远离切片序列的位置发现匹配序列时，则认为检测到缺失类型的突变；当共有序列的端部匹配与软切片序列相邻时，即检测到插入类型的突变。

4.根据权利要求1、2所述的基因序列数据分析与在线交互可视化的方法，其特征在于，所述步骤二具体为：将插入和缺失突变的组合视为一个基因突变，当检测到一个插入或者缺失突变中的一种时，在同一条序列中检测是否有另一种突变，如果有，则将它们组合，视为一种插入和缺失突变的组合。

5.根据权利要求1、2所述的基因序列数据分析与在线交互可视化的方法，其特征在于，所述步骤三具体为：使用软切片序列的方法来构建共有序列，然后搜索该共有序列是否可以在给定5kb的敏感区域内唯一匹配；如果没有找到匹配项，将在不配对的序列区域中进行搜索；对于较大的结构突变，搜索范围以不一致的序列为准，在不一致的序列区域中进行搜索，识别另一个端点位置。

6.根据权利要求1、2所述的基因序列数据分析与在线交互可视化的方法，其特征在于，所述步骤四具体为：在配对样本分析时，给定两个BAM文件，提取突变和参考等位基因频率的计数次数，通过费舍尔精确检验确定突变是否在两个样本之间的等位基因频率有显著差异；基于等位基因频率差异，如果仅存在于第一个样本中，则将突变分类为“体细胞”，如果存在于两个样本中，则分类为“种系”，如果第二个样本中的突变是杂合的，但在第一个样本中是纯合的或没有突变，则为“杂合缺失突变”，如果仅存在于第二个样本中，在第一个样本中没有覆盖，则为“缺失型突变”。

7.根据权利要求1-2所述的基因序列数据分析与在线交互可视化的方法，其特征在于，所述步骤五具体为：首先对读取的序列与BED文件中提供的PCR扩增序列进行比较，确定读取的序列是否属于特定的PCR扩增；然后，只筛选与扩增具有90％相同并且落在扩增PCR边缘10bp内的那些序列对；在多个扩增覆盖的区域中，将区域内扩增中不能被检测出的突变认为是扩增偏置，并且作为PCR假阳性滤除。

8.根据权利要求1-7所述的基因序列数据分析方法，其特征在于，在所述步骤5)中，分析结果分为两种形式展示，一种是对分析结果以表格的形式进行展示，另一种是对分析结果进行统计后以各种形式统计图的形式展示。

9.根据权利要求1-8所述的基因序列数据分析方法，其特征在于，在所述步骤2)中，对于上传的基因序列数据，在存储器中构建不同的数据结构来表示不同类型的突变，使存储器所需的容量仅与该数据结构的大小有关，而不需要考虑测序深度；通过对降解最严重序列的区域进行一致性分析使本地运行和计算效率与测序深度、扩展线性深度成正比关系。