CN107944228A

CN107944228A - 一种基因测序变异位点的可视化方法

Info

Publication number: CN107944228A
Application number: CN201711316166.4A
Authority: CN
Inventors: 龚浩; 车健为
Original assignee: Guangzhou Manrui Biological Information Technology Co Ltd
Current assignee: Beijing Huakang Bosheng Biotechnology Co.,Ltd.
Priority date: 2017-12-08
Filing date: 2017-12-08
Publication date: 2018-04-20
Anticipated expiration: 2037-12-08
Also published as: CN107944228B

Abstract

本发明公开了一种基因测序变异位点的可视化方法，所述方法包括以下步骤：(1)获取reads比对到参考基因组位置信息；(2)根据步骤(1)获得的基因组位置信息对比对文件进行排序；(3)读取变异位点相关的reads信息，通过双向跳跃法比对变异位点和reads的覆盖范围的重叠情况，保存覆盖变异位点的reads；(4)根据选择的变异位点对步骤(3)所保存的reads进行排序；(5)统计分析比对结果和变异位点信息，输出包含比对信息的可视化图表。本发明可快速找到覆盖变异位点的对比序列，生成输出包含所有比对信息的图片，从而通过对比信息鉴定变异位点是否为测序、序列比对和其它原因造成的假阳性或假阴性位点。

Description

一种基因测序变异位点的可视化方法

技术领域

本发明涉及生物信息处理技术领域，具体涉及一种基因测序变异位点可视化方法。

背景技术

肿瘤循环DNA(circulating tumour DNA，ctDNA)是血液中游离的癌细胞在细胞凋亡时释放到血液中DNA分子。这些DNA分子带有癌细胞特有的变异。不同的肿瘤的癌细胞释放到血液中的DNA分子变异不同；同一肿瘤在不同发展时期释放到血液中的ctDNA分子的变异不一样；癌症病人在治疗前后ctDNA分子的变异也不一样，所以ctDNA分子的变异是一个动态的变化过程。由于癌细胞释放的DNA分子只占血液中游离DNA的很少一部分，所以ctDNA检测到的变异频率很低(通常低于1％)。为了检测这些微量的游离DNA分子的变异，一般需要1万倍左右的测序覆盖。为了降低测序和检测成本，在进行ctDNA变异检测时，我们通常采用捕获探针捕获特定少数的癌症相关的DNA分子进行检测。由于测序二代测序本身也有一定的测序错误率(当碱基的测序分值为25时，错误率为0.1％％左右)，所以在进行1万倍左右的测序覆盖时，我们检测到ctDNA分子的变异很有可能是测序仪测序本身的错误造成的。

在进行变异位点鉴定时，传统的方法是生成变异相关的文件(即vcf格式的文件，variant calling format)。里面是包含有变异的频率信息、位点覆盖率的深度和变异位点在不同的DNA链的分布。凭借这些信息虽然可以过滤掉一些假阳性的变异位点，然而很多假阳性的变异位点也满足变异频率和覆盖率深度要求。我们需要进一步的需要了解带有变异位点序列比对情况和序列比对错误率，同时也要看所有的reads(高通量测序读到的碱基序列片段，即测序的最小单位)的变异位点，在实际情况中由于比对错误和测序错误的原因也会产生假阳性的位点，为了进一步的进行过滤，目前可以把比对的原始文件载入IGV等比对浏览器然后手动查看。由于原始的序列比对文件很大，所以在载入IGV等浏览器需要花费大量的时间。同时由于人类的参考基因组非常大(～3Gb)，测序的覆盖率深度很高(>10000倍)，需要进行很多的操作才能最终看到单个变异位点的周围的序列比对情况。一般的基因检测样本有多达20个以上的需要复核的点，这个复核过程需要花费大量的时间。这对于进行大规模进行基因样本检测时，如果按照这样操作的话则工作量非常大。所以在基因检测行业默认是不会对大规模的商业样本进行人工核验的。因此，为了解决这个变异位点后期复核的问题，我们需要对变异位点的鉴定和可视化作出改进。

发明内容

本发明的目的在于针对现有技术的不足，提供一种基因测序变异位点的可视化方法，解决目前变异位点的鉴定工作量大，生成输出包含比对信息的图片工作量大，花费时间长的问题。

为实现上述目的，本发明采取的技术方案如下：

一种基因测序变异位点的可视化方法，所述方法包括以下步骤：

(1)将原始测序数据的多个reads按照BWA比对算法比对到参考基因组上，获得reads比对到参考基因组位置信息；

(2)根据步骤(1)获得的基因组位置信息对比对文件进行排序；

(3)读取变异位点相关的reads信息，通过双向跳跃法分别对reads从左到右和从右到左两个方向比对变异位点和reads的覆盖范围的重叠情况，保存覆盖变异位点的reads，去除不符合规则的reads；

(4)根据选择的变异位点对步骤(3)所保存的reads进行排序；

(5)基于步骤(4)获得的排序信息，统计分析比对结果和变异位点信息，输出包含比对信息的可视化图表。

上述技术方案中通过双向跳跃法比对reads的覆盖范围和变异位点的重叠情况，可以大批量地为所有的变异位点快速找到覆盖变异位点的对比序列，在进行比对的同时保存上一次的比对信息，避免变异位点的反复循环比对，只需要读取比对序列文件和位点变异位点文件一次，就可以为所有变异位点提取对应的序列变异位点；针对变异位点直接编码，快速生成输出包含比对信息的图片，生成图片效率极大提高，避免人工操作，可大批量生成输出图片；生成输出的图片能够展示所有的比对信息，并按照变异位点与参考碱基变异的相关性进行排序，无需人工调整，从而通过对比信息鉴定变异位点是否为测序、序列比对和其它原因造成的假阳性或假阴性位点。

作为本发明所述的基因测序变异位点的可视化方法的优选实施方式，所述步骤(3)中，包括以下步骤：

3.1)检索每个reads的覆盖范围和变异位点的重叠情况，当reads覆盖的染色体号大于变异位点的染色体号，或者染色体号相同但reads覆盖的染色体起始位置大于变异位点的位置时，取下一个变异位点再进行比对，直至变异位点的染色体号大于reads覆盖的染色体号，或者染色体号相同但reads覆盖的染色体起始位置小于等于变异位点才终止；

3.2)当reads覆盖的染色体号小于变异位点的染色体号，或者染色体号相同但reads覆盖的染色体终止位置小于变异位点的位置时，取上一个变异位点再进行比对，直至变异位点的染色体号小于reads覆盖的染色体号，或者染色体号相同但reads覆盖的染色体起始位置大于等于变异位点才终止；

3.3)比较变异位点和reads的覆盖范围的重叠情况，保存覆盖变异位点的reads的比对相关属性；

3.4)迭代比对，直至到文件读取完毕，终止。

上述技术方案能够快速比对reads覆盖范围和变异位点的重叠情况，可以大批量地为所有的变异位点快速找到覆盖变异位点的对比序列，在进行比对的同时保存上一次的比对信息，避免变异位点的反复循环比对，只需要读取比对序列文件和变异位点文件一次，就可以为所有变异位点提取对应的reads。

作为本发明所述的基因测序变异位点的可视化方法的优选实施方式，所述步骤(4)中，基于变异碱基、变异类型和变异碱基的出现次数对保存的reads进行优先级排序。

上述技术方案能够快速获取变异位点的比对情况，排除其它非指定变异碱基的干扰，有利于鉴定变异位点是否为测序、序列比对和其它原因造成的假阳性或假阴性位点。

作为本发明所述的基因测序变异位点的可视化方法的优选实施方式，所述基于变异碱基对保存的reads进行优先级排序时，其中具有与变异位点相同的指定变异碱基的reads具有更高优先级。

作为本发明所述的基因测序变异位点的可视化方法的优选实施方式，所述基于变异类型对保存的reads进行优先级排序时，其中具有与变异位点相同的指定变异类型的reads具有更高优先级。

作为本发明所述的基因测序变异位点的可视化方法的优选实施方式，所述基于变异碱基的出现次数对保存的reads序进行优先级排序时，其中变异碱基的出现次数多的reads具有更高优先级。

上述技术方案中基于变异碱基、变异类型和变异碱基的出现次数对保存的reads进行优先级排序，检索变异位点的变异碱基，如果是单个位点变异，则检查所有reads在此位置的变异碱基，把变异碱基与变异位点指定的碱基相同的reads序列排在最前面，后面reads按照变异碱基出现的次数排序，携带有出现次数多的reads序列排在最前面，在携带变异碱基相同reads内部排序是按照其所在染色体的位置从小到大排序；如果变异位点为插入或者缺失变异，和前面一样，首先把和变异碱基指定变异类型相同的排在最前面，优先级设为一，然后把这个携带有插入缺失变异的reads优先级设为二，后面按照变异碱基出现的次数排序，出现次数多的碱基排在前面，出现次数少的碱基排在后面。

作为本发明所述的基因测序变异位点的可视化方法的优选实施方式，所述步骤(5)中，利用C语言画图模块生成输出可视化图表。

上述技术方案与传统利用IGV生成图片相比，利用的C语言编写的在linux系统上运行的无程序界面程序。可以直接在分析原始测序序列的服务器上生成相应的图片，不需要人工干预进行调整；利用C语言画图模块根据我们收集的碱基信息直接生成，避免了IGV浏览器调用相关模块比对，然后局部调整导出图片等人工操作的过程，实现快速的生成相应reads序列比对相关的图片；批量的生成输出图片，多任务运行，由于编写的程序运行环境是linux环境，可以在鉴定基因组变异位点数据(运行环境一般为linux环境)的同时直接运行画图程序。由于编写的画图程序每次只需要读写一条reads的比对信息，所有只占用非常少的内存和磁盘读写时间。如果有多个样本需要对鉴定的变异位点进行检验时，可以多个样本同时运行；编写的程序在读取一次序列比对文件后，就可以为所有基因组的变异位点检索到序列比对信息；读取完一个样本后依次生成所有变异位点的相关图片。

作为本发明所述的基因测序变异位点的可视化方法的优选实施方式，所述步骤(5)中，每个变异位点输出的图片包含的reads的比对序列为变异位点左右各50bp的碱基序列。

由于二代测序的一般的序列长度为150bp左右，取变异位点左右各50bp的碱基片段一共100bp足够判断变异位点周围的比对信息。

作为本发明所述的基因测序变异位点的可视化方法的优选实施方式，所述步骤(5)中，每个变异位点输出的图片包含的reads不超过300条。

由于cfDNA变异浓度一般低于1％,一般的测序覆盖率为2万层左右，所以300条reads足够进行变异位点的鉴定，有利于提高生成输出图片的效率。如果有变异的碱基reads低于300条，我们按照实际reads数目展示，并相应的调整图片大小；如果指定变异位点reads有变异的数目超过300条，为了阅读方便，只展示300条。

作为本发明所述的基因测序变异位点的可视化方法的优选实施方式，所述比对信息包含样本信息、变异位点的位置信息、碱基变异信息、变异频率、覆盖率信息和在参考基因组上每个变异位点的参考碱基信息。

与现有技术相比，本发明的有益效果为：

(1)本发明通过双向跳跃法比对reads覆盖范围和变异位点的重叠情况，可以大批量地为所有的变异位点快速找到覆盖变异位点的对比序列，在进行比对的同时保存上一次的比对信息，避免变异位点的反复循环比对，只需要读取比对序列文件和位点变异位点文件一次，就可以为所有变异位点提取对应的序列变异位点。

(2)本发明针对变异位点直接编码，快速生成输出包含比对信息的图片，生成图片效率极大提高，避免人工操作，可大批量实现变异位点可视化。

(3)本发明生成输出的图片能够展示所有的比对信息，并按照变异位点与参考碱基变异的相关性进行排序，无需人工调整，减少反复读取数据和处理数据的操作时间，有利于变异位点是否为测序、序列比对和其它原因造成的假阳性或假阴性位点的快速鉴定

附图说明

图1为本发明的基因测序变异位点的可视化方法的主要流程图。

图2为本发明生成输出的包含比对信息的例图。

具体实施方式

为更好地说明本发明的目的、技术方案和优点，下面将结合附图和具体实施例对本发明进一步说明。本领域技术人员应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

图1为本发明提供的基因测序变异位点的可视化方法的主要流程图。本发明基因测序变异位点可视化方法，包括以下步骤：

(2)根据步骤(1)获得的基因组位置信息对比对文件进行排序；

(4)根据选择的变异位点对步骤(3)所保存的reads进行排序；

所述步骤(3)中，具体可包括以下步骤：

3.4)迭代比对，直至到文件读取完毕，终止。

步骤(4)中，根据变异位点信息对步骤(3)所保存的reads进行排序，基于变异碱基、变异类型和变异碱基的出现次数对保存的reads进行优先级排序。

基于变异碱基对保存的reads进行优先级排序时，其中具有与变异位点相同的指定变异碱基的reads具有更高优先级。

基于变异类型对保存的reads进行优先级排序时，其中具有与变异位点相同的指定变异类型的reads具有更高优先级。

基于变异碱基的出现次数对保存的reads序进行优先级排序时，其中变异碱基的出现次数多的reads具有更高优先级。

检索变异位点的变异碱基，如果是单个位点变异，则检查所有reads在此位置的变异碱基，把变异碱基与变异位点指定的碱基相同的reads序列排在最前面。后面reads按照变异碱基出现的次数排序，携带有出现次数多的reads排在最前面；在携带变异碱基相同reads内部排序是按照其所在染色体的位置从小到大排序；如果变异位点为插入或者缺失变异，和前面一样，首先把和变异碱基指定变异类型相同的排在最前面，优先级设为一，然后把这个携带有插入缺失变异的reads优先级设为二，后面按照变异碱基出现的次数排序，出现次数多的碱基排在前面，出现次数少的碱基排在后面。

步骤(5)中，利用C语言画图模块，直接在分析原始测序数据的服务器上生成输出可视化图表。

基于步骤(4)获得的排序信息，针对变异位点编码生成包含比对信息的图片，每个变异位点生成的图片包含的reads的比对序列为变异位点左右各50bp的碱基序列。

基于步骤(4)获得的排序信息，针对变异位点编码生成包含比对信息的图片，每个变异位点输出的图片包含的reads不超过300条。

每个变异位点输出的图片包含样本信息、变异位点的位置信息、碱基变异信息、变异频率和覆盖率信息和在参考基因组上每个变异位点的参考碱基信息。

取变异位点左右各50bp的碱基片段一共100bp判断变异位点周围的比对信息，对前300条reads进行编码生成图片，用22*22像素来代表一个碱基的大小，在图片中展示在指定变异位点有变异碱基的reads序列。

图2为本发明输出的包含比对信息的例图，图片中包含样本信息、变异位点的位置信息、碱基变异信息、变异频率和覆盖率信息和在参考基因组上的每个变异位点的参考碱基信息。

图2展示的信息包括以下几个方面：

1、每条reads的比对情况，具体来说就是150个碱基有多少是匹配、插入和缺失等具体信息(即cigar标签，在图像最左侧)。其中，M代表比对，I代表插入，D代表缺失，S代表软切片，H代表硬切片，不同的字母代表不同的比对形式，前面的数字代表是这种形式比对的碱基个数。

N表示由于在多次测序中出现的点错误，且错误的碱基出现的次数相近，统计学上没有显著性差异的情况。

3、每条reads和参考基因组的比对情况。在图片最上端以的101个碱基代表的是变异碱基周围左右各50bp参考碱基的序列。下面每一行就是代表一个比对的reads序列，如果这个reads在此区间没有覆盖则为空白；如果有覆盖和参考基因组一样则为下划线；如果和参考基因组序列不一致则显示变异的碱基序列；如果为缺失的话显示为大写字母D。每一列都是比对到同一个位置的参考碱基。变异位点周围用红色进行标示，以方便查看。

4、变异的序列通常只会显示前300个，如果低于300则会全部显示。这些序列的排序原则如下：第一、和参考基因组不同的支持reads数目最多的变异排在最前面，按照支持的reads数目依次往下。第二、如果这个变异位点为插入或者缺失，则所有reads只要带有插入和缺失的reads的优先级比点变异的都高。携带突变位点周围变异的reads排序的时候优先级最高。

最后所应当说明的是，以上实施例仅用以说明本发明的技术方案而非对本发明保护范围的限制，尽管参照较佳实施例对本发明作了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的实质和范围。

Claims

1.一种基因测序变异位点的可视化方法，其特征在于，包括以下步骤：

(2)根据步骤(1)获得的基因组位置信息对比对文件进行排序；

(4)根据选择的变异位点对步骤(3)所保存的reads进行排序；

2.根据权利要求1所述的基因测序变异位点的可视化方法，其特征在于，所述步骤(3)中，包括以下步骤：

3.4)迭代比对，直至到文件读取完毕，终止。

3.根据权利要求1所述的基因测序变异位点的可视化方法，其特征在于，所述步骤(4)中，基于变异碱基、变异类型和变异碱基的出现次数对保存的reads进行优先级排序。

4.根据权利要求3所述的基因测序变异位点的可视化方法，其特征在于，所述基于变异碱基对保存的reads进行优先级排序时，其中具有与变异位点相同的指定变异碱基的reads具有更高优先级。

5.根据权利要求3所述的基因测序变异位点的可视化方法，其特征在于，所述基于变异类型对保存的reads进行优先级排序时，其中具有与变异位点相同的指定变异类型的reads具有更高优先级。

6.根据权利要求3所述的基因测序变异位点的可视化方法，其特征在于，所述基于变异碱基的出现次数对保存的reads序进行优先级排序时，其中变异碱基的出现次数多的reads具有更高优先级。

7.根据权利要求1所述的基因测序变异位点的可视化方法，其特征在于，所述步骤(5)中，利用C语言画图模块生成输出可视化图表。

8.根据权利要求1所述的基因测序变异位点的可视化方法，其特征在于，所述步骤(5)中，每个变异位点输出的图片包含的reads的比对序列为变异位点左右各50bp的碱基序列。

9.根据权利要求1所述的基因测序变异位点的可视化方法，其特征在于，所述步骤(5)中，每个变异位点输出的图片包含的reads不超过300条。

10.根据权利要求1～9任一项所述的基因测序变异位点的可视化方法，其特征在于，所述比对信息包含样本信息、变异位点的位置信息、碱基变异信息、变异频率、覆盖率信息和在参考基因组上每个变异位点的参考碱基信息。