CN106202991A

CN106202991A - 一种基因组多重扩增测序产物中突变信息的检测方法

Info

Publication number: CN106202991A
Application number: CN201610504503.1A
Authority: CN
Inventors: 李旭超; 黄可君; 林清华; 王伟东; 葛会娟; 张霞; 张林华; 阮力; 郑立谋
Original assignee: Amoy Diagnostics Co Ltd
Current assignee: Shanghai Xiawei Medical Laboratory Co ltd; Amoy Diagnostics Co Ltd
Priority date: 2016-06-30
Filing date: 2016-06-30
Publication date: 2016-12-07
Anticipated expiration: 2036-06-30
Also published as: CN106202991B

Abstract

本发明公开了一种基因组多重扩增测序产物中突变信息的检测方法。步骤为，对测序数据进行质量评估和预处理；选择可识别的测序序列进行序列组装；将可识别的测序序列或组装得到的序列与参考基因序列进行序列比对，得到初步的变异信息；根据不同类型情况进行序列变异精校准；得到校准后的测序片段；根据最高丰度的测序片段类型计算得到目标片段的纯合或杂合状态；最终得到基因组多重扩增测序产物中的突变信息。本发明方法可快速、高效、准确的对扩增产物进行识别，节省计算资源；兼容序列组装过程，可有效改善测序过程中产生的碱基质量值衰减问题；可更有效、稳定的对变异信息的纯/杂合状态进行判定，消除PCR过程及测序过程中引入的随机错误。

Description

一种基因组多重扩增测序产物中突变信息的检测方法

技术领域

本发明涉及基因测序领域，尤其涉及一种基因组多重扩增测序产物中突变信息的检测方法。

背景技术

目前，对基因序列进行变异检测的方法有很多。其中，通过多重扩增将特定目标区域进行特异性扩增，并对扩增产物进行高通量测序是一种高效、经济、准确性高的优选方法。此类方法可以扩大传统单点PCR的检测通量，同时高通量测序技术可以得到目标区域准确的数字信号，可以更准确的对序列变异情况进行描述。

然而，这类方法在检测过程中会产生大量的测序序列信息，需要使用专业的数据分析方法对测序结果进行解读。目前，对此类数据进行分析的方法有很多，主要过程都是将测序序列通过全基因组比对的方式定位到基因序列上，再通过对所有测序候选类型的碱基深度进行统计，从而计算出目标基因区域的变异信息。但是，这类方法由于需要将测序序列对全基因组区域进行比对，程序运行速度慢，需要的资源消耗高。而且，变异检测过程中，突变的统计是在单个位点的水平上进行，对于PCR或测序过程中产生的错误只能通过概率模型模型计算进行消除，容易受到干扰。再者，由于方法定位为全基因组比对，在每个基因位置的比对上采用了相同的处理方式，并没有考虑不同基因表达方式的差异，导致在后期的功能注释上无法与生物学意义直接相关联，对受试样品的遗传咨询产生潜在影响。

综上可知，目前临床上针对此类数据并没有一种高效、快捷、准确的分析方法。本发明目的在于提供一种快速、全面准确、高效的检测多重扩增测序产物中基因突变的分析方法。

发明内容

本发明的目的在于提供一种基因组多重扩增测序产物中突变信息的检测方法。

为实现上述目的，本发明提供一种基因组多重扩增测序产物中突变信息的检测方法，其特征在于，步骤为，

(1)测序数据的质量评估和预处理，过滤掉不合适的测序数据，得到第一测序序列；优选的，所述不合适的测序数据指的是Q20低于80％，或N碱基比例大于20％；

(2)引物识别：使用来源于覆盖所检测基因的测序引物，对上述第一测序序列进行来源识别，将可以识别的测序序列为第二测序序列；优选的，可以识别的测序序列指的是引物序列与测序序列的碱基差异在2个以内；

(3)序列组装：对第二测序序列中可实现每条扩增子的完全覆盖的两端的测序数据，进行序列组装，将其两条片段的重合序列部分进行合并和质量值的重新计算；得到第三测序序列；

(4)序列比对：根据来源于覆盖所检测基因的测序引物的序列位置，从标准参考基因组切取参考序列文件，进而将所述第二测序序列或第三测序序列与所述参考基因序列进行序列比对；得到第四测序序列；

(5)变异检测：对所述第四测序序列，采用碱基比较的方式，统计每一个位置上测序序列与所述参考序列的异同，得到初步的变异信息；

(6)序列变异精校准：

对于相互靠近的突变，将其进行合并，重新计算碱基的突变位置和突变类型；尤其，如果存在其中一侧为插入或缺失的类型，需要对合并后的碱基定位进行调整；得到校准后的第五测序片段；

对于插入类型，以基因的转录方向为准，如果插入片段的第一位碱基与插入位置的右侧第一位碱基相同，则将其向转录方向移动，直至不满足此条件为止；得到校准后的第五测序片段；

对于缺失类型，以基因的转录方向为准，如果缺失片段的第一位碱基与缺失位置的右侧第一位碱基相同，则将其向转录方向移动，直至不满足此条件为止；得到校准后的第五测序片段；

(7)序列变异统计输出：根据最高丰度的第五测序片段类型计算得到目标片段的纯合或杂合状态；最终得到基因组多重扩增测序产物中的突变信息。

进一步，所述引物识别的具体算法为：

(1)循环所有来源于覆盖所检测基因的测序引物组合；

(2)每次截取测序序列两端和当前来源于覆盖所检测基因的测序引物组合相同的片段进行全局比对，并进行打分，同时记录比对过程中的碱基错配个数和插入缺失个数；

(3)根据比对打分确定最佳引物来源，并根据最佳引物来源中的碱基错配个数和插入缺失个数判定测序序列是否为非特异扩增。

进一步，所述序列组装为：

(1)将测序序列的后端数据进行反向互补，使其与前端序列具有相同读取方向；

(2)将后端序列与前端序列进行不同位置的对齐操作，进而在每种对齐条件下计算后续序列相同与不同的打分值，选取最高打分值作为前后两条序列的最佳组装起点；

(3)从最佳比对起点开始，选取两条序列上重合位置测序质量最高的碱基作为最终组装序列的碱基；如果遇到两个不同碱基的质量值相同，则优选前段碱基序列的碱基类型；

(4)输出组装后的序列片段，并根据如下原则重新计算碱基质量值打分：

a.如果两个碱基相同，则质量值为两只相加，但不高于最高质量值上限；

b.如果两个碱基不同，则质量值为两者中的较大者，如两者相同，则任取一个。

进一步，所述序列比对的方式为全局比对算法，其具体算法原理如下：

(1)参数设定：对比对过程中的打分值进行定义，可以采取两种方式：

c.定义碱基相同、碱基错配、碱基插入缺失、碱基插入缺失延伸的分值；

d.定义打分矩阵，即每种碱基间的相互错配可以具有各自不同的分值，以考虑生物过程中碱基突变的实际概率值。

(2)打分矩阵初始化：

a.将参考序列的每一个碱基作为打分矩阵的一列，首列留空；

b.将测序序列的每一个碱基作为打分矩阵的一行，首行留空；

c.将打分矩阵的第二行和第二列根据碱基插入缺失、碱基插入缺失延伸的分值进行填充，以定义在序列首端存在插入缺失的情况。

(3)打分矩阵填充：将打分矩阵从左向右、自上而下进行填充。填充过程中遵循以下原则：

a.每个空位分别计算由左侧、上方、左上方延伸而来的得分；

b.在计算过程中，来自于左上方的情况需要计算当前位置对应的参考序列碱基和测序序列碱基是否相同，相同则加上“碱基相同”对应的分值，不相同则加上“碱基错配”对应的分值；如果来自于上方或左侧，需要考虑前一步碱基是否为插入缺失，如果是插入缺失，则加上“碱基插入缺失延伸”的分值，如果不是则加上“碱基插入缺失”的分值。

c.将3种情况下计算得到的最高分作为此处的比对分值；并记录此处的路径来源。

(4)最优路径回溯：从打分矩阵的右下角开始回溯，选取每一个位点的路径来源，得到最优比对结果，即测序序列与参考序列的位置对应关系。

注意，此处的比对算法为全局比对，如采用局部比对的方式，在(4)中的路径回溯阶段，起点选取打分矩阵右下角的最大分值作为起点即可。

进一步，所述变异检测的判定方法为：

如果测序序列与参考序列相同，此处没有变异；

如果测序序列与参考序列不同，此处存在碱基替换类型的序列变异；

如果测序序列对应参考序列上的空位，此处存在序列插入类型的序列变异；

如果测序序列的空位对应参考序列上的碱基，此处存在序列缺失类型的序列变异。

进一步，所述序列变异统计输出的实施过程为：

(1)将所有测序序列的片段根据引物序列进行分类；

(2)在每一个引物序列内部统计出现次数最多和次多的序列类型，得到最佳序列与次佳序列；

(3)计算最佳序列与次佳序列中次佳序列所占的比例；

(4)根据设定的阈值和染色体倍数判定此目标片段为纯合区域或杂合区域。在二倍体中，若高于阈值则为纯合，输出最佳序列所得到的变异信息；反之为杂合，输出最佳序列与次佳序列所得到的变异信息；而在单倍体中，如人类的性染色体，则直接判定为纯合，输出最佳序列所得到的变异信息。

进一步，所述基因组是二倍体基因组。

进一步，所述基因组是人类基因组

本发明的技术方案为：

1、测序数据的质量评估和预处理

本发明方法会通过测序质量值、碱基识别率、测序序列有效长度对原始测序数据进行筛选和过滤，以保证后续分析步骤的准确、精确。

2、引物识别

本发明方法使用多重扩增实验中的引物序列，对测序序列进行来源识别，进而对目标片段序列和非特异扩增序列进行区分。由于不需要对全基因组序列进行比对，可以极大的减少计算过程中的资源消耗。

其具体原理为：1.存储所有扩增体系中使用的正向及反向引物信息；2.每次读取一对测序序列，并循环每对引物序列与测序序列进行引物识别；3.重复以上操作，直至对所有测序序列进行引物来源识别。

在引物识别过程中，其具体算法为：

(1)循环所有引物组合；

(2)每次截取测序序列两端和当前引物组合相同的片段进行全局比对，并进行打分，同时记录比对过程中的碱基错配个数和插入缺失个数；

3、序列组装

在测序过程中，碱基测序质量会随着测序的长度不断衰减，因此在序列片段的尾部会富集测序错误。在illumina平台上，测序仪会提供目的片段两端的序列信息。因此，为了提高数据质量，以及避免在变异检测过程中长片段插入缺失的比对错误，可以优选将illumina平台双端测序数据进行拼接。

其具体算法如下：

c.如果两个碱基相同，则质量值为两值相加，但不高于最高质量值上限；

d.如果两个碱基不同，则质量值为两者中的较大者，如两者相同，则任取一个。

4、序列比对

将步骤2中能够和特异性引物匹配的测序序列，或经过步骤3中序列组装后的测序序列，与标准的参考基因组序列进行比对。由于测序序列为扩增子测序，理论上与标准参考序列的大部分位置(下限为首位两端的引物位置)具有高度相似性。所以此处的比对方式优选全局比对算法，其具体算法原理如下：

a.定义碱基相同、碱基错配、碱基插入缺失、碱基插入缺失延伸的分值；

b.定义打分矩阵，即每种碱基间的相互错配可以具有各自不同的分值，以考虑生物过程中碱基突变的实际概率值。

(2)打分矩阵初始化：

a.将参考序列的每一个碱基作为打分矩阵的第一列，首列留空；

b.将测序序列的每一个碱基作为打分矩阵的第一行，首行留空；

注意，此处的比对算法为全局比对，如采用局部比对的方式，在(4)中的路径回溯阶段，起点选取打分矩阵右下角的最大分值为起点即可。

5、变异检测

根据第4步所得的比对结果，统计每一个位置上测序序列与参考序列的异同，得到初步的变异信息。判定方法为：

(1)如果测序序列与参考序列相同，此处没有变异；

(2)如果测序序列与参考序列不同，此处存在碱基替换类型的序列变异；

(3)如果测序序列对应参考序列上的空位，此处存在序列插入类型的序列变异；

(4)如果测序序列的空位对应参考序列上的碱基，此处存在序列缺失类型的序列变异。

6、序列变异精校准

在常规的变异检测中，突变信息的定位均以比对信息为准，这样的缺陷是变异信息与真实的生物学改变存在一定隔阂。如比对过程总是向序列的一端靠拢，固定向左或向右，而在生物学意义上却与基因的转录方向有关；对于复杂突变，普通比对过程会将一个大的突变拆分成多个小的片段以得到最佳比对得分，与真实的生物学改变不符，尤其是大片段替换等复杂类型。

在本分析系统中，会对检测到的突变进行更靠近生物学意义的精细调整，其具体过程如下：

(1)对于相互靠近的突变，将其进行合并，重新计算碱基的突变位置和突变类型；尤其，如果存在其中一侧为插入或缺失的类型，需要对合并后的碱基定位进行调整；

(2)对于插入类型，以基因的转录方向为准，如果插入片段的第一位碱基与插入位置的右侧第一位碱基相同，则将其向转录方向移动，直至不满足此条件为止；

(3)对于缺失类型，以基因的转录方向为准，如果缺失片段的第一位碱基与缺失位置的右侧第一位碱基相同，则将其向转录方向移动，直至不满足此条件为止。

7、序列变异统计输出

在测序过程中，在PCR过程和测序过程均会引入碱基的随机错误。但其错误均是以原始序列片段为起始的。因此，对于基因组DNA，在常染色体均为二倍体，在性染色体存在单倍体。在变异检测过程中，仅需要根据其最高丰度的测序片段类型即可计算得到目标片段的纯合或杂合状态。从而极大的简化变异序列的过滤方法，并排除实验过程中随机错误的产生。

在具体的分析过程中，本分析系统的实施过程如下：

(1)将所有测序序列的片段根据引物序列进行分类；

(2)在每一个引物序列内部统计最佳和次佳序列类型的个数；

(3)计算最佳序列与次佳序列中次佳序列所占的比例；

(4)根据设定的阈值判定此目标片段为纯合区域或杂合区域。在常染色体中，如高于阈值则为纯合，输出最佳序列所得到的变异信息；反之为杂合，输出佳序列与次佳序列所得到的变异信息。而在性染色体中，如为女性则与常染色体相同；如为男性则直接判定为纯合，输出最佳序列所得到的变异信息。

与目前常规的多重扩增测序产物的变异检测方法相比，本发明的有益效果在于：

1.高效性。本发明采用了特异引物识别算法，可以快速、高效、准确的对扩增产物进行识别，极大的节省了计算资源。

2.临床有效性。本发明兼容序列组装过程，可以有效改善测序过程中产生的碱基质量值衰减问题。并且本发明方法开发了变异检测信息的精校准过程，更加具有生物学意义，为临床信息提供更有价值的信息参考。

3.稳定性。本发明采用了二倍体/单倍体的生物学假设算法，可以更有效、稳定的对变异信息的纯/杂合状态进行判定，极大的消除了PCR过程及测序过程中引入的随机错误。

附图说明

图1是检测系统构成图。

图2是插入类型突变右对齐示意图。

图3是缺失类型突变右对齐示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。本发明的描述中，“第一”、“第二”、“第三”等为指代或描述方便，不能理解为有顺序关系或者有相对重要性指示，除非另有说明，“多个”、“多组”、“多重”的含义是两个(组或重)或两个(组或重)以上。实施例中未注明具体技术或条件者，按照本领域内的文献所描述的技术或条件或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者，均为可以通过市购获得的常规产品。

1、测序数据的质量评估和预处理

2、引物识别

在引物识别过程中，其具体算法为：

(1)循环所有引物组合；

3、序列组装

其具体算法如下：

4、序列比对

(2)打分矩阵初始化：

c.将3中情况下计算得到的最高分作为此处的比对分值；并记录此处的路径来源。

注意，此处的比对算法为全局比对，如采用局部比对的方式，在(4)中的路径回溯阶段，起点选取打分矩阵右下角的最大分值最为起点即可。

5、变异检测

(1)如果测序序列与参考序列相同，此处没有变异；

6、序列变异精校准

7、序列变异统计输出

在测序过程中，在PCR过程和测序过程均会引入碱基的随机错误。但其错误均是以原始序列片段为起始的。因此，对于人类基因组DNA，在常染色体均为二倍体，在性染色体存在单倍体。在变异检测过程中，仅需要根据其最高丰度的测序片段类型即可计算得到目标片段的纯合或杂合状态。从而极大的简化变异序列的过滤方法，并排除实验过程中随机错误的产生。

在具体的分析过程中，本分析系统的实施过程如下：

1)将所有测序序列的片段根据引物序列进行分类；

2)在每一个引物序列内部统计最佳和次佳序列类型的个数；

3)计算最佳序列与次佳序列中次佳序列所占的比例；

4)根据设定的阈值判定此目标片段为纯合区域或杂合区域。在常染色体中，如高于阈值则为纯合，输出最佳序列所得到的变异信息；反之为杂合，输出佳序列与次佳序列所得到的变异信息。而在性染色体中，如为女性则与常染色体相同；如为男性则直接判定为纯合，输出最佳序列所得到的变异信息。

实施例1：检测人类基因组多重扩增测序产物中突变信息的方法系统

运用本发明方法，对107例由多重扩增得到的BRCA1和BRCA2基因测序数据进行分析。其中包括100份健康的无偿献血者全血样本、5份乳腺癌或卵巢癌患者样本(全血、石蜡切片)，BRCA1/2阳性细胞系2株，分别为BT474和HCT15(均可购自于ATCC)。

(1)测序数据的质量评估和预处理

将illumina测序平台测序得到的107份PE250数据进行低质量筛选和低碱基识别度筛选。具体的过滤条件为：Q20低于80％或N碱基比例大于20％。最终，所有样本均具有较高的测序数据质量，详见表1。

表1.107例检测样本基本信息统计结果

(2)引物识别

本实验数据来源于覆盖BRCA1和BRCA2基因的97对引物的扩增产物测序。因此，在分析过程中，使用相对应的97对引物序列对测序序列进行唯一性识别。在识别过程中，容许1个插入缺失改变和2个碱基错配改变。最终，各样本的引物识别比例平均可达98.5％，详见表1。

(3)序列组装

本实验中，97对扩增子中最大片段长度为395bp，因此对于双端250bp的测序数据，可以实现每条扩增子的完全覆盖，可以进行序列组装操作。在组装过程中，且限定两条片段至少包含100bp以上的重合序列。最终，序列组装成功率平均为99％，详见表1。

(4)序列比对

根据97对引物的序列位置，从人类标准参考基因组(GRCh37/hg19)切取参考序列文件。进而对识别成功的测序序列，分别与其对应的参考序列进行全局序列比对。最终，各样本的序列比对成功率平均为96％，详见表1。

(5)变异检测

对比对成功的序列，采用碱基比较的方式，统计每个测序位置与参考序列的异同，得到候选突变信息的列表。

(6)序列变异精校准

为了能够更科学的描述变异信息对生物学意义的影响，根据基因的表达方向对突变信息进行重新合并和修改。在本实施例中，BRCA1基因为负链表达基因，所以突变的位置为左对齐；BRCA1基因为正链表达基因，所以突变的位置为右对齐。以右对齐为例，插入类型的调整方式见图2；缺失类型的调整方式见图3。

(7)序列变异统计输出

BRCA1和BRCA2基因均位于常染色体，因此为二倍体。在各样本中，对97个扩增产物分别进行最佳序列及次佳序列的统计，根据杂合判定阈值进行倍型的判定。在本实施例中，判定阈值设定为0.15，即次佳序列在最佳序列与次佳序列之和中所占比例高于15％，此扩增子存在杂合突变；否则存在纯合突变或不存在突变。最终，100份健康的无偿献血者全血样本中未检测到易感突变位点。5例乳腺癌/卵巢癌患者样本(全血、石蜡切片)和2株细胞系的结果如表2所示。表2中：突变名称为基因编号+外显子编号+突变碱基序列+氨基酸变化，基因名称是指被检测位点所在的基因，染色体是指被检测位点所在的染色体位置，起始位置是指被检测位点所在染色体上的起始位置，RS编号为NCBI网址SNP数据库统一编号。最终，检测结果与预期结果符合。

表2.5例乳腺癌/卵巢癌患者(全血、石蜡切片)及2例细胞系样本的检测结果表

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基因组多重扩增测序产物中突变信息的检测方法，其特征在于，步骤为，

(6)序列变异精校准：

2.权利要求1所述基因组多重扩增测序产物中突变信息的检测方法，其特征在于，所述引物识别的具体算法为：

(1)循环所有来源于覆盖所检测基因的测序引物组合；

3.权利要求1所述基因组多重扩增测序产物中突变信息的检测方法，其特征在于，所述序列组装为：

4.权利要求1所述基因组多重扩增测序产物中突变信息的检测方法，其特征在于，所述序列比对的方式为全局比对算法，其具体算法原理如下：

(2)打分矩阵初始化：

5.权利要求1所述基因组多重扩增测序产物中突变信息的检测方法，其特征在于，所述变异检测的判定方法为：

如果测序序列与参考序列相同，此处没有变异；

6.权利要求1所述基因组多重扩增测序产物中突变信息的检测方法，其特征在于，所述序列变异统计输出的实施过程为：

(1)将所有测序序列的片段根据引物序列进行分类；

(3)计算最佳序列与次佳序列中次佳序列所占的比例；

7.权利要求1所述基因组多重扩增测序产物中突变信息的检测方法，其特征在于，所述基因组是二倍体基因组。

8.权利要求7所述基因组多重扩增测序产物中突变信息的检测方法，其特征在于，所述基因组是人类基因组。