CN107523563A

CN107523563A - 一种用于循环肿瘤dna分析的生物信息处理方法

Info

Publication number: CN107523563A
Application number: CN201710804216.7A
Authority: CN
Inventors: 王军; 王军一; 叶克勇; 蔡庆乐
Original assignee: HANGZHOU HEYI GENE TECHNOLOGY Co Ltd
Current assignee: HANGZHOU HEYI GENE TECHNOLOGY Co Ltd
Priority date: 2017-09-08
Filing date: 2017-09-08
Publication date: 2017-12-29

Abstract

本发明提供一种准确可靠的用于循环肿瘤DNA分析的生物信息处理方法。它包括如下步骤：(1)cfDNA提取、建库及测序；(2)测序数据质控及序列比对；(3)测序数据矫正；(4)使用两款软件同时对步骤(3)得到矫正后的测序数据进行基因突变检测，并将两款软件的分析结果取并集整合；(5)利用步骤(3)矫正后的序列建立突变可信数据集，并用数据集对步骤(4)得到的突变结果提供可信度支持。本发明以cfDNA中的ctDNA为检测对象，只需要采集受试者的少量静脉外周血就可进行检测，收样简洁且方便。

Description

一种用于循环肿瘤DNA分析的生物信息处理方法

技术领域

本发明属于生物技术领域，更具体的说，它涉及一种用于循环肿瘤DNA分析的生物信息处理方法。

背景技术

近年来，由于环境污染及不良生活习惯，肿瘤发病率和死亡率持续增高，已成为危害人类健康与生存的第一大因素。预计未来20年全球每年新增癌症病例将达到2200万，同期癌症死亡人数也将飙升至1300万，平均每8个死亡病例中就有1人死于癌症。在中国每年每10万人中有264人患癌，每年每10万人中有192人死于癌症。中国肿瘤患者的5年生存率在30％左右，远远落后于发达国家的60％，可见中国肿瘤防治态势非常严峻。

循环肿瘤DNA(circulating tumor，ctDNA)是一类来源于肿瘤细胞的DNA小片段，长度在170bp左右，由肿瘤细胞释放到外周血循环后发生部分降解的内源性单链或者双链DNA，其携带有与原发肿瘤组织相一致的分子信息。早在1947年，Metais和Mandel就发现了血液中存在游离小DNA片段，但由于缺乏特异性和灵敏度的DNA片段捕获方法，导致相关研究进展缓慢，直至小片段DNA提取技术的出现，并结合二代测序技术在疾病检测领域中的应用，将为临床肿瘤的早期诊断、治疗方案的确定、疗效的观察、预后的评估、转移风险分析，复发监测等方面提供巨大的临床参考。Domirguez等对27例膀胱癌患者血浆DNA和肿瘤组织DNA分别进行检测，发现两者检测结果具有高度的相似性，Szymanska等对29例肝癌患者进行检测，也发现类似的检测结果。此外，大量研究表明，ctDNA与肿瘤组织基因组信息具有一致性。

由于肿瘤的异质性及人群间的个体差异，不同种群、不同性别，甚至不同生活环境下不同个体间同一组织的肿瘤样本都会呈现不同的遗传背景，如果简单对所有个体都采用同一个用药及治疗方案，就很容易产生治疗不当或治疗过度的问题，因此获得个体遗传信息就显得尤为必要。伴随着测序技术的发展，遗传分子水平的检测技术已可以区分不同个体间基因差别，越来越多的肿瘤相关的基因突变标记被发现，通过寻找到个体肿瘤特异性突变标记，可以进而有针对性的指导靶向用药及治疗。

针对cfDNA(血浆游离DNA)测序来说，ctDNA在cfDNA中含量非常低，体细胞突变频率也是非常低，同时由于含量少，上样之前要进行多轮PCR扩增(聚合酶链式反应)，这样就引入了PCR扩增导致的碱基错误，再加上碱基读取时的错误，很容易导致在突变检测过程中出现假阳性，而通过分子标签的加入，可以最大限度去除PCR扩增以及碱基读取时的错误，降低假阳性；另外一方面，由于ctDNA断裂方式不够随机，所以会导致完全相同的两条序列，加入分子标签可以对它们进行区分，去除假冗余，减少数据流失。

发明内容

本发明的目的是解决以上提出的问题，提供一种准确可靠的用于循环肿瘤DNA分析的生物信息处理方法。

本发明是通过以下技术方案实现的：

本发明是一种用于循环肿瘤DNA分析的生物信息处理方法，包括如下步骤：

(1)cfDNA提取、建库及测序：

使用磁珠法提取样本血浆中的cfDNA用于样本文库构建；

在100～300bp的cfDNA分子两端加上测序接头，测序接头含有8bp的已知标签序列和8bp的随机标签序列，使用分子探针杂交捕获目标DNA片段，完成文库构建；

利用二代测序仪对构建好的文库进行测序，测序读长为150bp；

(2)测序数据质控及序列比对：

根据已知标签序列的不同将步骤(1)测序后的不同样本的测序数据进行拆分，对拆分后的测序数据进行质控，并在每条测序序列中加入随机标签序列和已知标签序列，然后把测序序列与标准人类基因组的序列进行比对，获得定位于人类基因组相应位置的信息；

(3)测序数据矫正：

根据步骤(2)测序序列比对位置和随机标签种类鉴定真正的PCR重复序列，如果测序序列在染色体上的起始位置相同并且随机标签序列不大于2个碱基错配，则把测序序列归为一类，并利用同类序列相互矫正来进行序列矫正，如果出现无法满足同类序列相互矫正条件，则选取测序质量值最高的序列位点用于后续的突变计算；

(4)使用两款软件同时对步骤(3)得到矫正后的测序数据进行基因突变检测，并将两款软件的分析结果取并集整合；

(5)利用步骤(3)矫正后的序列建立突变可信数据集，并用数据集对步骤(4)得到的突变结果提供可信度支持。

作为优化，所述步骤(2)对同类序列相互矫正方法如下：

同类序列只有1条时，过滤掉测序质量低于30的位点，保留测序质量大于等于30的位点用于后续的突变计算；

同类序列为2条时，如果2条序列在标准人类基因组相应位点一致就用于后续的突变计算，否则只保留与标准人类基因组序列一致的位点；

同类序列为3条时，如果3条序列在标准人类基因组相应位点一致，则三条序列相应位点被用于后续的突变计算；如果有一条或多条序列不一致，则保留与标准人类基因组序列一致的位点；

同类序列大于3条时，同时要求在标准人类基因组相应位点至少三条序列包含相同的碱基并且碱基数占总碱基数的比例≥50％，则将满足条件的位点用于后续的突变计算。

作为优化，所述步骤(5)突变可信数据集建立与使用如下述步骤：

1)将步骤(3)得到的矫正后的序列根据突变位点进行整理和排序；

2)使用突变可信数据集对步骤(4)软件检出的突变位点进行打分，支持的随机标签序列越多则得分越高，保留随机标签序列支持数≥2的突变位点。

作为优化，所述步骤(1)中的二代测序仪为illuminaNextSeq CN500测序仪、BGISEQ-100测序仪、BGISEQ-1000测序仪或DA8600测序仪。

作为优化，所述步骤(1)中的样本血浆来源于人类血浆。

作为优化，所述步骤(1)中的测序方式为双端测序(对DNA片段两端都进行测序)。

作为优化，所述步骤(2)中使用fastqc软件对拆分后的测序数据进行质控。

作为优化，所述步骤(2)中比对所用的软件为BWA。

作为优化，所述步骤(3)中使用consens.pl软件对步骤(2)的测序序列进行矫正。

作为优化，所述步骤(4)中突变检测所用的软件为varscan和speedseq。

本发明的有益效果如下：

1、本发明以cfDNA中的ctDNA为检测对象，只需要采集受试者的少量静脉外周血就可进行检测，收样简洁且方便。

2、本发明在建库时，加入了含有8bp的随机标签序列，通过后续的测序序列矫正能合理的对重复序列进行过滤，最大限度的保留可用的有效数据。

3、本发明在测序序列矫正时，通过矫正算法对测序错误的序列进行矫正，大大减少了后续基因突变分析的假阳性出现。

4、本发明建立了突变可信数据集，对最终检出的突变信息提供可信度支持，增加突变检出的可靠性。

附图说明

图1：本发明的主要流程图；

图2：本发明步骤(3)流程图。

具体实施方式

下面结合附图对本发明的实施例进行进一步详细说明：

(1)cfDNA提取、建库及测序：

使用磁珠法提取样本血浆中的cfDNA用于样本文库构建；样本血浆来源于人类血浆；

利用二代测序仪对构建好的文库进行双端测序，测序读长为150bp；二代测序仪为illuminaNextSeq CN500测序仪、BGISEQ-100测序仪、BGISEQ-1000测序仪或DA8600测序仪；

(2)测序数据质控及序列比对：

根据已知标签序列的不同将步骤(1)测序后的不同样本的测序数据进行拆分，

使用fastqc软件对拆分后的测序数据进行质控，并在每条测序序列中加入随机标签序列和已知标签序列，然后把测序序列与标准人类基因组的序列通过比对软件BWA进行比对，获得定位于人类基因组相应位置的信息；

(3)测序数据矫正：

根据步骤(2)测序序列比对位置和随机标签种类鉴定真正的PCR重复序列，如果测序序列在染色体上的起始位置相同并且随机标签序列不大于2个碱基错配，则把测序序列归为一类，并通过consens.pl软件进行序列矫正，对同类序列相互矫正方法如下：

同类序列大于3条时，同时要求在标准人类基因组相应位点至少三条序列包含相同的碱基并且碱基数占总碱基数的比例≥50％，则将满足条件的位点用于后续的突变计算；

如果出现无法满足同类序列相互矫正条件，则选取测序质量值最高的序列位点用于后续的突变计算；

(4)使用varscan和speedseq两款软件同时对步骤(3)得到矫正后的测序数据进行基因突变检测，并将两款软件的分析结果取并集整合；

(5)利用步骤(3)矫正后的序列建立突变可信数据集，并用数据集对步骤(4)得到的突变结果提供可信度支持；

突变可信数据集建立与使用如下述步骤：

运用本发明方法，对1组已知突变位点(8个)和突变频率(0.2％)的cfDNA样本HD778(购自于未因生物科技有限公司)进行分析，并对检测结果的准确性进行验证，具体过程如下：

(1)cfDNA提取、建库及测序：

使用诺唯赞核酸提取试剂盒对HD778样本中的cfDNA进行提取、纯化，不需要对cfDNA进行打断，直接取30ng纯化后的cfDNA用于样本文库构建；

在100～300bp的cfDNA分子两端加上测序接头，测序接头含有8bp的已知标签序列和8bp的随机标签序列，已知标签序列是用于区分多个不同样本间的数据，随机标签序列是用于区分同一样本的不同片段，使用分子探针杂交捕获目标DNA片段，完成文库构建；

最后利用illumina NextSeq CN500测序仪对构建好的文库进行双端测序，测序读长为150bp；

(2)测序数据质控及序列比对：

根据已知标签序列的不同将步骤(1)测序后的不同样本的测序数据进行拆分，使用fastqc软件对拆分后的测序数据进行质控，并在每条测序序列中加入随机标签序列和已知标签序列，然后把测序序列与标准人类基因组的序列通过BWA软件进行比对，获得定位于标准人类基因组相应位置的信息；

(3)测序数据矫正：

根据步骤(2)测序序列比对位置和随机标签种类鉴定真正的PCR重复序列，如果测序序列在染色体上的起始位置相同并且随机分子标签序列不大于2个碱基错配，则把测序序列归为一类，使用consens.pl软件对分类后的测序序列进行矫正，矫正方法如下：

如果出现无法满足以上条件，则选取测序质量值最高的序列位点用于后续的突变计算；

通过步骤(3)，可以对PCR扩增导致的碱基错误和上机测序错误进行矫正，获得高质量的测序数据；

(4)使用varscan和speedseq软件同时对步骤(3)得到的矫正后的测序数据进行基因突变检测，并将两个软件的分析结果取并集整合，获得总基因突变结果文件；

(5)建立突变可信数据集，并用数据集对步骤(4)得到的突变结果提供可信度支持；

突变可信数据集建立与使用：

2)使用突变可信数据集对步骤(4)软件检出的突变位点进行打分，支持的随机标签序列越多则得分越高，保留标签序列支持数≥2的突变位点。

将突变检测结果中的8个已知突变位点的检出情况进行汇总，如表1所示，8个基因突变位点在20个HD778样品中都检出，且检出率为100％，表明本发明的突变检测方法具有较高的准确性和稳定性。

表1：

突变位点(基因名称)	突变位点样品检出数(总样品数为20)	检出率
			L858R(EGFR)	20	100％
ΔE746-A750(EGFR)	20	100％
			T790M(EGFR)	20	100％
V769-D770insASV(EGFR)	20	100％
			G12D(KRAS)	20	100％
Q61K(NRAS)	20	100％
			A59T(NRAS)	20	100％
E545K(PIK3CA)	20	100％

其中，cfDNA：游离DNA；

磁珠法：利用磁珠对DNA特异性吸附；

测序质量值：是衡量碱基未正确检出的概率，测序质量值越高测序质量越好；

PCR：聚合酶链式反应；

illuminaNextSeq CN500、BGISEQ-100、BGISEQ-1000、DA8600为二代测序仪的型号；

双端测序：对DNA片段两端都进行测序；

BWA、fastqc、consens.pl、varscan、speedseq、fastqc为软件名称，在国内是没有业界通用中文名称，都是直接用英文或缩写进行描述。

以上所述的仅是本发明的优选实施方式，应当指出，对于本技术领域中的普通技术人员来说，在不脱离本发明核心技术特征的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种用于循环肿瘤DNA分析的生物信息处理方法，其特征在于，包括如下步骤：

(1)cfDNA提取、建库及测序：

使用磁珠法提取样本血浆中的cfDNA用于样本文库构建；在100～300bp的cfDNA分子两端加上测序接头，测序接头含有8bp的已知标签序列和8bp的随机标签序列，使用分子探针杂交捕获目标DNA片段，完成文库构建；利用二代测序仪对构建好的文库进行测序，测序读长为150bp；

(2)测序数据质控及序列比对：

(3)测序数据矫正：

2.根据权利要求1所述的用于循环肿瘤DNA分析的生物信息处理方法，其特征在于，所述步骤(2)对同类序列相互矫正方法如下：

3.根据权利要求1所述的用于循环肿瘤DNA分析的生物信息处理方法，其特征在于，所述步骤(5)突变可信数据集建立与使用如下述步骤：

4.根据权利要求1所述的用于循环肿瘤DNA分析的生物信息处理方法，其特征在于，所述步骤(1)中的二代测序仪为illuminaNextSeq CN500测序仪、BGISEQ-100测序仪、BGISEQ-1000测序仪或DA8600测序仪。

5.根据权利要求1所述的用于循环肿瘤DNA分析的生物信息处理方法，其特征在于，所述步骤(1)中的样本血浆来源于人类血浆。

6.根据权利要求1所述的用于循环肿瘤DNA分析的生物信息处理方法，其特征在于，所述步骤(1)中的测序方式为双端测序。

7.根据权利要求1所述的用于循环肿瘤DNA分析的生物信息处理方法，其特征在于，所述步骤(2)中使用fastqc软件对拆分后的测序数据进行质控。

8.根据权利要求1所述的用于循环肿瘤DNA分析的生物信息处理方法，其特征在于，所述步骤(2)中比对所用的软件为BWA。

9.根据权利要求1所述的用于循环肿瘤DNA分析的生物信息处理方法，其特征在于，所述步骤(3)中使用consens.pl软件对步骤(2)的测序序列进行矫正。

10.根据权利要求1所述的用于循环肿瘤DNA分析的生物信息处理方法，其特征在于，所述步骤(4)中突变检测所用的软件为varscan和speedseq。