CN106021987B

CN106021987B - 超低频突变分子标签聚类分群算法

Info

Publication number: CN106021987B
Application number: CN201610350317.7A
Authority: CN
Inventors: 曾华萍; 宋卓; 袁梦兮
Original assignee: Human And Future Biotechnology (changsha) Co Ltd
Current assignee: Human And Future Biotechnology (changsha) Co Ltd
Priority date: 2016-05-24
Filing date: 2016-05-24
Publication date: 2019-04-09
Anticipated expiration: 2036-05-24
Also published as: CN106021987A

Abstract

本发明公开了一种对测序读段进行聚类的方法，所述测序读段携带标签序列，该方法包括：(1)将多个测序读段与参考序列进行比对，并确定各测序读段的两端位置，将两端位置一致的测序读段归类至相同的一级群；(2)对属于同一个一级群的测序读段根据其标签序列进一步分二级群，将分子标签序列相似的测序读段分为同一个二级群。通过该方法能准确有效地对测序读段进行聚类分群，为后期通过各个群的一致性序列来精确检测低频突变奠定坚实的基础。

Description

超低频突变分子标签聚类分群算法

技术领域

本发明涉及测序技术领域，特别是超低频突变分子标签聚类分群算法，具体地，本发明涉及对测序读段进行聚类的方法。

背景技术

随着二代测序的迅速发展，测序费用的降低，二代测序在各个方面的检测研究中得到了越来越广泛的应用。而相对于全基因组测序，目标区间测序能大幅度降低测序成本和数据的复杂性，使我们感兴趣的目标区间在较低的成本的同时达到很高的测序覆盖度，这使得检测癌症突变中的低频突变成为了可能。

目标区间测序方法中，采用特异性引物对目标区间进行PCR扩增的方法由于其操作简单、快速，且只需少量DNA等优点，已被人们广泛应用。然而，特异性引物扩增测序中，不可避免会存在严重的扩增偏好性，同时也存在扩增测序引入的各种错误。这些问题一方面直接影响定量的准确性，因为测序数据中的数量已不能代表原始DNA片段的数量；另一方面会影响分析结果的准确性，引入大量的假阳性。而在肿瘤突变研究中，由于肿瘤的高异质性，存在大量的低频突变，使得这些问题尤为突出。

因而，目前的特异性引物扩增测序仍有待改进。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明的一个目的在于提出一种对测序读段进行聚类的方法，从而实现对DNA分子精确的定量，同时为后期利用一致性序列进行精确的超低频突变检测奠定坚实的基础。

需要说明的是，本发明是基于发明人的下列工作而完成的：

现阶段，针对特异性引物扩增测序的上述问题，研究者引入了分子标签，在原始DNA分子上连接一段能代表该DNA分子的unique标签序列。不同的DNA分子连接不同的分子标签，通过分子标签序列可以准确的识别DNA分子。分子标签的引入，可以对DNA分子和突变进行准确的定量，同时也可以降低甚至消除由扩增和测序等造成的错误。

针对添加分子标签的二代测序数据，在数据处理时，需要根据其分子标签将reads进行分群，将reads起止位置一样，且分子标签也一样的reads分为一群，认为这是由同一个DNA分子片段通过PCR扩增生成的多个复本。然后针对每个群，找到其最终的一致性序列(在本文中，有时也将“一致性序列”称为“共有序列”)，即是该群所对应的原始DNA分子的序列。最后，再利用这些一致性序列进行后续的突变检测等分析。

然而，由于实验中对添加分子标签后的分子模板进行PCR扩增，同一个分子模板会产生一群一模一样的子分子；但在实验测序过程中，又不可避免引入一些错误，最后得到一些含有少量错误的分子模板被多次重复测序的fastq数据。本发明即是针对这种情况，致力于根据分子标签和read(测序读段)的自身序列(与基因组的比对位置)，在考虑测序错误的前提下，把来源于同一个分子模板的reads进行聚类分群，以便后续分析。

进而，在本发明的第一方面，本发明提供了一种对测序读段进行聚类的方法，所述测序读段携带标签序列。根据本发明的实施例，所述方法包括：

(1)将多个测序读段与参考序列进行比对，并确定各测序读段两端的位置，将两端位置一致的测序读段归类至相同的一级群；

(2)对属于同一个一级群的测序读段根据其标签序列进一步分二级群，将分子标签序列相似的测序读段分为同一个二级群。

根据本发明的实施例，所述步骤(2)的详细步骤包括：

(a)确定所述一级群内的各标签的深度；

(b)将所述各标签按深度从高到低进行排序；

(c)针对深度由高至低的标签依次实施下列步骤：

如果所述标签与已有的种子标签序列的错配不超过指定错配数，则将具有所述标签的测序读段分配至所述种子标签子群中；

如果所述标签与已有的种子标签序列的错配超过指定错配数，则选择所述标签为新的种子标签，并将具有所述标签的测序读段分配至相应的种子标签子群中；

经过上述二级群处理后，所有的测序读段都分成了若干个二级群，这些二级群即最后的分群结果。

发明人惊奇地发现，通过该方法能准确有效地对测序读段进行聚类分群，为后期通过各个群的一致性序列来精确检测低频突变奠定坚实的基础。

根据本发明的实施例，(c)中所述种子标签是指该二级群的深度最高的标签序列，可以认为是该群的真实的标签序列，同时该群中存在一些深度较低的含有错误的标签序列。由此，测序读段的聚类分群结果可靠，后续测序分析结果准确。

根据本发明的实施例，在(c)中，依据所采用的测序平台确定指定错配数，其中，当采用Illumina测序平台时，由于Illumina测序平台主要以mismatch(错配数)为主要的测序错误，所以8bp的分子标签容1个mismatch，也即所述指定错配数为1。由此，聚类分群结果可靠，后续测序分析结果准确。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1显示了根据本发明实施例的对测序读段进行聚类的方法的流程示意图。

具体实施方式

下面详细描述本发明的实施例。下面描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

在本发明的第一方面，本发明提供了一种对测序读段进行聚类的方法，所述测序读段携带标签序列。

根据本发明的实施例，参照图1，所述方法包括：

(1)将多个测序读段与参考序列进行比对，并确定各测序读段的两端位置，将两端位置一致的测序读段归类至相同的一级群；

(2)对属于同一个一级群的测序读段根据其标签序列进一步分二级群，将分子标签序列相似的测序读段分为同一个二级群，其具体步骤为：

(a)确定所述一级群内的各标签的深度；

(b)将所述各标签按深度从高到低进行排序；

(c)针对深度由高至低的标签依次实施下列步骤：

根据本发明的实施例，(c)中所述种子标签是指该二级群的深度最高的标签序列，认为是该群的真实的标签序列，同时该群中存在一些深度较低的含有错误的标签序列。由此，测序读段的聚类分群结果可靠，后续测序分析结果准确。

由此，测序读段的聚类分群结果可靠，从而实现对DNA分子精确的定量，同时为后期利用一致性序列进行精确的超低频突变检测奠定坚实的基础。

下面将结合实施例对本发明的方案进行解释。本领域技术人员将会理解，下面的实施例仅用于说明本发明，而不应视为限定本发明的范围。实施例中未注明具体技术或条件的，按照本领域内的文献所描述的技术或条件或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者，均为可以通过市购获得的常规产品，例如可以采购自Illumina公司。

实施例1：

本实施例针对已知8个突变位点(如下表1所示)的突变频率为1％的样本(人类)，采用8bp随机分子标签对DNA分子进行标记，然后，采用AmpliTaq360Master Mix对样本进行针对各已知突变位点的特异性引物扩增，最后利用Illumina NS500测序平台对各扩增产物进行75PE测序。

然后，根据本发明的对测序读段进行聚类的方法，参照图1，按照以下步骤对获得的测序读段进行聚类，获得测序读段群：

(1)将5,475,216个测序读段与UCSC数据库中人类参考基因组(hg19)进行比对，并确定各测序读段的两端位置，将两端位置一致的测序读段归类至相同的一级群，得到共25540个一级群。

(2)对属于同一个一级群的测序读段根据其标签序列进一步分二级群，将分子标签序列相似的测序读段分为同一个二级群，具体步骤如下：

(a)确定所述一级群内的各标签的深度；

(b)将所述各标签按深度从高到低进行排序；

(c)针对深度由高至低的标签依次实施下列步骤：

如果所述分子标签(8bp)与已有的种子标签序列的错配不超过1个，则将具有所述标签的测序读段分配至所述种子标签子群中；

如果所述标签与已有的种子标签序列的错配超过1个，则选择所述标签为新的种子标签，并将具有所述标签的测序读段分配至相应的种子标签子群中；

经过上述二级群处理后，所有的测序读段都分成了71187个二级群，这些二级群即最后的分群结果。

其中，本实施例中所用参考基因组来源于UCSC数据库的人类基因组(hg19版本)，网址：http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/。

本实施例中分子标签序列为8bp，标签与种子标签序列的错配数选为1，也可以根据情况调整。

获得71187个二级群后，对这些二级群进行过滤和处理，以分别确定各测序读段群的共有序列的方法，具体步骤如下：

1、过滤；

测序读段(read)聚类分群得到测序读段群(reads groups)后，对这些测序读段群按照以下条件进行过滤：

a)对双端比到不同染色体的read groups进行过滤；

b)对插入片段大小<30，或>400的read groups进行过滤；

由于cfDNA的片段大小主要在166bp和330bp左右，所以插入片段大小最大不应超过400bp；而扩增引物的长度一般为20多bp，故插入片段大小最小不应小于30bp。

c)对read的起始位置不在扩增引物起始位置的read groups进行过滤；

由于是扩增引物的扩增产物，read的起始位置应该是引物的起始位置。

2、确定共有序列(有时也称为“Consensus序列”)

基本原理：

每个测序读段群中的reads是同一个分子模板产生的，所以原则上同一个group中的reads应该序列一样，且barcode一样；但是由于在实验和测序过程中，不可避免存在一些错误，group中的reads会有一些错误。而确定Consensus序列的过程，就是排除这些错误，得到分子模板的真实序列。

处理步骤：

a)针对read各个位置，进行以下操作：

i.统计ATCG 4种碱基各自的深度；

ii.对ATCG4种碱基的深度从高到低排序，得到max、sec、third、fourth

iii.计算系数C＝(max-sec)/max，若该系数C>＝0.65，则认为max深度的碱基即为该位置Consensus碱基，而该Consensus碱基的质量为Q＝20+(max*C^2)/2，当Q>40时，取40；若C<0.65，则认为read这个位置的碱基不确定，Consensus序列该位置为N，相应质量值Q＝2。

对read各个碱基进行这些操作后，得到该group的Consensus序列以及对应的质量值；但Consensus序列中可能有一些碱基不确定，为N。

b)若整个read中不确定的碱基数超过5，则过滤该group；若不超过5，则进行下一步(c)判断；

c)统计该group中barcode(即分子标签)的深度，同上方法，判断该group中barcode是否能确定；若不确定，则过滤该group；若确定，该group保留，且最终的Consensus序列、相应质量值，以及其barcode序列都已获得。

由此，最终得到10970条一致性序列。

然后利用获得的一致性序列进行突变检测，检测结果如下表1：

表1

表1中第一列是染色体编号，第二列是突变位点在染色体上的位置，第三列是基因名，第四列是基因在染色体上的方向，第五列是具体的CDS和蛋白突变信息，第六列是突变频率，第七列是该实验的检测结果(YES是检测到，NO是未检测到)。

由上述结果可知，本实施案例采用添加分子标签的技术，结合分子标签聚类分群，在仅约5M reads的测序情况下，成功精确地检测到了所有的突变频率仅1％的突变。

实施例2：

本实施例针对已知8个突变位点(如下表2所示)的突变频率为0.1％的样本(人类)，采用8bp随机分子标签对DNA分子进行标记，然后，采用AmpliTaq360Master Mix对样本进行针对各已知突变位点的特异性引物扩增，最后利用Illumina NS500测序平台对各扩增产物进行75PE测序。

(1)将5,328,887个测序读段与UCSC数据库中人类参考基因组(hg19)进行比对，并确定各测序读段的两端位置，将两端位置一致的测序读段归类至相同的一级群，得到共25634个一级群。

(a)确定所述一级群内的各标签的深度；

(b)将所述各标签按深度从高到低进行排序；

(c)针对深度由高至低的标签依次实施下列步骤：

经过上述二级群处理后，所有的测序读段都分成了61557个二级群。

获得61557个二级群后，对这些二级群进行过滤和处理，以确定各测序读段群的共有序列，具体方法步骤如实施例1。由此，最终得到10584条一致性序列。

然后利用获得的一致性序列进行突变检测，检测结果如下表2：

表2

表2中第一列是染色体编号，第二列是突变位点在染色体上的位置，第三列是基因名，第四列是基因在染色体上的方向，第五列是具体的CDS和蛋白突变信息，第六列是突变频率，第七列是该实验的检测结果(YES是检测到，NO是未检测到)。

由上述结果可知，本实施案例采用添加分子标签的技术，结合分子标签聚类分群，在仅约5Mreads的测序数据量下，成功精确地检测到了6个突变频率低至0.1％的突变，另2个突变在提高测序数据量的情况下也能检测到。

目前检测低频突变的技术，例如ARMS和Digital PCR等技术才能检测到低至0.1％的突变，但这些技术存在通量低，成本高，且只能检测已知突变位点的缺点，而普通的二代测序技术只能检测2％的突变频率。而由上述实施例的结果可知，本发明在添加分子标签的技术基础上，结合分子标签聚类分群方法，对测序数据进行分析，即克服了ARMS和DigitalPCR等技术的缺点，同时又成功检测到了突变频率低至0.1％的突变。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种对测序读段进行聚类的方法，所述测序读段携带标签序列，其特征在于，所述方法包括以下步骤：

(2)对属于同一个一级群的测序读段根据其标签序列进一步分二级群，将分子标签序列相似的测序读段分为同一个二级群；

所述步骤(2)的详细步骤包括：

(a)确定所述一级群内的各标签的深度；

(b)将所述各标签按深度从高到低进行排序；

(c)针对深度由高至低的标签依次实施下列步骤：

经过上述二级群处理后，所有的测序读段都分成了若干个二级群，这些二级群即最后的分群结果；

其中，(c)中所述种子标签是指该二级群的深度最高的标签序列，认为是该群的真实的标签序列，同时该群中存在一些深度较低的含有错误的标签序列。