CN110232951B

CN110232951B - 判断测序数据饱和的方法、计算机可读介质和应用

Info

Publication number: CN110232951B
Application number: CN201811490218.4A
Authority: CN
Inventors: 贾瑞凯; 叶桦; 肖芳; 郭森; 贾延凯; 廖国娟
Original assignee: Genewiz Suzhou Ltd
Current assignee: Genewiz Suzhou Ltd
Priority date: 2018-12-06
Filing date: 2018-12-06
Publication date: 2023-08-01
Anticipated expiration: 2038-12-06
Also published as: CN110232951A

Abstract

本发明提供了一种判断测序数据饱和的方法、计算机可读介质和应用，涉及测序技术领域。该方法包括如下步骤：(a)提供所述测序数据，所述测序数据为包含X条reads的数据集A；(b)将所述X条reads依据预设的序列相似阈值聚类生成N个Cluster；(c)获得概率Probalility；所述Probalility为抽取第k‑1条reads获得的Cluster数目为i‑1，再抽取一条reads，获得的Cluster数目为i的概率；其中k为小于等于X的正整数，i为小于等于N的正整数；(d)获得衡量数据饱和程度的指标Saturated，所述数据饱和程度指标Saturated越趋近于0，所述测序数据越趋于饱和。该方法可以较为精确的以数值反应测序数据的饱和程度，以使测序数据的饱和度判断更为精准，以保证后续数据分析的准确度。

Description

判断测序数据饱和的方法、计算机可读介质和应用

技术领域

本发明涉及测序技术领域，尤其是涉及一种判断测序数据饱和的方法、计算机可读介质和应用。

背景技术

测序技术是指分析核酸的碱基序列，例如DNA测序就是分析DNA的腺嘌呤(A)、胸腺嘧啶(T)、胞嘧啶(C)与鸟嘌呤的(G)排列方式。自从1977年Fredrick Sanger等建立的双脱氧链终止法测序技术以来，测序技术历经了几十年的快速发展。2005年以来，以Roche454、Illumina、Life SOLID/Ion Torrent、PacBio RS为代表的新一代测序技术的出现，使得测序的通量快速增加，测序成本极大降低。

高通量测序(High-throughput sequencing)技术可以对数百万个DNA分子进行同时测序，能够细致全貌的分析一个物种的转录组和基因组，因此也称其为深度测序(deepsequencing)、“下一代”测序技术("Next-generation"sequencing，NGS)或二代测序。

高通量测序通常又被称为大规模平行测序技术(massively parallelsequencing，MPS)，它可以同时完成测序模板互补链的合成与序列数据的读取。一般来说高通量测序包含下列连续的步骤：(1)将待测序样品构建成可上机测序的文库；(2)向测序系统加入脱氧核苷酸；(3)检验和确定被加入的脱氧核苷酸类型；(4)去除测序反应的各种酶、荧光标记物或脱氧核苷酸的3’阻断基团的洗脱反应，以实现“边合成边测序(sequencingby synthesis，SBS)”或者“边连接边测序(sequencing by ligation，SBL)”。

三代测序技术是以PacBio公司的单分子实时测序技术(Single Molecule RealTime Sequencing，SMRT-seq)和Oxford Nanopore Technologies的纳米孔单分子测序技术为代表。三代测序最大的特点是单分子实时测序，测序过程无需进行PCR，较二代测序读长更长，PacBio SMRT-seq平均读长超过15kb，Oxford Nanopore读段最常可达2Mb。以PacBioSMRT为例，以边合成边测序为基础，以固定有DNA聚合酶的芯片为载体，当DNA模板被聚合酶捕获后，4种不同荧光标记的碱基进入监测区域并与聚合酶结合实现DNA互补链的合成，通过计算光的波长和峰值可判断进入的碱基类型，即可确定DNA模板的序列。

衡量测序数据多少的主要指标是测序深度，测序深度是指测序得到的总碱基数与待测基因组大小的比值，可以理解为基因组中每个碱基被测序到的平均次数，测序深度＝reads长度×比对的reads数目/参考序列长度，由于测序时目的片段上各片段读取的数据量并不平均，因此测序深度无法明确反映测序数据是否饱和，是否还存在未检测到的片段存在。

有鉴于此，特提出本发明。

发明内容

本发明的第一目的在于提供一种判断测序数据饱和的方法，该方法可以较为精确的以数值反应测序数据的饱和程度。

本发明的第二目的在于提供一种具有处理器可执行的非易失的程序代码的计算机可读介质，所述程序代码使所述处理器执行所述判断测序数据饱和的方法。

本发明的第三目的在于提供上述判断测序数据饱和的方法或上述具有处理器可执行的非易失的程序代码的计算机可读介质在生物信息学分析中的应用。

为解决上述技术问题，本发明特采用如下技术方案：

一种判断测序数据饱和的方法，包括如下步骤：

(a)提供所述测序数据，所述测序数据为包含X条reads的数据集A；

(b)将所述X条reads依据预设的序列相似阈值聚类生成N个Cluster；

(c)获得概率Probalility；所述Probalility为抽取第k-1条reads获得的Cluster数目为i-1，再抽取一条reads，获得的Cluster数目为i的概率；其中k为小于等于X的正整数，i为小于等于N的正整数；

(d)获得衡量数据饱和程度的指标Saturated，所述数据饱和程度指标Saturated越趋近于0，所述测序数据越趋于饱和；所述数据饱和程度指标Saturated按照公式(Ⅰ)计算得到：

优选地，所述Probalility按照公式(Ⅱ)计算的到：

其中，P(i，k)按照公式(Ⅲ)计算的到：

其中，U表示对于数据集B，当采集k条reads时，获得的Cluster数目为i的所有组合。

优选地，获取M个相同类型的测序数据的数据集A，获取每个数据集A在相同的预设的序列相似阈值L下的数据饱和程度的指标Saturated，以该M个数据集A的数据饱和程度的指标Saturated的平均值和方差的和作为所述类型的测序数据的在序列相似阈值L下的饱和程度的指标Saturated参考值R，当测序数据在预设的序列相似阈值L下的饱和程度的指标Saturated不大于所述参考值R时，所述测序数据饱和。

优选地，所述M为不小于100的正整数。

优选地，所述reads为clean reads。

优选地，所述测序数据包括二代测序数据或三代测序数据。

优选地，所述测序数据来源于扩增子测序数据；

优选地，所述扩增子测序包括16S测序、18S rDNA测序、ITS测序或功能基因区域测序。

优选地，所述测序数据来源于16S rDNA，所述预设的序列相似阈值L为97％；当所述衡量数据饱和的指标Saturated为0～0.44时，判定测序数据饱和。

本发明还提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质，所述程序代码使所述处理器执行上述判断测序数据饱和的方法。

本发明还提供了上述判断测序数据饱和的方法或上述具有处理器可执行的非易失的程序代码的计算机可读介质在生物信息学分析中的应用。

与现有技术相比，本发明具有如下有益效果：

本发明提供的判断测序数据饱和的方法以不放回的抽取测序数据中的reads时，Cluster增加的变化率为依据判定数据是否饱和，其中Cluster为X条reads依据预设的序列相似阈值聚类生成集合。并定义了数据饱和程度的指标Saturated，当数据饱和程度指标Saturated越接近0时，所述测序数据越趋于饱和。传统的以测序深度判断测序饱和的方法无法明确反映测序数据是否饱和，是否还存在未检测到的片段存在，只能以每个碱基平均的被测序的次数表述测序数据对待测样品的覆盖度，本发明提供的方法可以较为精确的以数值反应测序数据的饱和程度，以使测序数据的饱和度判断更为精准，从而保证后续数据分析的准确度。同时本申请定义的数据饱和程度指标Saturated统一了评判标准，可以方便不同批次的数据进行比较。本申请提供的具有处理器可执行的非易失的程序代码的计算机可读介质中，所述程序代码可以使所述处理器执行上述判断测序数据饱和的方法，方便快捷。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明中模拟数据A001至A005抽取的reads数与Probalility值的关系；

图2为本发明实施例1提供的16S测序数据抽取的reads数与Probalility值的关系；

图3为本发明实施例2提供的转录组测序数据抽取的reads数与Probalility值的关系。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。实施例中未注明具体条件者，按照常规条件或制造商建议的条件进行。所用试剂或仪器未注明生产厂商者，均为可以通过市售购买获得的常规产品。

本发明提供了一种判断测序数据饱和的方法，包括如下步骤：

(d)获得衡量数据饱和程度的指标Saturated，所述数据饱和程度指标Saturated越趋近于0，所述测序数据越趋于饱和；所述Saturated按照公式(Ⅰ)计算得到：

将物理或抽象对象的集合分类成由类似的对象组成的多个类(Cluster)的过程被称为聚类(Clustering)。由聚类所生成的簇(Cluster)是一组数据对象的集合，这些对象与同一个簇中的对象彼此相似，与其他簇中的对象相异。本发明中所述的Cluster是指将reads依据聚类的阈值，即reads之间的序列相似的阈值使用usearch软件划分成的一组相似的reads，即由相似的reads聚类而成的一个集合。需要说明的是，本发明不限制聚类的算法和聚类使用的软件，只要能满足将reads根据序列相似性阈值生成Cluster即可。本发明所述的reads是指在测序过程中的一个读段。

本发明的数学原理实际上是建立以不放回抽取的reads数目为自变量，以Cluster数目的变化概率为因变量的曲线，并对其进行积分，定义衡量测序数据的饱和程度的关键指标，进而判断测序数据量是否符合标准。

首先获得一个含有X条reads的测序数据记为数据集A，将所述X条reads依据预设的序列相似阈值聚类生成N个Cluster，每个Cluster包含的reads数目记为N₁，N₂，N₃...N_N。随机不放回的抽取reads，抽取第k-1条reads获得的Cluster数目为i-1，再抽取一条reads，获得的Cluster数目为i的概率记为Probalility。

在一些可选的实施方式中，Probalility的计算按照公式(Ⅱ)计算的到：

P(i，k)表示对于数据集A，抽取的reads数为k时，获得的Cluster的数目为i的概率，公式采用累加所有符合条件的可能，然后除以所有的可能。其中，P(i，k)按照公式(Ⅲ)计算的到：

U(B，k)中B为数据集A的子集，包含i个属于数据集A的Cluster。U表示对于数据集B，当采集k条reads时，获得的Cluster数目为i的所有组合。累加P(i，k)和P(i-1，k-1)的乘积，即可获得Probalility的值。

使用模拟数据(A001至A005，测序深度依次增加)，采用计算机抽样的方法，观察k值(横坐标)与Probalility(纵坐标)的关系，结果如图1所示，一般情况下随着k值的增加，Probalility对应的值逐渐减少，当k足够大时，Probalility无限趋近于0。

随着测序深度的增加，坐标轴与稀释性曲线变化曲线所组成的面积相对减少。为统一标准，方便不同批次数据进行比较，定义衡量数据饱和程度的指标Saturated，Saturated值的计算公式如下：

指标Saturated的取值范围为0到1，当指标Saturated越接近于0时，测序数据的饱和程度越高，当指标Saturated越接近于1时，，测序数据的饱和程度越低，从图1也可以看出，Probalility越趋近于0，指标Saturated值越小。

本发明提供的判断测序数据饱和的方法以不放回的抽取测序数据中的reads时，Cluster增加的变化率为依据判定数据是否饱和，其中Cluster为X条reads依据预设的序列相似阈值聚类生成集合。并定义了数据饱和程度的指标Saturated，当数据饱和程度指标Saturated越接近0时，所述测序数据越趋于饱和。传统的以测序深度判断测序饱和的方法无法明确反映测序数据是否饱和，是否还存在未检测到的片段存在，只能以每个碱基平均的被测序的次数表述测序数据对待测样品的覆盖度，本发明提供的方法可以较为精确的以数值反应测序数据的饱和程度，以使测序数据的饱和度判断更为精准，以保证后续数据分析的准确度。同时本申请定义的数据饱和程度指标Saturated统一了评判标准，可以方便不同批次的数据进行比较。

在一些优选的实施方式中，按照如下方法可以获得同一类型的测序数据，在相同的预设的序列相似阈值的条件下的数据饱和程度的指标Saturated的参考值，当再获得新的该类型的测序数据时，按照相同的序列相似阈值聚类生成Cluster，计算得到的Saturated小于参考值时，该测序数据可判定为饱和。

在一些优选的实施方式中，获取M个相同类型的测序数据的数据集A，获取每个数据集A在相同的预设的序列相似阈值L下的数据饱和程度的指标Saturated，以该M个数据集A的Saturated的平均值和方差的和作为所述类型的测序数据的在序列相似阈值L下的Saturated参考值R，当测序数据在预设的序列相似阈值L下的Saturated不大于所述参考值R时，所述测序数据饱和。由于样本量过少会导致计算得到的饱和程度的指标Saturated数值分散，从而方差过大，因此M为不小于100的正整数，即至少取100个相同类型的测序数据在相同的相似性的预设阈值下计算Saturated，然后统计平均值和方差后加和，样本量越多越能反应数据的Saturated指标分布情况，使得到的参考值更精确。

上述相同类型的测序数据是指基于相同测序平台，具有相同reads长度的同一种类的测序数据。例如基于Illumina平台，采用PE250策略获得的16S rDNA的测序数据均为同一类型的测序数据，又例如基于Illumina平台，采用PE150策略获得的人重测序的测序数据为均为同一类型的测序数据等。以16S rDNA的测序数据为例，当计算得到16S rDNA的测序数据在预设的序列相似阈值L下的Saturated参考值R后，当在Illumina平台获得一个新的16S rDNA的测序数据后，以序列相似阈值L作为reads聚类成Cluster的预设的序列相似阈值计算出其Saturated值，当该值小于R时，既可以判定该测序数据饱和。

在一些优选的实施方式中，先将测序数据中的低质量reads进行过滤，以去掉低质量的reads，例如去掉接头序列，和Q20或Q30不满足预设评分的reads，以clean reads作为数据集A中的用于聚类的reads，以提高判断的准确度。

需要说明的是，本发明不限制测序数据的来源，只要测序数据具有可聚类的reads即可，由于二代测序和三代测序应用广泛，并且数据量大，因此在一些优选的实施方式中，所述测序数据来源于二代测序数据或三代测序数据。所述二代测序数据来源包括但不限于为Roche454、Illumina、Life SOLID/Ion Torrent或PacBio RS测序平台；所述三代测序数据来源包括但不限于为PacBio SMRT或Oxford Nanopore测序平台。

在一些可选的实施方式中，所述测序数据来源于扩增子测序数据，扩增子测序为利用保守区序列设计通用引物来进行PCR扩增及高通量测序，再利用可变区序列来进行种属分类，当扩增子测序不饱和时，将导致一部分的种属的扩增子未从测序中得到数据，从而测序得到的数据不能完整的反应实际的种属丰度，因此判断扩增子测序数据的饱和度尤为重要。可选的，所述扩增子测序例如可以为但不限于为16S rDNA测序、18S rDNA测序、ITS测序或功能基因区域测序。

本发明还提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质，所述程序代码使所述处理器执行上述判断测序数据饱和的方法，以使上述的方法更快捷的应用。

本发明还提供了上述判断测序数据饱和的方法或上述具有处理器可执行的非易失的程序代码的计算机可读介质在生物信息学分析中的应用。在测序的一些实施方案中，例如动植物全基因组重测序，人外显子测序等，待测序目的片段较长，由于测序通常采用先将片段打断，将随机打断的目标长度的片段分别测序后再拼接的方式获取完整碱基序列，因此需要测得的数据总量大于目的片段实际的长度才能使各reads拼接后的序列完整的体现实际目的片段的序列。因此在得到测序数据后，先判定数据是否饱和，即判断待测样品上是否还存在reads未能覆盖的区域，才能使后续的数据分析更为精准。在测序的另一些实施方案中，例如扩增子测序，是一种利用保守区序列设计通用引物来进行PCR扩增及测序，再利用可变区序列来进行种属分类的测序方法，因此也需要先判定数据是否饱和以避免由于数据不饱和导致的测序数据没有完全覆盖待测样品物种丰度的情况。综上本申请提供的判断测序数据饱和的方法或上述具有处理器可执行的非易失的程序代码的计算机可读介质可以应用于例如可以为但不限于为动植物全基因组测序、扩增子测序、宏基因组测序、转录组测序或外显子测序等。

下面结合优选实施例进一步说明本发明的有益效果，优选实施例用于示例性说明本发明，而不是限制本发明的范围。

实施例1

采用316例16S测序数据，使用Illumina测序平台，采用PE250的测序策略，以97％的序列相似性为阈值，聚类生成Cluster，并计算S值后绘制其分布图，以均值加上1.282倍方差为阈值，定义衡量数据饱和的指标Saturated的区间范围为0到0.44，即Saturated值小于0.44，测序数据饱和，大于等于0.44，测序数据不饱和，结果如图2所示。

另外采用22例16S测序数据，使用Illumina测序平台，采用PE250的测序策略，以97％的序列相似性为阈值，聚类生成Cluster，并绘制稀释性曲线变化曲线计算Saturated值，根据图2得到的参考值0.44判断数据是否达到饱和，结果如下表所示。

样品	Saturated值	是否饱和	样品	Saturated值	是否饱和
						S001	0.23	是	O006	0.25	是
S007	0.27	是	O009	0.21	是
						S008	0.31	是	O012	0.23	是
S010	0.24	是	O013	0.38	是
						S011	0.23	是	O014	0.34	是
S018	0.23	是	O015	0.13	是
						S021	0.44	否	O016	0.17	是
S023	0.24	是	O017	0.17	是
						S024	0.24	是	O019	0.31	是
S026	0.34	是	O022	0.40	是
						S027	0.25	是	O025	0.25	是

实施例2

采用261例拟南芥转录组测序数据，使用Illumina测序平台，采用SE50的测序策略，以95％的序列相似性为阈值，聚类生成Cluster，并计算Saturated值后绘制其分布图，以均值加上1.282倍方差为阈值，定义衡量数据饱和的指标Saturated的区间范围为0到0.48，即Saturated值小于0.48，测序数据饱和，大于等于0.48，测序数据不饱和，结果如图3所示。

另外采用10例转录组测序数据，使用Illumina测序平台，采用SE50的测序策略，以95％的序列相似性为阈值，聚类生成Cluster，并绘制稀释性曲线变化曲线计算Saturated值，根据图3得到的参考值0.48判断数据是否达到饱和，结果如下表所示。

样品	Saturated值	是否饱和	样品	Saturated值	是否饱和
						DRR094018	0.43	是	DRR094023	0.36	是
DRR094019	0.34	是	DRR094024	0.38	是
						DRR094020	0.39	是	DRR094027	0.36	是
DRR094021	0.39	是	DRR094028	0.44	是
						DRR094022	0.47	是	DRR094029	0.38	是

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种判断测序数据饱和的方法，其特征在于，包括如下步骤：

所述Probalility按照公式(Ⅱ)计算的到：

其中，P(i，k)按照公式(Ⅲ)计算的到：

2.根据权利要求1所述的判断测序数据饱和的方法，其特征在于，获取M个相同类型的测序数据的数据集A，获取每个数据集A在相同的预设的序列相似阈值L下的数据饱和程度的指标Saturated，以该M个数据集A的数据饱和程度的指标Saturated的平均值和方差的和作为所述类型的测序数据的在序列相似阈值L下的饱和程度的指标Saturated参考值R，当测序数据在预设的序列相似阈值L下的饱和程度的指标Saturated不大于所述参考值R时，所述测序数据饱和。

3.根据权利要求2所述的判断测序数据饱和的方法，其特征在于，所述M为不小于100的正整数。

4.根据权利要求1所述的判断测序数据饱和的方法，其特征在于，所述reads为cleanreads。

5.根据权利要求1-4任一项所述的判断测序数据饱和的方法，其特征在于，所述测序数据包括二代测序数据或三代测序数据。

6.根据权利要求5所述的判断测序数据饱和的方法，其特征在于，所述测序数据来源于扩增子测序数据。

7.根据权利要求6所述的判断测序数据饱和的方法，其特征在于，所述扩增子测序包括16S测序、18S rDNA测序、ITS测序或功能基因区域测序。

8.根据权利要求7所述的判断测序数据饱和的方法，其特征在于，所述测序数据来源于16S rDNA，所述预设的序列相似阈值L为97％，且测序平台为Illumina测序平台，测序策略为PE250；当所述衡量数据饱和的指标Saturated为0～0.44时，判定测序数据饱和。

9.一种具有处理器可执行的非易失的程序代码的计算机可读介质，其特征在于，所述程序代码使所述处理器执行所述权利要求1-8中任一项所述的判断测序数据饱和的方法。

10.权利要求1-8中任一项所述的判断测序数据饱和的方法或权利要求9所述的具有处理器可执行的非易失的程序代码的计算机可读介质在生物信息学分析中的应用。