CN113005188A

CN113005188A - 用一代测序评估样本dna中碱基损伤、错配和变异的方法

Info

Publication number: CN113005188A
Application number: CN202011604056.XA
Authority: CN
Inventors: 罗俊峰; 王一帆; 徐雪; 陈曦; 宋萍
Original assignee: Carrier Gene Technology Suzhou Co ltd
Current assignee: Carrier Gene Technology Suzhou Co ltd
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2021-06-22
Also published as: CN114150047A; CN114150047B

Abstract

本发明涉及一种用一代测序评估样本DNA中碱基损伤、错配和变异的方法，本发明在PCR扩增过程中一方面采用分子标签来标记带有损伤或者错配的DNA原始分子，另一方面对抽样区域进行富集放大扩增，将0.1％左右的损伤或者错配信息放大到10～99％，然后采用基于富集放大作用的评估方法和基于分子标签种类数量的评估方法分别评估样本DNA中碱基损伤、错配和变异的比例值，根据两种方法的可信结果，判断样本DNA中碱基损伤、错配和变异的比例值。本发明的方法能够采用经济快速的sanger测序方法准确的确认损伤或者错配真实存在，能够有利于优化样本DNA提取技术和保存方法，帮助评估样本DNA的质量。

Description

用一代测序评估样本DNA中碱基损伤、错配和变异的方法

技术领域

本发明属于基因检测技术领域，尤其涉及一种用一代测序评估样本DNA中碱基损伤、错配和变异的方法。

背景技术

随着技术的发展，在DNA检测领域，特别是癌症检测领域，人们越来越关注低比例的突变信息，比如0.1％的体突变信息是当前液体活检领域重点关注的指标之一，逐渐地，人们也会不再满足于0.1％这个指标，而要求更进一步，如果到了0.01％这个层面，就会面临如何区分突变与错配和碱基损伤的问题。

首先明确一下突变和错配这两个概念的含义。单拷贝细胞层面上，比如单个精子和卵子，它们是单倍体，突变这个概念在单倍体细胞比较难以适用，常规的突变更多是一种群体或者集体意义上的概念，比如人基因组hg19，Chr1:2,000这个位置的碱基是C，那么如果1000个精子细胞中有1个精子细胞出现了C>T的突变，其他细胞保持野生型的C，那么我们说这个位置上出现了0.1％的C>T突变，而对于这个含有T的精子细胞中，Chr1:2,000这个位置是正常T:A配对，并没有出现突变，而本专利所述的错配，是指在单个精子细胞中Chr1:2,000并不是正常的C:G配对，而是T:G配对这种不符合碱基配对原则的情况，这种在双链中出现碱基配对错误，称之为碱基错配，这种碱基错配如果没有被修复系统修复，在某种情况下，被DNA聚合酶复制过一次后，就变成了正常配对的T:A和C:G，并传给了子代，那么就形成了突变，因此突变在概念上，是有一个群体的语境的。

碱基损伤和碱基错配可以是先天形成的，也可以是后天形成的；先天形成的碱基错配是指，在生物体的细胞中，细胞在进行分裂增殖的过程中，由于体内DNA复制体系的错误，为G错误的匹配上了非C的碱基，而这种错误并没有得到体内修复系统的修复，进而保留了下来；后天形成的碱基损伤是指，在我们提取DNA的过程当中，由于技术、方法和条件的不恰当或局限而发生的损伤，比如胞嘧啶C在氧化条件下，发生氧化损伤，发生了脱氨反应，变成了脱氨基的胞嘧啶，然后在复制过程中，脱氨基的胞嘧啶被认为是尿嘧啶，进而与A发生匹配；又比如G在氧化条件下，容易形成8-oxoG，然后在复制过程中，也容易oxo-G:A匹配；总体来说，一旦这些损伤的碱基和错配在生物体内稳定遗产下来，就会形成突变，在关键基因的关键位置发生的突变，并累积到一定程度，就有可能成为严重疾病的病因，比如癌症，也有可能成为耐药的原因。很明显能看出，如果是后天造成的碱基损伤，很容易给万分之一或者千分之一这个指标造成困扰，因此，评估样本中脱氧核糖核苷酸的损伤和错配是非常重要的，特别是对一些关键突变热点尤其显得重要，这些位置上碱基损伤导致的C>T、G>A会造成假阳性干扰。

由于这种损伤和错配发生的概率和比例是很低的，目前已知在万分之几左右，低于常规技术平台的灵敏度，比如二代测序平台的错误率在千分之几左右，因此，二代测序平台的检测灵敏度在1％左右；qPCR平台的某些技术最好的检测灵敏度在0.2％。因此在技术方面，如果要检测低比例的变异信息，是一定离不开分子标签标记技术的，但是分子标签技术严重依赖于高深度测序，而且时间周期长，不利于检测项目的推广。

发明内容

为解决上述技术问题，本发明公开一种评估DNA样本中低比例碱基损伤或者碱基错配的方法，同时也可以评估生物体内天然存在的低比例碱基错配和碱基变化的比例，能够有利于优化样本DNA提取技术和保存方法，帮助评估样本DNA的质量。

本发明的第一个目的是提供一种用一代测序评估样本DNA中碱基损伤、错配和变异的方法，包括如下步骤：

S1、加入能够抑制DNA样本中非目标区域(非目标区域指的是对应发生碱基损伤、错配和变异的未发生碱基损伤、错配和变异的区域)的核酸组合物，以及带有可纠错的分子标签库的扩增引物，对DNA样本进行扩增，采用一代测序技术对PCR扩增后的产物进行测序；

其中，抑制DNA样本中非目标区域的核酸组合物根据DNA样本中的采样区域进行设计；

S2、获得S1步骤PCR扩增产物的测序数据，采用基于富集放大作用的评估方法和基于分子标签种类数量的评估方法分别对产物的测序数据进行分析，获得评估样本DNA中碱基损伤、错配和变异的比例值；

S3、在基于富集放大作用的评估方法和基于分子标签种类数量的评估方法结果同时具有可信结果时，采用基于分子标签种类数量的评估方法结果作为评估样本DNA中碱基损伤、错配和变异的比例值。

其中，能够抑制DNA样本中非目标区域的核酸组合物的设计方法参见申请号为2020115796048的中国专利。

可纠错的分子标签库的扩增引物的设计方法参见申请号为2020115404605的中国专利。

进一步地，所述的基于富集放大作用的评估方法，是通过如下步骤进行分析：

S01、用Efold值代表每个采样区域的富集放大作用，计算公式为：

Efold＝(VRF/VAF)×[(1-VAF)/(1-VRF)]，

其中，VAF是样本中的变异信息的初始比例；VRF是检测结果中样本的变异信息比例；

S02、通过对标准品测试，获得每个采样区域的Efold值，并通过PCR扩增产物的测序数据中不同碱基的峰值比例计算VRF值，当VRF满足5％<＝VRF<＝95％时，通过如下公式计算VAF值：

VAF＝VRF/(Efold-Efold×VRF+VRF)，

当VRF不满足5％<＝VRF<＝95％时，基于富集放大作用的评估方法结果不可信。

例如，已知标准品样本中的变异信息的比例是0.1％，那么VAF＝0.1％，经过富集放大之后，PCR产物经过测序分析，发现含有变异信息占比是50％，那么VRF＝50％，此时：

Efold＝(50％/0.1％)×[(1-0.1％)/(1-50％)]＝999

如果一个PCR反应没有富集放大作用，即VAF＝0.1％，VRF也将是0.1％，那么，

Efold＝＝(0.1％/0.1％)×((1-0.1％)/(1-0.1％))＝1

由此可见，Efold＝1的时候，整个反应体系对于变异信息来说是没有富集放大作用的；Efold对于一个具体的反应体系来说，体现了这个反应体系的内在特征，下表举例说明通过不同VAF和VRF计算出来的Efold。

	Efold
		VAF＝0.1％,VRF＝0.1％	1
VAF＝0.1％,VRF＝50％	999
		VAF＝0.1％,VRF＝90％	8991
VAF＝1％,VRF＝50％	99
		VAF＝1％,VRF＝90％	891
VAF＝1％,VRF＝99％	9801
		VAF＝5％,VRF＝99％	1881

由上表可以看出，当VRF无限趋近于100％的时候，VAF值与Efold无法继续成为正比的关系，比如，VAF＝1％,VRF＝99％和VAF＝5％,VRF＝99％的情况，表示某个反应在1％的时候，其放大富集作用就已经饱和，如果用VAF＝5％时的Efold值来表示某个反应的富集放大作用，反而是不准确的，因此，我们规定：某个具体反应的Efold值，必须要在5％<＝VRF<＝95％的情况下获得。

S02步骤具体如下表举例所示，当Efold已知后，不同的VRF可以推算出待测目标样本中的VAF

	VAF
		Efold＝999,VRF＝50％	0.100％
Efold＝999,VRF＝51％	0.104％
		Efold＝999,VRF＝60％	0.150％
Efold＝999,VRF＝99％	9.016％

需要注意的是，如果在sanger信号中会呈现出变异信息的纯合峰，代表着信号可能已经饱和了，即VRF已经很接近100％了，VRF和VAF之间很可能无法成正比关系了，比如，VAF＝5％的时候，sanger测序结果中的VRF＝99％；VAF＝10％的时候，sanger的VRF也还是99％，这样的话其实就无法区分VAF到底是5％还是10％，因此，当5％<＝VRF<＝95％的范围内时，VAF＝VRF/(Efold-Efold×VRF+VRF)才能在线性范围内合理成立，当VRF>95％或VRF<5％时，意味着待测目标样本的碱基损伤和/或碱基错配比例超出本专利公开方法的检测范围。

进一步地，所述的基于分子标签种类数量的评估方法，是通过如下步骤进行分析：

S001、基于PCR扩增产物的测序数据和已知分子标签序列的DNA序列识别方法，所述DNA序列识别方法输出一个分子标签序列的种类数量UMInum；

S002、当UMInum<＝10时，碱基损伤、错配和变异的比例Pdm％计算公式如下：

Pdm％＝UMInum/(Ng×1000×2/6.67)×100％，

其中Ng＝反应中投入的DNA的质量；

当UMInum>10时，基于分子标签种类数量的评估方法结果不可信。

比如Ng＝10ng，UMInum＝5时，

碱基损伤和错碱基错配的比例Pdm％＝5/2998.5×100％＝0.17％。

进一步地，在计算VRF值前或输出参数UMInum之前，包括识别变异信息的步骤：

S0001、获取sanger测序信号基线值Noise_c；方法在于：

a)读取Sanger AB1文件，得到文件中每个荧光通道每次信号采样的信号值Fluor_cs，以及每个碱基所在的信号采样数S_k；

Fluor_ck为荧光通道c在碱基k所在信号采样数S_k±i区域内的最大值，Fluor_ck的计算方法为:

Fluor_ck＝max{Fluor_cs：s＝S_k-i..S_k+i}

其中i可以是0～5之内的正整数；

b)对每个荧光通道在所有N个碱基位置的最大值有

从中去掉一代测序中碱基识别为荧光通道c对应的M个碱基(Sanger AB1文件中有给出)的最大值，得到新的最大值集合：

c)计算

的平均绝对偏差，去除与中位值之差超过平均绝对偏差n倍的值，n可以是取值在2～5，计算余下最大值的平均值Noise_c作为荧光通道c的背景噪音基线；

d)对所有荧光通道信号采样的信号值减去对应荧光通道的背景噪音值，得到FlourNN_cs(No Noise)：

FluorNN_cs＝Fluor_cs-Noise_c

S0002、根据各荧光通道的信号变化寻找区域信号峰值：

遍历荧光通道的峰值，当一个碱基宽度W_k的区域内只有任一通道存在峰值，则该区域有一个碱基，且该碱基的类型是有峰值的通道对应的碱基类型；当一个碱基宽度W_k的区域内有多个通道存在峰值时，则该区域可能存在多个碱基，峰值最高的通道所对应的碱基类型是该区域的主要碱基，其他通道的峰值，以该峰值数据占主要碱基通道峰值的比例为依据，比例高于阈值时，则该通道对应的碱基类型是该区域的一个备选碱基类型，否则不存在备选碱基类型；得到由主要碱基和备选碱基组成的候选碱基序列A，并在存在备选碱基的位置标注备选的碱基类型；

其中，所述一个碱基宽度W_k的区域定义为：如果Sanger AB1包含N个碱基，那么碱基k所处的信号采样数为S_k，前一碱基所处信号采样数为S_k-1，后一碱基所处信号采样数为S_k+1，那么碱基k的碱基宽度区域起始位置WS_k由如下公式得到：

碱基k的碱基宽度区域终止位置WE_k由如下公式得到：

其中，所述一个碱基宽度W_k的区域内存在峰值的定义为：使用Scipy的find_peaks算法对荧光通道c在s∈(WS_k，WE_k)区域的去背景噪音后信号值FluorNN_cs计算区域峰值；若没有峰值存在，则荧光通道c在碱基宽度W_k的区域内不存在峰值；若存在一个或多个峰值，则取信号值最大的峰值作为荧光通道c在碱基宽度W_k的区域内的峰值；

S0003、根据一代测序结果获得由IUPAC编码的候选碱基序列B：

候选碱基序列B代表PCR产物的全长序列，包括候选碱基序列B1、候选碱基序列B2和候选碱基序列B3，其中，候选碱基序列B1为分子标签库位置的序列，候选碱基序列B2为样本DNA采样区域的序列，候选碱基序列B3为除分子标签库位置的序列和样本DNA采样区域的序列之外的其他序列；使用IUPAC(International Union of Pure and AppliedChemistry)推荐碱基编码规则合并所述候选碱基序列A中的主要碱基和备选碱基，得到由IUPAC编码的候选碱基序列B；如：

IUPAC编码表：

S0004、识别一代测序结果中的变异信息：

1)用对位信息计算方法识别出候选碱基序列B与已知参考序列R(即参考序列基因组的序列，比如说，hg19)不同的信息；

所述的对位信息计算方法是对所述的IUPAC编码的候选碱基序列B和已知参考序列R使用序列比对算法Gotoh’s Algorithm和NUC.4.4IUPAC编码比对分数表进行比对；挑选比对分数最高的结果，作为候选碱基序列B和已知参考序列R的对齐结果，得到候选碱基序列B和已知参考序列R的对位信息；2)使用对位信息计算方法，得到候选碱基序列B2和B3和已知参考序列R的对位信息，并使两条序列对齐；扫描已对齐的候候选碱基序列B2和B3和已知参考序列R，得到IUPAC序列中与已知参考序列R不同的碱基信息，即为变异信息；

其中，定义Base_k为某一碱基位置，参考碱基Base_kr是参考序列中的碱基信息，与已知参考序列R不同的碱基为Base_km；候选碱基序列B2和B3中某个具体位置的碱基Base_k由参考碱基Base_kr和代表损伤、错配或变异信息的Base_km组成。

比如某一碱基位置Base_k在IUPAC序列中是“M”(对应着“A”或者“C”)，而参考序列中是“A”，那么认为该位置存在一个碱基类型为“C”的变异信息，我们定义，参考碱基Base_kr是参考序列中的碱基信息，比如上述的“A”，与参考序列R不同的碱基称之Base_km，比如上述的“C”，可见，Base_km包含有碱基损伤、错配、变化或变异等信息，所述的Base_km是指代某一种具体的碱基类型，因此同一个位置可能具有多个Base_km。

进一步地，VRF值通过如下公式计算得到：

其中Peak(Base_km)是碱基Base_km的峰值荧光信号，

是Base_k中碱基(包括主要碱基和备选碱基)的峰值荧光信号的总和。

进一步地，分子标签序列的种类数量UMInum通过如下方法得到：

以B1相邻的扩增引物作为已知参考序列，对候选碱基序列B使用对位信息计算方法，得到候选碱基序列B和扩增引物的对位信息，并使两条序列对齐；通过B1序列已知长度信息，从对齐序列中得到候选碱基序列B1；

提取候选碱基序列B1每个位置的N^-信息作为特征值，所述的N^-信息是指Base_k不包含的碱基类型，比如，候选碱基序列B1的1号位是W(A/T)，那么1号位的N^-信息是S(G/C)，如果候选碱基序列B1的2号位是H(A/T/C)，那么2号位的N^-信息是G，将候选碱基序列B1的N^-信息的集合定义为Index_B，将标签序列库中的各个已知序列定义为Index_l，将Index_l的各个位置用Index_B信息做排除，标签序列库Index_l中剩下的分子标签个数即为UMInum。

本发明的第二个目的是提供一种用一代测序评估样本DNA中碱基损伤、错配和变异的分析装置，所述的分析装置包括：

数据提取模块，用于获取一代测序AB1文件中碱基序列信息和荧光信号数据；

预处理模块，用于荧光信号去背景噪音和候选碱基序列的生成；

分析模块，用于分析获取一代测序结果中的变异信息；

标签处理模块，用于分析计算PCR产物中分子标签种类数量UMInum。

本发明的第三个目的是提供一种服务器，包括一个或多个处理器和存储器，

所述存储器，用于保存计算机程序；

所述处理器，用于执行所述计算机程序，以实现所述的用一代测序评估样本DNA中碱基损伤、错配和变异的方法。

本发明的第四个目的是提供一种计算机可读存储介质，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现所述的用一代测序评估样本DNA中碱基损伤、错配和变异的方法。

借由上述方案，本发明至少具有以下优点：

本发明在PCR扩增过程中一方面采用分子标签来标记带有损伤或者错配的DNA原始分子，另一方面对抽样区域进行富集放大扩增，将小于0.1％的损伤或者错配信息放大到10～99％，然后采用基于富集放大作用的评估方法和基于分子标签种类数量的评估方法分别评估样本DNA中碱基损伤、错配和变异的比例值，根据两种方法的可信结果，判断样本DNA中碱基损伤、错配和变异的比例值。本发明的方法能够采用经济快速的sanger测序方法准确的确认损伤或者错配真实存在，能够有利于优化样本DNA提取技术和保存方法，帮助评估样本DNA的质量。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，并可依照说明书的内容予以实施，以下以本发明的较佳实施例并配合详细说明如后。

附图说明

图1为外周血DNA样本碱基损伤Sanger评估结果；

图2为100种分子标签序列位次表；

图3为获取N-信息示意图；

图4为利用碱基位次和N-信息在Excel中排除不可能出现的分子标签示意图；

图5为利用N-信息进行排除并验证分子标签存在示意图。

具体实施方式

实施例1：用一代测序来评估样本DNA中碱基损伤的程度

1、在人类基因组的4个位置设置采样区域，并设计用于PCR的引物对组合，如下表：

Name	Seq(5’-3’)(SEQ ID NO.1～13)	50mM，25℃，deltaG
			DmDe1-FP	CCCTGACAACATAGTTGGAATCA	-27.4
DmDe1-RP	ACTCCAGGATAATACACATCACAGT	-29.2
			DmDe1-BL	TGGAATCACTCATGATATCTCGAGCCAT	-34.0
DmDe2-FP	AGCAGTCTCTGCCTCGC	-24.5
			DmDe2-RP	AGAAGATTCGGCAGAACTAAGCA	-28.5
DmDe2-BL	CCTCGCCAAGCGGCTCATGTTAATATT	-35.0
			DmDe4-FP	AGAAGATGTGGAAAAGTCCCAATG	-28.4
DmDe4-RP	GTGCCCAGGTCAGTGGAT	-24.7
			DmDe4-BL	TCCCAATGGAACTATCCGGAACATCCA	-34.1
DmDe6-FP	TCCTTTAACCACATAATTAGAATCATTCTTGA	-33.9
			DmDe6-RP	AGTTAGTTTTCACTCTTTACAAGTTAAAATGA	-33.5
DmDe6-BL	ATCATTCTTGATGTCTCTGGCTAGACCAAA	-35.6
			UNITag	tgtaaaacgacggccagtaca

注意：表中的RP序列只是特异性序列部分，在制备过程中，加上UNITaq序列构建5-tgtaaaacgacggccagtaca(N28)-RP结构，其中，N28是实例2中100种UMI序列。

2、根据hg19参考序列信息，定制合成阳性突变质粒模板。阳性突变模板中采样区域附近区域的序列如下：

Name	Seq(5’-3’)(SEQ ID NO.14～17)
		Plasmid01	TGGAATCACTCATGATA--TCGAGCCA
Plasmid02	CCTCGCCAAGC--CTCATGTTA
		Plasmid04	TCCCAATGGAACTAT--GGAACATCC
Plasmid06	ATCATTCTTGATGTCTCTG--TAGACCAAA

其中，“--”指2个碱基的缺失。

3、制备0.1％的变异标准品。标准品的配置：先通过qubit定量，根据质粒模板的分子质计算理论的分子数，逐步配置成0.1％的变异标准品，然后通过ddPCR进行校正和调整，配置成相对误差较小的0.1％，后续继续通过二代测序的结果进行校正。

4、通过NGS测序获得每个采样区域的Efold值

a)5×Oligo mix with BL体系的配置

组分	引物浓度(μM)	体积(μL)
			FP	100	20
RP	100	20
			BL	100	100
0.1×TE		补齐至1000μL
			Total		1000μL

b)5×Oligo mix w/o BL体系的配置(供评估样本时作为对照使用，PCR体系使用量与with BL组相同)

组分	引物浓度(μM)	体积(μL)
			FP	100	20
RP	100	20
			0.1×TE		补齐至1000μL
Total		1000μL

c)PCR体系的配置

试剂组成	体积(μL)
		5×Oligo Mix with BL	6μL
2×DNA聚合酶Master Mix	15μL
		0.1％标准品	300ng
Nuclease Free Water	补齐至30μL

d)UMI-PCR扩增程序

PCR结束后，每个反应中加入1个单位的核酸外切酶I，37℃孵育30分钟，80℃灭活30分钟。再加入2μL 10μM FP和2μL 10μM UNITag，进行后续的PCR扩增程序。

e)后续PCR过程

5、反应后的PCR产物用商业化的二代测序建库试剂盒进行建库，在Illumina平台上进行测序，测序之后，分析含有2bp deletion变异信息的reads的分子标签种类数量，同时分析野生型信息的reads的分子标签种类数量，两者之比为校正后的VAF；分析含有变异信息的reads数和分析野生型信息的reads数，两者之比为VRF。计算每个采样位置的Efold值。

	NGS校正前VAF	NGS校正后VAF	VRF	Efold
					DmDe1	0.1％	0.25％	57.2％	533.2
DmDe2	0.1％	0.31％	83.5％	1627.4
					DmDe4	0.1％	0.15％	48.4％	624.4
DmDe6	0.1％	0.23％	61.0％	678.5

6、选择需要评估的外周血DNA样本，DNA input＝30ng，然后with BL和w/o BL组同时做，确保没有污染，同时在两组的比较中可以看到富集和放大效果，部分结果如图1所示，可以看到w/o BL组显示的是野生型信息，意味着没有任何富集放大作用。

7、根据NGS结果中获得的Efold和Sanger分析步骤获得的VRF，根据公式：VAF＝VRF/(Efold-Efold×VRF+VRF)计算原始样本中的VAF：

采样区域名称	碱基位置信息	Efold	VRF	VAF
					DmDe1	9G>A	533.2	73％	0.50％
DmDe2	11C>T	1627.4	9％	0.01％
						12C>T	1627.4	11％	0.01％
	13G>A	1627.4	47％	0.05％
						14C>T	1627.4	29％	0.03％
DmDe4	6T>C	624.4	8％	0.01％
						10G>A	624.4	31％	0.07％
DmDe6	10G>A	678.5	50％	0.15％
						12G>A	678.5	35％	0.08％

由于采样区域中可能存在多个碱基位置可能发生损伤或者错配，因此，我们将最终损伤或者错配的程度评估为一个范围，比如DmDe2，我们认为损伤或者错配的程度是0.01％～0.05％，考虑到30ng input大约有9000个拷贝，那么检测到的损伤或者错配的原始分子可能在1～5个左右。同时，我们在大量的检测中发现，C>T和G>A的情况是最多的，也符合文献中介绍的胞嘧啶脱氨和G氧化后容易错配上T的情况。

实施例2：从sanger结果中分析分子标签个数UMInum的逻辑演示

1、制备100种序列已知的分子标签，每个分子标签28nt，将每个碱基分开占位，如图2所示。

2、假设PCR产物中含有如图3所示的5种分子标签序列，在一代测序之后，根据sanger结果，在每个位置的N^-信息都可以获得，如图3所示。

3、根据N^-信息过滤分子标签的已知序列，比如在第16位碱基，需要排除该位置不含g和t的分子标签，在经过第1～16位的N^-信息的排除之后，只剩下15种分子标签，如图4所示；

4、继续根据N^-信息进行排除，当进行到第28位碱基时，最终留下5个分子标签，恰好上之前假设存在的那5个分子标签，如图5所示；

5、本实例描述了利用已知序列的分子标签在sanger测序之后获得N^-信息来反推PCR产物中分子标签种类个数的逻辑，具体的实际分析由编写的软件完成。

以上仅是本发明的优选实施方式，并不用于限制本发明，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变型，这些改进和变型也应视为本发明的保护范围。

序列表

<110> 阅尔基因技术（苏州）有限公司

<120> 用一代测序评估样本DNA中碱基损伤、错配和变异的方法

<160> 17

<170> PatentIn version 3.3

<210> 1

<211> 23

<212> DNA

<213> （人工序列）

<400> 1

ccctgacaac atagttggaa tca 23

<210> 2

<211> 25

<212> DNA

<213> （人工序列）

<400> 2

actccaggat aatacacatc acagt 25

<210> 3

<211> 28

<212> DNA

<213> （人工序列）

<400> 3

tggaatcact catgatatct cgagccat 28

<210> 4

<211> 17

<212> DNA

<213> （人工序列）

<400> 4

agcagtctct gcctcgc 17

<210> 5

<211> 23

<212> DNA

<213> （人工序列）

<400> 5

agaagattcg gcagaactaa gca 23

<210> 6

<211> 27

<212> DNA

<213> （人工序列）

<400> 6

cctcgccaag cggctcatgt taatatt 27

<210> 7

<211> 24

<212> DNA

<213> （人工序列）

<400> 7

agaagatgtg gaaaagtccc aatg 24

<210> 8

<211> 18

<212> DNA

<213> （人工序列）

<400> 8

gtgcccaggt cagtggat 18

<210> 9

<211> 27

<212> DNA

<213> （人工序列）

<400> 9

tcccaatgga actatccgga acatcca 27

<210> 10

<211> 32

<212> DNA

<213> （人工序列）

<400> 10

tcctttaacc acataattag aatcattctt ga 32

<210> 11

<211> 32

<212> DNA

<213> （人工序列）

<400> 11

agttagtttt cactctttac aagttaaaat ga 32

<210> 12

<211> 30

<212> DNA

<213> （人工序列）

<400> 12

atcattcttg atgtctctgg ctagaccaaa 30

<210> 13

<211> 21

<212> DNA

<213> （人工序列）

<400> 13

tgtaaaacga cggccagtac a 21

<210> 14

<211> 25

<212> DNA

<213> （人工序列）

<400> 14

tggaatcact catgatatcg agcca 25

<210> 15

<211> 20

<212> DNA

<213> （人工序列）

<400> 15

cctcgccaag cctcatgtta 20

<210> 16

<211> 24

<212> DNA

<213> （人工序列）

<400> 16

tcccaatgga actatggaac atcc 24

<210> 17

<211> 28

<212> DNA

<213> （人工序列）

<400> 17

atcattcttg atgtctctgt agaccaaa 28

Claims

1.一种用一代测序评估样本DNA中碱基损伤、错配和变异的方法，其特征在于，包括如下步骤：

S1、加入能够抑制DNA样本中非目标区域的核酸组合物，以及带有可纠错的分子标签库的扩增引物，对DNA样本进行扩增，采用一代测序技术对PCR扩增后的产物进行测序；

2.根据权利要求1所述的方法，其特征在于，所述的基于富集放大作用的评估方法，是通过如下步骤进行分析：

Efold＝(VRF/VAF)×[(1-VAF)/(1-VRF)]，

S02、通过对标准品进行测试，获得每个采样区域的Efold值，并通过PCR扩增产物的测序数据中不同碱基的峰值比例计算VRF值，当VRF满足5％<＝VRF<＝95％时，通过如下公式计算VAF值：

VAF＝VRF/(Efold-Efold×VRF+VRF)，

3.根据权利要求1所述的方法，其特征在于，所述的基于分子标签种类数量的评估方法，是通过如下步骤进行分析：

Pdm％＝UMInum/(Ng×1000×2/6.67)×100％，

其中Ng＝反应中投入的以ng为单位的DNA的质量；

4.根据权利要求2或3所述的方法，其特征在于，在计算VRF值前或输出参数UMInum之前，包括识别变异信息的步骤：

S0001、获取sanger测序信号基线值Noise_c；方法在于：

Fluor_ck为荧光通道c在碱基k所在信号采样数S_k±i区域内的最大值，Fluor_ck的计算方法为：

Fluor_ck＝max{Fluor_cs：s＝S_k-i..S_k+i}

其中i可以是0～5之内的正整数；

b)对每个荧光通道在所有N个碱基位置的最大值有

从中去掉一代测序中碱基识别为荧光通道c对应的M个碱基的最大值，得到新的最大值集合：

c)计算

d)对所有荧光通道信号采样的信号值减去对应荧光通道的背景噪音值，得到FluorNN_cs：

FluorNN_cs＝Fluor_cs-Noise_c

S0002、根据各荧光通道的信号变化寻找区域信号峰值：

其中，所述一个碱基宽度W_k的区域定义为：如果SangerAB1包含N个碱基，那么碱基k所处的信号采样数为S_k，前一碱基所处信号采样数为S_k-1，后一碱基所处信号采样数为S_k+1，那么碱基k的碱基宽度区域起始位置WS_k由如下公式得到：

碱基k的碱基宽度区域终止位置WE_k由如下公式得到：

其中，所述一个碱基宽度W_k的区域内存在峰值的定义为：使用Scipy的find_peaks算法对荧光通道c在s∈(WS_k，WE_k)区域的去背景噪音后信号值FluorNN_cs计算区域峰值；

S0003、根据一代测序结果获得由IUPAC编码的候选碱基序列B：

候选碱基序列B代表PCR产物的全长序列，包括候选碱基序列B1、候选碱基序列B2和候选碱基序列B3，其中，候选碱基序列B1为分子标签库位置的序列，候选碱基序列B2为样本DNA采样区域的序列，候选碱基序列B3为除分子标签库位置的序列和样本DNA采样区域的序列之外的其他序列；使用IUPAC碱基编码规则合并所述候选碱基序列A中的主要碱基和备选碱基，得到由IUPAC编码的候选碱基序列B；

S0004、识别一代测序结果中的变异信息：

用对位信息计算方法识别出候选碱基序列B与已知参考序列R不同的信息；

所述的对位信息计算方法是对所述的IUPAC编码的候选碱基序列B和已知参考序列R使用序列比对算法和IUPAC编码比对分数表进行比对；挑选比对分数最高的结果，作为候选碱基序列B和已知序列R的对齐结果，得到候选碱基序列B和已知参考序列R的对位信息；

使用对位信息计算方法，得到候选碱基序列B2和B3和已知参考序列R的对位信息，并使两条序列对齐；扫描已对齐的候候选碱基序列B2和B3和已知参考序列R，得到IUPAC序列中与已知参考序列R不同的碱基信息，即为变异信息；

其中，定义Base_k为某一碱基位置，参考碱基Base_kr是已知参考序列R中的碱基信息，与已知参考序列R不同的碱基为Base_km；候选碱基序列B2和B3中某个具体位置的碱基Base_k由参考碱基Base_kr和代表损伤、错配或变异信息的Base_km组成。

5.根据权利要求4所述的方法，其特征在于，VRF值通过如下公式计算得到：

其中Peak(Base_km)是碱基Base_km的峰值荧光信号，

是Base_k中碱基的峰值荧光信号的总和。

6.根据权利要求4所述的方法，其特征在于，分子标签序列的种类数量UMInum通过如下方法得到：

提取候选碱基序列B1每个位置的N^-信息作为特征值，所述的N^-信息是指Base_k不包含的碱基类型，将候选碱基序列B1的N^-信息的集合定义为Index_B，将标签序列库中的各个已知序列定义为Index_l，将Index_l的各个位置用Index_B信息做排除，标签序列库Index_l中剩下的分子标签个数即为UMInum。

7.根据权利要求4所述的方法，其特征在于，所述的阈值为33％。

8.一种用一代测序评估样本DNA中碱基损伤、错配和变异的分析装置，其特征在于，所述的分析装置包括：

分析模块，用于分析获取一代测序结果中的变异信息；

9.一种服务器，其特征在于，包括一个或多个处理器和存储器，

所述存储器，用于保存计算机程序；

所述处理器，用于执行所述计算机程序，以实现权利要求1～7任一项所述的用一代测序评估样本DNA中碱基损伤、错配和变异的方法。

10.一种计算机可读存储介质，其特征在于，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现权利要求1～7任一项所述的用一代测序评估样本DNA中碱基损伤、错配和变异的方法。