CN110656157B

CN110656157B - 用于高通量测序样本溯源的质控品及其设计和使用方法

Info

Publication number: CN110656157B
Application number: CN201910981484.5A
Authority: CN
Inventors: 何杨; 陈亮; 刘俊; 岳平
Original assignee: Chongqing Population And Family Planning Research Institute Of Science And Technology
Current assignee: Chongqing Population And Family Planning Research Institute Of Science And Technology
Priority date: 2019-10-16
Filing date: 2019-10-16
Publication date: 2023-09-08
Anticipated expiration: 2039-10-16
Also published as: CN110656157A

Abstract

本发明属于分子生物学领域，涉及一种基于全外显子组捕获二代测序过程中，用于质量监控，特别是样本溯源的标准质控品。具体而言，本发明公开了一种用于高通量测序样本溯源的质控品的设计方法，包括设计一段DNA序列，将其分成3～5段人工序列，在第一段人工序列前设置GAPDH基因序列Ⅰ、在第一段人工序列和在第二段人工序列之间设置标签序列，在其余的相邻的人工序列之间设置标签序列和GAPDH基因序列Ⅱ，在最后一段人工序列后设置标签序列和GAPDH基因序列Ⅲ。本发明还同时提供了一种用于高通量测序样本溯源的质控品，以及提供了该质控品的使用方法。

Description

用于高通量测序样本溯源的质控品及其设计和使用方法

技术领域

本发明属于分子生物学领域，具体是涉及一种基于全外显子组捕获二代测序过程中，用于质量监控，特别是样本溯源的标准质控品。

背景技术

人类基因组计划已经完成20年，近十近来，随着高通量测序技术的发展，基因组学已经从科研向临床应用方面发展。同时随着测序成本的进一步下降，高通量测序技术已经广泛应用在遗传病检测、产前筛查、产前诊断、植入前诊断等领域。

人类基因组有30亿碱基对，即3GB，但真正起作用的，编码氨基酸的外显子部分只占1-2％，约有3千万碱基对，即30M区域。因此，通过对人类2万多个基因的全外显子捕获后，再进行高通量测序，既降低了测序成本，同时又能保证外显子部分的测序深度，尽多可能的解释遗传病因。因此，全外显子组捕获测序近几年来应用越来越广泛。

由于全外显子组捕获测序步骤多，各种转管频繁，很容易在中间过程将样本混错，或者污染了不同的样本。特别是随着现在分工的进一步细化，医院端只负责采血，样本室负责收样与DNA提取，样本处理组负责文库构建，上机测序组负责文库的鉴定与上机测序，生物信息组负责数据的区分。步骤多了之后，就更容易造成原始样本与数据不一致，且这种样本混错还非常难发现，一旦发生，溯源也相对麻烦。

目前高通量测序的溯源机制还不够完善，更多是依赖于实验室的质量体系，以及出错之后的溯源，比如通过sanger测序采取多个SNP位点的方式与高通量测序结果进行比较，从而来确定样本有没出错。但这种情况只有当质疑样本混错的情况下才会采用。如果没发现样本出错，就不会触发这种纠错机制。同时通过这种方法，额外增加了相当高的成本，以及人力和物力。

发明内容

本发明要解决的技术问题是提供一种用于全外显子组捕获后高通量测序的质控品，用于监控最终的数据与初始的DNA样本是否一致，样本之间是否有混错，或者不同样本之间是否存在交叉污染。

为了解决上述技术问题，本发明提供一种用于高通量测序样本溯源的质控品的设计方法，包括以下：

一、设计一段DNA序列，将其分成3～5段人工序列，每段人工序列的长度为35～45bp长，每段人工序列的GC含量在45-65％；每段人工序列在NCBI核酸数据库进行blast比对，均检索不到；

即，确保所设计的该段DNA序列满足以下条件：与世界上已知物种基因组均不同；

二、在第一段人工序列前设置GAPDH基因序列Ⅰ、在第一段人工序列和在第二段人工序列之间设置标签序列(barcode)，在其余的相邻的人工序列之间设置标签序列(barcode)和GAPDH基因序列Ⅱ，在最后一段人工序列后设置标签序列(barcode)和GAPDH基因序列Ⅲ。

作为本发明的用于高通量测序样本溯源的质控品的设计方法的改进：GAPDH基因序列Ⅰ、II、III的GC含量为45～65％，与正常人DGV数据库对比，该区域不存在整个外显子缺失/重复，也没有SNP，且至少包括一个STS，即唯一序列；

标签序列(barcode)为8bp长。

即，GAPDH基因序列Ⅰ、II、III每一段在核酸数据库中都含有一段独一无二的序列。

本发明还同时提供了一种用于高通量测序样本溯源的质控品：

带方框的序列为人工序列；40-50bp长，GC含量在45-65％，在NCBI上与核酸数据库进行blast比对，均检索不到；

GAPDH-ex3(即，GAPDH基因序列Ⅰ)，表示GAPDH基因第3号外显子的一段39～40bp序列：CG含量60％；

GAPDH-ex4(即，GAPDH基因序列Ⅱ)，表示GAPDH基因第4号外显子的一段35～60bp的序列：GC含量43％；

GAPDH-ex5(即，GAPDH基因序列Ⅲ)，表示GAPDH基因第5号外显子的一段35～60bp的序列：GC含量56％；

barcode序列为8碱基的一段序列。

注：同一类的若干个标准品，除barcode序列不同，其他固有序列均相同。

即，本发明设计一段250bp左右长的，且与世界上已知物种基因组均不同的DNA序列，同时在这段序列中，每隔40-50bp，设计进去1段GAPDH基因序列，以及一个8bp长的标签序列(barcode)，如上。

作为本发明的用于高通量测序样本溯源的质控品的改进：

GAPDH-ex3：ATTTGGTCGTATTGGGCGCCTGGTCACCAGGGCTGCTTT；

GAPDH-ex4：GTTTACATGTTCCAATATGATTCCACCCATGGCAAATTCC；

GAPDH-ex5：GCGAGATCCCTCCAAAATCAAGTGGGGCGATGCTGGCGCT；

barcode1:TAGATCGC，

barcode2:CTCTCTAT，

barcode3:TATCCTCT。

因此，当使用barcode1时，标准品1的序列为：

当使用barcode2时，标准品2的序列为：

当使用barcode3时，标准品3的序列为：

本发明的双链DNA序列由杭州擎科生物公司负责合成。

本发明还同时公开了上述质控品的使用方法，包括以下步骤：

1)、对于批量检测的一系列基因组DNA样品，针对每个基因组DNA样品放入一个具有唯一性的标准品溶液；

上述标准品属于同一类的若干个标准品(即，除barcode序列不同，其他固有序列均相同)；

所述标准品：基因组DNA样品＝100:1的摩尔比；

标准品溶液中，标注品的摩尔浓度约为10～100pmole/ul；

具体而言：

将合成所得的DNA(标准品)，用去离子水溶解至浓度为10-100pmole/ul，检测浓度后备用；

计算将要做全外显子组测序的基因组DNA摩尔浓度，如1ug的基因组DNA，摩尔浓度计算方式为1*10^-6/(650*3*10⁹)＝5.12*10^-19mole，标准品以100：1的浓度加入到基因组DNA中，即加入5.12*10^-19*100＝5.12*10^-17mole，因此，每1ug的基因组DNA，加0.00512pmole的标准品。0.00512pmole换算为质量为5.12*10^-17*650*259＝0.00812ng；其中259为这段序列的碱基长度，650为一bp的分子量。

2)、将步骤1)所得的每个混了标准品的基因组DNA作为样本，进行全外显子捕获测序，从而获得上机前的基因组文库；

具体为：混了标准品的基因组DNA，按全外显子捕获测序的流程进行实验，参考illumina TruSeq Exome Library Prep Reference Guide进行捕获建库，下载链接：https://support.illumina.com/content/dam/illumina-support/documents/documentation/chemistry_do cumentation/samplepreps_truseq/truseqexome/truseq-exome-library-prep-reference-guide-15059911-01.pdf；得到可以用于illumina上机测序的基因组文库。

3)、将步骤2)构建所得的文库，进行Illumina novaseq上机(按标准流程进行)，每个样本(混了标准品的每个基因)获得原始数据(10G以上的原始数据，约有5千万条序列)，将原始数据与标准品序列进行比对(可通过samtool,blast等工具进行，从而得知原始数据中的哪些序列是属于标准品的)，并进行计数，得到标准品序列的reads数；

4)、利用步骤3)所得结果，进行判断：

①、测序后计数得到的该待测样本对应的标准品序列大于平均测序深度的30％时，分成以下两种情况：

别的标准品序列均不能检测到，或者虽然检测到但是低于平均测序深度的30％，说明该待测样本中没有混入其他样本；数据与样本为一一对应；

别的标准品序列能检测到，且≥平均测序深度的30％，说明该待测样本中混入了该标准品对应的样本；说明存在样本污染，且标准品序列之比，代表原始样本污染的比例；

②、测序后计数得到的该待测样本对应的标准品序列不能检测到，或者虽然检测到但是低于平均测序深度的30％，说明样本发生了混淆，即，此不是待测样本。

本发明的创新之处在于设计了特殊的标准品，该标准品既可以被全外显子捕获探针给捕获到，同时还设计了人工的序列，因此，标准品序列与人源基因组序列完全不同，从而可以轻易将数据区分开。同时还设计了barcode标签序列，使得不同的样本有不同的标准品。并且在一个样本中只加入了微量的标准品，不影响测序反应，也不会增加额外测序步骤，不增加额外测序成本。通过简便的方法，就可以做到数据的溯源，保证数据与样本的一致性。本发明稍加变形，就可以应用于其他肿瘤靶向捕获，全基因组测序等领域。为了验证本发明方法的通用性，发明人进行了大量的验证实验，结果证明以下判断规则完全正确。

具体实施方式

实验一、为了验证本发明的有效性，本发明设计了几组实验进行验证

实验方法与步骤：

1.取三份基因组DNA样本(为健康人外周血的DNA样本)，分别标记为A，B，C，浓度，总量以及加入标准品如下，按每1000ng基因组DNA，加0.00862ng的标准品：

即，标准品：基因组DNA样本＝100:1的摩尔浓度比。

标准品1的序列、标准品2的序列、标准品3的序列，如上文所述。

模拟样本混合：

2.对以上S1，S2，S3，S4，共四个样本按illumina的全外显子捕获测序的方法进行文库构建，然后用illumina novaseq进行上机测序，对每个样本要求获得10G以上数据。

3.利用samtools工具，对原始数据(步骤2所得数据)进行分析，计算获得的barcode数，得到如下结果：

结果显示，序列的比例原混样比例基本相同，因此，可以通过标准品的比例，反推出不同样本的混合比例，从而对每个数据进行溯源，保证样本与数据一一对应，从而保证了实验的可靠性。

最后，还需要注意的是，以上列举的仅是本发明的若干个具体实施例。显然，本发明不限于以上实施例，还可以有许多变形。本领域的普通技术人员能从本发明公开的内容直接导出或联想到的所有变形，如可以用该标准品技术应用于肿瘤靶向捕获、全基因组二代测序的样本溯源，均应认为是本发明的保护范围。

序列表

<110> 重庆市人口和计划生育科学技术研究院

<120> 用于高通量测序样本溯源的质控品及其设计和使用方法

<160> 3

<170> SIPOSequenceListing 1.0

<210> 1

<211> 39

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 1

atttggtcgt attgggcgcc tggtcaccag ggctgcttt 39

<210> 2

<211> 40

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 2

gtttacatgt tccaatatga ttccacccat ggcaaattcc 40

<210> 3

<211> 40

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 3

gcgagatccc tccaaaatca agtggggcga tgctggcgct 40

Claims

1.用于高通量测序样本溯源的质控品，其特征在于：

带方框的序列为人工序列；

GAPDH_ex3，表示GAPDH基因第3号外显子的一段39～40bp序列：CG含量60％；GAPDH_ex4，表示GAPDH基因第4号外显子的一段35～60bp的序列：GC含量43％；GAPDH_ex5，表示GAPDH基因第5号外显子的一段35～60bp的序列：GC含量56％；barcode序列为8碱基的一段序列；

GAPDH_ex3：ATTTGGTCGTATTGGGCGCCTGGTCACCAGGGCTGCTTT；

GAPDH_ex4：GTTTACATGTTCCAATATGATTCCACCCATGGCAAATTCC；

GAPDH_ex5：GCGAGATCCCTCCAAAATCAAGTGGGGCGATGCTGGCGCT；

barcode为barcode1、barcode2或barcode3；

barcode1:TAGATCGC，

barcode2:CTCTCTAT，

barcode3:TATCCTCT。

2.根据权利要求1所述的用于高通量测序样本溯源的质控品，其特征在于：

当使用barcode1时，质控品1的序列为：

当使用barcode2时，质控品2的序列为：

当使用barcode3时，质控品3的序列为：

3.如权利要求1或2所述的质控品的使用方法，其特征在于包括以下步骤：

1)、对于批量检测的一系列基因组DNA样品，针对每个基因组DNA样品放入一个具有唯一性的如权利要求1或2所述的质控品溶液；

上述质控品属于同一类的若干个质控品；

所述质控品：基因组DNA样品＝100:1的摩尔比；

质控品溶液中，质控品的摩尔浓度为10～100pmole/ul；

2)、将步骤1)所得的每个混了质控品的基因组DNA作为样本，进行全外显子捕获测序，从而获得上机前的基因组文库；

3)、将步骤2)构建所得的文库，进行Illumina novaseq上机，每个样本获得原始数据，将原始数据与质控品序列进行比对，并进行计数，得到质控品序列的reads数；

4)、利用步骤3)所得结果，进行判断：

①、测序后计数得到的待测样本对应的质控品序列大于平均测序深度的30％时，分成以下两种情况：

别的质控品序列均不能检测到，或者虽然检测到但是低于平均测序深度的30％，说明该待测样本中没有混入其他样本；数据与样本为一一对应；

别的质控品序列能检测到，且≥平均测序深度的30％，说明该待测样本中混入了该质控品对应的样本；说明存在样本污染，且质控品序列之比，代表原始样本污染的比例；

②、测序后计数得到的该待测样本对应的质控品序列不能检测到，或者虽然检测到但是低于平均测序深度的30％，说明样本发生了混淆，即，此不是待测样本。