CN105950707A

CN105950707A - 一种确定核酸序列的方法及系统

Info

Publication number: CN105950707A
Application number: CN201610193219.7A
Authority: CN
Inventors: 张印新; 韩颖鑫; 王佳伟; 高晓峘; 张春生; 李胜
Original assignee: Guagnzhou Jingke Biotech Co ltd
Current assignee: Guangzhou Jingke Medical Laboratory Ltd
Priority date: 2016-03-30
Filing date: 2016-03-30
Publication date: 2016-09-21

Abstract

本发明提供一种确定核酸序列的方法，包括，获取待测样本中的核酸，对所述核酸进行测序，获得由多个测序序列构成的测序结果；将所述测序结果进行过滤，所述过滤包括去除不确定碱基比例大于1%的读段和/或碱基质量值不大于5的碱基数的比例不小于50%的读段，获得过滤后的测序结果；将所述过滤后的测序结果与第一数据库进行第一比对，获得第一比对结果；以及将所述第一比对结果与第二数据库进行第二比对，获得第二比对结果；分析所述第二比对结果，确定待测样本的核酸序列。本发明还提供一种确定核酸序列的系统。本发明基于生物信息学分析手段与强大的数据库平台来对样本中的微生物种类进行鉴定，具有结果灵敏、特异性强等优点。

Description

一种确定核酸序列的方法及系统

技术领域

本发明涉及生物技术领域，具体的，一种确定核酸序列的方法及系统，以及一种计算核酸序列丰度及相对丰度的方法及系统。

背景技术

人或动物的血液中寄生有大量的细菌或病毒等微生物，通过对血液中微生物的研究，可以促进对血液中微生物的寄生情况更加了解。

目前，对于血液中微生物的检测方法主要有直接涂片法，培养法，细胞或动物接种法。而这些方法阳性率较低，细菌培养阳性率只有30%-50%，细胞或动物病毒接种阳性率更低，并且耗时过长。近一些年来随着PCR技术的逐步发展，也有一些技术应用到微生物的检测，但是由于其检测的单一性及灵敏性等方面存在很多问题，效果不是很好。

发明内容

依据本发明的一方面，本发明提供一种确定核酸序列的方法，包括，

（1）获取待测样本中的核酸，对所述核酸进行测序，获得由多个测序序列构成的测序结果；（2）将所述测序结果进行过滤，所述过滤包括去除不确定碱基比例大于1%的读段和/或碱基质量值不大于5的碱基数的比例不小于50%的读段，获得过滤后的测序结果；（3）将所述过滤后的测序结果与第一数据库进行第一比对，获得第一比对结果；以及（4）将所述第一比对结果与第二数据库进行第二比对，获得第二比对结果；（5）分析所述第二比对结果，确定待测样本的核酸序列。

本发明另一方面提供一种计算核酸序列丰度及相对丰度的方法，包括：

利用上述核酸序列的方法获得核酸序列信息；基于所述核酸序列信息，通过公式1计算待测样本中各物种的丰度，所述公式1为：

1

i为第二数据库中物种；N为比对到第二数据库的全部序列长度；Ni为比对到物种上的序列长度；Li为物种i的基因组长度；b_i为丰度；

以及，通过公式2计算待测样本中各物种的相对丰度，所述公式2为：

2

i，j为第二数据库中物种；sb_i为相对丰度。

本发明另一方面还提供一种确定核酸序列的系统，包括：

测序结果获得模块，用于获取待测样本中的核酸，对所述核酸进行测序，获得由多个测序序列构成的测序结果；测序结果过滤模块，用于将所述测序结果进行过滤，所述过滤包括去除不确定碱基比例大于1%的读段和/或碱基质量值不大于5的碱基数的比例不小于50%的读段，获得过滤后的测序结果；第一比对模块，用于将所述过滤后的测序结果与第一数据库进行第一比对，获得第一比对结果；以及第二比对模块，用于将所述第一比对结果与第二数据库进行第二比对，获得第二比对结果；核酸序列确定模块，用于分析所述第二比对结果，确定待测样本的核酸序列。

本发明另一方面还提供一种计算核酸序列丰度及相对丰度的系统，包括：

核酸序列获取模块，用于利用前述确定核酸序列的系统获得所述核酸序列信息；计算模块，用于基于所述核酸序列信息，通过公式1计算待测样本中各物种的丰度，所述公式1为：

1

2

i，j为第二数据库中物种；sb_i为相对丰度。

本发明建立了一种高通量测序技术的用于辅助检测人或动物体内血液系统微生物的方法。该方法基于生物信息学分析手段与强大的数据库平台来对样本中的微生物种类进行鉴定，整个分析流程大约需要3-5天的时间。此方法弥补了常规培养检测方法检测周期长，微生物种类比较局限的缺点，可很好的应用于血液中微生物的检测，并且具有结果灵敏、特异性强等优点。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1 显示了根据本发明的一个实施例，确定核酸序列的方法的流程图。

具体实施方式

本发明中的数据库为已知基因组数据库，本发明中所使用的“第一”、“第二”等仅为方便描述指代，不能理解为指示或暗示相对重要性，也不能理解为有先后顺序关系。本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

术语“丰度”指的是在限定的位置或群落中一种生物体的常见性或稀有性。例如，可以通过一般地测量样品中该生物体的总存在量来确定所述丰度。

术语“相对丰度”指的是在限定的位置或群落中一种生物体相对于其它生物体的常见性或稀有性。例如，可以通过一般地测量样品中与生物体的总存在量相比的特定生物体的存在量来确定所述丰度。

本发明提供一种确定核酸序列的方法，包括，

在本发明的一个实施例中，本发明的步骤（1）还包括：（a）获取待测样本中的核酸，所述核酸由多个DNA片段组成，所述DNA片段来自断裂的基因组DNA和/或游离的DNA片段，并且所述DNA片段具有平末端；

（b）加碱基“A”至所述DNA片段的3’端，获得具有粘性末端A的DNA片段；

（c）对所述具有粘性末端A的DNA片段添加接头，获得接头连接片段；

（d）将接头连接片段进行PCR扩增，获得扩增产物；

（e）将扩增产物进行纯化，获得纯化后的PCR产物；

（f）对所述纯化后的PCR产物进行测序。

进一步的，所述DNA片段具有平末端是通过末端修复的方法制备。根据本发明的一个实施例，在将DNA片段进行末端修复前，可以进一步包括纯化DNA片段的步骤，由此，使得后续的末端修复易于进行。根据本发明的实施例，将DNA片段进行末端修复可以利用Klenow片段、T4 DNA聚合酶和T4多核苷酸激酶进行，其中，所述Klenow片段具有5’—3’聚合酶活性和3’ —5’聚合酶活性，但缺少5’ —3’外切酶活性。由此，能够方便准确地对DNA片段进行末端修复。根据本发明的实施例，还可以进一步包括对经过末端修复的DNA片段进行纯化的步骤，由此能够方便地进行后续处理。

进一步的，在经过末端修复的DNA片段的3’末端添加碱基A，以便获得具有粘性末端A的DNA片段。根据本发明的一个实施例，可以利用Klenow(3’ —5’exo-)，即具有3’ —5’外切酶活性的Klenow，在经过末端修复的DNA片段的3’末端添加碱基A。由此，能够方便准确地将碱基A添加到经过末端修复的DNA片段的3’末端。根据本发明的实施例，还可以进一步包括对具有粘性末端A的DNA片段进行纯化的步骤，由此能够方便地进行后续处理。

进一步的，对所述具有粘性末端A的DNA片段添加接头。

进一步的，可以使用热启动taq DNA聚合酶对经过转换的目的片段进行PCR扩增。根据本发明的实施例，热启动taq DNA聚合酶的种类不受特别限制，根据本发明的具体示例，热启动taqDNA聚合酶可以为r-taq聚合酶，由此PCR扩增效率高、用时少。

进一步的，测序技术可采用第二代测序技术或第三代测序技术进行。本领域人员可以理解的，所述测序平台可以采用Illumina的Hiseq2000/2500平台、Life Technologies的Ion Torrent平台、单分子测序平台等。在本发明的一个实施例中，采用贝瑞和康公司的NextSEQ CN 500测序平台。

在本发明的一个实施例中，所述样本来源于人或动物的血液。

在本发明的一个实施例中，所述过滤包括去除含不确定碱基比率大于1%的读段和/或碱基质量值不大于5的碱基数的比例不小于50%的读段。

在本发明的一个实施例中，所述步骤（3）还包括：将所述过滤后的测序结果与第一数据库进行第一比对，去除匹配的测序序列，获得非匹配的测序序列。

进一步的，所述第一数据库为宿主基因数据库；所述宿主为人或动物。进一步的，优选为人，更优选的，为人类基因组数据库。本发明通过第一比对，去除样本中宿主基因，得到非宿主的基因序列。

进一步的，所述比对包括但不限于BWA（Burrows-Wheeler Aligner）、SOAP，Bowtie等比对软件进行。

在本发明的一个实施例中，所述步骤（4）还包括：将所述第一比对结果与数据库进行第二比对，获得匹配的测序序列，去除非匹配的测序序列。

在本发明的一个实施例中，所述第二数据库为寄生的微生物数据库，优选为细菌数据库或病毒数据库至少之一。本发明通过第二比对，将非宿主的基因序列比对到细菌数据库和/或病毒数据，得到全面比对结果，从而确定样本中细菌或病毒的物种。

其中，在对细菌数据库进行比对时，为包载物种的唯一性和全面性，避免受到高度近缘序列的影响，每个物种择优选择遗传信息最多的数据。例如，对属于同一物种的不同亚种的取舍根据各亚种的丰度进行选择，选取丰度最高的亚种作为该物种的代表株。

而在对病毒数据库进行比对时，因病毒变异较大，挑选与宿主相关的病毒全基因组序列，保留不同的亚型，并且病毒株基因组的大小均在600bp以上。

本发明的另一方面，提供一种计算核酸序列丰度及相对丰度的方法，包括：

利用上述确定核酸序列的方法获得核酸序列信息；

基于所述核酸序列信息，通过公式1计算待测样本中各物种的丰度，所述公式1为：

1

2

i，j为第二数据库中物种；sb_i为相对丰度。

进一步的，通过计算该物种的相对丰度，在相对丰度很低的情况下，可认为该物种拷贝数很低，判断为正常。而判断相对丰度是否异常，需要划定一个阙值。该阙值可通过常规方法建立，例如建立一个正常样本和一个异常样本的数据库，分别计算两个数据库中样本的该物种的相对丰度，通过统计计算，从而得到相对丰度阙值。

本发明的另一方面提供一种确定核酸序列的系统，包括：

测序结果获得模块，用于获取待测样本中的核酸，对所述核酸进行测序，获得由多个测序序列构成的测序结果；

测序结果过滤模块，用于将所述测序结果进行过滤，所述过滤包括去除不确定碱基比例大于1%的读段和/或碱基质量值不大于5的碱基数的比例不小于50%的读段，获得过滤后的测序结果；

第一比对模块，用于将所述过滤后的测序结果与第一数据库进行第一比对，获得第一比对结果；以及

第二比对模块，用于将所述第一比对结果与第二数据库进行第二比对，获得第二比对结果；

核酸序列确定模块，用于分析所述第二比对结果，确定待测样本的核酸序列。

根据本发明的实施例，所述第一比对模块还包括第一筛选模块，所述第一筛选模块用于将所述过滤后的测序结果与参考序列进行第一比对，去除匹配的测序序列，获得非匹配的测序序列；以及

所述第二比对模块还包括第二筛选模块，所述第二筛选模块用于将所述第一比对结果与数据库进行第二比对，获得匹配的测序序列，去除非匹配的测序序列。

根据本发明的实施例，所述第一数据库为宿主基因数据库；所述第二数据库为细菌数据库或病毒数据库至少之一；所述宿主为人或动物。

前述对于本发明一方面或者任一具体实施方式中的确定核酸序列的方法的技术特征和优点的描述，同样适用于本发明这一方面的系统，在此不再赘述。

核酸序列获取模块，用于利用上述确定核酸序列的系统获得所述核酸序列信息；

计算模块，用于基于所述核酸序列信息，通过公式1计算待测样本中各物种的丰度，所述公式1为：

1

2

i，j为第二数据库中物种；sb_i为相对丰度。

前述对于本发明一方面或者任一具体实施方式中的构建核酸序列表达丰度图谱的方法的技术特征和优点的描述，同样适用于本发明这一方面的系统，在此不再赘述。

下面示例，仅用于解释本发明，而不能理解为对本发明的限制。除另有交待，以下实施例中涉及的未特别交待的试剂、序列（接头、标签和引物）、软件及仪器，都是常规市售产品或者开源的，比如购自贝瑞和康公司的NextSEQ CN 500测序平台建库相关试剂盒来进行文库构建等。

实施例一构建测序文库及获取测序数据

（一）样本制备

1、抽取宿主外周血5-10mL，存于EDTA抗凝管中，在4-6小时内对外周血进行分离；

2、按照QIAamp Circulating Nucleic Acid Kit提取试剂说明书，进行血浆游离DNA提取，Qubit(Invitrogen，the Quant-iT TM dsDNA HS Assay Kit)定量所提取的DNA，总量约为5～50ng。得到血浆游离DNA（cfDNA）。

（二）文库构建

1、末端修复

使用QIAquick PCR 纯化试剂盒进行末端修复产物纯化，回收的DNA溶于34 μL的水中。

2、末端加A

使用QIAquick PCR纯化试剂盒进行末端加“A” 产物纯化，回收的DNA溶于17 μL的水中。

3、接头连接

使用QIAquick PCR纯化试剂盒进行加接头产物纯化，回收的DNA溶于65 μL的超纯水中。

4、PCR扩增

使用QIAquick PCR纯化试剂盒进行PCR产物纯化，回收的DNA溶于30 μL的超纯水中。

（三）上机测序

采用Nextseq CN 500 PE75程序进行上机测序，测序实验操作按照制造商提供的操作说明书（参见杭州贝瑞和康基因诊断公司官方公布cBot）进行上机测序操作。

实施例二确定核酸序列，具体流程详见图1。

1、根据实施例一的方法获得测序数据。

2、过滤测序数据。去除不确定碱基比率大于1%的读段和/或碱基质量值不大于5的碱基数的比例不小于50%的读段，获得过滤后的测序结果。

3、第一比对。利用BWA比对软件，将过滤后的测序结果以宿主基因数据库为第一数据库进行比对，例如人类基因组（hg19），进行比对后，去除匹配的测序序列，即排除宿主的基因序列，获得非匹配的测序序列。

4、第二比对。利用BWA比对软件，将获得的非匹配的测序序列，与第二数据库进行第二比对，获得第二比对结果。第二数据库为细菌数据库或病毒数据库。

在比对的方式是全面比对，即含一条序列多处比对情形。对细菌数据库，为了保证物种的唯一性和全面性，以免受到高度近缘序列的影响，每个物种择优选择遗传信息最多的数据。而病毒变异较大，选择与宿主，例如人相关的病毒全基因组序列，保留不同的亚型，且病毒株基因组大小600bp以上。通过以上的标准，此方法能够提出可信的细菌或病毒物种的序列。

5、确定细菌或病毒物种。分析第二比对的结果，获得待测样本中的核酸序列，进而获得宿主样本中细菌或病毒物种的异常状态。

实施例三构建核酸序列表达丰度图谱

1、获得细菌或病毒物种的丰度。根据实施例二的方法获得细菌或病毒比对结果，根据公式1计算细菌或病毒物种的丰度，所述公式1为：

1

i为第二数据库中物种；N为比对到第二数据库的全部序列长度；Ni为比对到物种上的序列长度；Li为物种i的基因组长度；bi为丰度。

公式1为双重标准化的丰度：对于一个样本中某一细菌或病毒物种的丰度，即为每百万数据量中，来自于某物种每千（bp）长度的数据量多少（bp），以此消除了物种基因组长度和样本数据量的影响。

2、获得细菌或病毒物种的相对丰度。利用细菌或病毒比对结果，根据公式2计算细菌或病毒物种的相对丰度，所述公式2为：

2

i，j为第二数据库中物种；sb_i为相对丰度。

实施例四构建细菌或病毒丰度模型

进一步的，通过计算该物种的相对丰度，在相对丰度很低的情况下，可认为该物种拷贝数很低，从而判断为正常。判断相对丰度是否正常，需要划定一个阙值。该阙值可通过常规方法建立，例如建立一个正常样本和一个异常样本的数据库，分别计算两个数据库中样本的该物种的相对丰度，通过统计计算，从而得到相对丰度阙值。

实施例五、两例临床样本检测结果

1、根据实施例1的方法获得两例样本测序数据

2、丰度统计。以样本JKP0001细菌的丰度和相对丰度统计为例

根据血液样品中检测到的微生物，根据相对丰度值及丰度值判断宿主是否存在异常状态，从上表可以看出，所检测到的物种分别为：痤疮丙酸杆菌，短波单胞菌，表皮葡萄球菌，微球菌，戈登链球菌。

上面所述的实施例仅仅是对本发明的优选实施方式进行描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通工程技术人员对本发明技术方案所做出的各种变形和改进，均应落入本发明的权利要求书确定的保护范围内。

Claims

1.一种确定核酸序列的方法，其特征在于，包括，

（1）获取待测样本中的核酸，对所述核酸进行测序，获得由多个测序序列构成的测序结果；

（2）将所述测序结果进行过滤，所述过滤包括去除不确定碱基比例大于1%的读段和/或碱基质量值不大于5的碱基数的比例不小于50%的读段，获得过滤后的测序结果；

（3）将所述过滤后的测序结果与第一数据库进行第一比对，获得第一比对结果；以及

（4）将所述第一比对结果与第二数据库进行第二比对，获得第二比对结果；

（5）分析所述第二比对结果，确定待测样本的核酸序列。

2.根据权利要求1所述的方法，其特征在于，所述步骤（1）还包括：

（a）获取待测样本中的核酸，所述核酸由多个DNA片段组成，所述DNA片段来自断裂的基因组DNA和/或游离的DNA片段，并且所述DNA片段具有平末端；

（d）将接头连接片段进行PCR扩增，获得扩增产物；

（e）将扩增产物进行纯化，获得纯化后的PCR产物；

（f）对所述纯化后的PCR产物进行测序。

3.根据权利要求1所述的方法，其特征在于，所述步骤（3）还包括：将所述过滤后的测序结果与第一数据库进行第一比对，去除匹配的测序序列，获得非匹配的测序序列。

4.根据权利要求1所述的方法，其特征在于，所述步骤（4）还包括：将所述第一比对结果与第二数据库进行第二比对，获得匹配的测序序列，去除非匹配的测序序列。

5.根据权利要求1所述的方法，其特征在于，所述第一数据库为宿主基因数据库；所述第二数据库为细菌数据库或病毒数据库至少之一；所述宿主为人或动物。

6.一种计算核酸序列丰度及相对丰度的方法，其特征在于，包括：

利用权利要求1所述的方法获得核酸序列信息；

1

2

i，j为第二数据库中物种；sb_i为相对丰度。

7.一种确定核酸序列的系统，其特征在于，包括：

8.根据权利要求7所述的系统，其特征在于，所述第一数据库为宿主基因数据库；所述第二数据库为细菌数据库或病毒数据库至少之一；所述宿主为人或动物。

9.根据权利要求7所述的系统，其特征在于，所述第一比对模块还包括第一筛选模块，所述第一筛选模块用于将所述过滤后的测序结果与参考序列进行第一比对，去除匹配的测序序列，获得非匹配的测序序列；以及

10.一种计算核酸序列丰度及相对丰度的系统，其特征在于，包括：

核酸序列获取模块，用于利用权利要求7的系统获得所述核酸序列信息；

1

2

i，j为第二数据库中物种；sb_i为相对丰度。