CN110272984A

CN110272984A - 测序获取寄生虫核酸信息及对寄生虫分类的方法和系统

Info

Publication number: CN110272984A
Application number: CN201810205702.1A
Authority: CN
Inventors: 姬敬开; 麻锦敏
Original assignee: BGI Shenzhen Co Ltd
Current assignee: BGI Shenzhen Co Ltd
Priority date: 2018-03-13
Filing date: 2018-03-13
Publication date: 2019-09-24

Abstract

本发明涉及高通量测序领域，具体涉及一种高通量测序获取宿主上寄生虫核酸信息及对寄生虫分类的方法和系统。获取寄生虫核酸信息的方法包括：基于高通量测序，获取宿主血液中游离DNA的序列数据；参照宿主核酸序列，将所述宿主血液中游离DNA的序列数据中含有的宿主核酸数据过滤掉；将所述宿主血液中游离DNA的序列数据中含有的重复序列数据过滤掉；获得寄生虫核酸数据，从而获得宿主上寄生虫的核酸信息。在此基础上进一步提供了获取寄生虫核酸信息的系统，以及鉴定宿主上寄生虫的种类的方法和系统。本方法以及所提供的系统不局限于先验知识，提高了检测方法的通用性，而且灵敏度高，且快速。

Description

测序获取寄生虫核酸信息及对寄生虫分类的方法和系统

技术领域

本发明涉及高通量测序领域，具体涉及一种通过高通量测序获取宿主上寄生虫的核酸信息的方法和系统，以及通过高通量测序鉴定宿主上寄生虫的种类的方法和系统。

背景技术

寄生虫是一类依靠寄生宿主获取养分存活的一类微生物，目前已知导致人类疾病的寄生虫主要包括原生动物类(Protozoa)和蠕虫类(Helminths)。寄生虫种类繁多，不同寄生虫感染会引发各种各样的临床表型，对于不同寄生虫的感染，临床医生往往需要根据其临床表型假定的去判断有可能感染某种寄生虫，然后再做相应验证性的分类鉴定比如病原学显微镜分类鉴定、免疫学分类鉴定、PCR(Polymerase Chain Reaction)分类鉴定等。但是这个过程首先都需要一定的先验知识，对临床医生的临床知识经验也有很高的要求，而且这些验证性的假设并不一定是准确的，甚至某些罕见的寄生虫感染可能进行多次验证也未必能够做准确的分类鉴定。

测序技术的快速发展，测序成本以及所需时间不断下降，高通量测序(又称下一代测序，NGS)的技术应用也越来越广泛。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一，解决完全依靠经验判定寄生虫种类的局限性，同时还能够提高检测的效率。为此，本发明提出一种通过高通量测序获取宿主上寄生虫的核酸信息的方法和系统，以及在此基础上，进一步提出了一种通过高通量测序鉴定宿主上寄生虫的种类的方法和系统。

本申请是基于发明人对以下事实和问题的发现和认识作出的：

由于寄生虫是寄生在宿主体内，并依赖于宿主提供的养分来存活，而这个过程必然会涉及到寄生虫与宿主之间的物质交换。寄生虫在与宿主交换过程中都会主动或者被动的释放出一些游离的核酸序列，而这些核酸序列是可以在人的循环系统比如血液，尿液中检测到的，通过对这些游离核酸序列进行NGS(Next Generation Sequencing)测序可以实现对寄生虫的分类鉴定。这种诊断方法不依赖于先验知识，从而极大的便利了寄生虫感染的鉴定，增加了寄生虫感染检测方法的通用性和实用性。同时，该种方法可以实现对寄生虫感染的早期筛查诊断，即使没有明显的临床表型也是可以通过游离核酸测序来进行寄生虫感染的分类鉴定，从而实现了早筛查，早诊断，早治疗。

根据本发明的一方面，本发明提出了一种通过高通量测序获取宿主上寄生虫的核酸信息的方法，包括：

基于高通量测序，获取宿主血液中游离DNA的序列数据；

参照宿主核酸序列，将所述宿主血液中游离DNA的序列数据中含有的宿主的核酸数据过滤掉；

将所述宿主血液中游离DNA的序列数据中含有的重复序列数据过滤掉；

获得寄生虫核酸数据，从而获得宿主上寄生虫的核酸信息。

根据本发明的实施例，以上通过高通量测序获取宿主上寄生虫的核酸信息的方法可以进一步附加如下技术特征：

根据本发明的一些实施例，所述宿主为人或动物。

根据本发明的一些实施例，所述宿主核酸序列来源于NCBI中的refseq数据库和/或UCSC中的数据库。

根据本发明的一些实施例，所述人的核酸序列选自人类基因组序列hg19，UCSC中的refMrna数据库，和/或炎黄数据库。

根据本发明的一些实施例，采用SNAP-aligner软件将宿主的核酸数据过滤掉。

根据本发明的一些实施例，所述重复序列包括简单重复序列和PCR扩增得到的重复序列。宿主血液中游离DNA的序列数据中去除掉宿主的核酸数据后，还有一些简单重复序列以及在高通量测序过程中通过PCR扩增产生的重复序列。这些通过PCR扩增产生的重复序列即为完全相同的reads(读段)，这些相同的读段在后续的处理中会重复的消耗计算资源，因而可以根据常规技术，对于这些PCR扩增产生的重复序列只需要保留一条即可。

根据本发明的一些实施例，采用PRINSEQ软件将简单重复序列去除。宿主血液中游离DNA的序列数据中去除掉宿主的核酸数据后，还有一些简单重复序列，这些简单重复序列会对宿主上寄生虫的核酸信息的获得，以及后续对于这些寄生虫进行分类的过程产生干扰。因此，使用PRINSEQ软件将这些简单重复序列去除，可以保证结果的准确性。

根据本发明的一些实施例，基于高通量测序，获取宿主外周血中游离DNA的序列数据。

根据本发明的一些实施例，对所述游离DNA进行片段化处理后，再基于所述高通量测序，获取宿主血液中游离DNA的序列数据。

根据本发明的一些实施例，采用Covaris对所述游离DNA进行片段化处理。

根据本发明的一些实施例，所述游离DNA进行片段化处理后的长度为150bp-200bp。

根据本发明的一些实施例，所述通过高通量测序获取宿主上寄生虫的核酸信息的方法进一步包括：将高通量测序所得到的数据进行质量控制，从而去除质量低的读段以及含有一定比例的碱基信息无法确定的读段。

根据本发明的一些实施例，所述含有一定比例的碱基信息无法确定的读段为无法确定碱基信息的碱基比例占所述读段的5％以上。

根据本发明的一些实施例，采用SOAP nuke软件对获取到的宿主中的游离DNA的序列数据进行质量控制。

根据本发明的另一方面，本发明还提出了一种通过高通量测序获取宿主上寄生虫的核酸信息的系统，包括：

高通量测序模块，所述高通量测序模块基于高通量测序，获取宿主血液中游离DNA的序列数据；

宿主序列过滤模块，所述宿主序列过滤模块基于宿主核酸序列，将所述宿主血液中游离DNA的序列数据中含有的宿主的序列数据过滤掉，所述宿主序列过滤膜块同所述高通量测序模块相连；

重复序列过滤模块，所述重复序列过滤模块用于将所述宿主血液中游离DNA的序列数据中含有的重复序列数据过滤掉；

寄生虫核酸信息收集模块，所述寄生虫核酸信息收集模块用来获得寄生虫核酸数据，从而获得宿主上寄生虫的核酸信息，所述寄生虫核酸信息收集模块同所述宿主序列过滤模块和所述重复序列过滤模块相连。

根据本发明的实施例，以上所述通过高通量测序分离获取宿主上寄生虫的核酸信息的系统，可以进一步具有如下附加技术特征：

根据本发明的一些实施例，所述宿主为人或动物。

根据本发明的一些实施例，所述人的核酸序列选自hg19，UCSC中的refMrna数据库，和/或炎黄数据库。

根据本发明的一些实施例，采用SNAP-aligner软件将所述宿主的核酸数据过滤掉。

根据本发明的一些实施例，所述重复序列包括简单重复序列和PCR扩增得到的重复序列。

根据本发明的一些实施例，采用PRINSEQ软件将所述简单重复序列去除。

根据本发明的一些实施例，对所述游离DNA进行片段化处理后，再利用所述高通量测序模块获取宿主血液中游离DNA的序列数据；优选采用Covaris对所述游离DNA进行片段化处理。

根据本发明的一些实施例，所述游离DNA经过片段化处理后的长度为150bp-200bp。

根据本发明的一些实施例，所述游离DNA的浓度至少为30ng/μL。

根据本发明的一些实施例，以上所述通过高通量测序分离获取宿主上寄生虫的核酸信息的系统，进一步包括：低质量数据过滤模块，所述低质量数据过滤模块与所述高通量测序模块相连，所述低质量数据过滤模块用于将高通量测序所得到的数据进行质量控制，从而去除质量低的读段以及含有一定比例的碱基信息无法确定的读段。

根据本发明的一些实施例，采用SOAP nuke软件对所述高通量测序所得到的数据进行质量控制。

根据本发明的另一方面，本发明提出了一种通过高通量测序鉴定宿主上寄生虫的种类的方法，包括以上通过高通量测序获取宿主上寄生虫的核酸信息的方法，进一步包括：

将所述宿主血液中游离DNA的序列数据参照寄生虫参考数据库中的序列进行分类后，再将所述宿主血液中游离DNA的序列数据中含有的宿主的核酸数据以及重复序列数据过滤掉；

将所述寄生虫核酸数据分别同寄生虫参考序列数据库和NCBI中的NT综合数据库中的序列进行比对，汇总，判定寄生虫的种类；

其中所述寄生虫参考数据库包括原生动物数据库和蠕虫类数据库。

本发明基于NGS技术对宿主血液中的游离核酸进行测序，并基于测序结果对寄生虫感染进行分类鉴定的方法，弥补了已有方法的缺陷，为寄生虫感染的诊断提供了新的方法。

根据本发明的实施例，以上通过高通量测序鉴定宿主上寄生虫的种类的方法可以进一步附加如下技术特征：

根据本发明的一些实施例，所述原生动物数据库来源自NCBI refseq中的protozoa数据库，所述蠕虫类数据库来自于WormBase ParaSite数据库中的线虫动物门(nmatodee)和扁形动物门(platyhelminth)。

根据本发明的一些实施例，采用Kraken分类软件对所述宿主血液中游离DNA的序列数据进行分类。

根据本发明的一些实施例，利用blastn将所述寄生虫核酸数据分别同所述寄生虫参考数据库和NCBI中的NT综合数据库进行比对。

根据本发明的又一方面，本发明还提出了一种通过高通量测序鉴定宿主上寄生虫的种类的系统，所述系统包括以上实施例中所述通过高通量测序获取宿主上寄生虫的核酸信息的系统，进一步包括：

核酸序列分类模块，所述核酸序列分类模块用于将所述宿主血液中游离DNA的序列数据参照寄生虫参考数据库中的序列进行分类，所述核酸序列分类模块同所述高通量测序模块相连；

寄生虫种类确定模块，所述寄生虫种类确定模块同所述寄生虫核酸信息收集模块相连，所述寄生虫种类确定模块用于将所述寄生虫核酸数据分别同寄生虫参考序列数据库和NCBI中的NT综合数据库中的序列进行比对，汇总，判定寄生虫的种类；

其中，所述寄生虫参考数据库包括原生动物数据库和蠕虫类数据库。

根据本发明的实施例，以上通过高通量测序鉴定宿主上寄生虫的种类的系统可以进一步附加如下技术特征：

根据本发明的一些实施例，以上通过高通量测序鉴定宿主上寄生虫的种类的系统中，所述原生动物数据库来源于NCBI refseq中的protozoa数据库，所述蠕虫类数据库来源于WormBase ParaSite数据库中的线虫动物门(nmatodee)和扁形动物门(platyhelminth)。

根据本发明的一些实施例，以上通过高通量测序鉴定宿主上寄生虫的种类的系统中，利用Kraken分类软件对所述宿主血液中游离DNA的序列数据进行分类。

根据本发明的一些实施例，以上通过高通量测序鉴定宿主上寄生虫的种类的系统中，利用blastn将所述寄生虫核酸数据分别同所述寄生虫参考数据库和NCBI中的NT综合数据库进行比对。

根据本发明的另一方面，本发明提供了系统在获取宿主上寄生虫的核酸信息中的用途，所述系统通过高通量测序获取宿主上寄生虫的核酸信息，所述通过高通量测序获取宿主上的寄生虫的核酸信息的方法包括以上实施例所述的方法。

根据本发明的又一方面，本发明提供了系统在鉴定宿主上寄生虫的种类中的用途，其特征在于，所述系统通过高通量测序鉴定宿主上寄生虫的种类，所述通过高通量测序鉴定宿主上寄生虫的种类的方法包括以上实施例所述的方法。

本发明所取得的有益效果为：本发明首次表述了通过NGS技术对宿主血液中游离核酸进行测序，通过去除宿主的核酸数据以及简单重复序列和高通量测序过程中扩增产生的重复序列，实现了宿主中寄生虫核酸信息的获得。在此基础上进一步实现了对寄生虫的分类鉴定。相对于已有的方法，本方法不局限于先验知识，提高了检测方法的通用性，为寄生虫的分类鉴定提供了新的方法借鉴。

附图说明

图1为根据本发明的实施例提供的通过高通量测序对寄生虫进行分类鉴定的流程图。

图2为根据本发明的实施例提供的通过高通量测序获取宿主上寄生虫的核酸信息的系统的示意图。

图3为根据本发明的实施例提供的通过高通量测序获取宿主上寄生虫的核酸信息的系统的示意图。

图4为根据本发明的实施例提供的通过高通量测序获取宿主上寄生虫的核酸信息的系统的示意图。

图5为根据本发明的实施例提供的通过高通量测序鉴定宿主上寄生虫的的种类的系统的示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

寄生虫是一类依靠寄生宿主获取养分存活的一类微生物，目前已知导致人类疾病的寄生虫主要包括原生动物类和蠕虫类。由于寄生虫种类繁多，对于寄生虫的分类鉴定主要有病原学显微镜方法、免疫学方法、以及PCR方法，但是这些方法都需要先验知识以及假设，然后再进行特异性的验证，在通用性上有很大的局限。现有基于病原学显微镜、免疫学以及PCR的分类鉴定方法，都需要一定的先验知识以及假设判断，通用性较差，同时在分类的准确性以及敏感性上也有一定的缺陷，而基于外周血游离核酸测序的方法却可以弥补已有方法的不足。

本发明技术结合高通量测序，进行的是不依赖于先验知识的寄生虫分类鉴定，相比已有的分类鉴定技术，有着更好的通用性，为寄生虫的分类鉴定提供了新的方法借鉴。

通过高通量测序获取宿主上寄生虫的核酸信息的方法

根据本发明的一方面，本发明提供了一种通过高通量测序获取宿主上寄生虫的核酸信息的方法，包括：基于高通量测序，获取宿主血液中游离DNA的序列数据；参照宿主核酸序列，将所述宿主血液中游离DNA的序列数据中含有的宿主的核酸数据过滤掉；将所述宿主血液中游离DNA的序列数据中含有的重复序列数据过滤掉；获得寄生虫核酸数据，从而获得宿主上寄生虫的核酸信息。根据以上实施例，通过从宿主血液中获得总的DNA，进行高通量测序，然后根据已有的宿主的核酸数据库将测序得到的数据中的宿主的序列数据以及重复序列数据等过滤掉，剩余的核酸数据即为寄生虫的核酸序列数据。通过获得宿主上寄生虫的核酸信息，可以用于对现有的寄生虫的数据进行补充，也可以通过获得的该数据，将其比对到已有的寄生虫的核酸数据库上，实现对宿主上寄生虫进行分类，从而可以进一步应用于疾病的诊断和治疗中。而且，通过借助于高通量测序技术获取宿主上寄生虫的核酸信息，准确性和灵敏度更高，而且操作简单快速，可以实现准确高效获得宿主上寄生虫的核酸信息。

在本发明中，外周血为骨髓之外的血液，是被造血器官释放入循环系统参与循环的血，区别于造血器官内的未成熟的血细胞或者未被释放入循环的血细胞。从外周血血液中提取DNA分析获取寄生虫的信息，可以准确获得已经影响到宿主的循环系统的寄生虫的信息，更加具有针对性和有效性。

根据本发明的实施例，所述宿主的核酸序列数据可以来源于已有的核酸数据库。包括但不限于NCBI中的refseq数据库、UCSC中的数据库、或者是其它有高影响文章支持的参考数据库，这些数据通常经过专人检查筛选，数据质量也很高，具有普遍的认可度。所述宿主可以是人或者是其它动物。在对宿主上的核酸信息进行获得的过程中，根据相应的宿主，从对应的数据库查找相应的宿主的核酸序列的信息。具体而言，当利用高通量测序分离获取寄生在人体上的寄生虫的核酸序列的信息时，可以从UCSC(University ofCaliforniaSnata Cruz)中的refMrna数据库、或者炎黄数据库(YH)中进行查找，也可以直接参考人类基因组序列hg19。hg19是UCSC发布的人类基因组信息。其中，hg19是人的基因组参考序列，refMrna是人的mRNA参考序列，它们均来源于UCSC数据库(ftp://hgdownload.cse.ucsc.edu/goldenPath/hg19/bigZips/)，炎黄数据库指的是炎黄基因组，参考序列引自于文献”De novo assembly of a haplotype-resolved human genom”Cao,H.,etal(2015).Nat Biotechnol.。

根据本发明的实施例，采用SNAP-aligner软件将宿主的核酸数据过滤掉。SNAP-aligner也称为SNAP Sequence Aligner，可以通过如下网址获得：http://snap.cs.berkeley.edu/，通过该软件可以将宿主的核酸数据过滤掉。

根据本发明的实施例，所述重复序列包括简单重复序列和通过PCR扩增得到的重复序列。

本发明中所述简单重复序列一般为串联重复短序列，一般重复序列长度为1-6bp，如(CA)n,(AT)n,(GGC)n等重复序列。该重复序列可以利用PRINSEQ软件将简单重复序列去除。

在本发明中通过PCR扩增得到的重复序列，即在宿主的外周血中分离获得总的DNA的过程中，利用PCR扩增技术在获取总的DNA过程中，通过扩增产生的重复序列，具体指的是在PCR的过程中通过扩增产生的完全相同的序列，对于这种序列可以仅保留一条，以免消耗计算资源，增大工作量。

根据本发明的实施例，所述方法包括将高通量测序所得到的数据进行质量控制，从而去除质量值低的读段以及含有较多碱基信息无法确定的读段。根据本发明的实施例，将测序质量低的读段(reads)以及含有较多碱基信息无法确定的读段去除，可以提高测序的质量，从而进一步获得高质量的寄生虫核酸数据信息。根据本发明的实施例，可以采用SOAPnuke软件对所述高通量测序所得到的数据进行质量控制，采用SOAP nuke软件可以将无法确定碱基信息的碱基比例占所述读段的10％以上的读段去除。SOAP nuke是一款针对FASTQ文件的过滤软件，主要用于去除含adapter的reads，可以有效的去除低质量的reads以及含N(表示无法确定碱基信息)的比例大于5％的reads。

根据本发明的实施例，采用Covaris对DNA进行片段化处理。Covaris上的传感器可以将声波能量聚焦在样品上，然后通过等温、非接触等方式对样品进行声学匀浆、分解等，从而可以实现对DNA进行片段化处理。根据本发明的实施例，将所述DNA形成150-200bp的片段。

通过高通量测序获取宿主上寄生虫的核酸信息的系统

根据本发明的另一方面，本发明提供了一种通过高通量测序获取宿主上寄生虫的核酸信息的系统。

根据本发明的一个实施例，如图2和3所示，所述通过高通量测序获取宿主上寄生虫的核酸信息的系统包括：

宿主序列过滤模块，所述宿主序列过滤模块基于宿主核酸序列，将所述宿主血液中游离DNA的序列数据中含有的宿主的序列数据过滤掉，所述宿主序列过滤模块同所述高通量测序模块相连；

重复序列过滤模块，所述重复过滤模块用于将所述宿主血液中游离DNA的序列数据中含有的重复序列数据过滤掉；

寄生虫核酸信息收集模块，所述寄生虫核酸信息收集模块用于获得寄生虫核酸数据，从而获得宿主上寄生虫的核酸信息，所述寄生虫核酸信息收集模块同所述宿主序列过滤模块和所述重复序列过滤模块相连。

根据本发明的实施例，所述宿主序列过滤模块和所述重复序列过滤模块可以设置为一个模块，即通过一个模块同时实现宿主序列过滤以及重复序列的过滤，相应的可以称为宿主序列和重复序列过滤模块；也可以设置为两个模块，即宿主序列过滤模块和重复序列过滤模块，这两个模块的位置和连接关系以及作用先后等均不具有先后顺序。例如如图2所示，所述宿主序列过滤模块和所述重复序列过滤模块相连，所述重复序列过滤模块和所述寄生虫核酸信息收集模块相连，相应的，在利用所述系统获取宿主上寄生虫的核酸信息的过程中，可以先利用宿主序列过滤模块去除掉宿主序列，再利用重复序列过滤模块去除掉重复序列。当然也可以是，所述宿主序列过滤模块和所述重复序列过滤模块相连，所述宿主序列过滤模块和所述寄生虫核酸信息收集模块相连(附图未显示)，相应的，在利用所述系统获取宿主上寄生虫的核酸信息的过程中，可以先利用重复序列过滤模块去除掉重复序列，再利用宿主序列过滤模块去除掉宿主序列。再例如，如图3所示，所述宿主序列过滤模块和所述重复序列过滤模块分别同所述寄生虫核酸信息收集模块相连，所述宿主序列过滤模块和所述重复序列过滤模块之间并无关联；相应的，在利用所述系统获取宿主上寄生虫的核酸信息的过程中，可以选择利用宿主序列过滤模块去除宿主序列，利用重复过滤模块去除重复序列，再利用寄生虫核酸信息收集模块收集寄生虫的核酸信息。当然附图3所示的系统，仅仅用来说明所述宿主序列过滤模块和所述重复序列过滤模块之间并无直接关联，在利用所述系统获取寄生虫核酸信息时，本领域技术人员完全可以根据实际需要在过滤掉宿主序列后，紧接着过滤掉重复序列；或者在过滤掉重复序列后，紧接着过滤掉宿主序列，从而获得寄生虫的核酸信息。

根据本发明的一个实施例，所述通过高通量测序获取宿主上寄生虫的核酸信息的系统如图4所示，进一步包括：低质量数据过滤模块，所述低质量数据过滤模块与所述高通量测序膜块相连，所述低质量数据过滤模块与所述宿主序列过滤模块或者与所述重复序列过滤模块相连，所述低质量数据过滤膜块用于将所述高通量测序所得到的数据进行质量控制，从而去除质量低的读段以及含有一定比例的碱基无法确定的读段。

通过高通量测序鉴定宿主上寄生虫的种类的方法

根据本发明的又一方面，本发明提供了一种通过高通量测序鉴定宿主上寄生虫的种类的方法，所述方法包括：从所述宿主的外周血中分离获得总的DNA；对提取的DNA进行片段化处理，然后进行高通量测序；将所述高通量测序所得到的数据参照已有的寄生虫参考数据库中的序列进行分类后，再将所述高通量测序所得的数据中的含有的宿主的序列数据以及重复序列数据过滤掉；获得寄生虫核酸数据，从而获得宿主上寄生虫的核酸信息；将所述寄生虫核酸数据同已有的寄生虫参考序列数据库中的序列进行比对，汇总，判定寄生虫的种类。

总之本发明借助于高通量测序获取宿主上寄生虫的核酸信息的方法，在此基础上，进一步利用该寄生虫的核酸信息实现对寄生虫的种类进行鉴定，具有以下几个方面的显著优势：第一，通常二代测序数据读段都很短，由于短读段引起的分类错误很容易产生假阳性结果，本发明通过去除简单重复序列、去除PCR重复序列、以及不同参考数据库的使用，在降低假阳性的同时提高了数据处理效率，从而实现从海量测序数据中获得寄生虫的分类结果；第二，二代测序数据量庞大，本发明通过优化组合不同分析工具实现了对二代测数据库的高效快速处理，从而可以在短时间内完成基于二代测序数据寄生虫的分类鉴定；第三，本发明整理了全面的寄生虫参考数据，解决了现有技术中并未有专门的寄生虫的数据库的缺陷。由此采用以上方法，利用高通量测序，相比已有的分类鉴定技术，有着更好的通用性，为寄生虫的分类鉴定提供了新的方法借鉴，而且由于不依赖于先验知识的寄生虫分类鉴定，其灵敏度更高，适用性更广，可以准确有效的实现对寄生虫进行分类。

通过高通量测序鉴定宿主上寄生虫的种类的系统

根据本发明的另一方面，本发明提出了一种通过高通量测序鉴定宿主上寄生虫的种类的系统，所述系统包括：高通量测序模块，所述高通量测序模块基于高通量测序，获取宿主血液中游离DNA的序列数据；核酸序列分类模块，所述核酸序列分类模块用于将所述宿主血液中游离DNA的序列数据参照寄生虫参考数据库中的序列进行分类，所述核酸序列分类模块同所述高通量测序模块相连；宿主序列过滤模块，所述宿主序列过滤模块基于宿主核酸序列，将所述宿主血液中游离DNA的序列数据中含有的宿主的序列数据过滤掉，所述宿主序列过滤膜块同所述高通量测序模块相连；重复序列过滤模块，所述重复序列过滤模块用于将所述宿主血液中游离DNA的序列数据中含有的重复序列数据过滤掉；寄生虫核酸信息收集模块，所述寄生虫核酸信息收集模块用来获得寄生虫核酸数据，从而获得宿主上寄生虫的核酸信息，所述寄生虫核酸信息收集模块同所述宿主序列过滤模块和所述重复序列过滤模块相连；寄生虫种类确定模块，所述寄生虫种类确定模块同所述寄生虫核酸信息收集模块相连，所述寄生虫种类确定模块用于将所述寄生虫核酸数据分别同寄生虫参考序列数据库和NCBI中的NT综合数据库中的序列进行比对，汇总，判定寄生虫的种类；其中，所述寄生虫参考数据库包括原生动物数据库和蠕虫类数据库。

利用以上系统，可以实现对寄生虫通用性的鉴定分类，提高鉴定分类的准确性和敏感性，从而可以克服已有方法的缺陷，适用性更广，可以作为寄生虫分类鉴定的一种新的有效的方法。

下面将结合实施例对本发明的方案进行解释。本领域技术人员将会理解，下面的实施例仅用于说明本发明，而不应视为限定本发明的范围。实施例中未注明具体技术或条件的，按照本领域内的文献所描述的技术或条件或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者，均为可以通过市购获得的常规产品。

以下实施例根据本发明记载的方法提供了如何通过高通量测序获取宿主上寄生虫的核酸信息，以及通过高通量测序对宿主上的寄生虫进行分类鉴定的方法，如图1所示。根据图1的流程图，可以看出：首先通过高通量测序获取到宿主血液中的数据作为原始，然后进行质量控制，从而去除低质量的读段；然后与寄生虫数据库进行比对，从而获得比对后的读段；将比对后的读段与宿主数据库进行比对，去除宿主序列数据，再去除重复读段以获得准确的寄生虫的核酸信息；最后将获得的寄生虫的核酸信息与综合性强的综合数据库进行比对，通过分类汇总得到最终的结果。

实施例一

按照如下方法从人类的外周血中分离获得游离DNA，并进行高通量测序。

1、选取实验样本，所述实验样本来自于合作医院采集的外周血样本。

包括临床上鉴定为棘球蚴病感染样本25例以及阴性对照样本12例。所述阴性对照样本即未被棘球蚴病感染的样本。其中，棘球蚴病是人感染棘球绦虫的幼虫(棘球蚴)所导致的慢性寄生虫病。

2、从外周血血浆中提取游离DNA(cfDNA)。

3、用Agilent 2100Bioanalyzer(Agilent)对提取的DNA进行浓度和质量的检测。

4、用Covaris E210(Covaris)将2μg的DNA进行片段化处理：

片段化处理用的是Covaris E210打断仪，目标长度为150bp-200bp，相关参数如下：Duty/cycle:20，Intensity:5，Cycle/burst:200，time*cycle:50s*2。

5、按照BGISEQ-500的标准流程处理，并进行高通量测序。

利用BGISEQ-500高通量基因测序仪，按照BGISEQ-500说明书中记载的标准流程对片段化的DNA序列进行处理，并进行高通量测序，得到总的高通量测序数据。

实施例二

本实施例按照如下方法对测序得到的测序数据进行生物分析，从而确定寄生虫的种类。

1、寄生虫参考数据库构建。目前已知感染人的寄生虫主要有原生动物类(Protozoa)和蠕虫类(Helminths)两大类，所以基于这两大类进行数据库的构建。原生动物类参考序列来源于NCBI refseq中的protozoa数据库，蠕虫类来源于WormBase ParaSite数据库。然后将两类数据的参考序列汇总在一起，构建出寄生虫参考序列数据库。

2、将实施例一中通过高通量测序所得数据用SOAPnuke(-l 15-q 0.2-n 0.05)进行质控，去掉质量值低的以及含有较多N的测序reads。

其中，SOAPnuke括号里面所示即各项参数，分别表示-1 15意为质量值最低设置为15，-q 0.2意为低质量的部分不能超过读段长度的20％，-n 0.05意为读段中碱基为N的比例不能超过5％。由于本发明的方法主要目的在于进行寄生虫的分类鉴定，不是为了进行变异分析等对序列质量要求较高的分析，所以质控阈值设定相对宽松。

3、用基于kmer的分类工具Kraken根据上述参考数据库以及质控后的测序数据对数据进行快速分类。分类完了以后将所有属于寄生虫的reads提取出来用于下一步分析。

其中，Kraken是基于kmer的分类工具，kmer是一个长度为K的DNA序列，K为正整数。Kraken可以在如下网址中下载获得，http://ccb.jhu.edu/software/kraken/，该软件处理速度快，在实验过程中设定Kmer的长度为31。

利用以上寄生虫的数据库，采用Kraken可以快速高效的将候选寄生虫序列分离出来，是一个初筛的过程。初筛选用Kraken作为分类工具，在顾及敏感性的同时，保证了处理海量数据的时间效率。

然后对分离出来的候选数据按照如下过程进行比对。

4、利用SNAP-aligner软件过滤掉人的序列信息

为了尽可能提高分类的准确性，对分类结果进行进一步过滤，由于采集的是人的外周血样本，已分类的结果很有可能混杂有人的reads，所以首先对人的序列进行过滤。过滤使用的工具是SNAP-aligner。SNAP-aligner是一款快速分类工具，可在如下网址中下载(http://snap.cs.berkeley.edu/)，所选用的关键参数-s即seed size为20，-d参数为即MaxDist为14，指的是设定的读段和参考数据之间的距离不超过14。

所用的参考序列是人的hg19(UCSC)，炎黄数据库(Cao,H.et al.,2015)，以及refMrna(UCSC)。

5、重复序列去除

由于数据中可能存在一些简单重复序列，这些序列会影响分类的准确性，所以还需要进一步将这些序列过滤掉。

利用PRINSEQ软件过滤去除掉简单重复序列。其中PRINSEQ主要的参数是这两个-lc_method dust-lc_threshold 7，即去除简单重复序列所选用的方法为dust，所设定的阈值为7。

同时由于实验过程中有PCR的步骤，并引入重复序列，所以还需要将通过PCR扩增产生的重复序列进行去除。

6、剩余的核酸序列即为宿主中寄生虫的序列信息，将寄生虫的序列信息用blastn分别和上述的参考数据库以及更为综合的数据库nt库(NCBI)进行比对，并将两个比对结果进行比较。最后获得和寄生虫数据库高质量的比对结果。

本发明实施例选用Kraken作为分类工具，在顾及到敏感性的同时，保证了处理海量数据的时间效率。经过初筛后，数据量减少，再用速度较慢blastn工具进行处理，可以保证准确性。blastn工具更为准备但是分析过程更慢，利用blastn工具将候选寄生虫序列和初筛用的寄生虫数据库进行比对，可以进一步保证筛选的结果的准确性。

同时利用blastn工具将候选寄生虫序列和NCBI中的NT综合数据库进行比对，目的是为了去除潜在的假阳性结果。因为我们之前构建的寄生虫数据库和NCBI中的NT综合数据库相比，只有一小部分的重合关系，而NCBI中的NT综合数据库是一个非冗余的数据库，具有广泛但不精细的特点。用我们构建的寄生虫的数据库进行初筛保证了系统的敏感性，再用NCBI中的NT综合数据库则可以帮助去除由于污染等原因所造成的假阳性的数据。

7、汇总高质量的寄生虫比对结果，并基于NCBI Taxonomy数据库对比对结果进行统计汇总，并获得最终的寄生虫分类结果。

利用以上方法，经过分析：所有12例阴性对照样本基于本发明实施例记载的方法鉴定都为阴性；所有25例棘球蚴病感染样本基于本发明实施例记载的方法鉴定都为阳性。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接或彼此可通讯；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种通过高通量测序获取宿主上寄生虫的核酸信息的方法，其特征在于，包括：

基于高通量测序，获取宿主血液中游离DNA的序列数据；

获得寄生虫核酸数据，从而获得宿主上寄生虫的核酸信息。

2.根据权利要求1所述的方法，其特征在于，所述宿主为人或动物；

任选地，所述宿主核酸序列来源于NCBI中的refseq数据库和/或UCSC中的数据库；

任选地，所述人的核酸序列选自人类基因组序列hg19，UCSC中的refMrna数据库，和/或炎黄数据库；

任选地，采用SNAP-aligner软件将所述宿主的核酸数据过滤掉；

任选地，所述重复序列包括简单重复序列和PCR扩增得到的重复序列；

任选地，采用PRINSEQ软件将所述简单重复序列去除；

任选地，基于高通量测序，获取宿主外周血中游离DNA的序列数据；

任选地，对所述游离DNA进行片段化处理后，再基于所述高通量测序，获取宿主血液中游离DNA的序列数据；优选采用Covaris对所述游离DNA进行片段化处理；优选所述游离DNA进行片段化处理后的长度为150bp-200bp；优选所述游离DNA的浓度至少为30ng/μL。

3.根据权利要求1所述的方法，其特征在于，所述方法进一步包括：

将获取到的宿主中的游离DNA的序列数据进行质量控制，从而去除质量低的读段以及含有一定比例的碱基信息无法确定的读段；

任选地，所述含有一定比例的碱基信息无法确定的读段为无法确定碱基信息的碱基比例占所述读段的5％以上；

任选地，采用SOAP nuke软件对获取到的宿主中的游离DNA的序列数据进行质量控制。

4.一种通过高通量测序获取宿主上寄生虫的核酸信息的系统，其特征在于，包括：

5.根据权利要求3所述的系统，其特征在于，所述宿主为人或动物；

任选地，所述人的核酸序列选自hg19，UCSC中的refMrna数据库，和/或炎黄数据库；

任选地，采用SNAP-aligner软件将所述宿主的核酸数据过滤掉；

任选地，采用PRINSEQ软件将所述简单重复序列去除；

任选地，对所述游离DNA进行片段化处理后，再利用所述高通量测序模块获取宿主血液中游离DNA的序列数据；优选采用Covaris对所述游离DNA进行片段化处理；

优选所述游离DNA经过片段化处理后的长度为150bp-200bp；

优选所述游离DNA的浓度至少为30ng/μL。

6.根据权利要求4所述的系统，其特征在于，所述系统进一步包括：

低质量数据过滤模块，所述低质量数据过滤模块与所述高通量测序模块相连，所述低质量数据过滤模块用于将高通量测序所得到的数据进行质量控制，从而去除质量低的读段以及含有一定比例的碱基信息无法确定的读段；

7.一种通过高通量测序鉴定宿主上寄生虫的种类的方法，其特征在于，包括权利要求1-3任一项所述的方法，进一步包括：

将所述宿主血液中游离DNA的序列数据参照寄生虫参考数据库中的序列进行分类后，再将所述宿主血液中游离DNA的序列数据中含有的宿主的核酸数据以及重复序列数据过滤掉，

将所述寄生虫核酸数据分别同寄生虫参考序列数据库和NCBI中的NT综合数据库中的序列进行比对，汇总，判定寄生虫的种类，

其中所述寄生虫参考数据库包括原生动物数据库和蠕虫类数据库；

任选地，所述原生动物数据库来源自NCBI refseq中的protozoa数据库，所述蠕虫类数据库来自于WormBase ParaSite数据库中的线虫动物门(nmatodee)和扁形动物门(platyhelminth)；

任选地，利用Kraken分类软件对所述宿主血液中游离DNA的序列数据进行分类；

任选地，利用blastn将所述寄生虫核酸数据分别同所述寄生虫参考数据库和NCBI中的NT综合数据库进行比对。

8.一种通过高通量测序鉴定宿主上寄生虫的种类的系统，其特征在于，包括权利要求4-6任一项所述的系统，进一步包括：

核酸序列分类模块，所述核酸序列分类模块用于将所述宿主血液中游离DNA的序列数据参照寄生虫参考数据库中的序列进行分类，所述核酸序列分类模块同所述高通量测序模块相连，

寄生虫种类确定模块，所述寄生虫种类确定模块同所述寄生虫核酸信息收集模块相连，所述寄生虫种类确定模块用于将所述寄生虫核酸数据分别同寄生虫参考序列数据库和NCBI中的NT综合数据库中的序列进行比对，汇总，判定寄生虫的种类，

其中，所述寄生虫参考数据库包括原生动物数据库和蠕虫类数据库；

任选地，所述原生动物数据库来源于NCBI refseq中的protozoa数据库，所述蠕虫类数据库来源于WormBase ParaSite数据库中的线虫动物门(nmatodee)和扁形动物门(platyhelminth)；

9.系统在获取宿主上寄生虫的核酸信息中的用途，其特征在于，所述系统通过高通量测序获取宿主上寄生虫的核酸信息，所述通过高通量测序获取宿主上的寄生虫的核酸信息的方法包括权利要求1～3任一项所述的方法。

10.系统在鉴定宿主上寄生虫的种类中的用途，其特征在于，所述系统通过高通量测序鉴定宿主上寄生虫的种类，所述通过高通量测序鉴定宿主上寄生虫的种类的方法包括权利要求7所述的方法。