CN117690485B

CN117690485B - 用于寄生虫鉴定的基因组的处理方法和处理装置

Info

Publication number: CN117690485B
Application number: CN202410153917.9A
Authority: CN
Inventors: 于洋
Original assignee: Beijing Novogene Technology Co ltd
Current assignee: Beijing Novogene Technology Co ltd
Priority date: 2024-02-04
Filing date: 2024-02-04
Publication date: 2024-05-28
Anticipated expiration: 2044-02-04
Also published as: CN117690485A

Abstract

本发明提供了一种用于寄生虫鉴定的基因组的处理方法和处理装置，涉及生物技术领域。本发明提供了一种用于寄生虫鉴定的基因组的处理方法，包括以下步骤：获取寄生虫基因组和宿主基因组；对宿主基因组进行打断，构建与待处理样本测序数据相同reads长度、平均覆盖深度至少为1X的模拟样本数据；将所述模拟样本数据与寄生虫基因组进行比对，获得比对一致性大于等于90%的序列区域A，然后对寄生虫基因组上的序列区域A的碱基进行屏蔽，获得用于寄生虫鉴定的基因组。该处理方法操作简单、处理迅速，能够减少序列的冗余、提高序列利用率，可以用来改进寄生虫比对鉴定的可靠性，降低比对噪音。

Description

用于寄生虫鉴定的基因组的处理方法和处理装置

技术领域

本发明涉及生物技术领域，尤其是涉及一种用于寄生虫鉴定的基因组的处理方法和处理装置。

背景技术

基于二代高通量测序平台的病原宏基因组测序分析技术(metagenomics nextgeneration sequencing, mNGS)具有病原谱覆盖范围广、不依赖微生物分离培养、检测无偏倚等优势，可满足临床快交付、广范围、高灵敏的检测需求，在临床微生物感染检测领域中的应用日渐普及。适用于临床场景的感染检测产品对测序时间要求较高，一般使用短读长策略来进行测序（如单端测序，读长50bp或75bp；记为SE50或SE75），以满足24小时内的交付时效性。mNGS的可检测范围取决于分析流程依赖的微生物基因组数据库构成：物种收录范围决定了mNGS可提供的检测范围，一般包含数千至数万种病原微生物，涉及细菌、病毒、真菌、寄生虫等多种类群；该微生物基因组数据库构建质量对mNGS的检测性能有重要影响。不同的微生物类群其基因组有不同的特点，仅从基因组大小来说，病毒、细菌基因组较小，一般在几兆以内；真菌、寄生虫类群基因组较大，尤其是寄生虫基因组可能在几十甚至上百兆大小。考虑到样本在进行临床宏基因组测序的时效性，一般选择短读长来达到时间要求。短片段在物种比对鉴定过程中会受到数据库收录信息的影响，收录更多的特异性片段、排除更多的非特异性片段能够提高物种比对鉴定的性能。因此在构建微生物基因组数据库时，需要选择高质量的基因组序列，以提高mNGS分析鉴定物种的准确性。

一般情况下，构建微生物基因组数据库的序列都来源于NCBI等公共数据库。考虑到分析的性能和资源要求，具体构建数据库的策略和方式会不同。但一般会选择一种策略对基因组序列进行统一处理来构建比对数据库，而忽略各类群之间本身序列的差异。因此，mNGS分析得到微生物初步鉴定结果后，会针对不同类群设置不同过滤阈值来减少假阳性结果。具有更大基因组的物种类群，如寄生虫、真菌，在短读长的条件下更容易被比对上，从而会有更高的本底噪音，容易带来假阳性的鉴定结果。此外，由于寄生虫类群的生活史和进化特点，其基因组序列中还会存在一些和宿主基因组相似性很高的序列，即使分析流程中预先有去宿主序列的处理，在微生物比对环节也会出现较多的寄生虫比对信号，这也是造成寄生虫比对鉴定结果噪音高的原因之一。为了降低比对的背景噪音，提高寄生虫鉴定可靠性，需要构建一种方法来处理原始寄生虫序列。使用处理过的序列进行寄生虫单物种鉴定，或者将处理过的序列整合进数据库进行mNGS分析，都能够给出低噪音的比对结果，从而降低假阳性信号出现的可能性。

目前尚未检索到单独处理寄生虫基因组序列用于提高比对分析可靠性的相关专利及文献。目前查询到的微生物基因数据库构建方式，对于序列的处理都没有单独区分寄生虫类群。由于寄生虫基因组自身的特点——与宿主协同进化带来的高序列同源性，以及公共数据库收录寄生虫序列来源的不确定性——寄生虫样本本身难以与宿主完全分离，测序组装可能有天然的污染，都导致一个共同结果：从公共数据库来源收集的寄生虫基因组序列，和宿主序列有高度的相似性。直接使用公共数据库来源的序列，或者使用以上参考方案中通用的序列处理方式，都没有考虑到寄生虫与宿主高相似性对序列比对鉴定带来的影响，都会有较高的假阳性风险。

有鉴于此，特提出本发明。

发明内容

本发明的第一目的在于提供一种用于寄生虫鉴定的基因组的处理方法，以解决上述问题。

本发明的第二目的在于提供上述处理方法在寄生虫鉴定中的应用。

本发明的第三目的在于提供一种用于寄生虫鉴定的基因组的处理装置。

为了实现上述目的，提出以下技术方案：

第一方面，本发明提供了一种用于寄生虫鉴定的基因组的处理方法，包括以下步骤：

a. 获取寄生虫基因组和宿主基因组；

b. 对宿主基因组进行打断，构建与待处理样本测序数据相同reads长度、平均覆盖深度至少为1X的模拟样本数据；

c. 将所述模拟样本数据与寄生虫基因组进行比对，获得比对一致性大于等于90%的序列区域A，然后对寄生虫基因组上的序列区域A的碱基进行屏蔽，获得用于寄生虫鉴定的基因组。

作为进一步技术方案，所述获取寄生虫基因组为获取寄生虫基因组序列文件；

所述寄生虫基因组序列文件至少为1个。

作为进一步技术方案，b步骤中，采用ART_Illumina软件构建模拟样本数据；

c步骤中，采用比对软件进行比对，所述比对软件包括bwa工具。

作为进一步技术方案，还包括：

d. 将寄生虫阴性的宿主测序数据与c步骤获得的基因组进行比对，获得比对一致性大于等于90%的序列区域B，然后对c步骤获得的基因组上的序列区域B的碱基进行屏蔽，获得用于寄生虫鉴定的基因组。

作为进一步技术方案，所述寄生虫阴性的宿主测序数据的reads长度与待处理样本测序数据的reads长度相同。

第二方面，本发明提供了上述处理方法在寄生虫鉴定中的应用。

第三方面，本发明提供了一种用于寄生虫鉴定的基因组的处理装置，包括基因组获取模块、模拟样本数据获取模块和比对模块A；

所述基因组获取模块用于获取寄生虫基因组和宿主基因组；

所述模拟样本数据获取模块用于对宿主基因组进行打断，构建与待处理样本测序数据相同reads长度、平均覆盖深度至少为1X的模拟样本数据；

所述比对模块A用于将所述模拟样本数据与寄生虫基因组进行比对，获得比对一致性大于等于90%的序列区域A，然后对寄生虫基因组上的序列区域A的碱基进行屏蔽，获得用于寄生虫鉴定的基因组。

所述寄生虫基因组序列文件至少为1个。

作为进一步技术方案，采用ART_Illumina软件构建模拟样本数据；

采用比对软件进行比对，所述比对软件包括bwa工具。

作为进一步技术方案，还包括对比模块B；

所述比对模块B用于将寄生虫阴性的宿主测序数据与比对模块A获得的基因组进行比对，获得比对一致性大于等于90%的序列区域B，然后对比对模块A获得的基因组上的序列区域B的碱基进行屏蔽，获得用于寄生虫鉴定的基因组。

与现有技术相比，本发明具有如下有益效果：

本发明提出的用于寄生虫鉴定的基因组的处理方法，操作简单、处理迅速。该方法针对寄生虫这一特定类群，通过处理目标序列与宿主序列的相似性，减少序列的冗余、提高序列利用率，可以用来改进寄生虫比对鉴定的可靠性，降低比对噪音；使用本方法处理过的寄生虫序列文件，可以用于混合样本中寄生虫序列的单独比对鉴定，也可以汇总起来作为mNGS比对数据库的一部分进行下游分析，产出可靠性更高的参考结果。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。需要说明的是，以下图2及图4坐标轴解释：横轴为样本编号，显示1-47例经过通用mNGS实验处理的NTC样本编号；纵轴为bwa工具比对上的reads数以10为底的对数值，特别说明的是，为了正常显示对数尺度的图像，reads数为0的数据做了近似处理，均按0.001取值，显示对数值为-3。图3及图5坐标轴解释：横轴为样本编号，显示1-47例经过通用mNGS实验处理的NTC样本编号；纵轴为Kraken2工具比对鉴定并经过Bracken校正后的reads数。附图6-图9中，标记1序列是指mark1_seq_se50和mark1_seq_se75，标记2序列是指mark2_seq_se50和mark2_seq_se75，其坐标轴解释同图2及图4。

图1为技术路线示意；

图2为实施例1提供的单序列比对得到的目标物种reads数（刚地弓形虫）；

图3为实施例1提供的数据库比对得到的目标物种reads数（刚地弓形虫）；

图4为实施例2提供的单序列比对得到的目标物种reads数（猪肉绦虫）；

图5为实施例2提供的数据库比对得到的目标物种reads数（猪肉绦虫）；

图6为使用不同读长构建标记1序列的比对效果（刚地弓形虫，100%序列一致性）；

图7使用不同读长构建标记2序列的比对效果（刚地弓形虫，100%序列一致性）；

图8使用不同读长构建标记1序列的比对效果（刚地弓形虫，90%序列一致性）；

图9使用不同读长构建标记2序列的比对效果（刚地弓形虫，90%序列一致性）。

具体实施方式

下面将结合实施方式和实施例对本发明的实施方案进行详细描述，但是本领域技术人员将会理解，下列实施方式和实施例仅用于说明本发明，而不应视为限制本发明的范围。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

a. 获取寄生虫基因组和宿主基因组；

本发明针对寄生虫与宿主序列的高相似性特点，提出了一种通用的处理方法，用于获得更有效的比对序列，能够降低寄生虫比对鉴定时的背景噪音，降低假阳结果的可能性，提高比对的可靠性。使用该方法处理过的序列，既可以作为单个寄生虫物种的比对鉴定参考，也可用于微生物基因组数据库的批量构建，均能够提高寄生虫比对鉴定的准确性。

本发明基于宏基因组临床检测分析的背景开发，适用于相关的微生物基因组数据库构建过程，也可以适用于针对寄生虫混合样本的其他测序分析场景，只要涉及含寄生虫的混合样本序列比对鉴定，都可以使用本方法阐述的处理方法得到低噪音比对的参考序列。

在一些可选的实施方式中，所述获取寄生虫基因组为获取寄生虫基因组序列文件；

所述寄生虫基因组序列文件至少为1个。

本发明中对于寄生虫基因组序列文件，可以只选择单个代表性的基因组文件，也可以选择使用多个基因组合并形成的文件。

在一些可选的实施方式中，b步骤中，采用ART_Illumina软件构建模拟样本数据。

在一些可选的实施方式中，b步骤中，模拟样本数据的平均覆盖深度优选为10X。

在一些可选的实施方式中，c步骤中，采用比对软件进行比对，所述比对软件包括但不限于bwa工具或Kraken2工具，或者采用本领域技术人员所熟知的其他比对软件。

在一些可选的实施方式中，所述序列A的比对一致性优选为100%。

在一些可选的实施方式中，还包括：

通过屏蔽寄生虫基因组上与寄生虫阴性的宿主测序数据的高度相似序列区域，以进一步减少序列的冗余、提高序列利用率，降低比对噪音。由于收集足量的阴性临床样本需要花费额外的精力，在条件不齐备的情况下该步骤可以跳过。

在一些可选的实施方式中，所述寄生虫阴性的宿主测序数据的reads长度与待处理样本测序数据的reads长度相同。例如，若待处理样本测序数据采用SE50的策略，那么采用reads读长为50bp的寄生虫阴性的宿主测序数据。

经发明人研究发现，测序策略和样本数据特点会直接影响mNGS分析技术的鉴定结果，本发明通过选择与待处理样本测序数据相同reads长度的寄生虫阴性的宿主测序数据，有助于进一步提高鉴定的准确性。

在一些可选的实施方式中，所述序列B的比对一致性优选为100%。

第二方面，本发明提供了上述处理方法在寄生虫鉴定中的应用，包括以本发明处理方法获得的基因组作为寄生虫鉴定用的基因组。

本发明提供的用于寄生虫鉴定的基因组的处理方法，能够降低临床样本分析中寄生虫比对鉴定的背景噪音，从而减少假阳性风险，提高mNGS分析流程中寄生虫检测结果的可靠性。

所述基因组获取模块用于获取寄生虫基因组和宿主基因组；

本发明提出的用于寄生虫鉴定的基因组的处理装置，操作简单、处理迅速。针对寄生虫这一特定类群，通过处理目标序列与宿主序列的相似性，减少序列的冗余、提高序列利用率，可以用来改进寄生虫比对鉴定的可靠性，降低比对噪音；处理得到的寄生虫序列文件，可以用于混合样本中寄生虫序列的单独比对鉴定，也可以汇总起来作为mNGS比对数据库的一部分进行下游分析，产出可靠性更高的参考结果。

所述寄生虫基因组序列文件至少为1个。

在一些可选的实施方式中，采用ART_Illumina软件构建模拟样本数据；

在一些可选的实施方式中，模拟样本数据的平均覆盖深度优选为10X。

在一些可选的实施方式中，采用比对软件进行比对，所述比对软件包括但不限于bwa工具、Kraken2工具，或者采用本领域技术人员所熟知的其他比对软件。

在一些可选的实施方式中，还包括对比模块B；

通过屏蔽寄生虫基因组上与寄生虫阴性的宿主测序数据的高度相似序列区域，以进一步减少序列的冗余、提高序列利用率，降低比对噪音。

在一些可选的实施方式中，所述寄生虫阴性的宿主测序数据的reads长度与待处理样本测序数据的reads长度相同。

下面通过具体的实施例和对比例进一步说明本发明，但是，应当理解为，这些实施例仅仅是用于更详细地说明之用，而不应理解为用于以任何形式限制本发明。

实施例1（S1）：针对刚地弓形虫(Toxoplasma gondii)所做的比对优化处理及效果

刚地弓形虫是一种广泛分布的胞内寄生原虫，可以引起人兽共患的弓形虫病，对初孕妇女、先天性免疫功能低下等人群的感染后果尤其严重，是临床感染检测中的一种重要病原。弓形虫的最终宿主是猫，人一般作为其中间宿主被感染。在mNGS检测中，刚地弓形虫是常见的背景菌物种，但这个结果可能也与寄生虫检测背景噪音高有关系。下面以该物种为例，首先介绍本发明的具体处理步骤，技术路线如图1所示。

S1.1：获取刚地弓形虫与宿主人的参考基因组序列：在Taxonomy数据库中（https://www.ncbi.nlm.nih.gov/Taxonomy/TaxIdentifier/tax_identifier.cgi），输入刚地弓形虫与人的拉丁文名，可以查询到两个目标物种的taxid及相应NCBI存储的序列链接，根据需要进行下载。弓形虫与人(Homo sapiens)两个物种对应的taxid分别为5811和9606。此例中，弓形虫的基因组序列文件使用6个基因组序列的集合（GCA_009761385.1，GCA_013099955.1，GCA_016808245.1，GCA_019455545.1，GCA_019455585.1，GCF_000006565.2）；人源基因组序列文件使用GRCh38版本。

S1.2：寄生虫序列准备：为了尽可能多地收集到物种基因组信息，对上述已下载的6个基因组文件进行了融合基因组的预处理，使用1个参考序列文件用于后续的分析，该文件包含两行信息：序列名及碱基序列。完成预处理的弓形虫参考序列版本记为5811.raw_seq（简称raw_seq）。

S1.3：宿主模拟样本准备：使用ART_Illumina工具对宿主序列进行测序数据模拟。此例中，按照单端测序、读长为50bp来模拟，样本深度选择10X（参数设置为：-f 10 -l 50 -ss NS50），测序平台选择NextSeq500。该步骤生成后续步骤的测试文件，记为9606_10x.fq。

S1.4：使用模拟样本标记寄生虫序列的高相似区域：使用bwa工具对步骤S1.1中的raw_seq建立比对索引文件；接着使用bwa中的mem工具，将步骤S1.3中的9606_10x.fq与参考序列5811.raw_seq进行比对，得到比对文件5811_bwa.bam。此步骤采用严格的比对参数，将比对的随机种子数设置与测序读长相同(参数设置为：-k 50)，输出与读长范围完全匹配的碱基比对位置，从而得到参考序列中与宿主测序碱基完全相同的区域，在这些区域中，原目标参考序列具有和宿主样本相似度100%的碱基。

S1.5：根据标记位置替换原始参考序列碱基：根据步骤S1.4得到的标记区域信息，对步骤S1.2中5811.raw_seq版本的序列进行替换，使用N代替原有碱基信息，得到一个新版本的参考序列，记为5811.mark1_seq（简称mark1_seq）。

S1.6：宿主临床阴性样本收集及目标参考序列标记：此步骤作为本发明中的可选步骤，使用寄生虫阴性的宿主测序样本数据，来进行第二轮补充标记。此例中，收集了845例临床确认寄生虫阴性的人源测序样本进行测试（SE50数据）。对每一例临床样本的测序数据clinic_*.fq, 均以mark1_seq作为参考序列进行比对，得到clinic_*.bam，比对工具和参数与步骤S1.4完全相同。比对完成后，将全部845例clinic_*.bam文件进行合并，统一进行比对位置标记。以mark1_seq版本的序列为数据，根据补充得到的相似区域信息进行相应位置的碱基替换，得到新一轮的标记参考序列，记为mark2_seq。具体标记位置与碱基替换的方法与步骤S1.5相同。

S1.7：目标寄生虫序列处理结束，得到刚地弓形虫5811物种的3个参考序列版本：raw_seq，mark1_seq，mark2_seq。

为了测评本发明的处理效果，另外准备了47例无模板的无菌纯水对照样本（notemplate control, NTC）。这些样本使用通用的核酸提取、建库试剂进行处理，并进行了SE50的宏基因组测序。这些样本的宏基因组分析数据能够证明针对目标寄生虫5811处理的分析降噪效果（需要说明的是，无菌纯水对照样本本身不含微生物，但是在核酸提取建库过程中，由于酶制剂在生产过程中可能残留有工程发酵菌、同时实验环境中可能因消杀不彻底而引入的微生物污染，阴性对照样本会产生测序结果）。采用两种方式进行测评：1)针对单个参考序列的比对降噪效果；2）将处理序列整合进微生物基因组数据库后的比对降噪效果。

对于测评方式1），我们做了如下处理：首先使用bwa工具获取3个参考序列版本的比对索引文件；接着，对每一例NTC样本的mNGS测序数据都分别使用raw_seq、mark1_seq、mark2_seq对应的索引文件，做3次比对分析，得到目标参考序列版本的比对reads数；最后汇总47例样本单序列比对到5811的结果（即测序reads分别比对到raw_seq、mark1_seq或mark2_seq的reads数），如图2所示。

对于测评方式2），我们首先使用Kraken2工具构建了3个版本的微生物序列基因组数据库：选取超过24000个物种（包括细菌、真菌、病毒和其他寄生虫）的基因组序列，针对5811物种，分别添加对应的raw_seq、mark1_seq、mark2_seq参考序列构建三个版本的数据库，记为DB_raw_seq、DB_mark1_seq、DB_mark2_seq（kraken2-build命令）；接着对生成的3个版本数据库（DB_raw_seq、DB_mark1_seq、DB_mark2_seq），继续使用Bracken工具构建相应的数据库，读长设置为50bp（bracken-build -l 50）。我们采用了一个通用的Kraken2+Bracken流程分析每一例NTC样本的mNGS测序数据，每个样本都能够得到3组数据库比对的不同结果。最后收集47例样本数据库比对鉴定到5811的全部结果（即测序reads比对DB_raw_seq、DB_mark1_seq、DB_mark2_seq三个版本的数据库后，分别鉴定到目标寄生虫物种的reads数）。结果如图3所示。

实施例2（S2）：针对猪带绦虫(Taenia solium)所做的比对优化处理及效果

猪带绦虫是我国主要的人体寄生绦虫，成虫可寄生于人体肠道，引起猪带绦虫病，幼虫囊尾蚴可寄生于猪或人体，引起囊虫病。它的中间宿主主要是猪，最终宿主是人，也是临床上非常关注的病原微生物。下面以猪带绦虫为例，首先介绍本发明的处理步骤。

S2.1：获取猪带绦虫与宿主人的参考基因组序列：在Taxonomy数据库中（https://www.ncbi.nlm.nih.gov/Taxonomy/TaxIdentifier/tax_identifier.cgi），输入猪带绦虫的拉丁文名Taenia solium，查找相关信息。该物种的taxid为6204，根据相关链接，选取基因组数据进行下载。此例中以GCA_001870725.1版本数据为例。宿主人的序列情况参见实施例1。

S2.2：寄生虫序列准备：将原序列文件处理成两行的文件，只含1个序列名及1条序列碱基。完成预处理的猪带绦虫参考序列版本记为6204.raw_seq（简称raw_seq）。

S2.3：宿主模拟样本准备：同上述S1.3步骤描述。得到的宿主测试文件为9606_10x.fq。

S2.4：使用模拟样本标记寄生虫序列的高相似区域：使用bwa工具对步骤S2.1中的6204.raw_seq建立比对索引文件（6204.*）；接着使用bwa中的mem工具，将步骤S2.3中的9606_10x.fq与参考序列6204.raw_seq进行比对，得到比对文件6204_bwa.bam。此步骤采用严格的比对参数，将比对的随机种子数设置与测序读长相同(参数设置为：-k 50)，输出与读长范围完全匹配的碱基比对位置，从而得到参考序列中与宿主测序碱基完全相同的区域，在这些区域中，原目标参考序列具有和宿主样本相似度100%的碱基。

S2.5：根据标记位置替换原始参考序列碱基：根据步骤S2.4得到的标记区域信息，对步骤S2.2中6204.raw_seq序列进行替换，使用N代替原有碱基信息，得到一个新版本的参考序列，记为6204.mark1_seq（简称mark1_seq）。

S2.6：宿主临床阴性样本收集及目标参考序列标记：此步骤所用样本与实施例1中的步骤S1.6完全相同。对每一例临床样本的测序数据clinic_*.fq, 均以6204.mark1_seq作为参考序列进行比对，得到clinic_*.bam，比对工具和参数与步骤S2.4完全相同。比对完成后，将全部845例clinic_*.bam文件进行合并，统一进行比对位置标记。以6204.mark1_seq版本的序列为数据，根据补充得到的相似区域信息进行相应位置的碱基替换，得到新一轮的标记参考序列，记为6204.mark2_seq（简称mark2_seq）。具体标记位置与碱基替换的方法与步骤S2.5相同。

S2.7：目标寄生虫序列处理结束，得到猪带绦虫6204物种的3个参考序列版本：raw_seq，mark1_seq，mark2_seq。

继续使用前述47例无模板的纯水对照样本来测评本发明对于6204物种的分析降噪效果。同样采用两种方式进行测评（操作方式参照实施例1，更换目标物种序列为6204）：1)针对单个参考序列的比对降噪效果；2）将处理序列整合进微生物基因组数据库后的比对降噪效果。结果如图4-图5所示。

以上测试结果可以清晰看出，使用本发明提到的方法对于不同寄生虫（刚地弓形虫、猪带绦虫）的处理，能够在同等比对分析的条件下，有效降低噪音信号的输出。

实施例3

与实施例1的区别在于，S1.4和S1.6步骤中，设置比对参数为：原目标参考序列具有和宿主样本相似度至少90%的碱基。

对比例1

与实施例1的区别在于，S1.3步骤中，采用ART_Illumina工具对宿主序列进行测序数据模拟，按照单端测序、读长为75bp来模拟，样本深度选择10X，测序平台选择NextSeq500。该步骤生成后续步骤的测试文件，记为9606_10x.fq。

S1.5：根据标记位置替换原始参考序列碱基：根据步骤S1.4得到的标记区域信息，对步骤S1.2中5811.raw_seq版本的序列进行替换，使用N代替原有碱基信息，得到一个新版本的参考序列，记为mark1_seq_se75。

S1.6：宿主临床阴性样本收集及目标参考序列标记：使用寄生虫阴性的宿主测序样本数据，来进行第二轮补充标记。此例中，收集了845例临床确认寄生虫阴性的人源测序样本进行测试（SE50数据）。对每一例临床样本的测序数据clinic_*.fq, 均以mark1_seq_se75作为参考序列进行比对，得到clinic_*.bam，比对工具和参数与步骤S1.4完全相同。比对完成后，将全部845例clinic_*.bam文件进行合并，统一进行比对位置标记。以mark1_seq_se75版本的序列为数据，根据补充得到的相似区域信息进行相应位置的碱基替换，得到新一轮的标记参考序列，记为mark2_seq_se75。具体标记位置与碱基替换的方法与步骤S1.5相同。

S1.7：目标寄生虫序列处理结束，得到刚地弓形虫5811物种的3个参考序列版本：raw_seq，mark1_seq_se75，mark2_seq_se75。

对比例2

与对比例1的区别在于，S1.4和S1.6步骤中，设置比对参数为：原目标参考序列具有和宿主样本相似度至少90%的碱基。

由于数据库比对消耗工作量较大，且在验证过程中并非必不可少的步骤，这里对实施例1、3和对比例1-2按照实施例1中测评方式1方法进行测试。实施例1和对比例1测试结果如图6-图7（图6-图7中，mark1_seq_se50为实施例1中S1.5步骤获得的序列，mark2_seq_se50为实施例1中S1.6步骤获得的序列）所示，实施例3和对比例2的测试结果如图8-图9（图8-图9中，mark1_seq_se50为实施例3中S1.5步骤获得的序列，mark2_seq_se50为实施例3中S1.6步骤获得的序列）所示。

我们发现，使用SE75策略进行模拟构建的参考序列，在设置比对序列一致性90%的情况下降噪效果并不突出。更佳的操作方式，是使用与待测样本相同的测序策略去构建相应的参考基因组序列，来取得良好的降噪效果，同时降低损失真实信号的风险。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种用于寄生虫鉴定的基因组的处理方法，其特征在于，包括以下步骤：

a. 获取寄生虫基因组和宿主基因组；

c. 将所述模拟样本数据与寄生虫基因组进行比对，获得比对一致性大于等于90%的序列区域A，然后对寄生虫基因组上的序列区域A的碱基进行屏蔽，获得用于寄生虫鉴定的基因组；

2.根据权利要求1所述的处理方法，其特征在于，所述获取寄生虫基因组为获取寄生虫基因组序列文件；

所述寄生虫基因组序列文件至少为1个。

3.根据权利要求1所述的处理方法，其特征在于，b步骤中，采用ART_Illumina软件构建模拟样本数据；

4.根据权利要求1所述的处理方法，其特征在于，所述寄生虫阴性的宿主测序数据的reads长度与待处理样本测序数据的reads长度相同。

5.一种用于寄生虫鉴定的基因组的处理装置，其特征在于，包括基因组获取模块、模拟样本数据获取模块、比对模块A和比对模块B；

所述基因组获取模块用于获取寄生虫基因组和宿主基因组；

所述比对模块A用于将所述模拟样本数据与寄生虫基因组进行比对，获得比对一致性大于等于90%的序列区域A，然后对寄生虫基因组上的序列区域A的碱基进行屏蔽，获得用于寄生虫鉴定的基因组；

6.根据权利要求5所述的处理装置，其特征在于，所述获取寄生虫基因组为获取寄生虫基因组序列文件；

所述寄生虫基因组序列文件至少为1个。

7.根据权利要求5所述的处理装置，其特征在于，采用ART_Illumina软件构建模拟样本数据；

采用比对软件进行比对，所述比对软件包括bwa工具。