CN117976051A

CN117976051A - 一种宏基因组测序数据分析方法、计算机介质、系统

Info

Publication number: CN117976051A
Application number: CN202311817803.1A
Authority: CN
Inventors: 阮旭东; 宋书莉; 刘亚统; 张银; 张晓亮; 张瑞峰
Original assignee: Shanghai Antu Biotechnology Co ltd; Autobio Diagnostics Co Ltd
Current assignee: Shanghai Antu Biotechnology Co ltd; Autobio Diagnostics Co Ltd
Priority date: 2023-12-27
Filing date: 2023-12-27
Publication date: 2024-05-03

Abstract

本发明涉及微生物宏基因组测序检测技术领域，具体涉及一种宏基因组测序数据分析方法、计算机介质、系统。本发明方法，以reads比对到基因组上的离散程度(指标1)联合属内最高reads数比值(指标2)，作为数据过滤条件，对微生物基因组序列比对结果进行过滤，排除假阳性。本发明充分考虑过滤指标的生物学意义，以reads覆盖在基因组上的离散程度作为过滤指标，减弱基因组大小差异的影响。同时，相比传统的方法，采用reads数与属内最高reads数物种的reads数比值作为过滤指标，评估受属内reads数最高物种同源性带来的干扰，进一步降低假阳性。相对传统阈值的过滤效果，本发明可以在保证足够敏感性的同时，有效控制假阳性结果。

Description

一种宏基因组测序数据分析方法、计算机介质、系统

技术领域

本发明涉及微生物宏基因组测序检测技术领域，具体涉及一种宏基因组测序数据分析方法、计算机介质、系统。

背景技术

感染性疾病是临床常见疾病，而病原体诊断是其诊治中的关键环节。传统的病原体鉴定方法包括培养分离、形态学检测、免疫学检测以及核酸检测，是针对一种或几种病原体目标性的鉴别，检测方法覆盖范围小，一次仅能针对一种或几种特定的病原体，且耗时长、阳性率低，难以满足临床需求。随着测序技术的进步和成本的降低，越来越多的微生物得以测序。宏基因组二代测序(metagenomic next-generation sequencing，mNGS)作为一种新型病原检测方法，既不依赖于传统的微生物培养，也不需要特异性扩增，且其检测范围广泛，可检测细菌、病毒、真菌、寄生虫、罕见病原体，甚至未知病原体，只要是数据中物种都能覆盖，不需要预先猜测可能的病原体。

mNGS具有随机、无偏倚特征，可以准确获得检测样本中所有核酸信息，与已知的微生物序列数据库进行比对分析(比对：指将测序的序列与参考基因组进行匹配的过程)，根据序列信息鉴定样本中所含的所有病原微生物，分析出致病病原体，指导临床诊断和治疗，预防病情进一步恶化，尤其在疑难、罕见感染性疾病中发挥着重要作用。目前，mNGS已被用于呼吸系统、中枢神经系统、血流感染、骨和关节、眼部感染等多系统感染性疾病的诊断和病原鉴定。

然而，目前的mNGS检测是基于物种比对的方法，为了保证检测范围囊括尽量全面的病原体微生物，各实验室所构建的数据库极为庞大，物种数量往往超过两万种；由于各类微生物的进化关系极为复杂，存在相当多的物种具有相似的序列，会产生大量的物种比对结果，但其中导致患者致病的真实病原很少，其他检出结果往往是背景菌、定植菌或假阳性结果，会导致在物种比对的过程种产生大量的假阳性结果，对真正致病的微生物判断造成干扰。各实验室一般会设定不同的背景菌库、定植菌库以及阴性对照等方法过滤部分结果，但产生假阳性结果的原因很多，无法完全避免假阳性结果的影响，例如：超过2万个物种的庞大数据库中可能存在部分低质量基因组，大量物种因进化关系具有高同源性的基因组，基因组测序组装过程中产生污染和错误，宏基因组二代测序产生的错误，比对软件和算法本身无法做到完全准确，也会产生少量错误。

针对假阳性产生的原因，各实验室往往在优化数据库的基础上，通常会通过在宏基因组测序数据处理过程中增加数据过滤和置信度判断的过程，以一些具有统计学意义的指标作为数据过滤和置信度指标，通过设置阈值的方式实现数据过滤，控制假阳性，。一般的阈值选择如鉴定reads数、RPM值、丰度、覆盖度、深度等，因病原种类和基因组大小的差异存在一定的局限性。例如：肺炎克雷伯的基因组大小约为5MB，人疱疹病毒的基因组大小约为150KB，相同拷贝数的情况下，即使能够做到准确鉴定，reads数、RPM等值也会存在较大差异，传统阈值很难在这种情况下准确区分真假阳结果。

因此，针对降低宏基因组数据分析假阳性，提出创新的过滤指标，是目前行业内亟待解决的问题之一。

发明内容

为了实现上述目的，本发明的目的在于提供一种宏基因组测序数据分析方法，reads比对到基因组上的离散程度联合属内最高reads数比值，作为数据过滤条件，设置阈值，降低假阳性。

本发明目的之二在于提供一种宏基因组数据分析计算机介质，包括数据过滤模块，运行本发明提供的数据分析方法，降低假阳性。

同时，本发明的目的之三在于提供一种宏基因组数据分析计算机系统，包括本发明提供的计算机介质，运行本发明提供的数据分析方法，降低假阳性。

为了实现上述目的，本发明采用的技术方案如下：

一种宏基因组测序数据分析方法，包括：

1)将待分析数据与微生物数据库基因组序列进行比对，计算物种序列离散度和属内最高reads数比值；

2)以物种序列离散度和属内最高reads数比值设置筛选条件，符合结果输出条件的，输出物种判定结果。；

其中属内最高reads数比值

其中物种reads数是鉴定到物种的绝对reads数；属内最高reads数是样本中鉴定到的与所述物种同属的reads数最高物种的绝对reads数。

可选的，所述序列离散度计算包括：

1)基因组窗口划分：将微生物数据库每个物种基因序列划分为n个窗口；

2)各窗口reads分布计算：统计比对到各个窗口的reads数，根据reads的比对结果判断每条reads比对到基因组的窗口位置，计算每个窗口中reads数bin_reads占比对到该基因组的reads总数all_reads的比例，

3)离散度计算：统计上述每个窗口的bin_ratio在基因组全部窗口上的分布情况，计算标准差：

其中：为所有有reads覆盖窗口的bin_ratio的平均值，n为有reads覆盖窗口的个数，xⁱ为第i个窗口的bin_ratio值。

作为优选的，所述基因组窗口划分具体为将微生物数据库每个物种基因序列均匀划分为100个窗口。

可选的，所述待分析数据为待分析样本采用二代测序方法测序的下机数据初始过滤后的数据。

具体的，所述下机数据初始过滤的具体方法包括去除低质量序列、接头序列和宿主序列。

可选的，所述样本为体液样本或组织样本。

一种计算机介质，包括：

1)序列比对模块：用于将待分析数据与微生物数据库基因组序列进行比对；

2)序列离散度计算模块：用于计算物种序列离散度；

3)属内最高reads数比值计算模块：用于计算属内最高reads数比值

4)结果判断输出模块：用于根据设置的序列离散度和属内最高reads数比值筛选条件，判断输出物种判定结果。

可选的，所述序列离散度计算模块包括：窗口划分模块：用于将微生物数据库每个物种基因序列划分为n个窗口；

各窗口reads分布计算模块：用于统计比对到各个窗口的reads数，根据reads的比对结果判断每条reads比对到基因组的窗口位置，计算每个窗口中reads数bin_reads占比对到该基因组的reads总数all_reads的比例，

离散度计算模块：用于统计上述每个窗口的bin_ratio在基因组全部窗口上的分布情况，计算标准差：

可选的，还包括数据过滤模块，用于对输入的待分析样本的原始测序数据去除低质量序列、接头序列和宿主序列处理。

一种计算机系统，由上述计算机系统组装而成。

需要说明的是，上述分析方法、计算机介质和计算机系统，在运行本发明所述离散度计算时，当n＝1时，即reads仅比对到一个窗口中，认为离散程度最小，该值赋值为0；

本发明宏基因组测序数据分析方法，物种注释分析过程中，以reads比对到基因组上的离散程度(指标1)联合属内最高reads数比值(指标2)，作为数据过滤条件，设置阈值，对微生物基因组序列比对结果进行过滤，排除假阳性。

本发明设计的过滤指标，充分考虑其生物学意义，理论上，reads覆盖在基因组上的位置离散程度越大，鉴定可信度越高。最理想的情况是鉴定到该病原的大量reads可以均匀分布在基因组的所有位置；若出现大量reads集中比对于一个窗口中，更有可能是reads重复率过高，且比对偏好性造成的影响，可信度低，因此以reads覆盖在基因组上的离散程度作为过滤指标，可以减弱基因组大小差异的影响。同时，考虑物种同源性导致的假阳性结果的影响，相比传统的方法，本发明采用属内最高reads数比值作为过滤指标，评估受属内reads数最高物种同源性带来的干扰，进一步降低假阳性。

进一步，本发明基于统计学意义，优化reads覆盖再基因组上的离散程度的计算方法，具体将基因组均匀划分为100个窗口，根据比对结果判断每条reads比对位置位于哪个窗口，通过计算不同窗口比对reads数比例的标准差值来评估reads在基因组上分布的离散程度，该值越小，代表离散程度越高。相比其他数据统计算法，本发明采用标准差值的计算方法，进一步降低假阳性，提高病原体识别准确性。

相对传统阈值的过滤效果，本发明两种过滤指标进行结合后可以在保证足够敏感性的同时，有效控制假阳性结果。在模拟数据和临床数据的分析统计中均表现出高于传统方法的性能。

具体实施方式

除非另外定义，否则本文使用的所有技术术语和科学术语具有与本发明所述技术领域普通技术人员通常理解相同的含义。

除非特别说明，本文应用和涵盖的技术是本发明所属技术领域的技术人员熟知的标准方法。所述材料、方法和实施例仅用作说明目的，而不以任何方式限制本发明的保护范围。

本文所述的，术语“宏基因组(Metagenome)”，又称群落基因组，是指特定小生境中全部微小生物遗传物质的总和；

本文所述的，原始测序数据通过对待测样本的核酸序列进行测序文库制备、上级测序获得；包括获取待测样本的核酸，制备所述核酸的测序文库，测序文库的制备方法根据所选择的测序方法要求进行，可以选择但不限于illumina公司的Hiseq2000/2500测序平台，测序方式可以选择单端测序，也可以选择双端测序，获得的下机数据是测读出来的片段，称为读段(reads)；

本发明涉及计算机介质或计算机系统产品，具体是指包括计算机可读存储介质，其上载有用于执行本发明计算机可读程序指令；其中“计算机可读存储介质”是指可以保持和存储由指令执行设备使用的指令的有形设备。

本文所述的“微生物数据库基因组序列”为来源于公共数据库的基因组序列原始数据，如NCBI、FDA-ARGOS等，进行过滤优化处理后再整合成的比对参考序列；

实施例

作为举例说明，本实施例提供的宏基因组测序数据分析方法，具体为：

1)数据过滤：对待分析样本的原始测序数据依次运行去除低质量序列、接头序列、宿主序列和同源序列，获得待分析数据；

2)序列比对：将待分析数据与包含病原体参考序列的微生物数据库基因组序列比对；

3)过滤质控：

A：序列比对结果统计：

第一步：将所述基因组序列分别均分为100个窗口，并对每个窗口编号1～100；

第二步：统计reads比对到基因组窗口的位置，以及比对至每个窗口的reads数量，以及比对到某一基因组的总reads数(即物种reads数)；

B：计算物种序列离散度：

第一步：计算每个窗口的reads占比：

第二步：离散度统计，统计上述每个窗口的bin_ratio在基因组全部窗口上的分布情况，计算标准差：

其中：为所有有reads覆盖窗口的bin_ratio的平均值，n为有reads覆盖窗口的个数，xⁱ为第i个窗口的bin_ratio值；

对于特殊情况，n＝1时，即reads仅比对到一个窗口中，认为离散程度最小，该值赋值为0；

C：计算属内最高reads数比值：

其中物种reads数是鉴定到物种的绝对reads数；属内最高reads数是样本中鉴定到的与所述物种同属的reads数最高物种的绝对reads数；

4)输出结果：对于满足std_max>0.5且genus_top_reads_fc>0.1的结果作为微生物阳性判定结果输出。

本发明提供的上述分析方法，可以通过指令代码内置在计算机存储介质，指令代码实现上述步骤的分析方法，实现病原体检测。

试验例：

1、模拟用宏基因组测序数据：

1)阳性病原：选择4种类细菌、4种病毒和2种真菌进行模拟数据测试；

选用基因组见下表1：

表1

2)模拟数据：使用模拟数据软件art，随机抽取对应基因组序列，按照表格中的reads数进行模拟后合并成为单个样本20M数据量的fastq文件，具体数据量设置见下表2；

表2

2、数据分析方法：

1)数据过滤：对模拟测序数据过滤获得clean reads，去除人源和质粒序列，获得待分析数据；

2)序列比对：将待分析数据与包含病原体参考序列的微生物数据库基因组序列比对；所有样本的原始检测结果中，十个模拟物种都有检出；原始比对结果灵敏度为100％(120/120)，假阳性结果有118个；

3)过滤质控：

方法1：

第一步：：统计比对到某一基因组的总reads数(即物种reads数)；

第二步：以第一步统计的物种reads数作为质控指标，设置阈值为reads>3，对步骤2)的序列比对结果过滤质控，结果为，检出灵敏度为96.67％(116/120)，假阳性结果30个，仅有sample11的肺炎克雷伯菌检出reads数为2，假阳性和假阴性结果见下表3：

表3

方法2：

第一步：统计reads比对到某一基因组的总reads数(即物种reads数)，该种所在的Kingdom的reads总数；

第二步：计算种相对丰度＝物种reads数/该种所在的Kingdom的reads总数*100％；

第三步：以种相对丰度作为质控指标，设置阈值为种相对丰度>0.1％，对步骤2)的序列比对结果过滤质控，结果为，灵敏度为100％(120/120)，假阳性结果19个，假阳性结果见下表4：

表4

方法3：

第一步：统计reads比对到基因组的位置，以及比对到某一基因组的总reads数(即物种reads数)；

第二步：计算所有reads比对到物种基因组上位置的标准差(std)，

其中：为所有有reads覆盖在基因组位置的平均值，n为比对该基因组的reads数，i为比对到基因组的reads的顺序信号，x_i为第i个reads覆盖到基因组的位置；

第四步：以第三步计算的所有reads比对到物种基因组上位置的标准差(std)作为质控指标，设置阈值为std>3000，对步骤2)的序列比对结果过滤质控，结果为，灵敏度为75.83％(91/120)，假阳性结果45个，假阳性和假阴性结果见下表5：

表5

方法4：

第三步：计算物种序列离散度：

A：计算每个窗口的reads占比：

B：离散度统计，统计上述每个窗口的bin_ratio在基因组全部窗口上的分布情况，计算标准差：

第四步：以第三步计算的每个窗口的bin_ratio在基因组全部窗口上的分布情况作为质控指标，设置阈值为std_max>0.5对步骤2)的序列比对结果过滤质控，结果为，灵敏度为98.33％(118/120)，假阳性结果45个，仅sample11的肺炎克雷伯菌(2条reads)和肺炎链球菌(6条reads)未能通过阈值，假阳性和假阴性结果见下表6：

表6

方法5：

第三步：

A：计算每个窗口的reads占比：

C：计算属内最高reads数比值：

第四步：以每个窗口的bin_ratio在基因组全部窗口上的分布情况，以及属内最高reads数比值联合作为质控指标，设置阈值为std_max>0.5且genus_top_reads_fc>0.1对步骤2)的序列比对结果过滤质控，结果为，灵敏度为98.33％(118/120)，假阳性结果被全部过滤掉，仅sample11的肺炎克雷伯菌(2条reads)和肺炎链球菌(6条reads)未能通过阈值，假阴性结果见下表7：

表7

3、结论：

通过与传统质控指标相比，本发明设计的物种序列离散度联合属内最高reads数作为质控指标，可以在保证足够敏感性的同时很好的控制假阳性结果。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种宏基因组测序数据分析方法，其特征在于，包括：

2)以物种序列离散度和属内最高reads数比值设置筛选条件，符合结果输出条件的，输出物种判定结果；

其中属内最高reads数比值

2.如权利要求1所述的宏基因组测序数据分析方法，其特征在于，所述序列离散度计算包括：

3.如权利要求2所述的宏基因组测序数据分析方法，其特征在于，所述基因组窗口划分具体为将微生物数据库每个物种基因序列均匀划分为100个窗口。

4.如权利要求3所述的宏基因组测序数据分析方法，其特征在于，所述待分析数据为待分析样本采用二代测序方法测序的下机数据初始过滤后的数据。

5.如权利要求4所述的宏基因组测序数据分析方法，其特征在于，所述下机数据初始过滤的具体方法包括去除低质量序列、接头序列和宿主序列。

6.如权利要求5所述的宏基因组测序数据分析方法，其特征在于，所述样本为体液样本或组织样本。

7.一种计算机介质，其特征在于，包括：

2)序列离散度计算模块：用于计算物种序列离散度；

8.如权利要求7所述的计算机介质，其特征在于，所述序列离散度计算模块包括：窗口划分模块：用于将微生物数据库每个物种基因序列划分为n个窗口；

9.如权利要求8所述的计算机介质，其特征在于，还包括数据过滤模块，用于对输入的待分析样本的原始测序数据去除低质量序列、接头序列和宿主序列处理。

10.一种计算机系统，其特征在于，由如权利要求7～9任一项所述的计算机系统组装而成。