CN114807398A

CN114807398A - 宏基因组中沙门氏菌的鉴定方法及装置、分型方法及装置

Info

Publication number: CN114807398A
Application number: CN202210501578.XA
Authority: CN
Inventors: 杨文娴
Original assignee: Xiamen Jiyuan Technology Co ltd
Current assignee: Xiamen Jiyuan Technology Co ltd
Priority date: 2018-10-30
Filing date: 2018-10-30
Publication date: 2022-07-29
Also published as: CN109355410A

Abstract

本发明涉及一种基于二代测序数据分析对宏基因组中的沙门氏菌进行鉴定方法及装置、分型方法及装置，其构建了沙门氏菌参考序列以及沙门氏菌的基因组池，在对检测样本中的沙门氏菌进行鉴定及分型时，将检测样本的二代测序数据与沙门氏菌的参考序列进行比对，筛除非沙门氏菌的短读长序列，得到过滤后的短读长序列；再将该过滤后的短读长序列与基因组池中的所有沙门氏菌的基因组序列进行比对，并进行优化处理，得到优化结果用以确定沙门氏菌及其类型。本发明具有检测快速高效的优点。

Description

宏基因组中沙门氏菌的鉴定方法及装置、分型方法及装置

本申请是发明专利申请201811276598.1的分案申请，其申请日为：2018年10月30日，发明创造名称为：一种基于二代测序数据分析对宏基因组中的沙门氏菌进行鉴定及分型的方法。

技术领域

本发明涉及数据分析应用领域，特别是应用于沙门氏菌的数据分析技术，具体涉及一种基于二代测序数据分析对宏基因组中的沙门氏菌进行鉴定方法及装置、分型方法及装置。

背景技术

随着经济的发展，食品中存在的卫生安全隐患问题愈发严重，沙门氏菌是食品中最常见的致病菌，是导致食物中毒的重要病原菌之一，严重威胁到人类健康和食品安全。据美国食品药品监管局(FDA)统计，在美国每年因食源性致病菌感染人数可达4800万，其中住院患者和死亡人数分别为12.8万和3000，造成巨大的经济负担。在我国，每年由沙门氏菌引起的食物中毒事件占到全部食物中毒的40％-60％。

沙门氏菌属肠杆菌科，革兰氏阴性肠道杆菌，目前已经发现1800种以上，按抗原成分可分为甲、乙、丙、丁、戊等基本菌型。其中与人类疾病有关的主要有甲组的副伤寒甲杆菌，乙组的副伤寒乙杆菌和鼠伤寒杆菌，丙组的副伤寒丙杆菌和猪霍乱杆菌，丁组的伤寒和肠炎杆菌。此菌可引起禽伤寒、鸡白痢、猪霍乱、鼠伤寒沙门氏菌病、猪副伤寒、马流产沙门氏菌病等疾病。致病性最强的是猪霍乱沙门氏菌(Salmonella cholerae)，其次是鼠伤寒沙门氏菌(Salmonella typhimurium)和肠炎沙门氏菌(Salmonella enteritidis)。

目前，在我国普遍采用传统的细菌学检测方法和血清学方法，这些检测方法大致需要4到6天才能得到有效的结果，具有检测时间长、操作繁琐的缺陷，难以应对突发疫情的发生。

有鉴于此，本发明人针对上述对宏基因组中的沙门氏菌进行鉴定及分型的方法上未臻完善所导致的诸多缺失及不便，而深入构思，且积极研究改良试做而开发设计出本发明。

发明内容

本发明的目的在于提供一种对宏基因组中的沙门氏菌进行鉴定方法及装置、分型方法及装置，其能快速而准确检测出是否含有沙门氏菌以及确定所含沙门氏菌的类型。

为实现上述目的，本发明采用的技术方案是：

一种基于二代测序数据分析对宏基因组中沙门氏菌的鉴定方法，其包括

对检测样本中的宏基因组进行二代测序，得到样本中的宏基因组的二代测序数据；

将宏基因组的二代测序数据与沙门氏菌参考序列进行比对，筛除非沙门氏菌独有的短读长序列，得到对比后的短读长序列，即沙门氏菌独有的短读长序列；若该短读长序列数量为0，则鉴定检测样本中不含沙门氏菌；若数量不为0，则鉴定检测样本中含有沙门氏菌；

所述沙门氏菌参考序列是指将多个沙门氏菌独有的短读长序列依次首尾连接后得到的序列；该沙门氏菌参考序列中，每相邻两段沙门氏菌独有的短读长序列之间采用N连接。

将检测样本的二代测序数据与参考序列进行比对时，进行以下过滤：

(5)对于双端二代测序数据，过滤掉一端没有比对上、或者两端均没有比对上的短读长序列，仅留下两端均成功比对上的数据；

(6)对于两端均成功比对上的二代测序数据，过滤掉满足以下三个条件之一的数据：

(a)短读长序列与比对上的参考序列的距离NM>5；

(b)比对结果的剪切长度Clipping>10；

(c)短读长序列本身的读长Read length<100。

一种基于二代测序数据分析对宏基因组中沙门氏菌的鉴定装置，其包括

沙门氏菌参考序列构建模块，用于将多个沙门氏菌独有的短读长序列进行首尾连接，并在相邻两段沙门氏菌独有的短读长序列之间用N连接，以构建出沙门氏菌参考序列；

检测样本处理模块，用于对检测样本中的宏基因组进行二代测序，得到样本中宏基因组的二代测序数据；

沙门氏菌鉴定模块，连接沙门氏菌参考序列构建模块和检测样本处理模块，用于获取沙门氏菌参考序列和检测样本的二代测序数据，并将检测样本的二代测序数据与沙门氏菌参考序列进行比对，筛除非沙门氏菌独有的短读长序列，得到对比后的短读长序列，即沙门氏菌独有的短读长序列；若筛选后得到的沙门氏菌独有的短读长序列数量为0，则鉴定为检测样本中不含有沙门氏菌，若数量不为0，则鉴定为检测样本中含有沙门氏菌。

所述装置还包括

二代测序数据过滤模块，连接检测样本处理模块，用于获取检测样本的二代测序数据，并对二代测序数据进行以下过滤处理：

(7)对于双端二代测序数据，过滤掉一端没有比对上、或者两端均没有比对上的短读长序列，仅留下两端均成功比对上的数据；

(8)对于两端均成功比对上的二代测序数据，过滤掉满足以下三个条件之一的数据：

(a)短读长序列与比对上的参考序列的距离NM>5；

(b)比对结果的剪切长度Clipping>10；

(c)短读长序列本身的读长Read length<100；

二代测序数据过滤模块还连接沙门氏菌鉴定模块，用于将过滤后的二代测序数据发送至沙门氏菌鉴定模块；沙门氏菌鉴定模块将过滤后的的二代测序数据与沙门氏菌参考序列进行比对，筛除非沙门氏菌独有的短读长序列，得到对比后的短读长序列，即沙门氏菌独有的短读长序列；若筛选后得到的沙门氏菌独有的短读长序列数量为0，则鉴定为检测样本中不含有沙门氏菌，若数量不为0，则鉴定为检测样本中含有沙门氏菌。

一种基于二代测序数据分析对宏基因组中沙门氏菌的分型方法，其包括

采用如上所述的鉴定方法鉴定检测样本中是否含有沙门氏菌；

当鉴定出检测样本中含有沙门氏菌时，将筛选出的沙门氏菌独有的短读长序列与沙门氏菌基因组池中的所有沙门氏菌基因组序列进行比对，得到分型结果，确定检测样本中所含有的沙门氏菌的具体类型；

所述沙门氏菌基因组池为包含了所有沙门氏菌的基因组序列的数据库。

所述基因池组的构建方法如下：

从网上公开数据库下载所有沙门氏菌的基因组序列和测序原始数据，对于完整的基因组序列，过滤掉质粒部分序列，得到只含有沙门氏菌的基因组序列；对于有很多个重叠群组成的基因组序列，将重叠群序列用N连接，形成沙门氏菌的参考基因组序列；对于沙门氏菌的测序原始数据，进行组合形成沙门氏菌的基因组序列；将所述沙门氏菌的基因组序列以及参考基因组序列放入基因组池中形成沙门氏菌的基因组池。

采用最小覆盖优化算法MSC对分型结果进行优化处理；

优化方程为：

C(I)＝(|U_i∈IS_i|-γ|I|)

R＝{r_j|j＝1,...,J}

其中,I代表检测样本中含有的沙门氏菌短读长序列的集合；

U代表基因组池中所有沙门氏菌的基因组序列；

R代表过滤后的短读长序列的集合；

代表R中能够完全匹配上沙门氏菌i∈U的短读长序列的集合；

│·│代表集合的基数；

γ代表稀疏调节参数，用于控制最优解的稀疏度，γ越大代表能获得的最优解的数据集就越小。

所述优化方程采用贪心算法求解。

一种基于二代测序数据分析对宏基因组中沙门氏菌的分型装置，其包括

如上所述的鉴定装置，用于鉴定出检测样本中是否含有沙门氏菌；

以及

沙门氏菌基因组池模块，存储有沙门氏菌基因组池，该沙门氏菌基因组池中包含了所有沙门氏菌的基因组序列；

沙门氏菌分型模块，连接沙门氏菌基因组池模块，用于获取沙门氏菌基因组池；所述沙门氏菌分型模块还连接鉴定装置的沙门氏菌鉴定模块，当鉴定出检检测样本含有沙门氏菌时，沙门氏菌分型模块从沙门氏菌鉴定模块获取沙门氏菌独有的短读长序列，并将该沙门氏菌独有的短读长序列与沙门氏菌基因组池中的所有沙门氏菌基因组序列进行比对，得到分型结果，确定检测样本中所含有的沙门氏菌的具体类型。

所述分型装置还包括

分型结果优化模块，连接沙门氏菌分型模块，用于获取检测样本中沙门氏菌的分型结果，并对该分型结果进行优化处理；

所述优化处理所采用的优化方程为：

C(I)＝(|U_i∈IS_i|-γ|I|)

R＝{r_j|j＝1,...,J}

其中,I代表检测样本中含有的沙门氏菌短读长序列的集合；

U代表基因组池中所有沙门氏菌的基因组序列；

R代表过滤后的短读长序列的集合；

代表R中能够完全匹配上沙门氏菌i∈U的短读长序列的集合；

│·│代表集合的基数；

采用本发明的技术方案后，本发明构建了沙门氏菌的参考序列以及沙门氏菌的基因组池，在对检测样本中的沙门氏菌进行鉴定及分型时，将检测样本的二代测序数据与沙门氏菌的参考序列进行比对，筛除非沙门氏菌的短读长序列，得到过滤后的短读长序列；再将该过滤后的短读长序列与基因组池中的所有沙门氏菌的基因组序列进行比对，并进行优化处理，得到优化结果用以确定沙门氏菌及其类型。该方法具有检测快速而精确的优点,首先，采用沙门氏菌独有的基因片段，合成为一条特定的参考基因序列，通过将短读长序列比对到该参考基因序列，实现序列过滤，去除了不相关物种的短读长序列，同时降低了后续比对及优化算法的复杂度。其次，过滤后的短读长序列再通过序列比对的办法，比对到参考基因组数据库，通过独有的优化算法分析比对结果从而实现菌群的定株。由于非目标菌株的短读长序列已经在去噪步骤被清除，该序列比对步骤精确度高而且计算复杂度低。

附图说明

图1为本发明沙门氏菌的的鉴定及分型方法流程图。

具体实施方式

如图1所示，本发明揭示了一种基于二代测序数据分析对宏基因组中的沙门氏菌进行鉴定及分型的方法，其包括以下步骤：

步骤1、构建沙门氏菌的参考序列以及基因组池；

步骤1.1、以沙门氏菌独有的短读长序列依次首尾连接构建一条参考序列，该参考序列用于短序列过滤。参考序列的构建具体如下：

本实施例中，沙门氏菌共有403段独有的短读长序列，每段独有的短读长序列含有1000碱基(bp)，提取上述403段沙门氏菌独有的短读长序列，并且以该独有的短读长序列依次首尾连接合成一条参考序列。

在参考序列中，每相邻两段独有的基因组序列区域之间采用500个N字符连接，从而避免在比对时发生样本的短读长序列比对到相邻两段独有的基因组序列区域的首尾连接的位置，导致出现错误的比对结果。当然，N的数量也不仅仅限于500。

步骤1.2、构建沙门氏菌的基因组池，该基因组池中包含了所有沙门氏菌的基因组序列。

从网上公开数据库下载所有沙门氏菌的基因组序列和测序原始数据，对于完整的基因组序列，过滤掉质粒部分序列，得到只含有沙门氏菌的基因组序列；对于有很多个重叠群组成的基因组序列，将重叠群序列用一定数量的N字符连接，形成沙门氏菌的参考基因组序列；对于沙门氏菌的测序原始数据，进行组合形成沙门氏菌的基因组序列。将上述沙门氏菌的基因组序列以及参考基因组序列放入基因组池中形成沙门氏菌的基因组池。例如，可以从以下网站上下载，构建基因组池序列：

(1)从NCBI网站下载所有沙门氏菌菌株完整的基因组和染色体序列，并过滤掉质粒部分序列，得到只含有沙门氏菌的基因组序列。

(2)从SISTR网站下载所有的沙门氏菌基因组。这些基因组序列不是完整序列，而是由很多个重叠群(contig)组成。与步骤1.1中合成沙门氏菌特有的参考序列的方法类似，将这些重叠群序列用不短于500个N连接，做为参考基因组序列，放入沙门氏菌基因组池。

(3)除此以外，从NCBI网站下载沙门氏菌的测序原始数据(FASTQ文件)，用SPAdes软件组装成沙门氏菌基因组序列。

沙门氏菌基因组池里的沙门氏菌基因组序列(FASTA文件)通常都在文件头包含有其菌株名和血清型。对于基因组池中不包含MLST分型的沙门氏菌，可以采用stringMLST软件得到其MLST分型。

步骤2、对检测样本中的沙门氏菌进行鉴定及分型

步骤2.1、从检测样本中筛选出沙门氏菌

BWA是一款基于BWT的快速比对工具，其由三个算法组成。这三个算法分别是：BWAbacktrack,BWA SW and BWA MEM。

首先，对样本进行二代测序，得到样本的二代测序数据。然后对样本的二代测序数据进行质控和预处理，以保证二代测序数据的干净可靠。

然后，使用BWA MEM将宏基因组的二代测序数据与步骤1.1中构建的沙门氏菌的参考序列进行比对，筛除非沙门氏菌的短读长序列，并且得到对比后的短读长序列。

将宏基因组的二代测序数据与参考序列进行比对时，进行以下过滤，以保证对比得到的短读长序列属于沙门氏菌对双端测序数据。过滤条件如下：

(1)对于双端二代测序数据，过滤掉一端没有比对上、或者两端均没有比对上的短读长序列，仅留下两端均成功比对上的数据，该过滤可以用samtools软件完成；

(2)对于两端均成功比对上的二代测序数据，过滤掉满足以下三个条件之一的数据：

(a)短读长序列与比对上的参考序列的距离NM>5；

(b)比对结果的剪切(软剪切或硬剪切)长度Clipping>10；

(c)短读长序列本身的读长Read length<100。

步骤2.2、根据步骤2.1筛选出来的短读长序列对检测样本中的沙门氏菌进行分型

通过BWA MEM将筛选出来的短读长序列与基因组池中的所有沙门氏菌的每一条基因组序列分别进行比对。对每一条短读长序列，可以通过比对得到该基因组池的一个子集，该短读长序列能够正确比对到该子集里的每一条基因组序列上，而不能比对到该子集的补集里的任何一条基因组序列上。

由于沙门氏菌的不同菌株的基因组之间极其相似，在短读长序列与基因组池的比对中，很多同种沙门氏菌能够比对到不同的沙门氏菌菌株上。为了能够得到最好的鉴定结果，本发明采用基于最小覆盖优化算法MSC(Minimum Set Cover)对上述比对结果进行优化处理。该优化处理的目标是针对输入的短读长序列数据，从沙门氏菌的基因组池里找到一个最小的参考序列的子集，可以提供最佳覆盖。优化方程如下所示：

C(I)＝(|U_i∈IS_i|-γ|I|)

R＝{r_j|j＝1,...,J}

其中,I代表检测样本中含有的沙门氏菌短读长序列的集合；

U代表基因组池中所有沙门氏菌的基因组序列；

R代表(根据步骤2.1)过滤后的短读长序列的集合；

代表集合R中能够完全匹配上沙门氏菌i∈U的短读长序列的集合；

│·│代表集合的基数；

对上述优化方程进行求解，即可得到检测样本中含有的沙门氏菌的集合I，并得到该集合I中的沙门氏菌的类型。

上述优化方程可以采用如下贪心解法来求解，具体如下：

1、I←φ,其中,φ为空集合；

2、计算覆盖强度权重；

3、对每个沙门氏菌

计算它的覆盖权重

4、选择具有最高覆盖权重的沙门氏菌i₀；

5、如果C(I)＜C(I+i₀)，I←I+i₀，返回步骤2；

6、否则，输出I。

当然，上述算法只是优化方程的解法之一，也可以使用其他算法对优化方程进行求解。

本发明的关键在于，本发明首先构建了沙门氏菌的参考序列以及沙门氏菌的基因组池，在对检测样本中的沙门氏菌进行鉴定及分型时，将检测样本的二代测序数据与沙门氏菌的参考序列进行比对，筛除非沙门氏菌的短读长序列，得到过滤后的短读长序列；再将该过滤后的短读长序列与基因组池中的所有沙门氏菌的基因组序列进行比对，并进行优化处理，得到优化结果用以确定沙门氏菌及其类型。首先，本发明的去噪方案通过序列过滤，去除了不相关物种的短读长序列，减少了噪声数据对后续比对及优化算法的干扰，同时，因为滤除过的短读长序列比较少，这个办法同时也降低了后续操作的复杂度。最后，通过贪心算法求解优化问题，计算复杂度低，运行速度快。简言之，本发明的方法具有检测快速而精确的优点。

为了更具体地说明本发明的有益效果，以下进行举例说明。

宏基因组是指特定环境中全部微生物遗传物质的总和，那么检测样本中必然含有多组基因组序列。该例子中进行以下假设：检测样本中的宏基因组中包含了100种基因组序列；沙门氏菌目前的种类为1800种以上，故假设沙门氏菌基因库中含1800种沙门氏菌。

基于以上假设对检测样本中的宏基因组进行检测和鉴定，确定检测样本中是否存在沙门氏菌，以及确定沙门氏菌的类型。

若检测样本的宏基因组中不存在沙门氏菌：

现有的检测方法(直接将宏基因组中的基因组序列与所有沙门氏菌进行逐一比对)则需要将宏基因组中的100个基因组序列分别与沙门氏菌基因库中的1800种沙门氏菌的基因组序列进行比对分析，那么需要对比分析180000次才能得出结论。

而采用本发明的方法，则首先将宏基因组的100个基因组序列与一个沙门氏菌的参考序列进行比对分析，筛除非沙门氏菌，因为该宏基因组没有沙门氏菌，宏基因组中的100个基因组序列均被筛除，得到结论，即采用本发明方法只需对比分析100次即可得到结论。

若检测样本的宏基因组中存在1个种类沙门氏菌：

现有检测方法，99个非沙门氏菌则分别与1800种沙门氏菌的基因组序列进行比对分析，需要对比分析178200次；1个沙门氏菌与沙门氏菌基因库中的1800种沙门氏菌的基因组序列进行比对分析，需要进行比对1-1800次。

可见，本发明能够高效鉴定出检测样本中是否具备沙门氏菌，并且确定出沙门氏菌的具体类型。若检测样本的宏基因组存在多个种类时，本发明能够快速高效地确定出检测样本中的沙门氏菌类型。

以上所述，仅是本发明实施例而已，并非对本发明的技术范围作任何限制，故凡是依据本发明的技术实质对以上实施例所作的任何细微修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种基于二代测序数据分析对宏基因组中沙门氏菌的鉴定方法，其特征在于：包括

2.根据权利要求1所述的一种基于二代测序数据分析对宏基因组中沙门氏菌的鉴定方法，其特征在于：将检测样本的二代测序数据与参考序列进行比对时，进行以下过滤：

(1)对于双端二代测序数据，过滤掉一端没有比对上、或者两端均没有比对上的短读长序列，仅留下两端均成功比对上的数据；

(a)短读长序列与比对上的参考序列的距离NM>5；

(b)比对结果的剪切长度Clipping>10；

(c)短读长序列本身的读长Read length<100。

3.一种基于二代测序数据分析对宏基因组中沙门氏菌的鉴定装置，其特征在于：包括

4.根据权利要求2所述的一种基于二代测序数据分析对宏基因组中沙门氏菌的鉴定装置，其特征在于：所述装置还包括

(3)对于双端二代测序数据，过滤掉一端没有比对上、或者两端均没有比对上的短读长序列，仅留下两端均成功比对上的数据；

(4)对于两端均成功比对上的二代测序数据，过滤掉满足以下三个条件之一的数据：

(a)短读长序列与比对上的参考序列的距离NM>5；

(b)比对结果的剪切长度Clipping>10；

(c)短读长序列本身的读长Read length<100；

5.一种基于二代测序数据分析对宏基因组中沙门氏菌的分型方法，其特征在于：包括

采用如权利要求1或2所述的鉴定方法鉴定检测样本中是否含有沙门氏菌；

6.根据权利要求5所述的一种基于二代测序数据分析对宏基因组中沙门氏菌的分型方法，其特征在于：所述基因池组的构建方法如下：

7.根据权利要求5所述的一种基于二代测序数据分析对宏基因组中沙门氏菌的分型方法，其特征在于：采用最小覆盖优化算法MSC对分型结果进行优化处理；

优化方程为：

C(I)＝(|U_i∈IS_i|-γ|I|)

R＝{r_j|j＝1,...,J}

其中,I代表检测样本中含有的沙门氏菌短读长序列的集合；

U代表基因组池中所有沙门氏菌的基因组序列；

R代表过滤后的短读长序列的集合；

代表R中能够完全匹配上沙门氏菌i∈U的短读长序列的集合；

│·│代表集合的基数；

8.根据权利要求7所述的一种基于二代测序数据分析对宏基因组中沙门氏菌的分型方法，其特征在于：所述优化方程采用贪心算法求解。

9.一种基于二代测序数据分析对宏基因组中沙门氏菌的分型装置，其特征在于：包括

如权利要求3或4所述的鉴定装置，用于鉴定出检测样本中是否含有沙门氏菌；

以及

10.根据权利要求9所述的一种基于二代测序数据分析对宏基因组中沙门氏菌的分型装置，其特征在于：所述分型装置还包括

所述优化处理所采用的优化方程为：

C(I)＝(|U_i∈IS_i|-γ|I|)

R＝{r_j|j＝1,...,J}

其中,I代表检测样本中含有的沙门氏菌短读长序列的集合；

U代表基因组池中所有沙门氏菌的基因组序列；

R代表过滤后的短读长序列的集合；

代表R中能够完全匹配上沙门氏菌i∈U的短读长序列的集合；

│·│代表集合的基数；