CN114807398A - 宏基因组中沙门氏菌的鉴定方法及装置、分型方法及装置 - Google Patents

宏基因组中沙门氏菌的鉴定方法及装置、分型方法及装置 Download PDF

Info

Publication number
CN114807398A
CN114807398A CN202210501578.XA CN202210501578A CN114807398A CN 114807398 A CN114807398 A CN 114807398A CN 202210501578 A CN202210501578 A CN 202210501578A CN 114807398 A CN114807398 A CN 114807398A
Authority
CN
China
Prior art keywords
salmonella
sequence
short read
sequences
generation sequencing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210501578.XA
Other languages
English (en)
Inventor
杨文娴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Jiyuan Technology Co ltd
Original Assignee
Xiamen Jiyuan Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Jiyuan Technology Co ltd filed Critical Xiamen Jiyuan Technology Co ltd
Priority to CN202210501578.XA priority Critical patent/CN114807398A/zh
Publication of CN114807398A publication Critical patent/CN114807398A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6888Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms
    • C12Q1/689Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms for bacteria
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Organic Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Biochemistry (AREA)
  • Genetics & Genomics (AREA)
  • Immunology (AREA)
  • General Engineering & Computer Science (AREA)
  • Microbiology (AREA)
  • Molecular Biology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及一种基于二代测序数据分析对宏基因组中的沙门氏菌进行鉴定方法及装置、分型方法及装置,其构建了沙门氏菌参考序列以及沙门氏菌的基因组池,在对检测样本中的沙门氏菌进行鉴定及分型时,将检测样本的二代测序数据与沙门氏菌的参考序列进行比对,筛除非沙门氏菌的短读长序列,得到过滤后的短读长序列;再将该过滤后的短读长序列与基因组池中的所有沙门氏菌的基因组序列进行比对,并进行优化处理,得到优化结果用以确定沙门氏菌及其类型。本发明具有检测快速高效的优点。

Description

宏基因组中沙门氏菌的鉴定方法及装置、分型方法及装置
本申请是发明专利申请201811276598.1的分案申请,其申请日为:2018年10月30日,发明创造名称为:一种基于二代测序数据分析对宏基因组中的沙门氏菌进行鉴定及分型的方法。
技术领域
本发明涉及数据分析应用领域,特别是应用于沙门氏菌的数据分析技术,具体涉及一种基于二代测序数据分析对宏基因组中的沙门氏菌进行鉴定方法及装置、分型方法及装置。
背景技术
随着经济的发展,食品中存在的卫生安全隐患问题愈发严重,沙门氏菌是食品中最常见的致病菌,是导致食物中毒的重要病原菌之一,严重威胁到人类健康和食品安全。据美国食品药品监管局(FDA)统计,在美国每年因食源性致病菌感染人数可达4800万,其中住院患者和死亡人数分别为12.8万和3000,造成巨大的经济负担。在我国,每年由沙门氏菌引起的食物中毒事件占到全部食物中毒的40%-60%。
沙门氏菌属肠杆菌科,革兰氏阴性肠道杆菌,目前已经发现1800种以上,按抗原成分可分为甲、乙、丙、丁、戊等基本菌型。其中与人类疾病有关的主要有甲组的副伤寒甲杆菌,乙组的副伤寒乙杆菌和鼠伤寒杆菌,丙组的副伤寒丙杆菌和猪霍乱杆菌,丁组的伤寒和肠炎杆菌。此菌可引起禽伤寒、鸡白痢、猪霍乱、鼠伤寒沙门氏菌病、猪副伤寒、马流产沙门氏菌病等疾病。致病性最强的是猪霍乱沙门氏菌(Salmonella cholerae),其次是鼠伤寒沙门氏菌(Salmonella typhimurium)和肠炎沙门氏菌(Salmonella enteritidis)。
目前,在我国普遍采用传统的细菌学检测方法和血清学方法,这些检测方法大致需要4到6天才能得到有效的结果,具有检测时间长、操作繁琐的缺陷,难以应对突发疫情的发生。
有鉴于此,本发明人针对上述对宏基因组中的沙门氏菌进行鉴定及分型的方法上未臻完善所导致的诸多缺失及不便,而深入构思,且积极研究改良试做而开发设计出本发明。
发明内容
本发明的目的在于提供一种对宏基因组中的沙门氏菌进行鉴定方法及装置、分型方法及装置,其能快速而准确检测出是否含有沙门氏菌以及确定所含沙门氏菌的类型。
为实现上述目的,本发明采用的技术方案是:
一种基于二代测序数据分析对宏基因组中沙门氏菌的鉴定方法,其包括
对检测样本中的宏基因组进行二代测序,得到样本中的宏基因组的二代测序数据;
将宏基因组的二代测序数据与沙门氏菌参考序列进行比对,筛除非沙门氏菌独有的短读长序列,得到对比后的短读长序列,即沙门氏菌独有的短读长序列;若该短读长序列数量为0,则鉴定检测样本中不含沙门氏菌;若数量不为0,则鉴定检测样本中含有沙门氏菌;
所述沙门氏菌参考序列是指将多个沙门氏菌独有的短读长序列依次首尾连接后得到的序列;该沙门氏菌参考序列中,每相邻两段沙门氏菌独有的短读长序列之间采用N连接。
将检测样本的二代测序数据与参考序列进行比对时,进行以下过滤:
(5)对于双端二代测序数据,过滤掉一端没有比对上、或者两端均没有比对上的短读长序列,仅留下两端均成功比对上的数据;
(6)对于两端均成功比对上的二代测序数据,过滤掉满足以下三个条件之一的数据:
(a)短读长序列与比对上的参考序列的距离NM>5;
(b)比对结果的剪切长度Clipping>10;
(c)短读长序列本身的读长Read length<100。
一种基于二代测序数据分析对宏基因组中沙门氏菌的鉴定装置,其包括
沙门氏菌参考序列构建模块,用于将多个沙门氏菌独有的短读长序列进行首尾连接,并在相邻两段沙门氏菌独有的短读长序列之间用N连接,以构建出沙门氏菌参考序列;
检测样本处理模块,用于对检测样本中的宏基因组进行二代测序,得到样本中宏基因组的二代测序数据;
沙门氏菌鉴定模块,连接沙门氏菌参考序列构建模块和检测样本处理模块,用于获取沙门氏菌参考序列和检测样本的二代测序数据,并将检测样本的二代测序数据与沙门氏菌参考序列进行比对,筛除非沙门氏菌独有的短读长序列,得到对比后的短读长序列,即沙门氏菌独有的短读长序列;若筛选后得到的沙门氏菌独有的短读长序列数量为0,则鉴定为检测样本中不含有沙门氏菌,若数量不为0,则鉴定为检测样本中含有沙门氏菌。
所述装置还包括
二代测序数据过滤模块,连接检测样本处理模块,用于获取检测样本的二代测序数据,并对二代测序数据进行以下过滤处理:
(7)对于双端二代测序数据,过滤掉一端没有比对上、或者两端均没有比对上的短读长序列,仅留下两端均成功比对上的数据;
(8)对于两端均成功比对上的二代测序数据,过滤掉满足以下三个条件之一的数据:
(a)短读长序列与比对上的参考序列的距离NM>5;
(b)比对结果的剪切长度Clipping>10;
(c)短读长序列本身的读长Read length<100;
二代测序数据过滤模块还连接沙门氏菌鉴定模块,用于将过滤后的二代测序数据发送至沙门氏菌鉴定模块;沙门氏菌鉴定模块将过滤后的的二代测序数据与沙门氏菌参考序列进行比对,筛除非沙门氏菌独有的短读长序列,得到对比后的短读长序列,即沙门氏菌独有的短读长序列;若筛选后得到的沙门氏菌独有的短读长序列数量为0,则鉴定为检测样本中不含有沙门氏菌,若数量不为0,则鉴定为检测样本中含有沙门氏菌。
一种基于二代测序数据分析对宏基因组中沙门氏菌的分型方法,其包括
采用如上所述的鉴定方法鉴定检测样本中是否含有沙门氏菌;
当鉴定出检测样本中含有沙门氏菌时,将筛选出的沙门氏菌独有的短读长序列与沙门氏菌基因组池中的所有沙门氏菌基因组序列进行比对,得到分型结果,确定检测样本中所含有的沙门氏菌的具体类型;
所述沙门氏菌基因组池为包含了所有沙门氏菌的基因组序列的数据库。
所述基因池组的构建方法如下:
从网上公开数据库下载所有沙门氏菌的基因组序列和测序原始数据,对于完整的基因组序列,过滤掉质粒部分序列,得到只含有沙门氏菌的基因组序列;对于有很多个重叠群组成的基因组序列,将重叠群序列用N连接,形成沙门氏菌的参考基因组序列;对于沙门氏菌的测序原始数据,进行组合形成沙门氏菌的基因组序列;将所述沙门氏菌的基因组序列以及参考基因组序列放入基因组池中形成沙门氏菌的基因组池。
采用最小覆盖优化算法MSC对分型结果进行优化处理;
优化方程为:
Figure BDA0003634645790000061
C(I)=(|Ui∈ISi|-γ|I|)
R={rj|j=1,...,J}
其中,I代表检测样本中含有的沙门氏菌短读长序列的集合;
U代表基因组池中所有沙门氏菌的基因组序列;
R代表过滤后的短读长序列的集合;
Figure BDA0003634645790000062
代表R中能够完全匹配上沙门氏菌i∈U的短读长序列的集合;
│·│代表集合的基数;
γ代表稀疏调节参数,用于控制最优解的稀疏度,γ越大代表能获得的最优解的数据集就越小。
所述优化方程采用贪心算法求解。
一种基于二代测序数据分析对宏基因组中沙门氏菌的分型装置,其包括
如上所述的鉴定装置,用于鉴定出检测样本中是否含有沙门氏菌;
以及
沙门氏菌基因组池模块,存储有沙门氏菌基因组池,该沙门氏菌基因组池中包含了所有沙门氏菌的基因组序列;
沙门氏菌分型模块,连接沙门氏菌基因组池模块,用于获取沙门氏菌基因组池;所述沙门氏菌分型模块还连接鉴定装置的沙门氏菌鉴定模块,当鉴定出检检测样本含有沙门氏菌时,沙门氏菌分型模块从沙门氏菌鉴定模块获取沙门氏菌独有的短读长序列,并将该沙门氏菌独有的短读长序列与沙门氏菌基因组池中的所有沙门氏菌基因组序列进行比对,得到分型结果,确定检测样本中所含有的沙门氏菌的具体类型。
所述分型装置还包括
分型结果优化模块,连接沙门氏菌分型模块,用于获取检测样本中沙门氏菌的分型结果,并对该分型结果进行优化处理;
所述优化处理所采用的优化方程为:
Figure BDA0003634645790000071
C(I)=(|Ui∈ISi|-γ|I|)
R={rj|j=1,...,J}
其中,I代表检测样本中含有的沙门氏菌短读长序列的集合;
U代表基因组池中所有沙门氏菌的基因组序列;
R代表过滤后的短读长序列的集合;
Figure BDA0003634645790000072
代表R中能够完全匹配上沙门氏菌i∈U的短读长序列的集合;
│·│代表集合的基数;
γ代表稀疏调节参数,用于控制最优解的稀疏度,γ越大代表能获得的最优解的数据集就越小。
采用本发明的技术方案后,本发明构建了沙门氏菌的参考序列以及沙门氏菌的基因组池,在对检测样本中的沙门氏菌进行鉴定及分型时,将检测样本的二代测序数据与沙门氏菌的参考序列进行比对,筛除非沙门氏菌的短读长序列,得到过滤后的短读长序列;再将该过滤后的短读长序列与基因组池中的所有沙门氏菌的基因组序列进行比对,并进行优化处理,得到优化结果用以确定沙门氏菌及其类型。该方法具有检测快速而精确的优点,首先,采用沙门氏菌独有的基因片段,合成为一条特定的参考基因序列,通过将短读长序列比对到该参考基因序列,实现序列过滤,去除了不相关物种的短读长序列,同时降低了后续比对及优化算法的复杂度。其次,过滤后的短读长序列再通过序列比对的办法,比对到参考基因组数据库,通过独有的优化算法分析比对结果从而实现菌群的定株。由于非目标菌株的短读长序列已经在去噪步骤被清除,该序列比对步骤精确度高而且计算复杂度低。
附图说明
图1为本发明沙门氏菌的的鉴定及分型方法流程图。
具体实施方式
如图1所示,本发明揭示了一种基于二代测序数据分析对宏基因组中的沙门氏菌进行鉴定及分型的方法,其包括以下步骤:
步骤1、构建沙门氏菌的参考序列以及基因组池;
步骤1.1、以沙门氏菌独有的短读长序列依次首尾连接构建一条参考序列,该参考序列用于短序列过滤。参考序列的构建具体如下:
本实施例中,沙门氏菌共有403段独有的短读长序列,每段独有的短读长序列含有1000碱基(bp),提取上述403段沙门氏菌独有的短读长序列,并且以该独有的短读长序列依次首尾连接合成一条参考序列。
在参考序列中,每相邻两段独有的基因组序列区域之间采用500个N字符连接,从而避免在比对时发生样本的短读长序列比对到相邻两段独有的基因组序列区域的首尾连接的位置,导致出现错误的比对结果。当然,N的数量也不仅仅限于500。
步骤1.2、构建沙门氏菌的基因组池,该基因组池中包含了所有沙门氏菌的基因组序列。
从网上公开数据库下载所有沙门氏菌的基因组序列和测序原始数据,对于完整的基因组序列,过滤掉质粒部分序列,得到只含有沙门氏菌的基因组序列;对于有很多个重叠群组成的基因组序列,将重叠群序列用一定数量的N字符连接,形成沙门氏菌的参考基因组序列;对于沙门氏菌的测序原始数据,进行组合形成沙门氏菌的基因组序列。将上述沙门氏菌的基因组序列以及参考基因组序列放入基因组池中形成沙门氏菌的基因组池。例如,可以从以下网站上下载,构建基因组池序列:
(1)从NCBI网站下载所有沙门氏菌菌株完整的基因组和染色体序列,并过滤掉质粒部分序列,得到只含有沙门氏菌的基因组序列。
(2)从SISTR网站下载所有的沙门氏菌基因组。这些基因组序列不是完整序列,而是由很多个重叠群(contig)组成。与步骤1.1中合成沙门氏菌特有的参考序列的方法类似,将这些重叠群序列用不短于500个N连接,做为参考基因组序列,放入沙门氏菌基因组池。
(3)除此以外,从NCBI网站下载沙门氏菌的测序原始数据(FASTQ文件),用SPAdes软件组装成沙门氏菌基因组序列。
沙门氏菌基因组池里的沙门氏菌基因组序列(FASTA文件)通常都在文件头包含有其菌株名和血清型。对于基因组池中不包含MLST分型的沙门氏菌,可以采用stringMLST软件得到其MLST分型。
步骤2、对检测样本中的沙门氏菌进行鉴定及分型
步骤2.1、从检测样本中筛选出沙门氏菌
BWA是一款基于BWT的快速比对工具,其由三个算法组成。这三个算法分别是:BWAbacktrack,BWA SW and BWA MEM。
首先,对样本进行二代测序,得到样本的二代测序数据。然后对样本的二代测序数据进行质控和预处理,以保证二代测序数据的干净可靠。
然后,使用BWA MEM将宏基因组的二代测序数据与步骤1.1中构建的沙门氏菌的参考序列进行比对,筛除非沙门氏菌的短读长序列,并且得到对比后的短读长序列。
将宏基因组的二代测序数据与参考序列进行比对时,进行以下过滤,以保证对比得到的短读长序列属于沙门氏菌对双端测序数据。过滤条件如下:
(1)对于双端二代测序数据,过滤掉一端没有比对上、或者两端均没有比对上的短读长序列,仅留下两端均成功比对上的数据,该过滤可以用samtools软件完成;
(2)对于两端均成功比对上的二代测序数据,过滤掉满足以下三个条件之一的数据:
(a)短读长序列与比对上的参考序列的距离NM>5;
(b)比对结果的剪切(软剪切或硬剪切)长度Clipping>10;
(c)短读长序列本身的读长Read length<100。
步骤2.2、根据步骤2.1筛选出来的短读长序列对检测样本中的沙门氏菌进行分型
通过BWA MEM将筛选出来的短读长序列与基因组池中的所有沙门氏菌的每一条基因组序列分别进行比对。对每一条短读长序列,可以通过比对得到该基因组池的一个子集,该短读长序列能够正确比对到该子集里的每一条基因组序列上,而不能比对到该子集的补集里的任何一条基因组序列上。
由于沙门氏菌的不同菌株的基因组之间极其相似,在短读长序列与基因组池的比对中,很多同种沙门氏菌能够比对到不同的沙门氏菌菌株上。为了能够得到最好的鉴定结果,本发明采用基于最小覆盖优化算法MSC(Minimum Set Cover)对上述比对结果进行优化处理。该优化处理的目标是针对输入的短读长序列数据,从沙门氏菌的基因组池里找到一个最小的参考序列的子集,可以提供最佳覆盖。优化方程如下所示:
Figure BDA0003634645790000111
C(I)=(|Ui∈ISi|-γ|I|)
R={rj|j=1,...,J}
其中,I代表检测样本中含有的沙门氏菌短读长序列的集合;
U代表基因组池中所有沙门氏菌的基因组序列;
R代表(根据步骤2.1)过滤后的短读长序列的集合;
Figure BDA0003634645790000121
代表集合R中能够完全匹配上沙门氏菌i∈U的短读长序列的集合;
│·│代表集合的基数;
γ代表稀疏调节参数,用于控制最优解的稀疏度,γ越大代表能获得的最优解的数据集就越小。
对上述优化方程进行求解,即可得到检测样本中含有的沙门氏菌的集合I,并得到该集合I中的沙门氏菌的类型。
上述优化方程可以采用如下贪心解法来求解,具体如下:
1、I←φ,其中,φ为空集合;
2、计算覆盖强度权重;
3、对每个沙门氏菌
Figure BDA0003634645790000123
计算它的覆盖权重
Figure BDA0003634645790000122
4、选择具有最高覆盖权重的沙门氏菌i0
5、如果C(I)<C(I+i0),I←I+i0,返回步骤2;
6、否则,输出I。
当然,上述算法只是优化方程的解法之一,也可以使用其他算法对优化方程进行求解。
本发明的关键在于,本发明首先构建了沙门氏菌的参考序列以及沙门氏菌的基因组池,在对检测样本中的沙门氏菌进行鉴定及分型时,将检测样本的二代测序数据与沙门氏菌的参考序列进行比对,筛除非沙门氏菌的短读长序列,得到过滤后的短读长序列;再将该过滤后的短读长序列与基因组池中的所有沙门氏菌的基因组序列进行比对,并进行优化处理,得到优化结果用以确定沙门氏菌及其类型。首先,本发明的去噪方案通过序列过滤,去除了不相关物种的短读长序列,减少了噪声数据对后续比对及优化算法的干扰,同时,因为滤除过的短读长序列比较少,这个办法同时也降低了后续操作的复杂度。最后,通过贪心算法求解优化问题,计算复杂度低,运行速度快。简言之,本发明的方法具有检测快速而精确的优点。
为了更具体地说明本发明的有益效果,以下进行举例说明。
宏基因组是指特定环境中全部微生物遗传物质的总和,那么检测样本中必然含有多组基因组序列。该例子中进行以下假设:检测样本中的宏基因组中包含了100种基因组序列;沙门氏菌目前的种类为1800种以上,故假设沙门氏菌基因库中含1800种沙门氏菌。
基于以上假设对检测样本中的宏基因组进行检测和鉴定,确定检测样本中是否存在沙门氏菌,以及确定沙门氏菌的类型。
若检测样本的宏基因组中不存在沙门氏菌:
现有的检测方法(直接将宏基因组中的基因组序列与所有沙门氏菌进行逐一比对)则需要将宏基因组中的100个基因组序列分别与沙门氏菌基因库中的1800种沙门氏菌的基因组序列进行比对分析,那么需要对比分析180000次才能得出结论。
而采用本发明的方法,则首先将宏基因组的100个基因组序列与一个沙门氏菌的参考序列进行比对分析,筛除非沙门氏菌,因为该宏基因组没有沙门氏菌,宏基因组中的100个基因组序列均被筛除,得到结论,即采用本发明方法只需对比分析100次即可得到结论。
若检测样本的宏基因组中存在1个种类沙门氏菌:
现有检测方法,99个非沙门氏菌则分别与1800种沙门氏菌的基因组序列进行比对分析,需要对比分析178200次;1个沙门氏菌与沙门氏菌基因库中的1800种沙门氏菌的基因组序列进行比对分析,需要进行比对1-1800次。
可见,本发明能够高效鉴定出检测样本中是否具备沙门氏菌,并且确定出沙门氏菌的具体类型。若检测样本的宏基因组存在多个种类时,本发明能够快速高效地确定出检测样本中的沙门氏菌类型。
以上所述,仅是本发明实施例而已,并非对本发明的技术范围作任何限制,故凡是依据本发明的技术实质对以上实施例所作的任何细微修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

Claims (10)

1.一种基于二代测序数据分析对宏基因组中沙门氏菌的鉴定方法,其特征在于:包括
对检测样本中的宏基因组进行二代测序,得到样本中的宏基因组的二代测序数据;
将宏基因组的二代测序数据与沙门氏菌参考序列进行比对,筛除非沙门氏菌独有的短读长序列,得到对比后的短读长序列,即沙门氏菌独有的短读长序列;若该短读长序列数量为0,则鉴定检测样本中不含沙门氏菌;若数量不为0,则鉴定检测样本中含有沙门氏菌;
所述沙门氏菌参考序列是指将多个沙门氏菌独有的短读长序列依次首尾连接后得到的序列;该沙门氏菌参考序列中,每相邻两段沙门氏菌独有的短读长序列之间采用N连接。
2.根据权利要求1所述的一种基于二代测序数据分析对宏基因组中沙门氏菌的鉴定方法,其特征在于:将检测样本的二代测序数据与参考序列进行比对时,进行以下过滤:
(1)对于双端二代测序数据,过滤掉一端没有比对上、或者两端均没有比对上的短读长序列,仅留下两端均成功比对上的数据;
(2)对于两端均成功比对上的二代测序数据,过滤掉满足以下三个条件之一的数据:
(a)短读长序列与比对上的参考序列的距离NM>5;
(b)比对结果的剪切长度Clipping>10;
(c)短读长序列本身的读长Read length<100。
3.一种基于二代测序数据分析对宏基因组中沙门氏菌的鉴定装置,其特征在于:包括
沙门氏菌参考序列构建模块,用于将多个沙门氏菌独有的短读长序列进行首尾连接,并在相邻两段沙门氏菌独有的短读长序列之间用N连接,以构建出沙门氏菌参考序列;
检测样本处理模块,用于对检测样本中的宏基因组进行二代测序,得到样本中宏基因组的二代测序数据;
沙门氏菌鉴定模块,连接沙门氏菌参考序列构建模块和检测样本处理模块,用于获取沙门氏菌参考序列和检测样本的二代测序数据,并将检测样本的二代测序数据与沙门氏菌参考序列进行比对,筛除非沙门氏菌独有的短读长序列,得到对比后的短读长序列,即沙门氏菌独有的短读长序列;若筛选后得到的沙门氏菌独有的短读长序列数量为0,则鉴定为检测样本中不含有沙门氏菌,若数量不为0,则鉴定为检测样本中含有沙门氏菌。
4.根据权利要求2所述的一种基于二代测序数据分析对宏基因组中沙门氏菌的鉴定装置,其特征在于:所述装置还包括
二代测序数据过滤模块,连接检测样本处理模块,用于获取检测样本的二代测序数据,并对二代测序数据进行以下过滤处理:
(3)对于双端二代测序数据,过滤掉一端没有比对上、或者两端均没有比对上的短读长序列,仅留下两端均成功比对上的数据;
(4)对于两端均成功比对上的二代测序数据,过滤掉满足以下三个条件之一的数据:
(a)短读长序列与比对上的参考序列的距离NM>5;
(b)比对结果的剪切长度Clipping>10;
(c)短读长序列本身的读长Read length<100;
二代测序数据过滤模块还连接沙门氏菌鉴定模块,用于将过滤后的二代测序数据发送至沙门氏菌鉴定模块;沙门氏菌鉴定模块将过滤后的的二代测序数据与沙门氏菌参考序列进行比对,筛除非沙门氏菌独有的短读长序列,得到对比后的短读长序列,即沙门氏菌独有的短读长序列;若筛选后得到的沙门氏菌独有的短读长序列数量为0,则鉴定为检测样本中不含有沙门氏菌,若数量不为0,则鉴定为检测样本中含有沙门氏菌。
5.一种基于二代测序数据分析对宏基因组中沙门氏菌的分型方法,其特征在于:包括
采用如权利要求1或2所述的鉴定方法鉴定检测样本中是否含有沙门氏菌;
当鉴定出检测样本中含有沙门氏菌时,将筛选出的沙门氏菌独有的短读长序列与沙门氏菌基因组池中的所有沙门氏菌基因组序列进行比对,得到分型结果,确定检测样本中所含有的沙门氏菌的具体类型;
所述沙门氏菌基因组池为包含了所有沙门氏菌的基因组序列的数据库。
6.根据权利要求5所述的一种基于二代测序数据分析对宏基因组中沙门氏菌的分型方法,其特征在于:所述基因池组的构建方法如下:
从网上公开数据库下载所有沙门氏菌的基因组序列和测序原始数据,对于完整的基因组序列,过滤掉质粒部分序列,得到只含有沙门氏菌的基因组序列;对于有很多个重叠群组成的基因组序列,将重叠群序列用N连接,形成沙门氏菌的参考基因组序列;对于沙门氏菌的测序原始数据,进行组合形成沙门氏菌的基因组序列;将所述沙门氏菌的基因组序列以及参考基因组序列放入基因组池中形成沙门氏菌的基因组池。
7.根据权利要求5所述的一种基于二代测序数据分析对宏基因组中沙门氏菌的分型方法,其特征在于:采用最小覆盖优化算法MSC对分型结果进行优化处理;
优化方程为:
Figure FDA0003634645780000041
C(I)=(|Ui∈ISi|-γ|I|)
R={rj|j=1,...,J}
其中,I代表检测样本中含有的沙门氏菌短读长序列的集合;
U代表基因组池中所有沙门氏菌的基因组序列;
R代表过滤后的短读长序列的集合;
Figure FDA0003634645780000042
代表R中能够完全匹配上沙门氏菌i∈U的短读长序列的集合;
│·│代表集合的基数;
γ代表稀疏调节参数,用于控制最优解的稀疏度,γ越大代表能获得的最优解的数据集就越小。
8.根据权利要求7所述的一种基于二代测序数据分析对宏基因组中沙门氏菌的分型方法,其特征在于:所述优化方程采用贪心算法求解。
9.一种基于二代测序数据分析对宏基因组中沙门氏菌的分型装置,其特征在于:包括
如权利要求3或4所述的鉴定装置,用于鉴定出检测样本中是否含有沙门氏菌;
以及
沙门氏菌基因组池模块,存储有沙门氏菌基因组池,该沙门氏菌基因组池中包含了所有沙门氏菌的基因组序列;
沙门氏菌分型模块,连接沙门氏菌基因组池模块,用于获取沙门氏菌基因组池;所述沙门氏菌分型模块还连接鉴定装置的沙门氏菌鉴定模块,当鉴定出检检测样本含有沙门氏菌时,沙门氏菌分型模块从沙门氏菌鉴定模块获取沙门氏菌独有的短读长序列,并将该沙门氏菌独有的短读长序列与沙门氏菌基因组池中的所有沙门氏菌基因组序列进行比对,得到分型结果,确定检测样本中所含有的沙门氏菌的具体类型。
10.根据权利要求9所述的一种基于二代测序数据分析对宏基因组中沙门氏菌的分型装置,其特征在于:所述分型装置还包括
分型结果优化模块,连接沙门氏菌分型模块,用于获取检测样本中沙门氏菌的分型结果,并对该分型结果进行优化处理;
所述优化处理所采用的优化方程为:
Figure FDA0003634645780000061
C(I)=(|Ui∈ISi|-γ|I|)
R={rj|j=1,...,J}
其中,I代表检测样本中含有的沙门氏菌短读长序列的集合;
U代表基因组池中所有沙门氏菌的基因组序列;
R代表过滤后的短读长序列的集合;
Figure FDA0003634645780000062
代表R中能够完全匹配上沙门氏菌i∈U的短读长序列的集合;
│·│代表集合的基数;
γ代表稀疏调节参数,用于控制最优解的稀疏度,γ越大代表能获得的最优解的数据集就越小。
CN202210501578.XA 2018-10-30 2018-10-30 宏基因组中沙门氏菌的鉴定方法及装置、分型方法及装置 Pending CN114807398A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210501578.XA CN114807398A (zh) 2018-10-30 2018-10-30 宏基因组中沙门氏菌的鉴定方法及装置、分型方法及装置

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202210501578.XA CN114807398A (zh) 2018-10-30 2018-10-30 宏基因组中沙门氏菌的鉴定方法及装置、分型方法及装置
CN201811276598.1A CN109355410A (zh) 2018-10-30 2018-10-30 一种基于二代测序数据分析对宏基因组中的沙门氏菌进行鉴定及分型的方法

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201811276598.1A Division CN109355410A (zh) 2018-10-30 2018-10-30 一种基于二代测序数据分析对宏基因组中的沙门氏菌进行鉴定及分型的方法

Publications (1)

Publication Number Publication Date
CN114807398A true CN114807398A (zh) 2022-07-29

Family

ID=65347149

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202210501578.XA Pending CN114807398A (zh) 2018-10-30 2018-10-30 宏基因组中沙门氏菌的鉴定方法及装置、分型方法及装置
CN201811276598.1A Pending CN109355410A (zh) 2018-10-30 2018-10-30 一种基于二代测序数据分析对宏基因组中的沙门氏菌进行鉴定及分型的方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201811276598.1A Pending CN109355410A (zh) 2018-10-30 2018-10-30 一种基于二代测序数据分析对宏基因组中的沙门氏菌进行鉴定及分型的方法

Country Status (1)

Country Link
CN (2) CN114807398A (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112349350B (zh) * 2020-11-09 2022-07-19 山西大学 基于一种杜氏藻核心基因组序列进行品系鉴定的方法
CN112687344B (zh) * 2021-01-21 2021-09-10 予果生物科技(北京)有限公司 一种基于宏基因组的人腺病毒分子分型和溯源方法及系统

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101928772A (zh) * 2010-03-08 2010-12-29 上海交通大学 沙门氏菌血清组鉴定靶点的筛选方法
AU2016251655A1 (en) * 2015-04-20 2017-11-02 The Trustees Of The University Of Pennsylvania Metagenomic compositions and methods for the detection of breast cancer
CA2989889A1 (en) * 2015-06-25 2016-12-29 Ascus Biosciences, Inc. Methods, apparatuses, and systems for analyzing microorganism strains from complex heterogeneous communities, predicting and identifying functional relationships and interactions thereof, and selecting and synthesizing microbial ensembles based thereon
CN105112569B (zh) * 2015-09-14 2017-11-21 中国医学科学院病原生物学研究所 基于宏基因组学的病毒感染检测及鉴定方法
CN106886689B (zh) * 2015-12-15 2018-12-21 浙江大学 一种病原微生物基因组快速分析方法及系统
CN107513572B (zh) * 2017-09-30 2020-11-20 四川剑南春(集团)有限责任公司 一种鉴别窖泥窖龄的方法
CN108073791B (zh) * 2017-12-12 2019-02-05 元码基因科技(苏州)有限公司 基于二代测序数据检测目标基因结构变异的方法
CN108197434B (zh) * 2018-01-16 2020-04-10 深圳市泰康吉音生物科技研发服务有限公司 去除宏基因组测序数据中人源基因序列的方法
CN109686408B (zh) * 2018-04-19 2023-02-03 江苏先声医学诊断有限公司 一种鉴定耐药基因和/或耐药基因突变位点的宏基因组数据分析方法及系统

Also Published As

Publication number Publication date
CN109355410A (zh) 2019-02-19

Similar Documents

Publication Publication Date Title
Gruber-Vodicka et al. phyloFlash: rapid small-subunit rRNA profiling and targeted assembly from metagenomes
Decano et al. An Escherichia coli ST131 pangenome atlas reveals population structure and evolution across 4,071 isolates
Rasmussen et al. Genome-resolved metagenomics suggests a mutualistic relationship between Mycoplasma and salmonid hosts
Katz et al. A comparative analysis of the Lyve-SET phylogenomics pipeline for genomic epidemiology of foodborne pathogens
Hilliard et al. Genomic characterization of Listeria monocytogenes isolates associated with clinical listeriosis and the food production environment in Ireland
Ravenhall et al. Inferring horizontal gene transfer
Nielsen et al. Closing gaps for performing a risk assessment on Listeria monocytogenes in ready-to-eat (RTE) foods: activity 3, the comparison of isolates from different compartments along the food chain, and from humans using whole genome sequencing (WGS) analysis
Cosentino et al. PathogenFinder-distinguishing friend from foe using bacterial whole genome sequence data
Pritchard et al. ARTIST: high-resolution genome-wide assessment of fitness using transposon-insertion sequencing
Touchon et al. Organised genome dynamics in the Escherichia coli species results in highly diverse adaptive paths
Goodrich et al. Conducting a microbiome study
Ranjbar et al. Enterobacterial repetitive intergenic consensus polymerase chain reaction (ERIC-PCR) genotyping of Escherichia coli strains isolated from different animal stool specimens
Croucher et al. Population genomic datasets describing the post-vaccine evolutionary epidemiology of Streptococcus pneumoniae
Fruciano et al. Genetic linkage of distinct adaptive traits in sympatrically speciating crater lake cichlid fish
Maguire et al. Precision long-read metagenomics sequencing for food safety by detection and assembly of Shiga toxin-producing Escherichia coli in irrigation water
Turkahia et al. Pandemic-scale phylogenomics reveals elevated recombination rates in the SARS-CoV-2 spike region
Dimovski et al. Analysis of Salmonella enterica serovar Typhimurium variable-number tandem-repeat data for public health investigation based on measured mutation rates and whole-genome sequence comparisons
Tadayon et al. An epidemiological perspective on bovine tuberculosis spotlighting facts and dilemmas in Iran, a historically zebu-dominant farming country
Matle et al. Population structure of non-ST6 Listeria monocytogenes isolated in the red meat and poultry value chain in South Africa
CN114807398A (zh) 宏基因组中沙门氏菌的鉴定方法及装置、分型方法及装置
CN114582429B (zh) 基于层次注意力神经网络的结核分枝杆菌耐药性预测方法及装置
Mehmood et al. Molecular survey on cattle and sheep hydatidosis and first detection of Echinococcus canadensis (G6/G7) in sheep in Turkey
Aguirre-Sánchez et al. Phylogenetic group and virulence profile classification in Escherichia coli from distinct isolation sources in Mexico
EP3362927A1 (en) Methods associated with a database that stores a plurality of reference genomes
Amezcua et al. Patterns of condemnation rates in swine from a federally inspected abattoir in relation to disease outbreak information in Ontario (2005–2007)

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination