CN117976051A - 一种宏基因组测序数据分析方法、计算机介质、系统 - Google Patents
一种宏基因组测序数据分析方法、计算机介质、系统 Download PDFInfo
- Publication number
- CN117976051A CN117976051A CN202311817803.1A CN202311817803A CN117976051A CN 117976051 A CN117976051 A CN 117976051A CN 202311817803 A CN202311817803 A CN 202311817803A CN 117976051 A CN117976051 A CN 117976051A
- Authority
- CN
- China
- Prior art keywords
- reads
- window
- species
- genome
- ratio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000012163 sequencing technique Methods 0.000 title claims abstract description 38
- 238000007405 data analysis Methods 0.000 title claims abstract description 19
- 241000894007 species Species 0.000 claims abstract description 61
- 238000001914 filtration Methods 0.000 claims abstract description 32
- 244000005700 microbiome Species 0.000 claims abstract description 14
- 230000000813 microbial effect Effects 0.000 claims abstract description 10
- 239000006185 dispersion Substances 0.000 claims description 28
- 238000004364 calculation method Methods 0.000 claims description 12
- 108090000623 proteins and genes Proteins 0.000 claims description 7
- 238000000638 solvent extraction Methods 0.000 claims description 5
- 238000012216 screening Methods 0.000 claims description 4
- 238000002864 sequence alignment Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 3
- 210000001124 body fluid Anatomy 0.000 claims description 2
- 239000010839 body fluid Substances 0.000 claims description 2
- 238000005192 partition Methods 0.000 claims 1
- 238000001514 detection method Methods 0.000 abstract description 14
- 230000035945 sensitivity Effects 0.000 abstract description 9
- 244000052769 pathogen Species 0.000 description 19
- 230000001717 pathogenic effect Effects 0.000 description 12
- 238000003908 quality control method Methods 0.000 description 11
- 241000894006 Bacteria Species 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 5
- 150000007523 nucleic acids Chemical class 0.000 description 5
- 241000588747 Klebsiella pneumoniae Species 0.000 description 4
- 108020004707 nucleic acids Proteins 0.000 description 4
- 102000039446 nucleic acids Human genes 0.000 description 4
- 238000004088 simulation Methods 0.000 description 4
- 238000003745 diagnosis Methods 0.000 description 3
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 208000035473 Communicable disease Diseases 0.000 description 2
- 241000233866 Fungi Species 0.000 description 2
- 241000193998 Streptococcus pneumoniae Species 0.000 description 2
- 241000700605 Viruses Species 0.000 description 2
- 244000000010 microbial pathogen Species 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 229940031000 streptococcus pneumoniae Drugs 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 208000001860 Eye Infections Diseases 0.000 description 1
- 108091028043 Nucleic acid sequence Proteins 0.000 description 1
- 208000034063 Rare infectious disease Diseases 0.000 description 1
- 238000012896 Statistical algorithm Methods 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000017531 blood circulation Effects 0.000 description 1
- 210000000988 bone and bone Anatomy 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 210000003169 central nervous system Anatomy 0.000 description 1
- 238000003759 clinical diagnosis Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 208000011323 eye infectious disease Diseases 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000012268 genome sequencing Methods 0.000 description 1
- 230000001900 immune effect Effects 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 239000013642 negative control Substances 0.000 description 1
- 238000007481 next generation sequencing Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 244000045947 parasite Species 0.000 description 1
- 239000013612 plasmid Substances 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 230000000241 respiratory effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 210000001519 tissue Anatomy 0.000 description 1
- 241001529453 unidentified herpesvirus Species 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/10—Gene or protein expression profiling; Expression-ratio estimation or normalisation
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Theoretical Computer Science (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Genetics & Genomics (AREA)
- Biotechnology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Molecular Biology (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明涉及微生物宏基因组测序检测技术领域,具体涉及一种宏基因组测序数据分析方法、计算机介质、系统。本发明方法,以reads比对到基因组上的离散程度(指标1)联合属内最高reads数比值(指标2),作为数据过滤条件,对微生物基因组序列比对结果进行过滤,排除假阳性。本发明充分考虑过滤指标的生物学意义,以reads覆盖在基因组上的离散程度作为过滤指标,减弱基因组大小差异的影响。同时,相比传统的方法,采用reads数与属内最高reads数物种的reads数比值作为过滤指标,评估受属内reads数最高物种同源性带来的干扰,进一步降低假阳性。相对传统阈值的过滤效果,本发明可以在保证足够敏感性的同时,有效控制假阳性结果。
Description
技术领域
本发明涉及微生物宏基因组测序检测技术领域,具体涉及一种宏基因组测序数据分析方法、计算机介质、系统。
背景技术
感染性疾病是临床常见疾病,而病原体诊断是其诊治中的关键环节。传统的病原体鉴定方法包括培养分离、形态学检测、免疫学检测以及核酸检测,是针对一种或几种病原体目标性的鉴别,检测方法覆盖范围小,一次仅能针对一种或几种特定的病原体,且耗时长、阳性率低,难以满足临床需求。随着测序技术的进步和成本的降低,越来越多的微生物得以测序。宏基因组二代测序(metagenomic next-generation sequencing,mNGS)作为一种新型病原检测方法,既不依赖于传统的微生物培养,也不需要特异性扩增,且其检测范围广泛,可检测细菌、病毒、真菌、寄生虫、罕见病原体,甚至未知病原体,只要是数据中物种都能覆盖,不需要预先猜测可能的病原体。
mNGS具有随机、无偏倚特征,可以准确获得检测样本中所有核酸信息,与已知的微生物序列数据库进行比对分析(比对:指将测序的序列与参考基因组进行匹配的过程),根据序列信息鉴定样本中所含的所有病原微生物,分析出致病病原体,指导临床诊断和治疗,预防病情进一步恶化,尤其在疑难、罕见感染性疾病中发挥着重要作用。目前,mNGS已被用于呼吸系统、中枢神经系统、血流感染、骨和关节、眼部感染等多系统感染性疾病的诊断和病原鉴定。
然而,目前的mNGS检测是基于物种比对的方法,为了保证检测范围囊括尽量全面的病原体微生物,各实验室所构建的数据库极为庞大,物种数量往往超过两万种;由于各类微生物的进化关系极为复杂,存在相当多的物种具有相似的序列,会产生大量的物种比对结果,但其中导致患者致病的真实病原很少,其他检出结果往往是背景菌、定植菌或假阳性结果,会导致在物种比对的过程种产生大量的假阳性结果,对真正致病的微生物判断造成干扰。各实验室一般会设定不同的背景菌库、定植菌库以及阴性对照等方法过滤部分结果,但产生假阳性结果的原因很多,无法完全避免假阳性结果的影响,例如:超过2万个物种的庞大数据库中可能存在部分低质量基因组,大量物种因进化关系具有高同源性的基因组,基因组测序组装过程中产生污染和错误,宏基因组二代测序产生的错误,比对软件和算法本身无法做到完全准确,也会产生少量错误。
针对假阳性产生的原因,各实验室往往在优化数据库的基础上,通常会通过在宏基因组测序数据处理过程中增加数据过滤和置信度判断的过程,以一些具有统计学意义的指标作为数据过滤和置信度指标,通过设置阈值的方式实现数据过滤,控制假阳性,。一般的阈值选择如鉴定reads数、RPM值、丰度、覆盖度、深度等,因病原种类和基因组大小的差异存在一定的局限性。例如:肺炎克雷伯的基因组大小约为5MB,人疱疹病毒的基因组大小约为150KB,相同拷贝数的情况下,即使能够做到准确鉴定,reads数、RPM等值也会存在较大差异,传统阈值很难在这种情况下准确区分真假阳结果。
因此,针对降低宏基因组数据分析假阳性,提出创新的过滤指标,是目前行业内亟待解决的问题之一。
发明内容
为了实现上述目的,本发明的目的在于提供一种宏基因组测序数据分析方法,reads比对到基因组上的离散程度联合属内最高reads数比值,作为数据过滤条件,设置阈值,降低假阳性。
本发明目的之二在于提供一种宏基因组数据分析计算机介质,包括数据过滤模块,运行本发明提供的数据分析方法,降低假阳性。
同时,本发明的目的之三在于提供一种宏基因组数据分析计算机系统,包括本发明提供的计算机介质,运行本发明提供的数据分析方法,降低假阳性。
为了实现上述目的,本发明采用的技术方案如下:
一种宏基因组测序数据分析方法,包括:
1)将待分析数据与微生物数据库基因组序列进行比对,计算物种序列离散度和属内最高reads数比值;
2)以物种序列离散度和属内最高reads数比值设置筛选条件,符合结果输出条件的,输出物种判定结果。;
其中属内最高reads数比值
其中物种reads数是鉴定到物种的绝对reads数;属内最高reads数是样本中鉴定到的与所述物种同属的reads数最高物种的绝对reads数。
可选的,所述序列离散度计算包括:
1)基因组窗口划分:将微生物数据库每个物种基因序列划分为n个窗口;
2)各窗口reads分布计算:统计比对到各个窗口的reads数,根据reads的比对结果判断每条reads比对到基因组的窗口位置,计算每个窗口中reads数bin_reads占比对到该基因组的reads总数all_reads的比例,
3)离散度计算:统计上述每个窗口的bin_ratio在基因组全部窗口上的分布情况,计算标准差:
其中:为所有有reads覆盖窗口的bin_ratio的平均值,n为有reads覆盖窗口的个数,xi为第i个窗口的bin_ratio值。
作为优选的,所述基因组窗口划分具体为将微生物数据库每个物种基因序列均匀划分为100个窗口。
可选的,所述待分析数据为待分析样本采用二代测序方法测序的下机数据初始过滤后的数据。
具体的,所述下机数据初始过滤的具体方法包括去除低质量序列、接头序列和宿主序列。
可选的,所述样本为体液样本或组织样本。
一种计算机介质,包括:
1)序列比对模块:用于将待分析数据与微生物数据库基因组序列进行比对;
2)序列离散度计算模块:用于计算物种序列离散度;
3)属内最高reads数比值计算模块:用于计算属内最高reads数比值
4)结果判断输出模块:用于根据设置的序列离散度和属内最高reads数比值筛选条件,判断输出物种判定结果。
可选的,所述序列离散度计算模块包括:窗口划分模块:用于将微生物数据库每个物种基因序列划分为n个窗口;
各窗口reads分布计算模块:用于统计比对到各个窗口的reads数,根据reads的比对结果判断每条reads比对到基因组的窗口位置,计算每个窗口中reads数bin_reads占比对到该基因组的reads总数all_reads的比例,
离散度计算模块:用于统计上述每个窗口的bin_ratio在基因组全部窗口上的分布情况,计算标准差:
其中:为所有有reads覆盖窗口的bin_ratio的平均值,n为有reads覆盖窗口的个数,xi为第i个窗口的bin_ratio值。
可选的,还包括数据过滤模块,用于对输入的待分析样本的原始测序数据去除低质量序列、接头序列和宿主序列处理。
一种计算机系统,由上述计算机系统组装而成。
需要说明的是,上述分析方法、计算机介质和计算机系统,在运行本发明所述离散度计算时,当n=1时,即reads仅比对到一个窗口中,认为离散程度最小,该值赋值为0;
本发明宏基因组测序数据分析方法,物种注释分析过程中,以reads比对到基因组上的离散程度(指标1)联合属内最高reads数比值(指标2),作为数据过滤条件,设置阈值,对微生物基因组序列比对结果进行过滤,排除假阳性。
本发明设计的过滤指标,充分考虑其生物学意义,理论上,reads覆盖在基因组上的位置离散程度越大,鉴定可信度越高。最理想的情况是鉴定到该病原的大量reads可以均匀分布在基因组的所有位置;若出现大量reads集中比对于一个窗口中,更有可能是reads重复率过高,且比对偏好性造成的影响,可信度低,因此以reads覆盖在基因组上的离散程度作为过滤指标,可以减弱基因组大小差异的影响。同时,考虑物种同源性导致的假阳性结果的影响,相比传统的方法,本发明采用属内最高reads数比值作为过滤指标,评估受属内reads数最高物种同源性带来的干扰,进一步降低假阳性。
进一步,本发明基于统计学意义,优化reads覆盖再基因组上的离散程度的计算方法,具体将基因组均匀划分为100个窗口,根据比对结果判断每条reads比对位置位于哪个窗口,通过计算不同窗口比对reads数比例的标准差值来评估reads在基因组上分布的离散程度,该值越小,代表离散程度越高。相比其他数据统计算法,本发明采用标准差值的计算方法,进一步降低假阳性,提高病原体识别准确性。
相对传统阈值的过滤效果,本发明两种过滤指标进行结合后可以在保证足够敏感性的同时,有效控制假阳性结果。在模拟数据和临床数据的分析统计中均表现出高于传统方法的性能。
具体实施方式
除非另外定义,否则本文使用的所有技术术语和科学术语具有与本发明所述技术领域普通技术人员通常理解相同的含义。
除非特别说明,本文应用和涵盖的技术是本发明所属技术领域的技术人员熟知的标准方法。所述材料、方法和实施例仅用作说明目的,而不以任何方式限制本发明的保护范围。
本文所述的,术语“宏基因组(Metagenome)”,又称群落基因组,是指特定小生境中全部微小生物遗传物质的总和;
本文所述的,原始测序数据通过对待测样本的核酸序列进行测序文库制备、上级测序获得;包括获取待测样本的核酸,制备所述核酸的测序文库,测序文库的制备方法根据所选择的测序方法要求进行,可以选择但不限于illumina公司的Hiseq2000/2500测序平台,测序方式可以选择单端测序,也可以选择双端测序,获得的下机数据是测读出来的片段,称为读段(reads);
本发明涉及计算机介质或计算机系统产品,具体是指包括计算机可读存储介质,其上载有用于执行本发明计算机可读程序指令;其中“计算机可读存储介质”是指可以保持和存储由指令执行设备使用的指令的有形设备。
本文所述的“微生物数据库基因组序列”为来源于公共数据库的基因组序列原始数据,如NCBI、FDA-ARGOS等,进行过滤优化处理后再整合成的比对参考序列;
实施例
作为举例说明,本实施例提供的宏基因组测序数据分析方法,具体为:
1)数据过滤:对待分析样本的原始测序数据依次运行去除低质量序列、接头序列、宿主序列和同源序列,获得待分析数据;
2)序列比对:将待分析数据与包含病原体参考序列的微生物数据库基因组序列比对;
3)过滤质控:
A:序列比对结果统计:
第一步:将所述基因组序列分别均分为100个窗口,并对每个窗口编号1~100;
第二步:统计reads比对到基因组窗口的位置,以及比对至每个窗口的reads数量,以及比对到某一基因组的总reads数(即物种reads数);
B:计算物种序列离散度:
第一步:计算每个窗口的reads占比:
第二步:离散度统计,统计上述每个窗口的bin_ratio在基因组全部窗口上的分布情况,计算标准差:
其中:为所有有reads覆盖窗口的bin_ratio的平均值,n为有reads覆盖窗口的个数,xi为第i个窗口的bin_ratio值;
对于特殊情况,n=1时,即reads仅比对到一个窗口中,认为离散程度最小,该值赋值为0;
C:计算属内最高reads数比值:
其中物种reads数是鉴定到物种的绝对reads数;属内最高reads数是样本中鉴定到的与所述物种同属的reads数最高物种的绝对reads数;
4)输出结果:对于满足std_max>0.5且genus_top_reads_fc>0.1的结果作为微生物阳性判定结果输出。
本发明提供的上述分析方法,可以通过指令代码内置在计算机存储介质,指令代码实现上述步骤的分析方法,实现病原体检测。
试验例:
1、模拟用宏基因组测序数据:
1)阳性病原:选择4种类细菌、4种病毒和2种真菌进行模拟数据测试;
选用基因组见下表1:
表1
2)模拟数据:使用模拟数据软件art,随机抽取对应基因组序列,按照表格中的reads数进行模拟后合并成为单个样本20M数据量的fastq文件,具体数据量设置见下表2;
表2
2、数据分析方法:
1)数据过滤:对模拟测序数据过滤获得clean reads,去除人源和质粒序列,获得待分析数据;
2)序列比对:将待分析数据与包含病原体参考序列的微生物数据库基因组序列比对;所有样本的原始检测结果中,十个模拟物种都有检出;原始比对结果灵敏度为100%(120/120),假阳性结果有118个;
3)过滤质控:
方法1:
第一步::统计比对到某一基因组的总reads数(即物种reads数);
第二步:以第一步统计的物种reads数作为质控指标,设置阈值为reads>3,对步骤2)的序列比对结果过滤质控,结果为,检出灵敏度为96.67%(116/120),假阳性结果30个,仅有sample11的肺炎克雷伯菌检出reads数为2,假阳性和假阴性结果见下表3:
表3
方法2:
第一步:统计reads比对到某一基因组的总reads数(即物种reads数),该种所在的Kingdom的reads总数;
第二步:计算种相对丰度=物种reads数/该种所在的Kingdom的reads总数*100%;
第三步:以种相对丰度作为质控指标,设置阈值为种相对丰度>0.1%,对步骤2)的序列比对结果过滤质控,结果为,灵敏度为100%(120/120),假阳性结果19个,假阳性结果见下表4:
表4
方法3:
第一步:统计reads比对到基因组的位置,以及比对到某一基因组的总reads数(即物种reads数);
第二步:计算所有reads比对到物种基因组上位置的标准差(std),
其中:为所有有reads覆盖在基因组位置的平均值,n为比对该基因组的reads数,i为比对到基因组的reads的顺序信号,xi为第i个reads覆盖到基因组的位置;
第四步:以第三步计算的所有reads比对到物种基因组上位置的标准差(std)作为质控指标,设置阈值为std>3000,对步骤2)的序列比对结果过滤质控,结果为,灵敏度为75.83%(91/120),假阳性结果45个,假阳性和假阴性结果见下表5:
表5
方法4:
第一步:将所述基因组序列分别均分为100个窗口,并对每个窗口编号1~100;
第二步:统计reads比对到基因组窗口的位置,以及比对至每个窗口的reads数量,以及比对到某一基因组的总reads数(即物种reads数);
第三步:计算物种序列离散度:
A:计算每个窗口的reads占比:
B:离散度统计,统计上述每个窗口的bin_ratio在基因组全部窗口上的分布情况,计算标准差:
其中:为所有有reads覆盖窗口的bin_ratio的平均值,n为有reads覆盖窗口的个数,xi为第i个窗口的bin_ratio值;
对于特殊情况,n=1时,即reads仅比对到一个窗口中,认为离散程度最小,该值赋值为0;
第四步:以第三步计算的每个窗口的bin_ratio在基因组全部窗口上的分布情况作为质控指标,设置阈值为std_max>0.5对步骤2)的序列比对结果过滤质控,结果为,灵敏度为98.33%(118/120),假阳性结果45个,仅sample11的肺炎克雷伯菌(2条reads)和肺炎链球菌(6条reads)未能通过阈值,假阳性和假阴性结果见下表6:
表6
方法5:
第一步:将所述基因组序列分别均分为100个窗口,并对每个窗口编号1~100;
第二步:统计reads比对到基因组窗口的位置,以及比对至每个窗口的reads数量,以及比对到某一基因组的总reads数(即物种reads数);
第三步:
A:计算每个窗口的reads占比:
B:离散度统计,统计上述每个窗口的bin_ratio在基因组全部窗口上的分布情况,计算标准差:
其中:为所有有reads覆盖窗口的bin_ratio的平均值,n为有reads覆盖窗口的个数,xi为第i个窗口的bin_ratio值;
对于特殊情况,n=1时,即reads仅比对到一个窗口中,认为离散程度最小,该值赋值为0;
C:计算属内最高reads数比值:
其中物种reads数是鉴定到物种的绝对reads数;属内最高reads数是样本中鉴定到的与所述物种同属的reads数最高物种的绝对reads数;
第四步:以每个窗口的bin_ratio在基因组全部窗口上的分布情况,以及属内最高reads数比值联合作为质控指标,设置阈值为std_max>0.5且genus_top_reads_fc>0.1对步骤2)的序列比对结果过滤质控,结果为,灵敏度为98.33%(118/120),假阳性结果被全部过滤掉,仅sample11的肺炎克雷伯菌(2条reads)和肺炎链球菌(6条reads)未能通过阈值,假阴性结果见下表7:
表7
3、结论:
通过与传统质控指标相比,本发明设计的物种序列离散度联合属内最高reads数作为质控指标,可以在保证足够敏感性的同时很好的控制假阳性结果。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种宏基因组测序数据分析方法,其特征在于,包括:
1)将待分析数据与微生物数据库基因组序列进行比对,计算物种序列离散度和属内最高reads数比值;
2)以物种序列离散度和属内最高reads数比值设置筛选条件,符合结果输出条件的,输出物种判定结果;
其中属内最高reads数比值
其中物种reads数是鉴定到物种的绝对reads数;属内最高reads数是样本中鉴定到的与所述物种同属的reads数最高物种的绝对reads数。
2.如权利要求1所述的宏基因组测序数据分析方法,其特征在于,所述序列离散度计算包括:
1)基因组窗口划分:将微生物数据库每个物种基因序列划分为n个窗口;
2)各窗口reads分布计算:统计比对到各个窗口的reads数,根据reads的比对结果判断每条reads比对到基因组的窗口位置,计算每个窗口中reads数bin_reads占比对到该基因组的reads总数all_reads的比例,
3)离散度计算:统计上述每个窗口的bin_ratio在基因组全部窗口上的分布情况,计算标准差:
其中:为所有有reads覆盖窗口的bin_ratio的平均值,n为有reads覆盖窗口的个数,xi为第i个窗口的bin_ratio值。
3.如权利要求2所述的宏基因组测序数据分析方法,其特征在于,所述基因组窗口划分具体为将微生物数据库每个物种基因序列均匀划分为100个窗口。
4.如权利要求3所述的宏基因组测序数据分析方法,其特征在于,所述待分析数据为待分析样本采用二代测序方法测序的下机数据初始过滤后的数据。
5.如权利要求4所述的宏基因组测序数据分析方法,其特征在于,所述下机数据初始过滤的具体方法包括去除低质量序列、接头序列和宿主序列。
6.如权利要求5所述的宏基因组测序数据分析方法,其特征在于,所述样本为体液样本或组织样本。
7.一种计算机介质,其特征在于,包括:
1)序列比对模块:用于将待分析数据与微生物数据库基因组序列进行比对;
2)序列离散度计算模块:用于计算物种序列离散度;
3)属内最高reads数比值计算模块:用于计算属内最高reads数比值
4)结果判断输出模块:用于根据设置的序列离散度和属内最高reads数比值筛选条件,判断输出物种判定结果。
8.如权利要求7所述的计算机介质,其特征在于,所述序列离散度计算模块包括:窗口划分模块:用于将微生物数据库每个物种基因序列划分为n个窗口;
各窗口reads分布计算模块:用于统计比对到各个窗口的reads数,根据reads的比对结果判断每条reads比对到基因组的窗口位置,计算每个窗口中reads数bin_reads占比对到该基因组的reads总数all_reads的比例,
离散度计算模块:用于统计上述每个窗口的bin_ratio在基因组全部窗口上的分布情况,计算标准差:
其中:为所有有reads覆盖窗口的bin_ratio的平均值,n为有reads覆盖窗口的个数,xi为第i个窗口的bin_ratio值。
9.如权利要求8所述的计算机介质,其特征在于,还包括数据过滤模块,用于对输入的待分析样本的原始测序数据去除低质量序列、接头序列和宿主序列处理。
10.一种计算机系统,其特征在于,由如权利要求7~9任一项所述的计算机系统组装而成。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311817803.1A CN117976051A (zh) | 2023-12-27 | 2023-12-27 | 一种宏基因组测序数据分析方法、计算机介质、系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311817803.1A CN117976051A (zh) | 2023-12-27 | 2023-12-27 | 一种宏基因组测序数据分析方法、计算机介质、系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117976051A true CN117976051A (zh) | 2024-05-03 |
Family
ID=90852183
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311817803.1A Pending CN117976051A (zh) | 2023-12-27 | 2023-12-27 | 一种宏基因组测序数据分析方法、计算机介质、系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117976051A (zh) |
-
2023
- 2023-12-27 CN CN202311817803.1A patent/CN117976051A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111951895B (zh) | 基于宏基因组学的病原分析方法、分析装置、设备及存储介质 | |
CN110349630B (zh) | 血液宏基因组测序数据的分析方法、装置及其应用 | |
CN113744807B (zh) | 一种基于宏基因组学的病原微生物检测方法及装置 | |
CN113160882B (zh) | 一种基于三代测序的病原微生物宏基因组检测方法 | |
CN111599413B (zh) | 一种测序数据的分类单元组分计算方法 | |
CN111462821B (zh) | 病原微生物分析鉴定系统及应用 | |
US10127351B2 (en) | Accurate and fast mapping of reads to genome | |
CN114333987B (zh) | 一种基于宏基因组测序的预测耐药表型的数据分析方法 | |
CN105525033A (zh) | 检测血液中微生物的方法及装置 | |
CN114974411A (zh) | 宏基因组病原微生物基因组数据库及其构建方法 | |
CN115719616B (zh) | 一种病原物种特异性序列的筛选方法及系统 | |
JP2016518822A (ja) | アセンブルされていない配列情報、確率論的方法、及び形質固有(trait−specific)のデータベースカタログを用いた生物材料の特性解析 | |
CN116469462B (zh) | 一种基于双重测序的超低频dna突变识别方法和装置 | |
CN114496089B (zh) | 一种病原微生物鉴定方法 | |
CN117976051A (zh) | 一种宏基因组测序数据分析方法、计算机介质、系统 | |
Vranckx et al. | Analysis of MALDI‐TOF MS Spectra using the BioNumerics Software | |
CN113470752A (zh) | 一种基于纳米孔测序仪的细菌测序数据鉴定方法 | |
CN114334005A (zh) | 一种广谱病原微生物分析鉴定方法及系统 | |
CN114107454A (zh) | 基于宏基因/宏转录组测序的呼吸道感染病原检测方法 | |
CN111575358A (zh) | 非诊断目的的肠道微生物定性与定量检测方法及检测系统 | |
Wilkinson et al. | Using nanopore sequencing to identify bacterial infection in joint replacements: a preliminary study | |
CN211578386U (zh) | 一种宏基因组分析装置 | |
CN116153411B (zh) | 多病原体探针库组合的设计方法及应用 | |
CN118692562A (zh) | 一种基于二代测序的病原微生物宏基因组检测的生物信息方法 | |
CN118136110A (zh) | 一种区分机会致病菌定植与感染的方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |