CN112802552A - 一种抗生素耐药基因影响因素和差异性分析方法 - Google Patents

一种抗生素耐药基因影响因素和差异性分析方法 Download PDF

Info

Publication number
CN112802552A
CN112802552A CN202110035308.XA CN202110035308A CN112802552A CN 112802552 A CN112802552 A CN 112802552A CN 202110035308 A CN202110035308 A CN 202110035308A CN 112802552 A CN112802552 A CN 112802552A
Authority
CN
China
Prior art keywords
antibiotic resistance
antibiotic
analysis
resistance genes
genes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202110035308.XA
Other languages
English (en)
Inventor
夏杨柳
王晶晶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN202110035308.XA priority Critical patent/CN112802552A/zh
Publication of CN112802552A publication Critical patent/CN112802552A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/40ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Biotechnology (AREA)
  • Theoretical Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Analytical Chemistry (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medicinal Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Toxicology (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种抗生素耐药基因影响因素和差异性分析方法,包括如下步骤:输入样本宏基因组数据以及对应样本的表型信息;进行抗生素耐药基因注释,获得抗生素耐药基因丰度文件;抗生素耐药基因影响因素分析:PERMANOVA分析获得对抗生素耐药基因影响显著的表型;抗生素耐药基因差异性分析:利用Wilcoxon检验和FDR校正进行两组均值比较,利用Kruskal‑Wallis检验、PMCMR包中的多重比较和FDR校正进行两组以上均值比较;抗生素耐药基因含量变化趋势判断;本发明所用抗生素参考数据库更好地适应了抗生素耐药序列的增加,多模块组合分析的方法使得抗生素耐药基因的分析更加全面系统;同时,利用数据集拆分重组的方法对多数据集分析结果取交集增加了结果的可靠性。

Description

一种抗生素耐药基因影响因素和差异性分析方法
技术领域
本发明属于宏基因组生物信息学分析领域,涉及一种抗生素耐药基因影响因素和差异性分析方法。
背景技术
20世纪抗生素的出现成为医学史上一大进步。抗生素,作为微生物(包括细菌、真菌、放线菌属)或高等动植物在生活过程中产生的、对某些其他病原微生物具有抑制或杀灭作用的一类化学物质,已经成为医生药方里的常见药,被用于治疗由细菌引起的感染等。研究表明,不同地区或疾病人群因文化、生活方式等因素的不同,抗生素耐药基因存在显著差异。不同年龄、疾病状态等肠道微生物的差异,也会引起抗生素耐药基因的变化。清楚认识抗生素耐药基因的影响因素及差异,对于改善广泛的抗生素耐药性以及促进临床治疗具有重要意义。
随着宏基因组测序技术的发展,通过将宏基因组测序数据比对到参考数据库进行注释,从而获得肠道微生物、代谢通路乃至抗生素耐药基因的丰度,进一步进行差异性分析和可视化的方法和工具越来越常见,并以其流程化的特点为研究人员提供了非常多的便利。
但是,目前针对抗生素耐药基因分析的技术存在着以下缺陷或不足:1)数据库对抗生素耐药基因注释能力有限,无法跟上抗生素耐药基因序列的增加;2)仅通过一次差异性分析获得具有差异性的抗生素耐药基因说服力较差,无法避免偶然性,容易对进一步科学研究产生误导。
发明内容
鉴于以上技术问题,本发明的目的在于提供一种抗生素耐药基因影响因素和差异性分析方法解决现有的抗生素耐药基因注释能力有限以及所获差异性抗生素耐药基因说服力差的问题。
本发明采用技术方案如下:
一种抗生素耐药基因影响因素和差异性分析方法,步骤包括:
获得样本宏基因组测序数据以及表型信息,包括性别,疾病状态,地区等;
对样本宏基因组测序数据通过ARGs-OAP工具,以及SARG v2.0参考数据库对抗生素耐药基因进行注释,获得type和subtype水平的抗生素耐药基因丰度数据;
将丰度数据结合样本表型信息,进行影响因素分析,获得对抗生素耐药基因丰度影响显著的表型;
基于影响显著的表型,对该表型下各组别丰度数据进行差异性分析,获得在该表型分组中具有差异性(或标记性)的抗生素耐药基因。
基于差异性抗生素耐药基因,获得抗生素耐药基因含量变化趋势。
进一步的,影响因素分析步骤包括:
针对性别,疾病状态,地区等表型,分别进行PERMANOVA分析,获得每种表型分别对抗生素耐药基因丰度的解释方差(R2)以及显著性(p-value),进一步得到影响显著的表型;
PERMANOVA分析通过R软件vegan包中的adonis函数执行。
进一步的,差异性分析步骤包括:
针对上述影响因素分析步骤中获得的具有显著影响的表型,将所有输入数据分成包含该表型所有组别的多个数据集;
每个数据集选择Wilcoxon或Kruskal-Wallis方法进行均值假设检验,获得每个抗生素耐药基因差异的显著性(p-value);
Wilcoxon或Kruskal-Wallis检验是基于R软件stats包wilcox.test和kruskal.test函数执行;
Wilcoxon方法采用R软件p.adjust函数进行FDR校正;
Kruskal-Walli方法采用PMCMR包posthoc.kruskal.dunn.test函数进行多重比较和FDR校正;
筛选FDR校正后显著性小于0.05的抗生素耐药基因和对应的显著性;
对所有数据集Wilcoxon和Kruskal-Wallis检验获得的差异性抗生素耐药基因取交集,得到差异性(或标记性)抗生素耐药基因及各数据集的显著性;同理,多重比较在每两个组别之间,也可获得多个数据集同时具有显著差异的抗生素耐药基因及各数据集的显著性。
绘图步骤:
根据上述分析结果,绘制图片;
针对影响因素分析结果,绘图步骤具体是:通过R软件barplot函数绘制各表型对抗生素耐药基因丰度解释方差(R2)的柱状图,并在上方标注显著性;
针对差异性分析结果,绘图步骤具体是:通过R软件pheatmap函数绘制显著性热图。
针对变化趋势分析的结果,绘图步骤具体四:通过R软件ggplot函数绘制折线图,以显示各组别抗生素耐药基因含量变化趋势。
本发明的创新点在于:
抗生素耐药基因注释全面:SARG v2.0数据库是一个集成抗生素耐药基因type-subtype-sequence的结构化数据库,不仅包含来自ARDB和CARD数据库的序列,还将来自NCBI-NR数据库的最新蛋白质序列整合到原始序列中,以跟上抗生素耐药基因序列的不断增加。采用SARG v2.0对抗生素耐药基因进行注释,能够获得更广泛的抗生素耐药基因,适应抗生素耐药序列增加;
分析方法全面系统:整合了影响因素分析、差异性分析以及变化趋势分析三个模块,可在具有显著影响的表型下进行获得差异性抗生素耐药基因,同时得到各组别间的变化趋势,使分析更加全面系统;
结果分析可靠:利用数据集拆分重组的方法对多数据集共同分析,所获差异性抗生素耐药基因取交集,增加了结果的可靠性。
附图说明
图1为本发明流程示意图。
图2为本发明影响因素分析结果示意图。
图3为本发明差异性分析结果示意图。
图4为本发明变化趋势分析结果示意图。
具体实施方式
以下通过实施例对本发明作进一步的说明,但这些实施例不得用于解释对本发明的限制。
参考图1,本发明实施例如下:
1.数据输入:
具体的,输入数据包括两个部分:第一部分为以制表符为分割的txt文件(sample_information.txt),第一列每行包含有样本ID,随后各列分别为对应的性别,疾病状态,地区等表型和存储路径信息;第二部分为样本宏基因组测序数据文件,各样本文件名和存储路径必须与第一部分的样本ID和存储路径相同。
2.抗生素耐药基因注释:
具体的,基于抗生素耐药基因注释工具ARGs-OAP和数据库SARG v2.0,在linux终端执行:sh antibiotic_analysis.sh-ARGs-OAP-phenotype_information‘sample_information.txt’,对sample_information.txt各样本路径下的宏基因组数据文件进行抗生素耐药基因注释,获得type和subtype水平的丰度文件;通过数据重组形成以制表符为分割第一列每行包含有样本ID,随后各列分别为对应各抗生素耐药基因丰度数据的txt格式输出文件(output.txt)。
3.抗生素耐药基因影响因素分析:
具体的,基于output.txt文件,在linux终端执行:sh antibiotic_analysis.sh-permanova-input‘output.txt’-phenotype_information‘sample_information.txt’,通过for循环遍历sample_information.txt文件中的每一种表型,利用R软件vegan包中的adonis函数执行PERMANOVA分析,获得每种表型对抗生素耐药基因丰度解释方差(R2)和显著性(p-value),保存所有分析结果;整合所有表型下的结果,按照方差从高到低选择表型,当满足显著性小于0.05时停止,将该表型作为显著影响因素。
4.抗生素耐药基因差异性分析:
具体的,采用R软件stats包进行;wilcox.test函数用作进行Wilcoxon两组均值比较,随后利用p.adjust函数进行FDR校正;kruskal.test函数用作进行Kruskal-Wallis两组以上均值比较,并利用PMCMR包posthoc.kruskal.dunn.test函数进行多重比较和FDR校正;具体执行为:基于影响因素分析步骤中获得的影响显著的表型,将该表型下每组别(假设有n个组别)的样本和对应丰度数据随机平均分成两个集合,每组别挑选一个集合形成新的具有该表型完整组别的数据集(2n个);遍历每个数据集和每种抗生素耐药基因,执行shantibiotic_analysis.sh-means_test-input‘output.txt’-phenotype_information‘sample_information.txt’-phenotype‘A’-test_method‘B’-FDR_method‘C’进行均值假设检验;A、B和C代表传递参数,A为影响因素分析获得的对抗生素耐药基因影响显著的表型,B为假设检验方法,可选Wilcoxon和Kruskal-Wallis,C为FDR校正方法,可选“bonferroni”,“BH”,“BY”,“fdr”,“holm”,“hochberg”,“hommel”;随后筛选显著性小于0.05的抗生素耐药基因和对应的显著性;对所有数据集Wilcoxon或Kruskal-Wallis检验获得的差异性抗生素耐药基因取交集,得到各组别之间具有显著差异的抗生素耐药基因及各数据集的显著性,保存结果;同理,多重比较可获得每两个组别之间具有显著差异的抗生素耐药基因及各数据集的显著性。
5.抗生素耐药基因含量变化趋势判断:
基于上述差异性分析步骤获得的具有显著差异的抗生素耐药基因,计算其在每个组别中抗生素耐药基因丰度的均值;保存在所有数据集中具有一致变化的抗生素耐药基因以及各组别丰度均值。
6.绘图:
基于影响因素分析步骤的结果利用R软件barplot函数绘制柱状图,横轴表示每种表型,纵轴表示解释方差(R2),并进行显著性标记,如图2;基于差异性分析结果利用pheatmap函数绘制热图,纵轴表示所有数据集共有的具有显著差异性的抗生素耐药基因,横轴表示每个数据集,交叉位置表示显著性,如图3;基于变化趋势分析的结果利用ggplot函数绘制折线图,横轴代表所有数据集同一组别含量变化趋势相同的抗生素耐药基因,纵轴代表各数据集以及各组别抗生素耐药基因丰度的平均值,如图4。

Claims (5)

1.一种抗生素耐药基因影响因素和差异性分析方法,其特征在于,包括如下步骤:第一步,数据输入:输入样本宏基因组数据以及对应样本的表型信息;第二步,抗生素耐药基因注释:进行抗生素耐药基因注释,获得抗生素耐药基因丰度文件;第三步,抗生素耐药基因影响因素分析:PERMANOVA分析获得对抗生素耐药基因影响显著的表型;第四步,抗生素耐药基因差异性分析:利用Wilcoxon检验和FDR校正进行两组均值比较,利用Kruskal-Wallis检验、PMCMR包中的多重比较和FDR校正进行两组以上均值比较,获得各组别之间具有显著差异的抗生素耐药基因和对应的显著性;第五步:抗生素耐药基因含量变化趋势判断:通过计算每种抗生素耐药基因在各组别丰度的均值,分析各组别抗生素耐药基因变化趋势;第六步,绘图:基于上述分析结果绘制柱状图、热图和折线图;
所述抗生素耐药基因注释步骤是采用SARG v2.0数据库和ARGs-OAP工具进行的;执行具体为:各样本表型以及存储路径信息保存于sample_information.txt;在linux终端执行:sh antibiotic_analysis.sh-ARGs-OAP-phenotype_information‘sample_information.txt’,对sample_information.txt各样本路径下的宏基因组数据文件进行抗生素耐药基因注释,获得type和subtype水平的丰度文件;通过数据重组形成以制表符为分割第一列每行包含有样本ID,随后各列分别为对应各抗生素耐药基因丰度数据的output.txt输出文件。
2.如权利要求1所述的一种抗生素耐药基因影响因素和差异性分析方法,其特征在于,所述抗生素耐药基因影响因素分析步骤是采用R软件vegan包中的adonis函数进行的;执行具体为:基于output.txt文件,在linux终端执行:sh antibiotic_analysis.sh-permanova-input‘output.txt’-phenotype_information‘sample_information.txt’,通过for循环遍历sample_information.txt文件中的每一种表型,利用adonis函数执行PERMANOVA分析,获得每种表型对抗生素耐药基因丰度解释方差(R2)和显著性(p-value),保存所有分析结果;整合所有表型下的结果,按照方差从高到低选择表型,当满足显著性小于0.05时停止,将该表型作为显著影响抗生素耐药基因丰度的因素。
3.如权利要求1所述的一种抗生素耐药基因影响因素和差异性分析方法,其特征在于,所述抗生素耐药基因差异性分析步骤采用R软件stats包进行;wilcox.test函数用作进行Wilcoxon两组均值比较,随后利用p.adjust函数进行FDR校正;kruskal.test函数用作进行Kruskal-Wallis两组以上均值比较,并利用PMCMR包posthoc.kruskal.dunn.test函数进行多重比较和FDR校正;具体执行为:基于影响因素分析步骤中获得的影响显著的表型,将该表型下每组别(设有n个组别)的样本和对应丰度数据随机平均分成两个集合,每组别挑选一个集合形成新的具有该表型完整组别的数据集(2n个);遍历每个数据集和每种抗生素耐药基因,执行sh antibiotic_analysis.sh-means_test-input‘output.txt’-phenotype_information‘sample_information.txt’-phenotype‘A’-test_method‘B’-FDR_method‘C’进行均值假设检验;A、B和C代表传递参数,A为影响因素分析获得的对抗生素耐药基因影响显著的表型,B为假设检验方法,可选Wilcoxon和Kruskal-Wallis,C为FDR校正方法,可选“bonferroni”,“BH”,“BY”,“fdr”,“holm”,“hochberg”,“hommel”;随后筛选显著性小于0.05的抗生素耐药基因和对应的显著性;对所有数据集Wilcoxon或Kruskal-Wallis检验获得的差异性抗生素耐药基因取交集,得到各组别之间具有显著差异的抗生素耐药基因及各数据集的显著性,保存结果;同理,多重比较可获得每两个组别之间具有显著差异的抗生素耐药基因及各数据集的显著性。
4.如权利要求1所述的一种抗生素耐药基因影响因素和差异性分析方法,其特征在于,所述抗生素耐药基因含量变化趋势判断是基于上述差异性分析步骤获得的具有显著差异的抗生素耐药基因,计算其在每个组别中抗生素耐药基因丰度的均值;保存在所有数据集中具有一致变化的抗生素耐药基因以及各组别丰度均值。
5.如权利要求1所述的一种抗生素耐药基因影响因素和差异性分析方法,其特征在于,所述绘图步骤是基于影响因素分析步骤的结果利用R软件barplot函数绘制柱状图,横轴表示每种表型,纵轴表示解释方差(R2),并进行显著性标记;基于差异性分析结果利用pheatmap函数绘制热图,纵轴表示所有数据集共有的具有显著差异性的抗生素耐药基因,横轴表示每个数据集,交叉位置表示显著性;基于变化趋势分析的结果利用ggplot函数绘制折线图,横轴代表所有数据集同一组别含量变化趋势相同的抗生素耐药基因,纵轴代表各数据集以及各组别抗生素耐药基因丰度的平均值。
CN202110035308.XA 2021-01-12 2021-01-12 一种抗生素耐药基因影响因素和差异性分析方法 Withdrawn CN112802552A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110035308.XA CN112802552A (zh) 2021-01-12 2021-01-12 一种抗生素耐药基因影响因素和差异性分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110035308.XA CN112802552A (zh) 2021-01-12 2021-01-12 一种抗生素耐药基因影响因素和差异性分析方法

Publications (1)

Publication Number Publication Date
CN112802552A true CN112802552A (zh) 2021-05-14

Family

ID=75810026

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110035308.XA Withdrawn CN112802552A (zh) 2021-01-12 2021-01-12 一种抗生素耐药基因影响因素和差异性分析方法

Country Status (1)

Country Link
CN (1) CN112802552A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113990395A (zh) * 2021-09-18 2022-01-28 上海市嘉定区中心医院 一种人工智能抗菌药物动态监控装置
CN114067912A (zh) * 2021-11-23 2022-02-18 天津金匙医学科技有限公司 基于机器学习筛选细菌耐药表型相关重要特征基因的方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109994157A (zh) * 2018-12-12 2019-07-09 上海派森诺生物科技股份有限公司 一种基于r软件的微生物组差异显著性分析及作图方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109994157A (zh) * 2018-12-12 2019-07-09 上海派森诺生物科技股份有限公司 一种基于r软件的微生物组差异显著性分析及作图方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
QINWEI QIU ET AL: "Metagenomic Analysis Reveals the Distribution of Antibiotic Resistance Genes in a Large-Scale Population of Healthy Individuals and Patients With Varied Diseases", FRONT. MOL. BIOSCI., pages 1 - 10 *
林岚;林琳;陈恩中;陈保卫;王晓玮;陈清;: "宏基因组方法比较分析深海和珠江口沉积物中抗生素耐药基因的特征", 中山大学学报(自然科学版), no. 02, pages 112 - 116 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113990395A (zh) * 2021-09-18 2022-01-28 上海市嘉定区中心医院 一种人工智能抗菌药物动态监控装置
CN114067912A (zh) * 2021-11-23 2022-02-18 天津金匙医学科技有限公司 基于机器学习筛选细菌耐药表型相关重要特征基因的方法

Similar Documents

Publication Publication Date Title
CN110349629B (zh) 一种利用宏基因组或宏转录组检测微生物的分析方法
Ji et al. RNA‐seq: Basic bioinformatics analysis
Guo et al. Illumina human exome genotyping array clustering and quality control
Dueck et al. Deep sequencing reveals cell-type-specific patterns of single-cell transcriptome variation
CN110349630A (zh) 血液宏基因组测序数据的分析方法、装置及其应用
Bassett et al. Gene expression informatics—it's all in your mine
Korpelainen et al. RNA-seq data analysis: a practical approach
CN112967753B (zh) 一种基于纳米孔测序的病原微生物检测系统和方法
Dündar et al. Introduction to differential gene expression analysis using RNA-seq
CN112802552A (zh) 一种抗生素耐药基因影响因素和差异性分析方法
US20160224730A1 (en) Devices and methods for diagnostics based on analysis of nucleic acids
Knowles et al. Grape RNA-Seq analysis pipeline environment
Külahoglu et al. Quantitative transcriptome analysis using RNA-seq
CN115083521B (zh) 一种单细胞转录组测序数据中肿瘤细胞类群的鉴定方法及系统
Kearse et al. The Geneious 6.0. 3 read mapper
CN113035273A (zh) 一种快速、超高灵敏度的dna融合基因检测方法
CN113470743A (zh) 一种基于bd单细胞转录组和蛋白组测序数据的差异基因分析方法
Mostovoy et al. Genomic regions associated with microdeletion/microduplication syndromes exhibit extreme diversity of structural variation
CN115954049A (zh) 微卫星不稳定位点状态检测方法、系统及存储介质
Bartlett et al. Mapping replication timing in single mammalian cells
US9594777B1 (en) In-database single-nucleotide genetic variant analysis
CN113793647A (zh) 一种基于二代测序宏基因组数据分析装置及方法
CN114420205A (zh) 基于二代测序的高通量微单倍型检测分型系统和方法
Rich et al. Massively integrated coexpression analysis reveals transcriptional regulation, evolution and cellular implications of the noncanonical translatome
Hennion et al. FORK-seq: Single-Molecule Profiling of DNA Replication

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20210514