CN109994157A - 一种基于r软件的微生物组差异显著性分析及作图方法 - Google Patents

一种基于r软件的微生物组差异显著性分析及作图方法 Download PDF

Info

Publication number
CN109994157A
CN109994157A CN201811520239.6A CN201811520239A CN109994157A CN 109994157 A CN109994157 A CN 109994157A CN 201811520239 A CN201811520239 A CN 201811520239A CN 109994157 A CN109994157 A CN 109994157A
Authority
CN
China
Prior art keywords
test
result
txt
kruskal
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201811520239.6A
Other languages
English (en)
Inventor
寇文伯
薛正晟
孙子奎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANGHAI PERSONAL BIOTECHNOLOGY CO Ltd
Original Assignee
SHANGHAI PERSONAL BIOTECHNOLOGY CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI PERSONAL BIOTECHNOLOGY CO Ltd filed Critical SHANGHAI PERSONAL BIOTECHNOLOGY CO Ltd
Priority to CN201811520239.6A priority Critical patent/CN109994157A/zh
Publication of CN109994157A publication Critical patent/CN109994157A/zh
Withdrawn legal-status Critical Current

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于R软件的微生物组差异显著性分析及作图方法,包括如下步骤:数据输入步骤:接收用户输入的测试数据;测试步骤:根据需要,选择测试方法;不同的检验采用不同的函数执行;绘图步骤:输出文本测试结果,根据测试数据输出图片;添加注释步骤:对测试结果中不符合假设(平均值不同)的变量进行标注。本发明的有益效果在于:结果更加全面易懂,测试方法更全面,分析更加准确。

Description

一种基于R软件的微生物组差异显著性分析及作图方法
技术领域
本发明涉及生物信息学领域,具体涉及一种基于R软件的微生物组差异显著性分析及作图方法。
背景技术
显著性检验就是事先对总体的参数或总体分布形式作出一个假设,然后利用样本信息来判断这个假设是否合理,即判断总体的真实情况与原假设是否存在显著差异。
R是一种用于统计计算和绘图的语言和环境。R提供各种统计(线性和非线性建模,经典统计测试,时间序列分析,分类,聚类......)和绘图的方法,并且具有高度可扩展性。
R的优势之一是可以轻松制作出精心设计的出版品质图片,包括数学符号和公式。它可以在各种UNIX平台和类似系统(包括FreeBSD和Linux),Windows 和MacOS上编译和运行。
从技术上讲,R是一种语法非常简单的表达式语言。基本命令由表达式或赋值组成。如果表达式作为命令给出,则对其进行评估,打印,否则该值将丢失。赋值还会计算表达式并将值传递给变量,但不会自动打印结果。
而现有的分析方法所存在的缺陷是:
(1)结果展示单一:现有的很多基于R的绘图工具,不支持在绘图中添加显著性注释,无法进行相应的展示。
(2)测试方法单一:现有的整合了统计、绘图的工具只提供了单一的测试方法,忽视了样本分布及样本量的影响。
(3)没有考虑多重比较:目前分析流程在判断多组间显著性差异时没有进行多重比较,不能具体说明哪几组均值之间有显著差异。
发明内容
为了克服现有技术所存在的上述缺陷,本发明的目的在于提供一种基于R 软件的微生物组差异显著性分析及作图方法。
为了实现本发明的目的之一,所采用的技术方案是:
一种基于R软件的微生物组差异显著性分析及作图方法,包括如下步骤:
数据输入步骤:接收用户输入的测试数据;
测试步骤:根据需要,选择测试方法,所述的测试方法包括方差分析 (ANOVA)、t检验、Kruskal-Wallis检验、Wilcoxon检验(非参数方法);其中,所述的方差分析(ANOVA)、t检验是针对正态假设的稳健检验;所述的Kruskal-Wallis检验、Wilcoxon检验(非参数方法)是当违反方差同质性假设时使用;所述的t检验、Wilcoxon检验用于比较两个群体的平均值;所述的方差分析、Kruskal-Wallis检验用于比较两个以上群体间的平均值;
其中方差检验通过stats包aov函数执行,随后通过stats包TukeyHSD函数执行两两比较;
T检验通过stats包t.test函数执行;
Kruskal-Wallis检验通过stats包kruskal.test函数执行,随后通过PMCMR 包posthoc.kruskal.conover.test函数执行两两比较;
Wilcoxon检验通过stats包wilcox.test函数执行;
绘图步骤:输出文本测试结果,根据测试数据输出图片;
添加注释步骤:对测试结果结果中不符合假设(平均值不同)的变量进行标注。
在本发明的一个优选实施例中,所述绘图步骤具体是:通过ggplot包 geom_boxplot函数绘制箱线图。
在本发明的一个优选实施例中,所述添加注释步骤具体是:对不符合假设的两两群体通过ggsignif包geom_signif函数进行注释,来优化可视化结果。
在本发明的一个优选实施例中,所述的t检验的执行具体为:对若干不同分组样品的测序结果中若干不同物种的丰度的组间差异进行检验。将物种丰度信息按上述要求保存为input.txt文件,分组信息保存为map.txt。在linux终端或者windows命令提示符执行:Rscript compare_box.R weltch-t input.txt map.txt脚本通过for函数,对input.txt中的所有变量在map.txt中所有分组间两两组合的情况进行遍历,并执行weltch t检验,同时保存检验结果;每个变量遍历结束后,通过p.adjust函数对检验结果进行fdr校正,保存校正结果。循环结束后将检验结果以文本形式输出到文件;随后遍历所有输入数据的检验结果,对每一个变量绘制箱线图,并对存在显著差异的分组对进行标注。最后将图形输出到文件中。
在本发明的一个优选实施例中,所述的kruskal-wallis检验的执行具体为:在linux终端或者windows命令提示符执行:Rscript compare_box.R kruskal input.txtmap.txt脚本通过for函数,对input.txt中的所有变量进行遍历,并执行kruskal-wallis检验,如果检验结果为存在显著差异,则对所有两两分组执行posthoc检验,并对检验结果进行fdr校正,保存检验结果;循环结束后将检验结果以文本形式输出到文件;随后绘制图形,方法步骤同welch t检验,根据posthoc检验结果进行标注。
本发明的主要创新点在于:
结果信息全面:本方法分析结果中,会在输出图片中添加注释来指示有差异的分组,结果展示更明了易懂。
测试方法全面:本工具整合了ANOVA,Kruskal-Wallis Test, Mann-Whitney-Wilcoxon Test,Welch’s t-test等测试方法,根据不同情况选择使用。
判断更加准确:当统计分析涉及多个同时进行的统计检验时,做出的推论越多,发生错误推论的可能性就越大。通过参数/非参数多重比较方法避免此类错误。
附图说明
图1为本发明的流程示意图。
图2为STAMP软件输出图形示意图。
图3为本发明输出图形示意图。
具体实施方式
以下通过实施例对本发明作进一步的说明,但这些实施例不得用于解释对本发明的限制。
参加图1,本发明实施例所采用的原理是:
1.用户输入用于测试的数据,选择测试方法。
2.对步骤1输入数据执行测试:
方差检验通过stats包aov函数执行,随后通过stats包TukeyHSD函数执行两两比较;
T检验通过stats包t.test函数执行;
Kruskal-Wallis检验通过stats包kruskal.test函数执行,随后通过 PMCMR包posthoc.kruskal.conover.test函数执行两两比较;
Wilcoxon检验通过stats包wilcox.test函数执行。
3.对步骤1输入数据进行可视化,通过ggplot包geom_boxplot函数绘制箱线图。
4.根据步骤2测试结果,对不符合假设的两两群体通过ggsignif包
geom_signif函数进行注释。优化可视化结果。
实施例所采用的条件如下:
软件依赖:
R(≧3.1)
PMCMR
ggsignif
ggplot
输入数据:
输入数据要求为制表符分隔文件,第一列为行名,第一行为列名,每列作为一个变量,每行作为一个样本;分组表格式同qiime mapping文件,包含每个样的分组信息。
执行分析:
1.以welch t检验为例,对若干不同分组样品的测序结果中若干不同物种的丰度的组间差异进行检验。将物种丰度信息按上述要求保存为input.txt 文件,分组信息保存为map.txt。在linux终端或者windows命令提示符执行: Rscript compare_box.R weltch-t input.txt map.txt脚本通过for函数,对input.txt中的所有变量在map.txt中所有分组间两两组合的情况进行遍历,并执行weltch t检验,同时保存检验结果。
每个变量遍历结束后,通过p.adjust函数对检验结果进行fdr校正,保存校正结果。循环结束后将检验结果以文本形式输出到文件。
随后遍历所有输入数据的检验结果,对每一个变量绘制箱线图,并对存在显著差异的分组对进行标注。最后将图形输出到文件中。
2.以kruskal-wallis检验为例,在linux终端或者windows命令提示符执行:Rscript compare_box.R kruskal input.txt map.txt脚本通过for 函数,对input.txt中的所有变量进行遍历,并执行kruskal-wallis检验,如果检验结果为存在显著差异,则对所有两两分组执行posthoc检验,并对检验结果进行fdr校正,保存检验结果。
循环结束后将检验结果以文本形式输出到文件。
随后绘制图形,方法步骤同welch t检验,根据posthoc检验结果进行标注。
参加图2和图3,与图形界面统计软件相比,本发明的方法操作简单,输出图形更加直观,一次性输出全部结果:以STAMP软件为例,STAMP在执行t 检验时无法一次输出全部两两比较结果,需要手动选择需要比较的分组,同时也无法一次输出所有变量的图形结果,在有大量需要比较的变量,多重分组的情况下,类似STAMP的鼠标操作的图形界面分析软件需要消耗相当的人力和时间。
同时STAMP输出的图形也无法直观的展示检验结果。STAMP输出图形见图 2,本发明输出图形见图3。

Claims (5)

1.一种基于R软件的微生物组差异显著性分析及作图方法,其特征在于,包括如下步骤:
数据输入步骤:接收用户输入的测试数据;
测试步骤:根据需要,选择测试方法,所述的测试方法包括方差分析(ANOVA)、t检验、Kruskal-Wallis检验、Wilcoxon检验(非参数方法);其中,所述的方差分析(ANOVA)、t检验是针对正态假设的稳健检验;所述的Kruskal-Wallis检验、Wilcoxon检验(非参数方法)是当违反方差同质性假设时使用;所述的t检验、Wilcoxon检验用于比较两个群体的平均值;所述的方差分析、Kruskal-Wallis检验用于比较两个以上群体间的平均值;
其中,方差检验通过stats包的aov函数执行,随后通过stats包的TukeyHSD函数执行两两比较;
T检验通过stats包的t.test函数执行;
Kruskal-Wallis检验通过stats包kruskal.test函数执行,随后通过PMCMR包posthoc.kruskal.conover.test函数执行两两比较;
Wilcoxon检验通过stats包wilcox.test函数执行;
绘图步骤:输出文本测试结果,根据测试数据输出图片;
添加注释步骤:对测试结果结果中不符合假设的变量进行标注。
2.如权利要求1所述的一种基于R软件的微生物组差异显著性分析及作图方法,其特征在于,所述绘图步骤具体是:通过ggplot包geom_boxplot函数绘制箱线图。
3.如权利要求1所述的一种基于R软件的微生物组差异显著性分析及作图方法,其特征在于,所述添加注释步骤具体是:对不符合假设的两两群体通过ggsignif包geom_signif函数进行注释,来优化可视化结果。
4.如权利要求1所述的一种基于R软件的微生物组差异显著性分析及作图方法,其特征在于,所述的t检验的执行具体为:对若干不同分组样品的测序结果中若干不同物种的丰度的组间差异进行检验。将物种丰度信息按上述要求保存为input.txt文件,分组信息保存为map.txt。在linux终端或者windows命令提示符执行:Rscript compare_box.R weltch-tinput.txt map.txt脚本通过for函数,对input.txt中的所有变量在map.txt中所有分组间两两组合的情况进行遍历,并执行weltch t检验,同时保存检验结果;每个变量遍历结束后,通过p.adjust函数对检验结果进行fdr校正,保存校正结果。循环结束后将检验结果以文本形式输出到文件;随后遍历所有输入数据的检验结果,对每一个变量绘制箱线图,并对存在显著差异的分组对进行标注。最后将图形输出到文件中。
5.如权利要求1所述的一种基于R软件的微生物组差异显著性分析及作图方法,其特征在于,所述的kruskal-wallis检验的执行具体为:在linux终端或者windows命令提示符执行:Rscript compare_box.R kruskal input.txt map.txt脚本通过for函数,对input.txt中的所有变量进行遍历,并执行kruskal-wallis检验,如果检验结果为存在显著差异,则对所有两两分组执行posthoc检验,并对检验结果进行fdr校正,保存检验结果;循环结束后将检验结果以文本形式输出到文件;随后绘制图形,方法步骤同welch t检验,根据posthoc检验结果进行标注。
CN201811520239.6A 2018-12-12 2018-12-12 一种基于r软件的微生物组差异显著性分析及作图方法 Withdrawn CN109994157A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811520239.6A CN109994157A (zh) 2018-12-12 2018-12-12 一种基于r软件的微生物组差异显著性分析及作图方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811520239.6A CN109994157A (zh) 2018-12-12 2018-12-12 一种基于r软件的微生物组差异显著性分析及作图方法

Publications (1)

Publication Number Publication Date
CN109994157A true CN109994157A (zh) 2019-07-09

Family

ID=67128709

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811520239.6A Withdrawn CN109994157A (zh) 2018-12-12 2018-12-12 一种基于r软件的微生物组差异显著性分析及作图方法

Country Status (1)

Country Link
CN (1) CN109994157A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112802552A (zh) * 2021-01-12 2021-05-14 大连理工大学 一种抗生素耐药基因影响因素和差异性分析方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102864219A (zh) * 2011-07-05 2013-01-09 中国人民解放军军事医学科学院放射与辐射医学研究所 一种用多重pcr矩阵法进行高通量基因表达谱检测的方法
US20150205695A1 (en) * 2005-03-18 2015-07-23 Beyondcore, Inc. Identifying Contributors That Explain Differences Between a Data Set and a Subset of the Data Set
CN107451429A (zh) * 2017-07-24 2017-12-08 西北农林科技大学 一种一键化分析rna数据的系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150205695A1 (en) * 2005-03-18 2015-07-23 Beyondcore, Inc. Identifying Contributors That Explain Differences Between a Data Set and a Subset of the Data Set
CN102864219A (zh) * 2011-07-05 2013-01-09 中国人民解放军军事医学科学院放射与辐射医学研究所 一种用多重pcr矩阵法进行高通量基因表达谱检测的方法
CN107451429A (zh) * 2017-07-24 2017-12-08 西北农林科技大学 一种一键化分析rna数据的系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
周运来就是我: "《组间差异检验,终于有人讲清楚了》", 《HTTPS://WWW.JIANSHU.COM/P/67BE9B3806CD》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112802552A (zh) * 2021-01-12 2021-05-14 大连理工大学 一种抗生素耐药基因影响因素和差异性分析方法

Similar Documents

Publication Publication Date Title
Muhammad et al. Industrial structure, energy intensity and environmental efficiency across developed and developing economies: The intermediary role of primary, secondary and tertiary industry
Fernandez-Viagas et al. A new vision of approximate methods for the permutation flowshop to minimise makespan: State-of-the-art and computational evaluation
CN108573125A (zh) 一种基因组拷贝数变异的检测方法及包含该方法的装置
Scholz et al. Genetic Effects of Air Pollutants in Forest Tree Populations: Proceedings of the Joint Meeting of the IUFRO Working Parties Genetic Aspects of Air Pollution Population and Ecological Genetics Biochemical Genetics held in Großhansdorf, August 3–7, 1987
CN106201643B (zh) 数据解析方法及装置
CN104834603A (zh) 一种面向回归测试的控制流变更影响域分析方法和系统
CN107516370A (zh) 一种票据识别的自动化测试及评价方法
CN102063375A (zh) 一种基于混合测试的软件可靠性评估方法及其装置
CN111475410A (zh) 一种测试用例生成方法及装置
CN113155939A (zh) 一种挥发性有机物在线来源解析方法、系统、设备及介质
CN111400505A (zh) 一种用电信息采集系统匹配故障消缺方案的方法及系统
CN109994157A (zh) 一种基于r软件的微生物组差异显著性分析及作图方法
CN114401203A (zh) 基于can报文解析运算的自动驾驶测试方法和系统
CN117723711B (zh) 一种污染大气质量变化的实时分析方法及系统
CN105203327B (zh) 一种应用于发动机气路分析的气路测量参数选择方法
CN111176995A (zh) 一种基于大数据测试用例的测试方法和测试系统
CN109784390A (zh) 一种人工智能嗅觉动态响应图谱气体检测识别方法
GB2604677A (en) A method and system for online detection and identification of ichthyotoxic harmful algal bloom algae
CN104834567B (zh) 一种分区和应用时间窗符合性检测系统
CN115376612B (zh) 一种数据评测方法、装置、电子设备及存储介质
CN103163257A (zh) 一种奶牛尿液iTRAQ检测数据处理方法
CN110718270A (zh) 基因测序结果类型的检测方法、装置、设备及存储介质
CN112631900A (zh) 接口的巡检方法、装置、电子设备和存储介质
CN111524555A (zh) 一种基于人肠道菌群的自动化分型方法
CN111382059A (zh) 代码质量评价方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20190709