CN114566222A - 一种检测高血压相关基因及基因功能分析的系统 - Google Patents

一种检测高血压相关基因及基因功能分析的系统 Download PDF

Info

Publication number
CN114566222A
CN114566222A CN202210193133.XA CN202210193133A CN114566222A CN 114566222 A CN114566222 A CN 114566222A CN 202210193133 A CN202210193133 A CN 202210193133A CN 114566222 A CN114566222 A CN 114566222A
Authority
CN
China
Prior art keywords
gene
module
genes
analysis
expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210193133.XA
Other languages
English (en)
Inventor
李宗瑾
吴晓明
王志刚
宋长新
田立勤
燕成英
杨继玉
贾泽宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qinghai Normal University
Original Assignee
Qinghai Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qinghai Normal University filed Critical Qinghai Normal University
Priority to CN202210193133.XA priority Critical patent/CN114566222A/zh
Publication of CN114566222A publication Critical patent/CN114566222A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks

Abstract

本发明公开了一种检测高血压相关基因及基因功能分析的系统。包括:基因预处理单元,用于对高血压基因表达数据进行预处理获得基因表达矩阵;基因样本分析单元,基于基因表达矩阵分析样本分布情况;基因差异分析单元,基于基因表达矩阵筛选发生显著变化的差异基因,获得基因差异矩阵;基因模块分析单元,基于基因表达矩阵通过加权基因共表达网络方法确定基因模块并筛选关键模块;Hub基因分析单元,用于筛选关键基因中的Hub基因;基因功能分析单元,用于对差异表达基因或基因模块进行功能富集分析及通路与基因关系的网络分析。本发明可以辅助不熟悉高血压基因相关数据库和分析流程的科研人员准确有效的发现与高血压等复杂疾病相关的基因与通路。

Description

一种检测高血压相关基因及基因功能分析的系统
技术领域
本发明属于生物信息学与数据挖掘领域,具体涉及一种检测高血压相关基因及基因功能分析的系统。
背景技术
高血压是全球高发病率与高死亡率的慢性疾病,是导致心血管患者死亡的重要因素。全球每年因心血管疾病死亡的人数大约1700万,其中50%以上是因高血压导致的。尽管医疗技术不断进步,但高血压还未实现有效的预防与治疗,患病率与死亡率仍处于上升趋势,病因至今尚未完全阐明。因此,需要更多工具与方法来鉴定与高血压相关的生物标志物。
目前,利用现有技术分析高血压基因表达数据已经成为临床研究的重要研究方式,数据分析的结果直接影响疾病的诊断。但是,从事高血压相关研究的科研人员很多不具备生物信息学背景,缺乏编程技能和统计学背景,且海量的数据资源虽然大多公开免费,但标准不同、质量层次不齐,不能直接使用,给科研人员带来极大不便,尽管已有一些程序或网站可以分析和可视化基因表达数据结果,但它们存在功能单一、操作复杂或需要一定编程能力等一些局限性。近年来基因组学研究表明,基因与基因以及相关表达产物之间存在着复杂的关系,基因表达的调控不是孤立的,它们之间相互调控、相互关联,形成相互作用的网络,因此,仅仅研究基因表达数据的单个基因或差异基因不能满足实际需求,如何发现更多新方法且可以辅助科研人员特别是无生物信息学背景的实验、临床人员有效的识别枢纽基因是目前的难题之一。
发明内容
为解决上问题,本发明基于R shiny平台构建集智能化识别差异性基因、基于网络原理识别高血压hub基因及可视化于一体的交互式应用系统。本发明能够辅助科研人员特别是无生物信息学背景的实验、临床人员进行准确有效的基因差异分析和基于加权基因共表达网络获取高血压网络标志物,对高血压生物标志物的发现实现精准诊断和治疗具有重要意义。
本发明提供一种检测高血压相关基因及基因功能分析的系统,包括:
基因预处理单元,用于对高血压基因表达数据进行校正与归一化等预处理获得基因表达矩阵;
基因样本分析单元,基于基因样本分析单元获得的基因表达矩阵对样本表达及分布情况进行可视化分析;
基因差异分析单元,基于基因样本分析单元获得的基因表达矩阵筛选表达发生显著变化的差异基因,获得基因差异矩阵,并对其进行可视化;
基因模块分析单元,基于基因样本分析单元获得的基因表达矩阵通过加权基因共表达网络方法确定基因模块,并筛选关键基因模块;
Hub基因分析单元,用于筛选关键基因模块中的Hub基因,并可视化Hub基因在不同分组中的表达情况;
基因功能分析单元,用于对差异表达基因或关键基因模块等基因进行功能富集分析,并进行通路与基因关系的网络分析。
所述基因预处理单元包括:
基因校正与归一化模块,采用limma包中的normalizeBetweenArrays()函数和log2()换上对经基因过滤模块后的基因表达矩阵进行归一化。
所述基因样本分析单元包括:
基因表达矩阵模块,用于展示经基因预处理单元后获得的基因表达数据矩阵,利用shiny包中renderDataTable()函数将基因表达数据矩阵动态显示,并通过javascript实现其排序、筛选等子功能;
箱线图模块,用于了解样本的表达情况,通过R语言boxplot()函数进行箱线图可视化样本的表达情况;
PCA分析模块,用于了解样本的分类情况,通过ggfortify包中的autoplot()函数进行PCA分析可视化样本的分组情况;
聚类图模块,用于了解样本的聚类情况,通过stats包中hclust()函数进行层次聚类可视化样本的聚类情况。
在本发明的一种检测高血压相关基因及基因功能分析的系统中,所述基因差异分析单元包括:
基因差异分析模块,用于对经基因预处理单元后获得的基因表达数据矩阵进行差异分析获得差异性基因,通过logFC绝对值的均值+2倍logFC绝对值的标准差获得差异倍数,通过FDR方法校正P值得到差异性基因的表达数据,通过表格动态展示差异性基因表达矩阵,与NCBI和geneCards数据库相结合,便于直接查询基因的生物学意义;
聚类热图模块,用于可视化样本和差异表达基因的全局表达量变化及其聚类关系;
火山图模块,用于可视化在不同样本中差异表达显著性的基因,获得上调基因与下调基因的数量。
在本发明的一种检测高血压相关基因及基因功能分析的系统中,所述基因模块分析单元包括:
样本聚类模块,用于可视化样本的聚类情况,判断是否有离群样本,并可以交互式删除离群样本;
软阈值模块,用于获取合适的软阈值β,可视化1-30之间阈值的分布情况,满足交互式设置最佳软阈值;
动态剪切树模块,用于确定基因模块,以动态剪切树法对基因进行划分,具有相似功能的基因划分为同一模块,然后将具有0.80以上相似性的模块进行合并,获得最终的模块;
模块相关性聚类热图模块,用于可视化模块之间的相关性;
基因拓扑图模块,用于可视化模块基因的之间的拓扑情况;
模块与表型相关性热图模块,用于可视化模块与表型相关性,作为筛选关键模块的依据;
基因模块显著性模块,用于可视化各基因模块与表型关系,作为筛选关键模块的依据;
基因模块数据文件下载模块,用于以cytoscape可读的文件格式导出模块数据,从而可以输入到cytoscape软件中,通过cytohubb插件中MCC算法获得Top10枢纽基因。
在本发明的一种检测高血压相关基因及基因功能分析的系统中,所述Hub基因分析单元包括:
hub基因模块,用于筛选关键模块中的hub基因,通过cor()函数计算基因与模块关系(Modularmembership,MM)、基因与性状关系(GeneSignificance,GS)及通过WGCNA包的networkScrenning()函数计算与表型相关的p.Weighted,并通过FDR方法校正获得q.Weighted,界面默认情况下设置|MM|>0.8,|GS|>0.2,且p.Weighted<0.05时获得的基因为枢纽基因。为了使不同基因模块可以筛选出最佳的枢纽基因,界面可以交互式设置这三个参数的阈值。
基因箱线图模块,用于以箱线图形状可视化基因在不同分组中的表达情况;
小提琴图模块,用于以小提琴形状可视化基因在不同分组中的表达情况。
在本发明的一种检测高血压相关基因及基因功能分析的系统中,所述基因功能分析单元包括:
基因列表上传模块:用于上传基因差异分析模块或基因模块分析中下载的差异表达基因或关键基因模块,也可以上传需要功能分析的其他基因列表;
基因列表模块,用于动态表格展示需要功能分析的基因列表,与NCBI和geneCards数据库相结合,便于查询基因的生物学意义;
GO分析模块,通过R语言中的org.Hs.eg.db包和enrichGO()函数对基因列表中的基因进行GO分析分析,使用费舍尔精确检验对得到的GO富集分析结果进行检验,得出基因的生物学功能解释,并利用dotplot()函数可视化P<0.05的GO条目;
KEGG分析模块,通过R语言中的org.Hs.eg.db包和enrichKEGG()函数对基因列表中的进行KEGG分析,使用费舍尔精确检验对得到的KEGG富集分析结果进行检验,得到关于基因所参与的多条通路,并利用dotplot()函数可视化P<0.05的的通路;
通路与基因关系网络图模块,通过R语言中的org.Hs.eg.db包和enrichKEGG()函数对基因列表中的进行通路与基因关系网络分析,使用费舍尔精确检验对得到的KEGG富集分析结果进行检验,得到基因与通路发关系网络,并利用cnetplot()函数可视化P<0.05的关系网络。
本发明具有以下有益效果:
本发明采用多种生物信息学手段,整合公共数据库或实验室测序数据中高血压基因表达数据资源,形成了一套完整的筛选Hub基因和基因功能分析流程,降低科研成本,实现方法简单,可以应用于生物学研究工作中,辅助不熟悉高血压基因相关数据库和分析流程或不能独立完成基因表达谱相关数据分析人员准确有效的进行基因表达差异分析和加权基因共表达网络分析,获取与高血压等复杂疾病相关的Hub基因和通路,对复杂疾病的生物靶向治疗、致病机理阐释及预测等都有重要意义。
附图说明
图1为本发明的一种检测高血压相关基因及基因功能分析系统的结构框图;
图2为本发明的一种检测高血压相关基因及基因功能分析方法的流程图;
图3为通过GO分析模块可视化的差异表达基因的GO分析结果图;
图4为通过KEGG分析模块可视化的差异表达基因的KEGG分析结果图;
图5为通过通路与基因关系网络图模块可视化的差异表达基因的通路与基因关系网络图结果图;
图6为通过样本聚类图模块对基因表达矩阵样本进行的聚类分析图;
图7为通过动态剪切树模块生成的基因模块的动态剪切树聚类图;
图8为通过箱线图模块可视化RPS28在正常组和高血压组中的表达情况;
图9为通过小提琴模块可视化RPS28基因在正常组和高血压组的表达情况。
具体实施方式
下面结合附图对本发明作更进一步的说明。
如图1所示为本发明的一种检测高血压相关基因及基因功能分析系统的结构框图,该系统包括基因预处理单元、基因样本分析单元、基因差异分析单元、基因模块分析单元、Hub基因分析单元、基因功能分析单元。其中,基因预处理单元,用于对高血压基因表达数据进行校正与归一化等预处理获得基因表达矩阵;基因样本分析单元,基于基因表达矩阵分析样本表达及分布情况;基因差异分析单元,基于基因表达矩阵筛选表达发生显著变化的差异基因,获得基因差异矩阵,并对其进行可视化;基因模块分析单元,基于基因表达矩阵通过加权基因共表达网络方法确定基因模块,并筛选关键模块;Hub基因分析单元,用于筛选关键模块中的Hub基因,并可视化Hub基因在不同分组中的表达情况;基因功能分析单元,用于对差异表达基因或关键模块等基因进行功能富集分析,并进行通路与基因关系的网络分析。
基因预处理单元包括:基因校正与归一化模块,采用limma包中的normalizeBetweenArrays()函数和log2()校正和归一化处理。
基因样本分析单元包括:基因表达矩阵模块、箱线图模块、PCA分析模块和聚类图模块。其中,基因表达矩阵模块,用于展示经基因预处理单元后得到的基因表达数据矩阵;箱线图模块,用于了解样本的表达情况,通过R语言boxplot()函数进行箱线图可视化样本的表达情况;PCA分析模块,用于了解样本的分类情况,通过ggfortify包中的autoplot()函数进行PCA分析可视化样本的分组情况;聚类图模块,用于了解样本的聚类情况,通过stats包中hclust()函数进行层次聚类可视化样本的聚类情况。
基因差异分析单元包括:基因差异分析模块、聚类热图模块、火山图模块。其中,基因差异分析模块,用于获得差异性基因,通过表格动态展示差异性基因表达矩阵,与NCBI和geneCards数据库相结合,便于直接查询基因的生物学意义;聚类热图模块,用于可视化样本和差异表达基因的全局表达量变化及其聚类关系;火山图模块,用于可视化在不同样本中差异表达显著性的基因,获得上调基因与下调基因的数量。
基因模块分析单元包括:样本聚类模块、软阈值模块、动态剪切树模块、基因拓扑图模块、模块与表型相关性热图模块、基因模块显著性模块和基因模块数据文件下载模块。其中,样本聚类模块,用于可视化基因表达矩阵中样本的聚类情况,判断是否有离群样本,并可以交互式删除离群样本;软阈值模块,用于获取合适的软阈值β,可视化1-30之间阈值的分布情况,可以交互式选取最佳软阈值;动态剪切树模块,用于确定基因模块,以动态剪切树法对基因进行划分,具有相似功能的基因划分为同一模块,然后将具有0.80以上相似性的模块进行合并,获得最终的模块;模块相关性聚类热图模块,用于可视化模块之间的相关性;基因拓扑图模块,用于可视化模块基因的之间的拓扑情况;模块与表型相关性热图模块,用于可视化模块与表型相关性,作为筛选关键模块的依据;基因模块显著性模块,用于可视化各基因模块与表型关系,作为筛选关键模块的依据;基因模块数据文件下载模块,用于以cytoscape可读的文件格式导出模块数据,可以直接输入到cytoscape软件中,通过cytohubb插件中MCC算法获得Top10枢纽基因。
Hub基因分析单元包括:hub基因模块,基因箱线图模块和小提琴图模块。其中,hub基因模块,用于筛选关键模块中的hub基因,通过cor()函数计算基因与模块关系(Modularmembership,MM)、基因与性状关系(GeneSignificance,GS)及通过WGCNA包的networkScrenning()函数计算与表型相关的p.Weighted,并通过FDR方法校正获得q.Weighted,界面默认情况下设置|MM|>0.8,|GS|>0.2,且p.Weighted<0.05时获得的基因为枢纽基因。为了使不同基因模块可以筛选出最佳的枢纽基因,界面可以实现对这三个参数进行交互式设置阈值;基因箱线图模块,用于以箱线图形状可视化基因在不同分组中的表达情况;小提琴图模块,用于以小提琴形状可视化基因在不同分组中的表达情况。
基因功能分析单元包括:基因列表上传模块,基因列表模块、GO分析模块、KEGG分析模块和Pathway与基因关系网络图模块。其中,基因列表上传模块:用于上传基因差异分析模块或基因模块分析中下载的差异表达基因或关键基因模块,也可以上传需要功能分析的其他基因列表;基因列表模块,用于动态表格展示需要功能分析的基因列表,与NCBI和geneCards数据库相结合,便于查询基因的生物学意义;GO分析模块,通过R语言中的org.Hs.eg.db包和enrichGO()函数模块对基因列表基因进行GO分析分析,使用费舍尔精确检验对得到的GO富集分析结果进行检验,得出基因的生物学功能解释,并利用dotplot()函数可视化P<0.05的GO条目;KEGG分析模块,通过R语言中的org.Hs.eg.db包和enrichKEGG()函数对基因列表基因进行KEGG分析,使用费舍尔精确检验对得到的KEGG富集分析结果进行检验,得到关于基因所参与的多条通路,并利用dotplot()函数可视化P<0.05的的通路;通路与基因关系网络图模块,通过R语言中的org.Hs.eg.db包和enrichKEGG()函数对基因列表基因进行通路与基因关系网络分析,使用费舍尔精确检验对得到的KEGG富集分析结果进行检验,得到基因与通路发关系网络,并利用cnetplot()函数可视化P<0.05的关系网络。
如图2所示,本发明提供一种检测高血压相关基因及基因功能分析的方法,包括以下步骤:
步骤1:基因预处理分析,对高血压基因表达数据进行校正和归一化预处理分析,以获得基因表达矩阵;
需要说明的是,对于需要校正和归一化的数据集,采用R语言中limma包中的normalizeBetweenArrays()函数和log2()函数进行校正和归一化处理;
步骤2:基因样本分析,对经步骤1获得基因表达矩阵中样本的表达及分布进行可视化分析;
需要说明的是,通过箱线图可视化各样本的表达情况;通过R语言中ggfortify包中的autoplot()函数进行PCA分析展示样本的分组情况;通过R语言中stats包中hclust()函数进行层次聚类展示样本的聚类情况;
步骤3:基因差异表达分析,对经过步骤1处理后的基因表达数据进行差异分析的数据集,筛选基因表达矩阵中不同个体或不同组织中表达发生显著变化的差异基因,获得差异性基因并对其进行可视化分析;
需要说明的是,通过R语言中的limma包实现高血压病人和正常人的基因表达数据的基因差异表达分析。limma是基于经验贝叶斯模型的T-test方法,其核心思想是采用线性模型拟合每个基因的表达水平。选取logFC绝对值的均值+2倍logFC绝对值的标准差作为差异倍数,选用FDR(False Discovery Rate)校正P值,得到差异性基因;通过聚类热图浩然火山图进行可视化分析,可以形象的看到样本及差异表达基因表达量的聚类关系,上调基因与下调基因的数量。其中,FDR方法如下:
Figure BDA0003525064280000071
式(1)中m代表零假设是真的时候的样本总数;n代表样本容量;p为显著性阀值。
步骤4:差异基因富集分析,对步骤3获得的差异性基因进行富集分析与蛋白互作网络分析,筛选出具有生物学意义的基因与通路;
需要说明的是,使用R语言中的org.Hs.eg.db包进行GO分析和KEGG分析分析,并通过费舍尔精确检验对得到的GO富集分析结果进行检验,将P<0.05的GO分类条目和差异基因富集的通路进行可视化展示;
步骤5:确定基因模块,对于样本量大于15的经过步骤1处理的基因表达数据,根据基因表达矩阵中基因的数量,选择适量的基因进行加权基因共表达网络的构建,确定基因模块,包括以下步骤:
S5.1:筛选构建基因共表达网络的源数据
由数据集基因的总数量和运行环境内存决定的。若基因数量较少,可以不做筛选都作为源数据;若基因数量多,且运行环境内存不够,可以对基因表达数据进行标准差(SD)排序,选择前面的基因作为源数据进行后续分析;
S5.2:删除离群样本
采用hclust()函数进行层次聚类,若有删除离群样本,再进行后续分析;
S5.3:计算相似矩阵
在基因共表达网络中,通过计算所有基因对的pearson相关性获得相似矩阵,计算方式如下:
Aij=|cor(ai,bj)| (2)
式(2)中Aij是基因表达数据ai与基因bj之间pearson相关系数的绝对值,Aij是矩阵A中的一个元素;
S5.4:计算邻接矩阵
邻接矩阵可以衡量基因间相关性,由相似矩阵转化而来。为了克服直接设置基因间相关系数阈值的缺点,WGCNA提供了软阈值的方法来衡量基因之间的相关性。软阈值β可以使网络符合标准的无尺度网络,从而实现无标度拓扑。邻接矩阵Bij的计算方式如下:
Figure BDA0003525064280000081
式(3)中的β采用pickSoftThreshold()函数进行选择,其中,当无标度拓扑拟合指数大于0.8即连接度为k的节点个数的对数log(k)和节点出现概率的对数log(p(k))之间的相关系数要大于0.8,符合无标度网络条件;
S5.5:计算拓扑矩阵
如果直接通过邻接矩阵中基因之间的权值来构建模块,会忽略网络中其他节点对基因产生的影响,因此WGCNA中应用了拓扑重叠(topological overlap measure,TOM),利用TOM来衡量基因之间的相异度,从而进一步进行模块的识别。TOM的理论核心是两个节点之间的相似性既要考虑两者之间的表达数据的相关性,还要将彼此的邻节点对两个节点产生的影响考虑进来。TOM的计算方式如下:
Figure BDA0003525064280000082
式(4)中,lij表示基因i与基因j所有共同相邻基因的邻接系数的乘积之和;ki表示基因i与所有相邻节点的邻接系数和。若值为0,表示两个基因没有其他相连接的基因,即这两个基因都是孤立的。若值是1,表示这两个基因与所有基因都是相邻的。TOM值表示基因之间相似度,因此基因间相异度矩阵为dissTOM=1-TOM,对dissTOM层次聚类得到系统聚类树,即将具有相似表达的基因分为同簇;
S5.6:确定模块
通过动态剪枝算法Dynamic Tree Cut识别共表达基因模块,其中minModuleSize为30或50,deepSplit为2,其他参数设置为默认值,并计算特征向量值,聚类合并具有高度相似的模块,一般将形似的高于80%的模块进行合并,获得基因模块;
步骤6:对模块可视化分析,通过模块相关性聚类热图,可视化模块之间的相关性;通过基因拓扑图,可视化模块基因的之间的拓扑情况;
步骤7:筛选关键模块,根据模块与表型的pearson相关系数和基因与性状关系GS,这两种方法在步骤5确定的基因模块中筛选关键模块;
步骤8:功能分析,对步骤7获得的关键模块进行功能分析,获得其生物学意义;
需要说明的是,通过R语言中的org.Hs.eg.db包和enrichGO()函数对差异表达基因或关键基因模块进行GO分析分析,使用费舍尔精确检验对得到的GO富集分析结果进行检验,得出差异表达基因或关键基因模块的生物学功能解释,并利用dotplot()函数可视化P<0.05的GO条目;通过R语言中的org.Hs.eg.db包和enrichKEGG()函数对差异表达基因或关键基因模块进行KEGG分析,使用费舍尔精确检验对得到的KEGG富集分析结果进行检验,得到关于基因所参与的多条通路,并利用dotplot()函数可视化P<0.05的的通路;通通过R语言中的org.Hs.eg.db包和enrichKEGG()函数对差异表达基因或关键基因模块进行通路与基因关系网络分析,使用费舍尔精确检验对得到的KEGG富集分析结果进行检验,得到差异表达基因或关键基因模块与通路发关系网络,并利用cnetplot()函数可视化P<0.05的关系网络;
步骤9:导出文件,以cytoscape可读的文件格式导出步骤5确定的基因模块数据,使其可以在cytoscape进行可视化,选择cytohubba插件的MCC算法筛选模块中Top10的枢纽基因;
步骤10:筛选Hub基因,在步骤7获得的关键模块中筛选Hub基因,并可视化展示Hub基因在不同组中的表达情况;
需要说明的是,通过cor()函数计算MM、GS,通过R语言中WGCNA包的networkScrenning()函数计算与表型相关的p.Weighted,通过FDR方法校正获得q.Weighted。给这三个参数设置合适阈值,筛选Hub基因;
步骤11:获得Hub基因,通过venn图将步骤9和步骤10获得的Hub基因做交集,获得与高血压相关的Hub基因。
实施例
本实施例以一种检测高血压相关基因及基因功能分析系统中的GSE75360数据集为研究对象,此数据集是在GEO(Gene Expression Omnibus)数据库下载,由11个正常样本和10个高血压样本组成,平台为Illumina HumanHT-12 V4.0 expression beadchip。
具体分析步骤如下:
步骤1:对数据集进行进行校正与归一化处理后得到29698个基因的表达谱,基因表达矩阵展示在基因样本分析界面中的基因表达矩阵模块,由于系统中表格采用shiny包renderDataTable()函数和javascript技术,因此表格数据可以动态显示,并可以实现排序、筛选等子功能,部分表达矩阵见表1。打开基因样本分析界面的箱线图模块、PCA模块和聚类图模块会自动生成相应的可视化结果。通过选择界面中绘图选项的“Panel layout”下拉菜单“manual”选项后可以手动设置图片的大小。点击各模块下方的Download table可以随时下载生成的结果。通过界面中的下载选项可以设置图片或表格的下载格式,表格有.csv和.txt两种格式,默认下载格式是.csv格式;图片有.png、.pdf和.jpeg三种格式,默认下载格式是.png格式。
Figure BDA0003525064280000101
表1部分基因表达矩阵
步骤2:打开基因差异分析界面,自动对步骤1生成的基因表达矩阵进行基因表达差异分析获得788个差异表达基因,部分结果如表2,结果动态展示在差异表达基因矩阵模块中,并实现了差异表达基因与NCBI和geneCards数据库相结合,便于查询各基因的生物学意义;点击基因差异分析界面中的聚类热图模块、火山图模块会自动生成相应的可视化结果。
表2部分基因表达差异分析结果
Figure BDA0003525064280000111
步骤3:打开基因功能分析界面,将在基因差异分析模块下载的差异表达基因输入到基因功能分析界面中,输入结果在基因列表模块中动态展示。点击GO分析模块自动可视化GO分析结果图,如图3;点击KEGG分析模块会自动可视化KEGG分析结果图,如图4,点击通路与基因关系网络图模块会自动可视化结果图,如图5。其中,默认情况下,以GO分析和KEGG分析经过费舍尔精确检验的p值小于0.05作为有意义的功能富集分析结果,本系统中为了实现不同数据集基因的差异有p值不同,在基因功能分析界面中可以实现人为设置p值的阈值。
步骤4:打开基因模块分析界面,在样本聚类图模块中将步骤1生成的基因表达矩阵进行聚类分析,可以判断是否有离群样本,若有将其GSM号输入界面中“请输入要删除的离群样本:”数据框中,点击“提交”按钮,可以将其删除,实例中没有离群样本,如图6;
步骤5:对基因表达矩阵进行标准差(SD)排序,选取前6000个基因作为共表达网络构建的输入数据,将基因数量输入界面提示“请输入选取的总基因数量:”数据框中,点击“提交”,打开基因表模块,可以动态显示所选进行后续分析的基因表达矩阵;
步骤6:打开软阈值图模块,自动可视化1-30之间阈值的分布情况,发现当β为14时,共表达网络的无标度拓扑拟合指数达到0.8,因此将14输入到“请输入最佳软阈值”数据框中,同时在“请设置最小模块的大小”数据框中设置最小模块包含的基因数量50,按提交按钮,以便用于后续分析;
步骤7:打开动态剪切树模块,后台自动通过软阈值14将相似矩阵转化为邻接矩阵,并将邻接矩阵转换为拓扑重叠矩阵,通过动态剪枝算法Dynamic Tree Cut识别共表达基因模块,其中minModuleSize是步骤6中设置的50,deepSplit为2,聚类合并高度相似高于80%以上的模块,如图7,确定19个基因模块,如表3;
表3基因模块及其包含的基因数量
Figure BDA0003525064280000121
步骤8:打开模块相关性聚类热图模块和基因拓扑图模块,会自动可视化生成模块相关性聚类热图和基因拓扑图,分别用于可视化模块之间的相关性和可视化模块基因的之间的拓扑情况;
步骤9:打开模块与表型相关性热图模块,自动将模块与表型之间的皮尔森相关系数和p值进行可视化,发现addlebrown和greenyellow两模块的整体表达水平与高血压的相关系数绝对值高于其他模块,表明这两个模块与高血压相关性最高,可选为关键模块。其中,基因模块的颜色越红表明正相关越大,越绿表明负相关越大;
步骤10:为保证关键模块识别的准确性,计算基因模块显著性。打开基因模块显著性模块,通过可视化结果,发现saddlebrown和greenyellow模块的GS绝对值最大,分别为0.451、0.410,表明这两个模块为关键模块;
步骤11:打开基因模块数据文件下载模块,点击“下载cytoscape可读的文件”,会自动将步骤7确定的基因模块以cytoscape可读的文件格式导到files文件夹中。将关键模块输入到cytoscape软件中,选择cytohubba插件的MCC算法筛选模块中Top10的枢纽基因;
步骤12:打开Hub基因模块,在“请输入关键模块:”文本框中,输入saddlebrown,并设置GS、MM、p.weighted的阈值分别为0.2、0.8、0.05点击提交,会筛选出26个基因,同时输入greenyellow,设置阈值,筛选出53个基因;
步骤13:通过venn图将步骤11和步骤12获得的基因做交集,获得与高血压相关的Hub基因,最终saddlebrown中确定4个Hub基因,greenyellow中确定8个Hub基因,如表4。打开箱线图模块,在“请输入基因:”文本框中输入RPS28,可以通过箱线图形状可视化RPS28在正常组和高血压组中的表达情况,如图8;打开小提琴图模块,可以通过小提琴形状可视化RPS28在正常组和高血压组的表达情况,如图9。
表4 Hub基因
Figure BDA0003525064280000131
步骤14:打开基因功能分析界面,将Saddlebrown模块输入,进行GO分析分析它主要参与膜的形成、rRNA processing,是structural constituent of ribosome,主要进行cellular response to hypoxia过程。对greenyellow模块进行GO分析表明主要参与各种代谢的过程,可以抑制或激活某些因子的活性,进行KEGG分析发现参与8条通路,其中HIF-1signaling pathway与Insulin signaling pathway、Amino sugar and nucleotidesugar metabolism已有报道与高血压的发生密切相关。
将筛选出的Hub基因在NCBI数据库和已发表文献中进行查询,发现已有报道TBXAS1、FCER1G、FURIN等基因高血压有直接或间接的相关性,如已有研究表明TBXAS1是一种有效的血管收缩剂;FCER1G对糖尿病肾脏具有调节作用,而高血压与糖尿病肾脏密切相关,因此推断对高血压有一定作用;NCF1C对血管紧张素II诱导高血压成纤维细胞中p47phox过度活化有关,且已有报道NCF1C基因与脑出血的相关;FURIN可能是参与人类高血压的候选基因;PECAM1在EC中流动介导的Gab1酪氨酸磷酸化和eNOS信号传导中的特定作用,而内皮一氧化氮(NO)合酶(eNOS)的活化受损和随后的NO产生的减少,是各种心血管病理学的常见机制,包括高血压和动脉粥样硬化。表明了本发明的可行性与实用性。以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (10)

1.一种检测高血压相关基因及基因功能分析的系统,其特征在于,该系统的基因预处理单元生成的基因表达矩阵,首先传输到基因样本分析单元对数据进行可视化分析,然后传输到基因差异分析单元进行基因表达差异分析,再将基因差异分析单元生成的差异表达基因传输到基因功能分析单元;或者将基因样本分析单元输出的数据传输到基因模块分析单元用于确定基因模块和筛选关键基因模块,再将关键基因模块传输到Hub基因分析单元和基因功能分析单元;
基因预处理单元,用于对高血压基因表达数据进行校正与归一化预处理获得基因表达矩阵;
基因样本分析单元,基于基因样本分析单元获得的基因表达矩阵对样本表达及分布情况进行可视化分析;
基因差异分析单元,基于基因样本分析单元获得的基因表达矩阵筛选表达发生显著变化的差异基因,获得基因差异矩阵,并对其进行可视化;
基因模块分析单元,基于基因样本分析单元获得的基因表达矩阵通过加权基因共表达网络方法确定基因模块,并筛选关键基因模块;
Hub基因分析单元,用于筛选关键基因模块中的Hub基因,并可视化Hub基因在不同分组中的表达情况;
基因功能分析单元,用于对差异表达基因或关键基因模块等基因进行功能富集分析,并进行通路与基因关系的网络分析。
2.如权利要求1所述一种检测高血压相关基因及基因功能分析的系统,其特征在于,所述的差异基因分析单元,筛选差异表达基因的差异倍数,是通过logFC绝对值的均值+2倍logFC绝对值的标准差获得的,通过FDR方法校正P值得到差异性基因的表达数据,并将差异表达基因与NCBI和geneCards数据库相结合,便于直接查询差异基因的生物学意义。
3.如权利要求1所述一种检测高血压相关基因及基因功能分析的系统,其特征在于,所述基因模块分析界面中基因模块的确实和关键模块的筛选是基于加权基因共表达网络方法实现的,同时此界面可以实现交互式删除离群样本;交互式设置构建加权基因共表达网络的总基因数量、构建共表达网络的最佳软阈值、最小模块包含的基因数量;交互式设置表格的下载格式;交互式设置图片的下载大小和格式。
4.如权利要求1所述一种检测高血压相关基因及基因功能分析的系统,其特征在于,所述Hub基因分析单元中Hub基因的筛选方法为阈值法,默认情况下设置基因与模块关系(Modularmembership,MM)的绝对值>0.8,且基因与性状关系(GeneSignificance,GS)的绝对值>0.2,且表型权重p.Weighted<0.05时获得的基因为枢纽基因,为了满足不同基因模块可以筛选出最佳的枢纽基因,界面交互式设置这三个参数的阈值。
5.如权利要求1所述一种检测高血压相关基因及基因功能分析的系统,其特征在于,所述基因功能分析单元中,首先通过基因列表上传模块上传需要功能分析的基因数据,其次将基因数据传输到基因列表模块进行动态显示,然后传输到GO分析模块进行GO分析,再传输到KEGG分析模块进行KEGG分析,最后传输到通路与基因关系网络分析模块,进行通路与基因关系网络分析。
6.如权利要求5所述一种检测高血压相关基因及基因功能分析的系统,其特征在于,基因列表上传模块:上传基因差异分析模块或基因模块分析中下载的差异表达基因或关键基因模块,也可以上传需要功能分析的其他基因列表。
7.如权利要求5所述一种检测高血压相关基因及基因功能分析的系统,其特征在于,基因列表模块,用于动态表格展示需要功能分析的基因列表,与NCBI和geneCards数据库相结合,便于查询基因的生物学意义。
8.如权利要求5所述一种检测高血压相关基因及基因功能分析的系统,其特征在于,GO分析模块:对基因列表中的基因进行GO分析,得出基因的生物学功能解释。
9.如权利要求5所述一种检测高血压相关基因及基因功能分析的系统,其特征在于,KEGG分析模块:对基因列表中的基因进行KEGG分析,得到关于基因所参与的多条通路。
10.如权利要求5所述一种检测高血压相关基因及基因功能分析的系统,其特征在于,通路与基因关系网络分析模块:对基因列表中的基因进行通路与基因关系网络分析,得到基因与通路发关系网络。
CN202210193133.XA 2022-02-28 2022-02-28 一种检测高血压相关基因及基因功能分析的系统 Pending CN114566222A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210193133.XA CN114566222A (zh) 2022-02-28 2022-02-28 一种检测高血压相关基因及基因功能分析的系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210193133.XA CN114566222A (zh) 2022-02-28 2022-02-28 一种检测高血压相关基因及基因功能分析的系统

Publications (1)

Publication Number Publication Date
CN114566222A true CN114566222A (zh) 2022-05-31

Family

ID=81716589

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210193133.XA Pending CN114566222A (zh) 2022-02-28 2022-02-28 一种检测高血压相关基因及基因功能分析的系统

Country Status (1)

Country Link
CN (1) CN114566222A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8600718B1 (en) * 2006-11-17 2013-12-03 Microsoft Corporation Computer systems and methods for identifying conserved cellular constituent clusters across datasets
CN107301331A (zh) * 2017-07-20 2017-10-27 北京大学 一种基于基因芯片数据的疾病影响因素的挖掘方法
CN110570905A (zh) * 2019-07-22 2019-12-13 中国人民解放军总医院 组学数据分析平台的构建方法、装置和计算机设备
CN112837744A (zh) * 2021-02-07 2021-05-25 南京邮电大学 一种前列腺癌预后显著相关ceRNA调控网络的构建方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8600718B1 (en) * 2006-11-17 2013-12-03 Microsoft Corporation Computer systems and methods for identifying conserved cellular constituent clusters across datasets
CN107301331A (zh) * 2017-07-20 2017-10-27 北京大学 一种基于基因芯片数据的疾病影响因素的挖掘方法
CN110570905A (zh) * 2019-07-22 2019-12-13 中国人民解放军总医院 组学数据分析平台的构建方法、装置和计算机设备
CN112837744A (zh) * 2021-02-07 2021-05-25 南京邮电大学 一种前列腺癌预后显著相关ceRNA调控网络的构建方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李宗瑾: "基于基因芯片数据的高血压关键因子筛选研究", 中国优秀硕士论文期刊网, 15 February 2021 (2021-02-15) *
王万鹏;唐伯玉;沈剑箫;李永刚;蒯巧林;高甄典;李娟;梁森林;陈皓瑜;: "加权重基因共表达网络分析识别慢性肾脏病足细胞损伤关键节点基因MAGI2", 中国现代医学杂志, no. 24, 30 August 2018 (2018-08-30) *

Similar Documents

Publication Publication Date Title
Guo et al. 3D RNA-seq: a powerful and flexible tool for rapid and accurate differential expression and alternative splicing analysis of RNA-seq data for biologists
Ni et al. M2IA: a web server for microbiome and metabolome integrative analysis
CN107368700A (zh) 基于计算云平台的微生物多样性交互分析系统及其方法
US10573406B2 (en) Method, apparatus and computer program product for metabolomics analysis
US20230352115A1 (en) Estimation of phenotypes using dna, pedigree, and historical data
CN110570905A (zh) 组学数据分析平台的构建方法、装置和计算机设备
US20220365934A1 (en) Linking individual datasets to a database
JP2014528080A (ja) 生化学データ分析システム及び方法
CN111913999A (zh) 基于多组学与临床数据的统计分析方法、系统和存储介质
Thurman et al. Differential gene expression analysis for multi-subject single-cell RNA-sequencing studies with aggregateBioVar
CN112185468A (zh) 一种用于基因数据分析和处理的云端管理系统及方法
Huang et al. TSUNAMI: translational bioinformatics tool suite for network analysis and mining
CN115114445A (zh) 细胞知识图谱构建方法、装置、计算设备及存储介质
Lepers et al. Inference with selection, varying population size, and evolving population structure: application of ABC to a forward–backward coalescent process with interactions
CN117457065A (zh) 一种基于单细胞多组学数据识别表型相关细胞类型的方法和系统
CN114566222A (zh) 一种检测高血压相关基因及基因功能分析的系统
CN114999564A (zh) 蛋白质数据处理方法、装置、电子设备以及存储介质
CN110211634A (zh) 一种多组学数据联合分析的方法
Escoto-Sandoval et al. A method to analyze time expression profiles demonstrated in a database of chili pepper fruit development
Reimand et al. Pathway enrichment analysis of-omics data
CN107609349A (zh) 一种生物分析平台中的项目实施质控系统
CN111883204A (zh) 基于生物云平台的lncRNA与mRNA关联分析系统
CN111863136A (zh) 一种多组学数据集间关联分析的集成系统和方法
Wu et al. Be-1DCNN: a neural network model for chromatin loop prediction based on bagging ensemble learning
CN110879996A (zh) 一种染色体分裂相定位排序方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination