CN110428867A - 一种人类大脑基因时空表达模式在线分析系统及其方法 - Google Patents

一种人类大脑基因时空表达模式在线分析系统及其方法 Download PDF

Info

Publication number
CN110428867A
CN110428867A CN201910696853.6A CN201910696853A CN110428867A CN 110428867 A CN110428867 A CN 110428867A CN 201910696853 A CN201910696853 A CN 201910696853A CN 110428867 A CN110428867 A CN 110428867A
Authority
CN
China
Prior art keywords
gene
module
spatial
analysis
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910696853.6A
Other languages
English (en)
Other versions
CN110428867B (zh
Inventor
王晶
郭黎媛
林葳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Psychology of CAS
Original Assignee
Institute of Psychology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Psychology of CAS filed Critical Institute of Psychology of CAS
Priority to CN201910696853.6A priority Critical patent/CN110428867B/zh
Publication of CN110428867A publication Critical patent/CN110428867A/zh
Application granted granted Critical
Publication of CN110428867B publication Critical patent/CN110428867B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Genetics & Genomics (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基因人类大脑时空表达模式的在线分析系统及其方法,参考数据库平台包括人类大脑基因时空表达常模、千人基因组数据库、Ensembl数据库和dbSNP数据库;人类大脑基因时空表达常模以所构建的各脑区和各发育阶段的时空框架为基础,形成基因或基因模块在各脑区和各发育阶段间的矩阵表达模式,以及基因模块与细胞类型间的富集矩阵表达模式;服务器端中设有数据分析模块;客户端中设有基因集数据输入模块和图形化可视模块,服务器端对所输入的基因集数据进行时空模式分析,并通过图形化可视模块将基因分析结果图形化呈现。本发明在客户端生成用户友好且易于理解的可视化结果,帮助阐明基因复杂的时空表达模式,并且反映所分析基因之间的关系。

Description

一种人类大脑基因时空表达模式在线分析系统及其方法
技术领域
本发明涉及人类大脑建模技术领域,具体涉及一种人类大脑基因时空表达模式在线分析系统及其方法。
背景技术
人类大脑的发育发生在一个漫长的过程中,伴随着及其复杂而精确的调节。从胚胎期到成人、衰老的各个阶段,人类大脑经历长时间发育、细化和成熟,发生分子、连接和结构方面的变化。通过研究正常大脑功能区域、发育阶段和不同神经细胞类型的基因表达模式来提供某些大脑疾病如神经退行性疾病和精神疾病易感性的见解。
目前已有一些人类大脑基因表达数据库,但并不是所有的数据库或工具都支持不同类型遗传结果的分析,如Allen Brain Altas和GTEx仅支持基因分析,而不支持SNPs分析,同时,并不是所有数据库或工具都支持基因间共表达关系分析。总而言之,目前还未有一个工具或系统能将遗传数据和正常人类大脑的基因表达数据相结合并进行系统层面的时空表达模式分析,提供基因在脑区、发育阶段和细胞类型中的表达模式,为此,本发明基于基因时空表达模式建立在线分析系统,研究人员可以得到疾病易感基因在正常大脑中的时空表达模式,进一步探讨基因表达变化可能影响的分子过程,从而为疾病分子机制研究提供功能相关的线索。
发明内容
本发明为了解决现有数据库或工具难以实现对不同类型遗传结果的分析,同时无法进行基因间共表达关系的分析,为此,本发明提供了一种人类大脑基因时空表达模式在线分析系统及其方法,为获得疾病易感基因在大脑中的时空表达模式提供重要的研究基础。
所采用的技术方案如下:
一方面,本发明提供了一种人类大脑基因时空表达模式在线分析系统,所述系统包括参考数据库平台、服务器端和客户端;
所述参考数据库平台包括人类大脑基因时空表达常模、千人基因组数据库、Ensembl数据库和dbSNP数据库;所述人类大脑基因时空表达常模以所构建的各脑区和各发育阶段的时空框架为基础,形成基因或基因模块在各脑区和各发育阶段间的矩阵表达模式,以及基因模块与细胞类型间的富集矩阵表达模式;
所述服务器端中设有数据分析模块,其与所述参考数据库平台连接,用于在所述服务器端完成基因集的时空模式分析;
所述客户端中设有基因集数据输入模块和图形化可视模块,其与所述服务器端连接,通过所述基因集数据输入模块输入基因集数据,所述服务器端对所输入的基因集数据进行时空模式分析,并通过所述图形化可视模块将基因分析结果图形化呈现。
所述人类大脑基因时空表达常模包括:单基因时空表达模式、通过加权基因共表达网络分析方法得到的共表达基因模块及其相应数据、以及通过细胞类型特异性分析得到的细胞类型特异性分子图谱。
所述数据分析模块包括:
基因集时空表达分析模块,用于对输入的基因集进行时空表达模式分析和展示;
细胞类型富集分析模块,用于对输入的基因集进行细胞类型富集模式的分析和展示;
共表达模块富集分析模块,用于对输入基因集在不同功能模块的富集进行分析和展示
模块时空表达分析模块,用于对输入基因所富集的功能模块进行特异性的时空表达模式分析和展示;
模块细胞类型富集分析模块,用于对输入基因所富集的功能模块进行特异性的细胞类型富集模式的分析和展示;
共表达网络构件模块,用于对输入基因所富集的功能模块内部的基因共表达网络结构进行分析和展示。
所述服务器端还设有数据处理模块,用于对所述客户端输入的SNPs或基因集进行P值筛选或校正。
所述图形化可视模块中包括以热图(heatmap)呈现基因集和共表达模块的时空表达模式、基因在不同模块中分布情况的曼哈顿图(Manhattan)、共表达模块中关键基因的可视化网络结果、细胞类型富集热图以及不同参考数据集基因富集结果对比的韦恩图中的一种或几种。
另一方面,本发明还提供了一种人类大脑基因时空表达模式在线分析方法,客户端上传感兴趣的基因或SNPs;选择参考数据库平台内的参考数据库类型、SNPs比对到基因的详细参数及共表达模块进行富集分析时所采用的校正方法,通过服务器端对所输入的基因集进行时空模式分析;数据分析结束后并将分析结果以图片形式在客户端呈现。
若输入或上传的基因或SNPs中含有P值,则通过服务器端的数据处理模块对所输入基因或SNPs进行P值筛选或校正,并将处理后的基因作为一个整体通过数据分析模块进行分析。
本发明技术方案,具有如下优点:
A.本发明在客户端生成用户友好且易于理解的可视化结果,包括热图、韦恩图、基因共表达网络等,这些结果能帮助阐明基因复杂的时空表达模式,包括基因之间的表达定量和相关性,并且反映所分析基因之间的关系,直观地显示出基因潜在的重要性,以更可视化的方式丰富表现常模的表现形式。本发明通过整合现有数据库中的基因表达数据,提供人类大脑基因在大脑功能区域、细胞和发育阶段中全面系统的时空表达模式。
B.本发明中将用户输入的基因作为一个整体和多个基因模块进行分析,基因模块根据共表达模式进行聚类,时空模式分析结果丰富基因与表达数据之间的相关性,同时共表达基因模块分析使得基因集作为整体进行分析时被基因上下调关系所抵消的表达特征得到更充分的展示,提供更丰富详细的信息。
C.由于不同参考数据集所涉及的时空类别不同,本发明在人类大脑基因时空表达常模中构建了一个时空框架,所有参考数据集最终以相同时空框架呈现,这样不仅能够综合不同来源的数据集的信息,也有利于研究者直观地对时空框架的内容进行补充和比较。
D.本发明建立了人类大脑基因时空表达常模能够建立起从基因层面到细胞、脑区和认知行为的联系,实现对收集到的人类大脑基因时空表达数据集进行不同类型的表达分析,为脑相关疾病遗传学数据的表达及功能分析提供了分析方法与平台。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明所提供的人类大脑基因时空表达常模的建立流程图。
图2是本发明所提供的基因在人类大脑时空表达模式在线分析系统示意图;
图3是本发明所提供的客户端基因集数据在线输入界面示意图;
图4是运算提交后所形成的界面图示;
图5是实施例中展示对基因集进行分析计算后所得到的结果图示;
图6是输入基因在五类大脑细胞中的表达富集热图;
图7是以某套表达数据集为参考数据所得到的输入基因时空表达热图;
图8是以某套时空表达数据为参考数据集的输入数据共表达模块分析结果;
图9输入基因在依据三套参考数据的模块富集结果情况对比(左上角韦恩图)及依据某套数据所得到的富集模块在各类细胞中的分布(右侧热图);
图10输入基因在依据三套参考数据的模块富集结果情况对比(左上角韦恩图)及依据某套数据所得到的某个富集模块的时空表达模式(右侧热图);
图11输入数据依据某套参考数据所得到的基因共表达模块的内部基因结构。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图2所示,本发明提供了一种人类大脑基因时空表达模式在线分析系统,包括参考数据库平台、服务器端和客户端;
参考数据库平台包括人类大脑基因时空表达常模、千人基因组数据库(1000Genomes)、Ensembl数据库和dbSNP数据库,当然还可以根据具体需要在平台内设置其他相关基因数据库,这里就不再赘述;人类大脑基因时空表达常模以所构建的各脑区和各发育阶段的时空框架为基础,形成基因或基因模块在各脑区和各发育阶段间的矩阵表达模式,以及基因模块与细胞类型间的富集矩阵表达模式;在服务器端中设有数据分析模块,其与参考数据库平台连接,用于在服务器端完成基因集的时空模式分析。
客户端中设有基因集数据输入模块和图形化可视模块,其与服务器端连接,通过基因集数据输入模块输入基因集数据,服务器端对所输入的基因集数据进行时空模式分析,并通过图形化可视模块将基因分析结果图形化。
其中人类大脑基因时空表达常模优选包括:单基因时空表达模式、通过加权基因共表达网络分析方法得到的共表达基因模块及其相应数据、以及通过细胞类型特异性分析得到的细胞类型特异性分子图谱。
上述中的人类大脑基因表达时空常模建立方法,如图1所示,包括如下步骤:
【S1】收集人类大脑原始数据,并进行分析、计算,得到每个样本中所有基因标准化表达数据集;
本发明中所采集的大脑原始数据来源共分三种情况。
一是需要从原始数据进行分析:首先在NCBI高通量二代测序数据库SRA(https://www.ncbi.nlm.nih.gov/sra)下载原始数据,随后对原始fastq数据进行质控、去接头、比对到参考基因组等分析,再利用相关软件对得到的bam文件进行单个基因表达量统计计算,最后得到每个样本中所有基因标准化表达数据。
二是现有表达数据:在GEO数据库中存在现有的标准化表达数据,可根据收集到的数据集相应的GEO accession进行检索并进行下载。
三是在现有公开的人类大脑基因表达研究数据库中下载相应的标准化表达数据。
其中需要从原始数据开始分析的RNA-seq数据处理步骤如下:
【S1.1】从SRA数据库中下载原始SRA文件,并用数据库推荐的sratoolkit软件将SRA文件转换为fastq测序文件,使用fastq-dump参数。
【S1.2】采用Fsatqc软件对原始fastq数据进行质量评估分析,判断数据质量各项指标是否合格;如果有不合格的数据,则需删除该样本。
【S1.3】采用测序分析软件Trimmomatic软件用于去除fastq测序文件中序列两端的接头和低质量的序列,使用ILLUMINACLIP、LEADING、TRAILING、MINLEN等参数。
【S1.4】采用比对软件Hisat2软件将fastq测序文件的序列比对到参考基因组,得到sam文件(其中使用Gencode数据库中人类基因组GRCh37v27版本作为基因组注释文件。
【S1.5】采用Samtools软件将sam文件转为bam文件,并按照染色体顺序进行排序。
【S1.6】最后用stringTie软件对上述得到的bam文件进行基因表达量计算,得到的是每个样本中所有基因标准化后的表达量。
【S2】构建由脑区和发育阶段组成的二维时空框架,将所有基因标准化表达数据按照脑区和发育阶段信息对应于所构建的时空框架中,形成一个基因在行,脑区和发育阶段在列的表达矩阵,得到各基因数据范围内的单基因时空表达模式。
具体的单基因时空表达分析方法如下:
【S2.1】保留现有microarray和RNA-seq的表达数据,其中RNA-seq标准化方法包括RPKM、FPKM和TPM三种,由原始数据下载并分析得到的表达数据均选择TPM进行标准化。
【S2.2】由于各数据集中涉及到的脑区和发育阶段各不相同,需要综合数据集中脑区和发育阶段的信息构建一个时空框架,这个时空框架包括大脑主要功能脑区和发育阶段,如下表所示,并根据划分标准及相关解剖学知识将原数据集中划分精细的脑区信息与发育阶段与时空框架进行一一对应。其中部分数据集对脑区信息划分细致,如果对同一个脑区的亚区进行合并会造成一定的信息缺失,因此我们保留部分数据集中精细划分的脑区信息。
【S2.3】所有数据集按照时空框架将相同脑区和发育阶段的表达数据取算术平均值:先将所有样本按照脑区划分,将相同脑区或亚区的样本取算术平均值。再将每个脑区中的样本按照发育阶段进行划分,合并相同样本的表达量取算术平均值。
【S2.4】将所有数据集标准化表达数据矩阵中的Ensembl gene id转换成genesymbol,并对相同基因的表达数据取算术平均值;若已经是gene symbol则直接对相同基因的表达数据取算术平均值。
【S2.5】删除基因表达量在时空框架中都为0的基因。最终得到基因在行,脑区和发育阶段在列的表达矩阵作为单基因时空表达模式的数据基础。若想得到单个基因的时空表达模式,则可通过R pheatmap进行绘制热图,将时空表达模式可视化。
综合上述内容,得到各数据集全基因组范围内的单基因时空表达模式。
本发明中所采用的二维时空框架结构如下表所示。
其中的16个脑区包含如下内容:
前额叶皮层(Frontal cortex) 海马旁回(Parahippocampal gyrus)
顶叶皮层(Parietal cortex) 扣带皮层(Cingulate cortex)
颞叶皮层(Temporal cortex) 脑黑质(Substantia nigra)
枕叶皮层(Occipital cortex) 横状隔核(Nucleus accumbens)
海马体(Hippocampus) 丘脑(Thalamus)
杏仁核(Amygdala) 嗅球(Olfactory bulb)
脑纹状体(Striatum) 下丘脑(Hypothalamus)
脑岛(Insula) 小脑(Cerebellum)
其中10个发育阶段及对应的年龄区间:
发育阶段 年龄
早期胎儿(Early fetal) 8PCW<=age<13PCW
中期胎儿(Mid fetal) 13PCW<=age<24PCW
晚期胎儿(Late fetal) 24PCW<=age<38PCW
新生儿和婴儿(Neonatal and infancy) 0M<=age<12M
儿童早期(Early childhood) 1Y<=age<6Y
儿童中晚期(Middle and late childhood) 6Y<=age<12Y
青春期(Adolescence) 12Y<=age<20Y
青年期(Young adulthood) 20Y<=age<40Y
中年期(Middle adulthood) 40Y<=age<60Y
晚年期(Late adulthood) 60Y<=age
【S3】采用基因共表达网络分析方法对步骤二中所得到的单基因时空表达矩阵数据进行分析,得到多个基因模块,通过对每个基因模块取平均基因表达量得到基因模块时空表达模式。
采用R包加权基因共表达网络分析(Weighted Gene Co-expression NetworkAnalysis,WGCNA),(Version 1.64-1,http://horvath.genetics.ucla.edu/html/CoexpressionNetwork/Rpacka ges/WGCNA/)进行分析。其中构建的是无向网络unsign;采用pearson相关系数,corType=“pearson”;使用函数sft=pickSoftThreshold(dataExpr,powerVector=powers,networkType=type,verbose=5)进行多软阈值的无标度拓扑分析,目的是为了选择合适的软阈值;软阈值根据power=sft$powerEstimate选择合适的参数用于后续分析;无标度网络图谱结构筛选标准R-square设置为0.9;调节参数mergeCutHeight,控制所得基因模块内基因数目的上限;调节minModuleSize参数控制基因模块基因数目的下限;blockwiseModules函数一步法构建网络;plotDendroAndColors函数进行基因模块可视化;TOMsimilarityFromExpr函数进行拓扑重叠计算;exportNetworkToCytoscape函数导出基因模块。
根据上述,基因共表达网络分析方法如下:
【S3.1】对每套数据二维时空框架下的单基因时空表达矩阵数据进行WGCNA分析,设定相应参数,选择合适的软阈值构建基因网络,在基于R软件的WGCNA程序包中使用程序包中的blockwiseModules函数获取共表达基因模块;获取过程中调节mergeCutHeight和minModuleSize参数,控制基因模块内基因数目在30-5000,并设置exportNetworkToCytoscape参数导出基因模块内的节点基因(node gene),基因相关的边(dege)信息以及它们的相关性系数。
【S3.2】基因模块内所有基因取算术平均值表达量表示整个基因模块的基因表达水平,以获得基因模块在二维时空框架下的时空表达模式。
【S3.3】每套数据最终得到若干个基因模块、模块内基因与基因的相互关系,以及每个模块的平均基因表达量作为基因模块时空表达模式的数据基础。若得到单个模块的时空表达模式,则可通过R pheatmap绘制热图,将模块时空表达模式可视化。
结合上述步骤,得到各数据集内存在共表达关系的基因模块、基因模块时空表达模式以及模块潜在的生物学功能。
图7为时空框架的热图图示形式,横向为10个发育阶段,纵向为16个脑区,从图7框架中可以用每个节点的颜色来体现表达模式,即热图,颜色越表示表达量越高。当应用数据为单个基因表达数据时,该热图体现单个基因的时空表达模式,即【S25】中的内容;当应用数据为基因模块表达数据时,则该热图体现基因模块的时空表达模式,即【S32】中的内容。通过对基因和共表达模块的时空表达模式图,可以得到输入基因集高表达的时空节点和表达特征,同时也能发现起重要作用的基因模块以及基因网络中核心基因,进一步了解基因可能参与的分子过程。
【S4】通过对正常人类神经细胞表达数据进行分析,得到不同神经细胞的特征性基因,将神经细胞的特征性基因与步骤三所得到的基因模块进行富集分析,得到与基因模块富集的细胞类型,获得基因模块的细胞表达模式。
【S4.1】在GEO数据库下载现有人类神经细胞类型表达数据集,根据GEOaccession:GSE73721(Zhang et al.,2016)进行检索,在“Supplementary file”中下载以FPKM为单位的标准化基因表达量数据;GEO数据库(GENE EXPRESSION OMNIBUS)是由美国国立生物技术信息中心NCBI创建并维护的基因表达数据库。
【S4.2】将相同细胞类型样本的表达数据进行合并求平均,以平均表达量表示基因在细胞中的表达情况,其中删除小鼠和肿瘤组织的数据,最后得到一个基因在行,细胞类型在列的表达矩阵。
【S4.3】然后用R包pSI中的specificity index statistic函数计算输入表达矩阵的特异性指数统计量(specificity index statistic,pSI),识别特定细胞中富集的基因;随后筛选pSI值<0.05的基因,意味着在0.05的水平上,这些基因在细胞中得到富集。
【S4.4】将加权基因共表达网络分析得到的基因模块与细胞特征性基因进行富集分析,采用Fisher’s exact检验,cutoff为0.05,得到模块的细胞类型特异性表达模式。
通过上述步骤,得到各数据集中细胞类型特异性表达基因集和基因模块在细胞中的表达模式。
服务器端中的数据分析模块包括:基因集时空表达分析模块、细胞类型富集分析模块、共表达模块富集分析模块、模块时空表达分析模块、模块细胞类型富集分析模块和共表达网络构件模块。
基因集时空表达分析模块用于对输入的基因集进行时空表达模式分析和展示;细胞类型富集分析模块用于对输入的基因集进行细胞类型富集模式的分析和展示;共表达模块富集分析模块用于对输入基因集在不同功能模块的富集进行分析和展示;模块时空表达分析模块用于对输入基因所富集的功能模块进行特异性的时空表达模式分析和展示;模块细胞类型富集分析模块用于对输入基因所富集的功能模块进行特异性的细胞类型富集模式的分析和展示;共表达网络构件模块用于对输入基因所富集的功能模块内部的基因共表达网络结构进行分析和展示。
其中的图形化可视模块中包括以热图(heatmap)呈现基因集和共表达模块的时空表达模式、基因在不同模块中分布情况的曼哈顿图(Manhattan)、共表达模块中关键基因的可视化网络结果、细胞类型富集热图以及不同参考数据集基因富集结果对比的韦恩图中的一种或几种,均通过客户端呈现给用户。
本发明所提供的在线分析系统中各个组成部分具体使用方法如下:
1)第一部分参考数据库平台,主要由SNPs及相关信息、基因组的位置信息、连锁不平衡信息(Linkage disequilibrium,LD)和人类大脑基因时空表达常模的相关内容组成。常模的内容包括单基因时空表达模式和加权基因共表达网络分析得到的共表达模块、模块时空表达模式和模块相应数据(包括gene list、gene-gene correlation weight);另外还有细胞类型特异性分析得到不同神经细胞的特征性基因集。从NCBI dbSNP数据库的GRCh38坐标上(https://www.ncbi.nlm.nih.gov/SNP/,build 151)(18)获得全基因组人类单核苷酸多态性(SNPs)的rsID和基因组定位信息。HGNC基因符号和人类全基因组范围内基因(编码基因和非编码基因)的基因组位置从Ensembl数据库(www.ensembl.org)下载,以GRCh38.p12组装(19)。
2)第二部分客户端,用户可以在线上传SNPs或基因集(是否有P值可选),通过设置相应参数即可进行数据分析。在所有分析结束后,会在页面上得到不同类型可视化结果,包括以热图(heatmap)呈现基因集和共表达模块的时空表达模式、基因在不同模块中分布情况的曼哈顿图(Manhattan)、共表达模块中关键基因的可视化网络结果、细胞类型富集热图以及不同参考数据集基因富集结果对比的韦恩图。
3)第三部分是服务器端,主要在服务器上完成对输入或上传基因集的时空模式分析。
a)输入的SNPs将根据染色体位置映射到基因上:如果提供P值则以0.05的cutoff进行过滤,并将过滤后的基因作为一个整体进行分析;如果没有提供P值,则不进行任何筛选,直接进行后续的分析;通过利用MAGMA软件(de Leeuw et al.,2015)中基于多元线性主成分回归模块的F检验计算基于基因的P值;同时提供用户四种对测试进行校正的方法,包括Bonferroni、Sideak、false discovery rate(FDR)-Benjamini Hochberg(BH)和FDR-BenjaminiTekutili(BY);计算过程中充分考虑SNPs之间的连锁不平衡,并从千人基因组项目(1000Genomes)的第3期编译了包括非洲(AFR)、混合美洲(AMR)、东亚(ESA)、欧洲(EUR)和南亚(SAS)在内的5个种群的连锁不平衡信息。
b)对基因集进行时空模式分析。使用费舍尔精确检验(Fisher’s exact test)将输入基因集与常模中得到的细胞类型特征性基因进行细胞类型特异性富集分析,得到基因集与神经细胞类型的富集结果;在不同数据集中检索每个基因的表达数据,并将所有基因的表达数据进行平均后得到基因集在时空框架下的时空表达模式热图;
c)输入基因集与共表达模块进行富集分析;
d)根据Fisher’exact test和用户选择的校正方法对基因集进行共表达基因模块富集分析,得到基因在不同模块中的富集情况,并将富集得到模块内基因看作一个整体生成共表达模块的时空表达模式热图。
e)将共表达模块基因与细胞类型特征性基因进行富集分析。
如果输入P值,则利用共表达模块作为x轴生成曼哈顿图;采用Fisher’exacttest,得到模块与神经细胞类型的富集结果。在使用不同参考数据集产生共表达模块时,富集结果可能会有所不同。因此以韦恩图显示通过不同参考数据集共同富集得到的基因数量。在每个富集得到的基因模块中,根据gene-gene correlation将前20个基因作为中核心基因,再将每套数据集中富集得到的前5个基因模块的核心基因纳入一个基因网络中,构建可编辑的共表达网络图形,以帮助识别基因网络中的关键基因。
实施例:
将常模应用于重度抑郁症全基因组关联遗传位点的表达模式及功能分析中,通过时空表达分析、共表达模块富集分析、细胞类型富集分析等特定时空模式分析得到重度抑郁症易感基因和富集得到的基因模块在正常大脑的时空表达模式,进而分析疾病相关基因可能参与的分子过程。
具体分析步骤如下:
①分析数据准备
在一项对135,458例重症抑郁症病人和344,901例健康人进行的研究中,得到了一万个最有价值的基因组变异位点(简称“10K SNPs”)。我们选取这10k SNP进行分析。数据来源文献检索自NCBI PubMed数据库,数据库网址https://www.ncbi.nlm.nih.gov/pubmed/,文章ID:29700475。
②数据输入与参数选择
如图3所示,将数据在客户端的基因集数据输入模块以文本文件格式上传至所建立的在线分析系统中,并选择由变异位点(SNP)向基因映射的参数,及时空表达模式分析所使用的参考数据与统计显著性阈值,即可点击“Run”按钮进行分析。
一、数据运算
运算提交后,本发明中涉及的各个功能分析模块的计算过程在服务器端自动进行,计算中所使用的输入数据及参数在客户端展示。每个运算均生成唯一的任务号,供后台进行进程监测及结果查询,如图4所示。
二、结果展示
运算完成后,页面显示运算结果概述及各类分析的具体图形化结果。结果概述页面内容如下图所示,介绍了运算任务的概况及结果内容与结构。所有结果均可下载。
1)图5中的S-T页面,展示基因集时空表达分析模块及细胞类型富集分析模块的分析结果;
图6输入基因在五类大脑细胞中的表达富集热图;
图7以某套表达数据集为参考数据所得到的输入基因时空表达热图。
2)图5中的Cluster distribution and enrichment页面,介绍共表达模块富集分析模块分析所得到的结果
图8以某套时空表达数据为参考数据集的输入数据共表达模块分析结果,图片展示了输入数据在各个共表达模块中的富集情况及各模块内基因与疾病关联度的统计P值
3)图5中的Co-expression cluster页面,展示模块时空表达分析模块,及模块细胞类型富集分析模块的分析结果
图9输入基因在依据三套参考数据的模块富集结果情况对比(左上角韦恩图)及依据某套数据所得到的富集模块在各类细胞中的分布(右侧热图)
图10输入基因在依据三套参考数据的模块富集结果情况对比(左上角韦恩图)及依据某套数据所得到的某个富集模块的时空表达模式(右侧热图)
4)图5中的Co-expression network页面,展示共表达网络构件模块分析的结果。
图11输入数据依据某套参考数据所得到的基因共表达模块的内部基因结构。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (7)

1.一种人类大脑基因时空表达模式在线分析系统,其特征在于,所述系统包括参考数据库平台、服务器端和客户端;
所述参考数据库平台包括人类大脑基因时空表达常模、千人基因组数据库、Ensembl数据库和dbSNP数据库;所述人类大脑基因时空表达常模以所构建的各脑区和各发育阶段的时空框架为基础,形成基因或基因模块在各脑区和各发育阶段间的矩阵表达模式,以及基因模块与细胞类型间的富集矩阵表达模式;
所述服务器端中设有数据分析模块,其与所述参考数据库平台连接,用于在所述服务器端完成基因集的时空模式分析;
所述客户端中设有基因集数据输入模块和图形化可视模块,其与所述服务器端连接,通过所述基因集数据输入模块输入基因集数据,所述服务器端对所输入的基因集数据进行时空模式分析,并通过所述图形化可视模块将基因分析结果图形化呈现。
2.根据权利要求1所述的人类大脑基因时空表达模式在线分析系统,其特征在于,所述人类大脑基因时空表达常模包括:单基因时空表达模式、通过加权基因共表达网络分析方法得到的共表达基因模块及其相应数据、以及通过细胞类型特异性分析得到的细胞类型特异性分子图谱。
3.根据权利要求1所述的人类大脑基因时空表达模式在线分析系统,其特征在于,所述数据分析模块包括:
基因集时空表达分析模块,用于对输入的基因集进行时空表达模式分析和展示;
细胞类型富集分析模块,用于对输入的基因集进行细胞类型富集模式的分析和展示;
共表达模块富集分析模块,用于对输入基因集在不同功能模块的富集进行分析和展示
模块时空表达分析模块,用于对输入基因所富集的功能模块进行特异性的时空表达模式分析和展示;
模块细胞类型富集分析模块,用于对输入基因所富集的功能模块进行特异性的细胞类型富集模式的分析和展示;
共表达网络构件模块,用于对输入基因所富集的功能模块内部的基因共表达网络结构进行分析和展示。
4.根据权利要求2所述的人类大脑基因时空表达模式在线分析系统,其特征在于,所述服务器端还设有数据处理模块,用于对所述客户端输入的SNPs或基因集进行P值筛选或校正。
5.根据权利要求1-4任一所述的人类大脑基因时空表达模式在线分析系统,其特征在于,所述图形化可视模块中包括以热图(heatmap)呈现基因集和共表达模块的时空表达模式、基因在不同模块中分布情况的曼哈顿图(Manhattan)、共表达模块中关键基因的可视化网络结果、细胞类型富集热图以及不同参考数据集基因富集结果对比的韦恩图中的一种或几种。
6.一种人类大脑基因时空表达模式在线分析方法,其特征在于,在客户端上传感兴趣的基因或SNPs;选择参考数据库平台内的参考数据库类型、SNPs比对到基因的详细参数及共表达模块进行富集分析时所采用的校正方法,通过服务器端对所输入的基因集进行时空模式分析;数据分析结束后将分析结果以图片形式在客户端呈现。
7.根据权利要求6所述的人类大脑基因时空表达模式在线分析方法,其特征在于,若输入或上传的基因或SNPs中含有P值,则通过服务器端的数据处理模块对所输入基因或SNPs进行P值筛选或校正,并将处理后的基因作为一个整体通过数据分析模块进行分析。
CN201910696853.6A 2019-07-30 2019-07-30 一种人类大脑基因时空表达模式在线分析系统及其方法 Active CN110428867B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910696853.6A CN110428867B (zh) 2019-07-30 2019-07-30 一种人类大脑基因时空表达模式在线分析系统及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910696853.6A CN110428867B (zh) 2019-07-30 2019-07-30 一种人类大脑基因时空表达模式在线分析系统及其方法

Publications (2)

Publication Number Publication Date
CN110428867A true CN110428867A (zh) 2019-11-08
CN110428867B CN110428867B (zh) 2021-09-17

Family

ID=68411488

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910696853.6A Active CN110428867B (zh) 2019-07-30 2019-07-30 一种人类大脑基因时空表达模式在线分析系统及其方法

Country Status (1)

Country Link
CN (1) CN110428867B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114743603A (zh) * 2022-01-21 2022-07-12 中南大学湘雅医院 基因可靠性分析方法、装置、存储介质及服务器

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101231282A (zh) * 2007-01-23 2008-07-30 北京市农林科学院 一种用于功能基因组研究的组织芯片、及其制备方法和应用
US20110202745A1 (en) * 2010-02-17 2011-08-18 International Business Machines Corporation Method and apparatus for computing massive spatio-temporal correlations using a hybrid cpu-gpu approach
CN106126893A (zh) * 2016-06-17 2016-11-16 浙江大学 一种基于基因功能关联网络发现慢性病机制及其预警干预策略的方法
CN107368704A (zh) * 2017-07-21 2017-11-21 上海桑格信息技术有限公司 基于云计算平台的有参考基因组的转录组项目的交互式分析系统及方法
CN109637588A (zh) * 2018-12-29 2019-04-16 北京百迈客生物科技有限公司 一种基于全转录组高通量测序构建基因调控网络的方法
CN109841280A (zh) * 2017-11-29 2019-06-04 郑州大学第一附属医院 食管癌相关特征通路的识别及早期诊断模型的构建方法
CN109872772A (zh) * 2019-02-14 2019-06-11 辽宁省肿瘤医院 利用权重基因共表达网络挖掘结直肠癌放疗特异性基因的方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101231282A (zh) * 2007-01-23 2008-07-30 北京市农林科学院 一种用于功能基因组研究的组织芯片、及其制备方法和应用
US20110202745A1 (en) * 2010-02-17 2011-08-18 International Business Machines Corporation Method and apparatus for computing massive spatio-temporal correlations using a hybrid cpu-gpu approach
CN106126893A (zh) * 2016-06-17 2016-11-16 浙江大学 一种基于基因功能关联网络发现慢性病机制及其预警干预策略的方法
CN107368704A (zh) * 2017-07-21 2017-11-21 上海桑格信息技术有限公司 基于云计算平台的有参考基因组的转录组项目的交互式分析系统及方法
CN109841280A (zh) * 2017-11-29 2019-06-04 郑州大学第一附属医院 食管癌相关特征通路的识别及早期诊断模型的构建方法
CN109637588A (zh) * 2018-12-29 2019-04-16 北京百迈客生物科技有限公司 一种基于全转录组高通量测序构建基因调控网络的方法
CN109872772A (zh) * 2019-02-14 2019-06-11 辽宁省肿瘤医院 利用权重基因共表达网络挖掘结直肠癌放疗特异性基因的方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114743603A (zh) * 2022-01-21 2022-07-12 中南大学湘雅医院 基因可靠性分析方法、装置、存储介质及服务器
CN114743603B (zh) * 2022-01-21 2023-12-12 中南大学湘雅医院 基因可靠性分析方法、装置、存储介质及服务器

Also Published As

Publication number Publication date
CN110428867B (zh) 2021-09-17

Similar Documents

Publication Publication Date Title
Freimer et al. The human phenome project
Coleman et al. Biological annotation of genetic loci associated with intelligence in a meta-analysis of 87,740 individuals
Oldham et al. Network methods for describing sample relationships in genomic datasets: application to Huntington’s disease
Almasy et al. Data for Genetic Analysis Workshop 18: human whole genome sequence, blood pressure, and simulated phenotypes in extended pedigrees
JP2022507861A (ja) 脳機能地図のサル-ヒト種間移行に基づいて精神疾患の個別的予測を行う方法およびシステム
CN109994154A (zh) 一种单基因隐性遗传疾病候选致病基因的筛选装置
Okamura-Oho et al. Transcriptome tomography for brain analysis in the web-accessible anatomical space
CN110428867A (zh) 一种人类大脑基因时空表达模式在线分析系统及其方法
Pendergrass et al. Phenome-wide association studies: embracing complexity for discovery
Sun et al. Study on sleep-wake disorders in patients with genetic and non-genetic amyotrophic lateral sclerosis
CN110349625A (zh) 一种人类大脑基因表达时空常模的建立方法
CN116825186A (zh) 基于生成对抗网络的单细胞数据批次效应校正方法
Vogel et al. Conserved whole-brain spatiomolecular gradients shape adult brain functional organization
Wang et al. Altered functional connectivity in a triple-network model in autism with co-occurring attention deficit hyperactivity disorder
Tang et al. Comparing different algorithms for the course of Alzheimer’s disease using machine learning
Yuan et al. Classification of mild cognitive impairment with multimodal data using both labeled and unlabeled samples
Zhang et al. Characterization of genetic networks associated with Alzheimer’s disease
CN107832585A (zh) 一种RNAseq数据分析方法
Scholtens et al. Cross-species evidence of interplay between neural connectivity at the micro-and macroscale of connectome organization in human, mouse, and rat brain
CN117457065A (zh) 一种基于单细胞多组学数据识别表型相关细胞类型的方法和系统
Cordova-Palomera et al. Effects of autozygosity and schizophrenia polygenic risk on cognitive and brain developmental trajectories
Garrido-Martín et al. A fast non-parametric test of association for multiple traits
Jin et al. CellDrift: inferring perturbation responses in temporally sampled single-cell data
Morales et al. Phenotyping genetic diseases using an extension of µ-scores for multivariate data
Louis et al. Metabolic Phenotyping of Blood Plasma by Proton Nuclear Magnetic Resonance to Discriminate between Colorectal Cancer

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant