CN110349625B - 一种人类大脑基因表达时空常模的建立方法 - Google Patents

一种人类大脑基因表达时空常模的建立方法 Download PDF

Info

Publication number
CN110349625B
CN110349625B CN201910664819.0A CN201910664819A CN110349625B CN 110349625 B CN110349625 B CN 110349625B CN 201910664819 A CN201910664819 A CN 201910664819A CN 110349625 B CN110349625 B CN 110349625B
Authority
CN
China
Prior art keywords
gene
expression
data
space
brain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910664819.0A
Other languages
English (en)
Other versions
CN110349625A (zh
Inventor
王晶
郭黎媛
林葳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Psychology of CAS
Original Assignee
Institute of Psychology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Psychology of CAS filed Critical Institute of Psychology of CAS
Priority to CN201910664819.0A priority Critical patent/CN110349625B/zh
Publication of CN110349625A publication Critical patent/CN110349625A/zh
Application granted granted Critical
Publication of CN110349625B publication Critical patent/CN110349625B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Data Mining & Analysis (AREA)
  • Physiology (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Genetics & Genomics (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

本发明公开了一种人类大脑基因表达时空常模的建立方法,收集大脑时空原始数据得到基因标准化表达数据集;构建脑区和发育阶段的二维时空框架,将所有基因标准化表达数据按脑区和发育阶段信息对应于所构建的时空框架中,得到单基因时空表达模式;采用基因共表达网络分析方法对所得单基因时空表达矩阵数据进行分析,得到多个基因模块且每个取平均基因表达量得到基因模块时空表达模式;通过对正常人类神经细胞表达数据进行分析,将神经细胞的特征性基因与所得到的基因模块进行富集分析,获得基因模块的细胞表达模式。本发明通过将所有参考数据集最终以相同的二维时空框架呈现,不仅综合不同来源的数据集,有利于研究者直观地对时空框架的内容进行补充和比较。

Description

一种人类大脑基因表达时空常模的建立方法
技术领域
本发明涉及人类大脑建模技术领域,具体涉及一种人类大脑基因表达时空常模的建立方法。
背景技术
人类大脑的发育发生在一个漫长的过程中,伴随着及其复杂而精确的调节。从胚胎期到成人、衰老的各个阶段,人类大脑经历长时间发育、细化和成熟,发生分子、连接和结构方面的变化。通过研究正常大脑功能区域、发育阶段和不同神经细胞类型的基因表达模式来提供某些大脑疾病如神经退行性疾病和精神疾病易感性的见解。
现有大量高质量不同类型的人类大脑基因表达数据。在RNA-seq数据分析中考虑到基因长度和测序深度不同,将比对到某个基因内部的序列片段(reads)数目进行标准化是极其重要的步骤,同时标准化后再比较不同样本之间基因的表达量才有意义。现有的表达数据中利用microarray技术得到标准化的表达数据,也有以RPKM(Reads Per KilobaseMillion)、FPKM(Fragments Per Kilobase Million)和TPM(Transcripts Per KilobaseMillion)为单位表示基因标准化表达量的RNA-seq表达数据。由于各数据集得到表达数据标准化单位不同,互相之间也不能进行转换,因此不能对各数据集的表达数据结果直接进行合并。另外,现有表达数据提供的基因名称表达方式各有不同,有Ensembl gene id和gene symbol等多种方式,其中存在多个Ensembl gene id对应一个gene symbol的情况。
发明内容
本发明为了解决现有大量高质量不同类型的人类大脑基因表达数据,通过整合不同发育阶段、脑区和神经细胞类型的正常人类大脑基因表达数据,优化现有数据库数据资源分散、难以综合利用的问题,建立全面系统的正常人类大脑基因时空表达常模,提供基因时空模式参考,为此,本发明提供了一种人类大脑基因表达时空常模的建立方法。
所采用的技术方案如下:
一种人类大脑基因表达时空常模的建立方法,所述方法包括如下步骤:
步骤一、收集大脑时空原始数据,并进行分析、计算,得到每个样本中所有基因标准化表达数据集;
步骤二、构建由脑区和发育阶段组成的时空框架,将所有基因标准化表达数据按脑区和发育阶段信息置于所构建的时空框架中,形成一个基因在行,脑区和发育阶段在列的表达矩阵,得到各基因数据范围内的单基因时空表达模式;
步骤三、采用基因共表达网络分析方法对步骤二中所得到的单基因时空表达矩阵数据进行分析,得到多个基因模块,通过对每个基因模块取平均基因表达量,得到基因模块时空表达模式;
步骤四、通过对正常人类神经细胞表达数据进行分析,得到不同神经细胞的特征性基因,将神经细胞的特征性基因与步骤三所得到的基因模块进行富集分析,得到与基因模块富集的细胞类型,获得基因模块的细胞表达模式。
所述步骤一中对于从原始数据进行分析、计算得到基因标准化表达数据的具体步骤如下:
步骤1.1,从美国国立生物技术信息中心(National Center for BiotechnologyInformation,NCBI)的高通量测序存储数据库Sequence Read Archive(SRA)中下载原始SRA文件,并将SRA文件转换为fastq测序文件;
步骤1.2,采用Fsatqc软件对所得到的fastq测序文件进行质量评估分析,判断fastq测序文件中的数据质量各项指标是否合格,若存在不合格的数据,则删除对应的样本;
步骤1.3,采用Trimmomatic软件去除fastq测序文件中序列两端的接头和低质量的序列,使用ILLUMINACLIP、LEADING、TRAILING、MINLEN等参数;
步骤1.4,采用Hisat2软件将所得fastq测序文件的序列比对到参考基因组,得到sam文件,其中使用Gencode数据库中人类基因组GRCh37v27版本作为基因组注释文件;
步骤1.5,采用Samtools软件将sam文件转为bam文件,并按照染色体顺序进行排序;
步骤1.6,采用stringTie软件对所得到的bam文件进行基因表达量计算,得到每个样本中所有基因标准化表达数据。
所述步骤二中各基因数据范围内的单基因时空表达模式的分析方法如下;
步骤2.1,综合所有基因标准化表达数据,按脑区和发育阶段的信息构建二维时空框架,根据划分标准及相关解剖学知识将步骤一中所得到的原数据集所划分精细的脑区信息和发育阶段与所构建的时空框架进行一一对应;
步骤2.2,所有数据集中按照二维时空框架将位于相同脑区和发育阶段的表达数据取算术平均值;
步骤2.3,将所有数据集标准化表达数据矩阵中的基因基于Ensembl数据库注释得到的基因标识(Ensembl gene Id)转换成人类基因命名委员会HUGO gene nomenclaturecommittee(HGNC)发布的标准基因名称(gene symbol),并对相同基因的表达数据取算术平均值;
步骤2.4,删除基因表达量数据在二维时空框架中都为0的基因,得到基因在行,脑区和发育阶段在列的表达矩阵,然后通过R pheatmap进行绘制热图,得到单基因时空表达模式。
所述步骤2.2中先将所有样本按照脑区划分,将相同脑区或亚区的样本取算术平均值,再将每个脑区中的样本按照发育阶段进行划分,合并相同样本的表达量取算术平均值。
所述步骤三中基因共表达网络分析方法是:
步骤3.1,对每套数据二维时空框架下的单基因时空表达矩阵数据进行加权基因共表达网络分析(Weighted Gene Co-expression Network Analysis,WGCNA),在基于R软件的WGCNA程序包中使用程序包中的blockwiseModules函数获取共表达基因模块,获取过程中调节mergeCutHeight和minModuleSize参数控制基因模块内基因数目在30-5000,并设置exportNetworkToCytoscape参数导出基因模块内的节点基因(node gene),基因相关的边(dege)信息以及它们的相关性系数;
步骤3.2,基因模块内所有基因取算术平均值表达量表示整个基因模块的基因表达水平,获得基因模块在二维时空框架下的时空表达模式;
步骤3.3,根据步骤3.1和步骤3.2,每套数据可以得到若干个基因模块、基因模块内基因与基因的相互关系,以及每个基因模块的平均基因表达量,作为基因模块时空表达模式的数据基础,再通过R pheatmap绘制热图,将基因模块时空表达模式可视化。
所述步骤四中对正常人类神经细胞表达数据进行分析的方法是:
步骤4.1,在GEO数据库下载现有人类神经细胞类型表达数据集,根据GEOaccession:GSE73721(Zhang et al.,2016)进行检索,在“Supplementary file”中下载以FPKM为单位的标准化基因表达量数据;
步骤4.2,将相同细胞类型样本的表达数据进行合并求平均值,删除小鼠和肿瘤组织的数据,得到基因在行,细胞类型在列的表达矩阵;
步骤4.3,采用R包pSI中的specificity index statistic函数计算输入表达矩阵的特异性指数统计量(specificity index statistic,pSI),识别特定细胞中富集的基因,并筛选pSI值<0.05的基因;
步骤4.4,将加权基因共表达网络分析得到的基因模块与细胞特征性基因进行富集分析,采用Fisher’s exact检验,cutoff为0.05,得到基因模块的细胞类型特异性表达模式。
所构建的二维时空框架包括脑区维度和年龄维度,其中脑区维度包含16个脑区,年龄维度包含10个发育及年龄阶段;
其中的16个脑区包含如下内容:
前额叶皮层(Frontal cortex) 海马旁回(Parahippocampal gyrus)
顶叶皮层(Parietal cortex) 扣带皮层(Cingulate cortex)
颞叶皮层(Temporal cortex) 脑黑质(Substantia nigra)
枕叶皮层(Occipital cortex) 横状隔核(Nucleus accumbens)
海马体(Hippocampus) 丘脑(Thalamus)
杏仁核(Amygdala) 嗅球(Olfactory bulb)
脑纹状体(Striatum) 下丘脑(Hypothalamus)
脑岛(Insula) 小脑(Cerebellum)
其中10个发育阶段及对应的年龄区间:
发育阶段 年龄
早期胎儿(Early fetal) 8PCW<=age<13PCW
中期胎儿(Mid fetal) 13PCW<=age<24PCW
晚期胎儿(Late fetal) 24PCW<=age<38PCW
新生儿和婴儿(Neonatal and infancy) 0M<=age<12M
儿童早期(Early childhood) 1Y<=age<6Y
儿童中晚期(Middle and late childhood) 6Y<=age<12Y
青春期(Adolescence) 12Y<=age<20Y
青年期(Young adulthood) 20Y<=age<40Y
中年期(Middle adulthood) 40Y<=age<60Y
晚年期(Late adulthood) 60Y<=age
本发明技术方案,具有如下优点:
A.由于不同参考数据集所涉及的时空类别不同,本发明在人类大脑基因时空表达常模中构建了一个二维时空框架,所有参考数据集最终以相同时空框架呈现,这样不仅能够综合不同来源的数据集的信息,也有利于研究者直观地对时空框架的内容进行补充和比较。
B.本发明建立了人类大脑基因时空表达常模能够建立起从基因层面到细胞、脑区和认知行为的联系,实现对收集到的人类大脑基因时空表达数据集进行不同类型的表达分析。
C.本发明将使得科研人员、医务工作者便捷地概览脑疾病的基因表达规律,为疾病的早期诊断与药物开发提供基础。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明所提供的人类大脑基因时空表达常模的建立流程图;
图2是本发明所提供的建立方法流程图;
图3是本发明所提供的单个基因时空表达模式或基因模块时空表达模式热图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明提供了一种人类大脑基因表达时空常模的建立方法,包括如下步骤:
【S1】收集大脑原始数据,并进行分析、计算,得到每个样本中所有基因标准化表达数据集;
本发明中所采集的大脑原始数据来源共分三种情况。一是需要从原始数据进行分析:首先在NCBI高通量二代测序数据库SRA(https://www.ncbi.nlm.nih.gov/sra)下载原始数据,随后对原始fastq数据进行质控、去接头、比对到参考基因组等分析,再利用相关软件对得到的bam文件进行单个基因表达量统计计算,最后得到每个样本中所有基因标准化表达数据。二是现有表达数据:在GEO数据库中存在现有的标准化表达数据,可根据收集到的数据集相应的GEO accession进行检索并进行下载。三是在现有公开的人类大脑基因表达研究数据库中下载相应的标准化表达数据。
其中需要从原始数据开始分析的RNA-seq数据处理步骤如下:
【S1.1】从SRA数据库中下载原始SRA文件,并用数据库推荐的sratoolkit软件将SRA文件转换为fastq测序文件,使用fastq-dump参数。
【S1.2】采用Fsatqc软件对原始fastq数据进行质量评估分析,判断数据质量各项指标是否合格;如果有不合格的数据,则需删除该样本。
【S1.3】采用Trimmomatic软件用于去除fastq测序文件中序列两端的接头和低质量的序列,使用ILLUMINACLIP、LEADING、TRAILING、MINLEN等参数。
【S1.4】采用Hisat2软件将fastq测序文件的序列比对到参考基因组,得到sam文件(其中使用Gencode数据库中人类基因组GRCh37v27版本作为基因组注释文件。
【S1.5】采用Samtools软件将sam文件转为bam文件,并按照染色体顺序进行排序。
【S1.6】最后用stringTie软件对上述得到的bam文件进行基因表达量计算,得到的是每个样本中所有基因标准化后的表达量。
【S2】构建由脑区和发育阶段组成的二维时空框架,将所有基因标准化表达数据按脑区和发育阶段信息对应于所构建的时空框架中,形成一个基因在行,脑区和发育阶段在列的表达矩阵,得到各基因数据范围内的单基因时空表达模式。
具体的单基因时空表达分析方法如下:
【S2.1】保留现有microarray和RNA-seq的表达数据,其中RNA-seq标准化方法包括RPKM、FPKM和TPM三种,由原始数据下载并分析得到的表达数据均选择TPM进行标准化。
【S2.2】由于各数据集中涉及到的脑区和发育阶段各不相同,需要综合数据集中脑区和发育阶段的信息构建一个时空框架,这个时空框架包括大脑主要功能脑区和发育阶段,如下表所示,并根据划分标准及相关解剖学知识将原数据集中划分精细的脑区信息与发育阶段与时空框架进行一一对应。其中部分数据集对脑区信息划分细致,如果对同一个脑区的亚区进行合并会造成一定的信息缺失,因此我们保留部分数据集中精细划分的脑区信息。
【S2.3】所有数据集按照时空框架将相同脑区和发育阶段的表达数据取算术平均值:先将所有样本按照脑区划分,将相同脑区或亚区的样本取算术平均值。再将每个脑区中的样本按照发育阶段进行划分,合并相同样本的表达量取算术平均值。
【S2.4】将所有数据集标准化表达数据矩阵中的Ensembl gene id转换成genesymbol,并对相同基因的表达数据取算术平均值;若已经是gene symbol则直接对相同基因的表达数据取算术平均值。
【S2.5】删除基因表达量在时空框架中都为0的基因。最终得到基因在行,脑区和发育阶段在列的表达矩阵作为单基因时空表达模式的数据基础。若想得到单个基因的时空表达模式,则可通过R pheatmap进行绘制热图,将时空表达模式可视化。
综合上述内容,得到各数据集全基因组范围内的单基因时空表达模式。
本发明中所采用的二维时空框架结构如下表所示。
其中的16个脑区包含如下内容:
前额叶皮层(Frontal cortex) 海马旁回(Parahippocampal gyrus)
顶叶皮层(Parietal cortex) 扣带皮层(Cingulate cortex)
颞叶皮层(Temporal cortex) 脑黑质(Substantia nigra)
枕叶皮层(Occipital cortex) 横状隔核(Nucleus accumbens)
海马体(Hippocampus) 丘脑(Thalamus)
杏仁核(Amygdala) 嗅球(Olfactory bulb)
脑纹状体(Striatum) 下丘脑(Hypothalamus)
脑岛(Insula) 小脑(Cerebellum)
其中10个发育阶段及对应的年龄区间:
发育阶段 年龄
早期胎儿(Early fetal) 8PCW<=age<13PCW
中期胎儿(Mid fetal) 13PCW<=age<24PCW
晚期胎儿(Late fetal) 24PCW<=age<38PCW
新生儿和婴儿(Neonatal and infancy) 0M<=age<12M
儿童早期(Early childhood) 1Y<=age<6Y
儿童中晚期(Middle and late childhood) 6Y<=age<12Y
青春期(Adolescence) 12Y<=age<20Y
青年期(Young adulthood) 20Y<=age<40Y
中年期(Middle adulthood) 40Y<=age<60Y
晚年期(Late adulthood) 60Y<=age
【S3】采用基因共表达网络分析方法对步骤二中所得到的单基因时空表达矩阵数据进行分析,得到多个基因模块,通过对每个基因模块取平均基因表达量得到基因模块时空表达模式。
采用R包加权基因共表达网络分析(Weighted Gene Co-expression NetworkAnalysis,WGCNA),(Version 1.64-1,http://horvath.genetics.ucla.edu/html/CoexpressionNetwork/Rpackages/WGCNA/)进行分析。其中构建的是无向网络unsign;采用pearson相关系数,corType=“pearson”;使用函数sft=pickSoftThreshold(dataExpr,powerVector=powers,networkType=type,verbose=5)进行多软阈值的无标度拓扑分析,目的是为了选择合适的软阈值;软阈值根据power=sft$powerEstimate选择合适的参数用于后续分析;无标度网络图谱结构筛选标准R-square设置为0.9;调节参数mergeCutHeight,控制所得基因模块内基因数目的上限;调节minModuleSize参数控制基因模块基因数目的下限;blockwiseModules函数一步法构建网络;plotDendroAndColors函数进行基因模块可视化;TOMsimilarityFromExpr函数进行拓扑重叠计算;exportNetworkToCytoscape函数导出基因模块。
根据上述,基因共表达网络分析方法如下:
【S3.1】对每套数据二维时空框架下的单基因时空表达矩阵数据进行WGCNA分析,设定相应参数,选择合适的软阈值构建基因网络,在基于R软件的WGCNA程序包中使用程序包中的blockwiseModules函数获取共表达基因模块;获取过程中调节mergeCutHeight和minModuleSize参数,控制基因模块内基因数目在30-5000,并设置exportNetworkToCytoscape参数导出基因模块内的节点基因(node gene),基因相关的边(dege)信息以及它们的相关性系数。
【S3.2】基因模块内所有基因取算术平均值表达量表示整个基因模块的基因表达水平,以获得基因模块在二维时空框架下的时空表达模式。
【S3.3】每套数据最终得到若干个基因模块、模块内基因与基因的相互关系,以及每个模块的平均基因表达量作为基因模块时空表达模式的数据基础。若得到单个模块的时空表达模式,则可通过R pheatmap绘制热图,将模块时空表达模式可视化。
结合上述步骤,得到各数据集内存在共表达关系的基因模块、基因模块时空表达模式以及模块潜在的生物学功能。
图3为时空框架的热图图示形式,横向为10个发育阶段,纵向为16个脑区,从图3框架中可以用每个节点的颜色来体现表达模式,即热图,颜色越表示表达量越高。当应用数据为单个基因表达数据时,该热图体现单个基因的时空表达模式,即【S25】中的内容;当应用数据为基因模块表达数据时,则该热图体现基因模块的时空表达模式,即【S32】中的内容。通过对基因和共表达模块的时空表达模式图,可以得到输入基因集高表达的时空节点和表达特征,同时也能发现起重要作用的基因模块以及基因网络中核心基因,进一步了解基因可能参与的分子过程。
【S4】通过对正常人类神经细胞表达数据进行分析,得到不同神经细胞的特征性基因,将神经细胞的特征性基因与步骤三所得到的基因模块进行富集分析,得到与基因模块富集的细胞类型,获得基因模块的细胞表达模式。
【S4.1】在GEO数据库下载现有人类神经细胞类型表达数据集,根据GEOaccession:GSE73721(Zhang et al.,2016)进行检索,在“Supplementary file”中下载以FPKM为单位的标准化基因表达量数据;GEO数据库(GENE EXPRESSION OMNIBUS)是由美国国立生物技术信息中心NCBI创建并维护的基因表达数据库。
【S4.2】将相同细胞类型样本的表达数据进行合并求平均,以平均表达量表示基因在细胞中的表达情况,其中删除小鼠和肿瘤组织的数据,最后得到一个基因在行,细胞类型在列的表达矩阵。
【S4.3】然后用R包pSI中的specificity index statistic函数计算输入表达矩阵的特异性指数统计量(specificity index statistic,pSI),识别特定细胞中富集的基因;随后筛选pSI值<0.05的基因,意味着在0.05的水平上,这些基因在细胞中得到富集。
【S4.4】将加权基因共表达网络分析得到的基因模块与细胞特征性基因进行富集分析,采用Fisher’s exact检验,cutoff为0.05,得到模块的细胞类型特异性表达模式。
通过上述步骤,得到各数据集中细胞类型特异性表达基因集和基因模块在细胞中的表达模式。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (4)

1.一种人类大脑基因表达时空常模的建立方法,其特征在于,所述方法包括如下步骤:
步骤1、收集大脑时空原始数据,并进行分析、计算,得到每个样本中所有基因标准化表达数据集;所采集的大脑原始数据来源分为三种;一种是从NCBI高通量二代测序数据库SRA下载原始数据,一种是在GEO数据库中采集现有的标准化表达数据,并对收集到的数据集相应的GEO accession进行检索下载;一种是采集现有公开的人类大脑基因表达研究数据库中下载相应的标准化表达数据;
步骤2、构建由脑区和发育阶段组成的二维时空框架,将所有基因标准化表达数据按脑区和发育阶段信息对应于所构建的时空框架中,形成基因在行,脑区和发育阶段在列的表达矩阵,得到各基因数据范围内的单基因时空表达模式;其中单基因时空表达模式的分析方法如下;
步骤2.1,综合所有基因标准化表达数据,按脑区和发育阶段的信息构建二维时空框架,将步骤1中所得到的原数据集所划分精细的脑区信息和发育阶段与所构建的时空框架进行一一对应;
步骤2.2,先将所有样本按照脑区划分,所有数据集中按照二维时空框架将相同脑区或亚区的样本取算术平均值,再将每个脑区中的样本按照发育阶段进行划分,合并相同样本的表达量取算术平均值;
步骤2.3,将所有数据集标准化表达数据矩阵中的基因基于Ensembl数据库注释得到的基因标识转换成人类基因命名委员会发布的标准基因名称,并对相同基因的表达数据取算术平均值;
步骤2.4,删除基因表达数据在二维时空框架中都为0的基因,得到基因在行,脑区和发育阶段在列的表达矩阵,通过绘制热图,得到单基因时空表达模式;
步骤3、采用基因共表达网络分析方法对步骤2中所得到的单基因时空表达矩阵数据进行分析,得到多个基因模块,通过对每个基因模块取平均基因表达量,得到基因模块时空表达模式;基因共表达网络分析方法是:
步骤3.1,对每套数据二维时空框架下的单基因时空表达矩阵数据进行加权基因共表达网络分析,在基于R软件的加权基因共表达网络分析程序包中使用程序包中的blockwiseModules函数获取共表达基因模块,获取过程中调节mergeCutHeight和minModuleSize参数控制基因模块内基因数目在30-5000,并设置exportNetworkToCytoscape参数导出基因模块内的节点基因,基因相关的边信息以及它们的相关性系数;
步骤3.2,基因模块内所有基因取算术平均值表达量表示整个基因模块的基因表达水平,获得基因模块在二维时空框架下的时空表达模式;
步骤3.3,根据步骤3.1和步骤3.2,每套数据可以得到若干个基因模块、基因模块内基因与基因的相互关系以及每个基因模块的平均基因表达量,通过绘制热图,将基因模块时空表达模式可视化;
步骤4、对正常人类神经细胞表达数据进行分析,得到各神经细胞的特征性基因,将神经细胞的特征性基因与步骤3所得到的基因模块进行富集分析,得到与基因模块富集的细胞类型,获得基因模块的细胞表达模式。
2.根据权利要求1所述的人类大脑基因表达时空常模的建立方法,其特征在于,所述步骤1中对于从原始数据进行分析、计算得到基因标准化表达数据的具体步骤如下:
步骤1.1,从美国国立生物技术信息中心的高通量测序数据库SRA中下载原始SRA文件,并将SRA文件转换为fastq测序文件;
步骤1.2,对所得到的fastq测序文件进行质量评估分析,判断fastq测序文件中的数据质量各项指标是否合格,若存在不合格的数据,则删除对应的样本;
步骤1.3,通过数据处理去除fastq测序文件中序列两端的接头和低质量的序列;
步骤1.4,将所得fastq测序文件的序列比对到参考基因组,得到sam文件,其中使用Gencode数据库中人类基因组GRCh37 v27版本作为基因组注释文件;
步骤1.5,将sam文件转为bam文件,并按照染色体顺序进行排序;
步骤1.6,对所得到的 bam文件进行基因表达量计算,得到每个样本中所有基因标准化表达数据。
3.根据权利要求1所述的人类大脑基因表达时空常模的建立方法,其特征在于,所述步骤4中对正常人类神经细胞表达数据进行分析的方法是:
步骤4.1,在GEO数据库下载现有人类神经细胞类型表达数据集,根据GEO accession:GSE73721进行检索,在“Supplementary file”中下载以FPKM为单位的标准化基因表达量数据;
步骤4.2,将相同细胞类型样本的表达数据进行合并求平均值,得到基因在行,细胞类型在列的表达矩阵;
步骤4.3,采用R包pSI中的specificity index statistic函数计算输入表达矩阵的特异性指数统计量,识别特定细胞中富集的基因,并筛选pSI值< 0.05的基因;
步骤4.4,将加权基因共表达网络分析得到的基因模块与细胞特征性基因进行富集分析,采用Fisher’s exact检验,cutoff为0.05,得到基因模块的细胞类型特异性表达模式。
4.根据权利要求1所述的人类大脑基因表达时空常模的建立方法,其特征在于,所构建的二维时空框架包括脑区维度和年龄维度,其中脑区维度包含16个脑区,年龄维度包含10个发育阶段对应的年龄区间;
其中的16个脑区包含如下内容:前额叶皮层、顶叶皮层、颞叶皮层、枕叶皮层、海马体、杏仁核、脑纹状体、脑岛、海马旁回、扣带皮层、脑黑质、横状隔核、丘脑、嗅球、下丘脑和小脑。
CN201910664819.0A 2019-07-23 2019-07-23 一种人类大脑基因表达时空常模的建立方法 Active CN110349625B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910664819.0A CN110349625B (zh) 2019-07-23 2019-07-23 一种人类大脑基因表达时空常模的建立方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910664819.0A CN110349625B (zh) 2019-07-23 2019-07-23 一种人类大脑基因表达时空常模的建立方法

Publications (2)

Publication Number Publication Date
CN110349625A CN110349625A (zh) 2019-10-18
CN110349625B true CN110349625B (zh) 2022-02-08

Family

ID=68179848

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910664819.0A Active CN110349625B (zh) 2019-07-23 2019-07-23 一种人类大脑基因表达时空常模的建立方法

Country Status (1)

Country Link
CN (1) CN110349625B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110957009B (zh) * 2019-11-05 2023-05-12 中山大学中山眼科中心 一种基于深度混合网络的单细胞转录组缺失值填补方法
CN114743603B (zh) * 2022-01-21 2023-12-12 中南大学湘雅医院 基因可靠性分析方法、装置、存储介质及服务器

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6455757B1 (en) * 1997-10-08 2002-09-24 The Regents Of The University Of California Transgenic mice expressing human APP and TGF-β demonstrate cerebrovascular amyloid deposits
JP2005149037A (ja) * 2003-11-14 2005-06-09 Mitsubishi Space Software Kk 遺伝子発現作用推定方法、遺伝子発現作用推定装置及び遺伝子発現作用推定プログラム
CN106980763A (zh) * 2017-03-30 2017-07-25 大连理工大学 一种基于基因突变频率的癌症驱动基因的筛选方法
CN107169497A (zh) * 2017-04-14 2017-09-15 中国科学院苏州生物医学工程技术研究所 一种基于基因影像学的肿瘤影像标记物提取方法
CN107862177A (zh) * 2017-07-12 2018-03-30 中国水产科学研究院淡水渔业研究中心 一种区分鲤群体的单核苷酸多态性分子标记集的构建方法
CN107937484A (zh) * 2017-12-15 2018-04-20 河南师范大学 肝再生相关lncRNA及其筛选方法、抑制剂和应用
CN108595915A (zh) * 2018-04-16 2018-09-28 北京化工大学 一种基于dna变异检测的三代数据校正方法
CN109872772A (zh) * 2019-02-14 2019-06-11 辽宁省肿瘤医院 利用权重基因共表达网络挖掘结直肠癌放疗特异性基因的方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107480467B (zh) * 2016-06-07 2020-11-03 王�忠 一种判别或比较药物作用模块的方法
CN106295246A (zh) * 2016-08-07 2017-01-04 吉林大学 找到与肿瘤相关的lncRNA并预测其功能
CN107451429A (zh) * 2017-07-24 2017-12-08 西北农林科技大学 一种一键化分析rna数据的系统
CN108920899B (zh) * 2018-06-10 2022-02-08 杭州迈迪科生物科技有限公司 一种基于目标区域测序的单个外显子拷贝数变异预测方法
CN109887548B (zh) * 2019-01-18 2022-11-08 臻悦生物科技江苏有限公司 基于捕获测序的ctDNA占比的检测方法及检测装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6455757B1 (en) * 1997-10-08 2002-09-24 The Regents Of The University Of California Transgenic mice expressing human APP and TGF-β demonstrate cerebrovascular amyloid deposits
JP2005149037A (ja) * 2003-11-14 2005-06-09 Mitsubishi Space Software Kk 遺伝子発現作用推定方法、遺伝子発現作用推定装置及び遺伝子発現作用推定プログラム
CN106980763A (zh) * 2017-03-30 2017-07-25 大连理工大学 一种基于基因突变频率的癌症驱动基因的筛选方法
CN107169497A (zh) * 2017-04-14 2017-09-15 中国科学院苏州生物医学工程技术研究所 一种基于基因影像学的肿瘤影像标记物提取方法
CN107862177A (zh) * 2017-07-12 2018-03-30 中国水产科学研究院淡水渔业研究中心 一种区分鲤群体的单核苷酸多态性分子标记集的构建方法
CN107937484A (zh) * 2017-12-15 2018-04-20 河南师范大学 肝再生相关lncRNA及其筛选方法、抑制剂和应用
CN108595915A (zh) * 2018-04-16 2018-09-28 北京化工大学 一种基于dna变异检测的三代数据校正方法
CN109872772A (zh) * 2019-02-14 2019-06-11 辽宁省肿瘤医院 利用权重基因共表达网络挖掘结直肠癌放疗特异性基因的方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Analysis of low-correlated spatial gene expression patterns: a clustering approach in the mouse brain data hosted in the Allen Brain Atlas;Paolo Rosati et al;《IET Computer Vision》;20181217;第12卷(第7期);第996-1006页 *
基因共表达网络的构建及分析方法研究综述;汪涛等;《智能计算机与应用》;20141231;第4卷(第6期);第47-50+53页 *
梅山猪不同发育阶段肠道微生物变化及免疫调控机制分析;刘颖;《中国博士学位论文全文数据库 农业科技辑》;20190115;第2018年卷(第12期);第3章第1节、第3章第1节的第2.4节、图3-1-19、第3章第2节的第2.3节、图3-2-3、图3-2-4 *
灵长类动物脑中特殊类型细胞基因表达情况的研究;梁洪雨;《中国优秀硕士学位论文全文数据库》;20130115;第2013年卷(第01期);A006-11 *

Also Published As

Publication number Publication date
CN110349625A (zh) 2019-10-18

Similar Documents

Publication Publication Date Title
Spencer Chapman et al. Lineage tracing of human development through somatic mutations
CN110349625B (zh) 一种人类大脑基因表达时空常模的建立方法
Li et al. Identification of selection signals by large-scale whole-genome resequencing of cashmere goats
WO2020103683A1 (zh) 基于脑功能图谱的猴-人跨物种迁移进行精神疾病的个体化预测方法和系统
US20150269336A1 (en) method for selecting features of EEG signals based on decision tree
CN110910950A (zh) 一种联合分析单细胞scRNA-seq和scATAC-seq的流程方法
Okamura-Oho et al. Transcriptome tomography for brain analysis in the web-accessible anatomical space
CN116825186A (zh) 基于生成对抗网络的单细胞数据批次效应校正方法
Badai et al. Review of artificial intelligence applications and algorithms for brain organoid research
Yuan et al. Classification of mild cognitive impairment with multimodal data using both labeled and unlabeled samples
Song et al. Functional hierarchy of the angular gyrus and its underlying genetic architecture
CN110428867B (zh) 一种人类大脑基因时空表达模式在线分析系统及其方法
Werner et al. Preservation of co-expression defines the primary tissue fidelity of human neural organoids
Franco et al. Reverting to old theories of ageing with new evidence for the role of somatic mutations
CN113378898A (zh) 基于相对熵损失函数卷积神经网络的脑龄预测方法
CN111128308B (zh) 一种神经精神疾病新发突变信息知识平台
CN115588465B (zh) 一种性状相关基因的筛选方法及其系统
CN115394359B (zh) 一种通过转录组检测单细胞染色体拷贝数变异方法
CN117457065A (zh) 一种基于单细胞多组学数据识别表型相关细胞类型的方法和系统
CN115948521B (zh) 一种检测非整倍体缺失染色体信息的方法
CN114444568A (zh) 一种基于改进聚类算法的不满意原因溯源方法
Liu et al. Functional orderly topography of brain networks associated with gene expression heterogeneity
CN113345515A (zh) 新发平衡易位家系中胚胎遗传性检测方法及装置
Eriksson et al. An accurate model for genetic hitchhiking
CN115472219B (zh) 一种阿尔兹海默病数据的处理方法及其系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant