CN115472219A - 一种阿尔兹海默病数据的处理方法及其系统 - Google Patents
一种阿尔兹海默病数据的处理方法及其系统 Download PDFInfo
- Publication number
- CN115472219A CN115472219A CN202211277658.8A CN202211277658A CN115472219A CN 115472219 A CN115472219 A CN 115472219A CN 202211277658 A CN202211277658 A CN 202211277658A CN 115472219 A CN115472219 A CN 115472219A
- Authority
- CN
- China
- Prior art keywords
- cell
- data
- genetic
- processing
- alzheimer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 208000024827 Alzheimer disease Diseases 0.000 title claims abstract description 60
- 238000012545 processing Methods 0.000 title claims abstract description 60
- 238000000034 method Methods 0.000 title claims abstract description 55
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 97
- 230000037361 pathway Effects 0.000 claims abstract description 87
- 230000002068 genetic effect Effects 0.000 claims abstract description 66
- 108091006146 Channels Proteins 0.000 claims abstract description 51
- 230000000694 effects Effects 0.000 claims abstract description 46
- 238000012163 sequencing technique Methods 0.000 claims abstract description 40
- 239000011159 matrix material Substances 0.000 claims abstract description 36
- 230000014509 gene expression Effects 0.000 claims abstract description 35
- 238000010219 correlation analysis Methods 0.000 claims abstract description 7
- 238000012216 screening Methods 0.000 claims abstract description 7
- 238000007619 statistical method Methods 0.000 claims abstract description 7
- 210000004027 cell Anatomy 0.000 claims description 168
- 238000013077 scoring method Methods 0.000 claims description 9
- 210000000535 oligodendrocyte precursor cell Anatomy 0.000 claims description 8
- 238000003672 processing method Methods 0.000 claims description 5
- 239000013598 vector Substances 0.000 claims description 4
- 230000001174 ascending effect Effects 0.000 claims description 3
- 230000004640 cellular pathway Effects 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 3
- 230000003234 polygenic effect Effects 0.000 claims description 3
- 201000010099 disease Diseases 0.000 description 13
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 13
- 241000282414 Homo sapiens Species 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 210000000274 microglia Anatomy 0.000 description 5
- 238000000354 decomposition reaction Methods 0.000 description 4
- 210000004556 brain Anatomy 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000000750 progressive effect Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 210000001519 tissue Anatomy 0.000 description 3
- 108700028369 Alleles Proteins 0.000 description 2
- 238000003559 RNA-seq method Methods 0.000 description 2
- 206010039966 Senile dementia Diseases 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 210000001130 astrocyte Anatomy 0.000 description 2
- 230000008236 biological pathway Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 210000004248 oligodendroglia Anatomy 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 210000003765 sex chromosome Anatomy 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 102100025228 Calcium/calmodulin-dependent protein kinase type II subunit delta Human genes 0.000 description 1
- 102000005636 Cyclic AMP Response Element-Binding Protein Human genes 0.000 description 1
- 108010045171 Cyclic AMP Response Element-Binding Protein Proteins 0.000 description 1
- 108010051975 Glycogen Synthase Kinase 3 beta Proteins 0.000 description 1
- 102000019058 Glycogen Synthase Kinase 3 beta Human genes 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 101001077338 Homo sapiens Calcium/calmodulin-dependent protein kinase type II subunit delta Proteins 0.000 description 1
- 101150017040 I gene Proteins 0.000 description 1
- 108700018351 Major Histocompatibility Complex Proteins 0.000 description 1
- 208000026139 Memory disease Diseases 0.000 description 1
- 241000699666 Mus <mouse, genus> Species 0.000 description 1
- 241000699660 Mus musculus Species 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- 210000004460 N cell Anatomy 0.000 description 1
- 206010034719 Personality change Diseases 0.000 description 1
- 102000003946 Prolactin Human genes 0.000 description 1
- 108010057464 Prolactin Proteins 0.000 description 1
- 244000124765 Salsola kali Species 0.000 description 1
- 210000000068 Th17 cell Anatomy 0.000 description 1
- 102000040945 Transcription factor Human genes 0.000 description 1
- 108091023040 Transcription factor Proteins 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000012098 association analyses Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000000601 blood cell Anatomy 0.000 description 1
- 210000004958 brain cell Anatomy 0.000 description 1
- 230000011712 cell development Effects 0.000 description 1
- 230000024245 cell differentiation Effects 0.000 description 1
- 210000003169 central nervous system Anatomy 0.000 description 1
- 230000001684 chronic effect Effects 0.000 description 1
- 208000010877 cognitive disease Diseases 0.000 description 1
- 230000003920 cognitive function Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000004064 dysfunction Effects 0.000 description 1
- 230000000848 glutamatergic effect Effects 0.000 description 1
- 210000005260 human cell Anatomy 0.000 description 1
- 206010022000 influenza Diseases 0.000 description 1
- 208000011977 language disease Diseases 0.000 description 1
- 238000012177 large-scale sequencing Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000002503 metabolic effect Effects 0.000 description 1
- 230000002025 microglial effect Effects 0.000 description 1
- 230000009456 molecular mechanism Effects 0.000 description 1
- 230000004770 neurodegeneration Effects 0.000 description 1
- 208000015122 neurodegenerative disease Diseases 0.000 description 1
- 230000016273 neuron death Effects 0.000 description 1
- 210000002475 olfactory pathway Anatomy 0.000 description 1
- 210000003819 peripheral blood mononuclear cell Anatomy 0.000 description 1
- 229940097325 prolactin Drugs 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000019491 signal transduction Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000012174 single-cell RNA sequencing Methods 0.000 description 1
- 210000004092 somatosensory cortex Anatomy 0.000 description 1
- 230000000087 stabilizing effect Effects 0.000 description 1
- 210000000130 stem cell Anatomy 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000020382 suppression by virus of host antigen processing and presentation of peptide antigen via MHC class I Effects 0.000 description 1
- 230000000946 synaptic effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000026683 transduction Effects 0.000 description 1
- 238000010361 transduction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 108700026220 vif Genes Proteins 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/40—Population genetics; Linkage disequilibrium
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Genetics & Genomics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Physics & Mathematics (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Analytical Chemistry (AREA)
- Physiology (AREA)
- Ecology (AREA)
- Molecular Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Chemical & Material Sciences (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种阿尔兹海默病数据的处理方法、系统、设备和计算机可读存储介质,方法其包括:获取待分析的单细胞测序序列数据;对所述待分析的单细胞测序序列数据进行处理,得到细胞通路的PAS评分矩阵和细胞通路的PAS;获取阿尔兹海默病的遗传关联数据,并基于通路数据,对所述遗传关联数据进行处理,得到带有SNPs注释的通路数据;对所述细胞通路的PAS和所述带有SNPs注释的通路数据进行统计分析处理,得到细胞的遗传相关通路活性评分gPAS;对所述遗传相关通路活性评分gPAS与每个细胞的基因表达量进行相关性分析并排序,筛选出N个性状相关基因。
Description
技术领域
本发明涉及基因测序技术领域,更具体地,涉及一种阿尔兹海默病数据的处理方法及其系统。
背景技术
阿尔茨海默病(AD),又叫老年性痴呆,是一种中枢神经系统变性病,神经元死亡和认知功能丧失逐渐增加,起病隐袭,病程呈慢性进行性,是老年期痴呆最常见的一种类型。主要表现为渐进性记忆障碍、认知功能障碍、人格改变及语言障碍等神经精神症状,严重影响社交、职业与生活功能。随着测序技术的快速发展,单细胞测序技术为揭示AD的细胞功能障碍和多样性带来了更全面的机遇。
利用单细胞RNA测序(scRNA-seq)技术识别与复杂疾病(如AD)或性状相关的关键细胞亚群,对于理解复杂疾病机制至关重要。但scRNA-seq数据因其高成本和低通量的特性不允许对进行大规模测序,且目前大多数基于单细胞的研究样本不超过20个,导致统计效能有限,无法准确揭示细胞亚群中与疾病或特征相关的风险子集。此外,scRNA-seq数据在基因水平上具有高稀疏性、技术噪声和方差不稳定性的特点。遗传关联数据例如:(全基因组关联研究,GWAS)广泛应用于研究不同的复杂疾病或性状,将scRNA-seq数据与来自大规模样本的GWAS的表型相关遗传信息相关联,被认为是一种实用而有效的方法,可以在单细胞分辨率下揭示复杂疾病或性状的遗传分子机制。
将GWAS与scRNA-seq数据相结合用来识别与复杂疾病相关的细胞类型的方法,包括诸如LDSC-SEG,MAGMA,RolyPoly,但是上述方法需要大量调整参数,以便用已知标记基因注释细胞类型,且在很大程度上忽略了每种细胞类型的内部异质性。此外,现有技术可以识别高表达水平的基因,但是其潜在缺陷是,过度关注高表达基因会低估表达水平相对较低但对揭示细胞命运很重要的基因的功能作用。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明提供一种阿尔兹海默病数据的处理方法及其系统;本发明方法通过发明基于单细胞通路的评分方法,结合scRNA-seq数据和遗传关联数据推断与阿尔兹海默病相关的基因、细胞等,从深层次挖掘隐含在单细胞测序数据背后的生命规律,确定基因、细胞、细胞亚群、生物学通路等与AD之间的潜在联系。
本申请公开一种阿尔兹海默病数据的处理方法,包括:
获取待分析的单细胞测序序列数据;
对所述待分析的单细胞测序序列数据进行处理,得到细胞通路的PAS评分矩阵和细胞通路的PAS;
获取阿尔兹海默病的遗传关联数据,并基于通路数据,对所述遗传关联数据进行处理,得到带有SNPs注释的通路数据;
对所述细胞通路的PAS和所述带有SNPs注释的通路数据进行统计分析处理,得到细胞的遗传相关通路活性评分gPAS;
对所述遗传相关通路活性评分gPAS与每个细胞的基因表达量进行相关性分析并排序,筛选出N个性状相关基因。
所述方法还包括:根据所述N个性状相关基因计算每个细胞的性状相关分数TRS;根据所述性状相关分数TRS和单个细胞的水平P值进行聚类,得到与阿尔兹海默病相关的性状相关细胞;
可选的,利用细胞评分方法计算所述N个性状基因的性状相关分数TRS;
所述方法还包括:基于区块拔靴法block bootstrap method得到性状相关细胞类型或亚群。
所述对所述细胞通路的PAS和所述带有SNPs注释的通路数据进行统计分析处理,得到细胞的遗传相关通路活性评分gPAS的步骤包括:
基于所述带有SNPs注释的通路数据得到单条通路数据中所有SNPs的遗传效应值;
利用遗传关联数据的多基因回归模型,基于所述PAS和所述遗传效应值,对所述遗传效应值的分布进行参数估计,得到估计系数;
将所述估计系数乘以PAS再求和得到细胞的遗传相关通路活性评分gPAS;
可选的,所述对所述遗传相关通路活性评分gPAS与每个细胞的基因表达量进行相关性分析并排序的方法包括:通过皮尔逊相关系数(PCC)确定单个基因的表达与所述gPAS之间的相关性,根据相关性对基因进行排序,得到所述N个性状相关基因;
可选的,所述N个性状相关基因为按照相关性降序或者升序规则进行排序后的前1000或后1000个性状相关基因;
所述方法还包括:对所述遗传相关通路活性评分gPAS进行排序,根据排序结果和细胞类型水平上通路的P值,得到性状相关通路。
检测少突胶质前体细胞的产品在制备诊断阿尔兹海默的产品中的应用;
一种阿尔兹海默病数据的处理设备,所述设备包括:存储器和处理器;
所述存储器用于存储程序指令;所述处理器用于调用程序指令,当程序指令被执行时,用于执行上述的阿尔兹海默病数据的处理方法。
一种阿尔兹海默病数据的处理系统,包括:
获取单元,用于获取待分析的单细胞测序序列数据;
第一处理单元,用于对所述待分析的单细胞测序序列数据进行处理,得到细胞通路的PAS评分矩阵和细胞通路的PAS;
第二处理单元,用于获取阿尔兹海默病的遗传关联数据,并基于通路数据,对所述遗传关联数据进行处理,得到带有SNPs注释的通路数据;
第三处理单元,用于对所述细胞通路的PAS和所述带有SNPs注释的通路数据进行统计分析处理,得到细胞的遗传相关通路活性评分gPAS;
第四处理单元,用于对所述遗传相关通路活性评分gPAS与每个细胞的基因表达量进行相关性分析并排序,筛选出N个性状相关基因。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的阿尔兹海默病数据的处理方法。
本申请具有以下有益效果:
1、本申请创新性的公开了一种单细胞测序数据和遗传关联数据相结合的阿尔兹海默病数据的处理方法,能够从深层次、更多维度地推断出与AD相关的基因、细胞、细胞亚群以及相关的生物学通路等,为AD的研究做出贡献;该方法基于单细胞通路的评分方法,融合了参与相同生物通路的不同基因的功能作用以获得稳定的细胞状态,显著增加了统计能力、生物学可解释性和结果可重复性;克服了已知注释细胞类型的限制,并可能发现新的遗传相关亚群和细胞类型的关键基因或通路,应用广泛,实用性强。
2、本申请创新性的公开一种基于单细胞通路的评分方法,采用多基因回归模型,通过利用通路活性转化的scRNA-seq数据和遗传关联研究数据揭示与性状相关的基因、细胞亚群;有效克服了目前与复杂疾病多基因风险相关的基因、细胞亚群的鉴定在很大程度上受到scRNA-seq数据中样本量小和高度稀疏性的阻碍,导致统计效能有限,无法准确揭示细胞亚群中与疾病或特征相关的风险子集的问题。该方法从深层次挖掘隐含在单细胞测序数据背后的生命规律,从遗传关联信号与阿尔兹海默症关系和单细胞测序基因丰度信息等多个维度深度分析,大大提高数据分析的精度和深度。
3、本申请基于大规模模拟和真实数据,利用上述评分方法将scRNA-seq数据和遗传关联数据相结合,可以有效克服现有技术中为了方便用已知标记基因注释细胞类型需要大量调整参数,且在很大程度上会忽略每种细胞类型的内部异质性的问题;不会存在因过度关注高表达基因而低估表达水平相对较低但对揭示细胞命运很重要的基因的功能作用,有助于通过聚集平均表达水平较低的基因的作用来识别疾病相关的早期发育事件或祖细胞,例如与细胞发育相关的关键转录因子;同时可以有效降低scRNA-seq数据的稀疏性和技术噪声,并在识别特征相关的细胞类型和亚群方面表现出很好的稳健性和能力。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获取其他的附图。
图1是本发明实施例提供的阿尔兹海默病数据的处理方法的分析示意流程图;
图2是本发明实施例提供的阿尔兹海默病数据的处理设备示意图;
图3是本发明实施例提供的阿尔兹海默病数据的处理系统示意流程图;
图4是本发明实施例提供的基于单细胞通路的评分方法获得gPAS,以及利用gPAS输出TRS、性状相关基因、性状相关细胞、性状相关细胞类型/亚群、性状型管通路的概述图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
在本发明的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获取的所有其他实施例,都属于本发明保护的范围。
图1是本发明实施例提供的一种阿尔兹海默病数据的处理方法示意流程图,具体地,方法包括如下步骤:
101:获取待分析的单细胞测序序列数据;
在一个实施例中,单细胞测序数据包括七个独立的单细胞RNA-seq(scRNA-seq)或单核RNA-seq(snRNA-seq)数据集,涵盖来自人类(homo sapiens)和小鼠(mus musculus)的139万个细胞。针对血细胞,收集了两个基于人类BMMC(N=35,582个细胞)和人类PBMC(N=97,039个细胞)的scRNA-seq数据集,以揭示性状相关的细胞亚群或类型。对于与免疫/代谢相关的疾病/特征,利用来自人类细胞的scRNA-seq数据集(HCL,N=35个成人组织中的513,707个细胞)为每个组织构建一个伪组织(psudo-bulk)表达谱和与疾病/特征相关的优先风险组织。
在一个实施例中,对于脑相关疾病,收集了三个单细胞数据集:小鼠脑scRNAseq数据集(N=160,796个细胞)、人脑内嗅皮质snRNA-seq数据集(N=11,786个细胞)和包含内嗅皮层和体感皮层两个区域的人类大脑snRNA-seq数据集(N=101,906个细胞)。
在一个实施例中,待分析的单细胞测序序列数据为阿尔兹海默病的数据,包括以下一种或几种脑细胞类型:少突胶质前体细胞(OPC)、小胶质细胞(Microglia)、神经细胞(Neuron)、星形胶质细胞(Astrocyte)、少突胶质细胞(Oligodendrocyte)。
102:对待分析的单细胞测序序列数据进行处理,得到细胞通路的PAS评分矩阵和细胞通路的PAS;
在一个实施例中,对待分析的单细胞测序序列数据进行处理,得到细胞通路的PAS评分矩阵和细胞通路的PAS的获取步骤包括:
获取阿尔兹海默病的通路数据;
对单细胞测序序列数据中的基因-细胞矩阵进行标准化处理,得到经标准化处理后的基因-细胞矩阵;具体地,使用比例因子为10000的方差稳定化变换参数将scRNA-seq数据中的稀疏基因-细胞矩阵进行标准化,得到在单个细胞中单个基因的标准化表达;标准化的公式为:其中,ag,j表示细胞j中基因g的原始表达,eg,j表示细胞j中基因g的标准化表达;
基于阿尔兹海默病的通路数据,利用机器学习的方法将经标准化处理后的基因-细胞矩阵转换为通路-细胞矩阵,利用通路-细胞矩阵得到细胞通路的PAS评分矩阵,PAS评分矩阵包括单条通路中单个细胞的通路活性评分PAS;
在一个实施例中,通路数据为KEGG通路数据,来自KEGG数据库的通路作为评估PAS的默认基因集,利用奇异值分解SVD的方法将经标准化处理后的基因-细胞矩阵转换为通路-细胞矩阵;使用Pi表示通路i中的基因集,对于每条通路i,从标准化的基因-细胞矩阵A选择矩阵Ai,其中矩阵Ai的列是所有N个细胞,行是通路基因集Pi中|Pi|基因,根据SVD得到的公式,其中,U表示N×N正交矩阵,Σ表示除主对角线元素外具有全零的对角矩阵,VT表示|Pi|×|Pi|正交矩阵;对于右正交矩阵V=(v1,v2,...,v|Pi|),第t列向量vt表示第t主成分,反映了单细胞数据中基因在通路中的协同表达变异性;由于第一主成分PC1代表最大的方差变异,因此细胞j特征在PC1的投影代表了通路i的PASsi,j;对于细胞j,利用通路i中所有的表达方差作为权重调整原始PASsi,j;对于通路i中的基因g,使用最小-最大值缩放法重新调整基因表达eg,j调整后的基因表达为
在一个实施例中,对通路活性评分PAS进行优化处理,得到加权PAS;
可选的,机器学习的方法包括奇异值分解SVD的方法;奇异值分解SVD方法大大提高了分析稀疏矩阵的计算效率,且可以在不计算方差矩阵的情况下获得特征值;利用奇异值分解方法将标准化的基因-细胞矩阵换华为低维空间的通路-细胞矩阵。
103:获取阿尔兹海默病的遗传关联数据,并基于通路数据,对遗传关联数据进行处理,得到带有SNPs注释的通路数据;
在一个实施例中,基于阿尔兹海默病的通路数据,对遗传关联数据进行处理,得到带有SNPs注释的通路数据的步骤包括:
从遗传关联数据中进行筛选得到单个基因的SNPs,基于通路数据,将单个基因的SNPs映射到对应通路中,得到带有SNPs注释的通路数据;
可选的,单个基因的SNPs的获取步骤包括:获取遗传关联数据中基因的SNPs后,分别对SNPs基因对进行分配,得到分配结果;
将分配结果中数个单个SNPs对应多个基因的重复基因分别作为独立的SNP基因关联处理;保留分配结果中的次要等位基因频率(MAF)大于0.1的SNPs;删除性染色体上的SNPs;得到单个基因的SNPs;
将单个基因的SNPs汇总后即为所有基因的SNPs。具体地,遗传关联数据为GWAS数据,以20kb作为默认参数将GWAS汇总统计数据中的SNP分配给相关基因;使用符号g(k)表示带有SNPk的基因g,通过SNP基因对的分配,存在数个单个SNPs对应着多个基因;由于整个过程需要从成千上万个Snp中推断参数,但上述单个SNPs对应着多个基因的SNPs对推断过程无作用,因此需要将上述重复基因作为独立的SNP基因关联处理;保留次要等位基因频率(MAF)大于0.1的SNPs,删除性染色体上的SNPs,最终得到相关基因的SNPs;
基于KEGG数据库中的通路,将具有关联SNPs的基因注释到通路中,并使用Si=公式2表示通路i中的SNPs集合;利用千人基因组项目第3阶段数据对GWAS汇总数据提取的SNPs计算连锁不平衡LD(linkage disequilibrium);本方案提供了例如GO、Reactome、和MSigDB的功能基因集合作为替换选项。另外,删除存在广泛性LD的主要组织相容性复合物区域Chr6:25-35Mbp。
在一个实施例中,GWAS数据已给定表型,给定表型的表型注释包括二分法,连续依赖性特征或者内表型和中心测量。
104:对细胞通路的PAS和带有SNPs注释的通路数据进行统计分析处理,得到细胞的遗传相关通路活性评分gPAS;
在一个实施例中,对细胞通路的PAS和带有SNPs注释的通路数据进行统计分析处理,得到细胞的遗传相关通路活性评分gPAS的步骤包括:
基于带有SNPs注释的通路数据得到单条通路数据中所有SNPs的遗传效应值;
利用遗传关联数据的多基因回归模型,基于PAS和遗传效应值,对遗传效应值的分布进行参数估计,得到估计系数;
将估计系数乘以PAS再求和得到阿尔兹海默病中细胞的遗传相关通路活性评分gPAS;
在一个实施例中,Si表示每条通路i的定位基因中包含所有SNPs的SNP集合,多基因模型假设先验通路i的所有SNPs的效应大小遵循多变量正态分布,其中σ2表示通路中SNPs效应大小的方差,I表示|Si|×|Si|单位矩阵;
在一个实施例中,为了优化多基因回归模型中每条通路的估计系数,采用能够显著提高计算效率和估计一致收敛性的矩量法(method-of-moments approach)对多基因回归模型进行优化;然后,拟合与每条通路相关的SNPs的观察和预期平方效应,并通过如下公式估计预期值:其中,Tr代表矩阵轨迹。
在一个实施例中,将估计系数乘以PAS再求和得到细胞的遗传相关通路活性评分gPAS的步骤包括:
在一个实施例中,遗传相关通路活性评分gPAS(gPj)的获取方式为:
105:对遗传相关通路活性评分gPAS与每个细胞的基因表达量进行相关性分析并排序,筛选出N个性状相关基因。
可选的,对遗传相关通路活性评分gPAS与每个细胞的基因表达量进行相关性分析并排序的方法包括:通过皮尔逊相关系数(PCC)确定单个基因的表达与gPAS之间的相关性,根据相关性对基因进行排序,得到阿尔兹海默病相关的N个性状相关基因;具体地,为了最大限度提高功效,每个基因g的表达都由其基因特定的技术噪声水平反向加权,该噪声水平通过在scRNA-seq数据中建模基因间的平均方差关系估计;
可选的,N个性状相关基因为按照相关性降序或者升序规则进行排序后的前1000或后1000个性状相关基因;N不限于1000,N为自然数整数。性状相关基因包括以下一种或几种:GSK3B、CREB1、CAMK2D、PIK3CA。
在一个实施例中,方法还包括:根据N个性状相关基因计算每个细胞的性状相关分数TRS;根据性状相关分数TRS和单个细胞的水平P值进行聚类,得到与阿尔兹海默病相关的性状相关细胞;性状相关细胞包括OPC和性状相关分数高的小胶质细胞;性状相关分数TRS的获取公式为:TRS=average RE(GS)-average RE(CG);其中,average RE(GS)为给定细胞中N个性状相关基因集的平均相对表达值,average RE(CG)为从现有基因库随机抽取的相同数量的对照基因集的平均相对表达值;RE为relative expression;GS为gene set;CG为control gene set;
可选的,利用Seurat中的AddModuleScore函数的细胞评分方法计算N个基因的性状相关分数TRS。
在一个实施例中,方法还包括:基于区块拔靴法blockbootstrap method得到阿尔兹海默病相关的性状相关细胞类型或亚群,明确单个细胞所属细胞类型是否相关。性状相关细胞类型或群体包括OPC和小胶质细胞;具体地,将一组细胞视为伪组织(psudo-bulk)转录组谱,并平均化给定的细胞类型内跨细胞的基因表达量;对于关联的细胞类型,用blockbootstrap method估计标准误差并计算每个细胞类型对应P值的t统计值。鉴于区块拔靴法的目标是在从经验分布采样时保持数据结构,利用KEGG数据库的通路将基因组划分为多个生物学意义的块,并对上述基于通路的块进行替换取样。在默认参数下,为每个细胞类型关联分析执行200次迭代,具体执行时可修改默认参数。
在一个实施例中,方法还包括:对遗传相关通路活性评分gPAS进行排序,根据排序结果(选取排序结果中排名靠前的通路)和细胞类型水平上通路的P值,得到阿尔兹海默病相关的性状相关通路;性状相关通路包括OPC相关联的通路和小胶质细胞相关联通路,OPC相关联的通路包括:谷氨酸能突触通路、味觉转导通路和催乳素信号通路;小胶质细胞相关联通路包括Th17细胞分化通路和甲型流感通路。
具体地,基于中心极限定理对gPAS进行排序;使用符号Ct表示细胞类型t,利用如下公式计算Ct内每个细胞j的通路百分比等级:其中,表示细胞j中通路i的gPAS等级,M表示通路总数;类似地,利用如下公式计算细胞类型t中每条通路i的统计重要值Ti t:其中,假设为:H0:Ti t=0vs H1:Ti t>0;细胞类型t中每条通路i的P值为:
在一个实施例中,通过计算性状相关基因的等级分布确定单个细胞的统计显著性,以进一步评估细胞是否与感兴趣的性状显著相关;具体地,得出性状相关基因在细胞中的百分比等级,其中,rg,j表示细胞j中基因g的表达等级,G代表指定性状相关基因的数量;基因百分比等级遵循正态分布U(0,1),在基因的百分比等级之间无关联的无效假设下,获得每个细胞的统计值Tj,获得公式如下:
一种应用,检测少突胶质前体细胞的产品在制备诊断阿尔兹海默的产品中的应用。
图2是本发明实施例提供的一种阿尔兹海默病数据的处理设备示意流程图,设备包括:存储器和处理器;存储器用于存储程序指令;处理器用于调用程序指令,当程序指令被执行时,用于执行上述的阿尔兹海默病数据的处理方法。
图3是本发明实施例提供的一种阿尔兹海默病数据的处理系统示意流程图,包括:
获取单元301,用于获取待分析的单细胞测序序列数据;
第一处理单元302,用于对待分析的单细胞测序序列数据进行处理,得到细胞通路的PAS评分矩阵和细胞通路的PAS;
第二处理单元303,用于获取阿尔兹海默病的遗传关联数据,并基于通路数据,对遗传关联数据进行处理,得到带有SNPs注释的通路数据;
第三处理单元304,用于对细胞通路的PAS和带有SNPs注释的通路数据进行统计分析处理,得到细胞的遗传相关通路活性评分gPAS;
第四处理单元305,用于对遗传相关通路活性评分gPAS与每个细胞的基因表达量进行相关性分析并排序,筛选出N个性状相关基因。
一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述的阿尔兹海默病数据的处理方法。
图4是本发明实施例提供的基于单细胞通路的评分方法获得gPAS,以及利用gPAS输出TRS、性状相关基因、性状相关细胞、性状相关细胞类型/亚群、性状相关通路的概述图;
其中,A表示利用奇异值分解的方法将基因-细胞矩阵转换为通路-细胞矩阵,PC1表示每条通路的PAS;B表示将GWAS数据中的SNP注释到对应通路中;C表示多基因回归模型;其中,位于顶部的图表示利用多基因回归模型推断每条通路中的估计系数,再使用估计系数和相应的PAS进行计算得到gPAS,位于底部的图表示Pearson相关模型,用于将每个细胞的gPAS与所有单个细胞的基因相关联,以便对性状相关基因进行排名;利用Seurat中的AddModuleScore函数得到前N个性状相关基因(默认前1,000个)。以计算每个细胞的性状相关分数TRS;D表示输出,分别包括四个输出:性状相关细胞、性状相关细胞类型、性状相关通路和性状相关基因。
本验证实施例的验证结果表明,为适应症分配固有权重相对于默认设置来说可以适度改善本方法的性能。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁盘或光盘等。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上对本发明所提供的一种计算机设备进行了详细介绍,对于本领域的一般技术人员,依据本发明实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种阿尔兹海默病数据的处理方法,包括:
获取待分析的单细胞测序序列数据;
对所述待分析的单细胞测序序列数据进行处理,得到细胞通路的PAS评分矩阵和细胞通路的PAS;
获取阿尔兹海默病的遗传关联数据,并基于通路数据,对所述遗传关联数据进行处理,得到带有SNPs注释的通路数据;
对所述细胞通路的PAS和所述带有SNPs注释的通路数据进行统计分析处理,得到细胞的遗传相关通路活性评分gPAS;
对所述遗传相关通路活性评分gPAS与每个细胞的基因表达量进行相关性分析并排序,筛选出N个性状相关基因。
2.根据权利要求1所述的阿尔兹海默病数据的处理方法,其特征在于,所述方法还包括:根据所述N个性状相关基因计算每个细胞的性状相关分数TRS;根据所述性状相关分数TRS和单个细胞的水平P值进行聚类,得到与阿尔兹海默病相关的性状相关细胞;
可选的,利用细胞评分方法计算所述N个性状基因的性状相关分数TRS。
3.根据权利要求1所述的阿尔兹海默病数据的处理方法,其特征在于,所述方法还包括:基于区块拔靴法blockbootstrap method得到性状相关细胞类型或亚群。
4.根据权利要求1所述的阿尔兹海默病数据的处理方法,其特征在于,所述对所述细胞通路的PAS和所述带有SNPs注释的通路数据进行统计分析处理,得到细胞的遗传相关通路活性评分gPAS的步骤包括:
基于所述带有SNPs注释的通路数据得到单条通路数据中所有SNPs的遗传效应值;
利用遗传关联数据的多基因回归模型,基于所述PAS和所述遗传效应值,对所述遗传效应值的分布进行参数估计,得到估计系数;
将所述估计系数乘以PAS再求和得到细胞的遗传相关通路活性评分gPAS;可选的,所述对所述遗传相关通路活性评分gPAS与每个细胞的基因表达量进行相关性分析并排序的方法包括:通过皮尔逊相关系数(PCC)确定单个基因的表达与所述gPAS之间的相关性,根据相关性对基因进行排序,得到所述N个性状相关基因;
可选的,所述N个性状相关基因为按照相关性降序或者升序规则进行排序后的前1000或后1000个性状相关基因。
5.根据权利要求4所述的阿尔兹海默病数据的处理方法,其特征在于,所述方法还包括:对所述遗传相关通路活性评分gPAS进行排序,根据排序结果和细胞类型水平上通路的P值,得到性状相关通路。
7.检测少突胶质前体细胞的产品在制备诊断阿尔兹海默的产品中的应用。
8.一种阿尔兹海默病数据的处理设备,所述设备包括:存储器和处理器;
所述存储器用于存储程序指令;所述处理器用于调用程序指令,当程序指令被执行时,用于执行权利要求1-6任意一项所述的阿尔兹海默病数据的处理方法。
9.一种阿尔兹海默病数据的处理系统,包括:
获取单元,用于获取待分析的单细胞测序序列数据;
第一处理单元,用于对所述待分析的单细胞测序序列数据进行处理,得到细胞通路的PAS评分矩阵和细胞通路的PAS;
第二处理单元,用于获取阿尔兹海默病的遗传关联数据,并基于通路数据,对所述遗传关联数据进行处理,得到带有SNPs注释的通路数据;
第三处理单元,用于对所述细胞通路的PAS和所述带有SNPs注释的通路数据进行统计分析处理,得到细胞的遗传相关通路活性评分gPAS;
第四处理单元,用于对所述遗传相关通路活性评分gPAS与每个细胞的基因表达量进行相关性分析并排序,筛选出N个性状相关基因。
10.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的权利要求1-6任意一项所述的阿尔兹海默病数据的处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211277658.8A CN115472219B (zh) | 2022-10-19 | 2022-10-19 | 一种阿尔兹海默病数据的处理方法及其系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211277658.8A CN115472219B (zh) | 2022-10-19 | 2022-10-19 | 一种阿尔兹海默病数据的处理方法及其系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115472219A true CN115472219A (zh) | 2022-12-13 |
CN115472219B CN115472219B (zh) | 2023-07-14 |
Family
ID=84337695
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211277658.8A Active CN115472219B (zh) | 2022-10-19 | 2022-10-19 | 一种阿尔兹海默病数据的处理方法及其系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115472219B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150141491A1 (en) * | 2012-07-11 | 2015-05-21 | The University Of Birmingham | Therapeutic Targets for Alzheimer's Disease |
WO2017075294A1 (en) * | 2015-10-28 | 2017-05-04 | The Board Institute Inc. | Assays for massively combinatorial perturbation profiling and cellular circuit reconstruction |
US20210071255A1 (en) * | 2019-09-06 | 2021-03-11 | The Broad Institute, Inc. | Methods for identification of genes and genetic variants for complex phenotypes using single cell atlases and uses of the genes and variants thereof |
CN112538480A (zh) * | 2020-12-24 | 2021-03-23 | 广州市妇女儿童医疗中心(广州市妇幼保健院、广州市儿童医院、广州市妇婴医院、广州市妇幼保健计划生育服务中心) | 精子鞭毛多发形态异常疾病动物模型的构建方法和应用 |
CN113130004A (zh) * | 2021-04-27 | 2021-07-16 | 上海海事大学 | 一种识别阿尔茨海默症相关生物标志物的相关性分析方法 |
WO2022082113A1 (en) * | 2020-10-16 | 2022-04-21 | University Of Connecticut | Cardiovascular disease risk assessment systems and uses thereof |
WO2022192904A1 (en) * | 2021-03-12 | 2022-09-15 | Vast Life Sciences Inc. | Systems and methods for identifying microbial biosynthetic genetic clusters |
-
2022
- 2022-10-19 CN CN202211277658.8A patent/CN115472219B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150141491A1 (en) * | 2012-07-11 | 2015-05-21 | The University Of Birmingham | Therapeutic Targets for Alzheimer's Disease |
WO2017075294A1 (en) * | 2015-10-28 | 2017-05-04 | The Board Institute Inc. | Assays for massively combinatorial perturbation profiling and cellular circuit reconstruction |
US20210071255A1 (en) * | 2019-09-06 | 2021-03-11 | The Broad Institute, Inc. | Methods for identification of genes and genetic variants for complex phenotypes using single cell atlases and uses of the genes and variants thereof |
WO2022082113A1 (en) * | 2020-10-16 | 2022-04-21 | University Of Connecticut | Cardiovascular disease risk assessment systems and uses thereof |
CN112538480A (zh) * | 2020-12-24 | 2021-03-23 | 广州市妇女儿童医疗中心(广州市妇幼保健院、广州市儿童医院、广州市妇婴医院、广州市妇幼保健计划生育服务中心) | 精子鞭毛多发形态异常疾病动物模型的构建方法和应用 |
WO2022192904A1 (en) * | 2021-03-12 | 2022-09-15 | Vast Life Sciences Inc. | Systems and methods for identifying microbial biosynthetic genetic clusters |
CN113130004A (zh) * | 2021-04-27 | 2021-07-16 | 上海海事大学 | 一种识别阿尔茨海默症相关生物标志物的相关性分析方法 |
Non-Patent Citations (6)
Title |
---|
CLAUDIA CAUDAI ET AL.: "AI applications in functional genomics", 《COMPUTATIONAL AND STRUCTURAL BIOTECHNOLOGY JOURNAL》, vol. 19 * |
YARU ZHANG ET AL.: "Benchmarking algorithms for pathway activity transformation of single-cell RNA-seq data", 《 COMPUTATIONAL AND STRUCTURAL BIOTECHNOLOGY JOURNAL》, vol. 18 * |
张杨洋: "全基因组外显子测序筛查青少年特发性脊柱侧凸可疑致病基因ADAMTS9", 《中国优秀硕士学位论文全文数据库医药卫生科技辑》, no. 01 * |
杨梅华: "FCD相关难治性癫痫候选致病基因筛选及功能初探", 《中国博士学位论文全文数据库 医药卫生科技辑》, no. 03 * |
毛建丰;马永鹏;周仁超;: "结合系统发育与群体遗传学分析检验杂交是否存在的技术策略", 生物多样性, no. 06 * |
陈应柱等: "少突胶质细胞生物学特性与中枢神经系统疾病", 《国际病理科学与临床杂志》, vol. 25, no. 3, pages 3 * |
Also Published As
Publication number | Publication date |
---|---|
CN115472219B (zh) | 2023-07-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Risso et al. | A general and flexible method for signal extraction from single-cell RNA-seq data | |
Wirth et al. | Mining SOM expression portraits: feature selection and integrating concepts of molecular function | |
Azizi et al. | Bayesian inference for single-cell clustering and imputing | |
CN115588465B (zh) | 一种性状相关基因的筛选方法及其系统 | |
Zhang et al. | PBLR: an accurate single cell RNA-seq data imputation tool considering cell heterogeneity and prior expression level of dropouts | |
Zeng et al. | couple CoC+: An information-theoretic co-clustering-based transfer learning framework for the integrative analysis of single-cell genomic data | |
Ono et al. | Visualisation of the T cell differentiation programme by Canonical Correspondence Analysis of transcriptomes | |
CN116564410A (zh) | 一种预测突变位点顺式调控基因的方法、设备和介质 | |
CN116486913B (zh) | 基于单细胞测序从头预测调控突变的系统、设备和介质 | |
CN115472219B (zh) | 一种阿尔兹海默病数据的处理方法及其系统 | |
Beltrame et al. | Using pathway signatures as means of identifying similarities among microarray experiments | |
Zhu et al. | Ensemble adaptive total variation graph regularized NMF for Singlecell RNA-seq data analysis | |
Mayrink et al. | Bayesian factor models for the detection of coherent patterns in gene expression data | |
Liu et al. | Including probe-level measurement error in robust mixture clustering of replicated microarray gene expression | |
CN113035274A (zh) | 一种基于nmf的肿瘤基因点突变的特征图谱提取算法 | |
Monnier et al. | A novel batch-effect correction method for scRNA-seq data based on Adversarial Information Factorization | |
McArdle et al. | PRESTO, a new tool for integrating large-scale-omics data and discovering disease-specific signatures | |
Xie et al. | Robust statistical inference for cell type deconvolution | |
CN116486911A (zh) | 一种呼吸系统疾病数据的处理方法及其系统 | |
Zhou et al. | Discriminant analysis and normalization methods for next-generation sequencing data | |
Lim et al. | A Cross-Platform Comparison of Affymetrix, Agilent, and Illumina Microarray Reveals Functional Genomics in Colorectal Cancer Progression | |
US20220036970A1 (en) | Methods and systems for determination of gene similarity | |
Liu et al. | A flexible model for correlated count data, with application to multicondition differential expression analyses of single-cell RNA sequencing data | |
Dadaneh | Bayesian Analysis of High-Throughput Sequencing Data | |
Sun et al. | scMitoMut for calling mitochondrial lineage related mutations in single cells |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |