CN115472219A - 一种阿尔兹海默病数据的处理方法及其系统 - Google Patents

一种阿尔兹海默病数据的处理方法及其系统 Download PDF

Info

Publication number
CN115472219A
CN115472219A CN202211277658.8A CN202211277658A CN115472219A CN 115472219 A CN115472219 A CN 115472219A CN 202211277658 A CN202211277658 A CN 202211277658A CN 115472219 A CN115472219 A CN 115472219A
Authority
CN
China
Prior art keywords
cell
data
genetic
processing
alzheimer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211277658.8A
Other languages
English (en)
Other versions
CN115472219B (zh
Inventor
马云龙
苏建忠
邓春玉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wenzhou Medical University
Original Assignee
Wenzhou Medical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wenzhou Medical University filed Critical Wenzhou Medical University
Priority to CN202211277658.8A priority Critical patent/CN115472219B/zh
Publication of CN115472219A publication Critical patent/CN115472219A/zh
Application granted granted Critical
Publication of CN115472219B publication Critical patent/CN115472219B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/40Population genetics; Linkage disequilibrium
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Analytical Chemistry (AREA)
  • Physiology (AREA)
  • Ecology (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Chemical & Material Sciences (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种阿尔兹海默病数据的处理方法、系统、设备和计算机可读存储介质,方法其包括:获取待分析的单细胞测序序列数据;对所述待分析的单细胞测序序列数据进行处理,得到细胞通路的PAS评分矩阵和细胞通路的PAS;获取阿尔兹海默病的遗传关联数据,并基于通路数据,对所述遗传关联数据进行处理,得到带有SNPs注释的通路数据;对所述细胞通路的PAS和所述带有SNPs注释的通路数据进行统计分析处理,得到细胞的遗传相关通路活性评分gPAS;对所述遗传相关通路活性评分gPAS与每个细胞的基因表达量进行相关性分析并排序,筛选出N个性状相关基因。

Description

一种阿尔兹海默病数据的处理方法及其系统
技术领域
本发明涉及基因测序技术领域,更具体地,涉及一种阿尔兹海默病数据的处理方法及其系统。
背景技术
阿尔茨海默病(AD),又叫老年性痴呆,是一种中枢神经系统变性病,神经元死亡和认知功能丧失逐渐增加,起病隐袭,病程呈慢性进行性,是老年期痴呆最常见的一种类型。主要表现为渐进性记忆障碍、认知功能障碍、人格改变及语言障碍等神经精神症状,严重影响社交、职业与生活功能。随着测序技术的快速发展,单细胞测序技术为揭示AD的细胞功能障碍和多样性带来了更全面的机遇。
利用单细胞RNA测序(scRNA-seq)技术识别与复杂疾病(如AD)或性状相关的关键细胞亚群,对于理解复杂疾病机制至关重要。但scRNA-seq数据因其高成本和低通量的特性不允许对进行大规模测序,且目前大多数基于单细胞的研究样本不超过20个,导致统计效能有限,无法准确揭示细胞亚群中与疾病或特征相关的风险子集。此外,scRNA-seq数据在基因水平上具有高稀疏性、技术噪声和方差不稳定性的特点。遗传关联数据例如:(全基因组关联研究,GWAS)广泛应用于研究不同的复杂疾病或性状,将scRNA-seq数据与来自大规模样本的GWAS的表型相关遗传信息相关联,被认为是一种实用而有效的方法,可以在单细胞分辨率下揭示复杂疾病或性状的遗传分子机制。
将GWAS与scRNA-seq数据相结合用来识别与复杂疾病相关的细胞类型的方法,包括诸如LDSC-SEG,MAGMA,RolyPoly,但是上述方法需要大量调整参数,以便用已知标记基因注释细胞类型,且在很大程度上忽略了每种细胞类型的内部异质性。此外,现有技术可以识别高表达水平的基因,但是其潜在缺陷是,过度关注高表达基因会低估表达水平相对较低但对揭示细胞命运很重要的基因的功能作用。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明提供一种阿尔兹海默病数据的处理方法及其系统;本发明方法通过发明基于单细胞通路的评分方法,结合scRNA-seq数据和遗传关联数据推断与阿尔兹海默病相关的基因、细胞等,从深层次挖掘隐含在单细胞测序数据背后的生命规律,确定基因、细胞、细胞亚群、生物学通路等与AD之间的潜在联系。
本申请公开一种阿尔兹海默病数据的处理方法,包括:
获取待分析的单细胞测序序列数据;
对所述待分析的单细胞测序序列数据进行处理,得到细胞通路的PAS评分矩阵和细胞通路的PAS;
获取阿尔兹海默病的遗传关联数据,并基于通路数据,对所述遗传关联数据进行处理,得到带有SNPs注释的通路数据;
对所述细胞通路的PAS和所述带有SNPs注释的通路数据进行统计分析处理,得到细胞的遗传相关通路活性评分gPAS;
对所述遗传相关通路活性评分gPAS与每个细胞的基因表达量进行相关性分析并排序,筛选出N个性状相关基因。
所述方法还包括:根据所述N个性状相关基因计算每个细胞的性状相关分数TRS;根据所述性状相关分数TRS和单个细胞的水平P值进行聚类,得到与阿尔兹海默病相关的性状相关细胞;
可选的,利用细胞评分方法计算所述N个性状基因的性状相关分数TRS;
所述方法还包括:基于区块拔靴法block bootstrap method得到性状相关细胞类型或亚群。
所述对所述细胞通路的PAS和所述带有SNPs注释的通路数据进行统计分析处理,得到细胞的遗传相关通路活性评分gPAS的步骤包括:
基于所述带有SNPs注释的通路数据得到单条通路数据中所有SNPs的遗传效应值;
利用遗传关联数据的多基因回归模型,基于所述PAS和所述遗传效应值,对所述遗传效应值的分布进行参数估计,得到估计系数;
将所述估计系数乘以PAS再求和得到细胞的遗传相关通路活性评分gPAS;
可选的,所述对所述遗传相关通路活性评分gPAS与每个细胞的基因表达量进行相关性分析并排序的方法包括:通过皮尔逊相关系数(PCC)确定单个基因的表达与所述gPAS之间的相关性,根据相关性对基因进行排序,得到所述N个性状相关基因;
可选的,所述N个性状相关基因为按照相关性降序或者升序规则进行排序后的前1000或后1000个性状相关基因;
所述方法还包括:对所述遗传相关通路活性评分gPAS进行排序,根据排序结果和细胞类型水平上通路的P值,得到性状相关通路。
所述遗传效应值的获取公式为:
Figure BDA0003896983740000031
其中,β表示m个SNPs的理论效应大小向量,ε表示随机环境误差,R代表LD矩阵,XT表示遗传关联数据样本中SNPs的标准基因型;
可选的,所述估计系数的获取方式包括:
Figure BDA0003896983740000032
其中,τi,j表示细胞j中通路i的估计系数,τ0表示截距项,σ2表示通路中SNP效应大小的方差,
Figure BDA0003896983740000033
表示加权PAS;
可选的,所述遗传相关通路活性评分gPAS的获取公式为
Figure BDA0003896983740000034
其中,所述gPj为gPAS,所述
Figure BDA0003896983740000035
为优化后的估计系数;
检测少突胶质前体细胞的产品在制备诊断阿尔兹海默的产品中的应用;
一种阿尔兹海默病数据的处理设备,所述设备包括:存储器和处理器;
所述存储器用于存储程序指令;所述处理器用于调用程序指令,当程序指令被执行时,用于执行上述的阿尔兹海默病数据的处理方法。
一种阿尔兹海默病数据的处理系统,包括:
获取单元,用于获取待分析的单细胞测序序列数据;
第一处理单元,用于对所述待分析的单细胞测序序列数据进行处理,得到细胞通路的PAS评分矩阵和细胞通路的PAS;
第二处理单元,用于获取阿尔兹海默病的遗传关联数据,并基于通路数据,对所述遗传关联数据进行处理,得到带有SNPs注释的通路数据;
第三处理单元,用于对所述细胞通路的PAS和所述带有SNPs注释的通路数据进行统计分析处理,得到细胞的遗传相关通路活性评分gPAS;
第四处理单元,用于对所述遗传相关通路活性评分gPAS与每个细胞的基因表达量进行相关性分析并排序,筛选出N个性状相关基因。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的阿尔兹海默病数据的处理方法。
本申请具有以下有益效果:
1、本申请创新性的公开了一种单细胞测序数据和遗传关联数据相结合的阿尔兹海默病数据的处理方法,能够从深层次、更多维度地推断出与AD相关的基因、细胞、细胞亚群以及相关的生物学通路等,为AD的研究做出贡献;该方法基于单细胞通路的评分方法,融合了参与相同生物通路的不同基因的功能作用以获得稳定的细胞状态,显著增加了统计能力、生物学可解释性和结果可重复性;克服了已知注释细胞类型的限制,并可能发现新的遗传相关亚群和细胞类型的关键基因或通路,应用广泛,实用性强。
2、本申请创新性的公开一种基于单细胞通路的评分方法,采用多基因回归模型,通过利用通路活性转化的scRNA-seq数据和遗传关联研究数据揭示与性状相关的基因、细胞亚群;有效克服了目前与复杂疾病多基因风险相关的基因、细胞亚群的鉴定在很大程度上受到scRNA-seq数据中样本量小和高度稀疏性的阻碍,导致统计效能有限,无法准确揭示细胞亚群中与疾病或特征相关的风险子集的问题。该方法从深层次挖掘隐含在单细胞测序数据背后的生命规律,从遗传关联信号与阿尔兹海默症关系和单细胞测序基因丰度信息等多个维度深度分析,大大提高数据分析的精度和深度。
3、本申请基于大规模模拟和真实数据,利用上述评分方法将scRNA-seq数据和遗传关联数据相结合,可以有效克服现有技术中为了方便用已知标记基因注释细胞类型需要大量调整参数,且在很大程度上会忽略每种细胞类型的内部异质性的问题;不会存在因过度关注高表达基因而低估表达水平相对较低但对揭示细胞命运很重要的基因的功能作用,有助于通过聚集平均表达水平较低的基因的作用来识别疾病相关的早期发育事件或祖细胞,例如与细胞发育相关的关键转录因子;同时可以有效降低scRNA-seq数据的稀疏性和技术噪声,并在识别特征相关的细胞类型和亚群方面表现出很好的稳健性和能力。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获取其他的附图。
图1是本发明实施例提供的阿尔兹海默病数据的处理方法的分析示意流程图;
图2是本发明实施例提供的阿尔兹海默病数据的处理设备示意图;
图3是本发明实施例提供的阿尔兹海默病数据的处理系统示意流程图;
图4是本发明实施例提供的基于单细胞通路的评分方法获得gPAS,以及利用gPAS输出TRS、性状相关基因、性状相关细胞、性状相关细胞类型/亚群、性状型管通路的概述图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
在本发明的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获取的所有其他实施例,都属于本发明保护的范围。
图1是本发明实施例提供的一种阿尔兹海默病数据的处理方法示意流程图,具体地,方法包括如下步骤:
101:获取待分析的单细胞测序序列数据;
在一个实施例中,单细胞测序数据包括七个独立的单细胞RNA-seq(scRNA-seq)或单核RNA-seq(snRNA-seq)数据集,涵盖来自人类(homo sapiens)和小鼠(mus musculus)的139万个细胞。针对血细胞,收集了两个基于人类BMMC(N=35,582个细胞)和人类PBMC(N=97,039个细胞)的scRNA-seq数据集,以揭示性状相关的细胞亚群或类型。对于与免疫/代谢相关的疾病/特征,利用来自人类细胞的scRNA-seq数据集(HCL,N=35个成人组织中的513,707个细胞)为每个组织构建一个伪组织(psudo-bulk)表达谱和与疾病/特征相关的优先风险组织。
在一个实施例中,对于脑相关疾病,收集了三个单细胞数据集:小鼠脑scRNAseq数据集(N=160,796个细胞)、人脑内嗅皮质snRNA-seq数据集(N=11,786个细胞)和包含内嗅皮层和体感皮层两个区域的人类大脑snRNA-seq数据集(N=101,906个细胞)。
在一个实施例中,待分析的单细胞测序序列数据为阿尔兹海默病的数据,包括以下一种或几种脑细胞类型:少突胶质前体细胞(OPC)、小胶质细胞(Microglia)、神经细胞(Neuron)、星形胶质细胞(Astrocyte)、少突胶质细胞(Oligodendrocyte)。
102:对待分析的单细胞测序序列数据进行处理,得到细胞通路的PAS评分矩阵和细胞通路的PAS;
在一个实施例中,对待分析的单细胞测序序列数据进行处理,得到细胞通路的PAS评分矩阵和细胞通路的PAS的获取步骤包括:
获取阿尔兹海默病的通路数据;
对单细胞测序序列数据中的基因-细胞矩阵进行标准化处理,得到经标准化处理后的基因-细胞矩阵;具体地,使用比例因子为10000的方差稳定化变换参数将scRNA-seq数据中的稀疏基因-细胞矩阵进行标准化,得到在单个细胞中单个基因的标准化表达;标准化的公式为:
Figure BDA0003896983740000071
其中,ag,j表示细胞j中基因g的原始表达,eg,j表示细胞j中基因g的标准化表达;
基于阿尔兹海默病的通路数据,利用机器学习的方法将经标准化处理后的基因-细胞矩阵转换为通路-细胞矩阵,利用通路-细胞矩阵得到细胞通路的PAS评分矩阵,PAS评分矩阵包括单条通路中单个细胞的通路活性评分PAS;
在一个实施例中,通路数据为KEGG通路数据,来自KEGG数据库的通路作为评估PAS的默认基因集,利用奇异值分解SVD的方法将经标准化处理后的基因-细胞矩阵转换为通路-细胞矩阵;使用Pi表示通路i中的基因集,对于每条通路i,从标准化的基因-细胞矩阵A选择矩阵Ai,其中矩阵Ai的列是所有N个细胞,行是通路基因集Pi中|Pi|基因,根据SVD得到
Figure BDA0003896983740000072
的公式,其中,U表示N×N正交矩阵,Σ表示除主对角线元素外具有全零的对角矩阵,VT表示|Pi|×|Pi|正交矩阵;对于右正交矩阵V=(v1,v2,...,v|Pi|),第t列向量vt表示第t主成分,反映了单细胞数据中基因在通路中的协同表达变异性;由于第一主成分PC1代表最大的方差变异,因此细胞j特征在PC1的投影代表了通路i的PASsi,j;对于细胞j,利用通路i中所有的表达方差作为权重调整原始PASsi,j;对于通路i中的基因g,使用最小-最大值缩放法重新调整基因表达eg,j调整后的基因表达为
Figure BDA0003896983740000078
在一个实施例中,对通路活性评分PAS进行优化处理,得到加权PAS;
加权PAS的获取方式包括:
Figure BDA0003896983740000073
其中,
Figure BDA0003896983740000074
表示加权PAS,
Figure BDA0003896983740000075
表示优化后的细胞i中基因g的标准化表达,si,j表示细胞j通路i的通路活性评分PAS;
在一个实施例中,
Figure BDA0003896983740000076
的获取方式包括:
Figure BDA0003896983740000077
其中,
Figure BDA0003896983740000081
表示细胞i中基因g的标准化表达,MAX(eg,j)表示通路i中基因表达最大值,MIN(eg,j)表示通路i中基因表达最小值。
可选的,机器学习的方法包括奇异值分解SVD的方法;奇异值分解SVD方法大大提高了分析稀疏矩阵的计算效率,且可以在不计算方差矩阵的情况下获得特征值;利用奇异值分解方法将标准化的基因-细胞矩阵换华为低维空间的通路-细胞矩阵。
103:获取阿尔兹海默病的遗传关联数据,并基于通路数据,对遗传关联数据进行处理,得到带有SNPs注释的通路数据;
在一个实施例中,基于阿尔兹海默病的通路数据,对遗传关联数据进行处理,得到带有SNPs注释的通路数据的步骤包括:
从遗传关联数据中进行筛选得到单个基因的SNPs,基于通路数据,将单个基因的SNPs映射到对应通路中,得到带有SNPs注释的通路数据;
可选的,单个基因的SNPs的获取步骤包括:获取遗传关联数据中基因的SNPs后,分别对SNPs基因对进行分配,得到分配结果;
将分配结果中数个单个SNPs对应多个基因的重复基因分别作为独立的SNP基因关联处理;保留分配结果中的次要等位基因频率(MAF)大于0.1的SNPs;删除性染色体上的SNPs;得到单个基因的SNPs;
将单个基因的SNPs汇总后即为所有基因的SNPs。具体地,遗传关联数据为GWAS数据,以20kb作为默认参数将GWAS汇总统计数据中的SNP分配给相关基因;使用符号g(k)表示带有SNPk的基因g,通过SNP基因对的分配,存在数个单个SNPs对应着多个基因;由于整个过程需要从成千上万个Snp中推断参数,但上述单个SNPs对应着多个基因的SNPs对推断过程无作用,因此需要将上述重复基因作为独立的SNP基因关联处理;保留次要等位基因频率(MAF)大于0.1的SNPs,删除性染色体上的SNPs,最终得到相关基因的SNPs;
基于KEGG数据库中的通路,将具有关联SNPs的基因注释到通路中,并使用Si=公式2表示通路i中的SNPs集合;利用千人基因组项目第3阶段数据对GWAS汇总数据提取的SNPs计算连锁不平衡LD(linkage disequilibrium);本方案提供了例如GO、Reactome、和MSigDB的功能基因集合作为替换选项。另外,删除存在广泛性LD的主要组织相容性复合物区域Chr6:25-35Mbp。
在一个实施例中,GWAS数据已给定表型,给定表型的表型注释包括二分法,连续依赖性特征或者内表型和中心测量。
104:对细胞通路的PAS和带有SNPs注释的通路数据进行统计分析处理,得到细胞的遗传相关通路活性评分gPAS;
在一个实施例中,对细胞通路的PAS和带有SNPs注释的通路数据进行统计分析处理,得到细胞的遗传相关通路活性评分gPAS的步骤包括:
基于带有SNPs注释的通路数据得到单条通路数据中所有SNPs的遗传效应值;
利用遗传关联数据的多基因回归模型,基于PAS和遗传效应值,对遗传效应值的分布进行参数估计,得到估计系数;
将估计系数乘以PAS再求和得到阿尔兹海默病中细胞的遗传相关通路活性评分gPAS;
在一个实施例中,遗传效应值的获取公式为:
Figure BDA0003896983740000091
其中,β表示m个SNPs的理论效应大小向量,ε表示随机环境误差,R代表LD矩阵,XT表示遗传关联数据样本中SNPs的标准基因型;
在一个实施例中,Si表示每条通路i的定位基因中包含所有SNPs的SNP集合,多基因模型假设先验通路i的所有SNPs的效应大小遵循多变量正态分布,其中σ2表示通路中SNPs效应大小的方差,I表示|Si|×|Si|单位矩阵;
在一个实施例中,估计系数的获取方式包括:
Figure BDA0003896983740000092
其中,τi,j表示细胞j中通路i的估计系数,估计系数反映了细胞特异性PAS对GWAS效应大小方差的影响,即遗传对反应的影响;τ0表示截距项,σ2表示通路中SNP效应大小的方差,
Figure BDA0003896983740000093
表示加权PAS;
在一个实施例中,基于先前假设,对遗传效应值
Figure BDA0003896983740000094
的分布进行估计,采用的公式如下:
Figure BDA0003896983740000095
利用此公式对估计系数进行优化;
在一个实施例中,为了优化多基因回归模型中每条通路的估计系数,采用能够显著提高计算效率和估计一致收敛性的矩量法(method-of-moments approach)对多基因回归模型进行优化;然后,拟合与每条通路相关的SNPs的观察和预期平方效应,并通过如下公式估计预期值:
Figure BDA0003896983740000101
其中,Tr代表矩阵轨迹。
在一个实施例中,将估计系数乘以PAS再求和得到细胞的遗传相关通路活性评分gPAS的步骤包括:
在一个实施例中,遗传相关通路活性评分gPAS(gPj)的获取方式为:
Figure BDA0003896983740000102
其中,
Figure BDA0003896983740000103
为优化后的估计系数;
105:对遗传相关通路活性评分gPAS与每个细胞的基因表达量进行相关性分析并排序,筛选出N个性状相关基因。
可选的,对遗传相关通路活性评分gPAS与每个细胞的基因表达量进行相关性分析并排序的方法包括:通过皮尔逊相关系数(PCC)确定单个基因的表达与gPAS之间的相关性,根据相关性对基因进行排序,得到阿尔兹海默病相关的N个性状相关基因;具体地,为了最大限度提高功效,每个基因g的表达都由其基因特定的技术噪声水平反向加权,该噪声水平通过在scRNA-seq数据中建模基因间的平均方差关系估计;
可选的,N个性状相关基因为按照相关性降序或者升序规则进行排序后的前1000或后1000个性状相关基因;N不限于1000,N为自然数整数。性状相关基因包括以下一种或几种:GSK3B、CREB1、CAMK2D、PIK3CA。
在一个实施例中,方法还包括:根据N个性状相关基因计算每个细胞的性状相关分数TRS;根据性状相关分数TRS和单个细胞的水平P值进行聚类,得到与阿尔兹海默病相关的性状相关细胞;性状相关细胞包括OPC和性状相关分数高的小胶质细胞;性状相关分数TRS的获取公式为:TRS=average RE(GS)-average RE(CG);其中,average RE(GS)为给定细胞中N个性状相关基因集的平均相对表达值,average RE(CG)为从现有基因库随机抽取的相同数量的对照基因集的平均相对表达值;RE为relative expression;GS为gene set;CG为control gene set;
可选的,利用Seurat中的AddModuleScore函数的细胞评分方法计算N个基因的性状相关分数TRS。
在一个实施例中,方法还包括:基于区块拔靴法blockbootstrap method得到阿尔兹海默病相关的性状相关细胞类型或亚群,明确单个细胞所属细胞类型是否相关。性状相关细胞类型或群体包括OPC和小胶质细胞;具体地,将一组细胞视为伪组织(psudo-bulk)转录组谱,并平均化给定的细胞类型内跨细胞的基因表达量;对于关联的细胞类型,用blockbootstrap method估计标准误差并计算每个细胞类型对应P值的t统计值。鉴于区块拔靴法的目标是在从经验分布采样时保持数据结构,利用KEGG数据库的通路将基因组划分为多个生物学意义的块,并对上述基于通路的块进行替换取样。在默认参数下,为每个细胞类型关联分析执行200次迭代,具体执行时可修改默认参数。
在一个实施例中,方法还包括:对遗传相关通路活性评分gPAS进行排序,根据排序结果(选取排序结果中排名靠前的通路)和细胞类型水平上通路的P值,得到阿尔兹海默病相关的性状相关通路;性状相关通路包括OPC相关联的通路和小胶质细胞相关联通路,OPC相关联的通路包括:谷氨酸能突触通路、味觉转导通路和催乳素信号通路;小胶质细胞相关联通路包括Th17细胞分化通路和甲型流感通路。
具体地,基于中心极限定理对gPAS进行排序;使用符号Ct表示细胞类型t,利用如下公式计算Ct内每个细胞j的通路百分比等级:
Figure BDA0003896983740000111
其中,
Figure BDA0003896983740000112
表示细胞j中通路i的gPAS等级,M表示通路总数;类似地,利用如下公式计算细胞类型t中每条通路i的统计重要值Ti t
Figure BDA0003896983740000113
其中,
Figure BDA0003896983740000115
假设为:H0:Ti t=0vs H1:Ti t>0;细胞类型t中每条通路i的P值为:
Figure BDA0003896983740000114
在一个实施例中,通过计算性状相关基因的等级分布确定单个细胞的统计显著性,以进一步评估细胞是否与感兴趣的性状显著相关;具体地,得出性状相关基因在细胞中的百分比等级,
Figure BDA0003896983740000121
其中,rg,j表示细胞j中基因g的表达等级,G代表指定性状相关基因的数量;基因百分比等级遵循正态分布U(0,1),在基因的百分比等级之间无关联的无效假设下,获得每个细胞的统计值Tj,获得公式如下:
Figure BDA0003896983740000122
基于单细胞数据中的大量细胞,使用中心极限定理推导Tj的分布:
Figure BDA0003896983740000123
其中N是细胞总数;显著性检验的假设为:H0:Tj=0vs H1:Tj>0;每个细胞j的P值为:pj=Pr(Tj≤t)。
一种应用,检测少突胶质前体细胞的产品在制备诊断阿尔兹海默的产品中的应用。
图2是本发明实施例提供的一种阿尔兹海默病数据的处理设备示意流程图,设备包括:存储器和处理器;存储器用于存储程序指令;处理器用于调用程序指令,当程序指令被执行时,用于执行上述的阿尔兹海默病数据的处理方法。
图3是本发明实施例提供的一种阿尔兹海默病数据的处理系统示意流程图,包括:
获取单元301,用于获取待分析的单细胞测序序列数据;
第一处理单元302,用于对待分析的单细胞测序序列数据进行处理,得到细胞通路的PAS评分矩阵和细胞通路的PAS;
第二处理单元303,用于获取阿尔兹海默病的遗传关联数据,并基于通路数据,对遗传关联数据进行处理,得到带有SNPs注释的通路数据;
第三处理单元304,用于对细胞通路的PAS和带有SNPs注释的通路数据进行统计分析处理,得到细胞的遗传相关通路活性评分gPAS;
第四处理单元305,用于对遗传相关通路活性评分gPAS与每个细胞的基因表达量进行相关性分析并排序,筛选出N个性状相关基因。
一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述的阿尔兹海默病数据的处理方法。
图4是本发明实施例提供的基于单细胞通路的评分方法获得gPAS,以及利用gPAS输出TRS、性状相关基因、性状相关细胞、性状相关细胞类型/亚群、性状相关通路的概述图;
其中,A表示利用奇异值分解的方法将基因-细胞矩阵转换为通路-细胞矩阵,PC1表示每条通路的PAS;B表示将GWAS数据中的SNP注释到对应通路中;C表示多基因回归模型;其中,位于顶部的图表示利用多基因回归模型推断每条通路中的估计系数,再使用估计系数和相应的PAS进行计算得到gPAS,位于底部的图表示Pearson相关模型,用于将每个细胞的gPAS与所有单个细胞的基因相关联,以便对性状相关基因进行排名;利用Seurat中的AddModuleScore函数得到前N个性状相关基因(默认前1,000个)。以计算每个细胞的性状相关分数TRS;D表示输出,分别包括四个输出:性状相关细胞、性状相关细胞类型、性状相关通路和性状相关基因。
本验证实施例的验证结果表明,为适应症分配固有权重相对于默认设置来说可以适度改善本方法的性能。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁盘或光盘等。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上对本发明所提供的一种计算机设备进行了详细介绍,对于本领域的一般技术人员,依据本发明实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种阿尔兹海默病数据的处理方法,包括:
获取待分析的单细胞测序序列数据;
对所述待分析的单细胞测序序列数据进行处理,得到细胞通路的PAS评分矩阵和细胞通路的PAS;
获取阿尔兹海默病的遗传关联数据,并基于通路数据,对所述遗传关联数据进行处理,得到带有SNPs注释的通路数据;
对所述细胞通路的PAS和所述带有SNPs注释的通路数据进行统计分析处理,得到细胞的遗传相关通路活性评分gPAS;
对所述遗传相关通路活性评分gPAS与每个细胞的基因表达量进行相关性分析并排序,筛选出N个性状相关基因。
2.根据权利要求1所述的阿尔兹海默病数据的处理方法,其特征在于,所述方法还包括:根据所述N个性状相关基因计算每个细胞的性状相关分数TRS;根据所述性状相关分数TRS和单个细胞的水平P值进行聚类,得到与阿尔兹海默病相关的性状相关细胞;
可选的,利用细胞评分方法计算所述N个性状基因的性状相关分数TRS。
3.根据权利要求1所述的阿尔兹海默病数据的处理方法,其特征在于,所述方法还包括:基于区块拔靴法blockbootstrap method得到性状相关细胞类型或亚群。
4.根据权利要求1所述的阿尔兹海默病数据的处理方法,其特征在于,所述对所述细胞通路的PAS和所述带有SNPs注释的通路数据进行统计分析处理,得到细胞的遗传相关通路活性评分gPAS的步骤包括:
基于所述带有SNPs注释的通路数据得到单条通路数据中所有SNPs的遗传效应值;
利用遗传关联数据的多基因回归模型,基于所述PAS和所述遗传效应值,对所述遗传效应值的分布进行参数估计,得到估计系数;
将所述估计系数乘以PAS再求和得到细胞的遗传相关通路活性评分gPAS;可选的,所述对所述遗传相关通路活性评分gPAS与每个细胞的基因表达量进行相关性分析并排序的方法包括:通过皮尔逊相关系数(PCC)确定单个基因的表达与所述gPAS之间的相关性,根据相关性对基因进行排序,得到所述N个性状相关基因;
可选的,所述N个性状相关基因为按照相关性降序或者升序规则进行排序后的前1000或后1000个性状相关基因。
5.根据权利要求4所述的阿尔兹海默病数据的处理方法,其特征在于,所述方法还包括:对所述遗传相关通路活性评分gPAS进行排序,根据排序结果和细胞类型水平上通路的P值,得到性状相关通路。
6.根据权利要求4所述的阿尔兹海默病数据的处理方法,其特征在于,所述遗传效应值的获取公式为:
Figure FDA0003896983730000021
其中,β表示m个SNPs的理论效应大小向量,ε表示随机环境误差,R代表LD矩阵,XT表示遗传关联数据样本中SNPs的标准基因型;
可选的,所述估计系数的获取方式包括:
Figure FDA0003896983730000022
其中,τi,j表示细胞j中通路i的估计系数,τ0表示截距项,σ2表示通路中SNP效应大小的方差,
Figure FDA0003896983730000023
表示加权PAS;
可选的,所述遗传相关通路活性评分gPAS的获取公式为
Figure FDA0003896983730000024
其中,所述gPj为gPAS,所述
Figure FDA0003896983730000025
为优化后的估计系数。
7.检测少突胶质前体细胞的产品在制备诊断阿尔兹海默的产品中的应用。
8.一种阿尔兹海默病数据的处理设备,所述设备包括:存储器和处理器;
所述存储器用于存储程序指令;所述处理器用于调用程序指令,当程序指令被执行时,用于执行权利要求1-6任意一项所述的阿尔兹海默病数据的处理方法。
9.一种阿尔兹海默病数据的处理系统,包括:
获取单元,用于获取待分析的单细胞测序序列数据;
第一处理单元,用于对所述待分析的单细胞测序序列数据进行处理,得到细胞通路的PAS评分矩阵和细胞通路的PAS;
第二处理单元,用于获取阿尔兹海默病的遗传关联数据,并基于通路数据,对所述遗传关联数据进行处理,得到带有SNPs注释的通路数据;
第三处理单元,用于对所述细胞通路的PAS和所述带有SNPs注释的通路数据进行统计分析处理,得到细胞的遗传相关通路活性评分gPAS;
第四处理单元,用于对所述遗传相关通路活性评分gPAS与每个细胞的基因表达量进行相关性分析并排序,筛选出N个性状相关基因。
10.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的权利要求1-6任意一项所述的阿尔兹海默病数据的处理方法。
CN202211277658.8A 2022-10-19 2022-10-19 一种阿尔兹海默病数据的处理方法及其系统 Active CN115472219B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211277658.8A CN115472219B (zh) 2022-10-19 2022-10-19 一种阿尔兹海默病数据的处理方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211277658.8A CN115472219B (zh) 2022-10-19 2022-10-19 一种阿尔兹海默病数据的处理方法及其系统

Publications (2)

Publication Number Publication Date
CN115472219A true CN115472219A (zh) 2022-12-13
CN115472219B CN115472219B (zh) 2023-07-14

Family

ID=84337695

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211277658.8A Active CN115472219B (zh) 2022-10-19 2022-10-19 一种阿尔兹海默病数据的处理方法及其系统

Country Status (1)

Country Link
CN (1) CN115472219B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150141491A1 (en) * 2012-07-11 2015-05-21 The University Of Birmingham Therapeutic Targets for Alzheimer's Disease
WO2017075294A1 (en) * 2015-10-28 2017-05-04 The Board Institute Inc. Assays for massively combinatorial perturbation profiling and cellular circuit reconstruction
US20210071255A1 (en) * 2019-09-06 2021-03-11 The Broad Institute, Inc. Methods for identification of genes and genetic variants for complex phenotypes using single cell atlases and uses of the genes and variants thereof
CN112538480A (zh) * 2020-12-24 2021-03-23 广州市妇女儿童医疗中心(广州市妇幼保健院、广州市儿童医院、广州市妇婴医院、广州市妇幼保健计划生育服务中心) 精子鞭毛多发形态异常疾病动物模型的构建方法和应用
CN113130004A (zh) * 2021-04-27 2021-07-16 上海海事大学 一种识别阿尔茨海默症相关生物标志物的相关性分析方法
WO2022082113A1 (en) * 2020-10-16 2022-04-21 University Of Connecticut Cardiovascular disease risk assessment systems and uses thereof
WO2022192904A1 (en) * 2021-03-12 2022-09-15 Vast Life Sciences Inc. Systems and methods for identifying microbial biosynthetic genetic clusters

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150141491A1 (en) * 2012-07-11 2015-05-21 The University Of Birmingham Therapeutic Targets for Alzheimer's Disease
WO2017075294A1 (en) * 2015-10-28 2017-05-04 The Board Institute Inc. Assays for massively combinatorial perturbation profiling and cellular circuit reconstruction
US20210071255A1 (en) * 2019-09-06 2021-03-11 The Broad Institute, Inc. Methods for identification of genes and genetic variants for complex phenotypes using single cell atlases and uses of the genes and variants thereof
WO2022082113A1 (en) * 2020-10-16 2022-04-21 University Of Connecticut Cardiovascular disease risk assessment systems and uses thereof
CN112538480A (zh) * 2020-12-24 2021-03-23 广州市妇女儿童医疗中心(广州市妇幼保健院、广州市儿童医院、广州市妇婴医院、广州市妇幼保健计划生育服务中心) 精子鞭毛多发形态异常疾病动物模型的构建方法和应用
WO2022192904A1 (en) * 2021-03-12 2022-09-15 Vast Life Sciences Inc. Systems and methods for identifying microbial biosynthetic genetic clusters
CN113130004A (zh) * 2021-04-27 2021-07-16 上海海事大学 一种识别阿尔茨海默症相关生物标志物的相关性分析方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
CLAUDIA CAUDAI ET AL.: "AI applications in functional genomics", 《COMPUTATIONAL AND STRUCTURAL BIOTECHNOLOGY JOURNAL》, vol. 19 *
YARU ZHANG ET AL.: "Benchmarking algorithms for pathway activity transformation of single-cell RNA-seq data", 《 COMPUTATIONAL AND STRUCTURAL BIOTECHNOLOGY JOURNAL》, vol. 18 *
张杨洋: "全基因组外显子测序筛查青少年特发性脊柱侧凸可疑致病基因ADAMTS9", 《中国优秀硕士学位论文全文数据库医药卫生科技辑》, no. 01 *
杨梅华: "FCD相关难治性癫痫候选致病基因筛选及功能初探", 《中国博士学位论文全文数据库 医药卫生科技辑》, no. 03 *
毛建丰;马永鹏;周仁超;: "结合系统发育与群体遗传学分析检验杂交是否存在的技术策略", 生物多样性, no. 06 *
陈应柱等: "少突胶质细胞生物学特性与中枢神经系统疾病", 《国际病理科学与临床杂志》, vol. 25, no. 3, pages 3 *

Also Published As

Publication number Publication date
CN115472219B (zh) 2023-07-14

Similar Documents

Publication Publication Date Title
Risso et al. A general and flexible method for signal extraction from single-cell RNA-seq data
Wirth et al. Mining SOM expression portraits: feature selection and integrating concepts of molecular function
Azizi et al. Bayesian inference for single-cell clustering and imputing
CN115588465B (zh) 一种性状相关基因的筛选方法及其系统
Zhang et al. PBLR: an accurate single cell RNA-seq data imputation tool considering cell heterogeneity and prior expression level of dropouts
Zeng et al. couple CoC+: An information-theoretic co-clustering-based transfer learning framework for the integrative analysis of single-cell genomic data
Ono et al. Visualisation of the T cell differentiation programme by Canonical Correspondence Analysis of transcriptomes
CN116564410A (zh) 一种预测突变位点顺式调控基因的方法、设备和介质
CN116486913B (zh) 基于单细胞测序从头预测调控突变的系统、设备和介质
CN115472219B (zh) 一种阿尔兹海默病数据的处理方法及其系统
Beltrame et al. Using pathway signatures as means of identifying similarities among microarray experiments
Zhu et al. Ensemble adaptive total variation graph regularized NMF for Singlecell RNA-seq data analysis
Mayrink et al. Bayesian factor models for the detection of coherent patterns in gene expression data
Liu et al. Including probe-level measurement error in robust mixture clustering of replicated microarray gene expression
CN113035274A (zh) 一种基于nmf的肿瘤基因点突变的特征图谱提取算法
Monnier et al. A novel batch-effect correction method for scRNA-seq data based on Adversarial Information Factorization
McArdle et al. PRESTO, a new tool for integrating large-scale-omics data and discovering disease-specific signatures
Xie et al. Robust statistical inference for cell type deconvolution
CN116486911A (zh) 一种呼吸系统疾病数据的处理方法及其系统
Zhou et al. Discriminant analysis and normalization methods for next-generation sequencing data
Lim et al. A Cross-Platform Comparison of Affymetrix, Agilent, and Illumina Microarray Reveals Functional Genomics in Colorectal Cancer Progression
US20220036970A1 (en) Methods and systems for determination of gene similarity
Liu et al. A flexible model for correlated count data, with application to multicondition differential expression analyses of single-cell RNA sequencing data
Dadaneh Bayesian Analysis of High-Throughput Sequencing Data
Sun et al. scMitoMut for calling mitochondrial lineage related mutations in single cells

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant