CN117457065A

CN117457065A - 一种基于单细胞多组学数据识别表型相关细胞类型的方法和系统

Info

Publication number: CN117457065A
Application number: CN202311080320.8A
Authority: CN
Inventors: 冯占营; 王勇
Original assignee: Academy of Mathematics and Systems Science of CAS
Current assignee: Academy of Mathematics and Systems Science of CAS
Priority date: 2023-08-25
Filing date: 2023-08-25
Publication date: 2024-01-26

Abstract

本发明涉及一种基于单细胞多组学数据识别表型相关细胞类型的方法和系统。该方法包括：获取人类的单细胞多组学数据；利用获取的单细胞多组学数据建立细胞类型层面的匹配数据；对于每个细胞类型，以建立的匹配数据为输入构建其调控网络；利用每个细胞类型的调控网络构建调控功能区域，在所有细胞类型的调控功能区域上对遗传力进行建模，并定义表型与细胞类型的关联分数；度量表型与细胞类型的关联分数的显著性，利用表型与细胞类型的关联分数的显著性识别表型相关的细胞类型。本发明能够更有效的基于单细胞数据构建细胞类型层面匹配多组学数据，更有效的构建细胞类型的调控网络，并更准确的估计表型和细胞类型之间关联分数及其显著性。

Description

一种基于单细胞多组学数据识别表型相关细胞类型的方法和系统

技术领域

本发明属于医学技术、信息技术领域，具体涉及一种基于单细胞多组学数据识别表型相关细胞类型的方法和系统。

背景技术

精准医学是一种将个体基因型与环境因素差异考虑在内的疾病预测、预防、干预和治疗的新策略，旨在对疾病进行精确分类及诊断，为患者提供个性化、针对性的预防和治疗措施。个性化医疗的一个重要环节是在正确的细胞环境中，例如器官、组织甚至是更加具体的细胞类型，进行精准干预，进而改善表型或者治疗疾病。但是，对于复杂表型或者疾病，表型相关的细胞环境是不知道的，这使得正确识别表型相关的细胞环境以实现更加精准的预防或者治疗成为精准医学研究和实践的一个重要的研究热点。

表型和疾病是由基因型和环境因素共同的复杂作用形成的。但是，微观分子层面的基因型并不是直接对宏观层面的表型和疾病产生作用的，而是通过多层次分子复杂的调控完成的。具体而言，基因型及其遗传变异会在调控元件上定位，进而对调控网络产生影响，而由于调控网络是在时空特异的细胞环境中才会有活性和功能，因此基因型和遗传变异是在特定的细胞环境中才会对调控产生影响进而影响表型和疾病。这里的细胞环境，既包含相对宏观层次上的器官或者组织，又包含相对微观层次的细胞类型。研究人员已经发现了大量基因型和遗传变异在特定细胞环境中影响表型的实例。特别的，一些表型相关的SNP(Single Nucleotide Polymorphisms，单核苷酸多态性)在特定的发育阶段起作用，例如与智力相关的表型的SNP，在人脑发育的早期的染色质开放区域更加富集。一些遗传变异仅与特定的组织器官有关，例如，因为乳腺组织对性腺激素的敏感性，性腺激素受体(ESR1)基因的突变仅在乳腺作用，突变的ESR1基因会导致对雌激素的反应性发生变化，增加乳腺癌的风险。有很多遗传变异与特定的细胞类型有关，例如EWS-FLI1基因融合是原始神经外胚层瘤的典型遗传变异，该基因的融合只在神经干细胞中发挥作用，并导致该肿瘤的形成。这些实例说明，识别基因型和遗传变异影响表型起作用的细胞环境，尤其是细胞类型，是实现表型干预和疾病治疗的精准医学的重要步骤。

目前，已经有了许多方法去识别表型相关的细胞环境，但大多在组织器官的层次上进行识别。例如，RolyPoly模型是基于各个组织的表达数据构建的，它用特异表达基因在各个组织中的表达值去回归SNP效应分数，进而得到每个组织和该表型的关联性；CoCoNet将特异性扩展到网络层次，它首先利用GETx中各个组织的表达数据识别每个组织特异的基因共表达网络，然后基于基因共表达网络识别表型相关的组织；S-LDSC基于基因组注释区域或者多组织的染色质开放区域的功能区域建立SNP的效应分数和其LD分数之间的回归方程计算表型的遗传力在每个功能区域的富集分数，作为表型和组织的关联性；S-LDSC随后被应用到多组织的表达数据中，LDSC-SEG利用组织的特异表达基因的位置构建功能区域，并计算遗传力富集分数，从而识别表型相关的组织。但是这些方法的缺陷是均基于群体细胞(Bulk)数据，只能识别组织器官层次上的表型相关的细胞环境，例如将糖尿病表型和胰腺组织相关联，但无法关联到胰腺内部多种细胞类型，例如胰岛的alpha细胞类型或者是beta细胞类型。

细胞类型层次上的细胞环境对表型遗传力的的解释能力更强。随着单细胞数据的出现和增长，最近也出现了一些识别表型相关细胞类型的方法。例如LDSC-SEG或者MAGMA可以很直接地扩展到单细胞数据中，通过单细胞数据识别出的细胞类型以及细胞类型特异表达的基因的位置作为调控功能区域，可以识别相关细胞类型。但是此类方法的缺点是只考虑了单细胞基因表达数据。为了考虑染色质开放数据，scLinker被开发出来，它首先利用单细胞基因表达数据识别细胞类型特异的基因程序，随后利用公开数据库中的增强子和基因联系识别其相关的调控元件，随后对特异基因程序及其增强子构成的功能区域计算遗传力富集分数，进而识别表型相关的细胞类型。但是此类方法只使用了公共的染色质开放数据，并没有考虑与单细胞表达数据匹配的单细胞染色质开放数据，利用单细胞多组学数据中蕴含的更丰富的信息，从构建调控网络图谱的角度来集成数据。

目前技术主要缺点：

(1)大部分识别表型相关细胞环境的方法均是基于群体细胞的多组学数据，这种数据大多在组织器官层次获得，因此只能识别组织器官层次上的细胞环境。

(2)单细胞数据的信息挖掘不充分。现阶段虽然有一些识别细胞类型的方法，但是其使用的数据往往只是一个局部范围的单细胞数据，并没有利用当前快速发展的单细胞图谱。

(3)当前对单细胞数据的使用，只使用了单细胞RNA-seq数据，而没有考虑使用同样快速增长的匹配的单细胞ATAC-seq数据，以及整合单细胞多组学数据的调控网络。

(4)缺乏系统性集细胞类型匹配数据构造、细胞类型调控网络构建、识别表型相关相关细胞类型的平台。

发明内容

为了突破上述难点和痛点，本发明基于大量的单细胞RNA-seq和单细胞ATAC-seq数据及其定义出的细胞类型，利用每个细胞类型的单细胞数据构建其调控网络，在细胞类型特异的调控网络上对遗传力富集进行建模并识别表型相关的细胞类型。

本发明采用的技术方案如下：

一种基于单细胞多组学数据识别表型相关细胞类型的方法，包括以下步骤：

获取人类的单细胞多组学数据；

利用获取的单细胞多组学数据建立细胞类型层面的匹配数据；

对于每个细胞类型，以建立的匹配数据为输入构建其调控网络；

利用每个细胞类型的调控网络构建调控功能区域，在所有细胞类型的调控功能区域上对遗传力进行建模，并定义表型与细胞类型的关联分数；

度量表型与细胞类型的关联分数的显著性，利用表型与细胞类型的关联分数的显著性识别表型相关的细胞类型。

进一步地，所述获取人类的单细胞多组学数据，包括：获取人类的多个组织或者器官的匹配的单细胞RNA-seq和单细胞ATAC-seq数据。

进一步地，所述建立细胞类型层面的匹配数据，包括：

对于匹配的单细胞RNA-seq和单细胞ATAC-seq数据，标注其细胞类型；

通过Pseudo-bulk策略构建每个细胞类型的匹配的基因表达和染色质开放数据。

进一步地，所述通过Pseudo-bulk策略构建每个细胞类型的匹配的基因表达和染色质开放数据，包括：

对于一个细胞类型，给定来自其单细胞RNA-seq数据的包含c₁个细胞和N个基因的单细胞基因表达矩阵E，以及来自单细胞ATAC-seq数据的包含c₂个细胞和P个peak的单细胞染色质开放矩阵O，分别合并c₁个和c₂个细胞以得到第i个基因的表达PE_i和第k个peak的开放性PO_k：

其中，e是单细胞RNA-seq数据的的RNA片段总数目，o是单细胞ATAC-seq数据的DNA片段总数目，E_ic是细胞c中第i个基因的表达，O_kc是细胞c中第k个peak的开放性；通过PO_k≥2的阈值选择开放的peak，从而构建该细胞类型的匹配的基因表达和染色质开放数据。

进一步地，所述调控网络以TF-RE-TG三元组为基本单元，其中TF表示转录因子，TG表示目的基因，RE表示调控元件；将匹配的基因表达和染色质开放数据输入到PECA2模型中构建所述调控网络。

进一步地，所述利用每个细胞类型的调控网络构建调控功能区域，是对于每个细胞类型i，其调控网络中的RE集合组成该细胞类型的调控功能区域C_i；所述表型与细胞类型的关联分数通过整合遗传力富集分数τ_i及其统计显著性P值p_i来定义：

R_i＝τ_i·(-log p_i)

其中，R_i表示表型与第i个细胞类型的关联分数；τ_i表示表型在C_i中的遗传力富集分数；p_i表示遗传力富集分数τ_i的显著性P值。

进一步地，使用Block jackknife的方法来估计关联分数R_i的标准误差、P值和FDR。

一种基于单细胞多组学数据识别表型相关细胞类型的系统，其包括：

数据获取模块，用于获取人类的单细胞多组学数据；

数学建模模块，用于利用获取的单细胞多组学数据建立细胞类型层面的匹配数据；对于每个细胞类型，以建立的匹配数据为输入构建其调控网络；利用每个细胞类型的调控网络构建调控功能区域，在所有细胞类型的调控功能区域上对遗传力进行建模，并定义表型与细胞类型的关联分数；度量表型与细胞类型的关联分数的显著性，利用表型与细胞类型的关联分数的显著性识别表型相关的细胞类型；

模型测试模块，用于获取给定表型或者疾病的全基因组关联分析GWAS统计汇总数据，对数学建模模块得到的模型进行测试。

本发明公开了一种基于单细胞RNA-seq和单细胞ATAC-seq数据，构建细胞类型层次的调控网络图谱，利用图谱识别表型相关细胞类型的方法，其优点和有益效果包括：

1.提出了更有效的基于单细胞数据构建细胞类型层面匹配多组学数据的方法。

2.提出了更有效的构建细胞类型的调控网络的方法。

3.提出了更准确的估计表型和细胞类型之间关联分数及其显著性的方法。

附图说明

图1是表型相关细胞类型识别的计算系统结构图。

图2是本发明和scLinker在测试集上的遗传力富集比较图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面通过具体实施例和附图，对本发明做进一步详细说明。

本发明要解决的技术问题是提供一种识别表型相关细胞类型的方法。该方法基于高通量测序技术获得的大量的单细胞RNA-seq和单细胞ATAC-seq数据，定义细胞类型，构造每个细胞类型的匹配基因表达和染色质开放数据，推断构建其调控网络，形成多细胞类型的调控网络图谱，最终基于调控网络图谱识别给定表型的相关细胞类型。需要突破的难点包括：细胞类型上匹配数据的构造；基于单细胞数据的细胞类型的调控网络的构建；度量遗传力在调控网络中的分布及其显著性等。为突破这些技术瓶颈，本发明提出了基于单细胞数据构建调控网络图谱来识别表型相关细胞类型新方法，方法的核心是定义单个细胞类型的调控网络与表型GWAS的关联性评分，基于此关联性评分，搭建了识别表型相关细胞类型的完整计算流程和系统。

为了克服现有技术的不足，本发明提出了如图1所示的基于调控网络识别表型相关细胞类型的系统。该系统包括三个模块：

(1)数据获取模块

该模块需要收集的数据分为两部分：

(1.1)单细胞数据：作为全面的细胞类型层次的调控网络图谱的数据基础，需要收集人类全面的单细胞RNA-seq和单细胞ATAC-seq数据。在这里，收集的两个层次的数据为匹配的，意思是这两种类型的单细胞数据来自同样的组织、器官或者样本。

(1.2)对于给定表型或者疾病的全基因组关联分析(GWAS)统计汇总数据。

(2)数学建模模块

该模块将以(1)中收集的数据为输入构建模型。该模块分为以下四个步骤：

(2.1)建立细胞类型层面的匹配数据：利用(1.1)中收集的匹配的单细胞RNA-seq和单细胞ATAC-seq数据，利用已有的知识或者计算工具注释细胞类型。然后通过Pseudo-bulk方法构建每个细胞类型的匹配的基因表达和染色质开放数据。

(2.2)细胞类型调控网络的构建：对于每个细胞类型，以(2.1)中构建的匹配数据为输入，构建其调控网络，调控网络以若干TF-RE-TG三元组为基本单元。其中TF表示转录因子，TG表示目的基因，RE表示调控元件。

(2.3)构建细胞类型的调控功能区域并对遗传力进行建模：对于每个细胞类型的调控网络，使用调控网络中的调控元件构建调控功能区域。在所有细胞类型的调控功能区域上，对遗传力进行建模，定义表型与细胞类型的关联分数。

(2.4)度量表型与细胞类型的关联分数的显著性：对于每个细胞类型与表型的关联分数，使用block jackknife方法估计该分数的显著性P值，用来识别细胞类型。

(3)模型测试模块

在(1.2)中收集了六种表型的GWAS进行验证。这六种表型具有其相关细胞类型的先验知识，用以验证并与其他方法进行比较。

本发明所提出的识别表型相关细胞类型的模型分为三个模块，如图1所示，下面针对数据获取、模型构建与求解、模型测试进行详细阐述。

(1)数据获取

从已发表的文献中收集了人类的26个组织或者器官的匹配的单细胞RNA-seq和单细胞ATAC-seq数据，如表1所示，将以此为输入构建细胞类型调控网络图谱。

对于给定的表型，收集该表型的GWAS统计汇总数据。在这里，共收集了六个血液指标的表型(红细胞数目、红细胞分布、单核细胞数目、单核细胞比例、淋巴母细胞数目和淋巴母细胞比例)数据，用于验证和比较。

表1.本发明收集的26个人类组织或者器官的单细胞多组学数据

Organs	Stage	Organs	Stage
				Adrenal gland	Fetal	Kidney	Adult
Adrenal gland	Adult	Liver	Fetal
				Artery-Aorta	Adult	Liver	Adult
Artery-Tibial	Adult	Lung	Fetal
				Cerebellum	Fetal	Lung	Adult
Cerebrum	Fetal	Muscle	Fetal
				Colon	Adult	Pancreas	Fetal
Esophagus gastroesophageal	Adult	Pancreas	Adult
				Esophagus mucosa	Adult	Placenta	Fetal
Esophagus muscularis	Adult	Skin	Adult
				Eye	Fetal	Small intestine	Adult
Frontal cortex	Adult	Spleen	Fetal
				Heart	Fetal	Stomach	Fetal
Heart	Adult	Stomach	Adult
				Intestine	Fetal	Thymus	Fetal
Kidney	Fetal	Uterus	Adult

(2.1)建立细胞类型层面的匹配数据

从(1)中得到单细胞RNA-seq和单细胞ATAC-seq数据之后，可以借助已有的计算工具对数据进行聚类以标注细胞类型。细胞类型注释可以来自下面三种方式：(a)直接使用生物学家发表数据时定义好的细胞类型；(b)在单细胞RNA-seq和单细胞ATAC-seq分别使用Seurat(软件网址：https://satijalab.org/seurat/)等工具进行聚类得到细胞类型，然后将两层数据的细胞类型对应起来。(c)使用CoupledNMF(Z Duren,X Chen,M Zamanighomi,WZeng,A Satpathy,H Chang,Yong Wang,Wing Hung Wong.Integrative analysis ofsingle cell genomics data by coupled nonnegative matrix factorizations.ProcNatl Acad Sci U S A 115(30),7723-7728,2018.)等方法在两层数据上统一定义细胞类型。这样，每个细胞类型均关联单细胞RNA测序数据的一组细胞和单细胞ATAC测序数据的一组细胞。

细胞类型在两层数据上定义完成之后，接下来使用“Pseudo-bulk”策略建立细胞类型层面的匹配的表达和染色质开放数据。以一个细胞类型为例，给定来自其单细胞RNA-seq数据的包含c₁个细胞和N个基因的单细胞基因表达矩阵E，以及来自单细胞ATAC-seq数据的包含c₂个细胞和P个peak(峰，代表染色质上开放的区域)的单细胞染色质开放矩阵O，分别合并c₁个和c₂个细胞以得到“pseudo-bulk”的第i个基因的表达PE_i和第k个peak的开放性PO_k：

这里e是单细胞RNA-seq数据的的RNA片段总数目，o是单细胞ATAC-seq数据的DNA片段总数目。E_ic是细胞c中第i个基因的表达，并且O_kc是细胞c中第k个peak的开放性。通过PO_k≥2的阈值选择开放的peak。这样构建了这个细胞类型的匹配的基因表达和染色质开放数据。

(2.2)细胞类型调控网络的构建

然后，同样对于上述的细胞类型，将(2.1)中匹配的“pseudo-bulk”基因表达和染色质开放数据输入到PECA2模型(Duren,Z.et al.(2020)‘Time Course RegulatoryAnalysis based on paired expression and chromatin accessibility data’,GenomeResearch,30(4),pp.622–634.doi:10.1101/gr.257063.119.)中以构建调控网络。PECA2计算反式调控分数来衡量第i个转录因子(TF)对第j个目的基因(TG)的调控强度。它假设TF通过在调控元件(RE)上结合来调节下游TG，通过整合多个由TF结合的RE调节TG来计算反式调控分数。具体的，第i个TF和第j个TG的反式调控分数R_ij定义为：

这里PE_i和PE_j是第i个TF和第j个TG的“pseudo-bulk”基因表达；B_ik是第i个TF结合在第k个RE的强度；PO_k是第k个peak的“pseudo-bulk”开放程度。I_kj表示第k个RE和第j个TG之间的相互作用强度，来自文献“Duren,Z.et al.Integrative analysis of single-cellgenomics data by coupled nonnegative matrix factorizations.Proc Natl Acad SciU S A 115,7723-7728(2018).”；D_ij是第i个TF和第j个TG在不同DNA百科全书计划(ENCODE)样本中的表达相关性，也来自该文献。PECA2的输出是TF-TG调控强度矩阵R和所有TF-REs-TG调控三元组。

这样按照上述计算过程，可以得到每个细胞类型的调控网络。即得到每个细胞类型调控网络中的TF，RE和TG，用于后续细胞类型层次的遗传力富集模型构建。汇总所有的细胞类型的调控网络，形成调控网络图谱资源，用于对表型相关组织的系统识别。

(2.3)表型和细胞类型关联分数的计算

假设(2.1)中定义了M个细胞类型，并利用(2.2)的方法得到每个细胞类型的调控网络。对于每个细胞类型i，其调控网络中的RE集合将会组成该细胞类型的调控功能区域C_i。在遗传学的线性加和模型下，分层LD分数拟合方法即S-LDSC“Finucane,H.K.etal.Partitioning heritability by functional annotation using genome-wideassociation summary statistics.Nat Genet 47,1228-1235(2015).”假设表型的因果SNP的效应具有零均值和固定方差的分布，并进行如下建模：

其中，β_j表示第j个SNP的效应分数，Var(β_j)表示β_j的方差。

同时S-LDSC假设对遗传力更富集的功能区域的连锁不平衡分数(LD)的增加比对遗传力富集没有贡献的功能区域的LD的增加对SNP的遗传效应影响更大，S-LDSC对SNP的遗传效应值χ²统计量的期望建模如下：

这里N是GWAS的样本量，C_i表示由第i个细胞类型的调控网络形成的调控功能区域，是来自GWAS的SNP与表型的关联效应统计量，/>是第i个调控功能区域中第j个SNP的LD分数，r_jk表示第j个SNP和第k个SNP之间的LD分数，a是偏差，τ_i表示表型在C_i中的遗传力富集分数，由S-LDSC计算得到。Block jackknife被用于估计τ_i的标准误差，并使用标准误差来计算遗传力富集分数τ_i的P值p_i。

为了在遗传力富集分数和假设检验产生的P值之间进行平衡，本发明整合遗传力富集分数和统计显著性(P值)来定义该表型与第i个细胞类型的关联分数如下：

R_i＝τ_i·(-log p_i)

(2.4)关联分数显著性的检验

下面使用Block jackknife的方法来估计(2.3)中定义的关联分数R_i的标准误差、P值和假阳性率(FDR)。具体来说，(2.3)计算了表型和第i个细胞类型的关联分数R_i。然后按照以下步骤估计标准误差，P值和FDR：

(a)对于第i个细胞类型，将其调控网络中的RE分成100份。

(b)通过移除100份中的一份来生成一个子样本，可以生成了第i个细胞类型RE的100个子样本。

(c)这个细胞类型的100个RE子样本将形成100个新的调控功能区域，用于拟合S-LDSC。对于每个子样本，通过(2.3)获得了遗传力富集分数，P值和关联分数。

(d)利用100个子样本的100个关联分数，可以估计表型和第i个细胞类型的关联分数R_i的标准误差SD_i。

(e)计算第i个细胞类型的关联分数的标准化分数：并估计R_i的P值和FDR值。

表型和第i个细胞类型的关联分数R_i及其FDR值可用于选择表型相关细胞类型。使用阈值(R分数≥100和FDR≤0.01)来选择表型的相关细胞类型。

(3)模型测试

为了测试和验证，利用一个较小的人类骨髓单细胞数据集(BMMC)。从中标注了Erythrocyte、Monocyte、CD4细胞、CD8细胞、NK细胞和B细胞。进一步收集了人类血细胞指标的GWAS统计汇总数据，分别为红细胞数目、红细胞分布、单核细胞数目、单核细胞比例、淋巴母细胞数目和淋巴母细胞比例。根据生物学知识，这两个数据可以提供用于验证的黄金标准：红细胞数目和分布与Erythrocyte有关，单核细胞数目和比例与Monocyte有关，淋巴母细胞数目和比例与CD细胞相关。将基于此黄金标准和scLinker方法进行比较。

本发明的关键点是提出了一种全新的基于单细胞数据构建细胞类型调控网络图谱识别表型相关细胞类型的框架，主要包括：

(1)基于单细胞多组学数据集建立细胞类型层面匹配伪群体(Pseudo-bulk)数据的方法。

(2)构建覆盖多组织器官的人类细胞类型特异的调控网络图谱的方法。

(3)基于调控网络计算遗传力富集识别表型相关细胞类型的方法。

(4)对表型与细胞类型的关联分数进行显著性检验的统计方法。

本发明已经经过实验验证。在模型测试环节，如表2所示，发现本发明可以准确识别表型相关的细胞类型。对于红细胞数目和红细胞分布两个表型，本发明和scLinker均可识别出红细胞与之关联性最强。对于单核母细胞数目和单核母细胞比例两个表型，本发明识别出单核母细胞细胞类型与之关联分数最高，但是scLinker识别出B细胞与之关联分数最高，这说明本发明比scLinker更加准确。对于淋巴母细胞数目和淋巴母细胞比例两个表型，本发明发现CD4+T细胞和CD8+T细胞与之关联分数更强，但是scLinker只能找到CD4+T细胞、NK细胞或者B细胞与之关联分数更强，这些结果也说明本发明的精确性更高。此外，如图2所示，本发明能够比scLinker得到更高的富集分数。例如在本实验中，scLinker得到最高的富集分数仅为19.80，但是本发明在各个细胞类型中的富集分数最低为59.77，这说明通过细胞类型特异的调控网络的限制，本发明可以将调控功能区域定义地更加准确，从而得到更高的遗传力的解释能力。

表2.本发明和scLinker在测试集上识别的表型相关细胞类型的比较

表型	本发明	scLinker
			红细胞数目	Erythrocyte	Erythrocyte
红细胞分布	Erythrocyte	Erythrocyte
			单核母细胞数目	Monocyte	B
单核母细胞比例	Monocyte	B
			淋巴母细胞数目	CD4、CD8	CD4、NK
淋巴母细胞比例	CD4、CD8	CD4、B

本发明的另一实施例提供一种计算机设备(计算机、服务器、智能手机等)，其包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行本发明方法中各步骤的指令。

本发明的另一实施例提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘)，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现本发明方法的各个步骤。

以上公开的本发明的具体实施例，其目的在于帮助理解本发明的内容并据以实施，本领域的普通技术人员可以理解，在不脱离本发明的精神和范围内，各种替换、变化和修改都是可能的。本发明不应局限于本说明书的实施例所公开的内容，本发明的保护范围以权利要求书界定的范围为准。

Claims

1.一种基于单细胞多组学数据识别表型相关细胞类型的方法，其特征在于，包括以下步骤：

获取人类的单细胞多组学数据；

2.根据权利要求1所述的方法，其特征在于，所述获取人类的单细胞多组学数据，包括：获取人类的多个组织或者器官的匹配的单细胞RNA-seq和单细胞ATAC-seq数据。

3.根据权利要求1所述的方法，其特征在于，所述建立细胞类型层面的匹配数据，包括：

4.根据权利要求3所述的方法，其特征在于，所述通过Pseudo-bulk策略构建每个细胞类型的匹配的基因表达和染色质开放数据，包括：

5.根据权利要求1所述的方法，其特征在于，所述调控网络以TF-RE-TG三元组为基本单元，其中TF表示转录因子，TG表示目的基因，RE表示调控元件；所述调控网络采用以下步骤构建：

将匹配的基因表达和染色质开放数据输入到PECA2模型中；

PECA2模型计算反式调控分数来衡量第i个TF对第j个TG的调控强度，第i个TF和第j个TG的反式调控分数R_ij定义为：

其中，PE_i和PE_j是第i个TF和第j个TG的pseudo-bulk基因表达；B_ik是第i个TF结合在第k个RE的强度；PO_k是第k个peak的pseudo-bulk开放程度；I_kj表示第k个RE和第j个TG之间的相互作用强度；D_ij是第i个TF和第j个TG在不同DNA百科全书计划样本中的表达相关性；PECA2模型的输出是TF-TG调控强度矩阵R和所有TF-REs-TG调控三元组。

6.根据权利要求5所述的方法，其特征在于，所述利用每个细胞类型的调控网络构建调控功能区域，是对于每个细胞类型i，其调控网络中的RE集合组成该细胞类型的调控功能区域C_i；所述表型与细胞类型的关联分数通过整合遗传力富集分数τ_i及其统计显著性P值p_i来定义：

R_i＝τ_i·(-log p_i)

7.根据权利要求6所述的方法，其特征在于，采用以下步骤估计关联分数R_i的标准误差、P值和FDR：

对于第i个细胞类型，将其调控网络中的RE分成100份；

通过移除100份中的一份来生成一个子样本，生成第i个细胞类型RE的100个子样本；

第i个细胞类型的100个RE子样本形成100个新的调控功能区域，用于拟合S-LDSC；对于每个子样本，获得遗传力富集分数、P值和关联分数；

利用100个子样本的100个关联分数，估计表型和第i个细胞类型的关联分数R_i的标准误差SD_i；

计算第i个细胞类型的关联分数的标准化分数用以估计R_i的P值和FDR值；

其中，关联分数R_i及其FDR值用于选择表型相关细胞类型。

8.一种基于单细胞多组学数据识别表型相关细胞类型的系统，其特征在于，包括：

数据获取模块，用于获取人类的单细胞多组学数据；

9.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行权利要求1～7中任一项所述方法的指令。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现权利要求1～7中任一项所述的方法。