CN116504314B

CN116504314B - 基于细胞动态分化的基因调控网络构建方法

Info

Publication number: CN116504314B
Application number: CN202310765180.1A
Authority: CN
Inventors: 李雄; 张龙宇; 孟旭; 周娟; 陈浩文
Original assignee: East China Jiaotong University
Current assignee: East China Jiaotong University
Priority date: 2023-06-27
Filing date: 2023-06-27
Publication date: 2023-08-29
Anticipated expiration: 2043-06-27
Also published as: CN116504314A

Abstract

本发明提出一种基于细胞动态分化的基因调控网络构建方法，该方法包括，获取单细胞转录组测序数据并进行预处理，再利用Slingshot进行推断，得到包含细胞注释信息和拟时间信息的表达矩阵；根据表达矩阵中拟时间信息的密度计算两种细胞状态之间的交点，以交点为基准，将所有细胞划分成多个窗口；在每个窗口中构建细胞类型特异性基因调控网络；构建参考网络，将参考网络作为参考信息来校准细胞类型特异性基因调控网络。本发明将拟时间信息和细胞类型结合，并且考虑了细胞密度沿拟时间的分布状况，有助于从细胞动态分化的角度构建细胞类型特异性的基因调控网络，使得所构建的基因调控网络更准确。

Description

基于细胞动态分化的基因调控网络构建方法

技术领域

本发明涉及生物信息技术领域，特别涉及一种基于细胞动态分化的基因调控网络构建方法。

背景技术

单细胞转录组测序技术生成的数据集以前所未有的分辨率描述单个细胞的状态。自引入该技术以来，已报道的单细胞组学数据的数量呈爆炸式增长，这对于理解细胞过程至关重要，单细胞转录组测序在揭示细胞类型的异质性和分化轨迹方面发挥了重要作用。因此，在单细胞水平上推断基因调控网络对于解释细胞分化、细胞命运决定和表达失调等生物学现象至关重要。特别是了解肿瘤微环境中促进免疫逃逸机制的复杂调控，这为理解基因之间的相互作用以及细胞状态转变的新见解提供了机会，也可以指导研究人员识别新的药物靶点并开发有效的免疫治疗药物。然而，与bulk 转录组测序数据不同，单细胞转录组测序数据带来了许多独特的挑战，如较低的信噪比、dropouts和异质性等等，由于这些特性，从单细胞转录组测序数据中推断基因调控网络仍然具有挑战性。

目前为止，已经提出了许多基于单细胞转录组测序数据构建调控网络的方法。然而，以往的方法忽略了调控网络是高度动态的，基因之间的调控关系随时间而变化。因此，在推断调控网络时，应考虑随细胞状态变化的时间信息。由于目前提供具有时间序列信息的单细胞转录组测序数据集比较稀少，并且这种时间序列可能无法提供足够的信息来推断基因调控网络。因此，根据细胞的表达水平和细胞状态，采用对细胞分化过程进行分类的方法来计算细胞的时间信息，这种时间信息一般称为拟时间信息。与时间序列信息相似，拟时间排序也显示了基因在细胞过程中的表达趋势，这可能有助于准确构建基因调控网络。因此，一些方法试图从具有时间信息的基因表达数据中重建基因调控网络。然而，这些方法仍有很大的改进空间，特别是在某些情况下，它们并没有明显优于随机网络。比如没有考虑细胞密度沿拟时间的分布状况，并且这些方法简单的将所有细胞的基因表达谱看作为一个表达矩阵，没有考虑细胞类型。

最近，开发推断细胞类型特异性基因调控网络的计算方法方面取得了重大进展。大多数早期的方法只依赖于单细胞转录组测序数据，并专注于设计不同的数学公式，如基于随机森林树方法、信息论方法和深度神经网络模型。多项研究表明，在构建细胞类型特异性基因调控网络加入额外信息有助于细胞类型特异性基因调控网络的预测。由于与单细胞转录组测序数据配对的其他组学的单细胞数据（如scATAC-seq、snmC-seq和lncRNAs数据）不易获取，并且不同组学的单细胞数据之间可能存在大量技术、生物噪音，而通用网络信息在现有数据库及文献中更容易收集。

通过上述可知的是，目前现有技术存在如下问题：

1、无法有效利用拟时间信息，没有考虑细胞密度沿拟时间的分布状况，并且这些方法简单的将所有细胞的基因表达谱看作为一个表达矩阵，没有考虑细胞类型。

2、不同组学的单细胞数据获取难度高，且所获取的不同组学的单细胞数据之间可能存在大量技术、生物噪音等问题。

3、单细胞转录组数据本身具有高维高稀疏特性，目前现有技术并没有克服该问题，在进行构建基因调控网络时，网络中存在假阳性和假阴性等不足。

发明内容

鉴于上述状况，本发明的主要目的是为了提出一种基于细胞动态分化的基因调控网络构建方法，以解决上述技术问题。

本发明提供了一种基于细胞动态分化的基因调控网络构建方法，所述方法包括如下步骤：

步骤1、获取单细胞转录组测序数据，对单细胞转录组测序数据进行预处理，得到不同类型不同状态的细胞，利用Slingshot推断不同细胞状态的拟时间信息，得到包含细胞注释信息和拟时间信息的表达矩阵；

步骤2、根据表达矩阵中拟时间信息的密度计算两种细胞状态之间的交点，以交点为基准，将所有细胞划分成多个不同大小的窗口，每个窗口由具有连续状态的细胞组成；

步骤3、选取窗口中在拟时间上具有显著变化的基因，采用基于L0正则化的L0L2稀疏回归模型推断具有显著变化的基因，根据推断结果，在每个窗口中构建表示转录因子-基因之间调控关系的细胞类型特异性基因调控网络；

步骤4、利用单细胞转录组测序数据构建参考网络，将参考网络作为参考信息来校准细胞类型特异性基因调控网络，得到最终的细胞类型特异性基因调控网络。

本发明将拟时间信息和细胞类型结合，并且考虑了细胞密度沿拟时间的分布状况，有助于从细胞动态分化的角度构建细胞类型特异性的基因调控网络，不仅使得所构建的基因调控网络更准确，并且有利于后续分别基于免疫细胞和肿瘤细胞的基因调控网络挖掘肿瘤进展过程中重要的免疫逃逸通路。

本发明的附加方面与优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实施例了解到。

附图说明

图1为本发明提出的一种基于细胞动态分化的基因调控网络构建方法的流程图；

图2为本发明与五种现有方法在4种类型共200个不同的数据集上进行基准测试的比较图；

图3为本发明与五种现有方法在4种类型共200个不同的数据集上进行基准测试的平均AUROC（受试者工作特征曲线下面积）图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

参照下面的描述和附图，将清楚本发明的实施例的这些和其他方面。在这些描述和附图中，具体公开了本发明的实施例中的一些特定实施方式，来表示实施本发明的实施例的原理的一些方式，但是应当理解，本发明的实施例的范围不受此限制。

请参阅图1，本发明实施例提供了一种基于细胞动态分化的基因调控网络构建方法，所述方法包括如下步骤：

进一步的，在步骤1中，对单细胞转录组测序数据进行预处理的具体方法包括如下步骤：

步骤1.1、从GEO数据库中下载编号为GSE99254的单细胞转录组测序数据，去除平均计数小于1的基因；

步骤1.2、将去除平均计数小于1的基因的计数除以每个细胞的总计数，再与整个细胞的总计数的中位数相乘，得到计数表达谱矩阵，对计数表达谱矩阵进行对数转换，得到12306个蛋白质编码基因；

步骤1.3、利用Seurat包识别蛋白质编码基因主要的细胞簇：该过程中Seurat选择前2000个表达水平变化大的基因，并开展主成分分析并提取前5个主成分执行基于图的聚类方法以识别不同细胞簇（参数res=0.3）。

步骤1.4、利用SingleR包将细胞簇映射到已知的细胞状态，得到2508个CD8+ T细胞，其中包括303个幼稚细胞（naive cells）、206个中间细胞（intermediate cells）、674个GZMK标记的功能障碍前细胞（GZMK marked pre-dysfunction cells）、832个ZNF683的标记功能障碍前细胞（ZNF683 marked pre-dysfunction cells）和439个功能障碍细胞（dysfunction cells）等6种不同状态的CD8+ T细胞。

进一步的，步骤2中，以交点为基准，将所有细胞划分成多个不同大小的窗口的具体方法包括：以两个交点作为一个滑动窗口，若两种细胞状态之间存在多个交点，则以密度最大处的交点作为基准重新划分边界，重新调整滑动窗口宽度，实现滑动窗口宽度可变；

检查细胞注释信息中是否包含细胞类型以及细胞状态信息，如果只存在细胞类型信息，则将所有只存在细胞类型信息的细胞作为一个独立的窗口。

进一步的，选取窗口中在拟时间上具有显著变化的基因的方法具体包括：设定基因过滤标准，三个基因过滤标准分别为：（1）平均表达量大于0.5，（2）表达细胞的比例大于0.05，（3）在超过100个细胞中检测到；

再将过滤后的每个基因拟合一个参数K为6的广义线性模型，利用广义线性模型来建模窗口中细胞的基因表达和拟时间之间的关系，并使用关联检验函数检验基因表达和拟时间之间的关联的显著性，得到基因沿拟时间上的方差和方差的P-value；

利用Bonferroni方法校正检验基因沿拟时间上的方差和方差的P-value，得到窗口内细胞基因的统计数据，根据统计数据，选择P-value小于0.01的基因作为具有显著变化的基因。

进一步的，L0L2稀疏回归模型的表达式为：

；

其中，表示矩阵/>中第/>个目标基因的表达水平向量，/>表示为/>个样本和/>个目标基因的矩阵，/>表示第/>个目标基因，/>为/>个样本和/>个转录因子的矩阵，/>为回归系数向量，/>控制系数非零的转录因子的数量，/>控制L2正则化引起的收缩量。

进一步的，窗口中的转录因子-基因之间的相互作用强度存在如下关系式：

；

其中，表示窗口/>中的转录因子-基因之间的相互作用强度，/>表示转录因子的数量，/>表示每个窗口中第/>个转录因子-基因对之间回归系数，/>表示每个窗口中转录因子-基因对之间回归系数的绝对值。

进一步的，最终的细胞类型特异性基因调控网络中的转录因子-基因的相互作用强度存在如下关系式：

；

其中，表示最终的细胞类型特异性基因调控网络中的转录因子-基因的相互作用强度，/>表示将细胞划分为/>个窗口，/>表示窗口/>中的转录因子-基因之间的相互作用强度的绝对值。

进一步的，构建参考网络的具体方法包括如下步骤：

步骤4.1、利用单细胞转录组测序数据生成计数矩阵，采用SAVER包计算计数矩阵中的缺失值，对缺失值进行插补零值来改善所有基因的表达，再排除插补后的计数矩阵中在每个细胞中零值表达大于99%的基因，得到处理后的计数矩阵；

步骤4.2、对处理后的计数矩阵分别采用Seurat包、MetaCell包和bigSCale2包得出不同的皮尔逊相关系数网络；

其中，使用Seurat包得出皮尔逊相关系数网络的方法为：利用Seurat包的NormalizeData()函数对处理后的计数矩阵中进行对数归一化，计算基因对之间的皮尔逊相关系数网络，保留皮尔逊相关系数网络中皮尔逊相关系数 > 0.8的链接；

其中，使用MetaCell包得出皮尔逊相关系数网络的方法为：使用MetaCell包对处理后的计数矩阵进行去噪处理，再使用MetaCell包函数mcell_mc_from_coclust_balanced()，设定MetaCell包函数参数K = 30和alpha = 2生成元细胞矩阵，去除元细胞矩阵中UMIs小于500的细胞，使用metacell矩阵计算元细胞矩阵中基因对之间的皮尔逊相关系数网络；

其中，使用bigSCale2包得出皮尔逊相关系数网络的方法为：使用bigSCale2包对处理后的计数矩阵进行Z-score转换，利用转换后的Z-score矩阵计算皮尔逊相关系数网络；

步骤4.3、将不同的皮尔逊相关系数网络的进行合并得到参考网络。

为了保证参考网络的准确性，可以利用贝叶斯统计框架的对数似然评分评估参考网络的准确性。

其中，在评估参考网络的准确性过程中，将参考网络按相互作用强度进行排序，再计算排序后的参考网络中每条边的对数似然评分，对数似然评分/>的表达式为：

；

其中，表示给定数据集中金标准基因对的阳性概率，/>表示给定数据集中金标准基因对的阴性概率，/>表示金标准阳性基因对的概率,/>表示金标准阴性基因对的概率。

进一步的，步骤4中，将参考网络作为参考信息来校准细胞类型特异性基因调控网络的具体方法为：将细胞类型特异性基因调控网络与参考网络的邻接矩阵进行合并，并进行归一化，得到最终的细胞类型特异性基因调控网络。

进一步的，还包括有步骤5，利用PageRank算法来评估每个窗口中最终的细胞类型特异性基因调控网络中节点的中心性，得到关键转录因子，通过利用关键转录因子绘制同一细胞类型中不同状态下的基因调控网络，进而确定某一细胞在不同状态的动态发育过程。

请参阅图2，最后，将本发明在4种不同类型的细胞，共200个基准数据集上进行测试，得到最终的细胞类型特异性基因调控网络后，将本发明所得最终的细胞类型特异性基因调控网络与四种现有方法在上述数据集的测试基准情况下进行比较，并计算平均接收者操作特征曲线下面积（area under receiver operating characteristic curve, AUROC）指标，性能比较结果如图3所示。

与现有技术相比，本发明的有益效果为：

1)本发明将拟时间信息和细胞类型结合，并且考虑了细胞密度沿拟时间的分布状况，有助于从细胞动态分化的角度构建细胞类型特异性的基因调控网络，不仅使得所构建的基因调控网络更准确，并且有利于后续分别基于免疫细胞和肿瘤细胞的基因调控网络挖掘肿瘤进展过程中重要的免疫逃逸通路。

2)结合细胞状态，动态地将细胞划分为不同大小的窗口，以消除细胞密度造成的拟时间信息差异，进而解决细胞在拟时间信息上的分布并不均匀，导致调控关系会偏向于细胞的高密度区域的问题。

3) 以单细胞转录组测序数据构建参考网络，无需获取其他组学的单细胞数据，数据获取容易，且与构建细胞类型特异性基因调控网络的数据为同种数据，不存在大量技术、生物噪音等问题；将参考网络作为参考信息来校准细胞类型特异性基因调控网络，可以过滤指定的细胞类型中的相互作用关系，从而去除可能存在的假阳性边来提高细胞类型特异性基因调控网络的整体准确性。

4) 采用L0L2稀疏回归模型为每个窗口推断细胞类型特异性基因调控网络，可以克服单细胞转录组测序数据高维高稀疏和低信噪比等特性，从而使得本发明在AUROC等指标上均有所提升。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于细胞动态分化的基因调控网络构建方法，其特征是，所述方法包括如下步骤：

步骤4、利用单细胞转录组测序数据构建参考网络，将参考网络作为参考信息来校准细胞类型特异性基因调控网络，得到最终的细胞类型特异性基因调控网络；

在步骤1中，对单细胞转录组测序数据进行预处理的具体方法包括如下步骤：

步骤1.1、从GEO数据库中下载单细胞转录组测序数据，去除平均计数小于1的基因；

步骤1.2、将除平均计数小于1的基因的计数除以每个细胞的总计数，再与整个细胞的总计数的中位数相乘，得到计数表达谱矩阵，对计数表达谱矩阵进行对数转换，得到蛋白质编码基因；

步骤1.3、利用Seurat包识别蛋白质编码基因主要的细胞簇；

步骤1.4、利用SingleR包将细胞簇映射到已知的细胞状态，得到不同类型不同状态的细胞；

步骤2中，以交点为基准，将所有细胞划分成多个不同大小的窗口的具体方法包括：以两个交点作为一个滑动窗口，若两种细胞状态之间存在多个交点，则以密度最大处的交点作为基准重新划分边界，重新调整滑动窗口宽度；

步骤3中，选取窗口中在拟时间上具有显著变化的基因的方法具体包括：设定基因过滤标准，再将过滤后的每个基因拟合一个广义线性模型，利用广义线性模型来建模窗口中细胞的基因表达和拟时间之间的关系，并使用关联检验函数检验基因表达和拟时间之间的关联的显著性，得到基因沿拟时间上的方差和方差的P-value；

利用Bonferroni方法校正检验基因沿拟时间上的方差和方差的P-value，得到窗口内细胞基因的统计数据，根据统计数据，选择P-value小于设定值的基因作为具有显著变化的基因；

步骤3中，L0L2稀疏回归模型的表达式为：

；

其中，表示矩阵/>中第/>个目标基因的表达水平向量，/>表示为/>个样本和/>个目标基因的矩阵，/>表示第/>个目标基因，/>为/>个样本和/>个转录因子的矩阵，/>为回归系数向量，/>控制系数非零的转录因子的数量，/>控制L2正则化引起的收缩量；

步骤3中，窗口中的转录因子-基因之间的相互作用强度存在如下关系式：

；

其中，表示窗口/>中的转录因子-基因之间的相互作用强度，/>表示转录因子的数量，表示每个窗口中第/>个转录因子-基因对之间回归系数，/>表示每个窗口中转录因子-基因对之间回归系数的绝对值；

步骤4中，最终的细胞类型特异性基因调控网络中的转录因子-基因的相互作用强度存在如下关系式：

；

其中，表示最终的细胞类型特异性基因调控网络中的转录因子-基因的相互作用强度，/>表示将细胞划分为/>个窗口，/>表示窗口/>中的转录因子-基因之间的相互作用强度的绝对值；

步骤4中，构建参考网络的具体方法包括如下步骤：

步骤4.3、将不同的皮尔逊相关系数网络的进行合并得到参考网络；

步骤4中，将参考网络作为参考信息来校准细胞类型特异性基因调控网络的具体方法为：将细胞类型特异性基因调控网络与参考网络的邻接矩阵进行合并，并进行归一化，得到最终的细胞类型特异性基因调控网络。

2.根据权利要求1所述的基于细胞动态分化的基因调控网络构建方法，其特征是，所述方法还包括步骤5：

利用PageRank算法来评估每个窗口中最终的细胞类型特异性基因调控网络中节点的中心性，得到关键转录因子；

通过利用关键转录因子绘制同一细胞类型中不同状态下的基因调控网络，进而确定某一细胞在不同状态的动态发育过程。