CN114613433A

CN114613433A - 单细胞转录组数据伪时间轨迹的分析方法及计算机系统

Info

Publication number: CN114613433A
Application number: CN202210279806.3A
Authority: CN
Inventors: 卢雨儿; 林海; 胡桓; 戚德振; 刘东东; 杨国钰; 邱野; 帅建伟
Original assignee: Wenzhou Research Institute Of Guoke Wenzhou Institute Of Biomaterials And Engineering
Current assignee: Wenzhou Research Institute Of Guoke Wenzhou Institute Of Biomaterials And Engineering
Priority date: 2022-03-21
Filing date: 2022-03-21
Publication date: 2022-06-10

Abstract

本发明公开了一种单细胞转录组数据伪时间轨迹的分析方法及计算机系统，其包括：1)计算基因显式比较优势矩阵；2)利用相似度得到基因相识度矩阵，构建基因网络；3)在基因网络中取初始节点，并从初始节点开始随机行走，记录走过的每一个基因，形成由基因序列构成的基因文本；4)将基因文本转换成基因的词向量；5)将单细胞表达的基因矢量以表达量为权重加和，形成的和矢量作为该单细胞在基因空间中的词向量表示；6)将所有的细胞的矢量表示进行可视化处理，得到胚胎细胞发育伪时间轨迹结果。本发明为鉴别组织中不同的稀有细胞亚型和不同细胞亚型的变异基因提供分析基础，在肿瘤、发育生物学、生命科学等领域有广泛重要的应用前景。

Description

单细胞转录组数据伪时间轨迹的分析方法及计算机系统

技术领域

本发明具体涉及一种单细胞转录组数据伪时间轨迹的分析方法及计算机系统。

背景技术

2009年发明的单细胞转录组测序技术，是近十年来迅速发展的生命科学前沿技术。单细胞转录组测序是指对于单个细胞水平上将mRNA反转录扩增后进行高通量测序的技术，从单细胞水平揭示了细胞基因排列结构和基因表达状态，为生命科学的研究提供了独特的视角。该技术能够允许同时对上千上万个单细胞进行转录组分析，从单细胞转录组分辨率水平上提供了对细胞类型的鉴定，并使我们可以从转录组水平对组织中细胞异质性和复杂性进行详细分析，为科学家研究单个细胞的行为、机制等提供了强有力的新方法。单细胞测序技术在肿瘤、发育生物学、微生物学、神经科学等领域发挥着越来越重要的作用，成为了当今生命科学极具潜力的热点研究领域。

根据单细胞转录组测序数据，我们可以对其进行细胞变化轨迹分析，讨论在细胞发育演化过程中，祖源细胞沿着某个特定过程，由于基因突变等因素，发生单个或多个发育轨迹分化和命运变化。当细胞从一种基因序列状态转换到另一种序列状态时，所发生的基因变异大小程度，可以用伪时间指数来度量，从而可以用伪时间来衡量单个细胞在细胞分化过程中发生了多大的进展和变化。

在过去的几年中，已经开发了各种不同的伪时间轨迹分析方法，例如PAGA、DTFLOW、VIA和Palantir等。PAGA是基于分区的图抽象方法，该方法在估计流形分区连通性的基础上，构建了流形数据的可解释类图映射，该映射保留了数据的全局拓扑，允许以不同的分辨率分析数据，从而提高了数据分析工作的计算效率。PAGA是一种易于解释的拓扑数据分析方法，为了分析单细胞基因动力学，PAGA将基于随机游走的距离测度扩展到考虑不连通图的情况，通过追踪抽象图中高置信度路径，及该路径中细胞与祖细胞的距离排序，从而分析基因变化大小构建伪时间轨迹。

DTFLOW方法针对原始的单细胞基因表达数据，首先基于欧氏距离计算每个细胞的k个近邻点，得到一个近邻图。然后根据需要构建一个高斯核函数矩阵，将细胞间的欧氏距离转化为高斯核权重来表示细胞间的相似性。通过重启随机游走算法，将每个数据点转换为一个离散分布，并得到扩散矩阵。接着又通过不同分布之间的巴氏系数构建一个巴氏核矩阵，然后使用低维数据集来可视化原始高维单细胞数据集的底层结构，根据根单元格对应的矩阵进行伪时间轨迹计算。

VIA是在前人随机游走模型的基础上，创新性的提出了将暂停-跳转效应(lazy-teleporting behavior)加入到模型中的一种分析方法。VIA模型中的暂停-跳转随机游走，允许具有预定义的暂停状态(保留在原节点/状态)和跳转状态(跳转到任何其他节点/状态)。该方法考虑随机行走的暂停行为(lazy)，即每个节点具有(1-)几率的惰性概率停留在原来位置，然后通过考虑在集群图上的随机游走，对数据集进行可扩展的伪时间计算。

Palantir方法利用相邻图和伪时间构造了一个马尔可夫链，它将细胞分化考虑化为一个随机过程，其中一个细胞通过流形中的一系列步骤达到一个或多个终端状态。伪时间提供方向性，以与顺序一致的方式定位邻居图中的边。对于每个有向边，计算分配到达邻近单元的一个步骤的跃迁概率。通过多个步骤计算到达较远单元的概率，如果有多条路径连接它们，概率就会很高，即观测到的中间单元状态密度很高。这样通过每一步随机行走，在更长的距离上流形图结构给出了伪时间轨迹。

中国专利CN112768001A公开了一种基于流形学习和主曲线的单细胞轨迹推断方法”，其发明内容主要包括：(1)收集已知单细胞RNA seq相关数据；(2)进行特征提取，选择可变基因作为特征；(3)进行数据降维，缓解维度诅咒；(4)局部定义主曲线，提出了一个初始化过程；(5)应用分段子空间约束的均值移动算法建立最终主曲线模型；(6)对模型进行伪时间分析，建立直树拓扑图；(7)在直树拓扑图上进行差异表达基因检测。该发明提供了一种单细胞轨迹推断方法，以重建和捕获有机体内的谱系关系，能够检测差异表达基因，获取到基于对细胞分化的影响。

中国专利CN113808670A公开了一种单细胞转录组数据进行细胞分化预测方法”，包括数据输入、数据预处理、数据降维/可视化、分化轨迹推断、假时间预测、输出预测的细胞分化轨迹等步骤。该专利通过寻找细胞集群中的过渡细胞并连接对应细胞类群的方法，确保了可以构建任意的拓扑结构。

现在已有的这些方法可以针对单细胞转录组数据进行单细胞伪时间轨迹分析，但这些方法主要是应用一些传统的基于流形学习的方法对数据进行降维及后续分析，分析速度不够快，算法的准确性也有待进一步提高。在单细胞转录组测序分析中，关于基因距离的定义，没有基于显示比较优势指数来定义细胞间距离的方法，也没有利用自然语言文本处理的技术来分析细胞伪时间轨迹。

发明内容

针对现有技术存在的不足，本发明的目的在于提供一种单细胞转录组数据伪时间轨迹的分析方法及计算机系统。

为实现上述目的，本发明提供了如下技术方案：

一种单细胞转录组数据伪时间轨迹的分析方法，其包括以下步骤：

1)利用单细胞转录组测序矩阵，计算基因显式比较优势矩阵；

2)获得基因显示比较优势矩阵之后，计算基因与基因之间的相似度，并得到基因相识度矩阵，并根据相识度，构建基因网络；

3)在基因网络中取初始节点，并从初始节点开始随机行走，记录走过的每一个基因，形成由基因序列构成的基因文本；

4)采用词嵌入算法，将基因文本转换成基因的词向量；

5)将细胞表达的基因矢量以表达量为权重加和，形成的和矢量作为该细胞在基因空间中的词向量表示；

6)将所有的细胞的矢量表示进行可视化处理，得到胚胎细胞发育伪时间轨迹结果。

步骤1)中对单细胞转录组数据进行归一化处理：

X_RNAcg＝log p(1+X_cg)

其中，X_RNAcg为标准化后的转录谱，X_cg为转录谱中第c个细胞的第g个基因的表达量。

步骤1)中，对经过标准化处理的单细胞转录组数据，利用

计算每个细胞所表达的每个基因的显式比较优势，并将单细胞转录组测序矩阵转化为基因显示比较优势矩阵，其中x_cg为第c个细胞在第g个基因上的表达量，RCA_cg为第c个细胞在第g个基因上的显式比较优势。

步骤2)中，通过

计算基因和基因之间的相似度，其中P代表条件概率，φ_ij表示基因i和基因j之间的相似性。

步骤2)中，将每个基因看成网络的一个节点，取一个设定的相似度阈值，当两个基因之间的相似度大于该设定的相似度阈值时，则认为两个基因之间有边相连，据此构建出基因网络。

步骤2)中，采用皮尔逊相关系数相似性度量方法或余弦相似度、Jaccard系数去构建基因网络。

步骤3)中，在基因网络中取初始节点可采用遍历取点或随机取点的方式。

所述步骤4)中，词嵌入算法采用词嵌入方法Word2vec或GloVe、Deeplearning4j。

步骤6)中，采用UMAP方法或t-SNE方法去对所有的细胞的矢量表示进行可视化处理。

一种计算机系统，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

本发明的有益效果：

首次提出了一种基于词向量的单细胞伪时间轨迹分析模型，能够提高单细胞伪时间轨迹的的分析速度。

提出了一种基于显示比较优势指数的细胞间距离表示方法，能够提高单细胞的伪时间轨迹的准确度。

采用本发明提出的方法可以进一步全面系统地描绘细胞的状态和命运，包括细胞周期、细胞分化和细胞活化等，为鉴别组织中不同的稀有细胞亚型和不同细胞亚型的变异基因提供分析基础，在肿瘤、发育生物学、生命科学等领域有广泛重要的应用前景。

附图说明

图1为本发明的工作流程示意图。

图2为胚胎体细胞数据经过随机游走生成的基因文本样例示意图。

图3为基因的词向量表示示意图。

图4为胚胎细胞发育伪时间轨迹结果的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供一种单细胞转录组数据伪时间轨迹的分析方法，首先利用单细胞转录组测序矩阵，计算基因显式比较优势矩阵；利用显示比较优势矩阵，计算基因和基因之间的接近度；取特定的接近度阈值生成基因网络；通过在基因网络上随机行走生成基因文本；对基因文本进行词向量编码，最终生成基因的嵌入式矢量表示。基于基因的嵌入式矢量表示，每一个细胞可以看成基因空间中的一个矢量。细胞矢量化表示后，可推断出伪时间轨迹，用于细胞类型识别、细胞聚类、可视化、细胞发育轨迹推断等单细胞分析下游任务。

其包括一套完整的分析流程，包含如下七个模块：1)数据标准化预处理模块、2)基因显式比较优势分析模块、3)基于基因相似度构建网络模块、4)随机游走生成基因文本模块、5)基因的词向量表示模块、6)细胞的词向量表示模块、7)细胞伪时间轨迹生成模块。

其中数据标准化预处理模块对单细胞转录组数据进行归一化处理，将数据进行标准化，基因显式比较优势分析模块用于获取显式比较优势矩阵，基于基因相似度构建网络模块用于基因网络构建，随机游走生成基因文本模块用于形成由基因序列构成的基因文本；基因的词向量表示模块用于将基因序列构成的基因文本转换成基因的词向量；细胞的词向量表示模块用于获取细胞在基因空间中的词向量表示；细胞伪时间轨迹生成模块用于生成胚胎细胞发育伪时间轨迹结果。

其具体包括以下步骤：

1)利用单细胞转录组测序矩阵，计算基因显式比较优势矩阵，在计算之前需要对对单细胞转录组数据进行归一化处理：

X_RNAcg＝log p(1+X_cg)

其中，X_RNAcg为标准化后的转录谱，X_cg为转录谱中第c个细胞的第g个基因的表达量；

对经过标准化处理的单细胞转录组数据，利用

其中显式比较优势指数RCA是用来定量衡量竞争力或重要性的一个指标，也就是在群体中的比较优势，将显式比较优势引入单细胞转录组数据分析中，其指数能够表示基因对该细胞功能的重要程度。

即通过

得到基因相似度矩阵后，将每个基因看成网络的一个节点，取一个合适的相似度阈值，当两个基因之间的相似度大于该阈值时，认为这两个基因之间有边相连，据此可构建出基因网络。

其中基因的相似度构建网络模块是采用皮尔逊相关系数(Pearson CorrelationCoefficient)相似性度量方法，可以替换成其他相似性度量方法，比如余弦相似度(CosineSimilarity)、Jaccard系数(Jaccard Coefficient)。

3)在基因网络中取初始节点，并从初始节点开始随机行走，记录走过的每一个基因，形成由基因序列构成的基因文本；在网络中取初始节点(可遍历取点，也可随机取点)，从初始节点开始随机行走，即从一个节点以边权重为概率走到下一个邻居节点，记录走过的每一个基因，即形成由基因序列构成的基因文本。

4)采用词嵌入算法，将基因序列构成的基因文本转换成基因的词向量，其中词嵌入算法采用词嵌入方法Word2vec或GloVe、Deeplearning4j；

5)获得基因的向量表示后，由于每个单细胞表达一组基因，将细胞表达的基因矢量以表达量为权重加和，形成的合矢量可作为该细胞在基因空间中的词向量表示。

6)将所有的细胞的矢量表示进行可视化处理，得到胚胎细胞发育伪时间轨迹结果，其中采用UMAP方法或t-SNE方法去对所有的细胞的矢量表示进行可视化处理。

将所有的细胞使用UMAP(Uniform Manifold Approximation and Projection)方法进行可视化，相较于其它的可视化算法，UMAP可以更好的保留全局结构，运行速度快，具有更好的可扩展性。此外，UMAP对嵌入的维数没有计算限制，是一种通用的可视化方法，利用UMAP可视化方法生成细胞伪时间轨迹。UMAP的基本超参数有n_neighbors，k-nn聚类的k，min_dist最小距离，然后n_components是降维的目标维度，metric这里可以对距离的计算方法进行设定。

实施例

基于本发明专利，对来自27天时间过程中的人体的胚胎体细胞(EBs)产生RNA-seq数据集进行处理分析。胚胎体细胞数据集包含16825个细胞，每个细胞检测了17580种基因。

胚胎体细胞数据集是一个中等大小的单细胞转录组数据集，包含了16,825个人类胚胎体细胞，每一个细胞视为一条数据，它包含细胞内所有基因的表达量即转录组数据，首先对数据进行质量控制，筛除掉死亡细胞以及基因表达量过高的细胞，最后剩下14528个细胞。其次，挑选方差最大的前15000个基因。最后，对转录组数据做加1对数变换的规范化操作：

X_RNAij＝log p(1+X_ij)

上式中X_RNAij代表标准化预处理后的转录组数据，X_ij代表第i个细胞的第j个基因的表达量。在这个案例中i最大值为细胞数即14528，j最大值为基因种类数即15000。

对经过标准化处理后的数据，对经过标准化处理后的数据，首先计算每个细胞所表达的每个基因的显式比较优势(RCA)，得到基因显式比较优势矩阵。

获得基因显式比较优势矩阵后，计算基因和基因之间的相似度，获得基因相似度矩阵。获得基因相似度矩阵后，将每个基因看成网络的一个节点，取一个合适的相似度阈值，在本例中取0.65，当两个基因之间的相似度大于该阈值时，认为这两个基因之间有边相连，据此即可构建出基因网络。

构建好基因网络之后。在网络中随机选取初始节点，从初始节点开始随机行走，即从一个节点以边权重为概率走到下一个邻居节点。记录走过的每一个基因，即形成由基因序列构成文本，如图2所示。

生成基因序列构成的文本后，采用词向量(Word2vec)算法，其模型包括输入层、隐藏层和输出层，模型框架根据输入输出的不同，主要包括连续词袋模型(CBOW)和跳字模型(SKIM)。将文本输入CBOW或者SKIM模型中，生成基因的嵌入式矢量表示，基因的词向量表示结果见图3。

获得基因的嵌入式矢量表示后，由于每个单细胞表达一组基因，将单细胞表达的基因矢量以表达量为权重加和，形成的合矢量可作为该细胞在基因空间中的矢量表示。

将所有的细胞的矢量表示使用UMAP(Uniform Manifold Approximation andProjection)方法进行可视化。这里我们使用的是欧几里得距离，实际上对聚类影响比较大的是n_neighbors和min_dist这两个变量，这里n_neighbor取20。min_dist是0到1之间的变量，对min_dist进行了贝叶斯优化调参，从而生成胚胎细胞发育伪时间轨迹结果(图4)。

通过本发明提出的方法可以进一步全面系统地描绘细胞的状态和命运，包括细胞周期、细胞分化和细胞活化等，为鉴别组织中不同的稀有细胞亚型和不同细胞亚型的变异基因提供分析基础，在肿瘤、发育生物学、生命科学等领域有广泛重要的应用前景。

本发明还提供了一种计算机系统，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现单细胞转录组数据伪时间轨迹的分析方法的步骤。

本发明还提供了一种计算机可读存储介质，计算机可读存储介质中存储由计算机程序指令，其中，计算机程序指令被处理器运行时，使得处理器执行所述的单细胞转录组数据伪时间轨迹的分析方法的步骤。

实施例不应视为对本发明的限制，但任何基于本发明的精神所作的改进，都应在本发明的保护范围之内。

Claims

1.一种单细胞转录组数据伪时间轨迹的分析方法，其特征在于：其包括以下步骤：

4)采用词嵌入算法，将基因文本转换成基因的词向量；

2.根据权利要求1所述的单细胞转录组数据伪时间轨迹的分析方法，其特征在于：步骤1)中对单细胞转录组数据进行归一化处理：

X_RNAcg＝log p(1+X_cg)

3.根据权利要求2所述的单细胞转录组数据伪时间轨迹的分析方法，其特征在于：步骤1)中，对经过标准化处理的单细胞转录组数据，利用

4.根据权利要求1所述的单细胞转录组数据伪时间轨迹的分析方法，其特征在于：步骤2)中，通过

5.根据权利要求1所述的单细胞转录组数据伪时间轨迹的分析方法，其特征在于：步骤2)中，将每个基因看成网络的一个节点，取一个设定的相似度阈值，当两个基因之间的相似度大于该设定的相似度阈值时，则认为两个基因之间有边相连，据此构建出基因网络。

6.根据权利要求1所述的单细胞转录组数据伪时间轨迹的分析方法，其特征在于：步骤2)中，采用皮尔逊相关系数相似性度量方法或余弦相似度、Jaccard系数去构建基因网络。

7.根据权利要求1所述的单细胞转录组数据伪时间轨迹的分析方法，其特征在于：步骤3)中，在基因网络中取初始节点可采用遍历取点或随机取点的方式。

8.根据权利要求1所述的单细胞转录组数据伪时间轨迹的分析方法，其特征在于：所述步骤4)中，词嵌入算法采用词嵌入方法Word2vec或GloVe、Deeplearning4j。

9.根据权利要求1所述的单细胞转录组数据伪时间轨迹的分析方法，其特征在于：步骤6)中，采用UMAP方法或t-SNE方法去对所有的细胞的矢量表示进行可视化处理。

10.一种计算机系统，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于：所述处理器执行所述计算机程序时实现上述权利要求1至9任一一项所述单细胞转录组数据伪时间轨迹的分析方法的步骤。