CN113257365B

CN113257365B - 面向非标准化单细胞转录组测序数据的聚类方法及系统

Info

Publication number: CN113257365B
Application number: CN202110579883.6A
Authority: CN
Inventors: 刘健; 潘逸辰; 陈娇
Original assignee: Nankai University
Current assignee: Nankai University
Priority date: 2021-05-26
Filing date: 2021-05-26
Publication date: 2022-07-12
Anticipated expiration: 2041-05-26
Also published as: CN113257365A

Abstract

本公开提供了一种面向非标准化单细胞转录组测序数据的聚类方法及系统，获取单细胞转录组测序数据；对获取的测序数据进行预处理；对预处理后的测序数据进行降维和聚类处理，得到聚类结果；将聚类结果根据Spearman相关性由小到大或由大到小排列，从Spearman相关性变化最大的间隙处删除Spearman相关性小的聚类结果；取删除处理后的各个聚类结果的等价关系矩阵平均值进行层次聚类得到最终的聚类结果；本公开在聚类融合阶段前，使得参与聚类融合的聚类结果中和其它聚类结果差距较大的异常聚类结果被剔除，从而提升了聚类融合的性能。

Description

面向非标准化单细胞转录组测序数据的聚类方法及系统

技术领域

本公开涉及生物细胞处理技术领域，特别涉及一种面向非标准化单细胞转录组测序数据的聚类方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术，并不必然构成现有技术。

单细胞测序技术被广泛地用于发现细胞间的分化关系和不同类别细胞基因表达差异等实际研究中，这些单细胞测序技术的下游分析往往将对细胞的无监督聚类作为基础。

发明人发现，传统的基于聚类融合的单细胞转录组测序数据聚类方法在生成参与聚类融合的聚类结果集时引入较多不佳的聚类结果，使得最终的聚类结果不准确。

发明内容

为了解决现有技术的不足，本公开提供了一种面向非标准化单细胞转录组测序数据的聚类方法及系统，在聚类融合阶段前，使得参与聚类融合的聚类结果中和其它聚类结果差距较大的异常聚类结果被剔除，从而提升了聚类融合的性能。

为了实现上述目的，本公开采用如下技术方案：

本公开第一方面提供了一种面向非标准化单细胞转录组测序数据的聚类方法。

一种面向非标准化单细胞转录组测序数据的聚类方法，包括以下过程：

获取单细胞转录组测序数据；

对获取的测序数据进行预处理；

对预处理后的测序数据进行降维和聚类处理，得到聚类结果；

将聚类结果根据Spearman相关性由小到大或由大到小排列，从Spearman相关性变化最大的间隙处删除Spearman相关性小的聚类结果；

取删除处理后的各个聚类结果的等价关系矩阵平均值进行层次聚类得到最终的聚类结果。

进一步的，对预设范围内的每个目标维度数，得到对应的降维结果，对每一个降维结果，使用K-Means算法得到一个聚类结果。

进一步的，根据得到的聚类结果构建拉普拉斯矩阵，提取拉普拉斯矩阵的特征值，每一个特征值作为一个聚类结果的一个坐标，计算某一聚类结果的对应坐标与所有特征值序列号的Spearman相关性。

进一步的，层次聚类包括：每次找出距离最小的两个元素分到一类，此后将这两个元素看作一个元素，与其余元素计算距离时计算距离的平均值，使得元素不断聚合，直到剩余预设类。

进一步的，对获取的测序数据进行预处理，包括：

测序数据以矩阵的方式存储，选择变异系数大于预设值的基因数据。

进一步的，利用UMAP预处理后的测序数据进行降维。

进一步的，Spearman相关性包括：将两个欲计算Spearman相关性的序列转化为序数的排列，使得数列对应位置为数值的序数。

本公开第二方面提供了一种面向非标准化单细胞转录组测序数据的聚类系统。

一种面向非标准化单细胞转录组测序数据的聚类系统，包括：

数据获取模块，被配置为：获取单细胞转录组测序数据；

预处理模块，被配置为：对获取的测序数据进行预处理；

初步聚类模块，被配置为：对预处理后的测序数据进行降维和聚类处理，得到聚类结果；

聚类剔除模块，被配置为：将聚类结果根据Spearman相关性由小到大或由大到小排列，从Spearman相关性变化最大的间隙处删除Spearman相关性小的聚类结果；

层次聚类模块，被配置为：取删除处理后的各个聚类结果的等价关系矩阵平均值进行层次聚类得到最终的聚类结果。

本公开第三方面提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现如本公开第一方面所述的面向非标准化单细胞转录组测序数据的聚类方法中的步骤。

本公开第四方面提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如本公开第一方面所述的面向非标准化单细胞转录组测序数据的聚类方法中的步骤。

与现有技术相比，本公开的有益效果是：

1、本公开所述的方法、系统、介质或电子设备，在聚类融合阶段前，使得参与聚类融合的聚类结果中和其它聚类结果差距较大的异常聚类结果被剔除，从而提升了聚类融合的性能。

2、本公开所述的方法、系统、介质或电子设备，将等价关系矩阵的平均值进行层次聚类得到最后结果，层次聚类为每次找出距离最小的两个元素分到一类，此后将这两个元素看作一个元素，与其余元素计算距离时计算距离的平均值，如此使得元素不断聚合，直到剩余预设类，进一步的提高了聚类的准确性。

本公开附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本公开的实践了解到。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1为本公开实施例1提供的面向非标准化单细胞转录组测序数据的聚类方法的流程示意图。

具体实施方式

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。

实施例1：

如图1所示，本公开实施例1提供了一种面向非标准化单细胞转录组测序数据的聚类方法，包括以下过程：

S1：单细胞RNA测序数据以一个矩阵的方式存储，矩阵的两个维度分别代表细胞和基因，矩阵值代表一个基因在一个细胞中的表达量。

在获得输入矩阵后，首先挑选在细胞间差异表达的基因进行后续分析，具体来说选择变异系数(均值除方差)较高的部分基因。

S1：利用UMAP对S1中处理后的矩阵进行降维分析。

在高维部分，采用如下公式建模细胞间的相似度：

其中，ρ_i是和i最近的数据点的距离，d可以是任何满足对称性，非负性，自反性，三角不等式的广义上的距离。

在低维部分使用曲线族来建模低维部分的相似度：

q_ij＝(1+a(y_i-y_j)^2b)^-1

其中，a，b的推荐值是1.93与0.79。

高维部分概率对称化为：

p_ij＝p_i|j+p_j|i-p_i|jp_j|i

先根据用户输入的邻居节点数来用二分法拟合σ_i，使得

和节点数尽可能接近；此后，根据带指数衰减的动量项的梯度下降法来优化概率分布p和q之间的KL散度。

降维的目标维度数是细胞数的4％到7％之间，对这一范围的每一个目标维度数，使用UMAP获得一个降维结果。

S3：对于上述的每一个降维结果，使用k-means算法得到一个聚类结果，这里k值需要由使用者给出。所谓k-means算法，即首先随机选出k个样本，作为聚类中心，将剩余样本按距离远近分配给这k个聚类中心，得到k个聚类，由这些聚类重新更新聚类中心，重复上述过程，直到收敛。

S4：对上述k-means算法得到的一组聚类结果首先根据如下公式得到拉普拉斯矩阵L：

c_i＝第i个聚类结果

a_ij＝ARI(c_i，c_j)

S_i＝A第i行的和

D＝diag(s₁，s₂，s₃，…)

此后，对L计算特征值，如此每一个特征值都是分配给一个聚类结果的一个坐标(x₁,x₂,…,x_n)。

计算这个坐标和1,2,..,n的Spearman的相关性，称为VI(Validity Index)，Spearman相关性，是指将两个欲计算Spearman相关性的序列转化为序数的排列，使得数列对应位置不再是数值而是数值的序数，设a，b转化后数列为a’与b’，数列长度为n，则：

将聚类结果根据VI由小到大排列，从VI变化最大的间隙处删去VI小的聚类结果。

S5：此后，每个聚类结果对应一个诱导出的等价关系矩阵，取这些矩阵的平均值进行层次聚类得到最后结果。层次聚类即每次找出距离最小的两个元素分到一类，此后将这两个元素看作一个元素，与其余元素计算距离时计算距离的平均值，如此使得元素不断聚合，直到剩余预设类。

实施例2：

本公开实施例2提供了一种面向非标准化单细胞转录组测序数据的聚类系统，包括：

数据获取模块，被配置为：获取单细胞转录组测序数据；

预处理模块，被配置为：对获取的测序数据进行预处理；

所述系统的工作方法与实施例1提供的面向非标准化单细胞转录组测序数据的聚类方法相同，这里不再赘述。

实施例3：

本公开实施例3提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现如本公开实施例1所述的面向非标准化单细胞转录组测序数据的聚类方法中的步骤。

实施例4：

本公开实施例4提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如本公开实施例1所述的面向非标准化单细胞转录组测序数据的聚类方法中的步骤。

本领域内的技术人员应明白，本公开的实施例可提供为方法、系统、或计算机程序产品。因此，本公开可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种面向非标准化单细胞转录组测序数据的聚类方法，其特征在于：包括以下过程：

获取单细胞转录组测序数据；

对获取的测序数据进行预处理；

2.如权利要求1所述的面向非标准化单细胞转录组测序数据的聚类方法，其特征在于：

对预设范围内的每个目标维度数，得到对应的降维结果，对每一个降维结果，使用K-Means算法得到一个聚类结果。

3.如权利要求1所述的面向非标准化单细胞转录组测序数据的聚类方法，其特征在于：

根据得到的聚类结果构建拉普拉斯矩阵，提取拉普拉斯矩阵的特征值，每一个特征值作为一个聚类结果的一个坐标，计算某一聚类结果的对应坐标与所有特征值序列号的Spearman相关性。

4.如权利要求1所述的面向非标准化单细胞转录组测序数据的聚类方法，其特征在于：

层次聚类包括：每次找出距离最小的两个元素分到一类，此后将这两个元素看作一个元素，与其余元素计算距离时计算距离的平均值，使得元素不断聚合，直到剩余预设类。

5.如权利要求1所述的面向非标准化单细胞转录组测序数据的聚类方法，其特征在于：

对获取的测序数据进行预处理，包括：

6.如权利要求1所述的面向非标准化单细胞转录组测序数据的聚类方法，其特征在于：

利用UMAP预处理后的测序数据进行降维。

7.如权利要求1所述的面向非标准化单细胞转录组测序数据的聚类方法，其特征在于：

Spearman相关性包括：将两个欲计算Spearman相关性的序列转化为序数的排列，使得数列对应位置为数值的序数。

8.一种面向非标准化单细胞转录组测序数据的聚类系统，其特征在于：包括：

数据获取模块，被配置为：获取单细胞转录组测序数据；

预处理模块，被配置为：对获取的测序数据进行预处理；

9.一种计算机可读存储介质，其上存储有程序，其特征在于，该程序被处理器执行时实现如权利要求1-7任一项所述的面向非标准化单细胞转录组测序数据的聚类方法中的步骤。

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7任一项所述的面向非标准化单细胞转录组测序数据的聚类方法中的步骤。