CN113257364B

CN113257364B - 基于多目标进化的单细胞转录组测序数据聚类方法及系统

Info

Publication number: CN113257364B
Application number: CN202110578358.2A
Authority: CN
Inventors: 刘健; 潘逸辰; 陈娇
Original assignee: Nankai University
Current assignee: Nankai University
Priority date: 2021-05-26
Filing date: 2021-05-26
Publication date: 2022-07-12
Anticipated expiration: 2041-05-26
Also published as: CN113257364A

Abstract

本公开提供了一种基于多目标进化的单细胞转录组测序数据聚类方法及系统，获取单细胞转录组测序数据；对获取的测序数据进行预处理；根据预处理后的测序数据，生成细胞间的距离矩阵；对得到的距离矩阵进行降维，得到多个降维结果；对每个降维结果进行k‑means聚类，得到多个聚类结果；对得到的聚类结果进行多目标的进化计算，得到多组进化计算后的聚类结果，每组进化计算后的聚类结果对应一个等价关系矩阵，取各个等价关系矩阵的平均值进行层次聚类得到最终的聚类结果；本公开通过对细胞间的距离矩阵进行降维和初步聚类，对初步聚类后的结果进行多目标进化计算，得到最终的聚类结果，增强了聚类结果的准确性和鲁棒性。

Description

基于多目标进化的单细胞转录组测序数据聚类方法及系统

技术领域

本公开涉及生物数据处理技术领域，特别涉及一种基于多目标进化的单细胞转录组测序数据聚类方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术，并不必然构成现有技术。

单细胞测序技术被广泛地用于发现细胞间的分化关系和不同类别细胞基因表达差异等实际研究中，这些单细胞测序技术的下游分析往往将对细胞的无监督聚类作为基础。

发明人发现，现有的细胞聚类方法大多依赖于单一模型实现，鲁棒性和准确性较低，进而使得下游的细胞数据分析缺乏准确的数据支撑。

发明内容

为了解决现有技术的不足，本公开提供了一种基于多目标进化的单细胞转录组测序数据聚类方法及系统，增强聚类结果的准确性和鲁棒性。

为了实现上述目的，本公开采用如下技术方案：

本公开第一方面提供了一种基于多目标进化的单细胞转录组测序数据聚类方法。

一种基于多目标进化的单细胞转录组测序数据聚类方法，包括以下过程：

获取单细胞转录组测序数据；

对获取的测序数据进行预处理；

根据预处理后的测序数据，生成细胞间的距离矩阵；

对得到的距离矩阵进行降维，得到多个降维结果；

对每个降维结果进行k-means聚类，得到多个聚类结果；

对得到的聚类结果进行多目标的进化计算，得到多组进化计算后的聚类结果，每组进化计算后的聚类结果对应一个等价关系矩阵，取各个等价关系矩阵的平均值进行层次聚类得到最终的聚类结果。

进一步的，对获取的测序数据进行预处理，包括：

单细胞转录组测序数据以矩阵形式存储，过滤所有的非普遍表达基因，得到滤去细胞间表达量差异小于预设值的基因后的矩阵，对得到的矩阵逐元素加1并取对数。

进一步的，细胞间的距离矩阵，包括：细胞间的欧几里得、皮尔森以及斯皮尔曼距离矩阵。

进一步的，使用主成分分析法和对拉普拉斯矩阵特征值的计算来对细胞间的距离矩阵进行降维。

进一步的，对得到的聚类结果进行多目标的进化计算，包括以下过程：

聚类结果根据p个目标计算出的对应p维向量进行非支配排序，在超过需要选择的个体数后，使用拥挤度进一步排序，并选出拥挤度大的中间聚类结果；

每次随机取出三个中间聚类结果，先取前两个聚类结果作为两个父聚类结果生成一个子聚类结果，子聚类结果使得任意两个细胞被分为一类当且仅当这两个细胞在两个父聚类结果中都被分为一类；

根据用户输入的目标聚类数k，根据随机取出的第三个聚类结果进行子聚类结果的最终修正。

更进一步的，拥挤度的计算，包括以下过程：

使用所有p维向量每个维度上的最大值减去最小值作为标准化因子，对每一个p维向量的每一个维度进行标准化；

每一个维度上取到最大或者最小值的p维向量所对应的聚类结果将被优先选择；

将这些p维向量对应到p维空间中的点，不在任何一个维度上使得对应p维向量取到最值的聚类结果，根据其对应点在p维空间中每个维度上相邻的两个点确定一个超立方体，以超立方体的边长之和作为拥挤度。

更进一步的，对子聚类结果里面的每一个类，都分配一个第三个聚类结果的一个类，使得这个被分配的类和原来的类交集最大；

再将子聚类结果中的每一个类排成一列，其中被分配了相同的类的类排列在一起；

如果子聚类结果有n个类，它们的排列就有n-1个空隙，在这n-1个空隙中先选取被分配的类在空隙隔开处发生了改变的那些空隙，如果不足n-k个，再随机选取余下的空隙；

根据选出的n-k个空隙将被空隙分开的细胞划分为不同类。

本公开第二方面提供了一种基于多目标进化的单细胞转录组测序数据聚类系统。

一种基于多目标进化的单细胞转录组测序数据聚类系统，包括：

数据获取模块，被配置为：获取单细胞转录组测序数据；

预处理模块，被配置为：并对获取的测序数据进行预处理；

距离矩阵生成模块，被配置为：根据预处理后的测序数据，生成细胞间的距离矩阵；

降维模块，被配置为：对得到的距离矩阵进行降维，得到多个降维结果；

初步聚类模块，被配置为：对每个降维结果进行k-means聚类，得到多个聚类结果；

多目标进化聚类模块，被配置为：对得到的聚类结果进行多目标的进化计算，得到多组进化计算后的聚类结果，每组进化计算后的聚类结果对应一个等价关系矩阵，取各个等价关系矩阵的平均值进行层次聚类得到最终的聚类结果。

本公开第三方面提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现如本公开第一方面所述的基于多目标进化的单细胞转录组测序数据聚类方法中的步骤。

本公开第四方面提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如本公开第一方面所述的基于多目标进化的单细胞转录组测序数据聚类方法中的步骤。

与现有技术相比，本公开的有益效果是：

1、本公开所述的聚类方法、系统、介质或电子设备，对细胞间的距离矩阵进行降维和初步聚类，对初步聚类后的结果进行多目标进化计算，得到最终的聚类结果，增强了聚类结果的准确性和鲁棒性。

2、本公开所述的聚类方法、系统、介质或电子设备，重复多次的选择-生成子代操作，取得经进化计算后得到的多组聚类结果，每组聚类结果对应一个诱导出的等价关系矩阵，取这些矩阵的平均值进行层次聚类得到最后结果，进一步的提高了聚类的准确性。

本公开附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本公开的实践了解到。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1为本公开实施例1提供的基于多目标进化的单细胞转录组测序数据聚类方法的流程示意图。

具体实施方式

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。

实施例1：

如图1所示，本公开实施例1提供了一种基于多目标进化的单细胞转录组测序数据聚类方法，包括以下过程：

S1：单细胞RNA测序数据以一个矩阵的方式存储，其中一个维度代表细胞，另一个维度代表待检测的某个RNA片段。

S2：在获得存储scRNA-seq数据的输入矩阵后M，首先要删除细胞间表达量差异小的基因。如果一个基因在超过X％的细胞中高表达(表达量超过h)，则为普遍高表达基因。如果一个基因在X％以上的细胞中低表达(表达量不超过l)，则是一个普遍低表达的基因。本实施例中需要过滤所有的非普遍表达基因，得到滤去细胞间表达量差异小的基因后的矩阵M’。

S3：由于单细胞RNA测序数据本身的特性，对该数据矩阵M’逐元素加1并取对数，其中h、l、X由用户选定。

S4：生成细胞间的距离矩阵，其中EM、PM和SM分别代表细胞间的欧几里得、皮尔森以及斯皮尔曼距离矩阵。例如EM第i行第j列存储着第i个细胞和第j个细胞之间的欧几里得距离。

S5：使用PCA(Principal Component Analysis，主成分分析)和对拉普拉斯矩阵L特征值的计算来对S4中的距离矩阵进行降维。

PCA：对EM、PM以及SM的协方差矩阵求最大的p个单位特征值，每个样本最终的坐标即为在p个单位特征值方向上的投影。

L的计算方法如下：

DM＝one of EM，PM and SM

s_i＝the sum of the i-th row of A

D＝diag(s₁，s₂,s₃，…)

降维的目标维度数是细胞数的4％到7％之间，对这一范围的每一个目标维度数，使用上述各种算法获得三个降维结果。

S6：对于上述的每一个降维结果，使用k-means算法得到一个聚类结果，这里k值需要由使用者给出。这些结果将作为后续进化算法的初始种群。对于上述的每一个降维结果，将细胞嵌入了一个坐标系，在每个坐标空间下可以通过CHI(Calinski-Harabasz Index)评价任意关于这些细胞的一个聚类结果的好坏，那么上述的这些CHI系数就形成了多个需要优化的目标。

其中k-means算法是指按照输入k随机确定k个坐标作为聚类中心，并且将其它坐标按照距离分配给这k个聚类中心，此后更新聚类中心再重复这一过程直到聚类结果不再变化。

假设C₁，C₂，…，C_k是细胞对应坐标的k个聚类，设z₁，z₂，…,

是细胞的坐标，并假设

是z₁,z₂,…,

的平均值，

是C₁,C₂,…，C_k的平均值。B是类内方差矩阵，W是类间方差矩阵，k是聚类数，n_c是细胞个数。

Calinski-Harabasz Index(CHI)的计算如下：

S7：接下来，将使用多目标进化计算处理初始种群，这里选择策略为每次筛选出占种群一半数量的个体进行淘汰。

先将这些聚类结果根据p个目标计算出的对应p维向量进行非支配排序，在刚好超过需要选择的个体数后，使用拥挤度进一步排序。

对于拥挤度的计算如下：

首先使用所有p维向量每个维度上的最大值减去最小值作为标准化因子对每一个p维向量的每一个维度进行标准化；

这之后，每一个维度上取到最大或者最小值的p维向量所对应的聚类结果将被优先选择；

将这些p维向量对应到p维空间中的点，不在任何一个维度上使得对应p维向量取到最值的聚类结果根据其对应点在p维空间中每个维度上相邻的两个点确定了一个超立方体，所谓拥挤度即为这个超立方体的边长之和；

优先选出拥挤度大的中间聚类结果。

S8：至于生成子代的策略，每次随机取出三个中间聚类结果，先取前两个聚类结果作为两个父聚类结果生成一个子聚类结果，子聚类结果使得任意两个细胞被分为一类当且仅当这两个细胞在两个父聚类结果中都被分为一类，此后，根据用户输入的目标聚类数k，根据随机取出的第三个聚类结果进行对子聚类结果的最终修正。

目前，对子聚类结果里面的每一个类，都分配一个第三个聚类结果的一个类，使得这个被分配的类和原来的类交集最大；

此时，再将子聚类结果中的每一个类排成一列，其中被分配了相同的类的类排列在一起；

如果子聚类结果有n个类，它们的排列就有n-1个空隙，在这n-1个空隙中先选取被分配的类在空隙隔开处发生了改变的那些空隙，如果不足n-k个，再随机选取余下的空隙；根据选出的n-k个空隙将被空隙分开的细胞划分为不同类，否则是同一类。

S9：经过上述重复多次的选择-生成子代操作，取得经进化计算后得到的一组聚类结果；每组聚类结果对应一个诱导出的等价关系矩阵，取这些矩阵的平均值进行层次聚类得到最后结果。

实施例2：

本公开实施例2提供了一种基于多目标进化的单细胞转录组测序数据聚类系统，包括：

数据获取模块，被配置为：获取单细胞转录组测序数据；

预处理模块，被配置为：并对获取的测序数据进行预处理；

所述系统的工作方法与实施例1提供的基于多目标进化的单细胞转录组测序数据聚类方法相同，这里不再赘述。

实施例3：

本公开实施例3提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现如本公开实施例1所述的基于多目标进化的单细胞转录组测序数据聚类方法中的步骤。

实施例4：

本公开实施例4提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如本公开实施例1所述的基于多目标进化的单细胞转录组测序数据聚类方法中的步骤。

本领域内的技术人员应明白，本公开的实施例可提供为方法、系统、或计算机程序产品。因此，本公开可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种基于多目标进化的单细胞转录组测序数据聚类方法，其特征在于：包括以下过程：

获取单细胞转录组测序数据；

对获取的测序数据进行预处理；

根据预处理后的测序数据，生成细胞间的距离矩阵；

对得到的距离矩阵进行降维，得到多个降维结果；

对每个降维结果进行k-means聚类，得到多个聚类结果；

2.如权利要求1所述的基于多目标进化的单细胞转录组测序数据聚类方法，其特征在于：

对获取的测序数据进行预处理，包括：

3.如权利要求1所述的基于多目标进化的单细胞转录组测序数据聚类方法，其特征在于：

细胞间的距离矩阵，包括：细胞间的欧几里得、皮尔森以及斯皮尔曼距离矩阵。

4.如权利要求1所述的基于多目标进化的单细胞转录组测序数据聚类方法，其特征在于：

使用主成分分析法和对拉普拉斯矩阵特征值的计算来对细胞间的距离矩阵进行降维。

5.如权利要求1所述的基于多目标进化的单细胞转录组测序数据聚类方法，其特征在于：

对得到的聚类结果进行多目标的进化计算，包括以下过程：

6.如权利要求5所述的基于多目标进化的单细胞转录组测序数据聚类方法，其特征在于：

拥挤度的计算，包括以下过程：

7.如权利要求5所述的基于多目标进化的单细胞转录组测序数据聚类方法，其特征在于：

对子聚类结果里面的每一个类，都分配一个第三个聚类结果的一个类，使得这个被分配的类和原来的类交集最大；

根据选出的n-k个空隙将被空隙分开的细胞划分为不同类，否则是同一类。

8.一种基于多目标进化的单细胞转录组测序数据聚类系统，其特征在于：包括：

数据获取模块，被配置为：获取单细胞转录组测序数据；

预处理模块，被配置为：并对获取的测序数据进行预处理；

9.一种计算机可读存储介质，其上存储有程序，其特征在于，该程序被处理器执行时实现如权利要求1-7任一项所述的基于多目标进化的单细胞转录组测序数据聚类方法中的步骤。

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7任一项所述的基于多目标进化的单细胞转录组测序数据聚类方法中的步骤。