CN117877590B

CN117877590B - 基于测序数据的细胞聚类方法、装置、设备及存储介质

Info

Publication number: CN117877590B
Application number: CN202410277588.9A
Authority: CN
Inventors: 荣志炜
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2024-03-12
Filing date: 2024-03-12
Publication date: 2024-05-28
Anticipated expiration: 2044-03-12
Also published as: CN117877590A

Abstract

本发明涉及细胞技术领域，尤其涉及一种基于测序数据的细胞聚类方法、装置、设备及存储介质，该方法包括：获得单细胞组对应的单细胞总数；将分离的每个单细胞转录扩增获得单细胞转录组；将单细胞转录组测序得到的测序数据集预处理获得分析数据集；通过预设单细胞数据聚类模型对分析数据集进行聚类分析，获得聚类结果，预设单细胞数据聚类模型通过自缩放注意力机制进行半监督学习。由于本发明对单细胞转录组进行测序得到测序数据集，通过预设单细胞数据聚类模型的自缩放注意力机制对测序数据集进行聚类分析，避免了传统的单细胞聚类的结果存在边界不清晰的情况，可明确细胞的聚类，能够对细胞进行很好的区分，从而实现了更准确的细胞聚类效果。

Description

基于测序数据的细胞聚类方法、装置、设备及存储介质

技术领域

本发明涉及细胞技术领域，尤其涉及一种基于测序数据的细胞聚类方法、装置、设备及存储介质。

背景技术

细胞是生命活动的基本单元，其经过分化形成组织。细胞内基因的表达非常复杂，研究基因的表达特征有助于认识和理解基因和细胞的功能。其中，细胞治疗是指利用某些具有特定功能的细胞的特性，采用生物工程方法获取和/或通过体外扩增、特殊培养等处理后，使这些细胞具有增强免疫、杀死病原体和肿瘤细胞、促进组织器官再生和机体康复等治疗功效，从而达到治疗疾病的目的。

而细胞治疗的关键是对细胞进行获取，传统的单细胞聚类通常是把细胞聚集为不同的簇，一般存在边界不清晰的聚类结果，聚类结果不准确，这会影响细胞治疗过程中细胞类型的质量。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供了一种基于测序数据的细胞聚类方法、装置、设备及存储介质，旨在解决传统的单细胞聚类通常是把细胞聚集为不同的簇，一般存在边界不清晰的聚类结果，聚类结果不准确的技术问题。

为实现上述目的，本发明提供了一种基于测序数据的细胞聚类方法，所述方法包括以下步骤：

对单细胞组进行分离，获得所述单细胞组对应的单细胞总数；

基于所述单细胞总数，将分离的每个单细胞进行转录扩增，获得单细胞转录组；

将所述单细胞转录组测序得到的多个单细胞的测序数据集进行预处理，获得所述单细胞转录组对应的分析数据集；

通过预设单细胞数据聚类模型对所述分析数据集进行聚类分析，获得所述单细胞组的聚类结果，所述预设单细胞数据聚类模型通过自缩放注意力机制对所述分析数据集半监督学习。

可选地，所述预设单细胞数据聚类模型包括自缩放注意力模块、模态编码模块、图编码模块、混合解码模块以及判别器模块，所述判别器模块设置在所述自缩放注意力模块与所述混合解码模块之间；所述自缩放注意力模块利用自缩放注意力机制进行特征映射。

可选地，所述将所述单细胞转录组测序得到的多个单细胞的测序数据集进行预处理，获得所述单细胞转录组对应的分析数据集，包括：

对所述单细胞转录组进行测序，获得所述单细胞转录组的多个单细胞的测序数据集；

通过格拉布斯检验法对所述测序数据集进行过滤，并将过滤后所剩余的测序数据作为分析数据集。

可选地，所述通过格拉布斯检验法对所述测序数据集进行过滤，并将过滤后所剩余的测序数据作为分析数据集，包括：

基于所述测序数据集，确定每个单细胞的线粒体基因的表达比例和检出数量；

根据所述表达比例和所述检出数量筛选出未在预设指标内的测序数据；

通过格拉布斯检验法将所述测序数据集中可疑的单细胞的测序数据进行过滤；

基于所述未在预设指标内的测序数据和所述可疑的单细胞的测序数据，将所剩余的测序数据作为分析数据集。

可选地，所述通过预设单细胞数据聚类模型对所述分析数据集进行聚类分析，获得所述单细胞组的聚类结果，包括：

通过预设单细胞数据聚类模型对所述分析数据集进行初始分群聚类，获得所述分析数据集的亚群分类结果；

对所述亚群分类结果进行显著差异基因筛选分析，确定目标单细胞亚群；

对所述目标单细胞亚群的特征基因进行回归分析，获得所述单细胞组的聚类结果。

可选地，所述通过预设单细胞数据聚类模型对所述分析数据集进行初始分群聚类，获得所述分析数据集的亚群分类结果，还包括：

通过预设单细胞数据聚类模型对所述分析数据集进行预处理，获得预处理数据；

利用主成分分析法对所述预处理数据进行降维处理，获得降维数据；

基于图算法和所述降维数据对所述单细胞转录组进行初始分群聚类，获得所述单细胞转录组的亚群分类结果。

可选地，所述对所述目标单细胞亚群的特征基因进行回归分析，获得所述单细胞组的聚类结果之后，还包括：

根据所述聚类结果和所述单细胞总数对所述单细胞转录组进行细胞分类，确定所述单细胞转录组的表达基因类型，所述表达基因类型包括良性基因群、中性基因群以及恶性基因群；

基于所述表达基因类型，利用欧式距离聚类算法对所述单细胞转录组进行聚类分群，确定主基因簇；

排除所述主基因簇中存在恶性基因群的细胞，确定所述单细胞转录组中的良性基因群和/或中性基因群的细胞。

此外，为实现上述目的，本发明还提出一种基于测序数据的细胞聚类装置，所述装置包括：

细胞分离模块，用于对单细胞组进行分离，获得所述单细胞组对应的单细胞总数；

转录扩增模块，用于基于所述单细胞总数，将分离的每个单细胞进行转录扩增，获得单细胞转录组；

预处理模块，用于将所述单细胞转录组测序得到的多个单细胞的测序数据集进行预处理，获得所述单细胞转录组对应的分析数据集；

聚类分析模块，用于通过预设单细胞数据聚类模型对所述分析数据集进行聚类分析，获得所述单细胞组的聚类结果，所述预设单细胞数据聚类模型通过自缩放注意力机制对所述分析数据集半监督学习。

此外，为实现上述目的，本发明还提出一种基于测序数据的细胞聚类设备，所述设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于测序数据的细胞聚类程序，所述基于测序数据的细胞聚类程序配置为实现如上文所述的基于测序数据的细胞聚类方法的步骤。

此外，为实现上述目的，本发明还提出一种存储介质，所述存储介质上存储有基于测序数据的细胞聚类程序，所述基于测序数据的细胞聚类程序被处理器执行时实现如上文所述的基于测序数据的细胞聚类方法的步骤。

本发明首先对单细胞组进行分离，获得所述单细胞组对应的单细胞总数；然后基于所述单细胞总数，将分离的每个单细胞进行转录扩增，获得单细胞转录组；接着将所述单细胞转录组测序得到的多个单细胞的测序数据集进行预处理，获得所述单细胞转录组对应的分析数据集；最后通过预设单细胞数据聚类模型对所述分析数据集进行聚类分析，获得所述单细胞组的聚类结果，所述预设单细胞数据聚类模型通过自缩放注意力机制对所述分析数据集半监督学习。由于本发明对单细胞转录组进行测序得到测序数据集，通过预设单细胞数据聚类模型的自缩放注意力机制对测序数据集进行聚类分析，避免了传统的单细胞聚类结果存在边界不清晰的情况，可明确细胞的聚类，能够对细胞进行很好的区分，从而实现了更准确的细胞聚类效果。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的基于测序数据的细胞聚类设备的结构示意图；

图2为本发明基于测序数据的细胞聚类方法第一实施例的流程示意图；

图3为本发明基于测序数据的细胞聚类方法第一实施例中预设单细胞数据聚类模型的模型架构图；

图4为本发明基于测序数据的细胞聚类方法第二实施例的流程示意图；

图5为本发明基于测序数据的细胞聚类装置第一实施例的结构框图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

参照图1，图1为本发明实施例方案涉及的硬件运行环境的基于测序数据的细胞聚类设备的结构示意图。

如图1所示，该基于测序数据的细胞聚类设备可以包括：处理器1001，例如中央处理器（Central Processing Unit，CPU），通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏（Display）、输入单元比如键盘（Keyboard），可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口（如无线保真（Wireless-Fidelity，Wi-Fi）接口）。存储器1005可以是高速的随机存取存储器（RandomAccess Memory，RAM），也可以是稳定的非易失性存储器（Non-Volatile Memory，NVM），例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的结构并不构成对基于测序数据的细胞聚类设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及基于测序数据的细胞聚类程序。

在图1所示的基于测序数据的细胞聚类设备中，网络接口1004主要用于与网络服务器进行数据通信；用户接口1003主要用于与用户进行数据交互；本发明基于测序数据的细胞聚类设备中的处理器1001、存储器1005可以设置在基于测序数据的细胞聚类设备中，所述基于测序数据的细胞聚类设备通过处理器1001调用存储器1005中存储的基于测序数据的细胞聚类程序，并执行本发明实施例提供的基于测序数据的细胞聚类方法。

本发明实施例提供了一种基于测序数据的细胞聚类方法，参照图2，图2为本发明基于测序数据的细胞聚类方法第一实施例的流程示意图。

本实施例中，所述基于测序数据的细胞聚类方法包括以下步骤：

步骤S10：对单细胞组进行分离，获得所述单细胞组对应的单细胞总数。

需要说明的是，本实施例方法的执行主体可以是具有细胞测序、转录扩增以及细胞聚类功能的电子设备，例如流式细胞仪、PCR仪等，还可以是能够实现相同或相似功能的其他电子设备，例如上述基于测序数据的细胞聚类设备，本实施例对此不加以限制。此处以上述基于测序数据的细胞聚类设备（简称聚类设备）对本实施例和下述各实施例进行具体说明。

可理解的是，单细胞组是包含大批量单细胞的细胞群，可对单个细胞的分子组成和功能进行全面分析，以揭示细胞群体内的细胞异质性和细胞间的功能差异。

应理解的是，单细胞总数是单细胞组中的细胞数量。

在具体实现中，可先对单细胞组中包含的大批量单细胞进行分离，例如通过酶消化、机械分散、离心等方式将其分散为单个细胞的状态，以确定单细胞组中的单细胞总数。

步骤S20：基于所述单细胞总数，将分离的每个单细胞进行转录扩增，获得单细胞转录组。

需要说明的是，单细胞转录组是利用高通量测序技术和单细胞分离技术对单个细胞中的全部转录物进行转录扩增后获得的细胞群。

其中，转录扩增的方式包括线性扩增方式、指数级扩增方式，或采用PCR（聚合酶链式反应）或其他扩增方法，本实施例对此不加以限制。通过引物特异性地选择扩增目标序列扩大基因表达差异。

可理解的是，将分离的每个单细胞进行转录扩增是对从单个细胞中提取的RNA进行逆转录和扩增的过程。

在具体实现中，首先可将单个细胞的RNA提取出来，提取RNA后，可对RNA进行逆转录，将其转化为对应的cDNA（互补DNA），接着，对逆转录得到的cDNA进行扩增，即将其复制成多个拷贝。通过转录扩增可增加从单细胞中得到的RNA/cDNA数量，以充分满足后续测序分析的需求，从而保证后续数据分析的准确性和可靠性。

步骤S30：将所述单细胞转录组测序得到的多个单细胞的测序数据集进行预处理，获得所述单细胞转录组对应的分析数据集。

需要说明的是，测序数据集是通过单细胞转录组测序实验，获得的包含了单个细胞的基因表达数据的集合。这些数据集可由高通量测序技术（如RNA-seq）获得，并且每个数据集都对应了一个个体样本中的多个单细胞。通过高通量测序技术，可从每个单细胞中独立提取RNA、进行逆转录、扩增和测序，得到多个单细胞的测序数据集。

其中，高通量测序技术是一种用于快速、高效地测定DNA或RNA序列的先进技术。可大规模地测序细胞中DNA或RNA样本，以获取大量的序列信息。通过高通量测序技术可通过对DNA或RNA的碱基顺序进行大规模的并行测序，产生大量的短序列读取（reads），以获得大量的DNA或RNA序列数据，用于本实施例的细胞质量分析。

可理解的是，预处理可包括对不符合指标的测序数据、以及可疑的单细胞的测序数据进行筛选、过滤等操作，以降低数据冗余，提高分析的速度。

在具体实现中，聚类设备可通过高通量测序技术，从每个单细胞中独立提取RNA、进行逆转录、扩增和测序，得到多个单细胞的测序数据集。然后将测序数据集进行预处理，例如对不符合指标的测序数据、以及可疑的单细胞的测序数据进行筛选、过滤等操作，以降低数据冗余，提高分析的速度，最后获得所述单细胞转录组对应的分析数据集。

步骤S40：通过预设单细胞数据聚类模型对所述分析数据集进行聚类分析，获得所述单细胞组的聚类结果，所述预设单细胞数据聚类模型通过自缩放注意力机制对所述分析数据集进行半监督学习。

需要说明的是，预设单细胞数据聚类模型可以基于变分自编码器（VariationalAutoencoders，VAE）进行构建，VAE为一种生成模型，可通过预先学习单细胞转录组的测序数据的潜在表式来实现数据的整合和分析。VAE中可包含编码器结构和解码器结构，能够通过编码器将输入数据映射到潜在空间，并通过解码器将潜在向量映射回输入数据的原始空间，基于特征分布实现数据整合分析，以实现单细胞数据聚类。

可理解的是，自缩放注意力机制能够允许测序数据的模态特征中每个位置与所有其他位置进行注意力计算，同时还可以引入缩放因子以调节注意力权重的幅度。而由于本实施例中测序数据可以为不同模态的数据的组合，因此上述预设单细胞数据聚类模型通过自缩放注意力机制能够对不同模态的测序数据进行基于注意力权重的适应性融合，得到一个全局特征。这个全局特征代表了单个细胞的细胞状态的低维表示。

可理解的是，通过上述自缩放注意力机制，可对输入模型的分析数据集进行有效的特征提取和细胞状态建模，能够对不同模态的信息进行编码融合，得到低维表示的全局特征，有利于为后续任务提供更有效的特征表示。

在具体实现中，聚类设备可通过预设单细胞数据聚类模型的自缩放注意力机制，对输入模型的分析数据集进行有效的特征提取和细胞状态建模，以实现对所述分析数据集的聚类分析，获得所述单细胞组的聚类结果。

进一步地，本实施例中所述预设单细胞数据聚类模型包括自缩放注意力模块、模态编码模块、图编码模块、混合解码模块以及判别器模块，所述判别器模块设置在所述自缩放注意力模块与所述混合解码模块之间；所述自缩放注意力模块利用自缩放注意力机制进行特征映射。

需要说明的是，模态编码模块为VAE架构中的编码器结构，由于单个细胞中组学数据包含多个模态单元，因此可基于不同的模态单元分别设置对应的编码器。

可理解的是，图编码模块可为图编码器，该图编码器可对具有先验模态知识的指导图进行图编码征。

需要说明的是，单细胞测序技术，包括scRNA-seq1和scATAC-seq2，可对每个细胞的不同细胞特性进行高分辨率测量。到目前为止，已建立了许多平台来同时测量一个单一细胞的多种模式。例如，10X基因组学多组学3测量与开放染色质区域相关的DNA片段一起的RNA表达；CITE-seq4共同捕获转录组和表位等。这些技术的出现为研究细胞身份、细胞-细胞相互作用和细胞发育动力学的生物系统创造了镜片。这些进展也导致了数据的指数级增长，许多数据包含了注释良好的单元格状态，可作为分析的一部分进行集成。因此，数据集成是整合和利用这些丰富资源的有效手段。

然而，在分析和计算方法中实现单元状态信息仍然存在挑战。首先，由于实验环境、个体、组织或物种的差异，数据通常在分析中显示出批效应。此外，这些数据可能具有来自不同测序技术的不匹配的模式，如分别由10X基因组学和CITE-seq获得的数据。在这种情况下，数据以网格结构（批处理、模态）的形式呈现，其中可用的数据集可以是网格元素的任何子集。因为集成策略需要考虑缺失的模式和批处理效应，同时还要处理复杂的噪声和偏差。虽然可通过基于矩阵分解的方法使用共享的矩阵因子作为单元格或特征表示，将多种模态投射到一个低维的嵌入空间上进行集成；或基于深度学习的方法，如科博尔特，利用神经网络进行变分贝叶斯推理，以获得全局表示。但是，这些方法在许多情况下都很难使用。基于矩阵分解和基于流形学习的方法往往具有较高的计算复杂度，因此使得处理大规模数据集变得困难。

在此，本发明实施例提出了一种镶嵌自缩放注意力机制的预设单细胞数据聚类模型，这是一种用于所有可能的镶嵌集成场景的深度生成模型。可将细胞状态建模为通过变分自编码器学习到的低维细胞嵌入，通过使用全新的自缩放注意机制，模型将数据的组合映射到公共嵌入空间。当数据中存在高质量的单元注释时，模型利用这些数据进行半监督学习，直接执行单元标记任务，同时进一步改进单元嵌入。模型在聚类等下游任务中实现了更高的准确性、鲁棒性和可伸缩性。

为便于理解，参考图3，图3为本发明基于测序数据的细胞聚类方法第一实施例中预设单细胞数据聚类模型的模型架构图。

如图3所示，图编码器模块中的编码器（Encoder）对各个单细胞（如图，细胞1、细胞2等）的测序数据（X_n）进行特征提取，获得对应的模态特征；再在自缩放注意力模块中进行基于注意力的特征融合（Attention Fusion）得到全局特征Z_n，并通过由离散变量C_n和连续变量U_n组成混合分布进行参数化后输入至判别器模块中由判别器（Discriminator）进行不同批次之间的分布协调，获得批次分布信息S_n，其中，该全局特征可通过一个混合分布进行参数化，该混合分布可由离散变量C_n和连续变量U_n组成；离散变量C_n可表示不同的细胞状态类别，而连续变量U_n则可表示细胞状态类别的变化程度或其他相关信息。与此同时，通过图编码模块中的图编码器（graph encoder）将具有先验知识的指导图/>进行图编码，转化得到特征向量即获得先验特征V。还需说明的是该图编码器对应有图解码器（graphdecoder），最后由混合解码模块中的混合解码器（Hybrid Decoder）将全局特征/>、批次特征分布信息/>以及先验特征V进行映射并获得生成各单细胞的特征的分布情况，以便于后续进一步地根据该特征分布实现测序数据的数据重构，在低维空间实现测序数据特征的聚类。

本实施例可先对单细胞组中包含的大批量单细胞进行分离，例如通过酶消化、机械分散、离心等方式将其分散为单个细胞的状态，以确定单细胞组中的单细胞总数。然后可将单个细胞的RNA提取出来，提取RNA后，可对RNA进行逆转录，将其转化为对应的cDNA（互补DNA），接着，对逆转录得到的cDNA进行扩增，即将其复制成多个拷贝。通过转录扩增可增加从单细胞中得到的RNA/cDNA数量，以充分满足后续测序分析的需求，从而保证后续数据分析的准确性和可靠性。聚类设备接着可通过高通量测序技术，从每个单细胞中独立提取RNA、进行逆转录、扩增和测序，得到多个单细胞的测序数据集。然后将测序数据集进行预处理，例如对不符合指标的测序数据、以及可疑的单细胞的测序数据进行筛选、过滤等操作，以降低数据冗余，提高分析的速度，最后获得所述单细胞转录组对应的分析数据集。最后通过预设单细胞数据聚类模型的自缩放注意力机制，对输入模型的分析数据集进行有效的特征提取和细胞状态建模，以实现对所述分析数据集的聚类分析，将高维的细胞测序数据映射到较低维的空间，尽量保留数据的特征，获得聚类结果，以更好地揭示细胞之间的差异和相似性。由于本实施例对单细胞转录组进行测序得到测序数据集，通过预设单细胞数据聚类模型的自缩放注意力机制对测序数据集进行聚类分析，避免了传统的单细胞聚类结果存在边界不清晰的情况，可明确细胞的聚类，能够对细胞进行很好的区分，从而实现了更准确的细胞聚类效果。

参考图4，图4为本发明基于测序数据的细胞聚类方法第二实施例的流程示意图。

基于上述第一实施例，在本实施例中，所述步骤S30包括：

步骤S31：对所述单细胞转录组进行测序，获得所述单细胞转录组的多个单细胞的测序数据集。

在具体实现中，可通过高通量测序技术大规模地测序细胞中DNA或RNA样本，以获得大量的DNA或RNA序列数据，用于本实施例的细胞聚类分析。

步骤S32：通过格拉布斯检验法对所述测序数据集进行过滤，并将过滤后所剩余的测序数据作为分析数据集。

需要说明的是，格拉布斯检验法是用于检测测序数据集中是否存在异常值（离群值）的统计方法。具体的，当测序数据集中，如果存在个别数据偏离平均值很远，则将这个数据称作“可疑值”，通过使用格拉布斯检验方法能将“可疑值”从此组测量数据中剔除而不参与平均值的计算。此时，该“可疑值”也称作“异常值/粗大误差/叛离群值”。使用格拉布斯检验方法对每个细胞检出基因数量进行检验，迭代剔除异常细胞，以达到细胞过滤的目的，以避免测序数据集中离群值的存在对数据分析造成的不良影响。

在具体实现中，聚类设备可通过高通量测序技术大规模地测序细胞中DNA或RNA样本，以获得大量的DNA或RNA序列数据，获得所述单细胞转录组的多个单细胞的测序数据集。然后通过格拉布斯检验法对所述测序数据集进行检验，迭代剔除异常细胞，以达到细胞过滤的目的，以避免测序数据集中离群值的存在对数据分析造成的不良影响，并将过滤后所剩余的测序数据作为分析数据集。

进一步地，本实施例中在步骤S32包括：基于所述测序数据集，确定每个单细胞的线粒体基因的表达比例和检出数量；根据所述表达比例和所述检出数量筛选出未在预设指标内的测序数据；通过格拉布斯检验法将所述测序数据集中可疑的单细胞的测序数据进行过滤；基于所述未在预设指标内的测序数据和所述可疑的单细胞的测序数据，将所剩余的测序数据作为分析数据集。

需要说明的是，线粒体基因的表达比例是在细胞中线粒体基因相对于全基因组的表达水平。可通过测量线粒体基因的转录水平来评估，例如实时荧光定量PCR（qPCR）或RNA测序技术，本实施例对此不加以限制。

检出数量是检测到的线粒体DNA的数量。通过检测线粒体DNA的数量，以评估线粒体的数量变化和线粒体DNA的复制情况，从而了解线粒体功能的状态和可能存在的异常。

可理解的是，预设指标包括设置线粒体基因的表达比例范围，例如优设为10～20范围内，以避免线粒体基因过高而出现的线粒体基因细胞群，从而得到更可靠的单细胞转录组测序数据。

在具体实现中，聚类设备可基于所述测序数据集进行质量统计与控制。首先可确定每个单细胞的线粒体基因的表达比例和检出数量；根据所述表达比例和所述检出数量筛选出未在预设指标内的测序数据；以避免线粒体基因过高而出现的线粒体基因细胞群，从而得到更可靠的单细胞转录组测序数据。然后通过格拉布斯检验法将所述测序数据集中可疑的单细胞的测序数据进行过滤。最后基于所述未在预设指标内的测序数据和所述可疑的单细胞的测序数据，将所剩余的测序数据作为分析数据集。从而得到更可靠的单分析数据集。

进一步地，本实施例中在步骤S40包括：通过预设单细胞数据聚类模型对所述分析数据集进行初始分群聚类，获得所述分析数据集的亚群分类结果；对所述亚群分类结果进行显著差异基因筛选分析，确定目标单细胞亚群；对所述目标单细胞亚群的特征基因进行回归分析，获得所述单细胞组的聚类结果。

需要说明的是，亚群分类结果是将分析数据集中的一组细胞数据按照不同亚群调整参数，并根据不同亚群调整参数下对应的分群变化进行分类，将相似的细胞划分到同一个亚群中获得的分类结果。通过对这些分析数据集进行分析处理，可将数据对应的细胞按照表达模式、功能状态、亚细胞结构等方面的特征进行分类。

具体的，显著差异基因筛选分析过程可为：通过对细胞亚群之间的基因进行差异显著性检验，并结合单细胞亚群间平均基因表达量的差值倍数，以进行显著差异基因的筛选。

具体的，回归分析过程可为：可通过对目标单细胞亚群的特征基因数据归一化处理，例如可使用优化最小-最大归一化算法对特征基因数据进行进一步优化，达到观测值类别内距离更近，类别间距离更加稀疏，从而优化类群的判别，获得聚类结果。

在具体实现中，聚类设备可对所述分析数据集进行初始分群聚类，按照不同亚群调整参数，并根据不同亚群调整参数下对应的分群变化进行分类，获得所述分析数据集的亚群分类结果。然后对所述亚群分类结果进行显著差异基因筛选分析，例如结合单细胞亚群间平均基因表达量的差值倍数，以进行显著差异基因的筛选，确定目标单细胞亚群。最后对所述目标单细胞亚群的特征基因进行回归分析，例如使用优化最小-最大归一化算法对特征基因数据进行进一步优化，达到观测值类别内距离更近，类别间距离更加稀疏，从而优化类群的判别，获得聚类结果。

进一步地，本实施例中所述通过预设单细胞数据聚类模型对所述分析数据集进行初始分群聚类，获得所述分析数据集的亚群分类结果，还包括：通过预设单细胞数据聚类模型对所述分析数据集进行预处理，获得预处理数据；利用主成分分析法对所述预处理数据进行降维处理，获得降维数据；基于图算法和所述降维数据对所述单细胞转录组进行初始分群聚类，获得所述单细胞转录组的亚群分类结果。

可理解的是，主成分分析法(Principal Components Analysis，PCA)是一种运用线性代数的知识来进行数据降维的方法，它将预处理数据中多个变量转换为少数几个不相关的综合变量来比较全面地反映整个数据集。通过使用主成分分析法对所述预处理数据进行降维处理，可降低计算负担，最大化保留特征信息，并且提升了计算速率。

应理解的是，图算法是一种用于解决图结构（由节点和边组成的网络）上的问题的算法。由于单细胞转录组测序数据一般是高维度数据，而高维度数据大多难以在二维空间上进行展示，故可将高维空间数据降维到二维空间进行可视化，构建聚类关系图。然后基于图算法对聚类关系图进行细胞群聚类优化以得到最终的细胞分群聚类结果。

在具体实现中，聚类设备可通过预设单细胞数据聚类模型对所述分析数据集进行放缩处理以减轻计算负担，获得预处理数据。然后利用主成分分析法对所述预处理数据进行降维处理，可降低计算负担，最大化保留特征信息，获得降维数据，最后可基于图算法和所述降维数据对所述单细胞转录组进行初始分群聚类，获得所述单细胞转录组的亚群分类结果。

进一步地，本实施例中在步骤所述对所述目标单细胞亚群的特征基因进行回归分析，获得所述单细胞组的聚类结果之后，还包括：

根据所述聚类结果和所述单细胞总数对所述单细胞转录组进行细胞分类，确定所述单细胞转录组的表达基因类型，所述表达基因类型包括良性基因群、中性基因群以及恶性基因群；基于所述表达基因类型，利用欧式距离聚类算法对所述单细胞转录组进行聚类分群，确定主基因簇；排除所述主基因簇中存在恶性基因群的细胞，确定所述单细胞转录组中的良性基因群和/或中性基因群的细胞。

需要说明的是，良性基因群是一组在正常生理状态下发挥正常功能的基因，这些基因没有异常的基因突变或异常表达，对维持生命和身体健康起着积极的作用。

可理解的是，中性基因群指在基因组中存在，但在正常生理状态下对个体没有明显的影响或功能。这些基因不会导致疾病、异常表型或其他显著的生理变化。

应理解的是，恶性基因群指一组与疾病相关或导致疾病的基因。这些基因可能具有突变、异常表达或其他功能异常，导致细胞的异常增殖、恶性转化、组织损伤和疾病发展。

需要说明的是，欧式距离聚类算法是一种于将数据集中的单细胞转录组划分成不同的组别（簇）的聚类方法。在欧式距离聚类算法中，单细胞转录组的细胞被分配到最靠近的簇中心所代表的簇，获得主基因簇，以最小化簇内样本间的欧式距离。

在具体实现中，聚类设备可根据所述聚类结果和所述单细胞总数对所述单细胞转录组进行细胞分类，以确定所述单细胞转录组的表达基因类型，包括良性基因群、中性基因群以及恶性基因群。然后基于所述表达基因类型，利用欧式距离聚类算法对所述单细胞转录组进行分群聚类，将单细胞转录组的细胞被分配到最靠近的簇中心所代表的簇，获得主基因簇。最后排除所述主基因簇中存在恶性基因群的细胞，获得所述单细胞转录组中的良性基因群和/或中性基因群的细胞。

本实施例聚类设备可通过高通量测序技术大规模地测序细胞中DNA或RNA样本，以获得大量的DNA或RNA序列数据，获得所述单细胞转录组的多个单细胞的测序数据集。然后通过格拉布斯检验法对所述测序数据集进行检验，迭代剔除异常细胞，以达到细胞过滤的目的，以避免测序数据集中离群值的存在对数据分析造成的不良影响，并将过滤后所剩余的测序数据作为分析数据集。进一步地，聚类设备还可基于所述测序数据集进行质量统计与控制。首先可确定每个单细胞的线粒体基因的表达比例和检出数量；根据所述表达比例和所述检出数量筛选出未在预设指标内的测序数据；以避免线粒体基因过高而出现的线粒体基因细胞群，从而得到更可靠的单细胞转录组测序数据。然后通过格拉布斯检验法将所述测序数据集中可疑的单细胞的测序数据进行过滤。最后基于所述未在预设指标内的测序数据和所述可疑的单细胞的测序数据，将所剩余的测序数据作为分析数据集。从而得到更可靠的单分析数据集。更进一步地，聚类设备还可对所述分析数据集进行初始分群聚类，按照不同亚群调整参数，并根据不同亚群调整参数下对应的分群变化进行分类，获得所述分析数据集的亚群分类结果。然后对所述亚群分类结果进行显著差异基因筛选分析，例如结合单细胞亚群间平均基因表达量的差值倍数，以进行显著差异基因的筛选，确定目标单细胞亚群。最后对所述目标单细胞亚群的特征基因进行回归分析，例如使用优化最小-最大归一化算法对特征基因数据进行进一步优化，达到观测值类别内距离更近，类别间距离更加稀疏，从而优化类群的判别，获得聚类结果。

此外，本发明实施例还提出一种存储介质，所述存储介质上存储有基于测序数据的细胞聚类程序，所述基于测序数据的细胞聚类程序被处理器执行时实现如上文所述的基于测序数据的细胞聚类方法的步骤。

参照图5，图5为本发明基于测序数据的细胞聚类装置第一实施例的结构框图。

如图5所示，本发明实施例提出的基于测序数据的细胞聚类装置包括：

细胞分离模块501，用于对单细胞组进行分离，获得所述单细胞组对应的单细胞总数；

转录扩增模块502，用于基于所述单细胞总数，将分离的每个单细胞进行转录扩增，获得单细胞转录组；

预处理模块503，用于将所述单细胞转录组测序得到的多个单细胞的测序数据集进行预处理，获得所述单细胞转录组对应的分析数据集；

聚类分析模块504，用于通过预设单细胞数据聚类模型对所述分析数据集进行聚类分析，获得所述单细胞组的聚类结果，所述预设单细胞数据聚类模型通过自缩放注意力机制对所述分析数据集进行半监督学习。

基于本发明上述基于测序数据的细胞聚类装置第一实施例，提出本发明基于测序数据的细胞聚类装置的第二实施例。

在本实施例中，预设单细胞数据聚类模型包括自缩放注意力模块、模态编码模块、图编码模块、混合解码模块以及判别器模块，所述判别器模块设置在所述自缩放注意力模块与所述混合解码模块之间；所述自缩放注意力模块利用自缩放注意力机制进行特征映射。

进一步地，所述预处理模块503，还用于对所述单细胞转录组进行测序，获得所述单细胞转录组的多个单细胞的测序数据集；通过格拉布斯检验法对所述测序数据集进行过滤，并将过滤后所剩余的测序数据作为分析数据集。

进一步地，所述预处理模块503，还用于基于所述测序数据集，确定每个单细胞的线粒体基因的表达比例和检出数量；根据所述表达比例和所述检出数量筛选出未在预设指标内的测序数据；通过格拉布斯检验法将所述测序数据集中可疑的单细胞的测序数据进行过滤；基于所述未在预设指标内的测序数据和所述可疑的单细胞的测序数据，将所剩余的测序数据作为分析数据集。

进一步地，所述聚类分析模块504，还用于通过预设单细胞数据聚类模型对所述分析数据集进行初始分群聚类，获得所述分析数据集的亚群分类结果；对所述亚群分类结果进行显著差异基因筛选分析，确定目标单细胞亚群；对所述目标单细胞亚群的特征基因进行回归分析，获得所述单细胞组的聚类结果。

进一步地，所述聚类分析模块504，还用于通过预设单细胞数据聚类模型对所述分析数据集进行预处理，获得预处理数据；利用主成分分析法对所述预处理数据进行降维处理，获得降维数据；基于图算法和所述降维数据对所述单细胞转录组进行初始分群聚类，获得所述单细胞转录组的亚群分类结果。

进一步地，所述基于测序数据的细胞聚类装置还包括细胞聚类模块505，用于根据所述聚类结果和所述单细胞总数对所述单细胞转录组进行细胞分类，确定所述单细胞转录组的表达基因类型，所述表达基因类型包括良性基因群、中性基因群以及恶性基因群；基于所述表达基因类型，利用欧式距离聚类算法对所述单细胞转录组进行聚类分群，确定主基因簇；排除所述主基因簇中存在恶性基因群的细胞，确定所述单细胞转录组中的良性基因群和/或中性基因群的细胞。

本发明基于测序数据的细胞聚类装置的其他实施例或具体实现方式可参照上述各方法实施例，此处不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质（如只读存储器/随机存取存储器、磁碟、光盘）中，包括若干指令用以使得一台终端设备（可以是手机，计算机，服务器，或者网络设备等）执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于测序数据的细胞聚类方法，其特征在于，所述基于测序数据的细胞聚类方法包括：

通过预设单细胞数据聚类模型对所述分析数据集进行聚类分析，获得所述单细胞组的聚类结果，所述预设单细胞数据聚类模型通过自缩放注意力机制对所述分析数据集半监督学习；

其中，所述预设单细胞数据聚类模型包括自缩放注意力模块、模态编码模块、图编码模块、混合解码模块以及判别器模块，所述判别器模块设置在所述自缩放注意力模块与所述混合解码模块之间；所述自缩放注意力模块利用自缩放注意力机制进行特征映射；图编码模块中的编码器用于对各个单细胞的测序数据进行特征提取，获得对应的模态特征；自缩放注意力模块用于对所述模态特征进行基于注意力的特征融合得到全局特征，并通过由离散变量和连续变量组成混合分布进行参数化后输入至判别器模块中，由判别器进行不同批次之间的分布协调，获得批次分布信息，其中，离散变量表示不同的细胞状态类别，连续变量表示细胞状态类别的变化程度；通过图编码模块中的图编码器将具有先验知识的指导图进行图编码，转化得到先验特征；由混合解码模块中的混合解码器将所述全局特征、所述批次分布信息以及所述先验特征进行映射，获得各个单细胞的特征分布情况；

其中，所述通过预设单细胞数据聚类模型对所述分析数据集进行聚类分析，获得所述单细胞组的聚类结果，包括：通过预设单细胞数据聚类模型对所述分析数据集进行初始分群聚类，获得所述分析数据集的亚群分类结果；根据所述亚群分类结果对细胞亚群之间的基因进行差异显著性检验，并结合单细胞亚群间平均基因表达量的差值倍数，进行显著差异基因的筛选，确定目标单细胞亚群；通过最小-最大归一化算法对所述目标单细胞亚群的特征基因数据归一化处理，获得所述单细胞组的聚类结果。

2.如权利要求1所述的基于测序数据的细胞聚类方法，其特征在于，所述将所述单细胞转录组测序得到的多个单细胞的测序数据集进行预处理，获得所述单细胞转录组对应的分析数据集，包括：

3.如权利要求2所述的基于测序数据的细胞聚类方法，其特征在于，所述通过格拉布斯检验法对所述测序数据集进行过滤，并将过滤后所剩余的测序数据作为分析数据集，包括：

4.如权利要求3所述的基于测序数据的细胞聚类方法，其特征在于，所述通过预设单细胞数据聚类模型对所述分析数据集进行初始分群聚类，获得所述分析数据集的亚群分类结果，还包括：

5.如权利要求4所述的基于测序数据的细胞聚类方法，其特征在于，所述通过最小-最大归一化算法对所述目标单细胞亚群的特征基因数据归一化处理，获得所述单细胞组的聚类结果之后，还包括：

6.一种基于测序数据的细胞聚类装置，其特征在于，所述装置应用于如权利要求1至5任一项所述的基于测序数据的细胞聚类方法，所述装置包括：

7.一种基于测序数据的细胞聚类设备，其特征在于，所述设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于测序数据的细胞聚类程序，所述基于测序数据的细胞聚类程序配置为实现如权利要求1至5中任一项所述的基于测序数据的细胞聚类方法的步骤。

8.一种存储介质，其特征在于，所述存储介质上存储有基于测序数据的细胞聚类程序，所述基于测序数据的细胞聚类程序被处理器执行时实现如权利要求1至5任一项所述的基于测序数据的细胞聚类方法的步骤。