CN116612817A

CN116612817A - 一种对多样本混合的单细胞数据混样拆分的方法

Info

Publication number: CN116612817A
Application number: CN202310581873.5A
Authority: CN
Inventors: 宋佳; 杨朝勇; 林莘蕊; 林鑫
Original assignee: Renji Hospital Shanghai Jiaotong University School of Medicine
Current assignee: Renji Hospital Shanghai Jiaotong University School of Medicine
Priority date: 2023-05-22
Filing date: 2023-05-22
Publication date: 2023-08-18

Abstract

本发明涉及一种对多样本混合的单细胞数据混样拆分的方法，属于单细胞分析技术领域。包括分别进行多样本混合的单细胞测序和各样本单独的批量线粒体测序；提取线粒体变异位点频率矩阵；筛选差异较大的高可变位点，对每个细胞与每个样本进行高可变位点频率的相关性系数计算，将每个单细胞中相关性系数值最大且大于0的对应样本作为该细胞的样本标签；通过半监督的机器学习模型，将单细胞线粒体变异位点频率矩阵中细胞间位点频率的相关性系数作为边，将每个单细胞作为点，从已知样本标签的点开始，将标签通过边向未知样本标签的点传播，直至达到模型停止条件，输出每个单细胞的预测标签。通过本发明获得的结果准确度高，计算效率高。

Description

一种对多样本混合的单细胞数据混样拆分的方法

技术领域

本发明涉及一种对多样本混合的单细胞数据混样拆分的方法，属于单细胞分析技术领域。

背景技术

近年来，单细胞转录组测序(single-cell RNA-sequencing,scRNA-seq)已被广泛应用。虽然scRNA-seq测定可以稳健地鉴定单细胞簇和遗传标记对应的细胞类型，但是不同轮次实验中的变化可以向数据集引入不期望的噪声，也称为批次效应。此外，常规scRNA-seq实验的高成本也限制了它们在分析大量样品中的应用。

为了应对这些挑战，目前已经开发了多种技术通过使用化学探针或基于基因工程的外源条形码在scRNA-seq实验中拆分来自混合样品的数据。虽然化学探针的使用可以有效地拆分基于标记的数据，但是由于需要适合于各种分析物的通用抗体，这也增加了成本和样品制备时间。另一方面，基于基因工程的外源条形码不需要任何抗体，但它们的应用仅限于细胞培养系统或模型生物，使其不适合从混合临床样品中获取各样本的单细胞数据信息。此外，创建外源条形码并将其正确对应到细胞所需的实验专业知识也阻碍了这些技术的广泛采用。

scRNA-seq数据的拆分也可以通过分析天然基因组变异来实现，部分方法依赖全基因组测序或全外显子组测序作为参考,其中，测序参考依赖的方法可以将拆分的细胞组分配到各个样本，测序参考非依赖的方法则只能将拆分的细胞分成多个组，无法还原每个细胞具体的样本来源。然而，这些方法都需要检测和分析整个基因组的单核苷酸多态性(single-nucleotide polymorphisms,SNP)以作为内源条形码来拆分细胞，因而在计算上冗长且复杂。另外，将拆分的细胞组分配给特定样品仍然需要来自各样本的全基因组测序或全外显子组测序数据，这显著地增加了检测成本。因此，本技术领域亟需一种拆分方法，其具有较高的准确度且具有显著改善的计算效率。

与核基因组中发现的SNP相似，线粒体基因组也包含许多变异。已有研究验证了线粒体基因组变异可以用作谱系分析的内源条形码。基于此，我们假设使用线粒体基因组中发现的SNP从混合样品中拆分scRNA-seq数据是可行的，因而开发了本算法，通过参考线粒体RNA中发现的SNP来拆分混合的scRNA-seq样品。

发明内容

本发明的目的是为解决如何获得一种具有较高的准确度且具有显著改善计算效率的拆分方法的技术问题。

为达到解决上述问题的目的，本发明所采取的技术方案是提供一种基于线粒体变异对多样本混合的单细胞数据混样拆分的方法，包括以下步骤：

步骤1：对需要进行多样本混合测序的样本，分别进行多样本混合的单细胞测序和各样本单独的批量线粒体测序；

步骤2：经过对测序数据质控和比对，提取单细胞和各样本的线粒体变异位点频率矩阵；

步骤3：筛选频率矩阵中差异较大的高可变位点，对每个细胞与每个样本进行高可变位点频率的相关性系数计算，将每个单细胞中相关性系数值最大且大于0的对应样本作为该细胞的样本标签；

步骤4：通过半监督的机器学习模型，将单细胞线粒体变异位点频率矩阵中细胞间位点频率的相关性系数作为边，将每个单细胞作为点，从已知样本标签的点开始，将标签通过边向未知样本标签的点传播，直至达到模型停止条件，输出每个单细胞的预测标签。

优选地，上述步骤1中的具体步骤为首先采集多个需要混合单细胞测序的样本，将每个样本待测序的单细胞分为两组，一组用于每个样本独立的批量线粒体转录组测序，另一组用于多样本混合的单细胞转录组测序。

优选地，上述步骤1中样本独立的批量线粒体转录组测序需要对每个样本单独进行，使用细胞线粒体分离试剂盒，分离单个样本的线粒体，然后使用总DNA/RNA分离试剂盒从分离的线粒体中提取和纯化RNA，随后进行用于批量线粒体转录组测序的文库制备、逆转录、扩增。

优选地，上述步骤1中多个样本混合的单细胞转录组测序需要先将细胞样本混合在一起，使用Well-Paired-Seq或其他单细胞测序平台搭建的芯片制造、条形码珠制备、测序文库制备流程，在测序仪器上对文库进行测序。

优选地，上述步骤2中对测序数据质控和比对具体为：在序列比对过程中，使用序列比对软件CellRanger或zUMIs将单细胞测序数据比对到参考基因组；使用质控软件cutadapt对批量RNA-seq数据进行质量过滤，去除包含已知人工接头序列的短读片段和超过30个连续A或T或G碱基的短读片段，使用序列比对软件STAR将每个样本的批量测序数据分别比对到线粒体参考基因组；为了提高比对质量并降低识别到变异位点的假阳性率，使用序列比对软件minimap2从获得的序列比对文件中，提取来自细胞或样本的短读片段，重新比对到参考基因组，获得单细胞与样本的重比对文件；对单细胞重比对文件，仅保留碱基质量和比对质量均高于20的比对结果；对样本重比对文件，仅保留碱基质量和比对质量均高于10的比对结果；根据比对结果，提取每个细胞或样本在线粒体各位点各碱基的测序深度，计算位点的变异频率，整合生成单细胞和样本的线粒体变异位点频率矩阵。

优选地，上述步骤3中筛选差异较大的高可变位点，具体为：针对生成的样本的线粒体变异位点频率矩阵，使用单细胞分析python包scanpy的highly_variable_genes函数，设定计算参数为flavor＝'seurat_v3'，span＝0.3，n_top_genes＝2000，将获得的线粒体变异作为高可变位点。

优选地，上述步骤3中相关性系数，具体为Pearson相关性系数。

优选地，上述步骤4中半监督的机器学习模型具体为：标签传播算法LabelPropagation Algorithm机器学习模型，模型使用的核函数为高斯核函数(rbf)，clampingfactor为0.8，迭代次数为100。

相比现有技术，本发明具有如下有益效果：

1、本发明以线粒体变异作为内源条形码，混样拆分结果准确度高；

2、本发明缩小混样拆分依赖的内源条形码数据源，显著提高计算效率；

3、本发明利用线粒体测序代替全基因组测序或全外显子组测序，降低分析成本。

附图说明

图1为本发明实施例提供的一种基于线粒体变异对多样本混合的单细胞数据混样拆分的方法的流程图。

图2为本发明一种基于线粒体变异对多样本混合的单细胞数据混样拆分的方法的计算原理图。

图3为本发明一种基于线粒体变异对多样本混合的单细胞数据混样拆分的方法的计算性能比较图。

具体实施方式

为使本发明更明显易懂，兹以优选实施例，并配合附图作详细说明如下：

本发明提供一种基于线粒体变异对多样本混合的单细胞数据混样拆分的方法：

1.对需要进行多样本混合测序的样本，分别进行多样本混合的单细胞测序和各样本单独的批量线粒体测序。

具体为：如图1步骤1样本测序。首先采集多个需要混合单细胞测序的样本，将每个样本待测序的单细胞分为两组，一组用于每个样本独立的批量线粒体转录组测序，另一于用于多样本混合的单细胞转录组测序。

其中，样本独立的批量线粒体转录组测序需要对每个样本单独进行，使用细胞线粒体分离试剂盒，分离单个样本的线粒体，然后使用总DNA/RNA分离试剂盒从分离的线粒体中提取和纯化RNA，随后进行用于批量线粒体转录组测序的文库制备、逆转录、扩增。

其中，多个样本混合的单细胞转录组测序需要首先将细胞样本混合在一起，使用Well-Paired-Seq或其他单细胞测序平台搭建的芯片制造、条形码珠制备、测序文库制备流程，在测序仪器上对文库进行测序。

2、经过测序数据质控和比对，提取单细胞和各样本的线粒体变异位点频率矩阵。

具体为：如图1步骤2序列比对、变异识别。

在序列比对过程中，使用序列比对软件CellRanger或zUMIs将单细胞测序数据比对到参考基因组；使用质控软件cutadapt对批量RNA-seq数据进行质量过滤，去除包含已知人工接头序列的短读片段和超过30个连续A或T或G碱基的短读片段，使用序列比对软件STAR将每个样本的批量测序数据分别比对到线粒体参考基因组。为了提高比对质量并降低识别到变异位点的假阳性率，使用序列比对软件minimap2将获得的序列比对文件中，提取来自细胞或样本的短读片段，重新比对到参考基因组，获得单细胞与样本的重比对文件。

对单细胞重比对文件，仅保留碱基质量和比对质量均高于20的比对结果；

对样本重比对文件，仅保留碱基质量和比对质量均高于10的比对结果。

根据比对结果，提取每个细胞或样本在线粒体各位点各碱基的测序深度，计算位点的变异频率，整合生成单细胞和样本的线粒体变异位点频率矩阵。

3、筛选样本间差异较大的高可变位点，根据单细胞与样本间高可变位点的相关性确定细胞的样本标签。

具体为：如图1步骤3单细胞-样本相关性计算。针对生成的样本的线粒体变异位点频率矩阵，使用单细胞分析python包scanpy的highly_variable_genes函数，设定计算参数为flavor＝'seurat_v3',span＝0.3,n_top_genes＝2000，将获得的线粒体变异作为高可变位点，这些高可变位点在不同样本中体现出较大差异。提取单细胞和样本变异位点频率矩阵中高可变位点所在的行。计算每个单细胞和样本对在高可变位点频率的Pearson相关性系数，对每个单细胞，将相关性系数最大且超过0的对应样本设定为该细胞的样本标签。

4、通过半监督的机器学习模型，确定其余细胞的样本标签。

具体为：如图1步骤4细胞样本标签确定。将单细胞线粒体变异位点频率矩阵中细胞间位点频率的相关性系数作为边，将每个单细胞作为点，从已知样本标签的点开始，将标签通过边向未知样本标签的点传播，使用半监督机器学习模型中的标签传播算法(LabelPropagation Algorithm)，设定核函数为高斯核函数(rbf)，clamping factor为0.8，迭代次数为100，达到模型停止条件时，输出每个单细胞的预测标签。

图3中Dataset 1-3是三个测试数据，分别包含4个样本共3,177个单细胞、3个样本共25,078个单细胞、10个样本共60,000个单细胞。每一列显示了一个混样拆分算法，第一列是本发明，第二至五列是其他算法。每行显示了一个计算性能，AUC表示计算准确度，取值范围为0-1，热图块越红、数值越高表示计算越准确；Time(h)表示计算总耗时，单位为小时，热图块越蓝、数值越小表示计算效率越高、耗时越少；MEM(G)表示计算所需内存峰值，单位为Gigabytes，热图块越蓝、数值越小表示计算所需内存越小；NA代表该算法由于内存需求过高或计算时间过长，算法自行崩溃，计算失败。

以上所述，仅为本发明的较佳实施例，并非对本发明任何形式上和实质上的限制，应当指出，对于本技术领域的普通技术人员，在不脱离本发明的前提下，还将可以做出若干改进和补充，这些改进和补充也应视为本发明的保护范围。凡熟悉本专业的技术人员，在不脱离本发明的精神和范围的情况下，当可利用以上所揭示的技术内容而做出的些许更动、修饰与演变的等同变化，均为本发明的等效实施例；同时，凡依据本发明的实质技术对上述实施例所作的任何等同变化的更动、修饰与演变，均仍属于本发明的技术方案的范围内。

Claims

1.一种基于线粒体变异对多样本混合的单细胞数据混样拆分的方法，其特征在于，包括以下步骤：

步骤3：筛选差异较大的高可变位点，对每个细胞与每个样本进行高可变位点频率的相关性系数计算，将每个单细胞中相关性系数值最大且大于0的对应样本作为该细胞的样本标签；

2.根据权利要求1所述的一种基于线粒体变异对多样本混合的单细胞数据混样拆分的方法，其特征在于，所述步骤1中的具体步骤为首先采集多个需要混合单细胞测序的样本，将每个样本待测序的单细胞分为两组，一组用于每个样本独立的批量线粒体转录组测序，另一组用于多样本混合的单细胞转录组测序。

3.根据权利要求2所述的一种基于线粒体变异对多样本混合的单细胞数据混样拆分的方法，其特征在于，所述步骤1中样本独立的批量线粒体转录组测序需要对每个样本单独进行，使用细胞线粒体分离试剂盒，分离单个样本的线粒体，然后使用总DNA/RNA分离试剂盒从分离的线粒体中提取和纯化RNA，随后进行用于批量线粒体转录组测序的文库制备、逆转录、扩增。

4.根据权利要求2所述的一种基于线粒体变异对多样本混合的单细胞数据混样拆分的方法，其特征在于，所述步骤1中多个样本混合的单细胞转录组测序需要先将细胞样本混合在一起，使用Well-Paired-Seq或其他单细胞测序平台搭建的芯片制造、条形码珠制备、测序文库制备流程，在测序仪器上对文库进行测序。

5.根据权利要求1所述的一种基于线粒体变异对多样本混合的单细胞数据混样拆分的方法，其特征在于，所述步骤2中对测序数据质控和比对具体为：在序列比对过程中，使用序列比对软件CellRanger或zUMIs将单细胞测序数据比对到参考基因组；使用质控软件cutadapt对批量RNA-seq数据进行质量过滤，去除包含已知人工接头序列的短读片段和超过30个连续A或T或G碱基的短读片段，使用序列比对软件STAR将每个样本的批量测序数据分别比对到线粒体参考基因组；使用序列比对软件minimap2从获得的序列比对文件中，提取来自细胞或样本的短读片段，重新比对到参考基因组，获得单细胞与样本的重比对文件；对单细胞重比对文件，仅保留碱基质量和比对质量均高于20的比对结果；对样本重比对文件，仅保留碱基质量和比对质量均高于10的比对结果；根据比对结果，提取每个细胞或样本在线粒体各位点各碱基的测序深度，计算位点的变异频率，整合生成单细胞和样本的线粒体变异位点频率矩阵。

6.根据权利要求1所述的一种基于线粒体变异对多样本混合的单细胞数据混样拆分的方法，其特征在于，所述步骤3中筛选差异较大的高可变位点，具体为：针对生成的样本的线粒体变异位点频率矩阵，使用单细胞分析python包scanpy的highly_variable_genes函数，设定计算参数为flavor＝'seurat_v3'，span＝0.3，n_top_genes＝2000，将获得的线粒体变异作为高可变位点。

7.根据权利要求1所述的一种基于线粒体变异对多样本混合的单细胞数据混样拆分的方法，其特征在于，所述步骤3中相关性系数，具体为Pearson相关性系数。

8.根据权利要求1所述的一种基于线粒体变异对多样本混合的单细胞数据混样拆分的方法，其特征在于，所述步骤4中半监督的机器学习模型具体为：标签传播算法LabelPropagation Algorithm机器学习模型，模型使用的核函数为高斯核函数rbf，clampingfactor为0.8，迭代次数为100。