CN116157537A - 用于从单细胞基因组学数据集中对细胞进行子采样的方法和系统 - Google Patents

用于从单细胞基因组学数据集中对细胞进行子采样的方法和系统 Download PDF

Info

Publication number
CN116157537A
CN116157537A CN202180062493.XA CN202180062493A CN116157537A CN 116157537 A CN116157537 A CN 116157537A CN 202180062493 A CN202180062493 A CN 202180062493A CN 116157537 A CN116157537 A CN 116157537A
Authority
CN
China
Prior art keywords
cell
cells
seed
genomic
neighborhood
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180062493.XA
Other languages
English (en)
Inventor
帕拉沙·达珀拉
戈兰·卡尔森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nissan Analysis Co ltd
Original Assignee
Nissan Analysis Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nissan Analysis Co ltd filed Critical Nissan Analysis Co ltd
Publication of CN116157537A publication Critical patent/CN116157537A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/20Heterogeneous data integration
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/50Compression of genetic data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • Genetics & Genomics (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本公开涉及一种从单细胞基因组学数据集中的多个细胞中提取细胞的子样品的计算机实现的方法,该方法包括以下步骤:获得以至少两个维度表示的单细胞基因组学数据集,其中关于每个细胞的信息以第一维度表示,并且关于基因组学特征的信息以第二维度表示;从该单细胞基因组学数据集生成细胞‑细胞邻域图,该细胞‑细胞邻域图提供关于该细胞的该基因组学特征的相似性的信息,其中该细胞被表示为该细胞‑细胞邻域图中的顶点;将该细胞‑细胞邻域图中的该细胞划分为种子细胞和非种子细胞;在该细胞‑细胞邻域图中,为该种子细胞分配至少一个第一奖品并且为该非种子细胞分配至少一个第二奖品;以及使用奖品收集斯坦纳树算法遍历该细胞‑细胞邻域图以获得细胞的子样品。本公开还涉及一种用于从单细胞基因组学数据集中的多个细胞中提取细胞的子样品的计算机系统。

Description

用于从单细胞基因组学数据集中对细胞进行子采样的方法和 系统
本公开涉及一种从单细胞基因组学数据集中的多个细胞中提取细胞的子样品的计算机实现的方法和系统。所公开的方法概述了允许以高存储器效率从大规模单细胞基因组学数据集对细胞进行子采样的逐步过程。
背景
单细胞DNA基因组测序涉及分离单个细胞,扩增全基因组或感兴趣的区域,构建测序库,然后应用下一代DNA测序。在哺乳动物系统中,单细胞DNA测序已广泛应用于研究正常生理和疾病。
单细胞基因组测定可用于确定基因组中核苷酸变异的存在,估计每个转录基因的RNA分子数量,识别染色质中DNA的开放区域,识别染色质上的表观遗传标记等。存在多种方法和方案来实现这一点,但它们都始终以这样的方式生成大量核苷酸序列的测序片段,即每个序列都可归因于其起源细胞。
已开发许多计算机实现的方法来处理和分析来自单细胞测序的此类序列,以便获得计数矩阵。计数矩阵通常是二维表,其中每一行包含关于每个细胞的信息,并且每一列包含关于每个基因组学特征的信息,或反之亦然。图1中示出这种二维表的示例。量化特征可以是例如每个已识别的可及区域中的切割位点的数量(在单细胞ATAC测序的情况下)、每个基因的互补DNA(cDNA)片段的数量(在单细胞RNA测序的情况下)等。
单细胞数据集的典型特征是它们包含很大程度的冗余,在某种意义上,细胞簇具有相同的细胞类型并且彼此相似。为了共同的分析目的,诸如细胞类型规范和异质性分析,单细胞数据集中的这种冗余会导致不必要的数据处理时间,并且通常需要大规模的计算基础设施。对于大型单细胞数据集或用户试图将多个单细胞数据集作为聚合进行分析的情况下,这一挑战变得更加明显。
随着单细胞基因组学朝着生成先前无法分析的量级的数据的方向发展,将有必要减少单细胞数据集。一种经常应用且直接的解决方案是从大型原始单细胞数据集中随机采样细胞。然而,此解决方案导致样品结果未达最佳,因为它通常无法以最佳方式表示单细胞数据集的流形。在其他现有的数据采样方法中,数据没有以最佳方式选择,和/或处理过程没有以有效的方式利用计算机的存储器。
因此,需要一种改进的且高效的大规模单细胞基因组学数据集去尺度化的解决方案,其计算效率高且信息损失最小。
发明内容
本公开的一个目标是提供一种能够通过选择细胞的子样品来将单细胞基因组学数据集下采样到更小的数据集的技术实施方式。优选地,该解决方案完全可嵌入易得计算设备诸如膝上型计算机中。本公开的一个目标是执行数据子采样,其保留原始单细胞基因组学数据集的原始流形。
该方法可应用于表示为二维矩阵的单细胞基因组学数据集,该二维矩阵包括被测定的每个单细胞的量化特征。如在图1的示例中可见,在第一维度上提供关于细胞(C1-Cn)的信息,例如条形码等标识,而在第二维度上表示关于每个细胞的基因组学特征(F1-Fn)的信息。如本领域技术人员将认识到的,基因组学特征本身可被认为是多维的,在这种意义上,每个基因组学特征都可被认为是它自己的一个维度。然而,在本公开的上下文中使用″第一″和″第二″维度是指表示单细胞基因组学数据集的矩阵的第一维度和第二维度。
本公开内容的第一方面涉及一种从单细胞基因组学数据集中的多个细胞中提取细胞的子样品的计算机实现的方法。该方法包括以下步骤:
-获得以至少两个维度表示的单细胞基因组学数据集,其中关于每个细胞的信息以第一维度表示并且关于基因组学特征的信息以第二维度表示;
-从该单细胞基因组学数据集生成细胞-细胞邻域图,该细胞-细胞邻域图提供关于该细胞的该基因组学特征的相似性的信息,其中该细胞被表示为该细胞-细胞邻域图中的顶点;
-将该细胞-细胞邻域图中的该细胞划分为种子细胞和非种子细胞;-在该细胞-细胞邻域图中,为该种子细胞分配至少一个第一奖品并且为该非种子细胞分配至少一个第二奖品;以及使用奖品收集斯坦纳树算法遍历该细胞-细胞邻域图以获得细胞的子样品。
该单细胞基因组学数据集可通过单细胞基因组学测序过程获得。
上述步骤的实施方式具有若干优点。该实施方式可允许具有有限计算资源和存储器资源的用户处理所有单细胞基因组学数据集,然后处理有意义的细胞子样品,或将结果转发给进一步的应用程序。该实施方式可大大减少对大型数据集的存储器需求,同时保留原始多样性和数据流形。所获得的细胞子样品可捕获原始单细胞基因组学数据集中存在的全谱信息。该解决方案可在现有工作流中使用和集成,也可作为独立模块使用。″流形″(其为单细胞基因组学领域的技术人员通常可理解的术语)可被认为是高维表面。多个自然过程生成位于高维表面(也称为流形)上的样品。单细胞基因组学数据集有几百至几十万个特征,但构成细胞状态基础的生物过程更简单,并且可以更少的维度表示。由于这种推理,流形学习在单细胞基因组学中很普遍,因为细胞可被概念化为位于未知流形上,该未知流形可使用更少的维度来表示。单细胞数据的图形表示表示流形,并且此图形上的采样类似于数据流形上的采样。
关于维度的第二维度上的基因组学特征的信息可包括量化的基因组学特征诸如注释的基因、和/或基因组学组装的坐标形式的基因组学位置、和/或已识别的可及区域中的切割位点的数量、和/或每个基因的cDNA片段的数量。该单细胞基因组学数据集可为但不限于单细胞RNA序列数据集或单细胞ATAC-Seq数据集。
该方法的步骤在下面的详细描述中进一步解释和举例说明。从该单细胞基因组学数据集生成该细胞-细胞邻域图的步骤可使用k最近邻算法来实现。将该细胞-细胞邻域图中的该细胞划分为种子细胞和非种子细胞的步骤可通过聚类和选择来完成,但不限于这些方法。将该细胞-细胞邻域图中的该细胞划分为种子细胞和非种子细胞的步骤的目的是为向该细胞-细胞邻域图中的该种子细胞和该非种子细胞分配奖品并使用奖品收集斯坦纳树算法(PCST)遍历该细胞-细胞邻域图以获得细胞的子样品的步骤准备数据。
在另一方面,本公开还涉及一种计算机系统,该计算机系统包括:
-存储器;以及
-处理单元,该处理单元被配置为执行以下步骤:
о将以至少两个维度表示的单细胞基因组学数据集加载到该存储器中,其中关于每个细胞的信息以第一维度表示,并且关于基因组学特征的信息以第二维度表示;
о从该单细胞基因组学数据集生成细胞-细胞邻域图,该细胞-细胞邻域图提供关于该细胞的该基因组学特征的相似性的信息,其中该细胞被表示为该细胞-细胞邻域图中的顶点;
о将该细胞-细胞邻域图中的该细胞划分为种子细胞和非种子细胞;
о在该细胞-细胞邻域图中,为该种子细胞分配至少一个第一奖品并且为该非种子细胞分配至少一个第二奖品;以及使用奖品收集斯坦纳树算法遍历该细胞-细胞邻域图以获得细胞的子样品。
本公开还涉及一种具有指令的计算机程序,当由计算设备或计算系统执行时,该指令使得该计算设备或计算系统执行从单细胞基因组学数据集中的多个细胞中提取细胞的子样品的当前公开方法的任何实施方案。在本上下文中的计算机程序应被广泛地解释,并包括例如在PC、单板计算机或片上系统、甚至移动电话或平板电脑上运行的计算机程序,或适于作为软件平台的一部分运行的计算机程序。
附图说明
以下将参考附图描述本发明,附图是示例性的,但不限于从单细胞基因组学数据集中的多个细胞中提取细胞的子样品的当前公开的方法和系统。
图1示出了在矩阵中以二维表示的单细胞基因组学数据集的示例。
图2示出了从单细胞基因组学数据集中的多个细胞中提取细胞的子样品的当前公开方法的一个实施方案的流程图。
图3示出了用于从单细胞基因组学数据集中的多个细胞中提取细胞的子样品的当前公开系统的一个实施方案的示意图。
图4示出了根据从单细胞基因组中的多个细胞中提取细胞的子样品的当前公开方法的细胞-细胞邻域图的示例。
图5示出了细胞-细胞邻域图的示例,其中细胞已被划分为种子细胞和非种子细胞。
图6示出了细胞-细胞邻域图的示例,其中已从单细胞基因组学数据集中的多个细胞中提取了细胞的子样品。
图7示出了包含细胞簇的系统树图的可视化。
图8示出了聚类的示例。
图9示出了在使用奖品收集斯坦纳树算法(PCST)遍历细胞-细胞邻域图之后的聚类以及所得细胞子样品的另一个示例。
图10A至图10B示出了针对多个数据大小的子采样方法使用存储器(RAM)的示例,以及执行子采样方法的时间消耗。
图11示出了子采样的多个示例的可视化。
图12示出了本方法和随机采样之间的子采样细胞的连接程度的比较。
图13示出了子采样后的簇大小。
图14示出了在子采样细胞与原始邻域中的其他子采样细胞进行的连接程度(示出非零度)方面的实施方式、随机采样和另一采样工具之间的比较。
图15示出了在子采样细胞与原始邻域中的其他子采样细胞进行的连接程度(示出非零度)方面的实施方式、随机采样和另一采样工具之间的另一比较。
具体实施方式
分离单细胞技术的最新进展以及扩增其遗传物质的方法使得探索基因组诸如单细胞的染色质、RNA和DNA成为可能。该领域被称为单细胞基因组学。与使用单个细胞的平均表达谱的基因表达水平的批量测序相比,单细胞测序为每个测量的分子保留了关于起源细胞的信息。由于细胞种群中的异质性,分析单个细胞使得有可能发现在研究大量细胞种群时未观察到的机制。单细胞测序可在分子水平上表征单个细胞。
单细胞基因组学数据可来自多种技术,包括但不限于旨在分析和量化以下各项的技术:基因表达(scRNA-Seq、SMART-Seq、sciRNA-Seq、Drop-Seq、InDrop)、染色质可及性(scATAC-Seq,sciATAC-Seq);表面(CITE-Seq、DAB-Seq);或/和细胞内蛋白质组(PEA);DNA的甲基化区域(scBS-Seq、sci-MET);DDNA结合组蛋白的修饰(CutNTag、CutNRun);或这些模态的任何组合。这些实验室方案中的大多数涉及从感兴趣的生物体组织捕获单个细胞。一旦被捕获,细胞或其提取的细胞核就会被标记上独特的条形码,使得每个分子(DNA/cDNA片段)的起源可追溯到起源细胞。如今,大多数商业仪器在微流体装置中使用油包水液滴来捕获细胞/细胞核。使用下一代测序方法,通常基于Illumina的合成测序平台中的一个平台,对条形码分子进行汇集和测序。一旦片段被测序或正在被测序,已识别的DNA核苷酸序列将保存在数字媒体中。这种数字媒体最终存储测序片段的信息。
单细胞基因组学数据集本来就很大,因为单细胞基因组学数据集可能包括数百万个细胞和大量特征。例如,单细胞ATAC-Seq数据集可具有多达500,000个特征,或甚至1,000,000个特征。由于单细胞测序技术的效率和成本效益不断提高,正在快速生成新的数据集。由于他们提供了大量的见解,这些数据集不仅在研究领域生成,而且现在越来越多地被纳入医学诊断和制药行业。然而,这些数据集的现有分析平台落后于数据生成的速度。
如单细胞DNA测序、单细胞RNA测序、单细胞ATAC测序的大规模单细胞基因组学数据集需要大型计算基础设施。对此类基础设施的要求以及随之而来的IT管理成本增加了大量成本,以便从这些数据集中获得可操作的意义。
在本公开的上下文中,术语″细胞″并非指物理细胞,而是指细胞的数字表示。例如,细胞可与经测序的条形码相关联。细胞的特征可指细胞的特定功能、性质或特性。在单细胞基因组学测序中,数据分析步骤可包括有效细胞条形码的识别和测序读段与细胞来源生物体基因组的比对。然后通过分析方法处理经比对的测序读段,分析方法的选择取决于所使用的单细胞基因组学方法的类型。例如,在单细胞RNA-Seq的情况下,比对后的第一步是进行基因量化。无论使用何种单细胞基因组学方法,这些早期分析步骤的目标都是生成矩阵或类似矩阵的数据结构,其中细胞和捕获的细胞特征形成矩阵的两个轴。在单细胞RNA-Seq数据的情况下,细胞特征矩阵可以是细胞基因或细胞转录物矩阵。在单细胞ATAC-Seq数据的情况下,细胞特征矩阵可采用细胞峰矩阵的形式。
本公开涉及一种以计算和存储器有效的方式从单细胞基因组学数据集中的多个细胞中提取细胞的子样品的方法,其中细胞子样品去除或减少冗余,并提供代表单细胞基因组学数据集的细胞子样品。
该方法可包括将单细胞基因组学数据集以适合存储器的分区加载到计算机存储器中的第一步骤。这可涉及将数据从诸如CSV(逗号分隔文件)和MTX(矩阵市场交换格式)的文本格式转换为可将数据高效地加载到分区中的存储器中的格式。基于磁盘的数据持久性格式可用于此目的。这些格式的目标是允许将矩阵的任何部分或类似数据集的矩阵加载到存储器中。此类基于磁盘的格式通过各种软件库来实现,例如HDF5、Zarr、Apache Arrow等。
如上文提供的,所获得的单细胞基因组学数据集可以至少两个维度表示,其中关于每个细胞的信息以第一维度表示,并且关于基因组学特征的信息以第二维度表示。关于第二维度中的基因组学特征的信息可包括量化的基因组学特征,诸如注释的基因,和/或基因组组装的坐标形式的基因组学位置,和/或已识别的可及区域中的切割位点的数量,和/或每个基因的cDNA片段的数量。
该方法还可包括从单细胞基因组学数据集生成细胞-细胞邻域图的步骤,该细胞-细胞邻域图提供关于细胞的基因组学特征的相似性的信息,其中细胞被表示为细胞-细胞邻域图中的顶点。此步骤可涉及执行k最近邻算法,其中识别每个细胞的k最近邻,其中如果顶点中的至少一个顶点为另一个顶点的k最近邻,则细胞被表示为顶点,并且顶点经由边连接。细胞基因组学特征的相似性可以多种方式量化。根据一个示例,两个细胞之间的相似性与图中的细胞之间的距离成反比。可使用任何合适的距离度量来计算细胞中的任何细胞对之间的距离。例如,在欧几里德度量的情况下,各自具有1到N个特征的细胞C1和另一细胞C2之间的距离计算如下:
Figure BDA0004121319830000071
角度度量(诸如余弦距离)也经常被使用,因为它们是尺度不变的。当细胞之间的值范围非常不同时(通常是由于测序深度或因为细胞是从两个或多个单独的实验中汇集而来),角度度量可能很有用。
该方法还可包括将细胞-细胞邻域图中的细胞划分为种子细胞和非种子细胞的步骤。该步骤可通过例如任何合适的聚类方法来执行。
发明人已发现,一旦细胞被划分为种子细胞和非种子细胞,使用奖品收集斯坦纳树(PCST)算法遍历细胞-细胞邻域图以获得细胞的子样品是获得有用的细胞子样品的特别有效的方式。为了成功应用PCST算法,为种子细胞和非种子细胞分配不同的奖品。存在用于分配奖品的不同方法。通常,为种子细胞分配一个高值或若干单独的高值,其中为非种子细胞分配一个低值或若干单独的低值。这些值可在零和一之间,并且高值可例如高于0.5,并且低值可例如低于0.5。
图2公开了从单细胞基因组学中的多个细胞中提取细胞的子样品的当前公开方法(1)的示例。根据该示例,方法(100)包括以下步骤:
-获得以至少两个维度表示的单细胞基因组学数据集,其中关于每个细胞的信息以第一维度表示并且关于基因组学特征的信息以第二维度表示;(101)
-从该单细胞基因组学数据集生成细胞-细胞邻域图,该细胞-细胞邻域图提供关于该细胞的该基因组学特征的相似性的信息,其中该细胞被表示为该细胞-细胞邻域图中的顶点;(102)
-将该细胞-细胞邻域图中的该细胞划分为种子细胞和非种子细胞;(103)
-在该细胞-细胞邻域图中,为该种子细胞分配至少一个第一奖品并且为该非种子细胞分配至少一个第二奖品;以及使用奖品收集斯坦纳树算法(PCST)遍历细胞-细胞邻域图以获得细胞的子样品。
(104)
下面将更详细地描述从单细胞基因组学数据集中的多个细胞中提取细胞的子样品的当前公开方法的步骤。如本领域技术人员将认识到的,并非所有步骤都是执行本发明所必需的。这些步骤中的一些步骤可以是任选的。
数据预处理
测序片段的分析过程可从将数据转化为FASTQ数据格式开始,该格式允许序列是人类可读的。可对测序片段进行测序质量控制,以便去除低质量的核苷酸或完全去除低质量片段。在一些设置中,这种质量控制被认为是任选的。然后可使用基因组学比对工具将这些质量受控的测序片段(每个片段的辅助信息,如细胞条形码或测序)与基因组/转录组或基因组部分的任何选择进行比对。这一特定步骤可以替代方式执行,例如使用伪比对策略来识别片段来源的基因组部分。一旦确定了每个片段的基因组学位置(根据精确坐标或根据基因组学实体),取决于正在访问的模态,可能存在中间步骤,诸如在单核ATAC-Seq和单细胞CUT&TAG的情况下的峰调用。可整理每个片段的条形码信息或它们的衍生基因组学信息(例如,峰)以创建细胞特征矩阵。该细胞特征矩阵以可共享的形式表示单细胞基因组学数据,可供可操作的分析使用。这种细胞特征形式的实际存储格式可为HDF5、CSV、LOOM、ZARR或任何其他列式数据存储格式。
测定的识别
一旦单细胞基因组学数据集存储在存储器中,就可执行此步骤。该方法可在第一步骤中识别数据集中存在的不同数量的测定。随着单细胞基因组学方法的进步,现在有可能对来自同一细胞的不同基因组学特征进行测序。可用于此目的的一种技术是与测序相结合的转录组和抗原表位细胞索引(CITE-Seq),其允许对基因表达(转录物丰度和多样性)以及来自相同细胞的细胞表面标志两者进行量化。因此,从单细胞基因组学数据集中的多个细胞中提取细胞的子样品的当前公开方法的一个实施方案还包括识别单细胞基因组学数据集中的测定和序列基因组学特征的步骤。
过滤掉细胞
在从单细胞基因组学数据集中的多个细胞中提取细胞的子样品的当前公开方法的一个实施方案中,在进一步步骤中过滤掉细胞。该步骤可包括过滤掉特征数量小于预定下限和/或大于预定上限的细胞,或者基于其他特性过滤掉细胞。
在其中过滤掉特征数量小于预定下限和/或大于预定上限的细胞,或者其中识别阈值以将细胞分类为具有太多特征或太少特征的示例中,该方法可基于相同的均值和样品方差来创建正态分布,并去除从分布中抽取的低于特定百分比的细胞。可以设想执行特征滤波的其他合适方式。
归一化
当前公开方法还可包括在生成细胞-细胞邻域图之前对关于基因组学特征的信息进行归一化的步骤。归一化信息的步骤可用于提供可比较的量化基因组学特征。该步骤可包括定义所应用的归一化。为了加快该过程,可在将单细胞基因组学数据集加载到存储器时应用归一化。在单细胞RNA测序(scRNA-Seq)的情况下,可使用库大小归一化方法。此归一化步骤将每个细胞的特征值除以该细胞的总值,并将所得值乘以常数标量。此归一化步骤确保单个细胞的测序深度对下游分析的影响最小。在使用测序进行转座酶可及染色质单细胞测定的情况下(scATAC-Seq),该方法可应用TF-IDF归一化(术语频率,逆文档频率)。TF值是通过将每个细胞除以其值的总和来计算的,而IDF值是通过将细胞总数除以由存在每个基因的细胞数组成的向量来计算的。TF-IDF的标量积给出归一化值。对于细胞表面标志,该方法可执行CLR(中心对数比)归一化。
特征选择
当前公开方法还可包括在生成细胞-细胞邻域图之前,通过从关于基因组学特征的信息中选择较小的特征子集来执行特征选择的步骤。该步骤可依赖于如下假设,即基因组学特征的仅一小部分可捕获细胞之间的多样性,并且许多特征彼此冗余。作为特征选择的结果,基因组学特征的一小部分将用于进一步分析。
特征选择方法的选择可取决于正使用的单细胞基因组学数据集的种类。对于scRNA-Seq数据集,可基于基因的方差进行特征选择。由于基因的方差和均值表达通常是相关的,因此可首先通过基于基因的均值表达值将基因划分为期望数量的仓来去除均值-方差趋势。选择每个仓中具有最小方差的基因,并在均值和方差之间执行逐步回归,以拟合通过来自每个仓的所选基因的曲线。所得曲线用于从每个基因中回归出残余方差,从而获得经校正的方差值。选择具有最高校正方差的基因。
对于scATAC-Seq数据集,可使用TF-IDF对值进行归一化,并选择最普遍峰(即,跨细胞具有高平均归一化值的峰)。用户可决定选择前″n″个HVG或普遍峰,其中″n″为任意数量的特征。
维数缩减
该方法还可包括在生成细胞-细胞邻域图之前对单细胞基因组学数据集进行维数缩减的步骤。可使用增量主成分分析(PCA)来执行维数缩减。
在一个实施方案中,对归一化数据进行维数缩减。维数缩减技术允许减少特征空间,这有助于放大信噪比。维数缩减也可用于减少数据冗余的目的。PCA可应用于例如单细胞RNA数据。在scATAC-Seq的情况下,当前公开方法可应用增量可更新版本的潜在语义索引技术。为进一步的步骤保留的缩减维数的选择可由用户配置。在单细胞RNA-Seq的情况下,在对数据进行PCA之前,可按特征方式缩放数据,使每个基因具有零均值和单位标准偏差。在该步骤之前,可对数据进行对数变换,也可不进行对数变换。
生成细胞-细胞邻域图
可以各种方式生成细胞-细胞邻域图。在优选的实施方案中,从单细胞基因组学数据集生成细胞-细胞邻域图的步骤包括执行k最近邻(KNN)算法。在这种算法中,创建图,其中细胞被表示为顶点。如果顶点中的至少一个顶点是另一个顶点的k最近邻,则顶点经由边连接。为了确定细胞彼此″接近″的程度,将量化的基因组特征相互比较可能很有用,优选地,其中对量化的基因组学特征进行归一化。
根据一个示例,识别每个细胞的k个最近邻,其中k为由用户提供的任何正整数。每个细胞的KNN允许创建细胞的图形数据结构。在图中,每个顶点都是一个细胞,并且这些顶点经由边连接。如果两个顶点中的至少一个顶点是另一个顶点的最近邻,则这两个顶点连接。图中的边权重与细胞之间的距离成反比。为了计算细胞之间的距离,可使用欧几里德距离或其他合适的度量。通过比较每对细胞来识别每个细胞的KNN无法扩展到大量细胞。因此,在一个实施方案中,创建细胞的索引,然后在这些细胞上查询最近邻。使用高斯核将KNN邻居之间的距离转换为连续形式。这些值被视为KNN图的边权重。存在其他可能的替代方案来计算数据的图结构,例如,可通过计算彼此为KNN的每对细胞之间的公共邻居来创建共享的最近邻图。当前公开的方法对于用来创建细胞-细胞图的方法是不可知的。在一个实施方案中,使用一种称为HNSWlib的KNN的近似版本以从单细胞基因组学中生成细胞-细胞邻域图。
图4示出了细胞-细胞邻域图(300)的示例。在该示例中,图的每个顶点(301)均为细胞(301)。顶点(301)通过边(302)连接。边302表示所连接的细胞302为k最近邻。
将细胞-细胞邻域图中的细胞划分为种子细胞和非种子细胞
将细胞-细胞邻域图中的细胞划分为种子细胞和非种子细胞的步骤可以若干种方式实现。
在优选的实施方案中,该步骤包括以下步骤:
-对该细胞-细胞邻域图中的该细胞进行聚类,以获得基本上均匀大小的细胞簇;以及
-从每个细胞簇中选择至少一个细胞并将所选择的细胞分类为种子细胞,由此将该细胞划分为种子细胞和非种子细胞。
对细胞-细胞邻域图中的细胞进行聚类的步骤可基于例如Louvain、Leiden或Paris算法。该步骤可将细胞-细胞邻域图转换为系统树图结构。对细胞-细胞邻域图中的细胞进行聚类的步骤可包括将每个簇内的细胞数量限制为最小细胞数和最大细胞数。更具体地,对细胞-细胞邻域图中的细胞进行聚类的步骤可包括将细胞-细胞邻域图转换为系统树图结构的步骤,其中每个细胞被表示为叶节点并且叶通过系统树图结构中的分支点节点彼此连接,其中对细胞-细胞邻域图中的细胞进行聚类的步骤包括将叶节点和分支点节点划分为细胞组的步骤,该组具有上界和下界。上界优选地设定为相对小的数,使得每个组仅占细胞总数的一小部分,从而导致″微聚类″,其中每个细胞组/分区都是高度同质的。上界可为小于或等于300、优选地小于或等于200、甚至更优选地小于或等于100的数。下界可为例如10。在一个示例中,下界为10并且上界为200。
聚类过程的示例描述如下:可对细胞的细胞-细胞邻域图进行聚类,以获得大小均匀的细胞簇。使用社区聚类方法对图形数据结构存在多种聚类策略。优选地,选择具有与图中存在的细胞的数量呈线性变化关系的运行时间的聚类方法。该算法可将图形结构转换为系统树图结构。在一个实施方案中,每个簇内的细胞数量可限制在预定的上界和下界内。该算法可以是一种贪婪的自底向上方法,并且因此该算法可从叶节点开始聚合。在系统树图中,每个细胞表示叶节点,并且这些叶通过分支点节点彼此连接。每个分支点节点划分为两个节点,这两个节点可以都是分支点或叶节点或这两者的组合。分支点节点将最终向上游加入根节点中。首先,基于所有细胞和根节点之间的分支点节点数对所有细胞进行排序。这些排名确定细胞作为簇聚合的候选者的次序。这背后的原因是,基于系统树图在该位置的深度,对细胞进行聚类的优先级。分支点越多表明细胞之间的细微差别越多。该算法从排名最高的节点开始,并且然后移动到该细胞的上代分支点节点,该分支点节点的另一个子节点自动包括到该簇中。此后,该算法保持移动到上游分支点,直到包括上游分支点,这将簇的大小增加到超过预定阈值,此时簇被冻结并且算法移动到排名列表中尚未包括在任何簇中的下一个叶节点(细胞)。用于停止上游遍历的另一个条件是当分支点的同胞已包括到簇中时。因此,在从单细胞基因组学数据集中的多个细胞中提取细胞的子样品的本公开方法的一个实施方案中,每个细胞被表示为叶节点并且叶通过系统树图结构中的分支点节点彼此连接,其中对细胞-细胞邻域图中的细胞进行聚类的步骤包括以下步骤:基于细胞和系统树图结构的根节点之间的分支点节点的数量对每个细胞进行排序并基于排序进行聚类。一旦所有叶节点都包括到簇中,下一个步骤是将簇合并在一起,以确保每个簇至少具有由用户配置的细胞数量。簇按照它们创建的顺序考虑,并且它们的大小小于截止值,它们与同胞分支点内的簇合并(即,它们具有最近的共同祖先的簇)。重复该合并,直到获得最小簇大小。如果同胞分支点具有多于一个簇,则在距离不大于预定阈值的条件下,考虑将与给定簇的距离最小的簇合并。这种创建系统树图和自底向上平衡聚类的聚类策略提供了在它们之间具有非常高相似性并且在图中也紧密连接的细胞簇。
另选地,对细胞-细胞邻域图中的细胞进行聚类的步骤可使用动态采样方法。这种方法也可能偏离系统树图。与上述方法类似,其目的是将每个组中的细胞缩小到细胞池,从该细胞池中可随机采样种子细胞。在一个实施方案中,对细胞-细胞邻域图中的细胞进行聚类的步骤包括以下步骤:执行第一分区,并且针对第一分区的每个分区,基于细胞与第一分区的每个分区的相互连接强度的量度来确定子分区的数量。当已确定合适数量的子分区时,可执行在第一分区的分区内执行子分区的实际步骤。在进一步的步骤中,然后可将第一分区的每个分区内的细胞转换为指示细胞之间的分层关系的系统树图结构。
将细胞-细胞邻域图中的细胞划分为种子细胞和非种子细胞的进一步示例
根据一个示例,通过为每个单独的细胞(在邻域图中称为节点)计算两个度量来识别种子细胞:n邻域度(NND)和邻域连通性(NC)。节点的度数计算为该特定节点所连接到的其他节点的总数。1-邻域度是连接到给定节点的所有节点的度的总和。因此,NND是通过在n步距离上迭代邻居的邻居来计算的,并捕获图中给定节点周围的连接密度。第二度量是邻域连通性,其捕获给定数量的连接是否在许多或几个节点之间共享。为了计算每个细胞的NC,计算节点与其所有邻居之间共享最近邻距离(Jaccard距离)的总和。因此,如果节点连接到彼此强连接的其他节点,则该节点将得到高的邻域连通性值。
对于下一个步骤,该算法使用细胞的划分。在此,计算每个细胞簇的中值NND和NC,并使用中值调整每个簇的采样率。较高的中值NND导致采样率降低,而较高的NC导致采样率降低,反之亦然。基于采样率,确定要从每个簇中采样的细胞数量。然后对每个簇进行子聚类,其中子簇的数量与要采样的细胞数量相同;然后从每个子簇中采样一个细胞。
这些采样的细胞被称为″种子″细胞。
图7示出了包含细胞簇(401)的系统树图的可视化。图7A示出了通过应用直切算法获得的簇。在该示例中,可以看出,簇(401)的大小(即,簇内的细胞数量)有变化。每个圆圈(401)表示一个细胞簇。圆圈的大小表示簇中的细胞数量。该系统树图具有根节点(403)。该系统树图具有多个分支点(404)。可以说分支点以及分支点和簇的结构提供关于簇(401)有多相似的信息。簇越相似,它们的共享分支点越近。
图7B示出了通过应用平衡切割算法获得的簇。该算法产生比直切算法更相似大小的簇。该图还示出了如何在平衡切割算法中将大簇(402)分解为较小簇(401)。
图8示出了聚类的另一个示例。图8A示出了如何将细胞划分成簇(编号1-15)的示例。细胞基于它们的簇标识进行编号。通过应用算法(在这种情况下为Paris算法),创建细胞系统树图,如图8B所示。形成簇的细胞被合并成单个节点(图8B中的编号圆圈)。圆圈的大小指示簇中的细胞数量。系统树图顶部的未标记节点是系统树图的根。
当已创建簇时,当前公开的方法可在进一步的步骤中从每个细胞簇中选择至少一个细胞并将所选择的细胞分类为种子细胞。未被选择的细胞被分类为非种子细胞。
优选地,必须从每个簇中最少选择一个细胞。可随机地或者基于某种量度(例如,细胞在簇中的中心程度)来选择细胞。种子细胞捕获细胞的异质性。捕获图拓扑对于确保捕获稀有种群内的分化轨迹和异质性可能很重要。
设置奖品
从单细胞基因组学数据集中的多个细胞中提取细胞的子样品的当前公开方法优选地包括使用PCST算法来遍历细胞-细胞邻域图以获得细胞的子样品。在执行PCST算法之前,必须将奖品分配给细胞-细胞邻域图中的种子细胞和非种子细胞。设置奖品的-种方法是为所有种子细胞分配单个第一奖品,并且为所有非种子细胞分配单个第二奖品。单个第一奖品通常高于单个第二奖品。单个第一奖品可为任意高的奖品。该值可由图中的细胞数量决定。所需的值随着图中存在的细胞数量而增加。具有极高的值通常不会对算法产生不利影响。设置奖品的唯一目标是确保在后面的步骤中考虑遍历细胞。非种子细胞可被赋予0值,这意味着遍历算法将没有包含这些细胞的动机。
在另选的实施方案中,奖品反而可针对单独的种子细胞和非种子细胞单独地配置。例如,种子细胞的奖品可设置为与其入度成比例,入度即图中给定细胞所连接的其他细胞的数量。此外,基于细胞的邻域度的概念
(即,与图中的给定细胞相邻的细胞的累积度)可以将大于0的值分配给图中的稀疏区域中的非种子细胞以鼓励流形的更平滑覆盖。
可以选择不对图的边设置惩罚或设置非常低的惩罚,这确保即使那些距离其他种子细胞较远的种子细胞也可以在图遍历期间轻松捕获。在原型中,使用1(KNN图中的边权重)作为对边的惩罚。由于边权重在0和1值范围内,因此惩罚也在这些范围内。另选地,可以选择基于邻域密度来设置边惩罚,使得在图的不同部分鼓励或阻止遍历。
图5示出了细胞-细胞邻域图(300)的示例。在该实施方案中,细胞被划分为种子细胞(303)和非种子细胞(304)。优选地,每个种子细胞(303)(图中较大的点)被分配从第一分数集中选择的第一奖品。优选地,每个非种子细胞(304)(图中的较小点)被分配从第二分数集中选择的第二奖品。细胞(303,304)之间的边(302)被分配从第三分值集中选择的惩罚。在该示例中,边的宽度将这些惩罚可视化。作为示例,边302a比边302b厚,这表明边302a具有比边302b更高的惩罚。
设置奖品的进一步示例
存在用于分配奖品的不同方法。根据一个示例,所有种子细胞都被分配恒定的奖品值。例如,可使用初始值10。每条边的边惩罚Ep然后可计算如下:
Figure BDA0004121319830000161
其中Ecm和Ebw分别为用户提供的参数、边成本乘数和边带宽,并且Ew为图中的边权重。Ecm的值越高,到达图中的远程细胞就越困难,但同时也会阻止将非种子细胞包括在下采样集中。更高的Ebw强调了边惩罚之间的差异。在一个示例中,Ecm=1且Ebw=10
一旦设置了种子细胞上的奖品和所有边上的惩罚,就可执行PCST算法,这将在下面进一步描述和举例说明。
使用奖品收集斯坦纳树算法遍历细胞-细胞邻域图
一旦设置了奖品,该方法就使用奖品收集斯坦纳树(PCST)的实施方式。向该PCST算法提供细胞-细胞邻域图以及设置的奖品。在一个实施方案中,该算法被配置为包括尽可能多的种子细胞和尽可能少的非种子细胞。在一个实施方案中,PCST开始遍历细胞-细胞邻域图,其目标是包括所有种子节点,其中包括最少可能的非种子节点。细胞-细胞图此时可能已断开连接。当数据集中存在非常离散的种群时,这是一个合理的场景。在此类情况下,可在图的每个断开连接的部件上分别执行PCST算法。因此,在当前公开方法的一个实施方案中,细胞-细胞邻域图包括断开连接的子图,其中对所有子图执行PCST算法。作为PCST图遍历的结果,得到细胞的子样品。这些节点可包括非种子节点,以确保来自细胞-细胞邻域图(或在图断开连接的情况下的子图)的细胞的子样品被连接。如上所述,细胞可表示为顶点并由边连接,其中每条边表示细胞之间的相似性的量值。在一个实施方案中,惩罚被分配给顶点之间的边,其中惩罚表示顶点的细胞之间的相异性程度。当遍历细胞-细胞邻域图时,可以考虑惩罚。在本方法的一个实施方案中,通过使用子采样细胞创建新的细胞-细胞图并应用聚类和种子识别步骤,然后进行新的PCST搜索来执行迭代子采样。用户可决定执行与获得必要的下采样大小所需要的一样多的子采样迭代。
图6示出了根据从单细胞基因组学数据集中的多个细胞中提取细胞的子样品的当前公开方法的细胞-细胞邻域图(300)的示例,其中已从单细胞基因组学数据集中的多个细胞(即图(300)中的所有细胞)中提取了细胞的子样品(303,304)。在该可视化中,实心点(303,304)表示包括在细胞的子样品中的种子细胞和非种子细胞。空点(305)表示未包括在细胞的子样品中的点。图中可见的边(302)是PCST遍历的边,以确保图中的所有细胞都是连接的。
图9示出了使用PCST算法遍历细胞-细胞邻域图之后,聚类和所得细胞子样品的另一个示例。图9A示出了使用平衡切割方法进行聚类的结果。然后在图9B中的聚结系统树图上可视化簇及其大小。图9C示出了子采样细胞作为在具有奖品集的细胞的细胞-细胞邻域图上运行PCST的结果。所有簇都在子样品中表示,即使是细胞数量较少的簇。
计算机系统
本公开还涉及一种用于从单细胞基因组学数据集中的多个细胞中提取细胞的子样品的计算机系统。该系统包括处理单元,该处理单元可包括任何合适的单处理器或多处理器中央处理单元。处理单元可使用任何合适的指令集架构来操作,诸如基于CISC和RISC的指令集结构,包括但不限于x86、ARMv6-v8、x86-64、PowerPC。该系统还包括存储器,该存储器可具有任何合适的存储器结构。通常,存储器结构将包括静态随机存取存储器(SRAM)和/或动态随机存取存储器(DRAM)形式的一个或多个随机存取存储器(RAM)。处理单元被配置为执行从单细胞基因组学数据集中的多个细胞中提取细胞的子样品的当前公开方法的任何变体。图3中示出当前公开的计算机系统(200)的一个实施方案的示意图。计算机系统(200)包括处理单元(201)和存储器(202)。将单细胞基因组学数据集(204)加载到存储器(202)中。在执行了从单细胞基因组学数据集中的多个细胞中提取细胞的子样品的方法之后,通过计算机系统以任何合适的格式递送单细胞基因组学数据集的细胞中的细胞的子样品(203)。在优选的实施方案中,处理单元被配置为执行以下步骤:
-将以至少两个维度表示的单细胞基因组学数据集加载到存储器中,其中关于每个细胞的信息以第一维度表示,并且关于基因组学特征的信息以第二维度表示;
-从该单细胞基因组学数据集生成细胞-细胞邻域图,该细胞-细胞邻域图提供关于该细胞的该基因组学特征的相似性的信息,其中该细胞被表示为该细胞-细胞邻域图中的顶点;
-将该细胞-细胞邻域图中的该细胞划分为种子细胞和非种子细胞;
-在该细胞-细胞邻域图中,为该种子细胞分配至少一个第一奖品并且为该非种子细胞分配至少一个第二奖品;以及使用奖品收集斯坦纳树算法遍历该细胞-细胞邻域图以获得细胞的子样品。
方法的实施方式的进一步示例和结果
根据实施方式的一个示例,该方法识别图中的界标点(种子细胞),然后尝试使用PCST算法(图4至图6)找到连接这些种子细胞的路径。具有近线性时间复杂度的PCST的实施方式用于在数百万个细胞上实现快速且可缩放的下采样。据发现,实施方式能够使用少于20GB的RAM对具有多达400万个细胞的数据集执行下采样(图10A)。另外,对于1百万个细胞数据集,下采样时间不到3分钟,而对于400万个细胞数据集,下采样时间不到15分钟(图10B)。四图集规模数据集的UMAP可视化表明,即使下采样至约1%的细胞,也对属于跨UMAP空间的所有簇的细胞进行了采样(图11)。
此外,为了对下采样进行量化分析,分析了子采样细胞与原始邻域图中其他子采样细胞的连接程度。零度值的高频率表明许多细胞与其他子采样细胞断开连接,并且是子采样不良的标志,表明子采样集中缺少中间细胞状态。当将本方法(称为Scarf)与来自四图集规模数据集的随机子采样细胞之间的断开连接的细胞数量进行比较时,100%的Scarf子采样细胞在所有数据集内显示非零度值,而随机采样在18.9%-26.9%的细胞中产生非零度值。(图12)。
下采样的两个主要目标是减少数据集中的冗余并保留稀有细胞的类型/状态。这两个目标可通过计算下采样后每个簇的细胞比例变化来实现。在该示例中,该实施方式能够减少来自较大簇的细胞的比例,同时增加来自较小簇的细胞的比例(图13)。每个数据集中来自最小簇的细胞比例增加了8.13至16.82倍,而来自最大簇的细胞数量减少了3.35至5.26倍。相比之下,随机聚类并未显示出超过1.5倍的较小簇的比例增加或超过1.01倍的较大簇的比例减少。因此,随机聚类对稀有簇进行采样的概率很低。例如,图集规模数据集中的最小簇在随机采样的20%(1M细胞数据集)、40%(2M细胞数据集)和20%(4M细胞数据集)(n=10)中没有采样的细胞。相比之下,无论原始簇大小如何,所有簇都使用Scarf进行采样。
图14和图15中示出了针对随机采样的实施方式与另一采样工具Geo Sketch之间的进一步比较。使用了两个对比鲜明的小规模数据集,这些数据集由不同细胞类型的10KPBMC细胞(由10X Genomics提供)或分化连续体中的3.5K胰腺细胞组成。对这些数据集的每个数据集的逐渐增加的下采样水平的可视化表明,本方法能够在整个UMAP中捕获细胞。使用本方法、GeoSketch或随机采样运行100次下采样迭代,Scarf选择的100%下采样细胞在两个数据集上都具有非零度,而GeoSketch的相同测量值分别为66.9%和75.9%,并且PBMC和胰腺细胞数据集中的随机采样分别为49.5%和70.3%(图14和图15)。
本发明的进一步细节
1.一种从单细胞基因组学数据集中的多个细胞中提取细胞的子样品的计算机实现的方法,该方法包括以下步骤:
-获得以至少两个维度表示的单细胞基因组学数据集,其中关于每个细胞的信息以第一维度表示并且关于基因组学特征的信息以第二维度表示;
-从该单细胞基因组学数据集生成细胞-细胞邻域图,该细胞-细胞邻域图提供关于该细胞的该基因组学特征的相似性的信息,其中该细胞被表示为该细胞-细胞邻域图中的顶点;
-将该细胞-细胞邻域图中的该细胞划分为种子细胞和非种子细胞;
-在该细胞-细胞邻域图中,为该种子细胞分配至少一个第一奖品并且为该非种子细胞分配至少一个第二奖品;以及使用奖品收集斯坦纳树算法遍历该细胞-细胞邻域图以获得细胞的子样品。
2.根据项目1所述的方法,该方法还包括在生成该细胞-细胞邻域图之前对该单细胞基因组学数据集进行维数缩减的步骤。
3.根据项目2所述的方法,其中对该单细胞基因组学数据集进行维数缩减的步骤包括增量主成分分析。
4.根据前述项目中任一项所述的方法,其中关于该第一维度中的每个细胞的信息包括针对每个细胞的细胞标识符,诸如细胞条形码。
5.根据前述项目中任一项所述的方法,其中关于该第二维度中的基因组学特征的该信息包括量化的基因组学特征诸如注释的基因、和/或基因组学组装的坐标形式的基因组学位置、和/或已识别的可及区域中的切割位点的数量、和/或每个基因的cDNA片段的数量、和/或DNA/RNA寡核苷酸、甲基化程度、或基因组学基因座上的任何其他表观遗传标记。
6.根据前述项目中任一项所述的方法,其中该单细胞基因组学数据集为单细胞RNA-Seq数据集、单细胞ATAC-Seq数据集、CITEseq数据集或类似数据集。
7.根据前述项目中任一项所述的方法,其中该单细胞基因组学数据集被表示为二维矩阵。
8.根据前述项目中任一项所述的方法,其中从该单细胞基因组学数据集生成该细胞-细胞邻域图的步骤包括执行k最近邻算法。
9.根据项目8所述的方法,其中该k最近邻算法包括:识别每个细胞的k最近邻,其中k为正整数;以及创建细胞-细胞邻域图,其中该细胞被表示为顶点,并且如果该顶点中的至少一个顶点是另一个顶点的k最近邻,则该顶点经由边连接。
10.根据前述项目中任一项所述的方法,其中将该细胞-细胞邻域图中的该细胞划分为种子细胞和非种子细胞的步骤包括以下步骤:
-对该细胞-细胞邻域图中的该细胞进行聚类,以获得基本上均匀大小的细胞簇;
-从每个细胞簇中选择至少一个细胞并将所选择的细胞分类为种子细胞,由此将该细胞划分为种子细胞和非种子细胞。
11.根据项目10所述的方法,其中对该细胞-细胞邻域图中的该细胞进行聚类的步骤包括Louvain、Leiden或Paris算法。
12.根据项目10所述的方法,其中对该细胞-细胞邻域图中的该细胞进行聚类的步骤将该细胞-细胞邻域图转换为系统树图结构。
13.根据项目10所述的方法,其中对该细胞-细胞邻域图中的该细胞进行聚类的步骤包括将每个簇内的细胞数量限制为最小细胞数量和最大细胞数量。
14.根据项目12所述的方法,其中每个细胞被表示为叶节点并且叶通过该系统树图结构中的分支点节点彼此连接,其中对该细胞-细胞邻域图中的该细胞进行聚类的步骤包括基于该细胞和该系统树图结构的根节点之间的分支点节点的数量对每个细胞进行排序并基于该排序进行聚类的步骤。
15.根据前述项目中任一项所述的方法,其中单个第一奖品高于单个第二奖品,优选地,其中该第二奖品为0。
16.根据项目1至14中任一项所述的方法,其中该至少一个第一奖品和该至少一个第二奖品是针对单独的种子细胞和非种子细胞可单独配置的奖品。
17.根据前述项目中任一项所述的方法,其中表示为顶点的该细胞通过边连接,其中每个边表示该细胞之间的相似性的大小。
18.根据前述项目中任一项所述的方法,该方法还包括向该顶点之间的边分配惩罚的步骤,其中该惩罚表示该顶点的该细胞之间的相异性程度。
19.根据前述项目中任一项所述的方法,其中使用奖品收集斯坦纳树算法遍历该细胞-细胞邻域图的步骤包括将尽可能多的种子细胞和尽可能少的非种子细胞包括在内的步骤。
20.根据项目19所述的方法,其中连接该细胞的子样品。
21.根据前述项目中任一项所述的方法,其中该细胞-细胞邻域图包括断开连接的子图,其中对所有子图执行该奖品收集斯坦纳树算法。
22.根据前述项目中任一项所述的方法,该方法还包括在执行其他步骤之前,将该单细胞基因组学数据集以适合该存储器的分区加载到计算机存储器中的步骤。
23.根据前述项目中任一项所述的方法,该方法还包括识别该单细胞基因组学数据集中的测定和序列基因组学特征的步骤。
24.根据前述项目中任一项所述的方法,该方法还包括在生成该细胞-细胞邻域图之前过滤掉细胞的步骤,诸如过滤掉特征数量小于预定下限和/或大于预定上限的细胞。
25.根据前述项目中任一项所述的方法,该方法还包括在生成该细胞-细胞邻域图之前对关于基因组学特征的信息进行归一化的步骤。
26.根据前述项目中任一项所述的方法,该方法还包括在生成该细胞-细胞邻域图之前,通过从关于基因组学特征的信息中选择特征的较小子集来执行特征选择的步骤。
27.一种具有指令的计算机程序,当由计算设备或计算系统执行时,该指令使得该计算设备或计算系统执行根据项目1至26中任一项所述的从单细胞基因组学数据集中的多个细胞中提取细胞的子样品的方法。
28.一种计算机系统,该计算机系统包括:
-存储器;以及
-处理单元,该处理单元被配置为执行以下步骤:
о将以至少两个维度表示的单细胞基因组学数据集加载到该存储器中,其中关于每个细胞的信息以第一维度表示,并且关于基因组学特征的信息以第二维度表示;
о从该单细胞基因组学数据集生成细胞-细胞邻域图,该细胞-细胞邻域图提供关于该细胞的该基因组学特征的相似性的信息,其中该细胞被表示为该细胞-细胞邻域图中的顶点;
о将该细胞-细胞邻域图中的该细胞划分为种子细胞和非种子细胞;
о在该细胞-细胞邻域图中,为该种子细胞分配至少一个第一奖品并且为该非种子细胞分配至少一个第二奖品;以及使用奖品收集斯坦纳树算法遍历该细胞-细胞邻域图以获得细胞的子样品。
29.一种从单细胞基因组学数据集中的多个细胞中提取细胞的子样品的计算机实现的方法,该方法包括以下步骤:
-获得以至少两个维度表示的单细胞基因组学数据集,其中关于每个细胞的信息以第一维度表示并且关于该细胞的基因组学特征的信息以第二维度表示;
-确定该细胞的该基因组学特征的相似性,并从该单细胞基因组学数据集生成细胞-细胞邻域图,其中该细胞被表示为该细胞-细胞邻域图中的顶点,并且该顶点之间的距离对应于所述相似性;
-将该细胞-细胞邻域图中的一些细胞定义为种子细胞,并将剩余的细胞定义为非种子细胞;
-在该细胞-细胞邻域图中,为该种子细胞分配至少一个第一奖品并且为该非种子细胞分配至少一个第二奖品,其中该第一奖品高于该第二奖品;以及
-通过将该细胞-细胞邻域图暴露于奖品收集斯坦纳树算法来提取该细胞的子样品。
参考文献
出版物《Scarf:大规模单细胞基因组学数据的记忆高效分析工具包》,2021年5月3日,Parashar Dhapola、JOHAN Rodhe、Rasmus Olofzon、Thomas Bonald、Eva Erlandsson、Shamit Soneji、Karlsson,doi:https://doi.org/10.1101/2021.05.02.441899、https://www.biorxiv.org/content/10.1101/2021.05.02.441899v1.full,据此全文以引用方式并入。

Claims (22)

1.一种从单细胞基因组学数据集中的多个细胞中提取细胞的子样品的计算机实现的方法,所述方法包括以下步骤:
-获得以至少两个维度表示的单细胞基因组学数据集,其中关于每个细胞的信息以第一维度表示并且关于基因组学特征的信息以第二维度表示;
-从所述单细胞基因组学数据集生成细胞-细胞邻域图,所述细胞-细胞邻域图提供关于所述细胞的所述基因组学特征的相似性的信息,其中所述细胞被表示为所述细胞-细胞邻域图中的顶点;
-将所述细胞-细胞邻域图中的所述细胞划分为种子细胞和非种子细胞;
-在所述细胞-细胞邻域图中,为所述种子细胞分配至少一个第一奖品并且为所述非种子细胞分配至少一个第二奖品;以及使用奖品收集斯坦纳树算法遍历所述细胞-细胞邻域图以获得细胞的子样品。
2.根据权利要求1所述的方法,其中从所述单细胞基因组学数据集生成所述细胞-细胞邻域图的步骤包括执行k最近邻算法,其中所述k最近邻算法包括识别每个细胞的k个最近邻,其中k为正整数,以及创建细胞-细胞邻域图,其中如果所述顶点中的至少一个顶点为另一个顶点的k最近邻,则所述细胞被表示为顶点并且所述顶点经由边连接。
3.根据前述权利要求中任一项所述的方法,其中将所述细胞-细胞邻域图中的所述细胞划分为种子细胞和非种子细胞的步骤包括以下步骤:
-对所述细胞-细胞邻域图中的所述细胞进行聚类,以获得基本上均匀大小的细胞簇;以及
-从每个细胞簇中选择至少一个细胞并将所选择的细胞分类为种子细胞,由此将所述细胞划分为种子细胞和非种子细胞。
4.根据权利要求3所述的方法,其中对所述细胞-细胞邻域图中的所述细胞进行聚类的步骤包括将每个簇内的细胞数量限制为最小细胞数量和最大细胞数量。
5.根据前述权利要求中任一项所述的方法,其中将所述细胞-细胞邻域图中的所述细胞划分为种子细胞和非种子细胞的步骤包括计算表示所述图中给定节点周围的连接密度的第一度量。
6.根据前述权利要求中任一项所述的方法,其中将所述细胞-细胞邻域图中的所述细胞划分为种子细胞和非种子细胞的步骤包括计算表示邻域连通性的第二度量,所述第二度量指示在许多或几个节点之间共享连接的程度。
7.根据前述权利要求3至6中任一项所述的方法,其中将所述细胞-细胞邻域图中的所述细胞划分为种子细胞和非种子细胞的步骤包括随机地或基于所述细胞在所述细胞簇中的中心程度从每个细胞簇中选择至少一个细胞。
8.根据前述权利要求中任一项所述的方法,其中对所述细胞-细胞邻域图中的所述细胞进行聚类的步骤将所述细胞-细胞邻域图转换为系统树图结构,其中每个细胞被表示为叶节点并且叶通过所述系统树图结构中的分支点节点彼此连接,其中对所述细胞-细胞邻域图中的所述细胞进行聚类的步骤包括基于所述细胞与所述系统树图结构的根节点之间的分支点节点的数量对每个细胞进行排序并基于所述排序进行聚类的步骤。
9.根据前述权利要求中任一项所述的方法,其中对所述细胞-细胞邻域图中的所述细胞进行聚类的步骤将所述细胞-细胞邻域图转换为系统树图结构,其中每个细胞被表示为叶节点并且叶通过所述系统树图结构中的分支点节点彼此连接,其中对所述细胞-细胞邻域图中的所述细胞进行聚类的步骤包括将所述叶节点和分支点节点分区为细胞组的步骤,所述组具有上界和下界。
10.根据权利要求9所述的方法,其中所述上界小于或等于300,优选地小于或等于200,甚至更优选地小于或等于100。
11.根据前述权利要求中任一项所述的方法,其中对所述细胞-细胞邻域图中的所述细胞进行聚类的步骤包括执行第一分区并且针对所述第一分区的每个分区,基于细胞与所述第一分区的每个分区的相互连接强度的量度来确定子分区的数量的步骤。
12.根据权利要求11所述的方法,所述方法还包括在所述第一分区的所述分区内执行子分区的步骤。
13.根据权利要求12所述的方法,其中执行子分区的步骤包括将所述第一分区的每个分区内的细胞转换为指示所述细胞之间的分层关系的系统树图结构的步骤。
14.根据前述权利要求中任一项所述的方法,其中单个第一奖品高于单个第二奖品,优选地其中所述第二奖品为0,或者其中所述至少一个第一奖品和所述至少一个第二奖品是针对所述单个种子细胞和非种子细胞能够单独配置的奖品。
15.根据前述权利要求中任一项所述的方法,所述方法还包括向所述顶点之间的边分配惩罚的步骤,其中所述惩罚表示所述顶点的所述细胞之间的相异性程度。
16.根据前述权利要求中任一项所述的方法,其中使用奖品收集斯坦纳树算法遍历所述细胞-细胞邻域图的步骤包括将尽可能多的种子细胞和尽可能少的非种子细胞包括在内的步骤。
17.根据前述权利要求中任一项所述的方法,所述方法包括执行单细胞基因组测序以获得以至少二维表示的所述单细胞基因组学数据集的步骤。
18.根据前述权利要求中任一项所述的方法,所述方法包括执行单细胞分离的步骤。
19.根据前述权利要求中任一项所述的方法,所述方法包括将以至少两个维度表示的所述单细胞基因组学数据集加载到计算机系统的数字媒体中的步骤。
20.一种具有指令的计算机程序,当由计算设备或计算系统执行时,所述指令使得所述计算设备或计算系统执行根据前述权利要求中任一项所述的从单细胞基因组学数据集中的多个细胞中提取细胞的子样品的方法。
21.一种计算机系统,所述计算机系统包括:
-存储器;和
-处理单元,所述处理单元被配置为执行以下步骤:
ο将以至少两个维度表示的单细胞基因组学数据集加载到所述存储器中,其中关于每个细胞的信息以第一维度表示,并且关于基因组学特征的信息以第二维度表示;
ο从所述单细胞基因组学数据集生成细胞-细胞邻域图,所述细胞-细胞邻域图提供关于所述细胞的所述基因组学特征的相似性的信息,其中所述细胞被表示为所述细胞-细胞邻域图中的顶点;
ο将所述细胞-细胞邻域图中的所述细胞划分为种子细胞和非种子细胞;
ο在所述细胞-细胞邻域图中,为所述种子细胞分配至少一个第一奖品并且为所述非种子细胞分配至少一个第二奖品;以及使用奖品收集斯坦纳树算法遍历所述细胞-细胞邻域图以获得细胞的子样品。
22.根据权利要求21所述的计算机系统,所述计算机系统还包括显示器,其中所述处理单元被配置为在所述显示器上显示细胞的子样品的图形表示。
CN202180062493.XA 2020-09-15 2021-09-15 用于从单细胞基因组学数据集中对细胞进行子采样的方法和系统 Pending CN116157537A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
SE2051077 2020-09-15
SE2051077-2 2020-09-15
PCT/EP2021/075306 WO2022058339A1 (en) 2020-09-15 2021-09-15 Method and system for subsampling of cells from single-cell genomics dataset

Publications (1)

Publication Number Publication Date
CN116157537A true CN116157537A (zh) 2023-05-23

Family

ID=77951669

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180062493.XA Pending CN116157537A (zh) 2020-09-15 2021-09-15 用于从单细胞基因组学数据集中对细胞进行子采样的方法和系统

Country Status (8)

Country Link
US (1) US20230352119A1 (zh)
EP (1) EP4214715A1 (zh)
JP (1) JP2023546645A (zh)
CN (1) CN116157537A (zh)
AU (1) AU2021346093A1 (zh)
CA (1) CA3192447A1 (zh)
IL (1) IL301323A (zh)
WO (1) WO2022058339A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115527610B (zh) * 2022-11-09 2023-11-24 上海交通大学 一种单细胞组学数据的聚类分析方法

Also Published As

Publication number Publication date
EP4214715A1 (en) 2023-07-26
US20230352119A1 (en) 2023-11-02
JP2023546645A (ja) 2023-11-07
AU2021346093A1 (en) 2023-04-27
WO2022058339A1 (en) 2022-03-24
IL301323A (en) 2023-05-01
CA3192447A1 (en) 2022-03-24

Similar Documents

Publication Publication Date Title
US11620567B2 (en) Method, apparatus, device and storage medium for predicting protein binding site
Van Hulse et al. Feature selection with high-dimensional imbalanced data
Liu et al. Unsupervised embedding of single-cell Hi-C data
Ji et al. Identifying time-lagged gene clusters using gene expression data
US20110246409A1 (en) Data set dimensionality reduction processes and machines
WO2020041204A1 (en) Artificial intelligence analysis of rna transcriptome for drug discovery
Bryan Problems in gene clustering based on gene expression data
CN114864003A (zh) 基于混合实验组和对照组单细胞样本的差异分析方法及系统
Jiang et al. DACE: a scalable DP-means algorithm for clustering extremely large sequence data
Colombo et al. FastMotif: spectral sequence motif discovery
US20140309122A1 (en) Knowledge-driven sparse learning approach to identifying interpretable high-order feature interactions for system output prediction
CN116157537A (zh) 用于从单细胞基因组学数据集中对细胞进行子采样的方法和系统
Atalay et al. Implicit motif distribution based hybrid computational kernel for sequence classification
Chiu et al. Ap-based consensus clustering for gene expression time series
Das et al. Evolutionary biclustering with correlation for gene interaction networks
Einipoura et al. FSPAM: a feature construction method to identifying cell populations in ScRNA-seq data
EP3707724A1 (en) Method for simultaneous multivariate feature selection, feature generation, and sample clustering
Halsana et al. DensePPI: A Novel Image-based Deep Learning method for Prediction of Protein-Protein Interactions
Chen et al. Novel efficient granular computing models for protein sequence motifs and structure information discovery
Carter et al. Deployment and retrieval simulation of a single tether satellite system
Anibal et al. Scalable clustering with supervised linkage methods
Taherpour Benchmarking of computational methods for Spatial Transcriptomics Data analysis
Maâtouk et al. Local search method based on biological knowledge for the biclustering of gene expression data
Senf et al. Identification of genes involved in the same pathways using a Hidden Markov Model-based approach
Kabeer et al. BFSSGA: Enhancing the Performance of Genetic Algorithm using Boosted Filtering Approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination