CN115428088A - 用于基因表达和dna染色质可及性的联合交互式可视化的系统和方法 - Google Patents

用于基因表达和dna染色质可及性的联合交互式可视化的系统和方法 Download PDF

Info

Publication number
CN115428088A
CN115428088A CN202180025608.8A CN202180025608A CN115428088A CN 115428088 A CN115428088 A CN 115428088A CN 202180025608 A CN202180025608 A CN 202180025608A CN 115428088 A CN115428088 A CN 115428088A
Authority
CN
China
Prior art keywords
cells
atac
cell
cluster
gene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180025608.8A
Other languages
English (en)
Inventor
J·哈梅尔
V·K·斯里尼瓦萨·高普兰
L·王
A·S·玛赫什瓦利
J·斯塔布
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
10X Genomics Inc
Original Assignee
10X Genomics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 10X Genomics Inc filed Critical 10X Genomics Inc
Publication of CN115428088A publication Critical patent/CN115428088A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • G16B5/20Probabilistic models
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/158Expression markers
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Organic Chemistry (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Analytical Chemistry (AREA)
  • Data Mining & Analysis (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Software Systems (AREA)
  • Microbiology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Physiology (AREA)
  • Hospice & Palliative Care (AREA)
  • Bioethics (AREA)
  • Oncology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Artificial Intelligence (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Crystallography & Structural Chemistry (AREA)

Abstract

提供了用于可视化离散属性值数据集中的模式的系统和方法。对于多个细胞中的每个细胞,数据集包含多个基因中的每个基因的离散属性值。对于所述细胞中的每一个,所述数据集进一步包含多个峰中的每个ATAC峰的ATAC计数。基于跨所述细胞的所述基因的离散属性值的第一聚类,将细胞分配给第一多个簇组中的簇组。基于跨所述细胞的所述ATAC峰的ATAC片段计数值的第二聚类,还将细胞分配给第二多个簇组中的簇组。所述细胞的投影使用所述第一簇组分配或所述第二簇组分配中的一个。对于所述投影内的每个细胞,指示了所述第一簇组分配或第二簇组分配中的另一个中的成员资格。

Description

用于基因表达和DNA染色质可及性的联合交互式可视化的系 统和方法
相关申请的交叉引用
本申请要求于2020年8月6日提交的题为《用于基因表达和DNA染色质可及性的联合交互式可视化的系统和方法(Systems and Methods for Joint InteractiveVisualization of Gene Expression and DNA Chromatin Accessibility)》的美国临时专利申请第63/061,952号和于2020年2月13日提交的题为《用于使用基因表达和染色质可及性表征细胞的方法(Methods For Characterizing Cells Using Gene Expression AndChromatin Accessibility)》的美国临时专利申请第62/976,270号的优先权,其各自通过引用整体并入本文。
技术领域
本说明书描述了涉及可视化来自相同细胞的RNA基因表达和DNA染色质可及性的技术。
背景技术
数据集中模式的发现促进了许多技术应用,例如发现不同类(例如,患病状态、非患病状态、疾病阶段等)之间基因中离散属性值的变化。例如,在生物学领域中,RNA提取方案和相关方法学的进步已经导致能够进行全转录组鸟枪法测序,该测序以映射到基因的转录本读数的计数来量化生物样品中的基因表达。这已经引起了高通量转录本鉴定和对单个数据集中数百或甚至数千个单个细胞的基因表达的量化。因此,在本领域中,已经生成了含有多个细胞中的每个相应细胞的多个基因中的每个基因的离散属性值(例如,映射到特定细胞中的单个基因的转录本读数的计数)的数据集。虽然这在本领域中是显著的进步,但是为了使这些数据更加有用,还需要解决许多技术问题。
现有技术中这种进步的一个缺点是传统方法在这种数据集中寻找模式的方式不令人满意。例如,这种模式可能涉及在数据集的成员中发现未知类。例如,被认为是同质细胞的数据集的发现证明包括两个不同类的细胞。这种模式也可能涉及统计上与已知类相关联的变量的发现。例如,映射到核心基因集的mRNA子集的转录本丰度的发现区分处于患病状态的细胞与不处于患病状态的细胞。在非常大的数据集中发现这种模式(例如,发现其mRNA表达区分类或定义类的基因)由于有限的复制信息而不可修正为经典统计,并且在许多情况下这种模式与未被很好理解的生物过程相关仍然是技术挑战,对于该技术挑战,本领域需要改进的工具以充分地解决这种缺点。
发明内容
在本公开中提供了用于解决在发现数据集中的模式时所鉴定的上述问题的技术解决方案(例如,计算系统、方法和非暂时性计算机可读存储介质)。
以下呈现本公开的概述以便提供对本公开的一些方面的基本理解。该概述不是本公开的广泛综述。其不旨在鉴定本公开的关键/重要元素或描绘本公开的范围。其唯一目的是以简化的形式呈现本公开的一些概念,作为稍后呈现的更详细描述的序言。
本公开的一个方面提供了一种用于可视化离散属性值数据集中的模式的方法。该方法是在包含一个或多个处理核和存储器的计算机系统中执行的,该存储器存储使用该一个或多个处理核来执行该方法的指令。该方法包含将离散属性值数据集存储在存储器中。对于多个细胞中的每个相应细胞,离散属性值数据集包含多个基因中的每个对应基因的相应离散属性值。对于多个细胞中的每个相应细胞,离散属性值数据集进一步包含多个ATAC峰中的每个对应ATAC峰的相应ATAC片段计数。
在一些实施例中,多个细胞包含100个细胞,多个基因包含100个基因,并且多个ATAC峰包含50个ATAC峰。
基于跨多个细胞的多个基因的离散属性值的第一聚类,将多个细胞中的每个相应细胞分配给第一多个簇组中的相应簇组。基于跨多个细胞的多个ATAC峰的ATAC片段计数值的第二聚类,还将多个细胞中的每个相应细胞分配给第二多个簇组中的相应簇组。
该方法进一步包含基于将多个细胞分配给(i)第一多个簇组或(ii)第二多个簇组中的一个,在第一面板中显示多个细胞的二维投影。
该方法进一步包含对于多个细胞中的每个相应细胞,在二维投影中指示(i)第一多个簇组或(ii)第二多个簇组中的另一个中的成员资格,从而可视化离散属性值数据集中的模式。
在一些实施例中,(i)第一多个簇组或(ii)第二多个簇组中的另一个中的多个细胞中的每个相应细胞的成员资格通过将相应细胞着色为与(i)第一多个簇组或(ii)第二多个簇组中的另一个中的相应细胞已被分配到的簇组唯一相关联的颜色来指示。
在一些实施例中,该方法进一步包含针对第一多个簇或第二多个簇中的每个相应簇的多个基因中的每个相应基因,计算相应簇中的跨相应细胞子集中的相应基因的离散属性值相对于除相应簇之外的跨第一多个簇或第二多个簇中的相应基因的离散属性值的差异,由此针对第一多个簇或第二多个簇中的每个相应簇导出多个基因中的每个相应基因的差值。在这样的实施例中,在第二面板中与第一面板同时显示热图,该热图包含第一多个簇或第二多个簇中的每个相应簇的多个基因中的每个相应基因的差值的表示,从而可视化离散属性值数据集中的模式。在一些这样的实施例中,第一多个簇或第二多个簇中的每个相应簇的多个基因中的每个相应基因的差值是(i)在相应簇的多个细胞中的每个细胞中测量的相应基因的离散属性值的集中趋势的第一量度和(ii)在第一多个簇的除了第一相应簇之外的所有簇或第二多个簇的除了第一相应簇之外的所有簇的每个细胞中测量的相应基因的离散属性值的集中趋势的第二量度中的倍数变化(例如,log2倍数变化或log10倍数变化)。
在一些实施例中,该方法进一步包含在计算第一多个簇或第二多个簇中的每个相应簇的多个基因中的每个相应基因的差值之前,对多个基因中的每个相应基因的离散属性值先验进行归一化。在一些这样的实施例中,归一化包含用具有分散的一致性估计的负二项分布对与多个细胞中的每个细胞相关联的每个基因的离散属性值进行建模。
在一些实施例中,跨多个细胞的多个基因的离散属性值的第一聚类是跨多个细胞的多个细胞中的每个相应细胞的第一多个降维值的聚类,其中使用第一降维算法从相应细胞中的每个基因的离散属性值导出多个细胞中的每个相应细胞的第一多个降维值中的每个相应降维值。在一些这样的实施例中,跨多个细胞的多个ATAC峰的ATAC片段计数的第二聚类是跨多个细胞的多个细胞中的每个相应细胞的第二多个降维值的聚类,其中使用第一降维算法(例如,主成分分析)从相应细胞中每个ATAC峰的ATAC片段计数导出多个细胞中的每个相应细胞的第二多个降维值中的每个相应降维值。
在一些实施例中,多个细胞的二维投影基于将多个细胞分配给第一多个簇组,并且多个细胞的二维投影是从跨多个细胞对多个细胞中的每个相应细胞的第一多个降维值的t-分布随机邻域或UMAP嵌入获得的。
在一些实施例中,多个细胞的二维投影基于将多个细胞分配给第二多个簇组,并且多个细胞的二维投影是从跨多个细胞对多个细胞中的每个相应细胞的第二多个降维值的t-分布随机邻域或UMAP嵌入获得的。
在一些实施例中,跨多个细胞的多个基因的离散属性值的第一聚类包含应用Louvain模块化算法、k-均值聚类、模糊k-均值聚类算法或Jarvis-Patrick聚类,且跨多个细胞的多个ATAC峰的ATAC片段计数值的第二聚类包含应用Louvain模块化算法、k-均值聚类、模糊k-均值聚类算法或Jarvis-Patrick聚类。
在一些实施例中,跨多个细胞的多个基因的离散属性值的第一聚类包含将k-均值聚类成第一预定数目的簇,或跨多个细胞的多个ATAC峰的ATAC片段计数值的第二聚类包含将k-均值聚类成第二预定数目的簇。在一些这样的实施例中,第一或第二预定数目的簇是介于2和50之间的整数值。在一些这样的实施例中,该方法进一步包含从计算机系统的用户获得整数值。
在一些实施例中,对于多个细胞中的每个相应细胞,多个基因中的每个对应基因的相应离散属性值表示全转录组鸟枪法测序实验,其以映射到基因的转录本读数的计数量化来自多个细胞中的每个相应单细胞的基因表达。
在一些实施例中,多个细胞中的特定细胞中的每个基因在离散属性值数据集中用对该特定细胞唯一的第一条形码唯一地表示。
在一些实施例中,在多个细胞中的特定细胞中的每个基因的离散属性值是在特定细胞已经与多个细胞中的所有其它细胞分离成其自己的微流体分区之后确定的。
在一些实施例中,多个细胞包含1000个细胞、2000个细胞、5000个细胞、10,000个细胞、25,000个细胞、50,000个细胞或100,000个细胞。
在一些实施例中,多个基因包含150个基因、200个基因、300个基因、400个基因、1000个基因、2000个基因、3000个基因、4000个基因或5000个基因。
在一些实施例中,多个ATAC峰包含100个ATAC峰、200个ATAC峰、500个ATAC峰、750个ATAC峰、1000个ATAC峰或5000个ATAC峰。
在一些实施例中,离散属性值数据集具有至少250兆字节、500兆字节、1千兆字节、2千兆字节或3千兆字节的文件大小。
在一些实施例中,离散属性值数据集进一步包含特征连锁矩阵。针对多个基因中的每个相应基因,并且针对多个ATAC峰中的每个相应ATAC峰,特征连锁矩阵存储在参考基因组中的相应基因或相应ATAC峰的阈值距离内的ATAC峰和基因的集合,并且针对集合中的每个相应ATAC峰或相应基因存储:相对于跨多个细胞的第一ATAC峰或第一基因,相应ATAC峰的ATAC片段计数的相关性或相应基因的离散属性值的相关性。在这样的实施例中,该方法进一步包含接收对多个基因中的第一基因或多个ATAC峰中的第一ATAC峰的选择。响应于该选择,特征连锁矩阵用于获得并提供第一图,该第一图包含多个基因中的每个基因或多个峰中的每个峰的图形指示符,该图形指示符以与参考基因组中的第一基因或第一ATAC峰相距的距离的顺序连锁到第一基因或第一ATAC峰。
在一些实施例中,为第一多个簇组中的每个相应簇组或第二多个簇组中的每个簇组提供与第一基因或第一ATAC峰连锁的多个基因中的每个相应基因或多个峰中的每个相应峰的相应图形指示符。相应图形指示符在第一图中的尺寸被确定为表示相应簇组中具有相应基因的离散属性值的非零值或相应ATAC峰的ATAC片段计数的非零值的细胞的比例。
在一些实施例中,针对集合中每个相应ATAC峰或相应基因,特征连锁矩阵进一步存储:相对于跨多个细胞的细胞上的第一ATAC峰或第一基因,相应ATAC峰的ATAC片段计数的显著性或相应基因的离散属性值的显著性。在一些这样的实施例中,方法进一步包含:将第一图限于在相应ATAC峰的ATAC片段计数或相应基因的离散属性值中与第一ATAC片段或第一基因具有阈值相关性或显著性的多个基因中的每个基因或多个峰中的每个峰。
在一些实施例中,第一图限于在参考基因组中第一基因或第一ATAC峰的阈值距离(例如,1兆碱基、2兆碱基或0.5兆碱基至10兆碱基之间的值)内的多个基因中的每个基因或多个峰中的每个峰。
本公开的另一方面提供了一种用于表征细胞的方法,包含将多个细胞或细胞核和多个条形码珠分区成多个分区,其中多个分区的至少一个子集各自包含多个细胞或细胞核的细胞或细胞核和所述多个条形码珠的条形码珠,并且所述多个分区的子集中的每个珠包含唯一的条形码序列。该方法进一步包括生成包含条形码序列的多个条形码化核酸分子,其中多个条形码化核酸分子的第一子集包含对应于核糖核酸(RNA)分子的序列,并且所述多个条形码化核酸分子的第二子集包含对应于与可及染色质区域对应的序列的序列。该方法进一步包含对多个条形码化核酸分子或由其生成的衍生物进行测序以生成测序信息,并且使用该条形码序列和该测序信息来鉴定该测序信息中的细胞类型。
在一些实施例中,本文公开的方法进一步包含使用所述测序信息通过可及染色质区域对细胞进行聚类。在一些实施例中,该方法进一步包含使用测序信息通过基因表达对细胞进行聚类。在一些实施例中,该方法进一步包含使用测序信息和通过基因表达聚类的细胞来注释、鉴定或表征通过可及染色质区域聚类的细胞。在一些实施例中,该方法进一步包含使用测序信息和通过可及染色质区域聚类的细胞来注释、鉴定或表征通过基因表达聚类的细胞。在一些实施例中,多个细胞或细胞核来源于肿瘤样品或怀疑包含肿瘤的样品。在一些实施例中,该方法进一步包含使用测序信息来鉴定肿瘤样品或怀疑包含所述肿瘤的样品中的细胞类型、细胞状态、肿瘤特异性基因表达模式或肿瘤特异性染色质差异可及区域。在一些实施例中,该方法进一步包含使用测序信息来鉴定或确认肿瘤样品或怀疑包含所述肿瘤的样品中肿瘤细胞的存在。在一些实施例中,该方法进一步包含施用治疗有效量的靶向在肿瘤特异性基因表达模式或肿瘤特异性染色质差异可及区域中鉴定的一个或多个靶标的药剂。在一些实施例中,肿瘤是B细胞淋巴瘤。
本公开的另一方面提供了一种计算机系统,其包含一个或多个处理核和存储器,该存储器存储使用一个或多个处理核来执行本文公开的任何方法的指令。
本公开的另一方面提供了一种非暂时性计算机可读存储介质。非暂时性计算机可读存储介质存储指令,该指令在由计算机系统执行时使计算机系统执行本文公开的任何方法。
如本文所公开的,本文所公开的任何实施例可在适用时应用于任何方面。
在所附权利要求书的范围内的系统、方法和装置的各种实施例各自具有若干方面,其中没有单个方面单独负责本文所描述的所需属性。在不限制所附权利要求的范围的情况下,本文描述了一些突出特征。在考虑本讨论之后,特别是在阅读标题为“具体实施方式”的部分之后,将理解如何使用各种实施例的特征。
通过引用并入
在本说明书中提及的所有出版物、专利和专利申请通过引用以其整体并入本文,其程度如同每个单独的出版物、专利或专利申请被具体地和单独地指明通过引用并入。
附图说明
在附图中以实例而非限制的方式示出了本文所公开的实现。在附图的多个视图中,相同的附图标记指代对应的部分。
图1A、1B、1C和1D是示出了根据本公开的一些实施例的计算装置的实例框图。
图2A、2B和2C共同示出了根据本公开的实施例的实例方法,其中可选的步骤由虚线表示。
图3示出了根据一些实施例的用于获得数据集的用户界面。
图4A示出了根据一些实施例的实例显示,其中基于相应细胞的降维二维GEX数据点,在第一面板中显示包含第一多个簇中的每个簇的多个基因中的每个相应基因的差值的表示的热图,而在第二面板中显示多个细胞中的每个相应细胞。
图4B示出了根据一些实施例的实例显示,其中基于相应细胞的降维二维ATAC数据点,在第一面板中显示包含第二多个簇中的每个簇的多个ATAC峰中的每个相应ATAC峰的差值的表示的热图,而在第二面板中显示多个细胞中的每个相应细胞。
图5示出了根据本公开的一些实施例的链接窗口的使用。
图6示出了根据本公开的一些实施例的将离散属性值数据集的视图分割成组件簇。
图7示出了根据本公开的一些实施例的到基因或峰的连锁的选择。
图8示出了根据本公开的一些实施例的与基因CD69连锁的ATAC峰的表格。
图9示出了根据本公开的一些实施例的在离散属性值数据集中表示的特定基因的细节。
图10示出了根据本公开的一些实施例的特征ENSG00000126353的多个簇中的每个簇的连锁图。
图11示出了根据本公开的一些实施例的在逐个细胞簇的基础上与基因CD69的ATAC峰连锁和基因连锁。
图12示出了根据本公开的一些实施例的连锁视图中的一个弧线的选择。
图13A示出了根据本公开的一些实施例的将具有最高正相关值的特征周围的连锁视图重新锚定到CD69:chr12:9760094-9761921。
图13B示出了根据本公开的一些实施例的与所查询的基因LEF1的连锁以及LEF1的每个细胞簇的平均UMI/细胞。
图13C示出了根据本公开的一些实施例的与LEF1连锁的ATAC峰chr4:108355456-108356170的选择和ATAC峰chr4:108355456-108356170的每个细胞簇的平均切割位点/细胞以及LEF1的每个细胞簇的平均UMI/细胞。
图13D示出了根据本公开的一些实施例的对连锁到ATAC峰chr4:108355456的特征的用户查询,以及所搜索的ATAC峰chr4:108355456的每个细胞簇1330的平均切割位点/细胞,以及连锁到ATAC峰chr4:108355456的三个基因中的每一个的每个细胞簇的所有平均UMI/细胞。
图13E示出了根据本公开的一些实施例的在用户选择图13D的弧线图中的连锁chr4:108355456-108356170-chr4:108433617-108434308时,针对所搜索的峰chr4:108355456-108356170的每个细胞簇的平均分割点/细胞作为第一曲线图,以及针对所连锁的特征chr4:108433617-108434308的每个细胞簇的平均分割点/细胞作为第二曲线图。
图14示出了根据本公开的一些实施例的通过绝对r值过滤连锁的关联滑块,以及通过显著性分数(负对数错误发现率)过滤连锁并共同提供连锁过滤器的显著性过滤器。
图15示出了根据本公开的一些实施例的ATAC类别的ATAC类的用户选择。
图16示出了根据本公开的一些实施例的GEX类别的GEX类的用户选择。
图17示出了根据本公开的一些实施例的类别的所选类(例如,K-均值聚类)之间的局部区分显著特征比较特征。
图18示出了根据本公开的一些实施例的ATAC t-SNE图,但是其中基于GEX聚类而不是ATAC聚类对细胞进行聚类(例如,可视化为彩色细胞)。
图19示出了根据本公开的实施例的串联ATAC连接和RNA模板转换的示例性方案。
图20示出了根据本公开的一些实施例的用户界面的实例,其中根据标度(例如,强度标度和/或颜色标度)在逐个细胞的基础上量化基因GZMB的启动子附近的ATAC片段的数目。
图21示出了根据本公开的一些实施例的其中显示关于所选峰的信息的用户界面的实例。
图22示出了根据本公开的一些实施例的用于选择性地呈现来自离散属性数据集120的信息(包括关于片段的信息)的用户界面的实例。
图23示出了根据本公开的一些实施例的用于选择性地呈现来自ATAC数据集的信息的用户界面的实例,其中用户界面呈现聚类信息和ATAC峰信息。
图24A和24B共同示出了根据本公开的实施例的使用表达标记的细胞的细胞聚类和注释。在基因表达和开放染色质谱的联合测定中对24,000个外周血单核细胞(PBMC)进行基因表达(GEX)分析,并使用13个细胞类型类别的表达标记获得基因表达注释。使用t-分布随机邻域嵌入(t-SNE)图(2400)可视化基因表达注释。
图25A和25B共同示出了根据本公开的实施例的使用染色质可及性(开放染色质)的细胞聚类和细胞注释。在基因表达和开放染色质谱的联合测定中对24,000个外周血单核细胞(PBMC)进行转座酶可及染色质(ATAC)测定,并使用转录因子可及性获得4类细胞类型(单核细胞、NK/CD8 T细胞、未使用的/记忆T细胞和B细胞)的开放染色质注释(2500)。
图26A和26B共同示出了根据本公开的实施例的图24(2400)和25(2500)的两个读出之间的一致性。
图27A和27B共同示出了根据本公开的实施例的将基因表达标记衍生的注释转移到可及染色质聚类群体中。上图:使用转录因子可及性(例如,开放染色质)对细胞进行聚类并用ATAC数据注释,提供了具有有限特异性的注释细胞簇以区分额外的、更精确的细胞类型。下图:使用开放染色质(ATAC)聚类进行聚类的细胞使用基因表达标记进一步注释。
图28A、28B和28C共同示出了根据本公开的实施例的当单独分析开放染色质的基因表达或区域时,新的细胞群体的鉴定将是未鉴定的和/或未注释的。在图28A中,单独使用开放染色质分析鉴定的细胞群体将示为大的细胞簇(例如,B细胞(2508))。这些群体可以用基因表达标记来注释,例如图28B所示的那些。图28C示出了应用基因表达注释以进一步分层由开放染色质聚类的细胞亚群(例如,未使用的/记忆B细胞(2722)、IgM+IgD+记忆B细胞(2724)和血浆B细胞(2726))。
图29A、29B、29C、29D和29E共同示出了根据本公开的实施例的图28A至C中所示的注释细胞中的差异基因表达,以及预期的未使用的B细胞对记忆B细胞的鉴定和区分。通过基因表达(GEX)分析鉴定为单个未使用的/记忆B细胞簇的细胞群体(图29B(2422)),然而在基因表达注释的开放染色质聚类中表现为两个不同的未使用的/记忆B细胞簇(图29A;2722)。对基因表达注释的开放染色质聚类图中的差异基因表达的进一步分析揭示了两种不同的细胞群体(亚簇1(2902)和亚簇2(2904)),当使用开放染色质聚类时,它们明显分离(图29C),但当仅观察基因表达聚类分析时,它们是模糊的(图29D)。如图29E所示,对亚簇1和亚簇2的基因表达分析将亚簇1鉴定为预期的记忆B细胞(相对较高的Ig,相对较低的未使用的B细胞相关转录本),将亚簇2鉴定为预期的未使用的B细胞(相对较低的Ig,相对较高的未使用的B细胞相关转录本)。
图30A和30B共同示出了根据本公开的实施例的使用基因表达(GEX)标记和转录因子(ATAC)可及性的肿瘤样品的细胞类型注释。基因表达聚类鉴定了五种细胞类型类别(B细胞、复制B细胞、单核细胞、T细胞和复制T细胞)(图30A)。开放染色质聚类鉴定了三种细胞类型类别(B细胞、单核细胞和T细胞)(图30B)。
图31A、31B和31C共同示出了根据本公开的实施例的在来自淋巴结肿瘤样品的基因表达数据中,使用突变负荷(SNV)(图31A)和BANK1途径(B细胞过度活化的标记)(图31B)从正常B细胞鉴定肿瘤。在图31C中鉴定了通过基因表达谱聚类的细胞群体中的两个B细胞亚群(肿瘤B细胞和正常B细胞)。
图32A、32B和32C共同示出了根据本公开的实施例的肿瘤细胞的基因表达注释以注释和鉴定开放染色质细胞群体。
图33A、33B、33C和33D共同示出了根据本公开的实施例的基于开放染色质和基因表达的协方差,特异性调节肿瘤B细胞中IL4R表达的候选增强子区域的鉴定。
图34A、34B和34C示出了根据本公开的实施例的通过开放染色质聚类(图34A),包括表观遗传修饰(图34B)和量化(图34C)鉴定的多个细胞群体之间STAT蛋白活化的进一步比较分析。
具体实施方式
现在将详细参考实施例,其实例在附图中示出。在以下详细描述中,阐述了许多具体细节以便提供对本公开的透彻理解。然而,对于本领域普通技术人员显而易见的是,可以在没有这些具体细节的情况下实践本公开。在其它情况下,没有详细描述公知的方法、过程、组件、电路和网络,以免不必要地模糊实施例的各方面。
本文描述的实现提供了检测数据集中的模式的各种技术解决方案。这样的数据集的实例是来自全转录组鸟枪法测序流水线的数据集,该流水线以映射到基因的转录本读数的计数来量化单细胞中的基因表达。现在结合附图描述实现的细节。
通用术语。
贯穿本公开使用特定术语来解释所描述的设备、系统、方法和组合物的各个方面。该小节包括对在本公开的后面章节中出现的某些术语的解释。在本章节中的描述与本公开的其它章节中的使用明显冲突而言,将以本章节中的定义为准。
(i)受试者
“受试者”是动物,例如哺乳动物(例如,人或非人猿),或禽类(例如,鸟),或其它生物体,例如植物。受试者的实例包括但不限于哺乳动物,例如啮齿动物、小鼠、大鼠、兔、豚鼠、有蹄类动物、马、绵羊、猪、山羊、牛、猫、狗、灵长类动物(例如人或非人灵长类动物);植物,例如拟南芥(Arabidopsis thaliana)、玉米、高粱、燕麦、小麦、水稻、油菜(canola)或大豆;藻类,例如莱茵衣藻(Chlamydomonas reinhardtii);线虫,例如秀丽隐杆线虫(Caenorhabditis elegans);昆虫,例如黑腹果蝇(Drosophila melanogaster)、蚊子、果蝇、蜜蜂或蜘蛛;鱼类,例如斑马鱼;爬行动物;两栖动物,例如蛙或爪蟾(Xenopus laevis);盘基网柄菌(Dictyostelium discoideum);真菌,例如卡氏肺囊虫(Pneumocystiscarinii)、红色烟曲霉(Takifugu rubripes)、酵母、酿酒酵母(Saccharamoycescerevisiae)或粟酒裂殖酵母(Schizosaccharomyces pombe);或恶性疟原虫(Plasmodiumfalciparum)。
(ii)核酸和核苷酸。
术语“核酸”和“核苷酸”旨在与它们在本领域中的用途一致,并且包括天然存在的物种或其功能类似物。特别有用的核酸功能类似物能够以序列特异性方式与核酸杂交或能够用作特定核苷酸序列复制的模板。天然存在的核酸通常具有含磷酸二酯键的主链。类似物结构可以具有交替的主链连锁,包括本领域已知的任何种类的主链连锁。天然存在的核酸通常具有脱氧核糖(例如,存在于脱氧核糖核酸(DNA)中)或核糖(例如,存在于核糖核酸(RNA)中)。
核酸可以含有具有本领域已知的这些糖部分的多种类似物中的任一种的核苷酸。核酸可以包括天然或非天然核苷酸。在这方面,天然脱氧核糖核酸可以具有一个或多个选自由腺嘌呤(A)、胸腺嘧啶(T)、胞嘧啶(C)或鸟嘌呤(G)组成的组的碱基,并且核糖核酸可以具有一个或多个选自由尿嘧啶(U)、腺嘌呤(A)、胞嘧啶(C)或鸟嘌呤(G)组成的组的碱基。可以包括在核酸或核苷酸中的有用的非天然碱基是本领域已知的。
(iii)条形码。
“条形码”是传达或能够传达信息(例如,关于样品、珠和/或捕获探针中的分析物的信息)的标签或标识符。条形码可以是分析物的一部分,或独立于分析物。条形码可以附着于分析物。特定条形码相对于其它条形码可以是唯一的。
条形码可以具有多种不同的格式。例如,条形码可以包括多核苷酸条形码、随机核酸和/或氨基酸序列,以及合成的核酸和/或氨基酸序列。条形码可以以可逆或不可逆的方式附着于分析物或另一部分或结构。条形码可以在样品测序之前或期间添加到例如脱氧核糖核酸(DNA)或核糖核酸(RNA)样品的片段中。条形码可以允许对单独的测序读数进行识别和/或量化(例如,条形码可以是或可以包括唯一的分子标识符或“UMI”)。在一些实施例中,条形码包括一起用作单个条形码的两个或更多个子条形码。例如,多核苷酸条形码可以包括被一个或多个非条形码序列分开的两个或更多个多核苷酸序列(例如,子条形码)。关于条形码和UMI的更多细节公开在于2020年2月21日提交的题为《用于分析物分析的流水线(Pipeline for Analysis of Analytes)》的代理人档案号104371-5033-PR01的美国临时专利申请第62/980,073号中,其通过引用并入本文。
(iv)生物样品。
如本文所用,“生物样品”从受试者获得用于使用多种技术中的任一种进行分析,技术包括但不限于活检、手术和激光捕获显微术(LCM),并且通常包括来自受试者的组织或器官和/或其它生物材料。生物样品可以包括一种或多种患病细胞。患病细胞可以具有改变的代谢特性、基因表达、蛋白质表达和/或形态学特征。疾病的实例包括炎性病症、代谢病症、神经系统病症和癌症。癌细胞可能来源于实体瘤、血液恶性肿瘤、细胞系或作为循环肿瘤细胞获得。
系统。
图1A是示出了根据一些实施例的可视化系统100的框图。在一些实施例中,装置100包括一个或多个处理单元CPU 102(也称为处理器)、一个或多个网络接口104、包含显示器108和输入模块110的用户界面106、非持久性存储器111、持久性存储器112,以及用于互连这些组件的一个或多个通信总线114。一个或多个通信总线114可选地包括互连并控制系统组件之间的通信的电路(有时称为芯片组)。非持久性存储器111通常包括高速随机存取存储器,诸如DRAM、SRAM、DDR RAM、ROM、EEPROM、闪存,而持久性存储器112通常包括CD-ROM、数字多功能盘(DVD)或其它光存储、磁带盒、磁带、磁盘存储或其它磁存储装置、磁盘存储装置、光盘存储装置、闪存装置或其它非易失性固态存储装置。持久性存储器112可选地包括远离CPU 102的一个或多个存储装置。持久性存储器112和非持久性存储器112内的非易失性存储装置包含非暂时性计算机可读存储介质。
在一些实现方式中,非持久性存储器111或替代地非暂时性计算机可读存储介质有时结合持久性存储器112存储以下程序、模块和数据结构或其子集:
·可选的操作系统116,其包括用于处理各种基本系统服务和用于执行硬件相关任务的过程;
·可选的网络通信模块(或指令)118,其用于将可视化系统100与其它装置或通信网络连接;以及
·浏览器模块119,其用于从持久性存储器中选择离散属性值数据集120并呈现关于离散属性值数据集120的信息。
在一些实现方式中,一个或多个上述鉴定的元件被存储在一个或多个先前提到的存储器装置中,并且对应于用于执行上述功能的一组指令。以上鉴定的模块、数据或程序(例如,指令集)不需要被实现为单独的软件程序、过程、数据集或模块,并且因此这些模块和数据的各种子集可以在各种实现方式中被组合或以其它方式重新排列。在一些实现方式中,非持久性存储器111可选地存储以上鉴定的模块和数据结构的子集。此外,在一些实施例中,存储器存储以上未描述的附加模块和数据结构。在一些实施例中,上述鉴定的元件中的一个或多个存储在除了可视化系统100之外的计算机系统中,该计算机系统可由可视化系统100寻址,使得可视化系统100可以在需要时检索这些数据的全部或一部分。
参考图1A、1B、1C和1D,持久性存储器112存储一个或多个离散属性值数据集120(例如,120-1,……,120-X)。在一些实施例中,离散属性值数据集120包含特征条形码矩阵121、染色体索引阵列180、起始位置阵列183、结束位置阵列185和特征连锁矩阵187。
特征条形码矩阵。
对于多个细胞中的每个相应细胞126,特征条形码矩阵121包含(i)多个基因中的每个基因122的离散属性值(基因表达值)124,和(ii)多个峰中的每个峰的转座酶可及染色质(ATAC)峰值的测定。通常,给定细胞中给定基因的离散属性值124是在给定细胞内针对给定基因测量的mRNA的量。有利地,ATAC峰值和离散属性值源自相同的细胞。
如图1B和1C所示,特征条形码矩阵121-1(作为实例示出)包括与细胞1(126-1)、细胞2(126-2)和直到细胞Y(126-Y)的其它细胞相关的信息。如细胞1(126-1)所示,细胞1(126-1)包括细胞1的基因1的离散属性值124-1-1(122-1-1)、细胞1的基因2的离散属性值(124-2-1),以及直至细胞1的基因M的离散属性值(124-M-1)的其它离散属性值。在一些实施例中,对于特征条形码矩阵121中表示的多个细胞中的每个细胞,在特征条形码矩阵121中存在10个或更多、100个或更多、1000个或更多,或一万个或更多基因的离散属性值。
如细胞1(126-1)所示,细胞1(126-1)进一步包含细胞1(123-1-1)的ATAC峰1的ATAC峰片段计数125-1-1、细胞1(123-2-1)的ATAC峰2的ATAC峰片段计数125-2-1,以及其它ATAC峰片段计数直到细胞1的ATAC峰L的ATAC峰片段计数(125-L-1)。在一些实施例中,对于特征条形码矩阵121中表示的多个细胞中的每个细胞,在特征条形码矩阵121中存在10个或更多、100个或更多、1000个或更多,或一万个或更多ATAC峰的ATAC峰片段计数。
对于ATAC数据,在典型的实施例中,没有基因表达的测量。ATAC峰计数125的度量是每个被称为峰123的片段(或UMI),其中峰123对应于可及染色质的基因组区域。因此,对于ATAC数据,特征条形码矩阵含有峰123中片段125的计数而不是基因表达。
在一些实施例中,特征条形码矩阵121-1包括500或更多个细胞、1000或更多个细胞、10,000或更多个细胞、15,000或更多个细胞、20,000或更多个细胞、25,000或更多个细胞、30,000或更多个细胞,或50,000或更多个细胞的ATAC峰数据和基因表达离散属性值。
在一些实施例中,数据集进一步存储多个GEX主成分值164和/或二维GEX数据点166和/或用于多个细胞中的每个相应细胞126的一个或多个GEX类别170分配。图1B以实例的方式示出了为离散属性值数据集120-1的特征条形码矩阵121-1的细胞126-1存储的GEX主成分值1(164-1-1)到主成分值N(164-1-N)。GEX主成分164基于特征条形码矩阵上的离散属性值124而不是片段计数125的主成分分析。
在一些实施例中,主成分分析的应用可以显著降低(例如,降低至少5倍、至少10倍、至少20倍或至少40倍)GEX数据的维度(例如,从大约20,000维至十维)。即,主成分分析用于为每个相应细胞分配多个GEX主成分,这些GEX主成分共同描述相应细胞的mRNA表达水平相对于数据集中其它细胞的相应mRNA表达水平的变化。即,每个相应细胞具有相同组的GEX主成分,并且主成分分析根据相应细胞相对于其它细胞表现出的mRNA表达的变化为每个相应细胞的这些GEX主成分分配不同的值。
图1B还示出了细胞1(158-1)的GEX聚类分配、细胞1(170-1-1)的GEX类别分配1,包括GEX类别分配1(172-1-1-1)的类1到GEX类别分配1(172-1-1-M)的类M,直到细胞1(170-1-Q)的GEX类别分配Q,包括GEX类别分配Q(172-1-Q-1)的类1到GEX类别分配Q(172-1-Q-Z)的类Z。这些类别和类分配基于(i)由特征条形码矩阵表示的多个细胞上的离散属性值124的主成分分析或(ii)离散属性值124本身而非ATAC片段计数125。在一些实施例中,在特征条形码矩阵121-1中表示的每个细胞具有五个或更多个GEX主成分值、十个或更多个GEX主成分值,或者二十个或更多个GEX主成分值。在一些实施例中,由特征条形码矩阵表示的多个细胞被聚类成3个或更多个、4个或更多个、5个或更多个、6个或更多个、7个或更多个、8个或更多个、9个或更多个、10个或更多个、15个或更多个或者20个或更多个GEX簇。
在一些替代实施例中,离散属性值数据集120基于离散属性值而不是峰的片段计数来存储多个细胞中的每个相应细胞126的GEX二维数据点166(例如,图1B中的细胞1的二维数据点166-1),但不存储多个主成分值164。在一些实施例中,每个离散属性值代表在相应细胞中测量的mRNA的数目,其映射到细胞基因组中的相应基因,并且离散属性值数据集进一步包含每个细胞的总RNA计数。
在一些实施例中,数据集进一步存储用于多个细胞中的每个相应细胞126的多个ATAC主成分值165和/或二维ATAC数据点167和/或一个或多个ATAC类别171分配。
在一些实施例中,主成分分析的应用可以显著降低(例如,降低至少5倍、至少10倍、至少20倍或至少40倍)ATAC数据的维度(例如,从大约20,000维到十维)。即,主成分分析用于为每个相应细胞分配多个ATAC主成分,这些ATAC主成分共同描述相应细胞的ATAC峰的ATAC片段计数相对于数据集中其它细胞的相应ATAC峰的ATAC片段计数的变化。即,每个相应细胞具有相同组的ATAC主成分(例如,ATAC成分1至10),并且主成分分析根据相应细胞相对于其它细胞表现出的ATAC峰的ATAC片段计数的变化,为每个相应细胞的这些ATAC主成分分配不同的值。
图1C以实例的方式示出了为离散属性值数据集120-1的特征条形码矩阵121-1的细胞126-1存储的ATAC主成分值1(165-1-1)到主成分值P(165-1-P)。ATAC主成分165基于由特征条形码矩阵而不是GEX离散属性值124表示的细胞上的ATAC片段计数125的主成分分析。图1C还示出了细胞1(159-1)的ATAC聚类分配、细胞1(171-1-1)的ATAC类别分配1,包括类别分配1(173-1-1-1)的类1到类别分配1(173-1-1-M)的类M,细胞1(171-1-P)的类别分配P,包括类别分配P(173-1-P-1)的类1到类别分配P(172-1-P-W)的类W。这些类别和类分配基于(i)特征条形码矩阵内的ATAC片段计数125的主成分分析或(ii)ATAC片段计数125本身而非GEX离散属性值125。在一些实施例中,在特征条形码矩阵121-1中表示的每个细胞具有五个或更多个ATAC主成分值、十个或更多个ATAC主成分值,或者二十个或更多个ATAC主成分值。在一些实施例中,由特征条形码矩阵表示的多个细胞被聚类成3个或更多个、4个或更多个、5个或更多个、6个或更多个、7个或更多个、8个或更多个、9个或更多个、10个或更多个、15个或更多个或20个或更多个ATAC簇。在一些实施例中,由给定特征条形码矩阵的多个细胞表示的ATAC簇的数目独立于(例如不同于)由给定特征条形码矩阵的多个细胞表示的GEX簇的数目。作为非限制性实例,在一个示例中,由特征条形码矩阵表示的多个细胞被划分为13个GEX簇,并且由特征条形码矩阵表示的该相同的多个细胞被划分为17个ATAC簇。当然,尽管由给定特征条形码矩阵的多个细胞表示的ATAC簇的数目独立于由给定特征条形码矩阵的多个细胞表示的GEX簇的数目,但簇的数目也可能一致地相同。作为其非限制性实例,在另一示例中,由特征条形码矩阵表示的多个细胞被划分为10个GEX簇,并且由特征条形码矩阵表示的该相同的多个细胞被划分为10个ATAC簇。
在一些实施例中,特征条形码矩阵121还包括由特征条形码矩阵121基于ATAC数据跨多个细胞对每个细胞的每个基因193的推断计数194/195。在这样的实施例中,如图20所示,“附近基因”总计数194将给定细胞内靠近给定基因的单个ATAC峰相加,而“启动子总和”总计数195将给定细胞内重叠基因启动子区的ATAC峰相加。例如,如果在数据集中存在三个靠近GZMB基因的被称为ATAC峰和两个靠近启动子的峰,则GZMB附近基因条目194将含有每个细胞条码(例如,由特征条码矩阵121表示的每个细胞)在这三个ATAC峰的片段计数的总和,并且对于每个细胞条形码(例如,对于由特征条形码矩阵121表示的每个细胞),GZMB启动子总和条目195将含有跨与启动子相邻的两个ATAC峰的片段计数的总和。这样,对于GZMB,将存在多个条目194和195,每个这样的条目194和195表示多个细胞中的不同细胞。
投影。
在一些实施例中,2-D t分布随机相邻实体(t-SNE)投影196是基于由特征条形码矩阵表示的多个细胞126上的有效GEX主成分值164来计算的。t-SNE是一种用于降维的机器学习算法。参见van der Maaten和Hinton,2008,《使用t-SNE可视化高维数据(VisualizingHigh-Dimensional Data Using t-SNE)》,《机器学习研究杂志(Journal of MachineLearning Research)》9,2579-2605,其通过引用并入本文。非线性降维技术t-SNE特别适合于将高维数据(这里,GEX主成分值164是基于通过主成分分析确定的相应细胞126中的每个基因122(例如,表达的mRNA)的测量的离散属性值124(例如,表达水平)为每个测量的细胞计算的)嵌入到二的空间中,然后可以将其可视化为二维可视化。在一些实施例中,t-SNE用于将每个高维对象(每个测量细胞的GEX主成分164)建模为二维点,其方式使得在t-SNE投影中,类似表达的细胞被建模为附近的二维数据点,而不同表达的细胞被建模为远处的二维数据点。t-SNE算法包含两个主要阶段。首先,t-SNE在高维细胞向量(主成分值的向量)对上构建概率分布,使得相似的细胞向量(对于它们的GEX主成分164具有相似值并因此假定在多个基因上可能具有相似的离散属性值124的细胞)具有被挑选的高概率,而不同类型的细胞向量(对于它们的GEX主成分具有不同值并因此假定在多个基因上具有不同的离散属性值124的细胞)具有被挑选的小概率。其次,t-SNE定义了在低维图中的多个细胞126上的相似概率分布,并且它最小化了关于图中的点的位置的两个分布之间的Kullback–Leibler散度。在一些实施例中,t-SNE算法使用对象之间的欧几里得距离(Euclidean distance)作为其相似性度量的基础。在其它实施例中,使用其它距离度量(例如,切比雪夫距离(Chebyshev distance)、马哈拉诺比斯距离(Mahalanobis distance)、曼哈顿距离(Manhattan distance)等)。
在一些实施例中,t-SNE投影198还基于由特征条形码矩阵表示的多个细胞126上的有效ATAC主成分值165来计算。在这样的实施例中,t-SNE将基于通过主成分分析确定的相应细胞126中的每个ATAC峰123的测量ATAC片段计数125为每个测量细胞126计算的ATAC主成分值165嵌入到二的空间中,然后可以将其可视化为二维可视化。在一些这样的实施例中,t-SNE用于将每个高维对象(每个测量细胞的ATAC主成分165)建模为二维点。如在上述GEX t-SNE计算的情况下,ATAC t-SNE算法包含两个主要阶段。首先,ATAC t-SNE在高维细胞向量(ATAC主成分值165的向量)对上构建概率分布,使得相似的细胞向量(对于它们的ATAC主成分165具有相似值并因此假定在多个ATAC峰123上可能具有相似的ATAC片段计数125的细胞)具有被挑选的高概率,而不同类型的细胞向量(对于它们的ATAC主成分具有不同值并因此假定在多个ATAC峰123上具有不同的ATAC片段计数125的细胞)具有被挑选的小概率。其次,t-SNE定义了在低维图中的多个细胞126上的相似概率分布,并且它最小化了关于图中的点的位置的两个分布之间的Kullback–Leibler散度。在一些实施例中,ATAC t-SNE算法使用对象之间的欧几里得距离作为其相似性度量的基础。在其它实施例中,使用其它距离度量(例如,切比雪夫距离、马哈拉诺比斯距离、曼哈顿距离等)。
在一些实施例中,GEX 2-D均匀流形近似和投影(UMAP)投影197是基于由特征条形码矩阵表示的多个细胞126上的有效GEX主成分值164来计算的。UMAP描述于McInnes和Healy,2018,《UMAP:均匀流形近似和投影降维(UMAP:Uniform Manifold Approximationand Projection for Dimension Reduction)》,ArXiv电子印本1802.03426,其通过引用并入本文。相应地,在一些实施例中,ATAC 2-D UMAP投影199是基于由特征条形码矩阵表示的多个细胞126上的有效ATAC主成分值165来计算的。因此,用户能够探索由两种不同分析物生成的分类和散点图:ATAC和GEX。
ATAC峰和GEX基因的基因组位置。
在一些实施例中,离散属性数据集120进一步包括每个ATAC峰和每个基因的基因组位置。在一些实施例中,对于每个这样的特征,该信息被存储在三个位置阵列的每一个中,即染色体索引阵列180、起始位置阵列183和结束位置阵列185。因此,特征条形码矩阵121中的特征i(基因122或ATAC峰123)的边界由这三个阵列的第i个值定义。这样,可以确定这些特征在基因组图中的位置,并且还可以确定连锁特征之间的距离。例如,给定基因i的染色体数目位于染色体索引180的阵列的第i条目182,给定基因i的起始位置位于起始位置183的阵列的第i条目184,并且给定基因i的结束位置位于结束位置185的阵列的第i条目186。这样,对于特征i,可以在location.chromosome[i]、location.starts[i]和location.ends[i]找到特征的染色体、起始位置和结束位置,其中location.chromosome[i]、location.starts[i]、location.ends[i]分别是染色体索引阵列180、起始位置阵列183和结束位置阵列18。在一些实施例中,染色体索引阵列180、起始位置阵列183和结束位置阵列185是可被存储为gzip压缩块的整数阵列。
特征连锁矩阵。
在同一细胞内基因表达和染色质可及性的测量提供了连接相关表达和可及性模式的机会。发现开放DNA区域和从附近序列转录的mRNA之间的强相关性可以揭示在我们的DNA中编码的指令如何触发所执行的细胞程序。例如,给定感兴趣的特征(基因或峰),查询离散属性值数据集120中的连锁矩阵和其它结构(例如,以.cloupe文件的形式)有效地提供(i)感兴趣的基因或峰的染色体位置,(ii)与该基因或峰连锁的特征的标识和位置,以及(iii)那些连锁的相关性,以及那些连锁的显著性。因此,参考图1D,离散属性值数据集120的一些实施例进一步包括峰特征之间以及峰与基因特征之间的特征连锁矩阵187。因为连锁是对称的(例如,连锁(a,b)=连锁(b,a)),所以在优选实施例中,这些连锁以三角矩阵形式存储。
在一些实施例中,存在这样的限制,即为了包括在矩阵中,特征(ATAC峰123和基因122)必须在同一染色体上并且在彼此的某个阈值距离内。在一些实施例中,该阈值距离是1兆碱基。即,两个峰(或峰和基因)必须在同一染色体上映射到彼此的1兆碱基内,以被记录为在特征连锁矩阵187内连锁。在替代实施例中,阈值距离是1.5兆碱基、2.0兆碱基、2.5兆碱基、3.0兆碱基、3.5兆碱基、4.0兆碱基、4.5兆碱基、5.0兆碱基、5.5兆碱基、6.0兆碱基、在1.5和6.0兆碱基之间,或大于6.0兆碱基的某个值。由于特征条形码矩阵121包括来自人和其它基因组的千兆碱基的基因和ATAC峰,这种限制确保了特征连锁矩阵187极其稀疏。因此,在一些实施例中,特征连锁矩阵以压缩稀疏行(CSR)格式作为稀疏矩阵存储在持久性存储器112中。在一些实施例中,在特征连锁矩阵187中有四个阵列,指针阵列(P)(188)、索引阵列(X)(190)、相关性阵列(C)(191)和显著性阵列(S)192。
相关性阵列C(191)含有连锁特征之间的R值相关性(从-1,表示完全对立,到1,表示完全对准)。显著性阵列S(192)含有连锁的统计显著性,定义为错误发现率的负对数。较高的显著性意味着连锁不太可能是由于随机采样。
指针阵列(P)188的长度为L+M+1,其中L+M是在特征条形码矩阵121中相应表示的基因和ATAC峰的总数。例如,如果特征条形码矩阵为由特征条形码矩阵121表示的多个细胞126上的总共21个不同基因和总共30个不同ATAC峰提供GEX离散属性值,则指针阵列具有21+30+1=52的长度。在一些实施例中,指针阵列188中的值P[i]和P[i+1]定义其它三个阵列(索引阵列190、相关性阵列191和显著性阵列192)中的最小和最大索引,以检索关于连锁到特征条形码矩阵的特征i的特征的信息。子集X[P[i]]:X[P[i+1]]含有连锁到特征i的其它特征的行索引,C[P[i]]:C[P[i+1]]含有X中特征i与其它特征之间的相应相关性,同样S[P[i]]:S[P[i+1]]含由特征i和索引阵列X(190)中相同范围上的特征之间的连锁之间的相应显著性。例如,对于特征20,查阅指针阵列180中的第20和第(20+1)索引以检索两个值(例如,1137和1530)。这两个值1137和1530定义了在索引阵列190内使用的最小和最大索引,以了解连锁到特征20的每个基因或峰的标识。这两个值1137和1530进一步定义了在相关性阵列191中使用的最小和最大索引,以了解连锁到特征20的每个基因或峰的相关性。最后,这两个值1137和1530进一步定义了在显著性阵列192中使用的最小和最大索引,以了解连锁到特征20的每个基因或峰的显著性。索引阵列190、相关性阵列191和显著性阵列192的稀疏格式允许在离散属性值数据集120(例如,cloupe文件)内的持久性存储器112中的有效存储。此外,在一些实施例中,索引阵列190、相关性阵列191和显著性阵列192以具有索引的块gzip格式存储,使得随机选择的特征的连锁的查找是有效的,并且不需要将整个特征连锁矩阵加载到非持久性存储器111中。
尽管图1A、1B、1C和1D描绘了“可视化系统100”,但这些图更旨在作为可以存在于计算机系统中的各种特征的功能描述,而不是作为本文描述的实现方式的结构示意图。在实践中,并且如本领域普通技术人员所认识到的,单独示出的项目可以被组合并且一些项目可以被分离。此外,尽管图1A描述了非持久性存储器111中的某些数据和模块,但是这些数据和模块中的一些或全部可以在持久性存储器112中。此外,虽然离散属性值数据集120被描绘为驻留在持久性存储器112中,但是在所公开的方法的各个阶段,离散属性值数据集120的一部分实际上驻留在非持久性存储器111中。
方法。
虽然已经参考图1A和1B公开了根据本公开的系统,但是现在参考图2A、2B和2C详细描述了根据本公开的方法。
框202。本公开的一个方面提供了一种可视化系统100。可视化系统100包含一个或多个处理核102、非持久性存储器111和持久性存储器111,持久性存储器和非持久性存储器共同存储用于执行方法的指令。图1A、1B、1C和1D共同示出了可视化系统的非限制性实例。如上所述,应当理解,持久性存储器和/或非持久性存储器可以在单个计算机上,分布在计算机网络上,由一个或多个虚拟机表示,或者是云计算体系结构的一部分。
框204-将离散属性值数据集120存储在持久性存储器中。本公开的系统和方法用于将离散属性值数据集120存储在持久性存储器112中。参考图1B、1C和1D,离散属性值数据集120包含多个细胞中的每个相应细胞126的多个基因中的每个基因122的对应离散属性值124。数据集120进一步包含多个细胞中的每个相应细胞126的多个ATAC峰中的每个ATAC峰123的对应ATAC片段计数125。图3示出了使用浏览器模块119对特定离散属性值数据集120的选择。具体地,图3示出了浏览器模块119如何提供关于给定离散属性值数据集120的一些信息,诸如其类型、其名称、由离散属性值数据集120表示的细胞126的数目(如果有的话),以及最后一次访问离散属性值数据集的时间。
在一些实施例中,每个离散属性值124是细胞内映射到多个基因中的相应基因的转录本读数的计数。在一些实施例中,离散属性值数据集120的离散属性值124代表全转录组鸟枪法测序实验,该实验在映射到基因的转录本读数的计数中量化来自单细胞的基因表达。在一些这样的实施例中,微流体分区用于分隔非常少量的mRNA分子并对这些分区进行条形码标记。在一些这样的实施例中,在从单细胞测量离散属性值的情况下,微流体分区用于捕获每个微流体液滴内的单个细胞,然后这些液滴中的每个液滴内的单个条形码的集合用于标记给定细胞的所有内容物(例如,基因122)。例如,在一些实施例中,取样约750,000个条形码的集合,以通过将数千个细胞分成纳升级凝胶乳液珠(GEM)来分别索引每个细胞的转录组,其中所有生成的cDNA共享共同的条形码。从cDNA生成文库并测序,条形码用于将各个读数与各个分区相关联。换句话说,每个相应液滴(GEM)被分配有其自己的条形码,并且相应液滴中的所有内容物(例如,基因的mRNA)用对相应液滴唯一的条形码标记。在一些实施例中,如Zheng等人,2016,《自然生物技术(Nat Biotchnol.)》34(3):303-311中所述形成此类液滴;或参见铬,单细胞3′试剂盒v2用户指南,2017,10X Genomics,加利福尼亚普莱森顿,《物理评论B(Rev.B)》,第2页,其各自通过引用并入本文。在一些替代实施例中,使用等效的5'化学而非这些参考文献中所公开的3'化学。
在一些实施例中,存在几十、几百、几千、几万或几十万个这样的微流体液滴。在一些这样的实施例中,至少70%、至少80%、至少90%、至少90%、至少95%、至少98%或至少99%的相应微流体液滴不含细胞126或含单个细胞126,而剩余的微流体液滴含两个或更多个细胞126。换句话说,为了实现单细胞分辨率,以有限稀释递送细胞,使得生成的纳升级凝胶乳液珠(GEM)的大部分(约90至99%)不含细胞,而剩余的大部分含有单个细胞。参见铬,单细胞3′试剂盒v2用户指南,2017,10X Genomics,加利福尼亚普莱森顿,《物理评论B》,第2页,其通过引用并入本文。在一些替代实施例中,使用等效的5'化学而非此参考文献中所公开的3'化学。
在单个液滴内,凝胶珠溶解将扩增引物释放到分配的溶液中。在一些实施例中,当单细胞3'凝胶珠溶解在GEM中时,含有(i)Illumina R1序列(读数1测序引物),(ii)16bp10x条形码,(iii)10bp唯一分子标识符(UMI)和(iv)polydT引物序列的引物被释放并与细胞裂解物和主混合物混合。孵育GEM然后从多腺苷酸化mRNA产生条形码化的全长cDNA。孵育后,破碎GEM并回收汇集的级分。参见铬,单细胞3′试剂盒v2用户指南,2017,10X Genomics,加利福尼亚普莱森顿,《物理评论B》,第2页,其通过引用并入本文。在一些这样的实施例中,使用硅烷磁珠从后GEM反应混合物中去除剩余的生化试剂和引物。然后通过PCR扩增全长的条形码化cDNA以生成足够的质量用于文库构建。
以这种方式,基因122可以被映射到物种基因组中的各个基因,因此它们可以被测序,此外,给定细胞126的基因122的mRNA可以基于唯一的条形码与另一细胞126的基因的mRNA区分开。这与批量测序技术形成对比,在批量测序技术中,将所有细胞汇集在一起,并且测量图谱是整个细胞集合的基因的测量图谱,而不具有区分各个细胞的基因测量信号的能力。美国专利公开号2015/0376609中公开了这样的测量技术的实例,其通过引用并入本文。因此,在一些实施例中,映射到多个细胞中的特定细胞中的每个基因的序列读数用特定细胞唯一的第一条形码进行条形码化。
在一些实施例中,RNA基因表达和DNA染色质可及性的物理测量来自相同细胞。即,该测定同时测量来自相同细胞的RNA和可及染色质。图19示出了这种测定的一个非限制性实例示意图。特别地,图19的图1900示出了对应于来自细胞、细胞珠或细胞核的染色质的处理的工作流程,而图19的图1950示出了对应于来自细胞、细胞珠或细胞核的mRNA分子的处理的工作流程。
如图1900所示,在本体溶液中,对包括在细胞、细胞珠或细胞核内的染色质进行处理(例如,如本文所述)以提供包含插入序列1908(例如,开放染色质的区域)及其互补物、转座子末端序列1906及其互补物、测序引物或其部分1902(例如,R1序列)、测序引物或其部分1910(例如,R2序列)和缺口1907的模板核酸片段(例如,标记片段)1904。然后,模板核酸片段1904可以被分区成液滴或孔,如本文所述。在该分区内,包含模板核酸片段1904的细胞、细胞珠或细胞核可以被裂解、透化或以其它方式处理以提供进入其中的模板核酸片段1904(和一种或多种RNA分子)。分区可以包含夹板序列1912。在一些实施例中,夹板序列1912包含与测序引物或其部分1902互补的第一序列1902'和第二序列1924。在一些实施例中,序列1924包含阻止逆转录延伸的阻断基团(例如,3'阻断基团)。该分区还可以包括偶联至核酸条形码分子1918a和1918b的珠(例如,凝胶珠)1916。核酸条形码分子1918a可以包含流式细胞衔接子序列1920a(例如,P5序列),条形码序列1922a和与夹板序列的序列1924互补的突出端序列1924'。序列1924可以与序列1924'杂交以提供包含核酸条形码分子1918a的序列和模板核酸片段1904的部分双链核酸分子。在一些实施例中,核酸条形码分子1918a的序列1924'连接(例如,使用连接酶)1926至模板核酸片段1904的序列1902。在一些情况下,使用合适的激酶(例如,多核苷酸激酶(PNK),诸如T4 PNK)将1904磷酸化。在一些实施例中,在标记反应(例如,ATAC)中和/或在分区细胞、细胞珠或细胞核之前大量添加PNK和ATP。可以将15U的PNK与1mM ATP掺加到标记反应中。例如,少于95U的PNK可以掺加到标记反应中。然后可以在本体溶液中回收分区的内容物(例如,可以破碎液滴),以在本体溶液中提供包含附着于模板核酸片段1904的核酸条形码分子1918a的部分双链核酸分子。在本体溶液中,缺口1907可以通过缺口填充延伸过程(例如,使用DNA聚合酶)填充1928以提供双链核酸分子。该分子可以进行扩增(例如,PCR)1930以提供双链扩增产物1932,其包括核酸条形码分子1918a的序列、原始染色质分子,和可选地,可以是流式细胞衔接子序列(例如,P7序列)的附加序列1934。缺口可以在批量处理之前填充在分区中。
与图1900的染色质工作流程平行,可以处理来源于相同细胞、细胞珠或细胞核的RNA分子。如图1950所示,包含RNA序列1960和polyA序列1962的RNA分子1958和珠(例如,凝胶珠)1916提供在分区内。在一些实施例中,珠(例如,凝胶珠1916,诸如在图1900中描述的相同珠)包括在分区内并且偶联至核酸条形码分子1918b。核酸条形码分子1918b可以包含流式细胞衔接子序列1968(例如,P5序列)、条形码序列1922b(例如,与条形码序列1922a相同的条形码序列)、UMI序列1966,和与polyA序列1962互补的polyT序列1964。在一些情况下,核酸条形码分子1918b可以包含测序引物序列1968(例如,R1序列或部分R1序列)、条形码序列1922b(例如,与条形码序列1922a相同的条形码序列)、UMI序列1966和与polyA序列1962互补的polyT序列1964。PolyT序列1964可以与RNA分子1958的polyA序列1962杂交。RNA分子1958可以从polyT序列1964逆转录1970,以提供包含cDNA序列1972的cDNA分子。逆转录方法可以使用具有末端转移酶活性的逆转录酶,其将序列1974附加到包含cDNA序列1972的所得cDNA分子上。在一些实施例中,序列1974是polyC序列。包含引物序列1980和与序列1974互补的序列(例如,polyG序列)的模板转换寡核苷酸1978可以与cDNA分子杂交。在本体溶液中回收分区的内容物(例如,可以破碎液滴)以提供本体溶液中的cDNA分子。cDNA分子进行扩增(例如,PCR)1984。可以进行额外的扩增(例如,PCR)1986以提供双链扩增产物1988,其包括核酸条形码分子1918b的序列、与其对应的原始RNA分子或cDNA、流式细胞衔接子序列1998(例如,P7序列),和可以包含测序引物或其部分(例如,R2序列)1996的额外序列1990、样品索引序列1994,和流式细胞衔接子序列(例如,P5序列)1992。条形码化的cDNA分子还可以或替代地进行片段化、末端修复、dA加尾、一个或多个衔接子序列的连接,和/或核酸扩增。用于收集离散属性值数据集120的ATAC和GEX数据的其它方案在2020年2月12日提交的题为《用于处理核酸分子的方法(Methods for Processing Nucleic AcidMolecules)》的美国专利申请第16/789,287号中有描述,该申请通过引用并入本文。
与图19的工作流程一致,在一些实施例中,在将特定细胞126与多个细胞中的所有其它细胞分离成其自己的微流体分区之后,确定多个细胞中的特定细胞126中的每个基因122的离散属性值124和开放染色质的每个区域(ATAC峰123)的ATAC片段计数125。这样的实施例提供了探索细胞之间的异质性的能力,这是由本公开的系统和方法提供的模式分析的一种形式。在一些这样的实施例中,因为共同测量开放染色质的mRNA丰度和区域,所以每个细胞样品中的开放染色质的mRNA丰度和区域可能在细胞与细胞之间有很大差异。因此,所公开的系统和方法能够对每个细胞中哪些基因被表达和以何种水平表达,以及哪些染色质区域是开放的进行图谱分析,并使用这些基因图谱和开放的染色质图谱(GEX离散属性值124和ATAC片段计数125的记录)或由其衍生的主要成分来对细胞进行聚类并鉴定相关细胞群体。如上所述,以两种不同的方式将细胞聚类以形成簇组,GEX簇158和ATAC簇159。即,基于细胞的GEX离散属性值124对细胞进行聚类以形成第一多个GEX簇158。独立于该聚类,还基于细胞的ATAC片段计数125对细胞进行聚类以形成第二多个ATAC簇159。这允许鉴定在细胞的不同生命周期阶段或不同类型的细胞、不同的组织、不同的器官或细胞异质性的其它来源具有相似基因图谱和/或开放染色质区域的细胞。这进一步允许鉴定基因表达和开放染色质之间的任何连锁。
因此,在一些实施例中,每个细胞126对应于单个细胞,与对应细胞相关联的每个基因122表示mRNA(其映射到单个细胞的基因组中的基因),且离散属性值124是已在单个细胞中测量的mRNA的拷贝数。在一些这样的实施例中,离散属性值数据集120包括由数据集表示的每个细胞中的10个或更多个、50个或更多个、100个或更多个、1000个或更多个、3000个或更多个、5000个或更多个、10,000个或更多个,或15,000个或更多个mRNA的离散属性值124,以及由数据集表示的每个细胞中的10个或更多个、50个或更多个、100个或更多个、1000个或更多个、3000个或更多个、5000个或更多个、10,000个或更多个,或15,000个或更多个ATAC峰(开放染色质区域)的ATAC片段计数125。在一些这样的实施例中,离散属性值数据集120包括500个或更多个细胞、5000个或更多个细胞、100,000个或更多个细胞、250,000个或更多个细胞、500,000个或更多个细胞、1,000,000个或更多个细胞、1千万或更多个细胞或5千万或更多个细胞的mRNA(基因122)的离散属性值124和ATAC峰123的ATAC片段计数125。在一些实施例中,每个单细胞是人类细胞。在一些实施例中,每个细胞126表示不同的人类细胞。在一些实施例中,离散属性值数据集120包括若干不同类的人类细胞的数据(例如,表示不同的死亡状态和/或野生型状态)。在这样的实施例中,给定细胞126中基因122的相应mRNA的离散属性值124是在给定细胞中测量的相应基因的mRNA数目。这将是零或某个正整数。此外,给定细胞126中相应ATAC峰123(开放染色质区域)的ATAC片段计数125是在给定细胞中测量的相应ATAC峰123的唯一UMI计数。这将是零或某个正整数。
在一些实施例中,给定细胞126的给定基因122的离散属性值124是集合{0,1,…,100}中的数字。在一些实施例中,给定细胞126的给定基因122的离散属性值124是集合{0,1,…,50}中的数字。在一些实施例中,给定细胞126的给定基因122的离散属性值124是集合{0,1,…,30}中的数字。在一些实施例中,给定细胞126的给定基因122的离散属性值124是集合{0,1,…,N}中的数字,其中N是正整数,例如30至10,000等范围内的数字。
在一些实施例中,给定细胞126的给定ATAC峰123的ATAC片段计数125是集合{0,1,…,100}中的数字。在一些实施例中,给定细胞126的给定ATAC峰123的ATAC片段计数125是集合{0,1,…,50}中的数字。在一些实施例中,给定细胞126的给定ATAC峰123的ATAC片段计数125是集合{0,1,…,30}中的数字。在一些实施例中,给定细胞126的给定ATAC峰123的ATAC片段计数125是集合{0,1,…,M}中的数字,其中M是正整数,例如30至10,000等范围内的数字。
在一些实施例中,离散属性值数据集120包括由数据集表示的每个细胞126中的1000个或更多个、3000个或更多个、5000个或更多个、10,000个或更多个,或15,000或更多个基因122的离散属性值。在一些实施例中,离散属性值数据集120包括由数据集表示的每个细胞126中的1000个或更多个、3000个或更多个、5000个或更多个、10,000个或更多个,或15,000个或更多个ATAC峰(例如,开放染色质区域)的ATAC片段计数125。在一些这样的实施例中,离散属性值数据集120包括500个或更多个细胞、5000个或更多个细胞、100,000个或更多个细胞、250,000个或更多个细胞、500,000个或更多个细胞、1,000,000个或更多个细胞、1千万个或更多个细胞,或5千万个或更多个细胞的基因的相应离散属性值124和ATAC峰123的ATAC片段计数125。
如以上范围所指示的,本公开的系统和方法支持非常大的离散属性值数据集120,由于传统装置中的持久性存储器112的大小限制,这些数据集可能难以存储在传统装置的持久性存储器112中。此外,本公开的系统和方法被设计用于其中稀疏度明显大于20%的数据。零值元素的数目除以元素的总数(例如,对于m×n矩阵,m×n)被称为矩阵的稀疏度(其等于1减去矩阵的密度)。尽管在人类基因组中存在约有两万个基因,但大多数基因在任何给定时间都不在细胞中表达。因此,预期这种数据在许多情况下将具有接近2%的稀疏度。因此,有利地,为了解决传统计算机的持久性存储器(例如,磁驱动器或固态驱动器)112限制的大小约束,在一些实施例中,离散属性值数据集120以压缩稀疏矩阵表示来表示,该压缩稀疏矩阵表示可以基于特征(基于基因122或ATAC峰123)和基于细胞126来搜索。为了实现这一点,离散属性值数据集120以压缩稀疏行格式和压缩稀疏列格式冗余地表示多个基因中的每个基因122的对应离散属性值124以及多个细胞中的每个相应细胞126的每个ATAC峰123的对应ATAC片段计数125,其中可选地丢弃具有空离散属性数据值的相应细胞的基因或ATAC峰。
在一些实施例中,在本公开的系统和方法中使用的特征条形码矩阵121的平均密度大约为2%。因此,如果特征(基因和ATAC峰)被视为密集矩阵,则它们中仅有百分之二将具有不为零的数据。利用稀疏矩阵,丢弃所有的零。因此,稀疏矩阵允许数据集适合持久性存储器112。但是对于本公开的典型离散属性值数据集120,一旦使用了五十万个细胞126或更多的数据,存储器占用面积仍然太高。为此,在一些实施例中,数据的面向行的备用矩阵表示和面向列的备用矩阵表示都以压缩块(例如,bgzf块)的形式存储在持久性存储器112中,以支持快速差异表达分析,这需要检查各个细胞的数据(例如,基因的离散属性值)。在基因“基因3”的情况下,通过查看基因3的数据集中的地址来访问基因3的离散属性数据,从而鉴定基因3的数据所驻留的块。这样,当对离散属性值数据集120中的细胞子集进行差异表达时,首先需要单个细胞的地址。
因此,在一些实施例中,离散属性值数据集120以压缩稀疏行(CSR)格式存储。这里,术语“压缩稀疏行”可与术语“压缩稀疏列”(CSC)格式互换使用。CSR格式使用三个(一维)阵列(A,IA,JA)以行形式存储稀疏m×n矩阵M。这里,NNZ表示M中非零条目的数目(注意,这里将使用基于零的索引),并且阵列A具有长度NNZ,并且以从左到右从上到下(“行-主”)的顺序保存M的所有非零条目。阵列IA的长度为m+1。它通过该递归定义来定义:
IA[0]=0;
IA[i]=IA[i-1]+(原始矩阵中第(i-1)行上的非零元素的数目)。
因此,IA的前m个元素将索引存储到M的每行中的第一非零元素的A中,并且最后的元素IA[m]存储NNZ,即A中元素的数目,其也可以被认为是刚好超过矩阵M的末端的幻象行的第一元素的A中的索引。原始矩阵的第i行的值从元素A[IA[i]]读取到A[IA[i+1]-1](包括两端),例如从一行的开始到刚好在下一行开始之前的最后一个索引。
第三阵列JA含有A的每个元素的M中的列索引,因此也具有长度NNZ。
例如,矩阵M
Figure BDA0003870572670000271
是具有4个非零元素的4×4矩阵,因此
A=[5 8 3 6]
IA=[0 0 2 3 4]
JA=[0 1 2 1]
在上述矩阵M的一个实现方式中,每行表示不同的细胞126,并且给定行的每个元素表示与不同细胞相关联的不同特征(基因122或ATAC峰123)。此外,如果特征是基因122,则给定矩阵元素处的值表示离散属性值124,或者如果特征是ATAC峰123,则表示ATAC片段计数125。在一些实施例中,ATAC数据以CSR格式存储在第一矩阵中,并且GEX数据以CSR格式存储在第二矩阵中。在一些实施例中,ATAC数据和GEX数据以CSR格式存储在同一矩阵中。
在一些实施例中,离散属性值数据集120也以压缩稀疏列(CSC或CCS)格式存储。CSC类似于CSR,除了首先按列读取值,为每个值存储行索引,并且存储列指针。例如,CSC是(val,row_ind,col_ptr),其中val是矩阵的(从上到下,然后从左到右)非零值的阵列;row_ind是对应于该值的行索引;并且,col_ptr是每列开始的val索引的列表。在一些实施例中,ATAC数据以压缩稀疏列格式存储在第一矩阵中,并且GEX数据以压缩稀疏列格式存储在第二矩阵中。在一些实施例中,ATAC数据和GEX数据以压缩稀疏列格式存储在同一矩阵中。
除了以压缩稀疏行格式和压缩稀疏列格式冗余地表示多个基因中的每个基因122的对应离散属性值124以及多个细胞中的每个相应细胞126的多个ATAC峰中的每个ATAC峰123的ATAC片段计数125之外,在一些实施例中,根据分块压缩算法来压缩离散属性值数据集120。在一些这样的实施例中,这包括使用诸如bgzf的块压缩算法来压缩A和JA数据结构而不是IA数据结构,并将其存储在持久性存储器112中。此外,用于压缩的A的索引和用于压缩的JA的索引允许压缩数据的随机搜索。这样,尽管离散属性值数据集120被压缩,但是它可以被有效地获得和恢复。为获得特定离散属性值124而需要做的所有事情是寻找持久性存储器112中的正确块,并解压缩含有这些值的块,并从该块中读取这些值。因此,某些操作,例如像以下参考图4A描述的计算差分热图,对于本公开的系统和方法是有利地快速的,因为提前知道期望的属性值124在压缩数据的哪个块中。即,本公开的系统和方法通过查看存储在压缩值之外的稀疏矩阵的行地址值来知道特定寻找的细胞是哪一行。因此,所需要的是找出哪个块具有所寻求的基因数据以及它们的离散属性值是什么,该算法跳到含有该数据的正确块(例如,bgzf块)中的点。
在一些实施例中,除了ATAC数据之外,离散属性值数据集120代表全转录组鸟枪法测序(RNA-seq)实验,该实验在映射到基因的转录本读数的计数中量化来自单细胞的基因表达。
框206-对数据集进行聚类。在一些实施例中,一旦例如使用图3所示的界面选择了离散属性值数据集120,则浏览器模块119使用离散属性值数据集120中的离散属性值124和/或ATAC片段计数125来执行聚类可视化,如图4A、图24(例如,使用基因表达的离散属性值)、图25(例如,ATAC)以及图30A和30B(例如,基因表达和/或ATAC)所示。在典型的实施例中,存储在离散属性值数据集120中的GEX主成分值164或ATAC主成分值165用于执行聚类可视化,如图4A中针对GEX主成分值164的情况所示,GEX主成分值或ATAC主成分值是通过主成分分析方法使用基因122的离散属性值124或离散属性值数据集120的多个细胞126上的ATAC峰123的ATAC片段计数125计算的。
主成分分析(PCA)是一种数学过程,其将多个相关变量减少为较少的称为“主成分”的不相关变量。选择第一主成分,使得它考虑数据中尽可能多的可变性,并且每个后续成分考虑尽可能多的剩余可变性。PCA的目的是发现或减少数据集的维数,并鉴定新的有意义的基础变量。通过在协方差矩阵或相关矩阵中建立实际数据来实现PCA。PCA中使用的数学技术称为特征分析:利用平方和和叉积求解平方对称矩阵的特征值和特征向量。与最大特征值相关联的特征向量具有与第一主成分相同的方向。与第二大特征值相关联的特征向量确定第二主成分的方向。特征值之和等于方矩阵的轨迹,并且特征向量的最大数量等于该矩阵的行(或列)的数量。参见,例如Duda,Hart和Stork,《模式分类(PatternClassification)》,第二版,纽约约翰威立国际出版公司(John Wiley&Sons,Inc.),2000,第115至116页,其通过引用并入本文。
在一些实施例中,主成分分析或其它形式的数据简化,诸如子集选择(例如,如Hastie,2001,《统计学习精要(The Elements of Statistical Learning)》,纽约施普林格(Springer,Newyork),第55至57页中所公开的)、离散方法(例如,如Furnival和Wilson,1974,《快速回归(Regression by Leaps and Bounds)》,《技术计量学(Technometrics)》16(4),499至511中所公开的)、向前/向后逐步选择(例如,如Berk,1978,《比较子集回归过程(Comparing Subset Regression Procedures)》,《技术计量学》20:1,1至6中所公开的)、收缩方法(例如,如Hastie,2001,《统计学习精要》,纽约施普林格,第59至66页中所公开的)、脊回归(例如,如Hastie,2001,《统计学习精要》,纽约施普林格,第59至64页中所公开的)、套索技术(例如,如在Hastie,2001,《统计学习精要》,纽约施普林格,第64至65页、第69至72页、第330至331页中所公开的)、导出的输入方向方法(例如,主成分回归(PCR)、偏最小二乘(PLS)等,例如,如Viyayakurma和Schaal,2000,《局部加权投影回归:在高维空间中用于增量实时学习的O(n)算法(Locally Weighted Projection Regression:An O(n)Algorithmfor Incremental Real Time Learning in High Dimensional Space)》,第十七届国际机器学习会议(ICML2000)第1079至1086页中所公开的)或其组合用于将GEX或ATAC数据的维数减少到称为主成分或特征(例如,GEX的主成分164和ATAC的主成分165)的特定维数(例如,十维或另一维数)。
参考框208,在一些实施例中,在先前时间在远程计算机系统上执行这种聚类。即,在一些实施例中,在访问离散属性值数据集120之前已经执行了每个细胞126的聚类分配。在这样的实施例中,离散属性值数据集120包括如图1B所示的每个细胞的GEX聚类分配158以及每个细胞的ATAC聚类分配159。
在一些实施例中,在访问离散属性值数据集120之前不执行每个细胞126的聚类分配,而是在访问离散属性值数据集120之后执行GEX主成分值164和ATAC主成分值165的所有主成分分析计算。
对于根据本公开的系统和方法的一个实施例的聚类,无论在什么阶段执行,都考虑每个细胞126与十个基因122相关联的情况。在这种情况下,每个细胞126可以表达为向量:
Figure BDA0003870572670000291
其中Xi是与细胞126相关联的基因i 124的离散属性值124。因此,如果有一千个细胞126,则定义1000个GEX向量。在数据集120的基因组122中表现出相似离散属性值的那些细胞126将倾向于聚类在一起。例如,在每个细胞126是单个细胞的情况下,基因122对应于映射到这种单个细胞内的单个基因的mRNA,并且离散属性值124是这种mRNA的mRNA计数,在一些实施例中情况是离散属性值数据集120包括来自一种或多种细胞类型(例如,患病状态和非患病状态)、两种或更多种细胞类型、三种或更多种细胞类型的mRNA数据。在这种情况下,预期相似类型的细胞将倾向于在基因集(mRNA)中具有mRNA的相似值并因此聚类在一起。例如,如果离散属性值数据集120包括类a:来自患有疾病的受试者的细胞,和类b:来自没有疾病的受试者的细胞,理想的聚类分类器将离散属性值数据集120聚类成两组,其中一个簇组唯一地表示类a,另一个簇组唯一地表示类b。ATAC数据也是如此。考虑每个细胞126与十个ATAC峰123相关联的情况。在这种情况下,每个细胞126可以表达为向量:
Figure BDA0003870572670000301
其中Yi是与细胞126相关联的ATAC峰i 123的ATAC片段计数125。因此,如果有一千个细胞126,则定义1000个ATAC向量,每个细胞一个。在数据集120的ATAC峰组(开放染色质区域)中表现出相似ATAC片段计数的那些细胞126将倾向于聚类在一起。
对于根据本公开的系统和方法的另一实施例的GEX聚类,无论在什么阶段执行,都考虑其中每个细胞126与十个GEX主成分值164相关联的情况,这些主成分值共同表示数据集中的细胞上的大量基因122的离散属性值中的变化。在这种情况下,每个细胞126可以表达为向量:
Figure BDA0003870572670000302
其中Wi是与细胞126相关联的GEX主成分值164i。因此,如果有一千个细胞126,则定义这些向量中的一个。在该组主成分值164中表现出相似GEX主成分值164的那些细胞126将倾向于聚类在一起。例如,在每个细胞126是单个细胞的情况下,基因122对应于映射到这种单个细胞内的单个基因的mRNA,并且离散属性值124是这种mRNA的mRNA计数,在一些实施例中的情况是离散属性值数据集120包括来自一种或多种细胞类型(例如,患病状态和非患病状态)、两种或更多种细胞类型、三种或更多种细胞类型,或多于四种细胞类型的mRNA数据。在这种情况下,预期相似类型的细胞将倾向于在主成分集上具有相似的主成分值164,并因此聚类在一起。例如,如果离散属性值数据集120包括类a:来自患有疾病的受试者的细胞,和类b:来自患有疾病的受试者的细胞,理想的聚类分类器将离散属性值数据集120聚类成两组,其中一个簇组唯一地表示类a,另一个簇组唯一地表示类b。在一些实施例中,ATAC主成分值165同样用于将数据集中的细胞聚类成多个ATAC簇。
聚类在Duda和Hart,《模式分类和场景分析(Pattern Classification and SceneAnalysis)》,1973,纽约约翰威立国际出版公司的第211至256页(下文称为“Duda1973”)中描述,其通过引用整体并入本文。如Duda 1973第6.7节所述,聚类问题被描述为在数据集中找到自然分组之一。为了鉴定自然分组,解决了两个问题。首先,确定测量两个样品之间的相似性(或相异度)的方式。该度量(相似性量度)用于确保一个簇中的样品比其它簇中的样品更相似。第二,确定使用相似性量度将数据分区成簇的机制。
相似性量度在Duda 1973的第6.7节中讨论,其中声明开始聚类研究的一种方式是定义距离函数并计算数据集中所有样品对之间的距离矩阵。如果距离是相似性的良好量度,则相同簇中的样品之间的距离将显著小于不同簇中的样品之间的距离。然而,如Duda1973的第215页所述,聚类不需要使用距离度量。例如,可以使用非度量相似性函数s(x,x')来比较两个向量x和x'。通常,s(x,x')是对称函数,当x和x'以某种方式“相似”时其值较大。在Duda 1973的第216页提供了非度量相似性函数s(x,x')的实例。
一旦选择了用于测量数据集中的点之间的“相似性”或“不相似性”的方法,则聚类需要测量数据的任何分区的聚类质量的标准函数。使用使标准函数极端化的数据集分区来对数据进行聚类。参见Duda 1973第217页。Duda 1973第6.8节讨论了标准功能。
最近,公开了Duda等人,《模式分类》,第二版,纽约约翰威立国际出版公司,其通过引用并入本文。第537至563页详细描述了聚类。关于聚类技术的更多信息可以在Kaufman和Rousseeuw,1990,《在数据中查找组:聚类分析导论(Finding Groups in Data:AnIntroduction to Cluster Analysis)》,纽约州纽约威利出版社(Wiley);Everitt,1993,《聚类分析(Cluster analysis)》(第三版),纽约州纽约威利出版社;和Backer,1995,《聚类分析中的计算机辅助推理(Computer-Assisted Reasoning in Cluster Analysis)》,新泽西州上萨德尔河普伦蒂斯·霍尔出版社(Prentice Hall,Upper Saddle River,N.J.)中找到。参考框210至212,可以在本公开的系统和方法中使用特定的示例性聚类技术来聚类多个向量(其中多个向量中的每个相应向量包含:(i)对应细胞126的基因122的离散属性值124,(ii)对应细胞126的GEX主成分164,(iii)对应细胞126的ATAC峰123的ATAC片段计数125,或(iv)对应细胞126的ATAC主成分165)包括但不限于层次聚类(使用最近邻域算法、最远邻域算法、均链接算法、质心算法或平方和算法的聚集聚类)、k-均值聚类、模糊k-均值聚类算法以及Jarvis-Patrick聚类。
因此,在一些实施例中,对多个细胞中的每个相应细胞126的多个基因中的每个基因122的离散属性值124或从离散属性值124导出的主成分值164进行聚类,从而将多个细胞中的每个相应细胞126分配给第一多个簇中的对应GEX簇158,并从而将簇属性值分配给多个细胞中的每个相应细胞。此外,对多个细胞中的每个相应细胞126的多个ATAC峰中的每个ATAC峰123的ATAC片段计数125,或从ATAC片段计数125导出的主成分值165进行聚类,从而将多个细胞中的每个相应细胞126分配给第二多个簇中的ATAC对应簇159,并从而将簇属性值分配给多个细胞中的每个相应细胞。
参考框214,在本公开的一个实施例中,k-均值聚类用于ATAC和GEX聚类。k-均值聚类的目的是基于各个细胞的主成分(或离散属性值或ATAC片段计数)将离散属性值数据集120聚类成K个分区。参考框214,在一些实施例中,对于ATAC和GEX聚类,K是2和50之间的数,包括2和50。在一些实施例中,数字K被设置为预定数,诸如10。在一些实施例中,为特定离散属性值数据集120优化数字K。参考框216,在一些实施例中,用户使用浏览器模块119来设置数字K。
图4A示出了一个示例,其中构成来自9,461个不同细胞的mRNA GEX数据和ATAC数据的atac_gex_intron数据集120已经基于GEX主成分164被聚类成十三个簇158。在一些实施例中,对于k-均值聚类,用户在聚类之前预先选择聚类算法将计算多少个簇。在一些实施例中,没有选择预定数目的簇。相反,执行聚类直到达到预定的收敛标准。在确定预定数目的簇的实施例中,本公开的k-均值聚类然后用在二维空间中随机初始化的K个聚类中心μ1,…,μK来初始化。如上所述,对于数据集中的每个相应细胞126i,由与相应细胞126相关联的每个主成分值164构造向量Xi。在K等于10的情况下,选择十个这样的向量
Figure BDA0003870572670000321
作为十个簇的中心。然后,将对应于未被选择为簇中心的细胞126的每个剩余向量
Figure BDA0003870572670000322
分配给其最接近的簇中心:
Figure BDA0003870572670000323
其中
Figure BDA0003870572670000324
是使用目标函数的最接近μk的一组实例:
Figure BDA0003870572670000331
其中μ1,…,μK是K个簇中心,并且rnk∈{0,1}是指示细胞
Figure BDA0003870572670000332
是否属于簇k的指示符。然后,重新计算新的簇中心μk(集合
Figure BDA0003870572670000333
的均值/质心):
Figure BDA0003870572670000334
然后,如前所述,将对应于细胞126的所有向量
Figure BDA0003870572670000335
分配给最近更新的簇中心。这在不收敛时重复。可以使用多个收敛标准中的任何一个。一个可能的收敛标准是当重新计算时簇中心不改变。k-均值聚类计算每个相应细胞126的分数,该分数考虑了相应细胞和已被分配该相应细胞的簇158的质心之间的距离。在一些实施例中,该分数被存储为细胞126的簇属性值。
如图4A所示,一旦鉴定簇,就可以选择各个簇进行显示。例如,参考图4A,可以单独地选择或取消选择簇158以从面板420显示或去除它们。在图4A中,每个簇158被分配不同的颜色。面板420中的每个点表示atac_gex_intron数据集120中的9,461个细胞中的一个。此外,面板420中的每个细胞由其GEX聚类分配158着色。
如上所述,离散属性值数据集的细胞以两种不同的方式聚类,GEX和ATAC。启示450可用于根据ATAC聚类分配159重新着色面板420中的细胞。图4B示出了与图4A相同的视图,只是现在使用11个ATAC聚类分配159而不是13个GEX聚类分配来对细胞着色。此外,在图4B中,面板420中的每个细胞由其ATAC聚类分配159着色。这样,图4B示出了在第一面板420中基于将多个细胞分配给(i)第一多个簇组或(ii)第二多个簇组(在图4B的情况下,GEX簇组158)中的一个来显示多个细胞的二维投影(GEX t-SNE)。图4B进一步示出了对于多个细胞中的每个相应细胞,在二维投影内指示(i)第一多个簇组或(ii)第二多个簇组(在图4B的情况下,ATAC簇组159)中的另一个中的成员资格,从而可视化离散属性值数据集中的模式。图4B进一步示出了(i)第一多个簇组或(ii)第二多个簇组中的另一个(在图4B的情况下,ATAC簇组159)中的多个细胞中的每个相应细胞的成员资格,这是通过将相应细胞着色为与(i)第一多个簇组或(ii)第二多个簇组中的另一个(在图4B的情况下,ATAC簇组159)中的相应细胞已被分配到的簇组唯一相关联的颜色来实现的。例如,在图27、28A至C、29A至D、32A至B和33A至D中示出了另一多个簇组中的细胞的成员资格。此外,在一些实施例中,如图26A至B所示,确定第一多个簇组和第二多个簇组之间的一致性。
回到图4A,根据本公开的系统和方法,在典型实施例中,多个簇中的每个相应簇158由多个细胞126的唯一不同子集组成。此外,因为在典型实施例中,离散属性值数据集120太大而不能加载到非持久性存储器111中,所以在典型实施例中,在聚类期间的任何给定时间,该聚类将小于整个离散属性值数据集120加载到非持久性存储器111中。例如,在使用bgzf压缩离散属性值数据集120的实施例中,在对离散属性值数据集120进行聚类期间,仅将离散属性值数据集120的块的子集加载到非持久性存储器中。一旦离散属性值数据集120的块的一个子集从持久性存储器112加载到非持久性存储器111中并且根据聚类算法(例如,k-均值聚类)进行处理,就从非持久性存储器111中丢弃数据块的子集,并且将离散属性值数据集120的块的不同子集从持久性存储器112加载到非持久性存储器111中并且根据聚类模块152的聚类算法进行处理。
在一些实施例中,使用k-均值聚类来将细胞126分配给簇158。在一些这样的实施例中,k-均值聚类使用每个细胞126的GEX主成分值164作为输入,作为将细胞聚类成簇的基础。因此,k-均值算法从较高维数的数据(GEX主成分值164的集合)计算相似的细胞簇,然后在一定分辨率之后,k-均值聚类试图最小化误差。这样,k-均值聚类提供了聚类分配158,其被记录在离散属性值数据集120中。在一些实施例中,利用k-均值聚类,用户预先决定将有多少个簇158。在一些实施例中,通过运行一系列k-均值聚类运行来利用k-均值聚类的特征,其中每个不同的运行具有不同数目的簇(K的不同值)。因此,在一些实施例中,对每个细胞122的GEX主成分数据值164执行单独的k-均值聚类,范围从两个簇到十个簇,每个k-均值聚类鉴定可分性分数(质量分数),并且每次聚类的所有结果从K=2到K=10嵌入在离散属性值数据集120中。在一些这样的实施例中,对于K=2到K=25执行这样的聚类。在一些这样的实施例中,对于K=2到K=100执行这样的聚类。在这样的实施例中默认显示的聚类是具有最高可分性分数的k-均值聚类(1,……,N)。在图4A中,每个聚类分配158的细胞以不同颜色显示在面板420中(例如,分配给簇1的细胞以红色显示,分配给簇6的细胞以绿色显示等)。在其它实施例中,每个聚类分配158的细胞以不同的点图案或散列图案显示在面板420中。
在一些实施例中,k-均值聚类还用于将细胞126分配给簇159。在一些这样的实施例中,k-均值聚类使用每个细胞126的ATAC主成分值165作为输入,作为将细胞聚类成簇的基础。因此,k-均值算法从较高维数的数据(ATAC主成分值165的集合)计算相似的细胞簇,然后在一定分辨率之后,k-均值聚类试图最小化误差。这样,k-均值聚类提供了聚类分配159,其被记录在离散属性值数据集120中。在一些实施例中,利用k-均值聚类,用户预先决定将有多少个簇159。在一些实施例中,通过运行一系列k-均值聚类运行来利用k-均值聚类的特征,其中每个不同的运行具有不同数目的簇(K的不同值)。因此,在一些实施例中,对每个细胞122的ATAC主成分数据值165执行单独的k-均值聚类,范围从两个簇到十个簇,每个k-均值聚类鉴定可分性分数(质量分数),并且每次聚类的所有结果从K=2到K=10嵌入在离散属性值数据集120中。在一些这样的实施例中,对于K=2到K=25执行这样的聚类。在一些这样的实施例中,对于K=2到K=100执行这样的聚类。在这样的实施例中默认显示的聚类是具有最高可分性分数的k-均值聚类(1,……,N)。在图4B中,分配给每个聚类分配159的细胞以不同的颜色显示。在其它实施例中,每个聚类分配159的细胞以不同的点图案或散列图案显示在面板420中。
k-均值聚类算法试图阐明数据内的相似簇158(或簇159)。不能保证簇158或簇159表示生理上重要的事件。换句话说,先验地,不知道簇158或簇159意味着什么。已知的是,算法已经确定在由不同颜色或不同散列图案或符号表示的细胞126之间存在差异。本公开的系统和方法提供了用于确定在簇之间的差异之后是否存在任何意义的工具,诸如面板404的热图。
参考框214,在本公开的一些实施例中,使用Louvain模块化算法,而不是使用k-均值聚类来聚类ATAC或GEX数据。参见,Blondel等人,2008年7月25日,《大型网络中社区的快速展开(Fast unfolding of communities in large networks)》,arXiv:0803.0476v2[physical.coc-ph],其通过引用并入本文。在一些实施例中,用户可以选择聚类算法。在一些实施例中,用户可以在至少K-均值聚类和Louvain模块化算法之间进行选择。在一些实施例中,数据集的聚类包含将Louvain模块化算法应用于映射,该映射包含多个节点和多个边。多个节点中的每个节点表示多个细胞中的一个细胞。多个节点中的相应节点的N维空间中的坐标是多个细胞中的对应细胞的一组主成分。该组主成分或者从对应细胞的多个基因的对应离散属性值124得到,或者从对应细胞的多个ATAC峰123的对应ATAC片段计数125得到,其中N是每组主成分中主成分的数目。当第一节点在第一多个节点中的第二节点的k个最近的相邻节点中时,边存在于多个节点中的第一节点和第二节点之间的多个边中,其中到第二节点的k个最近的相邻节点通过计算多个节点中除第二节点之外的每个节点与第二节点之间的N维空间中的距离来确定。在一些实施例中,该距离是欧几里得距离。在其它实施例中,使用其它距离度量(例如,切比雪夫距离、马哈拉诺比斯距离、曼哈顿距离等)。在典型实施例中,对于Louvain模块化算法,不对节点和边进行加权。换句话说,在这样的实施例中,每个节点和每个边接收相同的权重。
框218-计算每个簇的差分属性值。一旦基于GEX数据将每个细胞126分配给相应簇158,本公开的系统和方法就能够为第一多个簇中的每个相应簇158的多个基因中的每个相应基因122计算在相应簇158中的细胞126的相应子集上的相应基因122的离散属性值124相对于在除相应簇之外的第一多个簇158上的相应基因122的离散属性值124的差异,从而为第一多个簇中的每个簇158导出多个基因中的每个相应基因122的差值。例如,在一些这样的实施例中,调用差异表达算法以寻找在细胞类或其它形式的细胞标记之间不同的最高表达基因。这是一般差异表达问题的一种形式,其中有一组表达数据和另一组表达数据,要解决的问题是确定哪些基因在数据集之间差异表达。
在一些实施例中,差异表达计算为(i)在映射到特定基因的受试者簇158的每个细胞中测量的转录本的平均数(基因122的离散属性值124),和(ii)在映射到特定基因的除受试者簇之外的所有簇的每个细胞中测量的转录本的平均数的log2倍数变化。因此,考虑这样的情况,其中受试者簇含有50个细胞,并且平均每50个细胞含有100个基因A的转录本。第一多个簇中的剩余簇(GEX簇)总共含有250个细胞,平均250个细胞中的每一个含有50个基因A的转录本。这里,基因A的表达倍数变化是100/50,并且log2倍数变化是log2(100/50)=1。在图4A的下图中,以这种方式计算离散属性集120中表示的每个基因的log2倍数变化,并且这些值呈现在颜色编码的热图中。
参考图2B的框220,在一些实施例中,第一多个簇(GEX簇)中的每个相应簇158的多个基因中的每个相应基因122的差值是(i)在相应簇158中的多个细胞中的每个细胞126中测量的基因的离散属性值124的集中趋势的第一量度,以及(ii)在第一多个簇中的除相应簇之外的所有簇158的每个细胞126中测量的相应基因122的离散属性值124的集中趋势的第二量度的倍数变化。在一些实施例中,集中趋势的第一量度是在相应簇158中的多个细胞中的每个细胞126中测量的基因的所有离散属性值124的算术平均值、加权平均值、中位数、中轴数、三均值、缩尾均值、中值,或众数。在一些实施例中,集中趋势的第二量度是在第一多个簇的除相应簇之外的所有簇中的多个细胞126中的每个细胞126中测量的基因122的所有离散属性值124的算术平均值、加权平均值、中位数、中轴数、三均值、缩尾均值、中值,或众数。参考框222,在一些实施例中,倍数变化是log2倍数变化。参考框224,在一些实施例中,倍数变化是log10倍数变化。
此外,一旦还基于ATAC数据将每个细胞126分配给相应簇159,本公开的系统和方法就能够为第二多个簇(ATAC簇)中的每个相应簇159的多个ATAC峰中的每个相应ATAC峰123计算在相应簇159中的细胞126的相应子集上的相应ATAC峰123的ATAC片段计数125相对于除相应簇之外的第二多个簇159上的ATAC峰123的ATAC片段计数125的差异,从而为第二多个簇(ATAC簇)中的每个簇159导出多个ATAC峰中的每个相应ATAC峰123的差值。例如,在一些这样的实施例中,调用差异丰度算法以寻找在细胞类或其它形式的细胞标记之间不同的最高ATAC峰。这是一般差异丰度问题的一种形式,其中存在一组丰度数据和另一组丰度数据,并且要解决的问题是确定哪些峰在数据集之间差异丰富。
在一些实施例中,差异丰度被计算为(i)在映射到特定ATAC峰123的受试者簇159的每个细胞中测量的平均片段计数(峰123的ATAC片段计数)和(ii)在映射到特定ATAC峰123的除受试者簇之外的所有簇的每个细胞中测量的片段的平均数的log2倍数变化。在图4B的下图中,以这种方式计算离散属性集120中表示的每个ATAC峰(123-1到123-L)的log2倍数变化,并且这些值呈现在颜色编码热图中。
在一些实施例中,第二多个簇中的每个相应簇159的多个ATAC峰123中的每个相应ATAC峰123的差值是(i)在相应簇159中的多个细胞中的每个细胞126中测量的ATAC峰123的ATAC片段计数125的集中趋势的第一量度,以及(ii)在第二多个簇(ATAC簇)中的除相应簇之外的所有簇159的每个细胞126中测量的相应ATAC峰123的ATAC片段计数125的集中趋势的第二量度的倍数变化。在一些实施例中,集中趋势的第一量度是在相应簇159中的多个细胞中的每个细胞126中测量的ATAC峰123的所有ATAC片段计数125的算术平均值、加权平均值、中位数、中轴数、三均值、缩尾均值、中值,或众数。在一些实施例中,集中趋势的第二量度是在除相应簇之外的所有簇中的多个细胞126中的每个细胞126中测量的ATAC峰123的所有ATAC片段计数的算术平均值、加权平均值、中位数、中轴数、三均值、缩尾均值、中值,或众数。
假定基因122的离散属性值124的测量(例如,映射到给定细胞中的给定基因的mRNA的计数)通常是有噪声的,则在一些实施例中考虑此类细胞126的给定簇158中的每个细胞126中的基因122的离散属性值124的变化(例如,映射到给定细胞中的给定基因的mRNA的计数)。这类似于t检验,t检验是一种测量两个样品之间差异的统计学方法。在此,在一些实施例中,实现了统计方法,该统计方法考虑对每个细胞126测量离散数量的基因122(作为给定基因122的离散属性值124)以及对进行测量的系统中固有的方差进行建模。
因此,参考图2B的框226,在一些实施例中,在为多个簇中的每个相应簇158计算多个第一基因中的每个相应基因122的差值162之前,每个离散属性值124被归一化。参考图2B的框228,在一些实施例中,归一化包含在不将整个数据集加载到非持久性存储器111中的情况下,用具有分散的一致性估计的负二项分布来建模与多个细胞中的每个细胞相关联的每个基因的离散属性值124。此类实施例可用于例如产生基因122的离散属性值124的RNA-seq实验(例如,受生物和技术变异两者影响的mRNA读数的数字计数)。为了区分条件与噪声之间的表达式的系统变化,计数通常由负二项分布建模。参见Yu,2013,《小样品量RNA-seq实验负二项模型中的分散收缩估计(Shrinkage estimation of dispersion in NegativeBinomial models for RNA-seq experiments with small sample size)》,《生物资讯学(Bioinformatics)》29,第1275至1282页,其通过引用并入本文。
给定基因122的离散属性值124的负二项分布包括离散属性值124的分散参数,该分散参数跟踪离散属性值124的方差超过期望值的程度。参见Yu,2013,《小样品量RNA-seq实验负二项模型中的分散收缩估计》,《生物资讯学》29,第1275至1282页,和Cameron和Trivedi,1998,《计数数据的回归分析(Regression Analysis of Count Data)》,《计量经济学社会专著(Econometric Society Monograph)》30,英国剑桥,剑桥大学出版社(Cambridge University Press),其各自通过引用并入本文。所公开的系统和方法的一些实施例有利地使用所有基因122的离散属性值124的一致性估计,而不是依赖于每个基因122的离散属性值124的独立分散参数。这在本文中称为“分散的一致性估计”。分散的一致性估计对于RNA-seq实验是有利的,在RNA-seq实验中,全转录组鸟枪法测序(RNA-seq)技术以映射到基因的转录本读数的计数来量化生物样品中的基因表达,在一些实施例中,这是用于获得所公开的离散属性值124的实验的一种形式,从而同时量化许多基因的表达。基因共享生物学和技术变异的方面,因此基因特异性估计和一致性估计的组合可以产生更好的变异估计。参见Yu,2013,《小样品量RNA-seq实验负二项模型中的分散收缩估计》,《生物资讯学》29,第1275至1282页,以及Anders和Huber,2010,《序列计数数据的差异表达分析(Differential expression analysis for sequence count data)》,《基因组生物学(Genome Biol)》11,R106,其各自通过引用并入本文。例如,在一些这样的实施例中,将sSeq应用于每个基因122的离散属性值124。sSeq公开于Yu,2013,《小样品量RNA-seq实验负二项模型中的离散收缩估计》,《生物资讯学》29,第1275至1282页,其通过引用并入本文。sSeq与所比较的基因的数目非常吻合。在根据本公开的典型实验中,每个簇158可以包括数百、数千、数万、数十万或更多个细胞126,并且每个相应细胞126可以含有数百或数千个不同基因的mRNA表达数据。这样,当测试这种大的离散属性值数据集120中的差异表达时,sSeq是特别有利的。在所有RNA-seq方法中,sSeq有利地更快。其它单细胞差异表达方法也存在并可用于一些实施例中,但它们被设计用于较小规模的实验。这样,在本公开的一些实施例中,实践了sSeq,以及更具体地,通过对与具有负二项分布的细胞中的每个细胞126相关联的每个基因122的离散属性值124进行建模来归一化离散属性值的技术,该负二项分布具有分散的一致性估计,而无需将整个离散属性值数据集120加载到非持久性存储器111中。在一些实施例中,在计算用于sSeq计算的参数的情况下,检查每个基因的离散属性值以获得所有基因的离散值。这里,尽管访问基因的所有离散属性值以进行计算,但是离散属性值并不都同时从持久性存储器112中读取。在一些实施例中,离散属性值通过遍历压缩数据块来获得,一次遍历几个块。即,将数据集中由少数压缩块组成的一组块从持久性存储器加载到非持久性存储器中,并对其进行分析以确定该组块代表哪些基因。对于在该组块中编码的每个基因,跨多个细胞的离散属性值的阵列被确定并用于计算在多个细胞上的这些基因的方差或其它所需参数。重复该过程,其中将新的一组块从持久性存储器加载到非持久性存储器中,分析以确定在新的一组块中编码哪些基因,然后在从非持久性存储器中丢弃该组块之前,用于计算在新的一组块中编码的每个基因跨多个细胞的这些基因的方差或其它所需参数。这样,在任何给定时间,仅有有限量的离散属性值数据集120被存储在非持久性存储器111中(例如,含有特定基因的离散属性值的特定块的数据)。此外,在一些实施例中,本公开的系统和方法能够计算给定基因的离散属性值中的方差,因为其在存储在单个bgzf块中的整个离散属性值数据集120上获得该特定基因的所有离散属性值。一旦为基因(或基因的离散属性值)计算了方差或其它所需参数,则已经被加载到非持久性存储器111中以执行计算的所访问的一组bgzf块(其是数据集中的bgzf块的总数的子集)被从非持久性存储器中丢弃,并且要对其执行这种计算的另一组bgzf块被从持久性存储器112加载到非持久性存储器111中。在一些实施例中,当存在多个处理核102时,此类过程并行地运行(例如,每个基因一个过程)。即,每个处理核同时分析数据集中不同的相应组块,并计算相应组块中表示的那些基因的统计数据。
在这样的归一化之后,在一些实施例中,对于每个相应基因122,对于细胞126的每个簇158计算每个基因122的平均(或集中趋势的某一其它量度)离散属性值124(例如,基因122的计数)。因此,在存在细胞126的第一簇158-1和第二簇158-2的情况下,计算跨第一簇158-1的所有细胞126的基因“A”的平均(或集中趋势的某一其它量度)离散属性值124,以及跨第二簇158-2的所有细胞126的基因“A”的平均(或集中趋势的某一其它量度)离散属性值124,并且由此,计算每个基因相对于第一簇的差值。这对给定簇中的每个基因122重复进行。对多个簇中的每个簇158进一步重复。在一些实施例中,存在所考虑的其它因素,例如当数据证明有噪声时,调整离散属性值124中的方差的初始估计。在存在多于两个簇的情况下,计算跨第一簇158-1的所有细胞126的基因A的平均(或集中趋势的某一其它量度)离散属性值124和跨剩余簇158-2的所有细胞126的基因A的平均(或集中趋势的某一其它量度)离散属性值124,并将其用于计算差值。
此外,在一些实施例中,对于每个相应ATAC峰123,对于细胞126的每个簇159计算每个ATAC峰123的平均(或集中趋势的一些其它量度)ATAC片段计数125(例如,ATAC峰123的计数)。因此,在存在细胞126的第一簇159-1和第二簇159-2的情况下,计算跨第一簇159-1的所有细胞126的ATAC峰“A”的平均(或集中趋势的某一其它量度)ATAC片段计数125,以及跨第二簇159-2的所有细胞126的ATAC峰“A”的平均(或集中趋势的某一其它量度)ATAC片段计数125,并且由此,计算每个ATAC峰相对于第一簇159-1的差值。这对于给定簇中的每个ATAC峰123重复进行。对第二多个簇中的每个簇159进一步重复。在一些实施例中,存在所考虑的其它因素,例如当数据证明有噪声时,调整ATAC片段计数125中的方差的初始估计。在存在多于两个簇的情况下,计算跨第一簇159-1的所有细胞126的ATAC峰A的平均(或集中趋势的某一其它量度)ATAC片段计数125和跨剩余簇159-2的所有细胞126的ATAC峰A的平均(或集中趋势的某一其它量度)ATAC片段计数125,并将其用于计算差值。
框230-显示热图。参考图4A,一旦已经计算或以其它方式获得第一多个簇中的每个相应簇158的多个基因中的每个相应基因122的差值,则在界面400的第一面板404中显示这些差值的热图402。在图4A中,热图402包含第一多个簇中的每个簇158的多个基因中的每个相应基因122的差值的表示。如图4A所示,以颜色编码的方式示出了每个簇158(例如,簇158-1、158-4、158-7和158-10)的多个基因(例如,基因122-1至122-M)中的每个基因122的差值,以表示根据颜色键408的log2倍数变化。根据颜色键408,在特定簇158的细胞126中相对于第一多个簇中的所有其它簇被上调的那些基因122被分配更多的正值,而在特定簇158的细胞126中相对于第一多个簇中的所有其它簇被下调的那些基因122被分配更多的负值。在一些实施例中,热图可以被导出到持久性存储装置(例如,作为PNG图形、JPG图形或其它文件格式)。图29E和32C进一步示出了使用基因的差值获得的热图。
参考图4B,一旦已经计算或以其它方式获得第二多个簇中的每个相应簇159的多个ATAC峰中的每个相应ATAC峰123的差值,则在界面400的第一面板404中显示这些差值的热图402。在图4B中,热图402包含第二多个簇中的每个簇159的多个ATAC峰123中的每个ATAC峰123的差值的表示。如图4B所示,以颜色编码的方式示出了每个簇159(例如,簇158-1、158-4、158-7和158-9)的多个ATAC峰(例如,ATAC峰123-1至122-L)中的每个ATAC峰123的差值,以表示根据颜色键408的log2倍数变化。根据颜色键408,在特定簇159的细胞126中相对于第二多个簇中的所有其它簇被上调的那些ATAC峰123被分配更多的正值,而在特定簇159的细胞126中相对于第二多个簇中的所有其它簇被下调的那些ATAC峰123被分配更多的负值。在一些实施例中,热图被导出到持久性存储装置(例如,作为PNG图形、JPG图形或其它文件格式)。
框-232绘制数据集中细胞的二维图。参考图4A和4B,在一些实施例中,在第二面板420中还提供离散属性值数据集120的二维可视化(例如,如图24、25和/或30所示)。在一些实施例中,第二面板420中的二维可视化由远离可视化系统100的后端流水线来计算,并作为二维数据点166(图1B)和/或投影196或197(图1C)存储在离散属性值数据集120中。在一些实施例中,由可视化系统100(图1A)计算二维可视化420。
因为初始数据是稀疏的,在一些实施例中,在GEX数据的情况下,图4A的二维可视化420是通过基于相应细胞126中的每个基因122的相应离散属性值124计算多个细胞中的每个相应细胞126的多个GEX主成分值164来准备的。在一些实施例中,多个GEX主成分值为10。在一些实施例中,多个GEX主成分值在5和100之间。在一些实施例中,多个GEX主成分值在5和50之间。在一些实施例中,多个GEX主成分值在8和35之间。然后,对多个细胞中的每个相应细胞126的多个GEX主成分值应用降维技术,从而确定多个细胞中的每个细胞126的二维数据点166。然后,基于相应细胞的二维数据点,将多个细胞中的每个相应细胞126绘制在图4A的第二面板中。
同样,在一些实施例中,在ATAC数据的情况下,图4B的二维可视化420是通过基于相应细胞126中的每个ATAC峰123的相应ATAC片段计数125计算多个细胞中的每个相应细胞126的多个ATAC主成分值165来准备的。在一些实施例中,多个ATAC主成分值为10。在一些实施例中,多个主成分值在5和100之间。在一些实施例中,多个ATAC主成分值在5和50之间。在一些实施例中,多个ATAC主成分值在8和35之间。然后,对多个细胞中的每个相应细胞126的多个ATAC主成分值应用降维技术,从而确定多个细胞中的每个细胞126的二维数据点167。然后,基于相应细胞的二维数据点,将多个细胞中的每个相应细胞126绘制在图4B的第二面板中。
t-SNE。
在一些实施例中,应用于GEX主成分或ATAC主成分的降维技术是t-分布随机相邻实体(t-SNE)(例如,如图24、25和/或30所示)。在GEX数据的情况下,应用t-SNE时的二维数据点166的集合被存储为GEX t-SNE投影196。在ATAC数据的情况下,应用t-SNE时的二维数据点167的集合被存储为ATAC t-SNE投影198(图1D)。本公开的一个实施例提供了用于计算这种t-SNE投影的后端流水线,其在除了可视化系统100之外的计算机系统上执行。在其它实施例中,可视化系统100计算t-SNE投影。t-SNE特别适合于将基于每个基因122(例如,表达的mRNA)的测量的离散属性值(例如,表达水平)或通过主成分分析确定的相应细胞中每个ATAC峰的ATAC片段计数为每个测量的细胞计算的高维数据(例如,GEX主成分值164或ATAC主成分值165)嵌入到二的空间中,然后可以将其可视化为图4A(GEX t-SNE投影196)或图4B(ATAC t-SNE投影198)的二维可视化(例如,第二面板420的散点图)。在一些实施例中,t-SNE用于将每个高维对象(每个测量细胞的主成分)建模为二维点,其方式使得在二维图中,具有相似主成分值的细胞被建模为附近的二维数据点166/167,而具有不相似主成分值的细胞被建模为远处的二维数据点166/167。
UMAP。
在一些实施例中,应用于GEX主成分或ATAC主成分的降维技术是均匀流形近似和投影(UMAP)。在GEX数据的情况下,应用UMAP时的二维数据点166的集合被存储为GEX UMAP投影197。在ATAC数据的情况下,应用UMAP时的二维数据点167的集合被存储为ATAC UMAP投影199(图1D)。本公开的一个实施例提供了用于计算这种UMAP投影的后端流水线,其在除了可视化系统100之外的计算机系统上执行。在其它实施例中,可视化系统100计算UMAP投影。UMAP特别适合于将基于每个基因122(例如,表达的mRNA)的测量的离散属性值(例如,表达水平)或通过主成分分析确定的相应细胞中的每个ATAC峰的ATAC片段计数为每个测量的细胞计算的高维数据(例如,GEX主成分值164或ATAC主成分值165)嵌入到二的空间中,然后可以将其可视化为二维可视化。在一些实施例中,UMAP用于将每个高维对象(每个测量细胞的主成分)建模为二维点,其方式使得具有相似主成分值的细胞被建模为附近的二维数据点166/167,而具有不相似主成分值的细胞被建模为二维图中的远处的二维数据点166/167。
图4A和4B的启示460可用于在GEX t-SNE投影196、GEX UMAP投影197、ATAC t-SNE投影198和ATAC UMAP投影199中选择离散属性值数据集120。
其它降维方法。
在一些实施例中,参考图2C的框238,不是使用t-SNE或UMAP,用于将主成分值164或165减到对应的二维数据点166或167的降维技术是Sammon映射、曲线成分分析、随机邻域嵌入、等距映射、最大方差展开、局部线性嵌入或拉普拉斯特征映射。这些技术描述于vander Maaten和Hinton,2008,《使用t-SNE可视化高维数据》,《机器学习研究杂志》9,2579-2605中,其通过引用并入本文。在一些实施例中,用户可以选择降维技术。在一些实施例中,用户可以选择t-SNE、Sammon映射、曲线成分分析、随机邻域嵌入、等距映射、最大方差展开、局部线性嵌入或拉普拉斯特征映射。
参考图2C的框234,并且如图4A和4B所示,在一些实施例中,向第一多个簇(GEX簇)或第二多个簇(ATAC簇)中的每个簇158分配不同的图形或颜色代码。此外,多个实体中的每个相应细胞126在第二面板420中用不同图形或颜色代码对该相应细胞已被分配的簇158进行编码。
参考框240,在一些实施例中,通过主成分分析从多个细胞中的对应细胞中的每个基因的离散属性值或ATAC峰导出相应的多个主成分值中的每一个。在一些实施例中,在将离散属性值数据集120存储在持久性存储器中之前,在远离可视化系统100的计算机系统上执行这种分析。在这样的实施例中,数据集包括每个相应的多个主成分值。
现在已经介绍了本公开的系统和方法的整体功能,注意力转向由本公开提供的附加特征。如图4A所示,对于每个簇158,在下图404中有一行示出了由该行表示的簇158的细胞126上的每个相应基因122的平均离散属性值124与由离散属性值数据集120表示的其余细胞群体中的相应基因122的平均离散属性值124相比的倍数变化(例如log2倍数变化)。
相应地,如图4B中所示的,对于每个簇159,在下图404中有一行示出了由该行表示的簇159的细胞126上的每个ATAC峰123的平均ATAC峰片段计数125与由离散属性值数据集120表示的其余细胞群体中的相应ATAC峰123的平均ATAC峰片段计数125相比的倍数变化(例如log2倍数变化)。
再参考图4A,下图404右侧的图例408表示与群体中的平均表达相比的log2倍数变化。例如,在一种颜色编码方案中,与群体中的平均丰度相比,在给定簇158中,红色意味着较高的丰度(较高的离散属性值124),蓝色意味着较低的丰度(较低的离散属性值124)。在图4A中,表达的log2倍数变化是指(i)在映射到特定基因122的受试者簇的每个细胞中测量的转录本的平均数(离散属性值)和(ii)在映射到特定基因的除了受试者簇之外的所有簇的每个细胞中测量的转录本的平均数的log2倍值。
参考图4B,此处下图404右侧的图例408表示与群体中平均片段计数相比的log2倍数变化。例如,在一种颜色编码方案中,与群体中的平均片段计数相比,在给定簇159中,红色意味着较高的片段计数(较高的ATAC片段计数125),蓝色意味着较低的片段计数(较低的ATAC片段计数125)。在图4B中,片段计数的log2倍数变化是指(i)在映射到特定ATAC片段123的受试者簇的每个细胞中测量的ATAC片段计数的平均数和(ii)在映射到特定ATAC峰的除了受试者簇之外的所有簇的每个细胞中测量的ATAC片段计数的平均数的log2倍值。
链接窗口。为了允许用户同时看到共同的特征或比较不同的图像,本公开的一个方面利用了新颖的链接窗口。参考图4B,点击“添加窗口”启示465为离散属性值数据集120带来投影列表470以在链接窗口中打开。因此,参考图4B,GEX t-SNE投影196在面板420中是可见的,并且用户具有添加用于ATAC t-SNE投影198、ATAC UMAP投影199、GEX UMAP投影197或GEX t-SNE投影196的另一实例的窗口的选项。实际上,用户可以通过连续使用“添加窗口”启示来添加任何这些投影的多个示例。点击面板470中列出的一个投影打开操作系统116内的较小窗口中的投影。在主窗口中采取的动作,诸如改变活动类别,或显示特定特征的表达或可及性,将传播到链接窗口。
图5示出了同一离散属性值数据集120的三个并行视图:ATAC UMAP投影199、GEXt-SNE投影196和GEX UMAP投影197,具有相同的特征,ATAC峰chr2:2311671099-231673368被突出显示。换句话说,对于每个投影,由离散属性数据集120表示的多个细胞中的每个相应细胞由在ATAC峰chr2:2311671099-231673368处的ATAC片段计数125根据标度502进行颜色编码。每个窗口的缩放、平移和分割操作是分开的。以这种方式,也容易看到基因表达衍生的簇158和ATAC衍生的簇159之间是否存在一致性。
在ATAC和GEX投影都被显示的情况下,用户可以使用启示502和502的组合在基于ATAC图形的簇159和基于GEX图形的簇158之间切换。具体地,启示502可用于在如图5所示的“特征可及性表达”和如图4A和6所示的“类别”之间切换。当启示502处于“类别”模式时,用户然后可以使用启示450在GEX簇158和ATAC簇159之间进行选择,如图4B和6所示。具体地,图4B示出了用户可以使用面板450在基于ATAC图形的簇、ATAC K-均值簇、基于GEX图形的簇和GEX K-均值簇之间进行选择。在基于ATAC图形的簇和基于GEX图形的簇之间的这种切换为确定某些聚类在GEX和ATAC数据之间是否一致提供了一个基础。此外,在主窗口420中使用分割视图启示602允许更详细的交叉投影重叠分析。例如,在图6中,启示502被切换到“类别”,启示450用于选择基于GEX图形的聚类,并且启示602用于选择基于ATAC图形的簇。因此,在图6中,每个基于ATAC图形的簇159的离散属性数据集120中的多个细胞中的细胞在图6的主面板420中的单独子面板中示出。此外,每个这样的细胞基于其二维UMAP坐标被映射到子面板中。最后,每个细胞不是由其被分配了基于图形的ATAC簇159唯一地着色,而是由其被分配了基于GEX的簇158唯一地着色。因此,从图6中可以明显看出,在基于GEX图形的簇7和基于ATAC图形的簇8之间存在强相关性,因为主面板402中的基于ATAC图形的簇8中的几乎所有细胞都用分配给基于GEX图形的簇7的颜色着色。
参考图5,在一些实施例中,链接窗口(例如,窗口510和520最初在如图5所示的小型化视图中打开,其中仅示出了将窗口扩展到整个面板的投影和按钮530。然而,当使用鼠标光标悬停在链接窗口(例如,窗口510)上时,揭示了提供常见动作的子集的更多选项,诸如平移和缩放链接窗口的能力。然而,链接窗口仍然主要通过操纵原始窗口或锚定窗口500来控制。
参考图5,对锚定窗口500的改变将自动传播到其它链接窗口(例如,窗口510和520),诸如选择活动簇(在所有链接窗口上显示哪些簇)、选择单个簇、创建新的簇或修改簇、选择一个或多个基因或ATAC峰以显示特征表达(基因、峰)、改变簇成员资格、改变单个簇颜色或活动表达色标,以及选择转录因子基序。然而,诸如平移(panning)、缩放(zooming)和窗口大小的特征在锚定和链接窗口中保持独立。
参考图5,可以通过点击扩展启示530来从小型模式扩展链接窗口以访问全部范围的可视化选项。再次点击链接窗口内的启示530将使链接窗口(例如,510、520等)收缩回迷你模式。在一些实施例中,通过锚定窗口保存任何窗口中的离散属性值数据集120的改变。因此,参考图5,在这样的实施例中,必须通过窗口500保存对窗口510或520中的离散属性值数据集120的任何改变。这样,使用链接窗口避免了必须来回跳跃,使调查变得流畅和直观。
还可以打开其它链接窗口以同时查看附加离散属性值数据集120。为了避免混淆,当显示多个属性值数据集时,主窗口500上的按钮540(图5)的颜色和链接到每个离散属性值数据集的主窗口的窗口的启示530将采用其自己的公共唯一颜色,该颜色不同于所显示的任何其它离散属性值数据集120的颜色。例如,如果附加离散属性数据集120与图5所示的数据集一起显示,则主窗口500的标志540以及原始显示的离散属性值数据集的窗口510和520的启示530将具有共同的第一颜色,而附加离散属性数据集120的主窗口500的标志540与链接到其的窗口的显示启示530将具有不同于第一颜色的共同的第二颜色。
此外,链接窗口不限于空间离散属性值数据集120。大多数基因表达数据集具有t-SNE和UMAP投影121(参见于2019年6月17日提交的题为《用于可视化数据集中的模式的系统和方法(Systems and Methods for Visualizing a Pattern in a Dataset)》的美国专利申请第16/442,800号),它们可以以类似的方式链接并同时查看。
尽管已结合显示基于mRNA的UMI丰度以及ATAC峰计数示出了链接窗口,但它们也可用于说明使用诸如t-SNE或UMAP的降维算法在二维空间中排列的其它分析物的量化,包括细胞内蛋白(例如,转录因子)、细胞甲基化状态、可及染色质的其它形式(例如,DNase-seq和/或MNase-seq)、代谢物、条形码标记剂(例如,寡核苷酸标记的抗体)和免疫细胞受体(例如,T细胞受体)的V(D)J序列、扰动剂(例如,CRISPR crRNA/sgRNA、TALEN、锌指核酸酶,和/或反义寡核苷酸。这些中的任一种可以彼此比较或与基于mRNA的UMI丰度和/或ATAC峰计数比较。
连锁矩阵可视化和分析。
连锁表。有利地,本公开的一些实施例提供了以表格形式或以交互图形形式查看特征之间的连锁的能力,该特征诸如上述特征连锁矩阵187中的ATAC峰和基因。在一些实施例中,通过点击图7的带弧列表启示(例如,图标)702来访问表格视图。这产生如图7所示保持为空的特征连锁表704,直到搜索查询被输入到搜索查询框706中。用户可以在搜索查询框706中键入感兴趣的基因或峰。搜索查询框将基于活动离散属性值数据集120中表示的基因和ATAC峰来生成基因和ATAC峰的自动完成选项。当特征被自动完成或以其它方式输入到搜索查询框706中时,查询将生成连锁特征的表并将其显示在特征连锁表704中,如图8中针对基因CD69所示。该表含有感兴趣的原始特征(图8中的CD69)和连锁特征802的名称、这种连锁的显著性192,以及相关性191和特征之间的距离。点击表704中的任何列标题将按该列的值对连锁特征表进行排序。例如,第一次点击显著性192列的列标题将把表704的连锁特征从最高到最低显著性排序到CD69。然后,第二次点击显著性192列的列标题将把连锁特征从最低到最高显著性排序到CD69。以这种方式,用户可以快速地获得密切地连锁到源特征(图8中的CD69)的其它特征的图片。
还可以从其它位置访问连锁表704。例如,参考图9,点击显著基因表900中的基因调出选项902的菜单。菜单902的选项904是查看连锁到所选基因(图9中的TRABD2A)的特征作为连锁矩阵表中的源特征的选项。另外,回头参考图8,点击“特征连锁”列802中的任何一个特征产生类似于菜单902的菜单,通过该菜单,用户可以在所选新特征周围重新定位连锁矩阵表。用户还可以使用菜单来在2-D投影上以图形的方式查看表达或可及性水平,或者将该特征添加到列表中以供以后检索。
连锁查看器。
参考图10,本公开的系统和方法还提供ATAC峰查看器1002内的连锁模式(连锁查看器1110)。通过点击启示1004来访问ATAC峰查看器1002。从峰查看器面板1002,从模式选择器1008选择“连锁”1006加载连锁查看器1010。以类似于图8的表格视图的方式,在搜索查询提示1012处键入特征的名称将触发自动完成菜单。
将CD69输入到图10的提示1012中将产生类似于图11所示的视图,其中连锁查看器1010现在被锚定到所选的感兴趣特征(在这种情况下,基因CD69)。在连锁查看器中,有三个图。首先,有一个弧线图1102,其示出了连锁到主题特征(这里是CD69)的特征的位置和相关性。如上文结合图1D所讨论的,从特征连锁矩阵187中得出这些位置和相关性。其次,有一个峰图1104,其在逐个细胞簇的基础上示出了连锁到主题特征的峰的位置和频率。第三,有一个基因表达组1108,其在逐个细胞簇的基础上示出了连锁到(i)锚定视图的特征(基因或ATAC峰)的所有基因或(ii)锚定当前视图的基因的丰度。在图10中,基因表达组1108逐个细胞簇地示出了锚定基因CD69的丰度。因此,图11示出了如何使用特征连锁矩阵187来服务于在启示1105处对多个基因中的第一基因122或多个ATAC峰中的第一ATAC峰123的选择。响应于在启示1105处的该选择,特征连锁矩阵187用于获得并提供第一图1010,其包含多个基因中的每个基因和/或多个峰中的每个峰的图形指示符,该图形指示符以与参考基因组中的第一基因或第一ATAC峰的距离的顺序连锁到第一基因或第一ATAC峰。在一些实施例中,如图11所示,为每个相应簇组提供与第一基因或第一ATAC峰连锁的多个基因中的每个相应基因或多个峰中的每个相应峰的相应图形指示符。例如,图11示出了如何为所显示的多个簇组中的一个到十三个簇组中的每个相应簇组提供连锁到CD69的特定基因的相应图形指示符1110。在一些实施例中,如图11的图形指示符1110-1至1110-13所示,每个相应图形指示符在第一图1110中的尺寸被确定为表示相应簇组中具有相应连锁基因的离散属性值的非零值或相应连锁的ATAC峰的ATAC片段计数的非零值的细胞的比例。因此,在图11中,每个图形指示符1110-1至1110-13的大小被确定为反映相应簇组中的对于由对应图形指示符1110表示的相应基因的离散属性值具有非零值的细胞的比例。
默认地,由连锁查看器1010表示的基因组窗口将跨越连锁到锚特征的所有特征。弧线图1102和峰图1104共享相同的基因组x轴,它们是基因组上的物理位置。连锁到CD69的特征大致跨越chr12:9600000-10200000。在一些实施例中,该窗口是2兆碱基宽,如上面结合图1D所示的特征连锁矩阵187所讨论的。用户可以通过在弧线图1102或峰图1104中的窗口上拖动其鼠标来放大连锁视图1010的较窄区域。
弧线图1102示出了锚特征和连锁特征之间的连锁的方向和大小。在图11所示的实施例中,蓝色弧线(图1102中锚定特征的左侧)表示正相关,暗示具有较高水平CD69表达的细胞在那些连锁的峰区域具有开放染色质,并且来自不表达CD69的细胞的区域可能是不可及的。红色弧线(弧线图1102中的锚定特征的右侧)是负相关,意味着相反的情况。峰的高度与相关R值191成比例;越接近-1或1,R值越高,相关性越强。本公开的其它实施例相对于连锁的统计显著性改变图1102的峰曲线的颜色、宽度或透明度。例如,在一些实施例中,表示更多静态有效连锁的更多弧线比表示较少静态有效弧线的弧线更粗。弧线图1102的y轴示出了所有峰的绝对相关性,其相对于具有最高r值的连锁特征是动态的。
弧线图下方的峰图1104示出了连锁到活动聚类内的锚特征的所有峰的位置、大小和频率。在图11中,活动聚类是在基因表达衍生的簇上预先计算的基于Louvain图的方法。改变活动聚类将改变峰图内的簇。例如,可以将聚类改变为k-均值GEX聚类、基于Louvain图的ATAC聚类,或k-均值ATAC聚类,以列举替代聚类的一些非限制性实例。每个簇轨迹中的峰的高度与该簇中染色质在该峰区域内开放的细胞的百分比成比例。
点击弧线图1102中的弧线将突出显示弧线图中的弧线以及峰图1104中的目标峰。图12示出了这一点。弧线1204已经在弧线图1102中被选择,因此对应于弧线1204的连锁峰1202已经在峰图1104中被突出显示。以这种方式,可以显现连锁峰的开放染色质频率簇之间的差异。
在一些实施例中,基因表达组1108可以示出连锁到锚特征的所有基因的簇之间的基因表达差异。为了更精确地示出这一点,图13A围绕具有与CD69:chr12:9760094-9761921最高正相关值的特征重新锚定了连锁视图。基因表达组1108现在示出了与该峰连锁的所有基因1302在当前选择的细胞簇内的表达分布,如特征连锁矩阵187所确定的。例如,在chr12:9760094-9761921的情况下,总共有10个连锁基因1302(1302-1至1302-10),并且现在在基因表达组1108中显示了这些基因中的每一个在逐个簇的基础上的表达。
基因表达组1108中基因1302从上到下的显示顺序是图13A中的基因组顺序。在其它实施例中,基因1302以最高至最低显著性192的顺序呈现。在其它实施例中,基因1302以最低至最高显著性192的顺序呈现。在其它实施例中,基因1302以最高至最低相关值191的顺序呈现。在其它实施例中,基因1302以最低至最高相关值192的顺序呈现。在又其它实施例中,基因1302以离锚定特征最近到最远的遗传距离的顺序呈现。在又其它实施例中,基因1302以离锚定特征最远到最近的遗传距离的顺序呈现。在一些实施例中,只有最靠近锚定特征的N个基因显示在组1108中,其中N是1至20之间的正整数(例如,1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20)。
悬停在基因表达组1108中的行1302上示出了连锁基因的标识,以及每个簇的平均表达。在一些实施例中,这是绝对表达(UMI/细胞)。在其它实施例中,这是相对的(每个细胞的平均对数归一化计数)。基因表达组1108示出了清晰的相关模式和反模式。与特定峰正相关的基因(第1至4行,包括第1302-4行上的CD69)在簇1、2、6和7中具有较高水平的基因表达,而与锚定峰负相关的基因在簇3、4、8和9中具有较高水平的基因表达。另一方面,簇5无论在整个细胞簇中都示出了高水平的表达。由于总体丰度的差异,每个基因表达图的y轴是独立的;该组的目的是示出相对表达的常见模式。
在一些实施例中(图13A中未示出),锚特征的可及性或表达以逐个细胞簇为基础在基因表达组1108上方示出。
在一些实施例中(图13A中未示出),用户点击基因显示1304中的基因注释、峰图1104中的峰,或弧线图1102中的弧线。作为响应,在基因表达组1108中示出了所选特征在逐个细胞簇基础上的分布(ATAC峰计数或GEX数据,取决于所选特征的性质)。在一些这样的实施例中,锚定特征在逐个细胞簇的基础上的分布也示在基因表达组1108中。以这种方式,可以在逐个细胞簇的基础上进行所选连锁特征与锚特征的分布的直接比较。参考图13B,当用户正在搜索基因(例如,如图13B中所示的在启示1105处的LEF1)时,他们将在图1108中看到该基因的每个细胞簇158或159的平均UMI/细胞。当用户点击弧线图1102中的特定连锁的ATAC峰123(例如,ATAC峰chr4:108355456-108356170的选择)时,他们还将看到连锁的ATAC峰123(例如,chr4:108355456-108356170)的每个细胞簇158或159的平均切割位点/细胞,如图13C的曲线1320所示。相反地,参考图13D,当用户搜索峰(例如,在启示1105处输入ATAC峰chr4:108355456-108356170)时,他们将在图1330中看到所搜索的ATAC峰123(ATAC峰chr4:108355456-108356170)的每个细胞簇158或159的平均切割位点/细胞,以及所有连锁基因的每个细胞簇159或159的所有平均UMI/细胞。在一些实施例中,悬停在图13D的面板1330中的列上方示出了ATAC峰123(chr4:108355456-108356170)在由所选列表示的细胞簇中的细胞上的数值平均切割位点/细胞。在ATAC峰chr4:108355456-108356170的情况下,有三个连锁基因:由曲线1340-1表示的LEF1、由曲线1340-2表示的RPL34、由曲线1340-3表示的OSTC。参考图13D,当用户点击弧线图1102中的连锁(例如,chr4:108355456-108356170-chr4:108433617-108434308连锁)时,搜索到的峰(图13E中的chr4:108355456-108356170)的每个细胞簇158或159的平均切割位点/细胞显示为图1360,并且连锁特征的每个细胞簇158或159的平均UMI/细胞或平均切割位点/细胞显示为图1370(如图13E中的连锁特征chr4:108433617-108434308所示),无论其是否连锁到基因或另一峰。
在一些实施例中,如图13A所示,当连锁查看器1010锚定在峰上而不是基因上时,弧线图1102中的虚线弧是峰到峰连锁,而实线弧是峰到基因连锁。在未示出的替代实施例中,当连锁查看器1010锚定在峰上而不是基因上时,表示峰到峰连锁的弧线图1102中的弧线具有第一线宽和/或颜色,而表示峰到基因连锁的弧线图1102中的弧线具有不同于第一线宽和/或颜色的第二线宽和/或颜色。
另外,在一些实施例中,弧线图1102与峰图1104之间的基因注释1304以黑色突出显示连锁基因,而以灰色突出显示基因组窗口中与锚峰不具有强连锁的基因。
连锁过滤器选项。
在一些实施例中,提供了用于过滤连锁的一种或多种工具。例如,当显示广泛的基因组区域时,这些一种或多种工具是有用的。例如,当显示连锁到大量其它特征的锚特征时,这些一种或多种工具也是有用的。参考图14,在选项图标1402上点击选项菜单1404。选项菜单包括通过绝对r值191过滤连锁的相关滑块(过滤器)1406,以及可选地,通过显著性分数(负对数错误发现率)192过滤连锁的显著性滑块(过滤器)1408。不满足一个或多个过滤标准的连锁将从弧线图1102中隐藏,并且不满足一个或多个过滤标准的连锁基因在基因表达组1304中变灰。
在图14中未示出的一些实施例中,选项菜单1404包括允许用户将连锁查看器1010内的视图限制为基因到峰连锁的附加过滤器。即,当强制执行过滤器时,仅在连锁查看器1010的弧线图1102中显示基因到峰连锁,而当不强制执行该过滤器时,在连锁查看器中显示峰到峰和基因到峰连锁。
附加特征。
参考图5,在下图404中的特定ATAC峰123的选择使得在上图420中的每个相应细胞126在色标上着色,该色标表示每个相应细胞126中的相应ATAC峰123的ATAC片段计数125。因此,例如,参考图5,当用户点击下图404中标题为chr2:231671099-231673368的ATAC峰550时,上图420中的每个相应细胞126被着色以反映相应细胞126中的chr2:231671099-231673368的ATAC片段计数125。从图5的上图可见,chr2:231671099-231673368的高表达显示在ATAC UMAP的部分560中。在下图示出基因而不是ATAC峰的情况下,选择这样的基因将使上图420中的细胞着色以反映所选基因的离散属性值。例如,这可以在图9中看到,其中上图420中的细胞已经被着色以反映每个细胞中CCR7的CCR7离散属性值。
在一些实施例中,用户可以选择下图404中的多于一个基因122或ATAC峰123,从而使得上图420同时示出离散属性值数据集120中的每个相应细胞126中的多于一个基因122或多于一个ATAC片段计数125中的每一个的离散属性值124或ATAC片段计数125。
参考图4B,通过点击启示470示出了图4B的下图404的替代视图。在选择启示470时,图4B的热图的log2 ATAC片段计数125的表格表示在图5中以列格式示出,而图4B的热图在每个簇的行中示出了ATAC峰123-1至123-L的log2ATAC片段计数125。例如,在图4B中,在面板404的第一行中示出了每个ATAC峰123-1至123-L的簇159-1中的平均ATAC片段计数125。转到图5,用户可以通过选择相应簇的列标签来选择任何相应簇159(图5中簇3、4和5的列标签分别标记为570-3、570-4和570-5)。这将重新排序所有ATAC峰123,使得与所选簇159中的最高有效ATAC片段计数125相关联的那些ATAC峰123被排列在第一位。通过再次为相应簇选择列标签来选择相同的簇159将对所有ATAC峰123重新排序,使得与所选簇159中的最低有效ATAC片段计数125相关联的那些ATAC峰123被排列在第一位。此外,为所选簇中每个ATAC峰123的ATAC片段计数125提供p值580,以提供所选簇159中的ATAC片段计数125相对于所有其它簇159中相同ATAC峰123的ATAC片段计数125的统计显著性。例如,在图5中,已经通过列标题570-5选择了ATAC簇159-5,因此所列出的p值580是簇159-5中每个ATAC峰123的ATAC片段计数125,以提供簇159-5中的ATAC片段计数125相对于所有其它簇159中相同ATAC峰123的ATAC片段计数125的统计显著性。在一些实施例中,这些p值是基于ATAC片段计数125而不是图5B的热图402中用于可视化的log2值来计算的。在一些实施例中,用星号系统来注释p值,其中,对于给定的ATAC峰,四个星号意味着在所选簇(图5中的簇158-5)与其余簇之间存在显著差异,而较少的星号意味着在所选簇中的ATAC峰与所有其它簇之间在ATAC片段计数125中存在较不显著的差异。虽然上述讨论涉及ATAC峰123,但是当基因122和它们的离散属性值被显示时提供了相同的工具。因此,本公开的系统和方法提供了对任何一个簇158中的离散属性值158或任何一个簇158(GEX簇)或簇159(ATAC簇)中的ATAC片段计数159相对于其余簇的差异的量化检查。排序表(例如,图5的404)可以使用启示590来导出。
此外,用户可以使用图5的上图中提供的套索选择工具592和绘图选择工具594来鉴定一组感兴趣的细胞。一旦被鉴定,这样的细胞可以被分配定制分类和/或导出。
再次参考图4A,热图402提供了log2差异,其在细胞126是细胞并且离散属性值124表示映射到细胞中给定基因的转录本数目的情况下是最佳的,以便在给定细胞中每个基因所见的转录本数目上提供足够的动态范围。在一些实施例中,代替地使用log10差异表达。然而,在某些情况下,预计log10不能为k-均值簇中基因数据的相对表达的适当可视化提供足够的动态范围。这是因为原始数据中的零和一计数之间的区别也相当重要。正因为如此,用九与十的差别来淹没零和一的差别是不可取的。离散属性值124差异(一个簇与其它簇之间)中的零与一之间的差异是显著的跳跃,并且因此能够至少具有其中“零”是热图402中的一种颜色并且“一”是视觉上不同于“零”的某物的下限的对数标度。因此,在图4A所示的热图402中使用log2标度。
图4至14示出了来自细胞分析(例如,单细胞测序)流水线的数据分析。本公开的另一方面处理流水线由细胞126的多个GEX类172和/或ATAC类173组成的情况。即,每个这样的样品在第一条件(因此代表第一类172和/或第一类173)下包含第一多个细胞中的每个细胞126中的每个相应基因122(例如,映射到多个基因中的特定基因的mRNA)的第一离散属性值124和/或每个相应ATAC峰123的第一ATAC片段计数125的情况,在第二条件(因此代表第二类172和/或第二类173)下包含第二多个不同细胞中的每个细胞中的每个相应基因122的第二离散属性值124和/或每个相应ATAC峰123的第二ATAC片段计数125的情况,等等。在其它情况下,每个这样的样品由第一类型(第一类172和/或第一类173)的第一多个细胞中的每个细胞126中的每个相应基因122(例如,映射到多个基因中的特定基因的mRNA)的第一离散属性值124和/或每个相应ATAC峰123的第一ATAC片段计数125组成,由第二类型(第二类172和/或第二类173)的第二多个细胞中的每个细胞中的每个相应基因122的第二离散属性值124和/或每个相应ATAC峰123的第二ATAC片段计数125组成,等等,其中每个这样的类172和/或173是指不同的细胞类型、不同的疾病状态、不同的组织类型、不同的器官类型、不同的物种或不同的测定条件或前述中的任一种。在一些实施例中,离散属性值数据集120含有来自两个或更多个这样的类、三个或更多个这样的类、四个或更多个这样的类、五个或更多个这样的类、十个或更多个这样的类172,或100个或更多个这样的类172和/或类173的细胞的数据。
参考图15,在一些实施例中,存在多个ATAC类别171,并且每个细胞126在每个这样的类别171中。在一些这样的实施例中,每个类别171具有一个或多个子类别,称为类173,其可以被单独选择。在一些实施例中,所有这样的数据被预加载到单个离散属性值数据集120中。类别171的一个实例是ATAC K-均值聚类(其中ATAC K-均值聚类是“类别”170,并且每个K-均值簇159是类173的实例)。
图15中未示出的类别的其它非限制性实例包括“LibraryID”(其中LibraryID是类别171,细胞来源的文库是类173)和“Cohort”(其中Cohort是类别171,群组内细胞来源的患者亚群是类173)。这种类别的选择导致面板420中的视图,其中每个细胞由表型状态(例如,与所选类别相关联的急性髓性白血病状态)进行颜色编码。面板420中的细胞的空间表示不因这些类别的选择而改变,只有细胞的标记改变。
转到图15,通过选择启示502,提供下拉菜单。下拉菜单示出了与离散属性值数据集120中的每个细胞相关联的所有不同类别170和/或类别171,例如,如图4B所示)。回到图15,在图15所示的数据集中,类别是“ATAC K-均值”171-1,其选择将提供图15面板420的视图,其中每个细胞126由其K-均值簇159标识173进行颜色编码。这样,K-均值聚类本身被认为是类别171,并且簇159各自被认为是类别171的不同类173。
在一些实施例中,在离散属性值数据集120中存在具有ATAC类173的类别171的情况下,离散属性值数据集120中的每个相应细胞是每个相应ATAC类别171的成员和每个相应ATAC类别171的ATAC类173之一。在一些这样的实施例中,其中数据集120包含多个类别171,离散属性值数据集120中的每个相应细胞是每个相应ATAC类别171的成员,并且是每个相应ATAC类别171的单个类173。
在离散属性值数据集120中存在不具有基础类173的类别171的一些实施例中,数据集120中的细胞的子集是类别171的成员。在离散属性值数据集120中存在具有子类173的类别171的一些实施例中,数据集120中的相应细胞的仅一部分是类别171的成员。此外,相应细胞的部分中的每个细胞独立地在类别171的相应类173中的任何一个中。
用户可以选择或取消选择任何类别171。此外,用户可以在所选类别171中选择或取消选择类173的任何组合。参考图15,在一些实施例中,用户能够点击单个类别173(这些类别在图15中分别被标记为173-1-2、173-1-3、173-1-4和173-1-5),以在图420中突出显示属于该类别(簇)的细胞。这样,通过连续地点击类别173,用户能够打开或关闭面板410中对应于这些类别的细胞的着色。
因为面板420是GEX t-SNE投影,所以在二维空间中存在簇173彼此重叠的外观。然而,在执行聚类的多维空间中,簇173彼此不重叠。
参考图16,在一些实施例中,存在多个GEX类别170,并且每个细胞126在每个这样的类别170中。在这样的实施例中,每个GEX类别170具有一个或多个子类别,称为GEX类172,其可以被单独选择。在一些实施例中,所有这样的数据被预加载到单个离散属性值数据集120中。类别170的实例在图4B中示出,并且包括基于ATAC图的聚类、ATAC K-均值聚类、基于GEX图的聚类和GEX K-均值聚类。在图16中,选择GEX K-均值170-1,并且GEX K-均值是类别170,并且每个GEX K-均值簇158是GEX类172的实例。
在图16所示的数据集中,类别“GEX K-均值”170-1的选择提供了图16面板420的视图,其中每个细胞126由其GEX K-均值簇158标识进行颜色编码。这样,GEX K-均值聚类本身被认为是类别170,并且GEX簇158各自被认为是GEX类别170的不同GEX类172。
在一些实施例中,在离散属性值数据集120中存在具有类172的类别170的情况下,离散属性值数据集120中的每个相应细胞是每个相应类别170的成员和每个相应类别170的类172之一。在一些这样的实施例中,在数据集包含多个类别170的情况下,离散属性值数据集120中的每个相应细胞是每个相应类别170的成员,并且是每个相应类别170的单个类。
在离散属性值数据集120中存在不具有基础类172的类别170的一些实施例中,数据集120中的细胞的子集是类别170的成员。
在离散属性值数据集120中存在具有子类172的类别170的一些实施例中,数据集120中的相应细胞的仅一部分是类别170的成员。此外,相应细胞的部分中的每个细胞独立地在类别170的相应类172中的任何一个中。
用户可以选择或取消选择任何类别170。用户还可以在所选类别170中选择或取消选择类172的任何组合。因此,参考图16,在一些实施例中,用户能够点击单个类别172(这些类别在图16中分别被标记为172-1-2、172-1-3、172-1-4、172-1-5和172-1-6),以在图420中突出显示属于该类别(簇)的细胞。突出显示的类别的选择使得面板420中属于该类别的细胞不再被该类别着色。相反,它们变灰。因为面板420是t-SNE投影,所以在二维空间中存在簇172彼此重叠的外观。然而,在执行聚类的多维空间中,簇172彼此不重叠。
以例如在图4至16中描述的方式呈现数据有利地提供了确定基因122的能力,该基因的离散属性值124基于它们的离散属性值在所选类别内分离(区分)类172。以例如在图4至16中描述的方式呈现数据还有利地提供了确定ATAC峰123的能力,ATAC峰123的ATAC片段计数125基于它们的ATAC片段计数125在所选类别172内分离(区分)类173。为了进一步有助于此,选择重要基因(例如,Sig.基因)启示1602,从而提供如图16所示的“全局区分”和局部区分(图16中未示出)两个选项。
参考图16,显著特征比较1602鉴定在选定类内其值(离散属性值124或ATAC片段计数125)相对于整个离散属性值数据集120在统计上区别开的特征(基因122或ATAC峰123)(例如,发现在所选类别170内相对于数据集120中的所有类别高度表达的基因或发现在所选类别内相对于数据集120中的所有类别高计数的ATAC峰)。参考图17,局部区分选项鉴定其值(GEX离散属性值124或ATAC计数125)区分所选类的特征(基因或ATAC峰),而不考虑未被选择的细胞类中的值(离散属性值124或ATAC计数)。
在一些实施例中,可视化系统100包含多个处理核102,并且特征(基因或ATAC峰,其值(离散属性值124或ATAC片段计数125)在全局区分或局部区分算法下区分类的鉴定利用处理核102来独立地建立跨一类和/或一类细胞(或整个数据集)的一个或多个类别的个体特征的所需统计(例如,离散属性值的集中趋势的量度)。
为了进一步说明,转到图17,其中“GEX K-均值”类别170选项已被选择,并且GEXK-均值类172-2-1、172-2-3和172-2-4中的细胞的数据已被取消选择,图16的局部区分启示1202鉴定其离散属性值(例如,mRNA计数)在不考虑类172-1-1、172-1-3和1-172-4中的值(离散属性值124或ATAC计数)的情况下唯一地区别离散属性值数据集120中所选的簇158-2(类172-1-2)与簇类172-1-5和172-1-6的细胞126。此类区别基因在图17的下图404中列出。相反,如图16所示,全局区分选项鉴定下图404中的基因122,其离散属性值124区别类172-1-1(158-1)和GEX K-均值类别170的所有剩余类172之间的差异。
有利地,本公开的系统和方法允许使用上面板420创建新类别,以及使用图17的套索592或绘图选择工具594创建此类类别内的任何数目的类。因此,例如,如果用户想要鉴定细胞亚型,则这可以通过使用套索工具选择在上面板420中显示的多个细胞来完成。此外,还可以从下面板404中选择它们(例如,用户可以通过它们的离散属性值或ATAC片段计数来选择多个细胞)。这样,用户可以拖动并创建类别内的类。提示用户命名新类别和该类别内的新类。用户可以在一个类别内创建多个细胞类。一旦以这种方式定义了类别的类,用户就可以计算其离散属性值在所鉴定的用户定义的类之间进行区分的基因。在一些这样的实施例中,这样的操作比利用离散属性值数据集120中的所有细胞的类别进行得更快,因为在计算中涉及更少的细胞数。在一些实施例中,区分类的鉴定基因的算法速度与类别中类的数目乘以分析中细胞的数目成比例。例如,在一些实施例中,在存在两类和二十五个细胞的情况下,在标准客户端装置100上区别基因的鉴定需要约四到五秒。
在一些实施例中,离散属性值数据集120可以具有高达750,000个细胞的数据,并且仍实时地(例如,小于30分钟、小于10分钟、小于5分钟或小于1分钟)鉴定在类别的类之间进行区分的基因或ATAC峰。
离散属性值流水线。
如上所述,用于收集离散属性值数据集120的ATAC和GEX数据的方法在2020年2月12日提交的题为《用于处理核酸分子的方法》的美国专利申请第16/789,287号中有描述,该申请通过引用并入本文。在一些实施例中,Cell RangerTM分析流水线对这些数据进行二次分析和可视化。除了进行诸如多路分离、对准和基因计数的标准分析步骤之外,CellRangerTM还利用了2020年2月12日提交的题为《用于处理核酸分子的方法》的美国专利申请第16/789,287号中描述的条形码,该申请通过引用并入本文,以生成离散属性值数据集120形式的具有单细胞分辨率的GEX表达数据和ATAC片段计数数据。这种数据类型使得包括细胞聚类、细胞类型分类、差异基因表达和差异ATAC片段计数的应用能够以数百至数百万细胞的规模进行。此外,如上所述,因为流水线通过使用条形码在单个细胞的基础上索引来自细胞的离散属性值124来传递该信息,所以来自这种单细胞的数据可以与来自利用条形码来跟踪来自单细胞的数据的其它流水线的数据组合,诸如在2019年5月19日提交的题为《用于克隆型筛选的方法(Methods for Clonotype Screening)》的美国专利申请第15/984,324号中描述的V(D)J流水线,其通过引用并入本文,以提供对与细胞样品相关的潜在分子机制的独特生物学理解。
在本公开的实施例中,提供了用于分析生物样品的技术。这些技术包括获取样品(例如,肿瘤活检、任何组织的样品、体液等)和处理样品以从样品中的每个细胞获取数据用于计算分析。如上所述,样品中的每个细胞至少被条形码化。所获取的数据以某种方式存储在例如特定数据结构中,以供一个或多个处理器(或处理核)使用,该处理器被配置成存取数据结构并执行计算分析,使得检测样品内的生物学上有意义的模式。计算分析和计算分析结果在图形用户界面上的相关联的计算机生成的可视化允许观察样品的特性,否则这些特性将是不可检测的。特别地,在一些实施例中,对样品的每个细胞进行分析,并获得样品中每个细胞的特征,使得可以基于样品中不同类型细胞之间的差异来表征样品。例如,聚类分析以及上述数据分析的其它技术揭示了样品中细胞群体和亚群的分布,否则这些分布是不可辨别的。这导致新细胞类型的发现,或导致(A)细胞表型的各方面,诸如基因组(例如,基因组重排、结构变体、拷贝数变体、单核苷酸多态性、杂合性缺失、罕见变体)、表观基因组(例如,DNA甲基化、组蛋白修饰、染色质组装、蛋白质结合)、转录组(例如,基因表达、可变剪接、非编码RNA、小RNA)、蛋白质组(例如,蛋白质丰度、蛋白质-蛋白质相互作用、细胞因子筛选)、代谢物组(例如,小分子、药物、代谢物和脂质的缺失、存在或量)和/或蛋白质组(例如,功能基因组学、遗传学筛选、形态学),和(B)特定表型状态,诸如标记的缺失或存在、参与生物途径、疾病状态、疾病状态的缺失或存在(仅举几个非限制性实例)之间关系的新发现。样品中不同种类细胞的鉴定允许对样品或样品来源采取行动。例如,根据从受试者获得的肿瘤活检的生物样品中细胞类型的分布,可以选择特定的治疗并对受试者进行治疗。
在本公开的实施例中,样品可以包括多个第二细胞,并且所述技术允许确定样品中每个细胞内具有值(例如,某些离散属性值或ATAC片段计数)的特征(例如,映射到多个基因和/或ATAC峰中的特定基因的mRNA序列)。例如,在一些实施例中,在基因的情况下,每个离散属性值是单细胞内映射到多个基因中的相应基因的转录本读数的计数。作为另一实例,在一些实施例中,在ATAC峰的情况下,每个ATAC片段计数是单细胞内映射到多个ATAC峰中的相应ATAC峰的ATAC片段的计数。在所描述的实施例中,如上所述,这种计数可以是UMI计数的形式。以这种方式,确定每个细胞的基因表达或ATAC片段计数,并生成离散属性值数据集,其包括每个细胞中每个基因的离散属性值以及每个细胞中每个ATAC峰的ATAC片段计数。
此外,根据所述实施例的技术允许对离散属性值数据集进行聚类和其它分析,以便鉴定数据集内的模式,并由此将每个细胞分配给类型或类。如本文上下文中所用,类是指不同的细胞类型、不同的疾病状态、不同的组织类型、不同的器官类型、不同的物种或不同的测定条件或允许细胞(或细胞群)彼此分化的任何其它特征或因素。离散属性值数据集包括任何合适类型的任何合适数目的细胞类。此外,如上所述,所描述的技术(包括条形码化和计算分析以及可视化)提供了用于鉴定生物体的细胞表型和总体表型状态之间的关系的基础,该生物体是获得样品的生物样品的来源,生物样品在其它情况下是不可辨别的。
转座酶可及染色质(ATAC)流水线。
上面已经描述了转座酶可及染色质(ATAC)的测定,并且在2020年2月12日提交的题为《用于处理核酸分子的方法》的美国专利申请第16/789,287号中提供了这种测定的进一步细节,该申请通过引用并入本文。在这样的实施例中,获取多个ATAC峰中的每个ATAC峰123的计数125。在一些实施例中,具有高通量测序的ATAC(ATAC-seq)通过使用超活性Tn5转座酶探测DNA可及性来映射染色质可及性。Tn5转座酶将测序衔接子插入染色质的可及区域。参见Buenrostro等人,2015,《ATAC-seq:一种测定全基因组染色质可及性的方法(ATAC-seq:A Method for Assaying Chromatin Accessibility Genome-Wide)》,《分子生物学实验指南(Curr Protoc Mol Biol.)》109:21.29.1-9。然而,在本公开的系统和方法中,提供了允许从样品中的每个细胞获取ATAC数据的单细胞ATAC技术。大量细胞(例如,数万单细胞)的平行染色质图谱允许工作人员以高分辨率观察染色质压缩和DNA结合蛋白如何调节基因表达。
对于离散属性值数据集120的ATAC部分,在典型实施例中,没有基因表达的测量。离散属性值数据集120内的ATAC数据的矩阵中的行的主要实体是每个称为ATAC峰123的片段(或UMI)125,其中峰123对应于可及染色质的基因组区域。参考图1B,离散属性值数据集120-1的ATAC矩阵包含ATAC峰元素123-1-1至123-L-1,以及它们的测量ATAC片段计数125-1-1至125-L-1。对于ATAC数据,记录峰123中的片段计数125而不是基因表达。在一些实施例中,ATAC矩阵还将含有如下所述的聚集行。这样,ATAC流水线生成特征条形码矩阵,基于该特征条形码矩阵鉴定簇159、鉴定重要特征165(使用例如主成分分析或其它形式的数据简化,如本文公开的那些),并基于该矩阵的重要元素计算2-D t-SNE投影198或2-D UMAP 199投影。因为ATAC流水线执行与上述GEX流水线不同的分析类型,所以需要不同类型的图形用户界面组件来显示ATAC流水线的结果,如下所述。
在一些实施例中,ATAC流水线鉴定不同的峰区域,其可以是涵盖数百至数千个核苷酸的区域。在这些区域中,可以检测到来自开放染色质位点的片段。特征元数据模块(标签类)可用于将ATAC峰123与附近的启动子基因相关联,以编码用户指定的标签,例如CRISPR引导RNA的基因靶标、抗体是阳性对照还是阴性对照、特征数据模块(矩阵)中的基因特征的源参考基因组等。
在一些实施例中,提供了一种被配置成在计算装置的显示器上呈现图形用户界面的可视化系统。在一些实施例中,图形用户界面(在本文中也称为浏览器模块119)被配置成接收包括GEX数据以及ATAC数据的离散属性值数据集120。在一些实施例中,在被浏览器模块119访问之前,离散属性值数据集120的数据被转换成适于在图形用户界面上表示数据的格式。数据以允许基于用户输入或以其它方式操纵数据的格式呈现在图形用户界面上。执行浏览器模块119的计算硬件可以检测数据内的一个或多个模式。图形用户界面被配置成以允许揭示数据内(例如,来自生物样品的细胞内)先前未知的组或模式的方式显示离散属性值数据集120和各种模式。此外,图形用户界面被配置成接收指令(例如,用户输入),响应于这些指令,可以在数据内定义新的模式。在一些实施例中,用户特定标签不被编码到离散属性值数据集120中。在替代实施例中,用户特定标签被编码到离散属性值数据集120中。在一些实施例中,在离散属性值数据集120中编码附近的启动子、附近的基因、峰区功能、转录因子基序和独特的转录本ID,而不是利用用户特定标签。作为一个非限制性实例,上面讨论的图1C描述了如何为由离散属性值数据集120表示的多个基因中的每个基因193存储ATAC附近基因推断计数194和启动子总和推断计数195。在一些实施例中,用户特定标签被编码在离散属性值数据集120中。
如上所述,在一些实施例中,结合可视化系统100的显示器108执行浏览器模块119。图4A示出了浏览器模块119的实例。在一些实施例中,对于ATAC数据的表示和操纵,用户界面包括特定于ATAC峰数据的某些特征。在一些实施例中,离散属性值数据集120包括指示数据集120是否包括基因表达数据(例如,以离散属性值数据集120的形式)、ATAC峰或两者的标识符。例如,在图3中,“atac_gex_intron”离散属性值数据集120左侧的图标320指示该数据集包括GEX和ATAC数据。图3中的各种其它图标示出了其它形式的离散属性值数据集120。应当理解,图3中的表示仅作为实例示出,因为任何其它指示符可用于区分离散属性值数据集120,包括基因表达数据和包括基因表达和ATAC数据的数据集。
在一些实施例中,ATAC流水线和GEX流水线被配置成基于离散属性数据集120中的特征子集来生成簇和/或t-SNE投影和/或UMAP投影。例如,在一个示例性实施例中,当离散属性值数据集120包含抗体数据时,与离散属性值数据集120中的基因122相关的离散属性值124用于确定簇158并创建GEX t-SNE投影196或GEX UMAP投影197,并且与ATAC峰相关的ATAC片段计数125用于构建ATAC t-SNE投影196或ATAC UMAP投影199。如图4B所示,在一些实施例中,投影选择器启示460接收指示在离散属性值数据集120内选择GEX t-SNE投影196、GEX UMAP投影197、ATAC t-SNE投影198或ATAC UMAP投影199的输入。例如,为了生成ATAC t-SNE投影198,使用例如主成分分析在离散属性数据集120的细胞上对多个ATAC峰123进行降维,以形成缩减成分(例如,主成分)165,并且通过t-SNE进一步缩减这些缩减成分,以生成图18的二维图,其中具有相似ATAC缩减成分(例如,主成分)165的细胞被聚类在一起成为ATAC簇159和具有不相似缩减成分(例如,主成分)165的细胞在面板420中彼此相距更远。此外,绘制的细胞由它们所在的GEX簇159进行颜色编码。这样,图18示出了ATAC t-SNE图,但是基于GEX聚类而不是ATAC聚类对细胞进行聚类(例如,着色)。
如上所述,在一些实施例中,离散属性值数据集120的GEX t-SNE投影196、GEXUMAP投影197、ATAC t-SNE投影198和/或ATAC UMAP投影199是在上游处理中计算的,而不是由浏览器模块119计算的。在一些实施例中,为了生成附加投影,指定配置文件,该配置文件鉴定对应于特征条形码的条形码序列、其类型以及附加元数据。在一些实施例中,这种特征条码与GEX数据的条码分离且分开。代表一种形式的特征的来自抗体配置文件的一行的实例如下:
id、名称、读数、模式、序列、feature_type
CD3,CD3_UCHT1_TotalC,R2,^NNNNNNNNNN(BC)NNNNNNNNN,CTCATTGTAACTCCT,抗体捕获
前两列是将传播到浏览器模块119的特征ID(“id”)和显示名称“name”、读数和模式列向流水线指示如何从原始测序读数中提取条形码序列,序列列指定每个特征的鉴定序列,并且“feature_type”列指定特征类型。对于这样的配置文件,“抗体捕获”类型的所有特征被组合以创建附加投影。如果配置文件具有多个特征类型,则流水线可以为每个不同的特征类型生成一个投影。附加投影可以与来自上述浏览器模块119的版本的t-SNE投影相同的格式存储。
每个ATAC峰123对应于特定位置处基因组的开放区域。在特定基因或特定基因转录起始位点附近可以存在多个不同的ATAC峰123位置。两种ATAC峰类型可以被标记为“接近”该基因。因此,在一些实施例中,“附近基因推断计数194”是该特定基因附近每个细胞的基因组开放位点的表示。图20示出了GZMB启动子周围的ATAC峰的表示(log2倍数变化),ATAC峰在逐个细胞的基础上组合以形成离散属性值数据集120的多个细胞中的每个细胞的聚集特征(“GZMB启动子总和”)。这样,在面板420中,每个细胞的每个基因附近的ATAC片段的组合数目叠加在离散属性值数据集120的多个细胞的任何支持投影上。在图20中,所显示的投影是ATAC t-SNE投影。因此,在图20中,各个细胞通过ATAC t-SNE投影排列在面板420中,但根据它们各自的GZMB启动子总和进行着色。
离散属性值数据集可以包括多种类型的特征,并且差异表达/染色质可及性可以通过特征类型进行分割。因此,在一些实施例中,浏览器模块119被配置成接收指示对希望相对于其执行差异表达/可及性的特征的类型的选择的输入。
在一些实施例中,离散属性值数据集120的默认选项是“峰”、“基序”以及“启动子”或“附近基因”选项。
由于在所描述的实施例中浏览器模块119支持多个特征类型,在一些实施例中,在用户输入要自动完成的特征名称的任何用户界面元素中,特征类型显示在自动完成条目中。这允许用户区分例如CD4基因和CD4蛋白。
在一些实施例中,如上所述,可以计算每个簇158中的基因的差分离散属性值。此外,在一些实施例中,如上所述,可以计算每个簇159中的ATAC片段的差分ATAC片段计数。例如,一旦已经将每个细胞分配给相应簇,本公开的系统和方法就能够针对每个相应基因或ATAC峰,针对每个相应簇,计算跨相应簇中的细胞的相应子集的相应基因或相应ATAC峰的离散属性值相对于跨除了相应簇之外的多个簇的相应基因或ATAC峰的离散属性值或ATAC片段计数的差异,由此导出每个簇的基因或ATAC峰中的每个相应基因或ATAC峰的差值。以这种方式,例如,可以确定在细胞类或其它形式的细胞标记之间不同的最高丰度的基因或ATAC峰。这允许确定哪些基因或ATAC峰区分GEX或ATAC类、GEX或ATAC类别,和/或GEX或ATAC簇。
ATAC峰查看器。
在本公开的一些实施例中,浏览器模块119被配置成以直观的方式显示ATAC数据。在一些实施例中,浏览器模块119包括支持ATAC数据的表示和分析的一组工具,并且这样的工具在此被称为ATAC峰查看器。
根据本公开的ATAC峰123是通过分析转座酶切割位点之间读取的片段确定的开放的、可及的染色质区域的表示。与基因表达不同,当预期基因在基因组中的位置与每个参考基因组相同时,ATAC峰123的位置可以随运行而变化,因为不同细胞可以具有可接近调节元件的开放染色质的不同区域。因此,在本文所述的实施例中,每个ATAC峰123具有与其相关联的名称,该名称对应于峰的基因组位置(例如,在一个实例中,“chr2:237835-238281”)。类似于存储基因名称122的方式,每个ATAC峰123的名称被存储在离散属性数据集120的特征条形码矩阵121中。
所描述的技术以允许鉴定每个峰的基因组背景(包括附近的基因、外显子和非翻译区(UTR))的方式提供ATAC峰123的计算可视化。在一些实施例中,基因、外显子和UTR信息以类似于基因注释的方式存储在离散属性值数据集中。基因、外显子和UTR转录本可以来自基因组参考信息。在一些实施例中,离散属性值数据集120包括重叠群索引、起始位置、结束位置、基因名称、基因ID和绞合度。离散属性值数据集还支持基因中功能区域的注释,并且包括转录本注释模块。在一个实施例中,转录本注释模块包括以下数据结构:
·长度为T的转录本ID的阵列(字符串)(用于所有转录本注释的不同的转录本ID);
·长度为U+E=A的转录本对象类型的阵列(uint),注释的总数,其由U UTR注释和E外显子注释组成(这表明所有后续阵列中的信息是属于外显子还是属于UTR);
·长度为A的基因ID(注释的基因ID)阵列中的索引阵列(int);
·长度为A的转录本ID阵列(注释的转录本ID)中的索引阵列(int);
·长度为A的重叠群索引阵列(int);
·长度为A的起始位置阵列(int);
·长度为A的结束位置阵列(int);
·长度为A的单链阵列(int)。
根据这些符号,对于长度为A的所有阵列,从位置i处的条目形成单个转录本注释。以这种方式,由基因ID、转录本ID、重叠群索引、起始位置、结束位置和链形成转录本注释。此外,编码每个转录本的多个外显子和UTR以及每个基因的多个转录本的位置。关于每个基因的一个、两个或多于两个转录本的信息可以以这种方式存储。
在一些实施例中,基因和转录本注释信息按各自的基因组位置分类。在一些实施例中,响应于诸如例如指示感兴趣区间的范围查询的查询,执行浏览器模块119的服务器可以按位置执行二分搜索以查找具有性能O(日志A)的区间内的元素。由于注释是按染色体/重叠群分组的,使得对基因注释的搜索可以在数据的较小子集中开始,因此性能得到改善。
ATAC峰位置也以类似的方式被分类并存储在存储器中。ATAC峰是开放染色质区域的代表,其可以通过鉴定由两个转座酶切割位点暴露的片段之间的重叠来确定。此外,分析片段本身可以揭示附加信息和结构。因此,在一些实施例中,ATAC流水线被配置成生成包括以下列的片段模块(与离散属性数据集分开存储):细胞条形码列,其存储在其上发现片段的细胞的条形码,以及重叠群、起始和结束位置列,其分别存储片段的重叠群、起始和结束位置。片段模块可以是制表符分隔的数据结构的形式,其可以可选地被压缩(例如gzip压缩)。在一些实施例中,ATAC流水线被配置成对存储在片段模块中的压缩(例如,gzip压缩)的制表符分隔的信息计算tabix索引。tabix索引模块存储所计算的tabix索引,其允许在特定间隔内更快地查找磁盘上的片段块。可以如例如在Li,2011,《Tabix:从通用制表符分隔的文件中快速检索序列特征(Tabix:fast retrieval of sequence features fromgeneric TAB-delimited files)》,《生物资讯学》,27(5):718-719中所述计算tabix索引。可以附加地或替代地使用其它技术。在一些实施例中,tabix文件模块被嵌入到属性值数据集120中,而大小可能为数百兆字节到千兆字节的片段模块与离散属性值数据集分开存储。
参考图10,在由浏览器119呈现的用户界面中提供ATAC峰和相关联信息的视觉表示,并且在一些实施例中,该视觉表示包括被配置成接收指示选择显示峰查看器面板1002的选项的输入的启示1004。峰查看器面板可以被配置成显示ATAC峰的相对分布和当前选择的类别中的不同簇之间的片段的出现。如图10所示,查询框102响应于基因或基因组区域(峰)的输入。例如,如图10所示,当用户输入包括“CD69”时,显示CD69A基因附近的每个GEX簇159(在该实例中为13个簇)的ATAC峰。作为另一实例(图13A),当用户输入包括例如“chr:12:9760094-9761921”时,显示在所选(锚定)峰的碱基对区域(例如,1兆碱基)内的所有ATAC峰和基因,以及它们在细胞中逐个簇的各自数量。
如图11所示,示出了在来自某一样品的细胞中的CD69基因附近鉴定的ATAC峰123的视觉表示的实例,每个峰123可以表示为跨越某一基因组区域的对应矩形,在该区域内检测到峰。每个“活动的”(所选的)簇在可视化中具有轨迹(行)。在该实例中,每个轨迹内的峰矩形的高度与该簇内具有特定峰内的片段位点的细胞的百分比成比例,对于该特定峰,特征数据集(例如,峰条形码矩阵)中该峰处的该细胞的峰计数为非零。在该实例中,峰高被归一化为所有簇中的最高频率。然而,应当理解,归一化是可选的。如果在峰的表示上检测到输入装置(例如,计算机鼠标或另一装置,如果显示器是触摸屏,则包括用户的手指),则可以显示与峰相关的信息,例如,峰的位置、簇内的频率,以及峰区域是包围基因的功能区域还是在基因的功能区域附近。这种注释在图21中的元件2104处示出。
如果输入装置(例如,计算机鼠标)的指针被布置在图11中的峰上(或者相对于峰定位,这取决于具体的实现方式),则可以显示关于峰的位置、簇内的频率以及峰区域是包围基因的功能区域还是在基因的功能区域附近的信息。在图11的实例中,再次参考CD69基因的实例,当鼠标位于对应于峰的矩形上时,处理器指示用户界面显示峰的位置、峰的区域(如果有的话)的潜在功能(例如,CD69启动子)和该簇内的相对频率(例如,0%至100%之间的数字)。
如上所述,本公开的实施例存储和使用基因和转录本注释。在浏览器模块119的一些实现方式中,基因组区域的基因注释被显示为行2102,例如在簇峰轨迹上方,如图21所示。在一些实施例中,基因可以用实线表示。然而,应当理解,可以附加地或替代地生成基因的各种其它表示。例如,在一些实现方式中,基因边界可以是虚线,并且记录的转录本可以是实线的形式。可以使用任何其它类型的表示,包括例如指示基因边界的垂直线。在一些实施例中,相对于基因的内含子,基因的外显子具有更粗的线宽,以其它方式标记。在一些实施例中,外显子区域和非翻译区域(UTR)可以以任何合适的方式表示在用户界面中。例如,在一种实现方式中,基因注释的外显子区域被示为与基因注释相邻(例如,在顶上)的实心矩形(例如,黑色或任何其它颜色),并且UTR是空心矩形的形式。可以生成参考基因组中每个基因一个、两个或多于两个转录本的视觉表示。在一些实现方式中,基因注释旁边的向后(<)或向前(>)箭头示出了基因链。在一些实现方式中,响应于检测到输入装置被定位成使得它悬停在基因名称、基因位置、基因ID和转录本ID(如在参考基因组中发现的)上。
可以响应于用户输入以各种方式修改根据本公开的实施例的ATAC峰和相关联信息的表示。例如,可以接收指示使用集体启示2106缩小、放大、向左平移和向右平移的指令的用户输入。
在一些实施例中,ATAC峰的默认表示显示峰,例如,如图21所示。此外,浏览器模块119被配置成显示打开片段的重叠的表示。可以响应于指定存储与ATAC数据集相关联的片段信息的片段模块(或文件)的位置的输入来显示该信息。例如,可以响应于包括加载“.tsv.gz”文件的指令的用户输入(例如,响应于“文件夹”图标)获取片段信息(例如,从片段数据集)。在一些实施例中,用户输入可以指示URL,该URL指示片段模块文件的位置。在一些实施例中,后端服务器执行“健全性检查”以验证片段模块正确地与所存储的片段tabix索引相关联。如果验证了正确的关联,则可以将片段信息与峰信息一起用于每个范围和基因查询。在后端,服务器询问存储在离散属性数据集120中的tabix索引,该tabix索引将返回含有可见区域内的片段的块gzip压缩片段文件内的块的字节偏移。由于起始和结束块还可以含有可见窗口之外的片段位置,因此服务器可以应用重叠过滤以确保每个片段都在可见窗口内。
在一些实施例中,当片段信息被加载到存储器中以供执行浏览器模块119的处理核使用时,指示用户界面呈现相应的片段信息以及峰的表示。例如,如图23所示,用户界面可以“在峰后”以灰色(在该实例中)矩形的形式呈现片段信息。该信息是以距基因组中该点一定距离(例如,默认可以是200bp或另一大小的窗口)内的片段切割位点的滚动窗口总和的形式生成的。每个轨迹的y值是在x轴上的基础基因组位置的n个碱基对内具有起始或结束位置的该簇中的细胞中发现的片段的总数,其中n可以是用户指定的。在图23中的用户界面的实例中,表示片段的灰色矩形的高度被归一化为在任何一个簇中的任何点处找到的最大数目的切割位点。在一些实施例中,这些可以通过每簇的细胞计数进一步归一化。如果在轨迹上检测到输入装置的指针,则显示在该点的一定距离内的片段切割位点(片段的起始或结束)的数目。这表明了该点的染色质的可及性。片段峰相对于基因中的功能元素的表示允许评估那些峰的生物学背景。
可以以交互方式显示ATAC峰和相关联的信息,使得可以自动地或响应于用户输入来修改用户界面中的一个或多个元素。例如,在一些实施例中,可以接收指示服务器修改峰表示的用户输入。例如,选择“禁用自动高度”选项的选择将导致每个簇的分配从峰查看器高度的百分比变化为固定的像素数。在该视图中,基因注释轨迹从簇的上方下降到其顶部的覆盖图。如图23所示,响应于用户输入(其可以是例如上下移动滚动条),可以在基因注释下面显示簇表示。用户可以通过选择“启用自动高度”选项来指示用户界面返回到自动高度表示。此外,当加载峰分布和片段切割位点位置数据时,用户界面提供“隐藏”片段轨迹或峰的选项,在用户界面上显示“显示/隐藏峰分布”和“显示/隐藏切割位点”选项。类似地,基因注释可以被显示或从显示器中去除。
此外,如上所述,片段迹线的值是基因组中每个位置周围窗口的函数。所描述的技术允许用户基于染色质在特定切割位点下游可能不易接近的假设来改变“开放性”度量。因此,用户界面可以允许通过选择例如“平滑窗口大小”选项的值来选择用于将位置标记为可访问的窗口的宽度。较小的窗口可以揭示切割位点分布中的更多细微差别。
在一些实施例中,基础数据和/或峰信息的图形表示可以以合适的格式存储。例如,响应于选择了“导出”选项的指示,服务器硬件可以指示浏览器模块119存储信息。以这种方式,可以将每个簇内的每个当前可见峰的频率存储为例如CSV文件,该CSV文件被导出为表示每个簇的窗口化切割位点总和的.bedgraph文件。峰的图形表示可以以PNG、SVG或任何其它合适的格式存储。应当注意,本公开的实施例不限于可以存储峰数据和峰的图形表示的格式。
本公开的另一方面提供了一种用于表征细胞的方法,包含将多个细胞或细胞核和多个条形码珠分区成多个分区,其中多个分区的至少一个子集各自包含多个细胞或细胞核的细胞或细胞核和所述多个条形码珠的条形码珠,并且所述多个分区的子集中的每个珠包含唯一的条形码序列。该方法进一步包括生成包含条形码序列的多个条形码化核酸分子,其中多个条形码化核酸分子的第一子集包含对应于核糖核酸(RNA)分子的序列,并且所述多个条形码化核酸分子的第二子集包含对应于与可及染色质区域对应的序列的序列。该方法进一步包含对多个条形码化核酸分子或由其生成的衍生物进行测序以生成测序信息,并且使用该条形码序列和该测序信息来鉴定该测序信息中的细胞类型。
在一些实施例中,本文公开的方法进一步包含使用所述测序信息通过可及染色质区域对细胞进行聚类。在一些实施例中,该方法进一步包含使用测序信息通过基因表达对细胞进行聚类。在一些实施例中,该方法进一步包含使用测序信息和通过基因表达聚类的细胞来注释、鉴定或表征通过可及染色质区域聚类的细胞。在一些实施例中,该方法进一步包含使用测序信息和通过可及染色质区域聚类的细胞来注释、鉴定或表征通过基因表达聚类的细胞。在一些实施例中,多个细胞或细胞核来源于肿瘤样品或怀疑包含肿瘤的样品。在一些实施例中,该方法进一步包含使用测序信息来鉴定肿瘤样品或怀疑包含所述肿瘤的样品中的细胞类型、细胞状态、肿瘤特异性基因表达模式或肿瘤特异性染色质差异可及区域。在一些实施例中,该方法进一步包含使用测序信息来鉴定或确认肿瘤样品或怀疑包含所述肿瘤的样品中肿瘤细胞的存在。在一些实施例中,该方法进一步包含施用治疗有效量的靶向在肿瘤特异性基因表达模式或肿瘤特异性染色质差异可及区域中鉴定的一个或多个靶标的药剂。在一些实施例中,肿瘤是B细胞淋巴瘤。
实例。
实例1.外周血单核细胞的联合ATAC和基因表达谱
如本文所述,在一些实施例中,通过对单细胞内的多种不同模态进行分析,可以更好地理解复杂的生物系统。例如,在一些情况下,可以使用基因表达分析测定多个细胞中的每个细胞以获得基因的离散属性值和/或其差值(例如,倍数变化和/或相对基因表达)的模式,以及使用开放染色质分析(例如,ATAC片段计数值)以获得关于染色质可及性区域和/或相关细胞群体的信息。随后,可以组合对多个细胞的这些个体模态(例如,基于离散属性值的聚类和/或基于ATAC片段计数值的聚类)的分析,以获得多个细胞中的每个相应细胞的每个相应模态中的成员资格(例如,一个或多个基因表达簇和/或开放染色质簇中的成员资格)的指示。使用将单细胞分配到多个模态类(例如,单细胞群体,其中针对基因表达和开放染色质谱分析每个相应细胞)获得的连锁可能比例如对每个单独的细胞亚群(例如,针对基因表达分析的第一细胞亚群和针对开放染色质分析的第二细胞亚群)的单模态分析更稳健。例如,在一些情况下,与可以从对单细胞进行的多次分析获得的真实连锁相反,从相应多个亚群的多次单独分析得出的比较提供了推断的连锁。因此,根据本公开的一些实施例,对24,000个外周血单核细胞(PBMC)进行联合开放染色质(ATAC)和基因表达(GEX)图谱测定。
通过使用表达标记的基因表达(GEX)图谱(图24)和使用转座酶可及染色质(ATAC)测定法的开放染色质分析(图25),对多个PBMC中的每个细胞进行分析和聚类。对于每个模态,使用t-分布随机邻域嵌入(t-SNE)将多个细胞可视化为降维投影(曲线2400和2500)。对于基因表达分析,将多个细胞中的每个细胞分配到来自13个基因表达簇(例如,2402、2404、2406、2408、2410、2412、2414、2416、2418、2420、2422、2424和/或2426)的相应簇组(例如,注释的)。对于开放染色质分析,将多个细胞中的每个细胞分配到来自4个染色质可及性簇(例如,2502、2504,2506和/或2508)的相应簇组(例如,注释的)。在图26A和26B中示出了在两种模态(例如,基因表达和开放染色质)之间观察到的一致性。图26A示出了联合ATAC和GEX图谱测定中使用的多个PBMC中每个相应细胞的基因表达注释(RNA(2400))和开放染色质注释(ATAC(2500))之间的一致性。图26B描绘了基因表达簇和开放染色质簇之间的关系,如由分配给每个簇类型的细胞的重叠所指示的(例如,在细胞类型注释之间共享的PBMC的共同注释;用灰色表示)。通过基因表达谱(RNA)鉴定的簇显示在图26B的左侧,通过开放染色质谱(ATAC)鉴定的细胞类型注释显示在图26B的右侧。
将基因表达标记衍生的注释转移到通过可及染色质分析聚类的细胞群体上,如图27所示。图27的上图示出了使用转录因子可及性(例如,基于将多个细胞分配到开放染色质簇组的多个细胞的二维投影)用ATAC数据聚类和注释的细胞,而下图示出了通过将每个细胞分配到从基因表达聚类分析(例如,对于多个细胞中的每个细胞,在相应的基因表达簇组中的成员资格的指示)获得的相应基因表达簇而有差别地注释的这些相同的簇。然而,细胞簇的单模态注释(例如,仅ATAC聚类)产生有限的特异性,图27示出了用第二模态(例如,基因表达标记和/或基因表达聚类注释)对此类细胞簇的额外注释可用于区分额外的、更精确的细胞类型并提供有关特定细胞类型的更多背景信息。
进行额外的基因表达分析,以鉴定新的或分层的细胞群体,否则当单独使用基因表达或开放染色质区域的分析时无法检测到。例如,如图28A所示,单独使用开放染色质分析鉴定的一个或多个细胞群体可以被可视化为大的细胞簇或细胞簇组。具体地,如图28A所示,B细胞被可视化为包含多个较小细胞群体的多个大簇组。(2508)。类似地,单独使用基因表达标记鉴定的细胞群体可以包括细胞亚型的混合群体,如图28B所示。具体地,将未使用的和记忆B细胞一起分组在单个簇中(2422)。然而,图28C示出了不同模态的组合(例如,开放染色质聚类和使用基因表达分析的注释)允许将大B细胞簇(2508)分层为三个单独的亚群(例如,未使用的/记忆B细胞(2722)、IgM+IgD+记忆B细胞(2724)和血浆B细胞(2726)),其进一步表明在未使用的/记忆B细胞ATAC/GEX注释的簇中存在两种可能的细胞亚群。
图29A和29B进一步示出了使用两种不同分析方法的未使用的/记忆B细胞簇的比较。而GEX-聚类和注释单独仅指示未使用的/记忆B细胞的单一群体(图29B;2422),ATAC-聚类结合GEX-注释指示两个亚群(图29A;2722)。对基因表达注释的开放染色质聚类图中的差异基因表达的进一步分析揭示,当观察开放染色质聚类(图29C)时可见的两个不同的细胞亚群(亚簇1(2902)和亚簇2(2904))分别代表预期的记忆B细胞和未使用的B细胞。当单独观察基因表达聚类时,这些亚群是不可区分的,记忆B细胞和未使用的B细胞聚类在一起(图29D)。对亚簇1中的记忆B细胞和亚簇2中的未使用的B细胞的基因表达分析鉴定了代表性标记的差异基因表达,其中预期的记忆B细胞表达相对较高的Ig,相对较低的未使用的B细胞相关转录本,而预期的未使用的B细胞表达相对较低的Ig,相对较高的未使用的B细胞相关转录本,如图29E所示。总之,这些数据表明,具有基因表达标记的开放染色质(ATAC)簇的额外注释可以提供围绕特定细胞类型和亚型的额外背景,这不仅在仅使用ATAC聚类和注释时是缺乏的,而且在仅使用基因表达聚类和注释时也是缺乏的。因此,在一些实施例中,基因表达分析和开放染色质分析都通过第二种模态的额外注释而得到改善,例如通过促进新的细胞群体的鉴定,否则当单独分析基因表达或开放染色质区域时,这些新的细胞群体将是未鉴定和/或未注释的。
实例2.小B细胞淋巴瘤的功能表征
从受试者获得腹内淋巴结肿瘤样品以进行小B细胞淋巴瘤及其信号传导途径的功能表征。受试者的病理学报告表明诊断为淋巴结弥漫性小淋巴细胞性淋巴瘤(例如,恶性淋巴瘤、小B细胞、弥漫型,IHC:CD20(+)、CD3(-))。使用基因表达分析和单细胞开放染色质(ATAC-seq)对来自肿瘤样品的大约9000个细胞核(例如,细胞)进行图谱分析。对于每个模态(例如,GEX分析和ATAC-seq),使用t-分布随机邻域嵌入(t-SNE)将多个细胞可视化为降维投影。基因表达聚类将肿瘤细胞分配为五种细胞类型类别(B细胞、复制B细胞、单核细胞、T细胞和复制T细胞)中的一种,如图30A所示。如图30B所示,开放染色质聚类将肿瘤细胞分配为三种细胞类型类别(B细胞、单核细胞和T细胞)中的一种。
使用突变负荷(SNV)和BANK1途径的基因表达标记(B细胞过度活化的标记),将肿瘤B细胞与正常B细胞区分开。表达与肿瘤细胞一致的不同水平的SNV的细胞在图31A中以黑色表示,而表达与肿瘤细胞一致的不同水平的BANK1途径基因的细胞在图31B中以黑色表示。应用差异肿瘤和正常基因表达数据允许在通过基因表达谱聚类的细胞群体中鉴定B细胞的两个亚群(肿瘤B细胞和正常B细胞),如图31C所示。
在图32A和32B中,在淋巴结肿瘤细胞的基因表达聚类和ATAC-seq聚类的降维投影中显现簇的分层。在这两种情况下,应用差异肿瘤和正常基因表达数据允许在通过基因表达谱(图32A)和开放染色质分析(图32B)聚类的细胞群体中鉴定B细胞的两个亚群(肿瘤B细胞和正常B细胞)。图32C示出了在正常B细胞(左图)和肿瘤(右图)B细胞之间比较的代表性基因标记的差异基因表达。FCRL5/FCRL3编码免疫球蛋白受体超家族和Fc受体样家族的成员。这些基因与B细胞发育和淋巴瘤形成有关。MIR155HG代表微小RNA宿主基因。从该基因转录的长RNA在淋巴瘤中以高水平表达,并可能作为癌基因发挥作用。RASGRF1是一种鸟嘌呤核苷酸交换因子(GEF)并且参与MAP-Erk途径。IL4R是关键炎症信号因子的受体,促生长和促转移。XAF1编码一种与IAP(凋亡抑制剂)蛋白家族成员结合并抵消其抑制作用的蛋白质。BANK1是B细胞淋巴瘤中的肿瘤抑制剂。
开放染色质和基因表达的协方差进一步用于鉴定在肿瘤B细胞中特异性调节IL4R表达的候选增强子区域,如图33A至D所示。信号转导子和转录激活子(STAT)蛋白是细胞因子信号传导的关键介质。在七种STAT蛋白中,STAT6被IL-4和IL-13激活并在免疫系统中起主要作用。使用基因表达聚类分析的降维可视化(例如,与图33B比较)进行Stat3和Stat6的基因表达表征(图33A;上图)和可及染色质表征(图33A;下图)。数据表明IL4R介导的STAT6信号传导途径在淋巴结肿瘤样品中被活化。图33C进一步示出了仅在使用开放染色质分析(ATAC)的降维可视化鉴定的肿瘤B细胞簇中STAT蛋白的活化(例如,与图33D比较),表明STAT蛋白在细胞的细胞质中累积,但仅在核易位后有活性。
图34A至C中示出了多个细胞群体之间STAT蛋白活化的进一步比较分析。例如,如图34B(灰色阴影柱)所示,评估通过开放染色质聚类(图34A)鉴定的增强子区域是否存在表观遗传修饰。IL4R表达、启动子峰和连锁峰的量化揭示了在肿瘤B细胞群体中各一致的水平增加,但在T细胞、单核细胞或正常B细胞群中不一致(图34C)。因此,这些数据表明,基因表达注释和开放染色质聚类的组合可以揭示肿瘤特异性差异可及的染色质区域,这些区域在单独分析基因表达数据时不被揭示,并且可以用于发现与特定细胞状态相关的新的开放染色质区域。
结论
本文引用的所有参考文献通过引用整体并入本文并且用于所有目的,其程度如同每个单独的出版物或专利或专利申请被具体地和单独地指出通过引用整体并入用于所有目的。
可以为本文描述为单个实例的组件、操作或结构提供多个实例。最后,各种组件、操作和数据存储之间的边界在某种程度上是任意的,并且在特定说明性配置的上下文中示出了特定操作。其它功能分配是可以预见的,并且可以落入实现的范围内。一般而言,在实例配置中作为单独组件呈现的结构和功能可能被实现为组合结构或组件。类似地,呈现为单个组件的结构和功能可以实现为分离的组件。这些和其它变化、修改、添加和改进落在实现的范围内。
还应当理解,尽管本文可以使用术语第一、第二等来描述各种元件,但是这些元件不应当受这些术语的限制。这些术语仅用于区分一个元件与另一个元件。例如,在不脱离本公开的范围的情况下,第一对象可以被称为第二对象,并且类似地,第二对象可以被称为第一对象。第一对象和第二对象都是对象,但它们不是同一对象。
本公开中使用的术语仅用于描述特定实施例的目的,而不旨在限制本公开。如在本公开的描述和所附权利要求中所使用的,单数形式“一(a)”、“一个(an)”和“该(the)”也旨在包括复数形式,除非上下文另外清楚地指出。还将理解,如本文所用的术语“和/或”是指并涵盖一个或多个相关联的所列项目的任何和所有可能的组合。还应当理解,当在本说明书中使用时,术语“包含(comprises)”和/或“包含(comprising)”指定所述特征、整数、步骤、操作、元件和/或组件的存在,但不排除一个或多个其它特征、整数、步骤、操作、元件、组件和/或其组合的存在或添加。
如本文所用,根据上下文,术语“如果”可解释为意指“当”或“在”或“响应于确定”或“响应于检测”。类似地,根据上下文,短语“如果确定”或“如果检测到[规定的条件或事件]”可解释为意指“在确定时”或“响应于确定”或“在检测到(规定的条件或事件)时”或“响应于检测到(规定的条件或事件)”。
以上描述包括实现说明性实现的实例系统、方法、技术、指令序列和计算机程序产品。出于解释的目的,阐述了许多具体细节以便提供对本发明主题的各种实现方式的理解。然而,对于本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下实践本发明主题的实现。通常,没有详细示出公知的指令实例、协议、结构和技术。
出于解释的目的,已经参考特定实现描述了上述描述。然而,以上的说明性讨论并不旨在穷举或将实现限于所公开的精确形式。鉴于上述教导,许多修改和变化是可能的。选择和描述这些实现方式是为了最好地解释原理及其实际应用,从而使得本领域的其它技术人员能够最好地利用这些实施方式以及具有各种修改的各种实施方式,以适合于所设想的特定用途。

Claims (39)

1.一种用于可视化离散属性值数据集中的模式的方法,所述方法包含:
在包含一个或多个处理核和存储器的计算机系统中:
将所述离散属性值数据集存储在所述存储器中,其中所述离散属性值数据集包含:
对于多个细胞中的每个相应细胞,多个基因中的每个对应基因的相应离散属性值,以及
对于所述多个细胞中的每个相应细胞,多个ATAC峰中的每个对应ATAC峰的相应ATAC片段计数,其中
所述多个细胞包含100个细胞,
所述多个基因包含100个基因,
所述多个ATAC峰包含50个ATAC峰,
基于跨所述多个细胞的所述多个基因的离散属性值的第一聚类,将所述多个细胞中的每个相应细胞分配给第一多个簇组中的相应簇组,并且
基于跨所述多个细胞的所述多个ATAC峰的ATAC片段计数值的第二聚类,还将所述多个细胞中的每个相应细胞分配给第二多个簇组中的相应簇组;
基于将所述多个细胞分配给(i)所述第一多个簇组或(ii)所述第二多个簇组中的一个,在第一面板中显示所述多个细胞的二维投影;以及
对于所述多个细胞中的每个相应细胞,在所述二维投影内指示(i)所述第一多个簇组或(ii)所述第二多个簇组中的另一个中的成员资格,从而可视化所述离散属性值数据集中的模式。
2.根据权利要求1所述的方法,其中(i)所述第一多个簇组或(ii)所述第二多个簇组中的另一个中的所述多个细胞中的每个相应细胞的成员资格通过将所述相应细胞着色为与(i)所述第一多个簇组或(ii)所述第二多个簇组中的另一个中的所述相应细胞已被分配到的簇组唯一相关联的颜色来指示。
3.根据权利要求1所述的方法,所述方法进一步包含:
针对所述第一多个簇或所述第二多个簇中的每个相应簇的所述多个基因中的每个相应基因,计算所述相应簇中的跨所述相应细胞子集的所述相应基因的所述离散属性值相对于除所述相应簇之外的跨所述第一多个簇或所述第二多个簇的所述相应基因的所述离散属性值的差异,由此针对所述第一多个簇或所述第二多个簇中的每个相应簇导出所述多个基因中的每个相应基因的差值,以及
在第二面板中与所述第一面板同时显示热图,所述热图包含所述第一多个簇或所述第二多个簇中的每个相应簇的所述多个基因中的每个相应基因的所述差值的表示,从而可视化所述离散属性值数据集中的所述模式。
4.根据权利要求3所述的方法,其中所述第一多个簇或所述第二多个簇中的每个相应簇的所述多个基因中的每个相应基因的所述差值是(i)在所述相应簇的所述多个细胞中的所述细胞中的每一个中测量的所述相应基因的所述离散属性值的集中趋势的第一量度和(ii)在所述第一多个簇中的除了第一相应簇之外的所有簇或所述第二多个簇中的除了第一相应簇之外的所有簇的所述细胞中的每一个中测量的所述相应基因的所述离散属性值的集中趋势的第二量度的倍数变化。
5.根据权利要求4所述的方法,其中所述倍数变化是log2倍数变化或log10倍数变化。
6.根据权利要求3至5中任一项所述的方法,其中所述方法进一步包含在计算所述第一多个簇或所述第二多个簇中的每个相应簇的所述多个基因中的每个相应基因的所述差值之前,对所述多个基因中的每个相应基因的所述离散属性值先验进行归一化。
7.根据权利要求6所述的方法,其中所述归一化包含用具有分散的一致性估计的负二项分布对与所述多个细胞中的每个细胞相关联的每个基因的所述离散属性值进行建模。
8.根据权利要求1所述的方法,其中:
跨所述多个细胞的所述多个基因的离散属性值的所述第一聚类是跨所述多个细胞的所述多个细胞中的每个相应细胞的第一多个降维值的聚类,其中使用第一降维算法从所述相应细胞中的每个基因的所述离散属性值导出所述多个细胞中的每个相应细胞的所述第一多个降维值中的每个相应降维值,并且
跨所述多个细胞的所述多个ATAC峰的ATAC片段计数的所述第二聚类是跨所述多个细胞的所述多个细胞中的每个相应细胞的第二多个降维值的聚类,其中使用所述第一降维算法从所述相应细胞中的每个ATAC峰的所述ATAC片段计数导出所述多个细胞中的每个相应细胞的所述第二多个降维值中的每个相应降维值。
9.根据权利要求8所述的方法,其中所述第一降维算法是主成分分析。
10.根据权利要求8或9所述的方法,其中
所述多个细胞的所述二维投影基于所述多个细胞到所述第一多个簇组的分配,并且
所述多个细胞的所述二维投影是从跨
所述多个细胞对所述多个细胞中的每个相应细胞的所述第一多个降维值的t-分布随机邻域或UMAP嵌入获得的。
11.根据权利要求8或9所述的方法,其中
所述多个细胞的所述二维投影基于所述多个细胞到所述第二多个簇组的分配,并且
所述多个细胞的所述二维投影是从跨所述多个细胞对所述多个细胞中的每个相应细胞的所述第二多个降维值的t-分布随机邻域或UMAP嵌入获得的。
12.根据权利要求1至11中任一项所述的方法,其中
跨所述多个细胞的所述多个基因的离散属性值的所述第一聚类包含应用Louvain模块化算法、k-均值聚类、模糊k-均值聚类算法或Jarvis-Patrick聚类,并且
跨所述多个细胞的所述多个ATAC峰的ATAC片段计数值的所述第二聚类包含应用Louvain模块化算法、k-均值聚类、模糊k-均值聚类算法或Jarvis-Patrick聚类。
13.根据权利要求1至12中任一项所述的方法,其中
跨所述多个细胞的所述多个基因的离散属性值的所述第一聚类包含将k-均值聚类成第一预定数目的簇,或
跨所述多个细胞的所述多个ATAC峰的ATAC片段计数值的所述第二聚类包含将k-均值聚类成第二预定数目的簇。
14.根据权利要求13所述的方法,其中所述第一预定数目的簇或所述第二预定数目的簇是介于2和50之间的整数值。
15.根据权利要求14所述的方法,所述方法进一步包含从所述计算机系统的用户获得所述整数值。
16.根据权利要求1至15中任一项所述的方法,其中对于所述多个细胞中的每个相应细胞,多个基因中的每个对应基因的所述相应离散属性值表示全转录组鸟枪法测序实验,其以映射到所述基因的转录本读数的计数量化来自所述多个细胞中的每个相应单细胞的基因表达。
17.根据权利要求1所述的方法,其中所述多个细胞中的特定细胞中的每个基因在所述离散属性值数据集中用对所述特定细胞唯一的第一条形码唯一地表示。
18.根据权利要求1所述的方法,其中在所述多个细胞中的特定细胞中的每个基因的所述离散属性值是在所述特定细胞已经与所述多个细胞中的所有其它细胞分离成其自己的微流体分区之后确定的。
19.根据权利要求1至18中任一项所述的方法,其中所述多个细胞包含1000个细胞、2000个细胞、5000个细胞、10,000个细胞、25,000个细胞、50,000个细胞或100,000个细胞。
20.根据权利要求1至19中任一项所述的方法,其中所述多个基因包含150个基因、200个基因、300个基因、400个基因、1000个基因、2000个基因、3000个基因、4000个基因或5000个基因。
21.根据权利要求1至20中任一项所述的方法,其中所述多个ATAC峰包含100个ATAC峰、200个ATAC峰、500个ATAC峰、750个ATAC峰、1000个ATAC峰或5000个ATAC峰。
22.根据权利要求1至21中任一项所述的方法,其中所述离散属性值数据集具有至少250兆字节、500兆字节、1千兆字节、2千兆字节或3千兆字节的文件大小。
23.根据权利要求1至22中任一项所述的方法,其中
所述离散属性值数据集进一步包含特征连锁矩阵,其针对所述多个基因中的每个相应基因和针对所述多个ATAC峰中的每个相应ATAC峰存储:
在参考基因组中的相应基因或相应ATAC峰的阈值距离内的ATAC峰和基因的集合,并且针对所述集合中的每个相应ATAC峰或相应基因存储:
相对于跨所述多个细胞的所述第一ATAC峰或所述第一基因,所述相应ATAC峰的ATAC片段计数的相关性或所述相应基因的所述离散属性值的相关性,并且
所述方法进一步包含:
接收对所述多个基因中的第一基因或所述多个ATAC峰中的第一ATAC峰的选择,以及
使用所述特征连锁矩阵获得并提供第一图,所述第一图包含所述多个基因中的每个基因或所述多个峰中的每个峰的指示符,所述指示符以与所述参考基因组中的所述第一基因或所述第一ATAC峰相距的距离的顺序连锁到所述第一基因或所述第一ATAC峰。
24.根据权利要求23所述的方法,其中与所述第一基因或所述第一ATAC峰连锁的所述多个基因中的每个相应基因或所述多个峰中的每个相应峰的相应指示符:
为所述第一多个簇组中的每个相应簇组或所述第二多个簇组中的每个簇组提供,以及
其尺寸被确定为表示所述相应簇组中具有所述相应基因的所述离散属性值的非零值或所述相应ATAC峰的所述ATAC片段计数的非零值的细胞的比例。
25.根据权利要求23或24所述的方法,其中所述特征连锁矩阵针对
所述集合中的每个相应ATAC峰或相应基因进一步存储:
相对于跨所述多个细胞的细胞的所述第一ATAC峰或所述第一基因,所述相应ATAC峰的ATAC片段计数的显著性或所述相应基因的所述离散属性值的显著性,并且所述方法进一步包含:
将所述第一图限于在所述相应ATAC峰的ATAC片段计数或所述相应基因的离散属性值中与所述第一ATAC片段或所述第一基因具有阈值相关性或显著性的所述多个基因中的每个基因或所述多个峰中的每个峰。
26.根据权利要求23至25中任一项所述的方法,其中所述第一图限于在参考基因组中的所述第一基因或所述第一ATAC峰的阈值距离内的所述多个基因中的每个基因或所述多个峰中的每个峰。
27.根据权利要求26所述的方法,其中所述阈值距离是1兆碱基、2兆碱基或0.5兆碱基和10兆碱基之间的值。
28.一种计算机系统,其包含一个或多个处理核和存储器,所述存储器存储使用所述一个或多个处理核来执行包含以下步骤的方法的指令:
将离散属性值数据集存储在所述存储器中,其中所述离散属性值数据集包含:
对于多个细胞中的每个相应细胞,多个基因中的每个对应基因的相应离散属性值,以及
对于所述多个细胞中的每个相应细胞,多个ATAC峰中的每个对应ATAC峰的相应ATAC片段计数,其中
所述多个细胞包含100个细胞,
所述多个基因包含100个基因,
所述多个ATAC峰包含50个ATAC峰,
基于跨所述多个细胞的所述多个基因的离散属性值的第一聚类,将所述多个细胞中的每个相应细胞分配给第一多个簇组中的相应簇组,并且
基于跨所述多个细胞的所述多个ATAC峰的ATAC片段计数值的第二聚类,还将所述多个细胞中的每个相应细胞分配给第二多个簇组中的相应簇组;
基于将所述多个细胞分配给(i)所述第一多个簇组或(ii)所述第二多个簇组中的一个,在第一面板中显示所述多个细胞的二维投影;以及
对于所述多个细胞中的每个相应细胞,在所述二维投影内指示(i)所述第一多个簇组或(ii)所述第二多个簇组中的另一个中的成员资格,从而可视化所述离散属性值中的模式。
29.一种非暂时性计算机可读存储介质,其中所述非暂时性计算机可读存储介质存储指令,所述指令在由计算机系统执行时使得所述计算机系统执行用于可视化离散属性值数据集中的模式的方法,所述方法包含:
获得所述离散属性值数据集,其中所述离散属性值数据集包含:
对于多个细胞中的每个相应细胞,多个基因中的每个对应基因的相应离散属性值,以及
对于所述多个细胞中的每个相应细胞,多个ATAC峰中的每个对应ATAC峰的相应ATAC片段计数,其中
所述多个细胞包含100个细胞,
所述多个基因包含100个基因,
所述多个ATAC峰包含50个ATAC峰,
基于跨所述多个细胞的所述多个基因的离散属性值的第一聚类,将所述多个细胞中的每个相应细胞分配给第一多个簇组中的相应簇组,并且
基于跨所述多个细胞的所述多个ATAC峰的ATAC片段计数值的第二聚类,还将所述多个细胞中的每个相应细胞分配给第二多个簇组中的相应簇组;
基于将所述多个细胞分配给(i)所述第一多个簇组或(ii)所述第二多个簇组中的一个,在第一面板中显示所述多个细胞的二维投影;以及
对于所述多个细胞中的每个相应细胞,在所述二维投影内指示(i)所述第一多个簇组或(ii)所述第二多个簇组中的另一个中的成员资格,从而可视化所述离散属性值中的模式。
30.一种用于表征细胞的方法,其包含:
(a)将多个细胞或细胞核和多个条形码珠分区成多个分区,其中所述多个分区的至少一个子集各自包含所述多个细胞或细胞核的细胞或细胞核和所述多个条形码珠的条形码珠,其中所述多个分区的所述子集中的每个珠包含唯一的条形码序列;
(b)生成包含条形码序列的多个条形码化核酸分子,其中所述多个条形码化核酸分子的第一子集包含对应于核糖核酸(RNA)分子的序列;并且所述多个条形码化核酸分子的第二子集包含对应于与可及染色质区域对应的序列的序列;
(c)对所述多个条形码化核酸分子或由其生成的衍生物进行测序以生成测序信息;以及
(d)使用所述条形码序列和所述测序信息来鉴定所述测序信息中的细胞类型。
31.根据权利要求30所述的方法,其进一步包含使用所述测序信息通过可及染色质区域对细胞进行聚类。
32.根据权利要求30或权利要求31所述的方法,其进一步包含使用所述测序信息通过基因表达对细胞进行聚类。
33.根据权利要求32所述的方法,其进一步包含使用所述测序信息和通过基因表达聚类的所述细胞来注释、鉴定或表征通过可及染色质区域聚类的细胞。
34.根据权利要求31至33中任一项所述的方法,其进一步包含使用所述测序信息和通过可及染色质区域聚类的所述细胞来注释、鉴定或表征通过基因表达聚类的细胞。
35.根据权利要求30至34中任一项所述的方法,其中所述多个细胞或细胞核来源于肿瘤样品或怀疑包含肿瘤的样品。
36.根据权利要求30至35中任一项所述的方法,其进一步包含使用所述测序信息来鉴定所述肿瘤样品或怀疑包含所述肿瘤的所述样品中的细胞类型、细胞状态、肿瘤特异性基因表达模式或肿瘤特异性染色质差异可及区域。
37.根据权利要求35至36中任一项所述的方法,其进一步包含使用所述测序信息来鉴定或确认所述肿瘤样品或怀疑包含所述肿瘤的所述样品中肿瘤细胞的存在。
38.根据权利要求36至37中任一项所述的方法,其进一步包含施用治疗有效量的靶向在所述肿瘤特异性基因表达模式或所述肿瘤特异性染色质差异可及区域中鉴定的一个或多个靶标的药剂。
39.根据权利要求35至38中任一项所述的方法,其中所述肿瘤是B细胞淋巴瘤。
CN202180025608.8A 2020-02-13 2021-02-12 用于基因表达和dna染色质可及性的联合交互式可视化的系统和方法 Pending CN115428088A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US202062976270P 2020-02-13 2020-02-13
US62/976,270 2020-02-13
US202063061952P 2020-08-06 2020-08-06
US63/061,952 2020-08-06
PCT/US2021/018041 WO2021163630A1 (en) 2020-02-13 2021-02-12 Systems and methods for joint interactive visualization of gene expression and dna chromatin accessibility

Publications (1)

Publication Number Publication Date
CN115428088A true CN115428088A (zh) 2022-12-02

Family

ID=74860521

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180025608.8A Pending CN115428088A (zh) 2020-02-13 2021-02-12 用于基因表达和dna染色质可及性的联合交互式可视化的系统和方法

Country Status (4)

Country Link
US (1) US20210381056A1 (zh)
EP (1) EP4104179A1 (zh)
CN (1) CN115428088A (zh)
WO (1) WO2021163630A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115985402A (zh) * 2023-03-20 2023-04-18 北京航空航天大学 一种基于归一化流理论的跨模态数据迁移方法

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230140008A1 (en) 2021-10-06 2023-05-04 10X Genomics, Inc. Systems and methods for evaluating biological samples
WO2023092303A1 (en) * 2021-11-23 2023-06-01 Chromatintech Beijing Co, Ltd Method for generating an enhanced hi-c matrix, non-transitory computer readable medium storing a program for generating an enhanced hi-c matrix, method for identifying a structural chromatin aberration in an enhanced hi-c matrix
WO2023212532A1 (en) 2022-04-26 2023-11-02 10X Genomics, Inc. Systems and methods for evaluating biological samples
US20230409643A1 (en) * 2022-06-17 2023-12-21 Raytheon Company Decentralized graph clustering using the schrodinger equation
WO2024031068A1 (en) 2022-08-05 2024-02-08 10X Genomics, Inc. Systems and methods for immunofluorescence quantification
WO2024050542A1 (en) * 2022-09-02 2024-03-07 Icahn School Of Medicine At Mount Sinai Systems and methods for diagnosing a disease or a condition
WO2024097677A1 (en) * 2022-11-01 2024-05-10 BioLegend, Inc. Analyzing per-cell co-expression of cellular constituents

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6838969B2 (ja) 2014-06-26 2021-03-03 10エックス ジェノミクス, インコーポレイテッド 個々の細胞または細胞集団由来の核酸の分析方法
JP2017522908A (ja) * 2014-07-25 2017-08-17 ユニヴァーシティ オブ ワシントン セルフリーdnaを生じる組織及び/又は細胞タイプを決定する方法、並びにそれを用いて疾患又は異常を識別する方法
US11954614B2 (en) * 2017-02-08 2024-04-09 10X Genomics, Inc. Systems and methods for visualizing a pattern in a dataset
WO2019204560A1 (en) * 2018-04-18 2019-10-24 The Regents Of The University Of California Method to connect chromatin accessibility and transcriptome

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115985402A (zh) * 2023-03-20 2023-04-18 北京航空航天大学 一种基于归一化流理论的跨模态数据迁移方法
CN115985402B (zh) * 2023-03-20 2023-09-19 北京航空航天大学 一种基于归一化流理论的跨模态数据迁移方法

Also Published As

Publication number Publication date
WO2021163630A1 (en) 2021-08-19
EP4104179A1 (en) 2022-12-21
US20210381056A1 (en) 2021-12-09

Similar Documents

Publication Publication Date Title
US20210381056A1 (en) Systems and methods for joint interactive visualization of gene expression and dna chromatin accessibility
CN114761992B (zh) 用于识别组织样品中的形态学模式的系统和方法
US10347365B2 (en) Systems and methods for visualizing a pattern in a dataset
US11954614B2 (en) Systems and methods for visualizing a pattern in a dataset
Hou et al. scMatch: a single-cell gene expression profile annotation tool using reference datasets
Scott et al. Comparative transcriptome analysis quantifies immune cell transcript levels, metastatic progression, and survival in osteosarcoma
Li et al. Machine learning for lung cancer diagnosis, treatment, and prognosis
US9898578B2 (en) Visualizing expression data on chromosomal graphic schemes
CA3160566A1 (en) Systems and methods for predicting homologous recombination deficiency status of a specimen
WO2014024142A2 (en) Population classification of genetic data set using tree based spatial data structure
Boggy et al. BFF and cellhashR: analysis tools for accurate demultiplexing of cell hashing data
Dopazo Microarray data processing and analysis
US20230140008A1 (en) Systems and methods for evaluating biological samples
Bhattacharya et al. DeCompress: tissue compartment deconvolution of targeted mRNA expression panels using compressed sensing
JP2007520829A (ja) アレイcghデータ及び遺伝子発現データの連携解析のための方法及びシステム
Qin et al. An efficient method to identify differentially expressed genes in microarray experiments
Ranjan et al. DUBStepR: correlation-based feature selection for clustering single-cell RNA sequencing data
Panthum et al. Quality control of fighting fish nucleotide sequences in public repositories reveals a dark matter of systematic taxonomic implication
Chang et al. Gene set correlation enrichment analysis for interpreting and annotating gene expression profiles
Bhattacharyya Analyzing deviation pattern in strongly-correlated genes through core cluster mining
CN109390039A (zh) 一种统计dna拷贝数信息的方法、装置及存储介质
US20230230704A1 (en) Methods and systems for providing molecular data based on ct images
Rafii et al. Microarray data integration for efficient decision making
Zhong et al. Controlled Noise: Evidence of Epigenetic Regulation of Single-Cell Expression Variability
Venkatasubramanian De novo population discovery from complex biological datasets

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination