CN115867971A - 用于检测数据中的异质性的分辨率指数及其使用方法 - Google Patents

用于检测数据中的异质性的分辨率指数及其使用方法 Download PDF

Info

Publication number
CN115867971A
CN115867971A CN202180046967.1A CN202180046967A CN115867971A CN 115867971 A CN115867971 A CN 115867971A CN 202180046967 A CN202180046967 A CN 202180046967A CN 115867971 A CN115867971 A CN 115867971A
Authority
CN
China
Prior art keywords
data
resolution
data group
population
clusters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180046967.1A
Other languages
English (en)
Inventor
伊恩·詹姆斯·泰勒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Becton Dickinson and Co
Original Assignee
Becton Dickinson and Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Becton Dickinson and Co filed Critical Becton Dickinson and Co
Publication of CN115867971A publication Critical patent/CN115867971A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N15/00Investigating characteristics of particles; Investigating permeability, pore-volume or surface-area of porous materials
    • G01N15/10Investigating individual particles
    • G01N15/14Optical investigation techniques, e.g. flow cytometry
    • G01N15/1429Signal processing
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N15/00Investigating characteristics of particles; Investigating permeability, pore-volume or surface-area of porous materials
    • G01N15/10Investigating individual particles
    • G01N15/14Optical investigation techniques, e.g. flow cytometry
    • G01N15/1456Optical investigation techniques, e.g. flow cytometry without spatial resolution of the texture or inner structure of the particle, e.g. processing of pulse signals
    • G01N15/1459Optical investigation techniques, e.g. flow cytometry without spatial resolution of the texture or inner structure of the particle, e.g. processing of pulse signals the analysis being performed on a sample stream
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N15/00Investigating characteristics of particles; Investigating permeability, pore-volume or surface-area of porous materials
    • G01N15/10Investigating individual particles
    • G01N2015/1006Investigating individual particles for cytology
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N15/00Investigating characteristics of particles; Investigating permeability, pore-volume or surface-area of porous materials
    • G01N15/10Investigating individual particles
    • G01N15/14Optical investigation techniques, e.g. flow cytometry
    • G01N2015/1402Data analysis by thresholding or gating operations performed on the acquired signals or stored data
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N15/00Investigating characteristics of particles; Investigating permeability, pore-volume or surface-area of porous materials
    • G01N15/10Investigating individual particles
    • G01N15/14Optical investigation techniques, e.g. flow cytometry
    • G01N2015/1488Methods for deciding

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Analytical Chemistry (AREA)
  • Medical Informatics (AREA)
  • Dispersion Chemistry (AREA)
  • Immunology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Pathology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Biochemistry (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

提供了用于检测数据(例如流式细胞仪数据、核酸序列数据)中的异质性的方法。在一些实例中,方法包括:基于生物样本的样本中的分析物(例如细胞、粒子、核酸)的已确定的参数生成一个或更多个群簇。在实施例中,方法包括:通过计算任意给定数量的成对的第一数据群和第二数据群的差异量度与间隔距离之间的比率而计算分辨率指数。当需要时,方法还包括:通过计算分辨率分数而使数据群之间的分辨率最大化,所述分辨率分数考虑分辨率指数、群的数量、参数的数量和细胞的数量总和。还提供了用于确定数据群之间的异质性以及当需要时使数据群之间的分辨率最大化的系统及计算机可读介质。

Description

用于检测数据中的异质性的分辨率指数及其使用方法
交叉引用
根据35 U.S.C.§119(e),本申请要求于2020年5月18日提交的美国临时专利申请序列号63/026,327的提交日期的优先权,该申请的公开内容整体通过引用并入本文。
引言
生物样本中的分析物的表征已经成为患者的医学诊断和总体卫生及健康评价的重要部分。分析生物样本的方法,例如流式细胞术和核酸测序,在生物研究的领域中具有广泛的应用。
流式细胞术是一种用于表征并且经常用于分选生物材料(例如血液样本的细胞或另一种类型的生物或化学样本中的感兴趣的粒子)的技术。流式细胞仪通常包括用于接收例如血液样本之类的流体样本的样本储部、以及包含鞘液的鞘液储部。流式细胞仪将流体样本中的粒子(包括细胞)作为细胞流输送至流通池,同时也将鞘液导向流通池。为了表征液流的成分,用光照射液流。液流中的材料的变化(例如形态或荧光标记的存在)可以导致所观测的光的变化,并且这些变化允许进行表征和分离。例如,流体悬浮液中的粒子(例如分子、结合分析物的小珠或个体细胞)经过检测区域,在该检测区域中,粒子暴露于通常来自一个或更多个激光器的激发光,并且对粒子的光散射和荧光性质进行测量。粒子或其成分通常用荧光染料进行标记以促进检测。通过使用光谱不同的荧光染料来标记不同的粒子或成分,可以同时检测多种不同的粒子或成分。在一些实现中,在分析仪中包括多个光电检测器,针对每一个要被测量的散射参数用一个光电检测器,并且针对每一个要被检测的不同的染料用一个或更多个光电检测器。例如,一些实施例包括每种染料使用多于一个传感器或检测器的光谱配置。获得的数据包括针对每个光散射检测器和荧光发射测量的信号。
粒子分析仪还可以包括用于记录测得的数据以及分析数据的装置。例如,数据存储和分析可以使用连接到检测电子装置的计算机来执行。例如,数据可以用表格形式进行存储,其中每一行对应于一个粒子的数据,并且列对应于每个测得的特征。使用用于存储来自粒子分析仪的数据的标准文件格式(例如“FCS”文件格式)促进使用独立的程序和/或机器来分析数据。使用当前的分析方法,数据通常显示在1维直方图或2维(2D)图表中以便易于可视化,而其他方法可以被用于可视化多维数据。
使用例如流式细胞仪测量的参数通常包括:在光谱波长的范围上测量信号的一个或更多个检测器中在主要沿着前向的窄的角度中的在由粒子散射的激发波长处的被称为前散射(FSC)的光、在激发激光器的正交方向上的由粒子散射的被称为侧散射(SSC)的激发光、以及从荧光分子发射的光;或者主要在特定检测器或检测器的阵列中检测的由荧光染料发射的光。不同的细胞类型可以通过其由于利用荧光染料标记的抗体或其他荧光探针对不同的细胞蛋白质或其他组分进行标记而引起的光散射特性和荧光发射而被标识。
流式细胞仪和扫描细胞仪两者可以从例如BD Biosciences(生物科学)(加利福尼亚州的圣何塞)买到。流式细胞术在以下文件中进行了描述:例如,Landy等(编),ClinicalFlow Cytometry(临床流式细胞术),纽约科学院年鉴(Annals of the New York Academyof Sciences)第677卷(1993);Bauer等(编),Clinical Flow Cytometry:Principles andApplications(临床流式细胞术:原理与应用),Williams&Wilkins(1993);Ormerod(编),Flow Cytometry:Practical Approach(流式细胞术:实际方法),牛津大学出版社(1994);Jaroszeski等(编),Flow Cytometry Protocols,Methods in Molecular Biology(流式细胞术方案,分子生物学中的方法),第91期,Humana出版社(1997);以及Practical Shapiro,Flow Cytometry(流式细胞术),第4版,Wiley-Liss(2003);都通过引用并入本文。荧光成像显微术在以下文件中进行了描述:例如,Pawley(编),Handbook of Biological ConfocalMicroscopy(生物共焦显微术手册),第2版,Plenum出版社(1989),其通过引用并入本文。
核酸测序方法包括桑格“双脱氧”法,其依赖于使用双脱氧核苷三磷酸作为链终止子(chain terminator)。桑格法已经适合用在使用结合荧光标记的链终止子的自动化测序中。其他方法包括“下一代”测序方法,其包括基于结合用荧光标记的核酸类似物的连续的循环的那些方法。在这样的“通过合成测序”或“循环测序”方法中,在添加每个核苷酸之后通过检测荧光标记来确定所添加的碱基的标识。其他下一代测序方法包括基于检测在DNA的聚合期间释放的氢离子的那些方法。包含要进行测序的模板DNA链的微孔被注入唯一一种脱氧核糖核苷三磷酸(dNTP)。如果被引入的dNTP与前导模板核苷酸互补,则其结合到生长互补链。这种结合导致氢离子的释放,其触发指示已经发生了反应的ISFET离子传感器。如果在模板序列中存在均聚物重复,那么在单个循环中将有多个dNTP分子被结合。这导致对应数量的被释放的氢和成比例地变高的电信号。
当每个细胞对应于由所测量的参数定义的多维空间中的一个点时,通过流式细胞术或核酸测序从细胞(或其他粒子)的分析获得的数据是多维的。细胞或粒子群被标识为数据空间中的点簇。簇的标识以及由此得到的群的标识可以通过绘制围绕被称为数据的“散点图”或“点图”的一个或更多个2维图表中显示的群的门(gate)以人工方式执行。备选地,群簇可以被标识,并且定义群的限制的门可以被自动地确定。用于自动进行门选(gating)的方法的示例在以下中进行了描述:例如,美国专利号4,845,653;5,627,040;5,739,000;5,795,727;5,962,238;6,014,904;以及6,944,338;以及美国专利公开号2012/0245889,其均通过引用并入本文。
然而,将不同的分析物(例如粒子、细胞、核酸)组区分为分离的群经常存在挑战,因为两个群足够不同使得其构成分开的簇可能并不明显。用于区分数据群的传统的方法通常包括计算“染色指数”(stain index),其为数据分析领域中用于评价一元参数形式的两个群的信噪比的间隔的量度。换言之,染色指数提供了“阳性”数据(即由对于给定参数为阳性的群所包括的细胞)群和“阴性”流式细胞仪数据(即由对于给定参数为阴性的群所包括的细胞)群之间的间隔的量度。染色指数通过将阳性群和阴性群之间的间隔除以阴性群的标准差的两倍而进行计算。例如,图1提供了测量对于CD14为阳性的流式细胞仪数据的群和对于CD14为阴性的流式细胞仪数据的群之间的间隔的样本染色指数计算。然而,如上文所述以及在图1中所说明的,染色指数仅考虑阴性数据群的方差。因此,染色指数针对阴性峰的方差偏移而对阳性峰固有的方差不敏感。这对于例如阴性群趋于很窄的CyTOF和scRNA测序数据集是个问题。
发明内容
本发明的方面包括检测数据中的异质性。在一些实施例中,所述数据是流式细胞仪数据(例如由流式细胞仪产生的数据)。在其他实施例中,所述数据是核酸序列数据(例如由核酸测序平台产生的数据)。在一些实施例中,方法包括:基于样本中的分析物(例如细胞、粒子、核酸)的已确定的参数而生成一个或更多个数据(例如流式细胞仪数据、核酸序列数据)群簇。在这些实施例中,方法包括:接收数据;计算每个分析物的参数;以及基于计算的参数将分析物聚类在一起。在特定实例中,检测数据中的异质性包括计算任意给定数量的相邻的第一数据群和第二数据群的分辨率指数。在一些实施例中,第一数据群对于给定参数为阳性,并且第二数据群对于该参数为阴性。在实施例中,计算分辨率指数包括:从第一数据群和第二数据群获得差异量度(例如均值、标准差);确定第一数据群和第二数据群之间的间隔距离;以及计算第一数据群和第二数据群的相应的差异量度与间隔距离之间的比率。得到的分辨率指数可以用于提供数据群之间的间隔的量化、以及如果需要则使不同的群之间的分辨率最大化。在一些实施例中,方法包括:生成图像(例如热图、散点图),以描绘由数据群之间的间隔的一个或更多个量度(例如分辨率指数、Hartigan的倾角统计量)确定的异质性。在实施例中,当需要使数据群之间的分辨率最大化时,本发明的方面包括:计算分辨率分数,所述分辨率分数考虑分辨率指数、群的数量、参数的数量和细胞的数量总和。在一些实施例中,分辨率分数针对n(即群的数量)中的每个值进行计算,以致于存在与每个可能的群数相关联的分辨率分数。即,以确定使数据的分辨率最大化的群簇的最佳数量和布置。此外,本发明的实施例包括:通过使数据经历维度减少算法而减少数据的维度,该算法被选择是因为其产生了具有比其他维度减少算法高的分辨率分数的群簇。
本发明的方面还包括:装置,被配置为通过分析生物样本而产生数据。在一些实例中,所述装置是被配置为产生流式细胞仪数据的流式细胞仪。根据本发明的实施例的流式细胞仪还包括:检测器,被配置为检测粒子调制的光(例如由在流通池的探查点处经过激光的粒子所产生的散射光(例如荧光)、由粒子在在流通池的探查点处穿过激光之后发射的光等)。例如,感兴趣的流式细胞仪可以包括:一个或更多个前散射检测器和/或被配置为检测来自流通池的侧散射光的侧散射检测器;以及一个或更多个荧光检测器,被配置为检测来自流通池的荧光。在其他实施例中,所述装置是被配置为产生核酸序列数据的核酸测序平台。根据本发明的实施例的核酸测序平台可以是任意感兴趣的测序系统,包括桑格测序系统、下一代测序(NGS)系统等。在某些方面,所述测序系统是NGS系统。
感兴趣的系统还包括:逻辑,例如软件和/或硬件,例如处理器,其具有可操作地耦接到所述处理器的存储器,其中,所述存储器包括存储在其上的指令,当所述指令由所述处理器执行时,指令致使所述处理器检测数据(例如流式细胞术数据、核酸序列数据)中的异质性、以及当需要时使数据群之间的分辨率最大化。在实施例中,所述处理器被配置为根据一个或更多个不同的参数对数据进行分类、通过计算任意给定数量的相邻的第一数据群和第二数据群的分辨率指数而检测数据中的异质性、计算每个数据群的Hartigan的倾角统计量、以及生成由热图或图表组成的图像。当需要时,所述处理器包括用于使数据的分辨率最大化的指令。在实施例中,使数据的分辨率最大化包括:计算分辨率分数,所述分辨率分数考虑分辨率指数、群的数量、参数的数量和细胞的数量总和。在一些实施例中,分辨率分数针对n(即群的数量)中的每个值进行计算,以致于存在与每个可能的群数相关联的分辨率分数。即,用于确定使数据的分辨率最大化的群簇的最佳数量和布置。当需要时,所述处理器包括用于通过使数据经历维度减少算法而减少数据的维度的指令,该算法被选择是因为其产生了具有比其他维度减少算法高的分辨率分数的群簇。
本公开的方面还包括非暂时性计算机可读存储介质。在一些实施例中,感兴趣的计算机可读存储介质包括存储在其上的计算机程序,其中当所述计算机程序被加载到所述计算机上时包括用于以下的指令:根据一个或更多个不同的参数对数据进行分类;通过计算任意给定数量的相邻的第一数据群和第二数据群的分辨率指数而检测数据中的异质性;计算每个数据群的Hartigan的倾角统计量;以及生成由热图或图表组成的图像。当需要时,感兴趣的计算机可读存储介质包括用于使数据的分辨率最大化的指令。在实施例中,使数据的分辨率最大化包括:计算分辨率分数,所述分辨率分数考虑分辨率指数、群的数量、参数的数量和细胞的数量总和。在一些实施例中,分辨率分数针对n(即群的数量)中的每个值进行计算,以致于存在与每个可能的群数相关联的分辨率分数。即,用于确定使数据的分辨率最大化的群簇的最佳数量和布置。当需要时,所述计算机可读存储介质包括用于通过使数据经历维度减少算法而减少数据的维度的指令,该算法被选择是因为其产生了具有比其他维度减少算法高的分辨率分数的群簇。
在实施例中,主题方法、系统及计算机可读介质被配置为分析用于分析流式细胞仪数据或核酸序列数据的软件或分析工具(例如
Figure BDA0004030031860000051
或/>
Figure BDA0004030031860000052
(俄勒冈州的阿什福德))之中的数据。本方法、系统及计算机可读介质或其一部分可以被实现为用于分析数据的软件(例如/>
Figure BDA0004030031860000053
或/>
Figure BDA0004030031860000054
)的软件组件。在这些实施例中,根据本公开的主题方法、系统及计算机可读介质可以用作已有的软件包(例如/>
Figure BDA0004030031860000055
和/>
Figure BDA0004030031860000056
)的软件“插件”。
附图说明
当接合附图阅读时,可以基于以下详细描述最佳地理解本发明。附图中包括以下附图:
图1描绘了在数据分析中惯用的染色指数的示例计算。
图2描绘了二维散点图上呈现的数据群的差异量度。
图3描绘了二维散点图上呈现的数据群之间的间隔距离。
图4呈现了分辨率指数的示例计算。
图5描绘了说明通过分辨率指数确定的数据群之间的间隔的热图。
图6描绘了说明通过Hartigan的倾角统计量(Hartigan’s dip statistic)确定的不同数据群的模态的热图。
图7描绘了示意性地说明分辨率指数的计算及分辨率指数与分辨率分数的关系的流程图。
图8描绘了说明分辨率分数随着群簇的数量的改变如何变化的曲线图。
图9呈现了均说明不同的维度减少算法的结果的三种不同的二维散点图。
图10描绘了根据特定实施例的流式细胞仪。
图11描绘了根据特定实施例的处理器的一个示例的功能框图。
图12描绘了根据特定实施例的计算系统的框图。
具体实施方式
提供了用于检测数据(例如流式细胞仪数据、核酸序列数据)中的异质性的方法。在一些实例中,方法包括:基于生物样本中的分析物(例如细胞、粒子、核酸)的已确定的参数而生成一个或更多个群簇。在实施例中,方法包括:通过计算任意给定数量的成对的第一数据群和第二数据群的差异量度与间隔距离之间的比率而计算分辨率指数。当需要时,方法还包括:通过计算分辨率分数而使数据群之间的分辨率最大化,所述分辨率分数考虑分辨率指数、群的数量、参数的数量和细胞的数量总和。还提供了用于确定数据群之间的异质性以及当需要时使数据群之间的分辨率最大化的系统及计算机可读介质。
在更详细地描述本发明之前,应理解本发明不限于所描述的特定实施例,因此当然可以变化。还应理解,本文使用的术语仅出于描述特定实施例的目的,并且不旨在进行限制,因为本发明的范围将仅由随附权利要求所限定。
在提供值的范围的地方,应理解,除非上下文另外清楚地指定,否则该范围的上限值与下限值之间的达下限值的单位的十分之一的每个中间值,以及所说明的范围中的任何其他所说明的值或中间值被包括在本发明之中。较小范围的上限值和下限值可以被独立地包括在这些较小的范围中并且也被包括在本发明之中,受到从所说明的范围中明确排除任意限值的制约。在所说明的范围包括限值中的一个或两个的地方,排除那些所包括的限值中的任一个或两个的范围也被包括在本发明中。
特定范围在本文中以由术语“约”限定的数值形式呈现。术语“约”在本文中用于提供对其限定的准确数字、以及接近或近似该术语限定的数字的数字的文字支持。在确定数字是否接近或近似明确列举的数字时,接近或近似的未列举的数字可以是在呈现其的上下文中与明确列举的数字实质上等同的数字。
除非另外定义,否则本文使用的所有技术和科技数据具有与本发明所属领域的普通技术人员的通常理解相同的含义。虽然与本文描述的那些类似或等价的任意方法和材料也可以在本发明的实践或测试中使用,但是目前描述有代表性的说明性的方法和材料。
本说明书中引用的所有公开文本和专利通过引用并入本文,如同明确且单独地指示每个单独的公开文本或专利通过引用并入一样,并且将其通过引用并入本文以结合所引用的公开文本来公开和描述方法和/或材料。对任意公开文本的引用是针对其在本提交日之前的公开,并且不应被解释为承认本发明无权凭借在先发明而早于该公开文本。此外,所提供的公开日期可能与实际公开日期不同,实际公开日期可能需要单独确认。
要注意,除非上下文另外清楚地指定,否则如本文和随附权利要求中所使用的单数形式的“一”、“一个”和“所述”包括复数引用。还要注意,权利要求可以撰写为排除任意可选要素。因此,这个说明旨在用作结合对权利要求要素的列举而使用例如“仅”、“只”等的排他性术语、或者使用“否定性”限定的先行基础。
本领域技术人员在阅读本公开之后将清楚,本文描述和示出的单独的实施例中的每一个具有可以易于与其他几个实施例中的任意实施例的特征分离或组合的分立的组件和特征而不背离本发明的范围或精神。所列举的任意方法可以用所列举的事件的顺序或逻辑上可能的任意其他顺序执行。
尽管已经为了语法流畅及功能说明而描述了或将描述设备和方法,但是要明确理解,除非根据35 U.S.C.§112明确表述,否则无需将权利要求解释为通过构建“装置”或“步骤”限制的任意方式进行限制,而应符合由权利要求提供的根据等同权利要求的司法解释的定义的含义和等同含义的整个范围,并且在权利要求根据35 U.S.C.§112明确表述的情况下,应符合根据35 U.S.C.§112的全部法定的等同含义。
用于检测数据中的异质性的方法
如上所述,提供了用于检测数据中的(例如两个不同数据群之间的)异质性的方法。通过“检测异质性”来表示确定两个数据群是否足够不同使得其可以被认为是分开的群簇。在一些实施例中,检测数据中的异质性包括确定数据群之间存在或缺少关联性。在其他实施例中,检测数据中的异质性包括评价数据聚类的质量。在实施例中,通过确定流中的不同群之间的分辨率就总体而言是否太低(即群被“过聚类”,以致于它们不被正确地区分)来评价数据聚类的质量。
流式细胞仪数据
在一些实施例中,本方法中所分析的数据是具有从检测的光生成的样本中的粒子的参数的流式细胞仪数据。通过“流式细胞仪数据”来表示关于流通池中的粒子的参数的信息,所述信息是通过流式细胞仪中的任意数量的检测器而采集的。在实施例中,流式细胞仪数据从前散射检测器接收。在一些实例中,前散射检测器可以产生关于粒子的总尺寸的信息。在实施例中,流式细胞仪数据从侧散射检测器接收。在一些实例中,侧散射检测器可以被配置为检测来自粒子的表面和内部结构的折射及反射光,其趋于随着不断增加的粒子结构的复杂度而增加。在实施例中,流式细胞仪数据从荧光检测器接收。在一些实例中,荧光检测器可以被配置为检测来自荧光分子——例如与流通池中的粒子相关联的所标记的特定结合成员(例如所标记的专门结合到感兴趣的标志的抗体)的荧光发射。在特定实施例中,方法包括用一个或更多个荧光检测器检测来自样本的荧光,例如2个或更多个、例如3个或更多个、例如4个或更多个、例如5个或更多个、例如6个或更多个、例如7个或更多个、例如8个或更多个、例如9个或更多个、例如10个或更多个、例如15个或更多个,以及包括25个或更多个荧光检测器。在实施例中,每个荧光检测器被配置为生成荧光数据信号。来自样本的荧光可以在200nm–1200nm的范围的一个或更多个波长上通过每个荧光检测器独立检测。在一些实例中,方法包括检测来自样本的一个波长范围上的荧光,例如从200nm至1200nm、例如从300nm至1100nm、例如从400nm至1000nm、例如从500nm至900nm以及包括从600nm至800nm。在其他实例中,方法包括用每个荧光检测器在一个或更多个特定波长处检测荧光。例如,根据主题光检测系统中的不同荧光检测器的数量,荧光可以在以下中的一个或更多个处检测:450nm、518nm、519nm、561nm、578nm、605nm、607nm、625nm、650nm、660nm、667nm、670nm、668nm、695nm、710nm、723nm、780nm、785nm、647nm、617nm以及其任意组合。在特定实施例中,方法包括检测与样本中呈现的特定荧光团的荧光峰波长相对应的波长的光。在实施例中,流式细胞仪数据从一个或更多个光检测器(例如一个或更多个检测通道)接收,例如2个或更多个、例如3个或更多个、例如4个或更多个、例如5个或更多个、例如6个或更多个,以及包括8个或更多个光检测器(例如8个或更多个检测通道)。
在实践根据特定实施例的方法时,用光源照射具有粒子的样本、以及检测来自样本的光以至少部分地基于所检测的光的测量来生成相关粒子的群。在一些实例中,样本是生物样本。按照其常规含义,术语“生物样本”用于指代可以在某些情况下在血液、粘液、淋巴液、滑液、脑脊液、唾液、支气管肺泡灌洗液、羊水、羊脐带血、尿液、阴道液和精液中发现的所有的有机体、植物、真菌或动物组织的子集、细胞或组成部分。因此,“生物样本”指代原生有机体或其组织的子集两者,以及指代基于有机体或其组织的子集制备的匀浆、裂解物或提取物,包括但不限于例如血浆、血清、脊髓液、淋巴液、皮肤切片、呼吸道、胃肠道、心血管以及泌尿生殖道、眼泪、唾液、乳、血细胞、肿瘤、器官。生物样本可以是任意类型的有机组织,包括健康组织和患病组织两者(例如癌变的、恶性的、坏死的等)。在特定实施例中,生物样本是液体样本,例如血液或其衍生物,例如血浆、眼泪、尿液、精液等,其中在一些实例中,样本是血液样本,包括所有的血液,例如基于静脉穿刺或指尖采血获得的血液(其中在测定前血液可以或可以不与任何试剂例如防腐剂、抗凝剂等混合)。
在特定实施例中,样本源是“哺乳动物”(mammal或mammalian),其中这样的术语用于广义地描述哺乳动物纲中的有机体,包括食肉动物目(例如狗和猫)、啮齿目(例如小鼠、豚鼠和大鼠)以及灵长目(例如人类、黑猩猩和猴)。在一些实例中,受试者是人类。所述方法可以应用于从两种性别以及处于任意发育阶段(即新生儿、婴儿、少年、青年、成人)的人类受试者获得的样本,其中在特定实施例中,人类受试者是少年、青年或成人。虽然本发明可以应用于来自人类受试者的样本,但是应理解,所述方法还可以在来自其他动物受试者(即“非人类受试者”)的样本上进行,例如但不限于鸟、小鼠、大鼠、狗、猫、家畜和马。
在实践主题方法时,用来自光源的光照射(例如流式细胞仪的液流中的)具有粒子的样本。在一些实施例中,光源是宽带光源,例如其发射具有宽的波长范围的光,例如跨越50nm或更多、例如100nm或更多、例如150nm或更多、例如200nm或更多、例如250nm或更多、例如300nm或更多、例如350nm或更多、例如400nm或更多,以及包括跨越500nm或更多。例如,一个合适的宽带光源发射具有从200nm至1500nm的波长的光。合适的宽带光源的另一示例包括发射具有从400nm至1000nm的波长的光的光源。其中的方法包括用宽带光源照射,感兴趣的宽带光源方案可以包括但不限于卤素灯、氘弧灯、氙弧灯、稳定光纤耦合宽带光源、具有连续谱的宽带LED、超辐射发光二极管、半导体发光二极管、宽谱LED白光源、多LED集成白光源、其他宽带光源等或其任意组合。
在其他实施例中,例如,方法包括用发射特定波长或窄波长范围的窄带光源照射,例如用发射类似于50nm或更小的范围的窄波长范围的光的光源,例如40nm或更小、例如30nm或更小、例如25nm或更小、例如20nm或更小、例如15nm或更小、例如10nm或更小、例如5nm或更小、例如2nm或更小,以及包括发射特定波长的光(即单色光)的光源。其中的方法包括用窄带光源照射,感兴趣的窄带光源方案可以包括但不限于窄波长LED、激光二极管或者耦合到一个或更多个带通滤光片、衍射光栅、单色仪的宽带光源或其任意组合。
核酸序列数据
在其他实施例中,本方法中所分析的数据是核酸序列数据。通过“核酸序列数据”来表示关于生物样本中包含的一个或更多个核酸样本的序列的信息。如上面在引言部分中详细描述的,核酸测序方法包括例如“下一代”测序方法,其包括基于结合用荧光标记的核酸类似物的连续的循环那些方法。
核酸样本可以是包括或疑似包括感兴趣的一个或更多个核酸的任意核酸样本,例如需要对该一个或更多个核酸进行扩增的一个或更多个核酸。可能出于多种原因而需要对一个或更多个核酸进行扩增,其中包括但不限于对感兴趣的一个或更多个核酸的扩增产物(或“扩增子”)进行测序。对扩增产物进行测序使人们能够确定感兴趣的一个或更多个核酸的核苷酸序列、以及可选地对核酸样本中存在的感兴趣的一个或更多个核酸的量进行量化。
核酸样本可以是一个或更多个细胞或从一个或更多个细胞分离的核酸样本。例如,核酸样本可以是从单个细胞、多个细胞(例如培养的细胞)、组织、器官、有机体(例如细菌、酵母菌等)分离的核酸样本。在某些方面,核酸样本从哺乳动物(例如人类、啮齿动物(例如小鼠)或感兴趣的任何其他哺乳动物)的细胞、组织、器官等分离。在其他方面,核酸样本从除了哺乳动物之外的源分离,例如细菌、酵母菌、昆虫(例如果蝇)、两栖动物(例如蛙(例如非洲蟾蜍))、病毒、植物或任何其他非哺乳动物核酸样本源。
根据特定实施例,核酸样本从生物样本分离,例如生物流体或生物组织。生物流体的示例包括尿液、血液、血浆、血清、唾液、精液、粪便、痰液、脑脊液、眼泪、粘液、精子、羊水等。生物组织是细胞的集合体,通常是特定类型且具有其细胞间质,其形成以下的结构材料中的一种:人类、动物、植物、细菌、真菌或病毒结构,包括连接、上皮、肌肉和神经组织。生物组织的示例还包括器官、肿瘤、淋巴结、动脉和相应的细胞。
在某些方面,核酸样本从微生物分离。感兴趣的微生物包括例如细菌、真菌、酵母菌、原生动物、病毒(包括非包膜病毒和包膜病毒两者)、细菌内芽孢(例如杆菌(包括炭疽杆菌、蜡状芽孢杆菌和枯草杆菌)和梭状杆菌(包括肉毒杆菌、艰难杆菌和产气荚膜梭菌))及其组合。感兴趣的微生物的属包括但不限于李斯特菌属、埃希氏菌属、沙门氏菌属、弯曲杆菌属、梭状杆菌属、幽门螺杆菌属、分枝杆菌属、葡萄球菌属、志贺氏菌属、肠球菌属、杆菌属、奈瑟菌属、志贺氏菌属、链球菌属、弧菌属、耶尔森氏菌属、博德氏菌属、疏螺旋体菌属、假单胞菌属、酵母菌属、念珠菌属等及其组合。感兴趣的特定微生物菌株包括但不限于大肠杆菌、小肠结肠炎耶尔森氏菌、假结核耶尔森氏菌、霍乱弧菌、副溶血弧菌、创伤弧菌、单核细胞增生李斯特菌、金黄色葡萄球菌、肠炎沙门氏菌、酿酒酵母、白色念珠菌、葡萄球菌肠毒素ssp、蜡样芽孢杆菌、炭疽杆菌、萎缩杆菌、枯草杆菌、产气荚膜梭菌、肉毒梭菌、艰难梭菌、阪崎肠杆菌、铜绿假单胞菌等及其组合(优选地,金黄色葡萄球菌、肠炎沙门氏菌、酿酒酵母、萎缩杆菌、枯草芽孢杆菌、大肠杆菌、以大肠杆菌噬菌体为替代物的人类感染非包膜肠道病毒及其组合)。
根据特定实施例,核酸样本是肿瘤核酸样本(即从肿瘤分离的核酸样本)。本文使用的“肿瘤”指所有肿瘤细胞生长和增殖,无论是恶性还是良性,以及所有癌前和癌性细胞和组织。术语“癌症”和“癌变”指代或描述哺乳动物的生理状况,其典型特征是细胞生长/增殖不受调节。癌症的例子包括但不限于癌瘤、淋巴瘤、母细胞瘤、肉瘤和白血病。这类癌症的更具体的例子包括鳞状细胞癌、小细胞肺癌、非小细胞肺癌、肺腺癌、肺鳞癌、腹膜癌、肝细胞癌、胃肠道癌、胰腺癌、胶质母细胞瘤、宫颈癌、卵巢癌、肝癌、膀胱癌、肝瘤、乳癌、结肠癌、结直肠癌、子宫内膜癌或子宫癌、涎腺癌、肾癌、肝癌、前列腺癌、外阴癌、甲状腺癌、原发肝癌以及各种类型的头颈癌等。
根据特定实施例,核酸样本是脱氧核糖核酸(DNA)样本。感兴趣的DNA样本包括但不限于基因组DNA样本、线粒体DNA样本、互补DNA(cDNA,由任何感兴趣的RNA或DNA合成)样本、重组DNA样本(例如质粒DNA样本)和任何其他感兴趣的DNA样本。
在某些方面,核酸样本是核糖核酸(RNA)样本。感兴趣的RNA样本包括但不限于信使RNA(mRNA)样本、小/短干扰RNA(siRNA)样本、小分子RNA(miRNA)和感兴趣的任何其他RNA样本。
用于从感兴趣的源分离DNA和RNA的方法、试剂和套件在本领域是已知的并且可以买到。例如,用于从感兴趣的源分离DNA的套件包括:Qiagen公司(马里兰州德国镇)的
Figure BDA0004030031860000111
和/>
Figure BDA0004030031860000112
核酸分离/纯化套件;LifeTechnologies(生命技术)公司(加利福尼亚州卡尔斯巴德)的/>
Figure BDA0004030031860000113
Figure BDA0004030031860000114
和/>
Figure BDA0004030031860000115
核酸分离/纯化套件;ClontechLaboratories(克隆技术实验室)公司(加利福尼亚州山景城)的
Figure BDA0004030031860000116
和/>
Figure BDA0004030031860000117
核酸分离/纯化套件。在某些方面,从固定的生物样本(例如福尔马林固定的、石蜡包埋的(FFPE)组织)分离核酸。来自FFPE组织的基因组DNA和RNA可以使用可以买到的套件来分离,例如Qiagen公司(马里兰州德国镇)的
Figure BDA0004030031860000118
DNA/RNA FFPE套件、Life Technologies公司(加利福尼亚州卡尔斯巴德)的用于FFPE的/>
Figure BDA0004030031860000119
总核酸分离套件和Clontech Laboratories公司(加利福尼亚州山景城)的/>
Figure BDA00040300318600001110
FFPE套件。
在某些方面,可能希望对扩增产物进行测序(例如使用桑格测序系统、下一代测序(NGS)系统等),在这种情况下为扩增产物添加一个或更多个测序接头对于在感兴趣的特定测序系统上进行测序是有用的或必要的。因此,在某些方面,方法还包括为经扩增的感兴趣的一个或更多个核酸和经扩增的一个或更多个竞争内部标准核酸添加测序接头。无论经扩增的感兴趣的一个或更多个核酸和经扩增的一个或更多个竞争内部标准核酸是否已经包括一个或更多个测序接头,这样的步骤都可以执行(例如依靠包括如上所述的一个或更多个测序接头的一个或更多个扩增引物)。可以被添加到经扩增的感兴趣的一个或更多个核酸和经扩增的一个或更多个竞争内部标准核酸的测序接头包括例如一个或更多个捕捉域、一个或更多个测序引物结合域、一个或更多个条码(barcode)域、一个或更多个条码测序引物结合域、一个或更多个分子标识域、任何这样的域的补充或其任意组合。在上文描述了关于测序接头的另外的细节。
根据特定实施例,所述方法包括使经扩增的感兴趣的一个或更多个核酸和经扩增的一个或更多个竞争内部标准核酸经历限制酶消化情况,其中一个或更多个竞争内部标准核酸或经扩增的感兴趣的一个或更多个核酸中的任一个在消化反应中通过存在的限制酶而被切割。如上所述,竞争内部标准核酸中的错配可以在竞争内部标准核酸中创建/提供不出现在核酸样本中的对应的核酸中的限制酶识别位置。备选地,竞争内部标准核酸中的错配可以导致竞争内部标准核酸中不存在出现在核酸样本中的对应的感兴趣的核酸中的限制酶识别位置。以这种方式,错配用于例如使人们能够基于限制酶是否消化了经扩增的感兴趣的一个或更多个核酸或经扩增的一个或更多个竞争内部标准核酸而区分经扩增的感兴趣的一个或更多个核酸和经扩增的一个或更多个竞争内部标准核酸。
在某些方面,所述方法包括:为经扩增的感兴趣的一个或更多个核酸和经扩增的一个或更多个竞争内部标准核酸添加测序接头;以及以所需的任意顺序使经扩增的感兴趣的一个或更多个核酸和经扩增的一个或更多个竞争内部标准核酸经历限制酶消化情况。
根据特定实施例,所述方法包括对经扩增的感兴趣的一个或更多个核酸和经扩增的一个或更多个竞争内部标准核酸进行测序。这样的扩增产物可以直接进行测序(可选地在纯化步骤之后),或者可以在进行测序之前进行改造。在测序之前的改造包括但不限于增加如上所述的一个或更多个测序接头、如上所述地使扩增子经历限制酶消化情况、和/或用于在感兴趣的测序平台上对扩增子进行测序的任何其他有用的改造。
测序可以在任意合适的测序平台上执行,其包括桑格测序平台、下一代测序(NGS)平台(例如使用下一代测序方案)等。感兴趣的NGS测序平台包括但不限于由以下提供的测序平台:
Figure BDA0004030031860000121
(例如HiSeqTM、MiSeqTM和/或Genome Analyzer(分析仪)TM测序系统);Ion TorrentTM(例如Ion PGMTM和/或Ion ProtonTM测序系统);Pacific Biosciences(太平洋生物科学)(例如PACBIO RS II测序系统);Life TechnologiesTM(例如SOLiD测序系统);Roche(例如454GS FLX+和/或GS Junior(初级)测序系统);或任何其他感兴趣的测序平台。用于制备用于进行测序的扩增子(例如通过进一步扩增(例如固相扩增)等)、对扩增子进行测序、以及分析测序数据的详细方案可从感兴趣的测序系统的制造商获得。
数据分析
在(例如通过流式细胞仪或核酸测序平台)产生数据(例如流式细胞仪数据、核酸序列数据)之后,所述方法的实施例包括分析数据。在一些实施例中,方法包括基于样本中的分析物(例如细胞、粒子、核酸)的已确定的参数而生成一个或更多个群簇。如本文所使用的分析物(例如细胞、核酸或其他粒子)的“群”或“子群”一般指分析物的群,针对一个或更多个测量参数而言,所述分析物具有使得所测量的参数数据形成数据空间中的一个簇的性质(例如光学、阻抗或时间性质)。在实施例中,例如,数据由来自任意给定数量的不同参数的信号组成,例如2个或更多个、3个或更多个、4个或更多个、5个或更多个、6个或更多个、7个或更多个、8个或更多个、9个或更多个、10个或更多个以及包括20个或更多个。因此,群被识别为数据中的簇。相反,每个数据簇一般被解释为对应于特定类型的细胞或分析物的群,但是对应于噪声或背景的簇通常也被观察到。簇可以在维度的子集中进行定义,例如针对测得的参数的子集,其对应于只是在测得的参数或从细胞、粒子或核酸的测量提取的特征的子集上不同的群。
在实施例中,方法包括:接收数据;计算每个分析物的参数;以及基于计算的参数将分析物聚类在一起。例如,当数据是流式细胞仪数据时,实验可以包括通过若干个荧光团标记的粒子或用荧光标记的抗体,并且粒子群可以由对应于一个或更多个荧光测量的群进行定义。在示例中,第一群可以通过第一荧光团的特定范围的光散射来定义,并且第二群可以通过第二荧光团的特定范围的光散射来定义。如果第一荧光团和第二荧光团分别在x轴和y轴上表示,如果信息要以图的形式进行显示,则可以出现两个不同的经颜色编码的群,以定义每个粒子群。任意数量的分析物可以被分配到簇,包括5个或更多个分析物,例如10个或更多个分析物、例如50个或更多个分析物、例如100个或更多个分析物、例如500个分析物以及包括1000个分析物。在特定实施例中,所述方法将样本中检测到的稀有事件(例如样本中的稀有细胞、例如癌细胞)一起分到一个簇中。在这些实施例中,所生成的分析物的簇可以包括10个或更少的已分配的分析物,例如9个或更少的,以及包括5个或更少的已分配的分析物。
在实施例中,检测数据中的异质性包括获得第一数据群和第二数据群的差异量度。通过“差异量度”来表示均值和标准差。在一些实施例中,均值是一维或多维空间中的给定数据群的平均质心位置,并且标准差值是一维或多维空间中的给定数据群的扩展的量度。例如,图2描绘了获得二维空间中的差异量度。x轴测量流式细胞仪数据的一个参数(即CD4的存在)而y轴测量另一参数(即CD8的存在)。描绘了流式细胞仪数据的三个群。平均质心位置201、203和205分别通过第一流式细胞仪数据群、第二流式细胞仪数据群和第三流式细胞仪数据群的中心的十字来表示。类似地,标准差202、204和206分别通过围绕第一数据群、第二数据群和第三数据群的矩形来表示。
在一些实施例中,检测数据中的异质性包括确定第一数据群和第二数据群之间的间隔距离。通过“间隔距离”来表示使成对的群分开的群间距离。例如,图3描绘了图2中描绘的第一数据群、第二数据群和第三数据群之间的间隔距离。第一流式细胞仪数据群和第二流式细胞仪数据群之间的间隔距离通过在平均质心位置201和平均质心位置203之间绘制的距离301来定义。第二流式细胞仪数据群和第三流式细胞仪数据群之间的间隔距离通过在平均质心位置203和平均质心位置205之间绘制的距离302来定义。第三流式细胞仪数据群和第一流式细胞仪数据群之间的间隔距离通过在平均质心位置205和平均质心位置201之间绘制的距离303来定义。
在一些实施例中,例如如本文所述的差异量度和间隔距离被用于计算分辨率指数。如本文所述的分辨率指数是第一数据群和第二数据群之间的间隔的量化。在实施例中,分辨率指数提供了用于任何给定的第一数据群和第二数据群的异质性的量度。在实施例中,分辨率指数通过考虑两个群的群内差异而提供了第一数据群和第二数据群之间的间隔的无偏量度(与如图1所示的针对染色指数只是测量阴性群的差异相对照)。在实施例中,当第一数据群和第二数据群对于给定参数分别为阳性和阴性时,分辨率指数提供了考虑阳性群和阴性群两者的群内差异的间隔的量度。
在一些实施例中,分辨率指数通过计算第一数据群和第二数据群的相应的差异量度与间隔距离之间的比率而确定。在实施例中,所述比率根据等式A
Figure BDA0004030031860000131
来被计算。
在等式A中,
Figure BDA0004030031860000141
是第一数据群的平均质心位置,/>
Figure BDA0004030031860000142
是第二数据群的平均质心位置,SDclust01是第一数据群的标准差,并且SDclust02是第二数据群的标准差。在实施例中,较大的分辨率指数表示两个数据群之间较大的间隔。阳性数据群和阴性数据群的分辨率指数计算的示例在图4中呈现。
在特定实施例中,例如,针对任意给定数量的相邻的成对的第一数据群和第二数据群来计算分辨率指数,例如2个或更多个、3个或更多个、4个或更多个、5个或更多个、6个或更多个、7个或更多个、8个或更多个、9个或更多个、10个或更多个、20个或更多个、50个或更多个、以及包括100个或更多个。在一些实施例中,要计算分辨率指数的相邻的成对的数据的数量由用户输入。在一些实施例中,计算通过任意给定数量的不同的参数定义的第一数据群和第二数据群的分辨率指数。例如,上面描述的图2和图3中的数据群相对于其在二维空间中的通过各自对应于不同的参数(例如分别是CD4和CD8)的x轴和y轴所限定的位置来定义。然而,本公开的一些实施例包括计算在任意给定数量的不同的维度之中定义的第一数据群和第二数据群的分辨率指数,其中,每个维度通过数据的不同的参数来定义。在实施例中,分辨率指数在1个或更多个维度、2个或更多个维度、3个或更多个维度、4个或更多个维度、5个或更多个维度、6个或更多个维度、7个或更多个维度、8个或更多个维度、9个或更多个维度、10个或更多个维度、15个或更多个维度以及包括20个或更多个维度上计算。
在一些实施例中,方法包括计算数据群的Hartigan的倾角统计量。如本文所述的Hartigan的倾角统计量是已知的统计测试,其检查数据中的“鞍点”,以确定是否存在可能指示更深的数据子群的额外的异质性。Hartigan的倾角统计量在以下中进行了详细描述:Jonathan B.Freeman和Rick Dale,Assessing bimodality to detect the presence ofa dual cognitive process(评价双峰态以检测存在双重认知过程),Behav Res,2012,其公开内容通过引用并入本文。在实施例中,计算Hartigan的倾角产生了模态分数,该模态分数提供了将与给定参数相关联的数据点作为特定数据群而聚类在一起完成得多么好的量度。与模态分数相关联的P值可以在从0至1的范围。较低的P值(例如<0.05)指示显著的多模态(即群具有较小的异质性)而较高P值提供单模态(即群具有较大的异质性)的证据。
本公开的方面还包括生成描绘例如任意给定数量的第一数据对和第二数据对之间的异质性的图像。在一些实施例中,生成图像包括生成热图,其为在其中将现象的幅度与颜色相关联的使数据可视化的一种方式。在实施例中,生成图像包括产生包括均包含颜色的单元的热图,颜色的强度与通过所计算的这两个群的分辨率指数而确定的特定的成对的第一数据群和第二数据群之间的异质性的程度有关。在一些实施例中,如本文所述的热图还包括将给定颜色与感兴趣的值(例如分辨率指数)相关联的图例。例如,图5描绘了提供第一数据群和第二数据群之间的异质性的量度的热图。横轴和纵轴均列出了一系列群簇,并且两个群簇的行和列重叠的单元包含颜色,颜色的强度与分辨率指数有关。在这个示例中,存在将给定分辨率指数与给定颜色相关联的图例。本发明的实施例还包括产生包括均包含颜色的单元的热图,颜色的强度与通过(例如如上所述的)Hartigan的倾角统计量所确定的特定数据簇的异质性的程度有关。例如,图6描绘了说明给定数据簇(即群)相对于给定参数的模块性(modularity)的热图。横轴列出了一系列参数,而纵轴列出了一系列簇。行(即簇)与列(即参数)相交的单元提供指示将与给定参数相关联的数据点聚类在数据群中的模块性如何的量度。在这个示例中,存在将给定模态分数与给定颜色相关联的图例。如上所述,较低的模态分数表示数据中较小的异质性,而较高模态分数表示较大的异质性。
当需要时,方法还包括使数据群之间的分辨率最大化。通过“使分辨率最大化”来表示操纵数据以使异质数据群(例如用分辨率指数和Hartigan的倾角统计量如上确定的)明确地分成不同的群簇。在特定实施例中,使数据的分辨率最大化包括计算分辨率分数。如本文所述的“分辨率分数”提供了任意数量的不同的参数之上的数据群之间的间隔的量度。在实施例中,分辨率分数考虑(例如上面为任意给定数量的相邻的第一数据群和第二数据群所计算的)用于聚类的参数的数量、所分析的细胞的数量和群的数量以及其相关联的分辨率指数。在一些实施例中,分辨率分数包括每个成对的第一数据群和第二数据群的分辨率指数之和。例如,图7呈现了示意性地说明分辨率分数的计算的流程图。在步骤701处,从被配置为分析生物样本的装置(例如流式细胞仪,核酸测序平台)接收数据(例如流式细胞仪数据、核酸序列数据)。根据任意给定数量的不同参数对数据进行分类(步骤702)并且在步骤703处至少将其聚类为第一数据群和第二数据群(例如如上所述)。在步骤704处,借助于分辨率指数(步骤704a)和Hartigan的倾角统计量(步骤704b)计算第一数据群和第二数据群之间的异质性。类似地检测任意给定数量的其他相邻的成对的第一数据群和第二数据群的异质性(步骤705)。如果需要,在步骤706中可以生成热图(例如如上所述)。当计算所有需要的成对的第一数据群和第二数据群的分辨率指数时,分辨率指数被合计为分辨率分数(步骤707),然后将其用于使数据的分辨率最大化(步骤708)。在特定实施例中,分辨率分数根据等式B和等式C
Figure BDA0004030031860000151
Figure BDA0004030031860000152
来被计算,
在等式B和等式C中,TI是分辨率指数,m是细胞的数量,n是群的数量,p是参数的数量,AdjustmentFactor是常数。在一些实施例中,AdjustmentFactor是0.7。在实施例中,使数据的分辨率最大化包括计算多个分辨率分数。在一些实施例中,分辨率分数针对n(即群的数量)中的每个值进行计算,以致于存在与每个可能的群数相关联的分辨率分数。即,用于确定可以与数据相关联的群簇的最佳数量。
在实施例中,方法包括基于计算的分辨率分数(上文所述)改变可以与数据点相关联的群的数量。换言之,在数据点自身不调变(modulate)的同时,它们彼此相关联的方式可以调整,以优化数据的分辨率。因此,根据针对n的每个值计算的分辨率分数(例如如上所述),数据点可以与更多或更少的群簇相关联。例如,图8呈现了示出分辨率分数可以如何随着群簇的数量改变而变化的曲线图800。绘制了说明群簇的数量上的改变的曲线802和说明分辨率分数上的改变的曲线801。如在点803处所示,存在分辨率分数处于其最大值的局部最大值。因此,包含对应于最高分辨率分数的群簇的数量的散点图804被选择为分辨率处于其最大值的数据的布置。
在特定实施例中,使数据中的分辨率最大化包括维度减少。术语“维度减少”按照其传统意义在本文中使用,用于指代操纵数据集以使所考虑的不同变量的数量减少。在一些实施例中,维度减少包括执行主成分分析(PCA),其将较高维度的数据映射到较低维度的空间(例如二维),以使较低维度的空间中的数据的方差被最大化。可以在使分辨率最大化的过程中使用用于维度减少的任意合适的算法。在一些实施例中,通过t分布随机近邻嵌入(t-SNE)算法执行维度减少。t-SNE算法在以下中进行了描述:Laurens van der Maaten和Geoffrey Hinton,Visualizing Data using t-SNE(使用t-SNE使数据可视化),Journalof Machine Learning Research(机器学习研究杂志),2008;其通过引用并入本文。在一些实施例中,通过统一流形逼近和投影(UMAP)算法执行维度减少。UMAP算法在以下中进行了描述:Leland McInnes、John Healy和James Melville,UMAP:Uniform ManifoldApproximation and Projection for Dimension Reduction(UMAP:用于维度减少的统一流形逼近和投影),ARXIV,2018;其通过引用并入本文。在一些实施例中,通过TriMap算法执行维度减少。TriMap算法在以下中进行了描述:Ehsan Amid和Manfred K.Warmuth,TriMap,Large-scale Dimensionality Reduction Using Triplets(TriMap,使用三元组的大规模维度减少),ARXIV,2019;其通过引用并入本文。在一些实施例中,计算每个维度减少算法(例如t-SNE、UMAP和TriMap)的分辨率分数,从而评估将其中包含的数据点聚类为不同的群的方式的每个维度减少算法的最终产物(例如二维散点图)。换言之,与另一维度减少算法相比,给定维度减少算法可以产生接近被解析的(例如通过分辨率分数确定的)群簇。在实施例中,方法包括选择和运行具有可能最高的分辨率分数的维度减少算法。例如,图9呈现了3个不同的二维散点图。
图901是t-SNE维度减少算法的结果,图902是UMAP维度减少算法的结果,并且图903是TriMap维度减少算法的结果。如图9所示,相对于图901或图903之一,图902(UMAP)提供较高分辨率分数(即210.14)。因此,确定当通过UMAP维度减少算法执行维度减少时针对这个特定数据集聚类的群的分辨率最高。
用于检测数据中的异质性的系统
本公开的方面包括用于检测数据中的异质性以及当需要时使数据群之间的分辨率最大化的系统。在一些实施例中,系统包括被配置为产生数据的装置、以及被配置为分析数据的处理器。
流式细胞仪
在特定实施例中,被配置为产生数据的装置是流式细胞仪。在一些实施例中,主题流式细胞仪具有流通池、以及被配置为照射流通池中的粒子的激光器。在实施例中,激光器可以是任意合适的激光器,例如连续波激光器。例如,激光器可以是二极管激光器,例如紫外线二极管激光器、可见光二极管激光器和近红外二极管激光器。在其他实施例中,激光器可以是氦氖(HeNe)激光器。在一些实例中,激光器是气体激光器,例如氦氖激光器、氩激光器、氪激光器、氙激光器、氮激光器、CO2激光器、CO激光器、氟化氩(ArF)准分子激光器、氟化氪(KrF)准分子激光器、氯化氙(XeCl)准分子激光器或氟化氙(XeF)准分子激光器或其组合。在其他实例中,主题流式细胞仪包括染料激光器,例如二苯乙烯、香豆素或罗丹明激光器。在又一些实例中,感兴趣的激光器包括金属蒸气激光器,例如氦镉(HeCd)激光器、氦汞(HeHg)激光器、氦硒(HeSe)激光器、氦银(HeAg)激光器、锶激光器、氖铜(NeCu)激光器、铜激光器或金激光器及其组合。在再一些实例中,主题流式细胞仪包括固态激光器,例如红宝石激光器、Nd:YAG激光器、NdCrYAG激光器、Er:YAG激光器、Nd:YLF激光器、Nd:YVO4激光器、Nd:YCa4O(BO3)3激光器、Nd:YCOB激光器、钛蓝宝石激光器、铥YAG激光器、镱YAG激光器、Yb2O3激光器或掺杂铈的激光器及其组合。
本发明的方面还包括被配置为检测前散射光的前散射检测器。主题流式细胞仪中的前散射检测器的数量可以根据需要变化。例如,主题流式细胞仪可以包括1个前散射检测器或多个前散射检测器,例如2个或更多个、例如3个或更多个、例如4个或更多个以及包括5个或更多个。在特定实施例中,流式细胞仪包括1个前散射检测器。在其他实施例中,流式细胞仪包括2个前散射检测器。
用于检测采集的光的任意合适的检测器都可以在本文描述的前散射检测器中使用。感兴趣的检测器可以包括但不限于光学传感器或检测器,例如有源像素传感器(APS)、雪崩光电二极管、图像传感器、电荷耦合器件(CCD)、增强电荷耦合器件(ICCD)、发光二极管、光子计数器、辐射热计、热电检测器、光敏电阻器、光伏电池、光电二极管、光电倍增管(PMT)、光电晶体管、量子点光电导体或光电二极管及其组合、其他检测器等。在特定实施例中,用电荷耦合器件(CCD)、半导体电荷耦合器件(CCD)、有源像素传感器(APS)、互补金属氧化物半导体(CMOS)图像传感器或N型金属氧化物半导体(NMOS)图像传感器来测量采集的光。在特定实施例中,检测器是光电倍增管,例如具有每个区域中的以下有效检测表面面积的光电倍增管:范围从0.01cm2至10cm2,例如从0.05cm2至9cm2,例如从例如从0.1cm2至8cm2、例如从0.5cm2至7cm2以及包括从1cm2至5cm2
当主题流式细胞仪包括多个前散射检测器时,每个检测器可以相同或者检测器的集合可以是不同类型的检测器的组合。例如,当主题流式细胞仪包括两个前散射检测器时,在一些实施例中,第一前散射检测器是CCD型器件并且第二前散射检测器(或成像传感器)是CMOS型器件。在其他实施例中,第一前散射检测器和第二前散射检测器两者是CCD型器件。在又一些实施例中,第一前散射检测器和第二前散射检测器两者是CMOS型器件。在再一些实施例中,第一前散射检测器是CCD型器件并且第二前散射检测器是光电倍增管(PMT)。在再一些实施例中,第一前散射检测器是CMOS型器件并且第二前散射检测器是光电倍增管。在又一些实施例中,第一前散射检测器和第二前散射检测器两者是光电倍增管。
在实施例中,前散射检测器被配置为连续地或以离散间隔测量光。在一些实例中,感兴趣的检测器被配置为连续地对采集的光进行测量。在其他实例中,感兴趣的检测器被配置为在离散间隔中进行测量,例如每0.001毫秒、每0.01毫秒、每0.1毫秒、每1毫秒、每10毫秒、每100毫秒,以及包括每1000毫秒或在某个其他间隔中测量光。
本发明的实施例还包括被设置在流通池和前散射检测器之间的光色散/分离器模块。感兴趣的光色散装置包括但不限于彩色玻璃、带通滤光片、干涉滤光片、分色镜、衍射光栅、单色仪及其组合、其他波长分离装置等。在一些实施例中,带通滤光片被设置在流通池和前散射检测器之间。在其他实施例中,例如,多于一个带通滤光片被设置在流通池和前散射检测器之间,例如2个或更多个、3个或更多个、4个或更多个以及包括5个或更多个。在实施例中,带通滤光片具有以下最小带宽:范围从2nm至100nm,例如从3nm至95nm、例如从5nm至95nm、例如从10nm至90nm、例如从12nm至85nm、例如从15nm至80nm,以及包括具有范围从20nm波长至50nm波长的最小带宽的带通滤光片,并且将具有其他波长的光反射至前散射检测器。
本发明的特定实施例包括被配置为检测侧散射的波长的光(例如从粒子的表面和内部结构折射和反射的光)的侧散射检测器。在其他实施例中,流式细胞仪包括多个侧散射检测器,例如2个或更多个、例如3个或更多个、例如4个或更多个以及包括5个或更多个。
用于检测采集的光的任意合适的检测器都可以在本文描述的侧散射检测器中使用。感兴趣的检测器可以包括但不限于光学传感器或检测器,例如有源像素传感器(APS)、雪崩光电二极管、图像传感器、电荷耦合器件(CCD)、增强电荷耦合器件(ICCD)、发光二极管、光子计数器、辐射热计、热电检测器、光敏电阻器、光伏电池、光电二极管、光电倍增管(PMT)、光电晶体管、量子点光电导体或光电二极管及其组合、其他检测器等。在特定实施例中,用电荷耦合器件(CCD)、半导体电荷耦合器件(CCD)、有源像素传感器(APS)、互补金属氧化物半导体(CMOS)图像传感器或N型金属氧化物半导体(NMOS)图像传感器来测量采集的光。在特定实施例中,检测器是光电倍增管,例如具有每个区域中的以下有效检测表面面积的光电倍增管:范围从0.01cm2至10cm2,例如从0.05cm2至9cm2、例如从例如从0.1cm2至8cm2、例如从0.5cm2至7cm2以及包括从1cm2至5cm2
当主题流式细胞仪包括多个侧散射检测器时,每个侧散射检测器可以相同或者侧散射检测器的集合可以是不同类型的检测器的组合。例如,当主题流式细胞仪包括两个侧散射检测器时,在一些实施例中,第一侧散射检测器是CCD型器件并且第二侧散射检测器(或成像传感器)是CMOS型器件。在其他实施例中,第一侧散射检测器和第二侧散射检测器两者是CCD型器件。在又一些实施例中,第一侧散射检测器和第二侧散射检测器两者是CMOS型器件。在再一些实施例中,第一侧散射检测器是CCD型器件并且第二侧散射检测器是光电倍增管(PMT)。在再一些实施例中,第一侧散射检测器是CMOS型器件并且第二侧散射检测器是光电倍增管。在又一些实施例中,第一侧散射检测器和第二侧散射检测器两者是光电倍增管。
本发明的实施例还包括被设置在流通池和侧散射检测器之间的光色散/分离器模块。感兴趣的光色散装置包括但不限于彩色玻璃、带通滤光片、干涉滤光片、分色镜、衍射光栅、单色仪及其组合、其他波长分离装置等。
在实施例中,主题流式细胞仪还包括被配置为检测一个或更多个荧光波长的光的荧光检测器。在其他实施例中,流式细胞仪包括多个荧光检测器,例如2个或更多个、例如3个或更多个、例如4个或更多个、5个或更多个以及包括6个或更多个。
用于检测采集的光的任意合适的检测器都可以在本文描述的荧光检测器中使用。感兴趣的检测器可以包括但不限于光学传感器或检测器,例如有源像素传感器(APS)、雪崩光电二极管、图像传感器、电荷耦合器件(CCD)、增强电荷耦合器件(ICCD)、发光二极管、光子计数器、辐射热计、热电检测器、光敏电阻器、光伏电池、光电二极管、光电倍增管(PMT)、光电晶体管、量子点光电导体或光电二极管及其组合、其他检测器等。在特定实施例中,用电荷耦合器件(CCD)、半导体电荷耦合器件(CCD)、有源像素传感器(APS)、互补金属氧化物半导体(CMOS)图像传感器或N型金属氧化物半导体(NMOS)图像传感器来测量采集的光。在特定实施例中,检测器是光电倍增管,例如具有每个区域中的以下有效检测表面面积的光电倍增管:范围从0.01cm2至10cm2、例如从0.05cm2至9cm2、例如从例如从0.1cm2至8cm2、例如从0.5cm2至7cm2以及包括从1cm2至5cm2
当主题流式细胞仪包括多个荧光检测器时,每个荧光检测器可以相同或者荧光检测器的集合可以是不同类型的检测器的组合。例如,当主题流式细胞仪包括两个荧光检测器时,在一些实施例中,第一荧光检测器是CCD型器件并且第二荧光检测器(或成像传感器)是CMOS型器件。在其他实施例中,第一荧光检测器和第二荧光检测器两者是CCD型器件。在又一些实施例中,第一荧光检测器和第二荧光检测器两者是CMOS型器件。在再一些实施例中,第一荧光检测器是CCD型器件并且第二荧光检测器是光电倍增管(PMT)。在再一些实施例中,第一荧光检测器是CMOS型器件并且第二荧光检测器是光电倍增管。在又一些实施例中,第一荧光检测器和第二荧光检测器两者是光电倍增管。
本发明的实施例还包括被设置在流通池和荧光检测器之间的光色散/分离器模块。感兴趣的光色散装置包括但不限于彩色玻璃、带通滤光片、干涉滤光片、分色镜、衍射光栅、单色仪及其组合、其他波长分离装置等。
在本公开的实施例中,感兴趣的荧光检测器被配置为在一个或更多个波长处测量采集的光,例如在2个或更多个波长处、例如在5个或更多个不同的波长处、例如在10个或更多个不同的波长处、例如在25个或更多个不同的波长处、例如在50个或更多个不同的波长处、例如在100个或更多个不同的波长处、例如在200个或更多个不同的波长处、例如在300个或更多个不同的波长处,以及包括在400个或更多个不同的波长处测量液流中的样本发射的光。在一些实施例中,如本文所述的流式细胞仪中的2个或更多个检测器被配置为测量相同或重叠的波长的采集光。
在一些实施例中,感兴趣的荧光检测器被配置为在一个波长范围(例如200nm–1000nm)上测量采集的光。在特定实施例中,感兴趣的检测器被配置为采集一个波长范围上的光谱。例如,流式细胞仪可以包括被配置为采集200nm–1000nm范围的一个或更多个波长上的光谱的一个或更多个检测器。在又一些实施例中,感兴趣的检测器被配置为在一个或更多个特定波长处测量液流中的样本发射的光。例如,流式细胞仪可以包括被配置为在以下中的一个或更多个处测量光的一个或更多个检测器:450nm、518nm、519nm、561nm、578nm、605nm、607nm、625nm、650nm、660nm、667nm、670nm、668nm、695nm、710nm、723nm、780nm、785nm、647nm、617nm以及其任意组合。在特定实施例中,一个或更多个检测器可以被配置为与特定荧光团(例如在荧光测定中与样本一起使用的那些)配对。
合适的流式细胞术系统可以包括但不限于以下中描述的那些:Ormerod(编),FlowCytometry:A Practical Approach(流式细胞术:实际方法),牛津大学出版社(1997);Jaroszeski等(编),Flow Cytometry Protocols,Methods in Molecular Biology(流式细胞术方案,分子生物学中的方法),91期,Humana出版社(1997);Practical Flow Cytometry(实际流式细胞术),第三版,Wiley-Liss(1995);Virgo等(2012)Ann Clin Biochem,1月,49(第1部分):17-28;Linden等,Semin Throm Hemost,2004年10月,30(5):502-11;Alison等,J Pathol,2010年12月,222(4):335-344;以及Herbig等(2007)Crit Rev Ther DrugCarrier Syst,24(3):203-255;其公开内容通过引用并入本文。在特定实例中,感兴趣的流式细胞术系统包括BD Biosciences FACSCantoTM II流式细胞仪、BD AccuriTM流式细胞仪、BD Biosciences FACSCelestaTM流式细胞仪、BD Biosciences FACSLyricTM流式细胞仪、BDBiosciences FACSVerseTM流式细胞仪、BD Biosciences FACSymphonyTM流式细胞仪、BDBiosciences LSRFortessaTM流式细胞仪、BD Biosciences LSRFortessTM X-20流式细胞仪、以及BD Biosciences FACSCaliburTM细胞分选器、BD Biosciences FACSCountTM细胞分选器、BD Biosciences FACSLyricTM细胞分选器、以及BD BiosciencesViaTM细胞分选器、BDBiosciences InfluxTM细胞分选器、BD Biosciences JazzTM细胞分选器、BD BiosciencesAriaTM细胞分选器、以及BD Biosciences FACSMelodyTM细胞分选器等。
在一些实施例中,主题粒子分选系统是流式细胞计数系统,例如以下中描述的那些:美国专利号9,952,076;9,933,341;9,726,527;9,453,789;9,200,334;9,097,640;9,095,494;9,092,034;8,975,595;8,753,573;8,233,146;8,140,300;7,544,326;7,201,875;7,129,505;6,821,740;6,813,017;6,809,804;6,372,506;5,700,692;5,643,796;5,627,040;5,620,842;5,602,039;其公开内容通过引用全部并入本文。
在一些实施例中,感兴趣的粒子分选系统被配置为用圈闭的粒子分选模块分选粒子,例如在于2017年3月28日提交的美国专利公开号2017/0299493中描述的那些,其公开内容通过引用并入本文。
在特定实施例中,主题粒子系统是具有激发模块的流式细胞术系统,该激发模块使用射频复用激励来生成多个频移光束。在这些实施例中,激光生成器可以包括多个激光器和一个或更多个声光组件(例如声光偏转器、声光频移器)以生成多个频移梳光束。在特定实例中,主题系统是具有以下激光激发模块的流式细胞术系统:如美国专利号9,423,353和9,784,661以及美国专利公开号2017/0133857和2017/0350803中所述的,其公开内容通过引用并入本文。
图10示出根据本发明的说明性实施例的用于流式细胞术的系统1000。系统1000包括流式细胞仪1010、控制器/处理器1090和存储器1095。流式细胞仪1010包括一个或更多个激发激光器1015a-1015c、聚焦透镜1020、液流腔1025、前散射检测器1030、侧散射检测器1035、荧光采集透镜1040、一个或更多个分束器1045a-1045g、一个或更多个带通滤光片1050a-1050e、一个或更多个长通(“LP”)滤光片1055a-1055b、以及一个或更多个荧光检测器1060a-1060f。
激发激光器1015a-c发射激光束形式的光。在图10的示例系统中,从激发激光器1015a-1015c发射的激光束的波长分别是488nm、633nm和325nm。首先使激光束定向通过分束器1045a和1045b中的一个或更多个。分束器1045a透射488nm的光以及反射633nm的光。分束器1045b透射UV光(具有10至400nm的范围中的波长的光)以及反射488nm和633nm的光。
然后将激光束定向至聚焦透镜1020,其将光束集中到液流腔1025之中的样本的粒子所在的那部分流体流上。液流腔是流体系统的将流中的粒子(通常一次一个)引向用于探查的聚焦激光束的部件。液流腔可以包括台式细胞仪中的流通池或空气流细胞仪中的喷嘴尖端。
根据粒子的特性(例如其尺寸、内部结构)以及存在依附于粒子或自然存在于粒子之上或之中的一个或更多个荧光分子,来自激光束的光通过衍射、折射、反射、散射和吸收以及在各种不同波长下再发射而与样本中的粒子相互作用。荧光发射以及衍射光、折射光、反射光和散射光可以通过分束器1045a-1045g、带通滤光片1050a-1050e、长通滤光片1055a-1055b和荧光采集透镜1040中的一个或更多个选路至前散射检测器1030、侧散射检测器1035和一个或更多个荧光检测器1060a-1060f中的一个或更多个。
荧光采集透镜1040采集由于粒子-激光束相互作用而发射的光,并且使这些光选路到一个或更多个分束器和滤光片。带通滤光片,例如带通滤光片1050a-1050e,允许窄范围的波长经过滤光片。例如,带通滤光片1050a是510/20滤光片。第一个数字表示光谱带的中心。第二个数字提供光谱带的范围。因此,510/20滤光片在光谱带的中心的每一侧延伸10nm,或从500nm至520nm。短通滤光片透射波长等于或短于特定波长的光。长通滤光片,例如长通滤光片1055a-1055b,透射的光波长等于或长于特定光波长。例如,长通滤光片1055a,其为670nm长通滤光片,透射等于或长于670nm的光。通常对滤光片进行选择,以优化检测器针对特定荧光染料的特性。可以对滤光片进行配置,以使透射至检测器的光的光谱带接近荧光染料的发射峰。
分束器将不同波长的光定向至不同方向。可以根据滤光片性质将分束器分为例如短通和长通。例如,分束器1045g是620SP分束器,表示分束器1045g透射620nm或更短波长的光并且将长于620nm的波长的光反射至不同方向。在一个实施例中,分束器1045a-1045g可以包括光学镜,例如分色镜。
前散射检测器1030偏离光束定向通过流通池的轴线设置并且被配置为检测衍射光,激发光主要在前向方向上穿过粒子或其附近行进。由前散射检测器检测的光的强度取决于粒子的总尺寸。前散射检测器可以包括光电二极管。侧散射检测器1035被配置为检测基于粒子的表面和内部结构折射以及反射的光,并且随着粒子结构的复杂度增加而趋于增加。来自与粒子相关联的荧光分子的荧光发射可以通过一个或更多个荧光检测器1060a-1060f进行检测。侧散射检测器1035和荧光检测器可以包括光电倍增管。在前散射检测器611、侧散射检测器1035和荧光检测器处检测到的信号可以通过检测器转换成电信号(电压)。这个数据可以提供关于样本的信息。
在操作中,细胞仪操作由控制器/处理器1090控制,并且来自检测器的测量度据可以存储在存储器1095中并且由控制器/处理器1090处理。虽然未明确示出,但是控制器/处理器1090被耦合至检测器以从其接收输出信号,并且还可以被耦合至流式细胞仪1000的电气和机电组件以控制激光器、流体流参数等。还可以在系统中提供输入/输出(I/O)功能部1097。存储器1095、控制器/处理器1090和I/O 1097可以全部作为流式细胞仪1010的集成部件提供。在这样的实施例中,显示器还可以形成I/O功能部1097的用于向细胞仪1000的用户呈现实验数据的部件。备选地,存储器1095和控制器/处理器1090以及I/O功能部中的一些或全部可以是诸如通用计算机之类的一个或更多个外部装置的部件。在一些实施例中,存储器1095和控制器/处理器1090中的一些或全部可以与细胞仪1010无线或有线通信。结合存储器1095和I/O 1097的控制器/处理器1090可以被配置为执行与流式细胞仪实验的准备和分析有关的各种功能。
根据从流通池1025到每个检测器的光路中的滤光片和/或分束器的构型的定义,图10所示的系统包括检测6个不同波段的荧光的6个不同检测器(在本文可以将其称为用于指定检测器的“滤光窗口”)。用于流式细胞仪实验的不同荧光分子将发射在其自身的特征波段中的光。可以对用于实验及其相关联的荧光发射段的特定荧光标记进行选择,以大体上与检测器的滤光窗口重合。然而,因为提供了更多检测器,并且使用了更多标记,所以滤光窗口与荧光发射谱之间的完美对应是不可能的。真实情况一般是,虽然特定荧光分子的发射谱的峰可以位于一个特定检测器的滤光窗口之中,但是该标记的一些发射谱也将与一个或更多个其他检测器的滤光窗口重叠。这可以被称为溢出。I/O 1097可以被配置为接收关于流式细胞仪实验的数据,该实验具有荧光标记组和具有多个标志的多个细胞群,每个细胞群具有多个标志的子集。I/O 1097还可以被配置为接收为一个或更多个细胞群分配一个或更多个标志的生物数据、标志密度数据、发射谱数据、为一个或更多个标志分配标记的数据以及细胞仪配置数据。流式细胞仪实验数据,例如标记谱特性和流式细胞仪配置数据还可以存储在存储器1095中。控制器/处理器1090可以被配置为评估标记到标志的一个或更多个指定。
本领域技术人员将认识到,根据本发明的实施例的流式细胞仪不限于图10所描绘的流式细胞仪,而是可以包括现有技术已知的任意流式细胞仪。例如,流式细胞仪可以具有采用各种波长和各种不同构型的任意数量的激光器、分束器、滤光片和检测器。
核酸测序平台
在一些实施例中,所述装置是核酸测序平台。根据特定实施例,所述核酸测序平台在使用本公开的方法对生成的扩增子进行测序中使用。
在某些方面,本公开的测序系统包括核酸的集合。核酸的集合包括对应于核酸样本中存在的感兴趣的核酸的扩增子(amplicon)、以及对应于已知量的一个或更多个竞争内部标准核酸的扩增子。一个或更多个竞争内部标准核酸包括与核酸样本中的一个或更多个对应的核酸有关的错配。
根据特定实施例,测序系统包括在上面在与本公开的方法有关的部分中描述的从一个或更多个竞争内部标准核酸中的任意一个和感兴趣的核酸中的任意一个生成的扩增子。
扩增子可以包括在(例如根据主题方法的实施例提供的)产生扩增子的扩增反应期间和/或在(例如根据主题方法的实施例提供的)扩增反应之后提供的测序接头。扩增子(例如经扩增的一个或更多个竞争内部标准核酸或经扩增的一个或更多个对应的感兴趣的核酸)的子集可以是例如根据主题方法的实施例产生的限制酶消化产物。
测序系统可以是任意感兴趣的测序系统,其包括桑格测序系统、下一代测序(NGS)系统等。在某些方面,测序系统是NGS系统。感兴趣的NGS系统包括但不限于由以下提供的测序系统:
Figure BDA0004030031860000241
(例如HiSeqTM、MiSeqTM和/或Genome分析仪TM测序系统);Ion TorrentTM(例如离子PGMTM和/或离子ProtonTM测序系统);Pacific Biosciences(例如PACBIO RS II测序系统);Life TechnologiesTM(例如SOLiD测序系统);Roche(例如454GS FLX+和/或GSJunior测序系统)或任何其他合适的NGS系统。
核酸的集合可以存在于测序系统的组件中。例如,核酸的集合可以存在于测序系统的样本制备组件中,例如测序系统中的核酸的集合被粉碎和/或测序接头被添加到核酸的集合的组件。此外,例如,核酸的集合可以存在于测序系统的固相扩增组件中,在其中可以发生核酸的集合的固相扩增。测序系统的这样的固相扩增组件的示例是基于Illumina的测序系统的流通池,在其中发生簇的生成。测序系统的这样的固相扩增组件的另一示例是Ion OneTouchTM2组件,其用于产生适于在Ion PGMTM系统、Ion ProtonTM系统或由IonTorrentTM提供的其他NGS系统上进行测序的模板。核酸的集合可以存在于用于使用核酸的集合来获得其核酸序列的测序系统的任意组件中。
处理器
在特定实施例中,系统(例如流式细胞术系统、核酸测序系统)还包括:处理器,其具有可操作地耦接到所述处理器的存储器,其中,所述存储器包括存储在其上的指令,当所述指令由所述处理器执行时,致使所述处理器检测数据(例如流式细胞术数据、核酸序列数据)中的异质性、以及当需要时使数据群之间的分辨率最大化。
在实施例中,在(例如通过流式细胞仪或核酸测序平台)产生数据(例如流式细胞仪数据、核酸序列数据)之后,所述处理器被配置为基于样本中的分析物(例如细胞、粒子、核酸)的已确定的参数生成一个或更多个群簇。在这些实施例中,所述处理器接收数据,计算每个分析物的参数,并且基于计算的参数而将分析物聚类在一起。例如,当数据是流式细胞仪数据时,实验可以包括通过若干个荧光团标记的粒子或用荧光标记的抗体,并且粒子群可以由对应于一个或更多个荧光测量的群进行定义。在示例中,第一群可以通过第一荧光团的特定范围的光散射来定义,并且第二群可以通过第二荧光团的特定范围的光散射来定义。如果第一荧光团和第二荧光团分别在x轴和y轴上表示,如果信息要以图的形式进行显示,则可以出现两个不同的经颜色编码的群,以定义每个粒子群。任意数量的分析物可以被分配到簇,包括5个或更多个分析物,例如10个或更多个分析物、例如50个或更多个分析物、例如100个或更多个分析物、例如500个分析物以及包括1000个分析物。在特定实施例中,方法将样本中检测到的稀有事件(例如样本中的稀有细胞,例如癌细胞)一起分到一个簇中。在这些实施例中,所生成的分析物的簇可以包括10个或更少的已分配的分析物,例如9或更少的,以及包括5或更少的已分配的分析物。
在实施例中,检测数据中的异质性包括获得第一数据群和第二数据群的差异量度。通过“差异量度”来表示均值和标准差。在一些实施例中,均值是一维或多维空间中的给定数据群的平均质心位置,并且标准差值是一维或多维空间中的给定数据群的扩展的量度。在一些实施例中,检测数据中的异质性包括确定第一数据群和第二数据群之间的间隔距离。通过“间隔距离”来表示使成对的群分开的群间距离。在一些实施例中,例如如本文所述的差异量度和间隔距离被用于计算分辨率指数。如本文所述的分辨率指数是第一数据群和第二数据群之间的间隔的量化。在实施例中,分辨率指数提供了用于任何给定的第一数据群和第二数据群的异质性的量度。在实施例中,分辨率指数通过考虑两个群的群内差异而提供了第一数据群和第二数据群之间的间隔的无偏量度(与如图1所示的针对染色指数只是测量阴性群的差异相对照)。在实施例中,当第一数据群和第二数据群对于给定参数分别为阳性和阴性时,分辨率指数提供了考虑阳性群和阴性群两者的群内差异的间隔的量度。
在一些实施例中,分辨率指数通过计算第一数据群和第二数据群的相应的差异量度与间隔距离之间的比率而确定。在实施例中,所述比率根据等式A
Figure BDA0004030031860000251
来被计算,
在等式A中,
Figure BDA0004030031860000261
是第一数据群的平均质心位置,/>
Figure BDA0004030031860000262
是第二数据群的平均质心位置,SDclust01是第一数据群的标准差,并且SDclust02是第二数据群的标准差。在实施例中,较大的分辨率指数表示两个数据群之间较大的间隔。
在特定实施例中,例如,针对任意给定数量的相邻的成对的第一数据群和第二数据群来计算分辨率指数,例如2个或更多个、3个或更多个、4个或更多个、5个或更多个、6个或更多个、7个或更多个、8个或更多个、9个或更多个、10个或更多个、20个或更多个、50个或更多个以及包括100个或更多个。在一些实施例中,要计算分辨率指数的相邻的成对的数据的数量由用户输入。在一些实施例中,所述处理器计算通过任意给定数量的不同的参数定义的第一数据群和第二数据群的分辨率指数。然而,在一些实施例中,所述处理器计算在任意给定数量的不同的维度之中定义的第一数据群和第二数据群的分辨率指数,其中,每个维度通过数据的不同的参数来定义。在实施例中,分辨率指数在1个或更多个维度、2个或更多个维度、3个或更多个维度、4个或更多个维度、5个或更多个维度、6个或更多个维度、7个或更多个维度、8个或更多个维度、9个或更多个维度、10个或更多个维度、15个或更多个维度以及包括20个或更多个维度上计算。
在一些实施例中,所述处理器被配置为计算数据群的Hartigan的倾角统计量。如本文所述的Hartigan的倾角统计是已知的统计测试,其检查数据中的“鞍点”,以确定是否存在可能指示更深的数据子群的额外的异质性。在实施例中,计算Hartigan的倾角产生了模态分数,该模态分数提供了多么好地将与给定参数相关联的数据点作为特定数据群而聚类在一起的量度。与模态分数相关联的P值可以在从0至1的范围。较低的P值(例如<0.05)指示显著的多模态(即群具有较小的异质性)而较高P值提供单模态(即群具有较大的异质性)的证据。
在一些实施例中,所述处理器被配置为生成描绘了例如任意给定数量的第一数据对和第二数据对之间的异质性的图像。在一些实施例中,生成图像包括生成热图,其为在其中将现象的幅度与颜色相关联的使数据可视化的一种方式。在实施例中,生成图像包括产生包括均包含颜色的单元的热图,颜色的强度与通过所计算的这两个群的分辨率指数而确定的特定的成对的第一数据群和第二数据群之间的异质性的程度有关。在一些实施例中,如本文所述的热图还包括将给定颜色与感兴趣的值(例如分辨率指数、Hartigan的倾角统计量)相关联的图例。
在一些实施例中,所述处理器被配置为使数据群之间的分辨率最大化。通过“使分辨率最大化”来表示操纵数据,以使异质数据群(例如用分辨率指数和Hartigan的倾角统计量如上确定的)明确地分成不同的群簇。在特定实施例中,使数据的分辨率最大化包括计算分辨率分数。如本文所述的“分辨率分数”提供了任意数量的不同的参数之上的数据群之间的间隔的量度。在实施例中,分辨率分数考虑(例如上面为任意给定数量的相邻的第一数据群和第二数据群所计算的)用于聚类的参数的数量、所分析的细胞的数量和群的数量以及其相关联的分辨率指数。在一些实施例中,分辨率分数包括每个成对的第一数据群和第二数据群的分辨率指数之和。在特定实施例中,分辨率分数根据等式B和等式C
Figure BDA0004030031860000271
Figure BDA0004030031860000272
来被计算。
在等式B和等式C中,TI是分辨率指数,m是细胞的数量,n是群的数量,p是参数的数量,AdjustmentFactor是常数。在一些实施例中,AdjustmentFactor是0.7。在实施例中,使数据的分辨率最大化包括计算多个分辨率分数。在一些实施例中,分辨率分数针对n(即群的数量)中的每个值进行计算,以致于存在与每个可能的群数相关联的分辨率分数。即,用于确定可以与数据相关联的群簇的最佳数量。
在实施例中,所述处理器被配置为基于计算的分辨率分数(上文所述)改变可以与数据点相关联的群的数量。换言之,在数据点自身不改变的同时,它们彼此相关联的方式可以调整,以优化数据的分辨率。因此,根据针对n的每个值计算的分辨率分数(例如如上所述),数据点可以与更多或更少的群簇相关联。
在特定实施例中,使数据中的分辨率最大化包括维度减少。术语“维度减少”按照其传统意义在本文中使用,用于指代操纵数据集以使所考虑的不同变量的数量减少。在一些实施例中,维度减少包括执行主成分分析(PCA),其将较高维度的数据映射到较低维度的空间(例如二维),以使较低维度的空间中的数据的方差被最大化。可以在使分辨率最大化的过程中使用用于维度减少的任意合适的算法。在一些实施例中,通过t分布随机近邻嵌入(t-SNE)算法执行维度减少。在一些实施例中,通过统一流形逼近和投影(UMAP)算法执行维度减少。在一些实施例中,通过TriMap算法执行维度减少。在一些实施例中,计算每个维度减少算法(例如t-SNE、UMAP和TriMap)的分辨率分数,从而评估将其中包含的数据点聚类为不同的群的方式的每个维度减少算法的最终产物。换言之,与另一维度减少算法相比,给定维度减少算法可以产生接近被解析的(例如通过分辨率分数确定的)群簇。在实施例中,方法包括选择和运行具有可能最高的分辨率分数的维度减少算法。
图11示出用于分析和显示数据的处理器1100的一个示例的功能框图。处理器1100可以被配置为实现用于控制生物事件的图形显示的多种处理。
装置1102可以被配置为通过分析生物样本而获得数据(例如如上所述)。例如,流式细胞仪可以生成流式细胞仪数据。此外,核酸测序系统可以被配置为生成核酸序列数据。所述装置可以被配置为提供向处理器1100提供生物事件数据。装置1102和处理器1100之间可以包括数据通信通道。数据可以经由数据通信通道提供给处理器1100。在装置是流式细胞仪的实施例中,从装置1102接收的数据包括流式细胞仪数据。在装置是核酸测序平台的实施例中,从装置1102接收的数据包括核酸测序数据。处理器1100可以被配置为将包括热图和图表的图形显示(例如如上所述)提供给显示器1106。例如,处理器1100还可以被配置为渲染通过显示装置1106显示的在图上重叠的门附近的数据群。在一些实施例中,门可以是基于单参数直方图或双变量图绘制的感兴趣的一个或更多个图形区域的逻辑组合。在一些实施例中,显示器可以用于显示分析物参数或饱和的检测器数据。
处理器1100还可以被配置为在显示装置1106上在门中显示与门外的生物事件数据中的其他事件不同的数据。例如,处理器1100可以被配置为将门中包含的生物事件数据的颜色渲染为与门外的生物事件数据的颜色不同。以这种方式,处理器1100可以被配置为渲染不同的颜色以表示每个独特的数据群。显示装置1106可以被实现为被配置为呈现图形接口的监视器、平板计算机、智能电话或其他电子装置。
处理器1100可以被配置为从第一输入装置接收标识门的门选择信号。例如,第一输入装置可以被实现为鼠标1110。(例如通过在光标位于希望的门上或门中时在那里点击)鼠标1110可以向处理器1100发起标识要在显示装置1106上显示或经由其操纵的群的门选择信号。在一些实现中,第一装置可以被实现为用于向处理器1100提供输入信号的键盘1108或其他工具,例如触屏、触笔、光检测器或语音识别系统。一些输入装置可以包括多个输入功能。在这样的实现中,输入功能均可以被当成输入装置。例如,如图11所示,鼠标1110可以包括均可以生成触发事件的右鼠标按钮和左鼠标按钮。
触发事件可以致使处理器1100改变数据显示的方式、在显示装置1106上实际显示数据的哪些部分和/或提供用于进一步处理的输入,例如选择用于分析的所关注的群。
在一些实施例中,处理器1100可以被配置为检测何时通过鼠标1110发起门控选择。处理器1100还可以被配置为自动修改可视化绘图,以促进门控(gating)过程。所述修改可以基于通过处理器1100接收的数据的特定分布。
处理器1100可以连接至储存装置1104。储存装置1104可以被配置为接收和存储来自处理器1100的数据。储存装置1104还可以被配置为允许通过处理器1100检索数据,例如流式细胞计数事件数据。
显示装置1106可以被配置为从处理器1100接收显示数据。显示数据可以包括生物事件数据的图和勾勒绘图的剖面的图。显示装置1106还可以被配置为根据从处理器1100接收的输入与来自装置1102、储存装置1104、键盘1108和/或鼠标1110的输入的结合而改变所呈现的信息。
在一些实现中,处理器1100可以生成用户接口以接收用于进行分选的示例事件。例如,用户接口可以包括用于接收示例事件或示例图像的控件。可以在采集样本的事件数据之前或基于样本的一部分的事件的初始集合来提供示例事件或图像或示例门。
计算机控制系统
本公开的方面还包括计算机控制系统。其中所述系统还包括用于实现自动化或部分自动化的一个或更多个计算机。在一些实施例中,系统包括:计算机,具有带有存储在其上的计算机程序的计算机可读存储介质,其中当所述计算机程序被加载到所述计算机上时包括用于以下的指令:根据一个或更多个不同的参数对数据进行分类;通过计算任意给定数量的相邻的第一数据群和第二数据群的分辨率指数而检测数据中的异质性,计算每个数据群的Hartigan的倾角统计量;以及生成由热图或图表组成的图像。当需要时,所述计算机程序包括用于使数据的分辨率最大化的指令。在实施例中,使数据的分辨率最大化包括计算分辨率分数,所述分辨率分数考虑分辨率指数、群的数量、参数的数量和细胞的数量总和。在一些实施例中,分辨率分数针对n(即群的数量)中的每个值进行计算,以致于存在与每个可能的群数相关联的分辨率分数。即,用于确定使数据的分辨率最大化的群簇的最佳数量和布置。当需要时,所述计算机程序包括用于通过使数据经历维度减少算法而减少数据的维度的指令,该算法被选择是因为其产生了具有比其他维度减少算法高的分辨率分数的群簇。
在实施例中,所述系统被配置为分析用于分析流式细胞仪数据或核酸序列数据的软件或分析工具(例如
Figure BDA0004030031860000291
或/>
Figure BDA0004030031860000292
(俄勒冈州阿什兰))之中的数据。/>
Figure BDA0004030031860000293
是由FlowJo LLC(Becton Dickinson(BD公司)的子公司)开发的用于分析流式细胞仪数据的软件包。该软件被配置为管理流式细胞仪数据以及基于其产生图形报告(https://www.flowjo.com/learn/flowjo-university/flowjo)。/>
Figure BDA0004030031860000294
是由FlowJo LLC(BectonDickinson的子公司)开发的用于分析特别是来自单细胞RNA测序的基因表达数据的软件包。该软件被配置为管理基因表达数据以及基于其产生图形报告(https://www.flowjo.com/learn/flowjo-university/seqgeq)。可以在数据分析软件或工具(例如
Figure BDA0004030031860000295
)中通过适当的方式(例如人工筛选、簇分析或其他计算技术)来分析初始数据。本系统或其一部分可以被实现为软件(例如/>
Figure BDA0004030031860000296
或/>
Figure BDA0004030031860000297
)中的用于分析数据的软件组件。在这些实施例中,根据本公开的计算机控制系统可以用作用于已有的软件包(例如/>
Figure BDA0004030031860000298
和/>
Figure BDA0004030031860000299
)的软件“插件”。
在实施例中,所述系统包括输入模块、处理模块和输出模块。主题系统可以包括硬件和软件组件两者,其中硬件组件可以采用一个或更多个平台的形式,例如采用服务器的形式,以使系统的功能元件——即系统中执行特定任务(例如管理信息的输入和输出、处理信息等)的那些元件可以通过在代表系统的一个或更多个计算机平台上或跨所述平台执行软件应用而执行。
系统可以包括显示器和操作员输入装置。操作员输入装置可以例如是键盘、鼠标等。所述处理模块包括处理器,其具有对具有存储在其上的用于执行主题方法的步骤的指令的存储器的访问权。所述处理模块可以包括操作系统、图形用户接口(GUI)控制器、系统存储器、存储器储存装置、以及输入输出控制器、缓冲器存储器、数据备份单元以及许多其他装置。处理器可以是商用的处理器或者其可以是可用或将变为可用的其他处理器中的一个。处理器执行操作系统,并且操作系统以周知的方式与固件和硬件连接,并且促进处理器协调和执行可以用各种编程语言编写的各种计算机程序的功能,例如本领域已知的Java、Perl、C++、其他高级或低级语言以及其组合。通常都与处理器合作的操作系统协调和执行计算机的其他组件的功能。操作系统还完全根据已知技术来提供调度、输入输出控制、文件和数据管理、存储器管理以及通信控制和有关的服务。处理器可以是任意合适的模拟或数字系统。在一些实施例中,处理器包括模拟电子装置,其允许用户人工地基于第一光信号和第二光信号而将光源与液流对准。在一些实施例中,例如,处理器包括模拟电子装置,其提供反馈控制,例如负反馈控制。
系统存储器可以是各种已知的或将来的存储器储存装置中的任一个。示例包括通常可以商购得到的任意随机存取存储器(RAM)、磁介质例如常驻硬盘或磁带、光介质例如读写光盘、闪存装置或其他存储器储存装置。存储器储存装置可以是各种已知的或未来装置中的任一个,包括光盘驱动器、磁带驱动器、可移动硬盘驱动器或软盘驱动器。这些类型的存储器储存装置通常对程序储存介质(未示出)进行读和/或写,例如分别是光盘、磁带、可移除硬盘或软盘。这些或现在使用或将以后开发的其他程序储存介质中的任一个可以被当成为计算机程序产品。将理解的是,这些程序储存介质通常存储计算机软件程序和/或数据。计算机软件程序,也被称为计算机控制逻辑,通常存储在系统存储器和/或结合存储器储存装置使用的程序储存装置中。
在一些实施例中,计算机程序产品被描述为包括具有存储有控制逻辑(包括程序代码的计算机软件程序)的计算机可用介质。当由计算机的处理器执行时,控制逻辑将致使处理器执行本文描述的功能。在其他实施例中,一些功能主要在使用例如硬件状态机的硬件中实现。实现硬件状态机以执行本文描述的功能对于相关领域技术人员将是显而易见的。
存储器可以是处理器可以存储和接收数据的任意合适的装置,例如磁、光或固态储存装置(包括磁盘或光盘或磁带或RAM或任意其他合适的装置,固定式或便携式之一)。处理器可以包括基于承载必要的程序代码的计算机可读介质适当地进行编程的通用数字微处理器。程序可以通过通信通道远程提供给处理器或预先保存在计算机程序产品中,例如存储器或使用与存储器结合的那些装置中的任意装置的某个其他的便携式或固定式计算机可读存储介质。例如,磁盘或光盘可以承载程序,并且可以由磁盘写入器/读取器读取。本发明的系统还包括程序,例如用于实践如上所述的方法时使用的计算机程序产品、算法的形式。根据本发明的程序可以记录在计算机可读介质上,例如可以由计算机直接读取和访问的任意介质。这样的介质包括但不限于磁储存介质,例如软盘、硬盘储存介质和磁带;光储存介质,例如CD-ROM;电储存介质,例如RAM和ROM;便携式闪存驱动器;以及这些种类装置的混合,例如磁/光储存介质。
处理器还可以具有对通信通道的访问权,以与在远程位置的用户通信。通过远程位置表示用户不与系统直接接触以及将来自以下外部装置的输入信息中继至输入管理器:例如连接至广域网(“WAN”)、电话网、卫星网或任意其他合适的通信通道的计算机,包括移动电话(即智能电话)。
在一些实施例中,根据本公开的系统可以被配置为包括通信接口。在一些实施例中,通信接口包括用于与网络和/或另一装置通信的接收器和/或发射器。通信接口可以被配置用于有线或无线通信,包括但不限于射频(RF)通信(例如射频标识(RFID)、Zigbee通信协议、WiFi、红外线、无线通用串行总线(USB)、超宽带(UWB)、
Figure BDA0004030031860000311
通信协议以及蜂窝通信,例如码分多址接入(CDMA)或全球移动通信(GSM)。
在一个实施例中,通信接口被配置为包括一个或更多个通信端口,例如物理端口或接口,例如USB端口、RS-232端口或任意其他合适的电连接端口,以允许主题系统与其他外部装置之间的数据通信,例如(例如在医生的办公室或在医院环境中的)被配置用于类似的互补数据通信的计算机终端。
在一个实施例中,通信接口被配置用于红外线通信、
Figure BDA0004030031860000312
通信或任意其他合适的无线通信协议,以使主题系统与其他装置通信,例如计算机终端和/或网络、启用通信的移动电话、个人数字助理或用户可以结合使用的任意其他通信装置。
在一个实施例中,通信接口被配置为通过利用以下提供数据传输的连接:通过手机网络的互联网协议(IP)、短消息服务(SMS)、与连接至互连网的局域网(LAN)上的个人计算机(PC)的无线连接或在WiFi热点处的与互联网的WiFi连接。
在一个实施例中,主题系统被配置为经由通信接口与服务器装置进行无线通信,例如使用常见标准,例如802.11或
Figure BDA0004030031860000313
RF协议或IrDA红外线协议。服务器装置可以是另一便携式装置,例如智能电话、个人数字助理(PDA)或笔记本计算机;或较大装置,例如台式计算机、电器等。在一些实施例中,服务器装置具有:显示器,例如液晶显示器(LCD);以及输入装置,例如按键、键盘、鼠标或触屏。
在一些实施例中,通信接口被配置为使用上述通信协议和/或机制中的一个或更多个与网络或服务器装置自动地或半自动地传递存储在主题系统中的(例如在可选的数据储存单元中的)数据。
输出控制器可以包括用于向用户呈现信息的各种已知的显示装置中的任意一种的控制器,与用户是人类还是机器、在本地还是远程无关。如果显示器装置中的一个提供可视信息,则这个信息通常可以在逻辑上和/或在物理上组织为图片要素的阵列。图形用户接口(GUI)控制器可以包括用于提供系统与用户之间的图形输入和输出接口以及用于处理用户输入的各种已知的或将来的软件程序中的任意一种。计算机的功能元件可以经由系统总线彼此通信。在备选实施例中,这些通信中的一些可以使用网络或其他类型的远程通信来实现。根据已知技术,输出管理器还可以(例如通过互联网、电话或卫星网)向在远程位置的用户提供由处理模块生成的信息。通过输出管理器呈现数据可以根据各种已知技术实现。根据一些示例,数据可以包括SQL、HTML或XML文档、电子邮件或其他文件或其他形式的数据。数据可以包括互联网URL地址,以使用户可以检索来自远程源的附加的SQL、HTML、XML或其他文档或数据。主题系统中存在的一个或更多个平台可以是任意类型的已知的计算机平台或将来开发的类型,但是其通常将是计算机中通常被称为服务器的类别。然而,其还可以是大型计算机、工作站或其他计算机类型。其可以经由联网的或采用其他方式的任意已知的或未来类型的电缆或包括无线系统的其他通信系统连接。其可以共址或者其可以在物理上分离。可以根据所选择的计算机平台的类型和/或品牌,可以在计算机平台中的任一个上使用各种操作系统。适当的操作系统包括Windows NT、Windows XP、Windows 7、Windows 8、iOS、Sun Solaris、Linux、OS/400、康柏Tru64 Unix、SGI IRIX、西门子Reliant Unix等。
图12描绘了根据特定实施例的示例计算装置1200的总体架构。图12描绘的计算装置1200的总体架构包括计算机硬件组件和软件组件的布置。然而,无需示出所有这些通常常规的元件以提供可实现的公开内容。如图所示,计算装置1200包括处理单元1210、网络接口1220、计算机可读介质驱动器1230、输入/输出装置接口1240、显示器1250和输入装置1260,其全部都可以通过通信总线的方式彼此通信。网络接口1220可以提供与一个或更多个网络或计算系统的连接。处理单元1210因此可以经由网络接收来自其他计算系统或服务的信息和指令。处理单元1210还可以与存储器1270进行双向通信并且还经由输入/输出装置接口1240为可选的显示器1250提供输出信息。例如,作为可执行指令存储在分析系统的非暂时性存储器中的分析软件(例如数据分析软件或程序,例如
Figure BDA0004030031860000321
和/>
Figure BDA0004030031860000322
)可以向用户显示流式细胞术事件数据。输入/输出装置接口1240还可以从可选的输入装置1260接收输入,例如键盘、鼠标、数字笔、麦克风、触屏、手势识别系统,语音识别系统、游戏手柄、加速计、陀螺仪或其他输入装置。
存储器1270可以包含计算机程序指令(在一些实施例中被分组为模块或组件),处理单元1210执行计算机程序指令以实现一个或更多个实施例。存储器1270通常包括RAM、ROM和/或其他持久性、辅助性或非暂时性计算机可读介质。存储器1270可以存储操作系统1272,其提供计算机程序指令,以由处理单元1210在计算装置1200的一般管理和操作中使用。数据可以被存储在数据储存装置1290中。存储器1270还可以包括用于实现本公开的方面的计算机程序指令和其他信息。
计算机可读存储介质
本公开的方面还包括具有用于实践主题方法的指令的非暂时性计算机可读存储介质。计算机可读存储介质可以在一个或更多个计算机上使用,以完成用于实践本文描述的方法的系统的自动化或部分自动化。在一些实施例中,根据本文描述的方法的指令可以以“进行编程”的形式编码到计算机可读介质上,其中如本文所使用的术语“计算机可读介质”指代参与向用于执行和处理的计算机提供指令和数据的任意非暂时性存储介质。合适的非暂时性存储介质的示例包括软盘、硬盘、光盘、磁光盘、CD-ROM、CD-R、磁带、非易失性存储卡、ROM、DVD-ROM、蓝光光盘、固态盘和网络附属储存器(NAS),与这样的装置在计算机内部还是外部无关。在一些实例中,指令可以被设置在集成电路装置上。在特定实例中,感兴趣的集成电路装置可以包括可重配置的现场可编程门阵列(FPGA)、专用集成电路(ASIC)或复杂可编程逻辑器件(CPLD)。包含信息的文件可以被“存储”在计算机可读介质上,其中“存储”表示记录信息以使其在以后可由计算机访问和检索。本文描述的计算机实现的方法可以使用程序来执行,所述程序可以用任意数量的计算机编程语言中的一个或更多个编写。这样的语言包括例如Java(加利福尼亚州圣塔克拉拉的Sun微系统公司)、Visual Basic(华盛顿州雷德蒙德的微软公司)和C++(新泽西州贝德明斯特的美国电话电报公司)等。
在一些实施例中,感兴趣的计算机可读存储介质包括存储在其上的计算机程序,其中当所述计算机程序被加载到所述计算机上时包括用于以下的指令:根据一个或更多个不同的参数对数据进行分类;通过计算任意给定数量的相邻的第一数据群和第二数据群的分辨率指数而检测数据中的异质性;计算每个数据群的Hartigan的倾角统计量;以及生成由热图或图表组成的图像。当需要时,感兴趣的计算机可读存储介质包括用于使数据的分辨率最大化的指令。在实施例中,使数据的分辨率最大化包括计算分辨率分数,所述分辨率分数考虑分辨率指数、群的数量、参数的数量和细胞的数量总和。在一些实施例中,分辨率分数针对n(即群的数量)中的每个值进行计算,以致于存在与每个可能的群数相关联的分辨率分数。即,用于确定使数据的分辨率最大化的群簇的最佳数量和布置。当需要时,本计算机可读存储介质包括用于通过使数据经历维度减少算法而减少数据的维度的指令,该算法被选择是因为其产生了具有比其他维度减少算法高的分辨率分数的群簇。
在实施例中,系统被配置为分析用于分析流式细胞仪数据或核酸序列数据的软件或分析工具(例如
Figure BDA0004030031860000341
或/>
Figure BDA0004030031860000342
)之中的数据。可以在数据分析软件或工具(例如
Figure BDA0004030031860000343
)中通过适当的方式(例如人工筛选、簇分析或其他计算技术)来分析初始数据。本系统或其一部分可以被实现为软件(例如/>
Figure BDA0004030031860000344
或/>
Figure BDA0004030031860000345
)中的用于分析数据的软件组件。在这些实施例中,根据本公开的计算机控制系统可以用作用于已有的软件包(例如/>
Figure BDA0004030031860000346
和/>
Figure BDA0004030031860000347
)的软件“插件”。
计算机可读存储介质可以在具有显示器和操作员输入装置的一个或更多个计算机系统上使用。操作员输入装置可以例如是键盘、鼠标等。处理模块包括处理器,其具有对具有存储在其上的用于执行主题方法的步骤的指令的存储器的访问权。所述处理模块可以包括操作系统、图形用户接口(GUI)控制器、系统存储器、存储器储存装置、以及输入输出控制器、缓冲器存储器、数据备份单元以及许多其他装置。处理器可以是商用的处理器或者其可以是可用或将变为可用的其他处理器中的一个。处理器执行操作系统,并且操作系统以周知的方式与固件和硬件连接,并且促进处理器协调和执行可以用各种编程语言编写的各种计算机程序的功能,例如本领域已知的Java、Perl、Python、C++、其他高级或低级语言以及其组合。操作系统还完全根据已知技术来提供调度、输入输出控制、文件和数据管理、存储器管理以及通信控制和有关的服务。
实用性
主题装置、方法和计算机系统用于需要在确定生物样本中的分析物(例如细胞、粒子、核酸)的参数时提高分辨率和准确性的多种应用中。例如,本公开用于检测第一数据群和第二数据群之间的异质性,以例如确定这些群是否被当作两个分开的群。主题装置、方法和计算机系统还用于标识在其他情况下将不能被标识的数据子群(例如通过比较分辨率指数数据与Hartigan的倾角统计量度据)。当需要使数据群之间的分辨率最大化时,主题装置、方法和计算机系统用于确定使被当作可分开的数据群之间的分辨率最大化的数据的布置(即群的数量、维度减少)。在一些实施例中,主题方法和系统提供完全自动化的方案,以使在需要时对数据的调整需要很少的人工输入。
本公开可以用于表征许多类型的分析物,特别是与医疗诊断或用于护理患者的方案有关的分析物,包括但不限于蛋白质(包括游离蛋白质和蛋白质两者、以及结合到结构(例如细胞)的表面的蛋白质)、核酸、病毒粒子等。此外,样本可以来自体外或活体源,并且样本可以是诊断样本。
套件
本公开的方面还包括套件,其中套件包括储存介质,例如软盘、硬盘、光盘、磁光盘、CD-ROM、CD-R、磁带、非易失性存储卡、ROM、DVD-ROM、蓝光光盘、固态盘和网络附属储存器(NAS)。这些或现在使用的其他的或以后可以开发的程序储存介质中的任意程序储存介质都可以被包括在主题套件中。在实施例中,程序储存介质包括用于以下的指令:检测第一数据群和第二数据群之间的异质性;以及使数据群之间的分辨率最大化(例如如上所述)。在实施例中,主题套件中提供的计算机可读介质上包含的指令或其一部分可以被实现为软件(例如
Figure BDA0004030031860000351
或/>
Figure BDA0004030031860000352
)中的用于分析数据的软件组件。在这些实施例中,根据本公开的计算机控制系统可以用作用于已有的软件包(例如/>
Figure BDA0004030031860000353
和/>
Figure BDA0004030031860000354
)的软件“插件”。/>
除了以上组件之外,主题套件还可以包括(在一些实施例中的)例如用于将插件安装到已有的软件包(例如
Figure BDA0004030031860000355
和/>
Figure BDA0004030031860000356
)的指令。这些指令可以在主题套件中以各种形式存在,其中的一种或多种可以存在于套件中。这些指令可以呈现的一种形式是位于合适的介质或基质(例如打印信息的一张或多张纸)上、在套件的包装中、在包装插页中等的打印信息。这些指令的又一形式是上面记录有信息的计算机可读介质,例如软盘、光盘(CD)、便携式闪存驱动器等。这些指令的可能呈现的又一形式是网站地址,其可以经由互联网使用以访问在已删除站点处的信息。
尽管存在随附权利要求,但是本公开也由以下各项限定:
1.一种检测数据中的异质性的方法,所述方法包括:
分别获得第一数据群和第二数据群的差异量度;
从获得的差异量度确定所述第一数据群和所述第二数据群的间隔距离;以及
通过将所述第一数据群和所述第二数据群的相应的差异量度与所述间隔距离进行比较而计算所述第一数据群和所述第二数据群的分辨率指数。
2.根据项1所述的方法,其中,所述数据是流式细胞仪数据。
3.根据项1或2所述的方法,其中,所述数据是核酸测序数据。
4.根据项1、2或3所述的方法,其中,所述分辨率指数是所述第一数据群和所述第二数据群之间的间隔的量化。
5.根据前述项中的任意项所述的方法,其中,第一群包括对于给定参数为阳性的数据,并且第二群包括对于给定参数为阴性的数据。
6.根据前述项中的任意项所述的方法,其中,获得差异量度包括分别计算所述第一数据群和所述第二数据群的平均质心位置和标准差。
7.根据前述项中的任意项所述的方法,其中,计算所述分辨率指数包括:计算所述第一数据群和所述第二数据群的相应的差异量度与所述间隔距离之间的比率。
8.根据项7所述的方法,其中,所述比率根据等式A
Figure BDA0004030031860000361
来被计算,
其中:
Figure BDA0004030031860000362
是所述第一数据群的平均质心位置;
Figure BDA0004030031860000363
是所述第二数据群的平均质心位置;
SDclust01是所述第一数据群的标准差;以及
SDclust02是所述第二数据群的标准差。
9.根据前述项中的任意项所述的方法,其中,分辨率指数是针对任意给定数量的相邻的成对的第一数据群和第二数据群来被计算的。
10.根据项9所述的方法,其中,分辨率指数是针对3个或更多个相邻的成对的第一数据群和第二数据群来被计算的。
11.根据项9或10所述的方法,其中,分辨率指数是针对5个或更多个相邻的成对的第一数据群和第二数据群来被计算的。
12.根据前述项中的任意项所述的方法,其中,所述方法还包括针对给定数量的相邻的成对的第一数据群和第二数据群计算Hartigan的倾角统计量。
13.根据前述项中的任意项所述的方法,其中,所述方法还包括生成图像。
14.根据项13所述的方法,其中,生成图像包括:汇集针对给定数量的相邻的成对的第一数据群和第二数据群所计算的分辨率指数的热图。
15.根据项13或14所述的方法,其中,生成图像还包括:汇集针对给定数量的相邻的成对的第一数据群和第二数据群所计算的Hartigan的倾角统计量的热图。
16.根据项13、14或15所述的方法,其中,生成图像还包括在散点图上绘制数据群。
17.根据前述项中的任意项所述的方法,其中,所述数据包括来自任意给定数量的不同参数的信号。
18.根据前述项中的任意项所述的方法,其中,所述方法还包括使数据群之间的分辨率最大化。
19.根据项18所述的方法,其中,使数据群之间的分辨率最大化包括:计算分辨率分数,该分辨率分数提供了给定数量的不同参数的数据上的不同群之间的间隔的量度。
20.根据项19所述的方法,其中,所述分辨率分数根据等式B和等式C
Figure BDA0004030031860000371
Figure BDA0004030031860000372
来被计算,
其中:
TI是分辨率指数;
m是细胞的数量;
n是群的数量;
p是参数的数量;以及
AdjustmentFactor是常数。
21.根据项20所述的方法,其中,AdjustmentFactor是0.7。
22.根据项18至21中的任意项所述的方法,其中,使数据群之间的分辨率最大化包括减少数据的维度。
23.根据前述项中的任意项所述的方法,其中,所述方法提供数据群之间的间隔的无偏测量。
24.一种系统,包括:
装置,被配置为通过分析生物样本而产生数据;以及
处理器,包括可操作地耦接到所述处理器的存储器,其中,所述存储器包括存储在其上的指令,当所述指令由所述处理器执行时,所述指令致使所述处理器:
分别获得第一数据群和第二数据群的差异量度;
从获得的差异量度确定所述第一数据群和所述第二数据群的间隔距离;以及
通过将所述第一数据群和所述第二数据群的相应的差异量度与所述间隔距离进行比较而计算所述第一数据群和所述第二数据群的分辨率指数。
25.根据项1所述的方法,其中,所述数据是流式细胞仪数据。
26.根据项1或2所述的方法,其中,所述数据是核酸测序数据。
27.根据项24、25或26所述的系统,其中,所述分辨率指数是所述第一数据群和所述第二数据群之间的间隔的量化。
28.根据项24至27中的任意项所述的系统,其中,第一群包括对于给定参数为阳性的数据,并且第二群包括对于给定参数为阴性的数据。
29.根据项24至28中的任意项所述的系统,其中,获得差异量度包括分别计算所述第一数据群和所述第二数据群的平均质心位置和标准差。
30.根据项24至29中的任意项所述的系统,其中,计算所述分辨率指数包括:计算所述第一数据群和所述第二数据群的相应的差异量度与所述间隔距离之间的比率。
31.根据项30所述的系统,其中,所述比率根据等式A
Figure BDA0004030031860000381
来被计算,
其中:
Figure BDA0004030031860000382
是所述第一数据群的平均质心位置;
Figure BDA0004030031860000383
是所述第二数据群的平均质心位置;
SDclust01是所述第一数据群的标准差;以及
SDclust02是所述第二数据群的标准差。
32.根据项24至31中的任意项所述的系统,其中,分辨率指数是针对任意给定数量的相邻的成对的第一数据群和第二数据群来被计算的。
33.根据项32所述的系统,其中,分辨率指数是针对3个或更多个相邻的成对的第一数据群和第二数据群来被计算的。
34.根据项32或33所述的系统,其中,分辨率指数是针对5个或更多个相邻的成对的第一数据群和第二数据群来被计算的。
35.根据项24至34中的任意项所述的系统,其中,所述处理器还被配置为针对给定数量的相邻的成对的第一数据群和第二数据群计算aHartigan的倾角统计量。
36.根据项24至35中的任意项所述的系统,其中,所述处理器被配置为生成图像。
37.根据项36所述的系统,其中,生成图像包括:汇集针对给定数量的相邻的成对的第一数据群和第二数据群所计算的分辨率指数的热图。
38.根据项36或37所述的系统,其中,生成图像包括:汇集针对给定数量的相邻的成对的第一数据群和第二数据群所计算的Hartigan的倾角统计量的热图。
39.根据项36、37或38所述的系统,其中,生成图像包括在散点图上绘制数据群。
40.根据项24至39中的任意项所述的系统,其中,所述数据包括来自任意给定数量的不同参数的信号。
41.根据项24至40中的任意项所述的系统,其中,所述处理器被配置为使数据群之间的分辨率最大化。
42.根据项41所述的系统,其中,使数据群之间的分辨率最大化包括:计算分辨率分数,该分辨率分数提供了给定数量的不同参数的数据上的不同群之间的间隔的量度。
43.根据项42所述的系统,其中,所述分辨率分数根据等式B和等式C:
Figure BDA0004030031860000391
Figure BDA0004030031860000392
来被计算,
其中:
TI是分辨率指数;
m是细胞的数量;
n是群的数量;
p是参数的数量;以及
AdjustmentFactor是常数。
44.根据项43所述的系统,其中,AdjustmentFactor是0.7。
45.根据项41至44中的任意项所述的系统,其中,使数据群之间的分辨率最大化还包括减少数据的维度。
46.根据项24至45中的任意项所述的系统,其中,所述处理器被配置为提供数据群之间的间隔的无偏测量。
47.一种非暂时性计算机可读存储介质,包括存储在其上的指令,所述指令用于通过包括以下步骤的方法而检测数据中的异质性,所述方法包括:
分别获得第一数据群和第二数据群的差异量度;
从获得的差异量度确定所述第一数据群和所述第二数据群的间隔距离;以及
通过将所述第一数据群和所述第二数据群的相应的差异量度与所述间隔距离进行比较而计算所述第一数据群和所述第二数据群的分辨率指数。
48.根据项47所述的方法,其中,所述数据是流式细胞仪数据。
49.根据项47或48所述的方法,其中,所述数据是核酸测序数据。
50.根据项47、48或49所述的非暂时性计算机可读存储介质,其中,所述分辨率指数是所述第一数据群和所述第二数据群之间的间隔的量化。
51.根据项47至50中的任意项所述的非暂时性计算机可读存储介质,其中,第一群包括对于给定参数为阳性的数据,并且第二群包括对于给定参数为阴性的数据。
52.根据项47至51中的任意项所述的非暂时性计算机可读存储介质,其中,获得差异量度包括分别计算所述第一数据群和所述第二数据群的平均质心位置和标准差。
53.根据项47至52中的任意项所述的非暂时性计算机可读存储介质,其中,计算所述分辨率指数包括:计算所述第一数据群和所述第二数据群的相应的差异量度与所述间隔距离之间的比率。
54.根据项53所述的非暂时性计算机可读存储介质,其中,所述比率根据等式A
Figure BDA0004030031860000401
来被计算,
其中:
Figure BDA0004030031860000402
是所述第一数据群的平均质心位置;
Figure BDA0004030031860000403
是所述第二数据群的平均质心位置;/>
SDclust01是所述第一数据群的标准差;以及
SDclust02是所述第二数据群的标准差。
55.根据项47至54中的任意项所述的非暂时性计算机可读存储介质,其中,分辨率指数是针对任意给定数量的相邻的成对的第一数据群和第二数据群来被计算的。
56.根据项55所述的非暂时性计算机可读存储介质,其中,分辨率指数是针对3个或更多个相邻的成对的第一数据群和第二数据群来被计算的。
57.根据项55或56所述的非暂时性计算机可读存储介质,其中,分辨率指数是针对5个或更多个相邻的成对的第一数据群和第二数据群来被计算的。
58.根据项47至57中的任意项所述的非暂时性计算机可读存储介质,其中,所述方法还包括针对给定数量的相邻的成对的第一数据群和第二数据群计算Hartigan的倾角统计量。
59.根据项47至58中的任意项所述的非暂时性计算机可读存储介质,其中,所述方法还包括生成图像。
60.根据项59所述的非暂时性计算机可读存储介质,其中,生成图像包括:汇集针对给定数量的相邻的成对的第一数据群和第二数据群所计算的分辨率指数的热图。
61.根据项59或60所述的非暂时性计算机可读存储介质,其中,生成图像还包括:汇集针对给定数量的相邻的成对的第一数据群和第二数据群所计算的Hartigan的倾角统计量的热图。
62.根据项59、60或61所述的非暂时性计算机可读存储介质,其中,生成图像还包括在散点图上绘制数据群。
63.根据项47至62中的任意项所述的非暂时性计算机可读存储介质,其中,所述数据包括来自任意给定数量的不同参数的信号。
64.根据项47至63中的任意项所述的非暂时性计算机可读存储介质,其中,所述方法还包括使数据群之间的分辨率最大化。
65.根据项47至64中的任意项所述的非暂时性计算机可读存储介质,其中,使数据群之间的分辨率最大化包括:计算分辨率分数,该分辨率分数提供了给定数量的不同参数的数据上的不同群之间的间隔的量度。
66.根据项65所述的非暂时性计算机可读存储介质,其中,所述分辨率分数根据等式B和等式C
Figure BDA0004030031860000411
Figure BDA0004030031860000412
来被计算,
其中:
TI是分辨率指数;
m是细胞的数量;
n是群的数量;
p是参数的数量;以及
AdjustmentFactor是常数。
67.根据项66所述的非暂时性计算机可读存储介质,其中,AdjustmentFactor是0.7。
68.根据项64至67中的任意项所述的非暂时性计算机可读存储介质,其中,使数据群之间的分辨率最大化还包括减少数据的维度。
69.根据项47至68中的任意项所述的非暂时性计算机可读存储介质,其中,所述方法提供数据群之间的间隔的无偏测量。
虽然已经为了清楚的理解的目的而通过说明和示例的方式详细地描述了上述发明,但是根据本发明的教导,对于本领域技术人员较为明了的是,可以对其做出一些改变和修改而不背离随附权利要求的精神和范围。
因此,上述内容仅说明了本发明的原理。将理解的是,本领域技术人员将能够设计体现本发明的原理并且被包括在其精神和范围之中但在本文中却未明确描述或示出的各种布置。此外,本文列举的所有示例和带条件的描述主要旨在帮助读者理解本发明的原理以及发明人对现有技术做出另外的贡献的构思,并且被解释为不限于这些明确列举的示例和条件。此外,本文列举本发明的原理、方面和实施例以及其特定示例的所有陈述旨在将其结构等同项和功能等同项两者均包括在内。此外,这些等同项旨在包括当前已知的等同项和将来开发的等同项两者,即所开发的执行相同功能的(而不论其结构如何)任意元件。此外,无论在权利要求中是否明确列举,本文公开的任何内容都不旨在专门用于公众。
因此,不旨在将本发明的范围限制在本文示出和描述的示例性实施例。相反,本发明的范围和精神通过随附权利要求体现。在权利要求中,35U.S.C§112(f)或35U.S.C§112(6)被明确定义为,仅当在权利要求中在开始时列举准确的短语“用于…的装置”或准确的短语“用于的…步骤”进行限制时,才引用其以对权利要求进行这样的限制;如果在权利要求中不使用这样的准确的短语进行限制,那么就不援用35U.S.C§112(f)或35U.S.C§112(6)。

Claims (15)

1.一种检测数据中的异质性的方法,所述方法包括:
分别获得第一数据群和第二数据群的差异量度;
从获得的差异量度确定所述第一数据群和所述第二数据群的间隔距离;以及
通过将所述第一数据群和所述第二数据群的相应的差异量度与所述间隔距离进行比较而计算所述第一数据群和所述第二数据群的分辨率指数。
2.根据权利要求1所述的方法,其中,所述数据是流式细胞仪数据。
3.根据权利要求1或2所述的方法,其中,所述数据是核酸测序数据。
4.根据权利要求1、2或3所述的方法,其中,所述分辨率指数是所述第一数据群和所述第二数据群之间的间隔的量化。
5.根据前述权利要求中的任一项所述的方法,其中,第一群包括对于给定参数为阳性的数据,并且第二群包括对于给定参数为阴性的数据。
6.根据前述权利要求中的任一项所述的方法,其中,获得差异量度包括分别计算所述第一数据群和所述第二数据群的平均质心位置和标准差。
7.根据前述权利要求中的任一项所述的方法,其中,计算所述分辨率指数包括:计算所述第一数据群和所述第二数据群的相应的差异量度与所述间隔距离之间的比率。
8.根据权利要求7所述的方法,其中,所述比率根据等式A
Figure FDA0004030031850000011
来被计算,其中:
Figure FDA0004030031850000012
是所述第一数据群的平均质心位置;
Figure FDA0004030031850000013
是所述第二数据群的平均质心位置;
SDclust01是所述第一数据群的标准差;以及
SDclust02是所述第二数据群的标准差。
9.根据前述权利要求中的任一项所述的方法,其中,分辨率指数是针对任意给定数量的相邻的成对的第一数据群和第二数据群来被计算的。
10.根据前述权利要求中的任一项所述的方法,其中,所述方法还包括计算给定数量的相邻的成对的第一数据群和第二数据群的Hartigan的倾角统计量。
11.根据前述权利要求中的任一项所述的方法,其中,所述方法还包括生成图像。
12.根据前述权利要求中的任一项所述的方法,其中,所述数据包括来自任意给定数量的不同参数的信号。
13.根据前述权利要求中的任一项所述的方法,其中,所述方法还包括使数据群之间的分辨率最大化。
14.根据前述权利要求中的任一项所述的方法,其中,所述方法提供数据群之间的间隔的无偏测量。
15.一种系统,包括:
装置,被配置为通过分析生物样本而产生数据;以及
处理器,包括可操作地耦接到所述处理器的存储器,其中,所述存储器包括存储在其上的指令,当所述指令由所述处理器执行时,所述指令致使所述处理器:
分别获得第一数据群和第二数据群的差异量度;
从获得的差异量度确定所述第一数据群和所述第二数据群的间隔距离;以及
通过将所述第一数据群和所述第二数据群的相应的差异量度与所述间隔距离进行比较而计算所述第一数据群和所述第二数据群的分辨率指数。
CN202180046967.1A 2020-05-18 2021-05-06 用于检测数据中的异质性的分辨率指数及其使用方法 Pending CN115867971A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202063026327P 2020-05-18 2020-05-18
US63/026,327 2020-05-18
PCT/US2021/031076 WO2021236339A1 (en) 2020-05-18 2021-05-06 Resolution indices for detecting heterogeneity in data and methods of use thereof

Publications (1)

Publication Number Publication Date
CN115867971A true CN115867971A (zh) 2023-03-28

Family

ID=78513431

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180046967.1A Pending CN115867971A (zh) 2020-05-18 2021-05-06 用于检测数据中的异质性的分辨率指数及其使用方法

Country Status (4)

Country Link
US (1) US20210358566A1 (zh)
EP (1) EP4154256A4 (zh)
CN (1) CN115867971A (zh)
WO (1) WO2021236339A1 (zh)

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4845653A (en) 1987-05-07 1989-07-04 Becton, Dickinson And Company Method of displaying multi-parameter data sets to aid in the analysis of data characteristics
US5739000A (en) 1991-08-28 1998-04-14 Becton Dickinson And Company Algorithmic engine for automated N-dimensional subset analysis
US5627040A (en) 1991-08-28 1997-05-06 Becton Dickinson And Company Flow cytometric method for autoclustering cells
US5556764A (en) 1993-02-17 1996-09-17 Biometric Imaging, Inc. Method and apparatus for cell counting and cell classification
US5700692A (en) 1994-09-27 1997-12-23 Becton Dickinson And Company Flow sorter with video-regulated droplet spacing
US5643796A (en) 1994-10-14 1997-07-01 University Of Washington System for sensing droplet formation time delay in a flow cytometer
US5602039A (en) 1994-10-14 1997-02-11 The University Of Washington Flow cytometer jet monitor system
US5620842A (en) 1995-03-29 1997-04-15 Becton Dickinson And Company Determination of the number of fluorescent molecules on calibration beads for flow cytometry
US6014904A (en) 1996-05-09 2000-01-18 Becton, Dickinson And Company Method for classifying multi-parameter data
US6821740B2 (en) 1998-02-25 2004-11-23 Becton, Dickinson And Company Flow cytometric methods for the concurrent detection of discrete functional conformations of PRB in single cells
US6372506B1 (en) 1999-07-02 2002-04-16 Becton, Dickinson And Company Apparatus and method for verifying drop delay in a flow cytometer
US6813017B1 (en) 1999-10-20 2004-11-02 Becton, Dickinson And Company Apparatus and method employing incoherent light emitting semiconductor devices as particle detection light sources in a flow cytometer
WO2001085914A2 (en) 2000-05-11 2001-11-15 Becton, Dickinson And Company System for identifying clusters in scatter plots using smoothed polygons with optimal boundaries
US6809804B1 (en) 2000-05-11 2004-10-26 Becton, Dickinson And Company System and method for providing improved event reading and data processing capabilities in a flow cytometer
US6683314B2 (en) 2001-08-28 2004-01-27 Becton, Dickinson And Company Fluorescence detection instrument with reflective transfer legs for color decimation
US7201875B2 (en) 2002-09-27 2007-04-10 Becton Dickinson And Company Fixed mounted sorting cuvette with user replaceable nozzle
WO2005034736A2 (en) * 2003-10-10 2005-04-21 Biophysical Corporation Generation of biochemical images and methods of use
PL2884258T3 (pl) * 2004-07-27 2017-04-28 Beckman Coulter, Inc. Poprawa zdolności dyskryminacji w cytometrii przepływowej przy użyciu transformacji geometrycznej realizowanej za pomocą komputera
US7299135B2 (en) * 2005-11-10 2007-11-20 Idexx Laboratories, Inc. Methods for identifying discrete populations (e.g., clusters) of data within a flow cytometer multi-dimensional data set
US7738094B2 (en) 2007-01-26 2010-06-15 Becton, Dickinson And Company Method, system, and compositions for cell counting and analysis
US8140300B2 (en) 2008-05-15 2012-03-20 Becton, Dickinson And Company High throughput flow cytometer operation with data quality assessment and control
US8233146B2 (en) 2009-01-13 2012-07-31 Becton, Dickinson And Company Cuvette for flow-type particle analyzer
US8528427B2 (en) 2010-10-29 2013-09-10 Becton, Dickinson And Company Dual feedback vacuum fluidics for a flow-type particle analyzer
US8990047B2 (en) 2011-03-21 2015-03-24 Becton, Dickinson And Company Neighborhood thresholding in mixed model density gating
CN103649294B (zh) 2011-04-29 2016-05-18 贝克顿·迪金森公司 多路分类系统和方法
CA2833341C (en) 2011-04-29 2021-03-02 Becton, Dickinson And Company Cell sorter system and method
CN103906496B (zh) 2011-09-30 2018-03-06 贝克顿·迪金森公司 流体交换方法与装置
US9933341B2 (en) 2012-04-05 2018-04-03 Becton, Dickinson And Company Sample preparation for flow cytometry
WO2014110290A1 (en) 2013-01-09 2014-07-17 The Regents Of The University Of California Apparatus and methods for fluorescence imaging using radiofrequency-multiplexed excitation
AU2014250805B2 (en) 2013-04-12 2017-09-21 Becton, Dickinson And Company Automated set-up for cell sorting
JP6691053B2 (ja) 2014-03-18 2020-04-28 ザ リージェンツ オブ ザ ユニバーシティ オブ カリフォルニアThe Regents Of The University Of California 無線周波数多重化を用いた並行フローサイトメーター
CN104158208A (zh) 2014-07-15 2014-11-19 阳光电源股份有限公司 一种单级光伏并网逆变器及其控制方法和应用
EP3443323B1 (en) 2016-04-15 2023-11-29 Becton, Dickinson and Company Enclosed droplet sorter, methods of using the same, and kit
US10347365B2 (en) * 2017-02-08 2019-07-09 10X Genomics, Inc. Systems and methods for visualizing a pattern in a dataset

Also Published As

Publication number Publication date
EP4154256A4 (en) 2023-11-08
WO2021236339A1 (en) 2021-11-25
EP4154256A1 (en) 2023-03-29
US20210358566A1 (en) 2021-11-18

Similar Documents

Publication Publication Date Title
US20200117883A1 (en) Lab color space silver and red in situ hybridization based techniques for detecting genes in tissue samples
US11879829B2 (en) Methods and systems for classifying fluorescent flow cytometer data
US8779387B2 (en) Method and system for detecting fluorochromes in a flow cytometer
US11674879B2 (en) Methods and systems for characterizing spillover spreading in flow cytometer data
CN109564189B (zh) 电泳图谱分析
EP3882603A1 (en) Information processing device, information processing method, and computer program
US20210278333A1 (en) Methods and systems for adjusting a training gate to accommodate flow cytometer data
CN115867971A (zh) 用于检测数据中的异质性的分辨率指数及其使用方法
US11662297B2 (en) Method for index sorting unique phenotypes and systems for same
US20220155209A1 (en) Method for Optimal Scaling of Cytometry Data for Machine Learning Analysis and Systems for Same
US20210270718A1 (en) Methods for identifying saturated data signals in cell sorting and systems for same
US20220317019A1 (en) Particle analysis system having autofluorescence spectrum correction
WO2024097099A1 (en) Methods and systems for dimensionality reduction
JP2023544284A (ja) フローサイトメータにおけるベースラインノイズの連続測定方法およびそのためのシステム
CN116569208A (zh) 用于处理和显示多通道光谱直方图的方法及其系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination