CN110462372B - 大型多参数数据集的可视化、比较分析和自动差异检测 - Google Patents
大型多参数数据集的可视化、比较分析和自动差异检测 Download PDFInfo
- Publication number
- CN110462372B CN110462372B CN201880022546.3A CN201880022546A CN110462372B CN 110462372 B CN110462372 B CN 110462372B CN 201880022546 A CN201880022546 A CN 201880022546A CN 110462372 B CN110462372 B CN 110462372B
- Authority
- CN
- China
- Prior art keywords
- data set
- events
- data
- frequency
- computer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012800 visualization Methods 0.000 title claims description 43
- 238000001514 detection method Methods 0.000 title description 8
- 238000010835 comparative analysis Methods 0.000 title description 5
- 238000000034 method Methods 0.000 claims abstract description 80
- 239000000523 sample Substances 0.000 claims description 28
- 230000001413 cellular effect Effects 0.000 claims description 22
- 230000009467 reduction Effects 0.000 claims description 20
- 238000012545 processing Methods 0.000 claims description 13
- 238000009826 distribution Methods 0.000 claims description 9
- 238000003860 storage Methods 0.000 claims description 7
- 239000013068 control sample Substances 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 6
- 230000004044 response Effects 0.000 claims description 6
- 239000000126 substance Substances 0.000 claims description 4
- 230000009977 dual effect Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims 1
- 238000004458 analytical method Methods 0.000 abstract description 35
- 238000011192 particle characterization Methods 0.000 abstract description 2
- 210000004027 cell Anatomy 0.000 description 98
- 239000002245 particle Substances 0.000 description 35
- 230000014509 gene expression Effects 0.000 description 22
- 108090000623 proteins and genes Proteins 0.000 description 18
- 238000013459 approach Methods 0.000 description 13
- 238000000684 flow cytometry Methods 0.000 description 13
- 230000008569 process Effects 0.000 description 13
- 240000007320 Pinus strobus Species 0.000 description 12
- 238000005259 measurement Methods 0.000 description 12
- 238000000513 principal component analysis Methods 0.000 description 11
- 201000010099 disease Diseases 0.000 description 10
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 10
- 230000009471 action Effects 0.000 description 7
- 238000004163 cytometry Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 238000012163 sequencing technique Methods 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 238000000149 argon plasma sintering Methods 0.000 description 5
- 238000013500 data storage Methods 0.000 description 5
- 206010028980 Neoplasm Diseases 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000005284 excitation Effects 0.000 description 4
- 239000007850 fluorescent dye Substances 0.000 description 4
- 210000002865 immune cell Anatomy 0.000 description 4
- 102000004169 proteins and genes Human genes 0.000 description 4
- 230000035945 sensitivity Effects 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 210000001266 CD8-positive T-lymphocyte Anatomy 0.000 description 3
- 238000003559 RNA-seq method Methods 0.000 description 3
- 210000001744 T-lymphocyte Anatomy 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 3
- 201000011510 cancer Diseases 0.000 description 3
- 230000000052 comparative effect Effects 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 3
- 239000003814 drug Substances 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000028993 immune response Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000009877 rendering Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 238000007794 visualization technique Methods 0.000 description 3
- 102000004127 Cytokines Human genes 0.000 description 2
- 108090000695 Cytokines Proteins 0.000 description 2
- 210000000662 T-lymphocyte subset Anatomy 0.000 description 2
- 238000003556 assay Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 210000004369 blood Anatomy 0.000 description 2
- 239000008280 blood Substances 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 239000000975 dye Substances 0.000 description 2
- 238000010195 expression analysis Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000005304 joining Methods 0.000 description 2
- 208000032839 leukemia Diseases 0.000 description 2
- 210000004698 lymphocyte Anatomy 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012174 single-cell RNA sequencing Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000001225 therapeutic effect Effects 0.000 description 2
- 229960005486 vaccine Drugs 0.000 description 2
- 238000013382 DNA quantification Methods 0.000 description 1
- 102100029722 Ectonucleoside triphosphate diphosphohydrolase 1 Human genes 0.000 description 1
- 102000004190 Enzymes Human genes 0.000 description 1
- 108090000790 Enzymes Proteins 0.000 description 1
- 101001012447 Homo sapiens Ectonucleoside triphosphate diphosphohydrolase 1 Proteins 0.000 description 1
- 101000914514 Homo sapiens T-cell-specific surface glycoprotein CD28 Proteins 0.000 description 1
- 102100034343 Integrase Human genes 0.000 description 1
- 238000013381 RNA quantification Methods 0.000 description 1
- 108010092799 RNA-directed DNA polymerase Proteins 0.000 description 1
- 230000005867 T cell response Effects 0.000 description 1
- 102100027213 T-cell-specific surface glycoprotein CD28 Human genes 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 239000012491 analyte Substances 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000005784 autoimmunity Effects 0.000 description 1
- 239000011324 bead Substances 0.000 description 1
- 230000004071 biological effect Effects 0.000 description 1
- 230000008512 biological response Effects 0.000 description 1
- 239000000090 biomarker Substances 0.000 description 1
- 230000003915 cell function Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000000546 chi-square test Methods 0.000 description 1
- 210000001072 colon Anatomy 0.000 description 1
- 238000004040 coloring Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000002380 cytological effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- BFMYDTVEBKDAKJ-UHFFFAOYSA-L disodium;(2',7'-dibromo-3',6'-dioxido-3-oxospiro[2-benzofuran-1,9'-xanthene]-4'-yl)mercury;hydrate Chemical compound O.[Na+].[Na+].O1C(=O)C2=CC=CC=C2C21C1=CC(Br)=C([O-])C([Hg])=C1OC1=C2C=C(Br)C([O-])=C1 BFMYDTVEBKDAKJ-UHFFFAOYSA-L 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000012530 fluid Substances 0.000 description 1
- 238000000799 fluorescence microscopy Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000001900 immune effect Effects 0.000 description 1
- 210000000987 immune system Anatomy 0.000 description 1
- 230000036039 immunity Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002687 intercalation Effects 0.000 description 1
- 238000009830 intercalation Methods 0.000 description 1
- 210000004185 liver Anatomy 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 230000003211 malignant effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010197 meta-analysis Methods 0.000 description 1
- 238000002493 microarray Methods 0.000 description 1
- 238000000386 microscopy Methods 0.000 description 1
- -1 molecules Substances 0.000 description 1
- 238000007481 next generation sequencing Methods 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 239000005022 packaging material Substances 0.000 description 1
- 230000008506 pathogenesis Effects 0.000 description 1
- 238000003752 polymerase chain reaction Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000001681 protective effect Effects 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 239000000725 suspension Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000007473 univariate analysis Methods 0.000 description 1
- 238000002255 vaccination Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/30—Unsupervised data analysis
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N15/00—Investigating characteristics of particles; Investigating permeability, pore-volume, or surface-area of porous materials
- G01N15/10—Investigating individual particles
- G01N15/14—Electro-optical investigation, e.g. flow cytometers
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/62—Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light
- G01N21/63—Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light optically excited
- G01N21/64—Fluorescence; Phosphorescence
- G01N21/6486—Measuring fluorescence of biological material, e.g. DNA, RNA, cells
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/758—Involving statistics of pixels or of feature values, e.g. histogram matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/69—Microscopic objects, e.g. biological cells or cellular parts
- G06V20/698—Matching; Classification
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B45/00—ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N15/00—Investigating characteristics of particles; Investigating permeability, pore-volume, or surface-area of porous materials
- G01N15/10—Investigating individual particles
- G01N15/14—Electro-optical investigation, e.g. flow cytometers
- G01N2015/1402—Data analysis by thresholding or gating operations performed on the acquired signals or stored data
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N15/00—Investigating characteristics of particles; Investigating permeability, pore-volume, or surface-area of porous materials
- G01N15/10—Investigating individual particles
- G01N15/14—Electro-optical investigation, e.g. flow cytometers
- G01N2015/1477—Multiparameters
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
Abstract
本文提供的方法的一些实施例涉及用于大型多参数数据集的样品分析和粒子表征方法。频率差选通对至少两个不同的数据集进行比较以根据定义的阈值标识多变量空间中来自第一数据集的事件的频率不同于来自第二数据集的事件的频率的区域。
Description
相关申请的交叉引用
本申请根据35 U.S.C.§119(e)要求于2017年5月25日提交的名称为“APPLIEDCOMPUTER TECHNOLOGY FOR VISUALIZATION,COMPARATIVE ANALYSIS,AND AUTOMATEDDIFFERENCE DETECTION FOR LARGE MULTI-PARAMETER DATA SETS[应用于大型多参数数据集的可视化、比较分析和自动差异检测的计算机技术]”的美国临时专利申请号62/511342的优先权权益,该专利申请的全部内容通过引用并入本文。在本申请资料表中标识的任何和所有优先权要求或其任何更正也根据37C.F.R.§1.57通过引用并入本文。
发明背景
技术领域
本披露内容总体上涉及自动粒子评估领域,并且更具体地涉及用于大型多参数数据集的计算机辅助样品分析和粒子表征特征。
背景技术
诸如流式细胞仪和扫描细胞仪等粒子分析器是基于诸如光散射和荧光等电光测量结果来实现对粒子的表征的分析工具。例如,在流式细胞仪中,流体悬浮液中的粒子(诸如分子、分析物所结合的珠或独立细胞)经过检测区域,在该检测区域中,使这些粒子暴露于通常来自一个或多个激光器的激发光,并且测量这些粒子的光散射性质和荧光性质。通常用荧光染料来标记粒子或其组分以便于检测。通过使用不同光谱的荧光染料来标记多种不同的粒子或组分,可以同时检测这些不同的粒子或组分。在一些实施方式中,分析器中包括多个光电检测器(每个待测量的散射参数对应一个光电检测器、并且每个待检测的不同染料对应一个或多个光电检测器)。例如,一些实施例包括每种染料使用多于一个传感器或检测器的光谱配置。所获得的数据包括针对每个光散射检测器和荧光发射测得的信号。
粒子分析器可以进一步包括用于记录测得的数据并分析该数据的装置。例如,可以使用连接到检测电子设备的计算机来执行数据存储和分析。例如,数据可以以表格形式存储,在表格中,每行对应于一种粒子的数据,并且列对应于所测得的特征中的每个特征。使用标准文件格式(诸如“FCS”文件格式)来存储来自粒子分析器的数据有助于使用不同的程序和/或机器来分析数据。使用目前的分析方法,通常以1维直方图或2维(2D)图来显示数据以便于可视化,但是也可以使用其他方法来可视化多维数据。
使用例如流式细胞仪测得的参数通常包括:在主要沿前向方向的较窄角度中被粒子散射(称为前向散射(FSC))的处于激发波长的光、在与激发激光正交的方向上被粒子散射(称为侧向散射(SSC))的激发光、以及从测量一定光谱波长范围内的信号的一个或多个检测器中的荧光分子发射的或由主要在该特定检测器或检测器阵列中检测到的荧光染料发射的光。可以通过利用荧光染料标记的抗体或其他荧光探针标记各种细胞蛋白质或其他成分而得到的细胞光散射特性和荧光发射来标识不同的细胞类型。
流式细胞仪和扫描细胞仪均可从例如BD生物科学事业部(BD Biosciences)(美国加州圣何塞)商购。流式细胞术在例如以下文献中进行了描述:Landy等(编者),ClinicalFlow Cytometry[临床流式细胞术],Annals of the New York Academy of Sciences[纽约科学院年报]第677卷(1993);Bauer等(编者),Clinical Flow Cytometry:Principlesand Applications[临床流式细胞术:原理与应用],Williams和Wilkins(1993);Ormerod(编者),Flow Cytometry:A Practical Approach[流式细胞术:实用方法],牛津大学出版(Oxford Univ.Press)(1994);Jaroszeski等(编者),Flow Cytometry Protocols[流式细胞术规程],Methods in Molecular Biology[分子生物学方法],第91期,胡马纳出版社(Humana Press)(1997);以及Practical Shapiro,Flow Cytometry[流式细胞术],第4版,Wiley-Liss(2003);这些文献全部通过引用并入本文。荧光成像显微术在例如以下文献中进行了描述:Pawley(编者),Handbook of Biological Confocal Microscopy[生物共聚焦显微镜手册],第2版,Plenum Press(普莱纽姆出版社)(1989),该文献通过引用并入本文。
通过某些粒子分析器(诸如多色流式细胞仪)对细胞(或其他粒子)的分析而获得的数据是多维的,其中,每个细胞对应于由所测得的参数定义的多维空间中的点。细胞或粒子的群体被标识为数据空间中的点集群。对集群以及由此对群体进行的标识可以通过在数据的一个或多个2维图(称为“散点图”或“点阵图”)中显示的群体周围绘制选通来手动执行。可替代地,可以标识集群,并且可以自动确定定义群体限制的选通。用于自动化选通的方法的示例已经在例如美国专利号4,845,653、5,627,040、5,739,000、5,795,727、5,962,238、6,014,904、和6,944,338以及美国专利公开号2012/0245889中进行了描述,这些专利各自都通过引用并入本文。
发明内容
本披露内容的系统、方法和设备各自具有若干创新方面,其中并非仅靠任何单一创新方面来负责本文所披露的期望属性。
在一个创新方面,提供了一种对n维数据集之间的差异进行可视化的计算机实施的方法。可以在一个或多个处理设备的控制下执行该计算机实施的方法。该方法包括对n维数据的第一数据集和n维数据的第二数据集执行频率差选通。n维数据包括多个维度上的多个事件。该方法进一步包括从经频率差选通的数据生成可视化以经由显示设备进行显示,该可视化根据定义的阈值示出了多变量空间中来自该第一数据集的事件的频率不同于来自该第二数据集的事件的频率的区域。
在该计算机实施的方法的一些实施方式中,第一数据集和第二数据集包括多参数细胞样品数据。
在一些实施方式中,该计算机实施的方法还包括响应于用户输入来调整该定义的阈值、以及基于调整后的定义的阈值来调整该可视化。该定义的阈值可以包括或表示多个定义的阈值。该计算机实施的方法可以包括通过至少部分地基于该频率差选通对这些区域进行颜色编码来生成该可视化。该定义的阈值可以包括上限阈值,该上限阈值标识被分类为来自该第一数据集的事件的频率大于来自该第二数据集的事件的频率的一个或多个区域。另外地或可替代地,该定义的阈值可以包括下限阈值,该下限阈值标识来自该第二数据集的事件的频率大于来自该第一数据集的事件的频率的一个或多个区域。在一些实施方式中,如权利要求1所述的计算机实施的方法,其中,该定义的阈值包括中间范围边界,该中间范围边界标识在该第一数据集与该第二数据集之间具有相似的事件频率的一个或多个区域。
该方法可以通过以下方式来执行频率差选通:根据该第一数据集和该第二数据集内的多个定义的分布中的每一个分布的二元频率估算量,生成每维度具有多个区间的多维直方图。频率差选通可以进一步包括通过事件计数对直方图进行归一化。频率差选通可以进一步包括针对归一化直方图中的每个元素生成差异直方图。在一些实施方式中,频率差选通进一步包括处理器对差异直方图进行双归一化。当使用双归一化的直方图时,生成可视化可以包括对双归一化的差异直方图的热图进行渲染。
该方法的一些实例包括基于用户通过可视化定义的至少一个选通来生成第三数据集。第一数据集可以包括对照样品,诸如来自健康物质的细胞数据或来自癌性物质的细胞数据。
在另一个创新方面,提供了一种系统。该系统包括一个或多个处理设备以及包括指令的计算机可读存储介质,这些指令当由该一个或多个处理设备执行时使该系统进行以下操作:接收用于频率差选通所接收数据集的阈值;接收n维数据的包括多个维度上的第一多个事件的第一数据集;接收n维数据的包括至少该多个维度上的第二多个事件的第二集;至少部分地基于对n维数据的该第一数据集和n维数据的该第二数据集的频率差选通来标识定义事件群体的频率差选通,该选通根据该阈值标识多变量空间中来自该第一数据集的事件的频率不同于来自该第二数据集的事件的频率的区域;以及使得显示包括来自该第一数据集和该第二数据集的被包括在由该频率差选通定义群体中的事件的表示的可视化,该可视化根据该阈值示出了该多变量空间中来自该第一数据集的事件的该频率不同于来自该第二数据集的事件的该频率的区域。
在一些实施方式中,该阈值包括以下各项中的至少一项:上限阈值,该上限阈值标识被分类为来自该第一数据集的事件的频率大于来自该第二数据集的事件的频率的一个或多个区域;下限阈值,该下限阈值标识来自该第二数据集的事件的频率大于来自该第一数据集的事件的频率的一个或多个区域;或者中间范围边界,该中间范围边界标识在该第一数据集与该第二数据集之间具有相似的事件频率的一个或多个区域。
该计算机可读存储介质可以包括指令,这些指令当由该一个或多个处理设备执行时使该系统至少通过以下方式来标识频率差选通:根据该第一数据集和该第二数据集内的多个定义的分布中的每一个分布的二元频率估算量而生成每维度具有多个区间的多维直方图。
附图说明
图1展示了可以用于支持本文所描述的创新数据处理和可视化技术的示例计算机系统。
图2A描绘了细胞基因表达数据集的示例。
图2B描绘了示例细胞基因表达数据的表格视图。
图3描绘了频率差选通和可视化的方法的示例过程流程。
图4A至图4C示出了可以生成的示例频率差选通可视化。
具体实施方式
单细胞可以表示疾病的基本单位,但流式细胞术(每个细胞>40个参数)和单细胞测序(每个细胞10,000个到多于60,000个参数)分析中的新兴技术可能因缺乏远见、耗时、连续的手动步骤或计算上昂贵、非确定性的数据约简方法而受阻。这是本领域中被大量文献记载的问题,但是本领域一直在努力开发这个问题的解决方案。虽然确定性的这种缺乏妨碍了有意义的样品比较(该比较是所有类型的数据分析(尤其是生命科学)的基础)——与对照或健康“常态”的比较是关键组成部分,但是单细胞科学在相当扩展的表型空间中执行这些有意义比较方面能力最强。
描述了用于解决人类从根本上无法充分探索、也无法进行有意义的比较的大型多参数数据集所呈现的问题的特征。特别是在进行样品内比较和样品间比较时,人类(例如,科学专家)可能会基于先验知识和专业知识而产生令人难以置信的偏见。已经表明,推动生物学差异的主要差异实际上可能是由于经由手动选通而未包括在手动数据分析中的细胞亚群(参见M.D.Stadnisky、S.Siddiq、J.Almarode、J.Quinn、A.Hart.,ReproducibleReduction:Deterministic tSNE using regression trees enables intra-samplecomparison[可重复约简:使用回归树的确定性tSNE实现样品内比较],CYTO 2016:XXXICongress of the International Society for the Advancement of Cytometry[CYTO2016:国际细胞计量术发展学会第XXXI次代表大会],西雅图市,华盛顿州,2016年6月)。即,在研究中,研究者可能会完全遗漏负责生物反应或者负责健康患者与疾病状态之间的差异的表型。下面更详细地讨论了两个示例,以强调这些方法在粒子数据的比较方面的局限性。
使用具体的示例,从调查身体如何计数和调节免疫细胞数量的研究(参见Roederer等人,The genetic architecture of the human immune system:abioresource for autoimmunity and disease pathogenesis[人体免疫系统的遗传架构:自身免疫及疾病发病机制的生物资源],Cell[细胞].2015年4月9日;161(2):387-403,doi:10.1016/j.cell.2015.02.046,Epub 2015年3月12日)中,已知许多可能的群体(“性状”;参见“Another Application of Technology[技术的另一应用]”):
典范:预定义的、“已知的”或已描述的亚群。
TCM=CD45RA-CCR7+CD28+
TREG=CD45RO+CD127-CD25+CD39+
对于给定的抗体组,可以标识超过50+的典范群体。然而,并且如下面的两个具体示例所示,这种方法遗漏了许多亚群。另外,该方法依赖于这样的基本假设:典范群体(1)被适当地定义且(2)是众所周知的。但是如果未适当地定义典范群体呢?单细胞测序分析以无偏见的方式示出了使用目前的典范组来亚群化和标识细胞时的分析间隙。例如,在对先天淋巴细胞进行的最近研究中,我们为每个典范ILC亚群定义了以前未报告的3至5个附加标记,并为每个典范亚群定义了3个“新”子亚群。事实上,根据定义,每个细胞都是唯一的,因此一个关键因素是分析我们从典范亚群中所知道的内容、并将此内容与本文所描述的创新方法相结合。
替代性分析过程可以包括一次分析所有内容,即标记的所有可能组合。这种方法的优点是分析不会忽略任何组合并且仍然可以标识典范群体。然而,这种方法的缺点在于:由于需要运行在n维数据集上进行计算的算法,因此该方法是资源密集型的。作为数据量的示例,我们已经在调查数千个细胞中的每个单细胞上的12种蛋白质以及超过60,000个mRNA和剪接变体的数据集上运行了这些算法。与对于许多样品(每个样品具有数十万个细胞)每个独立细胞分析超过100,000个参数的其他实验相比,这可以被认为是低吞吐量实验。至关重要的是,这种吞吐量因无法在治疗与疾病状态之间进行比较而受阻,因此许多基于分析的研究本质上仍然是描述性的。作为另一个示例,从仅使用一种模式调查身体如何计数和调节免疫细胞数量的研究(例如,通过流式细胞术调查的七个组)中,存在:
59种“血统”
总共77,941个亚群
684个MFI值
总共:78,683个性状
…并且这是在与所研究的每对双胞胎可用的其他数据流结合之前。
处理这种大型多维数据集所需的资源可能超过可用于或预期在可操作的时间段内提供结果的资源。资源可以包括计算资源、功率资源、存储器资源、网络资源、收发器资源等。
为了使易于在n维空间中进行发现,数据约简可以是一种用于减少所考虑的随机变量的数量并获得一组“不相关”的主要变量的有用的可视化技术。这提供了一种探索新参数的可视方法,这些新参数表示本身能够被进一步分析的n维数据的投影。然而存在两种方法用于数据约简、特征提取和特征选择;并且特征提取已广泛用于单细胞科学,特别是用于主成分分析(PCA)和t分布随机邻域嵌入(t-SNE)。
PCA可以用于提取被称为主成分(例如,新参数)的线性不相关变量,其表示基础(例如,“原始”)数据的方差。然而,我们和其他人已经表明PCA的最大优势也是其缺点——“PCA发现在数据的可能线性投影集合内的最佳表示也是重要的限制——线性投影可能限制太多而无法产生准确的表示”。Shekhar、Karthik等,“Automatic classification ofcellular expression by nonlinear stochastic embedding(ACCENSE)[通过非线性随机嵌入的细胞表达自动分类(ACCENSE)]”。Proceedings of the National Academy ofSciences[美国国家科学院院刊]111.1(2014):202-207。在我们的研究结果中,PCA无法标识由科学专家在低维(例如,8参数)数据集上标识的集群。另外,在单细胞测序中,PCA对转录物数敏感。
为了克服这些限制,最近进行了很多工作将t-SNE应用于单细胞数据。t-SNE是一种强大的非线性特征提取技术。在Van der Maaten、Laurens和Geoffrey Hinton的“Visualizing data using t-SNE[使用t-SNE对数据进行可视化]”(Journal of MachineLearning Research[机器学习研究杂志]9.2579-2605(2008):85)以及Van Der Maaten、Laurens、Eric Postma和Jaap Van den Herik的“Dimensionality reduction:acomparative(降维:比较)”(J Mach Learn Res[机器学习研究杂志]10(2009):66-71)中描述了t-SNE的各方面,每个文献都通过引用并入本文。t-SNE通过二维点或三维点对每个高维对象进行建模,其方式为使得相似的对象由邻近点建模并且不相似的对象由远隔点建模。这在生物可视化和分析中是有用的,因为最近的邻域反映了可以被一起组合到亚群中的相似细胞。
使用以下内容的添加,t-SNE已经适用于两种不同方法中的单细胞细胞术:(1)分区和性能以及聚类(Amir、El-ad David等,“viSNE enables visualization of highdimensional single-cell data and reveals phenotypic heterogeneity of leukemia[viSNE实现高维单细胞数据的可视化并揭示白血病的表型异质性]”,Naturebiotechnolog[自然生物技术]31.6(2013):545-552),以及(2)聚类和应用(Shekhar、Karthik等,“Automatic classification of cellular expression by nonlinearstochastic embedding(ACCENSE)[通过非线性随机嵌入的细胞表达自动分类(ACCENSE)]”,Proceedings of the National Academy of Sciences[美国国家科学院院刊]111.1(2014):202-207)。t-SNE已示出前景并已成功用于标识单细胞测序中的群体(Macosko、Evan Z等人,“Highly parallel genome-wide expression profiling ofindividual cells using nanoliter droplets[使用纳升液滴对独立细胞进行高度平行的全基因组表达谱分析]”,Cell[细胞]161.5(2015):1202-1214页;Tirosh、Itay等人,“Dissecting the multicellular ecosystem of metastatic melanoma by single-cellRNA-seq[通过单细胞RNA-seq剖析转移性黑素瘤的多细胞生态系统]”,Science[科学]352.6282(2016):189-196)。
但是,仍存在一些至关重要的互相关的挑战。一个挑战是计算费用。对于包括t-SNE的分析系统,计算费用被量化为扩展性较差的缓慢的运行时间,О(N2)用于参考实施方式或者O(N log N)用于巴恩斯-胡特(Barnes-Hut)实施方式。计算费用由参数/性状的数量推动,但也由独立粒子测量(例如,事件、细胞等)的数量推动。在数千个参数和事件上运行可能导致等待分析的较长运行时间,或者在没有诸如超级计算机/服务器集群等大量资源的情况下根本不可行。
另一个挑战涉及上述的确定性。t-SNE学习数据的非参数化映射,并且因此不存在容易获得的用于样品外估计的方法。结果是在同一数据集上的两次t-SNE运行可能产生两种不同的可视化。这种非确定性是算法固有的,并且需要诸如通过将健康组织和患病组织组合到一个文件中并且然后对组合的数据文件运行t-SNE以尝试对差异进行可视化来连接数据文件。这在下面的示例#2中进行进一步详细解释。
另一个挑战涉及可以执行的分析比较。比较极度加剧了上述两个挑战——对N个样品进行成对比较导致(N(N-1))/2次比较(因此N2的性能),但是n-wise比较比这个已经很差的计算性能更差。面对这一挑战,可能会发生一些参数/性状预选择,因为并非所有性状都有用,因为(1)有些被认为是“微不足道的”——细胞太稀少而不值得进一步分析(<0.5%的血统)以及(2)有些基于测定内和纵向可变性对照而变化太大(测定或生物学上)。然而,出于分析目的,留下了关于在n维空间中要关注的位置的任何指导。在没有用于进行有意义比较的手段的情况下,一个答案是关注明显的差异,这些差异可能无法准确反映现实,并且还可能难以以分析严格的方式进行梳理。
本文描述的特征提供了用于跨任何受试者子组来比较复杂的高维数据集的统计上严格的方法,并且首次引入用于高参数数据的诊断深度表型分析方法。
在过去几年中,单细胞测定的内容已大幅增加,但使用这些高参数数据集来执行最基本任务(比较)的能力受到严重限制。就数量级而言,该领域已经从利用巨型双筒望远镜(例如,40倍放大率)观察生物学发展到使用哈勃望远镜(例如,8,000倍放大率)观察生物学,但该领域缺乏任何有意义的方式来比较我们所观察的天体之间的差异。存在可看到和探索的系统和方法,但是这些系统和方法不能做很多有意义的分析工作。
所描述的特征(本文披露了其示例实施例)克服了单细胞生物学的限制。这些特征解锁n维数据以用作诊断工具。所描述的方法可以用于对患者进行分层以进行精准医疗;减少手动分析时间;提供一种快速、可重复地揭示未标识细胞群体的机制;并创造用于比较大型单细胞研究的机会。
根据定义,免疫学家不是系统生物学家,并且作为使用上面示出的“典范”群体的示例,该免疫学家可能在尝试理解疾病或免疫细胞功能时专门深入研究少数可用的细胞类型。这是因为成为许多细胞类型(它们的功能、相互作用和标识)的专家需要时间和培训。
考虑两个真实的示例,这两个示例说明已知/典范群体的这种偏见,并示出对于作为生命科学和精准医疗的推动者的严格比较的明显需要。应该理解这些示例作为对生命科学中的较大问题的说明。
示例1:疫苗研究中的CD8+T细胞
在疫苗接种之后对CD8+T细胞的高参数细胞术研究中,作者将他们的分析和结果局限于典型的CD8+T细胞亚群(Newell等,Cytometry by Time-of-Flight ShowsCombinatorial Cytokine Expression and Virus-Specific Cell Niches within aContinuum of CD8+T Cell Phenotypes Immunity[细胞术实时示出CD8+T细胞表型免疫连续体内的组合细胞因子表达和病毒特异的细胞生态位],2012)。我们进一步分析了这种数据,首先将来自6名不同患者的CD8+T细胞数据连结(例如,组合)在一起。然后,我们使用t-SNE减小了25参数数据空间。
这6名不同患者的连结CD8+T细胞数据明显包括两种不同的免疫特征。我们的实验发现,这6名患者中有4名通过落在传统选通之外的细胞类型(例如,“典范”群体)被区分开。
免疫特征的这种差异说明了目前分析方法的局限性。在精准医疗实施方式中,目前的框架没有提供严格的方法来比较患者的特定免疫特征(例如,CD8+T细胞反应)。这表明使用目前分析技术几乎不可能标识患者之间的差异。这进而限制了标识全体免疫特征的能力,并且因此阻碍了精准医疗的实践。
在发现实施方式中,现有框架没有提供用于提取所有细胞亚群的严格的方法(这可以区分对疫苗的两种完全不同的反应)。细胞类型存在于典范之外的可能性说明了对典范群体的关注如何推动所公开的研究。这还强调了没有工具可以简单地划分两个患者组并“询问数据”这里有什么不同?
示例2:癌症和组织特异性免疫反应中的先天淋巴细胞
在高参数细胞术的另一个示例中,我们进行了一项荟萃分析,该分析比较了三种不同器官(结肠、肝和肺)中的健康组织和肿瘤的免疫反应。
值得注意的是,我们在细胞的单细胞测序中观察到相同的比较问题,其中我们希望严格提取“有适应性的(plastic)”或可能分化成另一个细胞亚群的细胞(由给定颜色的数据点表示),这些细胞似乎是另一个细胞亚群的一部分。
例如,考虑(具有60,000个mRNA和剪接变体的)免疫细胞亚群中847个最大差异表达基因的t-SNE散点图。可以在散点图中使用颜色来表示通过流式细胞术使用“典范”定义的表型。这847个基因可以包括其集群包含物未被典范流定义“预测”的细胞。然而,因为散点图呈现了仅通过颜色区分的表达基因,所以目前不可能以任何严格的自动方式拉出这些不同的细胞。这些细胞可能隐藏在经典范分析的细胞中,从而留下未检测到的潜在显著差异。
因此,如上面的示例所展示的,并非维数灾难[R.E.Bellman,兰德公司(1957年)Dynamic Programming[动态编程],普林斯顿大学出版社;再版:Richard Ernest Bellman(2003)Dynamic Programming[动态编程],Courier Dover出版社;以及Richard ErnestBellman(1961)Adaptive Control Processes:a guided tour[自适应控制过程:导览],普林斯顿大学出版社],扩展的表型窗口(其中每个细胞亚群具有生物学意义并且可能与疾病相关,但可能被专家遗漏)呈现出知识不一致,从而导致已知表型的深度下降并且很少注意到其他细胞亚群。这导致在发现过程中在细胞术的所有水平下(例如“标准”10色测定=1024种可能的感兴趣表型)大量数据处于休眠状态。另外,在无法在样品之间进行比较的情况下,生物学家如何将他们的注意力集中在数据空间中(例如,集中在真正与之相关的表型)并且因此区分/驱动疾病?
然而,收集更多参数并参与这种发现过程并不是“越多越好”的练习,而是找到发病率或治疗效果的相关性才是至关重要的。假设研究人员正在寻找由4个参数(也称为“标记”)的组合定义的在特定免疫反应中是重要的T细胞亚群。当使用少于四个标记时,研究人员将其他不相关的细胞群体包括在我们的分析中,从而削弱了其检测感兴趣细胞的能力。随着使用越来越少的标记,越来越不相关的是所测量的细胞增加了“噪声”并且因此减少了对重要细胞(即与保护相关的细胞)的检测。通常,在进行批量测量时更难找到明显的关联性。然而,先验地找到保护相关性所需的标记数量是未知的。保护性反应几乎肯定包括表达多种功能模式的细胞。因此,通过检查更多细胞上的更多标记,系统可以标识可能与发病率或治疗效果相关的细胞亚群。使用所描述的创新特征,可以标识疾病中新的且意外的引入亚群。
因此,试图利用单细胞技术超越狭窄关注区域进行以发现为重点的研究的科学家面临着一条困难的、非确定性的、不可重复的道路。
存在本领域中可用于对该数据集运行发现分析的一些常规解决方案。一种解决方案是手动分析。手动分析可以包括检查事件数据的可视化图。另一种解决方案可以包括基本统计,诸如K-S、Cox卡方分析。但这可能证明是过于敏感的。此外,统计不提供选通方法,并且通常仅限于单变量分析。
另一种解决方案可以包括转向生物信息学家。在极少数情况下,研究人员将与可以利用其专业技能来分析数据的生物信息学家协作。
另一种方法是使用约简来帮助关注分析多维数据。约简的一个示例是树可视化(SPADE、X-位移、flowSOM)或进展推断(漫游癖、拟时间)。然而,这些约简是不确定性的,并且不提供任何比较特征。如上面所讨论的,PCA是另一种约简选项,但附带验证问题。t-SNE是另一种选择,但上面概述了这种方法存在的问题。例如,在t-SNE数据约简处理中,来自原始数据的信息丢失,但处理尝试尽可能多地保留“相关性”。尽管做出了这些努力,但t-SNE可能会将数据聚集到2个维度,其方式为保持局部区域而非全局区域的相关性,从而有可能忽略潜在的显著差异。
常规方法在许多方面都可能存在问题。本领域需要关于可以如何将计算机技术应用于有意义地标识和可视化大型多参数数据集中的样品之间的显著差异的技术改进。作为这个问题的解决方案,描述了基于频率差选通(FDG)的可视化的特征。
图1展示了可以用于支持本文所描述的创新数据处理和可视化技术的示例计算机系统100。示例计算机系统100包括可以通过诸如总线110等互连技术彼此通信的处理器102、存储器104、数据库106和显示器108。
处理器102可以采用适合于执行本文所描述的操作的任何处理器的形式。例如,膝上型计算机或工作站的CPU可以适合用作处理器102。应当理解,处理器102可以包括多个处理器,这些处理器包括通过网络彼此通信以执行本文所描述的任务(例如,云计算处理资源)的分布式处理器。存储器104可以采用适合于在执行本文所描述的任务时与处理器102协作的任何计算机存储器的形式。应该理解,存储器104可以采用多个存储器设备的形式,这些存储器设备包括跨网络分布的存储器。类似地,数据库106可以采用处理器102可访问的任何数据存储库的形式(例如,计算机上的文件系统,关系数据库等),并且应该理解,数据库106可以采用多个分布式数据库的形式(例如,云存储)。显示器108可以采用能够生成本文所描述的可视化的计算机监视器或屏幕的形式。
本文所描述的特征适用于n维数据集,其可以采用样品数据112的形式(例如,细胞基因表达数据或其他粒子测量数据)。细胞基因表达数据可以通过下一代测序(例如,用于测量RNA测序(RNASeq)和单细胞RNA测序(scRNA-Seq)以及其他测序方法)生成。然而,这仅仅是示例,并且可以采用用于生成细胞基因表达数据的其他技术。附加示例包括聚合酶链式反应方法,这些方法包括数字液滴和逆转录酶。仍更多的示例包括通过以下方式来进行RNA测量:通过产生包含DNA和/或RNA定量的数据文件的流式细胞术、和微阵列等,或者通过对原始读数据进行处理(主要分析和次要分析)以生成基因表达数据文件或其他生物标记的软件程序。
样品数据112可以被表征为大型多参数数据集,该大型多参数数据集在(特别是当考虑到基础生物学时)创建有意义的可视化以使得生物学相关信息以视觉方式被有意义地呈现给用户的难度方面提出了特殊的技术挑战。例如,细胞基因表达数据可以包括大量独立细胞和细胞群体的数据,其中每个细胞或细胞群体的参数可以延伸到10,000至60,000或更多个参数。样品数据112可以从数据库106中的文件中读出并被加载到存储器104中作为在执行分析和可视化程序114期间要由处理器102操纵的多个数据结构116。分析和可视化程序114可以包括采用多个处理器可执行指令形式的处理器可执行计算机代码,这些指令驻留在诸如存储器104等非暂态计算机可读存储介质上。
图2A描绘了细胞基因表达数据集的示例,其中每个细胞(或细胞群体)由与多个参数相关联的细胞ID标识,每个参数都具有与细胞ID相关的ID和值。如所指出的,细胞的基因表达数据是高维的,并且每个细胞的参数数量可以达到每细胞或每细胞群体10,000至60,000或更多个参数。细胞数据中的参数的示例包括受试细胞中大量基因的基因表达的计数。因此,细胞1的参数1可以对应于基因1,并且该参数的值可以是细胞1中基因1的表达的计数。类似地,细胞1的参数2可以对应于基因2,并且该参数的值可以是细胞1中基因2的表达的计数。
图2B描绘了示例细胞基因表达数据的表格视图。表格200中的每一行对应于不同的细胞(参见细胞列),并且标记为基因1、基因2等的各列对应于不同的基因,并且表格单元格标识每个受试细胞中相应基因的基因表达的计数。这个表格还可以包括除基因之外的参数。例如,细胞基因表达数据112可以包括用于每个表格单元格中的诸如t分布随机邻域嵌入(tSNE)、主成分分析(PCA)、线性判别分析(LDA)等参数的数据值,其中这些数据值表示分析计算,该分析计算的值捕获独立细胞跨n个参数的差异。细胞基因表达数据112可以以多种格式中的任何一种存储(例如,作为CSV文件、数据库表格(例如,作为关系数据库中的关系数据)、备用数据表示、二进制格式等)。
图3描绘了频率差选通和可视化的方法的示例过程流程。该方法可以全部或部分地在所描述的一个或多个设备中实施。在一些实施方式中,分析和可视化程序114可以包括用于实施所示出方法的至少一部分的指令。框300至306描述了用于准备样品数据以供分析的选项。
在第一选项下,系统可以接收要在框300处连结以进行交叉样品比较的文件。例如,第一文件可以对应于测试样品,并且第二文件可以对应于对照样品。每个文件对应于多维样品数据,诸如图2A和图2B所示的细胞数据。接收这些文件可以包括从研究员的计算机接收上传的文件。在一些实施方式中,可以从诸如流式细胞仪等粒子分析器接收这些文件。为清楚起见,本讨论涉及两个文件,但是连结可以基于多于两个的文件。
在框300处,系统连结这两个文件。连结这些文件可以包括在表格或包括来自这些文件的样品数据的其他数据结构中生成新参数以指示条目的来源。例如,如果正在使用表格进行连结,则可以填充将样品数据分类地标识为来自第一文件(测试样品)或第二文件(对照样品)的列。
在框302处,系统响应于用户输入而选择所连结文件的子集。这可以是使用界面绘制一个或多个选通,或者基于分类变量(例如疾病状态)对样品和/或样品的后续数据进行子集化。可以从用户界面接收值并由系统处理这些值以标识适当的子集。例如,当用户在经由用户界面呈现的图上绘制选通时,选通内包括的事件可以与所连结文件的子集相关联。
在框306处,系统对来自一个文件的两个不同群体或者对通过联结用于比较的数据文件而构建的汇总文件执行数据约简操作。在这两种情况下,数据约简都是在一个数据集/数据矩阵上执行,而不是单独地运行。示例数据约简操作是t-SNE数据约简。可以执行的数据约简操作的附加示例包括主成分分析(PCA)、线性判别分析(LDA)和局部切线空间排列(LTSA)。数据约简操作产生第一数据集和第二数据集的新参数(例如,表格200中的细胞的tSNE值)。然后,多维数据准备好用于如下面所讨论的从框308开始的比较分析。如果数据文件至少已经具有作为数据约简的结果的参数,则不需要执行框306。
在第二选项下,用户在框304处标识一个样品内的选通或群体。这允许用户比较地分析单一样品内的不同群体(与如框302至304的交叉样品分析相反)。然后可以在已经标识了选通/群体之后执行框306,这产生了准备好用于从框308开始的比较分析的多维数据。
在框308处,处理器响应于用户输入而选择n维数据的n个子集以进行比较。作为示例,n可以是2,由此定义子集A和子集B。这些子集可以对应于要经由频率差选通进行比较地评估的第一数据集和第二数据集。例如,子集选择可以基于分类变量来进行,这些分类变量诸如标识样品数据是用于测试群体还是对照群体(例如,癌症群体与健康群体)的参数。然而,应该理解,可以基于n维数据中的任何参数(例如,由框300产生的癌症组织与健康组织参数)来定义这些子集。
接下来,在框310处,处理器从子集A和子集B中选择n个参数以定义用于比较子集A和子集B的基础。作为示例,n可以是2。所选参数可以是存在于n维数据中的参数、从n维数据导出的参数、和/或由其他数据约简方法产生的参数。分布可以来自不同的样品,但也可以来自相同样品的共享用于比较的n个参数的子集。
接下来,在框311处,处理器生成二元频率估算量,这通过计算每个比较器样品的二维直方图来完成。直方图通过事件计数来归一化,并且通常但不一定使用可变宽度核平滑来平滑化,该可变宽度核平滑与用于生成平滑化轮廓或伪彩色图的平滑相同。
在框312处,处理器计算直方图中的每个元素(例如,区间)的两个差异直方图。正值指示该区域在第一比较器中具有更多事件;负值指示该区域在第二比较器中具有更多事件。
接下来,在框313处,差异直方图被双归一化,其中,与在第一比较器中具有更多事件的区域相对应的大于0的值被重新缩放为从0到100(使得直方图中的最大差异现在是100)。与在第二比较器中具有更多事件的区域相对应的小于0的值类似地被重新缩放为从0到-100。应该理解,在生成并比较多个差异直方图的批量分析中,用户可以选择全局正负重新缩放因子以应用于所有直方图从而获得更好的可比性。
接下来,在框314处,使用热图渲染(将颜色映射到差异程度)来绘制所得到的直方图,但是应该理解,这可以包括经由显示设备使用其他显示类型进行渲染。在框314处,处理器生成根据二元分布对子集A与子集B之间的差异进行可视化的可视化。这是一种强大的新可视化,其为用户提供了本领域常规系统所不可获得的对多参数数据集的新见解。可视化提供了为子集A和子集B选择的群体的叠加。这个叠加可以被颜色编码以在视觉上指示从子集A相对于子集B最频繁填充的区域(例如,颜色1)以及从子集B相对于子集A最频繁填充的区域(例如,颜色2)。
图4A示出了这种可视化的示例。图4A示出了在参数空间(t-SNE P 1/2与t-SNE P2/2)中叠加了两个样品(子集A:HD血液;子集B:患者血液)的图。图中的频率差选通根据定义的阈值揭示了子集A中的事件频率相对于子集B中的事件频率更高的区域(例如,图4A中的500)以第一颜色/着色(例如,蓝色)示出,并且图中的频率差选通根据定义的阈值揭示了子集B中的事件频率相对于子集A中的事件频率更高的区域(图4A中的502)以第二颜色/着色(例如,红色)示出。颜色编码可以根据频率差的大小来调节上色/着色的强度,如由可视化的图例504所指示的。
频率差选通的定义的阈值可以是固定的阈值,或者它们可以是可调整的阈值。例如,可视化可以是用户能够经由输入510和512来调整(多个)定义的阈值的交互式可视化。在图4A的示例中,用户可以经由输入510定义高选通边界(在子集A中比在子集B中更频繁)的阈值。具体地,对于选通(子集选择),用户输入一系列差异值以包括在该区域中。例如,从0到100(最大)将选择在第一比较器中事件更频繁的所有区域。可以使用更严格的值来选择更大差异的区域。在图4A的示例中,用户还可以经由输入512定义低选通边界(在子集B中比在子集A中更频繁)的阈值。然而,还应该理解,可以使用单一阈值,在这种情况下,选通是“在子集A中更频繁”或“在子集B中更频繁”之间的二元选择,但是本发明人认为如图4A所示的多个阈值可以提供对数据的生物学性质的更深见解。
基于这种可视化,在图3的框315处,用户可以基于所呈现的频率差来选择是否创建任何选通。用户输入区域514允许用户在选择“创建选通”按钮516时标识多个选通中的哪一个可以从数据中创建。区域514中的选择包括(1)“创建上限选通”选项,该选项选通在第一比较器中事件更频繁的区域(0至100),使用字段510来设置,可以使用更严格的值来选择更大差异的区域;(2)“创建下限选通”选项,该选项选通在第二比较器中事件更频繁的区域(0至-100),使用512来设置,可以使用更严格的值来选择更大差异的区域;以及(3)“创建中间范围选通”选项,该选项选通落在上限选通和下限选通之外的区域。这些不同的选通区域可以向用户提供对数据的不同见解,因为以某种方式不同(例如,更高或更低的事件频率)或以某种方式相同的区域对于用户而言可能是在生物学上感兴趣的。
图4B示出了可以如何基于用户输入来交互地调整可视化的示例。在图4B中,用户已经选择了用于控制图的选项以仅示出定义的选通区域,在这种情况下,在第一比较器中事件更频繁的定义的上限选通等于(100中的)20,并且在第二比较器中更频繁的事件被设置为(-100中的)-20。这产生了经颜色编码/着色的区域(例如,500/502),如图4B所示。
对可视化的交互式控制的附加示例可以包括灵敏度控制和特异性控制。如果每个比较器包括一组受试者(例如,第一比较器本身由来自n个受试者的子集组成),则仅计算三个统计数据——特异性、灵敏度、p值。然后,可以计算关于每个受试者中的什么分数的事件落入所选区域的统计数据。这些用于灵敏度计算和特异性计算。尽管未示出,但是计算了P值,这是学生对在对第1组受试者与第2组受试者的选通中的事件分数的T检验。灵敏度控制可以管控被比较群体中的什么分数的事件将在创建选通时出现在所创建的选通中,如在图4C中示出为滑块控件520。特异性控制可以管控选通中的什么分数的事件来自被比较群体——例如,选通的“纯度”,如在图4C中示出为滑块控件521。
在区域514和按钮516中选择了选通选择后,系统生成与定义的选通相对应的数据集(框320)。然后可以对这些定义的选通进行进一步聚类或子集化,以探索n个样品之间的所有差异。另外,可以探索选通以得到这些选通的用于表达基因蛋白质的其他参数,以标识构成这些群体的细胞亚群。由所创建的选通定义的细胞亚群/事件子集可以附加到对照群体。
因此,应当理解,本文所描述的频率差选通技术为用户提供了探索复杂的多变量分布并基于多次测量来定量样品之间的差异的强大工具。这种工具允许用户生成本领域常规系统所不可获得的对大型多参数集的见解。例如,频率差选通提供了用于快速标识多变量空间中事件的频率在样品之间在统计上显著不同的区域的无偏见工具。这些标识的区域可以以多种有用的方式中的任何一种使用,包括但不限于(1)标识对刺激进行响应的细胞,以及(2)标识表型或表示中的疾病相关联差异。而且,可以将频率差选通应用于其他样品以定量“响应者”的数量。
通过这些和其他特征,本发明的示例实施例在所应用的生物信息学领域中提供了显著的技术进步。
如本文所使用的,下面具体阐述的术语具有以下定义。除非在此部分中另有定义,否则本文使用的所有术语具有与本发明所属领域的技术人员通常理解的含义。
如本文所使用的,“系统(system)”、“仪器(instrument)”、“装置(apparatus)”和“设备(device)”通常涵盖硬件部件(例如,机械的和电子的)、以及在一些实施方式中涵盖相关联的软件组件(例如,用于图形控制的专用计算机程序)两者。
如本文所使用的,“事件(event)”通常是指从单一粒子(诸如细胞或合成粒子)测得的数据包。通常,从单一粒子测得的数据包括多个参数,这些参数包括一个或多个光散射参数、以及从该粒子中检测到的荧光导出的至少一个参数或特征(诸如荧光的强度)。因此,每个事件被表示为测量和特征的向量,其中,每个测得的参数或特征对应于数据空间的一个维度。在一些实施例中,从单一粒子测得的数据可以包括图像数据、电气数据、时间数据或声学数据。在一些生物学应用中,事件数据可以对应于指示特定蛋白质或基因的表达的定量生物学数据。
如本文所使用的,粒子(诸如细胞或其他粒子)的“群体”或“子群体”通常是指具有关于一个或多个测得参数的性质(例如,光学性质、阻抗性质或时间性质)的一组粒子,使得测得的参数数据在数据空间中形成集群。因此,群体在数据中被识别为集群。相反,每个数据集群通常被解释为对应于特定类型的细胞或粒子的群体,但通常还观察到对应于噪声或背景的集群。可以在维度的子集(例如,关于测得的参数的子集)中定义集群,该子集对应于与仅在从细胞或粒子的测量结果中提取的测得参数或特征的子集中的群体不同的群体。
如本文所使用的,“选通”通常是指标识感兴趣数据的子集的分类器边界。在细胞术中,选通可以界定一组特别感兴趣的事件。如本文所使用的,“选通”通常是指使用针对给定数据集定义的选通对数据进行分类的过程,其中选通可以是在一些情况下使用布尔逻辑来组合的一个或多个感兴趣区域。
如本文所使用的,“事件”通常是指从单一粒子(诸如细胞或合成粒子)测得的组装数据包。通常,从单一粒子测得的数据包括多个参数或特征,这些参数或特征包括一个或多个光散射参数或特征、以及从测得的荧光中导出的至少一个其他参数或特征。因此,每个事件被表示为参数测量结果和特征测量结果的向量,其中,每个测得的参数或特征对应于数据空间的一个维度。
如本文所使用的,术语“确定(determine)”或“确定(determining)”涵盖各种各样的动作。例如,“确定(determining)”可以包括计算(calculating)、计算(computing)、处理、导出、调查、查找(例如,在表格、数据库或另一数据结构中查找)、确认等。而且,“确定(determining)”可以包括接收(例如,接收信息)、访问(例如,访问存储器中的数据)等。而且,“确定(determining)”可以包括解析、选择(selecting)、选择(choosing)、建立等。
如本文所使用的,术语“提供(provide)”或“提供(providing)”涵盖各种各样的动作。例如,“提供(providing)”可以包括将值存储在某个位置中以供后续检索、将值直接传输给接收者、传输或存储对值的引用等。“提供(providing)”还可以包括编码、解码、加密、解密、验证(validating)、验证(verifying)等。
如本文所使用的,术语“选择性地(selectively)”或“选择性(selective)”可以涵盖各种各样的动作。例如,“选择性”过程可以包括从多个选项中确定一个选项。“选择性”过程可以包括以下各项中的一项或多项:动态确定的输入、预先配置的输入或者用于进行确定的用户发起的输入。在一些实施方式中,可以包括n输入开关以提供选择性功能,其中n是用于进行选择的输入的数量。
如本文所使用的,术语“消息(message)”涵盖用于传送(例如,传输或接收)信息的各种各样的格式。消息可以包括机器可读的信息聚合,诸如XML文档、固定字段消息、逗号分隔消息等。在一些实施方式中,消息可以包括用于传输信息的一个或多个表示的信号。虽然以单数形式叙述,但是应该理解,消息可以以多个部分构成、传输、存储、接收等。
如本文所使用的,指代项目列表中的“至少一个”的短语是指那些项目的任何组合(包括单一成员)。作为示例,“a、b或c中的至少一个(at least one of:a,b,or c)”旨在涵盖:a、b、c、a-b、a-c、b-c和a-b-c。
本领域技术人员将理解,可以使用各种不同技术和技艺中的任何一种来表示信息、消息和信号。例如,贯穿以上说明书,可以引用的数据、指令、命令、信息、信号、位、符号和芯片可以由电压、电流、电磁波、磁场或粒子、光场或粒子、或其任何组合来表示。
本领域技术人员将进一步认识到可以将结合本文所披露的实施例所描述的各种说明性的逻辑块、模块、电路、和算法步骤实施为电子硬件、计算机软件、或二者的组合。为了清楚地说明硬件和软件的这种可交换性,上文通常在其功能方面对各种说明性的部件、框、模块、电路和步骤进行了描述。将这样的功能实施为硬件还是软件取决于在整体系统上强加的具体应用和设计约束条件。熟练的技术人员可以对每个具体应用以不同方式来实施所描述的功能,但是这种实施方式决策不应被解释为导致脱离本发明的范围。
本文所描述的技术可以在硬件、软件、固件或其任何组合中实施。这些技术可以在各种设备的任一种设备中实施,诸如专门编程的事件处理计算机、无线通信设备或集成电路设备。被描述为模块或部件的任何特征可以在集成逻辑设备中一起实施,或者作为分立但可互操作的逻辑设备而单独实施。如果在软件中实施,则这些技术可以至少部分地由包括程序代码的计算机可读数据存储介质实现,该程序代码包括当被执行时执行上述方法中的一种或多种方法的指令。计算机可读数据存储介质可以形成计算机程序产品的一部分,该计算机程序产品可以包括封装材料。计算机可读介质可以包括存储器或数据存储介质,诸如随机存取存储器(RAM)(诸如同步动态随机存取存储器(SDRAM))、只读存储器(ROM)、非易失性随机存取存储器(NVRAM)、电可擦除可编程只读存储器(EEPROM)、FLASH存储器、磁性或光学数据存储介质等。计算机可读介质可以是非暂态存储介质。另外地或可替代地,这些技术可以至少部分地由计算机可读通信介质(诸如传播的信号或波)实现,该计算机可读通信介质以指令或数据结构的形式承载或传送程序代码、并且可以由计算设备访问、读取和/或执行。
程序代码可以由专门编程的图形处理器执行,该处理器可以包括一个或多个处理器,诸如一个或多个数字信号处理器(DSP)、可配置的微处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他等效的集成或分立逻辑电路系统。这样的图形处理器可以被专门配置用于执行本披露内容中描述的任何技术。计算设备的组合(例如,DSP与微处理器的组合)、多个微处理器、一个或多个微处理器结合DSP核、或者至少部分数据连接中的任何其他此类配置可以实施所描述的一个或多个特征。因此,如本文所使用的,术语“处理器(processor)”可以是指任何前述结构、前述结构的任何组合、或者适合于实施本文所描述的技术的任何其他结构或装置。另外,在一些方面,可以在被配置用于编码和解码的专用软件模块或硬件模块内提供本文所描述的功能,或者将本文所描述的功能并入专用图形控制卡中。
本文所披露的方法包括用于实现所描述的方法的一个或多个步骤或动作。在不脱离权利要求的范围的情况下,这些方法步骤和/或动作可以彼此互换。换言之,除非指定了特定的步骤或动作顺序,否则可以在不脱离权利要求的范围的情况下修改特定步骤和/或动作的顺序和/或用途。
已经描述了本发明的各种实施例。这些和其他实施例处于以下权利要求的范围内。
Claims (20)
1.一种对n维数据集之间的差异进行可视化的计算机实施的方法,该计算机实施的方法包括:
在一个或多个处理设备的控制下,
连结n维数据的第一数据集和n维数据的第二数据集以获得连结的数据集,其中,该n维数据包括多个维度上的多个事件;
对所述连结的数据集执行降维以获得所述第一数据集和所述第二数据集中的事件的映射;
对所述事件的映射执行频率差选通;以及
从所述频率差选通生成可视化以经由显示设备进行显示,该可视化根据定义的阈值示出了多变量空间中来自该第一数据集的事件的频率不同于来自该第二数据集的事件的频率的区域。
2.如权利要求1所述的计算机实施的方法,其中,该第一数据集和该第二数据集包括多参数细胞样品数据。
3.如权利要求1所述的计算机实施的方法,进一步包括:
响应于用户输入来调整该定义的阈值;以及
基于调整后的定义的阈值来调整该可视化。
4.如权利要求1所述的计算机实施的方法,其中,该定义的阈值包括多个定义的阈值。
5.如权利要求1所述的计算机实施的方法,其中,生成该可视化包括至少部分地基于该频率差选通来对这些区域进行颜色编码。
6.如权利要求1所述的计算机实施的方法,其中,该定义的阈值包括上限阈值,该上限阈值标识被分类为来自该第一数据集的事件的频率大于来自该第二数据集的事件的频率的一个或多个区域。
7.如权利要求1所述的计算机实施的方法,其中,该定义的阈值包括下限阈值,该下限阈值标识来自该第二数据集的事件的频率大于来自该第一数据集的事件的频率的一个或多个区域。
8.如权利要求1所述的计算机实施的方法,其中,该定义的阈值包括中间范围边界,该中间范围边界标识在该第一数据集与该第二数据集之间具有相似的事件频率的一个或多个区域。
9.如权利要求1所述的计算机实施的方法,其中,执行频率差选通包括:
根据该第一数据集和该第二数据集内的多个定义的分布中的每一个分布的二元频率估算量,生成每维度具有多个区间的多维直方图。
10.如权利要求9所述的计算机实施的方法,其中,执行频率差选通进一步包括:
通过事件计数对该直方图进行归一化。
11.如权利要求9所述的计算机实施的方法,其中,执行频率差选通进一步包括:
针对归一化直方图中的每个元素生成差异直方图。
12.如权利要求11所述的计算机实施的方法,其中,执行频率差选通进一步包括:
处理器对这些差异直方图进行双归一化。
13.如权利要求12所述的计算机实施的方法,其中,生成该可视化包括:
对这些双归一化差异直方图的热图进行渲染。
14.如权利要求1所述的计算机实施的方法,进一步包括:
基于由用户通过该可视化定义的至少一个选通来生成第三数据集。
15.如权利要求1所述的计算机实施的方法,其中,该第一数据集包括对照样品。
16.如权利要求15所述的计算机实施的方法,其中,该对照样品对应于来自健康物质的细胞数据。
17.如权利要求15所述的计算机实施的方法,其中,该对照样品对应于来自癌性物质的细胞数据。
18.一种对n维数据集之间的差异进行可视化的系统,包括:
一个或多个处理设备;以及
计算机可读存储介质,该计算机可读存储介质包括指令,这些指令当由该一个或多个处理设备执行时使该系统进行以下操作:
接收用于频率差选通的阈值;
接收n维数据的包括多个维度上的第一多个事件的第一数据集;
接收n维数据的包括至少该多个维度上的第二多个事件的第二数据 集;
连结所述第一数据集和所述第二数据集以获得连结的数据集;
对所述连结的数据集执行降维以获得所述第一数据集和所述第二数据集中的事件的映射;
至少部分地基于对所述事件的映射执行的频率差选通来标识定义事件群体的频率差选通,该选通根据该阈值标识多变量空间中来自该第一数据集的事件的频率不同于来自该第二数据集的事件的频率的区域;以及
使得显示包括来自该第一数据集和该第二数据集的被包括在由该频率差选通定义群体中的事件的表示的可视化,该可视化根据该阈值示出了该多变量空间中来自该第一数据集的事件的频率不同于来自该第二数据集的事件的频率的区域。
19.如权利要求18所述的系统,其中,该阈值包括以下各项中的至少一项:
上限阈值,该上限阈值标识被分类为来自该第一数据集的事件的频率大于来自该第二数据集的事件的频率的一个或多个区域;
下限阈值,该下限阈值标识来自该第二数据集的事件的频率大于来自该第一数据集的事件的频率的一个或多个区域;或者
中间范围边界,该中间范围边界标识在该第一数据集与该第二数据集之间具有相似的事件频率的一个或多个区域。
20.如权利要求18所述的系统,其中,该计算机可读存储介质包括指令,这些指令当由该一个或多个处理设备执行时使该系统至少通过以下方式来标识该频率差选通:
根据该第一数据集和该第二数据集内的多个定义的分布中的每一个分布的二元频率估算量,生成每维度具有多个区间的多维直方图。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201762511342P | 2017-05-25 | 2017-05-25 | |
US62/511,342 | 2017-05-25 | ||
PCT/US2018/034199 WO2018217933A1 (en) | 2017-05-25 | 2018-05-23 | Visualization, comparative analysis, and automated difference detection for large multi-parameter data sets |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110462372A CN110462372A (zh) | 2019-11-15 |
CN110462372B true CN110462372B (zh) | 2022-06-14 |
Family
ID=62621023
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880022546.3A Active CN110462372B (zh) | 2017-05-25 | 2018-05-23 | 大型多参数数据集的可视化、比较分析和自动差异检测 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11573182B2 (zh) |
EP (1) | EP3631417B1 (zh) |
JP (1) | JP7194119B2 (zh) |
CN (1) | CN110462372B (zh) |
WO (1) | WO2018217933A1 (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10616219B2 (en) | 2014-12-11 | 2020-04-07 | FlowJo, LLC | Single cell data management and analysis systems and methods |
EP3956649A4 (en) | 2019-04-19 | 2023-01-04 | Becton, Dickinson and Company | UNDERSAMPLING FLOW CYTOMETRIC EVENT DATA |
CN114270174A (zh) | 2019-08-28 | 2022-04-01 | 文塔纳医疗系统公司 | 使用振动光谱对生物标志物表达进行无标记评估 |
EP3922980B1 (en) * | 2020-06-12 | 2022-08-10 | Sartorius Stedim Data Analytics AB | Computer-implemented method, computer program product and system for data analysis |
CN112001410A (zh) * | 2020-07-06 | 2020-11-27 | 北京农业信息技术研究中心 | 一种振动光谱维数约简方法及系统 |
WO2024072782A1 (en) * | 2022-09-28 | 2024-04-04 | Beckman Coulter, Inc. | Flow cytometry waveform processing |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101385062A (zh) * | 2006-02-21 | 2009-03-11 | 生物辐射实验室股份有限公司 | 重叠密度(od)热图及一致性数据显示 |
CN101790713A (zh) * | 2007-04-17 | 2010-07-28 | 番石榴技术公司 | 用于位置特定的多参数数据集的分析和比较的图形用户界面 |
CN103562920A (zh) * | 2011-03-21 | 2014-02-05 | 贝克顿迪金森公司 | 混合模型密度设门中的邻域阈值选取 |
CN104969056A (zh) * | 2013-02-01 | 2015-10-07 | 贝克顿迪金森公司 | 评估流式细胞仪中样品行为的方法和系统 |
Family Cites Families (97)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6231815A (ja) * | 1985-08-02 | 1987-02-10 | Hitachi Ltd | 焦点位置検出装置 |
JPS63259442A (ja) * | 1987-04-15 | 1988-10-26 | Omron Tateisi Electronics Co | 細胞分析装置 |
US4845653A (en) | 1987-05-07 | 1989-07-04 | Becton, Dickinson And Company | Method of displaying multi-parameter data sets to aid in the analysis of data characteristics |
EP0554447B1 (en) | 1991-08-28 | 1997-04-09 | Becton, Dickinson and Company | Gravitational attractor engine for adaptively autoclustering n-dimensional data streams |
US5739000A (en) | 1991-08-28 | 1998-04-14 | Becton Dickinson And Company | Algorithmic engine for automated N-dimensional subset analysis |
JP3130628B2 (ja) * | 1992-01-30 | 2001-01-31 | シスメックス株式会社 | 粒子判定装置 |
US5556764A (en) | 1993-02-17 | 1996-09-17 | Biometric Imaging, Inc. | Method and apparatus for cell counting and cell classification |
US6014904A (en) | 1996-05-09 | 2000-01-18 | Becton, Dickinson And Company | Method for classifying multi-parameter data |
DE69823206T2 (de) | 1997-07-25 | 2004-08-19 | Affymetrix, Inc. (a Delaware Corp.), Santa Clara | Verfahren zur herstellung einer bio-informatik-datenbank |
US6221592B1 (en) | 1998-10-20 | 2001-04-24 | Wisconsin Alumi Research Foundation | Computer-based methods and systems for sequencing of individual nucleic acid molecules |
DE69939366D1 (de) | 1999-04-12 | 2008-10-02 | Ibm | Verfahren und Vorrichtung zur Verbesserung der gesamten Netzwerksantwortzeit beim Dateienaustausch zwischen Telnet 3270 Server und Telnet 3270 Klienten |
WO2001054045A2 (en) | 2000-01-21 | 2001-07-26 | Lion Bioscience Ag | Data analysis software |
US6769030B1 (en) | 2000-02-07 | 2004-07-27 | International Business Machines Corporation | Method and apparatus to evaluate and measure the optimal network packet size for file transfer in high-speed networks |
CA2303739C (en) | 2000-04-04 | 2009-06-30 | Webhancer Corporation | Method and system for managing performance of data transfers for a data access system |
US6944338B2 (en) | 2000-05-11 | 2005-09-13 | Becton Dickinson And Company | System for identifying clusters in scatter plots using smoothed polygons with optimal boundaries |
US7010582B1 (en) | 2000-06-26 | 2006-03-07 | Entrust Limited | Systems and methods providing interactions between multiple servers and an end use device |
US6560546B1 (en) | 2000-08-07 | 2003-05-06 | Infrasoft Llc | Remote analysis system |
NZ506411A (en) | 2000-08-17 | 2003-05-30 | Compudigm Int Ltd | Translation of data streams between protocols for transmission through firewalls |
US20050239125A1 (en) | 2000-09-06 | 2005-10-27 | Hodge Timothy A | Methods for genotype screening |
US7494817B2 (en) | 2000-09-06 | 2009-02-24 | Transnet Yx, Inc. | Methods for genotype screening using magnetic particles |
US20050272085A1 (en) | 2000-09-06 | 2005-12-08 | Hodge Timothy A | Methods for forensic and congenic screening |
US6717593B1 (en) | 2000-09-12 | 2004-04-06 | Avaya Technology Corp. | Mark-up language implementation of graphical or non-graphical user interfaces |
US7043500B2 (en) | 2001-04-25 | 2006-05-09 | Board Of Regents, The University Of Texas Syxtem | Subtractive clustering for use in analysis of data |
US20030078703A1 (en) | 2001-10-19 | 2003-04-24 | Surromed, Inc. | Cytometry analysis system and method using database-driven network of cytometers |
US7472342B2 (en) | 2001-10-24 | 2008-12-30 | Bea Systems, Inc. | System and method for portal page layout |
US7584240B2 (en) | 2001-11-07 | 2009-09-01 | Genvault Corporation | Automated biological sample archive for storage, retrieval and analysis of large numbers of samples for remote clients |
US20040161767A1 (en) | 2002-06-28 | 2004-08-19 | Baldwin Brett R. | Detection and quantification of aromatic oxygenase genes by real-time PCR |
US7865534B2 (en) | 2002-09-30 | 2011-01-04 | Genstruct, Inc. | System, method and apparatus for assembling and mining life science data |
US7217807B2 (en) | 2002-11-26 | 2007-05-15 | Rosetta Genomics Ltd | Bioinformatically detectable group of novel HIV regulatory genes and uses thereof |
US7194531B2 (en) | 2002-12-02 | 2007-03-20 | International Business Machines Corporation | System and method for determining the availability of a web page |
US7850912B2 (en) | 2003-05-14 | 2010-12-14 | Dako Denmark A/S | Method and apparatus for automated pre-treatment and processing of biological samples |
JP3917625B2 (ja) | 2003-02-14 | 2007-05-23 | 富士通株式会社 | データ解析装置 |
US7496953B2 (en) | 2003-04-29 | 2009-02-24 | International Business Machines Corporation | Single sign-on method for web-based applications |
US20040242216A1 (en) | 2003-06-02 | 2004-12-02 | Nokia Corporation | Systems and methods for transferring data between mobile stations |
DE10344764B4 (de) | 2003-09-26 | 2006-04-13 | Siemens Ag | Verfahren zum Übermitteln von Informationen |
US7100427B2 (en) | 2004-05-07 | 2006-09-05 | Sensicore, Inc. | Multi-sensor system for fluid monitoring with selective exposure of sensors |
JP2005352771A (ja) | 2004-06-10 | 2005-12-22 | Hitachi Software Eng Co Ltd | 発現プロファイルによるパターン認識システム |
CA2579150C (en) | 2004-09-17 | 2014-11-25 | Pacific Biosciences Of California, Inc. | Apparatus and method for analysis of molecules |
JP4649231B2 (ja) | 2005-02-28 | 2011-03-09 | 株式会社カネカ | フローサイトメータ、細胞の解析方法、細胞解析プログラム、蛍光検出器の感度設定方法および陽性率判定法における基準ゲート設定方法 |
JP2009500734A (ja) | 2005-07-05 | 2009-01-08 | コニンクリーケ・ケイピーエヌ・ナムローゼ・フェンノートシャップ | オンライン・ストリーミング・コンテンツに対する集中アクセス許可方法およびシステム |
US7941561B2 (en) | 2005-07-15 | 2011-05-10 | Elias Assad | System and method for communications over a computer network |
WO2007044894A2 (en) | 2005-10-11 | 2007-04-19 | Chembridge Research Laboratories, Inc. | Cell-free protein expression systems and methods of use thereof |
EP1952098A2 (en) | 2005-11-16 | 2008-08-06 | Sensicore, Inc. | Systems and methods for fluid quality sensing, data sharing and data visualization |
US20080109175A1 (en) | 2006-08-30 | 2008-05-08 | Sensicore, Inc. | Systems and methods for dynamic monitoring of fluid movement in a fluid distribution network using controlled concentration pulses of additives |
US20080097917A1 (en) | 2006-10-24 | 2008-04-24 | Kent Dicks | Systems and methods for wireless processing and medical device monitoring via remote command execution |
US20080154513A1 (en) | 2006-12-21 | 2008-06-26 | University Of Virginia Patent Foundation | Systems, Methods and Computer Program Codes for Recognition of Patterns of Hyperglycemia and Hypoglycemia, Increased Glucose Variability, and Ineffective Self-Monitoring in Diabetes |
US20080212643A1 (en) | 2007-03-02 | 2008-09-04 | Mcgahhey D David | Temperature monitoring device |
WO2009036391A2 (en) | 2007-09-12 | 2009-03-19 | Proximetry, Inc. | Systems and methods for delivery of wireless data and multimedia content to aircraft |
WO2009097364A1 (en) | 2008-01-29 | 2009-08-06 | Pergenix Llc | Method and system for delivering clinical lab quality and professional interpretation to home and clinic testing |
WO2009100410A2 (en) | 2008-02-08 | 2009-08-13 | Health Discovery Corporation | Method and system for analysis of flow cytometry data using support vector machines |
AU2009222181B2 (en) | 2008-02-29 | 2014-12-04 | Northwestern University | Barriers for facilitating biological reactions |
WO2009146036A2 (en) | 2008-04-01 | 2009-12-03 | Purdue Research Foundation | Quantification of differences between measured values and statistical validation based on the differences |
US8731844B2 (en) | 2008-05-16 | 2014-05-20 | Leonore A. Herzenberg | System and method for selecting a multiparameter reagent combination and for automated fluorescence compensation |
US8548950B2 (en) | 2008-05-22 | 2013-10-01 | The Board Of Trustees Of The Leland Stanford Junior University | Method and system for data archiving |
EP2131271A1 (en) | 2008-06-04 | 2009-12-09 | NEC Corporation | Method for enabling a mobile user equipment to drag and drop data objects between distributed applications |
GB2474613A (en) | 2008-07-10 | 2011-04-20 | Nodality Inc | Methods and apparatus related to management of experiments |
US8806607B2 (en) | 2008-08-12 | 2014-08-12 | Verizon Patent And Licensing Inc. | Unauthorized data transfer detection and prevention |
EP2347352B1 (en) | 2008-09-16 | 2019-11-06 | Beckman Coulter, Inc. | Interactive tree plot for flow cytometry data |
US8214323B2 (en) | 2008-09-16 | 2012-07-03 | Beckman Coulter, Inc. | Extensible data warehouse for flow cytometry data |
WO2010043996A2 (en) | 2008-10-13 | 2010-04-22 | Koninklijke Philips Electronics N.V. | Contrast enhancement of images |
WO2010118124A2 (en) | 2009-04-07 | 2010-10-14 | Reveal Sciences, Llc | Device, method, and apparatus for biological testing with a mobile device |
US8835358B2 (en) | 2009-12-15 | 2014-09-16 | Cellular Research, Inc. | Digital counting of individual molecules by stochastic attachment of diverse labels |
US20160130574A1 (en) | 2009-12-23 | 2016-05-12 | Merck Sharp & Dohme Corp. | Methods of measuring gene expression in facs-sorted cells |
KR101948941B1 (ko) | 2010-01-22 | 2019-04-22 | 다우 아그로사이언시즈 엘엘씨 | 식물에서 유전자 표적화를 위한 조작된 랜딩 패드 |
US20120029832A1 (en) | 2010-07-27 | 2012-02-02 | Dodgson John R | Apparatus and method for distribution of biological material |
US20120140641A1 (en) | 2010-12-03 | 2012-06-07 | Kevin Reese | Methods, apparatus and articles of manufacture to test home networks |
US20120179779A1 (en) | 2011-01-12 | 2012-07-12 | Dolphin Enterprise Solutions Corporation d/b/a Dolphin | System and method for data storage and retrieval |
JP5686010B2 (ja) | 2011-03-18 | 2015-03-18 | 富士通株式会社 | センサ値取得方法、センサ制御装置、センサ制御方法、センサ制御プログラムおよび取得間隔制御プログラム |
GB201105474D0 (en) | 2011-03-31 | 2011-05-18 | Albagaia Ltd | Testing apparatus |
US8889424B2 (en) | 2011-09-13 | 2014-11-18 | Joel R. L. Ehrenkranz | Device and method for performing a diagnostic test |
WO2013051065A1 (en) | 2011-10-06 | 2013-04-11 | Hitachi, Ltd. | File aggregation method and information processing system using the same |
US8886615B2 (en) | 2011-11-08 | 2014-11-11 | Xerox Corporation | Web service performance optimization by adaptively using compression |
US9747424B2 (en) | 2011-11-18 | 2017-08-29 | Transparency Life Science, Llc | Systems and methods for drug development |
EP2802871B1 (en) | 2012-01-11 | 2022-07-27 | Takeda Pharmaceutical Company Limited | Characterization of subvisible particles using a particle analyzer |
US20120214190A1 (en) | 2012-02-20 | 2012-08-23 | Wanqiu Hou | System and method based on blood components for estimating human physiological parameters |
US20130226813A1 (en) | 2012-02-23 | 2013-08-29 | Robert Matthew Voltz | Cyberspace Identification Trust Authority (CITA) System and Method |
DE202012101167U1 (de) | 2012-03-30 | 2013-07-01 | Seramun Diagnostica Gmbh | Vorrichtung zum Bestimmen von Proben in einer Probenvolumenanordnung und Ständer für die Vorrichtung |
US9734280B2 (en) | 2012-04-27 | 2017-08-15 | Labthink Instruments Co., Ltd. | Plastic packaging materials testing system based on internet of things and cloud technology |
US10467594B2 (en) | 2012-08-03 | 2019-11-05 | Label Independent, Inc. | Systems and methods for designing, developing, and sharing assays |
US9241663B2 (en) | 2012-09-05 | 2016-01-26 | Jana Care Inc. | Portable medical diagnostic systems and methods using a mobile device |
US9219719B1 (en) | 2012-09-21 | 2015-12-22 | Google Inc. | Automatic dynamic vetting of browser extensions and web applications |
GB2508004A (en) | 2012-11-16 | 2014-05-21 | Chris Hagan | Wireless access point for transmitting downloads with means to encourage mobile devices into close proximity whilst downloading |
US20140164564A1 (en) | 2012-12-12 | 2014-06-12 | Gregory John Hoofnagle | General-purpose importer for importing medical data |
US20140222866A1 (en) | 2013-02-01 | 2014-08-07 | Google Inc. | Accessing objects in hosted storage |
ES2625744T3 (es) | 2013-06-04 | 2017-07-20 | Bayer Pharma Aktiengesellschaft | Imidazo[1,2-a]piridinas sustituidas con 3-arilo y su uso |
KR20230074639A (ko) | 2013-08-28 | 2023-05-30 | 벡톤 디킨슨 앤드 컴퍼니 | 대량의 동시 단일 세포 분석 |
WO2015057671A1 (en) | 2013-10-14 | 2015-04-23 | The Broad Institute, Inc. | Artificial transcription factors comprising a sliding domain and uses thereof |
US10027731B2 (en) | 2013-10-25 | 2018-07-17 | Louis Gurtowski | Selective capture with rapid sharing of user computer or mixed reality actions, states using interactive virtual streaming |
JP2016539166A (ja) | 2013-12-05 | 2016-12-15 | バイエル・ファルマ・アクティエンゲゼルシャフト | アリール−およびヘテロアリール置換イミダゾ[1,2−a]ピリジン−3−カルボキサミドおよびその使用 |
SG11201705495XA (en) | 2014-01-14 | 2017-08-30 | Asedasciences Ag | Identification of functional cell states |
WO2015114685A1 (en) | 2014-01-31 | 2015-08-06 | National Institute Of Information And Communications Technology | Dynamic mobile sensors network platform for identifier-based communication |
WO2015157970A1 (zh) | 2014-04-17 | 2015-10-22 | 深圳迈瑞生物医疗电子股份有限公司 | 一种流式细胞分析仪及其多维数据分类方法、装置 |
US20150363563A1 (en) | 2014-06-13 | 2015-12-17 | SnappSkin Inc. | Methods and systems for automated deployment of remote measurement, patient monitoring, and home care and multi-media collaboration services in health care and telemedicine |
WO2016049024A2 (en) | 2014-09-24 | 2016-03-31 | The Broad Institute Inc. | Delivery, use and therapeutic applications of the crispr-cas systems and compositions for modeling competition of multiple cancer mutations in vivo |
US10616219B2 (en) | 2014-12-11 | 2020-04-07 | FlowJo, LLC | Single cell data management and analysis systems and methods |
US10438120B2 (en) | 2015-05-08 | 2019-10-08 | FlowJo, LLC | Plugin interface and framework for integrating external algorithms with sample data analysis software |
US20180165414A1 (en) | 2016-12-14 | 2018-06-14 | FlowJo, LLC | Applied Computer Technology for Management, Synthesis, Visualization, and Exploration of Parameters in Large Multi-Parameter Data Sets |
-
2018
- 2018-05-23 WO PCT/US2018/034199 patent/WO2018217933A1/en active Application Filing
- 2018-05-23 US US15/987,713 patent/US11573182B2/en active Active
- 2018-05-23 CN CN201880022546.3A patent/CN110462372B/zh active Active
- 2018-05-23 EP EP18731650.0A patent/EP3631417B1/en active Active
- 2018-05-23 JP JP2019560637A patent/JP7194119B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101385062A (zh) * | 2006-02-21 | 2009-03-11 | 生物辐射实验室股份有限公司 | 重叠密度(od)热图及一致性数据显示 |
CN101790713A (zh) * | 2007-04-17 | 2010-07-28 | 番石榴技术公司 | 用于位置特定的多参数数据集的分析和比较的图形用户界面 |
CN103562920A (zh) * | 2011-03-21 | 2014-02-05 | 贝克顿迪金森公司 | 混合模型密度设门中的邻域阈值选取 |
CN104969056A (zh) * | 2013-02-01 | 2015-10-07 | 贝克顿迪金森公司 | 评估流式细胞仪中样品行为的方法和系统 |
Non-Patent Citations (2)
Title |
---|
ario Roederer 等.Frequency Difference Gating: A Multivariate Methodfor Identifying Subsets That Differ Between Samples.《CYTOMETRY》.2001,第45卷(第1期), * |
Frequency Difference Gating: A Multivariate Methodfor Identifying Subsets That Differ Between Samples;ario Roederer 等;《CYTOMETRY》;20011231;第45卷(第1期);第56-64页 * |
Also Published As
Publication number | Publication date |
---|---|
WO2018217933A1 (en) | 2018-11-29 |
US20180340890A1 (en) | 2018-11-29 |
JP7194119B2 (ja) | 2022-12-21 |
CN110462372A (zh) | 2019-11-15 |
EP3631417A1 (en) | 2020-04-08 |
US11573182B2 (en) | 2023-02-07 |
EP3631417B1 (en) | 2024-02-14 |
JP2020527692A (ja) | 2020-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110462372B (zh) | 大型多参数数据集的可视化、比较分析和自动差异检测 | |
Quintelier et al. | Analyzing high-dimensional cytometry data using FlowSOM | |
Hennig et al. | An open-source solution for advanced imaging flow cytometry data analysis using machine learning | |
Misselwitz et al. | Enhanced CellClassifier: a multi-class classification tool for microscopy images | |
US8990047B2 (en) | Neighborhood thresholding in mixed model density gating | |
US10289802B2 (en) | Spanning-tree progression analysis of density-normalized events (SPADE) | |
Valet et al. | Cytomics—new technologies: towards a human cytome project | |
EP3590059B1 (en) | Method for identifying expression distinguishers in biological samples | |
Li et al. | Automatic classification and segmentation of single-molecule fluorescence time traces with deep learning | |
US20200105376A1 (en) | Deep learning particle classification platform | |
WO2018231716A2 (en) | Index sorting systems and methods | |
Stolarek et al. | Dimensionality reduction by UMAP for visualizing and aiding in classification of imaging flow cytometry data | |
Liu et al. | Recent advances in computer-assisted algorithms for cell subtype identification of cytometry data | |
WO2019018129A1 (en) | DYNAMIC INTERACTIVE DISPLAY OF QUANTITATIVE BIOLOGICAL DATA WITH MULTIPLE PARAMETERS | |
Stöter et al. | CellProfiler and KNIME: open-source tools for high-content screening | |
Seal et al. | DenVar: density-based variation analysis of multiplex imaging data | |
Ferrer‐Font et al. | Ensuring full spectrum flow cytometry data quality for high‐dimensional data analysis | |
Azad et al. | Immunophenotype discovery, hierarchical organization, and template-based classification of flow cytometry samples | |
Hawinkel et al. | Model-based joint visualization of multiple compositional omics datasets | |
EP3655753A1 (en) | Dynamic interactive display of multi-parameter quantitative biological data | |
US10883912B2 (en) | Biexponential transformation for graphics display | |
EP3775897B1 (en) | Biomarker analysis for high-throughput diagnostic multiplex data | |
Sun et al. | Introduction to multiparametric flow cytometry and analysis of high-dimensional data | |
CN107430587A (zh) | 自动化流式细胞术分析方法及系统 | |
Courtney et al. | MATtrack: a MATLAB-based quantitative image analysis platform for investigating real-time photo-converted fluorescent signals in live cells |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |