CN110023759A - 用于使用多维分析检测异常细胞的系统、方法和制品 - Google Patents

用于使用多维分析检测异常细胞的系统、方法和制品 Download PDF

Info

Publication number
CN110023759A
CN110023759A CN201780071450.1A CN201780071450A CN110023759A CN 110023759 A CN110023759 A CN 110023759A CN 201780071450 A CN201780071450 A CN 201780071450A CN 110023759 A CN110023759 A CN 110023759A
Authority
CN
China
Prior art keywords
group
cell
cluster
normal
test
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201780071450.1A
Other languages
English (en)
Other versions
CN110023759B (zh
Inventor
迈克尔·R·洛肯
安德鲁·P·沃伊特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hematologics Inc
Original Assignee
Hematologics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hematologics Inc filed Critical Hematologics Inc
Priority to CN202310383534.6A priority Critical patent/CN116359503A/zh
Publication of CN110023759A publication Critical patent/CN110023759A/zh
Application granted granted Critical
Publication of CN110023759B publication Critical patent/CN110023759B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/53Immunoassay; Biospecific binding assay; Materials therefor
    • G01N33/574Immunoassay; Biospecific binding assay; Materials therefor for cancer
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/53Immunoassay; Biospecific binding assay; Materials therefor
    • G01N33/574Immunoassay; Biospecific binding assay; Materials therefor for cancer
    • G01N33/57484Immunoassay; Biospecific binding assay; Materials therefor for cancer involving compounds serving as markers for tumor, cancer, neoplasia, e.g. cellular determinants, receptors, heat shock/stress proteins, A-protein, oligosaccharides, metabolites
    • G01N33/57492Immunoassay; Biospecific binding assay; Materials therefor for cancer involving compounds serving as markers for tumor, cancer, neoplasia, e.g. cellular determinants, receptors, heat shock/stress proteins, A-protein, oligosaccharides, metabolites involving compounds localized on the membrane of tumor or cancer cells
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/53Immunoassay; Biospecific binding assay; Materials therefor
    • G01N33/531Production of immunochemical test materials
    • G01N33/532Production of labelled immunochemicals
    • G01N33/533Production of labelled immunochemicals with fluorescent label
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/53Immunoassay; Biospecific binding assay; Materials therefor
    • G01N33/574Immunoassay; Biospecific binding assay; Materials therefor for cancer
    • G01N33/57407Specifically defined cancers
    • G01N33/57426Specifically defined cancers leukemia
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/53Immunoassay; Biospecific binding assay; Materials therefor
    • G01N33/577Immunoassay; Biospecific binding assay; Materials therefor involving monoclonal antibodies binding reaction mechanisms characterised by the use of monoclonal antibodies; monoclonal antibodies per se are classified with their corresponding antigens
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2333/00Assays involving biological materials from specific organisms or of a specific nature
    • G01N2333/435Assays involving biological materials from specific organisms or of a specific nature from animals; from humans
    • G01N2333/705Assays involving receptors, cell surface antigens or cell surface determinants
    • G01N2333/70589CD45
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2333/00Assays involving biological materials from specific organisms or of a specific nature
    • G01N2333/435Assays involving biological materials from specific organisms or of a specific nature from animals; from humans
    • G01N2333/705Assays involving receptors, cell surface antigens or cell surface determinants
    • G01N2333/70596Molecules with a "CD"-designation not provided for elsewhere in G01N2333/705

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Immunology (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Chemical & Material Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Hematology (AREA)
  • Biomedical Technology (AREA)
  • Urology & Nephrology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Cell Biology (AREA)
  • General Physics & Mathematics (AREA)
  • Analytical Chemistry (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Oncology (AREA)
  • Biochemistry (AREA)
  • Medicinal Chemistry (AREA)
  • Pathology (AREA)
  • Food Science & Technology (AREA)
  • Microbiology (AREA)
  • Hospice & Palliative Care (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Genetics & Genomics (AREA)

Abstract

使用流式细胞术表征正常细胞组。定义n维空间中的集群组的质心和半径,该n维空间对应于正常细胞组中细胞谱系的正常成熟。使用流式细胞术表征细胞测试组,并将该表征与该定义的集群组进行比较。支持向量机(SVM)子程序用于通过生成多维边界定义来鉴定感兴趣的参考群体。这些边界定义可用于鉴定用于定义或细化质心线或定义正常集群组的半径或半径的参考群体,并用于表征和比较测试细胞组与该定义的正常集群组。

Description

用于使用多维分析检测异常细胞的系统、方法和制品
相关申请的交叉引用
根据美国35U.S.C.第119条第(e)项,本申请要求2016年9月19日提交的美国临时申请号62/396,621的权益,所述临时申请通过引用以其全文并入本文。
【技术领域】
本公开涉及测量的细胞特征的多维分析,并且特别涉及用于使用利用流式细胞术测量的细胞特征的多维分析来检测细胞测试组中的异常细胞的系统、方法和制品。
【背景技术】
相关技术描述
用于表征异质细胞群体的一种方法是通过流式细胞术,最初由Herzenberg及其同事开发(Science.1969 166(906):747-9;J Histochem Cytochem.1976 24(1):284-91;Clin Chem.1973 19(8):813-6;Ann.N.Y.Acad.of Sci.1975 254:163-171)。使用该技术,细胞用缀合至染料的抗体标记。流式细胞术可以定量方式同时常规检测3、4种或更多种免疫荧光标记物。通过将多种免疫荧光标记与细胞的光散射特性组合,不仅可以区分不同谱系的细胞,而且可以区分这些谱系中不同成熟阶段的细胞。这是基于独特细胞表面抗原的表达模式确定的(参见例如,Loken MR等人,in Flow Cytometry in Hematology.LaerumOD,Bjerksnes R.编辑Academic Press,New York,第31-42页,1992;Civin CI等人,在"Concise Reviews in Clinical and Experimental Hematology”中Martin J.Murphy编辑AlphaMed Press,Dayton OH,1992,第149-159页)。然后可使用仪器上可用的细胞分选电子设备分离由流式细胞仪鉴定的群体。
多参数流式细胞术目前用于检测各种白血病。然而,当前的技术要求由专业人员(即精通流式细胞术和血液病理学二者的人,如医生)进行耗时的数据分析。教育专业人员区分正常与异常细胞群体需要很长的学习过程。此外,当使用流式细胞术监测患者对治疗的反应时,常规技术需要使用患者特异性组来检测残留疾病。
因此,本领域仍需要提高检测精度和简化数据分析的技术。本公开可满足该需求和其他需求。
【发明内容】
在一个实施方案中,使用流式细胞术表征正常细胞组。定义n维空间中的集群组的质心和半径,该n维空间对应于正常细胞组中细胞谱系的正常成熟。使用流式细胞术表征细胞测试组,并将该表征与该集群组进行比较。该方法基于其与正常对应物的表型差异(如通过分析来自正常和异常细胞群体的复杂数据所评估的)来促进低水平肿瘤细胞的检测。
在一个方面,一个实施方案包括一种诊断n维空间中的生物细胞测试组中的癌症的方法,该方法包括:使用第一方案使正常生物细胞组中每个细胞暴露于四种或更多种试剂中的多种;使用第二方案测量正常生物细胞组中每个细胞的对应多个荧光强度;至少部分地基于在正常生物细胞组中测量的细胞的多个荧光强度,将正常生物细胞组中每个细胞映射到n维空间中的对应点,其中对应点形成正常点组;通过基于n维空间中正常点组的映射定义质心线和半径来定义n维空间中的正常集群组,其中该正常集群组中的每个集群对应于细胞谱系内的成熟水平;使用第一方案使生物细胞测试组中的每个细胞暴露于多种试剂;使用第二方案测量生物细胞测试组中每个细胞的对应多个荧光强度;至少部分地基于生物细胞测试组中测量的细胞的多个荧光强度,将生物细胞的测试细胞中的每个细胞映射到n维空间中的对应点,其中对应的点形成测试点组;并将测试点组与正常集群组进行比较。
在一个方面,一种方法包括使细胞暴露于多种任何数量的试剂。一些仪器能够产生九种或更多种颜色。使用增加的试剂和颜色有助于细胞的表征。
在另一方面,一个实施方案包括一种表征n维空间中的生物细胞测试组的方法,该方法包括:使用第一方案将正常生物细胞组中的每个细胞映射到n维空间中的对应点,其中对应点形成正常点组;基于n维空间中正常点组的映射,为n维空间中的正常集群组定义质心和半径,其中集群对应于细胞谱系内的成熟水平;使用第一方案将生物细胞的测试组中的每个细胞映射到n维空间中的对应点,对应点形成测试点组;并将测试点组与正常集群组进行比较。
在另一方面,一个实施方案包括一种诊断生物细胞测试组的方法,该方法包括:使用定义的方案将生物细胞测试组中的每个细胞映射到n维空间中的对应点,对应点形成测试点组;并将测试点组与n维空间中定义的正常集群组进行比较,其中所定义的正常集群组中的集群对应于细胞谱系内的成熟水平,并且集群由质心和半径定义。
在另一方面,一个实施方案包括一种表征生物细胞测试组的方法,该方法包括:使用定义的方案将生物细胞测试组中的每个细胞映射到n维空间中的对应点,对应点形成测试点组;在笛卡尔坐标显示中表示测试点组,该笛卡尔坐标显示包括对应于细胞谱系内细胞成熟的第一轴和对应于出现频率的第二轴;并且在笛卡尔坐标显示中表示n维空间中的正常集群组,其中集群由质心和半径定义并且对应于细胞谱系内的细胞成熟水平。
在另一方面,一个实施方案包括一种表征n维空间中正常细胞谱系的方法,该方法包括:使用第一方案使正常生物细胞组中的每个细胞暴露于多种试剂;使用第二方案测量正常生物细胞组中每个细胞的对应多个特征;至少部分地基于在正常生物细胞组中测量的细胞的多个特征,将正常生物细胞组中的每个细胞映射到n维空间中的对应点,其中对应点形成正常点组;并且基于n维空间中的正常点组的映射来定义集群组的质心和半径,其中每个集群对应于正常细胞谱系内的成熟水平。
在另一方面,一个实施方案包括一种存储指令的计算机可读介质,这些指令通过以下使得诊断系统促进检测生物细胞测试组中的癌细胞:检索第一数据组,其包括使用定义的方案测量的正常生物细胞组中每个细胞的三个或更多个荧光强度中的多个的指示;至少部分地基于第一数据组将正常生物细胞组中的每个细胞映射到n维空间中的对应点,其中对应点形成正常点组;基于n维空间中正常点组的映射,为n维空间中的正常集群组定义质心线和半径,其中集群对应于细胞谱系内的成熟水平;检索第二数据组,其包括使用定义的方案测量的生物细胞测试组中每个细胞的对应多个荧光强度的指示;至少部分地基于第二数据组将生物细胞的测试细胞中的每个细胞映射到n维空间中的对应点,其中对应的点形成测试点组;并将测试点组与正常集群组进行比较。
在另一方面,一个实施方案包括一种存储指令的计算机可读介质,这些指令通过以下使得诊断系统促进检测生物细胞组中的癌细胞:检索第一数据组;基于第一数据组定义n维空间中的正常集群组的质心线和半径,其中该正常集群组中的集群对应于细胞谱系内的正常成熟水平;检索第二数据组;并将第二数据组与正常集群组进行比较。
在另一方面,一个实施方案包括一种存储指令的计算机可读介质,这些指令通过以下使得控制系统促进检测生物细胞测试组中的细胞:接收对应于使用定义的方案测量的正常生物细胞组的多个荧光强度的第一数据组;基于第一数据组在多维空间中定义正常集群组;其中集群由质心线和半径定义并且对应于细胞谱系内的细胞成熟水平;接收对应于使用定义的方案测量的生物细胞测试组中的每个细胞的对应多个荧光强度的指示的第二数据组;并将第二数据组与定义的正常集群组进行比较。
在另一方面,一个实施方案包括一种含有用于表征生物细胞的测试组的数据结构的计算机可读介质,该数据结构包括:首部部分;文本部分;和数据部分,其中文本部分含有关于数据部分的信息,并且数据部分含有用于定义正常集群组的质心和半径的信息,并且其中正常集群组中的集群对应于细胞谱系内的正常成熟水平。
在另一方面,诊断系统的实施方案包括:控制器;存储器;数据接口;控制界面;和图形引擎,其中诊断系统被配置为将测试数据组与由质心和半径定义的n维空间中的正常集群组进行比较,并且其中该正常集群组中的集群对应于细胞谱系内的正常成熟水平。
在另一方面,用于诊断细胞测试组的系统的实施方案包括:用于定义对应于正常细胞谱系的正常集群组的装置;和用于将细胞测试组与正常集群组进行比较的装置。
【附图说明】
本专利或申请文件含有制作的至少一张彩色附图。在提出请求并支付必要费用后,本局将提供具有彩色附图的本专利或专利申请公布的副本。
图1是实现诊断细胞测试组的方法的实施方案的系统的功能框图。
图2是适合于存储与生物细胞组相关的数据的数据结构的示意图。
图3是适合于存储与处理图2所示数据结构中包含的数据有关的信息的数据结构的示意图。
图4A至9A和4B至9B是投影到由系统(如图1中所示的系统)生成的伪二维显示中的多维数据的图示。
图10A和10B是投影到由系统(如图1中所示的系统)生成的伪三维显示中的多维数据的图示。
图11A和11B示出了由系统(如图1中所示的系统)生成的图形用户界面的菜单。
图12A至17A和12B至17B是投影到由系统(如图1中所示的系统)生成的伪二维显示中的多维数据的图示。
图18A至18C是示出用于定义对应于正常细胞谱系的正常集群组的正常质心和半径的系统操作的流程图。
图19是示出用于定义对应于正常细胞谱系的正常集群组的质心线的系统操作的流程图。
图20A和20B是投影到由系统(如图1中所示的系统)生成的伪三维显示中的多维数据的图示。
图21是示出用于定义对应于正常细胞谱系的正常集群组的正常质心线和半径的系统操作的流程图。
图22是示出用于确定测试数据组中的点是否包含在n维空间中的正常集群组内的系统操作的流程图。
图23A和23B是投影到由系统(如图1中所示的系统)生成的伪三维显示中的多维数据的图示。
图24是示出用于将测试数据组与正常集群组的定义质心点进行比较的系统操作的流程图。
图25是适合于存储信息的数据结构的示意图,该信息用于定义n维空间中的正常集群组的质心和半径。
图26是投影到由系统(如图1中所示的系统)生成的伪二维显示中的多维数据的图示。
图27和28是分别示出用于在n维空间中定义参考群的子程序的训练阶段和实现阶段的流程图。
图29是示出用于确定标准参考平均值和归一化测试数据组中的患者数据的系统操作的流程图。
图30-33是投影到由系统(如图1中所示的系统)生成的伪三维显示中的多维数据的图示。
图34示出了n维空间中的标准参考平均向量的表示。
图35和36是投影到由系统(如图1中所示的系统)生成的伪三维显示中的多维数据的图示。
图37示出了n维空间中测试患者数据组的平均强度向量的表示。
图38示出了n维空间中测试患者数据组的归一化向量的表示。
图39示出了归一化向量的应用以归一化测试患者数据组的强度。
图39A是归一化向量到数据组的细胞的示例应用的图示。
图40是示出用于表征由系统(如图1中所示的系统)设定的正常患者数据组半径的系统操作的流程图。
图40A是示出细胞集群子程序的实施方案的流程图。
图41是数据组的细胞(数据点)与定义正常集群组的质心线之间的切向交叉点的图示。
图41A是切向交叉点的示例计算的图示。
图42是数据组的细胞(数据点)与细胞(数据点)与定义正常集群组的质心线之间的对应切向交叉点之间的参数距离值的图示,其为浮点阵列的形式。
图43是组合正常患者数据组的集群中参数标准偏差的图示,其为浮点阵列的形式。
图43A是细胞与细胞与质心线的切向交叉点之间的平均距离的图示,其为浮点阵列的形式。
图44是标准化正常患者数据组的图示,其为浮点阵列的形式。
图45是组合正常患者数据组的集群中缩放的标准偏差的图示,其为浮点阵列的形式。
图45A是组合正常患者数据组的集群的标准化平均距离的图示,其为浮点阵列的形式。
图46是示出用于表征集群中正常细胞组的细胞(数据点)与质心线之间的正常距离以及由系统(如图1所示的系统)进行的正常细胞(数据点)频率分解的系统操作的流程图。
图47是数据组的细胞(数据点)与细胞(数据点)与定义正常集群组的质心线之间的对应切向交叉点之间的参数距离值的图示,其为浮点阵列的形式,包括欧氏距离和集群数量。
图48是正常患者数据组的集群中的细胞(数据点)的平均距离矩阵的图示,其为浮点阵列的形式。
图49是正常患者数据组的集群中的细胞(数据点)的频率矩阵的图示,其为浮点阵列的形式。
图50是正常患者的细胞(数据点)组合组的正常位置矩阵的图示,其为浮点阵列的形式。
图51是正常患者的细胞(数据点)组合组的集群中细胞(数据点)的正常百分比矩阵的图示,其为浮点阵列的形式。
图52是示出用于通过系统(如图1中所示的系统)将测试患者细胞(数据点)组与定义的正常集群组进行比较的系统操作的流程图。
图53是测试患者数据组的细胞(数据点)与细胞(数据点)与定义正常集群组的质心线之间的对应切向交叉点之间的参数距离值的图示,其为浮点阵列的形式,包括欧氏距离和集群数量。
图54是测试患者数据组的集群的细胞(数据点)的平均距离矩阵的图示,其为浮点阵列的形式。
图55是测试患者数据组的集群中的细胞(数据点)的频率矩阵的图示,其为浮点阵列的形式。
图56和57是投影到由系统(如图1中所示的系统)生成的伪二维图像中的多维数据的图示。
图58是示出用于通过系统(如图1中所示的系统)将测试患者细胞(数据点)组与定义的正常集群组进行比较的系统操作的流程图。
图59是测试患者数据组的细胞(数据点)与细胞(数据点)与定义正常集群组的质心线之间的对应切向交叉点之间的参数距离值的图示,其为浮点阵列的形式,包括欧氏距离和集群数量。
图60和60A是组合的正常集群组的正常半径表的图示,其为浮点阵列的形式。
图61、61A、62和62A是用于过滤细胞(数据点)以在测试患者数据组的图像中表示的信息的图示,其为浮点阵列的形式。
图63和63A是包括(或排除)表示测试患者数据组的图像的细胞的图示,其为浮点阵列的形式。
图64、64A、64B、65、65A和65B示出了用于控制表示测试患者数据组的细胞(数据点)的图像的生成和显示这些图像的示例用户界面。
图66示出了参考细胞群体。
图67和68是测试患者数据组的结果的表示。
图69是前髓细胞的预测群体的表示。
图70和71是数据组结果的图示。
图72是单核细胞的预测群体的表示。
图73和74是数据组结果的图示。
图75是未定型祖细胞的预测群体的表示。
图76和77是数据组结果的图示。
图78是参考群体相对于CD45和SSC的比较的表示。
图79是淋巴细胞群体移动至固定点的表示。
图80是CD34++的CD 34强度的表示。
图81是单核细胞的CD14强度的表示。
图82是CD14++单核细胞的CD33强度的表示。
图83是细胞群体的比较的表示。
【具体实施方式】
在以下描述中,列出某些细节以提供装置、系统、方法和制品的各种实施方案的全面理解。然而,本领域技术人员将理解其他实施方案可在没有这些细节的情况下实践。在其他情况下,与例如流式细胞仪、控制器等相关的熟知的结构和方法,如电源、晶体管、存储器、逻辑门、总线等在一些附图中没有示出或详细描述,以避免不必要地模糊对实施例的描述。
除非上下文另外要求,否则在整个说明书和以下权利要求书中,措词“包括(comprise)”及其变型,如“包括(comprises)”和“包括(comprising)”以开放、包括含义来理解,也就是说理解为“包括但不限于”。
贯穿本说明书引用“一个实施方案(one embodiment)”或“一个实施方案(anembodiment)”意指关于该实施方案所描述的具体特点、结构或特征包括在至少一个实施方案中。因此,贯穿本说明书在各个地方出现短语“在一个实施方案中(in one embodiment)”或“在一个实施方案中(in an embodiment)”不一定是指相同的实施方案或全部实施方案。此外,具体特点、结构或特征可以任何合适的方式组合在一个或多个实施方案中以获得进一步实施方案。
标题仅为方便起见而提供,并不解释本公开的范围或含义。
附图中的元件的大小和相对位置不一定按比例绘制。例如,各种元件的形状和角度未按比例绘制,并且这些元件中的一些被放大且定位以改进图易读性。此外,如绘制的元件的具体形状不一定旨在传达关于具体元件的实际形状的任何信息,并且仅为了在附图中便于识别而选择。
可以使用特异性单克隆抗体在细胞表面或细胞的细胞质中鉴定基因产物。流式细胞术可用于以定量方式同时检测多种免疫荧光标记物。免疫荧光染色技术是熟知的,并且可根据多种方案中的任一种进行,如描述于Current Protocols in Cytometry(JohnWiley&Sons,NY,NY,编辑J.Paul Robinson等人)中的那些。通常,使用本领域已知的技术从受试者收集生物样品(如外周血、骨髓、淋巴结组织、脐带血、胸腺组织、来自感染部位的组织、脾组织、肿瘤组织等)并从其分离细胞。在一个实施方案中,从受试者收集血液,并使用缓冲液(如缓冲的NH4Cl)裂解任何成熟的红细胞。洗涤剩余的白细胞,并且然后与缀合至本领域已知的各种染料(荧光团)中任一种的抗体(例如,单克隆抗体)一起孵育(参见例如,http colon double slash www dot glenspectra dot co dot uk/glen/filters/fffluorpn dot htm或http colon double slash cellscience dot bio-rad dot com/fluorescence/fluorophoradata dot htm)。本文中的代表性染料包括但不限于FITC(荧光素异硫氰酸酯)、R-藻红蛋白(PE)、别藻蓝蛋白(APC)、和德克萨斯红。
本领域已知的多种抗体和使用本领域熟知的技术生成的特异性抗体可用于本发明公开的实施方案的上下文中。通常,用于本文所述方法的抗体对感兴趣的细胞标记物(如CD细胞表面标记物中的任一种)(参见例如httpcolon double slash www dot ncbi dotnlm dot nih dot gov/PROW/guide/45277084dot html的CD索引;或Immunology,JohnWiley&Sons,NY,NY中的Current Protocols)、细胞因子、粘附蛋白、发育细胞表面标记物、肿瘤抗原或由感兴趣细胞群体表达的其他蛋白质具有特异性。实际上对由细胞表达的任何蛋白质具有特异性的抗体可用于本公开的上下文中。例证性抗体包括但不限于特异性结合CD3、CD33、CD34、CD8、CD4、CD56、CD19、CD14、CD15、CD16、CD13、CD38、CD71、CD11b、HLA-DR、血型糖蛋白、CD45、CD20、CD5、CD7、CD2、CD10和TdT的抗体。
在用染料缀合的抗体孵育一段时间后,通常在黑暗中约20分钟(孵育时间和条件可根据具体方案而变化),用缓冲盐水洗涤白细胞并重悬于含有蛋白质的缓冲盐水中,用于引入流式细胞仪。
流式细胞仪一次分析一个细胞的异质细胞群体,并可根据免疫荧光单克隆抗体的结合和每个细胞的光散射特性对细胞进行分类(参见例如,Immunol Today.2000 21(8):383-90)。使用光电倍增管完成荧光检测;检测器(通道)的数量决定了仪器可同时检查的光学参数的数量,而带通滤波器确保仅收集预期的波长。因此,流式细胞术可以定量方式常规地检测多种免疫荧光标记物,并且可测量其他参数,如前向光散射(其是细胞大小的指示)和直角光散射(其是细胞粒度的指示)。因此,可使用免疫荧光和流式细胞术分化和分选多种细胞群体。
例如,通过将4种颜色的免疫荧光与前向光散射(细胞大小的测量)和直角光散射(细胞粒度的测量)的物理参数组合,可生成六维数据空间,其中在正常血液或骨髓中发现特定细胞群体仅限于该数据空间的一小部分。如本领域技术人员在阅读本说明书后所认识到的,还可使用多于或少于4种颜色的免疫荧光标记物。荧光团的激发不限于可见光谱中的光;几种染料,如Indo系列(用于测量细胞内钙)和Hoechst系列(用于细胞周期分析)在紫外线范围内是可激发的。因此,本领域目前可用的一些仪器配置有紫外发射源,如四激光、10色Becton Dickinson LSR II。此外,使用可商购的荧光激活细胞分选仪,如FACSVANTAGETM(Becton Dickinson,San Jose,CA)、 ALTRATM(Beckman Coulter,Fullerton,CAA)或分选仪(DakoCytomation公司,Carpinteria,CA),也可以将细胞群体分选成纯化的级分。
在从造血干细胞到血液中发现的成熟细胞的血细胞发育期间观察到的基因表达是高度调节的过程。参见Civin CI,Loken MR:Cell Surface Antigens on Human Marrow Cells:Dissection of Hematopoietic Development Using Monoclonal Antibodies and Multiparameter Flow Cytometry,Int’l J.Cell Cloning 5:1-16(1987),其通过引用以其全文并入本文。因此,基因的特异性、严格控制的表达不仅发生在血细胞的不同谱系内,而且发生在这些谱系内的成熟的不同阶段。参见Loken,MR,Terstappen LWMM,Civin Cl,Fackler,MJ:Flow Cytometry Characterization of Erythroid,Lymphoid and Monomyeloid Lineages in Normal Human Bone Marrow,Flow Cytometry inHematology,Laerum OD,Bjerksnes R.编辑,Academic出版社,纽约,第31-42页(1992),其通过引用以其全文并入本文。这些基因产物不仅在成熟的精确阶段出现和/或消失,而且这些糖蛋白的量在正常细胞中在非常严格的限度内被调节。已证明,这些抗原关系在胎儿发育的早期建立,并且在整个成年期内在经历不断更新和补充的血细胞上是恒定的。参见LeBein TW,Wormann B,Villablanca JG,Law CL,Shah VO,Loken MR:Multiparameter Flow Cytometric Analysis of Human Fetal Bone Marrow B Cells,Leukemia 4:354-358(1990),其通过引用以其全文并入本文。在化疗或甚至骨髓移植后,维持正常细胞成熟期间的这些模式和基因表达关系。参见Wells DA,Sale GE,Shulman HE,Myerson D,BryantE,Gooley T,Loken MR:Multidimensional Flow Cytometry of Marrow Can Differentiate Leukemic Lymphoblasts From Normal Lymphoblasts and Myeloblasts Following Chemotherapy and/or Bone Marrow Transplant,Am.J.Clin.Path.110:84-94(1998),其通过引用以其全文并入本文。因此,在表达时间以及细胞表面上表达的基因产物量的调节方面,在血细胞的正常发育期间存在非常紧密协调的多基因调节。
正常抗原表达与肿瘤过程的比较表明在肿瘤细胞中基因表达的调节被破坏。这种破坏引起与细胞正常成熟期间观察到的不同的抗原关系。参见Hurwitz,CA,Loken MR,Graham ML,Karp JE,Borowitz MJ,Pullen DJ,Civin CI:Asynchronous Antigen Expression in B Lineage Acute Lymphoblastic Leukemia,Blood,72:299-307(1998)。这些不是新的抗原,而是那些通常表达的基因产物,它们失去了在正常细胞中发现的协调调节。急性淋巴细胞白血病(“ALL”)和急性成髓细胞白血病(“AML”)二者均异常表达抗原。参见Terstappen LWMM,Loken MR:Myeloid Cell Differentiation in Normal Bone Marrow and Acute Myeloid Leukemia Assessed by Multi-Dimensional Flow Cytometry,Anal.Cell Path.2:229-240(1990),其通过引用以其全文并入本文。异常的类型包括:
(1)谱系失真,定义为非谱系抗原的表达;
(2)抗原异步,例如,通常出现在未成熟细胞上的抗原的成熟细胞上的表达;
(3)抗原缺席;和
(4)定量异常。
参见Terstappen LWMM,Konemann S,Safford M,Loken MR,Zurlutter K,BuchnerTh,Hiddemann W,Wormann B:Flow Cytometric Characterization of Acute Myeloid Leukemia,Part II.Phenotypic Heterogeneity at Diagnosis,Leukemia 6:70-80(1991),其通过引用以其全文并入本文。
不仅白血病细胞的表型与正常表型不同,抗原之间的关系因病例而异,这表明每次白血病转化导致协调基因调节的丧失,从而导致每种白血病的独特表型模式。在120个儿科ALL病例和86个成人AML病例中,每个详细的表型与正常不同且彼此不同。参见同前;Hurwitz,同上。因此,肿瘤转化影响原代DNA序列(基因型)和正常基因的调节,使得它们在发育过程中在错误的时间不恰当地表达,以错误的量表达,和/或在正常细胞中未观察到的其他基因的背景中(表型)表达。协调基因调节的丧失似乎是导致异常表型的肿瘤转化的标志,其中每个白血病克隆与正常不同并且与相同类型的其他白血病不同。
应当注意,实施方案不限于白血病细胞(例如,急性和慢性淋巴细胞白血病(ALL,CLL)和急性和慢性髓性白血病(AML,CML))和其他造血和淋巴瘤细胞的分析。实施方案可应用于分析多种恶性肿瘤中的任一种,例如淋巴瘤、骨髓瘤或前恶性肿瘤(如骨髓发育不良)和其他疾病,包括各种血液病症中的任一种。
可以采用流式细胞术来使用这种与正常的表型差异来帮助诊断白血病以及监测对治疗的反应。流式细胞术已用于血液病理学以表现肿瘤,例如,将AML与ALL区分开。然而,常规方法要求感兴趣的细胞形成所检查的总细胞的主要部分,并且在进行分析之前已知预期的疾病过程,如当形态学检查鉴定不确定亚型的白血病细胞群体时。对肿瘤细胞的关注可扩展到残留的疾病检测。然而,采用流式细胞术的常规残留疾病检测技术需要患者特异性试剂组来鉴定诊断时观察到的特定表型。参见Reading CI,Estey EH,Huh YO,ClaxtonDF,Sanchez G,Terstappen LW,O’Brien MC,Baron S,Deisseroth AB,Expression of Unusual Immunophenotype Combinations in Acute Myelogenous Leukemia,Blood 81:3083-3090(1993),其通过引用以其全文并入本文。已使用此类患者特异性组来检测降至0.03%-0.05%水平的残留ALL和AML。参见Coustan-Smith E,Sancho J,Hancock ML,Boyett JM,Behm FG,Raimondi SC,Sandlund JT,Rivera GK,Rubnitz JE,Ribeiro RC,PuiCH,Campana D,Clinical Importance of Minimal Residual Disease in Childhood Acute Lymphoplastic Leukemia,Blood 96:2691-2696(2001);San Miguel JF,VidrialesMB,Lopez-Berges C,Diaz-Mediavilla J,Gutierrez N,Canizo C,Ramos F,CalmunitiaMJ,Perez J,Gonzalez M,Orfao A,Early Immunophenotypical Evaluation of Minimal Residual Disease in Acute Myeloid Leukemia Identifies Different Patient Risk Groups and may Contribute to Postinduction Treatment Stratification,Blood 98:1746-1751(2002),其通过引用以其全文并入本文。
然而,使用患者特异性试剂组的常规检测残留疾病具有以下限制:
1.需要具有异常表型的诊断样本,以便构建组。在25%的病例中,异常表型可能无法鉴定。参见Vidriales,同上。
2.处理时间很长,因为技术人员必须检查特定患者的先前分析,以便确定在每种情况下使用的试剂组合。
3.可能检测不到与最初诊断的表型不同的白血病细胞群体的表型。例如,由于克隆进化或小化疗抗性亚克隆的生长,表型可能从诊断变为复发。参见San Miguel,同上。
4.意外或未预料的异常,如继发性脊髓发育不良或其他谱系的异常可能被忽视。
使用患者特异性组评估残留疾病可在受控环境中很好地工作,如可获得所有连续样本并且在治疗的特定时间获得标本的依从性很高的研究。然而,在临床实践中,当实验室未进行初步诊断时,可能要求流式细胞术实验室进行残留疾病分析。详细的免疫表型经常不可用或不完整。
残留疾病检测还可使用标准化组和作为肿瘤特异性标记物的与正常的差异进行。协调基因表达是如此精确,以至于抗原表达的1/2十年散度的差异足以区分正常与异常的肿瘤细胞。在这种方法中,特定的试剂组用于每个可疑的谱系,例如,B谱系ALL;T谱系ALL;AML;B谱系非霍奇金淋巴瘤(“B-NHL”)和T谱系NHL(“T-NHL”),以及MDS和骨髓瘤。可通过首先鉴定正常细胞预期的模式,然后关注与正常细胞预期模式不匹配的细胞来鉴定肿瘤群体。这种检测残留疾病的方法已被Fred Hutchinson癌症研究中心使用了几年,并成功地预测了造血肿瘤的结果。例如:
1.在用于ALL的造血干细胞移植中,流式细胞术被证实在预测120名患者复发方面比形态学、细胞遗传学或两种技术组合更敏感且更具特异性。参见Wells,DA,同上。
2.在儿科AML中,残留疾病的流式细胞术检测是252名患者研究结果的最佳预测。Sievers,E.L.,Lange,B.J.,Alonzo,T.A.,Gerbing,R.B.,Bernstein,I.D.,Smith,F.O.,Arceci,R.J.,Woods,W.G.,Loken,M.R.,Immunophenotypic evidence of leukemia after induction therapy predicts relapse:results from a prospective Children’s Cancer Group study of 252 patients with acute myeloid leukemia,Blood 101:3398-3406(2003)。治疗期间任何时间可检测到肿瘤的患者复发的可能性是未检测到肿瘤的那些患者的4倍,并且死亡的可能性是其3倍。
3.在造血干细胞移植中,流式细胞术能够基于异常抗原表达区分正常再生母细胞和复发性肿瘤。参见Shulman H,Wells D,Gooley T,Myerson D,Bryant E,Loken M.,The biologic significance of rare peripheral blasts after hematopoietic cell transplant is predicted by multidimensional flow cytometry,Am J Clin Path112:513-523(1999)。在未检测到肿瘤细胞的情况下,患者可在血液中表现出20%的正常母细胞,或者可在骨髓中具有高达50%的再生母细胞。
检测血液或骨髓中小细胞群体的异常表型将流式细胞术的实用性扩展到除简单的表型白血病之外的其他应用。流式细胞术已被用于证实诊断为脊髓发育不良的相当一部分(10%)患者被误诊并且具有淋巴样,而不是骨髓异常。参见Wells DA,Hall MC,ShulmanHE,Loken MR,Occult B cell malignancies can be detected by three-color flow cytometry in patients with cytopenias,Leukemia 12:2015-2023(1998)。流式细胞术还允许开发评分系统,以基于在成熟的骨髓细胞中检测到的异常程度对患有脊髓发育不良的患者进行分层。参见Wells,D.,Benesch,M,Loken,M.,Vallejo,C.,Myerson,D.,Leisenring,W.,Deeg,H.,Myeloid and monocytic dyspoiesis as determined by flow cytometric scoring in myelodysplastic syndrome correlates with the IPSS and with outcome after hematopoietic stem cell transplantation,Blood 102:394-403(2003)。与可检测异常较少的患者相比,具有由异常免疫表型证明的在基因表达方面表现出更多异常的骨髓细胞的患者具有更高的复发率和干细胞移植后的死亡。与国际预后评分系统(IPSS)也有很高的相关性。此外,高流式细胞仪评分基于干细胞移植后复发将IPSS系统中的中间I组患者划分为统计学显著组。
基于与正常的差异,肿瘤检测有几个优点。
1.该技术不需要用于创建特异性组的诊断样本。
2.该方法允许在高容量实验室中快速处理样本,其中相同的组用于不同的患者。
3.结果不受治疗后表型变化的影响。
4.适当的标准化组选择允许检测由血液学异常引起的意外或未预料的发现。
正常和异常细胞群体之间的常规区别确实具有显著的限制。常规地,数据分析必须由专业人员(精通流式细胞术和血液病理学二者的MD或PhD)而不是技术人员进行,因为各种临床情况可能表明观察到的异常是正常还是异常。教育专业人员区分正常与异常细胞群体需要很长的学习过程。训练有素的血液病理学家可能需要6个月到一年的时间来学习这些技术。目前,专业人员对正常相对异常的评估是基于对主观分析的所有固有困难的经验,类似于诊断显微镜的训练。很难将分析扩展到其他位点并保持相同的灵敏度和特异性。在困难的情况下,两个或更多个专业人员必须就最终诊断达成共识。
例如,Weir等人描述了由正常B细胞前体的四色流式细胞术分析产生的正常“模板”,肿瘤样品可以与之比较。参见Weir,E.G.等人,Leukemia(1999)13:558-567。然而,与本公开不同,该模板是围绕所显示的点图事件绘制的特定的、固定的几何区域组,然后将其用作正常的边界。如Weir等人所指出的,落入模板定义的正常边界之外的正常样品中存在的不确定性的孤立事件呈现出一个严重的问题,其尚未通过他们的方法解决,特别是在最小残留疾病检测的设置中。另外,与其他先前方法一样,需要由训练有素的个体进行分析以将患者样品与模板进行比较。
此外,正常骨髓中由多种单克隆抗体鉴定的群体在多维空间中不是明显的球形云。相反,数据可被描述为一系列管或蛇,其尺寸和位置随着细胞谱系从未成熟到成熟形式在多维数据空间中从头到尾行进而变化。因此,将数据处理为球形云的集群分析程序产生具有上述限制的结果。
相比之下,本文进一步描述的实施方案提供了一种用于确定对应于正常细胞成熟谱系的一个或多个事件集群的质心线和半径等的方法。以这种方式,统计分析可用于确定事件是否表示异常事件(即癌症)。
正常骨髓由多个谱系构成,每个谱系经历连续的稳态成熟。通过首先评估正常细胞,可定义正常构成和异常构成的统计度量。然后该定义成为分析的标准。使鉴定哪些细胞在预期的、定义的正常位置内自动化将有助于新专业人员和技术人员教授什么是表型异常的。其还允许在多个位点处进行分析标准化,从而在鉴定异常群体方面提供分析之间的一致性。
使鉴定异常细胞自动化还允许提高灵敏度。使用三种抗体结合前向和右角光散射进行当前的手动评估,每个管收集10,000个事件。一个组由7到14个不同的管组成,每个管均具有不同的抗体组合。使用该当前系统,可检测肿瘤,其中特异性接近100%。参见Am.J.Clin.Path.110:84-94,同上;Blood 98:1746-1751,同上;Blood 101:3398-3406,同上。单个专业人员可在一天内分析和报告20-30个此类病例。提高灵敏度是常规方法的限制因素,因为专业人员必须花费更多时间分析每个病例。使鉴定异常细胞自动化将允许更大的数据组(计数更多细胞)和更多抗体的应用,而不增加分析人员必须花费在每个样本上的时间。
统计分析可用于鉴定造血异常的更微妙变化。这对于骨髓增生异常综合征(“MDS”)的分析尤其重要,其中在更成熟的细胞而不仅仅是未成熟的母细胞中观察到异常。统计分析将鉴定可表示细胞异常调节的管中的凸起或质心线的移动。其还可通过发育过程定义调节点和进展速率,从而更好地理解在肿瘤转化过程中观察到的协调基因调节的丧失。
图1是实现用于使用多维分析检测异常细胞的系统的实施方案的系统100的功能框图。系统100包括测量系统102和诊断系统104。
测量系统102测量细胞样品中细胞的特征,并且如图所示包括流式细胞仪106和数据格式化器108。可采用多于一个流式细胞仪106,尽管通常用一个仪器进行特定样品的测量。例如,如以下更详细讨论的,来自正常细胞组的测量值可用一个流式细胞仪取得,而来自测试细胞组的测量值可用另一个流式细胞仪取得。其他测量装置可用在测量系统102中,如显微镜(例如,高通量显微镜)。
测量系统102可含有单独的数据格式化器108,以格式化由测量系统102收集的数据。可替代地,数据格式化器108可以是系统100的另一部件(如流式细胞仪106或诊断系统104)的一部分。例如,数据格式化器108可将由流式细胞仪106收集的数据格式化为流式细胞术标准FCS 2.0格式或另一种数据文件格式。测量系统102可包括附加部件,如控制器、存储器、分立电路和硬件及其各种组合。
诊断系统104分析从测量系统102接收的数据,如以下更详细地讨论的。在图1所示的实施方案中,诊断系统104包括控制器110、存储器112、解析器114、控制输入/输出接口116、数据输入/输出接口118、图形引擎120、统计引擎122、显示124、打印机126和诊断系统总线130。除数据总线之外,诊断系统总线130还可包括电源总线、控制总线和状态信号总线。然而,为了清楚起见,各种诊断系统总线在图1中示出为诊断系统总线130。
诊断系统104可物理地远离测量系统102。测量系统102可经由一个或多个通信链路(如因特网、外联网和/或内联网或其他局域或广域网)耦合到诊断系统104。类似地,诊断系统104的部件可在物理上彼此远离,并且可经由通信链路(如因特网、外联网和/或内联网或其他局域或广域网)耦合在一起。可存在一个或多个诊断系统,每个诊断系统可耦合到一个或多个测量系统。通信链路可以是有线、无线或其各种组合。
诊断系统104可以各种方式实现,包括作为单独的子系统。诊断系统104可实现为数字信号处理器(DSP)、专用集成电路(ASIC)等,或实现为存储在存储器(如存储器112)中并由控制器(如控制器110)执行的一系列指令。因此,对现有硬件的软件修改可允许诊断系统104的实现。各种子系统(如解析器114和控制输入/输出接口116)在图1的功能框图中被鉴定为单独的块,因为它们进行将在以下更详细描述的特定功能。这些子系统可以不是离散单元,但可以是软件例程的功能,其可能但不一定是可单独调用的并因此可鉴定的元件。可使用任何合适的软件或软件组合来实现诊断系统104,包括例如用Java运行时环境或3-DJava运行时环境实现的WinList和/或Java。
虽然所示实施方案表示单个控制器110,但其他实施方案可包括多个控制器。存储器112可包括例如寄存器、只读存储器(“ROM”)、随机存取存储器(“RAM”)、闪存和/或电可擦除可读可编程只读存储器(“EEPROM”),并且可提供指令和由诊断系统104使用的数据。
诊断系统104可包括附加部件,如控制器、存储器、分立电路和硬件及其各种组合。
本文描述了关于进行B淋巴谱系的研究的实施方案。在适当的情况下,将对图1的引用并入到该研究的描述中。本文所述实施方案可用于研究、表征和诊断其他正常和患病的谱系,如红细胞、T淋巴和其他,包括具有多个谱系(如骨髓谱系)的那些(参见Shulman H,1999,同上;Wells DA,1998,同上;以及Loken MR和Wells DA,NormalAntigen Expression in Hematopoiesis:Basis for Interpreting Leukemia Phenotypes,inImmunophenotyping,Eds Carleton Stewart and Janel K.A.Nicholson,2000,Wiley-Liss公司)。
B淋巴细胞谱系是单一谱系,并且被很好地定义为骨髓内的4个发育阶段,在已充分表征的阶段之间具有多个抗原差异。通过表达单一抗原CD19鉴定整个B谱系,从而允许检测B谱系细胞的所有4个阶段。最早的B谱系细胞(阶段I)通过CD34的表达、高水平的CD10和低水平的CD45来鉴定。在阶段II期间,CD34丢失,CD10强度降低2倍,CD45强度增加并且CD20开始表达。一旦CD20达到最大值,则CD45进一步增加,同时CD10的损失表示阶段III。B淋巴发育的最后阶段(IV)的特征在于缺乏CD10、CD22的表达和高水平的CD45。
如本领域技术人员所理解的,可使用本文所述方法表征的其他细胞谱系可包含多个谱系或分支谱系,并且谱系可定义为不同数量的发育阶段。例如,骨髓谱系包括红细胞和粒细胞-单核细胞谱系等。粒细胞-单核细胞谱系分支成单核细胞和中性粒细胞谱系。
中性粒细胞可分为五个可鉴定的阶段。通过CD34的表达鉴定的阶段I成髓细胞还以高水平表现出HLA-DR、CD13和CD33,但不表达CD11b、CD15和CD16。这些成髓细胞在前向光散射(FSC)中具有中等大小但具有低侧向散射(SSC)。到阶段II的进展表示为CD34和HLA-DR的丧失、高水平CD15的获取、SSC表达的显著增加,而没有CD11b的表达(参见LokenMR和Wells DA,2000,同上)。阶段II伴随着CD33的轻微降低。中性粒细胞发育的阶段III的特征在于中间水平CD11b的获取、CD13的丧失和与次级颗粒外观相关的SSC减少。通过CD13和CD16的相关增加以及CD33表达的进一步轻微降低来指示阶段IV。阶段V对应于外周血中发现的成熟中性粒细胞。该细胞具有最大量的CD16、CD13和CD45,同时密度增加。
基于细胞表面抗原的表达,单核细胞谱系具有三个可检测的阶段。单核细胞发育在成髓细胞阶段后具有两个成熟阶段(与中性粒细胞发育的阶段I无法区分)。与在早幼粒细胞阶段快速丧失该抗原的中性粒细胞相对比,这些细胞在其整个发育过程中保留HLA-DR。单核细胞的成熟(阶段II)首先通过CD11b的快速出现来鉴定,同时保持中间水平的CD45。单核细胞发育的阶段II伴随着CD13和CD33表达的增加以及CD15的低表达。发育的阶段III由CD45和CD14二者的协调增长来定义(参见Loken MR和Wells DA,2000,同上)。
红细胞仅具有两个阶段(参见Loken M,1992,同上)。通过阶段I CD45的丧失和CD71的增加鉴定对该谱系的提交。血型糖蛋白的表达和血红蛋白的出现标志着第二阶段。通过网织红细胞中细胞核的丧失、CD71的减少以及随后RNA的丧失来观察红细胞成熟的最后步骤(参见Loken,MR,Shah VO,Dattilio KL,Civin CI(1987)Flow cytometric analysis of human bone marrow.I.Normal erythroid development.Blood 69:255-263)。
如Loken MR和Wells DA,2000,同上中所述,T淋巴细胞可通过10种抗原(CD1a、CD2、CD3、CD4、CD5、CD7、CD8、CD10、CD34、和CD45)的反应性模式分为胸腺发育的四个阶段。三个阶段由多个抗原差异明确定义,而第四个阶段由大小区分。
因此,如本领域技术人员在阅读本说明书时所理解的,使用B淋巴谱系作为实例的本文所述方法可用于在n维空间中表征其他细胞谱系,如本文所述和本领域已知的那些。
在关于B淋巴谱系的本文所述实施方案中,使用具有四种颜色的两个试剂管鉴定B细胞发育的所有四个阶段:
管1:CD20FITC、CD10PE、CD45PerCP和CD19APC。
管2:CD22FITC、CD34PE、CD45PerCP和CD19APC。
两个管中标记物(CD19和CD45)的冗余允许比较不同管之间的数据。在该研究中,在FACS Calibur流式细胞仪(Becton Dickinson,San Jose,CA)上收集200,000个事件的数据组。样品制备程序是标准的并且遵循固定的方案。参见Am.J.Clin.Path.110:84-94,同上。以FCS格式收集来自两个表型正常患者的列表模式数据用于分析。将由精通流式细胞术和血液病理学二者的人(如医生)鉴定的集群与由使用集群算法的诊断系统104鉴定的那些集群进行比较。将由专业人员鉴定的集群的视觉中心与由诊断系统104生成的那些视觉中心进行比较。该过程是迭代的,因为用户基于来自集群算法的结果修改所鉴定的集群,并使用修改的集群定义运行另外的集群算法。
对管1中的一组正常骨髓B淋巴细胞进行四色分析。收集样本以获得200,000个事件用于分析。将细胞置于管中并用试剂CD20-荧光素(FITC)、CD10藻红蛋白(PE)、CD45多甲藻素叶绿素蛋白(PerCP)和CD19别藻蓝蛋白(APC)染色。使用流式细胞术测量暴露细胞的特征(参见图1的流式细胞仪106)。系统(如图1中所示的系统100)使用从测量结果接收的数据和来自用户(如专业人员或技术人员)的输入的组合来测量和分析样品,如以下更详细地讨论的。
可采用公众可得的流式细胞术标准FCS 2.0规范来存储样品中细胞的测量特征。可采用其他数据格式和数据结构,例如可采用FCS 1.0或FCS 3.0格式。用于存储数据组的示例数据结构200在图2中示出。参考图1和2,解析器114解析首部部分202、文本部分204、数据部分206和分析部分208以及收集的信息,包括参数名称、数据点的总数和数据类型细节。首部部分202描述数据结构200中的其他部分的位置。首部部分202含有文本204、数据206和分析208部分的起始点和结束点的偏移信息。文本部分204含有一系列ASCII编码的关键字-值对,其描述数据结构200的各个方面。例如,$TOT/5000/是关键字-值对,其指示文件中的事件总数是5000,而$PAR给出总参数号。数据部分206含有原始数据。此类数据通常是在文本部分204中由例如$MODE关键字值描述的三种模式(列表、相关或不相关)中的一种中。例如,数据可以由$DATATYPE关键字值所述的四种格式(二进制,浮点,双精度浮点或ASCII)中的一种写入数据部分206。一种常见的数据存储形式是为二进制整数形式的列表模式存储($DATATYPE/I/$MODE/L/)。$PnB关键字组可指定每个参数的存储位宽度。PnR关键字组可指定每个参数的频道编号范围。例如,$PnB/16/$PnR/1024/,其中n是整数,可指定参数n的16位字段和参数n的值从0至1023的范围,其对应于10位。分析部分208是可选的段,当存在时,其可含有数据处理的结果。在收集数据并将其存储在数据结构(如数据结构200)中之后,还可离线进行分析。在测试研究中,未使用分析部分208。然而,分析部分208可用于存储定义数据组的质心线和半径的信息。
FCS 2.0格式的数据偏移在属性文件中给出。示例属性文件300在图3中示出。属性文件含有首部部分302,其含有关于如何读取属性文件300的信息;格式部分304,其含有关于数据结构200的格式的信息;以及过滤器部分306,其含有解析器114可用于过滤存储在数据结构200中的数据的信息。解析器114使用从属性文件300提取的信息来解析加载的数据结构200。可容易地修改属性文件300以允许使用各种数据文件格式,如各种流式细胞术标准格式。
系统100可使用对应于CD19的荧光强度作为初始门。因此,不需要评估200,000细胞事件列表中的所有200,000个细胞,可仅评估CD19阳性细胞(其包括所有B谱系细胞)。这通过增加待分析的B谱系细胞的数量来增强统计学,而不增加将B淋巴细胞与骨髓中大多数其他细胞区分开所需的计算时间。如果感兴趣的细胞上没有这样的门,则可能需要6-8小时的计算时间来鉴定200,000细胞事件列表中的集群。未成熟B淋巴细胞(阶段I-III)的比例平均小于正常骨髓中所有有核细胞的2%。参见Loken,M.R.,Shah,V.O.,Dattilo,K.L.,Civin,C.L.,Flow Cytometry Analysis of Human Bone Marrow:II.Normal B Lymphoid Development,Blood 70:1316(1987)。因此,通过将总计数增加至200,000,并且对相对不频繁的CD19阳性细胞进行选通,分析感兴趣的细胞,同时维持整个数据组并避免在数据收集期间通过电子选通为CD19引入的伪像。然而,在替代实施方案中,可采用在数据收集期间用于CD19的电子选通。
来自如上关于管1所述收集的示例正常数据组的感兴趣的群体在图4A至9A中示出为使用WinList生成的一系列四色分析显示。感兴趣的群体还可以其他方式显示,如对应的四色调分析显示,其在图4B至9B中示出。图4A至9A和4B至9B在本文中统称为图4至9。
最初在6维数据(4色和2个光散射参数)的多个2×2显示投影中鉴定事件集群。显示可以是例如笛卡尔坐标系中的数据的表示。显示投影可由图1中所示的图形引擎120生成。用户(如精通流式细胞术和血液病理学二者的人)在坐标系(其中水平轴对应于前向光散射并且垂直轴对应于侧光散射)中的2×2显示投影中鉴定ML区域,如图4所示。ML区域对应于有核细胞。用户在坐标系(如笛卡尔坐标系,其水平轴对应于侧光散射并且垂直轴对应于CD45的荧光强度水平)中的2×2显示投影中鉴定淋巴、单核细胞、骨髓和母细胞区,如图5所示。用户在坐标系(其水平轴对应于侧光散射并且垂直轴对应于CD19的荧光强度水平)中的2×2显示投影中鉴定B淋巴细胞,如图6所示。
用户在坐标系(其水平轴对应于CD19的荧光强度水平并且垂直轴对应于CD45的荧光强度水平)中的2×2显示投影中鉴定阶段I集群、阶段II集群和阶段III/IV集群,如图7所示。这些阶段对应于B淋巴细胞的成熟水平。用户在坐标系(其水平轴对应于CD10的荧光强度水平并且垂直轴对应于CD45的荧光强度水平)中的2×2显示投影中鉴定阶段I集群、阶段II集群、阶段III集群和阶段IV集群,如图8所示。用户在坐标系(其水平轴对应于CD20的荧光强度水平并且垂直轴对应于CD10的荧光强度水平)中的2×2显示投影中鉴定阶段I集群、阶段II集群、阶段III集群和阶段IV集群,如图9所示。
基于图4-9的用户评估,将访问的细胞分配给初始集群。这导致七维正常数据组,维度对应于:前向光散射;侧光散射;CD19荧光强度水平;CD45荧光强度水平;CD20荧光强度水平;CD10荧光强度水平;和集群,对应于B细胞群体内的成熟阶段。为每个集群鉴定分配颜色,并将数据映射到六维空间中。数据由诊断系统(如图1中所示的诊断系统104)显示在可旋转的伪三维图形显示(其具有基于集群鉴定的颜色编码)中。
诊断系统104将正常数据组映射到三轴坐标系(如笛卡尔坐标系),并显示数据供用户查看。每个轴对应于数据组的一个维度,同时颜色指示特定细胞被分配到的集群。数据组还可以表格显示或以组合显示表示。图10A和10B(统称为图10)示出了将伪三维图形表示402与表格表示404组合的示例显示400。图10A是彩色显示并且图10B是对应的阴影显示。
图形表示402包括对应于CD20的荧光强度的x轴406、对应于CD10的荧光强度的y轴408,以及对应于CD45的荧光强度的z轴410。第一集群412中的数据被分配为红色并且对应于阶段I成熟水平。第二集群414中的数据被分配为绿色并且对应于阶段II成熟水平。第三集群416中的数据被分配为蓝色并且对应于阶段III成熟水平。第四集群418中的数据被分配为黄色并且对应于阶段IV成熟水平。
表格表示404包括指示集群编号的第一列420、指示集群中的点数量的第二列422、指示分配给集群的颜色或阴影的第三列424、指示集群半径的第四列426、指示事件或点的总组中异常事件或点的百分比的第六列428和指示集群的质心点与集群的统计质心点之间的对数距离是否大于阈值的第七列430。如图所示的显示400可以是交互式计算机显示。用户可使用数据输入字段432、434更新用于生成显示400的信息。如图所示,在字段434中将阈值设置为2.5。
诊断系统104允许用户使用图形用户界面(GUI)的菜单选择要映射数据的三个轴。图11A和11B示出了可由诊断系统(如图1中所示的诊断系统104)采用的示例菜单436。诊断系统104还允许用户通过菜单选择其他设置。例如,可包括菜单选择用于:在不同的存储过滤参数之间进行选择、编辑存储的过滤参数;并指定新的过滤参数。例如,可过滤高分辨率数据以排除具有对应于多于102的侧向散射参数和对应于小于10至1.6989701的CD19参数的数据。菜单选择还允许选择要过滤的坐标系中的平面。可采用多个过滤标准,并且过滤标准可大于或小于指定的阈值。菜单系统还允许选择应用各种过滤标准的特定集群。这允许用户查看正常数据组的各种伪三维显示,以帮助用户选择初始数据以供诊断系统104在定义正常数据组的质心线和半径时使用。诊断系统104还允许菜单选择标准偏差方法或固定值和显示图像的旋转。诊断系统104还可基于所选择的质心和半径显示数据组的集群边界。
正常数据组还可包括对应于单独样品的单独数据文件。例如,用户可检查和操纵包括从单个个体和单个管抽取的细胞的数据组,或者用户可将从多个个体和/或管抽取的样品组合成单个正常数据组。如果从个体抽取的样品被认为是异常的,则可将该样品排除在正常数据组之外。
参考该研究,在来自管1的示例B淋巴数据组中,该值n等于6。每个n维点均映射到n维空间,其可通过n+1个浮点参数在浮点阵列中表示。表1示出了示例六维B淋巴数据组的浮点阵列,其中P1PR1是第一个点的第一个参数的值,P2PR1是第二个点的第一个参数的值,......PnPR1是第n个点的第一个参数的值等,其中为分配了点的集群添加了第七个参数PnC#。浮点阵列可针对任何数量的维度进行推广。诊断系统104对n维空间中的正常数据组进行一个或多个选择的集群算法,从而改进了点到集群的分配。
P<sub>1</sub>PR<sub>1</sub> P<sub>1</sub>PR<sub>2</sub> P<sub>1</sub>PR<sub>3</sub> P<sub>1</sub>PR<sub>4</sub> P<sub>1</sub>PR<sub>5</sub> P<sub>1</sub>PR<sub>6</sub> P<sub>1</sub>C#
P<sub>2</sub>PR<sub>1</sub> P<sub>2</sub>PR<sub>2</sub> P<sub>2</sub>PR<sub>3</sub> P<sub>2</sub>PR<sub>4</sub> P<sub>2</sub>PR<sub>5</sub> P<sub>2</sub>PR<sub>6</sub> P<sub>2</sub>C#
P<sub>3</sub>PR<sub>1</sub> P<sub>3</sub>PR<sub>2</sub> P<sub>3</sub>PR<sub>3</sub> P<sub>3</sub>PR<sub>4</sub> P<sub>3</sub>PR<sub>5</sub> P<sub>3</sub>PR<sub>6</sub> P<sub>3</sub>C#
... ... ... ... ... ... ...
P<sub>n</sub>PR<sub>1</sub> P<sub>n</sub>PR<sub>2</sub> P<sub>n</sub>PR<sub>3</sub> P<sub>n</sub>PR<sub>4</sub> P<sub>n</sub>PR<sub>5</sub> P<sub>n</sub>PR<sub>6</sub> P<sub>n</sub>C#
表1:六维数据组的浮点阵列
诊断系统104允许用户使用选择的集群算法来集群数据。例如,用户可指定多个集群,k,并使用K均值算法来集群数据。例如,诊断系统104可将数据划分为k集群并将中心分配给每个集群。可将中心随机分配给其中一个点,或者基于用户的观察输入。n维空间中两点之间的距离可定义如下:
D(P1,P2)=SQRT[(K1(P1PR1-P2PR1))2+(K2(P1PR2-P2PR2))2+
+(K3(P1PR3-P2PR3))2+...+(Kn(P1PRn-P2PRn))2] 方程1
其中D(P1,P2)是n维空间中两点之间的距离,并且P1PR1是第一个点的第一个参数的值,P2PR1是第二个点的第一个参数的值,......PnPR1是第n个点的第一个参数的值等,并且K1、K2、K3.....Kn是加权常数。在该研究中,加权常数设定为等于1。换句话说,该研究中未采用加权。可迭代地更新这些中心,直到满足收敛标准。在每次迭代中,每个数据点被分配到其最近的中心,并且使用属于集群的所有点的平均参数值来重新计算中心。该研究中使用的典型收敛标准是没有(或极少)将点重新分配给新集群中心。参见Forgy,E,Cluster Analysis ofMultivariate Data:Efficiency vs.Interpretability of Classifications,Biometrics,21:768(1965),用于讨论k均值集群。
另一个示例集群算法是DBSCAN集群算法。定义邻域半径Eps和邻域中的阈值点数minPts,并且诊断系统104采用DBSCAN集群算法。邻域半径和阈值点数由用户定义。基于密度的集群是基于集群的密度高于其周围环境的事实。DBSCAN在给定的密度阈值下自动发现密集集群。参见Ester,M.,Kriegel,H.,Sander,J.,Xu,X.,A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise,In Proceedingsof 2d International Conference on KDD(1996),用于讨论DBSCAN集群。根据定义,密度阈值由两个参数指定:邻域半径(Eps)和∈-邻域中的阈值点数(minPts)。如果‘p’在‘q’的∈-邻域中,则点‘p’是从点‘q’直接可达的密度。如果存在点‘pi’链,其中i=1…n并且‘pi+1’是从‘pi’直接可达的密度,‘q’是‘p1’并且‘p’是‘pi+1’,则点‘p’是从‘q’可达的密度。如果存在点‘o’使得‘p’和‘q’二者均是从‘o’可达的密度,则点‘p’与另一个点‘q’密度连接。在该研究中,诊断系统104通过将点引入临时存储(tempStore,例如列表)并找到其∈-邻域来开始。如果数据点的∈-邻域包含小于‘minPts’点,则它被标记为噪声并且另一个点被引入tempStore。否则,所有∈-邻域点均被引入tempStore。重复整个过程直到所有点均被考虑。简而言之,DBSCAN集群将密度连接点组合在一起作为密集集群并移除未密度连接的点作为噪声。
诊断系统104还可采用例如桥接集群来集群数据。桥接集群将K均值集群与DBSCAN集群组合。参见Dash,M.,Liu,H.,Xu,X.,‘1+1>2’:Merging Distance and Density Based Clustering,Proceedings of the IEEE 7th International Conference on DatabaseSystems for Advanced Applications(DASFAA’01),四月18-21日,2001,香港,中国,用于讨论桥接集群。首先进行K均值,随后在每个k均值集群上进行基于密度的集群,并且最后,通过移除基于密度的集群中发现的噪声来细化k均值集群。为了有效合并,每个数据点均具有以下三列来存储集群的结果:<k均值_ID>、<DBSCAN_ID>和<核心/∈-核心/非/核心>,其中:
K-均值_ID是在数据点上运行k均值时分配给每个点的集群;
DBSCAN_ID是在每个k均值集群上运行DBSCAN时分配给每个点的集群;并且
核心/∈-核心/非核心值基于以下定义分配:
定义1(核心距离):对于每个集群,核心距离是其中心与其最近集群中心之间距离的一半。
定义2(核心点):通过“核心距离-∈”,其离其集群中心不远。集群的核心区域是其中每个数据点均是核心的区域。
定义3(+∈核心点):其与集群中心的距离介于“核心距离”与“核心距离+∈”之间。
定义4(-∈核心点):其与集群中心的距离介于“核心距离”与“核心距离-∈”之间。为方便起见,当考虑+∈和-∈核心点时,将它们一起表示为∈-核心。∈-核心区域是其中每个点均是∈-核心的区域。
定义5(非核心点):其既不是核心也不是∈-核心点。非核心区域是其中每个点均是非核心的区域。
诊断系统104还可采用小波集群。小波变换是傅立叶变换的一种特殊形式。参见Press,W.H.,Flannery,B.P.,Teukiosky,S.A.,Numerical Recipes ln C:The Art of Scientific Computing,Ch.13.10,Cambridge University Press(1992)。该技术已在图像处理和数据挖掘领域中得到很好的建立,用于图案和边缘识别。参见Sheikholeslami,G.,Chatterjee,S.,Zhang,A.,WaveCluster:A Multi-Resolution Clustering Approach for Very Large Spatial Databases,Proceedings of the 24th VLDB Conference,NewYork,USA,1998。例如,可采用标准的Daubechies小波滤波和N-维离散小波变换(NDDFT)。
以类似的方式,在第二管(CD22、CD34、CD45、CD19)中鉴定第二正常数据组中的相同群体(阶段),如图12A至17A中的颜色和图12B至17B中的阴影所示(在本文中统称为图12至17)。用户在坐标系(其中水平轴对应于前向光散射并且垂直轴对应于侧光散射)中的2×2显示投影中鉴定ML区域,如图12所示。ML区域对应于有核细胞。用户在坐标系(其水平轴对应于侧光散射并且垂直轴对应于CD19的荧光强度水平)中的2×2显示投影中鉴定B淋巴细胞,如图13所示。
用户在坐标系(其水平轴对应于CD19的荧光强度水平并且垂直轴对应于CD45的荧光强度水平)中的2×2显示投影中鉴定阶段I集群、阶段II集群和阶段III/IV集群,如图14所示。这些阶段对应于B淋巴细胞的成熟水平。用户在坐标系(其水平轴对应于CD22的荧光强度水平并且垂直轴对应于CD34的荧光强度水平)中的2×2显示投影中鉴定阶段I集群、阶段II/III集群和阶段IV集群,如图15所示。用户在坐标系(其水平轴对应于CD34的荧光强度水平并且垂直轴对应于CD45的荧光强度水平)中的2×2显示投影中鉴定阶段I集群、阶段II/III集群和阶段IV集群,如图16所示。用户在坐标系(其水平轴对应于CD22的荧光强度并且垂直轴对应于CD45的荧光强度)中的2×2显示投影中鉴定阶段I集群、阶段II/III集群和阶段IV集群,如图17所示。将管1和管2的结果组合以产生单个正常数据组,如以下更详细描述的。
一旦用户选择性地使用集群软件鉴定和细化集群,则为正常集群定义质心线和半径,其中每个集群对应于细胞谱系内的细胞成熟水平。图18A至18C示出了子程序500的一个实施方案,该子程序500可用于定义正常细胞群体,如上所述相对于图1所示的系统100和收集在管1和2中的B淋巴细胞进行讨论。定义正常细胞群体的整个过程应被视为迭代的过程。其他细胞谱系(如骨髓谱系)可包含多个谱系或分支谱系。在此类情况下,可定义多个质心线,或者定义的质心线可具有分支。
子程序500在502处开始并且进行到504。在504处,系统100通过对CD19阳性细胞进行选通、产生第一正常数据组,并且进行到506,过滤通过测量管1中细胞特征而收集的数据组。在506处,系统100通过对CD19阳性细胞进行选通、产生第二正常数据组,并且进行到508,过滤通过测量管2中细胞特征而收集的数据组。
在508处,系统100区分第一数据组中的成熟和未成熟细胞。这可通过例如绘制CD45的荧光强度对CD19的荧光强度并基于来自用户的输入以及自动化集群技术来集群第一数据组而完成。系统进行到510,在那里其确定是否修改第一数据组中的成熟与未成熟细胞之间的区别。该决定可基于自动化集群技术的结果、数据的统计分析和/或基于该区别生成的数据组的显示,并且可以是自动的和/或基于来自用户的输入。如果系统100确定应当修改该区别,则系统100返回到508。如果系统100确定不应当修改该区别,则系统100进行到512。
在512处,系统100鉴定第一数据组中表示阶段I、II、III和IV的集群。这可通过例如绘制CD45的荧光强度对CD10和CD20的荧光强度并基于来自用户的输入以及自动化集群技术来集群数据而完成。系统100进行到514,在那里其确定是否修改第一数据组中的集群的鉴定。该决定可基于自动化集群技术的结果、数据的统计分析和/或基于该鉴定生成的数据组的显示,并且可以是自动的和/或基于来自用户的输入。如果系统100确定应当修改该鉴定,则系统100返回到512。如果系统100确定应当接受该鉴定,则系统进行到516。
在516处,系统100鉴定第二数据组中表示阶段I的集群。这可通过例如绘制CD34的荧光强度对CD45的荧光强度并基于来自用户的输入以及自动化集群技术来集群数据而完成。系统进行到518,在那里其确定是否修改第二数据组中的阶段I集群的鉴定。该决定可基于自动化集群技术的结果、数据的统计分析和/或基于该鉴定生成的数据组的显示,并且可以是自动的和/或基于来自用户的输入。如果系统100确定应当修改该鉴定,则系统100返回到516。如果系统100确定应当接受该鉴定,则系统进行到520。
在520处,系统100鉴定第二数据组中表示阶段IV的集群。这可通过例如绘制CD22的荧光强度对CD34的荧光强度并基于来自用户的输入以及自动化集群技术来集群数据而完成。系统进行到522,在那里其确定是否修改第二数据组中的阶段IV集群的鉴定。该决定可基于自动化集群技术的结果、数据的统计分析和/或基于该鉴定生成的数据组的显示,并且可以是自动的和/或基于来自用户的输入。如果系统100确定应当修改该鉴定,则系统100返回到520。如果系统100确定应当接受该鉴定,则系统进行到524。
在524处,系统100鉴定第二数据组中表示阶段II和III的集群。这可通过例如基于来自用户的输入以及自动化集群技术,绘制CD34的荧光强度对CD45的荧光强度而完成。系统进行到526,在那里其确定是否修改第二数据组中的阶段II/III集群的鉴定。该决定可基于自动化集群技术的结果、数据的统计分析和/或基于该鉴定生成的数据组的显示,并且可以是自动的和/或基于来自用户的输入。如果系统100确定应当修改该鉴定,则系统100返回到524。如果系统100确定应当接受该鉴定,则系统进行到528。
在528处,系统100为在动作512、516、520和524处鉴定的每个集群定义质心线。用于集群的质心线可以是分形的,并且可基于来自用户的输入以及自动化集群技术来确定。用于集群的质心线可通过例如将n维空间中的几何平均值与由集群算法确定的质心点组合来定义。系统进行到530,在那里其确定是否修改所鉴定集群的定义的质心线。该决定可基于自动化集群技术的结果、数据的统计分析和/或基于该鉴定生成的数据组的显示,并且可以是自动的和/或基于来自用户的输入。如果系统100确定应当修改该鉴定,则系统100返回到528。如果系统100确定应当接受该鉴定,则系统进行到532。
在532处,系统100基于组合的数据组定义对应于正常成熟谱系的正常质心线。这可通过例如使用几何弯曲连接所鉴定集群的定义的质心线来完成。系统100还可将来自用户的输入与自动化集群技术组合以定义正常质心线。如与开始和结束相比,沿着该质心线的距离是如通过单克隆试剂的特定组合评估的给定谱系的那些细胞的成熟度量。应当注意,可使用不同的抗体组合来扩增成熟过程的某些部分,而其他组合则集中于其他成熟阶段或其他谱系。
系统进行到534,在那里其确定是否修改正常质心线的定义。该决定可基于自动化集群技术的结果、数据的统计分析和/或基于该鉴定生成的数据组的显示,并且可以是自动的和/或基于来自用户的输入。如果系统100确定应当修改该定义,则系统100返回到532。如果系统100确定应当接受该定义,则系统进行到536。
在536处,系统100围绕定义的正常质心线定义边界或正常半径。正常半径或边界可以是固定半径,或者其可变化。例如,其可以是固定的距离,如10,或者其可以是定义的正常质心线上或n维空间中的位置的函数。一个定义可用于定义的正常质心线的第一部分,并且第二定义可用于定义的正常质心线的其他部分。可使用统计算法(如小波集群技术和/或K均值边缘包络技术(使用集群的密度))和/或基于来自用户的输入来确定正常半径。还可采用用于定义特定三维模式的平滑算法,并将其与统计确定数量的文件的观察结果进行比较。
系统100进行到538,在那里其确定是否修改定义的正常半径。该决定可基于自动化集群技术的结果、数据的统计分析和/或基于该鉴定生成的数据组的显示,并且可以是自动的和/或基于来自用户的输入。如果系统100确定应当修改该定义,则系统100返回到536。如果系统100确定应当接受该定义,则系统进行到540,在那里子程序500停止。
在一些实施方案中,系统100可进行图18A至18C中未示出的其他动作,可不进行图18A至18C中示出的所有动作,或者可以不同的顺序进行图18A至18C的动作。例如,可以使子程序更加迭代。例如,可修改子程序500,使得系统100在动作538之后确定是否修改定义的正常质心线,并且如果是,则返回到532。子程序500还可调用其他子程序来进行各种功能,如以下参考图19描述的子程序600。子程序500还可返回任何所希望变量的值,如用户输入的数据。
图19是示例子程序600的流程图,子程序600可由诊断系统(如图1中所示的诊断系统104)采用,以定义集群组的正常质心线。图20A和20B(统称为图20)示出了来自该研究的数据的图形表示、初始参考质心线702和计算的正常质心线704。
子程序600在602处开始并且进行到604。在604处,诊断系统104鉴定参考点组。例如,诊断系统104可在查看数据组的各种表示之后鉴定用户选择的十个参考点。可替代地,诊断系统104可鉴定多个统计选择的参考点,或者可将来自用户的输入与统计分析组合。在该研究中,用户在查看数据的各种表示之后选择了十个参考点。
诊断系统104进行到606,在那里其基于所鉴定参考点组来定义参考质心线。图20示出了基于用户在研究中鉴定的十个参考点定义的示例初始参考质心线702。
诊断系统104进行到608,在那里其确定其中将数据分组的集群的数量。例如,在该研究中,诊断系统104基于来自用户的输入将数据分组为四个集群。可替代地,可统计地(通过使用,例如,dbscan集群)或通过使用来自用户的输入结合统计分析来确定集群的数量。
诊断系统104进行到610,在那里其鉴定对应数量的集群的质心点。这可通过基于用户输入或统计算法或其组合将每个点分配给集群来完成。参见以上集群算法的讨论。将分配给集群的所有点的各个参数值加在一起,然后将结果除以集群中的点数量,以获得质心点的参数值。例如,如果诊断系统104在动作608处确定将数据分组为四个集群,则诊断系统104将鉴定四个质心点,每个点对应于一个集群。以下产生的表2示出了在3维空间中含有5个数据点的集群的质心点的示例计算。
表2:质心点的示例计算
为了便于说明,选择表2的点数量、维度数量和参数值。
诊断系统104进行到612,在那里其针对每个所鉴定质心点确定参考质心线上的对应最近点。
诊断系统104进行到614,在那里其计算每个质心点与参考质心线上的最近点之间的差异。在该研究中,这是使用以上讨论的平方距离公式完成的,而没有加权。参见方程1。
诊断系统进行到616,在那里其基于质心点和最近的参考点来调整参考点。在该研究中,这是通过将质心点与集群的最近点之间的差异添加到该集群中的参考点来完成的。
诊断系统进行到618,在那里其使用调整的参考点和每个集群的质心点重新定义参考质心线。在该研究中,这是通过使用几何弯曲连接每个集群的质心线来完成的。示例重新定义的参考质心线在图20中示为线704。可使用统计分析进一步细化参考质心线。例如,可从数据组移除统计上不重要的点或在定义的半径之外的点。可存储由诊断系统104在采用子程序600时进行的计算以供以后使用。例如,在该研究期间对数据进行集群时,诊断系统104确定质心点与参考点之间的平方距离。存储该数据以用于计算标准偏差值。
诊断系统104进行到620,在那里其返回重新定义的质心线和任何所希望变量的值,如用户输入。诊断系统进行到622,在那里其停止。
在一些实施方案中,系统100可进行图19中未示出的其他动作,可不进行图19中示出的所有动作,或者可以不同的顺序进行图19的动作。例如,可以使子程序更加迭代。例如,可修改子程序600,使得系统100在动作616之后确定是否应当修改集群的数量,并且如果是,则返回到动作608。子程序600还可调用其他子程序来进行各种功能。
图21是示出示例子程序800的流程图,子程序800可由诊断系统(如图1中所示的诊断系统104)采用,以定义集群组的正常质心线和正常半径。
子程序800在802处开始并且进行到804。在804处,诊断系统104鉴定参考点组。例如,诊断系统104可在查看数据组的各种表示之后鉴定用户选择的10个参考点。可替代地,诊断系统104可鉴定多个统计选择的参考点,或者可基于结合来自用户输入的统计分析来鉴定参考点。在该研究中,用户在查看数据的各种显示表示之后选择了参考点。
诊断系统104进行到806,在那里其基于所鉴定参考点组来定义参考质心线。图20示出了基于用户在研究中鉴定的十个点定义的示例初始参考质心线702。
诊断系统104进行到808,在那里其确定其中将数据分组的集群的数量。例如,在该研究中,诊断系统104基于来自用户的输入将数据分组为四个集群。
诊断系统104进行到810,在那里其鉴定对应数量的集群的质心点。这可通过基于用户输入或统计算法,或如在该研究中基于其组合将每个点分配给集群来完成。参见以上集群算法的讨论。将分配给集群的所有点的各个参数值加在一起,然后将结果除以集群中的点数量,以获得质心点的参数值。例如,如果诊断系统104在动作808处确定将数据分组为四个集群,则诊断系统104将鉴定四个质心点,每个点对应于一个集群。
诊断系统104进行到812,在那里其针对每个所鉴定质心点确定参考质心线上的对应最近点。
诊断系统104进行到814,在那里其计算每个质心点与参考质心线上的最近点之间的差异。在该研究中,这是使用以上讨论的平方距离公式完成的,而没有加权。参见方程1。
诊断系统104进行到816,在那里其通过使用来自用户的输入、统计分析或其组合,基于质心点和最近的参考点来调整参考点。在该研究中,质心点与集群的最近点之间的差异被添加到该集群中的参考点。
诊断系统104进行到818,在那里其使用调整的参考点和每个集群的质心点重新定义参考质心线。在该研究中,这是通过使用几何弯曲、插值等连接每个集群的质心线来完成的。例如,可在弯曲中将两个质心点括起来,基于对正常患者数据组的分析,例如基于正常患者的平均值,可在间隙中添加另外的次要点。示例重新定义的参考质心线在图20中示为线704。
诊断系统104进行到820,在那里其定义集群组的半径。如上所述,半径可以是参考质心线上或n维空间中的位置的函数。参考质心线和半径可形成各种集群形状。例如,球形集群、超球面或超椭圆体可由参考质心线和半径定义。集群的形状可像香肠或杠铃或各种其他形状。在该研究中,用户输入正常集群组中的每个集群的半径,这些半径是距参考质心线上的最近点的距离。
诊断系统104进行到822,在那里其确定是否满足错误标准。例如,诊断系统104可确定统计上不重要数量的点是否在由参考质心线和半径定义的集群之外。如果满足错误标准,则诊断系统104进行到824,在那里子程序返回数据组的定义的质心线和半径,以及任何其他所希望的变量。如果不满足错误标准,则诊断系统104进行到826,在那里其调整数据组。例如,诊断系统104可确定应当忽略数据组中的统计上不重要的点。诊断系统104返回到810,以进一步处理调整后的数据组。
系统100的一些实施方案可进行图21中未示出的其他动作,可不进行图21中示出的所有动作,或者可以不同的顺序进行图21的动作。例如,可以使子程序更加迭代。子程序800还可调用其他子程序来进行各种功能。例如,子程序800可调用子程序来确定所鉴定集群是否应当被重新集群,如图22中所示的子程序900。
图22是示出示例子程序900的流程图,子程序900可由诊断系统(如图1中所示的诊断系统104)采用,以确定数据组中的点是否包含在由质心线和半径定义的集群组中。该信息可由诊断系统104使用以例如确定是否应当重新定义定义的正常集群组,因为太多的细胞被分类为异常,或者检测测试细胞组中的异常细胞。
子程序在902处开始并且进行到904。在904处,诊断系统104检索数据组并进行到906。在906处,诊断系统104设置与数据组中的每个点相关的数据字段,以指示子程序尚未对该点进行分类并且进行到908。
在908处,诊断系统104从数据组检索与所选择集群相关的点,并且进行到910。在910处,诊断系统104确定与所选集群相关的未分类点是否在所选集群的质心线和半径内。这可通过例如计算未分类点与集群质心线上的最近点之间的距离来完成,如果该距离小于质心线上最近点处的集群半径,则将该点分类为正常,并且如果该距离不小于质心线上最近点处的集群半径,则将该点分类为异常。
如果诊断系统104在910处确定该点在所选择集群内,则诊断系统104进行到912,在那里其将该细胞分类为正常并且指示该细胞已被分类。如果诊断系统104在910处确定该点不在所选择集群内,则诊断系统104进行到914,在那里其将该细胞分类为异常并且指示该细胞已被分类。可采用相同的数据字段来指示细胞是否未分类、是否被分类为正常,或被分类为异常。可替代地,可采用两个或更多个数据字段来分别指示细胞是否已被分类,并且如果是,则指示细胞是正常还是异常。
诊断系统104从912或914进行到916,在那里其确定是否已对与所选择集群相关的所有细胞进行了分类。如果916处的答案是NO,则诊断系统104返回到910。如果916处的答案是YES,则诊断系统104进行到918。在918处,诊断系统104确定是否已处理了集群组中的所有集群。如果918处的答案是NO,则诊断系统104返回到908。如果918处的答案是YES,则诊断系统104进行到920,在那里子程序900停止。
系统100的一些实施方案可进行图22中未示出的其他动作,可不进行图22中示出的所有动作,或者可以不同的顺序进行图22的动作。例如,可修改子程序900以顺序处理数据组,而不是一次处理数据集群,并且不设置数据点是否已被分类的指示。子程序900还可调用其他子程序,例如,子程序900可调用子程序来计算点与质心线上的最近点之间的距离。
由系统100生成的数据(包括为定义正常细胞谱系而生成的数据和来自测试细胞组的数据)可以各种格式表示并用于各种目的。例如,如上所述,数据可显示为笛卡尔坐标系中的多维数据的多个2×2投影,或者作为笛卡尔坐标系中的多维数据的伪三维投影。参见以上讨论的图4-10和12-17和20。颜色或阴影可用于示出另外的维度。这些显示数据的方法对于用户定义和重新定义给定成熟谱系的正常质心和半径特别有用。
数据还可显示为沿着定义的质心线的连续细胞频率的二维图。沿着质心线的位置对应于成熟过程中的时间测量。因此,可生成直方图,其显示整个成熟过程中细胞的组分布。图23A和23B(统称为图23)示出了对于B淋巴细胞谱系沿着定义的正常质心线的采样连续细胞频率的绘图。水平轴1对应于沿着定义的质心线的位置。沿着水平轴1鉴定对应于成熟阶段的四个集群2、3、4、5。垂直轴6对应于沿着质心线的各个采样点处的数据组中的点数量。在图23中,如下为质心线选择108个采样点。鉴定了沿着质心线的十个参考点。计算了十个参考点沿着质心线的中点,得到19个点。然后计算出19个点的6个中点,得到108个点。还显示了针对每个集群采样的总数据点的百分比。
可使用另外的样本来定义正常质心和半径。例如,上述双管4色板工艺可用于染色大量表现出正常抗原表达的骨髓样本。这些样本可从常规工作流程选择,并且可包括来自以下的样本:骨髓供体、没有血液肿瘤的患者,以及被移植用于非ALL的疾病的具有100%供体嵌合体移植的移植后患者。样本可包括儿科和成人样本二者。另外的样本可以是随机的,或者根据希望的标准(如性别、年龄或少数组)选择。预期按性别、年龄或少数组的选择将不导致B淋巴成熟谱系的定义的正常质心和半径的显著差异。
扩展的数据组可用于评估从其收集样本的个体的集群位置的变异性以及样本的常规分析中预期的组成差异。该数据组还可包括和/或与来自具有异常骨髓样本的患者的数据进行比较,这些样本不是克隆或肿瘤过程的结果,如来自仅含有最不成熟细胞的早期干细胞移植后患者或用Rituxan(抗CD20)治疗的患者的样本。在这些患者中,骨髓中的B淋巴发育在阶段II开始时被截短,同时表达CD20的任何细胞被药物消除。还可将数据组与将仅含有阶段IV细胞的外周血样本进行比较。
图24是示例子程序1000的流程图,子程序1000可由诊断系统(如图1中所示的诊断系统104)采用,以将测试数据组与由质心点定义的正常集群组进行比较。该信息可由诊断系统使用以例如确定是否应当重新定义定义的正常集群组。
子程序在1002处开始并且进行到1004。在1004处,诊断系统104检索测试数据组并进行到1006。在1006处,诊断系统104将测试数据组中的点分配给集群,如本文其他地方所讨论(例如,使用选通、使用集群算法、使用支持向量机等,及其各种组合),并且进行到1008。在1008处,诊断系统104确定测试数据组中的每个集群的质心点,如上所述。例如,诊断系统可通过为集群中的每个点添加对应的参数值并将结果除以集群中的点数量来确定集群的质心点的参数值。可替代地,诊断系统可使用统计调整的质心点用于测试数据组。诊断系统104从1008进行到1010。
在1010处,诊断系统104基于先前分析的数据组确定每个集群的对应统计质心点。例如,统计质心点的参数值可通过为一组先前分析的数据组添加用于定义的质心点的对应参数值并将结果除以数据组的数量来确定。诊断系统104从1010进行到1012。
在1012处,诊断系统104确定是否满足测试数据组中的集群的错误标准。例如,诊断系统104可将集群的质心点与对应统计质心点之间的距离的对数与阈值(如2.5)进行比较。如果距离的对数大于阈值,则诊断系统104可确定不满足错误标准。可采用其他错误标准。
如果诊断系统104在1012处确定不满足测试数据组中的集群的错误标准,则诊断系统104进行到1014,在那里为测试数据组中的集群设置错误的指示。如果诊断系统104在1012处确定满足测试数据组中的集群的错误标准,则诊断系统104进行到1014,在那里为测试数据组中的集群设置无错误的指示。
诊断系统104从1014或1016进行到1018,在那里其确定是否已评估了测试数据组中的所有集群。如果诊断系统104在1018处确定并非所有集群均已被处理,则诊断系统104返回到1012。如果诊断系统104在1018处确定测试组中的所有集群均已被评估,则诊断系统104进行到1020,在那里子程序1000停止。
系统100的一些实施方案可进行图24中未示出的其他动作,可不进行图24中示出的所有动作,或者可以不同的顺序进行图24的动作。例如,可修改子程序1000以顺序地比较正常数据组的组中所有数据组,以确定应当从正常数据组的组移除哪些数据组。
一旦为正常成熟谱系定义了集群边界(正常质心和半径),则可通过使测试样品进行相同的试剂暴露和对用于定义正常成熟谱系的数据组使用的测量方案来分析测试样品。然后可将测试数据样品的结果与定义的正常成熟谱系进行比较,从而允许对测试样品进行表征和诊断。系统(如图1中所示的系统100)仅需要提供有正常集群边界的定义以诊断测试样品。可替代地,系统100可提供有定义的正常数据组和定义的质心线和半径,或者系统100可提供有定义的正常数据组并且可确定正常集群边界的定义。
图25示出了适合于为细胞谱系提供定义的正常边界的定义的数据结构1100。数据结构1100和对应的指令可存储在计算机可读介质中,如存储器,其可包括图1中所示的存储器112,或便携式存储器,如CD ROM、软盘和/或闪存,和/或作为信号传输介质(如有线或无线介质)中的信号传输。数据结构1100具有描述数据结构1100的其他部分的位置的首部部分1102。文本部分1104含有描述数据结构1100的各个方面的信息,如集群的数量以及如何定义质心线和半径。例如,质心线可通过提供用于插入方程的参数或通过提供待连接在一起的参考点或其组合来定义。类似地,半径可通过提供用于插入方程的参数或集群的固定半径值或其组合来定义。例如,半径可在一个集群内具有固定值,并且可以是第二个集群内的位置的函数。数据结构1100的质心数据部分1106含有定义质心线的信息,并且半径数据部分1108含有定义半径的信息。如果希望,则可提供用于定义正常质心线和半径的正常数据组,作为数据结构1100或单独数据结构(如图2中所示的数据结构200)中的另外数据字段。
个体集群还可分解为子集群,其可使用类似于以上讨论那些的过程来定义和分析。例如,可修改图21中所示的子程序800以定义子集群的质心线或点和半径,并且可修改图22中所示的子程序900以确定细胞测试组是否含有对应于定义的子集群的子集群。预期dbscan集群将特别可用于鉴定对应于集群内的亚成熟水平的子集群,该集群对应于细胞谱系内的成熟水平。
系统100可用于通过将测试数据组与细胞谱系定义的正常质心线和半径进行比较来诊断测试数据组。整个测试数据组可与定义的正常进行比较,并由诊断系统(如图1中的诊断系统100)在合适的显示装置或介质(如光栅扫描、有源或无源矩阵显示)上或在被动介质(如纸张或牛皮纸)上显示。可替代地,可从测试数据组减去位于“正常”位置内的测试数据组中的数据事件,特别是B谱系淋巴母细胞,留下对应于潜在“异常”细胞(白血病淋巴母细胞)残留群体的“异常”数据组。然后可由诊断系统(如图1中所示的诊断系统104)和用户分析和显示剩余的异常事件。剩余的异常事件可定义测试数据组的异常子组。集群技术(如以上讨论的那些)可用于用测试数据组的异常子组来鉴定集群,并且可采用统计分析来确定异常子组内的任何鉴定的集群是否是重要的。
可在用于诊断癌症之前测试系统100。例如,来自患有明显ALL的患者的许多样本可被染色并收集数据以与正常样本进行比较。预期这些样本将具有系统100将鉴定的可鉴定正常细胞以及将不落入由正常质心线和半径定义的边界内的CD19阳性白血病细胞。应当注意,B谱系ALL白血病细胞均表达CD19,并且因此,将包括在原始选通策略中。
系统100的测试可包括将来自具有正常样本的ALL患者的不同比例的数据混合以模拟残留疾病检测。例如,系统100可处理25个正常样本并生成正常成熟谱系的定义质心线和半径,系统100可将其存储在存储器112中作为数字对象。该信息可用含有异常细胞集群的数据文件上的统计算法循环回来。限制在正常集群区域的细胞事件可被移除,同时剩余事件表示“异常”集群。可将混合物中预期的肿瘤细胞的数量和位置与鉴定的那些进行比较。这可在从测试数据组减去“正常”细胞之前和之后完成。
可采用平滑算法(包括平均和滤波算法)来平滑数据的表示。例如,可平均一个集群的一部分。例如,可知道特定集群的一部分的平均成熟水平是测试样品是否正常的重要指标,但该集群的该部分的个体差异不显著。
可以这种方式同时显示两个数据组的数据。例如,来自测试样品的数据可叠加在用于定义正常质心线的数据上。可使用第一颜色或其他指示符来说明正态分布,并且可使用第二颜色或其他指示符来说明测试样本的分布。
可采用更简化的数据显示,并比较视觉影响和解释正常和/或异常发育的容易程度。例如,可绘制四个B淋巴细胞谱系阶段中每个中细胞的比例,以表示在数据空间中可鉴定的集群。可显示四个集群中的每个的总事件以表示正常骨髓内的细胞和/或针对正常表示的测试样品的成熟。可描绘的异常细胞的参数包括:异常事件的数量、从正常的距离、异常群体内的分散,以及区分异常细胞和正常细胞的细胞标记物。
图26示出了从叠加在定义的正常数据组的表示上的测试样品收集的数据的示例简化表示。水平轴1对应于细胞谱系的成熟水平的指示,并且指示对应于细胞谱系内的成熟水平集群的四个阶段2、3、4、5。垂直轴6对应于各种成熟水平下的细胞数量的指示。该指示可以是例如阶段内的细胞总数量的百分比或对数指示。条带7示出了样品的定义的正常范围。条带7可对应于例如正常细胞组的标准偏差,或者其可对应于正常细胞集组的定义的质心线和半径。虚线8示出了测试样品的结果。
可采用质量控制过程。例如,珠制剂可用于评估仪器性能,如彩虹珠(RCP和RFP,Spherotech,Libertyville,IL),它们是塑料微球,其中染料嵌入颗粒内部从而确保荧光稳定性。RFP珠在四个荧光通道的每个中仅具有单个峰并且用作主要标准。RCP珠(在所有通道中均观察到的六个强度珠的混合物)用作二级标准并提供关于每个荧光检测器的线性的数据。通过用与所使用的每种发色团缀合的抗CD4抗体(FITC、PE、PerCP和APC)染色正常血液来建立和监测荧光发射光谱补偿。分析分别用这些抗体染色的细胞,以确保仅在适当的荧光通道(24)中检测来自预期发色团的荧光。滴定在细胞评估中使用的每批试剂,然后将其放入库存。选择产生最大荧光强度的抗体滴度,并检查每批新抗体的试剂特异性。
使用这些质量控制程序,两个流式细胞仪实验性地为同一样本产生相同的结果。在使用这些质量控制程序对正常成人血液进行的研究中,发现淋巴细胞上CD4的强度对于在8个月时间段收集的两个仪器上测定的21个个体几乎是不变的。这21个个体的CD4的平均荧光强度是1596+/-116标准偏差荧光单位,导致CV为7%。这些结果表明,在动态范围为四十年的数据空间中,这种抗原的个体与个体的生物学变异基本上为零。淋巴细胞上表达的CD4的量本身是生物学标准。可将质心线位置的定量(在未成熟骨髓细胞上测量)与在正常成熟血细胞上表达的抗原的变异性进行比较,这将为理解个体之间关于血细胞(而不仅仅是成熟细胞)成熟期间抗原表达强度的生物学变异提供基础。
可通过将主要标准荧光质量控制珠的目标值改变已知量(2和4的因子)来确定系统(如图1中所示的系统100)的容差。换句话说,系统可通过已知量解调。在建立适当的补偿之后,可单独测试每个通道并且可一起测试这些通道。例如,可在每种设置下收集用四种颜色组合染色的骨髓细胞,并使用待测试系统分析数据。这将评估与系统可操作的最佳标准设置相距多远,并且仍允许系统正确鉴定发育阶段的细胞。然后,该性能基于系统鉴定适当细胞群体的能力来定义质量控制程序所需的容差。
如上所述,可使用多维分析来检测异常细胞。通常,质心线被定义为基于正常患者数据组(其通常包括来自多个正常患者的数据)来模拟细胞谱系的成熟。基于正常患者数据组定义围绕该线的正常变化半径。
随后,可基于鉴定测试组中在该半径之外的细胞来表征细胞测试组(例如,来自患者的细胞)。例如,就百分比、位置等而言,可鉴定此类细胞,并且基于在该半径之外的细胞的鉴定,可将细胞测试组分类为正常或异常。在以下的描述中,对细胞组中的细胞的引用可指的是待暴露于定义的方案的细胞组中的细胞,或者可指的是基于流式细胞术所生成的数据点组中的对应数据点,如其中使用该引用的上下文所示。
基于内部参考群体定义流式细胞仪数据的个体变异
使用流式细胞术检测血液恶性肿瘤是基于鉴定不表现出正常造血细胞预期的抗原或物理特性的细胞。该方法取决于可如何使用定量抗体结合以及物理特征(如光散射)来精确鉴定正常血液和骨髓细胞。已使用强大的特征组合来对不同谱系的细胞进行分类,称为CD45选通,其中显示样本的数据,结合CD45强度和光散射(侧向散射、直角光散射或正交光散射)。参见例如,Stezler GT,Shults KE,Loken MR.“CD45gating for routine flowcytometric analysis of human bone marrow specimens.”Ann N Y Acad Sci 1993;677:265-80。
使用该技术确定骨髓的组成是令人畏惧的,因为该组织由至少11种不同的细胞类型以及从造血干细胞到血液中成熟细胞的整个范围的未成熟细胞组成。申请人已意识到,对于所有细胞特征理解从个体到个体的变异性有助于鉴定与正常造血细胞不同的异常细胞、定量异常细胞、表征异常细胞免疫表型和物理特征,并且然后基于最近的正常细胞组分对异常细胞进行分类。该方法的限制取决于在一段时间内这些测定参数的个体之间观察到的变异性。基于这种认识,申请人已开发了减少个体之间每个谱系的正常细胞观察到的变异性以及减少用于检测那些特征的分析方差(由于样本处理、多个试剂批次、不同的分析仪器、不同的分析员等产生的差异)的方法。
分析骨髓样本的组成的第一步是鉴定样本内的关键参考细胞群体。选择的参考群体在多维数据空间中形成集群,并且可使用适当的试剂组合明确地鉴定。通过使用自动化的分析程序,可减少鉴定这些特定细胞群体方面的主观偏差。然后可使用这些参考群体来改进多维数据空间中的其他细胞群体的鉴定和分析。申请人已意识到这些参考群体之间的细胞特征的关系令人惊讶地恒定,并且可通过相对于单个细胞群体的数据组的归一化来降低变异性。这可促进骨髓分析的标准化,并比较来自患者与患者的每种成熟细胞谱系的质心分析。
可在正常个体的骨髓样本中可重复地鉴定某些参考群体。这些群体包括:成熟的淋巴细胞、未定型祖细胞、早幼粒细胞、成熟的单核细胞和成熟的中性粒细胞。可通过抗体和光散射特征的组合来特异性地鉴定这些群体中的每个,如下表3中所列出。
参考群体 光散射特征
成熟的淋巴细胞 高CD45,低FSC,低SSC
未定型祖细胞 明亮的CD34,CD33阳性,低SSC中间CD45
早幼粒细胞 HLA-DR-/CD11b-,高SSC,中间CD45
成熟的单核细胞 CD14+,高CD33+,高CD45,中间SSC
成熟的中性粒细胞 高CD13,中间CD33,高CD45,高SSC
表3:参考群体的表型和光散射特征
可自动地鉴定参考群体。该分析可用于消除或减少技术人员或分析数据的其他人的主观偏差。此外,自动化分析可简化该过程。一个实施方案使用称为支持向量机(SVM)的机器学习分析,如以下更详细地讨论的。可通过提供一系列实例来教导支持向量机,其中“专家”手动鉴定每个感兴趣的参考群体。支持向量机鉴定与细胞群体的这些专家鉴定相关的数学特点,并使用这些数学特点在来自不同患者的后续数据中找到此类群体。因此,支持向量机提供了可再现的方法,以数学方式鉴定感兴趣的参考群体,这可减少分析中的主观偏差并促进自动化该过程。对最近进行急性髓性白血病(AML)治疗的儿科患者(n=50)测试了SVM方法。化疗后恢复的这些“应激的”骨髓样本是从没有表现出残留AML的那些患者随机选择的,其中另外的标准是样本在足够的细胞数量、缺乏血液稀释和最小死细胞方面是高质量的。
一旦通过SVM鉴定了参考群体,则可计算这些参考群体中细胞(数据点)的抗原强度的平均值和标准偏差。患者之间的这些平均抗原强度存在固有的(但很小的)变异性。通过相对于单细胞群体的位置归一化化数据,可进一步降低这些参考群体中每个的位置变异性。例如,祖细胞的CD45和SSC位置可针对每个患者归一化为各个成熟淋巴细胞的CD45和SSC。在另一个实例中,单核细胞的CD33和CD45强度可标准化为每个患者各自的祖细胞群体的CD33对CD45强度,如以下参考图29更详细地讨论的。CD33抗原在绝对量方面未高度调节,但该标准化显示CD33强度的差异在一个个体患者中的细胞群体之间是一致的。总体而言,该数据标准化方法大大降低了每个参考群体的位置变异性,从而允许对疾病进行甚至更加精确和标准的评估。
使用支持向量机选择感兴趣的参考群体
如本文其他地方所讨论的,用户可过滤某些流式细胞术参数(例如,CD19、SSC等)以选择在其上获得成熟的细胞(例如,参考细胞)群。
传统上,用于分析流式细胞术数据的算法是无监督算法,因为这些算法搜索数据中的模式。例如,许多自动化流式细胞术分析算法搜索具有相似荧光特征的细胞集群。值得注意的是,对于这些算法,量化的荧光特征并不重要;所有重要的是,存在可集群在一起的“相似”细胞的组。目前的自动化流式细胞术分析程序使用此类无监督方法,因为荧光强度数据不一致-并且因此发现相似细胞组允许发现同源细胞群体。
在一个实施方案中,可采用支持向量机(“SVM”)来选择细胞群体(数据)以在细胞谱系内获得成熟。可使用SVM来定义多维边界以选择感兴趣的细胞群体或参考群体。该边界独立于参考群体的频率。如果参考群体以低频率存在,则集群算法可能难以鉴定参考群体。SVM在空间中查找位置以检测参考群体而不是参考群体的频率。
支持向量机可被认为是受监督的机器学习算法,意味着给予SVM数据以“学习”如何鉴定感兴趣的细胞群体。在一项研究中,细胞类型的SVM分类被提供给SVM,并且SVM基于定量荧光特征(而不是基于例如基于统计集群技术鉴定细胞集群或细胞组)鉴定分类中的数学特点。在该研究中,通过精心构建和质量控制的流式细胞术测试产生了令人难以置信的稳定荧光强度测量,这有助于基于细胞的荧光强度特征预测个体细胞是否属于群体。在没有单个抗体定义感兴趣的组的情况下,这有助于在没有任何用户输入(选通)的情况下鉴定整个细胞谱系(在所有成熟阶段中)。
先前,多个谱系必须由分析师(手动)定义。大多数流式细胞术专家难以分离不同谱系的细胞,尤其是单核细胞和中性粒细胞。在一个实施方案中,使用SVM有助于使该过程自动化,因为SVM使细胞分类成不同的谱系自动化,即使没有特定的谱系标记物。这有助于分别评估每个谱系的成熟度,并将每个谱系分类为正常或异常。
图27和28是示例SVM子程序2000的流程图,其可由诊断系统(如图1的诊断系统104)采用,以使用利用SVM生成的多维边界定义来鉴定数据组中感兴趣的细胞群体。为方便起见,将参考图1的诊断系统104讨论子程序2000。这些定义可由诊断系统使用以例如鉴定或细化感兴趣的细胞群体组以在质心内获得成熟(例如,将细胞分配给正常集群组中的集群)、鉴定用于定义或细化质心线或质心线或其片段半径的参考群体、进行向量归一化、对细胞测试组进行分类等。
如图所示,SVM子程序2000包括训练阶段2700和实现阶段2730。在训练阶段2700中,SVM子程序2000被教导以自动地鉴定细胞组。在实现阶段2730中,SVM子程序2000鉴定感兴趣的细胞群体(如参考细胞群体、新测试患者的细胞群体等),其可被采用以例如将细胞分配给正常集群组的集群、进行向量归一化、经由质心线获得群体的成熟度、细化半径、表征细胞测试组等。
子程序在2702处开始并且进行到2704。在2704处,诊断系统104选择数据组中感兴趣的测试细胞群体。例如,这可使用现有的软件平台(例如,Winlist、用Java运行时环境实现的Java、3-D Java运行时环境等)来完成,以手动设置一系列一个或多个门以选择数据组中感兴趣的细胞群体。诊断系统从2704进行到2706。
在2706处,诊断系统104生成鉴定所选择细胞的数据组。例如,鉴定所选择细胞的数据组可以文本文件格式导出到浮点阵列2708,其具有每个测量参数的一个列和一个另外分类列,以及数据组中每个细胞的一个行。如图所示,分类列含有测试数据组的每个细胞的二元评估,如果该细胞不包括在定义的群体中,则为-1,并且如果该细胞包括在定义的群体中,则为+1。可采用其他数据格式,例如,逗号分隔值文件等。
子程序2000进行到2710,在那里诊断系统104确定是否存在待处理的另外数据组。例如,可采用对应于来自多个正常患者的细胞的多个数据组来训练SVM。当在2710处确定存在待处理的另外正常患者数据组时,子程序2000返回到2704以处理下一个正常患者数据组。否则,子程序2000进行到2712。
在2712处,诊断系统104组合指示感兴趣的细胞群体的数据组。在一项研究中,这是通过从每个正常数据组读取浮点阵列(例如,浮点阵列2708)并将浮点阵列合并到一个组合数据组中来完成的。子程序2000进行到2714。
在2714处,诊断系统104生成SVM,其鉴定鉴定组合数据组中感兴趣的细胞的多维决策边界(例如,将评估为+1的细胞与评估为-1的细胞分开的SVM)。决策边界通常可以是复杂的多维形状。边界一侧上的细胞被分类为属于感兴趣的群体(例如,分类为+1),而边界另一侧上的细胞被分类为不属于感兴趣的群体(例如,分类为-1)。已知如何生成SVM作为预测算法,并且这些已知技术可应用于组合的正常数据组以生成鉴定多维边界的SVM。参见例如,Chang、Chih-Chung和Chih-Jen Lin."LIBSVM:a library for support vectormachines."ACM Transactions on Intelligent Systems and Technology(TIST)2.3(2011):27。子程序2000进行到2716。
在2716处,诊断系统104可选地评估SVM的预测性能,并且可基于该评估例如调整成本和伽马因子、用于生成组合的正常患者数据组以训练SVM的测试正常患者数据组的数量等。例如,可采用留一交叉验证。参见例如,Golub G,Heath M,Wahba G.Generalizedcross-validation as a method for choosing a good ridgeparameter.Technometrics 1979;21(2):215-23。该过程通常是两步过程。优化结果并且然后进行评估。交叉验证是一种用于优化算法中输入参数的方法。假设25名患者的训练数据组。对于输入参数(如SVM的成本、伽马输入参数)的固定组合,通过在训练数据的子组(例如24名患者,而不是25名患者)上训练,然后在剩余的患者(例如1名患者)上进行测试来对算法进行交叉验证。总计由SVM产生的错误,并且重复该过程,使得每名患者是恰好一次的测试患者。对于特定的输入变量组合,计算总误差(来自测试患者的25次重复)并存储。然后,调整输入变量(成本、伽马),并以相同的方式重复训练(n=24)和测试(n=1)的过程以用于输入变量的新组合。在评估阶段,比较来自每个输入变量组合的总误差数量,并且使用具有最低总误差的输入变量的组合来训练所得SVM。子程序2000进行到2718,在那里训练阶段结束。
子程序的实现阶段2730开始于2732处。子程序从2732进行到2734。在2734处,诊断系统104使用在训练阶段中定义的多维决策边界对测试患者细胞组(例如,可能是或可能不是正常患者的测试患者的细胞)的每个细胞进行分类。换句话说,测试细胞组中的每个细胞基于细胞所在的决策边界的侧被分类为+1或-1。子程序2000从2734进行到2736。在2736处,诊断系统104可选地应用另外的过滤标准(例如,基于某些流式细胞术参数(如CD19、SSC等)的过滤,其可基于默认设置,响应于用户输入等来完成)。子程序2000进行到2738,在那里子程序2000停止。
系统100的一些实施方案可进行图27和28中未示出的其他动作,可不进行图27和28中示出的所有动作,或者可以不同的顺序进行图27和28的动作。例如,子程序2000在一些实施方案中可被修改为仅进行训练阶段2700并且可在其他实施方案中被修改为仅进行实现阶段2730(例如,第一诊断系统100可用于训练SVM,并且第二诊断系统可用于将定义的多维边界应用于测试数据组,可存储SVM以供重新使用而不是生成等)。在另一个实例中,子程序可在2716之后确定应当采用另外的正常数据组,例如响应于所生成的边界作为正常细胞群的预测因子不足够可靠的指示,并且因此从2716进行到2704以添加另外的正常患者训练数据组。在另一个实例中,可存储来自训练阶段的临时数据组,诸如在2706处生成的浮点阵列,以在2716处用于验证。在另一个实例中,可修改子程序以鉴定数据组或组合数据组中的多个感兴趣的群体,或者鉴定所鉴定参考群体内的感兴趣的亚群体。例如,可鉴定第一参考群体或亚群体,其对应于细胞谱系内的第一成熟阶段,可鉴定第二参考群体或亚群体,其对应于细胞谱系内的第二成熟阶段等。在另一个实例中,可鉴定第一参考群体,其对应于第一细胞谱系内的所有成熟阶段(例如,B淋巴谱系细胞),并且可鉴定第二参考群体,其对应于第二细胞谱系(例如,单核细胞谱系细胞)内的所有成熟阶段等。
SVM在两级设置中进行训练。为了鉴定多个参考群体,可采用多个SVM。例如,为了鉴定B淋巴细胞和未定型祖细胞,可采用两个单独的SVM,并且然后合并。在另一个实例中,可训练初级SVM以鉴定所有B淋巴(CD19+)细胞,并且然后可训练几个次级SVM以鉴定B淋巴(CD19+)细胞内这些B淋巴细胞的阶段(阶段1-4)。
在研究中,已为B淋巴谱系细胞和其他细胞谱系(例如,单核细胞、淋巴细胞、红细胞、中性粒细胞、树突细胞、嗜酸性粒细胞、嗜碱性粒细胞、NK细胞谱系、浆细胞和肥大细胞谱系)创建了SVM生成的多维边界定义。计划研究T细胞子组。例如,可使用所鉴定的参考细胞群体和亚群体来鉴定正常细胞(数据点)集群,其用于在向量归一化(如下所述)中定义正常集群组的集群的质心线(例如,图18A-18C的子程序500可被修改为从由图18B中的528处提供的子程序2000鉴定的集群开始,其中子程序500继续鉴定每个集群的质心线,并且然后基于使用子程序2000鉴定的参考群体,定义集群组的正常质心线和半径;可修改图19的子程序600,以基于由子程序2000鉴定的参考群体或亚群体在604处鉴定参考点;可修改图21的子程序800,以基于由子程序2000鉴定的参考群体或亚群体鉴定参考点;等)。例如,可使用定义的多维决策边界来对测试细胞组中的细胞进行分类(例如,可修改图22的子程序900,以在步骤910处应用由子程序2000定义的多维决策边界,以确定检索的数据组(例如,测试患者数据组)中的点是否在集群中;等)。SVM还可用于测量系统的质量控制。例如,成熟的淋巴细胞稳定且通常不受急性髓性白血病患者化疗的影响。淋巴细胞的鉴定和淋巴细胞特征的计算可提供仪器是否正确设置的指示。对于每个患者,参考群体可用于质量控制。如果正常的参考群体需要太多的归一化(例如,如果归一化向量,如下所述,太大),则可标记数据组,这可能指示整个数据组的问题。如果标记了多个单独的数据组,则可能表明仪器存在问题。
抗原强度的向量归一化
以上已描述了实施方案,其中质心线周围的半径捕获正常细胞距质心线的距离。半径捕获生物变化组分,这可能是由于表面抗原以可变量表达,并且因此从正常细胞到质心线的距离变化。半径还捕获分析部件的技术变化,这可能是由于例如仪器中的不同设置和容差、抗体的不同运输等。在一个实施方案中,采用向量归一化来解释和减少技术和流体变化,这有助于在质心线周围定义更紧密和更具体的半径,其更准确地表示生物变化组分,并且有助于使异常细胞的鉴定更容易且更准确,以及促进专注于特定的异常细胞组等。
在流式细胞术中,标记物的强度取决于细胞穿过激光束时的位置。如果细胞轨迹稍微偏离中心,则细胞的读数将低于细胞位于激光束中间的读数。由于细胞相对于激光流动的位置,当流速增加时,集群可能变宽。
在向量归一化过程的一个实施方案中,确定正常患者组的标准参考平均值。标准参考平均值是该正常患者组的群体的平均多维强度。然后将新患者的细胞强度归一化为标准参考平均值。SVM可用于在确定标准参考平均值和新患者细胞强度的归一化方面鉴定感兴趣的细胞群体。
图29是示例向量归一化子程序3000的流程图,子程序3000可由诊断系统(如图1的诊断系统104)采用,以归一化测试细胞组的细胞群体。为方便起见,将参考图29-39和图1的诊断系统104讨论子程序3000。如图所示,子程序3000在对数空间而不是线性空间中进行计算。
子程序3000包括用于确定标准参考平均值的第一阶段3100和用于将新患者的细胞归一化为所确定的标准参考平均值的第二阶段3200。
子程序3000的第一阶段3100在3102处开始并且进行到3104,在那里训练SVM以鉴定参考群体。例如,可采用子程序2000的训练阶段2700。用户选择细胞群体用作后续数据归一化的参考,并定义鉴定感兴趣群体的多维边界(参见例如,图27、2704至2718)。选择过程(例如,图27、2704)可基于生物学知识,如某些细胞群体可在强度归一化方面呈现不同优点的知识。例如,淋巴细胞可在样本中容易地鉴定,并且可用于精确归一化CD45强度;单核细胞可稍微具有挑战性地被鉴定,但可用于更准确地标准化CD33强度,其在人与人之间更加变化等。CD33强度的变异性是DNA中特定单核苷酸多态性(差异)的结果,称为SNP。使用SVM鉴定的参考群体的归一化可用于降低CD33强度中的一般变异性。取决于用户想要评估的细胞类型(例如,对于白血病),用户可选择不同的参考群体来归一化数据。在一项研究中,在选择过程中采用了6个维度。
子程序3000从3104进行到3106。在3106处,应用多维边界来鉴定已知正常患者中的感兴趣的参考群体。诊断系统104可采用例如应用于已知正常患者的图28的子程序2000的实现阶段2730的实施方案。图30示出了关于SSC和CD45参数强度的为紫色的感兴趣的示例淋巴细胞群体。感兴趣的参考群体可包含数十万个细胞或相对较少的细胞(例如,未定型祖细胞)。为了便于说明,省略了关于其他强度的感兴趣的群体的图示(例如,所采用的6个参数的其他对)。子程序3000从3106进行到3108。
在3108处,通过将给定参数的感兴趣群体的细胞强度相加并除以感兴趣群体中鉴定的细胞总数来计算已知正常患者中参考群体中每个参数的平均强度。图31示出了关于作为紫色点的SSC和CD45参数强度,研究中单个正常患者的感兴趣的淋巴细胞群体的平均强度的示例图。为了便于说明,省略了关于其他强度对或多维度中的感兴趣群体的平均强度的图示(例如,如所描述的,在研究中采用了6个参数)。计算6个参数中每个的平均强度。存储六个参数中每个的正常患者的平均参考强度。
在3110处,诊断系统确定是否存在待处理的另外正常患者数据组。当在3110处确定存在待处理的另外正常患者数据组时,子程序返回到3106以处理正常患者数据组。当在3110处未确定存在待处理的另外正常患者数据组时,子程序进行到3112。图32示出了研究中27个正常患者数据组相对于SSC和CD45参数强度的示例平均强度,其中各自的强度示为紫色点。为了便于说明,省略了关于其他强度对或其他维度中的27个正常患者数据组的平均强度的图示(例如,如所描述的,采用了6个参数)。
在3112处,针对正常参考群体计算标准参考平均值。标准参考平均值是正常患者数据组的每个参数的所有平均参考强度的平均值。图33示出了研究中作为紫色点的关于SSC和CD45参数强度的标准参考平均值。为了便于说明,省略了关于其他强度对或其他维度中的标准参考平均值的图示。在该研究中,标准参考平均值是具有6个参数的向量,如图34所示。如图所示,这些结果是四舍五入的。
可重复第一阶段过程以计算每个所希望参考群体(例如,单核细胞、红细胞、淋巴、未定型祖细胞、中性粒细胞、早幼粒细胞等)的标准参考平均强度向量,并在3114处结束。在该研究中,对淋巴谱系细胞和其他细胞谱系(包括单核细胞、未定型祖细胞、中性粒细胞和早幼粒细胞谱系)进行第一阶段过程。
子程序3000的第二阶段3200在3202处开始并且进行到3204。在3204处,基于生物学知识选择参考群体(例如,选择在第一阶段中确定标准参考平均强度的参考群体中的一个),并且应用对应的多维边界(例如,在3104处确定的边界)以鉴定测试患者的感兴趣的参考群体。感兴趣的参考群体中的细胞数量可以是数十万或更多,或相对较少的细胞(例如,未定型祖细胞、肥大细胞、浆细胞树突细胞)。诊断系统104可采用例如图28的子程序2000的实现阶段2730的实施方案。图35示出了关于SSC和CD45参数强度的为紫色的该研究中感兴趣的示例淋巴细胞群体。为了便于说明,省略了关于其他强度的感兴趣的群体的图示(例如,所采用的6个参数的其他对)。子程序3000从3204进行到3206。
在3206处,通过将给定参数的感兴趣群体的细胞强度相加并除以测试患者感兴趣群体中鉴定的细胞总数来计算测试患者参考群体中每个参数的平均强度。图36示出了关于作为紫色点的研究中SSC和CD45参数强度,测试患者的感兴趣的淋巴细胞群体的平均强度的示例图。为了便于说明,省略了关于其他强度对或多维度中的感兴趣群体的平均强度的图示(例如,如所示的,采用了6个参数)。计算6个参数中每个的平均强度。在该研究中,结果是具有6个参数的向量,每个参数对应于感兴趣群体的相应参数的平均值,如图37所示。显示的结果是四舍五入的。
子程序3000从3206进行到3208。在3208处,通过确定患者的平均参数强度与在第一阶段3100中确定的标准参考平均值之间的差异来计算患者的归一化向量。来自该研究的患者的所得归一化向量显示在图38的最后一列中。如图所示,从标准参考平均值减去患者的平均参数强度。
子程序3000从3208进行到3210。在3210处,将3208处计算的患者的归一化向量用于归一化测试患者的每个细胞的强度。在一个实施方案中,归一化向量可用于归一化测试患者的选定细胞,如所鉴定的参考群体的细胞。图39示出了归一化向量应用于测试患者的第一细胞。如图所示,归一化向量被添加到细胞的非归一化强度。将归一化向量应用于数据组的各个细胞的实例图示在图39A中。可绘制、可视化和评估测试患者的归一化强度以用于疾病。例如,可将测试患者的归一化细胞与定义诊断癌症(如残留癌症)的正常细胞群体的质心线和半径进行比较。例如,可修改图22的子程序900,以在对检索的数据组的细胞(数据点)进行分类之前,使用图29的子程序3000归一化检索的数据组的参考群体。当具有残留疾病的患者的测试患者数据组被归一化时,正常细胞和肿瘤细胞二者通常将被归一化。
系统100的一些实施方案可进行图29中未示出的其他动作,可不进行图29中示出的所有动作,或者可以不同的顺序进行图29的动作。例如,在一些实施方案中,可修改子程序3000,以通过从患者的平均参数强度减去标准参考平均值来确定患者的平均参数强度与标准参考平均值之间的差异,并通过从细胞的非归一化强度减去归一化向量来确定细胞的归一化强度。在另一个实例中,可定义和建模其他或另外的正常集群配置以用于确定标准参考平均值和平均参数强度。例如,在一项研究中,使正常患者细胞的第一管组经受第一方案,该第一方案产生具有FSC、SSC、CD20(FITC)、CD10(PE)、CD45和CD19的参数的第一正常患者数据组(其可对应于例如十个集群),并且使正常患者细胞的第二管组经受第二方案,该第二方案产生具有FSC、SSC、CD22(FITC)、CD34(PE)、CD45和CD19的参数的第二正常数据组(其可对应于例如四个集群)。可采用其他方案和集群配置。然后可将所选择的方案应用于测试患者的细胞组以生成测试患者数据组。
半径定义
如上所述,可使用统计算法来定义质心线周围的正常半径。参见例如,图18A-18C及其讨论。对于通过流式细胞术测量的每个参数,可统计表征多维半径的维度。这些统计特征可用于图像中表示的数据可视化(例如,线性、归一化的减法等)。在一系列研究中,使用25组或更多组正常患者的细胞来数学地表征正常B细胞在每个集群的半径的每个维度中距定义的质心线有多远。正常患者的细胞组数量越大,对正常数据组的定义的统计置信度越大。然后将该变化以z得分的形式归一化,其还可称为卡方分析。
在为一系列正常患者定义正常质心线之后(参见例如,图18A-18B及其描述),可统计表征正常数据组的半径。
图40是示例半径表征子程序4000的流程图,其可由诊断系统(如图1的诊断系统104)采用以表征半径,该半径与正常质心线一起定义n维空间中的正常集群组。在一项研究中,将六个参数用于定义B细胞谱系的正常集群组。为方便起见,将参考图40-45和图1的诊断系统104讨论子程序4000。数据组的半径表征由两个步骤预测。首先,从数据组选择属于将对其表征半径的谱系的细胞。专家可手动地鉴定属于谱系的细胞。可替代地,SVM可用于鉴定属于谱系的细胞,如以上在子程序2732(图28)中所示。其次,谱系中的每个细胞均集群到最近的对应参考点。例如,这可使用子程序1000(图24)的动作1006的过程或类似过程来完成。在其他实例中,集群过程的实施方案的流程图在图18A至18C和图40A中示出。
在鉴定属于谱系的细胞并集群到参考点之后,子程序4000在4002处开始并且进行到4004。在4004处,在质心线上鉴定正常患者数据组的细胞与质心线之间的切向交叉点。质心线上的切向交叉点的鉴定可使用点积来完成。示例切向交叉点的图示在图41中示出。切向交叉点的示例计算的图示在图41A中示出。质心线可被分成段,并且候选段可用于鉴定细胞的切向交叉点,这可减少所需的计算次数。
在一项研究中,存在10个成熟的B淋巴细胞集群。质心线被分成9段:第一段从集群1的中心延伸到集群2的中心;第二段从集群2的中心延伸到集群3的中心;第三段从集群3的中心延伸到集群4的中心;第四段从集群4的中心延伸到集群5的中心;第五段从集群5的中心延伸到集群6的中心;第六段从集群6的中心延伸到集群7的中心;第七段从集群7的中心延伸到集群8的中心;第八段从集群8的中心延伸到集群9的中心;第九段从集群9的中心延伸到集群10的中心。第一集群中的细胞将具有1个候选段,即第一段;第二集群中的细胞将具有2个候选段,即第一段和第二段;第三集群中的细胞将具有两个候选段,即第二段和第三段;等,其中第十集群中的细胞具有一个候选段,即第九段。在该研究中,当细胞与细胞的一个候选段之间没有真正的切向交叉时,细胞所属的集群的中心被认为是该细胞的切向交叉点。
可采用其他分段方案。例如,研究中成熟B淋巴细胞的10个集群的质心线可被分成大致对应于集群的10个段,并且细胞的候选段可被定义为细胞所属的集群的段以及细胞所属的集群的相邻集群的段。
子程序4000从4004进行到4006。在4006处,诊断系统104针对每个参数计算细胞与质心线上细胞的所鉴定的切向交叉点之间的单维距离。例如,这可使用以下列出的方程2来完成:
参数距离=参数细胞-参数TCP [方程2]
其中参数细胞是细胞的相应参数的值,并且参数TCP是质心线上细胞的切向交叉点的参数值。细胞的参数距离值可存储在浮点阵列中(参见图42)。子程序4000从4006进行到4008。在4008处,诊断系统确定是否存在更多细胞待为正常患者处理。当在4008处确定存在更多细胞待为正常患者处理时,子程序返回到4004以处理下一个细胞。当在4008处未确定存在更多细胞待为正常患者处理时,子程序进行到4010。图42示出了对于正常患者数据组存储六个参数的参数距离的浮点阵列的实例,其中每行对应于患者的细胞并且每列对应于参数。
在4010处,诊断系统104确定是否存在待处理的另外正常患者数据组。当在4010处确定存在待处理的另外正常患者数据组时,子程序4000返回到4004以处理下一个正常患者数据组的细胞。当在4010处未确定存在待处理的另外正常患者数据组时,子程序4000进行到4012。
在4012处,针对组合的正常患者数据组,针对每个群集中的每个参数确定细胞与细胞交叉点之间的距离的平均值和标准偏差。例如,可使用图24的子程序1000的动作1006,图18A-18C的集群过程,图40A的集群过程(以下描述)等来鉴定集群。组合的正常患者数据组可例如是通过合并单个数据组的浮点阵列生成的正常患者数据组的组合浮点阵列。可使用组合浮点阵列确定并存储组合浮点阵列中的每个群集中的每个参数的细胞与细胞的交叉点之间的距离的平均值和标准偏差。图43示出了存储所确定的标准偏差的示例浮点阵列。图43A示出了存储在细胞与细胞的切向交叉点之间确定的平均距离的示例浮点阵列。
子程序4000从4012进行到4014,在那里诊断系统104基于标准偏差对每个正常患者数据组进行z得分变换。这可使用浮点阵列来完成,该浮点阵列用于基于在4012处确定的标准偏差在4006处生成的正常患者数据组。标准偏差用于用z得分变换标准化测试患者浮点阵列中的距离。通过流式细胞仪测量的不同参数具有不同的正常变化量。例如,CD45蛋白的表达在B淋巴细胞上是令人难以置信的一致(具有低变化),而FSC(大小)具有高变化。用z得分变换标准化正常数据组的每列有助于统计地比较不同参数的变化,其结果是每个单独列中的标准偏差按定义等于1(参见图45,以下讨论)。(舍入误差可能导致轻微偏差)。通过用z得分变换标准化每列,标准化从每个细胞到细胞的切向交叉点的距离。每个集群的平均距离的平均值为零并且标准偏差为1,因此在CD45维度中位于远离质心线一个标准化单元的细胞在生物学意义上对于在FSC维度中位于远离质心线一个标准化单元的细胞同样重要。
子程序4000从4014进行到4016。在4016处,诊断系统104确定每个细胞的缩放位置与质心交叉点之间的多维欧几里德距离。例如,这可使用以下列出的方程3来完成:
欧几里德距离=SQRT(a2+b2+c2+d2+e2+f2) 方程3
其中a-f是在5208处确定的从细胞到质心线的标准化距离。可为正常患者数据组生成标准化浮点阵列,其指示z变换的分布,其中为欧几里德距离添加了列。图44示出了用于正常患者数据组的示例标准化浮点阵列。可修改欧几里德距离计算以不同地对细胞与细胞交叉点之间的距离进行加权。子程序从4016进行到4018。
在4018处,诊断系统104确定是否存在待处理的另外正常患者数据组。当在4018处确定存在待处理的另外正常患者数据组时,子程序4000返回到4014以处理下一个正常患者数据组的细胞。当在4018处未确定存在待处理的另外正常患者数据组时,子程序4000进行到4020。
在4020处,合并标准化浮点阵列,并且针对每个集群计算标准化欧几里得距离的平均值和标准偏差。用于正常数据组的示例(标准偏差)合并和标准化浮点阵列在图45中示出。由于单个参数距离已被标准化,因此标准偏差等于1。图45中的值表示正常数据组的半径的单个分量维度,以及多维欧几里德距离半径。注意,最后一列的值可能不等于平方单个参数的和的平方根,并且可在每个集群内改变。用于正常数据组的示例(平均)标准化浮点阵列在图45A中示出。单个参数距离已被标准化,并且每个参数的平均值等于0。注意,最后一列的值可能不等于平方单个参数的和的平方根。子程序4000从4020进行到4022,在那里子程序结束。
系统100的一些实施方案可进行图40中未示出的其他动作,可不进行图40中示出的所有动作,或者可以不同的顺序进行图40的动作。例如,子程序4000可在一些实施方案中被修改以在4020处生成浮点阵列,其省略正常数据组的半径的单个分量维度。在另一个实例中,可定义和建模其他或另外的正常集群配置。例如,可使正常患者细胞的第一管组经受第一方案,该第一方案产生具有FSC、SSC、CD20(FITC)、CD10(PE)、CD45和CD19的参数的第一正常患者数据组(其可对应于例如十个集群),可使正常患者细胞的第二管组经受第二方案,该第二方案产生具有FSC、SSC、CD22(FITC)、CD34(PE)、CD45和CD 19的参数的第二正常数据组(其可对应于例如四个集群)等。可将所选择的方案应用于测试患者的细胞组以生成测试患者数据组。
注意,图18A-C的子程序500的实施方案可被修改为在图18C的动作536处采用图40的子程序4000来定义所定义的正常集群组的半径。
图40A是示例集群子程序4000a的流程图,子程序4000a可由诊断系统(如图1的诊断系统104)采用,以集群测试细胞组的细胞或数据点。子程序在4002a处开始并且进行到4004a。在4004a处,鉴定参考群体的参考点,如正常细胞组中的集群。下表4示出了示例参考点。参考点可以是例如集群质心或在查看数据的表示之后选择的点。本文其他地方更详细地讨论了参考点的鉴定。
FSC SSC CD20 CD10 CD45 CD19
参考点1 1.2 1.1 0.5 3.0 1.8 2.0
参考点2 1.0 1.1 0.4 2.6 2.2 2.4
参考点n
表4
子程序4000a从动作4004a进行到动作4006a。在4006a处,确定并存储从细胞到每个参考点的距离。这些距离可使用以下方程4确定:
方程4:
其中par是par.1是第一个参数(例如,CD45),par.2是第二个参数等。
表5示出了存储在浮点阵列中的细胞的示例距离。
表5
子程序4000a从4006a进行到4008a。在4008a处,子程序4000a鉴定与参考群体(例如,集群)相关的参考点与细胞之间的最小距离。子程序4000a从4008a进行到4010a。在4010a处,对应于与参考点相关的参考群体的索引被附加到浮点阵列,该参考点是距离该细胞的最小距离(参见例如,图42)。子程序4000a从4010a进行到4012a,在那里其确定是否存在更多的细胞待处理。当在动作4012a处确定存在更多待处理的细胞时,子程序4000a从4012a进行到4006a以处理下一个细胞。当在动作4012a处未确定存在更多待处理的细胞时,子程序4000a从4012a进行到4014a,在那里子程序4000a终止。
系统100的一些实施方案可进行图40A中未示出的其他动作,可不进行图40A中示出的所有动作,或者可以不同的顺序进行图40A的动作。例如,子程序4000a可在一些实施方案中被修改以使用除浮点阵列之外的数据存储格式。
鉴定测试患者中归一化半径之外的细胞(百分比等)
在一个实施方案中,生成测试细胞组与定义的正常集群组的比较的图像,其有助于使用本文公开的诊断方法快速且直观地传达异常细胞群体是否存在于测试细胞组中。生成的图像在本文中称为汇总图,并且可包括图像像素。汇总图以图形方式总结了每个集群/成熟阶段中细胞的细胞频率和位置信息。目前对潜在异常的视觉评估仅限于对一系列点图的分析,其仅可由流式细胞术专家理解。生成的汇总图图像的实施方案有助于非流式细胞术专家的解释并快速传达细胞的成熟阶段是异常的,如例如关于下图46-57所讨论的。在一个实施方案中,可通过从质心线减去正常半径内的细胞来进一步研究潜在的异常,如例如关于下图58-65所讨论的。这可促进快速且特异性地鉴定与正常质心差别很大的细胞。
图46是示例子程序5000的流程图,其可由诊断系统(如图1的诊断系统104)采用以定义正常细胞的每个集群/成熟阶段距质心线有多远的正常范围,以及每个集群/成熟阶段中细胞比例的正常细胞频率分解。然后可将这些定义用作参考,其中将测试患者的细胞组与正常集群/成熟阶段组的定义进行比较。为方便起见,将参考图46-51和图1的诊断系统104讨论子程序5000。
子程序5000在4600处开始并且进行到4602。在4602处,由诊断系统104获得或确定正常半径。例如,可检索存储的正常半径,或者可确定正常半径,例如,如以上参考子程序4000和图40-45所述。一旦确定了正常细胞谱系的集群的正常半径,则可存储该信息以供将来使用。另外,正常数据组中的细胞被集群到参考点(参见例如,子程序1000的动作1006,图24A,图40A)。子程序5000从4602进行到4604。
在4604处,在质心线上鉴定正常患者数据组的细胞与质心线之间的切向交叉点。质心线上的切向交叉点的鉴定可使用点积来完成。参见如以上关于图40和41讨论的确定切向交叉点的讨论。如上所述,质心线可被分成段,并且候选段可用于鉴定细胞的切向交叉点,这可减少所需的计算次数。
子程序5000从4604进行到4606。在4606处,诊断系统104计算细胞与质心线上细胞的所鉴定的切向交叉点之间的单维距离。例如,这可使用以上列出并且为了方便起见在以下重复的方程2来完成:
参数距离=参数细胞-参数TCP [方程2]
其中参数细胞是细胞的相应参数的值,并且参数TCP是质心线上细胞的切向交叉点的参数值。细胞的参数距离值可存储在浮点阵列中(参见例如,图47中的单维距离)。子程序5000从4606进行到4608。
在4608处,诊断系统104基于在4602处检索或确定的半径定义,对正常患者数据组(例如,在4006处生成的数据组)进行浮点阵列上的z得分变换。
子程序5000从4608进行到4610。在4610处,诊断系统104确定每个细胞的缩放位置(4608)与质心交叉点之间的多维欧几里德距离。例如,这可使用以下列出的方程5来完成:
欧几里德距离=SQRT(a2+b2+c2+d2+e2+f2) 方程5
其中a-f是在4608处确定的从细胞到质心线的标准化距离。可生成标准化浮点阵列,其存储用于指示z变换分布的正常患者数据组的欧几里德距离。子程序从4610进行到4612。
在4612处,诊断系统104确定正常数据组中是否存在待处理的另外的细胞。当在4612处确定正常数据组中存在待处理的另外的细胞时,子程序5000返回到4604以处理下一个细胞。图47示出了正常患者的示例浮点阵列,其包括欧几里德距离和集群数的列。当在4612处未确定存在待处理的另外的细胞时,子程序进行到4614。
在4614处,诊断系统104确定是否存在待处理的另外正常患者数据组。当在4614处确定存在待处理的另外正常患者数据组时,子程序5000返回到4604以处理下一个正常患者数据组的细胞。可存储用于单个正常患者数据组的细胞的单个浮点阵列(参见图47)。当在4614处未确定存在待处理的另外正常患者数据组时,子程序5000进行到4616。
在4616处,针对每个正常患者的每个集群/成熟阶段计算距质心线的平均欧几里德距离。例如,参考图47,可关于图47的平均欧几里德距离列确定患者的每个集群的平均距离。计算的平均值可存储在距离矩阵中。图48示出了示例距离矩阵,其中每行对应于研究中正常患者组中的患者,每列对应于集群,并且每个值对应于来自质心线的该集群中细胞的平均欧几里德距离。可确定其他平均距离,代替或者除来自质心线的平均欧几里德距离之外。例如,可相对于其他单个参数(如CD10(PE))或浮点阵列的参数(例如,FSC、SSC、CD20(FITC)、CD45、CD34等)的任何组合来确定距每个患者的每个集群的质心线的平均距离。
子程序5000从4616进行到4618。在4618处,计算属于每个正常患者的每个集群的细胞百分比。例如,正常患者的集群中患者细胞的百分比可通过将患者数据组中在集群中的患者细胞数量除以患者数据组中的患者细胞总数量,并使结果乘以100来确定。一些实施方案可以其他方式确定集群中患者数据组的细胞与患者数据组中细胞总数量的比例,如确定比率而不是百分比。这些百分比可以存储在频率矩阵中,如使用来自图49中的研究的数据所示。理论上,图49的每行应当相加达百分之百。然而,在一些实施方案中可使用舍入值,这可能引入较小的舍入误差。子程序5000从4618进行到4620。
在4620处,诊断系统104确定是否存在待处理的另外正常患者数据组。当在4620处确定存在待处理的另外正常患者数据组时,子程序5000返回到4616以处理正常患者数据组中的下一个患者数据组。当在4620处未确定存在待处理的另外正常患者数据组时,子程序5000进行到4622。
在4622处,诊断系统104确定针对每个集群在4616处确定的平均欧几里德距离的平均值和标准偏差。换句话说,每个集群的平均欧几里德距离从质心线开始,并且对于正常患者组确定该平均欧几里德距离的变化。这可通过例如并参考图48确定所存储的距离矩阵的每列的平均值和标准偏差来完成。可存储这些结果以供以后使用。图50示出了存储研究中每个集群的确定的平均值和标准偏差的示例正常位置矩阵。一些实施方案可确定并存储另外的或不同的平均值和标准偏差信息。例如,如果在4616处确定相对于另一个参数(列)的平均欧几里德距离,则可确定并存储相对于该参数的平均值和标准偏差。
子程序5000从4622进行到4624。在4624处,诊断系统104确定每个集群的平均细胞频率。这可通过对列进行平均来完成,例如参考图49的频率矩阵。可存储这些结果以供以后使用,例如,用于将测试患者的细胞与正常患者数据组的定义进行比较。图51示出了用于研究的示例正常百分比矩阵,其存储每个集群中细胞的确定的平均或平均百分比。子程序5000从4624进行到4626,在那里子程序5000结束。
系统100的一些实施方案可进行图46中未示出的其他动作,可不进行图46中示出的所有动作,或者可以不同的顺序进行图46的动作。例如,子程序5000可在一些实施方案中被修改以在4616处确定另外和/或不同的平均值,数据可存储在除浮点阵列和矩阵等之外的数据结构中。在另一个实例中,可定义和建模其他或另外的正常集群配置。例如,可使正常患者细胞的第一管组经受第一方案,该第一方案产生对应于十个集群的具有FSC、SSC、CD20(FITC)、CD10(PE)、CD45和CD19的参数的第一正常患者数据组,可使正常患者细胞的第二管组经受第二方案,该第二方案产生对应于四个集群的具有FSC、SSC、CD22(FITC)、CD34(PE)、CD45和CD 19的参数的第二正常数据组等。可将所选择的方案应用于测试患者的细胞组以生成待与所定义集群组进行比较的测试患者数据组。
图52是示例子程序6000的流程图,其可由诊断系统(如图1的诊断系统104)采用以将测试患者数据组与定义的正常集群组进行比较,这种正常集群组的定义使用上述任何方法或所公开方法的各种组合以促进快速和有效地传达可能存在于测试患者的潜在成熟阶段异常的方式生成。为方便起见,将参考图52-57和图1的诊断系统104讨论子程序6000。
子程序6000在5200处开始并且进行到5202。在5202处,由诊断系统104针对正常数据组检索或确定正常半径。例如,可确定正常数据组的细胞组的正常半径,例如,如以上参考子程序4000和图40-45所述。不需要针对另外的患者数据组“重复”(例如,在动作4010和4018处,将不确定需要处理另外的患者数据组),不需要合并归一化的浮点阵列等。子程序6000从5202进行到5204。
在5204处,在针对正常患者数据组定义的质心线上鉴定测试患者数据组的细胞与质心线之间的切向交叉点。质心线上的切向交叉点的鉴定可使用点积来完成。参见如以上关于图40和41讨论的确定切向交叉点的讨论。如上所述,质心线可被分成段,并且候选段可用于鉴定细胞的切向交叉点,这可减少所需的计算次数。
子程序6000从5204进行到5206。在5206处,诊断系统104计算细胞与质心线上细胞的所鉴定的切向交叉点之间的单维距离。例如,这可使用以上列出并且为了方便起见在以下重复的方程2来完成:
参数距离=参数细胞-参数TCP [方程2]
其中参数细胞是细胞的相应参数的值,并且参数TCP是质心线上细胞的切向交叉点的参数值。细胞的参数距离值可存储在浮点阵列中(参见图53)。子程序6000从5206进行到5208。
在5208处,诊断系统104基于在5202处检索或确定的半径定义,对测试患者数据组(例如,在5206处生成的测试患者数据组的浮点阵列)进行距离数据上的z得分变换。
子程序6000从5208进行到5210。在5210处,诊断系统104确定每个细胞的缩放位置(5208)与质心交叉点之间的多维欧几里德距离。例如,这可使用以下列出的方程6来完成:
欧几里德距离=SQRT(a2+b2+c2+d2+e2+f2) 方程6
其中a-f是在5208处确定的从细胞到质心线的标准化距离。可针对指示z变换分布的测试患者数据组生成标准化浮点阵列。子程序6000从5210进行到5212。
在5212处,诊断系统104确定测试患者数据组中是否存在待处理的另外的细胞。当在5212处确定测试患者数据组中存在待处理的另外的感兴趣细胞时,子程序6000返回到5204以处理下一个细胞。当在5212处未确定测试患者数据组中存在待处理的另外的感兴趣细胞时,子程序进行到5216。
在5216处,针对测试患者的每个集群/成熟阶段计算距质心线的平均欧几里德距离。例如,参考图53,可关于图53的平均欧几里德距离列确定患者的每个集群的平均距离。计算的平均值可存储在测试患者距离矩阵中。图54示出了研究中的示例测试患者距离矩阵,其中每列对应于集群。可确定其他平均距离,代替或者除来自质心线的平均欧几里德距离之外。例如,可相对于其他参数(如CD10(PE))或浮点阵列的其他参数(例如,FSC、SSC、CD20(FITC)、CD45、CD34等)中的任一个来确定测试患者的每个集群的平均距离。
子程序6000从5216进行到5218。在5218处,计算属于测试患者的每个集群的细胞百分比。例如,测试患者的集群中患者细胞的百分比可通过将患者数据组中在集群中的患者细胞数量除以患者数据组中的患者细胞总数量,并使结果乘以100来确定。一些实施方案可以其他方式确定集群中患者数据组的细胞与患者数据组中细胞总数量的比例,如确定比率。百分比可存储在测试患者频率矩阵中,如该研究的图55所示。理论上,图55的百分比应当相加达百分之百。然而,在一些实施方案中可使用舍入值,这可能引入较小的舍入误差。子程序6000从5218进行到5220。
在5220处,诊断系统104生成表示测试患者数据组与定义的正常集群组之间的差异的图像。例如,诊断系统104可生成图像的像素。该图像可显示例如测试患者组与正常数据组中的细胞特征的比较,如每个成熟阶段中细胞的频率和来自质心线的细胞的平均距离。
图56中示出了经受第一方案的研究中正常患者细胞的第一管组的示例图像5600,该第一方案生成对应于十个集群的具有FSC、SSC、CD20(FITC)、CD10(PE)、CD45(PerCP)和CD19(APC)的参数的第一正常患者数据组。在图56中,未成熟集群在左侧,并且成熟集群在右侧。
如图56所示,图像5600包括每个定义的正常集群到质心线的正常距离的范围5602的相应指示。为了清楚说明,参考号5602用于仅鉴定图56中的范围指示符中的一个(从左起第三个集群的范围指示符)。例如,可使用每个集群的平均位置(例如,图50的正常位置矩阵的平均位置行)来确定每个集群的相应范围。如图所示,各个范围的下限是0,并且各个范围的上限是集群的平均位置加上集群的平均位置中标准偏差(例如,图50的正常位置矩阵的标准偏差位置行)的两倍。例如,参考左起第三个集群,正常位置矩阵中的集群的平均位置是3.04,并且位置中标准偏差是0.75。因此,例如,对于第三个集群,范围5602的指示从0到4.54。例如,范围5602的指示表示统计范围,其中每个定义的正常集群的97.5%的正常中心位于质心线。可采用除线之外的指示。
图像5600包括每个定义的正常集群中多个细胞的预期频率的各个指示5604。这在图56中通过根据每个定义的正常集群中细胞的平均频率(例如,从图51的正常百分比矩阵的行1)缩放圆圈的黑色轮廓来表示。为了清楚说明,参考号5604用于仅鉴定图56中的预期频率指示符中的一个(从左起第七个集群的预期频率指示符)。具有较高平均频率的集群成比例地大于具有较小平均频率的集群。例如,指示对应于集群7的预期频率的圆圈小于指示集群3的平均频率的圆圈,这表明集群7具有比集群3更低的预期细胞频率。可采用除圆圈之外的形状。
图像5600包括测试患者数据组中的细胞与质心线的距离和测试患者数据组中集群的细胞的频率的各个指示5606。如图所示,彩色圆圈总结了测试患者的每个集群中的细胞。圆圈的大小对应于该特定集群的测试频率(来自测试频率矩阵)。为了清楚说明,参考号5606用于仅鉴定图56中的测试患者数据组的细胞的距离和频率的指示符中的一个(从测试患者数据组左起的第二个集群的细胞的距离和频率的指示符)。如果指示5606的彩色圆圈大于对应定义的正常集群的指示5604的黑色轮廓,则这表明测试患者集群中的细胞数量超过正常数据组中该集群的平均频率。如果指示5606的彩色圆圈小于对应定义的正常集群的指示5604的黑色轮廓,则这表明测试患者集群中的细胞数量少于正常数据组中该集群的平均频率。
黑色圆圈5604的大小可根据某些患者特征(如年龄)而变化。例如,儿科患者比老年患者具有更多的未成熟细胞。因此,对于不同的患者群体,黑色圆圈大小可能不同。不同群体的位置通常将相同。
圆圈5606的位置对应于测试患者的集群中的细胞与质心线的平均距离。如果圆圈落在指示范围5602之外,则这表明测试患者的集群中的细胞位于距离质心线的平均值更远,这可能指示潜在的异常(癌症)。注意,在图56中,每个定义的正常集群中的多个细胞的预期频率的指示5604的位置与来自质心线的测试患者数据组中的距离的指示5606的位置一致。换句话说,指示5604的位置不指示定义的正常集群与质心线的距离或距离范围。使指示5604的位置与指示5606的位置一致有助于将所定义的正常集群中多个细胞的预期频率与测试患者数据组中集群的细胞频率进行比较。
图57中示出了经受第二方案的正常患者细胞的第二管组的另一个示例图像5700,该第二方案生成对应于四个集群的具有FSC、SSC、CD22(FITC)、CD34(PE)、CD45(PerCP)和CD19(APC)的参数的第二正常数据组。在图57中,未成熟集群在左侧,并且成熟集群在右侧。
如图57所示,图像5700包括每个定义的正常集群到质心线的正常距离的范围5702的指示。例如,该范围可使用每个集群的平均位置加上或减去集群平均位置中标准偏差的两倍来确定。图像5700包括每个定义的正常集群中多个细胞的预期频率的指示5704。这在图57中通过根据每个定义的正常集群中细胞的平均频率缩放圆圈的黑色轮廓来表示。具有较高平均频率的集群成比例地大于具有较小平均频率的集群。可采用除圆圈之外的形状。
图像5700包括测试患者数据组中的细胞与质心线的距离和测试患者数据组中集群的细胞的频率的指示5706。如图所示,彩色圆圈总结了测试患者的每个集群中的细胞。圆圈的大小对应于该特定集群的测试频率(来自测试频率矩阵)。如果指示5607的彩色圆圈大于对应定义的正常集群的指示5704的黑色轮廓,则这表明测试患者集群中的细胞数量超过正常数据组中该集群的平均频率。
黑色圆圈5704的大小可根据某些患者特征(如年龄)而变化。例如,儿科患者比老年患者具有更多的未成熟细胞。因此,对于不同的患者群体,黑色圆圈大小可能不同。不同群体的位置通常将相同。
圆圈5706的位置对应于测试患者的集群中的细胞与质心线的平均距离。如果圆圈落在指示范围5702之外,则这表明测试患者的集群中的细胞位于距离质心线的平均值更远,这可能指示潜在的异常(癌症)。通常,解释应当由医学专家(例如,医生)进行,其可包括考虑关于患者的其他信息。注意,在图57中,每个定义的正常集群中的多个细胞的预期频率的指示5704的位置与来自质心线的测试患者数据组中的距离的指示5706的位置一致。换句话说,指示5704的位置不指示定义的正常集群与质心线的距离或距离范围。使指示5704的位置与指示5706的位置一致有助于将所定义的正常集群中多个细胞的预期频率与测试患者数据组中集群的细胞频率进行比较。子程序6000从5220进行到5222,在那里子程序6000结束。
系统100的一些实施方案可进行图52中未示出的其他动作,可不进行图52中示出的所有动作,或者可以不同的顺序进行图52的动作。例如,子程序6000可在一些实施方案中被修改以在5216处确定另外和/或不同的平均值,数据可存储在除浮点阵列和矩阵等之外的数据结构中。在另一个实例中,可定义和建模其他或另外的正常集群配置。在另一个实例中,子程序6000可被修改以存储、显示或打印生成的图像。
图58是示例子程序7000的流程图,其可由诊断系统(如图1的诊断系统104)采用以将测试患者数据组与定义的正常集群组进行比较,这种正常集群组的定义使用上述任何方法或所公开方法的各种组合以促进快速和有效地传达可能存在于测试患者的潜在成熟阶段异常的方式生成。为方便起见,将参考图58-65和图1的诊断系统104讨论子程序7000。
子程序7000在5800处开始并且进行到5802。在5802处,由诊断系统104针对正常患者组的细胞组检索或确定正常半径。子程序7000从5802进行到5804。在5804处,将测试患者数据组的细胞集群到对应的参考点,并且在针对正常患者数据组定义的质心线上鉴定测试患者数据组的细胞与质心线之间的切向交叉点。测试患者数据组可以是例如通过使用SVM鉴定的谱系或参考群体的数据组。质心线上的切向交叉点的鉴定可使用点积来完成。参见如以上关于图40、41和41A讨论的确定切向交叉点的讨论。如上所述,质心线可被分成段,并且候选段可用于鉴定细胞的切向交叉点,这可减少所需的计算次数。
子程序7000从5804进行到5806。在5806处,诊断系统104计算细胞与质心线上细胞的所鉴定的切向交叉点之间的单维距离。例如,这可使用以上列出并且为了方便起见在以下重复的方程2来完成:
参数距离=参数细胞-参数TCP [方程2]
其中参数细胞是细胞的相应参数的值,并且参数TCP是质心线上细胞的切向交叉点的参数值。细胞的参数距离值可存储在浮点阵列中(参见图59)。子程序7000从5806进行到5808。
在5808处,诊断系统104基于在5802处检索或确定的半径定义,对测试患者数据组(例如,在5806处生成的测试患者数据组的浮点阵列)进行距离数据上的z得分变换。
子程序7000从5808进行到5810。在5810处,诊断系统104确定每个细胞的缩放位置(5808)与质心交叉点之间的多维欧几里德距离。例如,这可使用以下列出的方程7来完成:
欧几里德距离=SQRT(a2+b2+c2+d2+e2+f2) 方程7
其中a-f是在5808处确定的从细胞到质心线的标准化距离。可针对指示z变换分布的正常患者数据组生成标准化浮点阵列。子程序7000从5810进行到5812。
在5812处,诊断系统104确定测试患者数据组中是否存在待处理的另外的细胞。当在5812处确定测试患者数据组中存在待处理的另外的感兴趣细胞时,子程序7000返回到5804以处理下一个细胞。当在5812处未确定测试患者数据组中存在待处理的另外的感兴趣细胞时,子程序进行到5814。
在5814处,选择半径的参数/分量以用作减法的过滤标准。例如,这可基于默认参数,基于用户选择等来完成。例如,如果希望在考虑所有参数组合的情况下鉴定与正常不同的细胞,则用户可选择欧几里德距离。在另一个实例中,如果希望仅鉴定具有与正常CD10表达不同的那些细胞,则用户可选择CD10。图45示出了正常半径表,其可例如使用以上参考图40-45讨论的子程序4000来生成。如图60-63所示,在该研究的一个实施方案中,选择欧几里德距离作为滤波的基础。如图60A-63A所示,在该研究的一个实施方案中,选择CD10作为滤波的基础。当所选择的滤波实施方案是单个参数时,可将测试参数的绝对值与减法向量进行比较以确定是否应当减去该细胞(例如图63A的细胞3)。子程序7000从5814进行到5816。
在5816处,选择了倍增系数。这可例如基于默认倍增系数(其可基于所选择的(多个)过滤参数、集群等而变化)、基于用户选择等来完成。可采用查找表。子程序7000从5816进行到5818。在5818处,例如通过将每个集群的所选半径标准偏差乘以所选择的集群倍增系数并将其与集群的所选择半径平均值相加来生成减法向量。图61和61A示出了存储所选择半径(来自5814)、所选择倍增系数(来自5816)和减法向量(来自5818)的示例半径表。子程序7000从5818进行到5820。
在5820处,如图62和62A所示,每个集群的减法向量被附加到图59的浮点阵列。子程序7000从5820进行到5822。在5822处,子程序7000确定待包括在测试患者数据组的表示(例如,图像)中的细胞。这可例如通过将针对每个细胞选择作为过滤标准(参见5814)的感兴趣变量与减法向量进行比较来完成。小于或等于减法向量的细胞可被标记为不包括在测试患者数据组的表示中、待被减去、不被显示、是半透明的等。该数据可存储在浮点阵列中,如图63所示,其显示欧几里德距离用作过滤标准,将其与减法向量进行比较以便确定是否从测试患者数据组的表示排除细胞。
子程序7000从5822进行到5824。在5824处,子程序生成测试患者数据组的一个或多个表示(图像)。这可例如使用在5822处生成的一个或多个浮点阵列以生成表示测试患者数据组的像素显示来完成。
图64和65示出了用于控制生成和显示测试患者数据组的表示的用户界面的实例。如图所示,图64的用户界面包括用户可选择的控件和/或数据输入字段6402、6404和6406,以及测试患者数据组6410和6412的表示。第一用户可选择控件6402允许用户选择半径的参数,在该参数上过滤测试患者数据组(参见图58的5814),并且如图所示是下拉菜单选择器6402。如图所示,下拉菜单选择器显示“欧几里德距离”作为选择,其对应于选择欧几里德距离,即该研究中的六维半径。可选择其他滤波器选项以有助于表示超过单个参数的细胞(例如,CD10、SSC等)。第二用户可选择控件6404允许用户设置减法向量(参见图58的5818),并且如图所示是滑动条。一些实施方案可允许用户选择待用于定义减法向量的倍增系数。数据输入字段6406允许用户输入待显示的多个事件。待显示的事件数量可用于指示在生成显示时待处理的测试患者数据组的多个细胞(例如,前5000个细胞、未减去的前5000个细胞、集群的5000个细胞(成熟阶段)等)。可能需要更多的细胞被可视化以检测低水平的白血病。在一个实施方案中,可选择默认数量的细胞,可设置最大数量的细胞等。图64示出了当减法向量幅度被设置为零时测试患者数据组的显示,并且图65示出了当减法向量幅度被设置为2时测试患者数据组的显示。图64A到65B示出了当界面包括用于选择绘图组的控件时的示例用户界面和显示表示。绘图组可能只是待可视化的细胞谱系。例如,用户可选择使中性粒细胞、单核细胞、淋巴细胞等或任何组合可视化,以促进例如可视化与正常成熟模式不同的任何细胞。
在一个实施方案中,表示减去的细胞的像素可以是半透明的,并且表示非减去的细胞的像素可基于该细胞被分配到的集群而着色。在一些实施方案中也可显示其他谱系或其他参考群体的细胞(例如,浆细胞可与B淋巴细胞一起显示),并且可提供有助于选择此类谱系的控件。如图所示,图64和65包括表示测试患者数据组的像素显示6410,其中垂直轴上具有CD10且水平轴上具有CD20;和表示测试患者数据组的像素显示6412,其中垂直轴上具有CD45且水平轴上具有SSC。该正常集群组的定义的质心线6414在具有黑色像素的显示中表示。在一个实施方案中,可用透明像素表示减去的细胞,并且可基于该细胞被分配到的集群用像素颜色表示非减去的细胞。在一个实施方案中,减去的细胞可不包括在显示中。在图64中,减法向量被设置为零。因此,减法向量为零,并且像素显示6410和6412包括表示测试患者数据组的所有细胞的彩色像素(直到经由用户可选控件6406设置的任何限制)。在图65中,减法向量被设置为2。因此,减法向量不为零,并且像素显示6410和6412包括表示测试患者数据组的细胞的彩色像素,其在标准化的六维欧几里德空间中距质心线6414超过2个标准偏差,而表示测试患者的细胞的像素是半透明的,其距质心线6414不超过2个标准偏差(或者不包括在表示中)。图64A-B是描绘位于中性粒细胞质心线半径之外的细胞的像素显示。图65A-B是描绘中性粒细胞、红细胞、单核细胞和树突细胞质心线半径之外的细胞的像素显示。
子程序7000从5824进行到5826,在那里子程序7000结束。系统100的一些实施方案可进行图58中未示出的其他动作,可不进行图58中示出的所有动作,或者可以不同的顺序进行图58的动作。例如,子程序7000可在一些实施方案中被修改以组合动作5822和5824,而不是单独地确定待包括在测试患者数据组的表示中的细胞并且生成测试患者数据组的表示。在另一个实例中,子程序可包括循环以促进以动态方式生成表示,例如通过调整倍增系数、过滤参数、以动态方式表示轴参数的数量。在另一个实例中,实施方案可被修改以生成排除减去的细胞的浮点阵列,这可通过减少用于生成显示的数据量来促进表示的远程显示。在另一个实例中,子程序7000可被修改以存储或打印生成的图像。
使用该方法的实施方案,可简化例如六维或更多维数据的分析的复杂性并且与正常细胞的统计分析相关。此外,数据可分成不同的谱系,其中进一步区分成熟阶段与谱系。这有助于熟悉来自祖细胞的细胞成熟概念的医生进行更直观的解释,通过各个发育阶段来成熟血细胞。重要的是能够区分再生骨髓与增加数量的未成熟正常细胞(称为向左移动),这与异常细胞的存在不同。该演示组合了单一谱系的概念、谱系的成熟度和参考每个发育阶段的预期频率的测试细胞的频率,以及这些细胞群体是否在N维空间中的预期统计位置范围内。该信息可与患者的知识、患者的临床数据(如全血计数、细胞遗传学和治疗史)组合。因此,该数据可在医学实践过程中被解释。该图示简化了对于医生的分析,而不是在六维空间中进行思考。这可通过减去接近正常质心的事件来促进。人眼非常善于鉴定事件的集群,并将它们与稍微超出预期边界的随机事件区分开来。
对淋巴细胞、早幼粒细胞、单核细胞和CD34明亮参考群体的统计学特征的研究结果证实,可鉴定参考群体的位置,其甚至在用化学疗法治疗后在六维空间中保持恒定,并且因此可用于定义应激骨髓样本中正常细胞的变异性。因此,如本文所讨论的使用支持向量机来鉴定参考群体可提供确定与正常的差异的基础。
在一项研究中,考虑的内部参考群体是基于离散细胞集群定义的,包括成熟淋巴细胞、未定型祖细胞、早幼粒细胞、成熟中性粒细胞和成熟单核细胞。该研究在以下更详细地讨论。参考细胞群体的表示在图66中出现。
数据组为77名随机选择的、表型正常的、诱导结束(第28天)儿科AML患者,参加了AAML1031。使用三个流式细胞仪收集三年的患者数据。研究了每个抗原的多批试剂。研究了每个谱系的HSC成熟至成熟造血细胞的过程中表面基因表达量的变化,以表征和比较多维空间中的参考群体。
研究的第一个参考群体是淋巴细胞。淋巴细胞存在于每个样本中,并用作CD45、SSC和FSC的参考。淋巴细胞对CD34呈阴性。将CD45强度用于证明足够的抗体与细胞比率。使用以上参考图27讨论的方法的实施方案,对27名正常患者(具有8个管=216个正常数据组)的手动选择的淋巴细胞群体训练支持向量机。使用以上参考图28讨论的方法的实施方案将定义的多维边界应用于正常患者和50名测试患者(8个管=400个测试患者数据组)以预测淋巴细胞群体。未应用手动选通参考。图30示出了正常患者的淋巴细胞群体,并且图35示出了测试患者的淋巴细胞群体。对于27名正常患者中的每一名并且对于50名测试患者,使用以上参考图29讨论的方法的实施方案确定每个管中每个标记物的平均值和标准偏差抗原强度。对于正常患者数据,确定平均值的平均值。将测试患者的抗原强度的一致性与正常平均值的确定平均值进行比较。50个测试患者数据组的结果的表示在图67和68中再现。
研究的第二个群体是早幼粒细胞,其是其中看到AML的最成熟的骨髓细胞。该群体被鉴定为HLA-DR阴性、CD11b阴性和高SSC。测试患者的前髓细胞的预测群体在图69中以蓝色表示,比较结果在图70和71中示出。结果对于仪器是稳定的。可使用SSC的统计分析来确定早幼粒细胞是否具有粒度变化。例如,在应激骨髓和患有骨髓增生异常综合征(MDS)的患者中观察到如通过SSC测量的早幼粒细胞的粒度变化。可在MDS中鉴定下丘脑性。
研究的第三个群体是单核细胞。该群体被鉴定为CD14阳性、CD33阳性,具有高水平的CD45和中间SSC。单核细胞的预测群体在图72中以绿色表示,随后是图73和74中的比较结果。在高CD14区域中被鉴定为非单核细胞(与绿色点重叠)的黑色点是非活细胞/双峰。
研究的第四个群体是未定型祖细胞,鉴定为明亮的CD34。选择CD33与CD34组合以鉴定该细胞群体。未定型祖细胞的预测群体在图75中表示:红色指示SVM与预测的未定型祖细胞群体的专家评估之间的一致性;紫色指示通过应用SVM预测的细胞是未定型祖细胞,专家未将其预测为未定型祖细胞;并且蓝色指示专家预测为未定型祖细胞的细胞,但SVM的应用未将其预测为未定型祖细胞。使用SVM预测(上图中的红色加紫色)来确定测试患者数据组的平均值和标准偏差的结果在图76和77中产生。
在图78中比较了参考群体相对于CD45和SSC的结果。
在图79中再现了淋巴细胞群体移动到固定点的表示(例如,使用以上参考图29的子程序3200讨论的向量归一化过程)。CD34明亮群体、单核细胞和早幼粒细胞群体移动的量与用于移动淋巴细胞群体的量相同。当淋巴细胞群体的位置移动到固定点时,其他参考群体的数据点的位置收紧,并且CD34明亮群体、早幼粒细胞群体和淋巴细胞群体看起来一起上下移动。这表明变异性在个体中,而不是参数鉴定参考群体之间的变异性的反映。
对这些参考群体上的其他细胞表面抗原的进一步研究显示,未定型祖细胞和成熟单核细胞上的表面基因产物(CD)强度在个体与个体之间也基本恒定。图80是CD34++的CD34强度的表示。图81是单核细胞的CD14强度的表示。
有趣的是,发现成熟单核细胞上的CD33强度在个体与个体之间不是恒定的。然而,单核细胞与未定型祖细胞之间CD33强度之间的比率基本上是恒定的。图82是CD14++单核细胞的CD33强度的表示。
在左侧图83中的表示中,单核细胞(绿色)和未定型祖细胞(红色)表现出不均匀量的CD33(以及CD45的较小变异性)。通过以与先前使用成熟淋巴细胞作为参考群体进行的CD45/SSC所使用的方式类似的方式归一化数据,可减少这种变异性。在图83的右侧部分中,未定型祖细胞的位置移动到单个位置,其伴随单核细胞位置的移动。这种归一化导致单核细胞群体的更紧密分布,表明即使绝对量因个体与个体而异,这些细胞群体之间CD33的量的比率也得以保留。通过这种方式,可减少个体差异。
一些实施方案可采用计算机程序产品的形式或包括计算机程序产品。例如,根据一个实施方案,提供了一种计算机可读介质,其包括适于进行上述方法或功能中的一种或多种的计算机程序。该介质可以是物理存储介质,例如像只读存储器(ROM)芯片,或盘(如数字通用盘(DVD-ROM)、光盘(CD-ROM)、硬盘),由适当的驱动器或经由适当的连接读取(包括以一个或多个条形码或存储在一个或多个此类计算机可读介质上的其他相关代码编码并且可由适当的读取器装置读取)的存储器、网络或便携式介质。
此外,在一些实施方案中,可以其他方式(如,至少部分地在固件和/或硬件中)实施或提供这些方法和/或功能中的一些或全部,该固件和/或硬件包括但不限于一个或多个专用集成电路(ASIC)、数字信号处理器、分立电路、逻辑门、标准集成电路、控制器(例如,通过执行适当的指令并且包括微控制器和/或嵌入式控制器)、现场可编程门阵列(FPGA)、复杂可编程逻辑装置(CPLD)、状态机等,以及采用RFID技术的装置,及其各种组合。
如本领域技术人员所认识到的,以上方法可用于多种设置,包括但不限于诊断和疾病以及治疗监测。
本说明书中提及和/或申请数据表中所列的所有以上美国专利、美国专利申请公布、美国专利申请、外国专利、外国专利申请和非专利出版物均以引用的方式整体并入本文。
根据上述内容应了解,虽然本文已出于说明目的描述了特定实施方案,但可在不背离本公开的精神和范围的情况下进行各种修改。提供以上实施例仅作为说明而非限制。

Claims (50)

1.一种诊断n维空间中的生物细胞测试组中的癌症的方法,其包括:
使用第一方案使正常生物细胞组中每个细胞暴露于四种或更多种试剂中的多种;
使用第二方案测量该正常生物细胞组中每个细胞的对应多个荧光强度;
至少部分地基于在该正常生物细胞组中测量的细胞的多个荧光强度,将该正常生物细胞组中每个细胞映射到n维空间中的对应点,其中这些对应点形成正常点组;
使用支持向量机在该正常点组中定义一个或多个参考群体;
通过至少部分地基于所定义的一个或多个参考群体定义质心线和半径来定义该n维空间中的参考集群组,其中该参考集群组中的每个集群对应于细胞谱系内的成熟水平;
使用该第一方案使生物细胞测试组中的每个细胞暴露于多种试剂;
使用该第二方案测量该生物细胞测试组中每个细胞的对应多个荧光强度;
至少部分地基于在该生物细胞测试组中测量的细胞的多个荧光强度,将该生物细胞测试组中每个细胞映射到n维空间中的对应点,其中这些对应点形成测试点组;并且
将该测试点组与参考集群组进行比较。
2.一种诊断n维空间中的生物细胞测试组中的癌症的方法,其包括:
使用第一方案使正常生物细胞组中每个细胞暴露于四种或更多种试剂中的多种;
使用第二方案测量该正常生物细胞组中每个细胞的对应多个荧光强度;
至少部分地基于在该正常生物细胞组中测量的细胞的多个荧光强度,将该正常生物细胞组中每个细胞映射到n维空间中的对应点,其中这些对应点形成正常点组;
通过基于该n维空间中该正常点组的映射定义质心线和半径来定义该n维空间中的参考集群组,其中该参考集群组中的每个集群对应于细胞谱系内的成熟水平;
使用该第一方案使生物细胞测试组中的每个细胞暴露于多种试剂;
使用该第二方案测量该生物细胞测试组中每个细胞的对应多个荧光强度;
至少部分地基于在该生物细胞测试组中测量的细胞的多个荧光强度,将该生物细胞测试组中每个细胞映射到n维空间中的对应点,其中这些对应点形成测试点组;并且
将该测试点组与参考集群组进行比较,其中该参考集群组的定义和将该测试点组与该定义的参考集群组进行比较中的至少一个包括使用支持向量机在该n维空间中定义一个或多个多维边界。
3.一种表征n维空间中的生物细胞测试组的方法,其包括:
使用第一方案将正常生物细胞组中的每个细胞映射到n维空间中的对应点,其中这些对应点形成正常点组;
基于该n维空间中该正常点组的映射,为该n维空间中的参考集群组定义质心线和半径,其中集群对应于细胞谱系内的成熟水平;
使用该第一方案将生物细胞测试组中的每个细胞映射到该n维空间中的对应点,这些对应点形成测试点组;
将该测试点组与参考集群组进行比较,其中该参考集群组的质心线和半径的定义和将该测试点组与该参考集群组进行比较中的至少一个包括使用支持向量机在该n维空间中定义一个或多个多维边界;并且
基于该测试点组与该参考集群组的比较来诊断癌症。
4.一种表征生物细胞测试组的方法,其包括:
使用定义的方案将该生物细胞测试组中的每个细胞映射到n维空间中的对应点,这些对应点形成测试点组;并且
将该测试点组与该n维空间中定义的参考集群组进行比较,其中该定义的参考集群组中的集群对应于细胞谱系内的成熟水平,并且集群由质心线和半径定义,其中该比较包括基于使用支持向量机在该n维空间中定义的一个或多个多维边界,在该测试点组中调整和分类点中的至少一个。
5.一种表征n维空间中的正常细胞谱系的方法,其包括:
使用第一方案使正常生物细胞组中每个细胞暴露于多种试剂;
使用第二方案测量该正常生物细胞组中每个暴露细胞的对应多个特征;
至少部分地基于在该正常生物细胞组中测量的细胞的多个特征,将该正常生物细胞组中每个细胞映射到n维空间中的对应点,其中这些对应点形成正常点组;并且
基于该n维空间中的该正常点组的该映射来定义集群组的质心线和半径,其中每个集群对应于该正常细胞谱系内的成熟水平,并且该质心线和该半径中的至少一个的定义基于使用支持向量机在该n维空间中定义多维边界。
6.一种方法,其包括:
将测试点组与由质心线和半径定义的n维空间中的正常集群组进行比较,该测试点组表示使用定义的方案将生物细胞测试组中的每个细胞映射到该n维空间中的对应点,其中使用支持向量机基于在该n维空间中定义的一个或多个n维边界确定该质心线和半径中的至少一个;并且
基于该比较生成数字图像。
7.如前述权利要求中任一项所述的方法,其中至少一种方案包括:
使细胞暴露于四种试剂;并且
使用流式细胞术测量该细胞的四种水平的荧光强度和光散射。
8.如前述权利要求中任一项所述的方法,其中方案包括用CD10的标记物、CD19的标记物、CD20的标记物和CD45的标记物染色细胞。
9.如前述权利要求中任一项所述的方法,其中方案包括用FSC的标记物、SSC的标记物、CD20(FITC)的标记物、CD10(PE)的标记物、CD45的标记物和CD19的标记物染色细胞。
10.如前述权利要求中任一项所述的方法,其中方案包括用FSC的标记物、SSC的标记物、CD22(FITC)的标记物、CD34(PE)的标记物、CD45的标记物和CD19的标记物染色细胞。
11.如前述权利要求中任一项所述的方法,其中正常生物细胞组是正常生物细胞样品的子组。
12.如前述权利要求中任一项所述的方法,其中正常生物细胞组包括多个子组,并且每个子组包括选自从个体抽取的样品的细胞组。
13.如前述权利要求中任一项所述的方法,其包括在笛卡尔坐标显示中表示该n维空间中的该定义的参考集群组。
14.如权利要求13所述的方法,其中颜色用于表示另外的维度。
15.如前述权利要求中任一项所述的方法,其中该n维空间中的该参考集群组对应于细胞谱系内不同的成熟阶段。
16.如前述权利要求中任一项所述的方法,其中该质心线包括多个分支。
17.如前述权利要求中任一项所述的方法,其中该参考集群组包含由该质心线和半径定义的该n维空间中的超椭球体组。
18.如前述权利要求中任一项所述的方法,其包括:
训练该支持向量机以在该n维空间中生成多维边界,从而鉴定感兴趣的细胞的参考群体。
19.如权利要求18所述的方法,其包括:
确定正常患者数据组的归一化向量;并且
在训练该支持向量机之前,基于该确定的归一化向量来调整该正常患者数据组。
20.如权利要求19所述的方法,其中使用淋巴细胞参考群体定义归一化向量,并且感兴趣的参考群体是单核细胞群体。
21.如前述权利要求中任一项所述的方法,其包括:
评估该多维边界;并且
基于该评估选择性地调整该多维边界。
22.如前述权利要求中任一项所述的方法,其包括:
基于使用支持向量机生成的该n维空间中的多维边界,对测试细胞组中的细胞进行分类。
23.如权利要求22所述的方法,其中将用于对该测试细胞组中的细胞进行分类的该n维空间中的该多维边界用于定义该质心线。
24.如前述权利要求中任一项所述的方法,其中将该n维空间中的该多维边界用于定义该半径。
25.如前述权利要求中任一项所述的方法,其包括:
过滤测试细胞组的分类细胞。
26.如前述权利要求中任一项所述的方法,其包括:
确定使用支持向量机鉴定的患者感兴趣群体的平均参考强度。
27.如权利要求26所述的方法,其中该患者是正常患者和测试患者中的一名。
28.如前述权利要求中任一项所述的方法,其包括:
确定使用利用支持向量机生成的多维边界鉴定的正常患者组的感兴趣群体的相应平均参考强度;并且
基于该确定的平均参考强度确定标准参考平均值。
29.如权利要求28所述的方法,其包括:
基于该确定的标准参考平均值确定半径。
30.如前述权利要求中任一所述的方法,其包括:
确定测试患者数据组的参考群体的归一化向量;并且
在将该测试患者数据组与该参考集群组进行比较之前,基于该确定的归一化向量调整该测试患者数据组。
31.如前述权利要求中任一所述的方法,其包括:
确定测试患者数据组的归一化向量;并且
在将该测试患者数据组与该参考集群组进行比较之前,基于该确定的归一化向量调整该测试患者数据组。
32.如前述权利要求中任一项所述的方法,其包括:
对于对应于参考群体的每个正常患者数据组的每个数据点,确定该相应数据点与该质心线之间的切向交叉点;
对于对应于参考群体的每个正常患者数据组的每个数据点,确定该数据点与该质心线上的该相应切向交叉点之间的单维距离;
对于组合的正常患者参考群体数据组,确定每个集群的各个参数值的标准偏差;
基于每个集群的该确定的标准偏差,对针对每个正常患者数据组确定的该单维距离进行z得分变换,从而生成每个数据点的缩放位置;
确定每个数据点的该缩放位置与相应的切向交叉点之间的多维欧几里德距离;并且
确定每个集群的该多维欧几里得距离的平均值和标准偏差。
33.如前述权利要求中任一项所述的方法,其包括:
生成一个或多个浮点阵列。
34.如前述权利要求中任一项所述的方法,其包括:
生成具有对应于细胞或数据点的一个或多个参数的分量的向量。
35.如前述权利要求中任一项所述的方法,其包括:
生成具有对应于参考群体的参数的分量的向量。
36.如前述权利要求中任一项所述的方法,其包括:
对于对应于参考群体的每个正常患者数据组的每个数据点,确定该相应数据点与该质心线之间的切向交叉点;
对于对应于参考群体的每个正常患者数据组的每个数据点,确定该数据点与该质心线上的该相应切向交叉点之间的单维距离;
基于为每个集群确定的正常半径,对针对每个正常患者数据组确定的该单维距离进行z得分变换;
确定每个数据点的该缩放位置与相应的切向交叉点之间的多维欧几里德距离;
对于每个正常患者数据组的每个集群,确定该集群的数据点与该质心线之间的相应平均欧几里德距离;
对于每个正常患者数据组,确定该正常患者数据组的这些集群中的相应细胞频率;
基于该确定的相应平均欧几里德距离确定组合的正常患者数据组的每个集群中的数据点的平均值和标准偏差;并且
基于该确定的细胞的相应分布确定组合的正常患者数据组的每个集群中的细胞的平均分布。
37.如权利要求36所述的方法,其中确定正常患者数据组的集群中的细胞的频率包括确定该正常数据组中被分类为处于该集群中的细胞的百分比。
38.如权利要求36所述的方法,其包括确定该正常半径。
39.如权利要求36所述的方法,其包括检索该正常半径。
40.如前述权利要求中任一项所述的方法,其包括:
对于对应于参考群体的测试患者数据组的每个数据点,确定该相应数据点与该质心线之间的切向交叉点;
对于对应于参考群体的该测试患者数据组的每个数据点,确定该数据点与该质心线上的该相应切向交叉点之间的单维距离;
基于为每个集群确定的正常半径,对针对该测试患者数据组确定的该单维距离进行z得分变换;
确定每个数据点的该缩放位置与相应的切向交叉点之间的多维欧几里德距离;
对于该测试患者数据组的每个集群,确定该集群的数据点与该质心线之间的相应平均欧几里德距离;
确定该测试患者数据组的集群中的细胞的相应分布;并且
生成指示以下中的至少一个的图像:
每个集群到该质心线的正常距离的范围;
细胞到每个集群的预期分布;
测试患者数据组的数据点与该质心线的距离;和
设置为该正常患者数据组的集群中的细胞频率分布的该测试患者数据组的集群中的细胞频率分布。
41.如权利要求40所述的方法,其中确定该测试患者数据组的集群中的细胞分布包括确定该测试患者数据组中被分类为处于该集群中的细胞的百分比。
42.如权利要求40所述的方法,其包括确定该正常半径。
43.如前述权利要求中任一项所述的方法,其包括:
对于对应于参考群体的测试患者数据组的每个数据点,确定该相应数据点与该质心线之间的切向交叉点;
对于对应于参考群体的该测试患者数据组的每个数据点,确定该数据点与该质心线上的该相应切向交叉点之间的单维距离;
基于为每个集群确定的正常半径,对针对该测试患者数据组确定的该单维距离进行z得分变换;
确定每个数据点的该缩放位置与相应的切向交叉点之间的多维欧几里德距离;
确定半径的过滤分量;
基于该确定的过滤分量鉴定待包括在代表该测试患者数据组的数字图像中的数据点;并且
基于这些鉴定的数据点生成代表该测试患者数据组的图像。
44.如权利要求43所述的方法,其包括:
通过减法向量缩放该确定的过滤分量;并且
基于该缩放的过滤分量鉴定待包括在该数字图像中的数据点。
45.如权利要求44所述的方法,其包括:
从这些鉴定的数据点排除该测试患者数据组中具有小于该缩放的过滤分量的值的数据点。
46.一种计算机可读介质,其存储用于使诊断系统通过进行如前述权利要求中任一项所述的方法来促进检测生物细胞测试组中癌细胞的指令。
47.一种诊断系统,其包括:
一个或多个存储器;以及
耦合到该一个或多个存储器的数字信号处理电路,其中该数字信号处理电路在操作中实现如权利要求1至45中任一项所述的方法。
48.一种用于诊断测试细胞组的系统,该系统包括:
用于定义对应于正常细胞谱系的正常集群组的装置;和
用于将该测试细胞组与该定义的正常集群组进行比较的装置,其中用于定义的装置和用于比较的装置中的至少一个使用利用支持向量机生成的多维边界鉴定参考群体。
49.如权利要求48所述的系统,其包括:
用于基于该测试细胞组与该定义的正常集群组的比较来生成数字图像的装置;和
用于生成该数字图像的显示的装置。
50.如权利要求49所述的系统,其中用于生成该数字图像的该显示的装置包括打印机。
CN201780071450.1A 2016-09-19 2017-09-19 用于使用多维分析检测异常细胞的系统、方法和制品 Active CN110023759B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310383534.6A CN116359503A (zh) 2016-09-19 2017-09-19 用于使用多维分析检测异常细胞的系统、方法和制品

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201662396621P 2016-09-19 2016-09-19
US62/396,621 2016-09-19
PCT/US2017/052311 WO2018053528A1 (en) 2016-09-19 2017-09-19 System, method, and article for detecting abnormal cells using multi-dimensional analysis

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202310383534.6A Division CN116359503A (zh) 2016-09-19 2017-09-19 用于使用多维分析检测异常细胞的系统、方法和制品

Publications (2)

Publication Number Publication Date
CN110023759A true CN110023759A (zh) 2019-07-16
CN110023759B CN110023759B (zh) 2023-04-04

Family

ID=61619004

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202310383534.6A Pending CN116359503A (zh) 2016-09-19 2017-09-19 用于使用多维分析检测异常细胞的系统、方法和制品
CN201780071450.1A Active CN110023759B (zh) 2016-09-19 2017-09-19 用于使用多维分析检测异常细胞的系统、方法和制品

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202310383534.6A Pending CN116359503A (zh) 2016-09-19 2017-09-19 用于使用多维分析检测异常细胞的系统、方法和制品

Country Status (4)

Country Link
US (2) US11639936B2 (zh)
EP (1) EP3516391A4 (zh)
CN (2) CN116359503A (zh)
WO (1) WO2018053528A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111243677A (zh) * 2020-01-07 2020-06-05 北京唐颐惠康生物医学技术有限公司 一种基于细胞质量保证的时间控制方法及系统
WO2023005196A1 (zh) * 2021-07-26 2023-02-02 南通大学 基于双重自适应邻域半径的多粒度乳腺癌基因分类方法
CN116698709A (zh) * 2023-06-09 2023-09-05 深圳市益希医疗器械有限公司 一种流式细胞仪的数据处理方法及流式细胞仪

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11010449B1 (en) 2017-12-12 2021-05-18 VFD Consulting, Inc. Multi-dimensional data analysis and database generation
WO2019118573A1 (en) 2017-12-12 2019-06-20 VFD Consulting, Inc. Reference interval generation
US20220336058A1 (en) * 2019-09-25 2022-10-20 Cedars-Sinai Medical Center Analysis methods for multiplex tissue imaging including imaging mass cytometry data
US11392484B2 (en) * 2019-10-31 2022-07-19 Express Scripts Strategie Development, Inc. Method and system for programmatically testing user interface paths
CN111486920B (zh) * 2020-04-15 2022-06-14 上海航天精密机械研究所 运载火箭贮箱容积测量数据判定分析方法、系统及介质
WO2023094625A1 (fr) * 2021-11-25 2023-06-01 Metafora Biosystems Procede d'analyse cytometrique

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140221247A1 (en) * 2005-02-18 2014-08-07 Hematologics, Inc. System, method, and article for detecting abnormal cells using multi-dimensional analysis

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2102518T3 (es) 1991-08-28 1997-08-01 Becton Dickinson Co Motor de atraccion por gravitacion para el agrupamiento autoadaptativo de corrientes de datos n-dimensionales.
DE69329353T2 (de) 1992-03-05 2001-01-04 Becton Dickinson Co Verfahren zur Herstellung und Analyse von Leukozyten in Vollblut unter Verwendung der Durchflusszytometrie
US6882990B1 (en) * 1999-05-01 2005-04-19 Biowulf Technologies, Llc Methods of identifying biological patterns using multiple data sets
WO2005020788A2 (en) 2003-08-01 2005-03-10 The General Hospital Corporation Cognition analysis
US20070287163A1 (en) * 2004-05-17 2007-12-13 Crucell Holland B.V. Methods for Diagnosis of Acute Myeloid Leukemia
US20090109432A1 (en) 2007-10-26 2009-04-30 Olson Robert J Systems and methods for submersible imaging flow apparatus
EP2300800A2 (en) 2008-06-12 2011-03-30 East Carolina University Flow cytometer apparatus for three dimensional diffraction imaging and related methods
US9678059B2 (en) * 2010-05-23 2017-06-13 Technion Research & Development Foundation Ltd. Detection, staging and grading of benign and malignant tumors
US20140129152A1 (en) * 2012-08-29 2014-05-08 Michael Beer Methods, Systems and Devices Comprising Support Vector Machine for Regulatory Sequence Features
GB201309057D0 (en) * 2013-05-20 2013-07-03 Cell Therapy Ltd Method
EP3074525A4 (en) 2013-11-26 2017-08-23 University of North Texas Health Science Center at Fort Worth Personalized medicine approach for treating cognitive loss
WO2016049291A1 (en) 2014-09-25 2016-03-31 Epic Sciences, Inc. Circulating tumor cell diagnostics for identification of resistance to androgen receptor targeted therapies
JP6013438B2 (ja) * 2014-12-09 2016-10-25 株式会社Nttデータ・アイ 脳疾患診断支援システム、脳疾患診断支援方法及びプログラム
CA2969912A1 (en) * 2014-12-10 2016-06-16 Neogenomics Laboratories, Inc. Automated flow cytometry analysis method and system
US10758573B2 (en) * 2015-06-09 2020-09-01 President And Fellows Of Harvard College Compositions and methods for enrichment of cells

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140221247A1 (en) * 2005-02-18 2014-08-07 Hematologics, Inc. System, method, and article for detecting abnormal cells using multi-dimensional analysis

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ANDREW P. VOIGT等: "Consistent quantitative gene product expression: #1. Automated identification of regenerating bone marrow cell populations using support vector machines : Automated Flow Cytometric Cell Classification", 《NIH PUBLIC ACCESS AUTHOR MANUSCRIPT》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111243677A (zh) * 2020-01-07 2020-06-05 北京唐颐惠康生物医学技术有限公司 一种基于细胞质量保证的时间控制方法及系统
CN111243677B (zh) * 2020-01-07 2023-04-14 北京唐颐惠康生物医学技术有限公司 一种基于细胞质量保证的时间控制方法及系统
WO2023005196A1 (zh) * 2021-07-26 2023-02-02 南通大学 基于双重自适应邻域半径的多粒度乳腺癌基因分类方法
US11837329B2 (en) 2021-07-26 2023-12-05 Nantong University Method for classifying multi-granularity breast cancer genes based on double self-adaptive neighborhood radius
CN116698709A (zh) * 2023-06-09 2023-09-05 深圳市益希医疗器械有限公司 一种流式细胞仪的数据处理方法及流式细胞仪
CN116698709B (zh) * 2023-06-09 2024-03-12 深圳市益希医疗器械有限公司 一种流式细胞仪的数据处理方法及流式细胞仪

Also Published As

Publication number Publication date
US20240044904A1 (en) 2024-02-08
EP3516391A4 (en) 2020-05-06
US20200158734A1 (en) 2020-05-21
US11639936B2 (en) 2023-05-02
CN116359503A (zh) 2023-06-30
WO2018053528A1 (en) 2018-03-22
CN110023759B (zh) 2023-04-04
EP3516391A1 (en) 2019-07-31

Similar Documents

Publication Publication Date Title
US20180106787A1 (en) System, method, and article for detecting abnormal cells using multi-dimensional analysis
CN110023759A (zh) 用于使用多维分析检测异常细胞的系统、方法和制品
US20160169786A1 (en) Automated flow cytometry analysis method and system
US8682810B2 (en) Method and system for analysis of flow cytometry data using support vector machines
Pedreira et al. From big flow cytometry datasets to smart diagnostic strategies: The EuroFlow approach
US20140336942A1 (en) Analyzing High Dimensional Single Cell Data Using the T-Distributed Stochastic Neighbor Embedding Algorithm
US9183237B2 (en) Methods and apparatus related to gate boundaries within a data space
Elhadary et al. Revolutionizing chronic lymphocytic leukemia diagnosis: A deep dive into the diverse applications of machine learning
CN111257558B (zh) 基于机器学习的慢性淋巴细胞白血病肿瘤细胞识别方法
Azad et al. Immunophenotype discovery, hierarchical organization, and template-based classification of flow cytometry samples
Kothari et al. Neural network analysis of flow cytometry immunophenotype data
Labib et al. Data mining for cancer management in Egypt case study: childhood acute lymphoblastic leukemia
EP3230887A1 (en) Automated flow cytometry analysis method and system
Acevedo Lipes Deep learning system for the automatic classification of normal and dysplastic peripheral blood cells as a support tool for the diagnosis
Bashashati et al. A pipeline for automated analysis of flow cytometry data: preliminary results on lymphoma sub-type diagnosis
Maguire et al. Computer-assisted diagnosis of hematological malignancies using a pattern representation of flow cytometry data
TW202311742A (zh) 流式細胞儀資料之免疫表型自動分類
Qian et al. Combined multiple clusterings on flow cytometry data to automatically identify chronic lymphocytic leukemia
JP2022140145A (ja) 分析方法および分析装置
JP2022140144A (ja) 分析方法および分析装置
JP2022140146A (ja) 分析方法および分析装置
Salzman et al. Flow cytometric immunophenotyping using cluster analysis and cluster editing
Mohamed Using Probability Binning and Bayesian Inference to measure Euclidean Distance of Flow Cytometric data
Keyes Using deep autoencoder feature embeddings to explore single-cell phenotypes in pediatric cancer

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant