CN101981446B - 用于使用支持向量机分析流式细胞术数据的方法和系统 - Google Patents

用于使用支持向量机分析流式细胞术数据的方法和系统 Download PDF

Info

Publication number
CN101981446B
CN101981446B CN200980110847.2A CN200980110847A CN101981446B CN 101981446 B CN101981446 B CN 101981446B CN 200980110847 A CN200980110847 A CN 200980110847A CN 101981446 B CN101981446 B CN 101981446B
Authority
CN
China
Prior art keywords
data
flow cytometry
classification
support vector
kernel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN200980110847.2A
Other languages
English (en)
Other versions
CN101981446A (zh
Inventor
宏·章
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Health Discovery Corp
Original Assignee
Health Discovery Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Health Discovery Corp filed Critical Health Discovery Corp
Publication of CN101981446A publication Critical patent/CN101981446A/zh
Application granted granted Critical
Publication of CN101981446B publication Critical patent/CN101981446B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/69Microscopic objects, e.g. biological cells or cellular parts
    • G06V20/698Matching; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Investigating, Analyzing Materials By Fluorescence Or Luminescence (AREA)
  • Investigating Or Analysing Materials By Optical Means (AREA)

Abstract

提供了一种用于接收流式细胞术数据的输入并使用一个或多个支持向量机分析所述数据以产生输出的自动方法和系统,其中,所述流式细胞术数据被分类成两种或多种类别。所述一个或多个支持向量机使用捕获输入数据内的分布式数据的内核。这种分布式内核通过使用两个分布之间的距离函数(散度)来构造。在优选的实施方案中,使用了基于Bhattacharya亲和性的内核。所述分布式内核应用于从被怀疑有骨髓增生异常综合症的患者获得的流式细胞术数据的分类。

Description

用于使用支持向量机分析流式细胞术数据的方法和系统
相关申请
本申请要求在2008年2月8日递交的美国临时申请第61/027,416号的优先权,此临时申请在此通过引用被全部并入。
发明领域
本发明涉及用于使用支持向量机自动分析分布式数据特别是流式细胞术数据的方法。
发明背景
流式细胞术是悬浮在流动的液流中的微小颗粒的特征的测量。聚焦的激光光束照亮每一个移动的颗粒,并且光在所有的方向散射。放置在交点前面或垂直于激光光束的检测器接收散射光的脉冲,产生被输入到计算机分析器中用于解释的信号。所检测的前向散射光的总量取决于颗粒尺寸和折射率,但与如激光器所看见的颗粒的横截面面积紧密相关,而侧向散射光的量可指示形状或粒度。
流式细胞术的最广泛使用的应用之一是用于医疗诊断学的细胞分析,其中,所关注的颗粒是悬浮在含盐溶液中的细胞。如果所关注的细胞标志可以用荧光染料标记,那么细胞的另外的性质例如表面分子或细胞内组分也可以被准确地定量;例如,抗体-荧光染料结合物可用来连接到特定的表面或细胞内受体。通过借助于靠着表面标志的荧光标记的单克隆抗体的使用来描述在不同的发展阶段的细胞的特征的免疫分型(Immunophenotyping)是流式细胞术的最普遍的应用之一。已发展了连接到特定的结构(例如DNA、线粒体)或对局部的化学性质(例如Ca++浓度、pH等)敏感的其它染料。
虽然流式细胞术在医疗诊断学中被广泛地使用,它在非医疗应用例如水分析或其它液体分析中也是有用的。例如,可分析海水以识别细菌或其它有机体的存在或类型,可以分析牛奶以检验微生物,以及可以对粒状污染物或添加剂检验燃料。
所使用的激光光束具有合适的颜色,以激发选定的一种或多种荧色物。所发射的荧光的量可与正在讨论的细胞标志的表达相关联。每一种流式细胞仪通常能够根据其配置同时检测许多不同的荧色物。在一些仪器中,通过使用以不同波长发射的激光器,可以同时分析多种荧色物。例如,可从BectonDickinson(FranklinLakes,NJ)获得的FACSCaliburTM流式细胞术系统是多色流式细胞仪,此多色流式细胞仪配置成用于四色操作。一系列光电倍增管收集来自每一个细胞的荧光发射,并且在计算机上收集和分析随后的电事件,计算机将荧光强度值分配到在流式细胞术标准(FCS)数据文件中的每一个信号。数据的分析涉及识别在多维空间中的多边形区域的交集或并集,其用来过滤数据或对数据“设门(gating)”,并且限定事件的分组的子集用于进一步的分析或分类。
国际分析细胞协会(ISAC)已采纳了对FCM数据的一般表示的FCS数据文件标准。记录贯穿细胞仪的样本的测量的所有主要分析仪器都支持这个标准,允许研究者和临床医生在很多市场上可买到的仪器和软件中间选择而不会遇到主要的数据兼容性问题。然而,这个标准没有描述用于计算的后处理和数据分析的协议。
由于存在于流式细胞术分析中的大量的数据,通过人工过程充分利用数据常常很难。数据的高维数也使得使用传统的统计方法和学习技术例如人工神经网络不可行。支持向量机是能够处理高维数据的基于内核的机器学习技术。它在使用适当地设计的内核处理流式数据中可能是有效的工具。
内核在现代机器学习技术例如支持向量机(SVM)中起着关键的作用。用于分类的支持向量机被定义为在特征空间中的最佳超平面,此特征空间通常是高维的(甚至无限维的)内积空间。在特征空间中,最佳超平面的构造需要被映射的输入向量的内积。定义在输入空间上的核函数提供计算内积的有效方法,而事实上不将输入映射到特征空间。内核定义了在两个向量之间的相似性测量。SVM方法的优势是其仅基于内核的自然的相似性测量来获得隐含模式而不使用显式特征提取的能力。
在许多应用例如图像识别和流式细胞术数据分析中,输入数据通常是高维数的并且是大量的。这种数据的重要特征通常在于某些空间中点的分布,而不是个别的点的孤立的值。标准内核(例如多项式内核和高斯内核)对这种类型的数据通常是无效的,因为标准内核同等地处理所有的向量分量,使得大的输入量趋向于使内核对特定问题的基本结构和分布特征不敏感。作为结果,它们并不非常适合于分布式数据。例如,已报导了使用径向基函数(RBF)内核的流式细胞术数据的SVM分析,径向基函数内核的例子是高斯内核和B-样条函数内核。(见Rajwa,B.等人的“AutomatedClassificationofBacterialParticlesinFlowbyMultiangleScatterMeasurementandSupportVectorMachineClassifier”,CytometryPartA,73A:369-379(2008)。)所描述的方法需要使用“增强型散射-检测系统”以获得所报导的高分类准确性。此外,作者得出结论,如果问题的维数高于2,那么可能不容易解释SVM结果。这种限制最小化了这种技术的实际应用。Toedling等人在“Automatedin-silicodetectionofcellpopulationsinflowcytometryreadoutsanditsapplicationtoleukemiadiseasemonitoring”,BMCBioinformatics,7:282,June2006中描述了通过将单一的细胞分配到预先定义的组中使用径向基函数内核来检测白血病细胞的流式细胞术数据的SVM分析。事实上,SVM分析取代了手工设门,但是没有考虑数据的任何式分布特征。
因此,仍需要一种用于分析流式细胞术数据和其它类型的分布式数据的方法,这些分布式数据包括基本结构内的重要信息和分布,并能够用于更高维数。本发明目的在于这样的方法。
发明的简要概述
根据本发明,使用SVM内核来分析流式细胞术数据,SVM内核是特别为具有分布性质的数据创建的。输入数据p集是在空间中的大量点的集合。例如,图像可被看作是在2-维空间中的点的集合。在适当的标准化后,p可被看作是概率分布。为了定义关于两个这种输入数据p和q的内核以捕获分布趋势,定义关于p和q的函数,以测量两个完整的分布之间的相似性,而不仅是在分布中的单独的点。
支持向量机的实例通常在美国专利第6,760,715号、第7,117,188号和第6,996,549号中公开,这些专利连同其它专利一起在此通过引用被并入,支撑向量机用来分析流式细胞术数据,所述流式细胞术数据由常规的商业流式细胞术装置产生。用于实施流式细胞术测量的示例性的系统在美国专利第5,872,627号和第4,284,412号中被描述,以上专利在此通过引用被并入。在此描述的特定的实施例中,数据涉及医疗诊断学的应用,特别是用于检测血液疾病,例如骨髓增生异常综合症(MDS)。流式细胞术免疫分型已被证明是用于造血细胞中定量和定性异常的检测的精确和高度敏感的方法,甚至在组合的形态学和细胞遗传学是非诊断的时。
根据本发明,提供了用于接收流式细胞术数据的输入并使用一个或多个支持向量机分析所述数据以产生输出的自动方法和系统,其中,所述流式细胞术数据被分类成两种或多种类别。所述一个或多个支持向量机使用捕获输入数据内的分布式数据的内核。这种分布式内核通过使用两个分布之间的距离函数(散度)来构造。测量两个概率分布之间的差异的适当的距离函数的实例包括Kullback-Leibler散度、Bhattacharya亲和性、Jeffrey的散度、Mahalanobis距离、Kolmogorov变分距离和期望的条件熵。在优选的实施方案中,使用Bhattacharya亲和性。所述分布式内核直接应用在SVM或其它学习机器中,以产生分类器和其它预测系统。
本发明提供一种用于流式细胞术数据的分析和分类的方法,其中,所述流式细胞术数据包括描述所述流式细胞术数据的多个特征,所述方法包括:
将包括流式细胞术数据的输入数据集下载到包括处理器和存储设备的计算机系统中,其中,所述处理器被编程以执行至少一个支持向量机,并执行以下步骤:
使用一个或多个特征选择算法来预处理所述输入数据集的第一部分,以选择所述多个特征的特征子集;
使用所选择的特征子集,使用所述输入数据集的所述第一部分来训练包括分布式内核的支持向量机;
使用所选择的特征子集以所述输入数据集的第二部分检验所训练的支持向量机,以确定是否实现了最优解;
如果未实现最优解,重复训练和检验的步骤直至达到最优解;
一旦达到最优解,就将实时数据集输入到所述计算机系统中;
使用所训练和所检验的支持向量机,使用所选择的特征子集来处理所述实时数据集,以产生包括所述流式细胞术数据到两个不同种类之一的分类的结果;以及
在显示设备处产生具有流式细胞术数据分类的识别的输出显示。
本发明的方法中,分布式内核可包括Bhattacharya亲和性,所述Bhattacharya亲和性可以具有以下形式:
k ( p , q ) = e - ρ ( p , q ) = | ( Σ 1 + Σ 2 ) / 2 | | Σ 1 | · | Σ 2 | exp { - 1 8 ( M 2 - M 1 ) T [ Σ 1 + Σ 2 2 ] - 1 ( M 2 - M 1 ) } ,
其中,p和q是输入数据点,M是正态分布的平均值,并且∑是协方差矩阵。
一个或多个特征选择算法可以包括留一法误差率分析。
一个或多个特征选择算法可以包括内核对准。
一个或多个特征选择算法可以包括两个特征选择算法,所述两个特征选择算法可以包括留一法误差率分析和内核对准。
流式细胞术数据可以包括从对骨髓增生异常综合症筛选的患者吸出的脊髓样本的检验的结果,并且其中,流式细胞术数据分类可以包括所述综合症的存在或不存在。
该方法还可包括:下载对应于一个或多个样本的数字图像数据集,流式细胞术数据从所述一个或多个样本获得;将所述数字图像数据集分成图像训练集和图像检验集;预处理所述图像训练集,以识别并提取在图像训练集内的所关注的特征;训练至少一个第二支持向量机,以对在图像训练集内的所关注的特征分类;检验所述至少一个第二支持向量机,以确定是否实现了最优解,并且如果未实现,重复训练和检验的步骤直至实现最优解;输入对应于实时数据集的实时图像数据集,流式细胞术数据从实时数据集获得;处理所述实时图像数据集,以对在实时图像数据集内的所关注的特征分类,以产生图像分类;将所述图像分类和流式细胞术数据分类输入到第二级支持向量机中,用于数据组合的分类;产生包括图像分类和流式细胞术数据分类的组合结果的输出分类。数字图像数据集和实时图像数据集可以是来自对骨髓增生异常综合症筛选的患者的细胞遗传学图像。输出分类可以包括综合症的存在或不存在。
本发明还提供一种计算机程序产品,其体现在计算机可读介质上,用于流式细胞术数据的分析和分类,其中,所述流式细胞术数据包括描述所述数据的多个特征,所述计算机程序产品包括用于执行支持向量机分类器并且还用于使计算机处理器执行下列操作的指令:
接收输入数据集;
使用一个或多个特征选择算法来预处理所述输入数据集的第一部分,以选择所述多个特征的特征子集;
使用所选择的特征子集,使用所述输入数据集的所述第一部分来训练包括分布式内核的至少第一支持向量机;
使用所选择的特征子集以所述输入数据集的第二部分来检验所训练的支持向量机,以确定是否实现了最优解;
如果未实现最优解,重复训练和检验的步骤直至达到最优解;
一旦达到最优解,就将实时数据集接收到所述计算机系统中;
使用所训练和所检验的支持向量机,使用所选择的特征子集来处理所述实时数据集,以产生包括所述流式细胞术数据到两个不同种类之一的分类的结果;以及
在显示设备处产生具有所述流式细胞术数据的分类的识别的输出显示。
本发明的计算机程序产品中,分布式内核可以包括Bhattacharya亲和性,所述Bhattacharya亲和性可以具有以下形式:
k ( p , q ) = e - ρ ( p , q ) = | ( Σ 1 + Σ 2 ) / 2 | | Σ 1 | · | Σ 2 | exp { - 1 8 ( M 2 - M 1 ) T [ Σ 1 + Σ 2 2 ] - 1 ( M 2 - M 1 ) }
其中,p和q是输入数据点,M是正态分布的平均值,并且∑是协方差矩阵。
一个或多个特征选择算法可以包括留一法误差率分析。
一个或多个特征选择算法可以包括内核对准。
一个或多个特征选择算法可以包括两个特征选择算法,所述两个特征选择算法可以包括留一法误差率分析和内核对准。
流式细胞术数据可以包括从对骨髓增生异常综合症筛选的患者吸出的脊髓样本的检验的结果,并且其中,所述结果可以包括所述综合症的存在或不存在的指示。
该计算机程序产品还可包括用于使计算机处理器执行以下操作的指令:接收对应于一个或多个样本的数字图像数据集,流式细胞术数据从所述一个或多个样本获得;将所述数字图像数据集分成图像训练集和图像检验集;预处理所述图像训练集,以识别并提取在图像训练集内的所关注的特征;训练至少一个第二支持向量机,以对在图像训练集内的所关注的特征分类;检验所述至少一个第二支持向量机,以确定是否已实现最优解,并且如果未实现,重复训练和检验的步骤直至实现最优解;接收对应于实时数据集的实时图像数据集,流式细胞术数据从实时数据集获得;处理所述实时图像数据,以对在实时图像数据内的所关注的特征分类,以产生图像分类;将所述图像分类和流式细胞术数据分类输入到第二级支持向量机中,用于数据组合的分类;以及产生包括图像分类和流式细胞术数据分类的组合结果的输出分类。输入数字图像数据集和实时数字图像数据集可以是来自对骨髓增生异常综合症筛选的患者的细胞遗传学图像。输出分类可以包括综合症的存在或不存在。
附图的简要说明
图1是根据本发明的用于自动收集和分析流式细胞术数据的系统的简图。
图2是在对MDS的流式细胞术分析中所关注的群体的分布的示例性的双对数显示。
图3是根据本发明的数据分析方法的流程图。
图4是显示从本发明方法对用于MDS检验的流式细胞术数据的分析的应用产生的接受者操作特征(ROC)曲线的图。
示例性实施方案的详述
根据本发明,提供了用于分析流式细胞术数据的方法和系统。特别地,本发明方法包括在分析具有分布式性质的数据中使用的内核的产生。在流式细胞术应用中的输入数据p是在空间中的大量点的集合。例如,图像可以被看作是在2-维空间中的点的集合。在适当的标准化之后,p可被看作是概率分布。为了定义关于两个这种输入数据p和q的内核以捕获分布趋势,必须定义关于p和q的函数,以测量在两个完整的分布之间的相似性,而不仅仅是在分布中的单独的点。
构造这种“分布式内核”的一种方式是使用这两个分布之间的距离函数(散度)。如果ρ(p,q)是距离函数,那么下列项是内核:
k(p,ρ)=e-ρ(p,ρ)
存在测量两个概率分布之间的差异的许多距离函数。Kullback-Leibler散度、Bhattacharya亲和性、Jeffrey的散度、Mahalanobis距离、Kolmogorov变分距离和期望的条件熵都是这种距离的例子。给定一个距离函数,可以基于上面的公式构造内核。
例如,可以基于Bhattacharya亲和性构造特定的定制内核。对于具有平均值M和协方差矩阵∑的正常分布,Bhattacharya亲和性具有以下形式:
ρ ( p , q ) = 1 8 ( M 2 - M 1 ) T [ Σ 1 + Σ 2 2 ] - 1 ( M 2 - M 1 ) + 1 2 ln | ( Σ 1 + Σ 2 ) / 2 | | Σ 1 | · | Σ 2 |
从这个距离函数中,使用上面的方程式定义了新的内核。
k ( p , q ) = e - ρ ( p , q ) = ( | ( Σ 1 + Σ 2 ) / 2 | | Σ 1 | · | Σ 2 | ) - 1 exp { - 1 8 ( M 2 - M 1 ) T [ Σ 1 + Σ 2 2 ] - 1 ( M 2 - M 1 ) }
具有线性复杂性的这个分布式内核在计算上是有效的,并且可处理大量的输入数据。典型的密度估计方法具有计算的复杂性O(n2),此计算的复杂性O(n2)对于一些应用可能太高。本发明的分布式内核可以直接应用在SVM或其它机器学习系统中,以产生分类器和其它预测系统。此分布式内核提供了优于频繁地在SVM和其它内核机器中使用的标准内核的一些明显的优势。它们捕获在大的数据分量的总体分布之间的相似性,这在一些应用中可能是关键的。
图3提供了用于流式细胞术数据的分析的示例性的工艺流程。流式细胞术数据作为分布式数据的实例被提供,而且其它类型的分布式数据可以使用以下描述的技术被处理和分类,如对于本领域的技术人员来说容易明显的。
通过流式细胞仪106产生的原始数据被输入到计算机处理系统中(步骤302),计算机处理系统包括至少一个存储器和一个处理器,处理器被编程以执行一个或多个支持向量机。典型的个人计算机(PC)或 型处理器适合用于这种处理。可以将输入数据集分为两部分,一部分用在训练支持向量机中,另一部分用在检验训练的有效性中。在步骤304中,通过在处理器内执行一个或多个特征选择程序,在训练数据集上运行特征选择算法。在步骤306中,使用具有分布式内核例如基于Bhattacharya亲和性的内核的支持向量机来处理具有减少的特征集合的训练数据集。在步骤308中,通过在独立的检验数据集中提取相应于在步骤304中选择的特征的数据并且使用具有分布式内核的训练的SVM处理检验数据,来评估训练步骤的有效性。如果检验的结果指示根本不是最佳结果,那么SVM将被重新训练和重新检验,直至实现最优解。如果确定训练是令人满意的,那么相应于对患者样本进行的流式细胞术测量的实时数据在步骤310中被输入到处理器中。在步骤304中选择的特征选自患者数据,并且在步骤312中通过具有分布式内核的所训练和所检验的SVM被处理,结果是患者样本被分类为正常的或不正常的。在步骤314中,产生概括结果的报告,结果可被显示在计算机监视器122上、在打印的报告124上、和/或通过电子邮件或其它网络文件传送系统发送到研究实验室或临床实验室、医院办公室或医生办公室。也可显示和/或打印具有数据分组的一维和二维表示的直方图。结果以及原始数据、直方图和其它的患者数据也将被存储在计算机存储器或患者数据库内。
可选的另外的诊断程序可与流式细胞术数据和结果组合,以在自动分析系统中提供提高的置信度。使用与在Zhang等人的美国专利第7,383,237号中公开的方案相似的方案,流式细胞术检验的结果可与其它类型的检验组合,上述专利在此通过引用被并入。图3示出了使用SVM通过从在常规程序例如核型分析(karyotyping)或荧光原位杂交(FISH)中产生的染色体的图像中提取所关注的特征来执行细胞遗传学数据的计算机辅助图像分析的可选流程,以识别缺失、易位、倒位和其它异常。在步骤320中,将训练图像数据输入到计算机处理器中,训练图像数据在其中被处理以识别和提取所关注的特征。通常,训练图像数据被预处理以识别所关注的特征(步骤322),然后用来训练图像处理SVM。然后,检验图像数据被用来证实已实现最优解(步骤324)。如果未实现,那么将重复步骤324,并且将重新训练和重新检验SVM。如果已实现最优解,将输入实时患者图像数据(步骤326),用于预处理(步骤328)和分类(步骤330)。
在优选的方法中,如在专利第7,383,237号中所描述的,图像内的所关注的每个特征被单独地预处理(步骤322),并且被对这个特征优化的SVM处理。所关注的所有特征的分析结果都组合在第2级图像处理SVM中,以产生对整个图像分类的输出。使用已预处理的图像检验数据来检验所训练的SVM(s)(步骤324)。如果解决方法是最佳的,那么相应于实时患者数据(流式细胞术分析被执行的同一个患者)的图像被输入到处理器中(步骤326)。预处理患者图像数据(步骤328),以识别所关注的特征,并且通过为特定的特征优化的所训练的第一级SVM来处理所关注的每一个特征。将所关注的特征的组合的分析结果组合并且输入到所训练的第2级图像处理SVM中,以产生对整个图像分类的输出(步骤330)。
步骤330的结果可以被传送用于存储在患者数据库中的患者的文件中(步骤316),和/或将被输入到第2级SVM中用于组合来自步骤312的流式细胞术数据结果。如步骤308、324和340之间的虚线所指示的,已使用训练数据和检验数据对这个第2级SVM进行训练和检验。步骤316和步骤330的结果被组合以在步骤342中对组合分析通过所训练的第2级SVM来处理。这个组合处理的结果通常是二进制输出,例如正常或不正常、有病或无病,等等。组合的结果可以在步骤314中被输出用于显示,和/或被输入到用于存储的存储器或患者数据库中(步骤316)。可提供另外的可选的第二流程,以合并其它类型的数据和分析,例如专家分析、患者病史等,这些都可以被组合以产生可用于放映、监控和/或治疗的最终的诊断分数或预后分数或其它输出。
实施例1:骨髓增生异常综合症的检测(MDS)
本研究的目的是研究细胞遗传学中与骨髓增生异常综合症(MDS)有关的染色体异常和流式细胞术数据中的模式之间的潜在联系。这种免疫分型分析是流式细胞术的最普遍的应用之一,并且用于样品收集和制备的协议对本领域的技术人员来说是众所周知的。遵循在图1中所示的顺序,在盐溶液或肝素钠溶液中收集来自被怀疑有MDS的患者的骨髓吸出物102,以在许多管104或其它容器中产生细胞悬浮液,管104或其它容器适合于将悬浮液引入到流式细胞仪系统106的流式细胞中。包括与不同荧色物结合的单克隆抗体的试剂被引入到管中,每一个管接纳抗体的不同组合,每一个不同的组合与几个可能的荧色物中的一个结合。流式细胞仪可在市场上从多个制造商——包括来自BectonDickinson(FranklinLakes,NJ)的FACSCaliburTM或来自OrthoDiagnostics(Raritan,NJ)的Cytoron/AbsoluteTM——买到。作为直接的例子,FACSCaliburTM系统用于四色测量。对本领域的技术人员来说显然,这种系统提供装载在传送带中的多个样本的自动处理,使得说明被规定为图解的,指示在流式细胞仪的分析器视域内仅存在一个样本。当细胞被指引着通过分析流时,在流式细胞仪系统106中的前向散射检测器108和侧向散射检测器110产生对应于所检测的事件的电信号。包括在侧向散射检测器110中的荧光检测器测量由抗原的表达产生的荧光信号的振幅,如与不同荧光标志结合的抗体所示的。数值是基于各种检测器中的每个所测量的脉冲高度(振幅)而产生的。因而得到的信号被输入到计算机工作站120内的处理器中,并且用来产生对应于所检测的事件的直方图(单一参数或双重参数),用于在图形显示器122上显示。根据本发明的这个数据的分析导致可被打印或显示在监视器122上的报告124,该分析涉及依据正常或不正常基于与控制样本的比较将输入数据分类。原始数据、直方图和报告也将保存在计算机工作站120中的内部存储器和单独的存储器设备的任一个或两者中,单独的存储器设备可包括数据库服务器130,数据库服务器130可以是医疗实验室或其它医疗设施中的数据仓库的一部分,用于与患者的其它记录相关联。
输入数据集包括具有流式细胞术数据和细胞遗传学数据的77个病例(患者)。所有的患者都被怀疑有MDS。如细胞遗传学检验所指示的,在这77个病例中,37个有染色体异常,细胞遗传学检验涉及对在数量或结构上的变化的全部染色体的显微镜检查。在细胞遗传学下,剩下的40个被发现是阴性的。
对于每一个患者,在悬浮液中的所吸出的骨髓样本被分在13支管中。在标准的四色免疫萤光协议中,前向光散射(FSC)和直角光散射(SSC)与4色抗体组合一起被收集,以执行七种不同的化验,其中一种化验是空白的。每一个病例通常有20,000-50,000个事件,其中,所有的化验被测量。每一个病例的因而得到的流式细胞术数据集有近似106个测量。图2示出了示例性的直方图,其显示了侧向散射与CD45表达的关系,不同的细胞群体被标志。
对于13个管中的每一个,测量FSC和SSC,允许设门以排除在图2的左下角显示的细胞碎屑。此外,抗原特异性与荧光标志的不同组合用于每一个管。下面的表1列出了单克隆抗体与下面的标志的不同组合:FITC(荧光素异硫氰酸盐)、PE(藻红蛋白)、PerCP(多甲藻素-叶绿素)和APC(别藻蓝蛋白)。与所识别的荧光标志结合的单克隆抗体可在市场上从多个不同的源——包括Becton-Dickinson免疫细胞计数系统(SanJose,CA)、DakoCytomation(Carpinteria,CA)、Caltag(Burlingame,CA)和Invitrogen公司(Camarillo,CA)——买到。用于成熟淋巴细胞的枚举的CD45抗体包括在每一个组合中用于淋巴细胞设门的确认。
表1
为了给训练SVM和训练的评估提供数据,将这77个病例的整个数据集分成训练集和独立的检验集。使用40个病例(由细胞遗传学的检验确定的20个阳性和20个阴性)来训练SVM。使用剩下的37个病例(17个阳性和20个阴性)来形成独立的检验集。
基于Bhattacharya亲和性的前述定制内核用来分析流式细胞术数据,以测量两个概率分布之间的差异。
包括来自分类器中的所有化验的数据将不会产生具有最佳性能的系统。因此,对化验的特征选择是基于训练集进行的。两个性能测量应用在特征选择步骤中。第一特征选择方法——SVM的留一法(LOO)误差率——涉及在初始数据集上训练SVM,然后通过执行梯度步骤更新换算参数,使得LOO误差减少。重复这些步骤直至达到LOO误差的最小值。停止标准可以被应用。第二特征选择方法是内核对准。在Cristianini的美国专利第7,299,213号中描述了这种技术,此专利在此通过引用被并入。内核对准仅使用训练数据,并且可以在内核机器的训练发生之前被执行。
在特征选择过程期间,确定了大量的特征将不会促进数据的精确分类。在表2中给出了特征选择程序的结果。
表2
在表2的项目中的“1”的值意指选择了特定的化验(管/化验组合);“0”意指未选择化验。这减少了来自每个病例的待考虑的特征的个数,用于使数据分类从最初的91降为26。然后,使用来自减少数量的化验的数据来训练具有分布式内核的SVM。
然后,使用所选择的化验,以37个独立的病例检验训练的SVM。使用二进制分类检验的性能的常规统计测量来概括在0的截止点(cutoff)处的结果。灵敏度或召回率提供了正确地分类的阳性与阳性总数的比例的测量,如通过细胞遗传学检验所确定的。特异性测量被正确地识别的阴性的比例。检验数据的分析结果如下:
灵敏度:15/17=88%特异性:19/20=95%
这产生了3/37=8%的总误差率。使用二项式分布的所估计的标准偏差σ=0.0449,该检验产生了误差率将小于15%的95%的置信水平。
灵敏度和特异性之间的折衷被标绘在图4所示的接受者操作特征(ROC)曲线中。在当前检测的曲线下面积(AUC)是0.974。
前述分析的结果显示了流式细胞术模式和由细胞遗传学检验指示的某些染色体异常之间的重要关联。
由于流式细胞术数据的复杂性,很难明确地提取必需的特征或限定将预测细胞遗产学结果的模式。基于SVM的系统提供了它仅需要实施例之间的相似性测量来构造分类器的明显优势。
本发明的定制设计的内核在分析流式细胞术数据中被示为有前途的。这个内核具有对这个问题非常有效的O(n)的计算复杂性。SVM分析的结果表明内核也是非常有效的。

Claims (5)

1.一种用于流式细胞术数据的分析和分类的方法,其中,所述流式细胞术数据包括描述所述流式细胞术数据的多个特征,所述方法包括:
将包括流式细胞术数据的输入数据集下载到包括处理器和存储设备的计算机系统中,其中,所述处理器被编程以执行至少一个支持向量机,并执行以下步骤:
使用一个或多个特征选择算法来预处理所述输入数据集的第一部分,以选择所述多个特征的特征子集;
使用所选择的特征子集,使用所述输入数据集的所述第一部分来训练包括分布式内核的支持向量机;
使用所选择的特征子集以所述输入数据集的第二部分检验所训练的支持向量机,以确定是否实现了最优解;
如果未实现最优解,重复训练和检验的步骤直至达到最优解;
一旦达到最优解,就将实时数据集输入到所述计算机系统中;
使用所训练和所检验的支持向量机,使用所选择的特征子集来处理所述实时数据集,以产生包括所述流式细胞术数据到两个不同种类之一的分类的结果;以及
在显示设备处产生具有流式细胞术数据分类的识别的输出显示;
其中,所述分布式内核包括Bhattacharya亲和性,所述Bhattacharya亲和性具有以下形式:
k ( p , q ) = e - ρ ( p , q ) = ( | ( Σ 1 + Σ 2 ) / 2 | | Σ 1 | · | Σ 2 | ) - 1 exp { - 1 8 ( M 2 - M 1 ) T [ Σ 1 + Σ 2 2 ] - 1 ( M 2 - M 1 ) } ,
其中,p和q是输入数据点,M是正态分布的平均值,并且∑是协方差矩阵。
2.如权利要求1所述的方法,其中,所述一个或多个特征选择算法包括留一法误差率分析。
3.如权利要求1所述的方法,其中,所述一个或多个特征选择算法包括内核对准。
4.如权利要求1所述的方法,其中,所述一个或多个特征选择算法包括两个特征选择算法,所述两个特征选择算法包括留一法误差率分析和内核对准。
5.如权利要求1所述的方法,还包括:
下载对应于一个或多个样本的数字图像数据集,所述流式细胞术数据从所述一个或多个样本获得;
将所述数字图像数据集分成图像训练集和图像检验集;
预处理所述图像训练集,以识别并提取在所述图像训练集内的所关注的特征;
训练至少一个第二支持向量机,以对在所述图像训练集内的所关注的特征分类;
检验所述至少一个第二支持向量机,以确定是否实现了最优解,并且如果未实现,重复训练和检验的步骤直至实现最优解;
输入对应于所述实时数据集的实时图像数据集,所述流式细胞术数据从所述实时数据集获得;
处理所述实时图像数据集,以对在所述实时图像数据集内的所关注的特征分类,以产生图像分类;
将所述图像分类和所述流式细胞术数据分类输入到第二级支持向量机中,用于数据组合的分类;
产生包括所述图像分类和所述流式细胞术数据分类的组合结果的输出分类。
CN200980110847.2A 2008-02-08 2009-02-08 用于使用支持向量机分析流式细胞术数据的方法和系统 Expired - Fee Related CN101981446B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US2741608P 2008-02-08 2008-02-08
US61/027,416 2008-02-08
PCT/US2009/033504 WO2009100410A2 (en) 2008-02-08 2009-02-08 Method and system for analysis of flow cytometry data using support vector machines

Publications (2)

Publication Number Publication Date
CN101981446A CN101981446A (zh) 2011-02-23
CN101981446B true CN101981446B (zh) 2016-03-09

Family

ID=40939737

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200980110847.2A Expired - Fee Related CN101981446B (zh) 2008-02-08 2009-02-08 用于使用支持向量机分析流式细胞术数据的方法和系统

Country Status (6)

Country Link
US (1) US8682810B2 (zh)
EP (1) EP2252889B1 (zh)
JP (1) JP5425814B2 (zh)
CN (1) CN101981446B (zh)
AU (1) AU2009212193B2 (zh)
WO (1) WO2009100410A2 (zh)

Families Citing this family (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8214157B2 (en) * 2006-03-31 2012-07-03 Nodality, Inc. Method and apparatus for representing multidimensional data
US20090269800A1 (en) * 2008-04-29 2009-10-29 Todd Covey Device and method for processing cell samples
US20100014741A1 (en) * 2008-07-10 2010-01-21 Banville Steven C Methods and apparatus related to gate boundaries within a data space
US9183237B2 (en) 2008-07-10 2015-11-10 Nodality, Inc. Methods and apparatus related to gate boundaries within a data space
US20100030719A1 (en) * 2008-07-10 2010-02-04 Covey Todd M Methods and apparatus related to bioinformatics data analysis
GB2474613A (en) * 2008-07-10 2011-04-20 Nodality Inc Methods and apparatus related to management of experiments
WO2010035163A1 (en) * 2008-09-29 2010-04-01 Koninklijke Philips Electronics, N.V. Method for increasing the robustness of computer-aided diagnosis to image processing uncertainties
US9034257B2 (en) * 2008-10-27 2015-05-19 Nodality, Inc. High throughput flow cytometry system and method
US20100204973A1 (en) * 2009-01-15 2010-08-12 Nodality, Inc., A Delaware Corporation Methods For Diagnosis, Prognosis And Treatment
WO2012009617A2 (en) * 2010-07-16 2012-01-19 Luminex Corporation Methods, storage mediums, and systems for analyzing particle quantity and distribution within an imaging region of an assay analysis system and for evaluating the performance of a focusing routing performed on an assay analysis system
JP5640774B2 (ja) 2011-01-28 2014-12-17 富士通株式会社 情報照合装置、情報照合方法および情報照合プログラム
US9691395B1 (en) * 2011-12-31 2017-06-27 Reality Analytics, Inc. System and method for taxonomically distinguishing unconstrained signal data segments
CN102722718B (zh) * 2012-05-22 2014-04-02 天津大学 一种细胞分类方法
US9336430B2 (en) 2012-06-19 2016-05-10 Health Discovery Corporation Computer-assisted karyotyping
US10088407B2 (en) 2013-05-17 2018-10-02 Becton, Dickinson And Company Systems and methods for efficient contours and gating in flow cytometry
US9848374B2 (en) * 2013-08-27 2017-12-19 Telefonaktiebolaget L M Ericsson (Publ) Technique for maintaining network service identification rules
CN104361360A (zh) * 2014-12-03 2015-02-18 中国人民解放军军事医学科学院卫生装备研究所 一种流式数据细胞亚群快速自动识别方法
JP2018505392A (ja) * 2014-12-10 2018-02-22 ネオゲノミクス ラボラトリーズ, インコーポレイテッド 自動化されたフローサイトメトリ分析方法及びシステム
EP3230887A4 (en) * 2014-12-10 2018-08-01 Neogenomics Laboratories, Inc. Automated flow cytometry analysis method and system
US10616219B2 (en) 2014-12-11 2020-04-07 FlowJo, LLC Single cell data management and analysis systems and methods
US10127284B2 (en) * 2014-12-18 2018-11-13 International Business Machines Corporation Scoring attributes in deep question answering systems based on algorithmic source code influences
KR20180016391A (ko) * 2015-05-08 2018-02-14 플로우조, 엘엘시 데이터 발견 노드
US10706261B2 (en) * 2015-08-12 2020-07-07 Molecular Devices, Llc System and method for automatically analyzing phenotypical responses of cells
ES2903442T3 (es) 2015-09-08 2022-04-01 Fujifilm Cellular Dynamics Inc Purificación basada en MACS del epitelio pigmentario de la retina derivado de células madre
AU2016321170B2 (en) 2015-09-08 2022-09-01 Fujifilm Cellular Dynamics Method for reproducible differentiation of clinical-grade retinal pigment epithelium cells
GB201615532D0 (en) * 2016-09-13 2016-10-26 Univ Swansea Computer-Implemented apparatus and method for performing a genetic toxicity assay
US20200251184A1 (en) * 2016-12-16 2020-08-06 Osaka University Classification analysis method, classification analysis device, and storage medium for classification analysis
US9965702B1 (en) * 2016-12-27 2018-05-08 Cesar Angeletti Method for analysis and interpretation of flow cytometry data
US9934364B1 (en) * 2017-02-28 2018-04-03 Anixa Diagnostics Corporation Methods for using artificial neural network analysis on flow cytometry data for cancer diagnosis
US11164082B2 (en) 2017-02-28 2021-11-02 Anixa Diagnostics Corporation Methods for using artificial neural network analysis on flow cytometry data for cancer diagnosis
US11573182B2 (en) 2017-05-25 2023-02-07 FlowJo, LLC Visualization, comparative analysis, and automated difference detection for large multi-parameter data sets
CN110889103B (zh) * 2018-09-07 2024-04-05 京东科技控股股份有限公司 滑块验证的方法和系统及其模型训练方法
WO2020081582A1 (en) * 2018-10-16 2020-04-23 Anixa Diagnostics Corporation Methods of diagnosing cancer using multiple artificial neural networks to analyze flow cytometry data
JP7445672B2 (ja) 2019-09-02 2024-03-07 合同会社H.U.グループ中央研究所 ゲート領域推定プログラム、ゲート領域推定装置、学習モデルの生成方法
US11796446B2 (en) * 2019-10-01 2023-10-24 National Taiwan University Systems and methods for automated hematological abnormality detection
JP2021083431A (ja) * 2019-11-29 2021-06-03 シスメックス株式会社 細胞解析方法、細胞解析装置、細胞解析システム、及び細胞解析プログラム
WO2021193673A1 (ja) * 2020-03-25 2021-09-30 合同会社H.U.グループ中央研究所 ゲート領域推定プログラム、ゲート領域推定方法、及びゲート領域推定装置
US11301720B2 (en) * 2020-04-28 2022-04-12 International Business Machines Corporation Training set enrichment with insignificantly-abnormal medical images
WO2022056478A2 (en) * 2020-09-14 2022-03-17 Ahead Intelligence Ltd. Automated classification of immunophenotypes represented in flow cytometry data
JP2022051448A (ja) * 2020-09-18 2022-03-31 シスメックス株式会社 細胞分析方法及び細胞分析装置
WO2022108645A1 (en) * 2020-11-19 2022-05-27 Becton, Dickinson And Company Method for optimal scaling of cytometry data for machine learning analysis and systems for same

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001031579A2 (en) * 1999-10-27 2001-05-03 Barnhill Technologies, Llc Methods and devices for identifying patterns in biological patterns

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5872627A (en) 1996-07-30 1999-02-16 Bayer Corporation Method and apparatus for detecting scattered light in an analytical instrument
US6157921A (en) * 1998-05-01 2000-12-05 Barnhill Technologies, Llc Enhancing knowledge discovery using support vector machines in a distributed network environment
US6996549B2 (en) * 1998-05-01 2006-02-07 Health Discovery Corporation Computer-aided image analysis
US6882990B1 (en) 1999-05-01 2005-04-19 Biowulf Technologies, Llc Methods of identifying biological patterns using multiple data sets
US7450229B2 (en) 1999-01-25 2008-11-11 Amnis Corporation Methods for analyzing inter-cellular phenomena
NZ515707A (en) * 1999-05-25 2003-06-30 Barnhill Technologies Llc Enhancing knowledge discovery from multiple data sets using multiple support vector machines
AU779635B2 (en) * 1999-10-27 2005-02-03 Health Discovery Corporation Methods and devices for identifying patterns in biological systems and methods for uses thereof
WO2002071243A1 (en) * 2001-03-01 2002-09-12 Biowulf Technologies, Llc Spectral kernels for learning machines
GB0323225D0 (en) * 2003-10-03 2003-11-05 Ncc Technology Ventures Pte Lt Materials and methods relating to breast cancer classification
CA2596640A1 (en) * 2005-02-04 2006-08-10 Rosetta Inpharmatics Llc Methods of predicting chemotherapy responsiveness in breast cancer patients

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001031579A2 (en) * 1999-10-27 2001-05-03 Barnhill Technologies, Llc Methods and devices for identifying patterns in biological patterns

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Bhattacharyya and Expected Likelihood Kernels;Tony Jebara, Risi Kondor;《LNCS》;20031231;5-17 *
Michael R. Loken, 等.Flow cytometry in myelodysplastic syndromes *
Report from a working conference.《Leukemia Research》.2007, *

Also Published As

Publication number Publication date
WO2009100410A3 (en) 2009-10-15
JP2011515655A (ja) 2011-05-19
CN101981446A (zh) 2011-02-23
EP2252889A2 (en) 2010-11-24
US20090204557A1 (en) 2009-08-13
AU2009212193B2 (en) 2015-08-27
WO2009100410A2 (en) 2009-08-13
US8682810B2 (en) 2014-03-25
JP5425814B2 (ja) 2014-02-26
EP2252889A4 (en) 2017-10-18
AU2009212193A1 (en) 2009-08-13
EP2252889B1 (en) 2020-10-07

Similar Documents

Publication Publication Date Title
CN101981446B (zh) 用于使用支持向量机分析流式细胞术数据的方法和系统
US20160169786A1 (en) Automated flow cytometry analysis method and system
JP7406745B2 (ja) コンピュータ検出方法のための電子画像を処理するためのシステムおよび方法
JP4354977B2 (ja) フローサイトメーター多次元データセット内のデータの離散母集団(例えば、クラスター)を識別する方法
US20240044904A1 (en) System, method, and article for detecting abnormal cells using multi-dimensional analysis
Pedreira et al. From big flow cytometry datasets to smart diagnostic strategies: The EuroFlow approach
JP7437393B2 (ja) 粒子分析器のための適応ソーティング
JP7376882B2 (ja) バイオマーカ位置特定のための電子画像を処理するためのシステムおよび方法
AU2021349226C1 (en) Critical component detection using deep learning and attention
Salama et al. Artificial intelligence enhances diagnostic flow cytometry workflow in the detection of minimal residual disease of chronic lymphocytic leukemia
Monaghan et al. A machine learning approach to the classification of acute leukemias and distinction from nonneoplastic cytopenias using flow cytometry data
Yücel et al. Mitotic cell detection in histopathological images of neuroendocrine tumors using improved YOLOv5 by transformer mechanism
Li et al. A deep learning model for detection of leukocytes under various interference factors
Azad et al. Immunophenotype discovery, hierarchical organization, and template-based classification of flow cytometry samples
US10235495B2 (en) Method for analysis and interpretation of flow cytometry data
EP3230887A1 (en) Automated flow cytometry analysis method and system
Prasanna et al. An Evaluation study of Oral Cancer Detection using Data Mining Classification Techniques.
CN116030957A (zh) 知识图谱构建方法、装置、辅助诊断设备及存储介质
Sarikoc et al. An automated prognosis system for estrogen hormone status assessment in breast cancer tissue samples
Naing et al. The Evaluation of Acute Myeloid Leukaemia (AML) Blood Cell Detection Models Using Different YOLO Approaches
Bashashati et al. A pipeline for automated analysis of flow cytometry data: preliminary results on lymphoma sub-type diagnosis
CN116029960A (zh) 辅助诊断方法、图像处理模型及存储介质
CN116030958A (zh) 辅助诊断方法、装置、设备及系统、存储介质
Karhan et al. Mitotic Cell Detection in Histopathological Images of Neuroendocrine Tumors Using YOLOv5-Transformer
Sabata et al. DIGITAL PATHOLOGY IN MEDICAL IMAGING

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160309

Termination date: 20170208