CN104200114B - 流式细胞仪数据快速分析方法 - Google Patents
流式细胞仪数据快速分析方法 Download PDFInfo
- Publication number
- CN104200114B CN104200114B CN201410459761.3A CN201410459761A CN104200114B CN 104200114 B CN104200114 B CN 104200114B CN 201410459761 A CN201410459761 A CN 201410459761A CN 104200114 B CN104200114 B CN 104200114B
- Authority
- CN
- China
- Prior art keywords
- data
- monoid
- flow cytometry
- analysis
- result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明公开了一种流式细胞仪数据快速分析方法。本发明包括以下步骤:(1)采用核密度估计方法对流式细胞仪数据中的类群数目进行估计,得到数据中包含的类群数目范围;(2)获得类群数目后,采用优化初始聚类中心的K‑means方法对数据进行自动聚类;(3)对聚类后的结果,采用两段线性回归拟合方法合并筛选最优结果。该分析方法分析流式细胞仪数据的结果精确度高,分析时间远远低于人工分析数据时间及目前其他分析方法。
Description
技术领域
本发明涉及流式细胞仪数据自动分析技术,尤其是涉及流式细胞仪数据的快速聚类算法。
背景技术
流式细胞术是一种能够精确、快速地对生物细胞的理化特性和生物学特性进行多参数定量分析及对特定细胞群分选的技术。其原理是采用微米级激光光束对经过流体动力学聚焦的细胞进行逐个激发,完整收集并记录每个细胞诱导得到的多角度散射光与多波长标记荧光信号,并通过对细胞群多光学通道数据的聚类分析实现样本的高精度定量检测。通常,单个细胞诱导得到的散射光和荧光信号以单个事件的形式被记录,所有事件汇集成被测细胞群的完整流式细胞仪数据。当前流式细胞仪数据分析的主要方法是将每个事件投影至二维或三维域中,以人工设门的方式进行分析。随着流式细胞术向着多激光、高通量方向发展,流式细胞仪数据量成倍增加,传统人工分析数据方法已不能满足快速分析的需求,数据的快速自动分析成为流式细胞术未来发展的主要方向。
常见的流式细胞仪数据聚类算法,比如基于混合模型算法,虽然计算准确度较高,但分析的时间通常较长。目前比较先进的基于偏斜t混合模型的聚类算法能够比较准确地分析流式数据,但是当分析的数据量达到万级时,其计算时间通常超过了人工分析数据时间。另一种数据聚类方法是谱聚类方法,由于该方法是基于矩阵乘积的方式进行结果估计,因此在样本量较大时,其计算时间非常长。针对该问题,目前提出的一种预抽样谱聚类算法,该方法解决了样本量大造成的计算时间长的问题,但由于对数据进行了预先处理,数据中包含的一部分生物信息可能在处理过程中丢失。另外,当分析的数据中事件数达到万级时,该方法的计算时间也远远超过人工分析数据时间。
发明内容
本发明所要解决的技术问题,克服上述现有技术中存在的不足,提供一种通过计算机软件算法,准确对流式细胞仪数据进行快速自动分析,得到数据中包含的样本信息,包括样本类群数目和各类群总数。
本发明结合了流式细胞仪数据的特点,提出了一种快速自动分析标准流式细胞仪数据方法,该方法能够快速得到数据中样本的分类信息。该分析方法分析流式细胞仪数据的结果精确度高,分析时间远远低于人工分析数据时间及目前其他分析方法。
具体处理技术方案如下:
流式细胞仪数据快速分析方法,包括以下步骤:
(1)采用核密度估计方法对流式细胞仪数据中的类群数目进行估计,得到数据中包含的类群数目范围;
(2)获得类群数目后,采用优化初始聚类中心的K-means方法对数据进行自动聚类;
(3)对聚类后的结果,采用两段线性回归拟合方法合并筛选最优结果。
为得到初始类群数目范围,本发明提出了核密度估计方法。设X1,X2,…,Xn为d维独立同分布的样本,且其密度函数为f,则的核密度估计可表示为
其中,K为核函数,H为d×d维正定对称带宽矩阵,且K{x}=(2π)-d/2exp(-0.5xTx)。对于式(1),对其求二阶导数,可得到的曲率估计为
由于密度函数梯度的变化能够反映密度函数的峰值变化,因此,将FCM数据的每一个维度分别代入式(2),并采用线性分割网格方法,可快速得到数据中每个维度显著负曲率区域的个数kj(j=1,...,d)。由于FCS数据中每个维度信息将部分或完整地反应整个数据中可能存在的类群数。因此,k值范围确定为
其中,作为K-means算法的初始k值,min(kj)作为合并类群数的最小值。
在获得了数据中样本的类群数目范围后,本发明提出采用最优种子法确定K-means的初始聚类中心。该方法的基本思想是使初始聚类中心之间的相互距离尽可能远。即设x1,x2,…,xn为待分类的样本,且xi=(xi1,…,xid)为d维向量,cS为类群S的聚类中心。则初始中心的选择可按以下步骤进行:
(1)在样本中随机选择xi作为第一个聚类中心c1;
(2)计算所有样本x到前k-1(k=2,…K)个聚类中心的最小距离:
(3)以为概率选择xi为第k个聚类中心ck。
初始聚类中心的优化选择能够提高聚类结果的可重复性以及降低结果出现局部最优解的可能性。
在采用K-means方法对流式数据进行聚类后,由于冗余地估计了初始类群数目,因此需要对聚类后的结果进行合并筛选,从而找出最优结果。对于最优结果的筛选本发明提出了两段线性回归拟合方法,其具体过程为:
设i为从m+1到n-1的变量,即i=(m+1,…,n-1),将合并过程中类群数k及其对应的类群间的最小距离Dk映射到二维空间,即Pk=(k,Dk),对两部分的点(Pm,…,Pi)和(Pi,…,Pn)分别进行回归拟合,其结果分别为和则使满足的残差平方和与残差平方和之和的最小i值即为最佳类群数k,即
由于结果筛选过程中需要计算两个类群间的距离D,本发明提出了类似马氏距离方法度量两个类群间的相似度,其具体过程如下:
设x1=(x11,...,x1d),x2=(x21,...,x2d)为FCM数据中的两个事件,则对于两个类群X=(x1,…xM)和Y=(y1,…,yN)而言,定义类群X与Y之间的距离为:
其中,为类群X的中心,为类群Y的中心,ΣX为X的协方差矩阵。由于D(X,Y)的计算也可采用替代,因此,计算出的D(X,Y)可能会出现不同的值,这里取两者中的较小值。
本发明方法能够快速地对流式细胞仪数据进行自动分析,得到数据中样本的相关信息。本方法中对数据中样本的类群信息分析结果准确度较高,分析时间远远低于人工分析方法及其他分析方法。由于本发明方法涉及到多维数据的自动聚类,能够广泛地应用到模式识别、图像处理、大数据分析、机器学习等领域。
附图说明
图1是待分析的流式细胞仪数据及专家采用逐次分析法对数据分类的结果;
图2是采用本发明方法直接分析数据结果在SSC和CD45维度的投影;
图3是采用预抽样谱聚类方法对数据直接分析的结果在SSC和CD45维度的投影;
图4是采用基于偏斜t混合模型方法对数据直接分析的结果在SSC和CD45维度的投影;
图5是本发明方法流程图。
具体实施方式
如图1是实验数据在SSC和CD45维度的投影,该数据来自某病人的外周血样本,其包含29320个细胞以及3种标记分子,即CD3,CD8和CD45,实验的目的是找到CD8+T淋巴细胞亚群及其微粒个数。人工分析该数据的方法是首先通过由CD45和SSC组成的散点图识别出淋巴细胞亚群,然后再将对应的淋巴细胞亚群数据的CD3和CD8维度投影分析找到CD8+T淋巴细胞。如图1a是专家采用FloMax软件对CD45和SSC寻找淋巴细胞亚群设门分析的结果,由结果来看,样本中包含了四个细胞亚群,R1-R4区域分别代表了淋巴细胞亚群、单核细胞亚群、粒细胞亚群和死细胞。图1b是将图1a中找到的淋巴细胞亚群(R1区域)在CD3和CD8维度再投影并采用象限法设门分析的结果。
直接分析方式分析流式细胞仪数据时不需要进行逐次投影。如图2是采用本发明方法直接分析该数据的最终结果(已得到数据中类群的数量及各类群中细胞数量)在SSC和CD45维度的投影。由结果可知,本发明方法分析的结果与专家分析结果一致。另外,图3和图4分别是采用预抽样谱聚类方法和偏斜t混合模型分析该数据的结果在SSC和CD45维度的投影。表一为以上三种方法的分类误判率结果比较。表二为以上三种方法的分析时间比较,其中人工分析该数据的时间约为60s,由结果可知,本专利设计的方法不仅误判率最低,最接近专家分析的结果,而且分析时间远远低于人工分析方法和其他分析方法。
本专利方法在一台配置3.2GHz CPU和2G内存的PC上,采用C++语言编程实现。
表一 不同方法的误判率比较
表二 不同方法的分析时间比较
Claims (3)
1.一种流式细胞仪数据快速分析方法,其特征在于,按照以下步骤进行:
(1)采用核密度估计方法对流式细胞仪数据中的类群数目进行估计,得到数据中包含的类群数目范围;
(2)获得类群数目后,采用优化初始聚类中心的K-means方法对数据进行自动聚类;
(3)对聚类后的结果,采用两段线性回归拟合方法合并筛选最优结果;
所述步骤(1)采用了核密度估计方法对流式细胞仪数据中的类群数目进行估计的识别过程如下:
设为流式细胞仪数据X的核密度估计,其可表示为:
其中Xi代表数据中的事件,则对两边求导可得到
其中:
K为核函数,且
H为d×d维正定对称带宽矩阵;
▽(2)K{x}表示K{x}的二阶导数;
利用线性分割网格方法可得到每一维度的类群数目kj,其中j=1,…,d,则类群数目范围为
所述步骤(2)中K-means方法采用了以下过程进行初始聚类中心确定:
(1)在样本中随机选择xi作为第一个聚类中心c1;
(2)计算所有样本x到前k-1个聚类中心的最小距离,其中k=2,…K,
(3)以为概率选择xi为第k个聚类中心ck。
2.如权利要求1所述的流式细胞仪数据快速分析方法,其特征在于,所述 步骤(3)采用线性回归拟合合并筛选最优结果的过程如下:
若m=min(kj),其中j=1,…,d,i为从m+1到n-1的变量,即i=(m+1,…,n-1),将合并过程中类群数k及其对应的类群间的最小距离Dk映射到二维空间,即Pk=(k,Dk),对两部分的点(Pm,…,Pi)和(Pi,…,Pn)分别进行回归拟合,其结果分别为和则使满足的残差平方和与残差平方和之和的最小i值即为最佳类群数k,即
3.如权利要求2所述的流式细胞仪数据快速分析方法,其特征在于,所述线性回归拟合筛选最优结果采用了优化的马氏距离估计两个类群X和Y之间距离的方法如下:
其中:
为类群X的中心;
为类群Y的中心;
ΣX为X的协方差矩阵。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410459761.3A CN104200114B (zh) | 2014-09-10 | 2014-09-10 | 流式细胞仪数据快速分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410459761.3A CN104200114B (zh) | 2014-09-10 | 2014-09-10 | 流式细胞仪数据快速分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104200114A CN104200114A (zh) | 2014-12-10 |
CN104200114B true CN104200114B (zh) | 2017-08-04 |
Family
ID=52085407
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410459761.3A Active CN104200114B (zh) | 2014-09-10 | 2014-09-10 | 流式细胞仪数据快速分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104200114B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104951649A (zh) * | 2015-05-27 | 2015-09-30 | 华南农业大学 | 一种基于高斯模糊积分的hbv分类方法 |
CN106548203A (zh) * | 2016-10-21 | 2017-03-29 | 北京信息科技大学 | 一种多参数流式细胞数据快速自动分群和设门方法 |
CN106548205A (zh) * | 2016-10-21 | 2017-03-29 | 北京信息科技大学 | 一种流式细胞数据快速自动分群及圈门方法 |
CN106548204A (zh) * | 2016-11-01 | 2017-03-29 | 北京信息科技大学 | 流式细胞仪数据快速自动分群方法 |
WO2018151680A1 (en) * | 2017-02-15 | 2018-08-23 | Agency For Science, Technology And Research | Methods and devices for identifying population clusters in data |
CN110720034B (zh) * | 2017-05-07 | 2022-10-18 | 艾珀尔有限公司 | 识别方法、分类分析方法、识别装置、分类分析装置及记录介质 |
CN108169105B (zh) * | 2017-11-07 | 2020-12-18 | 山东卓越生物技术股份有限公司 | 应用于血细胞分析仪的白细胞分类处理方法 |
CN113218848B (zh) * | 2021-04-30 | 2022-08-12 | 天津深析智能科技发展有限公司 | 一种判断非特异细胞群的方法 |
JPWO2023282026A1 (zh) * | 2021-07-09 | 2023-01-12 | ||
CN114912493B (zh) * | 2022-05-27 | 2022-11-29 | 深圳见康智能科技有限公司 | 基于机器学习的流式免疫细胞智能分析系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4573796A (en) * | 1984-01-06 | 1986-03-04 | The United States Of America As Represented By The United States Department Of Energy | Apparatus for eliminating background interference in fluorescence measurements |
US5314824A (en) * | 1984-12-24 | 1994-05-24 | Caribbean Microparticles Corporation | Method of setting up a flow cytometer |
CN101226190A (zh) * | 2007-01-17 | 2008-07-23 | 深圳迈瑞生物医疗电子股份有限公司 | 流式细胞术的自动分类方法和装置 |
CN102507417A (zh) * | 2011-11-29 | 2012-06-20 | 长春迪瑞医疗科技股份有限公司 | 一种粒子自动分类方法 |
CN103942415A (zh) * | 2014-03-31 | 2014-07-23 | 中国人民解放军军事医学科学院卫生装备研究所 | 一种流式细胞仪数据自动分析方法 |
-
2014
- 2014-09-10 CN CN201410459761.3A patent/CN104200114B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4573796A (en) * | 1984-01-06 | 1986-03-04 | The United States Of America As Represented By The United States Department Of Energy | Apparatus for eliminating background interference in fluorescence measurements |
US5314824A (en) * | 1984-12-24 | 1994-05-24 | Caribbean Microparticles Corporation | Method of setting up a flow cytometer |
CN101226190A (zh) * | 2007-01-17 | 2008-07-23 | 深圳迈瑞生物医疗电子股份有限公司 | 流式细胞术的自动分类方法和装置 |
CN102507417A (zh) * | 2011-11-29 | 2012-06-20 | 长春迪瑞医疗科技股份有限公司 | 一种粒子自动分类方法 |
CN103942415A (zh) * | 2014-03-31 | 2014-07-23 | 中国人民解放军军事医学科学院卫生装备研究所 | 一种流式细胞仪数据自动分析方法 |
Non-Patent Citations (2)
Title |
---|
《k-means++:The Advantages of Careful Seeding》;David Arthur et al;《Philddelphia:Society for Industrial and Applied Mathematics》;20071231;第1027页的摘要、第1节,第1029页第2.2小节 * |
《The curvHDR method for gating flow cytometry samples》;Naumann et al;《BMC Bioinformatics》;20101231;第3-5页 * |
Also Published As
Publication number | Publication date |
---|---|
CN104200114A (zh) | 2014-12-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104200114B (zh) | 流式细胞仪数据快速分析方法 | |
KR102469620B1 (ko) | 생물학적 입자의 분류 시스템 및 방법 | |
Labati et al. | All-IDB: The acute lymphoblastic leukemia image database for image processing | |
CN103562920B (zh) | 混合模型密度设门中的邻域阈值选取 | |
Alvarez et al. | Improvement of plankton biovolume estimates derived from image-based automatic sampling devices: application to FlowCAM | |
Jayakody et al. | Microscope image based fully automated stomata detection and pore measurement method for grapevines | |
CN106248559A (zh) | 一种基于深度学习的白细胞五分类方法 | |
CN108351289A (zh) | 分析装置 | |
US20160070950A1 (en) | Method and system for automatically assigning class labels to objects | |
WO2016094720A1 (en) | Automated flow cytometry analysis method and system | |
CN106548205A (zh) | 一种流式细胞数据快速自动分群及圈门方法 | |
CN104820841B (zh) | 基于低阶互信息和光谱上下文波段选择的高光谱分类方法 | |
US20170102310A1 (en) | Flow cytometer and a multi-dimensional data classification method and an apparatus thereof | |
US20070133855A1 (en) | Similar pattern searching apparatus, method of similar pattern searching, program for similar pattern searching, and fractionation apparatus | |
CN109416313A (zh) | 图像地图集系统和方法 | |
CN110059656A (zh) | 基于卷积对抗生成神经网络的白细胞分类方法及系统 | |
CN103942415B (zh) | 一种流式细胞仪数据自动分析方法 | |
Lee et al. | Statistical file matching of flow cytometry data | |
CN104361360A (zh) | 一种流式数据细胞亚群快速自动识别方法 | |
Chang et al. | Multiplexed immunohistochemistry image analysis using sparse coding | |
EP3230887A1 (en) | Automated flow cytometry analysis method and system | |
WO2018165530A1 (en) | Method of constructing a reusable low-dimensionality map of high-dimensionality data | |
CN112183459B (zh) | 一种基于进化多目标优化的遥感水质图像分类方法 | |
CN103776751B (zh) | 用于粒子检测仪中散点图的粒子分类方法 | |
Omiotek et al. | An efficient method for analyzing measurement results on the example of thyroid ultrasound images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |