CN103942415B - 一种流式细胞仪数据自动分析方法 - Google Patents
一种流式细胞仪数据自动分析方法 Download PDFInfo
- Publication number
- CN103942415B CN103942415B CN201410129562.6A CN201410129562A CN103942415B CN 103942415 B CN103942415 B CN 103942415B CN 201410129562 A CN201410129562 A CN 201410129562A CN 103942415 B CN103942415 B CN 103942415B
- Authority
- CN
- China
- Prior art keywords
- data
- deflection
- flow cytometry
- parameter
- monoid
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 0 CCC(CCC*)[N+] Chemical compound CCC(CCC*)[N+] 0.000 description 1
Landscapes
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明公开了一种流式细胞仪数据自动分析方法,包括以下步骤:一)采用BIC方法对数据进行自动类群识别,得到数据中包含的类群数目;二)获得类群数目后,采用偏斜t混合模型对数据进行自动聚类。本发明采用计算机软件能够对流式细胞仪数据进行自动快速分析,对于高度离群值具有很好的容纳性,能够提高数据分析的可重复性和准确性,降低人为主观因素对分析结果的影响,对数据中样本的类群信息分析结果准确度较高,对流式细胞仪数据分析的结果误判率较低。并且本发明具有广泛的应用领域。
Description
技术领域
本发明涉及流式细胞仪数据自动分析技术,尤其是涉及流式细胞仪数据的自动聚类算法。
技术背景
流式细胞术是一种能够精确、快速地对生物细胞的理化特性和生物学特性进行多参数定量分析及对特定细胞群分选的技术。近年来,流式细胞术发展迅速,其在许多领域得到广泛应用。流式细胞术已向着多激光、高通量方向发展,拥有在较短时间内对大量样本进行快速检测的能力。然而,由于缺乏成熟并行的数据自动分析平台,流式细胞术还远没有发挥其巨大潜能,实现样本的自动分析。
流式细胞仪数据分析的主要过程是样本的类群识别,即在样本中找到属于同一种类的细胞群。通常,类群的识别是通过将获得的数据经过处理后显示到2维图中,然后采用人工画门的方式找到属于同类的细胞群,画门的主要方法是将人工视为同类的细胞通过划定一定区域范围而归为一类。由于人工画门方式存在一定的主观性,分析的结果通常无法重现。并且,人工画门的方法无法满足高通量数据分析的需求,也会带来人力资源的巨大浪费。
常见的流式细胞仪数据聚类算法,比如k-means算法,虽然计算速度比较快,但分析的结果通常精确度比较低。目前比较先进的基于k-means的变化点探测算法能够提高数据聚类结果的精确度,但是当数据中存在高度离群值时,其聚类结果通常会出现模型过拟合现象。另一种数据聚类方法为谱聚类方法,该方法虽然在精度上有所提高,但是由于该方法是基于矩阵乘积的方式进行结果估计,因此在样本量较大时,其计算时间非常长。针对该问题,目前提出的一种预抽样谱聚类算法,该方法解决了样本量大造成的计算时间长的问题,但由于对数据进行了预先处理,数据中包含的一部分生物信息可能在处理过程中丢失。另外,当分析的数据中包含高度离群的值时,该方法的聚类结果通常误判率也较高。
发明内容
本发明为解决公知技术中存在的技术问题而提供一种流式细胞仪数据自动分析方法,该方法能够实现对流式细胞仪数据的自动分析,提高数据分析的可重复性和准确性,降低人为主观因素对分析结果的影响。
本发明为解决公知技术中存在的技术问题所采取的技术方案是:一种流式细胞仪数据自动分析方法,包括以下步骤:
一)采用BIC方法对数据进行自动类群识别,得到数据中包含的类群数目;
二)获得类群数目后,采用偏斜t混合模型对数据进行自动聚类。
所述步骤一)中所采用的自动类群识别过程为:
BIC=-2logL+klogn
其中:
L是偏斜t混合模型极大似然估计的对数似然值;
k是混合模型的独立参数;
n是数据中被测样本的粒子总数。
所述步骤二)采用的偏斜t混合模型为:
其中:
x为流式细胞仪数据;
g为类群数目;
πi为混合比,表示第个分量密度在混合密度中的加权因子;
δ为偏斜参数向量;
tp,v(x)为位置参数为μ,尺度矩阵为Σ,自由度为v的p维t分布的概率密度函数;
T1,v+p(x)为位置参数为μ,尺度矩阵为Σ,自由度为v+p的一维t分布的累积分布函数。
所述偏斜t混合模型首先采用多维流式细胞仪数据x中的两个维度作为偏斜t混合模型的输入进行聚类分析,再将该两维聚类分析结果投影到该数据x中的剩余其它二个维度中去,继续采用两维聚类分析方法进行分析,直到得到该数据x的聚类结果。
所述偏斜t混合模型以流式细胞仪数据x作为偏斜t混合模型的输入,采用多维数据直接聚类的方法对数据进行聚类分析。
所述偏斜t混合模型中参数的估算方法:
引入向量zj=(z1j,...zgj)T,变量u1,...,un和w1,...,wn,其满足
其中,HN(0,σ2)为均值为0,方差为σ2的一元半正态分布,gamma(α,β)为形状参数为α,尺度参数为β的伽马分布;得到包含变量zij、uj、wj的对数似然函数为:
其中,
采用两步迭代法求解所述偏斜t混合模型中参数,包括以下步骤:
一)根据已知的流式细胞仪数据值,代入似然函数中,以参数作为未知变量,求取似然函数值;其具体实施过程为:
二)根据使似然函数满足极大值的方法,估计未知参数值,其具体过程为:
其中 为伽马函数的导数。
本发明具有的优点和积极效果是:结合流式细胞仪数据的特点,采用BIC方法对数据进行自动类群识别,采用偏斜t混合模型对数据进行自动聚类,由于偏斜t分布增加了尾重和偏度调节参数,能够更加灵活地拟合含有对称分布和高度非对称分布的数据,因此,该分析方法能够有效降低数据中各种噪声(包括高度离群值)对结果分析的影响,对流式细胞仪数据聚类结果的精确度较高,能够应用在目前流式细胞仪数据自动分析中。并且由于该分析方法涉及到多维数据的自动聚类,因此能够被广泛地应用到模式识别、图像处理、大数据分析、机器学习等多个领域。
综上所述,本发明采用计算机软件能够对流式细胞仪数据进行自动快速分析,对于高度离群值具有很好的容纳性,能够提高数据分析的可重复性和准确性,降低人为主观因素对分析结果的影响,对数据中样本的类群信息分析结果准确度较高,对流式细胞仪数据分析的结果误判率较低。并且本发明具有广泛的应用领域。
附图说明
图1是待分析的流式细胞仪数据及专家采用逐次分析法对FSC和SSC维度数据分类的结果;
图2是采用逐次二维聚类方法,对数据中的FSC和SSC维度数据采用BIC方法计算的类群数目的结果;
图3是基于图2中分析的类群数目结果并采用偏斜t混合模型对数据聚类分析的结果;
图4是采用基于k-means的变化点探测算法对数据聚类分析的结果;
图5采用预抽样谱聚类算法对数据聚类分析的结果;
图6是本发明方法流程图。
具体实施方式
请参阅图6,一种流式细胞仪数据自动分析方法,包括以下步骤:
一)采用BIC方法对数据进行自动类群识别,得到数据中包含的类群数目
为准确识别流式细胞仪数据中类群数目,本发明提出采用BIC方法。该方法基于随机建模的思想,借助信息论方法,通过使模型达到最小值确定模型阶次。其定义为:
BIC=-2log+klogn (1)
其中:L是混合模型似然估计极大值的对数值,k为混合模型的独立参数,n表示样本大小,即样本粒子总量。通过计算每一个分量值k(取值范围为1~g)对应的BIC值,选择其中最小BIC所对应的k值,即为类群数目。
请参阅图1,图1是将待分析数据的FSC和SSC维度数据投影到二维点图中的结果。该数据包含了14656个样本微粒。由专家分析的结果可知,待分析的流式细胞仪数据包含了4个群的细胞,分别为T淋巴细胞、粒细胞、单核细胞和破碎的红细胞和死细胞。
现采用BIC方法对上述FSC和SSC维度数据中的类群数目进行分析。图2是采用BIC方法分析数据得到的结果。可以看出,在g等于3变化到4的过程中,BIC值变化较大,而之后几乎处于相对稳定的状态,因此,类群数目确定为4是最合适的。
二)获得类群数目后,采用偏斜t混合模型对数据进行自动聚类
在获得了数据中样本的类群数目后,本发明提出采用偏斜t混合模型对数据进行自动聚类。偏斜t混合模型是一种以偏斜t分布为密度函数的混合模型模式识别方法,其不仅能够适应对称椭圆分布的数据,而且对于高度非对称的数据拟合性较好。
偏斜t混合模型的定义为:
其中:Σ=Ω+δδT,v为自由度,δ为偏斜参数向量,μ为位置参数,Σ为尺度矩阵。由(2)可知,当δ=0等于时,f(x)转化为t混合模型的混合概率密度函数;当δ=0且v趋近于正无穷大时,f(x)转化为高斯混合模型的混合概率密度函数,因此,通过调节参数μ,Ω,δ,v,可实现对流式细胞仪数据中多种亚群分布的拟合。
为满足不同的分析需求,本发明提出两种聚类方式分析数据:当选择以逐次二维数据聚类分析方法时,(2)中x为流式细胞仪数据中的任意两维数据,分析结果为该两维数据的聚类结果;当选择多维数据直接聚类分析方法时,(2)中x为流式细胞仪数据中的所有维度值,分析的结果为该流式细胞仪数据中包含的所有样本信息。
通过为数据x建立混合模型,然后对混合模型中的参数μ,Ω,δ,v进行估计,可得到流式细胞仪数据x的完整数学模型,从而实现对数据中每一个样本的类群划分,并同时可估计每一个样本所属类群的概率。
为实现数据x的聚类,需估计偏斜t混合模型参数μ,Ω,δ,v,本发明提出采用引入丢失变量的方法进行分析,其具体过程如下:
设x1…xn为数据x的取值,则模型分量为g的偏斜t混合模型的似然函数为:
引入样本的混合分量标记向量zj=(z1j,...zgj)T,和变量u1,...,un和w1,...,wn,且满足
其中,HN(0,σ2)代表均值为0,方差为σ2的一元半正态分布,gamma(α,β)为形状参数为α,尺度参数为β的伽马分布。因此,完全的数据向量可表示为XC={XC1,...,Xcn},其中通过丢失变量引入,可得到完整数据的对数似然函数为:
其中:
在式(5)中满足π=(π1,...,πg)T,θ=(θ1,...,θg)T,v=(v1,...vg)T,且θi包含参数μi,Ωi,δi(i=1,...,g)。
为获得方程(5)ψ的解,本发明提出采用两步迭代的方法进行求解,求解的步骤为:
第一步:在进行第k+1次的迭代中,首先计算完整数据的似然值,即计算: 及
第二步:在进行第k+1次的迭代中,然后求使满足方程(5)取最大值的方法,重新估计模型参数,即求:
其中, 为伽马函数的导数。通过不停地迭代,当|L(ψ(k+1))-L(ψ(x))|小于指定值时L(ψ)最终收敛,收敛的ψ值即为模型参数的估计值。
相对偏斜t分布而言,高斯分布对于离群值比较敏感,易导致模型出现过拟合现象。t分布是一类比高斯分布具有更重尾部的分布,通过将自由度作为鲁棒性参数,可调节分布尾重,从而降低离群值对参数估计的影响。然而,相比于t分布而言,偏斜t分布又增加了偏度调节参数,因此,其能够更加灵活地拟合含有对称分布和高度非对称分布的数据。
请参见图3是基于图2自动分析的结果,采用偏斜t混合模型对数据进行聚类分析的结果。可以看出,上述分析方法准确地拟合数据中存在的不同分布的数据,实现了数据的准确自动聚类,提高了数据自动分析的准确度。另外,图4是采用基于k-means的变化点探测算法对数据聚类分析的结果。图5采用预抽样谱聚类算法对数据聚类分析的结果。表一为以上三种方法的分类误判率结果。由结果可知,本专利设计的算法误判率最低,最接近专家分析的结果。
表一不同聚类方法的误判率
为寻找该流式细胞仪数据中更多微粒群的相关信息,可根据上一步分析的结果,再将该数据的其他维度数据采用以上方法进行二维聚类分析。
上述分析方法在一台配置3.2GHz CPU和4G内存的PC上,采用C++语言编程实现。
Claims (6)
1.一种流式细胞仪数据自动分析方法,其特征在于,包括以下步骤:
一)采用BIC方法对数据进行自动类群识别,得到数据中包含的类群数目;
二)获得类群数目后,采用偏斜t混合模型对数据进行自动聚类;
以上步骤一)中所采用的自动类群识别过程为:
BIC=-2log L+k log n
其中:
L是偏斜t混合模型极大似然估计的对数似然值;
k是混合模型的独立参数;
n是数据中被测样本的粒子总数。
2.根据权利要求1所述的流式细胞仪数据自动分析方法,其特征在于,所述步骤二)采用的偏斜t混合模型为:
其中:
x为流式细胞仪数据;
g为类群数目;
πi为混合比,表示第i个分量密度在混合密度中的加权因子;
μ,Ω,δ,v为偏斜t分布的密度参数,其中,μ为位置参数,δ为偏斜参数向量,且满足∑=Ω+δδT;
tp,v(x)为位置参数为μ,尺度矩阵为∑,自由度为v的p维t分布的概率密度函数;
T1,v+p(x)为位置参数为μ,尺度矩阵为∑,自由度为v+p的一维t分布的累积分布函数。
3.根据权利要求2所述的流式细胞仪数据自动分析方法,其特征在于,所述偏斜t混合模型首先采用多维流式细胞仪数据x中的两个维度作为偏斜t混合模型的输入进行聚类分析,再将该两维聚类分析结果投影到该数据x中的剩余其它二个维度中去,继续采用两维聚类分析方法进行分析,直到得到该数据x的聚类结果。
4.根据权利要求2所述的流式细胞仪数据自动分析方法,其特征在于,所述偏斜t 混合模型以流式细胞仪数据x作为偏斜t混合模型的输入,采用多维数据直接聚类的方法对数据进行聚类分析。
5.根据权利要求2所述的流式细胞仪数据自动分析方法,其特征在于,所述偏斜t混合模型中参数的估算方法:
引入向量zj=(z1j,…zgj)T,变量u1,…,un和w1,…,wn,其满足
其中,xj表示第j个数据x,HN(0,σ2)为均值为0,方差为σ2的一元半正态分布,gamma(α,β)为形状参数为α,尺度参数为β的伽马分布;得到包含变量zij、uj、wj的对数似然函数为Lc(Ψ):
其中,
6.根据权利要求5所述的流式细胞仪数据自动分析方法,其特征在于,采用两步迭代法求解所述偏斜t混合模型中参数,包括以下步骤:
一)根据已知的流式细胞仪数据值,代入似然函数中,以参数作为未知变量,求取似然函数值;其具体实施过程为:
其中E表示期望;
二)根据使似然函数满足极大值的方法,估计未知参数值,其具体过程为:
其中,k表示迭代序号,分别表示第k次迭代时πi、μi、Ωi、δi的值,为伽马函数的导数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410129562.6A CN103942415B (zh) | 2014-03-31 | 2014-03-31 | 一种流式细胞仪数据自动分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410129562.6A CN103942415B (zh) | 2014-03-31 | 2014-03-31 | 一种流式细胞仪数据自动分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103942415A CN103942415A (zh) | 2014-07-23 |
CN103942415B true CN103942415B (zh) | 2017-10-31 |
Family
ID=51190083
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410129562.6A Expired - Fee Related CN103942415B (zh) | 2014-03-31 | 2014-03-31 | 一种流式细胞仪数据自动分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103942415B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104200114B (zh) * | 2014-09-10 | 2017-08-04 | 中国人民解放军军事医学科学院卫生装备研究所 | 流式细胞仪数据快速分析方法 |
CN105938524A (zh) * | 2016-04-26 | 2016-09-14 | 清华大学 | 一种微生物关联网络预测方法及装置 |
CN106548203A (zh) * | 2016-10-21 | 2017-03-29 | 北京信息科技大学 | 一种多参数流式细胞数据快速自动分群和设门方法 |
US9965702B1 (en) | 2016-12-27 | 2018-05-08 | Cesar Angeletti | Method for analysis and interpretation of flow cytometry data |
CN110520876B (zh) * | 2017-03-29 | 2024-05-14 | 新克赛特株式会社 | 学习结果输出装置及学习结果输出程序 |
CN107389536B (zh) * | 2017-07-31 | 2020-03-31 | 上海纳衍生物科技有限公司 | 基于密度-距离中心算法的流式细胞粒子分类计数方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1573431A2 (en) * | 2002-10-11 | 2005-09-14 | Laboratories For Information Technology | Statistical data analysis tool |
CN101216886B (zh) * | 2008-01-11 | 2010-06-09 | 北京航空航天大学 | 一种基于谱分割理论的镜头聚类方法 |
CN100589122C (zh) * | 2008-03-11 | 2010-02-10 | 浙江大学 | 基于模型的聚类法与贝叶斯网络法的基因芯片数据分析法 |
-
2014
- 2014-03-31 CN CN201410129562.6A patent/CN103942415B/zh not_active Expired - Fee Related
Non-Patent Citations (1)
Title |
---|
多元t分布数据的局部影响分析;解锋昌 等;《应用概率统计》;20060501;第22卷(第2期);第173-183页 * |
Also Published As
Publication number | Publication date |
---|---|
CN103942415A (zh) | 2014-07-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103942415B (zh) | 一种流式细胞仪数据自动分析方法 | |
Zare et al. | Data reduction for spectral clustering to analyze high throughput flow cytometry data | |
CN108090508A (zh) | 一种分类训练方法、装置及存储介质 | |
CN104200114B (zh) | 流式细胞仪数据快速分析方法 | |
CN110751121B (zh) | 基于聚类与sofm的无监督雷达信号分选方法 | |
CN109214378A (zh) | 一种基于神经网络整体识别计量表读数的方法和系统 | |
CN108229550A (zh) | 一种基于多粒度级联森林网络的云图分类方法 | |
CN110826618A (zh) | 一种基于随机森林的个人信用风险评估方法 | |
CN105203446B (zh) | 基于概率分布细胞分类统计方法 | |
CN106548205A (zh) | 一种流式细胞数据快速自动分群及圈门方法 | |
CN113228062B (zh) | 基于特征多样性学习的深度集成模型训练方法 | |
CN108932301A (zh) | 数据填充方法及装置 | |
CN106548203A (zh) | 一种多参数流式细胞数据快速自动分群和设门方法 | |
US10133962B2 (en) | Method of digital information classification | |
CN106874943A (zh) | 业务对象分类方法和系统 | |
Luo et al. | SFA: small faces attention face detector | |
CN109840413A (zh) | 一种钓鱼网站检测方法及装置 | |
CN110008853A (zh) | 行人检测网络及模型训练方法、检测方法、介质、设备 | |
CN109541639A (zh) | 一种基于粒子聚类的反演边界层高度方法 | |
US20150242676A1 (en) | Method for the Supervised Classification of Cells Included in Microscopy Images | |
Wilkins et al. | A comparison of radial basis function and backpropagation neural networks for identification of marine phytoplankton from multivariate flow cytometry data | |
CN113298138B (zh) | 一种雷达辐射源个体识别方法及系统 | |
CN108268461A (zh) | 一种基于混合分类器的文本分类装置 | |
Dhiman et al. | Citrus fruits classification and evaluation using deep convolution neural networks: an input layer resizing approach | |
CN109508350A (zh) | 一种对数据进行采样的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20171031 Termination date: 20180331 |
|
CF01 | Termination of patent right due to non-payment of annual fee |