【发明内容】
本发明的主要目的就是为解决以上将粒子分类时容易出现偏差和效率低的技术问题,提供一种流式细胞术的自动分类方法和装置,将粒子准确、高效地自动分类。
为实现上述目的,本发明提供一种流式细胞术的自动分类方法,包括以下步骤:
A1、根据收集的每个细胞或粒子逐个通过光照区域时产生的至少两路光信号,将每个细胞或粒子表征为一个与其各路光信号强度有关的、至少二维的向量;
B1、计算所有有效细胞或粒子两两之间的距离,且距离越近,两个细胞或粒子之间的相似程度越高;
C1、将相似程度高的细胞或粒子聚集成同一个类;
D1、重复步骤C1,至少将所有有效细胞或粒子聚集成样本根据测量原理所应有的类别数L。
本发明的进一步改进是:在步骤A1之后、步骤B1之前还包括以下步骤:设定阈值,将不符合阈值条件的细胞或粒子的数据删除。
本发明的更进一步改进是:所述步骤D1中,最后将所有有效细胞或粒子聚集成一个类别。
本发明的更进一步改进是:在所述步骤D1之后还包括以下步骤:
E1、进行聚类效果评价,确定样本真正应有的类别数。
所述步骤E1包括以下步骤:
E11、计算从1到L+r的各整数的聚类效果参数,其中L为样本根据测量原理所应有的类别数,且L为大于或等于1的整数,r为根据经验所得的大于0的整数;
E12、查找出其聚类效果参数为最大的整数q;
E13、将步骤E12中查找出的整数q和类别数L进行比较,如果q>L,则取该样本的分类数为q;如果L-o<q≤L,则取该样本的分类数为L;如果q≤L-o,则不进行分别,并结束运算。
为实现上述目的,本发明还提供一种流式细胞术的自动分类装置,包括:用于根据收集每个细胞或粒子逐个通过光照区域时产生的至少两路光信号将每个细胞或粒子表征为一个与其各路光信号强度有关的、至少二维的向量的事件生成单元;用于根据事件生成单元生成的向量计算所有有效细胞或粒子两两之间的距离的计算单元,且距离越近,两个细胞或粒子之间的相似程度越高;用于将相似程度高的细胞或粒子聚集成同一个类的聚类单元,所述聚类单元能够多次聚类,至少将所有有效细胞或粒子聚集成样本根据测量原理所应有的类别数L。
本发明的进一步改进是:还包括用于设定阈值,将不符合阈值条件的数据删除的设门单元。
本发明的更进一步改进是:所述聚类单元用于最后将所有有效细胞或粒子聚集成一个类别。
本发明的更进一步改进是:还包括用于进行聚类效果评价以确定样本真正应有的类别数的类别评价单元。
所述类别评价单元包括:用于计算从1到L+r的各整数的聚类效果参数的第二计算模块,其中L为样本根据测量原理所应有的类别数,且L为大于或等于1的整数,r为根据经验所得的大于0的整数;用于查找出其聚类效果参数为最大的整数q的第二查找模块;用于将第二查找模块查找出的整数q和类别数L进行比较的比较模块,所述比较模块用于在q>L时,取该样本的分类数为q,在L-o<q≤L时,取该样本的分类数为L,在q≤L-o,不进行分别,并结束运算。
为实现上述目的,本发明还提供一种流式细胞术的自动分类统计系统,包括:样本发生装置,所述样本发生装置进一步包括相互连接的气液传输控制模块和流动室,所述气液传输控制模块用于使含有被测细胞或粒子的样本液被鞘液包裹着通过流动室;光照射装置,用于产生光束以照射通过流动室的鞘流;检测器,用于收集细胞或粒子逐个通过光照区域时产生的至少两路光信号;分类统计处理器,用于根据检测器收集的光信号,将每个细胞或粒子表征为一个与其各路光信号强度有关的、至少二维的向量,计算所有有效细胞或粒子两两之间的距离的计算单元,且距离越近,两个细胞或粒子之间的相似程度越高,将相似程度高的细胞或粒子聚集成同一个类,经多次聚类后,至少将所有有效细胞或粒子聚集成样本根据测量原理所应有的类别数L。
本发明的进一步改进是:所述分类统计处理器还用于在计算细胞或粒子两两之间的距离之前设定阈值,将不符合阈值条件的数据删除。
本发明的更进一步改进是:所述分类统计处理器用于最后将所有有效细胞或粒子聚集成一个类别。
本发明的更进一步改进是:所述分类统计处理器还用于计算从1到L+r的各整数的聚类效果参数,查找出其聚类效果参数为最大的整数q,将查找出的整数q和类别数L进行比较,在q>L时,取该样本的分类数为q,在L-o<q≤L时,取该样本的分类数为L,在q≤L-o,不进行分别,并结束运算,其中L为样本根据测量原理所应有的类别数,且L为大于或等于1的整数,r为根据经验所得的大于0的整数。
本发明的有益效果是:1)本发明通过对流过的所有粒子的二维或多维数据的集合进行分析处理,将某粒子归到某个类中。这种方法是基于数据分析而不是在图形上(一维直方图或二维散点图)寻找边界,因此可以适用于更多维的数据。由于是对每个被测样本都进行数据分析和分类计数,相当于这种自动聚类的方法所产生的分类边界是根据样本的不同而变化的,所以能够克服在散点图上用固定边界分类所带来的缺陷,即不能针对被测样本的特异性进行边界调整的缺陷。同时本发明的分类方法只对粒子的数据进行计算,对于没有粒子的地方不计算,所以也克服了Koonst andFukunaga算法在对不连续的数据进行波谷查找时的缺陷,使分类效率更高。2)本发明在分类计算前先设门删除不合格的数据,进一步减少了计算量,提高了分类效率。3)本发明在分类后还对分类效果进行分类效果评价,提高分类结果的可信性,从而提高粒子分类统计的准确性。
本发明的特征及优点将通过实施例结合附图进行详细说明。
【具体实施方式】
本发明适用于流式细胞仪以及基于流式细胞术的血液分析仪、尿液分析仪以及其他粒子分析仪中,通过对流过的所有粒子的二维或多维数据的集合进行分析处理,将某粒子归到某个类中,最终粒子被归为样本所应有的类别。
流式细胞术分类统计系统一般如图4所示,包括:样本发生装置2、光照射装置1、检测器3和分类统计处理器4。所述样本发生装置2进一步包括相互连接的气液传输控制模块22和流动室21,所述气液传输控制模块22用于使含有被测细胞或粒子的样本液被鞘液包裹着通过流动室21,流动室,为一个光透明器件,内有一个方形导孔,被测的细胞或粒子在鞘液的包裹下逐个通过这个导孔,接受光束的照射;光照射装置1用于产生光束以照射通过流动室的鞘流,光照射装置1通常包括一个或几个波长不同的激光光源11和用于将散射光整理成所需要光束的光束整形模块12,光通过光束整形模块12后在流动室21的导孔处形成一个光斑,被测细胞或粒子的样本液被鞘液包裹着通过光斑时产生各种光信号,通常光信号至少有两路,如前向散射信号FSC、侧向散射信号SSC以及多路荧光信号FL,如图1所示;检测器3用于收集细胞或粒子逐个通过光照区域时产生的至少两路光信号,检测器3通常是PMT(光电倍增管)或PD(光电二极管);分类统计处理器4用于根据检测器3收集的光信号,将每个细胞或粒子表征为一个与其各路光信号强度有关的、至少二维的向量,计算所有有效细胞或粒子两两之间的距离的计算单元,且距离越近,两个细胞或粒子之间的相似程度越高,将相似程度高的细胞或粒子聚集成同一个类,经多次聚类后,至少将所有有效细胞或粒子聚集成样本根据测量原理所应有的类别数L。分类统计处理器4的一种实施例是包括信号提取模块41和分析模块42,信号提取模块41用于提取检测器3收集到的各路光信号,分析模块42用于根据各个细胞或粒子的光信号对细胞或离子进行分类,并对每类中的细胞或粒子进行统计。
在流式细胞术中,每个粒子通过光感应区时都会得到二维或多维信号,用于表征这个粒子的特性,把某个粒子通过光感应区得到信号这个过程叫做一个事件。如果仪器系统具有p维信号通道,则当第i个粒子通过光照区时触发事件ei,得到一个p维向量ei=(xi1,xi2,xi3,…,xip),其中xik表示第k个信号强度,这些信号一般是前向散射光FSC、侧向散射光SSC或者多路的荧光FL1,FL2,…。当一次测量过程共通过了n个粒子时,就触发了n次事件,得到数据I,
本发明就是对I进行分析处理,将一次测量过程的全部事件分成所需要的类别。
分析模块42对细胞或粒子进行分类的一种实施例包括以下步骤:
第一步:去除干扰数据,减少运算量。
每个测量过程所触发的n个事件中,有些事件并不是想要考察的粒子所触发的,这些无效事件的数量很大甚至比有效事件还要多,增加了运算量的开销,因此要将这些事件的数据从原始数据S中除去,得到一个具有m个有效事件的数据Im×p。这些无效事件一般来自于粒子和试剂反应后的碎片以及噪声等,其信号特征比较明显,一般可以通过硬件或者软件“设门”的方式将它们除去。所谓“设门”就是设定一个阈值,在这个阈值之内的数据全都保留,而超过整个阈值之外的数据全部剔除,反之亦可,即超过阈值的全部保留而低于阈值的全部剔除,对于二维数据来说可以理解为设定一个区域,数据落在这个区域之内的保留,落在这个区域之外的剔除,反之亦可。图6-a、图6-b和图6-c中给出了一个在二维数据上将有效数据除去的实例,图6-b中的区域E可以理解为一个“门”,当数据落在这个“门”内时就删除,不让它参与聚类运算,这样可以减少运算量,提高运算效率。图6-a中无效事件出现的区域一般为图6-b中的区域E,当一个事件k被触发之后首先对这个事件的数据进行判断,如果(xk1,xk2)∈E则认为此事件为无效事件,将第k个数据剔除,最终得到了一个容量相对较少的有效数据Im×p(图6-c)。
第二步:对有效数据进行聚类分析
i)计算各事件之间的距离,用这个距离来衡量事件之间的相似程度,且距离越近,两个细胞或粒子之间的相似程度越高。
设d(ei,ej)是事件ei和ej之间的距离,一般要求它满足下列条件:
a)d(ei,ej)≥0,当且仅当ei=ej时,d(ei,ej)=0;
b)d(ei,ej)=d(ej,ei);
c)d(ei,ej)≤d(ei,ek)+d(ek,ej)
通常的流式细胞术有效事件总数大概在几千到1万之间,我们把具有相同特征数据的事件作为一个事件,即:当两个事件ei(xi1,xi2…,xip),ej(xj1,xj2,…,xjp)当ei=ej时只让它们的其中之一参与聚类运算,而计数的时候给它记成两次,这样则数据量会更少,进一步提高运算效率。
计算距离的方法有多种,本领域技术人员可以根据分类效果来选择采用已有技术中的欧氏距离、绝对距离、Minkowski距离、Chebyshev距离、方差加权距离以及马氏距离等中的一种来计算距离,下面说明用欧氏距离来表示相似度,ei、ej的欧氏距离为:
将各事件之间的距离都计算出来,形成一个距离集合,例如一个距离矩阵:Dm×m
ii)将相似程度高的细胞或粒子聚集成同一个类,多次聚类后,至少将所有有效细胞或粒子聚集成样本根据测量原理所应有的类别数L。并且在合并的过程中记录该次合并的编号及两个类合并时的水平。
一般来说用流式细胞术进行样本测量时,事先都会知道样本在这样的测量原理下会有多少类粒子出现,例如血液细胞分析仪在进行白细胞分类计数的时候会出现4~5类白细胞的子类,如果知道了样本应具有的类数g,那么可以在上述方法中得到的谱系图中只分到g类为止。
分析模块42对细胞或粒子进行分类的另一种实施例如图5所示,包括以下步骤:
在步骤S2,收集所有细胞或粒子的各路光信号,将每个细胞或粒子都表征为一个与其各路光信号强度有关的、至少二维的向量,将细胞或粒子在相应的二维或多维散点图上定位,然后执行步骤S4;
在步骤S4,设门去除干扰数据,减少运算量,该步骤与上一实施例中的消除干扰数据相同,然后执行步骤S6;
在步骤S6,计算细胞或粒子两两之间的距离,如果两个细胞或粒子的距离为零,则只允许一个细胞或粒子参与聚类,但在计数时记录为两个细胞或粒子。将距离同上一实施例一样组成距离矩阵,然后执行步骤S8;
在步骤S8,将相似程度高的细胞或粒子聚集成同一个类,聚类方法可以是谱系聚类法,也可以是已有技术中的快速聚类法或者其他聚类方法如模糊聚类或神经网络聚类等。下面说明用谱系聚类法进行聚类,其一种实施例的流程如图7所示,包括以下步骤:
在步骤S802,在计算出的所有距离的距离集合中查找出距离最小的两个细胞或粒子。选择D(0)中非对角线上的最小元素,设这个最小元素为duv,然后执行步骤S804;
在步骤S804,将该两个细胞或粒子合并成一个维数相同的新的类,即将eu和ev合并成一个新的类Gr={eu,ev},然后执行步骤S806;
在步骤S806,在距离集合中将与该两个细胞或粒子相关的距离删除,即在D(0)中消去eu和ev所在的行和列,然后执行步骤S808;
在步骤S808,计算新类Gr与其他类、细胞或粒子两两之间的距离,并将其加入到距离集合中,得到一个新的距离矩阵D(1)。
从D(1)出发重复上述步骤得到D(2)……,直到m个事件聚为1个大类为止。
其中,步骤S806和S808的顺序可以调换。
在合并的过程中记下合并事件的编号及两个类合并时的水平(即距离)并绘制聚类谱系图。
在步骤S8之后执行步骤S10,根据样本的特征进行分类,在聚类谱系图上取不同的谱系水平即可将整个数据分成不同数量的类,根据样本的特征,可知其在某测量原理下会有多少类粒子出现,通过选择谱系水平,即可得到相应的类别。
然而由于样本个体的差异,有些样本的某个子类的特征一致性较差,也就是说这类粒子比较分散,或者某子类与另外一个子类的差异不明显(距离较近),如果仍然强制分成g个类的话就会出现误差,导致分类结果的可信度下降,因此要在步骤10之后对聚类的效果进行评价,执行步骤S12;
在步骤S12,对分类效果进行评价,包括以下步骤:
1、计算从1到L+r的各整数的聚类效果参数,其中L为样本根据测量原理所应有的类别数,且L为大于或等于1的整数,r为根据经验所得的大于0的整数。
设某谱系水平上(距离)共有r个类,类Gk中的类内离差平方和为:
其中xi为事件ei的特征数据向量(xi1,xi2,...xip)T,T表示矩阵的转置,xk是类Gk的重心,即类Gk中所有参与运算的事件的重心,重心的坐标是事件的各个纬度的平均值,Sk越小说明Gk中各个事件越相似。
定义 所有事件的总离差平方和为:
其中,那么用伪F统计量PSF来评价将所有数据分成g个类的效果:
其中,m是距离矩阵中参与运算的事件的总数目,PSF越大表示这些事件可以显著地分成g个类。
假设通常情况下的样本在某测量原理下应具有L个类,计算分类数从1到L+r(r>0)的PSF,r通常取3~5。
2、查找出其聚类效果参数为最大的整数,若PSF的最大值出现在分成q个类时,认为从聚类分析的角度将事件分成q个类最合适。
3、如上所述,q往往并不等于L,因此在步骤S12后执行步骤S14,采取如下策略判断分类是否合理:将步骤2中查找出的整数q和类别数L进行比较,如果分类合理,则执行步骤S16,如果分类不合理,则执行步骤S18。在步骤S16,分类合理时有两种情况:
i)当q>L时,取分类数为q,并报警:出现新类(往往是异常细胞群),转入到异常样本处理程序,异常样本处理程序是例如将其中的L类进行统计计算百分比,对于新类并不参与百分比的计算、新类要用一个固定便捷来计算等处理;
ii)当(L-o)<q≤L时,取分类数为L,正常运算并输出分类结果,o的取值决于对大量样本研究的经验值,该样本中只有q个类,其它类的数据为零。
在步骤S18,当q≤(L-o)时,说明此次的样本异常,不能区分出类别,则不运算,报警,转入到异常样本处理程序。这种情况对于血液细胞来说可能说明仪器出现故障,或者白血病或试剂对血液不起作用了。
评价分类效果的统计量除了可以如上述所述采用伪F统计量外,本领域技术人员也可以采用已有技术中的R2统计量、半偏相关统计量或者伪t2统计量等。
为实现上述方法,流式细胞术的分类装置(即图4中的分析模块)的结构示意图如图8所示,包括事件生成单元、计算单元和聚类单元。事件生成单元用于根据收集每个细胞或粒子逐个通过光照区域时产生的至少两路光信号将每个细胞或粒子表征为一个与其各路光信号强度有关的、至少二维的向量;计算单元用于根据事件生成单元生成的向量计算所有有效细胞或粒子两两之间的距离,且距离越近,两个细胞或粒子之间的相似程度越高;聚类单元用于将相似程度高的细胞或粒子聚集成同一个类的,所述聚类单元能够多次聚类,至少将所有有效细胞或粒子聚集成样本根据测量原理所应有的类别数L,在另一种实施例中,聚类单元将所有有效细胞或粒子聚集成一个类。
为减少参与运算的数据,提高分类的效率,分类装置还包括用于设定阈值、将不符合阈值条件的数据删除的设门单元。
其中所述聚类单元包括:用于在计算出的所有距离的距离集合中查找出距离最小的两个细胞或粒子的第一查找模块;用于将该两个细胞或粒子合并成一个维数相同的新的类的合并模块;用于在距离集合中将与该两个细胞或粒子相关的距离删除的删除模块;用于计算新类与其他类、细胞或粒子两两之间的距离,并将其加入到距离集合中的第一计算模块。
分类装置还进一步包括用于进行聚类效果评价以确定样本真正应有的类别数的类别评价单元。
所述类别评价单元包括:用于计算从1到L+r的各整数的聚类效果参数的第二计算模块,其中L为样本根据测量原理所应有的类别数,且L为大于或等于1的整数,r为根据经验所得的大于0的整数;用于查找出其聚类效果参数为最大的整数q的第二查找模块;用于将第二查找模块查找出的整数q和类别数L进行比较的比较模块,所述比较模块用于在q>L时,取该样本的分类数为q,在L-o<q≤L时,取该样本的分类数为L,在q≤L-o,不进行分别,并结束运算。
所述第二计算模块计算的聚类效果参数为伪F统计量,所述第二计算模块包括:用于根据公式 计算每个类的类内离差平方和的第三计算模块,其中,Sk为类Gk的类内离差平方和,xi为类Gk内第i个细胞或粒子的特征数据向量(xi1,xi2,...xip)T,xk是类Gk的重心;用于计算将样本分成g个类时的各类的类内离差平方和之和Pg的第四计算模块;用于根据公式 计算将样本分成g个类时的伪F统
计量PSF的第五计算模块。
以下是一个用于血液细胞分析仪的实现例:
在基于流式细胞术的血液细胞分析仪中用FSC和SSC将全血中的白细胞分成四个子类,分别为淋巴细胞(Lymph)、单核细胞(Mono)、中性粒细胞(Neut)和嗜碱性粒细胞(Baso)以及嗜酸性粒细胞(Eos),图9、图10是利用本发明的分类方法将对两个不同的样本A和B分类之后的结果,其对不同的样本数据生成不同的边界Borderline1A、Borderline1B进行分类。现有技术中一般都是在二维信号形成的散点图上用固定边界将它们区分出来,但是固定边界不能体现出样本的个体差异,图11和图12为分别为用同一个固定边界Fixed Borderline1进行分类的结果,从中可以看到样本B的Neut细胞的一部分被固定边界划给了Mono细胞,造成结果出现偏差。而本发明所提供的分类方法能够根据样本的不同而自动调节分类边界,使分类结果更为合理。