CN115270874A - 一种基于密度估计的流式细胞分类和计数的方法和系统 - Google Patents

一种基于密度估计的流式细胞分类和计数的方法和系统 Download PDF

Info

Publication number
CN115270874A
CN115270874A CN202210898026.7A CN202210898026A CN115270874A CN 115270874 A CN115270874 A CN 115270874A CN 202210898026 A CN202210898026 A CN 202210898026A CN 115270874 A CN115270874 A CN 115270874A
Authority
CN
China
Prior art keywords
data
cell
image
cells
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210898026.7A
Other languages
English (en)
Inventor
师改梅
李东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Maya Lightyear Technology Co ltd
Wuxi Boao Maya Medical Technology Co ltd
Original Assignee
Chengdu Maya Lightyear Technology Co ltd
Wuxi Boao Maya Medical Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Maya Lightyear Technology Co ltd, Wuxi Boao Maya Medical Technology Co ltd filed Critical Chengdu Maya Lightyear Technology Co ltd
Priority to CN202210898026.7A priority Critical patent/CN115270874A/zh
Publication of CN115270874A publication Critical patent/CN115270874A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06MCOUNTING MECHANISMS; COUNTING OF OBJECTS NOT OTHERWISE PROVIDED FOR
    • G06M11/00Counting of objects distributed at random, e.g. on a surface

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明提供了一种基于密度估计的流式细胞分类和计数的方法和系统,所述方法包括:步骤1、读取原始流式数据文件,得到数据集;步骤2、对数据集进行标准化;步骤3、采用UMAP算法对数据集进行自动降维;步骤4、基于密度法分析细胞分布,对于分布均匀的细胞群体采用DBSCAN算法进行自动聚类;步骤5、进行流式细胞计数。本发明采用的方法处理速度更快,计算精度更高,在细胞检测中具有很重要的指导意义。

Description

一种基于密度估计的流式细胞分类和计数的方法和系统
技术领域
本发明属于医学数据处理和流式细胞术数据分析的技术领域,尤其涉及一种基于密度估计的流式细胞分类和计数的方法和系统。
背景技术
在日常最常见的血常规检查中,红细胞和白细胞的数量在许多疾病诊断中都具有重要的指示意义。红细胞和白细胞数量的异常增多或减少,都预示着患者的身体机能在某方面可能出现了问题。医生开药根据细胞数量的变化多少,结合患者的症状以及其他相关的检查结果,对患者进行准确的诊断。
流式细胞术(FCM)是70年代发展起来的一种能够精确、快速地对生物细胞的理化特性和生物学特性进行多参数定量分析及对特定细胞群分选的技术。流式细胞仪是采用流式细胞术的典型仪器,它借鉴了荧光显微镜技术,同时利用了荧光染料、激光技术、单抗技术以及计算机技术的发展,能迅速的对单个细胞及其群体的化学物质的含量与种类作出分析,对含指定化学物质的细胞进行分离提纯,在一些有关实验室和医院应用广泛。其原理是利用流体动力学聚焦原理,将被分析的细胞或微粒排成一列,逐个快速地流过检测光束,每个细胞或微粒引发的多角度散射光和多色荧光,通过光学系统收集和光电传感器转化为电信号,经过电子学信号处理和采样成为数字信号,由计算机存储和进行数据分析,流式细胞仪获取的所有细胞或微粒的特征数据成为流式数据。流式细胞术大大提高了检测速度与统计精确性,而且能从同一个细胞中可以同时测得多种参数,流式细胞术具有速度快、精度高、准确性好、大批量、多参数分析等优点,已成为当代最先进的细胞定量分析技术,同时,也是重要的临床检验设备。近年来FCM不仅在生物医学与临床检验学中得到了长足发展,而且拓展到生物学的各个领域,微生物学中涉及医学、发酵和环保等的诸多领域,而且它还是细胞学研究中必不可少的工具之一。
传统上,流式数据的分析依靠有经验的人员将数据投影至二维散点图中,然后采用区域设门的方式对感兴趣的类群进行分析,如分类和计数,被称为人工设门法。流式细胞仪以及基于流式细胞术的血液分析仪、尿液分析仪以及粒子分析仪等都是通过收集和分析粒子的二维或多维数据,收集来的这些信号生成二维或三维的散点图,在散点图上划分多个区域,细胞或者粒子的多参数信号落在同一个区域的那些粒子被归为同一类,并统计落在这些类别内的粒子数目和百分比,用以分析被测样本的统计特性,来识别液体中的不同粒子以将他们分成不同的类别。
随着流式细胞术向着多激光、高通量方向发展,流式细胞仪数据量成倍增加,传统人工分析数据方法已不能满足快速分析的需求,数据的快速自动分析成为流式细胞术未来发展的主要方向。
现在数据聚类分析已经成为一个非常活跃的研究课题,但是用聚类的方法对流式细胞仪中检测到的细胞分类数据进行分析还很少有人研究。
聚类是一个无监督的分类,聚类是一个将数据集划分为若干组或簇的过程,使得同一类的数据对象之间的相似度较高,而不同类的数据对象之间的相似度较低。聚类问题的关键是把相似的事物聚集在一起,适合探讨样本间的内部关系。在对大型数据集聚类时,K-means算法也比层次聚类算法快得多。
使用K-means在流式细胞仪中进行细胞分类的步骤是采用FCM对荧光标记的细胞进行检测而得到荧光光谱数据,对该数据实施预处理后以K-means算法构建聚类模型实现细胞分类。研究K-means算法在流式细胞仪中细胞分类的应用,关键是用该算法挖掘出荧光光谱中的有效信息并建立起荧光光谱与细胞分类的正确映射关系。K-means聚类精度差,仅适合准确聚类区分降维后呈类圆形分布的细胞群体,而在降维后不规则分布的细胞群体,聚类能力极差,而且在K-means算法中k是事先给定的,这个k值的选定是非常难以估计的。很多时候,事先并不知道给定的数据集应该分成多少个类别才最合适。这个初始聚类中心的选择对聚类结果有较大的影响,一旦初始值选择的不好,可能无法得到有效的聚类结果,这对自动分群是一个障碍,会引入人为分群误差,不利用自动化工程和新型细胞群体的发现和挖掘。因此,亟需一种快速、有效的基于密度估计的的流式细胞分类和计数方法和系统。
发明内容
发明目的:本发明所要解决的技术问题是针对现有技术的不足,提供一种基于密度估计的流式细胞分类和计数的方法和系统。
所述方法包括如下步骤:步骤1、读取原始流式数据文件,得到数据集;
步骤2、对数据集进行标准化;
步骤3、采用UMAP(Uniform Manifold Approximation and Projection forDimension Reduction,一致的流形逼近和投影以进行降维)算法对数据集进行自动降维;
步骤4、基于密度法分析细胞分布,对于分布均匀的细胞群体采用DBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有噪声的基于密度的聚类方法)算法进行自动聚类;
步骤5、进行流式细胞计数。
步骤2包括:对数据集进行min-max标准化,通过下列公式对数据集中的原始流式数据进行变换:
Figure BDA0003769757730000031
其中,i为变量,X[i]表示原始流式数据中第i个数据,X′[i]为X[i]标准化后的数据,i=1,2,...,N,N表示原始流式数据中的数据个数,min{X[i]}表示N个数据中的最小值,max{X[i]}表示N个数据中的最大值。
z-score(z分数)标准化,也叫标准差标准化法,用于评估样本点到总体均值的距离,适用于属性A的最大值和最小值未知的情况,或有超出取值范围的离群数据的情况,具体为:
Figure BDA0003769757730000032
其中,
Figure BDA0003769757730000033
表示样本的均值,
Figure BDA0003769757730000034
S表示样本的标准差,
Figure BDA0003769757730000035
X[i]为原始流式数据在第i维的原始数据,X′[i]为标准化后的数据。
使用z-score标准化或min-max标准化对数据进行缩放,更容易在步骤4.2中找到聚类半径的最好取值。在本发明中,使用min-max标准化将数据聚类在0-1的范围内。
步骤4包括:
步骤4-1,运用SPSS(Statistical Product and Service Solutions,即统计产品与服务解决方案)卡方检验数据集中的数据是否服从均匀分布;
步骤4-2,当数据分布均匀时,采用DBSCAN算法对细胞分布进行自动聚类;
步骤4-3,当数据分布不均匀时,采用均值偏移聚类对细胞分布进行自动聚类。
步骤4-2包括:
步骤4-2-1,确定半径r1和最小点数minPoints:针对步骤3中降维后的数据集中的数据点,从一个没有被访问过的任意数据点开始,判断以所述数据点为中心,r1为半径的圆内包含的点的数量是否大于或等于区域内的最小点数minPoints,如果大于或等于区域内的最小点数minPoints,则所述数据点被标记为核心点,否则进入步骤4-2-2;
其中,r1的取值十分关键,设置得非常小,则意味着没有点是核心样本,可能会导致所有点被标记为噪声,r1设置得非常大,可能会导致所有点形成单个簇,因为步骤2中已经将数据标准化为0-1之间的数,所以r1的设置一般小于0.5,在本发明中,r1=0.3;
最小点数minPoints的取值范围为3<minPoints<10,这么设置可以过滤离群点,同时将细胞群中发生异常的点保留下来,当minPoints设置过大时,会将发生异常的点判断为噪声点,当minPoints设置过小时,会将噪声点也检测为核心点。
步骤4-2-2,如果数据点存在于一个以核心点为中心以r为半径的圆内,则数据点被标记为边缘点,否则为噪声点,重复步骤4-2-1~步骤4-2-2,直到所有的数据点都被访问过。
步骤4-3包括:
步骤4-3-1,确定滑动窗口半径r2,随机选取步骤3中降维后的数据集中的一个数据点作为圆形的中心,以半径为r2的圆形滑动窗口开始滑动;
其中,r2的取值十分关键,设置得非常小,则意味着没有点是核心样本,可能会导致所有点被标记为噪声,r2设置得非常大,可能会导致所有点形成单个簇,因为步骤2中已经将数据标准化为0-1之间的数,所以r2的设置一般小于0.5,在本发明中,r2=0.3。
步骤4-3-2,每一次滑动到新的区域,计算滑动窗口内的均值来作为中心点,滑动窗口内的点的数量为窗口内的密度;在每一次移动中,窗口会向密度更高的区域移动;
步骤4-3-3,移动窗口,同时计算窗口内的中心点以及窗口内的密度,一直移动到圆内密度不再增加为止;
步骤4-3-4,步骤4-3-1~步骤4-3-3会产生两个以上的滑动窗口,当两个以上的滑动窗口重叠时,保留包含最多点的窗口,然后根据数据点所在的滑动窗口进行聚类,聚类后,对于不同类别的细胞标记不同的颜色,得到聚类彩色图像,聚类后共有N类细胞。
步骤5包括:
步骤5-1,将聚类彩色图像化为细胞二值化图像:
针对每一类细胞进行计数,首先针对聚类后第1类细胞,在聚类彩色图像中将第一类细胞二值化为白色,除了第一类细胞以外的其余点二值化为黑色,得到细胞二值化图像;
步骤5-2,将细胞二值化图像进行距离变换,得到距离变换后的细胞二值图像;
步骤5-3,使用OpenCV中轮廓提取算法findContours()提取距离变换后的细胞二值图像的所有轮廓,得到轮廓数量;
步骤5-4,使用OpenCV中contourArea算法计算得到所有轮廓的面积;
步骤5-5,当存在轮廓面积大于阈值th1时,进入步骤5-6,否则,直接返回轮廓数量作为每一类细胞的计数结果;
步骤5-6,基于密度图像进行细胞计数;
步骤5-7,对于聚类后其他类的细胞,重复步骤5-1到5-6,直到第2类,第3类,..第j类,....第N类,所有类别的细胞都计数完成。
其中,j为变量,表示正在对第几类细胞进行计数,N为步骤4中得到的细胞聚类后的总类数。
步骤5-1中采用如下公式得到细胞二值化图像:
Figure BDA0003769757730000051
其中,j为变量,j=1,2,...,N,Bj[m,n]=255表示第j类细胞二值化图像中横坐标为m、纵坐标为n的像素点处的像素值为255,m为变量,表示细胞二值化图像中第m列,n为变量,表示细胞二值化图像中的第n行,m=1,2,...,W,n=1,2,...,H,W为细胞二值化图像的宽度,H为细胞二值化图像的高度。
步骤5-2包括:所述距离变换是计算一个图像中非零像素点到最近的零像素点的距离,公式如下:
Figure BDA0003769757730000052
其中,Bj[m,n]表示第j类细胞二值化图像中的非零像素点,Bj[p,q]表示第j类细胞二值化图像中的零像素点,p为变量,表示细胞二值化图像中的第p列,q为变量,表示细胞二值化图像中的第q行,Bj[p,q]=0表示第j类细胞二值化图像中在横坐标p,纵坐标q处像素值为0;
D(Bj[m,n]=255,Bj[p,q]=0)]表示第j类细胞二值化图像中非零像素点Bj[m,n]和零像素点Bj[p,q]之间的距离,Pj[m,n]为经过距离变换后的二值图像中横坐标为m、纵坐标为n的像素点处的像素值;min(·)表示取最小值函数,D(P,Q)表示点P和Q之间的欧式距离,则
Figure BDA0003769757730000061
th2为第j类细胞二值化图像中细胞二值化图像非零像素点和零像素点之间的距离阈值,th2的一般取值小于10,th的设置主要是为了使得粘连或者接近的细胞分开,如果设置的过大,会过滤掉过多的细胞,使得计数结果不准确。
步骤5-5中,th1是判定细胞与细胞之间的粘连严重的面积阈值,th1<50。在本发明中,th1的具体取值根据具体细胞的类型确定;
步骤5-6包括:
步骤5-6-1:将第j类细胞二值化图像Pj[m,n]通过高斯滤波模板图像G[u,v]进行卷积得到第j类细胞的细胞密度图像Dj[m,n]:
Figure BDA0003769757730000062
Figure BDA0003769757730000063
其中,u表示高斯滤波模板图像中横坐标,v表示高斯模板图像中纵坐标v,σ为高斯图像的标准差,e表示指数函数的底数,e=2.71828183,为自然常数,
Figure BDA0003769757730000064
为卷积运算;
在本发明中,当设定的高斯滤波模板图像的尺度为5时,u=-2,-1,...,2,v=-2,-1,...,2,σ<2。
高斯滤波是通过对输入数组的每个点与输入的高斯滤波模板执行卷积计算然后将这些结果一块组成了滤波后的输出数组,通俗的讲就是高斯滤波是对整幅图像进行加权平均的过程,每一个像素点的值都由其本身和邻域内的其他像素值经过加权平均后得到;
步骤5-6-2:将第j类细胞密度图像Dj[m,n]中所有像素点处的值累加起来便得到了第j类细胞的数量。依次类推,可以得到第1类,第2类,...,第N类细胞的数量。
本发明还提供了一种基于密度估计的流式细胞分类和计数的系统,包括数据采集单元,预处理单元,降维单元,判断单元,聚类单元,计数单元;
所述数据采集单元用于采集流式数据:当细胞进入流式细胞仪,经过多色荧光后,通过光学系统收集和光电传感器转化为电信号,电信号经过A/D(模数转换器)转换后成为数字信号,所述数字信号称为特征数据,由数据采集单元存储流式细胞仪获取的所有细胞或微粒的特征数据,称为原始流式数据文件,将原始流式数据文件存储到数据集中;
所述预处理单元用于对数据集进行标准化处理,然后将处理后的数据集送入降维单元;
所述降维单元采用UMAP算法对数据集进行自动降维;
所述判断单元运用SPSS卡方检验数据集中的数据是否服从均匀分布,当数据分布均匀时,聚类单元采用DBSCAN算法对细胞分布进行自动聚类;否则聚类单元采用均值偏移聚类对细胞分布进行自动聚类;
所述计数单元用于对聚类后每一类细胞图像分别计数。
本发明的有益效果是:
1、可对不同密度的细胞群体实现自动聚类和计数,且可有效排除噪音干扰和非特异信号。
2、本发明采用的方法处理速度更快,计算精度更高,在细胞检测中具有很重要的指导意义。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述和/或其他方面的优点将会变得更加清楚。
图1是本发明方法流程图。
图2是计数流程图。
图3是3×3的二维高斯模板示意图。
图4是二值图像经过模板图像卷积运算前后的示意图。
具体实施方式
本发明提供了一种基于密度估计的流式细胞分类和计数的系统,包括数据采集单元,预处理单元,降维单元,判断单元,聚类单元,计数单元。具体如下:
(1)数据采集单元
细胞进入流式细胞仪后经过多色荧光后,通过光学系统收集和光电传感器转化为电信号,经过电子学信号处理和采样成为数字信号,由计算机存储和进行数据分析,流式细胞仪获取的所有细胞或微粒的特征数据成为流式数据。
(2)预处理单元
对流式数据进行标准化处理送入降维单元。
(3)降维单元
如果数据集的特征维度太大,就很难精确地构建聚类。高维数并不一定意味着成百上千维度的特征,甚至10个维度的特征也会造成准确性问题流式数据经过标准化处理后,通过降维处理,将高维数据转化为低维数据;
(4)判断单元
运用SPSS卡方检验,检验数据是否服从均匀分布。
(5)聚类单元
当服从均匀分布时,采用DBSCAN算法对细胞分布进行自动聚类;否则,采用均值偏移聚类对细胞分布进行自动聚类。
(6)计数单元
对聚类后每一类细胞图像分别计数。
因此,本发明还提供了一种基于密度估计的流式细胞分类和计数的方法,该方法的流程图如图1、图2所示,具体包括如下步骤:
步骤1、读取原始流式数据文件,得到数据集;
步骤2、对数据集进行标准化;
由于数据集中的特特征不在相同的范围内,所以需要对整个数据集进行标准化。换句话说,本发明数据集中的每个特征对于它们的数据都有独特的大小和范围。
步骤3,采用UMAP算法对数据集进行自动降维;
步骤4,基于密度法分析细胞分布,对于分布均匀的细胞群体采用DBSCAN算法进行自动聚类;当簇具有很不相同的密度时,采用均值漂移聚类。具体包括:
运用SPSS卡方检验,检验据集中的数据是否服从均匀分布,当数据分布均匀时,采用DBSCAN算法对细胞分布进行自动聚类,否则采用均值偏移聚类对细胞分布进行自动聚类;
步骤5、进行流式细胞计数。具体包括:
步骤5-1:针对聚类后第一类细胞,在聚类彩色图像中将该类细胞二值化为白色,其余点二值化为黑色,得到细胞二值化图像,计算公式为:
Figure BDA0003769757730000091
其中,j为变量,j=1,2,...,N,Bj[m,n]=255表示第j类细胞二值化图像中横坐标为m、纵坐标为n的像素点处的像素值为255,m为变量,表示细胞二值化图像中第m列,n为变量,表示细胞二值化图像中的第n行,m=1,2,...,W,n=1,2,...,H,W为细胞二值化图像的宽度,H为细胞二值化图像的高度。
步骤5-2,将细胞二值化图像进行距离变换;
Figure BDA0003769757730000092
其中,Bj[m,n]表示第j类细胞二值化图像中的非零像素点,Bj[p,q]表示第j类细胞二值化图像中的零像素点,p为变量,表示细胞二值化图像中的第p列,q为变量,表示细胞二值化图像中的第q行,也即细胞二值化图像中在横坐标p,纵坐标q像素点处该值为0。
D(Bj[m,n]=255,Bj[p,q]=0)]表示第j类细胞二值化图像中非零像素点Bj[m,n]和零像素点Bj[p,q]之间的距离,Pj[m,n]为经过距离变换后的二值图像中横坐标为m、纵坐标为n的像素点处的像素值;min(·)表示取最小值函数,D(P,Q)表示点P和Q之间的欧式距离,则
Figure BDA0003769757730000093
th2为第j类细胞二值化图像中细胞二值化图像非零像素点和零像素点之间的距离阈值,th2的一般取值小于10,th的设置主要是为了使得粘连或者接近的细胞分开,如果设置的过大,会过滤掉过多的细胞,使得计数结果不准确,在本发明实施例中,th2=3。
步骤5-3,使用OpenCV中轮廓提取算法findContours()提取图像的所有轮廓,得到轮廓数量;
步骤5-4,使用OpenCV中contourArea算法计算得到所有轮廓的面积;
步骤5-5,当存在轮廓面积大于th1时,进入步骤5-6,否则,直接返回轮廓数量作为该类细胞的计数结果;
th1为判定细胞与细胞之间的粘连严重的面积阈值,th1<50。在本发明中,th1的具体取值根据具体细胞的类型确定。
步骤5-6:基于密度图像的细胞计数;
(1)将第j类细胞二值图像经过高斯卷积得到第j类细胞密度图像Dj[m,n];
高斯滤波是通过对输入数组的每个点与输入的高斯滤波模板执行卷积计算然后将这些结果一块组成了滤波后的输出数组,通俗的讲就是高斯滤波是对整幅图像进行加权平均的过程,每一个像素点的值都由其本身和邻域内的其他像素值经过加权平均后得到。将第j类细胞二值化图像Bj[m,n],通过与高斯滤波模板图像进行卷积运算得到第j类细胞密度图像,计算公式为:
Figure BDA0003769757730000101
其中,
Figure BDA0003769757730000102
为卷积运算;
高级卷积图像为用下式表示:
Figure BDA0003769757730000103
其中,G[u,v]表示高斯滤波模板图像,u表示高斯滤波模板图像中横坐标u处,v表示高斯滤波模板图像中纵坐标v处,σ为高斯滤波模板图像的标准差,在本发明中σ=1.5,e表示指数函数的底数,e=2.71828183,为自然常数。
高斯滤波的具体操作是:用一个模板(或称卷积、掩模)扫描图像中的每一个像素,用模板确定的邻域内像素的加权平均灰度值去替代模板中心像素点的值。
以3×3的高斯模板为例(为防止越界,不处理最左1列,最右1列,最上1行,最下1行的图像元素)说明高斯滤波的基本步骤如下:
1)从上到下,从左到右,扫描图像;
2)将高斯模板移到到图像中的非零点,用该高斯模板的系数与其所覆盖的区域进行卷积运算,用该加权平均值去替代该点处的值。依次类推,直到遍历完图像中所有的点。
3×3的二维高斯模板如图3所示,图4所示为二值图像经过模板图像卷积运算后的密度图像的示意图。
(2)将密度图像所有位置上的概率求和得到每一类细胞的数量
将密度图像中所有位置处像素点的值累加起来便得到了每一类细胞的数量。
实施例1
本实施例提供了一种基于密度估计的流式细胞分类和计数的系统,包括数据采集单元,预处理单元,降维单元,判断单元,聚类单元,计数单元。具体如下:
(1)数据采集单元
细胞进入流式细胞仪后经过多色荧光后,通过光学系统收集和光电传感器转化为电信号,经过电子学信号处理和采样成为数字信号,由计算机存储和进行数据分析,流式细胞仪获取的所有细胞或微粒的特征数据成为流式数据。
(2)预处理单元
对流式数据进行标准化处理送入降维单元。
(3)降维单元
如果数据集的特征维度太大,就很难精确地构建聚类。高维数并不一定意味着成百上千维度的特征,甚至10个维度的特征也会造成准确性问题流式数据经过标准化处理后,通过降维处理,将高维数据转化为低维数据;
(4)判断单元
运用SPSS卡方检验,检验数据是否服从均匀分布。
(5)聚类单元
当服从均匀分布时,采用DBSCAN算法对细胞分布进行自动聚类;否则,采用均值偏移聚类对细胞分布进行自动聚类。
(6)计数单元
对聚类后每一类细胞图像分别计数。
因此,本发明还涉及一种基于密度估计的的流式细胞分类和计数方法,该方法的流程图如图1所示具体为:
步骤1、读取原始流式数据文件,得到数据集;
步骤2、对数据集进行标准化;
由于数据集中的特特征不在相同的范围内,所以需要对整个数据集进行标准化。换句话说,数据集中的每个特征对于它们的数据都有独特的大小和范围。
步骤3、采用UMAP算法对数据集进行自动降维;
在一些算法中,如果数据集的特征维度太大,就很难精确地构建聚类。高维数并不一定意味着成百上千维度的特征,甚至10个维度的特征也会造成准确性问题。
特征降维背后的理论是将原始特征集转换为更少的人工派生特征,这些特征仍然保留了原始特征中包含的大部分信息。
在本发明中使用UMAP算法对数据进行自动降维。
步骤4、基于密度法分析细胞分布,对于分布均匀的细胞群体采用DBSCAN算法进行自动聚类;具体包括:
步骤4-1,运用SPSS卡方检验,检验数据集中的数据是否服从均匀分布;
步骤4-2,当数据分布均匀时,采用DBSCAN算法对细胞分布进行自动聚类;
DBSCAN是一种基于密度的聚类算法,这类密度聚类算法一般假定类别可以通过样本分布的紧密程度决定。同一类别的样本,他们之间的紧密相连的,也就是说,在该类别任意样本周围不远处一定有同类别的样本存在。
通过将紧密相连的样本划为一类,这样就得到了一个聚类类别。通过将所有各组紧密相连的样本划为各个不同的类别,则得到了最终的所有聚类类别结果。
DBSCAN算法对簇的定义很简单,由密度可达关系导出的最大密度相连的样本集合,即为最终聚类的一个簇。
DBSCAN算法的簇里面可以有一个或者多个核心点。如果只有一个核心点,则簇里其他的非核心点样本都在这个核心点的Eps邻域里。如果有多个核心点,则簇里的任意一个核心点的Eps邻域中一定有一个其他的核心点,否则这两个核心点无法密度可达。这些核心点的Eps邻域里所有的样本的集合组成一个DBSCAN聚类簇。
DBSCAN的处理流程如下。
步骤4-2-1,确定半径r1和最小点数minPoints:针对步骤3中降维后的数据集中的数据点,从一个没有被访问过的任意数据点开始,判断以所述数据点为中心,r1为半径的圆内包含的点的数量是否大于或等于区域内的最小点数minPoints,如果大于或等于区域内的最小点数minPoints,则所述数据点被标记为核心点,否则进入步骤4-2-2;
其中,r1的取值十分关键,设置得非常小,则意味着没有点是核心样本,可能会导致所有点被标记为噪声,r1设置得非常大,可能会导致所有点形成单个簇,因为步骤2中已经将数据标准化为0-1之间的数,所以r1的设置一般小于0.5,在本发明中,r1=0.3;
最小点数minPoints的取值范围为3<minPoints<10,这么设置可以过滤离群点,同时将细胞群中发生异常的点保留下来,当minPoints设置过大时,会将发生异常的点判断为噪声点,当minPoints设置过小时,会将噪声点也检测为核心点。
步骤4-2-2,如果数据点存在于一个以核心点为中心以r为半径的圆内,则数据点被标记为边缘点,否则为噪声点,重复步骤4-2-1~步骤4-2-2,直到所有的数据点都被访问过。
步骤4-3,当数据分布不均匀时,采用均值偏移聚类对细胞分布进行自动聚类;
均值漂移聚类是基于滑动窗口的算法,来找到数据点的密集区域。这是一个基于质心的算法,通过将中心点的候选点更新为滑动窗口内点的均值来完成,来定位每个组/类的中心点。然后对这些候选窗口进行相似窗口进行去除,最终形成中心点集及相应的分组。具体步骤包括:
步骤4-3-1,确定滑动窗口半径r2,随机选取步骤3中降维后的数据集中的一个数据点作为圆形的中心,以半径为r2的圆形滑动窗口开始滑动;
其中,r2的取值十分关键,设置得非常小,则意味着没有点是核心样本,可能会导致所有点被标记为噪声,r2设置得非常大,可能会导致所有点形成单个簇,因为步骤2中已经将数据标准化为0-1之间的数,所以r2的设置一般小于0.5,在本发明中,r2=0.3。
步骤4-3-2,每一次滑动到新的区域,计算滑动窗口内的均值来作为中心点,滑动窗口内的点的数量为窗口内的密度;在每一次移动中,窗口会向密度更高的区域移动;
步骤4-3-3,移动窗口,同时计算窗口内的中心点以及窗口内的密度,一直移动到圆内密度不再增加为止;
步骤4-3-4,步骤4-3-1~步骤4-3-3会产生两个以上的滑动窗口,当两个以上的滑动窗口重叠时,保留包含最多点的窗口,然后根据数据点所在的滑动窗口进行聚类,聚类后,对于不同类别的细胞标记不同的颜色,得到聚类彩色图像,聚类后共有N类细胞。
步骤5、进行流式细胞计数。
步骤5-1,将聚类彩色图像化为细胞二值化图像:针对聚类后第j类细胞,在聚类彩色图像中将该类细胞二值化为白色,其余点二值化为黑色,得到第j类细胞二值化图像,计算公式为:
Figure BDA0003769757730000141
其中,j为变量,j=1,2,...,N,Bj[m,n]=255表示第j类细胞二值化图像中横坐标为m、纵坐标为n的像素点处的像素值为255,m为变量,表示细胞二值化图像中第m列,n为变量,表示细胞二值化图像中的第n行,m=1,2,...,W,n=1,2,...,H,W为细胞二值化图像的宽度,H为细胞二值化图像的高度。
步骤5-2,将细胞二值化图像进行距离变换;
Figure BDA0003769757730000142
其中,Bj[m,n]表示第j类细胞二值化图像中的非零像素点,Bj[p,q]表示第j类细胞二值化图像中的零像素点,p为变量,表示细胞二值化图像中的第p列,q为变量,表示细胞二值化图像中的第q行,也即细胞二值化图像中在横坐标p,纵坐标q像素点处该值为0。
D(Bj[m,n]=255,Bj[p,q]=0)]表示第j类细胞二值化图像中非零像素点Bj[m,n]和零像素点Bj[p,q]之间的距离,Pj[m,n]为经过距离变换后的二值图像中横坐标为m、纵坐标为n的像素点处的像素值;min(·)表示取最小值函数,D(P,Q)表示点P和Q之间的欧式距离,则
Figure BDA0003769757730000143
th2为第j类细胞二值化图像中细胞二值化图像非零像素点和零像素点之间的距离阈值,th2的一般取值10,在本发明中th2=3。
步骤5-3,使用OpenCV中轮廓提取算法findContours()提取图像的所有轮廓,得到轮廓数量;
步骤5-4,使用OpenCV中contourArea算法计算得到所有轮廓的面积;
步骤5-5,当存在轮廓面积大于th1时,进入步骤5-6,否则,直接返回轮廓数量作为该类细胞的计数结果;
th1为判定细胞与细胞之间的粘连严重的面积阈值,th1<50。在本发明中,th1的具体取值根据具体细胞的类型确定。
步骤5-6:基于密度图像的细胞计数;
步骤5-6-1:将第j类细胞二值化图像Pj[m,n]通过高斯滤波模板图像G[u,v]进行卷积得到第j类细胞的细胞密度图像Dj[m,n]:
高斯滤波是通过对输入数组的每个点与输入的高斯滤波模板执行卷积计算然后将这些结果一块组成了滤波后的输出数组,通俗的讲就是高斯滤波是对整幅图像进行加权平均的过程,每一个像素点的值都由其本身和邻域内的其他像素值经过加权平均后得到。将第j类细胞二值化图像Bj[m,n],通过与高斯滤波模板图像进行卷积运算得到第j类细胞密度图像,计算公式为:
Figure BDA0003769757730000151
Figure BDA0003769757730000152
其中,u表示高斯滤波模板图像中横坐标u,v表示高斯模板图像中纵坐标v,σ为高斯图像的标准差,在本发明中σ=1.5,e表示指数函数的底数,e=2.71828183,为自然常数。
以3×3的高斯模板,σ=1.5为例,对应的高斯滤波模板图像如表1所示:
表1
0.0453542 0.0566406 0.0453542
0.0566406 0.0707355 0.0566406
0.043542 0.0566406 0.0453542
为了使得表1的9个值的权重之和为1,必须将其归一化,得到表2:
表2
0.0947416 0.118318 0.0947416
0.118318 0.147761 0.118318
0.0947416 0.118318 0.0947416
高斯滤波的具体操作是:用一个模板(或称卷积、掩模)扫描图像中的每一个像素,用模板确定的邻域内像素的加权平均灰度值去替代模板中心像素点的值。
以3×3的高斯模板为例(为防止越界,不处理最左1列,最右1列,最上1行,最下1行的图像元素)说明高斯滤波的基本步骤如下:
1)从上到下,从左到右,扫描图像;
2)将高斯滤波模板图像移到图像中的非零点,用该高斯滤波模板的系数与其所覆盖的区域进行卷积运算,用该加权平均值去替代该点处的值。依次类推,直到遍历完图像中所有的点。
步骤5-6-2:将第j类细胞密度图像Dj[m,n]中所有像素点处的值累加起来便得到了第j类细胞的数量。依次类推,可以得到第1类,第2类,...,第N类细胞的数量。
实施例2:
在本实施例中,如图3所示,以3×3的二维高斯滤波模板图像为例进行说明,图4所示为二值图像经过高斯滤波模板图像卷积运算后的密度图像的示意图。
将密度图像所有位置上的概率求和得到每一类细胞的数量:具体是将密度图像中所有位置处像素点的值累加起来便得到了每一类细胞的数量。
如图4所示,图4中最左边的是二值图像,中间的是3×3的二维高斯滤波模板图像,最右边的是密度图像。最终细胞数量为:
Figure BDA0003769757730000161
Figure BDA0003769757730000162
本发明采用Opencv开源的FindContours轮廓提取函数,从二值图像中寻找轮廓,它是通过系统的扫描图像直到遇到连通区域的一个点,以它为起始点,跟踪它的轮廓,标记边界上的元素,当轮廓完整闭合,扫描回到上一个位置,直到再次发现新的成分。
具体实现中,本申请提供计算机存储介质以及对应的数据处理单元,其中,该计算机存储介质能够存储计算机程序,所述计算机程序通过数据处理单元执行时可运行本发明提供的一种基于密度估计的流式细胞分类和计数的方法的发明内容以及各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(read-only memory,ROM)或随机存储记忆体(random access memory,RAM)等。
本领域的技术人员可以清楚地了解到本发明实施例中的技术方案可借助计算机程序以及其对应的通用硬件平台的方式来实现。基于这样的理解,本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机程序即软件产品的形式体现出来,该计算机程序软件产品可以存储在存储介质中,包括若干指令用以使得一台包含数据处理单元的设备(可以是个人计算机,服务器,单片机。MUU或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本发明提供了一种基于密度估计的流式细胞分类和计数的方法和系统,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims (10)

1.一种基于密度估计的流式细胞分类和计数的方法,其特征在于,包括以下步骤:
步骤1、读取原始流式数据文件,得到数据集;
步骤2、对数据集进行标准化;
步骤3、采用UMAP算法对数据集进行自动降维;
步骤4、基于密度法分析细胞分布,对于分布均匀的细胞群体采用DBSCAN算法进行自动聚类;
步骤5、进行流式细胞计数。
2.根据权利要求1所述的方法,其特征在于,步骤2包括:对数据集进行min-max标准化,通过下列公式对数据集中的原始流式数据进行变换:
Figure FDA0003769757720000011
其中,i为变量,X[i]表示原始流式数据中第i个数据,X′[i]为X[i]标准化后的数据,i=1,2,...,N,N表示原始流式数据中的数据个数,min{X[i]}表示N个数据中的最小值,max{X[i]}表示N个数据中的最大值。
3.根据权利要求2所述的方法,其特征在于,步骤4包括:
步骤4-1,运用SPSS卡方检验数据集中的数据是否服从均匀分布;
步骤4-2,当数据分布均匀时,采用DBSCAN算法对细胞分布进行自动聚类;
步骤4-3,当数据分布不均匀时,采用均值偏移聚类对细胞分布进行自动聚类。
4.根据权利要求3所述的方法,其特征在于,步骤4-2包括:
步骤4-2-1,确定半径r1和最小点数minPoints:针对步骤3中降维后的数据集中的数据点,从一个没有被访问过的任意数据点开始,判断以所述数据点为中心,r1为半径的圆内包含的点的数量是否大于或等于区域内的最小点数minPoints,如果大于或等于区域内的最小点数minPoints,则所述数据点被标记为核心点,否则进入步骤4-2-2;
步骤4-2-2,如果数据点存在于一个以核心点为中心以r为半径的圆内,则数据点被标记为边缘点,否则为噪声点,重复步骤4-2-1~步骤4-2-2,直到所有的数据点都被访问过。
5.根据权利要求4所述的方法,其特征在于,步骤4-3包括:
步骤4-3-1,确定滑动窗口半径r2,随机选取步骤3中降维后的数据集中的一个数据点作为圆形的中心,以半径为r2的圆形滑动窗口开始滑动;
步骤4-3-2,每一次滑动到新的区域,计算滑动窗口内的均值来作为中心点,滑动窗口内的点的数量为窗口内的密度;在每一次移动中,窗口会向密度更高的区域移动;
步骤4-3-3,移动窗口,同时计算窗口内的中心点以及窗口内的密度,一直移动到圆内密度不再增加为止;
步骤4-3-4,步骤4-3-1~步骤4-3-3会产生两个以上的滑动窗口,当两个以上的滑动窗口重叠时,保留包含最多点的窗口,然后根据数据点所在的滑动窗口进行聚类,聚类后,对于不同类别的细胞标记不同的颜色,得到聚类彩色图像,聚类后共有N类细胞。
6.根据权利要求5所述的方法,其特征在于,步骤5包括:
步骤5-1,将聚类彩色图像化为细胞二值化图像:针对每一类细胞进行计数,首先针对聚类后第1类细胞,在聚类彩色图像中将第一类细胞二值化为白色,除了第一类细胞以外的其余点二值化为黑色,得到细胞二值化图像;
步骤5-2,将细胞二值化图像进行距离变换,得到距离变换后的细胞二值图像;
步骤5-3,使用OpenCV中轮廓提取算法findContours()提取距离变换后的细胞二值图像的所有轮廓,得到轮廓数量;
步骤5-4,使用OpenCV中contourArea算法计算得到所有轮廓的面积;
步骤5-5,当存在轮廓面积大于阈值th1时,进入步骤5-6,否则,直接返回轮廓数量作为每一类细胞的计数结果;
步骤5-6,基于密度图像进行细胞计数;
步骤5-7,对于聚类后其他类的细胞,重复步骤5-1到5-6,直到所有类别的细胞都计数完成。
7.根据权利要求6所述的方法,其特征在于,步骤5-1中采用如下公式得到细胞二值化图像:
Figure FDA0003769757720000021
其中,j=1,2,...,N,Bj[m,n]=255表示第j类细胞二值化图像中横坐标为m、纵坐标为n的像素点处的像素值为255,m=1,2,...,W,n=1,2,...,H,W为细胞二值化图像的宽度,H为细胞二值化图像的高度。
8.根据权利要求7所述的方法,其特征在于,步骤5-2包括:所述距离变换是计算一个图像中非零像素点到最近的零像素点的距离,公式如下:
Figure FDA0003769757720000031
其中,Bj[m,n]表示第j类细胞二值化图像中的非零像素点,Bj[p,q]表示第j类细胞二值化图像中的零像素点,Bj[p,q]=0表示第j类细胞二值化图像中在横坐标p,纵坐标q处像素值为0;
D(Bj[m,n]=255,Bj[p,q]=0)]表示第j类细胞二值化图像中非零像素点Bj[m,n]和零像素点Bj[p,q]之间的距离,Pj[m,n]为经过距离变换后的二值图像中横坐标为m、纵坐标为n的像素点处的像素值;min(·)表示取最小值函数,D(P,Q)表示点P和Q之间的欧式距离,则
Figure FDA0003769757720000032
th2为第j类细胞二值化图像中细胞二值化图像非零像素点和零像素点之间的距离阈值。
9.根据权利要求8所述的方法,其特征在于,步骤5-6包括:
步骤5-6-1:将第j类细胞二值化图像Pj[m,n]通过高斯滤波模板图像G[u,v]进行卷积得到第j类细胞的细胞密度图像Dj[m,n]:
Figure FDA0003769757720000033
Figure FDA0003769757720000034
其中,u表示高斯滤波模板图像中横坐标,v表示高斯模板图像中纵坐标v,σ为高斯图像的标准差,e表示自然常数,
Figure FDA0003769757720000035
为卷积运算;
步骤5-6-2:将第j类细胞密度图像Dj[m,n]中所有像素点处的值累加起来便得到了第j类细胞的数量。
10.一种基于密度估计的流式细胞分类和计数的系统,其特征在于,包括数据采集单元,预处理单元,降维单元,判断单元,聚类单元,计数单元;
所述数据采集单元用于采集流式数据:当细胞进入流式细胞仪,经过多色荧光后,通过光学系统收集和光电传感器转化为电信号,电信号经过A/D(模数转换器)转换后成为数字信号,所述数字信号称为特征数据,由数据采集单元存储流式细胞仪获取的所有细胞或微粒的特征数据,称为原始流式数据文件,将原始流式数据文件存储到数据集中;
所述预处理单元用于对数据集进行标准化处理,然后将处理后的数据集送入降维单元;
所述降维单元采用UMAP算法对数据集进行自动降维;
所述判断单元运用SPSS卡方检验数据集中的数据是否服从均匀分布,当数据分布均匀时,聚类单元采用DBSCAN算法对细胞分布进行自动聚类;否则聚类单元采用均值偏移聚类对细胞分布进行自动聚类;
所述计数单元用于对聚类后每一类细胞图像分别计数。
CN202210898026.7A 2022-07-28 2022-07-28 一种基于密度估计的流式细胞分类和计数的方法和系统 Pending CN115270874A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210898026.7A CN115270874A (zh) 2022-07-28 2022-07-28 一种基于密度估计的流式细胞分类和计数的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210898026.7A CN115270874A (zh) 2022-07-28 2022-07-28 一种基于密度估计的流式细胞分类和计数的方法和系统

Publications (1)

Publication Number Publication Date
CN115270874A true CN115270874A (zh) 2022-11-01

Family

ID=83770746

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210898026.7A Pending CN115270874A (zh) 2022-07-28 2022-07-28 一种基于密度估计的流式细胞分类和计数的方法和系统

Country Status (1)

Country Link
CN (1) CN115270874A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116664556A (zh) * 2023-07-27 2023-08-29 南京九川科学技术有限公司 一种贴壁细胞计数方法
CN116758072A (zh) * 2023-08-17 2023-09-15 苏州熠品质量技术服务有限公司 一种基于Faster-RCNN的细胞识别计数方法、装置及计算机存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116664556A (zh) * 2023-07-27 2023-08-29 南京九川科学技术有限公司 一种贴壁细胞计数方法
CN116664556B (zh) * 2023-07-27 2023-10-10 南京九川科学技术有限公司 一种贴壁细胞计数方法
CN116758072A (zh) * 2023-08-17 2023-09-15 苏州熠品质量技术服务有限公司 一种基于Faster-RCNN的细胞识别计数方法、装置及计算机存储介质
CN116758072B (zh) * 2023-08-17 2023-12-22 苏州熠品质量技术服务有限公司 一种基于Faster-RCNN的细胞识别计数方法、装置及计算机存储介质

Similar Documents

Publication Publication Date Title
US10671833B2 (en) Analyzing digital holographic microscopy data for hematology applications
US11900598B2 (en) System and method of classification of biological particles
Ghosh et al. Blood smear analyzer for white blood cell counting: a hybrid microscopic image analyzing technique
Bjornsson et al. Associative image analysis: a method for automated quantification of 3D multi-parameter images of brain tissue
Mathur et al. Scalable system for classification of white blood cells from Leishman stained blood stain images
CN115270874A (zh) 一种基于密度估计的流式细胞分类和计数的方法和系统
CN106248559A (zh) 一种基于深度学习的白细胞五分类方法
Pan et al. Mitosis detection techniques in H&E stained breast cancer pathological images: A comprehensive review
CN107389536B (zh) 基于密度-距离中心算法的流式细胞粒子分类计数方法
Parab et al. Red blood cell classification using image processing and CNN
Umamaheswari et al. Review on image segmentation techniques incorporated with machine learning in the scrutinization of leukemic microscopic stained blood smear images
Johnsson Structures in high-dimensional data: Intrinsic dimension and cluster analysis
Tusar et al. Automated detection of acute lymphoblastic leukemia subtypes from microscopic blood smear images using Deep Neural Networks
Priyankara et al. An extensible computer vision application for blood cell recognition and analysis
Kareem An evaluation algorithms for classifying leukocytes images
Elen et al. A new approach for fully automated segmentation of peripheral blood smears
Li et al. A recognition method of urine cast based on deep learning
Zhai et al. Automatic white blood cell classification based on whole-slide images with a deeply aggregated neural network
Ul Islam et al. Towards the automatic segmentation of HEp-2 cells in indirect immunofluorescence images using an efficient filtering based approach
Li et al. Automatic detecting and recognition of casts in urine sediment images
Prasad et al. Deep U_ClusterNet: automatic deep clustering based segmentation and robust cell size determination in white blood cell
Yousif et al. Computer-aided classification of images containing white blood cells
Li et al. Automatic detection of three cell types in a microscope image based on deep learning
Kavthekar Computational Quantification of Renal Tubular Morphology in Digitized Biopsies and Application in Diabetic Nephropathy
Li et al. LFD-CD: Peripheral Blood Cells Detection Using a Lightweight Cell Detection Model with Full-Connection and Dropconnect

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination