具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
以下,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中,除非另有说明,“多个”的含义是两个或两个以上。“A和/或B”,包括以下三种组合:仅A,仅B,及A和B的组合。
流式细胞技术(flow cytometry,FCM)是以高能量激光照射高速流动状态下经荧光标记的单细胞(生物微粒),通过检测单细胞(生物微粒)产生的散射光信号和荧光信号的信号强度,对细胞进行定性分类和定量统计,以实现对目的细胞的分析或分选的技术。基于流式细胞仪获取的所有细胞的特征数据称为流式细胞数据。根据流式细胞数据可以绘制散点图,并基于散点图进行圈门,可以实现对选定感兴趣的细胞群进行分析。
传统地,通常采用人工设定圈门的方式选定感兴趣的细胞类群。但是,对于人工设定圈门的方式,需要依赖技术人员的经验,圈门结果会受到技术人员的经验的影响,不同的技术人员所得到圈门结果可能存在很大的差异,难以保证圈门结果的稳定性。此外,人工设定圈门的方式需要依赖专业的技术人员,操作难度大,效率低。
随着流式细胞技术的不断发展,流式细胞数据的数据量的成倍增加,提出了多种自动圈门方法,例如,K-means算法、DBSCAN算法。
对于K-means算法,需要提前指定所要划分的细胞群个数k,随机选取k个细胞作为中心点,再定义一个损失函数如细胞到细胞中心点的距离,将该细胞分配到距离最小的细胞中心所在的群,然后更新细胞群所在的中心点(例如,根据群内左右细胞的坐标值的平均值更新中心点),直至每个细胞都分配到了k个细胞群中。也就是说,不同的细胞群个数k会得到不同的分类结果,最终的分类结果会受到设定的细胞群个数k的影响。对此,在实际应用中,如果设定的细胞群个数k不合理,其所得到的分类结果可能不具有生物学意义。例如,如图1所示,初始的细胞群个数k为2,将所有细胞分为上下两个细胞群,即,细胞群a和细胞群b,显然这样的分类结果不具有生物学意义。
对于DBSCAN算法,其是根据样本点某一邻域内的样本数定义样本的密度,以实现空间聚类。但是,由于流式细胞数据具有不稳定性,存在密度变化剧烈的情况,基于DBSCAN算法进行分类,难以保证分类结果的准确性。
综上所述,现有的人工设定圈门的方式和自动圈门方式(如,K-means算法、DBSCAN算法等)均难以保证圈门结果的稳定性。
针对上述问题,本申请实施例提供一种细胞群的识别方法,获取N个待测细胞的流式细胞数据,其中,流式细胞数据包括与N个待测细胞对应的N个数据组,且各数据组均包括与M个通道对应的M个数据值,M大于等于2;根据N个待测细胞中各待测细胞的M个数据值,确定各待测细胞对应的联合概率密度;根据各待测细胞对应的联合概率密度,确定回归分割线,其中,回归分割线用于划分N个待测细胞中的杂质细胞群和主细胞群;根据回归分割线和N个待测细胞中各待测细胞的M个数据值,确定多个边界点;基于多个边界点对N个待测细胞进行圈门,得到目标细胞群。这样以来,在不依赖专业技术人员的情况下,可以模拟专业技术人员的圈门过程,实现目标细胞群的自动识别,能够提高处理效率。再者,在应用过程中,用户仅需要导入N个待测细胞的流式细胞数据,即可得到圈门结果,不会受到人为因素的干扰,能够保证圈门结果的稳定性和可重复性,进而能够满足研究人员对检测结果的一致性的要求。
请参见图2,其示出了本申请实施例提供的一种细胞群的识别方法的流程示意图。该细胞群的识别方法可以由电子设备实施。如图2所示,该细胞群的识别方法可以包括步骤210~步骤250。
步骤210,获取N个待测细胞的流式细胞数据,其中,流式细胞数据包括与N个待测细胞对应的N个数据组,且各数据组均包括与M个通道对应的M个数据值,M大于等于2。
在本实施例中,可以通过流式细胞仪采集N个待测细胞的流式细胞数据。通常,流式细胞仪具有多个通道,通过多个通道可以获取多个维度的数据。
示例性地,将N个待测细胞作为样本,将样本(即,N个待测细胞)经特异性荧光染料染色后置于样品管中,在气体压力作用下样品管中的样本(即,N个待测细胞)进入充满鞘液的流动室,在鞘液的约束下,样本(即,N个待测细胞)排成一列由流动室的喷嘴喷出,形成细胞柱。之后,采用经聚焦整形后的激光光束垂直照射细胞柱,使得经特异性荧光染料染色后的样本(即,N个待测细胞)中的单个待测细胞在激光光束的照射下,产生多角度散射光和多色激发荧光,即流式光信号。再之后,通过光学系统收集流式光信号,并经光电传感器将流式光信号转换为电信号,再将电信号转换为数字信号。最后,对数字信号进行处理,得到多个流式光信号(即通道)的数据值,即得到样本(即,N个待测细胞)的流式细胞数据。
需要说明的是,由于流式细胞仪在每个时间点只能测量单个待测细胞的一个通道的数据值(即,一个参数),因此,在获取每个待测细胞的多个通道的数据值时,多个通道的数据值是以串行方式获取的,多个通道的数据值是相互独立的。也就是说,流式细胞仪产生的流式细胞数据中每个通道是相互独立。
其中,流式光信号的信号强度可以反映待测细胞的细胞特征,例如,细胞大小、细胞颗粒度、细胞膜表面抗原的强度、核内物质的浓度等。示例性地,流式光信号可以包括前向散射信号(Forward Scatter,FSC)、侧向散射信号(Side Scatter,SSC)、各种荧光信号(如FL1、FL2等)。前向散射信号(FSC)的信号强度可以反映细胞的大小,前向散射信号(FSC)的信号强度越大,细胞的体积越大。侧向散射信号(SSC)的信号强度可以反映细胞的颗粒度,侧向散射信号(SSC)的信号强度越大,细胞的颗粒度越大。
在一些示例中,研究人员可以根据实际需求,选定所要获取的数据对应的通道,进而获取相应的流式细胞数据。示例性地,通过流式细胞仪,采集N个待测细胞中每个待测细胞的前向散射信号(FSC)通道的数据值和侧向散射信号(SSC)通道的数据值。示例性地,通过流式细胞仪,采集N个待测细胞中每个待测细胞的前向散射信号(FSC)通道的数据值、侧向散射信号(SSC)通道的数据值和FL1荧光通道的数据值,即得到N个待测细胞的流式细胞数据。
可以理解的是,前向散射信号(FSC)通道具体可以是FSC-A通道,也可以是FSC-H通道,还可以是FSC-W通道。侧向散射信号(SSC)通道具体可以是SSC-A通道,也可以是SSC-H通道,还可以是SSC-W通道。本申请实施例对前向散射信号(FSC)通道和侧向散射信号(SSC)通道的具体类型不作具体限定。
步骤220,根据N个待测细胞中各待测细胞的M个数据值,确定各待测细胞对应的联合概率密度。
其中,联合概率密度可以是待测细胞的多个通道的数据值的联合概率密度。联合概率密度可以反映待测细胞落在某点(不同点对应的多个通道的数据值不同)处的密集程度。也就是说,各待测细胞的联合概率密度可以反映待测细胞的各通道的数据值。相比于基于单个通道的数据值对N个待测细胞进行细胞分群,本申请实施例基于联合概率密度对N个待测细胞进行细胞分群,可以避免单个通道的数据值存在的数据偏差对细胞分群结果造成影响,提高细胞分群的准确性和稳定性。
请参见图3,其是本申请实施例提供的一种概率密度曲线的对比示意图。如图3所示,曲线1和曲线2为单个通道的数据值对应的概率密度曲线,曲线3为根据本申请实施例提供的方法得到的联合概率密度曲线。由曲线1和曲线2可以看出,在根据N个待测细胞的任意一个通道的数据值计算概率密度时,所得到的概率密度曲线往往会出现一个很高的波峰,该波峰与概率密度曲线的其他波峰的差距很大,也就是说,根据N个待测细胞的任意一个通道的数据值得到的概率密度曲线存在偏峰。因此,采用单个通道的数据值对N个待测细胞进行细胞分群,分群结果会出现偏差,进而导致分群结果的不确定性。然而,由曲线3可以看出,采用多个通道的数据值进行联合概率密度估计,避免了单个通道的数据值存在的偶然性和极端性,平衡了概率密度曲线的峰值,能够可以避免单个通道的数据值存在的数据偏差对细胞分群结果造成影响,提高细胞分群的准确性和稳定性。
在一些实施例中,联合概率密度可以基于核概率分布函数、高斯分布函数、指数分布函数进行确定。
下面对N个待测细胞中任一待测细胞对应的联合概率密度的确定步骤进行描述。
在一些实施例中,如图4所示,确定N个待测细胞中任一待测细胞对应的联合概率密度的具体实现过程可以包括:步骤410~步骤420。
步骤410,根据N个待测细胞中任一待测细胞的M个数据值,确定M个通道中各通道对应的边缘概率密度。
步骤420,根据M个通道中各通道对应的边缘概率密度,确定N个待测细胞中任一待测细胞对应的联合概率密度。
示例性地,选取N个待测细胞中一个待测细胞(即,第一待测细胞)。根据该第一待测细胞的对应于M个通道中一个通道(即,通道1)的数据值、和N个待测细胞中除第一待测细胞以外的其他待测细胞的对应于通道1的数据值,可以确定该第一待测细胞(也可以称为第一待测细胞在散点图中的细胞点)的通道1的边缘概率密度。根据该第一待测细胞的对应于M个通道中下一个通道(即,通道2)的数据值、和N个待测细胞中除第一待测细胞以外的其他待测细胞的对应于通道2的数据值,可以确定该第一待测细胞(也可以称为第一待测细胞在散点图中的细胞点)的通道2的边缘概率密度。重复前述过程,可以得到第一待测细胞的对应于M个通道的M个边缘概率密度,进而,根据第一待测细胞的M个边缘概率密度,可以得到第一待测细胞对应的联合概率密度。
之后,可以选取N个待测细胞中下一个待测细胞(即,第二待测细胞)。根据该第二待测细胞的对应于M个通道中一个通道(即,通道1)的数据值、和N个待测细胞中除第二待测细胞以外的其他待测细胞的对应于通道1的数据值,可以确定该第二待测细胞(也可以称为第二待测细胞在散点图中的细胞点)的通道1的边缘概率密度。根据该第二待测细胞的对应于M个通道中下一个通道(即,通道2)的数据值、和N个待测细胞中除第二待测细胞以外的其他待测细胞的对应于通道2的数据值,可以确定该第二待测细胞(也可以称为第二待测细胞在散点图中的细胞点)的通道2的边缘概率密度。重复前述过程,可以得到第二待测细胞的对应于M个通道的M个边缘概率密度,进而,根据第二待测细胞的M个边缘概率密度,可以得到第二待测细胞对应的联合概率密度。重复前述过程,最后可以得到N个待测细胞中各待测细胞对应的联合概率密度。
以流式细胞数据包括各待测细胞的对应于FSC-A通道的数据值和对应于SSC-A通道的数据值为例。
选取N个待测细胞中一个待测细胞(即,第一待测细胞)。根据该第一待测细胞的对应于FSC-A通道的数据值、和N个待测细胞中除第一待测细胞以外的其他待测细胞的对应于FSC-A通道的数据值,可以确定该第一待测细胞(也可以称为第一待测细胞在散点图中的细胞点)的FSC-A通道的边缘概率密度。根据该第一待测细胞的对应于SSC-A通道的数据值、和N个待测细胞中除第一待测细胞以外的其他待测细胞的对应于SSC-A通道的数据值,可以确定该第一待测细胞(也可以称为第一待测细胞在散点图中的细胞点)的SSC-A通道的边缘概率密度。进而,根据第一待测细胞的FSC-A通道的边缘概率密度和SSC-A通道的边缘概率密度,可以得到第一待测细胞对应的联合概率密度。
之后,选取N个待测细胞中下一个待测细胞(即,第二待测细胞)。根据该第二待测细胞的对应于FSC-A通道的数据值、和N个待测细胞中除第二待测细胞以外的其他待测细胞的对应于FSC-A通道的数据值,可以确定该第二待测细胞(也可以称为第二待测细胞在散点图中的细胞点)的FSC-A通道的边缘概率密度。根据该第二待测细胞的对应于SSC-A通道的数据值、和N个待测细胞中除第二待测细胞以外的其他待测细胞的对应于SSC-A通道的数据值,可以确定该第二待测细胞(也可以称为第二待测细胞在散点图中的细胞点)的SSC-A通道的边缘概率密度。进而,根据第二待测细胞的FSC-A通道的边缘概率密度和SSC-A通道的边缘概率密度,可以得到第二待测细胞对应的联合概率密度。重复前述过程,最后可以得到N个待测细胞中各待测细胞对应的联合概率密度。
在一些实施例中,N个待测细胞中任一待测细胞对应的联合概率密度通过如下公式确定:
;
其中,为任一待测细胞对应的联合概率密度,/>为M个通道中第j个通道对应的核函数,/>为任一待测细胞的对应于第j个通道的数据值,/>为N个待测细胞中第i个待测细胞的对应于第j个通道的数据值,/>为M个通道中第j个通道的通道宽度,N为样本细胞的数量,M为通道数量。
即,
基于上述公式,选取N个待测细胞中任一待测细胞(即,目标待测细胞)。根据该目标待测细胞的对应于M个通道中第j个通道的数据值、N个待测细胞中第i个待测细胞的对应于第j个通道的数据值、和第j个通道的通道宽度,可以确定第i个待测细胞在散点图中目标待测细胞对应的细胞点的第j个通道的核密度分布,进而可以得到目标待测细胞(目标待测细胞在散点图中的细胞点)的联合概率密度分布。
示例性地,以流式细胞数据包括各待测细胞的对应于FSC-A通道的数据值和对应于SSC-A通道的数据值为例。N个待测细胞中任一待测细胞对应的联合概率密度通过如下公式确定:
;
其中,为任一待测细胞对应的细胞点(即图5中的坐标点)对应的前向散射信号(FSC-A)通道的数据值和侧向散射信号(SSC-A)通道的数据值的联合概率密度;/>为FSC-A通道对应的核函数;/>为SSC-A通道对应的核函数;/>为任一待测细胞的对应于FSC-A通道的数据值;/>为N个待测细胞中第i个待测细胞的对应于FSC-A通道的数据值;为FSC-A通道的通道宽度;/>为任一待测细胞的对应于SSC-A通道的数据值;/>为N个待测细胞中第i个待测细胞的对应于SSC-A通道的数据值;/>为SSC-A通道的通道宽度;N为待测细胞的数量。
具体计算过程为:选取N个待测细胞中任一待测细胞(即,目标待测细胞)。根据该目标待测细胞的对应于FSC-A通道的数据值、N个待测细胞中第i个待测细胞的FSC-A通道的数据值、和FSC-A通道的通道宽度,可以确定第i个待测细胞在散点图中目标待测细胞对应的细胞点的FSC-A通道的核密度分布。根据该目标待测细胞的对应于SSC-A通道的数据值、N个待测细胞中第i个待测细胞的SSC-A通道的数据值、和SSC-A通道的通道宽度,可以确定第i个待测细胞在散点图中目标待测细胞对应的细胞点的SSC-A通道的核密度分布。根据N个待测细胞中各待测细胞在散点图中目标待测细胞对应的细胞点的FSC-A通道的核密度分布和SSC-A通道的核密度分布的连乘积的和值,可以得到N个待测细胞中任一待测细胞(即,目标待测细胞)对应的联合概率密度。
在本实施例中,根据N个待测细胞中各待测细胞的M个数据值,确定各待测细胞对应的联合概率密度,能够避免基于单个通道的数据值确定分割线而存在的偏差,进而基于联合概率密度确定回归分割线和边界点,并基于边界点进行圈门,从N个待测细胞中识别出目标细胞群,能够提高细胞圈门的准确性,以及能够保证圈门结果的稳定性和可重复性。
在一些实施例中,在确定N个待测细胞中各待测细胞对应的联合概率密度之后,可以绘制散点图像,以便于后续确定并显示回归分割线和圈门结果。
示例性地,以流式细胞数据包括前向散射信号(FSC-A)通道的数据值和侧向散射信号(SSC-A)通道的数据值为例,根据N个待测细胞中各待测细胞的前向散射信号(FSC-A)通道的数据值和侧向散射信号(SSC-A)通道的数据值绘制散点图。如图5所示,该散点图的横坐标表示前向散射信号(FSC-A)通道的数据值,该散点图的纵坐标表示侧向散射信号(SSC-A)通道的数据值,散点图中包括多个细胞点,一个细胞点对应一个待测细胞。一个细胞点对应的横坐标的坐标值可以反映该待测细胞的前向散射信号(FSC-A)通道的数据值,细胞点对应的横坐标的坐标值越大,前向散射信号越强,说明该待测细胞的体积越大。一个细胞点对应的纵坐标的坐标值可以反映该待测细胞的侧向散射信号(SSC-A)通道的数据值,细胞点对应的纵坐标的坐标值越大,侧向散射信号越强,说明该待测细胞的颗粒度越强。以及,一个细胞点的亮度可以反映该待测细胞的联合概率密度,细胞点对应的亮度越高,说明该待测细胞对应的细胞点的联合概率密度越高。
在步骤220之后,执行步骤230,根据各待测细胞对应的联合概率密度,确定回归分割线,其中,回归分割线用于划分N个待测细胞中的杂质细胞群和主细胞群。
在本实施例中,回归分割线用于划分研究人员所感兴趣的细胞群和其他细胞群。示例性地,回归分割线用于划分N个待测细胞中的杂质细胞群和主细胞群,其中,主细胞群包括所要识别的目标细胞群。
在一些实施例中,如图6所示,根据各待测细胞对应的联合概率密度,确定回归分割线的步骤,可以进一步包括:步骤610~步骤640。
步骤610,确定参数集合,参数集合包括多个参数组,多个参数组中各参数组均包括斜率和截距。
在一些示例中,可以基于网格化搜索算法,确定多个斜率和多个截距,即得到参数集合。
在一些示例中,基于搜索范围和较大的调整步长(如,1)设定多个斜率和多个截距,将多个斜率与多个截距进行排列组合,可以得到多个参数组,且每个参数组的斜率和截距不同。将多个参数组表示成一个表格,针对每一个网格(即每个参数组),按照较小的调整步长(如,0.1)调整斜率和截距,以搜索出每个网格对应的最优解(即满足条件的斜率和截距)。
示例性地,搜索范围可以是预先设置的,也就是说,由本领域技术人员根据待测细胞的特性进行设置的。
示例性地,由于待测细胞的类型不同,待测细胞的各通道的数据值也会存在差异。因此,在确定参数集合时,确定待测细胞的细胞类型,并根据细胞类型,确定搜索范围,进而根据搜索范围,确定参数集合,这样,能够提高回归分割线生成的准确性。
例如,以斜率的搜索范围为1~10,斜率的调整步长为0.1,截距的搜索范围为1~10,截距的调整步长为0.1为例,斜率w的取值可以为[1,1.1,…,9.9,10],即斜率w的取值有91种情况;截距b的取值可以为[1,1.1,…,9.9,10],即截距b的取值有91种情况,则由斜率和截距构成的参数组可以表示成一个91×91的表格,参见下表1。
表1
需要说明的是,上述表格的具体数值仅为示例性说明,本领域技术人员可以根据实际需求设置斜率的搜索范围、斜率的调整步长、截距的搜索范围和斜率的调整步长,本申请对斜率的搜索范围、斜率的调整步长、截距的搜索范围和斜率的调整步长的取值范围不作具体限定。
步骤620,采用参数集合拟合直线,得到多个参数组对应的多组第一参考分割线。
示例性地,针对参数集合中的任一参数组,按照较小的调整步长(如,0.1)调整斜率和截距,得到多个斜率和截距,并以多个斜率和截距拟合直线,得到多个第一参考分割线,即一组第一参考分割线。
也就是说,根据参数集合中的多个参数组拟合直线,得到与多个参数组对应的多组第一参考分割线。任一第一参考分割线可以表示为Ax+By+C=0,其中,斜率为,截距为/>。
例如,以参数组为前述表1中参数组(1.1,1.1),调整步长为0.02为例,得到的多个斜率和截距如下表2。
表2
针对上述表2中一组斜率和截距进行线性拟合,可以得到多个第一参考分割线,即一组第一参考分割线,也就是说,根据上述表1中的所有参数组进行拟合直线,可以得到多组第一参考分割线。
需要说明的是,上述表格的具体数值仅为示例性说明,本领域技术人员可以根据实际需求设置斜率的搜索范围、斜率的调整步长、截距的搜索范围和斜率的调整步长,本申请对斜率的搜索范围、斜率的调整步长、截距的搜索范围和斜率的调整步长的取值范围不作具体限定。
步骤630,根据N个待测细胞中各待测细胞与每组第一参考分割线中各第一参考分割线之间的距离,确定多个第二参考分割线。
在本实施例中,在确定多组第一参考分割线之后,可以根据多组第一参考分割线确定出多个第二参考分割线,其中,一组第一参考分割线对应一个第一参考分割线。第一参考分割线可以将N个待测细胞划分为两个细胞群,两个细胞群分别位于第一参考分割线的两侧。
基于此,针对一组第一参考分割线中的每一个第一参考分割线,可以计算N个待测细胞中各待测细胞与该第一参考分割线之间的距离,并计算各待测细胞与该第一参考分割线之间的距离的和值(即为参考距离值),将满足预设条件的参考距离值对应的第一参考分割线确定为第二参考分割线。
其中,预设条件用于衡量N个待测细胞是否距离第一参考分割线最远,即,位于第一参考分割线的两个细胞群之间的距离是否最大。
可以理解的是,待测细胞与该第一参考分割线之间的距离可以是,在散点图中,待测细胞对应的细胞点与第一参考分割线之间的距离。
在一些示例中,由于第一参考分割线对应的参考距离值越大,说明N个待测细胞距离该第一参考分割线最远,即,位于该第一参考分割线的两个细胞群之间距离最大。基于此,将参考距离值为最大值的第一参考分割线确定为第二参考分割线。
示例性地,以任一第一参考分割线(Ax+By+C=0)为例,第一参考分割线的参考距离值可以通过以下公式进行计算:
;
其中,待测细胞对应的细胞点到第一参考分割线之间的距离可以通过以下公式进行计算:
;
其中,表示第一参考分割线的参考距离值,/>表示任一待测细胞对应的细胞点到第一参考分割线(Ax+By+C=0)之间的距离,/>表示在散点图中任一待测细胞对应的细胞点,N表示待测细胞的数量。
步骤640,根据N个待测细胞中位于多个第二参考分割线中各第二参考分割线的预设邻域内的待测细胞的联合概率密度,确定回归分割线,其中,N个待测细胞中位于回归分割线的预设邻域内的待测细胞的联合概率密度的和值为最小。
在本实施例中,位于多个第二参考分割线的预设邻域内的待测细胞的联合概率密度的和值,可以反映第二参考分割线的预设邻域内的细胞点的数量,即可以反映第二参考分割线的预设邻域内的细胞点对应的待测细胞的数量。位于多个第二参考分割线的预设邻域内的待测细胞的联合概率密度的和值越小,说明第二参考分割线的预设邻域内的细胞点对应的待测细胞的数量越少,进而说明由第二参考分割线划分的两个细胞群距离第二参考分割线越远。基于此,将位于第二参考分割线的预设邻域内的待测细胞的联合概率密度的和值为最小值的第二参考分割线,确定为回归分割线。
示例性地,N个待测细胞中位于回归分割线的邻域内的待测细胞对应于联合概率密度等高线中位于山谷位置的待测细胞。也就是说,由此得出的回归分割线可以将N个待测细胞准确划分为杂质细胞群和主细胞群。
其中,第二参考分割线的预设邻域可以是第二参考分割线的邻域。
在一些示例中,针对每个第二参考分割线,可以将第二参考分割线的邻域内的待测细胞的联合概率密度进行求和,得到第二参考分割线对应的联合概率度总和,将联合概率密度总和为最小值的第二参考分割线确定为回归分割线。
示例性地,第二参考分割线对应的联合概率度总和可以通过以下公式进行计算:
;
其中,表示第二参考分割线对应的联合概率度总和,/>表示第二参考分割线的/>邻域,/>表示待测细胞对应的细胞点的联合概率密度,/>表示在散点图中任一待测细胞对应的细胞点。
需要说明的是,待测细胞对应的细胞点的联合概率密度可以按照前述实施例提供的待测细胞的联合概率密度的确定步骤进行计算,这里不再赘述。
例如,继续以流式细胞数据包括前向散射信号(FSC-A)通道的数据值和侧向散射信号(SSC-A)通道的数据值为例,其回归分割线如图7所示,该回归分割线可以将N个待测细胞划分为杂质细胞群和主细胞群,其中,杂质细胞群位于回归分割线的左侧,主细胞群位于回归分割线的左侧。
在本实施例中,基于网格搜索算法,采用多个参数组进行直线拟合得到多组第一参考分割线,然后根据各待测细胞对应的细胞点与第一参考分割线之间的距离,确定与多组第一参考分割线对应的多个第二参考分割线,再之后,根据各第二参考分割的预设邻域内的待测细胞的联合概率密度的和值,从多个第二参考分割线中选出回归分割线。这样以来,所确定的回归分割线可以准确划分杂质细胞群和主细胞群,进而基于回归分割线,可以得到准确的圈门结果。
在一些实施例中,为了进一步提高回归分割线生成的准确性,以及提高处理效率,在确定回归分割线之前,可以从N个待测细胞中筛选出峰值细胞群,进而基于峰值细胞群确定回归分割线。
在一些示例中,如图8所示,根据各待测细胞对应的联合概率密度,确定回归分割线的步骤,可以进一步包括:步骤810~步骤850。
步骤810,根据各待测细胞对应的联合概率密度,确定N个待测细胞中的峰值细胞群。
峰值细胞群指的是从N个待测细胞中筛选出的、联合概率密度处于峰值点附近的待测细胞集合。峰值细胞群所包括的待测细胞的特征相似。
在一些示例中,步骤810可以进一步包括:根据各待测细胞对应的联合概率密度,确定N个待测细胞对应的联合概率密度曲线;根据联合概率密度曲线的峰值和筛选宽度,确定N个待测细胞中的峰值细胞群。
其中,联合概率密度曲线的峰值可以表示待测细胞对应的细胞点的密度的极值点。联合概率密度曲线的一个波峰可以表示待测细胞对应的细胞点的密集区域。通过识别联合概率密度曲线的峰值,可以从N个待测细胞的流式细胞数据中精确提取出感兴趣的数据集合,即峰值细胞群,便于后续的分析。
示例性地,峰值细胞群的数量与联合概率密度曲线的波峰的数量相关。如果联合概率密度曲线仅有一个波峰,则可以确定出一个峰值细胞群。如果联合概率密度曲线有多重波峰,则可以确定出多个峰值细胞群。
例如,请参见图9中(a),其示出了N个待测细胞的联合概率密度曲线的示意图,由图可以看出,N个待测细胞的联合概率密度曲线存在两个波峰(即波峰1和波峰2)。请参见图9中(b),其示出了N个待测细胞的联合概率密度的示意图,该散点图中的一个细胞点对应细胞主群中的一个待测细胞,细胞点的颜色可以表示待测细胞的联合概率密度。如,细胞点的颜色越深,表示待测细胞对应的细胞点的联合概率密度越大,也就是说,待测细胞在该细胞点的密集程度较高。由图可以看出,图9中(b)的两个深色区域分别是对应两个峰值细胞群(即细胞群1和细胞群2),其中,细胞群1与联合概率密度曲线的波峰1对应,细胞群2与联合概率密度曲线的波峰2对应。
其中,筛选宽度可以决定峰值细胞群所包含的待测细胞的个数。示例性地,筛选宽度可以是预先设置的。
示例性地,如果筛选宽度过小,所筛选得到的峰值细胞群包括的待测细胞过少,而如果筛选宽度过大,所筛选得到的峰值细胞群包括的待测细胞过多,这会影响确定回归分割线的准确性,进而影响圈门结果的准确性。基于此,筛选宽度也可以由用户根据待测细胞的特性设置。更具体地,电子设备(即,测试设备)获取N个待测细胞的流式细胞数据,在电子设备基于N个待测细胞的流式细胞数据计算出各待测细胞的联合概率密度之后,电子设备显示筛选宽度的配置界面,以供用户设置筛选宽度。之后,响应于用户针对配置界面的配置操作,确定筛选宽度。这样以来,可以根据不同的待测细胞设置不同的筛选宽度,能够保证筛选得到的峰值细胞群具有合适数量的待测细胞,保证圈门结果的准确性,进而具有更好适用性。
步骤820,确定参数集合,参数集合包括多个参数组,多个参数组中各参数组均包括斜率和截距。
步骤830,采用参数集合拟合直线,得到多个参数组对应的多组第一参考分割线。
步骤840,根据峰值细胞群中各待测细胞与每组第一参考分割线中各第一参考分割线之间的距离,确定多个第二参考分割线。
步骤850,根据峰值细胞群中位于多个第二参考分割线中各第二参考分割线的预设邻域内的待测细胞的联合概率密度,确定回归分割线,其中,N个待测细胞中位于回归分割线的预设邻域内的待测细胞的联合概率密度的和值为最小。
在本实施例中,位于多个第二参考分割线的预设邻域内的待测细胞的联合概率密度的和值,可以反映第二参考分割线的预设邻域内的细胞点的数量,即可以反映第二参考分割线的预设邻域内的细胞点对应的待测细胞的数量。位于多个第二参考分割线的预设邻域内的待测细胞的联合概率密度的和值越小,说明第二参考分割线的预设邻域内的细胞点对应的待测细胞的数量越少,进而说明由第二参考分割线划分的两个细胞群距离第二参考分割线越远。基于此,将位于第二参考分割线的预设邻域内的待测细胞的联合概率密度的和值为最小值的第二参考分割线,确定为回归分割线。
示例性地,请参见图10,其示出了峰值细胞群的回归分割线的示意图,由图可以看出,峰值细胞群中位于回归分割线的邻域内的待测细胞对应于联合概率密度等高线中位于山谷位置的待测细胞。也就是说,由此得出的回归分割线可以将峰值细胞群准确划分为两个细胞群,即回归分割线可以将N个待测细胞准确划分为位于回归分割线左侧的杂质细胞群和位于回归分割线右侧的主细胞群。
需要说明的是,步骤820~步骤850的具体实现方式可以参见前述实施例中步骤610~步骤640的具体实现方式的,为了避免重复,在此不再赘述。
在本实施例中,在确定各待测细胞的联合概率密度的基础上,可以通过识别联合概率密度曲线的峰值,并根据联合概率密度曲线的峰值和筛选宽度对N个待测细胞进行过滤,得到峰值细胞群。这样以来,将峰值细胞群作为确定回归分割线的细胞集合,能够减少由于所有待测细胞对应的流式细胞数据的密度变化过于剧烈而引起的处理误差。进而,结合超平面分割思想和网格搜索算法,可以识别出回归分割线。最后,基于峰值细胞群确定回归分割线和边界点,以实现圈门的目的,在保证圈门结果的准确性的同时,可以提高处理效率。
在步骤230之后,执行步骤240,根据回归分割线和N个待测细胞中各待测细胞的M个数据值,确定多个边界点。
其中,边界点可以表示目标细胞群与其他细胞群的分割边界。也就是说,边界点可以表示待测细胞属于感兴趣的细胞群(即,目标细胞群)的可被允许的针对某一通道的通道值的最大或最小限度。
示例性地,边界点可以是N个待测细胞中某一通道的数据值为最大值或者次大值的待测细胞对应的细胞点。示例性地,边界点也可以是回归分割线与根据N个待测细胞的流式细胞数据绘制的散点图的坐标轴的交点。
示例性地,以M个通道包括第一通道和第二通道为例,在确定多个边界点时,根据各待测细胞的对应于第一通道的数据值和对应于第二通道的数据值,确定N个待测细胞中第一目标细胞和第二目标细胞;根据第一目标细胞所在的位置、第二目标细胞所在的位置和所述回归分割线,确定多个边界点。
其中,第一目标细胞为N个待测细胞中对应于第一通道的数据值为最大值和/或最小值的待测细胞,第二目标细胞为N个待测细胞中对应于第二通道的数据值为最大值和/或最小值的待测细胞。
更具体地,如图11所示,多个边界点包括第一边界点D1、第二边界点D2、第三边界点D3、第四边界点D4和第五边界点D5。其中,第一边界点D1为回归分割线L1与第一坐标轴的交点;第二边界点D2为N个待测细胞群中对应于第一通道的数据值为最大值的待测细胞对应的坐标点;第三边界点D3为第二边界点和辅助边界点D6的连线L2与回归分割线的交点,其中,辅助边界点D6为N个待测细胞群中对应于第二通道的数据值为最大值的待测细胞对应的坐标点;第四边界点D4为N个待测细胞群中对应于第一通道的数据值为次大值的待测细胞对应的坐标点,或者,N个待测细胞群中与第二坐标点的连线的斜率为最大值的待测细胞对应的坐标点;第五边界点D5为第二边界点和第四边界点的连线与第一坐标轴的交点。
步骤250,基于多个边界点对N个待测细胞进行圈门,得到目标细胞群。
在一些实施例中,在流式细胞数据包括两个通道的数据值的情况下,基于多个边界点对N个待测细胞进行圈门,得到目标细胞群的步骤,可以进一步包括:根据多个边界点,确定凸多边形;将N个待测细胞中位于凸多边形内的待测细胞确定为目标细胞群。
在一些实施例中,在流式细胞数据包括至少三个通道的数据值的情况下,基于多个边界点对N个待测细胞进行圈门,得到目标细胞群的步骤,可以进一步包括:根据至少三个通道中每两个通道的数据值确定多个边界点,并根据多个边界点确定出一个凸多边形,即得到多个凸多边形,根据多个凸多边形确定目标细胞群。
其中,凸多边形可以包括目标细胞群中的所有待测细胞对应的细胞点。
在一些示例中,在确定凸多边形时,可以将多个边界点进行连线,即得到凸多边形。
在一些示例中,在确定凸多边形时,也可以基于格雷厄姆扫描算法,根据多个边界点,确定凸多边形。
具体地,在确定多个边界点之后,将多个边界点中纵坐标值为最小值的边界点作为起始点(记为O点),然后按照逆时针方向顺序选取下一边界点(记为A点),再接着按照逆时针方向选取下一边界点(记为B点),计算向量OA和向量OB的叉积值(即OA×OB),如果向量OA和向量OB的叉积值为正,说明向量OA顺时针旋转可得到向量OB,则将B点确定为目标边界点,如果向量OA和向量OB的叉积值为负,说明向量OA逆时针旋转可得到向量OB,则排除掉B点。按照前述过程遍历所有边界点,即得到有多个目标边界点围成的凸多边形。
示例性地,如图11所示,基于格雷厄姆扫描算法,将辅助边界点D6排除,得到由第一边界点D1、第二边界点D2、第三边界点D3、第四边界点D4和第五边界点D5围成的凸多边形。
在一些示例中,在确定凸多边形之后,识别凸多边形的内点,将N个待测细胞中凸多边形的内点对应的待测细胞确定为目标细胞群。
示例性地,基于射线定位法,确定凸多边形的内点;根据N个待测细胞中与凸多边形的内点对应的待测细胞,确定目标细胞群。
具体地,选取N个待测细胞中任一待测细胞的细胞点作为目标点,以目标点作为端点生成射线,确定该射线与凸多边形的边界的交点的数量。如果该射线与凸多边形的边界的交点的数量为奇数,则说明该细胞点位于凸多边形内,将该细胞点对应的待测细胞标记为第一标识(如,label=1);如果该射线与凸多边形的边界的交点的数量为偶数,则说明该细胞点位于凸多边形之外,将该细胞点对应的待测细胞标记为第二标识(如,label=0)。按照前述过程,遍历N个待测细胞对应的细胞点,并将标记为第一标识的待测细胞确定为目标细胞群。
根据本申请实施例,在识别N个待测细胞中的目标细胞群时,获取N个待测细胞的M个通道的数据值,根据N个待测细胞中各待测细胞的M个通道的数据值,确定各待测细胞对应的联合概率密度,以根据各样本数据对应的联合概率密度确定回归分割线,能够避免基于单个通道的数据值确定分割线而存在的偏差,进而根据各待测细胞的M个通道的数据值和回归分割线确定多个边界点,并基于多个边界点对N个待测细胞进行圈门,能够准确得到目标细胞群。这样以来,在不依赖专业技术人员的情况下,可以模拟专业技术人员的圈门过程,实现目标细胞群的自动识别,能够提高处理效率。再者,在应用过程中,用户仅需要导入N个待测细胞的流式细胞数据,即可得到圈门结果,不会受到人为因素的干扰,能够保证圈门结果的稳定性和可重复性,进而能够满足研究人员对检测结果的一致性的要求。以及,基于待测细胞的多个通道的数据值确定待测细胞的联合概率密度,并基于待测细胞的联合概率密度进行细胞群识别,可以识别出具有生物学意义的目标细胞群,并且能够提高细胞群识别的准确性。
下面以流式细胞数据包括前向散射信号(FSC-A)通道的数据值和侧向散射信号(SSC-A)通道的数据值为例,对目标细胞群的识别过程进行描述。
步骤1,获取N个待测细胞的流式细胞数据,选取前向散射信号(FSC)通道的数据值和侧向散射信号(SSC)通道的数据值绘制散点图,其散点图如图5所示。
具体地,可以响应于用户的操作,导入N个待测细胞的流式细胞数据。
步骤2,计算N个待测细胞中任一待测细胞对应的联合概率密度。
具体可以按照前述实施例中的公式进行计算,为避免重复,这里不再赘述。
步骤3,根据各待测细胞对应的联合概率密度,确定N个待测细胞对应的联合概率密度曲线。
具体地,参见图9中(a),其示出了N个待测细胞的联合概率密度曲线的示意图,由图可以看出,N个待测细胞的联合概率密度曲线存在两个波峰(即波峰1和波峰2)。
步骤4,根据联合概率密度曲线的峰值和筛选宽度,确定N个待测细胞中的峰值细胞群。
具体地,请参见图9中(b),其示出了N个待测细胞的联合概率密度的示意图,由图可以看出,图中的两个深色区域分别是对应两个峰值细胞群(即细胞群1和细胞群2),其中,细胞群1与联合概率密度曲线的波峰1对应,细胞群2与联合概率密度曲线的波峰2对应,基于N个待测细胞的联合概率密度可以将N个待测细胞可分成的两个细胞群。
请参见图10,图中包括两个峰值细胞群,即杂质细胞群(即图9中(b)的细胞群1)和主细胞群(即图9中(b)的细胞群2)。
步骤5,确定待测细胞的细胞类型,并根据细胞类型,确定搜索范围。
步骤6,在搜索范围内,基于网格化搜索算法,确定参数集合。
其中,参数集合包括多个参数组,多个参数组中各参数组均包括斜率和截距。
步骤7,采用参数集合拟合直线,得到多个参数组对应的多组第一参考分割线。
步骤8,针对每组第一参考分割线,计算峰值细胞群中各待测细胞对应的细胞点与每一第一参考分割线之间的距离,并确定峰值细胞群中各待测细胞对应的细胞点与每一第一参考分割线之间的距离的和值,即每组第一参考分割线中各第一参考分割线对应的参考距离值。
步骤9,将参考距离值为最大值的第一参考分割线,确定为第二参考分割线,即,得到与多组第一参考分割线对应的多个第二参考分割线。
步骤10,计算多个第二参考分割线中各第二参考分割线的邻域内的待测细胞对应的联合概率密度的和值。
步骤11,将第二参考分割线的邻域内的待测细胞对应的联合概率密度的和值为最小值的第二参考分割线,确定为回归分割线。
具体地,请参见图10,其示出了峰值细胞群对应的回归分割线的示意图,由图可以看出,回归分割线可以将两个峰值细胞群进行分割。
请参见图9中(b),其示出了N个待测细胞对应的回归分割线的示意图,由图可以看出,回归分割线可以将N个待测细胞划分为杂质细胞群(即细胞群1)和主细胞群(即细胞群2)。
需要说明的是,步骤6-步骤11的具体实现方式可以参见前述实施例,为避免重复,在此不再赘述。
步骤12,根据回归分割线和峰值细胞群中各待测细胞的前向散射信号(FSC-A)通道的数据值和侧向散射信号(SSC-A)通道的数据值,确定多个边界点。
具体地,请参见图11,多个边界点包括第一边界点D1、第二边界点D2、第三边界点D3、第四边界点D4和第五边界点D5。其中,第一边界点D1为回归分割线与第一坐标轴的交点;第二边界点D2为N个待测细胞群中对应于第一通道的数据值为最大值的待测细胞对应的坐标点;第三边界点D3为第二边界点和辅助边界点D6的连线与回归分割线的交点,其中,辅助边界点D6为N个待测细胞群中对应于第二通道的数据值为最大值的待测细胞对应的坐标点;第四边界点D4为N个待测细胞群中对应于第一通道的数据值为次大值的待测细胞对应的坐标点,或者,N个待测细胞群中与第二坐标点的连线的斜率为最大值的待测细胞对应的坐标点;第五边界点D5为第二边界点和第四边界点的连线与第一坐标轴的交点。
步骤13,基于格雷厄姆扫描算法,根据多个边界点确定凸多边形。
具体地,请继续参见图11,基于格雷厄姆扫描算法,将辅助边界点D6排除,得到由第一边界点D1、第二边界点D2、第三边界点D3、第四边界点D4和第五边界点D5围成的凸多边形。由图可以看出,对于峰值细胞群和N个待测细胞,凸多边形均可以包含所有感兴趣的待测细胞。
步骤14,基于射线定位法,确定凸多边形的内点;根据N个待测细胞中与凸多边形的内点对应的待测细胞,确定目标细胞群。
下面结合图12至图15和对比例对本实施例提供的细胞群的识别方法的效果进行描述。
分别采用人工圈门方式和本申请提供的细胞群的识别方法(如,步骤1~步骤14)进行多次圈门实验,其得到的圈门结果如图12-图14所示。其中,图12中(a)、图12中(b)和图12中(c)分别示出了由非专业技术人员进行圈门实验得到圈门结果,图13中(a)、图13中(b)和图13中(c)分别示出了由专业技术人员进行圈门实验得到圈门结果,图14中(a)、图14中(b)和图14中(c)分别示出了由本实施例提供的细胞群的识别方法进行圈门实验得到圈门结果。
以目标细胞群的死活比例对分别采用人工圈门方式和本申请提供的细胞群的识别方法得到的圈门结果进行评价。
其中,目标细胞群的死活比例可以通过以下公式进行确定:
;
其中,为目标细胞群的死活比例;/>为圈门得到的目标细胞群中的活细胞数目;/>为评价条件,即7-AAD-A死活荧光通道数值小于500的细胞为活细胞;/>为目标细胞群中的细胞数目。
请参见图15,其是上述圈门结果的死活比例对照图,其中,图15中a1、a2和a3分别为图12中(a)、图12中(b)和图12中(c)的死活比例,图15中b1、b2和b3分别为图13中(a)、图13中(b)和图13中(c)的死活比例,图15中c1、c2和c3分别为图14中(a)、图14中(b)和图14中(c)的死活比例。由图可知,在相同条件下,计算上述圈门结果的死活比例值,专业技术人员和由本申请实施例提供的细胞群的识别方法的圈门结果的死活比例值均大于非专业技术人员的圈门结果的死活比例值,且由本申请实施例提供的细胞群的识别方法的多次圈门结果的死活比例值差异较小,进一步说明本实施例提供的细胞群的识别方法所得到的圈门结果更稳定。
以及,以下表3为上述圈门结果的描述性统计数据。
表3
由表3可知,count(计数值)为3,表示每种圈门方式选择三个结果进行分析。根据上述数据可以确定每个圈门结果的置信区间,可见,由本实施例提供的细胞群的识别方法得到的圈门结果,均落入专业技术人员的圈门结果的2σ置信区间[0.8762,0.9921]中,最小值与均值也高于其他两种实验方式。再者,专业和非专业技术人员的圈门结果的标准差均大于0.025,而由本实施例提供的细胞群的识别方法得到的圈门结果的标准差为0.008,远远小于人工圈门结果,也就是说,本实施例提供的细胞群的识别方法所得到的圈门结果更稳定。
在该例子中,根据N个待测细胞的前向散射信号通道的数据值和侧向散射信号通道的数据值,确定N个待测细胞的联合概率密度,基于N个待测细胞的联合概率密度确定回归分割线,进而基于回归分割线实现细胞主群与杂质细胞(细胞碎片)的分群。本申请实施例在不依赖专业技术人员的情况下,可以模拟专业技术人员的圈门过程,实现目标细胞群的自动识别,能够提高处理效率。再者,在应用过程中,用户仅需要导入N个待测细胞的流式细胞数据,即可得到圈门结果,不会受到人为因素的干扰,能够保证圈门结果的稳定性和可重复性,进而能够满足研究人员对检测结果的一致性的要求。
本申请实施例提供的细胞群的识别方法还可以利用包括N个待测细胞的多个通道的数据值的流式细胞数据进行细胞分群。
在一些示例中,在流式细胞数据包括多个通道(通道数大于2)的数据值的情况下,根据多个通道中各通道的数据值,计算N个待测细胞中各待测细胞对应的联合概率密度;根据N个待测细胞中各待测细胞对应的联合概率密度,确定回归分割线;根据回归分割线和所述N个待测细胞中各待测细胞的多个通道的数据值,确定多个边界点;基于多个边界点对N个待测细胞进行圈门,得到目标细胞群。
在一些示例中,在流式细胞数据包括多个通道(通道数大于2)的数据值的情况下,分别选取多个通道中任意两个通道的数据值绘制散点图;根据多个通道中任意两个通道的数据值,计算N个待测细胞中任一待测细胞对应的联合概率密度;针对任意两个通道的数据值对应的联合概率密度,识别得到多个目标细胞群;根据多个目标细胞群中各细胞的多个通道的数据值,确定圈门结果。
需要说明的是,针对任意两个通道的数据值对应的联合概率密度,识别目标细胞群的具体实施方式,可以参见上述以FSC-A通道的数据值、SSC-A通道的数据值识别目标细胞群的实施例中的步骤1~步骤14的具体实施方式,为避免重复,这里不再赘述。
下面,结合图16,以流式细胞数据包括FSC-A通道的数据值、SSC-A通道的数据值和FSC-H通道的数据值为例,对目标细胞群的识别过程进行描述。
首先,获取N个待测细胞的流式细胞数据,选取FSC-A通道的数据值、SSC-A通道的数据值和FSC-H通道的数据值绘制三维散点图。
如图16中(a)所示,该三维散点图包括三个坐标轴,即,表示FSC-A通道的数据值的坐标轴、表示SSC-A通道的数据值的坐标轴、以及表示FSC-H通道的数据值的坐标轴。其中,一个待测细胞对应一个细胞点,一个细胞点对应于三个坐标轴的坐标值,可以表示该待测细胞的FSC-A通道的数据值、SSC-A通道的数据值和FSC-H通道的数据值。
然后,基于N个待测细胞中各待测细胞的FSC-A通道的数据值和SSC-A通道的数据值,进行细胞主群和杂质细胞(细胞碎片)的分割。即,选取FSC-A通道的数据值和SSC-A通道的数据值进行二维圈门,得到二维圈门结果。
请参见图16中(b),其示出了二维圈门结果的示意图。如图16中(b)所示,凸多边形圈出的细胞为细胞主群,凸多边形以外的细胞为杂质细胞(细胞碎片)。
需要说明的是,基于N个待测细胞中各待测细胞的FSC-A通道的数据值和SSC-A通道的数据值,进行细胞主群和杂质细胞(细胞碎片)的分割可以具体实施方式,可以参见上述以FSC-A通道的数据值、SSC-A通道的数据值识别目标细胞群的实施例中的步骤1~步骤14的具体实施方式,为避免重复,这里不再赘述。
之后,在从N个待测细胞中确定出细胞主群后,基于细胞主群中各待测细胞的FSC-A通道的数据值和FSC-H通道的数据值,进行单细胞和粘连细胞的分割。
具体过程包括:步骤1601-步骤1603。
步骤1601,根据细胞主群中各待测细胞的FSC-A通道的数据值和FSC-H通道的数据值,计算细胞主群中各待测细胞的联合概率密度。
请参见图16中(c),其示出了细胞主群的散点图。如图16中(c)所示,该散点图的横坐标表示FSC-A通道的数据值,该散点图的纵坐标表示FSC-H通道的数据值。该散点图中的一个细胞点对应细胞主群中的一个待测细胞,细胞点的颜色可以表示待测细胞的联合概率密度。如,细胞点的颜色越深,表示待测细胞对应的细胞点的联合概率密度越大。
需要说明的是,各待测细胞的联合概率密度的具体确定方式,可以参见上述图4示出的实施例中联合概率密度的具体确定方式,为避免重复,这里不再赘述。
步骤1602,根据细胞主群中各待测细胞的联合概率密度,确定回归分割线。
如图16中(c)所示,回归分割线将细胞主群分割为两部分,位于回归分割线上侧的部分为单细胞,位于回归分割线下侧的部分为粘连细胞。
需要说明的是,回归分割线的具体确定方式,可以参见上述图6和图8示出的实施例中回归分割线的具体确定方式,为避免重复,这里不再赘述。
步骤1603,根据回归分割线,将细胞主群的单细胞和粘连细胞进行分割,得到圈门结果,即,根据回归分割线得到细胞主群中的单细胞。其中,圈门结果如图16中(d)所示。
需要说明的是,由于在分割细胞主群和杂质细胞(细胞碎片)时,基于各待测细胞的FSC-A通道的数据值和SSC-A通道的数据值,确定边界点,以根据边界点确定细胞主群的圈门结果。因此,这里在对细胞主群的单细胞和粘连细胞进行分割时,在确定回归分割线后,可以不执行确定边界点的步骤,基于回归分割线,将细胞主群的单细胞和粘连细胞进行分割,得到圈门结果。
在该例子中,基于N个待测细胞的FSC-A通道的数据值和SSC-A通道的数据值,可以进行细胞主群和杂质细胞的分割。在识别出细胞主群之后,进一步基于各待测细胞的FSC-A通道的数据值和FSC-H通道的数据值,可以将细胞主群中的单细胞和粘连细胞进行分割。也就是说,本申请实施例提供的细胞群的识别方法可以应用于单细胞与粘连细胞的分割,且具有较好的分割结果。再者,在不依赖专业技术人员的情况下,可以模拟专业技术人员分割单细胞与粘连细胞的过程,能够提高处理效率。以及,在应用过程中,用户仅需要导入N个待测细胞的流式细胞数据,即可得到圈门结果,不会受到人为因素的干扰,能够保证圈门结果的稳定性和可重复性,进而能够满足研究人员对检测结果的一致性的要求。
在本申请实施例中,在不依赖专业技术人员的情况下,可以模拟专业技术人员的圈门过程,实现目标细胞群的自动识别,能够提高处理效率。再者,在应用过程中,用户仅需要导入N个待测细胞的流式细胞数据,即可得到圈门结果,不会受到人为因素的干扰,能够保证圈门结果的稳定性和可重复性,进而能够满足研究人员对检测结果的一致性的要求。以及,基于待测细胞的多个通道的数据值确定待测细胞的联合概率密度,并基于待测细胞的联合概率密度进行细胞群识别,可以识别出具有生物学意义的目标细胞群,并且能够提高细胞群识别的准确性。
请参见图17,本申请实施例还提供了一种细胞群的识别装置1700,该细胞群的识别装置1700包括数据获取模块1701、联合概率密度确定模块1702、分割线确定模块1703、边界点确定模块1704和细胞群识别模块1705。其中,数据获取模块1701,用于获取N个待测细胞的流式细胞数据,其中,流式细胞数据包括与N个待测细胞对应的N个数据组,且各数据组均包括与M个通道对应的M个数据值,M大于等于2;联合概率密度确定模块1702,用于根据N个待测细胞中各待测细胞的M个数据值,确定各待测细胞对应的联合概率密度;分割线确定模块1703,用于根据各待测细胞对应的联合概率密度,确定回归分割线,其中,回归分割线用于划分N个待测细胞中的杂质细胞群和主细胞群;边界点确定模块1704,用于根据回归分割线和N个待测细胞中各待测细胞的M个数据值,确定多个边界点;细胞群识别模块1705,用于基于多个边界点对N个待测细胞进行圈门,得到目标细胞群。
在一些实施例中,联合概率密度确定模块1702,包括:第一确定单元,用于根据N个待测细胞中任一待测细胞的M个数据值,确定M个通道中各通道对应的边缘概率密度;第二确定单元,用于根据M个通道中各通道对应的边缘概率密度,确定N个待测细胞中任一待测细胞对应的联合概率密度。
在一些实施例中,N个待测细胞中任一待测细胞对应的联合概率密度通过如下公式确定:
;
其中,为任一待测细胞对应的联合概率密度,/>为M个通道中第j个通道对应的核函数,/>为任一待测细胞的对应于第j个通道的数据值,/>为N个待测细胞中第i个待测细胞的对应于第j个通道的数据值,/>为M个通道中第j个通道的通道宽度,N为待测细胞的数量,M为通道数量。
在一些实施例中,分割线确定模块1703,包括:第三确定单元,用于确定参数集合,参数集合包括多个参数组,多个参数组中各参数组均包括斜率和截距;直线拟合单元,用于采用参数集合拟合直线,得到多个参数组对应的多组第一参考分割线;第四确定单元,用于根据所述N个待测细胞中各待测细胞与每组第一参考分割线中各第一参考分割线之间的距离,确定多个第二参考分割线;第五确定单元,用于根据N个待测细胞中位于多个第二参考分割线中各第二参考分割线的预设邻域内的待测细胞的联合概率密度,确定回归分割线,其中,N个待测细胞中位于回归分割线的预设邻域内的待测细胞的联合概率密度的和值为最小。
在一些实施例中,该细胞群的识别装置1700还可以包括:峰值细胞群确定模块,用于根据各待测细胞对应的联合概率密度,确定N个待测细胞中的峰值细胞群;其中,第四确定单元,具体用于根据峰值细胞群中各待测细胞与每组第一参考分割线中各第一参考分割线之间的距离,确定多个第二参考分割线;第五确定单元,具体用于根据峰值细胞群中位于第二参考分割线的预设邻域内的待测细胞的联合概率密度,确定回归分割线。
在一些实施例中,峰值细胞群确定模块,具体用于:根据各待测细胞对应的联合概率密度,确定N个待测细胞对应的联合概率密度曲线;根据联合概率密度曲线的峰值和筛选宽度,确定N个待测细胞中的峰值细胞群。
在一些实施例中,第三确定单元,具体用于:确定待测细胞的细胞类型;根据细胞类型,确定搜索范围;根据搜索范围,确定参数集合。
在一些实施例中,M个通道包括第一通道和第二通道;边界点确定模块1704,具体用于:根据各待测细胞的对应于第一通道的数据值和对应于第二通道的数据值,确定N个待测细胞中第一目标细胞和第二待测细胞;其中,第一目标细胞为N个待测细胞中对应于第一通道的数据值为最大值和/或最小值的待测细胞,第二待测细胞为N个待测细胞中对应于第二通道的数据值为最大值和/或最小值的待测细胞;根据第一目标细胞所在的位置、第二目标细胞所在的位置和回归分割线,确定多个边界点。
在一些实施例中,细胞群识别模块1705,包括:凸多边形确定单元,用于根据多个边界点,确定凸多边形;细胞群识别单元,用于将N个待测细胞中位于凸多边形内的待测细胞确定为目标细胞群。
在一些实施例中,凸多边形确定单元,具体用于:将多个边界点进行连接,得到凸多边形;或者,基于格雷厄姆扫描算法,根据多个边界点,确定凸多边形。
在一些实施例中,细胞群识别单元,具体用于基于射线定位法,确定凸多边形的内点;根据N个待测细胞中与凸多边形的内点对应的待测细胞,确定目标细胞群。
请参见图18,本申请实施例还提供了一种电子设备,该电子设备1800包括处理器1801和存储器1802,存储器1802存储可在处理器1801上运行的程序或指令,程序或指令被处理器1801执行时实现如前述实施例所述的细胞群的识别方法的步骤。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储程序或指令,程序或指令被处理器执行时实现如前述实施例所述的细胞群的识别方法的步骤。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置(如,流量监管装置)的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的系统,装置(如,流量监管装置)和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置(如,流量监管装置)和方法,可以通过其它的方式实现。例如,以上所描述的装置(如,流量监管装置)实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:快闪存储器、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。