CN116453116B

CN116453116B - 一种高适应性的明场细胞活死分类算法

Info

Publication number: CN116453116B
Application number: CN202310731495.4A
Authority: CN
Inventors: 肖红江; 陈荣周; 肖声平
Original assignee: Hangzhou Jifu Technology Co ltd
Current assignee: Hangzhou Jifu Technology Co ltd
Priority date: 2023-06-20
Filing date: 2023-06-20
Publication date: 2023-09-08
Anticipated expiration: 2043-06-20
Also published as: CN116453116A

Abstract

本发明公开了一种高适应性的明场细胞活死分类算法，包括利用了多编码‑自动编码解码器，该解码器可以对单细胞图像进行处理，过滤掉其中与生物信息无关的空间信息，如旋转、仿射等信息，还利用少量明场与荧光配对的图像作为训练数据，使得模型最终可以仅依赖于明场图像就能达到较高的活死细胞识别准确率；本发明的主要目的是针对传统细胞活死识别技术存在的缺陷，提出一种新的细胞活死识别算法，以解决现有方法无法准确确定细胞的活死情况的问题，相比于传统的基于染色或基于实例分割的算法，本发明所提出的方法具有明显优势，可以有效避免繁琐的染色操作，减少对模型训练所需的标记数据，同时减少模型的空间复杂度和时间复杂度。

Description

一种高适应性的明场细胞活死分类算法

技术领域

本发明涉及细胞分类技术领域，具体为一种高适应性的明场细胞活死分类算法。

背景技术

目前传统的细胞活死识别方法主要采用两种技术路线。第一种是使用台盼蓝等染色剂对细胞进行染色，然后通过拍摄细胞的明场图像，再利用阈值分割算法将细胞图像分割成单个细胞，并利用不同阈值或聚类算法完成细胞的活死识别；该方法简单易行，但准确度有限，易受细胞形态等因素的影响，且需要使用染色剂对细胞进行处理，可能对细胞产生影响。第二种方法是使用荧光染料如calcein-AM对细胞进行染色，并同时拍摄明场和荧光图像。通过将荧光图像视作活细胞的金标准，来完成单个细胞的活死识别；该方法的准确度较高，但需要使用昂贵的荧光染料，且荧光图像的拍摄和处理比较复杂；对于单个细胞图像的分类算法，传统方法主要采用实例分割算法MASKR-CNN的同时预测分类和MASK，即在图像中标注出每个细胞的位置和形状，并进行分类。该方法需要大量标注好的训练数据和较高的计算资源，且对细胞图像的预处理和后续的后处理过程也要求较高，为此我们提出一种高适应性的明场细胞活死分类算法用于解决上述问题。

发明内容

本发明的目的在于提供一种高适应性的明场细胞活死分类算法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种高适应性的明场细胞活死分类算法，首先构建多编码-自动编码器模型并进行训练，得到训练完成的多编码-自动编码器模型，明场细胞活死分类算法具体包括以下步骤：

S1：给定任意一组明场图像组及对应的荧光图像组，通过细胞图像分割算法对明场图像组及对应的荧光图像组进行图像分割，得到单个细胞明场图像集合和对应的单个细胞荧光图像集合；

S2：通过单个细胞荧光图像集合对单个细胞明场图像集合活细胞进行标记，制作单个细胞明场图像的活死标签，得到训练集；

S3：利用训练完成的多编码-自动编码器模型对单个细胞明场图像集合和单个细胞荧光图像集合进行过滤，提取隐藏特征；

S4：构建多层感知机，并用训练集训练多层感知机，得到训练完成之后的多层感知机；

S5：将提取到的隐藏特征输入训练完成之后的多层感知机中，得到细胞的活死分类。

优选的，多编码-自动编码器模型包括若干编码器，每个编码器对应一个不同的空间变化,每个编码器对于一个解码器，编码器输入单个细胞明场图像和单个细胞荧光图像，输出隐含向量，编码器以卷积层和全连接层混合构建，解码器输入隐含向量，输出重新构建的隐藏特征。

优选的，多编码-自动编码器模型具体工作流出如下：

S31：输入单个细胞明场图像和对应的细胞荧光图；

S32：使用多个编码器，每个编码器对输入的单个细胞明场图像和对应的细胞荧光图进行不同的空间变化；

S33：再对空间变化之后的单个细胞明场图像和对应的细胞荧光图进行隐藏特征的提取；

S34：将步骤S33提取到的隐藏特征，输入到对应的解码器中，解码器依据隐藏特征对图像进行重新构建；

S35：重新构建的图像与模型输入的图像进行比较，若重新构建的图像与模型输入的图像相差较小，则该提取的隐藏特征为有用特征，若重新构建的图像与模型输入的图像相差较大，则该提取的隐藏特征为无用特征。

优选的，整个多编码-自动编码器模型通过变分推断的ELBO计算公式来评估模型的特征提取的准确性，ELBO₁的计算公式如下：

其中，z 是潜在变量，x 是观测数据，是变换函数，/>为逆变化函数，是真实的后验分布，/>是近似的后验分布。

优选的，所述多层感知机共三层，具体结构如下：

输入层：输入m个隐藏特征，将隐藏特征转为特征向量；

隐藏层：设有n个神经元，输入特征向量，输出判断向量；

输出层：输入判断向量，输出预测结果。

优选的，隐藏层中每个神经元都具有权重向量和偏置向量，第i个神经元的权重向量为，偏置为/>，该神经元的输出为：

其中,*表示向量的点积，ReLU函数作用是将负值变为0，X为输入的特征向量，H表示输出的判断向量。

优选的，输出层中设有权重向量和偏置b，输出层输出为：

其中，*表示向量的点积，Probability表示活细胞的概率，Sigmoid函数能够将输入映射到0和1之间，H表示输出的判断向量。

优选的，整个多层感知机通过变分推断的计算公式来评估模型的优化程度，的计算公式如下：

其中，表示预测的活死标记，/>表示通过荧光图像获取的活死标记，z 是潜在变量，x 是观测数据，/>为逆变化函数，/>是真实的后验分布，/>是近似的后验分布。

优选的，步骤S1对明场图像组及对应的荧光图像组进行图像分割具体步骤如下：

S11：将输入的明场图像组及对应的荧光图像组，对明场图像组和对应的荧光图像组分别进行仿射、放大变换，得到新明场图像组和对应的新荧光图像组。

S12：新明场图像组和新荧光图像组训练第一模型，并得到完成训练的第一模型，以新明场图像组和原荧光图像组训练第二优化模型，并得到训练完成之后的第二优化模型；

S13：将新明场图像组和对应的新荧光图像输入到训练完成的多编码-自动编码器模型，得到隐含空间；

S14：利用PCA算法对隐含空间进行降维处理，得到三维的隐藏变量；

S15：将隐藏变量利用自聚类算法K-Means进行聚类，将隐藏变量变为若干聚类；

S16：根据聚类结果，为每个聚类选择对应的第一优化模型和第二优化模型；

S17：对于每个聚类，使用对应的第一优化模型计算出待分割细胞图像的第一荧光点图，使用第二优化模型计算出待分割细胞图像的第二荧光点图；

S18：第二荧光点图为种子点，第一荧光点图为前景，实现对细胞的精准分割，得到单个细胞掩码；

S19：根据单个细胞掩码，提取明场图像组及对应的荧光图像组中的单个细胞图像，得到单个细胞明场图像集合和对应的单个细胞荧光图像集合。

与现有技术相比，本发明的有益效果是：

第一、利用了一个多编码-自动编码解码器，该解码器可以对单细胞图像进行处理，过滤掉其中与生物信息无关的空间信息，如旋转、仿射等信息，这样可以提高算法的精度和可靠性。

第二、利用明场和荧光图像作为协作的特征提取，并将它们同时作为对抗的分类标签预测，这样可以通过协作的方式提高模型的准确性，并且通过对抗的方式提高分类标签的可靠性。

第三、利用少量明场与荧光配对的图像作为训练数据，使得模型最终可以仅依赖于明场图像就能达到较高的活死细胞识别准确率，这样可以降低数据的成本和复杂度，并提高算法的实用性。

第四、实现细胞分割、细胞特征提取和细胞活死鉴别从弱监督到无监督的过渡，这样可以根据不同的需求和数据情况，灵活地选择适合的算法和方法，提高算法的可用性和适用性。

附图说明

图1为本发明的原理流程图；

图2为多编码-自动编码器模型的原理流程图；

图3为多层感知机的原理流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参考图1-图3，本发明具体实现方案如下：

S1：给定任意一组明场图像组B，及对应的荧光图像组F，，如果对应的荧光图像不存在，则将荧光图像设置为None，通过细胞图像分割算法对图像集合/>和/>进行图像分割，得到单个细胞明场图像集合/>和对应的单个细胞荧光图像集合/>；

S2：通过单个细胞荧光图像集合对单个细胞明场图像集合中的活细胞进行标记，明场的图像的细胞位置对应的荧光图像存在荧光信号则认为此处的细胞是活细胞，否则认为此处的细胞是死细胞，制作单个细胞明场图像的活死标签/>，得到训练集；

S3：利用训练完成的多编码-自动编码器模型对单个细胞明场图像集合和单个细胞荧光图像集合/>进行过滤，提取隐藏特征；

利用明场和荧光图像作为协作的特征提取，并将它们同时作为对抗的分类标签预测，这样可以通过协作的方式提高模型的准确性，并且通过对抗的方式提高分类标签的可靠性。

在一种可行的实施例下，5000组明场图像和对应的荧光图像，通过预处理算法将这些图像分割成30000个单个细胞明场图像和对应的单个细胞荧光图像，对这些单个细胞明场图像进行了活细胞标记，创建了细胞活死的标签，得到了一个丰富的训练集，通过训练这个多编码-自动编码器模型，从单个细胞明场图像和单个细胞荧光图像中提取出了1600个主要隐藏特征。

参考图2，多编码-自动编码器模型包括若干编码器，每个编码器对应一个不同的空间变化,每个编码器对于一个解码器，编码器输入单个细胞明场图像和单个细胞荧光图像，输出隐含向量，编码器以卷积层和全连接层混合构建，解码器输入隐含向量，输出重新构建的隐藏特征。

在一种可行的实施例下，多编码-自动编码器模型首先使用其编码器部分将输入图像映射到一个潜在空间，这个潜在空间的每一个维度都可以看作是一个隐藏特征，然后，多编码-自动编码器模型使用其解码器部分从潜在空间中生成新的图像。

隐藏特征不是直接从原始数据中提取的，如细胞核的圆形度或细胞膜的像素平均值等；隐藏特征是通过多编码-自动编码器模型的训练过程自动学习的，隐藏特征提供了一种更深层次、更抽象的表示，使得多层感知机能够捕捉到在原始数据中不易识别的模式。

多编码-自动编码器模型具体工作流出如下：

S31：输入单个细胞明场图像和对应的细胞荧光图；

S35：重新构建的图像与模型输入的图像进行比较，若重新构建的图像与模型输入的图像差异小于阈值，则该提取的隐藏特征为有用特征，若重新构建的图像与模型输入的图像差异大于阈值，则该提取的隐藏特征为无用特征。

步骤S35中两个图像像素差异阈值取值为。

编码器具体结构如下：

第一卷积层：卷积核大小为3X3，步长为1，填充为1，输出通道数为32，输出尺寸为(32,W,H)张量；

第一池化层：使用2X2的最大池化，输出尺寸为(32,W/2,H/2)的图像；

第二卷积层：卷积核大小为3X3，步长为1，填充为1，输出通道数为64，输出尺寸为(64,W/2,H/2)张量；

第二池化层：使用2X2的最大池化，输出尺寸为(64,W/4,H/4)张量；

第三卷积层：卷积核大小为3X3，步长为1，填充为1，输出通道数为128，输出尺寸为(128,W/4,H/4)张量；

第三池化层：使用2X2的最大池化，输出尺寸为(128,W/8,H/8)的图像；

展平：将尺寸为(128,W/8,H/8)的图像展平为(128*W/8*H/8)维向量；

第一全连接层：输入(128*W/8*H/8)维向量,输出1024维向量；

第二全连接层：输入1024维，输出d维的隐含向量(例如d=128)。

解码器具体结构如下：

第一全连接层：输入为d维的隐含向量，输出为1024维向量；

第二全连接层：输入为1024维，输出为(128*W/8*H/8)维向量；

重塑：将(128*W/8*H/8)维向量重塑为(128,W/8,H/8)张量；

第一反池化层：对(128,W/8,H/8)张量进行2X2的最近邻上采样输出尺寸为(128,W/4,H/4)；

第一反卷积层：卷积核大小为3X3，步长为1，填充为1，输入通道数为128，输出通道数为64输出尺寸为(64,W/4,H/4)张量；

第二反池化层：对(64,W/4,H/4)张量进行2X2的最近邻上采样输出尺寸为(64,W/2,H/2)；

第二反卷积层：卷积核大小为3X3，步长为1，填充为1，输入通道数为64，输出通道数为32输出尺寸为(32,W/2,H/2)；

第三反池化层：对(32,W/2,H/2)张量进行2x2的最近邻上采样输出尺寸为(32,W,H)；

第三反卷积层：卷积核大小为3X3，步长为1，填充为1，输入通道数为32，输出通道数为1输出尺寸为(1,W,H)；

整个多编码-自动编码器模型通过变分推断的ELBO计算公式来评估模型的特征提取的准确性，ELBO₁的计算公式如下：

其中，z 是潜在变量，x 是观测数据，是变换函数，/>为逆变化函数，是真实的后验分布，/>是近似的后验分布，这个公式实际上表示了对于潜在变量 z 的期望，该期望是在/>分布下的，而期望内部是/> 和/> 的差值。

ELBO₁的计算过程包含两部分：第一部分是数据的对数似然性，即在给定潜在变量z 的情况下，观测数据 x 的概率；第二部分是近似分布 q(z) 的熵，这部分实际上是一个惩罚项，用于鼓励 q(z) 尽可能地接近均匀分布，以增加模型的鲁棒性。

参考图3，多层感知机共三层，具体结构如下：

输入层：输入1600个隐藏特征，将隐藏特征转为特征向量；

隐藏层：设有512个神经元，输入特征向量，输出判断向量；

输出层：输入判断向量，输出预测结果。

隐藏层中每个神经元都具有权重向量和偏置向量，第i个神经元的权重向量为，偏置为/>，该神经元的输出为：

其中，*表示向量的点积，ReLU函数作用是将负值变为0，X为输入的特征向量，H表示输出的判断向量。

输出层中设有权重向量和偏置b，输出层输出为：

在多层感知机使用之前需要对多层感知机进行训练，利用步骤2构建的单个细胞明场图像的活死标签训练集，来训练多层感知机，整个多层感知机通过变分推断的/>计算公式来评估模型的优化程度，/>的计算公式如下：

其中，表示预测的活死标记，/>表示通过荧光图像获取的活死标记，z 是潜在变量，x 是观测数据，/>是变换函数，/>为逆变化函数，/>是真实的后验分布，/>是近似的后验分布，最终优化为该函数收敛即止。

多层感知机和多编码-自动编码器模型均通过优化 ELBO得到一个相对较好的 q分布，使得它尽可能地接近真实的后验分布 p。

在一种可行的实施例下，构建了一个由三层、总计2000个神经元组成的多层感知机，并用之前的训练集对其进行了训练，训练过程中，设定了一个停止准则，即当神经元的输出变化量小于0.01时，就认为多层感知机已经训练完成，整个训练过程持续24小时，完成模型训练后，将提取出的隐藏特征输入到训练好的多层感知机中，得到了细胞的活死分类结果，为了将多层感知机的输出映射到0和1之间，使用了Sigmoid函数，这样可以得到每个细胞的生存概率。

在一种可行的实施例下，步骤S1对明场图像组及对应的荧光图像组进行图像分割具体步骤如下：

S11：将输入的明场图像组及对应的荧光图像组/>，对明场图像组/>和对应的荧光图像组/>分别进行仿射、放大变换，得到新明场图像组/>和对应的新荧光图像组/>。

S12：新明场图像组和新荧光图像组/>训练第一模型，并得到完成训练的第一模型/>，以新明场图像组/>和原荧光图像组训练第二优化模型/>，并得到训练完成之后的第二优化模型/>；

S14：利用PCA算法对隐含空间进行降维处理，得到三维的隐藏变量/>；

S15：将隐藏变量利用自聚类算法K-Means进行聚类，将隐藏变量变为3个聚类/>；

S16：将第一模型A复制三份记为A₁，A₂，A₃，将第二模型B复制三份记为B₁，B₂，B₃，再利用聚类{S_1,S_2,,S₃}对模型A₁，A₂，A₃和模型B₁，B₂，B₃进行精调，并得到第一优化模型和第二优化模型/>；

S17：使用对应的第一优化模型计算出待分割细胞图像的第一荧光点图，使用利用第二优化模型/>计算出待分割细胞图像的第二荧光点图；

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种高适应性的明场细胞活死分类算法，其特征在于：首先构建多编码-自动编码器模型并进行训练，得到训练完成的多编码-自动编码器模型，明场细胞活死分类算法具体包括以下步骤：

S5：将提取到的隐藏特征输入训练完成之后的多层感知机中，得到细胞的活死分类；

多编码-自动编码器模型包括若干编码器，每个编码器对应一个不同的空间变化,每个编码器对于一个解码器；编码器输入单个细胞明场图像和单个细胞荧光图像，输出隐含向量，编码器以卷积层和全连接层混合构建；解码器输入隐含向量，输出重新构建的隐藏特征；

多编码-自动编码器模型具体工作流程如下：

S31：输入单个细胞明场图像和对应的细胞荧光图；

S34：将步骤S33提取到的隐藏特征，输入到对应的解码器中，解码器依据隐藏特征进行图像重新构建；

S35：重新构建的图像与模型输入的图像进行比较，若重新构建的图像与模型输入的图像差异小于阈值，则该提取的隐藏特征为有用特征，若重新构建的图像与模型输入的图像差异大于阈值，则该提取的隐藏特征为无用特征；

步骤S1对明场图像组及对应的荧光图像组进行图像分割具体步骤如下：

S11：将输入的明场图像组及对应的荧光图像组，对明场图像组和对应的荧光图像组分别进行仿射、放大变换，得到新明场图像组和对应的新荧光图像组;

2.根据权利要求1所述的一种高适应性的明场细胞活死分类算法，其特征在于：整个多编码-自动编码器模型通过变分推断的ELBO计算公式来评估模型的特征提取的准确性，ELBO₁的计算公式如下：

ELBO₁＝E_z～q(z)[p(T^-1(x),z)-q(z)]

其中，z是潜在变量，x是观测数据，T(x)是变换函数，T^-1(x)为逆变化函数，p(T^-1(x),z)是真实的后验分布，q(z)是近似的后验分布。

3.根据权利要求1所述的一种高适应性的明场细胞活死分类算法，其特征在于：所述多层感知机共三层，具体结构如下：

输入层：输入m个隐藏特征，将隐藏特征转为特征向量；

隐藏层：设有n个神经元，输入特征向量，输出判断向量；

输出层：输入判断向量，输出预测结果。

4.根据权利要求3所述的一种高适应性的明场细胞活死分类算法，其特征在于：隐藏层中每个神经元都具有权重向量和偏置向量，第i个神经元的权重向量为W_i＝[W_i1,W_i2,...,W_im]，偏置为b_i，该神经元的输出为：

H＝ReLU([W_i1*X₁+W_i2*X₂+...+W_im*X_m]+b_i)

5.根据权利要求3所述的一种高适应性的明场细胞活死分类算法，其特征在于：输出层中设有权重向量W＝[W₁,W₂,...,W_n]和偏置b，输出层输出为：

Probability＝Sigmoid([W₁*H₁+W₂*H₂+...+W_n*H_n]+b)

6.根据权利要求3所述的一种高适应性的明场细胞活死分类算法，其特征在于：整个多层感知机通过变分推断的全部损失函数l(θ)，用θ表示所有参数，计算公式来评估模型的优化程度，l(θ)的计算公式如下：

其中，y_pred表示预测的活死标记，y_true表示通过荧光图像获取的活死标记，z是潜在变量，x是观测数据，T^-1(x)为逆变化函数，p(T^-1(x),z)是真实的后验分布，q(z)是近似的后验分布。