CN117115817A

CN117115817A - 基于多模态融合的细胞形态学识别方法及装置

Info

Publication number: CN117115817A
Application number: CN202311377332.7A
Authority: CN
Inventors: 聂宇坤; 卢沁阳; 穆阳; 蔡昱峰; 刘丽珏
Original assignee: Hunan Zixing Wisdom Medical Technology Co ltd
Current assignee: Hunan Zixing Wisdom Medical Technology Co ltd
Priority date: 2023-10-24
Filing date: 2023-10-24
Publication date: 2023-11-24

Abstract

本发明公开一种基于多模态融合的细胞形态学识别方法及装置。本发明通过获取待识别细胞的细胞图像，将细胞图像输入预先训练的语义分割网络，预测细胞区域信息，将细胞区域信息和细胞图像结合，输入到预先训练的卷积神经网络中，对细胞类型和状态进行提取特征，将提取的特征输入预先训练的文本解码器进行解码，输出对待识别细胞的形态描述，通过预先构建的细胞形态描述库对形态描述进行相似度匹配，得到待识别细胞的类别，能够对不同类型病理学细胞图像进行高效、准确的识别，具有较强的可解释性，可以通过加入对新目标的描述来实现识别类别数量的增加，减少对模型重新训练的次数。

Description

基于多模态融合的细胞形态学识别方法及装置

技术领域

本发明涉及细胞形态学识别技术领域，尤其涉及一种基于多模态融合的细胞形态学识别方法及装置。

背景技术

传统的细胞形态学识别主要依赖病理学专家通过观察细胞形态特征来进行肿瘤诊断与分类，这种方法准确率依赖于医生的经验，效率低下。随着深度学习技术的发展，利用卷积神经网络进行医学图像分析获得了长足进展，但现有技术在处理复杂细胞组织图像时识别精度仍然有限，结果解释性也较弱，无法满足临床大规模细胞形态分析的需求。

此外，现有技术手段需要大量带有标注的细胞信息，并且每当需要识别新的细胞种类，需要重新对模型进行训练。小样本的数据带来诸如样本不平衡导致的对于类别精度偏低，以及频繁的训练造成计算资源的浪费。

因此，有必要提出一种基于多模态融合的细胞形态学识别方法及装置，以解决上述问题。

发明内容

本发明的目的在于提供一种基于多模态融合的细胞形态学识别方法及装置，以解决现有技术在处理复杂细胞组织图像时识别精度有限，结果解释性较弱，无法满足临床大规模细胞形态分析的需求的问题。

第一方面，本发明提供一种基于多模态融合的细胞形态学识别方法，包括：

获取待识别细胞的细胞图像；

将所述细胞图像输入预先训练的语义分割网络，预测细胞区域信息；

将所述细胞区域信息和所述细胞图像结合，输入到预先训练的卷积神经网络中，对细胞类型和状态进行提取特征；

将提取的特征输入预先训练的文本解码器进行解码，输出对所述待识别细胞的形态描述；

通过预先构建的细胞形态描述库对所述形态描述进行相似度匹配，得到所述待识别细胞的类别。

进一步地，将所述细胞图像输入预先训练的语义分割网络，预测细胞区域信息，包括：

通过语义分割网络，对所述细胞图像的细胞区域和细胞核区域进行分割，得到细胞区域信息，所述细胞区域信息为语义分割信息。

进一步地，将所述细胞区域信息和所述细胞图像结合，输入到预先训练的卷积神经网络中，对细胞类型和状态进行提取特征，包括：

将所述语义分割信息与细胞图像结合，输入到预先训练好的图像编码器，提取形态特征向量。

进一步地，将提取的特征输入预先训练的文本解码器进行解码，输出对所述待识别细胞的形态描述，包括：

通过文本解码器，将提取到的形态特征向量转化为具体的细胞描述信息。

进一步地，通过预先构建的细胞形态描述库对所述形态描述进行相似度匹配，得到所述待识别细胞的类别，包括：

将所述细胞描述信息与预先构建的细胞形态描述库中信息进行匹配，分别计算细胞大小、细胞形状、细胞核、细胞质、细胞包膜以及特殊染色这六个信息的相似度；

将所述六个信息中相似度最高的一个信息对应的细胞类别，作为识别出的细胞类别。

进一步地，所述相似度的计算方法如下：

根据，计算所述相似度；其中，/>为细胞形态描述库中的信息通过编码和下采样得到的特征向量，/>为待识别细胞的细胞描述信息。

进一步地，将所述细胞图像输入预先训练的语义分割网络，预测细胞区域信息的步骤中，所述语义分割网络基于本地细胞数据的类别标注进行训练，所述本地细胞数据具有对具体细胞的描述信息，所述描述信息包括：细胞大小、细胞形状、细胞核、细胞质、细胞包膜以及特殊染色的描述信息，其中，所述细胞核和细胞质的轮廓信息用于训练语义分割网络。

进一步地，将提取的特征输入预先训练的文本解码器进行解码，输出对所述待识别细胞的形态描述的步骤中，所述文本解码器训练方式如下：

使用UNet模型对细胞语义信息进行提取，输入目标图像X，获得通道数为2的Y，第一通道Y₀表示细胞区域，第二通道Y₁表示细胞核区域；

通过目标图像X的语义标签L与模型输出结果Y之间的重叠区域的比例计算出损失：

；

用Z代表细胞语义信息与细胞图像的组合X&Y，通过图像编码器对Z进行特征提取，特征向量长度为1024记为a；

将对应细胞图像的文本描述T，通过word2vector工具转换为词向量t，然后通过文本编码器进行特征提取记为b；

计算特征a和b之间的余弦相似度Sim；

；

同时通过交叉熵CE和KL散度来训练文本解码器，为通过解码器获得的词向量，表示编解码器；

。

进一步地，所述方法还包括：

当需要加入新的细胞类别时，将新的细胞类别的细胞描述信息加入到所述细胞形态描述库。

第二方面，本发明提供一种基于多模态融合的细胞形态学识别装置，包括：

获取单元，用于获取待识别细胞的细胞图像；

分割单元，用于将所述细胞图像输入预先训练的语义分割网络，预测细胞区域信息；

提取单元，用于将所述细胞区域信息和所述细胞图像结合，输入到预先训练的卷积神经网络中，对细胞类型和状态进行提取特征；

解码单元，用于将提取的特征输入预先训练的文本解码器进行解码，输出对所述待识别细胞的形态描述；

匹配单元，用于通过预先构建的细胞形态描述库对所述形态描述进行相似度匹配，得到所述待识别细胞的类别。

本发明的有益效果如下：本发明提供的一种基于多模态融合的细胞形态学识别方法及装置，通过获取待识别细胞的细胞图像，将所述细胞图像输入预先训练的语义分割网络，预测细胞区域信息，将所述细胞区域信息和所述细胞图像结合，输入到预先训练的卷积神经网络中，对细胞类型和状态进行提取特征，将提取的特征输入预先训练的文本解码器进行解码，输出对所述待识别细胞的形态描述，通过预先构建的细胞形态描述库对所述形态描述进行相似度匹配，得到所述待识别细胞的类别，能够对不同类型病理学细胞图像进行高效、准确的识别，具有较强的可解释性，可以通过人工加入对新目标的描述来实现识别类别数量的增加，减少对模型重新训练的次数。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一种基于多模态融合的细胞形态学识别方法的流程图；

图2是基于Unet的语义分割网络结构图；

图3是特征融合网络结构图；

图4是描述比对模块示意图；

图5是本发明一种基于多模态融合的细胞形态学识别装置的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明具体实施例及相应的附图对本发明技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。以下结合附图，详细说明本发明各实施例提供的技术方案。

请参阅图1至图4，本发明实施例提供一种基于多模态融合的细胞形态学识别方法，包括：

S101，获取待识别细胞的细胞图像。

S102，将所述细胞图像输入预先训练的语义分割网络，预测细胞区域信息。

具体地，所述语义分割网络基于本地细胞数据的类别标注进行训练，所述本地细胞数据具有对具体细胞的描述信息，所述描述信息包括：细胞大小、细胞形状、细胞核、细胞质、细胞包膜以及特殊染色的描述信息，其中，所述细胞核和细胞质的轮廓信息用于训练语义分割网络。通过语义分割网络，对所述细胞图像的细胞区域和细胞核区域进行分割，得到细胞区域信息，所述细胞区域信息为语义分割信息。

语义分割网络是一种深度学习模型，用于将图像或视频中的每个像素分配给特定的类别。它通常用于计算机视觉任务，如目标检测、分割和识别等。语义分割网络的基本结构包括卷积神经网络、上采样或反卷积层以及全连接层。卷积神经网络用于从输入图像中提取特征，上采样或反卷积层用于将特征图放大到与原始图像相同的大小，并使用全连接层对每个像素进行分类。U-Net是一种经典的语义分割网络，由一个收缩路径（编码器）和一个扩展路径（解码器）组成，类似于U形结构。它使用跳跃连接来保留更多的细节信息，从而提高了分割的准确性。

S103，将所述细胞区域信息和所述细胞图像结合，输入到预先训练的卷积神经网络中，对细胞类型和状态进行提取特征。

具体地，将所述语义分割信息与细胞图像结合，输入到预先训练好的图像编码器，提取形态特征向量。

S104，将提取的特征输入预先训练的文本解码器进行解码，输出对所述待识别细胞的形态描述。

具体地，所述文本解码器训练方式如下：

；

该损失用于训练图2的分割网络，为了给之后的多模态模型提供先验知识（细胞核与细胞质的区域），方便进一步与文本描述信息对齐。

将对应细胞图像的文本描述T，通过word2vector工具转换为词向量t，然后通过文本编码器进行特征提取记为b；Word2vector是一种自然语言处理工具，能够根据输入的词的集合计算出词与词之间的距离。它将词转换为向量形式，以便在向量空间中进行向量运算，并计算出向量空间上的相似度，来表示文本语义上的相似度。

计算特征a和b之间的余弦相似度Sim；

；余弦相似度Sim用于训练多模态模型，作为图像特征和文本特征对齐的损失，实现图像与文本的一一对应。满足后续更具输入细胞图像，输出对应的文本描述。多模态模型由图像编码器、文本编码器和解码器构成。

同时通过交叉熵CE和KL 散度来训练文本解码器，为通过解码器获得的词向量，表示编解码器；

。

交叉熵是Shannon信息论中一个重要概念，主要用于度量两个概率分布间的差异性信息。在机器学习领域，交叉熵是一种常用的损失函数，用于描述模型预测值与真实值的差距大小。在语言模型中，交叉熵可以衡量模型预测的难度，也可以看作是用该模型表示文本的压缩比。交叉熵的意义是用该模型对文本识别的难度，或者从压缩的角度来看，每个词平均要用几个位来编码。交叉熵也常用于分类问题中。在多分类问题中，交叉熵作为损失函数，用于优化模型的预测结果和真实标签之间的差异。而在二分类问题中，交叉熵损失函数则用于评估模型对于正负样本的区分能力。KL散度（Kullback-Leibler divergence，简称KLD）是相对熵的一种度量方式，又被称为信息散度或信息增益。它用于度量两个概率分布之间的差异，在信息理论中，相对熵等价于两个概率分布的信息熵的差值。

通过文本解码器，将提取到的形态特征向量转化为具体的细胞描述信息，可以作为可解释性分析提供给专业医师作为参考。

S105，通过预先构建的细胞形态描述库对所述形态描述进行相似度匹配，得到所述待识别细胞的类别。

具体地，将所述细胞描述信息与预先构建的细胞形态描述库中信息进行匹配，分别计算细胞大小、细胞形状、细胞核、细胞质、细胞包膜以及特殊染色这六个信息的相似度；

在本实施例中，所述相似度的计算方法如下：

如图4所示，其中描述F为细胞信息库中的信息，F`为待识别细胞信息。为了提高速度，描述F在记录入信息库时已通过编码和下采样得到特征向量。

当需要加入新的细胞类别时，可以不通过传统的深度学习方法对模型进行微调，将新的细胞类别的细胞描述信息加入到所述细胞形态描述库即可实现相同效果。

请参阅图5，本发明实施例提供一种基于多模态融合的细胞形态学识别装置，包括：

获取单元51，用于获取待识别细胞的细胞图像；

分割单元52，用于将所述细胞图像输入预先训练的语义分割网络，预测细胞区域信息；

提取单元53，用于将所述细胞区域信息和所述细胞图像结合，输入到预先训练的卷积神经网络中，对细胞类型和状态进行提取特征；

解码单元54，用于将提取的特征输入预先训练的文本解码器进行解码，输出对所述待识别细胞的形态描述；

匹配单元55，用于通过预先构建的细胞形态描述库对所述形态描述进行相似度匹配，得到所述待识别细胞的类别。

本发明实施例还提供一种存储介质，本发明实施例还提供一种存储介质，所述存储介质中存储有计算机程序，所述计算机程序被处理器执行时实现本发明提供的基于多模态融合的细胞形态学识别方法各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体（英文：Read-OnlyMemory，简称：ROM）或随机存储记忆体（英文：RandomAccessMemory，简称：RAM）等。

本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中各个实施例之间相同相似的部分互相参见即可。尤其，对于基于多模态融合的细胞形态学识别装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例中的说明即可。

以上所述的本发明实施方式并不构成对本发明保护范围的限定。

Claims

1.一种基于多模态融合的细胞形态学识别方法，其特征在于，包括：

获取待识别细胞的细胞图像；

2.如权利要求1所述的基于多模态融合的细胞形态学识别方法，其特征在于，将所述细胞图像输入预先训练的语义分割网络，预测细胞区域信息，包括：

3.如权利要求2所述的基于多模态融合的细胞形态学识别方法，其特征在于，将所述细胞区域信息和所述细胞图像结合，输入到预先训练的卷积神经网络中，对细胞类型和状态进行提取特征，包括：

4.如权利要求3所述的基于多模态融合的细胞形态学识别方法，其特征在于，将提取的特征输入预先训练的文本解码器进行解码，输出对所述待识别细胞的形态描述，包括：

5.如权利要求4所述的基于多模态融合的细胞形态学识别方法，其特征在于，通过预先构建的细胞形态描述库对所述形态描述进行相似度匹配，得到所述待识别细胞的类别，包括：

6.如权利要求5所述的基于多模态融合的细胞形态学识别方法，其特征在于，所述相似度的计算方法如下：

7.如权利要求6所述的基于多模态融合的细胞形态学识别方法，其特征在于，将所述细胞图像输入预先训练的语义分割网络，预测细胞区域信息的步骤中，所述语义分割网络基于本地细胞数据的类别标注进行训练，所述本地细胞数据具有对具体细胞的描述信息，所述描述信息包括：细胞大小、细胞形状、细胞核、细胞质、细胞包膜以及特殊染色的描述信息，其中，所述细胞核和细胞质的轮廓信息用于训练语义分割网络。

8.如权利要求7所述的基于多模态融合的细胞形态学识别方法，其特征在于，将提取的特征输入预先训练的文本解码器进行解码，输出对所述待识别细胞的形态描述的步骤中，所述文本解码器训练方式如下：

；

计算特征a和b之间的余弦相似度Sim；

；

同时通过交叉熵CE和KL散度来训练文本解码器，为通过解码器获得的词向量，/>表示编解码器；

。

9.如权利要求8所述的基于多模态融合的细胞形态学识别方法，其特征在于，所述方法还包括：

10.一种基于多模态融合的细胞形态学识别装置，其特征在于，包括：

获取单元，用于获取待识别细胞的细胞图像；