CN117115817A - 基于多模态融合的细胞形态学识别方法及装置 - Google Patents
基于多模态融合的细胞形态学识别方法及装置 Download PDFInfo
- Publication number
- CN117115817A CN117115817A CN202311377332.7A CN202311377332A CN117115817A CN 117115817 A CN117115817 A CN 117115817A CN 202311377332 A CN202311377332 A CN 202311377332A CN 117115817 A CN117115817 A CN 117115817A
- Authority
- CN
- China
- Prior art keywords
- cell
- information
- image
- trained
- identified
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 230000004927 fusion Effects 0.000 title claims abstract description 25
- 230000011218 segmentation Effects 0.000 claims abstract description 33
- 230000000877 morphologic effect Effects 0.000 claims abstract description 31
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 13
- 210000004027 cell Anatomy 0.000 claims description 234
- 239000013598 vector Substances 0.000 claims description 23
- 210000003855 cell nucleus Anatomy 0.000 claims description 12
- 210000000805 cytoplasm Anatomy 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 7
- 238000010186 staining Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims 1
- 230000001575 pathological effect Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 210000001519 tissue Anatomy 0.000 description 2
- 206010028980 Neoplasm Diseases 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001086 cytosolic effect Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 210000004940 nucleus Anatomy 0.000 description 1
- 238000013341 scale-up Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/69—Microscopic objects, e.g. biological cells or cellular parts
- G06V20/698—Matching; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/69—Microscopic objects, e.g. biological cells or cellular parts
- G06V20/695—Preprocessing, e.g. image segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种基于多模态融合的细胞形态学识别方法及装置。本发明通过获取待识别细胞的细胞图像,将细胞图像输入预先训练的语义分割网络,预测细胞区域信息,将细胞区域信息和细胞图像结合,输入到预先训练的卷积神经网络中,对细胞类型和状态进行提取特征,将提取的特征输入预先训练的文本解码器进行解码,输出对待识别细胞的形态描述,通过预先构建的细胞形态描述库对形态描述进行相似度匹配,得到待识别细胞的类别,能够对不同类型病理学细胞图像进行高效、准确的识别,具有较强的可解释性,可以通过加入对新目标的描述来实现识别类别数量的增加,减少对模型重新训练的次数。
Description
技术领域
本发明涉及细胞形态学识别技术领域,尤其涉及一种基于多模态融合的细胞形态学识别方法及装置。
背景技术
传统的细胞形态学识别主要依赖病理学专家通过观察细胞形态特征来进行肿瘤诊断与分类,这种方法准确率依赖于医生的经验,效率低下。随着深度学习技术的发展,利用卷积神经网络进行医学图像分析获得了长足进展,但现有技术在处理复杂细胞组织图像时识别精度仍然有限,结果解释性也较弱,无法满足临床大规模细胞形态分析的需求。
此外,现有技术手段需要大量带有标注的细胞信息,并且每当需要识别新的细胞种类,需要重新对模型进行训练。小样本的数据带来诸如样本不平衡导致的对于类别精度偏低,以及频繁的训练造成计算资源的浪费。
因此,有必要提出一种基于多模态融合的细胞形态学识别方法及装置,以解决上述问题。
发明内容
本发明的目的在于提供一种基于多模态融合的细胞形态学识别方法及装置,以解决现有技术在处理复杂细胞组织图像时识别精度有限,结果解释性较弱,无法满足临床大规模细胞形态分析的需求的问题。
第一方面,本发明提供一种基于多模态融合的细胞形态学识别方法,包括:
获取待识别细胞的细胞图像;
将所述细胞图像输入预先训练的语义分割网络,预测细胞区域信息;
将所述细胞区域信息和所述细胞图像结合,输入到预先训练的卷积神经网络中,对细胞类型和状态进行提取特征;
将提取的特征输入预先训练的文本解码器进行解码,输出对所述待识别细胞的形态描述;
通过预先构建的细胞形态描述库对所述形态描述进行相似度匹配,得到所述待识别细胞的类别。
进一步地,将所述细胞图像输入预先训练的语义分割网络,预测细胞区域信息,包括:
通过语义分割网络,对所述细胞图像的细胞区域和细胞核区域进行分割,得到细胞区域信息,所述细胞区域信息为语义分割信息。
进一步地,将所述细胞区域信息和所述细胞图像结合,输入到预先训练的卷积神经网络中,对细胞类型和状态进行提取特征,包括:
将所述语义分割信息与细胞图像结合,输入到预先训练好的图像编码器,提取形态特征向量。
进一步地,将提取的特征输入预先训练的文本解码器进行解码,输出对所述待识别细胞的形态描述,包括:
通过文本解码器,将提取到的形态特征向量转化为具体的细胞描述信息。
进一步地,通过预先构建的细胞形态描述库对所述形态描述进行相似度匹配,得到所述待识别细胞的类别,包括:
将所述细胞描述信息与预先构建的细胞形态描述库中信息进行匹配,分别计算细胞大小、细胞形状、细胞核、细胞质、细胞包膜以及特殊染色这六个信息的相似度;
将所述六个信息中相似度最高的一个信息对应的细胞类别,作为识别出的细胞类别。
进一步地,所述相似度的计算方法如下:
根据,计算所述相似度;其中,/>为细胞形态描述库中的信息通过编码和下采样得到的特征向量,/>为待识别细胞的细胞描述信息。
进一步地,将所述细胞图像输入预先训练的语义分割网络,预测细胞区域信息的步骤中,所述语义分割网络基于本地细胞数据的类别标注进行训练,所述本地细胞数据具有对具体细胞的描述信息,所述描述信息包括:细胞大小、细胞形状、细胞核、细胞质、细胞包膜以及特殊染色的描述信息,其中,所述细胞核和细胞质的轮廓信息用于训练语义分割网络。
进一步地,将提取的特征输入预先训练的文本解码器进行解码,输出对所述待识别细胞的形态描述的步骤中,所述文本解码器训练方式如下:
使用UNet模型对细胞语义信息进行提取,输入目标图像X,获得通道数为2的Y,第一通道Y0表示细胞区域,第二通道Y1表示细胞核区域;
通过目标图像X的语义标签L与模型输出结果Y之间的重叠区域的比例计算出损失:
;
用Z代表细胞语义信息与细胞图像的组合X&Y,通过图像编码器对Z进行特征提取,特征向量长度为1024记为a;
将对应细胞图像的文本描述T,通过word2vector工具转换为词向量t,然后通过文本编码器进行特征提取记为b;
计算特征a和b之间的余弦相似度Sim;
;
同时通过交叉熵CE和KL散度来训练文本解码器,为通过解码器获得的词向量,表示编解码器;
。
进一步地,所述方法还包括:
当需要加入新的细胞类别时,将新的细胞类别的细胞描述信息加入到所述细胞形态描述库。
第二方面,本发明提供一种基于多模态融合的细胞形态学识别装置,包括:
获取单元,用于获取待识别细胞的细胞图像;
分割单元,用于将所述细胞图像输入预先训练的语义分割网络,预测细胞区域信息;
提取单元,用于将所述细胞区域信息和所述细胞图像结合,输入到预先训练的卷积神经网络中,对细胞类型和状态进行提取特征;
解码单元,用于将提取的特征输入预先训练的文本解码器进行解码,输出对所述待识别细胞的形态描述;
匹配单元,用于通过预先构建的细胞形态描述库对所述形态描述进行相似度匹配,得到所述待识别细胞的类别。
本发明的有益效果如下:本发明提供的一种基于多模态融合的细胞形态学识别方法及装置,通过获取待识别细胞的细胞图像,将所述细胞图像输入预先训练的语义分割网络,预测细胞区域信息,将所述细胞区域信息和所述细胞图像结合,输入到预先训练的卷积神经网络中,对细胞类型和状态进行提取特征,将提取的特征输入预先训练的文本解码器进行解码,输出对所述待识别细胞的形态描述,通过预先构建的细胞形态描述库对所述形态描述进行相似度匹配,得到所述待识别细胞的类别,能够对不同类型病理学细胞图像进行高效、准确的识别,具有较强的可解释性,可以通过人工加入对新目标的描述来实现识别类别数量的增加,减少对模型重新训练的次数。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一种基于多模态融合的细胞形态学识别方法的流程图;
图2是基于Unet的语义分割网络结构图;
图3是特征融合网络结构图;
图4是描述比对模块示意图;
图5是本发明一种基于多模态融合的细胞形态学识别装置的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明具体实施例及相应的附图对本发明技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。以下结合附图,详细说明本发明各实施例提供的技术方案。
请参阅图1至图4,本发明实施例提供一种基于多模态融合的细胞形态学识别方法,包括:
S101,获取待识别细胞的细胞图像。
S102,将所述细胞图像输入预先训练的语义分割网络,预测细胞区域信息。
具体地,所述语义分割网络基于本地细胞数据的类别标注进行训练,所述本地细胞数据具有对具体细胞的描述信息,所述描述信息包括:细胞大小、细胞形状、细胞核、细胞质、细胞包膜以及特殊染色的描述信息,其中,所述细胞核和细胞质的轮廓信息用于训练语义分割网络。通过语义分割网络,对所述细胞图像的细胞区域和细胞核区域进行分割,得到细胞区域信息,所述细胞区域信息为语义分割信息。
语义分割网络是一种深度学习模型,用于将图像或视频中的每个像素分配给特定的类别。它通常用于计算机视觉任务,如目标检测、分割和识别等。语义分割网络的基本结构包括卷积神经网络、上采样或反卷积层以及全连接层。卷积神经网络用于从输入图像中提取特征,上采样或反卷积层用于将特征图放大到与原始图像相同的大小,并使用全连接层对每个像素进行分类。U-Net是一种经典的语义分割网络,由一个收缩路径(编码器)和一个扩展路径(解码器)组成,类似于U形结构。它使用跳跃连接来保留更多的细节信息,从而提高了分割的准确性。
S103,将所述细胞区域信息和所述细胞图像结合,输入到预先训练的卷积神经网络中,对细胞类型和状态进行提取特征。
具体地,将所述语义分割信息与细胞图像结合,输入到预先训练好的图像编码器,提取形态特征向量。
S104,将提取的特征输入预先训练的文本解码器进行解码,输出对所述待识别细胞的形态描述。
具体地,所述文本解码器训练方式如下:
使用UNet模型对细胞语义信息进行提取,输入目标图像X,获得通道数为2的Y,第一通道Y0表示细胞区域,第二通道Y1表示细胞核区域;
通过目标图像X的语义标签L与模型输出结果Y之间的重叠区域的比例计算出损失:
;
该损失用于训练图2的分割网络,为了给之后的多模态模型提供先验知识(细胞核与细胞质的区域),方便进一步与文本描述信息对齐。
用Z代表细胞语义信息与细胞图像的组合X&Y,通过图像编码器对Z进行特征提取,特征向量长度为1024记为a;
将对应细胞图像的文本描述T,通过word2vector工具转换为词向量t,然后通过文本编码器进行特征提取记为b;Word2vector是一种自然语言处理工具,能够根据输入的词的集合计算出词与词之间的距离。它将词转换为向量形式,以便在向量空间中进行向量运算,并计算出向量空间上的相似度,来表示文本语义上的相似度。
计算特征a和b之间的余弦相似度Sim;
;余弦相似度Sim用于训练多模态模型,作为图像特征和文本特征对齐的损失,实现图像与文本的一一对应。满足后续更具输入细胞图像,输出对应的文本描述。多模态模型由图像编码器、文本编码器和解码器构成。
同时通过交叉熵CE和KL 散度来训练文本解码器,为通过解码器获得的词向量,表示编解码器;
。
交叉熵是Shannon信息论中一个重要概念,主要用于度量两个概率分布间的差异性信息。在机器学习领域,交叉熵是一种常用的损失函数,用于描述模型预测值与真实值的差距大小。在语言模型中,交叉熵可以衡量模型预测的难度,也可以看作是用该模型表示文本的压缩比。交叉熵的意义是用该模型对文本识别的难度,或者从压缩的角度来看,每个词平均要用几个位来编码。交叉熵也常用于分类问题中。在多分类问题中,交叉熵作为损失函数,用于优化模型的预测结果和真实标签之间的差异。而在二分类问题中,交叉熵损失函数则用于评估模型对于正负样本的区分能力。KL散度(Kullback-Leibler divergence,简称KLD)是相对熵的一种度量方式,又被称为信息散度或信息增益。它用于度量两个概率分布之间的差异,在信息理论中,相对熵等价于两个概率分布的信息熵的差值。
通过文本解码器,将提取到的形态特征向量转化为具体的细胞描述信息,可以作为可解释性分析提供给专业医师作为参考。
S105,通过预先构建的细胞形态描述库对所述形态描述进行相似度匹配,得到所述待识别细胞的类别。
具体地,将所述细胞描述信息与预先构建的细胞形态描述库中信息进行匹配,分别计算细胞大小、细胞形状、细胞核、细胞质、细胞包膜以及特殊染色这六个信息的相似度;
将所述六个信息中相似度最高的一个信息对应的细胞类别,作为识别出的细胞类别。
在本实施例中,所述相似度的计算方法如下:
根据,计算所述相似度;其中,/>为细胞形态描述库中的信息通过编码和下采样得到的特征向量,/>为待识别细胞的细胞描述信息。
如图4所示,其中描述F为细胞信息库中的信息,F`为待识别细胞信息。为了提高速度,描述F在记录入信息库时已通过编码和下采样得到特征向量。
当需要加入新的细胞类别时,可以不通过传统的深度学习方法对模型进行微调,将新的细胞类别的细胞描述信息加入到所述细胞形态描述库即可实现相同效果。
请参阅图5,本发明实施例提供一种基于多模态融合的细胞形态学识别装置,包括:
获取单元51,用于获取待识别细胞的细胞图像;
分割单元52,用于将所述细胞图像输入预先训练的语义分割网络,预测细胞区域信息;
提取单元53,用于将所述细胞区域信息和所述细胞图像结合,输入到预先训练的卷积神经网络中,对细胞类型和状态进行提取特征;
解码单元54,用于将提取的特征输入预先训练的文本解码器进行解码,输出对所述待识别细胞的形态描述;
匹配单元55,用于通过预先构建的细胞形态描述库对所述形态描述进行相似度匹配,得到所述待识别细胞的类别。
本发明实施例还提供一种存储介质,本发明实施例还提供一种存储介质,所述存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现本发明提供的基于多模态融合的细胞形态学识别方法各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(英文:Read-OnlyMemory,简称:ROM)或随机存储记忆体(英文:RandomAccessMemory,简称:RAM)等。
本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书中各个实施例之间相同相似的部分互相参见即可。尤其,对于基于多模态融合的细胞形态学识别装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例中的说明即可。
以上所述的本发明实施方式并不构成对本发明保护范围的限定。
Claims (10)
1.一种基于多模态融合的细胞形态学识别方法,其特征在于,包括:
获取待识别细胞的细胞图像;
将所述细胞图像输入预先训练的语义分割网络,预测细胞区域信息;
将所述细胞区域信息和所述细胞图像结合,输入到预先训练的卷积神经网络中,对细胞类型和状态进行提取特征;
将提取的特征输入预先训练的文本解码器进行解码,输出对所述待识别细胞的形态描述;
通过预先构建的细胞形态描述库对所述形态描述进行相似度匹配,得到所述待识别细胞的类别。
2.如权利要求1所述的基于多模态融合的细胞形态学识别方法,其特征在于,将所述细胞图像输入预先训练的语义分割网络,预测细胞区域信息,包括:
通过语义分割网络,对所述细胞图像的细胞区域和细胞核区域进行分割,得到细胞区域信息,所述细胞区域信息为语义分割信息。
3.如权利要求2所述的基于多模态融合的细胞形态学识别方法,其特征在于,将所述细胞区域信息和所述细胞图像结合,输入到预先训练的卷积神经网络中,对细胞类型和状态进行提取特征,包括:
将所述语义分割信息与细胞图像结合,输入到预先训练好的图像编码器,提取形态特征向量。
4.如权利要求3所述的基于多模态融合的细胞形态学识别方法,其特征在于,将提取的特征输入预先训练的文本解码器进行解码,输出对所述待识别细胞的形态描述,包括:
通过文本解码器,将提取到的形态特征向量转化为具体的细胞描述信息。
5.如权利要求4所述的基于多模态融合的细胞形态学识别方法,其特征在于,通过预先构建的细胞形态描述库对所述形态描述进行相似度匹配,得到所述待识别细胞的类别,包括:
将所述细胞描述信息与预先构建的细胞形态描述库中信息进行匹配,分别计算细胞大小、细胞形状、细胞核、细胞质、细胞包膜以及特殊染色这六个信息的相似度;
将所述六个信息中相似度最高的一个信息对应的细胞类别,作为识别出的细胞类别。
6.如权利要求5所述的基于多模态融合的细胞形态学识别方法,其特征在于,所述相似度的计算方法如下:
根据,计算所述相似度;其中,/>为细胞形态描述库中的信息通过编码和下采样得到的特征向量,/>为待识别细胞的细胞描述信息。
7.如权利要求6所述的基于多模态融合的细胞形态学识别方法,其特征在于,将所述细胞图像输入预先训练的语义分割网络,预测细胞区域信息的步骤中,所述语义分割网络基于本地细胞数据的类别标注进行训练,所述本地细胞数据具有对具体细胞的描述信息,所述描述信息包括:细胞大小、细胞形状、细胞核、细胞质、细胞包膜以及特殊染色的描述信息,其中,所述细胞核和细胞质的轮廓信息用于训练语义分割网络。
8.如权利要求7所述的基于多模态融合的细胞形态学识别方法,其特征在于,将提取的特征输入预先训练的文本解码器进行解码,输出对所述待识别细胞的形态描述的步骤中,所述文本解码器训练方式如下:
使用UNet模型对细胞语义信息进行提取,输入目标图像X,获得通道数为2的Y,第一通道Y0表示细胞区域,第二通道Y1表示细胞核区域;
通过目标图像X的语义标签L与模型输出结果Y之间的重叠区域的比例计算出损失:
;
用Z代表细胞语义信息与细胞图像的组合X&Y,通过图像编码器对Z进行特征提取,特征向量长度为1024记为a;
将对应细胞图像的文本描述T,通过word2vector工具转换为词向量t,然后通过文本编码器进行特征提取记为b;
计算特征a和b之间的余弦相似度Sim;
;
同时通过交叉熵CE和KL散度来训练文本解码器,为通过解码器获得的词向量,/>表示编解码器;
。
9.如权利要求8所述的基于多模态融合的细胞形态学识别方法,其特征在于,所述方法还包括:
当需要加入新的细胞类别时,将新的细胞类别的细胞描述信息加入到所述细胞形态描述库。
10.一种基于多模态融合的细胞形态学识别装置,其特征在于,包括:
获取单元,用于获取待识别细胞的细胞图像;
分割单元,用于将所述细胞图像输入预先训练的语义分割网络,预测细胞区域信息;
提取单元,用于将所述细胞区域信息和所述细胞图像结合,输入到预先训练的卷积神经网络中,对细胞类型和状态进行提取特征;
解码单元,用于将提取的特征输入预先训练的文本解码器进行解码,输出对所述待识别细胞的形态描述;
匹配单元,用于通过预先构建的细胞形态描述库对所述形态描述进行相似度匹配,得到所述待识别细胞的类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311377332.7A CN117115817A (zh) | 2023-10-24 | 2023-10-24 | 基于多模态融合的细胞形态学识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311377332.7A CN117115817A (zh) | 2023-10-24 | 2023-10-24 | 基于多模态融合的细胞形态学识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117115817A true CN117115817A (zh) | 2023-11-24 |
Family
ID=88806023
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311377332.7A Pending CN117115817A (zh) | 2023-10-24 | 2023-10-24 | 基于多模态融合的细胞形态学识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117115817A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117746995A (zh) * | 2024-02-21 | 2024-03-22 | 厦门大学 | 基于单细胞rna测序数据的细胞类型识别方法、装置及设备 |
CN118626974A (zh) * | 2024-08-12 | 2024-09-10 | 北京小蝇科技有限责任公司 | 白细胞分类方法和装置 |
-
2023
- 2023-10-24 CN CN202311377332.7A patent/CN117115817A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117746995A (zh) * | 2024-02-21 | 2024-03-22 | 厦门大学 | 基于单细胞rna测序数据的细胞类型识别方法、装置及设备 |
CN117746995B (zh) * | 2024-02-21 | 2024-05-28 | 厦门大学 | 基于单细胞rna测序数据的细胞类型识别方法、装置及设备 |
CN118626974A (zh) * | 2024-08-12 | 2024-09-10 | 北京小蝇科技有限责任公司 | 白细胞分类方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112784696B (zh) | 基于图像识别的唇语识别方法、装置、设备及存储介质 | |
CN117115817A (zh) | 基于多模态融合的细胞形态学识别方法及装置 | |
CN110717324B (zh) | 裁判文书答案信息提取方法、装置、提取器、介质和设备 | |
CN110362819B (zh) | 基于卷积神经网络的文本情感分析方法 | |
CN109255289A (zh) | 一种基于统一式生成模型的跨衰老人脸识别方法 | |
CN113326380A (zh) | 基于深度神经网络的设备量测数据处理方法、系统及终端 | |
CN116304984A (zh) | 基于对比学习的多模态意图识别方法及系统 | |
CN113723083A (zh) | 基于bert模型的带权消极监督文本情感分析方法 | |
CN117611576A (zh) | 一种基于图文融合对比学习预测方法 | |
CN113743389B (zh) | 一种面部表情识别的方法、装置和电子设备 | |
CN117235605B (zh) | 一种基于多模态注意力融合的敏感信息分类方法及装置 | |
CN110910388A (zh) | 一种基于U-Net和密度估计的癌细胞图像分割方法 | |
CN114416991A (zh) | 一种基于prompt的文本情感原因分析方法和系统 | |
CN112765353B (zh) | 一种基于科研文本的生物医学学科分类方法及装置 | |
Soji et al. | Indian Sign Language Recognition Using Surf Feature Extraction and MDAE for Patient Disability Discussion | |
CN116935411A (zh) | 一种基于字符分解和重构的部首级古文字识别方法 | |
Li et al. | Review network for scene text recognition | |
CN117056506A (zh) | 一种基于长序列文本数据的舆情情感分类方法 | |
CN108416389B (zh) | 基于降噪稀疏自动编码器和密度空间采样的图像分类方法 | |
CN112035670B (zh) | 基于图像情感倾向的多模态谣言检测方法 | |
CN114842301A (zh) | 一种图像注释模型的半监督训练方法 | |
Maung et al. | Text Region Localization and Recognition for ID Card Identification using Deep Learning Approaches | |
Ranjbar et al. | Continuous Sign Language Recognition Using Intra-inter Gloss Attention | |
Sravani et al. | Multimodal Sentimental Classification using Long-Short Term Memory | |
Cheng et al. | Bidirectional Trained Tree-Structured Decoder for Handwritten Mathematical Expression Recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |