CN114648535A - 一种基于动态transformer的食品图像分割方法及系统 - Google Patents
一种基于动态transformer的食品图像分割方法及系统 Download PDFInfo
- Publication number
- CN114648535A CN114648535A CN202210278127.4A CN202210278127A CN114648535A CN 114648535 A CN114648535 A CN 114648535A CN 202210278127 A CN202210278127 A CN 202210278127A CN 114648535 A CN114648535 A CN 114648535A
- Authority
- CN
- China
- Prior art keywords
- image
- feature
- fusion
- food
- segmentation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 235000013305 food Nutrition 0.000 title claims abstract description 68
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000003709 image segmentation Methods 0.000 title claims abstract description 20
- 239000013598 vector Substances 0.000 claims abstract description 75
- 230000011218 segmentation Effects 0.000 claims abstract description 51
- 230000004927 fusion Effects 0.000 claims abstract description 45
- 230000002776 aggregation Effects 0.000 claims abstract description 14
- 238000004220 aggregation Methods 0.000 claims abstract description 14
- 235000015219 food category Nutrition 0.000 claims abstract description 11
- 230000000007 visual effect Effects 0.000 claims abstract description 10
- 238000005070 sampling Methods 0.000 claims abstract description 9
- 230000007246 mechanism Effects 0.000 claims description 16
- 238000005516 engineering process Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 2
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 230000003044 adaptive effect Effects 0.000 abstract description 4
- 238000000605 extraction Methods 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 235000012041 food component Nutrition 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 239000004615 ingredient Substances 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 208000008589 Obesity Diseases 0.000 description 1
- 239000000306 component Substances 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 235000005911 diet Nutrition 0.000 description 1
- 230000037213 diet Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 235000019601 food appearance Nutrition 0.000 description 1
- 239000005428 food component Substances 0.000 description 1
- 239000005417 food ingredient Substances 0.000 description 1
- 230000037406 food intake Effects 0.000 description 1
- 235000012631 food intake Nutrition 0.000 description 1
- 235000004280 healthy diet Nutrition 0.000 description 1
- 235000001497 healthy food Nutrition 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 235000016709 nutrition Nutrition 0.000 description 1
- 230000035764 nutrition Effects 0.000 description 1
- 235000020824 obesity Nutrition 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30108—Industrial image inspection
- G06T2207/30128—Food products
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于动态transformer的食品图像分割方法及系统,其方法包括S1:将输入的食品图像划分为不同大小的一系列图像块,输入到多个不同尺寸的动态视觉的transformer编码器网络;输出多层不同尺度的图像特征向量;S2:提取预设层的图像特征向量进行融合,得到融合后的图像特征向量;S3:构建多级特征聚合网络,将融合后的图像特征向量进行自顶向下的特征融合,构建特征金字塔,得到多尺度特征融合向量;S4:构建分割解码器,针对特征金字塔融合的多尺度特征进行卷积和上采样操作,最终生成具有食物类别边界分割精确的分割结果。本发明提供的方法能够自适应不同图片尺度,并提高图片语义信息提取的丰富性和整体性,使得食品分割模型更具有泛化性和鲁棒性。
Description
技术领域
本发明涉及计算机视觉和食品计算领域,具体涉及一种基于动态transformer的食品图像分割方法及系统。
背景技术
计算机视觉正在成为一种获取和分析真实场景图像的新兴技术,它帮助智能系统从图像和多维数据中感知世界。计算机视觉的核心技术一直与图像分析和处理有关,它可以对图像中的一些具体对象进行分类、检测和分割。图像语义分割对一组对象类别进行像素级预测;与预测整个图像标签的图像分类相比,分割通常是一项要求更高的任务。从最早的传统方法,如阈值、k均值聚类、区域生长,到一些已经获得了很好效果的深度学习模型,如FCN、PSPNet,以及DeepLab系列,都是通过对图像进行卷积操作获得其特征表征,依赖卷积网络特有的平移不变性和局部性特点获取图像语义细节信息。
近年来,随着自然语言处理(NLP)的巨大成功,人们逐渐对将注意机制和Transformer引入视觉任务产生了强烈的兴趣。例如双注意网络(DANet),利用自注意机制来捕获丰富的上下文依赖性。将transformer用于图像分类的开山之作ViT,根据NLP中transformer的设计,作者将图像分割成多个线性patch embedding,并添加位置信息,在ImageNet上取得了高效的性能。在语义分割方面,第一篇利用transformer用于图像语义分割的论文:SETR,证明了其在语义分割中的可行性。
随着生活水平的改善,成人肥胖率在逐渐增加,人们更加重视健康饮食和食品安全,并考虑到准确跟踪食物摄入量的意义。因此,食品计算的概念被提出,并越来越引起了公众的关注,因为它涵盖了一个全面的技术和方向总结,用于食品和健康领域的研究和运用。食物计算的一个关键目标是自动识别不同类型的食物,而食物分割是开发与健康直接相关的应用方面是必要和不可或缺的技术,如估计食物热量或营养和食物分量评估。在计算机视觉中,相关工作从食物分类、菜谱检索到食品溯源等方面。食品计算中定义了食品分类,和食品分割。与食品分类相比,食品分割更为复杂,因为其目标是对每个像素进行分类,并识别饮食图像中的每个成分类别及其像素级区域。与一般数据集上的语义分割不同,由于食物外观的巨大多样性和成分分布的不平衡,食品分割是一项更具挑战性的任务。有两个主要原因,用不同方式烹饪的同一食物在视觉上有很大不同,不同成分的外观可能看起来非常相似。另一方面,食品数据集的分布通常是不平衡的,存在长尾分布问题。因此,如何准确地识别和定位不同的食物成分成为一个亟待解决的问题。
发明内容
为了解决上述技术问题,本发明提供一种基于动态transformer的食品图像分割方法及系统。
本发明技术解决方案为:一种基于动态transformer的食品图像分割方法,包括:
步骤S1:将输入的食品图像按照预设尺寸划分为不同大小的一系列图像块,构建多个不同尺寸的动态视觉的transformer编码器网络,实现对不同划分尺度的一系列所述图像块进行特征编码;并利用多头自注意力机制,对所述图像块的不同尺度特征进行加权计算;输出多层不同尺度的图像特征向量;
步骤S2:提取预设层的所述图像特征向量进行融合,得到融合后的图像特征向量;
步骤S3:构建多级特征聚合网络,将所述融合后的图像特征向量进行自顶向下的特征融合,构建多层特征金字塔,得到多尺度特征融合向量;
步骤S4:基于所述多层特征金字塔,构建分割解码器,对所述融合特征向量进行卷积操作,以及特征融合得到多尺度特征向量,最后进行上采样操作;同时,使用交叉熵损失函数优化网络参数,最终生成具有食物类别边界分割精确的分割结果。
本发明与现有技术相比,具有以下优点:
本发明公开了一种基于动态transformer的食品图像分割方法,设计利用不同图像块大小的transformer编码器进行食品图片线性划分,使得能够自适应不同图片尺度,提取多个不同分辨率的图像特征;构建特征金字塔,以此提高图片语义信息提取的丰富性和整体性,使得食品分割模型更具有泛化性和鲁棒性,极大缓解了食品分割模型不具有针对性的问题,提高了食品图像分割的精度和准确率。
附图说明
图1为本发明实施例中一种基于动态transformer的食品图像分割方法的流程图;
图2为本发明实施例中动态视觉的transformer编码器网络结构示意图;
图3为本发明实施例中transformer编码器的结构示意图;
图4为本发明实施例中一种基于动态transformer的食品图像分割系统的结构框图。
具体实施方式
本发明提供了一种基于动态transformer的食品图像分割方法,利用不同图像块大小的transformer编码器进行食品图片线性划分,使得能够自适应不同图片尺度,提取多个不同分辨率的图像特征;构建特征金字塔,以此提高图片语义信息提取的丰富性和整体性,使得食品分割模型更具有泛化性和鲁棒性。
为了使本发明的目的、技术方案及优点更加清楚,以下通过具体实施,并结合附图,对本发明进一步详细说明。
实施例一
如图1所示,本发明实施例提供的一种基于动态transformer的食品图像分割方法,包括下述步骤:
步骤S1:将输入的食品图像按照预设尺寸划分为不同大小的一系列图像块,构建多个不同尺寸的动态视觉的transformer编码器网络,实现对不同划分尺度的一系列图像块进行特征编码;并利用多头自注意力机制,对图像块的不同尺度特征进行加权计算;输出多层不同尺度的图像特征向量;
步骤S2:提取预设层的图像特征向量进行融合,得到融合后的图像特征向量;
步骤S3:构建多级特征聚合网络,将融合后的图像特征向量进行自顶向下的特征融合,构建多层特征金字塔,得到多尺度特征融合向量;
步骤S4:基于多层特征金字塔,构建分割解码器,对每层融合特征向量进行卷积操作,以及特征融合得到多尺度特征向量,最后进行上采样操作;同时,使用交叉熵损失函数优化网络参数,最终生成具有食物类别边界分割精确的分割结果。
在一个实施例中,上述步骤S1:将输入的食品图像按照预设尺寸划分为不同大小的一系列图像块,构建多个不同尺寸的动态视觉的transformer编码器网络,实现对不同划分尺度的一系列图像块进行特征编码;并利用多头自注意力机制,对图像块的不同尺度特征进行加权计算;输出多层不同尺度的图像特征向量,具体包括:
步骤S11:将食品图像按切割成不同尺寸的图像块,将图像块按照预设的顺序进行排序,得到长度为Li的序列,其中,Li是根据第i个尺度划分的食品图像尺寸与图像块尺寸的比值;
本发明实施例针对食品图像尺度大小分布不一致问题,分别对同一张食品图片进行不同尺度的线性划分,以适应不同图片的实际尺寸,如图2所示,本发明实施例对输入的食品图片分别进行4x4,8x8,16x16,32x32的划分,得到不同尺度的图像块。
然后,将按照不同划分尺度的图像块分别进行序列化排列,获得四个尺度不同的图像块序列,长度分别为L1,L2,L3,L4,Li表示输入图片大小与图像块大小的比值。
由于对输入的食品图片按照四种不同比例划分为图像块后,各图像块之间没有信息交互,因此通过下述步骤利用绝对位置编码添加位置信息。
步骤S12:利用绝对位置编码技术对每一个图像块添加位置信息,建立图像块之间的关联关系,如公式(1)所示;
其中,pos表示位置,dmodel表示维度信息,PE代表每个图像块的位置信息;
步骤S13:将对添加位置信息后的一系列图像块,利用三种权重矩阵WQ,WK,WV进行加权映射到不同的空间Q,K,V,利用公式(2),计算注意力机制的权重:
其中,Attention表示注意力机制的输出,dk为空间K的维度;
步骤S14:将编码器的每一层利用归一化和多层感知机进行残差连接,如公式(3)所示:
其中,fl-1为上一层编码器所输出的图像特征作为当前层的输入,表示fl-1在第l层编码器的中间特征变量,fl为当前层编码器的输出特征,ln表示层归一化操作,msa表示多头注意力机制,mlp表示多层感知机。如图3所示,transformer编码器的整体结构,由多头自注意力机制和多层感知机组成。
在一个实施例中,上述S2:提取预设层的图像特征向量进行融合,得到融合后的图像特征向量,具体包括:
根据需求,提取不同的预设层的编码器的输出图像特征向量,对提取的每一层的图像特征向量首先进行1x1的卷积操作,然后进行特征融合;最终获得的融合后的图像特征向量。
本发明实施例经过步骤S1对四种不同尺寸的图像块,分别构建4个编码器,每个编码器包含L层transformer层,分别从中提取第5层,第7层,第9层和第11层的四种不同尺度的食品图像视觉特征,一共提取16中不同尺度特征向量,然后将16种不同尺度的图像特征进行融合,其中,分别对于四种不同尺度的l5,l7,l9和l11层特征进行特征融合,首先由于每个特征的尺度大小都不一致,因此利用1x1卷积进行维度对齐操作,利用双线性内插对图像特征进行上采样,实现不同特征的尺度对齐。以此进行特征融合后获得四种图像特征,分别为f5,f7,f9和f11,如图2所示。
在一个实施例中,上述步骤S3:构建多级特征聚合网络,将融合后的图像特征向量进行自顶向下的特征融合,构建多层特征金字塔,得到多尺度融合特征向量,具体包括:
将融合后的图像特征向量,通过特征尺度对齐和维度对齐操作,分别利用上采样和1x1卷积,自顶向下实现进行聚合操作,构建多层特征金字塔,得到不同尺度和维度的多尺度融合特征向量。
如图2中多级特征聚合模块所示,将f11作为特征金字塔顶层,f11和f9使进行特征聚合变为第二层特征,利用上一层的特征和f7进行特征聚合作为第三层特征,利用第三层特征和f5进行特征聚合作为最底层特征,最终构建一个四层特征金字塔。
在一个实施例中,上述步骤S4:基于多层特征金字塔,构建分割解码器,对每层融合特征向量进行卷积操作,以及特征融合得到多尺度特征向量,最后进行上采样操作;同时,使用交叉熵损失函数优化网络参数,最终生成具有食物类别边界分割精确的分割结果,具体包括:
基于多层特征金字塔,构建分割解码器,对每层融合特征向量利用大小为1x1卷积核进行卷积操作后进行特征融合,得到多尺度特征向量,并利用上采样进行尺度变化,使得多尺度特征向量与输入的食品图像的尺度保持一致;同时,使用交叉熵损失函数优化网络参数,直至损失函数收敛,得到具有食物类别边界分割精确的分割结果。
利用步骤S3得到的四层特征金字塔,构建分割解码器,将特征金字塔的四种不同尺度不同维度融合特征进行融合,通过利用卷积核大小为1x1的卷积进行维度的变换,和双线性内插的上采样进行尺度变化,使得四种特征能够融合,此特征不仅适用于不同大小的原始图片数据,同样包含食物图片的局部细节信息和全局语义信息,使得图像内部不同成分食物的文本信息和边界信息都能很好的保留并强化。对多尺度特征信息进行上采样操作,使得特征尺度大小和输入图像大小保持一致,利用二元交叉熵损失函数计算预测值和真实值之间的误差,应用Adam梯度下降算法,优化图像编码器中的参数,直到损失函数收敛或循环达到最大迭代次数,得到最终训练模型的参数,生成具有食物类别边界分割精确的最优分割结果。
本发明公开了一种基于动态transformer的食品图像分割方法,设计利用不同图像块大小的transformer编码器进行食品图片线性划分,使得能够自适应不同图片尺度,提取多个不同分辨率的图像特征,构建特征金字塔,以此提高图片语义信息提取的丰富性和整体性,使得食品分割模型更具有泛化性和鲁棒性,极大缓解了食品分割模型不具有针对性的问题,提高了食品图像分割的精度和准确率。
实施例二
如图4所示,本发明实施例提供了一种基于动态transformer的食品图像分割系统,包括下述模块:
获取图像特征向量模块51,用于将输入的食品图像按照预设尺寸划分为不同大小的一系列图像块,构建多个不同尺寸的动态视觉的transformer编码器网络,实现对不同划分尺度的一系列图像块进行特征编码;并利用多头自注意力机制,对图像块的不同尺度特征进行加权计算;输出多层不同尺度的图像特征向量;
融合图像特征向量模块52,用于提取预设层的图像特征向量进行融合,得到融合后的图像特征向量;
构建多层特征金字塔模块53,用于构建多级特征聚合网络,将融合后的图像特征向量进行自顶向下的特征融合,构建多层特征金字塔,得到多尺度特征融合向量;
获取分割结果模块54,用于基于多层特征金字塔,构建分割解码器,对每层融合特征向量进行卷积操作,以及特征融合得到多尺度特征向量,最后进行上采样操作;同时,使用交叉熵损失函数优化网络参数,最终生成具有食物类别边界分割精确的分割结果。
提供以上实施例仅仅是为了描述本发明的目的,而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改,均应涵盖在本发明的范围之内。
Claims (6)
1.一种基于动态transformer的食品图像分割方法,其特征在于,包括:
步骤S1:将输入的食品图像按照预设尺寸划分为不同大小的一系列图像块,构建多个不同尺寸的动态视觉的transformer编码器网络,实现对不同划分尺度的一系列所述图像块进行特征编码;并利用多头自注意力机制,对所述图像块的不同尺度特征进行加权计算;输出多层不同尺度的图像特征向量;
步骤S2:提取预设层的所述图像特征向量进行融合,得到融合后的图像特征向量;
步骤S3:构建多级特征聚合网络,将所述融合后的图像特征向量进行自顶向下的特征融合,构建多层特征金字塔,得到多尺度特征融合向量;
步骤S4:基于所述多层特征金字塔,构建分割解码器,对所述融合特征向量进行卷积操作,以及特征融合得到多尺度特征向量,最后进行上采样操作;同时,使用交叉熵损失函数优化网络参数,最终生成具有食物类别边界分割精确的分割结果。
2.根据权利要求1所述的基于动态transformer的食品图像分割方法,其特征在于,所述步骤S1:将输入的食品图像按照预设尺寸划分为不同大小的一系列图像块,构建多个不同尺寸的动态视觉的transformer编码器网络,实现对不同划分尺度的一系列所述图像块进行特征编码;并利用多头自注意力机制,对所述图像块的不同尺度特征进行加权计算;输出多层不同尺度的图像特征向量,具体包括:
步骤S11:将所述食品图像按切割成不同尺寸的图像块,将所述图像块按照预设的顺序进行排序,得到长度为Li的序列,其中,Li是根据第i个尺度划分的食品图像尺寸与所述图像块尺寸的比值;
步骤S12:利用绝对位置编码技术对不同划分尺度的一系列图像块添加位置信息,建立所述图像块之间的关联关系,如公式(1)所示;
其中,pos表示位置,dmodel表示维度信息,PE代表每个所述图像块的位置信息;
步骤S13:将对添加位置信息后的一系列图像块,利用三种权重矩阵WQ,WK,WV进行加权映射到不同的空间Q,K,V,利用公式(2),计算注意力机制的权重:
其中,Attention表示注意力机制的输出,dk为空间K的维度;
步骤S14:将所述编码器的每一层利用归一化和多层感知机进行残差连接,如公式(3)所示:
3.根据权利要求1所述的基于动态transformer的食品图像分割方法,其特征在于,所述步骤S2:提取预设层的所述图像特征向量进行融合,得到融合后的图像特征向量,具体包括:
根据需求,提取不同的预设层的所述编码器的输出图像特征向量,对提取的每一层的所述图像特征向量首先进行1x1的卷积操作,然后进行特征融合;最终获得的融合后的图像特征向量。
4.根据权利要求1所述的基于动态transformer的食品图像分割方法,其特征在于,所述步骤S3:构建多级特征聚合网络,将所述融合后的图像特征向量进行自顶向下的特征融合,构建多层特征金字塔,得到多尺度融合特征向量,具体包括:
将所述融合后的图像特征向量,通过特征尺度对齐和维度对齐操作,分别利用上采样和1x1卷积,自顶向下实现进行聚合操作,构建多层特征金字塔,得到不同尺度和维度的多尺度融合特征向量。
5.根据权利要求1所述的基于动态transformer的食品图像分割方法,其特征在于,所述步骤S4:基于所述多层特征金字塔,构建分割解码器,对每层所述融合特征向量进行卷积操作,以及特征融合得到多尺度特征向量,最后进行上采样操作;同时,使用交叉熵损失函数优化网络参数,最终生成具有食物类别边界分割精确的分割结果,具体包括:
基于所述多层特征金字塔,构建分割解码器,对每层所述融合特征向量利用大小为1x1卷积核进行卷积操作后进行特征融合,得到多尺度特征向量,并利用上采样进行尺度变化,使得所述多尺度特征向量与输入的所述食品图像的尺度保持一致;同时,使用交叉熵损失函数优化网络参数,直至所述损失函数收敛,得到具有食物类别边界分割精确的分割结果。
6.一种基于动态transformer的食品图像分割系统,其特征在于,包括下述模块:
获取图像特征向量模块,用于将输入的食品图像按照预设尺寸划分为不同大小的一系列图像块,构建多个不同尺寸的动态视觉的transformer编码器网络,实现对不同划分尺度的一系列所述图像块进行特征编码;并利用多头自注意力机制,对所述图像块的不同尺度特征进行加权计算;输出多层不同尺度的图像特征向量;
融合图像特征向量模块,用于提取预设层的所述图像特征向量进行融合,得到融合后的图像特征向量;
构建多层特征金字塔模块,用于构建多级特征聚合网络,将所述融合后的图像特征向量进行自顶向下的特征融合,构建多层特征金字塔,得到多尺度特征融合向量;
获取分割结果模块,用于基于所述多层特征金字塔,构建分割解码器,对每层所述融合特征向量进行卷积操作,以及特征融合得到多尺度特征向量,最后进行上采样操作;同时,使用交叉熵损失函数优化网络参数,最终生成具有食物类别边界分割精确的分割结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210278127.4A CN114648535A (zh) | 2022-03-21 | 2022-03-21 | 一种基于动态transformer的食品图像分割方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210278127.4A CN114648535A (zh) | 2022-03-21 | 2022-03-21 | 一种基于动态transformer的食品图像分割方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114648535A true CN114648535A (zh) | 2022-06-21 |
Family
ID=81995902
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210278127.4A Withdrawn CN114648535A (zh) | 2022-03-21 | 2022-03-21 | 一种基于动态transformer的食品图像分割方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114648535A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115471765A (zh) * | 2022-11-02 | 2022-12-13 | 广东工业大学 | 一种航拍图像的语义分割方法、装置、设备及存储介质 |
CN116993756A (zh) * | 2023-07-05 | 2023-11-03 | 石河子大学 | 一种大田棉花黄萎病病斑分割方法 |
CN117542045A (zh) * | 2024-01-10 | 2024-02-09 | 济南大学 | 一种基于空间引导自注意力的食品识别方法及系统 |
CN117911795A (zh) * | 2024-03-18 | 2024-04-19 | 杭州食方科技有限公司 | 食品图像识别方法、装置、电子设备和计算机可读介质 |
-
2022
- 2022-03-21 CN CN202210278127.4A patent/CN114648535A/zh not_active Withdrawn
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115471765A (zh) * | 2022-11-02 | 2022-12-13 | 广东工业大学 | 一种航拍图像的语义分割方法、装置、设备及存储介质 |
CN115471765B (zh) * | 2022-11-02 | 2023-04-07 | 广东工业大学 | 一种航拍图像的语义分割方法、装置、设备及存储介质 |
CN116993756A (zh) * | 2023-07-05 | 2023-11-03 | 石河子大学 | 一种大田棉花黄萎病病斑分割方法 |
CN117542045A (zh) * | 2024-01-10 | 2024-02-09 | 济南大学 | 一种基于空间引导自注意力的食品识别方法及系统 |
CN117542045B (zh) * | 2024-01-10 | 2024-05-10 | 山东记食信息科技有限公司 | 一种基于空间引导自注意力的食品识别方法及系统 |
CN117911795A (zh) * | 2024-03-18 | 2024-04-19 | 杭州食方科技有限公司 | 食品图像识别方法、装置、电子设备和计算机可读介质 |
CN117911795B (zh) * | 2024-03-18 | 2024-06-11 | 杭州食方科技有限公司 | 食品图像识别方法、装置、电子设备和计算机可读介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111291212B (zh) | 基于图卷积神经网络的零样本草图图像检索方法和系统 | |
CN110263912B (zh) | 一种基于多目标关联深度推理的图像问答方法 | |
CN114648535A (zh) | 一种基于动态transformer的食品图像分割方法及系统 | |
CN111079532B (zh) | 一种基于文本自编码器的视频内容描述方法 | |
US11276218B2 (en) | Method for skinning character model, device for skinning character model, storage medium and electronic device | |
CN114255238A (zh) | 一种融合图像特征的三维点云场景分割方法及系统 | |
CN107220506A (zh) | 基于深度卷积神经网络的乳腺癌风险评估分析系统 | |
CN114119975A (zh) | 一种语言引导的跨模态实例分割方法 | |
JP7417679B2 (ja) | 情報抽出方法、装置、電子機器及び記憶媒体 | |
CN116580257A (zh) | 特征融合模型训练及样本检索方法、装置和计算机设备 | |
CN115131698B (zh) | 视频属性确定方法、装置、设备及存储介质 | |
CN113177950A (zh) | 基于半监督对抗学习的冠脉造影血管图像分割的方法 | |
CN113516133A (zh) | 一种多模态图像分类方法及系统 | |
CN113807340A (zh) | 一种基于注意力机制的不规则自然场景文本识别方法 | |
CN114140831B (zh) | 人体姿态估计方法、装置、电子设备及存储介质 | |
CN113436224B (zh) | 一种基于显式构图规则建模的智能图像裁剪方法及装置 | |
CN118155231A (zh) | 文档的识别方法、装置、设备、介质及产品 | |
CN117409431B (zh) | 一种多模态大型语言模型训练方法、电子设备及存储介质 | |
CN112686830B (zh) | 基于图像分解的单一深度图的超分辨率方法 | |
CN113159053A (zh) | 图像识别方法、装置及计算设备 | |
CN115546236B (zh) | 基于小波变换的图像分割方法及装置 | |
CN116543338A (zh) | 一种基于注视目标估计的学生课堂行为检测方法 | |
CN113255824B (zh) | 训练分类模型和数据分类的方法和装置 | |
CN112990336B (zh) | 基于竞争注意力融合的深度三维点云分类网络构建方法 | |
CN115908697A (zh) | 基于点云概率分布学习的生成模型及其方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20220621 |
|
WW01 | Invention patent application withdrawn after publication |