CN116630964A - 一种基于离散小波注意力网络的食品图像分割方法 - Google Patents
一种基于离散小波注意力网络的食品图像分割方法 Download PDFInfo
- Publication number
- CN116630964A CN116630964A CN202310649752.XA CN202310649752A CN116630964A CN 116630964 A CN116630964 A CN 116630964A CN 202310649752 A CN202310649752 A CN 202310649752A CN 116630964 A CN116630964 A CN 116630964A
- Authority
- CN
- China
- Prior art keywords
- attention
- discrete wavelet
- network
- food
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 235000013305 food Nutrition 0.000 title claims abstract description 65
- 238000000034 method Methods 0.000 title claims abstract description 23
- 238000003709 image segmentation Methods 0.000 title claims abstract description 13
- 230000011218 segmentation Effects 0.000 claims abstract description 24
- 230000004927 fusion Effects 0.000 claims abstract description 16
- 238000013461 design Methods 0.000 claims abstract description 4
- 235000015219 food category Nutrition 0.000 claims abstract description 4
- 238000005070 sampling Methods 0.000 claims abstract description 4
- 238000013526 transfer learning Methods 0.000 claims abstract description 3
- 238000012545 processing Methods 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 19
- 230000007246 mechanism Effects 0.000 claims description 19
- 230000009466 transformation Effects 0.000 claims description 12
- 230000004913 activation Effects 0.000 claims description 4
- 238000001994 activation Methods 0.000 claims description 4
- 238000005728 strengthening Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 2
- 238000011176 pooling Methods 0.000 claims description 2
- 238000010276 construction Methods 0.000 claims 2
- 238000003672 processing method Methods 0.000 claims 1
- 230000008569 process Effects 0.000 abstract description 6
- 238000009826 distribution Methods 0.000 abstract description 3
- 230000001788 irregular Effects 0.000 abstract description 2
- 239000000284 extract Substances 0.000 abstract 1
- 238000005516 engineering process Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 238000013507 mapping Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 235000019577 caloric intake Nutrition 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 208000017667 Chronic Disease Diseases 0.000 description 1
- 235000008694 Humulus lupulus Nutrition 0.000 description 1
- 208000008589 Obesity Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000001684 chronic effect Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 206010012601 diabetes mellitus Diseases 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 235000012041 food component Nutrition 0.000 description 1
- 239000005417 food ingredient Substances 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000004630 mental health Effects 0.000 description 1
- 208000030159 metabolic disease Diseases 0.000 description 1
- 235000015097 nutrients Nutrition 0.000 description 1
- 235000016709 nutrition Nutrition 0.000 description 1
- 235000020824 obesity Nutrition 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000003313 weakening effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/68—Food, e.g. fruit or vegetables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明提出一种基于离散小波注意力网络的食品图像分割方法,首先针对食品图像中食物类别多,分布不规律,大小不一致,边界信息模糊问题,利用迁移学习得到的在Food2K上训练好的Food2K‑ResNet提取食品图像特征,设计结合离散小波注意力网络和残差通道注意力网络,形成双分支网络,进行空间域和频域特征处理,分别从空间维度和通道维度来获取空间特征和通道特征,突出并丰富食品图像的特征维度;最后构建分割头网络,将两个分支处理后的不同尺度特征进行卷积、特征融合和上采样操作使得终获得的特征大小和输入图像大小保持一致,从而获得高质量、高度细节化的分割结果。
Description
技术领域
本发明涉及计算机视觉和食品计算领域,特别是涉及一种基于离散小波注意力网络的食品图像分割方法。
背景技术
计算机视觉技术是一种综合了识别技术、场景重建技术、图像恢复技术等多项先进技术种类的现代化信息技术。目前来看,计算机视觉技术在我国的发展速度极快,在图像分析和处理方面,它可以对图像中的内容进行分类、检测和分割。图像语义分割主要是标注出图像中每个像素所属的对象类别;相比较于对整个图像标签进行预测的图像分类来说,对于分割的要求通常会更高。从早期的传统分割方法,如阈值、k均值聚类、区域生长,到目前已经取得了优良效果的深度学习模型,如FCN、PSPNet,以及DeepLab系列,都是利用卷积网络所持有的平移不变性和局部性特点来获取图像中的细节信息,对图像进行卷积操作来获得图像的特征。
近年来,离散小波变换广泛应用于视觉领域,例如图像超分,图像去噪处理,图像语义分割等等。离散小波变换将图像从空间域处理转换为频域处理,大大减少了计算时的参数量甚至复杂度,频域分析一直是图像处理的有力工具。有效地利用图像频域信息可以大大提高图像恢复算法的性能。一些方法利用频域信息的有效性,将频率信息嵌入到网络结构中。并且提出了小波残差网络,发现神经网络可以从小波子带的学习中获益,利用小波子带的高频信息实现图像纹理细节的强化。
肥胖是一种对个人身心健康与社会都具有危害的慢性疾病,根据西方医学理论,导致肥胖的原因在于卡路里摄入与消耗的不平衡,同时,这也导致了诸如糖尿病等慢性代谢疾病风险的提升。传统上,营养学家试图通过查看患者所食用食物的图像来解决这些问题。食品图像分割旨在区分各种食品中的各种成分,这对食品安全至关重要,因为估计卡路里和其他营养物质对人类健康和可持续发展很重要。然而,目前的图像分割方法在食物图像数据集上由于其外观的多样性以及食材和日常道具之间的条件差异,其分割性能较差,对食物图像的特征提取能力不足。因此,一个拥有高性能的分割模型可以准确地识别和定位不同的食物成分,这也就为之后进行营养评估和分量估计做出了必要的准备工作。
发明内容
本发明主要解决的技术问题:针对食品图像中食物类别多,分布不规律,大小不一致,边界信息模糊的问题,提供了一种基于离散小波注意力网络的食品图像分割方法来解决图像特征在特征处理过程中纹理细节丢失的问题,同时结合注意力机制,实现对频域特征和通道特征加权处理,更好的保留图像语义信息。结合离散小波变换和注意力机制能够更好的实现对图像纹理特征的频域转化,强化高频信息和抑制低频信息,实现空间域和频域特征的融合,从而获得高质量、高度细节化的分割结果。
为解决上述技术问题,本发明采用的一个技术方案是:设计结合离散小波注意力网络和残差通道注意力网络,形成双分支网络,进行空间域和频域特征处理,分别从空间维度和通道维度来获取空间特征和通道特征,突出并丰富食品图像的特征维度;最后构建分割头网络,将两个分支处理后的不同尺度特征进行卷积、特征融合和上采样操作使得终获得的特征大小和输入图像大小保持一致,其具体包括以下步骤:
(1)针对食品图像特点和特征提取不充分,通过迁移学习利用Food2K-ResNet作为食品图像的特征提取器,该特征提取器主要是利用ResNet模型再在Food2K上进行针对食品图像进行训练,使其特征提取能力更加符合食品图像的特点。然后设计结合离散小波注意力网络和残差通道注意力网络,形成双分支网络,实现从空间维度和通道维度进行图像特征的加权处理,突出并丰富食品图像的特征表示,使得食品图像中的细节特征更加显著,从而使得分割结果边界更加明晰;
(2)针对离散小波注意力分支网络,其设计遵循U-Net网络结构,通过对Food2K-ResNet提取到的特征进行处理,经过离散小波变换分解为对应的低频特征和高频特征,然后利用空间注意力机制实现对高频特征的加权强化处理,对低频特征进行抑制,将低频特征与卷积输出连接为下采样特征,并通过跳跃连接将高频特征添加到离散小波变换上采样模块中;
(3)针对残差通道注意力网络,主要是利用残差连接和通道注意力机制,获取食品图像的通道特征,实现通道特征与原始输入特征的融合,突出原始食品图像的通道信息;
(4)利用步骤2和3分别获得的食品图像特征向量,分别进行卷积操作,使得每个特征的尺度大小一致,然后进行特征融合,形成新的具有多维度、多域表征的食品图像特征,同时包含图像不同语义细节,最后利用构建的解码头(segmenter)进行融合特征处理,使得特征尺度大小与输入图像保持一致。在此基础上利用结构相似损失函数(SSIM),作用于离散小波注意力分支;使用交叉熵损失函数作用于残差通道注意力分支,构建联合损失函数,通过反向传播来不断优化网络参数进而减少误差损失,预测与输入图像一致的具有精确细节的最优分割结果。
在步骤1中,首先针对食品图像这种特定领域,传统的ResNet网络作为特征提取器就不能完全适用于食品图像特征,因此利用ResNet网络在Food2K食品数据集上训练好的Food2K-ResNet作为主干网络,设计双分支网络;一个分支为离散小波注意力网络,另一个分支为残差通道注意力网络,实现从空间维度和通道维度进行图像特征的加权处理,丰富食品图像的语义特征表示。
在步骤2中,针对离散小波注意力分支网络,其设计遵循U-Net网络结构,通过对Food2K-ResNet提取到的特征进行处理,经过离散小波变换分解为对应的3个低频特征和1个高频特征,同时对于输入特征进行卷积、归一化、池化和激活层处理,获取空间域图像特征;
将低频分量与卷积输出连接为下采样特征,对低频特征进行抑制,使得特征保留更多高频细节信息,并通过跳跃连接将高频分量添加到离散小波变换上采样模块中,空间注意力机制作用于高频特征,实现对高频特征的加权强化处理,同时将低频分量与卷积输出连接为下采样特征,在步骤3中,将步骤2中得到的图像特征进行自顶向下进行特征融合,向下融合的过程中同样使用1x1卷积进行图像尺度对齐,构建出四层特征金字塔,其中每一层特征都包含前几层特征的语义信息。
在步骤4中,构建分割解码器,按照前三个步骤最终所获得的四种不同尺度的图像特征,进行特征融合,形成新的具有多尺度,包含图像不同语义细节的特征向量,为了使特征尺度与输入图像的大小相同,最后进行上采样操作。使用联合损失函数计算预测值和真实值之间的误差,反向传播,优化编码器中的所有参数,从而生成具有食物类别边界分割精确的最优分割结果。
本发明的有益效果是:本发明在进行食品图像分割过程中针对食品图片分割特征提取能力不足以及食品分割图像纹理细节缺失的问题,利用离散小波注意力和残差通道注意力双分支,实现对频域信息的特征加权处理,更好的保留图像语义特征,保留高频和低频信息,实现空间域和频域特征的融合,从而获得高质量、高度细节化的分割结果。
附图说明
图1为基于离散小波注意力网络的食品图像分割过程示意图;
图2为离散小波注意力网络模型示意图;
图3为空间注意力机制和通道注意力机制以及离散小波注意力模块的结构示意图。图3(a)为离散小波注意力模块,图3(b)为空间注意力机制,图3(c)为通道注意力机制。
具体实施方式
下面结合附图和具体实施方式对本发明进行描述。其中附图1描述了基于离散小波注意力网络的食品图像分割过程示意图;附图2描述了离散小波注意力网络模型示意图。附图3描述了空间注意力机制和通道注意力机制以及离散小波注意力模块的结构示意图。
如图1-2所示,本发明基于离散小波注意力网络的食品图像分割过程如下:
(1)本发明中的基于离散小波注意力网络的食品图像分割方法首先针对食品图像尺度大小分布不一致问题,利用ResNet网络在Food2K食品数据集上训练好的Food2K-ResNet作为主干网络,使得在应用于食品图像分割中,能够提取更加符合食品图像特点的特征F。
(2)构建结合离散小波注意力网络和残差通道注意力网络的双分支网络,其中,离散小波注意力分支设计为类U-Net结构,该模块包含卷积层,归一化层,激活层,离散小波变换模块和注意力模块,实现对特征的空域和频域之间的变换和结合。在离散小波变换中,有四种滤波器,即1个低通滤波器fLL,3个高通滤波器fLH,fHL,fHH。这些滤波器具有固定的参数,在变换过程中进行stride=2的卷积运算。因此,通过与每个滤波器进行卷积,可以将图像或特征映射分解为xLL、xLH、xHL和xHH四个子带。我们可以将xLL表示为其中/>表示卷积运算,x为输入信号,↓2表示按2的比例因子进行下采样,
经过二维Haar小波变换后xLL的(i,j)值可以定义为:xLL(i,j)=x(2i-1,2j-1)+x(2i-1,2j)+x(2i,2j-1)+x(2i,2j)。获取4个子带后,利用离散小波注意力模块的空间注意力机制实现对高频特征进行强化,对低频特征进行抑制。空间注意力机制旨在提升关键区域的特征表达,本质上是将原始图片中的空间信息通过空间转换模块,变换到另一个空间中并保留关键信息,为每个位置生成权重掩膜(mask)并加权输出,从而增强关注的特定目标区域同时弱化不相关的背景区域。将特征映射x∈RC×H×W送入SA空间注意力模块,如下图3中(b)所示空间注意力机制,通过三个具有1x1滤波器的卷积层,得到三个特征映射Q、K和V。然后进行空间注意力加权得到Mwl和Mwh,
其中,Mwl代表三个低频经过空间注意力机制后的输出特征,Mwh为高频特征经过注意力机制后的输出特征。Attention(Q,K,V)为注意力模块,softmax为激活函数,dk表示特征维度。
之后,如图3中(a)所示,将Mwl和原始输入特征经过卷积模块后的输出进行像素点相加,构成Mwl1,Mwl1表示第一个离散小波模块,Mwh直接通过跳跃连接到对应离散小波上采样模块。
(3)为了充分发挥特征图各通道之间的相互依赖性,将特征表示与通道信息结合起来,引入通道注意力网络来获取通道之间的相互依赖性,如下图3中(c)所示的通道注意力机制。与空间注意机制相比,通道操作直接从原始特征F进行尺度变换操作,得到三个特征映射{Q,K,V}∈RC×N,并在Q和V的转置进行矩阵乘法,得到X′。然后利用softmax函数来计算注意映射X。
X=softmax(X′)=softmax(Q×KT)
之后,我们在X和V的转置之间应用矩阵乘法,并将它们的结果尺度变换为RC×H×W。通过残差连接实现原始输入特征F与经过通道注意力模块输出特征进行Concat操作,得到最终输出Fc。
Fc=Concat(F,X·VT)
每个通道的最终特征包括原始特征和所有通道特征的加权和,从通道维度建模语义依赖关系,可以维护各通道映射之间的关系。
(4)利用上述步骤获得的食品图像特征向量,分别进行卷积操作,使得每个特征的尺度大小一致,然后进行特征融合,形成新的具有多维度、多域表征的食品图像特征,同时包含图像不同语义细节,最后利用构建的解码头进行融合特征处理,使得特征尺度大小与输入图像保持一致。在此基础上利用结构相似损失函数(SSIM),作用于离散小波注意力分支;具体公式如下:
其中,x,y分别表示预测图像和真实图像(Ground truth),μ.,σ.和σ..分别表示图像的均值、标准差和协方差,·可以表示为x或y,C为常数项,防止除数为0。较高的SSIM表示两幅图像彼此更加相似,对于相同的图像,SSIM等于1。SSIM的损失函数可以写为:
其中,N表示图像数量,SSIM(xi,yi)表示图像xi和yi的结构相似损失。
使用交叉熵损失函数作用于残差通道注意力分支,构建联合损失函数Ltotal,通过反向传播来不断优化网络参数进而减少误差损失,预测与输入图像一致的具有精确细节的最优分割结果。
Ltotal=β·LSSIM+Lcross
其中,β为超参数,Lcross为交叉熵损失函数,随着网络的不断迭代优化而不断的调整。应用Adam梯度下降算法,优化图像编码器中的参数,直到损失函数收敛至循环达到最大迭代次数,得到最终训练模型的参数,生成具有食物类别边界分割精确的最优分割结果。
Claims (5)
1.一种基于离散小波注意力网络的食品图像分割方法,其特征在于,包括以下步骤:
步骤1:通过迁移学习利用Food2K-ResNet作为食品图像的特征提取器,该特征提取器利用ResNet模型在Food2K上针对食品图像特征进行提取,然后结合离散小波注意力分支网络和残差通道注意力分支网络,形成双分支网络,实现从空间维度和通道维度进行图像特征的加权处理;
步骤2:针对离散小波注意力分支网络,其设计遵循U-Net网络结构,对Food2K-ResNet提取到的特征进行处理,经过离散小波变换分解为对应的低频特征和高频特征,然后利用空间注意力机制实现对高频特征的加权强化处理,对低频特征进行抑制,将低频特征与卷积输出连接为下采样特征,并通过跳跃连接将高频特征添加到离散小波变换上采样模块中,以获得食品图像空间特征;
步骤3:针对残差通道注意力网络,利用残差连接和通道注意力机制,获取食品图像的通道特征;
步骤4:利用步骤2和3分别获得的食品图像空间特征和通道特征,分别进行卷积操作,使得不同特征的尺度大小一致,然后进行特征融合,形成多维度、多域表征的食品图像特征,同时包含图像不同语义细节,最后利用构建的解码头进行融合特征处理,使得特征尺度大小与输入图像保持一致;在此基础上利用结构相似损失函数,作用于离散小波注意力分支;使用交叉熵损失函数作用于残差通道注意力分支,构建联合损失函数,通过反向传播优化网络参数进而减少误差损失,预测与输入图像一致的具有精确细节的最优分割结果。
2.根据权利要求1所述的一种基于离散小波注意力网络的食品图像分割方法,其特征在于:所述步骤1中的食品图像处理方法如下:
(1)首先针对食品图像领域,利用ResNet网络在Food2K食品数据集上训练好的Food2K-ResNet作为主干网络,设计双分支网络;
(2)一个分支为离散小波注意力网络,另一个分支为残差通道注意力网络。
3.根据权利要求1所述的一种基于离散小波注意力网络的食品图像分割方法,其特征在于:所述步骤2中,构建离散小波注意力分支网络,具体构建方法如下:
(1)针对离散小波注意力分支网络,通过对Food2K-ResNet提取到的特征进行处理,经过离散小波变换分解为对应的3个低频特征和1个高频特征,同时对提取的特征进行卷积、归一化、池化和激活层处理,获取卷积输出;
(2)然后利用空间注意力机制作用于频域特征,实现对高频特征的加权强化处理,同时对低频特征进行抑制,使得特征保留更多高频细节信息,将低频分量与卷积输出连接为下采样特征,并通过跳跃连接将高频特征添加到离散小波变换上采样模块中。
4.根据权利要求1所述的一种基于离散小波注意力网络的食品图像分割方法,其特征在于:所述步骤3中,针对残差通道注意力网络,利用残差连接和通道注意力机制,获取食品图像的通道特征。
5.根据权利要求1所述的一种基于离散小波注意力网络的食品图像分割方法,其特征在于:所述步骤4中,特征融合的具体构建方法如下:
(1)利用步骤2和3分别获得的食品图像特征,分别进行1x1卷积操作,使得每个特征的尺度大小一致,然后进行特征融合,形成多维度、多域表征的食品图像特征,同时包含图像不同语义细节;
(2)利用构建的解码头进行融合特征处理,使得特征尺度大小与输入图像保持一致,在此基础上利用结构相似损失函数,作用于离散小波注意力分支;使用交叉熵损失函数作用于残差通道注意力分支,构建联合损失函数;
(3)应用Adam梯度下降算法,优化编码器中的参数,直到联合损失函数收敛至循环达到最大迭代次数,生成具有食物类别边界分割精确的最优分割结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310649752.XA CN116630964A (zh) | 2023-06-02 | 2023-06-02 | 一种基于离散小波注意力网络的食品图像分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310649752.XA CN116630964A (zh) | 2023-06-02 | 2023-06-02 | 一种基于离散小波注意力网络的食品图像分割方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116630964A true CN116630964A (zh) | 2023-08-22 |
Family
ID=87613226
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310649752.XA Pending CN116630964A (zh) | 2023-06-02 | 2023-06-02 | 一种基于离散小波注意力网络的食品图像分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116630964A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116824525A (zh) * | 2023-08-29 | 2023-09-29 | 中国石油大学(华东) | 一种基于交通道路影像的图像信息提取方法 |
-
2023
- 2023-06-02 CN CN202310649752.XA patent/CN116630964A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116824525A (zh) * | 2023-08-29 | 2023-09-29 | 中国石油大学(华东) | 一种基于交通道路影像的图像信息提取方法 |
CN116824525B (zh) * | 2023-08-29 | 2023-11-14 | 中国石油大学(华东) | 一种基于交通道路影像的图像信息提取方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111476292B (zh) | 医学图像分类处理人工智能的小样本元学习训练方法 | |
Adegun et al. | Deep learning techniques for skin lesion analysis and melanoma cancer detection: a survey of state-of-the-art | |
Liang et al. | MCFNet: Multi-layer concatenation fusion network for medical images fusion | |
Kumar et al. | Breast cancer classification of image using convolutional neural network | |
CN112465827B (zh) | 一种基于逐类卷积操作的轮廓感知多器官分割网络构建方法 | |
CN110097512A (zh) | 基于Wasserstein生成对抗网络的三维MRI图像去噪模型的构建方法及应用 | |
CN109614991A (zh) | 一种基于Attention的多尺度扩张性心肌的分割分类方法 | |
CN110533683B (zh) | 一种融合传统特征与深度特征的影像组学分析方法 | |
CN107424145A (zh) | 基于三维全卷积神经网络的核磁共振图像的分割方法 | |
CN115170582A (zh) | 基于多尺度特征融合和网格注意力机制的肝脏影像分割方法 | |
Benou et al. | De-noising of contrast-enhanced MRI sequences by an ensemble of expert deep neural networks | |
Nazki et al. | Image-to-image translation with GAN for synthetic data augmentation in plant disease datasets | |
CN116630964A (zh) | 一种基于离散小波注意力网络的食品图像分割方法 | |
CN107967674B (zh) | 基于图像块自相似性先验的核磁共振图像去噪方法 | |
Guo et al. | Brain tumor segmentation based on attention mechanism and multi-model fusion | |
Zhang et al. | A novel denoising method for low-dose CT images based on transformer and CNN | |
CN112990340B (zh) | 一种基于特征共享的自学习迁移方法 | |
CN113034371A (zh) | 一种基于特征嵌入的红外与可见光图像融合方法 | |
Wang et al. | Tiny-lesion segmentation in oct via multi-scale wavelet enhanced transformer | |
Wu et al. | COVID-19 diagnosis utilizing wavelet-based contrastive learning with chest CT images | |
CN115719357A (zh) | 一种脑部医学图像多结构分割方法 | |
CN114283301A (zh) | 一种基于Transformer的自适应医学影像分类方法及系统 | |
CN114331894A (zh) | 一种基于潜在特征重构和掩模感知的人脸图像修复方法 | |
CN115147636A (zh) | 基于胸部x光图像肺部疾病识别和分类方法 | |
CN114494828A (zh) | 葡萄病害识别方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |