CN116630964A

CN116630964A - 一种基于离散小波注意力网络的食品图像分割方法

Info

Publication number: CN116630964A
Application number: CN202310649752.XA
Authority: CN
Inventors: 李海生; 董笑笑; 李勇; 王晓川; 李燕; 朱敏洪
Original assignee: Beijing Technology and Business University
Current assignee: Beijing Technology and Business University
Priority date: 2023-06-02
Filing date: 2023-06-02
Publication date: 2023-08-22

Abstract

本发明提出一种基于离散小波注意力网络的食品图像分割方法，首先针对食品图像中食物类别多，分布不规律，大小不一致，边界信息模糊问题，利用迁移学习得到的在Food2K上训练好的Food2K‑ResNet提取食品图像特征，设计结合离散小波注意力网络和残差通道注意力网络，形成双分支网络，进行空间域和频域特征处理，分别从空间维度和通道维度来获取空间特征和通道特征，突出并丰富食品图像的特征维度；最后构建分割头网络，将两个分支处理后的不同尺度特征进行卷积、特征融合和上采样操作使得终获得的特征大小和输入图像大小保持一致，从而获得高质量、高度细节化的分割结果。

Description

一种基于离散小波注意力网络的食品图像分割方法

技术领域

本发明涉及计算机视觉和食品计算领域，特别是涉及一种基于离散小波注意力网络的食品图像分割方法。

背景技术

计算机视觉技术是一种综合了识别技术、场景重建技术、图像恢复技术等多项先进技术种类的现代化信息技术。目前来看，计算机视觉技术在我国的发展速度极快，在图像分析和处理方面，它可以对图像中的内容进行分类、检测和分割。图像语义分割主要是标注出图像中每个像素所属的对象类别；相比较于对整个图像标签进行预测的图像分类来说，对于分割的要求通常会更高。从早期的传统分割方法，如阈值、k均值聚类、区域生长，到目前已经取得了优良效果的深度学习模型，如FCN、PSPNet，以及DeepLab系列，都是利用卷积网络所持有的平移不变性和局部性特点来获取图像中的细节信息，对图像进行卷积操作来获得图像的特征。

近年来，离散小波变换广泛应用于视觉领域，例如图像超分，图像去噪处理，图像语义分割等等。离散小波变换将图像从空间域处理转换为频域处理，大大减少了计算时的参数量甚至复杂度，频域分析一直是图像处理的有力工具。有效地利用图像频域信息可以大大提高图像恢复算法的性能。一些方法利用频域信息的有效性，将频率信息嵌入到网络结构中。并且提出了小波残差网络，发现神经网络可以从小波子带的学习中获益，利用小波子带的高频信息实现图像纹理细节的强化。

肥胖是一种对个人身心健康与社会都具有危害的慢性疾病，根据西方医学理论，导致肥胖的原因在于卡路里摄入与消耗的不平衡，同时，这也导致了诸如糖尿病等慢性代谢疾病风险的提升。传统上，营养学家试图通过查看患者所食用食物的图像来解决这些问题。食品图像分割旨在区分各种食品中的各种成分，这对食品安全至关重要，因为估计卡路里和其他营养物质对人类健康和可持续发展很重要。然而，目前的图像分割方法在食物图像数据集上由于其外观的多样性以及食材和日常道具之间的条件差异，其分割性能较差，对食物图像的特征提取能力不足。因此，一个拥有高性能的分割模型可以准确地识别和定位不同的食物成分，这也就为之后进行营养评估和分量估计做出了必要的准备工作。

发明内容

本发明主要解决的技术问题：针对食品图像中食物类别多，分布不规律，大小不一致，边界信息模糊的问题，提供了一种基于离散小波注意力网络的食品图像分割方法来解决图像特征在特征处理过程中纹理细节丢失的问题，同时结合注意力机制，实现对频域特征和通道特征加权处理，更好的保留图像语义信息。结合离散小波变换和注意力机制能够更好的实现对图像纹理特征的频域转化，强化高频信息和抑制低频信息，实现空间域和频域特征的融合，从而获得高质量、高度细节化的分割结果。

为解决上述技术问题，本发明采用的一个技术方案是：设计结合离散小波注意力网络和残差通道注意力网络，形成双分支网络，进行空间域和频域特征处理，分别从空间维度和通道维度来获取空间特征和通道特征，突出并丰富食品图像的特征维度；最后构建分割头网络，将两个分支处理后的不同尺度特征进行卷积、特征融合和上采样操作使得终获得的特征大小和输入图像大小保持一致，其具体包括以下步骤：

(1)针对食品图像特点和特征提取不充分，通过迁移学习利用Food2K-ResNet作为食品图像的特征提取器，该特征提取器主要是利用ResNet模型再在Food2K上进行针对食品图像进行训练，使其特征提取能力更加符合食品图像的特点。然后设计结合离散小波注意力网络和残差通道注意力网络，形成双分支网络，实现从空间维度和通道维度进行图像特征的加权处理，突出并丰富食品图像的特征表示，使得食品图像中的细节特征更加显著，从而使得分割结果边界更加明晰；

(2)针对离散小波注意力分支网络，其设计遵循U-Net网络结构，通过对Food2K-ResNet提取到的特征进行处理，经过离散小波变换分解为对应的低频特征和高频特征，然后利用空间注意力机制实现对高频特征的加权强化处理，对低频特征进行抑制，将低频特征与卷积输出连接为下采样特征，并通过跳跃连接将高频特征添加到离散小波变换上采样模块中；

(3)针对残差通道注意力网络，主要是利用残差连接和通道注意力机制，获取食品图像的通道特征，实现通道特征与原始输入特征的融合，突出原始食品图像的通道信息；

(4)利用步骤2和3分别获得的食品图像特征向量，分别进行卷积操作，使得每个特征的尺度大小一致，然后进行特征融合，形成新的具有多维度、多域表征的食品图像特征，同时包含图像不同语义细节，最后利用构建的解码头(segmenter)进行融合特征处理，使得特征尺度大小与输入图像保持一致。在此基础上利用结构相似损失函数(SSIM)，作用于离散小波注意力分支；使用交叉熵损失函数作用于残差通道注意力分支，构建联合损失函数，通过反向传播来不断优化网络参数进而减少误差损失，预测与输入图像一致的具有精确细节的最优分割结果。

在步骤1中，首先针对食品图像这种特定领域，传统的ResNet网络作为特征提取器就不能完全适用于食品图像特征，因此利用ResNet网络在Food2K食品数据集上训练好的Food2K-ResNet作为主干网络，设计双分支网络；一个分支为离散小波注意力网络，另一个分支为残差通道注意力网络，实现从空间维度和通道维度进行图像特征的加权处理，丰富食品图像的语义特征表示。

在步骤2中，针对离散小波注意力分支网络，其设计遵循U-Net网络结构，通过对Food2K-ResNet提取到的特征进行处理，经过离散小波变换分解为对应的3个低频特征和1个高频特征，同时对于输入特征进行卷积、归一化、池化和激活层处理，获取空间域图像特征；

将低频分量与卷积输出连接为下采样特征，对低频特征进行抑制，使得特征保留更多高频细节信息，并通过跳跃连接将高频分量添加到离散小波变换上采样模块中，空间注意力机制作用于高频特征，实现对高频特征的加权强化处理，同时将低频分量与卷积输出连接为下采样特征，在步骤3中，将步骤2中得到的图像特征进行自顶向下进行特征融合，向下融合的过程中同样使用1x1卷积进行图像尺度对齐，构建出四层特征金字塔，其中每一层特征都包含前几层特征的语义信息。

在步骤4中，构建分割解码器，按照前三个步骤最终所获得的四种不同尺度的图像特征，进行特征融合，形成新的具有多尺度，包含图像不同语义细节的特征向量，为了使特征尺度与输入图像的大小相同，最后进行上采样操作。使用联合损失函数计算预测值和真实值之间的误差，反向传播，优化编码器中的所有参数，从而生成具有食物类别边界分割精确的最优分割结果。

本发明的有益效果是：本发明在进行食品图像分割过程中针对食品图片分割特征提取能力不足以及食品分割图像纹理细节缺失的问题，利用离散小波注意力和残差通道注意力双分支，实现对频域信息的特征加权处理，更好的保留图像语义特征，保留高频和低频信息，实现空间域和频域特征的融合，从而获得高质量、高度细节化的分割结果。

附图说明

图1为基于离散小波注意力网络的食品图像分割过程示意图；

图2为离散小波注意力网络模型示意图；

图3为空间注意力机制和通道注意力机制以及离散小波注意力模块的结构示意图。图3(a)为离散小波注意力模块，图3(b)为空间注意力机制，图3(c)为通道注意力机制。

具体实施方式

下面结合附图和具体实施方式对本发明进行描述。其中附图1描述了基于离散小波注意力网络的食品图像分割过程示意图；附图2描述了离散小波注意力网络模型示意图。附图3描述了空间注意力机制和通道注意力机制以及离散小波注意力模块的结构示意图。

如图1-2所示，本发明基于离散小波注意力网络的食品图像分割过程如下：

(1)本发明中的基于离散小波注意力网络的食品图像分割方法首先针对食品图像尺度大小分布不一致问题，利用ResNet网络在Food2K食品数据集上训练好的Food2K-ResNet作为主干网络，使得在应用于食品图像分割中，能够提取更加符合食品图像特点的特征F。

(2)构建结合离散小波注意力网络和残差通道注意力网络的双分支网络，其中，离散小波注意力分支设计为类U-Net结构，该模块包含卷积层，归一化层，激活层，离散小波变换模块和注意力模块，实现对特征的空域和频域之间的变换和结合。在离散小波变换中，有四种滤波器，即1个低通滤波器f_LL，3个高通滤波器f_LH，f_HL，f_HH。这些滤波器具有固定的参数，在变换过程中进行stride＝2的卷积运算。因此，通过与每个滤波器进行卷积，可以将图像或特征映射分解为x_LL、x_LH、x_HL和x_HH四个子带。我们可以将x_LL表示为其中/>表示卷积运算，x为输入信号，↓2表示按2的比例因子进行下采样，

经过二维Haar小波变换后x_LL的(i，j)值可以定义为：x_LL(i，j)＝x(2i-1，2j-1)+x(2i-1，2j)+x(2i，2j-1)+x(2i，2j)。获取4个子带后，利用离散小波注意力模块的空间注意力机制实现对高频特征进行强化，对低频特征进行抑制。空间注意力机制旨在提升关键区域的特征表达，本质上是将原始图片中的空间信息通过空间转换模块，变换到另一个空间中并保留关键信息，为每个位置生成权重掩膜(mask)并加权输出，从而增强关注的特定目标区域同时弱化不相关的背景区域。将特征映射x∈R^C×H×W送入SA空间注意力模块，如下图3中(b)所示空间注意力机制，通过三个具有1x1滤波器的卷积层，得到三个特征映射Q、K和V。然后进行空间注意力加权得到M_wl和M_wh，

其中，M_wl代表三个低频经过空间注意力机制后的输出特征，M_wh为高频特征经过注意力机制后的输出特征。Attention(Q，K，V)为注意力模块，softmax为激活函数，d_k表示特征维度。

之后，如图3中(a)所示，将M_wl和原始输入特征经过卷积模块后的输出进行像素点相加，构成M_wl1，M_wl1表示第一个离散小波模块，M_wh直接通过跳跃连接到对应离散小波上采样模块。

(3)为了充分发挥特征图各通道之间的相互依赖性，将特征表示与通道信息结合起来，引入通道注意力网络来获取通道之间的相互依赖性，如下图3中(c)所示的通道注意力机制。与空间注意机制相比，通道操作直接从原始特征F进行尺度变换操作，得到三个特征映射{Q，K，V}∈R^C×N，并在Q和V的转置进行矩阵乘法，得到X′。然后利用softmax函数来计算注意映射X。

X＝softmax(X′)＝softmax(Q×K^T)

之后，我们在X和V的转置之间应用矩阵乘法，并将它们的结果尺度变换为R^C×H×W。通过残差连接实现原始输入特征F与经过通道注意力模块输出特征进行Concat操作，得到最终输出F_c。

F_c＝Concat(F，X·V^T)

每个通道的最终特征包括原始特征和所有通道特征的加权和，从通道维度建模语义依赖关系，可以维护各通道映射之间的关系。

(4)利用上述步骤获得的食品图像特征向量，分别进行卷积操作，使得每个特征的尺度大小一致，然后进行特征融合，形成新的具有多维度、多域表征的食品图像特征，同时包含图像不同语义细节，最后利用构建的解码头进行融合特征处理，使得特征尺度大小与输入图像保持一致。在此基础上利用结构相似损失函数(SSIM)，作用于离散小波注意力分支；具体公式如下：

其中，x，y分别表示预测图像和真实图像(Ground truth)，μ.，σ.和σ..分别表示图像的均值、标准差和协方差，·可以表示为x或y，C为常数项，防止除数为0。较高的SSIM表示两幅图像彼此更加相似，对于相同的图像，SSIM等于1。SSIM的损失函数可以写为：

其中，N表示图像数量，SSIM(x_i，y_i)表示图像x_i和y_i的结构相似损失。

使用交叉熵损失函数作用于残差通道注意力分支，构建联合损失函数L_total，通过反向传播来不断优化网络参数进而减少误差损失，预测与输入图像一致的具有精确细节的最优分割结果。

L_total＝β·L_SSIM+L_cross

其中，β为超参数，L_cross为交叉熵损失函数，随着网络的不断迭代优化而不断的调整。应用Adam梯度下降算法，优化图像编码器中的参数，直到损失函数收敛至循环达到最大迭代次数，得到最终训练模型的参数，生成具有食物类别边界分割精确的最优分割结果。

Claims

1.一种基于离散小波注意力网络的食品图像分割方法，其特征在于，包括以下步骤：

步骤1：通过迁移学习利用Food2K-ResNet作为食品图像的特征提取器，该特征提取器利用ResNet模型在Food2K上针对食品图像特征进行提取，然后结合离散小波注意力分支网络和残差通道注意力分支网络，形成双分支网络，实现从空间维度和通道维度进行图像特征的加权处理；

步骤2：针对离散小波注意力分支网络，其设计遵循U-Net网络结构，对Food2K-ResNet提取到的特征进行处理，经过离散小波变换分解为对应的低频特征和高频特征，然后利用空间注意力机制实现对高频特征的加权强化处理，对低频特征进行抑制，将低频特征与卷积输出连接为下采样特征，并通过跳跃连接将高频特征添加到离散小波变换上采样模块中，以获得食品图像空间特征；

步骤3：针对残差通道注意力网络，利用残差连接和通道注意力机制，获取食品图像的通道特征；

步骤4：利用步骤2和3分别获得的食品图像空间特征和通道特征，分别进行卷积操作，使得不同特征的尺度大小一致，然后进行特征融合，形成多维度、多域表征的食品图像特征，同时包含图像不同语义细节，最后利用构建的解码头进行融合特征处理，使得特征尺度大小与输入图像保持一致；在此基础上利用结构相似损失函数，作用于离散小波注意力分支；使用交叉熵损失函数作用于残差通道注意力分支，构建联合损失函数，通过反向传播优化网络参数进而减少误差损失，预测与输入图像一致的具有精确细节的最优分割结果。

2.根据权利要求1所述的一种基于离散小波注意力网络的食品图像分割方法，其特征在于：所述步骤1中的食品图像处理方法如下：

(1)首先针对食品图像领域，利用ResNet网络在Food2K食品数据集上训练好的Food2K-ResNet作为主干网络，设计双分支网络；

(2)一个分支为离散小波注意力网络，另一个分支为残差通道注意力网络。

3.根据权利要求1所述的一种基于离散小波注意力网络的食品图像分割方法，其特征在于：所述步骤2中，构建离散小波注意力分支网络，具体构建方法如下：

(1)针对离散小波注意力分支网络，通过对Food2K-ResNet提取到的特征进行处理，经过离散小波变换分解为对应的3个低频特征和1个高频特征，同时对提取的特征进行卷积、归一化、池化和激活层处理，获取卷积输出；

(2)然后利用空间注意力机制作用于频域特征，实现对高频特征的加权强化处理，同时对低频特征进行抑制，使得特征保留更多高频细节信息，将低频分量与卷积输出连接为下采样特征，并通过跳跃连接将高频特征添加到离散小波变换上采样模块中。

4.根据权利要求1所述的一种基于离散小波注意力网络的食品图像分割方法，其特征在于：所述步骤3中，针对残差通道注意力网络，利用残差连接和通道注意力机制，获取食品图像的通道特征。

5.根据权利要求1所述的一种基于离散小波注意力网络的食品图像分割方法，其特征在于：所述步骤4中，特征融合的具体构建方法如下：

(1)利用步骤2和3分别获得的食品图像特征，分别进行1x1卷积操作，使得每个特征的尺度大小一致，然后进行特征融合，形成多维度、多域表征的食品图像特征，同时包含图像不同语义细节；

(2)利用构建的解码头进行融合特征处理，使得特征尺度大小与输入图像保持一致，在此基础上利用结构相似损失函数，作用于离散小波注意力分支；使用交叉熵损失函数作用于残差通道注意力分支，构建联合损失函数；

(3)应用Adam梯度下降算法，优化编码器中的参数，直到联合损失函数收敛至循环达到最大迭代次数，生成具有食物类别边界分割精确的最优分割结果。