CN114648535A

CN114648535A - 一种基于动态transformer的食品图像分割方法及系统

Info

Publication number: CN114648535A
Application number: CN202210278127.4A
Authority: CN
Inventors: 李海生; 董笑笑; 王薇; 王晓川; 李楠
Original assignee: Beijing Technology and Business University
Current assignee: Beijing Technology and Business University
Priority date: 2022-03-21
Filing date: 2022-03-21
Publication date: 2022-06-21

Abstract

本发明涉及一种基于动态transformer的食品图像分割方法及系统，其方法包括S1：将输入的食品图像划分为不同大小的一系列图像块，输入到多个不同尺寸的动态视觉的transformer编码器网络；输出多层不同尺度的图像特征向量；S2：提取预设层的图像特征向量进行融合，得到融合后的图像特征向量；S3：构建多级特征聚合网络，将融合后的图像特征向量进行自顶向下的特征融合，构建特征金字塔，得到多尺度特征融合向量；S4：构建分割解码器，针对特征金字塔融合的多尺度特征进行卷积和上采样操作，最终生成具有食物类别边界分割精确的分割结果。本发明提供的方法能够自适应不同图片尺度，并提高图片语义信息提取的丰富性和整体性，使得食品分割模型更具有泛化性和鲁棒性。

Description

一种基于动态transformer的食品图像分割方法及系统

技术领域

本发明涉及计算机视觉和食品计算领域，具体涉及一种基于动态transformer的食品图像分割方法及系统。

背景技术

计算机视觉正在成为一种获取和分析真实场景图像的新兴技术，它帮助智能系统从图像和多维数据中感知世界。计算机视觉的核心技术一直与图像分析和处理有关，它可以对图像中的一些具体对象进行分类、检测和分割。图像语义分割对一组对象类别进行像素级预测；与预测整个图像标签的图像分类相比，分割通常是一项要求更高的任务。从最早的传统方法，如阈值、k均值聚类、区域生长，到一些已经获得了很好效果的深度学习模型，如FCN、PSPNet，以及DeepLab系列，都是通过对图像进行卷积操作获得其特征表征，依赖卷积网络特有的平移不变性和局部性特点获取图像语义细节信息。

近年来，随着自然语言处理(NLP)的巨大成功，人们逐渐对将注意机制和Transformer引入视觉任务产生了强烈的兴趣。例如双注意网络(DANet)，利用自注意机制来捕获丰富的上下文依赖性。将transformer用于图像分类的开山之作ViT，根据NLP中transformer的设计，作者将图像分割成多个线性patch embedding，并添加位置信息，在ImageNet上取得了高效的性能。在语义分割方面，第一篇利用transformer用于图像语义分割的论文：SETR，证明了其在语义分割中的可行性。

随着生活水平的改善，成人肥胖率在逐渐增加，人们更加重视健康饮食和食品安全，并考虑到准确跟踪食物摄入量的意义。因此，食品计算的概念被提出，并越来越引起了公众的关注，因为它涵盖了一个全面的技术和方向总结，用于食品和健康领域的研究和运用。食物计算的一个关键目标是自动识别不同类型的食物，而食物分割是开发与健康直接相关的应用方面是必要和不可或缺的技术，如估计食物热量或营养和食物分量评估。在计算机视觉中，相关工作从食物分类、菜谱检索到食品溯源等方面。食品计算中定义了食品分类，和食品分割。与食品分类相比，食品分割更为复杂，因为其目标是对每个像素进行分类，并识别饮食图像中的每个成分类别及其像素级区域。与一般数据集上的语义分割不同，由于食物外观的巨大多样性和成分分布的不平衡，食品分割是一项更具挑战性的任务。有两个主要原因，用不同方式烹饪的同一食物在视觉上有很大不同，不同成分的外观可能看起来非常相似。另一方面，食品数据集的分布通常是不平衡的，存在长尾分布问题。因此，如何准确地识别和定位不同的食物成分成为一个亟待解决的问题。

发明内容

为了解决上述技术问题，本发明提供一种基于动态transformer的食品图像分割方法及系统。

本发明技术解决方案为：一种基于动态transformer的食品图像分割方法，包括：

步骤S1：将输入的食品图像按照预设尺寸划分为不同大小的一系列图像块，构建多个不同尺寸的动态视觉的transformer编码器网络，实现对不同划分尺度的一系列所述图像块进行特征编码；并利用多头自注意力机制，对所述图像块的不同尺度特征进行加权计算；输出多层不同尺度的图像特征向量；

步骤S2：提取预设层的所述图像特征向量进行融合，得到融合后的图像特征向量；

步骤S3：构建多级特征聚合网络，将所述融合后的图像特征向量进行自顶向下的特征融合，构建多层特征金字塔，得到多尺度特征融合向量；

步骤S4：基于所述多层特征金字塔，构建分割解码器，对所述融合特征向量进行卷积操作，以及特征融合得到多尺度特征向量，最后进行上采样操作；同时，使用交叉熵损失函数优化网络参数，最终生成具有食物类别边界分割精确的分割结果。

本发明与现有技术相比，具有以下优点：

本发明公开了一种基于动态transformer的食品图像分割方法，设计利用不同图像块大小的transformer编码器进行食品图片线性划分，使得能够自适应不同图片尺度，提取多个不同分辨率的图像特征；构建特征金字塔，以此提高图片语义信息提取的丰富性和整体性，使得食品分割模型更具有泛化性和鲁棒性，极大缓解了食品分割模型不具有针对性的问题，提高了食品图像分割的精度和准确率。

附图说明

图1为本发明实施例中一种基于动态transformer的食品图像分割方法的流程图；

图2为本发明实施例中动态视觉的transformer编码器网络结构示意图；

图3为本发明实施例中transformer编码器的结构示意图；

图4为本发明实施例中一种基于动态transformer的食品图像分割系统的结构框图。

具体实施方式

本发明提供了一种基于动态transformer的食品图像分割方法，利用不同图像块大小的transformer编码器进行食品图片线性划分，使得能够自适应不同图片尺度，提取多个不同分辨率的图像特征；构建特征金字塔，以此提高图片语义信息提取的丰富性和整体性，使得食品分割模型更具有泛化性和鲁棒性。

为了使本发明的目的、技术方案及优点更加清楚，以下通过具体实施，并结合附图，对本发明进一步详细说明。

实施例一

如图1所示，本发明实施例提供的一种基于动态transformer的食品图像分割方法，包括下述步骤：

步骤S1：将输入的食品图像按照预设尺寸划分为不同大小的一系列图像块，构建多个不同尺寸的动态视觉的transformer编码器网络，实现对不同划分尺度的一系列图像块进行特征编码；并利用多头自注意力机制，对图像块的不同尺度特征进行加权计算；输出多层不同尺度的图像特征向量；

步骤S2：提取预设层的图像特征向量进行融合，得到融合后的图像特征向量；

步骤S3：构建多级特征聚合网络，将融合后的图像特征向量进行自顶向下的特征融合，构建多层特征金字塔，得到多尺度特征融合向量；

步骤S4：基于多层特征金字塔，构建分割解码器，对每层融合特征向量进行卷积操作，以及特征融合得到多尺度特征向量，最后进行上采样操作；同时，使用交叉熵损失函数优化网络参数，最终生成具有食物类别边界分割精确的分割结果。

在一个实施例中，上述步骤S1：将输入的食品图像按照预设尺寸划分为不同大小的一系列图像块，构建多个不同尺寸的动态视觉的transformer编码器网络，实现对不同划分尺度的一系列图像块进行特征编码；并利用多头自注意力机制，对图像块的不同尺度特征进行加权计算；输出多层不同尺度的图像特征向量，具体包括：

步骤S11：将食品图像按切割成不同尺寸的图像块，将图像块按照预设的顺序进行排序，得到长度为L_i的序列，其中，L_i是根据第i个尺度划分的食品图像尺寸与图像块尺寸的比值；

本发明实施例针对食品图像尺度大小分布不一致问题，分别对同一张食品图片进行不同尺度的线性划分，以适应不同图片的实际尺寸，如图2所示，本发明实施例对输入的食品图片分别进行4x4,8x8,16x16,32x32的划分，得到不同尺度的图像块。

然后，将按照不同划分尺度的图像块分别进行序列化排列，获得四个尺度不同的图像块序列，长度分别为L₁，L₂，L₃，L₄，L_i表示输入图片大小与图像块大小的比值。

由于对输入的食品图片按照四种不同比例划分为图像块后，各图像块之间没有信息交互，因此通过下述步骤利用绝对位置编码添加位置信息。

步骤S12：利用绝对位置编码技术对每一个图像块添加位置信息，建立图像块之间的关联关系，如公式(1)所示；

其中，pos表示位置，d_model表示维度信息，PE代表每个图像块的位置信息；

步骤S13：将对添加位置信息后的一系列图像块，利用三种权重矩阵W^Q，W^K，W^V进行加权映射到不同的空间Q，K，V，利用公式(2)，计算注意力机制的权重：

其中，Attention表示注意力机制的输出，d_k为空间K的维度；

步骤S14：将编码器的每一层利用归一化和多层感知机进行残差连接，如公式(3)所示：

其中，f^l-1为上一层编码器所输出的图像特征作为当前层的输入，

表示f^l-1在第l层编码器的中间特征变量，f^l为当前层编码器的输出特征，ln表示层归一化操作，msa表示多头注意力机制，mlp表示多层感知机。如图3所示，transformer编码器的整体结构，由多头自注意力机制和多层感知机组成。

在一个实施例中，上述S2：提取预设层的图像特征向量进行融合，得到融合后的图像特征向量，具体包括：

根据需求，提取不同的预设层的编码器的输出图像特征向量，对提取的每一层的图像特征向量首先进行1x1的卷积操作，然后进行特征融合；最终获得的融合后的图像特征向量。

本发明实施例经过步骤S1对四种不同尺寸的图像块，分别构建4个编码器，每个编码器包含L层transformer层，分别从中提取第5层，第7层，第9层和第11层的四种不同尺度的食品图像视觉特征，一共提取16中不同尺度特征向量，然后将16种不同尺度的图像特征进行融合，其中，分别对于四种不同尺度的l₅，l₇，l₉和l₁₁层特征进行特征融合，首先由于每个特征的尺度大小都不一致，因此利用1x1卷积进行维度对齐操作，利用双线性内插对图像特征进行上采样，实现不同特征的尺度对齐。以此进行特征融合后获得四种图像特征，分别为f₅，f₇，f₉和f₁₁，如图2所示。

在一个实施例中，上述步骤S3：构建多级特征聚合网络，将融合后的图像特征向量进行自顶向下的特征融合，构建多层特征金字塔，得到多尺度融合特征向量，具体包括：

将融合后的图像特征向量，通过特征尺度对齐和维度对齐操作，分别利用上采样和1x1卷积，自顶向下实现进行聚合操作，构建多层特征金字塔，得到不同尺度和维度的多尺度融合特征向量。

如图2中多级特征聚合模块所示，将f₁₁作为特征金字塔顶层，f₁₁和f₉使进行特征聚合变为第二层特征，利用上一层的特征和f₇进行特征聚合作为第三层特征，利用第三层特征和f₅进行特征聚合作为最底层特征，最终构建一个四层特征金字塔。

在一个实施例中，上述步骤S4：基于多层特征金字塔，构建分割解码器，对每层融合特征向量进行卷积操作，以及特征融合得到多尺度特征向量，最后进行上采样操作；同时，使用交叉熵损失函数优化网络参数，最终生成具有食物类别边界分割精确的分割结果，具体包括：

基于多层特征金字塔，构建分割解码器，对每层融合特征向量利用大小为1x1卷积核进行卷积操作后进行特征融合，得到多尺度特征向量，并利用上采样进行尺度变化，使得多尺度特征向量与输入的食品图像的尺度保持一致；同时，使用交叉熵损失函数优化网络参数，直至损失函数收敛，得到具有食物类别边界分割精确的分割结果。

利用步骤S3得到的四层特征金字塔，构建分割解码器，将特征金字塔的四种不同尺度不同维度融合特征进行融合，通过利用卷积核大小为1x1的卷积进行维度的变换，和双线性内插的上采样进行尺度变化，使得四种特征能够融合，此特征不仅适用于不同大小的原始图片数据，同样包含食物图片的局部细节信息和全局语义信息，使得图像内部不同成分食物的文本信息和边界信息都能很好的保留并强化。对多尺度特征信息进行上采样操作，使得特征尺度大小和输入图像大小保持一致，利用二元交叉熵损失函数计算预测值和真实值之间的误差，应用Adam梯度下降算法，优化图像编码器中的参数，直到损失函数收敛或循环达到最大迭代次数，得到最终训练模型的参数，生成具有食物类别边界分割精确的最优分割结果。

本发明公开了一种基于动态transformer的食品图像分割方法，设计利用不同图像块大小的transformer编码器进行食品图片线性划分，使得能够自适应不同图片尺度，提取多个不同分辨率的图像特征，构建特征金字塔，以此提高图片语义信息提取的丰富性和整体性，使得食品分割模型更具有泛化性和鲁棒性，极大缓解了食品分割模型不具有针对性的问题，提高了食品图像分割的精度和准确率。

实施例二

如图4所示，本发明实施例提供了一种基于动态transformer的食品图像分割系统，包括下述模块：

获取图像特征向量模块51，用于将输入的食品图像按照预设尺寸划分为不同大小的一系列图像块，构建多个不同尺寸的动态视觉的transformer编码器网络，实现对不同划分尺度的一系列图像块进行特征编码；并利用多头自注意力机制，对图像块的不同尺度特征进行加权计算；输出多层不同尺度的图像特征向量；

融合图像特征向量模块52，用于提取预设层的图像特征向量进行融合，得到融合后的图像特征向量；

构建多层特征金字塔模块53，用于构建多级特征聚合网络，将融合后的图像特征向量进行自顶向下的特征融合，构建多层特征金字塔，得到多尺度特征融合向量；

获取分割结果模块54，用于基于多层特征金字塔，构建分割解码器，对每层融合特征向量进行卷积操作，以及特征融合得到多尺度特征向量，最后进行上采样操作；同时，使用交叉熵损失函数优化网络参数，最终生成具有食物类别边界分割精确的分割结果。

提供以上实施例仅仅是为了描述本发明的目的，而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改，均应涵盖在本发明的范围之内。

Claims

1.一种基于动态transformer的食品图像分割方法，其特征在于，包括：

2.根据权利要求1所述的基于动态transformer的食品图像分割方法，其特征在于，所述步骤S1：将输入的食品图像按照预设尺寸划分为不同大小的一系列图像块，构建多个不同尺寸的动态视觉的transformer编码器网络，实现对不同划分尺度的一系列所述图像块进行特征编码；并利用多头自注意力机制，对所述图像块的不同尺度特征进行加权计算；输出多层不同尺度的图像特征向量，具体包括：

步骤S11：将所述食品图像按切割成不同尺寸的图像块，将所述图像块按照预设的顺序进行排序，得到长度为L_i的序列，其中，L_i是根据第i个尺度划分的食品图像尺寸与所述图像块尺寸的比值；

步骤S12：利用绝对位置编码技术对不同划分尺度的一系列图像块添加位置信息，建立所述图像块之间的关联关系，如公式(1)所示；

其中，pos表示位置，d_model表示维度信息，PE代表每个所述图像块的位置信息；

其中，Attention表示注意力机制的输出，d_k为空间K的维度；

步骤S14：将所述编码器的每一层利用归一化和多层感知机进行残差连接，如公式(3)所示：

其中，f^l-1为上一层所述编码器所输出的图像特征作为当前层的输入，

表示f^l-1在第l层编码器的中间特征变量，f^l为当前层编码器的输出特征，ln表示层归一化操作，msa表示多头注意力机制，mlp表示多层感知机。

3.根据权利要求1所述的基于动态transformer的食品图像分割方法，其特征在于，所述步骤S2：提取预设层的所述图像特征向量进行融合，得到融合后的图像特征向量，具体包括：

根据需求，提取不同的预设层的所述编码器的输出图像特征向量，对提取的每一层的所述图像特征向量首先进行1x1的卷积操作，然后进行特征融合；最终获得的融合后的图像特征向量。

4.根据权利要求1所述的基于动态transformer的食品图像分割方法，其特征在于，所述步骤S3：构建多级特征聚合网络，将所述融合后的图像特征向量进行自顶向下的特征融合，构建多层特征金字塔，得到多尺度融合特征向量，具体包括：

将所述融合后的图像特征向量，通过特征尺度对齐和维度对齐操作，分别利用上采样和1x1卷积，自顶向下实现进行聚合操作，构建多层特征金字塔，得到不同尺度和维度的多尺度融合特征向量。

5.根据权利要求1所述的基于动态transformer的食品图像分割方法，其特征在于，所述步骤S4：基于所述多层特征金字塔，构建分割解码器，对每层所述融合特征向量进行卷积操作，以及特征融合得到多尺度特征向量，最后进行上采样操作；同时，使用交叉熵损失函数优化网络参数，最终生成具有食物类别边界分割精确的分割结果，具体包括：

基于所述多层特征金字塔，构建分割解码器，对每层所述融合特征向量利用大小为1x1卷积核进行卷积操作后进行特征融合，得到多尺度特征向量，并利用上采样进行尺度变化，使得所述多尺度特征向量与输入的所述食品图像的尺度保持一致；同时，使用交叉熵损失函数优化网络参数，直至所述损失函数收敛，得到具有食物类别边界分割精确的分割结果。

6.一种基于动态transformer的食品图像分割系统，其特征在于，包括下述模块：

获取图像特征向量模块，用于将输入的食品图像按照预设尺寸划分为不同大小的一系列图像块，构建多个不同尺寸的动态视觉的transformer编码器网络，实现对不同划分尺度的一系列所述图像块进行特征编码；并利用多头自注意力机制，对所述图像块的不同尺度特征进行加权计算；输出多层不同尺度的图像特征向量；

融合图像特征向量模块，用于提取预设层的所述图像特征向量进行融合，得到融合后的图像特征向量；

构建多层特征金字塔模块，用于构建多级特征聚合网络，将所述融合后的图像特征向量进行自顶向下的特征融合，构建多层特征金字塔，得到多尺度特征融合向量；

获取分割结果模块，用于基于所述多层特征金字塔，构建分割解码器，对每层所述融合特征向量进行卷积操作，以及特征融合得到多尺度特征向量，最后进行上采样操作；同时，使用交叉熵损失函数优化网络参数，最终生成具有食物类别边界分割精确的分割结果。