CN114743020B

CN114743020B - 一种结合标签语义嵌入和注意力融合的食物识别方法

Info

Publication number: CN114743020B
Application number: CN202210344247.XA
Authority: CN
Inventors: 康文雄; 周泳鑫; 曾明; 张�雄
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2022-04-02
Filing date: 2022-04-02
Publication date: 2024-05-14
Anticipated expiration: 2042-04-02
Also published as: CN114743020A

Abstract

本发明提供了一种结合标签语义嵌入和注意力融合的食物识别方法，包括以下步骤：窗口注意力融合模块利用transformer自带的自注意力机制来自适应的选择判别区域，不需要额外的框的标注训练。该模块融合Swin Transformer的窗口注意力，从原始图像中裁剪出注意力区域并放大，作为下一个网络的输入，以学习更多的判别的特征，食物类别的名称包含重要的文本信息，如主要成分，产地，烹饪方法等，对于食品识别来说是容易获取且有帮助的。因此，本发明提出了上下文敏感语义中心损失，利用了食物标签的语义嵌入作为特征空间的中心，以此来引导图像表达学习细粒度语义信息。两者的结合提高食物识别精度。

Description

一种结合标签语义嵌入和注意力融合的食物识别方法

技术领域

本发明涉及图像处理与分析技术领域，具体地说，涉及一种结合标签语义嵌入和注意力融合的食物识别方法。

背景技术

食物对于人们的生活、健康有着重要作用，食物识别是食物应用的基本任务，一旦确定了食物类别，就可以进行膳食管理、营养分析等任务。随着深度学习的发展，食物图像识别任务得到了很大的发展。

食物识别任务隶属于细粒度识别任务，是指区分从属类别的任务。不同于常见的细粒度类别如鸟，车，飞机等，食物没有固定的空间结构或共有语义模式，不能使用关系约束来进行特征提取，这使得现有的大部分细粒度分类方法无法很好的应对食物图像识别任务。针对食物类别的特点，常规的解决方法是引入额外的监督信息来缓解食物识别中的细粒度语义特征的获取问题，如菜谱，食物的主要成分信息，食物图片的GPS定位或者食物图像的餐厅来源等。这些额外的信息能够作为新的监督信号来指导深度学习分类器，增强判别性能。例如Min等人(Min W,Liu L,Luo Z,et al.Ingredient-Guided Cascaded Multi-Attention Network for Food Recognition[A].Proceedings of the 27th ACMInternational Conference on Multimedia[C].Association for ComputingMachinery,2019:1331–1339)提出了一种基于食物成分引导的级联多注意力网络IG-CMAN来识别食物，该网络能够按照菜品类别到菜品成分分类的顺序，以粗粒度-细粒度的方式顺序定位多个信息图像，然后融合这些图像信息区域进行菜品识别。不过这类方法需要大量的人力和时间成本采集准确的食物相关的额外信息，效益低，甚至有时候找不到来源，不能很好的泛化使用在各个场景中。

发明内容

本发明的目的在于克服现有技术中的缺点与不足，提供一种结合标签语义嵌入和注意力融合的食物识别方法；该方法提出了窗口注意力融合模块和语义中心损失。窗口注意力融合模块融合了Swin Transformer固有的自注意力权重来促使模型自适应地关注局部的关键区域，学习到食物的细粒度特征，解决了食物识别的细粒度分类问题。食物的标签名字包含着食物的重要信息，并且容易获取，由此本发明提出的语义中心损失在训练中利用食物文本标签的上下文敏感语义嵌入作为特征空间的中心，来指导图像表征，使其学习到相关的语义特征。两者的结合能够进一步提升食物识别的精度。

本发明至少通过如下技术方案之一实现。

一种结合标签语义嵌入和注意力融合的食物识别方法，包括以下步骤：

S1、根据食品数据集，结合标签语义嵌入和注意力融合训练骨干网络；

S2、将原始图像输入到训练好的骨干网络里，得到第一个分类结果向量；

S3、用窗口注意力融合模块提取骨干网络每一层的窗口注意力权重并融合，生成注意力掩膜；基于注意力掩膜上最大连通图区域范围裁剪原始图像，得到局部图；

S4、将局部图输入到骨干网络，得到第二个分类结果向量；

S5、将两个分类结果相加得到最终的分类向量，取最终的分类向量中数值最大的序号，通过查序号-类别表，得到当前食物最终的类别名。

进一步地，结合标签语义嵌入和注意力融合训练骨干网络分为两个阶段，包括以下步骤：

S1.1、第一阶段，在训练集中随机采样N张原始图片，每个图片缩放到统一的大小，再进行预处理；

S1.2、将每个图片都输入到骨干网络，得到对应的1*c维的图像特征向量x₁以及1*n维的预测类别向量n表示训练集包含的食品类别数量；

S1.3、将预测类别向量与其对数相乘并求和得到第一个分类损失L_cls1，分类损失L_cls公式如下：

其中n表示类别数量，log()表示对数运算,表示类别向量/>第i个数值；

S1.4、使用双向编码表示的变换器模型BERT提取图片对应类别标签y的语义嵌入，BERT模型的倒数第二层输出经过一个全连接层之后得到语义嵌入t₁，将语义嵌入t₁与图像特征向量x₁作差，并求平方和，得到第一个语义中心损失L_sc1：

其中x^j表示一个训练批次batch里第j个图像特征，t^j表示对应的语义嵌入；

S1.6、第二阶段，将局部图缩放到统一大小，并做预处理，输入到骨干网络，得到第二阶段的1*c维的图像特征向量x₂以及1*n维的预测类别向量n表示训练集包含的食品类别数量；S1.7、重复步骤S1.3～步骤S1.4，计算得到第二阶段局部图像的分类损失L_cls2和语义中心损失L_sc2；

S1.8将步骤S1.3、步骤S1.4、步骤S1.7的损失加权求和，反向传播更新骨干网络参数。

进一步地，步骤S1.2具体为：基于偏移窗口的层次化变换器Swin Transformer网络利用局部窗口划分输入的图像，并且在局部窗口内计算分块patch的自注意力，其利用偏移窗口划分将上一层窗口的相邻区域划为同一个窗口，在计算自注意力时间接为该区域引入其他窗口信息，使用偏移窗口划分后，两个连续变换器块Transformer blocks的计算如下：

其中和z^l表示第l块的(偏移)窗口多头自注意力模块(S)W_MSA和多层感知机模块MLP的输出特征，对应的W-MSA和SW-MSA表示分别使用窗口和偏移窗口划分的窗口多头自注意力的变换器(Transformer)；MLP表示多层感知机；LN表示特征层归一化。

基于偏移窗口的层次化变换器(Swin Transformer)在窗口自注意力计算中引入相对位置偏差

其中是查询(query)、关键(key)和价值(value)向量，/>表示维度为M²×d的实数域；d为维度，M²表示一个窗口内patch分块的数量；Attention(Q,K)表示V对应位置的注意力值，其大小表示响应程度；相对位置在每个轴上的范围为[-M+1,M-1]，Swin Transformer参数化一个偏差矩阵/>相对位置偏差B值通过查表的方式，B的数值表示位置，在/>的对应位置获取偏差值，图片序列化之后会丢失空间位置信息，因而引入相对位置偏差，加入到注意力Attention中，促使注意力图有所偏重。

进一步地，步骤S3具体为：将每个变换器块Transformer block的窗口注意力权重提取出来，第l层第h个窗口的自注意力权重表达如下：

其中Q和K分别表示查询向量Query vectors和关键向量Key vectors，d为Q、K的维度，P表示窗口内分块patch的数量，H表示第l层的窗口数量总数，w_P表示第P个分块的注意力权重值，表示p个分块patch的第k个头的注意力权重值，B表示窗口内每个分块patch之间的相对位置偏差；L表示骨干网络层数。

进一步地，每个窗口内第p个分块patch的注意力权重对多头维度求平均，表示如下：

其中k表示多头(multi head)的数量，多头(multi head)类似于卷积核的概念，用于分别提取不同的特征。

进一步地，步骤S3的融合是整合变换器块Transformer block的所有窗口的注意力权重，并将整合后的注意力权重还原成输入特征图的大小：

其中表示第l层的第H个窗口的注意力权重向量，W^l表示整合后和特征图大小一致的第l层注意力图，G_l表示将第l层W^l求平均得到的和特征图大小一致的注意力图，最终融合成的注意力掩膜M表示每个层的注意力图相乘，计算为：

进一步地，根据注意力掩膜M的最大连通图来裁剪原始图像，采取注意力掩膜M的均值作为阈值确定目标位置，设置放大系数γ来控制，表示如下：

其中为需要裁剪的注意力掩膜区域，(x,y)表示目标位置。

进一步地，只使用窗口注意力融合模块WAFM的损失为：

L_WAFM＝L_cls1+λL_cls2

其中λ表示用于平衡两个阶段的分类损失的参数，L_cls1表示第一阶段的分类损失，L_cls2表示第二阶段的分类损失。

进一步地，语义中心损失表达如下：

其中x^j表示一个训练批次batch里第j个图像特征，t^j表示对应的语义嵌入，N为训练批次(batch)的大小；

联合语义中心损失与分类损失的损失表达为：

L_{cls_sc}＝αL_cls+βL_sc

其中α、β为平衡参数，L_cls为分类损失，L_sc为语义中心损失。

进一步地，使用窗口注意力融合模块后，分类损失和语义中心损失的总损失表达为：

L_total＝α(L_cls1+L_cls2)+β(L_sc1+L_sc2)

其中α、β为平衡参数，L_cls1表示第一阶段的分类损失，L_cls2表示第二阶段分类损失，L_sc1为第一阶段的语义中心损失，L_sc2为第二阶段的语义中心损失。

进一步地，使用双向编码表示的变换器模型BERT的倒数第二层输出作为食物标签名字的上下文敏感语义嵌入，并且经过一层全连接层，保证语义嵌入的维度与图像表征的维度一致，训练中BERT模型的参数固定，语义嵌入t表达如下：

其中序列{y₁,y₂,…,y_n}表示食物文本标签y经过令牌生成器tokenizer生成的词序列，作为BERT编码器的输入，e(.)表示BERT的倒数第二个隐藏层的输出，FC表示可训练的全连接层，n表示食物词序列的长度。

与现有的技术相比，本发明的有益效果为：

1、本发明提出的窗口注意力融合模块在训练阶段不需要增加额外的框标注，就可以自适应的学习到食物图像的关键区域，两阶段的预测结果相加能得到更高的识别精度。

2、本发明提出的语义中心损失在训练中结合了食物标签的文本语义嵌入，能够在训练中指引网络学习到食物相关的重要信息。于此同时，食物标签的易获取性减少了外部知识引用的人力和时间成本，具有很高的泛用性，适用于基于变换器Transformer构建的任意食物图像识别方法。

附图说明

图1是本发明实施例一种结合标签语义嵌入和注意力融合的食物识别方法的训练流程示意图；

图2是本发明实施例中窗口注意力融合模块流程示意图；

图3是本发明实施例中语义中心损失流程示意图；

图4是本发明实例一种结合标签语义嵌入和注意力融合的食物识别方法推理流程图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，以下将结合附图和具体实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

如图1、图4所示的一种结合标签语义嵌入和注意力融合的食物识别方法：包括以下步骤：

食物识别过程如下:

S1、根据公开的食品数据集，如Food101,VireoFood172、ChineseFoodNet数据集或自建食品数据集，结合标签语义嵌入和注意力融合训练网络模型。

S2、原始图像(Raw Image)输入到训练好的骨干网络里，得到第一个分类结果C₁向量；

S3、调用窗口注意力融合模块，该模块提取骨干网络每一层的窗口注意力权重并融合，生成注意力掩膜Attention mask；基于注意力掩膜Attention mask上最大连通图区域范围裁剪原始图像，得到局部图；

S4、将局部图输入到骨干网络，得到第二个分类结果C₂向量。

S5、将两个分类结果相加得到最终的分类向量C，取C中数值最大的序号，通过查序号-类别表，得到当前食物最终的类别名。

自构建数据集构建步骤：

1、对于要采集的食物类别，每个类别分别选10张经典图片作为模板。使用预先在公开食物图像数据集训练过的骨干网络Swin Transformer模型提取模板图片的特征向量，取每个类别10个特征向量的平均值作为模板特征向量。

2、从获得授权的食品图像分享网站或外卖网站上爬虫多个食物图像，或者人工拍摄多个食物图像。分别使用预训练的骨干网络Swin Transformer模型对这些食物图像进行特征向量提取，然后分别与各个类别的模板特征向量计算余弦相似度，比较两两的余弦相似度，取相似度最大的模板的类别作为该食物图像的类别，划分该食物图像到对应类别的文件夹中。

3、待所有图像都用骨干网络Swin Transformer模型初步划分类别后，人工筛选所有类别，去掉错误分类的菜品图像。得到最终的自构建数据集。

如图2、图3所示，结合标签语义嵌入和注意力融合方法的神经网络训练过程分为两个阶段，包括以下步骤：

S1.1、在训练阶段epoch，在公开的食物图像数据集或自建食物图像数据集中随机采样N张原始图片，每个图片缩放到统一的大小，再进行预处理，图像预处理包含随机水平翻转，颜色抖动和随机裁剪等。

S1.2、第一阶段，每个图片都输入到骨干网络，得到对应的1*c维的图像特征向量x₁以及1*n维的预测类别向量n表示训练集包含的食品类别数量。

S1.3、将类别向量与其对数相乘并求和得到第一个分类损失L_cls1，分类损失L_cls公式如下：

其中n表示类别数量，log()表示对数运算,表示类别向量/>第i个数值。

S1.4、使用双向编码表示的变换器模型BERT提取图片对应类别标签y的语义嵌入，BERT模型的倒数第二层输出经过一个全连接层之后得到语义嵌入t₁，该嵌入与图像特征x₁作差，并求平方和，得到第一个语义中心损失L_sc1。语义中心损失L_sc公式如下：

其中x^j表示一个训练批次batch里第j个图像特征，则是表示一个训练批次里第1阶段第j个图像特征，t^j表示对应的语义嵌入。

注意：BERT模型为自然语言处理任务预训练的词向量表征模型，可用来提取单词或句子文本的语义嵌入，本实例用于提取食物文本标签的上下文语义嵌入的词向量表征模型可以灵活替换，不只是BERT。如果文本标签为中文表达，可以使用中文自然语言预训练模型MacBERT来提取。

S1.5、使用窗口注意力融合模块WAFM，该模块提取骨干网络每一层的窗口注意力权重并融合，生成注意力掩膜Attention mask；基于注意力掩膜Attention mask上最大连通图区域范围裁剪原始图像，得到局部图；

S1.6、第二阶段，将局部图缩放到统一大小，并做与第一阶段相同的图像预处理，输入到骨干网络，得到第二阶段的1*c维的图像特征向量x₂以及1*n维的预测类别向量n表示训练集包含的食品类别数量。

S1.7、重复步骤S1.3、步骤S1.4操作，计算得到第二阶段局部图像的分类损失L_cls2和语义中心损失L_sc2。

S1.8将上述提到损失(L_cls1,L_sc1,L_cls2,L_sc2)加权求和，反向传播更新骨干网络参数。

基于偏移窗口的层次化变换器Swin Transformer网络利用局部窗口划分输入的图像，并且在局部窗口内计算分块patch的自注意力，其利用偏移窗口划分将上一层窗口的相邻区域划为同一个窗口，在计算自注意力时间接为该区域引入其他窗口信息，使用偏移窗口划分后，两个连续变换器块Transformer blocks的计算如下：

其中和z^l表示第l块的(偏移)窗口多头自注意力模块(S)W_MSA和多层感知机模块MLP的输出特征，对应的W-MSA和SW-MSA表示分别使用窗口和偏移窗口划分的窗口多头自注意力的变换器(Transformer)；MLP表示多层感知机；LN表示特征层归一化

其中是查询(query)、关键(key)和价值(value)向量，/>表示维度为M²×d的实数域；d为维度，M²表示一个窗口内patch分块的数量；Attention(Q,K)表示V对应位置的注意力值，其大小表示响应程度。相对位置在每个轴上的范围为[-M+1,M-1]，Swin Transformer参数化一个偏差矩阵/>相对位置偏差B值通过查表的方式，B的数值表示位置，在/>的对应位置获取偏差值。图片序列化之后会丢失空间位置信息，因而引入相对位置偏差，加入到注意力Attention中，促使注意力图有所偏重。

步骤S1.5具体为：将每个变换器块Transformer block的窗口注意力权重提取出来，第l层第h个窗口的自注意力权重表达如下：

其中Q和K分别表示查询向量Query vectors和关键向量Key vectors，d为Q、K的维度，P表示窗口内分块patch的数量，这里取7。H表示该层的窗口数量总数。w_P表示第P个分块的注意力权重值，表示p个分块patch的第k个头的注意力权重值。B表示窗口内每个分块patch之间的相对位置偏差；

每个窗口内第p个分块patch的注意力权重对多头维度求平均，表示如下：

其中k表示多头multi head的数量，多头类似于卷积核的概念，用于分别提取不同的特征。

步骤S2的融合是整合变换器块Transformer block的所有窗口的注意力权重，并将整合后的注意力权重还原成输入特征图的大小：

其中表示第l层的第H个窗口的注意力权重向量，W^l表示整合后和特征图大小一致的第l层注意力图。G_l表示将第l层W^l求平均得到的，和特征图大小一致的注意力图，最终融合成的注意力掩膜M表示每个层的注意力图相乘，计算为：

根据注意力掩膜M的最大连通图来裁剪原始图像，采取注意力掩膜M的均值作为阈值确定目标位置，设置放大系数γ来控制，表示如下：

其中为需要裁剪的注意力掩膜区域，(x,y)表示位置。

只使用窗口注意力融合模块WAFM的损失为：

L_WAFM＝L_cls1+λL_cls2

其中λ表示用于平衡两个阶段的分类损失的参数，这里取1，L_cls1表示第一阶段的分类损失，L_cls2表示第二阶段的分类损失。

语义中心损失表达如下：

联合语义中心损失与分类损失的损失表达为：

L_{cls_sc}＝αL_cls+βL_sc

使用窗口注意力融合模块后，联合分类损失和语义中心损失的总损失表达为：

L_total＝α(L_cls1+L_cls2)+β(L_sc1+L_sc2)

使用双向编码表示的变换器模型BERT的倒数第二层输出作为食物标签名字的上下文敏感语义嵌入，并且经过一层全连接层，保证语义嵌入的维度与图像表征的维度一致，训练中BERT模型的参数固定，语义嵌入t表达如下：

其中序列{y₁,y₂,…,y_n}表示食物文本标签y经过令牌生成器tokenizer生成的词序列，作为BERT编码器的输入，e(.)表示BERT的倒数第二个隐藏层的输出，FC表示可训练的全连接层。

实施例2

BERT模型为自然语言处理任务预训练的词向量表征模型，可用来提取单词或句子文本的语义嵌入，本实例用于提取食物文本标签的上下文语义嵌入的词向量表征模型可以灵活替换，如果食物文本标签为英文，则采用bert-base-uncase模型。如果文本标签为中文表达，可以使用中文自然语言预训练模型MacBERT来提取。

实施例3

S2、原始图像输入到训练好的骨干网络里，得到第一个分类结果向量；

S4、将局部图输入到骨干网络，得到第二个分类结果向量；

结合标签语义嵌入和注意力融合训练骨干网络分为两个阶段，包括以下步骤：

S1.4、使用双向编码表示的变换器bert-base-japanese-char模型提取图片对应类别日文标签y的语义嵌入，bert-base-japanese-char模型的倒数第二层输出经过一个全连接层之后得到语义嵌入t₁，将语义嵌入t₁与图像特征向量x₁作差，并求平方和，得到第一个语义中心损失L_sc1：

S1.8将步骤S1.3、步骤S1.4、步骤S1.4、步骤S1.7的损失加权求和，反向传播更新骨干网络参数。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种结合标签语义嵌入和注意力融合的食物识别方法，其特征在于，包括以下步骤：

S4、将局部图输入到骨干网络，得到第二个分类结果向量；

S5、将两个分类结果相加得到最终的分类向量，取最终的分类向量中数值最大的序号，通过查序号-类别表，得到当前食物最终的类别名；

S1.8将步骤S1.3、步骤S1.4、步骤S1.7的损失加权求和，反向传播更新骨干网络参数；

步骤S1.2具体为：基于偏移窗口的层次化变换器Swin Transformer网络利用局部窗口划分输入的图像，并且在局部窗口内计算分块patch的自注意力，其利用偏移窗口划分将上一层窗口的相邻区域划为同一个窗口，在计算自注意力时间接为该区域引入其他窗口信息，使用偏移窗口划分后，两个连续变换器块Transformer blocks的计算如下：

其中和z^l表示第l层的偏移窗口SW-MSA、窗口多头自注意力模块W_MSA和多层感知机模块MLP的输出特征，对应的W-MSA和SW-MSA表示分别使用窗口和偏移窗口划分的窗口多头自注意力的变换器；MLP表示多层感知机；LN表示特征层归一化；

基于偏移窗口的层次化变换器在窗口自注意力计算中引入相对位置偏差

其中Q、K、是查询向量Query vectors、关键向量Key vectors和价值value向量，/>表示维度为M²×d的实数域；d为维度，M²表示一个窗口内patch分块的数量；Attention(Q,K)表示V对应位置的注意力值，其大小表示响应程度；相对位置在每个轴上的范围为[-M+1,M-1]，基于偏移窗口的层次化变换器参数化一个偏差矩阵相对位置偏差B值通过查表的方式，B表示窗口内每个分块patch之间的相对位置偏差，在/>的对应位置获取偏差值，图片序列化之后会丢失空间位置信息，因而引入相对位置偏差，加入到注意力Attention中，促使注意力图有所偏重。

2.根据权利要求1所述的一种结合标签语义嵌入和注意力融合的食物识别方法，其特征在于，步骤S3具体为：将每个变换器块Transformer block的窗口注意力权重提取出来，第l层第h个窗口的自注意力权重表达如下：

l∈[1,2,…,L]，h∈[1,2,…,H]

3.根据权利要求2所述的一种结合标签语义嵌入和注意力融合的食物识别方法，其特征在于，每个窗口内第p个分块patch的注意力权重对多头维度求平均，表示如下：

其中k表示多头的数量，用于分别提取不同的特征。

4.根据权利要求1所述的一种结合标签语义嵌入和注意力融合的食物识别方法，其特征在于，步骤S3的融合是整合变换器块Transformer block的所有窗口的注意力权重，并将整合后的注意力权重还原成输入特征图的大小：

5.根据权利要求1所述的一种结合标签语义嵌入和注意力融合的食物识别方法，其特征在于，根据注意力掩膜M的最大连通图来裁剪原始图像，采取注意力掩膜M的均值作为阈值确定目标位置，设置放大系数γ来控制，表示如下：

其中为需要裁剪的注意力掩膜区域，(x,y)表示目标位置。

6.根据权利要求1所述的一种结合标签语义嵌入和注意力融合的食物识别方法，其特征在于，只使用窗口注意力融合模块WAFM的损失为：

L_WAFM＝L_cls1+λL_cls2

7.根据权利要求1所述的一种结合标签语义嵌入和注意力融合的食物识别方法，其特征在于，语义中心损失表达如下：

其中x^j表示一个训练批次batch里第j个图像特征，t^j表示对应的语义嵌入，N为训练批次的大小；

联合语义中心损失与分类损失的损失表达为：

L_{cls_sc}＝αL_cls+βL_sc

8.根据权利要求1所述的一种结合标签语义嵌入和注意力融合的食物识别方法，其特征在于，使用窗口注意力融合模块后，分类损失和语义中心损失的总损失表达为：

L_total＝α(L_cls1+L_cls2)+β(L_sc1+L_sc2)

9.根据权利要求1所述的一种结合标签语义嵌入和注意力融合的食物识别方法，其特征在于，使用双向编码表示的变换器模型BERT的倒数第二层输出作为食物标签名字的上下文敏感语义嵌入，并且经过一层全连接层，保证语义嵌入的维度与图像表征的维度一致，训练中BERT模型的参数固定，语义嵌入t表达如下：