CN115438206A

CN115438206A - 基于三元融合神经网络用于图像和菜谱的跨模态检索方法

Info

Publication number: CN115438206A
Application number: CN202110612179.6A
Authority: CN
Inventors: 徐行; 孙嘉良; 李娇; 沈复民
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-06-02
Filing date: 2021-06-02
Publication date: 2022-12-06

Abstract

本发明属于跨模态检索领域，提出一种基于三元融合神经网络用于图像和菜谱的跨模态检索方法，包括：分别提取食物图像数据、烹饪步骤数据和食材数据的特征向量，烹饪步骤数据和食材数据组成菜谱数据；对食材数据运用注意力机制，计算不同食材的特征权重；对提取到特征向量进行三元融合，并结合不同食材的特征权重得到三元融合特征向量，并进行张量分解和学习，得到最终的三元融合特征向量，进行映射后，得到食物图像和菜谱的相似度；利用三阶段的采样策略对食物图像和菜谱的相似度样本进行筛选；利用筛选出的样本训练整体三元融合神经网络；利用训练好的三元融合神经网络对食物图像和菜谱进行跨模态检索。本发明能够实现有效的跨模态检索。

Description

基于三元融合神经网络用于图像和菜谱的跨模态检索方法

技术领域

本发明涉及跨模态检索领域，尤其涉及一种基于三元融合神经网络用于图像和菜谱的跨模态检索方法。

背景技术

近年来，饮食健康越来越受到人们重视，随着大量食物相关软件应用的出现，跨模态菜谱检索成了一项研究热点，这项任务是跨模态检索的一个具体应用。跨模态检索是指输入一种类型的媒体数据，从数据库中检索出与其相关的所有其他模态的数据。跨模态菜谱检索的具体场景是输入任意一张食物图像，检索出与之对应的菜谱文本数据（包括烹饪步骤数据和食材数据），或是输入任意一项菜谱文本数据，检索出与之对应的食物图像。该任务的重点在于如何挖掘多模态数据之间的关联性，因此对于计算机视觉和自然语言处理的结合有着深远意义。它的难点主要体现在两方面：第一，需要同时处理图像和文本模态的数据，分别从中提取特征，并对齐两种不同模态的特征，从而使得相似度可以被跨模态地计算；第二，考虑到食物的多样性以及烹饪手法的复杂性，非结构化且含有噪音的跨模态菜谱数据是难以处理的，例如根据同一菜谱文本数据制作而成的食物，可能因为拍摄角度、盛放容器、个人口味而导致它的食物图像外观各式各样，而看似相同的食物图像可能是由完全不同的食材经过完全不同的烹饪手法后得到的。

现有的绝大多数方法通过将食物图像和菜谱文本投射到相同的子嵌入空间来获取两种不同模态数据之间的语义相关性，并由此得到跨模态的对齐方案。经过它们在跨模态检索任务上取得了不错的表现，但是仍存在以下不足：

1）现有方法往往简单地将烹饪步骤数据和食材数据视为文本数据，通过将两者拼接起来得到菜谱文本数据。这种做法忽略了烹饪步骤数据和食材数据这两者潜在的区别；

2）现有方法一般通过二元融合结构的神经网络来得到食物图像和菜谱文本数据之间的相关性，而没有直接考虑到食物图像、烹饪步骤数据和食材数据这三者之间的两两联系，这忽略了原始数据中丰富的三元融合信息。

发明内容

本发明的目的是提供一种基于三元融合神经网络用于图像和菜谱的跨模态检索方法，达到更好地跨模态菜谱检索效果。

本发明解决其技术问题，采用的技术方案是：

本发明提出的一种基于三元融合神经网络用于图像和菜谱的跨模态检索方法，包括如下步骤：

步骤1.分别提取食物图像数据、烹饪步骤数据和食材数据的特征向量，所述饪步骤数据和食材数据组成菜谱数据；

步骤2.对食材数据运用注意力机制，以计算不同食材的特征权重；

步骤3.对提取到的食物图像数据、烹饪步骤数据和食材数据的特征向量进行三元融合，并结合所述不同食材的特征权重得到三元融合特征向量；

步骤4.对所述三元融合特征向量进行张量分解；

步骤5.对进行张量分解后的三元融合特征向量进行学习，得到最终的三元融合特征向量，并将所述最终的三元融合特征向量进行映射，得到食物图像和菜谱的相似度；

步骤6.利用三阶段的采样策略对食物图像和菜谱的相似度样本进行筛选；

步骤7.利用筛选出的样本对步骤1-6组成的三元融合神经网络进行训练；

步骤8.利用训练好的三元融合神经网络对食物图像和菜谱进行跨模态检索。

进一步的是，步骤1中：

对于所述食物图像数据，使用残差神经网络ResNet50进行特征提取，提取出食物图像数据的特征向量，并利用一个嵌入层进行映射；

对于所述烹饪步骤数据，使用sentence2vector模型提取出烹饪步骤的向量表示，然后运用长短期记忆神经网络LSTM提取出烹饪步骤数据的特征向量，并利用一个嵌入层进行映射；

对于所述食材数据，使用word2vec模型对其编码，然后利用一个单层双向的门控循环单元GRU提取出食材数据的特征向量。

进一步的是，步骤2具体是指：

步骤201.对于食材数据特征向量中的每个食材，初始化它的权重作为注意力的数值；

步骤202.利用食材的权重和食材数据特征向量，通过加权求和得到应用注意力机制的食材数据特征向量；

步骤203.利用一个嵌入层对加权后的食材数据特征向量进行映射。

进一步的是，步骤3具体是指：

步骤301.将应用注意力机制的食材数据的特征向量根据具体食材拆分成不同的子特征向量；

步骤302.分别计算食物图像数据的特征向量、烹饪步骤数据的特征向量和食材数据子特征向量的张量模积；

步骤303.将计算得到的张量模积重新拼接得到三元融合特征向量。

进一步的是，步骤4具体包括以下步骤：

步骤401.应用PARALIND张量分解模型将高维的张量拆分成一组低维张量的总和，每组低维张量包括一个依赖张量和三个因数矩阵；

步骤402.将注意力机制的张量拆分成32组低维张量；

步骤403.将三元融合的特征张量拆分成一组包含一个依赖张量和三个因数矩阵的低维张量；

步骤404.通过学习得到拆分后的低维张量近似计算出三元融合特征向量。

进一步的是，步骤5具体是指：

步骤501.将进行张量分解后的三元融合特征向量分别送入两组全连接层；

步骤502.将输出的结果加上烹饪数据特征向量和加权求和后的食材数据特征向量求和学习得到最终的三元融合特征向量；

步骤503.将最终的三元融合特征向量送入一组全连接层进行映射；

步骤504.利用Sigmoid激活函数将映射后的值放缩到0至1范围内的值作为相似度。

进一步的是，步骤6具体是指：

步骤601.构建半难样本采样、批次内难样本采样、在线难样本采样三种采样策略；

步骤602.在训练的不同阶段分别选取不同的采样策略，对所述最终的三元融合向量进行采样。

进一步的是，步骤7具体是指：采用Bi-directionaltripletloss作为损失函数，对步骤1-6组成的的三元融合神经网络进行训练。

进一步的是，步骤8具体包括以下步骤：

步骤801.将给定的食物图像或菜谱数据作为输入的一部分；

步骤802.从数据库中取出另一模态的数据，作为输入的另一部分；

步骤803.将组合成的图像-菜谱数据对输入训练好的三元融合神经网络；

步骤804.三元融合神经网络计算出给定图像-菜谱数据对的相似度得分；

步骤805.对整个数据库中图像-菜谱数据对的相似度得分进行排序，跨模态检索结果即为相似度得分最大的数据对应的检索结果。

本发明的有益效果是，通过上述基于三元融合神经网络用于图像和菜谱的跨模态检索方法，能够同时利用食物图像、烹饪步骤数据和食材数据三者之间的高阶联系，从中学习到了具有准确性的跨模态相似度表示方法，还通过注意力机制关注到了食材数据中的重要部分，并通过张量分解和三阶段的采样策略提高了神经网络的训练速度，获得更好的跨模态检索效果。

附图说明

图1为本发明实施例1中基于三元融合神经网络用于图像和菜谱的跨模态检索方法的流程图；

图2为本发明实施例2中三元融合神经网络连接框架图；

图3为本发明实施例2中三元融合张量分解的示意图；

图4为本发明实施例2中三阶段样本采样的示意图。

具体实施方式

下面结合附图及实施例，详细描述本发明的技术方案。

实施例1

为了能够达到更好地跨模态检索效果，本实施例提供一种基于三元融合神经网络用于图像和菜谱的跨模态检索方法，其流程图见图1，其中，该方法包括如下步骤：

S1.分别提取食物图像数据、烹饪步骤数据和食材数据的特征向量，所述饪步骤数据和食材数据组成菜谱数据；

S2.对食材数据运用注意力机制，以计算不同食材的特征权重；

S3.对提取到的食物图像数据、烹饪步骤数据和食材数据的特征向量进行三元融合，并结合所述不同食材的特征权重得到三元融合特征向量；

S4.对所述三元融合特征向量进行张量分解；

S5.对进行张量分解后的三元融合特征向量进行学习，得到最终的三元融合特征向量，并将所述最终的三元融合特征向量进行映射，得到食物图像和菜谱的相似度；

S6.利用三阶段的采样策略对食物图像和菜谱的相似度样本进行筛选；

S7.利用筛选出的样本对上述步骤组成的三元融合神经网络进行训练；

S8.利用训练好的三元融合神经网络对食物图像和菜谱进行跨模态检索。

本实施例中，通过三元融合同时获取了图像数据、烹饪步骤数据和食材数据三者之间的两两关系，利用注意力机制和相似度映射学习到了图像和菜谱之间的相似度，并应提出了三阶段的三元组数据采样策略，从而实现有效的跨模态检索。

实施例2

在实施例1的基础上，并参见图2-图4，本实施例中提出的基于三元融合神经网络用于图像和菜谱的跨模态检索方法，首先提取三种输入数据的特征向量，通过注意力机制施加不同权重，然后对提取到的特征向量进行三元融合与张量分解，并将最终得到的三元融合特征进行映射得到图像和菜谱的相似度。

图2左侧选取了Recipe1M数据集中的其中一例，左上方图像表示原始菜谱图像，左侧烹饪步骤数据和食材数据表示该食物对应的原始烹饪步骤数据和原始食材数据，在展示时对过长的文本进行了截断处理。

图3表示张量分解的原理，一个三阶张量

可以被分解为一系列低阶张量的和，表示为

。其中

是依赖张量，

均为因数张量，D是可以调节的参数，D越大则张量分解程度越高，计算速度越快，D越小则张量分解的结果越接近原始计算结果。

图4右侧选取了Recipe1M数据集中的一例，右上方Instruction表示该菜谱的原始烹饪步骤数据，Ingredient表示该菜谱的原始食材数据，在展示时对过长的文本进行了截断处理。

实际应用中，当计算得出图像菜谱相似度后，利用三阶段的采样策略从中选取出需要使用的相似度样本，并利用Bi-directionaltripletloss函数训练整个网络，然后进行图像菜谱的跨模态检索。

具体而言，本实施例提出的基于三元融合神经网络用于图像和菜谱的跨模态检索方法主要包括以下步骤：

步骤1：分别提取食物图像数据、烹饪步骤数据和食材数据的特征向量，其中，饪步骤数据和食材数据组成菜谱数据；

这里，由于该任务的原始输入为图片形式的图像数据，以及文本形式的烹饪步骤数据和食材数据，这些数据都不能被计算机直接理解，因此首先需要对它们提取特征，才能作为三元融合神经网络的输入。

其中，步骤1具体可以包括以下步骤：

步骤11：对于图像数据，使用卷积神经网络ResNet-50进行特征提取，取该卷积神经网络最后一层卷积层的输出，输入到一个全连接层中和一个tanh激活函数层中，得到维度为1024的图像嵌入，用

表示，其中

表示提取得到的图像特征，

表示全体实数，

表示图像特征的维度，在本实施例中为1024。

步骤12：烹饪步骤数据由多个句子组成，使用两阶段的长短期记忆人工神经网络将每个句子表示成句向量，再通过这些句向量的序列生成输出，同样经过一个全连接层后得到维度为1024的烹饪步骤数据嵌入，用

表示，其中

表示提取得到的烹饪步骤数据特征，

表示烹饪步骤数据特征的维度，在本实施例中为1024。

步骤13：给定一个由

个单词组成的食材数据，先将每个单词编码为300维的向量，再使用一个单层的双向门控循环单元将每个向量编码为1024维的特征，得到共

*1024维的食材数据嵌入用

表示，其中

表示提取得到的食材数据特征，

表示食材数据特征的维度，在本实施例中为

*1024。

步骤2：对食材数据运用注意力机制，以计算不同食材的特征权重；

在该步骤中，考虑到不同食材对于食物最终成品图像的影响不同，例如常见的盐、糖、胡椒粉、面粉等配料对于食物的外观几乎没有影响，而一道菜谱中的主要食材则对食物的外观起到了决定性作用，因此应该对食材数据引入注意力机制，根据食材数据中每一个食材对于最终食物外观的重要性，分别给予不同的权重，重要性越高的食材，对应的权重也越大。

其中，步骤2具体可以包括以下步骤：

步骤S21：三元融合特征向量为

，则引入注意力机制的实现如下：

其中

为注意力特征图，

表示一个食材数据嵌入中的第i个单词所对应的嵌入分量，

表示该嵌入分量对应的权重，这些权重由三元融合神经网络在学习过程中得到。

步骤S22：上述三元融合特征向量中，食材数据嵌入里每个单词对应的嵌入分量需要单独计算如下：

其中，

是需要学习的张量。

用于确定不同食材重要性的注意力特征图的计算如下：

其中

也是需要学习的张量。

步骤S3：对提取到的食物图像数据、烹饪步骤数据和食材数据的特征向量进行三元融合，并结合所述不同食材的特征权重得到三元融合特征向量；

实际应用过程中，传统的图像-菜谱跨模态检索方法一般基于二元融合的思想，将烹饪步骤数据和食材数据拼接起来作为菜谱文本数据，然后对图像数据和菜谱文本数据进行融合，学习到跨模态相似度。不同于传统方法，本实施例使用三元融合的思想，来更好地获取图像数据、烹饪步骤数据和食材数据三者之间的两两关系，并在特征层面对烹饪步骤数据和食材数据加以区分，从而更好地实现该跨模态检索任务。

其中，步骤3具体可以包括以下步骤：

步骤31：由上述图像数据嵌入、烹饪步骤数据嵌入和食材数据嵌入可以计算得到三元融合特征，如下：

其中

是需要学习的张量，

代表在第i个维度上进行矩阵模积，三元融合特征

的维度是一个可调节的参数，本实施例中设置为1024，

表示张量的向量化形式。

步骤32：将施加了注意力机制的数据嵌入代入三元融合特征的计算过程中，如下：

步骤4：对三元融合特征向量进行张量分解，以实现计算的可行性；

需要说明的是，经过步骤1-步骤3后，已经得到计算三元融合特征的表达式，由于三元融合的计算复杂性较高，难以直接用神经网络进行学习，为了实现计算的可行性，并进一步提高计算效率，需要引入张量分解。

其中，步骤4具体可以包括以下步骤：

步骤41：根据PARALIND张量分解模型，待学习的张量

可以被分解成多个较小张量的模积之和，如下：

其中

是可以调节的参数，用于控制较小张量的数量，在本实施例中设置为32，

，

和

都是较小的可学习张量，

被初始化为正态分布。

步骤42：类似地，待学习的张量

也可以被分解，考虑到

的维度与三元融合张量

的维度直接相关，为了尽可能多地保留三元融合信息，在本实施例中将参数

设置为1，具体分解如下：

其中

，

和

都是较小的可学习张量，注意上式中的

是秩为1的对称张量，因此该式的计算可以用哈达玛积近似得到。

步骤43：经过上述分解后，三元融合张量的计算如下：

步骤44：为了进一步结合输入数据中潜在的跨模态信息，本实施例中将三元融合张量与烹饪步骤数据嵌入和食材数据嵌入通过全连接层进一步结合，得到最终的三元融合张量

如下：

其中

和

分别代表两个全连接层的权重。

步骤5：对进行张量分解后的三元融合特征向量进行学习，得到最终的三元融合特征向量，并将最终的三元融合特征向量通过Sigmoid函数进行映射，得到图像和菜谱的相似度如下：

式中的

表示相似性度量函数，

表示作为三元融合神经网络输入的图像-菜谱数据对，

是用于将特征向量映射到相似度得分的全连接层，

表示sigmoid激活函数。

步骤6：利用三阶段的采样策略对食物图像和菜谱的相似度样本进行筛选。

这里，为了更好地对正样本和负样本进行区分，本实施例引入了三阶段的采样策略。在第一阶段使用较简单的负样本，即半难样本采样，避免模型崩溃，并提高模型的收敛速度；在第二阶段使用较难的负样本，即批次内难样本采样，提高模型的检索准确度；在第三阶段使用大量的难负样本，即在线难样本采样，进一步提高模型的表现。

其中，步骤S6具体包括以下步骤：

步骤61：在训练的初始阶段，采样半难负样本进行训练。半难负样本是指那些与锚点的相似度得分小于正样本与锚点的相似度得分，同时又属于负样本的样本，定义如下：

其中

表示锚点样本，

表示正样本，

表示负样本，注意这里的锚点样本与正、负样本是不同模态的数据。

步骤62：当半难负样本的比例小于阈值后，采样批次内难样本进行训练。批次内难样本是指一个小批次数据

内最难的样本，即与锚点的相似度得分最高的负样本，定义如下：

步骤63：当批次内难样本的比例小于阈值后，进行在线难样本采样。在线难样本采样是指保存一定数量的小批次内的数据，从中筛选出最难的样本进行训练。

步骤7：利用步骤6筛选出的样本，对步骤1-6组成的三元融合神经网络进行训练，本实施例中，可以选用Bi-directionaltripletloss，损失函数如下：

式中的

表示最大值函数

，

为可调节的间隔参数，在本实施例中设置为0.3。

步骤8：利用训练好的三元融合神经网络对图像和菜谱进行跨模态检索。

其中，步骤8具体包括以下步骤：

步骤81：对给定模态的数据，提取特征向量。

步骤82：将该数据的特征向量，和数据库中另一模态数据的特征向量组合，作为三元融合神经网络的输入。

步骤84：训练好的三元融合神经网络根据输入，经过计算得到输入，作为这一组图像-菜谱数据的相似度得分。

步骤83：将输入数据和数据库中所有另一模态数据组合后的输出进行排序，相似度得分越高的排名越靠前，作为检索的排序结果返回，这里，跨模态检索结果即为相似度得分最大的数据对应的检索结果。

实施例3

本实施例在实施例2的基础上进行了实验，选用了跨模态菜谱检索领域中最常用的大规模数据集Recipe1M作为评估标准。该数据集包含了从网络上搜集的超过一百万份菜谱，本实施例按照官方标准采用其中的238999个图像-菜谱对用于训练集，51119个图像-菜谱对作为验证集，51303个图像-菜谱对作为测试集。三元融合神经网络在训练集上进行训练，依据验证集的结果选出表现最好的模型，并在测试集上进行评估。

本实施例以检索领域最常见的评估指标MedR和TopK作为标准。MedR是指所有的检索结果中，正确的检索结果所在的排名的中位数，该指标越低代表模型表现越好。TopK是指所有的检索结果中，正确的检索结果所在的排名小于K的结果所占的百分比，该指标越高代表模型表现越好。

在实验的具体设置中，本实施例分别以K=1，K=5和K=10进行了评估，并选取了1000组输入数据（1k）和10000组输入数据（10k）两种不同的测试集大小。所有的实验均在随机选取的测试集上进行了10次，并取平均值作为最终结果，如下表所示：

表1

表1展示了本发明提出的三元融合神经网络在菜谱检索任务上取得的效果，并与其他主流方法进行了对比。表中第一列的Image-to-Recipe和Recipe-to-Image分别代表用菜谱图像检索菜谱文本和用菜谱文本检索菜谱图像两项任务；表中第二列的Size代表检索任务采用的测试集数据量大小，1k表示1000条数据，10k表示一万条数据；Methods代表本发明对比的各项菜谱检索任务主流方法；MedR表示上文提到的评估指标MedR，该指标越低代表模型表现越好；R@1、R@5和R@10表示上文提到的评估指标TopK，K分别取1、5和10，该指标越高代表模型表现越好。

从表1可以看出，本发明在图像-菜谱检索的所有实验设置和场景中均取得了最高的评估得分。在Recipe1M数据集上，我们相较于之前最好的方法取得了明显的提高，这表明本发明提出的三元融合神经网络大大提升了图像-菜谱跨模态检索的有效性。

Claims

1.基于三元融合神经网络用于图像和菜谱的跨模态检索方法，其特征在于，包括如下步骤：

步骤4.对所述三元融合特征向量进行张量分解；

2.根据权利要求1所述的基于三元融合神经网络用于图像和菜谱的跨模态检索方法，其特征在于，步骤1中：

3.根据权利要求1所述的基于三元融合神经网络用于图像和菜谱的跨模态检索方法，其特征在于，步骤2具体是指：

4.根据权利要求1所述的基于三元融合神经网络用于图像和菜谱的跨模态检索方法，其特征在于，步骤3具体是指：

5.根据权利要求1所述的基于三元融合神经网络用于图像和菜谱的跨模态检索方法，其特征在于，步骤4具体包括以下步骤：

步骤402.将注意力机制的张量拆分成32组低维张量；

6.根据权利要求1所述的基于三元融合神经网络用于图像和菜谱的跨模态检索方法，其特征在于，步骤5具体是指：

7.根据权利要求1所述的基于三元融合神经网络用于图像和菜谱的跨模态检索方法，其特征在于，步骤6具体是指：

8.根据权利要求1所述的基于三元融合神经网络用于图像和菜谱的跨模态检索方法，其特征在于，步骤7具体是指：采用Bi-directionaltripletloss作为损失函数，对步骤1-6组成的的三元融合神经网络进行训练。

9.根据权利要求1所述的基于三元融合神经网络用于图像和菜谱的跨模态检索方法，其特征在于，步骤8具体包括以下步骤：

步骤801.将给定的食物图像或菜谱数据作为输入的一部分；