CN115438206A - 基于三元融合神经网络用于图像和菜谱的跨模态检索方法 - Google Patents

基于三元融合神经网络用于图像和菜谱的跨模态检索方法 Download PDF

Info

Publication number
CN115438206A
CN115438206A CN202110612179.6A CN202110612179A CN115438206A CN 115438206 A CN115438206 A CN 115438206A CN 202110612179 A CN202110612179 A CN 202110612179A CN 115438206 A CN115438206 A CN 115438206A
Authority
CN
China
Prior art keywords
data
food
neural network
ternary
ternary fusion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110612179.6A
Other languages
English (en)
Inventor
徐行
孙嘉良
李娇
沈复民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202110612179.6A priority Critical patent/CN115438206A/zh
Publication of CN115438206A publication Critical patent/CN115438206A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/12Hotels or restaurants
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4038Image mosaicing, e.g. composing plane images from plane sub-images

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Primary Health Care (AREA)
  • Marketing (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Business, Economics & Management (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Economics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于跨模态检索领域,提出一种基于三元融合神经网络用于图像和菜谱的跨模态检索方法,包括:分别提取食物图像数据、烹饪步骤数据和食材数据的特征向量,烹饪步骤数据和食材数据组成菜谱数据;对食材数据运用注意力机制,计算不同食材的特征权重;对提取到特征向量进行三元融合,并结合不同食材的特征权重得到三元融合特征向量,并进行张量分解和学习,得到最终的三元融合特征向量,进行映射后,得到食物图像和菜谱的相似度;利用三阶段的采样策略对食物图像和菜谱的相似度样本进行筛选;利用筛选出的样本训练整体三元融合神经网络;利用训练好的三元融合神经网络对食物图像和菜谱进行跨模态检索。本发明能够实现有效的跨模态检索。

Description

基于三元融合神经网络用于图像和菜谱的跨模态检索方法
技术领域
本发明涉及跨模态检索领域,尤其涉及一种基于三元融合神经网络用于图像和菜谱的跨模态检索方法。
背景技术
近年来,饮食健康越来越受到人们重视,随着大量食物相关软件应用的出现,跨模态菜谱检索成了一项研究热点,这项任务是跨模态检索的一个具体应用。跨模态检索是指输入一种类型的媒体数据,从数据库中检索出与其相关的所有其他模态的数据。跨模态菜谱检索的具体场景是输入任意一张食物图像,检索出与之对应的菜谱文本数据(包括烹饪步骤数据和食材数据),或是输入任意一项菜谱文本数据,检索出与之对应的食物图像。该任务的重点在于如何挖掘多模态数据之间的关联性,因此对于计算机视觉和自然语言处理的结合有着深远意义。它的难点主要体现在两方面:第一,需要同时处理图像和文本模态的数据,分别从中提取特征,并对齐两种不同模态的特征,从而使得相似度可以被跨模态地计算;第二,考虑到食物的多样性以及烹饪手法的复杂性,非结构化且含有噪音的跨模态菜谱数据是难以处理的,例如根据同一菜谱文本数据制作而成的食物,可能因为拍摄角度、盛放容器、个人口味而导致它的食物图像外观各式各样,而看似相同的食物图像可能是由完全不同的食材经过完全不同的烹饪手法后得到的。
现有的绝大多数方法通过将食物图像和菜谱文本投射到相同的子嵌入空间来获取两种不同模态数据之间的语义相关性,并由此得到跨模态的对齐方案。经过它们在跨模态检索任务上取得了不错的表现,但是仍存在以下不足:
1)现有方法往往简单地将烹饪步骤数据和食材数据视为文本数据,通过将两者拼接起来得到菜谱文本数据。这种做法忽略了烹饪步骤数据和食材数据这两者潜在的区别;
2)现有方法一般通过二元融合结构的神经网络来得到食物图像和菜谱文本数据之间的相关性,而没有直接考虑到食物图像、烹饪步骤数据和食材数据这三者之间的两两联系,这忽略了原始数据中丰富的三元融合信息。
发明内容
本发明的目的是提供一种基于三元融合神经网络用于图像和菜谱的跨模态检索方法,达到更好地跨模态菜谱检索效果。
本发明解决其技术问题,采用的技术方案是:
本发明提出的一种基于三元融合神经网络用于图像和菜谱的跨模态检索方法,包括如下步骤:
步骤1.分别提取食物图像数据、烹饪步骤数据和食材数据的特征向量,所述饪步骤数据和食材数据组成菜谱数据;
步骤2.对食材数据运用注意力机制,以计算不同食材的特征权重;
步骤3.对提取到的食物图像数据、烹饪步骤数据和食材数据的特征向量进行三元融合,并结合所述不同食材的特征权重得到三元融合特征向量;
步骤4.对所述三元融合特征向量进行张量分解;
步骤5.对进行张量分解后的三元融合特征向量进行学习,得到最终的三元融合特征向量,并将所述最终的三元融合特征向量进行映射,得到食物图像和菜谱的相似度;
步骤6.利用三阶段的采样策略对食物图像和菜谱的相似度样本进行筛选;
步骤7.利用筛选出的样本对步骤1-6组成的三元融合神经网络进行训练;
步骤8.利用训练好的三元融合神经网络对食物图像和菜谱进行跨模态检索。
进一步的是,步骤1中:
对于所述食物图像数据,使用残差神经网络ResNet50进行特征提取,提取出食物图像数据的特征向量,并利用一个嵌入层进行映射;
对于所述烹饪步骤数据,使用sentence2vector模型提取出烹饪步骤的向量表示,然后运用长短期记忆神经网络LSTM提取出烹饪步骤数据的特征向量,并利用一个嵌入层进行映射;
对于所述食材数据,使用word2vec模型对其编码,然后利用一个单层双向的门控循环单元GRU提取出食材数据的特征向量。
进一步的是,步骤2具体是指:
步骤201.对于食材数据特征向量中的每个食材,初始化它的权重作为注意力的数值;
步骤202.利用食材的权重和食材数据特征向量,通过加权求和得到应用注意力机制的食材数据特征向量;
步骤203.利用一个嵌入层对加权后的食材数据特征向量进行映射。
进一步的是,步骤3具体是指:
步骤301.将应用注意力机制的食材数据的特征向量根据具体食材拆分成不同的子特征向量;
步骤302.分别计算食物图像数据的特征向量、烹饪步骤数据的特征向量和食材数据子特征向量的张量模积;
步骤303.将计算得到的张量模积重新拼接得到三元融合特征向量。
进一步的是,步骤4具体包括以下步骤:
步骤401.应用PARALIND张量分解模型将高维的张量拆分成一组低维张量的总和,每组低维张量包括一个依赖张量和三个因数矩阵;
步骤402.将注意力机制的张量拆分成32组低维张量;
步骤403.将三元融合的特征张量拆分成一组包含一个依赖张量和三个因数矩阵的低维张量;
步骤404.通过学习得到拆分后的低维张量近似计算出三元融合特征向量。
进一步的是,步骤5具体是指:
步骤501.将进行张量分解后的三元融合特征向量分别送入两组全连接层;
步骤502.将输出的结果加上烹饪数据特征向量和加权求和后的食材数据特征向量求和学习得到最终的三元融合特征向量;
步骤503.将最终的三元融合特征向量送入一组全连接层进行映射;
步骤504.利用Sigmoid激活函数将映射后的值放缩到0至1范围内的值作为相似度。
进一步的是,步骤6具体是指:
步骤601.构建半难样本采样、批次内难样本采样、在线难样本采样三种采样策略;
步骤602.在训练的不同阶段分别选取不同的采样策略,对所述最终的三元融合向量进行采样。
进一步的是,步骤7具体是指:采用Bi-directionaltripletloss作为损失函数,对步骤1-6组成的的三元融合神经网络进行训练。
进一步的是,步骤8具体包括以下步骤:
步骤801.将给定的食物图像或菜谱数据作为输入的一部分;
步骤802.从数据库中取出另一模态的数据,作为输入的另一部分;
步骤803.将组合成的图像-菜谱数据对输入训练好的三元融合神经网络;
步骤804.三元融合神经网络计算出给定图像-菜谱数据对的相似度得分;
步骤805.对整个数据库中图像-菜谱数据对的相似度得分进行排序,跨模态检索结果即为相似度得分最大的数据对应的检索结果。
本发明的有益效果是,通过上述基于三元融合神经网络用于图像和菜谱的跨模态检索方法,能够同时利用食物图像、烹饪步骤数据和食材数据三者之间的高阶联系,从中学习到了具有准确性的跨模态相似度表示方法,还通过注意力机制关注到了食材数据中的重要部分,并通过张量分解和三阶段的采样策略提高了神经网络的训练速度,获得更好的跨模态检索效果。
附图说明
图1为本发明实施例1中基于三元融合神经网络用于图像和菜谱的跨模态检索方法的流程图;
图2为本发明实施例2中三元融合神经网络连接框架图;
图3为本发明实施例2中三元融合张量分解的示意图;
图4为本发明实施例2中三阶段样本采样的示意图。
具体实施方式
下面结合附图及实施例,详细描述本发明的技术方案。
实施例1
为了能够达到更好地跨模态检索效果,本实施例提供一种基于三元融合神经网络用于图像和菜谱的跨模态检索方法,其流程图见图1,其中,该方法包括如下步骤:
S1.分别提取食物图像数据、烹饪步骤数据和食材数据的特征向量,所述饪步骤数据和食材数据组成菜谱数据;
S2.对食材数据运用注意力机制,以计算不同食材的特征权重;
S3.对提取到的食物图像数据、烹饪步骤数据和食材数据的特征向量进行三元融合,并结合所述不同食材的特征权重得到三元融合特征向量;
S4.对所述三元融合特征向量进行张量分解;
S5.对进行张量分解后的三元融合特征向量进行学习,得到最终的三元融合特征向量,并将所述最终的三元融合特征向量进行映射,得到食物图像和菜谱的相似度;
S6.利用三阶段的采样策略对食物图像和菜谱的相似度样本进行筛选;
S7.利用筛选出的样本对上述步骤组成的三元融合神经网络进行训练;
S8.利用训练好的三元融合神经网络对食物图像和菜谱进行跨模态检索。
本实施例中,通过三元融合同时获取了图像数据、烹饪步骤数据和食材数据三者之间的两两关系,利用注意力机制和相似度映射学习到了图像和菜谱之间的相似度,并应提出了三阶段的三元组数据采样策略,从而实现有效的跨模态检索。
实施例2
在实施例1的基础上,并参见图2-图4,本实施例中提出的基于三元融合神经网络用于图像和菜谱的跨模态检索方法,首先提取三种输入数据的特征向量,通过注意力机制施加不同权重,然后对提取到的特征向量进行三元融合与张量分解,并将最终得到的三元融合特征进行映射得到图像和菜谱的相似度。
图2左侧选取了Recipe1M数据集中的其中一例,左上方图像表示原始菜谱图像,左侧烹饪步骤数据和食材数据表示该食物对应的原始烹饪步骤数据和原始食材数据,在展示时对过长的文本进行了截断处理。
图3表示张量分解的原理,一个三阶张量
Figure DEST_PATH_IMAGE001
可以被分解为一系列低阶张量的和,表示为
Figure 862866DEST_PATH_IMAGE002
。其中
Figure DEST_PATH_IMAGE003
是依赖张量,
Figure 593055DEST_PATH_IMAGE004
均为因数张量,D是可以调节的参数,D越大则张量分解程度越高,计算速度越快,D越小则张量分解的结果越接近原始计算结果。
图4右侧选取了Recipe1M数据集中的一例,右上方Instruction表示该菜谱的原始烹饪步骤数据,Ingredient表示该菜谱的原始食材数据,在展示时对过长的文本进行了截断处理。
实际应用中,当计算得出图像菜谱相似度后,利用三阶段的采样策略从中选取出需要使用的相似度样本,并利用Bi-directionaltripletloss函数训练整个网络,然后进行图像菜谱的跨模态检索。
具体而言,本实施例提出的基于三元融合神经网络用于图像和菜谱的跨模态检索方法主要包括以下步骤:
步骤1:分别提取食物图像数据、烹饪步骤数据和食材数据的特征向量,其中,饪步骤数据和食材数据组成菜谱数据;
这里,由于该任务的原始输入为图片形式的图像数据,以及文本形式的烹饪步骤数据和食材数据,这些数据都不能被计算机直接理解,因此首先需要对它们提取特征,才能作为三元融合神经网络的输入。
其中,步骤1具体可以包括以下步骤:
步骤11:对于图像数据,使用卷积神经网络ResNet-50进行特征提取,取该卷积神经网络最后一层卷积层的输出,输入到一个全连接层中和一个tanh激活函数层中,得到维度为1024的图像嵌入,用
Figure DEST_PATH_IMAGE005
表示,其中
Figure 435109DEST_PATH_IMAGE006
表示提取得到的图像特征,
Figure DEST_PATH_IMAGE007
表示全体实数,
Figure 136044DEST_PATH_IMAGE008
表示图像特征的维度,在本实施例中为1024。
步骤12:烹饪步骤数据由多个句子组成,使用两阶段的长短期记忆人工神经网络将每个句子表示成句向量,再通过这些句向量的序列生成输出,同样经过一个全连接层后得到维度为1024的烹饪步骤数据嵌入,用
Figure DEST_PATH_IMAGE009
表示,其中
Figure 950416DEST_PATH_IMAGE010
表示提取得到的烹饪步骤数据特征,
Figure DEST_PATH_IMAGE011
表示烹饪步骤数据特征的维度,在本实施例中为1024。
步骤13:给定一个由
Figure 835195DEST_PATH_IMAGE012
个单词组成的食材数据,先将每个单词编码为300维的向量,再使用一个单层的双向门控循环单元将每个向量编码为1024维的特征,得到共
Figure DEST_PATH_IMAGE013
*1024维的食材数据嵌入用
Figure 915278DEST_PATH_IMAGE014
表示,其中
Figure DEST_PATH_IMAGE015
表示提取得到的食材数据特征,
Figure 176495DEST_PATH_IMAGE016
表示食材数据特征的维度,在本实施例中为
Figure 845374DEST_PATH_IMAGE013
*1024。
步骤2:对食材数据运用注意力机制,以计算不同食材的特征权重;
在该步骤中,考虑到不同食材对于食物最终成品图像的影响不同,例如常见的盐、糖、胡椒粉、面粉等配料对于食物的外观几乎没有影响,而一道菜谱中的主要食材则对食物的外观起到了决定性作用,因此应该对食材数据引入注意力机制,根据食材数据中每一个食材对于最终食物外观的重要性,分别给予不同的权重,重要性越高的食材,对应的权重也越大。
其中,步骤2具体可以包括以下步骤:
步骤S21:三元融合特征向量为
Figure DEST_PATH_IMAGE017
,则引入注意力机制的实现如下:
Figure 150322DEST_PATH_IMAGE018
其中
Figure DEST_PATH_IMAGE019
为注意力特征图,
Figure 966968DEST_PATH_IMAGE020
表示一个食材数据嵌入中的第i个单词所对应的嵌入分量,
Figure DEST_PATH_IMAGE021
表示该嵌入分量对应的权重,这些权重由三元融合神经网络在学习过程中得到。
步骤S22:上述三元融合特征向量中,食材数据嵌入里每个单词对应的嵌入分量需要单独计算如下:
Figure 517030DEST_PATH_IMAGE022
其中,
Figure DEST_PATH_IMAGE023
是需要学习的张量。
用于确定不同食材重要性的注意力特征图的计算如下:
Figure 40415DEST_PATH_IMAGE024
其中
Figure 532576DEST_PATH_IMAGE025
也是需要学习的张量。
步骤S3:对提取到的食物图像数据、烹饪步骤数据和食材数据的特征向量进行三元融合,并结合所述不同食材的特征权重得到三元融合特征向量;
实际应用过程中,传统的图像-菜谱跨模态检索方法一般基于二元融合的思想,将烹饪步骤数据和食材数据拼接起来作为菜谱文本数据,然后对图像数据和菜谱文本数据进行融合,学习到跨模态相似度。不同于传统方法,本实施例使用三元融合的思想,来更好地获取图像数据、烹饪步骤数据和食材数据三者之间的两两关系,并在特征层面对烹饪步骤数据和食材数据加以区分,从而更好地实现该跨模态检索任务。
其中,步骤3具体可以包括以下步骤:
步骤31:由上述图像数据嵌入、烹饪步骤数据嵌入和食材数据嵌入可以计算得到三元融合特征,如下:
Figure DEST_PATH_IMAGE026
其中
Figure 774201DEST_PATH_IMAGE027
是需要学习的张量,
Figure DEST_PATH_IMAGE028
代表在第i个维度上进行矩阵模积,三元融合特征
Figure 360909DEST_PATH_IMAGE029
的维度是一个可调节的参数,本实施例中设置为1024,
Figure DEST_PATH_IMAGE030
表示张量的向量化形式。
步骤32:将施加了注意力机制的数据嵌入代入三元融合特征的计算过程中,如下:
Figure 66697DEST_PATH_IMAGE031
步骤4:对三元融合特征向量进行张量分解,以实现计算的可行性;
需要说明的是,经过步骤1-步骤3后,已经得到计算三元融合特征的表达式,由于三元融合的计算复杂性较高,难以直接用神经网络进行学习,为了实现计算的可行性,并进一步提高计算效率,需要引入张量分解。
其中,步骤4具体可以包括以下步骤:
步骤41:根据PARALIND张量分解模型,待学习的张量
Figure DEST_PATH_IMAGE032
可以被分解成多个较小张量的模积之和,如下:
Figure 214913DEST_PATH_IMAGE033
其中
Figure DEST_PATH_IMAGE034
是可以调节的参数,用于控制较小张量的数量,在本实施例中设置为32,
Figure 6151DEST_PATH_IMAGE035
Figure DEST_PATH_IMAGE036
Figure 84966DEST_PATH_IMAGE037
都是较小的可学习张量,
Figure DEST_PATH_IMAGE038
被初始化为正态分布。
步骤42:类似地,待学习的张量
Figure 894528DEST_PATH_IMAGE039
也可以被分解,考虑到
Figure DEST_PATH_IMAGE040
的维度与三元融合张量
Figure 728492DEST_PATH_IMAGE017
的维度直接相关,为了尽可能多地保留三元融合信息,在本实施例中将参数
Figure 679130DEST_PATH_IMAGE034
设置为1,具体分解如下:
Figure 374685DEST_PATH_IMAGE041
其中
Figure DEST_PATH_IMAGE042
Figure 789486DEST_PATH_IMAGE043
Figure DEST_PATH_IMAGE044
都是较小的可学习张量,注意上式中的
Figure 732034DEST_PATH_IMAGE045
是秩为1的对称张量,因此该式的计算可以用哈达玛积近似得到。
步骤43:经过上述分解后,三元融合张量的计算如下:
Figure DEST_PATH_IMAGE046
步骤44:为了进一步结合输入数据中潜在的跨模态信息,本实施例中将三元融合张量与烹饪步骤数据嵌入和食材数据嵌入通过全连接层进一步结合,得到最终的三元融合张量
Figure 487412DEST_PATH_IMAGE047
如下:
Figure DEST_PATH_IMAGE048
其中
Figure 970346DEST_PATH_IMAGE049
Figure DEST_PATH_IMAGE050
分别代表两个全连接层的权重。
步骤5:对进行张量分解后的三元融合特征向量进行学习,得到最终的三元融合特征向量,并将最终的三元融合特征向量通过Sigmoid函数进行映射,得到图像和菜谱的相似度如下:
Figure 255965DEST_PATH_IMAGE051
式中的
Figure DEST_PATH_IMAGE052
表示相似性度量函数,
Figure 369415DEST_PATH_IMAGE053
表示作为三元融合神经网络输入的图像-菜谱数据对,
Figure DEST_PATH_IMAGE054
是用于将特征向量映射到相似度得分的全连接层,
Figure 356962DEST_PATH_IMAGE055
表示sigmoid激活函数。
步骤6:利用三阶段的采样策略对食物图像和菜谱的相似度样本进行筛选。
这里,为了更好地对正样本和负样本进行区分,本实施例引入了三阶段的采样策略。在第一阶段使用较简单的负样本,即半难样本采样,避免模型崩溃,并提高模型的收敛速度;在第二阶段使用较难的负样本,即批次内难样本采样,提高模型的检索准确度;在第三阶段使用大量的难负样本,即在线难样本采样,进一步提高模型的表现。
其中,步骤S6具体包括以下步骤:
步骤61:在训练的初始阶段,采样半难负样本进行训练。半难负样本是指那些与锚点的相似度得分小于正样本与锚点的相似度得分,同时又属于负样本的样本,定义如下:
Figure DEST_PATH_IMAGE056
其中
Figure 892855DEST_PATH_IMAGE057
表示锚点样本,
Figure DEST_PATH_IMAGE058
表示正样本,
Figure 16668DEST_PATH_IMAGE059
表示负样本,注意这里的锚点样本与正、负样本是不同模态的数据。
步骤62:当半难负样本的比例小于阈值后,采样批次内难样本进行训练。批次内难样本是指一个小批次数据
Figure DEST_PATH_IMAGE060
内最难的样本,即与锚点的相似度得分最高的负样本,定义如下:
Figure 301019DEST_PATH_IMAGE061
步骤63:当批次内难样本的比例小于阈值后,进行在线难样本采样。在线难样本采样是指保存一定数量的小批次内的数据,从中筛选出最难的样本进行训练。
步骤7:利用步骤6筛选出的样本,对步骤1-6组成的三元融合神经网络进行训练,本实施例中,可以选用Bi-directionaltripletloss,损失函数如下:
Figure DEST_PATH_IMAGE062
式中的
Figure 526595DEST_PATH_IMAGE063
表示最大值函数
Figure DEST_PATH_IMAGE064
Figure 616911DEST_PATH_IMAGE065
为可调节的间隔参数,在本实施例中设置为0.3。
步骤8:利用训练好的三元融合神经网络对图像和菜谱进行跨模态检索。
其中,步骤8具体包括以下步骤:
步骤81:对给定模态的数据,提取特征向量。
步骤82:将该数据的特征向量,和数据库中另一模态数据的特征向量组合,作为三元融合神经网络的输入。
步骤84:训练好的三元融合神经网络根据输入,经过计算得到输入,作为这一组图像-菜谱数据的相似度得分。
步骤83:将输入数据和数据库中所有另一模态数据组合后的输出进行排序,相似度得分越高的排名越靠前,作为检索的排序结果返回,这里,跨模态检索结果即为相似度得分最大的数据对应的检索结果。
实施例3
本实施例在实施例2的基础上进行了实验,选用了跨模态菜谱检索领域中最常用的大规模数据集Recipe1M作为评估标准。该数据集包含了从网络上搜集的超过一百万份菜谱,本实施例按照官方标准采用其中的238999个图像-菜谱对用于训练集,51119个图像-菜谱对作为验证集,51303个图像-菜谱对作为测试集。三元融合神经网络在训练集上进行训练,依据验证集的结果选出表现最好的模型,并在测试集上进行评估。
本实施例以检索领域最常见的评估指标MedR和TopK作为标准。MedR是指所有的检索结果中,正确的检索结果所在的排名的中位数,该指标越低代表模型表现越好。TopK是指所有的检索结果中,正确的检索结果所在的排名小于K的结果所占的百分比,该指标越高代表模型表现越好。
在实验的具体设置中,本实施例分别以K=1,K=5和K=10进行了评估,并选取了1000组输入数据(1k)和10000组输入数据(10k)两种不同的测试集大小。所有的实验均在随机选取的测试集上进行了10次,并取平均值作为最终结果,如下表所示:
表1
Figure DEST_PATH_IMAGE066
表1展示了本发明提出的三元融合神经网络在菜谱检索任务上取得的效果,并与其他主流方法进行了对比。表中第一列的Image-to-Recipe和Recipe-to-Image分别代表用菜谱图像检索菜谱文本和用菜谱文本检索菜谱图像两项任务;表中第二列的Size代表检索任务采用的测试集数据量大小,1k表示1000条数据,10k表示一万条数据;Methods代表本发明对比的各项菜谱检索任务主流方法;MedR表示上文提到的评估指标MedR,该指标越低代表模型表现越好;R@1、R@5和R@10表示上文提到的评估指标TopK,K分别取1、5和10,该指标越高代表模型表现越好。
从表1可以看出,本发明在图像-菜谱检索的所有实验设置和场景中均取得了最高的评估得分。在Recipe1M数据集上,我们相较于之前最好的方法取得了明显的提高,这表明本发明提出的三元融合神经网络大大提升了图像-菜谱跨模态检索的有效性。

Claims (9)

1.基于三元融合神经网络用于图像和菜谱的跨模态检索方法,其特征在于,包括如下步骤:
步骤1.分别提取食物图像数据、烹饪步骤数据和食材数据的特征向量,所述饪步骤数据和食材数据组成菜谱数据;
步骤2.对食材数据运用注意力机制,以计算不同食材的特征权重;
步骤3.对提取到的食物图像数据、烹饪步骤数据和食材数据的特征向量进行三元融合,并结合所述不同食材的特征权重得到三元融合特征向量;
步骤4.对所述三元融合特征向量进行张量分解;
步骤5.对进行张量分解后的三元融合特征向量进行学习,得到最终的三元融合特征向量,并将所述最终的三元融合特征向量进行映射,得到食物图像和菜谱的相似度;
步骤6.利用三阶段的采样策略对食物图像和菜谱的相似度样本进行筛选;
步骤7.利用筛选出的样本对步骤1-6组成的三元融合神经网络进行训练;
步骤8.利用训练好的三元融合神经网络对食物图像和菜谱进行跨模态检索。
2.根据权利要求1所述的基于三元融合神经网络用于图像和菜谱的跨模态检索方法,其特征在于,步骤1中:
对于所述食物图像数据,使用残差神经网络ResNet50进行特征提取,提取出食物图像数据的特征向量,并利用一个嵌入层进行映射;
对于所述烹饪步骤数据,使用sentence2vector模型提取出烹饪步骤的向量表示,然后运用长短期记忆神经网络LSTM提取出烹饪步骤数据的特征向量,并利用一个嵌入层进行映射;
对于所述食材数据,使用word2vec模型对其编码,然后利用一个单层双向的门控循环单元GRU提取出食材数据的特征向量。
3.根据权利要求1所述的基于三元融合神经网络用于图像和菜谱的跨模态检索方法,其特征在于,步骤2具体是指:
步骤201.对于食材数据特征向量中的每个食材,初始化它的权重作为注意力的数值;
步骤202.利用食材的权重和食材数据特征向量,通过加权求和得到应用注意力机制的食材数据特征向量;
步骤203.利用一个嵌入层对加权后的食材数据特征向量进行映射。
4.根据权利要求1所述的基于三元融合神经网络用于图像和菜谱的跨模态检索方法,其特征在于,步骤3具体是指:
步骤301.将应用注意力机制的食材数据的特征向量根据具体食材拆分成不同的子特征向量;
步骤302.分别计算食物图像数据的特征向量、烹饪步骤数据的特征向量和食材数据子特征向量的张量模积;
步骤303.将计算得到的张量模积重新拼接得到三元融合特征向量。
5.根据权利要求1所述的基于三元融合神经网络用于图像和菜谱的跨模态检索方法,其特征在于,步骤4具体包括以下步骤:
步骤401.应用PARALIND张量分解模型将高维的张量拆分成一组低维张量的总和,每组低维张量包括一个依赖张量和三个因数矩阵;
步骤402.将注意力机制的张量拆分成32组低维张量;
步骤403.将三元融合的特征张量拆分成一组包含一个依赖张量和三个因数矩阵的低维张量;
步骤404.通过学习得到拆分后的低维张量近似计算出三元融合特征向量。
6.根据权利要求1所述的基于三元融合神经网络用于图像和菜谱的跨模态检索方法,其特征在于,步骤5具体是指:
步骤501.将进行张量分解后的三元融合特征向量分别送入两组全连接层;
步骤502.将输出的结果加上烹饪数据特征向量和加权求和后的食材数据特征向量求和学习得到最终的三元融合特征向量;
步骤503.将最终的三元融合特征向量送入一组全连接层进行映射;
步骤504.利用Sigmoid激活函数将映射后的值放缩到0至1范围内的值作为相似度。
7.根据权利要求1所述的基于三元融合神经网络用于图像和菜谱的跨模态检索方法,其特征在于,步骤6具体是指:
步骤601.构建半难样本采样、批次内难样本采样、在线难样本采样三种采样策略;
步骤602.在训练的不同阶段分别选取不同的采样策略,对所述最终的三元融合向量进行采样。
8.根据权利要求1所述的基于三元融合神经网络用于图像和菜谱的跨模态检索方法,其特征在于,步骤7具体是指:采用Bi-directionaltripletloss作为损失函数,对步骤1-6组成的的三元融合神经网络进行训练。
9.根据权利要求1所述的基于三元融合神经网络用于图像和菜谱的跨模态检索方法,其特征在于,步骤8具体包括以下步骤:
步骤801.将给定的食物图像或菜谱数据作为输入的一部分;
步骤802.从数据库中取出另一模态的数据,作为输入的另一部分;
步骤803.将组合成的图像-菜谱数据对输入训练好的三元融合神经网络;
步骤804.三元融合神经网络计算出给定图像-菜谱数据对的相似度得分;
步骤805.对整个数据库中图像-菜谱数据对的相似度得分进行排序,跨模态检索结果即为相似度得分最大的数据对应的检索结果。
CN202110612179.6A 2021-06-02 2021-06-02 基于三元融合神经网络用于图像和菜谱的跨模态检索方法 Pending CN115438206A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110612179.6A CN115438206A (zh) 2021-06-02 2021-06-02 基于三元融合神经网络用于图像和菜谱的跨模态检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110612179.6A CN115438206A (zh) 2021-06-02 2021-06-02 基于三元融合神经网络用于图像和菜谱的跨模态检索方法

Publications (1)

Publication Number Publication Date
CN115438206A true CN115438206A (zh) 2022-12-06

Family

ID=84240172

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110612179.6A Pending CN115438206A (zh) 2021-06-02 2021-06-02 基于三元融合神经网络用于图像和菜谱的跨模态检索方法

Country Status (1)

Country Link
CN (1) CN115438206A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115829058A (zh) * 2022-12-23 2023-03-21 北京百度网讯科技有限公司 训练样本处理方法、跨模态匹配方法、装置、设备和介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115829058A (zh) * 2022-12-23 2023-03-21 北京百度网讯科技有限公司 训练样本处理方法、跨模态匹配方法、装置、设备和介质
CN115829058B (zh) * 2022-12-23 2024-04-23 北京百度网讯科技有限公司 训练样本处理方法、跨模态匹配方法、装置、设备和介质

Similar Documents

Publication Publication Date Title
CN108363753B (zh) 评论文本情感分类模型训练与情感分类方法、装置及设备
CN110059198B (zh) 一种基于相似性保持的跨模态数据的离散哈希检索方法
CN105975573B (zh) 一种基于knn的文本分类方法
CN108875074B (zh) 基于交叉注意力神经网络的答案选择方法、装置和电子设备
CN110083693B (zh) 机器人对话回复方法及装置
CN110728298A (zh) 多任务分类模型训练方法、多任务分类方法及装置
CN111753189A (zh) 一种少样本跨模态哈希检索共同表征学习方法
CN112328900A (zh) 一种融合评分矩阵和评论文本的深度学习推荐方法
CN109726747B (zh) 基于社交网络推荐平台的数据融合排序方法
CN110659420B (zh) 一种基于深度神经网络蒙特卡洛搜索树的个性化配餐方法
CN111737586B (zh) 信息推荐方法、装置、设备及计算机可读存储介质
CN110222838B (zh) 文档排序方法、装置、电子设备及存储介质
CN114693397A (zh) 一种基于注意力神经网络的多视角多模态商品推荐方法
KR20200010672A (ko) 딥러닝을 이용한 스마트 상품 검색 방법 및 시스템
JP7198408B2 (ja) 商標情報処理装置及び方法、並びにプログラム
CN114201683A (zh) 一种基于多级匹配的兴趣激活新闻推荐方法及系统
CN112084307A (zh) 一种数据处理方法、装置、服务器及计算机可读存储介质
Olkiewicz et al. Emotion-based image retrieval—An artificial neural network approach
CN115270752A (zh) 一种基于多层次对比学习的模板句评估方法
CN114022687B (zh) 一种基于增强学习的图像描述对抗生成方法
CN111538841A (zh) 基于知识互蒸馏的评论情感分析方法、装置及系统
CN113409157B (zh) 一种跨社交网络用户对齐方法以及装置
CN115438206A (zh) 基于三元融合神经网络用于图像和菜谱的跨模态检索方法
Saha et al. The corporeality of infotainment on fans feedback towards sports comment employing convolutional long-short term neural network
CN113420833A (zh) 一种基于问题语义映射的视觉问答方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination