CN115438206A - 基于三元融合神经网络用于图像和菜谱的跨模态检索方法 - Google Patents
基于三元融合神经网络用于图像和菜谱的跨模态检索方法 Download PDFInfo
- Publication number
- CN115438206A CN115438206A CN202110612179.6A CN202110612179A CN115438206A CN 115438206 A CN115438206 A CN 115438206A CN 202110612179 A CN202110612179 A CN 202110612179A CN 115438206 A CN115438206 A CN 115438206A
- Authority
- CN
- China
- Prior art keywords
- data
- food
- neural network
- ternary
- ternary fusion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 102
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 52
- 238000000034 method Methods 0.000 title claims abstract description 39
- 235000013305 food Nutrition 0.000 claims abstract description 131
- 239000000463 material Substances 0.000 claims abstract description 85
- 239000013598 vector Substances 0.000 claims abstract description 67
- 238000010411 cooking Methods 0.000 claims abstract description 48
- 238000005070 sampling Methods 0.000 claims abstract description 28
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 23
- 230000007246 mechanism Effects 0.000 claims abstract description 17
- 238000012549 training Methods 0.000 claims abstract description 16
- 238000013507 mapping Methods 0.000 claims abstract description 15
- 238000012216 screening Methods 0.000 claims abstract description 6
- 239000010410 layer Substances 0.000 claims description 17
- 238000004364 calculation method Methods 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 4
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 239000002356 single layer Substances 0.000 claims description 3
- 238000005303 weighing Methods 0.000 claims description 2
- 238000012360 testing method Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 101100481876 Danio rerio pbk gene Proteins 0.000 description 3
- 101100481878 Mus musculus Pbk gene Proteins 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 239000004615 ingredient Substances 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 235000002566 Capsicum Nutrition 0.000 description 1
- 239000006002 Pepper Substances 0.000 description 1
- 235000016761 Piper aduncum Nutrition 0.000 description 1
- 235000017804 Piper guineense Nutrition 0.000 description 1
- 244000203593 Piper nigrum Species 0.000 description 1
- 235000008184 Piper nigrum Nutrition 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 235000005911 diet Nutrition 0.000 description 1
- 230000037213 diet Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000012467 final product Substances 0.000 description 1
- 235000013312 flour Nutrition 0.000 description 1
- 235000019601 food appearance Nutrition 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 150000003839 salts Chemical class 0.000 description 1
- 235000002639 sodium chloride Nutrition 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 235000000346 sugar Nutrition 0.000 description 1
- 235000019640 taste Nutrition 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/12—Hotels or restaurants
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4038—Image mosaicing, e.g. composing plane images from plane sub-images
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Primary Health Care (AREA)
- Marketing (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Business, Economics & Management (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Economics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明属于跨模态检索领域,提出一种基于三元融合神经网络用于图像和菜谱的跨模态检索方法,包括:分别提取食物图像数据、烹饪步骤数据和食材数据的特征向量,烹饪步骤数据和食材数据组成菜谱数据;对食材数据运用注意力机制,计算不同食材的特征权重;对提取到特征向量进行三元融合,并结合不同食材的特征权重得到三元融合特征向量,并进行张量分解和学习,得到最终的三元融合特征向量,进行映射后,得到食物图像和菜谱的相似度;利用三阶段的采样策略对食物图像和菜谱的相似度样本进行筛选;利用筛选出的样本训练整体三元融合神经网络;利用训练好的三元融合神经网络对食物图像和菜谱进行跨模态检索。本发明能够实现有效的跨模态检索。
Description
技术领域
本发明涉及跨模态检索领域,尤其涉及一种基于三元融合神经网络用于图像和菜谱的跨模态检索方法。
背景技术
近年来,饮食健康越来越受到人们重视,随着大量食物相关软件应用的出现,跨模态菜谱检索成了一项研究热点,这项任务是跨模态检索的一个具体应用。跨模态检索是指输入一种类型的媒体数据,从数据库中检索出与其相关的所有其他模态的数据。跨模态菜谱检索的具体场景是输入任意一张食物图像,检索出与之对应的菜谱文本数据(包括烹饪步骤数据和食材数据),或是输入任意一项菜谱文本数据,检索出与之对应的食物图像。该任务的重点在于如何挖掘多模态数据之间的关联性,因此对于计算机视觉和自然语言处理的结合有着深远意义。它的难点主要体现在两方面:第一,需要同时处理图像和文本模态的数据,分别从中提取特征,并对齐两种不同模态的特征,从而使得相似度可以被跨模态地计算;第二,考虑到食物的多样性以及烹饪手法的复杂性,非结构化且含有噪音的跨模态菜谱数据是难以处理的,例如根据同一菜谱文本数据制作而成的食物,可能因为拍摄角度、盛放容器、个人口味而导致它的食物图像外观各式各样,而看似相同的食物图像可能是由完全不同的食材经过完全不同的烹饪手法后得到的。
现有的绝大多数方法通过将食物图像和菜谱文本投射到相同的子嵌入空间来获取两种不同模态数据之间的语义相关性,并由此得到跨模态的对齐方案。经过它们在跨模态检索任务上取得了不错的表现,但是仍存在以下不足:
1)现有方法往往简单地将烹饪步骤数据和食材数据视为文本数据,通过将两者拼接起来得到菜谱文本数据。这种做法忽略了烹饪步骤数据和食材数据这两者潜在的区别;
2)现有方法一般通过二元融合结构的神经网络来得到食物图像和菜谱文本数据之间的相关性,而没有直接考虑到食物图像、烹饪步骤数据和食材数据这三者之间的两两联系,这忽略了原始数据中丰富的三元融合信息。
发明内容
本发明的目的是提供一种基于三元融合神经网络用于图像和菜谱的跨模态检索方法,达到更好地跨模态菜谱检索效果。
本发明解决其技术问题,采用的技术方案是:
本发明提出的一种基于三元融合神经网络用于图像和菜谱的跨模态检索方法,包括如下步骤:
步骤1.分别提取食物图像数据、烹饪步骤数据和食材数据的特征向量,所述饪步骤数据和食材数据组成菜谱数据;
步骤2.对食材数据运用注意力机制,以计算不同食材的特征权重;
步骤3.对提取到的食物图像数据、烹饪步骤数据和食材数据的特征向量进行三元融合,并结合所述不同食材的特征权重得到三元融合特征向量;
步骤4.对所述三元融合特征向量进行张量分解;
步骤5.对进行张量分解后的三元融合特征向量进行学习,得到最终的三元融合特征向量,并将所述最终的三元融合特征向量进行映射,得到食物图像和菜谱的相似度;
步骤6.利用三阶段的采样策略对食物图像和菜谱的相似度样本进行筛选;
步骤7.利用筛选出的样本对步骤1-6组成的三元融合神经网络进行训练;
步骤8.利用训练好的三元融合神经网络对食物图像和菜谱进行跨模态检索。
进一步的是,步骤1中:
对于所述食物图像数据,使用残差神经网络ResNet50进行特征提取,提取出食物图像数据的特征向量,并利用一个嵌入层进行映射;
对于所述烹饪步骤数据,使用sentence2vector模型提取出烹饪步骤的向量表示,然后运用长短期记忆神经网络LSTM提取出烹饪步骤数据的特征向量,并利用一个嵌入层进行映射;
对于所述食材数据,使用word2vec模型对其编码,然后利用一个单层双向的门控循环单元GRU提取出食材数据的特征向量。
进一步的是,步骤2具体是指:
步骤201.对于食材数据特征向量中的每个食材,初始化它的权重作为注意力的数值;
步骤202.利用食材的权重和食材数据特征向量,通过加权求和得到应用注意力机制的食材数据特征向量;
步骤203.利用一个嵌入层对加权后的食材数据特征向量进行映射。
进一步的是,步骤3具体是指:
步骤301.将应用注意力机制的食材数据的特征向量根据具体食材拆分成不同的子特征向量;
步骤302.分别计算食物图像数据的特征向量、烹饪步骤数据的特征向量和食材数据子特征向量的张量模积;
步骤303.将计算得到的张量模积重新拼接得到三元融合特征向量。
进一步的是,步骤4具体包括以下步骤:
步骤401.应用PARALIND张量分解模型将高维的张量拆分成一组低维张量的总和,每组低维张量包括一个依赖张量和三个因数矩阵;
步骤402.将注意力机制的张量拆分成32组低维张量;
步骤403.将三元融合的特征张量拆分成一组包含一个依赖张量和三个因数矩阵的低维张量;
步骤404.通过学习得到拆分后的低维张量近似计算出三元融合特征向量。
进一步的是,步骤5具体是指:
步骤501.将进行张量分解后的三元融合特征向量分别送入两组全连接层;
步骤502.将输出的结果加上烹饪数据特征向量和加权求和后的食材数据特征向量求和学习得到最终的三元融合特征向量;
步骤503.将最终的三元融合特征向量送入一组全连接层进行映射;
步骤504.利用Sigmoid激活函数将映射后的值放缩到0至1范围内的值作为相似度。
进一步的是,步骤6具体是指:
步骤601.构建半难样本采样、批次内难样本采样、在线难样本采样三种采样策略;
步骤602.在训练的不同阶段分别选取不同的采样策略,对所述最终的三元融合向量进行采样。
进一步的是,步骤7具体是指:采用Bi-directionaltripletloss作为损失函数,对步骤1-6组成的的三元融合神经网络进行训练。
进一步的是,步骤8具体包括以下步骤:
步骤801.将给定的食物图像或菜谱数据作为输入的一部分;
步骤802.从数据库中取出另一模态的数据,作为输入的另一部分;
步骤803.将组合成的图像-菜谱数据对输入训练好的三元融合神经网络;
步骤804.三元融合神经网络计算出给定图像-菜谱数据对的相似度得分;
步骤805.对整个数据库中图像-菜谱数据对的相似度得分进行排序,跨模态检索结果即为相似度得分最大的数据对应的检索结果。
本发明的有益效果是,通过上述基于三元融合神经网络用于图像和菜谱的跨模态检索方法,能够同时利用食物图像、烹饪步骤数据和食材数据三者之间的高阶联系,从中学习到了具有准确性的跨模态相似度表示方法,还通过注意力机制关注到了食材数据中的重要部分,并通过张量分解和三阶段的采样策略提高了神经网络的训练速度,获得更好的跨模态检索效果。
附图说明
图1为本发明实施例1中基于三元融合神经网络用于图像和菜谱的跨模态检索方法的流程图;
图2为本发明实施例2中三元融合神经网络连接框架图;
图3为本发明实施例2中三元融合张量分解的示意图;
图4为本发明实施例2中三阶段样本采样的示意图。
具体实施方式
下面结合附图及实施例,详细描述本发明的技术方案。
实施例1
为了能够达到更好地跨模态检索效果,本实施例提供一种基于三元融合神经网络用于图像和菜谱的跨模态检索方法,其流程图见图1,其中,该方法包括如下步骤:
S1.分别提取食物图像数据、烹饪步骤数据和食材数据的特征向量,所述饪步骤数据和食材数据组成菜谱数据;
S2.对食材数据运用注意力机制,以计算不同食材的特征权重;
S3.对提取到的食物图像数据、烹饪步骤数据和食材数据的特征向量进行三元融合,并结合所述不同食材的特征权重得到三元融合特征向量;
S4.对所述三元融合特征向量进行张量分解;
S5.对进行张量分解后的三元融合特征向量进行学习,得到最终的三元融合特征向量,并将所述最终的三元融合特征向量进行映射,得到食物图像和菜谱的相似度;
S6.利用三阶段的采样策略对食物图像和菜谱的相似度样本进行筛选;
S7.利用筛选出的样本对上述步骤组成的三元融合神经网络进行训练;
S8.利用训练好的三元融合神经网络对食物图像和菜谱进行跨模态检索。
本实施例中,通过三元融合同时获取了图像数据、烹饪步骤数据和食材数据三者之间的两两关系,利用注意力机制和相似度映射学习到了图像和菜谱之间的相似度,并应提出了三阶段的三元组数据采样策略,从而实现有效的跨模态检索。
实施例2
在实施例1的基础上,并参见图2-图4,本实施例中提出的基于三元融合神经网络用于图像和菜谱的跨模态检索方法,首先提取三种输入数据的特征向量,通过注意力机制施加不同权重,然后对提取到的特征向量进行三元融合与张量分解,并将最终得到的三元融合特征进行映射得到图像和菜谱的相似度。
图2左侧选取了Recipe1M数据集中的其中一例,左上方图像表示原始菜谱图像,左侧烹饪步骤数据和食材数据表示该食物对应的原始烹饪步骤数据和原始食材数据,在展示时对过长的文本进行了截断处理。
图3表示张量分解的原理,一个三阶张量可以被分解为一系列低阶张量的和,表示为。其中是依赖张量,均为因数张量,D是可以调节的参数,D越大则张量分解程度越高,计算速度越快,D越小则张量分解的结果越接近原始计算结果。
图4右侧选取了Recipe1M数据集中的一例,右上方Instruction表示该菜谱的原始烹饪步骤数据,Ingredient表示该菜谱的原始食材数据,在展示时对过长的文本进行了截断处理。
实际应用中,当计算得出图像菜谱相似度后,利用三阶段的采样策略从中选取出需要使用的相似度样本,并利用Bi-directionaltripletloss函数训练整个网络,然后进行图像菜谱的跨模态检索。
具体而言,本实施例提出的基于三元融合神经网络用于图像和菜谱的跨模态检索方法主要包括以下步骤:
步骤1:分别提取食物图像数据、烹饪步骤数据和食材数据的特征向量,其中,饪步骤数据和食材数据组成菜谱数据;
这里,由于该任务的原始输入为图片形式的图像数据,以及文本形式的烹饪步骤数据和食材数据,这些数据都不能被计算机直接理解,因此首先需要对它们提取特征,才能作为三元融合神经网络的输入。
其中,步骤1具体可以包括以下步骤:
步骤11:对于图像数据,使用卷积神经网络ResNet-50进行特征提取,取该卷积神经网络最后一层卷积层的输出,输入到一个全连接层中和一个tanh激活函数层中,得到维度为1024的图像嵌入,用表示,其中表示提取得到的图像特征,表示全体实数,表示图像特征的维度,在本实施例中为1024。
步骤12:烹饪步骤数据由多个句子组成,使用两阶段的长短期记忆人工神经网络将每个句子表示成句向量,再通过这些句向量的序列生成输出,同样经过一个全连接层后得到维度为1024的烹饪步骤数据嵌入,用表示,其中表示提取得到的烹饪步骤数据特征,表示烹饪步骤数据特征的维度,在本实施例中为1024。
步骤13:给定一个由个单词组成的食材数据,先将每个单词编码为300维的向量,再使用一个单层的双向门控循环单元将每个向量编码为1024维的特征,得到共*1024维的食材数据嵌入用表示,其中表示提取得到的食材数据特征,表示食材数据特征的维度,在本实施例中为*1024。
步骤2:对食材数据运用注意力机制,以计算不同食材的特征权重;
在该步骤中,考虑到不同食材对于食物最终成品图像的影响不同,例如常见的盐、糖、胡椒粉、面粉等配料对于食物的外观几乎没有影响,而一道菜谱中的主要食材则对食物的外观起到了决定性作用,因此应该对食材数据引入注意力机制,根据食材数据中每一个食材对于最终食物外观的重要性,分别给予不同的权重,重要性越高的食材,对应的权重也越大。
其中,步骤2具体可以包括以下步骤:
步骤S22:上述三元融合特征向量中,食材数据嵌入里每个单词对应的嵌入分量需要单独计算如下:
用于确定不同食材重要性的注意力特征图的计算如下:
步骤S3:对提取到的食物图像数据、烹饪步骤数据和食材数据的特征向量进行三元融合,并结合所述不同食材的特征权重得到三元融合特征向量;
实际应用过程中,传统的图像-菜谱跨模态检索方法一般基于二元融合的思想,将烹饪步骤数据和食材数据拼接起来作为菜谱文本数据,然后对图像数据和菜谱文本数据进行融合,学习到跨模态相似度。不同于传统方法,本实施例使用三元融合的思想,来更好地获取图像数据、烹饪步骤数据和食材数据三者之间的两两关系,并在特征层面对烹饪步骤数据和食材数据加以区分,从而更好地实现该跨模态检索任务。
其中,步骤3具体可以包括以下步骤:
步骤31:由上述图像数据嵌入、烹饪步骤数据嵌入和食材数据嵌入可以计算得到三元融合特征,如下:
步骤32:将施加了注意力机制的数据嵌入代入三元融合特征的计算过程中,如下:
步骤4:对三元融合特征向量进行张量分解,以实现计算的可行性;
需要说明的是,经过步骤1-步骤3后,已经得到计算三元融合特征的表达式,由于三元融合的计算复杂性较高,难以直接用神经网络进行学习,为了实现计算的可行性,并进一步提高计算效率,需要引入张量分解。
其中,步骤4具体可以包括以下步骤:
步骤43:经过上述分解后,三元融合张量的计算如下:
步骤5:对进行张量分解后的三元融合特征向量进行学习,得到最终的三元融合特征向量,并将最终的三元融合特征向量通过Sigmoid函数进行映射,得到图像和菜谱的相似度如下:
步骤6:利用三阶段的采样策略对食物图像和菜谱的相似度样本进行筛选。
这里,为了更好地对正样本和负样本进行区分,本实施例引入了三阶段的采样策略。在第一阶段使用较简单的负样本,即半难样本采样,避免模型崩溃,并提高模型的收敛速度;在第二阶段使用较难的负样本,即批次内难样本采样,提高模型的检索准确度;在第三阶段使用大量的难负样本,即在线难样本采样,进一步提高模型的表现。
其中,步骤S6具体包括以下步骤:
步骤61:在训练的初始阶段,采样半难负样本进行训练。半难负样本是指那些与锚点的相似度得分小于正样本与锚点的相似度得分,同时又属于负样本的样本,定义如下:
步骤63:当批次内难样本的比例小于阈值后,进行在线难样本采样。在线难样本采样是指保存一定数量的小批次内的数据,从中筛选出最难的样本进行训练。
步骤7:利用步骤6筛选出的样本,对步骤1-6组成的三元融合神经网络进行训练,本实施例中,可以选用Bi-directionaltripletloss,损失函数如下:
步骤8:利用训练好的三元融合神经网络对图像和菜谱进行跨模态检索。
其中,步骤8具体包括以下步骤:
步骤81:对给定模态的数据,提取特征向量。
步骤82:将该数据的特征向量,和数据库中另一模态数据的特征向量组合,作为三元融合神经网络的输入。
步骤84:训练好的三元融合神经网络根据输入,经过计算得到输入,作为这一组图像-菜谱数据的相似度得分。
步骤83:将输入数据和数据库中所有另一模态数据组合后的输出进行排序,相似度得分越高的排名越靠前,作为检索的排序结果返回,这里,跨模态检索结果即为相似度得分最大的数据对应的检索结果。
实施例3
本实施例在实施例2的基础上进行了实验,选用了跨模态菜谱检索领域中最常用的大规模数据集Recipe1M作为评估标准。该数据集包含了从网络上搜集的超过一百万份菜谱,本实施例按照官方标准采用其中的238999个图像-菜谱对用于训练集,51119个图像-菜谱对作为验证集,51303个图像-菜谱对作为测试集。三元融合神经网络在训练集上进行训练,依据验证集的结果选出表现最好的模型,并在测试集上进行评估。
本实施例以检索领域最常见的评估指标MedR和TopK作为标准。MedR是指所有的检索结果中,正确的检索结果所在的排名的中位数,该指标越低代表模型表现越好。TopK是指所有的检索结果中,正确的检索结果所在的排名小于K的结果所占的百分比,该指标越高代表模型表现越好。
在实验的具体设置中,本实施例分别以K=1,K=5和K=10进行了评估,并选取了1000组输入数据(1k)和10000组输入数据(10k)两种不同的测试集大小。所有的实验均在随机选取的测试集上进行了10次,并取平均值作为最终结果,如下表所示:
表1
表1展示了本发明提出的三元融合神经网络在菜谱检索任务上取得的效果,并与其他主流方法进行了对比。表中第一列的Image-to-Recipe和Recipe-to-Image分别代表用菜谱图像检索菜谱文本和用菜谱文本检索菜谱图像两项任务;表中第二列的Size代表检索任务采用的测试集数据量大小,1k表示1000条数据,10k表示一万条数据;Methods代表本发明对比的各项菜谱检索任务主流方法;MedR表示上文提到的评估指标MedR,该指标越低代表模型表现越好;R@1、R@5和R@10表示上文提到的评估指标TopK,K分别取1、5和10,该指标越高代表模型表现越好。
从表1可以看出,本发明在图像-菜谱检索的所有实验设置和场景中均取得了最高的评估得分。在Recipe1M数据集上,我们相较于之前最好的方法取得了明显的提高,这表明本发明提出的三元融合神经网络大大提升了图像-菜谱跨模态检索的有效性。
Claims (9)
1.基于三元融合神经网络用于图像和菜谱的跨模态检索方法,其特征在于,包括如下步骤:
步骤1.分别提取食物图像数据、烹饪步骤数据和食材数据的特征向量,所述饪步骤数据和食材数据组成菜谱数据;
步骤2.对食材数据运用注意力机制,以计算不同食材的特征权重;
步骤3.对提取到的食物图像数据、烹饪步骤数据和食材数据的特征向量进行三元融合,并结合所述不同食材的特征权重得到三元融合特征向量;
步骤4.对所述三元融合特征向量进行张量分解;
步骤5.对进行张量分解后的三元融合特征向量进行学习,得到最终的三元融合特征向量,并将所述最终的三元融合特征向量进行映射,得到食物图像和菜谱的相似度;
步骤6.利用三阶段的采样策略对食物图像和菜谱的相似度样本进行筛选;
步骤7.利用筛选出的样本对步骤1-6组成的三元融合神经网络进行训练;
步骤8.利用训练好的三元融合神经网络对食物图像和菜谱进行跨模态检索。
2.根据权利要求1所述的基于三元融合神经网络用于图像和菜谱的跨模态检索方法,其特征在于,步骤1中:
对于所述食物图像数据,使用残差神经网络ResNet50进行特征提取,提取出食物图像数据的特征向量,并利用一个嵌入层进行映射;
对于所述烹饪步骤数据,使用sentence2vector模型提取出烹饪步骤的向量表示,然后运用长短期记忆神经网络LSTM提取出烹饪步骤数据的特征向量,并利用一个嵌入层进行映射;
对于所述食材数据,使用word2vec模型对其编码,然后利用一个单层双向的门控循环单元GRU提取出食材数据的特征向量。
3.根据权利要求1所述的基于三元融合神经网络用于图像和菜谱的跨模态检索方法,其特征在于,步骤2具体是指:
步骤201.对于食材数据特征向量中的每个食材,初始化它的权重作为注意力的数值;
步骤202.利用食材的权重和食材数据特征向量,通过加权求和得到应用注意力机制的食材数据特征向量;
步骤203.利用一个嵌入层对加权后的食材数据特征向量进行映射。
4.根据权利要求1所述的基于三元融合神经网络用于图像和菜谱的跨模态检索方法,其特征在于,步骤3具体是指:
步骤301.将应用注意力机制的食材数据的特征向量根据具体食材拆分成不同的子特征向量;
步骤302.分别计算食物图像数据的特征向量、烹饪步骤数据的特征向量和食材数据子特征向量的张量模积;
步骤303.将计算得到的张量模积重新拼接得到三元融合特征向量。
5.根据权利要求1所述的基于三元融合神经网络用于图像和菜谱的跨模态检索方法,其特征在于,步骤4具体包括以下步骤:
步骤401.应用PARALIND张量分解模型将高维的张量拆分成一组低维张量的总和,每组低维张量包括一个依赖张量和三个因数矩阵;
步骤402.将注意力机制的张量拆分成32组低维张量;
步骤403.将三元融合的特征张量拆分成一组包含一个依赖张量和三个因数矩阵的低维张量;
步骤404.通过学习得到拆分后的低维张量近似计算出三元融合特征向量。
6.根据权利要求1所述的基于三元融合神经网络用于图像和菜谱的跨模态检索方法,其特征在于,步骤5具体是指:
步骤501.将进行张量分解后的三元融合特征向量分别送入两组全连接层;
步骤502.将输出的结果加上烹饪数据特征向量和加权求和后的食材数据特征向量求和学习得到最终的三元融合特征向量;
步骤503.将最终的三元融合特征向量送入一组全连接层进行映射;
步骤504.利用Sigmoid激活函数将映射后的值放缩到0至1范围内的值作为相似度。
7.根据权利要求1所述的基于三元融合神经网络用于图像和菜谱的跨模态检索方法,其特征在于,步骤6具体是指:
步骤601.构建半难样本采样、批次内难样本采样、在线难样本采样三种采样策略;
步骤602.在训练的不同阶段分别选取不同的采样策略,对所述最终的三元融合向量进行采样。
8.根据权利要求1所述的基于三元融合神经网络用于图像和菜谱的跨模态检索方法,其特征在于,步骤7具体是指:采用Bi-directionaltripletloss作为损失函数,对步骤1-6组成的的三元融合神经网络进行训练。
9.根据权利要求1所述的基于三元融合神经网络用于图像和菜谱的跨模态检索方法,其特征在于,步骤8具体包括以下步骤:
步骤801.将给定的食物图像或菜谱数据作为输入的一部分;
步骤802.从数据库中取出另一模态的数据,作为输入的另一部分;
步骤803.将组合成的图像-菜谱数据对输入训练好的三元融合神经网络;
步骤804.三元融合神经网络计算出给定图像-菜谱数据对的相似度得分;
步骤805.对整个数据库中图像-菜谱数据对的相似度得分进行排序,跨模态检索结果即为相似度得分最大的数据对应的检索结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110612179.6A CN115438206A (zh) | 2021-06-02 | 2021-06-02 | 基于三元融合神经网络用于图像和菜谱的跨模态检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110612179.6A CN115438206A (zh) | 2021-06-02 | 2021-06-02 | 基于三元融合神经网络用于图像和菜谱的跨模态检索方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115438206A true CN115438206A (zh) | 2022-12-06 |
Family
ID=84240172
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110612179.6A Pending CN115438206A (zh) | 2021-06-02 | 2021-06-02 | 基于三元融合神经网络用于图像和菜谱的跨模态检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115438206A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115829058A (zh) * | 2022-12-23 | 2023-03-21 | 北京百度网讯科技有限公司 | 训练样本处理方法、跨模态匹配方法、装置、设备和介质 |
-
2021
- 2021-06-02 CN CN202110612179.6A patent/CN115438206A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115829058A (zh) * | 2022-12-23 | 2023-03-21 | 北京百度网讯科技有限公司 | 训练样本处理方法、跨模态匹配方法、装置、设备和介质 |
CN115829058B (zh) * | 2022-12-23 | 2024-04-23 | 北京百度网讯科技有限公司 | 训练样本处理方法、跨模态匹配方法、装置、设备和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108363753B (zh) | 评论文本情感分类模型训练与情感分类方法、装置及设备 | |
CN110059198B (zh) | 一种基于相似性保持的跨模态数据的离散哈希检索方法 | |
CN105975573B (zh) | 一种基于knn的文本分类方法 | |
CN108875074B (zh) | 基于交叉注意力神经网络的答案选择方法、装置和电子设备 | |
CN110083693B (zh) | 机器人对话回复方法及装置 | |
CN110728298A (zh) | 多任务分类模型训练方法、多任务分类方法及装置 | |
CN111753189A (zh) | 一种少样本跨模态哈希检索共同表征学习方法 | |
CN112328900A (zh) | 一种融合评分矩阵和评论文本的深度学习推荐方法 | |
CN109726747B (zh) | 基于社交网络推荐平台的数据融合排序方法 | |
CN110659420B (zh) | 一种基于深度神经网络蒙特卡洛搜索树的个性化配餐方法 | |
CN111737586B (zh) | 信息推荐方法、装置、设备及计算机可读存储介质 | |
CN110222838B (zh) | 文档排序方法、装置、电子设备及存储介质 | |
CN114693397A (zh) | 一种基于注意力神经网络的多视角多模态商品推荐方法 | |
KR20200010672A (ko) | 딥러닝을 이용한 스마트 상품 검색 방법 및 시스템 | |
JP7198408B2 (ja) | 商標情報処理装置及び方法、並びにプログラム | |
CN114201683A (zh) | 一种基于多级匹配的兴趣激活新闻推荐方法及系统 | |
CN112084307A (zh) | 一种数据处理方法、装置、服务器及计算机可读存储介质 | |
Olkiewicz et al. | Emotion-based image retrieval—An artificial neural network approach | |
CN115270752A (zh) | 一种基于多层次对比学习的模板句评估方法 | |
CN114022687B (zh) | 一种基于增强学习的图像描述对抗生成方法 | |
CN111538841A (zh) | 基于知识互蒸馏的评论情感分析方法、装置及系统 | |
CN113409157B (zh) | 一种跨社交网络用户对齐方法以及装置 | |
CN115438206A (zh) | 基于三元融合神经网络用于图像和菜谱的跨模态检索方法 | |
Saha et al. | The corporeality of infotainment on fans feedback towards sports comment employing convolutional long-short term neural network | |
CN113420833A (zh) | 一种基于问题语义映射的视觉问答方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |