CN115658955B

CN115658955B - 跨媒体检索及模型训练方法、装置、设备、菜谱检索系统

Info

Publication number: CN115658955B
Application number: CN202211432939.6A
Authority: CN
Inventors: 赵雅倩; 王立; 范宝余
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2022-11-08
Filing date: 2022-11-08
Publication date: 2023-03-14
Anticipated expiration: 2042-11-08
Also published as: CN115658955A; WO2024098623A1

Abstract

本申请公开了一种跨媒体检索模型训练方法及装置、跨媒体检索方法及装置、电子设备、可读存储介质、菜谱检索系统，应用于信息检索领域。其中，方法包括对训练样本集的每组训练样本，分别获取当前训练样本中的图像、文本样本的目标特征、图像特征、语义特征及文本特征，并基于文本样本确定目标特征与语义特征之间的关联关系；将该图像特征和文本特征分别输入图文检索模型中的图像编码网络和文本编码网络中，训练图文检索模型；文本编码网络为异质图结构，其异构节点包括目标特征和语义特征，其连接边由目标特征与语义特征之间的关联关系确定。本申请可有效提升图像数据和文本数据之间的互检索精度。

Description

跨媒体检索及模型训练方法、装置、设备、菜谱检索系统

技术领域

本申请涉及信息检索技术领域，特别是涉及一种跨媒体检索模型训练方法及装置、跨媒体检索方法及装置、电子设备、可读存储介质、菜谱检索系统。

背景技术

跨媒体检索是指用户给定某类媒体格式的查询信息，可以检索出与之语义相关的其他类型媒体格式的信息，也即基于一种媒体格式的数据，检索到同一应用场景或是同一目标物的某几类媒体格式的数据，媒体格式数据例如可为图像数据、文本数据、音频数据、视频数据等。举例来说，检索固态硬盘的说明信息时，可基于描述该固态硬盘的结构及相关参数的文本数据，检索到采用图片形式给出固态硬盘的内部结构图并附相应文字说明的图像数据。

相关技术在进行图像文本互检索过程中，通常采用构建特征提取网络实现，也即利用特征提取网络分别提取自然图像和电子文本的高阶特征，使用简单的相似度计算公式计算特征间相似性，选取相似度最高的图像文本对，完成相互检索。神经网络拥有多层网络结构，能够提取出数据的高阶特征，常用于文本和图像处理。但是，由于自然图像和电子文本属于不同模态的数据，数据的异质性使得简单的通过深度神经网络进行特征提取难以准确表达图像与文本的语义特征，尤其是对于涉及到先后顺序或者是具有依赖关系的数据，如基于步骤检索的任务中，从而导致图像与文本之间的检索准确度较低。

鉴于此，如何提升图像数据和文本数据之间的互检索精度，是所属领域技术人员需要解决的技术问题。

发明内容

本申请提供了一种跨媒体检索模型训练方法及装置、跨媒体检索方法及装置、电子设备、可读存储介质、菜谱检索系统，有效提升图像数据和文本数据之间的互检索精度。

为解决上述技术问题，本发明实施例提供以下技术方案：

本发明实施例第一方面提供了一种跨媒体检索模型训练方法，包括：

对训练样本集的每组训练样本，分别获取当前组训练样本中的图像样本的目标特征、图像特征和文本样本的语义特征、文本特征，并基于所述文本样本确定所述目标特征与所述语义特征之间的关联关系；所述语义特征中包括所述目标特征；

将每组训练样本的图像特征输入图文检索模型中的图像编码网络、文本特征输入至所述图文检索模型中的文本编码网络中，训练所述图文检索模型；

其中，所述文本样本仅包括一类文本数据；所述文本编码网络为异质图结构，其异构节点包括目标特征和语义特征，其连接边由目标特征与语义特征之间的关联关系确定。

可选的，所述获取当前组训练样本中的图像样本的目标特征、图像特征和文本样本的语义特征、文本特征，包括：

预先利用在图像中标注相应目标特征的目标训练样本集，训练得到目标识别网络；

将所述当前组训练样本中的图像样本输入至所述目标识别网络中，得到所述图像样本所包含的各目标特征。

可选的，所述利用在图像中标注相应目标特征的目标训练样本集之后，所述训练得到目标识别网络之前，还包括：

预先构建目标识别网络结构，所述目标识别网络结构包括输入层、卷积结构、池化层及分类器；

所述卷积结构包括基础运算组件和残差运算组件；所述基础运算组件用于对输入信息依次进行卷积处理、正则化处理、激活函数处理及最大池化处理；所述残差运算组件包括多个相连的残差块，每个残差块均包括多层卷积层，用于对所述基础运算组件的输出特征进行卷积计算；

所述池化层，用于将所述卷积结构的输出特征转化为目标特征向量，并输送至所述分类器；

所述分类器，用于通过对所述目标特征向量进行计算，并输出所属类别的概率。

预先训练图像编码网络；所述图像编码网络包括特征提取网络和特征融合网络；

将所述当前组训练样本的图像样本输入至所述图像编码网络中；所述图像编码网络利用所述特征提取网络提取所述图像样本中每一张步骤图像的子图像特征，并将各子图像特征输入至所述特征融合网络进行特征编码，以得到所述图像样本的图像特征。

可选的，所述特征融合网络为长短期记忆神经网络，所述将各子图像特征输入至所述特征融合网络进行特征编码，包括：

调用图像特征编码关系式，对各子图像特征进行处理；所述图像特征编码关系式为：

；

式中，ħ _i为所述长短期记忆神经网络的第i个LSTM单元的输出，LSTM _i为第i个LSTM单元，ϕ()为所述特征提取网络的输出，

为所述图像样本的第i张步骤图像，ħ _i-1为所述长短期记忆神经网络的第i-1个LSTM单元的输出，I为所述图像样本所包含的步骤图像的总数。

预先构建语言表征模型，并利用自然语言文本样本数据集训练所述语言表征模型，并将训练好的语言表征模型作为语义特征提取模型；所述语言表征模型包括文本信息输入层、特征提取层和语义特征输出层；所述特征提取层为基于转换器的双向编码器；

将所述当前组训练样本中的文本样本输入至所述语义特征提取模型，得到所述文本样本对应的语义特征；

将所述当前组训练样本中的图像样本的目标特征输入至所述语义特征提取模型，以将所述目标特征转换为对应的文本词组或文本单词。

可选的，所述基于所述文本样本确定所述目标特征与所述语义特征之间的关联关系，包括：

对所述目标特征的每个文本词组或文本单词，依次遍历所述文本样本的每个文本语句；

若当前文本语句所包含的目标词组与当前文本词组相同，则所述当前文本语句对应的节点与所述当前文本词组对应的节点具有连接关系；

若所述当前文本语句所包含的目标单词与当前文本单词相同，则所述当前文本语句对应的节点与所述当前文本单词对应的节点具有连接关系。

对每个异质节点，根据当前异质节点与其余各异质节点之间是否具有连接关系以及各异质节点之间的关联关系，更新所述当前异质节点的节点特征；

基于更新后的文本编码网络的每个异质节点的节点特征，生成所述文本样本的文本特征。

可选的，对所述文本编码网络的每个异质节点，根据当前异质节点与其余各异质节点之间是否具有连接关系以及各异质节点之间的关联关系，更新所述当前异质节点的节点特征，包括：

将所述文本编码网络的每个异质节点作为当前异质节点，确定与当前异质节点具有相连关系、且不为同一节点类型的各目标异质节点；

基于所述当前异质节点的节点特征与各目标异质节点的节点特征之间的关联关系，计算所述当前异质节点与每个目标异质节点的初始权重值，并根据各初始权重值确定所述当前异质节点的权重值；

基于所述权重值和各目标异质节点，对所述当前异质节点进行节点特征更新，并将所述当前异质节点更新后的节点特征和更新前的节点特征之和作为所述当前异质节点的节点特征。

可选的，所述将每组训练样本的图像特征输入图文检索模型中的图像编码网络、文本特征输入至所述图文检索模型中的文本编码网络中，训练所述图文检索模型，包括：

将每组训练样本的图像特征输入图文检索模型中的图像编码网络、文本特征输入至所述图文检索模型中的文本编码网络中，调用损失函数指导图文检索模型的训练过程；所述损失函数为：

；

式中，

为所述损失函数，N为训练样本组数，

为所述训练样本集中所包含的所有图像样本中的第a个图像样本，

为所述训练样本集中所包含的所有文本样本中第p个文本样本、且其与第a个图像样本相对应，

为在所有文本样本中的第n个文本样本、且其与第a个图像样本不对应，

为所有文本样本中的第a个文本样本，

为所有图像样本中第p个图像样本、且其与第a个文本样本相对应，

为所有图像样本中的第n个图像样本、且其与第a个文本样本不对应，▽为超参数。

本发明实施例第二方面提供了一种跨媒体检索模型训练装置，包括：

样本特征提取模块，用于对训练样本集的每组训练样本，分别获取当前组训练样本中的图像样本的目标特征、图像特征和文本样本的语义特征、文本特征，并基于所述文本样本确定所述目标特征与所述语义特征之间的关联关系；所述语义特征中包括所述目标特征；

模型训练模块，用于将每组训练样本的图像特征输入图文检索模型中的图像编码网络、文本特征输入至所述图文检索模型中的文本编码网络中，训练所述图文检索模型；其中，所述文本样本仅包括一类文本数据；所述文本编码网络为异质图结构，其异构节点包括目标特征和语义特征，其连接边由目标特征与语义特征之间的关联关系确定。

本发明实施例第三方面提供了一种跨媒体检索方法，包括：

分别获取待检索文本数据的待匹配文本特征、待检索图像数据的待匹配图像特征；所述待检索文本数据仅包括一类文本数据；

基于所述待匹配文本特征和所述待匹配图像特征，调用图文检索模型，得到所述待检索文本数据和所述待检索图像数据的互检索结果；

其中，所述图文检索模型为利用如前任意一项所述跨媒体检索模型训练方法训练所得。

本发明实施例第四方面提供了一种跨媒体检索装置，包括：

待检索数据特征获取模块，用于分别获取待检索文本数据的待匹配文本特征、待检索图像数据的待匹配图像特征；所述待检索文本数据仅包括一类文本数据；

检索结果确定模块，用于基于所述待匹配文本特征和所述待匹配图像特征，调用图文检索模型，得到所述待检索文本数据和所述待检索图像数据的互检索结果；其中，所述图文检索模型为利用如前任意一项所述跨媒体检索模型训练方法训练所得。

本发明实施例第五方面还提供了一种电子设备，包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现如前任一项所述跨媒体检索模型训练方法和/或如前所述跨媒体检索方法的步骤。

本发明实施例第六方面还提供了一种可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如前任一项所述跨媒体检索模型训练方法和/或如前所述跨媒体检索方法的步骤。

本发明实施例第七方面还提供了一种菜谱检索系统，包括通过网络相连的菜谱检索终端和菜谱检索服务器；

所述菜谱检索终端用于接收用户输入的菜谱检索请求，并将所述菜谱检索请求发送至所述菜谱检索服务器；

所述菜谱检索服务器用于通过解析所述菜谱检索请求确定待检索数据，并调用图文检索模型对所述待检索数据进行相应处理，得到相应的菜谱检索结果，同时将所述菜谱检索结果反馈至所述菜谱检索终端；

其中，所述图文检索模型为基于图像样本为菜谱图像样本、文本样本为菜谱文本，所述菜谱文本为做菜步骤文本数据，利用如前任意一项所述跨媒体检索模型训练方法训练所得。

本申请提供的技术方案的优点在于，分别通过从文本数据和图像数据提取的特征来构建图结构，基于该图结构的文本编码网络能够学习文本数据与对应的图像数据之间的关联性和互补性，确定文本数据与图像数据之间的潜在联系，不仅可以得到更加贴合实际文本-图像对应关系的表示特征，还有利于精准体现具有先后顺序或者是具有依赖关系的特征表示，提升实现图文跨检索模型的模型性能，可有效提升图像文本数据之间的互检索准确度，提升执行涉及步骤检索任务的检索精度。

此外，本发明实施例还针对跨媒体检索模型训练方法提供了跨媒体检索方法、及其各自相应的实现装置、电子设备、可读存储介质、菜谱检索系统，进一步使得所述方法更具有实用性，所述跨媒体检索方法及其各自相应的实现装置、电子设备、可读存储介质、菜谱检索系统具有相应的优点。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本公开。

附图说明

为了更清楚的说明本发明实施例或相关技术的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种跨媒体检索模型训练方法的流程示意图；

图2为本发明实施例提供的目标识别网络在一个示例性应用场景的框架示意图；

图3为本发明实施例提供的一种跨媒体检索方法的流程示意图；

图4为本发明实施例提供的跨媒体检索模型训练装置的一种具体实施方式结构图；

图5为本发明实施例提供的跨媒体检索装置的一种具体实施方式结构图；

图6为本发明实施例提供的电子设备的一种具体实施方式结构图；

图7为本发明实施例提供的一个示例性应用场景的结构框架示意图；

图8为本发明实施例提供的菜谱检索系统的一种具体实施方式结构图；

图9为本发明实施例提供的一个示例性应用场景的图文检索模型结构框架示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等是用于区别不同的对象，而不是用于描述特定的顺序。此外术语“包括”和“具有”以及他们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可包括没有列出的步骤或单元。

在介绍了本发明实施例的技术方案后，下面详细的说明本申请的各种非限制性实施方式。

首先参见图1，图1为本发明实施例提供的一种跨媒体检索模型训练方法的流程示意图，本发明实施例可包括以下内容：

S101：对训练样本集的每组训练样本，分别获取当前组训练样本中的图像样本的目标特征、图像特征和文本样本的语义特征、文本特征，并基于文本样本确定目标特征与语义特征之间的关联关系。

本步骤的训练样本集包括多组训练样本，每组训练样本均包括相对应的一个文本样本和一个图像样本，也即文本样本和图像样本为相匹配的一组样本数据，训练样本集所包含的训练样本组数可根据实际训练需求以及实际应用场景来确定，本申请对此不作任何限定。训练样本集中的文本样本可从任何一种已有数据库中获取，该文本样本对应的图像样本可从相应的数据库中获取。本步骤的图像样本和文本样本为相匹配的一组样本，将图像样本中包含相应文本样本的某类指定信息的图像块称为目标图像块，这些目标图像块的识别信息即为目标特征，也即目标特征为图像样本中目标图像块的标签信息，标签信息属于该类指定信息，也就是说，目标特征是文字特征而非图像特征，而图像特征为提取该图像样本整体的图像特征。以菜谱做菜步骤文本与菜谱步骤图举例来说，指定信息可为菜谱成分，目标图像块即为标识菜谱成分的图像块，目标特征即为识别各目标图像块所属的菜谱成分信息；以电子设备说明文档和电子设备说明书图像为例，指定信息为电子设备的产品结构，目标图像块即为标识产品结构的图像块，目标特征即为目标图像块属于某类产品结构的识别信息，如开关键或指示灯。本实施例的语义特征是通过直接提取文本样本所得到的特征，本申请的文本样本以及后续的待检索文本数据为单结构文本，也即仅仅包括一类文本数据，文本特征是基于通过计算融合目标特征和语义特征之后所得到的特征。本实施例语义特征包含目标特征，所谓的包含关系是指目标特征数据均存在于文本数据的语义特征中。以菜谱文本举例来说，目标特征表示菜谱成分，文本样本的文本特征表示做菜步骤；以电子设备说明书为例，目标特征可为电子设备的产品结构，语义特征为使用说明书。由于本实施例的语义特征中目标特征之间具有包含关系，而提取文本样本中的所有语义数据的特征可得到多个语义特征，同样的，通过识别图像样本各图像块的类别也可得到多个目标特征，对指定的一个目标特征来说，若其被包含在某个语义特征中，则该目标特征与该语义特征之间具有关联关系。在获取文本样本的所有语义特征和所有目标特征之后，通过依次分析各语义特征，判断其是否包含目标特征，若包含，并确定其包含某个或某几个目标特征，从而可确定目标特征与语义特征之间的关联关系。

S102：将每组训练样本的图像特征输入图文检索模型中的图像编码网络、文本特征输入至图文检索模型中的文本编码网络中，训练图文检索模型。

本实施例的图文检索模型包括图像编码网络和文本编码网络两部分，文本编码网络用于对输入文本数据如文本样本或待检索文本进行处理并最终输出该文本数据对应的文本特征，图像编码网络用于对输入图像数据如图像样本或待检索图像进行处理并最终输出该图像数据对应的图像特征。图像编码网络可基于任何技术中的任何一种图像特征提取网络模型如人工卷积神经网络、VGG16（Visual Geometry Group Network，目视图像生成器）、Resnet（Deep residual network，深度残差网络）等进行搭建，这均不影响本申请的实现。其中，文本编码网络是基于图结构搭建的网络模型，图结构包括节点和连接边，本实施例的文本编码网络的节点特征为上个步骤获取的目标特征和语义特征，由于目标特征和语义特征的性质和内容完全不同，故文本编码网络为异质图结构，文本编码网络的各节点之间的连接边是根据目标特征与语义特征之间的关联关系来确定，若两个节点对应的节点特征之间具有关联关系，则该两个节点之间具有连接边；若两个节点对应的节点特征之间不具有关联关系，则该两个节点之间不具有连接边。

在本实施例中，一个文本样本的文本特征对应一个图像样本的图像特征，图文检索模型训练包括前向传播阶段和反向传播阶段，前向传播阶段是数据由低层次向高层次传播的阶段，反向传播阶段是当前向传播得出的结果与预期不相符时，将误差从高层次向底层次进行传播训练的阶段。训练过程可采用损失函数来指导，然后通过诸如梯度反传等模型参数更新方式实现对图像编码网络和文本编码网络的各网络参数的更新，直至达到取得满意的收敛效果为止。举例来说，先随机初始化图像编码网络和文本编码网络的所有网络层的权重值，然后输入文本样本和图像样本经过图像编码网络和文本编码网络各层的前向传播得到输出值；计算图文检索模型的模型输出值，并基于损失函数计算该输出值的损失值。将误差反向传回互检索模型中，依次求得图像编码网络和文本编码网络的各层的反向传播误差，根据各层的反向传播误差对图像编码网络和文本编码网络的所有权重系数进行调整，实现权重的更新。然后随机从训练样本集中选取一对新的图像样本和文本样本，然后重复上述过程，无限往复迭代，直至计算得到的模型输出值与标签之间的误差小于预设阈值，结束模型训练，并将此刻模型所有层参数作为训练好的图文检索模型网络参数。

在本发明实施例提供的技术方案中，分别通过从文本数据和图像数据提取的特征来构建图结构，基于该图结构的文本编码网络能够学习文本数据与对应的图像数据之间的关联性和互补性，确定文本数据与图像数据之间的潜在联系，不仅可以得到更加贴合实际文本-图像对应关系的表示特征，还有利于精准体现具有先后顺序或者是具有依赖关系的特征表示，提升实现图文跨检索模型的模型性能，可有效提升图像文本数据之间的互检索准确度，提升执行涉及步骤检索任务的检索精度。

在上述实施例中，对于如何执行步骤S101并不做限定，本实施例中给出各训练样本的特征提取的一种可选的实施方式，可包括如下步骤：

对于目标特征的提取，本实施例可利用目标识别网络实现。可选的，预先利用在图像中标注相应目标特征的目标训练样本集，训练得到目标识别网络；将当前组训练样本中的图像样本输入至目标识别网络中，得到图像样本所包含的各目标特征。

在本实施例中，目标识别网络用于识别图像样本中目标图像块的类别信息，目标训练样本集包含多张标注有目标特征的图像，也即目标训练样本集中包含的每一张图像样本均携带有类别标签。各图像可为直接从原始数据库中所获取的图像，也可为将原始图像进行翻转、尺寸裁剪、拉伸等变化后所得的图像，这均不影响本申请的实现。目标识别网络可基于任何一种可识别图像类别的现有模型结构来搭建，本申请对此不作任何限定。作为一种可选的实施方式，目标识别网络结构可包括输入层、卷积结构、池化层及分类器；卷积结构包括基础运算组件和残差运算组件；基础运算组件用于对输入信息依次进行卷积处理、正则化处理、激活函数处理及最大池化处理；残差运算组件包括多个相连的残差块，每个残差块均包括多层卷积层，用于对基础运算组件的输出特征进行卷积计算；池化层用于将卷积结构的输出特征转化为目标特征向量，并输送至分类器；分类器用于通过对目标特征向量进行计算，并输出所属类别的概率。

为了使所属领域技术人员更加清楚明白本申请的技术方案，本申请以菜谱文本和菜谱图像为例阐述本实施例的实现过程，也即通过图像分类网络实现对每张菜谱图像的主成分进行分类，并以分类后的类别信息构建成分节点的过程可包括：

首先通过多张菜谱步骤图生成步骤图数据集，对部分菜谱步骤图的主成分进行标注，例如面粉、白糖、木瓜等。使用标注好的菜谱步骤图训练ResNet50网络，以对图像主成分进行分类。ResNet50网络结构可如图2所示，其包括七个部分，第一部分不包含残差块，主要对输入进行卷积、正则化、激活函数、最大池化的计算，第二、三、四、五部分结构都包含了残差块，每个残差块含有三层卷积，经过前五部分的卷积计算后，池化层将其转化为一个特征向量，最后分类器对这个特征向量进行计算并输出类别概率。训练好的ResNet50网络可以很好的获得输入图像的主成分信息。

对于待检索图像或样本图像为步骤图像的情况，也即待检索图像或样本图像为一组图像集的情况，对于图像特征的提取，本实施例还提供了一种可选的实施方式，可包括：

预先训练图像编码网络；图像编码网络包括特征提取网络和特征融合网络；将当前组训练样本的图像样本输入至图像编码网络中；图像编码网络利用特征提取网络提取图像样本中每一张步骤图像的子图像特征，并将各子图像特征输入至特征融合网络进行特征编码，以得到图像样本的图像特征。

在本实施例中，可先通过特征提取网络如ResNet骨干网络提取每一张样本图像或待检索图像的图像特征，获取ResNet网络在分类层前一层的特征作为每一张步骤图像的特征。再将每一张步骤图像输入到特征融合网络如长短期记忆神经网络LSTM中，获取步骤图像组的总体特征。其中，对于将各子图像特征输入至特征融合网络进行特征编码的过程可为：调用图像特征编码关系式，对各子图像特征进行处理；图像特征编码关系式为：

；

为所述图像样本的第i张步骤图像，ħ _i-1为所述长短期记忆神经网络的第i-1个LSTM单元的输出，I为所述图像样本所包含的步骤图像的总数。LSTM所包含的LSTM单元总数与图像样本中所包含的步骤图总数相同，最后一个LSTM单元的特征编码输出为输入步骤图像组的最终特征，也即e _csi=ħ _I，e _csi代表步骤图像组的特征，用于进行下一步的检索。

对于语义特征的提取，可采用任何一种现有的文本特征提取模型如Bert（Bidirectional Encoder Representation from Transformers，预训练的语言表征模型）、word2vec（word to vector，词向量模型）、双向长短期记忆神经网络，长短期记忆神经网络等，这均不影响本申请的实现。可选的，本实施例还提供了语义特征的一种可选的提取方式，可包括：预先构建语言表征模型，并利用自然语言文本样本数据集训练语言表征模型，并将训练好的语言表征模型作为语义特征提取模型；语言表征模型包括文本信息输入层、特征提取层和语义特征输出层；特征提取层为基于转换器的双向编码器；将当前组训练样本中的文本样本输入至语义特征提取模型，得到文本样本对应的语义特征；将当前组训练样本中的图像样本的目标特征输入至语义特征提取模型，以将目标特征转换为对应的文本词组或文本单词。

在从文本样本中提取语义特征和从图像样本中获取目标特征之后，对目标特征同样可与上述实施例的语义特征一样，拆分为对个文本单词或文本词组，基于此，本实施例还提供了语义特征和目标特征之间的关联关系的一种可选的确定方式：对目标特征的每个文本词组或文本单词，依次遍历文本样本的每个文本语句；若当前文本语句所包含的目标词组与当前文本词组相同，则当前文本语句对应的节点与当前文本词组对应的节点具有连接关系；若当前文本语句所包含的目标单词与当前文本单词相同，则当前文本语句对应的节点与当前文本单词对应的节点具有连接关系。

对于文本特征的提取，本实施例还提供了一种可选的实施方式，也即先通过语义特征和目标特征构建文本编码网络，然后再通过该文本编码网络进行特征提取，提取的特征即为文本特征，或者是说对文本编码网络进行图运算，图运算的结果即为文本特征，可包括下述内容：

基于将目标特征、语义特征分别作为异质节点，以及根据目标特征与语义特征之间的关联关系所确定的边连接关系，构建文本编码网络；通过对文本编码网络进行运算，得到文本样本的文本特征。

其中，文本编码网络的运算过程即为图结构数据的空间特征的提取，也即聚合邻居节点的信息生成新的节点特征表示过程。本实施例可采用图注意力网络实现特征聚合与更新，更新方法是依次遍历每个异质节点进行更新。文本编码网络的运算过程可为：可对每个异质节点，根据当前异质节点与其余各异质节点之间是否具有连接关系以及各异质节点之间的关联关系，更新当前异质节点的节点特征；基于更新后的文本编码网络的每个异质节点的节点特征，生成文本样本的文本特征。其中对于节点更新方式，将文本编码网络的每个异质节点作为当前异质节点，对每个异质节点执行下述过程：确定与当前异质节点具有相连关系、且不为同一节点类型的各目标异质节点；基于当前异质节点的节点特征与各目标异质节点的节点特征之间的关联关系，计算所述当前异质节点与每个目标异质节点的初始权重值，并根据各初始权重值确定当前异质节点的权重值；基于权重值和各目标异质节点，对当前异质节点进行节点特征更新，并将当前异质节点更新后的节点特征和更新前的节点特征之和作为当前异质节点的节点特征。对文本编码网络的每个异质节点均执行完上述的节点更新操作，即完成了图运算过程。本实施例以菜谱文本和菜谱图像为例，文本编码网络的节点可包括步骤节点和成分节点，步骤节点对应的节点特征是通过提取样本文本所得的语义特征，成分节点对应的节点特征即为通过识别图像样本所得的目标特征，本实施例的一种可选的实现方式可包括如下内容：

首先对步骤节点进行更新，

是步骤节点的第q个节点的节点特征，

代表成分节点的第p个节点的特征。若步骤节点的第q个节点与成分节点的第p个节点有连接（也即具有边连接关系），则用成分节点的第p个节点的特征去更新步骤节点的第q个节点特征。在更新过程中，需要考虑各节点之间的相关性，本实施例可通过赋予权重来表示节点间的关联性，可选的，可调用下述关系式（1）计算步骤节点的第q个节点与成分节点的第p个节点特征的相关权重z _pq。对于每个步骤节点，例如

，遍历所有与其有相连的边的成分节点，假设有Np个，都会得到与其对应的相关权重z _pq。

（1）

其中，W _a、W _b、W _c为已知的

维矩阵，

代表矩阵乘法，也即向量映射。

在更新完各步骤节点之后，可对所有与步骤节点相连的边的成分节点进行相关权重的归一化，也即可调用下述关系式（2）得到归一化的相关权重α _qp：

（2）

式中，exp代表求指数函数，

代表求取所有与步骤节点相连的边的成分节点的相关权重的总和。最后通过归一化的相关权重对步骤节点的节点特征进行更新，也即调用下述关系式（3）进行计算：

（3）

其中，σ代表超参数，在[0，1]区间。

是

维矩阵，

是被与其相连的成分节点更新后的新的特征向量。

进一步，基于残差网络的思想，调用下述关系式（4）可将更新后的

与未更前的初始特征

相加：

（4）

同理，可调用关系式（5）对成分节点也做相同的计算与更新：

（5）

遍历完所有的成分节点和步骤节点，即完成图注意力网络一层的网络更新。通常，可叠加T层图注意力网络，用t代表第t层的图注意力网络，每一层的节点特征的更新方式都如上所述。通常会在每层图注意力网络后面加入集成全连接层，实现对节点特征（包括成分节点和步骤节点）特征的再编码，如下述关系式（6）所示：

（6）

FFN代表全连接层，

、

代表t+1层的图注意力网络的初始化节点特征。

进一步的，对于文本样本为步骤样本的情况，为了进一步更加贴合实际文本，本实施例还可通过LSTM方法进一步挖掘语义特征的时序信息，实现对文本特征的归纳综合，并最终特征打包成一个向量作为文本样本的最终特征。

在本实施例中，可调用关系式（7）提取所有语义特征对应的节点的时序信息特征：

；

其中，ħ _q为LSTM中第q个单元的输出，ħ _q-1则代表LSTM中第q-1个单元的输出，也即上一个状态的输出。若样本文本的步骤共有Q步，ħ ₀为0，

代表第T层的网络的第q个步骤节点的特征。按照步骤的排序，依次输入到其对应的LSTM网络中，最后得到所有语义特征对应节点的LSTM编码，取最后一个LSTM单元的特征编码输出为整个文本样本的文本特征的输出，也即e _rec=ħ ₀，其中，e _rec代表文本特征的输出，用于进行下一步的检索。

由上可知，采用本实施例所示模型结构不仅有利于提高特征提取效率，提升模型训练效率，还有利于提升特征提取准确度，有利于提升图文互检索精度及效率。

可以理解的是，模型训练过程所采用的损失函数对于最终模型性能的影响是具有直接作用的，现有的损失函数如L1范数损失函数、均方误差损失函数、交叉熵损失等，均可用于指导模型训练。为了进一步提升图文检索精准度，提升图文检索模型性能，本实施例还给出了图文检索模型的损失值计算方式，可包括下述内容：

将每组训练样本的图像特征输入图文检索模型中的图像编码网络、文本特征输入至图文检索模型中的文本编码网络中，调用损失函数指导图文检索模型的训练过程；损失函数为：

；

式中，

为损失函数，N为训练样本组数，

为训练样本集中所包含的所有图像样本中的第a个图像样本，

为训练样本集中所包含的所有文本样本中第p个文本样本、且其与第a个图像样本相对应，

为所有文本样本中的第a个文本样本，

此外，基于上述实施例，本实施例还提供了一种跨媒体检索方法，请参阅图3，图3为本发明实施例提供的一种跨媒体检索方法的流程示意图，可包括以下内容：

S301：分别获取待检索文本数据的待匹配文本特征、待检索图像数据的待匹配图像特征。

S302：基于待匹配文本特征和待匹配图像特征，调用图文检索模型，得到待检索文本数据和待检索图像数据的互检索结果。

本实施例的图文检索模型为利用如上任何一个方法实施例所记载的模型训练方法训练所得。将待检索文本数据作为样本文本，将待检索图像数据作为样本图像，本实施例的待匹配文本特征的获取方式与上述实施例的样本文本的文本特征的获取方式相同，本实施例的待匹配图像特征的获取方式与上述实施例的样本图像的图像特征的获取方式相同，为了区别且不引起歧义，本实施例称为待匹配文本特征和待匹配图像特征，可采用上述实施例所记载的特征提取方式，得到待匹配文本特征和待匹配图像特征，此处便不再赘述。

在推理过程中，可预先加载训练好的权重系数。对待检索图像或待检索文本进行特征提取，并存入待检索数据集中。用户给定任意待检索图像或待检索文本，为了便于描述，可称为待检索数据。提取待检索数据的文本特征或文本特征，输入至图文检索模型。将待检索数据的特征与待检索数据集中所有样本特征进行距离匹配。例如：若待检索数据是文本数据，则与待检索数据集中所有的待检索图像特征进行欧式距离计算，距离最小的样本即为推荐的图像样本进行输出。

由上可知，本发明实施例可有效提升图像数据和文本数据之间的互检索精度。

需要说明的是，本申请中各步骤之间没有严格的先后执行顺序，只要符合逻辑上的顺序，则这些步骤可以同时执行，也可按照某种预设顺序执行，图1和图3只是一种示意方式，并不代表只能是这样的执行顺序。

本发明实施例还针对跨媒体检索模型训练方法以及跨媒体检索方法提供了相应的装置，进一步使得方法更具有实用性。其中，装置可从功能模块的角度和硬件的角度分别说明。下面对本发明实施例提供的跨媒体检索模型训练装置以及跨媒体检索装置进行介绍，下文描述的跨媒体检索模型训练装置以及跨媒体检索装置与上文描述的跨媒体检索模型训练方法以及跨媒体检索方法可相互对应参照。

基于功能模块的角度，首先请参见图4，图4为本发明实施例提供的跨媒体检索模型训练装置在一种具体实施方式下的结构图，该装置可包括：

样本特征提取模块401，用于对训练样本集的每组训练样本，分别获取当前组训练样本中的图像样本的目标特征、图像特征和文本样本的语义特征、文本特征，并基于文本样本确定目标特征与语义特征之间的关联关系；语义特征中包括目标特征；

模型训练模块402，用于将每组训练样本的图像特征输入图文检索模型中的图像编码网络、文本特征输入至图文检索模型中的文本编码网络中，训练图文检索模型；其中，文本样本仅包括一类文本数据；所述文本编码网络为异质图结构，其异构节点包括目标特征和语义特征，其连接边由目标特征与语义特征之间的关联关系确定。

可选的，在本实施例的一些实施方式中，上述样本特征提取模块401还可用于：预先利用在图像中标注相应目标特征的目标训练样本集，训练得到目标识别网络；将当前组训练样本中的图像样本输入至目标识别网络中，得到图像样本所包含的各目标特征。

作为上述实施例的一种可选的实施方式，上述样本特征提取模块401还可包括识别单元，用于预先构建目标识别网络结构，目标识别网络结构包括输入层、卷积结构、池化层及分类器；卷积结构包括基础运算组件和残差运算组件；基础运算组件用于对输入信息依次进行卷积处理、正则化处理、激活函数处理及最大池化处理；残差运算组件包括多个相连的残差块，每个残差块均包括多层卷积层，用于对基础运算组件的输出特征进行卷积计算；池化层，用于将卷积结构的输出特征转化为目标特征向量，并输送至分类器；分类器，用于通过对目标特征向量进行计算，并输出所属类别的概率。

可选的，在本实施例的另一些实施方式中，上述样本特征提取模块401还可包括图像特征提取单元，用于预先训练图像编码网络；图像编码网络包括特征提取网络和特征融合网络；将当前组训练样本的图像样本输入至图像编码网络中；图像编码网络利用特征提取网络提取图像样本中每一张步骤图像的子图像特征，并将各子图像特征输入至特征融合网络进行特征编码，以得到图像样本的图像特征。

作为上述实施例的一种可选的实施方式，上述图像特征提取单元还可用于：若特征融合网络为长短期记忆神经网络，则调用图像特征编码关系式，对各子图像特征进行处理；图像特征编码关系式为：

；

可选的，在本实施例的另一些实施方式中，上述样本特征提取模块401还可包括语义特征提取单元，该单元用于预先构建语言表征模型，并利用自然语言文本样本数据集训练语言表征模型，并将训练好的语言表征模型作为语义特征提取模型；语言表征模型包括文本信息输入层、特征提取层和语义特征输出层；特征提取层为基于转换器的双向编码器；将当前组训练样本中的文本样本输入至语义特征提取模型，得到文本样本对应的语义特征；将当前组训练样本中的图像样本的目标特征输入至语义特征提取模型，以将目标特征转换为对应的文本词组或文本单词。

作为上述实施例的一种可选的实施方式，上述样本特征提取模块401还可进一步用于：对目标特征的每个文本词组或文本单词，依次遍历文本样本的每个文本语句；若当前文本语句所包含的目标词组与当前文本词组相同，则当前文本语句对应的节点与当前文本词组对应的节点具有连接关系；若当前文本语句所包含的目标单词与当前文本单词相同，则当前文本语句对应的节点与当前文本单词对应的节点具有连接关系。

可选的，在本实施例的其他一些实施方式中，上述样本特征提取模块401进一步还可包括文本特征提取单元，该单元用于：对文本编码网络的每个异质节点，根据当前异质节点与其余各异质节点之间是否具有连接关系以及各异质节点之间的关联关系，更新当前异质节点的节点特征；基于更新后的文本编码网络的每个异质节点的节点特征，生成文本样本的文本特征。

作为上述实施例的一种可选的实施方式，上述文本特征提取单元还可用于：将文本编码网络的每个异质节点作为当前异质节点，确定与当前异质节点具有相连关系、且不为同一节点类型的各目标异质节点；基于当前异质节点的节点特征与各目标异质节点的节点特征之间的关联关系，计算当前异质节点与每个目标异质节点的初始权重值，并根据各初始权重值确定当前异质节点的权重值；基于权重值和各目标异质节点，对当前异质节点进行节点特征更新，并将当前异质节点更新后的节点特征和更新前的节点特征之和作为当前异质节点的节点特征。

可选的，在本实施例的其他一些实施方式中，上述模型训练模块402还可用于：将每组训练样本的图像特征输入图文检索模型中的图像编码网络、文本特征输入至图文检索模型中的文本编码网络中，调用损失函数指导图文检索模型的训练过程；损失函数为：

；

式中，

为所述损失函数，N为训练样本组数，

为所有文本样本中的第a个文本样本，

其次，请参见图5，图5为本发明实施例提供跨媒体检索装置在一种具体实施方式下的结构图，该装置可包括：

待检索数据特征获取模块501，用于分别获取待检索文本数据的待匹配文本特征、待检索图像数据的待匹配图像特征；待检索文本数据仅包括一类文本数据。

检索结果确定模块502，用于基于待匹配文本特征和待匹配图像特征，调用图文检索模型，得到待检索文本数据和待检索图像数据的互检索结果；其中，图文检索模型为利用如上任意一个实施例所述的跨媒体检索模型训练方法训练所得。

本发明实施例跨媒体检索模型训练装置以及跨媒体检索装置的各功能模块的功能可根据上述方法实施例中的方法具体实现，其具体实现过程可以参照上述方法实施例的相关描述，此处不再赘述。

上文中提到的跨媒体检索模型训练装置以及跨媒体检索装置是从功能模块的角度描述，进一步的，本申请还提供一种电子设备，是从硬件角度描述。图6为本申请实施例提供的电子设备在一种实施方式下的结构示意图。如图6所示，该电子设备包括存储器60，用于存储计算机程序；处理器61，用于执行计算机程序时实现如上述任一实施例提到的跨媒体检索模型训练方法以及跨媒体检索方法的步骤。

其中，处理器61可以包括一个或多个处理核心，比如4核心处理器、8核心处理器，处理器61还可为控制器、微控制器、微处理器或其他数据处理芯片等。处理器61可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable GateArray，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器61也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central Processing Unit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器61可以集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器61还可以包括AI(ArtificialIntelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器60可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器60还可包括高速随机存取存储器以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。存储器60在一些实施例中可以是电子设备的内部存储单元，例如服务器的硬盘。存储器60在另一些实施例中也可以是电子设备的外部存储设备，例如服务器上配备的插接式硬盘，智能存储卡（Smart Media Card，SMC），安全数字（SecureDigital，SD）卡，闪存卡（Flash Card）等。进一步地，存储器60还可以既包括电子设备的内部存储单元也包括外部存储设备。存储器60不仅可以用于存储安装于电子设备的应用软件及各类数据，例如：执行跨媒体检索模型训练方法以及跨媒体检索方法过程中的程序的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。本实施例中，存储器60至少用于存储以下计算机程序601，其中，该计算机程序被处理器61加载并执行之后，能够实现前述任一实施例公开的跨媒体检索模型训练方法以及跨媒体检索方法的相关步骤。另外，存储器60所存储的资源还可以包括操作系统602和数据603等，存储方式可以是短暂存储或者永久存储。其中，操作系统602可以包括Windows、Unix、Linux等。数据603可以包括但不限于跨媒体检索模型训练过程中以及跨媒体检索过程中所产生的过程数据以及结果对应的数据等。

在一些实施例中，上述电子设备还可包括有显示屏62、输入输出接口63、通信接口64或者称为网络接口、电源65以及通信总线66。其中，显示屏62、输入输出接口63比如键盘（Keyboard）属于用户接口，可选的用户接口还可以包括标准的有线接口、无线接口等。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED（Organic Light-Emitting Diode，有机发光二极管）触摸器等。显示器也可以适当的称为显示屏或显示单元，用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。通信接口64可选的可以包括有线接口和/或无线接口，如WI-FI接口、蓝牙接口等，通常用于在电子设备与其他电子设备之间建立通信连接。通信总线66可以是外设部件互连标准(peripheral component interconnect，简称PCI)总线或扩展工业标准结构(extendedindustry standard architecture，简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示，图6中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

本领域技术人员可以理解，图6中示出的结构并不构成对该电子设备的限定，可以包括比图示更多或更少的组件，例如还可包括实现各类功能的传感器67。

进一步的，本实施例中并不对电子设备的数量进行限定，其可以是多个电子设备共同协作完成的跨媒体检索模型训练方法和/或跨媒体检索方法。在一种可能的实施方式中，请参考图7，图7为本申请实施例提供的另一种跨媒体检索模型训练方法和/或跨媒体检索方法所适用的硬件组成框架示意图。由图7可知，该硬件组成框架可以包括：第一电子设备71和第二电子设备72，二者之间通过网络连接。

在本申请实施例中，第一电子设备71与第二电子设备72的硬件结构可以参考图6中电子设备。即可以理解为本实施例中具有两个电子设备，两者进行数据交互。进一步，本申请实施例中并不对网络的形式进行限定，即，网络可以是无线网络（如WIFI、蓝牙等），也可以是有线网络。

其中，第一电子设备71和第二电子设备72可以是同一种电子设备，如第一电子设备71和第二电子设备72均为服务器；也可以是不同类型的电子设备，例如，第一电子设备71可以是智能手机或其它智能终端，第二电子设备72可以是服务器。在一种可能的实施方式中，可以利用计算能力强的服务器作为第二电子设备72来提高数据处理效率及可靠性，进而提高模型训练和/或图文检索的处理效率。同时利用成本低，应用范围广的智能手机作为第一电子设备71，用于实现第二电子设备72与用户之间的交互。可以理解的是，该交互过程可以为：智能手机从服务器处获取训练样本集，并获取训练样本集的标签，将这些标签发送至服务器，由服务器利用获取到的标签进行后续的模型训练步骤。服务器在生成图文检索模型后，获取智能手机发送的待检索数据，并对其进行图文检索。

本发明实施例电子设备的各功能模块的功能可根据上述方法实施例中的方法具体实现，其具体实现过程可以参照上述方法实施例的相关描述，此处不再赘述。

可以理解的是，如果上述实施例中的跨媒体检索模型训练方法和/或跨媒体检索方法以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-Only Memory，ROM）、随机存取存储器（RandomAccess Memory，RAM）、电可擦除可编程ROM、寄存器、硬盘、多媒体卡、卡型存储器（例如SD或DX存储器等）、磁性存储器、可移动磁盘、CD-ROM、磁碟或者光盘等各种可以存储程序代码的介质。

基于此，本发明实施例还提供了一种可读存储介质，存储有计算机程序，计算机程序被处理器执行时如上任意一实施例跨媒体检索模型训练方法和/或跨媒体检索方法的步骤。

最后，本发明实施例还提供了一种菜谱检索系统，参见图8，可包括：

菜谱检索系统可包括通过网络相连的菜谱检索终端81和菜谱检索服务器82。

菜谱检索终端81用于接收用户输入的菜谱检索请求，也即用户可以在菜谱检索终端设备上执行人机交互操作，并将菜谱检索请求发送至菜谱检索服务器82；菜谱检索服务器82用于通过解析菜谱检索请求确定待检索数据，并调用图文检索模型对待检索数据进行相应处理，得到相应的菜谱检索结果，同时将菜谱检索结果反馈至菜谱检索终端81。

为了实现菜谱文本与菜谱图像检索的功能，菜谱检索服务器需要首先对图文检索模型进行训练。在训练过程中，可以由菜谱检索终端81向菜谱检索服务器82传输训练样本集，训练样本集可包含有多组训练样本，每组训练样本包括相对应的一个菜谱文本样本和一个菜谱图像样本，每个菜谱文本样本仅仅记载操作步骤信息，也即菜谱文本为做菜步骤文本数据。图文检索模型为基于图像样本为菜谱图像样本、文本样本为菜谱文本，利用如前任意一项跨媒体检索模型训练方法实施例所记载的模型训练方法训练所得。为了使所属领域技术人员更加清楚明白本申请的技术方案，本实施例可采用如图9所示的图文检索模型结构，该图文检索模型包括两部分，一部分称为文本特征编码网络，一部分称为图像特征编码网络，对于文本特征编码网络包括位于最底层的语义特征也即步骤特征的提取结构，位于中间位置的图结构也即上述实施例的文本编码网络，位于最上边的时序特征提取结构。对于图像特征编码网络，其包括位于下层的步骤图提取结构和位于上层的步骤图特征整合结构。基于如图9所述的结构利用各种训练样本集训练好之后，将该图文检索模型部署在菜谱检索服务器82中。

菜谱检索终端81可以包括显示屏、输入信息/输出信息接口以及无线传输模块等。当显示屏为触摸屏时，输入键盘可以是在显示屏上呈现的软键盘。输入信息/输出信息接口可以用于实现与外部设备如U盘的连接，也即作为用户接口输入相应的用户指令或用户信息。在实际应用中，用户可以通过输入键盘向菜谱检索终端81输入待检索菜谱文本或待检索图像，也可以将待检索菜谱文本或待检索视频写入U盘，将U盘插入菜谱检索终端设备的输入接口。用户向菜谱检索终端81输入检索请求，检索请求携带待检索的菜谱文本或待检索的菜谱图像，菜谱检索终端81可以通过无线传输模块向菜谱检索服务器82发送该检索请求，菜谱检索服务器82基于训练好的图文检索模型检索相应的数据库可以将最终互检索结果反馈至菜谱检索终端81，菜谱检索终端81可以通过显示屏向用户展示所检索到的菜谱文本或菜谱图像。

本发明实施例菜谱检索系统的各功能模块的功能可根据上述方法实施例中的方法具体实现，其具体实现过程可以参照上述方法实施例的相关描述，此处不再赘述。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的硬件包括装置及电子设备而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

以上对本申请所提供的一种跨媒体检索模型训练方法及装置、跨媒体检索方法及装置、电子设备、可读存储介质、菜谱检索系统进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

Claims

1.一种跨媒体检索模型训练方法，其特征在于，包括：

对训练样本集的每组训练样本，分别获取当前组训练样本中的图像样本的目标特征、图像特征和文本样本的语义特征、文本特征，并基于所述文本样本确定所述目标特征与所述语义特征之间的关联关系；所述语义特征中包括所述目标特征；所述目标特征为图像样本中包含有相对应文本样本中指定信息的图像块的识别信息；所述语义特征为通过直接提取文本样本所得到的特征；所述文本特征为融合所述目标特征和所述语义特征得到的特征；

其中，所述文本样本仅包括一类文本数据；所述文本编码网络为异质图结构，其异构节点包括目标特征和语义特征，其连接边由目标特征与语义特征之间的关联关系确定；

其中，所述基于所述文本样本确定所述目标特征与所述语义特征之间的关联关系，包括：

2.根据权利要求1所述的跨媒体检索模型训练方法，其特征在于，所述获取当前组训练样本中的图像样本的目标特征、图像特征和文本样本的语义特征、文本特征，包括：

3.根据权利要求2所述的跨媒体检索模型训练方法，其特征在于，所述利用在图像中标注相应目标特征的目标训练样本集之后，所述训练得到目标识别网络之前，还包括：

4.根据权利要求1所述的跨媒体检索模型训练方法，其特征在于，所述获取当前组训练样本中的图像样本的目标特征、图像特征和文本样本的语义特征、文本特征，包括：

5.根据权利要求4所述的跨媒体检索模型训练方法，其特征在于，所述特征融合网络为长短期记忆神经网络，所述将各子图像特征输入至所述特征融合网络进行特征编码，包括：

；

式中，

为所述长短期记忆神经网络的第

个LSTM单元的输出，LSTM _i为第

个LSTM单元，

为所述特征提取网络的输出，

为所述图像样本的第

张步骤图像，

为所述长短期记忆神经网络的第

个LSTM单元的输出，

为所述图像样本所包含的步骤图像的总数。

6.根据权利要求1所述的跨媒体检索模型训练方法，其特征在于，所述获取当前组训练样本中的图像样本的目标特征、图像特征和文本样本的语义特征、文本特征，包括：

预先构建语言表征模型，并利用自然语言文本样本数据集训练所述语言表征模型，将训练好的语言表征模型作为语义特征提取模型；所述语言表征模型包括文本信息输入层、特征提取层和语义特征输出层；所述特征提取层为基于转换器的双向编码器；

7.根据权利要求1所述的跨媒体检索模型训练方法，其特征在于，所述获取当前组训练样本中的图像样本的目标特征、图像特征和文本样本的语义特征、文本特征，包括：

对所述文本编码网络的每个异质节点，根据当前异质节点与其余各异质节点之间是否具有连接关系以及各异质节点之间的关联关系，更新所述当前异质节点的节点特征；

8.根据权利要求7所述的跨媒体检索模型训练方法，其特征在于，所述对所述文本编码网络的每个异质节点，根据当前异质节点与其余各异质节点之间是否具有连接关系以及各异质节点之间的关联关系，更新所述当前异质节点的节点特征，包括：

9.根据权利要求1至8任意一项所述的跨媒体检索模型训练方法，其特征在于，所述将每组训练样本的图像特征输入图文检索模型中的图像编码网络、文本特征输入至所述图文检索模型中的文本编码网络中，训练所述图文检索模型，包括：

；

式中，

为所述损失函数，N为训练样本组数，

为所有文本样本中的第a个文本样本，

10.一种跨媒体检索方法，其特征在于，包括：

其中，所述图文检索模型为利用如权利要求1至9任意一项所述跨媒体检索模型训练方法训练所得。

11.一种跨媒体检索模型训练装置，其特征在于，包括：

样本特征提取模块，用于对训练样本集的每组训练样本，分别获取当前组训练样本中的图像样本的目标特征、图像特征和文本样本的语义特征、文本特征，并基于所述文本样本确定所述目标特征与所述语义特征之间的关联关系；所述语义特征中包括所述目标特征；所述目标特征为图像样本中包含有相对应文本样本中指定信息的图像块的识别信息；所述语义特征为通过直接提取文本样本所得到的特征；所述文本特征为融合所述目标特征和所述语义特征得到的特征；

模型训练模块，用于将每组训练样本的图像特征输入图文检索模型中的图像编码网络、文本特征输入至所述图文检索模型中的文本编码网络中，训练所述图文检索模型；其中，所述文本样本仅包括一类文本数据；所述文本编码网络为异质图结构，其异构节点包括目标特征和语义特征，其连接边由目标特征与语义特征之间的关联关系确定；

其中，所述样本特征提取模块进一步用于：

12.一种跨媒体检索装置，其特征在于，包括：

检索结果确定模块，用于基于所述待匹配文本特征和所述待匹配图像特征，调用图文检索模型，得到所述待检索文本数据和所述待检索图像数据的互检索结果；其中，所述图文检索模型为利用如权利要求1至9任意一项所述跨媒体检索模型训练方法训练所得。

13.一种电子设备，其特征在于，包括处理器和存储器，所述处理器用于执行所述存储器中存储的计算机程序时实现如权利要求1至9任一项所述跨媒体检索模型训练方法和/或如权利要求10所述跨媒体检索方法的步骤。

14.一种可读存储介质，其特征在于，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至9任一项所述跨媒体检索模型训练方法和/或如权利要求10所述跨媒体检索方法的步骤。

15.一种菜谱检索系统，其特征在于，包括通过网络相连的菜谱检索终端和菜谱检索服务器；

其中，所述图文检索模型为基于图像样本为菜谱图像样本、文本样本为菜谱文本，所述菜谱文本为做菜步骤文本数据，利用如权利要求1至9任意一项所述跨媒体检索模型训练方法训练所得。