CN116226434B

CN116226434B - 一种多元异构模型训练及应用方法、设备及可读存储介质

Info

Publication number: CN116226434B
Application number: CN202310484681.2A
Authority: CN
Inventors: 李仁刚; 范宝余; 王立; 郭振华
Original assignee: Inspur Electronic Information Industry Co Ltd
Current assignee: Inspur Electronic Information Industry Co Ltd
Priority date: 2023-05-04
Filing date: 2023-05-04
Publication date: 2023-07-21
Anticipated expiration: 2043-05-04
Also published as: CN116226434A

Abstract

本申请在信息处理技术领域，公开了一种多元异构模型训练及应用方法、设备及可读存储介质，在本申请中，在训练图像检索模型时，会从异质图神经网络中抽取步骤节点特征，从图像序列特征提取网络中抽取步骤图像特征。然后，利用文本到图像的补齐网络，实现步骤节点特征向步骤图像特征的数目对齐，从而得到并基于文本对齐拟合特征计算文本补齐损失；利用图像到文本的补齐网络，实现步骤图像特征向步骤节点特征的数目对齐，从而得到并基于图像对齐拟合特征计算图像补齐损失。最终，结合模型损失、文本补齐损失和图像补齐损失，训练多元异构模型，训练出的多元异构模型实现在模态不对称的情况下，完成有效地图文检索。

Description

一种多元异构模型训练及应用方法、设备及可读存储介质

技术领域

本申请涉及信息处理技术领域，特别是涉及一种多元异构模型训练及应用方法、设备及可读存储介质。

背景技术

随着搜索引擎技术的日益发展，基于纯文本的搜索已经不能满足人们日常生活或工作的需要，由于图文信息更加直观、更加丰富，将图片与文本结合在一起的图文搜索功能显得日益重要。

当前在图文搜索领域，模态完整且对称的检索效果更佳，而对于模态不完整、模态不对称（例如，文本步骤缺失，图像与文本中的步骤未一一对应）的情况下，无法得到较佳的检索效果。

而通常检索问题是处于开放世界的状态，即：模态与模态之间类型各异、数量也不同。

综上所述，在模态缺失和模态不对称的情况下，如何实现成功检索等问题，是目前本领域技术人员急需解决的技术问题。

发明内容

本申请的目的是提供一种多元异构模型训练及应用方法、设备及可读存储介质，能够在模态缺失和模态不对称的情况下，实现成功检索。

为解决上述技术问题，本申请提供如下技术方案：

一种多元异构模型训练方法，包括：

获取程序性多结构样本；所述程序性多结构样本包括成对存在的程序性文本数据和图像序列数据；

利用异质图神经网络提取所述程序性文本数据的文本特征，利用图像序列特征提取网络提取所述图像序列数据的图像序列特征，并基于所述文本特征和所述图像序列特征计算模型损失；

从所述异质图神经网络中抽取步骤节点特征，从所述图像序列特征提取网络中抽取步骤图像特征；

利用文本到图像的补齐网络，实现所述步骤节点特征向所述步骤图像特征的数目对齐，得到文本对齐拟合特征，并基于所述文本对齐拟合特征计算文本补齐损失；

利用图像到文本的补齐网络，实现所述步骤图像特征向所述步骤节点特征的数目对齐，得到图像对齐拟合特征，并基于所述图像对齐拟合特征计算图像补齐损失；

结合所述模型损失、所述文本补齐损失和所述图像补齐损失，训练多元异构模型，并在训练完成后，得到图文粒度的多元异构模型。

优选地，利用文本到图像的补齐网络，实现所述步骤节点特征向所述步骤图像特征的数目对齐，得到文本对齐拟合特征，包括：

基于所述步骤节点特征，建立文本公共特征；

对每个所述步骤图像特征，建立与之对应的文本拟合特征；

将所有所述文本拟合特征与所述文本公共特征进行分别叠加，得到所述文本对齐拟合特征。

优选地，基于所述步骤节点特征，建立文本公共特征，包括：

将所述步骤节点特征通过级联或叠加的形式输入到多层全连接网络中进行处理，得到所述文本公共特征。

优选地，对每个所述步骤图像特征，建立与之对应的文本拟合特征，包括：

计算每个所述步骤节点特征与当前所遍历的所述步骤图像特征之间的拟合权重；

利用所述拟合权重，建立所述文本拟合特征。

优选地，计算每个所述步骤节点特征与当前所遍历的所述步骤图像特征之间的拟合权重，包括：

遍历每个所述步骤节点特征，将其与当前步骤图像特征级联或相加，输入到权重值拟合网络，获得当前步骤节点特征与当前步骤图像特征的拟合权重；

依次遍历，得到下一个步骤节点特征与当前步骤图像特征的拟合权重，直至遍历完毕。

优选地，利用所述拟合权重，建立所述文本拟合特征，包括：

按照对应关系，基于所述拟合权重对各个所述步骤节点特征进行加权累加，得到所述文本拟合特征。

优选地，基于所述文本对齐拟合特征计算文本补齐损失，包括：

计算所述文本对齐拟合特征和所述步骤图像特征之间的距离；

基于所述距离，计算所述文本补齐损失。

优选地，利用图像到文本的补齐网络，实现所述步骤图像特征向所述步骤节点特征的数目对齐，得到图像对齐拟合特征，包括：

基于所述图像序列特征，建立图像公共特征；

对每个所述步骤节点特征，建立与之对应的图像拟合特征；

叠加所有图像拟合特征与所述图像公共特征，得到所述图像对齐拟合特征。

优选地，基于所述图像序列特征，建立图像公共特征，包括：

将所述图像序列特征通过级联或者叠加的形式输入到多层全连接网络中进行处理，得到所述图像公共特征。

优选地，对每个所述步骤节点特征，建立与之对应的图像拟合特征，包括：

计算每个所述步骤图像特征与当前所遍历的所述步骤节点特征之间的拟合权重；

利用所述拟合权重，建立所述图像拟合特征。

优选地，计算每个所述步骤图像特征与当前所遍历的所述步骤节点特征之间的拟合权重，包括：

遍历每个所述步骤图像特征，将其与当前步骤节点特征级联或相加，输入到权重值拟合网络，获得当前步骤图像特征与当前步骤节点特征的拟合权重；

依次遍历，得到下一个步骤图像特征与当前的步骤节点特征拟合权重，直至遍历完毕。

优选地，利用所述拟合权重，建立所述图像拟合特征，包括：

按照对应关系，基于所述拟合权重对各个所述步骤图像特征进行加权累加，得到所述图像拟合特征。

优选地，基于所述图像对齐拟合特征计算图像补齐损失，包括：

计算所述图像对齐拟合特征和所述步骤节点特征之间的距离；

基于所述距离，计算所述图像补齐损失。

优选地，从所述异质图神经网络中抽取步骤节点特征，从所述图像序列特征提取网络中抽取步骤图像特征，包括：

从所述异质图神经网络中，抽取数目与所述程序性多结构样本的步骤数目相同的步骤节点特征；

抽取所述图像序列特征提取网络中通过骨干网络及全连接层之后的特征，并将该特征确定为所述步骤图像特征；

其中，所述步骤节点特征的数目与所述程序性多结构样本的图像数目相等；所述步骤数目与所述图像数目不相等。

优选地，所述利用异质图神经网络提取所述程序性文本数据的文本特征，包括：

将所述程序性文本数据分为步骤文本信息和辅助文本信息；

分别确定所述步骤文本信息对应的第一文本信息节点特征，所述辅助文本信息对应的第二文本信息节点特征；

基于所述步骤文本信息与所述辅助文本信息的对应关系，确定各个所述第一文本信息节点特征与所述第二文本信息节点特征之间的连接关系，得到异质图；

对所述异质图进行更新处理；

基于更新后的异质图，挖掘所有所述第一文本信息对应的时序信息；

取全部所述时序信息对应的平均值作为所述文本特征。

优选地，利用图像序列特征提取网络提取所述图像序列数据的图像序列特征，包括：

提取所述图像序列数据中每一张图像的特征；

基于所述每一张图像的特征，获取所述图像序列数据的图像序列特征。

优选地，还包括：

基于所述步骤节点特征与所述图像对齐拟合特征，建立序列间的距离度量矩阵和加权累积距离矩阵；

根据所述加权累积距离矩阵，找到最短路径；所述最短路径对应所述步骤节点特征与所述图像对齐拟合特征的序列对齐情况；

获取所述加权累积距离矩阵的对角线路径；

计算所述最短路径与所述对角线路径的之间的包围面积；

将所述包围面积确定为权重约束路径对比损失；

相应地，结合所述模型损失、所述文本补齐损失和所述图像补齐损失，训练多元异构模型，并在训练完成后，得到图文粒度的多元异构模型，包括：

结合所述模型损失、所述文本补齐损失、所述图像补齐损失和所述权重约束路径对比损失，训练多元异构模型，并在训练完成后，得到最短对比路径粒度的多元异构模型。

优选地，所述结合所述模型损失、所述文本补齐损失、所述图像补齐损失和权重约束路径对比损失，训练多元异构模型，包括：

初始化所述多元异构模型中所有网络层权值；

将所述程序性多结构样本经过神经网络各层、卷积层、下采样层、全连接层的前向传播得到输出值；

根据结合所述模型损失、所述文本补齐损失、所述图像补齐损失和权重约束路径对比损失的损失函数，求取所述输出值的损失值；

将误差反向传回网络中，依次求得图神经网络层，全连接层，卷积层的反向传播误差；

网络各层根据各层的反向传播误差对网络中的所有权重系数进行调整；

重新随机选取新批次的程序性多结构样本，返回执行将所述程序性多结构样本经过神经网络各层、卷积层、下采样层、全连接层的前向传播得到输出值的步骤，直到所述输出值与目标值之间的误差小于阈值，或者迭代次数超过迭代阈值时，结束训练，并保存训练好的所有层的网络参数，得到训练好的所述多元异构模型。

优选地，根据结合所述模型损失、所述文本补齐损失、所述图像补齐损失和权重约束路径对比损失的损失函数，求取所述输出值的损失值，包括：

基于叠加了所述模型损失、所述文本补齐损失、所述图像补齐损失和权重约束路径对比损失的损失函数，计算所述损失值。

一种多元异构模型应用方法，还包括：

接收客户端发送的检索数据；所述检索数据为文本数据或序列图像数据；

利用如上述的多元异构模型，提取所述检索数据的检索特征；将所述检索特征与待检索数据集中所有样本特征进行距离匹配；将距离最小的样本确定为推荐样本，并输出所述推荐样本。

一种多元异构模型训练装置，包括：

样本获取模块，用于获取程序性多结构样本；所述程序性多结构样本包括成对存在的程序性文本数据和图像序列数据；

模型损失计算模块，用于利用异质图神经网络提取所述程序性文本数据的文本特征，利用图像序列特征提取网络提取所述图像序列数据的图像序列特征，并基于所述文本特征和所述图像序列特征计算模型损失；

特征抽取模块，用于从所述异质图神经网络中抽取步骤节点特征，从所述图像序列特征提取网络中抽取步骤图像特征；

文本补齐损失计算模块，用于利用文本到图像的补齐网络，实现所述步骤节点特征向所述步骤图像特征的数目对齐，得到文本对齐拟合特征，并基于所述文本对齐拟合特征计算文本补齐损失；

图像补齐损失计算模块，用于利用图像到文本的补齐网络，实现所述步骤图像特征向所述步骤节点特征的数目对齐，得到图像对齐拟合特征，并基于所述图像对齐拟合特征计算图像补齐损失；

参数调整模块，用于结合所述模型损失、所述文本补齐损失和所述图像补齐损失，训练多元异构模型，并在训练完成后，得到图文粒度的多元异构模型。

一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现上述多元异构模型训练方法的步骤，或实现上述多元异构模型应用方法的步骤。

一种可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述多元异构模型训练方法的步骤，或实现上述多元异构模型应用方法的步骤。

应用本申请实施例所提供的方法，获取程序性多结构样本；程序性多结构样本包括成对存在的程序性文本数据和图像序列数据；利用异质图神经网络提取程序性文本数据的文本特征，利用图像序列特征提取网络提取图像序列数据的图像序列特征，并基于文本特征和图像序列特征计算模型损失；从异质图神经网络中抽取步骤节点特征，从图像序列特征提取网络中抽取步骤图像特征；利用文本到图像的补齐网络，实现步骤节点特征向步骤图像特征的数目对齐，得到文本对齐拟合特征，并基于文本对齐拟合特征计算文本补齐损失；利用图像到文本的补齐网络，实现步骤图像特征向步骤节点特征的数目对齐，得到图像对齐拟合特征，并基于图像对齐拟合特征计算图像补齐损失；结合模型损失、文本补齐损失和图像补齐损失，训练多元异构模型，并在训练完成后，得到图文粒度的多元异构模型。

在本申请中，在对多元异构模型进行训练过程，不仅仅关注程序性多结构样本中的程序性文本数据以及图像序列数据对应的模型损失，还针对程序性多结构样本中模态缺失的情况进行关注。即，在本申请中，在训练图像检索模型时，还会从异质图神经网络中抽取步骤节点特征，从图像序列特征提取网络中抽取步骤图像特征。然后，利用文本到图像的补齐网络，实现步骤节点特征向步骤图像特征的数目对齐，从而得到文本对齐拟合特征，并基于文本对齐拟合特征计算文本补齐损失；利用图像到文本的补齐网络，实现步骤图像特征向步骤节点特征的数目对齐，从而得到图像对齐拟合特征，并基于图像对齐拟合特征计算图像补齐损失。结合模型损失、文本补齐损失和图像补齐损失，训练多元异构模型，即可使得在训练完成后，得到图文粒度的多元异构模型。也就是说，训练出的多元异构模型实现在模态不对称的情况下，完成有效地图文检索。

相应地，本申请实施例还提供了与上述多元异构模型训练方法相对应的应用方法、装置、设备和可读存储介质，具有上述技术效果，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例中一种多元异构模型训练方法的实施流程图；

图2为本申请实施例中一张图卷积神经网络示意图；

图3为本申请实施例中一种文本特征提取网络示意图；

图4为本申请实施例中一种多元异构模型的损失计算示意图；

图5为本申请实施例中一种基于级联的文本公共特征建立示意图；

图6为本申请实施例中一种基于叠加的文本公共特征建立示意图；

图7为本申请实施例中一种权重拟合网络示意图；

图8为本申请实施例中一种多元异构模型训练装置的结构示意图；

图9为本申请实施例中一种电子设备的结构示意图；

图10为本申请实施例中一种电子设备的具体结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面结合附图和具体实施方式对本申请作进一步的详细说明。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参考图1，图1为本申请实施例中一种多元异构模型训练方法的流程图，该方法包括以下步骤：

S101、获取程序性多结构样本。

程序性多结构样本包括程序性文本数据和图像序列数据。

程序性多结构样本中包括程序性文本数据和图像序列数据。

例如具有图片的菜谱即为一种程序性多结构样本，即做菜步骤即程序性文本数据，做菜步骤对应的图片即图像序列数据。

在本申请中，可以预先保存好程序性多结构样本，然后从存储介质中可以直接读取获得该程序性多结构样本；也可以从其他机器/设备中拉取获取；还可以通过网络下载获取。

S102、利用异质图神经网络提取程序性文本数据的文本特征，利用图像序列特征提取网络提取图像序列数据的图像序列特征，并基于文本特征和图像序列特征计算模型损失。

下面，对获取文本特征和图像序列特征进行分别描述后，再对基于文本特征和图像序列特征计算模型损失进行描述。

在本申请实施例中，可使用异质图神经网络对程序性文本数据（即文本信息）进行编码，即提前出文本特征。下面以程序性文本数据对应菜谱中的做菜步骤和做菜所需材料等的辅助描述为例，对文本特征提取进行详细下面。

在本申请中的一种具体实施方式中，利用异质图神经网络提取程序性文本数据的文本特征，包括：

步骤一、将程序性文本数据分为步骤文本信息和辅助文本信息；

步骤二、分别确定步骤文本信息对应的第一文本信息节点特征，辅助文本信息对应的第二文本信息节点特征；

步骤三、基于步骤文本信息与辅助文本信息的对应关系，确定各个第一文本信息节点特征与第二文本信息节点特征之间的连接关系，得到异质图；

步骤四、对异质图进行更新处理；

步骤五、基于更新后的异质图，挖掘所有第一文本信息对应的时序信息；

步骤六、取全部时序信息对应的平均值作为文本特征。

为便于理解，下面请参考图2，图2为本申请实施例中一张图卷积神经网络示意图。在本申请中，可将文本特征构建成一种图结构。如图2所示，图结构由2部分组成：节点及节点特征（如图中的v₁，v₂,v₃所示，其中，v^ins表示菜谱的步骤，v^ing表示菜谱的步骤对应成分）和连接关系。

在图2中，Instructions：做菜的第一文本信息=第一文本信息，在下文中统一用第一文本信息表示。

Ingredients：是菜的第二文本信息，在下文统一用第二文本信息表示。

在本申请中每一个第一文本信息称为1个节点，同理每一个第二文本信息称为1个节点。因为，第二文本信息和第一文本信息性质是不同的，所以称为异质节点。如图2所示，v^ins表示菜谱的步骤，即第一文本信息节点，v^ing表示菜谱的步骤对应成分，即第二文本信息节点。

其中，节点特征获取过程如下：

如图2所示，节点是由1句话或者1个词组组成，可以使用Bert提取每句话或每个单词的特征。具体方式请参考图3，图3为本申请实施例中一种文本特征提取网络示意图。

如图3所示，所有本文从最下方的文本信息输入，同时还会输入与文本信息相伴随的位置信息和文本类型。位置信息是指若一句话中有5个单词“peel and slice themango”，则其位置信息分别为“1，2，3，4，5”。

其中，文本类型指：若输入文本是第一文本信息，其文本类型为1；若输入文本是第二文本信息，其文本类型为2。

通过如图3所示的Bert模型，可以获得每句话和每个单词的编码特征，该特征代表节点特征，即：第二文本信息节点特征和第一文本信息节点特征。

在本申请中第二文本信息节点特征和第一文本信息节点特征都是一个高维向量，其维度是维度（d维实向量）。

以上说明了节点特征如何获取，此外，一个图结构既有节点特征，还有连接关系（也称为边）。

其中，节点关系建立过程如下：

如图2所示：如果该第二文本信息存在该操作第一文本信息中，则该第二文本信息节点和第一文本信息节点需要有一条边连接。具体的，可通过文本比对的方法，遍历第一文本信息，提取每个第一文本信息文本，然后依次查找第二文本信息，如果该第二文本信息中的单词在该第一文本信息中出现，则该第一文本信息和该第二文本信息之间连接一条边（即：有连接关系）。

通过遍历所有第一文本信息文本，即可建立完毕：第一文本信息节点与第二文本信息节点的连接关系，即异质图的连接关系。

基于以上描述，即可实现异质图的建立。下面通过异质图运算来实现特征聚合与提取，计算方法如下：

异质图信息更新，可以采用图注意力网络实现特征聚合与更新，更新方法是依次遍历每个异质节点进行更新。

（1）

其中，是/>维矩阵，/>代表矩阵乘法，也代表了向量映射。

如上公式，首先对第一文本信息节点特征进行更新，代表第一文本信息节点（instruction）的第q个节点的节点特征，/>代表第二文本信息节点的第p个节点的特征。若第一文本信息节点的第q个节点与第二文本信息节点的第p个节点有连接（边），则用第二文本信息节点的第p个节点的特征去更新第一文本信息节点的第q个节点特征，但是需要算一个权重，公式（1）即其算权重，其中/>代表第一文本信息节点的第q个节点与第二文本信息节点的第p个节点特征的相关权重/>。

对于每个第一文本信息节点，例如，遍历所有与其有相连的边的第二文本信息节点，假设有/>个，可以得到与其对应的相关权重/>。

下一步对所有与第一文本信息节点相连的边的第二文本信息节点，进行相关权重的归一化：

；

得到了归一化的相关权重，exp代表求指数函数。/>代表求取所有与第一文本信息节点相连的边的第二文本信息节点的相关权重的总和。

最后，通过归一化的相关权重对第一文本信息节点的节点特征进行更新。公式如下：

；

其中，代表超参数，在[0,1]区间。/>是/>维矩阵。/>是被与其相连的第二文本信息节点更新后的新的特征向量。

进一步，引入残差网络的思想，将更新后的与未更前的初始特征/>相加。公式如下：

同理，对第二文本信息节点也做相同的计算与更新。公式如下：

遍历完所有的第二文本信息节点和第一文本信息节点，即完成图注意力网络一层的网络更新。

还可以叠加T层图注意力网络，每一层的节点特征的更新方式都如上。

用t代表第t层的图注意力网络。

在每层图注意力网络后面加入集成全连接层，实现对节点特征（包括第二文本信息节点和第一文本信息节点）特征的再编码。公式如下：

；

其中，FFN代表全连接层。代表t+1层的图注意力网络的初始化节点特征。

如上，即可完成对图神经网络节点特征的更新，对于第一文本信息节点，即菜谱步骤文本节点是主要用于检索的信息，基于此，下一步即进一步挖掘第一文本信息节点的时序信息，从而实现对文字节点特征的归纳综合，打包成一个向量。

请参考图4，图4为本申请实施例中一种多元异构模型的损失计算示意图。其中，左测虚线框是对文本特征的编码，Transformer layer代表上述的Bert中间部分代表图神经网络。在本申请中，多元异构模型即指网络结构是异构的（如异质图神经网络等），模型处理对象是多元（样本包括图像和文本）的。

下一步提取所有第一文本信息节点的时序信息特征。公式如下：

；

其中，左测虚线框内向左和向右的箭头代表编码的方向。即第一文本信息节点特征正序编码和倒序编码。所以有2个公式。

代表第q个单元的输出，箭头方向不同代表按照第一文本信息节点输入顺序不同得到的编码输出。同理，/>则代第q-1个单元的输出，也即上一个状态的输出。

假设第一文本信息共有Q步，记为0，/>代表第T层的图神经网络的第q个第一文本信息节点的特征。按照第一文本信息的顺序和逆序，依次输入到其对应的网络中，最后得到所有第一文本信息节点的编码。公式如下：

;

如上公式所示，取所有单元的输出，求和后取平均值作为整个文本特征的输出。其中，代表文本特征的输出，用来进行下一步的检索。

特征最后会经过一个全连接层进行特征映射，得到新维度的向量，用来和图像序列的编码特征进行匹配。

;

上面已阐述了本申请中的文本特征的编码方法（第一文本信息和第二文本信息）。

下面对图像序列数据的编码（即提取图像序列数据的图像序列特征）进行详细说明。

在本申请中，可采用卷积神经网络+基于双向长短期记忆处理单元(BiLSTM)的方式实现图像序列时空特征的提取。

在本申请中的一种具体实施方式中，利用图像序列特征提取网络提取图像序列数据的图像序列特征，包括：

步骤一、提取图像序列数据中每一张图像的特征；

步骤二、基于每一张图像的特征，获取图像序列数据的图像序列特征。

具体的，如图4所示，可用ResNet骨干网络提取每一张图像序列特征，获取ResNet网络在分类层前一层的特征作为每一张图像的特征。

第二，将上步提取的图像序列特征输入到BiLSTM网络，获取图像序列整体特征，来挖掘图像序列的时序性。公式如下：

;

同上，图像序列像也包含逆序和顺序两种。都隐含着时序语义信息。用如上公式对其进行编码。

其中，BiLSTM代表BiLSTM网络的每一个单元。代表第i个BiLSTM单元的输出。代表图像序列像输入特征，i代表第i张图像，/>代表本申请的骨干网络。

取BiLSTM单元的特征编码输出平均值做为整个图像序列的特的输出。如下所示：

；

其中，代表图像组特征的输出，可以用于检索。

以上描述了文本特征的编码网络结构和图像序列特征编码网络结构，下面讲解loss函数如何设计，如何指导以上网络训练（即：训练过程），即对基于文本特征和图像序列特征计算模型损失进行详细说明：

本申请实施例中，使用函数，对以上模型损失进行评估。公式如下：

公式（3）

其中，B代表一个批次（batch）数据中的样本数目。

从上文可知本申请中的样本数据是成对出现的，即一个文本特征的编码对应一个图像序列特征编码。

在loss函数设计中，对于这种成对的数据，可遍历每一个图像序列特征和文本特征求取损失函数的平均值。如上公式（3）所示。共遍历N次，N代表在本batch(批次)中，共有N个成对的样本。首先对图像序列特征进行遍历（共N个），遍历选中的那个就称为/>，a代表anchor（锚点样本）。与锚点样本成对的文本特征编码记为/>，p代表positive。同理，在本batch中与/>不配对的文本特征记为/>。/>是超参数，在训练时固定，本申请设置为0.3。

同理，对于文本序列特征也做相同的遍历操作，代表遍历中被选中的那个文本特征样本，与其对应的图像序列特征样本记为/>，不对应的记为/>，/>为超参数。

S103、从异质图神经网络中抽取步骤节点特征，从图像序列特征提取网络中抽取步骤图像特征。

在本申请实施例中，考虑到在图文检索真实场景下，往往会存在模态不对称的情况下，即可能存在步骤描述的缺失，也可能存在图片的缺失。为了应对模态不对称的情况，在本申请中提出了基于特征补全来训练多元异构模型，从而使得该多元异构模型能够在模态不对称的情况下，也能实现有效检索，提升该多元异构模型的可靠性，增加其应用范畴。

首先，在本申请中，需要从异质图神经网络中抽取出步骤节点特征，抽取出图像序列数据中的步骤图像特征。

步骤节点特征即对应程序性多结构样本中的各个步骤文字描述的特征，步骤图像特征即对应图像序列数据中各个步骤图像对应的特征。

由于提取文本特征的过程中，已涉及到提取各个步骤文字描述的特征，因而可直接从异质图神经网络中抽取出步骤节点特征；同理，由于提取图像序列特征时，也涉及到了提取各个图像的特征，因而可以直接从图像序列特征提取网络中抽取出步骤图像特征。

具体的，在本申请中的一种具体实施方式中，步骤S103从异质图神经网络中抽取步骤节点特征，从图像序列特征提取网络中抽取步骤图像特征，包括：

步骤一、从异质图神经网络中，抽取数目与程序性多结构样本的步骤数目相同的步骤节点特征。

即，可具体抽取图神经网络中第一结构文本节点特征，如图4所示，对于该样本假设有N个步骤节点，则共抽取到N个步骤节点特征。

步骤二、抽取图像序列特征提取网络中通过骨干网络及全连接层之后的特征，并将该特征确定为步骤图像特征；

其中，步骤图像特征的数目与程序性多结构样本的图像数目相等；步骤数目与图像数目不相等。

抽取图4所示右侧步骤图像序列特征，即抽取每一个步骤图像的特征，取当前步骤图通过骨干网络，再通过全连接层之后的特征，以便后续作为当前步骤图像的补齐网络的输入特征，假设共有M个步骤图像，则共取到M个步骤图像特征。其中M和N不相等。

S104、利用文本到图像的补齐网络，实现步骤节点特征向步骤图像特征的数目对齐，得到文本对齐拟合特征，并基于文本对齐拟合特征计算文本补齐损失。

为了实现无法一一对应的结构文本和图像序列特征之间的细粒度特征对齐。本申请，首先建立补齐网络，使其在模态缺失条件下可以对齐各个模态的信息。如图4所示，补齐网络分为2部分：

1、文本到图像的补齐网络；

2、图像到文本的补齐网络。

在本申请实施例中，补齐包括两个方向的补齐，即文本向图像的补齐，图像向文本的补齐。下面对文本向图像的补齐过程进行详细说明。

文本向图像的补齐过程，包括以下步骤：

步骤一、基于步骤节点特征，建立文本公共特征；

步骤二、对每个步骤图像特征，建立与之对应的文本拟合特征；

步骤三、将所有文本拟合特征与文本公共特征进行分别叠加，得到文本对齐拟合特征。

为便于描述，下面将上述三个步骤结合起来进行说明。

在本申请中，首先基于步骤节点特征，建立文本公共特征。然后，再针对每一个步骤图像特征，建立与至对应的文本拟合特征。也就是说，有多少个步骤图像特征，即有多少个文本拟合特征。

然后，再将文本公共特征与每一个文本拟合特征进行叠加，从而获得文本对齐拟合特征。即，有多少个步骤图像特征，即有多少个文本对齐拟合特征。

在本申请中的一种具体实施方式中，基于步骤节点特征，建立文本公共特征，包括：将步骤节点特征通过级联或叠加的形式输入到多层全连接网络中进行处理，得到文本公共特征。

请参考图5，图5为本申请实施例中一种基于级联的文本公共特征建立示意图；通过建立多层全连接网络，将步骤节点特征通过级联或者叠加的形式输入到多层全连接网络中，得到文本公共特征，记为H。

请参考图6，图6为本申请实施例中一种基于叠加的文本公共特征建立示意图；通过建立多层全连接网络，将步骤节点特征通过叠加的形式输入到多层全连接网络中，得到文本公共特征，记为H。

在本申请中的一种具体实施方式中，对每个步骤图像特征，建立与之对应的文本拟合特征，包括：

步骤1、计算每个步骤节点特征与当前所遍历的步骤图像特征之间的拟合权重；

步骤2、利用拟合权重，建立文本拟合特征。

其中，步骤1计算每个步骤节点特征与当前所遍历的步骤图像特征之间的拟合权重，具体包括：

步骤①、遍历每个步骤节点特征，将其与当前步骤图像特征级联或相加，输入到权重值拟合网络，获得当前步骤节点特征与当前步骤图像特征的拟合权重；

步骤②、依次遍历，得到下一个步骤节点特征与当前步骤图像特征的拟合权重，直至遍历完毕。

其中，步骤2、利用拟合权重，建立文本拟合特征，包括：按照对应关系，基于拟合权重对各个步骤节点特征进行加权累加，得到文本拟合特征。

即，对每个步骤图像特征，建立与之对应的文本对齐拟合特征。建立方法是：计算每个步骤节点特征与当前所遍历的步骤图像特征之间的特征近似关系，作为拟合权重，如图4中的。

具体计算方法是，遍历每个步骤节点特征，将其与当前步骤图像特征级联或相加，输入到权重值拟合网络，获得当前步骤节点特征与当前步骤图像特征的权重值。依次遍历，得到下一个步骤节点特征与当前步骤图像特征的权重值,直至遍历完毕。

请参考图7，图7为本申请实施例中一种权重拟合网络示意图。

当前步骤图像特征所对应的文本拟合特征可以由如上求出的拟合权重计算。如下：

；

其中，代表第i个步骤图像特征所对应的文本拟合特征，/>。

i代表第i个步骤图像特征。

代表第j个步骤节点特征，/>代表第j个步骤节点特征与第i个步骤图像特征的权重值大小。

所有文本拟合特征与文本公共特征相加得到最终的对齐拟合特征。记为：

。

其中，为最终的第i个步骤图像特征所对应的文本对齐拟合特征。

在得到文本对齐拟合特征之后，便可基于文本对齐拟合特征计算出文本补齐损失。文本补齐损失，即文本对齐拟合特征与步骤图像特征之间的损失。

在本申请中的一种具体实施方式中，基于文本对齐拟合特征计算文本补齐损失，包括：

步骤一、计算文本对齐拟合特征和步骤图像特征之间的距离；

步骤二、基于距离，计算文本补齐损失。

为便于描述，下面将上述两个步骤起来进行说明。

其中，距离可具体指相似距离，使用常见的余弦距离、欧式距离等距离计算公式进行计算。

当存在M个步骤图像特征时，按照上文描述，可以获得M个文本对齐拟合特征。计算文本补齐特征，即计算这Ｍ个文本对齐拟合特征与M个步骤图像特征之间的距离。具体的，基于以下公式求文本补齐损失：

；

其中，即文本对齐损失，/>即第i个步骤图像特征所对应的文本对齐拟合特征，/>即第i个步骤图像特征，/>代表求/>与/>之间的距离，如欧式距离等等。

S105、利用图像到文本的补齐网络，实现步骤图像特征向步骤节点特征的数目对齐，得到图像对齐拟合特征，并基于图像对齐拟合特征计算图像补齐损失。

同理使用图像到文本的补齐网络实现图像序列特征和步骤节点特征的数目对齐。例如，步骤节点特征有N个、图像序列特征有M个。则，通过图像到文本的补齐网络将M个图像序列特征转换为N个。

基于与求取文本补齐损失类似的原理，下面对图像向文本的补齐过程进行详细说明。

图像向文本的补齐过程，包括以下步骤：

步骤一、基于图像序列特征，建立图像公共特征；

步骤二、对每个步骤节点特征，建立与之对应的图像拟合特征；

步骤三、叠加所有图像拟合特征与图像公共特征，得到图像对齐拟合特征。

为便于描述，下面将上述三个步骤结合起来进行说明。

在本申请中，首先基于图像序列特征，建立图像公共特征。然后，再针对每一个步骤节点特征，建立与至对应的图像拟合特征。也就是说，有多少个步骤节点特征，即有多少个图像拟合特征。

然后，再将文本公共特征与每一个图像拟合特征进行叠加，从而获得图像对齐拟合特征。即，有多个个步骤节点特征，即有多少个图像对齐拟合特征。

在本申请中的一种具体实施方式中，基于图像序列特征，建立图像公共特征，包括：将图像序列特征通过级联或者叠加的形式输入到多层全连接网络中进行处理，得到图像公共特征。具体的，建立新的多层全连接网络，将图像序列特征通过级联或者叠加的形式，输入到多层全连接网络中，得到图像序列公共特征（即图像公共特征），记为Q。

在本申请中的一种具体实施方式中，对每个步骤节点特征，建立与之对应的图像拟合特征，包括：

步骤1、计算每个步骤图像特征与当前所遍历的步骤节点特征之间的拟合权重；

步骤2、利用拟合权重，建立图像拟合特征。

其中，步骤1计算每个步骤图像特征与当前所遍历的步骤节点特征之间的拟合权重，包括：

步骤①、遍历每个步骤图像特征，将其与当前步骤节点特征级联或相加，输入到权重值拟合网络，获得当前步骤图像特征与当前步骤节点特征的拟合权重；

步骤②、依次遍历，得到下一个步骤图像特征与当前的步骤节点特征拟合权重，直至遍历完毕。

其中，步骤2利用拟合权重，建立图像拟合特征，包括：按照对应关系，基于拟合权重对各个步骤图像特征进行加权累加，得到图像拟合特征。

对每个步骤节点特征，建立与之对应的图像序列对齐拟合特征。

具体建立方法：计算每个图像序列特征与当前所遍历的步骤节点特征之间的特征近似关系，求取拟合权重，如图4中的。

具体计算方法是，遍历每个图像序列特征，将其与当前步骤节点特征级联或相加，输入到权重值拟合网络，获得当前步骤节点特征与当前步骤图像特征的权重值。依次遍历，得到下一个图像序列特征与当前步骤节点特征的权重值,直至遍历完毕。

当前步骤节点特征所对应的图像拟合特征可以由如上求出的拟合权重计算。如下：

；

其中，代表第j个文本序列特征所对应的图像拟合特征，/>。

j代表第j个文本序列特征。

代表第i个图像序列特征，/>代表第j个步骤节点特征与第i个步骤图像特征的权重值大小。

所有图像拟合特征与图像序列公共特征相加得到最终的图像对齐拟合特征，记为：

。

为最终的第j个文本序列特征（即步骤节点特征）所对应的图像对齐拟合特征。

得到图像对齐拟合特征之后，便可基于图像对齐拟合特征与步骤节点特征之间的图像补齐损失。图像补齐损失，即图像对齐拟合特征与步骤节点特征之间的损失。

在本申请中的一种具体实施方式中，基于图像对齐拟合特征计算图像补齐损失，包括：

步骤一、计算图像对齐拟合特征和步骤节点特征之间的距离；

步骤二、基于距离，计算图像补齐损失。

为了便于描述，下面将上述两个步骤结合起来进行说明。

图像补齐损失计算函数如下：

与求补齐损失函数：

；

其中，即第j个文本序列特征（即步骤节点特征）所对应的图像对齐拟合特征，/>为第j个文本序列特征（即步骤节点特征），/>代表求向量之间的距离，如欧式距离等等。

S106、结合模型损失、文本补齐损失和图像补齐损失，训练多元异构模型，并在训练完成后，得到图文粒度的多元异构模型。

在本申请中，在训练图像检索模型的过程中，计算损失值时，不仅仅继续模型损失，还计算文本补齐损失和图像补齐损失。

也就是说，在本申请中，在训练多元异构模型时，不仅关注模型损失，还关注文本补齐损失和图像补齐损失。如此，在训练完成之后，便可得到图文粒度的多元异构模型。

也就是说，损失函数可具体为：

。

需要说明的是，基于上述实施例，本申请实施例还提供了相应的改进方案。在优选/改进实施例中涉及与上述实施例中相同步骤或相应步骤之间可相互参考，相应的有益效果也可相互参照，在本文的优选/改进实施例中不再一一赘述。

在上述实施例中已说明了使用文本到图像的补齐网络实现步骤节点特征和图像序列特征的数目对齐。例如，步骤节点特征有N个、图像序列特征有M个。通过文本到图像的补齐网络将N个步骤节点特征转换为M个，从而实现虚拟步骤节点特征（文本对齐拟合特征）M个与图像序列特征有M个的对齐。同理，通过图像到文本的补齐网络将M个图像序列特征转换为N个，从而实现虚拟图像序列特征（图像对齐拟合特征）N个与步骤节点特征有N个的对齐。

针对如上时序序列特征向量，在本申请实施例中提出了一种权重约束路径对比损失函数，可以用于解决生成的虚拟文本特征或者虚拟图像序列特征与其对应的图像序列特征或文本特征的度量距离不近的问题。

该损失函数目标，使生成的虚拟特征与其对应的实际特征靠近，同时拉远与其它干扰特征之间的距离。具体的实现过程包括：

步骤一、基于步骤节点特征与图像对齐拟合特征，建立序列间的距离度量矩阵和加权累积距离矩阵；

步骤二、根据加权累积距离矩阵，找到最短路径；最短路径对应步骤节点特征与图像对齐拟合特征的序列对齐情况；

步骤三、获取加权累积距离矩阵的对角线路径；

步骤四、计算最短路径与对角线路径的之间的包围面积；

步骤五、将包围面积确定为权重约束路径对比损失；

相应地，结合模型损失、文本补齐损失和图像补齐损失，训练多元异构模型，并在训练完成后，得到图文粒度的多元异构模型，包括：

结合模型损失、文本补齐损失、图像补齐损失和权重约束路径对比损失，训练多元异构模型，并在训练完成后，得到最短对比路径粒度的多元异构模型。

为便于描述，下面将上述步骤结合起来进行说明。

针对如上时序序列特征向量，本申请提出一种权重约束路径对比损失函数，用来解决生成的虚拟文本特征或者虚拟图像序列特征与其对应的图像序列特征或步骤节点特征的度量距离不近的问题。

该损失函数目标，使生成的虚拟特征与其对应的实际特征靠近，同时拉远与其它干扰特征之间的距离。计算步骤如下：

1）、假设有两个对齐的时序序列X和Y，分别表示为：

X = [x1, x2, ..., xn]，其中，X代表步骤节点特征向量。

Y = [y1, y2, ..., yn]，其中，Y代表虚拟图像序列特征向量（即图像对齐拟合特征）。

2）、建立序列间的距离度量矩阵D，其维度是N x N,其中D(i,j)表示X中第i个数据点和Y中第j个数据点之间的距离。可以使用欧几里得距离、曼哈顿距离等进行计算，假设采用欧几里得距离，则距离矩阵D的计算如下：

D(i,j) = |xi – yj|^2 ，其中|.|代表一种向量距离度量方法。

3)、建立序列间的加权累积距离矩阵C，其中C(i,j)表示从X的第1个数据点到第i个数据点，从Y的第1个数据点到第j个数据点的最小累积距离。具体计算步骤如下：

对于C矩阵的每个格子C(i,j)，计算当前格子的累积距离为当前点距离加上左侧、上方、左上角三个格子中累积距离最小的那个，即：

C(i,j) = w(i,j)* D(i,j) + min(C(i-1,j), C(i,j-1), C(i-1,j-1))；

其中，w(i,j)表示第一个时间序列的第i个数据点和第二个时间序列的第j个数据点的权重。w(i,j)的权重计算方法为，对于本实施例中，如果步骤节点特征向量的第i个与步骤节点特征向量的第j个，统计如上两个步骤所对应的主成分文本信息，如果如上两个步骤所对应的主成分文本信息有n个相同的元素，则赋值w(i,j)值为，其中/>在本申请中赋值为0.9。

4）、计算完加权累积距离矩阵C后，可根据累积距离矩阵C，找到一条最短的路径P，表示两个时间序列的对齐情况。具体来说，可以从C(N,N)开始，向左、上或左上方向遍历，直到遍历到C(1,1)为止，得到一条路径P，表示两个时间序列的对齐情况。

5)、获取加权累积距离矩阵C的对角线路径Q。其中，Q代表加权累积距离矩阵C的对角线，该对角线路径代表生成的虚拟特征与其对应的实际特征是距离紧相关的，即一一对应且距离相互之间最近。

6）求路径P与对角线路径Q之间的包围面积，记为S。

若路径P与对角线路径Q是完全相同，则面积为0。

否则，S=(路径P与路径Q所包围的总的格子数)* C(i,j) - 路径Q的格子数 * C(i,j)。

7）、将S作为权重约束路径对比损失送入总的损失函数中进行计算：

；

其中，为权重系数，训练时设定为常数。

为了便于本领域技术人员更好地理解具体如何训练出该多元异构模型，下面对多元异构模型涉及的关键训练步骤进行详细说明。

即，在本申请中的一种具体实施方式中，结合模型损失、文本补齐损失和图像补齐损失，训练多元异构模型，包括：

步骤一、初始化多元异构模型中所有网络层权值；

步骤二、将程序性多结构样本经过神经网络各层、卷积层、下采样层、全连接层的前向传播得到输出值；

步骤三、根据结合模型损失、文本补齐损失、图像补齐损失和权重约束路径对比损失的损失函数，求取输出值的损失值；

步骤四、将误差反向传回网络中，依次求得图神经网络层，全连接层，卷积层的反向传播误差；

步骤五、网络各层根据各层的反向传播误差对网络中的所有权重系数进行调整；

步骤六、重新随机选取新批次的程序性多结构样本，返回执行将程序性多结构样本经过神经网络各层、卷积层、下采样层、全连接层的前向传播得到输出值的步骤，直到输出值与目标值之间的误差小于阈值，或者迭代次数超过迭代阈值时，结束训练，并保存训练好的所有层的网络参数，得到训练好的多元异构模型。

其中，根据结合模型损失、文本补齐损失、图像补齐损失和权重约束路径对比损失的损失函数，求取输出值的损失值，包括：

基于叠加了模型损失、文本补齐损失、图像补齐损失和权重约束路径对比损失的损失函数，计算损失值。

也就是说，训练过程简述为：

1）、构建新型的多结构图像文本检索网络（图文检索模型，即一种具体的多元异构模型），包括文本信息特征编码器和图像序列特征编码器。

2）、建立损失函数。

3）、根据如上损失函数对网络进行训练，使其收敛。

网络训练过程如下：卷积神经网络的训练过程分为两个阶段。第一个阶段是数据由低层次向高层次传播的阶段，即前向传播阶段。另外一个阶段是，当前向传播得出的结果与预期不相符时，将误差从高层次向底层次进行传播训练的阶段，即反向传播阶段。

训练过程为：

1、所有网络层权值进行初始化，一般采用随机初始化；

2、输入图像和文本数据经过神经网络各层、卷积层、下采样层、全连接层等各层的前向传播得到输出值；

3、求出网络的输出值，根据损失函数求取网络的输出值的。

4、将误差反向传回网络中，依次求得网络各层：图神经网络层，全连接层，卷积层等各层的反向传播误差。

5、网络各层根据各层的反向传播误差对网络中的所有权重系数进行调整，即进行权重的更新。

6、重新随机选取新的batch的图像文本数据，然后进入到第二步，获得网络前向传播得到输出值。

7、无限往复迭代，当求出网络的输出值与目标值（标签）之间的误差小于某个阈值，或者迭代次数超过某个阈值时，结束训练。

8、保存训练好的所有层的网络参数。

需要注意的是，在本申请中，最终计算损失值的损失函数如下：

，

在系统总的结构图中代表损失函数。

为了使得本领域技术人员能够更好的应用本申请实施例所提供的多元异构模型训练方法，所训练出的多元异构模型，下面对该多元异构模型的应用过程进行详细说明。

在本申请中的一种具体实施方式中，利用该多元异构模型进行图文检索，包括：

步骤一、接收客户端发送的检索数据；检索数据为文本数据或序列图像数据；

步骤二、提取检索数据的检索特征；

步骤三、将检索特征与待检索数据集中所有样本特征进行距离匹配；

步骤四、将距离最小的样本确定为推荐样本，并输出推荐样本。

为便于描述，下面将上述四个步骤结合起来进行说明。

在推理过程中，预先加载网络训练好的权重系数。对菜谱文本或序列图像进行特征提取。

存入待检索数据集中。

用户给定任意菜谱文本数据或序列图像数据，称为query数据。

提取query数据的菜谱文本数据或序列图像数据的特征，使用的新型的图像文本检索网络。

将query数据的特征与待检索数据集中所有样本特征进行距离匹配，即求向量距离。本申请求欧式距离。

例如：若query数据是菜谱文本数据就去取待检索数据集中所有的菜谱视频特征进行求距离。同理query数据是菜谱视频数据。

与待检索数据集中所有的菜谱视频特征求欧式距离，距离最小的样本即为推荐样本，进行输出。

相应于上面的方法实施例，本申请实施例还提供了一种多元异构模型训练装置，下文描述的多元异构模型训练装置与上文描述的多元异构模型训练及应用方法可相互对应参照。

参见图8所示，该装置包括以下模块：

样本获取模块101，用于获取程序性多结构样本；程序性多结构样本包括成对存在的程序性文本数据和图像序列数据；

模型损失计算模块102，用于利用异质图神经网络提取程序性文本数据的文本特征，利用图像序列特征提取网络提取图像序列数据的图像序列特征，并基于文本特征和图像序列特征计算模型损失；

特征抽取模块103，用于从异质图神经网络中抽取步骤节点特征，从图像序列特征提取网络中抽取步骤图像特征；

文本补齐损失计算模块104，用于利用文本到图像的补齐网络，实现步骤节点特征向步骤图像特征的数目对齐，得到文本对齐拟合特征，并基于文本对齐拟合特征计算文本补齐损失；

图像补齐损失计算模块105，用于利用图像到文本的补齐网络，实现步骤图像特征向步骤节点特征的数目对齐，得到图像对齐拟合特征，并基于图像对齐拟合特征计算图像补齐损失；

参数调整模块106，用于结合模型损失、文本补齐损失和图像补齐损失，训练多元异构模型，并在训练完成后，得到图文粒度的多元异构模型。

应用本申请实施例所提供的装置，获取程序性多结构样本；程序性多结构样本包括成对存在的程序性文本数据和图像序列数据；利用异质图神经网络提取程序性文本数据的文本特征，利用图像序列特征提取网络提取图像序列数据的图像序列特征，并基于文本特征和图像序列特征计算模型损失；从异质图神经网络中抽取步骤节点特征，从图像序列特征提取网络中抽取步骤图像特征；利用文本到图像的补齐网络，实现步骤节点特征向步骤图像特征的数目对齐，得到文本对齐拟合特征，并基于文本对齐拟合特征计算文本补齐损失；利用图像到文本的补齐网络，实现步骤图像特征向步骤节点特征的数目对齐，得到图像对齐拟合特征，并基于图像对齐拟合特征计算图像补齐损失；结合模型损失、文本补齐损失和图像补齐损失，训练多元异构模型，并在训练完成后，得到图文粒度的多元异构模型。

在本申请的一种具体实施方式中，文本补齐损失计算模块104，具体用于基于步骤节点特征，建立文本公共特征；

对每个步骤图像特征，建立与之对应的文本拟合特征；

将所有文本拟合特征与文本公共特征进行分别叠加，得到文本对齐拟合特征。

在本申请的一种具体实施方式中，文本补齐损失计算模块104，具体用于将步骤节点特征通过级联或叠加的形式输入到多层全连接网络中进行处理，得到文本公共特征。

在本申请的一种具体实施方式中，文本补齐损失计算模块104，具体用于计算每个步骤节点特征与当前所遍历的步骤图像特征之间的拟合权重；

利用拟合权重，建立文本拟合特征。

在本申请的一种具体实施方式中，文本补齐损失计算模块104，具体用于遍历每个步骤节点特征，将其与当前步骤图像特征级联或相加，输入到权重值拟合网络，获得当前步骤节点特征与当前步骤图像特征的拟合权重；

在本申请的一种具体实施方式中，文本补齐损失计算模块104，具体用于按照对应关系，基于拟合权重对各个步骤节点特征进行加权累加，得到文本拟合特征。

在本申请的一种具体实施方式中，文本补齐损失计算模块104，具体用于计算文本对齐拟合特征和步骤图像特征之间的距离；

基于距离，计算文本补齐损失。

在本申请的一种具体实施方式中，图像补齐损失计算模块105，具体用于基于图像序列特征，建立图像公共特征；

对每个步骤节点特征，建立与之对应的图像拟合特征；

叠加所有图像拟合特征与图像公共特征，得到图像对齐拟合特征。

在本申请的一种具体实施方式中，图像补齐损失计算模块105，具体用于将图像序列特征通过级联或者叠加的形式输入到多层全连接网络中进行处理，得到图像公共特征。

在本申请的一种具体实施方式中，图像补齐损失计算模块105，具体用于计算每个步骤图像特征与当前所遍历的步骤节点特征之间的拟合权重；

利用拟合权重，建立图像拟合特征。

在本申请的一种具体实施方式中，图像补齐损失计算模块105，具体用于遍历每个步骤图像特征，将其与当前步骤节点特征级联或相加，输入到权重值拟合网络，获得当前步骤图像特征与当前步骤节点特征的拟合权重；

在本申请的一种具体实施方式中，图像补齐损失计算模块105，具体用于按照对应关系，基于拟合权重对各个步骤图像特征进行加权累加，得到图像拟合特征。

在本申请的一种具体实施方式中，图像补齐损失计算模块105，具体用于计算图像对齐拟合特征和步骤节点特征之间的距离；

基于距离，计算图像补齐损失。

在本申请的一种具体实施方式中，特征抽取模块103，具体用于从异质图神经网络中，抽取数目与程序性多结构样本的步骤数目相同的步骤节点特征；

抽取图像序列特征提取网络中通过骨干网络及全连接层之后的特征，并将该特征确定为步骤图像特征；

在本申请的一种具体实施方式中，模型损失计算模块102，具体用于将程序性文本数据分为步骤文本信息和辅助文本信息；

分别确定步骤文本信息对应的第一文本信息节点特征，辅助文本信息对应的第二文本信息节点特征；

基于步骤文本信息与辅助文本信息的对应关系，确定各个第一文本信息节点特征与第二文本信息节点特征之间的连接关系，得到异质图；

对异质图进行更新处理；

基于更新后的异质图，挖掘所有第一文本信息对应的时序信息；

取全部时序信息对应的平均值作为步骤节点特征。

在本申请的一种具体实施方式中，模型损失计算模块102，用于提取图像序列数据中每一张图像的特征；

基于每一张图像的特征，获取图像序列数据的图像序列特征。

在本申请的一种具体实施方式中，还包括：

检索模块，用于接收客户端发送的检索数据；检索数据为文本数据或序列图像数据；

提取检索数据的检索特征；

将检索特征与待检索数据集中所有样本特征进行距离匹配；

将距离最小的样本确定为推荐样本，并输出推荐样本。

在本申请的一种具体实施方式中，还包括：

权重约束路径对比损失计算模块，用于基于步骤节点特征与图像对齐拟合特征，建立序列间的距离度量矩阵和加权累积距离矩阵；

根据加权累积距离矩阵，找到最短路径；最短路径对应步骤节点特征与图像对齐拟合特征的序列对齐情况；

获取加权累积距离矩阵的对角线路径；

计算最短路径与对角线路径的之间的包围面积；

将包围面积确定为权重约束路径对比损失；

相应地，参数调整模块106，具体用于结合模型损失、文本补齐损失、图像补齐损失和权重约束路径对比损失，训练多元异构模型，并在训练完成后，得到图文粒度的多元异构模型。

在本申请的一种具体实施方式中，参数调整模块106，具体用于初始化多元异构模型中所有网络层权值；

将程序性多结构样本经过神经网络各层、卷积层、下采样层、全连接层的前向传播得到输出值；

根据结合模型损失、文本补齐损失、图像补齐损失和权重约束路径对比损失的损失函数，求取输出值的损失值；

重新随机选取新批次的程序性多结构样本，返回执行将程序性多结构样本经过神经网络各层、卷积层、下采样层、全连接层的前向传播得到输出值的步骤，直到输出值与目标值之间的误差小于阈值，或者迭代次数超过迭代阈值时，结束训练，并保存训练好的所有层的网络参数，得到训练好的多元异构模型。

在本申请的一种具体实施方式中，参数调整模块106，具体用于基于叠加了模型损失、文本补齐损失、图像补齐损失和权重约束路径对比损失的损失函数，计算损失值。

相应于上面的方法实施例，本申请实施例还提供了一种电子设备，下文描述的一种电子设备与上文描述的一种多元异构模型训练及应用方法可相互对应参照。

参见图9所示，该电子设备包括：

存储器332，用于存储计算机程序；

处理器322，用于执行计算机程序时实现上述方法实施例的多元异构模型训练方法的步骤，或实现上述方法实施例的多元异构模型应用方法的步骤。

具体的，请参考图10，图10为本实施例提供的一种电子设备的具体结构示意图，该电子设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器（central processing units，CPU）322（例如，一个或一个以上处理器）和存储器332，存储器332存储有一个或一个以上的计算机程序342或数据344。其中，存储器332可以是短暂存储或持久存储。存储在存储器332的程序可以包括一个或一个以上模块（图示没标出），每个模块可以包括对数据处理设备中的一系列指令操作。更进一步地，处理器322可以设置为与存储器332通信，在电子设备301上执行存储器332中的一系列指令操作。

电子设备301还可以包括一个或一个以上电源326，一个或一个以上有线或无线网络接口350，一个或一个以上输入输出接口358，和/或，一个或一个以上操作系统341。

上文所描述的多元异构模型训练及应用方法中的步骤可以由电子设备的结构实现。

相应于上面的方法实施例，本申请实施例还提供了一种可读存储介质，下文描述的一种可读存储介质与上文描述的一种多元异构模型训练及应用方法可相互对应参照。

一种可读存储介质，可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述方法实施例的多元异构模型训练方法的步骤，或实现上述方法实施例的多元异构模型应用方法的步骤。

该可读存储介质具体可以为U盘、移动硬盘、只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random Access Memory，RAM）、磁碟或者光盘等各种可存储程序代码的可读存储介质。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本领域技术人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件的方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应该认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器（RAM）、内存、只读存储器（ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系属于仅仅用来将一个实体或者操作与另一个实体或者操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语包括、包含或者其他任何变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本申请的限制。

Claims

1.一种多元异构模型训练方法，其特征在于，包括：

结合所述模型损失、所述文本补齐损失和所述图像补齐损失，训练多元异构模型，并在训练完成后，得到图文粒度的多元异构模型；

其中，利用文本到图像的补齐网络，实现所述步骤节点特征向所述步骤图像特征的数目对齐，得到文本对齐拟合特征，包括：

基于所述步骤节点特征，建立文本公共特征；

对每个所述步骤图像特征，建立与之对应的文本拟合特征；

将所有所述文本拟合特征与所述文本公共特征进行分别叠加，得到所述文本对齐拟合特征；

相应地，基于所述文本对齐拟合特征计算文本补齐损失，包括：

基于所述距离，计算所述文本补齐损失；

其中，利用图像到文本的补齐网络，实现所述步骤图像特征向所述步骤节点特征的数目对齐，得到图像对齐拟合特征，包括：

基于所述图像序列特征，建立图像公共特征；

对每个所述步骤节点特征，建立与之对应的图像拟合特征；

叠加所有图像拟合特征与所述图像公共特征，得到所述图像对齐拟合特征；

相应地，基于所述图像对齐拟合特征计算图像补齐损失，包括：

基于所述距离，计算所述图像补齐损失。

2.根据权利要求1所述的多元异构模型训练方法，其特征在于，基于所述步骤节点特征，建立文本公共特征，包括：

3.根据权利要求1所述的多元异构模型训练方法，其特征在于，对每个所述步骤图像特征，建立与之对应的文本拟合特征，包括：

利用所述拟合权重，建立所述文本拟合特征。

4.根据权利要求3所述的多元异构模型训练方法，其特征在于，计算每个所述步骤节点特征与当前所遍历的所述步骤图像特征之间的拟合权重，包括：

5.根据权利要求3所述的多元异构模型训练方法，其特征在于，利用所述拟合权重，建立所述文本拟合特征，包括：

6.根据权利要求1所述的多元异构模型训练方法，其特征在于，基于所述图像序列特征，建立图像公共特征，包括：

7.根据权利要求1所述的多元异构模型训练方法，其特征在于，对每个所述步骤节点特征，建立与之对应的图像拟合特征，包括：

利用所述拟合权重，建立所述图像拟合特征。

8.根据权利要求7所述的多元异构模型训练方法，其特征在于，计算每个所述步骤图像特征与当前所遍历的所述步骤节点特征之间的拟合权重，包括：

9.根据权利要求7所述的多元异构模型训练方法，其特征在于，利用所述拟合权重，建立所述图像拟合特征，包括：

10.根据权利要求1所述的多元异构模型训练方法，其特征在于，从所述异质图神经网络中抽取步骤节点特征，从所述图像序列特征提取网络中抽取步骤图像特征，包括：

11.根据权利要求1所述的多元异构模型训练方法，其特征在于，所述利用异质图神经网络提取所述程序性文本数据的文本特征，包括：

将所述程序性文本数据分为步骤文本信息和辅助文本信息；

对所述异质图进行更新处理；

取全部所述时序信息对应的平均值作为所述文本特征。

12.根据权利要求1所述的多元异构模型训练方法，其特征在于，利用图像序列特征提取网络提取所述图像序列数据的图像序列特征，包括：

提取所述图像序列数据中每一张图像的特征；

13.根据权利要求1至12中任一项所述的多元异构模型训练方法，其特征在于，还包括：

获取所述加权累积距离矩阵的对角线路径；

计算所述最短路径与所述对角线路径的之间的包围面积；

将所述包围面积确定为权重约束路径对比损失；

14.根据权利要求13所述的多元异构模型训练方法，其特征在于，所述结合所述模型损失、所述文本补齐损失、所述图像补齐损失和权重约束路径对比损失，训练多元异构模型，包括：

初始化所述多元异构模型中所有网络层权值；

15.根据权利要求14所述的多元异构模型训练方法，其特征在于，根据结合所述模型损失、所述文本补齐损失、所述图像补齐损失和权重约束路径对比损失的损失函数，求取所述输出值的损失值，包括：

16.一种多元异构模型应用方法，其特征在于，包括：

利用如权利要求1至15任一项所述的多元异构模型，提取所述检索数据的检索特征；将所述检索特征与待检索数据集中所有样本特征进行距离匹配；将距离最小的样本确定为推荐样本，并输出所述推荐样本。

17.一种电子设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至15任一项所述多元异构模型训练方法的步骤，或如权利要求16所述的多元异构模型应用方法的步骤。

18.一种可读存储介质，其特征在于，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至15任一项所述多元异构模型训练方法的步骤，或如权利要求16所述的多元异构模型应用方法的步骤。