CN115310547B

CN115310547B - 模型训练方法、物品识别方法及装置、电子设备、介质

Info

Publication number: CN115310547B
Application number: CN202210970443.8A
Authority: CN
Inventors: 蒋艺荃
Original assignee: China Telecom Corp Ltd
Current assignee: China Telecom Corp Ltd
Priority date: 2022-08-12
Filing date: 2022-08-12
Publication date: 2023-11-17
Anticipated expiration: 2042-08-12
Also published as: CN115310547A

Abstract

本公开实施例是关于一种模型训练方法、物品识别方法及装置、电子设备、计算机可读存储介质，涉及计算机技术领域，该方法包括：获取样本物品的样本文本信息以及样本图像信息；基于所述样本文本信息以及样本图像信息对识别模型中的自监督模型进行预训练，获取先验结果；通过所述识别模型中的嵌入模型，结合所述先验结果以及样本文本信息获取参考多模态表征向量；基于所述参考多模态表征向量确定目标损失函数，并基于所述目标损失函数对所述识别模型的模型参数进行调整，以训练识别模型。本公开能够提高模型训练的准确性。

Description

模型训练方法、物品识别方法及装置、电子设备、介质

技术领域

本公开实施例涉及计算机技术领域，具体而言，涉及一种模型训练方法、物品识别方法、模型训练装置、物品识别装置、电子设备以及计算机可读存储介质。

背景技术

随着智能系统的发展，可以通过智能系统对输入的物品进行自动识别和搜索相似物品。

相关技术中，可以通过图片以及文本等多种数据类型确定物品的多模态特征，并根据多模态特征进行识别。上述方式中，由于物品的文本通常缺乏语法结构，且图片信息通常包含其他杂讯，在模型训练过程中可能会存在一定的干扰，导致得到的模型的准确性较低，可靠性较差。

需要说明的是，在上述背景技术部分发明的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种物品识别方法、物品识别装置、电子设备以及计算机可读存储介质，进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的物品表征的准确性较低的问题。

根据本公开的一个方面，提供一种模型训练方法，包括：获取样本物品的样本文本信息以及样本图像信息；基于所述样本文本信息以及样本图像信息对识别模型中的自监督模型进行预训练，获取先验结果；通过所述识别模型中的嵌入模型，结合所述先验结果以及样本文本信息获取参考多模态表征向量；基于所述参考多模态表征向量确定目标损失函数，并基于所述目标损失函数对所述识别模型的模型参数进行调整，以训练识别模型。

在本公开的一种示例性实施例中，所述基于所述样本文本信息以及样本图像信息对识别模型中的自监督模型进行预训练，获取先验结果，包括：对所述样本物品的图像特征向量以及文本特征向量进行聚类确定聚类簇，并确定聚类簇中目标单词的先验注意力。

在本公开的一种示例性实施例中，所述确定聚类簇中目标单词的先验注意力，包括：根据目标单词在聚类簇中的出现频率，以及，聚类簇的总数量与包含所述目标单词的聚类簇的数量对应的逆向簇频率，确定所述先验注意力。

在本公开的一种示例性实施例中，所述结合所述先验结果以及样本文本信息获取参考多模态表征向量，包括：获取样本文本信息的隐藏状态矩阵，并对隐藏状态矩阵进行变换获取注意力向量；基于先验注意力对所述注意力向量进行正则化获取注意力正则化项，并根据所述注意力正则化项与隐藏状态矩阵获取参考多模态表征向量。

在本公开的一种示例性实施例中，所述基于先验注意力对所述注意力向量进行正则化获取注意力正则化项，包括：确定注意力向量的每个权重值在所述注意力向量中排名第一的概率；获取先验注意力的每个权重值在所述先验注意力中排名第一的概率；通过所述注意力向量和所述先验注意力的排名第一的概率的交叉熵，对所述注意力向量进行正则化以获取注意力正则化项。

在本公开的一种示例性实施例中，所述根据注意力正则化项与隐藏状态矩阵获取参考多模态表征向量，包括：将所述注意力正则化项和隐藏状态矩阵进行乘法操作，获取所述样本文本信息的参考多模态表征向量。

在本公开的一种示例性实施例中，所述基于所述参考多模态表征向量确定损失函数，包括：根据所述参考多模态表征向量确定文本重建损失，并根据所述参考多模态表征向量确定图像特征预测损失；结合所述文本重建损失、所述图像特征预测损失以及注意力正则化项确定所述目标损失函数。

根据本公开的一个方面，提供一种物品识别方法，包括：获取待处理物品的文本信息；根据识别模型对所述文本信息进行特征提取，获取所述待处理物品的多模态表征向量；所述识别模型根据上述任意一项所述的模型训练方法训练得到；基于所述多模态表征向量对待处理物品进行目标操作，以确定识别结果。

根据本公开的一个方面，提供一种模型训练装置，包括：信息获取模块，用于获取样本物品的样本文本信息以及样本图像信息；预训练模块，用于基于所述样本文本信息以及样本图像信息对识别模型中的自监督模型进行预训练，获取先验结果；多模态表征获取模块，用于通过所述识别模型中的嵌入模型，结合所述先验结果以及样本文本信息获取参考多模态表征向量；训练模块，用于基于所述参考多模态表征向量确定目标损失函数，并基于所述目标损失函数对所述识别模型的模型参数进行调整，以训练识别模型。

根据本公开的一个方面，提供一种物品识别装置，包括：文本信息获取模块，用于获取待处理物品的文本信息；多模态表征获取模块，用于根据识别模型对所述文本信息进行特征提取，获取所述待处理物品的多模态表征向量；所述识别模型根据上述任意一项所述的模型训练方法训练得到；目标操作模块，用于基于所述多模态表征向量对待处理物品进行目标操作，以确定识别结果。

根据本公开的一个方面，提供一种电子设备，包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的方法。

根据本公开的一个方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一项所述的方法。

本公开实施例中提供的模型训练方法、物品识别方法、模型训练装置、物品识别装置、电子设备以及计算机可读存储介质中，一方面，通过样本物品的样本文本信息以及样本图像信息实现预训练得到先验结果，进一步结合先验结果以及样本文本信息获取参考多模态表征向量，避免了输入数据中文本和图像的杂讯干扰，也避免了文本信息不存在语法结构从而导致的局限性，提高了参考多模态表征向量的全面性和准确性，进而提高了模型训练的准确性，提高了识别模型的准确性和可靠性。另一方面，通过先验结果选择出重要的文本参与训练过程，以结合先验结果进行模型训练确定参考多模态表征向量，进而确定目标损失函数，能够在模型训练过程中同时融合文本和图像的语义来训练模型，提高了识别模型的鲁棒性和全面性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示意性示出本公开实施例的一种模型训练方法的流程图。

图2示意性示出本公开实施例的识别模型的结构示意图。

图3示意性示出本公开实施例聚类簇的示意图。

图4中示意性示出本公开实施例获取参考多模态表征向量的流程示意图。

图5示意性示出本公开实施例进行正则化的流程示意图。

图6示意性示出本公开实施例的一种物品识别方法的流程图。

图7示意性示出本公开实施例模型训练以及物体识别的示意图。

图8示意性示出本公开实施例模型训练装置的框图示意图。

图9示意性示出本公开实施例物品识别装置的框图示意图。

图10示意性示出本公开实施例电子设备的框图示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

相关技术中，基于深度学习的表征学习模型将物品的原始信息转换成表征向量以表示物品。表征向量可直接计算表征向量之间的向量距离作为物品的相似度，以达到快速的物件识别与检索的目的。持此之外，也可以将表征向量与推荐系统等大型系统集成以提升系统能力并克服冷启动的问题。

根据不同的数据类型，现有的特征学习主要分为文本的表征学习和图片的表征学习。在文本表征学习中，以TF-IDF为代表的传统表征计算方法和FastText等分布式词嵌入方法已广泛应用于实际生产中，例如预训练语言模型Bidirectional EncoderRepresentations from Transformers(BERT)能够有利于提升各类与自然语言处理相关的下游任务的能力。在图片方面，大型数据库ImageNet提供了大量的已标注图片，催生出VGG和ResNet等预训练的物品识别模型。虽然文本和图片都含有丰富的语义，未经过处理的文字和图片都带有一定的杂讯，而且两者所含语义具有互补的关系。可利用多种数据类型进行建模的多模态特征学习成为研究的重点，例如跨模态编解码器和旨在融合不同模态特征的联合表征模型。

在电子商务中，识别和搜寻相似物品等应用都涉及相似度计算。各大网络平台提供了海量多模态的物品信息，其中物品文本标题和图片是最为常见的数据。由于物品资料的特殊性，物品的文本通常缺乏语法结构，而且物品图片相较普通照片通常包含更多的杂讯。因此，需要一种高鲁棒性的多模态表征向量模型提取高质量物品表征。

本公开实施例中，为了解决上述技术问题，提供了一种物品识别方法。

接下来，参考图1中所示对本公开实施例中的物品识别方法进行具体说明。

在步骤S110中，获取样本物品的样本文本信息以及样本图像信息。

本公开实施例中，样本物品可以训练集中的物品，可以为不同类型的物品，例如商品或者是动物等等。样本物品可以包含样本文本信息和样本图像信息，且样本文本信息和样本图像信息相对应。样本文本信息可以为用于描述样本物品的属性信息的文本，例如样本文本信息可以为物品的标题或者是类型等信息，样本文本信息中可以包含至少一个单词。样本图像信息也可以用于表示样本物品的信息，例如可以为样本物品的形状、纹理以及包含的对象等等。

在步骤S120中，基于所述样本文本信息以及样本图像信息对识别模型中的自监督模型进行预训练，获取先验结果。

本公开实施例中，识别模型可以为用于实现多任务学习的模型，其中可以包含自监督模型、嵌入模型以及多任务模型。自监督模型用于执行预训练获取先验结果，先验结果例如可以为先验注意力。嵌入模型用于执行正式训练过程并获取多模态表征向量，其输出为最终要学习的多模态物体表征，期望在保留文本语义特征的同时嵌入图像和文本的共同语义。并且，可以通过多任务学习来实现这一目标。多任务学习可以通过多模型而实现，在本公开实施例中，多任务学习由图像特征预测模型和文本重建模型构成。图像特征预测的目的是嵌入图像和文本的共同语义。文本重建作为辅助任务，旨在编码文本特有的特征。由于物品文本标题之间缺乏语法结构，本公开实施例中可以将文本重建简化为预测输入文本包含的词语，即简化为多标签分类问题。随后两个并行的网络分支将嵌入模型输出的多模态表征向量作为输入，分别连接到文本重建和图像特征预测这两个下游任务进行多任务学习。

多任务学习的损失函数可以根据第一损失函数和第二损失函数而确定，第一损失函数为目标图像特征的重建图片特征的均方误差，第二损失函数为使用交叉熵衡量文本重建上的多分类损失，具体参考公式(1)所示：

在一些实施例中，由于物品图像的多样性，图像特征不可避免地带有较多杂讯，相关技术中的编解码模型容易因为过拟合目标图像特征，导致注意力机制错误地关注不重要的文本单词。因此，为了加强自注意力机制对物品主体等关键语义的关注度，防止过拟合并提升模型鲁棒性，可以通过自监督模型来进行预训练。

参考图2中所示，自监督模型中可以包含聚类和单词评分两个步骤。基于此，在预训练阶段，自监督模型可以先对文本和图像组成的样本数据进行聚类，然后利用权重算法对文本单词赋予权重，从而得到文本单词的先验注意力，以基于先验注意力对后续的正式训练过程进行处理。具体地，在训练阶段，使得自注意力机制根据自监督模型输出的文本单词的先验注意力，对自注意力向量做进一步加强，使嵌入模型能更好地编码物品的主体信息，避免了忽略物品主体信息而只关注其他不重要的文本单词的问题，提高了准确性。

在一些实施例中，通过自监督模型进行预训练的过程主要包括以下步骤：对所述样本物品的图像特征向量以及文本特征向量进行聚类确定聚类簇，并确定聚类簇中目标单词的先验注意力。

本公开实施例中，可以根据样本物品的样本图像信息的图像特征向量对样本物品组成的数据集进行凝聚聚类，获得聚类结果，即聚类簇，以获取基于物品类别的粗略分类。示例性的，可以通过预训练的ResNet模型对样本图像信息进行特征提取，以获取图像特征向量。具体地，可采用预训练的ResNet模型的最后一层(SoftMax层的前一层)的输出向量作为样本图像信息的图像特征向量。

进一步地，可以基于上述聚类簇，对每个聚类簇中的目标单词进行评分以根据目标单词的评分得到目标单词的先验注意力。目标单词可以为聚类簇中的每个单词。在进行评分之前，首先进行如下假设：假设1、在同一聚类簇中经常出现的单词更可能描述物品的主体。假设2、在多个聚类簇出现的单词更有可能描述物品的属性。

示例性地，为了使描述物品主体的单词获得更高的权重，可以使用TF-IDF概念的算法对每个单词赋予权重，此处的权重可以理解为先验注意力。先验注意力可以根据目标单词在聚类簇中出现的频率以及聚类簇的总数量与包含该目标单词的聚类簇的数量对应的逆向簇频率确定目标单词的先验注意力，具体可根据二者之间的乘积确定先验注意力，参考公式(2)所示：

其中，给定在第j个聚类簇c_j中观察到的目标单词t_i，公式(2)中的第一项计算了目标单词t_i在聚类簇c_j中出现的频率，n_i,j表示目标单词t_i在聚类簇c_j中出现的次数。第二项计算了逆向簇频率，具体通过聚类簇的总数量除以包含目标单词t_i的聚类簇的数量，再将取得的比值取以10为底的对数而得到，以得到目标单词的先验注意力s_i,j。

在此基础上，自监督模型能够提供多个包含单词权重的聚类簇。如图3所示，可以随机选择三个聚类簇，并根据单词的先验注意力(评分)对每个聚类簇内的所有单词进行降序排列。根据聚类簇中的单词，可确定这三个聚类簇分别对应了鞋类、鼠标类和护肤品类的物品。在每个聚类簇中，标识框内的单词是得分最高(先验注意力最大)的单词，这些单词能够准确地描述物品的主体信息。排名中段的单词，例如“A品牌”和“光学”，通常描述品牌或其他重要的物品属性。排名靠后的单词通常是其他更通用且低信息含量的属性。

自监督模型中，在预训练阶段引入了聚类算法得到聚类簇，并根据聚类簇得到每个单词的先验注意力，能够根据先验注意力表示的关键信息或者是主体信息来辅助进行模型训练，从而提高模型训练的准确性。降低了先验注意力对图像特征杂讯的敏感度，同时也降低了文本杂讯带来的干扰，提高了鲁棒性。

在步骤S130中，通过所述识别模型中的嵌入模型，结合所述先验结果以及样本文本信息获取参考多模态表征向量。

本公开实施例中，嵌入模型可以用于进行正式训练。参考图2中所示，嵌入模型可以包含RNN层以及自注意力层，用于通过RNN层和自注意力层获取输入的文本信息的多模态表征向量。多模态表征向量指的是集合不同。嵌入模型可以应用于训练过程和推理过程，且嵌入模型的输入为文本信息。RNN层可以为门控循环单元GRU。

当嵌入模型应用于训练过程时，可以将样本物品的样本文本信息输入嵌入模型，结合自监督模型输出的先验结果输出样本物品的样本文本信息的参考多模态表征向量。图4中示意性示出了获取参考多模态表征向量的流程图，参考图4中所示，主要包括以下步骤：

在步骤S410中，获取样本文本信息的隐藏状态矩阵，并根据隐藏状态矩阵获取注意力向量；

在步骤S420中，基于先验注意力对所述注意力向量进行正则化获取注意力正则化项，并根据注意力正则化项与隐藏状态矩阵获取参考多模态表征向量。

本公开实施例中，由于需要将物品文本标题转换为统一的多模态表征向量，并且每个单词在描述物品主体时都有不同程度的贡献(例如，物品的主体信息比颜色或尺寸等属性更重要)，因此可以利用自注意力机制使模型重点编码与物品类别相关的语义。

RNN层可以为GRU(gated recurrent unit，门控循环单元)，用于解决时间序列里时间距离较大的依赖关系。它通过可以学习的门来控制信息流动。门控神经单元则是通过引入重置门和更新门来改变隐藏状态的计算方式。重置门控制了上一步隐藏状态如何流入到当前的候选隐藏状态；更新门控制了包含当前时间步信息的候选隐藏状态如何更新当前隐藏状态。

本公开实施例中，门控循环单元可以为双向门控循环单元，可用于获取输入的样本文本信息在不同方向上的隐藏状态矩阵。不同方向可以为第一方向和第二方向，且第一方向和第二方向相反。示例性地，样本文本信息在不同方向上的隐藏状态矩阵，可以根据相同时间戳时，对整个样本文本信息经过切词后的所有文本在不同方向的隐藏状态而组合确定。

具体地，经过切词后的某个时间戳的输入文本w_t，由双向GRU处理得到每个方向的隐藏状态。通过组合GRU在两个不同方向上的隐藏状态来获得文本的隐藏状态h_t，具体根据公式(3)来确定。基于此，整体样本文本信息的隐藏状态可以用一个矩阵H来表示，例如公式(4)中所示，矩阵的大小为n×2u：

H＝(h₁,h₂,...,h_n) 公式(4)

在得到隐藏状态矩阵之后，可以将隐藏状态矩阵输入至嵌入模块的自注意力层，通过自注意力层对隐藏状态矩阵进行变换，得到自注意力的权重向量，即自注意力向量。此处的变换可以为非线性变换。参考公式(5)中所示，可以基于权重矩阵对隐藏状态矩阵进行非线性变换，得到自注意力向量：

a＝softmax(w_s2tanh(W_s1H^T)) 公式(5)

其中，W_s1是一个大小为d_a×2u的权重矩阵，w_s2是一个大小为d_a的参数向量。

获取到自注意力向量之后，可以获取输入的样本文本信息的参考多模态表征向量。需要说明的是，为了避免注意力机制错误地关注不重要的文本信息，提高准确性，可以通过自注意力机制，将根据自监督模型输出的样本文本信息中目标单词的先验注意力，对自注意力向量进行调整和加强，使嵌入模型能更好地编码物品的主体信息，从而提高多模态表征向量的准确性。此处的调整可以为根据先验注意力对自注意力向量进行正则化。

在嵌入模型中，单词的注意力权重需要与自监督模型的先验注意力的相对权重相匹配。即，单词的注意力权重的高低排序需要接近于先验注意力的权重高低排序。因此，可采用Listwise Learning to Rank算法来评估两个排序的相关性差异，以此对嵌入模型的注意力向量进行正则化。

图5中示意性示出了进行正则化的流程图，参考图5中所示，主要包括以下步骤：

在步骤S510中，确定注意力向量的每个权重值在所述注意力向量中排名第一的概率；

在步骤S520中，获取先验注意力的每个权重值在所述先验注意力中排名第一的概率；

在步骤S530中，通过所述注意力向量和所述先验注意力的排名第一的概率的交叉熵，对所述注意力向量进行正则化以获取注意力正则化项。

本公开实施例中，给定所有对象的分数，一个对象的排名第一的概率表示其被排在最前面的概率。基于此，本公开实施例中排名第一的概率可以表示注意力向量中每个权重值在其所属的注意力向量中排名第一的概率。注意力向量aⁱ可以表示为公式(6)，注意力向量中的每个权重值在其所属的注意力向量中排名第一的概率/>具体可以根据公式(7)来计算：

除此之外，还可以根据公式(6)中的方式，计算先验注意力sⁱ的每个权重值在其所属的先验注意力中排名第一的概率/>

在此基础上，可以计算所述注意力向量和所述先验注意力排名第一的概率的交叉熵，从而得到注意力正则化项，具体根据公式(8)来计算：

在得到注意力正则化项之后，可以将注意力正则化项或者未正则化处理的注意力向量，和隐藏状态矩阵进行乘法操作，获取输入的所述样本文本信息的参考多模态表征向量。表征向量可以如公式(9)所示：

m＝a^TH 公式(9)

通过将注意力向量进行正则化，将自监督模型在预训练时所学习到的先验注意力引入到嵌入模型，迫使下游神经网络在重构文本和预测图像特征时参考该先验注意力，降低了输入数据中文本和图像的杂讯干扰，提高了可靠性和准确性。

在步骤S140中，基于所述参考多模态表征向量确定目标损失函数，并基于所述目标损失函数对所述识别模型的模型参数进行调整，以训练识别模型。

由于嵌入模型中参考了自监督模型的先验注意力来对自注意力向量进行正则化处理，因此目标损失函数也需要根据增加的自监督模型的先验注意力进行调整。示例性地，可以根据文本重建损失、图像特征预测损失以及注意力正则化项共同确定目标损失函数，具体可对文本重建损失、图像特征预测损失以及注意力正则化项进行组合，得到目标损失函数。

可以根据参考多模态表征向量确定文本重建损失以及图像特征预测损失。具体地，可将多模态表征输入至文本重建模型，文本重建模型中包括两层的全连接网络，得到重构文本的单词预测概率，并结合输入的样本文本信息进行二元交叉熵计算，获取文本重建损失。与此同时，可以将参考多模态表征向量输入至图像特征预测模型，该图像特征预测模型可以为一个两层的全连接网络，得到预测的图像特征向量，并结合通过ResNet模型输出的目标图像特征向量做均方差计算，得到图像特征预测损失。

目标损失函数可以如公式(10)所示：

最终的目标损失函数如等式(10)所示，其第一项是图像特征预测损失，第二项是文本重建损失，最后一项是注意力正则化项，λ₁和λ₂是损失项之间的用于权衡的超参数。图像特征预测损失可以为上述公式(1)中的第一损失函数，即目标图像特征的重建图片特征的均方误差；文本重建损失为上述公式(1)中的第二损失函数，具体为使用交叉熵衡量文本重建上的多分类损失。

本公开实施例中，在得到目标损失函数之后，通过迭代更新识别模型的模型参数，使目标损失函数降低，以实现模型训练。示例性的，可以根据目标损失函数进行反向传播，以计算识别模型的参数梯度，进而更新识别模型的模型参数，以获取训练好的识别模型。

本公开实施例中提供的识别模型结合根据样本文本信息以及样本图像信息进行预训练得到的先验结果训练得到。通过自监督模型，对多模态数据做聚类并计算样本文本信息中目标单词的先验注意力。进一步通过嵌入模型中的注意力正则化算法，利用先验注意力来规范注意力向量，将自监督模型在预训练时所学习到的先验注意力引入到嵌入模型，从而降低了正式训练过程中多模态原始数据杂讯的干扰，提高了模型训练的准确性和可靠性。本发明提出的模型训练框架，使模型在训练阶段能同时融合文字和图片数据的语义，能够提高全面性。

本公开实施例中，还提供了一种物品识别方法，参考图6中所示，主要包括以下步骤：

在步骤S610中，获取待处理物品的文本信息；

在步骤S620中，根据识别模型对所述文本信息进行特征提取，获取所述待处理物品的多模态表征向量；所述识别模型根据上述任意一项所述的模型训练方法训练得到；

在步骤S630中，基于所述多模态表征向量对待处理物品进行目标操作，以确定识别结果。

本公开实施例中，待处理物品可以为商品或者是任何类型的物体，具体根据应用场景而确定。例如，在电子商务系统中，待处理物品可以为待识别商品。文本信息用于描述待处理物品的属性信息，属性信息可以包括但不限于标题、类型、品牌等等。文本信息中可以包含至少一个单词。

可以只将待处理物品的文本信息输入至训练好的识别模型中进行特征提取，获取多模态表征向量。具体根据识别模型中的嵌入模型进行处理。如图2中所示，识别模型的嵌入模型可以包含RNN层以及自注意力层。基于此，可以通过RNN层获取待处理物品的文本信息的隐藏状态矩阵；进一步通过自注意力层对文本信息的隐藏状态矩阵进行非线性变换，得到自注意力向量，此处的自注意力向量可以为自注意力的权重向量；接下来可以将自注意力向量与隐藏状态矩阵进行乘法操作，得到待处理物品的多模态表征向量。多模态保证向量可直接用于计算表征向量间的距离以作为物品之间的相似度，也可以用于其他对向量进行处理的过程。多模态表征向量可以将待处理物品的文本和图像等不同类型的数据集成到一个统一的多模态表征空间中，能够获取多模态的特征，提高了物品特征的全面性和准确性。

在得到多模态表征向量之后，可以根据多模态表征向量进行目标操作，得到识别结果。目标操作可以为个或者各种类型的操作，具体根据待处理物品所处的应用系统而确定。当应用系统为推荐系统时，目标操作可以为识别操作以及相似物品检索操作等等。举例而言，待处理物品的文本信息为桌子，多模态表征向量为A，则识别结果可以为桌子的图像，以及与桌子相似的所有图像。

图7中示意性示出了模型训练以及物体识别的流程图，参考图7中所示，主要包括训练阶段701以及推理阶段702，其中：

在训练阶段，根据样本物品的样本图像信息以及样本文本信息，共同训练模型，得到识别模型703。

在推理阶段，获取识别模型，并将待处理物品的文本信息输入至识别模型中，得到待处理物品的多模态表征向量704。

本公开实施例中，对于同一任务，能够融合多个维度的特征，基于多个维度提取多模态表征向量并进行目标操作，模态之间可能会存在互补的信息，提高了识别结果的准确性和全面性。能够增强学习物品类别表征的能力以及提高模型整体鲁棒性。通过将识别模型分为多个不同的模型，在训练阶段将文本信息以及图像信息输入至自监督模型进行预训练，并将与训练结果结合至嵌入模型，以对嵌入模型和多任务模型进行训练，自注意力机制将根据自监督模型输出的单词先验注意力，对嵌入模型中得到的自注意力向量进行正则化，使识别模型中的嵌入模型能更好地编码物品的主体信息，避免了错误关注其他不重要的信息的问题而导致的向量不准确的问题，能够提高模型训练的准确性。除此之外，识别模型在推理阶段仅需将文本作为唯一输入，输入至嵌入模型即可获得多模态表征向量，极大提升推理阶段的计算效率，并且由于识别模型是根据图像和文本共同训练得到，因此提高了推理阶段得到的多模态表征的准确率。

为了验证输出的多模态表征向量的质量，可在物品识别和相似物品检索两个应用上评估识别模型。需要说明的是，多模态表征向量不限制于表征物品，可以应用在其他以文本和图片作为数据类型的表征应用中。

两种测试所使用的测试数据集均经过人工标注。相同物品判断测试(物品识别)的数据集由10000个带标签的物品对组成，其中正面标签表示这对物品是相同的，反之亦然。相似物品检索测试所使用的数据集包含163个物品类别，数据集的所有物品文本被依次作为查询条件在数据集中进行检索。并且采用归一化折扣累积增益(NDCG)作为评估指标来衡量检索质量。归一化折扣累积增益的思想为用户喜欢的物品被排在推荐列表前面比后面会更大程度增加用户体验。

参考表1中所示，表1展示了本公开实施例提供的算法(Ours)与现有单模态以及多模态特征算法的在两个测试任务中的具体表现。BERT(Image)和BERT(Image+MLM)分别是指通过图像预测微调的BERT和分别通过图像预测和Masked Language Modeling微调的BERT。DCCA和LV-Mapping分别是深度广义典型相关分析算法和语言到视觉映射算法，两者皆为多模态表征学习。本公开实施例中的算法的表现在两项测试上优于这些现有算法，其中在相同物品判断上相比LV-Mapping在准确度上提高了6.71％，在物品检索测试中相比BERT(Image+MLM)在NDCG上提高了0.0096。

表1

相比于单模态表征算法，本公开实施例融合了图片和文字多个模态的数据，可构建更富语义信息的表征。相比于多模态表征算法，本公开实施例提供的自监督式的算法框架及注意力正则化，降低了文本和图片的杂讯所带来的影响，能够有效地提取两种数据的语义，提升了多模态特征向量的鲁棒性。在推理阶段，本公开实施例仅需输入待处理物品的文本，可得到物品的多模态表征向量，降低所需计算资源，提高处理效率。

本公开还提供了一种模型训练装置。参考图8所示，该模型训练装置800主要包括以下模块：

信息获取模块801，用于获取样本物品的样本文本信息以及样本图像信息；

预训练模块802，用于基于所述样本文本信息以及样本图像信息对识别模型中的自监督模型进行预训练，获取先验结果；

多模态表征模块803，用于通过所述识别模型中的嵌入模型，结合所述先验结果以及样本文本信息获取参考多模态表征向量；

训练模块804，用于基于所述参考多模态表征向量确定目标损失函数，并基于所述目标损失函数对所述识别模型的模型参数进行调整，以训练识别模型。

在本公开的一种示例性实施例中，所述基于先验注意力对所述注意力向量进行正则化获取注意力正则化项，包括：确定注意力向量中的每个权重值在所述注意力向量中排名第一的概率；获取先验注意力中每个权重值在所述先验注意力中排名第一的概率；通过所述注意力向量和所述先验注意力的排名第一的概率的交叉熵，对所述注意力向量进行正则化以获取注意力正则化项。

本公开还提供了一种物品识别装置。参考图9所示，该物品识别装置900主要包括以下模块：

文本信息获取模块901，用于获取待处理物品的文本信息；

多模态表征模块902，用于根据识别模型对所述文本信息进行特征提取，获取所述待处理物品的多模态表征向量；所述识别模型根据上述任意一项所述的模型训练方法训练得到；

目标操作模块903，用于基于所述多模态表征向量对待处理物品进行目标操作，以确定识别结果。

需要说明的是，上述模型训练装置以及物品识别装置中各模块的具体细节已经在对应的模型训练方法以及物品识别方法中进行了详细的描述，因此此处不再赘述。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

此外，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

在本公开的示例性实施例中，还提供了一种能够实现上述方法的电子设备。

所属技术领域的技术人员能够理解，本公开的各个方面可以实现为系统、方法或程序产品。因此，本公开的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

下面参照图10来描述根据本公开的这种实施方式的电子设备1000。图10显示的电子设备1000仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图10所示，电子设备1000以通用计算设备的形式表现。电子设备1000的组件可以包括但不限于：上述至少一个处理单元1010、上述至少一个存储单元1020、连接不同系统组件(包括存储单元1020和处理单元1010)的总线1030以及显示单元1040。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元1010执行，使得所述处理单元1010执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。例如，所述处理单元1010可以执行如图1中所示的步骤。

存储单元1020可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)10201和/或高速缓存存储单元10202，还可以进一步包括只读存储单元(ROM)10203。

存储单元1020还可以包括具有一组(至少一个)程序模块10205的程序/实用工具10204，这样的程序模块10205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线1030可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备1000也可以与一个或多个外部设备1100(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备1000交互的设备通信，和/或与使得该电子设备1000能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1050进行。并且，电子设备1000还可以通过网络适配器1060与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器1060通过总线1030与电子设备1000的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备1000使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者电子设备等)执行根据本公开实施方式的方法。

在本公开的示例性实施例中，还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本公开的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。

根据本公开的实施方式的用于实现上述方法的程序产品，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本公开的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

此外，上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

本领域技术人员在考虑说明书及实践这里发明的发明后，将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未发明的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

Claims

1.一种模型训练方法，其特征在于，包括：

获取样本物品的样本文本信息以及样本图像信息；

基于所述样本文本信息以及样本图像信息对识别模型中的自监督模型进行预训练，获取先验结果；

通过所述识别模型中的嵌入模型，结合所述先验结果以及样本文本信息获取参考多模态表征向量；

基于所述参考多模态表征向量确定目标损失函数，并基于所述目标损失函数对所述识别模型的模型参数进行调整，以训练识别模型；

其中，结合所述先验结果以及样本文本信息获取参考多模态表征向量，包括：

获取样本文本信息的隐藏状态矩阵，并对隐藏状态矩阵进行变换获取注意力向量；

将所述注意力向量和隐藏状态矩阵进行乘法操作，获取所述样本文本信息的参考多模态表征向量。

2.根据权利要求1所述的模型训练方法，其特征在于，所述基于所述样本文本信息以及样本图像信息对识别模型中的自监督模型进行预训练，获取先验结果，包括：

对所述样本物品的图像特征向量以及文本特征向量进行聚类确定聚类簇，并确定聚类簇中目标单词的先验注意力。

3.根据权利要求2所述的模型训练方法，其特征在于，所述确定聚类簇中目标单词的先验注意力，包括：

根据目标单词在聚类簇中的出现频率，以及，聚类簇的总数量与包含所述目标单词的聚类簇的数量对应的逆向簇频率，确定所述先验注意力。

4.根据权利要求1所述的模型训练方法，其特征在于，所述方法还包括：

基于先验注意力对所述注意力向量进行正则化。

5.根据权利要求4所述的模型训练方法，其特征在于，所述基于先验注意力对所述注意力向量进行正则化，包括：

确定注意力向量的每个权重值在所述注意力向量中排名第一的概率；

获取先验注意力的每个权重值在所述先验注意力中排名第一的概率；

通过所述注意力向量和所述先验注意力的排名第一的概率的交叉熵，对所述注意力向量进行正则化以获取注意力正则化项。

6.根据权利要求1所述的模型训练方法，其特征在于，所述基于所述参考多模态表征向量确定损失函数，包括：

根据所述参考多模态表征向量确定文本重建损失，并根据所述参考多模态表征向量确定图像特征预测损失；

结合所述文本重建损失、所述图像特征预测损失以及注意力正则化项确定所述目标损失函数。

7.一种物品识别方法，其特征在于，包括：

获取待处理物品的文本信息；

根据识别模型对所述文本信息进行特征提取，获取所述待处理物品的多模态表征向量；所述识别模型根据权利要求1-6中任意一项所述的模型训练方法训练得到；

基于所述多模态表征向量对待处理物品进行目标操作，以确定识别结果。

8.一种模型训练装置，其特征在于，包括：

信息获取模块，用于获取样本物品的样本文本信息以及样本图像信息；

预训练模块，用于基于所述样本文本信息以及样本图像信息对识别模型中的自监督模型进行预训练，获取先验结果；

多模态表征模块，用于通过所述识别模型中的嵌入模型，结合所述先验结果以及样本文本信息获取参考多模态表征向量；

训练模块，用于基于所述参考多模态表征向量确定目标损失函数，并基于所述目标损失函数对所述识别模型的模型参数进行调整，以训练识别模型；

9.一种物品识别装置，其特征在于，包括：

文本信息获取模块，用于获取待处理物品的文本信息；

多模态表征获取模块，用于根据识别模型对所述文本信息进行特征提取，获取所述待处理物品的多模态表征向量；所述识别模型根据权利要求1-6中任意一项所述的模型训练方法训练得到；

目标操作模块，用于基于所述多模态表征向量对待处理物品进行目标操作，以确定识别结果。

10.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1至7中任一项所述的方法。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7任意一项所述的方法。