CN115952313B

CN115952313B - 商品特征的处理方法、电子设备及计算机存储介质

Info

Publication number: CN115952313B
Application number: CN202310239878.XA
Authority: CN
Inventors: 卜兴源; 李旭斌; 邓洪波; 许俭; 郑波
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2023-03-07
Filing date: 2023-03-07
Publication date: 2023-06-20
Anticipated expiration: 2043-03-07
Also published as: CN115952313A

Abstract

本申请实施例提供一种商品特征的处理方法、电子设备及计算机存储介质，商品特征的处理方法包括：获取多个目标图像的图像特征语义序列，以及多个描述文本的文本特征语义序列；针对多个目标图像中的任一目标图像，计算其对应图像特征语义序列分别和多个描述文本的文本特征语义序列之间的语义关联度；确定满足预设条件的语义关联度对应的文本特征语义序列，并将该文本特征语义序列对应的描述文本和任一目标图像描述相同的商品，从而可实现基于商品的描述文本和目标图像进行对齐处理，使得描述文本和目标图像聚焦于对应的目标对象上。

Description

商品特征的处理方法、电子设备及计算机存储介质

技术领域

本申请实施例涉及计算机技术领域，尤其涉及一种商品特征的处理方法、电子设备及计算机存储介质。

背景技术

随着移动互联网传播媒介向图像发展，在线电商店铺在展示商品时，除了提供商品的描述文本，还提供了商品的图像。但是，由于商品的描述文本和图像经常会出现不对齐的情况，由此导致用户输入文本检索商品时只基于用户输入的文本检索词与商品的描述文本进行匹配以进行商品召回，而完全忽略了商品的图像；而在基于用户输入的图像进行检索时，只基于用户输入的图像与商品的图像进行相似度计算以进行商品召回，而完全忽略了商品的描述文本，由此导致商品召回的准确率较低。

发明内容

有鉴于此，本申请实施例提供一种商品特征的处理方案，以至少部分解决上述问题。

本申请实施例的第一方面，提供一种商品特征的处理方法，其包括：

获取多个目标图像的图像特征语义序列，以及多个描述文本的文本特征语义序列；

针对所述多个目标图像中的任一目标图像，计算其对应所述图像特征语义序列分别和所述多个描述文本的文本特征语义序列之间的语义关联度；

确定满足预设条件的语义关联度对应的文本特征语义序列，并将该文本特征语义序列对应的描述文本和所述任一目标图像确定为描述相同的商品。

本申请实施例的第二方面，提供一种商品处理方法，其包括：

获取目标对象的描述信息，并从中提取所述描述信息对应的特征语义序列；

获取商品数据库中多个候选商品对应的图文间融合特征，以计算所述特征语义序列与所述图文间融合特征的语义相似度，其中，针对任一候选商品，其图文间融合特征通过对语义关联度满足预设条件情况下对应图像的图像特征语义序列和对应描述文本的文本特征语义序列进行融合得到；

将所述语义相似度大于或者等于设定相似度阈值时对应的候选商品作为待推荐的备选商品。

本申请实施例的第三方面，提供一种商品编码模型的训练方法，其包括：

获取关联于第一商品的第一图像样本以及第一描述文本样本；

基于第一训练针对的图像编码模型对所述第一图像样本进行编码处理，得到第一图像特征语义序列，以及基于第一训练针对的文本编码模型对所述第一描述文本样本进行编码处理，得到第一文本特征语义序列；

响应于所述第一图像特征语义序列和所述第一文本特征语义序列之间语义关联度的损失值不满足第一训练结束条件，调整所述图像编码模型和/或所述文本编码模型的模型参数。

本申请实施例的第四方面，提供一种数据处理方法，其包括：

获取目标的多个第一描述数据对应的第一描述特征语义序列，以及多个第二描述数据对应的第二特征语义序列；

针对所述多个第一描述数据中的任一第一描述数据，计算其对应所述第一描述特征语义序列分别和所述多个第二描述数据对应的第二特征语义序列之间的语义关联度；

确定满足预设条件的所述语义关联度对应的第二特征语义序列，并将该第二特征语义序列对应的第二描述数据和所述任一第一描述数据确定为描述相同的目标。

本申请实施例的第五方面，提供一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如本申请实施例中任一项所述的方法对应的操作。

本申请实施例的第六方面，提供一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请实施例中任一所述的方法。

根据本申请实施例提供的方案，通过获取多个目标图像的图像特征语义序列，以及多个描述文本的文本特征语义序列；并针对所述多个目标图像中的任一目标图像，计算其对应所述图像特征语义序列分别和所述多个描述文本的文本特征语义序列之间的语义关联度，以通过该语义关联度来判断该图像特征语义序列和其他描述文本特征语义序列能表征同一目标对象的程度，再通过设定预设条件来定义该程度，从而可以实现确定满足预设条件的语义关联度对应的文本特征语义序列，并将该文本特征语义序列对应的描述文本和所述任一目标图像确定为描述相同的商品，进一步从而可实现基于商品的描述文本和目标图像进行对齐处理，使得描述文本和目标图像聚焦于对应的目标对象上。当应用到商品召回环节时，可以联合所述描述文本和目标对象互为监督，以进行商品召回，从而提高了商品召回的准确率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1示出了一种适用本申请实施例的方法的应用系统。

图2为本申请实施例一种商品特征的处理方法的流程示意图。

图3为本申请实施例一种商品处理方法的流程图。

图4为本申请实施例中特征提取方法和商品处理方法在一具体场景中的说明。

图5A为本申请实施例一种商品编码模型的训练方法的流程示意图。

图5B为本申请实施例一种商品编码模型的训练原理示意图。

图6为本申请实施例一种数据处理方法的流程示意图。

图7示出了一种电子设备的结构示意图。

具体实施方式

为了使本领域的人员更好地理解本申请实施例中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请实施例一部分实施例，而不是全部的实施例。基于本申请实施例中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本申请实施例保护的范围。

下面结合本申请实施例附图进一步说明本申请实施例具体实现。

图1示出了一种适用本申请实施例的方法的应用系统。如图1所示，该系统100可以包括云服务端102、通信网络104和/或一个或多个用户设备106，图1中示例为多个用户设备。

云服务端102可以是用于存储信息、数据、应用程序和/或任何其他合适类型的内容的任何适当的设备，包括但不限于分布式存储系统设备、服务器集群、计算云服务端集群等。

在一些实施例中，通信网络104可以是一个或多个有线和/或无线网络的任何适当的组合。例如，通信网络104能够包括以下各项中的任何一种或多种：互联网、内联网、广域网(WAN)、局域网(LAN)、无线网络、数字订户线路(DSL)网络、帧中继网络、异步转移模式(ATM)网络、虚拟专用网(VPN)和/或任何其它合适的通信网络。用户设备106能够通过一个或多个通信链路(例如，通信链路112)连接到通信网络104，该通信网络104能够经由一个或多个通信链路(例如，通信链路114)被链接到云服务端102。通信链路可以是适合于在用户设备106和云服务端102之间传送数据的任何通信链路，诸如网络链路、拨号链路、无线链路、硬连线链路、任何其它合适的通信链路或此类链路的任何合适的组合。

图1实施例中，是以在云服务端执行为例进行说明，再将执行的结果推送给用户设备，用户设备106通过通信网络接收执行结果，并在所述用户设备本地查看。比如，用户设备106上可以安装应用程序，以与所述云服务端交互，触发云服务端执行本申请设立的方法，并接收所述执行结果。

在一些实施例中，用户设备106可以包括任何合适类型的设备。例如，在一些实施例中，用户设备106可以包括移动设备、平板计算机、膝上型计算机、台式计算机、可穿戴计算机、游戏控制台、媒体播放器、车辆娱乐系统和/或任何其他合适类型的用户设备。

当然，此处需要说明的是，但是，并非唯一性限定只能在云服务端执行。实际上，在一些应用场景中，部分或者全部步骤也可以在用户设备本地执行。

结合上述图1提供的应用系统，如下对本申请实施例提供的方案进行逐一说明。

图2为本申请实施例一种商品特征的处理方法的流程示意图。如图2所示，其包括：

S201、获取多个目标图像的图像特征语义序列，以及多个描述文本的文本特征语义序列。

可选地，目标图像比如可以为商户在电商平台进行销售的商品的图像，或者又可以称之为商品侧介绍商品的图像。所述图像可以从商品的视频流中获取，比如通过截图的方式，只要是基于图像对商品的属性或者特点进行说明即可。所述图像比如具体可以存储在商品数据库中。另外，所述图像的格式不做特别限定。

可选地，所述描述文本比如可以包括但不限于商品的标题文本、商品的详情文本、商品的评价文本等，只要是基于文本对商品的属性或者特点进行说明即可。比如，还可以是对音视频文件进行识别得到的描述文本。

可选地，所述的方法，还可以包括：

对所述目标图像进行编码处理，以从中提取所述图像特征语义序列；

对所述描述文本进行编码处理，以从中提取所述文本特征语义序列。

此处，上述对所述目标图像进行编码处理、对所述描述文本进行编码处理比如可以在步骤S201之前执行。而上述对所述目标图像进行编码处理、对所述描述文本进行编码处理之间，并无严格时序限制，可以并行执行，也可以先后执行。

可选地，所述的方法，还可以包括：

调用完成训练的图像编码模型，以对所述目标图像进行编码处理；

调用训练完成的文本编码模型，以对所述描述文本进行编码处理。

此处，以基于图像编码模型、文本编码模型为例进行说明，并非唯一性限定。在其他实施例中，可以采用其他手段来实现上述特征提取。另外，图像编码模型、文本编码模型的具体结构，不做唯一性限定，只要可以实现上述编码处理即可。

此处，上述调用完成训练的图像编码模型、调用训练完成的文本编码模型比如可以在步骤S201之前执行。而调用完成训练的图像编码模型、调用训练完成的文本编码模型之间，并无严格时序限制。

可选地，所述对所述目标图像进行编码处理，可以包括：

对所述目标图像进行特征向量提取，得到图像特征向量；

对所述图像特征向量进行特征语义映射，得到所述图像特征语义序列；

比如，所述图像编码模型比如为训练完成的能编码的神经网络模型。比如，所述图像编码模型为卷积神经网络模型（Convolutional Neural Network，简称CNN），所述卷积神经网络模型比如包括卷积层，池化层，全连接层，所述卷积层用于对所述目标图像进行编码得到特征图（feature map）；通过所述池化层对所述特征图进行下采样处理（比如又称之降维处理或者池化处理）得到采样特征图，进一步通过全连接层进行分类处理，从而得到目标图像的图像特征向量（比如又称之为图像embedding）。

可选地，所述对所述图像特征向量进行特征语义映射，得到所述图像特征语义序列，可以包括：

对所述图像特征向量进行线性变化，得到所述图像语义权重向量；

根据所述图像语义权重向量，生成对应的所述图像语义特征语义序列。

可选地，所述对所述图像特征向量进行线性变化，得到所述图像语义权重向量，包括：基于设定的图像语义权重矩阵，与所述图像特征向量进行点积运算，得到所述图像语义权重向量，相当于保留了更多地、能反映图像的图像特征。

由于对所述图像特征向量进行线性变化，可以使得图像语义权重向量标识图像特征向量之间的注意力，从而保证了生成图像特征语义序列时，准确地反映出图像特征向量的语义关联关系。

可选地，所述根据所述图像语义权重向量，生成对应的所述图像语义特征语义序列，包括：对所述图像语义权重向量进行非线性变换，生成对应的所述图像特征语义序列。

可选地，所述对所述图像语义权重向量进行非线性变换，生成对应的所述图像特征语义序列，包括：

对所述图像语义权重向量进行归一化处理得到归一化图像语义权重向量；

基于设定的图像权重分布矩阵，与所述归一化图像语义权重向量进行点积运算，生成对应的所述图像特征语义序列。

可选地，所述对所述描述文本进行编码处理，可以包括：

对所述描述文本进行特征向量提取，得到文本特征向量；

对所述文本特征向量进行特征语义映射，得到所述文本特征语义序列。

比如，所述文本编码模型比如为训练完成的能编码的神经网络模型。比如，所述文本编码模型比如具体为卷积循环神经网络（Convolutional Recurrent Neural Network，简称CRNN），其包括：卷积层（convolutional layers）、循环层（recurrent layers）以及转录层（transcript layers），所述卷积层对所述描述文本进行编码得到特征图（featuremap），所述循环层对所述特征图进行预测处理得到融合了语义信息的特征图，所述转录层用于对融合了语义信息的特征图进行转换得到文本特征向量。

可选地，所述对所述文本特征向量进行特征语义映射，得到所述文本特征语义序列，包括：

对所述文本特征向量进行线性变化，得到文本语义权重向量；

根据所述文本语义权重向量，生成对应的所述文本特征语义序列。

可选地，所述对所述文本特征向量进行线性变化，得到文本语义权重向量，包括：基于设定的文本语义权重矩阵，与所述文本特征向量进行点积运算，得到所述文本语义权重向量。

由于对所述文本特征向量进行线性变化，可以使得文本语义权重向量标识文本特征向量的注意力，从而保证了生成文本特征语义序列时，准确地反映出文本特征向量的语义关联关系，相当于保留了更多地、能反映描述文本的文本特征。

由于是基于点积运算，算法简单，可以快速地生成图像特征语义序列以及文本特征语义序列，同时降低数据处理的复杂度。

可选地，所述根据所述文本语义权重向量，生成对应的所述文本特征语义序列，包括：对所述文本语义权重向量进行非线性变换，生成对应的所述文本特征语义序列。

所述对所述文本语义权重向量进行非线性变换，生成对应的所述文本特征语义序列，包括：

对所述文本语义权重向量进行归一化处理得到归一化文本语义权重向量；

基于设定的文本权重分布矩阵，与所述归一化文本语义权重向量进行点积运算，生成对应的所述文本特征语义序列。

通过上述归一化处理，准确区别了不同所述图像特征向量以及文本特征向量的语义关联程度，同时，再通过上述点积运算，快速地得到了对应的图像特征语义序列以及文本特征语义序列，同时保持了所述图像特征向量以及文本特征向量的语义关联程度不变。

除了上述基于点积运算、归一化等处理过程，生成图像特征语义序列、文本特征语义序列外，还可以通过对图像进行分块，针对每个图像块进行编码，得到每个图像块对应的图像特征向量（或者又称之子图像特征向量），对描述文本进行分段，针对每段文本进行编码，得到每段文本对应的文本特征向量（或者又称之为子文本特征向量），再执行下述编码等处理过程，生成整幅图像对应的图像特征语义序列、整个描述文本对应的文本特征语义序列。

可选地，针对分块的情形，生成图像特征语义序列包括：

对各个所述图像特征向量进行编码处理，得到图像特征编码向量。

确定不同所述图像特征向量之间的图像间语义特征向量；

根据所述图像特征编码向量以及图像间语义特征向量生成所述图像特征语义序列。

具体地，确定不同所述图像特征向量之间的图像间语义特征向量，可以包括：根据所述图像特征向量在所述图像上对应的区域的坐标以及所述区域的大小来生成图像间语义特征向量。比如对所述图像特征向量在所述图像上对应的区域的坐标以及所述区域的大小进行周期函数（比如正弦函数/余弦函数）进行投影得到图像间语义特征向量，其中正弦函数进行偶数维度的投影，余弦函数进行奇数维度的投影。

当然，在其他一些示例中，也可以直接对所述图像特征向量在所述图像上对应的区域的坐标以及所述区域的大小进行整型化处理，以整型值表示其图像间语义特征向量。或者，在其他一些示例中，对所述图像特征向量在所述图像上对应的区域的坐标以及所述区域的大小进行二进制编码，得到二进制编码向量，以表示图像间语义特征向量。

可选地，所述根据所述图像特征编码向量以及图像间语义特征向量生成图像特征语义序列，包括：对所述图像特征编码向量以及所述图像间语义特征向量进行加和处理，以生成所述图像特征语义序列。

具体地，对所述图像上每一区域对应的图像编码向量所述图像间语义特征向量进行加和处理后得到图像特征语义向量，将所述的图像特征语义向量拼接到一起形成图像特征语义序列。

可选地，可以参照上述图像间语义特征向量，生成文本间语义特征向量。

可选地，针对描述文本分段的情形，生成文本特征语义序列可以包括：

对各个所述文本特征向量进行编码处理，得到文本特征编码向量。

确定不同所述文本特征向量之间的文本间语义特征向量。

根据所述文本特征编码向量以及所述文本间语义特征向量，生成所述文本特征语义序列。

可选地，根据所述文本特征编码向量以及所述文本间语义特征向量，生成所述文本特征语义序列，包括：对所述文本特征编码向量以及所述文本间语义特征向量进行加和处理，生成所述文本特征语义序列。

可选地，所述图像特征语义序列、所述文本特征语义序列可以存储在所述商品数据库，以在执行步骤S201中从商品数据库中获取即可。

上述是以卷积神经网络模型，卷积循环神经网络为例对如何得到图像特征向量以及文本特征向量进行可选说明，并非限定只能通过卷积神经网络模型，卷积循环神经网络实现。

可选地，所述图像特征向量组成图像特征向量列表，所述文本特征向量组成文本特征向量列表，以便于对所述图像特征向量和所述文本特征向量进行管理。

S202、针对所述多个目标图像中的任一目标图像，计算其对应所述图像特征语义序列分别和所述多个描述文本的文本特征语义序列之间的语义关联度。

可选地，所述针对任一目标图像，计算其对应所述图像特征语义序列和所述多个描述文本的文本特征语义序列之间的语义关联度之前，还包括：对所述图像特征语义序列和所述文本特征语义序列进行对齐处理。该对齐处理比如可以具体可以位于步骤S101之前，或者，在步骤S201和S202之间。

通过上述对齐处理过程，保证了图像特征语义序列和文本特征语义序列在数据维度的一致性，提高语义关联度计算的准确性。

针对描述同一商品的目标图像以及描述文本，从其中提取的图像特征语义序列和文本特征语义序列的关注点理论上都会集中在同一商品上，即体现同一商品的特征，具有较高的关联性，此种关联性，即上述语义关联度。但是，由于图像编码模型和文本编码模型的模型参数不准确，会导致语义关联度存在损失，为此，需要通过基于语义关联度的损失值来实现该模型参数的调整。

可选地，所述针对所述多个目标图像中的任一目标图像，计算其对应所述图像特征语义序列分别和所述多个描述文本的文本特征语义序列之间的语义关联度，包括：针对任一目标图像，其对应所述图像特征语义序列分别和所述多个描述文本的文本特征语义序列进行内积处理，以计算所述语义关联度。其中，比如，内积处理结果的模越大，表征对应的对应目标图像和描述文本描述同一商品的可能性越大。

S203、确定满足预设条件的语义关联度对应的文本特征语义序列，并将该文本特征语义序列对应的描述文本和所述任一目标图像确定为描述相同的商品。

通过上述语义关联度，确定出描述同一商品的描述文本和目标图像，进一步可以对该描述文本和目标图像进行对齐处理。

示例性地，比如所述预设条件为：所述语义关联度大于或者等于设定关联度阈值。

本实施例中，所述设定关联度阈值的大小根据应用场景来确定，比如有较高的精度要求，所述设定关联度阈值可以较大，否则，可以较小。

此处需要说明的是，上述对预设条件的说明仅仅是示例，并非唯一性限定。可以根据应用场景的需求来灵活设定。

示例性地，在对描述文本和目标图像进行对齐处理时，可以建立商品、描述文本、目标图像之间的对应关系，将这种对应关系存储在商品数据库中。

基于上述图2提供的实施例，其可以应用到商品召回场景中，此处，所谓召回具体是指从商品数据库中筛选出部分候选商品作为待推荐的备选商品。而在后续的推荐环节，再从该待推荐的备选商品中确定出实际推荐给用户进行选择的商品（或者称之为推荐商品）。

参见下图3，提供了一种商品处理方法，比如应用到商品召回的场景中，以提高商品召回的效率，以及准确度。

图3为本申请实施例一种商品处理方法的流程图。如图3所示，其包括：

S301、获取目标对象的描述信息，并从中提取所述描述信息对应的特征语义序列。

可选地，所述目标信息包括所述目标对象对应图像、描述文本中至少其一；对应地，所述特征语义序列包括所述目标对象对应图像的图像特征语义序列、所述目标对象对应描述文本的文本特征语义序列中至少其一。

对于目标对象的描述信息为图像的情形，所述目标对象的图像可以是由用户上传的任意图像。

可选地，基于安装在电子设备（比如移动终端）上的应用程序启动摄像头，用户点击交互界面中的拍照按钮，对目标对象拍照，从而生成所述目标对象的图像。或者，启动摄像头，对准所述目标对象，摄像头自动生成所述目标对象的图像，无需用户点击拍照按钮。或者，也可以对目标对象的视频流进行截图操作，从而得到所述目标对象的图像。或者，也可以从电子设备的图像数据库中获取已有的图像。

可选地，所述目标对象比如可以任意形式的物品，本实施例不做限定。

为此，云服务端在执行步骤S301时，可以直接从电子设备端来获取目标对象的图像，以从中提取所述目标对象的图像对应的图像特征语义序列，并缓存在云服务端本地。

可选地，所述可以在云服务端设置训练完成的图像编码模型，以对所述目标对象对应的图像进行编码。

示例性地，所述的方法，可以包括：

对所述目标对象对应的图像进行特征向量提取，得到图像特征向量；

对所述图像特征向量进行特征语义映射，得到所述图像特征语义序列。

针对目标对象的图像进行编码得到对应图像特征语义序列的示例性，类似上述图2中针对商品对应的图像进行编码，详细可参见上述图2实施例。

当然，在其他实施例中，也可以采用其他手段来对所述目标对象的图像进行编码，从而得到对应的图像特征语义序列。

针对目标对象的描述信息为文本的情形，可以参照上述提取图像特征语义序列的过程，得到文本特征语义序列。

S302、获取商品数据库中多个候选商品对应的图文间融合特征，以计算所述特征语义序列与所述图文间融合特征的语义相似度。

示例性地，针对任一候选商品，其图文间融合特征通过对语义关联度满足预设条件情况下对应图像的图像特征语义序列和对应描述文本的文本特征语义序列进行融合得到。

示例性地，在计算所述图像特征语义序列和所述图文间融合特征的语义相似度时，比如可以计算所述图像特征语义序列和所述图文间融合特征的差值，基于差值来确定所述图像特征语义序列和所述图文间融合特征的语义相似度。差值越小，则语义相似度越大，反之，则语义相似度越小。

可替代，比如也可以将所述图像特征语义序列和所述图文间融合特征映射到正交化子空间中，根据在正交化子空间中，所述图像特征语义序列和所述图文间融合特征之间距离的远近，从而来确定所述图像特征语义序列和所述图文间融合特征的语义相似度。距离越近，则语义相似度越大，反之，则语义相似度越小。

本实施例中，由于图文间融合特征既包括了候选商品的图像特征，又包括了候选商品的文本特征，从而保证了从图像和文本两个角度，将关注点集中在候选商品上。为此，在基于该图文间融合特征在进行语义相似度计算时，可以使得文本特征对图像特征形成监督，从而提高了语义相似度计算的准确性。

S303、将所述语义相似度大于或者等于设定相似度阈值时对应的候选商品作为待推荐的备选商品。

示例性地，将所述语义相似度大于或者等于设定相似度阈值对应的候选商品，比如可以认为是与目标对象相似的商品，对该商品进行召回，作为待推荐的备选商品。待推荐的备选商品数量可能多个，进一步，可以对该多个推荐的备选对象进行相似度的排序，从中筛选出部分作为推荐商品，展示给用户进行选择。

此处，所述设定相似度阈值定义候选商品和目标对象相似的程度，其大小可以根据应用场景来确定。比如，如果要召回更多的商品，则所述设定相似度阈值可以较小，否则，所述设定相似度阈值可以较小。

以下参见图4，以在一具体应用场景中，对上述图2所示特征提取方法和图3所示商品处理方法进行结合说明。

图4为本申请实施例中特征提取方法和商品处理方法在一具体场景中的说明。该场景的具体执行比如可以由云服务端实施。如图4所示，在针对商品侧的商品（又称之为候选商品），基于训练完成的图像编码模型，对所述候选商品对应的图像进行编码时，该图像编码模型比如具体为图像编码器（Image encoder）。在基于训练完成的文本编码模型，对所述描述文本进行编码时，该文本编码模型比如为文本编码器（Text encoder）。

可选地，对所述候选商品对应的图像、所述描述文本进行编码之前，对候选商品对应的图像以及所述描述文本进行预处理，去除干扰信息，提高图像和文本的质量。针对图像的预处理（又称为Image Pre-processing）比如包括但不限于：对所述样本商品图像的预处理包括但不限于图像矫正、干扰信息去除等。对所述描述文本的预处理（又称为Text Pre-processing）包括但不限于停用词、无效字符、无效标点符号去除。

预处理后的图像以及描述文本再参与对应特征提取过程，从而提高特征提取的效率以及准确性。

在图像和描述文本对齐阶段，基于训练完成的图像编码模型，对所述候选商品对应的图像进行编码得到图像特征语义序列。在基于训练完成的文本编码模型，对所述描述文本进行编码得到文本特征语义序列。进一步，针对多个候选商品对应的任一图像，计算其对应的图像特征语义序列分别和多个文本特征语义序列之间的语义关联度，从而确定出其中所述语义关联度满足预设条件下对应的文本特征语义序列，并将该文本特征语义序列对应的描述文本和所述任一图像确定为描述相同的商品，进一步实现同一商品对应图像和描述文本的对齐，建立起候选商品、图像、描述文本之间的对应关系。

进一步，可以对同一商品对应图像进行编码处理，得到对应的图像特征语义序列，对该同一商品对应的描述文本进行编码处理，得到对应的文本特征语义序列，基于训练完的特征融合模型对该图像特征语义序列和文本特征语义序列进行融合，得到该同一商品对应的图文间融合特征，以备在商品召回环节使用。

在商品召回处理环节，获取用户上传的目标对象的图像（比如又可以称之为query图像），对该图像进行编码得到对应的图像特征语义序列。示例性地，比如可以复用上述对候选商品的图像进行编码所使用的图像编码模型来实现对目标对象的图像进行编码，从而实现模型的复用。当然，在其他实施例中，也可以使用不同的图像编码模型，分别对候选商品的图像进行编码以及对目标对象的图像进行编码。

在得到目标对象的对应的图像特征语义序列之后，与多个候选商品对应的图文间融合特征进行语义相似度计算，将其中所述语义相似度大于或者等于设定相似度阈值对应的候选商品，确定为待推荐的备选商品（即从商品数据库中召回的商品），后续再从召回的商品中筛选出部分商品，将筛选出的商品推送到电子设备上，以让用户进行选择。

如前所述，由于可以基于训练好的特征融合模型实现上述候选商品的图像对应的图像特征语义序列和描述文本对应的文本特征语义序列的融合，因此，如下述图5所示，示例性地，提供了一种特征编码模型的训练方法。

图5A为本申请实施例一种商品编码模型的训练方法的流程示意图。图5B为本申请实施例一种商品编码模型的训练原理示意图。如图5A、5B所示，其包括：

S501、获取关联于第一商品的第一图像样本以及第一描述文本样本；

S502、基于第一训练针对的图像编码模型对所述第一图像样本进行编码处理，得到第一图像特征语义序列，以及基于第一训练针对的文本编码模型对所述第一描述文本样本进行编码处理，得到第一文本特征语义序列；

S503、响应于所述第一图像特征语义序列和所述第一文本特征语义序列之间语义关联度的损失值不满足第一训练结束条件，调整所述图像编码模型和/或所述文本编码模型的模型参数。

可选地，在一场景中，除了包括上述第一训练过程，还可以包括下述第二训练过程，为此，所述的方法，还可以包括：

获取关联于第二商品的第二图像样本，以将完成所述第一训练的图像编码模型作为第二训练针对的图像编码模型，对所述第二图像样本进行编码处理，得到第二图像特征语义序列；

响应于所述第二图像特征语义序列的损失值不满足第二训练结束条件，对完成所述第一训练的图像编码模型的模型参数进行调整。

可选地，在一场景中，除了包括上述第一训练过程、第二训练过程外，还可以包括第三训练过程，为此，所述的方法，还包括：

获取关联于第三商品的第三图像样本以及第三描述文本样本；

将完成所述第二训练的图像编码模型作为第三训练针对的图像编码模型，对所述第三样本进行编码，得到第三图像特征语义序列，以及将完成所述第一训练的文本编码模型作为所述第三训练针对的文本编码模型，对所述第三描述文本样本进行编码，得到第三文本特征语义序列；

对所述第三图像特征语义序列和所述第三文本特征语义序列进行特征融合，得到图文间融合特征；

响应于所述图文间融合特征的损失值不满足第三训练结束条件，调整所述图像编码模型和/或所述文本编码模型的模型参数。

可选地，如果特征融合基于训练好的特征融合模型来融合，则在除了上述第一至第三训练过程，第三训练过程还可以包括对特征融合模型进行训练的过程。为此，所述的方法，还可以包括：

调用待训练的特征融合模型，以对所述第三图像特征语义序列和所述第三文本特征语义序列进行特征融合；

响应于所述图文间融合特征的损失值不满足第三训练结束条件，调整所述特征融合模型的模型参数。

以下对上述第一训练过程、第二训练过程、第三训练过程逐一进行示例性说明。

示例性地，为实现上述第一训练过程，配置了多组第一样本，每组第一样本包括至少一个第一图像样本和至少一个第一描述文本样本，同组所述第一样本中包括的所述第一图像样本和所述第一描述文本样本关联于同一第一商品。

示例性，第一图像样本和第一描述文本样本的具体格式不做限定，每组所述第一样本中第一图像样本和第一描述文本样本不做限定。

示例性地，第一样本组可以按照多元数组或者数据对的形式进行管理，为此，多组第一样本在其他一些又可以称之多对第一样本。

示例性地，所述第一图像样本具体可以包括第一正图像样本，所述第一描述文本样本具体可以包括第一正描述文本样本。可能地，在其他一些示例中，所述第一图像样本具体还可以包括第一负图像样本，所述第一描述文本样本具体可以包括第一负描述文本样本，以与第一正图像样本组成样本对，即每组第一样本包括至少一对第一图像样本对和至少一个第一样本文本对，每个第一图像样本对包括至少一个第一正图像样本以及至少一个第一负图像样本，每个第一样本文本对包括至少一个第一正样本文本以及至少一个第一负样本文本，同组的所述第一正图像样本、第一正描述文本样本关联于同一第一商品（且相似于参考商品），所述第一负图像样本、第一负描述文本样本关联于同一第一商品（且不相似于参考商品），从而可以在训练图像编码模型和文本编码模型，既可以学习到正样本的特征，又可以学习到负样本的特征，便于准确地区别相似的商品以及不相似的商品。

示例性地，所述的方法还可以包括：遍历商品数据库中的商品图像以及商品描述文本，以将遍历到的商品图像作为所述第一图像样本，将遍历到的商品描述文本作为所述第一描述文本样本，且使得同组第一样本包括关联于同一第一商品的至少一个所述第一图像样本和至少一个第一描述文本样本。

为此，由于可以从商品数据库中以遍历的方式得到第一图像样本以及第一描述文本样本，不依赖于用户行为去构建样本，可以避免只依赖用户行为构建样本导致的样本采样偏差较大，导致在第一训练过程中，图像编码模型和文本编码模型学习不到足够的特征，以至于在具体应用时，图像编码模型和文本编码模型从目标对象的图像（比如商户上传的商品图像）和待处理文本（比如商户上传的商品描述文本）中提取不到准确的特征，无法准确地反映出所述目标对象的图像和所述描述文本描述或者表征的商品的特征。

具体地，如果所述第一图像样本具体包括第一正图像样本，所述第一描述文本样本具体包括第一正描述文本样本的话，如果依赖于用户行为去选择第一正图像样本，常规只会选择用户购买过的商品的图像作为所述第一正图像样本。而实际上，存在其他商品的图像也能体现用户想购买的商品，但是，这些商品的图像并没有作为第一正图像样本，由此会导致较大的样本采样偏差。而通过本申请提供的上述遍历商品数据库的方式，可以选择尽可能多的商品的图像和文本分别作为第一正图像样本、第一正描述文本样本，从而降低了样本采样偏差，提高了模型训练的可靠性。

示例性地，所述商品数据库在一些应用场景中又可以称之为商品数据底库，存储的是不同商户提供的不同或者相同商品的图像以及描述文本。此处，商户上传的不同或者相同商品的图像本身是图像，或者，用户上传的是不同或者相同商品的视频流，对该视频流进行切分处理得到不同或者相同商品的图像，以作为所述第一图像样本。商户本身上传的不同或者相同商品的描述文本（比如来自商品的标题文本或者商品的详情文本），或者用户上传的是不同或者相同商品的视频流或者音频流，对该视频流或者音频流进行语音识别从而得到商品的描述文本，以作为第一描述文本样本。

示例性，对从商品数据库中获取到的所述第一图像样本和第一描述文本样本，可以进行图像预处理和文本预处理，再进行编码处理。图像预处理包括但不限于图像矫正、干扰信息去除等可提高图像质量的操作。对所述文本预处理包括但不限于停用词、无效字符、无效标点符号去除等可提高描述文本质量的操作。

示例性地，在进行编码处理时，将多组所述第一样本逐一作为输入，所述图像编码模型对所述第一图像样本进行编码处理，得到第一图像特征语义序，文本编码模型对所述第一描述文本样本进行编码处理，得到第一文本特征语义序列。

计算所述第一图像特征语义序列和所述第一文本特征语义序列之间的语义关联度，响应于所述第一图像特征语义序列和所述第一文本特征语义序列之间语义关联度的损失值不满足第一训练结束条件，调整所述图像编码模型和/或所述文本编码模型的模型参数。

对于上述第一正图像样本，所述第一描述文本正样本来说，如果对应的语义关联度的损失值大于或者等于设定的第一关联度损失阈值，则认为不满足第一训练结束条件，需要调整所述图像编码模型和/或所述文本编码模型的模型参，直至对应的语义关联度的损失值小于设定的第一关联度损失阈值。所述第一关联度损失阈值定义了所述第一正图像样本和所述第一描述文本正样本描述同一第一商品，且该第一商品相似于参考商品（比如用户在搜索商品时实际使用过的目标对象）的程度界限。

对于上述第一负图像样本，所述第一描述文本负正样本来说，如果对应的语义关联度的损失值小于设定的第二关联度损失阈值，则认为不满足第一训练结束条件，需要调整所述图像编码模型和/或所述文本编码模型的模型参，直至对应的语义关联度的损失值大于或者等于设定的第一关联度损失阈值。所述第二关联度损失阈值定义了所述第一负图像样本和所述第一描述文本负样本描述同一第一商品，且该第一商品不相似于参考商品（比如用户在搜索商品时实际使用过的目标对象）的程度界限。

上述图像编码模块和文本编码模块比如可以基于卷积神经网络来实现，只要是可以实现上述编码处理即可。

在上述第一训练过程中，图像编码模型将所述第一图像样本映射到一图像特征空间，从而得到第一图像特征语义序列。文本编码参数文本编码模型将所述第一描述文本样本映射到一文本特征空间中，从而得到第一文本特征语义序列。

示例性，所述映射可以为线性映射，或者非线性映射中的至少一种，以通过线性变换、非线性变换中的至少一种实现上述映射。具体选取哪种方式，可以根据应用场景来确定。

在计算语义关联度时，可以将所述第一图像特征语义序列和所述第一文本特征语义序列变换到同一映射空间中，以在同一映射空间下，对所述第一图像特征语义序列和所述第一文本特征语义序列之间进行距离确定，以计算两者之间的语义关联度。

示例性地，对所述图像编码模型和/或文本编码模型进行第一训练，直到描述相同第一商品（且相似于参考商品）的第一图像特征语义序列和所述第一文本特征语义序列的语义关联度达到了能表征该相同于第一商品且相似于参考商品的程度，而描述相同第一商品（但不相似于参考商品）的第一图像样本特征语义序列和所述第一样本文本特征语义序列的语义关联度达到了能表征该相同于第一商品但不相似于参考商品的程度。

示例性地，所述第一训练可以作为针对所述图像编码模型和文本编码模型的预训练（比如称之为pretrain），相对第一训练来说，第二训练和第三训练可以称之为对图像编码模型和文本编码模型的微调（finetune），从而使得在此基础上，避免了基于初始化的随机参数进行后续第二训练、第三训练，降低了第二训练和第三训练的成本，提高了第二训练和第三训练的训练速度，能使得所述图像编码模型和文本编码模型，在后续编码处理时，能快速且准确地从待处理商品（比如商家上传的商品图像）的图像和描述文本上分别提取到对应的图像特征语义序列和文本特征语义序列。

示例性地，为实现上述第二训练过程，可以配置多组第二样本，每组所述第二样本包括至少一个第二正图像样本和第二负图像样本，同组所述第二样本中包括的所述第二正图像样本和所述第二负图像样本关联于不相似的第二商品，所述第二正图像样本关联于相似于参考商品的第二商品。

示例性地，比如关联于所述第二正图像样本的第二商品相似于用户搜索商品时实际使用过的目标对象，关联于所述第二负图像样本的第二商品，则不相似于用户搜索商品时实际使用过的目标对象。该目标对象可以作为上述参考商品，该目标对象对应的图像比如称之为query图像。

第二训练过程中，对完成第一训练的图像编码模型进行训练时，对第二图像样本进行编码处理的过程类似上述第一训练的过程。

可选地，在所述第二训练过程中，如果引入了query图像，则可以基于图像编码模型对该query图像进行编码处理，得到对应的图像特征语义序列，则在确定是否需要结束第二训练过程时，增加如下第二训练结束条件：

计算query图像和第二正图像样本对应的图像特征语义序列之间的相似度（比如称之为第一相似度），以及计算query图像和第二负图像样本对应的图像特征语义序列之间的相似度（比如称之为第二相似度）；

若第一相似度小于设定的第一相似度阈值，则调整所述图像编码模型的模型参数；若第二相似度大于设定的第二相似度阈值，则调整所述图像编码模型的模型参数，直至第二相似度大于或者等于设定的第一相似度阈值，且第二相似度小于或者等于设定的第二相似度阈值，实现相似的商品会判定为相似，不相似的商品会判定为不相似。

针对第三训练过程，构建多组第三样本，每组第三样本包括第三图像样本对、第三描述文本样本对，每一所述第三图像样本对包括至少一个第三正图像样本以及至少一个第三负图像样本，每一所述第三描述文本样本对包括至少一个第三正描述文本样本以及至少一个第三负描述文本样本，同组所述第三样本中包括的所述第三正图像样本、第三正描述文本样本关联于同一第三商品（且相似于参考商品），所述第三负描述文本样本、第三负图像样本关联于同一第三商品（且不相似于参考商品）。

在第三训练过程中，针对完成第一训练的文本编码模型，以及完成第二训练的图像编码模型进行训练的部分，文本编码模型对第三描述文本样本进行编码的处理过程，以及图像编码模型对第三图像样本的编码过程类似上述第一训练过程。而与上述第一训练过程、第二训练过程不同的是，在第三训练过程中，会涉及到图像特征语义序列和文本特征语义序列的融合，得到对应的图文间融合特征，会基于图文间融合特征的损失值来调整图像编码模型和文本编码模型的模型参数。

示例性地，在对第三样本进行编码时，对于图像编码模型，分别对第三正图像样本、第三负图像样本进行编码处理，得到第三正图像样本的图像特征语义序列，以及第三负图像样本的图像特征语义序列。对于文本编码模型，分别对第三正文本样本、第三负文本样本进行编码处理，得到第三正文本样本的文本特征语义序列，以及第三负文本样本的文本特征语义序列。

示例性地，在进行特征融合时，对第三正图像样本的图像特征语义序列、第三正文本样本的文本特征语义序列进行特征融合（比如通过拼接），得到第一图文间融合特征；对第三负图像样本的图像特征语义序列、第三负文本样本的文本特征语义序列进行特征融合（比如通过拼接），得到第二图文间融合特征。

在一种示例中，由于第一图文融合特征是针对正样本的情形，因此，若第一图文间融合特征的损失值大于或者等于设定的第一损失值阈值，则对图像编码模型和/或文本编码模型的参数进行调整；由于第二图文间融合特征是针对负样本的情形，若第二图文间融合特征的损失值小于设定的第二损失值，则对图像编码模型和/或文本编码模型的参数进行调整，直至同时满足第一图文间融合特征的损失值小于设定的第一损失值，且第一图文间融合特征的损失值大于或者等于设定的第二损失值。第一损失值阈值定义第一图文间融合特征达到了联合表征相似于参考商品同时表征同一第三商品程度界限。第二损失值阈值定义第一图文间融合特征达到了联合表征不相似于参考商品同时表征同一第三商品程度界限。第一损失值阈值和第二损失值阈值的具体大小根据应用场景来确定。

在另外一种示例中，上述为了区分正样本、负样本情形下，对图文间融合特征区分为第一图文间融合特征、第二图文间融合特征，但是，就特征融合处理的过程和损失值计算方式来看，并无差别，因此，可以将第一图文间融合特征和第二图文间融合特征统称为图文间融合特征，第一图文间融合特征和第二图文间融合特征对应的损失值也可以统称为图文间融合特征的损失值。

比如，针对任一第三图像样本和第三描述文本样本，同时第三样本中还包括上述图像，则在计算其对应的图文间融合特征的损失值可以为正向损失值，也可以为反向损失值。正向损失值比如计算该图文间融合特征相对于所有第三图像样本和第三描述文本样本对应图文间特征融合集合中的损失值，而所谓反向损失值，比如计算该图文间融合特征相对于所有query图像对应图像特征语义序列集合的损失值。

类似地，针对任一第三图像样本对应的图像特征语义序列，也可以统计其正向损失值和反向损失值。正向损失值比如计算该图像特征语义序列相对于所有第三图像样本对应图像特征语义序列集合中的损失值，反向损失值比如计算该图像特征语义序列对于所有query图像对应图像特征语义序列集合的损失值。

类似地，针对任一第三描述文本样本对应的文本特征语义序列，也可以统计其正向损失值和反向损失值。正向损失值比如计算该文本特征语义序列相对于所有第三描述文本样本集合中的损失值，反向损失值比如计算该文本特征语义序列对于所有query图像对应图像特征语义序列集合的损失值。

当应用到基于上述query图像，从商品数据库的商品构建上述第三样本时（或者基于商品侧构建第三样本），由于正向损失值的计算均是图文间融合特征、第三图像样本对应的图像特征语义序列、第三描述文本样本都是与商品侧的商品有关，因此，如果仅通过上述正向损失值来训练图像特征编码模型和文本特征编码模型，可以使得图像特征编码模型、文本特征编码学习到更多商品侧商品信息，而对query图像这一侧的学习能力有所欠缺，为此，可以增加上述反向损失值，从而使得图像特征编码模型、文本特征编码学习到更多query图像的商品信息，从而提高了模型训练的有效性，以及针对商品侧商品的图像，以及query图像侧目标对象的图像进行准确的特征编码处理。

可替代地，除了上述直接拼接的方式实现特征融合外，还可以通过设定的特征融合模型来实现上述特征融合，该设定的特征融合模型，比如可以为完成训练的特征融合模型，或者，还可以是待训练的特征融合模型。

上述特征融合模型比如可以包括模态嵌入子网络、向量融合层、情感推理子网络、前馈网络，其中，所述模态嵌入子网络包括视觉嵌入式子网络以及文本嵌入式子网络，视觉嵌入式子网络将图像特征语义序列作为处理对象从中提取特征，分别得到图像特征语义向量。文本嵌入式子网络将所述文本特征语义序列作为处理对象从中提取特征，得到文本特征语义向量。在向量融合层配置笛卡尔积向量场，将所述图像特征语义向量和所述文本特征语义向量映射到同一特征子空间。情感推理子网络基于设定的情感推理权重，在所述笛卡尔积向量场中，对所述图像特征语义向量和所述文本特征语义向量进行向量积处理，进一步再基于前馈网络对向量积处理的结果进行非线性变换，从得到成图文间融合特征。

上述特征融合模型的结构仅仅是示例，并非唯一性限定。在其他场景中，可以选用场景中，可以选用其他的结构。

在上述训练过程中，针对第一训练至第三训练涉及到的图像样本和/或描述文本样本，可以基于商品的交易记录数据来构建。

具体地，可以从所述商品交易记录数据中筛选出检索商品实际使用过的目标对象的图像（即上述query图像），再将该query图像对应发生交易的商品对应的图像作为正图像样本，以及该发生交易的商品对应的描述文本，作为正描述文本样本。确定所述发生交易的商品的叶子类目，以及所述叶子类目下的子商品；将所述子商品的图像作为所述负图像样本，以及对应的描述文本作为负描述文本样本。

可选地，还可以基于正样本，也可以针对正图像样本、正描述文本样本、负图像样本、负描述文本样本进行扩容，从而增加样本的复杂性，使得图像编码模型和文本编码模型学习到更多样本的特征，从而提高后续应用（比如上述商品召回）时的效率，以及保证后续应用的效果。

示例性地，比如以在对任一组第二样本进行扩容处理，包括：将不同组第二样本中的第二正图像样本互为其他组第二样本中的第二负图像样本，以实现对所述第二负图像样本的扩容。

示例性地，所述的方法，还可以包括：将所述多组第二样本存储在预定空间中，以在对任一组第二样本进行扩容处理时，将不同预定空间中的多组第二样本中的第二负图像样本互为其他多组第二样本中的第二负图像样本。

至此，上述图像编码模型和文本编码模型在第一训练至第三训练过程中实现了复用，从而提高了模型的学习能力。进一步，在完成上述第一训练至第三训练的图像编码模型和文本编码模型可以应用到上述图2所示的实施例，也可以应用到上述图3所示的实施例，实现了在不同应用环节，图像编码模型和文本编码模型的复用。

至此，上述实施例中，以应用到商品场景为例进行说明。但是，在上述实施例方案的基础上，也可以推广到其他场景中。为此，如下述图6，提供了一种通用的数据处理方法。

图6为本申请实施例一种数据处理方法的流程示意图。如图6所示，其包括：

S601、获取目标的多个第一描述数据对应的第一描述特征语义序列，以及多个第二描述数据对应的第二特征语义序列；

S602、针对所述多个第一描述数据中的任一第一描述数据，计算其对应所述第一描述特征语义序列分别和所述多个第二描述数据对应的第二特征语义序列之间的语义关联度；

S603、确定满足预设条件的所述语义关联度对应的第二特征语义序列，并将该第二特征语义序列对应的第二描述数据和所述任一第一描述数据确定为描述相同的目标。

有关上述步骤S601-S603的示例性说明，可以参见上述图2所示实施例。

所述第一描述数据可以为图像，也可以为文本，对应地，第一描述特征语义序列比如为图像特征语义序列，也可以为文本特征语义序列。所述第二描述数据可以为音频等，对应地，所述第二特征语义序列比如为音频特征语义序列。

需要说明的是，所述第一描述数据、所述第二描述数据仅仅是示例，并非唯一性限定，对每一组所述第一描述数据、所述第二描述数据，可以是表征同一目标对象的任意数据体现形式。

基于上述方法，本申请下述实施例提供对应的装置。

本申请实施例提供的一种商品特征的处理装置，其包括：

数据获取单元，用于获取多个目标图像的图像特征语义序列，以及多个描述文本的文本特征语义序列；

关联度计算单元，用于针对所述多个目标图像中的任一目标图像，计算其对应所述图像特征语义序列分别和所述多个描述文本的文本特征语义序列之间的语义关联度；

数据处理单元，用于确定其中满足预设条件的语义关联度对应的文本特征语义序列，并将该文本特征语义序列对应的描述文本和所述任一目标图像确定为描述相同的商品。

可选地，所述的装置，还包括：

第一编码单元，用于对所述目标图像进行编码处理，以从中提取所述图像特征语义序列；

第二编码单元，用于对所述描述文本进行编码处理，以从中提取所述文本特征语义序列。

可选地，所述第一编码单元具体用于：对所述目标图像进行特征向量提取，得到图像特征向量；对所述图像特征向量进行特征语义映射，得到所述图像特征语义序列；

可选地，所述第一编码单元具体用于：对所述描述文本进行特征向量提取，得到文本特征向量；对所述文本特征向量进行特征语义映射，得到所述文本特征语义序列。

可选地，所述的装置，还可以包括：对齐单元，用于对所述图像特征语义序列和所述文本特征语义序列进行对齐处理。

可选地，所述对齐单元具体用于将所述图像特征语义序列和所述文本特征语义序列映射到同一特征子空间中，以对所述图像特征语义序列和所述文本特征语义序列进行对齐处理。

可选地，所述关联度计算单元具体用于针对任一目标图像，其对应所述图像特征语义序列分别和所述多个描述文本的文本特征语义序列进行内积处理，以计算所述语义关联度。

本申请实施例提供的一种商品召回装置，其包括：

特征获取单元，用于获取目标对象的描述信息，并从中提取所述描述信息对应的特征语义序列；

相似度计算单元，用于获取商品数据库中多个候选商品对应的图文间融合特征，以计算所述特征语义序列与所述图文间融合特征的语义相似度，其中，针对任一候选商品，其图文间融合特征通过对满足预设条件情况对应图像的图像特征语义序列和对应描述文本的文本特征语义序列进行融合得到；

本申请实施例的一种数据处理装置，其包括：

获取单元，用于获取目标的多个第一描述数据对应的第一描述特征语义序列，以及多个第二描述数据对应的第二特征语义序列；

关联性计算单元，用于针对所述多个第一描述数据中的任一第一描述数据，计算其对应所述第一描述特征语义序列分别和所述多个第二描述数据对应的第二特征语义序列之间的语义关联度；

数据处理单元，用于确定满足预设条件的所述语义关联度对应的第二特征语义序列，并将该第二特征语义序列对应的第二描述数据和所述任一第一描述数据确定为描述相同的目标。

参照图7，示出了一种电子设备的结构示意图，本申请具体实施例并不对电子设备的具体实现做限定。

如图7所示，该电子设备可以包括：处理器(processor)702、通信接口(Communications Interface)704、存储器(memory)706、以及通信总线708。

其中：

处理器702、通信接口704、以及存储器706通过通信总线708完成相互间的通信。

通信接口704，用于与其它电子设备或服务器进行通信。

处理器702，用于执行程序710，具体可以执行上述商品特征的处理装置实施例中的相关步骤。

具体地，程序710可以包括程序代码，该程序代码包括计算机操作指令。

处理器702可能是CPU，或者是特定集成电路ASIC（Application SpecificIntegrated Circuit），或者是被配置成实施本申请实施例的一个或多个集成电路。智能设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器706，用于存放程序710。存储器706可能包含高速RAM存储器，也可能还包括非易失性存储器（non-volatile memory），例如至少一个磁盘存储器。

程序710具体可以用于使得处理器702执行前述多个装置实施例中任一实施例所描述的装置对应的操作。

程序710中各步骤的具体实现可以参见上述装置实施例中的相应步骤和单元中对应的描述，并具有相应的有益效果，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述装置实施例中的对应过程描述，在此不再赘述。

本申请实施例还示出了一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述多个装置实施例中的任一装置对应的操作。

本申请实施例还示出了一种计算机程序产品，包括计算机指令，该计算机指令指示计算设备执行上述多个装置实施例中的任一装置对应的操作。

需要指出，根据实施的需要，可将本申请实施例中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本申请实施例的目的。

上述根据本申请实施例的装置可在硬件、固件中实现，或者被实现为可存储在记录介质（诸如CD ROM、RAM、软盘、硬盘或磁光盘）中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的装置可被存储在使用通用计算机、专用处理器或者可编程或专用硬件（诸如ASIC或FPGA）的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件（例如，RAM、ROM、闪存等），当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的装置。此外，当通用计算机访问用于实现在此示出的装置的代码时，代码的执行将通用计算机转换为用于执行在此示出的装置的专用计算机。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及装置步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同装置来实现所描述的功能，但是这种实现不应认为超出本申请实施例的范围。

以上实施方式仅用于说明本申请实施例，而并非对本申请实施例的限制，有关技术领域的普通技术人员，在不脱离本申请实施例的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本申请实施例的范畴，本申请实施例的专利保护范围应由权利要求限定。

Claims

1.一种商品编码模型的训练方法，其特征在于，包括：

响应于所述第一图像特征语义序列和所述第一文本特征语义序列之间语义关联度的损失值不满足第一训练结束条件，调整所述图像编码模型和/或所述文本编码模型的模型参数；

获取关联于第三商品的第三图像样本以及第三描述文本样本，所述第三图像样本包括第三正图像样本和第三负图像样本，所述第三描述文本样本包括第三正文本样本和第三负文本样本；

基于完成所述第二训练的图像编码模型对所述第三样本进行编码，得到第三图像特征语义序列，以及基于完成所述第一训练的文本编码模型对所述第三描述文本样本进行编码，得到第三文本特征语义序列，所述第三图像特征语义序列包括所述第三正图像样本和所述第三负图像样本的图像特征语义序列，所述第三文本特征语义序列包括所述第三正文本样本和所述第三负文本样本的文本特征语义序列；

对所述第三图像特征语义序列和所述第三文本特征语义序列进行特征融合，得到图文间融合特征，所述图文间融合特征包括所述第三正图像样本的图像特征语义序列以及所述第三正文本样本的文本特征语义序列的第一图文间融合特征、以及所述第三负图像样本的图像特征语义序列以及所述第三负文本样本的文本特征语义序列的第二图文间融合特征；

响应于所述图文间融合特征的损失值不满足第三训练结束条件，调整所述图像编码模型和/或所述文本编码模型的模型参数，其中，若所述第一图文间融合特征的损失值大于或者等于设定的第一损失值阈值，则对所述图像编码模型和/或所述文本编码模型的参数进行调整，若所述第二图文间融合特征的损失值小于设定的第二损失值，则对图像编码模型和/或文本编码模型的参数进行调整，直至同时满足所述第一图文间融合特征的损失值小于设定的第一损失值，所述第一损失值阈值定义所述第一图文间融合特征达到了联合表征相似于参考商品同时表征同一第三商品程度界限，所述第二损失值阈值定义所述第一图文间融合特征达到了联合表征不相似于参考商品同时表征同一第三商品程度界限。

2.根据权利要求1所述的方法，其特征在于，所述的方法，还包括：

获取关联于第二商品的第二图像样本，以基于完成所述第一训练的图像编码模型对所述第二图像样本进行编码处理，得到第二图像特征语义序列；

3.一种商品特征的处理方法，其特征在于，包括：

调用完成训练的图像编码模型，对多个目标图像进行编码处理，提取所述多个目标图像的图像特征语义序列；

调用训练完成的文本编码模型，对多个描述文本进行编码处理，提取所述多个描述文本的文本特征语义序列，其中，所述图像编码模型和/或所述文本编码模型的训练样本包括关联于相同商品的图像样本的图像特征语义序列和描述文本样本的文本特征语义序列，在图像特征语义序列与文本特征语义序列之间语义关联度的损失值不满足训练结束条件时，所述图像编码模型和/或所述文本编码模型的模型参数根据权利要求1或2的训练方法进行调整；

4.根据权利要求3所述的方法，其特征在于，所述对所述目标图像进行编码处理，包括：

对所述目标图像进行特征向量提取，得到图像特征向量；

所述对所述描述文本进行编码处理，包括：

对所述描述文本进行特征向量提取，得到文本特征向量；

5.根据权利要求3所述的方法，其特征在于，所述针对任一目标图像，计算其对应所述图像特征语义序列和所述多个描述文本的文本特征语义序列之间的语义关联度之前，还包括：

对所述图像特征语义序列和所述文本特征语义序列进行对齐处理。

6.根据权利要求5所述的方法，其特征在于，所述对所述图像特征语义序列和所述文本特征语义序列进行对齐处理，包括：

将所述图像特征语义序列和所述文本特征语义序列映射到同一特征子空间中，以对所述图像特征语义序列和所述文本特征语义序列进行对齐处理。

7.根据权利要求3-6任一项所述的方法，其特征在于，所述针对所述多个目标图像中的任一目标图像，计算其对应所述图像特征语义序列分别和所述多个描述文本的文本特征语义序列之间的语义关联度，包括：

针对任一目标图像，其对应所述图像特征语义序列分别和所述多个描述文本的文本特征语义序列进行内积处理，以计算所述语义关联度。

8.一种商品处理方法，其特征在于，包括：

获取商品数据库中多个候选商品对应的图文间融合特征，以计算所述特征语义序列与所述图文间融合特征的语义相似度，其中，针对任一候选商品，其图文间融合特征通过对语义关联度满足预设条件情况下对应图像通过所述图像编码模型进行编码的图像特征语义序列和对应描述文本通过所述文本编码模型进行编码的文本特征语义序列进行融合得到，所述图像编码模型和/或所述文本编码模型的模型参数根据权利要求1或2的训练方法进行调整；

9.一种数据处理方法，其特征在于，包括：

获取目标的多个第一描述数据对应的第一描述特征语义序列，以及多个第二描述数据对应的第二特征语义序列，所述第一描述特征语义序列为调用完成训练的图像编码模型进行编码处理得到的图像特征语义序列，所述第二特征语义序列为调用训练完成的文本编码模型进行编码处理得到的文本特征语义序列，其中，所述第一描述数据为目标图像，第二描述数据为描述文本，所述图像编码模型和/或所述文本编码模型的训练样本包括关联于相同商品的图像样本的图像特征语义序列和描述文本样本的文本特征语义序列，在图像特征语义序列与文本特征语义序列之间语义关联度的损失值不满足训练结束条件时，所述图像编码模型和/或所述文本编码模型的模型参数根据权利要求1或2的训练方法进行调整；

10.一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-9中任一项所述的方法对应的操作。

11.一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如权利要求1-9中任一所述的方法。