CN113869048A

CN113869048A - 商品对象搜索方法及其装置、设备、介质、产品

Info

Publication number: CN113869048A
Application number: CN202111161905.3A
Authority: CN
Inventors: 李保俊; 刘涛; 黄家冕; 兴百桥; 曾鹏
Original assignee: Guangzhou Huaduo Network Technology Co Ltd
Current assignee: Guangzhou Huaduo Network Technology Co Ltd
Priority date: 2021-09-30
Filing date: 2021-09-30
Publication date: 2021-12-31

Abstract

本申请公开一种商品对象搜索方法及其装置、设备、介质、产品，所述方法包括：获取商品数据库中各商品对象的综合特征向量，所述综合特征向量包括商品对象的图片语义特征和文本语义特征；所述图片语义特征为所述商品对象的商品图片的多个分割图元分别提取图元语义特征后进行特征交互所生成；构造特征索引矩阵，用于存储两两商品对象之间的综合特征向量之间的相似度数据；获取用户行为消息中的已访问商品对象，将其确定为待搜索商品对象；从所述特征索引矩阵中查询出与待搜索商品对象满足相似度匹配条件的多个目标商品对象。本申请通过对商品对象的商品图片和摘要文本进行深度语义层面的特征交互实现相似度计算，使相似商品匹配更准确。

Description

商品对象搜索方法及其装置、设备、介质、产品

技术领域

本申请涉及电商信息技术领域，尤其涉及一种商品对象搜索方法及其相应的装置、计算机设备、计算机可读存储介质，以及计算机程序产品。

背景技术

时下，各大电商平台都会根据用户的浏览记录针对性推荐一些相关商品，以实现商品推广的目的，一方面可以提升用户的购物体验，一方面帮助商品提高销售量。这其中最重要的环节就是站内相似商品搜索。

进行站内搜索，一方面，考虑到商品信息一般都有文本信息(标题文本、详情内容)和图像信息(主图、详情图)两种形式，这两种信息从不同维度描述了商品，现有技术一般都采用其中的单一信息或者两者的综合信息进行搜索匹配，但实践中效果并不明显。

究其原因，现有技术中基于商品图片、文本信息的语义特征信息进行相似图片识别，但由于对其中的语义特征信息的表示学习较为表浅，使得获得的语义表示欠缺综合描述商品对象的特征的能力，因此，相应的改进方案有待探索。

发明内容

本申请的首要目的在于解决上述问题至少之一而提供一种商品对象搜索方法及其相应的装置、计算机设备、计算机可读存储介质、计算机程序产品。

为满足本申请的各个目的，本申请采用如下技术方案：

适应本申请的目的之一而提供的一种商品对象搜索方法，包括如下步骤：

获取商品数据库中各商品对象的综合特征向量，所述综合特征向量包括商品对象的图片语义特征和文本语义特征；所述图片语义特征为所述商品对象的商品图片的多个分割图元分别提取图元语义特征后进行特征交互所生成；

构造特征索引矩阵，用于存储两两商品对象之间的综合特征向量之间的相似度数据；

获取用户行为消息中的已访问商品对象，将其确定为待搜索商品对象；

从所述特征索引矩阵中查询出与待搜索商品对象满足相似度匹配条件的多个目标商品对象。

深化的实施例中，获取商品数据库中各商品对象的综合特征向量，包括如下步骤：

调用预训练的图像特征提取模型提取商品数据库中各个商品对象的商品图片的图片语义特征；

调用预训练的文本特征提取模型提取商品数据库中各个商品对象的摘要文本的文本语义特征；

将每个商品对象的图片语义特征与文本语义特征进行特征拼接，获得其相对应的综合特征向量。

具体化的实施例中，调用预训练的图像特征提取模型提取商品数据库中各个商品对象的商品图片的图片语义特征，包括如下步骤：

将每个商品对象的商品图片切分为多个分割图元；

针对每个分割图元，采用第一图像特征提取模型提取对应的单图特征向量；

将所述单图特征向量展开为以单行向量表示的单图嵌入向量，将所有单图嵌入向量拼接为图片编码向量，其中携带各个分割图元在所述商品图片中的位置信息及区分信息；

采用基于多头注意力机制的第二图像特征提取模型对所述图片编码向量进行特征交互，获得实现了所述单图特征向量的深层语义交互的图片语义特征。

具体化的实施例中，调用预训练的文本特征提取模型提取商品数据库中各个商品对象的摘要文本的文本语义特征，包括如下步骤：

对各个商品对象的摘要文本进行分词；

根据所述分词进行编码，获得相应的文本嵌入向量、位置嵌入向量以及分句嵌入向量；

采用文本特征提取模型根据所述文本嵌入向量、位置嵌入向量、分句嵌入向量进行特征提取，获得相应的文本语义特征。

具体化的实施例中，采用基于多头注意力机制的第二图像特征提取模型对所述图片编码向量进行特征交互，获得实现了深层语义交互的图片语义特征，包括由所述的第二图像特征提取模型中的至少一级编码器执行的如下步骤：

对应当前输入的图片编码向量中的每个行向量构造查询向量、键向量及值向量；

将所有行向量相对应的值向量进行加权求和，各值向量相应的权重为其相对应的键向量与其他行向量相对应的查询向量的点积的归一化分值；

将加权求和结果乘以转换权重矩阵获得其相对应的中间信息矩阵；

经多层感知器对所述中间信息矩阵进行特征提取，获得图片语义特征，作为下一编码器所需的图片编码向量，或在最后一个编码器中直接输出。

较佳的实施例中，所述第二图像特征提取模型为基于Vision Transformer架构的DeiT模型，被相应预先训练至收敛状态。

深化的实施例中，从所述特征索引矩阵中查询出与待搜索商品对象满足相似度匹配条件的多个目标商品对象，包括如下步骤：

从所述特征索引矩阵中查询出与待搜索商品对象存在相似度数据映射关系的所有商品对象；

选取相似度数据最大的预定数量的若干个商品对象作为满足相似度数据匹配条件的目标商品对象；

构造包含所述目标商品对象的搜索结果列表；

推送所述搜索结果列表以响应所述商品对象搜索请求。

适应本申请的目的之一而提供的一种商品对象搜索装置，包括：特征汇总模块、矩阵构造模块、搜索启动模块，以及匹配反馈模块，其中，所述特征汇总模块，用于获取商品数据库中各商品对象的综合特征向量，所述综合特征向量包括商品对象的图片语义特征和文本语义特征；所述图片语义特征为所述商品对象的商品图片的多个分割图元分别提取图元语义特征后进行特征交互所生成；矩阵构造模块，用于构造特征索引矩阵，用于存储两两商品对象之间的综合特征向量之间的相似度数据；搜索启动模块，用于获取用户行为消息中的已访问商品对象，将其确定为待搜索商品对象；匹配反馈模块，用于从所述特征索引矩阵中查询出与待搜索商品对象满足相似度匹配条件的多个目标商品对象。

深化的实施例中，所述特征汇总模块包括：图片提取子模块，用于调用预训练的图像特征提取模型提取商品数据库中各个商品对象的商品图片的图片语义特征；文本提取子模块，用于调用预训练的文本特征提取模型提取商品数据库中各个商品对象的摘要文本的文本语义特征；特征拼接子模块，用于将每个商品对象的图片语义特征与文本语义特征进行特征拼接，获得其相对应的综合特征向量。

具体化的实施例中，所述图片提取子模块包括：图元分割单元，用于将每个商品对象的商品图片切分为多个分割图元；图元提取单元，用于针对每个分割图元，采用第一图像特征提取模型提取对应的单图特征向量；拼接编码单元，用于将所述单图特征向量展开为以单行向量表示的单图嵌入向量，将所有单图嵌入向量拼接为图片编码向量，其中携带各个分割图元在所述商品图片中的位置信息及区分信息；图元交互单元，用于采用基于多头注意力机制的第二图像特征提取模型对所述图片编码向量进行特征交互，获得实现了所述单图特征向量的深层语义交互的图片语义特征。

具体化的实施例中，所述文本提取子模块包括：文本分词单元，用于对各个商品对象的摘要文本进行分词；文本编码单元，用于根据所述分词进行编码，获得相应的文本嵌入向量、位置嵌入向量以及分句嵌入向量；文本提取单元，用于采用文本特征提取模型根据所述文本嵌入向量、位置嵌入向量、分句嵌入向量进行特征提取，获得相应的文本语义特征。

具体化的实施例中，所述图元交互单元中采用的第二图像特征提取模型中的编码器包括：向量映射模块，用于对应当前输入的图片编码向量中的每个行向量构造查询向量、键向量及值向量；交互运算模块，用于将所有行向量相对应的值向量进行加权求和，各值向量相应的权重为其相对应的键向量与其他行向量相对应的查询向量的点积的归一化分值；权重转换模块，用于将加权求和结果乘以转换权重矩阵获得其相对应的中间信息矩阵；感知提取模块，用于经多层感知器对所述中间信息矩阵进行特征提取，获得图片语义特征，作为下一编码器所需的图片编码向量，或在最后一个编码器中直接输出。

深化的实施例中，所述匹配反馈模块包括：特征查询子模块，用于从所述特征索引矩阵中查询出与待搜索商品对象存在相似度数据映射关系的所有商品对象；目标优选子模块，用于选取相似度数据最大的预定数量的若干个商品对象作为满足相似度数据匹配条件的目标商品对象；列表构造子模块，用于构造包含所述目标商品对象的搜索结果列表；结果推送子模块，用于推送所述搜索结果列表以响应所述商品对象搜索请求。

适应本申请的目的之一而提供的一种计算机设备，包括中央处理器和存储器，所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行本申请所述的商品对象搜索方法的步骤。

适应本申请的另一目的而提供的一种计算机可读存储介质，其以计算机可读指令的形式存储有依据所述的商品对象搜索方法所实现的计算机程序，该计算机程序被计算机调用运行时，执行该方法所包括的步骤。

适应本申请的另一目的而提供的一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现本申请任意一种实施例中所述方法的步骤。

相对于现有技术，本申请的优势如下：

本申请在对商品对象的商品图片进行特征层面的深度交互获得图片语义特征之后与商品对象的摘要文本的文本语义特征进行拼接构成综合特征向量，在此基础上计算两两商品对象之间的相似度数据，构造为特征索引矩阵，后续可根据待搜索商品对象从该特征索引矩阵中查询出满足相似度匹配条件的相关目标商品对象。其中，所述图片语义特征为所述商品对象的商品图片的多个分割图元分别提取图元语义特征后进行特征交互所生成，因此，商品图片在语义特征层面进行了充分的交互，使得对该商品图片进行表示学习获得的图片语义特征，及至其与文本语义特征拼接获得的综合特征向量，实现了对商品图片的良好的表示学习，据此而进行相似度计算，能获得更为准确的相似度数据，进一步据此进行商品搜索时，能够提升相似商品对象的匹配准确度。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请的商品对象搜索方法的典型实施例的流程示意图；

图2为本申请实施例中综合特征向量的获取过程的流程示意图；

图3为本申请实施例中图片语义特征的获取过程的流程示意图；

图4为本申请实施例中文本语义特征的获取过程的流程示意图；

图5为本申请实施例中基于多头注意力机制进行编码的过程的流程示意图；

图6为本申请实施例中进行相似商品对象匹配的过程的流程示意图；

图7为本申请的商品对象搜索装置的原理框图；

图8为本申请所采用的一种计算机设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

本技术领域技术人员可以理解，这里所使用的“客户端”、“终端”、“终端设备”既包括无线信号接收器的设备，其仅具备无发射能力的无线信号接收器的设备，又包括接收和发射硬件的设备，其具有能够在双向通信链路上，进行双向通信的接收和发射硬件的设备。这种设备可以包括：蜂窝或其他诸如个人计算机、平板电脑之类的通信设备，其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备；PCS(PersonalCommunications Service，个人通信系统)，其可以组合语音、数据处理、传真和/或数据通信能力；PDA(Personal Digital Assistant，个人数字助理)，其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global PositioningSystem，全球定位系统)接收器；常规膝上型和/或掌上型计算机或其他设备，其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“客户端”、“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的，或者适合于和/或配置为在本地运行，和/或以分布形式，运行在地球和/或空间的任何其他位置运行。这里所使用的“客户端”、“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端，例如可以是PDA、MID(Mobile Internet Device，移动互联网设备)和/或具有音乐/视频播放功能的移动电话，也可以是智能电视、机顶盒等设备。

本申请所称的“服务器”、“客户端”、“服务节点”等名称所指向的硬件，本质上是具备个人计算机等效能力的电子设备，为具有中央处理器(包括运算器和控制器)、存储器、输入设备以及输出设备等冯诺依曼原理所揭示的必要构件的硬件装置，计算机程序存储于其存储器中，中央处理器将存储在外存中的程序调入内存中运行，执行程序中的指令，与输入输出设备交互，借此完成特定的功能。

需要指出的是，本申请所称的“服务器”这一概念，同理也可扩展到适用于服务器机群的情况。依据本领域技术人员所理解的网络部署原理，所述各服务器应是逻辑上的划分，在物理空间上，这些服务器既可以是互相独立但可通过接口调用的，也可以是集成到一台物理计算机或一套计算机机群的。本领域技术人员应当理解这一变通，而不应以此约束本申请的网络部署方式的实施方式。

本申请的一个或数个技术特征，除非明文指定，既可部署于服务器实施而由客户端远程调用获取服务器提供的在线服务接口来实施访问，也可直接部署并运行于客户端来实施访问。

本申请中所引用或可能引用到的神经网络模型，除非明文指定，既可部署于远程服务器且在客户端实施远程调用，也可部署于设备能力胜任的客户端直接调用，某些实施例中，当其运行于客户端时，其相应的智能可通过迁移学习来获得，以便降低对客户端硬件运行资源的要求，避免过度占用客户端硬件运行资源。

本申请所涉及的各种数据，除非明文指定，既可远程存储于服务器，也可存储于本地终端设备，只要其适于被本申请的技术方案所调用即可。

本领域技术人员对此应当知晓：本申请的各种方法，虽然基于相同的概念而进行描述而使其彼此间呈现共通性，但是，除非特别说明，否则这些方法都是可以独立执行的。同理，对于本申请所揭示的各个实施例而言，均基于同一发明构思而提出，因此，对于相同表述的概念，以及尽管概念表述不同但仅是为了方便而适当变换的概念，应被等同理解。

本申请即将揭示的各个实施例，除非明文指出彼此之间的相互排斥关系，否则，各个实施例所涉的相关技术特征可以交叉结合而灵活构造出新的实施例，只要这种结合不背离本申请的创造精神且可满足现有技术中的需求或解决现有技术中的某方面的不足即可。对此变通，本领域技术人员应当知晓。

本申请的一种商品对象搜索方法，可被编程为计算机程序产品，部署于客户端或服务器中运行而实现，例如在本申请的电商平台应用场景中，一般部署在服务器中实施，藉此可以通过访问该计算机程序产品运行后开放的接口，通过图形用户界面与该计算机程序产品的进程进行人机交互而执行该方法。

本申请的一个应用场景，是基于独立站的电商平台中的应用，每个独立站即为电商平台的一个商户实例，拥有独立的访问域名，由其实际拥有者负责进行商品的发布和更新。

独立站的商户实例将每个商品进行上线，电商平台获取与该商品相关的信息之后，构造出相对应的商品对象进行数据存储。商品对象的信息主要包括文本信息和图片信息，其中，文本信息包括但不限于商品对象的用于显要显示的标题信息、用于介绍商品详情的内容信息、用于描述商品特征的属性信息等。

为了实施本申请的技术方案，可以采集商品对象的摘要文本及商品图片，其中，摘要文本主要采用商品对象中的标题信息、内容信息及其一项或多项属性信息构成，可由本领域技术人员灵活确定相应的数据构成；商品图片则可以是包含该商品对象的产品外观的主要图片。一般而言，可以按照预设的数量和内容需求获取摘要文本及商品图片，例如摘要文本可以规定为包含商品对象的标题信息及其所有属性项的属性信息、商品图片可以只选取其用于默认显示的单张图片。当然，本领域技术人员可以在此基础上灵活变通调整处理。

请参阅图1，本申请的商品对象搜索方法在其典型实施例中，包括如下步骤：

步骤S1100、获取商品数据库中各商品对象的综合特征向量，所述综合特征向量包括商品对象的图片语义特征和文本语义特征；所述图片语义特征为所述商品对象的商品图片的多个分割图元分别提取图元语义特征后进行特征交互所生成：

为了使商家实例的商品数据中的商品对象能够实现特征层面的相似度计算，需要针对各个所述的商品对象进行特征层面的预处理，借助人工神经网络来对各个商品对象进行表示学习，获得每个商品对象相对应的综合特征向量，然后在各个商品对象的综合特征向量的基础上，对商品对象间进行相似度计算。

其中，所述综合特征向量，是对所述商品对象的商品信息的表示学习的成果，可以理解，综合特征向量应尽可能丰富地包含和表现出商品对象的商品信息的深层语义特征。对应商品信息中的两类信息，即图片信息和文本信息，本申请中，针对每种商品对象，分别获取其中商品图片和摘要文本，其中，所述商品图片优选采用商品对象的默认主图，所述摘要文本优选采用商品对象的标题文本，或者进一步按需增强个别关键属性数据、标签数据。

综合特征向量是一个经过特征简单拼接(Concatenate)的向量，具体可由所述商品图片和摘要文本相对应的两类特征拼接而成。不难理解，利用所述商品图片进行图像特征提取，可以获得其相应的图片语义特征；利用所述摘要文本进行文本特征提取，可以获得其相应的文本语义特征。然后，将图片语义特征与文本语义特征在特征层面上进行拼接，便可获得所述的综合特征向量。

针对每个商品对象均可获得其相应的综合特征向量，故此，两两商品对象之间便可基于彼此的综合特征向量进行特征相似度计算。

本申请中，所述的图片语义特征与文本语义特征均充分考虑了序列上的上下文信息，实现了深度特征交互。具体而言，所述图片语义特征是相应的商品图片的多个分割图元分别提取图元语义特征之后，参考这些图元之间的位置信息和区分信息将所有分割图元进行特征层面的深度语义交互而生成的，因此，最终获得的图片语义特征能够更为综合地体现整张商品图片的深层语义，不易忽略商品图片中的细部信息；所述文本语义特征则是相应的摘要文本按照其分词之间相对位置关系及分句信息所体现的序列，充分参考上下文信息，进行特征层面的深度语义交互而生成的，因此，最终获得的文本语义特征也能更为有效地体现整份摘要文本的深层语义。较佳的，图片语义特征与文本语义特征最终可以由本领域技术人员统一到相同尺度上进行拼接。

变通的一个实施例中，可采用由多个编码器构成的Transformer模型的编码架构作为优选模型，预先将其训练至收敛状态投入使用，用于对所述商品图片的多个分割图元进行特征层面的深层语义交互，从而获得所述的图片语义特征。此类模型可以是基于ViT(Vision Transformer)应用DeiT思想改造而成的模型。其中，ViT本身可采用自监督学习训练方式进行训练，在训练时构造学生网络和教师网络，两个网络中ViT架构完全一致，通过教师网络的输出指导学生网络的学习，教师网络的权重通过学生网络权重的滑动平均获得更新，这便是对DeiT结构的应用，成为DeiT模型，将知识蒸馏思想引入对ViT的训练，这种训练策略使用卷积网络作为教师网络进行蒸馏，能够比使用Transformer架构的网络作为教师网络取得更好的效果。

另一实施例中，采用经预训练的Bert模型对所述的摘要文本进行文本语义特征的提取，获得相应的文本语义特征。可以理解，由于Bert模型也是基于Transformer架构开发的，因此，同样基于Transformer编码器原理可以实现对摘要文本的语义特征的深度交互。

由此，可以理解，对于一个商品对象而言，无论其商品图片还是其摘要文本，均在提取语义特征的过程中，对其内部各个单元之间的特征参考上下文进行了充分的语义交互，由此获得的图片语义特征和文本语义特征，经拼接获得综合特征向量，这一综合特征向量便能够更为全面地表示商品对象的商品信息的深层语义。

步骤S1200、构造特征索引矩阵，用于存储两两商品对象之间的综合特征向量之间的相似度数据：

为了方便计算两两商品对象之间的相似度数据，一种推荐的方式是采用Faiss架构来构造一个特征索引矩阵，在此过程中利用综合特征向量进行相似度计算，生成两两商品对象之间的相似度数据，存储于该特征索引矩阵中，以便后续调用。

另一变通的实施例中，可以自行构造所述的特征索引矩阵。具体而言，可以采用欧式距离算法、杰卡德距离算法、余弦相似度算法等任意公知的距离相似度算法，基于所述综合特征向量来计算两两商品对象之间的相似度。简化的情况下，根据余弦相似度算法的原理，可将各个综合特征向量展开为单行向量，然后利用两两商品对象的单行向量进行向量相乘，来获得对应的相似度。而所述特征索引矩阵被构造为一个方阵，其中的行坐标和列坐标均按照统一顺序对应所述的各个商品对象，然后，对于两两商品对象而言，在行坐标所指向的商品对象和列坐标所指向的商品对象所共同指向的元素中存储他们的相似度数据。当所有商品对象的相似度数据均被存储至所述特征索引矩阵中，便完成了该特征索引矩阵的构造，可被用于进行相似度查询。

步骤S1300、获取用户行为消息中的已访问商品对象，将其确定为待搜索商品对象：

结合本申请的示例性应用场景，当商家实例的站点上的消费者用户正在浏览其网站中的商品对象时，通过在用户的终端设备中的该站点的网页或者访问该站点的应用程序中预置埋点代码，或者在后台服务器分析用户所访问的网页，可以获得该用户的用户行为消息而获知用户的行为事件，当通过该行为事件获知用户已访问的商品对象时，后台服务器可以据此查询所述的特征索引矩阵，为该商品对象查询其相对应的相似商品对象。

触发后台服务器查询所述特征索引矩阵的逻辑，也可以是在用户点击独立站的网页的特定入口时启动，例如，当用户进入独立站的“猜您喜欢”的页面时，才触发根据该用户刚刚完成访问的一个商品对象来进行相似商品匹配。

具体实施时，当用户访问一个商品对象，通过其终端设备或后台服务器可以构造一个用户行为消息，该用户行为消息封装该用户点击一个商品对象的事件，也可以是封装其他行为事件，例如下单事件、添加到购物车的事件、支付订单的事件等，由此，使后台服务器可以根据该用户行为消息获知该用户已访问的商品对象。然后，将其确定为待搜索商品对象，以便启动对其相似商品对象的查询。

步骤S1400、从所述特征索引矩阵中查询出与待搜索商品对象满足相似度匹配条件的多个目标商品对象：

如前所述，特征索引矩阵中存在两两商品对象之间的相似度数据，并且其行坐标和列坐标均对应到相同的商品对象，呈方阵结构，由此可以理解，其中的每个行向量(或列向量)，包括多个元素，每个元素存储的便是该行向量所对应的商品对象映射到各个列坐标所指向的商品对象的相似度数据，也就是说，只需获取所述待搜索商品对象相对应的行向量(或列向量)，即可获取与之该待搜索商品对象存在相似度数据表征的所有商品对象。

由于行向量(或列向量)中的商品对象的相似度数据各不相同，为了方便筛选，可以对该行向量(或列向量)的各个元素，根据相似度数据的大小进行倒排序，使各相似对应之间的排序呈现规律性。

然后，根据预设的相似度匹配条件，从排好序的行向量(或列向量)中选取出排序靠前的若干个商品对象，作为与待搜索商品对象满足相似度匹配条件的多个目标商品对象，即可将这些目标商品对象推送给终端设备的用户。

其中，所述的相似度匹配条件，可以依据本申请揭示的原理，由本领域技术人员灵活确定。例如，可以采用Top_K算法，其中K即指示了选取相似度最大的K个元素作为目标商品对象的指针，K的具体数值可由本领域技术人员自行确定。又如，可以按照比例原则，选取行向量(或列向量)中排序前10％的元素作为目标商品对象的指针。可见，无论如何，最终均可获得所述的目标商品对象。

将所述目标商品对象推送给用户之后，用户即可在其网页或应用程序的图形用户界面中，看到与其刚刚访问的商品对象相似的其他商品对象，由于针对的商品对象是其刚刚访问的，并且后台的相似度计算原理是依据两两商品对象之间的商品图片、摘要文本的深层语义交互所得的综合特征向量来确定的，因此，可以迅速为用户提供其当时所需的相似商品，可以提升用户对相似商品对象的点击率和购买率。

通过本典型实施例的说明，可以看出，本申请在对商品对象的商品图片进行特征层面的深度交互获得图片语义特征之后与商品对象的摘要文本的文本语义特征进行拼接构成综合特征向量，在此基础上计算两两商品对象之间的相似度数据，构造为特征索引矩阵，后续可根据待搜索商品对象从该特征索引矩阵中查询出满足相似度匹配条件的相关目标商品对象。其中，所述图片语义特征为所述商品对象的商品图片的多个分割图元分别提取图元语义特征后进行特征交互所生成，因此，商品图片在语义特征层面进行了充分的交互，使得对该商品图片进行表示学习获得的图片语义特征，及至其与文本语义特征拼接获得的综合特征向量，实现了对商品图片的良好的表示学习，据此而进行相似度计算，能获得更为准确的相似度数据，进一步据此进行商品搜索时，能够提升相似商品对象的匹配准确度。

请参阅图2，深化的实施例中，所述步骤S1100、获取商品数据库中各商品对象的综合特征向量，包括如下步骤：

步骤S1110、调用预训练的图像特征提取模型提取商品数据库中各个商品对象的商品图片的图片语义特征：

本实施例中，遵循本申请典型实施例的思路，采用基于ViT架构的经预训练的DeiT模型作为图像特征提取模型，用于对商品数据库中的各个商品对象的商品图片进行图片语义特征，当然，所述图片语义特征的生成，依然是根据所述商品图片的多个分割图元来进行深度特征交互而生成的。

所述的商品图片采用商品对象的默认主图，该默认主图即是用于摘要性展示该商品对象的主要图片，通常会被用在商品对象展示列表中，或者，在进入商品对象的详情页后，该默认主图成为在显要位置首先显示的图片。

步骤S1120、调用预训练的文本特征提取模型提取商品数据库中各个商品对象的摘要文本的文本语义特征：

本实施例中，采用经预训练的Bert模型作为所述的文本特征提取模型，以便对各个商品对象的摘要文本提取所述的文本语义特征。所述的摘要文本，在本实施例中，可以只选取商品对象的标题文本。可以理解，由于Bert模型也是基于Transformer的编码架构实现的，因此，同理可实现对所述的标题文件的特征的深层语义交互，充分考虑标题文本的上下文信息，获得所述的文本语义特征。

步骤S1130、将每个商品对象的图片语义特征与文本语义特征进行特征拼接，获得其相对应的综合特征向量：

至此，对于每个商品对象而言，分别获得了其图片语义特征和文本语义特征，将两个特征进行简单拼接即可。当然，两个语义特征均可先统一为相同尺度，然后再将两者拼接为单个综合特征向量，以方便后续计算。此外，也可在后续再行相应的处理。

本实施例中，通过分别对商品图片和摘要文本分别提取语义特征，解耦了两个模态的信息的处理，两者可以分别建模，提升了本申请的技术方案在编程开发阶段进行实现的灵活度。

请参阅图3，具体化的实施例中，所述步骤S1110、调用预训练的图像特征提取模型提取商品数据库中各个商品对象的商品图片的图片语义特征，包括如下步骤：

步骤S1111、将每个商品对象的商品图片切分为多个分割图元：

为了实现对商品图片内部的语义特征的综合，可事先对所述的商品图片进行预处理。通常，商品图片在上传至电商平台中时，便已经进行了相应的预处理，包括缩放尺寸和图像标准化等，如未经处理，适应本申请之需要，也可进行相应的图像预处理，对此，本领域技术人员可按需灵活实现。

在标准化的商品图片的基础上，进一步将其分割为多个分割图元，这些分割图元例如可以是16*16像素大小，以便将这些分割图元按序、按行处理为序列信息，后续除获得其图像信息(Token Embedding)外，还方便获得其相对应的位置信息(PositionEmbedding)和区分信息(Class Embedding)。

步骤S1112、针对每个分割图元，采用第一图像特征提取模型提取对应的单图特征向量：

针对每个所述的分割图元，可应用第一图像特征提取模型对其进行初步的特征提取。

本实施例中，第一图像特征提取模型采用基于Resnet网络架构的图像特征提取器对所述各个分割图元进行特征提取，可以采用Resnet50、Resnet101、IResNet等、ResNeXt101等等基于残差卷积神经网络的网络架构，或者EfficientNet等，实践中这些架构的应用能取得较佳的效果。当然，其他效果优秀的网络架构所实现的第一图像特征提取模型也可在本实施例中等同替换使用。

所述第一图像特征提取模型针对每个所述的分割图元分别进行特征提取，故针对每个分割图元能获得一个单图特征向量，针对所述商品图片便能获得多个所述的单图特征向量。

在第一图像特征提取模型从分割图元中提取图像特征的过程中，分割图元是按照三个通道进行输入的，可以通过一个平均池化层，将其中间过程中生成的三个通道的中间特征向量进行池化以获得所述的单图特征向量。

步骤S1113、将所述单图特征向量展开为以单行向量表示的单图嵌入向量，将所有单图嵌入向量拼接为图片编码向量，其中携带各个分割图元在所述商品图片中的位置信息及区分信息：

本步骤中，将第一图像特征提取模型的输出转换为一个高维单行向量，在高维单行向量中叠加其相应的分割图元在商品图片中相对应的位置信息及其区分信息，最终，将这些单行向量拼接为图片编码向量，该图片编码向量便携带了各个分割图元在所述商品图片中的位置信息及用于区分不同分割图元的区分信息。

具体而言，单图特征向量是一个二维矩阵，为了适应本申请基于多头注意力机制的神经网络模型的需要，需要将其进行降维，具体是将该二维矩阵在一维向量上展开，即将该二维矩阵中的各个行向量顺序拼接，获得一个单行向量，即单图嵌入向量。假设该单图特征向量是N*D的尺度，则其展开后获得的单图嵌入向量便变为1*(N*D)的尺度，这一尺度对应的行向量维度(N*D)是预先与本申请中的文本特征向量进行统一规定的，以便后续两者能够直接拼接。

具体过程中，每个单图特征向量最终均被展开为所述的单行向量，在此基础上，针对同一商品图片，可以通过一个卷积层将其所有的单图嵌入向量拼接为M*(N*D)大小的矩阵，其中，M为分割图元个数，这一矩阵便为所述商品图片的图片编码向量。

需要指出的是，各个分割图元在所述商品图片中是存在相对位置关系的，为了匹配本申请所采用的基于多头注意力机制的神经网络模型，进一步对各个分割图元的位置信息以及用于区分不同图元的区分信息进行编码，然后将这些编码也添加到各个相应的单图嵌入向量中，使所述图片编码向量携带各个图元相应的位置信息和区分信息。

步骤S1114、采用基于多头注意力机制的第二图像特征提取模型对所述图片编码向量进行特征交互，获得实现了所述单图特征向量的深层语义交互的图片语义特征：

如前所述，本申请中，推荐采用基于多头注意力机制的神经网络模型来实现，因此，本实施例借助ViT的具体架构构造第二图像特征提取模型，而ViT的编码过程其实是继承了Transformer固有的架构，因此，本实施例中所用到的编码器，即为Transformer固有架构中的编码器。

Transformer固有架构中，包含多个编码器构成的编码路径，每个编码器均采用相同的结构，包括一个自注意力层和一个多层感知器(MLP)，所述自注意力层应用了多头注意力机制。

据此，每个编码器的自注意力层基于多头注意力机制所固设的算法对其所接收的图片编码向量进行深度的特征交互之后，将特征交互之后获得的结果传递给其多层感知器进行特征提取，再由多层感知器将特征提取结果提供给下一编码器，以此类推，后一编码器的自注意力层以前一编码器的多层感知器的输出为输入，按照相同的逻辑进行处理，每个编码器中都通过多层感知器对自注意力层的输出结果进行高层语义提取并输出，直至最后一个编码器获得的输出可作为图片语义特征。

本实施例通过对商品图片进行预处理，将其分割为多个分割图元，对各个分割图元分别提取图像特征并转换为以单行向量表示单图嵌入向量，在单图嵌入向量中融合各分割图元相应的位置信息及区分信息，然后将这些单图嵌入向量转换为图片编码向量，至此，一张商品图片的图像特征信息，便被转换为了具有序列特征的格式，而基于多头注意力机制的神经网络模型正是处理序列信息的优秀模型，由此，将以往依赖于卷积神经网络处理的问题转换为适于RNN处理的问题，不仅可使多头注意力机制的优势可以在图像识别中得以体现，而且，也更方便实现图像特征信息内部的深度交互。

请参阅图4，具体化的实施例中，所述步骤S1120、调用预训练的文本特征提取模型提取商品数据库中各个商品对象的摘要文本的文本语义特征，包括如下步骤：

步骤S1121、对各个商品对象的摘要文本进行分词：

对所述商品对象的摘要文本进行特征提取，可以先行对所述的摘要文本进行分词，分词可采用各种成熟的预训练模型，包括但不限于N-gram、WordPrice、Word2Vec等等。

步骤S1122、根据所述分词进行编码，获得相应的文本嵌入向量、位置嵌入向量以及分句嵌入向量：

在实现分词的基础上，可以利用预设词典结合独热编码对分词结果进行向量化。根据预设的词典将各个分词转换为相应的文本嵌入向量(Token Embedding)，同理也分词所在的位置编码获得位置嵌入向量(Position Embedding)，以及编码出区分不同分句的分句嵌入向量(Segment Embedding)，然后将这些向量加和融合后传递给文本特征提取模型进行深层语义信息提取，以便获得相应的文本语义特征。

步骤S1123、采用文本特征提取模型根据所述文本嵌入向量、位置嵌入向量、分句嵌入向量进行特征提取，获得相应的文本语义特征：

本实施例中，推荐采用预训练的Bert模型来作为文本特征提取模型，适应Bert模型的特征，以编码出的三个向量为输入，即所述用于表示其各个分词的文本嵌入向量(Token Embedding)、用于表示各个分词的位置信息的位置嵌入向量(PositionEmbedding)、用于表示句子间区分信息的分句嵌入向量(Segment Embedding)，对此，本领域技术人员可以灵活实施。

需要注意的是，Bert模型输出的文本语义特征也为一个二维矩阵，被统一为与前一实施例的M*(N*D)相同的尺度，以便实现与所述图片语义特征的拼接。

本实施例中，进一步揭示了针对所述商品对象的摘要文本的编码过程，推荐使用Bert模型来实现文本语义特征提取，充分利用现有技术中的优秀成果，使编码效率更高，所获得的文本语义特征对摘要文本的深层语义的理解更到位。

请参阅图5，具体化的实施例中，所述步骤S1114、采用基于多头注意力机制的第二图像特征提取模型对所述图片编码向量进行特征交互，获得实现了深层语义交互的图片语义特征，包括由所述的第二图像特征提取模型中的至少一级编码器执行的如下步骤：

步骤S2100、对应当前输入的图片编码向量中的每个行向量构造查询向量、键向量及值向量：

仍以Transformer固有架构示例，所述的每个编码器中的自注意力层，当其接收到一个图片编码向量的输入后，例如第一个编码器以所述图片编码向量为其输入，而后续的图片编码向量则以前一级的编码器的多层感知器的输出为输入，获取被输入的图片编码向量，根据固有的架构原理，便可为其中的每个行向量构造相应的查询向量(Q)、键向量(K)、值向量(V)，构造Q、K、V向量是多头注意力机制的基本原理，是实现特征层面深度交互的基础手段。

步骤S2200、将所有行向量相对应的值向量进行加权求和，各值向量相应的权重为其相对应的键向量与其他行向量相对应的查询向量的点积的归一化分值：

根据自注意力机制固有的算法，对于每个行向量，先计算其键向量与其他行向量相对应的查询向量的点积，然后将点积结果采用Softmax函数进行归一化，使多个归一化后的点积的加和总值为1，以归一化后的数值作为各个行向量相对应的权重。在此基础上，将所有行向量相对应的值向量与其相对应的权重进行相乘后相加，实现加权求和，获得一个加权求和后的求和矩阵。

步骤S2300、将加权求和结果乘以转换权重矩阵获得其相对应的中间信息矩阵：

为了标准化输出尺度，将加权求和结果即所述的求和矩阵乘以一个转换权重矩阵，获得一个与原来的图文拼接向量相同尺度的中间信息矩阵，可以理解，经过Q、K、V间运算，中间信息矩阵中，已经实现了各个行向量之间的深度语义交互。

步骤S2400、经多层感知器对所述中间信息矩阵进行特征提取，获得图片语义特征，作为下一编码器所需的图片编码向量，或在最后一个编码器中直接输出。

所述的中间信息矩阵被输出至作为编码器的前馈神经网络的多层感知器中进行高层语义特征提取，获得实现了语义交互的图片语义特征，然后，便可将其输出给下一编码器，对于下一编码器来说，前一级编码器输出的图片语义特征被视为图片编码向量做同理的运算，如果输出图片语义特征的编码器是最后一个编码器，则直接将该图片语义特征输出用于与文本语义特征拼接即可。

本实施例中，详细揭示如何结合多头注意力机制来实现本申请的商品对象的商品图片的多个分割图元的特征之间的深度交互，实现深层语义融合，可以看出，本申请有效地利用了现有的技术架构，获得了期望的结果，对于商品图片的特征充分交互融合起到关键贡献作用，为实现根据商品对象的图、文信息进行相似度计算奠定了坚实的技术基础。

请参阅图6，深化的实施例中，步骤S1400、从所述特征索引矩阵中查询出与待搜索商品对象满足相似度匹配条件的多个目标商品对象，包括如下步骤：

步骤S1410、从所述特征索引矩阵中查询出与待搜索商品对象存在相似度数据映射关系的所有商品对象：

如前相关实施例所述，特征索引矩阵中存储了两两商品对象之间的相似度数据，且对于每个待搜索商品对象而言，存在多个与其存在相似度数据映射关系的商品对象，并且根据该矩阵的结构，通过提取该待搜索商品对象的行向量(或列向量)即可获得所有的这些存在相似度关联的商品对象，可见，检索效果非常高效。在应用了Faiss框架的情况下，可直接采用Faiss框架提取的接口用于实现这种查询。

步骤S1420、选取相似度数据最大的预定数量的若干个商品对象作为满足相似度数据匹配条件的目标商品对象：

本实施例中，将满足相似度数据匹配的匹配条件设定为从所述行向量中筛选出前若干个如十个目标商品对象，因此，可应用Top_K算法进行复选，其中K相应设置为10。当然，在进行筛选之前，需要根据所述相似度数据对行向量中的所有元素进行倒排序，对此，本领域技术人员均应理解。

步骤S1430、构造包含所述目标商品对象的搜索结果列表：

进一步，考虑到需要向触发所述用户行为消息的用户推送相应的目标商品对象，可以将这些目标商品对象构造为搜索结果列表，这一搜索结果列表可以进一步格式化，例如，构造出各个目标商品对象的摘要信息，提供所述目标商品对象的商品图片、标题文本、价格信息等，对此，本领域技术人员可灵活实现。

步骤S1440、推送所述搜索结果列表以响应所述商品对象搜索请求：

适应终端设备的用户的不同操作，可以按照不同的方式向其推送所述的搜索结果列表，例如，当所述的用户进入前述示例的“猜您喜欢”的页面时，将向后台服务器发起一个相似商品搜索请求，后台服务器予以响应，执行本申请的相关步骤从而获得相应的搜索结果列表，然后直接向该用户的终端设备推送该搜索结果列表进行显示，以应答相应的相似商品搜索请求。

另一种实施方式中，用户未主动进入专门的页面，但在其后续进入一个加载了广告栏的页面时，后台服务器在提供该页面时便获得所述的搜索结果列表，将这一搜索结果列表插入该页面进行显示即可。

本实施例进一步完善了终端设备与本申请的后台服务器之间的交互流程，确保用户可以根据其自身的用户行为消息而及时获取与其即时需求相适应的相似商品对象，提升相似商品对象被点击的概率，满足用户需求，改善用户感知相似商品对象匹配准确度的体验。

请参阅图7，适应本申请的目的之一而提供的一种商品对象搜索装置，是对本申请的商品对象搜索方法的功能化体现，该装置包括：特征汇总模块1100、矩阵构造模块1200、搜索启动模块1300，以及匹配反馈模块1400，其中，所述特征汇总模块1100，用于获取商品数据库中各商品对象的综合特征向量，所述综合特征向量包括商品对象的图片语义特征和文本语义特征；所述图片语义特征为所述商品对象的商品图片的多个分割图元分别提取图元语义特征后进行特征交互所生成；矩阵构造模块1200，用于构造特征索引矩阵，用于存储两两商品对象之间的综合特征向量之间的相似度数据；搜索启动模块1300，用于获取用户行为消息中的已访问商品对象，将其确定为待搜索商品对象；匹配反馈模块1400，用于从所述特征索引矩阵中查询出与待搜索商品对象满足相似度匹配条件的多个目标商品对象。

深化的实施例中，所述特征汇总模块1100包括：图片提取子模块，用于调用预训练的图像特征提取模型提取商品数据库中各个商品对象的商品图片的图片语义特征；文本提取子模块，用于调用预训练的文本特征提取模型提取商品数据库中各个商品对象的摘要文本的文本语义特征；特征拼接子模块，用于将每个商品对象的图片语义特征与文本语义特征进行特征拼接，获得其相对应的综合特征向量。

深化的实施例中，所述匹配反馈模块1400包括：特征查询子模块，用于从所述特征索引矩阵中查询出与待搜索商品对象存在相似度数据映射关系的所有商品对象；目标优选子模块，用于选取相似度数据最大的预定数量的若干个商品对象作为满足相似度数据匹配条件的目标商品对象；列表构造子模块，用于构造包含所述目标商品对象的搜索结果列表；结果推送子模块，用于推送所述搜索结果列表以响应所述商品对象搜索请求。

为解决上述技术问题，本申请实施例还提供计算机设备。如图8所示，计算机设备的内部结构示意图。该计算机设备包括通过系统总线连接的处理器、计算机可读存储介质、存储器和网络接口。其中，该计算机设备的计算机可读存储介质存储有操作系统、数据库和计算机可读指令，数据库中可存储有控件信息序列，该计算机可读指令被处理器执行时，可使得处理器实现一种商品对象搜索方法。该计算机设备的处理器用于提供计算和控制能力，支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行本申请的商品对象搜索方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本实施方式中处理器用于执行图7中的各个模块及其子模块的具体功能，存储器存储有执行上述模块或子模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有本申请的商品对象搜索装置中执行所有模块/子模块所需的程序代码及数据，服务器能够调用服务器的程序代码及数据执行所有子模块的功能。

本申请还提供一种存储有计算机可读指令的存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行本申请任一实施例的商品对象搜索方法的步骤。

本申请还提供一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被一个或多个处理器执行时实现本申请任一实施例所述方法的步骤。

本领域普通技术人员可以理解实现本申请上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等计算机可读存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

综上所述，本申请能够分别对商品对象的商品图片和摘要文本进行特征层面的深层语义交互，深化两类信息的融合，并据此进行相似度计算，将相似度数据用于服务相似商品的匹配，能够以更高准确率获取相似商品对象，基础性强，具有广阔的应用前景。

本技术领域技术人员可以理解，本申请中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地，具有本申请中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地，现有技术中的具有与本申请中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。

以上所述仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种商品对象搜索方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的商品对象搜索方法，其特征在于，获取商品数据库中各商品对象的综合特征向量，包括如下步骤：

3.根据权利要求2所述的商品对象搜索方法，其特征在于，调用预训练的图像特征提取模型提取商品数据库中各个商品对象的商品图片的图片语义特征，包括如下步骤：

将每个商品对象的商品图片切分为多个分割图元；

4.根据权利要求2所述的商品对象搜索方法，其特征在于，调用预训练的文本特征提取模型提取商品数据库中各个商品对象的摘要文本的文本语义特征，包括如下步骤：

对各个商品对象的摘要文本进行分词；

5.根据权利要求2所述的商品对象搜索方法，其特征在于，采用基于多头注意力机制的第二图像特征提取模型对所述图片编码向量进行特征交互，获得实现了深层语义交互的图片语义特征，包括由所述的第二图像特征提取模型中的至少一级编码器执行的如下步骤：

6.根据权利要求1至5中任意一项所述的商品对象搜索方法，其特征在于，所述第二图像特征提取模型为基于Vision Transformer架构的DeiT模型，被相应预先训练至收敛状态。

7.根据权利要求1至5中任意一项所述的商品对象搜索方法，其特征在于，从所述特征索引矩阵中查询出与待搜索商品对象满足相似度匹配条件的多个目标商品对象，包括如下步骤：

构造包含所述目标商品对象的搜索结果列表；

推送所述搜索结果列表以响应所述商品对象搜索请求。

8.一种计算机设备，包括中央处理器和存储器，其特征在于，所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行如权利要求1至7中任意一项所述的方法的步骤。

9.一种计算机可读存储介质，其特征在于，其以计算机可读指令的形式存储有依据权利要求1至7中任意一项所述的方法所实现的计算机程序，该计算机程序被计算机调用运行时，执行相应的方法所包括的步骤。

10.一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现权利要求1至7任意一项中所述方法的步骤。