CN115731425A

CN115731425A - 商品分类方法及其装置、设备、介质

Info

Publication number: CN115731425A
Application number: CN202211551205.XA
Authority: CN
Inventors: 冯一丁
Original assignee: Guangzhou Huanju Shidai Information Technology Co Ltd
Current assignee: Guangzhou Huanju Shidai Information Technology Co Ltd
Priority date: 2022-12-05
Filing date: 2022-12-05
Publication date: 2023-03-03

Abstract

本申请涉及电商技术领域中一种商品分类方法及其装置、设备、介质，所述方法包括：获取商品对象的商品文本及商品图片，所述商品文本为商品的描述信息；采用预设的多塔分类模型中的图像编码器编码出所述商品图片的图片语义向量，以及采用文本编码器编码出所述商品文本的文本语义向量，根据所述图片语义向量和文本语义向量构造出图文融合向量；根据所述图片语义向量进行分类获得第一类别，根据所述文本语义向量进行分类获得第二类别，根据所述图文融合向量进行分类获得第三类别；根据所述第一类别、第二类别、第三类别确定出目标类别。本申请基于多模态融合特征及多模态中各个单模态特征进行分类，能提升分类准确度。

Description

商品分类方法及其装置、设备、介质

技术领域

本申请涉及电商技术领域，尤其涉及一种商品分类方法及其相应的装置、计算机设备、计算机可读存储介质。

背景技术

商品分类是能够为消费者及卖家都带来增益的商业行为。对于消费者而言，商品分类可以使其提高其搜索效率、减少所需的时间成本、增加购物体验，对于卖家而言，商品分类可以使其优化商品管理、精准定位商品。

传统技术中，一般是基于多模态融合分类，通过借助多模态分类模型，提取商品的描述文本的文本特征，以及提取商品的图片的图像特征，在融合两种模态特征后进行该商品的类别预测。然而这种多模态分类模型，在特征融合的过程中，有可能丢失了单模态特征中的关键信息，使得分类的准确度较低，误差大。

对于传统技术的不足，本申请人做出相应的探索。

发明内容

本申请的首要目的在于解决上述问题至少之一而提供一种商品分类方法及其相应的装置、计算机设备、计算机可读存储介质。

为满足本申请的各个目的，本申请采用如下技术方案：

适应本申请的目的之一而提供的一种商品分类方法，包括如下步骤：

获取商品对象的商品文本及商品图片，所述商品文本为商品的描述信息；

采用预设的多塔分类模型中的图像编码器编码出所述商品图片的图片语义向量，以及采用文本编码器编码出所述商品文本的文本语义向量，根据所述图片语义向量和文本语义向量构造出图文融合向量；

根据所述图片语义向量进行分类获得第一类别，根据所述文本语义向量进行分类获得第二类别，根据所述图文融合向量进行分类获得第三类别；

根据所述第一类别、第二类别、第三类别确定出目标类别。

进一步的实施例中，采用预设的多塔分类模型中的图像编码器编码出所述商品图片的图片语义向量，以及采用文本编码器编码出所述商品文本的文本语义向量，根据所述图片语义向量和文本语义向量构造出图文融合向量，包括如下步骤：

采用预设的多塔分类模型中的图像编码器提取出所述商品图片对应的图像特征信息；

将所述图像特征信息展开为以单行向量表示的所述图片语义向量；

采用预设的多塔分类模型中的文本编码器提取出所述商品文本对应的文本特征信息，构造出文本语义向量，该文本语义向量由所述商品文本的文本嵌入向量、位置嵌入向量以及分句嵌入向量融合而成；

将所述图片语义向量与所述文本语义向量拼接成图文拼接向量；

基于多头注意力机制对所述图文拼接向量进行多级编码，实现所述图片语义向量与所述文本语义向量的特征交互，获得图文融合向量。

进一步的实施例中，基于多头注意力机制对所述图文拼接向量进行多级编码，实现所述图片语义向量与所述文本语义向量的特征交互，获得图文融合向量，每一级编码过程，包括如下步骤：

采用当前级相对应的编码器对应当前输入的图文拼接向量中的每个行向量构造查询向量、键向量及值向量；

将所有行向量相对应的值向量进行加权求和，各值向量相应的权重为其相对应的键向量与其他行向量相对应的查询向量的点积的归一化分值；

将加权求和结果乘以转换权重矩阵获得其相对应的中间信息矩阵；

经多层感知器对所述中间信息矩阵进行特征提取，获得图文交互向量，作为下一编码器所需的图文拼接向量，或在最后一个编码器中作为图文融合向量直接输出。

进一步的实施例中，采用预设的多塔分类模型中的图像编码器提取出所述商品图片对应的图像特征信息，包括如下步骤：

将所述商品图片进行格式化预处理；

采用预设的多塔分类模型中的图像编码器从所述商品图片中提取出图像特征信息，对其进行平均池化；

将经池化后的图像特征信息进行激活后输出。

进一步的实施例中，采用预设的多塔分类模型中的文本编码器提取出所述商品文本对应的文本特征信息，构造出文本语义向量，包括如下步骤：

对所述商品文本进行分词；

采用文本编码器从分词后的商品文本中提取出所述的文本特征信息；

将所述文本特征信息进行激活后输出。

进一步的实施例中，获取商品对象的商品文本及商品图片之前，还包括如下步骤：

从预备的训练集中获取单个训练样本及其监督标签，所述训练样本包含同一商品的商品文本和商品图片，所述监督标签表征训练样本的商品所属的类别；

将所述训练样本输入至多塔分类模型，提取训练样本中商品文本和商品图片相对应的深层语义信息，获得相应的图片语义向量和文本语义向量，根据所述图片语义向量和文本语义向量构造出图文融合向量；

根据所述图片语义向量进行分类获得第一预测类别，根据所述文本语义向量进行分类获得第二预测类别，根据所述图文融合向量进行分类获得第三预测类别；

采用所述训练样本的监督标签，确定所述第一预测类别、第二预测类别及第三预测类别相对应的损失值之和，在所述损失值之和未达到预设阈值时，对多塔分类模型实施权重更新，并继续调用其他训练样本实施迭代训练直至模型收敛。

进一步的实施例中，根据所述第一类别、第二类别、第三类别确定出目标类别，包括：

判别第一类别、第二类别、第三类别相互之间是否相同，当第一类别与第二类别相同，且第一类别与第三类别不相同时，确定第一类别作为目标类别，否则，确定第三类别作为目标类别。

另一方面，适应本申请的目的之一而提供的一种商品分类装置，包括数据获取模块，向量获取模块，类别分类模块以及目标确定模块，其中，数据获取模块，用于获取商品对象的商品文本及商品图片，所述商品文本为商品的描述信息；向量获取模块，用于采用预设的多塔分类模型中的图像编码器编码出所述商品图片的图片语义向量，以及采用文本编码器编码出所述商品文本的文本语义向量，根据所述图片语义向量和文本语义向量构造出图文融合向量；类别分类模块，用于根据所述图片语义向量进行分类获得第一类别，根据所述文本语义向量进行分类获得第二类别，根据所述图文融合向量进行分类获得第三类别；目标确定模块，用于根据所述第一类别、第二类别、第三类别确定出目标类别。

进一步的实施例中，所述向量获取模块，包括：图片提取子模块，用于采用预设的多塔分类模型中的图像编码器提取出所述商品图片对应的图像特征信息；图片编码子模块，用于将所述图像特征信息展开为以单行向量表示的所述图片语义向量；文本编码子模块，用于采用预设的多塔分类模型中的文本编码器提取出所述商品文本对应的文本特征信息，构造出文本语义向量，该文本语义向量由所述商品文本的文本嵌入向量、位置嵌入向量以及分句嵌入向量融合而成；图文拼接子模块，用于将所述图片语义向量与所述文本语义向量拼接成图文拼接向量；图文融合子模块，用于基于多头注意力机制对所述图文拼接向量进行多级编码，实现所述图片语义向量与所述文本语义向量的特征交互，获得图文融合向量。

进一步的实施例中，所述图文融合子模块，包括：构造单元，用于采用当前级相对应的编码器对应当前输入的图文拼接向量中的每个行向量构造查询向量、键向量及值向量；运算单元，用于将所有行向量相对应的值向量进行加权求和，各值向量相应的权重为其相对应的键向量与其他行向量相对应的查询向量的点积的归一化分值；转换单元，用于将加权求和结果乘以转换权重矩阵获得其相对应的中间信息矩阵；感知单元，用于经多层感知器对所述中间信息矩阵进行特征提取，获得图文交互向量，作为下一编码器所需的图文拼接向量，或在最后一个编码器中作为图文融合向量直接输出。

进一步的实施例中，所述图片提取子模块，包括：图片处理单元，用于将所述商品图片进行格式化预处理；图片特征提取单元，用于采用预设的多塔分类模型中的图像编码器从所述商品图片中提取出图像特征信息，对其进行平均池化；图片激活输出单元，用于将经池化后的图像特征信息进行激活后输出。

进一步的实施例中，所述文本提取子模块，包括：文本分词单元，用于对所述商品文本进行分词；文本特征提取单元，用于采用文本编码器从分词后的商品文本中提取出所述的文本特征信息；文本激活输出单元，用于将所述文本特征信息进行激活后输出。

进一步的实施例中，所述数据获取模块之前，还包括：样本获取模块，用于从预备的训练集中获取单个训练样本及其监督标签，所述训练样本包含同一商品的商品文本和商品图片，所述监督标签表征训练样本的商品所属的类别；向量构建模块，用于将所述训练样本输入至多塔分类模型，提取训练样本中商品文本和商品图片相对应的深层语义信息，获得相应的图片语义向量和文本语义向量，根据所述图片语义向量和文本语义向量构造出图文融合向量；类别预测模块，用于根据所述图片语义向量进行分类获得第一预测类别，根据所述文本语义向量进行分类获得第二预测类别，根据所述图文融合向量进行分类获得第三预测类别；迭代训练模块，用于采用所述训练样本的监督标签，确定所述第一预测类别、第二预测类别及第三预测类别相对应的损失值之和，在所述损失值之和未达到预设阈值时，对多塔分类模型实施权重更新，并继续调用其他训练样本实施迭代训练直至模型收敛。

进一步的实施例中，所述目标确定模块，包括：多类别判定子模块，用于判别第一类别、第二类别、第三类别相互之间是否相同，当第一类别与第二类别相同，且第一类别与第三类别不相同时，确定第一类别作为目标类别，否则，确定第三类别作为目标类别。

又一方面，适应本申请的目的之一而提供的一种计算机设备，包括中央处理器和存储器，所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行本申请所述的商品分类方法的步骤。

又一方面，适应本申请的另一目的而提供的一种计算机可读存储介质，其以计算机可读指令的形式存储有依据所述的商品分类方法所实现的计算机程序，该计算机程序被计算机调用运行时，执行该方法所包括的步骤。

本申请的技术方案存在多方面优势，包括但不限于如下各方面：

本申请分别对同一商品的不同模态的商品数据进行建模得到的图片语义向量及文本语义向量，此外，将这些向量融合得到图文融合向量，采用多塔分类模型基于图片语义向量、文本语义向量及图文融合向量分别进行分类，获得相应的多个分类结果，进而判断各个分类结果之间关系，从多个分类结果中确定出该商品对应的目标类别。在多模态融合特征的分类结果基础上，借助多模态融合特征中各个单模态特征对应所得的分类结果辅助进行商品分类，有效规避单依靠多模态融合特征的分类结果的误差，确保商品分类的准确度。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请的商品分类方法的典型实施例的流程示意图；

图2为本申请的实施例中获得图片语义向量、文本语义向量及图文融合向量的流程示意图；

图3为本申请的实施例中多塔分类模型的结构示意图；

图4为本申请的实施例中通过图片语义向量与文本语义向量之间的特征交互获得图文融合向量的流程示意图；

图5为本申请的实施例中提取并激活图像特征信息的流程示意图；

图6为本申请的实施例中提取并激活文本特征信息的流程示意图；

图7为本申请的实施例中多塔分类模型的训练过程的示意图；

图8为本申请的商品分类装置的原理框图；

图9为本申请所采用的一种计算机设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

本技术领域技术人员可以理解，这里所使用的“客户端”、“终端”、“终端设备”既包括无线信号接收器的设备，其仅具备无发射能力的无线信号接收器的设备，又包括接收和发射硬件的设备，其具有能够在双向通信链路上，进行双向通信的接收和发射硬件的设备。这种设备可以包括：蜂窝或其他诸如个人计算机、平板电脑之类的通信设备，其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备；PCS(Persona lCommun i cat ions Service，个人通信系统)，其可以组合语音、数据处理、传真和/或数据通信能力；PDA(Persona l D igita l Ass i stant，个人数字助理)，其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(G l oba l Pos it ioni ng System，全球定位系统)接收器；常规膝上型和/或掌上型计算机或其他设备，其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“客户端”、“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的，或者适合于和/或配置为在本地运行，和/或以分布形式，运行在地球和/或空间的任何其他位置运行。这里所使用的“客户端”、“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端，例如可以是PDA、MI D(Mobi l e I nternet Dev i ce，移动互联网设备)和/或具有音乐/视频播放功能的移动电话，也可以是智能电视、机顶盒等设备。

本申请所称的“服务器”、“客户端”、“服务节点”等名称所指向的硬件，本质上是具备个人计算机等效能力的电子设备，为具有中央处理器(包括运算器和控制器)、存储器、输入设备以及输出设备等冯诺依曼原理所揭示的必要构件的硬件装置，计算机程序存储于其存储器中，中央处理器将存储在外存中的程序调入内存中运行，执行程序中的指令，与输入输出设备交互，借此完成特定的功能。

需要指出的是，本申请所称的“服务器”这一概念，同理也可扩展到适用于服务器机群的情况。依据本领域技术人员所理解的网络部署原理，所述各服务器应是逻辑上的划分，在物理空间上，这些服务器既可以是互相独立但可通过接口调用的，也可以是集成到一台物理计算机或一套计算机机群的。本领域技术人员应当理解这一变通，而不应以此约束本申请的网络部署方式的实施方式。

本申请的一个或数个技术特征，除非明文指定，既可部署于服务器实施而由客户端远程调用获取服务器提供的在线服务接口来实施访问，也可直接部署并运行于客户端来实施访问。

本申请中所引用或可能引用到的神经网络模型，除非明文指定，既可部署于远程服务器且在客户端实施远程调用，也可部署于设备能力胜任的客户端直接调用，某些实施例中，当其运行于客户端时，其相应的智能可通过迁移学习来获得，以便降低对客户端硬件运行资源的要求，避免过度占用客户端硬件运行资源。

本申请所涉及的各种数据，除非明文指定，既可远程存储于服务器，也可存储于本地终端设备，只要其适于被本申请的技术方案所调用即可。

本领域技术人员对此应当知晓：本申请的各种方法，虽然基于相同的概念而进行描述而使其彼此间呈现共通性，但是，除非特别说明，否则这些方法都是可以独立执行的。同理，对于本申请所揭示的各个实施例而言，均基于同一发明构思而提出，因此，对于相同表述的概念，以及尽管概念表述不同但仅是为了方便而适当变换的概念，应被等同理解。

本申请即将揭示的各个实施例，除非明文指出彼此之间的相互排斥关系，否则，各个实施例所涉的相关技术特征可以交叉结合而灵活构造出新的实施例，只要这种结合不背离本申请的创造精神且可满足现有技术中的需求或解决现有技术中的某方面的不足即可。对此变通，本领域技术人员应当知晓。

本申请的一种商品分类方法，可被编程为计算机程序产品，部署于客户端或服务器中运行而实现，例如，本申请的示例性应用场景中，可以在电商平台的服务器中部署实现，藉此可以通过访问该计算机程序产品运行后开放的接口，通过图形用户界面与该计算机程序产品的进程进行人机交互而执行该方法。

请参阅图1，本申请的商品分类方法，在其典型实施例中，包括如下步骤：

步骤S1100、获取商品对象的商品文本及商品图片，所述商品文本为商品的描述信息；

电商平台可建立和维护商品数据库，以存储电商平台内各个线上店铺上架的商品的商品信息，通常所述商品信息由相应的线上店铺的卖家用户编辑并上传，可预先封装相应的数据接口用于访问商品数据库中的商品信息，对其进行增删查改等操作。所述数据接口可由本领域技术人员灵活变通实现。所述商品信息包含但不限于商品的商品文本、商品图片，所述商品图片是线上店铺的商家上架商品时为该商品上传的用于展示的图片，能够从总体和/或不同侧面展示商品，包含商品主图、商品详情图等，通常以商品主图作为首要展示商品的图片，因其通常能够展示相应的商品的全貌。所述商品文本，泛指一切关联于所述商品存储的且适于以文本形式提供的商品的描述信息，包括但不限于所述商品的商品标题、商品属性数据、商品详情文本、商品标签等任意一项或多项。在用途上，所述描述信息一般用于描述所述商品的卖点、材质、用法、功能、型号等等任意具体信息。本申请中，推荐使用商品的商品主图作为后续所赖以处理的商品图片。

可指定需要分类的商品作为所述商品对象，根据商品对象的唯一标识码访问商品数据库，获取该商品对象的商品图片及商品文本，所述唯一标识码能够表示唯一一个商品，例如商品I D等，具体可由本领域技术人员灵活变通实现。

步骤S1200、采用预设的多塔分类模型中的图像编码器编码出所述商品图片的图片语义向量，以及采用文本编码器编码出所述商品文本的文本语义向量，根据所述图片语义向量和文本语义向量构造出图文融合向量；

所述多塔分类模型经由预先训练至收敛后投入使用，结构上可参阅图3，主要包含图片编码器、文本编码器、基于多头注意力机制的神经网络模型、三路分类器等，各路分类器处理相应的向量，具体训练过程由后续部分实施例进一步揭示，本步骤暂且按下不表。

所述图片语义向量是所述商品图片经深层语义学习所提取的特征信息，可以采用多种经预训练的图像特征提取模型作为所述图像编码器，对所述的商品图片进行深层语义特征提取，以此获得其相对应的图片语义向量，实现对该商品图片的深层语义信息的表示。所述图像编码器可采用适用于提取图像特征的模型，推荐选型为Vi T(Vi s i onTransformer)模型,亦可采用其他的例如CNN模型、深度卷积模型Eff i c i entNet、DenseNet、Resnet等任一种模型。

所述文本语义向量是所述商品文本经深层语义学习所提取的特征信息，可以采用多种经预训练的文本特征提取模型作为文本编码器，对所述的商品文本进行深层语义特征提取，以此获得其相对应的文本语义向量，实现对该商品文本的深层语义信息的表示。所述文本编码器可采用NLP领域中适用于提取文本特征的模型，例如Bert模型为目前为止较为优秀的能够处理文本时序信息的神经网络模型，可以适用于本申请中负责文本提取工作，同理，E l ectra模型能以更低参数量获得与Bert模型同等或相近的效果，故也推荐使用。

对于一个商品对象而言，通过将其所述的商品图片相对应的图片语义向量与其所述的商品文本相对应的文本语义向量规整至统一尺度上，再进行简单拼接，便可图文拼接向量。进一步，将所述图文拼接向量输入到基于多头注意力机制的神经网络模型中进行编码，以获得相应的图文融合向量。

此处所采用的基于多头注意力机制的神经网络模型，优选基于Transformer中的编码路径为基础架构的神经网络模型，例如可以优选Bert模型，Bert模型内部即采用了Transformer中的编码路径；又如，也包括更适于处理图文信息的的Vi s i onTransformer(Vi T)中的编码路径。此外，其他能够实现本申请的同等功能的变体模型也可等同替换之。根据Transformer的原理，Transformer的编码路径中，包括多个结构和原理均相同的编码器，每个编码器均包括自注意力层，其以输入其中的图文拼接向量为基础进行特征交互，将交互后的结果传递至该编码器的多层感知器进行高层语义提取后输出。

本申请所采用的基于多头注意力机制的神经网络模型，被预训练至收敛之后启用，鉴于Transformer、Bert、Vi T等模型的训练过程均为本领域技术人员所知晓，故对其训练过程恕不详述。

步骤S1300、根据所述图片语义向量进行分类获得第一类别，根据所述文本语义向量进行分类获得第二类别，根据所述图文融合向量进行分类获得第三类别；

所述图片语义向量最后经一个第一全连接层进行线性转换，将其映射到分类空间中，进一步，采用一个Softmax构造的第一分类器对该分类空间中的各个类别标签进行归一化计算概率，由此获得各个类别标签相对应的概率，所有类别标签的概率相加为1，根据各个类别标签相对应的概率确定其中概率最大的类别标签作为第一类别。

所述文本语义向量最后经一个第二全连接层进行线性转换，将其映射到分类空间中，进一步，采用一个Softmax构造的第二分类器对该分类空间中的各个类别标签进行归一化计算概率，由此获得各个类别标签相对应的概率，所有类别标签的概率相加为1，根据各个类别标签相对应的概率确定其中概率最大的类别标签作为第二类别。

所述图文融合向量最后经一个第三全连接层进行线性转换，将其映射到分类空间中，进一步，采用一个Softmax构造的第三分类器对该分类空间中的各个类别标签进行归一化计算概率，由此获得各个类别标签相对应的概率，所有类别标签的概率相加为1，根据各个类别标签相对应的概率确定其中概率最大的类别标签作为第三类别。

所述图片语义向量、文本语义向量及图文融合向量所述映射的分类空间相同，该分类空间中的各个类别标签表征相应的商品类别，具体可由本领域技术人员按需预设。

步骤S1400、根据所述第一类别、第二类别、第三类别确定出目标类别。

判别第一类别、第二类别、第三类别相互之间是否相同，当第一类别与第二类别相同，且第一类别与第三类别不相同时，此时表示第三类别可能有误，导致这误差发生的原因可能是在图片语义向量与文本语义向量融合过程中，丢失了图片语义向量或文本语义向量中的关键信息，使得该第三类别不准确，另外，同一商品的图片及文本两种单模态数据对应的分类结果一致，具备较高的置信度，据此，确定第一类别作为目标类别，否则，可以理解，由于基于图文融合向量所得的第三类别相比于基于图片语义向量所得的第一类别或者基于文本语义向量所得的第二类别，具备较高的置信度，据此，确定第三类别作为目标类别。

根据本申请的典型实施例可以知晓，本申请的技术方案存在多方面优势，包括但不限于如下各方面：

请参阅图2，进一步的实施例中，步骤S1200、采用预设的多塔分类模型中的图像编码器编码出所述商品图片的图片语义向量，以及采用文本编码器编码出所述商品文本的文本语义向量，根据所述图片语义向量和文本语义向量构造出图文融合向量，包括如下步骤：

步骤S1210、采用预设的多塔分类模型中的图像编码器提取出所述商品图片对应的图像特征信息；

本实施例中，在对商品图片进行常规的预处理后，采用预设的多塔分类模型中的图像编码器对所述商品对象的商品图片进行特征提取，所述图像编码器可以采用基于Resnet网络架构的图像特征提取模型，例如Resnet50、Resnet101、I ResNet等、ResNeXt101等等基于残差卷积神经网络的网络架构，以及较新的Eff i c i enNet、Vi T等，实践中这些架构的应用均能取得良好的效果。当然，其他效果优秀的网络架构所实现的图像特征提取模型也可在本实施例中等同替换使用。利用图像编码器可以从商品图片中提取出相应的图片特征信息。

步骤S1220、将所述图像特征信息展开为以单行向量表示的所述图片语义向量；

图像特征信息可以压缩为一个二维矩阵，为了适应本申请基于多头注意力机制的神经网络模型的需要，可以对该二维矩阵进行降维，具体是将该二维矩阵在一维向量上展开，即将该二维矩阵中各个行向量顺序拼接，获得一个单行向量，即图片语义向量。不难理解，假设该二维矩阵是N*D的尺度，则其展开后获得的图片语义向量便变为1*(N*D)的尺度，这一尺度对应的行向量维度(N*D)是预先与本申请中的文本特征向量进行统一预定的，以便后续两者能够直接拼接。

步骤S1230、采用预设的多塔分类模型中的文本编码器提取出所述商品文本对应的文本特征信息，构造出文本语义向量，该文本语义向量由所述商品文本的文本嵌入向量、位置嵌入向量以及分句嵌入向量融合而成；

本实施例中，可采用E l ectra模型来作为所述文本编码器，对商品对象的商品文本进行特征提取。E l ectra模型基于生成对抗模型来实施训练，其与Bert同理，应用MLM(MaskedLanguageMode l)进行训练，因此与Bert可以在本申请中等同替换。适应该文本特征提取模型的需要，从所述商品标题中编码出三个向量，分别是用于表示其各个分词的文本嵌入向量(TokenEmbedd i ng)、用于表示各个分词的位置信息的位置嵌入向量(Pos iti onEmbedd i ng)、用于表示句子间区分信息的分句嵌入向量(SegmentEmbedd i ng)，然后由文本编码器根据这些嵌入向量进行文本特征提取，最终获得相应的文本语义向量。对此，本领域技术人员可以灵活实施。

步骤S1240、将所述图片语义向量与所述文本语义向量拼接成图文拼接向量；

在已经获得所述商品对象的图片语义向量与文本语义向量的基础上，只需对两者进行简单的特征拼接，即可获得所述的图文拼接向量。由于图片语义向量的尺度与文本语义向量的尺度已经规整至统一，因此，最终获得的图文拼接向量为一个2*(N*D)尺度的向量。

步骤S1250、基于多头注意力机制对所述图文拼接向量进行多级编码，实现所述图片语义向量与所述文本语义向量的特征交互，获得图文融合向量。

将所述的图文拼接向量输入至基于多头注意力机制的神经网络模型中进行编码，以获得相应的第一图文融合向量，所述基于多头注意力机制的神经网络模型具体选型可参考步骤S1200。

经所述神经网络模型对所述的图文拼接向量进行逐级编码过程中，多头注意力机制始终发挥作用，使得编码过程中充分参考相关上下文信息，将图文拼接向量中的图片语义向量和文本语义向量进行深度的交互，最终获得充分考虑了上下文信息的图文融合向量。

图文融合向量是所述图片语义向量与所述文本语义向量在语义层面进行了充分的特征交互运算后的产物，因此，从特征表示的角度来看，图文融合向量成功而且统一地表示了商品对象的商品图片和商品文本之间的关联信息。

本实施例中，通过分别对同一商品的不同模态的商品数据进行建模得到的图片语义向量及文本语义向量，此外，将这些向量再经过基于多头注意力机制进行多次交互融合在一起，最终获得综合了各种模态信息的深层语义信息的图文融合向量，从而降低了不同模态特征融合的信息阻隔，可以提取到更丰富的商品信息，得到更丰富的特征信息，从而有助于提高商品分类的准确率。

请参阅图4，进一步的实施例中，步骤S1250、基于多头注意力机制对所述图文拼接向量进行多级编码，实现所述图片语义向量与所述文本语义向量的特征交互，获得图文融合向量，每一级编码过程，包括如下步骤：

步骤S1251、采用当前级相对应的编码器对应当前输入的图文拼接向量中的每个行向量构造查询向量、键向量及值向量；

如前所述，本申请中，推荐采用基于多头注意力机制的神经网络模型来实现，因此，本实施例中，采用Bert模型或者多层Transformer的编码路径构成的模型来构造本申请所需的神经网络模型，因此，本申请所用的神经网络模型实际上是继承传统Transformer模型固有的编码架构的，因此，本实施例中所用到的编码器，即为Transformer固有架构中的编码器。

Transformer固有编码架构中，包含多个编码器，每个编码器均采用相同的结构，包括一个自注意力层和一个多层感知器(MLP)，所述自注意力层实现了多头注意力机制。

据此，每个编码器的自注意力层基于多头注意力机制所固设的算法对其所接收的图文拼接向量进行深度的特征交互之后，将特征交互之后获得的结果传递给其多层感知器进行特征提取，再由多层感知器将特征提取结果提供给下一编码器，以此类推，后一编码器的自注意力层以前一编码器的多层感知器的输出为输入，按照相同的逻辑进行处理，每个编码器中都通过多层感知器对自注意力层的输出结果进行高层语义提取并输出，直至最后一个编码器获得的输出可作为第一图文融合向量输出。

据此，本步骤中，所述的每个编码器中的自注意力层，当其接收到一个向量的输入后，例如第一个编码器以所述图文拼接向量为其输入，而后续的图文拼接向量则以前一级的编码器的多层感知器的输出为输入，当前编码器获取到所输入的图文拼接向量后，根据固有的架构原理，便可为其中的每个行向量构造相应的查询向量(Q)、键向量(K)、值向量(V)，构造Q、K、V向量是多头注意力机制的基本原理，是实现特征层面深度交互的基础手段。

步骤S1252、将所有行向量相对应的值向量进行加权求和，各值向量相应的权重为其相对应的键向量与其他行向量相对应的查询向量的点积的归一化分值；

根据自注意力机制固有的算法，自注意力层对于每个行向量，先计算其键向量与其他行向量相对应的查询向量的点积，然后采用Softmax函数对这些点积进行归一化，使多个点积的相加总值为1，以这些点积归一化后的数值作为各个行向量相对应的权重。在此基础上，将所有行向量相对应的值向量与其相对应的权重进行相乘后相加，实现加权求和，获得一个加权求和后的求和矩阵。

步骤S1253、将加权求和结果乘以转换权重矩阵获得其相对应的中间信息矩阵；

为了标准化输出尺度，将加权求和结果即所述的求和矩阵乘以一个转换权重矩阵，获得一个与原来的图文拼接向量相同尺度的中间信息矩阵，可以理解，经过Q、K、V间运算，中间信息矩阵中，已经实现了各个行向量之间的深度语义交互。

步骤S1254、经多层感知器对所述中间信息矩阵进行特征提取，获得图文交互向量，作为下一编码器所需的图文拼接向量，或在最后一个编码器中作为图文融合向量直接输出。

所述的中间信息矩阵被输出至充当前馈神经网络的多层感知器中进行高层语义特征提取，获得图文交互向量，然后，便可将其输出给下一编码器，对于下一编码器来说，该图文交互向量即也视同第一编码器的图文拼接向量做同理的运算，如果输出图文交互信息的编码器是最后一个编码器，则直接将该图文交互信息作为所述的第一图文融合向量输出。

本实施例中，详细揭示如何结合多头注意力机制来实现本申请的商品对象的商品图片和商品文本之间的深度交互，从而实现深层语义融合，可以看出，本申请有效地利用了现有的技术架构，获得了期望的结果，对于电商平台中商品对象的多模态特征交互融合起到关键贡献作用，为实现根据商品对象的图、文信息进行分类奠定了坚实的技术基础，确保据此分类的准确性。

请参阅图5，进一步的实施例中，步骤S1210、采用预设的多塔分类模型中的图像编码器提取出所述商品图片对应的图像特征信息，包括如下步骤：

步骤S1211、将所述商品图片进行格式化预处理；

对商品图片进行预处理，主要是为了适应图像编码器输入的需要，将商品图片加工至有助于该图像编码器处理的效果。例如对所述的商品图片进行尺寸缩放、物品识别、图像标准化处理等，对此，本领域技术人员可按需灵活实施。

步骤S1212、采用预设的多塔分类模型中的图像编码器从所述商品图片中提取出图像特征信息，对其进行平均池化；

参阅前文各实施例，利用预选的图像编码器，例如前述的Vi T模型，便可从所述预处理后的商品图片中提取出相应的图片特征信息。

由于通常情况下图像编码器所提取出来的图片特征信息是多通道的数据，因此，可以借助一个池化层，对多通道的图片特征信息进行平均池化，将其池化为单通道的图片特征信息。

步骤S1213、将经池化后的图像特征信息进行激活后输出。

最后，将该单通道的图片特征信息经应用激活函数进行激活，完成语义信息提取，获得最终的图片特征信息，所述激活函数包括S i gmo i d、Softmax、ReLU、Leaky Re l u、ELU(指数线性单元)、PReLU(参数化的ReLU)、RReLU(随机的ReLU)等，本领域技术人员可按需选取实现。

本实施例给出商品图片的图片特征信息的提取过程，这一过程实现了从商品图片到图片特征信息的转变，为后续制备图片语义向量奠定基础，可以看出，这一过程是适应图片信息这一模态信息所需而可灵活定制的，因此，本领域技术人员可以根据本实施例揭示的原理，适应图像编码模型的具体选型而灵活设计相应的实现过程，只要最终能获得一个以二维矩阵表示的便于进行降维处理的图片特征信息以为构造图片语义向量做好准备即可。

请参阅图6，进一步的实施例中，步骤S1230、采用预设的多塔分类模型中的文本编码器提取出所述商品文本对应的文本特征信息，构造出文本语义向量，包括如下步骤：

步骤S1231、对所述商品文本进行分词；

可视乎商品文本中是否包含无效语义的停用词和/或标点符号，而相应判断是否对商品文本进行预处理，所述预处理可为去除标点符号操作、去除停用词操作中任意一项或多项操作，进一步，采用分词算法对各个商品标题进行分词，获得各个商品标题对应的多个词元，所述分词算法可以采用j ieba、N-gram、WordPr i ce、Word2Vec中任意一种。

步骤S1232、采用文本编码器从分词后的商品文本中提取出所述的文本特征信息；

前一步骤中，已先行对所述的商品文本进行分词，根据预设的词典将各个分词转换为相应的文本嵌入向量，同理根据分词所在的位置编码获得位置嵌入向量，以及编码出区分不同分句的分句嵌入向量，然后将这些向量加和融合后传递给所述文本编码器进行深层语义信息提取，便获得相应的文本特征向量。

如前所述，对商品文本进行特征提取所采用的文本编码器，可以采用包括Bert、El ectra等预训练模型来实现，本领域技术人员可灵活实施。

以Bert模型为例，所述三个嵌入向量，即文本嵌入向量、位置嵌入向量、分句嵌入向量将被进行融合，在融合的基础上，Bert模型对其进行相应的编码，同理也是基于多头注意力机制，最终获得与所述商品文本相对应的文本特征信息。

步骤S1233、将所述文本特征信息进行激活后输出。

进一步将所述的文本特征信息应用激活函数进行特征激活即可获得最终的文本特征信息，所述激活函数包括Si gmo i d、Softmax、ReLU、Leaky Re l u、ELU(指数线性单元)、PReLU(参数化的ReLU)、RReLU(随机的ReLU)等，本领域技术人员可按需选取实现。

本实施例中，进一步揭示了针对所述商品对象的商品文本的编码过程，推荐使用El ectra模型或Bert模型来实现文本编码，充分利用现有技术中的优秀成果，使编码效率更高，所获得的文本语义向量所能够表示出的商品文本的深层语义的更到位。

请参阅图7，进一步的实施例中，步骤S1100、获取商品对象的商品文本及商品图片之前，还包括如下步骤：

步骤S1000、从预备的训练集中获取单个训练样本及其监督标签，所述训练样本包含同一商品的商品文本和商品图片，所述监督标签表征训练样本的商品所属的类别；

可预先调用所述预封装的数据接口访问商品数据库，以获取多个商品对应的商品文本和商品图片，将同一商品的商品文本和商品图片作为单个训练样本，根据训练样本的商品所属的类别标注该训练样本的监督标签，将各个训练样本关联其监督标签构造出训练集，以备用于训练多塔分类模型。

步骤S1010、将所述训练样本输入至多塔分类模型，提取训练样本中商品文本和商品图片相对应的深层语义信息，获得相应的图片语义向量和文本语义向量，根据所述图片语义向量和文本语义向量构造出图文融合向量；

采用多塔分类模型中的图像编码器从所述训练样本中的商品图片中提取出图像特征信息，对其进行平均池化，将经池化后的图像特征信息进行激活后输出，获得图片语义向量。

采用多塔分类模型中的文本编码器从分词后的所述训练样本中的商品文本中提取出文本特征信息，将所述文本特征信息进行激活后输出，获得文本语义向量。

将训练样本中所述商品图片相对应的图片语义向量与所述商品文本相对应的文本语义向量规整至统一尺度上，再进行简单拼接，便可图文拼接向量。进一步，将所述图文拼接向量输入到多塔分类模型中的基于多头注意力机制的神经网络模型中进行编码，以获得相应的图文融合向量。

步骤S1020、根据所述图片语义向量进行分类获得第一预测类别，根据所述文本语义向量进行分类获得第二预测类别，根据所述图文融合向量进行分类获得第三预测类别；

所述图片语义向量最后经一个第一全连接层进行线性转换，将其映射到分类空间中，进一步，采用一个Softmax构造的第一分类器对该分类空间中的各个类别标签进行归一化计算概率，由此获得各个类别标签相对应的概率，所有类别标签的概率相加为1，根据各个类别标签相对应的概率确定其中概率最大的类别标签作为第一预测类别。

所述文本语义向量最后经一个第二全连接层进行线性转换，将其映射到分类空间中，进一步，采用一个Softmax构造的第二分类器对该分类空间中的各个类别标签进行归一化计算概率，由此获得各个类别标签相对应的概率，所有类别标签的概率相加为1，根据各个类别标签相对应的概率确定其中概率最大的类别标签作为第二预测类别。

所述图文融合向量最后经一个第三全连接层进行线性转换，将其映射到分类空间中，进一步，采用一个Softmax构造的第三分类器对该分类空间中的各个类别标签进行归一化计算概率，由此获得各个类别标签相对应的概率，所有类别标签的概率相加为1，根据各个类别标签相对应的概率确定其中概率最大的类别标签作为第三预测类别。

步骤S1030、采用所述训练样本的监督标签，确定所述第一预测类别、第二预测类别及第三预测类别相对应的损失值之和，在所述损失值之和未达到预设阈值时，对多塔分类模型实施权重更新，并继续调用其他训练样本实施迭代训练直至模型收敛。

可以理解，所述训练样本对应的所述第一预测类别、第二预测类别、第三预测类别理应相同，且理应均为该训练样本的监督标签，据此，调用预设的交叉熵损失函数，此处可由本领域技术人员根据先验知识或实验经验灵活变通设置，基于采用所述训练样本的监督标签，确定所述第一预测类别、第二预测类别及第三预测类别相对应的的交叉熵损失值之和，当该交叉熵损失值之和达到预设阈值时，表明多塔分类模型已被训练至收敛状态，从而可以终止模型训练；当交叉熵损失值之和未达到预设阈值时，表明模型未收敛，于是根据该交叉熵损失值之和对模型实施梯度更新，通常通过反向传播修正模型各个环节的权重参数以使模型进一步逼近收敛，然后，继续调用其他训练样本对该模型实施迭代训练，直至该模型被训练至收敛状态为止。

本实施例中，一方面，通过监督训练多塔分类模型的至收敛，使得多塔分类模型习得根据同一商品的商品图片与商品文本，便能精准确定出该商品的三个分类结果，为后续确定出目标分类结果的准确性奠定基础。另一方面，多塔分类模型的多个分类任务通过底层的共享表示来互相帮助学习，互相促进学习，能够提升泛化效果。

请参阅图8，适应本申请的目的之一而提供的一种商品分类装置，是对本申请的商品分类方法的功能化体现，该装置包括数据获取模块1100，向量获取模块1200，类别分类模块1300以及目标确定模块1400，其中，数据获取模块1100，用于获取商品对象的商品文本及商品图片，所述商品文本为商品的描述信息；向量获取模块1200，用于采用预设的多塔分类模型中的图像编码器编码出所述商品图片的图片语义向量，以及采用文本编码器编码出所述商品文本的文本语义向量，根据所述图片语义向量和文本语义向量构造出图文融合向量；类别分类模块1300，用于根据所述图片语义向量进行分类获得第一类别，根据所述文本语义向量进行分类获得第二类别，根据所述图文融合向量进行分类获得第三类别；目标确定模块1400，用于根据所述第一类别、第二类别、第三类别确定出目标类别。

进一步的实施例中，所述向量获取模块1200，包括：图片提取子模块，用于采用预设的多塔分类模型中的图像编码器提取出所述商品图片对应的图像特征信息；图片编码子模块，用于将所述图像特征信息展开为以单行向量表示的所述图片语义向量；文本编码子模块，用于采用预设的多塔分类模型中的文本编码器提取出所述商品文本对应的文本特征信息，构造出文本语义向量，该文本语义向量由所述商品文本的文本嵌入向量、位置嵌入向量以及分句嵌入向量融合而成；图文拼接子模块，用于将所述图片语义向量与所述文本语义向量拼接成图文拼接向量；图文融合子模块，用于基于多头注意力机制对所述图文拼接向量进行多级编码，实现所述图片语义向量与所述文本语义向量的特征交互，获得图文融合向量。

进一步的实施例中，所述数据获取模块1100之前，还包括：样本获取模块，用于从预备的训练集中获取单个训练样本及其监督标签，所述训练样本包含同一商品的商品文本和商品图片，所述监督标签表征训练样本的商品所属的类别；向量构建模块，用于将所述训练样本输入至多塔分类模型，提取训练样本中商品文本和商品图片相对应的深层语义信息，获得相应的图片语义向量和文本语义向量，根据所述图片语义向量和文本语义向量构造出图文融合向量；类别预测模块，用于根据所述图片语义向量进行分类获得第一预测类别，根据所述文本语义向量进行分类获得第二预测类别，根据所述图文融合向量进行分类获得第三预测类别；迭代训练模块，用于采用所述训练样本的监督标签，确定所述第一预测类别、第二预测类别及第三预测类别相对应的损失值之和，在所述损失值之和未达到预设阈值时，对多塔分类模型实施权重更新，并继续调用其他训练样本实施迭代训练直至模型收敛。

进一步的实施例中，所述目标确定模块1400，包括：多类别判定子模块，用于判别第一类别、第二类别、第三类别相互之间是否相同，当第一类别与第二类别相同，且第一类别与第三类别不相同时，确定第一类别作为目标类别，否则，确定第三类别作为目标类别。

为解决上述技术问题，本申请实施例还提供计算机设备。如图9所示，计算机设备的内部结构示意图。该计算机设备包括通过系统总线连接的处理器、计算机可读存储介质、存储器和网络接口。其中，该计算机设备的计算机可读存储介质存储有操作系统、数据库和计算机可读指令，数据库中可存储有控件信息序列，该计算机可读指令被处理器执行时，可使得处理器实现一种商品分类方法。该计算机设备的处理器用于提供计算和控制能力，支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行本申请的商品分类方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解，图9中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本实施方式中处理器用于执行图8中的各个模块及其子模块的具体功能，存储器存储有执行上述模块或子模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有本申请的商品分类装置中执行所有模块/子模块所需的程序代码及数据，服务器能够调用服务器的程序代码及数据执行所有子模块的功能。

本申请还提供一种存储有计算机可读指令的存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行本申请任一实施例的商品分类方法的步骤。

本领域普通技术人员可以理解实现本申请上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-On l y Memory，ROM)等计算机可读存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

综上所述，本申请一方面，在多模态融合特征的分类结果基础上，借助多模态融合特征中各个单模态特征对应所得的分类结果辅助进行商品分类，有效规避单依靠多模态融合特征的分类结果的误差，确保商品分类的准确度。另一方面，多塔分类模型的多个分类任务通过底层的共享表示来互相帮助学习，互相促进学习，能够提升泛化效果。

本技术领域技术人员可以理解，本申请中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地，具有本申请中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地，现有技术中的具有与本申请中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。

以上所述仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种商品分类方法，其特征在于，包括：

根据所述第一类别、第二类别、第三类别确定出目标类别。

2.根据权利要求1所述的商品分类方法，其特征在于，采用预设的多塔分类模型中的图像编码器编码出所述商品图片的图片语义向量，以及采用文本编码器编码出所述商品文本的文本语义向量，根据所述图片语义向量和文本语义向量构造出图文融合向量，包括如下步骤：

3.根据权利要求1所述的商品分类方法，其特征在于，基于多头注意力机制对所述图文拼接向量进行多级编码，实现所述图片语义向量与所述文本语义向量的特征交互，获得图文融合向量，每一级编码过程，包括如下步骤：

4.根据权利要求1所述的商品分类方法，其特征在于，采用预设的多塔分类模型中的图像编码器提取出所述商品图片对应的图像特征信息，包括如下步骤：

将所述商品图片进行格式化预处理；

将经池化后的图像特征信息进行激活后输出。

5.根据权利要求1所述的商品分类方法，其特征在于，采用预设的多塔分类模型中的文本编码器提取出所述商品文本对应的文本特征信息，构造出文本语义向量，包括如下步骤：

对所述商品文本进行分词；

将所述文本特征信息进行激活后输出。

6.根据权利要求1所述的商品分类方法，其特征在于，获取商品对象的商品文本及商品图片之前，还包括如下步骤：

7.根据权利要求1至6中任意一项所述的商品分类方法，其特征在于，根据所述第一类别、第二类别、第三类别确定出目标类别，包括：

8.一种商品分类装置，其特征在于，包括：

数据获取模块，用于获取商品对象的商品文本及商品图片，所述商品文本为商品的描述信息；

向量获取模块，用于采用预设的多塔分类模型中的图像编码器编码出所述商品图片的图片语义向量，以及采用文本编码器编码出所述商品文本的文本语义向量，根据所述图片语义向量和文本语义向量构造出图文融合向量；

类别分类模块，用于根据所述图片语义向量进行分类获得第一类别，根据所述文本语义向量进行分类获得第二类别，根据所述图文融合向量进行分类获得第三类别；

目标确定模块，用于根据所述第一类别、第二类别、第三类别确定出目标类别。

9.一种计算机设备，包括中央处理器和存储器，其特征在于，所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行如权利要求1至7中任意一项所述的方法的步骤。

10.一种计算机可读存储介质，其特征在于，其以计算机可读指令的形式存储有依据权利要求1至7中任意一项所述的方法所实现的计算机程序，该计算机程序被计算机调用运行时，执行相应的方法所包括的步骤。