CN113837102A

CN113837102A - 图文融合分类方法及其装置、设备、介质、产品

Info

Publication number: CN113837102A
Application number: CN202111128874.1A
Authority: CN
Inventors: 郑彦
Original assignee: Guangzhou Huaduo Network Technology Co Ltd
Current assignee: Guangzhou Huaduo Network Technology Co Ltd
Priority date: 2021-09-26
Filing date: 2021-09-26
Publication date: 2021-12-24
Anticipated expiration: 2041-09-26
Also published as: CN113837102B

Abstract

本申请公开一种图文融合分类方法及其装置、设备、介质、产品，所述方法包括：对商品对象的商品图片进行特征提取，获得相应的图片编码向量；所述图片编码向量包括所述商品图片被分割形成的多个图元相对应的单行向量；对所述商品对象的摘要文本进行特征提取，获得相应的文本编码向量；基于多头注意力机制对由所述图片编码向量和文本编码向量拼接而成的图文拼接向量进行多级编解码，获得图文融合向量；根据所述图文融合向量进行分类，根据分类结果判定所述商品对象的分类标签。本申请能够根据商品对象的商品图片和摘要文本进行特征层面的深层语义交互，深化两类信息的融合后进行分类，能够提升分类准确度。

Description

图文融合分类方法及其装置、设备、介质、产品

技术领域

本申请涉及电商信息技术领域，尤其涉及一种图文融合分类方法及其相应的装置、计算机设备、计算机可读存储介质，以及计算机程序产品。

背景技术

电商平台应用场景中，根据商品信息对商品对象进行分类，是高频发生的。例如，需要对商家实例所上线的商品对象进行不同类型安全性质的识别，识别出是否属于非卖品等。或者有时需要借助分类手段对商品对象的商品信息进行商品识别，识别出其中的商品是否属于目标物品。诸如此类的下游任务，均会依赖对商品对象的商品信息的深层语义特征提取，在此基础上进行相应的分类判别。分类是神经网络模型的基本功能之一，因此，电商应用场景中，广泛应用各种神经网络模型服务于其分类需求。

神经网络模型服务于商品对象的分类，常根据商品对象的商品信息中的图片信息和/或文本信息来提取相应的特征向量，然后根据这些特征向量简单拼接获得的综合向量进行分类，由此确定分类结果。经业界多年探索之后，相应的神经网络模型已经非常普遍，能起到一定的效果，当然也仍有待提升之处。

究其原因，现有技术中的各种协助实现电商平台对商品对象进行分类的神经网络模型中，其所赖以分类的综合向量，均未能真正实现图片信息与文本信息在深层语义上的融合，特别是指使两种信息在语义层面上实现深度交互的情况，因此，相应的分类模型的分类效果始终难以突破其自身固有的门槛，容易出现漏识别、误分类、训练收敛难、训练时间长等各种不利的情况。

本申请人长期从事相关领域的研究，为解决电商领域业内难题，故另辟蹊径。

发明内容

本申请的首要目的在于解决上述问题至少之一而提供一种图文融合分类方法及其相应的装置、计算机设备、计算机可读存储介质、计算机程序产品。

为满足本申请的各个目的，本申请采用如下技术方案：

适应本申请的目的之一而提供的一种图文融合分类方法，包括如下步骤：

对商品对象的商品图片进行特征提取，获得相应的图片编码向量；所述图片编码向量包括所述商品图片被分割形成的多个图元相对应的单行向量；

对所述商品对象的摘要文本进行特征提取，获得相应的文本编码向量；

基于多头注意力机制对由所述图片编码向量和文本编码向量拼接而成的图文拼接向量进行多级编解码，获得图文融合向量；

根据所述图文融合向量进行分类，根据分类结果判定所述商品对象的分类标签。

深化的实施例中，对商品对象的商品图片进行特征提取，获得相应的图片编码向量，包括如下步骤：

将所述商品图片分割为多块预定规格的图元；

针对每个图元，采用图像特征提取器提取对应的单图特征向量；

将所述单图特征向量展开为以单行向量表示的单图嵌入向量；

将所有单图嵌入向量拼接为所述图片编码向量，其中携带各个图元在所述商品图片中的位置信息及区分信息。

深化的实施例中，对所述商品对象的摘要文本进行特征提取，获得相应的文本编码向量，包括如下步骤：

根据预设词典将所述摘要文本转换为文本嵌入向量、位置嵌入向量以及分句嵌入向量；

采用文本特征提取器根据所述文本嵌入向量、位置嵌入向量、分句嵌入向量提取出所述文本编码向量。

深化的实施例中，基于多头注意力机制对由所述图片编码向量和文本编码向量拼接而成的图文拼接向量进行多级编解码，包括如下步骤：

经多个基于多头注意力机制的编码器对所述图文拼接向量进行编码，逐级获得所述图文拼接向量相对应的高层语义信息，最终输出图文交互向量；

经多个基于多头注意力机制的解码器对所述图文交互向量进行解码，整理所述图文交互向量的上下文语义信息，获得图文融合向量；

将所述图文融合向量进行线性转换以映射到分类空间。

具体化的实施例中，经多个基于多头注意力机制的编码器对所述图文拼接向量进行编码的步骤中，每个编码器执行如下步骤：

为其所接收的图文拼接向量中的每个行向量构造查询向量、键向量及值向量；

将所有行向量相对应的值向量进行加权求和，各值向量相应的权重为其相对应的键向量与其他行向量相对应的查询向量的点积的归一化分值；

将加权求和结果乘以转换权重矩阵获得其相对应的中间信息矩阵；

经多层感知器对所述中间信息矩阵进行特征提取，获得图文交互向量，作为下一编码器所需的图文拼接向量，或在最后一个编码器中直接输出。

较佳的实施例中，所述图文编码向量或所述文本编码向量中被插入预设的分类任务标识。

深化的实施例中，根据所述图文融合向量进行分类，根据分类结果判定所述商品对象的分类标签，包括如下步骤：

根据所述图文融合向量被映射的分类空间计算各个分类标签相对应的概率，获得分类结果；

根据分类结果确定其中概率最大的分类标签；

提取所述概率最大的分类标签相对应的表示文本；

输出所述的表示文本。

适应本申请的目的之一而提供的一种图文融合分类装置，包括：图片编码模块、文本编码模块、图文融合模块，以及融合分类模块，其中，所述图片编码模块，用于对商品对象的商品图片进行特征提取，获得相应的图片编码向量；所述图片编码向量包括所述商品图片被分割形成的多个图元相对应的单行向量；所述文本编码模块，用于对所述商品对象的摘要文本进行特征提取，获得相应的文本编码向量；所述图文融合模块，用于基于多头注意力机制对由所述图片编码向量和文本编码向量拼接而成的图文拼接向量进行多级编解码，获得图文融合向量；所述融合分类模块，用于根据所述图文融合向量进行分类，根据分类结果判定所述商品对象的分类标签。

深化的实施例中，所述图片编码模块包括：图元分割子模块，用于将所述商品图片分割为多块预定规格的图元；图像提取子模块，用于针对每个图元，采用图像特征提取器提取对应的单图特征向量；向量展开子模块，用于将所述单图特征向量展开为以单行向量表示的单图嵌入向量；向量拼接子模块，用于将所有单图嵌入向量拼接为所述图片编码向量，其中携带各个图元在所述商品图片中的位置信息及区分信息。

深化的实施例中，所述文本编码模块包括：文本转换子模块，用于根据预设词典将所述摘要文本转换为文本嵌入向量、位置嵌入向量以及分句嵌入向量；文本提取子模块，用于采用文本特征提取器根据所述文本嵌入向量、位置嵌入向量、分句嵌入向量提取出所述文本编码向量。

深化的实施例中，所述图文融合模块包括：图文编码子模块，用于经多个基于多头注意力机制的编码器对所述图文拼接向量进行编码，逐级获得所述图文拼接向量相对应的高层语义信息，最终输出图文交互向量；图文解码子模块，用于经多个基于多头注意力机制的解码器对所述图文交互向量进行解码，整理所述图文交互向量的上下文语义信息，获得图文融合向量；线性映射子模块，用于将所述图文融合向量进行线性转换以映射到分类空间。

具体化的实施例中，所述编码器包括：向量构造单元，用于为其所接收的图文拼接向量中的每个行向量构造查询向量、键向量及值向量；交互运算单元，用于将所有行向量相对应的值向量进行加权求和，各值向量相应的权重为其相对应的键向量与其他行向量相对应的查询向量的点积的归一化分值；结果处理单元，用于将加权求和结果乘以转换权重矩阵获得其相对应的中间信息矩阵；编码输出单元，用于经多层感知器对所述中间信息矩阵进行特征提取，获得图文交互向量，作为下一编码器所需的图文拼接向量，或在最后一个编码器中直接输出。

深化的实施例中，所述融合分类模块包括：分类计算子模块，用于根据所述图文融合向量被映射的分类空间计算各个分类标签相对应的概率，获得分类结果；标签确定子模块，用于根据分类结果确定其中概率最大的分类标签；标签转换子模块，用于提取所述概率最大的分类标签相对应的表示文本；标签输出子模块，用于输出所述的表示文本。

适应本申请的目的之一而提供的一种计算机设备，包括中央处理器和存储器，所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行本申请所述的图文融合分类方法的步骤。

适应本申请的另一目的而提供的一种计算机可读存储介质，其以计算机可读指令的形式存储有依据所述的图文融合分类方法所实现的计算机程序，该计算机程序被计算机调用运行时，执行该方法所包括的步骤。

适应本申请的另一目的而提供的一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现本申请任意一种实施例中所述方法的步骤。

相对于现有技术，本申请的优势如下：

本申请在对商品对象的商品图片和摘要文本进行特征层面的深度交互获得图文融合向量的基础上进行分类，能够获得商品对象相关的更为深层的语义信息，据此对商品对象进行分类，可以获得更为准确的分类结果，更适合服务于与商品对象分类相关的诸如商品推荐、商品安全属性识别等电商平台中的其他下游任务。

根据本申请的原理所调用的神经网络模型，由于本申请基于深度交互的图文融合向量进行分类，其表示学习效果更佳，因此更易被训练至收敛，实践中，训练速度明显优于未对图片编码向量和文本编码向量进行深度交互的情况，由于两种信息在语义层面相交织，因此，一种信息中个别细粒度信息的丢失，也不会影响分类时的识别效果。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请的图文融合分类方法的典型实施例的流程示意图；

图2为本申请实施例中图片编码向量的获取过程的流程示意图；

图3为本申请实施例中基于多头注意力机制进行编解码过程的流程示意图；

图4为本申请实施例中编码器的工作流程示意图；

图5为本申请实施例中处理分类结果的过程的流程示意图；

图6为本申请的图文融合分类装置的原理框图；

图7为本申请所采用的一种计算机设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

本技术领域技术人员可以理解，这里所使用的“客户端”、“终端”、“终端设备”既包括无线信号接收器的设备，其仅具备无发射能力的无线信号接收器的设备，又包括接收和发射硬件的设备，其具有能够在双向通信链路上，进行双向通信的接收和发射硬件的设备。这种设备可以包括：蜂窝或其他诸如个人计算机、平板电脑之类的通信设备，其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备；PCS(PersonalCommunications Service，个人通信系统)，其可以组合语音、数据处理、传真和/或数据通信能力；PDA(Personal Digital Assistant，个人数字助理)，其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global PositioningSystem，全球定位系统)接收器；常规膝上型和/或掌上型计算机或其他设备，其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“客户端”、“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的，或者适合于和/或配置为在本地运行，和/或以分布形式，运行在地球和/或空间的任何其他位置运行。这里所使用的“客户端”、“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端，例如可以是PDA、MID(Mobile Internet Device，移动互联网设备)和/或具有音乐/视频播放功能的移动电话，也可以是智能电视、机顶盒等设备。

本申请所称的“服务器”、“客户端”、“服务节点”等名称所指向的硬件，本质上是具备个人计算机等效能力的电子设备，为具有中央处理器(包括运算器和控制器)、存储器、输入设备以及输出设备等冯诺依曼原理所揭示的必要构件的硬件装置，计算机程序存储于其存储器中，中央处理器将存储在外存中的程序调入内存中运行，执行程序中的指令，与输入输出设备交互，借此完成特定的功能。

需要指出的是，本申请所称的“服务器”这一概念，同理也可扩展到适用于服务器机群的情况。依据本领域技术人员所理解的网络部署原理，所述各服务器应是逻辑上的划分，在物理空间上，这些服务器既可以是互相独立但可通过接口调用的，也可以是集成到一台物理计算机或一套计算机机群的。本领域技术人员应当理解这一变通，而不应以此约束本申请的网络部署方式的实施方式。

本申请的一个或数个技术特征，除非明文指定，既可部署于服务器实施而由客户端远程调用获取服务器提供的在线服务接口来实施访问，也可直接部署并运行于客户端来实施访问。

本申请中所引用或可能引用到的神经网络模型，除非明文指定，既可部署于远程服务器且在客户端实施远程调用，也可部署于设备能力胜任的客户端直接调用，某些实施例中，当其运行于客户端时，其相应的智能可通过迁移学习来获得，以便降低对客户端硬件运行资源的要求，避免过度占用客户端硬件运行资源。

本申请所涉及的各种数据，除非明文指定，既可远程存储于服务器，也可存储于本地终端设备，只要其适于被本申请的技术方案所调用即可。

本领域技术人员对此应当知晓：本申请的各种方法，虽然基于相同的概念而进行描述而使其彼此间呈现共通性，但是，除非特别说明，否则这些方法都是可以独立执行的。同理，对于本申请所揭示的各个实施例而言，均基于同一发明构思而提出，因此，对于相同表述的概念，以及尽管概念表述不同但仅是为了方便而适当变换的概念，应被等同理解。

本申请即将揭示的各个实施例，除非明文指出彼此之间的相互排斥关系，否则，各个实施例所涉的相关技术特征可以交叉结合而灵活构造出新的实施例，只要这种结合不背离本申请的创造精神且可满足现有技术中的需求或解决现有技术中的某方面的不足即可。对此变通，本领域技术人员应当知晓。

本申请的一种图文融合分类方法，可被编程为计算机程序产品，部署于客户端或服务器中运行而实现，例如在本申请的电商平台应用场景中，一般部署在服务器中实施，藉此可以通过访问该计算机程序产品运行后开放的接口，通过图形用户界面与该计算机程序产品的进程进行人机交互而执行该方法。

本申请的一个应用场景，是基于独立站的电商平台中的应用，每个独立站即为电商平台的一个商户实例，拥有独立的访问域名，由其实际拥有者负责进行商品的发布和更新。

独立站的商户实例将每个商品进行上线，电商平台获取与该商品相关的信息之后，构造出相对应的商品对象进行数据存储。商品对象的信息主要包括文本信息和图片信息，其中，文本信息包括商品对象的用于显要显示的标题信息、用于介绍商品详情的内容信息、用于描述商品特征的属性信息等。

为了实施本申请的技术方案，可以采集商品对象的摘要文本及商品图片，其中，摘要文本主要采用商品对象中的标题信息、内容信息及其一项或多项属性信息构成，可由本领域技术人员灵活确定相应的数据构成；商品图片则可以是包含该商品对象的产品外观的主要图片。一般而言，可以按照预设的数量和内容需求获取摘要文本及商品图片，例如摘要文本可以规定为包含商品对象的标题信息及其所有属性项的属性信息、商品图片可以只选取其用于默认显示的单张图片。当然，本领域技术人员可以在此基础上灵活变通调整处理。

请参阅图1，本申请的图文融合分类方法在其典型实施例中，包括如下步骤：

步骤S1100、对商品对象的商品图片进行特征提取，获得相应的图片编码向量；所述图片编码向量包括所述商品图片被分割形成的多个图元相对应的单行向量：

可以采用多种经预训练的图像特征提取模型对所述的商品图片进行特征提取，以便获得其相对应的图片编码向量。所述图像特征提取模型一般包括基于CNN实现的适于对图片进行深层语义特征提取的神经网络模型，例如Resnet、EfficientNet等，可由本领域技术人员灵活选用。

本实施例中，在对所述的商品图片进行特征提取的过程中，先将所述商品图片分割为多个图元，每个图元的尺寸等大，由此，经所述的图像特征提取模型进行特征提取之后，每个图元都能获得一个相对应的单图特征向量，然后，将图像特征提取模型的输出转换为一个高维单行向量，在高维单行向量中叠加该图元在商品图片中相对应的位置信息及其区分信息，最终，将这些单行向量拼接为图片编码向量，该图片编码向量便携带了各个图元在所述商品图片中的位置信息及用于区分不同图元的区分信息。

步骤S1200、对所述商品对象的摘要文本进行特征提取，获得相应的文本编码向量：

对所述商品对象的摘要文本进行特征提取，可以先行对所述的摘要文本进行分词，根据预设的词典将各个分词转换为相应的文本嵌入向量，同理也分词所在的位置编码获得位置嵌入向量，以及编码出区分不同分句的分句嵌入向量，然后将这些向量加和融合后传递给文本特征提取模型进行深层语义信息提取，获得相应的文本特征向量。

对摘要文本进行特征提取所采用的文本特征提取模型，可以采用包括Bert、Electra等预训练模型来实现，本领域技术人员可灵活实施。

步骤S1300、基于多头注意力机制对由所述图片编码向量和文本编码向量拼接而成的图文拼接向量进行多级编解码，获得图文融合向量：

本实施例中，所述的图片编码向量和文本编码向量，被处理为尺度等大的规格，然后拼接为一个图文拼接向量，输入到基于多头注意力机制的神经网络模型中进行编解码，以获得相应的图文融合向量。

此处所采用的基于多头注意力机制的神经网络模型，优选基于Transformer为基础架构的神经网络模型，特别是以Transformer为基础架构的Vision Transformer(ViT)模型。此外，其他能够实现本申请的同等功能的变体模型也可等同替换之。

基于多头注意力机制的神经网络模型，在本申请中，被预训练至收敛之后启用。该神经网络模型适于对所述的图文拼接向量执行特征层面的编解码操作，使得所述图文拼接向量所包含的图片特征向量和文本特征向量在特征层面实现深度交互，从而实现商品图片及其摘要文本在深层语义层面的深度融合，后续的实施例将对此一原理做进一步的揭示，此处暂且不表。

经所述神经网络模型对所述的图文拼接向量进行逐级编码，然后又进行逐级解码的过程中，多头注意力机制始终发挥作用，以便使得编解码过程中充分参考相关上下文信息，最终获得充分考虑了上下文信息的图文融合向量。

所述图文融合向量是所述图片编码向量与所述文本编码向量在语义层面进行了充分交互运算后的产物，因此，从表示学习的角度来看，图文融合向量成功而且统一地表示了商品对象的商品图片和摘要文本之间的关联信息，据此进行分类，区别于现有技术，将能获得更具科学性的结果。

步骤S1400、根据所述图文融合向量进行分类，根据分类结果判定所述商品对象的分类标签：

所述的图文融合向量最终被映射到分类空间，然后采用Softmax构造的多分类器对该分类空间进行概率计算，获得所述图文融合向量映射到各个分类标签相对应的概率，即所述的分类结果。根据这一分类结果中的各个分类标签的分类概率，便可判定所述商品对象相对应的分类标签，通常是将分类概率最大的分类标签作为所述商品对象相对应的分类标签，至此，便可以输出该分类标签相对应的表示文本。

至于所述分类标签所属的分类体系，视本申请的技术方案所服务的下游任务而定，例如，在本申请示例性的对商品对象进行属于何种性质的商品的分类的应用场景中，分类体系中存在多个分类标签，分别指示商品对象为{正常商品；危险商品；嫌疑商品；非卖品}，基于这样的分类体系，若某一商品对象对应所述“正常商品”的分类标签的分类概率最大时，便可判断与“正常商品”相对应的分类标签为最终的分类结果相对应的分类标签。

本申请的所涉的神经网络模型需经预先训练，本领域技术人员均能理解，通过向所述的神经网络模型馈入相应的训练样本对其进行迭代训练，可以逐渐将该神经网络模型训练至收敛，当其达致收敛后便可将其投入使用。由于本申请所采用的神经网络模型基于Transformer或ViT实现，而对于此两类模型的训练过程已为本领域技术人员所能理解，故本申请重点在于给出其训练前的编码过程，而无需再行重点强调其该模型的具体训练过程，本领域技术人员可在本申请揭示的技术方案的基础上，自行训练出本申请所需的神经网络模型。

通过本典型实施例的揭示可知，本申请至少体现出如下的优势：

请参阅图2，深化的实施例中，步骤S1100、对商品对象的商品图片进行特征提取，获得相应的图片编码向量，包括如下步骤：

步骤S1110、将所述商品图片分割为多块预定规格的图元：

本实施例中，先将所述商品图片进行预处理，将其缩放至规格尺寸，然后，再将其分割为多块预定规格的图元，每个图元均为所述商品图片中尺寸一致的局部图像，由此，整张商品图片便被裁切为固定数量的多个所述的图元。

步骤S1120、针对每个图元，采用图像特征提取器提取对应的单图特征向量：

本实施例中，采用基于Resnet网络架构的图像特征提取器对所述各个图元进行特征提取，可以采用Resnet50、Resnet101、IResNet等、ResNeXt101等等基于残差卷积神经网络的网络架构，实践中这一架构的应用能取得较佳的效果。当然，其他效果优秀的网络架构所实现的图像特征提取器也可在本实施例中等同替换使用。

所述图像特征提取器针对每个所述的图元分别进行特征提取，故针对每个图元能获得一个单图特征向量，针对所述商品图片便能获得多个所述的单图特征向量。

在图像特征提取器从图元中提取图像特征的过程中，图元是按照三个通道进行输入的，可以通过一个平均池化层，将其中间过程中生成的三个通道的中间特征向量进行池化以获得所述的单图特征向量。

步骤S1130、将所述单图特征向量展开为以单行向量表示的单图嵌入向量：

单图特征向量是一个二维矩阵，为了适应本申请基于多头注意力机制的神经网络模型的需要，需要将其进行降维，具体是将该二维矩阵在一维向量上展开，即将该二维矩阵中的各个行向量顺序拼接，获得一个单行向量，即单图嵌入向量。假设该单图特征向量是N*D的尺度，则其展开后获得的单图嵌入向量便变为1*(N*D)的尺度，这一尺度对应的行向量维度(N*D)是预先与本申请中的文本特征向量进行统一规定的，以便后续两者能够直接拼接。

步骤S1140、将所有单图嵌入向量拼接为所述图片编码向量，其中携带各个图元在所述商品图片中的位置信息及区分信息。

每个单图特征向量最终均被展开为所述的单行向量，在此基础上，针对同一商品图片，可以通过一个卷积层将其所有的单图嵌入向量拼接为M*(N*D)大小的矩阵，其中，M为图元个数，这一矩阵便为的所述商品图片的图片编码向量。

需要指出的是，各个图元在所述商品图片中是存在相对位置关系的，为了匹配本申请所采用的基于多头注意力机制的神经网络模型的原理，进一步对各个图元的位置信息以及用于区分不同图元的区分信息进行编码，然后将这些编码也进行向量加和融合到各个相应的单图嵌入向量中，使所述图片编码向量携带各个图元相应的位置信息和区分信息。

本实施例通过对商品图片进行预处理，将其分割为多个图元，对各个图元分别提取图像特征并转换为以单行向量表示单图嵌入向量，在单图嵌入向量中融合各图元相应的位置信息及区分信息，然后将这些单图嵌入向量转换为图片编码向量，至此，一张商品图片的图像特征信息，便被转换为了具有序列特征的格式，而基于多头注意力机制的神经网络模型正是处理序列特征的优秀模型，由此，将以往依赖于卷积神经网络处理的问题转换为适于RNN处理的问题，不仅可使多头注意力机制的优势可以在图像识别中得以体现，而且，也更方便实现图像特征信息与文本特征信息之间的深度交互。

深化的实施例中，步骤S1200、对所述商品对象的摘要文本进行特征提取，获得相应的文本编码向量，包括如下步骤：

步骤S1210、根据预设词典将所述摘要文本转换为文本嵌入向量、位置嵌入向量以及分句嵌入向量：

对于所述商品对象的摘要文本，如前所述，其可以由多个方面的商品信息所构成，包括但不限于商品对象的标题文本、属性数据、内容文本等，均为文本数据。对于文本数据进行向量化的技术较为成熟，一般在对其进行数据清洗的基础上，进行分词，然后利用预设词典结合独热编码对其进行向量化即可。

本实施例中，推荐采用预训练的Bert模型来作为文本提取器，适应Bert模型的特征，需要从所述摘要文本中编码出三个向量，分别是用于表示其各个分词的文本嵌入向量(Token Embedding)、用于表示各个分词的位置信息的位置嵌入向量(PositionEmbedding)、用于表示句子间区分信息的分句嵌入向量(Segment Embedding)，对此，本领域技术人员可以灵活实施。

步骤S1220、采用文本特征提取器根据所述文本嵌入向量、位置嵌入向量、分句嵌入向量提取出所述文本编码向量：

根据Bert模型的原理，所述三个嵌入向量，即文本嵌入向量、位置嵌入向量、分句嵌入向量将被进行融合，在融合的基础上，Bert模型对其进行相应的编解码，同理也是基于多头注意力机制，最终获得与所述摘要文本相对应的文本编码向量。由于Bert模型为较成熟的模型，故对其实现过程在此不行赘述。

需要注意的是，Bert模型输出的文本编码向量也为一个二维矩阵，被统一为与前一实施例的M*(N*D)相同的尺度，以便实现与所述图片编码向量的拼接。

本实施例中，进一步揭示了针对所述商品对象的摘要文本的编码过程，推荐使用Bert模型来实现文本编码，充分利用现有技术中的优秀成果，使编码效率更高，所获得的文本编码向量对摘要文本的深层语义的理解更到位。

请参阅图3，深化的实施例中，步骤S1300、基于多头注意力机制对由所述图片编码向量和文本编码向量拼接而成的图文拼接向量进行多级编解码，包括如下步骤：

步骤S1310、经多个基于多头注意力机制的编码器对所述图文拼接向量进行编码，逐级获得所述图文拼接向量相对应的高层语义信息，最终输出图文交互向量：

如前所述，本申请中，推荐采用基于多头注意力机制的神经网络模型来实现，因此，本实施例借助ViT的具体架构来展开本申请对该神经网络模型的开发利用。而ViT的编解码过程其实是继承了Transformer固有的架构，因此，本实施例中所用到的编码器和解码器，即为Transformer固有架构中的编码器和解码器。

Transformer固有架构中，包含多个编码器构成的编码路径，每个编码器均采用相同的结构，包括一个自注意力层和一个多层感知器(MLP)，所述自注意力层应用了多头注意力机制。

据此，每个编码器的自注意力层基于多头注意力机制所固设的算法对其所接收的图文拼接向量进行深度的特征交互之后，将特征交互之后获得的结果传递给其多层感知器进行特征提取，再由多层感知器将特征提取结果提供给下一编码器，以此类推，后一编码器的自注意力层以前一编码器的多层感知器的输出为输入，按照相同的逻辑进行处理，每个编码器中都通过多层感知器对自注意力层的输出结果进行高层语义提取并输出，直至最后一个编码器获得的输出可作为图文交互向量，将该图文交互向量提供至Transformer的解码路径中。

步骤S1320、经多个基于多头注意力机制的解码器对所述图文交互向量进行解码，整理所述图文交互向量的上下文语义信息，获得图文融合向量：

根据Transformer固有架构可知，其解码路径包括有数量与其编码路径的编码器数量相对应的多个解码器，编码路径中最后一个编码器的输出，会被各个解码器利用，以便参考上下文语义信息，基于所述图文交互向量进行整理，最终获得相应的图文融合向量。至此，可以理解，所述图文融合向量实现了对商品对象的商品图片和摘要文本的深层语义的交互和综合，两者在特征层面上浑然一体，完成了于商品对象的商品图片和摘要文本的综合表示学习。

步骤S1330、将所述图文融合向量进行线性转换以映射到分类空间：

所述图文整合向量最后经一个全连接层进行线性转换，将其映射到分类空间中，以便后续由分类器计算该分类空间各个分类标签相对应的分类概率。

本实施例结合Transformer固有架构，揭示了基于多头注意力机制适用于本申请中实现对商品对象的商品图片和摘要文本的交互性表示学习的过程，由此可以理解，推而广之，应用多头注意力机制的网络模型，理论上均可以实现对商品对象的商品图片的摘要文本的交互性表示学习，这对于扩大本申请所能兼容的现有模型有示例性作用。

请参阅图4，具体化的实施例中，步骤S1310、经多个基于多头注意力机制的编码器对所述图文拼接向量进行编码的步骤中，每个编码器执行如下步骤：

步骤S1311、为其所接收的图文拼接向量中的每个行向量构造查询向量、键向量及值向量：

仍以Transformer固有架构示例，所述的每个编码器中的自注意力层，当其接收到一个向量的输入后，例如第一个编码器以所述图文拼接向量为其输入，而后续的图文拼接向量则以前一级的编码器的多层感知器的输出为输入，获取被输入的图文拼接向量，根据固有的架构原理，便可为其中的每个行向量构造相应的查询向量(Q)、键向量(K)、值向量(V)，构造Q、K、V向量是多头注意力机制的基本原理，是实现特征层面深度交互的基础手段。

步骤S1312、将所有行向量相对应的值向量进行加权求和，各值向量相应的权重为其相对应的键向量与其他行向量相对应的查询向量的点积的归一化分值：

根据自注意力机制固有的算法，对于每个行向量，先计算其键向量与其他行向量相对应的查询向量的点积，然后将据点积采用Softmax函数进行归一化，使多个点积的加和总值为1，以归一化后的数值作为各个行向量相对应的权重。

在此基础上，将所有行向量相对应的值向量与其相对应的权重进行相乘后相加，实现加权求和，获得一个加权求和后的求和矩阵。

步骤S1313、将加权求和结果乘以转换权重矩阵获得其相对应的中间信息矩阵：

为了标准化输出尺度，将加权求和结果即所述的求和矩阵乘以一个转换权重矩阵，获得一个与原来的图文拼接向量相同尺度的中间信息矩阵，可以理解，经过Q、K、V间运算，中间信息矩阵中，已经实现了各个行向量之间的深度语义交互。

步骤S1314、经多层感知器对所述中间信息矩阵进行特征提取，获得图文交互向量，作为下一编码器所需的图文拼接向量，或在最后一个编码器中直接输出：

所述的中间信息矩阵被输出至作为编码器的前馈神经网络的多层感知器中进行高层语义特征提取，获得图文交互向量，然后，便可将其输出给下一编码器，对于下一编码器来说，该图文交互向量即也视同第一编码器的图文拼接向量做同理的运算，如果输出图文交互信息的编码器是最后一个编码器，则直接将该图文交互信息输出给解码路径中的各个解码器。

本实施例中，详细揭示如何结合多头注意力机制来实现本申请的商品对象的商品图片和摘要文本之间的深度交互，实现深层语义融合，可以看出，本申请有效地利用了现有的技术架构，获得了期望的结果，对于电商平台中商品对象的多模态特征交互融合起到关键贡献作用，为实现根据商品对象的图、文信息进行分类奠定了坚实的技术基础。

一个实施例中，为了指导本申请所采用的神经网络模型习得分类能力，可以在所述文本编码向量或者所述图片编码向量中添加分类任务标识，由于本申请采用了Bert模型用于提取文本特征信息，根据Bert模型原理，可在其文本编码向量中添加[CLS]标识来实现，同理，该标识也可添加至图片编码向量中。相应的，在预测阶段，进行图片编码或者文本编码时，也可对应添加该分类任务标识。

请参阅图5，深化的实施例中，步骤S1400、根据所述图文融合向量进行分类，根据分类结果判定所述商品对象的分类标签，包括如下步骤：

步骤S1410、根据所述图文融合向量被映射的分类空间计算各个分类标签相对应的概率，获得分类结果：

此前图文融合向量已经通过全连接而映射至分类空间，因此，此处采用一个Softmax构造的简单分类器对该分类空间中的各个分类标签进行归一化计算概率即可，由此获得各个分类标签相对应的概率，所有分类标签的概率加和为1。

步骤S1420、根据分类结果确定其中概率最大的分类标签：

不难理解，概率计算得到的分类结果中，其中概率最大的分类标签，即为所述的商品对象所属的分类相对应的分类标签。

步骤S1430、提取所述概率最大的分类标签相对应的表示文本：

根据所述分类标签便可查找相应的映射词典，确定出该分类标签相对应的表示文本。

步骤S1440、输出所述的表示文本：

根据下游任务的不同，可以适应性地输出所述的表示文本。例如对于一个识别非卖品的分类任务而言，当将商品对象识别为非卖品时，便直接输出该商品对象属于所述表示文本的通知消息，或者只将这一表示文本添加为相应的商品对象的属性数据，在后续处理。诸如此类，本领域技术人员可灵活变通实施。

请参阅图6，适应本申请的目的之一而提供的一种图文融合分类装置，是对本申请的图文融合分类方法的功能化体现，该装置包括：图片编码模块1100、文本编码模块1200、图文融合模块1300，以及融合分类模块1400，其中，所述图片编码模块1100，用于对商品对象的商品图片进行特征提取，获得相应的图片编码向量；所述图片编码向量包括所述商品图片被分割形成的多个图元相对应的单行向量；所述文本编码模块1200，用于对所述商品对象的摘要文本进行特征提取，获得相应的文本编码向量；所述图文融合模块1300，用于基于多头注意力机制对由所述图片编码向量和文本编码向量拼接而成的图文拼接向量进行多级编解码，获得图文融合向量；所述融合分类模块1400，用于根据所述图文融合向量进行分类，根据分类结果判定所述商品对象的分类标签。

深化的实施例中，所述图片编码模块1100包括：图元分割子模块，用于将所述商品图片分割为多块预定规格的图元；图像提取子模块，用于针对每个图元，采用图像特征提取器提取对应的单图特征向量；向量展开子模块，用于将所述单图特征向量展开为以单行向量表示的单图嵌入向量；向量拼接子模块，用于将所有单图嵌入向量拼接为所述图片编码向量，其中携带各个图元在所述商品图片中的位置信息及区分信息。

深化的实施例中，所述文本编码模块1200包括：文本转换子模块，用于根据预设词典将所述摘要文本转换为文本嵌入向量、位置嵌入向量以及分句嵌入向量；文本提取子模块，用于采用文本特征提取器根据所述文本嵌入向量、位置嵌入向量、分句嵌入向量提取出所述文本编码向量。

深化的实施例中，所述图文融合模块1300包括：图文编码子模块，用于经多个基于多头注意力机制的编码器对所述图文拼接向量进行编码，逐级获得所述图文拼接向量相对应的高层语义信息，最终输出图文交互向量；图文解码子模块，用于经多个基于多头注意力机制的解码器对所述图文交互向量进行解码，整理所述图文交互向量的上下文语义信息，获得图文融合向量；线性映射子模块，用于将所述图文融合向量进行线性转换以映射到分类空间。

深化的实施例中，所述融合分类模块1400包括：分类计算子模块，用于根据所述图文融合向量被映射的分类空间计算各个分类标签相对应的概率，获得分类结果；标签确定子模块，用于根据分类结果确定其中概率最大的分类标签；标签转换子模块，用于提取所述概率最大的分类标签相对应的表示文本；标签输出子模块，用于输出所述的表示文本。

为解决上述技术问题，本申请实施例还提供计算机设备。如图7所示，计算机设备的内部结构示意图。该计算机设备包括通过系统总线连接的处理器、计算机可读存储介质、存储器和网络接口。其中，该计算机设备的计算机可读存储介质存储有操作系统、数据库和计算机可读指令，数据库中可存储有控件信息序列，该计算机可读指令被处理器执行时，可使得处理器实现一种图文融合分类方法。该计算机设备的处理器用于提供计算和控制能力，支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行本申请的图文融合分类方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本实施方式中处理器用于执行图6中的各个模块及其子模块的具体功能，存储器存储有执行上述模块或子模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有本申请的图文融合分类装置中执行所有模块/子模块所需的程序代码及数据，服务器能够调用服务器的程序代码及数据执行所有子模块的功能。

本申请还提供一种存储有计算机可读指令的存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行本申请任一实施例的图文融合分类方法的步骤。

本申请还提供一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被一个或多个处理器执行时实现本申请任一实施例所述方法的步骤。

本领域普通技术人员可以理解实现本申请上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等计算机可读存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

综上所述，本申请能够根据商品对象的商品图片和摘要文本进行特征层面的深层语义交互，深化两类信息的融合，并据此进行分类，能够以更高准确率获取商品对象的分类结果，适于电商平台中对商品对象进行分类，具有广阔的应用前景。

本技术领域技术人员可以理解，本申请中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地，具有本申请中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地，现有技术中的具有与本申请中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。

以上所述仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种图文融合分类方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的图文融合分类方法，其特征在于，对商品对象的商品图片进行特征提取，获得相应的图片编码向量，包括如下步骤：

将所述商品图片分割为多块预定规格的图元；

3.根据权利要求1所述的图文融合分类方法，其特征在于，对所述商品对象的摘要文本进行特征提取，获得相应的文本编码向量，包括如下步骤：

4.根据权利要求1所述的图文融合分类方法，其特征在于，基于多头注意力机制对由所述图片编码向量和文本编码向量拼接而成的图文拼接向量进行多级编解码，包括如下步骤：

将所述图文融合向量进行线性转换以映射到分类空间。

5.根据权利要求4所述的图文融合分类方法，其特征在于，经多个基于多头注意力机制的编码器对所述图文拼接向量进行编码的步骤中，每个编码器执行如下步骤：

6.根据权利要求1至5中任意一项所述的图文融合分类方法，其特征在于，所述图文编码向量或所述文本编码向量中被插入预设的分类任务标识。

7.根据权利要求1至5中任意一项所述的图文融合分类方法，其特征在于，根据所述图文融合向量进行分类，根据分类结果判定所述商品对象的分类标签，包括如下步骤：

根据分类结果确定其中概率最大的分类标签；

提取所述概率最大的分类标签相对应的表示文本；

输出所述的表示文本。

8.一种计算机设备，包括中央处理器和存储器，其特征在于，所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行如权利要求1至7中任意一项所述的方法的步骤。

9.一种计算机可读存储介质，其特征在于，其以计算机可读指令的形式存储有依据权利要求1至7中任意一项所述的方法所实现的计算机程序，该计算机程序被计算机调用运行时，执行相应的方法所包括的步骤。

10.一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现权利要求1至7任意一项中所述方法的步骤。