CN114168777A

CN114168777A - 图像数据的处理方法、装置、存储介质和处理器

Info

Publication number: CN114168777A
Application number: CN202010948257.5A
Authority: CN
Inventors: 綦金玮; 张邦; 潘攀
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority date: 2020-09-10
Filing date: 2020-09-10
Publication date: 2022-03-11

Abstract

本发明公开了一种图像数据的处理方法、装置、存储介质和处理器。其中，该方法包括：获取产品对象的产品数据，其中，产品数据包括如下至少之一：产品的图片信息、视频信息和文字信息；分析产品数据，生成产品对象的多模态信息，其中，多模态信息包括：不同模态信息的特征序列；采用多模态网络模型处理多模态信息，生成用于描述产品对象的产品信息。本发明解决了产品信息的描述内容精度低的技术问题。

Description

图像数据的处理方法、装置、存储介质和处理器

技术领域

本发明涉及数据处理领域，具体而言，涉及一种图像数据的处理方法、装置、存储介质和处理器。

背景技术

目前，在发布产品信息的过程中，通常会利用当前上传的产品对象的产品数据，自动填写出完整的该产品对象的产品信息，进而进行发布。

由于待发布的产品信息一般是由不同模态的产品特征进行拼接融合而成，而该产品信息的生成的方法仅建模了单一模态的信息，从而导致了生成的产品信息的描述内容精度低的技术问题。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种图像数据的处理方法、装置、存储介质和处理器，以至少解决产品信息的描述内容精度低的技术问题。

根据本发明实施例的一个方面，提供了一种图像数据的处理方法。该方法可以包括：获取产品对象的产品数据，其中，产品数据包括如下至少之一：产品的图片信息、视频信息和文字信息；分析产品数据，生成产品对象的多模态信息，其中，多模态信息包括：不同模态信息的特征序列；采用多模态网络模型处理多模态信息，生成用于描述产品对象的产品信息。

根据本发明实施例的一个方面，还提供了一种图像数据的处理方法。该方法可以包括：在操作界面上的录入页面中录入产品对象的产品数据，其中，产品数据包括如下至少之一：产品的图片信息、视频信息和文字信息；在操作界面内感应到文案生成指令，分析产品数据，并生成产品对象的多模态信息，其中，多模态信息包括：不同模态信息的特征序列；在操作界面上显示用于描述产品对象的产品信息，其中，产品信息通过采用多模态网络模型处理多模态信息而生成。

根据本发明实施例的一个方面，还提供了一种图像数据的处理方法。该方法可以包括：在交互界面上显示产品对象的产品数据，其中，产品数据包括如下至少之一：产品的图片信息、视频信息和文字信息；在交互界面内感应到文案生成指令；响应文案生成指令，分析产品数据，生成产品对象的多模态信息，其中，多模态信息包括：不同模态信息的特征序列；在交互界面上输出选择页面，选择页面提供至少一个文案选项，其中，不同的文案选项用于表征针对不同模态的模态信息采用不同的处理模型；在交互界面上显示用于描述产品对象的产品信息，其中，基于选中的文案选项，采用多模态网络模型处理多模态信息，生成产品信息。

根据本发明实施例的一个方面，还提供了一种图像数据的处理方法。该方法可以包括：前端客户端上传产品对象的产品数据，其中，产品数据包括如下至少之一：产品的图片信息、视频信息和文字信息；前端客户端将产品对象的产品数据传输到后台服务器；前端客户端接收后台服务器返回分析产品数据而生成的多模态信息，其中，多模态信息包括：产品对象的不同模态信息的特征序列；前端客户端采用多模态网络模型处理多模态信息，生成用于描述产品对象的产品信息。

根据本发明实施例的一个方面，还提供了一种图像数据的处理装置。该装置可以包括：获取单元，用于获取产品对象的产品数据，其中，产品数据包括如下至少之一：产品的图片信息、视频信息和文字信息；第一处理单元，用于分析产品数据，生成产品对象的多模态信息，其中，多模态信息包括：不同模态信息的特征序列；第二处理单元，用于采用多模态网络模型处理多模态信息，生成用于描述产品对象的产品信息。

根据本发明实施例的一个方面，还提供了一种图像数据的处理装置。该装置可以包括：录入单元，用于在操作界面上的录入页面中录入产品对象的产品数据，其中，产品数据包括如下至少之一：产品的图片信息、视频信息和文字信息；第三处理单元，用于在操作界面内感应到文案生成指令，分析产品数据，并生成产品对象的多模态信息，其中，多模态信息包括：不同模态信息的特征序列；第一显示单元，用于在操作界面上显示用于描述产品对象的产品信息，其中，产品信息通过采用多模态网络模型处理多模态信息而生成。

根据本发明实施例的一个方面，还提供了一种图像数据的处理装置。该装置可以包括：第二显示单元，用于在交互界面上显示产品对象的产品数据，其中，产品数据包括如下至少之一：产品的图片信息、视频信息和文字信息；感应单元，用于在交互界面内感应到文案生成指令；第四处理单元，用于响应文案生成指令，分析产品数据，生成产品对象的多模态信息，其中，多模态信息包括：不同模态信息的特征序列；输出单元，用于在交互界面上输出选择页面，选择页面提供至少一个文案选项，其中，不同的文案选项用于表征针对不同模态的模态信息采用不同的处理模型；第三显示单元，用于在交互界面上显示用于描述产品对象的产品信息，其中，基于选中的文案选项，采用多模态网络模型处理多模态信息，生成产品信息。

根据本发明实施例的一个方面，还提供了一种图像数据的处理装置。该装置可以包括：上传单元，用于使前端客户端上传产品对象的产品数据，其中，产品数据包括如下至少之一：产品的图片信息、视频信息和文字信息；传输单元，用于使前端客户端将产品对象的产品数据传输到后台服务器；接收单元，用于使前端客户端接收后台服务器返回分析产品数据而生成的多模态信息，其中，多模态信息包括：产品对象的不同模态信息的特征序列；第五处理单元，用于使前端客户端采用多模态网络模型处理多模态信息，生成用于描述产品对象的产品信息。

根据本发明实施例的一个方面，还提供了一种计算机可读存储介质。该计算机可读存储介质包括存储的程序，其中，在程序被处理器运行时控制计算机可读存储介质所在设备执行本发明实施例的图像数据的处理方法。

根据本发明实施例的一个方面，还提供了一种处理器。该处理器用于运行程序，其中，程序运行时执行本发明实施例的图像数据的处理方法。

根据本发明实施例的一个方面，还提供了一种图像数据的处理系统。该系统可以包括：处理器；存储器，与处理器相连接，用于为处理器提供处理以下处理步骤的指令：获取产品对象的产品数据，其中，产品数据包括如下至少之一：产品的图片信息、视频信息和文字信息；分析产品数据，生成产品对象的多模态信息，其中，多模态信息包括：不同模态信息的特征序列；采用多模态网络模型处理多模态信息，生成用于描述产品对象的产品信息。

在本发明实施例中，获取产品对象的产品数据，其中，产品数据包括如下至少之一：产品的图片信息、视频信息和文字信息；分析产品数据，生成产品对象的多模态信息，其中，多模态信息包括：不同模态信息的特征序列；采用多模态网络模型处理多模态信息，生成用于描述产品对象的产品信息。也就是说，本申请通过获取产品对象的多模态信息，并基于多模态网络模型对多模态信息进行综合处理，从而生成更加准确的用于描述产品对象的产品信息，解决了产品信息的描述内容精度低的技术问题，达到了提高产品信息的描述内容的精度的技术效果。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种用于实现图像数据的处理方法的计算机终端(或移动设备)的硬件结构框图；

图2是根据本发明实施例的一种图像数据的处理方法的了流程图；

图3是根据本发明实施例的另一种图像数据的处理方法的流程图；

图4是根据本发明实施例的另一种图像数据的处理方法的流程图；

图5是根据本发明实施例的另一种图像数据的处理方法的流程图；

图6是根据本发明实施例的一种商品图像数据的处理方法的示意图；

图7是根据本发明实施例的一种通过transformer网络模型对上述商品图像、商品的属性关键词以及商品的类目关键词进行处理的示意图；

图8A是根据本发明实施例的一种图像数据的处理方法的交互界面的示意图；

图8B是根据本发明实施例的一种图像数据的处理方法的场景示意图；

图9是根据本发明实施例的一种图像数据的处理装置的示意图；

图10是根据本发明实施例的另一种图像数据的处理装置的示意；

图11是根据本发明实施例的另一种图像数据的处理装置的示意图；

图12是根据本发明实施例的另一种图像数据的处理装置的示意图；以及

图13是根据本发明实施例的一种计算机终端的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释：

卷积神经网络(Convolutional Neural Networks，简称为CNN)，为一种前馈神经网络，人工神经元可以响应周围单元，可以进行大型图像处理，其包括卷积层和池化层；

长短期记忆网络(Long Short-Term Memory，简称为LSTM)，为一种时间递归神经网络，适合处理和预测时间序列中间隔和延迟相对较长的重要事件；

多模态transformer网络模型，为一种端到端模型，可视为编码器-解码器结构，可以利用自动学习的方法充分学习输入的多模态信息，以生成准确的产品信息；

自注意力机制(self-attention)，为注意力机制中的一种，也为transformer中的重要组成部分，目的是关注部分细节，而不是基于全局进行分析，核心就是如何基于目标确定要关注的部分，以及在找到这部分细节之后进一步进行分析；

交叉熵损失函数(cross-entropy loss)，为应用在分类问题中常使用的一种损失函数。

实施例1

根据本发明实施例，还提供了一种图像数据的处理方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1是根据本发明实施例的一种用于实现图像数据的处理方法的计算机终端(或移动设备)的硬件结构框图。如图1所示，计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b，……，102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置106。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器104可用于存储应用软件的软件程序以及模块，如本发明实施例中的图像数据的处理方法对应的程序指令/数据存储装置，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的应用程序的图像数据的处理方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。

此处需要说明的是，在一些可选实施例中，上述图1所示的计算机设备(或移动设备)可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是，图1仅为特定具体实例的一个实例，并且旨在示出可存在于上述计算机设备(或移动设备)中的部件的类型。

在图1所示的运行环境下，本申请提供了如图2所示的图像数据的处理方法。需要说明的是，该实施例的重建图像的方法可以由图1所示实施例的移动终端执行。

图2是根据本发明实施例的一种图像数据的处理方法的了流程图。如图2所示，该方法可以包括以下步骤：

步骤S202，获取产品对象的产品数据。

在本发明上述步骤S202提供的技术方案中，产品数据包括如下至少之一：产品的图片信息、视频信息和文字信息。

在该实施例中，产品对象可以为商品对象，比如，为卖家待发布的新商品。获取上述产品对象的产品数据，该产品数据可以用于从多种不同的角度对产品对象进行描述，可以包括产品的图像信息和文字信息，其中，图像信息可以包括图片信息和视频信息，该图片信息和视频信息属于视觉信息，可以包括产品对象内部的颜色、纹理等细节信息，上述文字信息可以用于对商品的高层语义信息进行抽象的描述，上述图片信息、视频信息和文字信息之间具有很强的互补特性。

步骤S204，分析产品数据，生成产品对象的多模态信息。

在本发明上述步骤S204提供的技术方案中，在获取产品对象的产品数据之后，分析产品数据，生成产品对象的多模态信息，其中，多模态信息包括：不同模态信息的特征序列。

在该实施例中，对产品数据进行分析，可以是对产品数据进行检测，生成产品对象的关键词，该关键词可以用于表征产品对象的特性，然后基于产品数据和产品对象的关键词进行组合处理，从而生成产品对象的多模态信息，该多模态信息也即多种模态信息、多模态数据，其可以包括不同模态信息的特征序列，其中，不同模态信息可以为不同模态的模态信息，特征序列可以包括图像特征序列和文本特征序列。可选地，该多模态信息包括产品对象的图像信息和文字信息。

步骤S206，采用多模态网络模型处理多模态信息，生成用于描述产品对象的产品信息。

在本发明上述步骤S206提供的技术方案中，在分析产品数据，生成产品对象的多模态信息之后，采用多模态网络模型处理多模态信息，生成用于描述产品对象的产品信息。

在该实施例中，多模态网络模型可以为一种端到端模型，可视为编码器-解码器结构，可以利用自动学习的方法充分学习输入的多模态信息，以生成准确的产品信息，该产品信息可以为文本描述内容，用于描述产品对象，比如，为商品信息，可以包括但不限于产品对象的产品标题、产品卖点等信息。可选地，该实施例的多模态网络模型可以为多模态transformer网络模型，用于充分学习不同模态信息之间的关联关系，从而生成更加准确的产品信息。

该实施例通过多模态网络模型对多模态信息进行综合利用，使得生成的产品信息的描述内容精度更高。可选地，该实施例将生成的产品信息自动填写至在发布产品对象时需要的信息填写模板中，以对产品对象进行发布，从而在发布产品时，减少卖家手动填写产品信息的时间，提高了产品发布的效率。

在产品智能发布的场景下，结合产品的多模态信息自动生成产品对象的产品信息，对于提升卖家发布产品对象的效率至关重要。而在相关技术中，无论是基于单模态还是多模态的文本描述生成算法，都无法充分利用不同模态信息之间具有互补性的关联关系，导致生成的产品信息的描述精度不高。

然而，本申请通过本申请上述步骤S202至步骤S206，获取产品对象的产品数据，其中，产品数据包括如下至少之一：产品的图片信息、视频信息和文字信息；分析产品数据，生成产品对象的多模态信息，其中，多模态信息包括：不同模态信息的特征序列；采用多模态网络模型处理多模态信息，生成用于描述产品对象的产品信息。也就是说，本申请通过获取产品对象的多模态信息，并基于多模态网络模型对多模态信息进行综合处理，从而生成更加准确的用于描述产品对象的产品信息，解决了产品信息的描述内容精度低的技术问题，达到了提高产品信息的描述内容的精度的技术效果。

下面对该实施例的上述方法进行进一步介绍。

作为一种可选的实施方式，步骤S206，多模态网络模型在处理多模态信息的过程中，通过学习不同模态信息之间的关联关系，来生成产品信息。

在该实施例中，多模态信息包括不同模态信息之间的特征序列，并且不同模态信息之间具有互补信息。该实施例的多模态网络模型在处理上述多模态信息的过程中，可以针对不同模态信息之间的关联关系进行学习，充分利用多模态信息的互补信息生成产品信息，从而有效地提升对产品对象进行描述的准确性。

作为一种可选的实施方式，步骤S204，分析产品数据，生成产品对象的多模态信息，包括：对产品数据进行属性检测和类目预测，生成产品对象的属性关键词和类目关键词；基于产品数据、产品对象的属性关键词和类目关键词，对不同模态信息进行预处理，生成产品对象的多模态信息。

在该实施例中，在实现分析产品数据，生成产品对象的多模态信息时，可以通过产品属性检测模块对产品数据进行属性检测后的类目检测，生成产品对象的属性关键词；该实施例还可以通过类目预测模块对产品数据进行类目预测，生成产品对象的类目关键词。在生成产品对象的属性关键词和类目关键词之后，该实施例可以基于产品数据、产品对象的属性关键词和类目关键词，对不同模态信息进行预处理，可选地，该实施例可以基于产品图像、产品对象的属性关键词和类目关键词，对不同模态信息进行预处理，从而生成产品对象的多模态信息。下面对该实施例的基于产品数据、产品对象的属性关键词和类目关键词，对不同模态信息进行预处理的方法进行进一步介绍。

作为一种可选的实施方式，基于产品数据、产品对象的属性关键词和类目关键词，对不同模态信息进行预处理，包括：多模态网络模型的编码器使用卷积神经网络模型对产品的图片、视频进行图像的特征提取，生成图像特征序列；多模态网络模型的编码器提取产品对象的属性关键词和类目关键词中的文本结构化编码特征，生成文本特征序列；对图像特征序列和文本特征序列进行拼接处理，生成预处理结果。

在该实施例中，多模态网络模型的编码器可以包括卷积神经网络模型，该卷积神经网络模型可以为ResNet-50卷积神经网络，从而在实现基于产品数据、产品对象的属性关键词和类目关键词，对不同模态信息进行预处理时，该实施例可以是编码器使用卷积神经网络模型对产品的图片、视频进行图像的特征提取，通过提取出的特征生成图像特征序列，可以是提取图片、视频的特征图(feature map)，并将其组成一个图像特征序列。可选地，该实施例的属性关键词和类目关键词中包括文本结构化编码特征(word embedding)，可以使用编码器提取上述文本结构化编码特征，并将其组成文本特征序列，其中，该实施例的不同模态信息的特征序列包括上述图像特征序列和文本特征序列。

在生成上述图像特征序列和文本特征序列之后，可以对图像特征序列和文本特征序列进行拼接处理，生成预处理结果，进而可以将该预处理结果输入至编码器中。

作为一种可选的实施方式，步骤S206，采用多模态网络模型处理多模态信息，生成用于描述产品对象的产品信息，包括：采用多模态网络模型的编码器对预处理结果进行编码，生成图文特征序列，其中，图文特征序列为包含了图像和文本的多模态时域注意力信息的特征序列；多模态网络模型的解码器基于图文特征序列，生成产品信息。

在该实施例中，多模态网络模型可以包括编码器(encoder)和解码器(decoder)，其中，编码器可以称为编码器子模块，解码器可以称为解码器子模块。该实施例可以在基于产品数据、产品对象的属性关键词和类目关键词，对不同模态信息进行预处理，生成产品对象的多模态信息之后，通过编码器对预处理结果进行进一步编码，从而得到图文特征序列，该图文特征序列包含了图像和文本的多模态时域注意力信息的特征序列，也可以称为多模态时域特征序列。

在采用多模态网络模型的编码器对预处理结果进行编码，生成图文特征序列之后，该实施例可以利用多模态网络模型的解码器对上述图文特征序列进行解码处理，从而生成产品对象的产品信息，其中，解码器可以为LSTM。

作为一种可选的实施方式，采用多模态网络模型的编码器对预处理结果进行编码，生成图文特征序列，包括：多模态网络模型的编码器通过自注意力机制对不同模态信息之间的关联关系进行建模，并生成注意力权重，其中，不同模态信息之间的关联关系为图像特征和文本特征之间的关联关系；基于建模结果和注意力权重，生成图文特征序列，其中，图文特征序列为包含了图像信息和文本信息的多模态时域注意力信息的特征序列。

在该实施例中，在实现采用多模态网络模型的编码器对预处理结果进行编码，生成图文特征序列时，可以利用多模态网络模型的编码器通过自注意力机制(self-attention)对不同模态信息对应的特征之间的关联关系进行建模，比如，通过自注意力机制建模图像特征和文本特征之间的关联关系，从而不同模态信息之间的关联关系可以为图像特征和文本特征之间的关联关系，得到建模结果，并生成注意力权重，进而基于上述建模结果和注意力权重，生成包含图像信息和文本信息的图文特征序列。

作为一种可选的实施方式，多模态网络模型的解码器基于图文特征序列，生成产品信息，包括：提取当前预存的描述文本序列；多模态网络模型的解码器基于描述文本序列和图文特征序列执行交叉熵损失处理，预测得到产品信息。

在该实施例中，在实现多模态网络模型的解码器基于图文特征序列，生成产品信息时，解码器的输入包括两部分，一个是描述文本序列，另一个是图文特征序列。该实施例的多模态网络模型的解码器可以提取当前预存的描述文本序列，其可以是当前生成的描述文本序列历史信息，进而基于描述文本序列和图文特征序列执行交叉熵损失处理，其中，图文特征序列可以为产品对象的图文信息，可以通过交叉熵损失函数对上述描述文本序列和图文特征序列执行交叉熵损失处理，从而预测得到产品对象的产品信息，其中，包括预测得到每次描述的下一个词语，最终通过循环执行上述步骤从而得到完整的文本描述语句，将该完整的描述语句确定为产品对象的产品信息。

作为一种可选的实施方式，在多模态网络模型的解码器基于描述文本序列和图文特征序列执行交叉熵损失处理，预测得到产品信息之前，该方法还包括：基于通过多模态网络模型的解码器中的自注意力机制模型计算图文特征序列和描述文本序列之间的注意力权重。

在该实施例中，在多模态网络模型的解码器基于描述文本序列和图文特征序列执行交叉熵损失处理，预测得到产品信息之前，同样通过多模态网络模型的解码器中的自注意力机制计算计算图文特征序列和描述文本序列之间的注意力权重，进而结合该注意力权重以及当前的描述文本序列历史信息以及产品对象的图文信息，通过交叉熵损失函数预测得到描述的下一个词语，以生成产品对象的产品信息。

作为一种可选的实施方式，在步骤S206，生成用于描述产品对象的产品信息之后，该方法还包括：基于产品信息，生成多种类型的产品素材；发布多个产品素材。

在该实施例中，在生成用于描述产品对象的产品信息之后，比如，在生成产品对象的产品标题和产品卖点之后，可以通过其生成多种类型的产品素材，该产品素材为用于在发布产品对象时所需要的素材，可以为图片产品素材、视频产品素材、文字产品素材等，每种类型的产品素材可以包括上述产品信息，进而发布多个产品素材。

作为一种可选的实施方式，在生成待发布的产品素材之后，该方法还包括：上传待发布的产品素材，并提取待发布的产品素材中待验证的多个产品内容；判断待验证的至少一个产品内容是否满足录入标准；如果满足，则成功将产品素材录入到发布模板中；否则，对验证失败的产品内容进行预处理，并在预处理后的产品内容满足录入标准的情况下，将产品素材录入到发布模板中。

在该实施例中，在生成待发布的产品素材之后，可以先将待发布的产品素材上传至产品发布平台，并且从待发布的产品素材中提取出待验证的多个产品内容，该多个产品内容为产品素材中需要录入至发布模板的内容，可以先从多个产品内容中确定待验证的至少一个产品内容，然后判断该待验证的至少一个产品内容是否满足录入标准，该录入标准也即用于确定至少一个产品内容是否符合规范的标准，如果判断出该待验证的至少一个产品内容满足录入标准，则确定产品素材验证成功，则可以成功将产品素材录入到发布模板中；如果判断出该待验证的至少一个产品内容不满足标准，确定该至少一个产品内容验证失败，则对验证失败的产品内容进行预处理，比如，对验证失败的产品内容进行修改、调整，并判断预处理后的产品内容是否满足录入标准，如果判断出预处理后的产品内容满足录入标准，则可以将产品素材录入到发布模板中，以通过发布模板将产品对象发布至产品发布平台上。

本发明实施例还从人机交互角度提供了另一种图像数据的处理方法。

图3是根据本发明实施例的另一种图像数据的处理方法的流程图。如图3所示，该方法可以包括以下步骤：

步骤S302，在操作界面上的录入页面中录入产品对象的产品数据。

在本发明上述步骤S302提供的技术方案中，产品数据包括如下至少之一：产品的图片信息、视频信息和文字信息。

在该实施例中，操作界面上显示有录入页面，该录入页面用于录入产品对象的产品数据，该产品对象可以为商品对象，比如，为卖家待发布的新商品，该产品数据可以用于从多种不同的角度对产品对象进行描述，可以包括产品的图片信息、视频信息和文字信息，其中，图片信息和视频信息属于视觉信息，可以包括产品对象内部的颜色、纹理等细节信息，上述文字信息可以用于对商品的高层语义信息进行抽象的描述，上述图片信息、视频信息和文字信息之间具有很强的互补特性。

步骤S304，在操作界面内感应到文案生成指令，分析产品数据，并生成产品对象的多模态信息。

在本发明上述步骤S304提供的技术方案中，在操作界面上的录入页面中录入产品对象的产品数据之后，在操作界面内感应到文案生成指令，分析产品数据，并生成产品对象的多模态信息，其中，多模态信息包括：不同模态信息的特征序列。

在该实施例中，可以在操作界面内接收并感应文案生成指令，该文案生成指令用于分析产品数据，生成产品对象的多模态信息，可以由用户在操作界面上触控得到。可选地，该实施例在感应到文案生成指令，对产品数据进行分析时，可以是对产品数据进行检测，生成产品对象的关键词，该关键词可以用于表征产品对象的特性，然后基于产品数据和产品对象的关键词进行组合处理，从而生成产品对象的多模态信息，其可以包括不同模态信息的特征序列，该特征序列可以包括图像特征序列和文本特征序列。可选地，该多模态信息包括产品对象的图像信息和文字信息。

步骤S306，在操作界面上显示用于描述产品对象的产品信息。

在本发明上述步骤S306提供的技术方案中，在生成产品对象的多模态信息之后，可以在操作界面上显示用于描述产品对象的产品信息，该产品信息通过采用多模态网络模型处理多模态信息而生成。

在该实施例中，可以采用多模态网络模型利用自动学习的方法充分学习输入的多模态信息，从而生成准确的产品信息，该产品信息可以为文本，用于描述产品对象，比如，为商品信息，可以包括但不限于产品对象的产品标题、产品卖点等信息，进而在操作界面上显示用于描述产品对象的产品信息。

该实施例通过多模态网络模型对多模态信息进行综合利用，使得在操作界面上显示的产品信息的描述内容精度和合理性更高。可选地，该实施例可以在操作界面上将产品信息自动填写至在发布产品对象时需要的信息填写模板中，以对产品对象进行发布，从而在发布产品时，减少卖家手动填写产品信息的时间，提高了产品发布的效率。

作为一种可选的实施方式，在步骤S306，操作界面上显示用于描述产品对象的产品信息之后，该方法还包括：在操作界面上弹出指导信息，其中，指导信息包括产品信息存在的缺陷信息；在操作界面上显示基于指导信息生成的创作素材，其中，创作素材为构成产品素材的基础信息；基于创作素材，生成多种类型的产品素材；发布多个产品素材。

在该实施例中，在操作界面上显示用于描述产品对象的产品信息之后，还可以在操作界面上弹出指导信息，该指导信息可以包括产品信息存在的缺陷信息，该缺陷信息用于指示产品信息在生成产品素材时所存在的问题，可以用于指导创作素材的生成，其中，创作素材为构成产品素材的基础信息。该实施例可以基于上述指导信息生成创作素材，比如，基于指导信息查漏补缺，以生成创作素材，进而在操作界面上显示上述创作素材。

在操作界面上显示基于指导信息生成的创作素材之后，可以基于创作素材生成多种类型的产品素材，该产品素材为用于在发布产品对象时所需要的素材，可以为图片产品素材、视频产品素材、文字产品素材等，每种类型的产品素材可以包括上述产品信息，进而发布多个产品素材。

图4是根据本发明实施例的另一种图像数据的处理方法的流程图。如图4所示，该方法可以包括以下步骤：

步骤S402，在交互界面上显示产品对象的产品数据。

在本发明上述步骤S402提供的技术方案中，产品数据包括如下至少之一：产品的图片信息、视频信息和文字信息。

在该实施例中，获取产品对象的产品数据，进而将获取到的产品数据显示在交互界面上，该产品对象可以为商品对象，比如，为卖家待发布的新商品，该产品数据可以用于从多种不同的角度对产品对象进行描述，可以包括产品的图片信息、视频信息和文字信息，其中，该图片信息和视频信息属于视觉信息，可以包括产品对象内部的颜色、纹理等细节信息，上述文字信息可以用于对商品的高层语义信息进行抽象的描述，上述图片信息、视频信息和文字信息之间具有很强的互补特性。

步骤S404，在交互界面内感应到文案生成指令。

在本发明上述步骤S404提供的技术方案中，在交互界面上显示产品对象的产品数据之后，在交互界面内感应到文案生成指令，

在该实施例中，可以在操作界面内接收并感应文案生成指令，该文案生成指令用于分析产品数据，生成产品对象的多模态信息，可以由用户在交互界面上触控得到。

步骤S406，响应文案生成指令，分析产品数据，生成产品对象的多模态信息。

在本发明上述步骤S406提供的技术方案中，在交互界面内感应到文案生成指令之后，响应文案生成指令，分析产品数据，生成产品对象的多模态信息，其中，多模态信息包括：不同模态信息的特征序列，该特征序列可以包括图像特征序列和文本特征序列。

在该实施例中，在感应到文案生成指令之后，可以响应该文案生成指令，对产品数据进行分析，可以是对产品数据进行检测，生成产品对象的关键词，该关键词可以用于表征产品对象的特性，然后基于产品数据和产品对象的关键词进行组合处理，从而生成产品对象的多模态信息，其可以包括不同模态信息之间的关联关系。可选地，该多模态信息包括产品对象的图像信息和文字信息。

步骤S408，在交互界面上输出选择页面，选择页面提供至少一个文案选项。

在本发明上述步骤S408提供的技术方案中，在生成产品对象的多模态信息之后，在交互界面上输出选择页面，选择页面提供至少一个文案选项，其中，不同的文案选项用于表征针对不同模态的模态信息采用不同的处理模型。

在该实施例中，在交互界面上可以输出并显示选择页面，在该选择页面上的不同位置上，显示有至少一个文案选项，以便用户进行选择，其中，不同的上述文案选项可以用于表征针对不同模态的模态信息在处理时所采用的处理模型，该处理模型可以包括多模态网络模型。

步骤S410，在交互界面上显示用于描述产品对象的产品信息。

在本发明上述步骤S410提供的技术方案中，在选择页面提供至少一个文案选项之后，在交互界面上显示用于描述产品对象的产品信息，其中，基于选中的文案选项，采用多模态网络模型处理多模态信息，生成产品信息。

在该实施例中，基于选中的文案选项，可以确定在处理多模态信息时所采用的处理模型为多模态网络模型，其可以为一种端到端模型，可视为编码器-解码器结构，可以利用自动学习的方法充分学习输入的多模态信息，以生成准确的产品信息，该产品信息可以为文本，用于描述产品对象，进而在交互界面上显示上述产品信息。

该实施例通过多模态网络模型对多模态信息进行综合利用，使得在交互界面上显示的产品信息的描述内容精度更高。可选地，该实施例将生成的产品信息自动填写至在发布产品对象时需要的信息填写模板中，以对产品对象进行发布，从而在发布产品时，减少卖家手动填写产品信息的时间，提高了产品发布的效率。

本发明实施例还从前端客户端一侧提供了另一种图像数据的处理方法。

图5是根据本发明实施例的另一种图像数据的处理方法的流程图。如图5所示，该方法可以包括以下步骤：

步骤S502，前端客户端上传产品对象的产品数据。

在本发明上述步骤S502提供的技术方案中，产品数据包括如下至少之一：产品的图片信息、视频信息和文字信息。

在该实施例中，前端客户端可以为商家发布端，可以接收作用在操作界面上的上传操作指令，响应该上传操作指令，开始上传产品对象的产品数据，其中，产品对象可以为商品对象，该产品数据可以用于从多种不同的角度对产品对象进行描述，可以包括产品的图片信息、视频信息和文字信息，该图片信息和视频信息属于视觉信息，可以包括产品对象内部的颜色、纹理等细节信息，上述文字信息可以用于对商品的高层语义信息进行抽象的描述，上述图片信息、视频信息和文字信息之间具有很强的互补特性。

步骤S504，前端客户端将产品对象的产品数据传输到后台服务器。

在本发明上述步骤S504提供的技术方案中，在前端客户端上传产品对象的产品数据之后，前端客户端可以将产品对象的产品数据传输到后台服务器。

在该实施例中，前端客户端与后台服务器之间建立了通信连接，可以将产品对象的产品数据传输到后台服务器，以使该后台服务器对产品数据进行处理。

步骤S506，前端客户端接收后台服务器返回分析产品数据而生成的多模态信息。

在本发明上述步骤S506提供的技术方案中，在前端客户端将产品对象的产品数据传输到后台服务器之后，前端客户端接收后台服务器返回分析产品数据而生成的多模态信息，其中，多模态信息包括：产品对象的不同模态信息的特征序列。

在该实施例中，在后台服务器接收到产品对象的产品数据之后，可以对产品数据进行分析。可选地，该实施例的后台服务器可以是对产品数据进行检测，生成产品对象的关键词，该关键词可以用于表征产品对象的特性，然后基于产品数据和产品对象的关键词进行组合处理，从而生成产品对象的多模态信息，其可以包括不同模态信息之间的关联关系。

在后台服务器生成多模态信息之后，前端客户端接收后台服务器分析产品数据而生成的多模态信息。

步骤S508，前端客户端采用多模态网络模型处理多模态信息，生成用于描述产品对象的产品信息。

在本发明上述步骤S508提供的技术方案中，在前端客户端接收后台服务器返回分析产品数据而生成的多模态信息之后，前端客户端采用多模态网络模型处理多模态信息，生成用于描述产品对象的产品信息。

在该实施例中，前端客户端可以多模态网络模型利用自动学习的方法充分学习输入的多模态信息，以生成准确的产品信息，该产品信息可以为文本，用于描述产品对象，比如，为商品信息，可以包括但不限于产品对象的产品标题、产品卖点等信息。

该实施例通过多模态网络模型对多模态信息进行综合利用，使得在前端客户端上生成的产品信息的描述内容精度更高。可选地，该实施例将生成的产品信息自动填写至在发布产品对象时需要的信息填写模板中，以对产品对象进行发布，从而在发布产品时，减少卖家手动填写产品信息的时间，提高了产品发布的效率。

在相关技术中，无论是基于单模态还是多模态的描述内容生成算法，都无法充分利用不同模态信息之间具有互补性的关联关系，从而导致生成的描述内容的精度不高。而该实施例可以为一种基于多模态的产品信息自动填写方法，能够同时利用产品对象的多模态信息进行输入，并通过基于自注意力机制的多模态网络模型，充分学习不同模态信息之间的关联关系，从而生成更加准确的产品信息，解决了产品信息的描述内容精度低的技术问题，达到了提高产品信息的描述内容精度的技术效果。

实施例2

下面对该实施例的上述方法的优选实施方式进行进一步介绍，具体以产品对象为商品进行举例介绍。

在商品智能发布的场景下，卖家在发布新商品时，通常是需要手动输入大量信息，包括商品的标题、卖点等。在相关技术中，发布端缺乏自动商品信息填写的解决方案，这样一方面导致卖家在填写信息上花费大量精力，从而影响商品发布的效率；另一方面对于新卖家而言，填写精准且有吸引力的商品标题、卖点也很有难度，进而影响商品的曝光和销量。

在相关技术中，可以利用CNN作为编码器建模图像的视觉信息，然后利用LSTM作为解码器生成图像的文本描述。但是，这种技术方案的问题在于：只建模了图像的视觉信息，而忽略了文本的高层语义信息的补充作用，从而导致生成的描述内容的精度不高。

在另一种相关技术中，可以利用长短期记忆网络构建序列到序列(sequence tosequence)的编码器-解码器模型，其中，编码器用于输入文本的关键词，解码器用于输出完整的文本描述。但是，这种技术方案的问题在于：仅仅依赖单模态的文本信息生成描述内容，而缺少图像的视觉信息补充，从而导致生成的描述内容对商品细节的描述不足。

在另一种相关技术中，可以构建多模态编码器，利用卷积神经网络提取图像特征，同时提取文本结构化编码特征(word embedding)，在对多模态特征进行拼接融合后，将拼接后的结果输入到基于长短期记忆网络(LSTM)的解码器中，最终输出文本描述内容。但是，这种技术方案的问题在于：仅仅对不同模态的特征进行简单的拼接融合，而无法充分学习不同模态信息之间的关联关系，从而导致生成的文本描述内容的精度不高。

由上述可知，在相关技术中，基于单模态数据生成的文本描述方法，在编码器部分仅仅建模了图像或是文本这单一模态的信息，而缺乏对多模态信息的综合利用，从而导致生成的文本描述内容的精度较低或者对商品细节描述不够充分。

另一方面，相关技术的基于多模态数据的文本描述生成方法，虽然利用了图像、文本等不同模态的信息，但这仅仅是较为直接的将不同模态的特征进行拼接融合，而忽略了不同模态信息之间的关联关系，从而导致生成的文本描述内容的精度不高。

在商品智能发布的场景下，如何利用现有较为成熟的商品属性检测以及类目预测结果，结合原始的商品图像组成多模态的信息输入，并通过机器学习的方法，利用卖家上传的商品图像自动填写出完整的商品标题和卖点描述，是商品智能发布的关键问题。由于不同模态的数据能够从多种角度对商品进行描述，比如，文本信息(如商品属性、商品类目)能够对商品的高层语义信息进行抽象的描述，而图像(商品图)的视觉信息则包含了商品内部的颜色、纹理等细节信息，因而图像、文本等多种模态的数据具有很强的互补特性。如果能够充分利用多种模态的互补信息，则可以有效地提升对商品进行描述的准确性。然而，在相关技术中，文本描述生成的方法往往只建模了单一模态的信息，或是没有充分融合利用图像、文本等不同模态信息的互补特性，从而导致生成的文本描述对商品核心卖点的描述不够准确，或对商品细节的描述不足。

该实施例提出了一种端到端模型的基于多模态输入的商品标题和卖点自动填写方法，可以同时处理多模态信息的输入，包括商品的图像、商品属性文本以及商品类目信息等。该实施例可以通过端到端模型的时空联合学习建模图像空间特性以及文本时序特性之间的关联关系，生成更加准确、合理的商品标题、卖点描述结果，从而减少卖家手动填写商品信息的时间，进而提高商品发布的效率。

图6是根据本发明实施例的一种商品图像数据的处理方法的示意图。如图6所示，卖家在上传商品图像之后，可以首先通过商品属性检测模块对商品图像进行检测，得到商品的属性关键词，通过类目预测模块对于商品图像进行检测，得到商品的类目关键词，然后将商品图像、商品的属性关键词以及商品的类目关键词输入到多模态transformer网络模型中，多模态transformer网络模型对上述商品图像、商品的属性关键词以及商品的类目关键词进行处理，得到该商品的文本描述内容。

图7是根据本发明实施例的一种通过transformer网络模型对上述商品图像、商品的属性关键词以及商品的类目关键词进行处理的示意图。如图7所示，该实施例的transformer网络模型包括编码器和解码器，对于输入的商品图像，可以首先使用卷积神经网络ResNet-50提取商品图像的特征图，并将提取出的商品图像的特征图组成一个图像特征序列，然后对商品的属性关键词以及类目关键词提取文本结构化编码特征，将提取出的文本结构化编码特征组成文本特征序列，然后对上述图像特征序列和文本特征序列进行拼接，将拼接得到的结果输入到transformer模型的编码器网络中，通过自注意力机制建模图像和文本特征之间的关联关系，并得到注意力权重，进而基于建模结果和注意力权重生成包含图像和文本的多模态时域注意力信息的图文特征序列。

在解码器子模块中，输入分为两个部分，一部分是从编码器得到的图文特征序列(多模态时域特征序列)，另一部分是解码器当前生成的描述文本序列，同样通过自注意力机制计算图文特征序列和描述文本序列这两者之间的注意力权重，进而结合当前的描述文本序列历史信息以及商品的图文信息，通过交叉熵损失函数来预测得到该描述的下一个词语。最终通过循环执行上述步骤从而得到完整的商品的文本描述内容。

图8A是根据本发明实施例的一种图像数据的处理方法的交互界面的示意图。如图8A所示，用户可以在操作界面上的录入页面中录入产品对象的产品数据，其中，产品数据包括如下至少之一：产品的图片信息B、视频信息P和文字信息I，通过点击“产品信息生成”案件，则分析产品数据，并生成产品对象的多模态信息，其中，多模态信息包括：不同模态信息的特征序列，最终在操作界面上显示用于描述产品对象的产品信息，该产品信息通过采用多模态transformer网络模型处理多模态信息而生成。该实施例通过获取产品对象的多模态信息，并基于多模态transformer网络模型处理多模态信息，从而生成更加准确的用于描述产品对象的产品信息，解决了产品信息的描述内容精度低的技术问题，达到了提高产品信息的描述内容的精度的技术效果。

图8B是根据本发明实施例的一种图像数据的处理方法的场景示意图。如图8B所示，计算设备获取产品对象的产品数据，其中，产品数据包括如下至少之一：产品的图片信息、视频信息和文字信息，可以在交互界面上显示上述产品数据。然后在交互界面内感应到文案生成指令，响应该文案生成指令，分析产品数据，生成产品对象的多模态信息，可以在交互界面上输出选择页面，该选择页面提供至少一个文案选项，其中，不同的文案选项用于表征针对不同模态的模态信息采用不同的处理模型，其中，多模态信息包括：不同模态信息的特征序列；将多模态信息输入至多模态transformer网络模型，通过多模态transformer网络模型处理上述多模态信息，生成用于描述产品对象的产品信息，进而在交互界面上显示用于描述产品对象的产品信息。

在商品智能发布的场景下，可以结合商品的多模态信息自动生成商品的标题、卖点等描述，对于提升卖家发布商品的效率至关重要。然而，在相关技术中，无论是基于单模态还是多模态的文本描述生成算法，都无法充分利用不同模态数据之间具有互补性的关联关系，从而导致生成的文本描述精度不高。而该实施例实现了一种基于多模态的商品标题和卖点自动填写方法，能够同时利用商品的多种模态信息输入，通过基于自注意力机制的transformer网络模型，充分学习不同模态信息之间的关联关系，从而生成更加准确的商品标题和卖点描述，从而解决了产品信息的描述内容精度低的技术问题，进而达到了提高产品信息的描述内容精度的技术效果。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

实施例3

根据本发明实施例，还提供了一种用于实施上述图像数据的处理方法的图像数据的处理装置。需要说明的是，该实施例的图像数据的处理装置可以用于执行本发明图2所示实施例的图像数据的处理方法。

图9是根据本发明实施例的一种图像数据的处理装置的示意图。如图9所示，该图像数据的处理装置90可以包括：获取单元91、第一处理单元92和第二处理单元93。

获取单元91，用于获取产品对象的产品数据，其中，产品数据包括如下至少之一：产品的图片信息、视频信息和文字信息。

第一处理单元92，用于分析产品数据，生成产品对象的多模态信息，其中，多模态信息包括：不同模态信息的特征序列。

第二处理单元93，用于采用多模态网络模型处理多模态信息，生成用于描述产品对象的产品信息。

此处需要说明的是，上述获取单元91、第一处理单元92和第二处理单元93对应于实施例1中的步骤S202至步骤S206，三个单元与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述单元作为装置的一部分可以运行在实施例一提供的计算机终端10中。

根据本发明实施例，还提供了另一种用于实施上述图像数据的处理方法的图像数据的处理装置。需要说明的是，该实施例的图像数据的处理装置可以用于执行本发明图3所示实施例的图像数据的处理方法。

图10是根据本发明实施例的另一种图像数据的处理装置的示意图。如图10所示，该图像数据的处理装置100可以包括：录入单元101、第三处理单元102和第一显示单元103。

录入单元101，用于在操作界面上的录入页面中录入产品对象的产品数据，其中，产品数据包括如下至少之一：产品的图片信息、视频信息和文字信息。

第三处理单元102，用于在操作界面内感应到文案生成指令，分析产品数据，并生成产品对象的多模态信息，其中，多模态信息包括：不同模态信息的特征序列。

第一显示单元103，用于在操作界面上显示用于描述产品对象的产品信息，其中，产品信息通过采用多模态网络模型处理多模态信息而生成。

此处需要说明的是，上述录入单元101、第三处理单元102和第一显示单元103对应于实施例1中的步骤S302至步骤S306，三个单元与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述单元作为装置的一部分可以运行在实施例一提供的计算机终端10中。

根据本发明实施例，还提供了另一种用于实施上述图像数据的处理方法的图像数据的处理装置。需要说明的是，该实施例的图像数据的处理装置可以用于执行本发明图4所示实施例的图像数据的处理方法。

图11是根据本发明实施例的另一种图像数据的处理装置的示意图。如图11所示，该图像数据的处理装置110可以包括：第二显示单元111、感应单元112、第四处理单元113、输出单元114和第三显示单元115。

第二显示单元111，用于在交互界面上显示产品对象的产品数据，其中，产品数据包括如下至少之一：产品的图片信息、视频信息和文字信息。

感应单元112，用于在交互界面内感应到文案生成指令。

第四处理单元113，用于响应文案生成指令，分析产品数据，生成产品对象的多模态信息，其中，多模态信息包括：不同模态信息的特征序列。

输出单元114，用于在交互界面上输出选择页面，选择页面提供至少一个文案选项，其中，不同的文案选项用于表征针对不同模态的模态信息采用不同的处理模型。

第三显示单元115，用于在交互界面上显示用于描述产品对象的产品信息，其中，基于选中的文案选项，采用多模态网络模型处理多模态信息，生成产品信息。

此处需要说明的是，上述第二显示单元111、感应单元112、第四处理单元113、输出单元114和第三显示单元115对应于实施例1中的步骤S402至步骤S410，五个单元与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述单元作为装置的一部分可以运行在实施例一提供的计算机终端10中。

根据本发明实施例，还提供了另一种用于实施上述图像数据的处理方法的图像数据的处理装置。需要说明的是，该实施例的图像数据的处理装置可以用于执行本发明图5所示实施例的图像数据的处理方法。

图12是根据本发明实施例的另一种图像数据的处理装置的示意图。如图12所示，该图像数据的处理装置120可以包括：上传单元121、传输单元122、接收单元123和第五处理单元124。

上传单元121，用于使前端客户端上传产品对象的产品数据，其中，产品数据包括如下至少之一：产品的图片信息、视频信息和文字信息。

传输单元122，用于使前端客户端将产品对象的产品数据传输到后台服务器。

接收单元123，用于使前端客户端接收后台服务器返回分析产品数据而生成的多模态信息，其中，多模态信息包括：产品对象的不同模态信息的特征序列。

第五处理单元124，用于使前端客户端采用多模态网络模型处理多模态信息，生成用于描述产品对象的产品信息。

此处需要说明的是，上述上传单元121、传输单元122、接收单元123和第五处理单元124对应于实施例1中的步骤S502至步骤S508，五个单元与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述单元作为装置的一部分可以运行在实施例一提供的计算机终端10中。

在该实施例的图像数据的处理装置中，通过获取产品对象的多模态信息，并基于多模态网络模型对多模态信息进行综合处理，从而生成更加准确的用于描述产品对象的产品信息，解决了产品信息的描述内容精度低的技术问题，达到了提高产品信息的描述内容的精度的技术效果。

实施例4

本发明的实施例可以提供一种图像数据的处理系统，该图像数据的处理系统可以包括计算机终端，该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地，在本实施例中，上述计算机终端也可以替换为移动终端等终端设备。

可选地，在本实施例中，上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。

在本实施例中，上述计算机终端可以执行应用程序的图像数据的处理方法中以下步骤的程序代码：获取产品对象的产品数据，其中，产品数据包括如下至少之一：产品的图片信息、视频信息和文字信息；分析产品数据，生成产品对象的多模态信息，其中，多模态信息包括：不同模态信息的特征序列；采用多模态网络模型处理多模态信息，生成用于描述产品对象的产品信息。

可选地，图13是根据本发明实施例的一种计算机终端的结构框图。如图13所示，该计算机终端A可以包括：一个或多个(图中仅示出一个)处理器1302、存储器1304、以及传输装置1306。

其中，存储器可用于存储软件程序以及模块，如本发明实施例中的图像数据的处理方法和装置对应的程序指令/模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的图像数据的处理方法。存储器可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至移动终端A。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：获取产品对象的产品数据，其中，产品数据包括如下至少之一：产品的图片信息、视频信息和文字信息；分析产品数据，生成产品对象的多模态信息，其中，多模态信息包括：不同模态信息的特征序列；采用多模态网络模型处理多模态信息，生成用于描述产品对象的产品信息。

可选地，上述处理器还可以执行如下步骤的程序代码：多模态网络模型在处理多模态信息的过程中，通过学习不同模态信息之间的关联关系，来生成产品信息。

可选地，上述处理器还可以执行如下步骤的程序代码：对产品数据进行属性检测和类目预测，生成产品对象的属性关键词和类目关键词；基于产品数据、产品对象的属性关键词和类目关键词，对不同模态信息进行预处理，生成产品对象的多模态信息。

可选地，上述处理器还可以执行如下步骤的程序代码：多模态网络模型的编码器使用卷积神经网络模型对产品的图片、视频进行图像的特征提取，生成图像特征序列；多模态网络模型的编码器提取产品对象的属性关键词和类目关键词中的文本结构化编码特征，生成文本特征序列；对图像特征序列和文本特征序列进行拼接处理，生成预处理结果。

可选地，上述处理器还可以执行如下步骤的程序代码：采用多模态网络模型的编码器对预处理结果进行编码，生成图文特征序列，其中，图文特征序列为包含了图像和文本的多模态时域注意力信息的特征序列；多模态网络模型的解码器基于图文特征序列，生成产品信息。

可选地，上述处理器还可以执行如下步骤的程序代码：多模态网络模型的编码器通过自注意力机制对不同模态信息之间的关联关系进行建模，并生成注意力权重，其中，不同模态信息之间的关联关系为图像特征和文本特征之间的关联关系；基于建模结果和注意力权重，生成图文特征序列，其中，图文特征序列为包含了图像信息和文本信息的多模态时域注意力信息的特征序列。

可选地，上述处理器还可以执行如下步骤的程序代码：提取当前预存的描述文本序列；多模态网络模型的解码器基于描述文本序列和图文特征序列执行交叉熵损失处理，预测得到产品信息。

可选地，上述处理器还可以执行如下步骤的程序代码：在多模态网络模型的解码器基于描述文本序列和图文特征序列执行交叉熵损失处理，预测得到产品信息之前，基于通过多模态网络模型的解码器中的自注意力机制模型计算图文特征序列和描述文本序列之间的注意力权重。

可选地，上述处理器还可以执行如下步骤的程序代码：在生成用于描述产品对象的产品信息之后，基于产品信息，生成多种类型的产品素材；发布多个产品素材。

可选地，上述处理器还可以执行如下步骤的程序代码：在生成待发布的产品素材之后，上传待发布的产品素材，并提取待发布的产品素材中待验证的多个产品内容；判断待验证的至少一个产品内容是否满足录入标准；如果满足，则成功将产品素材录入到发布模板中；否则，对验证失败的产品内容进行预处理，并在预处理后的产品内容满足录入标准的情况下，将产品素材录入到发布模板中。

作为一种可选的示例，处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：在操作界面上的录入页面中录入产品对象的产品数据，其中，产品数据包括如下至少之一：产品的图片信息、视频信息和文字信息；在操作界面内感应到文案生成指令，分析产品数据，并生成产品对象的多模态信息，其中，多模态信息包括：不同模态信息的特征序列；在操作界面上显示用于描述产品对象的产品信息，其中，产品信息通过采用多模态网络模型处理多模态信息而生成。

可选地，上述处理器还可以执行如下步骤的程序代码：在操作界面上显示用于描述产品对象的产品信息之后，在操作界面上弹出指导信息，其中，指导信息包括产品信息存在的缺陷信息；在操作界面上显示基于指导信息生成的创作素材，其中，创作素材为构成产品素材的基础信息；基于创作素材，生成多种类型的产品素材；发布多个产品素材。

作为一种可选的示例，处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：在交互界面上显示产品对象的产品数据，其中，产品数据包括如下至少之一：产品的图片信息、视频信息和文字信息；在交互界面内感应到文案生成指令；响应文案生成指令，分析产品数据，生成产品对象的多模态信息，其中，多模态信息包括：不同模态信息的特征序列；在交互界面上输出选择页面，选择页面提供至少一个文案选项，其中，不同的文案选项用于表征针对不同模态的模态信息采用不同的处理模型；在交互界面上显示用于描述产品对象的产品信息，其中，基于选中的文案选项，采用多模态网络模型处理多模态信息，生成产品信息。

作为一种可选的示例，处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：前端客户端上传产品对象的产品数据，其中，产品数据包括如下至少之一：产品的图片信息、视频信息和文字信息；前端客户端将产品对象的产品数据传输到后台服务器；前端客户端接收后台服务器返回分析产品数据而生成的多模态信息，其中，多模态信息包括：产品对象的不同模态信息的特征序列；前端客户端采用多模态网络模型处理多模态信息，生成用于描述产品对象的产品信息。

采用本发明实施例，提供了一种图像数据的处理的方案。通过获取产品对象的产品数据，其中，产品数据包括如下至少之一：产品的图片信息、视频信息和文字信息；分析产品数据，生成产品对象的多模态信息，其中，多模态信息包括：不同模态信息的特征序列；采用多模态网络模型处理多模态信息，生成用于描述产品对象的产品信息。本申请通过获取产品对象的多模态信息，并基于多模态网络模型对多模态信息进行综合处理，从而生成更加准确的用于描述产品对象的产品信息，解决了产品信息的描述内容精度低的技术问题，达到了提高产品信息的描述内容的精度的技术效果。

本领域普通技术人员可以理解，图13所示的结构仅为示意，计算机终端A也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternet Devices，MID)、PAD等终端设备。图13其并不对上述计算机终端A的结构造成限定。例如，计算机终端A还可包括比图13中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图13所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(RandomAccess Memory，RAM)、磁盘或光盘等。

实施例5

本发明的实施例还提供了一种计算机可读存储介质。可选地，在本实施例中，上述计算机可读存储介质可以用于保存上述实施例一所提供的图像数据的处理方法所执行的程序代码。

可选地，在本实施例中，上述计算机可读存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。

可选地，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：获取产品对象的产品数据，其中，产品数据包括如下至少之一：产品的图片信息、视频信息和文字信息；分析产品数据，生成产品对象的多模态信息，其中，多模态信息包括：不同模态信息的特征序列；采用多模态网络模型处理多模态信息，生成用于描述产品对象的产品信息。

可选地，计算机可读存储介质还被设置为存储用于执行以下步骤的程序代码：多模态网络模型在处理多模态信息的过程中，通过学习不同模态信息之间的关联关系，来生成产品信息。

可选地，计算机可读存储介质还被设置为存储用于执行以下步骤的程序代码：对产品数据进行属性检测和类目预测，生成产品对象的属性关键词和类目关键词；基于产品数据、产品对象的属性关键词和类目关键词，对不同模态信息进行预处理，生成产品对象的多模态信息。可选地，计算机可读存储介质还被设置为存储用于执行以下步骤的程序代码：多模态网络模型的编码器使用卷积神经网络模型对产品的图片、视频进行图像的特征提取，生成图像特征序列；多模态网络模型的编码器提取产品对象的属性关键词和类目关键词中的文本结构化编码特征，生成文本特征序列；对图像特征序列和文本特征序列进行拼接处理，生成预处理结果。

可选地，计算机可读存储介质还被设置为存储用于执行以下步骤的程序代码：采用多模态网络模型的编码器，分别对不同模态信息进行预处理；采用多模态网络模型的编码器对预处理结果进行编码，生成图文特征序列，其中，图文特征序列为包含了图像和文本的多模态时域注意力信息的特征序列；多模态网络模型的解码器基于图文特征序列，生成产品信息。

可选地，计算机可读存储介质还被设置为存储用于执行以下步骤的程序代码：多模态网络模型的编码器通过自注意力机制对不同模态信息之间的关联关系进行建模，并生成注意力权重，其中，不同模态信息之间的关联关系为图像特征和文本特征之间的关联关系；基于建模结果和注意力权重，生成图文特征序列，其中，图文特征序列为包含了图像信息和文本信息的多模态时域注意力信息的特征序列。

可选地，计算机可读存储介质还被设置为存储用于执行以下步骤的程序代码：提取当前预存的描述文本序列；多模态网络模型的解码器基于描述文本序列和图文特征序列执行交叉熵损失处理，预测得到产品信息。

可选地，计算机可读存储介质还被设置为存储用于执行以下步骤的程序代码：在多模态网络模型的解码器基于描述文本序列和图文特征序列执行交叉熵损失处理，预测得到产品信息之前，基于通过多模态网络模型的解码器中的自注意力机制模型计算图文特征序列和描述文本序列之间的注意力权重。

可选地，计算机可读存储介质还被设置为存储用于执行以下步骤的程序代码：在生成用于描述产品对象的产品信息之后，基于产品信息，生成多种类型的产品素材；发布多个产品素材。

可选地，计算机可读存储介质还被设置为存储用于执行以下步骤的程序代码：在生成待发布的产品素材之后，上传待发布的产品素材，并提取待发布的产品素材中待验证的多个产品内容；判断待验证的至少一个产品内容是否满足录入标准；如果满足，则成功将产品素材录入到发布模板中；否则，对验证失败的产品内容进行预处理，并在预处理后的产品内容满足录入标准的情况下，将产品素材录入到发布模板中。

作为一种可选的示例，存储介质被设置为存储用于执行以下步骤的程序代码：在操作界面上的录入页面中录入产品对象的产品数据，其中，产品数据包括如下至少之一：产品的图片信息、视频信息和文字信息；在操作界面内感应到文案生成指令，分析产品数据，并生成产品对象的多模态信息，其中，多模态信息包括：不同模态信息的特征序列；在操作界面上显示用于描述产品对象的产品信息，其中，产品信息通过采用多模态网络模型处理多模态信息而生成。

可选地，计算机可读存储介质还被设置为存储用于执行以下步骤的程序代码：在操作界面上显示用于描述产品对象的产品信息之后，在操作界面上弹出指导信息，其中，指导信息包括产品信息存在的缺陷信息；在操作界面上显示基于指导信息生成的创作素材，其中，创作素材为构成产品素材的基础信息；基于创作素材，生成多种类型的产品素材；发布多个产品素材。

作为一种可选的示例，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：在交互界面上显示产品对象的产品数据，其中，产品数据包括如下至少之一：产品的图片信息、视频信息和文字信息；在交互界面内感应到文案生成指令；响应文案生成指令，分析产品数据，生成产品对象的多模态信息，其中，多模态信息包括：不同模态信息的特征序列；在交互界面上输出选择页面，选择页面提供至少一个文案选项，其中，不同的文案选项用于表征针对不同模态的模态信息采用不同的处理模型；在交互界面上显示用于描述产品对象的产品信息，其中，基于选中的文案选项，采用多模态网络模型处理多模态信息，生成产品信息。

作为一种可选的示例，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：前端客户端上传产品对象的产品数据，其中，产品数据包括如下至少之一：产品的图片信息、视频信息和文字信息；前端客户端将产品对象的产品数据传输到后台服务器；前端客户端接收后台服务器返回分析产品数据而生成的多模态信息，其中，多模态信息包括：产品对象的不同模态信息的特征序列；前端客户端采用多模态网络模型处理多模态信息，生成用于描述产品对象的产品信息。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种图像数据的处理方法，其特征在于，包括：

获取产品对象的产品数据，其中，所述产品数据包括如下至少之一：产品的图片信息、视频信息和文字信息；

分析所述产品数据，生成所述产品对象的多模态信息，其中，所述多模态信息包括：不同模态信息的特征序列；

采用多模态网络模型处理所述多模态信息，生成用于描述所述产品对象的产品信息。

2.根据权利要求1所述的方法，其特征在于，所述多模态网络模型在处理所述多模态信息的过程中，通过学习不同模态信息之间的关联关系，来生成所述产品信息。

3.根据权利要求1所述的方法，其特征在于，分析所述产品数据，生成所述产品对象的多模态信息，包括：

对所述产品数据进行属性检测和类目预测，生成所述产品对象的属性关键词和类目关键词；

基于所述产品数据、所述产品对象的属性关键词和类目关键词，对所述不同模态信息进行预处理，生成所述产品对象的多模态信息。

4.根据权利要求3所述的方法，其特征在于，基于所述产品数据、所述产品对象的属性关键词和类目关键词，对不同模态信息进行预处理，包括：

所述多模态网络模型的编码器使用卷积神经网络模型对所述产品的图片、视频进行图像的特征提取，生成图像特征序列；

所述多模态网络模型的编码器提取所述产品对象的属性关键词和类目关键词中的文本结构化编码特征，生成文本特征序列；

对所述图像特征序列和所述文本特征序列进行拼接处理，生成预处理结果。

5.根据权利要求3所述的方法，其特征在于，采用多模态网络模型处理所述多模态信息，生成用于描述所述产品对象的产品信息，包括：

采用所述多模态网络模型的编码器对预处理结果进行编码，生成图文特征序列，其中，所述图文特征序列为包含了图像和文本的多模态时域注意力信息的特征序列；

所述多模态网络模型的解码器基于所述图文特征序列，生成所述产品信息。

6.根据权利要求5所述的方法，其特征在于，采用所述多模态网络模型的编码器对预处理结果进行编码，生成图文特征序列，包括：

所述多模态网络模型的编码器通过自注意力机制对所述不同模态信息之间的关联关系进行建模，并生成注意力权重，其中，所述不同模态信息之间的关联关系为图像特征和文本特征之间的关联关系；

基于建模结果和注意力权重，生成所述图文特征序列，其中，所述图文特征序列为包含了图像信息和文本信息的多模态时域注意力信息的特征序列。

7.根据权利要求5至6中任意一项所述的方法，其特征在于，所述多模态网络模型的解码器基于所述图文特征序列，生成所述产品信息，包括：

提取当前预存的描述文本序列；

所述多模态网络模型的解码器基于所述描述文本序列和所述图文特征序列执行交叉熵损失处理，预测得到所述产品信息。

8.根据权利要求7所述的方法，其特征在于，在所述多模态网络模型的解码器基于所述描述文本序列和所述图文特征序列执行交叉熵损失处理，预测得到所述产品信息之前，所述方法还包括：

基于通过所述多模态网络模型的解码器中的自注意力机制模型计算所述图文特征序列和所述描述文本序列之间的注意力权重。

9.根据权利要求1所述的方法，其特征在于，在生成用于描述所述产品对象的产品信息之后，所述方法还包括：

基于所述产品信息，生成多种类型的产品素材；

发布多个所述产品素材。

10.根据权利要求9所述的方法，其特征在于，在生成待发布的产品素材之后，所述方法还包括：

上传所述待发布的产品素材，并提取所述待发布的产品素材中待验证的多个产品内容；

判断所述待验证的至少一个产品内容是否满足录入标准；

如果满足，则成功将所述产品素材录入到发布模板中；

否则，对验证失败的产品内容进行预处理，并在预处理后的产品内容满足所述录入标准的情况下，将所述产品素材录入到所述发布模板中。

11.根据权利要求1至6或8-10中任意一项所述的方法，其特征在于，

所述多模态网络模型为多模态transformer网络模型。

12.一种图像数据的处理方法，其特征在于，包括：

在操作界面上的录入页面中录入产品对象的产品数据，其中，所述产品数据包括如下至少之一：产品的图片信息、视频信息和文字信息；

在所述操作界面内感应到文案生成指令，分析所述产品数据，并生成所述产品对象的多模态信息，其中，所述多模态信息包括：不同模态信息的特征序列；

在所述操作界面上显示用于描述所述产品对象的产品信息，其中，所述产品信息通过采用多模态网络模型处理所述多模态信息而生成。

13.根据权利要求12所述的方法，其特征在于，在所述操作界面上显示用于描述所述产品对象的产品信息之后，所述方法还包括：

在所述操作界面上弹出指导信息，其中，所述指导信息包括所述产品信息存在的缺陷信息；

在所述操作界面上显示基于所述指导信息生成的创作素材，其中，所述创作素材为构成产品素材的基础信息；

基于所述创作素材，生成多种类型的产品素材；

发布多个所述产品素材。

14.一种图像数据的处理方法，其特征在于，包括：

在交互界面上显示产品对象的产品数据，其中，所述产品数据包括如下至少之一：产品的图片信息、视频信息和文字信息；

在所述交互界面内感应到文案生成指令；

响应所述文案生成指令，分析所述产品数据，生成所述产品对象的多模态信息，其中，所述多模态信息包括：不同模态信息的特征序列；

在所述交互界面上输出选择页面，所述选择页面提供至少一个文案选项，其中，不同的文案选项用于表征针对不同模态的模态信息采用不同的处理模型；

在所述交互界面上显示用于描述所述产品对象的产品信息，其中，基于选中的文案选项，采用多模态网络模型处理所述多模态信息，生成所述产品信息。

15.一种图像数据的处理方法，其特征在于，包括：

前端客户端上传产品对象的产品数据，其中，所述产品数据包括如下至少之一：产品的图片信息、视频信息和文字信息；

所述前端客户端将所述产品对象的产品数据传输到后台服务器；

所述前端客户端接收所述后台服务器返回分析所述产品数据而生成的多模态信息，其中，所述多模态信息包括：所述产品对象的不同模态信息的特征序列；

所述前端客户端采用多模态网络模型处理所述多模态信息，生成用于描述所述产品对象的产品信息。

16.一种图像数据的处理装置，其特征在于，包括：

获取单元，用于获取产品对象的产品数据，其中，所述产品数据包括如下至少之一：产品的图片信息、视频信息和文字信息；

第一处理单元，用于分析所述产品数据，生成所述产品对象的多模态信息，其中，所述多模态信息包括：不同模态信息的特征序列；

第二处理单元，用于采用多模态网络模型处理所述多模态信息，生成用于描述所述产品对象的产品信息。

17.一种图像数据的处理装置，其特征在于，包括：

录入单元，用于在操作界面上的录入页面中录入产品对象的产品数据，其中，所述产品数据包括如下至少之一：产品的图片信息、视频信息和文字信息；

第三处理单元，用于在所述操作界面内感应到文案生成指令，分析所述产品数据，并生成所述产品对象的多模态信息，其中，所述多模态信息包括：不同模态信息的特征序列；

第一显示单元，用于在所述操作界面上显示用于描述所述产品对象的产品信息，其中，所述产品信息通过采用多模态网络模型处理所述多模态信息而生成。

18.一种图像数据的处理装置，其特征在于，包括：

第二显示单元，用于在交互界面上显示产品对象的产品数据，其中，所述产品数据包括如下至少之一：产品的图片信息、视频信息和文字信息；

感应单元，用于在所述交互界面内感应到文案生成指令；

第四处理单元，用于响应所述文案生成指令，分析所述产品数据，生成所述产品对象的多模态信息，其中，所述多模态信息包括：不同模态信息的特征序列；

输出单元，用于在所述交互界面上输出选择页面，所述选择页面提供至少一个文案选项，其中，不同的文案选项用于表征针对不同模态的模态信息采用不同的处理模型；

第三显示单元，用于在所述交互界面上显示用于描述所述产品对象的产品信息，其中，基于选中的文案选项，采用多模态网络模型处理所述多模态信息，生成所述产品信息。

19.一种图像数据的处理装置，其特征在于，包括：

上传单元，用于使前端客户端上传产品对象的产品数据，其中，所述产品数据包括如下至少之一：产品的图片信息、视频信息和文字信息；

传输单元，用于使所述前端客户端将所述产品对象的产品数据传输到后台服务器；

接收单元，用于使所述前端客户端接收所述后台服务器返回分析所述产品数据而生成的多模态信息，其中，所述多模态信息包括：所述产品对象的不同模态信息的特征序列；

第五处理单元，用于使所述前端客户端采用多模态网络模型处理所述多模态信息，生成用于描述所述产品对象的产品信息。

20.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的程序，其中，在所述程序被处理器运行时控制所述计算机可读存储介质所在设备执行权利要求1至15中任意一项所述的方法。

21.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至15中任意一项所述的方法。

22.一种图像数据的处理系统，其特征在于，包括：

处理器；

存储器，与所述处理器相连接，用于为所述处理器提供处理以下处理步骤的指令：获取产品对象的产品数据，其中，所述产品数据包括如下至少之一：产品的图片信息、视频信息和文字信息；分析所述产品数据，生成所述产品对象的多模态信息，其中，所述多模态信息包括：不同模态信息的特征序列；采用多模态网络模型处理所述多模态信息，生成用于描述所述产品对象的产品信息。