CN115953590B

CN115953590B - 一种分段式细粒度的商品图像描述生成方法、装置和介质

Info

Publication number: CN115953590B
Application number: CN202211597576.1A
Authority: CN
Inventors: 张音捷; 王之宇; 白冰; 张兴明; 孙才俊; 张奕鹏; 陈岱渊; 黎海燕; 孙天宁; 朱桢; 徐昊天
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2022-12-12
Filing date: 2022-12-12
Publication date: 2024-01-30
Anticipated expiration: 2042-12-12
Also published as: CN115953590A

Abstract

本发明公开了一种分段式细粒度的商品图像描述生成方法、装置和介质，该方法包括以下步骤：首先构造一个粗粒度的商品图像描述生成框架，由图像特征提取器、文本解码器、映射网络三部分组成；然后针对图像特征提取器以及文本解码器进行预训练，之后通过映射网络对齐语义空间，生成粗粒度的图像描述；其次在公开的商品描述数据集上微调已有的大型文本生成网络；再将粗粒度的图像描述输入微调后的文本生成网络，生成细粒度的商品图像描述；最后可将上述生成的商品描述再次输入网络，直至生成满意的商品图像描述。本发明的商品图像描述生成方法能够提高商品描述的丰富度和细腻度，自动化批量生成细粒度的商品图像描述。

Description

一种分段式细粒度的商品图像描述生成方法、装置和介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种分段式细粒度的商品图像描述生成方法、装置和介质。

背景技术

图像描述目的是根据输入图像的内容生成一段自然语言描述文字，其涉及计算机视觉以及自然语言处理两大人工智能领域。人类可以将图像中的物体、场景、色彩等视觉特征信息建立联系，感知图像的高层语义信息，从而转化为自然语言，而计算机无法将自然语言信息和图像信息进行自然结合，存在“语义鸿沟”现象，即两种的特征空间不同，因此图像描述时需要将自然语言信息和图像信息两者的语义空间对齐。

现有的图像描述偏向于对于图像内容本身进行描述，生成的内容大部分为粗粒度的图像内容元素堆砌，缺乏人类自然语言的丰富性和灵活性。随着互联网商业的发展，商家需要为自己的商品添加适当描述以吸引顾客，电商商品随着几何数值增长，通过人工添加商品图片描述需要大量的人力成本，但是现有的图像描述无法生成可直接使用的文案，即细粒度的图像描述文本。

本发明提出了一种分段式细粒度的商品图像描述生成方法，首先训练图像特征提取网络和文本解码器，并且利用多层全连接层进行语义空间对齐，根据输入图像获得粗粒度的图像描述；将该描述输入至经过微调的大型语言生成网络，得到细粒度的语言描述。

发明内容

本发明的目的在于针对现有技术的不足，提供一种分段式细粒度的商品图像描述生成方法、装置和介质。

本发明的目的是通过以下技术方案来实现的：本发明实施例第一方面提供了一种分段式细粒度的商品图像描述生成方法，包括以下步骤：

(1)构造粗粒度商品图像描述生成框架，其中，所述粗粒度商品图像描述生成框架包括图像特征提取器、文本解码器和映射网络；

(2)对图像特征提取器和文本解码器进行预训练，以获取图像特征提取器和文本解码器，再通过映射网络对齐语义空间，生成商品图像对应的粗粒度描述文本；

(3)在商品描述数据集上微调已有的大型文本生成网络，以获取最终的大型文本生成网络；

(4)将所述步骤(2)获取的粗粒度描述文本输入最终的大型文本生成网络中，以生成商品图像对应的细粒度描述文本；

(5)将上一步生成的细粒度描述文本再次输入最终的大型文本生成网络中，生成商品图像对应的细粒度描述文本，重复当前步骤，直至生成满意的商品图像细粒度描述文本。

可选地，所述图像特征提取器采用视觉自注意力网络；所述文本解码器采用长短期记忆网络，用于获取初始的粗粒度图像描述；所述映射网络采用多层全连接层的神经网络。

可选地，所述步骤(2)包括以下子步骤：

(2.1)根据图像特征提取器的预训练数据集对图像特征提取器进行预训练，以获取最终的图像特征提取器；

(2.2)根据文本解码器的预训练数据集对文本解码器进行预训练，以获取最终的文本解码器；

(2.3)根据图像特征提取器、文本解码器和映射网络对齐语义空间，生成商品图像对应的粗粒度描述文本。

可选地，所述步骤(2.1)包括以下子步骤：

(2.1.1)对图像特征提取器的预训练数据集中的图像进行预处理，将商品图像缩放成大小为224*224像素的图片，并将图片按照16*16像素的图像块大小进行切分，以获取196个图像块，并将每个图像块输入全连接层以获取图像块的嵌入表达；

(2.1.2)将图像块的嵌入表达与类别嵌入表达进行拼接，并加上位置编码，以获取图像特征提取器输入的特征向量；

(2.1.3)将步骤(2)获得的特征向量输入若干个自注意力模块中，以获取Q向量、K向量和V向量，并根据Q向量、K向量和V向量计算图像块与其它图像块之间的相关性，以获取相应的自注意力值；

(2.1.4)根据自注意力值获取全局图像信息表达最优的类别嵌入信息，并将其对应的类别嵌入表达(CLS)通过全连接层输出以获取图像类别，通过图像特征提取器的交叉熵函数计算损失，并进行回传更新网络参数，以获取最终的图像特征提取器。

可选地，所述步骤(2.2)包括以下子步骤：

(2.2.1)根据中文分词库对文本解码器的预训练数据集进行分词，并构建相应词汇表；

(2.2.2)将一句话分为若干词，根据步骤(2.2.1)获取的词汇表建立词索引，据此对文本解码器进行训练，根据文本解码器的交叉熵损失函数计算损失，并将损失反向传播至文本解码器以获取最终的文本解码器。

可选地，所述步骤(2.3)包括以下子步骤：

(2.3.1)通过图像特征提取器获取图像特征向量，将图像特征向量经过映射网络，映射成提示向量；

(2.3.2)将提示向量输入文本解码器以对齐图像与文本语义空间，生成商品图像对应的粗粒度描述文本。

可选地，所述步骤(3)具体为：将商品描述数据集作为目标数据集，大型文本生成网络参数根据其交叉熵损失函数针对商品图像描述进行微调优化，使其生成符合商品场景的商品图像对应的细粒度描述文本，以获取最终的大型文本生成网络。

可选地，所述商品描述数据集为中文MUGE，所述大型文本生成网络采用中文GPT2模型。

本发明实施例第二方面提供了一种分段式细粒度的商品图像描述生成装置，包括一个或多个处理器，用于实现上述的分段式细粒度的商品图像描述生成方法。

本发明实施例第三方面提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，用于实现上述的分段式细粒度的商品图像描述生成方法。

本发明的有益效果是，本发明通过图像特征提取器提取图像侧的特征向量，通过文本解码器生成粗粒度的文本描述，同时通过训练映射网络对齐两者语义特征空间，使网络找到文本实体与视觉实体之间的关联关系；之后将粗粒度的文本描述输入在商品描述数据集上微调后的大型文本生成网络，通过该网络生成更加细粒度的图像文本描述；这类首先生成粗粒度的图像描述，再根据粗粒度文本续写更加细致的图像描述，称为分段式的图像描述生成方法；该分段式的图像描述生成方法，可以有效提高图像描述文本的丰富度和细粒度，有效减少人工编写文案的时间成本。

附图说明

图1为本发明实施例中的流程示意图；

图2为本发明实施例中的文本生成网络训练/微调过程示意图；

图3为本发明实施例中的文本生成网络推理过程示意图；

图4为本发明中的部分实施例示意图；

图5为本发明实施例中的分段式细粒度的商品图像描述生成装置的一种结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的分段式细粒度的商品图像描述生成方法，包括以下步骤：

(1)构造粗粒度商品图像描述生成框架，其中，粗粒度商品图像描述生成框架包括图像特征提取器、文本解码器和映射网络，如图1的流程图所示。

本实施例中，图像特征提取器采用视觉自注意力网络；文本解码器采用长短期记忆网络，用于获取初始的粗粒度图像描述；映射网络采用多层全连接层的神经网络。由视觉自注意力网络提取输入的商品图像特征，映射网络将提取到的图像特征映射为文本语义空间，生成提示向量，将提示向量输入文本解码器生成粗粒度的商品图像描述。

(2)对图像特征提取器和文本解码器进行预训练，以获取图像特征提取器和文本解码器，再通过映射网络对齐语义空间，生成商品图像对应的粗粒度描述文本。

(2.1)根据图像特征提取器的预训练数据集对图像特征提取器进行预训练，以获取最终的图像特征提取器。

本实施例中，图像特征提取器的预训练数据集为ImageNet 1K，由美国斯坦福大学模拟人类的识别系统建立的，使得网络可以获得通用的图像特征提取能力。ImageNet 1K拥有1000类别，训练集拥有120多万的自然图像。因此应当理解为，ImageNet 1K数据集即为通用图像数据集。

通过预先在该数据集上进行预训练，网络可以获得对于自然世界和人类社会生活中绝大部分自然物体的理解。图像通过预训练后的图像特征提取器即可获得可用的图像特征向量，即图像输入到图像特征提取器中，就可以输出对应的图像特征向量。

(2.1.1)对图像特征提取器的预训练数据集中的图像进行预处理，将商品图像统一缩放成大小为224*224像素的图片，并将图片按照16*16像素的图像块大小进行切分，以获取(224/16)*(224/16)＝196个图像块，并将每个图像块输入全连接层以获取图像块的嵌入表达。

本实施例中，在输入图像特征提取器的过程中，需要将图像块拉伸为1维向量，原图像块为3*16*16，拉伸后为(1*768)维向量，因此获得为(196*768)维的特征向量，最后将每个图像块输入维度为(768*768)的全连接层以获取(196*768)维图像块的嵌入表达。

进一步地，图像块的嵌入表达如下式所示：

X_i＝FC(I_i)i∈{1,2,…,196

其中，I_i为图像I的第i个图像块，X_i为第i个图像块的嵌入表达，FC为全连接层。

应当理解的是，图像块的嵌入表达为(196*768)维的特征向量。

(2.1.2)将图像块的嵌入表达与类别嵌入表达进行拼接，并加上位置编码，以获取图像特征提取器输入的特征向量。

为了方便后续图像分类的任务和训练，还额外引入一个可学习的类别参数，即类别嵌入表达(class embedding，CLS)。类别嵌入表达可理解为网络参数，初始化后需要进行后续训练。该参数插入到图片分割后所得序列的开始位置，其维度与图像块的维度保持一致，所以类别嵌入表达为(1*768)维向量，因此和图像块的嵌入表达向量拼接后为(197*768)维的特征向量。

因为将图像块的嵌入表达和类别嵌入表达直接一起输入可能会损失了图像块之间的相对位置信息，所以引入位置编码PE，其表达式为：

其中，pos表示单词在句子中的位置，d_model表示位置编码的维度(与图像块的嵌入表达保持一致)，2i表示偶数的维度，2i+1表示奇数维度。因此最后能获得(197*768)维的位置编码信息。

最后将位置编码与拼接后的(197*768)维的特征向量直接相加，最终获得网络输入(197*768)维的特征向量，即图像特征提取器输入的特征向量。

(2.1.3)将步骤(2)获得的特征向量输入若干个自注意力模块中，以获取Q向量、K向量和V向量，并根据Q向量、K向量和V向量计算图像块与其它图像块之间的相关性，以获取相应的自注意力值。

其中，每个自注意力模块包括三个不同的线性变换层W^Q、W^K和W^V，可以理解三个不同的线性矩阵，可通过初始化获得，并且随着图像特征提取器的训练不断进行更新，W^Q、W^K和W^V分别表示查询矩阵、键矩阵和值矩阵，特征向量通过三个矩阵分别可以获得Q向量、K向量和V向量。Q向量表示为自身去查询其他图像块的向量，K向量表示自身被查询时所体现的向量，V向量表示权重。

本实施例中，将相关性进行加权求和，可以得到最后的自注意力值，其表达式为：

其中，d_k为缩放因子，用于避免点积带来的方差影响；T表示矩阵转置，(QK^T)表示各个图像块之间的相关性；Softmax为归一化指数函数。

应当理解的是，相关性和自注意力值是跟随变化的，目的是要获取自注意力值，自注意力值越大，表示当前为需要重点关注的目标区域，也就是一般所说的注意力焦点，而后对这一区域投入更多注意力资源，以获取更多所需要关注目标的细节信息，而抑制其他无用信息。

在本实施例中，引入了三个不同的线性变换层，即引入了更多维度的空间，更多的学习参数，这样自注意力模块表达性更好。

应当理解的是，通过自注意力值的训练，可以获得对于全局图像信息表达更好的类别嵌入信息，因为训练的时候，类别嵌入表达和QKV矩阵是一直变化的。

本实施例中，图像特征提取器的交叉熵损失函数的表达式为：

其中，y_x表示图像特征提取器对于图像类别为x类的预测概率，其通过类别嵌入表达(CLS)通过全连接层softmax后获得；y_j表示图像特征提取器对于图像类别为j的预测概率，其通过类别嵌入表达(CLS)通过全连接层softmax后获得；M表示图像总类别数，在本实施例中M＝1000。

应当理解的是，根据计算得到的损失即可知道与目标的差距，从而判断是否继续进行优化。例如，可以根据实际需要设置一个阈值，若损失小于等于阈值，则表示不需要继续进行优化；若损失大于阈值，则表示需要继续进行优化。

另外，回传更新的网络参数是神经元的参数，包括权值和偏置，这是现有技术中常用的参数，在此不再赘述。

需要说明的是，还可以根据图像特征提取器的类型收集类似的预训练模型，选择现有的部分已经训练完成的训练模型作为图像特征提取器。

(2.2)根据文本解码器的预训练数据集对文本解码器进行预训练，以获取最终的文本解码器。

本实施例中，文本解码器的预训练数据集为阿里天池的商品描述文案数据集。例如“中长款外套”、“北欧实木家具”、“撞色印花雪纺衫”等，以此构成文本解码器的预训练数据集。通过构建的商品预训练数据集进行训练，文本编码器可以获得商品类信息文本解码能力。

(2.2.1)根据中文分词库对文本解码器的预训练数据集进行分词，并构建相应词汇表。

采用中文分词库进行分词，例如将“北欧实木家具”分词为“北欧”、“实木”、“家具”；将“撞色印花雪纺衫”分词为“撞色”、“印花”、“雪纺”、“衫”，再根据分词结果构建词汇表，构建完分词表后再加入[PAD]特殊词，其中[PAD]表示填充词，用于填充句子长度，使其同一批次下的句子长度相同。

通过分词将一句话分为若干个词，根据步骤(2.2.1)获取的词汇表建立词索引，对文本解码器进行训练，在训练过程中，将下一个词作为上一个词的输出标签，然后再根据文本解码器的交叉熵损失函数计算训练损失，如图2所示。

本实施例中，文本解码器的交叉熵损失函数的表达式为：

其中，y_z表示文本编码器对于词汇表中第z个词的预测概率，其通过第z个词通过softmax获得；y_q表示文本编码器对于词汇表中第q个词的预测概率，其通过第q个词通过softmax获得；R表示词汇表中总词汇数。

本实施例中，还需将损失反向传播至文本解码器，对文本解码器进行更新优化，以获取最终的文本解码器。

应当理解的是，该文本解码器输出的是输出标签，输出标签对应的是词汇，按照前后组合即为对应的粗粒度文本描述，即文本解码器的输出为粗粒度文本描述。

具体地，通过图像特征提取器获取图像特征向量，然后映射网络将图像特征向量映射为提示向量，作为文本解码器的输入，负责图像与文本语义空间的对齐。另外，最后的图像特征向量不再经过视觉自注意力网络最后的分类头，而是直接提取图像特征得到图像特征向量，之后映射网络将图像特征向量映射为提示向量，文本解码器接受来自映射网络的提示向量，生成商品图像对应的粗粒度描述文本，生成过程如图3所示。

(2.3.1)通过图像特征提取器获取图像特征向量，将图像特征向量经过映射网络，映射成提示向量。其中，提示向量表示为：

X^P＝FC(ViT(Image))

其中，X^P表示经过映射网络生成的提示向量，FC表示由若干层全连接层构成的映射网络，ViT表示图像特征提取器。

本实施例中，构建商品图像和步骤(2.2)商品预训练数据集的图像-文本对，即对应的商品和其粗粒度图像描述，将此作为映射网络的训练数据集。

将提示向量输入到文本解码器中。训练过程与文本编码器类似，将下一个词作为上一个词的输出标签，并以此计算训练损失，如图2所示。其中映射网络的损失函数也为交叉熵损失函数。

本实施例中，此处计算所得到的损失回传至映射网络，对映射网络进行优化。

需要说明的是，还可以根据文本解码网络的类型收集类似的预训练模型，选择现有的部分已经训练完成的训练模型作为文本解码网络。

(3)在商品描述数据集上微调已有的大型文本生成网络，以获取最终的大型文本生成网络。

本实施例中，大型文本生成网络采用中文GPT2模型，同时其微调数据集为中文MUGE，其涵盖了服装、食品、化妆品、3C数码配件等众多商品类目，所有数据均来源于真实的淘宝电商场景。由于GPT2为网络上可下载的预训练模型，其词汇表无需进行生成。应当理解的是，商品描述数据集为中文MUGE。

本实施例中，将商品描述数据集作为目标数据集，大型文本生成网络参数根据其交叉熵损失函数针对商品图像描述进行微调优化，使其生成符合商品场景的商品图像对应的细粒度描述文本，以获取最终的大型文本生成网络。

具体地，我们将MUGE数据集中每一条文本描述数据的前若干个词作为GPT2的输入，之后的语句作为训练的标签。例如原图像描述为“西装印花裙的两件套，知性中又有带着优雅洒脱。雅致的印花裙邂逅西服，轻松打造精致的职场女性。脱掉外套依然美丽优雅，不失为明智的穿搭。V领的设计更显女性的性感魅力。如行走的时装画册精致，有品位更具有风度。”中文GPT2模型的输入为“西装印花裙的两件套”，之后的语句“知性中又有带着优雅洒脱。雅致的印花裙邂逅西服，轻松打造精致的职场女性。脱掉外套依然美丽优雅，不失为明智的穿搭。V领的设计更显女性的性感魅力。如行走的时装画册精致，有品位更具有风度。”作为训练的标签。也是和文本解码器一样，采用自回归的训练方式，训练过程示意图如图2所示。微调的损失函数也采用交叉熵损失函数，表示为：

其中，y_a表示文本编码器对于GPT2词汇表中第a个词的预测概率，其通过第a个词通过softmax获得；y_g表示文本编码器对于GPT2词汇表中第g个词的预测概率，其通过第g个词通过softmax获得；G表示GPT2词汇表中的总词汇数。

本实施例中，此处计算所得的损失回传至大型文本生成网络即中文GPT2模型中，根据损失进而判断是否需要进行优化，从而对大型文本生成网络进行微调至所需要达到的要求。应当理解的是，对大型文本生成网络进行优化时，可以调整其内部的一些参数如偏置，在此不再赘述。

(4)将步骤(2)获取的粗粒度描述文本输入最终的大型文本生成网络中，以生成商品图像对应的细粒度描述文本。

将文本解码器生成的粗粒度描述文本输入最终的大型文本生成网络中，根据输入信息生成更细粒度的商品信息文本，生成过程如图3所示，生成示例如图4所示。

示例性地，如文本解码器生成的粗粒度描述文本为“经典的黑色t恤”，将其输入最终的大型文本生成网络即中文GPT2模型中，续写生成对应的细粒度描述文本，“经典的黑色t恤，休闲百搭。短款的设计，修饰身材比例，显瘦又显高。搭配高腰的半身裙，提高腰线，拉长腿型”。

示例性地，如图4所示，文本解码器生成的粗粒度描述文本为“优雅的高跟鞋”，将其输入最终的大型文本生成网络即中文GPT2模型中，可以生成对应的细粒度描述文本，为“优雅的高跟鞋，展现除了脚间的纤瘦，延伸着腿部的修长，展现出了温婉气质。”。

示例性地，如图4所示，根据步骤(2)得到商品图像对应的粗粒度描述文本为“短款小香风外套”，根据步骤(4)，将其输入大型文本生成网络中，生成商品图像对应的细粒度描述文本为“短款小香风外套，经典黑色系，内搭白色t恤，温婉大气，黑白两色的撞色，打造不一样的时尚感”，然后再次输入大型文本生成网络中，生成商品图像对应的细粒度描述文本为“短款小香风外套，经典黑色系，内搭白色t恤，温婉大气，黑白两色的撞色，打造不一样的时尚感，宽松的版型，很好的修饰身材”，此时的商品图像细粒度描述文本还不满意，是否满意具体可以根据实际情况自行判断，那么重复当前步骤，再次输入大型文本生成网络中，可以生成商品图像对应的细粒度描述文本为“短款小香风外套，经典黑色系，内搭白色t恤，温婉大气，黑白两色的撞色，打造不一样的时尚感，宽松的版型，很好的修饰身材，搭配高腰阔腿裤，显瘦遮肉，轻松穿出大长腿。”，此时，商品图像细粒度描述文本达到了要求，即可停止。

本发明提供了一种分段式细粒度的商品图像描述生成方法。方法步骤为：构造一个粗粒度的商品图像描述生成框架，由图像特征提取器、文本解码器、映射网络三部分组成；针对图像特征提取器以及文本解码器进行预训练，之后通过映射网络对齐语义空间，生成粗粒度的图像描述；在公开的商品描述数据集上微调已有的大型文本生成网络；将粗粒度的图像描述输入微调后的文本生成网络，生成细粒度的商品图像描述；可将上述生成的商品描述再次输入网络，直至生成满意的商品图像描述。本发明所述方案能够提高商品描述的丰富度和细腻度，自动化批量生成细粒度的商品图像描述。

与前述分段式细粒度的商品图像描述生成方法的实施例相对应，本发明还提供了分段式细粒度的商品图像描述生成装置的实施例。

参见图5，本发明实施例提供的一种分段式细粒度的商品图像描述生成装置，包括一个或多个处理器，用于实现上述实施例中的分段式细粒度的商品图像描述生成方法。

本发明分段式细粒度的商品图像描述生成装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图5所示，为本发明图像文本双端迁移攻击装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图5所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的分段式细粒度的商品图像描述生成方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备，例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card，SMC)、SD卡、闪存卡(Flash Card)等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

本领域技术人员在考虑说明书及实践这里公开的内容后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的。

应当理解的是，本发明的技术方案而不是对本技术方法进行限制，本发明在应用上可以延伸为其他的修改、变化、应用和实施例，并且认为所有这样的修改、变化、应用、实施例都在本发明的精神和教导范围内。

Claims

1.一种分段式细粒度的商品图像描述生成方法，其特征在于，包括以下步骤：

(1)构造粗粒度商品图像描述生成框架，其中，所述粗粒度商品图像描述生成框架包括图像特征提取器、文本解码器和映射网络；所述图像特征提取器采用视觉自注意力网络；所述文本解码器采用长短期记忆网络，用于获取初始的粗粒度图像描述；所述映射网络采用多层全连接层的神经网络；

所述步骤(2)包括以下子步骤：

所述步骤(2.1)包括以下子步骤：

(2.1.4)根据自注意力值获取全局图像信息表达最优的类别嵌入信息，并将其对应的类别嵌入表达通过全连接层输出以获取图像类别，通过图像特征提取器的交叉熵函数计算损失，并进行回传更新网络参数，以获取最终的图像特征提取器；

所述步骤(2.2)包括以下子步骤：

(2.2.2)将一句话分为若干词，根据步骤(2.2.1)获取的词汇表建立词索引，据此对文本解码器进行训练，根据文本解码器的交叉熵损失函数计算损失，并将损失反向传播至文本解码器以获取最终的文本解码器；

(2.3)根据图像特征提取器、文本解码器和映射网络对齐语义空间，生成商品图像对应的粗粒度描述文本；

所述步骤(2.3)包括以下子步骤：

(2.3.2)将提示向量输入文本解码器以对齐图像与文本语义空间，生成商品图像对应的粗粒度描述文本；

(3)在商品描述数据集上微调已有的大型文本生成网络，以获取最终的大型文本生成网络；所述大型文本生成网络采用中文GPT2模型；

2.根据权利要求1所述的分段式细粒度的商品图像描述生成方法，其特征在于，所述步骤(3)具体为：将商品描述数据集作为目标数据集，大型文本生成网络参数根据其交叉熵损失函数针对商品图像描述进行微调优化，使其生成符合商品场景的商品图像对应的细粒度描述文本，以获取最终的大型文本生成网络。

3.根据权利要求1所述的分段式细粒度的商品图像描述生成方法，其特征在于，所述商品描述数据集为中文MUGE。

4.一种分段式细粒度的商品图像描述生成装置，其特征在于，包括一个或多个处理器，用于实现权利要求1-3中任一项所述的分段式细粒度的商品图像描述生成方法。

5.一种计算机可读存储介质，其特征在于，其上存储有程序，该程序被处理器执行时，用于实现权利要求1-3中任一项所述的分段式细粒度的商品图像描述生成方法。