CN114510904A

CN114510904A - 一种基于时尚领域的端到端图像语义描述方法及系统

Info

Publication number: CN114510904A
Application number: CN202210004592.9A
Authority: CN
Inventors: 张立言; 汤宇豪
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2022-01-05
Filing date: 2022-01-05
Publication date: 2022-05-17

Abstract

本发明公开了一种基于时尚领域的图像语描述生成方法及系统，包括如下步骤：准备数据集；特征抽取；使用多个尺度的池化层分别对商品特征进行降采样操作，池化后的特征分别送入多层感知机中学习高层视觉特征；针对每种视觉高层特征设计一个多尺度transformer网络作为特征编码器，学习每种特征内部之间的交互关系；使用带有门控注意力机制的解码器计算多尺度特征对描述的相对贡献值并融合，对句子进行预测。本发明通过针对现实场景的商品图片进行描述，使模型更具鲁棒性和应用价值。通过使用商品的多尺度特征以及针对时尚领域设计的门控注意力机制，使模型生成的描述表达更准确、更人性化。端到端的模型框架使得本发明的落地门槛更低。

Description

一种基于时尚领域的端到端图像语义描述方法及系统

技术领域

本发明属于计算机视觉和自然语言处理交叉领域，特别涉及一种图片语义描述生成方法及系统。

背景技术

图像语义描述(Image Caption)作为一个融合计算机视觉和自然语言处理的综合任务，其目标是将图片翻译成一段描述。该任务不仅需要利用模型去理解图片的内容，捕捉图像的语义信息，还需要使用自然的语言生成可读的句子。自动为图像生成语义描述不仅可以通过将图片内容转换为文本，再转换为音频的方式去帮助视觉有障碍的人士了解图像内容，也可以辅助理解一些复杂图片比如光谱图、遥感图等。此外，比如图文检索、图片问答等图像理解相关的任务，都可以通过生成语义描述对任务进行辅助。

随着图像语义技术研究的发展，时尚商品描述已经成为最有潜力的一个应用场景。由于深度学习的发展，与时尚任务相关的研究已得到广泛探索，如商品分类[1]、商品属性预测[2]、时尚商品检索[3,4,5,6]、商品目标检测[7,8]、商品相似度学习[9]等。这些研究成功展示了时尚领域的广阔前景。此外，时尚领域的图像语义描述任务也受到学术研究[10]和工业应用[6]的关注。近期的工作中，Yang等人[10]通过属性和句子级别的学习增强生成描述的相关性。他们还在描述生成过程中集成了强化学习和属性学习。除此之外，还提出了专用于时尚领域语义描述的数据集FACAD。Kaleido-BERT[6]引入了Kaleido策略来生成多粒度特征，学习细粒度的多模态特征，并对图片和文本两个模态进行更好的对齐。由此得到的预训练模型在电商场景下有丰富的应用。尽管上述研究在时尚领域已经取得了一定的进步，但是无论在准确率还是运行效率都有很大的缺陷。此外，这些方法高度依赖于从目标检测器获得的特征，需要复杂的预训练过程。而应用场景数据集和通用数据集之间存在较大的数据分布差异，通用领域的图像语义描述模型在实际场景中的表现并不友好。这要求我们必须从时尚领域的实际出发，挖掘领域内语义描述的特点。

作为生活中密不可分的一部分，购物已经成为现代人享受生活的一种方式。得益于互联网的发展，人们可以在PC、手机上通过电商平台上浏览商品。专业而优美的商品描述不仅可以博取顾客的兴趣，还能帮助顾客选择合适的商品，提高购物体验，进而增强经济效益。为了达到这个目标，电商平台需要积极考虑更好的营销策略来宣传他们的产品。第一个尝试是从不同的角度拍摄他们的产品，并将其展示在网站上。客户可以在查看这些图片后快速获得他们感兴趣的直观属性(包括颜色、样式、大小、材质等)。这是因为我们在挑选时尚领域产品的方式和其他领域存在差异，我们通常从多个角度去关注物品的细节。而从电商网站和互联网收集的时尚描述数据集中，一个商品往往包含了多个角度的图片。然而，当前的大多数方法都忽略了这个常识，将时尚领域中的图片语义描述与一般场景中的图片语义描述同等对待，忽略了商品中不同角度图片之间的相关性。为了解决这个问题，本发明重新定义了时尚领域中图像语义描述任务的训练、验证和评估过程，把一个商品视作一个整体，以商品为单位进行学习而不是以图片为单位。我们将此过程定义为“多对一”学习策略。

除此之外，为了吸引顾客的注意，电商平台往往会对商品进行华丽而详细的描述。这些描述在语法上并不总是正确的。例如，将裙子描述为“Women’s floral flared shortskirt polka dot pleated mini skater skirt with drawstring”，而不是将裙子描述为“A lovely girl wear a beautiful ruffle skirt”。相比而言，前者(包含更多的细粒度属性)可以清楚地告诉客户裙子的外观以及具体的属性特点，顾客可以通过这样一句话快速定位这件商品是否为自己需要。同时，由于搜索引擎和推荐系统通常是使用关键字搜索，这样的描述可能获得更高的点击率。因此，时尚领域的特殊性导致直接迁移常规领域的图像语义描述方法无法在这种多属性描述上获得良好的效果，一种专门为时尚领域设计的图像语义描述方法是迫切需要的。

参考文献：

[1].Qiushi Guo,Mingchen Zhuge,Dehong Gao,Huiling Zhou,Xin Wang,andXiaonan Meng.Object decoupling with graph correlation for fine-grained imageclassification.In 2021IEEE International Conference on Multimedia and Expo(ICME),pages 1-6.IEEE,2021

[2].Roshanak Zakizadeh,Michele Sasdelli,Yu Qian,and EduardVazquez.Improving the annotation of deepfashion images for fifine-grainedattribute recognition.arXiv preprint arXiv:1807.11674,2018.2.

[3].Dehong Gao,Linbo Jin,Ben Chen,Minghui Qiu,Peng Li,Yi Wei,Yi Hu,and Hao Wang.Fashionbert:Text and image matching with adaptive loss forcross-modal retrieval.In Proceedings of the 43rd International ACM SIGIRConfer ence on Research and Development in Information Retrieval,pages 2251-2260,2020.2,3

[4].Hui Wu,Yupeng Gao,Xiaoxiao Guo,Ziad Al-Halah,Steven Rennie,Kristen Grauman,and Rogerio Feris.Fashion iq:A new dataset towards retrievingimages by natural language feedback.In Proceedings of the IEEE/CVF Conferenceon Computer Vision and Pattern Recognition,pages 11307–11317,2021.2.

[5].Yifei Yuan and Wai Lam.Conversational fashion image retrieval viamultiturn natural language feedback.arXiv preprint arXiv:2106.04128,2021.2.

[6]Mingchen Zhuge,Dehong Gao,Deng-Ping Fan,Linbo Jin,Ben Chen,HaomingZhou,Minghui Qiu,and Ling Shao.Kaleido-bert:Vision-language pre-training onfashion domain.In Proceedings of the IEEE/CVF Conference on Computer Visionand Pattern Recognition,pages 12647–12657,2021.2,3,4,5.

[7]Ziwei Liu,Ping Luo,Shi Qiu,Xiaogang Wang,and XiaoouTang.Deepfashion:Powering robust clothes recognition and retrieval with richannotations.In Proceedings of the IEEE conference on computer vision andpattern recognition,pages 1096–1104,2016.2.

[8]Wenguan Wang,Yuanlu Xu,Jianbing Shen,and Song-Chun Zhu.Attentivefashion grammar network for fashion landmark detection and clothing categoryclassifification.In Proceedings of the IEEE Conference on Computer Vision andPattern Recognition,pages 4271–4280,2018.2.

[9]Zhe Ma,Jianfeng Dong,Zhongzi Long,Yao Zhang,Yuan He,Hui Xue,andShouling Ji.Fine-grained fashion similarity learning by attribute-specificembedding network.In Proceedings of the AAAI Conference on ArtificialIntelligence,volume 34,pages 11741–11748,2020.2.

[10]Xuewen Yang,Heming Zhang,Di Jin,Yingru Liu,Chi-Hao Wu,JianchaoTan,Dongliang Xie,Jue Wang,and Xin Wang.Fashion captioning:Towards generatingaccurate descriptions with semantic rewards.In Computer Vision–ECCV 2020:16thEuropean Conference,Glasgow,UK,August 23–28,2020,Proceedings,Part XIII 16,pages 1–17.Springer,2020.

发明内容

为了克服现有技术中存在的不足，本发明的目的是提供一种基于时尚领域的端到端图像语义描述方法，结合时尚领域图片和描述的特点，设计出一个专属于时尚领域的图像语义描述框架。

为实现上述目的，本发明采用的技术方案为：

一种基于时尚领域的图像语描述生成方法，包括如下步骤：

步骤1，准备数据集：获取时尚描述数据集，对描述进行预处理，计算词频，筛选出高频单词；

步骤2，特征抽取：使用Swin Transformer作为特征提取网络，加载基于ImageNet数据集预训练的模型参数，依次对步骤1预处理得到的商品中的所有图片进行特征抽取，并将特征级联；

步骤3，使用多个尺度的池化层分别对步骤2得到的商品特征进行降采样操作，池化后的特征分别送入多层感知机中学习高层视觉特征；

步骤4，针对步骤3中的每种视觉高层特征设计一个多尺度transformer网络作为特征编码器，学习每种特征内部之间的交互关系；

步骤5，使用带有门控注意力机制的解码器计算多尺度特征对描述的相对贡献值并融合，对句子进行预测。

所述步骤1中，对由多种角度图片组成的多样的、冗余的时尚图片进行预处理，预处理后的每个时尚商品包含正面图、侧面图、背面图和全身图，对每个商品对应的描述长度设置阀值，大于阀值则去除，小于阀值则用0补齐。

所述步骤1中，时尚描述数据集为FACAD和Fashion Gen数据集。

所述步骤2中，时尚商品特征提取过程如下：

商品角度1→特征提取网络→商品角度1特征

商品角度2→特征提取网络→商品角度2特征

...→特征级联→输出

商品角度n→特征提取网络→商品角度n特征

特征提取网络结构定义如下：

其中，WMSA表示窗口多头自注意力模块，SWMSA表示滑动窗口多头自注意力模块,MLP是多层全连接网络，用于学习高层特征，z^l-1表示第l-1个特征提取模块的输出，

表示第l个WMSA模块的输出特征，z^l和z^l+1表示经过MLP的输出特征，

表示第l个SWMSA模块的输出特征，LN是对网络层的输出进行分布归一化操作，WMSA将注意力计算范围限制在固定窗口范围内，引入卷积操作的局部性同时减少计算复杂度；SWMSA在WMSA基础上，滑动窗口位置，增加窗口之间的信息交互；

以z^l-1为例，自注意力的计算过程定义如下：

其中W_q,W_k,W_v分别是学习矩阵，d是矢量值，用于解决自注意力计算过程中出现梯度消失的问题。

所述步骤3中，针对商品特征进行了k个尺度的池化操作，获取多粒度特征，具体定义如下：

P_i＝[AvgPooling₁,AvgPooling₂,...,AvgPooling_k]

其中，AvgPooling指平均池化，k表示池化的尺寸，AvgPooling_k表示使用k尺寸进行平均池化，P_i表示第i个商品的多尺度池化特征；

X_i＝MLP(P_i)

多尺度特征经过多层全连接网络后，得到的X_i特征维度和transformer输入维度对齐。

所述步骤4中，每个transformer网络之间相互独立，参数不共享，最大程度保留每种视觉特征的独特性。

所述步骤4中，针对k个尺度特征分别使用独立的transformer进行编码，其中，使用MultiHead多头注意力机制学习特征内部的交互关系，以Head₁为例：

其中，Concat为特征级联操作，W_out为输出参数矩阵，将多头特征进行线性变换；FFN为前馈神经网络，学习多头特征的深层语义表示，为了减少输入特征在网络传递中的损失，保证输出特征的稳定性，加入

的残差，最终经过k个transformer编码后，商品i得到的编码特征分别为

所述步骤5中，设计一个带有门控注意力机制的解码器，首先将描述中的所有单词进行编码，再送入解码器中，对单词编码进行自注意力学习，建立单词之间的上下文关系，获得高层句子编码，将步骤4中的多个视觉特征编码结果，分别和高层句子编码进行多模态自注意力学习，得到基于不同尺度特征的句子编码；再计算每种句子编码对描述的相对贡献，进行融合；对设计的网络进行端到端训练，最终实现对时尚图片进行高质量描述生成的目标。

一种基于时尚领域的图像语描述生成系统，其整体结构如下：

input→特征提取网络→多尺度池化→多头transformer→多模态自注意力学习→门控解码器→

其中，input为商品的各个角度图片，特征提取网络为Swin Transformer，用于抽取商品图片的高层语义特征，多头transformer用于编码商品内部不同尺度特征之间的关系，门控解码器首先计算不同尺度特征对描述的贡献，再将特征融合，最终

为预测单词的概率。

有益效果：本发明提出了一种基于端到端结构的纯transformer学习网络，结合时尚产品的特点设计出专属于时尚领域的“多对一”训练、验证和测试策略，并引入细粒度特征学习网络，综合考虑各尺度特征对描述的影响，设计合理，满足了以上的建模需求，具有良好的效果。。相比于现有技术，具有以下有点：

(1)本发明结合时尚领域一个商品包含多角度图片的特点，重新定义商品的训练、验证和测试过程。不同于现有常规领域的图像语义描述方法将一张图片视为一个样本，我们的方法充分利用了多角度图片的优势，增强了视觉特征的表达，进而可以提升时尚描述的生成精度。

(2)本发明结合时尚领域描述多样化的特点，通过多尺度池化获取不同粒度的视觉特征，根据描述动态融合多粒度特征，更适应时尚描述多样化的需要。

(3)本发明采用端到端的模型框架，区别于传统领域需要使用复杂的预训练过程抽取目标特征，我们的方法贯穿了特征提取到特征编码到句子解码的所有过程，更易于实际落地。

具体实施方式：

下面对本发明做更进一步的解释。

本发明的一种基于时尚领域的端到端图像语义描述方法，包括如下步骤：

步骤1：数据准备：

时尚数据集往往通过电商网站爬取或者人工拍摄途径构建，商品中图片的大小、角度、数量等没有统一，不同商品的图片分辨率差异较大，并且还有一些和描述内容无关的噪声图片。此外，不同数据集的描述表达方式也有很大差异，在Fashion-Gen中描述是由多句话组成的模板化描述，整体描述的长度更长，拥有更多时尚领域的专业词汇，但是模板的形式可能让模型更容易预测出模板里的单词，而忽略了描述中有意义的内容。而在FACAD数据集中，每个描述由一句话组成，每句话中包含较多的主观评价，比如这件衣服会带来什么样的功效，带给人什么样的体验，这些主观表达是无法从图片内容中学习到的。以上图片和描述中存在的噪声增加了模型的学习难度，在很大程度上影响最后的生成效果。因此，本发明必须对数据集进行统一规范的预处理，以确保数据准确、完整、一致。首先，本发明统一图片分辨率，将分辨率过低、过高图片筛除，去除商品广告图、纹理图等影响模型识别效果的图片，降低图片噪声。然后，通过计算每个商品图片的平均数量，确定Fashion Gen中每个商品随机选取4张图片，FACAD中每个商品随机选取6张图片，不足则随机重复选取，统一模型的输入形式。随后，针对描述中句子长度差异较大的问题，分别针对两个数据集计算平均句子长度，针对Fashion Gen数据集，句子长度限制在72。针对FACAD数据集，句子长度限制在32。此外，针对词汇复杂的问题，我们筛除了词频低于5次的单词，减少描述生成范围，对于词频低于5的单词统一用UNK代替。同时，去除了句子中的标点、停顿符，单词统一小写形式，在每个句子前加入一个开始符，表示句子开始，句子末尾加入一个停止符，表示句子结束。预处理后的数据噪声减少，更适合模型训练。

步骤2：特征提取：

通过传统领域预训练的目标检测器所抽取的特征在时尚领域的效果并不理想。其中最主要的原因是时尚领域和传统领域在数据分布上存在较大差异，传统领域的图片包含了各个类别，而时尚领域的图片则着重于商品。因此，采用当前深度学习领域比较流行的swin transformer网络作为特征提取框架，通过将自注意力计算限制为不重叠的局部窗口，同时允许跨窗口连接，移位的窗口方案带来了更高的效率。这种分层体系结构具有在各种尺度上建模的灵活性，并且相对于图像大小具有线性计算复杂性。特征提取过程如下：

商品角度1→特征提取网络→商品角度1特征

商品角度2→特征提取网络→商品角度2特征

...

商品角度n→特征提取网络→商品角度n特征

然后将多角度特征级联：

商品角度1特征，商品角度2特征，...，商品角度n特征→Concatenate→输出

具体特征提取网络结构定义如下：

表示第l个SWMSA模块的输出特征，LN是对网络层的输出进行分布归一化操作，WMSA将注意力计算范围限制在固定窗口范围内，引入卷积操作的局部性同时减少计算复杂度；SWMSA在WMSA基础上，滑动窗口位置，增加窗口之间的信息交互。

以z^l-1层网络输出为例，自注意力的计算过程定义如下：

其中W_q,W_k,W_v分别是学习矩阵。

模型使用SOFA评分作为训练双向异构LSTM模型的计算Cross Entropy的真实值y，最小化交叉熵，最终得到每个病患的疾病严重程度评分曲线。

步骤3：多尺度池化：

由步骤2得到了每个商品所有角度图片的特征。

针对商品特征进行了k个尺度的池化操作，获取多粒度特征，具体定义如下：

P_i＝[AvgPooling₁,AvgPooling₂,...,AvgPooling_k]

X_i＝MLP(P_i)

多尺度特征经过多层全连接网络后，得到的X_i特征维度和transformer输入维度对齐。商品特征经过多尺度池化后，得到的特征复杂度降低，缓解了自注意力的计算压力。同时，由于描述的多样性，对特征尺度的要求也存在差异。比如预测button这个单词，那么应该对图像中的纽扣区域增强关注，因此需要更细粒度的特征；反之，预测sweater这个单词，那么需要知道图像中毛衣的轮廓信息，因此需要更粗粒度的特征。使用多尺度池化，可以更符合多样化描述的任务要求。

步骤4：针对步骤3中获得的k个尺度特征分别使用独立的transformer进行编码。其中，使用MultiHead多头注意力机制学习特征内部的交互关系，以Head₁为例：

其中Concat为特征级联，W_out为输出参数矩阵。FFN为前馈神经网络，学习多头特征的深层语义表示。为了减少输入特征在网络传递中的损失，保证输出特征的稳定性，加入

的残差。最终经过k个transformer编码后，商品i得到的编码特征分别为

步骤5：针对步骤4生成的k个编码特征，设计一个带有门控注意力机制的解码器。当描述为商品的细节，那么模型应该更关注细粒度的特征；反之，当描述为商品的全局部分，模型应该给与粗粒度特征更多的关注。

带有门控注意力机制的解码器结构如下：

句子特征编码编码→自注意力机制→商品尺度1编码，...，商品尺度k编码→多模态自注意力学习→门控注意力机制→输出

首先，我们使用word2vec对处理过的句子S序列依次编码，得到句子级别的向量特征：

句子S特征编码＝word2vec(单词1)，word2vec(单词2)，...,word2vec(单词n)

然后，使用多头自注意力机制对句子S进行上下文学习，增强前后语义联系。其中使用多头的目的是为了学到更丰富的特征表达。以Head₁为例：

Embedding_s＝Concat(Head₁,Head₂,...,Head_h)W_s

E_s＝LN(FFN(Embedding_s)+S)

最终经过transformer编码后，句子S得到的编码特征为E_s。然后句子编码特征分别和多尺度视觉特征编码进行多模态自注意力学习，获取基于不同粒度视觉编码特征的句子表示。以尺度1特征为例：

Embedding_cross＝Concat(Head₁,Head₂,...,Head_h)W_cross

经过多模态自注意力学习后，基于不同粒度视觉编码特征的句子表示如下：

在此基础上增加门控注意力模块，让模型根据当前的描述需要自主选择对不同粒度描述的关注程度，以适应多样化的时尚商品描述生成任务。门控注意力机制定义如下：

...

其中β₁,β₂,...,β_k为基于不同尺度特征的句子表示对最终描述的相对贡献值。最后，我们结合不同句子表示的贡献，得到新的的句子表示定义如下：

最终根据输出句子表示预测出下一个单词的概率。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于时尚领域的图像语描述生成方法，其特征在于：包括如下步骤：

2.根据权利要求1所述的基于时尚领域的图像语描述生成方法，其特征在于：所述步骤1中，对由多种角度图片组成的多样的、冗余的时尚图片进行预处理，预处理后的每个时尚商品包含正面图、侧面图、背面图和全身图，对每个商品对应的描述长度设置阀值，大于阀值则去除，小于阀值则用0补齐。

3.根据权利要求1所述的基于时尚领域的图像语义描述生成方法，其特征在于：所述步骤1中，时尚描述数据集为FACAD和Fashion Gen数据集。

4.根据权利要求1所述的基于时尚领域的图像语义描述生成方法，其特征在于：所述步骤2中，时尚商品特征提取过程如下：

商品角度1→特征提取网络→商品角度1特征

商品角度2→特征提取网络→商品角度2特征

...→特征级联→输出

商品角度n→特征提取网络→商品角度n特征

特征提取网络结构定义如下：

以z^l-1为例，自注意力的计算过程定义如下：

5.根据权利要求1所述的基于时尚领域的图像语义描述生成方法，其特征在于：所述步骤3中，针对商品特征进行了k个尺度的池化操作，获取多粒度特征，具体定义如下：

P_i＝[AvgPooling₁,AvgPooling₂,...,AvgPooling_k]

X_i＝MLP(P_i)

6.根据权利要求1所述的基于时尚领域的图像语义描述生成方法，其特征在于：所述步骤4中，每个transformer网络之间相互独立，参数不共享，最大程度保留每种视觉特征的独特性。

7.根据权利要求1所述的基于时尚领域的图像语义描述生成方法，其特征在于：所述步骤4中，针对k个尺度特征分别使用独立的transformer进行编码，其中，使用MultiHead多头注意力机制学习特征内部的交互关系，以Head₁为例：

8.根据权利要求1所述的基于时尚领域的图像语义描述生成方法，其特征在于：所述步骤5中，设计一个带有门控注意力机制的解码器，首先将描述中的所有单词进行编码，再送入解码器中，对单词编码进行自注意力学习，建立单词之间的上下文关系，获得高层句子编码，将步骤4中的多个视觉特征编码结果，分别和高层句子编码进行多模态自注意力学习，得到基于不同尺度特征的句子编码；再计算每种句子编码对描述的相对贡献，进行融合；对设计的网络进行端到端训练，最终实现对时尚图片进行高质量描述生成的目标。

9.一种基于时尚领域的图像语描述生成系统，其特征在于：其整体结构如下：

为预测单词的概率。