CN115294427A

CN115294427A - 一种基于迁移学习的风格化图像描述生成方法

Info

Publication number: CN115294427A
Application number: CN202210392972.4A
Authority: CN
Inventors: 史树敏; 田君玉; 陈雨涛
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2022-04-14
Filing date: 2022-04-14
Publication date: 2022-11-04

Abstract

本发明涉及一种基于迁移学习的风格化图像描述生成方法，属于自然语言处理和计算机视觉图像描述生成技术领域。本方法利用分步训练的方法，使用两个映射网络，分别学习了文字的语义知识和风格知识。使用多模态预训练模型提取图像和文本信息，并通过映射网络进一步缩小图像和文本的语义距离。利用迁移学习的方法，将文本风格知识迁移到图像描述模型中，有效生成风格化图像语义。利用提示符(prompt)训练方式在大规模预训练语言模型GPT‑2上进行训练，降低训练成本。本方法针对风格化图像描述数据集缺乏的情况，利用风格化文本语料库对模型进行训练，以获得包含风格化知识的映射网络，并将其迁移到图像描述模型中。极大地降低了数据获取和模型训练的成本，在无监督的情况下同样取得了良好的效果。

Description

一种基于迁移学习的风格化图像描述生成方法

技术领域

本发明涉及一种基于迁移学习的风格化图像描述生成方法，具体涉及一种利用提示符(prompt)控制语言模型生成风格化图像描述的方法，以及利用迁移学习将在文本上学习到的语言风格知识迁移到图像描述生成领域的方法，属于多模态图像描述生成技术领域。

背景技术

进入21世纪以来，随着互联网、智能手机以及社交网络的快速发展，图像描述工作得到了人们越来越多的重视。图像描述可以有效的应用在人们的日常生活中，帮助学龄前和视觉障碍的用户理解图像，以及帮助人们在社交网络发布照片时提供文字素材、标签等。例如在2018年底，Instagram推出了一款包含AI图片描述功能的社交软件，当用户点击所看到的图片时，软件可以自动的对该图片进行详细的描述，能够有效帮助具有视觉障碍用户轻松使用这款软件。

然而现阶段的图像描述技术主要停留在对图像的客观描述上，语言风格偏向于中性。无法满足人们对风格化、个性化的图像描述生成的需求。但由于高质量的风格化图像描述数据集的获取需要很高的成本，无论是从海量风格繁杂的图像文本对中筛选符合要求的数据，还是人工为图像编写对应风格的描述，都需要大量的人力和时间，且质量难以把控。因此大规模风格化图像描述数据集数量相对较少，极大地阻碍了风格化图像描述工作的发展。

因此，有必要对图像描述工作进行更加深入的研究，让图像描述模型可以在风格化图像描述数据不充分的情况下，利用半监督或者无监督等技术，生成风格丰富、具有可读性的描述，以满足不同用户的需求。

发明内容

本发明的目的是针对现阶段图像描述工作所生成的句子风格单一，并且在风格化图像描述数据集数量和规模不充分的情况下，模型难以有效进行训练的问题，提出一种基于迁移学习的风格化图像描述生成方法。

本方法的创新点在于：针对风格化图像描述数据集缺乏的情况，利用风格化文本语料库对模型进行训练，以获得风格化描述知识，并将其迁移到图像描述工作中，以生成风格化图像描述。利用prompt范式对大规模预训练模型中包含的知识进行充分的利用，在不对语言模型进行微调的情况下生成高质量的风格化图像描述，极大降低了训练成本。

本发明采用以下技术方案实现。

首先，对相关概念进行说明：

定义1：风格化图像描述数据集

指针对图像描述任务提供相应具体的图片及相应描述的图像文本对的集合。其中，数据集同一张图片可能对应多个不同的文本。并且不同文本可能对应不同风格，例如积极或者消极风格。

定义2：多模态预训练模型

指在大规模数据集上进行训练，在训练结束时得到结果比较好的一组权重值，研究人员分享出来供其他人使用的模型。由于模型在海量数据上进行了训练，所以模型学习到了丰富的知识，可以通过微调等手段迁移到其他领域的研究上。本工作使用的多模态预训练模型为CLIP。

定义3：预训练自回归语言模型

指在大规模数据集上进行训练，通过输入前缀提示，根据句子前面的单词，预测下一个单词的模型。由于其蕴含大量的知识，常应用于少样本学习或零样本学习。本工作使用的预训练自回归语言模型为GPT-2。

定义4：提示符(prompt)

指研究者们为下游任务设计的一种模板或者范式，这种范式能够帮助预训练模型回忆起自己预训练学到的知识。提示符可以是人工设计或模型自动学习生成的，包含离散或者连续、前缀或者完形填空等多种形式。本工作使用的是连续前缀形式的prompt。

定义5：自编码器

是一类在半监督学习和非监督学习中使用的人工神经网络，其功能是通过将输入信息作为学习目标，对输入信息进行表征学习，常用于压缩和提取特征。

本发明的目的是通过下述技术方案实现的。

一种基于迁移学习的风格化图像描述生成方法，包括以下步骤：

步骤1：利用文本语义映射网络学习文本在GPT-2空间的自身表示

具体的，使用没有语言风格倾向的文本数据(T)进行训练，利用自监督的方法，学习文本T从CLIP特征空间到GPT-2特征空间的自我表示。首先使用CLIP文字编码器抽取文本T的特征T-clip，并利用一个文本语义映射网络Text Semantic Mapping Network将T-clip映射到GPT-2的特征空间，得到特征向量T-prefix。然后利用GPT-2对文本T进行嵌入，得到文本T在GPT-2特征空间的向量表示T-embedding。以T-prefix作为source，T-embedding作为target，以prompt＝[source][target]形式进行组合，作为GPT-2的输入。在训练的过程中，将GPT-2的参数进行冻结，只对文字语义前缀映射网络Text Semantic MappingNetwork进行训练。

步骤2：利用文本风格映射网络学习文本在GPT-2空间的风格表示

使用成对的风格化文本数据(T，S)进行训练，学习文本从CLIP特征空间到GPT-2特征空间的风格表示。在步骤1模型的基础上，利用预训练的自编码器对T-prefix进行信息压缩，得到T-prefix的高密度语义信息表示T-prefix'并输入文本风格映射网络Text StyleMapping Network，对T-prefix'向量进行映射，得到风格向量表示TS-prefix。然后以T-prefix作为source1，TS-prefix作为source2,T-embedding作为target，以prompt＝[source2][source1][target]形式进行组合，作为GPT-2输入。在训练的过程中，将GPT-2和文字语义映射网络Text Semantic Mapping Network的参数进行冻结，只对文字风格映射网络Text Style Mapping Network进行训练。

步骤3：利用图像语义网络学习图像在GPT-2空间的语义表示

使用无语言风格倾向的图像描述数据(I，T)进行训练，学习图像I从CLIP特征空间到GPT-2特征空间的语义表示。使用CLIP图像编码器抽取图像I的特征I-clip，并利用图像语义映射网络Image Semantic Mapping Network将图像特征I-clip映射到GPT-2特征空间，得到特征向量I-prefix。利用GPT-2对T进行嵌入，得到文本的向量表示T-embedding。以I-prefix作为source1，T-embedding作为target，以prompt＝[source1][traget]形式进行组合，作为GPT-2输入。在训练的过程中，将GPT-2的参数进行冻结，只对图像语义映射网络Image Semantic Mapping Network进行训练。步骤3与步骤1、2之间为并行关系，可同时进行，使效率进一步得到提升。

步骤4：将的文本风格知识迁移到图像描述模型，生成风格化图像描述

以步骤3中模型为基础，将生成的I-prefix向量输入步骤2中训练的文本风格映射网络Text Style Mapping Network，得到风格向量prefix-IS，与I-prefix进行拼接，作为GPT-2的输入，从而获得包含特定风格的图像描述。

有益效果

本发明对比现有技术，具有以下优点：

1.面对风格化图像描述数据集数量不足的情况，采用迁移学习的方法，可以有效生成风格化图像描述。

2.利用prompt范式引导大规模预训练语言模型，充分利用其蕴含的语言知识，并且对其参数进行了冻结，仅训练映射网络，极大的减少了训练参数的数量，在训练速度上有明显提升。

附图说明

图1为本发明方法的流程图；

图2为实施例配图。

具体实施方式

下面将结合说明书附图对及实施例对本发明方法作进一步详细说明。

实施例

以MS COCO和网络收集的中的风格化文本数据为实施例，本实施例将以具体实例对本发明所述方法的具体操作步骤进行详细说明；

如图1所示，一种基于迁移学习的风格化图像描述生成方法，包括以下步骤：

步骤1：训练文本语义映射网络

具体到本例，使用没有语言倾向的风格文本数据进行训练，例如：

中立风格文本："A plate filled with a melted cheese covered sandwichand fries."

利用自监督的方法进行训练，用文本语义映射网络Text Semantic MappingNetwork对文本特征进行映射，学习文本从CLIP空间到语言模型GPT-2空间的语义表示。训练后效果如下：

输入："A plate filled with a melted cheese covered sandwich andfries."

输出："The plate has a sandwich with many large french fries."

步骤2：训练文本风格映射网络

使用成对的(中立，积极)数据进行训练，例如：

积极风格文本："a plate of delicious food including French fries."

将步骤1中训练好的文本语义映射网络Text Semantic Mapping Network参数固定，并利用其对文本特征进行映射，得到文本语义前缀I_prefix。使用文本风格映射网络Text Style Mapping Network对文本语义前缀I_prefix进行映射，得到文本风格前缀IS_prefix。将I_prefix和IS_prefix进行拼接，输入语言模型进行训练，学习文本从CLIP空间到语言模型GPT-2空间的风格表示。

训练后效果如下：

输入："A plate filled with a melted cheese covered sandwich andfries."

输出："This is a delicious plate of french fries."

步骤3：训练图像文本映射网络

使用无语言风格倾向的图像描述数据(MS COCO)进行训练，例如：

图片：如图2所示。

文本："A plate with food and french fries on it"

用文本语义映射网络Image Semantic Mapping Network对图像特征进行映射，学习图像从CLIP空间到语言模型GPT-2空间的语义表示。

训练后效果如下：

输入：如图2所示。

输出："Some fries and sandwiches on the plate."

步骤4：将文本风格知识迁移到图像描述模型

把步骤3的基础上，将图像语义向量I-prefix输入步骤2中的文本风格映射网络Text Style Mapping Network并固定参数，得到图像风格向量IS-prefix，将其与I-prefix拼接作为GPT-2的输入，从而获得包含特定风格的图像描述。

训练后效果如下：

输入图片：如图2所示。

输出文本："The plate has one of my favorite foods on it,French fries."

如本例所示，生成的文本准确描述了图像的主题内容，并且带有指定的风格倾向，具有良好的可读性。并且由于固定了预训练语言模型的参数，仅对prompt映射网络进行训练，参数相较于同类利用预训练语言模型的方法，减少了90％以上，极大降低训练成本。

Claims

1.一种基于迁移学习的风格化图像描述生成方法，其特征在于，包括以下步骤：

步骤1、利用文本语义映射网络学习文本在GPT-2空间的自身表示

使用没有语言风格倾向的文本数据(T)进行训练，利用自监督的方法，学习文本T从CLIP特征空间到GPT-2特征空间的自我表示；

首先使用CLIP文字编码器抽取文本T的特征T-clip，并利用一个文本语义映射网络Text Semantic Mapping Network将T-clip映射到GPT-2的特征空间，得到特征向量T-prefix；

然后利用GPT-2对文本T进行嵌入，得到文本T在GPT-2特征空间的向量表示T-embedding；以T-prefix作为source，T-embedding作为target，以prompt＝[source][target]形式进行组合，作为GPT-2的输入；

在训练的过程中，将GPT-2的参数进行冻结，只对文字语义前缀映射网络TextSemantic Mapping Network进行训练；

步骤2、利用文本风格映射网络学习文本在GPT-2空间的风格表示

使用成对的风格化文本数据(T，S)进行训练，学习文本从CLIP特征空间到GPT-2特征空间的风格表示；在步骤1模型的基础上，利用预训练的自编码器对T-prefix进行信息压缩，得到T-prefix的高密度语义信息表示T-prefix'并输入文本风格映射网络Text StyleMapping Network，对T-prefix'向量进行映射，得到风格向量表示TS-prefix；然后以T-prefix作为source1，TS-prefix作为source2,T-embedding作为target，以prompt＝[source2][source1][target]形式进行组合，作为GPT-2输入；在训练的过程中，将GPT-2和文字语义映射网络Text Semantic Mapping Network的参数进行冻结，只对文字风格映射网络Text Style Mapping Network进行训练；

步骤3、利用图像语义网络学习图像在GPT-2空间的语义表示

使用无语言风格倾向的图像描述数据(I，T)进行训练，学习图像I从CLIP特征空间到GPT-2特征空间的语义表示；使用CLIP图像编码器抽取图像I的特征I-clip，并利用图像语义映射网络Image Semantic Mapping Network将图像特征I-clip映射到GPT-2特征空间，得到特征向量I-prefix；利用GPT-2对T进行嵌入，得到文本的向量表示T-embedding；以I-prefix作为source1，T-embedding作为target，以prompt＝[source1][traget]形式进行组合，作为GPT-2输入；在训练的过程中，将GPT-2的参数进行冻结，只对图像语义映射网络Image Semantic Mapping Network进行训练；步骤3与步骤1、2之间为并行关系，可同时进行，使效率进一步得到提升；

步骤4、将的文本风格知识迁移到图像描述模型，生成风格化图像描述