CN115294427A - 一种基于迁移学习的风格化图像描述生成方法 - Google Patents
一种基于迁移学习的风格化图像描述生成方法 Download PDFInfo
- Publication number
- CN115294427A CN115294427A CN202210392972.4A CN202210392972A CN115294427A CN 115294427 A CN115294427 A CN 115294427A CN 202210392972 A CN202210392972 A CN 202210392972A CN 115294427 A CN115294427 A CN 115294427A
- Authority
- CN
- China
- Prior art keywords
- text
- gpt
- prefix
- image
- style
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/778—Active pattern-learning, e.g. online learning of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Abstract
本发明涉及一种基于迁移学习的风格化图像描述生成方法,属于自然语言处理和计算机视觉图像描述生成技术领域。本方法利用分步训练的方法,使用两个映射网络,分别学习了文字的语义知识和风格知识。使用多模态预训练模型提取图像和文本信息,并通过映射网络进一步缩小图像和文本的语义距离。利用迁移学习的方法,将文本风格知识迁移到图像描述模型中,有效生成风格化图像语义。利用提示符(prompt)训练方式在大规模预训练语言模型GPT‑2上进行训练,降低训练成本。本方法针对风格化图像描述数据集缺乏的情况,利用风格化文本语料库对模型进行训练,以获得包含风格化知识的映射网络,并将其迁移到图像描述模型中。极大地降低了数据获取和模型训练的成本,在无监督的情况下同样取得了良好的效果。
Description
技术领域
本发明涉及一种基于迁移学习的风格化图像描述生成方法,具体涉及一种利用提示符(prompt)控制语言模型生成风格化图像描述的方法,以及利用迁移学习将在文本上学习到的语言风格知识迁移到图像描述生成领域的方法,属于多模态图像描述生成技术领域。
背景技术
进入21世纪以来,随着互联网、智能手机以及社交网络的快速发展,图像描述工作得到了人们越来越多的重视。图像描述可以有效的应用在人们的日常生活中,帮助学龄前和视觉障碍的用户理解图像,以及帮助人们在社交网络发布照片时提供文字素材、标签等。例如在2018年底,Instagram推出了一款包含AI图片描述功能的社交软件,当用户点击所看到的图片时,软件可以自动的对该图片进行详细的描述,能够有效帮助具有视觉障碍用户轻松使用这款软件。
然而现阶段的图像描述技术主要停留在对图像的客观描述上,语言风格偏向于中性。无法满足人们对风格化、个性化的图像描述生成的需求。但由于高质量的风格化图像描述数据集的获取需要很高的成本,无论是从海量风格繁杂的图像文本对中筛选符合要求的数据,还是人工为图像编写对应风格的描述,都需要大量的人力和时间,且质量难以把控。因此大规模风格化图像描述数据集数量相对较少,极大地阻碍了风格化图像描述工作的发展。
因此,有必要对图像描述工作进行更加深入的研究,让图像描述模型可以在风格化图像描述数据不充分的情况下,利用半监督或者无监督等技术,生成风格丰富、具有可读性的描述,以满足不同用户的需求。
发明内容
本发明的目的是针对现阶段图像描述工作所生成的句子风格单一,并且在风格化图像描述数据集数量和规模不充分的情况下,模型难以有效进行训练的问题,提出一种基于迁移学习的风格化图像描述生成方法。
本方法的创新点在于:针对风格化图像描述数据集缺乏的情况,利用风格化文本语料库对模型进行训练,以获得风格化描述知识,并将其迁移到图像描述工作中,以生成风格化图像描述。利用prompt范式对大规模预训练模型中包含的知识进行充分的利用,在不对语言模型进行微调的情况下生成高质量的风格化图像描述,极大降低了训练成本。
本发明采用以下技术方案实现。
首先,对相关概念进行说明:
定义1:风格化图像描述数据集
指针对图像描述任务提供相应具体的图片及相应描述的图像文本对的集合。其中,数据集同一张图片可能对应多个不同的文本。并且不同文本可能对应不同风格,例如积极或者消极风格。
定义2:多模态预训练模型
指在大规模数据集上进行训练,在训练结束时得到结果比较好的一组权重值,研究人员分享出来供其他人使用的模型。由于模型在海量数据上进行了训练,所以模型学习到了丰富的知识,可以通过微调等手段迁移到其他领域的研究上。本工作使用的多模态预训练模型为CLIP。
定义3:预训练自回归语言模型
指在大规模数据集上进行训练,通过输入前缀提示,根据句子前面的单词,预测下一个单词的模型。由于其蕴含大量的知识,常应用于少样本学习或零样本学习。本工作使用的预训练自回归语言模型为GPT-2。
定义4:提示符(prompt)
指研究者们为下游任务设计的一种模板或者范式,这种范式能够帮助预训练模型回忆起自己预训练学到的知识。提示符可以是人工设计或模型自动学习生成的,包含离散或者连续、前缀或者完形填空等多种形式。本工作使用的是连续前缀形式的prompt。
定义5:自编码器
是一类在半监督学习和非监督学习中使用的人工神经网络,其功能是通过将输入信息作为学习目标,对输入信息进行表征学习,常用于压缩和提取特征。
本发明的目的是通过下述技术方案实现的。
一种基于迁移学习的风格化图像描述生成方法,包括以下步骤:
步骤1:利用文本语义映射网络学习文本在GPT-2空间的自身表示
具体的,使用没有语言风格倾向的文本数据(T)进行训练,利用自监督的方法,学习文本T从CLIP特征空间到GPT-2特征空间的自我表示。首先使用CLIP文字编码器抽取文本T的特征T-clip,并利用一个文本语义映射网络Text Semantic Mapping Network将T-clip映射到GPT-2的特征空间,得到特征向量T-prefix。然后利用GPT-2对文本T进行嵌入,得到文本T在GPT-2特征空间的向量表示T-embedding。以T-prefix作为source,T-embedding作为target,以prompt=[source][target]形式进行组合,作为GPT-2的输入。在训练的过程中,将GPT-2的参数进行冻结,只对文字语义前缀映射网络Text Semantic MappingNetwork进行训练。
步骤2:利用文本风格映射网络学习文本在GPT-2空间的风格表示
使用成对的风格化文本数据(T,S)进行训练,学习文本从CLIP特征空间到GPT-2特征空间的风格表示。在步骤1模型的基础上,利用预训练的自编码器对T-prefix进行信息压缩,得到T-prefix的高密度语义信息表示T-prefix'并输入文本风格映射网络Text StyleMapping Network,对T-prefix'向量进行映射,得到风格向量表示TS-prefix。然后以T-prefix作为source1,TS-prefix作为source2,T-embedding作为target,以prompt=[source2][source1][target]形式进行组合,作为GPT-2输入。在训练的过程中,将GPT-2和文字语义映射网络Text Semantic Mapping Network的参数进行冻结,只对文字风格映射网络Text Style Mapping Network进行训练。
步骤3:利用图像语义网络学习图像在GPT-2空间的语义表示
使用无语言风格倾向的图像描述数据(I,T)进行训练,学习图像I从CLIP特征空间到GPT-2特征空间的语义表示。使用CLIP图像编码器抽取图像I的特征I-clip,并利用图像语义映射网络Image Semantic Mapping Network将图像特征I-clip映射到GPT-2特征空间,得到特征向量I-prefix。利用GPT-2对T进行嵌入,得到文本的向量表示T-embedding。以I-prefix作为source1,T-embedding作为target,以prompt=[source1][traget]形式进行组合,作为GPT-2输入。在训练的过程中,将GPT-2的参数进行冻结,只对图像语义映射网络Image Semantic Mapping Network进行训练。步骤3与步骤1、2之间为并行关系,可同时进行,使效率进一步得到提升。
步骤4:将的文本风格知识迁移到图像描述模型,生成风格化图像描述
以步骤3中模型为基础,将生成的I-prefix向量输入步骤2中训练的文本风格映射网络Text Style Mapping Network,得到风格向量prefix-IS,与I-prefix进行拼接,作为GPT-2的输入,从而获得包含特定风格的图像描述。
有益效果
本发明对比现有技术,具有以下优点:
1.面对风格化图像描述数据集数量不足的情况,采用迁移学习的方法,可以有效生成风格化图像描述。
2.利用prompt范式引导大规模预训练语言模型,充分利用其蕴含的语言知识,并且对其参数进行了冻结,仅训练映射网络,极大的减少了训练参数的数量,在训练速度上有明显提升。
附图说明
图1为本发明方法的流程图;
图2为实施例配图。
具体实施方式
下面将结合说明书附图对及实施例对本发明方法作进一步详细说明。
实施例
以MS COCO和网络收集的中的风格化文本数据为实施例,本实施例将以具体实例对本发明所述方法的具体操作步骤进行详细说明;
如图1所示,一种基于迁移学习的风格化图像描述生成方法,包括以下步骤:
步骤1:训练文本语义映射网络
具体到本例,使用没有语言倾向的风格文本数据进行训练,例如:
中立风格文本:"A plate filled with a melted cheese covered sandwichand fries."
利用自监督的方法进行训练,用文本语义映射网络Text Semantic MappingNetwork对文本特征进行映射,学习文本从CLIP空间到语言模型GPT-2空间的语义表示。训练后效果如下:
输入:"A plate filled with a melted cheese covered sandwich andfries."
输出:"The plate has a sandwich with many large french fries."
步骤2:训练文本风格映射网络
使用成对的(中立,积极)数据进行训练,例如:
中立风格文本:"A plate filled with a melted cheese covered sandwichand fries."
积极风格文本:"a plate of delicious food including French fries."
将步骤1中训练好的文本语义映射网络Text Semantic Mapping Network参数固定,并利用其对文本特征进行映射,得到文本语义前缀I_prefix。使用文本风格映射网络Text Style Mapping Network对文本语义前缀I_prefix进行映射,得到文本风格前缀IS_prefix。将I_prefix和IS_prefix进行拼接,输入语言模型进行训练,学习文本从CLIP空间到语言模型GPT-2空间的风格表示。
训练后效果如下:
输入:"A plate filled with a melted cheese covered sandwich andfries."
输出:"This is a delicious plate of french fries."
步骤3:训练图像文本映射网络
使用无语言风格倾向的图像描述数据(MS COCO)进行训练,例如:
图片:如图2所示。
文本:"A plate with food and french fries on it"
用文本语义映射网络Image Semantic Mapping Network对图像特征进行映射,学习图像从CLIP空间到语言模型GPT-2空间的语义表示。
训练后效果如下:
输入:如图2所示。
输出:"Some fries and sandwiches on the plate."
步骤4:将文本风格知识迁移到图像描述模型
把步骤3的基础上,将图像语义向量I-prefix输入步骤2中的文本风格映射网络Text Style Mapping Network并固定参数,得到图像风格向量IS-prefix,将其与I-prefix拼接作为GPT-2的输入,从而获得包含特定风格的图像描述。
训练后效果如下:
输入图片:如图2所示。
输出文本:"The plate has one of my favorite foods on it,French fries."
如本例所示,生成的文本准确描述了图像的主题内容,并且带有指定的风格倾向,具有良好的可读性。并且由于固定了预训练语言模型的参数,仅对prompt映射网络进行训练,参数相较于同类利用预训练语言模型的方法,减少了90%以上,极大降低训练成本。
Claims (1)
1.一种基于迁移学习的风格化图像描述生成方法,其特征在于,包括以下步骤:
步骤1、利用文本语义映射网络学习文本在GPT-2空间的自身表示
使用没有语言风格倾向的文本数据(T)进行训练,利用自监督的方法,学习文本T从CLIP特征空间到GPT-2特征空间的自我表示;
首先使用CLIP文字编码器抽取文本T的特征T-clip,并利用一个文本语义映射网络Text Semantic Mapping Network将T-clip映射到GPT-2的特征空间,得到特征向量T-prefix;
然后利用GPT-2对文本T进行嵌入,得到文本T在GPT-2特征空间的向量表示T-embedding;以T-prefix作为source,T-embedding作为target,以prompt=[source][target]形式进行组合,作为GPT-2的输入;
在训练的过程中,将GPT-2的参数进行冻结,只对文字语义前缀映射网络TextSemantic Mapping Network进行训练;
步骤2、利用文本风格映射网络学习文本在GPT-2空间的风格表示
使用成对的风格化文本数据(T,S)进行训练,学习文本从CLIP特征空间到GPT-2特征空间的风格表示;在步骤1模型的基础上,利用预训练的自编码器对T-prefix进行信息压缩,得到T-prefix的高密度语义信息表示T-prefix'并输入文本风格映射网络Text StyleMapping Network,对T-prefix'向量进行映射,得到风格向量表示TS-prefix;然后以T-prefix作为source1,TS-prefix作为source2,T-embedding作为target,以prompt=[source2][source1][target]形式进行组合,作为GPT-2输入;在训练的过程中,将GPT-2和文字语义映射网络Text Semantic Mapping Network的参数进行冻结,只对文字风格映射网络Text Style Mapping Network进行训练;
步骤3、利用图像语义网络学习图像在GPT-2空间的语义表示
使用无语言风格倾向的图像描述数据(I,T)进行训练,学习图像I从CLIP特征空间到GPT-2特征空间的语义表示;使用CLIP图像编码器抽取图像I的特征I-clip,并利用图像语义映射网络Image Semantic Mapping Network将图像特征I-clip映射到GPT-2特征空间,得到特征向量I-prefix;利用GPT-2对T进行嵌入,得到文本的向量表示T-embedding;以I-prefix作为source1,T-embedding作为target,以prompt=[source1][traget]形式进行组合,作为GPT-2输入;在训练的过程中,将GPT-2的参数进行冻结,只对图像语义映射网络Image Semantic Mapping Network进行训练;步骤3与步骤1、2之间为并行关系,可同时进行,使效率进一步得到提升;
步骤4、将的文本风格知识迁移到图像描述模型,生成风格化图像描述
以步骤3中模型为基础,将生成的I-prefix向量输入步骤2中训练的文本风格映射网络Text Style Mapping Network,得到风格向量prefix-IS,与I-prefix进行拼接,作为GPT-2的输入,从而获得包含特定风格的图像描述。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210392972.4A CN115294427A (zh) | 2022-04-14 | 2022-04-14 | 一种基于迁移学习的风格化图像描述生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210392972.4A CN115294427A (zh) | 2022-04-14 | 2022-04-14 | 一种基于迁移学习的风格化图像描述生成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115294427A true CN115294427A (zh) | 2022-11-04 |
Family
ID=83820729
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210392972.4A Pending CN115294427A (zh) | 2022-04-14 | 2022-04-14 | 一种基于迁移学习的风格化图像描述生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115294427A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115953779A (zh) * | 2023-03-03 | 2023-04-11 | 中国科学技术大学 | 基于文本对抗生成网络的无监督图像描述生成方法 |
CN116204642A (zh) * | 2023-03-06 | 2023-06-02 | 上海阅文信息技术有限公司 | 数字阅读中角色隐式属性智能识别分析方法、系统和应用 |
CN117131845A (zh) * | 2023-09-01 | 2023-11-28 | 四川大学 | 一种基于预训练语言模型和白化风格化的简历重构方法 |
CN117315417A (zh) * | 2023-09-04 | 2023-12-29 | 浙江大学 | 一种基于扩散模型的服装样式融合方法和系统 |
-
2022
- 2022-04-14 CN CN202210392972.4A patent/CN115294427A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115953779A (zh) * | 2023-03-03 | 2023-04-11 | 中国科学技术大学 | 基于文本对抗生成网络的无监督图像描述生成方法 |
CN115953779B (zh) * | 2023-03-03 | 2023-06-16 | 中国科学技术大学 | 基于文本对抗生成网络的无监督图像描述生成方法 |
CN116204642A (zh) * | 2023-03-06 | 2023-06-02 | 上海阅文信息技术有限公司 | 数字阅读中角色隐式属性智能识别分析方法、系统和应用 |
CN116204642B (zh) * | 2023-03-06 | 2023-10-27 | 上海阅文信息技术有限公司 | 数字阅读中角色隐式属性智能识别分析方法、系统和应用 |
CN117131845A (zh) * | 2023-09-01 | 2023-11-28 | 四川大学 | 一种基于预训练语言模型和白化风格化的简历重构方法 |
CN117131845B (zh) * | 2023-09-01 | 2024-04-12 | 四川大学 | 一种基于预训练语言模型和白化风格化的简历重构方法 |
CN117315417A (zh) * | 2023-09-04 | 2023-12-29 | 浙江大学 | 一种基于扩散模型的服装样式融合方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110750959B (zh) | 文本信息处理的方法、模型训练的方法以及相关装置 | |
CN115294427A (zh) | 一种基于迁移学习的风格化图像描述生成方法 | |
CN113254599B (zh) | 一种基于半监督学习的多标签微博文本分类方法 | |
CN104050160B (zh) | 一种机器与人工翻译相融合的口语翻译方法和装置 | |
CN111488931B (zh) | 文章质量评估方法、文章推荐方法及其对应的装置 | |
CN107203511A (zh) | 一种基于神经网络概率消歧的网络文本命名实体识别方法 | |
CN107862087A (zh) | 基于大数据和深度学习的情感分析方法、装置和存储介质 | |
CN115131698B (zh) | 视频属性确定方法、装置、设备及存储介质 | |
CN111552773A (zh) | 一种阅读理解任务中是否类问题关键句寻找方法及系统 | |
CN110851601A (zh) | 基于分层注意力机制的跨领域情感分类系统及方法 | |
CN115292513A (zh) | 基于多视图学习的教学知识图谱构建及检索方法及系统 | |
CN113934835B (zh) | 结合关键词和语义理解表征的检索式回复对话方法及系统 | |
Yirtici et al. | Regional-CNN-based enhanced Turkish sign language recognition | |
CN110969137A (zh) | 家居图像描述生成方法、装置、系统及存储介质 | |
CN112801217B (zh) | 文本相似度判断方法、装置、电子设备以及可读存储介质 | |
Ouali et al. | An augmented reality for an arabic text reading and visualization assistant for the visually impaired | |
CN111666385A (zh) | 一种基于深度学习的客服问答系统及实现方法 | |
CN112966518A (zh) | 一种面向大规模在线学习平台的优质答案识别方法 | |
CN116932736A (zh) | 一种基于用户需求结合倒排表的专利推荐方法 | |
CN110826510A (zh) | 一种基于表情情感计算的三维教学课堂实现方法 | |
CN115757723A (zh) | 文本处理方法及装置 | |
CN115359250A (zh) | 基于记忆力机制的跨域小样本图像语义分割方法 | |
CN111062207B (zh) | 表情图像处理方法、装置、计算机存储介质及电子设备 | |
CN115617959A (zh) | 问题解答方法及装置 | |
CN111353397B (zh) | 基于大数据和ocr的网络课堂中文板书结构化分享系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |