CN116580283B - 一种图像提示词生成方法、装置、电子设备及存储介质 - Google Patents
一种图像提示词生成方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN116580283B CN116580283B CN202310855165.6A CN202310855165A CN116580283B CN 116580283 B CN116580283 B CN 116580283B CN 202310855165 A CN202310855165 A CN 202310855165A CN 116580283 B CN116580283 B CN 116580283B
- Authority
- CN
- China
- Prior art keywords
- model
- image
- prompt
- embedding
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 73
- 238000003860 storage Methods 0.000 title claims abstract description 12
- 238000012549 training Methods 0.000 claims abstract description 94
- 238000005457 optimization Methods 0.000 claims abstract description 24
- 239000013598 vector Substances 0.000 claims abstract description 21
- 238000005065 mining Methods 0.000 claims abstract description 14
- 238000012795 verification Methods 0.000 claims description 35
- 238000001914 filtration Methods 0.000 claims description 29
- 238000012360 testing method Methods 0.000 claims description 24
- 238000004364 calculation method Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 11
- 238000010200 validation analysis Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 description 22
- 238000010586 diagram Methods 0.000 description 8
- 238000010422 painting Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例提供一种图像提示词生成方法、装置、电子设备及存储介质,涉及计算机技术领域。该方法包括获取目标图像,所述目标图像包括图像嵌入和提示词嵌入的余弦相似度低的图像;利用预先训练得到的clip模型获得所述目标图像的提示词向量;利用sentence‑transformer模型获取所述提示词向量对应的提示词。该方法采用经过困难样本挖掘和多次迭代优化的clip模型,即使对于余弦相似度低的图像也能够生成更加精确、优质和无冗余的提示词,解决了现有方法生成的提示词有冗余且质量较低的问题。
Description
技术领域
本申请涉及计算机技术领域,具体而言,涉及一种图像提示词生成方法、装置、电子设备及存储介质。
背景技术
随着AI绘画(text to image)能力的不断提升,越来越多的人将其应用到生产和生活中。在银行的业务场景中,AI绘画也有广泛的应用,例如实现营销图文的快速生成,在以往的场景中,营销宣传需要通过美工协助进行图片的设计与绘制,而且还需不断修改才能定稿,而使用AI绘画将大大加速这一工作流程。
AI绘画根据输入的提示词(prompt)生成对应的图片。不同的提示词,词语类型、描述方式等对模型生成的图片内容有很大影响。使用者常常需要不断调整提示词才能让模型产生符合要求的图片,AI绘画工具的使用仍然有一定门槛。
现有的基于图像生成提示词的方法,如基于图像嵌入(image embedding)相似度检索方法,生成的提示词过长,包含了过多冗余描述;由于获取的提示词质量依赖于检索的AI绘画数据集,目前公开的大型AI绘画数据集都是由不同渠道收集的用户历史提示词构成,不同用户构建提示词的能力上也有区别,因此,生成的提示词的质量较低。
发明内容
本申请实施例的目的在于提供一种图像提示词生成方法、装置、电子设备及存储介质,采用经过困难样本挖掘和多次迭代优化的clip模型,即使对于余弦相似度低的图像也能够生成更加精确、优质和无冗余的提示词,解决了现有方法生成的提示词有冗余且质量较低的问题。
本申请实施例提供了一种图像提示词生成方法,所述方法包括:
获取目标图像,所述目标图像包括图像嵌入和提示词嵌入的余弦相似度低的图像;
利用预先训练得到的clip模型获得所述目标图像的提示词向量;
利用sentence-transformer模型获取所述提示词向量对应的提示词。
在上述实现过程中,对于图像嵌入和提示词嵌入的余弦相似度低的图像,说明生成的提示词与真实提示词相差甚远,利用本申请训练的clip模型可获得更加精确、优质和无冗余的提示词,解决了现有方法生成的提示词有冗余且质量较低的问题。
在所述利用预先训练得到的clip模型获得所述目标图像的提示词向量的步骤之前,所述方法还包括:
基于困难样本挖掘对所述clip模型进行训练。
在上述实现过程中,经过困难样本挖掘和多次迭代优化得到的clip模型,提升了模型的提示词生成质量。
进一步地,所述基于困难样本挖掘对所述clip模型进行训练,包括:
获取开源AI绘画数据集,并进行过滤处理,将处理后的数据集划分为训练集、验证集和测试集;
利用所述训练集对clip模型进行优化;
利用验证集和优化后的所述clip模型对评分模型进行训练;
利用所述评分模型对预先生成的候选提示词过滤,获得困难样本;
将所述困难样本添加至所述AI绘画数据集中,以重新划分训练集、验证集;
利用新的训练集、验证集重新训练clip模型和评分模型,并计算测试集的余弦相似度得分,直至测试集的余弦相似度评分达到预设值。
在上述实现过程中,基于公开的AI绘图数据集,将图像嵌入和提示词嵌入映射到同一空间,迭代提升二者嵌入表示的相似度,使clip模型生成的图像描述更接近于提示词的风格,从而提高生成的提示词的质量。
进一步地,所述获取开源AI绘画数据集,并进行过滤处理,包括:
利用sentence-transformer模型获取所述AI绘画数据集中的各个图像的提示词嵌入;
计算任意两个提示词嵌入的余弦相似度;
过滤掉余弦相似度高于第一设定阈值的图像。
在上述实现过程中,过滤掉余弦相似度过高的提示词,从而过滤掉多语义相似的提示词。
进一步地,所述利用所述训练集对clip模型进行优化,包括:
利用sentence-transformer模型获取所述训练集中图像的提示词嵌入;
利用clip模型获取所述训练集中图像的图像嵌入;
计算所述提示词嵌入和所述图像嵌入的余弦相似度;
在所述sentence-transformer模型参数不变的情况下,使用余弦相似度损失作为目标函数对clip模型进行优化。
在上述实现过程中,将图像嵌入和提示词嵌入映射到同一空间,迭代提升二者嵌入表示的相似度,实现对clip模型的优化。
进一步地,所述利用验证集和优化后的所述clip模型对评分模型进行训练,包括:
利用优化后的clip模型获取验证集的图像嵌入;
利用sentence-transformer模型获取所述验证集的提示词嵌入;
计算所述图像嵌入和提示词嵌入的余弦相似度评分;
将所述图像嵌入作为模型输入,将所述余弦相似度评分作为标签,训练评分模型。
在上述实现过程中,对评分模型进行训练,以用于获得余弦相似度评分,从而确定余弦相似度的高低。
进一步地,在所述利用所述评分模型对预先生成的候选提示词过滤,获得困难样本的步骤之前,所述方法还包括:
利用设定规则编写手工提示词;
利用所述手工提示词训练得到文本生成模型;
利用所述文本生成模型生成候选提示词。
在上述实现过程中,通过对文本生成模型进行训练,获得更多的候选提示词。
进一步地,所述利用所述评分模型对预先生成的候选提示词过滤,获得困难样本,包括:
利用所述评分模型对所述候选提示词进行打分;
保留分数小于第二设定阈值的候选提示词,并作为困难样本。
在上述实现过程中,对候选提示词进行过滤,并获得困难样本,用于对clip模型进行迭代训练。
本申请实施例还提供一种图像提示词生成装置,所述装置包括:
图像获取模块,用于获取目标图像,所述目标图像包括图像嵌入和提示词嵌入的余弦相似度低的图像;
提示词向量获取模块,用于利用预先训练得到的clip模型获得所述目标图像的提示词向量;
提示词获取模块,用于利用sentence-transformer模型获取所述提示词向量对应的提示词。
在上述实现过程中,对于图像嵌入和提示词嵌入的余弦相似度低的图像,说明生成的提示词与真实提示词相差甚远,利用本申请训练的clip模型可获得更加精确、优质和无冗余的提示词,解决了现有方法生成的提示词有冗余且质量较低的问题。
进一步地,所述装置还包括:
clip模型训练模块,用于基于困难样本挖掘对所述clip模型进行训练。
在上述实现过程中,经过困难样本挖掘和多次迭代优化得到的clip模型,提升了模型的提示词生成质量。
进一步地,所述clip模型训练模块包括:
数据划分模块,用于获取开源AI绘画数据集,并进行过滤处理,将处理后的数据集划分为训练集、验证集和测试集;
clip模型优化模块,用于利用所述训练集对clip模型进行优化;
评分模型训练模块,用于利用验证集和优化后的所述clip模型对评分模型进行训练;
困难样本获得模块,用于利用所述评分模型对预先生成的候选提示词过滤,获得困难样本;
重新划分模块,用于将所述困难样本添加至所述AI绘画数据集中,以重新划分训练集、验证集;
迭代模块,用于利用新的训练集、验证集重新训练clip模型和评分模型,并计算测试集的余弦相似度得分,直至测试集的余弦相似度评分达到预设值。
在上述实现过程中,基于公开的AI绘图数据集,将图像嵌入和提示词嵌入映射到同一空间,迭代提升二者嵌入表示的相似度,使clip模型生成的图像描述更接近于提示词的风格,从而提高生成的提示词的质量。
进一步地,所述数据划分模块包括:
提示词嵌入计算模块,用于利用sentence-transformer模型获取所述AI绘画数据集中的各个图像的提示词嵌入;
相似度计算模块,用于计算任意两个提示词嵌入的余弦相似度;
过滤模块,用于过滤掉余弦相似度高于第一设定阈值的图像。
在上述实现过程中,过滤掉余弦相似度过高的提示词,从而过滤掉多语义相似的提示词。
进一步地,所述clip模型优化模块包括:
提示词嵌入获取模块,用于利用sentence-transformer模型获取所述训练集中图像的提示词嵌入;
图像嵌入获取模块,用于利用clip模型获取所述训练集中图像的图像嵌入;
余弦相似度计算模块,用于计算所述提示词嵌入和所述图像嵌入的余弦相似度;
优化模块,用于在所述sentence-transformer模型参数不变的情况下,使用余弦相似度损失作为目标函数对clip模型进行优化。
在上述实现过程中,将图像嵌入和提示词嵌入映射到同一空间,迭代提升二者嵌入表示的相似度,实现对clip模型的优化。
本申请实施例还提供一种电子设备,所述电子设备包括存储器以及处理器,所述存储器用于存储计算机程序,所述处理器运行计算机程序以使所述电子设备执行上述中任一项所述的图像提示词生成方法。
本申请实施例还提供一种可读存储介质,所述可读存储介质中存储有计算机程序指令,所述计算机程序指令被一处理器读取并运行时,执行上述中任一项所述的图像提示词生成方法。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种图像提示词生成方法的流程图;
图2为本申请实施例提供的clip模型的具体训练迭代流程图;
图3为本申请实施例提供的clip模型的训练流程图;
图4为本申请实施例提供的对数据集进行过滤处理的流程图;
图5为本申请实施例提供的clip模型的优化流程图;
图6为本申请实施例提供的评分模型的训练流程图;
图7为本申请实施例提供的候选提示词筛选流程图;
图8为本申请实施例提供的一种图像提示词生成装置的结构框图;
图9为本申请实施例提供的clip模型训练模块的结构框图。
图标:
100-图像获取模块;200-提示词向量获取模块;300-提示词获取模块;400-clip模型训练模块;410-数据划分模块;411-提示词嵌入模块;412-相似度计算模块;413-过滤模块;420-clip模型优化模块;421-提示词嵌入获取模块;422-图像嵌入获取模块;423-余弦相似度计算模块;424-优化模块;430-评分模型训练模块;431-图像嵌入计算模块;432-提示词嵌入计算模块;433-余弦相似度评分计算模块;434-评分模型生成模块;440-困难样本获得模块;450-重新划分模块;460-迭代模块。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
实施例1
请参看图1,图1为本申请实施例提供的一种图像提示词生成方法的流程图。本申请提出的基于困难样本挖掘的图像提示词生成算法,基于公开的AI绘图数据集,将图像嵌入和提示词嵌入映射到同一空间,迭代提升二者嵌入表示的相似度,提高提示词的质量,使模型生成的图像描述更接近于提示词的风格。
由于公开AI绘画数据集中同时存在许多低质量、冗余的提示词文本,本申请构建了一个基于评分模型和提示词自回归生成模型的困难样本挖掘算法流程,以迭代训练的方式不断提升clip模型的性能。
困难样本是指clip模型在一轮训练结束后,在测试集上评分较低的样本(提示词),同时也指图像嵌入和提示词嵌入的余弦相似度低的图像,两者是对应关系。
余弦相似度(cosine similarity)越高,说明clip模型生成的提示词越接近于真实提示词,反之,说明clip模型在对应图像上的表现欠佳,即无法生成高质量的提示词,该图像为困难样本。
本申请在训练过程中,在每轮迭代的过程中会挖掘出困难样本,生成困难样本的相似样本,将困难样本以及其相似样本与原训练集和验证集合并,划分新的训练集和验证集,重新训练模型,让clip模型对困难样本也能有更好的表现,从而提升clip模型的总体性能。
该方法包括以下步骤:
步骤S100:获取目标图像,所述目标图像为对应的图像嵌入和提示词嵌入的余弦相似度低的图像;
步骤S200:利用预先训练得到的clip模型获得所述目标图像的提示词向量;
步骤S300:利用sentence-transformer模型获取所述提示词向量对应的提示词。
在所述利用预先训练得到的clip模型获得所述目标图像的提示词向量的步骤之前,所述方法还包括:
基于困难样本挖掘对所述clip模型进行训练。
如图2所示,为clip模型的具体训练迭代流程图。其中,如图3所示,为clip模型的训练流程图,具体包括以下步骤:
步骤S210:获取开源AI绘画数据集,并进行过滤处理,将处理后的数据集划分为训练集、验证集和测试集;
步骤S220:利用所述训练集对clip模型进行优化;
步骤S230:利用验证集和优化后的所述clip模型对评分模型进行训练;
步骤S240:利用所述评分模型对预先生成的候选提示词过滤,获得困难样本;
示例地,候选词的具体生成过程为:
利用设定规则编写手工提示词;
利用所述手工提示词训练得到文本生成模型;
利用所述文本生成模型生成候选提示词。
示例地,构建画种、内容、风格和构图这四个方面的词库,基于规则编写一些手工提示词;基于编写的手工提示词,使用自回归的方式训练一个文本生成模型如gpt模型(generative pretrain model),用于生成更多的提示词,并作为候选提示词。
步骤S250:将所述困难样本添加至所述AI绘画数据集中,以重新划分训练集、验证集;
将属于困难样本的候选提示词输入到Stable Diffusion模型中,生成提示词数据。将图像-提示词的困难样本对加入到步骤S210中的数据集中,重新划分训练集和验证集,使用新的数据集重新训练clip模型和评分模型。
步骤S260:利用新的训练集、验证集重新训练clip模型和评分模型,并计算测试集的余弦相似度得分,直至测试集的余弦相似度评分达到预设值。
重复步骤S240-步骤S250,可以不断获取困难样本,提升clip模型性能。可以在每一轮迭代后测试clip模型在测试集上的余弦相似度评分,当测试集上的余弦相似度评分达到满意值后即可终止算法流程。
其中,如图4所示,为对数据集进行过滤处理的流程图,步骤S210具体包括以下步骤:
步骤S211:利用sentence-transformer模型获取所述AI绘画数据集中的各个图像的提示词嵌入;
步骤S212:计算任意两个提示词嵌入的余弦相似度;
步骤S213:过滤掉余弦相似度高于第一设定阈值的图像。
示例地,可以从网上下载公开的AI绘画数据集,包括sddb-2m数据集、Kaggle-30k数据集和kaggle-80k数据集,这三份数据集都是图像-提示词对的形式,提示词多数采集于用户输入,图像则由AI绘图模型Stable Diffusion生成。
开源数据集存在许多语义相似的提示词,本申请先使用sentence-transformer模型抽取所有提示词的嵌入表示(prompt embedding),并两两计算二者的余弦相似度,过滤余弦相似度高于第一设定阈值如0.95的样本。对处理后的数据集划分训练集、验证集、测试集,其中训练集和验证集在每次迭代中会不断更新,而测试集保持不变。
如图5所示,为clip模型的优化流程图,步骤S220具体包括以下步骤:
步骤S221:利用sentence-transformer模型获取所述训练集中图像的提示词嵌入;
步骤S222:利用clip模型获取所述训练集中图像的图像嵌入;
步骤S223:计算所述提示词嵌入和所述图像嵌入的余弦相似度;
步骤S224:在所述sentence-transformer模型参数不变的情况下,使用余弦相似度损失作为目标函数对clip模型进行优化。
使用sentence-transformer模型抽取训练集上的提示词嵌入,clip模型抽取图像嵌入,保持sentence-transformer模型参数不变,将余弦相似度损失(cosine similarityloss)作为目标函数优化clip模型。这一步骤的目的是为了精调clip模型,使其输出的图像嵌入与sentence-transformer模型输出的提示词嵌入有一个较高的余弦相似度。这样训练的意义是:一旦clip模型输出的图片嵌入和sentence-transformer输出的提示词嵌入余弦相似度足够高,就可以由clip模型输出的图像嵌入生成具体的提示词文本,提高生成的提示词的质量。
可利用余弦相似度损失通过反向梯度传播的方式来优化clip模型。
如图6所示,为评分模型的训练流程图,步骤S230具体包括以下步骤:
步骤S231:利用优化后的clip模型获取验证集的图像嵌入;
步骤S232:利用sentence-transformer模型获取所述验证集的提示词嵌入;
步骤S233:计算所述图像嵌入和提示词嵌入的余弦相似度评分;
步骤S234:将所述图像嵌入作为模型输入,将所述余弦相似度评分作为标签,训练评分模型。
该步骤的主要目的是在验证集上训练一个评分模型,利用步骤S220得到的clip模型抽取验证集的图像嵌入,sentence-transformer模型抽取提示词嵌入,并计算二者的余弦相似度评分。该模型的输入是sentence-transformer模型抽取的验证集的提示词嵌入,标签为余弦相似度评分,利用反向梯度传播的方式来得到评分模型。
这里的评分模型是一个回归模型,目标是对于一个图像-提示词样本对,输入提示词嵌入,预测由clip模型输出的提示词嵌入和由sentence-transformer模型输出的图像嵌入的余弦相似度。
如图7所示,为候选提示词筛选流程图,步骤S240具体包括以下步骤:
步骤S241:利用所述评分模型对所述候选提示词进行打分;
步骤S242:保留分数小于第二设定阈值的候选提示词,并作为困难样本。
对候选提示词进行过滤,可使用上述得到的评分模型对提示词进行打分(输入提示词嵌入,输出余弦相似度评分),保留分数低于第二设定阈值如0.4的提示词,对于这类样本,评分模型认为clip模型输出的提示词嵌入和图像嵌入的余弦相似度是一个较低值,也即无法生成具体的提示词,是一类困难样本。
通过该方法,在经过四轮上述迭代流程后,clip模型在测试集上输出的图像嵌入和sentence-transformer输出的提示词嵌入的余弦相似度从0.54提升到了0.58。因此,相对于现有的基于图像嵌入检索的方法,本申请所述方法能够生成更精确、优质、无冗余的提示词。
该方法基于公开的AI绘画数据集,将图像嵌入和其提示词嵌入映射到一个相似向量空间,并提出了一种基于困难样本挖掘的训练流程,不断提升映射模型的性能,通过多次迭代,理论上可以无限提升模型效果。通过实验,也证实了本申请提出方法的切实有效性。
在银行的业务场景中,AI绘画也有广泛的应用,例如实现营销图文的快速生成,在以往的场景中,营销宣传需要通过美工协助进行图片的设计与绘制,而且还需不断修改才能定稿,而使用AI绘画将大大加速这一工作流程。通过本申请所述的图像提示词生成算法,可将优秀作品背后的提示词提取出来,以复用到其它AI绘画的流程中,降低银行工作人员对AI绘画的学习和使用成本,进一步提升AI绘画在银行业务应用中的效率。
实施例2
本申请实施例提供一种图像提示词生成装置,应用于实施例1所述的图像提示词生成方法,如图8所示,为一种图像提示词生成装置的结构框图,所述装置包括但不限于:
图像获取模块100,用于获取目标图像,所述目标图像为对应的图像嵌入和提示词嵌入的余弦相似度低的图像;
提示词向量获取模块200,用于利用预先训练得到的clip模型获得所述目标图像的提示词向量;
提示词获取模块300,用于利用sentence-transformer模型获取所述提示词向量对应的提示词。
对于图像嵌入和提示词嵌入的余弦相似度低的图像,说明生成的提示词与真实提示词相差甚远,利用本申请训练的clip模型可获得更加精确、优质和无冗余的提示词,解决了现有方法生成的提示词有冗余且质量较低的问题。
如图9所示,为clip模型训练模块400的结构框图,在图8的基础上,所述装置还包括:
clip模型训练模块400,用于基于困难样本挖掘对所述clip模型进行训练。
具体地,clip模型训练模块400包括:
数据划分模块410,用于获取开源AI绘画数据集,并进行过滤处理,将处理后的数据集划分为训练集、验证集和测试集;
clip模型优化模块420,用于利用所述训练集对clip模型进行优化;
评分模型训练模块430,用于利用验证集和优化后的所述clip模型对评分模型进行训练;
困难样本获得模块440,用于利用所述评分模型对预先生成的候选提示词过滤,获得困难样本;
重新划分模块450,用于将所述困难样本添加至所述AI绘画数据集中,以重新划分训练集、验证集;
迭代模块460,用于利用新的训练集、验证集重新训练clip模型和评分模型,并计算测试集的余弦相似度得分,直至测试集的余弦相似度评分达到预设值。
所述数据划分模块410包括:
提示词嵌入模块411,用于利用sentence-transformer模型获取所述AI绘画数据集中的各个图像的提示词嵌入;
相似度计算模块412,用于计算任意两个提示词嵌入的余弦相似度;
过滤模块413,用于过滤掉余弦相似度高于第一设定阈值的图像。
所述clip模型优化模块420包括:
提示词嵌入获取模块421,用于利用sentence-transformer模型获取所述训练集中图像的提示词嵌入;
图像嵌入获取模块422,用于利用clip模型获取所述训练集中图像的图像嵌入;
余弦相似度计算模块423,用于计算所述提示词嵌入和所述图像嵌入的余弦相似度;
优化模块424,用于在所述sentence-transformer模型参数不变的情况下,使用余弦相似度损失作为目标函数对clip模型进行优化。
评分模型训练模块430用于:
图像嵌入计算模块431,用于利用优化后的clip模型获取验证集的图像嵌入;
提示词嵌入计算模块432,用于利用sentence-transformer模型获取所述验证集的提示词嵌入;
余弦相似度评分计算模块433,用于计算所述图像嵌入和提示词嵌入的余弦相似度评分;
评分模型生成模块434,用于将所述图像嵌入作为模型输入,将所述余弦相似度评分作为标签,训练评分模型。
对于困难样本获得模块440、重新划分模块450以及迭代模块460的具体实现过程在实施例1中已经具体说明,在此不再详细赘述。
本申请实施例还提供一种电子设备,所述电子设备包括存储器以及处理器,所述存储器用于存储计算机程序,所述处理器运行计算机程序以使所述电子设备执行实施例1所述的图像提示词生成方法。
本申请实施例还提供一种可读存储介质,所述可读存储介质中存储有计算机程序指令,所述计算机程序指令被一处理器读取并运行时,执行实施例1所述的图像提示词生成方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
Claims (11)
1.一种图像提示词生成方法,其特征在于,所述方法包括:
获取目标图像,所述目标图像包括图像嵌入和提示词嵌入的余弦相似度低的图像;
基于困难样本挖掘对clip模型进行训练:
获取开源AI绘画数据集,并进行过滤处理,将处理后的数据集划分为训练集、验证集和测试集;
利用所述训练集对clip模型进行优化;
利用验证集和优化后的所述clip模型对评分模型进行训练;
利用所述评分模型对预先生成的候选提示词过滤,获得困难样本;
将所述困难样本添加至所述AI绘画数据集中,以重新划分训练集、验证集;
利用新的训练集、验证集重新训练clip模型和评分模型,并计算测试集的余弦相似度得分,直至测试集的余弦相似度评分达到预设值;
利用所述clip模型获得所述目标图像的提示词向量;
利用sentence-transformer模型获取所述提示词向量对应的提示词。
2.根据权利要求1所述的图像提示词生成方法,其特征在于,所述获取开源AI绘画数据集,并进行过滤处理,包括:
利用sentence-transformer模型获取所述AI绘画数据集中的各个图像的提示词嵌入;
计算任意两个提示词嵌入的余弦相似度;
过滤掉余弦相似度高于第一设定阈值的图像。
3.根据权利要求1所述的图像提示词生成方法,其特征在于,所述利用所述训练集对clip模型进行优化,包括:
利用sentence-transformer模型获取所述训练集中图像的提示词嵌入;
利用clip模型获取所述训练集中图像的图像嵌入;
计算所述提示词嵌入和所述图像嵌入的余弦相似度;
在所述sentence-transformer模型参数不变的情况下,使用余弦相似度损失作为目标函数对clip模型进行优化。
4.根据权利要求1所述的图像提示词生成方法,其特征在于,所述利用验证集和优化后的所述clip模型对评分模型进行训练,包括:
利用优化后的clip模型获取验证集的图像嵌入;
利用sentence-transformer模型获取所述验证集的提示词嵌入;
计算所述图像嵌入和提示词嵌入的余弦相似度评分;
将所述图像嵌入作为模型输入,将所述余弦相似度评分作为标签,训练评分模型。
5.根据权利要求1所述的图像提示词生成方法,其特征在于,在所述利用所述评分模型对预先生成的候选提示词过滤,获得困难样本的步骤之前,所述方法还包括:
利用设定规则编写手工提示词;
利用所述手工提示词训练得到文本生成模型;
利用所述文本生成模型生成候选提示词。
6.根据权利要求1所述的图像提示词生成方法,其特征在于,所述利用所述评分模型对预先生成的候选提示词过滤,获得困难样本,包括:
利用所述评分模型对所述候选提示词进行打分;
保留分数小于第二设定阈值的候选提示词,并作为困难样本。
7.一种图像提示词生成装置,其特征在于,所述装置包括:
图像获取模块,用于获取目标图像,所述目标图像包括图像嵌入和提示词嵌入的余弦相似度低的图像;
clip模型训练模块,用于基于困难样本挖掘对所述clip模型进行训练,具体包括:
数据划分模块,用于获取开源AI绘画数据集,并进行过滤处理,将处理后的数据集划分为训练集、验证集和测试集;
clip模型优化模块,用于利用所述训练集对clip模型进行优化;
评分模型训练模块,用于利用验证集和优化后的所述clip模型对评分模型进行训练;
困难样本获得模块,用于利用所述评分模型对预先生成的候选提示词过滤,获得困难样本;
重新划分模块,用于将所述困难样本添加至所述AI绘画数据集中,以重新划分训练集、验证集;
迭代模块,用于利用新的训练集、验证集重新训练clip模型和评分模型,并计算测试集的余弦相似度得分,直至测试集的余弦相似度评分达到预设值;
提示词向量获取模块,用于利用所述clip模型获得所述目标图像的提示词向量;
提示词获取模块,用于利用sentence-transformer模型获取所述提示词向量对应的提示词。
8.根据权利要求7所述的图像提示词生成装置,其特征在于,所述数据划分模块包括:
提示词嵌入计算模块,用于利用sentence-transformer模型获取所述AI绘画数据集中的各个图像的提示词嵌入;
相似度计算模块,用于计算任意两个提示词嵌入的余弦相似度;
过滤模块,用于过滤掉余弦相似度高于第一设定阈值的图像。
9.根据权利要求7所述的图像提示词生成装置,其特征在于,所述clip模型优化模块包括:
提示词嵌入获取模块,用于利用sentence-transformer模型获取所述训练集中图像的提示词嵌入;
图像嵌入获取模块,用于利用clip模型获取所述训练集中图像的图像嵌入;
余弦相似度计算模块,用于计算所述提示词嵌入和所述图像嵌入的余弦相似度;
优化模块,用于在所述sentence-transformer模型参数不变的情况下,使用余弦相似度损失作为目标函数对clip模型进行优化。
10.一种电子设备,其特征在于,所述电子设备包括存储器以及处理器,所述存储器用于存储计算机程序,所述处理器运行计算机程序以使所述电子设备执行根据权利要求1至6中任一项所述的图像提示词生成方法。
11.一种可读存储介质,其特征在于,所述可读存储介质中存储有计算机程序指令,所述计算机程序指令被一处理器读取并运行时,执行权利要求1至6任一项所述的图像提示词生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310855165.6A CN116580283B (zh) | 2023-07-13 | 2023-07-13 | 一种图像提示词生成方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310855165.6A CN116580283B (zh) | 2023-07-13 | 2023-07-13 | 一种图像提示词生成方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116580283A CN116580283A (zh) | 2023-08-11 |
CN116580283B true CN116580283B (zh) | 2023-09-26 |
Family
ID=87534557
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310855165.6A Active CN116580283B (zh) | 2023-07-13 | 2023-07-13 | 一种图像提示词生成方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116580283B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117290468B (zh) * | 2023-08-25 | 2024-06-04 | 北京红棉小冰科技有限公司 | 智能对话方法、装置和存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110674850A (zh) * | 2019-09-03 | 2020-01-10 | 武汉大学 | 一种基于注意力机制的图像描述生成方法 |
CN113177644A (zh) * | 2021-05-24 | 2021-07-27 | 北京融七牛信息技术有限公司 | 一种基于词嵌入和深度时序模型的自动建模系统 |
CN114090815A (zh) * | 2021-11-12 | 2022-02-25 | 海信电子科技(武汉)有限公司 | 一种图像描述模型的训练方法及训练装置 |
CN114612891A (zh) * | 2022-03-09 | 2022-06-10 | 华南理工大学 | 基于对比学习和自适应注意力的图像描述生成方法及介质 |
CN114611498A (zh) * | 2022-03-18 | 2022-06-10 | 腾讯科技(深圳)有限公司 | 标题生成方法、模型训练方法及装置 |
CN114926835A (zh) * | 2022-05-20 | 2022-08-19 | 京东科技控股股份有限公司 | 文本生成、模型训练方法和装置 |
-
2023
- 2023-07-13 CN CN202310855165.6A patent/CN116580283B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110674850A (zh) * | 2019-09-03 | 2020-01-10 | 武汉大学 | 一种基于注意力机制的图像描述生成方法 |
CN113177644A (zh) * | 2021-05-24 | 2021-07-27 | 北京融七牛信息技术有限公司 | 一种基于词嵌入和深度时序模型的自动建模系统 |
CN114090815A (zh) * | 2021-11-12 | 2022-02-25 | 海信电子科技(武汉)有限公司 | 一种图像描述模型的训练方法及训练装置 |
CN114612891A (zh) * | 2022-03-09 | 2022-06-10 | 华南理工大学 | 基于对比学习和自适应注意力的图像描述生成方法及介质 |
CN114611498A (zh) * | 2022-03-18 | 2022-06-10 | 腾讯科技(深圳)有限公司 | 标题生成方法、模型训练方法及装置 |
CN114926835A (zh) * | 2022-05-20 | 2022-08-19 | 京东科技控股股份有限公司 | 文本生成、模型训练方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN116580283A (zh) | 2023-08-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107229610A (zh) | 一种情感数据的分析方法及装置 | |
CN106446109A (zh) | 语音文件摘要的获取方法和装置 | |
Nie et al. | Mention and entity description co-attention for entity disambiguation | |
CN110807324A (zh) | 一种基于IDCNN-crf与知识图谱的影视实体识别方法 | |
CN108280164B (zh) | 一种基于类别相关单词的短文本过滤与分类方法 | |
CN105760363B (zh) | 文本文件的词义消歧方法及装置 | |
CN114048354B (zh) | 基于多元表征和度量学习的试题检索方法、装置及介质 | |
CN117251551B (zh) | 一种基于大语言模型的自然语言处理系统及方法 | |
CN112836029A (zh) | 一种基于图的文档检索方法、系统及其相关组件 | |
CN116580283B (zh) | 一种图像提示词生成方法、装置、电子设备及存储介质 | |
CN113569018A (zh) | 问答对挖掘方法及装置 | |
Lu et al. | Are deep learning methods better for twitter sentiment analysis | |
CN115114916A (zh) | 用户反馈数据的分析方法、装置及计算机设备 | |
Fang et al. | Image captioning with word level attention | |
CN112434134B (zh) | 搜索模型训练方法、装置、终端设备及存储介质 | |
Landthaler et al. | Extending Thesauri Using Word Embeddings and the Intersection Method. | |
CN110738061A (zh) | 古诗词生成方法、装置、设备及存储介质 | |
CN114722176A (zh) | 一种智能答疑的方法、装置、介质及电子设备 | |
CN117151052B (zh) | 一种基于大语言模型和图算法的专利查询报告生成方法 | |
US11144724B2 (en) | Clustering of words with multiple meanings based on generating vectors for each meaning | |
CN110032642B (zh) | 基于词嵌入的流形主题模型的建模方法 | |
Chen et al. | Deep voice-visual cross-modal retrieval with deep feature similarity learning | |
Lee et al. | Deep unfolding inference for supervised topic model | |
CN117764074A (zh) | 一种舆情信息的冗余信息去除方法 | |
CN111899832B (zh) | 基于上下文语义分析的医疗主题管理系统与方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |