CN117649464A - 弱监督图像合成方法、系统、设备及存储介质 - Google Patents
弱监督图像合成方法、系统、设备及存储介质 Download PDFInfo
- Publication number
- CN117649464A CN117649464A CN202311470832.5A CN202311470832A CN117649464A CN 117649464 A CN117649464 A CN 117649464A CN 202311470832 A CN202311470832 A CN 202311470832A CN 117649464 A CN117649464 A CN 117649464A
- Authority
- CN
- China
- Prior art keywords
- text
- trained
- sample image
- image
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001308 synthesis method Methods 0.000 title claims abstract description 21
- 238000012549 training Methods 0.000 claims abstract description 47
- QVFWZNCVPCJQOP-UHFFFAOYSA-N chloralodol Chemical compound CC(O)(C)CC(C)OC(O)C(Cl)(Cl)Cl QVFWZNCVPCJQOP-UHFFFAOYSA-N 0.000 claims abstract description 35
- 238000013528 artificial neural network Methods 0.000 claims abstract description 32
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 21
- 238000004140 cleaning Methods 0.000 claims abstract description 21
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 21
- 230000001965 increasing effect Effects 0.000 claims abstract description 11
- 238000000034 method Methods 0.000 claims description 35
- 239000011159 matrix material Substances 0.000 claims description 31
- 230000006870 function Effects 0.000 claims description 26
- 238000009792 diffusion process Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 16
- 230000008447 perception Effects 0.000 claims description 11
- 230000009467 reduction Effects 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000002194 synthesizing effect Effects 0.000 claims description 5
- 238000012216 screening Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 230000000007 visual effect Effects 0.000 description 5
- 230000008451 emotion Effects 0.000 description 4
- 238000004451 qualitative analysis Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 3
- 230000006855 networking Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 238000004445 quantitative analysis Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000001174 ascending effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 206010027175 memory impairment Diseases 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000000049 pigment Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000000087 stabilizing effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
本发明提出一种弱监督图像合成方法、系统、设备及存储介质,该方法包括:获取社交网络的样本图像集和样本图像集对应的文本集,并对样本图像集和所述文本集进行清洗;将清洗后的样本图像集和清洗后的文本集输入到LoRA神经网络进行训练,获取训练后的LoRA神经网络;将训练后的LoRA神经网络的权重移植到Stable Diffusion模型中进行微调训练,得到训练后的Stable Diffusion模型;将待发布文本输入到训练后的Stable Diffusion模型中,获取待发布文本对应的目标合成图像。本发明通过生成推文对应的合成图像,增加数据信息多样性,并且类别标签明确,还可以提高人脸生成功能。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种弱监督图像合成方法、系统、设备及存储介质。
背景技术
随着社交网络媒体的流行以及多元,社交网络已经成为了越来越多人获取信息、表达观点、互动社交的重要平台。对于那些渴望在社交网络上扩展影响力、提升曝光的用户而言,每日发布有趣且有价值的推文显得极为关键。
推文配图是其至关重要的一环,传统的推文配图一般为自己拍摄的图或是网络上的图片。这种技术可以有效的缩短发布时间,提高工作效率,节省时间和精力。同时,还可以避免人类智慧的局限性,提供更具创意的推文方案,提高推文的品质和效果。它不仅适用于个人社交网络账号,也可以为企业、组织等提供有益的帮助。
传统的用于微调图像生成的扩散模型大多强调利用完全监督的信息,例如类别标签。通常训练类和测试类是相同的,一般是特定领域或是特定风格。然而,这种数据信息缺乏内容多样性,在现实的互联网环境下,社交网络媒体涉及多个领域,没有明显的类别标签,分布广且稀疏难以处理来自未知领域的标签。
发明内容
本发明提供一种弱监督图像合成方法、系统、设备及存储介质,其主要目的在于通过生成推文对应的合成图像,增加数据信息多样性,并且类别标签明确,还可以提高人脸生成功能。
第一方面,本发明实施例提供一种弱监督图像合成方法,包括:
获取社交网络的样本图像集和所述样本图像集对应的文本集,并对所述样本图像集和所述文本集进行清洗;
将清洗后的样本图像集和清洗后的文本集输入到LoRA神经网络进行训练,获取训练后的LoRA神经网络;
将所述训练后的LoRA神经网络的权重移植到Stable Diffusion模型中进行微调训练,得到训练后的Stable Diffusion模型,所述微调训练中通过增加感知损失得到最终损失函数;
将待发布文本输入到所述训练后的Stable Diffusion模型中,获取所述待发布文本对应的目标合成图像。
进一步地,所述感知损失通过比较生成图像和样本图像在特征层上的差异来度量所述生成图像的质量。
进一步地,所述感知损失的计算公式如下:
其中,Lpert表示所述损失函数,Fgen,j(j)表示所述生成图像在第i层、位置j处的特征表示,Ftarget,j(j)表示所述样本图像在第i层、位置j处的特征表示,Ni表示第i层的特征数量,i、j均为正整数。
进一步地,所述将所述训练后的LoRA神经网络的权重移植到Stable Diffusion模型中进行微调训练,得到训练后的Stable Diffusion模型,包括:
将Stable Diffusion模型中的权重参数划分为移植权重参数和待训练权重参数,并将所述待训练权重参数划分为降维矩阵和升维矩阵;
通过所述清洗后的样本图像集和所述清洗后的文本集,对所述降维矩阵和所述升维矩阵进行训练,最终得到所述训练后的Stable Diffusion模型。
进一步地,所述将Stable Diffusion模型中的权重参数划分为移植权重参数和待训练权重参数,并将所述待训练权重参数划分为降维矩阵和升维矩阵,具体计算公式如下:
W=W0+ΔW=W0+BA,
其中,W表示所述训练后的Stable Diffusion模型的权重参数,W0表示所述移植权重参数,ΔW表示所述待训练权重参数,B表示所述升维矩阵,A表示所述降维矩阵。
进一步地,所述对所述样本图像集和所述文本集进行清洗,包括:
对于所述样本图像集,将分辨率低于256像素的样本图像删除,并且将通过零样本图像分类方法对样本图像进行删减,得到初始样本图像集;
对于所述文本集,将图文一对多的文本、包含不可识别内容的文本、包含敏感词的文本、包含转发标志的文本、文本长度小于5个字的文本均删除,得到初始文本集。
进一步地,所述对所述样本图像集和所述文本集进行清洗,进一步包括:
通过图文匹配方法,筛选出相似度靠前的若干样本图像和若干文本,得到所述样本图像集和所述文本集进行清洗。
第二方面,本发明实施例提供一种弱监督图像合成系统,包括:
清洗模块,用于获取社交网络的样本图像集和所述样本图像集对应的文本集,并对所述样本图像集和所述文本集进行清洗;
训练模块,用于将清洗后的样本图像集和清洗后的文本集输入到LoRA神经网络进行训练,获取训练后的LoRA神经网络;
微调模块,用于将所述训练后的LoRA神经网络的权重移植到Stable Diffusion模型中进行微调训练,得到训练后的Stable Diffusion模型,所述微调训练中通过增加感知损失得到最终损失函数;
合成模块,用于将待发布文本输入到所述训练后的Stable Diffusion模型中,获取所述待发布文本对应的目标合成图像。
第三方面,本发明实施例提供一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述一种弱监督图像合成方法的步骤。
第四方面,本发明实施例提供一种计算机存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述一种弱监督图像合成方法的步骤。
本发明提出的一种弱监督图像合成方法、系统、设备及存储介质,将社交网络的样本图像集和样本图像集对应的文本集进行全面的清洗,并利用清洗后的样本图像集和清洗后的文本集对LoRA神经网络进行训练,将训练后的LoRA神经网络与传统的StableDiffusion模型融合,通过在模型的损失函数中增加感知损失,实现细粒度的控制生成图像,提高人脸局部区域和情绪表达的准确性,使生成的图像更加具有社交风格;且通过生成推文对应的合成图像,增加数据信息多样性,并且类别标签明确。
附图说明
图1为本发明实施例提供的一种弱监督图像合成方法的流程图;
图2为本发明实施例提供的一种弱监督图像合成系统的结构示意图;
图3为本发明实施例提供的一种计算机设备的结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面详细描述本申请的实施方式,实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性地,仅用于解释本申请,而不能理解为对本申请的限制。
为了使本技术领域的人员更好地理解本申请的方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整的描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例中,至少一个是指一个或多个;多个,是指两个或两个以上。在本申请的描述中,“第一”、“第二”、“第三”等词汇,仅用于区分描述的目的,而不能理解为指示或暗示相对重要性,也不能理解为指示或暗示顺序。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本说明书中描述的参考“一种实施方式”或“一些实施方式”等意味着在本申请的一个或多个实施方式中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
基于文本的图像合成方法,不像特定的任务分布较为集中,社交领域的数据集分布广,生成的社交向图像的标准难以界定,且人为判断具有主观性,不能很好的评估模型的性能。生成的图片是否为社交向的图,是否与提示词有关联,关联程度如何界定都是需要考虑的问题。
正对上述问题,本发明从三个方面解决上述问题:
第一,基于社交领域的图像合成技术目前处于空白,本发明推出了一种面向社交领域的弱监督图像合成技术,随后详细深入地阐述了其整体实施流程。
第二,收集并处理一个新的大规模跨媒体数据集。
社交领域的数据大多用于情感分析、用户分析、跨媒体检索,而这些用于特定任务的数据具有局限性。
本发明利用社交网络数据实现推文配图功能,用以下方法完成数据收集。首先通过向社交网络发送各种主题词来获得种子用户,如旅行、用餐、健身、运动等。这些随机选择的用户充当种子以获得更多的用户候选者。然后通过访问用户候选者的主页来收集带有相应图像的推文。收集到数据质量良莠不齐,需用一些手段对数据进行清洗处理。
优化社交向的图并对生成的图像以统一标准定量分析。研究发现,基于StableDiffusion模型的基础模型在真人图像生成时存在显著的局限性。所绘制的人物往往出现多头现象、缺失胳膊或是不完整的腿部,总之人物形态常常出现严重的变形问题。所以本发明对Stable Diffusion模型的损失函数进行改进,使其对于人物图像有更加细腻的呈现。其次,本发明将数据集划分为训练集和测试集,在训练集上进行微调训练生成模型,在测试集上定性分析以及利用R-Precision进行定量分析,评估模型性能。
图1为本发明实施例提供的一种弱监督图像合成方法的流程图,如图1所示,该方法包括:
S110,获取社交网络的样本图像集和所述样本图像集对应的文本集,并对所述样本图像集和所述文本集进行清洗;
首先获取社交网络的样本图像集和样本图像集对应的文本集,一般而言,该文本集中文本描述的内容要与样本图像集中样本图像的表达内容一致,为提高数据质量,过滤掉文本和样本图像中敏感的内容以及图文明显不匹配的内容,因此分为三个层面对数据进行清洗。
作为一种实施方式,所述对所述样本图像集和所述文本集进行清洗,包括:
对于所述样本图像集,将分辨率低于256像素的样本图像删除,并且将通过零样本图像分类方法对样本图像进行删减,得到初始样本图像集;
对于所述文本集,将图文一对多的文本、包含不可识别内容的文本、包含敏感词的文本、包含转发标志的文本、文本长度小于5个字的文本均删除,得到初始文本集。
1、首先是文本层面对文本集的清洗,文本的过滤规则有:
(a)删除图文一对多的数据。
(b)删除不可识别的内容,包括表情包、颜文字、转义字符等内容。
(c)删除推文中的网址。
(d)基于关键词的敏感过滤,删除含有敏感词的相关推文。
(e)删除非英语撰写的推文。
(f)删除带有转发标志的推文。
将满足以上任意一条的文本删除,删除完以上内容后,最后再过滤掉文本长度少于5个字的推文。
2、其次图像层面对样本图像集的清洗,第一步是去除分辨率低于256像素的样本图像,第二步是通过零样本图像分类方法对图像进行清洗。经过测试选择8个标签作为清洗依据,分别是person,animal,scenery,building,naked,violence,language和chart。清洗的目的是删除带有复杂的文字信息和图表信息的图像。Language标签因为其复杂性导致图像的归类不明显,所以先删除其相似度大于0.5的图像,其次删除naked,violence和chart标签相似度大于0.8的样本图像。
3、然后是图文多模态层面的清洗,基于图文匹配测量图像和文本之间的视觉语义相似性。
在社交网络中,图像和文本之间的相关性往往非常松散,文本中的一些单词是对图像的直接描述,而其他单词则缺乏语义一致性并在图中没有视觉解释。
所以在图文匹配中,相似度最高的为0.50且大于0.5的只有1条数据,最低的为0.07。本发明实施例过滤掉语义信息与视觉信息相关性低的数据,选取相似度排序在前面的数据作为训练样本对。
S120,将清洗后的样本图像集和清洗后的文本集输入到LoRA神经网络进行训练,获取训练后的LoRA神经网络;
LoRA(Low-RankAdaptation ofLarge Language Models,大语言模型的低阶适应)是微软的研究人员开发的一项技术,用于降低大语言模型微调的成本。LoRA的工作原理是,冻结预训练模型的权重,并在每个Transformer块中注入可训练层,这使得微调模型的计算量大大减少,而微调质量与全模型微调相当。
LoRA不仅可以用于大语言模型,还可以用于生成图像的模型。例如,StableDiffusion模型是使用LoRA改进的。Stable Diffusion模型是一个生成图像的模型,它使用扩散过程来生成图像。LoRA通过在Stable Diffusion模型中添加可训练层来改进模型。这使得Stable Diffusion模型生成的图像更逼真。
LoRA是一项强大的技术,它可以用来提高大语言模型和生成图像的模型的性能。LoRA是用于稳定扩散模型的低秩适应技术。它是一种微调模型的方法,可以提高生成图像的质量和效率。LoRA通过在模型的注意力层上引入低秩矩阵来实现。这有助于模型更好地理解图像中的局部细节,并生成更逼真的图像。
本发明实施例中将样本图像集和文本集输入LoRA神经网络进行微调训练,LoRA神经网络允许通过将成对的秩分解矩阵添加到现有权重并仅训练那些新添加的权重来调整预训练模型。这有几个优点:
(1)先前的预训练权重保持冻结,因此模型不容易发生灾难性的遗忘。
(2)秩分解矩阵的参数明显少于原始模型,即经过训练的LoRA神经网络权重易于移植。
(3)LoRA神经网络中注意力层可以通过参数控制模型适应新的训练图像的程度。
在一些实施例中,所述感知损失通过比较生成图像和样本图像在特征层上的差异来度量所述生成图像的质量。
Stable Diffusion模型不擅长真人绘制,在损失函数中加入感知损失来调整人像的生成。感知损失可以通过比较生成图像和样本图像在特征层上的差异来度量生成图像的质量。将生成图像和样本图像都输入到神经网络中,获取它们在选定的感知层上的特征表示,使用均方误差比较特征表示。将各个感知层上的特征差异累加,作为感知损失的值。
需要说明的是,生成图像是指Stable Diffusion模型在训练过程中根据输入文本输出的图像,样本图像是指与输入文本相对应的图像。
本发明实施例中,通过调整Stable Diffusion模型的损失函数,实现细粒度的控制生成图像的人脸局部区域和情绪表达,使生成的图像更加具有社交风格。
S130,将所述训练后的LoRA神经网络的权重移植到Stable Diffusion模型中进行微调训练,得到训练后的Stable Diffusion模型,所述微调训练中通过增加感知损失得到最终损失函数;
作为一种实施方式,所述将Stable Diffusion模型中的权重参数划分为移植权重参数和待训练权重参数,并将所述待训练权重参数划分为降维矩阵和升维矩阵,具体计算公式如下:
W=W0+ΔW=W0+BA,
其中,W表示所述训练后的Stable Diffusion模型的权重参数,W0表示所述移植权重参数,ΔW表示所述待训练权重参数,B表示所述升维矩阵,A表示所述降维矩阵。
LoRA是一种轻量级大模型微调技术,假设原始Stable Diffusion模型的移植权重参数为W0,微调之后形成训练后的Stable Diffusion模型参数为W,整个训练过程中微调的参数为ΔW,那么有:
W=W0+ΔW,
此时,可以把待训练的参数ΔW分解为两个矩阵,分别是降维矩阵以及升维矩阵B,那么有:
W=W0+ΔW=W0+BA,
其中,W0∈Rd×k表示移植权重参数,B∈Rd×r表示升维矩阵,用全0矩阵初始化;A∈Rr ×k表示降维矩阵,用随机高斯分布初始化;r为秩,是先验参数且。
在整个训练过程中,A、B是可训练参数,其他都是先验参数和固定参数。
在Stable Diffusion模型前向训练过程中,W0和ΔW都会乘以相同的输入x,也就是:
h=W0x+ΔWx=W0x+BAx,
Stable Diffusion模型的训练目标为:
min(h′-h),
其中,h′为真实答案,h为Stable Diffusion模型输出。由此进行多轮迭代,直至Stable Diffusion模型收敛。
在一些实施例中,将Stable Diffusion模型中的权重参数划分为移植权重参数和待训练权重参数,并将所述待训练权重参数划分为降维矩阵和升维矩阵;
通过所述清洗后的样本图像集和所述清洗后的文本集,对所述降维矩阵和所述升维矩阵进行训练,最终得到所述训练后的Stable Diffusion模型。
普通的扩散模型可以解释为一个时序去噪自编码器σθ(xt,t),t=1…T,其目标是根据输入xt去预测一个对应去噪后的变体,其中xt是输入x的噪音版本。
相应的目标函数可以写成如下形式:
其中t从{1,…,T}中均匀采样获得。
而在潜在扩散模型中,引入了预训练的感知压缩模型,它包括一个编码器E和一个解码器D。这样在训练时就可以利用编码器得到zt,从而让模型在潜在表示空间中学习,相应的目标函数可以写成如下形式:
除了无条件图片生成外,也可以进行条件图片生成,这主要是通过拓展得到一个条件时序去噪自编码器σθ(zt,t,y)来实现的,这样一来我们就可通过y来控制图片合成的过程。
为了能够从多个不同的模态预处理y,论文引入了一个领域专用编码器τθ,它用来将y映射为一个中间表示τθ∈RM×d,这样就可以很方便的引入各种形态。
最终Stable Diffusion模型就可以通过一个cross-attention层映射将控制信息融入到UNet的中间层,cross-attention层的实现如下:
其中,是UNet的一个中间表征。相应的目标函数可以写成如下形式:
Stable Diffusion模型的基础模型不擅长真人绘制,在损失函数中加入感知损失来调整人像的生成。感知损失可以通过比较生成图像和目标图像在特征层上的差异来度量生成图像的质量。将生成图像和目标图像都输入到神经网络中,获取它们在选定的感知层上的特征表示,使用均方误差比较特征表示。将各个感知层上的特征差异累加,作为感知损失的值。
作为一种实施方式,所述感知损失的计算公式如下:
其中,Lpert表示所述损失函数,Fgen,j(j)表示所述生成图像在第i层、位置j处的特征表示,Ftarget,j(j)表示所述样本图像在第i层、位置j处的特征表示,Ni表示第i层的特征数量,i、j均为正整数。
最终的损失函数为:
S140,将待发布文本输入到所述训练后的Stable Diffusion模型中,获取所述待发布文本对应的目标合成图像。
最后将待发布文本输入到训练后的Stable Diffusion模型中,输出得到目标合成图像。
还需要说明的是,通过输入推文生成图像对本发明提出的方法进行验证,验证分为两步,第一步是通过经验观察的定性分析,第二步是利用利用R-Precision进行定量分析。
定性分析关注了社交向的文字(例如缩写,哈希标签等)以及社交向的图像(例如简洁明了,视觉冲击力强等)。
通过定性分析,从结果中可以看出本发明生成的图像比传统生成的图像效果更好,语义的视觉解释更完整合适,社交向的风格更加明显。
R-precision是通过对提取的图像和文本特征之间的检索结果进行排序,来衡量文本描述和生成的图像之间的视觉语义相似性。除了生成图像的真实文本描述外,还从数据集中随机抽取其他文本。
然后,计算图像特征和每个文本特征之间的余弦相似性,并按相似性递减的顺序对文本描述进行排序。如果生成图像的真实文本描述排在前r个内,则相关。随机选取1000份数据作为测试集评估R分数。
rp分数表示生成图像的真实文本描述排在前1个内的概率。基础模型的rp=78%,经微调训练后的rp=82%,有4%的提升。通过实验表明了本发明提出的一种面向社交领域的弱监督图像合成方法的有效性。
本发明提出的一种弱监督图像合成方法,将社交网络的样本图像集和样本图像集对应的文本集进行全面的清洗,并利用清洗后的样本图像集和清洗后的文本集对LoRA神经网络进行训练,将训练后的LoRA神经网络与传统的Stable Diffusion模型融合,通过在模型的损失函数中增加感知损失,实现细粒度的控制生成图像,提高人脸局部区域和情绪表达的准确性,使生成的图像更加具有社交风格;且通过生成推文对应的合成图像,增加数据信息多样性,并且类别标签明确。
图2为本发明实施例提供的一种弱监督图像合成系统的结构示意图,如图2所示,该系统包括清洗模块210、训练模块220、微调模块230和合成模块240,其中:
清洗模块210用于获取社交网络的样本图像集和所述样本图像集对应的文本集,并对所述样本图像集和所述文本集进行清洗;
训练模块220用于将清洗后的样本图像集和清洗后的文本集输入到LoRA神经网络进行训练,获取训练后的LoRA神经网络;
微调模块230用于将所述训练后的LoRA神经网络的权重移植到Stable Diffusion模型中进行微调训练,得到训练后的Stable Diffusion模型,所述微调训练中通过增加感知损失得到最终损失函数;
合成模块240用于将待发布文本输入到所述训练后的Stable Diffusion模型中,获取所述待发布文本对应的目标合成图像。
本实施例为与上述方法相对应的系统实施例,其具体实施过程与上述方法实施例相同,详情请参考上述方法实施例,本系统实施例对此不再赘述。
上述弱监督图像合成系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
图3为本发明实施例提供的一种计算机设备的结构示意图,该计算机设备可以是服务器,其内部结构图可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括计算机存储介质、内存储器。该计算机存储介质存储有操作系统、计算机程序和数据库。该内存储器为计算机存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储执行弱监督图像合成方法过程中生成或获取的数据,如样本图像集、文本集。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种弱监督图像合成方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例中的弱监督图像合成方法的步骤。或者,处理器执行计算机程序时实现弱监督图像合成系统这一实施例中的各模块/单元的功能。
在一实施例中,提供一计算机存储介质,该计算机存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中弱监督图像合成方法的步骤。或者,该计算机程序被处理器执行时实现上述弱监督图像合成系统这一实施例中的各模块/单元的功能。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种弱监督图像合成方法,其特征在于,包括:
获取社交网络的样本图像集和所述样本图像集对应的文本集,并对所述样本图像集和所述文本集进行清洗;
将清洗后的样本图像集和清洗后的文本集输入到LoRA神经网络进行训练,获取训练后的LoRA神经网络;
将所述训练后的LoRA神经网络的权重移植到Stable Diffusion模型中进行微调训练,得到训练后的Stable Diffusion模型,所述微调训练中通过增加感知损失得到最终损失函数;
将待发布文本输入到所述训练后的Stable Diffusion模型中,获取所述待发布文本对应的目标合成图像。
2.根据权利要求1所述的弱监督图像合成方法,其特征在于,所述感知损失通过比较生成图像和样本图像在特征层上的差异来度量所述生成图像的质量。
3.根据权利要求2所述的弱监督图像合成方法,其特征在于,所述感知损失的计算公式如下:
其中,Lpert表示所述损失函数,Fgen,j(j)表示所述生成图像在第i层、位置j处的特征表示,Ftarget,j(j)表示所述样本图像在第i层、位置j处的特征表示,Ni表示第i层的特征数量,i、j均为正整数。
4.根据权利要求1所述的弱监督图像合成方法,其特征在于,所述将所述训练后的LoRA神经网络的权重移植到Stable Diffusion模型中进行微调训练,得到训练后的StableDiffusion模型,包括:
将Stable Diffusion模型中的权重参数划分为移植权重参数和待训练权重参数,并将所述待训练权重参数划分为降维矩阵和升维矩阵;
通过所述清洗后的样本图像集和所述清洗后的文本集,对所述降维矩阵和所述升维矩阵进行训练,最终得到所述训练后的Stable Diffusion模型。
5.根据权利要求4所述的弱监督图像合成方法,其特征在于,所述将Stable Diffusion模型中的权重参数划分为移植权重参数和待训练权重参数,并将所述待训练权重参数划分为降维矩阵和升维矩阵,具体计算公式如下:
W=W0+ΔW=W0+BA,
其中,W表示所述训练后的Stable Diffusion模型的权重参数,W0表示所述移植权重参数,ΔW表示所述待训练权重参数,B表示所述升维矩阵,A表示所述降维矩阵。
6.根据权利要求1至5任一所述的弱监督图像合成方法,其特征在于,所述对所述样本图像集和所述文本集进行清洗,包括:
对于所述样本图像集,将分辨率低于256像素的样本图像删除,并且将通过零样本图像分类方法对样本图像进行删减,得到初始样本图像集;
对于所述文本集,将图文一对多的文本、包含不可识别内容的文本、包含敏感词的文本、包含转发标志的文本、文本长度小于5个字的文本均删除,得到初始文本集。
7.根据权利要求6所述的弱监督图像合成方法,其特征在于,所述对所述样本图像集和所述文本集进行清洗,进一步包括:
通过图文匹配方法,筛选出相似度靠前的若干样本图像和若干文本,得到所述样本图像集和所述文本集进行清洗。
8.一种弱监督图像合成系统,其特征在于,包括:
清洗模块,用于获取社交网络的样本图像集和所述样本图像集对应的文本集,并对所述样本图像集和所述文本集进行清洗;
训练模块,用于将清洗后的样本图像集和清洗后的文本集输入到LoRA神经网络进行训练,获取训练后的LoRA神经网络;
微调模块,用于将所述训练后的LoRA神经网络的权重移植到Stable Diffusion模型中进行微调训练,得到训练后的Stable Diffusion模型,所述微调训练中通过增加感知损失得到最终损失函数;
合成模块,用于将待发布文本输入到所述训练后的Stable Diffusion模型中,获取所述待发布文本对应的目标合成图像。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述弱监督图像合成方法的步骤。
10.一种计算机存储介质,所述计算机存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述弱监督图像合成方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311470832.5A CN117649464A (zh) | 2023-11-07 | 2023-11-07 | 弱监督图像合成方法、系统、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311470832.5A CN117649464A (zh) | 2023-11-07 | 2023-11-07 | 弱监督图像合成方法、系统、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117649464A true CN117649464A (zh) | 2024-03-05 |
Family
ID=90046887
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311470832.5A Pending CN117649464A (zh) | 2023-11-07 | 2023-11-07 | 弱监督图像合成方法、系统、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117649464A (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116935169A (zh) * | 2023-09-13 | 2023-10-24 | 腾讯科技(深圳)有限公司 | 文生图模型训练方法以及文生图方法 |
-
2023
- 2023-11-07 CN CN202311470832.5A patent/CN117649464A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116935169A (zh) * | 2023-09-13 | 2023-10-24 | 腾讯科技(深圳)有限公司 | 文生图模型训练方法以及文生图方法 |
Non-Patent Citations (3)
Title |
---|
HU E J等: "lora:low-rank adaptation of large language models", ARXIV, 16 October 2021 (2021-10-16), pages 4 * |
YUHAI ZHANG等: "Inheritance and Revitalization: Exploring the Synergy Between AIGC Technologies and Chinese Traditional Culture", ACCESSES, 2 November 2023 (2023-11-02), pages 2 - 4 * |
百度百科: "零样本图像分类", Retrieved from the Internet <URL:https://baike.baidu.com/item/%E9%9B%B6%E6%A0%B7%E6%9C%AC%E5%9B%BE%E5%83%8F%E5%88%86%E7%B1%BB/60025847?fr=ge_ala> * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kosinski et al. | Mining big data to extract patterns and predict real-life outcomes. | |
Wang et al. | Federated unlearning via class-discriminative pruning | |
CN111414461B (zh) | 一种融合知识库与用户建模的智能问答方法及系统 | |
Chen et al. | General functional matrix factorization using gradient boosting | |
CN111105013B (zh) | 对抗网络架构的优化方法、图像描述生成方法和系统 | |
CN110196945B (zh) | 一种基于LSTM与LeNet融合的微博用户年龄预测方法 | |
CN113254782B (zh) | 问答社区专家推荐方法及系统 | |
CN112487199A (zh) | 一种基于用户购买行为的用户特征预测方法 | |
CN112100401A (zh) | 面向科技服务的知识图谱构建方法、装置、设备及存储介质 | |
CN111582506A (zh) | 基于全局和局部标记关系的偏多标记学习方法 | |
Hu et al. | Attentive interactive convolutional matching for community question answering in social multimedia | |
CN112800229A (zh) | 基于知识图嵌入的涉案领域的半监督方面级情感分析方法 | |
Cao et al. | Automatic image annotation method based on a convolutional neural network with threshold optimization | |
CN113239159A (zh) | 基于关系推理网络的视频和文本的跨模态检索方法 | |
CN112148776A (zh) | 基于引入语义信息的神经网络的学术关系预测方法和装置 | |
Cole et al. | Spatial implicit neural representations for global-scale species mapping | |
Devi et al. | Image captioning using reinforcement learning with BLUDEr optimization | |
CN111079011A (zh) | 一种基于深度学习的信息推荐方法 | |
Huang et al. | Deep multimodal embedding model for fine-grained sketch-based image retrieval | |
Zhai | Research on image recognition based on deep learning technology | |
CN117725261A (zh) | 一种视频文本跨模态检索方法、装置、设备与介质 | |
CN116561314B (zh) | 基于自适应阈值选择自注意力的文本分类方法 | |
Perdana et al. | Instance-based deep transfer learning on cross-domain image captioning | |
CN115908955A (zh) | 基于梯度蒸馏的少样本学习的鸟类分类系统、方法与装置 | |
CN115934905A (zh) | 文档问答方法、装置、系统、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |