CN118279427A - 图像生成方法、装置、客户端、电子设备及存储介质 - Google Patents

图像生成方法、装置、客户端、电子设备及存储介质 Download PDF

Info

Publication number
CN118279427A
CN118279427A CN202410379830.3A CN202410379830A CN118279427A CN 118279427 A CN118279427 A CN 118279427A CN 202410379830 A CN202410379830 A CN 202410379830A CN 118279427 A CN118279427 A CN 118279427A
Authority
CN
China
Prior art keywords
text
image
emotion
target
image description
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410379830.3A
Other languages
English (en)
Inventor
王奇勋
白须
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shuhang Technology Beijing Co ltd
Original Assignee
Shuhang Technology Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shuhang Technology Beijing Co ltd filed Critical Shuhang Technology Beijing Co ltd
Priority to CN202410379830.3A priority Critical patent/CN118279427A/zh
Publication of CN118279427A publication Critical patent/CN118279427A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Processing Or Creating Images (AREA)

Abstract

本申请公开了一种图像生成方法、装置、客户端、电子设备及存储介质,其中,该方法包括:根据待处理文本确定所述待处理文本对应的第一情感词和初始图像描述,其中,所述初始图像描述用于描述初始图像的内容;根据所述第一情感词对所述初始图像描述进行文本增强,得到目标图像描述,其中,所述目标图像描述用于描述目标图像的内容以及所述第一情感词指示的情感;根据所述初始图像描述,得到所述初始图像;根据所述目标图像描述和所述初始图像,得到所述目标图像。使用本方法,可以精准生成包含对应的情绪倾向的图像。

Description

图像生成方法、装置、客户端、电子设备及存储介质
技术领域
本发明涉及图像生成技术领域,具体涉及一种图像生成方法、装置、客户端、电子设备及存储介质。
背景技术
目前,人工智能(Artificial Intelligence,AI)生图像通常采用扩散模型通过“图像描述”生成得到,在生成的过程中,AI会抓取图像描述中记载的元素进行构图。在日常的文本配图发布中,需要配图在情绪上与文本相契合,以达到更佳的观赏效果。对此,目前常采用的方式是对文本进行情绪提取,继而将提取出的情绪和图像描述一起输入扩散模型去生成带有情绪倾向的配图。
但是,采用上述方法,输入的情感词会对图像描述中记载的元素进行影响,导致AI生图的精度较差,用户体验低。
发明内容
为了解决现有技术中存在的上述问题,本申请实施方式提供了一种图像生成方法、装置、客户端、电子设备及存储介质,可以精准生成包含对应的情绪倾向的图像,提高AI生图的精度。
第一方面,本申请的实施方式提供了一种图像生成方法,该方法包括:
根据待处理文本确定所述待处理文本对应的第一情感词和初始图像描述,其中,所述初始图像描述用于描述初始图像的内容;
根据所述第一情感词对所述初始图像描述进行文本增强,得到目标图像描述,其中,所述目标图像描述用于描述目标图像的内容以及所述第一情感词指示的情感;
根据所述初始图像描述,得到所述初始图像;
根据所述目标图像描述和所述初始图像,得到所述目标图像。
在一种可能的实施方式中,根据所述初始图像描述,得到所述初始图像,包括:
将所述初始图像描述输入扩散模型,对噪声图像进行去噪处理;
在进行第i次去噪处理时,截断剩余的n-i次去噪处理,将所述第i次去噪处理得到的图像作为所述初始图像,其中,i为大于或等于1且小于或等于n的整数,n为所述扩散模型的去噪次数。
在一种可能的实施方式中,当i小于n时,所述根据所述目标图像描述和所述初始图像,得到所述目标图像,包括:
将所述目标图像描述输入所述扩散模型,对所述初始图像进行剩余的n-i次去噪处理,得到所述目标图像。
在一种可能的实施方式中,当i等于n时,所述根据所述目标图像描述和所述初始图像,得到所述目标图像,包括:
对所述初始图像添加m步噪声,得到模糊图像,其中,m为大于或等于1的整数;
将所述目标图像描述输入所述扩散模型,对所述模糊图像进行m次去噪处理,得到所述目标图像。
在一种可能的实施方式中,所述根据所述第一情感词对所述初始图像描述进行文本增强,得到目标图像描述,包括:
基于第一预设提示词模板、所述初始图像描述以及所述第一情感词,构造与所述初始图像描述对应的目标提示词;
将所述目标提示词本输入语言模型进行文本增强,得到所述目标图像描述。
在一种可能的实施方式中,所述将所述目标提示词本输入语言模型进行文本增强,得到所述目标图像描述,包括:
将所述目标提示词本输入语言模型,得到候选图像描述;
对所述候选图像描述进行情感提取,得到第二情感词;
确定所述第二情感词与所述第一情感词之间的情绪距离;
当所述情绪距离大于阈值时,根据所述情绪距离对所述第一预设提示词模板进行调整,得到第二预设提示词模板;
基于第二预设提示词模板、所述初始图像描述以及所述第一情感词,构造与所述初始图像描述对应的新的目标提示词;
将所述新的目标提示词输入所述语言模型,得到新的候选图像描述,直至新的候选图像描述对应的情绪距离小于所述阈值,将新的候选图像描述作为所述目标图像描述。
在一种可能的实施方式中,所述待处理文本为中文文本;所述根据待处理文本确定所述待处理文本对应的初始图像描述,包括:
将所述待处理文本输入到文本生成模型,得到所述初始图像描述。
在一种可能的实施方式中,将所述待处理文本输入到文本生成模型,得到所述初始图像描述之前,所述方法还包括:
获取第一用户生成内容样本,其中,所述第一用户生成内容样本包括中文文本样本和图像样本;
获取与所述图像样本对应的第一英文图像描述;
对所述第一英文图像描述进行分词,得到多个第一英文单词;
对所述中文文本样本进行编码,得到文本特征;
基于所述多个第一英文单词以及所述文本特征进行解码,得到多个第二英文单词;
基于所述多个第一英文单词和所述多个第二英文单词进行模型训练,得到所述文本生成模型。
第二方面,本申请的实施方式提供了一种图像生成方法,包括:
获取待处理文本;
响应于目标对象的文生图指令,显示与所述待处理文本对应的目标图像,其中,所述目标图像是基于所述待处理文本包括的第一情感词,以及与所述待处理文本对应的初始图像描述确定的;
响应于所述目标对象的发布指令,发布所述待处理文本和/或所述目标图像。
第三方面,本申请的实施方式提供了一种图像生成装置,包括:
处理模块,用于根据待处理文本确定所述待处理文本对应的第一情感词和初始图像描述,其中,所述初始图像描述用于描述初始图像的内容;
增强模块,用于根据所述第一情感词对所述初始图像描述进行文本增强,得到目标图像描述,其中,所述目标图像描述用于描述目标图像的内容以及所述第一情感词指示的情感;
生成模块,用于根据所述初始图像描述,得到所述初始图像;根据所述目标图像描述和所述初始图像,得到所述目标图像。
第四方面,本申请的实施方式提供了一种客户端,包括:处理模块和显示模块;
所述处理模块,用于获取待处理文本;
所述显示模块,用于响应于目标对象的文生图指令,显示与所述待处理文本对应的目标图像,其中,所述目标图像是基于所述待处理文本包括的第一情感词,以及与所述待处理文本对应的初始图像描述确定的;
所述处理模块,用于响应于所述目标对象的发布指令,发布所述待处理文本和/或所述目标图像。
第五方面,本申请实施方式提供一种电子设备,包括:处理器,处理器与存储器相连,存储器用于存储计算机程序,处理器用于执行存储器中存储的计算机程序,以使得电子设备执行如第一方面或第二方面的方法。
第六方面,本申请实施方式提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序使得计算机执行如第一方面或第二方面的方法。
第七方面,本申请实施方式提供一种计算机程序产品,计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,计算机可操作来使计算机执行如第一方面或第二方面的方法。
实施本申请实施方式,具有如下有益效果:
在本申请实施方式中,通过待处理文本确定该待处理文本对应的第一情感词和初始图像描述,其中,该初始图像描述用于描述初始图像的内容,第一情感词用于指示该待处理文本的情感倾向。然后,基于该第一情感词对初始图像描述进行文本增强,得到目标图像描述,其中,该目标图像描述用于描述目标图像的内容以及第一情感词所指示的情感。简而言之,该目标图像描述为在初始图像描述的基础上添加进第一情感词指示的情感倾向后,保留初始图像描述所描述的原有的图像组成元素的基础上,新增了情绪倾向和在该情绪倾向下衍生的新的图像组成元素的文本。然后,根据初始图像描述得到初始图像,以及根据目标图像描述和初始图像得到目标图像。由此,通过两段式的生成模式,使第一情感词无法对图像描述中记载的元素进行影响,继而在保留与待处理文本对应的内容的基础上,实现包含对应的情绪倾向的图像的精准生成。通过第一段的生成,对图像整体布局进行定调,再通过包含情绪倾向的第二段生成,对图像进行情感修饰,以实现图像美感和情绪的稳定共存。
附图说明
为了更清楚地说明本申请实施方式中的技术方案,下面将对实施方式描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施方式提供的一种图像生成系统的示意图;
图2为本申请实施方式提供的一种图像生成的场景示意图;
图3为本申请实施方式提供的一种图像生成方法的流程示意图;
图4为本申请实施方式提供的一种训练文本生成模型的示意图;
图5为本申请实施方式提供的另一种图像生成方法的流程示意图;
图6为本申请实施方式提供的一种图像生成的示意图;
图7为本申请实施方式提供的一种图像生成装置的示意图;
图8为本申请实施方式提供的一种客户端的示意图;
图9为本申请实施方式提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施方式中的附图,对本申请实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本申请一部分实施方式,而不是全部的实施方式。基于本申请中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本申请保护的范围。
本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施方式”意味着,结合实施方式描述的特定特征、结果或特性可以包含在本申请的至少一个实施方式中。在说明书中的各个位置出现该短语并不一定均是指相同的实施方式,也不是与其它实施方式互斥的独立的或备选的实施方式。本领域技术人员显式地和隐式地理解的是,本文所描述的实施方式可以与其它实施方式相结合。
参阅图1,图1为本申请实施例提供的一种图像生成系统的示意图。如图1所示,图像生成系统包括客户端10和图像生成装置20,其中,
客户端10可获取目标对象输入的待处理文本,然后将该待处理文本发送给图像生成装置20。相应地,图像生成装置20根据待处理文本确定所述待处理文本对应的第一情感词和初始图像描述,其中,所述初始图像描述用于描述初始图像的内容;根据所述第一情感词对所述初始图像描述进行文本增强,得到目标图像描述,其中,所述目标图像描述用于描述目标图像的内容以及所述第一情感词指示的情感;根据所述初始图像描述,得到所述初始图像;根据所述目标图像描述和所述初始图像,得到所述目标图像。然后,图像生成装置20可以将目标图像返回给客户端10,以在客户端显示该目标图像。
参阅图2,图2为本申请实施例提供的一种图像生成的场景示意图。
客户端10可显示文本输入框,目标对象可以通过文本输入框输入待处理文本,例如,可通过文本输入框进行点击,以在文本输入框输入待处理文本。然后,响应于目标对象针对待处理文本的发送指令,将待处理文本发送给图像生成装置20,例如,响应于目标对象点击“下一步”的操作,可生成针对待处理文本的发送指令。相应地,图像生成装置20基于待处理文本,执行本申请的图像生成方法,生成目标图像,并将目标图像返回给客户端10,然后客户端10会显示目标图像和待处理文本,此时目标对象可对目标图像和待处理文本进行编辑。然后,响应于目标对象针对目标图像的继续指令,显示目标图像和待处理文本的发布界面,例如,响应于目标对象点击“下一步”的操作,可生成针对目标图像的继续指令。最后,目标对象可以在发布界面发布该目标图像和待处理文本,例如,如图2所示,响应于发布指令,则可对目标图像和待处理文本进行发布。
参阅图3,图3为本申请实施方式提供的一种图像生成方法的流程示意图。该方法应用于上述的图像生成装置。该图像生成方法包括但不限于以下步骤:
301:根据待处理文本确定所述待处理文本对应的第一情感词和初始图像描述,其中,所述初始图像描述用于描述初始图像的内容。
示例性的,对待处理文本进行情感分类,得到待处理文本的第一情感词。
具体地,可以将待处理文本输入预先训练的情感分类模型,得到待处理文本对应的情感类别。然后,将该情感类别对应的情感词作为该第一情感词。
可选地,本申请的情感类别包括但不限于:开心、一般、悲伤、恐惧,且上述情感类别对应的情感词分别为:happy、common、sad、terrible。
具体而言,在本实施方式中,将待处理文本输入到预先训练的情感分类模型,可得到落入各个情感类别的概率值,然后将概率值最大的情感分类结果对应的情感词作为该第一情感词。例如:对于文本1,将其输入情感分类模型后,情感分类结果为:开心:80%、感动:70%、悲伤:15%、平静:35%、愤怒:5%、恐惧:2%,则可以将概率最大的情感分类结果,即开心对应的情感词happy作为第一情感词。
在本实施方式中,还可以将概率值大于预设阈值的情感类别对应的情感词均提取出来,得到多个目标情感类别;然后,对多个目标情感类别对应的概率值进行归一化,得到每个目标情感类别对应的权重,然后将该多个目标情感类别对应的权重,以及多个目标情感类别对应的多个情感词,均作为第一情感词。
沿用上述示例,若将预设阈值设为50%,则大于该预设阈值的情感类别有:开心:80%和感动:70%,对两者的概率值进行归一化,得到开心的权重为53%和感动的权重为47%,则确定将第一情感词包括:happy:53%和emotional:47%。
可以看出,在本申请实施例中,可以保留多个情感词,这样后续生成图像时,可以综合多种情感去生成图像,使生成的图像的情感更加丰富,并且,在保留多个情感词时,还保留了每个情感词的权重,这样就能够体现出哪个情感词是主情感,哪个情感词是次情感,从而能够实现主次之分,提高生成的图像的精度。
示例性的,上述初始图像描述用于描述初始图像的内容,即该初始图像描述可以理解为用于生成图像的提示词。可选地,可对该待处理文本进行特征提取,得到该初始图像描述。具体地,可将该待处理文本输入到文本生成模型,得到初始图像描述,其中,该文本生成模型为预先训练好的。下面介绍训练该文本生成模型的过程,其中,该文本生成模型包括编码器和解码器。
示例性的,获取多个原始用户生成内容,其中,该多个原始用户生成内容为用户已发布的用户生成内容,且用户生成内容可以为任意类型的用户生成内容,例如,可以为视频、网页、新闻、笔记,等等,本申请主要以笔记为例进行说明。
然后,基于每个原始生成内容的内容特征以及交互特征,对多个原始用户生成内容进行筛选,得到第一用户生成内容样本。其中,交互特征包括但不限于发布时长、点击数、有效阅读次数、点赞次数、转发次数、下载次数,等等。然后,基于每个原始生成内容的交互特征,确定每个原始生成内容的热度评分。最后,将包含有中文文本和图像,以及热度评分大于阈值的原始生成内容作为第一用户生成内容样本。为了便于区分,本申请将第一用户生成内容样本中的中文文本称为中文文本样本,以及将第一用户生成内容样本中的图像称为图像样本。
进一步地,获取与图像样本对应的第一图像描述。
在本实施方式中,若该图像样本是人工智能图像,即通过AI技术生成的,则获取用于生成该图像样本的英文图像描述,将该英文图像描述作为该第一英文图像描述。若该配图不是人工智能图像,则可以将该图像样本输入图像描述模型,得到与该图像样本对应的图像描述,并将该图像描述作为该第一英文图像描述。
进一步地,对该第一英文描述进行分词,得到多个第一英文单词。
进一步地,对中文文本样本进行编码,得到文本特征。示例性的,将该中文文本样本输入到编码器进行编码,得到文本特征。
然后,基于多个第一英文单词以及文本特征进行解码,得到多个第二英文单词。示例性的,将多个第一英文单词和文本特征输入到解码器进行解码,得到多个第二英文单词。具体地,首先在多个第一英文单词最前面插入开始符号,例如,<srart>,得到第一英文单词序列。然后,对第一英文单词序列中的第一个英文单词输入到解码器进行特征提取,得到第一词特征。然后,将第一词特征和文本特征进行融合,得到第一中间特征,然后,基于该解码器对该第一中间特征进行特征提取,得到第一目标特征;最后,基于该解码器对该第一目标特征进行单词预测,得到第一个第二英文单词。然后,将第二英文单词输入到解码器进行特征提取,得到第二词特征,将第二词特征与第一目标特征进行融合,得到第二中间特征;然后基于该解码器对该第二中间特征进行特征提取,得到第二目标特征;最后,基于该解码器对该第二目标特征进行单词预测,得到第二个第二英文单词,依次循环,直至得到的第二英文单词为停止符号,停止解码,得到多个第二英文单词。
示例性的,如图4所示,中文文本样本为“今天失眠了”,则可将中文文本样本输入到编码器进行编码,得到文本特征。然后,利用第一个第一英文单词和文本特征输入到解码器进行解码,可以解码出第一个第二英文单词x1;然后,利用第二个第一英文单词和上次解码所使用的目标特征输入到解码器进行解码,可以解码出第二个第二英文单词x2,依次循环,解码出停止符号<end>时,停止解码,可得到多个第二英文单词,即x1、x2、x3、x4、x5。
最后,基于多个第一英文单词和多个第二英文单词进行模型训练,得到文本生成模型。示例性的,获取每个第一英文单词和对应第二英文单词之间的损失;对多个第一英文单词对应的多个损失求平均,得到目标损失;基于目标损失进行模型训练,得到文本生成模型。
可以看出,本申请在训练文本生成模型时,会使用中文文本样本对照的英文文本样本进行对比学习,这样在训练过程中文本生成模型就会学习到每个中文文本对应的中文文本,这样后续实际应用中,可以直接将中文文本输入到该文本生成模型,生成与中文文本对应的图像描述,无需先将中文文本转换成英文文本,再输入文本生成模型,从而提高图像描述的生成效率。因此,上述待处理文本的语言类型可以为中文或者英文,本申请中主要以待处理文本的语言类型为中文为例进行说明。
302:根据所述第一情感词对所述初始图像描述进行文本增强,得到目标图像描述,其中,所述目标图像描述用于描述目标图像的内容以及所述第一情感词指示的情感。
示例性的,基于第一预设提示词(prompt)模板、初始图像描述以及第一情感词,构造与所述初始图像描述对应的目标提示词。
具体而言,第一预设提示词模板是基于语言模型的计算特性进行设置的,本申请主要以语言模型为开源的ChatGLM2模型为例进行说明,则对应的第一预设提示词模板如下:
你是一个文学家。有这样一段文字xxx,对其进行扩写,要求在完全保留全部信息的基础上,表达出xxx的情感倾向,用英文回复,50个单词以内。
因此,在得到初始图像描述和第一情感词后,可将初始图像描述和第一情感词与第一预设提示词模板进行融合,得到目标提示词,且具体为:
你是一个文学家。有这样一段文字a forest with a path in the middle ofit,对其进行扩写,要求在完全保留全部信息的基础上,表达出terrible的情感倾向,用英文回复,50个单词以内。
然后,将目标提示词输入到语言模型进行文本增强,得到目标图像描述。其中,目标图像描述不仅用于描述目标图像中的内容,还用于描述第一情感词所指示的情感。
示例性的,首先将目标提示词输入到语言模型进行文本增强,得到候选图像描述。
在一个实施方式中,可直接将该候选图像描述作为目标图像描述。
在另一个实施方式中,还可以对得到的候选图像描述的质量进行判定,将通过判定的候选图像描述确定为目标图像描述。
具体而言,可以对所述候选图像描述进行情感提取,得到第二情感词。该情感提取的方式与步骤301中对待处理文本的情感词提取方式类似,在此不再赘述。然后,计算第二情感词与第一情感词之间的情绪距离。
当情绪距离小于阈值时,说明经过文本增强后,候选图像描述的情感基调与第一情感词的情感基调基本一致,则判定该候选图像描述通过质量判定,可以将该候选图像描述作为目标图像描述。
当情绪距离大于阈值时,说明经过文本增强后,候选图像描述的情感基调与第一情感词的情感基调存在较大的差异,则判定该候选图像描述未通过质量判定,不可以作为目标图像描述。
对此,可以根据情绪距离对第一预设提示词模板进行调整,得到第二预设提示词模板。具体而言,可以通过情绪距离对第一预设提示词模板中情感部分的权重进行调整,具体越大,则情感部分的权重就越大。由此,通过权重的调整,对语言模型输出的文本的情感进行约束,继而保证候选图像描述与待处理文本的情感基调保持一致。然后,将第一情感词、初始图像描述以及第二预设提示词模板进行组合,得到新的目标提示词。最后,将新的目标提示词输入语言模型进行文本增强,得到新的候选图像描述,并获取新的图像描述对应的情绪距离,直至新的候选图像描述对应的情绪距离小于所述阈值,将新的候选图像描述作为所述目标图像描述。
由此可见,目标图像描述用于记载图像的第二组成元素和情感倾向,该第二组成元素包括初始图像描述所记载的第一组成元素。简而言之,该目标图像描述为在初始图像描述的基础上添加进第一情感词的情感倾向后,保留初始图像描述中原有的图像组成元素的基础上,新增了情感倾向和在该情感倾向下衍生的新的图像组成元素的文本,该第二组成元素即为第一组成元素和衍生的新的图像组成元素的集合。
303:根据初始图像描述得到所述初始图像。
示例性的,将初始图像描述输入扩散模型,例如:stablediffusion模型,对噪声图像进行去噪处理,该扩散模型总共需要进行n次去噪处理;故在进行第n次去噪处理后,可得到不包含噪声的图像,n为大于或等于1的整数。简而言之,在进行n-1次去噪处理后,输出的图像依然会包含一定的噪声,只有进行n次去噪处理后,可以得到不包含噪声的清晰图像。
在本实施方式中,可以不进行全部的n次去噪处理,可以在进行第i次去噪处理时,截断剩余的n-i次去噪处理,将第i次去噪处理输出的图像作为所述初始图像,其中,i为大于或等于1且小于或等于n的整数。
可以看出,在本实施方式中,由于本申请需要实现两阶段式的图像生成,因此,为了提高图像生成的效率,在第一次去噪过程中,可以不用对噪声图像进行完全去噪,这样就可以直接使用第一次去噪的结果进行第二次去噪,从而提高去噪效率。
在本实施方式中,i的取值可以是预先根据n的取值确定的固定值,例如:当n为50时,i可以为25。也可以是根据每次去噪处理后输出的图像进行确定,例如:对每次去噪处理后输出的图像进行元素识别,当识别出的元素与初始图像描述中记载的元素一致时,即可停止当前次去噪处理,将该输出图像作为所述初始图像。
304:根据目标图像描述和所述初始图像得到目标图像。
由上述可知,所述初始图像为n次去噪处理中,第i次去噪处理的输出图像。则,当i小于n时,说明所述初始图像为包含噪声的图像,可以直接作为扩散模型的输入进行进一步的去噪,以得到目标图像。由此,可以将目标图像描述输入扩散模型,对所述初始图像进行剩余的n-i次去噪处理,得到目标图像。
当i等于n时,说明所述初始图像为不包含噪声的图像,第一段图像生成的流程已经走完。且由于所述初始图像不包含噪声,无法作为扩散模型的输入进行进一步的去噪。因此,可以对该所述初始图像添加m步噪声,得到模糊图像,其中,m为大于或等于1的整数。再将目标图像描述输入扩散模型,对模糊图像进行m次去噪处理,得到目标图像。
可选地,在得到上述目标图像后,还可以将目标图像返回给客户端,以便于目标对象使用该目标图像进行生成内容的发布。
上面都是从图像生成装置的角度描述图像生成过程,下面从客户端的角度描述图像生成过程。
参阅图5,图5为本申请实施例提供的另一种图像生成方法的流程示意图。该方法应用于客户端。该方法包括但不限于以下步骤内容:
501:客户端获取待处理文本。
其中,该待处理文本为目标对象输入的文本。可选地,如图2所示,客户端可提供文本输入框,目标对象可在文本输入框输入待处理文本,相应地,客户端可获取到待处理文本。
502:客户端响应于目标对象的文生图指令,显示与所述待处理文本对应的目标图像,其中,所述目标图像是基于所述待处理文本包括的第一情感词,以及与所述待处理文本对应的初始图像描述确定的。
示例性的,客户端在接收到目标对象的文生图指令时,可将待处理文本发送给图像生成装置,请求该图像生成装置基于该待处理文本生成图像。然后,图像生成装置执行图3示出的图像生成方法,生成目标图像,并将该目标图像返回给客户端,由客户端渲染显示该目标图像。当然,若将图像生成能力本地化到客户端,可以由客户端执行图3示出的图像生成方法,直接生成目标图像,无需将待处理文本发送给图像生成装置。
503:响应于所述目标对象的发布指令,发布所述待处理文本和/或所述目标图像。
示例性的,如图2所示,客户端在显示目标图像时,还可以同步显示待处理文本,并且目标对象可以对目标图像以及待处理文本进行编辑,其中,编辑包括增删改;在编辑之后,可响应于目标对象的发布指令,发布所述待处理文本和/或所述目标图像。
下面以实际的例子,并从模型的角度结合附图6介绍本申请的图像生成过程。
示例性的,如图6所示,用户输入的待处理文本为“我好害怕啊”,通过情感分类模型得到,第一情感词为“terrible”,同时,通过描述文本生成模型得到初始图像描述为“aforest with a path in the middle of it”。
得到第一情感词和初始图像描述后,将第一情感词“terrible”和初始图像描述“aforest with a path in the middle of it”与第一预设提示词模板进行组合,得到目标提示词:
你是一个文学家。有这样一段文字a forest with a path in the middle ofit,对其进行扩写,要求在完全保留全部信息的基础上,表达出terrible的情感倾向,用英文回复,50个单词以内。
然后,将该目标提示词输入语言模型进行文本增强,得到目标图像描述:
a dark forest with a path in the middle of it,a matte paintingmysterious and scary forest,ominous and eerie forest,creepy forest。
在进行目标图像描述生成的同时,将初始图像描述“a forest with a path inthe middle of it”输入扩散模型进行图像生成,生成图中所示的不包含噪声的初始图像。则再进行第二段图像生成时,需要对该所述初始图像进行噪声添加,继而将添加了噪声的图像和目标图像描述输入扩散模型进行第二段图像生成,得到最终的配图。
综上所述,在本申请实施方式中,通过待处理文本确定该待处理文本对应的第一情感词和初始图像描述,其中,该初始图像描述用于描述初始图像的内容,第一情感词用于指示该待处理文本的情感倾向。然后,基于该第一情感词对初始图像描述进行文本增强,得到目标图像描述,其中,该目标图像描述用于描述目标图像的内容以及第一情感词所指示的情感。简而言之,该目标图像描述为在初始图像描述的基础上添加进第一情感词指示的情感倾向后,保留初始图像描述所描述的原有的图像组成元素的基础上,新增了情绪倾向和在该情绪倾向下衍生的新的图像组成元素的文本。然后,根据初始图像描述得到初始图像,以及根据目标图像描述和初始图像得到目标图像。由此,通过两段式的生成模式,使第一情感词无法对图像描述中记载的元素进行影响,继而在保留与待处理文本对应的内容的基础上,实现包含对应的情绪倾向的图像的精准生成。通过第一段的生成,对图像整体布局进行定调,再通过包含情绪倾向的第二段生成,对图像进行情感修饰,以实现图像美感和情绪的稳定共存。
参阅图7,图7为本申请实施方式提供的一种图像生成装置的示意图。如图7所示,该图像生成装置700包括:处理模块701、增强模块702以及生成模块703;
处理模块701,用于根据待处理文本确定所述待处理文本对应的第一情感词和初始图像描述,其中,所述初始图像描述用于描述初始图像的内容;
增强模块702,用于根据所述第一情感词对所述初始图像描述进行文本增强,得到目标图像描述,其中,所述目标图像描述用于描述目标图像的内容以及所述第一情感词指示的情感;
生成模块703,用于根据所述初始图像描述,得到所述初始图像;根据所述目标图像描述和所述初始图像,得到所述目标图像。
在本发明的实施方式中,在根据所述初始图像描述,得到所述初始图像方面,生成模块703,具体用于:
将所述初始图像描述输入扩散模型,对噪声图像进行去噪处理;
在进行第i次去噪处理时,截断剩余的n-i次去噪处理,将所述第i次去噪处理得到的图像作为所述初始图像,其中,i为大于或等于1且小于或等于n的整数,n为所述扩散模型的去噪次数。
在本发明的实施方式中,当i小于n时,在根据所述目标图像描述和所述初始图像,得到所述目标图像方面,生成模块703,具体用于:
将所述目标图像描述输入所述扩散模型,对所述初始图像进行剩余的n-i次去噪处理,得到所述目标图像。
在本发明的实施方式中,当i等于n时,在根据所述目标图像描述和所述初始图像,得到所述目标图像方面,生成模块703,具体用于:
对所述初始图像添加m步噪声,得到模糊图像,其中,m为大于或等于1的整数;
将所述目标图像描述输入所述扩散模型,对所述模糊图像进行m次去噪处理,得到所述目标图像。
在本发明的实施方式中,在根据所述第一情感词对所述初始图像描述进行文本增强,得到目标图像描述方面,增强模块702,具体用于:
基于第一预设提示词模板、所述初始图像描述以及所述第一情感词,构造与所述初始图像描述对应的目标提示词;
将所述目标提示词本输入语言模型进行文本增强,得到所述目标图像描述。
在本发明的实施方式中,在将所述目标提示词本输入语言模型进行文本增强,得到所述目标图像描述方面,增强模块702,具体用于:
将所述目标提示词本输入语言模型,得到候选图像描述;
对所述候选图像描述进行情感提取,得到第二情感词;
确定所述第二情感词与所述第一情感词之间的情绪距离;
当所述情绪距离大于阈值时,根据所述情绪距离对所述第一预设提示词模板进行调整,得到第二预设提示词模板;
基于第二预设提示词模板、所述初始图像描述以及所述第一情感词,构造与所述初始图像描述对应的新的目标提示词;
将所述新的目标提示词输入所述语言模型,得到新的候选图像描述,直至新的候选图像描述对应的情绪距离小于所述阈值,将新的候选图像描述作为所述目标图像描述。
在本发明的实施方式中,在待处理文本为中文文本;所述根据待处理文本确定所述待处理文本对应的初始图像描述方面,处理模块701,具体用于:
将所述待处理文本输入到文本生成模型,得到所述初始图像描述。
在本发明的实施方式中,在将所述待处理文本输入到文本生成模型,得到所述初始图像描述之前,处理模块701,还用于:
获取第一用户生成内容样本,其中,所述第一用户生成内容样本包括中文文本样本和图像样本;
获取与所述图像样本对应的第一英文图像描述;
对所述第一英文图像描述进行分词,得到多个第一英文单词;
对所述中文文本样本进行编码,得到文本特征;
基于所述多个第一英文单词以及所述文本特征进行解码,得到多个第二英文单词;
基于所述多个第一英文单词和所述多个第二英文单词进行模型训练,得到所述文本生成模型。
参阅图8,图8为本申请实施例提供的一种客户端的示意图。如图8所示,客户端800包括处理模块801和显示模块802,其中:
所述处理模块801,用于获取待处理文本;
所述显示模块802,用于响应于目标对象的文生图指令,显示与所述待处理文本对应的目标图像,其中,所述目标图像是基于所述待处理文本包括的第一情感词,以及与所述待处理文本对应的初始图像描述确定的;
所述处理模块801,用于响应于所述目标对象的发布指令,发布所述待处理文本和/或所述目标图像。
参阅图9,图9为本申请实施方式提供的一种电子设备的结构示意图。如图9所示,电子设备900包括收发器901、处理器902和存储器903。它们之间通过总线904连接。存储器903用于存储计算机程序和数据,并可以将存储器903存储的数据传输给处理器902。电子设备900可以为上述的图像生成装置700和客户端800。
可选地,当电子设备900为上述图像生成装置700时,处理器902用于读取存储器903中的计算机程序执行以下操作:
根据待处理文本确定所述待处理文本对应的第一情感词和初始图像描述,其中,所述初始图像描述用于描述初始图像的内容;
根据所述第一情感词对所述初始图像描述进行文本增强,得到目标图像描述,其中,所述目标图像描述用于描述目标图像的内容以及所述第一情感词指示的情感;
根据所述初始图像描述,得到所述初始图像;
根据所述目标图像描述和所述初始图像,得到所述目标图像。
上述处理器902可以为图7所述的实施例的图像生成装置700的处理模块701、增强模块702以及生成模块703,故该处理器902的具体功能可以参考上述处理模块701、增强模块702以及生成模块703的具体功能,不再叙述。
可选地,当电子设备900为上述客户端800时,处理器902用于读取存储器903中的计算机程序执行以下操作:
获取待处理文本;
响应于目标对象的文生图指令,显示与所述待处理文本对应的目标图像,其中,所述目标图像是基于所述待处理文本包括的第一情感词,以及与所述待处理文本对应的初始图像描述确定的;
响应于所述目标对象的发布指令,发布所述待处理文本和/或所述目标图像。
上述处理器902可以为图8所述的实施例的客户端800的处理模块801,故该处理器902的具体功能可以参考上述处理模块801的具体功能,不再叙述。
应理解,本申请中的客户端可以包括智能手机(如Android手机、iOS手机、WindowsPhone手机等)、平板电脑、掌上电脑、笔记本电脑、移动互联网设备MID(Mobile InternetDevices,简称:MID)、机器人或穿戴式设备等。上述图像生成装置仅是举例,而非穷举,包含但不限于上述图像生成装置。在实际应用中,上述图像生成装置还可以包括:智能车载终端、计算机设备等等。
本申请的图像生成装置可以为服务器。该服务器可以为云计算服务器、内容分发网络(Content Delivery Network,CDN)服务器、网络时间协议(Network Time Protocol,NTP)、域名解析系统(Domain Name System,DNS)服务器,等其他各种类型的服务器。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可借助软件结合硬件平台的方式来实现。基于这样的理解,本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施方式或者实施方式的某些部分所述的方法。
因此,本申请实施方式还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现如上述方法实施方式中记载的任何一种图像生成方法的部分或全部步骤。例如,所述存储介质可以包括硬盘、软盘、光盘、磁带、磁盘、优盘、闪存等。
本申请实施方式还提供一种计算机程序产品,所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,所述计算机程序可操作来使计算机执行如上述方法实施方式中记载的任何一种图像生成方法的部分或全部步骤。
需要说明的是,对于前述的各方法实施方式,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施方式均属于可选的实施方式,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施方式中,对各个实施方式的描述都各有侧重,某个实施方式中没有详述的部分,可以参见其他实施方式的相关描述。
在本申请所提供的几个实施方式中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本申请各个实施方式中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件程序模块的形式实现。
所述集成的单元如果以软件程序模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以理解上述实施方式的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取器(英文:Random Access Memory,简称:RAM)、磁盘或光盘等。
以上对本申请实施方式进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施方式的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (13)

1.一种图像生成方法,其特征在于,所述方法包括:
根据待处理文本确定所述待处理文本对应的第一情感词和初始图像描述,其中,所述初始图像描述用于描述初始图像的内容;
根据所述第一情感词对所述初始图像描述进行文本增强,得到目标图像描述,其中,所述目标图像描述用于描述目标图像的内容以及所述第一情感词指示的情感;
根据所述初始图像描述,得到所述初始图像;
根据所述目标图像描述和所述初始图像,得到所述目标图像。
2.根据权利要求1所述的方法,其特征在于,所述根据所述初始图像描述,得到所述初始图像,包括:
将所述初始图像描述输入扩散模型,对噪声图像进行去噪处理;
在进行第i次去噪处理时,截断剩余的n-i次去噪处理,将所述第i次去噪处理得到的图像作为所述初始图像,其中,i为大于或等于1且小于或等于n的整数,n为所述扩散模型的去噪次数。
3.根据权利要求2所述的方法,其特征在于,当i小于n时,所述根据所述目标图像描述和所述初始图像,得到所述目标图像,包括:
将所述目标图像描述输入所述扩散模型,对所述初始图像进行剩余的n-i次去噪处理,得到所述目标图像。
4.根据权利要求2所述的方法,其特征在于,当i等于n时,所述根据所述目标图像描述和所述初始图像,得到所述目标图像,包括:
对所述初始图像添加m步噪声,得到模糊图像,其中,m为大于或等于1的整数;
将所述目标图像描述输入所述扩散模型,对所述模糊图像进行m次去噪处理,得到所述目标图像。
5.根据权利要求1-4中任意一项所述的方法,其特征在于,所述根据所述第一情感词对所述初始图像描述进行文本增强,得到目标图像描述,包括:
基于第一预设提示词模板、所述初始图像描述以及所述第一情感词,构造与所述初始图像描述对应的目标提示词;
将所述目标提示词本输入语言模型进行文本增强,得到所述目标图像描述。
6.根据权利要求5所述的方法,其特征在于,所述将所述目标提示词本输入语言模型进行文本增强,得到所述目标图像描述,包括:
将所述目标提示词本输入语言模型,得到候选图像描述;
对所述候选图像描述进行情感提取,得到第二情感词;
确定所述第二情感词与所述第一情感词之间的情绪距离;
当所述情绪距离大于阈值时,根据所述情绪距离对所述第一预设提示词模板进行调整,得到第二预设提示词模板;
基于第二预设提示词模板、所述初始图像描述以及所述第一情感词,构造与所述初始图像描述对应的新的目标提示词;
将所述新的目标提示词输入所述语言模型,得到新的候选图像描述,直至新的候选图像描述对应的情绪距离小于所述阈值,将新的候选图像描述作为所述目标图像描述。
7.根据权利要求1-6任一项所述的方法,其特征在于,所述待处理文本为中文文本;所述根据待处理文本确定所述待处理文本对应的初始图像描述,包括:
将所述待处理文本输入到文本生成模型,得到所述初始图像描述。
8.根据权利要求7所述的方法,其特征在于,将所述待处理文本输入到文本生成模型,得到所述初始图像描述之前,所述方法还包括:
获取第一用户生成内容样本,其中,所述第一用户生成内容样本包括中文文本样本和图像样本;
获取与所述图像样本对应的第一英文图像描述;
对所述第一英文图像描述进行分词,得到多个第一英文单词;
对所述中文文本样本进行编码,得到文本特征;
基于所述多个第一英文单词以及所述文本特征进行解码,得到多个第二英文单词;
基于所述多个第一英文单词和所述多个第二英文单词进行模型训练,得到所述文本生成模型。
9.一种图像生成方法,其特征在于,包括:
获取待处理文本;
响应于目标对象的文生图指令,显示与所述待处理文本对应的目标图像,其中,所述目标图像是基于所述待处理文本包括的第一情感词,以及与所述待处理文本对应的初始图像描述确定的;
响应于所述目标对象的发布指令,发布所述待处理文本和/或所述目标图像。
10.一种图像生成装置,其特征在于,所述装置包括:
处理模块,用于根据待处理文本确定所述待处理文本对应的第一情感词和初始图像描述,其中,所述初始图像描述用于描述初始图像的内容;
增强模块,用于根据所述第一情感词对所述初始图像描述进行文本增强,得到目标图像描述,其中,所述目标图像描述用于描述目标图像的内容以及所述第一情感词指示的情感;
生成模块,用于根据所述初始图像描述,得到所述初始图像;根据所述目标图像描述和所述初始图像,得到所述目标图像。
11.一种客户端,其特征在于,包括:处理模块和显示模块;
所述处理模块,用于获取待处理文本;
所述显示模块,用于响应于目标对象的文生图指令,显示与所述待处理文本对应的目标图像,其中,所述目标图像是基于所述待处理文本包括的第一情感词,以及与所述待处理文本对应的初始图像描述确定的;
所述处理模块,用于响应于所述目标对象的发布指令,发布所述待处理文本和/或所述目标图像。
12.一种电子设备,其特征在于,包括处理器、存储器、通信接口以及一个或多个程序,其中,所述一个或多个程序被存储在所述存储器中,并且被配置由所述处理器执行,所述一个或多个程序包括用于执行权利要求1-8任一项所述的方法中的步骤的指令。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现如权利要求1-8任一项所述的方法。
CN202410379830.3A 2024-03-29 2024-03-29 图像生成方法、装置、客户端、电子设备及存储介质 Pending CN118279427A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410379830.3A CN118279427A (zh) 2024-03-29 2024-03-29 图像生成方法、装置、客户端、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410379830.3A CN118279427A (zh) 2024-03-29 2024-03-29 图像生成方法、装置、客户端、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN118279427A true CN118279427A (zh) 2024-07-02

Family

ID=91648284

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410379830.3A Pending CN118279427A (zh) 2024-03-29 2024-03-29 图像生成方法、装置、客户端、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN118279427A (zh)

Similar Documents

Publication Publication Date Title
US11386271B2 (en) Mathematical processing method, apparatus and device for text problem, and storage medium
CN109508400B (zh) 图文摘要生成方法
CN104735468B (zh) 一种基于语义分析将图像合成新视频的方法及系统
CN112100349A (zh) 一种多轮对话方法、装置、电子设备及存储介质
CN111428025B (zh) 文本摘要方法、装置、电子设备和存储介质
JP6677419B2 (ja) 音声対話方法及び装置
CN112463942B (zh) 文本处理方法、装置、电子设备及计算机可读存储介质
CN113536007A (zh) 一种虚拟形象生成方法、装置、设备以及存储介质
CN115797488A (zh) 图像生成方法、装置、电子设备和存储介质
CN110263340A (zh) 评论生成方法、装置、服务器及存储介质
CN112632244A (zh) 一种人机通话的优化方法、装置、计算机设备及存储介质
CN110263218A (zh) 视频描述文本生成方法、装置、设备和介质
CN113204624A (zh) 一种多特征融合的文本情感分析模型及装置
CN116913278B (zh) 语音处理方法、装置、设备和存储介质
CN116486421B (zh) 一种图像翻译模型的训练方法及相关产品
CN117689752A (zh) 文学作品插图生成方法、装置、设备及存储介质
US20230326369A1 (en) Method and apparatus for generating sign language video, computer device, and storage medium
CN117436417A (zh) 演示文稿生成方法、装置、电子设备和存储介质
CN112686059A (zh) 文本翻译方法、装置、电子设备和存储介质
CN114706942B (zh) 文本转换模型训练方法、文本转换方法、装置及电子设备
CN116189663A (zh) 韵律预测模型的训练方法和装置、人机交互方法和装置
CN118279427A (zh) 图像生成方法、装置、客户端、电子设备及存储介质
CN114037946A (zh) 视频分类的方法、装置、电子设备及介质
CN114067362A (zh) 基于神经网络模型的手语识别方法、装置、设备及介质
CN113938739A (zh) 信息显示方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination