CN117170560B - 一种图像变换方法、电子设备和存储介质 - Google Patents
一种图像变换方法、电子设备和存储介质 Download PDFInfo
- Publication number
- CN117170560B CN117170560B CN202311451891.8A CN202311451891A CN117170560B CN 117170560 B CN117170560 B CN 117170560B CN 202311451891 A CN202311451891 A CN 202311451891A CN 117170560 B CN117170560 B CN 117170560B
- Authority
- CN
- China
- Prior art keywords
- image
- electronic device
- text prompt
- user
- wallpaper
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000011426 transformation method Methods 0.000 title claims abstract description 21
- 238000009792 diffusion process Methods 0.000 claims abstract description 122
- 238000000034 method Methods 0.000 claims abstract description 102
- 230000009466 transformation Effects 0.000 claims abstract description 68
- 230000008569 process Effects 0.000 claims abstract description 58
- 230000006870 function Effects 0.000 claims description 92
- 238000006243 chemical reaction Methods 0.000 claims description 79
- 230000015654 memory Effects 0.000 claims description 32
- 238000004590 computer program Methods 0.000 claims description 5
- 239000010410 layer Substances 0.000 description 32
- 238000012545 processing Methods 0.000 description 30
- 230000004044 response Effects 0.000 description 23
- 238000007726 management method Methods 0.000 description 20
- 239000011159 matrix material Substances 0.000 description 20
- 238000004891 communication Methods 0.000 description 19
- 230000008859 change Effects 0.000 description 15
- 230000000694 effects Effects 0.000 description 14
- 239000013598 vector Substances 0.000 description 13
- 230000007246 mechanism Effects 0.000 description 11
- 230000000007 visual effect Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000010295 mobile communication Methods 0.000 description 8
- 238000013461 design Methods 0.000 description 6
- 230000003068 static effect Effects 0.000 description 6
- 238000013473 artificial intelligence Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 238000009877 rendering Methods 0.000 description 4
- 230000001413 cellular effect Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000001965 increasing effect Effects 0.000 description 3
- 229920001621 AMOLED Polymers 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000002096 quantum dot Substances 0.000 description 2
- GRRMZXFOOGQMFA-UHFFFAOYSA-J YoYo-1 Chemical compound [I-].[I-].[I-].[I-].C12=CC=CC=C2C(C=C2N(C3=CC=CC=C3O2)C)=CC=[N+]1CCC[N+](C)(C)CCC[N+](C)(C)CCC[N+](C1=CC=CC=C11)=CC=C1C=C1N(C)C2=CC=CC=C2O1 GRRMZXFOOGQMFA-UHFFFAOYSA-J 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000008485 antagonism Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 210000000988 bone and bone Anatomy 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 239000012792 core layer Substances 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- -1 shadows Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Landscapes
- Processing Or Creating Images (AREA)
Abstract
本申请提供一种图像变换方法、电子设备和存储介质,涉及终端技术领域,能够为图像增加符合当前场景的画面风格,提高用户的使用体验。该方法包括:电子设备响应于用户对第一图像的变换操作,开启针对第一图像的风格变换功能;电子设备获取与第一图像关联的目标噪声图像;电子设备获取当前场景信息和第一图像对应的原始文本提示,并基于当前场景信息和原始文本提示,得到目标文本提示;电子设备使用扩散模型,对目标文本提示和目标噪声图像处理,得到第二图像;扩散模型具备利用噪声图像和文本提示,生成对应文本提示的图像的能力;电子设备使用第二图像替代第一图像。
Description
技术领域
申请涉及终端技术领域,尤其涉及一种图像变换方法、电子设备和存储介质。
背景技术
为了提高用户的视觉体验,手机等用户经常使用的电子设备都会具备壁纸功能。目前,电子设备的壁纸可以分为静态壁纸和动态壁纸。其中,静态壁纸为某张用户选定或设备默认的图片。动态壁纸则可以是按照特定周期循环显示的多张用户选定的图片或设备默认的图片。长时间使用静态壁纸会使得用户产生审美疲劳,降低用户的使用体验。而动态壁纸虽然会产生变化,但是每一次的循环也都是相同的多张照片,长时间的使用也会使用户丧失新鲜感,降低用户的使用体验。
发明内容
本申请实施例提供一种图像变换方法、电子设备和存储介质,能够为图像增加符合当前场景的画面风格,提高用户的使用体验。
为了达到上述目的,本申请实施例采用如下技术方案:
第一方面,本申请实施例提供一种图像变换方法,应用于电子设备。该方法包括:电子设备响应于用户对第一图像的变换操作,开启针对第一图像的风格变换功能;电子设备获取与第一图像关联的目标噪声图像;电子设备获取当前场景信息和第一图像对应的原始文本提示,并基于当前场景信息和原始文本提示,得到目标文本提示;电子设备使用扩散模型,对目标文本提示和目标噪声图像处理,得到第二图像;扩散模型具备利用噪声图像和文本提示,生成对应文本提示的图像的能力;电子设备使用第二图像替代第一图像。
基于本申请实施例提供的技术方案,电子设备可以获取第一图像(例如壁纸)对应的目标噪声图像。之后,电子设备可以基于当前的场景信息(例如日期信息、天气信息等),并得到扩散模型所需要的目标文本指示。最后,电子设备则可以使用扩散模型对该文本指示和目标噪声图像进行处理,得到最终图像并替代原本的第一图像。该最终图像为第一图像增加了符合当前场景的画面风格的图像。这样一来,针对电子设备中的第一图像而言,电子设备可以的根据场景信息来调整第一图像,使得第一图像的画面风格产生符合当前场景的画面风格变化。进而使得用户在查看第一图像的过程中,可有更好的观看体验。在该第一图像为壁纸的情况下,该方案则可以使得电子设备壁纸可以实时根据当前场景的变换,不断的产生画面风格上的变化,提高了壁纸的动态效果,进而提高了用户的使用体验。
在第一方面的一种可能的实现方式中,第一图像包括电子设备的壁纸,电子设备响应于用户对第一图像的变换操作,开启针对第一图像的风格变换功能,包括:电子设备响应于用户在壁纸设置界面中对第一控件实施的开启操作,开启针对壁纸的风格变换功能;其中,用户在壁纸设置界面中对第一控件实施的开启操作为用户对第一图像的变换操作。
基于上述实现方式,电子设备可以顺利开启壁纸的风格变换功能,使得壁纸在后续显示过程中,可以产生符合当前场景的画面风格变化,提高用户的使用体验。
在第一方面的一种可能的实现方式中,第一图像包括电子设备的壁纸,电子设备响应于用户对第一图像的变换操作,开启针对第一图像的风格变换功能,包括:电子设备响应于用户在壁纸设置界面中对第二控件实施的开启操作,在第二控件对应的预设时间段内开启针对壁纸的风格变换功能;其中,用户在壁纸设置界面中对第二控件实施的开启操作为用户对第一图像的变换操作。
基于上述实现方式,电子设备可以在预设时间段内开启壁纸的风格变换功能,使得壁纸在预设时间段内的显示过程中,产生符合当前场景的画面风格变化,进一步提高用户的使用体验。
在第一方面的一种可能的实现方式中,第一图像包括电子设备中非壁纸的已存储图像,电子设备响应于用户对第一图像的变换操作,开启针对第一图像的风格变换功能,包括:电子设备响应于用户对已存储图像的图像编辑界面中第三控件的触发操作,开启针对已存储图像的风格变换功能。
基于上述实现方式,电子设备可以根据用户对已存储图像的编辑需求,开启已存储图像的风格变换功能,使得已存储图像增加符合当前场景的画面风格,提高用户的使用体验。
在第一方面的一种可能的实现方式中,在第一图像为电子设备利用扩散模型生成的图像的情况下,电子设备获取与第一图像关联的目标噪声图像,包括:电子设备在第一图像中增加预设噪声,以获取与第一图像关联的目标噪声图像。
基于上述实现方式,可以在第一图像为利用扩散模型生成图像的情况下,为第一图像增加预设噪声得到目标噪声图像。进而使得后续生成最终图像(相当于第一图像增加了符合当前场景的画面风格后的图像)的流程顺利进行。进一步的,由于目标噪声图像是基于第一图像生成的,所以后续基于目标噪声图像生成的最终图像和第一图像中的主体内容相同,仅画面风格不同。
在第一方面的一种可能的实现方式中,在第一图像不为电子设备利用扩散模型生成的图像的情况下,电子设备获取与第一图像关联的目标噪声图像,包括:电子设备使用预设反转方法对第一图像处理,以得到与第一图像关联的目标噪声图像。
基于上述实现方式,电子设备便可以顺利的得到不由扩散模型生成的第一图像对应的目标噪声图像,进而使得后续生成最终图像(相当于第一图像增加了符合当前场景的画面风格后的第二图像)的流程顺利进行。
在第一方面的一种可能的实现方式中,电子设备获取当前场景信息,包括:电子设备显示信息项选择弹窗;信息项选择弹窗中包括多个信息项的选择控件;多个信息项包括:天气、日期、时间;电子设备响应于用户对信息项选择弹窗中多个信息项的选择控件中目标信息项的选择控件的选择操作,将目标信息项确定为当前场景信息中包括的信息项;电子设备获取当前场景信息中包括的信息项,以得到当前场景信息。
基于上述实现方式,电子设备在接收到用户对第一图像的变换操作后,可以让用户来确定风格变换相关的信息项,从而得到更符合用户需求的当前场景信息。后续基于当前场景信息生成的最终图像也就更符合用户的需求,进一步提高了用户的使用体验。
在第一方面的一种可能的实现方式中,在第一图像为电子设备利用扩散模型生成的图像的情况下,电子设备获取第一图像对应的原始文本提示,包括:电子设备将利用扩散模型生成第一图像时,使用的第一文本提示确定为第一图像对应的原始文本提示。
基于上述实现方式,电子设备便可以在第一图像是利用扩散模型生成的图像的情况下,顺利得到第一图像对应的原始文本提示。
在第一方面的一种可能的实现方式中,在第一图像不为电子设备利用扩散模型生成的图像的情况下,电子设备获取第一图像对应的原始文本提示,包括:电子设备使用预设反转方法对第一图像处理,以得到与第一图像关联的第二文本提示;电子设备将第二文本提示确定为第一图像对应的原始文本提示。
基于上述实现方式,电子设备便可以在第一图像不是利用扩散模型生成的图像的情况下,利用预设反转方法顺利得到第一图像对应的原始文本提示。
在第一方面的一种可能的实现方式中,电子设备基于当前场景信息和原始文本提示,得到目标文本提示,包括:电子设备使用当前场景信息中的第一关键词替换原始文本提示中的第二关键词,以更新原始文本提示;第一关键词和第二关键词的类型相同;电子设备将当前场景信息中的第三关键词加入原始文本提示中,以更新原始文本提示;电子设备将更新完成的原始文本提示,确定为目标文本提示。
基于上述实现方式,因为尽可能的保证了原始文本提示的主要内容不变,仅对原始文本提示中的关键词进行替换或者增加,所以可以保证电子设备使用扩散模型生成的最终图像和第一图像仅存在画面风格的不同(即主体内容相同)。
第二方面,本申请实施例还提供一种图像变换装置,该装置可以应用于电子设备。该装置的功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块,例如,处理模块和获取模块。
其中,处理模块,用于响应于用户对第一图像的变换操作,开启针对第一图像的风格变换功能;获取模块,用于获取与第一图像关联的目标噪声图像;获取模块还用于获取当前场景信息和第一图像对应的原始文本提示,并基于当前场景信息和原始文本提示,得到目标文本提示;处理模块还用于使用扩散模型,对获取模块获取的目标文本提示和目标噪声图像处理,得到第二图像;扩散模型具备利用噪声图像和文本提示,生成对应文本提示的图像的能力;处理模块还用于使用第二图像替代第一图像。
第三方面,本申请提供一种电子设备,该电子设备包括显示屏、存储器和一个或多个处理器;显示屏、存储器与处理器耦合;其中,存储器中存储有计算机程序代码,计算机程序代码包括计算机指令,当计算机指令被处理器执行时,使得电子设备执行如第一方面及其任一种可能的设计方式提供的图像变换方法。
第四方面,本申请提供一种计算机可读存储介质,该计算机可读存储介质包括计算机指令,当所述计算机指令在电子设备上运行时,使得电子设备执行如第一方面及其任一种可能的设计方式提供的图像变换方法。
第五方面,本申请提供一种计算机程序产品,当计算机程序产品在电子设备上运行时,使得电子设备执行如第一方面及其任一种可能的设计方式提供的图像变换方法。
可以理解地,上述提供的第二方面至第五方面提供的技术方案所能达到的有益效果,可参考第一方面及其任一种可能的设计方式中的有益效果,此处不再赘述。
附图说明
图1为本申请实施例提供的扩散模型的工作示意图;
图2为本申请实施例提供的一种交叉注意力机制的工作示意图;
图3为本申请实施例提供的一种交叉注意力机制中编辑注意力图的远离示意图;
图4为本申请实施例提供的一种手机桌面的示意图;
图5为本申请实施例提供的一种电子设备的结构示意图;
图6为本申请实施例提供的一种电子设备的软件架构示意图;
图7为本申请实施例提供的一种图像变换方法的流程示意图;
图8为本申请实施例提供的一种开启风格变换功能的场景示意图;
图9为本申请实施例提供的另一种开启风格变换功能的场景示意图;
图10为本申请实施例提供的又一种开启风格变换功能的场景示意图;
图11为本申请实施例提供的一种获取目标噪声图像的场景示意图;
图12为本申请实施例提供的另一种图像变换方法的流程示意图;
图13为本申请实施例提供的又一种图像变换方法的流程示意图;
图14为本申请实施例提供的另一种获取目标噪声图像的场景示意图;
图15为本申请实施例提供的一种选择信息项的场景示意图;
图16为本申请实施例提供的一种利用扩散模型得到最终图像的场景示意图;
图17为本申请实施例提供的一种图像变换方法执行后的效果示意图;
图18为本申请实施例提供的一种图像变换装置的结构示意图。
具体实施方式
本申请以下实施例中所使用的术语只是为了描述特定实施例的目的,而并非旨在作为对本申请的限制。如在本申请的说明书和所附权利要求书中所使用的那样,单数表达形式“一个”、“一种”、“所述”、“上述”、“该”和“这一”旨在也包括复数表达形式,除非其上下文中明确地有相反指示。还应当理解,“/”表示或的意思,例如,A/B可以表示A或B;文本中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本申请所描述的实施例可以与其它实施例相结合。
本申请以下实施例中的术语“第一”、“第二”仅用于描述目的,而不能理解为暗示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征,在本申请实施例的描述中,除非另有说明,“多个”的含义是两个或两个以上。
首先,对本申请实施例中涉及名词进行如下说明:
人工智能生成内容(artificial intelligence generated content,AIGC):是一种基于人工智能技术生成内容的方法。它利用人工智能模型,根据给定的主题、关键词、格式、风格等条件,自动生成各种类型的文本、图像、音频、视频等内容。在图像生成领域,AIGC技术则具体可以是采用扩散模型,基于用户给定的指令prompt,生成与prompt对应的图像。
扩散模型(diffusion model):扩散模型是一种用于描述系统中扩散过程的数学模型,可以用于描述分子之间的扩散运动,或者社会学中信息、想法或行为在人群之间的传播。在物理学中气体分子从高浓度区域扩散到低浓度区域,这与由于噪声的干扰而导致的信息丢失是相似的。因此,在具体的图像生成领域中,扩散模型可以通过学习由于噪声引起的信息衰减,然后使用学习到的模式来生成图像。
在一种可能的实现方式中,参照图1所示,扩散模型可以基于外界输入的指令prompt(或称为文本提示),将预设或者随机生成的噪声图像101,逐步处理(每一步的处理都可以包括去噪和生成图像)得到和该指令对应的最终图像102。
其中,外界输入的指令可以是由多个关键词组成的词语组合或者短语/句,例如:一个长满树的高山。
随机生成的噪声图像则可以是该扩散模型对任意图像多次增加任意可能类型的噪声(例如高斯噪声)得到的。其中,噪声类型可以是该看扩散模型在训练过程中确定好的,后续任意时候使用该扩散模型时,涉及到图像中的噪声类型应当一致,以保证该扩散模型在使用时可以顺利使用学习到的该种噪声引起的信息丢失效果,对图像进行处理。
在扩散模型中,基于prompt对图像生成过程中产生的待定图像进行调整是扩散模型生成最终图像的关键过程。为了更好的生成得到用户需求的与prompt对应的最终图像,这个关键过程在扩散模型中可以存在多个。在一些可能的实现方式中,这个关键过程可以通过交叉注意力(cross attention)机制完成的。在扩散模型中,这个交叉注意力机制常常用于在生成循环(逐步生成输出内容)中的每一步,将 prompt 的信息与当前的生成内容进行关联。具体来说,cross attention 可以帮助扩散模型在生成过程中关注与 prompt 相关的内容,并利用 prompt 中的语义信息来指导和限制生成的范围。在每一步生成(生成循环中的一次生成流程)时,扩散模型可以将注意力集中在与 prompt 相关的词语、句子或其他关键信息上,以便更好地遵循 prompt 的要求并生成相应的内容。
示例性的,参照图2所示,cross attention机制的实现过程中,首先,待定图像(例如可以是噪声图像)的深层特征(即像素特征pixel feature)ϕ(zt)映射(具体可以是通过编码器对特征进行提取、变化或调整)到查询(query,Q)矩阵(pixel queries)中。prompt中的各个关键词则可以通过词向量转换映射到键(key,K)矩阵(由来自指令(from prompt)的tokens keys构成)和值(value,V)矩阵(由来自指令(from prompt)的tokens values构成)中。prompt中的各个关键词转换为键矩阵和值矩阵可以是线性投影变换,该线性投影变换的则可以是扩散模型在训练阶段学习/训练得到的。
其中,Q矩阵具体用于表征待定图像的文本语义,K矩阵主要用于表征由prompt得到的最终图像的关键特征或者重要特征,V矩阵主要用于表征由prompt得到的最终图像(即用户需要输出的图像)的完整特征。K矩阵和V矩阵中存在多个词向量,数量则和prompt中包含的关键词个数一致。
具体实现时,Q矩阵和K矩阵通过叉乘(即Q×K)可以得到多个相似度矩阵Mt。每个相似度矩阵Mt中则可以标识Q矩阵中每个元素和K矩阵中对应元素之间的相似程度。该Mt矩阵也被称为attention maps,Mt矩阵的数量与prompt中关键词数量一致。这个过程也可以看作是对输入文本(prompt)中的每个词(token)赋予一个权重。
之后,通过将多个相似度矩阵Mt与V矩阵叉乘,则可以得到本次cross attention机制的输出:待定图像通过prompt指导后的输出图像的特征组合,即。这个过程中,Value矩阵中的每个元素代表了由prompt得到的最终图像的一个像素或一个特征通道,通过将相似度矩阵Mt中的对应元素与Value矩阵中的对应元素相乘,可以让模型更加关注与文本语义信息相关的图像视觉信息,从而指导模型生成符合文本语义的图像。
通过上述实现方式,cross attention机制可以使得文本语义信息与图像视觉信息在解码阶段进行有效的交互和融合,从而帮助模型更好地理解文本语义信息(即prompt中的文本信息)在图像特征中的表达方式,并生成符合文本语义的图像。
可以看出,在cross attention机制中,相似度矩阵对输出图像的特征起到关键性的作用,基于此,在需要调整或编辑扩散模型生成的图像时,可以通过对注意力图attention maps编辑实现。具体的,根据编辑需求的不同,可分为局部编辑(替换一个单词)和全局编剧(添加一个表述)。
其中,局部编辑可以如3中(a)所示的,利用新prompt相比于旧prompt而言不同的关键词(可以是类型相同,内容不同的两个词)对应的Mt*将对应的Mt进行替换,从而实现局部编辑的需求,使得扩散模型生成的最终图像中,该局部编辑对应的部分产改变。当然,局部编辑的具体实现可以是利用扩散模型对新prompt,以及基于旧prompt对应的最终图像得到的噪声图像,进行运算处理实现的。在扩散模型运行过程中,便会实现cross attention机制中Mt*替换Mt的目的。
全局编辑可以如图3中(b)所示的,将新prompt相比于旧prompt而言新增的关键词对应的Mt*添加进旧prompt对应的Mt中得到M't,从而实现全局编辑的需求,使得扩散模型生成的最终图像中,出现全局编辑对应的内容。当然,局部编辑的具体实现可以是利用扩散模型对新prompt,以及基于旧prompt对应的最终图像得到的噪声图像,进行运算处理实现的。在扩散模型运行过程中,便会实现cross attention机制中Mt*添加进Mt中的目的。
空文本反转(null-text inversion):null-text inversion 是一种用于将给定的图像转换为噪声图和相应的 prompt 文本的方法。在一种可能的实现方式中,该方法的具体过程可以包括:(1)图像编码:将给定的图像通过一个图像编码模型进行编码,将其转换为对应的图像向量表示。这个图像向量表示通常是一个低维度的特征向量,捕捉了图像的主要信息。(2)噪声图生成:从某种分布(如高斯分布或均匀分布)中采样得到一个噪声向量,它的维度与图像向量表示相同。这个噪声向量没有明确的结构或语义,是一个随机向量。(3)图像解码:将噪声向量和图像向量表示作为输入,通过一个图像解码模型进行解码。图像解码模型将噪声向量和图像向量表示映射回图像空间,生成一个噪声图像。(4)Prompt生成:根据生成的噪声图像,使用一些规则或启发式方法生成相应的 prompt 文本。这个prompt 文本应该能够有效地描述给定图像中的特定视觉特征。
画面风格:画面风格是指图像中色彩、光影、构图等组成的画面特征。实际中画面风格可以是由特效、贴图等任意可行的对图像的编辑内容组成。
其中,图像编码和图像解码采用的模型可以是各种任意可行的深度学习架构,如卷积神经网络 (convolutional neural networks,CNN) 或生成对抗网络 (generativeadversarial network,GAN)。prompt 生成可以基于先验知识、数据集中的注释信息或基于其他规则进行。
在现有技术中,电子设备的壁纸可以分为静态壁纸和动态壁纸。其中,静态壁纸为某张用户选定或设备默认的图片。动态壁纸则可以是按照特定周期循环显示的多张用户选定的图片或设备默认的图片。
以电子设备手机,壁纸为桌面壁纸为例,参照图4所示,手机的桌面可以包括桌面壁纸41、在桌面壁纸41上显示的应用程序的图标42等。
在桌面壁纸41为静态壁纸的情况下,桌面壁纸41的具体内容在用户使用手机的过程中会固定不变。用户一旦长时间使用手机,将会反复的看到相同的桌面壁纸41,极易使用户产生审美疲劳,降低用户的使用体验。
在桌面壁纸41为动态壁纸的情况下,桌面壁纸41中可以是多张图片内容的周期性显示。这样,虽然可以带给用户一定的动态效果,但是,动态壁纸每一次的循环也都是相同的多张照片,长时间的使用也会使用户丧失新鲜感,降低用户的使用体验。
针对上述问题,基于AIGC技术中的扩散模型,本申请实施例提供一种图像变换方法,应用于电子设备中。在该技术方案中,电子设备可以获取第一图像(例如壁纸)对应的目标噪声图像。之后,电子设备可以基于当前的场景信息(例如日期信息、天气信息等),并得到扩散模型所需要的文本指示。最后,电子设备则可以使用扩散模型对该文本指示和目标噪声图像进行处理,得到最终图像。该最终图像为第一图像增加了特定画面风格的图像。
这样一来,针对电子设备中的第一图像而言,电子设备可以实时的根据场景信息来调整第一图像,使得第一图像的画面风格产生符合当前场景的变化,即使第一图像产生了符合场景变换的画面风格,使得用户在查看第一图像的过程中,可有更好的观看体验。在该第一图像为壁纸的情况下,该方案则可以使得电子设备壁纸可以根据当前场景的变换,不断的产生画面风格上的变化,提高了壁纸的动态效果,进而提高了用户的使用体验。
下面结合附图对本申请实施例提供的技术方案进行详细表述。
本申请提供的技术方案可以应用在具备图像显示功能的电子设备中。在一些实施例中,该电子设备可以是手机、平板电脑、手持计算机、个人计算机(personal computer,PC),超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本,以及蜂窝电话、个人数字助理(personal digital assistant,PDA)、增强现实(augmented reality,AR)设备、虚拟现实(virtual reality,VR)设备、人工智能(artificial intelligence,AI)设备、可穿戴式设备、车载设备、智能家居设备和/或智慧城市设备等电子设备,本申请实施例对该电子设备的具体类型不作特殊限制。
示例性的,以电子设备是手机为例,图5示出了本申请实施例提供的一种电子设备的结构示意图。
参照图5所示,电子设备可以包括处理器110,外部存储器接口120,内部存储器121,通用串行总线(universal serial bus,USB)接口130,充电管理模块140,电源管理模块141,电池142,天线1,天线2,移动通信模块150,无线通信模块160,音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,传感器模块180,按键190,马达191,指示器192,显示屏193,用户标识模块(subscriber identification module,SIM)卡接口194,以及摄像头195等。其中,传感器模块180可以包括压力传感器,陀螺仪传感器,气压传感器,磁传感器,加速度传感器,距离传感器,接近光传感器,指纹传感器,温度传感器,触摸传感器,环境光传感器,骨传导传感器等。
处理器110可以包括一个或多个处理单元,例如:处理器110可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphics processingunit,GPU),图像信号处理器(image signal processor,ISP),控制器,存储器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(neural-network processing unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。
控制器可以是电子设备的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。
处理器110中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据,可从所述存储器中直接调用。避免了重复存取,减少了处理器110的等待时间,因而提高了系统的效率。
在一些实施例中,处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit,I2C)接口,集成电路内置音频(inter-integrated circuitsound,I2S)接口,脉冲编码调制(pulse code modulation,PCM)接口,通用异步收发传输器(universal asynchronous receiver/transmitter,UART)接口,移动产业处理器接口(mobile industry processor interface,MIPI),通用输入输出(general-purposeinput/output,GPIO)接口,用户标识模块(subscriber identity module,SIM)接口,和/或通用串行总线(universal serial bus,USB)接口等。
充电管理模块140用于从供电设备(例如充电器、笔记本电能等)接收充电输入。其中,充电器可以是无线充电器,也可以是有线充电器。在一些有线充电的实施例中,充电管理模块140可以通过USB接口130接收有线充电器的充电输入。在一些无线充电的实施例中,充电管理模块140可以通过电子设备的无线充电线圈接收无线充电输入。
充电管理模块140为电池142充电的同时,还可以通过电源管理模块141为电子设备供电。其中,电池142具体可以为多个电池串联组成。电源管理模块141用于连接电池142、充电管理模块140与处理器110。
电源管理模块141用于连接电池142,充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入,为处理器110,内部存储器121,显示屏193,摄像头195,和无线通信模块160等供电。电源管理模块141还可以用于监测电池的电压、电流、电池循环次数、电池健康状态(漏电,阻抗)等参数。在其他一些实施例中,电源管理模块141也可以设置于处理器110中。
外部存储器接口120可以用于连接外部的非易失性存储器,实现扩展电子设备的存储能力。外部的非易失性存储器通过外部存储器接口120与处理器110通信,实现数据存储功能。例如将音乐,视频等文件保存在外部的非易失性存储器中。
内部存储器121可以包括一个或多个随机存取存储器(random access memory,RAM )和一个或多个非易失性存储器(non-volatile memory, NVM)。随机存取存储器可以由处理器110直接进行读写,可以用于存储操作系统或其他正在运行中的程序的可执行程序(例如机器指令),还可以用于存储用户及应用程序的数据等。非易失性存储器也可以存储可执行程序和存储用户及应用程序的数据等,可以提前加载到随机存取存储器中,用于处理器110直接进行读写。在本申请实施例中,内部存储器121中可以存储有扩散模型。内部存储器121还可以存储有能够将图像转换为噪声图像和文本标识的相关模型,或者还可以存储有多个图像对应的噪声图像以及文本标识。
触摸传感器,也称“触控器件”。触摸传感器可以设置于显示屏193,由触摸传感器与显示屏193组成触摸屏,也称“触控屏”。触摸传感器用于监测作用于其上或附近的触摸操作。触摸传感器可以将监测到的触摸操作传递给应用处理器,以确定触摸事件类型。可以通过显示屏193提供与触摸操作相关的视觉输出。在另一些实施例中,触摸传感器也可以设置于电子设备的表面,与显示屏193所处的位置不同。
压力传感器用于感受压力信号,可以将压力信号转换成电信号。在一些实施例中,压力传感器可以设置于显示屏193。压力传感器的种类很多,如电阻式压力传感器,电感式压力传感器,电容式压力传感器等。当有触摸操作作用于显示屏193,电子设备根据压力传感器监测所述触摸操作强度。电子设备也可以根据压力传感器的监测信号计算触摸的位置。在一些实施例中,作用于相同触摸位置,但不同触摸操作强度的触摸操作,可以对应不同的操作指令。例如:当有触摸操作强度小于第一压力阈值的触摸操作作用于短消息应用图标时,执行查看短消息的指令。当有触摸操作强度大于或等于第一压力阈值的触摸操作作用于短消息应用图标时,执行新建短消息的指令。
在一些实施例中,电子设备可以包括1个或N个摄像头195,N为大于1的正整数。在本申请实施例中,摄像头195的类型可以根据硬件配置以及物理位置进行区分。例如,设置在电子设备的显示屏193那一面的摄像头可以称为前置摄像头,设置在电子设备的后盖那一面的摄像头可以称为后置摄像头;又例如,焦距短、视越大的摄像头可以称为广角摄像头,焦距长、视角小的摄像头可以称为普通摄像头。其中,焦距的长短、视角的大小为相对概念,并无具体的参数限定,因此广角摄像头和普通摄像头也是一个相对概念,具体可以根据焦距、视角等物理参数进行区分。
电子设备通过GPU,显示屏193,以及应用处理器等实现显示功能。GPU为图像编辑的微处理器,连接显示屏193和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。处理器110可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。
电子设备可以通过ISP,摄像头195,视频编解码器,GPU,显示屏193以及应用处理器等实现拍摄功能。GPU用于执行数学和几何计算,用于图形渲染。处理器110可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。本申请实施例中,每个图像帧的帧绘制过程中,都会使用的GPU的功能,以使得最终显示的画面获得更好的显示效果和性能表现。
ISP用于处理摄像头195反馈的数据。例如,拍照时,打开快门,光线通过镜头被传递到摄像头感光元件上,光信号转换为电信号,摄像头感光元件将所述电信号传递给ISP处理,转化为肉眼可见的图像。ISP还可以对图像的噪点,亮度进行算法优化。ISP还可以对拍摄场景的曝光,色温等参数优化。在一些实施例中,ISP可以设置在摄像头195中。摄像头195用于捕获静态图像或视频。
数字信号处理器用于处理数字信号,除了可以处理数字图像信号,还可以处理其他数字信号。例如,当电子设备在频点选择时,数字信号处理器用于对频点能量进行傅里叶变换等。
显示屏193用于显示图像,视频等。显示屏193包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display,LCD),有机发光二极管(organic light-emittingdiode,OLED),有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode,AMOLED),柔性发光二极管(flex light-emittingdiode,FLED),Miniled,MicroLed,Micro-oLed,量子点发光二极管(quantum dot lightemitting diodes,QLED)等。在一些实施例中,电子设备可以包括1个或N个显示屏193,N为大于1的正整数。
本申请实施例中,显示屏193可用于显示电子设备的界面(例如,桌面、锁屏界面等),并在该界面中显示来自电子设备中存储的图像(例如壁纸、照片等),或者任一个或多个摄像头195拍摄的图像。
电子设备的无线通信功能可以通过天线1,天线2,移动通信模块150,无线通信模块160,调制解调器以及基带处理器等实现。
天线1和天线2用于发射和接收电磁波信号。电子设备中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用,以提高天线的利用率。
移动通信模块150可以提供应用在电子设备上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以由天线1接收电磁波,并对接收的电磁波进行滤波,放大等处理,传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大,经天线1转为电磁波辐射出去。在一些实施例中,移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中,移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。
调制解调处理器可以包括调制器和解调器。其中,调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后,被传递给应用处理器。应用处理器通过音频设备(不限于扬声器170A,受话器170B等)输出声音信号,或通过显示屏193显示图像或视频。在一些实施例中,调制解调处理器可以是独立的器件。在另一些实施例中,调制解调处理器可以独立于处理器110,与移动通信模块150或者其他功能模块设置在同一个器件中。
无线通信模块160可以提供应用在电子设备上的包括无线局域网(wirelesslocal area networks,WLAN)(如无线保真(wireless fidelity,Wi-Fi)网络),蓝牙(bltooth,BT),全球导航卫星系统(global navigation satellite system,GNSS),调频(frequency modulation,FM),近距离无线通信技术(near field communication,NFC),红外技术(infrared,IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波,将电磁波信号调频以及滤波处理,将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号,对其进行调频,放大,经天线2转为电磁波辐射出去。
SIM卡接口194用于连接SIM卡。SIM卡可以通过插入SIM卡接口194,或从SIM卡接口194拔出,实现和电子设备的接触和分离。电子设备可以支持一个或多个SIM卡接口。SIM卡接口194可以支持Nano SIM卡,Micro SIM卡,SIM卡等。同一个SIM卡接口194可以同时插入多张卡。SIM卡接口194也可以兼容外部存储卡。电子设备通过SIM卡和网络交互,实现通话以及数据通信等功能。一个SIM卡对应一个用户号码。
可以理解的是,本发明实施例示意的各模块间的接口连接关系,只是示意性说明,并不构成对电子设备的结构限定。在本申请另一些实施例中,电子设备也可以采用上述实施例中不同的接口连接方式,或多种接口连接方式的组合。
当然,可以理解的,上述图5所示仅仅为电子设备的形态为手机时的示例性说明。若电子设备是平板电脑,手持计算机,PC,PDA,可穿戴式设备(如:智能手表、智能手环)等其他设备形态时,电子设备的结构中可以包括比图5中所示更少的结构,也可以包括比图5中所示更多的结构,在此不作限制。
可以理解的是,一般而言,电子设备功能的实现除了需要硬件的支持外,还需要软件的配合。电子设备的软件系统可以采用分层架构,事件驱动架构,微核架构,微服务架构,或云架构。本申请实施例以分层架构的Android®系统为例,示例性说明电子设备的软件结构。
图6为本申请实施例提供的电子设备的软件系统的分层架构示意图。分层架构将软件分成若干个层,每一层都有清晰的角色和分工。层与层之间通过软件接口(例如API)通信。
在一些示例中,参照图6所示,在本申请实施例中,将电子设备的软件分为五层,从上至下分别为应用程序层,框架层(或称为应用程序框架层),系统库和安卓运行时(android runtime),HAL层(hardware abstraction layer,硬件抽象层)以及驱动层(或称为内核层)。其中,系统库和安卓运行时还可以称为本地框架层或者native层。
其中,应用程序层可以包括一系列的应用程序。如图6所示,应用程序层可以包括相机、图库、日历、地图、WLAN、蓝牙、音乐、视频、短信息、通话、导航、即时通讯、壁纸等应用程序(application,APP)。
在本申请实施例中,应用程序层还可以包括图像变换应用。图像变换应用可以基于用户对某个图像(例如第一图像)的变换操作,结合当前场景的场景信息和该图像对应的噪声图像,将该图像的画面风格进行编辑/改变,使得该图像增加对应场景的画面风格。
在一些实施例中,该图像变换应用可以为壁纸应用。
框架层为应用程序层的应用程序提供应用编程接口(application programminginterface,API)和编程框架。应用程序框架层包括一些预先定义的函数或服务。例如,应用程序框架层可以包括活动管理器、窗口管理器、内容提供器、音频服务、视图系统、电话管理器、资源管理器、通知管理器、包管理器等,本申请实施例对此不做任何限制。
窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小,判断是否有状态栏,锁定屏幕,截取屏幕等。
内容提供器用来存放和获取数据,并使这些数据可以被应用程序访问。这些数据可以包括视频,图像,音频,拨打和接听的电话,浏览历史和书签,电话簿等。
视图系统包括可视控件,例如显示文字的控件,显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如,包括短信通知图标的显示界面,可以包括显示文字的视图以及显示图片的视图。在一些实施例中,视图系统中还可以包括或启动渲染线程,以完成绘制帧缓冲等操作。
电话管理器用于提供电子设备的通信功能。例如,电话管理器可以管理通话应用的通话状态 (包括发起,接通,挂断等)。
资源管理器为应用程序提供各种资源,比如本地化字符串,图标,图片,布局文件,视频文件等等。
通知管理器使应用程序可以在状态栏中显示通知信息,可以用于传达告知类型的消息,可以短暂停留后自动消失,无需用户交互。比如通知管理器被用于告知下载完成,消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知,例如后台运行的应用程序的通知,还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息,发出提示音,电子设备振动,指示灯闪烁等。
包管理器在安卓®系统中是用于管理应用程序包的。它允许应用程序获取关于已安装应用和它们的服务、权限等的详细信息。包管理器还用于管理应用程序的安装、卸载和升级等事件。
在本申请实施例中,框架层中还可以包括有具备前述图像变换应用的功能的图像变换服务。在应用程序层中不存在该图像变换应用或者该图像变换应用无法使用或者用户需要改变画面风格的图像无法被图像变换应用操作的情况下,该图像变化服务则针对相应的图像实施与图像变换应用相同的动作,以使相应的图像产生与场景匹配的画面风格变化。
系统库可以包括多个功能模块。例如:表面管理器(surface manager) ,媒体库(Media Libraries),OpenGL ES,SGL等。表面管理器用于对显示子系统进行管理,并且为多个应用程序提供了2D和3D图层的融合。媒体库支持多种常用的音频,视频格式回放和录制,以及静态图像文件等。媒体库可以支持多种音视频编码格式,例如:MPEG4,H.264,MP3,AAC,AMR,JPG,PNG等。OpenGL ES用于实现三维图形绘图,图像渲染,合成,和图层处理等。SGL是2D绘图的绘图引擎。安卓运行时(android runtime)包括核心库和ART虚拟机。androidruntime负责安卓系统的调度和管理。核心库包含两部分:一部分是java语言需要调用的功能函数,另一部分是安卓的核心库。应用程序层和应用程序框架层运行在ART虚拟机中。ART虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。ART虚拟机用于执行对象生命周期的管理,堆栈管理,线程管理,安全和异常的管理,以及垃圾回收等功能。
HAL层是位于操作系统内核与硬件电路之间的接口层,其目的在于将硬件抽象化。它隐藏了特定平台的硬件接口细节,为操作系统提供虚拟硬件平台,使其具有硬件无关性,可在多种平台上进行移植。HAL层提供标准界面,向更高级别的 Java API 框架(即框架层)显示设备硬件功能。HAL 层包含多个库模块,其中每个模块都为特定类型的硬件组件实现一个界面,例如:audio HAL音频模块,bluetooth HAL蓝牙模块,camera HAL相机模块(还可称为相机HAL或相机硬件抽象模块),sensors HAL传感器模块(或称为Isensor service,传感器服务)。
内核层是硬件和软件之间的层。内核层至少包含显示驱动,摄像头驱动,音频驱动,传感器驱动、电池驱动等,本申请不做限定。其中,传感器驱动具体可以包括电子设备包含的每个传感器的驱动,例如环境光传感器驱动等。示例性的,环境光传感器驱动可以响应于传感器模块获取检测数据的指示或指令,将环境光传感器的检测数据及时的发送给传感模块。
本申请实施例中提供的技术方案均可以在具有上述硬件架构或者软件架构的电子设备中实现。
以下结合图7所示,对本申请实施例提供的图像变换进行介绍。图7为本申请实施例提供的一种图像变换方法的流程示意图。参照图7所示,以电子设备为手机为例,该图像变换方法可以包括S701-S706:
S701、手机接收用户对第一图像的变换操作。
在用户需要让手机对第一图像增加符合当前场景的画面风格时,用户可以对第一图像实施变换操作,以使的手机响应于该变换操作,开启针对第一图像的变换功能。在手机开启针对第一图像的变换功能的情况下,手机可以对第一图像增加符合当前场景的动态变换效果。其中,变换操作可以是能够开启针对第一图像的动态变换功能的任意交互操作,例如触摸操作、语音指令操作等。在开启了针对第一图像的动态变换功能的情况下,手机则会对第一图像增加符合场景的画面风格,使第一图像产生符合场景的动态变换效果。即执行后续的S702-S706。
S702、手机响应于用户对第一图像的变换操作,开启针对第一图像的风格变换功能。
在手机接收到用户对第一图像的变换操作后,则可以响应于该变换操作开启针对第一图像的风格变换功能。也就是说,手机可以接收并响应于用户对第一图像的变换操作,开始对第一图像增加符合当前场景的画面风格。
在本申请实施例中,变换操作根据不同应用场景下第一图像的不同,可以存在多种可能的具体操作形式。以下以几种可能的应用场景为例,对变换操作的具体实现形式进行介绍:
在第一种应用场景中,用户的需求可以是使壁纸在显示过程中产生画面风格变换效果,从而提高在使用手机过程中的观感,提高用户自身的使用体验。此时,第一图像可以包括手机的壁纸。
在一些实施例中,在该第一种应用场景中,变换操作可以是用户在壁纸设置界面中对壁纸的风格变换功能控件的开启操作。该风格变换功能控件用于触发手机开启壁纸的风格变换功能。
示例性的,用户在需要开启壁纸的风格变换功能的情况下,可以首先采用任意可行的触发操作打开壁纸设置界面。响应于该触发操作,手机可以显示如图8中(a)所示的壁纸设置界面801。壁纸设置界面801中则包括有“立即开启”字样对应的第一控件802和/或包括有“定时开启”字样对应的第二控件803。该第一控件和第二控件即为壁纸的风格变换功能控件。一般的,手机可以默认关闭壁纸的风格变换功能,即如8中(a)所示,第一控件802和第二控件803中的滑块默认处于左侧。
在一种可能的实现方式中,用户如果需要使得壁纸不断产生符合当前场景的画面风格变换,则用户可以实施针对第一控件802的开启操作(例如点击操作)。手机响应于用户对第一控件802的开启操作,可以开启针对壁纸的风格变换功能。同时,如图8中(b)所示,壁纸设置界面801中,第一控件802中的滑块可以移动至右侧,且第一控件802的左侧区域变换为预定颜色(例如蓝色)。这种情况下,用户对第一图像的变换操作即为用户对壁纸设置界面801中第一控件802实施的开启操作。该开启操作具体为可以将第一控件802中的滑块从左侧移动至右侧的任意可行操作,例如点击操作。
在这种实现方式中,用户对第一控件802实施的开启操作,可以使得手机一直开启壁纸的风格变换功能,即循环不断的执行后续S703-S706,使得手机的壁纸不断产生符合场景的风格变换效果。
在另一种可能的实现方式中,用户如果需要使得壁纸在预定的时间段产生符合场景的画面风格变换,则用户可以实施针对第二控件803的开启操作(例如点击操作)。手机响应于用户对第二控件803的开启操作,可以在第二控件803对应的时间段内(例如图8中(c)中所示的“工作日 06:00-21:00”)开启针对壁纸的风格变换功能。同时,如图8中(c)所示,壁纸设置界面801中,第二控件803中的滑块可以移动至右侧,且第一控件804的左侧区域变换为预定颜色(例如蓝色)。这种情况下,用户对第一图像的变换操作即为用户对壁纸设置界面801中第二控件803实施的开启操作。该开启操作具体为可以将第二控件803中的滑块从左侧移动至右侧的任意可行操作,例如点击操作。
此外,手机还可以接收用于对图8中(c)所示的“定时开启”字样所在区域的点击操作,显示时间段设置界面,以使用户设置第二控件803对应的时间段,即设置开启壁纸的风格变换功能的时间段。
在这种实现方式中,用户对第二控件803实施的开启操作,可以使得手机在特定时间段内开启壁纸的风格变换功能,即在特定时间段内执行后续S703-S706,使得手机的壁纸在特定时间段内产生符合场景的画面风格变换。
当然,后续如果用户不再需要壁纸产生符合场景的风格变换,为了使得用户可以随时关闭壁纸的风格变换功能,该第一控件802和第二控件803还用于触发手机关闭壁纸的风格变换功能。在手机关闭壁纸的风格变换功能后,手机的壁纸则可以固定显示原始内容或者固定显示最新一次变化了画面风格的内容。
例如,若用户对第一控件实施开启操作后,手机显示如图8中(b)所示的壁纸设置界面801。之后用户若需要关闭壁纸的风格变换功能,则可以针对第一控件802实施关闭操作(例如点击操作)。手机响应于该关闭操作,则可以将壁纸的风格变换功能关闭。此时,手机则显示显示的壁纸设置界面则如图8中(a)所示。用户针对第一控件802的关闭操作具体为可以将第一控件802中的滑块从右侧移动至左侧的任意可行操作,例如点击操作。
又例如,若用户对第一控件实施开启操作后,手机显示如图8中(c)所示的壁纸设置界面801。只有用户若需要关闭壁纸的风格变换功能,则可以针对第二控件804实施关闭操作(例如点击操作)。手机响应于该关闭操作,则可以将壁纸的风格变换功能关闭。此时,手机则显示显示的壁纸设置界面则如图8中(a)所示。用户针对第二控件803的关闭操作具体为可以将第二控件803中的滑块从右侧移动至左侧的任意可行操作,例如点击操作。
需要说明的是,在本申请实施例中,壁纸设置界面可以是手机的任意界面,只要保证该界面中存在前述类似第一控件和/或第二控件的控件即可。此外,若壁纸为多帧组成的短视频啊或动态壁纸,则上述第一图像可以为壁纸包括的每帧图像。
在另一些实施例中,该第一种应用场景中,变换操作还可以是用户对手机输入的语音指令。该语音指令则用于指示手机开启对壁纸的风格变换功能。
具体的,参照图9中(a)所示,手机可以首先利用自身的麦克风接收用户说出的智能助手唤醒指令,例如“你好,YOYO”。然后,手机响应于该智能助手唤醒指令,可以显示如图9中(b)所示的智能助手界面。
再然后,参照图9中(c)所示,手机的智能助手便会调用手机本身的麦克风获取并识别用户接下来的语音指令,例如“开启壁纸的风格变换功能”,并在智能助手界面上显示。最后,参照图9中(d)所示,手机响应于用户的语音指令“开启壁纸的风格变换功能”,可以在智能助手界面显示用于指示壁纸的风格变换功能的开启结果的弹窗901。该弹窗中可以包括“免打扰”字样,以及对应的选项控件X,该选项控件中的滑块则置于右侧用于表明免打扰模式已被开启。
当然,实际中语音助手的唤醒指令可以根据不同手机的设计而定,用户输入/说出的语音指令也可以是任意可以表明开启壁纸的风格变换功能的语音指令。当然,如果用户需要在固定时段(例如每天9:00-10:00)开启壁纸的风格变换功能。在一种可能的实现方式中,将上述的“开启壁纸的风格变换功能”则可以改变为“在工作日的七点到二十一点之间开启壁纸的风格变换功能”即可;在另一种实现方式中,手机则可以响应于用户对弹窗901中“更多设置”的点击,显示如图8中(b)所示的界面,而后手机便可以响应于用户对其中第二控件803的相关操作,设置免打扰模式开启的时段。
当然,实际中还存在其他任意可行的开启壁纸的风格变换功能的变换操作,上述仅为示例,不作为对本申请实施例的具体限制。
在第二种应用场景中,用户的需求可以是为手机中非壁纸的某个已有/已存储的图像增加符合当前场景的画面风格。此时,第一图像可以为手机中的某个已存储图像。
在一些实施例中,该第二种应用场景中,变换操作可以是用户在已存储图像的图像编辑界面中对增加即时风格的相关控件的触发操作。该增加即时风格的相关控件用于触发手机为已存储图像增加符合当前场景的画面风格。
示例性的,用户在需要为已存储图像增加符合当前场景的画面风格的情况下,可以首先采用任意可行的操作打开该已存储图像的图像预览界面。响应于用户打开该已存储图像的图像预览界面的操作,手机可以显示如图10中(a)所示的图像预览界面1001。该图像预览界面中1001用于展示已存储图像1003。该图像预览界面中还可以包括有编辑控件1002。手机可以响应于用户对编辑控件1002的触发操作(例如点击操作),显示如图10中(b)所示的已存储图像的图像编辑界面1004。
参照图10中(b)所示,该图像编辑界面1004中则可以存在有“即时风格”字样对应的第三控件1005。该第三控件1005即为增加即时风格的相关控件。
之后,在用户需要为已存储图像1003增加符合当前场景的画面风格的情况下,用户可以对第三控件1005实施触发操作(例如点击操作)。手机响应于用户对第三控件1005实施的触发操作,可以开启针对该已存储图像1003的风格变换功能。这种情况下,用户对第一图像的变换操作即为对第三控件1005实施的触发操作。
用户对第三控件实施的触发操作,可以使得手机开启针对已存储图像1003的风格变换功能,即执行后续的S703-S706,使得该已存储图像1003增加符合当前场景的画面风格。与前述第一种场景存在差异的是,在第一图像为已存储图像1003的情况下,用户本意是不会想要已存储图像的画面风格反复随着当前场景的变化产生变化的,所以响应于用户对第三控件的触发操作,使手机仅会执行一次S703-S706,而不会执行多次。
当然,实际中还存在其他任意可行的开启已存储图像的风格变换功能的变换操作,上述仅为示例,不作为对本申请实施例的具体限制。
此外,上述两种场景仅为第一图像的两种可能实例,实际中第一图像还可以是手机中任意可行的图像,本申请对此不做具体限制。
在手机打开了针对第一图像的风格变换功能后,手机便可以开始对第一图像增加符合当前场景的画面风格。在本申请实施例中,为第一图像增加画面风格是基于AIGC技术中的扩散模型实现的,而扩散模型在工作时,则需要使用到噪声图像和文本指示。其中,为了使得扩散模型生成的最终图像的主体内容和第一图像的主题内容是相同的,所以这里需要提供给扩散模型的噪声图像则应当是与第一图像关联的目标噪声图像,需要提供给扩散模型的文本提示也应当是结合了第一图像对应的原始文本提示以及当前场景信息得到的目标文本提示。
基于此,手机打开了针对第一图像的风格变换功能后,则可以获取与第一图像关联的目标噪声图像,并获取目标文本指示。即S702后执行S703和S704。
S703、手机获取与第一图像关联的目标噪声图像。
其中,与第一图像关联的目标噪声图像具体可以是指,目标噪声图像经过特定处理可以得到第一图像,或者第一图像经过特定处理可以得到目标噪声图像。
在一些实施例中,第一图像本身可以是手机通过扩散模型生成的图像。例如,手机上可以具备有利用扩散模型生成图像的应用或功能。用户在需要生成第一图像时,可以向手机输入第一文本指示,进而使扩散模型基于随机噪声图像和该第一文本指示得到第一图像。当然,手机中可以预存有多个第一文本指示,第一图像也可以是手机基于预存的第一文本指示生成的。本申请对手机具体是如何利用扩散模型生成第一图像的具体实现不做具体限制。
在这种情况下,手机上是存在有生成该第一图像的随机噪声图像的,可以考虑将该第一图像对应的随机噪声图像作为与第一图像关联的目标噪声图像。但是,随机噪声图像本身是随机生成的,扩散模型基于同一个随机噪声图像和相同的文本提示,多次生成的图像都大概率是存在较大差异的。如果将第一图像对应的随机噪声图像作为目标噪声图像,会使得后续扩散模型生成的最终图像和第一图像的主题内容存在较大差异,不符合用户需求。
因此,在该实施例中,参照图11所示,第一图像关联的目标噪声图像可以是手机在第一图像上增加预设噪声生成的。基于此,结合图7,参照图12所示,此时S703可以为S703A:
S703A、在第一图像为手机利用扩散模型生成的图像的情况下,手机在第一图像中增加预设噪声,以获取与第一图像关联的目标噪声图像。
其中,预设噪声可以为高斯噪声。
在第一图像上增加预设噪声的方式则可以是任意可行的方式,例如在第一图像上增加预设次数的高斯噪声。其中,预设次数可以基于图像处理经验得出。在第一图像上增加预设次数的高斯噪声的目的在于,使得最终得到的目标噪声图像相比于第一图像而言,主体内容的轮廓特征可以被扩散模型识别得出,而主题内容的纹理等细节特征则被高斯噪声所覆盖。这样一来,后续扩散模型在生成第一图像增加了符合当前场景的画面风格后的最终图像时,可以使得最终图像与第一图像的主体内容相符合,仅纹理等细节存在差异。
基于上述S703A对应的技术方案,手机便可以顺利的得到由扩散模型生成的第一图像对应的目标噪声图像,进而使得后续生成最终图像(相当于第一图像增加了符合当前场景的画面风格后的第二图像)的流程顺利进行。
在另一些实施例中,第一图像本身可以是手机拍照得到的图像或者从其他设备处获取到的图像,即第一图像不为手机使用扩散模型生成的图像。为了使得最终生成的最终图像和第一图像仅存在画面风格上的差异,后续扩散模型在生成最终图像时,需要基于目标噪声图像以及,以及根据与第一图像本身匹配的第一文本提示和当前场景信息得到的目标文本提示。而与第一图像匹配的第二文本提示,则代表扩散模型可以基于该第二文本提示和与第一图像对应的噪声图像(即与第一图像关联的目标噪声图像),得到该第一图像。
因此,在该实施例中,与第一图像关联的目标噪声图像可以采用任意可行的预设反转(inversion)方法得到。预设反转方法可以将第一图像转换为目标噪声图像和与第一图像匹配的第二文本提示。基于此,结合图7,参照图13所示,S703可以为S703B:
S703B、在第一图像不为手机利用扩散模型生成的图像的情况下,手机使用预设反转方法对第一图像处理,以得到与第一图像关联的目标噪声图像。
当然,在执行S703B时,手机还会得到与第一图像匹配的第二文本提示。
在一些可能的实现方式中,预设反转方法可以为空文本反转方法。参照图14所示,手机可以采用空文本反转方法,将第一图像抓换为目标噪声图像和第二文本提示。
当然,实际中第一图像若不为手机利用扩散模型生成的图像的情况下,目标噪声图像还可以是,其他设备使用预设反转方法对第一图像处理得到目标噪声图像后发送给手机的。这种情况下,手机则可以直接从本地存储中获取与第一图像关联的目标噪声图像。
需要说明的是,为了保证后续使用扩散模型基于目标噪声图像生成的最终图像中的主体内容和第一图像中的主体内容相同,这里采用的预设反转方法的处理逻辑应当为扩散模型的反过程,即该预设反转方法可以是利用扩散模型的预设反转方法。这样一来,使用预设反转方法生成目标噪声图像和第二文本提示的运算逻辑和扩散模型的运算逻辑是相匹配的,后续在使用扩散模型对目标噪声图像以及基于第二文本提示得到的目标文本提示处理运算时,也就可以保证生成的最终图像和第一图像中的主体内容是相同的。
基于上述S703B对应的技术方案,手机便可以顺利的得到不由扩散模型生成的第一图像对应的目标噪声图像,进而使得后续生成最终图像(相当于第一图像增加了符合当前场景的画面风格后的第二图像)的流程顺利进行。
S704、手机获取当前场景信息和第一图像对应的原始文本提示,并基于当前场景信息和原始文本提示,得到目标文本提示。
其中,当前场景信息为手机当前所处场景的场景信息,当前场景信息中可以包括一个多多个信息项。示例性的,本申请实施例中的信息项可以包括存在以下几种:天气、日期、时间。其中,天气可以为手机当前所处区域的具体天气,例如晴天、多云、小雨等。日期可以包括当前具体日期和节气/季节,例如2023年10月8日,寒露/秋季。时间为当前的具体时刻,例如16:30。
实际中,用户需要在第一图像中增加的画面风格可以是和当前场景中的某一种或多种信息项对应的,所以为了明确用户的需求。在用户实施了变换操作,促使手机开启了针对第一图像的风格变换功能的情况下,手机还可以显示相应的信息项选择页面,以供用户选择当前场景信息中包括的信息项,进而去获取当前场景信息包括的信息项的内容。基于此,在本申请实施例中,手机获取当前场景信息具体可以包括S1-S3:
S1、手机显示信息项选择弹窗;信息项选择弹窗中包括多个信息项的选择控件。
具体的,手机可以是在响应于用户对第一图像实施的变换操作,开启了针对第一图像的风格变换功能的情况下,显示信息项选择弹窗。或者,可以认为手机是响应于用户对第一图像实施的变换操作,显示该信息项选择弹窗。该多个信息项可以包括:天气、日期、时间。
在一些示例中,以图8中(a)所示的应用场景为例,若用户实施的对第一图像的变换操作为针对第一控件802的开启操作,则手机响应于该变换操作,开启了针对第一图像的风格变换功能的情况下,手机可以显示如图15中(a)所示的界面,该界面中显示有信息项选择弹窗1501。参照图15中(a)所示,该界面中的第一控件802的滑块已移动至右侧,且第一控件的左侧区域为预定颜色(例如蓝色)。该信息项选择弹窗1501中可以包括多个信息项的选择控件。每个信息项的选择控件的样式可以如第二控件802所示。图10中(b)所示的应用场景同理,此处不再赘述。
当然,实际中该信息项选择弹窗还可以是信息项选择界面,此时手机响应于对第一图像的变换操作,可以显示一整个信息项选择界面,而不是在原有界面基础上显示信息项选择弹窗。手机显示的供用户选择信息项的界面具体是信息项选择弹窗还是信息项选择界面,亦或者是其他任意肯定的界面,则根据实际需求而定,本申请对此不做具体限制。
此外,手机响应于用户对第一图像实施的变换操作,也可以不显示供用户选择信息项的界面,而是将所有可能的信息项都默认作为当前信息场景信息中的信息项。这种情况下,用户若需要更改当前信息场景信息中包括的信息项,则可以采用任意可能的操作,促使手机显示供用户选择信息项的界面。本申请对此不做具体限制。
S2、手机响应于用户对信息项选择弹窗中多个信息项的选择控件中目标信息项的选择控件的选择操作,将目标信息项确定为当前场景信息中包括的信息项。
其中,选择操作可以为点击操作或其他任意可行的操作。示例性的,以选择操作为点击操作为例,参照图15中(a)所示,如果用户需要第一图像增加的风格变换和当前的日期以及天气相关,则用户可以点击图15中(a)所示的日期对应的选择控件1502以及天气对应的选择控件1503。响应于用户对选择控件1502和选择控件1503的点击操作,手机可以显示图图15中(b)所示的界面。该界面中,选择控件1502和选择控件1503的滑块均已移动至右侧,且选择控件1502和选择控件1503的左侧区域为预定颜色(例如蓝色)。其中,日期和天气则均为目标信息项。
之后,手机则可以将日期和天气确定为当前场景信息包括的信息项,并获取当前场景信息中包括的信息项,以得到当前场景信息。
S3、手机获取当前场景信息包括的信息项,以得到当前场景信息。
具体的,手机获取当前场景信息包括的信息项具体是,手机获取当前场景信息包括的信息项早当前时刻的具体内容。例如,若当前场景信息包括的信息项为日期和天气,则手机可以通过日历应用获取到当前日期(例如2023年10月8日),并通过天气应用获取到当前天气(例如晴天)。此时,当前场景信息即为当前日期和当前天气的组合。
基于上述技术方案,手机在接收到用户对第一图像的变换操作后,可以让用户来确定风格变换相关的信息项,从而得到更符合用户需求的当前场景信息。后续基于当前场景信息生成的最终图像也就更符合用户的需求,进一步提高了用户的使用体验。
在本申请实施例中,第一图像对应的原始文本提示即为能够表征第一图像的特定视觉特征的文本提示。
在第一图像为手机利用扩散模型生成的图像的情况下,手机使用扩散模型生成第一图像时,和随机噪声模型一起输入扩散模型中的第一文本提示(可以是用户提供的或者预存的)即为第一图像的原始文本提示。即此时,第一图像的原始文本提示即为扩散模型生成第一图像时使用的第一文本提示。
在第一图像为手机拍照得到的图像或者从其他设备处获取到的图像,即第一图像不为手机使用扩散模型生成的图像的情况下,第一图像则初始不存在相应的文本提示。基于此,为了得到第一图像的原始文本提示,可以采用预设反转方法将第一图像抓换为目标噪声图像和与第一图像匹配的第二文本提示。也就是说,在第一图像不为手机利用扩散模型生成的图像的情况下,手机可以使用预设反转方法对第一图像处理,以得到与第一图像关联的第二文本提示。之后,则可以将第二文本提示确定为第一图像的原始文本提示。
当然,实际中第一图像若不为手机利用扩散模型生成的图像的情况下,第一图像的第二文本提示还可以是,其他设备使用预设反转方法对第一图像处理得到第二文本提示后发送给手机的。这种情况下,手机则可以直接从本地存储中获取第一图像的第二文本提示,作为第一图像的原始文本提示。
为了保证使用扩散模型生成的最终图像和第一图像仅存在画面风格的不同(即主体内容相同),需要尽可能保证原始文本提示的主要内容不变,仅对原始文本提示中的关键词进行替换或者增加。基于此,手机基于当前场景信息和原始文本提示,得到目标文本提示的具体过程可以包括L1-L3:
L1、手机使用当前场景信息中的第一关键词替换原始文本提示中的第二关键词,以更新原始文本提示。
其中,第一关键词和第二关键词的类型相同。
当前场景信息中的关键词可以是当前场景信息包括的信息项的具体内容,第一关键词则可以是当前场景信息中的关键词中的一个。
关键词的类型具体可以是指关键词所表征的内容的类型,例如若关键词为2022年10月8日,则该关键词的类型为日期。第一关键词和第二关键词的类型相同,即表明第一关键词和第二关键词均用于表征同一类型的内容,例如均用于表征具体日期。
L2、手机将当前场景信息中的第三关键词加入原始文本提示中,以更新原始文本提示。
其中,第三关键词为当前场景信息中的关键词中的一个。第三关键词的类型和原始文本提示中的关键词的类型均不同。例如,若当前场景信息中的关键词为2022年10月8日和下雨,原始文本提示中的关键词为2022年1月8日和高山,则“下雨”即为第三关键词。
需要说明的是,L1和L2可以是按照任意顺序先后执行的,也可以是同时执行的。当然,若当前场景信息和原始文本提示中不存在类型相同的关键词则不执行L1,若当前场景信息中不存在第三关键词则不执行L2。
L3、手机将更新完成的原始文本提示,确定为目标文本提示。
示例性的,若当前场景信息中的关键词为2022年10月8日和下雨,原始文本提示中的关键词为2022年1月8日和高山,则更新完成的原始文本提示包括2022年10月8日、下雨和高山。
L1的实施后的目的,相当于实现了如图3中(a)所示的对扩散模型运算过程中的attention maps的局部编辑。也就是说,后续手机使用扩散模型对目标文本提示和目标噪声图像处理的过程中,产生的attention maps-X,相当于基于当前场景信息对扩散模型生成第一图像的过程中产生的attention maps-Y进行了局部编辑。
L2的实施后的目的,相当于实现了如图3中(b)所示的对扩散模型运算过程中的attention maps的全局编辑。也就是说,后续手机使用扩散模型对目标文本提示和目标噪声图像处理的过程中,产生的attention maps-X,相当于基于当前场景信息对扩散模型生成第一图像的过程中产生的attention maps-Y进行了全局编辑。
其中,在第一图像是手机利用扩散模型生成的图像的情况下,使用扩散模型生成第一图像的过程,即为该第一图像被手机利用扩散模型生成的过程。在第一图像不是手机利用扩散模型生成的图像的情况下,使用扩散模型生成第一图像的过程,可以认为是使用预设反转方法(基于扩散模型的预设反转方法)生成目标噪声图像和第二文本提示的反过程。
需要说明的是,本申请中为了实现基于当前场景信息对使用扩散模型生成第一图像的过程中产生的attention maps-Y进行的局部编辑或全局编辑,进而起到对第一图像增加符合当前场景的风格变换的目的。本申请实施例中还可以采用其他任意可行的实现方式。例如,可以使用扩散模型,对第一图像对应的目标噪声图像(在第一图像不是手机利用扩散模型生成的情况下)或随机噪声图像(在第一图像不是手机利用扩散模型生成的情况下),以及当前场景信息进行处理,得到对应当前场景信息的attention maps-Z。之后,则可以使用attention maps-Z对使用扩散模型生成第一图像的过程中产生的attention maps-Y进行的局部编辑或全局编辑。
基于上述L1-L3对应的技术方案,因为尽可能的保证了原始文本提示的主要内容不变,仅对原始文本提示中的关键词进行替换或者增加,所以可以保证手机使用扩散模型生成的最终图像和第一图像仅存在画面风格的不同(即主体内容相同)。
需要说明的是,S703和S704执行的先后顺序本申请不做具体限制,具体根据实际而定,可以S703先执行,也可以S704先执行,还可以两者同时执行。
参照图16所示,在手机得到目标文本提示和目标噪声图像后,手机便可以利用扩散模型,对目标文本提示和目标噪声图像处理,得到最终图像,即S703和S704后执行S705。
S705、手机使用扩散模型,对目标文本提示和目标噪声图像处理,得到最终图像。
其中,最终图像即为第一图像增加了符合当前场景(当前场景信息对应的场景)的画面风格后的图像。例如,以当前场景信息包括2023.10.08、冬季、下雨,第一图像为图17中(a)所示的图像为例,则最终生成的最终图像可以如图17中(b)所示。相比于图17中(a)所示的第一图像而言,图17中(b)所示的最终图像中则会多处雪人、下雨、水潭以及树木变白的画面风格。也就是说,最终图像增加符合当前场景信息的画面风格。
在手机得到最终图像后,便可以使用最终图像替换第一图像,进行相关的显示,即执行S706。
本申请实施例中提到的最终图像即相当于本申请中的第二图像。
S706、手机使用最终图像替代第一图像。
本申请实施例中,使用的扩散模型可以是采用任意可行的训练方式训练得到的,只要使得最终训练得到的扩散模型可以基于噪声图像和文本提示,生成匹配文本提示的图像即可。
前述S701-S706的具体执行主体可以为手机中的图像变换应用或者图像变换服务。
基于本申请实施例提供的技术方案,手机可以获取第一图像(例如壁纸)对应的目标噪声图像。之后,手机可以基于当前的场景信息(例如日期信息、天气信息等),并得到扩散模型所需要的目标文本指示。最后,手机则可以使用扩散模型对该文本指示和目标噪声图像进行处理,得到最终图像并替代原本的第一图像。该最终图像为第一图像增加了符合当前场景的画面风格的图像。这样一来,针对手机中的第一图像而言,手机可以的根据场景信息来调整第一图像,使得第一图像的画面风格产生符合当前场景的画面风格变化。进而使得用户在查看第一图像的过程中,可有更好的观看体验。在该第一图像为壁纸的情况下,该方案则可以使得手机壁纸可以实时根据当前场景的变换,不断的产生画面风格上的变化,提高了壁纸的动态效果,进而提高了用户的使用体验。
可以理解的是,上述电子设备为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,本发明实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请实施例的范围。
本申请实施例可以根据上述方法示例对上述电子设备进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本发明实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
在采用对应各个功能划分各个功能模块的情况下,参照图18所示,本申请实施例还提供了一种图像变换装置,该装置可以应用在电子设备中。该装置可以包括获取模块181和处理模块182。
其中,处理模块182,用于响应于用户对第一图像的变换操作,开启针对第一图像的风格变换功能;获取模块181,用于获取与第一图像关联的目标噪声图像;获取模块181还用于获取当前场景信息和第一图像对应的原始文本提示,并基于当前场景信息和原始文本提示,得到目标文本提示;处理模块182还用于使用扩散模型,对获取模块181获取的目标文本提示和目标噪声图像处理,得到第二图像;扩散模型具备利用噪声图像和文本提示,生成对应文本提示的图像的能力;处理模块182还用于使用第二图像替代第一图像。
可选的,第一图像包括电子设备的壁纸,处理模块182具体用于:响应于用户在壁纸设置界面中对第一控件实施的开启操作,开启针对壁纸的风格变换功能;其中,用户在壁纸设置界面中对第一控件实施的开启操作为用户对第一图像的变换操作。
可选的,第一图像包括电子设备的壁纸,处理模块182具体用于:响应于用户在壁纸设置界面中对第二控件实施的开启操作,在第二控件对应的预设时间段内开启针对壁纸的风格变换功能;其中,用户在壁纸设置界面中对第二控件实施的开启操作为用户对第一图像的变换操作。
可选的,第一图像包括电子设备中非壁纸的已存储图像,处理模块182具体用于:响应于用户对已存储图像的图像编辑界面中第三控件的触发操作,开启针对已存储图像的风格变换功能。
可选的,在第一图像为电子设备利用扩散模型生成的图像的情况下,获取模块181具体用于:在第一图像中增加预设噪声,以获取与第一图像关联的目标噪声图像。
可选的,在第一图像不为电子设备利用扩散模型生成的图像的情况下,获取模块181具体用于:使用预设反转方法对第一图像处理,以得到与第一图像关联的目标噪声图像。
可选的,获取模块181具体用于:显示信息项选择弹窗;信息项选择弹窗中包括多个信息项的选择控件;多个信息项包括:天气、日期、时间;响应于用户对信息项选择弹窗中多个信息项的选择控件中目标信息项的选择控件的选择操作,将目标信息项确定为当前场景信息中包括的信息项;获取当前场景信息中包括的信息项,以得到当前场景信息。
可选的,在第一图像为电子设备利用扩散模型生成的图像的情况下,获取模块181具体用于:电将利用扩散模型生成第一图像时,使用的第一文本提示确定为第一图像对应的原始文本提示。
可选的,在第一图像不为电子设备利用扩散模型生成的图像的情况下,获取模块181具体用于:使用预设反转方法对第一图像处理,以得到与第一图像关联的第二文本提示;将第二文本提示确定为第一图像对应的原始文本提示。
可选的,处理模块182具体用于:使用当前场景信息中的第一关键词替换原始文本提示中的第二关键词,以更新原始文本提示;第一关键词和第二关键词的类型相同;电将当前场景信息中的第三关键词加入原始文本提示中,以更新原始文本提示;将更新完成的原始文本提示,确定为目标文本提示。
关于上述实施例中的图像变换装置,其中各个模块执行操作的具体方式已经在前述实施例中的图像变换方法的实施例中进行了详细描述,此处不再具体阐述。其相关的有益效果也可参照前述图像变换方法的相关有益效果,此处不再赘述。
本申请实施例还提供一种电子设备,该电子设备包括:显示屏、存储器和一个或多个处理器;显示屏、存储器与处理器耦合;其中,存储器中存储有计算机程序代码,计算机程序代码包括计算机指令,当计算机指令被处理器执行时,使得电子设备执行如前述实施例提供的图像变换方法。该电子设备的具体结构可参照图5中所示的电子设备的结构。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质包括计算机指令,当计算机指令在电子设备上运行时,使得电子设备执行如前述实施例提供的图像变换方法。
本申请实施例还提供一种计算机程序产品,该计算机程序产品包含可执行指令,当该计算机程序产品在电子设备上运行时,使得电子设备执行如前述实施例提供的图像变换方法。
通过以上实施方式的描述,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置/设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是一个物理单元或多个物理单元,即可以位于一个地方,或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上内容,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何在本申请揭露的技术范围内的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种图像变换方法,其特征在于,应用于电子设备,所述方法包括:
所述电子设备响应于用户对第一图像的变换操作,开启针对第一图像的风格变换功能;
所述电子设备获取与第一图像关联的目标噪声图像;在所述第一图像不为所述电子设备利用扩散模型生成的图像的情况下,所述电子设备获取与第一图像关联的目标噪声图像,包括:所述电子设备使用预设反转方法对所述第一图像处理,以得到与所述第一图像关联的目标噪声图像;
所述电子设备获取当前场景信息和所述第一图像对应的原始文本提示,并基于所述当前场景信息和所述原始文本提示,得到目标文本提示;所述当前场景信息为所述电子设备当前所处场景的场景信息,所述当前场景信息包括以下任一项:天气、日期、时间;
所述电子设备基于所述当前场景信息和所述原始文本提示,得到目标文本提示,包括:所述电子设备使用所述当前场景信息中的第一关键词替换所述原始文本提示中的第二关键词,以更新所述原始文本提示;所述第一关键词和所述第二关键词的类型相同;所述电子设备将所述当前场景信息中的第三关键词加入所述原始文本提示中,以更新原始文本提示;所述电子设备将更新完成的所述原始文本提示,确定为所述目标文本提示;
所述电子设备使用扩散模型,对所述目标文本提示和所述目标噪声图像处理,得到第二图像;所述扩散模型具备利用噪声图像和文本提示,生成对应所述文本提示的图像的能力;
所述电子设备使用所述第二图像替代所述第一图像。
2.根据权利要求1所述的方法,其特征在于,所述第一图像包括所述电子设备的壁纸,所述电子设备响应于用户对第一图像的变换操作,开启针对第一图像的风格变换功能,包括:
所述电子设备响应于用户在壁纸设置界面中对第一控件实施的开启操作,开启针对所述壁纸的风格变换功能;其中,所述用户在所述壁纸设置界面中对所述第一控件实施的开启操作为用户对第一图像的变换操作。
3.根据权利要求1所述的方法,其特征在于,所述第一图像包括所述电子设备的壁纸,所述电子设备响应于用户对第一图像的变换操作,开启针对第一图像的风格变换功能,包括:
所述电子设备响应于用户在壁纸设置界面中对第二控件实施的开启操作,在所述第二控件对应的预设时间段内开启针对所述壁纸的风格变换功能;其中,用户在所述壁纸设置界面中对所述第二控件实施的开启操作为用户对第一图像的变换操作。
4.根据权利要求1所述的方法,其特征在于,所述第一图像包括所述电子设备中非壁纸的已存储图像,所述电子设备响应于用户对第一图像的变换操作,开启针对第一图像的风格变换功能,包括:
所述电子设备响应于用户对所述已存储图像的图像编辑界面中第三控件的触发操作,开启针对所述已存储图像的风格变换功能。
5.根据权利要求1-4任一项所述的方法,其特征在于,在所述第一图像为所述电子设备利用所述扩散模型生成的图像的情况下,所述电子设备获取与第一图像关联的目标噪声图像,包括:
所述电子设备在所述第一图像中增加预设噪声,以获取与第一图像关联的目标噪声图像。
6.根据权利要求1-4任一项所述的方法,其特征在于,所述电子设备获取当前场景信息,包括:
所述电子设备显示信息项选择弹窗;信息项选择弹窗中包括多个信息项的选择控件;所述多个信息项包括:天气、日期、时间;
所述电子设备响应于用户对所述信息项选择弹窗中多个信息项的选择控件中目标信息项的选择控件的选择操作,将所述目标信息项确定为所述当前场景信息中包括的信息项;
所述电子设备获取当前场景信息中包括的信息项,以得到所述当前场景信息。
7.根据权利要求1-4任一项所述的方法,其特征在于,在所述第一图像为所述电子设备利用所述扩散模型生成的图像的情况下,所述电子设备获取所述第一图像对应的原始文本提示,包括:
所述电子设备将利用所述扩散模型生成所述第一图像时,使用的第一文本提示确定为所述第一图像对应的原始文本提示。
8.根据权利要求1-4任一项所述的方法,其特征在于,在所述第一图像不为所述电子设备利用所述扩散模型生成的图像的情况下,所述电子设备获取所述第一图像对应的原始文本提示,包括:
所述电子设备使用预设反转方法对所述第一图像处理,以得到与所述第一图像关联的第二文本提示;
所述电子设备将所述第二文本提示确定为所述第一图像对应的原始文本提示。
9.一种电子设备,其特征在于,包括:显示屏、存储器和一个或多个处理器;所述显示屏、所述存储器与所述处理器耦合;其中,所述存储器中存储有计算机程序代码,所述计算机程序代码包括计算机指令,当所述计算机指令被所述处理器执行时,使得所述电子设备执行如权利要求1-8任一项所述的图像变换方法。
10.一种计算机可读存储介质,其特征在于,包括计算机指令,当所述计算机指令在电子设备上运行时,使得所述电子设备执行如权利要求1-8中任一项所述的图像变换方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311451891.8A CN117170560B (zh) | 2023-11-03 | 2023-11-03 | 一种图像变换方法、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311451891.8A CN117170560B (zh) | 2023-11-03 | 2023-11-03 | 一种图像变换方法、电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117170560A CN117170560A (zh) | 2023-12-05 |
CN117170560B true CN117170560B (zh) | 2024-03-15 |
Family
ID=88947297
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311451891.8A Active CN117170560B (zh) | 2023-11-03 | 2023-11-03 | 一种图像变换方法、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117170560B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103838578A (zh) * | 2014-03-10 | 2014-06-04 | 联想(北京)有限公司 | 一种数据处理方法、装置及一种电子设备 |
CN116501432A (zh) * | 2023-04-28 | 2023-07-28 | 成都赛力斯科技有限公司 | 车辆壁纸生成方法、装置、电子设备及可读存储介质 |
CN116664719A (zh) * | 2023-07-28 | 2023-08-29 | 腾讯科技(深圳)有限公司 | 一种图像重绘模型训练方法、图像重绘方法及装置 |
CN116665219A (zh) * | 2023-05-26 | 2023-08-29 | 华为技术有限公司 | 一种数据处理方法及其装置 |
CN116797868A (zh) * | 2023-05-23 | 2023-09-22 | 阿里巴巴(中国)有限公司 | 文本图像生成方法以及扩散生成模型训练方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230334834A1 (en) * | 2023-06-20 | 2023-10-19 | Lemon Inc. | Model training based on synthetic data |
-
2023
- 2023-11-03 CN CN202311451891.8A patent/CN117170560B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103838578A (zh) * | 2014-03-10 | 2014-06-04 | 联想(北京)有限公司 | 一种数据处理方法、装置及一种电子设备 |
CN116501432A (zh) * | 2023-04-28 | 2023-07-28 | 成都赛力斯科技有限公司 | 车辆壁纸生成方法、装置、电子设备及可读存储介质 |
CN116797868A (zh) * | 2023-05-23 | 2023-09-22 | 阿里巴巴(中国)有限公司 | 文本图像生成方法以及扩散生成模型训练方法 |
CN116665219A (zh) * | 2023-05-26 | 2023-08-29 | 华为技术有限公司 | 一种数据处理方法及其装置 |
CN116664719A (zh) * | 2023-07-28 | 2023-08-29 | 腾讯科技(深圳)有限公司 | 一种图像重绘模型训练方法、图像重绘方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN117170560A (zh) | 2023-12-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113553130B (zh) | 应用执行绘制操作的方法及电子设备 | |
CN114640783B (zh) | 一种拍照方法及相关设备 | |
CN113395441A (zh) | 图像留色方法及设备 | |
WO2023016014A1 (zh) | 视频编辑方法和电子设备 | |
CN117078509A (zh) | 模型训练方法、照片生成方法及相关设备 | |
CN114979457B (zh) | 一种图像处理方法及相关装置 | |
CN115734032A (zh) | 视频剪辑方法、电子设备及存储介质 | |
CN116128571B (zh) | 广告曝光量分析方法及相关装置 | |
CN117170560B (zh) | 一种图像变换方法、电子设备和存储介质 | |
CN117290004A (zh) | 组件预览的方法和电子设备 | |
CN116861066A (zh) | 应用推荐方法和电子设备 | |
CN115543496A (zh) | 消息处理方法及相关装置 | |
CN118484108A (zh) | 一种动效处理方法及相关装置 | |
CN117764853B (zh) | 人脸图像增强方法和电子设备 | |
CN116193275B (zh) | 视频处理方法及相关设备 | |
CN116688494B (zh) | 生成游戏预测帧的方法和电子设备 | |
CN117131213B (zh) | 图像处理方法及相关设备 | |
CN116672707B (zh) | 生成游戏预测帧的方法和电子设备 | |
CN118101988B (zh) | 一种视频处理方法、系统及电子设备 | |
CN117707563B (zh) | 应用资源处理方法及相关设备 | |
CN117710697B (zh) | 对象检测方法、电子设备、存储介质及程序产品 | |
WO2024160019A1 (zh) | 一种图片显示方法和电子设备 | |
CN117672190A (zh) | 一种音译方法及电子设备 | |
CN117692723A (zh) | 视频编辑方法和电子设备 | |
CN117667229A (zh) | 显示方法、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |