CN116188250A - 图像处理方法、装置、电子设备及存储介质 - Google Patents
图像处理方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN116188250A CN116188250A CN202310102357.XA CN202310102357A CN116188250A CN 116188250 A CN116188250 A CN 116188250A CN 202310102357 A CN202310102357 A CN 202310102357A CN 116188250 A CN116188250 A CN 116188250A
- Authority
- CN
- China
- Prior art keywords
- style
- image
- information
- text information
- content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 18
- 238000012545 processing Methods 0.000 claims abstract description 262
- 238000012512 characterization method Methods 0.000 claims abstract description 100
- 238000000034 method Methods 0.000 claims abstract description 85
- 238000000605 extraction Methods 0.000 claims description 101
- 230000004044 response Effects 0.000 claims description 31
- 238000007499 fusion processing Methods 0.000 claims description 14
- 238000005070 sampling Methods 0.000 claims description 12
- 230000001960 triggered effect Effects 0.000 claims description 8
- 238000012790 confirmation Methods 0.000 claims description 5
- 230000001747 exhibiting effect Effects 0.000 claims description 2
- 238000012549 training Methods 0.000 description 28
- 230000008569 process Effects 0.000 description 26
- 238000010586 diagram Methods 0.000 description 19
- 238000004590 computer program Methods 0.000 description 9
- 238000006243 chemical reaction Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 6
- 238000013473 artificial intelligence Methods 0.000 description 5
- 238000009792 diffusion process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000000977 initiatory effect Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G06T3/04—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
Abstract
本公开关于一种图像处理方法、装置、电子设备及存储介质。该方法包括:显示图像风格化处理页面,所述图像风格化处理页面展示有内容图像输入区域、风格信息输入区域;响应于所述内容图像输入区域输入的第一图像以及所述风格信息输入区域输入的风格表征信息,在所述图像风格化处理页面增量展示所述第一图像被处理为目标风格后的第二图像,所述目标风格为所述风格表征信息指示的风格。根据本公开提供的技术方案,可以提升图像风格化处理的效率和精度。
Description
技术领域
本公开涉及数据处理技术领域,尤其涉及一种图像处理方法、装置、电子设备及存储介质。
背景技术
目前图像的风格化展示备受关注,例如在短视频中会使用风格化处理后的图像,例如插画风格的图像、抽象派风格的图像等。相关技术中,选择文字来引导风格化图像的生成,或者选择直接将一个图片作为模型的输入来进行风格化处理。前者需要手动提供引导的文字,效率较低,且容易导致图像的内容不能被精准地描述,使得风格化处理不精准;后者缺乏语义信息的引导,在非结构化数据的风格化上表现不佳,且效率不高。并且,现有的图像风格化处理也不够便捷。
发明内容
本公开提供一种图像处理方法、装置、电子设备及存储介质,以至少解决相关技术中如何提升图像风格化处理效率和精度的问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种图像处理方法,包括:
显示图像风格化处理页面,所述图像风格化处理页面展示有内容图像输入区域和风格信息输入区域;
响应于所述内容图像输入区域输入的第一图像以及所述风格信息输入区域输入的风格表征信息,在所述图像风格化处理页面增量展示第二图像,所述第二图像的内容与所述第一图像的内容匹配,所述第二图像的风格属性为目标风格,所述目标风格为所述风格表征信息指示的风格。
在一种可能的实现方式中,所述方法还包括:
在所述图像风格化处理页面展示所述第一图像。
在一种可能的实现方式中,所述响应于所述内容图像输入区域输入的第一图像以及所述风格信息输入区域输入的风格表征信息,在所述图像风格化处理页面增量展示第二图像,包括:
响应于所述内容图像输入区域输入的第一图像以及所述风格信息输入区域输入的风格表征信息,在所述图像风格化处理页面增量展示内容文本信息以及风格描述文本信息;所述内容文本信息与所述第一图像的语义内容对应,所述风格描述文本信息为描述所述目标风格的文本信息;
响应于风格化处理指令,在所述图像风格化处理页面增量展示所述第二图像;所述第二图像是基于所述内容文本信息和所述风格描述文本信息得到的。
在一种可能的实现方式中,所述响应于所述内容图像输入区域输入的第一图像以及所述风格信息输入区域输入的风格表征信息,在所述图像风格化处理页面增量展示第二图像,包括:
响应于所述内容图像输入区域输入的第一图像以及所述风格信息输入区域输入的风格表征信息,在所述图像风格化处理页面增量展示内容文本信息以及风格描述文本信息;所述内容文本信息与所述第一图像的语义内容对应,所述风格描述文本信息为描述所述目标风格的文本信息;
检测到所述内容文本信息的第一调整操作和/或所述风格描述文本信息的第二调整操作,展示内容调整信息和/或风格调整文本信息;
响应于所述风格化处理指令,在所述图像风格化处理页面增量展示所述第二图像;所述第二图像是基于所述展示内容调整信息和所述风格调整文本信息得到的;或者所述第二图像是基于所述展示内容调整信息和所述风格描述文本信息得到的;或者所述第二图像是基于所述内容文本信息和所述风格调整文本信息得到的。
在一种可能的实现方式中,所述风格描述文本信息中包括至少两种目标风格;所述检测到所述风格描述文本信息的第二调整操作,展示风格调整文本信息,包括:
在所述图像风格化处理页面展示风格优先级选择信息;
响应于基于所述风格优先级选择信息触发的优先级确认指令,确定检测到所述第二调整操作,展示所述至少两种目标风格各自对应的优先级信息;
根据所述优先级信息和所述风格描述文本信息,生成并展示所述风格调整文本信息。
在一种可能的实现方式中,所述风格表征信息为以下中的任一种:图像、文本信息、音频信息、视频信息。
在一种可能的实现方式中,所述方法还包括:
对所述风格表征信息进行风格提取处理,得到风格描述文本信息;
对所述第一图像进行语义提取处理,得到内容文本信息;
对所述内容文本信息和所述风格描述文本信息进行融合处理,得到目标文本信息;
将所述目标文本信息输入风格化处理模型,得到所述第二图像。
在一种可能的实现方式中,所述风格表征信息为第三图像,所述第三图像的风格属性为所述目标风格;所述对所述风格表征信息进行风格提取处理,得到风格描述文本信息,包括:
将所述第三图像输入风格提取模型,进行风格提取处理,得到所述风格描述文本信息。
在一种可能的实现方式中,所述风格表征信息为风格指示文本信息;所述对所述风格表征信息进行风格提取处理,得到风格描述文本信息,包括:
对所述风格指示文本信息进行语序处理,得到所述风格描述文本信息;
或者,将所述风格指示文本信息输入文本处理模型,得到所述风格描述文本信息。
在一种可能的实现方式中,所述对所述第一图像进行语义提取处理,得到内容文本信息,包括:
将所述第一图像输入语义提取模型,进行语义提取处理,得到所述内容文本信息。
在一种可能的实现方式中,所述方法还包括:
获取噪声信息;
所述将所述目标文本信息输入风格化处理模型,得到所述第二图像,包括:
将所述噪声信息和所述目标文本信息输入所述风格化处理模型,得到所述第二图像。
在一种可能的实现方式中,所述获取噪声信息,包括:
对所述第一图像进行加噪处理,得到所述噪声信息;
或者,对预设高斯噪声进行采样得到所述噪声信息。
根据本公开实施例的第二方面,提供一种图像处理方法,包括:
获取待风格化的第一图像以及风格表征信息;
对所述风格表征信息进行风格提取处理,得到风格描述文本信息;
对所述第一图像进行语义提取处理,得到内容文本信息;
对所述内容文本信息和所述风格描述文本信息进行融合处理,得到目标文本信息;
将所述目标文本信息输入风格化处理模型,得到第二图像;所述第二图像的内容与所述第一图像的内容匹配,所述第二图像的风格属性为目标风格,所述目标风格为所述风格表征信息指示的风格。
在一种可能的实现方式中,所述风格表征信息为第三图像;所述对所述风格表征信息进行风格提取处理,得到风格描述文本信息,包括:
将所述第三图像输入风格提取模型,进行风格提取处理,得到所述风格描述文本信息。
在一种可能的实现方式中,所述方法还包括:
获取噪声信息;
所述将所述目标文本信息输入风格化处理模型,得到第二图像,包括:
将所述噪声信息和所述目标文本信息输入所述风格化处理模型,得到所述第二图像。
在一种可能的实现方式中,所述获取噪声信息,包括:
对所述第一图像进行加噪处理,得到所述噪声信息;
或者,对预设高斯噪声进行采样得到所述噪声信息。
在一种可能的实现方式中,所述方法还包括:
获取对所述内容文本信息执行第一调整操作得到的内容调整信息,和/或对所述风格描述文本信息执行第二调整操作得到的风格调整文本信息;
所述对所述内容文本信息和所述风格描述文本信息进行融合处理,得到目标文本信息,包括:
基于所述内容调整信息和/或所述风格调整文本信息,得到所述目标文本信息。
根据本公开实施例的第三方面,提供一种图像处理装置,包括:
页面显示模块,被配置为执行显示图像风格化处理页面,所述图像风格化处理页面展示有内容图像输入区域、风格信息输入区域;
风格化图像展示模块,被配置为执行响应于所述内容图像输入区域输入的第一图像以及所述风格信息输入区域输入的风格表征信息,在所述图像风格化处理页面增量展示第二图像,所述第二图像的内容与所述第一图像的内容匹配,所述第二图像的风格属性为目标风格,所述目标风格为所述风格表征信息指示的风格。
在一种可能的实现方式中,所述装置还包括:
第一展示模块,被配置为执行在所述图像风格化处理页面展示所述第一图像。
在一种可能的实现方式中,所述风格化图像展示模块包括:
第一文本信息展示单元,被配置为执行响应于所述内容图像输入区域输入的第一图像以及所述风格信息输入区域输入的风格表征信息,在所述图像风格化处理页面增量展示内容文本信息以及风格描述文本信息;所述内容文本信息与所述第一图像的语义内容对应,所述风格描述文本信息为描述所述目标风格的文本信息;
第一风格化图像展示单元,被配置为执行响应于风格化处理指令,在所述图像风格化处理页面增量展示所述第二图像;所述第二图像是基于所述内容文本信息和所述风格描述文本信息得到的。
在一种可能的实现方式中,所述所述风格化图像展示模块包括:
第二文本信息展示单元,被配置为执行响应于所述内容图像输入区域输入的第一图像以及所述风格信息输入区域输入的风格表征信息,在所述图像风格化处理页面增量展示内容文本信息以及风格描述文本信息;所述内容文本信息与所述第一图像的语义内容对应,所述风格描述文本信息为描述所述目标风格的文本信息;
文本调整单元,被配置为执行检测到所述内容文本信息的第一调整操作和/或所述风格描述文本信息的第二调整操作,展示内容调整信息和/或风格调整文本信息;
第二风格化图像展示单元,被配置为执行响应于所述风格化处理指令,在所述图像风格化处理页面增量展示所述第二图像;所述第二图像是基于所述展示内容调整信息和所述风格调整文本信息得到的;或者所述第二图像是基于所述展示内容调整信息和所述风格描述文本信息得到的;或者所述第二图像是基于所述内容文本信息和所述风格调整文本信息得到的。
在一种可能的实现方式中,所述风格描述文本信息中包括至少两种目标风格;所述文本调整单元包括:
优先级选择子单元,被配置为执行在所述图像风格化处理页面展示风格优先级选择信息;
第二调整操作确定子单元,被配置为执行响应于基于所述风格优先级选择信息触发的优先级确认指令,确定检测到所述第二调整操作,展示所述至少两种目标风格各自对应的优先级信息;
风格调整文本展示子单元,被配置为执行根据所述优先级信息和所述风格描述文本信息,生成并展示所述风格调整文本信息。
在一种可能的实现方式中,所述风格表征信息为以下中的任一种:图像、文本信息、音频信息、视频信息。
在一种可能的实现方式中,所述装置还包括:
风格提取模块,被配置为执行对所述风格表征信息进行风格提取处理,得到风格描述文本信息;
语义提取模块,被配置为执行对所述第一图像进行语义提取处理,得到内容文本信息;
文本融合模块,被配置为执行对所述内容文本信息和所述风格描述文本信息进行融合处理,得到目标文本信息;
风格化处理模块,被配置为执行将所述目标文本信息输入风格化处理模型,得到所述第二图像。
在一种可能的实现方式中,所述风格表征信息为第三图像,所述第三图像的风格属性为所述目标风格;所述风格提取模块包括:
第一风格提取单元,被配置为执行将所述第三图像输入风格提取模型,进行风格提取处理,得到所述风格描述文本信息。
在一种可能的实现方式中,所述风格表征信息为风格指示文本信息;所述风格提取模块还包括:
第二风格提取单元,被配置为执行对所述风格指示文本信息进行语序处理,得到所述风格描述文本信息;或者,将所述风格指示文本信息输入文本处理模型,得到所述风格描述文本信息。
在一种可能的实现方式中,所述语义提取模块,还被配置为执行将所述第一图像输入语义提取模型,进行语义提取处理,得到所述内容文本信息。
在一种可能的实现方式中,所述装置还包括:
噪声获取模块,被配置为执行获取噪声信息;
所述风格化处理模块,还被配置为执行将所述噪声信息和所述目标文本信息输入所述风格化处理模型,得到所述第二图像。
在一种可能的实现方式中,所述噪声获取模块,还被配置为执行对所述第一图像进行加噪处理,得到所述噪声信息;或者,对预设高斯噪声进行采样得到所述噪声信息。
根据本公开实施例的第四方面,提供一种图像处理装置,包括:
获取模块,被配置为执行获取待风格化的第一图像以及风格表征信息;
风格文本获取模块,被配置为执行对所述风格表征信息进行风格提取处理,得到风格描述文本信息;
内容文本获取模块,被配置为执行对所述第一图像进行语义提取处理,得到内容文本信息;
目标文本信息获取模块,被配置为执行对所述内容文本信息和所述风格描述文本信息进行融合处理,得到目标文本信息;
风格处理模块,被配置为执行将所述目标文本信息输入风格化处理模型,得到第二图像;所述第二图像的内容与所述第一图像的内容匹配,所述第二图像的风格属性为目标风格,所述目标风格为所述风格表征信息指示的风格。
在一种可能的实现方式中,所述风格表征信息为第三图像;所述风格文本获取模块包括:
风格文本获取单元,被配置为执行将所述第三图像输入风格提取模型,进行风格提取处理,得到所述风格描述文本信息。
在一种可能的实现方式中,所述装置还包括:
噪声信息获取模块,被配置为执行获取噪声信息;
所述风格处理模块,还被配置为执行将所述噪声信息和所述目标文本信息输入所述风格化处理模型,得到所述第二图像。
在一种可能的实现方式中,所述噪声信息获取模块,还被配置为执行对所述第一图像进行加噪处理,得到所述噪声信息;或者,对预设高斯噪声进行采样得到所述噪声信息。
在一种可能的实现方式中,所述装置还包括:
文本调整模块,被配置为执行获取对所述内容文本信息执行第一调整操作得到的内容调整信息,和/或对所述风格描述文本信息执行第二调整操作得到的风格调整文本信息;
所述目标文本信息获取模块,还被配置为执行基于所述内容调整信息和/或所述风格调整文本信息,得到所述目标文本信息。
根据本公开实施例的第五方面,提供一种电子设备,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令,以实现如上述第一方面中任一项所述的方法。
根据本公开实施例的第六方面,提供一种计算机可读存储介质,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行本公开实施例的第一方面中任一所述的方法。
根据本公开实施例的第七方面,提供一种计算机程序产品,包括计算机指令,所述计算机指令被处理器执行时,使得计算机执行本公开实施例的第一方面中任一项所述的方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
通过显示图像风格化处理页面,并设置图像风格化处理页面展示有内容图像输入区域和风格信息输入区域;从而响应于内容图像输入区域输入的第一图像以及风格信息输入区域输入的风格表征信息,在图像风格化处理页面增量展示第一图像被处理为目标风格后的第二图像,目标风格为风格表征信息指示的风格。通过这种页面的方式进行图像风格化转换,便于用户直观地操作,也能够及时得到风格化处理结果,实现了图像风格化处理的可视化操作,更加便捷,适用范围更广;
并且,通过在内容图像输入区域输入第一图像来表征进行风格化处理的图像内容,不需要用户手动输入描述内容的文本,图像内容能够被更加精准的表达,进而可以提升风格化处理的精度;
另外,通过设置内容图像输入区域和风格信息输入区域,使得风格化处理的图像内容和目标风格能够自动便捷的获得,使得图像的风格化处理更加精准高效。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种应用环境的示意图。
图2是根据一示例性实施例示出的一种图像处理方法的流程图。
图3a是根据一示例性实施例示出的一种图像风格化处理页面的示意图。
图3b是根据一示例性实施例示出的一种第二图像的展示示意图。
图3c是根据一示例性实施例示出的另一种第二图像的展示示意图。
图4a是根据一示例性实施例示出的另一种图像风格化处理页面的示意图。
图4b是根据一示例性实施例示出的另一种第二图像的展示示意图。
图4c是根据一示例性实施例示出的一种内容文本信息、风格描述文本信息以及第二图像的展示示意图。
图4d是根据一示例性实施例示出的一种内容文本信息以及风格描述文本信息的展示示意图。
图4e是根据一示例性实施例示出的一种风格优先级选择信息的展示示意图。
图4f是根据一示例性实施例示出的一种风格调整文本信息的展示示意图。
图5是根据一示例性实施例示出的一种目标风格的第三图像的示意图。
图6是根据一示例性实施例示出的一种风格化处理的流程框架图。
图7是根据一示例性实施例示出的另一种风格化处理的流程框架图。
图8是根据一示例性实施例示出的另一种图像处理方法的流程图。
图9是根据一示例性实施例示出的一种图像处理装置框图。
图10是根据一示例性实施例示出的一种用于图像处理的电子设备的框图。
图11是根据一示例性实施例示出的另一种用于图像处理的电子设备的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
近年来,随着人工智能技术研究和进步,人工智能技术在多个领域得到广泛应用,本申请实施例提供的方案涉及机器学习/深度学习等技术,具体通过如下实施例进行说明。
请参阅图1,图1是根据一示例性实施例示出的一种应用环境的示意图,如图1所示,该应用环境可以包括服务器01和终端02。
在一个可选的实施例中,服务器01可以用于图像的风格化处理。具体的,服务器01可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。
在一个可选的实施例中,终端02可以用于显示图像风格化处理页面以及展示风格化处理后的图像。具体的,终端02可以包括但不限于智能手机、台式计算机、平板电脑、笔记本电脑、智能音箱、数字助理、增强现实(augmented reality,AR)/虚拟现实(virtualreality,VR)设备、智能可穿戴设备等类型的电子设备。可选的,电子设备上运行的操作系统可以包括但不限于安卓系统、IOS系统、linux、windows等。
此外,需要说明的是,图1所示的仅仅是本公开提供的图像处理方法的一种应用环境。可选地,图像风格化处理以及图像风格化处理页面的显示和风格化处理后的图像展示均可以由终端02执行。
本说明书实施例中,上述服务器01以及终端02可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
需要说明的是,以下图中示出的是一种可能的步骤顺序,实际上并不限定必须严格按照此顺序。有些步骤可以在互不依赖的情况下并行执行。本公开所涉及的用户信息(包括但不限于用户设备信息、用户个人信息、用户行为信息等)和数据(包括但不限于用于展示的数据、训练的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
图2是根据一示例性实施例示出的一种图像处理方法的流程图,该图像处理方法可以应用于终端。如图2所示,可以包括以下步骤。
在步骤S201中,显示图像风格化处理页面,该图像风格化处理页面可以展示有内容图像输入区域和风格信息输入区域。
实际应用中,目标应用可以提供图像风格化处理功能,基于此,可以在目标应用中设置图像风格化处理页面。从而可以在目标应用的首页或预设页面设置进入该图像风格化处理页面的入口信息,进而可以通过触发该入口信息,以进入该图像风格化处理页面。即响应于该入口信息的触发操作,可以显示图像风格化处理页面。其中,目标应用可以是目标多媒体应用、目标图像处理应用、图像风格化处理应用等,目标多媒体应用可以包括短视频应用等,本公开对此不作限定。需要说明的是,图像风格化处理应用的情况下,启动该图像风格化处理应用,则可以显示图像风格化处理页面,可以不需要入口信息。
可选地,图像风格化处理页面可以是图像风格化处理网页,进入相应的图像风格化处理网站,则可以显示图像风格化处理网页,本公开对图像风格化处理页面的展示方式以及进入方式均不作限定。
在一个示例中,图像风格化处理页面可以如图3a所示,图像风格化处理页面可以展示有内容图像输入区域和风格信息输入区域,其中,内容图像输入区域可以如图3a所示的301,风格信息输入区域可以如图3a所示的302。在一种可选地方式中,还可以展示内容图像输入区域的提示信息“待风格化的内容”,以及展示风格信息输入区域的提示信息“风格表征信息”,以提示输入区域的功能。
内容图像输入区域可以用于输入或上传内容图像,用于提供风格化处理过程中的图像的内容,即风格化处理后的图像的内容与该内容图像的内容匹配。或者可以理解的是,内容图像可以是指为风格化处理提供内容的图像,从而基于该内容图像的内容来生成风格化处理后的图像的内容。
可选地,如图3a所示,内容图像输入区域可以包括图像选择控件303,可以通过触发303选择用于表征内容的图像,例如第一图像。
风格信息输入区域可以用于输入目标风格的风格表征信息,作为一个示例,如图3a所示的302,风格信息输入区域可以是文本框,相应地,风格表征信息可以是用于描述目标风格的文本信息。从而可以在该文本框中输入想要转换的风格,例如“转换成一幅插画效果的图片吧”。
在另一个示例中,图像风格化处理页面可以如图4a所示,图像风格化处理页面可以展示有内容图像输入区域和风格信息输入区域,其中,内容图像输入区域可以如图4a所示的401,风格信息输入区域可以如图4a所示的402。
内容图像输入区域可以用于输入或上传内容图像,即用于提供风格化处理的内容的图像,例如第一图像,用于提供风格化处理过程中的图像的内容,即风格化处理后的图像的内容可以与该内容图像的内容匹配。或者可以理解的是,内容图像可以是指为风格化处理提供内容的图像。
可选地,如图4a所示,内容图像输入区域可以包括图像选择控件403,可以通过触发403选择用于表征内容的图像,例如第一图像,比如XX1.jpg。该第一图像的风格属性可以与目标风格不同,即第一图像的风格属性可以不是目标风格。
风格信息输入区域可以用于输入目标风格的风格表征信息,如图4a所示的402,风格信息输入区域可以是图像选择区域,用于输入或上传风格图像,即目标风格的图像,以指示目标风格。或者可以理解的是,风格图像可以是指为风格化处理指示目标风格的图像。相应地,风格表征信息可以为风格图像,例如第三图像。
可选地,如图4a所示,风格信息输入区域可以包括图像选择控件404,可以通过触发404以选择用于指示目标风格的图像,例如第三图像,比如T1.jpg,该T1.jpg的风格属性为目标风格。
在步骤S203中,响应于内容图像输入区域输入的第一图像以及风格信息输入区域输入的风格表征信息,在图像风格化处理页面增量展示第二图像,该第二图像的内容与第一图像的内容匹配,该第二图像的风格属性为目标风格,该目标风格为风格表征信息指示的风格。风格表征信息可以为以下中的任一种:图像、文本信息、音频信息、视频信息,本公开对此不作限定。
本说明书实施例中,响应于内容图像输入区域输入的第一图像以及风格信息输入区域输入的风格表征信息,在图像风格化处理页面增量展示风格属性为目标风格的第二图像,如图3b所示的304。例如,在图3a的301中输入第一图像,以及在302中输入风格表征信息后,响应于内容图像输入区域输入的第一图像以及风格信息输入区域输入的风格表征信息,可以显示图3b,即可以在图像风格化处理页面增量展示第二图像304。该第二图像的内容与第一图像的内容匹配,该第二图像的风格属性为目标风格,该目标风格可以为风格表征信息指示的风格。其中,第二图像的内容与第一图像的内容匹配可以是指第二图像的内容与第一图像的内容相同(内容一致),这种情况下,风格化处理可以看作是对第一图像进行目标风格的转化处理。
或者,第二图像的内容与第一图像的内容匹配可以是指第一图像中的第一对象与第二图像中的第二对象的类型(例如品类、品种等)相同,第一图像中的第一对象可以是指第一图像中的前景对象,第二图像中的第二对象可以是指第二图像中的前景对象。例如,第一图像中的第一对象为花,则第二图像中的第二对象可以为花,第二图像中花的品种与第一图像中花的品种相同。第一图像的背景与第二图像的背景可以不同,第一对象的大小和数量,与第二对象的大小和数量也可以不同,本公开这些不作限定。其中,第一对象和第二对象可以是任意物体,本公开对此也不作限定。
作为一种可选方式,图像风格化处理页面还可以包括风格处理启动控件,例如图3a所示的“提交”。基于此,响应于内容图像输入区域输入的第一图像以及风格信息输入区域输入的风格表征信息,可以是指响应于该“提交”的触发操作,例如点击“提交”,则可以在图像风格化处理页面增量展示第二图像304,如图3b所示。具体地,响应于风格处理启动控件的触发操作,可以从内容图像输入区域提取第一图像,以及从风格信息输入区域提取风格表征信息;从而可以基于第一图像和风格表征信息进行风格化处理,得到第二图像,这里风格化处理的具体过程可以参见下面相应内容,在此不再赘述。
可选地,参见图3c和图4b,也可以同时展示第一图像,这样更加方便对比风格的变化,比较直观。基于此,该方法还可以包括:在图像风格化处理页面展示第一图像,即可以在图像风格化处理页面展示第一图像和第二图像。第一图像可以如图3c所示的305,或者如图4b所示的405,也就是待风格化的内容,即内容图像:XX1.jpg。
在一个示例中,在图3a的301中输入第一图像,以及在302中输入风格表征信息后,可以显示图3c,即可以在图像风格化处理页面展示第一图像305以及第二图像304。
在另一个示例中,在图4a的401中输入第一图像,以及在402中输入风格图像(即第三图像)后,可以显示图4b,即可以在图像风格化处理页面展示第一图像405以及第二图像406。其中,第三图像可以如图5所示,第三图像的风格属性为目标风格,即这里的插画风格,通过一个已有插画风格的第三图像,自动地将第一图像的内容转换为插画风格的第二图像,从而自动精准地将第一图像的内容以目标风格进行展示,不需要手动进行内容描述,也不需要手动进行风格描述,高效便捷且精准。
通过显示图像风格化处理页面,并设置图像风格化处理页面展示有内容图像输入区域和风格信息输入区域;从而响应于内容图像输入区域输入的第一图像以及风格信息输入区域输入的风格表征信息,在图像风格化处理页面增量展示第一图像被处理为目标风格后的第二图像,目标风格为风格表征信息指示的风格。通过这种页面的方式进行图像风格化转换,便于用户直观地操作,也能够及时得到风格化处理结果,实现了图像风格化处理的可视化操作,更加便捷,适用范围更广;
并且,通过在内容图像输入区域输入第一图像来表征进行风格化处理的图像内容,不需要用户手动输入描述内容的文本,图像内容能够被更加精准的表达,进而可以提升风格化处理的精度;
另外,通过设置内容图像输入区域和风格信息输入区域,使得风格化处理的图像内容和目标风格能够自动便捷的获得,使得图像的风格化处理更加精准高效。
上述主要是图像风格转换的展示内容,下面介绍基于风格表征信息和第一图像进行风格化处理的过程。在一种可能的实现方式中,该方法还可以包括以下步骤:
对风格表征信息进行风格提取处理,得到风格描述文本信息。作为一个示例,风格表征信息可以为第三图像或者可以为风格指示文本信息,也就是说,风格表征信息可以是图像或文本。基于此,在风格表征信息为图像的情况下,例如风格表征信息为第三图像,第三图像的风格属性为目标风格。相应地,对风格表征信息进行风格提取处理,得到风格描述文本信息,可以包括:将第三图像输入风格提取模型,进行风格提取处理,得到风格描述文本信息。通过设置风格提取模型来提取第三图像的风格,可以提升目标风格的精准性和便捷性。其中,风格描述文本信息可以是指描述目标风格的文本信息。风格描述文本信息可以是一句话,或者可以是描述目标风格的词语组合,本公开对此不作限定。风格描述文本信息的语言种类,本公开也不作限定。这里的风格提取模型可以为BLIP(BootstrappingLanguage-Image Pre-training,引导语言图像预训练)模型,本公开对此不作限定。BLIP模型是一个统一的视觉语言预训练(vision-language pre-training,VLP)框架,可以基于输入的图像输出图像的风格。该风格提取模型可以基于第一训练样本对初始风格提取模型进行训练得到的,第一训练样本可以包括多个样本图像以及各样本图像对应的风格标签(例如标注的风格文本)。本公开对于训练方式不作限定,例如可以将多个样本图像输入初始风格提取模型,得到风格预测文本,从而可以基于风预测文本和风格标签确定损失信息,从而可以基于该损失信息调整初始风格提取模型的参数,直至满足训练迭代条件,可以将满足训练迭代条件时的初始风格提取模型作为语义提取模型。训练迭代条件可以是训练迭代次数阈值、损失阈值等。
在风格表征信息为文本的情况下,例如风格表征信息为风格指示文本信息。相应地,对风格表征信息进行风格提取处理,得到风格描述文本信息,可以包括:可以对风格指示文本信息进行文本处理,得到风格描述文本信息。例如,可以对风格指示文本信息进行语序处理,得到风格描述文本信息,这里可以通过设置语序调整模块来实现。或者,可以将风格指示文本信息输入文本处理模型,得到风格描述文本信息,其中,文本处理模型可以是文本翻译模型、关键词提取模型等,可以是预先训练得到的。通过对风格指示文本信息进行语序处理,得到描述目标风格的文本信息,处理更加简单;通过文本处理模型进行文本处理可以适用大量文本处理的需求,也更加精准。
并且,可以对第一图像进行语义提取处理,得到内容文本信息。其中,内容文本信息可以是指描述风格化处理的内容的文本信息,内容文本信息可以是一段完整的句子,或者可以是对于内容描述的词语组合。内容文本信息的语言种类,本公开不作限定。作为一个示例,可以将第一图像输入语义提取模型,进行语义提取处理,得到内容文本信息。通过语义提取模型来提取第一图像的语义,可以提升内容文本信息的提取精准性和便捷性;并且,与直接输入一个图片至模型以输出一个目标风格的图片的方式相比,这里将风格化处理的内容以一个独立的语义提取模型来提取,不仅可以得到用于引导风格化处理的内容文本,而且提取的语义特征更加稠密,使得内容文本信息更加全面和准确,这样在风格化处理中,既可以有文本引导,又可以保证引导的精准性,且内容文本信息不需要手动输入,从而可以进一步提升内容文本信息的提取精准性和便捷性。
其中,语义提取模型可以为BLIP模型,本公开对此不作限定。语义提取模型可以基于输入的图像输出图像的内容。该语义提取模型可以基于第二训练样本对初始语义提取模型进行训练得到的,第二训练样本可以包括多个样本图像以及各样本图像对应的内容标签(例如样本图像内容文本)。本公开对于训练方式不作限定,例如可以将多个样本图像输入初始语义提取模型,得到内容预测文本,从而可以基于内容预测文本和内容标签确定损失信息,从而可以基于该损失信息调整初始语义提取模型的参数,直至满足训练迭代条件,可以将满足训练迭代条件时的初始语义提取模型作为语义提取模型。训练迭代条件可以是训练迭代次数阈值、损失阈值等。
进一步地,可以对内容文本信息和风格描述文本信息进行融合处理,得到目标文本信息。目标文本信息的语言种类,本公开不作限定。这里的融合处理可以是拼接处理,或者可以是文本去重以及拼接处理。拼接处理中可以基于预设语法进行拼接,预设语法可以是每种语言各自的语法,本公开对此不作限定。可选地,该融合处理中还可以包括关键词添加处理,例如可以添加一些指示图像显示指标的关键词,比如“高清”、“广角”等,本公开对此不作限定。
从而可以将目标文本信息输入风格化处理模型,得到第二图像。其中,风格化处理模型可以是指文字引导的生成模型,例如可以包括扩散模型、生成对抗网络GAN(Generative Adversarial Nets)等。风格化处理模型可以是基于第三训练样本进行训练得到的。
风格化处理模型为扩散模型的情况下,该该第三训练样本可以包括多个样本文本以及各样本文本对应的图像标签;从而可以基于第三训练样本对初始扩散模型进行有监督训练得到风格化处理模型。
风格化处理模型为生成对抗网络的情况下,该第三训练样本可以包括多个样本文本,从而可以基于多个样本文本对初始生成对抗网络进行无监督训练得到风格化处理模型,本公开对具体训练过程不作限定。或者,该第三训练样本可以包括多个样本文本以及各样本文本对应的标注信息,该标注信息可以为样本图像。从而可以基于多个样本文本以及标注信息,对初始生成对抗网络进行有监督训练以得到风格化处理模型。
通过提取第一图像的语义以得到内容文本信息,结合风格描述文本信息,作为风格化处理模型的输入,可以提升风格化处理的精度。一方面,与缺乏语义信息引导的模型相比,能对全局的语义有整体的认知,在非结构化数据的风格化处理上表现更优,应用场景的可扩展性较佳;另一方面,通过内容文本信息和风格描述文本信息的自动化获取,使得内容文本信息和风格描述文本信息更加准确,从而提升了风格化处理模型输入的目标文本信息的语义精准度,可以进一步提升风格化处理的精度。
作为一个示例,风格化处理的流程框架图可以如图6所示,其中,风格提取模块可以为风格提取模型、文本处理模型或语序调整模块。从而可以将第三图像或风格指示文本输入风格提取模块,进行风格提取处理,得到目标风格的风格描述文本信息。并且可以将提供内容的第一图像输入语义提取模型进行语义提取处理,得到内容文本信息。从而可以整合风格描述文本信息和内容文本信息,得到目标文本信息。例如,内容文本信息为“一朵盛开的XX花”,风格描述文本信息为“插画的画风”,得到的目标文本信息可以为“一幅插画风格的、盛开的XX花”。进一步地,可以将目标文本信息输入风格化处理模型,通过文字引导以生成插画风格的第二图像,即输出第二图像,该第二图像的风格属性和内容,可以与风格描述文本信息指示的目标风格以及内容文本信息指示的内容一致,即与目标文本信息一致。相应地,该第二图像可以作为风格化处理结果进行展示。
可选地,风格化处理的流程框架图还可以如图7所示,其中,可以在风格化处理模型的输入中增加噪声信息,这样在保证第二图像与目标文本信息一致的情况下,还可以提升风格化处理所生成的图像的多样性。基于此,该方法还可以包括:获取噪声信息;例如,可以对第一图像进行加噪处理,例如加入随机噪声等,得到噪声信息;或者,可以对预设高斯噪声进行采样得到该噪声信息。其中,采样的方式可以是随机采样,本公开对此不作限定。
相应地,将目标文本信息输入风格化处理模型,得到第二图像,可以包括:将噪声信息和目标文本信息输入风格化处理模型,得到第二图像。需要说明的是,这里的风格化处理模型在训练时,第三训练样本还可以包括样本噪声。
作为一种可选地实施方式,还可以在图像风格化处理页面展示内容文本信息和风格描述文本信息,以直观展示内容文本信息和风格描述文本信息。基于此,上述步骤S203可以包括:响应于内容图像输入区域输入的第一图像以及风格信息输入区域输入的风格表征信息,在图像风格化处理页面增量展示内容文本信息以及风格描述文本信息,内容文本信息如图4c所示的407,风格描述文本信息如图4c所示的408。其中,内容文本信息与第一图像的语义内容对应,风格描述文本信息为描述目标风格的文本信息。
进一步地,响应于风格化处理指令,例如响应于图4c中的“提交”被点击触发的风格化处理指令,可以在图像风格化处理页面增量展示第二图像;该第二图像是基于内容文本信息和风格描述文本信息得到的。
作为一种可选地实施方式,可以在图像风格化处理页面展示内容文本信息和风格描述文本信息,并可以对内容文本信息和风格描述文本信息的调整,能够满足图像处理的灵活。需求。基于此,上述步骤S203可以包括:响应于内容图像输入区域输入的第一图像以及风格信息输入区域输入的风格表征信息,在图像风格化处理页面增量展示内容文本信息以及风格描述文本信息,如图4d所示的409和410。内容文本信息与第一图像的语义内容对应,风格描述文本信息为描述目标风格的文本信息;
检测到内容文本信息的第一调整操作和/或风格描述文本信息的第二调整操作,例如图4d中的“调整”被点击操作,内容文本信息和风格描述文本信息可以转换为可编辑状态,在编辑完成的情况下,可以触发编辑完成指令,从而可以展示内容调整信息和/或风格调整文本信息,即展示调整后的内容文本信息和风格描述文本信息。作为一个示例,在风格描述文本信息中包括至少两种风格的情况下,可以在图像风格化处理页面展示风格优先级选择信息,即图4d的410的展示可以如图4e所示,可以包括图4e所示的411。基于此,响应于基于风格优先级选择信息触发的优先级确认指令,例如图4f中风格1和风格2均被勾选、且选择了风格1的优先级信息为高、风格2的优先级信息为低,则可以确定检测到第二调整操作,从而可以展示至少两种目标风格各自对应的优先级信息,如图4f所示的412。并可以根据优先级信息和风格描述文本信息,生成并展示风格调整文本信息,该风格调整文本信息可以包括被选择的目标风格以及对应的优先级信息,例如“转换后的风格包括风格1和风格2,其中,风格1的优先级高于风格2的优先级”。这里仅仅是示例,不对本公开进行限定,例如,可以仅选择风格1,这样风格1的优先级信息默认为高。
进一步地,响应于风格化处理指令,在图像风格化处理页面增量展示第二图像,可以如图3b、图3c、图4b和图4c中的任一种。其中,第二图像是基于展示内容调整信息和风格调整文本信息得到的;或者第二图像是基于展示内容调整信息和风格描述文本信息得到的;或者第二图像是基于内容文本信息和风格调整文本信息得到的。具体地,对于至少两种目标风格这种混合风格的图像处理方式中,可以基于优先级信息确定风格权重,例如可以将优先级信息较高的目标风格确定为主风格,权重设置较高;将优先级较低的目标风格确定为辅助风格,权重设置较低,这样可以以主风管对待风格化的内容进行风格化,以辅助风格进行细节修补。或者可以将优先级信息较高的目标风格确定为前景的风格,将优先级信息较低的目标风格确定为背景的风格,以实现图像的多样化风格处理。
图8是根据一示例性实施例示出的另一种图像处理方法的流程图。可以应用于终端或服务器。如图8所示,该方法可以包括:
在步骤S801中,获取待风格化的第一图像以及风格表征信息;
在步骤S803中,对风格表征信息进行风格提取处理,得到风格描述文本信息;
在步骤S805中,对第一图像进行语义提取处理,得到内容文本信息;
在步骤S807中,对内容文本信息和风格描述文本信息进行融合处理,得到目标文本信息;
在步骤S809中,将目标文本信息输入风格化处理模型,得到第二图像;所述第二图像的风格属性为目标风格,所述目标风格为所述风格表征信息指示的风格。
需要说明的是,在服务器执行的情况下,可以将第二图像发送至终端,以使终端在图像风格化处理页面中展示该第二图像。
作为一个示例,风格表征信息可以为第三图像;相应地,上述步骤S803可以包括:将第三图像输入风格提取模型,进行风格提取处理,得到风格描述文本信息。
在一种可选的实施方式中,步骤S807之前还可以包括:获取对内容文本信息执行第一调整操作得到的内容调整信息,和/或对风格描述文本信息执行第二调整操作得到的风格调整文本信息。相应地,步骤S807可以包括:基于内容调整信息和/或风格调整文本信息,得到目标文本信息。例如,可以对内容调整信息和风格调整文本信息进行融合处理,得到目标文本信息;或者可以对内容调整信息和风格描述文本信息进行融合处理,得到目标文本信息;或者可以对内容文本信息和风格调整文本信息进行融合处理,得到目标文本信息。
可选地,该方法还可以包括:获取噪声信息;相应地,步骤S809可以包括:将噪声信息和目标文本信息输入风格化处理模型,得到第二图像。其中,获取噪声信息可以包括:对第一图像进行加噪处理,得到噪声信息;或者,对预设高斯噪声进行采样得到噪声信息。
以上图8相关步骤的具体处理方式,可以参见上述相应步骤的处理,在此不再赘述。
图9是根据一示例性实施例示出的一种图像处理装置框图。参照图9,该装置可以包括:
页面显示模块901,被配置为执行显示图像风格化处理页面,该图像风格化处理页面展示有内容图像输入区域、风格信息输入区域;
风格化图像展示模块903,被配置为执行响应于所述内容图像输入区域输入的第一图像以及所述风格信息输入区域输入的风格表征信息,在所述图像风格化处理页面增量展示第二图像,所述第二图像的内容与所述第一图像的内容匹配,所述第二图像的风格属性为目标风格,所述目标风格为所述风格表征信息指示的风格。
通过显示图像风格化处理页面,并设置图像风格化处理页面展示有内容图像输入区域和风格信息输入区域;从而响应于内容图像输入区域输入的第一图像以及风格信息输入区域输入的风格表征信息,在图像风格化处理页面增量展示第一图像被处理为目标风格后的第二图像,目标风格为风格表征信息指示的风格。通过这种页面的方式进行图像风格化转换,便于用户直观地操作,也能够及时得到风格化处理结果,实现了图像风格化处理的可视化操作,更加便捷,适用范围更广;
并且,通过在内容图像输入区域输入第一图像来表征进行风格化处理的图像内容,不需要用户手动输入描述内容的文本,图像内容能够被更加精准的表达,进而可以提升风格化处理的精度;
另外,通过设置内容图像输入区域和风格信息输入区域,使得风格化处理的图像内容和目标风格能够自动便捷的获得,使得图像的风格化处理更加精准高效。
在一种可能的实现方式中,上述风格化图像展示模块903可以包括:
第一文本信息展示单元,被配置为执行响应于所述内容图像输入区域输入的第一图像以及所述风格信息输入区域输入的风格表征信息,在所述图像风格化处理页面增量展示内容文本信息以及风格描述文本信息;所述内容文本信息与所述第一图像的语义内容对应,所述风格描述文本信息为描述所述目标风格的文本信息;
第一风格化图像展示单元,被配置为执行响应于风格化处理指令,在所述图像风格化处理页面增量展示所述第二图像;所述第二图像是基于所述内容文本信息和所述风格描述文本信息得到的。
在一种可能的实现方式中,上述风格化图像展示模块903可以包括:
第二文本信息展示单元,被配置为执行响应于所述内容图像输入区域输入的第一图像以及所述风格信息输入区域输入的风格表征信息,在所述图像风格化处理页面增量展示内容文本信息以及风格描述文本信息;所述内容文本信息与所述第一图像的语义内容对应,所述风格描述文本信息为描述所述目标风格的文本信息;
文本调整单元,被配置为执行检测到所述内容文本信息的第一调整操作和/或所述风格描述文本信息的第二调整操作,展示内容调整信息和/或风格调整文本信息;
第二风格化图像展示单元,被配置为执行响应于所述风格化处理指令,在所述图像风格化处理页面增量展示所述第二图像;所述第二图像是基于所述展示内容调整信息和所述风格调整文本信息得到的;或者所述第二图像是基于所述展示内容调整信息和所述风格描述文本信息得到的;或者所述第二图像是基于所述内容文本信息和所述风格调整文本信息得到的。
在一种可能的实现方式中,所述风格描述文本信息中包括至少两种目标风格;上述文本调整单元可以包括:
优先级选择子单元,被配置为执行在所述图像风格化处理页面展示风格优先级选择信息;
第二调整操作确定子单元,被配置为执行响应于基于所述风格优先级选择信息触发的优先级确认指令,确定检测到所述第二调整操作,展示所述至少两种目标风格各自对应的优先级信息;
风格调整文本展示子单元,被配置为执行根据所述优先级信息和所述风格描述文本信息,生成并展示所述风格调整文本信息。
在一种可能的实现方式中,所述风格表征信息为以下中的任一种:图像、文本信息、音频信息、视频信息。
在一种可能的实现方式中,该装置还可以包括:
第一展示模块,被配置为执行在所述图像风格化处理页面展示所述第一图像。
在一种可能的实现方式中,该装置还可以包括:
风格提取模块,被配置为执行对所述风格表征信息进行风格提取处理,得到风格描述文本信息;
语义提取模块,被配置为执行对所述第一图像进行语义提取处理,得到内容文本信息;
文本融合模块,被配置为执行对所述内容文本信息和所述风格描述文本信息进行融合处理,得到目标文本信息;
风格化处理模块,被配置为执行将所述目标文本信息输入风格化处理模型,得到所述第二图像。
在一种可能的实现方式中,上述风格表征信息为第三图像,该第三图像的风格属性可以为目标风格;相应地,上述风格提取模块可以包括:
第一风格提取单元,被配置为执行将所述第三图像输入风格提取模型,进行风格提取处理,得到所述风格描述文本信息。
在一种可能的实现方式中,上述风格表征信息为风格指示文本信息;相应地,上风格提取模块还可以包括:
第二风格提取单元,被配置为执行对所述风格指示文本信息进行语序处理,得到所述风格描述文本信息;或者,将所述风格指示文本信息输入文本处理模型,得到所述风格描述文本信息。
在一种可能的实现方式中,上述语义提取模块,还被配置为执行将所述第一图像输入语义提取模型,进行语义提取处理,得到所述内容文本信息。
在一种可能的实现方式中,该装置还可以包括:
噪声获取模块,被配置为执行获取噪声信息;
所述风格化处理模块,还被配置为执行将所述噪声信息和所述目标文本信息输入所述风格化处理模型,得到所述第二图像。
在一种可能的实现方式中,上述噪声获取模块,还被配置为执行对所述第一图像进行加噪处理,得到所述噪声信息;或者,对预设高斯噪声进行采样得到所述噪声信息。
本公开还提供了一种图像处理装置,可以应用于服务器或终端,该装置可以包括:
获取模块,被配置为执行获取待风格化的第一图像以及风格表征信息;
风格文本获取模块,被配置为执行对所述风格表征信息进行风格提取处理,得到风格描述文本信息;
内容文本获取模块,被配置为执行对所述第一图像进行语义提取处理,得到内容文本信息;
目标文本信息获取模块,被配置为执行对所述内容文本信息和所述风格描述文本信息进行融合处理,得到目标文本信息;
风格处理模块,被配置为执行将所述目标文本信息输入风格化处理模型,得到第二图像;所述第二图像的内容与所述第一图像的内容匹配,所述第二图像的风格属性为目标风格,所述目标风格为所述风格表征信息指示的风格。
在一种可能的实现方式中,所述风格表征信息为第三图像;所述风格文本获取模块包括:
风格文本获取单元,被配置为执行将所述第三图像输入风格提取模型,进行风格提取处理,得到所述风格描述文本信息。
在一种可能的实现方式中,所述装置还包括:
噪声信息获取模块,被配置为执行获取噪声信息;
所述风格处理模块,还被配置为执行将所述噪声信息和所述目标文本信息输入所述风格化处理模型,得到所述第二图像。
在一种可能的实现方式中,所述噪声信息获取模块,还被配置为执行对所述第一图像进行加噪处理,得到所述噪声信息;或者,对预设高斯噪声进行采样得到所述噪声信息。
在一种可能的实现方式中,该装置还可以包括:
文本调整模块,被配置为执行获取对所述内容文本信息执行第一调整操作得到的内容调整信息,和/或对所述风格描述文本信息执行第二调整操作得到的风格调整文本信息;
相应地,上述目标文本信息获取模块,还被配置为执行基于所述内容调整信息和/或所述风格调整文本信息,得到所述目标文本信息。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图10是根据一示例性实施例示出的一种用于图像处理的电子设备的框图,该电子设备可以是终端,其内部结构图可以如图10所示。该电子设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种图像处理的方法。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该电子设备的输入装置可以是显示屏上覆盖的触摸层,也可以是电子设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图10中示出的结构,仅仅是与本公开方案相关的部分结构的框图,并不构成对本公开方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
图11是根据一示例性实施例示出的另一种用于图像处理的电子设备的框图,该电子设备可以是服务器,其内部结构图可以如图11所示。该电子设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种图像处理的方法。
本领域技术人员可以理解,图11中示出的结构,仅仅是与本公开方案相关的部分结构的框图,并不构成对本公开方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在示例性实施例中,还提供了一种电子设备,包括:处理器;用于存储该处理器可执行指令的存储器;其中,该处理器被配置为执行该指令,以实现如本公开实施例中的图像处理方法。
在示例性实施例中,还提供了一种计算机可读存储介质,当该计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行本公开实施例中的图像处理方法。计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行本公开实施例中的图像处理的方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (20)
1.一种图像处理方法,其特征在于,包括:
显示图像风格化处理页面,所述图像风格化处理页面展示有内容图像输入区域和风格信息输入区域;
响应于所述内容图像输入区域输入的第一图像以及所述风格信息输入区域输入的风格表征信息,在所述图像风格化处理页面增量展示第二图像,所述第二图像的内容与所述第一图像的内容匹配,所述第二图像的风格属性为目标风格,所述目标风格为所述风格表征信息指示的风格。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在所述图像风格化处理页面展示所述第一图像。
3.根据权利要求1或2所述的方法,其特征在于,所述响应于所述内容图像输入区域输入的第一图像以及所述风格信息输入区域输入的风格表征信息,在所述图像风格化处理页面增量展示第二图像,包括:
响应于所述内容图像输入区域输入的第一图像以及所述风格信息输入区域输入的风格表征信息,在所述图像风格化处理页面增量展示内容文本信息以及风格描述文本信息;所述内容文本信息与所述第一图像的语义内容对应,所述风格描述文本信息为描述所述目标风格的文本信息;
响应于风格化处理指令,在所述图像风格化处理页面增量展示所述第二图像;所述第二图像是基于所述内容文本信息和所述风格描述文本信息得到的。
4.根据权利要求1或2所述的方法,其特征在于,所述响应于所述内容图像输入区域输入的第一图像以及所述风格信息输入区域输入的风格表征信息,在所述图像风格化处理页面增量展示第二图像,包括:
响应于所述内容图像输入区域输入的第一图像以及所述风格信息输入区域输入的风格表征信息,在所述图像风格化处理页面增量展示内容文本信息以及风格描述文本信息;所述内容文本信息与所述第一图像的语义内容对应,所述风格描述文本信息为描述所述目标风格的文本信息;
检测到所述内容文本信息的第一调整操作和/或所述风格描述文本信息的第二调整操作,展示内容调整信息和/或风格调整文本信息;
响应于所述风格化处理指令,在所述图像风格化处理页面增量展示所述第二图像;所述第二图像是基于所述展示内容调整信息和所述风格调整文本信息得到的;或者所述第二图像是基于所述展示内容调整信息和所述风格描述文本信息得到的;或者所述第二图像是基于所述内容文本信息和所述风格调整文本信息得到的。
5.根据权利要求4所述的方法,其特征在于,所述风格描述文本信息中包括至少两种目标风格;所述检测到所述风格描述文本信息的第二调整操作,展示风格调整文本信息,包括:
在所述图像风格化处理页面展示风格优先级选择信息;
响应于基于所述风格优先级选择信息触发的优先级确认指令,确定检测到所述第二调整操作,展示所述至少两种目标风格各自对应的优先级信息;
根据所述优先级信息和所述风格描述文本信息,生成并展示所述风格调整文本信息。
6.根据权利要求1所述的方法,其特征在于,所述风格表征信息为以下中的任一种:图像、文本信息、音频信息、视频信息。
7.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
对所述风格表征信息进行风格提取处理,得到风格描述文本信息;
对所述第一图像进行语义提取处理,得到内容文本信息;
对所述内容文本信息和所述风格描述文本信息进行融合处理,得到目标文本信息;
将所述目标文本信息输入风格化处理模型,得到所述第二图像。
8.根据权利要求7所述的方法,其特征在于,所述风格表征信息为第三图像,所述第三图像的风格属性为所述目标风格;所述对所述风格表征信息进行风格提取处理,得到风格描述文本信息,包括:
将所述第三图像输入风格提取模型,进行风格提取处理,得到所述风格描述文本信息。
9.根据权利要求7所述的方法,其特征在于,所述风格表征信息为风格指示文本信息;所述对所述风格表征信息进行风格提取处理,得到风格描述文本信息,包括:
对所述风格指示文本信息进行语序处理,得到所述风格描述文本信息;
或者,将所述风格指示文本信息输入文本处理模型,得到所述风格描述文本信息。
10.根据权利要求7所述的方法,其特征在于,所述对所述第一图像进行语义提取处理,得到内容文本信息,包括:
将所述第一图像输入语义提取模型,进行语义提取处理,得到所述内容文本信息。
11.根据权利要求7所述的方法,其特征在于,所述方法还包括:
获取噪声信息;
所述将所述目标文本信息输入风格化处理模型,得到所述第二图像,包括:
将所述噪声信息和所述目标文本信息输入所述风格化处理模型,得到所述第二图像。
12.根据权利要求11所述的方法,其特征在于,所述获取噪声信息,包括:
对所述第一图像进行加噪处理,得到所述噪声信息;
或者,对预设高斯噪声进行采样得到所述噪声信息。
13.一种图像处理方法,其特征在于,包括:
获取待风格化的第一图像以及风格表征信息;
对所述风格表征信息进行风格提取处理,得到风格描述文本信息;
对所述第一图像进行语义提取处理,得到内容文本信息;
对所述内容文本信息和所述风格描述文本信息进行融合处理,得到目标文本信息;
将所述目标文本信息输入风格化处理模型,得到第二图像;所述第二图像的内容与所述第一图像的内容匹配,所述第二图像的风格属性为目标风格,所述目标风格为所述风格表征信息指示的风格。
14.根据权利要求13所述的方法,其特征在于,所述风格表征信息为第三图像;所述对所述风格表征信息进行风格提取处理,得到风格描述文本信息,包括:
将所述第三图像输入风格提取模型,进行风格提取处理,得到所述风格描述文本信息。
15.根据权利要求13或14所述的方法,其特征在于,所述方法还包括:
获取噪声信息;
所述将所述目标文本信息输入风格化处理模型,得到第二图像,包括:
将所述噪声信息和所述目标文本信息输入所述风格化处理模型,得到所述第二图像。
16.根据权利要求15所述的方法,其特征在于,所述获取噪声信息,包括:
对所述第一图像进行加噪处理,得到所述噪声信息;
或者,对预设高斯噪声进行采样得到所述噪声信息。
17.根据权利要求13所述的方法,其特征在于,所述方法还包括:
获取对所述内容文本信息执行第一调整操作得到的内容调整信息,和/或对所述风格描述文本信息执行第二调整操作得到的风格调整文本信息;
所述对所述内容文本信息和所述风格描述文本信息进行融合处理,得到目标文本信息,包括:
基于所述内容调整信息和/或所述风格调整文本信息,得到所述目标文本信息。
18.一种图像处理装置,其特征在于,包括:
页面显示模块,被配置为执行显示图像风格化处理页面,所述图像风格化处理页面展示有内容图像输入区域、风格信息输入区域;
风格化图像展示模块,被配置为执行响应于所述内容图像输入区域输入的第一图像以及所述风格信息输入区域输入的风格表征信息,在所述图像风格化处理页面增量展示第二图像,所述第二图像的内容与所述第一图像的内容匹配,所述第二图像的风格属性为目标风格,所述目标风格为所述风格表征信息指示的风格。
19.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至17中任一项所述的图像处理方法。
20.一种计算机可读存储介质,其特征在于,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行如权利要求1至17中任一项所述的图像处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310102357.XA CN116188250A (zh) | 2023-01-29 | 2023-01-29 | 图像处理方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310102357.XA CN116188250A (zh) | 2023-01-29 | 2023-01-29 | 图像处理方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116188250A true CN116188250A (zh) | 2023-05-30 |
Family
ID=86450226
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310102357.XA Pending CN116188250A (zh) | 2023-01-29 | 2023-01-29 | 图像处理方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116188250A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116664719A (zh) * | 2023-07-28 | 2023-08-29 | 腾讯科技(深圳)有限公司 | 一种图像重绘模型训练方法、图像重绘方法及装置 |
-
2023
- 2023-01-29 CN CN202310102357.XA patent/CN116188250A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116664719A (zh) * | 2023-07-28 | 2023-08-29 | 腾讯科技(深圳)有限公司 | 一种图像重绘模型训练方法、图像重绘方法及装置 |
CN116664719B (zh) * | 2023-07-28 | 2023-12-29 | 腾讯科技(深圳)有限公司 | 一种图像重绘模型训练方法、图像重绘方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108052577B (zh) | 一种通用文本内容挖掘方法、装置、服务器及存储介质 | |
US10733197B2 (en) | Method and apparatus for providing information based on artificial intelligence | |
CN111191078B (zh) | 基于视频信息处理模型的视频信息处理方法及装置 | |
CN110020411B (zh) | 图文内容生成方法及设备 | |
JP7432556B2 (ja) | マンマシンインタラクションのための方法、装置、機器および媒体 | |
CN111666401B (zh) | 基于图结构的公文推荐方法、装置、计算机设备及介质 | |
CN109858010A (zh) | 领域新词识别方法、装置、计算机设备和存储介质 | |
JP6361351B2 (ja) | 発話ワードをランク付けする方法、プログラム及び計算処理システム | |
JP7394809B2 (ja) | ビデオを処理するための方法、装置、電子機器、媒体及びコンピュータプログラム | |
CN110929094A (zh) | 一种视频标题处理方法和装置 | |
CN111783508A (zh) | 用于处理图像的方法和装置 | |
CN104182381A (zh) | 文字输入用方法和系统 | |
CN112287168A (zh) | 用于生成视频的方法和装置 | |
CN116012481B (zh) | 图像生成处理方法、装置、电子设备及存储介质 | |
US20220383381A1 (en) | Video generation method, apparatus, terminal and storage medium | |
WO2020052061A1 (zh) | 用于处理信息的方法和装置 | |
CN116188250A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
WO2020052060A1 (zh) | 用于生成修正语句的方法和装置 | |
CN110020110B (zh) | 媒体内容推荐方法、装置及存储介质 | |
CN111158648B (zh) | 一种基于实景语义理解的互动帮助系统开发方法及其平台 | |
US11036996B2 (en) | Method and apparatus for determining (raw) video materials for news | |
US9940320B2 (en) | Plugin tool for collecting user generated document segmentation feedback | |
CN112100501A (zh) | 信息流的处理方法、装置及电子设备 | |
CN113438532B (zh) | 视频处理、视频播放方法、装置、电子设备及存储介质 | |
CN114925206A (zh) | 人工智能体、语音信息识别方法、存储介质和程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |