CN116884004A - 图像处理方法、装置、电子设备和存储介质 - Google Patents
图像处理方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN116884004A CN116884004A CN202310899530.3A CN202310899530A CN116884004A CN 116884004 A CN116884004 A CN 116884004A CN 202310899530 A CN202310899530 A CN 202310899530A CN 116884004 A CN116884004 A CN 116884004A
- Authority
- CN
- China
- Prior art keywords
- image
- target
- resolution
- expansion
- original
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 31
- 238000012545 processing Methods 0.000 claims abstract description 136
- 230000000007 visual effect Effects 0.000 claims abstract description 28
- 238000000034 method Methods 0.000 claims description 96
- 230000006870 function Effects 0.000 claims description 56
- 230000008569 process Effects 0.000 claims description 47
- 238000004590 computer program Methods 0.000 claims description 23
- 230000004044 response Effects 0.000 claims description 13
- 230000015654 memory Effects 0.000 claims description 11
- 238000010606 normalization Methods 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 9
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000010801 machine learning Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 22
- 230000006854 communication Effects 0.000 description 7
- 230000000977 initiatory effect Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000009792 diffusion process Methods 0.000 description 6
- 239000013598 vector Substances 0.000 description 6
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 4
- 230000009467 reduction Effects 0.000 description 4
- 230000002829 reductive effect Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000001960 triggered effect Effects 0.000 description 3
- 108010001267 Protein Subunits Proteins 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 239000000758 substrate Substances 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4038—Image mosaicing, e.g. composing plane images from plane sub-images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/30—Noise filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Processing (AREA)
Abstract
本公开提供了一种图像处理方法、装置、电子设备和存储介质,涉及人工智能技术领域,尤其涉及计算机视觉、图像处理、机器学习技术领域。该图像处理方法包括:响应于图像扩展请求,对第一原始图像进行视觉语言识别,得到图像描述文本;利用图像扩展请求包括的目标横纵比和第一目标分辨率,基于第一原始图像,生成第二原始图像和第一掩码图像;以图像描述文本和第二原始图像作为语义基准,基于第一掩码图像进行图像生成,得到第一目标掩码图像;以及将第一目标掩码图像与第二原始图像进行图像拼接,得到目标扩展图像。
Description
技术领域
本公开涉及人工智能技术领域,尤其涉及计算机视觉、图像处理、机器学习技术领域,更具体地,涉及一种图像处理方法、装置、电子设备和存储介质。
背景技术
图像扩展技术是一种图像生成技术,其目标是通过理解图像的语义内容和结构,生成与原始图像风格和内容相一致的扩展部分,以扩展图像的边界或画布,生成更大尺寸或更完整的图像,在图像编辑、虚拟现实等领域具有广泛的应用。
发明内容
有鉴于此,本公开提供了一种图像处理方法、装置、电子设备、可读存储介质和计算机程序产品。
本公开的一个方面提供了一种图像处理方法,包括:响应于图像扩展请求,对第一原始图像进行视觉语言识别,得到图像描述文本;利用上述图像扩展请求包括的目标横纵比和第一目标分辨率,基于上述第一原始图像,生成第二原始图像和第一掩码图像;以上述图像描述文本和上述第二原始图像作为语义基准,基于上述第一掩码图像进行图像生成,得到第一目标掩码图像;以及将上述第一目标掩码图像与上述第二原始图像进行图像拼接,得到目标扩展图像。
本公开的另一个方面提供了一种图像处理方法,包括:响应于任务启动控件被触发,从显示界面包括的图像输入控件的返回结果中获取第一原始图像;对上述第一原始图像进行视觉语言识别,得到图像描述文本;基于上述显示界面包括的多个配置控件各自的返回结果,得到目标横纵比和第一目标分辨率;利用上述目标横纵比和上述第一目标分辨率,基于上述第一原始图像,生成第二原始图像和第一掩码图像;以上述图像描述文本和上述第二原始图像作为语义基准,基于上述第一掩码图像进行图像生成,得到第一目标掩码图像;以及将上述第一目标掩码图像与上述第二原始图像进行图像拼接,得到目标扩展图像。
本公开的另一个方面提供了一种图像处理装置,包括:第一识别模块,用于响应于图像扩展请求,对第一原始图像进行视觉语言识别,得到图像描述文本;第一生成模块,用于利用上述图像扩展请求包括的目标横纵比和第一目标分辨率,基于上述第一原始图像,生成第二原始图像和第一掩码图像;第一图像生成模块,用于以上述图像描述文本和上述第二原始图像作为语义基准,基于上述第一掩码图像进行图像生成,得到第一目标掩码图像;以及第一拼接模块,用于将上述第一目标掩码图像与上述第二原始图像进行图像拼接,得到目标扩展图像。
本公开的另一个方面提供了一种图像处理装置,包括:第一获取模块,用于响应于任务启动控件被触发,从显示界面包括的图像输入控件的返回结果中获取第一原始图像;第二识别模块,用于对上述第一原始图像进行视觉语言识别,得到图像描述文本;第二获取模块,用于基于上述显示界面包括的多个配置控件各自的返回结果,得到目标横纵比和第一目标分辨率;第二生成模块,用于利用上述目标横纵比和上述第一目标分辨率,基于上述第一原始图像,生成第二原始图像和第一掩码图像;第二图像生成模块,用于以上述图像描述文本和上述第二原始图像作为语义基准,基于上述第一掩码图像进行图像生成,得到第一目标掩码图像;以及第二拼接模块,用于将上述第一目标掩码图像与上述第二原始图像进行图像拼接,得到目标扩展图像。
本公开的另一方面提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个指令,其中,当上述一个或多个指令被上述一个或多个处理器执行时,使得上述一个或多个处理器实现如上所述的方法。
本公开的另一方面提供了一种计算机可读存储介质,存储有计算机可执行指令,上述指令在被执行时用于实现如上所述的方法。
本公开的另一方面提供了一种计算机程序产品,上述计算机程序产品包括计算机可执行指令,上述指令在被执行时用于实现如上所述的方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
通过以下参照附图对本公开实施例的描述,本公开的上述以及其他目的、特征和优点将更为清楚,在附图中:
图1示意性示出了根据本公开实施例的可以应用图像处理方法和装置的示例性系统架构。
图2示意性示出了根据本公开实施例的图像处理方法的流程图。
图3A示意性示出了根据本公开实施例的第二原始图像和第一掩码图像的生成流程的示意图。
图3B示意性示出了根据本公开另一实施例的第二原始图像和第一掩码图像的生成流程的示意图。
图3C示意性示出了根据本公开又一实施例的第二原始图像和第一掩码图像的生成流程的示意图。
图4示意性示出了目标扩展图像的生成流程的示意图。
图5示意性示出了根据本公开实施例的图像信息创造器的结构示意图。
图6A示意性示出了根据本公开实施例的中间模块的结构示意图。
图6B示意性示出了根据本公开另一实施例的中间模块的结构示意图。
图6C示意性示出了根据本公开另一实施例的门控卷积层的结构示意图。
图7示意性示出了根据本公开另一实施例的图像处理方法的流程图。
图8A示意性示出了根据本公开另一实施例的第一原始图像的示意图。
图8B示意性示出了根据本公开另一实施例的经一次扩展后的图像的示意图。
图8C示意性示出了根据本公开另一实施例的目标扩展图像的示意图。
图9示意性示出了根据本公开另一实施例的图像处理方法的流程图。
图10A示意性示出了根据本公开实施例的第一显示界面的示意图。
图10B示意性示出了根据本公开实施例的第二显示界面的示意图。
图10C示意性示出了根据本公开实施例的第三显示界面的示意图。
图11示意性示出了根据本公开的实施例的图像处理装置的框图。
图12示意性示出了根据本公开另一实施例的图像处理装置的框图。
图13示意性示出了根据本公开实施例的适于实现图像处理方法的电子设备的框图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。
本公开的实施例提供了一种图像处理方法、装置、电子设备和存储介质。该方法包括:响应于图像扩展请求,对第一原始图像进行视觉语言识别,得到图像描述文本;利用图像扩展请求包括的目标横纵比和第一目标分辨率,基于第一原始图像,生成第二原始图像和第一掩码图像;以图像描述文本和第二原始图像作为语义基准,基于第一掩码图像进行图像生成,得到第一目标掩码图像;以及将第一目标掩码图像与第二原始图像进行图像拼接,得到目标扩展图像。
在本公开的实施例中,所涉及的数据(例如,包括但不限于用户个人信息)的收集、更新、分析、处理、使用、传输、提供、公开、存储等方面,均符合相关法律法规的规定,被用于合法的用途,且不违背公序良俗。特别地,对用户个人信息采取了必要措施,防止对用户个人信息数据的非法访问,维护用户个人信息安全、网络安全和国家安全。
在本公开的实施例中,在获取或采集用户个人信息之前,均获取了用户的授权或同意。
图1示意性示出了根据本公开实施例的可以应用图像处理方法和装置的示例性系统架构。需要注意的是,图1所示仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。
如图1所示,根据该实施例的系统架构100可以包括终端设备101、102,网络103和服务器104。
终端设备101、102可以时具有显示屏的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。可选地,终端设备101和终端设备102的显示屏的分辨率可以不同。
网络103用以在终端设备101、102和服务器104之间提供通信链路的介质。网络103可以包括各种连接类型,例如有线和/或无线通信链路等等。
服务器104可以是提供各种服务的本地侧服务器,也可以是各种云端服务器,在此不作限定。
需要说明的是,本公开实施例所提供的图像处理方法一般可以由服务器104执行。相应地,本公开实施例所提供的图像处理装置一般可以设置于服务器104中。本公开实施例所提供的图像处理方法也可以由不同于服务器104且能够与终端设备101、102和/或服务器104通信的服务器或服务器集群执行。相应地,本公开实施例所提供的图像处理装置也可以设置于不同于服务器104且能够与终端设备101、102和/或服务器104通信的服务器或服务器集群中。或者,本公开实施例所提供的图像处理方法也可以由终端设备101或102执行,或者也可以由不同于终端设备101或102的其他终端设备执行。相应地,本公开实施例所提供的图像处理装置也可以设置于终端设备101或102中,或设置于不同于终端设备101或102的其他终端设备中。
例如,用户可以通过对终端设备101的操作,生成图像扩展请求,该图像扩展请求指示将原本适配终端设备101的显示屏的第一原始图像扩展为适配终端设备102的显示屏的目标扩展图像。终端设备101可以将第一原始图像和图像扩展请求通过网络103发送给服务器104,服务器104可以响应该图像扩展请求,执行本公开实施例的图像处理方法来处理该第一原始图像,得到目标扩展图像,并将目标扩展图像网络103发送给终端设备102。终端设备102在接收到该目标扩展图像后,可以将该目标扩展图像在其显示屏上进行展示。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
图2示意性示出了根据本公开实施例的图像处理方法的流程图。
如图2所示,该方法200包括操作S210~S240。
在操作S210,响应于图像扩展请求,对第一原始图像进行视觉语言识别,得到图像描述文本。
在操作S220,利用图像扩展请求包括的目标横纵比和第一目标分辨率,基于第一原始图像,生成第二原始图像和第一掩码图像。
在操作S230,以图像描述文本和第二原始图像作为语义基准,基于第一掩码图像进行图像生成,得到第一目标掩码图像。
在操作S240,将第一目标掩码图像与第二原始图像进行图像拼接,得到目标扩展图像。
根据本公开的实施例,第一原始图像可以是图像扩展时所依据的图像,即图像扩展时所依据的图像风格和内容可以是该第一原始图像的图像风格和内容。
根据本公开的实施例,对第一原始图像进行视觉语言识别可以是对第一原始图像进行语义分析,得到的图像描述文本可以包含第一原始图像的语义信息。或者,第一原始图像进行视觉语言识别也可以是识别第一原始图像包括的各种物品对象,得到的图像描述文本可以包含各种物品对象的属性信息。
根据本公开的实施例,可以使用任意的视觉语言预训练(Vision-Language Pre-Trained,VLP)模型对第一原始图像进行视觉语言识别,视觉语言预训练模型可以包括使用基于图像和文本的多模态学习模型、基于图像和文本的多标签分类模型等,在此不作限定。
根据本公开的实施例,目标横纵比和第一目标分辨率可以分别表示为需要生成的目标扩展图像的横纵比和分辨率。目标横纵比和第一目标分辨率可以由用户直接输入到终端设备中,或者,用户也可以输入相关图像扩展信息,目标横纵比和第一目标分辨率可以基于用户输入到终端设备的相关图像扩展信息计算得到。例如,在多屏扩展场景下,用户输入终端设备的相关图像扩展信息可以包括横向屏数量、纵向屏数量和单屏分辨率,基于横向屏数量、纵向屏数量和单屏分辨率,可以计算得到目标横纵比和第一目标分辨率。以横向屏数量为2,纵向屏数量为3,单屏分辨率为1920×1080为例,可以计算得到的第一目标分辨率为(1920×2)×(1080×3)=3840×3840,进而根据第一目标分辨率,可以计算得到横纵比为3840∶3840=1∶1。
根据本公开的实施例,第二原始图像可以是以第一目标分辨率为基准,经分辨率调整后的第一原始图像,即第二原始图像的长边分辨率可以和目标扩展图像的长边分辨率相等,或者,第二原始图像的短边分辨率可以和目标扩展图像的短边分辨率相等。针对第一原始图像的分辨率缩放操作可以包括进行分辨率缩小时的下采样操作、进行分辨率放大时的插值操作等。
根据本公开的实施例,第一掩码图像可以是扩展的画布部分的图像。第二原始图像的画布与第一掩码图像的画布相拼接,可以得到需要生成的目标扩展图像的画布。
根据本公开的实施例,生成的第一掩码图像的图像数据中的各个像素点的数据可以为任意值。
根据本公开的实施例,可以使用图像描述文本和第二原始图像包含的语义信息来指导第一掩码图像进行图像生成,以使得在该第一掩码图像部分生成具有相同内容或风格的图像,从而得到第一目标掩码图像。
根据本公开的实施例,可以将扩展的画布部分的图像由第一掩码图像替换为第一目标掩码图像,以实现第一目标掩码图像与第二原始图像的拼接。
根据本公开的实施例,在进行图像扩展时,可以根据第一原始图像的语义信息,生成图像描述文本,在第一原始图像的基础上生成第二原始图像,并扩展得到第一掩码图像,再利用图像描述文本和第二原始图像包含的语义信息指导第一掩码图像进行图像生成,以得到第一目标掩码图像,从而可以使得生成的第一目标掩码图像具有与第一原始图像相同或相似的内容和风格,该第一目标掩码图像可以与第二原始图像进行拼接,以得到目标扩展图像,可以有效提高生成的目标扩展图像的质量。
需要说明的是,本公开实施例中的流程图所示的操作除非明确说明不同操作之间存在执行的先后顺序,或者不同操作在技术实现上存在执行的先后顺序,否则,多个操作之间的执行顺序可以不分先后,多个操作也可以同时执行。例如,在接收到图像扩展请求后,可以先执行操作S210,生成图像描述文本,再执行操作S220,进行第一原始图像的扩展;或者,也可以先执行操作S220,进行第一原始图像的扩展,再执行操作S210,生成图像描述文本;再或者,操作S210和操作S220可以同步执行。
下面参考图3A~图3C、图4、图5、图6A~图6C、图7和图8A~图8C,结合具体实施例对图2所示的方法做进一步说明。
根据本公开的实施例,用户可以在终端设备上进行目标横纵比和第一目标分辨率的输入,并点击表示“开始生成”的按钮控件,以使得该终端设备生成图像扩展请求。
根据本公开的实施例,响应于图像扩展请求,可以利用视觉语言预训练模型处理所述第一原始图像,得到至少一个对象文本;再基于至少一个对象文本,得到图像描述文本,即用于描述第一原始图像的文本。
根据本公开的实施例,该视觉语言预训练模型可以是CLIP(ContrastiveLanguage-Image Pretraining,对比语言-图像预训练)模型。CLIP模型可以实现图像和文本之间的语义理解和对齐。CLIP模型可以使用对比学习的方法,使用大规模的图像和文本数据集进行预训练,可以通过学习将相关图像和文本对的嵌入向量在语义空间中彼此靠近,而将不相关的图像和文本对的嵌入向量在语义空间中彼此分开,使其具备了跨模态的能力,能够将图像和文本联系起来。在CLIP模型的应用时,可以通过输入的图像的嵌入向量与多个预设文本各自的嵌入向量的匹配关系,从多个预设文本中确定一个或多个匹配的文本,即至少一个对象文本。可以将至少一个对象文本进行拼接,以得到图像描述文本。
根据本公开的实施例,该视觉语言预训练模型也可以是多标签分类模型,该多标签分类模型可以识别第一原始图像中的场景、物品、人物等对象,得到至少一个对象标签。该至少一个对象标签各自的名称可以作为至少一个对象文本,并将至少一个对象文本进行拼接,得到图像描述文本。或者,可以将至少一个对象标签各自的名称分别填入一个文本模板中,以得到至少一个对象文本,并将至少一个对象文本进行拼接,得到图像描述文本。再或者,可以将至少一个对象标签各自的名称均填入一个文本模板中,以直接得到该图像描述文本。
根据本公开的实施例,作为一种可选实施方式,针对具体的场景,如第一原始图像是海报类、风景类等的图像,或者想要图像扩展出的内容是某些具体场景的,开发人员可以预设设置一些关键词。例如,对于海报类图像,其预设的关键词可以包括海报、渐变色背景、宽屏、插画、矢量画等。对于风景类图像,其预设的关键词可以包括现实风、电影质感、像照片的画、高质量等。在生成图像扩展请求之前,用户可以从预设的关键词中选择图像扩展关键词,相应地,图像扩展请求中可以包括该图像扩展关键词。在进行图像描述文本的生成时,可以基于至少一个对象文本和图像扩展关键词,得到图像描述文本。具体地,可以将至少一个对象文本和图像扩展关键词进行拼接,以得到图像描述文本。或者,可以将至少一个对象标签各自的名称和图像扩展关键词分别填入一个文本模板中,以得到至少一个对象文本,并将至少一个对象文本进行拼接,得到图像描述文本。再或者,可以将至少一个对象标签各自的名称和图像扩展关键词均填入一个文本模板中,以直接得到该图像描述文本。
根据本公开的实施例,在生成图像描述文本的同时,可以对第一原始图像进行扩展。可以直接在第一原始图像的基础上进行图像扩展,具体地,利用图像扩展请求包括的目标横纵比和第一目标分辨率,基于第一原始图像,生成第二原始图像和第一掩码图像,可以包括如下操作:
基于目标横纵比和第一目标分辨率,以第一原始图像的至少一条边为起点进行图像扩展,得到第一扩展图像;以及从第一扩展图像中确定第二原始图像和第一掩码图像。
根据本公开的实施例,以第一原始图像的至少一条边为起点进行图像扩展,可以指以第一原始图像的至少一条边作为公共边进行图像扩展。例如,第一原始图像可以是由边A、边B、边C和边D围成的矩形图像,以边A为起点进行图像扩展,则可以将边B自边B与边A的交点进行延申,延申部分可以视为边B′,将边D自边D与边A的交点进行延申,延申部分可以视为边D′,将边B′和边D′的延申终点连接,以得到新的边,可以视为边A′。经以边A为起点进行图像扩展后,得到的第一扩展图像可以由边A′、边B、边B′、边C、边D和边D′构成,其中,边A′、边B′、边A和边D′构成该第一掩码图像。
根据本公开的实施例,从第一扩展图像中确定的第二原始图像即为第一原始图像。
图3A示意性示出了根据本公开实施例的第二原始图像和第一掩码图像的生成流程的示意图。
如图3A所示,第一原始图像301的原始分辨率可以为1024×512,目标横纵比可以为1:1,第一目标分辨率可以为2048×2048。可以基于第一目标分辨率和目标横纵比,对第一原始图像301进行图像扩展,以得到分辨率为2048×2048的第一扩展图像302。在该第一扩展图像302中可以确定的第二原始图像303即为第一原始图像301,在该第一扩展图像302中除第一原始图像301之外的部分可以是第一掩码图像304。
根据本公开的实施例,采用直接在第一原始图像的基础上进行图像扩展的方式,在第一目标分辨率远大于原始分辨率的情况下,进行缩放处理后得到的第二原始图像具有较大的尺寸,在该第二原始图像的基础上进行图像扩展会消耗较多的计算资源,因此,作为一种可选实施方式,为了减少运算时图像的尺寸,提高运算效率,可以先对第一原始图像进行缩小处理,在完成图像的扩展后,再将扩展后的图像放大至需要的分辨率。
根据本公开的实施例,对第一原始图像进行缩小处理时,可以基于预设分辨率来进行缩小处理。预设分辨率可以表示为一个较小的分辨率,预设分辨率中可以仅包括长边的分辨率或短边的分辨率,该预设分辨率可以由开发人员设置,或者,该预设分辨率也可以通过用户的输入操作得到,在此不作限定。
根据本公开的实施例,在一些实施例中,预设分辨率可以与第一目标分辨率相等,此时,在完成图像扩展后,即可以得到所需的图像。具体地,利用图像扩展请求包括的目标横纵比和第一目标分辨率,基于第一原始图像,生成第二原始图像和第一掩码图像,可以包括如下操作:
基于第一原始图像的原始分辨率和预设分辨率,对第一原始图像进行缩放处理,得到第三原始图像;基于目标横纵比,以第三原始图像的至少一条边为起点进行图像扩展,得到第二扩展图像;在第一目标分辨率等于预设分辨率的情况下,从第二扩展图像中确定第二原始图像和第一掩码图像。
根据本公开的实施例,在原始分辨率大于预设分辨率的情况下,可以对第一原始图像进行下采样处理,以将第一原始图像的分辨率由原始分辨率降低为预设分辨率。该下采样处理可以包括最大池化处理、平均池化处理等。
根据本公开的实施例,在原始分辨率小于预设分辨率的情况下,可以对第一原始图像进行插值处理,或者,使用超分辨率算法处理该第一原始图像,以将第一原始图像的分辨率由原始分辨率提升为预设分辨率。该插值处理可以包括双线性插值处理、最邻近插值处理等。该超分辨率算法可以包括基于GAN(Generative Adversarial Networks,生成对抗网络)的ESRGAN(Enhanced Super-Resolution Generative Adversarial Networks,超分辨率生成式对抗网络)方法、基于transformer的SwinIR(Image Restoration Using SwinTransformer)方法等。
根据本公开的实施例,在原始分辨率等于预设分辨率的情况下,可以确定第二原始图像为该第一原始图像。
根据本公开的实施例,在进行缩放处理时,可以以第一原始图像的长边或短边为基础,将长边的分辨率和短边分辨率按比例缩放到预设分辨率表示的长边的分辨率或短边的分辨率,以使得扩展后得到的第三原始图像的长边分辨率与预设分辨率表示的长边的分辨率相等,或第三原始图像的短边分辨率与预设分辨率表示的短边的分辨率相等。例如,第一原始图像的分辨率可以为1024×512,预设分辨率可以为2048×2048,则可以以第一原始图像的长边为基准,将第一原始图像的分辨率放大2倍,得到的第三原始图像的分辨率可以为2048×1024。
图3B示意性示出了根据本公开另一实施例的第二原始图像和第一掩码图像的生成流程的示意图。
如图3B所示,第一原始图像301的原始分辨率可以为1024×512,目标横纵比可以为1:1,第一目标分辨率可以与预设分辨率相等,均为2048×2048。通过比较可知,第一原始图像301的原始分辨率小于预设分辨率,因此,可以对第一原始图像301进行缩放处理,以得到分辨率为2048×1024的第三原始图像305。可以按照目标横纵比,以第三原始图像305为中心,基于该第三原始图像305的上边界和下边界进行图像扩展,以得到分辨率为2048×2048的第二扩展图像306。该第二扩展图像306可以包括与该第三原始图像305的上边界相邻的第一子掩码图像3041和与该第三原始图像305的下边界相邻的第二子掩码图像3042,第一子掩码图像3041和第二子掩码图像3042可以构成该第一掩码图像304,由于该第一目标分辨率与预设分辨率相等,因此,该第三原始图像305即为第二原始图像303。
根据本公开的实施例,第一目标分辨率一般可以大于该预设分辨率。在第一目标分辨率不等于预设分辨率的情况下,可以基于第一目标分辨率和预设分辨率,对第一扩展图像进行缩放处理,得到第三扩展图像;以及从第三扩展图像中确定第二原始图像和第一掩码图像。
根据本公开的实施例,对第一扩展图像进行缩放处理可以采用与对第一原始图像进行缩放处理时相同或相似的方法,对第一扩展图像进行缩放处理部分的描述具体参考对第一原始图像进行缩放处理部分的描述,在此不再赘述。
图3C示意性示出了根据本公开又一实施例的第二原始图像和第一掩码图像的生成流程的示意图。
如图3C所示,第一原始图像301的原始分辨率可以为1024×512,目标横纵比可以为1:1,第一目标分辨率可以为2048×2048,预设分辨率可以表示长边分辨率为512。通过比较易知,原始分辨率中的长边分辨率大于预设分辨率表示的长边分辨率,第一目标分辨率大于该原始分辨率。因此,可以基于预设分辨率,对第一原始图像301进行缩放处理,以得到分辨率为512×256的第三原始图像305。可以按照目标横纵比,以第三原始图像305为中心,基于该第三原始图像305的上边界进行图像扩展,得到分辨率为512×512的第二扩展图像306。第二扩展图像306中可以包括该第三原始图像305和扩展部分307。由于第一目标分辨率和预设分辨率不相等,因此,可以基于第一目标分辨率,对第二扩展图像306进行超分放大处理,以得到分辨率为2048×2048的第三扩展图像308。在进行超分放大处理后,第三原始图像305可以放大为分辨率为2048×1024的第二原始图像303,扩展部分307可以放大为分辨率为2048×1024的第一掩码图像304。借此,可以从第三扩展图像308中确定第二原始图像303和第一掩码图像304。
根据本公开的实施例,通过缩小-扩展-放大的方式来得到第二原始图像和第一掩码图像,在第一目标分辨率较大时可以有效减少图像扩展运算时图像的尺寸,从而减少了计算资源的消耗,提高了运算效率。
根据本公开的实施例,在完成第二原始图像和第一掩码图像的生成后,可以利用扩散模型进行目标扩展图像的生成。
图4示意性示出了目标扩展图像的生成流程的示意图。
如图4所示,扩散模型可以包括多模态编码器401、图像信息创造器402和模型解码器403。
根据本公开的实施例,可以利用多模态编码器401分别对第二原始图像404和图像描述文本405进行编码处理,得到图像编码特征406和文本编码特征407。
根据本公开的实施例,多模态编码器401可以分别用于对第二原始图像404和图像描述文本405的编码操作。或者,多模态编码器401可以分为图像编码器4011和文本编码器4012。图像编码器4011可以对第二原始图像404进行编码,得到图像编码特征406。文本编码器4012可以对图像描述文本405进行编码,得到文本编码特征407。图像编码器4011例如可以使用变分自动编码器(Variational Autoencoder,VAE)实现,文本编码器4012例如可以使用CLIP模型中的文本编码器来实现。
根据本公开的实施例,在利用扩散模型处理第一掩码图像408之前,可以利用高斯噪声对第一掩码图像408进行初始化处理,得到噪声图像409。噪声图像409的图像数据可以服从正态分布。
根据本公开的实施例,可以基于图像编码特征406和文本编码特征407,利用图像信息创造器402处理噪声图像409,得到目标输出特征410。
根据本公开的实施例,可以利用模型解码器403对目标输出特征410进行解码处理,得到第一目标掩码图像411。模型解码器403可以与多模态编码器401相对应,或者,该模型解码器403可以与多模态编码器401中的图像编码器4011相对应。通过模型解码器403,可以将图像特征映射回像素空间,得到第一目标掩码图像411。
根据本公开的实施例,可以将第二原始图像404与第一目标掩码图像411,基于进行图像扩展时所作为起点的第二原始图像404的至少一条边进行图像拼接,得到目标扩展图像412,以完成图像生成过程。
根据本公开的实施例,图像信息创造器402可以是一个用于预测噪声的U-Net神经网络结构,即图像信息创造器402可以由编码模块、解码模块和中间模块组成。编码模块可以包括M个编码功能块,相应地,解码模块可以包括M个解码功能块。
根据本公开的实施例,以图像编码特征和文本编码特征作为语义基准,利用图像信息创造器处理噪声图像,得到目标输出特征,可以包括如下操作:
利用编码模块处理图像编码特征、文本编码特征和噪声图像,得到编码模块包括的M个编码功能块各自输出的第一噪声图像特征,其中,M为正整数;利用中间模块处理第M个编码功能块输出的第一噪声图像特征,得到第二噪声图像特征;以及利用解码模块处理第二噪声图像特征、M个编码功能块各自输出的第一噪声图像特征、图像编码特征和文本编码特征,得到目标输出特征。
以下以M=4为例,即编码模块包括4个编码功能块,解码模块包括4个解码功能块为例,对图像信息创造器402的处理流程进行说明。
图5示意性示出了根据本公开实施例的图像信息创造器的结构示意图。
如图5所示,图像信息创造器402自其输入端到其输出端可以包括多个功能块,分别为4个编码功能块4021、1个中间模块4022和4个解码功能块4023。
根据本公开的实施例,图像信息创造器402包括的4个编码功能块4021和4个解码功能块4023可以分为4个层级,每一个层级的编码功能块4021可以与解码功能块4023跳连接,该编码功能块4021输出的第一噪声图像特征可以作为输入,提供给位于同一层级的该解码功能块4023。第1个编码功能块4021可以和第4个解码功能块4023位于同一层级,第2个编码功能块4021可以和第3个解码功能块4023位于同一层级,第3个编码功能块4021可以和第2个解码功能块4023位于同一层级,第4个编码功能块4021可以和第1个解码功能块4023位于同一层级。
根据本公开的实施例,M个编码功能块4021之间可以通过交叉注意力块4024连接。每个交叉注意力块4024可以基于图像编码特征406和文本编码特征407,来对该交叉注意力块4024的输入特征进行处理。
具体地,利用编码模块处理图像编码特征、文本编码特征和噪声图像,得到编码模块包括的M个编码功能块各自输出的第一噪声图像特征,可以包括如下操作:
利用第j个编码功能块处理第j个编码功能块的输入特征,得到第j个编码功能块输出的第一噪声图像特征,其中,j为小于或等于M的正整数,第1个编码功能块的输入特征表示为噪声图像;以及在j小于M的情况下,利用第j个编码功能块与第j+1个编码功能块之间的交叉注意力块处理第j个编码功能块输出的第一噪声图像特征、图像编码特征、文本编码特征,得到第j+1个编码功能块的输入特征。
根据本公开的实施例,具体地,第1个编码功能块4021的输入特征可以是噪声图像409的图像数据。第1个编码功能块4021对该噪声图像409的图像数据进行处理,可以得到该第1个编码功能块4021输出的第一噪声图像特征。位于第1个编码功能块4021和第2个编码功能块4021之间的交叉注意力块4024可以基于图像编码特征406和文本编码特征407,处理该第1个编码功能块4021输出的第一噪声图像特征,以得到第2个编码功能块4021的输入特征。
第2个编码功能块4021可以对该第2个编码功能块4021的输入特征进行处理,得到该第2个编码功能块4021输出的第一噪声图像特征。位于第2个编码功能块4021和第3个编码功能块4021之间的交叉注意力块4024可以基于图像编码特征406和文本编码特征407,处理该第2个编码功能块4021输出的第一噪声图像特征,以得到第3个编码功能块4021的输入特征。
第3个编码功能块4021可以对该第3个编码功能块4021的输入特征进行处理,得到该第3个编码功能块4021输出的第一噪声图像特征。位于第3个编码功能块4021和第4个编码功能块4021之间的交叉注意力块4024可以基于图像编码特征406和文本编码特征407,处理该第3个编码功能块4021输出的第一噪声图像特征,以得到第4个编码功能块4021的输入特征。
第4个编码功能块4021可以对该第4个编码功能块4021的输入特征进行处理,得到该第4个编码功能块4021输出的第一噪声图像特征。
根据本公开的实施例,中间模块4022可以对第4个编码功能块4021输出的第一噪声图像特征进行处理,得到第二噪声图像特征。
根据本公开的实施例,M个解码功能块4023之间可以通过交叉注意力块4024连接。每个交叉注意力块4024可以基于图像编码特征406和文本编码特征407,来对该交叉注意力块4024的输入特征进行处理。
根据本公开的实施例,利用解码模块处理第二噪声图像特征、M个编码功能块各自输出的第一噪声图像特征、图像编码特征和文本编码特征,得到目标输出特征,可以包括如下操作:
利用第k个解码功能块处理第k个解码功能块的输入特征和第k个编码功能块输出的第一噪声图像特征,得到第k个解码功能块输出的解码特征,其中,k为小于或等于M的正整数,第1个解码功能块的输入特征表示为第二噪声图像特征;在k小于M的情况下,利用第k个解码功能块与第k+1个解码功能块之间的交叉注意力块处理第k个解码功能块输出的解码特征、图像编码特征和文本编码特征,得到第k+1个解码功能块的输入特征;以及在k等于M的情况下,确定目标输出特征为第k个解码功能块输出的解码特征。
根据本公开的实施例,具体地,第1个解码功能块4023的输入特征可以是第三图像特征。第1个解码功能块4023可以对该第三图像特征和经跳连接获取的第4个编码功能块4021输出的第一噪声图像特征进行处理,得到该第1个解码功能块4023输出的解码特征。位于第1个解码功能块4023和第2个解码功能块4023之间的交叉注意力块4024可以基于图像编码特征406和文本编码特征407,处理该第1个解码功能块4023输出的解码特征,以得到第2个解码功能块4023的输入特征。
第2个解码功能块4023可以对该第2个解码功能块4023的输入特征和经跳连接获取的第3个编码功能块4021输出的第一噪声图像特征进行处理,得到该第2个解码功能块4023输出的解码特征。位于第2个解码功能块4023和第3个解码功能块4023之间的交叉注意力块4024可以基于图像编码特征406和文本编码特征407,处理该第2个解码功能块4023输出的解码特征,以得到第3个解码功能块4023的输入特征。
第3个解码功能块4023可以对该第3个解码功能块4023的输入特征和经跳连接获取的第2个编码功能块4021输出的第一噪声图像特征进行处理,得到该第3个解码功能块4023输出的解码特征。位于第3个解码功能块4023和第4个解码功能块4023之间的交叉注意力块4024可以基于图像编码特征406和文本编码特征407,处理该第3个解码功能块4023输出的解码特征,以得到第4个解码功能块4023的输入特征。
第4个解码功能块4023可以对该第4个解码功能块4023的输入特征和经跳连接获取的第1个编码功能块4021输出的第一噪声图像特征进行处理,得到该第4个解码功能块4023输出的解码特征,即目标输出特征410。
根据本公开的实施例,图像信息创造器402包括的编码功能块4021、中间模块4022和解码功能块4023可以均使用残差块(ResBlock)来实现。
以下以中间模块4022处理第M个编码功能块4021输出的第一噪声图像特征,得到第二噪声图像特征的过程为例,对残差块的处理流程进行说明。
图6A示意性示出了根据本公开实施例的中间模块的结构示意图。
如图6A所示,中间模块4022可以使用残差块来实现。对于输入中间模块4022的第M个编码功能块4021输出的第一噪声图像特征,可以对该第M个编码功能块4021输出的第一噪声图像特征依次进行归一化处理、卷积处理、归一化处理、掩码处理(dropout)和卷积处理,以得到残差输出特征,该残差输出特征可以和经卷积处理的第M个编码功能块4021输出的第一噪声图像特征进行相加,以得到第二噪声图像特征。
根据本公开的实施例,作为一种可选实施方式,可以使用门控卷积块(GnBlock)来替换残差模块,即编码功能块4021、中间模块4022和解码功能块4023可以均使用门控卷积块来实现。
以下以中间模块4022处理第M个编码功能块4021输出的第一噪声图像特征,得到第二噪声图像特征的过程为例,对门控卷积块的处理流程进行说明。
图6B示意性示出了根据本公开另一实施例的中间模块的结构示意图。
如图6B所示,中间模块4022可以使用门控卷积块来实现。对于输入中间模块4022的第M个编码功能块4021输出的第一噪声图像特征,可以对第M个编码功能块输出的第一噪声图像特征进行层归一化处理,得到第一子特征;利用门控卷积层(GnConv)处理第一子特征,得到第二子特征;对第二子特征进行层归一化处理,得到第三子特征;利用感知器处理第三子特征,得到第四子特征;以及基于第M个编码功能块输出的第一噪声图像特征和第四子特征,得到第二噪声图像特征,得到第二噪声图像特征。
根据本公开的实施例,层归一化处理可以指将所有神经元的输入按批次规范化,即让层内的数据服从均值为0、方差为1的正态分布,从而可以加快处理效率,并提高图像处理过程中对缩放变化的鲁棒性。
根据本公开的实施例,感知器可以包括多个全连接层。可选地,还可以对该多个全连接层作掩码处理(dropout),即控制该多个全连接层中的随机位置及数量的神经元不参与输出结果的运算。
图6C示意性示出了根据本公开另一实施例的门控卷积层的结构示意图。
如图6C所示,对于输入该门控卷积层的第一子特征,可以对第一子特征进行卷积处理,得到第五子特征。可以对第五子特征进行深度卷积处理(Deep-Wise Conv),得到深度卷积特征。门控卷积层可以包括P个双输入的门控处理单元,该P可以为正整数,该门控处理单元的一个输入可以是深度卷积特征,另一个输入可以是上一个门控处理单元的输出特征。每个门控处理单元可以将其两个输入作点乘处理,并对其乘积作卷积处理,以得到其输出特征。例如,对于第p个门控处理单元,该第p个门控处理单元可以将深度卷积特征与第p-1个门控处理单元输出的门控输出特征进行点乘处理,得到第p个门控处理单元的第六子特征,再对第p个门控处理单元的第六子特征进行卷积处理,可以得到第p个门控处理单元的门控输出特征。其中,p可以表示为正整数,第0个门控处理单元输出的门控输出特征可以表示为该第五子特征,第P个门控处理单元的门控输出特征可以表示为该第二子特征。
根据本公开的实施例,以门控处理单元为3个为例,可以将该深度卷积特征与第五子特征进行点乘处理,并对其乘积作卷积处理,得到第六子特征。可以将该深度卷积特征与第六子特征进行点乘处理,并对其乘积作卷积处理,得到第七子特征。可以将该深度卷积特征与第七子特征进行点乘处理,并对其乘积作卷积处理,以得到输出的第二子特征。
根据本公开的实施例,门控卷积块中的门控卷积层可以使用门控卷积和递归,实现了不同空间特征间的交互,增强了特征表达,从而可以提高扩散模型的生成效果。
根据本公开的实施例,在一些应用场景下,第一目标分辨率和与原始分辨率具有较大的差异,而在差异较大时,通过图像扩展得到的图像部分的内容可能与第一原始图像具有较大的区别,及扩展得到的图像部分的内容及风格可以与第一原始图像不一致。因此,作为一种可选实施方式,在基于第一目标分辨率和第一原始图像的原始分辨率,确定满足预设条件的情况下,可以以第一原始图像和图像描述文本作为语义基准进行N次图像扩展,以得到目标扩展图像,其中,N为正整数。
根据本公开的实施例,预设条件可以为第一目标分辨率和第一原始图像的原始分辨率之间的比值小于第一阈值;或者,第一目标分辨率和第一原始图像的原始分辨率之间的比值大于第二阈值。
根据本公开的实施例,第一目标分辨率和第一原始图像的原始分辨率之间的比值可以表示为第一目标分辨率中的长边分辨率和原始分辨率中的长边分辨率之间的比值,也可以表示为第一目标分辨率中的短边分辨率和原始分辨率中的短边分辨率之间的比值,或者,还可以表示为上述两个比值中较小的一个比值,在此不作限定。
根据本公开的实施例,第一阈值和第二阈值可以根据具体应用场景进行设置,例如,可以设置第一阈值为0.66,设置第二阈值为1.5等,在此不作限定。
根据本公开的实施例,N的大小可以包括基于第一目标分辨率和原始分辨率来确定。例如,第一目标分辨率和原始分辨率之间的比值可以为2.25,每次扩展的分辨率可以不超过图像分辨率的50%,则可以通过对第一原始图像进行两次图像扩展,以得到目标扩展图像。
根据本公开的实施例,用户也可以自行配置图像扩展的次数,相应第,图像扩展请求中可以包含图像扩展次数的信息。作为一种可选实施方式,预设条件还可以包括图像扩展请求包括的图像扩展次数大于1。相应地,在此情况下,N即表示为该图像扩展次数。
根据本公开的实施例,以第一原始图像和图像描述文本作为语义基准进行N次图像扩展,以得到目标扩展图像,可以包括如下操作:
在第一目标分辨率和第i-1次图像扩展后的扩展图像的图像分辨率不相等的情况下,基于第i-1次图像扩展后的扩展图像的图像分辨率和扩展倍率,确定第二目标分辨率,其中,i为小于或等于N的正整数,第0次图像扩展后的扩展图像表示为第一原始图像,第0次图像扩展后的扩展图像的图像分辨率表示为原始分辨率;利用目标横纵比和第二目标分辨率,基于第i-1次图像扩展后的扩展图像,生成第四原始图像和第二掩码图像;以图像描述文本和第四原始图像作为语义基准,基于第二掩码图像进行图像生成,得到第二目标掩码图像;以及将第四原始图像与第二目标掩码图像进行图像拼接,得到第i次图像扩展后的扩展图像。
根据本公开的实施例,在第一目标分辨率和第i次图像扩展后的扩展图像的图像分辨率相等的情况下,可以确定该第i次图像扩展后的扩展图像为目标扩展图像。或者,在该i的值等于N的情况下,可以确定该第i次图像扩展后的扩展图像为目标扩展图像。
图7示意性示出了根据本公开另一实施例的图像处理方法的流程图。
如图7所示,该方法包括操作S701~S708。
在操作S701,基于第一目标分辨率、第一原始图像的原始分辨率和N,确定扩展倍率,并初始化i=0。
在操作S702,控制i的值自增1。
在操作S703,判断i是否小于N。在确定i小于N的情况下,执行操作S704。在确定i大于或等于N的情况下,执行操作S708。
在操作S704,基于第i-1次图像扩展后的扩展图像的图像分辨率和扩展倍率,确定第二目标分辨率。
在操作S705,利用目标横纵比和第二目标分辨率,基于第i-1次图像扩展后的扩展图像,生成第四原始图像和第二掩码图像。
在操作S706,以图像描述文本和第四原始图像作为语义基准,基于第二掩码图像进行图像生成,得到第二目标掩码图像。
在操作S707,将第四原始图像与第二目标掩码图像进行图像拼接,得到第i次图像扩展后的扩展图像。在完成操作S707后,返回执行操作S702。
在操作S708,确定第i次图像扩展后的扩展图像为目标扩展图像。
根据本公开的实施例,以下结合图8A~图8C以图像扩展次数为2次,并以图8A所示的第一原始图像为例,对图像扩展效果进行说明。
图8A示意性示出了根据本公开另一实施例的第一原始图像的示意图。
如图8A所示,第一原始图像的原始分辨率可以是512×512,第一目标分辨率可以是2560×1280,目标横纵比可以是2:1。由此可以确定第一目标分辨率与原始分辨率之间的比值为2.5,每次可以将分辨率按原图像的分辨率的1.5倍进行扩展,即扩展倍率可以是1.5。
根据本公开的实施例,通过对该第一原始图像进行视觉语言识别,可以得到人、钱币、黑板、图表等标签,基于上述标签,可以生成图像描述文本。
根据本公开的实施例,可以基于原始分辨率和扩展倍率,确定第一次扩展时的第二目标分辨率为768×768,据此可以得到第四原始图像。
根据本公开的实施例,基于目标横纵比,可以为该第四原始图像添加分辨率为768×768的第二掩码图像。
根据本公开的实施例,可以基于图像描述文本和第四原始图像,利用扩散模型处理第二掩码图像,得到经一次扩展后的图像。
图8B示意性示出了根据本公开另一实施例的经一次扩展后的图像的示意图。
如图8B所示,经一次扩展后的图像的分辨率可以为1536×768。
根据本公开的实施例,可以基于经一次扩展后的图像的分辨率和扩展倍率,确定第二次扩展时的第二目标分辨率为2304×1152,据此可以得到第四原始图像。
根据本公开的实施例,可以基于目标横纵比,为该第四原始图像添加分辨率分别为2304×128和256×1280的两个第二掩码图像。
根据本公开的实施例,可以基于图像描述文本和该第四原始图像,利用扩散模型处理该两个第二掩码图像,以得到目标扩展图像。
图8C示意性示出了根据本公开另一实施例的目标扩展图像的示意图。
如图8C所示,目标扩展图像的分辨率可以为2560×1280。
根据本公开的实施例,通过分多次进行图像扩展的方式,可以有效提高生成的图像的质量,并保持目标扩展图像的内容与第一原始图像风格保持一致,并提高了目标扩展图像的展示效果。
图9示意性示出了根据本公开另一实施例的图像处理方法的流程图。
如图9所示,该方法900可以包括操作S910~S960。
在操作S910,响应于任务启动控件被触发,从显示界面包括的图像输入控件的返回结果中获取第一原始图像。
在操作S920,对第一原始图像进行视觉语言识别,得到图像描述文本。
在操作S930,基于显示界面包括的多个配置控件各自的返回结果,得到目标横纵比和第一目标分辨率。
在操作S940,利用目标横纵比和第一目标分辨率,基于第一原始图像,生成第二原始图像和第一掩码图像。
在操作S950,以图像描述文本和第二原始图像作为语义基准,基于第一掩码图像进行图像生成,得到第一目标掩码图像。
在操作S960,将第一目标掩码图像与第二原始图像进行图像拼接,得到目标扩展图像。
根据本公开的实施例,显示界面可以指电子设备中运行的客户端应用进程在该电子设备的显示屏上的展示界面。该电子设备可以是任意支持人机交互的设备。
根据本公开的实施例,任务启动控件可以是用于表示开始执行图像生成任务的控件,该任务启动控件在显示界面上可以表示为一个按键或一个按钮。用户可以通过触碰点击对应的按键或按钮,或者,用户可以通过控制鼠标点击对应的按键或按钮,以触发该任务启动控件。在任务启动控件被触发时,电子设备可以生成图像扩展请求,以便电子设备内的客户端应用进程响应该图像扩展请求进行图像的扩展。
根据本公开的实施例,图像输入控件在现实界面上可以表示为一个较大的空白框,用户可以将图像扩展任务所基于的第一原始图像通过拖曳、加载等方式,输入到该空白框内,该图像输入控件可以将该第一原始图像作为返回信息,可以便于电子设备内的进程通过访问该图像输入控件来获取该第一原始图像。
根据本公开的实施例,多个配置控件可以包括输入框类型的配置控件、选择项类型的配置控件、滑动条类型的配置控件等。基于配置控件的类型的不同,用户可以通过不同的操作进行信息的输入。配置控件接收到的信息可以作为返回信息,可以便于电子设备内的进程通过访问该配置控件来获取相应的信息。
在本公开的另一实施例中,对第一原始图像进行扩展,以得到目标扩展图像的方法可以使用本公开实施例的图像处理方法来实现,在此不再赘述。
下面参考图10A~图10C,结合具体实施例对图9所示的方法做进一步说明。
根据本公开的实施例,多个配置控件可以包括横向分辨率配置控件、纵向分辨率配置控件、横向扩展倍率配置控件和纵向分辨率配置控件。横向分辨率配置控件、纵向分辨率配置控件、横向扩展倍率配置控件和纵向分辨率配置控件可以均为输入框类型的配置控件。
根据本公开的实施例,基于显示界面包括的多个配置控件各自的返回结果,得到目标横纵比和第一目标分辨率,可以包括如下操作:
基于横向分辨率配置控件返回的横向分辨率信息、纵向分辨率配置控件返回的纵向分辨率信息、横向扩展倍率配置控件返回的横向扩展倍率信息和纵向分辨率配置控件返回的纵向扩展倍率信息,确定第一目标分辨率;以及基于第一目标分辨率,确定目标横纵比。
根据本公开的实施例,横向扩展倍率信息可以指基于第一原始图像,向横向扩展后得到的扩展图像的横向尺寸与第一原始图像的横向尺寸之比。相应地,纵向扩展倍率信息可以指基于第一原始图像,向纵向扩展后得到的扩展图像的纵向尺寸与第一原始图像的纵向尺寸之比。以多屏扩展场景为例,第一原始图像可以与单块屏幕相匹配,横向扩展倍率信息可以表示为横向屏的数量,纵向扩展倍率信息可以表示为纵向屏的数量,如需要将原本的单块屏幕扩展为2排3列共4块屏幕,则可以设置横向扩展倍率信息为2,纵向扩展倍率信息为3。
根据本公开的实施例,横向分辨率信息和纵向分辨率信息可以表示为在不进行横向和纵向扩展时,对第一原始图像进行调整的目标分辨率,即在横向扩展倍率信息和纵向扩展倍率信息均表示为1时的目标分辨率。在多屏扩展场景下,该横向分辨率信息和纵向分辨率信息可以表示为单块屏幕上图像的分辨率。
根据本公开的实施例,第一目标分辨率中的横向分辨率可以由横向分辨率信息所表示的横向分辨率与横向扩展倍率信息所表示的横向扩展倍率相乘得到。相应地,第一目标分辨率中的纵向分辨率可以由纵向分辨率信息所表示的纵向分辨率与纵向扩展倍率信息所表示的纵向扩展倍率相乘得到。
根据本公开的实施例,可以将第一目标分辨率中的横向分辨率与第一目标分辨率中的纵向分辨率作比值,以得到目标横纵比。
根据本公开的实施例,多个配置控件还可以包括扩展方向配置控件。
根据本公开的实施例,利用目标横纵比和第一目标分辨率,基于第一原始图像,生成第二原始图像和第一掩码图像,可以包括如下操作:
基于扩展方向配置控件返回的扩展方向信息,从第一原始图像的四条边中确定至少一条目标边;基于目标横纵比和第一目标分辨率,以第一原始图像的至少一条目标边为起点进行图像扩展,得到第一扩展图像;以及从第一扩展图像中确定第二原始图像和第一掩码图像,其中,第二原始图像为第一原始图像。
根据本公开的实施例,扩展方向配置控件可以是选择项类型的配置控件。例如,该扩展方向配置控件可以包括分别表示“上”、“下”、“左”和“右”的四个选择项,用户可以从该四个选择项中任意选择一个或多个选择项,以从第一原始图像的四条边中确定至少一个目标边。具体地,用户可以选择“上”和“下”两个选择项,则目标边可以包括第一原始图像的上边界和下边界。
根据本公开的实施例,多个配置控件还可以包括候选图像数量控件。该候选图像数量控件可以是输入框类型的配置控件,也可以是滑动条类型的配置控件。用户可以在该候选图像数量控件的输入框内输入数字,或者,在该候选图像数量控件的滑动条处将基准光标向左或向右滑动,以确定候选图像数量信息。候选图像数量信息可以表示为在进行图像的扩展生成前,生成的画布图像的数量。具体地,依据选择的图像的扩展方向,在该扩展方向包括相对的两个方向时,如同时包括“上”、“下”两个方向,或同时包括“左”、“右”两个方向时,向两个方向进行扩展的画布的像素可以存在区别,因而可以生成多个可供选择的画布图像。该候选图像数量信息即表示为生成的画布图像的数量。
根据本公开的实施例,基于目标横纵比和第一目标分辨率,以第一原始图像的至少一条目标边为起点进行图像扩展,得到第一扩展图像,可以包括如下操作:
基于候选图像数量控件返回的候选图像数量信息,确定候选图像数量;基于目标横纵比和第一目标分辨率,以第一原始图像的至少一条目标边为起点进行图像扩展,得到候选图像数量个数的第五扩展图像;向第一图像输出控件发送候选图像数量个数的第五扩展图像,其中,第一图像输出控件被配置为在显示界面上展示候选图像数量个数的第五扩展图像;以及响应于针对候选图像数量个数的第五扩展图像的选择请求,从候选图像数量个数的第五扩展图像中确定第一扩展图像。
根据本公开的实施例,该第五扩展图像即为扩展得到的画布图像,还第五扩展图像可以包括原本的第一原始图像,以及扩展得到的形状、颜色等不一的扩展部分图像。
根据本公开的实施例,多个配置控件还包括生成速度配置控件。该生成速度配置控件可以是输入框类型的配置控件,也可以是滑动条类型的配置控件。用户可以在该生成速度配置控件的输入框内输入数字,或者,在该生成速度配置控件的滑动条处将基准光标向左或向右滑动,以确定生成速度信息。
根据本公开的实施例,生成速度信息可以表示为进行图像扩展的轮次,即图像扩展次数。该生成速度信息表示的值越小,则表示图像的生成速度越慢,相应地,通过该生成速度信息确定的图像扩展次数就越多。
根据本公开的实施例,多个配置控件还可以包括单次最大扩展像素控件,该单次最大扩展像素控件可以是输入框类型的配置控件,也可以是滑动条类型的配置控件。用户可以在该单次最大扩展像素控件的输入框内输入数字,或者,在该单次最大扩展像素控件的滑动条处将基准光标向左或向右滑动,以确定单次最大扩展像素信息。单次最大扩展像素信息可以表示为一次图像扩展最高允许的横向像素扩展量及纵向像素扩展量。例如,该单次最大扩展像素信息表示为256,则表示单次图像扩展时,横向像素最大扩展或缩小256个像素,纵向像素最大扩展或缩小256个像素。在第一目标像素与第一原始图像的原始像素之差大于256个像素时,可以分多次进行图像扩展,即确定图像扩展次数大于1。
根据本公开的实施例,可以基于生成速度配置控件返回的生成速度信息、单次最大扩展像素控件返回的单次最大扩展像素信息、第一原始图像的原始分辨率和第一目标分辨率,确定图像扩展次数;并在图像扩展次数大于1的情况下,基于图像扩展次数,以第一原始图像和图像描述文本作为语义基准进行多次图像扩展,以得到目标扩展图像。
根据本公开的实施例,具体地,可以基于生成速度配置控件返回的生成速度信息,确定第一图像扩展次数;可以基于单次最大扩展像素控件返回的单次最大扩展像素信息、第一原始图像的原始分辨率和第一目标分辨率,确定第二图像扩展次数;并取第一图像扩展次数与第二图像扩展次数中的最大值作为确定的图像扩展次数。
根据本公开的实施例,多个配置控件还可以包括图像风格配置控件。图像风格配置控件可以是选择项类型的配置控件,该配置控件可以包括多个表示图像风格的选择项,例如包括表示图像风格为“海报”的选择项、表示图像风格为“风景”的选择项、表示图像风格为“建筑”的选择项等。用户可以通过对选择项的选择操作,确定图像风格信息。
根据本公开的实施例,对第一原始图像进行视觉语言识别,得到图像描述文本,可以包括如下操作:
基于图像风格配置控件返回的图像风格信息,得到图像扩展关键词;利用视觉语言预训练模型处理第一原始图像,得到至少一个对象文本;以及基于至少一个对象文本和图像扩展关键词,得到图像描述文本。
根据本公开的实施例,多个配置控件还可以包括创意度配置控件。创意度配置控件可以是输入框类型的配置控件,也可以是滑动条类型的配置控件。用户可以在该创意度配置控件的输入框内输入数字,或者,在该创意度配置控件的滑动条处将基准光标向左或向右滑动,以确定创意度信息。
根据本公开的实施例,创意度信息可以表示为生成的目标扩展图像与原本的第一原始图像之间的相似度。创意度信息表示的创意度越高,则生成的目标扩展图像与原本的第一原始图像之间的相似度越低。
根据本公开的实施例,可以通过对图像编码特征和文本编码特征进行权重修正的方式,更改图像编码特征和文本编码特征对目标扩展图像的生成过程的影响,从而实现对生成的目标扩展图像与原本的第一原始图像之间的相似度的控制。创意度信息表示的创意度越高,确定的图像编码特征和文本编码特征的权重可以越小。
根据本公开的实施例,具体地,以图像描述文本和第二原始图像作为语义基准,基于第一掩码图像进行图像生成,得到第一目标掩码图像,可以包括如下操作:
利用多模态编码器分别对第二原始图像和图像描述文本进行编码处理,得到初始图像编码特征和初始文本编码特征;基于创意度配置控件返回的创意度信息,对初始图像编码特征和初始文本编码特征进行修正,得到图像编码特征和文本编码特征;利用高斯噪声对第一掩码图像进行初始化处理,得到噪声图像;以图像编码特征和文本编码特征作为语义基准,利用图像信息创造器处理噪声图像,得到目标输出特征;以及利用模型解码器对目标输出特征进行解码处理,得到第一目标掩码图像。
根据本公开的实施例,初始图像编码特征和初始文本编码特征各自的当前权重可以为1。基于创意度信息可以确定值为0~1的权重,利用该权重对初始图像编码特征和初始文本编码特征进行修正,具体地,可以将该权重与初始图像编码特征和初始文本编码特征进行向量乘法运算,以得到该图像编码特征和该文本编码特征。
图10A示意性示出了根据本公开实施例的第一显示界面的示意图。
如图10A所示,第一显示界面可以表示为进行图像扩展之前的显示界面部分。该显示界面可以包括任务启动控件、图像输入控件、以及横向分辨率配置控件、纵向分辨率配置控件、横向扩展倍率配置控件、纵向分辨率配置控件、扩展方向配置控件、候选图像数量控件、生成速度配置控件、单次最大扩展像素控件、图像风格配置控件、创意度配置控件等配置控件。在进行图像扩展之前,用户可以将第一原始图像置入该图像输入控件,并可以在各个配置控件中完成信息配置。具体地,用户填入的配置信息可以包括将生成速度信息设置为2,单次最大扩展像素设置为256,图像风格信息设置为“海报”,创意度信息设置为2,扩展方向信息设置为“左”、“右”两个方向,即基于第一原始图像向左右两边扩展,候选图像数量信息设置为4,即会生成4个候选的第五扩展图像供用户选择,横向分辨率信息设置为1024,纵向分辨率信息设置为768,横向扩展倍率信息设置为1,纵向扩展倍率信息设置为1,即可以确定第一目标分辨率为1024×768,目标横纵比为4:3。
根据本公开的实施例,在确定第一原始图像已输入且配置完成后,用户可以通过点击该任务启动控件,以开始执行图像扩展任务。或者,在确定第一原始图像已输入但未配置完成的情况下,若用户点击该任务启动控件,则可以使用分别与各个未配置的配置控件对应的预设值或初始值,填入相应的配置控件,再开始执行图像扩展任务。
根据本公开的实施例,该第一显示界面除可以包括上述控件之外,还可以包括其他功能控件,例如,该第一显示界面还可以包括分辨率展示控件,该分辨率展示控件可以用于展示第一原始图像的原始分辨率。具体地,用户在将第一原始图像输入该图像输入控件后,可以生成图像输入请求。可以响应于与第一原始图像相关的图像输入请求,确定第一原始图像的分辨率信息;以及向分辨率展示控件发送分辨率信息,其中,分辨率展示控件被配置为基于分辨率信息,在显示界面上展示第一原始图像的原始分辨率。如图10A所示,在第一原始图像输入该图像输入控件后,可以展示该第一原始图像的原始分辨率为640×640。
根据本公开的实施例,再例如,该第一显示界面还可以包括初始化控件,该初始化控件可以用于将多个配置控件的配置信息均初始化。
根据本公开的实施例,在确定点击该任务启动控件后,电子设备的显示界面上可以展示候选图像数量个数的第五扩展图像。
图10B示意性示出了根据本公开实施例的第二显示界面的示意图。
如图10B所示,第二显示界面可以表示图像扩展任务执行过程中的显示界面部分,第二显示界面可以与第一显示界面并排展示。该第二显示界面可以包括第一图像输出控件,该第一图像输出控件可以包括1个选择框,该选择框内可以展示第五扩展图像。可选地,该选择框内还可以包括各个第五扩展图像的缩略图,用户可以通过对该缩略图进行选择,以确定在该选择框内展示的第五扩展图像。
根据本公开的实施例,第一图像输出控件还可以包括多个选择项,该多个选择项中的前候选图像数量个数的选择项可以与候选图像数量个数的第五扩展图像一一对应。第一图像输出控件还可以1个展示框,用户可以通过在多个选择项中进行勾选,以确定最终选定的第一扩展图像。该展示框内所展示的第一扩展图像可以与选择框内展示的第五扩展图像不同。
根据本公开的实施例,可选地,第二显示界面还可以包括一个按键或按钮式控件,该控件可以表示为已选定第一扩展图像并开始进行目标扩展图像的生成,该控件在第二显示界面的名称例如可以是如图10B所示的“开始超分”。用户可以通过点击该控件,以开始进行目标扩展图像的生成。
图10C示意性示出了根据本公开实施例的第三显示界面的示意图。
如图10C所示,第三显示界面可以表示图像扩展任务执行完成后的显示界面部分,第三显示界面可以与第一显示界面并排展示。该第三显示界面可以包括第二图像输出控件。
根据本公开的实施例,可以向第二图像输出控件发送目标扩展图像,其中,第二图像输出控件被配置为在显示界面上展示目标扩展图像。
图11示意性示出了根据本公开的实施例的图像处理装置的框图。
如图11所示,图像处理装置1100包括第一识别模块1110、第一生成模块1120、第一图像生成模块1130和第一拼接模块1140。
第一识别模块1110,用于响应于图像扩展请求,对第一原始图像进行视觉语言识别,得到图像描述文本。
第一生成模块1120,用于利用图像扩展请求包括的目标横纵比和第一目标分辨率,基于第一原始图像,生成第二原始图像和第一掩码图像。
第一图像生成模块1130,用于以图像描述文本和第二原始图像作为语义基准,基于第一掩码图像进行图像生成,得到第一目标掩码图像。
第一拼接模块1140,用于将第一目标掩码图像与第二原始图像进行图像拼接,得到目标扩展图像。
根据本公开的实施例,第一生成模块1120包括第一生成子模块和第二生成子模块。
第一生成子模块,用于基于目标横纵比和第一目标分辨率,以第一原始图像的至少一条边为起点进行图像扩展,得到第一扩展图像。
第二生成子模块,用于从第一扩展图像中确定第二原始图像和第一掩码图像,其中,第二原始图像为第一原始图像。
根据本公开的实施例,第一生成模块1120包括第三生成子模块、第四生成子模块和第五生成子模块。
第三生成子模块,用于基于第一原始图像的原始分辨率和预设分辨率,对第一原始图像进行缩放处理,得到第三原始图像。
第四生成子模块,用于基于目标横纵比,以第三原始图像的至少一条边为起点进行图像扩展,得到第二扩展图像。
第五生成子模块,用于在第一目标分辨率等于预设分辨率的情况下,从第二扩展图像中确定第二原始图像和第一掩码图像。
根据本公开的实施例,第一生成模块1120还包括第六生成子模块和第七生成子模块。
第六生成子模块,用于在第一目标分辨率不等于预设分辨率的情况下,基于第一目标分辨率和预设分辨率,对第一扩展图像进行缩放处理,得到第三扩展图像。
第七生成子模块,用于从第三扩展图像中确定第二原始图像和第一掩码图像。
根据本公开的实施例,图像处理装置1100还包括第一扩展模块。
第一扩展模块,用于在基于第一目标分辨率和第一原始图像的原始分辨率,确定满足预设条件的情况下,以第一原始图像和图像描述文本作为语义基准进行N次图像扩展,以得到目标扩展图像,其中,N为正整数。
根据本公开的实施例,预设条件包括以下任意一项:第一目标分辨率和第一原始图像的原始分辨率之间的比值小于第一阈值。第一目标分辨率和第一原始图像的原始分辨率之间的比值大于第二阈值。图像扩展请求包括的图像扩展次数为大于1。
根据本公开的实施例,第一扩展模块包括第一扩展子模块、第二扩展子模块、第三扩展子模块、第四扩展子模块和第五扩展子模块。
第一扩展子模块,用于基于第一目标分辨率、第一原始图像的原始分辨率和N,确定扩展倍率。
第二扩展子模块,用于在第一目标分辨率和第i-1次图像扩展后的扩展图像的图像分辨率不相等的情况下,基于第i-1次图像扩展后的扩展图像的图像分辨率和扩展倍率,确定第二目标分辨率,其中,i为小于或等于N的正整数,第0次图像扩展后的扩展图像表示为第一原始图像,第0次图像扩展后的扩展图像的图像分辨率表示为原始分辨率。
第三扩展子模块,用于利用所述目标横纵比和所述第二目标分辨率,基于所述第i-1次图像扩展后的扩展图像,生成第四原始图像和第二掩码图像。
第四扩展子模块,用于以所述图像描述文本和所述第四原始图像作为语义基准,基于所述第二掩码图像进行图像生成,得到第二目标掩码图像。
第五扩展子模块,用于将所述第四原始图像与所述第二目标掩码图像进行图像拼接,得到第i次图像扩展后的扩展图像。
根据本公开的实施例,第一扩展模块还包括第六扩展子模块。
第六扩展子模块,用于在第一目标分辨率和第i次图像扩展后的扩展图像的图像分辨率相等的情况下,确定第i次图像扩展后的扩展图像为目标扩展图像。
根据本公开的实施例,第一图像生成模块1130包括第一图像生成子模块、第二图像生成子模块、第三图像生成子模块和第四图像生成子模块。
第一图像生成子模块,用于利用多模态编码器分别对第二原始图像和图像描述文本进行编码处理,得到图像编码特征和文本编码特征。
第二图像生成子模块,用于利用高斯噪声对第一掩码图像进行初始化处理,得到噪声图像。
第三图像生成子模块,用于以图像编码特征和文本编码特征作为语义基准,利用图像信息创造器处理噪声图像,得到目标输出特征。
第四图像生成子模块,用于利用模型解码器对目标输出特征进行解码处理,得到第一目标掩码图像。
根据本公开的实施例,图像信息创造器包括编码模块、解码模块和中间模块。
根据本公开的实施例,第三图像生成子模块包括第一图像生成单元、第二图像生成单元和第三图像生成单元。
第一图像生成单元,用于利用编码模块处理图像编码特征、文本编码特征和噪声图像,得到编码模块包括的M个编码功能块各自输出的第一噪声图像特征,其中,M为正整数。
第二图像生成单元,用于利用中间模块处理第M个编码功能块输出的第一噪声图像特征,得到第二噪声图像特征。
第三图像生成单元,用于利用解码模块处理第二噪声图像特征、M个编码功能块各自输出的第一噪声图像特征、图像编码特征和文本编码特征,得到目标输出特征。
根据本公开的实施例,M个编码功能块之间通过交叉注意力块连接。
根据本公开的实施例,第一图像生成单元包括第一图像生成子单元和第二图像生成子单元。
第一图像生成子单元,用于利用第j个编码功能块处理第j个编码功能块的输入特征,得到第j个编码功能块输出的第一噪声图像特征,其中,j为小于或等于M的正整数,第1个编码功能块的输入特征表示为噪声图像。
第二图像生成子单元,用于在j小于M的情况下,利用第j个编码功能块与第j+1个编码功能块之间的交叉注意力块处理第j个编码功能块输出的第一噪声图像特征、图像编码特征、文本编码特征,得到第j+1个编码功能块的输入特征。
根据本公开的实施例,解码模块包括M个解码功能块,M个解码功能块之间通过交叉注意力块连接。
根据本公开的实施例,第三图像生成单元包括第三图像生成子单元、第四图像生成子单元和第五图像生成子单元。
第三图像生成子单元,用于利用第k个解码功能块处理第k个解码功能块的输入特征和第k个编码功能块输出的第一噪声图像特征,得到第k个解码功能块输出的解码特征,其中,k为小于或等于M的正整数,第1个解码功能块的输入特征表示为第二噪声图像特征。
第四图像生成子单元,用于在k小于M的情况下,利用第k个解码功能块与第k+1个解码功能块之间的交叉注意力块处理第k个解码功能块输出的解码特征、图像编码特征和文本编码特征,得到第k+1个解码功能块的输入特征。
第五图像生成子单元,用于在k等于M的情况下,确定目标输出特征为第k个解码功能块输出的解码特征。
根据本公开的实施例,中间模块、编码功能块和解码功能块为门控卷积块。
根据本公开的实施例,第二图像生成单元包括第六图像生成子单元、第七图像生成子单元、第八图像生成子单元、第九图像生成子单元和第十图像生成子单元。
第六图像生成子单元,用于对第M个编码功能块输出的第一噪声图像特征进行层归一化处理,得到第一子特征。
第七图像生成子单元,用于利用门控卷积层处理第一子特征,得到第二子特征。
第八图像生成子单元,用于对第二子特征进行层归一化处理,得到第三子特征。
第九图像生成子单元,用于利用感知器处理第三子特征,得到第四子特征。
第十图像生成子单元,用于基于第M个编码功能块输出的第一噪声图像特征和第四子特征,得到第二噪声图像特征。
根据本公开的实施例,门控卷积层包括P个门控图像生成单元,其中,P为正整数。
根据本公开的实施例,第七图像生成子单元包括第一图像生成组件、第二图像生成组件、第三图像生成组件和第四图像生成组件。
第一图像生成组件,用于对第一子特征进行卷积处理,得到第五子特征。
第二图像生成组件,用于对第五子特征进行深度卷积处理,得到深度卷积特征。
第三图像生成组件,用于对于第p个门控图像生成单元,将深度卷积特征和第p-1个门控图像生成单元输出的门控输出特征进行点乘处理,得到第p个门控图像生成单元的第六子特征,其中,p为小于或等于P的正整数。
第四图像生成组件,用于对第p个门控图像生成单元的第六子特征进行卷积处理,得到第p个门控图像生成单元输出的门控输出特征,其中,第0个门控图像生成单元的门控输出特征表示为第五子特征,第P个门控图像生成单元的门控输出特征表示为第二子特征。
根据本公开的实施例,第一识别模块1110包括第一识别子模块和第二识别子模块。
第一识别子模块,用于利用视觉语言预训练模型处理第一原始图像,得到至少一个对象文本。
第二识别子模块,用于基于至少一个对象文本,得到图像描述文本。
根据本公开的实施例,图像扩展请求还包括图像扩展关键词。
根据本公开的实施例,第一识别模块1110包括第三识别子模块。
第三识别子模块,用于基于至少一个对象文本和图像扩展关键词,得到图像描述文本。
需要说明的是,本公开的实施例中图像处理装置部分与本公开的实施例中图像处理方法部分是相对应的,图像处理装置部分的描述具体参考图像处理方法部分,在此不再赘述。
图12示意性示出了根据本公开另一实施例的图像处理装置的框图。
如图12所示,图像处理装置1200包括第一获取模块1210、第二识别模块1220、第二获取模块1230、第二生成模块1240、第二图像生成模块1250和第二拼接模块1260。
第一获取模块1210,用于响应于任务启动控件被触发,从显示界面包括的图像输入控件的返回结果中获取第一原始图像。
第二识别模块1220,用于对第一原始图像进行视觉语言识别,得到图像描述文本。
第二获取模块1230,用于基于显示界面包括的多个配置控件各自的返回结果,得到目标横纵比和第一目标分辨率。
第二生成模块1240,用于利用目标横纵比和第一目标分辨率,基于第一原始图像,生成第二原始图像和第一掩码图像。
第二图像生成模块1250,用于以图像描述文本和第二原始图像作为语义基准,基于第一掩码图像进行图像生成,得到第一目标掩码图像。
第二拼接模块1260,用于将第一目标掩码图像与第二原始图像进行图像拼接,得到目标扩展图像。
根据本公开的实施例,多个配置控件包括横向分辨率配置控件、纵向分辨率配置控件、横向扩展倍率配置控件和纵向分辨率配置控件。
根据本公开的实施例,第二获取模块1230包括第一获取子模块和第二获取子模块。
第一获取子模块,用于基于横向分辨率配置控件返回的横向分辨率信息、纵向分辨率配置控件返回的纵向分辨率信息、横向扩展倍率配置控件返回的横向扩展倍率信息和纵向分辨率配置控件返回的纵向扩展倍率信息,确定第一目标分辨率。
第二获取子模块,用于基于第一目标分辨率,确定目标横纵比。
根据本公开的实施例,多个配置控件还包括扩展方向配置控件。
根据本公开的实施例,第二生成模块1240包括第八生成子模块、第九生成子模块和第十生成子模块。
第八生成子模块,用于基于扩展方向配置控件返回的扩展方向信息,从第一原始图像的四条边中确定至少一条目标边。
第九生成子模块,用于基于目标横纵比和第一目标分辨率,以第一原始图像的至少一条目标边为起点进行图像扩展,得到第一扩展图像。
第十生成子模块,用于从第一扩展图像中确定第二原始图像和第一掩码图像,其中,第二原始图像为第一原始图像。
根据本公开的实施例,多个配置控件还包括候选图像数量控件。
根据本公开的实施例,第九生成子模块包括第一生成单元、第二生成单元、第三生成单元和第四生成单元。
第一生成单元,用于基于候选图像数量控件返回的候选图像数量信息,确定候选图像数量。
第二生成单元,用于基于目标横纵比和第一目标分辨率,以第一原始图像的至少一条目标边为起点进行图像扩展,得到候选图像数量个数的第五扩展图像。
第三生成单元,用于向第一图像输出控件发送候选图像数量个数的第五扩展图像,其中,第一图像输出控件被配置为在显示界面上展示候选图像数量个数的第五扩展图像。
第四生成单元,用于响应于针对候选图像数量个数的第五扩展图像的选择请求,从候选图像数量个数的第五扩展图像中确定第一扩展图像。
根据本公开的实施例,多个配置控件还包括生成速度配置控件和单次最大扩展像素控件。
根据本公开的实施例,图像处理装置1200还包括第一确定模块和第二扩展模块。
第一确定模块,用于基于生成速度配置控件返回的生成速度信息、单次最大扩展像素控件返回的单次最大扩展像素信息、第一原始图像的原始分辨率和第一目标分辨率,确定图像扩展次数。
第二扩展模块,用于在图像扩展次数大于1的情况下,基于图像扩展次数,以第一原始图像和图像描述文本作为语义基准进行多次图像扩展,以得到目标扩展图像。
根据本公开的实施例,多个配置控件还包括图像风格配置控件。
根据本公开的实施例,第二识别模块1220包括第四识别子模块、第五识别子模块和第六识别子模块。
第四识别子模块,用于基于图像风格配置控件返回的图像风格信息,得到图像扩展关键词。
第五识别子模块,用于利用视觉语言预训练模型处理第一原始图像,得到至少一个对象文本。
第五识别子模块,用于基于至少一个对象文本和图像扩展关键词,得到图像描述文本。
根据本公开的实施例,多个配置控件还包括创意度配置控件。
根据本公开的实施例,第二图像生成模块1250包括第五图像生成子模块、第六图像生成子模块、第七图像生成子模块、第八图像生成子模块和第九图像生成子模块。
第五图像生成子模块,用于利用多模态编码器分别对第二原始图像和图像描述文本进行编码处理,得到初始图像编码特征和初始文本编码特征。
第六图像生成子模块,用于基于创意度配置控件返回的创意度信息,对初始图像编码特征和初始文本编码特征进行修正,得到图像编码特征和文本编码特征。
第七图像生成子模块,用于利用高斯噪声对第一掩码图像进行初始化处理,得到噪声图像。
第八图像生成子模块,用于以图像编码特征和文本编码特征作为语义基准,利用图像信息创造器处理噪声图像,得到目标输出特征。
第九图像生成子模块,用于利用模型解码器对目标输出特征进行解码处理,得到第一目标掩码图像。
根据本公开的实施例,图像处理装置1200还包括第二确定模块和第一发送模块。
第二确定模块,用于响应于与第一原始图像相关的图像输入请求,确定第一原始图像的分辨率信息。
第一发送模块,用于向分辨率展示控件发送分辨率信息,其中,分辨率展示控件被配置为基于分辨率信息,在显示界面上展示第一原始图像的原始分辨率。
根据本公开的实施例,图像处理装置1200还包括第二发送模块。
第二发送模块,用于向第二图像输出控件发送目标扩展图像,其中,第二图像输出控件被配置为在显示界面上展示目标扩展图像。
需要说明的是,本公开的另一实施例中图像处理装置部分与本公开的另一实施例中图像处理方法部分是相对应的,图像处理装置部分的描述具体参考图像处理方法部分,在此不再赘述。
根据本公开的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,根据本公开实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
例如,第一识别模块1110、第一生成模块1120、第一图像生成模块1130和第一拼接模块1140,或者,第一获取模块1210、第二识别模块1220、第二获取模块1230、第二生成模块1240、第二图像生成模块1250和第二拼接模块1260中的任意多个可以合并在一个模块/单元/子单元中实现,或者其中的任意一个模块/单元/子单元可以被拆分成多个模块/单元/子单元。或者,这些模块/单元/子单元中的一个或多个模块/单元/子单元的至少部分功能可以与其他模块/单元/子单元的至少部分功能相结合,并在一个模块/单元/子单元中实现。根据本公开的实施例,第一识别模块1110、第一生成模块1120、第一图像生成模块1130和第一拼接模块1140,或者,第一获取模块1210、第二识别模块1220、第二获取模块1230、第二生成模块1240、第二图像生成模块1250和第二拼接模块1260中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,第一识别模块1110、第一生成模块1120、第一图像生成模块1130和第一拼接模块1140,或者,第一获取模块1210、第二识别模块1220、第二获取模块1230、第二生成模块1240、第二图像生成模块1250和第二拼接模块1260中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
图13示意性示出了根据本公开实施例的适于实现图像处理方法的电子设备的框图。图13示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图13所示,根据本公开实施例的计算机电子设备1300包括处理器1301,其可以根据存储在只读存储器(ROM)1302中的程序或者从存储部分1308加载到随机访问存储器(RAM)1303中的程序而执行各种适当的动作和处理。处理器1301例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC)),等等。处理器1301还可以包括用于缓存用途的板载存储器。处理器1301可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
在RAM 1303中,存储有电子设备1300操作所需的各种程序和数据。处理器1301、ROM 1302以及RAM 1303通过总线1304彼此相连。处理器1301通过执行ROM 1302和/或RAM1303中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意,所述程序也可以存储在除ROM 1302和RAM 1303以外的一个或多个存储器中。处理器1301也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。
根据本公开的实施例,电子设备1300还可以包括输入/输出(I/O)接口1305,输入/输出(I/O)接口1305也连接至总线1304。电子设备1300还可以包括连接至输入/输出(I/O)接口1305的以下部件中的一项或多项:包括键盘、鼠标等的输入部分1306;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1307;包括硬盘等的存储部分1308;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1309。通信部分1309经由诸如因特网的网络执行通信处理。驱动器13131310也根据需要连接至输入/输出(I/O)接口1305。可拆卸介质1311,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器13131310上,以便于从其上读出的计算机程序根据需要被安装入存储部分1308。
根据本公开的实施例,根据本公开实施例的方法流程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1309从网络上被下载和安装,和/或从可拆卸介质1311被安装。在该计算机程序被处理器1301执行时,执行本公开实施例的系统中限定的上述功能。根据本公开的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质。例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
例如,根据本公开的实施例,计算机可读存储介质可以包括上文描述的ROM 1302和/或RAM 1303和/或ROM 1302和RAM 1303以外的一个或多个存储器。
本公开的实施例还包括一种计算机程序产品,其包括计算机程序,该计算机程序包含用于执行本公开实施例所提供的方法的程序代码,当计算机程序产品在电子设备上运行时,该程序代码用于使电子设备实现本公开实施例所提供的图像处理方法。
在该计算机程序被处理器1301执行时,执行本公开实施例的系统/装置中限定的上述功能。根据本公开的实施例,上文描述的系统、装置、模块、单元等可以通过计算机程序模块来实现。
在一种实施例中,该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中,该计算机程序也可以在网络介质上以信号的形式进行传输、分发,并通过通信部分1309被下载和安装,和/或从可拆卸介质1311被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
根据本公开的实施例,可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例提供的计算机程序的程序代码,具体地,可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如Java,C++,python,“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合,即使这样的组合或结合没有明确记载于本公开中。特别地,在不脱离本公开精神和教导的情况下,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。
以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。
Claims (29)
1.一种图像处理方法,包括:
响应于图像扩展请求,对第一原始图像进行视觉语言识别,得到图像描述文本;
利用所述图像扩展请求包括的目标横纵比和第一目标分辨率,基于所述第一原始图像,生成第二原始图像和第一掩码图像;
以所述图像描述文本和所述第二原始图像作为语义基准,基于所述第一掩码图像进行图像生成,得到第一目标掩码图像;以及
将所述第一目标掩码图像与所述第二原始图像进行图像拼接,得到目标扩展图像。
2.根据权利要求1所述的方法,其中,所述利用所述图像扩展请求包括的目标横纵比和第一目标分辨率,基于所述第一原始图像,生成第二原始图像和第一掩码图像,包括:
基于所述目标横纵比和所述第一目标分辨率,以所述第一原始图像的至少一条边为起点进行图像扩展,得到第一扩展图像;以及
从所述第一扩展图像中确定所述第二原始图像和所述第一掩码图像,其中,所述第二原始图像为所述第一原始图像。
3.根据权利要求1所述的方法,其中,所述利用所述图像扩展请求包括的目标横纵比和第一目标分辨率,基于所述第一原始图像,生成第二原始图像和第一掩码图像,包括:
基于所述第一原始图像的原始分辨率和预设分辨率,对所述第一原始图像进行缩放处理,得到第三原始图像;
基于所述目标横纵比,以所述第三原始图像的至少一条边为起点进行图像扩展,得到第二扩展图像;以及
在所述第一目标分辨率等于所述预设分辨率的情况下,从所述第二扩展图像中确定所述第二原始图像和所述第一掩码图像。
4.根据权利要求3所述的方法,还包括:
在所述第一目标分辨率不等于所述预设分辨率的情况下,基于所述第一目标分辨率和所述预设分辨率,对所述第一扩展图像进行缩放处理,得到第三扩展图像;以及
从所述第三扩展图像中确定所述第二原始图像和所述第一掩码图像。
5.根据权利要求1~4中任一项所述的方法,还包括:
在基于所述第一目标分辨率和所述第一原始图像的原始分辨率,确定满足预设条件的情况下,以所述第一原始图像和所述图像描述文本作为语义基准进行N次图像扩展,以得到所述目标扩展图像,其中,所述N为正整数;
其中,所述预设条件包括以下任意一项:
所述第一目标分辨率和所述第一原始图像的原始分辨率之间的比值小于第一阈值;
所述第一目标分辨率和所述第一原始图像的原始分辨率之间的比值大于第二阈值;以及
所述图像扩展请求包括的图像扩展次数为大于1。
6.根据权利要求5所述的方法,其中,所述以所述第一原始图像和所述图像描述文本作为语义基准进行N次图像扩展,以得到所述目标扩展图像,包括:
基于所述第一目标分辨率、所述第一原始图像的原始分辨率和所述N,确定扩展倍率;
在所述第一目标分辨率和第i-1次图像扩展后的扩展图像的图像分辨率不相等的情况下,基于所述第i-1次图像扩展后的扩展图像的图像分辨率和所述扩展倍率,确定第二目标分辨率,其中,所述i为小于或等于所述N的正整数,所述第0次图像扩展后的扩展图像表示为所述第一原始图像,所述第0次图像扩展后的扩展图像的图像分辨率表示为所述原始分辨率;
利用所述目标横纵比和所述第二目标分辨率,基于所述第i-1次图像扩展后的扩展图像,生成第四原始图像和第二掩码图像;
以所述图像描述文本和所述第四原始图像作为语义基准,基于所述第二掩码图像进行图像生成,得到第二目标掩码图像;以及
将所述第四原始图像与所述第二目标掩码图像进行图像拼接,得到第i次图像扩展后的扩展图像。
7.根据权利要求6所述的方法,还包括:
在所述第一目标分辨率和所述第i次图像扩展后的扩展图像的图像分辨率相等的情况下,确定所述第i次图像扩展后的扩展图像为所述目标扩展图像。
8.根据权利要求1所述的方法,其中,所述以所述图像描述文本和所述第二原始图像作为语义基准,基于所述第一掩码图像进行图像生成,得到第一目标掩码图像,包括:
利用多模态编码器分别对所述第二原始图像和所述图像描述文本进行编码处理,得到图像编码特征和文本编码特征;
利用高斯噪声对所述第一掩码图像进行初始化处理,得到噪声图像;
以所述图像编码特征和文本编码特征作为语义基准,利用所述图像信息创造器处理所述噪声图像,得到目标输出特征;以及
利用模型解码器对所述目标输出特征进行解码处理,得到所述第一目标掩码图像。
9.根据权利要求8所述的方法,其中,所述图像信息创造器包括编码模块、解码模块和中间模块;
其中,所述以所述图像编码特征和文本编码特征作为语义基准,利用所述图像信息创造器处理所述噪声图像,得到目标输出特征,包括:
利用所述编码模块处理所述图像编码特征、所述文本编码特征和所述噪声图像,得到所述编码模块包括的M个编码功能块各自输出的第一噪声图像特征,其中,所述M为正整数;
利用所述中间模块处理第M个编码功能块输出的第一噪声图像特征,得到第二噪声图像特征;以及
利用所述解码模块处理所述第二噪声图像特征、所述M个编码功能块各自输出的第一噪声图像特征、所述图像编码特征和所述文本编码特征,得到所述目标输出特征。
10.根据权利要求9所述的方法,其中,所述M个编码功能块之间通过交叉注意力块连接;
其中,所述利用所述编码模块处理所述图像编码特征、所述文本编码特征和所述噪声图像,得到所述编码模块包括的M个编码功能块各自输出的第一噪声图像特征,包括:
利用第j个编码功能块处理所述第j个编码功能块的输入特征,得到所述第j个编码功能块输出的第一噪声图像特征,其中,所述j为小于或等于所述M的正整数,第1个编码功能块的输入特征表示为所述噪声图像;以及
在所述j小于所述M的情况下,利用所述第j个编码功能块与所述第j+1个编码功能块之间的交叉注意力块处理所述第j个编码功能块输出的第一噪声图像特征、所述图像编码特征、所述文本编码特征,得到第j+1个编码功能块的输入特征。
11.根据权利要求9所述的方法,其中,所述解码模块包括M个解码功能块,所述M个解码功能块之间通过交叉注意力块连接;
其中,所述利用所述解码模块处理所述第二噪声图像特征、所述M个编码功能块各自输出的第一噪声图像特征、所述图像编码特征和所述文本编码特征,得到所述目标输出特征,包括:
利用第k个解码功能块处理所述第k个解码功能块的输入特征和第k个编码功能块输出的第一噪声图像特征,得到所述第k个解码功能块输出的解码特征,其中,所述k为小于或等于所述M的正整数,第1个解码功能块的输入特征表示为所述第二噪声图像特征;
在所述k小于所述M的情况下,利用所述第k个解码功能块与所述第k+1个解码功能块之间的交叉注意力块处理所述第k个解码功能块输出的解码特征、所述图像编码特征和所述文本编码特征,得到第k+1个解码功能块的输入特征;以及
在所述k等于所述M的情况下,确定所述目标输出特征为所述第k个解码功能块输出的解码特征。
12.根据权利要求9~11中任一项所述的方法,其中,所述中间模块、所述编码功能块和解码功能块为门控卷积块;
其中,所述利用所述中间模块处理第M个编码功能块输出的第一噪声图像特征,得到第二噪声图像特征,包括:
对所述第M个编码功能块输出的第一噪声图像特征进行层归一化处理,得到第一子特征;
利用门控卷积层处理所述第一子特征,得到第二子特征;
对所述第二子特征进行层归一化处理,得到第三子特征;
利用感知器处理所述第三子特征,得到第四子特征;以及
基于所述第M个编码功能块输出的第一噪声图像特征和所述第四子特征,得到所述第二噪声图像特征。
13.根据权利要求12所述的方法,其中,所述门控卷积层包括P个门控处理单元,其中,所述P为正整数;
其中,所述利用门控卷积层处理所述第一子特征,得到第二子特征,包括:
对所述第一子特征进行卷积处理,得到第五子特征;
对所述第五子特征进行深度卷积处理,得到深度卷积特征;
对于第p个门控处理单元,将所述深度卷积特征和第p-1个门控处理单元输出的门控输出特征进行点乘处理,得到所述第p个门控处理单元的第六子特征,其中,所述p为小于或等于所述P的正整数;以及
对所述第p个门控处理单元的第六子特征进行卷积处理,得到所述第p个门控处理单元输出的门控输出特征,其中,第0个门控处理单元的门控输出特征表示为所述第五子特征,第P个门控处理单元的门控输出特征表示为所述第二子特征。
14.根据权利要求1所述的方法,其中,所述对第一原始图像进行视觉语言识别,得到图像描述文本,包括:
利用视觉语言预训练模型处理所述第一原始图像,得到至少一个对象文本;以及
基于所述至少一个对象文本,得到所述图像描述文本。
15.根据权利要求14所述的方法,其中,所述图像扩展请求还包括图像扩展关键词;
所述方法还包括:
基于所述至少一个对象文本和所述图像扩展关键词,得到所述图像描述文本。
16.一种图像处理方法,包括:
响应于任务启动控件被触发,从显示界面包括的图像输入控件的返回结果中获取第一原始图像;
对所述第一原始图像进行视觉语言识别,得到图像描述文本;
基于所述显示界面包括的多个配置控件各自的返回结果,得到目标横纵比和第一目标分辨率;
利用所述目标横纵比和所述第一目标分辨率,基于所述第一原始图像,生成第二原始图像和第一掩码图像;
以所述图像描述文本和所述第二原始图像作为语义基准,基于所述第一掩码图像进行图像生成,得到第一目标掩码图像;以及
将所述第一目标掩码图像与所述第二原始图像进行图像拼接,得到目标扩展图像。
17.根据权利要求16所述的方法,其中,所述多个配置控件包括横向分辨率配置控件、纵向分辨率配置控件、横向扩展倍率配置控件和纵向分辨率配置控件;
其中,所述基于所述显示界面包括的多个配置控件各自的返回结果,得到目标横纵比和第一目标分辨率,包括:
基于所述横向分辨率配置控件返回的横向分辨率信息、所述纵向分辨率配置控件返回的纵向分辨率信息、所述横向扩展倍率配置控件返回的横向扩展倍率信息和所述纵向分辨率配置控件返回的纵向扩展倍率信息,确定所述第一目标分辨率;以及
基于所述第一目标分辨率,确定所述目标横纵比。
18.根据权利要求16所述的方法,其中,所述多个配置控件还包括扩展方向配置控件;
其中,所述利用所述目标横纵比和所述第一目标分辨率,基于所述第一原始图像,生成第二原始图像和第一掩码图像,包括:
基于所述扩展方向配置控件返回的扩展方向信息,从所述第一原始图像的四条边中确定至少一条目标边;
基于所述目标横纵比和所述第一目标分辨率,以所述第一原始图像的所述至少一条目标边为起点进行图像扩展,得到第一扩展图像;以及
从所述第一扩展图像中确定所述第二原始图像和所述第一掩码图像,其中,所述第二原始图像为所述第一原始图像。
19.根据权利要求18所述的方法,其中,所述多个配置控件还包括候选图像数量控件;
其中,所述基于所述目标横纵比和所述第一目标分辨率,以所述第一原始图像的所述至少一条目标边为起点进行图像扩展,得到第一扩展图像,包括:
基于所述候选图像数量控件返回的候选图像数量信息,确定候选图像数量;
基于所述目标横纵比和所述第一目标分辨率,以所述第一原始图像的所述至少一条目标边为起点进行图像扩展,得到所述候选图像数量个数的第五扩展图像;
向第一图像输出控件发送所述候选图像数量个数的第五扩展图像,其中,所述第一图像输出控件被配置为在所述显示界面上展示所述候选图像数量个数的第五扩展图像;以及
响应于针对所述候选图像数量个数的第五扩展图像的选择请求,从所述候选图像数量个数的第五扩展图像中确定所述第一扩展图像。
20.根据权利要求16所述的方法,其中,所述多个配置控件还包括生成速度配置控件和单次最大扩展像素控件;
所述方法还包括:
基于所述生成速度配置控件返回的生成速度信息、所述单次最大扩展像素控件返回的单次最大扩展像素信息、所述第一原始图像的原始分辨率和所述第一目标分辨率,确定图像扩展次数;以及
在所述图像扩展次数大于1的情况下,基于所述图像扩展次数,以所述第一原始图像和所述图像描述文本作为语义基准进行多次图像扩展,以得到所述目标扩展图像。
21.根据权利要求16所述的方法,其中,所述多个配置控件还包括图像风格配置控件;
其中,所述对所述第一原始图像进行视觉语言识别,得到图像描述文本,包括:
基于所述图像风格配置控件返回的图像风格信息,得到图像扩展关键词;
利用视觉语言预训练模型处理所述第一原始图像,得到至少一个对象文本;以及
基于所述至少一个对象文本和所述图像扩展关键词,得到所述图像描述文本。
22.根据权利要求16所述的方法,其中,所述多个配置控件还包括创意度配置控件;
其中,所述以所述图像描述文本和所述第二原始图像作为语义基准,基于所述第一掩码图像进行图像生成,得到第一目标掩码图像,包括:
利用多模态编码器分别对所述第二原始图像和所述图像描述文本进行编码处理,得到初始图像编码特征和初始文本编码特征;
基于所述创意度配置控件返回的创意度信息,对所述初始图像编码特征和所述初始文本编码特征进行修正,得到图像编码特征和文本编码特征;
利用高斯噪声对所述第一掩码图像进行初始化处理,得到噪声图像;
以所述图像编码特征和文本编码特征作为语义基准,利用所述图像信息创造器处理所述噪声图像,得到目标输出特征;以及
利用模型解码器对所述目标输出特征进行解码处理,得到所述第一目标掩码图像。
23.根据权利要求16所述的方法,还包括:
响应于与所述第一原始图像相关的图像输入请求,确定所述第一原始图像的分辨率信息;以及
向分辨率展示控件发送所述分辨率信息,其中,所述分辨率展示控件被配置为基于所述分辨率信息,在所述显示界面上展示所述第一原始图像的原始分辨率。
24.根据权利要求16所述的方法,还包括:
向第二图像输出控件发送所述目标扩展图像,其中,所述第二图像输出控件被配置为在所述显示界面上展示所述目标扩展图像。
25.一种图像处理装置,包括:
第一识别模块,用于响应于图像扩展请求,对第一原始图像进行视觉语言识别,得到图像描述文本;
第一生成模块,用于利用所述图像扩展请求包括的目标横纵比和第一目标分辨率,基于所述第一原始图像,生成第二原始图像和第一掩码图像;
第一图像生成模块,用于以所述图像描述文本和所述第二原始图像作为语义基准,基于所述第一掩码图像进行图像生成,得到第一目标掩码图像;以及
第一拼接模块,用于将所述第一目标掩码图像与所述第二原始图像进行图像拼接,得到目标扩展图像。
26.一种图像处理装置,包括:
第一获取模块,用于响应于任务启动控件被触发,从显示界面包括的图像输入控件的返回结果中获取第一原始图像;
第二识别模块,用于对所述第一原始图像进行视觉语言识别,得到图像描述文本;
第二获取模块,用于基于所述显示界面包括的多个配置控件各自的返回结果,得到目标横纵比和第一目标分辨率;
第二生成模块,用于利用所述目标横纵比和所述第一目标分辨率,基于所述第一原始图像,生成第二原始图像和第一掩码图像;
第二图像生成模块,用于以所述图像描述文本和所述第二原始图像作为语义基准,基于所述第一掩码图像进行图像生成,得到第一目标掩码图像;以及
第二拼接模块,用于将所述第一目标掩码图像与所述第二原始图像进行图像拼接,得到目标扩展图像。
27.一种电子设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个指令,
其中,当所述一个或多个指令被所述一个或多个处理器执行时,使得所述一个或多个处理器实现权利要求1至24中任一项所述的方法。
28.一种计算机可读存储介质,其上存储有可执行指令,所述可执行指令被处理器执行时使处理器实现权利要求1至24中任一项所述的方法。
29.一种计算机程序产品,所述计算机程序产品包括计算机可执行指令,所述计算机可执行指令在被执行时用于实现权利要求1至24中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310899530.3A CN116884004A (zh) | 2023-07-20 | 2023-07-20 | 图像处理方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310899530.3A CN116884004A (zh) | 2023-07-20 | 2023-07-20 | 图像处理方法、装置、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116884004A true CN116884004A (zh) | 2023-10-13 |
Family
ID=88256581
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310899530.3A Pending CN116884004A (zh) | 2023-07-20 | 2023-07-20 | 图像处理方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116884004A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117292020A (zh) * | 2023-11-24 | 2023-12-26 | 深圳市信润富联数字科技有限公司 | 图像生成方法、装置、电子设备及存储介质 |
-
2023
- 2023-07-20 CN CN202310899530.3A patent/CN116884004A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117292020A (zh) * | 2023-11-24 | 2023-12-26 | 深圳市信润富联数字科技有限公司 | 图像生成方法、装置、电子设备及存储介质 |
CN117292020B (zh) * | 2023-11-24 | 2024-03-26 | 深圳市信润富联数字科技有限公司 | 图像生成方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111210443B (zh) | 基于嵌入平衡的可变形卷积混合任务级联语义分割方法 | |
US10692243B2 (en) | Optimizations for dynamic object instance detection, segmentation, and structure mapping | |
US9633479B2 (en) | Time constrained augmented reality | |
CN111104962A (zh) | 图像的语义分割方法、装置、电子设备及可读存储介质 | |
US11538244B2 (en) | Extraction of spatial-temporal feature representation | |
EP3493105A1 (en) | Optimizations for dynamic object instance detection, segmentation, and structure mapping | |
CN108230346B (zh) | 用于分割图像语义特征的方法和装置、电子设备 | |
CN111279362A (zh) | 胶囊神经网络 | |
WO2018176186A1 (en) | Semantic image segmentation using gated dense pyramid blocks | |
US11030750B2 (en) | Multi-level convolutional LSTM model for the segmentation of MR images | |
CN113066017B (zh) | 一种图像增强方法、模型训练方法及设备 | |
CN113379627B (zh) | 图像增强模型的训练方法和对图像进行增强的方法 | |
US20220301295A1 (en) | Recurrent multi-task convolutional neural network architecture | |
CN114283430A (zh) | 跨模态图文匹配训练方法及装置、存储介质、电子设备 | |
US20230177643A1 (en) | Image super-resolution | |
EP3493106A1 (en) | Optimizations for dynamic object instance detection, segmentation, and structure mapping | |
US11830275B1 (en) | Person re-identification method and apparatus, device, and readable storage medium | |
CN113704531A (zh) | 图像处理方法、装置、电子设备及计算机可读存储介质 | |
EP3493104A1 (en) | Optimizations for dynamic object instance detection, segmentation, and structure mapping | |
US20220366259A1 (en) | Method, apparatus and system for training a neural network, and storage medium storing instructions | |
US10438088B2 (en) | Visual-saliency driven scene description | |
CN112488923A (zh) | 图像超分辨率重建方法、装置、存储介质及电子设备 | |
Wang et al. | PalGAN: Image colorization with palette generative adversarial networks | |
CN116884004A (zh) | 图像处理方法、装置、电子设备和存储介质 | |
CN113869138A (zh) | 多尺度目标检测方法、装置及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20231013 |