CN117078790A - 图像生成方法、装置、计算机设备和存储介质 - Google Patents

图像生成方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN117078790A
CN117078790A CN202311324844.7A CN202311324844A CN117078790A CN 117078790 A CN117078790 A CN 117078790A CN 202311324844 A CN202311324844 A CN 202311324844A CN 117078790 A CN117078790 A CN 117078790A
Authority
CN
China
Prior art keywords
style
conversion
information
background
original
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311324844.7A
Other languages
English (en)
Other versions
CN117078790B (zh
Inventor
娄帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202311324844.7A priority Critical patent/CN117078790B/zh
Publication of CN117078790A publication Critical patent/CN117078790A/zh
Application granted granted Critical
Publication of CN117078790B publication Critical patent/CN117078790B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/001Texturing; Colouring; Generation of texture or colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0475Generative networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本申请涉及一种图像生成方法、装置、计算机设备、存储介质和计算机程序产品。本申请实施例可应用于地图领域。该方法包括:获取原始对象图像,将原始对象图像分割,得到原始背景区域、各个原始对象区域和各个原始对象区域对应的位置信息;基于背景风格转换信息将原始背景区域进行风格转换,得到转换背景区域;计算各个原始对象区域分别对应的纹理信息;基于对象风格转换信息和各个原始对象区域分别对应的纹理信息将各个原始对象区域进行风格转换,得到各个转换对象区域;按照各个原始对象区域对应的位置信息将转换背景区域和各个原始对象区域分别对应的转换对象区域融合。得到原始对象图像对应的转换对象图像。采用本方法能够提高图像生成效率。

Description

图像生成方法、装置、计算机设备和存储介质
技术领域
本申请涉及计算机技术领域,特别是涉及一种图像生成方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术
随着图像处理技术的发展,出现了图像生成技术,比如,通过图像生成技术可以根据文本来生成对应的图像或者也可以根据图像来生成不同风格的图像。目前,使用图像来生成不同风格的图像通常是逐步对随机高斯噪声进行去噪以获得高质量的不同风格的图像。然而,由于去噪过程的时间和内存消耗比较多,会导致图像生成的进程变慢,进而导致图像生成的效率低下。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高图像生成效率的图像生成方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种图像生成方法。所述方法包括:
获取原始对象图像,将原始对象图像进行分割,得到原始背景区域、各个原始对象区域和各个原始对象区域对应的位置信息;
获取背景风格转换信息,基于背景风格转换信息将原始背景区域进行风格转换,得到背景风格转换信息对应的转换背景区域;
计算各个原始对象区域分别对应的纹理信息,纹理信息用于表征原始对象区域的区域纹理细节;
获取对象风格转换信息,并基于对象风格转换信息和各个原始对象区域分别对应的纹理信息将各个原始对象区域进行风格转换,得到各个原始对象区域分别对应的转换对象区域;
按照各个原始对象区域对应的位置信息将转换背景区域和各个原始对象区域分别对应的转换对象区域进行融合,得到原始对象图像对应的转换对象图像。
第二方面,本申请还提供了一种图像生成装置。所述装置包括:
图像分割模块,用于获取原始对象图像,将原始对象图像进行分割,得到原始背景区域、各个原始对象区域和各个原始对象区域对应的位置信息;
背景转换模块,用于获取背景风格转换信息,基于背景风格转换信息将原始背景区域进行风格转换,得到背景风格转换信息对应的转换背景区域;
信息计算模块,用于计算各个原始对象区域分别对应的纹理信息,纹理信息用于表征原始对象区域的区域纹理细节;
对象转换模块,用于获取对象风格转换信息,并基于对象风格转换信息和各个原始对象区域分别对应的纹理信息将各个原始对象区域进行风格转换,得到各个原始对象区域分别对应的转换对象区域;
生成图像得到模块,用于按照各个原始对象区域对应的位置信息将转换背景区域和各个原始对象区域分别对应的转换对象区域进行融合,得到原始对象图像对应的转换对象图像。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取原始对象图像,将原始对象图像进行分割,得到原始背景区域、各个原始对象区域和各个原始对象区域对应的位置信息;
获取背景风格转换信息,基于背景风格转换信息将原始背景区域进行风格转换,得到背景风格转换信息对应的转换背景区域;
计算各个原始对象区域分别对应的纹理信息,纹理信息用于表征原始对象区域的区域纹理细节;
获取对象风格转换信息,并基于对象风格转换信息和各个原始对象区域分别对应的纹理信息将各个原始对象区域进行风格转换,得到各个原始对象区域分别对应的转换对象区域;
按照各个原始对象区域对应的位置信息将转换背景区域和各个原始对象区域分别对应的转换对象区域进行融合,得到原始对象图像对应的转换对象图像。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取原始对象图像,将原始对象图像进行分割,得到原始背景区域、各个原始对象区域和各个原始对象区域对应的位置信息;
获取背景风格转换信息,基于背景风格转换信息将原始背景区域进行风格转换,得到背景风格转换信息对应的转换背景区域;
计算各个原始对象区域分别对应的纹理信息,纹理信息用于表征原始对象区域的区域纹理细节;
获取对象风格转换信息,并基于对象风格转换信息和各个原始对象区域分别对应的纹理信息将各个原始对象区域进行风格转换,得到各个原始对象区域分别对应的转换对象区域;
按照各个原始对象区域对应的位置信息将转换背景区域和各个原始对象区域分别对应的转换对象区域进行融合,得到原始对象图像对应的转换对象图像。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
获取原始对象图像,将原始对象图像进行分割,得到原始背景区域、各个原始对象区域和各个原始对象区域对应的位置信息;
获取背景风格转换信息,基于背景风格转换信息将原始背景区域进行风格转换,得到背景风格转换信息对应的转换背景区域;
计算各个原始对象区域分别对应的纹理信息,纹理信息用于表征原始对象区域的区域纹理细节;
获取对象风格转换信息,并基于对象风格转换信息和各个原始对象区域分别对应的纹理信息将各个原始对象区域进行风格转换,得到各个原始对象区域分别对应的转换对象区域;
按照各个原始对象区域对应的位置信息将转换背景区域和各个原始对象区域分别对应的转换对象区域进行融合,得到原始对象图像对应的转换对象图像。
上述图像生成方法、装置、计算机设备、存储介质和计算机程序产品,通过获取原始对象图像,将原始对象图像进行分割,得到原始背景区域、各个原始对象区域和各个原始对象区域对应的位置信息;获取背景风格转换信息,基于背景风格转换信息将原始背景区域进行风格转换,得到背景风格转换信息对应的转换背景区域;计算各个原始对象区域分别对应的纹理信息,纹理信息用于表征原始对象区域的区域纹理细节;获取对象风格转换信息,并基于对象风格转换信息和各个原始对象区域分别对应的纹理信息将各个原始对象区域进行风格转换,得到各个原始对象区域分别对应的转换对象区域;按照各个原始对象区域对应的位置信息将转换背景区域和各个原始对象区域分别对应的转换对象区域进行融合,得到原始对象图像对应的转换对象图像。即通过对原始背景区域直接进行风格转换,可以减少计算工作量,然后使用纹理信息将各个原始对象区域进行风格转换,从而可以提高得到的转换对象区域的质量,然后将转换背景区域和转换对象区域进行融合,得到原始对象图像对应的转换对象图像,从而可以保证转换对象图像质量的基础上提高图像生成的效率。
附图说明
图1为一个实施例中图像生成方法的应用环境图;
图2为一个实施例中图像生成方法的流程示意图;
图3为一个实施例中训练背景风格图像生成模型的流程示意图;
图4为一个具体实施例中建筑区域对应的深度图的示意图;
图5为一个具体实施例中建筑区域对应的法线贴图的示意图;
图6为一个具体实施例中转换建筑图像的示意图;
图7为一个实施例中训练对象风格图像生成模型的流程示意图;
图8为一个实施例中得到目标转换对象图像的流程示意图;
图9为一个具体实施例中建筑物组合区域的示意图;
图10为一个具体实施例中建筑地图图像的示意图;
图11为一个实施例中得到转换建筑地图图像的流程示意图;
图12为一个具体实施例中图像生成方法的流程示意图;
图13为一个具体实施例中建筑物地图生成的框架示意图;
图14为一个实施例中图像生成装置的结构框图;
图15为一个实施例中计算机设备的内部结构图;
图16为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
计算机视觉技术(Computer Vision, CV)计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
本申请实施例提供的方案涉及人工智能的图像处理、地图构建等技术,具体通过如下实施例进行说明:
本申请实施例提供的图像生成方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以单独存在,也可以集成在服务器104上,也可以放在云上或其他服务器上。服务器104获取终端102上传的原始对象图像,将原始对象图像进行分割,得到原始背景区域、各个原始对象区域和各个原始对象区域对应的位置信息;服务器104获取背景风格转换信息,基于背景风格转换信息将原始背景区域进行风格转换,得到背景风格转换信息对应的转换背景区域;服务器104计算各个原始对象区域分别对应的纹理信息,纹理信息用于表征原始对象区域的区域纹理细节;服务器104获取对象风格转换信息,并基于对象风格转换信息和各个原始对象区域分别对应的纹理信息将各个原始对象区域进行风格转换,得到各个原始对象区域分别对应的转换对象区域;服务器104按照各个原始对象区域对应的位置信息将转换背景区域和各个原始对象区域分别对应的转换对象区域进行融合,得到原始对象图像对应的转换对象图像,服务器104可以将原始对象图像对应的转换对象图像返回终端102进行展示。其中,终端102可以但不限于是各种台式计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
在一个实施例中,如图2所示,提供了一种图像生成方法,以该方法应用于图1中的服务器为例进行说明,该方法也可以应用于终端,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。本实施例中,该方法包括以下步骤:
S202,获取原始对象图像,将原始对象图像进行分割,得到原始背景区域、各个原始对象区域和各个原始对象区域对应的位置信息。
其中,原始对象图像是指需要的转换成高分辨率的不同风格的对象图像,该对象图像中包含有对象,该对象是指可以是虚拟对象,也可以是真实对象。虚拟对象是指虚拟化的对象,比如,虚拟人物、虚拟物体、虚拟动物等等,真丝对象是指真实存在的对象,比如,真实的人物、物体、动物等等。该原始对象图像中包括有多个对象,该多个对象可以是相同的对象,也可以是不同的对象。原始背景区域是指原始对象图像中的背景区域,该背景区域是未存在有对象的图像区域。原始对象区域是指原始对象图像中的对象区域,该对象区域可以是有多个。不同的对象区域可以是相连的,也可以是未相连的。该原始对象区域包括至少两个。原始对象区域对应的位置信息是指原始对象区域在原始对象图像中的位置信息,该位置信息可以是使用对象的轮廓图来表示,也可以根据位置坐标来表示。
具体地,服务器可以获取到终端上传的原始对象图像,服务器也可以是从数据库中获取到原始对象图像,服务器还可以是获取到业务服务方提供的原始对象图像,服务器还可以是从互联网中获取到原始对象图像。然后将原始对象图像进行对象分割,其中,可以使用预先训练好的用于进行图像分割的神经网络模型来进行对象分割,从而得到图像分割结果,该图像分割结果中包括有原始背景区域、各个原始对象区域和各个原始对象区域对应的位置信息。其中,服务器可以是使用进行像素级别的图像分割的经网络模型来进行对象分割,也可以使用基于阈值的分割方法、基于区域的分割方法、基于边缘的分割方法以及基于特定理论的分割方法等来进行对象分割。
S204,获取背景风格转换信息,基于背景风格转换信息将原始背景区域进行风格转换,得到背景风格转换信息对应的转换背景区域。
其中,背景风格转换信息是指对背景区域进行风格转换时使用的风格转换信息,该背景风格转换信息可以是描述要转换的风格的文本,比如,文本语句、文本词、文章等。该背景风格转换信息也可以是描述要转换的风格的图像、语音以及特征向量等等。转换背景区域是指按照背景风格转换信息对原始背景区域的风格进行转换后得到的背景区域,该转换背景区域可以是超分辨率的图像区域,也可以是其他分辨率的图像区域。
具体地,服务器可以从终端获取到背景风格转换信息,也可以从数据库中获取到背景风格转换信息,服务器也可以是预先设置好的配置文件中获取到背景风格转换信息,服务器还可以是从提供业务服务的服务方获取到背景风格转换信息。服务器可以将背景风格转换信息和原始背景区域输入到背景风格图像生成模型中进行风格转换,得到输出的背景风格转换信息对应的转换背景区域。该背景风格图像生成模型可以是预先使用训练数据进行训练得到神经网络模型,该神经网络模型可以是稳定潜在扩散模型。该背景风格图像生成模型也可以是对预训练的图像风格转换大模型进行微调后得到的,可以减少训练量,提高训练效率。在一个实施例中,服务器可以将背景风格转换信息进行向量化,得到背景风格转换向量,将背景风格转换向量和原始背景区域对应的区域向量共同输入到背景风格图像生成模型中进行风格转换,得到输出的转换背景区域。
S206,计算各个原始对象区域分别对应的纹理信息,纹理信息用于表征原始对象区域的区域纹理细节。
其中,纹理信息是指原始对象区域的区域纹理细节,可以是对象的关键视觉特征。即该纹理信息包括但不限于可以是深度信息、法线贴图信息,该纹理信息是从原始对象区域中提取得到的关键视觉信息。
具体地,服务器提取出每个原始对象区域对应的纹理信息,比如,服务器可以计算每个原始对象区域的深度,得到每个原始对象区域对应的深度处理图,该深度处理图中的每个深度值用于表征传感器距离原始对象区域中对象的实际距离。服务器也可以计算每个原始对象区域的法线贴图,得到每个原始对象区域对应的法线贴图处理图,该法线贴图处理图中的法线贴图是一种凹凸贴图,是一种特殊的纹理,可以用来表征原始对象区域中对象的表面细节。
S208,获取对象风格转换信息,并基于对象风格转换信息和各个原始对象区域分别对应的纹理信息将各个原始对象区域进行风格转换,得到各个原始对象区域分别对应的转换对象区域。
其中,对象风格转换信息是指对对象区域进行风格转换时使用的风格转换信息,该对象风格转换信息可以是描述要转换的风格的文本,也可以是图像、语音、特征向量等等。该对象风格转换信息可以是与背景风格转换信息一致,也可以与背景风格转换信息不相同。转换对象区域是指风格转换后的对象区域。该转换对象区域可以是超分辨率的图像区域,也可以是其他分辨率的图像区域。该转换对象区域是高精细的图像区域。
具体地,服务器可以从终端获取到对象风格转换信息,也可以从数据库中获取到对象风格转换信息,服务器也可以是预先设置好的配置文件中获取到对象风格转换信息,服务器还可以是从提供业务服务的服务方获取到对象风格转换信息。然后服务器将对象风格转换信息、各个原始对象区域分别对应的纹理信息以及各个原始对象区域输入到对象风格图像生成模型中进行风格转换,得到输出的各个原始对象区域分别对应的转换对象区域。其中,该对象风格图像生成模型是一种基于深度学习的图像风格转换模型,可以将不同的风格应用到图像上,以生成新的图像。该对象风格图像生成模型是对预训练的文生图模型进行微调训练后得到的,是一种稳定潜在扩散模型,该对象风格图像生成模型可以通过输入不同的条件来生成高质量的图像。
在一个实施例中,服务器也可以将每个原始对象区域依次作为输入,与对应的纹理信息和对象风格转换信息输入到对象风格图像生成模型中进行风格转换。
在一个实施例中,服务器可以将对象风格转换信息进行向量化,得到对象风格转换向量,可以使用向量化算法进行向量化,该向量化算法可以是文本向量化算法,即将对象风格转换信息转换为文本,然后进行文本向量化,得到对象风格转换向量。然后服务器将对象风格转换向量和原始对象区域对应的区域向量共同输入到对象风格图像生成模型中进行风格转换,得到输出的转换对象区域。
S210,按照各个原始对象区域对应的位置信息将转换背景区域和各个原始对象区域分别对应的转换对象区域进行融合,得到原始对象图像对应的转换对象图像。
其中,转换对象图像是指将原始对象图像经过风格转换后得到的对象图像,该转换对象图像可以是超分辨率的图像,也可以是其他分辨率的图像。该转换对象图像是高精细的图像。
具体地,服务器按照各个原始对象区域对应的位置信息将转换背景区域和各个原始对象区域分别对应的转换对象区域进行融合,其中,可以是通过蒙版抠图的方式将转换背景区域和各个转换对象区域进行融合,从而得到原始对象图像对应的转换对象图像。
上述图像生成方法,通过获取原始对象图像,将原始对象图像进行分割,得到原始背景区域、各个原始对象区域和各个原始对象区域对应的位置信息;获取背景风格转换信息,基于背景风格转换信息将原始背景区域进行风格转换,得到背景风格转换信息对应的转换背景区域;计算各个原始对象区域分别对应的纹理信息,纹理信息用于表征原始对象区域的区域纹理细节;获取对象风格转换信息,并基于对象风格转换信息和各个原始对象区域分别对应的纹理信息将各个原始对象区域进行风格转换,得到各个原始对象区域分别对应的转换对象区域;按照各个原始对象区域对应的位置信息将转换背景区域和各个原始对象区域分别对应的转换对象区域进行融合,得到原始对象图像对应的转换对象图像。即通过对原始背景区域直接进行风格转换,可以减少计算工作量,然后使用纹理信息将各个原始对象区域进行风格转换,从而可以提高得到的转换对象区域的质量,然后将转换背景区域和转换对象区域进行融合,得到原始对象图像对应的转换对象图像,从而可以保证转换对象图像质量的基础上提高图像生成的效率。
在一个实施例中,S204,即获取背景风格转换信息,基于背景风格转换信息将原始背景区域进行风格转换,得到背景风格转换信息对应的转换背景区域,包括步骤:
获取背景风格描述信息,将背景风格描述信息进行向量化,得到背景风格转换信息;将背景风格转换信息和原始背景区域输入到背景风格图像生成模型中进行风格转换,得到背景风格描述信息对应的转换背景区域。
其中,背景风格描述信息是指用于描述背景风格的信息,可以是文本、语音或者图像等等。
具体地,服务器可以从数据库中获取到背景风格描述信息,也可以是从终端中获取到背景风格描述信息,然后将背景风格描述信息进行向量化,比如,可以使用文本向量化算法将背景风格描述文本进行向量化,也可以将背景风格描述语音转换成文本,然后将文本进行向量化,也可以将背景风格描述图像进行向量化,得到背景风格描述向量。然后服务器将背景风格描述向量与原始背景区域输入到背景风格图像生成模型中进行风格转换,得到背景风格描述信息对应的转换背景区域。
在一个具体的实施例中,该背景风格图像生成模型可以是低秩LORA潜在扩散模型。LORA是一种使用少量图像来训练模型的方法,LORA 训练速度更快,使用时只需要加载对应的LORA模型,可以多个不同的LORA模型和权重叠加使用。LORA低秩模型在训练时根据输入的正向样本和反向样本来进行训练,即调整模型参数,从而得到训练完成的高灵活低秩LORA潜在扩散模型,然后使用LORA低秩潜在扩散模型对背景区域进行风格转换,可以生成背景风格转换图。
在上述实施例中,通过获取背景风格描述信息,将背景风格描述信息进行向量化,得到背景风格转换信息;将背景风格转换信息和原始背景区域输入到背景风格图像生成模型中进行风格转换,得到背景风格描述信息对应的转换背景区域,从而可以提高生成转换背景区域的效率。
在一个实施例中,S204,获取背景风格转换信息,基于背景风格转换信息将原始背景区域进行风格转换,得到背景风格转换信息对应的转换背景区域,包括:
获取至少两种背景风格描述信息,并获取至少两种背景风格描述信息分别对应的风格权重;将至少两种背景风格描述信息和对应的风格权重进行向量化,得到目标背景风格转换信息;将目标背景风格转换信息和原始背景区域输入到背景风格图像生成模型中进行风格转换,得到至少两种背景风格描述信息分别对应的转换背景区域。
其中,至少两种背景风格描述信息是指两种不同的背景风格描述信息,用于生成不同风格的背景区域。风格权重是指背景风格描述信息对应的权重,该权重可以是预先设置好的,该风格权重用于表征背景风格描述信息对应的风格占转换后风格的比重。
具体地,服务器可以从数据库中获取至少两种背景风格描述信息,也可以获取到终端上传的至少两种背景风格描述信息。然后获取到至少两种背景风格描述信息分别对应的风格权重,也可以是从配置文件中获取到的,也可以是获取到终端上传的。在一个实施例中,也可以预先设置好不同风格描述信息对应的风格权重,当获取到背景风格描述信息时,计算背景风格描述信息与预先设置的风格描述信息的相似度,根据相似度确定背景风格描述信息对应的已设置好的风格描述信息,将对应的已设置好的风格描述信息对应的权重作为背景风格描述信息对应的权重。然后服务器将每个背景风格描述信息与对应的风格权重进行向量化,得到转换后的背景风格描述向量,该背景风格描述向量用于表征背景风格描述信息与对应的风格权重,将转换后的背景风格描述向量作为目标背景风格转换信息。服务器将目标背景风格转换信息和原始背景区域输入到背景风格图像生成模型中进行风格转换,得到至少两种背景风格描述信息分别对应的转换背景区域。
在一个具体的实施例中,服务器可以获取到至少两个风格提示词,并获取每个风格提示词对应的权重,然后将每个风格提示词与对应的权重拼接,得到拼接结果,然后将拼接结果进行向量化,从而得到要转换的风格向量。然后将风格向量和原始背景区域输入到背景风格图像生成模型中进行风格转换,得到输出的每个风格提示词对应的转换背景区域。
在上述实施例中,通过将至少两种背景风格描述信息和对应的风格权重进行向量化,得到目标背景风格转换信息,然后将目标背景风格转换信息和原始背景区域输入到背景风格图像生成模型中进行风格转换,得到至少两种背景风格描述信息分别对应的转换背景区域,从而可以同时生成多种不同风格的转换背景区域,提高了转换背景区域的生成效率。
在一个实施例中,如图3所示,背景风格图像生成模型的训练包括以下步骤:
S302,获取预训练的图像生成网络,并基于预训练的图像生成网络和初始化低秩网络建立初始背景风格图像生成模型。
其中,预训练的图像生成网络是指预先训练好的用于进行图像生成的神经网络。初始化低秩网络是指网络参数初始化的低秩网络,该低秩网络中的网络参数可以是初始化的低秩矩阵。
具体地,服务器可以数据库中获取到预训练的图像生成网络,服务器也可以从提供模型服务的服务方获取到预训练的图像生成网络。然后使用预训练的图像生成网络和初始化低秩网络建立初始背景风格图像生成模型,比如,可以将初始化低秩网络添加到预训练的图像生成网络中,得到初始背景风格图像生成模型。
在一个具体的实施例中,该预训练的图像生成网络可以是stable diffusio(一种用于生成高质量图像的模型)模型,使用stable diffusio模型和初始低秩网络建立初始背景风格图像生成模型。
S304,获取训练背景图像和训练背景风格转换信息,将训练背景图像和训练背景风格转换信息输入到初始背景风格图像生成模型中。
其中,训练背景图像是指训练时使用的背景图像,训练背景风格转换信息是指训练时使用的背景风格转换信息。
具体地,服务器可以从数据库中获取到训练背景图像和训练背景风格转换信息,也可以从提供数据服务的服务方获取到训练背景图像和训练背景风格转换信息,还可以获取到终端上传的训练背景图像和训练背景风格转换信息。然后服务器将训练背景图像和训练背景风格转换信息输入到初始背景风格图像生成模型中。
S306,通过图像生成网络中的预训练参数使用训练背景图像和训练背景风格转换信息进行图像生成,得到预训练生成图像。
S308,通过初始化低秩网络中的初始化低秩参数使用训练背景图像和训练背景风格转换信息进行图像生成,得到低秩生成图像。
其中,预训练参数是指预训练的图像生成网络中的参数。初始化低秩参数是指初始化的低秩参数,该初始化低秩参数可以是随机初始化得到的,为零初始化或者高斯分布初始化得到的。预训练生成图像是指通过预训练的图像生成网络进行图像生成得到的图像。低秩生成图像是指通过初始化低秩网络生成的图像。
具体地,服务器中的初始背景风格图像生成模型使用预训练的图像生成网络中的预训练参数按照训练背景图像和训练背景风格转换信息进行图像生成,得到预训练生成图像,并通过初始化低秩网络中的初始化低秩参数使用训练背景图像和训练背景风格转换信息进行图像生成,得到低秩生成图像。
S310,基于预训练生成图像和低秩生成图像反向更新初始化低秩网络中的初始化低秩参数,得到更新低秩网络,并基于预训练的图像生成网络和更新低秩网络得到更新背景风格图像生成模型。
其中,更新低秩网络是指参数更新后的低秩网络。
具体地,服务器将预训练生成图像和低秩生成图像进行相加,即服务器将预训练的图像生成网络的输出与初始化低秩网络的输出进行相加,得到初始背景风格图像生成模型最终生成的训练背景风格转换信息对应的训练背景风格图像,然后使用训练背景风格图像与该训练背景风格转换信息对应的真实景风格图像进行损失计算,得到模型损失信息,然后使用模型损失信息反向更新初始化低秩网络中的初始化低秩参数,得到更新低秩网络。最后服务器使用预训练的图像生成网络和更新低秩网络得到更新背景风格图像生成模型。
S312,将更新背景风格图像生成模型作为初始背景风格图像生成模型,并返回获取训练背景图像和训练背景风格转换信息,将训练背景图像和训练背景风格转换信息输入到初始背景风格图像生成模型中的步骤执行,直到达到训练完成条件时,得到背景风格图像生成模型。
其中,训练完成条件是指训练得到背景风格图像生成模型的条件,包括但不限于模型损失信息达到预设阈值、训练迭代次数达到最大迭代次数或者模型的参数不再发生变化等等。
具体地,将更新背景风格图像生成模型作为初始背景风格图像生成模型,并返回获取训练背景图像和训练背景风格转换信息,将训练背景图像和训练背景风格转换信息输入到初始背景风格图像生成模型中的步骤执行,直到达到训练完成条件时,将达到训练完成条件时的初始背景风格图像生成模型作为背景风格图像生成模型。在一个实施例中,服务器也可以只保存背景风格图像生成模型中的训练完成的低秩网络,当需要使用背景风格图像生成模型时,将训练完成的低秩网络添加到预训练的图像生成网络中,得到背景风格图像生成模型并进行使用,从而可以在未使用背景风格图像生成模型时使预训练的图像生成网络与其他业务网络进行结合来进行业务处理,从而可以提高使用的灵活性。
在一个具体的实施例中,通过LORA训练得到背景风格图像生成模型,该LORA是一种参数高效性微调方法,该LORA是指大语言模型的低阶适应。LoRA通过冻结预训练好的模型权重参数,在冻结原模型参数的情况下,通过在模型中加入额外的网络层,并训练新增的网络层参数,由于新增参数的数量较少,这样不仅使微调训练的成本显著下降,还能获得和全模型微调类似的效果,从而在保持训练效果的基础上提高了背景风格图像生成模型的训练效率。
在上述实施例中,通过使用预训练的图像生成网络和初始化低秩网络建立初始背景风格图像生成模型,然后对初始背景风格图像生成模型进行训练,直到达到训练完成条件时,得到背景风格图像生成模型,提高了背景风格图像生成模型的训练效率。
在一个实施例中,纹理信息包括深度信息和法线贴图信息中的至少一种;S206,计算各个原始对象区域分别对应的纹理信息,包括步骤:
对各个原始对象区域分别进行单目深度估计,得到各个原始对象区域分别对应的深度信息;基于各个原始对象区域分别对应的深度信息进行法线贴图计算,得到各个原始对象区域分别对应的法线贴图信息。
其中,深度估计是指获取原始对象区域中每个像素点到相机的距离信息,该距离信息组成的图称为深度图。
具体地,服务器可以使用单目深度估计算法对各个原始对象区域分别进行单目深度估计,得到各个原始对象区域分别对应的深度信息。该单目深度估计算法可以包括但不限于基于线索的传统方法、基于机器学习的传统方法、基于有监督的深度学习方法或者基于无监督的深度学习方法。在一个具体的实施例中,服务器可以将每个原始对象区域输入到深度估计神经网络模型中,得到输出的深度图。然后服务器可以使用各个原始对象区域分别对应的深度信息进行法线贴图计算,得到各个原始对象区域分别对应的法线贴图信息。服务器也可以使用法线贴图生成算法来生成每个原始对象区域对应的法线贴图信息。在一个具体的实施例中,如图4所示,为建筑图像中建筑区域对应的深度图,该深度图中的各个点的值是深度值。在一个具体的实施例中,如图5所示,为建筑图像中建筑区域对应的法线贴图,该法线贴图中的各个点的值是法线信息。然后使用该图4的深度图和图5的法线贴图生成的建筑图像对应的转换建筑图像可以如图6所示,该转换建筑图像是一种高精度的建筑图像。
在上述实施例中,通过对各个原始对象区域分别进行单目深度估计,得到各个原始对象区域分别对应的深度信息;基于各个原始对象区域分别对应的深度信息进行法线贴图计算,得到各个原始对象区域分别对应的法线贴图信息,从而可以提高得到的深度信息和法线贴图信息的准确性。
在一个实施例中,S208,获取对象风格转换信息,并基于对象风格转换信息和各个原始对象区域分别对应的纹理信息将各个原始对象区域进行风格转换,得到各个原始对象区域分别对应的转换对象区域,包括步骤:
获取对象风格描述信息,将对象风格描述信息进行向量化,得到对象风格转换信息;将各个原始对象区域、对象风格转换信息和各个原始对象区域分别对应的纹理信息输入到对象风格图像生成模型中;通过对象风格图像生成模型使用对象风格转换信息和各个原始对象区域分别对应的纹理信息生成对应的图像生成引导参数,按照图像生成引导参数对各个原始对象区域进行风格转换,得到各个原始对象区域分别对应的转换对象区域。
其中,对象风格描述信息是指用于描述要生成的对象风格的信息,可以是文本、语音或者图像等等。图像生成引导参数是指生成对象图像时进行引导的参数,可以是根据限制条件生成的参数,比如可以是标识符等等。
具体地,服务器可以从数据库中获取到对象风格描述信息,也可以是从终端中获取到对象风格描述信息,然后将对象风格描述信息进行向量化,比如,可以使用文本向量化算法将对象风格描述文本进行向量化,也可以将对象风格描述语音转换成文本,然后将文本进行向量化,也可以将对象风格描述图像进行向量化,得到对象风格描述向量。然后服务器将每个原始对象区域、对象风格转换信息和每个原始对象区域分别对应的纹理信息输入到对象风格图像生成模型中,该通过对象风格图像生成模型使用对象风格转换信息和各个原始对象区域分别对应的纹理信息生成对应的图像生成引导参数,按照图像生成引导参数对各个原始对象区域进行风格转换,得到各个原始对象区域分别对应的转换对象区域。
在一个具体的实施例中,服务器可以使用DreamBooth (一种个性化的文本到图像扩散模型)算法对Imagen(一种文本到图像的扩散模型,具有深层次的语言理解能力,可以通过输入文本生成逼真的图像) 模型进行微调训练,从而得到对象风格图像生成模型,使训练得到的对象风格图像生成模型能够生成高。DreamBooth 是一种个性化的文本到图像生成模型,它可以通过向扩散模型(比如Stable Diffusion)中注入少量主体对象,从而达到对基础模型的微调。使用微调后的模型可以生成在不同的场景、姿势和视角中的该主体上下文图像。
在上述实施例中,通过将各个原始对象区域、对象风格转换信息和各个原始对象区域分别对应的纹理信息输入到对象风格图像生成模型中;通过对象风格图像生成模型使用对象风格转换信息和各个原始对象区域分别对应的纹理信息生成对应的图像生成引导参数,按照图像生成引导参数对各个原始对象区域进行风格转换,得到各个原始对象区域分别对应的转换对象区域,从而可以使生成的转换对象区域具有各个原始对象区域分别对应的纹理信息,从而提高了得到的转换对象区域的质量。
在一个实施例中,S208,获取对象风格转换信息,并基于对象风格转换信息和各个原始对象区域分别对应的纹理信息将各个原始对象区域进行风格转换,得到各个原始对象区域分别对应的转换对象区域,包括:
获取至少两种对象风格描述信息,并获取至少两种对象风格描述信息分别对应的对象风格权重;将至少两种对象风格描述信息和对应的对象风格权重进行向量化,得到目标对象风格转换信息;将各个原始对象区域、目标对象风格转换信息和各个原始对象区域分别对应的纹理信息输入到对象风格图像生成模型中;通过对象风格图像生成模型使用目标对象风格转换信息和各个原始对象区域分别对应的纹理信息生成对应的目标图像生成引导参数,按照目标图像生成引导参数对各个原始对象区域进行风格转换,得到各个原始对象区域分别对应的转换对象区域。
其中,至少两种对象风格描述信息是指两种不同的对象风格描述信息,用于生成不同风格的对象区域。对象风格权重是指对象风格描述信息对应的权重,该权重可以是预先设置好的,该对象风格权重用于表征对象风格描述信息对应的风格占转换后风格的比重。目标图像生成引导参数是指使用目标对象风格转换信息和各个原始对象区域分别对应的纹理信息生成的图像生成引导参数。
具体地,服务器可以从数据库中获取至少两种对象风格描述信息,也可以获取到终端上传的至少两种对象风格描述信息。然后获取到至少两种对象风格描述信息分别对应的对象风格权重,可以是从配置文件中获取到的,也可以是获取到终端上传的。在一个实施例中,也可以预先设置好不同对象风格描述信息对应的对象风格权重,当获取到对象风格描述信息时,计算对象风格描述信息与预先设置的对象风格描述信息的相似度,根据相似度确定对象风格描述信息对应的已设置好的对象风格描述信息,将对应的已设置好的对象风格描述信息对应的对象风格权重作为对象风格描述信息对应的对象风格权重。然后服务器将每个对象风格描述信息与对应的对象风格权重进行向量化,得到转换后的对象风格描述向量,该对象风格描述向量用于表征对象风格描述信息与对应的对象风格权重,将转换后的背景风格描述向量作为目标对象风格转换信息。然后服务器将各个原始对象区域、目标对象风格转换信息和各个原始对象区域分别对应的纹理信息输入到对象风格图像生成模型中,通过对象风格图像生成模型使用目标对象风格转换信息和各个原始对象区域分别对应的纹理信息生成对应的目标图像生成引导参数,按照目标图像生成引导参数对各个原始对象区域进行风格转换,得到各个原始对象区域分别对应的转换对象区域。在一个实施例中,服务器也可以按照预先设置好的顺序依次将每个原始对象区域以及对应的纹理信息和目标对象风格转换信息输入到对象风格图像生成模型中,从而依次得到每个原始对象区域对应的转换对象区域。
在上述实施例中,通过将至少两种对象风格描述信息和对应的对象风格权重进行向量化,得到目标对象风格转换信息,然后将各个原始对象区域、目标对象风格转换信息和各个原始对象区域分别对应的纹理信息输入到对象风格图像生成模型中;通过对象风格图像生成模型使用目标对象风格转换信息和各个原始对象区域分别对应的纹理信息生成对应的目标图像生成引导参数,按照目标图像生成引导参数对各个原始对象区域进行风格转换,得到各个原始对象区域分别对应的转换对象区域,从而可以同时生成多种不同风格的转换对象区域,提高了转换对象区域的生成效率。
在一个实施例中,如图7所示,对象风格图像生成模型的训练包括以下步骤:
S702,获取预训练的图像生成网络,并获取训练对象图像和训练对象风格转换信息;
S704,将训练对象图像和训练对象风格转换信息输入到预训练的图像生成网络中进行图像生成,得到输出的标签图像。
其中,训练对象图像是指训练时使用的对象图像,训练对象风格转换信息是指训练时使用的对象风格转换信息。标签图像是指作为标签的生成图像。
具体地,服务器可以从数据库中获取到预训练的图像生成网络,并获取数据库中获取到训练对象图像和训练对象风格转换信息。服务器也可以从提供模型服务的服务方获取到预训练的图像生成网络,并从提供数据服务的服务方获取到训练对象图像和训练对象风格转换信息。然后服务器将训练对象图像和训练对象风格转换信息输入到预训练的图像生成网络中进行图像生成,该预训练的图像生成网络按照训练对象风格转换信息生成训练对象图像对应的风格转换后的图像,将该风格转换后的图像作为标签图像。
S706,基于预训练的图像生成网络建立初始对象风格图像生成模型,并将训练对象图像和训练对象风格转换信息输入到初始对象风格图像生成模型中,得到初始对象转换图像;
其中,初始对象风格图像生成模型是指模型参数初始化的对象风格图像生成模型。初始对象转换图像是指使用初始化模型参数的生成对象转换图像。
具体地,服务器按照预训练的图像生成网络的网络参数和网络结构建立初始对象风格图像生成模型,该初始对象风格图像生成模型是基于图像生成网络的网络参数和网络结构建立的。然后服务器将训练对象图像和训练对象风格转换信息输入到初始对象风格图像生成模型中进行图像生成,得到初始对象转换图像;
在一个具体的实施例中,服务器获取到对象图像作为输入,通过微调预训练的文生图模型,比如Imagen模型,将一个独特的标识符和该对象进行绑定,通过含有该标识符的风格提示词在不同场景下生成包含该对象的新风格图片。
S708,基于初始对象转换图像和标签图像进行损失计算,得到训练损失信息,按照训练损失信息更新初始对象风格图像生成模型,并返回将训练对象图像和训练对象风格转换信息输入到初始对象风格图像生成模型中,得到初始对象转换图像的步骤迭代执行,直到达到训练完成时,得到对象风格图像生成模型。
其中,训练损失信息用于表征训练得到的图像误差,该训练损失信息越小,说明训练得到的模型越准确。达到训练完成是指达到训练完成条件,该条件包括但不限于模型损失信息达到预设阈值、训练迭代次数达到最大迭代次数或者模型参数不再发生变化等等。
具体地,服务器按照预先设置好的损失函数使用初始对象转换图像和标签图像进行损失计算,得到训练损失信息,然后按照训练损失信息反向更新初始对象风格图像生成模型中的模型参数,得到更新对象风格图像生成模型,然后将更新对象风格图像生成模型作为初始对象风格图像生成模型,并返回将训练对象图像和训练对象风格转换信息输入到初始对象风格图像生成模型中,得到初始对象转换图像的步骤迭代执行,直到达到训练完成时,将达到训练完成时的初始对象风格图像生成模型作为最终训练得到对象风格图像生成模型。
在上述实施例中,通过获取预训练的图像生成网络,并获取训练对象图像和训练对象风格转换信息,然后使用训练对象图像和训练对象风格转换信息对使用预训练的图像生成网络建立的初始对象风格图像生成模型进行训练,当训练完成时,得到对象风格图像生成模型,即对初始对象风格图像生成模型的模型参数整体进行更新训练,从而提高了训练得到的对象风格图像生成模型的准确性。
在一个实施例中,S210,按照各个原始对象区域对应的位置信息将转换背景区域和各个原始对象区域分别对应的转换对象区域进行融合,得到原始对象图像对应的转换对象图像,包括步骤:
按照各个原始对象区域对应的位置信息从转换背景区域中确定各个原始对象区域对应的蒙版区域;基于蒙版区域将各个原始对象区域分别对应的转换对象区域进行蒙版融合,得到原始对象图像对应的转换对象图像。
其中,蒙版区域是指原始对象区域在转换背景区域中的区域。
具体地,服务器按照各个原始对象区域对应的位置信息从转换背景区域中确定各个原始对象区域对应的蒙版区域,然后按照蒙版区域将各个原始对象区域分别对应的转换对象区域进行蒙版融合,比如,可以将各个原始对象区域分别对应的转换对象区域拼接到转换背景区域对应的蒙版区域中,从而得到原始对象图像对应的转换对象图像。在一个具体的实施例中,服务器可以是使用转换背景图像和原始对象的轮廓图进行蒙版抠图,即在转换背景图像中确定原始对象的轮廓图对应的蒙版区域,然后将所有原始对象对应的转换对象区域融合到对应的蒙版区域中从而得到原始对象图像对应的转换对象图像。
在上述实施例中,通过按照各个原始对象区域对应的位置信息从转换背景区域中确定各个原始对象区域对应的蒙版区域。然后按照蒙版区域将各个原始对象区域分别对应的转换对象区域进行蒙版融合,提高了融合的准确性,进而使得到原始对象图像对应的转换对象图像提高了准确性。
在一个实施例中,如图8所示,图像生成方法,还包括:
S802,获取各个原始对象区域分别对应的原始对象风格描述信息,基于原始对象风格描述信息将各个原始对象区域进行组合,得到各个原始对象组合区域。
其中,原始对象风格描述信息是指描述原始对象区域中原始对象风格的信息。原始对象组合区域是指多个相同风格类型的原始对象拼接后得到的图像区域。
具体地,服务器可以从数据库中获取到每个原始对象区域分别对应的原始对象风格描述信息。服务器也可以获取到终端上传的每个原始对象区域分别对应的原始对象风格描述信息。服务器还可以获取到业务服务方发送的每个原始对象区域分别对应的原始对象风格描述信息。然后根据原始对象风格描述信息确定相似风格类型的各个原始对象,然后将相似风格类型的各个原始对象区域进行组合,比如,可以将相似风格类型的各个原始对象区域进行拼接,得到该风格类型对应的原始对象组合区域。根据每个原始对象区域的原始对象风格描述信息可以确定原始对象区域有多个不同的风格类型,每个风格类型都对应有多个原始对象区域。然后服务器将所有同一风格类型的各个原始对象区域进行拼接,得到所有的原始对象组合区域。其中,服务器可以按照预先设置好的排版顺序将同一风格类型的各个原始对象区域进行拼接,服务器也可以将同一风格类型的各个原始对象进行随机拼接,并记录每个原始对象的拼接位置。
S804,计算各个原始对象组合区域分别对应的组合纹理信息,并获取对象风格转换信息。
S806,基于对象风格转换信息和各个原始对象组合区域分别对应的组合纹理信息将各个原始对象组合区域进行风格转换,得到各个原始对象组合区域分别对应的转换对象组合区域。
其中,组合纹理信息是指原始对象组合区域对应的纹理信息。
具体地,服务器计算每个原始对象组合区域分别对应的组合纹理信息,该组合纹理信息可以包括原始对象组合区域对应的深度信息以及法线贴图信息等等。然后服务器可以从数据库中获取到要转换的对象风格转换信息。然后服务器将对象风格转换信息、各个原始对象组合区域和对应的组合纹理信息输入到对象风格图像生成模型中,通过对象风格图像生成模型中使用对象风格转换信息和各个原始对象组合区域对应的组合纹理信息生成对应的图像生成引导参数,然后按照图像生成引导参数对各个原始对象组合区域进行风格转换,得到各个原始对象组合区域分别对应的转换对象组合区域。
在一个实施例中,可以获取到至少两个对象风格描述信息,然后将至少两个对象风格描述信息进行向量化,得到目标对象风格转换信息,在使用目标对象风格转换信息和各个原始对象组合区域分别对应的组合纹理信息将各个原始对象组合区域进行风格转换,得到每个原始对象组合区域分别对应的至少两个转换对象组合区域。
S808,将各个原始对象组合区域分别对应的转换对象组合区域进行拆分,得到各个原始对象区域分别对应的目标转换对象区域。
其中,目标转换对象区域是指原始对象区域按照对象风格转换信息进行风格转换后得到的转换对象区域。
具体地,服务器可以按照预先设置好的排版顺序将各个原始对象组合区域分别对应的转换对象组合区域中的转换对象区域进行拆分,得到拆分后的每个原始对象区域对应的目标转换对象区域。服务器也可以按照预先设置好的位置信息将各个原始对象组合区域分别对应的转换对象组合区域中的转换对象区域进行拆分,得到拆分后的每个原始对象区域对应的目标转换对象区域。
S810,按照各个原始对象区域对应的位置信息将转换背景区域和目标转换对象区域进行融合,得到原始对象图像对应的目标转换对象图像。
具体地,服务器可以将转换背景区域按照各个原始对象区域对应的位置信息进行蒙版抠图,然后按照每个原始对象区域对应的位置信息将各个目标转换对象区域进行蒙版融合,得到始对象图像对应的目标转换对象图像。
在一个具体的实施例中,如图9所示,为建筑物组合区域的示意图,其中,将相同风格的建筑物区域进行合并,得到合并后的建筑物组合区域,比如,该合并后的建筑物组合区域中包括原始的建筑物区域A、建筑物区域B和建筑物区域C。然后服务器生成建筑物组合区域的深度信息与法线贴图信息,保证各建筑物区域分布不重叠,生成的图片即可按对应尺寸进行分割切分。从而提高了资产任务的风格化生成效率。
在上述实施例中,通过基于原始对象风格描述信息将各个原始对象区域进行组合,得到各个原始对象组合区域,然后将各个原始对象组合区域进行风格转换,可以同时将多个原始对象区域进行风格转换,从而提高了风格转换的效率。
在一个实施例中,S802,基于对象风格描述信息将各个原始对象区域进行组合,得到各个原始对象组合区域,包括步骤:
计算各个原始对象区域分别对应的原始对象风格描述信息之间的相似程度;当相似程度符合预设相似条件时,将符合预设相似条件的原始对象区域进行拼接,得到各个原始对象组合区域。
其中,相似程度用于表征不同原始对象风格描述信息之间的相似性,相似程度越高,说明对应的原始对象风格描述信息为同一风格类型的可能性就越高。预设相似条件预先设置好的原始对象区域属于同一组合区域的相似度条件。
具体地,服务器可以将每个原始对象区域对应的原始对象风格描述信息进行向量化,得到原始对象风格描述向量,然后服务器选取相似程度超过预设相似程度阈值的原始对象区域进行拼接,得到各个原始对象组合区域。在一个实施例中,服务器可以使用各个原始对象风格描述向量进行聚类,得到各个聚类簇,将每个聚类簇中的各个原始对象区域进行拼接,得到各个原始对象组合区域。
在上述实施例中,通过计算各个原始对象区域分别对应的原始对象风格描述信息之间的相似程度;当相似程度符合预设相似条件时,将符合预设相似条件的原始对象区域进行拼接,得到各个原始对象组合区域,提高了得到的原始对象组合区域的准确性。
在一个实施例中,图像生成方法,还包括步骤:
获取各个原始对象区域分别对应的重要程度,基于重要程度将各个原始对象区域进行划分,得到各个非目标原始对象区域和各个目标原始对象区域;
基于对象风格转换信息将各个非目标原始对象区域进行风格转换,得到各个非目标原始对象区域分别对应的非目标转换对象区域;
获取各个目标原始对象区域对应的目标纹理信息,并基于对象风格转换信息和各个目标原始对象区域分别对应的目标纹理信息将各个目标原始对象区域进行风格转换,得到各个目标原始对象区域分别对应的目标转换对象区域。
其中,重要程度用于表征原始对象区域的重要性,该重要程度越高,说明对应的原始对象区域越重要。非目标原始对象区域是指对应重要程度未超过预设重要程度阈值的原始对象区域,进行风格转换时可以与背景区域进行相同质量的风格转换。目标原始对象区域是指对应重要程度超过预设重要程度阈值的原始对象区域,进行风格转换时需要进行高质量的风格转换,是需要区别于背景区域的风格转换。非目标转换对象区域是指将非目标原始对象区域进行风格转换后得到的图像区域。目标纹理信息是指目标原始对象区域对应的纹理信息。目标转换对象区域是指将目标原始对象区域进行风格转换后得到的图像区域。
具体地,服务器可以从数据库中获取各个原始对象区域分别对应的重要程度。服务器可以按照原始对象区域的区域大小来计算各个原始对象区域分别对应的重要程度,原始对象区域越大,对应的重要程度越高。服务器也可以按照各个原始对象区域的使用的风格转换模型来确定对应的重要程度,比如,预先设置好部分原始对象区域使用对象风格图像生成模型进行风格转换,剩余部分的原始对象区域使用背景风格图像生成模型进行风格转换。然后服务器重要程度将各个原始对象区域进行划分,将重要程度超过预设重要程度阈值的原始对象区域作为目标原始对象区域,并将重要程度未超过预设重要程度阈值的原始对象区域作为非目标原始对象区域,得到各个非目标原始对象区域和各个目标原始对象区域;然后服务器将对象风格转换信息和各个非目标原始对象区域依次输入到背景风格图像生成模型中进行风格转换,得到各个非目标原始对象区域分别对应的非目标转换对象区域。然后服务器获取各个目标原始对象区域对应的目标纹理信息,并将对象风格转换信息、各个目标原始对象区域以及对应的目标纹理信息依次输入到对象风格图像生成模型进行风格转换得到各个目标原始对象区域分别对应的目标转换对象区域。在一个实施例中,服务器也可以将各个目标原始对象区域进行组合,得到各个目标原始对象组合区域,将对象风格转换信息、各个目标原始对象组合区域和对应的组合纹理信息依次输入到对象风格图像生成模型进行风格转换,并将输出的转换对象组合区域进行拆分,得到各个目标原始对象区域分别对应的目标转换对象区域。
在上述实施例中,通过获取各个原始对象区域分别对应的重要程度,然后基于重要程度将各个原始对象区域进行划分,得到各个非目标原始对象区域和各个目标原始对象区域。最后服务器将非目标原始对象区域和目标原始对象区域分别进行不同方式的风格转换,从而可以节省进行风格转换的服务资源。
在一个实施例中,S202,即将原始对象图像进行分割,得到原始背景区域、各个原始对象区域和各个原始对象区域对应的位置信息,包括步骤:
对原始对象图像进行边缘检测,得到边缘检测信息,并对原始对象图像进行实例分割,得到实例分割信息;基于边缘检测信息和实例分割信息确定原始对象图像分别对应的原始背景区域、各个原始对象区域和各个原始对象区域对应的位置信息。
其中,边缘检测信息是指通过边缘检测得到的原始对象轮廓边缘信息。实例分割信息是指原始对象图像中原始对象区域的分割信息。
具体地,服务器可以使用边缘检测算法对原始对象图像进行边缘检测,得到边缘检测信息,并使用像素级实例分割算法对原始对象图像进行实例分割,得到实例分割信息。最后服务器使用边缘检测信息和实例分割信息确定原始对象图像分别对应的原始背景区域、各个原始对象区域和各个原始对象区域对应的位置信息。
在一个具体的实施例中,在对建筑地图图像进行分割时,可以是获取到建筑影像信息,可进行对应canny(一种边缘检测算法)模型线稿检测以及segment Anything(一种视觉分割领域的基础模型)模型分割出建筑物区域以及其余背景区域。针对建筑地图的矢量数据,渲染时的关键帧进行对应区域检测,分割出建筑物区域以及其余背景区域。如图10所示,为建筑地图图像的示意图,对建筑地图图像进行分割,得到各个建筑区域的位置信息和背景区域的位置信息,图中区域1002为示出的分割得到的一个建筑区域的示意图,其他分割得到的建筑区域未示出。
在上述实施例中,通过对原始对象图像进行边缘检测,得到边缘检测信息,并对原始对象图像进行实例分割,得到实例分割信息,然后基于边缘检测信息和实例分割信息确定原始对象图像分别对应的原始背景区域、各个原始对象区域和各个原始对象区域对应的位置信息,从而提高了图像分割的准确性。
在一个实施例中,如图11所示,图像生成方法,还包括:
S1102,获取原始建筑地图图像,将原始建筑地图图像进行分割,得到地图背景区域、各个建筑区域和各个建筑区域对应的位置信息。
S1104,获取地图背景风格转换信息,基于地图背景风格转换信息将地图背景区域进行风格转换,得到地图背景风格转换信息对应的转换地图背景区域。
S1106,计算各个建筑区域分别对应的建筑纹理信息,并获取建筑风格转换信息。
S1108,基于建筑风格转换信息和各个建筑区域分别对应的建筑纹理信息将各个建筑区域进行风格转换,得到各个建筑区域分别对应的转换建筑区域。
S1110,按照各个建筑区域对应的位置信息将转换地图背景区域和转换建筑区域进行融合,得到原始建筑地图图像对应的转换建筑地图图像。
其中,原始建筑地图图像是指原始的建筑地图图像,该建筑地图图像中包括有各个建筑物体。转换建筑地图图像是风格转换后的建筑地图图像。
具体地,服务器从可以数据库中获取到要进行风格转换的原始建筑地图图像,该原始建筑地图图像可以是虚拟场景中的建筑地图图像,比如,虚拟游戏场景中的建筑地图图像,也可以是真实场景中的建筑地图图像。然后将原始建筑地图图像进行图像分割,得到地图背景区域、各个建筑区域和各个建筑区域对应的位置信息。然后对地图背景区域和各个建筑区域分别进行风格转换。其中,可以将地图背景区域和各个建筑区域转换为同一种风格类型,也可以将地图背景区域和各个建筑区域转换为不同的风格类型。各个建筑区域可以转换为同一种风格类型,也可以转换为不同的风格类型,可以根据需求预先进行设置。比如,服务器可以从数据库中获取到地图背景风格转换信息,然后将地图背景风格转换信息和地图背景区域输入到背景风格图像生成模型中进行风格转换,得到输出的地图背景风格转换信息对应的转换地图背景区域。在一个实施例中,地图背景区域也可以包括有多个,将多个地图背景区域使用地图背景风格转换信息进行风格转换,得到每个地图背景区域对应的转换地图背景区域。该多个地图背景区域使用的地图背景风格转换信息可以相同,也可以不同。然后服务器可以对各个建筑区域进行风格转换,比如,服务器计算各个建筑区域分别对应的建筑纹理信息,该建筑纹理信息可以包括深度信息和法线贴图信息,并获取建筑风格转换信息。然后将建筑风格转换信息、每个建筑区域和对应的建筑纹理信息输入到建筑风格图像生成模型中进行风格转换,得到各个建筑区域分别对应的转换建筑区域。最后服务器按照各个建筑区域对应的位置信息将转换地图背景区域和转换建筑区域进行蒙版融合,得到原始建筑地图图像对应的转换建筑地图图像。
在上述实施例中,通过获取原始建筑地图图像,将原始建筑地图图像进行分割,得到地图背景区域、各个建筑区域和各个建筑区域对应的位置信息,然后使用地图背景风格转换信息和建筑风格转换信息分别对地图背景区域和各个建筑区域进行风格转换,最后将转换地图背景区域和转换建筑区域进行融合,得到原始建筑地图图像对应的转换建筑地图图像,从而可以保证转换建筑图像质量的基础上提高建筑图像生成的效率。
在一个具体的实施例中,如图12所示,该图像生成方法具体包括以下步骤:
S1202,获取原始对象图像,将原始对象图像进行分割,得到原始背景区域、各个原始对象区域和各个原始对象区域对应的位置信息。
S1204,获取至少两种背景风格描述信息,并获取至少两种背景风格描述信息分别对应的风格权重,将至少两种背景风格描述信息和对应的风格权重进行向量化,得到目标背景风格转换信息,将目标背景风格转换信息和原始背景区域输入到背景风格图像生成模型中进行风格转换,得到至少两种背景风格描述信息分别对应的转换背景区域。
S1206,获取各个原始对象区域分别对应的原始对象风格描述信息,基于原始对象风格描述信息将各个原始对象区域进行组合,得到各个原始对象组合区域。
S1208,对各个原始对象组合区域分别进行单目深度估计,得到各个原始对象组合区域分别对应的深度信息,基于各个原始对象组合区域分别对应的深度信息进行法线贴图计算,得到各个原始对象组合区域分别对应的法线贴图信息。
S1210,获取至少两种对象风格描述信息,并获取至少两种对象风格描述信息分别对应的对象风格权重,将至少两种对象风格描述信息和对应的对象风格权重进行向量化,得到目标对象风格转换信息。
S1212,将各个原始对象组合区域、目标对象风格转换信息、各个原始对象组合区域分别对应的深度信息和法线贴图信息输入到对象风格图像生成模型中。
S1214,通过对象风格图像生成模型使用目标对象风格转换信息、各个原始对象组合区域分别对应的深度信息和法线贴图信息生成对应的目标图像生成引导参数,按照目标图像生成引导参数对各个原始对象组合区域进行风格转换,得到各个原始对象组合区域分别对应的至少两种转换对象组合区域。
S1216,将各个原始对象组合区域分别对应的至少两种转换对象组合区域进行拆分,得到各个原始对象区域分别对应的至少两种目标转换对象区域;
S1218,按照各个原始对象区域对应的位置信息将至少两种转换背景区域和各个原始对象区域分别对应的至少两种目标转换对象区域进行融合,得到原始对象图像对应的至少两种转换对象图像。
在上述实施例中,通过获取原始对象图像,将原始对象图像进行分割,得到背景区域、各个原始对象区域和各个对象区域对应的位置信息,然后使用至少两种背景风格转换信息和至少两种对象风格转换信息分别对背景区域和各个原始对象区域进行风格转换,最后将至少两种转换背景区域和至少两种转换对象区域进行融合,得到原始对象图像对应的至少两种转换对象图像,从而可以保证转换对象图像质量的基础上提高对象图像生成的效率。
在一个具体的实施例中,该图像生成方法应用到建筑物地图绘制的场景中,如图13所示,为建筑物地图生成的框架示意图,具体来说:服务器确定绘制地图区域范围,然后从数据库中获取对应区域的全局影像信息。然后服务器针对全局影像信息进行图像分割识别,得到建筑区域位置信息和背景区域位置信息。然后针对背景区域,获取绘制场景风格的各个Prompt提示词,然后设置各个提示词不同的权重,并将提示词和对应的权重进行Embedding向量化,得到背景转换风格的向量,然后服务器将背景转换风格的向量和背景区域位置信息输入到基于Lora训练的潜在扩散模型中,生成背景风格转换图。为了提高建筑区域的风格转换图的生成效率,节省服务资源,服务器可以对各个建筑区域进行批量的排版。即服务器将相同描述词风格的多张建筑区域在一张图中进行排版拼接,得到拼接后的批量建筑图,然后针对拼接后的批量建筑图,获取所需要转换的风格的描述词,并将描述词进行向量化,得到建筑转换风格的向量,然后服务器将拼接后的批量建筑图进行图像处理,得到批量建筑图对应的深度处理图和法线贴图处理图。最后服务器将批量建筑图、建筑转换风格的向量以及深度处理图和法线贴图处理图输入到基于DreamBooth训练的潜在扩散模型中,输出批量建筑区域的风格转换图,该得到的批量建筑区域的风格转换图是高精细的图片。然后服务器将批量建筑区域的风格转换图进行拆分,得到各个对象风格转换区域的位置信息和对应的区域范围。最后,服务器基于背景风格转换图和对象风格转换区域的位置信息进行蒙版抠图,并将各个背景风格转换图和各个对象风格转换区域进行蒙版融合,得到各个高精细的不同风格的建筑物地图。最后服务器可以将各个高精细的不同风格的建筑物地图按照地图的瓦片切分规范下发图层展示给地图使用者,从而保证地图使用者可以定期无成本频繁切换绘制地图风格的可视化效果的同时,极大地降低了绘制地图构建的成本,提高了绘制图生成风格的灵活性和效率,降低绘制地图的成本等。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的图像生成方法的图像生成装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个图像生成装置实施例中的具体限定可以参见上文中对于图像生成方法的限定,在此不再赘述。
在一个实施例中,如图14所示,提供了一种图像生成装置1400,包括:图像分割模块1402、背景转换模块1404、信息计算模块1406、对象转换模块1408和生成图像得到模块1410,其中:
图像分割模块1402,用于获取原始对象图像,将原始对象图像进行分割,得到原始背景区域、各个原始对象区域和各个原始对象区域对应的位置信息;
背景转换模块1404,用于获取背景风格转换信息,基于背景风格转换信息将原始背景区域进行风格转换,得到背景风格转换信息对应的转换背景区域;
信息计算模块1406,用于计算各个原始对象区域分别对应的纹理信息,纹理信息用于表征原始对象区域的区域纹理细节;
对象转换模块1408,用于获取对象风格转换信息,并基于对象风格转换信息和各个原始对象区域分别对应的纹理信息将各个原始对象区域进行风格转换,得到各个原始对象区域分别对应的转换对象区域;
生成图像得到模块1410,用于按照各个原始对象区域对应的位置信息将转换背景区域和各个原始对象区域分别对应的转换对象区域进行融合,得到原始对象图像对应的转换对象图像。
在一个实施例中,背景转换模块1404还用于获取背景风格描述信息,将背景风格描述信息进行向量化,得到背景风格转换信息;将背景风格转换信息和原始背景区域输入到背景风格图像生成模型中进行风格转换,得到背景风格描述信息对应的转换背景区域。
在一个实施例中,背景转换模块1404还用于获取至少两种背景风格描述信息,并获取至少两种背景风格描述信息分别对应的风格权重;将至少两种背景风格描述信息和对应的风格权重进行向量化,得到目标背景风格转换信息;将目标背景风格转换信息和原始背景区域输入到背景风格图像生成模型中进行风格转换,得到至少两种背景风格描述信息分别对应的转换背景区域。
在一个实施例中,图像生成装置1400,还包括:
背景生成模型训练模块,用于获取预训练的图像生成网络,并基于预训练的图像生成网络和初始化低秩网络建立初始背景风格图像生成模型;获取训练背景图像和训练背景风格转换信息,将训练背景图像和训练背景风格转换信息输入到初始背景风格图像生成模型中;通过图像生成网络中的预训练参数使用训练背景图像和训练背景风格转换信息进行图像生成,得到预训练生成图像;通过初始化低秩网络中的初始化低秩参数使用训练背景图像和训练背景风格转换信息进行图像生成,得到低秩生成图像;基于预训练生成图像和低秩生成图像反向更新初始化低秩网络中的初始化低秩参数,得到更新低秩网络,并基于预训练的图像生成网络和更新低秩网络得到更新背景风格图像生成模型;将更新背景风格图像生成模型作为初始背景风格图像生成模型,并返回获取训练背景图像和训练背景风格转换信息,将训练背景图像和训练背景风格转换信息输入到初始背景风格图像生成模型中的步骤执行,直到达到训练完成条件时,得到背景风格图像生成模型。
在一个实施例中,纹理信息包括深度信息和法线贴图信息中的至少一种;信息计算模块1406还用于计对各个原始对象区域分别进行单目深度估计,得到各个原始对象区域分别对应的深度信息;基于各个原始对象区域分别对应的深度信息进行法线贴图计算,得到各个原始对象区域分别对应的法线贴图信息。
在一个实施例中,对象转换模块1408还用于获取对象风格描述信息,将对象风格描述信息进行向量化,得到对象风格转换信息;将各个原始对象区域、对象风格转换信息和各个原始对象区域分别对应的纹理信息输入到对象风格图像生成模型中;通过对象风格图像生成模型使用对象风格转换信息和各个原始对象区域分别对应的纹理信息生成对应的图像生成引导参数,按照图像生成引导参数对各个原始对象区域进行风格转换,得到各个原始对象区域分别对应的转换对象区域。
在一个实施例中,对象转换模块1408还用于获取至少两种对象风格描述信息,并获取至少两种对象风格描述信息分别对应的对象风格权重;将至少两种对象风格描述信息和对应的对象风格权重进行向量化,得到目标对象风格转换信息;将各个原始对象区域、目标对象风格转换信息和各个原始对象区域分别对应的纹理信息输入到对象风格图像生成模型中;通过对象风格图像生成模型使用目标对象风格转换信息和各个原始对象区域分别对应的纹理信息生成对应的目标图像生成引导参数,按照目标图像生成引导参数对各个原始对象区域进行风格转换,得到各个原始对象区域分别对应的转换对象区域。
在一个实施例中,图像生成装置1400还包括:
对象生成模型训练模块,用于获取预训练的图像生成网络,并获取训练对象图像和训练对象风格转换信息;将训练对象图像和训练对象风格转换信息输入到预训练的图像生成网络中进行图像生成,得到输出的标签图像;基于预训练的图像生成网络建立初始对象风格图像生成模型,并将训练对象图像和训练对象风格转换信息输入到初始对象风格图像生成模型中,得到初始对象转换图像;基于初始对象转换图像和标签图像进行损失计算,得到训练损失信息,按照训练损失信息更新初始对象风格图像生成模型,并返回将训练对象图像和训练对象风格转换信息输入到初始对象风格图像生成模型中,得到初始对象转换图像的步骤迭代执行,直到达到训练完成时,得到对象风格图像生成模型。
在一个实施例中,生成图像得到模块1410还用于按照各个原始对象区域对应的位置信息从转换背景区域中确定各个原始对象区域对应的蒙版区域;基于蒙版区域将各个原始对象区域分别对应的转换对象区域进行蒙版融合,得到原始对象图像对应的转换对象图像。
在一个实施例中,图像生成装置1400,还包括:
组合转换模块,用于获取各个原始对象区域分别对应的原始对象风格描述信息,基于原始对象风格描述信息将各个原始对象区域进行组合,得到各个原始对象组合区域;计算各个原始对象组合区域分别对应的组合纹理信息,并获取对象风格转换信息;基于对象风格转换信息和各个原始对象组合区域分别对应的组合纹理信息将各个原始对象组合区域进行风格转换,得到各个原始对象组合区域分别对应的转换对象组合区域;将各个原始对象组合区域分别对应的转换对象组合区域进行拆分,得到各个原始对象区域分别对应的目标转换对象区域;按照各个原始对象区域对应的位置信息将转换背景区域和目标转换对象区域进行融合,得到原始对象图像对应的目标转换对象图像。
在一个实施例中,组合转换模块还用于计算各个原始对象区域分别对应的原始对象风格描述信息之间的相似程度;当相似程度符合预设相似条件时,将符合预设相似条件的原始对象区域进行拼接,得到各个原始对象组合区域。
在一个实施例中,图像生成装置1400,还包括:
划分转换模块,用于获取各个原始对象区域分别对应的重要程度,基于重要程度将各个原始对象区域进行划分,得到各个非目标原始对象区域和各个目标原始对象区域;基于对象风格转换信息将各个非目标原始对象区域进行风格转换,得到各个非目标原始对象区域分别对应的非目标转换对象区域;获取各个目标原始对象区域对应的目标纹理信息,并基于对象风格转换信息和各个目标原始对象区域分别对应的目标纹理信息将各个目标原始对象区域进行风格转换,得到各个目标原始对象区域分别对应的目标转换对象区域。
在一个实施例中,图像分割模块1402还用于对原始对象图像进行边缘检测,得到边缘检测信息,并对原始对象图像进行实例分割,得到实例分割信息;基于边缘检测信息和实例分割信息确定原始对象图像分别对应的原始背景区域、各个原始对象区域和各个原始对象区域对应的位置信息。
在一个实施例中,图像生成装置1400,还包括:
建筑地图图像转换模块,用于获取原始建筑地图图像,将原始建筑地图图像进行分割,得到地图背景区域、各个建筑区域和各个建筑区域对应的位置信息;获取地图背景风格转换信息,基于地图背景风格转换信息将地图背景区域进行风格转换,得到地图背景风格转换信息对应的转换地图背景区域;计算各个建筑区域分别对应的建筑纹理信息,并获取建筑风格转换信息;并基于建筑风格转换信息和各个建筑区域分别对应的建筑纹理信息将各个建筑区域进行风格转换,得到各个建筑区域分别对应的转换建筑区域;按照各个建筑区域对应的位置信息将转换地图背景区域和转换建筑区域进行融合,得到原始建筑地图图像对应的转换建筑地图图像。
上述图像生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图15所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储原始对象图像、背景风格转换信息、对象风格转换信息以及模型训练数据等等。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种图像生成方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图15所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种图像生成方法。该计算机设备的显示单元用于形成视觉可见的画面,可以是显示屏、投影装置或虚拟现实成像装置,显示屏可以是液晶显示屏或电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图15或者图16中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (17)

1.一种图像生成方法,其特征在于,所述方法包括:
获取原始对象图像,将所述原始对象图像进行分割,得到原始背景区域、各个原始对象区域和所述各个原始对象区域对应的位置信息;
获取背景风格转换信息,基于所述背景风格转换信息将所述原始背景区域进行风格转换,得到所述背景风格转换信息对应的转换背景区域;
计算所述各个原始对象区域分别对应的纹理信息,所述纹理信息用于表征原始对象区域的区域纹理细节;
获取对象风格转换信息,并基于所述对象风格转换信息和所述各个原始对象区域分别对应的纹理信息将所述各个原始对象区域进行风格转换,得到所述各个原始对象区域分别对应的转换对象区域;
按照所述各个原始对象区域对应的位置信息将所述转换背景区域和所述各个原始对象区域分别对应的转换对象区域进行融合,得到所述原始对象图像对应的转换对象图像。
2.根据权利要求1所述的方法,其特征在于,所述获取背景风格转换信息,基于所述背景风格转换信息将所述原始背景区域进行风格转换,得到所述背景风格转换信息对应的转换背景区域,包括:
获取背景风格描述信息,将所述背景风格描述信息进行向量化,得到所述背景风格转换信息;
将所述背景风格转换信息和所述原始背景区域输入到背景风格图像生成模型中进行风格转换,得到所述背景风格描述信息对应的转换背景区域。
3.根据权利要求1所述的方法,其特征在于,所述获取背景风格转换信息,基于所述背景风格转换信息将所述原始背景区域进行风格转换,得到所述背景风格转换信息对应的转换背景区域,包括:
获取至少两种背景风格描述信息,并获取所述至少两种背景风格描述信息分别对应的风格权重;
将所述至少两种背景风格描述信息和对应的风格权重进行向量化,得到目标背景风格转换信息;
将所述目标背景风格转换信息和所述原始背景区域输入到背景风格图像生成模型中进行风格转换,得到所述至少两种背景风格描述信息分别对应的转换背景区域。
4.根据权利要求2或3所述的方法,其特征在于,所述背景风格图像生成模型的训练包括以下步骤:
获取预训练的图像生成网络,并基于所述预训练的图像生成网络和初始化低秩网络建立初始背景风格图像生成模型;
获取训练背景图像和训练背景风格转换信息,将所述训练背景图像和训练背景风格转换信息输入到所述初始背景风格图像生成模型中;
通过所述图像生成网络中的预训练参数使用训练背景图像和训练背景风格转换信息进行图像生成,得到预训练生成图像;
通过所述初始化低秩网络中的初始化低秩参数使用训练背景图像和训练背景风格转换信息进行图像生成,得到低秩生成图像;
基于所述预训练生成图像和所述低秩生成图像反向更新所述初始化低秩网络中的初始化低秩参数,得到更新低秩网络,并基于所述预训练的图像生成网络和所述更新低秩网络得到更新背景风格图像生成模型;
将更新背景风格图像生成模型作为初始背景风格图像生成模型,并返回获取训练背景图像和训练背景风格转换信息,将所述训练背景图像和训练背景风格转换信息输入到所述初始背景风格图像生成模型中的步骤执行,直到达到训练完成条件时,得到所述背景风格图像生成模型。
5.根据权利要求1所述的方法,其特征在于,所述纹理信息包括深度信息和法线贴图信息中的至少一种;所述计算所述各个原始对象区域分别对应的纹理信息,包括:
对所述各个原始对象区域分别进行单目深度估计,得到所述各个原始对象区域分别对应的深度信息;
基于所述各个原始对象区域分别对应的深度信息进行法线贴图计算,得到所述各个原始对象区域分别对应的法线贴图信息。
6.根据权利要求1所述的方法,其特征在于,所述获取对象风格转换信息,并基于所述对象风格转换信息和所述各个原始对象区域分别对应的纹理信息将所述各个原始对象区域进行风格转换,得到所述各个原始对象区域分别对应的转换对象区域,包括:
获取对象风格描述信息,将所述对象风格描述信息进行向量化,得到所述对象风格转换信息;
将所述各个原始对象区域、所述对象风格转换信息和所述各个原始对象区域分别对应的纹理信息输入到对象风格图像生成模型中;
通过所述对象风格图像生成模型使用所述对象风格转换信息和所述各个原始对象区域分别对应的纹理信息生成对应的图像生成引导参数,按照所述图像生成引导参数对所述各个原始对象区域进行风格转换,得到所述各个原始对象区域分别对应的转换对象区域。
7.根据权利要求1所述的方法,其特征在于,所述获取对象风格转换信息,并基于所述对象风格转换信息和所述各个原始对象区域分别对应的纹理信息将所述各个原始对象区域进行风格转换,得到所述各个原始对象区域分别对应的转换对象区域,包括:
获取至少两种对象风格描述信息,并获取所述至少两种对象风格描述信息分别对应的对象风格权重;
将所述至少两种对象风格描述信息和对应的对象风格权重进行向量化,得到目标对象风格转换信息;
将所述各个原始对象区域、所述目标对象风格转换信息和所述各个原始对象区域分别对应的纹理信息输入到对象风格图像生成模型中;
通过所述对象风格图像生成模型使用所述目标对象风格转换信息和所述各个原始对象区域分别对应的纹理信息生成对应的目标图像生成引导参数,按照所述目标图像生成引导参数对所述各个原始对象区域进行风格转换,得到所述各个原始对象区域分别对应的转换对象区域。
8.根据权利要求6或7所述的方法,其特征在于,所述对象风格图像生成模型的训练包括以下步骤:
获取预训练的图像生成网络,并获取训练对象图像和训练对象风格转换信息;
将所述训练对象图像和所述训练对象风格转换信息输入到所述预训练的图像生成网络中进行图像生成,得到输出的标签图像;
基于所述预训练的图像生成网络建立初始对象风格图像生成模型,并将所述训练对象图像和所述训练对象风格转换信息输入到所述初始对象风格图像生成模型中,得到初始对象转换图像;
基于所述初始对象转换图像和所述标签图像进行损失计算,得到训练损失信息,按照所述训练损失信息更新所述初始对象风格图像生成模型,并返回将所述训练对象图像和训练对象风格转换信息输入到所述初始对象风格图像生成模型中,得到初始对象转换图像的步骤迭代执行,直到达到训练完成时,得到所述对象风格图像生成模型。
9.根据权利要求1所述的方法,其特征在于,所述按照所述各个原始对象区域对应的位置信息将所述转换背景区域和所述各个原始对象区域分别对应的转换对象区域进行融合,得到所述原始对象图像对应的转换对象图像,包括:
按照所述各个原始对象区域对应的位置信息从所述转换背景区域中确定所述各个原始对象区域对应的蒙版区域;
基于所述蒙版区域将所述各个原始对象区域分别对应的转换对象区域进行蒙版融合,得到所述原始对象图像对应的转换对象图像。
10.根据权利要求1所述的方法,其特征在于,所述方法,还包括:
获取所述各个原始对象区域分别对应的原始对象风格描述信息,基于所述原始对象风格描述信息将所述各个原始对象区域进行组合,得到各个原始对象组合区域;
计算所述各个原始对象组合区域分别对应的组合纹理信息,并获取对象风格转换信息;
基于所述对象风格转换信息和所述各个原始对象组合区域分别对应的组合纹理信息将所述各个原始对象组合区域进行风格转换,得到所述各个原始对象组合区域分别对应的转换对象组合区域;
将所述各个原始对象组合区域分别对应的转换对象组合区域进行拆分,得到所述各个原始对象区域分别对应的目标转换对象区域;
按照所述各个原始对象区域对应的位置信息将所述转换背景区域和目标转换对象区域进行融合,得到所述原始对象图像对应的目标转换对象图像。
11.根据权利要求10所述的方法,其特征在于,所述基于所述对象风格描述信息将所述各个原始对象区域进行组合,得到各个原始对象组合区域,包括:
计算所述各个原始对象区域分别对应的原始对象风格描述信息之间的相似程度;
当所述相似程度符合预设相似条件时,将符合预设相似条件的原始对象区域进行拼接,得到各个原始对象组合区域。
12.根据权利要求1所述的方法,其特征在于,所述方法,还包括:
获取所述各个原始对象区域分别对应的重要程度,基于所述重要程度将所述各个原始对象区域进行划分,得到各个非目标原始对象区域和各个目标原始对象区域;
基于所述对象风格转换信息将所述各个非目标原始对象区域进行风格转换,得到所述各个非目标原始对象区域分别对应的非目标转换对象区域;
获取所述各个目标原始对象区域对应的目标纹理信息,并基于所述对象风格转换信息和所述各个目标原始对象区域分别对应的目标纹理信息将所述各个目标原始对象区域进行风格转换,得到所述各个目标原始对象区域分别对应的目标转换对象区域。
13.根据权利要求1所述的方法,其特征在于,所述将所述原始对象图像进行分割,得到原始背景区域、各个原始对象区域和所述各个原始对象区域对应的位置信息,包括:
对所述原始对象图像进行边缘检测,得到边缘检测信息,并对所述原始对象图像进行实例分割,得到实例分割信息;
基于所述边缘检测信息和所述实例分割信息确定所述原始对象图像分别对应的原始背景区域、各个原始对象区域和所述各个原始对象区域对应的位置信息。
14.根据权利要求1所述的方法,其特征在于,所述方法,还包括:
获取原始建筑地图图像,将所述原始建筑地图图像进行分割,得到地图背景区域、各个建筑区域和所述各个建筑区域对应的位置信息;
获取地图背景风格转换信息,基于所述地图背景风格转换信息将所述地图背景区域进行风格转换,得到所述地图背景风格转换信息对应的转换地图背景区域;
计算所述各个建筑区域分别对应的建筑纹理信息,并获取建筑风格转换信息;
基于所述建筑风格转换信息和所述各个建筑区域分别对应的建筑纹理信息将所述各个建筑区域进行风格转换,得到所述各个建筑区域分别对应的转换建筑区域;
按照所述各个建筑区域对应的位置信息将所述转换地图背景区域和转换建筑区域进行融合,得到所述原始建筑地图图像对应的转换建筑地图图像。
15.一种图像生成装置,其特征在于,所述装置包括:
图像分割模块,用于获取原始对象图像,将所述原始对象图像进行分割,得到原始背景区域、各个原始对象区域和所述各个原始对象区域对应的位置信息;
背景转换模块,用于获取背景风格转换信息,基于所述背景风格转换信息将所述原始背景区域进行风格转换,得到所述背景风格转换信息对应的转换背景区域;
信息计算模块,用于计算所述各个原始对象区域分别对应的纹理信息,所述纹理信息用于表征原始对象区域的区域纹理细节;
对象转换模块,用于获取对象风格转换信息,并基于所述对象风格转换信息和所述各个原始对象区域分别对应的纹理信息将所述各个原始对象区域进行风格转换,得到所述各个原始对象区域分别对应的转换对象区域;
生成图像得到模块,用于按照所述各个原始对象区域对应的位置信息将所述转换背景区域和所述各个原始对象区域分别对应的转换对象区域进行融合,得到所述原始对象图像对应的转换对象图像。
16.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至14中任一项所述的方法的步骤。
17.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至14中任一项所述的方法的步骤。
CN202311324844.7A 2023-10-13 2023-10-13 图像生成方法、装置、计算机设备和存储介质 Active CN117078790B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311324844.7A CN117078790B (zh) 2023-10-13 2023-10-13 图像生成方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311324844.7A CN117078790B (zh) 2023-10-13 2023-10-13 图像生成方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN117078790A true CN117078790A (zh) 2023-11-17
CN117078790B CN117078790B (zh) 2024-03-29

Family

ID=88715617

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311324844.7A Active CN117078790B (zh) 2023-10-13 2023-10-13 图像生成方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN117078790B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117649477A (zh) * 2024-01-30 2024-03-05 腾讯科技(深圳)有限公司 图像处理方法、装置、设备以及存储介质
CN117808933A (zh) * 2024-02-29 2024-04-02 成都索贝数码科技股份有限公司 一种图像要素分解与重构方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111667399A (zh) * 2020-05-14 2020-09-15 华为技术有限公司 风格迁移模型的训练方法、视频风格迁移的方法以及装置
CN112419328A (zh) * 2019-08-22 2021-02-26 北京市商汤科技开发有限公司 图像处理方法及装置、电子设备和存储介质
CN113160033A (zh) * 2020-12-28 2021-07-23 武汉纺织大学 服装风格迁移系统与方法
US20210241500A1 (en) * 2018-04-24 2021-08-05 Metail Limited Method and system for prov iding photorealistic changes for digital image
CN113850712A (zh) * 2021-09-03 2021-12-28 北京达佳互联信息技术有限公司 图像风格转换模型的训练方法、图像风格转换方法及装置
CN114419297A (zh) * 2022-01-21 2022-04-29 吉林大学 一种基于背景风格迁移的3d目标迷彩生成方法
CN115619624A (zh) * 2022-10-24 2023-01-17 盛视科技股份有限公司 聚焦主体的双阶段彩墨风格图像生成方法及可读存储介质
WO2023151299A1 (zh) * 2022-02-11 2023-08-17 华为云计算技术有限公司 数据生成的方法、装置、设备和存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210241500A1 (en) * 2018-04-24 2021-08-05 Metail Limited Method and system for prov iding photorealistic changes for digital image
CN112419328A (zh) * 2019-08-22 2021-02-26 北京市商汤科技开发有限公司 图像处理方法及装置、电子设备和存储介质
CN111667399A (zh) * 2020-05-14 2020-09-15 华为技术有限公司 风格迁移模型的训练方法、视频风格迁移的方法以及装置
CN113160033A (zh) * 2020-12-28 2021-07-23 武汉纺织大学 服装风格迁移系统与方法
CN113850712A (zh) * 2021-09-03 2021-12-28 北京达佳互联信息技术有限公司 图像风格转换模型的训练方法、图像风格转换方法及装置
CN114419297A (zh) * 2022-01-21 2022-04-29 吉林大学 一种基于背景风格迁移的3d目标迷彩生成方法
WO2023151299A1 (zh) * 2022-02-11 2023-08-17 华为云计算技术有限公司 数据生成的方法、装置、设备和存储介质
CN115619624A (zh) * 2022-10-24 2023-01-17 盛视科技股份有限公司 聚焦主体的双阶段彩墨风格图像生成方法及可读存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117649477A (zh) * 2024-01-30 2024-03-05 腾讯科技(深圳)有限公司 图像处理方法、装置、设备以及存储介质
CN117649477B (zh) * 2024-01-30 2024-06-04 腾讯科技(深圳)有限公司 图像处理方法、装置、设备以及存储介质
CN117808933A (zh) * 2024-02-29 2024-04-02 成都索贝数码科技股份有限公司 一种图像要素分解与重构方法及装置
CN117808933B (zh) * 2024-02-29 2024-05-24 成都索贝数码科技股份有限公司 一种图像要素分解与重构方法及装置

Also Published As

Publication number Publication date
CN117078790B (zh) 2024-03-29

Similar Documents

Publication Publication Date Title
AU2019201787B2 (en) Compositing aware image search
CN117078790B (zh) 图像生成方法、装置、计算机设备和存储介质
CN111401216B (zh) 图像处理、模型训练方法、装置、计算机设备和存储介质
CN111553267B (zh) 图像处理方法、图像处理模型训练方法及设备
US10217224B2 (en) Method and system for sharing-oriented personalized route planning via a customizable multimedia approach
CN115359219B (zh) 虚拟世界的虚拟形象处理方法及装置
CN113204659B (zh) 多媒体资源的标签分类方法、装置、电子设备及存储介质
CN116580257A (zh) 特征融合模型训练及样本检索方法、装置和计算机设备
CN117033609B (zh) 文本视觉问答方法、装置、计算机设备和存储介质
CN112085835A (zh) 三维卡通人脸生成方法、装置、电子设备及存储介质
CN112069412B (zh) 信息推荐方法、装置、计算机设备及存储介质
CN116012626B (zh) 建筑立面图像的素材匹配方法、装置、设备和存储介质
CN117252947A (zh) 图像处理方法、装置、计算机、存储介质及程序产品
CN116977531A (zh) 三维纹理图像的生成方法、装置、计算机设备和存储介质
CN115546011A (zh) 图像处理方法、装置、计算机设备和存储介质
CN114399708A (zh) 一种视频动作迁移深度学习系统和方法
Lee et al. Holistic 3D face and head reconstruction with geometric details from a single image
CN113516735A (zh) 图像处理方法、装置、计算机可读介质及电子设备
CN117934654A (zh) 图像生成模型训练、图像生成方法、装置和计算机设备
CN117726746B (zh) 三维人体重建方法、装置、设备、存储介质及程序产品
CN116612287B (zh) 图像识别方法、装置、计算机设备和存储介质
CN118674746A (zh) 抠图模型的处理方法、装置、计算机设备和存储介质
CN116597293A (zh) 多模态场景识别方法、装置、计算机设备和存储介质
CN115861041A (zh) 图像风格迁移方法、装置、计算机设备、存储介质和产品
CN118037872A (zh) 图像生成模型的训练、风格图像生成方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant