CN117408899A - 图像生成方法、设备及计算机存储介质 - Google Patents

图像生成方法、设备及计算机存储介质 Download PDF

Info

Publication number
CN117408899A
CN117408899A CN202311169171.2A CN202311169171A CN117408899A CN 117408899 A CN117408899 A CN 117408899A CN 202311169171 A CN202311169171 A CN 202311169171A CN 117408899 A CN117408899 A CN 117408899A
Authority
CN
China
Prior art keywords
image
data object
images
preliminary
scene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311169171.2A
Other languages
English (en)
Inventor
邬宏
费义云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taobao China Software Co Ltd
Original Assignee
Taobao China Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taobao China Software Co Ltd filed Critical Taobao China Software Co Ltd
Priority to CN202311169171.2A priority Critical patent/CN117408899A/zh
Publication of CN117408899A publication Critical patent/CN117408899A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本申请实施例提供了一种图像生成方法、设备及计算机存储介质,其中,方法包括:获取参考图像中数据对象的线条图像;将线条图像作为约束条件进行图像生成操作,获取多个初步场景图像,每个初步场景图像中均包括数据对象的形状信息和尺寸信息,且任意两个初步场景图像不同;对参考图像与初步场景图像进行融合,获得多个目标场景图像,每个目标场景图像中均包括数据对象,且任意两个目标场景图像不同。本申请所提供的技术方案,能够基于单张图像自动、批量地生成多个场景图像,使得场景图像的生成自动且高效,并且保证了多个场景图像的生成质量和效率,有效地提高了该方法的实用性。

Description

图像生成方法、设备及计算机存储介质
技术领域
本申请涉及图像处理技术领域,尤其涉及一种图像生成方法、设备及计算机存储介质。
背景技术
随着图像技术的飞速发展,图像的应用场景越来越广泛。例如,在电商的应用场景中,可以利用图像对某一个商品进行推广、宣传以及说明等操作,并且,为了能够提高商品的推广质量和效果,同一个商品往往会对应有多个图像,而多个图像往往需要人为对实际场景中的商品进行拍摄所获得。
然而,上述图像的获取方式不仅需要花费大量的人力物力,并且获取的图像质量和效果无法保证,往往需要人为地对拍摄图像进行修图操作。
发明内容
本申请实施例提供一种图像生成方法、设备及计算机存储介质,能够仅基于单张图像自动、批量的生成多个不同的场景图,有效地提高并保证了多个图像的生成质量和效率。
第一方面,本申请实施例提供了一种图像生成方法,包括:
获取参考图像中数据对象的线条图像;
将所述线条图像作为约束条件进行图像生成操作,获取多个初步场景图像,每个初步场景图像中均包括所述数据对象的形状信息和尺寸信息,且任意两个初步场景图像不同;
对所述参考图像与所述初步场景图像进行融合,获得多个目标场景图像,每个目标场景图像中均包括所述数据对象,且任意两个目标场景图像不同。
第二方面,本申请实施例提供了一种图像生成装置,包括:
第一获取模块,用于获取参考图像中数据对象的线条图像;
第一处理模块,用于将所述线条图像作为约束条件进行图像生成操作,获取多个初步场景图像,每个初步场景图像中均包括所述数据对象的形状信息和尺寸信息,且任意两个初步场景图像不同;
第一处理模块,用于对所述参考图像与所述初步场景图像进行融合,获得多个目标场景图像,每个目标场景图像中均包括所述数据对象,且任意两个目标场景图像不同。
第三方面,本申请实施例提供了一种电子设备,包括:存储器、处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现上述第一方面所示的图像生成方法。
第四方面,本发明实施例提供了一种计算机存储介质,用于储存计算机程序,所述计算机程序使计算机执行时实现上述第一方面所示的图像生成方法。
第五方面,本发明实施例提供了一种计算机程序产品,包括:计算机程序,当所述计算机程序被电子设备的处理器执行时,使所述处理器执行上述第一方面所示的图像生成方法。
第六方面,本发明实施例提供了一种商品图像的生成方法,包括:
获取商品图像中商品对象的线条图像;
将所述线条图像作为约束条件进行图像生成操作,获取多个初步场景图像,每个初步场景图像中均包括商品对象的形状信息和尺寸信息,且任意两个初步场景图像不同;
对所述商品图像与所述初步场景图像进行融合,获得多个目标场景图像,每个目标场景图像中均包括所述商品对象,且任意两个目标场景图像不同。
第七方面,本发明实施例提供了一种商品图像的生成装置,包括:
第二获取模块,用于获取商品图像中商品对象的线条图像;
第二处理模块,用于将所述线条图像作为约束条件进行图像生成操作,获取多个初步场景图像,每个初步场景图像中均包括所述商品对象的形状信息和尺寸信息,且任意两个初步场景图像不同;
第二处理模块,用于对所述商品图像与所述初步场景图像进行融合,获得多个目标场景图像,每个目标场景图像中均包括所述商品对象,且任意两个目标场景图像不同。
第八方面,本申请实施例提供了一种电子设备,包括:存储器、处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现上述第六方面所示的商品图像的生成方法。
第九方面,本发明实施例提供了一种计算机存储介质,用于储存计算机程序,所述计算机程序使计算机执行时实现上述第六方面所示的商品图像的生成方法。
第十方面,本发明实施例提供了一种计算机程序产品,包括:计算机程序,当所述计算机程序被电子设备的处理器执行时,使所述处理器执行上述第六方面所示的商品图像的生成方法。
第十一方面,本申请实施例提供了一种图像生成方法,包括:
获取图像生成请求;
基于所述图像生成请求,确定参考图像中数据对象的线条图像;
将所述线条图像作为约束条件进行图像生成操作,获取多个初步场景图像,每个初步场景图像中均包括所述数据对象的形状信息和尺寸信息,且任意两个初步场景图像不同;
对所述参考图像与所述初步场景图像进行融合,获得多个目标场景图像,每个目标场景图像中均包括所述数据对象,且任意两个目标场景图像不同。
第十二方面,本申请实施例提供了一种图像生成装置,包括:
第三获取模块,用于获取图像生成请求;
第三确定模块,用于基于所述图像生成请求,确定参考图像中数据对象的线条图像;
第三处理模块,用于将所述线条图像作为约束条件进行图像生成操作,获取多个初步场景图像,每个初步场景图像中均包括所述数据对象的形状信息和尺寸信息,且任意两个初步场景图像不同;
所述第三处理模块,还用于对所述参考图像与所述初步场景图像进行融合,获得多个目标场景图像,每个目标场景图像中均包括所述数据对象,且任意两个目标场景图像不同。
第十三方面,本申请实施例提供了一种电子设备,包括:存储器、处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现上述第十一方面所示的图像生成方法。
第十四方面,本发明实施例提供了一种计算机存储介质,用于储存计算机程序,所述计算机程序使计算机执行时实现上述第十一方面所示的图像生成方法。
第十五方面,本发明实施例提供了一种计算机程序产品,包括:计算机程序,当所述计算机程序被电子设备的处理器执行时,使所述处理器执行上述第十一方面所示的图像生成方法。
本申请实施例提供的图像生成方法、设备及计算机存储介质,通过获取参考图像,基于所述参考图像获取所述数据对象的线条图像;而后将所述线条图像作为约束条件进行图像生成操作,获取多个初步场景图像,并对所述参考图像与所述初步场景图像进行融合,从而可以稳定地获得多个目标场景图像,这样有效地实现了能够基于单张图像自动、批量地生成多个场景图像,使得场景图像的生成自动且高效,并且保证了多个场景图像的生成质量和效率,进一步提高了该方法的实用性,有利于市场的推广与应用。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种图像生成方法的原理示意图;
图2为本申请实施例提供的一种图像生成方法的流程示意图;
图3为本申请实施例提供的对所述对象主体图进行边缘检测操作,获取所述数据对象的线条图像的流程示意图;
图4为本申请实施例提供的获取对象摆放图的流程示意图;
图5为本申请实施例提供的另一种图像生成方法的流程示意图;
图6为本申请实施例提供的对目标场景图像进行分析处理的示意图;
图7为本申请应用实施例提供的一种图像生成方法的流程示意图;
图8为本申请应用实施例提供的将商品对象添加在空白图像中的示意图;
图9为本申请实施例提供的一种商品图像的生成方法的流程示意图;
图10为本申请实施例提供的一种图像生成装置的结构示意图;
图11为图10所示的图像生成装置所对应的电子设备的结构示意图;
图12为本申请实施例提供的一种商品图像的生成装置的结构示意图;
图13为图12所示的商品图像的生成装置所对应的电子设备的结构示意图;
图14为本申请实施例提供的另一种图像生成方法的流程示意图;
图15为本申请实施例提供的一种图像生成装置的结构示意图;
图16为图15所示的图像生成装置所对应的电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义,“多种”一般包含至少两种,但是不排除包含至少一种的情况。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
取决于语境,如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。
另外,下述各方法实施例中的步骤时序仅为一种举例,而非严格限定。
为了便于理解本实施例所提供的技术方案的具体实现方式和实现效果,下面对相关技术进行说明:
随着图像技术的飞速发展,图像的应用场景越来越广泛。例如,在电商的应用场景中,可以利用图像对某一个商品进行推广、宣传以及说明等操作,并且,为了能够提高商品的推广质量和效果,同一个商品往往会对应有多个图像,而多个图像往往需要人为对实际场景中的商品进行拍摄所获得。然而,上述图像的获取方式不仅需要花费大量的人力物力,并且获取的图像质量和效果无法保证,往往需要人为地对拍摄图像进行修图操作。
为了解决上述技术问题,相关技术提供了一种图像生成方法,该方法主要将具有图像主体(例如:实木类型的沙发、皮质类型的沙发、电动沙发等等)以及主体类型(例如:沙发)的一些图像作为训练数据,获得一个经过微调并且个性化的文本到图像模型,该文本到图像模型的模型适用于具有预设主体的标识符的文本信息,在用户输入具有预设主体的文本标识符的文本信息时,则可以基于上述的文本信息进行图像生成操作,其中,预设主体的文本标识符可以为用于限定不同场景、不同语境、不同类型的标识符信息等等。
举例来说,具有预设标识符的文本信息可以为“A photo of a[T]sofa”,当用户想到获取到白色的沙发时,用户可以将上述的预设标识符[T]更改为“white”,而后将沙发图像和包含有上述文本信息输入至文本到图像模型,之后则可以获取到文本到图像模型所生成的属于预设主体的不同实例图,即生成多个不同的白色沙发图像。
上述图像生成方式能够生成不同环境或者不同主题的实例图像。但是,在每次进行图像生成操作时,均需要用户输入用于限定场景或者限定类型的预设标识符,这样不仅需要用户在进行图像生成操作时进行额外的交互操作,增加了图像生成操作的繁琐程度,并且无法保证图像生成的质量和效果。
为了解决上述技术问题,本实施例提供了一种图像生成方法、设备及计算机存储介质,其中,参考附图1所示,图像生成方法的执行主体可以为图像生成装置,该图像生成装置通信连接有客户端,具体的,图像生成装置可以实现为任何具有一定图像生成能力的计算设备,客户端可以是手机、智能穿戴设备、平板电脑、个人电脑、设定应用程序等等。
此外,客户端的基本结构可以包括:至少一个处理器。处理器的数量取决于终端的配置和类型。客户端也可以包括存储器,该存储器可以为易失性的,例如:随机存取存储器(Random Access Memory,简称RAM),也可以为非易失性的,例如只读存储器(Read-OnlyMemory,简称ROM)、闪存等,或者也可以同时包括两种类型。存储器内通常存储有操作系统(Operating System,简称OS)、一个或多个应用程序,也可以存储有程序数据等。除了处理单元和存储器之外,终端还包括一些基本配置,例如网卡芯片、IO总线、显示组件以及一些外围设备等。可选地,一些外围设备可以包括,例如键盘、鼠标、输入笔、打印机等。其它外围设备在本领域中是众所周知的,在此不做赘述。
图像生成装置是指可以在网络虚拟环境中提供图像生成操作的设备,通常是指利用网络进行信息规划以及图像生成操作的装置。在物理实现上,图像生成装置可以是任何能够提供计算服务,响应于客户端所提出的图像生成请求,可以基于图像生成请求进行图像生成操作的设备,例如:可以是边缘设备、远端服务器、集群服务器、常规服务器、云服务器、云主机、虚拟中心等。图像生成装置的构成主要包括处理器、硬盘、内存、系统总线等,和通用的计算机架构类似。
在上述本实施例中,客户端与图像生成装置进行网络连接,该网络连接可以是无线或有线网络连接。若客户端可以与图像生成装置是通信连接,该移动网络的网络制式可以为2G(GSM)、2.5G(GPRS)、3G(WCDMA、TD-SCDMA、CDMA2000、UTMS)、4G(LTE)、4G+(LTE+)、WiMax、5G、6G等中的任意一种。
在本申请实施例中,在用户存在图像生成需求时,客户端可以基于图像生成需求生成、获取或者选择用于实现图像生成操作的参考图像,参考图像中可以包括数据对象,需要注意的是,数据对象的数量可以为一个或多个;为了能够实现图像生成操作,可以将参考图像发送至图像生成装置,以使得图像生成装置可以获取到用于实现图像生成操作的参考图像。
图像生成装置,用于获取到客户端发送的参考图像,该参考图像中包括至少一个数据对象,为了能够准确地实现仅基于一单张图像即可生成多个具有相同数据对象的图像,在图像生成装置获取到参考图像之后,可以对参考图像进行分析处理,获取到数据对象的线条图像,该线条图像中包括数据对象的形状信息和线条信息,而后将线条图像作为约束条件进行图像生成操作,获得多个初步场景图像,每个初步场景图像均包括数据对象的形状信息和尺寸信息,即初步场景图像中所包括的数据对象的尺寸信息与参考图像中数据对象的尺寸信息相同,且任意两个初步场景图像均包括不同的场景信息。
由于初步场景图像中仅包括数据对象的形状信息和场景信息,为了能够稳定地获取到包括数据对象的完整信息的多个场景图像,在获取到多个初步场景图像之后,可以对参考图像与初步场景图像进行融合,从而可以获得多个目标场景图像,此时所获得的每个目标场景图像中均包括数据对象,且任意两个目标场景图像不同。
本实施例提供的技术方案,通过获取参考图像,而后基于参考图像获取数据对象的线条图像,将线条图像作为约束条件进行图像生成操作,获取多个初步场景图像,并对参考图像与初步场景图像进行融合,获得多个目标场景图像,此时,所获得的每个目标场景图像中均包括数据对象,且任意两个目标场景图像不同,从而有效地实现了能够仅基于单张图像自动、批量的生成多个不同的场景图,有效地提高并保证了多个图像的生成质量和效率,进一步提高了该方法的实用性。
下面结合附图,对本发明的一些实施方式作详细说明。在各实施例之间不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。另外,下述各方法实施例中的步骤时序仅为一种举例,而非严格限定。
图2为本申请实施例提供的一种图像生成方法的流程示意图;参考附图2所示,本实施例提供了一种图像生成方法,该方法的执行主体可以为图像生成装置,在一些实例中,图像生成装置可以实现为软件、或者软件和硬件的组合,在图像生成装置实现为硬件时,其具体可以是具有图像生成操作的各种电子设备,包括但不限于平板电脑、个人电脑PC、服务器、云服务器等等。当图像生成装置实现为软件时,其可以安装在上述所例举的电子设备中。具体的,基于上述的图像生成装置,本实施例中的图像生成方法可以包括以下步骤:
步骤201:获取参考图像中数据对象的线条图像。
步骤202:将线条图像作为约束条件进行图像生成操作,获取多个初步场景图像,每个初步场景图像中均包括数据对象的形状信息和尺寸信息,且任意两个初步场景图像不同。
步骤203:对参考图像与初步场景图像进行融合,获得多个目标场景图像,每个目标场景图像中均包括数据对象,且任意两个目标场景图像不同。
下面对上述各个步骤的具体实现方式和实现效果进行详细说明:
步骤201:获取参考图像中数据对象的线条图像。
当用户存在图像生成需求时,可以使得图像生成装置获取到参考图像中数据对象的线条图像,其中,线条图像可以通过对参考图像进行分析处理所获得,此时,为了能够准确地获取到参考图像中数据对象的线条图像,可以先获取到包括数据对象的参考图像,对于参考图像中包括的数据对象而言,数据对象的数量可以为一个或多个,例如:在家装的应用场景中,参考图像中的数据对象可以为家具产品,并且,数据对象可以为1个或者多个。需要注意的是,本实施例中的参考图像不仅可以是适用于家装的应用场景的图像,也可以适用于其他的应用场景的图像,例如:参考图像可以为适用于零售的应用场景的图像、农业的应用场景的图像、医疗器械的应用场景的图像等等。
在一些实例中,参考图像可以通过访问预设数据库获得,此时,预设数据库中存储有多个数据对象各自对应的对象身份标识以及与各个数据对象相对应的多个图像,上述的每个图像中均包括所对应的数据对象;具体的,获取参考图像可以包括:获取数据对象的对象身份标识;基于对象身份标识在预设数据库中获取包括数据对象的参考图像,参考图像可以为与数据对象相对应的多个图像中的任意一个。
在另一些实例中,参考图像不仅可以通过访问预设数据库来获得,还可以通过预设通信接口进行传输获得,此时,获取参考图像可以包括:获取用于实现图像传输操作的图像传输接口;通过图像传输接口获取客户端或者第三方设备上传的参考图像,从而有效地保证了对参考图像进行获取的准确可靠性。
在获取到参考图像之后,为了能够准确地生成包括数据对象的多个场景图像,可以先基于参考图像生成包括数据对象的线条信息的场景图像,而后对参考图像和场景图像进行融合处理,获得包括有数据对象的完整信息的场景图像。基于上述陈述内容,为了能够准确地生成包括有数据对象的线条信息的场景图像,可以先对参考图像进行分析处理,以获取数据对象的线条图像。在一些实例中,线条图像可以通过预先训练好的机器学习模型对参考图像进行分析处理所获得,此时,基于参考图像,获取数据对象的线条图像可以包括:获取预先训练好的机器学习模型;将参考图像输入至机器学习模型中,获得机器学习模型输出的数据对象的线条图像。
在又一些实例中,线条图像不仅可以通过预先训练好的机器学习模型对参考图像进行分析处理所获得,还能够通过对参考图像进行对象提取操作和边缘检测操作所获得,此时,获取参考图像中数据对象的线条图像可以包括:获取参考图像中数据对象的对象主体图;对对象主体图进行边缘检测操作,获取数据对象的线条图像。
在获取到参考图像之后,可以对参考图像进行对象提取操作,获得数据对象的对象主体图,此时,基于参考图像,获取数据对象的对象主体图可以包括:获取用于对参考图像进行对象提取操作的对象提取算法或者对象提取模型;利用对象提取算法或者对象提取模型对参考图像进行分析处理,获取数据对象的对象主体图,所获得的对象主体图可以为一个具有透明通道的图像。
在获取到对象主体图之后,可以对对象主体图进行边缘检测操作,从而可以获取数据对象的线条图像,在一些实例中,对对象主体图进行边缘检测操作,获取数据对象的线条图可以包括:对对象主体图进行图像去噪、梯度计算、非极大值抑制和边界跟踪处理等操作,从而可以获得数据对象的线条图像,从而有效地保证了对数据对象的线条图像进行确定的准确可靠性。
步骤202:将线条图像作为约束条件进行图像生成操作,获取多个初步场景图像,每个初步场景图像中均包括数据对象的形状信息和尺寸信息,且任意两个初步场景图像不同。
在获取到线条图像之后,可以将线条图像作为约束条件进行图像生成操作,获取多个初步场景图像,每个初步场景图像中均包括数据对象的形状信息和尺寸信息,且任意两个初步场景图像不同,需要注意的是,每个初步场景图像中数据对象的尺寸信息与参考图像中数据对象的尺寸信息相同,并且,初步场景图像中不仅可以包括数据对象的形状信息和尺寸信息,还可以包括数据对象的位置信息,此时,每个初步场景图像中数据对象的位置信息与参考图像中数据对象的位置信息相同。
另外,对于多个初步场景图像而言,初始场景图像可以通过预先训练好的机器学习模型或者神经网络模型对参考图像进行分析处理所获得,此时,将线条图像作为约束条件进行图像生成操作,获取多个初步场景图像可以包括:获取预先训练好的第一图像生成模型,其中,第一图像生成模型可以为预先训练好的ControlNet模型,在获取到第一图像生成模型之后,可以将线条图像作为图像生成操作的约束条件输入至第一图像生成模型中进行图像生成操作,从而可以稳定地获取到多个初步场景图像。
在另一些实例中,不仅可以通过预先训练好的机器学习模型或者神经网络模型获得多个初步场景图像,还可以基于预先配置的场景信息来确定多个初步场景图像,此时,将线条图像作为约束条件进行图像生成操作,获取多个初步场景图像可以包括:获取预先配置的多个场景信息;以线条图像作为约束条件,基于多个场景信息对参考图像中的场景或者环境信息进行更新或者替换操作,获得多个初步场景图像,从而有效地保证了对多个初步场景图像进行确定的准确可靠性。
需要注意的是,对于初步场景图像而言,无论采用上述的何种方式来获得,所生成的每个初步场景图像中均包括数据对象的形状信息和尺寸信息,且任意两个初步场景图像不同,具体是指不同的初步场景图像中所对应的背景信息或者环境信息不同。另外,由于参考图像中的数据对象的数量可以为一个或多个,在参考图像中包括1个数据对象时,所生成的初步场景图像均包括上述的1个数据对象;在参考图像中包括多个数据对象时,所生成的初步场景图像可以包括以下三种情况:
(1)多个初步场景图像为与一个数据对象相对应的1组图像,具体的,针对参考图像中的任意一个数据对象生成1组-多个初步场景图像,例如:参考图像中包括沙发、茶几、落地灯时,那么可以针对参考图像中的任意一个对象(例如:沙发)生成1组-多个初步场景图像。
(2)多个初步场景图像为各个数据对象各自对应的多个组图像,针对参考图像中的每个数据对象均生成各自对应的初步场景图像,例如:参考图像中包括沙发、茶几、落地灯时,那么可以针对参考图像中的每个对象(例如:沙发、茶几、落地灯)生成多个初步场景图像,即会生成包括沙发的1组-多个初步场景图像、包括茶几的1组-多个初步场景图像、包括落地灯的1组-多个初步场景图像,此时,多个初步场景图像为3组包括不同数据对象的场景图像。
(3)多个初步场景图像为所有数据对象相对应的1组图像,针对参考图像中的多个数据对象的组合生成多个初步场景图像,例如:参考图像中包括沙发、茶几、落地灯时,那么可以针对参考图像中的所有对象生成多个初步场景图像,即会生成同时包括沙发、茶几、落地灯的1组-多个初步场景图像。
具体的,在参考图像中包括的数据对象的数量为多个、且需要生成初步场景图像时,用户可以根据应用需求或者场景需求灵活地对初步场景图像的生成方式进行配置或者限定,只要能够稳定地获取到包括有数据对象的形状信息的初步场景图像即可,在此不再赘述。
步骤203:对参考图像与初步场景图像进行融合,获得多个目标场景图像,每个目标场景图像中均包括数据对象,且任意两个目标场景图像不同。
由于初步场景图像中包括数据对象的形状信息和尺寸信息,为了能够获取到包括数据对象更多细节或者完整信息的场景图像,在获取到初步场景图像之后,可以对参考图像与初步场景图像进行融合处理,从而可以获得多个目标场景图像,所获得的每个目标场景图像中均包括数据对象,且任意两个目标场景图像不同,相对于初步场景图像而言,目标场景图像包括数据对象的细节信息或者完整信息,例如:数据对象的颜色信息、数据对象的纹理信息、数据对象的光影信息等等。
在一些实例中,对于多个目标场景图像而言,多个目标场景图像可以通过预先训练好的机器学习模型或者神经网络模型来获得,此时,对参考图像与初步场景图像进行融合,获得多个目标场景图像可以包括:获取预先训练好的机器学习模型或者神经网络模型,将参考图像和多个初步场景图像输入至机器学习模型或者神经网络模型中,获得机器学习模型或者神经网络模型所输出的经过融合处理操作的多个目标场景图像。
在另一些实例中,不仅可以通过预先训练好的机器学习模型或者神经网络模型来获得多个目标场景图像,还可以通过对初步场景图像中的像素点与参考图像中的像素点进行融合操作所获得,此时,对参考图像与初步场景图像进行融合,获得多个目标场景图像可以包括:获取初步场景图像中各个像素点的透明度;在透明度大于或等于预设阈值时,则将初步场景图像中的像素点确定为融合像素点;在透明度小于预设阈值时,则对初步场景图像中的像素点与参考图像中的对应像素点进行融合,获得融合像素点;基于所有的融合像素点,获得多个初步场景图像各自对应的多个目标场景图像。
具体的,由于初步场景图像中包括数据对象的形状信息和尺寸信息,而参考图像中包括有数据对象的完整信息,在进行图像生成操作时,由于初步场景图像中像素点可能是与数据对象相对应的像素点,也可能是与背景环境相对应的像素点,因为,为了能够准确地实现图像融合操作,获得包括有数据对象的完整信息的场景图像,在获取到初步场景图像之后,可以利用预设算法或者预先训练好的机器学习模型对初步场景图像进行分析处理,从而获取初步场景图像中各个像素点的透明度,在一些实例中,透明度可以为alpha通道值。在获取到透明度之后,可以将透明度与预设阈值(可以为预先配置的用于判断像素点是否为数据对象的像素点的下限值,例如:可以为150、200、250等等)进行分析比较,在透明度大于或等于预设阈值时,则说明初步场景图像中的当前像素点是数据对象的像素点,进而则可以将初步场景图像中的像素点确定为进行融合操作之后的融合像素点;在透明度小于预设阈值时,则说明初步场景图像中的当前像素点为非数据对象的像素点,即此时的像素点可以为图像背景的像素点。此时,为了能够实现图像融合操作,则可以对初步场景图像和参考图像进行融合处理,具体的,对初步场景图像中的像素点与参考图像中的对应像素点进行融合处理,获得融合像素点。在一些实例中,可以获取与初步场景图像中的像素点相对应的第一权重以及与参考图像中的对应像素点所对应的第二权重,而后基于第一权重和第二权重对初步场景图像中的像素点的透明度和参考图像中对应像素点的透明度进行加权求和处理,从而可以获得融合像素点。
在获取到所有的融合像素点之后,可以基于所有的融合像素点获得多个初步场景图像各自对应的多个目标场景图像,从而有效地保证了对多个目标场景图像进行确定的准确可靠性。
在又一些实例中,为了进一步提高图像生成的质量和效果,在获得多个目标场景图像之后,本实施例还能够基于图像分辨率对目标场景图像进行分析处理,具体的,本实施例中的方法还可以包括:获取多个目标场景图像各自对应的分辨率;在分辨率小于或等于预设阈值时,则对目标场景图像进行超分处理,获得处理后图像,处理后的图像的分辨率大于预设阈值。
具体的,在获取到目标场景图像之后,由于所获得的目标场景图像的分辨率可能会比较小,也可能不会比较大,由于不同的分辨率会影响到对目标场景图像的查看效果和质量,为了保证图像的清晰程度,在获取到多个目标场景图像之后,可以获取多个目标场景图像各自对应的分辨率,而后将分辨率与预设阈值进行分析比较,在分辨率大于预设阈值时,则说明此时所生成的目标场景图像的分辨率较高,进而无需对目标场景图像进行任何的处理操作;相对应的,在分辨率小于或等于预设阈值时,则说明此时所生成的目标场景图像的分辨率较低,此时,则可以对目标场景图像进行超分处理,以提高目标场景图像的分辨率,进而可以获得满足分辨率阈值要求的处理后图像。
相类似的,在获得多个目标场景图像之后,不仅可以基于图像分辨率对目标场景图像进行分析处理,还能够结合文本信息对目标场景图像进行分析处理,此时,本实施例中的方法还可以包括:获取用于对目标场景图像进行限定的文本信息;基于文本信息对多个目标场景图像进行图像重绘处理,获得处理后图像。
具体的,在获取到目标场景图像之后,可以获取用于对图像重绘操作进行限定的文本信息,而后将文本信息作为用于对目标场景图像进行分析处理的约束条件对多个目标场景图像进行图像重绘处理,从而可以获得多个处理后图像,处理后图像即为经过图像重绘操作之后的图像,这样有效地保证了所生成图像的质量和效果。
本实施例提供的图像生成方法,通过获取参考图像,基于参考图像获取数据对象的线条图像;而后将线条图像作为约束条件进行图像生成操作,获取多个初步场景图像,并对参考图像与初步场景图像进行融合,从而可以稳定地获得多个目标场景图像,这样有效地实现了能够基于单张图像自动、批量地生成多个场景图像,使得场景图像的生成自动且高效,并且保证了多个场景图像的生成质量和效率,进一步提高了该方法的实用性,有利于市场的推广与应用。
图3为本申请实施例提供的对对象主体图进行边缘检测操作,获取数据对象的线条图像的流程示意图;在上述实施例的基础上,参考附图3所示,对于数据对象的线条图像而言,不仅可以通过对参考图像进行对象提取操作和边缘检测操作所获得,还可以通过将数据对象添加在空白图像中,而后对添加有数据对象的空白图像进行边缘检测获得,此时,对对象主体图进行边缘检测操作,获取数据对象的线条图像可以包括:
步骤S301:获取与对象主体图相对应的空白图像。
在获取到对象主体图之后,为了能够准确地获取到数据对象的线条图像,可以将数据对象添加在空白图像中,具体的,在获取到对象主体图之后,可以获取与对象主体图相对应的空白图像,在一些实例中,空白图像可以是基于对象主体图随机生成的图像;或者,空白图像可以为预先生成的存储在预设数据库中的图像,此时,通过访问预设数据库即可获取与对象主体图相对应的空白图像。需要注意的是,对于空白图像而言,空白图像与对象主体图可以具有相同的图像分辨率,且空白图像的图像尺寸可以大于或等于数据对象所对应的对象尺寸,以便能够稳定地将数据对象添加在空白图像中。
步骤S302:将对象主体图中的数据对象添加在空白图像中,获取对象摆放图。
在获取到对象主体图和空白图像之后,可以对对象主体图和空白图像进行分析处理,获得对象摆放图,该对象摆放图即为添加有对象主体图中的数据对象的空白图像。在一些实例中,对象摆放图可以通过预先训练好的机器学习模型或者神经网络模型对对象主体图和空白图像进行分析处理所获得,此时,将对象主体图中的数据对象添加在空白图像中,获取对象摆放图可以包括:获取预先训练好的机器学习模型或者神经网络模型;将对象主体图和空白图像输入至机器学习模型或者神经网络模型中,获得机器学习模型或者神经网络模型输出的对象摆放图。
在另一些实例中,不仅可以通过预先训练好的机器学习模型或者神经网络模型对对象主体图和空白图像进行分析处理获得对象摆放图,还能够先确定数据对象在空白图像中的位置信息进行对象添加操作,获得对象摆放图,此时,将对象主体图中的数据对象添加在空白图像中,获取对象摆放图可以包括:基于对象主体图和空白图像,确定用于将数据对象添加在空白图像中的位置信息;基于位置信息将数据对象添加在空白图像中,获取对象摆放图。
在获取到对象主体图和空白图像之后,可以对对象主体图和空白图像进行分析处理,从而可以确定用于将数据对象添加在空白图像的位置信息,该位置信息可以为中部区域位置、上部区域位置、下部区域位置、边缘区域位置等等,在一些实例中,用于将数据对象添加在空白图像中的位置信息可以通过预先训练好的机器学习模型或者神经网络模型对对象主体图和空白图像进行分析处理所获得。或者,在另一些实例中,用于将数据对象添加在空白图像中时、数据对象与空白图像的边缘之间的横向距离和纵向距离来确定,此时,基于对象主体图和空白图像,确定用于将数据对象添加在空白图像中的位置信息可以包括:基于对象主体图和空白图像,确定用于将数据对象添加在空白图像中时、数据对象与空白图像的边缘之间的横向距离和纵向距离;基于横向距离和纵向距离,确定位置信息。
具体的,在获取到对象主体图和空白图像之后,可以通过对象主体图来确定数据对象的尺寸特征,通过空白图像获得空白图像的边缘信息,而后基于数据对象的尺寸特征可以确定在将数据对象添加在空白图像中时、数据对象与空白图像的边缘之间的横向距离和纵向距离,需要注意的是,横向距离可以包括位于数据对象左侧的第一横向距离和位于数据对象右侧的第二横向距离,相类似的,纵向距离可以包括位于数据对象上侧的第一纵向距离和位于数据对象下侧的第二纵向距离,并且横向距离和纵向距离均为大于或等于0的数值。
需要注意的是,为了保证对象摆放图的视觉美观性以及基于对象摆放图进行分析处理的质量和效果,在将数据对象添加在空白图像中时,可以优先将数据对象摆放在空白图像的中部位置,此时,横向距离和纵向距离可以通过获取用于限定位置信息的横向边缘限值和纵向边缘限值来确定,具体的,基于对象主体图和空白图像,确定用于将数据对象添加在空白图像中时、数据对象与空白图像的边缘之间的横向距离和纵向距离可以包括:获取用于限定位置信息的横向边缘限值和纵向边缘限值;基于横向边缘限值、对象主体图和空白图像,确定用于将数据对象添加在空白图像中的横向距离;基于纵向边缘限值、对象主体图和空白图像,确定用于将数据对象添加在空白图像中的纵向位置。
具体的,横向边缘限值可以包括用于对横向距离进行分析处理的横向边缘下限值和横向边缘上限值,在获取到横向边缘限值之后,可以基于横向边缘限值、对象主体图和空白图像来确定将数据对象添加在空白图像中的横向距离,在将数据对象摆放在空白图像中的横向距离时,则能够满足数据对象与空白图像之间的边缘位于横向边缘下限值和横向边缘上限值所限定的区域范围内。相类似的,纵向边缘限值可以包括用于对纵向距离进行分析处理的纵向边缘下限值和纵向边缘上限值,在获取到纵向边缘限值之后,可以基于纵向边缘限值、对象主体图和空白图像来确定将数据对象添加在空白图像中的纵向距离,在将数据对象摆放在空白图像中的纵向距离时,则能够满足数据对象与空白图像之间的边缘位于纵向边缘下限值和纵向边缘上限值所限定的区域范围内。
举例来说,参考附图4所示,在将数据对象添加在空白图像时,数据对象与空白图像的左侧边缘之间的横向距离为B1,数据对象与空白图像的右侧边缘之间的横向距离为B2,横向边缘下限值可以为25%,横向边缘上限值可以为75%,而后对对象主体图和空白图像进行分析处理,在将数据对象添加在空白图像中时,需要使得上述的横向距离B1和横向距离B2满足以下关系,具体的,25%<B1/(B1+B2)<75%,基于上述关系即可准确地获取到用于将数据对象添加在空白图像中的横向距离,从而有效地保证了对横向距离进行确定的准确可靠性。
相类似的,在将数据对象添加在空白图像时,数据对象与空白图像的上侧边缘之间的纵向距离为D1,数据对象与空白图像的下侧边缘之间的纵向距离为D2,纵向边缘下限值可以为35%,纵向边缘上限值可以为65%,而后对对象主体图和空白图像进行分析处理,在将数据对象添加在空白图像中时,需要使得上述的纵向距离D1和纵向距离D2满足以下关系,具体的,35%<D1/(D1+D2)<65%,基于上述关系即可准确地获取到用于将数据对象添加在空白图像中的纵向距离,从而有效地保证了对纵向距离进行确定的准确可靠性。
由于用于将数据对象添加在空白图像中的位置信息与横向距离和纵向距离相关,因此,在获取到横向距离和纵向距离之后,可以基于横向距离和纵向距离来确定用于将数据对象添加在空白图像中的位置信息,这样可以将数据对象添加在空白图像中的位置信息处,从而可以稳定地获取到对象摆放图。
步骤S303:对对象摆放图进行边缘检测操作,获取数据对象的线条图像。
由于对象摆放图为添加有数据对象的空白图像,此时的对象摆放图中仅仅包括数据对象,几乎不包括其他的干扰信息,因此,在获取到对象摆放图之后,可以直接对对象摆放图进行边缘检测操作,具体的,边缘检测操作可以通过预先训练好的机器学习模型或者预设算法来实现,从而可以获取到数据对象的线条图像。
本实施例中,通过获取与对象主体图相对应的空白图像,而后将对象主体图中的数据对象添加在空白图像中,获取对象摆放图,对对象摆放图进行边缘检测操作,从而可以稳定地获取到数据对象的线条图像,而后便于基于线条图像进行稳定的图像生成操作,进一步保证图像生成方法的稳定运行。
图5为本申请实施例提供的另一种图像生成方法的流程示意图;在上述任意一个实施例的基础上,参考附图5所示,在获得多个目标场景图像之后,本实施例提供了一种基于需求灵活地对目标场景图像进行融合处理操作,此时,本实施例中的方法还可以包括:
步骤S501:获取与目标场景图像相对应的掩膜图像。
步骤S502:对目标场景图像和掩膜图像进行融合处理,获得融合掩膜图像。
步骤S503:将掩膜图像和融合掩膜图像作为约束条件进行图像生成操作,获得处理后图像。
如图6所示,对于目标场景图像而言,其不仅包括数据对象,还包括不同于数据对象的场景信息或者图像背景信息,为了能够提高并保证数据对象与场景信息之间的和谐程度,在获取到多个目标场景图像之后,可以获取与目标场景图像相对应的掩膜图像,掩膜图像可以为与目标场景图像具有相同尺寸、相同分辨率的黑白图,在获取到掩膜图像和目标场景图像之后,可以对目标场景图像和掩膜图像进行融合处理,从而可以获得融合掩膜图像。
在获取到掩膜图像和融合掩膜图像之后,可以将掩膜图像和融合掩膜图像作为约束条件进行图像生成操作,从而可以获得处理后图像,处理后图像相对于目标场景图像而言,处理后图像中的场景信息与数据对象之间更加和谐,从而提高了所生成图像的质量和效果。
另外,处理后图像可以通过预先训练好的机器学习模型或者神经网络模型对目标场景图像进行分析处理所获得,此时,将掩膜图像和融合掩膜图像作为约束条件进行图像生成操作,获得处理后图像可以包括:获取预先训练好的第二图像生成模型,其中,第二图像生成模型可以为预先训练好的ControlNet模型,需要注意的是,本实施例中的第二图像生成模型与上述实施例中的第一图像生成模型的控制条件不同,而后可以将掩膜图像和融合掩膜图像作为约束条件输入至第二图像生成模型进行图像生成操作,获得处理后图像。
在获取到第二图像生成模型之后,可以将掩膜图像、融合掩膜图像输入至第二图像生成模型中,以实现将掩膜图像和融合掩膜图像作为图像生成操作的约束条件,利用第二图像生成模型进行图像生成操作,从而可以稳定地获取到多个处理后图像,这样有效地保证了对处理后图像进行确定的准确可靠性。
本实施例中,通过获取与目标场景图像相对应的掩膜图像,对目标场景图像和掩膜图像进行融合处理,获得融合掩膜图像,而后将掩膜图像和融合掩膜图像作为约束条件进行图像生成操作,从而可以稳定地获取到处理后图像,进一步保证了所生成的处理后图像中的数据对象与场景信息之间的和谐程度。
具体应用时,参考附图7所示,以商品对象作为数据对象为例,本应用实施例提供了一种基于单张商品图像的商品内容图的生成方法,该方法能够实现在仅提供单张商品图像(白底图或者场景图)即可自动、批量地生成包括有商品对象的多个场景图像,多个场景图像可以用作商品主图和内容素材对商品对象进行推广操作,具体的,该方法可以包括以下步骤:
步骤1:获取商品对象的对象标识,该对象标识可以为item id。
其中,对于商品对象而言,对象标识可以作为电商平台上商品的唯一标识,该对象标识可以为预先获取到的标识、或者通过访问电商平台所获得,例如:对象标识item id可以为712246593141。
步骤2:基于对象标识,确定用于实现图像生成操作的商品图像。
具体的,在获取到对象标识之后,可以通过信息查询模块在电商平台或者预设数据库中,基于对象标识获取到商品对象的基础信息。其中,信息查询模块可以为被封装为一个信息查询函数“query_model_info”,该信息查询函数能够以字符串类型str的item Id作为输入,并返回得到商品对象的基本信息,该基础信息可以包括商品对象的一个或多个商品图像,在基础信息中包括商品对象的一个商品图像时,可以将上述的商品图像确定为用于实现图像生成操作的商品图像;在基础信息中包括商品对象的多个商品图像时,可以在多个商品图像中确定用于实现图像生成操作的商品图像,此时,商品图像可以为多个商品图像中的任意一个,或者,商品图像可以为多个商品图像中的主视图或者整体图等等。需要注意的是,基础信息不仅可以包括商品对象的多个商品图像,还可以包括商品对象所对应的商家信息、推广文本、交易价格、历史交易信息、历史评价信息等等。
步骤3:对商品图像进行商品抠图操作,获得商品主体图。
其中,商品抠图操作可以通过预先训练好的对象提取模型来实现,上述的对象提取模型可以为U2Net网络模型,上述的U2Net网络模型是针对显著性目标检测(SalientObject Detetion,简称SOD)任务提出的,而显著性目标检测任务能够将图片中吸引人的目标或区域分割出来,这样可以有效地识别出商品图像中的前景信息和背景信息,对于商品图像而言,通过商品抠图操作即可识别出商品图像中包括的商品主体和背景信息,而后基于商品主体获得相对应的商品主体图。需要注意的是,所获得的商品主体图可以是经过商品抠图操作得到的一张含有透明通道(alpha通道)的图像。
步骤4:基于商品主体图像,将商品对象添加在空白图像中,获得对象摆放图。
为了能够准确地生成内容素材图像,在获取到商品主体图像之后,可以获取与商品主体图像相对应的空白图像,空白图像的图像尺寸大于商品对象的尺寸,进而可以稳定地将商品对象添加在空白图像中,获得对象摆放图。在一些实例中,参考附图8所示,在将商品对象添加在空白图像中时,需要将商品主体摆放到空白图像的合适位置,具体的,可以使得商品对象的边缘与空白图像的边缘之间满足以下关系:25%<B1/(B1+B2)<75%,35%<D1/(D1+D2)<65%,其中,B1是指商品对象的左侧边缘与空白图像的边缘之间的距离,B2是指商品对象的右侧边缘与空白图像的边缘之间的距离,D1是指商品对象的上侧边缘与空白图像的边缘之间的距离,D2是指商品对象的下侧边缘与空白图像的边缘之间的距离,这样可以保证对象摆放图的美观性。
步骤5:基于对象摆放图像获取商品对象的线条图像,将线条图像作为约束条件进行图像生成操作,获得多个初步场景图像,其中,初步场景图像中包括商品对象的形状信息和尺寸信息,且任意两个初步场景图像不同。
其中,初步场景图像可以通过预先训练好的ControlNet模型所获得,上述的Controlnet模型是一个端到端的神经网络架构,能够通过额外的输入条件来控制预训练的大型图像扩散模型,例如:Stablediffusion,以能够通过训练后的大型图像扩散模型来实现特定任务。具体的,ControlNet模型可以包括可训练网络部分和锁定网络部分,可训练网络部分即为可以根据特定任务进行学习训练操作的网络部分,而锁定网络部分,则保留stable-diffusion模型的原始数据,其中,Stablediffusion:是一种基于潜在扩散模型(Latent Diffusion Models,简称LDMs)的文图生成模型。由于ControlNet模型可以包括可训练网络部分和锁定网络部分,这样在基于ControlNet模型进行图像生成操作时,可以保证能充分学习到前置约束的前提下,同时保留原始扩散模型自身的学习能力。
具体的,在基于ControlNet模型进行图像生成操作时,通过所添加一些参数作为图像生成操作的约束条件来控制扩散模型(如Stable Diffusion)进行图像生成操作,从而可以更好地控制生成图像的细节信息,这样在获取到对象摆放图之后,可以将对象摆放图输入至ControlNet模型进行处理,具体可以先对对象摆放图进行边缘检测操作,边缘检测操作可以包括对对象摆放图进行Canny边缘检测、深度检测、语义分割、霍夫变换直线检测、Hed边缘检测、人体姿态识别等操作,获得商品对象的线条图像。
其中,Canny边缘检测可以通过预设的canny算子来实现,具体的,canny算子是一种经典的边缘检测算法,其能够通过寻找图像中亮度变化比较大的位置来确定边缘的位置;此时的边缘检测操作可以包括图像去噪、梯度计算、非极大值抑制和双阈值边界跟踪操作,上述的图像去噪是进行边缘检测的第一步,图像去噪操作能够去除图像中的一些噪点,从而使得边缘检测时免受噪点的干扰,通常使用高斯滤波算法进行对象摆放图像进行去噪,高斯滤波即使用某一尺寸的二维高斯核与图像进行卷积。由于数字图像的数据形式为离散矩阵,因此,高斯滤波操作可以通过所蝴蝶的高斯核与对象摆放图所对应的离散矩阵进行离散卷积处理操作,其中,高斯核是对连续高斯函数的离散近似,其可以通过对高斯曲面进行离散采样和归一化得出。
在进行图像去噪操作之后,为了能够实现边缘检测,则需要获取图像梯度信息,以便可以根据图像的梯度幅值和梯度方向来确定边缘,具体可以采用索贝尔sobel算子对图像进行梯度幅值与梯度方向计算,以获得图像梯度信息。其中,sobel算子分为垂直方向和水平方向,具体形式为:
上式中:Gx和Gy分别为图像I在水平和垂直方向的像素梯度矩阵,I为经过图像去噪处理后的图像特征,Sx和Sy分别为sobel算子在水平方向和垂直方向上的核,Gxy为图像梯度信息。
在获取到图像梯度信息之后,可以基于图像梯度信息进行非极大值抑制操作,其中,非极大值抑制是为了消除边缘检测带来的杂散效应,以减少边缘像素点的数量,具体的,可以将当前像素点的图像梯度强度与沿正负梯度方向上的相邻像素的梯度强度进行比较,以判断当前像素点的图像梯度强度是否为最大值,若其是最大值(即为极值),则确定像素点为边缘点,并保留上述的像素点;若不是最大值,则确定像素点不是边缘点,并可以对其进行非极大值抑制操作。
在通过非极大值抑制操作之后,可以通过预选定义的双阈值进行边界跟踪操作,其中,双阈值即为预先定义的一个高阈值(例如:可以为150、200、250等等)和一个低阈值(例如:可以为20、25、30等等),获取各个像素点的alpha通道值,将alpha通道值与预先定义的高阈值和低阈值进行分析比较,在alpha通道值大于高阈值时,则将alpha通道值所对应的像素点确定为边缘像素点,在alpha通道值小于低阈值时,则将alpha通道值所对应的像素点确定为非边缘像素点,在alpha通道值介于高阈值和低阈值之间时,则将alpha通道值所对应的像素点确定为弱边缘像素点,留待进一步处理。
由于真实的边缘像素点是连续的,而噪声引起的边缘像素点是不连续的,因此,对于弱边缘像素点而言,可以通过判断弱边缘像素的邻域(二环邻域、三环邻域或者K环邻域等等)内是否存在边缘像素点来处理弱边缘像素点,若存在,则该弱边缘像素点可作为边缘像素点,反之则作为非边缘像素点。
步骤6:对商品主体图像(或者对象摆放图)与初步场景图像进行融合,获得多个目标场景图像,每个目标场景图像中均包括商品对象,且任意两个目标场景图像不同。
其中,为了保证所生成的场景图像中的商品主体内容及细节信息不变,在获取到初步场景图像之后,还需要进一步将所生成的初步场景图像与包括商品主体内容的商品图像进行图像融合操作,从而可以获得多个目标场景图像。
具体的,对商品图像与初步场景图像进行融合操作可以包括如下步骤:将商品主体图像(或者对象摆放图)和初步场景图像分别缩放到相同尺寸(例如:800*800),此时,初步场景图像中的商品对象与商品图像中的商品对象的尺寸相同,而后遍历初步场景图像中各个像素点(x,y),获取初步场景图像中各个像素点的alpha通道值A(x,y),确定用于对alpha通道值进行分析处理的通道阈值,例如,通道阈值A`可以为200,而后建立一个的初步场景图像具有相同尺寸的空白图像image3,在获取到alpha通道值A(x,y)和通道阈值A`之后,可以将通道阈值A`与alpha通道值A(x,y)进行分析比较,在alpha通道值A(x,y)>通道阈值A`时,则将初步场景图像中的像素点确定为融合像素点,即将初步场景图像中的像素点的alpha通道值确定为空白图像image3中的像素点的alpha通道值image3(x,y)。在alpha通道值A(x,y)<通道阈值A`时,则可以对商品主体图像(或者对象摆放图)中像素点的alpha通道值和初步场景图像中像素点的alpha通道值进行融合处理,而后可以将融合后的alpha通道值确定为空白图像image3中的像素点的alpha通道值image3(x,y),在一些实例中,image3(x,y)=(A*image1(x,y)+(255-A)*image2(x,y))/255,通过统计所有融合像素点的alpha通道值即可获取到多个目标场景图像。
步骤7:获取与目标场景图像相对应的掩膜图像;对目标场景图像和掩膜图像进行融合处理,获得融合掩膜图像;将掩膜图像和融合掩膜图像作为约束条件进行图像生成操作,获得与商品图像相对应的处理后图像。
其中,在获取到目标场景图像之后,可以对目标场景图像中各个像素点的像素值进行调整,从而可以获得与目标场景图像相对应的掩膜图像(即mask图像),而后可以将目标场景图像与掩膜图像进行融合处理,获得融合掩膜图像,而后可以以掩膜图像和融合掩膜图像作为约束条件进行图像生成操作,具体的,对目标场景图像进行处理的操作可以通过预先训练好的controlnet_inpaint模型来实现,其中,inpaint是一种图像处理技术,用于填补图像中的缺失或损坏部分,而上述的controlnet_inpaint模型能够实现如下两个功能:仅对目标场景图像中的掩膜(mask)区域进行修改,不改变mask区域之外的内容;使得生成的结果和其他区域尽可能和谐。
具体的,controlnet_inpaint模型可以通过使用一张掩膜图像以及一张融合掩膜图像来控制图像生成操作,这样可以实现在不影响图像非mask区域的情况下,对自己所选的区域(即mask区域)进行修改,进一步保证了处理后图像的生成质量和效果。
步骤8:对处理后图像进行图像超分和图像重绘处理,获得与商品图像相对应的多个内容素材,内容素材即为包含商品对象的内容图像。
其中,在获取到处理后图像之后,处理后图像的图像分辨率可能不够高,因此,为了进一步提高场景图的清晰程度和保持图像中内容的形状准确性,故使用图像超分和图像重绘相关技术处理后图像进行处理,以得到与参考图像相对应的多个内容素材。
在一些实例中,图像超分操作可以通过LDSR算法来实现,LDSR算法是一种用于图像超分辨率的深度学习算法,其全称为"Deep Laplacian Pyramid Super-Resolution"。LDSR算法通过学习图像的低分辨率和高分辨率之间的关系来实现图像的超分辨率。LDSR算法采用了一种名为"深度拉普拉斯金字塔"的方法,该方法可以将原始图像分解为多个图像金字塔,以便更好地捕捉商品图像的细节和结构。
在进行图像生成操作时,不仅可以通过以商品图像、掩膜图像或者掩膜融合图像作为图像生成操作的控制条件,还可以结合文本信息进行图像重绘操作,具体的,通过预设的文本信息作为图像生成操作的参考信息对处理后图像进行图像重绘操作,这样可以进一步准确地引导图像生成操作,获得与参考图像相对应的多个内容素材,进一步保证了多个内容素材的生成质量和效果,能够满足用户的不同需求。
本应用实施例提供的技术方案,通过商品对象的item id获得商品图像,而后对商品图像进行抠图操作,获得商品主体图像,并将商品主体摆放到空白图像的合适位置;接着使用controlnet-canny模型获取含商品对象的图像的线条图像,并将其作为stablediffusion模型进行图像生成操作的控制条件,从而可以获得与商品图像相对应的多个初步场景图像;为了能够实现商品精准植入,几乎不会发生形变,在获取到初步场景图像之后,可以将stable diffusion生成的初步场景图像与商品主体图像进行图像融合操作,这样可以获得第一阶段的含商品的场景图;进一步通过controlnet-inpaint模型对第一阶段的场景图中的非商品区域进行修复,同时该过程能够增加场景图的丰富度,至此得到了第二阶段的含商品的场景图;在一些场景中,第二阶段的场景图分辨率通常不够高,为了进一步提高场景图的清晰程度和保持图像中内容的形状准确性,故可以使用图像超分和图像重绘相关技术对第二阶段的场景图进行处理,以得到第三阶段的含商品的内容场景图像,这样有效地实现了通过输入一张商品图,采用controlnet和inpaint相关技术,并结合用户自主选择的商品类目和空间,便可以实现批量、自动化的生产商品内容素材,相较于其它图像生成方案而言更加自动化且高效;另外,在进行图像生成操作时,通过检测新输入图像的边缘来产生控制条件,这样对图像主体或者内容主体不敏感,对于新类型或者新场景的图像并不需要微调,可以直接使用,进而提高了该技术方案的普适性;进一步提高了该方案的实用性,有利于市场的推广与应用。
图9为本申请实施例提供的一种商品图像的生成方法的流程示意图;参考附图9所示,本实施例提供了一种商品图像的生成方法,该方法的执行主体可以为商品图像的生成装置,在一些实例中,商品图像的生成装置可以实现为软件、或者软件和硬件的组合,在商品图像的生成装置实现为硬件时,其具体可以是具有商品图像的生成操作的各种电子设备,包括但不限于平板电脑、个人电脑PC、服务器、云服务器等等。当商品图像的生成装置实现为软件时,其可以安装在上述所例举的电子设备中。具体的,基于上述的商品图像的生成装置,本实施例中的商品图像的生成方法可以包括以下步骤:
步骤S901:获取商品图像中商品对象的线条图像。
步骤S902:将线条图像作为约束条件进行图像生成操作,获取多个初步场景图像,初步场景图像中包括商品对象的形状信息和尺寸信息,且任意两个初步场景图像不同。
步骤S903:对商品图像与初步场景图像进行融合,获得多个目标场景图像,每个目标场景图像中均包括商品对象,且任意两个目标场景图像不同。
需要注意的是,本实施例中不仅可以执行上述实施例中的方法步骤,还能够执行上述图1-图8中实施例相对应的方法步骤,具体可参考上述实施例中的陈述内容,在此不再赘述。
本实施例提供的商品图像的生成方法,通过获取商品图像,基于商品图像获取商品对象的线条图像,将线条图像作为约束条件进行图像生成操作,获取多个初步场景图像,并对参考图像与初步场景图像进行融合,从而可以稳定地获得多个目标场景图像,这样有效地实现了能够基于单张图像自动、批量地生成多个场景图像,使得场景图像的生成自动且高效,并且保证了多个场景图像的生成质量和效率,进一步提高了该方法的实用性,有利于市场的推广与应用。
图10为本申请实施例提供的一种图像生成装置的结构示意图;参考附图10所示,本实施例提供了一种图像生成装置,该图像生成装置用于执行上述图2所示的图像生成方法,具体的,该图像生成装置可以包括:
第一获取模块11,用于获取参考图像中数据对象的线条图像;
第一处理模块12,用于将线条图像作为约束条件进行图像生成操作,获取多个初步场景图像,每个初步场景图像中均包括数据对象的形状信息和尺寸信息,且任意两个初步场景图像不同;
第一处理模块12,还用于对参考图像与初步场景图像进行融合,获得多个目标场景图像,每个目标场景图像中均包括数据对象,且任意两个目标场景图像不同。
在一些实例中,在第一获取模块11获取参考图像中数据对象的线条图像时,该第一获取模块11用于执行:获取参考图像中数据对象的对象主体图;对对象主体图进行边缘检测操作,获取数据对象的线条图像。
在一些实例中,在第一获取模块11对对象主体图进行边缘检测操作,获取数据对象的线条图像时,该第一获取模块11用于执行:获取与对象主体图相对应的空白图像;将对象主体图中的数据对象添加在空白图像中,获取对象摆放图;对对象摆放图进行边缘检测操作,获取数据对象的线条图像。
在一些实例中,在第一获取模块11将对象主体图中的数据对象添加在空白图像中,获取对象摆放图时,该第一获取模块11用于执行:基于对象主体图和空白图像,确定用于将数据对象添加在空白图像中的位置信息;基于位置信息将数据对象添加在空白图像中,获取对象摆放图。
在一些实例中,在第一获取模块11基于对象主体图和空白图像,确定用于将数据对象添加在空白图像中的位置信息时,该第一获取模块11用于执行:基于对象主体图和空白图像,确定用于将数据对象添加在空白图像中时、数据对象与空白图像的边缘之间的横向距离和纵向距离;基于横向距离和纵向距离,确定位置信息。
在一些实例中,在第一获取模块11基于对象主体图和空白图像,确定用于将数据对象添加在空白图像中时、数据对象与空白图像的边缘之间的横向距离和纵向距离时,该第一获取模块11用于执行:获取用于限定位置信息的横向边缘限值和纵向边缘限值;基于横向边缘限值、对象主体图和空白图像,确定用于将数据对象添加在空白图像中的横向距离;基于纵向边缘限值、对象主体图和空白图像,确定用于将数据对象添加在空白图像中的纵向位置。
在一些实例中,在第一处理模块12将线条图像作为约束条件进行图像生成操作,获取多个初步场景图像时,该第一处理模块12用于执行:获取预先训练好的第一图像生成模型;将线条图像作为图像生成操作的约束条件输入第一图像生成模型进行图像生成操作,获取多个初步场景图像。
在一些实例中,在第一处理模块12对参考图像与初步场景图像进行融合,获得与参考图像相对应的多个目标场景图像时,该第一处理模块12用于执行:获取初步场景图像中各个像素点的透明度;在透明度大于或等于预设阈值时,则将初步场景图像中的像素点确定为融合像素点;在透明度小于预设阈值时,则对初步场景图像中的像素点与参考图像中的对应像素点进行融合,获得融合像素点;基于所有的融合像素点,获得多个初步场景图像各自对应的多个目标场景图像。
在一些实例中,在获得与参考图像相对应的多个目标场景图像之后,本实施例中的第一获取模块11和第一处理模块12用于执行以下步骤:
第一获取模块11,用于获取与目标场景图像相对应的掩膜图像;
第一处理模块12,用于对目标场景图像和掩膜图像进行融合处理,获得融合掩膜图像;将掩膜图像和融合掩膜图像作为约束条件进行图像生成操作,获得与参考图像相对应的处理后图像。
在一些实例中,在第一处理模块12将掩膜图像和融合掩膜图像作为约束条件进行图像生成操作,获得与参考图像相对应的处理后图像时,该第一处理模块12用于执行以下步骤:获取预先训练好的第二图像生成模型;将掩膜图像和融合掩膜图像作为约束条件输入至第二图像生成模型进行图像生成操作,获得处理后图像。
图10所示装置可以执行图1-图8所示实施例的方法,本实施例未详细描述的部分,可参考对图1-图8所示实施例的相关说明。该技术方案的执行过程和技术效果参见图1-图7所示实施例中的描述,在此不再赘述。
在一个可能的设计中,图8所示图像生成装置的结构可实现为一电子设备,该电子设备可以是终端、平板电脑、个人电脑、服务器等各种设备。如图11所示,该电子设备可以包括:第一处理器21和第一存储器22。其中,第一存储器22用于存储相对应电子设备执行上述图1-图8所示实施例中提供的图像生成方法的程序,第一处理器21被配置为用于执行第一存储器22中存储的程序。
程序包括一条或多条计算机指令,其中,一条或多条计算机指令被第一处理器21执行时能够实现如下步骤:获取参考图像中数据对象的线条图像;将线条图像作为约束条件进行图像生成操作,获取多个初步场景图像,每个初步场景图像中均包括数据对象的形状信息和尺寸信息,且任意两个初步场景图像不同;对参考图像与初步场景图像进行融合,获得多个目标场景图像,每个目标场景图像中均包括数据对象,且任意两个目标场景图像不同。
进一步的,第一处理器21还用于执行前述图1-图8所示实施例中的全部或部分步骤。
其中,电子设备的结构中还可以包括第一通信接口23,用于电子设备与其他设备或通信网络通信。
另外,本发明实施例提供了一种计算机存储介质,用于储存电子设备所用的计算机软件指令,其包含用于执行上述图1-图8所示方法实施例中图像生成方法所涉及的程序。
此外,本实施例通过了一种计算机程序产品,该计算机程序产品包括:计算机程序,当计算机程序被电子设备的处理器执行时,使处理器执行上述图1-图8所示方法实施例中图像生成方法。
图12为本申请实施例提供的一种商品图像的生成装置的结构示意图;参考附图12所示,本实施例提供了一种商品图像的生成装置,该商品图像的生成装置用于执行上述图9所示的商品图像的生成方法,具体的,该商品图像的生成装置可以包括:
第二获取模块31,用于获取商品图像中商品对象的线条图像;
第二处理模块32,用于将线条图像作为约束条件进行图像生成操作,获取多个初步场景图像,初步场景图像中包括商品对象的形状信息和尺寸信息,且任意两个初步场景图像不同;
第二处理模块32,用于对商品图像与初步场景图像进行融合,获得多个目标场景图像,每个目标场景图像中均包括商品对象,且任意两个目标场景图像不同。
图12所示装置可以执行图9所示实施例的方法,本实施例未详细描述的部分,可参考对图9所示实施例的相关说明。该技术方案的执行过程和技术效果参见图9所示实施例中的描述,在此不再赘述。
在一个可能的设计中,图12所示商品图像的生成装置的结构可实现为一电子设备,该电子设备可以实现为终端、个人电脑、服务器等的各种设备。如图13所示,该电子设备可以包括:第二处理器41和第二存储器42。其中,第二存储器42用于存储相对应电子设备执行上述图9所示实施例中提供的商品图像的生成方法的程序,第二处理器41被配置为用于执行第二存储器42中存储的程序。
程序包括一条或多条计算机指令,其中,一条或多条计算机指令被第二处理器41执行时能够实现如下步骤:获取商品图像中商品对象的线条图像;将线条图像作为约束条件进行图像生成操作,获取多个初步场景图像,初步场景图像中包括商品对象的形状信息,且任意两个初步场景图像不同;对商品图像与初步场景图像进行融合,获得多个目标场景图像,每个目标场景图像中均包括商品对象,且任意两个目标场景图像不同。
进一步的,第二处理器41还用于执行前述图9所示实施例中的全部或部分步骤。
其中,电子设备的结构中还可以包括第二通信接口43,用于电子设备与其他设备或通信网络通信。
本发明实施例提供了一种计算机存储介质,用于储存电子设备所用的计算机软件指令,其包含用于执行上述图9所示方法实施例中商品图像的生成方法所涉及的程序。
此外,本实施例通过了一种计算机程序产品,该计算机程序产品包括:计算机程序,当计算机程序被电子设备的处理器执行时,使处理器执行上述图9所示方法实施例中商品图像的生成方法。
图14为本申请实施例提供的另一种图像生成方法的流程示意图;参考附图14所示,本实施例提供了另一种图像生成方法,该方法的执行主体可以为图像生成装置,在一些实例中,图像生成装置可以实现为软件、或者软件和硬件的组合,在图像生成装置实现为硬件时,其具体可以是具有图像生成操作的各种电子设备,包括但不限于平板电脑、个人电脑PC、服务器、云服务器等等。当图像生成装置实现为软件时,其可以安装在上述所例举的电子设备中。具体的,基于上述的图像生成装置,本实施例中的图像生成方法可以包括以下步骤:
步骤S1401:获取图像生成请求。
当用户存在图像生成需求时,可以使得图像生成装置获取到图像生成请求,具体的,获取图像生成请求可以包括:显示人机交互界面;获取用户在人机交互界面中输入的执行操作;基于执行操作生成图像生成请求。其中,用户在人机交互界面中输入的执行操作可以包括以下至少之一:用户在人机交互界面中输入的图像id信息、用户在人机交互界面中输入的网络链接地址、用户在人机交互界面中直接上传的待处理图像等等。
步骤S1402:基于所述图像生成请求,确定参考图像中数据对象的线条图像。
在获取到图像生成请求之后,为了能够实现图像生成操作,则可以基于图像生成请求来确定参考图像中数据对象的线条图像,具体的,基于图像生成请求来确定线条图像的具体实现方式和实现原理与上述实施例中步骤S201的具体实现方式和实现原理相类似,具体可参考上述陈述内容,在此不再赘述。
步骤S1403:将所述线条图像作为约束条件进行图像生成操作,获取多个初步场景图像,每个初步场景图像中均包括所述数据对象的形状信息和尺寸信息,且任意两个初步场景图像不同。
步骤S1404:对所述参考图像与所述初步场景图像进行融合,获得多个目标场景图像,每个目标场景图像中均包括所述数据对象,且任意两个目标场景图像不同。
需要注意的是,本实施例中不仅可以执行上述实施例中的方法步骤,还能够执行上述图1-图8中实施例相对应的方法步骤,具体可参考上述实施例中的陈述内容,在此不再赘述。
图15为本申请实施例提供的一种图像生成装置的结构示意图;参考附图15所示,本实施例提供了一种图像生成装置,该图像生成装置用于执行上述图14所示的图像生成方法,具体的,该图像生成装置可以包括:
第三获取模块51,用于获取图像生成请求;
第三确定模块52,用于基于所述图像生成请求,确定参考图像中数据对象的线条图像;
第三处理模块53,用于将所述线条图像作为约束条件进行图像生成操作,获取多个初步场景图像,每个初步场景图像中均包括所述数据对象的形状信息和尺寸信息,且任意两个初步场景图像不同;
所述第三处理模块53,还用于对所述参考图像与所述初步场景图像进行融合,获得多个目标场景图像,每个目标场景图像中均包括所述数据对象,且任意两个目标场景图像不同。
图15所示装置可以执行图14所示实施例的方法,本实施例未详细描述的部分,可参考对图14所示实施例的相关说明。该技术方案的执行过程和技术效果参见图14所示实施例中的描述,在此不再赘述。
在一个可能的设计中,图15所示图像生成装置的结构可实现为一电子设备,该电子设备可以实现为终端、个人电脑、服务器等的各种设备。如图16所示,该电子设备可以包括:第三处理器61和第三存储器62。其中,第三存储器62用于存储相对应电子设备执行上述图14所示实施例中提供的图像生成方法的程序,第三处理器61被配置为用于执行第三存储器62中存储的程序。
程序包括一条或多条计算机指令,其中,一条或多条计算机指令被第三处理器61执行时能够实现如下步骤:获取图像生成请求;基于所述图像生成请求,确定参考图像中数据对象的线条图像;将所述线条图像作为约束条件进行图像生成操作,获取多个初步场景图像,每个初步场景图像中均包括所述数据对象的形状信息和尺寸信息,且任意两个初步场景图像不同;对所述参考图像与所述初步场景图像进行融合,获得多个目标场景图像,每个目标场景图像中均包括所述数据对象,且任意两个目标场景图像不同。
进一步的,第三处理器61还用于执行前述图14所示实施例中的全部或部分步骤。
其中,电子设备的结构中还可以包括第三通信接口63,用于电子设备与其他设备或通信网络通信。
本发明实施例提供了一种计算机存储介质,用于储存电子设备所用的计算机软件指令,其包含用于执行上述图14所示方法实施例中图像生成方法所涉及的程序。
此外,本实施例通过了一种计算机程序产品,该计算机程序产品包括:计算机程序,当计算机程序被电子设备的处理器执行时,使处理器执行上述图14所示方法实施例中图像生成方法。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现,当然也可以通过硬件和软件结合的方式来实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程设备的处理器以产生一个机器,使得通过计算机或其他可编程设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims (14)

1.一种图像生成方法,其特征在于,包括:
获取参考图像中数据对象的线条图像;
将所述线条图像作为约束条件进行图像生成操作,获取多个初步场景图像,每个初步场景图像中均包括所述数据对象的形状信息和尺寸信息,且任意两个初步场景图像不同;
对所述参考图像与所述初步场景图像进行融合,获得多个目标场景图像,每个目标场景图像中均包括所述数据对象,且任意两个目标场景图像不同。
2.根据权利要求1所述的方法,其特征在于,获取参考图像中数据对象的线条图像,包括:
获取所述参考图像中所述数据对象的对象主体图;
对所述对象主体图进行边缘检测操作,获取所述数据对象的线条图像。
3.根据权利要求2所述的方法,其特征在于,对所述对象主体图进行边缘检测操作,获取所述数据对象的线条图像,包括:
获取与所述对象主体图相对应的空白图像;
将所述对象主体图中的数据对象添加在所述空白图像中,获取对象摆放图;
对所述对象摆放图进行边缘检测操作,获取所述数据对象的线条图像。
4.根据权利要求3所述的方法,其特征在于,将所述对象主体图中的数据对象添加在所述空白图像中,获取对象摆放图,包括:
基于所述对象主体图和所述空白图像,确定用于将所述数据对象添加在所述空白图像中的位置信息;
基于所述位置信息将所述数据对象添加在所述空白图像中,获取所述对象摆放图。
5.根据权利要求4所述的方法,其特征在于,基于所述对象主体图和所述空白图像,确定用于将所述数据对象添加在所述空白图像中的位置信息,包括:
基于所述对象主体图和所述空白图像,确定用于将所述数据对象添加在所述空白图像中时、所述数据对象与所述空白图像的边缘之间的横向距离和纵向距离;
基于所述横向距离和所述纵向距离,确定所述位置信息。
6.根据权利要求5所述的方法,其特征在于,基于所述对象主体图和所述空白图像,确定用于将所述数据对象添加在所述空白图像中时、所述数据对象与所述空白图像的边缘之间的横向距离和纵向距离,包括:
获取用于限定位置信息的横向边缘限值和纵向边缘限值;
基于所述横向边缘限值、所述对象主体图和所述空白图像,确定用于将所述数据对象添加在所述空白图像中的横向距离;
基于所述纵向边缘限值、所述对象主体图和所述空白图像,确定用于将所述数据对象添加在所述空白图像中的纵向位置。
7.根据权利要求1-6中任意一项所述的方法,其特征在于,将所述线条图像作为约束条件进行图像生成操作,获取多个初步场景图像,包括:
获取预先训练好的第一图像生成模型;
将所述线条图像作为图像生成操作的约束条件输入至所述第一图像生成模型进行图像生成操作,获取多个初步场景图像。
8.根据权利要求1-6中任意一项所述的方法,其特征在于,对所述参考图像与所述初步场景图像进行融合,获得多个目标场景图像,包括:
获取所述初步场景图像中各个像素点的透明度;
在所述透明度大于或等于预设阈值时,则将所述初步场景图像中的像素点确定为融合像素点;
在所述透明度小于预设阈值时,则对所述初步场景图像中的像素点与所述参考图像中的对应像素点进行融合,获得融合像素点;
基于所有的融合像素点,获得多个初步场景图像各自对应的多个目标场景图像。
9.根据权利要求1-6中任意一项所述的方法,其特征在于,在获得多个目标场景图像之后,所述方法还包括:
获取与所述目标场景图像相对应的掩膜图像;
对所述目标场景图像和所述掩膜图像进行融合处理,获得融合掩膜图像;
将所述掩膜图像和所述融合掩膜图像作为约束条件进行图像生成操作,获得处理后图像。
10.根据权利要求9所述的方法,其特征在于,将所述掩膜图像和所述融合掩膜图像作为约束条件进行图像生成操作,获得处理后图像,包括:
获取预先训练好的第二图像生成模型;
将所述掩膜图像和所述融合掩膜图像作为约束条件输入至所述第二图像生成模型进行图像生成操作,获得处理后图像。
11.一种商品图像的生成方法,其特征在于,包括:
获取商品图像中商品对象的线条图像;
将所述线条图像作为约束条件进行图像生成操作,获取多个初步场景图像,每个初步场景图像中均包括所述商品对象的形状信息和尺寸信息,且任意两个初步场景图像不同;
对所述商品图像与所述初步场景图像进行融合,获得多个目标场景图像,每个目标场景图像中均包括所述商品对象,且任意两个目标场景图像不同。
12.一种图像生成方法,其特征在于,包括:
获取图像生成请求;
基于所述图像生成请求,确定参考图像中数据对象的线条图像;
将所述线条图像作为约束条件进行图像生成操作,获取多个初步场景图像,每个初步场景图像中均包括所述数据对象的形状信息和尺寸信息,且任意两个初步场景图像不同;
对所述参考图像与所述初步场景图像进行融合,获得多个目标场景图像,每个目标场景图像中均包括所述数据对象,且任意两个目标场景图像不同。
13.一种电子设备,其特征在于,包括:存储器、处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现如权利要求1-12中任一项所述的方法。
14.一种计算机存储介质,其特征在于,用于储存计算机程序,所述计算机程序使计算机执行时实现如权利要求1-12中任一项所述的方法。
CN202311169171.2A 2023-09-11 2023-09-11 图像生成方法、设备及计算机存储介质 Pending CN117408899A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311169171.2A CN117408899A (zh) 2023-09-11 2023-09-11 图像生成方法、设备及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311169171.2A CN117408899A (zh) 2023-09-11 2023-09-11 图像生成方法、设备及计算机存储介质

Publications (1)

Publication Number Publication Date
CN117408899A true CN117408899A (zh) 2024-01-16

Family

ID=89497005

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311169171.2A Pending CN117408899A (zh) 2023-09-11 2023-09-11 图像生成方法、设备及计算机存储介质

Country Status (1)

Country Link
CN (1) CN117408899A (zh)

Similar Documents

Publication Publication Date Title
CN110163198B (zh) 一种表格识别重建方法、装置和存储介质
US10943145B2 (en) Image processing methods and apparatus, and electronic devices
CN111328396B (zh) 用于图像中的对象的姿态估计和模型检索
Ancuti et al. Single-scale fusion: An effective approach to merging images
Fu et al. Using convolutional neural network to identify irregular segmentation objects from very high-resolution remote sensing imagery
US10922860B2 (en) Line drawing generation
US20110216975A1 (en) Up-Sampling Binary Images for Segmentation
US20150016668A1 (en) Settlement mapping systems
CN111008935B (zh) 一种人脸图像增强方法、装置、系统及存储介质
US11531837B2 (en) Query image synthesis for image retrieval systems based on data augmentation techniques
CN112101386B (zh) 文本检测方法、装置、计算机设备和存储介质
US20190206117A1 (en) Image processing method, intelligent terminal, and storage device
CN108377374A (zh) 用于产生与图像相关的深度信息的方法和系统
Joshi OpenCV with Python by example
CN116934907A (zh) 图像生成方法、设备和存储介质
CN114170231A (zh) 基于卷积神经网络的图像语义分割方法、装置及电子设备
CN114372931A (zh) 一种目标对象虚化方法、装置、存储介质及电子设备
CN112132753B (zh) 多尺度结构引导图像的红外图像超分辨率方法及系统
CN113052923A (zh) 色调映射方法、装置、电子设备和存储介质
CN116798041A (zh) 图像识别方法、装置和电子设备
US8928815B1 (en) System and method for outdoor scene change detection
Chagnon-Forget et al. Enhanced visual-attention model for perceptually improved 3D object modeling in virtual environments
CN117408899A (zh) 图像生成方法、设备及计算机存储介质
Oludare et al. Attention-guided cascaded networks for improved face detection and landmark localization under low-light conditions
CN114283087A (zh) 一种图像去噪方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination