CN117058271A - 用于生成商品主图背景的方法及计算设备 - Google Patents
用于生成商品主图背景的方法及计算设备 Download PDFInfo
- Publication number
- CN117058271A CN117058271A CN202310851565.XA CN202310851565A CN117058271A CN 117058271 A CN117058271 A CN 117058271A CN 202310851565 A CN202310851565 A CN 202310851565A CN 117058271 A CN117058271 A CN 117058271A
- Authority
- CN
- China
- Prior art keywords
- commodity
- graph
- background
- image
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000010586 diagram Methods 0.000 claims abstract description 45
- 230000011218 segmentation Effects 0.000 claims description 20
- 238000005516 engineering process Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 238000003708 edge detection Methods 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 5
- 238000004891 communication Methods 0.000 claims description 4
- 238000001514 detection method Methods 0.000 claims description 4
- 238000006467 substitution reaction Methods 0.000 claims description 3
- 238000009792 diffusion process Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 9
- 238000012545 processing Methods 0.000 description 9
- 239000000463 material Substances 0.000 description 8
- 238000003860 storage Methods 0.000 description 6
- 238000013459 approach Methods 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 239000000047 product Substances 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 241000190070 Sarracenia purpurea Species 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- -1 lights Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000001737 promoting effect Effects 0.000 description 2
- 230000008439 repair process Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 239000004566 building material Substances 0.000 description 1
- 239000007795 chemical reaction product Substances 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000005034 decoration Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 235000020098 plum wine Nutrition 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/60—Editing figures and text; Combining figures or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0641—Shopping interfaces
- G06Q30/0643—Graphical representation of items or shoppers
Landscapes
- Business, Economics & Management (AREA)
- Finance (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Physics & Mathematics (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Processing Or Creating Images (AREA)
Abstract
本申请提供一种用于生成商品主图背景的方法及计算设备。该方法包括:向用户提供行业化的背景信息选项,所述背景信息选项包括行业类目及与所述行业类目关联的主题类型及关键元素;接收用户提交的商品图、背景信息及自定义描述;根据所述背景信息及所述自定义描述生成提示文;从所述商品图提取商品主图;将所述商品主图和所述提示文输入预训练的图文生图模型,所述图文生图模型基于所述提示文从所述商品主图向外扩散出背景图。根据本申请的技术方案可实现商品主图个性化行业化场景创意定制,有助于提升买家采购决策。
Description
技术领域
本发明涉及图像处理及电商技术领域,具体涉及一种用于生成商品主图背景的方法及计算设备。
背景技术
随着人工智能技术的发展,图片数据资源的重要性也日益凸显,使得图像数据处理的应用领域非常广泛。在电商领域中,经常需要向客户提供商品在特定场景下的搭配效果的展示,但是目前缺少一种可行且易于推广的低成本方法。
发明内容
本申请旨在提供一种用于生成商品主图背景的方法及计算设备,实现商品主图个性化场景创意定制,有助于提升买家采购决策。
根据本申请的一方面,提供一种用于生成商品主图背景的方法,包括:
向用户提供行业化的背景信息选项,所述背景信息选项包括行业类目及与所述行业类目关联的主题类型及关键元素;
接收用户提交的商品图、背景信息及自定义描述;
根据所述背景信息及所述自定义描述生成提示文;
从所述商品图提取商品主图;
将所述商品主图和所述提示文输入预训练的图文生图模型,所述图文生图模型基于所述提示文从所述商品主图向外扩散出背景图。
根据一些实施例,根据所述背景信息及所述自定义描述生成提示文,包括:
将所述背景信息及所述自定义描述输入预训练的提示文改写模型来生成所述提示文,其中所述提示文改写模型的训练语料通过人工构造提示文输入并基于选择的大语言模型生成提示文输出而构造。
根据一些实施例,在所述图文生图模型基于所述提示文从所述商品主图向外扩散出背景图之后,还包括:
采用基于替换的方式对所述商品主图的细节进行局部修复。
根据一些实施例,采用基于替换的方式对图像细节进行局部修复,包括:
识别所述商品主图的核心轮廓;
将所述核心轮廓以内区域用原图替换。
根据一些实施例,从所述商品图提取商品主图,包括:
对所述商品图进行语义分割,基于分割结果识别目标对象,从而提取指定的商品主图;或者根据用户输入的目标指定扣图区域提取指定的商品主图;
将所述商品主图表示为掩模图层。
根据一些实施例,所述图文生图模型基于所述提示文从所述商品主图向外扩散出背景图,包括:
生成第一阶段背景图;
利用所述第一阶段背景图,生成深度图和边缘特征;
利用所述商品主图、所述掩模图层、所述深度图和所述边缘特征,生成所述背景图。
根据一些实施例,对所述商品图进行语义分割,包括:
将所述商品图的分辨率等比例扩增,从而对边缘进行柔化;
对扩增后的商品图进行语义分割;
提取指定的商品主图;
将所述商品主图缩小为原来的像素尺寸。
根据一些实施例,从所述商品图提取商品主图之后,还包括:
采用边缘检测技术获得所述商品主图的边缘;
对所述边缘的黑边进行去除。
根据一些实施例,前述方法还包括:
采用最小连通区域检测技术检测所述商品主图的白色缝隙;
对检测到的白色缝隙进行填充;
去除图像中散落的杂点。
根据本申请的另一方面,提供一种计算设备,包括:
处理器;以及
存储器,存储有计算机程序,当所述计算机程序被所述处理器执行时,使得所述处理器执行如上任一项所述的方法。
根据本申请的另一方面,提供一种非瞬时性计算机可读存储介质,其上存储有计算机可读指令,当所述指令被处理器执行时,使得所述处理器执行如上任一项所述的方法。
根据本申请的实施例,提供一种行业化的商品主图背景生成方案,通过行业化背景信息生成提示文,基于AIGC能力从商品主图向外扩散出背景图,从而生成良品率极高的商品营销图。根据实施例的方案具备行业化能力,可以基于不同行业的商品生成具备不同元素的背景图,实现商品主图个性化场景创意定制,专业性较强,有助于提升买家采购决策。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本申请。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍。
图1示出根据示例实施例用于生成商品主图背景的方法流程图。
图2A示出根据示例实施例生成主图背景的处理架构示意图。
图2B示出根据示例实施例从商品主图向外扩散出背景图的方法流程图。
图2C示出根据示例实施例生成背景图的示意图。
图2D示出根据示例实施例的原图和在原图上生成的背景图。
图3示出根据示例实施例通过边缘优化对商品图进行语义分割的方法流程图。
图4示出根据示例实施例对生成的商品主图进行优化的方法流程图。
图5示出根据示例实施例基于替换的方式对图像细节进行局部修复的方法流程图。
图6示出根据示例性实施例的计算设备的框图。
具体实施方式
现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的实施例;相反,提供这些实施例使得本申请将全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本申请的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本申请的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
应理解,虽然本文中可能使用术语第一、第二、第三等来描述各种组件,但这些组件不应受这些术语限制。这些术语乃用以区分一组件与另一组件。因此,下文论述的第一组件可称为第二组件而不偏离本申请概念的教示。如本文中所使用,术语“及/或”包括相关联的列出项目中的任一个及一或多者的所有组合。
本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。
本领域技术人员可以理解,附图只是示例实施例的示意图,附图中的模块或流程并不一定是实施本申请所必须的,因此不能用于限制本申请的保护范围。
随着电商平台的发展和广泛应用,一种找工厂轻定制模式逐渐发展为产业链的中心节点,向上连接工厂端产品设计和生产制造,向下连接买家端营销导购。为此,商家需要快速响应买家个性化的定制需求。然而,实物流通会带来生产成本、物流成本、时间成本等问题。为解决这个矛盾,现有解决方案可提供图像素材服务能力,并通过AI抠图、AI背景合成、图像编辑、背景替换等操作实现营销图创造。但是,这些解决方案的使用对使用者的要求较高,生成高质量、个性化图的时间成本仍然难以接受。
为此,本申请提出一种行业化的商品主图背景生成方案,通过行业化背景信息生成提示文,基于AIGC能力从商品主图向外扩散出背景图,实现商品主图个性化场景行业化创意定制,专业性较强,有助于提升买家采购决策。
在描述本申请实施例之前,对本申请实施例涉及到的一些术语或概念进行解释说明。
嵌入网络(Embedding Network):是一种用于学习特征表示的神经网络,它可以将原始的高维数据映射到低维的嵌入空间中,从而提取数据的特征和模式。可用于自然语言处理中将单词、字符等离散特征映射到连续的低维稠密向量空间中,将高维度的离散特征转化为低维度的连续特征,能够更好地表示特征之间的相似度和关系,以便于神经网络学习其语义信息。
大模型:大模型是一种网络规模巨大的深度学习模型,它可以有效处理大量的数据,获得准确的预测结果。大模型具体表现为模型的参数量规模较大,其规模通常在数十亿甚至千亿级别。模型的性能(指精度)通常与模型的参数规模息息相关。模型参数规模越大,模型的学习能力越强。
大语言模型(Large Language Model:LLM),也称大型语言模型,是一种人工智能模型,旨在理解和生成人类语言。大语言模型在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等。大语言模型规模庞大,包含数十亿甚至千亿的参数,能够学习语言数据中的复杂模式。大语言模型通常基于深度学习架构。
AIGC(AI Generated Content):指通过AI技术来生成内容。
Stable Diffusion(SD):一种文本到图像的算法扩散模型,能够在给定任何文本输入的情况下生成照片般逼真的图像。
Stable Diffusion inpainting:基于Stable Diffusion算法衍生出的,在控制目标主体不变的情况下,扩散得到主体背景图的算法能力。
图像语义分割:将图像进行像素级别分割的算法能力。
SAM(segment anthing):一种开源的对图像进行语义分割的算法框架。
ControlNet:是一个文生图模型,引入了一个框架,支持在扩散模型(如StableDiffusion)上附加额外的多种空间语义条件来控制生成过程。
下面结合附图对本申请的示例实施例进行说明。
图1示出根据示例实施例用于生成商品主图背景的方法流程图。
参见图1,在S101,向用户提供行业化的背景信息选项。例如,所述背景信息选项包括行业类目及与所述行业类目关联的主题类型及关键元素。
从一张图片的描述来看,提示(Prompt)包含的基本信息有主体词、背景词、风格词。更进一步地,还可包含材质、光线、色彩、主题等精细化描述。此外,发明人发现,从买家视角来看,不同类目的商品背景图包含的核心元素具备明显的行业化特征。例如,对于梅子酒而言,调研发现商品背景图中买家最关注的三种元素是水果、高档的餐具、明亮的环境。对于水杯而言,买家最关的元素是用高档的桌子进行衬托。因此,利用自然背景和家居背景生成的图在质感都比较好的情况下,从买家视角而言,会认为家居背景的图更符合自己的实际诉求。
因此,根据本申请的实施例,向用户提供行业化的背景信息选项,例如可包括行业类目及与所述行业类目关联的主题类型及关键元素等。在不同行业类目下,匹配不同的主题类型与关键元素提供给用户选择。为此,可围绕相应行业,建设较为专业的风格、背景词专业知识,在应用中为客户提供相关选项。
例如,对于家装建材行业,通常买家需要不同风格的AI效果图,如现代风、日系风、简约风等。因此,根据一些实施例,可围绕家装建材行业建设不同风格的词库,提供给用户选择。对于大百货行业,通常买家需要不同场景的AI效果图,如小夜灯放在卧室里,垃圾桶放在厨房里,水杯放着厨房里等。因此,根据一些实施例,可围绕大百货行业建设不同场景的词库,提供给用户选择。
此外,还可提供构图、光线、材质、镜头、色彩等方面的通用选项。
在S103,接收用户提交的商品图、背景信息及自定义描述。
根据实施例,在向用户提供行业选项界面和自定义描述界面后,响应客户的提交操作,可获取到用户提交的商品图、背景信息及自定义描述。例如,对于水杯而言,用户在提交水杯的图片时,同时可选择大百货行业、朴素风格、桌子背景等信息。
易于理解,这里所说的自定义描述可以包括“空”文,即用户没有提供任何自定义描述。
在S105,根据所述背景信息及所述自定义描述生成提示文。
从算法视角,通过一个商品主图和和一段相对专业的提示文,即可让模型生成一张AI背景图。然而,从产品视角,大部分情况下用户不具备生成专业提示文的能力。甚至从用户体验出发,生成一句简单的图片描述提示文,例如“桌子上放着一个杯子”,对用户而言也是较高的成本,会损害用户对产品的体验。从实践经验来看,提示文设计得越专业,AI生成图片的质量越高。
因此,如何让用户在尽可能使用成本低的基础上,同时又能给模型提供较为专业的提示文,是背景信息表达和提示文生成需要解决的问题。
就背景信息表达而言,如前面所讨论的,根据本申请实施例,可以向用户提供行业化的背景信息选项,例如可包括行业类目及与所述行业类目关联的主题类型及关键元素等。
对于提示文生成而言,有几种提示工程可用来生成一个标准而又专业的提示文描述。
例如,通过总结提示文的结构规律和积累的行业化专业知识,可以通过模板式生成来产出专业化提示文(Prompt)。AI模型所识别的好的提示文往往具有固定的结构和可描述的规律。固定的元素包括主体、艺术类别、艺术风格、背景、色彩等。规律上,可以把重要性高的词放在句子前面,重要性低的词放在句子后面;或者可以通过()增加词的权重,通过[]降低词的权重等。模板式生成一方面存在构造模板成本较高的问题,需要大量的实验尝试,导致能覆盖到的商品非常有限;另一方面,由于模板型提示文没有泛化能力,导致一个商品往往只能生成几类特定的背景图,用户的选择性较少。
另一种方式是通过直接利用成熟大语言模型(例如ChatGLM等)生成提示文。这种方式存在发散性太强、质量参差不齐的情况,导致结果非常不稳定。此外,这种方式还存在使用上容易受到限制、成本较高等问题。
为此,本申请还提出一种方案,通过人工构造提示文输入,基于选择的大语言模型生成提示文输出,从而构造提示文改写模型的训练语料。利用构造的训练语料,可训练一个提示文改写模型。这样,可以将前述背景信息及自定义描述输入预训练的提示文改写模型,得到所生成的提示文。
在S107,从所述商品图提取商品主图。
根据一些实施例,通过对所述商品图进行语义分割,基于分割结果识别目标对象,从而提取指定的商品主图。例如,可通过SAM对原始图像进行分割,并基于分割结果识别出目标物体(可使用mask图层表示)。
根据另一些实施例,可根据用户在交互界面中输入的目标指定扣图区域提取指定的商品主图。
另外,根据实施例,将所述商品主图表示为掩模图层,以用于后续背景图生成。
与前景抠图相比,通过目标导向图像语义分割能力,可指定需要提取的目标物体,例如输入雨伞或手机等,从同一个图片中抠图得到不同的结果。
在S109,将所述商品主图和所述提示文输入预训练的图文生图模型,所述图文生图模型基于所述提示文从所述商品主图向外扩散出背景图。
在生成专业提示文之后,可通过AIGC生成背景图。例如,可基于StableDiffusioninpainting的扩散能力,在商品主图不变的情况下,根据提示文向外扩散出背景图。
根据一些实施例,在生成背景图时可进行图像边缘优化。
根据一些实施例,在所述图文生图模型基于所述提示文从所述商品主图向外扩散出背景图之后,还可采用基于替换的方式对所述商品主图的细节进行局部修复,从而使得生成的图像中商品主图的细节还原能力更强,效果更好。
根据本申请的实施例,提供一种行业化的商品主图背景生成方案,通过行业化背景信息生成提示文,基于AIGC能力从商品主图向外扩散出背景图,从而生成良品率极高的商品营销图。根据实施例的方案具备行业化能力,可以基于不同行业的商品生成具备不同元素的背景图,实现商品主图个性化场景创意定制,专业性较强,有助于提升买家采购决策。
图2A示出根据示例实施例生成主图背景的处理架构示意图。
参见图2A,商品主图背景生成的整体处理架构可包括图像预处理、背景信息表达、提示工程、背景图生成、优质素材识别等部分。
图像预处理可包括对用户提供的商品图进行分割、识别、超分辨等方式处理,抽取出分辨率足够高的商品主体信息提供给AI模型进行图片生成。
背景信息表达即在不同行业的商品中,通过建设行业化产业知识,并使用交互界面让用户表达对商品背景图的诉求,如风格描述、背景描述、光线描述等。
通常AI生成图的质量取决于模型的效果和提示(Prompt)的质量,因此,通过提示工程,可完成用户表达的背景诉求和专业提示之间的翻译工作。例如,可基于模板、基于生成式模型或基于类ChatGPT模型等方式实现提示生成方案。
在完成提示生成后,可通过图文生图算法能力完成对背景图的创作。虽然基于开源SD的inpainting能力,可实现较高质量的背景图生成。
由于生成模型的随机性,使得实际生成的商品背景图效果不一定满足用户需求。然而,从服务客户的角度,希望大部分情况下呈现给用户的是质量较高的图片,因为良品率较低会消耗用户对产品的耐心和信心。因此,根据一些实施例,可通过构造数据集训练一个优质素材判别模型。假设模型的良品率为20%,单张图片的生成时间为2s,那么理论上,利用优质素材判别模型,只需消耗10s(生成5张图)就能在大部分情况下呈现给用户高质量的商品AI生成图。
图2B示出根据示例实施例从商品主图向外扩散出背景图的方法流程图。
图2C示出根据示例实施例生成背景图的示意图。
图2D示出根据示例实施例的原图和在原图上生成的背景图。
在实践中发现,大部分类目下商品会存在商品主体扩散、商品图片的logo/文本模糊的情况,使得生成的效果图与实际商品不一致。根据一些实施例,可通过两阶段技术生成背景图。
参见图2B,在S201,生成第一阶段背景图。
根据示例实施例,可利用AIGC工具,例如Stable Diffusion inpainting生成第一阶段背景图。
在S203,利用所述第一阶段背景图,生成深度图和边缘特征。
根据示例实施例,在生成第一阶段背景图后,生成深度图,以及利用Canny算法生成边缘特征(canny图)。
在S205,利用商品主图、掩模图层、深度图和边缘特征,生成背景图。
有了两个阶段的生成结果后,参见图2C,可利用例如ControlNet的多条件控制能力,使用商品掩模(Mask)图层使得商品主图边界控制得更好,不会有外溢的情况;使用深度图、边缘特征等信息来控制商品背景的丰富度(参见图2D)。此外,在不同商品上,可以通过两个条件的权重,控制模型更倾向于商品不受扩散,或者还是使背景更丰富。
图3示出根据示例实施例通过边缘优化对商品图进行语义分割的方法流程图。
为了得到更高质量的商品主图,在对商品图进行语义分割时可进行优化。
在S301,将所述商品图的分辨率等比例扩增,从而对边缘进行柔化。
根据实施例,对于给定图片输入,为了避免分割结果出现锯齿状边缘,可对商品图片的分辨率等比例扩增,例如至1600像素大小,从而对边缘进行柔化。
在S303,对扩增后的商品图进行语义分割。
根据实施例,可采用例如SAM对扩增后的商品图进行语义分割。
在S305,提取指定的商品主图。
在对商品图进行语义分割之后,基于分割结果识别目标对象,可提取指定的商品主图。
在S307,将所述商品主图缩小为原来的像素尺寸。
最后,可将分割图缩小为原来的像素尺寸以用于后续的背景生成。
图4示出根据示例实施例对生成的商品主图进行优化的方法流程图。
参见图4,在S401,采用边缘检测技术获得所述商品主图的边缘。
当图像中有多个物体时,采用诸如SAM等进行分割会导致物体间出现狭小的缝隙。为此,可采用canny边缘检测技术获得分割物体轮廓的边缘。
在S403,对所述边缘的黑边进行去除。
获得分割物体轮廓的边缘之后,可对边缘的黑边进行去除。
在S405,采用最小连通区域检测技术检测所述商品主图的白色缝隙。
为了避免物体之间存在明显的白色缝隙,可采用最小连通区域检测技术检测到狭小的白色缝隙。
在S407,对检测到的白色缝隙进行填充。
检测到狭小的白色缝隙之后,可对白色缝隙进行填充。
在S409,去除图像中散落的杂点。
最后,可去除图像中散落的杂点,进一步提升图像质量。
图5示出根据示例实施例基于替换的方式对图像细节进行局部修复的方法流程图。
根据示例实施例,为了修复图像局部区域的差异性,可采用基于替换的方式进行局部修复。
参见图5,在S501,识别所述商品主图的核心轮廓。
根据示例实施例,可基于传统图像边缘检测技术,识别出图像核心轮廓。
在S503,将所述核心轮廓以内区域用原图替换。
根据示例实施例,在识别出图像核心轮廓后,可基于自适应收缩原理,在阈值以内区域使用原图替换,保证图像核心主体达到100%相似。这样,通过原图替换,使得生成的图像中商品主图的细节还原能力更强,效果更好,例如参见图2D中的闹钟点数。
通过对示例实施例的描述,本领域技术人员易于理解,根据本申请实施例的技术方案至少具有以下优点中的一个或多个。
根据实施例,可以基于不同行业的商品生成具备不同元素的背景图,实现商品主图个性化场景创意定制,专业性较强,有助于提升买家采购决策。
根据实施例,通过行业化背景信息生成提示文,基于AIGC能力从商品主图向外扩散出背景图,从而生成良品率极高的商品营销图。
根据实施例,通过原图替换,使得生成的图像中商品主图的细节还原能力更强,效果更好。
根据实施例,使用商品掩模图层使得商品主图边界控制得更好,不会有外溢的情况;使用深度图、边缘特征等信息来控制商品背景的丰富度。
根据实施例,在不同商品上,可以通过主图边界及背景丰富度两个条件的权重,控制模型更倾向于商品不受扩散,或者还是使背景更丰富,从而进一步满足个性化的图像生成需求。
根据实施例,可通过构造数据集训练一个优质素材判别模型,通过优质素材判别模型,能在大部分情况下呈现给用户高质量的商品AI生成图,提升用户体验,增加客户粘性。
图6示出根据本申请示例实施例的计算设备的框图。
如图6所示,计算设备30包括处理器12和存储器14。计算设备30还可以包括总线22、网络接口16以及I/O接口18。处理器12、存储器14、网络接口16以及I/O接口18可以通过总线22相互通信。
处理器12可以包括一个或多个通用CPU(Central Processing Unit,处理器)、微处理器、或专用集成电路等,用于执行相关程序指令。根据一些实施例,计算设备30还可包括为处理器12进行加速的高性能显示适配器(GPU)20。
存储器14可以包括易失性存储器形式的机器系统可读介质,例如随机存取存储器(RAM)、只读存储器(ROM)和/或高速缓存存储器。存储器14用于存储包含指令的一个或多个程序以及数据。处理器12可读取存储在存储器14中的指令以执行上述根据本申请实施例的方法。
计算设备30也可以通过网络接口16与一个或者多个网络通信。该网络接口16可以是无线网络接口。
总线22可以为包括地址总线、数据总线、控制总线等。总线22提供了各组件之间交换信息的通路。
需要说明的是,在具体实施过程中,计算设备30还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法的步骤。计算机可读存储介质可以包括但不限于任何类型的盘,包括软盘、光盘、DVD、CD-ROM、微型驱动器以及磁光盘、ROM、RAM、EPROM、EEPROM、DRAM、VRAM、闪速存储器设备、磁卡或光卡、纳米系统(包括分子存储器IC)、网络存储设备、云存储设备,或适合于存储指令和/或数据的任何类型的媒介或设备。
本申请实施例还提供一种计算机程序产品,该计算机程序产品包括存储计算机程序的非瞬时性计算机可读存储介质,该计算机程序可操作来使计算机执行如上述方法实施例中记载的任何一种方法的部分或全部步骤。
本领域的技术人员可以清楚地了解到本申请的技术方案可借助软件和/或硬件来实现。本说明书中的“单元”和“模块”是指能够独立完成或与其他部件配合完成特定功能的软件和/或硬件,其中硬件例如可以是现场可编程门阵列、集成电路等。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些服务接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
以上具体地展示和描述了本申请的示例性实施例。应可理解的是,本申请不限于这里描述的详细结构、设置方式或实现方法;相反,本申请意图涵盖包含在所附条款的精神和范围内的各种修改和等效设置。
Claims (10)
1.一种用于生成商品主图背景的方法,其特征在于,包括:
向用户提供行业化的背景信息选项,所述背景信息选项包括行业类目及与所述行业类目关联的主题类型及关键元素;
接收用户提交的商品图、背景信息及自定义描述;
根据所述背景信息及所述自定义描述生成提示文;
从所述商品图提取商品主图;
将所述商品主图和所述提示文输入预训练的图文生图模型,所述图文生图模型基于所述提示文从所述商品主图向外扩散出背景图。
2.根据权利要求1所述的方法,其特征在于,根据所述背景信息及所述自定义描述生成提示文,包括:
将所述背景信息及所述自定义描述输入预训练的提示文改写模型来生成所述提示文,其中所述提示文改写模型的训练语料通过人工构造提示文输入并基于选择的大语言模型生成提示文输出而构造。
3.根据权利要求1所述的方法,其特征在于,在所述图文生图模型基于所述提示文从所述商品主图向外扩散出背景图之后,还包括:
采用基于替换的方式对所述商品主图的细节进行局部修复。
4.根据权利要求3所述的方法,其特征在于,采用基于替换的方式对图像细节进行局部修复,包括:
识别所述商品主图的核心轮廓;
将所述核心轮廓以内区域用原图替换。
5.根据权利要求1所述的方法,其特征在于,从所述商品图提取商品主图,包括:
对所述商品图进行语义分割,基于分割结果识别目标对象,从而提取指定的商品主图;或者根据用户输入的目标指定扣图区域提取指定的商品主图;
将所述商品主图表示为掩模图层。
6.根据权利要求5所述的方法,其特征在于,所述图文生图模型基于所述提示文从所述商品主图向外扩散出背景图,包括:
生成第一阶段背景图;
利用所述第一阶段背景图,生成深度图和边缘特征;
利用所述商品主图、所述掩模图层、所述深度图和所述边缘特征,生成所述背景图。
7.根据权利要求5所述的方法,其特征在于,对所述商品图进行语义分割,包括:
将所述商品图的分辨率等比例扩增,从而对边缘进行柔化;
对扩增后的商品图进行语义分割;
提取指定的商品主图;
案号:230404CI
将所述商品主图缩小为原来的像素尺寸。
8.根据权利要求1所述的方法,其特征在于,从所述商品图提取商品主图之后,还包括:
采用边缘检测技术获得所述商品主图的边缘;
对所述边缘的黑边进行去除。
9.根据权利要求8所述的方法,其特征在于,还包括:
采用最小连通区域检测技术检测所述商品主图的白色缝隙;
对检测到的白色缝隙进行填充;
去除图像中散落的杂点。
10.一种计算设备,其特征在于,包括:
处理器;以及
存储器,存储有计算机程序,当所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1-9中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310851565.XA CN117058271A (zh) | 2023-07-11 | 2023-07-11 | 用于生成商品主图背景的方法及计算设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310851565.XA CN117058271A (zh) | 2023-07-11 | 2023-07-11 | 用于生成商品主图背景的方法及计算设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117058271A true CN117058271A (zh) | 2023-11-14 |
Family
ID=88656230
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310851565.XA Pending CN117058271A (zh) | 2023-07-11 | 2023-07-11 | 用于生成商品主图背景的方法及计算设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117058271A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117315072A (zh) * | 2023-11-29 | 2023-12-29 | 阿里健康科技(杭州)有限公司 | 商品展示图的生成方法、设备和介质 |
CN117593083A (zh) * | 2023-11-29 | 2024-02-23 | 广州方舟信息科技有限公司 | 商品图像生成方法、装置、电子设备和存储介质 |
CN117635275A (zh) * | 2023-12-19 | 2024-03-01 | 浙江博观瑞思科技有限公司 | 基于大数据的智能电商运营商品管理平台及方法 |
CN117710510A (zh) * | 2024-02-04 | 2024-03-15 | 支付宝(杭州)信息技术有限公司 | 一种图像生成方法及装置 |
CN117710500A (zh) * | 2023-12-08 | 2024-03-15 | 广东创意热店互联网科技有限公司 | 一种基于扩散模型的电商图像生成方法 |
-
2023
- 2023-07-11 CN CN202310851565.XA patent/CN117058271A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117315072A (zh) * | 2023-11-29 | 2023-12-29 | 阿里健康科技(杭州)有限公司 | 商品展示图的生成方法、设备和介质 |
CN117593083A (zh) * | 2023-11-29 | 2024-02-23 | 广州方舟信息科技有限公司 | 商品图像生成方法、装置、电子设备和存储介质 |
CN117710500A (zh) * | 2023-12-08 | 2024-03-15 | 广东创意热店互联网科技有限公司 | 一种基于扩散模型的电商图像生成方法 |
CN117635275A (zh) * | 2023-12-19 | 2024-03-01 | 浙江博观瑞思科技有限公司 | 基于大数据的智能电商运营商品管理平台及方法 |
CN117635275B (zh) * | 2023-12-19 | 2024-05-24 | 浙江博观瑞思科技有限公司 | 基于大数据的智能电商运营商品管理平台及方法 |
CN117710510A (zh) * | 2024-02-04 | 2024-03-15 | 支付宝(杭州)信息技术有限公司 | 一种图像生成方法及装置 |
CN117710510B (zh) * | 2024-02-04 | 2024-06-11 | 支付宝(杭州)信息技术有限公司 | 一种图像生成方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10984295B2 (en) | Font recognition using text localization | |
US10699166B2 (en) | Font attributes for font recognition and similarity | |
CN117058271A (zh) | 用于生成商品主图背景的方法及计算设备 | |
US9824304B2 (en) | Determination of font similarity | |
Wang et al. | Affective image colorization | |
WO2021031677A1 (zh) | 一种目标对象的banner图的批量自动生成方法及装置 | |
CN115511969A (zh) | 图像处理与数据渲染方法、设备及介质 | |
CN111930376A (zh) | 风格化图标的自动生成 | |
Chen et al. | A review of image and video colorization: From analogies to deep learning | |
CN115222858A (zh) | 动画重构网络的训练及其图像重构、视频重构方法与设备 | |
CN113762257B (zh) | 一种美妆品牌图像中标志的识别方法及装置 | |
CN113283432A (zh) | 图像识别、文字排序方法及设备 | |
CN117058275B (zh) | 商品宣传图生成方法、装置、计算机设备及存储介质 | |
CN117830580A (zh) | 图像生成方法、装置、电子设备及存储介质 | |
US20240127510A1 (en) | Stylized glyphs using generative ai | |
CN117252753A (zh) | 一种基于生成式人工智能技术的图像处理方法及装置 | |
CN116912366A (zh) | 一种基于ai的平面设计生成方法及系统 | |
Zhang et al. | [Retracted] Animation Costume Style Migration Based on CycleGAN | |
Lopes et al. | EvoDesigner: aiding the exploration of innovative graphic design solutions | |
CN113470129A (zh) | 基于ai深度学习的海报设计方法、装置及计算设备 | |
Gao et al. | EL‐GAN: Edge‐Enhanced Generative Adversarial Network for Layout‐to‐Image Generation | |
Ma et al. | Semantic Segmentation Based Automatic Two-Tone Portrait Synthesis | |
Wang | Garment image style transfer based on deep learning | |
CN117392276A (zh) | 图像处理方法、设备及存储介质 | |
CN118505337A (zh) | 图像生成方法、设备、程序产品及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |