CN117808097A - 生成商品图的方法及电子设备 - Google Patents
生成商品图的方法及电子设备 Download PDFInfo
- Publication number
- CN117808097A CN117808097A CN202311561017.XA CN202311561017A CN117808097A CN 117808097 A CN117808097 A CN 117808097A CN 202311561017 A CN202311561017 A CN 202311561017A CN 117808097 A CN117808097 A CN 117808097A
- Authority
- CN
- China
- Prior art keywords
- commodity
- model
- category
- image generation
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 230000004044 response Effects 0.000 claims abstract description 6
- 238000012549 training Methods 0.000 claims description 104
- 230000008569 process Effects 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 8
- 230000000977 initiatory effect Effects 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 3
- 239000000758 substrate Substances 0.000 claims 4
- 238000013473 artificial intelligence Methods 0.000 description 130
- 244000183278 Nephelium litchi Species 0.000 description 28
- 238000010586 diagram Methods 0.000 description 17
- QVFWZNCVPCJQOP-UHFFFAOYSA-N chloralodol Chemical compound CC(O)(C)CC(C)OC(O)C(Cl)(Cl)Cl QVFWZNCVPCJQOP-UHFFFAOYSA-N 0.000 description 8
- 238000010276 construction Methods 0.000 description 8
- 240000001090 Papaver somniferum Species 0.000 description 6
- 235000008753 Papaver somniferum Nutrition 0.000 description 6
- CZMRCDWAGMRECN-UGDNZRGBSA-N Sucrose Chemical compound O[C@H]1[C@H](O)[C@@H](CO)O[C@@]1(CO)O[C@@H]1[C@H](O)[C@@H](O)[C@H](O)[C@@H](CO)O1 CZMRCDWAGMRECN-UGDNZRGBSA-N 0.000 description 6
- 229930006000 Sucrose Natural products 0.000 description 6
- 238000004891 communication Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000008439 repair process Effects 0.000 description 2
- 102100031090 Alpha-catulin Human genes 0.000 description 1
- 101000922043 Homo sapiens Alpha-catulin Proteins 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000003796 beauty Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000001747 exhibiting effect Effects 0.000 description 1
- 230000004941 influx Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
本申请实施例公开了生成商品图的方法及电子设备,所述方法包括:响应于为目标商品类目/商品名称生成商品图的请求,确定所述目标商品类目/商品名称对应的人工智能AI图像生成模型,所述AI图像生成模型由基础模型以及微调模型组成,所述基础模型用于提供基于提示文本进行图片生成的基础能力,所述微调模型用于提供感知所述目标商品类目/商品名称对应商品的商品特征的能力;构造用于与所述AI图像生成模型进行交互的提示文本,并对所述AI图像生成模型进行调用,以生成关于所述目标商品类目/商品名称的至少一张商品图。通过本申请实施例,能够通过商品类目/商品名称专属的AI图像生成模型进行商品图的生成,从而降低成本,提升效率。
Description
技术领域
本申请涉及图片生成技术领域,特别是涉及生成商品图的方法及电子设备。
背景技术
商家在商品信息服务系统中创建新的商品的过程中,通常需要商家提供商品的各种信息,例如,商品名称、描述、价格、库存等,并上传商品的相关图片或视频。其中,商品图片是用户了解商品的主要途径之一。通过商品图片,用户可以更快地了解商品的外观、特点和细节,提供更直观的商品信息,帮助用户更快地做出购买决策、提升用户的购物体验。高质量的商品图片可以准确地展示产品的外观和特点,不仅能够避免因为图片不清晰、不准确而导致的用户投诉和退货,还可以展示品牌的专业和用心,提升品牌形象和信誉度。
然而,随着线上用户的大量涌入,大量新商家急需进行线上建品操作。目前,商家想要获取商品图,主要分为两种途径:第一种是商家自己进行图片拍摄及修图工作,但由于部分商家缺乏电商经验以及整理图片的能力,导致建品效率慢,图片素材质量低等问题普遍存在在目前的电商领域;第二种是高价聘请专业团队进行商品图的制作,但由于商品数量大、更新迭代快,过高并持续增长的成本费用使得很少有商家能够使用该途径生产商品图片。因此,如何帮助商家以更低成本更高效率的完成建品等流程,就成为需要本领域技术人员解决的技术问题。
发明内容
本申请提供了生成商品图的方法及电子设备,能够通过商品类目/商品名称专属的AI图像生成模型进行商品图的生成,从而降低成本,提升效率。
本申请提供了如下方案:
一种生成商品图的方法,包括:
响应于为目标商品类目/商品名称生成商品图的请求,确定所述目标商品类目/商品名称对应的人工智能AI图像生成模型,所述AI图像生成模型由基础模型以及微调模型组成,所述基础模型用于提供基于提示文本进行图片生成的基础能力,所述微调模型用于提供感知所述目标商品类目/商品名称对应商品的商品特征的能力;
构造用于与所述AI图像生成模型进行交互的提示文本,并基于所述提示文本对所述AI图像生成模型进行调用,以使得所述AI图像生成模型生成关于所述目标商品类目/商品名称的至少一张商品图。
其中,还包括:
获取生成商品图时所需的场景/风格信息,以便根据所述场景/风格信息构造所述提示文本,并由所述AI图像生成模型生成关于所述目标商品类目/商品名称且具有对应场景/风格的至少一张商品图。
其中,所述生成商品图时所需的场景/风格信息是根据所述请求中携带的指定场景/风格信息进行确定,或者,根据所述目标商品类目/商品名称对应的常用场景/风格进行确定。
其中,由所述AI图像生成模型中的基础模型提供关于目标场景/风格的图像的生成能力。
其中,所述AI图像生成模型关联有至少两个微调模型,其中第一微调模型用于感知所述目标商品类目/商品名称对应商品的商品特征,第二微调模型具有感知所述目标场景/风格的特征的能力。
其中,所述用于提供感知所述目标商品类目/商品名称对应商品的商品特征能力的微调模型,是预先利用能够表达所述目标商品类目/商品名称对应商品的商品特征的多张训练样本图片对所述微调模型进行参数训练后生成的。
其中,所述目标商品类目/商品名称对应商品的商品特征包括:所述目标商品类目/商品名称对应商品所具有的、区别于同一上级类目下其他商品类目/商品名称对应商品的特征。
一种创建商品的方法,包括:
在用于创建新商品的界面中,提供用于发起通过AI图像生成模型生成商品图的请求的操作选项;
响应于通过所述操作选项发起的为目标商品类目/商品名称生成商品图的请求,确定所述目标商品类目/商品名称对应的AI图像生成模型,所述AI图像生成模型由基础模型以及微调模型组成,所述基础模型用于提供基于提示文本进行图片生成的基础能力,所述微调模型用于提供感知所述目标商品类目/商品名称对应商品的商品特征的能力;
构造用于与所述AI图像生成模型进行交互的提示文本,并基于所述提示文本对所述AI图像生成模型进行调用,以使得所述AI图像生成模型生成关于所述目标商品类目/商品名称的至少一张商品图;
返回所述至少一张商品图,以便利用所述至少一张商品图完成创建新商品的流程。
一种模型训练方法,包括:
响应于为目标商品类目/商品名称生成AI图像生成模型的请求,获取针对所述目标商品类目/商品名称上传的多张训练样本图片,所述训练样本图片用于表达所述目标商品类目/商品名称对应商品的商品特征;
获取通过文本对所述多张训练样本图片中的商品特征进行描述的特征标签信息;
将所述多张训练样本图片以及对应的特征标签信息输入到AI图像生成模型中进行训练,所述AI图像生成模型由基础模型以及微调模型组成,其中,所述基础模型用于提供基于提示文本进行图片生成的基础能力,在训练过程中,在保持所述基础模型的参数不变的状态下,通过调整优化所述微调模型的参数,为目标商品类目/商品名称生成AI图像生成模型。
其中,所述获取通过文本对所述多张训练样本图片中的商品特征进行描述的特征标签信息,之前还包括:
利用计算机视觉模型对所述训练样本图片进行处理,并输出关于所述训练样本图片的文本描述信息,以便以所述文本描述信息作为参考,为所述训练样本图片添加对应的特征标签信息。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述任一项所述的方法的步骤。
一种电子设备,包括:
一个或多个处理器;以及
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行前述任一项所述的方法的步骤。
根据本申请提供的具体实施例,本申请公开了以下技术效果:
通过本申请实施例,可以分别为多种不同的商品类目/商品名称提供专属的AI图像生成模型,这种AI图像生成模型由基础模型以及微调模型组成,可以通过其中的基础模型提供基于提示文本进行图片生成的基础能力,所述微调模型则可以用于提供感知所述目标商品类目/商品名称对应商品的商品特征的能力。这样,在需要为目标商品类目/商品名称生成商品图时,就可以确定所述目标商品类目/商品名称对应的人工智能AI图像生成模型,并构造用于与所述AI图像生成模型进行交互的提示文本后,基于所述提示文本对所述AI图像生成模型进行调用,这样,该AI图像生成模型就可以生成关于所述目标商品类目/商品名称的至少一张商品图。通过这种方式,能够进行自动化的商品图生成,并且,具体的AI大模型可以通过微调模型具体感知目标商品类目/商品名称对应商品的商品特征的能力,因此,可以使得生成的商品图具有比较高的真实性,可以直接用于商品创建等场景,因此,可以降低帮助用户以更低成本更高效率的完成建品等流程。
当然,实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的系统架构的示意图;
图2是本申请实施例提供的第一方法的流程图;
图3是本申请实施例提供的第二方法的流程图;
图4是本申请实施例提供的第三方法的流程图;
图5是本申请实施例提供的模型训练及推理过程示意图;
图6是本申请实施例提供的电子设备的示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本申请保护的范围。
在本申请实施例中,为了帮助商家能够以更低成本更高效率完成建品等流程,可以利用基于AI(Artificial Intelligence,人工智能)的图像生成模型,来自动化生成商品图的实现方案。其中,基于AI的图像生成模型可以是一种“大模型”(在本申请说明书中可以将这种基于AI的图像生成模型简称为“AI大模型”),也即,利用AI大模型的生成图片的能力,来实现高质量商品图的自动生成,而降低对商家拍摄、修图能力或对专业拍摄团队的依赖。
其中,所谓的AI大模型可以是指一类基础模型(Foundation Model),具体可以指在使用海量数据下训练出来的参数量巨大的、能适应一系列下游任务的模型。对于AI大模型而言,不仅在参数规模上存在参数量巨大(随着模型的不断迭代,参数量通常也会呈指数级增长,从亿到万亿,再到百万亿,甚至还可以更多)的特点,并且,从模态支持上看,AI大模型也从支持图片、图像、文本、语音、视频等单一模态下的单一任务,逐渐发展为支持多种模态下的多种任务。也即,大型模型通常还具备多种模态信息的高效理解能力、跨模态的感知能力以及跨差异化任务的迁移与执行能力等,甚至可能会具备如人类大脑体现的多模态信息感知能力。
从另一角度而言,AI大模型是“人工智能预训练大型模型”的简称,包含了“预训练”和“大模型”两层含义,二者结合产生了一种新的人工智能模式,即模型在大规模数据集上完成了预训练后无需微调,或仅需要少量数据的微调,就能支撑各类下游应用。也就是说,AI大模型得益于其“大规模预训练﹢微调”的范式,可以很好地适应不同下游任务,展现出它强大的通用性。这种具有通用性的AI大模型,在共享参数的情况下,只需在不同下游应用场景中做出相应微调就能得到优越的表现,突破传统AI模型难以泛化到其他任务上的局限性。
具体的,AI大模型根据自身能力的不同,可以分为“文生文”模型、“文生图”模型等多种不同的类型,在本申请实施例中,可以通过“文生图”类的AI大模型来实现基于文本的商品图生成。
在具体实现时,通用型的“文生图”类的AI大模型可以实现基础的基于文本生成图像的能力,但是,在本申请实施例的场景中,是需要为具体的商品生成商品图,对于商品图而言,不仅需要具有美观、真实等特点,还需要通过商品图向用户传达出具体商品所特有的、区别于其他商品的特征。但是,通用的“文生图”类AI大模型通常不具备该能力,尤其是在商品的细分类目非常多的情况下,不同细分类目之间存在一些共性的同时,还存在一些细微的差异,如何能够使得AI大模型精确地感知这种细微的差异,进而使得生成的商品图能够表达出这种特征,更是通用的“文生图”类AI大模型所无法做到的。
例如,假设某商家需要发布的商品是一种“荔枝”类的商品,但是实际上“荔枝”类目下还包括很多的细分类目,用户发布的通常是其中某种具体的“荔枝”细分类目的商品,例如,可能是“白糖罂荔枝”。或者,在系统的类目体系中,叶子类目可能仅到“荔枝”,没有再进一步细分,但是,商家在发布“荔枝”类商品时,也可以通过商品名称体现出具体哪个品种的荔枝。此时,具体在通过AI大模型生成商品图时,不仅需要使得商品图中的商品主体看上去是“荔枝”这种商品,并且,还需要体现出“白糖罂荔枝”这一细分类目所特有、区别于其他细分类目的荔枝(例如“妃子笑荔枝”、“荔枝王”等)的特征,例如,“白糖罂荔枝”的特征是:果皮鲜红色且颜色均匀、果皮薄、龟裂片大部分平滑小部分微隆起。理论上而言,在通用型的AI大模型具有感知“荔枝”特征的能力的情况下,通过文本的方式描述上述关于“白糖罂荔枝”的区别性特征,并作为AI大模型的提示文本,可能起到控制AI大模型的生成结果的作用,但是在实际应用中发现,这种方式生成的商品图通常是无法直接作为商品图进行发布的,这是因为,AI大模型可能并不能准确地理解“龟裂片大部分平滑小部分微隆起”的含义,并将其准确地通过图像的方式绘制出来。
针对上述情况,在本申请实施例中,为了使得AI大模型能够更准确地感知各种商品细分类目/商品名称对应商品的商品特征,并生成能够直接作为商品图进行发布的图像,可以通过具体商品细分类目/商品名称的图像作为训练样本,对AI大模型进行训练,以分别得到对应各种不同的商品细分类目/商品名称的AI大模型。当然,在实现过程中,AI大模型的参数规模通常非常巨大,如果直接对这种AI大模型进行训练,则需要的训练样本数量也会很多,并且训练周期会很长。为此,在本申请实施例中,可以利用“大规模预训练﹢微调”的特点,通过微调模型来感知各种具体商品细分类目/商品名称对应商品的商品特征。
例如,以SD(Stable Diffusion,稳定扩散)模型为例,SD是一种基于文本生成图像的基础模型,Lora(Low-Rank Adaptation)是一种叠加在SD基础模型上的小模型(微调模型),可以在提示文本(Prompt,是指用户或系统向模型提供的一段文本或问题作为输入,这个Prompt可以是一个完整的句子、一个问题、一个片段或者仅仅是一个关键词,它的作用是引导模型的生成,指导其产生与Prompt有关的输出)之后,用于给生成的图片添加统一的风格等,如赛博朋克、古风、机械等。本申请实施例就可以利用上述特征,针对每种商品类目/商品名称,使用Lora模型训练并学习到商品的特征,以生成更真实、更能体现具体某个商品类目/商品名称区别于同一上级类目下其他类目/名称的商品特征的商品图。也就是说,可以在商品类目/商品名称维度上,分别为各个商品类目/商品名称训练出各自的AI大模型,但是,在训练过程中,可以保持SD等基础模型的参数不变,仅对Lora模型的参数进行调整。由于Lora模型的参数量相对较小,仅需要少量(例如,在个位数量级即可)的训练样本即可完成对Lora模型的训练,因此,可以提升实现效率,降低实现难度。
其中,具体实现时,可以预先训练与多个商品类目/商品名称对应的AI大模型,商家在创建商品时,可以在用于创建商品的页面提供“AI生成商品图”等操作选项,商家可以通过该选项发起具体的生成商品图的请求,同时可以提供具体所需创建的商品的商品类目(通常可以是叶子类目)或者商品名称,相应的,系统便可以判断出模型库中是否存在与该商品类目/商品名称对应的AI大模型,如果存在,则可以构造提示文本,并调用该AI大模型进行商品图的生成。如果不存在与该商品类目/商品名称对应的AI大模型,则可以引导用户进入到在线训练AI大模型的界面,之后,用户可以上传能够表达该商品类目/商品名称对应商品的商品特征的多张图像作为训练样本,系统则可以触发针对该商品类目/商品名称的AI大模型的训练过程,在训练过程中,可以对微调模型的参数进行调整,得到一组与该商品类目/商品名称对应的参数值,之后,就可以利用该训练完成的AI大模型生成具体的商品图,另外,还可以在模型库中保存与该商品类目/商品名称之间的对应关系,以供其他的商家等用户使用。
其中,在上传具体的训练样本图像时,为了得到更准确的训练效果,还可以要求用户为具体的训练样本图像添加通过文本描述的特征标签,通过该特征标签可以表达出具体训练样本图像主要体现出哪方面的特征。当然,具体实现时,这种对训练样本图像进行打标的过程对于普通用户而言可能会存在一定的难度,因此,在优选的实施方式下,在用户上传了训练样本图像之后,还可以利用计算机视觉模型等对训练样本图像进行处理,生成针对训练样本图像的文本描述信息,这种文本描述信息可以作为用户对训练样本图像进行打标时的参考信息,用户可以从中选择关键词等对训练样本图像进行打标,或者,也可以在此基础上额外添加其他特征标签,等等。
从系统架构角度而言,参见图1,本申请实施例可以提供AI生成商品图的服务,通过分别为多个不同的商品类目/商品名称训练各自对应的微调模型,使得AI大模型除了可以具有基于文本生成图像的基础能力,还可以具有对具体商品类目/商品名称对应商品的商品特征进行感知的能力,这种商品类目/商品名称与AI大模型之间的对应关系可以保存到模型库中,供具体需要生成商品图的需求方来使用。例如,一种应用场景中,可以在商家创建商品等场景中提供AI生成商品图的功能,商家可以在通过系统提供的用于创建新商品的模块创建商品的过程中,利用该功能生成具体的商品图。具体的,商家可以输入具体待创建商品所属的叶子类目或者商品名称信息,发起请求后,便可以使用对应的AI大模型生成商品图,商家则可以利用该商品图完成商品创建。另外,还可以提供在线训练AI大模型的工具,使得商家等用户可以根据自身需求训练某个具体商品类目/商品名称对应的AI大模型,该工具还可以通过计算机视觉模型等,帮助商家等用户完成对训练样本图像的打标等操作。
下面对本申请实施例提供的具体实现方案进行详细介绍。
实施例一
首先,该实施例一提供了一种生成商品图的方法,参见图2,该方法可以包括:
S201:响应于为目标商品类目/商品名称生成商品图的请求,确定所述目标商品类目/商品名称对应的人工智能AI图像生成模型,所述AI图像生成模型由基础模型以及微调模型组成,所述基础模型用于提供基于提示文本进行图片生成的基础能力,所述微调模型用于提供感知所述目标商品类目/商品名称对应商品的商品特征的能力。
本申请实施例提供的AI生成商品图的功能可以在多种场景中应用,例如,在商家创建新商品的场景中,可以在用于创建新商品的界面中提供用于发起AI生成商品图请求的操作选项,以便通过所述操作选项为目标商品类目/商品名称生成商品图的请求。也就是说,在商家创建新商品时,不再需要提前自行拍摄商品图,或者邀请专业团队进行商品图拍摄,而是可以通过AI大模型生成商品图,商家只需要输入具体所需的商品类目或商品名称即可。
其中,在本申请实施例中,AI大模型可以由基础模型与微调模型组成,其中,基础模型用于提供基于提示文本进行图片生成的基础能力,微调模型部分则可以用于提供感知所述目标商品类目/商品名称对应商品的商品特征的能力。具体的,基础模型部分的参数可以是为多个商品类目/商品名称所公用的,微调模型则可以随着商品类目/商品名称而变化,也即,具体的模型库中可以包括关于基础模型的一组参数值,以及关于微调模型的多组参数值,分别对应不同的商品类目/商品名称。
这样,在具体需要为某个商品类目/商品名称生成商品图时,就可以从模型库中选择出该商品类目/商品名称对应的微调模型的参数值,并与基础模型的参数值一起,组成该商品类目/商品名称对应的AI大模型,并用于生成对应的商品图。
具体的,上述AI大模型中关于微调模型部分,可以是预先完成训练并保存在模型库中,另外,还可以提供在线训练工具,如果模型库中不存在当前商品类目/商品名称对应的AI大模型,则可以由商家等用户利用该在线训练工具,上传该商品类目/商品名称对应的多个训练样本图像,这种训练样本图像可以是通过搜索引擎搜索等方式获得,只要能够表达出具体商品类目/商品名称对应商品在某个或者某些方面的特征即可。除了上传训练样本图像,商家等用户还可以对具体的训练样本图像进行打标,也即添加通过文本形式表达的特征标签,这样,可以提升模型训练的准确度。
S202:构造用于与所述AI图像生成模型进行交互的提示文本,并基于所述提示文本对所述AI图像生成模型进行调用,以使得所述AI图像生成模型生成关于所述目标商品类目/商品名称的至少一张商品图。
在确定出具体商品类目/商品名称对应的AI大模型后,可以构造用于与所述AI图像生成模型进行交互的提示文本(Prompt),之后,就可以基于所述提示文本对所述AI图像生成模型进行调用,以使得所述AI图像生成模型生成关于所述目标商品类目/商品名称的至少一张商品图。
其中,在构造提示文本时,可以根据具体需求而定,例如,如果仅需要生成简单的白底图(也即透明背景)等,则可以进行在提示文本中体现商品类目/商品名称信息。当然,还可以在提示文本中体现出具体微调模型的名称等标识。例如,“白糖罂荔枝”对应的微调模型为:<lora:ohwx_litchi-v1:0.8>,可以将该信息体现在提示文本中,等等。
另外,如果需要生成的商品图中,使得商品主体展示出某种状态,或者需要在商品图中具有某种场景或者风格的背景,则还可以在构造提示文本时,对这种状态、场景或者风格等信息体现在提示文本中,例如,某提示文本可以为“litchi,peeled,leaf,fruit,realistic,<lora:ohwx_litchi-v1:0.8>”,也即,需要在生成“白糖罂荔枝”的商品图时,在商品图中将部分荔枝展示为“剥开”状态,还要带有“叶子”场景,生成“逼真”的商品图,则可以将这些需求体现在提示文本中,等等。另外,关于对所需生成图片的分辨率、数量等,也可以在提示文本中进行体现。
其中,关于具体的商品主体状态、场景/风格等信息,可以是由系统根据具体商品类目/商品名称的商品图中,常见的商品主体状态、场景/风格等进行确定。或者,还可以为商家提供设定这些信息的操作选项,使得商家在发起AI生成商品图的请求时,可以对具体所需的商品主体状态、场景/风格等信息进行配置,相应的,在构造提示文本时就可以根据商家提交的需求进行来进行构造。
具体实现时,可以由AI图像生成模型中的基础模型提供关于目标场景/风格的图像的生成能力。或者,也可以通过同一个微调模型,同时感知商品特征及场景/风格特征。或者,在另一种方式下,由于同一个基础模型可以关联多个微调模型,因此,为了在场景/风格等方面获得更好的生成效果,还可以通过其中第一微调模型用于感知所述目标商品类目/商品名称对应商品的商品特征,第二微调模型则可以具有感知所述目标场景/风格的特征的能力。具体实现时,这种第一微调模型就可以是预先利用能够表达所述目标商品类目/商品名称对应商品的商品特征的多张训练样本图片对微调模型进行参数训练后生成的。第二微调模型可以预先利用能够表达具体场景/风格特征的多张训练样本图片对微调模型进行参数训练后生成的
在通过AI大模型生成具体的商品图之后,便可以返回给商家,商家可以利用这种商品图完成创建商品的过程。当然,也可以在其他场景下进行商品图的生成,例如,在需要为某页面生成Banner图(横幅海报等)时,可能需要在背景图上层叠加几个商品主体图,这种商品主体图可以不是来自于真实商品的商品图,而是只需要体现出是商品主体即可,在这种情况下,也可以利用本申请实施例提供的方案,来进行商品图的生成,然后再根据Banner图的模板,与具体的背景图等其他元素一起合成为Banner图,等等。
总之,通过本申请实施例,可以分别为多种不同的商品类目/商品名称提供专属的AI图像生成模型,这种AI图像生成模型由基础模型以及微调模型组成,可以通过其中的基础模型提供基于提示文本进行图片生成的基础能力,所述微调模型则可以用于提供感知所述目标商品类目/商品名称对应商品的商品特征的能力。这样,在需要为目标商品类目/商品名称生成商品图时,就可以确定所述目标商品类目/商品名称对应的人工智能AI图像生成模型,并构造用于与所述AI图像生成模型进行交互的提示文本后,基于所述提示文本对所述AI图像生成模型进行调用,这样,该AI图像生成模型就可以生成关于所述目标商品类目/商品名称的至少一张商品图。通过这种方式,能够进行自动化的商品图生成,并且,具体的AI大模型可以通过微调模型具体感知目标商品类目/商品名称对应商品的商品特征的能力,因此,可以使得生成的商品图具有比较高的真实性,可以直接用于商品创建等场景,因此,可以降低帮助用户以更低成本更高效率的完成建品等流程。
实施例二
该实施例二从上述方案在商家“建品”场景中的应用的角度,提供了一种创建商品的方法,参见图3,该方法可以包括:
S301:在用于创建新商品的界面中,提供用于发起通过AI图像生成模型生成商品图的请求的操作选项;
S302:响应于通过所述操作选项发起的为目标商品类目/商品名称生成商品图的请求,确定所述目标商品类目/商品名称对应的AI图像生成模型,所述AI图像生成模型由基础模型以及微调模型组成,所述基础模型用于提供基于提示文本进行图片生成的基础能力,所述微调模型用于提供感知所述目标商品类目/商品名称对应商品的商品特征的能力;
S303:构造用于与所述AI图像生成模型进行交互的提示文本,并基于所述提示文本对所述AI图像生成模型进行调用,以使得所述AI图像生成模型生成关于所述目标商品类目/商品名称的至少一张商品图;
S304:返回所述至少一张商品图,以便利用所述至少一张商品图完成创建新商品的流程。
实施例三
前述实施例一中还提及了对AI大模型进行在线训练的工具,因此,该实施例三从该在线训练的工具角度,提供了一种模型训练方法,参见图4,该方法可以包括:
S401:响应于为目标商品类目/商品名称生成AI图像生成模型的请求,获取针对所述目标商品类目/商品名称上传的多张训练样本图片,所述训练样本图片用于表达所述目标商品类目/商品名称对应商品的商品特征。
S402:获取通过文本对所述多张训练样本图片中的商品特征进行描述的特征标签信息。
S403:将所述多张训练样本图片以及对应的特征标签信息输入到AI图像生成模型中进行训练,所述AI图像生成模型由基础模型以及微调模型组成,其中,所述基础模型用于提供基于提示文本进行图片生成的基础能力,在训练过程中,在保持所述基础模型的参数不变的状态下,通过调整优化所述微调模型的参数,为目标商品类目/商品名称生成AI图像生成模型。
具体实现时,还可以利用计算机视觉模型对所述训练样本图片进行处理,并输出关于所述训练样本图片的文本描述信息,以便以所述文本描述信息作为参考,为所述训练样本图片添加对应的特征标签信息。例如,具体的计算机视觉模型可以包括CLIP(Contrastive Language-Image Pretraining)模型等,其中,CLIP模型用于将自然语言和图像进行对比学习,通过联合训练文本和图像数据,学习将图像和与之相对应的文本描述进行相关性匹配,一般可用生成输入图片的相关描述信息。当然,在具体实现时,也可以使用其他的计算机视觉模型来实现。
为了更好地理解本申请实施例提供的上述方案,下面结合图4,通过一个实际应用中的例子进行介绍,在该例子中,以“妃子笑荔枝”为例。
首先,在模型训练阶段,可以由用户上传等方式,获取到5张或者更多的商品图片作为训练样本,这些训练样本图像分别都是与“妃子笑荔枝”相关的,可以从多种不同的角度体现出“妃子笑荔枝”的特征,尤其是区别于其他品种的“荔枝”的特征,等等。
之后,可以通过CLLP模型等,对各个训练样本图像进行“图生文”的处理,得到关于各个训练样本图像的文本描述信息(在图5所示的例子中,生成的文本描述信息主要以英文状态存在)。可以以这种文本描述信息作为参考,对各个训练样本图像进行打标。
完成打标后,可以构造训练数据,具体的训练数据可以包括训练样本图像以及对应的特征标签,可以通过这种特征标签构造出AI大模型的Prompt等提示文本。例如,在图4所示的例子中,可以在Prompt中对各个训练样本图像的特征标签等分别进行描述,并将具体的训练样本图像以及该Prompt作为AI大模型的训练数据。
然后可以对AI大模型中的Lora部分也即微调模型部分进行训练,再结合AI大模型中的SD等基础模型,可以得到“妃子笑荔枝”这一商品类目或商品名称的专属模型。
后续在对这种专属模型的使用阶段,就可以选择需要进行商品图生成的商品类目或者商品名称,之后可以进行模型匹配,例如,输入的商品名称是“妃子笑荔枝”,则可以匹配出上述为“妃子笑荔枝”训练生成的专属模型。
完成模型选择后,可以进行提示文本的构造,构造提示文本时,可以包括具体所需要的场景信息,这种场景信息可以包括背景的风格、前景商品主体的状态等,另外,还可以在提示文本中体现所需要生成的商品图的数量、分辨率等信息。例如,在图5所示的例子中,场景信息可以是“on the plate”,也即“放在盘子上”,需要生成3张,分辨率为512×512。
完成提示文本的构造后,可以输入到“妃子笑荔枝”专属的AI大模型中,该AI大模型即可输出对应的商品图,例如,输出的结果也可以如图5中所示,其中包括3张图片,每张图片中都不仅能够展示出“妃子笑荔枝”的特点,而且还满足了“放在盘子上”这一场景需求,等等。
关于实施例二、三中的未详述部分,可以参见实施例一以及本说明书中其他部分的记载,这里不再赘述。
需要说明的是,本申请实施例中可能会涉及到对用户数据的使用,在实际应用中,可以在符合所在国的适用法律法规要求的情况下(例如,用户明确同意,对用户切实通知,等),在适用法律法规允许的范围内在本文描述的方案中使用用户特定的个人数据。
与实施例一相对应,本申请实施例还提供了一种生成商品图的装置,该装置可以包括:
模型确定单元,用于响应于为目标商品类目/商品名称生成商品图的请求,确定所述目标商品类目/商品名称对应的人工智能AI图像生成模型,所述AI图像生成模型由基础模型以及微调模型组成,所述基础模型用于提供基于提示文本进行图片生成的基础能力,所述微调模型用于提供感知所述目标商品类目/商品名称对应商品的商品特征的能力;
提示文本构造单元,用于构造用于与所述AI图像生成模型进行交互的提示文本,并基于所述提示文本对所述AI图像生成模型进行调用,以使得所述AI图像生成模型生成关于所述目标商品类目/商品名称的至少一张商品图。
其中,该装置还可以包括:
场景/风格信息获取单元,哟关于获取生成商品图时所需的场景/风格信息,以便根据所述场景/风格信息构造所述提示文本,并由所述AI图像生成模型生成关于所述目标商品类目/商品名称且具有对应场景/风格的至少一张商品图。
其中,所述生成商品图时所需的场景/风格信息是根据所述请求中携带的指定场景/风格信息进行确定,或者,根据所述目标商品类目/商品名称对应的常用场景/风格进行确定。
具体的,可以由所述AI图像生成模型中的基础模型提供关于目标场景/风格的图像的生成能力。
或者,所述AI图像生成模型关联有至少两个微调模型,其中第一微调模型用于感知所述目标商品类目/商品名称对应商品的商品特征,第二微调模型具有感知所述目标场景/风格的特征的能力。
其中,所述用于提供感知所述目标商品类目/商品名称对应商品的商品特征能力的微调模型,是预先利用能够表达所述目标商品类目/商品名称对应商品的商品特征的多张训练样本图片对所述微调模型进行参数训练后生成的。
所述目标商品类目/商品名称对应商品的商品特征包括:所述目标商品类目/商品名称对应商品所具有的、区别于同一上级类目下其他商品类目/商品名称对应商品的特征。
另外,该装置可以包括:
操作选项提供单元,用于在用于创建新商品的界面中提供用于发起所述请求的操作选项,以便通过所述操作选项为目标商品类目/商品名称生成商品图的请求。
与实施例二相对应,本申请实施例还提供了一种模型训练装置,该装置可以包括:
样本获取单元,用于响应于为目标商品类目/商品名称生成AI图像生成模型的请求,获取针对所述目标商品类目/商品名称上传的多张训练样本图片,所述训练样本图片用于表达所述目标商品类目/商品名称对应商品的商品特征;
标签获取单元,用于获取通过文本对所述多张训练样本图片中的商品特征进行描述的特征标签信息;
训练单元,用于将所述多张训练样本图片以及对应的特征标签信息输入到AI图像生成模型中进行训练,所述AI图像生成模型由基础模型以及微调模型组成,其中,所述基础模型用于提供基于提示文本进行图片生成的基础能力,在训练过程中,在保持所述基础模型的参数不变的状态下,通过调整优化所述微调模型的参数,为目标商品类目/商品名称生成AI图像生成模型。
其中,所述获取通过文本对所述多张训练样本图片中的商品特征进行描述的特征标签信息之前,还可以包括:
图生文处理单元,用于利用计算机视觉模型对所述训练样本图片进行处理,并输出关于所述训练样本图片的文本描述信息,以便以所述文本描述信息作为参考,为所述训练样本图片添加对应的特征标签信息。
另外,本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述方法实施例中任一项所述的方法的步骤。
以及一种电子设备,包括:
一个或多个处理器;以及
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行前述方法实施例中任一项所述的方法的步骤。
其中,图6示例性的展示出了电子设备的架构,具体可以包括处理器610,视频显示适配器611,磁盘驱动器612,输入/输出接口613,网络接口614,以及存储器620。上述处理器610、视频显示适配器611、磁盘驱动器612、输入/输出接口613、网络接口614,与存储器620之间可以通过通信总线630进行通信连接。
其中,处理器610可以采用通用的CPU(Central Processing Unit,处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本申请所提供的技术方案。
存储器620可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器620可以存储用于控制电子设备600运行的操作系统621,用于控制电子设备600的低级别操作的基本输入输出系统(BIOS)。另外,还可以存储网页浏览器623,数据存储管理系统624,以及生成商品图处理系统625等等。上述生成商品图处理系统625就可以是本申请实施例中具体实现前述各步骤操作的应用程序。总之,在通过软件或者固件来实现本申请所提供的技术方案时,相关的程序代码保存在存储器620中,并由处理器610来调用执行。
输入/输出接口613用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
网络接口614用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线630包括一通路,在设备的各个组件(例如处理器610、视频显示适配器611、磁盘驱动器612、输入/输出接口613、网络接口614,与存储器620)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器610、视频显示适配器611、磁盘驱动器612、输入/输出接口613、网络接口614,存储器620,总线630等,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本申请方案所必需的组件,而不必包含图中所示的全部组件。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上对本申请所提供的生成商品图的方法及电子设备,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本申请的限制。
Claims (12)
1.一种生成商品图的方法,其特征在于,包括:
响应于为目标商品类目/商品名称生成商品图的请求,确定所述目标商品类目/商品名称对应的人工智能AI图像生成模型,所述AI图像生成模型由基础模型以及微调模型组成,所述基础模型用于提供基于提示文本进行图片生成的基础能力,所述微调模型用于提供感知所述目标商品类目/商品名称对应商品的商品特征的能力;
构造用于与所述AI图像生成模型进行交互的提示文本,并基于所述提示文本对所述AI图像生成模型进行调用,以使得所述AI图像生成模型生成关于所述目标商品类目/商品名称的至少一张商品图。
2.根据权利要求1所述的方法,其特征在于,还包括:
获取生成商品图时所需的场景/风格信息,以便根据所述场景/风格信息构造所述提示文本,并由所述AI图像生成模型生成关于所述目标商品类目/商品名称且具有对应场景/风格的至少一张商品图。
3.根据权利要求2所述的方法,其特征在于,
所述生成商品图时所需的场景/风格信息是根据所述请求中携带的指定场景/风格信息进行确定,或者,根据所述目标商品类目/商品名称对应的常用场景/风格进行确定。
4.根据权利要求2所述的方法,其特征在于,
由所述AI图像生成模型中的基础模型提供关于目标场景/风格的图像的生成能力。
5.根据权利要求2所述的方法,其特征在于,
所述AI图像生成模型关联有至少两个微调模型,其中第一微调模型用于感知所述目标商品类目/商品名称对应商品的商品特征,第二微调模型具有感知所述目标场景/风格的特征的能力。
6.根据权利要求1至5任一项所述的方法,其特征在于,
所述用于提供感知所述目标商品类目/商品名称对应商品的商品特征能力的微调模型,是预先利用能够表达所述目标商品类目/商品名称对应商品的商品特征的多张训练样本图片对所述微调模型进行参数训练后生成的。
7.根据权利要求1至5任一项所述的方法,其特征在于,
所述目标商品类目/商品名称对应商品的商品特征包括:所述目标商品类目/商品名称对应商品所具有的、区别于同一上级类目下其他商品类目/商品名称对应商品的特征。
8.一种创建商品的方法,其特征在于,包括:
在用于创建新商品的界面中,提供用于发起通过AI图像生成模型生成商品图的请求的操作选项;
响应于通过所述操作选项发起的为目标商品类目/商品名称生成商品图的请求,确定所述目标商品类目/商品名称对应的AI图像生成模型,所述AI图像生成模型由基础模型以及微调模型组成,所述基础模型用于提供基于提示文本进行图片生成的基础能力,所述微调模型用于提供感知所述目标商品类目/商品名称对应商品的商品特征的能力;
构造用于与所述AI图像生成模型进行交互的提示文本,并基于所述提示文本对所述AI图像生成模型进行调用,以使得所述AI图像生成模型生成关于所述目标商品类目/商品名称的至少一张商品图;
返回所述至少一张商品图,以便利用所述至少一张商品图完成创建新商品的流程。
9.一种模型训练方法,其特征在于,包括:
响应于为目标商品类目/商品名称生成AI图像生成模型的请求,获取针对所述目标商品类目/商品名称上传的多张训练样本图片,所述训练样本图片用于表达所述目标商品类目/商品名称对应商品的商品特征;
获取通过文本对所述多张训练样本图片中的商品特征进行描述的特征标签信息;
将所述多张训练样本图片以及对应的特征标签信息输入到AI图像生成模型中进行训练,所述AI图像生成模型由基础模型以及微调模型组成,其中,所述基础模型用于提供基于提示文本进行图片生成的基础能力,在训练过程中,在保持所述基础模型的参数不变的状态下,通过调整优化所述微调模型的参数,为目标商品类目/商品名称生成AI图像生成模型。
10.根据权利要求9所述的方法,其特征在于,
所述获取通过文本对所述多张训练样本图片中的商品特征进行描述的特征标签信息,之前还包括:
利用计算机视觉模型对所述训练样本图片进行处理,并输出关于所述训练样本图片的文本描述信息,以便以所述文本描述信息作为参考,为所述训练样本图片添加对应的特征标签信息。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至10任一项所述的方法的步骤。
12.一种电子设备,其特征在于,包括:
一个或多个处理器;以及
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行权利要求1至10任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311561017.XA CN117808097A (zh) | 2023-11-21 | 2023-11-21 | 生成商品图的方法及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311561017.XA CN117808097A (zh) | 2023-11-21 | 2023-11-21 | 生成商品图的方法及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117808097A true CN117808097A (zh) | 2024-04-02 |
Family
ID=90420522
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311561017.XA Pending CN117808097A (zh) | 2023-11-21 | 2023-11-21 | 生成商品图的方法及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117808097A (zh) |
-
2023
- 2023-11-21 CN CN202311561017.XA patent/CN117808097A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210303342A1 (en) | Automating tasks for a user across their mobile applications | |
US20190196698A1 (en) | Removing and Replacing Objects in Images According to a Directed User Conversation | |
CN112733042B (zh) | 推荐信息的生成方法、相关装置及计算机程序产品 | |
US20240095490A1 (en) | Aspect Pre-selection using Machine Learning | |
US20160054726A1 (en) | Terminal and method for supporting 3d printing, and computer program for performing the method | |
CN111580788B (zh) | 模板搭配信息推荐方法、装置及电子设备 | |
CN111428131A (zh) | 信息推送方法、装置及系统 | |
CN112287168A (zh) | 用于生成视频的方法和装置 | |
CN113989476A (zh) | 对象识别方法及电子设备 | |
CN113656572B (zh) | 一种对话处理方法和系统 | |
EP3471049A1 (en) | Information processing device, information processing method, and program | |
KR102234821B1 (ko) | 빅 데이터 및 머신 러닝 모델을 이용한 제품의 가격 예측을 수행하는 전자장치 및 그 동작 방법 | |
US11373057B2 (en) | Artificial intelligence driven image retrieval | |
CN110515929B (zh) | 书籍展示方法、计算设备及存储介质 | |
CN117808097A (zh) | 生成商品图的方法及电子设备 | |
US11935154B2 (en) | Image transformation infrastructure | |
US20230396857A1 (en) | Video generation method and apparatus, and electronic device and computer-readable medium | |
CN112613270B (zh) | 对目标文本进行样式推荐的方法、系统、设备及存储介质 | |
CN115686447A (zh) | 应用创建的智能推荐方法、应用的创建方法及装置和系统 | |
CN114842115A (zh) | 生成商品主图的方法及电子设备 | |
CN114297380A (zh) | 一种数据处理方法、装置、设备及存储介质 | |
CN109584012B (zh) | 用于生成物品推送信息的方法和装置 | |
CN112287173A (zh) | 用于生成信息的方法和装置 | |
Tatasciore | DelivAR: An augmented reality mobile application to expedite the package identification process for last-mile deliveries | |
US11860857B2 (en) | MUSS—map user submission states |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |