CN117237606A - 兴趣点图像生成方法、装置、电子设备及存储介质 - Google Patents

兴趣点图像生成方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN117237606A
CN117237606A CN202311197245.3A CN202311197245A CN117237606A CN 117237606 A CN117237606 A CN 117237606A CN 202311197245 A CN202311197245 A CN 202311197245A CN 117237606 A CN117237606 A CN 117237606A
Authority
CN
China
Prior art keywords
image
model
sample
static
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311197245.3A
Other languages
English (en)
Inventor
郭宁
孙奇
蔡文静
王浩
李昕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gaodeyunxin Technology Co ltd
Original Assignee
Beijing Gaodeyunxin Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gaodeyunxin Technology Co ltd filed Critical Beijing Gaodeyunxin Technology Co ltd
Priority to CN202311197245.3A priority Critical patent/CN117237606A/zh
Publication of CN117237606A publication Critical patent/CN117237606A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Processing Or Creating Images (AREA)

Abstract

本公开实施例公开了一种兴趣点图像生成方法、装置、电子设备及存储介质,该方法包括:获取目标兴趣点的图像描述信息,所述图像描述信息包括图像描述文本;将所述图像描述信息输入预先训练好的静态图像生成联合模型,执行所述预先训练好的静态图像生成联合模型生成所述目标兴趣点的静态图像,其中,所述静态图像生成联合模型包括第一大规模语言模型和文生图模型,所述第一大规模语言模型用于根据所述图像描述信息生成文本向量,所述文生图模型用于根据所述文本向量生成所述目标兴趣点的静态图像。该技术方案可以快速生成高质量的兴趣点图像。

Description

兴趣点图像生成方法、装置、电子设备及存储介质
技术领域
本公开涉及图像处理技术领域,具体涉及一种兴趣点图像生成方法、装置、电子设备及存储介质。
背景技术
随着科学技术的发展,人们生活品质不断提高,为了方便人们出行,电子地图应用而生,在现有的电子地图中,为了便于用户浏览和查询有用的信息,提供了兴趣点(Pointof Interest,POI)数据,兴趣点数据的丰富程度和吸引力与用户使用体验有着较强的相关性,更为优质的内容,更具活力的展现形式能够促进用户在地图客户端内停留,浏览深度内容,进而促成转化。
兴趣点数据中的兴趣点图像是向用户传递信息的重要一环,但是现有的电子地图中,兴趣点图像填充率不高,通常热度较高的兴趣点会有大量兴趣点图片,但是较冷门的兴趣点的兴趣点图像缺失就比较严重;而且,有的兴趣点图像源自于用户拍摄,拍摄角度/分辨率等无法达到展示的标准,图像质量较低。因此如何生成高质量的兴趣点图像成为目前亟待解决的技术问题。
发明内容
为了解决相关技术中的问题,本公开实施例提供一种兴趣点图像生成方法、装置、电子设备及存储介质。
第一方面,本公开实施例中提供了一种兴趣点图像生成方法。
具体地,所述兴趣点图像生成方法,包括:
获取目标兴趣点的图像描述信息,所述图像描述信息包括图像描述文本;
将所述图像描述信息输入预先训练好的静态图像生成联合模型,执行所述预先训练好的静态图像生成联合模型生成所述目标兴趣点的静态图像,其中,所述静态图像生成联合模型包括第一大规模语言模型和文生图模型,所述第一大规模语言模型用于根据所述图像描述信息生成文本向量,所述文生图模型用于根据所述文本向量生成所述目标兴趣点的静态图像。
第二方面,本公开实施例中提供了一种静态图像生成联合模型的训练方法,包括:
获取第一训练数据集,所述第一训练数据集包括多个正样本和/或多个负样本,所述正样本和所述负样本均包括样本兴趣点的样本图像、样本图像文本;
使用所述第一训练数据集对初始的静态图像生成联合模型进行训练,得到训练好的静态图像生成联合模型,所述静态图像生成联合模型包括第一大规模语言模型和文生图模型;
其中,所述静态图像生成联合模型的损失函数L=αL1+(1-α)L2,所述L1为所述文生图模型在去噪过程中预测的各个时间步的噪声与扩散过程中添加的高斯噪声的差异,所述L2为所述第一大规模语言模型输出的预测图像文本和所述样本图像文本之间的差异,所述α为预定参数值,所述第一大规模语言模型生成的文本向量为所述文生图模型的图像生成条件。
第三方面,本公开实施例中提供了一种动态图像生成联合模型的训练方法,包括:
获取样本兴趣点的样本图像和样本基础信息;
使用预定的图像分割模型,根据所述样本图像生成所述样本图像对应的各掩膜的掩膜信息;
获取所述样本图像对应的各掩膜的操作信息;
根据第二训练数据集,对第二大规模语言模型进行微调,得到训练好的第二大规模语言模型模型,所述第二训练数据集包括多个样本兴趣点的样本基础信息,样本图像及其对应的各掩膜的掩膜信息、操作信息;
其中,训练好的动态图像生成联合模型包括训练好的第二大规模语言模型,以及预定的图像分割模型和预定的动态图像编辑模型;所述训练好的第二大规模语言模型用于根据各掩膜的掩膜信息和基础信息生成图像编辑指令,所述预定的动态图像编辑模型用于根据所述图像编辑指令编辑图像生成动态图像。
第四方面,本公开实施例中提供了一种兴趣点图像生成装置,包括:
信息获取模块,被配置为获取目标兴趣点的图像描述信息,所述图像描述信息包括图像描述文本;
静态图像生成模块,被配置为将所述图像描述信息输入预先训练好的静态图像生成联合模型,执行所述预先训练好的静态图像生成联合模型生成所述目标兴趣点的静态图像,其中,所述静态图像生成联合模型包括第一大规模语言模型和文生图模型,所述第一大规模语言模型用于根据所述图像描述信息生成文本向量,所述文生图模型用于根据所述文本向量生成所述目标兴趣点的静态图像。
第五方面,本公开实施例提供了一种电子设备,包括存储器和处理器,其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现如第一方面中任一项所述的方法。
第六方面,本公开实施例中提供了一种计算机可读存储介质,其上存储有计算机指令,该计算机指令被处理器执行时实现如第一方面中任一项所述的方法。
第七方面,本公开实施例中提供了一种计算机程序产品,包括计算机指令,该计算机指令被处理器执行时实现如第一方面中任一项所述的方法步骤。
根据本公开实施例提供的技术方案,可以使用预先训练好的静态图像生成联合模型,根据所述图像描述信息,生成所述目标兴趣点的静态图像,该图像描述信息包括图像描述文本,可以利用该静态图像生成联合模型中第一大规模语言模型的超强的自然语言理解能力,来理解该图像描述信息,生成文本向量,然后就可以使用该文本向量对该静态图像生成联合模型中文生图模型进行图像生成条件的限制,利用该文生图模型的图像生成能力,基于所述文本向量生成符合该图像描述信息所描述的静态图像,如此可以通过该第一大规模语言模型理解的文本向量,在文生图模型中进行生成条件的限制,这样就能生成高质量的兴趣点图像,填充缺失的兴趣点图像或替代低质量的兴趣点图像,使兴趣点数据更加丰富和有吸引力,为用户提供更好的地图服务。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
结合附图,通过以下非限制性实施方式的详细描述,本公开的其它特征、目的和优点将变得更加明显。在附图中:
图1示出根据本公开的实施例的兴趣点图像生成方法的流程图;
图2示出根据本公开的实施例的静态图像生成联合模型的训练方法的流程图;
图3示出根据本公开的实施例的动态图像生成联合模型的训练方法的流程图;
图4示出根据本公开的实施例的兴趣点图像生成装置的结构框图;
图5示出根据本公开的实施例的静态图像生成联合模型的训练装置的结构框图;
图6示出根据本公开的实施例的动态图像生成联合模型的训练装置的结构框图;
图7示出根据本公开的实施例的电子设备的结构框图;
图8示出适于用来实现根据本公开实施例的方法的计算机系统的结构示意图。
具体实施方式
下文中,将参考附图详细描述本公开的示例性实施例,以使本领域技术人员可容易地实现它们。此外,为了清楚起见,在附图中省略了与描述示例性实施例无关的部分。
在本公开中,应理解,诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在,并且不欲排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。
另外还需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。
如上文所述,随着科学技术的发展,人们生活品质不断提高,为了方便人们出行,电子地图应用而生,在现有的电子地图中,为了便于用户浏览和查询有用的信息,提供了兴趣点(Point of Interest,POI)数据,兴趣点数据的丰富程度和吸引力与用户使用体验有着较强的相关性,更为优质的内容,更具活力的展现形式能够促进用户在地图客户端内停留,浏览深度内容,进而促成转化。兴趣点数据中的兴趣点图像是向用户传递信息的重要一环,但是现有的电子地图中,兴趣点图像填充率不高,通常热度较高的兴趣点会有大量兴趣点图片,但是较冷门的兴趣点的兴趣点图像缺失就比较严重;而且,有的兴趣点图像源自于用户拍摄,拍摄角度/分辨率等无法达到展示的标准,图像质量较低;因此如何生成高质量的兴趣点图像成为目前亟待解决的技术问题。
本公开提供了一种兴趣点图像生成方法,该方法可以使用训练好的静态图像生成联合模型,根据目标兴趣点的图像描述信息来自主生成目标兴趣点的静态图像,可以利用该静态图像生成联合模型中第一大规模语言模型的超强的自然语言理解能力,来理解该图像描述信息,生成文本向量,然后就可以使用该文本向量对该静态图像生成联合模型中文生图模型进行图像生成条件的限制,利用该文生图模型的图像生成能力,基于所述文本向量生成符合该图像描述信息所描述的静态图像,如此可以通过该第一大规模语言模型理解的文本向量,在文生图模型中进行生成条件的限制,这样就能生成高质量的兴趣点图像,填充缺失的兴趣点图像或替代低质量的兴趣点图像,使兴趣点数据更加丰富和有吸引力,为用户提供更好的地图服务。
图1示出根据本公开的实施例的兴趣点图像生成方法的流程图。如图1所示,所述兴趣点图像生成方法包括以下步骤S101-S102:
在步骤S101中,获取目标兴趣点的图像描述信息,所述图像描述信息包括图像描述文本;
在步骤S102中,将所述图像描述信息输入预先训练好的静态图像生成联合模型,执行所述预先训练好的静态图像生成联合模型,根据所述图像描述信息,生成所述目标兴趣点的静态图像,其中,所述静态图像生成联合模型包括第一大规模语言模型和文生图模型,所述大规模语言模型用于根据所述图像描述信息生成文本向量,所述文生图模型用于根据所述文本向量生成所述目标兴趣点的静态图像。
在一种可能的实施方式中,该兴趣点图像生成方法适用于可执行兴趣点图像生成的计算机、计算设备、服务器、服务器集群等设备。
在一种可能的实施方式中,该目标兴趣点可以是缺失兴趣点图像的兴趣点,也可以是兴趣点图像的图像质量较低需要替换掉的兴趣点。
在一种可能的实施方式中,该图像描述文本指的是任意一种能够间接推理要生成的图像或直观描述要生成的图像的文本,可以是目标兴趣点的属性信息文本、产品描述文本、评论文本等各种描述兴趣点中的至少一种文本,该属性信息文本包括兴趣点的名称、品牌、类别等固有属性信息的文本。该产品描述文本包括SKU(Stock Keeping Unit,最小库存单元)描述文本/或SPU(Standard Product Unit,标准化产品单元)描述文本,比如说,产品为手机时,该SPU描述文本为XX型号的手机,该SKU描述文本为内存16G、颜色为黑色的XX型号的手机。
在一种可能的实施方式中,该静态图像生成联合模型用于根据所述图像描述信息生成所述目标兴趣点的静态图像,其输入为图像描述信息,其输出为静态图像。该静态图像生成联合模型是第一大规模语言模型(Large Language Model,LLM)和文生图模型的联合模型。该文生图模型可以是SDM(Stable Diffusion Model,稳定扩散模型),SDM是一种基于Latent Diffusion Models(潜在扩散模型,LDMs)的文图生成(text-to-image)模型。具体来说,Stable Diffusion使用一个文图数据集训练了一个Latent Diffusion Models,该LDMs模型专门用于文图生成,该SDM模型经过训练可以逐步对随机高斯噪声进行去噪以获得与文本描述匹配的图像。这里需要说明的是,除了SDM,该文生图模型还可以是其他类型的智能绘图模型。
在一种可能的实施方式中,该第一大规模语言模型用于对图像描述信息进行理解,生成其理解自然语言含义的文本向量,然后由该第一大规模语言模型的输出层根据该文本向量输出其理解的自然语言含义。本实施方式中,该第一大规模语言模型和该文生图模型是联合模型,该第一大规模语言模型中间生成的文本向量为文生图模型的输入,用于限制该文生图模型生成符合该图像描述信息所描述的静态图像,如此就可以为该目标兴趣点生成静态图像。示例的,该文生图模型可以为SDM,该SDM中包括去噪网络和扩散网络,扩散网络的输入为预定的噪声图像的编码,该扩散网络可以对该噪声图像逐渐添加高斯噪声生成随机噪声图像,该文本向量会输入至去噪网络,该去噪网络会以文本向量为条件,估计该随机噪声图像中的噪声,根据估计的噪声,再通过后验概率公式生成噪声较小的图像;通过迭代,去噪网络会逐步生成该文本向量限定的内容,并将其注入解码器中生成逼真的静态图像。
本实施方式可以使用预先训练好的静态图像生成联合模型,根据所述图像描述信息,生成所述目标兴趣点的静态图像,该图像描述信息包括图像描述文本,可以利用该静态图像生成联合模型中第一大规模语言模型的超强的自然语言理解能力,来理解该图像描述信息,生成文本向量,然后就可以使用该文本向量对该静态图像生成联合模型中文生图模型进行图像生成条件的限制,利用该文生图模型的图像生成能力,基于所述文本向量生成符合该图像描述信息所描述的静态图像,如此可以通过该第一大规模语言模型理解的文本向量,在文生图模型中进行生成条件的限制,这样就能生成高质量的兴趣点图像,填充缺失的兴趣点图像或替代低质量的兴趣点图像,使兴趣点数据更加丰富和有吸引力,为用户提供更好的地图服务。
在一种可能的实施方式中,所述图像描述信息还包括用于描述所述目标兴趣点的低质量图像,所述将所述图像描述信息输入预先训练好的静态图像生成联合模型,执行所述预先训练好的静态图像生成联合模型生成所述目标兴趣点的静态图像,包括:
将所述图像描述文本和所述低质量图像输入至所述第一大规模语言模型,执行所述第一大规模语言模型,得到所述第一大规模语言模型输出的文本向量;
将所述文本向量和所述低质量图像输入至所述文生图模型,执行所述文生图模型,得到所述文生图模型输出的所述目标兴趣点的静态图像。
在该实施方式中,所述目标兴趣点已有用于描述该目标兴趣点的兴趣点图像,但是该兴趣点图像的图像质量较低是低质量图像,需要替换掉,此时,该图像描述信息除了包括图像描述文本外,还可以包括该低质量图像,该静态图像生成联合模型用于根据该图像描述文本和所述低质量图像来生成静态图像。
在该实施方式中,该第一大规模语言模型是多模态的大规模语言模型,除了可以理解该图像描述文本外,还可以理解该低质量图像的自然语言含义,将该图像描述文本和低质量图像输入至所述第一大规模语言模型后,该第一大规模语言模型可以将该低质量图像进行embedding(嵌入)化后和该图像描述文本拼接在一起,并据此生成文本向量,如此就可以得到第一大规模语言模型输出的文本向量。
在该实施方式中,该文生图模型可以为SDM,该SDM中包括去噪网络和扩散网络,在该图像描述信息中包括该低质量图像时,可以将该低质量图像输入至该SDM中编码器,得到该低质量图像的编码,此时该SDM中的扩散网络的输入不是预定的噪声图像而是该低质量图像的编码,该扩散网络可以对该低质量图像逐渐添加高斯噪声生成随机噪声图像,可以将该文本向量和随机噪声图像输入至该SDM中的去噪网络,该去噪网络会以文本向量为条件,估计该随机噪声图像中的噪声,根据估计的噪声,再通过后验概率公式生成噪声较小的图像;通过迭代,去噪网络会逐步生成该文本向量限定的内容,并将其注入解码器中生成逼真的静态图像。
本实施方式还可以使用低质量图像和图像描述文本来生成静态图像,参考了已有的低质量图像可以生成更贴近于现实的,逼真的静态图像。
在一种可能的实施方式中,所述第一大规模语言模型对应有多个提示语模板,
所述将所述图像描述信息输入预先训练好的静态图像生成联合模型,执行所述预先训练好的静态图像生成联合模型生成所述目标兴趣点的静态图像,包括:
将所述图像描述信息输入预先训练好的静态图像生成联合模型,多次执行所述预先训练好的静态图像生成联合模型生成所述目标兴趣点的静态图像,得到多张不同的静态图像;
所述方法还包括:
针对每张静态图像,确定所述静态图像对应的提示语,所示提示语为所述第一大规模语言模型根据所述图像描述信息和所述提示语模板生成;
将所述静态图像输入所述第一大规模语言模型,得到所述第一大规模语言模型输出的静态图像文本;
根据所述静态图像的静态图像文本和所述静态图像对应的提示语,计算所述静态图像的质量分;
根据所述多张不同的静态图像的质量分,从所述多张不同的静态图像中选取至少一张目标静态图像。
在该实施方式中,提示语(Prompt)模板能够帮助大规模语言模型“回忆”起预训练阶段学到的知识,指导大规模语言模型执行任务,该第一大规模语言模型对应有多个提示语模板,示例的,其中一个提示语模板为:“店铺名称「XXXXX」,有产品「XXX」「XXX」,用户评论「XXXXXX」,根据以上信息,生成一张写实风格的招牌图片,生产多种形象的产品图片。”,在获取到图像描述文本后,可以将图像描述文本中的内容对提示语模板中的「XXXXXX」进行填充。假设目标兴趣点的图像描述文本如下表1所示:
图像描述文本的字段名称 图像描述文本的字段值
目标兴趣点名称 小董百货五金电料水暖管件
目标兴趣点产品名称 铁皮剪刀、8号螺母
目标兴趣点用户评论 质优价廉,实在实惠,诚信
表1
将上表1所示的图像描述文本的内容补入该提示语模板,就可以得到以下提示语:“店铺名称「小董百货五金电料水暖管件」,有产品「铁皮剪刀」「8号螺母」,用户评论「质优价廉,实在实惠,诚信」,根据以上信息,生成一张写实风格的招牌图片,生产多种形象的产品图片。”。
在该实施方式中,将所述图像描述信息输入预先训练好的静态图像生成联合模型后,可以多次执行所述预先训练好的静态图像生成联合模型来生成所述目标兴趣点的静态图像,每执行一次,可以生成一张静态图像。其中任意两次执行时可以使用不同的提示语模板,也可以使用相同的提示语模板,使用不同的提示语模板,可以生成不同的静态图像;而由于静态图像生成的随机性,即使使用相同的提示语模板,每次生成的静态图像也不相同,故多次使用该静态图像生成联合模型可以生成多张静态图像。
在该实施方式中,为了获取更高质量的静态图像,可以从生成的多张静态图像中选取质量最高的一张或多张目标静态图像,选取方式可以是人工选取,但是人工选取需要耗费大量成本,故为了降低成本也可以自动进行质量评估选取质量最高的至少一张目标静态图像。
在该实施方式中,自动选取方式可以是使用图像质量打分模型自动对各静态图像进行打分,得到该静态图像的质量分,然后选取质量分最高的一张或多张目标静态图像。
在一种可能的实施方式中,所述从多张不同的静态图像中筛选至少一张目标静态图像包括:
针对每张静态图像,确定所述静态图像对应的提示语,所示提示语为所述第一大规模语言模型根据所述图像描述信息和所述提示语模板生成;
将所述静态图像输入所述第一大规模语言模型,得到所述第一大规模语言模型输出的静态图像文本;
计算所述静态图像的静态图像文本和所述静态图像对应的提示语的第一相似度;
根据所述第一相似度确定所述静态图像的质量分;
根据所述多张不同的静态图像的质量分,从所述多张不同的静态图像中选取至少一张目标静态图像。
在该实施方式中,该图像质量打分模型可以包括第一大规模语言模型和计算层,针对每张静态图像,可以确定所述静态图像对应的提示语,同时将所述静态图像输入所述第一大规模语言模型,利用该第一大规模语言模型的强大理解能力,从静态图像中得到描述该静态图像的静态图像文本,使用计算层来计算静态图像的静态图像文本和所述提示语的第一相似度,比如说计算静态图像的静态图像文本和所述提示语的内积作为第一相似度,可以将该第一相似度作为该静态图像的质量分,第一相似度越高,说明生成的静态图像的语义与该提示语越匹配,越符合该提示语所描述的图像生成要求,生成的静态图像质量就越高,进而可以获取质量分最高的一张或多张目标静态图像。
本实施方式可以多次使用该静态图像生成联合模型生成多张不同的静态图像,然后根据静态图像对应的提示语以及第一大规模语言模型理解该静态图像后生成的静态图像文本之间的第一相似度,计算该静态图像的质量分,根据所述多张不同的静态图像的质量分,从该多张静态图像中选取质量最高的一张或多张目标静态图像,如此可以得到更高质量的静态图像。
在一种可能的实施方式中,若所述图像描述信息还包括低质量图像,所述方法还包括:
将所述低质量图像输入所述第一大规模语言模型,得到所述第一大规模语言模型输出的低质量图像文本;
计算所述静态图像的静态图像文本和所述低质量图像文本的第二相似度;
所述根据所述第一相似度确定所述静态图像的质量分,包括:
根据所述第一相似度和所述第二相似度确定所述静态图像的质量分;
根据所述多张不同的静态图像的质量分,从所述多张不同的静态图像中选取至少一张目标静态图像。
在该实施方式中,若所述图像描述信息还包括低质量图像,则该静态图像的质量分的计算还可以参考静态图像和低质量图像之间的第二相似度,可以将所述低质量图像输入所述第一大规模语言模型,得到所述第一大规模语言模型输出的低质量图像文本,计算所述静态图像的静态图像文本和所述低质量图像文本的第二相似度,比如说计算静态图像文本和低质量图像文本的内积作为该第二相似度,该第二相似度越高,说明生成的静态图像越与该低质量图像所表达的含义越接近。
在该实施方式中,可以根据第一相似度和所述第二相似度确定所述静态图像的质量分,比如说,可以将该第一相似度和所述第二相似度进行加权平均计算,得到该静态图像的质量分,可以获取质量分最高的一张或多张目标静态图像。
本实施方式可以综合考虑静态图像的静态图像文本与提示语之间的第一相似度以及与低质量图像文本之间的第二相似度来确定静态图像的质量分,可以避免获取的目标静态图像与低质量图像之间的语义相差太大,避免图像生成前后的有较大的语义变化。
在一种可能的实施方式中,所述方法还可以包括以下步骤:
获取所述目标兴趣点的基础信息;
针对任一静态图像,使用预先训练好的动态图像生成联合模型,根据所述目标兴趣点的基础信息和所述目标静态图像,生成所述目标兴趣点的动态图像。
在该实施方式中,该目标兴趣点的基础信息可以是各种描述目标兴趣点的信息,比如说目标兴趣点的名称、分类(如美食、商场、学校等)等属性信息,以及评论信息(包括评论文本和评论图像等)等等各种信息,不同的目标兴趣点需要的动态效果是不一样的,可以使用预先训练好的动态图像生成联合模型,根据该目标兴趣点的基础信息为该目标静态图像配置相应的动态效果,生成相应的动态图像。该动态图像生成联合模型包括第二大规模语言模型、图像分割模型和动态图像编辑模型,该动态图像生成联合模型的输入为该目标兴趣点的基础信息和静态图像,该动态图像生成联合模型的输出为该目标兴趣点的动态图像。
在该实施方式中,该任一静态图像,可以是预先训练好的静态图像生成联合模型一次生成的目标兴趣点的一张静态图像,也可以是该预先训练好的静态图像生成联合模型一次多次生成的多张不同静态图像中筛选出来的目标静态图像中一张。
在该实施方式中,所述图像分割模型的输入为目标兴趣点的静态图像,该图像分割模型的输出的该静态图像的各掩膜图像的掩膜信息,该图像分割模型用于将所述目标兴趣点的静态图像分割为多个掩膜,并生成各掩膜的掩膜信息,该掩膜信息包括掩膜大小、掩膜类型和掩膜在静态图像中的位置等信息,示例的,如下表2中示出掩膜信息的具体内容:
表2
在该实施方式中,所述第二大规模语言模型的输入为各掩膜的掩膜信息和所述目标兴趣点的基础信息,该第二大规模语言模型的输出为图像编辑指令,该第二大规模语言模型用于根据所述多个掩膜图像的掩膜信息和所述目标兴趣点的基础信息生成图像编辑指令,这里需要说明的是,该大规模语言模型输出的其实是自然语言文本,需要将该自然语言文本转化为图片操作指令,可以在第二大规模语言模型中增加转化层实现,该转化层可以通过代码程序实现,该转化层可以根据该自然语言文本中对应的掩膜序号和对该掩膜的操作信息转化成动态图像编辑模型能够接受的图像编辑指令。该操作信息包括操作类型和操作幅度,示例的,如下表3中示出该操作信息的具体内容:
表3
在该实施方式中,该第二大规模语言模型中还可以在转化层之前增加过滤层,该过滤层可以对需要操作的掩膜数量进行控制,若需要操作的掩膜数量较多,生成的动态图像上就会有很多区域都有动态效果,动态效果太多用户观感不好,若需要操作的掩膜数量较少,生成的动态图像上就会有很少区域有动态效果,动态效果太少用户可能注意不到,并不能达到动态图像的吸引力,故该过滤层可以在需要操作的掩膜数量过多时,从需要操作的掩膜中选择部分掩膜进行操作,在需要操作的掩膜数量较少时,可以舍弃对该静态图像进行动态效果制作。这里需要说明的是,在选择部分掩膜进行操作时,可以按照预定的规则根据掩膜位置和/或掩膜所在的操作信息进行选择,比如说,该预定的规则可以是同一类型的操作保留一个掩膜,位于同一片区域的掩膜保留一个、按照预定的各操作信息的操作优先级保留操作优先级更高的掩膜等等。
在该实施方式中,所述动态图像编辑模型的输入为图像编辑指令和该静态图像,该动态图像编辑模型的输出为根据该图像编辑指令编辑后的动态图像,该动态图像编辑模型用于根据所述图像编辑指令编辑所述静态图像,得到所述目标兴趣点的动态图像。
这里需要说明的是,该图像编辑指令为拖动指令时,该动态图像编辑模型在执行该拖动指令时,会产生多个中间结果,可以记拖动指令执行前的图像为A0,拖动到最终位置时的图像为An,那么就会有中间结果A1,A2,...,An-1,此时,该动态图像编辑模型可以构造图片序列为A0,A1,A2,...,An-1,An,An-1,...,A2,A1,即可实现图像渐变的动态效果。
本实施方式可以使用预先训练好的动态图像生成联合模型,根据该目标兴趣点的基础信息为该目标静态图像配置相应的动态效果,高效、低成本地生成相应的动态图像,如此可以增加目标兴趣点的数据类型,使目标兴趣点的数据更丰富和具有吸引力。
本公开还提供了一种静态图像生成联合模型的训练方法,图2示出根据本公开的实施例的静态图像生成联合模型的训练方法的流程图。如图2所示,该训练方法可以包括以下步骤S201-S202:
在步骤S201中,获取第一训练数据集,所述第一训练数据集包括多个正样本和/或多个负样本,所述正样本和所述负样本均包括样本兴趣点的样本图像、样本图像文本和样本权重;
在步骤S202中,使用所述第一训练数据集对初始的静态图像生成联合模型进行训练,得到训练好的静态图像生成联合模型,所述静态图像生成联合模型包括第一大规模语言模型和文生图模型。
在一种可能的实施方式中,该静态图像生成联合模型的训练方法适用于可执行静态图像生成联合模型的训练的计算机、计算设备、服务器、服务器集群等设备。
在一种可能的实施方式中,现有的基于通用语料进行训练的LLM和基于通用图片进行训练的文生图模型,不能够直接运用在兴趣点图像生产中,一方面语料之间的gap(差距),LBS(Location Based Service,基于位置的服务)场景下有大量的地理相关描述和术语,使用通用语料训练出的模型欠缺对这部分知识的理解;而LLM中用作生成的提示语往往比较复杂和拗口,对于技术人员的提示语设计能力要求比较高,故需要对LLM进行微调使下游使用者能够用更加贴近自然语言的方式接入。另一个更重要的方面是图像之间的gap,通用图片训练集合会包含多种绘画风格和表现形式,大部分并不适合在LBS场景下使用,因此需要使用兴趣点图像进行微调训练。此外,相关的LLM与文生图模型训练过程是割裂的,这里将两个模型联合训练,共同计算loss(损失),两个模型一同优化,可以达到更好的效果。以下可以将联合训练的两个模型记为静态图像生成联合模型,该静态图像生成联合模型包括第一大规模语言模型和文生图模型。
在一种可能的实施方式中,该第一训练数据集包括多个正样本和/或多个负样本,所述正样本和所述负样本均包括样本兴趣点的样本图像、样本图像文本和样本权重,示例的,该第一训练数据集中的样本图像及其图像来源、样本类别可以如下表4所示:
表4
如上表4所示,可以从现有的兴趣点头图、产品数据、评论数据出发,进行筛选和过滤,获取样本图像,但是对于不同的图像来源,赋予不同的样本类别(正/负样本)。
在一种可能的实施方式中,对于样本图像文本,在样本图像为样本兴趣点的兴趣点头图时,可以使用该兴趣点头图中的兴趣点名称、兴趣点品牌、兴趣点类别等作为样本图像文本;在样本图像为产品数据中的图像时,可以是使用SKU/SPU的描述作为样本图像文本;在样本图像为评论数据中的图像中,可以使用处理过(如总结&提取)的用户评论作为样本图像文本。
在一种可能的实施方式中,将第一大规模语言模型和文生图模型联合为静态图像生成联合模型,其联合方式可以是将第一大规模语言模型输出的文本向量为所述文生图模型的图像生成条件,该第一大规模语言模型输出的文本向量为该第一大规模语言模型的输出层的输入,该输出层可以根据该文本向量输出该预测图像文本。在使用上述第一训练数据集训练该静态图像生成联合模型时,包含以下两个子任务:
第一个子任务是尽可能缩小文生图模型在去噪过程中预测的各个时间步的噪声与在扩散过程中添加的高斯噪声之间的差异。在去噪过程中,可以使用Cross-Attention机制,将来自自然语言的提示语作为条件限制,通过第一大规模语言进行编码生成文本向量,作为注意力机制中的Q。因此,在逐渐去噪声的过程中,能够生成符合提示语的静态图像;可以将去噪过程中预测的各个时间步的噪声与扩散过程中添加的高斯噪声的差异记为L1
第二个子任务是第一大规模语言中进行多模态的训练,将样本图像进行embedding化后,与输入的样本图像文本进行拼接,使用自回归的方式进行训练,意在让第一大规模语言从样本图像中学习到其表示的自然语言含义,加深第一大规模语言对于图像的理解。其中对于图像编码部分不在loss中考虑,即只计算预测图像文本和样本图像文本之间的差异(如计算图像预测文本时的交叉熵),这部分loss记为L2
最终,该静态图像生成联合模型的损失函数L=αL1+(1-α)L2,其中α为预定参数值,可以不断调整静态图像生成联合模型中两个模型的模型参数,直至损失函数达到最小,如此即可得到训练好的静态图像生成联合模型。
在其他可能的实施方式中,在模型训练过程中,可以是设置一个warm up(预热)的过程,在训练初始阶段,文生图模型输出的生成图像还不够稳定,计算L2使用的是样本图像;当L1逐渐稳定,这里使用文生图模型输出的生成图像进行L2的计算(即L2预测图像文本和生成图像文本之间的差异),以此来保证后续使用中的样本输入分布的稳定性。
在其他可能的实施方式中,还可以该静态图像生成联合模型还可以使用预定的文生图模型,在训练过程中,不对该文生图模型中的参数进行调整,而是对静态图像生成联合模型中的第一大规模语言模型进行微调,等等。
在一种可能的实施方式中,该文生图模型可以是SDM,SDM是一种基于LatentDiffusion Models(潜在扩散模型,LDMs)的文图生成模型,当然,除了SDM,该文生图模型还可以是其他类型的智能绘图模型。
在一种可能的实施方式中,该正样本和所述负样本还均包括样本权重,如表4所示,可以对于不同的图像来源,赋予不同的样本权重(置信度),样本权重在模型训练时通过损失函数实现,可以将每个样本的训练损失乘以它的权重
在计算损失函数时,可以使用各样本的样本权重来加权计算样本或类别的权重在训练模型最终通过损失函数实现,在计算模型的损失的会把每个样本对应的损失乘以它的权重进行加权计算得到。
在一种可能的实施方式中,上述训练方法中,所述第一训练数据集包括原始正样本、原始负样本、扩展正样本和/或扩展负样本,所述获取第一训练数据集可以包括:
获取原始正样本和/或原始负样本,所述原始正样本和所述原始负样本均包括样本兴趣点的原始样本图像和原始样本图像文本;
使用以下至少一个步骤对所述原始正样本进行数据增强,得到扩展正样本和/或扩展负样本:
响应于所述原始样本图像缺失,将与样本兴趣点同一品牌下的其他兴趣点的兴趣点图像作为扩展正样本的扩展样本图像,将所述样本兴趣点的原始样本图像文本作为扩展正样本的扩展样本图像文本;
响应于所述原始正样本的来源为评论数据,将所述评论数据进行打散,获取多个扩展正样本;
对于任意两个原始正样本,将其中一个原始正样本中的原始样本图像与另一个原始正样本中的原始样本图像文本构造为一个扩展负样本;
响应于所述原始正样本的来源为产品数据,将其中一个产品的产品图像与另一个产品的产品描述文本构造为一个扩展负样本。
在该实施方式中,可以如上述表4所示获取原始正样本和/或原始负样本,但是考虑到样本数量有限,可以使用以下至少一种方案获取更多的样本:
方案1:对于一些缺少兴趣点图像但又是品牌连锁的样本兴趣点,可以使用其同一品牌下的其他兴趣点的兴趣点图像作为扩展正样本的扩展样本图像,仍然用该样本兴趣点的原始样本图像文本作为扩展正样本的扩展样本图像文本;此时得到的扩展正样本的样本权重为低权重;
方案2:响应于所述原始正样本的来源为评论数据,可以将所述评论数据中的评论文本打散得到多个文本作为扩展正样本的扩展样本图像文本,将评论数据中的多个评论图像作为扩展正样本的扩展样本图像,此时扩展得到的扩展正样本的样本权重为低权重;
方案3:对于两个原始正样本,比如说兴趣点a的原始样本图像a和原始样本图像文本a,兴趣点b的原始样本图像b和原始样本图像文本b,可以构造扩展负样本为<原始样本图像a,原始样本图像文本b>、<原始样本图像b,原始样本图像文本a>。这里需要说明的是,该两个原始正样本为两个不同类型的样本兴趣点的原始正样本,此时得到的扩展负样本的样本权重为中权重;
方案4:响应于所述原始正样本的来源为产品数据,该产品数据包括产品A的产品图像A和产品描述文本A,产品B的产品图像B和产品描述文本B,可以构造扩展负样本为<产品图像A,产品描述文本B>、<产品图像B,产品描述文本A>,此时得到的扩展负样本的样本权重为中权重;
在该实施方式中,上述的原始正样本、原始负样本、扩展正样本、扩展负样本均可以为第一训练数据集中的样本。
本公开还提供了一种动态图像生成联合模型的训练方法,图3示出根据本公开的实施例的动态图像生成联合模型的训练方法的流程图。如图3所示,该训练方法可以包括以下步骤S301-S304:
在步骤S301中,获取样本兴趣点的样本图像和样本基础信息;
在步骤S302中,使用预定的图像分割模型,根据所述样本图像生成所述样本图像对应的各掩膜的掩膜信息;
在步骤S303中,获取所述样本图像对应的各掩膜的操作信息;
在步骤S304中,根据第二训练数据集,对第二大规模语言模型进行微调,得到训练好的第二大规模语言模型模型,所述第二训练数据集包括多个样本兴趣点的样本基础信息,样本图像及其对应的各掩膜的掩膜信息、操作信息。
在一种可能的实施方式中,该动态图像生成联合模型的训练方法适用于可执行动态图像生成联合模型的训练的计算机、计算设备、服务器、服务器集群等设备。
在一种可能的实施方式中,该动态图像生成联合模型中的图像分割模型和动态图像编辑模型不需要使用兴趣点数据进行微调训练,而是可以直接使用现有的图像分割模型和动态图像编辑模型,比如说,该图像分割模型可以是SAM(Segment Anything Model,分割一切模型),该动态图像编辑模型可以是DragGAN(Generative Adversarial Network,生成对抗网络)模型,DragGAN是一种基于GAN的用于直观基于点的图像编辑算法;当然,除了SAM,该图像分割模型还可以是其他可以进行图像分割的模型,除了DragGAN模型也可以是其他能够编辑动态图像的模型。
在一种可能的实施方式中,可以选取一个新的大规模语言模型即第二大规模语言模型进行微调,使该第二大规模语言模型学会对图片各个部分进行操作,即学会使用图像分割模型和动态图像编辑模型这两个工具。在训练过程中,只微调第二大规模语言模型的模型参数,固定图像分割模型和动态图像编辑模型这两个模型的参数。
在一种可能的实施方式中,训练该第二大规模语言模型的第二训练数据集包括多个样本,每个样本包括样本兴趣点的样本图像、样本基础信息、所述样本图像对应的各掩膜的掩膜信息、各掩膜的操作信息,其中,该样本图像对应的各掩膜的掩膜信息是由预定的图像分割模型生成的,该掩膜信息可以如上文中表2所示,各掩膜的操作信息是人工标注的,示例的,可以使用该图像分割模型分割得到样本图像的各部分掩膜,经过培训的标注人员,根据各掩膜的掩膜信息如掩膜类型、掩膜大小、掩膜在样本图像中的位置,确定使用何种操作来实现该样本图像中的动态效果,这里需要将操作结构化成计算机能够处理的操作信息,该操作信息可以如上文中表3所示。
这里需要说明的是,该第二训练数据集中的样本还包括样本图像的图像类型,该图像类型可以是实景-建筑物,实景-人物,实景-店铺,设计-图标,设计-文字,以及以上若干类型的组合。该图像类型是第二大规模语言模型的输出,该项输出并不会应用到后续动图生成中,但是这一辅助任务,能够帮助第二大规模语言模型了解,不同的图片类型需要不同的操作。
这里需要说明的是,第二大规模语言模型需要通过上述的样本学习到对于图片中具体元素,选取合适的元素来实现不同的动态效果。
在一种可能的实施方式中,为了使各个类型的图像都能得到充分训练,可以按照图像类型选择样本图像,比如说每种图像类型的样本图像均选取一千张。
在一种可能的实施方式中,在训练过程时,第二大规模语言模型可以通过预设的提示语模板集合上述的样本生成以下信息
“你是一个动态图生成模块,需要为样本兴趣点的样本图像生成动态效果,你可以获取到样本图像中各个掩膜的掩膜信息,并生成每个掩膜所适合的动态操作。
样本兴趣点的样本基础信息:${样本兴趣点名称}是一个${样本兴趣点的类型}。根据图像分割结果,这张图片包含${mask数量}的掩膜,具体信息分别有[{"序号":${序号},"掩膜大小":${掩膜大小},"掩膜类型":${掩膜类型},"掩膜所处位置":${掩膜所处位置}},...]
输出图片类型:
${图片类型}
输出操作信息:
[{"序号":${序号},"操作类型':${操作类型}},...]”
计算该第二大规模语言模型输出的操作信息与该样本图像对应的操作信息之间的差异,不断调整第二大规模语言模型的模型参数,直至上述差异达到最小。比如说,训练目标可以采用大规模语言模型的自回归方式,计算每个输出的操作信息与该样本图像对应的操作信息的分布差异,使用负对数最大似然的损失函数来计算loss,可以不断调整第二大规模语言模型的模型参数,直至loss达到最小。
这里需要说明的是,还可以将第二大规模语言模型与图像分割模型、动态图像编辑模型进行联合训练,在对第二大规模语言模型进行微调训练的同时,对该图像分割模型、动态图像编辑模型也进行训练,此时,使用的训练数据集可以包括多个样本兴趣点的样本基础信息,样本静态图像及其对应的动态图像。当然,除了上述训练方法之外,还可以有其他训练方法来获取动态图像生成联合模型,在此不再一一举例说明。
图4示出根据本公开的实施例的兴趣点图像生成装置的结构框图。其中,该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。如图4所示,所述兴趣点图像生成装置包括:
信息获取模块401,被配置为获取目标兴趣点的图像描述信息,所述图像描述信息包括图像描述文本;
静态图像生成模块402,被配置将所述图像描述信息输入预先训练好的静态图像生成联合模型,执行所述预先训练好的静态图像生成联合模型生成所述目标兴趣点的静态图像,其中,所述静态图像生成联合模型包括第一大规模语言模型和文生图模型,所述第一大规模语言模型用于根据所述图像描述信息生成文本向量,所述文生图模型用于根据所述文本向量生成所述目标兴趣点的静态图像。
在一种可能的实施方式中,所述图像描述信息还包括用于描述所述目标兴趣点的低质量图像;所述静态图像生成模块402被配置为:
将所述图像描述文本和所述低质量图像输入至所述第一大规模语言模型,执行所述第一大规模语言模型,得到所述第一大规模语言模型输出的文本向量;
将所述文本向量和所述低质量图像输入至所述文生图模型,执行所述文生图模型,得到所述文生图模型输出的所述目标兴趣点的静态图像。
在一种可能的实施方式中,所述第一大规模语言模型对应有多个提示语模板,所述静态图像生成模块402被配置为:
将所述图像描述信息输入预先训练好的静态图像生成联合模型,多次执行所述预先训练好的静态图像生成联合模型生成所述目标兴趣点的静态图像,得到多张不同的静态图像;
所述装置还包括:
筛选模块,被配置为从多张不同的静态图像中筛选至少一张目标静态图像。
在一种可能的实施方式中,所述筛选模块被配置为:
针对每张静态图像,确定所述静态图像对应的提示语,所示提示语为所述第一大规模语言模型根据所述图像描述信息和所述提示语模板生成;
将所述静态图像输入所述第一大规模语言模型,得到所述第一大规模语言模型输出的静态图像文本;
计算所述静态图像的静态图像文本和所述静态图像对应的提示语的第一相似度;
根据所述第一相似度确定所述静态图像的质量分;
根据所述多张不同的静态图像的质量分,从所述多张不同的静态图像中选取至少一张目标静态图像。
在一种可能的实施方式中,若所述图像描述信息还包括低质量图像,所述装置还包括:
计算模块,被配置为将所述低质量图像输入所述第一大规模语言模型,得到所述第一大规模语言模型输出的低质量图像文本;计算所述静态图像的静态图像文本和所述低质量图像文本之间的第二相似度;
所述筛选模块中根据所述第一相似度确定所述静态图像的质量分的部分被配置为:
根据所述第一相似度和所述第二相似度确定所述静态图像的质量分;
根据所述多张不同的静态图像的质量分,从所述多张不同的静态图像中选取至少一张目标静态图像。
在一种可能的实施方式中,所述装置还包括:
基础信息获取模块,被配置为获取所述目标兴趣点的基础信息;
动态图像生成模块,被配置为针对任一静态图像,使用预先训练好的动态图像生成联合模型,根据所述目标兴趣点的基础信息和所述静态图像,生成所述目标兴趣点的动态图像,其中,所述动态图像生成联合模型包括第二大规模语言模型、图像分割模型和动态图像编辑模型,所述图像分割模型用于将所述目标兴趣点的静态图像分割为多个掩膜,并生成各掩膜的掩膜信息;所述第二大规模语言模型用于根据所述各掩膜的掩膜信息和所述目标兴趣点的基础信息生成图像编辑指令,所述动态图像编辑模型用于根据所述图像编辑指令编辑所述静态图像,得到所述目标兴趣点的动态图像。
图5示出根据本公开的实施例的静态图像生成联合模型的训练装置的结构框图。其中,该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。
如图5所示,所述静态图像生成联合模型的训练装置包括:
训练数据获取模块501,被配置为获取第一训练数据集,所述第一训练数据集包括多个正样本和/或多个负样本,所述正样本和所述负样本均包括样本兴趣点的样本图像、样本图像文本;
静态模型训练模块502,被配置为使用所述第一训练数据集对初始的静态图像生成联合模型进行训练,得到训练好的静态图像生成联合模型,所述静态图像生成联合模型包括第一大规模语言模型和文生图模型;
其中,所述静态图像生成联合模型的损失函数L=αL1+(1-α)L2,所述L1为所述文生图模型在去噪过程中预测的各个时间步的噪声与扩散过程中添加的高斯噪声的差异,所述L2为所述第一大规模语言模型输出的预测图像文本和所述样本图像文本之间的差异,所述α为预定参数值,所述第一大规模语言模型生成的文本向量为所述文生图模型的图像生成条件。
在一种可能的实施方式中,所述第一训练数据集包括原始正样本、原始负样本、扩展正样本和/或扩展负样本,所述训练数据获取模块501被配置为:
获取原始正样本和/或原始负样本,所述原始正样本和所述原始负样本均包括样本兴趣点的原始样本图像和原始样本图像文本;
使用以下至少一个步骤对所述原始正样本进行数据增强,得到扩展正样本和/或扩展负样本:
响应于所述原始样本图像缺失,将与样本兴趣点同一品牌下的其他兴趣点的兴趣点图像作为扩展正样本的扩展样本图像,将所述样本兴趣点的原始样本图像文本作为扩展正样本的扩展样本图像文本;
响应于所述原始正样本的来源为评论数据,将所述评论数据进行打散,获取多个扩展正样本;
对于两个原始正样本,将其中一个原始正样本中的原始样本图像与另一个原始正样本中的原始样本图像文本构造为一个扩展负样本;
响应于所述原始正样本的来源为产品数据,将其中一个产品的产品图像与另一个产品的产品描述文本构造为一个扩展负样本。
图6示出根据本公开的实施例的动态图像生成联合模型的训练装置的结构框图。其中,该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。
如图6所示,所述动态图像生成联合模型的训练装置包括:
样本信息获取模块601,被配置为获取样本兴趣点的样本图像和样本基础信息;
分割模块602,被配置为使用预定的图像分割模型,根据所述样本图像生成所述样本图像对应的各掩膜的掩膜信息;
操作信息获取模块603,被配置为获取所述样本图像对应的各掩膜的操作信息;
微调模块604,被配置为根据第二训练数据集,对第二大规模语言模型进行微调,得到训练好的第二大规模语言模型模型,所述第二训练数据集包括多个样本兴趣点的样本基础信息,样本图像及其对应的各掩膜的掩膜信息、操作信息;
其中,训练好的动态图像生成联合模型包括训练好的第二大规模语言模型,以及预定的图像分割模型和预定的动态图像编辑模型;所述训练好的第二大规模语言模型用于根据各掩膜的掩膜信息和基础信息生成图像编辑指令,所述预定的动态图像编辑模型用于根据所述图像编辑指令编辑图像生成动态图像。
本装置实施方式中提及的技术术语和技术特征相同或相似,对于本装置中涉及的技术术语和技术特征的解释和说明可参考上述方法实施方式的解释的说明,此处不再赘述。
本公开还公开了一种电子设备,图7示出根据本公开的实施例的电子设备的结构框图。
如图7所示,所述电子设备700包括存储器701和处理器702,其中,存储器701用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器702执行以实现根据本公开的实施例的方法。
图8示出适于用来实现根据本公开实施例的方法的计算机系统的结构示意图。
如图8所示,计算机系统800包括处理单元801,其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行上述实施例中的各种处理。在RAM 803中,还存储有计算机系统800操作所需的各种程序和数据。处理单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
以下部件连接至I/O接口805:包括键盘、鼠标等的输入部分806;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807;包括硬盘等的存储部分808;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入存储部分808。其中,所述处理单元801可实现为CPU、GPU、TPU、FPGA、NPU等处理单元。
特别地,根据本公开的实施例,上文描述的方法可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括计算机指令,该计算机指令被处理器执行时实现上文所述的方法步骤。在这样的实施例中,该计算机程序产品可以通过通信部分809从网络上被下载和安装,和/或从可拆卸介质811被安装。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元或模块可以通过软件的方式实现,也可以通过可编程硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。
作为另一方面,本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中电子设备或计算机系统中所包含的计算机可读存储介质;也可以是单独存在,未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序,所述程序被一个或者一个以上的处理器用来执行描述于本公开的方法。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (12)

1.一种兴趣点图像生成方法,包括:
获取目标兴趣点的图像描述信息,所述图像描述信息包括图像描述文本;
将所述图像描述信息输入预先训练好的静态图像生成联合模型,执行所述预先训练好的静态图像生成联合模型生成所述目标兴趣点的静态图像,其中,所述静态图像生成联合模型包括第一大规模语言模型和文生图模型,所述第一大规模语言模型用于根据所述图像描述信息生成文本向量,所述文生图模型用于根据所述文本向量生成所述目标兴趣点的静态图像。
2.根据权利要求1所述的方法,其中,所述图像描述信息还包括用于描述所述目标兴趣点的低质量图像;所述将所述图像描述信息输入预先训练好的静态图像生成联合模型,执行所述预先训练好的静态图像生成联合模型生成所述目标兴趣点的静态图像,包括:
将所述图像描述文本和所述低质量图像输入至所述第一大规模语言模型,执行所述第一大规模语言模型,得到所述第一大规模语言模型输出的文本向量;
将所述文本向量和所述低质量图像输入至所述文生图模型,执行所述文生图模型,得到所述文生图模型输出的所述目标兴趣点的静态图像。
3.根据权利要求1或2所述的方法,其中,所述第一大规模语言模型对应有多个提示语模板,所述将所述图像描述信息输入预先训练好的静态图像生成联合模型,执行所述预先训练好的静态图像生成联合模型生成所述目标兴趣点的静态图像,包括:
将所述图像描述信息输入预先训练好的静态图像生成联合模型,多次执行所述预先训练好的静态图像生成联合模型生成所述目标兴趣点的静态图像,得到多张不同的静态图像;
所述方法还包括:
从多张不同的静态图像中筛选至少一张目标静态图像。
4.根据权利要求3所述的方法,其中,所述从多张不同的静态图像中筛选至少一张目标静态图像包括:
针对每张静态图像,确定所述静态图像对应的提示语,所示提示语为所述第一大规模语言模型根据所述图像描述信息和所述提示语模板生成;
将所述静态图像输入所述第一大规模语言模型,得到所述第一大规模语言模型输出的静态图像文本;
计算所述静态图像的静态图像文本和所述静态图像对应的提示语的第一相似度;
根据所述第一相似度确定所述静态图像的质量分;
根据所述多张不同的静态图像的质量分,从所述多张不同的静态图像中选取至少一张目标静态图像。
5.根据权利要求4所述的方法,其中,若所述图像描述信息还包括低质量图像,所述方法还包括:
将所述低质量图像输入所述第一大规模语言模型,得到所述第一大规模语言模型输出的低质量图像文本;
计算所述静态图像的静态图像文本和所述低质量图像文本之间的第二相似度;
所述根据所述第一相似度确定所述静态图像的质量分,包括:
根据所述第一相似度和所述第二相似度确定所述静态图像的质量分;
根据所述多张不同的静态图像的质量分,从所述多张不同的静态图像中选取至少一张目标静态图像。
6.根据权利要求1-2、4-5任一项所述的方法,其中,所述方法还包括:
获取所述目标兴趣点的基础信息;
针对任一静态图像,使用预先训练好的动态图像生成联合模型,根据所述目标兴趣点的基础信息和所述静态图像,生成所述目标兴趣点的动态图像,其中,所述动态图像生成联合模型包括第二大规模语言模型、图像分割模型和动态图像编辑模型,所述图像分割模型用于将所述目标兴趣点的静态图像分割为多个掩膜,并生成各掩膜的掩膜信息;所述第二大规模语言模型用于根据所述各掩膜的掩膜信息和所述目标兴趣点的基础信息生成图像编辑指令,所述动态图像编辑模型用于根据所述图像编辑指令编辑所述静态图像,得到所述目标兴趣点的动态图像。
7.一种静态图像生成联合模型的训练方法,包括:
获取第一训练数据集,所述第一训练数据集包括多个正样本和/或多个负样本,所述正样本和所述负样本均包括样本兴趣点的样本图像、样本图像文本;
使用所述第一训练数据集对初始的静态图像生成联合模型进行训练,得到训练好的静态图像生成联合模型,所述静态图像生成联合模型包括第一大规模语言模型和文生图模型;
其中,所述静态图像生成联合模型的损失函数L=αL1+(1-α)L2,所述L1为所述文生图模型在去噪过程中预测的各个时间步的噪声与扩散过程中添加的高斯噪声的差异,所述L2为所述第一大规模语言模型输出的预测图像文本和所述样本图像文本之间的差异,所述α为预定参数值,所述第一大规模语言模型生成的文本向量为所述文生图模型的图像生成条件。
8.根据权利要求7所述的方法,其中,所述第一训练数据集包括原始正样本、原始负样本、扩展正样本和/或扩展负样本,所述获取第一训练数据集,包括:
获取原始正样本和/或原始负样本,所述原始正样本和所述原始负样本均包括样本兴趣点的原始样本图像和原始样本图像文本;
使用以下至少一个步骤对所述原始正样本进行数据增强,得到扩展正样本和/或扩展负样本:
响应于所述原始样本图像缺失,将与样本兴趣点同一品牌下的其他兴趣点的兴趣点图像作为扩展正样本的扩展样本图像,将所述样本兴趣点的原始样本图像文本作为扩展正样本的扩展样本图像文本;
响应于所述原始正样本的来源为评论数据,将所述评论数据进行打散,获取多个扩展正样本;
对于两个原始正样本,将其中一个原始正样本中的原始样本图像与另一个原始正样本中的原始样本图像文本构造为一个扩展负样本;
响应于所述原始正样本的来源为产品数据,将其中一个产品的产品图像与另一个产品的产品描述文本构造为一个扩展负样本。
9.一种动态图像生成联合模型的训练方法,包括:
获取样本兴趣点的样本图像和样本基础信息;
使用预定的图像分割模型,根据所述样本图像生成所述样本图像对应的各掩膜的掩膜信息;
获取所述样本图像对应的各掩膜的操作信息;
根据第二训练数据集,对第二大规模语言模型进行微调,得到训练好的第二大规模语言模型模型,所述第二训练数据集包括多个样本兴趣点的样本基础信息,样本图像及其对应的各掩膜的掩膜信息、操作信息;
其中,训练好的动态图像生成联合模型包括训练好的第二大规模语言模型,以及预定的图像分割模型和预定的动态图像编辑模型;所述训练好的第二大规模语言模型用于根据各掩膜的掩膜信息和基础信息生成图像编辑指令,所述预定的动态图像编辑模型用于根据所述图像编辑指令编辑图像生成动态图像。
10.一种兴趣点图像生成装置,包括:
信息获取模块,被配置为获取目标兴趣点的图像描述信息,所述图像描述信息包括图像描述文本;
静态图像生成模块,被配置为使用预先训练好的静态图像生成联合模型,根据所述图像描述信息,生成所述目标兴趣点的静态图像,其中,所述静态图像生成联合模型包括第一大规模语言模型和文生图模型,所述大规模语言模型用于根据所述图像描述信息生成文本向量,所述文生图模型用于根据所述文本向量生成所述目标兴趣点的静态图像。
11.一种电子设备,包括存储器和处理器;其中,所述存储器用于存储一条或多条计算机指令,所述一条或多条计算机指令被所述处理器执行以实现权利要求1至9任一项所述的方法。
12.一种计算机可读存储介质,其上存储有计算机指令,其中,该计算机指令被处理器执行时实现权利要求1-9任一项所述的方法。
CN202311197245.3A 2023-09-15 2023-09-15 兴趣点图像生成方法、装置、电子设备及存储介质 Pending CN117237606A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311197245.3A CN117237606A (zh) 2023-09-15 2023-09-15 兴趣点图像生成方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311197245.3A CN117237606A (zh) 2023-09-15 2023-09-15 兴趣点图像生成方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN117237606A true CN117237606A (zh) 2023-12-15

Family

ID=89096208

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311197245.3A Pending CN117237606A (zh) 2023-09-15 2023-09-15 兴趣点图像生成方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN117237606A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117765133A (zh) * 2024-02-22 2024-03-26 青岛海尔科技有限公司 生成文本的修正方法及装置、存储介质、电子设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117765133A (zh) * 2024-02-22 2024-03-26 青岛海尔科技有限公司 生成文本的修正方法及装置、存储介质、电子设备
CN117765133B (zh) * 2024-02-22 2024-05-24 青岛海尔科技有限公司 生成文本的修正方法及装置、存储介质、电子设备

Similar Documents

Publication Publication Date Title
CN109960453B (zh) 根据被引导的用户会话移除和替换图像中的对象
CN109544524B (zh) 一种基于注意力机制的多属性图像美学评价系统
US20230177343A1 (en) Scene understanding and generation using neural networks
US11783461B2 (en) Facilitating sketch to painting transformations
CN111386536B (zh) 语义一致的图像样式转换的方法和系统
US11741668B2 (en) Template based generation of 3D object meshes from 2D images
WO2019222734A1 (en) Learning data augmentation policies
CN107609506B (zh) 用于生成图像的方法和装置
CN115457531A (zh) 用于识别文本的方法和装置
US11948558B2 (en) Messaging system with trend analysis of content
CN117237606A (zh) 兴趣点图像生成方法、装置、电子设备及存储介质
CN111199540A (zh) 图像质量评价方法、装置、电子设备及存储介质
EP4174439A1 (en) Method and apparatus for processing map information, device, and storage medium
CN116776420A (zh) 基于深度学习的稳态扩散模型的建筑设计方法及系统
CN116821324A (zh) 模型训练方法、装置、电子设备及存储介质
CN114445625A (zh) 图片天空提取方法、系统、设备及存储介质
CN112287938A (zh) 一种文本分割方法、系统、设备以及介质
US20240169701A1 (en) Affordance-based reposing of an object in a scene
CN117668297A (zh) 视频生成方法、电子设备及计算机可读存储介质
EP4352704A1 (en) Personalized text-to-image diffusion model
Majeed et al. Few-Shot Content-Level Font Generation
CN117556036A (zh) 摘要生成模型的训练方法、摘要生成方法、装置及设备
CN117336539A (zh) 一种用于短视频ip打造的视频脚本生产方法及系统
Pan et al. LET: a local enhancement transformer for low-light image enhancement
WO2024072749A1 (en) Retrieval augmented text-to-image generation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination