CN117115306A - 一种图像生成方法、装置、电子设备及存储介质 - Google Patents

一种图像生成方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN117115306A
CN117115306A CN202311107962.2A CN202311107962A CN117115306A CN 117115306 A CN117115306 A CN 117115306A CN 202311107962 A CN202311107962 A CN 202311107962A CN 117115306 A CN117115306 A CN 117115306A
Authority
CN
China
Prior art keywords
image
text
image generation
model
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311107962.2A
Other languages
English (en)
Inventor
李大铭
杨雪智
杨阳
成昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Changxing Zhijia Automobile Technology Co ltd
Original Assignee
Suzhou Changxing Zhijia Automobile Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Changxing Zhijia Automobile Technology Co ltd filed Critical Suzhou Changxing Zhijia Automobile Technology Co ltd
Priority to CN202311107962.2A priority Critical patent/CN117115306A/zh
Publication of CN117115306A publication Critical patent/CN117115306A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Image Analysis (AREA)

Abstract

本公开关于一种图像生成方法、装置、电子设备及存储介质,包括:获取多个视角下的样本图像及样本图像对应的标注文本;针对每个视角,将该视角下的样本图像对应的标注文本输入至预设稳定扩散模型中进行图像生成处理,得到预测图像;计算预测图像与所对应的样本图像之间的损失值;基于损失值对预设稳定扩散模型进行迭代调整,得到该视角对应的子图像生成模型;多个视角对应的子图像生成模型组成图像生成模型;获取到描述文本后,将描述文本输入至图像生成模型中进行图像生成处理,得到扩散图像。这样,可以灵活生成大量多样的不同视角的扩散图像,不再需要人力或者实车采集行车图像,不仅可以降低成本,减少安全隐患,还可以提高模型训练的效率。

Description

一种图像生成方法、装置、电子设备及存储介质
技术领域
本公开涉及数据处理技术领域,尤其涉及一种图像生成方法、装置、电子设备及存储介质。
背景技术
智能驾驶的广泛应用依赖于深度学习模型,深度学习模型通过对训练数据的学习,不断提高模型的准确率和稳定性,进而用于对行驶过程中车辆采集到的实时图像进行分析。
其中,训练数据包括大量的各种不同场景下的行车过程的图像数据,特别包括一些极端场景。现有技术中,采用人力或者实车采集训练数据,成本非常高昂,而且,极端场景下的采集存在安全隐患,因此,训练数据采集的效率较低,进而导致深度学习模型的训练受到影响。
发明内容
本公开提供一种图像生成方法、装置、电子设备及存储介质,以至少解决相关技术中训练数据采集的效率较低,进而导致深度学习模型的训练受到影响的问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种图像生成方法,包括:
获取多个视角下的样本图像及所述样本图像对应的标注文本;
针对每个视角,将该视角下的所述样本图像对应的所述标注文本输入至预设稳定扩散模型中进行图像生成处理,得到预测图像;计算所述预测图像与所对应的样本图像之间的损失值;基于所述损失值对所述预设稳定扩散模型进行迭代调整,得到该视角对应的子图像生成模型;所述多个视角对应的子图像生成模型组成图像生成模型;
获取到描述文本后,将所述描述文本输入至所述图像生成模型中进行图像生成处理,得到扩散图像。
可选地,所述获取多个视角下的样本图像及所述样本图像对应的标注文本,包括:
获取多个视角下的样本图像;
将所述样本图像输入至图像文字生成网络进行特征分析,生成所述样本图像对应的标注文本。
可选地,所述图像文字生成网络包括视觉编码器及自然语言处理模型;所述将所述样本图像输入至图像文字生成网络进行特征分析,生成所述样本图像对应的标注文本,包括:
将所述样本图像输入至所述视觉编码器中进行特征提取,得到所述样本图像的特征向量;
将所述特征向量输入至所述自然语言处理模型中进行语义分析,生成所述样本图像对应的标注文本。
可选地,所述将所述特征向量输入至所述自然语言处理模型中进行语义分析,生成所述样本图像对应的标注文本,包括:
将所述特征向量输入至所述自然语言处理模型中进行语义分析,生成初始文本;
获取对所述样本图像的参考文本,并将所述参考文本添加至所述初始文本中,得到所述样本图像对应的标注文本。
可选地,所述将所述参考文本添加至所述初始文本中,得到所述样本图像对应的标注文本之后,还包括:
基于所述参考文本及所对应的标注文本,对所述自然语言处理模型进行迭代更新。
可选地,所述将所述特征向量输入至所述自然语言处理模型中进行语义分析,生成所述样本图像对应的标注文本,包括:
将所述特征向量输入至所述自然语言处理模型中进行语义分析,生成初始文本;
根据每个视角下的所述样本图像的帧编号,生成所述样本图像的帧号文本;
将所述初始文本及所述帧号文本进行融合,生成所述样本图像对应的标注文本。
可选地,所述针对每个视角,将该视角下的所述样本图像对应的所述标注文本输入至预设稳定扩散模型中进行图像生成处理,得到预测图像,包括:
针对每个视角,将该视角下的所述样本图像对应的所述标注文本输入至预设稳定扩散模型中进行图像生成处理,得到初始图像;
基于所对应的帧号文本,对所述初始图像进行前后帧关联处理,得到预测图像。
可选地,所述稳定扩散模型包括编码器模块、超网络模块、交叉注意力模块以及解码器模块;
所述基于所述损失值对所述预设稳定扩散模型进行迭代调整,得到该视角对应的子图像生成模型,包括:
冻结所述编码器模块、所述交叉注意力模块以及所述解码器模块,并基于所述损失值对所述超网络模块进行迭代调整,得到该视角对应的子图像生成模型。
根据本公开实施例的第二方面,提供一种图像生成装置,包括:
获取模块,用于获取多个视角下的样本图像及所述样本图像对应的标注文本;
训练模块,用于针对每个视角,将该视角下的所述样本图像对应的所述标注文本输入至预设稳定扩散模型中进行图像生成处理,得到预测图像;计算所述预测图像与所对应的样本图像之间的损失值;基于所述损失值对所述预设稳定扩散模型进行迭代调整,得到该视角对应的子图像生成模型;所述多个视角对应的子图像生成模型组成图像生成模型;
扩散模块,用于获取到描述文本后,将所述描述文本输入至所述图像生成模型中进行图像生成处理,得到扩散图像。
可选地,所述获取模块,具体用于:
获取多个视角下的样本图像;
将所述样本图像输入至图像文字生成网络进行特征分析,生成所述样本图像对应的标注文本。
可选地,所述图像文字生成网络包括视觉编码器及自然语言处理模型;所述获取模块,具体用于:
将所述样本图像输入至所述视觉编码器中进行特征提取,得到所述样本图像的特征向量;
将所述特征向量输入至所述自然语言处理模型中进行语义分析,生成所述样本图像对应的标注文本。
可选地,所述获取模块,具体用于:
将所述特征向量输入至所述自然语言处理模型中进行语义分析,生成初始文本;
获取对所述样本图像的参考文本,并将所述参考文本添加至所述初始文本中,得到所述样本图像对应的标注文本。
可选地,所述获取模块,还用于:
基于所述参考文本及所对应的标注文本,对所述自然语言处理模型进行迭代更新。
可选地,所述获取模块,具体用于:
将所述特征向量输入至所述自然语言处理模型中进行语义分析,生成初始文本;
根据每个视角下的所述样本图像的帧编号,生成所述样本图像的帧号文本;
将所述初始文本及所述帧号文本进行融合,生成所述样本图像对应的标注文本。
可选地,所述训练模块,具体用于:
针对每个视角,将该视角下的所述样本图像对应的所述标注文本输入至预设稳定扩散模型中进行图像生成处理,得到初始图像;
基于所对应的帧号文本,对所述初始图像进行前后帧关联处理,得到预测图像。
可选地,所述稳定扩散模型包括编码器模块、超网络模块、交叉注意力模块以及解码器模块;
所述训练模块,具体用于:
冻结所述编码器模块、所述交叉注意力模块以及所述解码器模块,并基于所述损失值对所述超网络模块进行迭代调整,得到该视角对应的子图像生成模型。
根据本公开实施例的第三方面,提供一种图像生成电子设备,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现所述任一项所述的图像生成方法。
根据本公开实施例的第四方面,提供一种计算机可读存储介质,当所述计算机可读存储介质中的指令由图像生成电子设备的处理器执行时,使得图像生成电子设备能够执行所述任一项所述的图像生成方法。
根据本公开实施例的第五方面,提供一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现所述任一项所述的图像生成方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
获取多个视角下的样本图像及样本图像对应的标注文本;针对每个视角,将该视角下的样本图像对应的标注文本输入至预设稳定扩散模型中进行图像生成处理,得到预测图像;计算预测图像与所对应的样本图像之间的损失值;基于损失值对预设稳定扩散模型进行迭代调整,得到该视角对应的子图像生成模型;多个视角对应的子图像生成模型组成图像生成模型;获取到描述文本后,将描述文本输入至图像生成模型中进行图像生成处理,得到扩散图像。
这样,针对多个视角分别进行训练,得到图像生成模型之后,可以根据输入的描述文本的变化,灵活生成大量且多样的针对不同视角的扩散图像,如果应用于智能驾驶领域,可以通过图像生成模型进行训练数据的制作,不再需要人力或者实车采集行车图像,不仅可以降低成本,减少安全隐患,还可以提高模型训练的效率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种图像生成方法的流程图。
图2是根据一示例性实施例示出的一种超网络的结构示意图。
图3是根据一示例性实施例示出的一种图像生成方法的逻辑示意图。
图4是根据一示例性实施例示出的一种图像生成装置的框图。
图5是根据一示例性实施例示出的一种用于图像生成的电子设备的框图。
图6是根据一示例性实施例示出的一种用于图像生成的装置的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及所述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种图像生成方法的流程图,如图1所示,该图像生成方法包括:
在步骤S11中,获取多个视角下的样本图像及样本图像对应的标注文本。
智能驾驶的广泛应用依赖于深度学习模型,深度学习模型的训练需要大量的训练数据。其中,训练数据包括大量的各种不同场景下的行车过程的图像数据,特别包括一些极端场景。而相关技术中,采用人力或者实车采集训练数据,因此训练数据采集的效率较低。
在本步骤中,首先获取多个视角下的样本图像及样本图像对应的标注文本,其中,样本图像可以来自于Nuscenes、Waymo等数据集,也可以来自于车辆所配置的不同视角的图像采集设备采集的图像,本申请对此不作限定。
其中,Nuscenes、Waymo这类数据集中包括前视摄像头、后视摄像头、侧视摄像头、激光雷达和雷达等设备采集的数据,涵盖数百个行车场景,每个场景包含高度精细的注释信息,例如,注释信息可以用于标注当前场景中车辆、行人、自行车和其他物体的位置、速度和方向等信息。在本申请中,主要使用的是这类数据集中的图像数据,即前后摄像头和侧视摄像头的图像,作为多个视角下的样本图像,将图像数据对应场景的注释信息作为对应的标注文本。
一种实现方式中,获取多个视角下的样本图像及样本图像对应的标注文本,包括:
获取多个视角下的样本图像;将样本图像输入至图像文字生成网络进行特征分析,生成样本图像对应的标注文本。
也就是说,可以在获取多个视角下的样本图像之后,通过图像文字生成网络,对样本图像进行特征分析,基于样本图像的特征生成样本图像对应的标注文本。这样,标注文本与样本图像的特征相关联,可以在保证标注文本能够体现样本图像特征的前提下,减少人工标注所需消耗的人力物力。
其中,如果图像文字生成网络包括视觉编码器及自然语言处理模型;那么,将样本图像输入至图像文字生成网络进行特征分析,生成样本图像对应的标注文本,包括:
将样本图像输入至视觉编码器中进行特征提取,得到样本图像的特征向量;将特征向量输入至自然语言处理模型中进行语义分析,生成样本图像对应的标注文本。
具体来说,自然语言处理模型可以用于对文本进行理解和生成,比如,可以为引导语言图像预训练(Bootstrapping Language-Image Pre-training,BLIP)模型,视觉编码器为用于进行图像特征提取的深度学习模型,比如,可以为深度为101层的卷积神经网络(Resnet-101)模型,等等。其中,视觉编码器及自然语言处理模型可以采用预训练的模型权重,因此不涉及模型训练,从而进一步提高图像生成的效率。
在本步骤中,自然语言处理模型可以与视觉编码器结合使用,比如,首先,由Resnet-101模型将样本图像转换为特征向量,然后将样本图像的特征向量输入到BLIP模型中,使用BLIP模型生成对应的文本描述,作为标注文本。
一些情况下,图像文字生成网络基于样本图像生成的标注文本不够精确,难以满足后续指导图像生成的需求,这种情况下,需要对图像文字生成网络基于样本图像生成的文本进行进一步地修改。
比如,一种实现方式中,将特征向量输入至自然语言处理模型中进行语义分析,生成样本图像对应的标注文本,包括:
将特征向量输入至自然语言处理模型中进行语义分析,生成初始文本;获取对样本图像的参考文本,并将参考文本添加至初始文本中,得到样本图像对应的标注文本。
也就是说,可以将图像文字生成网络基于样本图像生成的文本作为初始文本,然后基于获取到的参考文本,对样本图像对应的初始文本进行修改,得到标注文本。其中,参考文本可以是预先获取的样本图像对应的注释信息,也可以是响应于用户的输入操作获取的输入文本,本申请对此不做限定。
可以理解,图像文字生成网络输出的初始文本仅能体现出样本图像的部分信息量,根据特定的时间、天气、交通标识、车道线、车辆及行人,可以在初始文本的基础上添加特殊类的参考文本,从而实现对样本图像的进一步标注,从而提高后续图像生成模型的训练效果,加强图像生成模型根据标注文本生成指定效果的图像能力。
进一步地,将参考文本添加至初始文本中,得到样本图像对应的标注文本之后,还包括:
基于参考文本及所对应的标注文本,对自然语言处理模型进行迭代更新。
也就是说,可以针对修改后得到的标注文本进行图像文字生成网络的迭代训练,通过计算标注文本与初始文本之间的损失值,并基于损失值对自然语言处理模型的模型参数进行调整,实现自然语言处理模型的迭代更新,使得后续自然语言处理模型的语义分析更加准确,从而便于后续的数据集的扩充。
另外,一种实现方式中,将特征向量输入至自然语言处理模型中进行语义分析,生成样本图像对应的标注文本,包括:
将特征向量输入至自然语言处理模型中进行语义分析,生成初始文本;根据每个视角下的样本图像的帧编号,生成样本图像的帧号文本;将初始文本及帧号文本进行融合,生成样本图像对应的标注文本。
也就是说,可以根据样本图像之间的前后帧关系,对图像文字生成网络基于样本图像生成的文本进行修改,具体地,首先对连续的样本图像的前后帧进行编号,为每个样本图像添加相应的帧编号,然后,根据帧编号确定每个样本图像的帧号文本,进而,共同融合初始文本及帧号文本,形成样本图像对应的标注文本。
这样,通过标注文本可完成不同帧下不同视角的样本图像的信息表达,便于后续针对每个独立的视角来单独训练图像生成模型,得到更好的图像生成结果。
在步骤S12中,针对每个视角,将该视角下的样本图像对应的标注文本输入至预设稳定扩散模型中进行图像生成处理,得到预测图像;计算预测图像与所对应的样本图像之间的损失值;基于损失值对预设稳定扩散模型进行迭代调整,得到该视角对应的子图像生成模型;多个视角对应的子图像生成模型组成图像生成模型。
在本步骤中,针对多个视角,分别由该视角下的样本图像对预设稳定扩散模型进行训练,得到该视角对应的子图像生成模型,多个视角对应的子图像生成模型组成图像生成模型。
其中,预设稳定扩散(Stable Diffusion)模型的核心思想是学习一个可逆的扩散过程,该过程能够将噪声输入转换为高质量的图像输出,可以有效避免传统生成式网络的模糊问题,并具有很强的可控性。
具体来说,预设稳定扩散模型主要由三部分组成:编码器网络、解码器网络和稳定扩散过程,通过对编码器网络、解码器网络和稳定扩散过程进行组合,可以生成高质量,高分辨率的图像。
其中,编码器网络将输入图像X映射到一个潜在向量空间中的点z0,解码器网络基于输入的标注文本,将这个潜在向量空间的点zt映射为对应时间步t的预测图像xt。稳定扩散过程则在每个时间步长上更新潜在向量空间中的点zt,同时引入一些噪声以保持多样性,并控制增量大小。
上述过程可以用如下公式表示:
zt~pθ(zt|zt-1,x;τt),xt=gφ(zt)
其中,pθ(zt|zt-1,x;τt)是一个基于稳定扩散过程定义的条件概率分布,τt是一个控制每个时间步长增量大小的参数,gφ是解码器网络,用于将潜在向量空间的点zt映射为对应的预测图像xt
稳定扩散过程的具体定义如下:
其中,βt是一个在[0,1]范围内的参数,用于控制每个时间步长增量的大小,εt是网络生成的噪声值,服从均值为0,方差为1的高斯分布。
在本申请中,预设稳定扩散模型包括编码器模块、超网络模块、交叉注意力模块以及解码器模块;那么,基于损失值对预设稳定扩散模型进行迭代调整,得到该视角对应的子图像生成模型,包括:
冻结编码器模块、交叉注意力模块以及解码器模块,并基于损失值对超网络模块进行迭代调整,得到该视角对应的子图像生成模型。
具体来说,预设稳定扩散模型中包括编码器模块、超网络模块、交叉注意力模块以及解码器模块,首先由编码器模块将输入图像映射到潜在向量空间,其中,输入图像为预设稳定扩散模型的预训练过程中所采用的训练图像,训练图像通过噪声添加,得到对应的噪声图像;然后,将样本图像对应的标注文本作为引导信息,噪声图像经过多层交叉注意力模块的处理,逐渐去除噪声,并经过解码器模块的处理转换得到样本图像对应的预测图像,其中,交叉注意力模块的输入包括key、value和query三个向量。超网络(Hypernetworks)模块位于交叉注意力模块之前,用于对输入至交叉注意力模块的key、value和query中的任意向量进行修改。
在本申请中,通过冻结预训练的编码器模块、交叉注意力模块以及解码器模块,仅训练Hypernetworks网络,可以实现针对不同视角训练出不同的子图像生成模型,也就是说,不同视角对应的子图像生成模型中包括相同的编码器模块、交叉注意力模块以及解码器模块,以及不同的Hypernetworks网络,这样,可以通过特定的标注文本生成所需的当前视角下的预测图像。
如图2所示,为本申请中Hypernetwork超网络的结构示意图,Hypernetwork超网络是一种类似深度学习微调的小型网络,可修改预设稳定扩散模型的特定输出风格。它的结构是带有Dropout和激活函数的全连接层,通过插入两个Hypernetwork超网络,分别针对性的修改输入至交叉注意力模块中的key和value向量。
另外,在预设稳定扩散模型的训练中还可采取其他多种方法来生成特定的图像,例如Embedding、Dreambooth等,具体不做限定。相比而言,Hypernetwork超网络占用资源量较小。
一种实现方式中,样本图像对应的标注文本中包括其对应的帧号文本,那么,针对每个视角,将该视角下的样本图像对应的标注文本输入至预设稳定扩散模型中进行图像生成处理,得到预测图像,包括:
针对每个视角,将该视角下的样本图像对应的标注文本输入至预设稳定扩散模型中进行图像生成处理,得到初始图像;基于所对应的帧号文本,对初始图像进行前后帧关联处理,得到预测图像。
也就是说,可以基于所对应的帧号文本,对预设稳定扩散模型输出的初始图像进行前后帧关联处理,其中,前后帧关联处理是指捕捉前后帧之间的帧间运动信息,从而得到预测图像。
这样,通过前后帧关联处理,可以实现对连续的视频帧中的同一进行跟踪、定位、轨迹识别等,使得预测图像能够延续样本图像之间的前后帧关系,具有连续性,有助于对预测图像的进一步分析。
在步骤S13中,获取到描述文本后,将描述文本输入至图像生成模型中进行图像生成处理,得到扩散图像。
在训练得到图像生成模型之后,可以根据获取到的描述文本,生成相应的扩散图像。其中,描述文本可以是根据用户需求生成的,也可以是响应于用户的输入所获取的,具体不做限定。
扩散图像可以根据描述文本的不同,实现对复杂路口、极端路况以及不同时间、不同季节、不同天气条件下的街景行车场景的模拟,得到连续帧下不同视角的实时行车图像,从而提高了数据的多样性和覆盖率,同时可以扩充现有数据集,更好地用于训练智能驾驶相关的深度学习模型。
如图3所示,为本申请的逻辑示意图。该方法包括以下步骤:获取多个视角下的实时行车记录图像数据,作为样本图像;样本图像通过视觉编码器和BLIP模型所构成的图像文字生成网络,生成粗提示词(prompt);基于参考文本,对不同视角下不同帧图像对应的prompt提示词进行精细修改,实现对样本图像的精细标注,同时对BLIP模型进行进一步训练,以使BLIP模型可以用于对样本图像的精细标注;针对样本图像的真编号,实现对样本图像不同视角和前后帧的特定融合方案,得到样本图像的标注文本;针对不同的视角,重新训练预设稳定扩散模型的Hypernetwork超网络,即每个视角对应一个超网络,得到各个视角对应的子图像生成模型,由子图像生成模型组成图像生成模型;图像生成模型为StableDiffusion模型,基于描述文本,可以生成连续帧下不同视角的实时行车图像,作为扩散图像。
由以上可见,本公开的实施例提供的技术方案,针对多个视角分别进行训练,得到图像生成模型之后,可以根据输入的描述文本的变化,灵活生成大量且多样的针对不同视角的扩散图像,如果应用于智能驾驶领域,可以通过图像生成模型进行训练数据的制作,不再需要人力或者实车采集行车图像,不仅可以降低成本,减少安全隐患,还可以提高模型训练的效率。
图4是根据一示例性实施例示出的一种图像生成装置框图,包括:
获取模块201,用于获取多个视角下的样本图像及所述样本图像对应的标注文本;
训练模块202,用于针对每个视角,将该视角下的所述样本图像对应的所述标注文本输入至预设稳定扩散模型中进行图像生成处理,得到预测图像;计算所述预测图像与所对应的样本图像之间的损失值;基于所述损失值对所述预设稳定扩散模型进行迭代调整,得到该视角对应的子图像生成模型;所述多个视角对应的子图像生成模型组成图像生成模型;
扩散模块203,用于获取到描述文本后,将所述描述文本输入至所述图像生成模型中进行图像生成处理,得到扩散图像。
可选地,所述获取模块201,具体用于:
获取多个视角下的样本图像;
将所述样本图像输入至图像文字生成网络进行特征分析,生成所述样本图像对应的标注文本。
可选地,所述图像文字生成网络包括视觉编码器及自然语言处理模型;所述获取模块201,具体用于:
将所述样本图像输入至所述视觉编码器中进行特征提取,得到所述样本图像的特征向量;
将所述特征向量输入至所述自然语言处理模型中进行语义分析,生成所述样本图像对应的标注文本。
可选地,所述获取模块201,具体用于:
将所述特征向量输入至所述自然语言处理模型中进行语义分析,生成初始文本;
获取对所述样本图像的参考文本,并将所述参考文本添加至所述初始文本中,得到所述样本图像对应的标注文本。
可选地,所述获取模块201,还用于:
基于所述参考文本及所对应的标注文本,对所述自然语言处理模型进行迭代更新。
可选地,所述获取模块201,具体用于:
将所述特征向量输入至所述自然语言处理模型中进行语义分析,生成初始文本;
根据每个视角下的所述样本图像的帧编号,生成所述样本图像的帧号文本;
将所述初始文本及所述帧号文本进行融合,生成所述样本图像对应的标注文本。
可选地,所述训练模块202,具体用于:
针对每个视角,将该视角下的所述样本图像对应的所述标注文本输入至预设稳定扩散模型中进行图像生成处理,得到初始图像;
基于所对应的帧号文本,对所述初始图像进行前后帧关联处理,得到预测图像。
可选地,所述稳定扩散模型包括编码器模块、超网络模块、交叉注意力模块以及解码器模块;
所述训练模块202,具体用于:
冻结所述编码器模块、所述交叉注意力模块以及所述解码器模块,并基于所述损失值对所述超网络模块进行迭代调整,得到该视角对应的子图像生成模型。
由以上可见,本公开的实施例提供的技术方案,针对多个视角分别进行训练,得到图像生成模型之后,可以根据输入的描述文本的变化,灵活生成大量且多样的针对不同视角的扩散图像,如果应用于智能驾驶领域,可以通过图像生成模型进行训练数据的制作,不再需要人力或者实车采集行车图像,不仅可以降低成本,减少安全隐患,还可以提高模型训练的效率。
图5是根据一示例性实施例示出的一种用于图像生成的电子设备的框图。
在示例性实施例中,还提供了一种包括指令的计算机可读存储介质,例如包括指令的存储器,所述指令可由电子设备的处理器执行以完成所述方法。可选地,计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供一种计算机程序产品,当其在计算机上运行时,使得计算机实现所述图像生成的方法。
由以上可见,本公开的实施例提供的技术方案,针对多个视角分别进行训练,得到图像生成模型之后,可以根据输入的描述文本的变化,灵活生成大量且多样的针对不同视角的扩散图像,如果应用于智能驾驶领域,可以通过图像生成模型进行训练数据的制作,不再需要人力或者实车采集行车图像,不仅可以降低成本,减少安全隐患,还可以提高模型训练的效率。
图6是根据一示例性实施例示出的一种用于图像生成的装置800的框图。
例如,装置800可以是移动电话,计算机,数字广播电子设备,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图6,装置800可以包括以下一个或多个组件:处理组件802,存储器804,电力组件806,多媒体组件808,音频组件810,输入/输出(I/O)的接口812,传感器组件814,以及通信组件816。
处理组件802通常控制装置800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令,以完成所述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理组件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件807为装置800的各种组件提供电力。电源组件807可以包括电源管理系统,一个或多个电源,及其他与为装置800生成、管理和分配电力相关联的组件。
多媒体组件808包括在所述装置800和账户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自账户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(MIC),当装置800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。
I/O接口812为处理组件802和外围接口模块之间提供接口,所述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件814包括一个或多个传感器,用于为装置800提供各个方面的状态评估。例如,传感器组件814可以检测到设备800的打开/关闭状态,组件的相对定位,例如所述组件为装置800的显示器和小键盘,传感器组件814还可以检测装置800或装置800一个组件的位置改变,账户与装置800接触的存在或不存在,装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络,如WiFi,运营商网络(如2G、3G、4G或5G),或它们的组合。在一个示例性实施例中,通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件816还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行第一方面和第二方面所述的方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器804,所述指令可由装置800的处理器820执行以完成所述方法。可选地,例如,存储介质可以是非临时性计算机可读存储介质,例如,所述非临时性非临时性计算机可读存储介质计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行所述实施例中任一所述的图像生成方法。
由以上可见,本公开的实施例提供的技术方案,针对多个视角分别进行训练,得到图像生成模型之后,可以根据输入的描述文本的变化,灵活生成大量且多样的针对不同视角的扩散图像,如果应用于智能驾驶领域,可以通过图像生成模型进行训练数据的制作,不再需要人力或者实车采集行车图像,不仅可以降低成本,减少安全隐患,还可以提高模型训练的效率。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (19)

1.一种图像生成方法,其特征在于,包括:
获取多个视角下的样本图像及所述样本图像对应的标注文本;
针对每个视角,将该视角下的所述样本图像对应的所述标注文本输入至预设稳定扩散模型中进行图像生成处理,得到预测图像;计算所述预测图像与所对应的样本图像之间的损失值;基于所述损失值对所述预设稳定扩散模型进行迭代调整,得到该视角对应的子图像生成模型;所述多个视角对应的子图像生成模型组成图像生成模型;
获取到描述文本后,将所述描述文本输入至所述图像生成模型中进行图像生成处理,得到扩散图像。
2.根据权利要求1所述的图像生成方法,其特征在于,所述获取多个视角下的样本图像及所述样本图像对应的标注文本,包括:
获取多个视角下的样本图像;
将所述样本图像输入至图像文字生成网络进行特征分析,生成所述样本图像对应的标注文本。
3.根据权利要求2所述的图像生成方法,其特征在于,所述图像文字生成网络包括视觉编码器及自然语言处理模型;所述将所述样本图像输入至图像文字生成网络进行特征分析,生成所述样本图像对应的标注文本,包括:
将所述样本图像输入至所述视觉编码器中进行特征提取,得到所述样本图像的特征向量;
将所述特征向量输入至所述自然语言处理模型中进行语义分析,生成所述样本图像对应的标注文本。
4.根据权利要求3所述的图像生成方法,其特征在于,所述将所述特征向量输入至所述自然语言处理模型中进行语义分析,生成所述样本图像对应的标注文本,包括:
将所述特征向量输入至所述自然语言处理模型中进行语义分析,生成初始文本;
获取对所述样本图像的参考文本,并将所述参考文本添加至所述初始文本中,得到所述样本图像对应的标注文本。
5.根据权利要求4所述的图像生成方法,其特征在于,所述将所述参考文本添加至所述初始文本中,得到所述样本图像对应的标注文本之后,还包括:
基于所述参考文本及所对应的标注文本,对所述自然语言处理模型进行迭代更新。
6.根据权利要求3所述的图像生成方法,其特征在于,所述将所述特征向量输入至所述自然语言处理模型中进行语义分析,生成所述样本图像对应的标注文本,包括:
将所述特征向量输入至所述自然语言处理模型中进行语义分析,生成初始文本;
根据每个视角下的所述样本图像的帧编号,生成所述样本图像的帧号文本;
将所述初始文本及所述帧号文本进行融合,生成所述样本图像对应的标注文本。
7.根据权利要求6所述的图像生成方法,其特征在于,所述针对每个视角,将该视角下的所述样本图像对应的所述标注文本输入至预设稳定扩散模型中进行图像生成处理,得到预测图像,包括:
针对每个视角,将该视角下的所述样本图像对应的所述标注文本输入至预设稳定扩散模型中进行图像生成处理,得到初始图像;
基于所对应的帧号文本,对所述初始图像进行前后帧关联处理,得到预测图像。
8.根据权利要求1所述的图像生成方法,其特征在于,所述稳定扩散模型包括编码器模块、超网络模块、交叉注意力模块以及解码器模块;
所述基于所述损失值对所述预设稳定扩散模型进行迭代调整,得到该视角对应的子图像生成模型,包括:
冻结所述编码器模块、所述交叉注意力模块以及所述解码器模块,并基于所述损失值对所述超网络模块进行迭代调整,得到该视角对应的子图像生成模型。
9.一种图像生成装置,其特征在于,包括:
获取模块,用于获取多个视角下的样本图像及所述样本图像对应的标注文本;
训练模块,用于针对每个视角,将该视角下的所述样本图像对应的所述标注文本输入至预设稳定扩散模型中进行图像生成处理,得到预测图像;计算所述预测图像与所对应的样本图像之间的损失值;基于所述损失值对所述预设稳定扩散模型进行迭代调整,得到该视角对应的子图像生成模型;所述多个视角对应的子图像生成模型组成图像生成模型;
扩散模块,用于获取到描述文本后,将所述描述文本输入至所述图像生成模型中进行图像生成处理,得到扩散图像。
10.根据权利要求9所述的图像生成装置,其特征在于,所述获取模块,具体用于:
获取多个视角下的样本图像;
将所述样本图像输入至图像文字生成网络进行特征分析,生成所述样本图像对应的标注文本。
11.根据权利要求10所述的图像生成装置,其特征在于,所述图像文字生成网络包括视觉编码器及自然语言处理模型;所述获取模块,具体用于:
将所述样本图像输入至所述视觉编码器中进行特征提取,得到所述样本图像的特征向量;
将所述特征向量输入至所述自然语言处理模型中进行语义分析,生成所述样本图像对应的标注文本。
12.根据权利要求11所述的图像生成装置,其特征在于,所述获取模块,具体用于:
将所述特征向量输入至所述自然语言处理模型中进行语义分析,生成初始文本;
获取对所述样本图像的参考文本,并将所述参考文本添加至所述初始文本中,得到所述样本图像对应的标注文本。
13.根据权利要求12所述的图像生成装置,其特征在于,所述获取模块,还用于:
基于所述参考文本及所对应的标注文本,对所述自然语言处理模型进行迭代更新。
14.根据权利要求11所述的图像生成装置,其特征在于,所述获取模块,具体用于:
将所述特征向量输入至所述自然语言处理模型中进行语义分析,生成初始文本;
根据每个视角下的所述样本图像的帧编号,生成所述样本图像的帧号文本;
将所述初始文本及所述帧号文本进行融合,生成所述样本图像对应的标注文本。
15.根据权利要求14所述的图像生成装置,其特征在于,所述训练模块,具体用于:
针对每个视角,将该视角下的所述样本图像对应的所述标注文本输入至预设稳定扩散模型中进行图像生成处理,得到初始图像;
基于所对应的帧号文本,对所述初始图像进行前后帧关联处理,得到预测图像。
16.根据权利要求9所述的图像生成装置,其特征在于,所述稳定扩散模型包括编码器模块、超网络模块、交叉注意力模块以及解码器模块;
所述训练模块,具体用于:
冻结所述编码器模块、所述交叉注意力模块以及所述解码器模块,并基于所述损失值对所述超网络模块进行迭代调整,得到该视角对应的子图像生成模型。
17.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至8中任一项所述的图像生成方法。
18.一种计算机可读存储介质,其特征在于,当所述计算机可读存储介质中的指令由图像生成电子设备的处理器执行时,使得图像生成电子设备能够执行如权利要求1至8中任一项所述的图像生成方法。
19.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8任一项所述的图像生成方法。
CN202311107962.2A 2023-08-30 2023-08-30 一种图像生成方法、装置、电子设备及存储介质 Pending CN117115306A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311107962.2A CN117115306A (zh) 2023-08-30 2023-08-30 一种图像生成方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311107962.2A CN117115306A (zh) 2023-08-30 2023-08-30 一种图像生成方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN117115306A true CN117115306A (zh) 2023-11-24

Family

ID=88796231

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311107962.2A Pending CN117115306A (zh) 2023-08-30 2023-08-30 一种图像生成方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN117115306A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117351328A (zh) * 2023-12-04 2024-01-05 杭州灵西机器人智能科技有限公司 一种标注图像生成方法、系统、设备和介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114021646A (zh) * 2021-11-03 2022-02-08 北京有竹居网络技术有限公司 一种图像描述文本确定方法及其相关设备
CN114239560A (zh) * 2021-12-03 2022-03-25 上海人工智能创新中心 三维图像分类方法、装置、设备和计算机可读存储介质
CN114723996A (zh) * 2022-04-20 2022-07-08 平安科技(深圳)有限公司 模型的训练方法、图像描述生成方法和装置、设备、介质
JP2022177242A (ja) * 2022-03-22 2022-11-30 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド テキスト認識モデルの訓練方法、テキスト認識方法及び装置
CN115631261A (zh) * 2022-10-17 2023-01-20 北京百度网讯科技有限公司 图像生成模型的训练方法、图像生成方法和装置
CN116109732A (zh) * 2023-01-12 2023-05-12 网易(杭州)网络有限公司 图像标注方法、装置、处理设备及存储介质
CN116612204A (zh) * 2023-06-01 2023-08-18 北京百度网讯科技有限公司 图像生成方法、训练方法、装置、电子设备以及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114021646A (zh) * 2021-11-03 2022-02-08 北京有竹居网络技术有限公司 一种图像描述文本确定方法及其相关设备
CN114239560A (zh) * 2021-12-03 2022-03-25 上海人工智能创新中心 三维图像分类方法、装置、设备和计算机可读存储介质
JP2022177242A (ja) * 2022-03-22 2022-11-30 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド テキスト認識モデルの訓練方法、テキスト認識方法及び装置
CN114723996A (zh) * 2022-04-20 2022-07-08 平安科技(深圳)有限公司 模型的训练方法、图像描述生成方法和装置、设备、介质
CN115631261A (zh) * 2022-10-17 2023-01-20 北京百度网讯科技有限公司 图像生成模型的训练方法、图像生成方法和装置
CN116109732A (zh) * 2023-01-12 2023-05-12 网易(杭州)网络有限公司 图像标注方法、装置、处理设备及存储介质
CN116612204A (zh) * 2023-06-01 2023-08-18 北京百度网讯科技有限公司 图像生成方法、训练方法、装置、电子设备以及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
HAOMIN ZHUANG; YIHUA ZHANG; SIJIA LIU: "A Pilot Study of Query-Free Adversarial Attack against Stable Diffusion", 2023 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION WORKSHOPS (CVPRW), 14 August 2023 (2023-08-14) *
兰红;刘秦邑;: "图注意力网络的场景图到图像生成模型", 中国图象图形学报, no. 08, 12 August 2020 (2020-08-12) *
牛斌;李金泽;房超;马利;徐和然;纪兴海;: "一种基于注意力机制与多模态的图像描述方法", 辽宁大学学报(自然科学版), no. 01, 15 February 2019 (2019-02-15) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117351328A (zh) * 2023-12-04 2024-01-05 杭州灵西机器人智能科技有限公司 一种标注图像生成方法、系统、设备和介质
CN117351328B (zh) * 2023-12-04 2024-02-13 杭州灵西机器人智能科技有限公司 一种标注图像生成方法、系统、设备和介质

Similar Documents

Publication Publication Date Title
CN110084775B (zh) 图像处理方法及装置、电子设备和存储介质
CN110516745B (zh) 图像识别模型的训练方法、装置及电子设备
CN110517185B (zh) 图像处理方法、装置、电子设备及存储介质
CN105979383A (zh) 图像获取方法及装置
CN117115306A (zh) 一种图像生成方法、装置、电子设备及存储介质
CN110781905A (zh) 一种图像检测方法及装置
CN114266840A (zh) 图像处理方法、装置、电子设备及存储介质
CN111814538B (zh) 目标对象的类别识别方法、装置、电子设备及存储介质
CN104461348A (zh) 信息选取方法及装置
CN111382748A (zh) 图像翻译方法、装置及存储介质
CN114429611B (zh) 视频合成方法、装置、电子设备及存储介质
CN112036156A (zh) 文本对话方法、装置及存储介质
CN110619325A (zh) 一种文本识别方法及装置
CN111984891A (zh) 页面展示方法、装置、电子设备和存储介质
CN112734627B (zh) 图像风格迁移模型的训练方法、图像风格迁移方法及装置
CN116611482A (zh) 模型训练方法、装置、电子设备及介质
CN114201102A (zh) 信息处理方法、装置及存储介质
CN114648116A (zh) 模型量化方法、装置、车辆及存储介质
CN114550691A (zh) 一种多音字消歧方法、装置、电子设备及可读存储介质
CN113873319A (zh) 视频处理方法、装置、电子设备及存储介质
CN114722238B (zh) 视频推荐方法、装置、电子设备、存储介质及程序产品
WO2023077755A1 (zh) 行人信息确定方法、装置、车辆、电子设备及存储介质
CN113377478B (zh) 文娱行业数据标注方法、装置、存储介质及设备
WO2022105229A1 (zh) 一种输入方法、装置和用于输入的装置
CN117056559A (zh) 目标搜索方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination