CN116485943A

CN116485943A - 图像生成方法、电子设备及存储介质

Info

Publication number: CN116485943A
Application number: CN202310286679.4A
Authority: CN
Inventors: 刘伟舟; 吴鑫; 胡晨; 周舒畅
Original assignee: Beijing Megvii Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd
Priority date: 2023-03-22
Filing date: 2023-03-22
Publication date: 2023-07-25

Abstract

本申请实施例提供了一种图像生成方法、电子设备及存储介质，该方法包括：生成与提示文本对应的至少一张图像；生成每张图像的初始文字说明；提取提示文本中的实体词，并确定每个实体词所表征的物体在每张图像中的目标检测结果；根据每张图像的目标检测结果和初始文字说明，生成每张图像的目标文字说明；针对每张图像，将提示文本与图像的目标文字说明进行匹配，得到匹配结果；在不存在满足目标条件的匹配结果时，根据目标文字说明对提示文本进行更新，并基于更新后的提示文本，迭代执行上述各步骤，直至存在满足所述目标条件的匹配结果；从匹配结果满足所述目标条件的至少一张图像中确定目标图像。本申请实施例可以提高图像的生成效率。

Description

图像生成方法、电子设备及存储介质

技术领域

本申请实施例涉及人工智能技术领域，特别是涉及一种图像生成方法、电子设备及存储介质。

背景技术

随着人工智能技术的快速发展，出现了基于文本输入的图像生成技术。基于文本输入的图像生成技术，是基于输入的文本生成与文本对应的图像，该技术在艺术创作等领域有重要的应用价值。

当前主流的图像生成模型，如Stable Diffusion(稳定扩散)，生成的图像结果经常会出现不符合原始文本输入的情况，可能需要用户反复多次尝试，并对输入的提示词进行更新后才能得到符合预期的图像，导致用户操作繁琐，图像生成效率较低。

发明内容

鉴于上述问题，提出了本申请实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种图像生成方法、电子设备及存储介质。

依据本申请实施例的第一方面，提供了一种图像生成方法，包括：

生成与提示文本对应的至少一张图像；

生成每张所述图像的初始文字说明；

提取所述提示文本中的实体词，并确定每个所述实体词所表征的物体在每张所述图像中的目标检测结果；

根据每张所述图像的目标检测结果和所述初始文字说明，生成每张所述图像的目标文字说明；

针对每张所述图像，将所述提示文本与所述图像的目标文字说明进行匹配，得到匹配结果；

在不存在满足目标条件的匹配结果时，根据所述目标文字说明对所述提示文本进行更新，并基于更新后的提示文本，迭代执行上述各步骤，直至存在满足所述目标条件的匹配结果；

从满足所述目标条件的至少一张图像中确定目标图像。

依据本申请实施例的第二方面，提供了一种电子设备，包括：处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如第一方面中所述的图像生成方法。

依据本申请实施例的第三方面，提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的图像生成方法。

依据本申请实施例的第四方面，提供了一种计算机程序产品，包括计算机程序或计算机指令，所述计算机程序或计算机指令被处理器执行时实现第一方面所述的图像生成方法。

本申请实施例提供的图像生成方法、电子设备及存储介质，通过生成与提示文本对应的至少一张图像，生成每张图像的初始文字说明，提取提示文本中的实体词，并确定每个实体词所表征的物体在每张图像中的目标检测结果，根据每张图像的目标检测结果和初始文字说明，生成每张图像的目标文字说明，针对每张图像，将提示文本与图像的目标文字说明进行匹配，得到匹配结果，在不存在满足目标条件的匹配结果时，根据目标文字说明对提示文本进行更新，并基于更新后的提示文本，迭代执行上述各步骤，直至存在满足目标条件的匹配结果，从匹配结果满足目标条件的至少一张图像中确定目标图像，由于在生成图像的过程中，可以基于目标文字说明来对提示文本进行更新，进而可以直接基于更新后的提示文本迭代生成图像并进行判断，直至得到匹配结果满足目标条件的至少一张图像，这样不需要用户手动对提示文本进行更新，避免了用户的繁琐操作，可以提高图像的生成效率。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。

图1是本申请实施例提供的一种图像生成方法的步骤流程图；

图2是本申请实施例提供的一种图像生成装置的结构框图；

图3是本申请实施例提供的一种电子设备的结构框图。

具体实施方式

下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例，然而应当理解，可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本申请，并且能够将本申请的范围完整的传达给本领域的技术人员。

近年来，基于人工智能的计算机视觉、深度学习、机器学习、图像处理、图像识别等技术研究取得了重要进展。人工智能(Artificial Intelligence，AI)是研究、开发用于模拟、延伸人的智能的理论、方法、技术及应用系统的新兴科学技术。人工智能学科是一门综合性学科，涉及芯片、大数据、云计算、物联网、分布式存储、深度学习、机器学习、神经网络等诸多技术种类。计算机视觉作为人工智能的一个重要分支，具体是让机器识别世界，计算机视觉技术通常包括人脸识别、活体检测、指纹识别与防伪验证、生物特征识别、人脸检测、行人检测、目标检测、行人识别、图像处理、图像识别、图像语义理解、图像检索、文字识别、视频处理、视频内容识别、三维重建、虚拟现实、增强现实、同步定位与地图构建(SLAM)、计算摄影、机器人导航与定位等技术。随着人工智能技术的研究和进步，该项技术在众多领域展开了应用，例如安全防控、城市管理、交通管理、楼宇管理、园区管理、人脸通行、人脸考勤、物流管理、仓储管理、机器人、智能营销、计算摄影、手机影像、云服务、智能家居、穿戴设备、无人驾驶、自动驾驶、智能医疗、人脸支付、人脸解锁、指纹解锁、人证核验、智慧屏、智能电视、摄像机、移动互联网、网络直播、美颜、美妆、医疗美容、智能测温等领域。

图1是本申请实施例提供的一种图像生成方法的步骤流程图，该方法可以应用于手机、平板电脑、计算机等电子设备中，如图1所示，该方法可以包括：

步骤101，生成与提示文本对应的至少一张图像。

其中，所述提示文本可以是用户初始输入的提示文本(prompt)，也可以是经过对初始的提示文本进行迭代更新而产生的提示文本。

可以通过图像生成模型来生成与提示文本对应的至少一张图像。所生成图像的数量可以基于需求进行预先设置，例如可以设置为8张，这时，可以使用8次图像生成模型来生成8张不同的图像。

在本申请的一些实施例中，所述生成与提示文本对应的至少一张图像，包括：通过稳定扩散模型生成与提示文本对应的至少一张图像。

图像生成模型例如可以采用Stable Diffusion(稳定扩散)模型，StableDiffusion模型是一种潜在扩散(Latent Diffusion)模型，潜在扩散在维度较低的隐空间(Latent Space)上进行扩散过程，而不使用实际的像素空间。Stable Diffusion模型包括：文本编码器和图像生成器，文本编码器是一个Transformer语言模型，用于将提示文本转换为向量。图像生成器包括图像信息创建器(Image information creator)和图像编码器，图像信息创建器完全在图像信息空间(或潜空间)中运行，这一特性使得它比其他在像素空间工作的Diffusion模型运行得更快，该组件由一个UNet神经网络和一个调度(scheduling)算法组成；图像解码器根据从图像信息创建器中获取的信息生成一副图像，整个过程只运行一次即可生成最终的像素图像。

步骤102，生成每张所述图像的初始文字说明。

通过图像语言预训练模型对每张图像进行处理，生成每张图像的初始文字说明(caption)，图像文字说明用于描述图像中的内容。

在本申请的一些实施例中，所述生成每张所述图像的初始文字说明，包括：通过BLIP2模型生成每张所述图像的初始文字说明。

图像语言预训练模型例如可以采用BLIP2模型，BLIP2模型通过在冻结的预训练图像编码器和冻结的预训练大语言模型之间添加一个轻量级查询Transformer(QueryTransformer,Q-Former)来弥合视觉和语言模型之间的模态隔阂，在整个模型中，Q-Former是唯一的可训练模块，而图像编码器和语言模型始终保持冻结状态。在使用BLIP2模型来生成每张图像的初始文字说明时，通过预训练图像编码器从图像中提取视觉到语言的表示特征，通过Q-Former从视觉到语言的表示特征中生成与文本最相关的视觉表示特征，通过语言模型来基于视觉表示特征生成初始文字说明。

步骤103，提取所述提示文本中的实体词，并确定所述实体词所表征的物体在每张所述图像中的目标检测结果。

其中，所述实体词一般指的是名词，即表示物体的名词，例如苹果、红色的苹果等。

可以采用命名实体识别的方法来识别提示文本中的实体词，并基于识别结果从提示文本中提取实体词；或者，还可以采用词性确定的方法来确定提示文本中每个词汇的词性，并提取词性为名词的词汇，作为实体词。可以通过基于文本的目标检测模型来根据每个所述实体词对每张图像进行目标检测，确定每张图像中对应每个实体词所表征物体的目标检测结果。目标检测结果包括与每个实体词所对应物体的检测框。

在本申请的一些实施例中，所述提取所述提示文本中的实体词，包括：确定所述提示文本中每个词汇的词性，并从所述提示文本中提取词性为名词的词汇，作为所述实体词。

通过自然语言处理模型来确定提示文本中每个词汇的词性，并从中提取词性为名词的词汇，作为提示文本中的实体词。其中，在提示文本为英文文本时，自然语言处理模型可以是chunk-eng(chunk-english)模型。通过识别词性的方式来确定实体词，可以识别范围较为广泛的实体词。

在本申请的一些实施例中，所述确定所述实体词所表征的物体在每张所述图像中的目标检测结果，包括：通过OWL-ViT模型确定所述实体词所表征的物体在每张所述图像中的目标检测结果。

基于文本的目标检测模型可以采用OWL-ViT(Vision Transformer for Open-World Localization，用于开放世界本地化的视觉转换器)模型，OWL-ViT是一个在各种图像、文本对上训练的开放词汇对象检测网络。它可以用于基于一个或多个文本查询来对图像进行查询，以在图像中搜索和检测文本中描述的目标对象。

步骤104，根据每张所述图像的目标检测结果和所述初始文字说明，生成每张所述图像的目标文字说明。

将每张图像的目标检测结果整理为文字形式的补充说明，并将补充说明与相应图像的初始文字说明进行整合，得到相应图像的目标文字说明。

在本申请的一些实施例中，所述根据每张所述图像的目标检测结果和所述初始文字说明，生成每张所述图像的目标文字说明，包括：针对每张所述图像，生成与所述目标检测结果对应的文本信息；将所述文本信息和所述图像的初始文字说明整合为所述图像的目标文字说明。

针对每张图像分别进行处理生成对应的目标文字说明，在对当前的图像进行处理时，对该图像的目标检测结果进行整理，生成与目标检测结果对应的文本信息，文本信息是描述图像中目标检测结果的信息，例如可以是表示目标检测结果中物体数量的信息，一个实体词表示一种物体；对文本信息和图像的初始文字说明进行整合，得到图像的目标文字说明，整合的方式可以是将该图像的文本信息拼接在初始文字说明的后面，也可以是将图像的文本信息拼接在初始文字说明的前面，从而得到该图像的目标文字说明。

通过将目标检测结果对应的文本信息与初始文字说明整合为图像的目标文字说明，可以更加详细准确的来描述图像中的内容，提高后续匹配结果的准确性。

在本申请的一些实施例中，所述针对每张所述图像，生成与所述目标检测结果对应的文本信息，包括：针对每张所述图像，对所述目标检测结果中同一物体的数量进行统计，分别确定所述目标检测结果中与每个所述实体词对应的数量；将每个所述实体词和对应数量确定为所述文本信息。

针对每张图像，可以按照实体词所表征的物体来对该图像的目标检测结果中的物体数量进行统计，确定目标检测结果中与每个实体词所表征物体对应的检测框的数量，得到与每个实体词对应的数量，将实体词和对应数量确定为文本信息。例如，提示文本是“一个绿色苹果和一个蓝色的碗”，生成的一张图像中包括两个苹果，则生成的文本信息可以是“苹果的数量为2”。

通过生成包括实体词和目标检测结果中与实体词对应的数量的文本信息，可以更加准确的来描述图像中每个实体词所对应的物体数量，从而提高后续匹配结果的准确性。

步骤105，针对每张所述图像，将所述提示文本与所述图像的目标文字说明进行匹配，得到匹配结果。

针对每张图像，可以按照实体词来对提示文本与图像的目标文字说明进行匹配，确定提示文本与目标文字说明中描述同一实体词的信息(例如数量)是否匹配，得到匹配结果。

在本申请的一些实施例中，所述将所述提示文本与所述图像的目标文字说明进行匹配，得到匹配结果，包括：获取包括样本提示文本和样本目标文字说明的匹配对模板集合，所述匹配对模板集合包括多个正匹配对模板和多个负匹配对模板；将所述匹配对模板集合、所述提示文本和所述目标文字说明输入聊天生成预训练转换器，通过所述聊天生成预训练转换器根据所述匹配对模板集合，将所述提示文本与所述目标文字说明进行匹配，得到所述提示文本与所述目标文字说明的匹配结果。

其中，所述正匹配对模板是样本提示文本和样本目标文字说明相匹配的模板，负匹配对模板是样本提示文本和样本目标文字说明不匹配的模板。每个正匹配对模板中还可以包括该匹配对相匹配的原因，每个负匹配对模板中还可以包括该匹配对不匹配的原因，这样便于模型学习匹配对是否相匹配的原因。

针对每张图像，将匹配对模板集合、提示文本和目标文字说明输入聊天生成预训练转换器(Chat Generative Pre-trained Transformer，ChatGPT)，通过聊天生成预训练转换器采用小样本学习(few-shot)的方式来对匹配对模板集合中的正匹配对模板和负匹配对模板进行学习，并基于学习结果对提示文本与目标文字说明进行匹配，得到提示文本与目标文字说明的匹配结果。通过聊天生成预训练转换器根据匹配对模板集合来对提示文本和目标文字说明进行匹配，可以在小样本学习的方式下给出准确的匹配结果。

步骤106，判断是否存在满足目标条件的匹配结果，如果不存在，则执行步骤107，如果存在，则执行步骤108。

对至少一张图像的匹配结果进行判断，判断每个匹配结果是否满足目标条件，如果所有图像的匹配结果均不满足目标条件，则执行步骤107，如果存在至少一张图像的匹配结果满足目标条件，则执行步骤108。其中，目标条件可以是匹配结果为相匹配，即提示文本与图像的目标文字说明相匹配。

步骤107，根据所述目标文字说明对所述提示文本进行更新，并基于更新后的提示文本，迭代执行步骤101至步骤107。

根据目标文字说明对提示文本进行更新，以区分出目标文字说明和提示文本中的不同描述，并对提示文本中的表征物体信息的内容进行强调，得到更新后的提示文本。基于更新后的提示文本，迭代执行步骤101至步骤107，直至至少一张图像的匹配结果满足目标条件。

可以通过聊天生成预训练转换器来对提示文本进行更新，将提示文本和每张图像的目标文字说明输入聊天生成预训练转换器，通过聊天生成预训练转换器根据每张图像的目标文字说明对提示文本进行更新，得到更新后的提示文本。更新后的提示文本可以更加强调提示文本所要求的内容，例如，原始的提示文本是“一个绿色苹果和一个蓝色的碗”，基于该提示文本生成了4张图像，第一张图像的目标文字说明是“一张包括一个红苹果和一个绿苹果的油画；苹果的数量是2，碗的数量是1”，第二张图像的目标文字说明是“两个苹果在桌子上的一个蓝色的碗里；苹果的数量是2”，第三张图像的目标文字说明是“盘子里一个绿色的苹果，挨着半个苹果；苹果的数量是2”，第四张图像的目标文字说明是“两个苹果在桌子上的一个碗里；苹果的数量是2，碗的数量是1”，基于提示文本和目标文字说明更新得到的更新后的提示文本可以是“请绘制一个绿色的苹果和一个蓝色的碗，确保苹果确实是绿色的，并确保碗确实是蓝色的”。

步骤108，从所述匹配结果满足所述目标条件的至少一张图像中确定目标图像。

在只有一张图像的匹配结果满足目标条件时，可以将该图像确定为目标图像。在存在至少两张图像的匹配结果满足目标条件时，可以从匹配结果满足目标条件的至少两张图像中随机选择一张图像，作为目标图像；或者，也可以对至少两张图像进行比较，选取与提示文本最相似的图像，作为目标图像。

在本申请的一些实施例中，所述目标条件为所述匹配结果为相匹配；

所述从所述匹配结果满足所述目标条件的至少一张图像中确定目标图像，包括：分别确定每张所述匹配结果为相匹配的图像与所述提示文本的语义相似度；将所述语义相似度最高的图像确定为所述目标图像。

目标条件是存在匹配结果为相匹配的至少一张图像，也就是存在目标文字说明与提示文本相匹配的至少一张图像，就确定生成了符合提示文本的图像。

在存在多于一张匹配结果为相匹配的图像时，可以分别确定每张图像与提示文本的语义相似度，并将语义相似度最高的图像确定为目标图像。通过将图像与提示文本的语义相似度最高的图像确定为目标图像，可以提高生成的图像的准确性。

在本申请的一些实施例中，所述分别确定所述匹配结果为相匹配的每张图像与所述提示文本的语义相似度，包括：针对所述匹配结果为相匹配的每张图像，提取所述图像的图像特征，并提取所述提示文本的语义特征；确定所述图像特征与所述语义特征之间的相似度，得到所述图像与所述提示文本的语义相似度。

针对匹配结果为相匹配的每张图像，可以通过图像特征提取模型提取图像的图像特征，并通过文本特征提取模型提取提示文本的语义特征，计算图像特征与语义特征之间的余弦相似度，得到图像与提示文本的语义相似度。

对于匹配结果为匹配的每张图像，可以通过CLIP(Contrastive Language-ImagePre-training，对比语言-图像预训练)模型来确定图像与提示文本的语义相似度。其中，CLIP模型包括文本编码器和图像编码器。在通过CLIP模型来确定图像与提示文本的语义相似度时，将图像输入CLIP模型中的图像编码器，通过图像编码器对图像进行编码，得到图像特征；将提示文本输入CLIP模型中的文本编码器，通过文本编码器对提示文本进行编码，得到语义特征；确定图像特征与语义特征之间的余弦相似度，将余弦相似度作为图像与提示文本的语义相似度。

通过提取图像的图像特征以及提示文本的语义特征，进而通过图像特征和语义特征可以建立图像和提示文本之间的关联关系，这样将图像特征与语义特征之间的相似度确定为图像与提示文本的语义相似度，可以得到较为准确的语义相似度。

本实施例提供的图像生成方法，通过生成与提示文本对应的至少一张图像，生成每张图像的初始文字说明，提取提示文本中的实体词，并确定每个实体词所表征的物体在每张图像中的目标检测结果，根据每张图像的目标检测结果和初始文字说明，生成每张图像的目标文字说明，针对每张图像，将提示文本与图像的目标文字说明进行匹配，得到匹配结果，在不存在满足目标条件的匹配结果时，根据目标文字说明对提示文本进行更新，并基于更新后的提示文本，迭代执行上述各步骤，直至存在满足目标条件的匹配结果，从匹配结果满足目标条件的至少一张图像中确定目标图像，由于在生成图像的过程中，可以基于目标文字说明来对提示文本进行更新，进而可以直接基于更新后的提示文本迭代生成图像并进行判断，直至得到匹配结果满足目标条件的至少一张图像，这样不需要用户手动对提示文本进行更新，避免了用户的繁琐操作，可以提高图像的生成效率。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请实施例并不受所描述的动作顺序的限制，因为依据本申请实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本申请实施例所必须的。

图2是本申请实施例提供的一种图像生成装置的结构框图，如图2所示，该图像生成装置可以包括：

图像生成模块201，用于生成与提示文本对应的至少一张图像；

初始说明生成模块202，用于生成每张所述图像的初始文字说明；

实体词检测模块203，用于提取所述提示文本中的实体词，并确定所述实体词所表征的物体在每张所述图像中的目标检测结果；

目标说明生成模块204，用于根据每张所述图像的目标检测结果和所述初始文字说明，生成每张所述图像的目标文字说明；

文本匹配模块205，用于针对每张所述图像，将所述提示文本与所述图像的目标文字说明进行匹配，得到匹配结果；

迭代控制模块206，用于在不存在满足目标条件的匹配结果时，根据所述目标文字说明对所述提示文本进行更新，并基于更新后的提示文本，迭代执行上述各步骤，直至存在满足所述目标条件的匹配结果；

目标图像确定模块207，用于从所述匹配结果满足所述目标条件的至少一张图像中确定目标图像。

可选的，所述目标说明生成模块包括：

文本信息生成单元，用于针对每张所述图像，生成与所述目标检测结果对应的文本信息；

目标说明生成单元，用于将所述文本信息和所述图像的初始文字说明整合为所述图像的目标文字说明。

可选的，所述文本信息生成单元具体用于：

针对每张所述图像，对所述目标检测结果中同一物体的数量进行统计，分别确定所述目标检测结果中与每个所述实体词对应的数量；

将每个所述实体词和对应数量确定为所述文本信息。

可选的，所述文本匹配模块包括：

匹配对模板获取单元，用于获取包括样本提示文本和样本目标文字说明的匹配对模板集合，所述匹配对模板集合包括多个正匹配对模板和多个负匹配对模板；所述正匹配对模板是样本提示文本和样本目标文字说明相匹配的模板，所述负匹配对模板是样本提示文本和样本目标文字不匹配的模板；

文本匹配单元，用于将所述匹配对模板集合、所述提示文本和所述目标文字说明输入聊天生成预训练转换器，通过所述聊天生成预训练转换器根据所述匹配对模板集合，将所述提示文本与所述目标文字说明进行匹配，得到所述提示文本与所述目标文字说明的匹配结果。

可选的，所述目标条件为所述匹配结果为相匹配；

所述目标图像确定模块包括：

相似度确定单元，用于分别确定每张所述匹配结果为相匹配的图像与所述提示文本的语义相似度；

目标图像确定单元，用于将所述语义相似度最高的图像确定为所述目标图像。

可选的，所述实体词检测模块具体用于：

确定所述提示文本中每个词汇的词性，并从所述提示文本中提取词性为名词的词汇，作为所述实体词。

可选的，所述图像生成模块具体用于：

通过稳定扩散模型生成与提示文本对应的至少一张图像；

所述初始说明生成模块具体用于：

通过BLIP2模型生成每张所述图像的初始文字说明；

所述实体词检测模块包括：

目标检测单元，用于通过OWL-ViT模型确定所述实体词所表征的物体在每张所述图像中的目标检测结果。

本申请实施例提供的装置中各个模块、单元所对应功能的具体实现过程可参考图1所示方法实施例，此处不再赘述装置部分各个模块、单元所对应功能的具体实现过程。

本实施例提供的图像生成装置，通过生成与提示文本对应的至少一张图像，生成每张图像的初始文字说明，提取提示文本中的实体词，并确定每个实体词在每张图像中的目标检测结果，根据每张图像的目标检测结果和初始文字说明进行更新，生成每张图像的目标文字说明，针对每张图像，将提示文本与图像的目标文字说明进行匹配，得到匹配结果，在不存在满足目标条件的匹配结果时，根据目标文字说明对提示文本进行更新，并基于更新后的提示文本，迭代执行上述各步骤，直至存在满足目标条件的匹配结果，从匹配结果满足目标条件的至少一张图像中确定目标图像，由于在生成图像的过程中，可以基于目标文字说明来对提示文本进行更新，进而可以直接基于更新后的提示文本迭代生成图像并进行判断，直至得到匹配结果满足目标条件的至少一张图像，这样不需要用户手动对提示文本进行更新，避免了用户的繁琐操作，可以提高图像的生成效率。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

图3是本申请实施例提供的一种电子设备的结构框图，如图3所示，该电子设备300可以包括一个或多个处理器310以及与处理器310连接的一个或多个存储器320。电子设备300还可以包括输入接口330和输出接口340，用于与另一装置或系统进行通信。被处理器310执行的程序代码可存储在存储器320中。

电子设备300中的处理器310调用存储在存储器320的程序代码，以执行上述实施例中的图像生成方法。

根据本申请的一个实施例，还提供了一种计算机可读存储介质，所述计算机可读存储介质包括但不限于磁盘存储器、CD-ROM、光学存储器等，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现前述实施例所述的图像生成方法。

根据本申请的一个实施例，还提供了一种计算机程序产品，包括计算机程序或计算机指令，所述计算机程序或计算机指令被处理器执行时实现上述实施例所述的图像生成方法。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种图像生成方法、电子设备及存储介质，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种图像生成方法，其特征在于，包括：

生成与提示文本对应的至少一张图像；

生成每张所述图像的初始文字说明；

提取所述提示文本中的实体词，并确定所述实体词所表征的物体在每张所述图像中的目标检测结果；

从所述匹配结果满足所述目标条件的至少一张图像中确定目标图像。

2.根据权利要求1所述的方法，其特征在于，所述根据每张所述图像的目标检测结果和所述初始文字说明，生成每张所述图像的目标文字说明，包括：

针对每张所述图像，生成与所述目标检测结果对应的文本信息；

将所述文本信息和所述图像的初始文字说明整合为所述图像的目标文字说明。

3.根据权利要求2所述的方法，其特征在于，所述针对每张所述图像，生成与所述目标检测结果对应的文本信息，包括：

将每个所述实体词和对应数量确定为所述文本信息。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述将所述提示文本与所述图像的目标文字说明进行匹配，得到匹配结果，包括：

获取包括样本提示文本和样本目标文字说明的匹配对模板集合，所述匹配对模板集合包括多个正匹配对模板和多个负匹配对模板；所述正匹配对模板是样本提示文本和样本目标文字说明相匹配的模板，所述负匹配对模板是样本提示文本和样本目标文字不匹配的模板；

将所述匹配对模板集合、所述提示文本和所述目标文字说明输入聊天生成预训练转换器，通过所述聊天生成预训练转换器根据所述匹配对模板集合，将所述提示文本与所述目标文字说明进行匹配，得到所述提示文本与所述目标文字说明的匹配结果。

5.根据权利要求1-3任一项所述的方法，其特征在于，所述目标条件为所述匹配结果为相匹配；

所述从所述匹配结果满足所述目标条件的至少一张图像中确定目标图像，包括：

分别确定每张所述匹配结果为相匹配的图像与所述提示文本的语义相似度；

将所述语义相似度最高的图像确定为所述目标图像。

6.根据权利要求1-3任一项所述的方法，其特征在于，所述提取所述提示文本中的实体词，包括：

7.根据权利要求1-3任一项所述的方法，其特征在于，所述生成与提示文本对应的至少一张图像，包括：

通过稳定扩散模型生成与提示文本对应的至少一张图像；

所述生成每张所述图像的初始文字说明，包括：

通过BLIP2模型生成每张所述图像的初始文字说明；

所述确定所述实体词所表征的物体在每张所述图像中的目标检测结果，包括：

通过OWL-ViT模型确定所述实体词所表征的物体在每张所述图像中的目标检测结果。

8.一种电子设备，其特征在于，包括：处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1-7任一项所述的图像生成方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的图像生成方法。

10.一种计算机程序产品，其特征在于，包括计算机程序或计算机指令，所述计算机程序或计算机指令被处理器执行时实现权利要求1至7任一项所述的图像生成方法。