CN116401394B

CN116401394B - 对象集和图像生成方法、装置、电子设备及存储介质

Info

Publication number: CN116401394B
Application number: CN202310664959.4A
Authority: CN
Inventors: 请求不公布姓名
Original assignee: Moore Threads Technology Co Ltd
Current assignee: Moore Threads Technology Co Ltd
Priority date: 2023-06-06
Filing date: 2023-06-06
Publication date: 2023-08-29
Anticipated expiration: 2043-06-06
Also published as: CN116401394A

Abstract

本公开提供了一种对象集和图像生成方法、装置、电子设备及存储介质，涉及计算机技术领域，以至少解决了相关技术中大部分都是利用人工整理、社区经验、感性判断等方式得到的对象来增强图像的生成效果，使得生成结果存在准确度不高、数量有限、不稳定性、不可靠性等问题。具体实现方案为：基于提示信息集，确定第一图像集；针对候选对象集中的每一候选对象，基于所述候选对象和所述提示信息集，确定与所述候选对象匹配的第二图像集，所述候选对象用于表征图像风格；基于所述第一图像集的属性信息和每一所述候选对象对应的第二图像集的属性信息，从所述候选对象集中确定第一对象集。

Description

对象集和图像生成方法、装置、电子设备及存储介质

技术领域

本公开涉及但不限于计算机技术领域，尤其涉及一种对象集和图像生成方法、装置、电子设备及存储介质。

背景技术

文本生图（Text-to-Image Generation）作为人工智能生成内容（ArtificialIntelligence Generated Content，AIGC）的重要组成部分，受到越来越多的关注和应用。在实施时，用户只需要通过文本（即：提示语）描述预期的内容，生成模型即可生成高质量且符合语义要求的图片。

相关技术中，通过在提示语中添加对象（例如，艺术家名称、名人名称等），生成模型便会生成具有该对象匹配的风格和内容的图像，达到改善图像生成效果的目的。而这些对象通常都是依赖个人感性判断、社区经验、人工整理等方式得到的，存在数量有限、准确度不高、效率不高等问题，从而使得生成结果存在局限性、不稳定性、不可解释性等问题。

发明内容

本公开实施例提供一种对象集和图像生成方法、装置、电子设备、存储介质及计算机程序产品。

本公开实施例的技术方案是这样实现的：

本公开实施例提供一种对象集生成方法，该对象集生成方法包括：

基于提示信息集，确定第一图像集；其中，所述第一图像集中的每一第一图像分别对应所述提示信息集中的一条第一提示信息；

针对候选对象集中的每一候选对象，基于所述候选对象和所述提示信息集，确定与所述候选对象匹配的第二图像集，所述第二图像集中包括至少一张第二图像，每一所述第二图像分别对应于一个所述第一提示信息，所述候选对象用于表征图像风格；

基于所述第一图像集的属性信息和每一所述候选对象对应的第二图像集的属性信息，从所述候选对象集中确定第一对象集。

本公开实施例提供一种图像生成方法，该图像生成方法包括：

从第二对象集中确定至少一个目标对象；其中，所述第二对象集是根据上述任一项对象集生成方法得到的；

基于提示信息和每一所述目标对象，生成所述提示信息对应的图像。

本公开实施例提供一种对象集生成装置，该对象集生成装置包括：

第一确定模块，用于基于提示信息集，确定第一图像集；其中，所述第一图像集中的每一第一图像分别对应所述提示信息集中的一条第一提示信息；

第二确定模块，用于针对候选对象集中的每一候选对象，基于所述候选对象和所述提示信息集，确定与所述候选对象匹配的第二图像集，所述第二图像集中包括至少一张第二图像，每一所述第二图像分别对应于一个所述第一提示信息，所述候选对象用于表征图像风格；

第一生成模块，用于基于所述第一图像集的属性信息和每一所述候选对象对应的第二图像集的属性信息，从所述候选对象集中确定第一对象集。

本公开实施例提供一种图像生成装置，该图像生成装置包括：

第三确定模块，用于从第二对象集中确定至少一个目标对象；其中，所述第二对象集是根据上述任一项对象集生成方法得到的；

第二生成模块，用于基于提示信息和每一所述目标对象，生成所述提示信息对应的图像。

本公开实施例提供一种电子设备，包括处理器和存储器，所述存储器存储有可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法。

本公开实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述方法。

本公开实施例提供一种计算机程序产品，所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，所述计算机程序被计算机读取并执行时，实现上述方法。

本公开实施例中，通过基于提示信息集，确定第一图像集；其中，所述第一图像集中的每一第一图像分别对应所述提示信息集中的一条第一提示信息；针对候选对象集中的每一候选对象，基于所述候选对象和所述提示信息集，确定与所述候选对象匹配的第二图像集，所述第二图像集中包括至少一张第二图像，每一所述第二图像分别对应于一个所述第一提示信息，所述候选对象用于表征图像风格；基于所述第一图像集的属性信息和每一所述候选对象对应的第二图像集的属性信息，从所述候选对象集中确定第一对象集。这样，通过第一图像集的属性信息和每一候选对象对应的第二图像集的属性信息，自动对候选对象集进行筛选，以得到第一对象集，相较于通过个人感性判断、社区经验、人工整理等方式而言，不仅增加了对象的数量、缩短了对象的获得时长，从而降低了对象的获得成本，而且还提升了获得的对象的可靠性和准确度，进而后续通过该第一对象集来生成图像，使得图像具有更加丰富多样的增强效果，降低了仅使用少量经人工经验的对象来提升生成图像的局限性、及盲目使用大量未经人工验证的对象可能带来的不稳定性和不可解释性的可能性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。

图1为本公开实施例提供的一种对象集生成方法的实现流程示意图一；

图2为本公开实施例提供的一种对象集生成方法的实现流程示意图二；

图3为本公开实施例提供的一种图像生成方法的实现流程示意图一；

图4A为本公开实施例提供的一种对象集生成方法的实现流程示意图三；

图4B为本公开实施例提供的一种图像的美学评分值的示意图；

图4C为本公开实施例提供的一种图像生成方法的实现流程示意图二；

图4D为本公开实施例提供的一种基于提示语生成的图像的示意图；

图5为本公开实施例提供的一种对象集生成装置的组成结构示意图；

图6为本公开实施例提供的一种图像生成装置的组成结构示意图；

图7为本公开实施例中电子设备的一种硬件实体示意图。

具体实施方式

为了使本公开的目的、技术方案和优点更加清楚，下面将结合附图对本公开作进一步地详细描述，所描述的实施例不应视为对本公开的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本公开保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本公开实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本公开的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本公开实施例的目的，不是旨在限制本公开。

相关技术中，具有一定经验的用户，在编写提示语时会添加一些常用对象，使得生成模型会相应地生成类似该对象的风格与内容，达到了改善生成效果的目的，但是主要依赖于用户的社区经验、人工整理得到的极少个数的对象，那么在文本生图的过程中，反复使用这几个对象，虽然改善了生成效果，但严重影响了生成结果的多样性。同时一些在线的文本生图网站，虽然提供了较多的对象供用户使用，但用户并不了解每个对象的风格和内容，盲目选择反而会使得生成结果不如预期，带来了不稳定性和不可解释性。

本公开实施例提供一种对象集生成方法，通过第一图像集的属性信息和每一候选对象对应的第二图像集的属性信息，自动对候选对象集进行筛选，以得到第一对象集，相较于通过个人感性判断、社区经验、人工整理等方式而言，不仅增加了对象的数量、缩短了对象的获得时长，从而降低了对象的获得成本，而且还提升了获得的对象的可靠性和准确度，进而后续通过该第一对象集来生成图像，使得图像具有更加丰富多样的增强效果，降低了仅使用少量经人工经验的对象来提升生成图像的局限性、及盲目使用大量未经人工验证的对象可能带来的不稳定性和不可解释性的可能性。本公开实施例提供的方法可以由电子设备执行，电子设备可以为笔记本电脑，平板电脑，台式计算机，机顶盒，移动设备（例如，移动电话，便携式音乐播放器，个人数字助理，专用消息设备，便携式游戏设备）等各种类型的终端，也可以实施为服务器。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、（Content DeliveryNetwork，CDN）、以及大数据和人工智能平台等基础云计算服务的云服务器。

下面，将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述。

图1为本公开实施例提供的一种对象集生成方法的实现流程示意图一，如图1所示，所述方法包括步骤S11至步骤S13，其中：

步骤S11、基于提示信息集，确定第一图像集；其中，所述第一图像集中的每一第一图像分别对应所述提示信息集中的一条第一提示信息。

这里，提示信息集中包括至少一条第一提示信息。第一提示信息可以是任意合适的提示信息。在实施时，第一提示信息可以是文字提示信息、语音提示信息等。例如，第一提示信息可以是描述人、虚拟对象、物品等的属性信息的文字/语音提示信息。其中，属性信息可以包括但不限于性别（比如，男、女）、体型（比如，高、矮、胖、瘦等）、外貌等，虚拟对象可以是模型、数字人等。比如，第一提示信息可以是“一个漂亮的女生”。又比如，第一提示信息可以是“骑着单车的学生”。

获取第一提示信息集的方式可以根据实际应用场景来确定，本公开实施例对此不作限定。

例如，用户通过电子设备的输入组件输入的提示信息集。其中，输入组件可以包括但不限于键盘、鼠标、触控屏、触控板、音频输入器等。

又例如，接收其它设备发送的提示信息集。

还例如，按照预设的选取规则，从第二提示信息集中选取多个提示信息作为该第一提示信息集。其中，选取规则可以包括但不限于电子设备的默认配置、随机、用户自定义、用户喜好、使用频率、应用场景、用户操作信息等。在实施时，本领域技术人员可以根据实际需求自主设定选取规则，本公开不作限定。例如，将第二提示信息集中的前100个提示信息作为该第一提示信息集。又例如，从第二提示信息集中随机选择80个提示信息作为该第一提示信息集。还例如，根据用户的手势实时从第二提示信息集中选取第一提示信息集。比如，不同的手势/操作步长对应不同的提示信息集，例如，在用户输入第一手势的情况下，将前100个提示信息作为该第一提示信息集；在用户输入第二手势的情况下，随机选择100个提示信息作为该第一提示信息集。

第二提示信息集是对其它提示信息集进行预处理得到的提示信息集。其它提示信息集可以是从利用爬虫等技术从一些关联链接（例如，文本生图的链接、提示语资源链接）中获取的多条提示语记录中得到的，在实施时，该提示语记录中可以包括但不限于提示语标识、提示语、生成图像的属性信息、随机数等，即：将每一提示语记录中的提示语分别作为其它提示信息集中的一个提示信息。预处理可以包括但不限于去重、长度筛选、命名实体识别等。比如，对多条提示语中进行去重处理，即，对于相同的N条提示语，仅保留一条提示语，其余的N-1条提示语数据删除，N为大于1的正整数。又比如，统计每一提示语的长度，删除长度过长/过短的提示语。还比如，利用预设的命名实体识别模型对每一提示语进行检测，若为预设名称，则保留该提示语，反之，则删除该提示语。预设名称可以包括但不限于人的名称、虚拟对象的名称等。这样，通过从大量提示语记录中提取第二提示信息集，对于文本生图而言，可以实现更加丰富多样的增强效果。

第一图像集中包含的第一图像的数量与第一提示信息集中包含的第一提示信息的数量相同，即：若第一提示信息集中包括M条第一提示信息，则第一图像集中包括M张图像，M为正整数。

在一些实施方式中，针对第一提示信息集中的每一第一提示信息，利用预设的文本生图模型，生成该第一提示信息对应的第一图像。其中，文本生图模型可以是任意合适的能够基于提示信息生成图像的模型。例如，Stable Diffusion、Guided Language to ImageDiffusion for Generation and Editing（GLIDE，文本引导图像生成模型）、Midjourney、MUSE等。

步骤S12、针对候选对象集中的每一候选对象，基于所述候选对象和所述提示信息集，确定与所述候选对象匹配的第二图像集，所述第二图像集中包括至少一张第二图像，每一所述第二图像分别对应于一个所述第一提示信息，所述候选对象用于表征图像风格。

这里，候选对象集中包括至少一个候选对象。候选对象可以是任意合适的对象。例如，艺术家名称、名人名称、虚拟对象的标识信息等。比如，插画师Artgerm、阿凡达、蜘蛛侠等。

第二图像集中至少包括每一第二图像。第二图像的数量与第一提示信息的数量相同，即：若第一提示信息的数量为X个，那么第二图像的数量为X张，X为正整数。

在一些实施方式中，所述步骤S12中的“基于所述候选对象和每一所述第一提示信息，确定具有与所述候选对象匹配的风格的至少一张第二图像”，包括步骤S121，其中：

步骤S121、针对所述提示信息集中的每一第一提示信息，基于所述候选对象和所述第一提示信息，确定第二提示信息，并基于所述第二提示信息，确定与所述候选对象匹配的一张第二图像。

这里，第二提示信息可以是第一提示信息与候选对象进行随机顺序的组合。例如，第一提示信息为“漂亮的女生”，候选对象为插画师“artgerm”，那么第二提示信息可以是“漂亮的女生，artgerm”，也可以是“artgerm，漂亮的女生”。

在一些实施方式中，确定第二图像的方式与前述步骤S11中确定第一图像的方式类似，在实施时，可以参照前述步骤S11的具体实施方式。

步骤S13、基于所述第一图像集的属性信息和每一所述候选对象对应的第二图像集的属性信息，从所述候选对象集中确定第一对象集。

这里，通过将第一图像集的属性信息分别与每一第二图像集的属性信息进行比对，以对候选对象集中的每一候选对象进行筛选，并将筛选完后的候选对象集作为第一对象集。其中，第一对象集中的候选对象的数量不大于候选对象集中的候选对象的数量。例如，候选对象集中包括N个候选对象，经过筛选后，第一对象集中仅包括M（M不大于N）个候选对象。

图像集的属性信息可以包括但不限于评分值、跨模态相似度等。评分值用于对图像的艺术表现力、感染力、美等进行评价。跨模态相似度用于衡量图像与文本（即：提示信息）之间的相似度。

例如，在第一图像集的第一评分值与第二图像集的第二评分值满足第一预设条件的情况下，表征使用该候选对象后，图像的艺术表现力、感染力、美等不增反降，那么需要删除该候选对象；反之，将该候选对象作为第一对象集中的一个候选对象。其中，第一预设条件可以包括但不限于第一评分值与第二评分值之间的差值小于预设评分阈值、第二评分值小于第一评分值等。

又例如，在第二图像集的第二跨模态相似度与第一图像集的第一跨模态相似度满足第二预设条件的情况下，表征使用该候选对象后，图像的跨模态相似度不增反降，生成的图像和原始提示信息（对应于前述第一提示信息）之间的语义更加不符，那么需要删除该候选对象；反之，将该候选对象作为第一对象集中的一个候选对象。其中，第二预设条件可以包括但不限于第一跨模态相似度与第二跨模态相似度之间的差值小于预设相似度阈值、第二跨模态相似度小于第一跨模态相似度等。

图像集的评分的确定方式可以包括但不限于图像集中某一图像的评分、对某一图像的评分进行加权/取对数/取指数、图像集中每一图像的评分的均值/均方差/方差、对图像集中每一图像的评分进行加权之后的均值/均方差/方差等。在实施时，本领域技术人员可以根据实际需求自主选择图像集的评分的确定方式，本公开实施例不作限定。例如，将图像集中每一图像的评分的均值，作为该图像集的评分。

图像集的跨模态相似度的确定方式可以包括但不限于图像集中某一图像的跨模态相似度、对某一图像的跨模态相似度进行加权/取对数/取指数、图像集中每一图像的跨模态相似度的均值/均方差/方差、对图像集中每一图像的跨模态相似度进行加权之后的均值/均方差/方差等。在实施时，本领域技术人员可以根据实际需求自主选择图像集的跨模态相似度的确定方式，本公开实施例不作限定。例如，将图像集中每一图像的跨模态相似度的均值，作为该图像集的跨模态相似度。

在本公开实施例中，通过第一图像集和每一候选对象对应的第二图像集，自动对候选对象集进行筛选，以得到第一对象集，相较于通过个人感性判断、社区经验、人工整理等方式而言，不仅增加了对象的数量、缩短了对象的获得时长，从而降低了对象的获得成本，而且还提升了获得的对象的可靠性和准确度，进而后续通过该第一对象集来生成图像，使得图像具有更加丰富多样的增强效果，降低了仅使用少量经人工经验的对象来提升生成图像的局限性、及盲目使用大量未经人工验证的对象可能带来的不稳定性和不可解释性的可能性。

图2为本公开实施例提供的一种对象集生成方法的实现流程示意图二，如图2所示，所述方法包括步骤S21至步骤S24，其中：

步骤S21、基于提示信息集，确定第一图像集；其中，所述第一图像集中的每一第一图像分别对应所述提示信息集中的一条第一提示信息。

步骤S22、针对候选对象集中的每一候选对象，基于所述候选对象和所述提示信息集，确定与所述候选对象匹配的第二图像集，所述第二图像集中包括至少一张第二图像，每一所述第二图像分别对应于一个所述第一提示信息，所述候选对象用于表征图像风格。

这里，上述步骤S21至步骤S22分别对应于前述步骤S11至步骤S12，在实施时可以参照前述步骤S11至步骤S12的实施方式。

步骤S23、针对所述候选对象集中的每一候选对象，基于所述第一图像集的属性信息和所述候选对象对应的第二图像集的属性信息，确定所述候选对象的检测结果。

这里，候选对象的检测结果表征是否需要从候选对象集中删除该候选对象。在一些实施方式中，该检测结果包括第一检测结果和第二检测结果，其中，第一检测结果表征需要从候选对象集中删除该候选对象，第二检测结果表征不需要从候选对象集中删除该候选对象。

在一些实施方式中，可以比对第一图像集的属性信息和候选对象对应的第二图像集的属性信息，得到该候选对象的检测结果。其中，图像集的属性信息可以包括但不限于评分、跨模态相似度等。

例如，在第一图像集的第一评分值与第二图像集的第二评分值满足前述第一预设条件的情况下，将第一检测结果作为该候选对象的检测结果；反之，将第二检测结果作为该候选对象的检测结果。

又例如，在第二图像集的第二跨模态相似度与第一图像集的第一跨模态相似度满足前述第二预设条件的情况下，将第一检测结果作为该候选对象的检测结果；反之，将第二检测结果作为该候选对象的检测结果。

步骤S24、基于每一所述候选对象的检测结果，从所述候选对象集中确定第一对象集。

这里，若每一候选对象的检测结果均为第二检测结果，则将该候选对象集作为第一对象集；反之，若至少有一个候选对象的检测结果为第一检测结果，则从候选对象集中删除每一第一检测结果对应的候选对象，并将删除后的候选对象集作为新的候选对象集，再次循环执行步骤S21至步骤S24，直至新的候选对象集中的每一候选对象的检测结果均为第二检测结果为止。

在一些实施方式中，所述步骤S24包括步骤S241和/或步骤S242，其中：

步骤S241、在每一所述候选对象的检测结果均为第二检测结果的情况下，将所述候选对象集作为所述第一对象集。

这里，每一候选对象的检测结果均表征不需要从候选对象集中删除对应的候选对象，表明这一轮优化中不需要再删除候选对象集中的任一候选对象，得到了最终有效的、可靠的、高质量的候选对象集。

步骤S242、在每一所述候选对象的检测结果中包括至少一个第一检测结果的情况下，从所述候选对象集中删除每一所述第一检测结果对应的候选对象，并将删除后的候选对象集作为新的候选对象集；基于新的提示信息集，确定新的第一图像集；针对新的候选对象集中的每一候选对象，基于新的提示信息集和所述候选对象，确定与所述候选对象匹配的新的第二图像集；基于所述新的第一图像集的属性信息和每一所述候选对象对应的新的第二图像集的属性信息，从所述新的候选对象集中确定所述第一对象集。

这里，在每一候选对象的检测结果中包括至少一个第一检测结果，表明这一轮优化中需要删除候选对象集中的一些候选对象，还需要对候选对象集进行进一步的优化，才能得到最终有效的、可靠的、高质量的候选对象集。在实施时，步骤S242中的“基于新的提示信息集，确定新的第一图像集；针对新的候选对象集中的每一候选对象，基于新的提示信息集和所述候选对象，确定与所述候选对象匹配的新的第二图像集；基于所述新的第一图像集的属性信息和每一所述候选对象对应的新的第二图像集的属性信息，从所述新的候选对象集中确定所述第一对象集”的实施方式可以参见前述步骤S11至步骤S13的实施方式。

在本公开实施例中，一方面，通过第一图像集的属性信息和每一候选对象对应的第二图像集的属性信息来确定每一候选对象的检测结果，提高了检测结果的准确度，为后续的候选对象的筛选提供数据支撑；另一方面，根据每一检测结果对候选对象集进行优化，相较于通过个人感性判断、社区经验、人工整理等方式而言，缩短了优化时长、提高了优化效率，从而降低了优化成本，并为后续的文本生图提供可靠而又准确的数据支撑。

在一些实施方式中，所述第一图像集的属性信息包括第一评分值，所述第二图像集的属性信息包括第二评分值；所述步骤S23中的“基于所述第一图像集的属性信息和所述候选对象对应的第二图像集的属性信息，确定所述候选对象的检测结果”，包括步骤S231至步骤S233，其中：

步骤S231、基于所述第一图像集中每一第一图像的评分值，确定所述第一图像集对应的第一评分值。

这里，第一图像的评分值可以是通过任意合适的评分模型、算法等得到的。例如，该评分模型中包括VGGNet（Visual Geometry Group Network，深度卷积神经网络）、Resnet、LeNet、SSD（Single Shot MultiBox Detector，单步多框目标检测）等神经网络。又例如，采用神经图像评估（Neural Image Assessment，NIMA）算法进行图像的美学评分。还例如，基于SAC（Simulacra Aesthetic Captions）数据集训练的美学评分模型，该美学评分模型使用CLIP（Contrastive Language-Image Pretraining，基于对比文本图像对的预训练）模型提取图像特征，并将图像特征输入至多层线性网络层之后，输出1至10之间的评分值，作为该图像的美学评分结果。在实施时，美学评分模型对于不同品质的图像可以给出具备区分度的美学评分结果，评分值越高，则表征该图像美学价值越高。在实施时，本领域技术人员可以根据实际需求自主选择第一图像的评分制的确定方式，本公开实施例不作限定。

第一评分值的确定方式可以包括但不限于第一图像集中某一图像的评分值、对某一图像的评分值进行加权/取对数/取指数、第一图像集中每一图像的评分值的均值/均方差/方差、对第一图像集中每一图像的评分值进行加权之后的均值/均方差/方差等。在实施时，本领域技术人员可以根据实际需求自主选择第一评分值的确定方式，本公开实施例不作限定。例如，将第一图像集中每一图像的评分值的均值，作为该第一评分值。

步骤S232、基于所述第二图像集中每一第二图像的评分值，确定所述第二图像集对应的第二评分值。

这里，第二图像的评分值的确定方式与前述步骤S231中的第一图像的评分值的确定方式类似，在实施时，可以参照前述步骤S231的实施方式。

第二评分值的确定方式可以包括但不限于第二图像集中某一图像的评分值、对某一图像的评分值进行加权/取对数/取指数、第二图像集中每一图像的评分值的均值/均方差/方差、对第二图像集中每一图像的评分值进行加权之后的均值/均方差/方差等。在实施时，本领域技术人员可以根据实际需求自主选择第二评分值的确定方式，本公开实施例不作限定。例如，将第二图像集中每一第二图像的评分值的均值，作为该第二评分值。

步骤S233、基于所述第一评分值和所述第二评分值，确定所述候选对象的检测结果。

这里，可以将第一评分值和第二评分值进行比较来得到该候选对象的检测结果。例如，第一评分值大于第二评分值，表征使用该候选对象后，图像的整体美学评分不增反降，那么将第一检测结果作为该候选对象的检测结果；反之，则将第二检测结果作为该候选对象的检测结果。

在一些实施方式中，所述步骤S233包括步骤S2331和/或步骤S2332，其中：

步骤S2331、在所述第二评分值小于所述第一评分值的情况下，将第一检测结果作为所述候选对象的检测结果。

这里，第一检测结果表征需要从候选对象集中删除候选对象。例如，第一评分值为7分，第二评分值为5分，此时第二评分值小于第一评分值，那么将第一检测结果作为该候选对象的检测结果。

步骤S2332、在所述第二评分值不小于所述第一评分值的情况下，将第二检测结果作为所述候选对象的检测结果。

这里，第二检测结果表征不需要从候选对象集中删除候选对象。例如，第一评分值为7分，第二评分值为8分，此时第二评分值大于第一评分值，表征使用该候选对象后，图像的整体美学评分有所提升，那么将第二检测结果作为该候选对象的检测结果。

在本公开实施方式中，通过基于所述第一图像集中每一第一图像的评分值，确定所述第一图像集对应的第一评分值；基于所述第二图像集中每一第二图像的评分值，确定所述第二图像集对应的第二评分值；基于所述第一评分值和所述第二评分值，确定所述候选对象的检测结果。这样，通过比对不同图像集的评分值，定量分析候选对象对于文本生图在美学品质上的提升效果，相较于依赖个人感性判断而言，利用可量化、可比较、可解释的评估标准和筛选标准，提升了检测结果的准确度和可靠性。

在一些实施方式中，所述第一图像集的属性信息包括第一跨模态相似度，所述第二图像集的属性信息包括第二跨模态相似度；所述步骤S23中的“基于所述第一图像集的属性信息和所述候选对象对应的第二图像集的属性信息，确定所述候选对象的检测结果”，包括步骤S251至步骤S253，其中：

步骤S251、基于所述第一图像集中的每一第一图像和每一所述第一图像对应的第一提示信息，确定所述第一图像集对应的第一跨模态相似度。

这里，第一跨模态相似度的确定方式可以包括但不限于第一图像集中某一第一图像的跨模态相似度、对某一第一图像的跨模态相似度进行加权/取对数/取指数、第一图像集中每一第一图像的跨模态相似度的均值/均方差/方差、对第一图像集中每一第一图像的跨模态相似度进行加权之后的均值/均方差/方差等。其中，第一图像的跨模态相似度是基于第一图像和第一图像对应的第一提示信息得到的。在实施时，本领域技术人员可以根据实际需求自主选择第一跨模态相似度的确定方式，本公开实施例不作限定。例如，将第一图像集中每一第一图像的跨模态相似度的均值，作为该第一跨模态相似度。

在一些实施方式中，所述步骤S251包括步骤S2511至步骤S2512，其中：

步骤S2511、针对所述第一图像集中的每一第一图像，确定所述第一图像与所述第一图像对应的第一提示信息之间的第一相似度。

这里，第一相似度可以是通过任意合适的模型得到的。例如，CLIP、CNN（Convolutional Neural Network，卷积神经网络）模型、RNN（Recurrent Neural Network，循环神经网络）模型、FNN（Fully NeuralWork，全连接神经网络）模型等。在实施时，本领域技术人员可以根据实际需求自主选择第一相似度的确定方式，本公开实施例不作限定。

例如，通过CLIP，将第一提示信息和第一图像映射至统一共享的特征空间中，使得相似的文本和图像在该特征空间中具备相近的特征表示。在实施时，将第一提示信息和第一图像均映射为固定长度的向量表示，然后计算这两个向量表示之间的第一相似度。第一相似度的计算方式可以是任意合适的计算方式。例如，余弦距离、内积、欧式距离、曼哈顿距离、皮尔逊相关系数等。在实施时，本领域技术人员可以根据实际需求自主选择相似度的计算方式，本公开实施例不作限定。例如，采用余弦距离来计算这两个向量表示之间的第一相似度，第一相似度越高，则表征图像的内容与提示信息的语义的匹配度越高。

步骤S2512、基于每一所述第一相似度，确定所述第一图像集对应的第一跨模态相似度。

这里，第一跨模态相似度的确定方式可以包括但不限于某一第一相似度、某一第一相似度的加权/取对数/取指数、每一第一相似度的均值/均方差/方差、对每一第一相似度进行加权之后的均值/均方差/方差等。例如，将每一第一相似度的均值作为该第一跨模态相似度。

步骤S252、基于所述第二图像集中的每一第二图像和每一所述第二图像对应的第一提示信息，确定所述第二图像集对应的第二跨模态相似度。

这里，第二跨模态相似度的确定方式与前述步骤S251中第一跨模态相似度的确定方式相似，在实施时，可以参照前述步骤S251的实施方式。

在一些实施方式中，所述步骤S252包括步骤S2521至步骤S2522，其中：

步骤S2521、针对所述第二图像集中的每一第二图像，确定所述第二图像与所述第二图像对应的第一提示信息之间的第二相似度。

这里，第二相似度的确定方式与前述步骤S2511中第一相似度的确定方式相似，在实施时，可以参照前述步骤S2511的实施方式。

步骤S2522、基于每一所述第二相似度，确定所述第二图像集对应的第二跨模态相似度。

这里，第二跨模态相似度的确定方式与前述步骤S2512中第一跨模态相似度的确定方式相似，在实施时，可以参照前述步骤S2512的实施方式。

步骤S253、基于所述第一跨模态相似度和所述第二跨模态相似度，确定所述候选对象的检测结果。

这里，可以将第一跨模态相似度和第二跨模态相似度进行比较以得到该候选对象的检测结果。例如，在第一跨模态相似度与第二跨模态相似度满足前述第二预设条件的情况下，将第一检测结果作为该候选对象的检测结果；反之，将第二检测结果作为该候选对象的检测结果。

在一些实施方式中，所述步骤S253包括步骤S2531至步骤S2533，其中：

步骤S2531、基于所述第一跨模态相似度和所述第二跨模态相似度，确定第三跨模态相似度。

这里，第三跨模态相似度的确定方式可以包括但不限于第一跨模态相似度与第二跨模态相似度之间的第一差值、第一差值的加权/取指数/取对数、分别对第一跨模态相似度与第二跨模态相似度进行加权之后的第二差值、第二差值的加权/取指数/取对数等。在实施时，本领域技术人员可以根据实际需求自主选择第三跨模态相似度的确定方式，本公开实施例不作限定。例如，将第一跨模态相似度与第二跨模态相似度之间的第一差值作为该第三跨模态相似度。比如，第一跨模态相似度为，第二跨模态相似度为/>，那么第三跨模态相似度为（/>）。/>

步骤S2532、在所述第三跨模态相似度小于相似度阈值的情况下，将第一检测结果作为所述候选对象的检测结果。

这里，相似度阈值可以是预先设定的，在实施时，该相似度阈值可以是经验值、多次试验得到的值等。在实施时，若（）小于/>（对应于前述相似度阈值），则表征使用该候选对象后，图像的跨模态相似度不增反降，生成的第二图像和原始提示信息之间的语义更加不符，需要删除该候选对象，那么将第一检测结果作为该候选对象的检测结果。

步骤S2533、在所述第三跨模态相似度不小于所述相似度阈值的情况下，将第二检测结果作为所述候选对象的检测结果。

这里，若（）不小于/>，则表征使用该候选对象后，图像的跨模态相似度有所增加，生成的第二图像和原始提示信息之间的语义更加接近，需要保留该候选对象，那么将第二检测结果作为该候选对象的检测结果。

在本公开实施方式中，通过基于所述第一图像集中的每一第一图像和每一所述第一图像对应的第一提示信息，确定所述第一图像集对应的第一跨模态相似度；基于所述第二图像集中的每一第二图像和每一所述第二图像对应的第一提示信息，确定所述第二图像集对应的第二跨模态相似度；基于所述第一跨模态相似度和所述第二跨模态相似度，确定所述候选对象的检测结果。这样，通过比对不同图像集的跨模态相似度，定量分析候选对象对于文本生图在语义上的影响，相较于依赖个人感性判断而言，利用可量化、可比较、可解释的评估标准和筛选标准，提升了检测结果的准确度和可靠性。

图3为本公开实施例提供的一种图像生成方法的实现流程示意图一，如图3所示，所述方法包括步骤S31至步骤S32，其中：

步骤S31、从第二对象集中确定至少一个目标对象。

这里，第二对象集是根据上述任一对象集生成方法得到的。目标对象的数量可以为至少一个。在实施时，目标对象的数量可以是随机个数。例如，1个、2个、3个等。

目标对象的确定方式可以包括但不限于随机、自定义、用户喜好、使用频率、用户操作信息等。在实施时，本领域技术人员可以根据实际需求自主选择目标对象的确定方式，本公开不作限定。例如，从第二对象集中随机选择随机个数（比如，2个、3个等）的目标对象。又例如，按照使用频率对第二图像集中的每一对象进行排序，将使用频率前三的对象分别作为一个目标对象。还例如，根据用户手势实时确定目标对象。比如，不同的手势对应不同的目标对象，即：在用户输入第一手势的情况下，将第二对象集中的第一个对象作为目标对象，在实施时，第二对象集中的每一对象可以按照名称、大小、时间（例如，修改时间、创建时间等）、使用频率等进行排序；在用户输入第二手势的情况下，将第二对象集中的最后两个对象分别作为一个目标对象。又比如，不同的操作步长对应不同的目标对象，即：在操作步长属于第一长度范围的情况下，将第二对象集中的前三个对象分别作为一个目标对象；在操作步长属于第二长度范围的情况下，将第二对象集中的最后两个对象分别作为一个目标对象，其中，第一长度范围与第二长度范围不相同。在实施时，本领域技术人员可以根据实际需求自主设定操作手势、目标对象、目标对象的数量之间的对应关系，本公开实施例不作限定。

步骤S32、基于提示信息和每一所述目标对象，生成所述提示信息对应的图像。

这里，提示信息可以是任意合适的提示信息。在实施时，提示信息可以是文字提示信息、语音提示信息等。例如，提示信息可以是描述人、虚拟对象、物品等的属性信息的文字/语音提示信息。比如，提示信息可以是“一个高高瘦瘦的男生”。又比如，提示信息可以是“戴着项链的女生”。提示信息的获取方式可以包括但不限于通过输入组件输入的、接收其它设备发送的等。

在实施时，将提示信息和每一目标对象进行随机顺序的组合，得到第三提示信息，并利用前述的文本生图模型，生成该第三提示信息对应的第三图像，并将该第三图像作为该提示信息对应的图像。例如，提示信息为“漂亮的女生”，目标对象可以包括插画师“artgerm”、波兰艺术家“greg rutkowski”、及艺术家“alphonse mucha”，那么第三提示信息可以是“漂亮的女生，artgerm，greg rutkowski，greg rutkowski”、“漂亮的女生，gregrutkowski ，artgerm，greg rutkowski”、“漂亮的女生，greg rutkowski ，gregrutkowski， artgerm”等。在实施时，不同的第三提示信息，生成的图像的增强效果不同。

在本公开实施例中，通过从第二对象集中确定至少一个目标对象；基于提示信息和每一所述目标对象，生成所述提示信息对应的图像。这样，一方面，由于第二对象集中具有丰富多样的多个对象，相较于仅使用少数对象来生成图像而言，那么使用第二图像集来生成图像，使得图像具有更加丰富多样的增强效果，降低了仅使用少量经人工经验的对象来提升生成图像的局限性、及盲目使用大量未经人工验证的对象可能带来的不稳定性和不可解释性的可能性；另一方面，自动从第二对象集中随机选取随机个数的目标对象，并不需要用户显式的选择目标对象，便可得到经过艺术增强之后的图像，整个生成过程对用户而言完全无感知，在简化了操作步骤的同时还提升了用户的操作体验。

下面说明本公开实施例提供的图像生成方法在实际场景中的应用，以基于提示信息和艺术家名称（对应于前述目标对象）进行生图的场景为例进行说明。

文本生图作为AIGC的重要组成部分，随着其生成质量的不断提升与突破，受到了越来越多的关注和应用。用户只需要通过文本（即：提示信息）描述预期的内容，文本生图模型即可生成高质量且符合提示信息的语义要求的图像内容。常用的生成效果的提升技巧，是在提示信息中使用艺术家名称，由于文本生图模型基于大量的包含图文对的训练数据进行训练，且这些训练数据中包含各种艺术家的作品，那么训练之后的文本生图模型可以学习到艺术家名称、与其作品之间的映射关系，使得当提示信息包含某个艺术家名称时，文本生图模型会相应地生成类似该艺术家作品的风格和内容，从而达到改善生成效果的目的。

相关技术中，具有一定经验的文本生图的用户，在编写提示语（即：提示信息）时会添加一些常用的艺术家名称，使得文本生成模型会相应地生成类似该艺术家的风格与内容的图像，达到了改善生成效果的目的，但是这些艺术家名称主要依赖于用户的社区经验、人工整理等得到的极为有限的几位艺术家，那么在文本生图的过程中，反复使用这几位艺术家，虽然改善了图像的生成效果，但严重影响了图像的生成结果的多样性。同时一些在线的文本生图网站，虽然提供了较多的艺术家名称供用户使用，但用户并不了解每位艺术家的风格和内容，盲目选择反而会使得生成结果不如预期，带来了不稳定性和不可解释性。

本公开实施例提供一种图像生成方法，通过从大量的提示语数据中提取出大量的候选艺术家名称（对应于前述候选对象集），通过预训练模型借助定量的评估指标（对应于前述评分值和跨模态相似度），筛选出能有效提升生成效果、且不影响原始提示语的语义要求的优质的艺术家名称集合（对应于前述第一对象集），并利用该艺术家名称集合来提升图像的生成效果，从而解决仅使用少量经人工验证的艺术家名称来提升生成效果的局限性，以及盲目使用大量未经验证的艺术家名称，可能带来的不稳定性和不可解释性。

下面从筛选阶段及使用阶段这两个阶段来阐述本公开实施例提供的图像生成方法的实施过程，其中：

1、筛选阶段，主要对候选艺术家名称集（对应于前述候选对象集）进行筛选，得到目标艺术家名称集（对应于前述第一图像集）。图4A为本公开实施例提供的一种对象集生成方法的实现流程示意图三，如图4A所示，该方法包括步骤S401至步骤S407，其中：

步骤S401、基于海量的提示语，确定候选艺术家名称集；

这里，与现有技术中主要依靠人工整理的方式不同，为了尽可能多、尽可能全地获取候选艺术家名称，本公开从多个使用最为广泛的在线文本生图网站以及提示语资源整合网站，获取海量提示语记录，每条提示语记录中包括标识信息、提示语、图片属性信息、随机数种子等。从海量提示语记录中获得每一提示语记录中的提示语，形成第一提示语集。为了提高提示语的质量，从第一提示语集中删除提示语过长和过短的提示语，形成第二提示语集。采用命名实体识别模型，对第二提示语集中的每一提示语进行识别，以从第二提示语集中删除不包括人名的提示语，形成候选艺术家名称集。如果依靠人工对艺术家名称集进行逐一处理，例如，通过搜索引擎查看每个艺术家的艺术作品，并基于个人感性判断是否保留该艺术家、或在文本生图模型上测试其效果等，将耗费大量时间和人力，相比之下，采用全自动化的处理流程，依靠预训练模型借助定量的评估指标完成筛选工作，效率更高且结果更可靠。

步骤S402、从海量的提示语中确定评测集（对应于前述提示信息集）；

这里，由于第二提示语集中包含大量的提示语，在该完整的第二提示语集上对艺术家名称集进行筛选并不可行，因此可以进行多轮筛选工作，每一轮筛选中从第二提示语集随机抽取少量提示语（比如，100条）作为评测集。

步骤S403、利用文本生图模型，基于评测集中的每一提示语，确定基准集（对应于前述第一图像集）；

这里，对于测评集中的每一条提示语，使用文本生图模型（例如，StableDiffusion），分别生成每一条提示语对应的图像（对应于前述第一图像），得到的图像集合作为基准集。

步骤S404、针对候选艺术家名称集中的每一候选艺术家名称，将该候选艺术家名称分别拼接至评测集中的每一条原始提示语，得到对应的新的提示语（对应于前述第二提示信息），并利用文本生图模型，分别生成每一新的提示语对应的图像（对应于前述第二图像），将每一新的提示语对应的图像形成的图像集合作为该候选艺术家名称对应的比较集（对应于前述第二图像集）；

这里，为了验证和评估艺术家名称集中的每一位艺术家名称对于文本生图的效果的影响，将每一艺术家名称拼接至评测集中的每一条原始提示语之后再进行文本生图，对应得到的图像集合作为比较集。例如，假设这一轮的艺术家名称集中包括K个候选艺术家名称，则会产出K个比较集，每一个比较集中包括数量相等的图像。在实施时，通过计算基准集和每一比较集在不同评估指标上的结果，实现定量地分析每一个艺术家名称对于文本生图的效果的影响。

步骤S405、利用预设的美学评分模型，分别确定基准集的美学评分（对应于前述第一评分值）及每一比较集的美学评分（对应于前述第二评分值）；

这里，通常而言，文本生图的结果应当越美越好，具备较强的艺术表现力和感染力，可以给观者带来审美愉悦，让其产生分享给他人的意愿。然而，对美的判断是一项非常主观的任务，不同的人对于美的理解以及判断标准往往存在差异，但是在数据量足够多的前提下，仍然可以依靠模型学习出相对可靠稳定且准确的美学评分能力。在本公开中，采用基于SAC数据集训练的美学评分模型，分别计算基准集中每一图像的美学评分及每一比较集中每一图像的美学评分，并将基准集中每一图像的美学评分的平均值作为该基准集的美学评分，将比较集中每一图像的美学评分的平均值作为该比较集的美学评分，从而判断使用某个艺术家名称之后，是否能有效提升图像的美学品质。

图4B为本公开实施例提供的一种图像的美学评分值的示意图，如图4B所示，利用美学评分模型分别对每一图像41进行评分，得到每一图像41对应的评分值42。在实施时，对于不同品质的图像41可以给出具备区分度的评分值42，评分值42越高，则表征图像41的美学价值越高。

步骤S406、利用大规模跨模态预训练模型，分别确定基准集的跨模态相似度（对应于前述第一跨模态相似度）及每一比较集的跨模态相似度（对应于前述第二跨模态相似度）；

这里，在提示语中使用艺术家名称可以带来品质上的提升，但有时也会对原始语义造成严重影响，例如，原始提示语为“一个男生”，但某个艺术家的作品内容均以风景为主，那么在原始提示语之后拼接上该艺术家名称，生成结果可能完全不包含男生，反而生成了一张风景图。这种情况改变了原始语义，会严重影响用户的文本生图体验。在实施时，艺术家名称不能对原始语义造成改动和影响。为了计算生成图片和原始提示语之间的跨模态相似度，本公开采用了CLIP，将原始提示语和生成的图像均映射为固定长度的向量表示，然后计算两者之间的余弦相似度，相似度越高则说明生成的图像的内容越符合原始提示语的语义要求。在实施时，利用CLIP，分别计算基准集中每一图像的跨模态相似度及每一比较集中每一图像的跨模态相似度，并将基准集中每一图像的跨模态相似度的平均值作为该基准集的跨模态相似度，将比较集中每一图像的跨模态相似度的平均值作为该比较集的跨模态相似度/>，从而判断使用某个艺术家名称之后，是否会影响原始提示语的语义。

步骤S407、基于基准集的美学评分和每一比较集的美学评分、及基准集的跨模态相似度和每一比较集的跨模态相似度，对候选艺术家名称集进行筛选，得到目标艺术家名称集（对应于前述第一对象集）。

这里，判断第个比较集的美学评分/>是否大于基准集的美学评分/>，若/>小于/>，表征使用第/>个艺术家名称后，生成的图像的整体美学评分不增反降，则在该轮优化中需要删除该艺术家名称，反之，在该轮优化中需要保留该艺术家名称。其中，/>不大于/>，/>为艺术家名称集中含有的艺术家名称的总数。

判断第个比较集的跨模态相似度/>是否大于基准集的跨模态相似度/>，若/>减去小于设定阈值，表征使用第/>个艺术家名称后，生成的图像的整体跨模态相似度有所下降，生成内容和原始提示语的语义更加不符，则在该轮优化中需要删除该艺术家名称，反之，在该轮优化中需要保留该艺术家名称。/>

在一些实施方式中，可以先判断比较集的美学评分和基准集的美学评分，在比较集的美学评分不小于基准集的美学评分的情况下，再判断比较集的跨模态相似度和基准集的跨模态相似度。

在一些实施方式中，可以先判断比较集的跨模态相似度和基准集的跨模态相似度，在比较集的跨模态相似度减去基准集的跨模态相似度小于设定阈值的情况下，再判断比较集的美学评分和基准集的美学评分。

若本轮优化中，没有删除艺术家名称，则停止优化工作；反之，则执行上述步骤S402至步骤S407，以进行下一轮的优化，直至某一轮的优化中不再删除艺术家名称，将最终得到的艺术家名称集作为有效、可靠、高质量的目标艺术家名称集（对应于前述第一对象集）。

2、使用阶段，主要是利用目标艺术家名称集来生成图像。图4C为本公开实施例提供的一种图像生成方法的实现流程示意图二，如图4C所示，该方法包括步骤S411至步骤S412，其中：

步骤S411、从目标艺术家名称集（对应于前述第二对象集）中确定至少一个目标艺术家名称（对应于前述目标对象）；

这里，在具体应用中，会从目标艺术家名称集中随机抽取若干个（例如，1~3个）艺术家名称，作为每一目标艺术家名称。

步骤S412、基于提示语和每一目标艺术家名称，生成该提示语对应的图像。

这里，将每一目标艺术家名称拼接至用户输入的提示语之后，并利用文本生图模型，生成该提示语对应的图像。整个生成过程，对于用户而言，是完全无感知的，用户无需显式地手动选择艺术家名称，即可得到经过艺术增强之后的图像。由于艺术家名称集中包括多个艺术家名称、且随机抽取的数量也不固定，相较于仅使用少量艺术家名称使得生成结果在内容和风格上的重复性而言，生成的图像的结果更加丰富多样，且不管在细节品质，还是整体审美上，均可以得到显著的生成效果的提升。

图4D为本公开实施例提供的一种基于提示语生成的图像的示意图，如图4D所示，在用户输入提示语431后：

若目标艺术家名称为空，即：不使用艺术增强，利用文本生图模型46，则可以生成提示语431对应的图像432；

若目标艺术家名称包括艺术家名称一（John Fabian Carlson）和艺术家名称二（Charles Harold Davis），此时，将每一目标艺术家名称拼接至提示语431后，则形成新的提示语441，那么利用文本生图模型46，则可以生成该提示语441对应的图像442，并将图像442作为提示语431对应的图像，其中，图像442具有与“John Fabian Carlson”和“CharlesHarold Davis”这两位艺术家相似的风格和内容；

若目标艺术家名称包括艺术家名称三（Ilya Kuvshinov）、艺术家名称四（FransKoppelaar）和艺术家名称五（Harriet Backer），将每一目标艺术家名称拼接至提示语431后，则形成新的提示语451，那么利用文本生图模型46，则可以生成该提示语451对应的图像452，并将图像452作为提示语431对应的图像，其中，图像452具有与“Ilya Kuvshinov”、“Frans Koppelaar”和“Harriet Backer”这三位艺术家相似的风格和内容。

本公开实施例提供的方法至少具有以下有益效果：

1）从海量提示语记录中提取出大量艺术家名称，相较于主要依赖人工整理少量可用的艺术家名称，反复使用会导致生成内容的重复性和趋同性而言，由于优化后的艺术家名称集中包含大量的艺术家名称、且随机抽取的艺术家名称的数量也不固定，实现了更加丰富多样的艺术增强效果；

2）使用基于大量标注数据训练的美学评分模型和CLIP模型来计算不同图像集的评估指标，相较于主要依赖个人感性判断进行筛选，使得筛选结果数量有限且存在主观性和不可靠性而言，评估标准和筛选标准可量化、可比较、可解释，使得筛选结果数量更多且更加客观和可靠。

基于上述实施例，本公开实施例提供一种对象集生成装置，图5为本公开实施例提供的一种对象集生成装置的组成结构示意图，如图5所示，所述对象集生成装置50包括第一确定模块51、第二确定模块52及第一生成模块53，其中：

所述第一确定模块51，用于基于提示信息集，确定第一图像集；其中，所述第一图像集中的每一第一图像分别对应所述提示信息集中的一条第一提示信息；

所述第二确定模块52，用于针对候选对象集中的每一候选对象，基于所述候选对象和所述提示信息集，确定与所述候选对象匹配的第二图像集，所述第二图像集中包括至少一张第二图像，每一所述第二图像分别对应于一个所述第一提示信息，所述候选对象用于表征图像风格；

所述第一生成模块53，用于基于所述第一图像集的属性信息和每一所述候选对象对应的第二图像集的属性信息，从所述候选对象集中确定第一对象集。

在一些实施方式中，所述第一生成模块53，还用于：针对所述候选对象集中的每一候选对象，基于所述第一图像集的属性信息和所述候选对象对应的第二图像集的属性信息，确定所述候选对象的检测结果；其中，每一所述候选对象的检测结果表征是否需要从所述候选对象集中删除对应的候选对象；基于每一所述候选对象的检测结果，从所述候选对象集中确定所述第一对象集。

在一些实施方式中，所述第一图像集的属性信息包括第一评分值，所述第二图像集的属性信息包括第二评分值；所述第一生成模块53，还用于：基于所述第一图像集中每一第一图像的评分值，确定所述第一图像集对应的第一评分值；基于所述第二图像集中每一第二图像的评分值，确定所述第二图像集对应的第二评分值；基于所述第一评分值和所述第二评分值，确定所述候选对象的检测结果。

在一些实施方式中，所述第一生成模块53，还用于以下至少之一：在所述第二评分值小于所述第一评分值的情况下，将第一检测结果作为所述候选对象的检测结果；其中，所述第一检测结果表征需要从所述候选对象集中删除所述候选对象；在所述第二评分值不小于所述第一评分值的情况下，将第二检测结果作为所述候选对象的检测结果；其中，所述第二检测结果表征不需要从所述候选对象集中删除所述候选对象。

在一些实施方式中，所述第一图像集的属性信息包括第一跨模态相似度，所述第二图像集的属性信息包括第二跨模态相似度；所述第一生成模块53，还用于：基于所述第一图像集中的每一第一图像和每一所述第一图像对应的第一提示信息，确定所述第一图像集对应的第一跨模态相似度；基于所述第二图像集中的每一第二图像和每一所述第二图像对应的第一提示信息，确定所述第二图像集对应的第二跨模态相似度；基于所述第一跨模态相似度和所述第二跨模态相似度，确定所述候选对象的检测结果。

在一些实施方式中，所述第一生成模块53，还用于：针对所述第一图像集中的每一第一图像，确定所述第一图像与所述第一图像对应的第一提示信息之间的第一相似度；基于每一所述第一相似度，确定所述第一图像集对应的第一跨模态相似度；

在一些实施方式中，所述第一生成模块53，还用于：针对所述第二图像集中的每一第二图像，确定所述第二图像与所述第二图像对应的第一提示信息之间的第二相似度；基于每一所述第二相似度，确定所述第二图像集对应的第二跨模态相似度。

在一些实施方式中，所述第一生成模块53，还用于：基于所述第一跨模态相似度和所述第二跨模态相似度，确定第三跨模态相似度；在所述第三跨模态相似度小于相似度阈值的情况下，将第一检测结果作为所述候选对象的检测结果；在所述第三跨模态相似度不小于所述相似度阈值的情况下，将第二检测结果作为所述候选对象的检测结果。

在一些实施方式中，所述第一生成模块53，还用于以下至少之一：在每一所述候选对象的检测结果均为第二检测结果的情况下，将所述候选对象集作为所述第一对象集；在每一所述候选对象的检测结果中包括至少一个第一检测结果的情况下，从所述候选对象集中删除每一所述第一检测结果对应的候选对象，并将删除后的候选对象集作为新的候选对象集；基于新的提示信息集，确定新的第一图像集；针对新的候选对象集中的每一候选对象，基于新的提示信息集和所述候选对象，确定与所述候选对象匹配的新的第二图像集；基于所述新的第一图像集的属性信息和每一所述候选对象对应的新的第二图像集的属性信息，从所述新的候选对象集中确定所述第一对象集。

在一些实施方式中，所述第二确定模块52，还用于：针对所述提示信息集中的每一第一提示信息，基于所述候选对象和所述第一提示信息，确定第二提示信息，并基于所述第二提示信息，确定与所述候选对象匹配的一张第二图像。

以上对象集生成装置实施例的描述，与上述对象集生成方法实施例的描述是类似的，具有同对象集生成方法实施例相似的有益效果。对于本公开对象集生成装置实施例中未披露的技术细节，请参照本公开对象集生成方法实施例的描述而理解。

基于上述实施例，本公开实施例提供一种图像生成装置，图6为本公开实施例提供的一种图像生成装置的组成结构示意图，如图6所示，所述图像生成装置60包括第三确定模块61及第二生成模块62，其中：

所述第三确定模块61，用于从第二对象集中确定至少一个目标对象；其中，所述第二对象集是根据上述任一对象集生成方法得到的；

所述第二生成模块62，用于基于提示信息和每一所述目标对象，生成所述提示信息对应的图像。

以上图像生成装置实施例的描述，与上述图像生成方法实施例的描述是类似的，具有同图像生成方法实施例相似的有益效果。对于本公开图像生成装置实施例中未披露的技术细节，请参照本公开图像生成方法实施例的描述而理解。

需要说明的是，本公开实施例中，如果以软件功能模块的形式实现上述方法，并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本公开实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一台电子设备（可以是个人计算机、服务器、或者网络设备等）执行本公开各个实施例所述方法的全部或部分。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read Only Memory，ROM）、磁碟或者光盘等各种可以存储程序代码的介质。这样，本公开实施例不限制于任何特定的硬件和软件结合。

本公开实施例提供一种电子设备，包括存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法。

本公开实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述方法。所述计算机可读存储介质可以是瞬时性的，也可以是非瞬时性的。

本公开实施例提供一种计算机程序产品，所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，所述计算机程序被计算机读取并执行时，实现上述方法中的部分或全部步骤。该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包（Software DevelopmentKit，SDK）等等。

需要说明的是，图7为本公开实施例中电子设备的一种硬件实体示意图，如图7所示，该电子设备700的硬件实体包括：处理器701、通信接口702和存储器703，其中：

处理器701通常控制电子设备700的总体操作。

通信接口702可以使电子设备通过网络与其他终端或服务器通信。

存储器703配置为存储由处理器701可执行的指令和应用，还可以缓存待处理器701以及电子设备700中各模块待处理或已经处理的数据（例如，图像数据、音频数据、语音通信数据和视频通信数据），可以通过闪存（FLASH）或随机访问存储器（Random AccessMemory，RAM）实现。处理器701、通信接口702和存储器703之间可以通过总线704进行数据传输。

这里需要指出的是：以上存储介质和设备实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本公开存储介质和设备实施例中未披露的技术细节，请参照本公开方法实施例的描述而理解。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本公开的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解，在本公开的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本公开实施例的实施过程构成任何限定。上述本公开实施例序号仅仅为了描述，不代表实施例的优劣。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

在本公开所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本公开实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器（Read Only Memory，ROM）、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本公开上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台电子设备（可以是个人计算机、服务器、或者网络设备等）执行本公开各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本公开的实施方式，但本公开的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本公开的保护范围之内。

Claims

1.一种对象集生成方法，其特征在于，所述方法包括：

基于所述第一图像集的属性信息和每一所述候选对象对应的第二图像集的属性信息，从所述候选对象集中确定第一对象集；其中，所述第一对象集中的每一候选对象对应的所述第二图像集的属性信息优于所述第一图像集的属性信息，所述属性信息包括以下至少之一：评分值、跨模态相似度。

2.根据权利要求1所述的方法，其特征在于，所述基于所述第一图像集的属性信息和每一所述候选对象对应的第二图像集的属性信息，从所述候选对象集中确定第一对象集，包括：

针对所述候选对象集中的每一候选对象，基于所述第一图像集的属性信息和所述候选对象对应的第二图像集的属性信息，确定所述候选对象的检测结果；其中，每一所述候选对象的检测结果表征是否需要从所述候选对象集中删除对应的候选对象；

基于每一所述候选对象的检测结果，从所述候选对象集中确定所述第一对象集。

3.根据权利要求2所述的方法，其特征在于，所述第一图像集的属性信息包括第一评分值，所述第二图像集的属性信息包括第二评分值；

所述基于所述第一图像集的属性信息和所述候选对象对应的第二图像集的属性信息，确定所述候选对象的检测结果，包括：

基于所述第一图像集中每一第一图像的评分值，确定所述第一图像集对应的第一评分值；

基于所述第二图像集中每一第二图像的评分值，确定所述第二图像集对应的第二评分值；

基于所述第一评分值和所述第二评分值，确定所述候选对象的检测结果。

4.根据权利要求3所述的方法，其特征在于，所述基于所述第一评分值和所述第二评分值，确定所述候选对象的检测结果，包括以下至少之一：

在所述第二评分值小于所述第一评分值的情况下，将第一检测结果作为所述候选对象的检测结果；其中，所述第一检测结果表征需要从所述候选对象集中删除所述候选对象；

在所述第二评分值不小于所述第一评分值的情况下，将第二检测结果作为所述候选对象的检测结果；其中，所述第二检测结果表征不需要从所述候选对象集中删除所述候选对象。

5.根据权利要求2所述的方法，其特征在于，所述第一图像集的属性信息包括第一跨模态相似度，所述第二图像集的属性信息包括第二跨模态相似度；

基于所述第一图像集中的每一第一图像和每一所述第一图像对应的第一提示信息，确定所述第一图像集对应的第一跨模态相似度；

基于所述第二图像集中的每一第二图像和每一所述第二图像对应的第一提示信息，确定所述第二图像集对应的第二跨模态相似度；

基于所述第一跨模态相似度和所述第二跨模态相似度，确定所述候选对象的检测结果。

6.根据权利要求5所述的方法，其特征在于，所述基于所述第一图像集中的每一第一图像和每一所述第一图像对应的第一提示信息，确定所述第一图像集对应的第一跨模态相似度，包括：

针对所述第一图像集中的每一第一图像，确定所述第一图像与所述第一图像对应的第一提示信息之间的第一相似度；

基于每一所述第一相似度，确定所述第一图像集对应的第一跨模态相似度；

所述基于所述第二图像集中的每一第二图像和每一所述第二图像对应的第一提示信息，确定所述第二图像集对应的第二跨模态相似度，包括：

针对所述第二图像集中的每一第二图像，确定所述第二图像与所述第二图像对应的第一提示信息之间的第二相似度；

基于每一所述第二相似度，确定所述第二图像集对应的第二跨模态相似度。

7.根据权利要求5所述的方法，其特征在于，所述基于所述第一跨模态相似度和所述第二跨模态相似度，确定所述候选对象的检测结果，包括：

基于所述第一跨模态相似度和所述第二跨模态相似度，确定第三跨模态相似度；

在所述第三跨模态相似度小于相似度阈值的情况下，将第一检测结果作为所述候选对象的检测结果；

在所述第三跨模态相似度不小于所述相似度阈值的情况下，将第二检测结果作为所述候选对象的检测结果。

8.根据权利要求2所述的方法，其特征在于，所述基于每一所述候选对象的检测结果，从所述候选对象集中确定所述第一对象集，包括以下至少之一：

在每一所述候选对象的检测结果均为第二检测结果的情况下，将所述候选对象集作为所述第一对象集；

在每一所述候选对象的检测结果中包括至少一个第一检测结果的情况下，从所述候选对象集中删除每一所述第一检测结果对应的候选对象，并将删除后的候选对象集作为新的候选对象集；基于新的提示信息集，确定新的第一图像集；针对新的候选对象集中的每一候选对象，基于新的提示信息集和所述候选对象，确定与所述候选对象匹配的新的第二图像集；基于所述新的第一图像集的属性信息和每一所述候选对象对应的新的第二图像集的属性信息，从所述新的候选对象集中确定所述第一对象集。

9.根据权利要求1至8中任一项所述的方法，其特征在于，所述基于所述候选对象和所述提示信息集，确定与所述候选对象匹配的第二图像集，包括：

针对所述提示信息集中的每一第一提示信息，基于所述候选对象和所述第一提示信息，确定第二提示信息，并基于所述第二提示信息，确定与所述候选对象匹配的一张第二图像。

10.一种图像生成方法，其特征在于，所述方法包括：

从第二对象集中确定至少一个目标对象；其中，所述第二对象集是根据权利要求1至9中任一项所述的方法得到的；

11.一种对象集生成装置，其特征在于，所述装置包括：

第一生成模块，用于基于所述第一图像集的属性信息和每一所述候选对象对应的第二图像集的属性信息，从所述候选对象集中确定第一对象集；其中，所述第一对象集中的每一候选对象对应的所述第二图像集的属性信息优于所述第一图像集的属性信息，所述属性信息包括以下至少之一：评分值、跨模态相似度。

12.一种图像生成装置，其特征在于，所述装置包括：

第三确定模块，用于从第二对象集中确定至少一个目标对象；其中，所述第二对象集是根据权利要求1至9中任一项所述的方法得到的；

13.一种电子设备，包括处理器和存储器，所述存储器存储有可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至10任一项所述方法。

14.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，该计算机程序被处理器执行时实现权利要求1至10中任一项所述方法。