CN116580408B

CN116580408B - 一种图像生成方法、装置、电子设备及存储介质

Info

Publication number: CN116580408B
Application number: CN202310659149.XA
Authority: CN
Inventors: 陈猛; 丁顺意; 刘艺博; 张璐; 陶明
Original assignee: Shanghai Renyimen Technology Co ltd
Current assignee: Shanghai Renyimen Technology Co ltd
Priority date: 2023-06-06
Filing date: 2023-06-06
Publication date: 2023-11-03
Anticipated expiration: 2043-06-06
Also published as: CN116580408A

Abstract

本发明提供一种图像生成方法、装置、电子设备及存储介质，涉及人工智能生成内容领域，方法包括：接收输入信息；对输入信息进行意图识别，得到意图识别信息；利用意图识别信息进行提示文本模板匹配，并利用匹配到的提示文本模板进行图像生成；可从用户输入信息中提炼有价值的意图识别信息，以此可丰富用户输入内容并提升用户输入信息的质量，并可利用输入信息及意图识别信息进行提示文本模板匹配，即可将输入信息及意图识别信息转换为高质量的模型输入数据，从而可显著提升用户输入信息的内容及质量，并可提升生成图像的质量。

Description

一种图像生成方法、装置、电子设备及存储介质

技术领域

本发明涉及人工智能生成内容领域，特别涉及一种图像生成方法、装置、电子设备及计算机可读存储介质。

背景技术

图像生成模型是一种可基于用户输入自动生成对应图像的模型。相关技术中，该模型的生成质量受用户输入的信息影响，当用户输入的信息质量较差时，该模型将无法生成用户满意的图像。

发明内容

本发明的目的是提供一种图像生成方法、装置、电子设备及计算机可读存储介质，可通过意图识别方式及模板匹配方式对用户的输入信息进行填充，以此提升用户输入信息的内容及质量，并可提升生成图像的质量。

为解决上述技术问题，本发明提供一种图像生成方法，包括：

接收输入信息；

对所述输入信息进行意图识别，得到意图识别信息；

利用所述意图识别信息进行提示文本模板匹配，并利用匹配到的提示文本模板进行图像生成。

可选地，所述输入信息为图像，所述对所述输入信息进行意图识别，得到意图识别信息，包括：

利用图像文本匹配模型对所述图像进行文本匹配，确定所述图像对应的场景实体信息；

利用人体目标检测模型对所述图像进行人体目标检测，确定所述图像对应的人物信息；

利用所述人物信息对所述场景实体信息进行补充，得到完整场景实体信息；

将所述完整场景实体信息设置为所述意图识别信息。

可选地，所述输入信息为文本，所述对所述输入信息进行意图识别，得到意图识别信息，包括：

对所述文本进行分词，并对分词后的文本中词性与指定词性相同的词汇进行移除；

利用正则表达式从完成词汇移除后的文本中提取关键词，并将所述关键词设置为所述意图识别信息。

可选地，所述利用所述意图识别信息进行提示文本模板匹配，包括：

将所述意图识别信息与所述文本进行拼接，并将拼接结果转换为英文，得到待匹配字符串；

利用所述待匹配字符串进行提示文本模板匹配。

可选地，所述利用所述待匹配字符串进行提示文本模板匹配，包括：

判断所述意图识别信息中是否包含人物信息和场景信息；

若包含，则将所述待匹配字符串与第一提示文本模板进行匹配；所述第一提示文本模板包含场景信息、人物信息、质量词、氛围词及超参数；

若不包含，则将所述待匹配字符串与第二提示文本模板进行匹配；所述第二提示文本模板包含质量词、氛围词及超参数。

可选地，所述利用匹配到的提示文本模板进行图像生成，包括：

将匹配到的提示文本模板与所述文本进行拼合，得到模型输入信息；

利用所述模型输入信息进行图像生成。

利用匹配到的提示文本模板进行图像生成，得到初始图像；

对所述初始图像进行图像增强处理，得到输出图像。

可选地，所述提示文本模板的生成过程，包括：

从指定网站中提取搜索排行信息；

基于所述搜索排行信息生成所述提示文本模板。

本发明还提供一种图像生成装置，包括：

接收模块，用于接收输入信息；

意图识别模块，用于对所述输入信息进行意图识别，得到意图识别信息；

提示文本模板匹配模块，用于利用所述意图识别信息进行提示文本模板匹配，并利用匹配到的提示文本模板进行图像生成。

本发明还提供一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上所述的图像生成方法。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器加载并执行时，实现如上所述的图像生成方法。

本发明提供一种图像生成方法，包括：接收输入信息；对所述输入信息进行意图识别，得到意图识别信息；利用所述意图识别信息进行提示文本模板匹配，并利用匹配到的提示文本模板进行图像生成。

可见，本发明首先可接收用户的输入信息，并对输入信息进行意图识别，得到意图识别信息，换句话说，本发明将从用户输入信息中进一步提炼有价值的意图识别信息，以此可丰富用户输入的内容并提升用户输入信息的质量；进一步，本发明还可利用输入信息及意图识别信息进行提示文本模板匹配，即可将输入信息及意图识别信息转换为标准的模型输入数据，并可利用匹配到的提示文本模板进行图像生成，从而可显著提升用户输入信息的内容及质量，并可提升生成图像的质量。本发明还提供一种图像生成装置、电子设备及计算机可读存储介质，具有上述有益效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例所提供的一种图像生成方法的流程图；

图2为本发明实施例所提供的另一种图像生成方法的流程图；

图3为本发明实施例所提供的一种图像生成装置的结构框图；

图4为本发明实施例所提供的一种电子设备的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图像生成模型是一种可基于用户输入自动生成对应图像的模型。相关技术中，该模型的生成质量受用户输入的信息影响，当用户输入的信息质量较差时，该模型将无法生成用户满意的图像。有鉴于此，本发明可提供一种图像生成方法，可通过意图识别方式及模板匹配方式对用户的输入信息进行填充，以此提升输入信息的内容及质量，并可提升生成图像的质量。需要说明的是，本发明实施例并不限定具体执行本方法的硬件设备，例如可以为个人电脑、服务器等，可根据实际应用需求进行设定。

请参考图1，图1为本发明实施例所提供的一种图像生成方法的流程图，该方法可以包括：

S100、接收输入信息。

需要说明的是，本发明实施例并不限定输入信息的具体形式，例如可以为图像、文本及超参数中任一种及多种的组合，其中图像及文本用于指示图像生成模型生成包含相同场景或实体对象的图像，超参数用于指示特定效果的生效比例。

S200、对输入信息进行意图识别，得到意图识别信息。

考虑到用户的输入信息质量层次不齐，本步骤将通过意图识别方式从上述输入信息中提取重要的意图识别信息，以此来丰富输入信息的内容，并提升输入信息的质量。例如，当用户仅输入了图像时，本步骤可通过对图像进行意图识别，从图像中提取出用户所希望包含的场景信息及实体信息，不仅能够为图像补充文本描述，同时更能方便图像生成模型领会用户意图；又例如，当用户输入了文本时，本步骤可通过对文本进行意图识别，从文本中提取场景信息、实体信息等反映用户意图的关键信息，从而可通过这些关键信息强化图像生成模型对用户意图的认知，以方便其更好地生成用户满意的图像。可见，通过执行本步骤，不仅能够扩充输入信息的种类及内容，同时还能够进一步凸显输入信息中的重要信息，以此提升输入信息的质量。

需要说明的是，本发明实施例并不限定如何对图像进行意图识别。例如，可采用图像文本匹配模型对图像进行文本匹配，以确定图像对应的场景实体信息，其中图像文本匹配模型已预先利用多组图像与场景实体信息进行了训练；而场景实体信息可包含场景信息及实体信息，场景信息用于描述图像中的场景，如婚纱、大合照等，而实体信息用于描述图像中的实体对象，如人物、宠物等。除此以外，考虑到用户更关注图像中的人物信息，如人物数量、性别，因此除了使用图像文本匹配模型之外，本发明实施例还可使用人体目标检测模型对图像进行人体目标检测，确定图像对应的人物信息，并利用人物信息对场景实体信息进行补充。此处应当强调的是，由于图像文本匹配模型的识别准确率较高，因此本发明实施例将优先保留图像文本匹配模型所匹配到的人物信息，并仅在确定图像文本匹配模型所识别到的人物信息有缺失时，才利用人体目标检测模型识别出的人物信息对其进行补充。例如，当图像文本匹配模型识别出的人物信息仅包含人物数量，而人体目标检测模型进一步识别出了人物性别时，可利用人体目标检测模识别出的人物性别对图像文本匹配模型识别出的人物信息进行补充。

基于此，输入信息为图像，对输入信息进行意图识别，得到意图识别信息，可以包括：

S211、利用图像文本匹配模型对图像进行文本匹配，确定图像对应的场景实体信息；

S212、利用人体目标检测模型对图像进行人体目标检测，确定图像对应的人物信息；

S213、利用人物信息对场景实体信息进行补充，得到完整场景实体信息；

S214、将完整场景实体信息设置为意图识别信息。

需要说明的是，本发明实施例并不限定具体的图像文本匹配模型及人体目标检测模型，例如图像文本匹配模型可以为Clip模型，人体目标检测模型可以为Resnet50模型。

进一步，本发明实施例并不限定如何对文本进行意图识别，例如可通过正则表达式从文本中提取关键词，并将该关键词设置为意图识别信息；当然，也可采用其它自然语言处理模型从文本中提取关键信息。在本发明实施例中，考虑到正则表达式易于设置，因而将采用正则表达式从文本中提取关键词。当然，为减少匹配量，在关键词提取之前，可首先对文本进行分词，并对分词后的文本中词性与指定词性相同的词汇进行移除，例如去除一些对生成效果没有作用的停用词和衔接词（例如“的”、“是”等）。

基于此，输入信息为文本，对输入信息进行意图识别，得到意图识别信息，可以包括：

S221、对文本进行分词，并对分词后的文本中词性与指定词性相同的词汇进行移除；

S222、利用正则表达式从完成词汇移除后的文本中提取关键词，并将关键词设置为意图识别信息。

进一步，本发明实施例并不限定对意图识别信息的保存方式，例如其可采用字符串形式保存，也可以采用字典形式保存。为提升管理效率，意图识别信息可采用字典形式保存。

S300、利用意图识别信息进行提示文本模板匹配，并利用匹配到的提示文本模板进行图像生成。

在得到意图识别信息之后，本步骤将进一步利用其与提示文本模板（Prompt）进行匹配，其中提示文本模板属于预构建的、高质量的模型输入信息，并能够用于生成高质量的图像。换句话说，本发明实施例将使用包含用户关键意图的意图识别信息与高质量的模型输入信息进行匹配，以确定与用户意图最为接近的一组目标提示文本模板，从而可基于目标提示文本模板为用户生成高质量的图像。

需要说明的是，本发明实施例并不限定提示文本模板具体的构造方式。为有效满足用户需求，本发明实施例可从指定网站中提取搜索排行信息，并基于搜索排行信息生成提示文本模板，其中搜索排行信息通常包含有用户最为关心的场景及实体信息，进而基于搜索排行信息构建的提示文本模板更能贴近用户意图，并可提升用户使用体验。

基于此，提示文本模板的生成过程，可以包括：

S401、从指定网站中提取搜索排行信息；

S402、基于搜索排行信息生成提示文本模板。

进一步，需要说明的是，本发明实施例并不限定意图识别信息与提示文本模板间的匹配方式，例如可基于意图识别信息中的关键词与提示文本模板进行匹配，也可以确定意图识别信息与提示文本模板间的相似度，并基于相似度进行匹配，可根据实际应用需求进行设定。

进一步，需要指出的是，当用户的输入信息包含文本时，为避免遗漏该文本中的信息，还可将文本与意图识别信息进行拼接得到待匹配字符串，再利用待匹配字符串与提示文本模板进行匹配。当然，考虑到用户所输入的文本通常为中文，而模型对英文的适应性更好，因此还可将上述待匹配字符串转换为英文，并基于英文的待匹配字符串进行提示文本模板匹配。

基于此，利用意图识别信息进行提示文本模板匹配，可以包括：

S311、将意图识别信息与文本进行拼接，并将拼接结果转换为英文，得到待匹配字符串；

S312、利用待匹配字符串进行提示文本模板匹配。

进一步，为提升图像生成质量，本发明实施例还可构建两种类型的提示文本模板，其中第一种提示文本模板与场景及实体具有强关联关系，并包含有场景信息、人物信息、质量词、氛围词及超参数，其中场景信息用于描述场景细节（如婚纱照、情侣照、兄弟照、大合照等），人物信息用于描述人物数量、性别等与人物相关的细节，质量词用于描述图像质量（如分辨率），氛围词用于描述图像氛围（如温馨、冷峻等），超参数用于调节风格的生效比例；而第二种提示文本模板与场景及实体具有弱关联关系，仅包含有质量词、氛围词及超参数，并用于优先保证图像质量。而在进行匹配时，可根据意图识别信息中是否包含人物信息和场景信息来确定与哪种提示文本模板进行匹配。

基于此，利用待匹配字符串进行提示文本模板匹配，可以包括：

S321、判断意图识别信息中是否包含人物信息和场景信息；若包含，则进入步骤S322；若不包含，则进入步骤S323；

S322、将待匹配字符串与第一提示文本模板进行匹配；第一提示文本模板包含场景信息、人物信息、质量词、氛围词及超参数；

S323、将待匹配字符串与第二提示文本模板进行匹配；第二提示文本模板包含质量词、氛围词及超参数。

进一步，当用户的输入信息包含文本时，为避免遗漏该文本中的信息，还可将文本与匹配到的提示文本模板进行拼合得到完整的模型输入信息，并基于模型输入信息进行图像生成。当然，可以理解的是，用户输入的文本与提示文本模板可能重复，此时可对该文本及提示文本模板进行去重处理。

基于此，利用匹配到的提示文本模板进行图像生成，可以包括：

S331、将匹配到的提示文本模板与文本进行拼合，得到模型输入信息；

S332、利用模型输入信息进行图像生成。

进一步，需要说明的是，本发明实施例并不限定具体的图像生成模型，例如可以为扩散模型（Stable Diffusion），也可以为Midjourney等，可根据实际应用需求进行设定。当然，为提升图像质量，在得到图像生成模型生成的初始图像之后，本发明实施例还可对初始图像进行图像增强处理，例如对初始图像进行超分辨率处理，以得到更高分辨率的输出图像。

S341、利用匹配到的提示文本模板进行图像生成，得到初始图像；

S342、对初始图像进行图像增强处理，得到输出图像。

基于上述实施例，本发明首先可接收用户的输入信息，并对输入信息进行意图识别，得到意图识别信息，换句话说，本发明将从用户输入信息中进一步提炼有价值的意图识别信息，以此可丰富用户输入的内容并提升用户输入信息的质量；进一步，本发明还可利用输入信息及意图识别信息进行提示文本模板匹配，即可将输入信息及意图识别信息转换为标准的模型输入数据，并可利用匹配到的提示文本模板进行图像生成，从而可显著提升用户输入信息的内容及质量，并可提升生成图像的质量。

下面将结合流程图完整地介绍上述图像生成方法。请参考图2，图2为本发明实施例所提供的另一种图像生成方法的流程图，该方法可以包括：

1、用户信息获取

解析用户上传的信息体，并通过信息体中预设好的关键字，从信息体中提取出用户上传的各类信息（超参数、图像、文字）；

2、用户意图识别

2.1、将用户上传的图像送入clip模型服务中，获取图像中的性别、人数和实体信息（婚纱照、情侣照、兄弟照、大合照等）；

2.2、同时，将用户上传的文本先用python的jieba功能包进行分词，然后根据关键词词性，去除一些对生成效果没有作用的停用词和衔接词，例如“的”、“是”等；

2.3、将用户上传的图像送入【人数+性别】模型服务中，获取图像中的性别、人数；

2.4、整合2.1-2.3获取的信息。初始化一个字典，用于存储提取出的用户意图存储，计作字典ict1:{“people_num”:0, “gender”:0,“scene”：“”}

2.5、人数性别整合。当clip模型和【人数+性别】模型都有返回结果时，优先选择clip模型的输出结果（clip模型更准确），更新字典dict1；当两种模型只有一个有返回结果时，取唯一的返回结果，更新字典dict1；当两者都没有返回时，无需更新字典状态；

2.6、根据clip模型提取出的用户上传图像中的实体信息，更新字典的scene字段；

2.7、用户输入的整合。按照整合后的人数性别信息、用户输入的文本t2、clip模型提取出的字段t1顺序，将几部分信息合并到一起。

3、prompt匹配

3.1、翻译2.7整合后的用户输入为英文；

3.2、prompt设计。场景prompt设计包含对应场景的描述、人数信息、性别信息、质量词、氛围词以及对应的超参数sc1（婚纱照、情侣照、兄弟照、大合照等）；通用场景prompt只包含一些质量词、氛围词和默认的超参数sc2；

3.3、根据2.4中获取的实体信息（婚纱照、情侣照、兄弟照、大合照等）以及2.4中获取的性别、人数信息匹配预置的对应场景的prompt描述和超参数sc1（用于调整和原图相似度的系数）；当没有人数且场景信息不是宠物类别时，采用默认的通用prompt和超参数sc2。

4、图像生成

4.1、根据3.3中获取的prompt模版、超参数以及用户上传的图像送入stablediffusion模型服务中，生成图像IMG1（例如高*宽：512*512）；

4.2、采用realesrgan对4.1中用户生成的图像IMG1进行超分，提升图像的清晰度和分辨率（例如高*宽：512*512—>高*宽：1024*1024），得到IMG2作为用户的生成图返回给用户。

下面对本发明实施例提供的图像生成装置、电子设备及计算机可读存储介质进行介绍，下文描述的图像生成装置、电子设备及计算机可读存储介质与上文描述的图像生成方法可相互对应参照。

请参考图3，图3为本发明实施例所提供的一种图像生成装置的结构框图，该装置可以包括：

接收模块301，用于接收输入信息；

意图识别模块302，用于对输入信息进行意图识别，得到意图识别信息；

提示文本模板匹配模块303，用于利用意图识别信息进行提示文本模板匹配，并利用匹配到的提示文本模板进行图像生成。

可选地，输入信息为图像，意图识别模块302，可以包括：

场景实体信息识别子模块，用于利用图像文本匹配模型对图像进行文本匹配，确定图像对应的场景实体信息；

人物信息识别子模块，用于利用人体目标检测模型对图像进行人体目标检测，确定图像对应的人物信息；

整合子模块，用于利用人物信息对场景实体信息进行补充，得到完整场景实体信息；

意图识别信息设置子模块，用于将完整场景实体信息设置为意图识别信息。

可选地，输入信息为文本，意图识别模块302，可以包括：

文本处理子模块，用于对文本进行分词，并对分词后的文本中词性与指定词性相同的词汇进行移除；

意图识别信息提取子模块，用于利用正则表达式从完成词汇移除后的文本中提取关键词，并将关键词设置为意图识别信息。

可选地，提示文本模板匹配模块303，可以包括：

待匹配字符串整合子模块，用于将意图识别信息与文本进行拼接，并将拼接结果转换为英文，得到待匹配字符串；

提示文本模板匹配子模块，用于利用待匹配字符串进行提示文本模板匹配。

可选地，匹配子模块，包括：

匹配判断单元，用于判断意图识别信息中是否包含人物信息和场景信息；若包含，则将待匹配字符串与第一提示文本模板进行匹配；第一提示文本模板包含场景信息、人物信息、质量词、氛围词及超参数；若不包含，则将待匹配字符串与第二提示文本模板进行匹配；第二提示文本模板包含质量词、氛围词及超参数。

可选地，提示文本模板匹配模块303，可以包括：

拼合子模块，用于将匹配到的提示文本模板与文本进行拼合，得到模型输入信息；

图像生成子模块，用于利用模型输入信息进行图像生成。

可选地，提示文本模板匹配模块303，可以包括：

初始图像生成子模块，用于利用匹配到的提示文本模板进行图像生成，得到初始图像；

图像增强子模块，用于对初始图像进行图像增强处理，得到输出图像。

可选地，该装置还可以包括：

搜索排行信息获取模块，用于从指定网站中提取搜索排行信息；

提示文本模板生成模块，用于基于搜索排行信息生成提示文本模板。

请参考图4，图4为本发明实施例所提供的一种电子设备的结构框图，本发明实施例提供了一种电子设备40，包括处理器41和存储器42；其中，所述存储器42，用于保存计算机程序；所述处理器41，用于在执行所述计算机程序时执行前述实施例提供的图像生成方法。

关于上述图像生成方法的具体过程可以参考前述实施例中提供的相应内容，在此不再进行赘述。

并且，所述存储器42作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，存储方式可以是短暂存储或者永久存储。

另外，所述电子设备40还包括电源43、通信接口44、输入输出接口45和通信总线46；其中，所述电源43用于为所述电子设备40上的各硬件设备提供工作电压；所述通信接口44能够为所述电子设备40创建与外界设备之间的数据传输通道，其所遵循的通信协议是能够适用于本发明技术方案的任意通信协议，在此不对其进行具体限定；所述输入输出接口45，用于获取外界输入数据或向外界输出数据，其具体的接口类型可以根据具体应用需要进行选取，在此不进行具体限定。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述任意实施例的图像生成方法的步骤。

由于计算机可读存储介质部分的实施例与图像生成方法部分的实施例相互对应，因此存储介质部分的实施例请参见图像生成方法部分的实施例的描述，这里不再赘述。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器（RAM）、内存、只读存储器（ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本发明所提供的一种图像生成方法、装置、电子设备及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种图像生成方法，其特征在于，包括：

接收输入信息；所述输入信息为图像与文本的组合；

对所述输入信息进行意图识别，得到意图识别信息；

利用所述意图识别信息进行提示文本模板匹配，并利用匹配到的提示文本模板进行图像生成；所述提示文本模板属于预构建的模型输入信息；

所述对所述输入信息进行意图识别，得到意图识别信息，包括：

利用图像文本匹配模型对所述图像进行文本匹配，确定所述图像对应的场景实体信息；所述场景实体信息包含场景信息及实体信息，所述场景信息用于描述图像中的场景，所述实体信息用于描述图像中的实体对象；

利用人体目标检测模型对所述图像进行人体目标检测，确定所述图像对应的人物信息；所述人物信息包括人物数量、性别；

利用正则表达式从完成词汇移除后的文本中提取关键词；

将所述关键词与所述完整场景实体信息整合为所述意图识别信息；

所述利用所述意图识别信息进行提示文本模板匹配，包括：

判断所述意图识别信息中是否包含人物信息和场景信息；

2.根据权利要求1所述的图像生成方法，其特征在于，所述利用匹配到的提示文本模板进行图像生成，包括：

利用所述模型输入信息进行图像生成，得到初始图像；

对所述初始图像进行图像增强处理，得到输出图像。

3.根据权利要求1或2所述的图像生成方法，其特征在于，所述提示文本模板的生成过程，包括：

从指定网站中提取搜索排行信息；

基于所述搜索排行信息生成所述提示文本模板。

4.一种图像生成装置，其特征在于，包括：

接收模块，用于接收输入信息；所述输入信息为图像与文本的组合；

提示文本模板匹配模块，用于利用所述意图识别信息进行提示文本模板匹配，并利用匹配到的提示文本模板进行图像生成；所述提示文本模板属于预构建的模型输入信息；

所述意图识别模块，包括：

场景实体信息识别子模块，用于利用图像文本匹配模型对所述图像进行文本匹配，确定所述图像对应的场景实体信息；所述场景实体信息包含场景信息及实体信息，所述场景信息用于描述图像中的场景，所述实体信息用于描述图像中的实体对象；

人物信息识别子模块，用于利用人体目标检测模型对所述图像进行人体目标检测，确定所述图像对应的人物信息；

整合子模块，用于利用所述人物信息对所述场景实体信息进行补充，得到完整场景实体信息；

文本处理子模块，对所述文本进行分词，并对分词后的文本中词性与指定词性相同的词汇进行移除；

意图识别信息提取子模块，用于利用正则表达式从完成词汇移除后的文本中提取关键词；

意图识别信息设置子模块，用于将所述关键词与所述完整场景实体信息整合为所述意图识别信息；

所述提示文本模板匹配模块，包括：

待匹配字符串整合子模块，用于将所述意图识别信息与所述文本进行拼接，并将拼接结果转换为英文，得到待匹配字符串；

提示文本模板匹配子模块，用于利用所述待匹配字符串进行提示文本模板匹配；

所述提示文本模板匹配子模块，包括：

匹配判断单元，用于判断所述意图识别信息中是否包含人物信息和场景信息；若包含，则将所述待匹配字符串与第一提示文本模板进行匹配；所述第一提示文本模板包含场景信息、人物信息、质量词、氛围词及超参数；若不包含，则将所述待匹配字符串与第二提示文本模板进行匹配；所述第二提示文本模板包含质量词、氛围词及超参数。

5.一种电子设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至3任一项所述的图像生成方法。

6.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器加载并执行时，实现如权利要求1至3任一项所述的图像生成方法。