CN118014833A

CN118014833A - 基于工业大模型的图像生成方法、装置、系统及存储介质

Info

Publication number: CN118014833A
Application number: CN202410418901.6A
Authority: CN
Inventors: 徐辉; 张发恩; 高达辉; 王菲
Original assignee: Qingdao Chuangxin Qizhi Technology Group Co ltd
Current assignee: Qingdao Chuangxin Qizhi Technology Group Co ltd
Priority date: 2024-04-09
Filing date: 2024-04-09
Publication date: 2024-05-10

Abstract

本发明公开了一种基于工业大模型的图像生成方法、装置、系统及存储介质，所述方法包括：在获取用户的需求信息后，根据预设的关键词列表从需求信息提取若干个特征文本；利用预设的工业大模型分别按照每个特征文本搜索多张图像并组成集合，得到若干个图像集；从需求信息提取场景信息后，按照场景信息从每个图像集内抽取特征图像并进行图像拼接，得到多张拼接图像；计算每张拼接图像与预设背景图的匹配值，并根据匹配值的大小从多张拼接图像中筛选一张为待处理图像；从需求信息提取尺寸信息后，按照尺寸信息调整待处理图像的物体生成目标图像。本发明可以根据用户的需求信息生成目标图像，可以减少偏差，提升图像处理的准确性。

Description

基于工业大模型的图像生成方法、装置、系统及存储介质

技术领域

本发明涉及图像处理的技术领域，尤其涉及一种基于工业大模型的图像生成方法、装置、系统及存储介质。

背景技术

随着科技和人工智能(Artificial Intelligence，AI)的快速发展，人工智能或数字计算机技术已逐渐应用在不同的行业和领域中。例如工程相关的工业，可以通过人工智能或数字计算机技术进行图像处理，方便技术人员根据处理结果搜索工程的相关信息以及信息汇报等。

为了能反馈工程相关的图像，目前常用的方法是：先接收用户输入的处理信息，然后识别处理信息确定用户所需要的物体信息，并调用图像处理模型根据物体信息搜索其中一张符合要求的图像，最后将用户需要添加的文字信息和表情包添加至搜索的图像上，以生成可供用户参考的图像。

目前常用的技术手段有如下技术问题：随着线上的图像资源逐渐增加，可供搜索的图像数据非常多，仅仅结合物体信息进行图像搜索，可以搜索得到大量相关联的图像，任意选取一张搜索的图像可能与技术人员的实际需求有偏差，导致后续生成的目标图像不符合用户需求，会降低图像处理的准确性。

发明内容

本发明提出一种基于工业大模型的图像生成方法、装置、系统及存储介质，所述方法可以解决上述一个或多个技术问题。

本发明实施例的第一方面提供了一种基于工业大模型的图像生成方法，所述方法包括：

在获取用户的需求信息后，根据预设的关键词列表从所述需求信息提取若干个特征文本；

利用预设的工业大模型分别按照每个所述特征文本搜索多张图像并组成集合，得到若干个图像集，每个所述图像集对应一个特征文本，且每个所述图像集包含多张特征图像；

从所述需求信息提取场景信息后，按照所述场景信息从每个所述图像集内抽取特征图像并进行图像拼接，得到多张拼接图像；

计算每张所述拼接图像与预设背景图的匹配值，并根据匹配值的大小从所述多张拼接图像中筛选一张为待处理图像；

从所述需求信息提取尺寸信息后，按照所述尺寸信息调整所述待处理图像的物体生成目标图像。

在第一方面的一种可能的实现方式中，所述计算每张所述拼接图像与预设背景图的匹配值，并根据匹配值的大小从所述多张拼接图像中筛选一张为待处理图像，包括：

在确定预设背景图的拼接区域后获取所述拼接区域边沿的颜色，得到若干个第一边沿色度值，以及获取每张所述拼接图像边沿的颜色，得到若干个第二边沿色度值；

计算相同边沿的所述第一边沿色度值和所述第二边沿色度值的差值得到若干个色度差值后，计算所述若干个色度差值的平均值得到关于色度的匹配值；

从多个所述匹配值中筛选数值最小的匹配值，并以数值最小的匹配值对应的拼接图像为待处理图像。

获取预设背景图包含的每个物体的轮廓得到第一轮廓信息，以及获取每张所述拼接图像包含的每个物体的轮廓得到第二轮廓信息；

采用所述第一轮廓信息与每个所述第二轮廓信息计算轮廓相似度，得到关于物体轮廓的匹配值；

从多个所述匹配值中筛选数值最大的匹配值，并以数值最大的匹配值对应的拼接图像为待处理图像。

在第一方面的一种可能的实现方式中，所述按照所述尺寸信息调整所述待处理图像的物体生成目标图像，包括：

从所述尺寸信息提取物体的图像尺寸以及图像位置；

按照所述图像尺寸调整所述待处理图像的物体在图像展示的大小以及按照所述图像位置调整所述待处理图像的物体在图像展示的位置，生成目标图像。

在第一方面的一种可能的实现方式中，所述按照所述场景信息从每个所述图像集内抽取特征图像并进行图像拼接，得到多张拼接图像，包括：

若所述场景信息是实时监控的场景信息，从所述场景信息获取第一物体类型以及物体区域；

按照所述第一物体类型从每个所述图像集内抽取至少一张特征图像，所述特征图像是包含了所述第一物体类型对应物体的图像；

按照所述物体区域将每种所述第一物体类型对应的一张特征图像添加至对应的区域并进行拼接，得到多张拼接图像。

若所述场景信息是非实时监控的场景信息，从所述场景信息获取第二物体类型和历史拼接图像；

按照所述第二物体类型从每个所述图像集内随机抽取预设数量的特征图像，每张所述特征图像是包含了所述第二物体类型对应物体的图像；

分别从每个所述图像集对应的预设数量的特征图像中提取一张并组成一个待拼接集合；

按照所述历史拼接图像的物体布局对每个所述待拼接集合的若干张特征图像进行拼接，得到多张拼接图像。

在第一方面的一种可能的实现方式中，所述利用预设的工业大模型分别按照每个所述特征文本搜索多张图像并组成集合，得到若干个图像集，包括：

从所述需求信息提取工业领域后，按照所述工业领域确定待筛选集合，所述待筛选集合包含了预设数据库存储的多张待筛选图像以及从不同线上平台提取的多张待筛选图像；

利用预设的工业大模型从不同图像维度对所述待筛选集合包含的多张待筛选图像进行图像识别，得到每一张所述待筛选图像的图像标签；

在识别所述图像标签的标签文本并确定多个所述标签文本的从属关系后，按照所述从属关系将多张所述待筛选图像构建成图像图谱；

对每个所述特征文本进行分词并提取若干个文本关键词后，计算每个所述文本关键词与所述图像图谱内的标签文本的语义相似度；

基于所述语义相似度的大小在所述图像图谱提取对应的图像，得到每个所述特征文本对应的多张特征图像；

将每个所述特征文本对应的多张特征图像组成集合，得到若干个图像集。

本发明实施例的第二方面提供了一种基于工业大模型的图像生成装置，所述装置包括：

提取文本模块，用于在获取用户的需求信息后，根据预设的关键词列表从所述需求信息提取若干个特征文本；

图像搜索模块，用于利用预设的工业大模型分别按照每个所述特征文本搜索多张图像并组成集合，得到若干个图像集，每个所述图像集对应一个特征文本，且每个所述图像集包含多张特征图像；

图像拼接模块，用于从所述需求信息提取场景信息后，按照所述场景信息从每个所述图像集内抽取特征图像并进行图像拼接，得到多张拼接图像；

匹配值计算模块，用于计算每张所述拼接图像与预设背景图的匹配值，并根据匹配值的大小从所述多张拼接图像中筛选一张为待处理图像；

图像生成模块，用于从所述需求信息提取尺寸信息后，按照所述尺寸信息调整所述待处理图像的物体生成目标图像。

在第二方面的一种可能的实现方式中，所述计算每张所述拼接图像与预设背景图的匹配值，并根据匹配值的大小从所述多张拼接图像中筛选一张为待处理图像，包括：

在第二方面的一种可能的实现方式中，所述按照所述尺寸信息调整所述待处理图像的物体生成目标图像，包括：

从所述尺寸信息提取物体的图像尺寸以及图像位置；

在第二方面的一种可能的实现方式中，所述按照所述场景信息从每个所述图像集内抽取特征图像并进行图像拼接，得到多张拼接图像，包括：

在第二方面的一种可能的实现方式中，所述利用预设的工业大模型分别按照每个所述特征文本搜索多张图像并组成集合，得到若干个图像集，包括：

本发明实施例的第三方面提供了一种基于工业大模型的图像生成系统，所述系统包括：电子设备以及多个智能终端，所述电子设备适用于如上所述的基于工业大模型的图像生成方法；

所述电子设备分别与每个所述智能终端通信连接。

相比于现有技术，本发明实施例提供的一种基于工业大模型的图像生成方法、装置、系统及存储介质，其有益效果在于：本发明可以在获取用户的需求信息后，根据需求信息进行图像搜索、图像拼接、图像匹配以及图像调整等处理，以生成符合用户需求的目标图像；通过上述一系列的操作，生成的目标图像可以符合用户的实际需求，减少图像生成偏差，提升图像处理的准确性。

附图说明

图1是本发明一实施例提供的一种基于工业大模型的图像生成方法的流程示意图；

图2是本发明一实施例提供的一种基于工业大模型的图像生成装置的结构示意图；

图3是本发明一实施例提供的一种基于工业大模型的图像生成系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了解决上述问题，下面将通过以下具体的实施例对本申请实施例提供的一种基于工业大模型的图像生成方法进行详细介绍和说明。

参照图1，示出了本发明一实施例提供的一种基于工业大模型的图像生成方法的流程示意图。

在一实施例中，所述方法适用于图像生成装置，图像生成装置集成在电子设备中。

以此为例子，电子设备当接收到图像生成请求时，电子设备对图像生成请求中携带的需求内容进行特征文本提取、图像搜索、图像拼接以及图像筛选等一系列处理，以提升生成图像的准确性，满足用户的应用需求。

其中，可以理解的是，在本申请的具体实施方式中，涉及到特征文本提取、图像搜索、图像拼接以及图像筛选等一系列处理的相关数据，当本申请以下实施例运用到具体产品或技术中时，需要获得许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

以下分别进行详细说明。需要说明的是，以下实施例的描述顺序不作为对实施例优选顺序的限定。

本实施例将从图像生成装置的角度进行描述，该图像生成装置具体可以集成在电子设备中，该电子设备可以是服务器，也可以是终端等设备；其中，该终端可以包括平板电脑、笔记本电脑、以及个人计算机（PC，Personal Computer）、可穿戴设备、虚拟现实设备或其他可以进行图像搜索的智能设备等设备。

其中，作为示例的，所述基于工业大模型的图像生成方法，可以包括：

S11、在获取用户的需求信息后，根据预设的关键词列表从所述需求信息提取若干个特征文本。

在一实施例中，搭载了图像生成装置的电子设备可以是智能终端，用户可以在智能终端上输入需求信息，需求信息是生成图像所需要的信息，需求信息可以包括：图像的颜色、图像包含的物体、物体数量、物体的位置、物体的颜色、图像展示的场景、图像的相关描述、图像的文字、图像的表情包、图像尺寸、图像的边框大小等。

由于需求信息涉及需要展示的图像的各种内容，可对需求信息进行文本提取，以提取得到若干个特征文本，从而能根据特征文本搜索相关的图像，以便后续生成图像。

在一实现方式中，用户可以在其智能终端的表格上添加各项信息，从而得到需求信息。表格上每一行或每一列的标题可以构建成关键词列表，得到预设的关键词列表。

在提取特征数据时，可以根据预设的关键词列表读取表格的各个类别或标题的名称，从而能根据名称提取得到所需要的特征信息，得到特征文本。

S12、利用预设的工业大模型分别按照每个所述特征文本搜索多张图像并组成集合，得到若干个图像集，每个所述图像集对应一个特征文本，且每个所述图像集包含多张特征图像。

在一实施例中，在获取所需要的特征文本后，特征文本包括：图像所需要的文字、图像所需的物体、物体的数量以及物体的颜色等。可以针对每一个特征文本搜索相关的特征图像，再将每一个特征文本对应的多张特征图像组成一个集合，从而可以得到每一个特征文本对应的图像集。由于特征文本有若干个，对应地，图像集也有若干个；而且每个图像集包含了该特征文本对应的特征图像。

具体地，搜索的方式可以是利用预设的工业大模型，该工业大模型可以是图像识别模型，该工业大模型具体是利用工业图像训练得到图像识别模型。可以调用工业大模型在一个大的图像库中进行图像识别，以识别得到所需要的特征图像。

通过模型识别，可以识别得到大量符合特征文本要求的特征图像。在获取多张特征图像后，可以利用多张特征图像进行拼接，从而能生成符合用户需求的图像。

在一可选的实施例中，为了能从图像的数据库中识别得到与特征文本匹配的图像，其中，作为示例的，步骤S12可以包括以下子步骤：

S121、从所述需求信息提取工业领域后，按照所述工业领域确定待筛选集合，所述待筛选集合包含了预设数据库存储的多张待筛选图像以及从不同线上平台提取的多张待筛选图像。

在一实施例中，工业领域是用户需要展示的物体的应用领域，例如，用户需要展示的物体是植物，需要生成的图像是关于植物的图像，其应用领域可以是农业。又例如，用户需要展示的物体是起重机，需要生成的图像是关于起重机的图像，其应用领域可以是工程。再例如，用户需要展示的物体是车辆，需要生成的图像是关于车辆的图像，其应用领域可以是汽车业。

在确定工业领域后，可以根据工业领域确定图像的数据库，从而能在对应数据库中查找与特征文本匹配的图像，进而能利用搜索的图像生成符合要求的目标图像。

在一实现方式中，电子设备可以与若干个数据库连接，每个数据库可以存有对应领域或行业的多张图像；可以在该工业领域对应的数据库中提取多张图像。

同时，电子设备也可以与不同的线上平台连接，线上平台可以是搜索引擎的平台，可以通过搜索引擎的平台查找多张与该工业领域对应的图像。

最后，可以将数据库存储的多张待筛选图像以及从不同线上平台提取的多张待筛选图像组成集合，得到待筛选集合。

例如，可以直接获取数据库存储的至少一张图像，得到待筛选集合，或者，可以在图像数据库或者内容数据库中提取出至少一张待筛选图像，从而得到待筛选集合，或者，可以获取一端与工业领域匹配的原始视频，对原始视频进行分帧，并在原始视频的视频帧中筛选出至少一张待筛选图像，从得到待筛选集合。

S122、利用预设的工业大模型从不同图像维度对所述待筛选集合包含的多张待筛选图像进行图像识别，得到每一张所述待筛选图像的图像标签。

在一实施例中，可以采用预设的工业大模型对待筛选集合中的待筛选图像进行识别，预设的工业大模型可以在图像维度下识别得到待筛选图像的图像特征。图像标签可以是图像的特征标签，例如，图像的物体大小、物体的颜色、物体的轮廓。该标签也可以是用户添加在图像的文本标签等。

其中，识别图像标签的方式可以有多种，具体可以如下：

例如，可以获取待筛选集合后，预设的工业大模型可以对待筛选集合中每一张待筛选图像进行图像识别，得到待筛选图像的图像标签。

其中，预设的工业大模型也可以由多个识别模型组成，可以对图像进行不同特征的识别。另外，对待筛选图像进行图像识别时，还可以将待筛选图像的上传时间保存到异步任务队列中，在异步线程中采用预设的工业大模型分析出图像标签。

可选地，待筛选图像的图像标签可能有多个标签，为了准确筛选符合待筛选图像的标签，在识别图像标签时，同时也可以根据图像的图像标签，确定待筛选图像在图像维度下的标签置信度，基于标签置信度可以对待筛选图像的图像标签进行排序，基于排序结果，在图像标签中筛选出一个或多个图像标签作为待筛选图像的当前图像标签。

其中，标签置信度可以理解为待筛选图像的图像标签为当前图像标签的概率信息，基于标签置信度，在待筛选图像的图像标签中筛选出待筛选图像的当前图像标签的方式可以有多种，比如，可以基于标签置信度，将图像标签进行排序，基于排序结果，在图像标签中筛选出一个或多个图像标签作为待筛选图像的当前图像标签。

在一可选的实施例中，在基于标签置信度从待筛选图像的多个图像标签中筛选出当前的图像标签后，还可以对待筛选图像进行预处理，比如，可以对待筛选图像进行哈希处理，得到待筛选图像的哈希值，根据哈希值和待筛选图像的图像属性信息，生成候选图像的图像元信息，基于当前的图像标签，对待筛选图像进行分类，并基于分类结果和待筛选图像的哈希值，构建哈希值与当前的图像标签的索引信息。

其中，图像元信息用于指示候选图像的图像信息，图像元信息可以包括候选图像的图像名称、哈希值、图像存储地址、图像尺寸信息等等。

其中，索引信息可以为候选图像的哈希值与当前图像标签之间的索引关系的信息。通过es的倒排索引，就可以方便的根据图像标签索引到该图像标签的所有图像的哈希值，从而搜索到对应的特征图像。

S123、在识别所述图像标签的标签文本并确定多个所述标签文本的从属关系后，按照所述从属关系将多张所述待筛选图像构建成图像图谱。

在确定一个或多个图像标签后，可以获取每个图像标签的文本，得到一个或多个标签文本。然后确定多个标签文本的从属关系后，然后按照从属关系将待筛选集合的多张待筛选图像构建成图像图谱。

其中，所谓从属关系可以为文本词之间的包含关系，该从属关系可以有多种，比如，可以为上位关系和下位关系，以A包含A1和A2为例，则A1的上位词就可以为A，A1就可以为A的下位词，譬如，生物包含人和动物，则人的上位词就可以为生物，生物的下位词就可以为人和动物，等等。

在获取图像标签之后，便可以在图像标签中识别出图像标签之间的从属关系，识别从属关系的方式可以有多种，比如，可以在图像标签中识别出每一图像标签中的标签文本的词，得到文本词集合，根据预设文本词典，确定文本词集合中的文本词之间的词关系，并将词关系作为图像标签之间的从属关系。

其中，词关系可以理解为文本词之间词性的关系，比如，可以包括同义词、近义词、反义词、上位词和下位词等等。预设文本词典可以理解为预先设定的包含各种词以及词关系的词典或者词图谱。根据预设文本词典，确定文本词集合中的文本词之间的词关系的方式可以有多种，比如，可以在预设文本词典中识别出文本词集合中每一文本词对应的词网络信息，在词网络信息中提取出文本词对应的至少一个关系词集合，基于关系词集合，确定文本词集合中文本词之间的词关系。

其中，词网络信息可以理解为与该文本词存在词关系的文本词组成的关系网络的信息。词网络信息中可以包括每一类词关系对应的关系词集合。基于关系词集合，确定文本词集合中文本词之间的词关系的方式可以有多种，比如，在文本词集合中确定出目标文本词，在目标文本词对应的关系词集合中查询与目标文本词以外的文本词匹配的目标关系词，当存在目标关系词时，获取目标关系词与目标文本词之间的当前词关系，将当前词关系作为目标文本词与目标关系词对应的文本词之间的词关系，以得到文本词集合中文本词之间的词关系。

其中，目标文本词可以为文本词集合中的任意一个文本词，获取目标关系词与目标文本词之间的当前词关系的方式可以有多种，比如，可以根据目标关系词所在的关系词集合的集合类型，确定目标关系词与目标文本词之间的当前词关系，譬如，以集合类型为同义词集合为例，则目标关系词与目标文本词之间的当前词关为同义词关系，或者，还可以直接获取目标关系词的关系类型，将该关系类型作为目标文本词与目标关系词之间的当前词关系，以关系类型为上位关系为例，则目标文本词与目标关系词之间的当前词关系就可以为上位词关系。

在获取当前词关系之后，便可以将当前词关系作为目标文本词与目标关系词对应的文本词之间的关系，从而得到文本词集合中文本词之间的词关系，比如，将当前词关系作为目标文本词与目标关系词对应的文本词之间的词关系，返回执行在文本词集合中确定出目标文本词的步骤，直至文本词集合中所有文本词均作为目标文本词时为止，从而得到文本词集合中文本词之间的词关系。

在确定从属关系后，可以图像标签之间的从属关系构建待筛选图像的图谱，得到图像图谱，图像图谱还可以理解为将图像标签进行分级处理后的图像知识图谱，与传统的知识图谱不一样的是实体之间存在分级关系，该分级关系可以包括上下位的分级和语义分级，从而可以更加准确的使得搜索结果更加贴近用户搜索意图。

其中，构建图像图谱的方式可以有多种，比如，可以获取图像标签的集合，并在图像标签的集合中识别出图像标签之间的从属关系，基于从属关系将图像标签作为实体构建图像标签的分级图谱，再按照分级图谱的关系构建图像图谱。具体可以如下：

例如，可以在图像标签的集合中筛选出存在从属关系的图像标签，得到从属的图像标签的集合，根据从属关系的关系类型，对从属图像标签集合中的图像标签进行分类，基于分类结果，将从属图像标签集合中的图像标签作为实体构建知识图谱，得到基础图像标签图谱，再按照基础图像标签图谱的关系构建图像图谱。

其中，从属关系的关系类型可以有多种，比如，可以包括上位关系和下位关系，因此，根据从属关系的关系类型，对从属图像标签集合中的图像标签进行分类的方式可以有多种，比如，可以将从属图像标签集合中的图像标签分为上位图像标签和下位图像标签。

在对从属图像标签集合中的图像标签进行分类之后，便可以基于分类结果，将从属图像标签集合中的图像标签作为实体构建知识图谱，构建知识图谱的方式可以有多种，比如，可以采用wordnet图谱按照从属图像标签集合中的图像标签之间的上/下位关系构建知识图谱，从而得到基础图像标签图谱，最后再按照基础图像标签图谱的关系构建得到图像图谱。

S124、对每个所述特征文本进行分词并提取若干个文本关键词后，计算每个所述文本关键词与所述图像图谱内的标签文本的语义相似度。

在一实施例中，每个特征文本可能包括多个词语，可以对每个特征文本进行文本切词处理，得到特征文本的若干个文本关键词。

其中，文本切词可以理解为在特征文本切分出文本词，并在切分出的文本词中筛选出关键词，从而得到文本关键词。所谓文本关键词用于指示特征文本中的搜索的关键词。

其中，对特征文本进行文本切词处理的方式可以有多种，具体可以如下：

例如，当接收到特征文本时，对特征文本进行文本切词处理，从而得到至少一个文本词，在文本词中筛选出至少一个关键词，从而得到文本关键词。

其中，在文本词中筛选出至少一个关键词的方式可以有多种，比如，可以采用关键词识别模型对文本词进行文本特征提取，并根据提取出的文本词特征，确定该文本词的关键词信息，基于关键词信息，在文本词中筛选出至少一个文本词作为文本关键词。

在获取每个特征文本对应的若干个文本关键词后，可以计算每个文本关键词与图像图谱内的每个标签文本的语义相似度。

具体的计算方式可以如下：

可以计算文本关键词与标签文本之间的相似度，并对相似度进行归一化处理，得到文本关键词与标签文本之间的语义相似度，最后再基于语义相似度，在图像图谱中筛选出对应的图像。

其中，计算相似度的方式可以有多种，比如，以文本关键词与标签文本为词向量为例，就可以计算词向量之间的余弦相似度，将余弦相似度作为文本关键词与标签文本之间的相似度，具体可以如下式所示：

cos(θ)=（A*B）/（A*B）；

similarity=（cos(θ)+1）/2。

其中，A为文本关键词的多维词向量，B为标签文本的多维词向量，cos(θ)为文本关键词的多维词向量与标签文本的多维词向量之间的余弦夹角，simillarity为文本关键词与标签文本之间的余弦相似度。

在计算出余弦相似度之后，便可以对余弦相似度进行归一化处理，得到文本关键词与标签文本之间的语义相似度。

其中，归一化处理的方式可以有多种，比如，可以将每一维度的词向量之间的余弦相似度进行归一化，得到归一化后的相似度，并将归一化后的相似度进行融合，从而得到文本关键词与标签文本之间的语义相似度。

S125、基于所述语义相似度的大小在所述图像图谱提取对应的图像，得到每个所述特征文本对应的多张特征图像。

S126、将每个所述特征文本对应的多张特征图像组成集合，得到若干个图像集。

在计算得到语义相似度后，每个特征文本可以对应多个语义相似度，可以从多个语义相似度筛选若干个大于预设相似度的语义相似度，然后以若干个大于预设相似度的语义相似度对应的待筛选图像为特征图像，从而可以得到每个特征文本对应的多张特征图像。

最后，可以将每个特征文本对应的多张特征图像组成一个集合，完成对每个特征文本对应的多张特征图像组成集合后，可以得到若干个图像集。

由以上可知，本发明通过理解特征文本的内容，搜索每个特征文本对应的图像，以利用特征文本搜索到的多张图像集，可以增加后续生成目标图像所需要的素材，方便后续利用多个图像素材生成符合用户需求的图像，以贴合用户的实际需求以及提升图像构建的准确性。

S13、从所述需求信息提取场景信息后，按照所述场景信息从每个所述图像集内抽取特征图像并进行图像拼接，得到多张拼接图像。

由于图像集有若干个，且每个图像集有多张特征图像，若胡乱拼接各张特征图像，生成的目标图像会与用户实际需求有偏差，为了避免上述情况，可以从需求信息提取场景信息，其中，场景信息是用户所要构建的图像所表示的应用场景或者实际场景。

例如，用户所要构建的目标图像是关于稻谷种植，其场景信息可以是在梯田内种植稻谷。又例如，用户所要构建的目标图像是关于工业内构建桥梁的场景，其场景信息可以是在xx河构建桥。

由于特征图像涉及各个物体，可以是场景信息所需要的物体，此时可以按照场景信息从每个图像集内抽取所需要的特征图像，再对抽取的特征图像进行图像拼接，得到拼接图像。

拼接的方式可以是将几张特征图像进行组合、叠加或上下拼接，形成拼接图像。

每次可以在图像集内抽取一张或多张特征图像，可以是多张特征图像进行相互拼接，从而可以得到多张拼接图像。

在其中一种的实施例中，用户需求的场景信息是实时监控的实时场景信息，用户需求的场景是某一时间节点拍摄的某一地方的场景的信息。例如，用户需要的场景信息是在xx年xx月xx日的xx河构建的桥梁。

其中，作为示例的，所述按照所述场景信息从每个所述图像集内抽取特征图像并进行图像拼接，得到多张拼接图像，可以包括以下子步骤：

S21、若所述场景信息是实时监控的场景信息，从所述场景信息获取第一物体类型以及物体区域。

S22、按照所述第一物体类型从每个所述图像集内抽取至少一张特征图像，所述特征图像是包含了所述第一物体类型对应物体的图像。

S23、按照所述物体区域将每种所述第一物体类型对应的一张特征图像添加至对应的区域并进行拼接，得到多张拼接图像。

如果场景信息是实时监控的场景信息，该场景信息是某一时间节点确定的实时场景信息，可以从场景信息中获取第一物体类型以及物体区域。其中，第一物体类型是用户需求的场景内所包含的物体的类型，例如，需要展示的物体是起重器，其第一物体类型对应为起重机。又例如，需要展示的物体是稻谷，其第一物体类型对应为稻谷。

物体区域是物体在图像中的位置。例如，特征图像是起重机的图像，起重机在左下角的位置，则其物体位置是左下角。

需要说明的是，用户需要展示的物体有多个，对应地，第一物体类型可以有多个。每个物体有一个对应的位置，每个第一物体类型可以对应一个物体区域。

由于第一物体类型有多个，每个第一物体类型对应特征文本，特征文本对应一个图像集，且特征文本对应的图像集包含多张特征图像。例如，第一物体类型有三个，分别是桥墩、起重机和河流。其中，起重机对应的图像集包含多张起重机的特征图像；桥墩对应的图像集包含多张桥墩的特征图像；河流对应的图像集包含多张河流的特征图像。

此时可以确定桥墩对应的图像集，然后再从桥墩的图像集提取至少一张桥墩的特征图像，每张桥墩的特征图像是包含了桥墩的图像。

同理，可以确定起重机对应的图像集，然后再从起重机的图像集提取至少一张起重机的特征图像，每张起重机的特征图像是包含了起重机的图像。

由于每种第一物体类型对应至少一张特征图像，可以依次在提取每种第一物体类型对应的一张特征图像，然后将物体区域将特征图像添加至对应的图像区域，完成添加后对多张特征图像进行组合，得到一张拼接图像。

及后再按照上述方式再提取一张特征图像并进行拼接，再形成一张新的拼接图像。

例如，第一物体类型有三个，分别是桥墩A、起重机B和河流C。其中，桥墩A对应的特征图像有三张，分别为A1、A2和A3；起重机B对应的特征图像有2张，分别为B1和B2；河流C对应的特征图像有三张，分别为C1、C2和C3。

任意选择每种第一物体类型对应的一张特征图像，可以选择特征图像A1、B1和C1，在对这三张图像进行拼接，得到第一张拼接图像。

同理，可以选择特征图像A2、B1和C1，在对这三张图像进行拼接，得到第二张拼接图像；然后可以选择特征图像A2、B1和C3，在对这三张图像进行拼接，得到第三张拼接图像；再可以选择特征图像A3、B2和C2，在对这三张图像进行拼接，得到第四张拼接图像，如此类推，得到多张拼接图像。本发明让多张不同第一物体类型在相同的位置进行拼接，从而能形成不同的拼接图像，以供用户参考。

拼接图像的数量可以根据实际需要进行调整，最多可以是多个第一物体类型的特征图像的乘积。例如，上述例子，第一物体类型有三个，分别是桥墩A、起重机B和河流C，拼接图像的数量最多可以是3*2*3=18张。

在又一种的实施例中，用户需要构建的图像是仿真或模拟在先的历史场景，该在先或历史场景有相关的图像模板或者目标模板。为了能贴合在先的历史场景，其中，作为示例的，所述按照所述场景信息从每个所述图像集内抽取特征图像并进行图像拼接，得到多张拼接图像，可以包括以下子步骤：

S31、若所述场景信息是非实时监控的场景信息，从所述场景信息获取第二物体类型和历史拼接图像。

S32、按照所述第二物体类型从每个所述图像集内随机抽取预设数量的特征图像，每张所述特征图像是包含了所述第二物体类型对应物体的图像。

S33、分别从每个所述图像集对应的预设数量的特征图像中提取一张并组成一个待拼接集合。

S34、按照所述历史拼接图像的物体布局对每个所述待拼接集合的若干张特征图像进行拼接，得到多张拼接图像。

如果场景信息是非实时监控的场景信息，例如，用户在桥梁兴建工程的后期，需要模拟生成桥梁未兴建前河道两旁的环境状态的效果图像，以利用生成的效果图像与当前实际的环境进行比对。又例如，用户在桥梁兴建完工后，需要模拟生成桥梁兴建过程中工地现场的效果图像，以利用工地现场的效果图像进行工程总结等。

为了能贴合用户的需求，可以从场景信息获取第二物体类型和历史拼接图像，其中，第二物体类型是用户需求的场景内所包含的物体的类型，具体可以如第一物体类型，具体可以参照上述解析说明。历史拼接图像是用户需要模拟的样板图。

需要说明的是，用户需要展示的物体有多个，对应地，第二物体类型也可以有多个。

可以按照第二物体类型分别从每个图像集内随机抽取预设数量的特征图像，并且每张特征图像均是包含了第二物体类型对应物体的图像。

预设数量可以根据用户的实际需要进行调整，可以是一张，两张或N张。

抽取的方式可以是随机抽取，在抽取后，可以分别从每个图像集对应的预设数量的特征图像中提取一张并组成一个待拼接集合。

例如，有5个图像集，分别为图像集A、图像集B、图像集C、图像集D和图像集E，且在每个图像集内抽取了3张特征图像，则图像集A对应的三张特征图像分别为A1、A2和A3；图像集B对应的三张特征图像分别为B1、B2和B3，如此类推。

然后可以随机从每个图像集对应的若干张特征图像中抽一张，再将抽取的特征图像作为一个需要进行拼接的图像集合。

例如，从图像集A的A1、A2和A3三张中抽特征图像A1，从图像集B的B1、B2和B3三张中抽特征图像B2，从图像集C的C1、C2和C3三张中抽特征图像C2，从图像集D的D1、D2和D3三张中抽特征图像D1，从图像集E的E1、E2和E3三张中抽特征图像E3，得到的一个待拼接集合（包括：特征图像A1、特征图像B2、特征图像C2、特征图像D1和特征图像E3）。再按照上述方式接着抽，可以得到第二个待拼接集合（包括：特征图像A3、特征图像B1、特征图像C2、特征图像D1和特征图像E2）…，如此类推。按照上述排列组合的方式进行抽取与组合，可以得到多个待拼接组合。

最后，可以历史拼接图像的物体以及物体在图像内的位置，从而得到历史拼接图像的物体布局。最后，再按照物体布局将每个待拼接集合包含的若干张特征图像添加至对应的位置，然后将各张特征图像进行组合，以完成拼接，从而可以得到每个待拼接集合对应的拼接图像。由于待拼接集合有多个，最后可以得到多张拼接图像。

S14、计算每张所述拼接图像与预设背景图的匹配值，并根据匹配值的大小从所述多张拼接图像中筛选一张为待处理图像。

在一实施例中，在完成图像拼接后，为了能进一步贴合用户的展示需求，可以计算每张拼接图像与用户的预设背景图的匹配值，预设背景图是用户展示图像的背景墙或背景图像。

通过计算两张图像的匹配值，可以根据匹配值的大小从多张拼接图像中筛选一张为待处理图像，以供展示。

在其中一种的实施例中，可以从颜色这一维度计算匹配值。

其中，作为示例的，所述计算每张所述拼接图像与预设背景图的匹配值，并根据匹配值的大小从所述多张拼接图像中筛选一张为待处理图像，可以包括以下子步骤：

S41、在确定预设背景图的拼接区域后获取所述拼接区域边沿的颜色，得到若干个第一边沿色度值，以及获取每张所述拼接图像边沿的颜色，得到若干个第二边沿色度值。

S42、计算相同边沿的所述第一边沿色度值和所述第二边沿色度值的差值得到若干个色度差值后，计算所述若干个色度差值的平均值得到关于色度的匹配值。

S43、从多个所述匹配值中筛选数值最小的匹配值，并以数值最小的匹配值对应的拼接图像为待处理图像。

具体地，可以确定预设背景图的拼接区域，拼接区域是预设背景图中放置拼接图像的区域，可以是预设背景图的中间或者侧边。

然后可以确定预设背景图的拼接区域的边沿以及边沿的颜色。例如，拼接区域是在预设背景图的中间，且拼接区域是正方形，则可以获取四条边沿的颜色值，得到四个第一边沿色度值。该第一边沿色度值具体地边沿与预设背景图接触位置的色度值。

同理，也可以获取拼接图像的四个边沿的色度值，从而得到第二边沿色度值。

参照上述例子，假设有四个第一边沿色度值和四个第二边沿色度值。可以计算相同边沿的第一边沿色度值和第二边沿色度值的差值。例如，四个色度值，可以计算上边沿的第一边沿色度值和第二边沿色度值的差值；下边沿的第一边沿色度值和第二边沿色度值的差值；左边沿的第一边沿色度值和第二边沿色度值的差值；以及右边沿的第一边沿色度值和第二边沿色度值的差值，得到四个色度差值，最后再计算四个色度差值的平均值得到关于色度的匹配值。每张拼接图像均可以按照上述方式进行计算，可以得到每张拼接图像对应的匹配值。

如果匹配值最小，说明颜色的差值小，颜色的偏差小，与背景图最匹配。所以，可以从多个匹配值中筛选数值最小的匹配值，并以数值最小的匹配值对应的拼接图像为待处理图像。

在其中一种的实施例中，预设背景图可以包含不同的物体，可以从物体的轮廓这一维度进行计算。

S51、获取预设背景图包含的每个物体的轮廓得到第一轮廓信息，以及获取每张所述拼接图像包含的每个物体的轮廓得到第二轮廓信息。

S52、采用所述第一轮廓信息与每个所述第二轮廓信息计算轮廓相似度，得到关于物体轮廓的匹配值。

S53、从多个所述匹配值中筛选数值最大的匹配值，并以数值最大的匹配值对应的拼接图像为待处理图像。

具体地，可以识别预设背景图的物体，从而可以获取预设背景图包含的每个物体，同时可以提取每个物体的轮廓，得到预设背景图的第一轮廓信息。同理，拼接图像也包含多个物体，也可以识别每张拼接图像的物体，以及提取拼接图像内每个物体的轮廓，得到每张拼接图像的第二轮廓信息。

然后再计算第一轮廓信息与每个第二轮廓信息轮廓相似度，从而可以得到每张拼接图像关于物体轮廓的匹配值。

例如，有10个第二轮廓信息，可以采用第一轮廓信息与每个第二轮廓信息计算轮廓相似度，以此作为匹配值。

如果匹配值较大，说明拼接图像的物体与背景图的物体相近，该拼接图像是用户所需要的图像。所以，可以从多个匹配值中筛选数值最大的匹配值，并以数值最大的匹配值对应的拼接图像为待处理图像。

S15、从所述需求信息提取尺寸信息后，按照所述尺寸信息调整所述待处理图像的物体生成目标图像。

在获取待处理图像后，可能用户需要对其尺寸进行调整，具体可以从需求信息提取尺寸信息后，尺寸信息包括物体的位置、前后关系、大小等。最后再按照尺寸信息调整待处理图像的物体，从而可以生成满足用户需求的目标图像。

在其中一种的实施例中，步骤S15可以包括以下子步骤：

S151、从所述尺寸信息提取物体的图像尺寸以及图像位置。

S152、按照所述图像尺寸调整所述待处理图像的物体在图像展示的大小以及按照所述图像位置调整所述待处理图像的物体在图像展示的位置，生成目标图像。

具体地，可以先从尺寸信息提取物体的图像尺寸以及图像位置。图像尺寸是物体在图像内展示的尺寸，图像位置可以是物体在图像内摆放的位置。

接着可以分别按照图像尺寸调整待处理图像的物体在图像展示的大小，以及按照图像位置调整待处理图像的物体在图像展示的位置，最后生成目标图像。

在本实施例中，本发明实施例提供了一种基于工业大模型的图像生成方法，其有益效果在于：本发明可以在获取用户的需求信息后，根据需求信息进行图像搜索、图像拼接、图像匹配以及图像调整等处理，以生成符合用户需求的目标图像；通过上述一系列的操作，生成的目标图像可以符合用户的实际需求，减少图像生成偏差，提升图像处理的准确性。

本发明实施例还提供了一种基于工业大模型的图像生成装置，参见图2，示出了本发明一实施例提供的一种基于工业大模型的图像生成装置的结构示意图。

其中，作为示例的，所述基于工业大模型的图像生成装置可以包括：

提取文本模块201，用于在获取用户的需求信息后，根据预设的关键词列表从所述需求信息提取若干个特征文本；

图像搜索模块202，用于利用预设的工业大模型分别按照每个所述特征文本搜索多张图像并组成集合，得到若干个图像集，每个所述图像集对应一个特征文本，且每个所述图像集包含多张特征图像；

图像拼接模块203，用于从所述需求信息提取场景信息后，按照所述场景信息从每个所述图像集内抽取特征图像并进行图像拼接，得到多张拼接图像；

匹配值计算模块204，用于计算每张所述拼接图像与预设背景图的匹配值，并根据匹配值的大小从所述多张拼接图像中筛选一张为待处理图像；

图像生成模块205，用于从所述需求信息提取尺寸信息后，按照所述尺寸信息调整所述待处理图像的物体生成目标图像。

可选地，所述计算每张所述拼接图像与预设背景图的匹配值，并根据匹配值的大小从所述多张拼接图像中筛选一张为待处理图像，包括：

可选地，所述按照所述尺寸信息调整所述待处理图像的物体生成目标图像，包括：

从所述尺寸信息提取物体的图像尺寸以及图像位置；

可选地，所述按照所述场景信息从每个所述图像集内抽取特征图像并进行图像拼接，得到多张拼接图像，包括：

可选地，所述利用预设的工业大模型分别按照每个所述特征文本搜索多张图像并组成集合，得到若干个图像集，包括：

本发明实施例还提供了一种基于工业大模型的图像生成系统，参见图3，示出了本发明一实施例提供的一种基于工业大模型的图像生成系统的结构示意图。

其中，作为示例的，所述基于工业大模型的图像生成系统可以包括：电子设备以及多个智能终端，所述电子设备适用于如上述实施例所述的基于工业大模型的图像生成方法；

所述电子设备分别与每个所述智能终端通信连接。

所述智能终端为用户的智能终端，用户可以通过智能终端上传其需求信息，供电子设备采用需求信息生成目标图像，并发送给智能终端。用户再通过智能终端查看其所需要的目标图像。

所属技术领域的技术人员可以清楚地了解到，为方便的描述和简洁，上述描述的装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

进一步的，本申请实施例还提供了一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述实施例所述的基于工业大模型的图像生成方法。

进一步的，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行程序，所述计算机可执行程序用于使计算机执行如上述实施例所述的基于工业大模型的图像生成方法。

本领域内的技术人员应明白，本申请的实施例还可提供包括计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、装置和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于工业大模型的图像生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的基于工业大模型的图像生成方法，其特征在于，所述计算每张所述拼接图像与预设背景图的匹配值，并根据匹配值的大小从所述多张拼接图像中筛选一张为待处理图像，包括：

3.根据权利要求1所述的基于工业大模型的图像生成方法，其特征在于，所述计算每张所述拼接图像与预设背景图的匹配值，并根据匹配值的大小从所述多张拼接图像中筛选一张为待处理图像，包括：

4.根据权利要求1所述的基于工业大模型的图像生成方法，其特征在于，所述按照所述尺寸信息调整所述待处理图像的物体生成目标图像，包括：

从所述尺寸信息提取物体的图像尺寸以及图像位置；

5.根据权利要求1所述的基于工业大模型的图像生成方法，其特征在于，所述按照所述场景信息从每个所述图像集内抽取特征图像并进行图像拼接，得到多张拼接图像，包括：

6.根据权利要求1所述的基于工业大模型的图像生成方法，其特征在于，所述按照所述场景信息从每个所述图像集内抽取特征图像并进行图像拼接，得到多张拼接图像，包括：

7.根据权利要求1-6任意一项所述的基于工业大模型的图像生成方法，其特征在于，所述利用预设的工业大模型分别按照每个所述特征文本搜索多张图像并组成集合，得到若干个图像集，包括：

8.一种基于工业大模型的图像生成装置，其特征在于，所述装置包括：

9.一种基于工业大模型的图像生成系统，其特征在于，所述系统包括：电子设备以及多个智能终端，所述电子设备适用于如权利要求1-7任意一项所述的基于工业大模型的图像生成方法；

所述电子设备分别与每个所述智能终端通信连接。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行程序，所述计算机可执行程序用于使计算机执行如权利要求1-7任意一项所述的基于工业大模型的图像生成方法。