CN117710234A

CN117710234A - 基于大模型的图片生成方法、装置、设备和介质

Info

Publication number: CN117710234A
Application number: CN202410166499.7A
Authority: CN
Inventors: 邓邱伟; 王迪; 苏明月; 尹飞; 孙涛; 王中飞
Original assignee: Qingdao Haier Technology Co Ltd; Qingdao Haier Intelligent Home Appliance Technology Co Ltd; Haier Uplus Intelligent Technology Beijing Co Ltd
Current assignee: Qingdao Haier Technology Co Ltd; Qingdao Haier Intelligent Home Appliance Technology Co Ltd; Haier Uplus Intelligent Technology Beijing Co Ltd
Priority date: 2024-02-06
Filing date: 2024-02-06
Publication date: 2024-03-15
Anticipated expiration: 2044-02-06
Also published as: CN117710234B

Abstract

本申请提供一种基于大模型的图片生成方法、装置、设备和介质，涉及智能家居/智慧家庭技术领域。该方法包括：将第一背景图片和文本描述输入位置预测模型，预测得到第一目标物在第一背景图片的目标位置信息；获取目标图片中与第一目标物相同类型的第二目标物，并根据第二目标物的掩码将第二目标物从目标图片中分割出来；根据目标位置信息中的目标位置尺寸与分割出来的第二目标物之间的大小关系，确认分割出来的第二目标物的缩放比例；根据目标位置信息和缩放比例，将分割出来的第二目标物融合至第一背景图片中。本申请的方法可以将目标产品精准融合到背景图片中。

Description

基于大模型的图片生成方法、装置、设备和介质

技术领域

本申请涉及智能家居/智慧家庭技术领域，尤其涉及一种基于大模型的图片生成方法、装置、设备和介质。

背景技术

基于大模型的图片生成技术可以应用到各个领域当中，包括应用到多媒体、商业宣传和娱乐生活等领域；进行图片生成的应用场景，例如，在商品营销宣传时，需要将目标商品融入各种主题的背景图片中。

现有技术在融合目标商品和背景图片时，如果不进行人工干预，则可能出现融合生成的图片不合理的现象，例如，冰箱摆放在桌子上，电视悬空摆放，而不是摆放在电视柜上；如果进行人工干预，则可以适当避免融合生成的图片不合理，但也会增加操作过程。

因此，如何在不进行人工干预的情况下、合理融合目标商品和背景图片是现在亟待解决的问题。

发明内容

本申请提供一种基于大模型的图片生成方法、装置、设备和介质，用以解决现有技术中不进行人工干预时，容易造成融合生成的图片不合理的问题。

第一方面，本申请提供一种基于大模型的图片生成方法，包括：

将第一背景图片和文本描述输入位置预测模型，预测得到第一目标物在所述第一背景图片的目标位置信息；其中，所述位置预测模型用于获取所述第一背景图片的全局图片特征和所述文本描述的全局文本特征，并根据所述全局图片特征和所述全局文本特征预测所述目标位置信息，所述文本描述用于描述所述第一目标物在所述第一背景图片中的位置；

获取目标图片中与所述第一目标物相同类型的第二目标物，并根据所述第二目标物的掩码将所述第二目标物从所述目标图片中分割出来；

根据所述目标位置信息中的目标位置尺寸与分割出来的所述第二目标物之间的大小关系，确认分割出来的所述第二目标物的缩放比例；

根据所述目标位置信息和所述缩放比例，将分割出来的所述第二目标物融合至所述第一背景图片中。

在一种可能的实现方式中，所述将第一背景图片和文本描述输入位置预测模型，预测得到第一目标物在所述第一背景图片的目标位置信息，包括：

通过所述位置预测模型中的解码器，获取所述第一背景图片的全局图片特征和所述文本描述的全局文本特征，其中，所述解码器包括图片解码器和文本解码器；

将所述全局图片特征和所述全局文本特征进行特征对齐和融合，得到第一融合特征；

对所述第一融合特征进行位置回归，预测得到所述第一目标物在所述第一背景图片的目标位置信息。

在一种可能的实现方式中，所述将所述全局图片特征和所述全局文本特征进行特征对齐和融合，得到第一融合特征，包括：

将所述全局图片特征切分为局部图片特征，将所述全局文本特征切分为第一局部文本特征和词频信息，其中，所述词频信息包括与所述第一目标物关联的文字特征在各个所述第一局部文本特征中的出现频次；

根据所述词频信息对所述第一局部文本特征进行去重，得到第二局部文本特征；

基于注意力机制，将所述局部图片特征和所述第二局部文本特征进行全局特征对齐，得到对齐后的全局图片特征和全局文本特征；

通过跨模态特征融合组件，将对齐后的所述全局图片特征和所述全局文本特征进行特征融合，得到所述第一融合特征。

在一种可能的实现方式中，所述基于注意力机制，将所述局部图片特征和所述第二局部文本特征进行全局特征对齐，包括：

根据所述第二局部文本特征、所述第二局部文本特征在所述局部图片特征上的投影，确认所述注意力机制的查询向量；

根据所述局部图片特征、所述局部图片特征在所述第二局部文本特征上的投影，确认所述注意力机制的健向量和值向量；

根据所述查询向量、所述健向量和所述值向量，获取局部注意力权重矩阵，并将所述局部注意力权重矩阵集合为全局注意力权重矩阵；

根据所述全局注意力权重矩阵，将所述局部图片特征和所述第二局部文本特征进行全局特征对齐。

在一种可能的实现方式中，所述通过跨模态特征融合组件，将对齐后的所述全局图片特征和所述全局文本特征进行特征融合，得到所述第一融合特征，包括：

将对齐后的所述全局图片特征输入所述跨模态特征融合组件的第一层结构，将对齐后的所述全局文本特征输入所述跨模态特征融合组件的第二层结构，其中，所述第一层结构包括多个第一网络层，所述第二层结构包括多个第二网络层；

将每个当前非最后一个所述第一网络层的第一输出与每个当前非最后一个所述第二网络层的第二输出融合，得到融合输入，其中，所述第一输出和所述融合输入用于融合输入下一个所述第一网络层，所述第二输出和所述融合输入用于融合输入下一个所述第二网络层；

将最后一个所述第一网络层的第三输出和最后一个所述第二网络层的第四输出融合，得到所述第一融合特征。

在一种可能的实现方式中，所述对所述第一融合特征进行位置回归，预测得到所述第一目标物在所述第一背景图片的目标位置信息之前，所述方法还包括：

获取所述文本描述中的三元组损失函数和关键词置信度，并根据所述关键词置信度和所述三元组损失函数，建立所述位置预测模型的损失函数；其中，所述损失函数用于训练所述位置预测模型。

在一种可能的实现方式中，所述获取所述文本描述中的三元组损失函数，包括：

获取训练过程中得到的第二融合特征，并确认所述第二融合特征中的锚定样本与正样本之间的第一距离、所述第二融合特征中的锚定样本与负样本之间的第二距离，其中，所述正样本为与所述锚定样本相同类型的样本，所述负样本为与所述锚定样本不同类型的样本；

根据预设常数、所述第一距离和所述第二距离，确认所述三元组损失函数。

在一种可能的实现方式中，所述根据所述关键词置信度和所述三元组损失函数，建立所述位置预测模型的损失函数，包括：

根据第一权重和所述关键词置信度，获取第一损失系数；

根据第二权重和所述三元组损失函数，获取第二损失系数；

根据所述第一损失系数和所述第二损失系数，获取所述位置预测模型的损失函数。

在一种可能的实现方式中，所述将第一背景图片和文本描述输入位置预测模型之前，所述方法还包括：

在数据库中，获取第二背景图片；

对所述第二背景图片中的第三目标物的位置进行预标注，得到语义文本；

对所述第二背景图片和所述语义文本进行数据清理，并将数据清理后的所述第二背景图片和所述语义文本作为初始位置预测模型的输入进行训练，得到所述位置预测模型。

在一种可能的实现方式中，所述根据所述第二目标物的掩码将所述第二目标物从所述目标图片中分割出来，包括：

根据预设目标参数，确认所述第二目标物，其中，所述预设目标参数用于选定所述第二目标物；

若存在多个所述第二目标物，则根据每个所述第二目标物的掩码将每个所述第二目标物从所述目标图片中分割出来；

所述将分割出来的所述第二目标物融合至所述第一背景图片中，包括：

获取匹配多个所述第二目标物的所述第一背景图片，基于跨模态生成大模型，将分割出来的多个所述第二目标物融合至所述第一背景图片中。

在一种可能的实现方式中，所述根据每个所述第二目标物的掩码将每个所述第二目标物从所述目标图片中分割出来，包括：

对所述目标图片进行语义分割，获得每个所述第二目标物的掩码；

根据每个所述第二目标物的掩码，将每个所述第二目标物从所述目标图片中分割出来。

第二方面，本申请提供一种基于大模型的图片生成装置，包括：

预测模块，用于将第一背景图片和文本描述输入位置预测模型，预测得到第一目标物在所述第一背景图片的目标位置信息；其中，所述位置预测模型用于获取所述第一背景图片的全局图片特征和所述文本描述的全局文本特征，并根据所述全局图片特征和所述全局文本特征预测所述目标位置信息，所述文本描述用于描述所述第一目标物在所述第一背景图片中的位置；

分割模块，用于获取目标图片中与所述第一目标物相同类型的第二目标物，并根据所述第二目标物的掩码将所述第二目标物从所述目标图片中分割出来；

缩放模块，用于根据所述目标位置信息中的目标位置尺寸与分割出来的所述第二目标物之间的大小关系，确认分割出来的所述第二目标物的缩放比例；

融合模块，用于根据所述目标位置信息和所述缩放比例，将分割出来的所述第二目标物融合至所述第一背景图片中。

第三方面，本申请提供一种基于大模型的图片生成设备，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如上所述的基于大模型的图片生成方法。

第四方面，本申请提供一种计算机可读存储介质，其上储存有计算机程序，该计算机程序被处理器执行时实现如上所述的基于大模型的图片生成方法的步骤。

本申请提供的一种基于大模型的图片生成方法、装置、设备和介质，将第一背景图片和文本描述输入位置预测模型，预测得到第一目标物在所述第一背景图片的目标位置信息；其中，所述位置预测模型用于获取所述第一背景图片的全局图片特征和所述文本描述的全局文本特征，并根据所述全局图片特征和所述全局文本特征预测所述目标位置信息，所述文本描述用于描述所述第一目标物在所述第一背景图片中的位置；获取目标图片中与所述第一目标物相同类型的第二目标物，并根据所述第二目标物的掩码将所述第二目标物从所述目标图片中分割出来；根据所述目标位置信息中的目标位置尺寸与分割出来的所述第二目标物之间的大小关系，确认分割出来的所述第二目标物的缩放比例；根据所述目标位置信息和所述缩放比例，将分割出来的所述第二目标物融合至所述第一背景图片中。

上述方法中，事先训练出可以用于预测目标物应该处于背景图片哪个位置的位置预测模型，且该位置预测模型是根据第一背景图片的全局图片特征和文本描述的全局文本特征预测目标位置信息的；

将需要融合的第一背景图片和文本描述输入位置预测模型，该位置预测模型可以输出第一目标物在第一背景图片的目标位置信息，该第一目标物是确定需要融合到第一背景图片中的某个类型的目标物；目标图片中有需要融合到第一背景图片的第二目标物，且该第二目标物与第一目标物的类型相同；将第二目标物从目标图片中提取出来后，根据第二目标物与目标位置信息中的目标位置的大小关系，确认第二目标物的缩放比例，并根据目标位置信息和缩放比例，将分割出来的第二目标物融合到第一背景图片中；目标位置信息是预测出来的第二目标物准确的放置位置，缩放比例是确认的第二目标物可调整比例，最终可将第二目标物合理地融入在第一背景图片中。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种基于大模型的图片生成方法的硬件环境图；

图2为本申请实施例提供的一种基于大模型的图片生成方法的流程示意图一；

图3为本申请实施例提供的一种基于大模型的图片生成方法的流程示意图二；

图4为本申请实施例提供的一种基于大模型的图片生成方法的流程示意图三；

图5为本申请实施例提供的一种跨模态特征融合组件；

图6为本申请实施例提供的一种基于大模型的图片生成方法的流程示意图四；

图7为本发明实施例提供的一种基于大模型的图片生成装置图；

图8为本发明实施例提供的基于大模型的图片生成设备的硬件示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本申请中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

现有技术在融合目标商品和背景图片时，如果不进行人工干预，则可能出现融合生成的图片不合理的现象，例如，冰箱摆放在桌子上，电视悬空摆放，而不是摆放在电视柜上；如果进行人工干预，则可以适当避免融合生成的图片不合理，但也会增加操作过程、以及增加人力成本。

为了解决以上问题，本申请提出一种基于大模型的图片生成方法。

下面结合附图和具体的实施例阐述本申请提出的一种基于大模型的图片生成方法的实现过程。

图1为本申请实施例提供的一种基于大模型的图片生成方法的硬件环境图；根据本申请实施例的一个方面，提供了一种基于大模型的图片生成方法。该基于大模型的图片生成方法广泛应用于智慧家庭（Smart Home）、智能家居、智能家用设备生态、智慧住宅（Intelligence House）生态等全屋智能数字化控制应用场景。可选地，在本实施例中，上述的图片生成方法可以应用于如图1所示的由终端设备102和服务器104所构成的硬件环境中。如图1所示，服务器104通过网络与终端设备102进行连接，可用于为终端或终端上安装的客户端提供服务（如应用服务等），可在服务器上或独立于服务器设置数据库，用于为服务器104提供数据存储服务，可在服务器上或独立于服务器配置云计算和/或边缘计算服务，用于为服务器104提供数据运算服务。

上述网络可以包括但不限于以下至少之一：有线网络，无线网络。上述有线网络可以包括但不限于以下至少之一：广域网，城域网，局域网，上述无线网络可以包括但不限于以下至少之一：WIFI（Wireless Fidelity，无线保真），蓝牙。终端设备102可以并不限定于为PC、手机、平板电脑、智能空调、智能烟机、智能冰箱、智能烤箱、智能炉灶、智能洗衣机、智能热水器、智能洗涤设备、智能洗碗机、智能投影设备、智能电视、智能晾衣架、智能窗帘、智能影音、智能插座、智能音响、智能音箱、智能新风设备、智能厨卫设备、智能卫浴设备、智能扫地机器人、智能擦窗机器人、智能拖地机器人、智能空气净化设备、智能蒸箱、智能微波炉、智能厨宝、智能净化器、智能饮水机、智能门锁等。

图2为本申请实施例提供的一种基于大模型的图片生成方法的流程示意图一。如图2所示，该方法包括：

S201、将第一背景图片和文本描述输入位置预测模型，预测得到第一目标物在所述第一背景图片的目标位置信息；其中，所述位置预测模型用于获取所述第一背景图片的全局图片特征和所述文本描述的全局文本特征，并根据所述全局图片特征和所述全局文本特征预测所述目标位置信息，所述文本描述用于描述所述第一目标物在所述第一背景图片中的位置。

位置预测模型是事先训练好的用于预测目标物在背景图片中的放置位置的预测模型，该位置预测模型在训练过程中主要利用特征信息来确认目标物在背景图片中的位置；该位置预测模型不仅可以将第一背景图片和文本描述作为输入，还可以仅将第一背景图片作为输入；

该位置预测模型在预测过程中同样会提取输入信息的特征信息，并根据特征信息预测目标位置信息；其中，输入信息包括第一背景图片和文本描述，特征信息包括第一背景图片的全局图片特征和文本描述的全局文本特征；

第一背景图片中一般没有第一目标物，文本描述用于描述第一目标物应该放在第一背景图片中的哪个位置，有辅助限定第一目标物摆放位置的作用，例如，第一目标物为冰箱，第一背景图片中有一个沙发和一个橱柜，文本描述可以是沙发左侧、橱柜内部等，基于第一背景图片和文本描述的限定，利用位置预测模型的位置预测能力，具体确认冰箱的位置，得到目标位置信息。

S202、获取目标图片中与所述第一目标物相同类型的第二目标物，并根据所述第二目标物的掩码将所述第二目标物从所述目标图片中分割出来。

目标图片中有需要融合到第一背景图片的第二目标物，且该第二目标物与第一目标物的类型相同；第一目标物和第二目标物的类型相同可以是产品类型相同，例如，第一目标物和第二目标物都为冰箱；又或者，还可以在产品类型相同的基础上，产品属性（颜色、形状等）相同，例如，第一目标物和第二目标物都为白色的冰箱，而灰色的冰箱与白色的冰箱为不同类型；

虽然目标图片要与第一背景图片融合，给第二目标物安置合适主题的背景，但是目标图片中的第二目标物本身可能就有背景，此时，就需要在目标图片中识别并提取出第二目标物；通过第二目标物的掩码，就可以将第二目标物从目标图片中分割出来。

S203、根据所述目标位置信息中的目标位置尺寸与分割出来的所述第二目标物之间的大小关系，确认分割出来的所述第二目标物的缩放比例。

通过位置预测模型，预测得到了第一目标物在第一背景图片的目标位置信息，根据该目标位置信息中的多个目标位置坐标，可以确认允许第一目标物放置位置的目标位置尺寸，即确认了允许目标图片中第二目标物放置位置的大小；从目标图片中分割出来的第二目标物与允许第二目标物放置位置的大小可能存在差异，因此需要根据目标位置信息中的目标位置与分割出来的第二目标物之间的大小关系，确认分割出来的第二目标物的缩放比例。

S204、根据所述目标位置信息和所述缩放比例，将分割出来的所述第二目标物融合至所述第一背景图片中。

确认了目标位置信息和缩放比例，就可以得知第二目标物融合在第一背景图片的具体位置，以及融合在第一背景图片的缩放尺寸，以准确将第二目标物融合与第一背景图片中，生成合理的融合图。

第一背景图片中可能有多个第一目标物对应的目标位置信息，从目标图片中分割出来的第二目标物也可能有多个，故，第二目标物和第一背景图片需进行匹配：

示例的，所述根据所述第二目标物的掩码将所述第二目标物从所述目标图片中分割出来，包括：

目标检测模型可以用于确定预设目标参数，在训练目标检测模型过程中，让目标检测模型逐渐可以识别第二目标物，则在使用目标检测模型可以通过目标检测模型计算出预设目标参数，让预设目标参数选定目标图片中的一个或多个第二目标物；如果存在多个第二目标物，则根据每个第二目标物的掩码，将每个第二目标物都从目标图片中分割出来；

将第二目标物分割出来后，需要在多个第一背景图片找到某个适用于此次分割出来的第二目标物的某个第一背景图片；例如，提取出两个冰箱，则对应找到预测出有两个橱柜位置的第一背景图片，并将两者进行融合。

对每个第二目标物进行语义分割，完整分割出每个第二目标物：

示例的，对所述目标图片进行语义分割，获得每个所述第二目标物的掩码；

通过语义分割方式对目标图片进行分割，以获得可被语义分割模型识别的第二目标物的掩码，根据每个第二目标物的掩码，将每个第二目标物从目标图片中分割出来。

本申请实施例中，事先训练出可以用于预测目标物应该处于背景图片哪个位置的位置预测模型，且该位置预测模型是根据第一背景图片的全局图片特征和文本描述的全局文本特征预测目标位置信息的；

图3为本申请实施例提供的一种基于大模型的图片生成方法的流程示意图二。如图3所示，该方法包括：

S301、通过所述位置预测模型中的解码器，获取所述第一背景图片的全局图片特征和所述文本描述的全局文本特征，其中，所述解码器包括图片解码器和文本解码器。

在位置预测模型中，图片和文本可以通过编码和解码的方式进行输入输出，其中，图片和文本可以通过位置预测模型的解码器进行特征提取；相应的，用于获取全局图片特征的解码器为图片解码器，用于获取全局文本特征的解码器为文本解码器，本实施例获取的是第一背景图片的全局图片特征和与第一背景图片对应的文本描述的全局文本特征。

S302、将所述全局图片特征和所述全局文本特征进行特征对齐和融合，得到第一融合特征。

全局图片特征用于表示第一背景图片中不同目标内容的特征信息，且不同目标内容由多个全局图片特征值构成的特征矩阵表示，全局文本特征用于表示文本描述中不同目标内容的特征信息，同样的，不同目标内容由多个全局文本特征值构成的特征矩阵表示；例如，沙发和橱柜为不同目标内容，两者对应的全局图片特征值不同；

为了充分明确目标内容的位置，需要将全局图片特征和全局文本特征进行特征对齐，将具有相同目标内容的全局图片特征和全局文本特征对齐，例如，将全局图片特征中与橱柜有关的特征与全局文本特征中与橱柜有关的特征对齐；将对齐后的全局图片特征和全局文本特征进行融合，得到第一融合特征。

S303、对所述第一融合特征进行位置回归，预测得到所述第一目标物在所述第一背景图片的目标位置信息。

经过对齐和融合后得到的第一融合特征，其包含要获取位置的目标内容特征，为了得到该目标内容在第一背景图片中的位置，可选用端到端等模型算法对第一融合特征进行位置回归，得到第一目标物在第一背景图片的目标位置信息。

本申请实施例中，基于全局图片特征和全局文本特征，对第一目标物在第一背景图片的目标位置进行模型推理，保证准确预测出第一目标物在第一背景图片中的位置坐标，便于后续融合目标物和背景图片。

图4为本申请实施例提供的一种基于大模型的图片生成方法的流程示意图三。图5为本申请实施例提供的一种跨模态特征融合组件。如图4所示，该方法包括：

S401、将所述全局图片特征切分为局部图片特征，将所述全局文本特征切分为第一局部文本特征和词频信息，其中，所述词频信息包括与所述第一目标物关联的文字特征在各个所述第一局部文本特征中的出现频次。

全局图片特征为第一背景图片整张图片的图片特征，局部图片特征为第一背景图片局部图片的图片特征；根据第一预设切分值，将单个第一背景图片的全局图片特征切分为多个局部图片特征；例如，将256×256的全局图片特征切为多个16×16的局部图片特征；

全局文本特征包括文本描述的全部文字特征，每个第一局部文本特征包括文本描述的部分文字特征，且两个第一局部文本特征之间的文字特征可能相同；例如，文本描述为“需要冰箱在橱柜里”，则全局文本特征表征“需要冰箱在橱柜里”，各个第一局部文本特征分别表征“需要”、“冰箱”、“在”、“橱柜”、“里”，如果文本描述中有重复描述“的”，则可能表征“的”的第一局部文本特征会有多个，且与“需要”、“的”类似的词为与第一目标物不关联的文字特征将被删除；

词频信息可记录与第一目标物关联的文字特征对应的出现频次，例如，某文字特征表征“冰箱”，出现两次，则有两个表征“冰箱”的第一局部文本特征。

S402、根据所述词频信息对所述第一局部文本特征进行去重，得到第二局部文本特征。

出现重复表征相同文字特征的第一局部文本特征，需要去重，留下其中一个即可；例如，有两个表征“冰箱”的第一局部文本特征可删除其中一个；去重后，留下的第一局部文本特征为第二局部文本特征。

S403、基于注意力机制，将所述局部图片特征和所述第二局部文本特征进行全局特征对齐，得到对齐后的全局图片特征和全局文本特征。

局部图片特征和第二局部文本特征进行特征对齐时，是将图片和文本相同目标内容的特征对应的权重同时提高；局部图片特征和第二局部文本特征是否准确对齐，可以通过注意力机制进行衡量，直至满足注意力机制的条件：

示例的，根据所述第二局部文本特征、所述第二局部文本特征在所述局部图片特征上的投影，确认所述注意力机制的查询向量；

获取第二局部文本特征在局部图片特征上的投影，得到第一投影矩阵；

根据第一投影矩阵和第二局部文本特征，获得查询向量/>；

获取局部图片特征在第二局部文本特征上的投影，得到第二投影矩阵；

根据第二投影矩阵和局部图片特征，获得健向量/>和值向量/>；

可选的，，/>；

具体可通过注意力机制下的局部注意力权重矩阵，衡量局部图片特征和第二局部文本特征是否准确对齐，如果局部注意力权重矩阵满足第二权重阈值，则确认对齐；

局部注意力权重矩阵表达式为：

其中，为局部注意力权重矩阵；/>为归一化函数；/>为第二局部文本特征；/>为局部图片特征；/>为查询向量；/>为健向量，/>；/>为值向量；/>为第二局部文本特征在局部图片特征上的第二投影矩阵/>的行数；/>为转置；

全局图片特征切分得到局部图片特征，则一个全局图片特征对应多个局部图片特征；如果全局图片特征对应整张图片，局部图片特征对应整张图片切好的3×3张子图片（3行3列子图片），那么对应可以计算得到3×3个局部注意力权重矩阵，将该3×3个局部注意力权重矩阵按照子图片对应在整张图片上的位置，建立全局注意力权重矩阵，根据全局注意力权重矩阵可完成全局特征对齐，得到对齐后的全局图片特征和全局文本特征；

例如，全局注意力权重矩阵可表示为：

其中，为第1行第1列个子图片对应的局部注意力权重矩阵；/>为第/>行第1列个子图片对应的局部注意力权重矩阵；/>为第1行第/>列个子图片对应的局部注意力权重矩阵；/>为第/>行第/>列个子图片对应的局部注意力权重矩阵。

S404、通过跨模态特征融合组件，将对齐后的所述全局图片特征和所述全局文本特征进行特征融合，得到所述第一融合特征。

跨模态特征融合组件是进行特征融合的组件，可将对齐后的全局图片特征和全局文本特征进行特征融合，得到第一融合特征：

根据跨模态特征融合组件的结构，融合全局图片特征和全局文本特征的过程为：

示例的，将对齐后的所述全局图片特征输入所述跨模态特征融合组件的第一层结构，将对齐后的所述全局文本特征输入所述跨模态特征融合组件的第二层结构，其中，所述第一层结构包括多个第一网络层，所述第二层结构包括多个第二网络层；

如图5所示，跨模态特征融合组件包括两个层结构，第一层结构包括多个第一网络层，第二层结构包括多个第二网络层，第一网络层和第二网络层的个数可根据实际需求而定，各个第一网络层可以是相同或不同神经网络结构，各个第二网络层可以是相同或不同神经网络结构；全局图片特征可输入第一层结构的第一个第一网络层，全局文本特征可输入第二层结构的第一个第二网络层；将第一个第一网络层的第一输出和第一个第二网络层的第二输出进行融合，得到融合输入；

将第一输出和融合输入通过乘法器进行融合，得到第一融合输出；将第二输出和融合输入通过乘法器进行融合，得到第二融合输出；第一融合输出继续输入下一个第一网络层，第二融合输出继续输入下一个第二网络层；

最后一个第一网络层根据前一个第一网络层的第一融合输出，获取第三输出；最后一个第二网络层根据前一个第二网络层的第二融合输出，获取第四输出；将第三输出和第四输出通过加法器进行融合，得到第一融合特征。

本申请实施例中，基于注意力机制，将所述全局图片特征和所述全局文本特征进行特征对齐；通过跨模态特征融合组件，将对齐后的所述全局图片特征和所述全局文本特征进行特征融合，得到所述第一融合特征；充分融合全局图片特征和全局文本特征，保证后面位置回归是准确的。

图6为本申请实施例提供的一种基于大模型的图片生成方法的流程示意图四。如图6所示，该方法包括：

S601、获取所述文本描述中的三元组损失函数和关键词置信度。

在训练位置预测模型时，对第一融合特征进行位置回归的过程中，通过三元组损失函数和关键词置信度来进行奖惩，故先获取三元组损失函数和关键词置信度；

其中，构建三元组损失函数的过程为：

示例的，获取训练过程中得到的第二融合特征，并确认所述第二融合特征中的锚定样本与正样本之间的第一距离、所述第二融合特征中的锚定样本与负样本之间的第二距离，其中，所述正样本为与所述锚定样本相同类型的样本，所述负样本为与所述锚定样本不同类型的样本；

根据预设常数、所述第一距离和所述第二距离，确认所述三元组损失函数。三元组损失函数可表示为：

其中，用于获取0和/>之间的最大值；/>用于获取/>和/>之间的距离，即第一距离；/>用于获取/>和/>之间的距离，即第二距离；r为第二融合特征中的锚定样本；/>为第二融合特征中的正样本；/>为第二融合特征中的负样本；/>为预设常数；

第二融合特征是在训练位置预测模型获取得到的，第二融合特征中包括对目标内容的特征表示，例如，白色的冰箱、灰色的冰箱都是目标内容且都是冰箱，但是选中白色的冰箱对应的特征为锚定样本，则其它与白色的冰箱有关的特征都为正样本，其它与白色的冰箱不一致的特征都为负样本。

S602、根据所述关键词置信度和所述三元组损失函数，建立所述位置预测模型的损失函数；其中，所述损失函数用于训练所述位置预测模型。

结合关键词置信度和三元组损失函数，分别给关键词置信度和三元组损失函数设置合适的权重，可构建一个适用于位置预测模型的损失函数：

示例的，根据第一权重和所述关键词置信度，获取第一损失系数；

根据第二权重和所述三元组损失函数，获取第二损失系数；

位置预测模型的损失函数Loss公式为：Loss=jN+gL；其中，j为关键词置信度的第一权重；g为三元组损失函数的第二权重；N为关键词置信度。

本申请实施例中，在训练位置预测模型时，给位置预测模型构建了一个合适的损失函数，利用该损失函数反向传播训练位置预测模型，直到训练完位置预测模型，该损失函数在位置预测模型中固定，用于进行预测。

在训练位置预测模型时，会获取大量数据进行训练：

示例的，在数据库中，获取第二背景图片；

第二背景图片为在数据库中获取的不同于第一背景图片的背景图片，通过图片理解大模型可以对第二背景图片中的第三目标物的位置进行预标注，并得到相应的语义文本，该语义文本用于描述第三目标物在第二背景图片中的位置；根据需求，对处理好的第二背景图片和语义文本进行数据清理（数据筛选），将数据清理后的第二背景图片和语义文本作为初始位置预测模型（未训练的位置预测模型）的输入进行训练，直到完成训练得到位置预测模型。

图7为本发明实施例提供的一种基于大模型的图片生成装置图，如图7所示，该装置包括：预测模块701、分割模块702、缩放模块703和融合模块704；

预测模块701，用于将第一背景图片和文本描述输入位置预测模型，预测得到第一目标物在所述第一背景图片的目标位置信息；其中，所述位置预测模型用于获取所述第一背景图片的全局图片特征和所述文本描述的全局文本特征，并根据所述全局图片特征和所述全局文本特征预测所述目标位置信息，所述文本描述用于描述所述第一目标物在所述第一背景图片中的位置。

预测模块701，还用于通过所述位置预测模型中的解码器，获取所述第一背景图片的全局图片特征和所述文本描述的全局文本特征，其中，所述解码器包括图片解码器和文本解码器；

预测模块701，还用于将所述全局图片特征切分为局部图片特征，将所述全局文本特征切分为第一局部文本特征和词频信息，其中，所述词频信息包括与所述第一目标物关联的文字特征在各个所述第一局部文本特征中的出现频次；根据所述词频信息对所述第一局部文本特征进行去重，得到第二局部文本特征；

预测模块701，还用于根据所述第二局部文本特征、所述第二局部文本特征在所述局部图片特征上的投影，确认所述注意力机制的查询向量；

预测模块701，还用于将对齐后的所述全局图片特征输入所述跨模态特征融合组件的第一层结构，将对齐后的所述全局文本特征输入所述跨模态特征融合组件的第二层结构，其中，所述第一层结构包括多个第一网络层，所述第二层结构包括多个第二网络层；

分割模块702，用于获取目标图片中与所述第一目标物相同类型的第二目标物，并根据所述第二目标物的掩码将所述第二目标物从所述目标图片中分割出来。

缩放模块703，用于根据所述目标位置信息中的目标位置尺寸与分割出来的所述第二目标物之间的大小关系，确认分割出来的所述第二目标物的缩放比例。

融合模块704，用于根据所述目标位置信息和所述缩放比例，将分割出来的所述第二目标物融合至所述第一背景图片中。

本申请还提供一种基于大模型的图片生成设备，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行基于大模型的图片生成方法。

图8为本发明实施例提供的基于大模型的图片生成设备的硬件示意图。如图8所示，本实施例提供的基于大模型的图片生成设备80包括：至少一个处理器801和存储器802。该设备80还包括通信部件803。其中，处理器801、存储器802以及通信部件803通过总线804连接。

在具体实现过程中，至少一个处理器801执行所述存储器802存储的计算机执行指令，使得至少一个处理器801执行如上基于大模型的图片生成方法。

处理器801的具体实现过程可参见上述方法实施例，其实现原理和技术效果类似，本实施例此处不再赘述。

在上述的图8所示的实施例中，应理解，处理器可以是中央处理单元（英文：Central Processing Unit，简称：CPU），还可以是其他通用处理器、数字信号处理器（英文：Digital Signal Processor，简称：DSP）、专用集成电路（英文：Application SpecificIntegrated Circuit，简称：ASIC）等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速存储器（Random Access Memory，RAM），也可能还包括非易失性存储器（Non-volatile Memory，NVM），例如至少一个磁盘存储器。

总线可以是工业标准体系结构（Industry Standard Architecture，ISA）总线、外部设备互连（Peripheral Component，PCI）总线或扩展工业标准体系结构（ExtendedIndustry Standard Architecture，EISA）总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本申请附图中的总线并不限定仅有一根总线或一种类型的总线。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如上所述的基于大模型的图片生成方法。

上述的计算机可读存储介质，上述可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器（SRAM），电可擦除可编程只读存储器（EEPROM），可擦除可编程只读存储器（EPROM），可编程只读存储器（PROM），只读存储器（ROM），磁存储器，快闪存储器，磁盘或光盘。可读存储介质可以是通用或专用计算机能够存取的任何可用介质。

一种示例性的可读存储介质耦合至处理器，从而使处理器能够从该可读存储介质读取信息，且可向该可读存储介质写入信息。当然，可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(Application Specific IntegratedCircuits，简称：ASIC)中。当然，处理器和可读存储介质也可以作为分立组件存在于设备中。

所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段，并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。

Claims

1.一种基于大模型的图片生成方法，其特征在于，包括：

2.根据权利要求1所述的基于大模型的图片生成方法，其特征在于，所述将第一背景图片和文本描述输入位置预测模型，预测得到第一目标物在所述第一背景图片的目标位置信息，包括：

3.根据权利要求2所述的基于大模型的图片生成方法，其特征在于，所述将所述全局图片特征和所述全局文本特征进行特征对齐和融合，得到第一融合特征，包括：

4.根据权利要求3所述的基于大模型的图片生成方法，其特征在于，所述基于注意力机制，将所述局部图片特征和所述第二局部文本特征进行全局特征对齐，包括：

5.根据权利要求3所述的基于大模型的图片生成方法，其特征在于，所述通过跨模态特征融合组件，将对齐后的所述全局图片特征和所述全局文本特征进行特征融合，得到所述第一融合特征，包括：

6.根据权利要求2所述的基于大模型的图片生成方法，其特征在于，所述对所述第一融合特征进行位置回归，预测得到所述第一目标物在所述第一背景图片的目标位置信息之前，所述方法还包括：

7.根据权利要求6所述的基于大模型的图片生成方法，其特征在于，所述获取所述文本描述中的三元组损失函数，包括：

8.根据权利要求6所述的基于大模型的图片生成方法，其特征在于，所述根据所述关键词置信度和所述三元组损失函数，建立所述位置预测模型的损失函数，包括：

根据第一权重和所述关键词置信度，获取第一损失系数；

根据第二权重和所述三元组损失函数，获取第二损失系数；

9.根据权利要求1所述的基于大模型的图片生成方法，其特征在于，所述将第一背景图片和文本描述输入位置预测模型之前，所述方法还包括：

在数据库中，获取第二背景图片；

10.根据权利要求1所述的基于大模型的图片生成方法，其特征在于，所述根据所述第二目标物的掩码将所述第二目标物从所述目标图片中分割出来，包括：

11.根据权利要求10所述的基于大模型的图片生成方法，其特征在于，所述根据每个所述第二目标物的掩码将每个所述第二目标物从所述目标图片中分割出来，包括：

12.一种基于大模型的图片生成装置，其特征在于，包括：

13.一种基于大模型的图片生成设备，其特征在于，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如权利要求1-11任一项所述的基于大模型的图片生成方法。

14.一种计算机可读存储介质，其上储存有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1-11任意一项所述的基于大模型的图片生成方法的步骤。