CN112966617A

CN112966617A - 摆盘图像的生成方法、图像生成模型的训练方法及装置

Info

Publication number: CN112966617A
Application number: CN202110266639.4A
Authority: CN
Inventors: 张葭琦; 黄君实; 罗玄; 魏晓明
Original assignee: Beijing Sankuai Online Technology Co Ltd
Current assignee: Beijing Sankuai Online Technology Co Ltd
Priority date: 2021-03-11
Filing date: 2021-03-11
Publication date: 2021-06-15
Anticipated expiration: 2041-03-11
Also published as: CN112966617B

Abstract

本申请实施例提供了一种摆盘图像的生成方法、图像生成模型的训练方法及装置，涉及机器学习和图像识别技术领域。所述摆盘图像的生成方法包括：获取目标餐品的原始图像；基于原始图像获取目标餐品的餐品信息，餐品信息用于指示目标餐品的相关特征；基于原始图像和餐品信息，生成目标餐品的摆盘图像。本申请实施例提供的技术方案，使得用户可以根据自动生成的摆盘图像，对目标餐品进行摆盘，相比于对各个餐品手动设计对应的摆盘方案，降低了确定摆盘方案所需的成本。

Description

摆盘图像的生成方法、图像生成模型的训练方法及装置

技术领域

本申请实施例涉及机器学习和图像识别技术领域，特别涉及一种摆盘图像的生成方法、图像生成模型的训练方法及装置。

背景技术

随着网络点餐的发展，摆盘越好看的餐品所获得的关注越多。

在相关技术中，需要相关技术人员按照自身经验，对各个餐品分别手动设计对应的摆盘方案，采用这种方式确定摆盘方案的成本较高。

发明内容

本申请实施例提供了一种摆盘图像的生成方法、图像生成模型的训练方法及装置，能够降低确定摆盘方案的成本。所述技术方案如下：

根据本申请实施例的一个方面，提供了一种摆盘图像的生成方法，所述方法包括：

获取目标餐品的原始图像；

基于所述原始图像获取所述目标餐品的餐品信息，所述餐品信息用于指示所述目标餐品的相关特征；

基于所述原始图像和所述餐品信息，生成所述目标餐品的摆盘图像。

根据本申请实施例的一个方面，提供了一种图像生成模型的训练方法，所述方法包括：

获取样本餐品图像以及所述样本餐品图像对应的餐品信息，所述餐品信息用于指示所述样本餐品图像中包含的样本餐品的相关特征；

获取所述样本餐品的参考摆盘图像；

通过图像生成模型基于所述样本餐品图像和所述餐品信息，生成预测摆盘图像；

基于所述样本餐品图像、所述参考摆盘图像、以及所述预测摆盘图像，确定所述图像生成模型的损失；

基于所述图像生成模型的损失，调整所述图像生成模型的参数。

根据本申请实施例的一个方面，提供了一种摆盘图像的生成装置，所述装置包括：

图像获取模块，用于获取目标餐品的原始图像；

信息获取模块，用于基于所述原始图像获取所述目标餐品的餐品信息，所述餐品信息用于指示所述目标餐品的相关特征；

图像生成模块，用于基于所述原始图像和所述餐品信息，生成所述目标餐品的摆盘图像。

根据本申请实施例的一个方面，提供了一种图像生成模型的训练装置，所述装置包括：

信息获取模块，用于获取样本餐品图像以及所述样本餐品图像对应的餐品信息，所述餐品信息用于指示所述样本餐品图像中包含的样本餐品的相关特征；

图像获取模块，用于获取所述样本餐品的参考摆盘图像；

图像生成模块，用于通过图像生成模型基于所述样本餐品图像和所述餐品信息，生成预测摆盘图像；

损失确定模块，用于基于所述样本餐品图像、所述参考摆盘图像、以及所述预测摆盘图像，确定所述图像生成模型的损失；

参数调整模块，用于基于所述图像生成模型的损失，调整所述图像生成模型的参数。

根据本申请实施例的一个方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机程序，所述计算机程序由所述处理器加载并执行以实现上述摆盘图像的生成方法，或实现上述图像生成模型的训练方法。

根据本申请实施例的一个方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序由处理器加载并执行以实现上述摆盘图像的生成方法，或实现上述图像生成模型的训练方法。

根据本申请实施例的一个方面，提供了一种计算机程序产品，所述计算机程序产品由处理器加载并执行以实现上述摆盘图像的生成方法，或实现上述图像生成模型的训练方法。

本申请实施例提供的技术方案可以包括如下有益效果：

通过获取目标餐品的原始图像，并基于该原始图像和目标餐品的餐品信息，生成目标餐品的摆盘图像，从而使得用户可以根据自动生成的摆盘图像，对目标餐品进行摆盘，相比于对各个餐品手动设计对应的摆盘方案，降低了确定摆盘方案所需的成本。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个实施例提供的实施环境的示意图；

图2是本申请一个实施例提供的摆盘图像的生成方法的流程图；

图3是本申请另一个实施例提供的摆盘图像的生成方法的流程图；

图4是本申请一个实施例提供的对图像进行预处理的示意图；

图5是本申请一个实施例提供的对餐品图像进行图像识别的示意图；

图6是本申请一个实施例提供的知识图谱的示意图；

图7是本申请一个实施例提供的图像生成模型的训练方法的流程图；

图8是本申请一个实施例提供的图像生成模型的训练方法的示意图；

图9是本申请另一个实施例提供的摆盘图像的生成方法的流程图；

图10是本申请一个实施例提供的摆盘图像的生成装置的框图；

图11是本申请另一个实施例提供的摆盘图像的生成装置的框图；

图12是本申请一个实施例提供的图像生成模型的训练装置的框图；

图13是本申请另一个实施例提供的图像生成模型的训练装置的框图；

图14是本申请一个实施例提供的计算机设备的框图；

图15是本申请一个实施例提供的终端的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的方法的例子。

请参考图1，其示出了本申请一个实施例提供的实施环境的示意图。该实施环境可以实现为摆盘图像的生成系统，该系统10包括：第一终端11和第二终端12。

第一终端11用于生成目标餐品的摆盘图像。可选地，第一终端11中运行有目标应用程序，如目标应用程序的客户端。该目标应用程序可以是生活服务类应用程序、点评类应用程序、出行类应用程序、购物类应用程序、社交类应用程序、支付类应用程序、视频类应用程序、音乐类应用程序、新闻类应用程序等任何具有生成摆盘图像功能的应用程序。第二终端12用于训练图像生成模型。其中，终端是指具备数据计算、处理和存储能力的电子设备，终端可以是诸如智能手机、平板电脑、PC(Personal Computer，个人计算机)、可穿戴设备、智能机器人等等。

在一些实施例中，该系统10还包括服务器13，服务器13与第一终端11建立有通信连接(如网络连接)，服务器13用于为目标应用程序提供后台服务。其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。本申请实施例提供的摆盘图像的生成方法，各步骤的执行主体可以为第一终端11；也可以由第一终端11和服务器13交替执行。

下面，通过几个实施例对本申请技术方案进行介绍说明。

请参考图2，其示出了本申请一个实施例提供的摆盘图像的生成方法的流程图。在本实施例中，主要以该方法应用于上文介绍的客户端中来举例说明。该方法可以包括如下几个步骤(201～203)：

步骤201，获取目标餐品的原始图像。

在一些实施例中，原始图像可以是用户拍摄并上传的图像，也可以是从互联网中获取的图像，还可以是其他终端发送至客户端所在终端的图像，本申请实施例对此不作具体限定。目标餐品是指可食用的物品。在一些实施例中，目标餐品可以是菜品(如红烧肉、佛跳墙、炸鸡翅等)、甜品点心(如蛋糕、布丁、蛋黄酥、桃酥等)、饮品(如奶茶、鸡尾酒、果汁、咖啡等)、零食(如辣条、薯片、坚果)、果盘等等。可选地，目标餐品还可以是其他类型的餐品，本申请实施例对此不作具体限定。

在一些实施例中，获取目标餐品的一个或多个原始图像。多个原始图像可以是从目标餐品的不同角度和距离拍摄的图像。在另一些实施例中，原始图像还可以是针对目标餐品拍摄的原始视频。

步骤202，基于原始图像获取目标餐品的餐品信息，餐品信息用于指示目标餐品的相关特征。

通过对原始图像进行分析识别，可以获取原始图像中包含的目标餐品对应的餐品信息。餐品信息可以包括从原始图像中直接得到的目标餐品的相关特征；也可以包括基于从原始图像中直接得到的目标餐品的相关特征，进一步获取的目标餐品的相关特征。

步骤203，基于原始图像和餐品信息，生成目标餐品的摆盘图像。

在一些实施例中，获取餐品信息之后，基于原始图像和餐品信息，可以生成目标餐品的摆盘图像。

在一些实施例中，目标餐品对应的摆盘图像，用于指示目标餐品的预测摆盘方案。该步骤203还包括如下子步骤：

1、基于餐品信息，生成目标餐品的预测摆盘方案，预测摆盘方案包括以下至少一项：目标餐品的食材预测摆放方案、目标餐品的餐具搭配预测方案、目标餐品的装饰物搭配预测方案；

2、按照预测摆盘方案，生成目标餐品的摆盘图像。

可选地，基于原始图像和餐品信息，能够得到目标餐品对应的预测摆盘方案，然后按照预测摆盘方案，生成目标餐品的摆盘图像。

在一些实施例中，目标餐品的食材预测摆放方案，是指目标餐品中包含的各种食材的摆放位置、摆放方式和摆放数量。例如，对于拌面，可以将面条放置在深碗中，拌面所用的拌料全部放置在面条上方的中心位置，搭配拌面的鸡蛋可以对半切开，然后切面朝上放置在面条上；又例如，对于条状的糖糍粑，可以将6～12个糖糍粑，以宝塔状摞放在白色瓷盘中；又例如，对于条状的寿司，可以将3～6个寿司斜放在长条形的餐具中，相邻两个寿司之间的距离相等。

在一些实施例中，目标餐品的餐具搭配预测方案，是指根据目标餐品的类型和尺寸，确定餐具的类型和尺寸。例如，对于固态的甜品点心，可以放置在深度较浅的盘子中；对于份量较大的汤类餐品，可以盛放在开口较大的深碗中；对于份量较少的汤类餐品，可以盛放在小盅里。

在一些实施例中，目标餐品的装饰物搭配预测方案，是指根据目标餐品的食材、外形等信息，确定对应的装饰物。例如，对于桂花糕，可以在桂花糕旁撒一些桂花；对于装在玻璃杯中的饮品，可以在玻璃杯中插上一只吸管，并在玻璃杯的边缘竖着放置一片柠檬片。

综上所述，本申请实施例提供的技术方案中，通过获取目标餐品的原始图像，并基于该原始图像和目标餐品的餐品信息，生成目标餐品的摆盘图像，从而使得用户可以根据自动生成的摆盘图像，对目标餐品进行摆盘，相比于对各个餐品手动设计对应的摆盘方案，降低了确定摆盘方案所需的成本。

请参考图3，其示出了本申请另一个实施例提供的摆盘图像的生成方法的流程图。在本实施例中，主要以该方法应用于上文介绍的客户端中来举例说明。

该方法可以包括如下几个步骤(301～306)：

步骤301，获取目标餐品的原始图像。

本步骤301与上述图2实施例中的步骤201的内容相同或相似，此处不再赘述。

步骤302，对原始图像进行图像识别处理，得到目标餐品的图像特征信息。

在一些实施例中，基于图像识别技术对原始图像进行图像识别处理，从而识别出原始图像中包含的目标餐品的图像特征信息。

在一些实施例中，该步骤302还包括如下子步骤：

1、对原始图像进行预处理，得到预处理后的原始图像；其中，预处理包括裁剪处理和/或去噪处理；

2、对预处理后的原始图像进行食材识别处理，得到预处理后的原始图像中包含的食材信息；

3、对预处理后的原始图像进行名称识别处理，得到目标餐品的餐品名称。

可选地，目标餐品的图像特征信息包括餐品名称和食材信息。

在该实现方式中，通过裁剪和/或去噪，对原始图像进行预处理，预处理后的原始图像减少了图像识别的干扰元素，能够提升图像的识别准确率。在一个示例中，如图4所示，通过裁剪处理，去掉原始图像41的边缘与目标餐品42无关的图像区域，得到裁剪后的图像43，提升了目标餐品42在图像中所占的面积比；在另一个示例中，通过去噪处理，去掉裁剪后的原始图像中的干扰元素，得到预处理后的原始图像。其中，干扰元素可以是拍摄原始图像时产生的图像噪点，可以是不应在目标餐品中出现的调料(如卤牛肉上的花椒粒)或食材废料(如西红柿炒鸡蛋里的鸡蛋壳)，还可以是餐具上影响图像识别的花纹、图形、文字、符号等等。在另一些可选的实施例中，去噪处理也可以在裁剪处理之前进行，本申请实施例对原始图像的各个预处理步骤的先后顺序不作具体限定。

在一些实施例中，对预处理后的原始餐品图像中的目标餐品所展示的食材进行识别，根据食材的外形和颜色，确定预处理后的原始图像中包含的食材信息。可选地，食材信息用于指示目标餐品中包含的食材名称、食材的用量、食材在目标餐品中的形状等等。

在一些实施例中，通过图像识别确定预处理后的原始图像中，目标餐品所在的图像区域，对目标餐品的外形和食材颜色进行识别，得到目标餐品的餐品名称。在另一些实施例中，结合食材信息和目标餐品的外形和食材颜色，得到目标餐品的餐品名称。

在一个示例中，如图5所示，通过对餐品图像51进行食材识别处理，得到餐品图像51中的食材信息52；通过对餐品图像51进行名称识别处理，得到餐品图像51中的餐品名称53。

在另一些可选的实施例中，通过识别预处理后的原始图像得到餐品名称之后，结合餐品名称，对预处理后的原始图像进行食材识别处理，得到目标餐品的食材信息。将餐品名称和食材信息结合，得到图像特征信息。

步骤303，基于图像特征信息，从知识图谱中获取目标餐品的扩展特征信息。

可选地，基于图像特征信息，通过知识图谱进行搜索，得到知识图谱中记录的与图像特征信息相关性较大的信息，即目标餐品的扩展特征信息。

在一些实施例中，如图6所示，该步骤303还包括如下子步骤：

1、在知识图谱61中搜索与图像特征信息62之间的匹配度大于阈值的匹配餐品信息63；

2、基于匹配餐品信息63，确定目标餐品在知识图谱中的餐品名称64；

3、将与目标餐品在知识图谱中的餐品名称64关联的信息65，确定为目标餐品的扩展特征信息。

在该实现方式中，将知识图谱中的信息与图像特征信息进行匹配比较，在知识图谱中搜索与图像特征信息之间的匹配度大于阈值的匹配餐品信息之后，获取知识图谱中，与匹配餐品信息的关联度最高的餐品名称，即为目标餐品在知识图谱中的餐品名称。之后，获取与目标餐品在知识图谱中的餐品名称关联的信息，得到目标餐品的扩展特征信息。

可选地，在知识图谱中未搜索到匹配餐品信息的情况下，将图像特征信息添加到知识图谱中，从而扩充知识图谱。

步骤304，基于图像特征信息和扩展特征信息，得到餐品信息。

在一些实施例中，将图像特征信息与扩展特征信息结合，得到餐品信息。可选地，将图像特征信息与扩展特征信息中，相同或相似的信息进行去重处理，避免餐品信息过于冗余，减少餐品信息所需的存储资源。例如，若图像信息中目标餐品的餐品名称，与目标餐品在知识图谱中的餐品名称相同或相近(如西红柿炒鸡蛋和番茄炒鸡蛋)，则只在餐品信息中保留其中一个餐品名称。在另一些实施例中，将扩展特征信息确定为餐品信息。

步骤305，获取餐品信息对应的文本特征向量。

在一些实施例中，通过词向量映射将餐品信息的文本向量化，得到餐品信息对应的文本特征向量。

在一些实施例中，该步骤305还包括如下子步骤：

1、基于知识图谱获取嵌入词表；

2、从嵌入词表中查询得到餐品信息对应的文本特征向量。

可选地，当餐品信息为扩展特征信息，知识图谱有对应的嵌入词表，嵌入词表记录有知识图谱中的每个信息对应的文本特征向量，按照餐品信息查询嵌入词表，即可得到餐品信息对应的文本特征向量。

步骤306，通过图像生成模型对餐品信息对应的文本特征向量和原始图像进行处理，生成目标餐品的摆盘图像。

可选地，将餐品信息对应的文本特征向量和原始图像输入训练完成的图像生成模型中，采用图像生成模型先将原始图像向量化，得到原始图像的图像特征向量，再对图像特征向量与文本特征向量进行处理，生成目标餐品的摆盘图像。

在一些实施例中，该步骤306还包括如下子步骤：

1、通过图像生成模型将原始图像变换为图像特征向量；

2、将图像特征向量与文本特征向量进行融合，得到融合特征向量；

3、对融合特征向量进行编解码处理，生成目标餐品的摆盘图像。

在该实现方式中，图像生成模型的多个卷积层将原始图像变换为图像特征向量；将图像特征向量与文本特征向量进行拼接，得到融合特征向量；融合特征向量先通过至少一个卷积层进行编码，再通过至少一个反卷积层解码得到目标餐品的摆盘图像。

综上所述，本申请实施例提供的技术方案中，通过对原始图像进行预处理，能够减少原始图像中的干扰元素，进而提升图像识别的准确率。

请参考图7和图8，图7示出了本申请一个实施例提供的图像生成模型的训练方法的流程图，图8示出了本申请一个实施例提供的图像生成模型的训练方法的示意图。在本实施例中，主要以该方法应用于上文介绍的计算机设备中来举例说明。该方法可以包括如下几个步骤(701～705)：

步骤701，获取样本餐品图像81以及样本餐品图像对应的餐品信息82。

其中，餐品信息用于指示样本餐品图像81中包含的样本餐品的相关特征。可选地，采用多个样本餐品图像81以及多个样本餐品图像81分别对应的餐品信息82训练图像生成模型83。

关于样本餐品的介绍，可以参考上述图2实施例的步骤201对目标餐品的介绍，此处不再赘述。

步骤702，获取样本餐品的参考摆盘图像84。

在一些实施例中，参考摆盘图像84为样本餐品摆盘较为精美的摆盘图像。在一个示例中，参考摆盘图像84为相关技术人员针对样本餐品人工设计的摆盘图像；在另一个示例中，参考摆盘图像84为通过互联网、食谱书、杂志报刊等渠道获取的摆盘图像。

步骤703，通过图像生成模型83基于样本餐品图像81和餐品信息82，生成预测摆盘图像85。

可选地，通过待训练的图像生成模型83，基于原本餐品图像和餐品信息82，生成针对样本餐品的预测摆盘图像85。

在一些实施例中，该步骤703还包括如下子步骤：

1、对于样本餐品图像81，采用图像生成模型83，将样本餐品图像81变换为图像特征向量；

2、将图像特征向量，与样本餐品图像81对应的文本特征向量87融合，得到融合后的特征向量；

3、将融合后的特征向量进行反变换，生成预测摆盘图像85。

在该实现方式中，图像生成模型83的多个卷积层将样本餐品图像81变换为样本餐品图像81对应的图像特征向量；将该图像特征向量与样本餐品图像81对应的文本特征向量87进行拼接，得到融合特征向量；融合特征向量先通过至少一个卷积层进行编码，再通过至少一个反卷积层解码得到样本餐品的预测摆盘图像85。

步骤704，基于样本餐品图像81、参考摆盘图像84、以及预测摆盘图像85，确定图像生成模型83的损失。

在一些实施例中，获取预测摆盘图像85之后，结合样本餐品图像81和参考摆盘图像84，能够确定图像生成模型83的损失。

在一些实施例中，该步骤404还包括如下子步骤：

1、采用判别模型86对预测摆盘图像85进行判别，确定第一子损失。

可选地，判别模型86用于判别输入的摆盘图像为预测摆盘图像85还是参考摆盘图像84，第一子损失用于指示预测摆盘图像85对判别模型86的判别能力的干扰程度。在一些实施例中，判别模型86的判别结果(即输出)为0和1，当判别模型86判别结果为0时，表示判别模型86认为输入的摆盘图像为预测摆盘图像85；当判别模型86判别结果为1时，表示判别模型86认为输入的摆盘图像为参考摆盘图像84。

在一些实施例中，将样本餐品图像81以及预测摆盘图像85输入判别模型86，得到预测摆盘图像85的判别结果，预测摆盘图像85的判别结果用于指示预测摆盘图像85，与餐品信息82的符合程度；基于预测摆盘图像85的判别结果，确定第一子损失。

在一些实施例中，基于判别模型86对预测摆盘图像85的判别结果(即预测摆盘图像85对判别模型86的判别能力的干扰程度)，确定第一子损失。

可选地，第一子损失的计算可以参考如下公式一：

公式一：

其中，I表示原始图像，

表示预测摆盘图像85，

表示判别模型86的判别结果，L_CG表示第一子损失。

2、基于预测摆盘图像85以及参考摆盘图像84，确定第二子损失。

可选地，第二子损失用于指示预测摆盘图像85，与参考摆盘图像84在色彩和像素上的相似程度。通过设置第二子损失，使得预测摆盘图像85尽可能与参考摆盘图像84的色彩风格相近。

在一些实施例中，第二子损失的计算可以参考如下公式二：

公式二：

其中，I_gt表示参考摆盘图像84，

表示预测摆盘图像85，L_r表示第二子损失。

3、基于预测摆盘图像85以及参考摆盘图像84，确定第三子损失。

可选地，第三子损失用于指示预测摆盘图像85的图像轮廓，与参考摆盘图像84的图像轮廓之间的相似程度。通过设置第三子损失，使图像生成模型83能够学习参考摆盘图像84的轮廓设计。

在一些实施例中，第三子损失的计算可以参考如下公式三：

公式三：

其中，

表示预测摆盘图像85，I_gt表示参考摆盘图像84，

表示将预测摆盘图像85输入VGG(Very Deep Convolutional Networks，深层卷积神经网络)16网络的激活层得到的输出结果，φ_i(I_gt)表示将参考摆盘图像84输入VGG16网络的激活层得到的输出结果，L_p表示第三子损失。

4、基于预测摆盘图像85以及参考摆盘图像84，确定第四子损失。

可选地，第四子损失用于指示预测摆盘图像85，与对应的参考摆盘图像84在图像风格上的相似程度，从而使得预测摆盘图像85与参考摆盘图像84的风格相近。

在一些实施例中，第四子损失的计算可以参考如下公式四：

公式四：

其中，

表示

的Gram矩阵(格拉姆矩阵)，

表示φ_i(I_gt)的Gram矩阵，L_s表示第四子损失。

5、基于第一子损失、第二子损失、第三子损失和第四子损失，确定图像生成模型83的损失。

在一些实施例中，对第一子损失、第二子损失、第三子损失和第四子损失中的至少一项进行求和或加权求和，得到图像生成模型83的损失。

步骤705，基于图像生成模型83的损失，调整图像生成模型83的参数。

在一些实施例中，当图像生成模型83的损失不满足条件时，基于图像生成模型83的损失，调整图像生成模型83的参数；然后针对图像生成模型83进行下一轮的训练，不断循环，直到达到训练停止条件。训练停止条件可以为最近的n个图像生成模型83的损失均小于或等于损失阈值，可以为最近的m个图像生成模型83的损失。

其中，n、m为正整数，n、m和损失阈值的具体取值由相关技术人员根据实际情况进行设定，本申请实施例对此不作具体限定。

综上所述，本申请实施例提供的技术方案中，基于样本餐品图像81、参考摆盘图像84、以及预测摆盘图像85，确定图像生成模型83的损失，基于图像生成模型83的损失调整图像生成模型83的参数，使得图像生成模型83能够生成较好的预测摆盘图像85，从而实现自动化地生成各种餐品的摆盘图像，降低了确定摆盘方案所需的成本。

请参考图9，其示出了本申请另一个实施例提供的摆盘图像的生成方法的流程图。该方法可以包括如下几个步骤(901～906)：

步骤901，获取目标餐品的原始图像；

步骤902，基于原始图像确定目标餐品的名称和目标餐品中包含的食材；

步骤903，基于目标餐品的名称和目标餐品中包含的食材，从知识图谱中获取目标餐品的扩展特征信息；

步骤904，基于目标餐品的扩展特征信息，获取餐品信息对应的文本特征向量；

步骤905，基于餐品信息对应的文本特征向量和原始图像，生成目标餐品的摆盘图像；

步骤906，显示目标餐品的摆盘图像。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

请参考图10，其示出了本申请一个实施例提供的摆盘图像的生成装置的框图。该装置具有实现上述摆盘图像的生成方法示例的功能，所述功能可以由硬件实现，也可以由硬件执行相应的软件实现。该装置可以是上文介绍的终端，也可以设置在终端上。该装置1000可以包括：图像获取模块1010、信息获取模块1020和图像生成模块1030。

所述图像获取模块1010，用于获取目标餐品的原始图像。

所述信息获取模块1020，用于基于所述原始图像获取所述目标餐品的餐品信息，所述餐品信息用于指示所述目标餐品的相关特征。

所述图像生成模块1030，用于基于所述原始图像和所述餐品信息，生成所述目标餐品的摆盘图像。

在示例性实施例中，如图11所示，所述信息获取模块1020，包括：信息获取子模块1021。

信息获取子模块1021，用于对所述原始图像进行图像识别处理，得到所述目标餐品的图像特征信息；

所述信息获取子模块1021，还用于基于所述图像特征信息，从知识图谱中获取所述目标餐品的扩展特征信息；

所述信息获取子模块1021，还用于基于所述图像特征信息和所述扩展特征信息，得到所述餐品信息。

在示例性实施例中，如图11所示，所述信息获取子模块1021，用于：

在所述知识图谱中搜索与所述图像特征信息之间的匹配度大于阈值的匹配餐品信息；

基于所述匹配餐品信息，确定所述目标餐品在所述知识图谱中的餐品名称；

将与所述目标餐品在所述知识图谱中的餐品名称关联的信息，确定为所述目标餐品的扩展特征信息。

在示例性实施例中，如图11所示，所述装置1000还包括：信息添加模块1040。

所述信息添加模块1040，用于在所述知识图谱中未搜索到所述匹配餐品信息的情况下，将所述图像特征信息添加到所述知识图谱中。

对所述原始图像进行预处理，得到预处理后的原始图像；其中，所述预处理包括裁剪处理和/或去噪处理；

对所述预处理后的原始图像进行名称识别处理，得到所述目标餐品的餐品名称；

对所述预处理后的原始图像进行食材识别处理，得到所述预处理后的原始图像中包含的食材信息；

其中，所述目标餐品的图像特征信息包括所述餐品名称和所述食材信息。

在示例性实施例中，如图11所示，所述图像生成模块1030，包括：向量获取子模块1031和图像生成子模块1032。

所述向量获取子模块1031，用于获取所述餐品信息对应的文本特征向量；

所述图像生成子模块1032，用于通过图像生成模型对所述餐品信息对应的文本特征向量和所述原始图像进行处理，生成所述目标餐品的摆盘图像。

在示例性实施例中，如图11所示，所述图像生成子模块1032，用于：

通过所述图像生成模型将所述原始图像变换为图像特征向量；

将所述图像特征向量与所述文本特征向量进行融合，得到融合特征向量；

对所述融合特征向量进行编解码处理，生成所述目标餐品的摆盘图像。

在示例性实施例中，如图11所示，所述向量获取子模块1031，用于：

基于知识图谱获取嵌入词表；

从所述嵌入词表中查询得到所述餐品信息对应的所述文本特征向量。

在示例性实施例中，所述目标餐品对应的预测摆盘图像，用于指示所述目标餐品的预测摆盘方案。如图11所示，所述图像生成模块1030，用于：

基于所述餐品信息，生成所述目标餐品的预测摆盘方案，所述预测摆盘方案包括以下至少一项：所述目标餐品的食材预测摆放方案、所述目标餐品的餐具搭配预测方案、所述目标餐品的装饰物搭配预测方案；

按照所述预测摆盘方案，生成所述目标餐品的摆盘图像。

请参考图12，其示出了本申请一个实施例提供的图像生成模型的训练装置的框图。该装置具有实现上述摆盘图像的生成方法示例的功能，所述功能可以由硬件实现，也可以由硬件执行相应的软件实现。该装置1200可以包括：信息获取模块1210、图像获取模块1220、图像生成模块1230、损失确定模块1240和参数调整模块1250。

所述信息获取模块1210，用于获取样本餐品图像以及所述样本餐品图像对应的餐品信息，所述餐品信息用于指示所述样本餐品图像中包含的样本餐品的相关特征。

所述图像获取模块1220，用于获取所述样本餐品的参考摆盘图像。

所述图像生成模块1230，用于通过图像生成模型基于所述样本餐品图像和所述餐品信息，生成预测摆盘图像。

所述损失确定模块1240，用于基于所述样本餐品图像、所述参考摆盘图像、以及所述预测摆盘图像，确定所述图像生成模型的损失。

所述参数调整模块1250，用于基于所述图像生成模型的损失，调整所述图像生成模型的参数。

综上所述，本申请实施例提供的技术方案中，基于样本餐品图像、参考摆盘图像、以及预测摆盘图像，确定图像生成模型的损失，基于图像生成模型的损失调整图像生成模型的参数，使得图像生成模型能够生成较好的预测摆盘图像，从而实现自动化地生成各种餐品的摆盘图像，降低了确定摆盘方案所需的成本。

在示例性实施例中，所述图像生成模块1230，用于：

对于所述样本餐品图像，采用所述图像生成模型，将所述样本餐品图像变换为所述图像特征向量；

将所述图像特征向量，与所述样本餐品图像对应的文本特征向量融合，得到融合后的特征向量；

将所述融合后的特征向量进行反变换，生成所述预测摆盘图像。

在示例性实施例中，如图13所示，所述损失确定模块1240，包括：损失确定子模块1241。

所述损失确定子模块1241，用于采用判别模型对所述预测摆盘图像进行判别，确定第一子损失，所述判别模型用于判别输入的摆盘图像为预测摆盘图像还是参考摆盘图像，所述第一子损失用于指示所述预测摆盘图像对所述判别模型的判别能力的干扰程度。

所述损失确定子模块1241，还用于基于所述预测摆盘图像以及所述参考摆盘图像，确定第二子损失，所述第二子损失用于指示所述预测摆盘图像，与所述参考摆盘图像在色彩和像素上的相似程度。

所述损失确定子模块1241，还用于基于所述预测摆盘图像以及所述参考摆盘图像，确定第三子损失，所述第三子损失用于指示所述预测摆盘图像的图像轮廓，与所述参考摆盘图像的图像轮廓之间的相似程度。

所述损失确定子模块1241，还用于基于所述预测摆盘图像以及所述参考摆盘图像，确定第四子损失，所述第四子损失用于指示所述预测摆盘图像，与对应的参考摆盘图像在图像风格上的相似程度。

所述损失确定子模块1241，还用于基于所述第一子损失、所述第二子损失、所述第三子损失和所述第四子损失，确定所述图像生成模型的损失。

在示例性实施例中，如图13所示，所述损失确定子模块1241，用于：

将所述样本餐品图像以及所述预测摆盘图像输入所述判别模型，得到所述预测摆盘图像的判别结果，所述预测摆盘图像的判别结果用于指示所述预测摆盘图像，与所述餐品信息的符合程度；

基于所述预测摆盘图像的判别结果，确定所述第一子损失。

需要说明的是，上述实施例提供的装置，在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

请参考图14，其示出了本申请一个实施例提供的计算机设备的结构框图。该计算机设备用于实施上述实施例中提供的摆盘图像的生成方法。具体来讲：

所述计算机设备1400包括CPU(Central Processing Unit，中央处理单元)1401、包括RAM(Random Access Memory，随机存取存储器)1402和ROM(Read-Only Memory，只读存储器)1403的系统存储器1404，以及连接系统存储器1404和中央处理单元1401的系统总线1405。所述计算机设备1400还包括帮助计算机内的各个器件之间传输信息的基本I/O(Input/Output，输入/输出)系统1406，和用于存储操作系统1413、应用程序1414和其他程序模块1415的大容量存储设备1407。

所述基本输入/输出系统1406包括有用于显示信息的显示器1408和用于用户输入信息的诸如鼠标、键盘之类的输入设备1409。其中所述显示器1408和输入设备1409都通过连接到系统总线1405的输入输出控制器1410连接到中央处理单元1401。所述基本输入/输出系统1406还可以包括输入输出控制器1410以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1410还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备1407通过连接到系统总线1405的大容量存储控制器(未示出)连接到中央处理单元1401。所述大容量存储设备1407及其相关联的计算机可读介质为计算机设备1400提供非易失性存储。也就是说，所述大容量存储设备1407可以包括诸如硬盘或者CD-ROM(Compact Disc Read-Only Memory，只读光盘)驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM(Erasable Programmable Read Only Memory，可擦除可编程只读存储器)、EEPROM(Electrically Erasable Programmable Read Only Memory，可擦除可编程只读存储器)、闪存或其他固态存储其技术，CD-ROM、DVD(Digital Video Disc，高密度数字视频光盘)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1404和大容量存储设备1407可以统称为存储器。

根据本申请的各种实施例，所述计算机设备1400还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1400可以通过连接在所述系统总线1405上的网络接口单元1411连接到网络1412，或者说，也可以使用网络接口单元1411来连接到其他类型的网络或远程计算机系统(未示出)。

请参考图15，其示出了本申请一个实施例提供的终端1500的结构框图。该终端1500可以是诸如手机、平板电脑、游戏主机、电子书阅读器、多媒体播放设备、可穿戴设备、PC等电子设备。该终端用于实施上述实施例中提供的图像生成模型的训练方法。具体来讲：

通常，终端1500包括有：处理器1501和存储器1502。

处理器1501可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1501可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(FieldProgrammable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1501也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1501可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1501还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1502可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1502还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1502中的非暂态的计算机可读存储介质用于存储计算机程序，且经配置以由一个或者一个以上处理器执行，以实现上述图像生成模型的训练方法。

在一些实施例中，终端1500还可选包括有：外围设备接口1503和至少一个外围设备。处理器1501、存储器1502和外围设备接口1503之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1503相连。具体地，外围设备包括：射频电路1504、触摸显示屏1505、摄像头1506、音频电路1507、定位组件1508和电源1509中的至少一种。

本领域技术人员可以理解，图15中示出的结构并不构成对终端1500的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在示例性实施例中，还提供了一种计算机可读存储介质，所述存储介质中存储有计算机程序，所述计算机程序在被处理器执行时以实现上述摆盘图像的生成方法。

在示例性实施例中，还提供了一种计算机可读存储介质，所述存储介质中存储有计算机程序，所述计算机程序在被处理器执行时以实现上述图像生成模型的训练方法。

可选地，该计算机可读存储介质可以包括：ROM(Read-Only Memory，只读存储器)、RAM(Random-Access Memory，随机存储器)、SSD(Solid State Drives，固态硬盘)或光盘等。其中，随机存取记忆体可以包括ReRAM(Resistance Random Access Memory，电阻式随机存取记忆体)和DRAM(Dynamic Random Access Memory，动态随机存取存储器)。

在示例性实施例中，还提供了一种计算机程序产品，当该计算机程序产品被处理器执行时，其用于实现上述摆盘图像的生成方法。

在示例性实施例中，还提供了一种计算机程序产品，当该计算机程序产品被处理器执行时，其用于实现上述图像生成模型的训练方法。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

以上所述仅为本申请的示例性实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种摆盘图像的生成方法，其特征在于，所述方法包括：

获取目标餐品的原始图像；

2.根据权利要求1所述的方法，其特征在于，所述基于所述原始图像获取所述目标餐品的餐品信息，包括：

对所述原始图像进行图像识别处理，得到所述目标餐品的图像特征信息；

基于所述图像特征信息，从知识图谱中获取所述目标餐品的扩展特征信息；

基于所述图像特征信息和所述扩展特征信息，得到所述餐品信息。

3.根据权利要求2所述的方法，其特征在于，所述基于所述图像特征信息，从知识图谱中获取所述目标餐品的扩展特征信息，包括：

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

在所述知识图谱中未搜索到所述匹配餐品信息的情况下，将所述图像特征信息添加到所述知识图谱中。

5.根据权利要求2所述的方法，其特征在于，所述对所述原始图像进行图像识别处理，得到所述目标餐品的图像特征信息，包括：

6.根据权利要求1所述的方法，其特征在于，所述基于所述原始图像和所述餐品信息，生成所述目标餐品的摆盘图像，包括：

获取所述餐品信息对应的文本特征向量；

通过图像生成模型对所述餐品信息对应的文本特征向量和所述原始图像进行处理，生成所述目标餐品的摆盘图像。

7.根据权利要求6所述的方法，其特征在于，所述通过图像生成模型对所述餐品信息对应的文本特征向量和所述原始图像进行处理，生成所述目标餐品的摆盘图像，包括：

8.根据权利要求6所述的方法，其特征在于，所述获取所述餐品信息对应的文本特征向量，包括：

基于知识图谱获取嵌入词表；

9.根据权利要求1至8任一项所述的方法，其特征在于，所述目标餐品的摆盘图像，用于指示所述目标餐品的预测摆盘方案；

所述基于所述原始图像和所述餐品信息，生成所述目标餐品的摆盘图像，包括：

基于所述原始图像和所述餐品信息，生成所述目标餐品的预测摆盘方案，所述预测摆盘方案包括以下至少一项：所述目标餐品的食材预测摆放方案、所述目标餐品的餐具搭配预测方案、所述目标餐品的装饰物搭配预测方案；

按照所述预测摆盘方案，生成所述目标餐品的摆盘图像。

10.一种图像生成模型的训练方法，其特征在于，所述方法包括：

获取所述样本餐品的参考摆盘图像；

11.根据权利要求10所述的方法，其特征在于，所述通过图像生成模型基于所述样本餐品图像和所述餐品信息，生成预测摆盘图像，包括：

12.根据权利要求10所述的方法，其特征在于，所述基于所述样本餐品图像、所述参考摆盘图像、以及所述预测摆盘图像，确定所述图像生成模型的损失，包括：

采用判别模型对所述预测摆盘图像进行判别，确定第一子损失，所述判别模型用于判别输入的摆盘图像为预测摆盘图像还是参考摆盘图像，所述第一子损失用于指示所述预测摆盘图像对所述判别模型的判别能力的干扰程度；

基于所述预测摆盘图像以及所述参考摆盘图像，确定第二子损失，所述第二子损失用于指示所述预测摆盘图像，与所述参考摆盘图像在色彩和像素上的相似程度；

基于所述预测摆盘图像以及所述参考摆盘图像，确定第三子损失，所述第三子损失用于指示所述预测摆盘图像的图像轮廓，与所述参考摆盘图像的图像轮廓之间的相似程度；

基于所述预测摆盘图像以及所述参考摆盘图像，确定第四子损失，所述第四子损失用于指示所述预测摆盘图像，与对应的参考摆盘图像在图像风格上的相似程度；

基于所述第一子损失、所述第二子损失、所述第三子损失和所述第四子损失，确定所述图像生成模型的损失。

13.根据权利要求12所述的方法，其特征在于，所述采用判别模型对所述预测摆盘图像进行判别，确定第一子损失，包括：

基于所述预测摆盘图像的判别结果，确定所述第一子损失。

14.一种摆盘图像的生成装置，其特征在于，所述装置包括：

图像获取模块，用于获取目标餐品的原始图像；

15.一种图像生成模型的训练装置，其特征在于，所述装置包括：

图像获取模块，用于获取所述样本餐品的参考摆盘图像；

16.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机程序，所述计算机程序由所述处理器加载并执行以实现如上述权利要求1至9任一项所述的摆盘图像的生成方法，或实现如权利要求10至13任一项所述的图像生成模型的训练方法。

17.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序由处理器加载并执行以实现如上述权利要求1至9任一项所述的摆盘图像的生成方法，或实现如权利要求10至13任一项所述的图像生成模型的训练方法。