CN114972847A

CN114972847A - 图像处理方法及装置

Info

Publication number: CN114972847A
Application number: CN202210493414.7A
Authority: CN
Inventors: 周敏; 许晨晨; 马也; 葛铁铮; 姜宇宁; 许威威
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2022-05-07
Filing date: 2022-05-07
Publication date: 2022-08-30

Abstract

本说明书实施例提供图像处理方法及装置，其中所述图像处理方法包括：接收图像处理请求，并基于所述图像处理请求确定待识别图像；基于图像主体识别规则识别所述待识别图像的主体图像；根据所述待识别图像和所述主体图像获得待处理图像，并将所述待处理图像输入至图像布局模型，获得所述待识别图像对应的图像布局信息。本说明书实施例提供的图像处理方法，通过对待识别图像进行主体识别，得到主体图像，并基于主体图像和待识别图像生成待处理图像，以便图像布局模型可以结合图像的主体信息确定图像布局信息，从而提升图像布局信息的质量。

Description

图像处理方法及装置

技术领域

本说明书实施例涉及计算机技术领域，特别涉及一种图像处理方法。本说明书一个或者多个实施例同时涉及一种图像处理装置，一种计算设备，一种计算机可读存储介质，以及一种计算机程序。

背景技术

随着计算机技术的不断发展，用户可以基于对图像的需求在图像中添加布局元素，从而丰富图像内容；如，在图像中增加标题、产品描述、修饰元素等内容制作成海报、广告页面等等；由于人工设计图像布局的效率较低，故为了提升效率，当前，会存在固定的布局模板，用户可以基于布局模型在图像中增加布局元素，丰富图像内容。

然而，采用上述方法对不同图像都进行相似的布局，容易导致图像布局质量差，影响布局效果的问题出现。

发明内容

有鉴于此，本说明书实施例提供了一种图像处理方法。本说明书一个或者多个实施例同时涉及一种图像处理装置，一种计算设备，一种计算机可读存储介质以及一种计算机程序，以解决现有技术中存在的技术缺陷。

根据本说明书实施例的第一方面，提供了一种图像处理方法，包括：

接收图像处理请求，并基于所述图像处理请求确定待识别图像；

基于图像主体识别规则识别所述待识别图像的主体图像；

根据所述待识别图像和所述主体图像获得待处理图像，并将所述待处理图像输入至图像布局模型，获得所述待识别图像对应的图像布局信息。

根据本说明书实施例的第二方面，提供了一种图像处理装置，包括：

接收模块，被配置为接收图像处理请求，并基于所述图像处理请求确定待识别图像；

识别模块，被配置为基于图像主体识别规则识别所述待识别图像的主体图像；

输入模块，被配置为根据所述待识别图像和所述主体图像获得待处理图像，并将所述待处理图像输入至图像布局模型，获得所述待识别图像对应的图像布局信息。

根据本说明书实施例的第三方面，提供了一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述计算机指令时实现所述图像处理方法的步骤。

根据本说明书实施例的第四方面，提供了一种计算机可读存储介质，其存储有计算机指令，该计算机指令被处理器执行时实现所述图像处理方法的步骤。

根据本说明书实施例的第五方面，提供了一种计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行上述图像处理方法的步骤。

本说明书提供的图像处理方法，接收图像处理请求，并基于所述图像处理请求确定待识别图像；基于图像主体识别规则识别所述待识别图像的主体图像；根据所述待识别图像和所述主体图像获得待处理图像，并将所述待处理图像输入至图像布局模型，获得所述待识别图像对应的图像布局信息。

本说明书一实施例实现了通过对待识别图像进行主体识别，得到主体图像，并基于主体图像和待识别图像生成待处理图像，以便图像布局模型可以结合图像的主体信息确定图像布局信息，从而提升图像布局信息的质量。

附图说明

图1是本说明书一个实施例提供的一种图像处理方法的流程图；

图2是本说明书一个实施例提供的一种图像处理方法的处理过程流程图；

图3是本说明书一个实施例提供的图像布局模型的训练过程示意图；

图4是本说明书一个实施例提供的图像处理的示意图；

图5是本说明书一个实施例提供的一种图像处理装置的结构示意图；

图6是本说明书一个实施例提供的一种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本说明书内涵的情况下做类似推广，因此本说明书不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，对本说明书一个或多个实施例涉及的名词术语进行解释。

CNN：卷积神经网络(convolutional neural network，CNN)，是一种专门用来处理具有类似网格结构的数据的神经网络。卷积网络是指那些至少在网络的一层中使用卷积运算来替代一般的矩阵乘法运算的神经网络。

GAN：生成对抗网络(Generative adversarial networks，GAN)是深度学习领域的一个生成模型，即两个网络(生成器和鉴别器)在同一时间训练并且在极小化极大算法(minimax)中进行竞争。这种对抗方式避免了一些传统生成模型在实际应用中的一些困难，巧妙地通过对抗学习来近似一些不可解的损失函数，在图像、视频、自然语言和音乐等数据的生成方面有着广泛应用。

transformer：一种常见的深度学习模型结构，其采用注意力机制self-attention的网络结构，其中包含了encode(编码器)与decoder(解码器)网络模块。

argmax：argmax是一种函数，用于求解一个数组中最大值的索引值。

主体：主体就是画面中的主要表现对象，它既是画面的内容中心，也是画面的结构中心，还是吸引眼球的视觉中心。主体在画面中出现的形式往往是以一个或一组对象的形式，鲜明的主体，是整幅画面最引人注意的焦点。

在广告精准投放过程中，为达到吸引用户的效果，离不开对商品广告的高品质创意。但业界目前的自动化创意制作方法，都是基于固定模板布局的元素替换或属性更改，常出现遮挡图像主体、视觉融合度不佳等问题。

因此，为了提升布局质量，本方案提出了一种能根据图像主体内容自动生成元素布局的方法。具体的，本方案构建了一个基于内容感知的创意布局生成GAN网络，将多尺度CNN和transformer结合，通过交叉注意力、自注意力机制有效建模布局元素与图像、元素内部的隐含关系；其次，还构建了一个域对齐模块，只需收集广告创意图并进行简单的元素位置、类别标注即可训练，有效解决了该类方法数据收集困难的问题。利用上述方法，可根据图像本身特点生成合理布局，在视觉美观度、创意灵活性上得到有效提升。

在本说明书中，提供了一种图像处理方法，本说明书同时涉及一种图像处理装置，一种计算设备，一种计算机可读存储介质以及一种计算机程序，在下面的实施例中逐一进行详细说明。

图1示出了根据本说明书一个实施例提供的一种图像处理方法的流程图，包括步骤102至步骤106。

步骤102：接收图像处理请求，并基于所述图像处理请求确定待识别图像。

其中，图像处理请求是指对待识别图像进行布局处理的请求，其中，布局处理包括：在图像中添加标题、边框等等；待识别图像是指存在布局需求的图像，例如，存在布局需求的手机图像、存在布局需求的厨具图像等等。

具体的，接收图像处理请求，并对图像处理请求进行解析，获得图像标识；基于图像标识获取图像，作为存在布局处理需求的待识别图像。

例如，接收图像处理请求；对图像处理请求进行解析，获得图像标识“a3”；基于图像标识查询与图像标识对应的裤子图像，并将裤子图像作为待识别图像。

通过接收图像处理请求，并基于图像处理请求确定待识别图像，以便后续对待识别图像做进一步的处理。

步骤104：基于图像主体识别规则识别所述待识别图像的主体图像。

其中，图像主体识别规则是指在待识别图像中识别出主体图像的规则；主体图像是指对待识别图像中的主体进行显著展示的图像，例如，对图像A进行识别，得到对图像A中的裤子进行显著展示的主体图像。

在实际应用中，为了可以对待识别图像进行合理布局，在对待识别图像进行识别之前，可以对待识别图像中的主体进行识别，得到待识别图像对应的主体图像。

具体的，基于图像主体识别规则识别所述待识别图像的主体图像的方法可以包括：

识别所述待识别图像中的主体区域和背景区域；

将所述主体区域中的像素点设置为第一颜色信息，将所述背景区域中的像素点设置为第二颜色信息，获得所述待识别图像的主体图像。

其中，背景区域是指待识别图像中不包含主体的区域；主体区域是指待识别图像中的主体内容所在的区域；例如，在图像A中包含裤子、柜子和绿色背景，对图像A进行识别确定图像A的主体区域图像a中的裤子区域，确定图像A的背景区域为裤子以外的区域，即规则和背景的区域。

像素点是指图像的最小单元；第一颜色信息是指与第二颜色信息不同的像素点对应的颜色信息；第二颜色信息是指与第一颜色信息不同的像素点对应的颜色信息；例如，将图像A中主体区域对应的像素点的颜色信息设置为第一颜色信息：白色，将背景区域对应的像素点的颜色信息设置为第二颜色信息：黑色。

具体的，基于待识别图像的颜色特征、内容面积特征等特征在待识别图像中对背景区域和主体区域进行划分；确定待识别图像的背景区域和主体区域后，确定背景区域对应的像素点，并将背景区域对应的像素点设置为第一颜色信息；确定主体区域对应的像素点，并将主体区域对应的像素点设置为第二颜色信息；通过第一颜色信息的像素点和第二颜色信息的像素点组成待识别图像对应的主体图像。

进一步地，可以预先训练主体识别模型，该主体识别模型用于得到待识别图像对应的主体图像，具体为根据待识别图像的像素点图像占比、像素点颜色占比等特征在待识别图像中确定主体区域；将待识别图像输入至主体识别模型中，由主体识别模型对待识别图像中的背景区域和主体区域进行识别，再对背景区域和主体区域的像素点颜色进行设置，得到主体图像，从而可以获取到主体识别模型针对输入的待识别图像输出的主体图像。

例如，确定图像显著性检测模型U和待识别图像H；将待识别图像H输入至图像显著性模型U中，获取由图像显著性模型U输出的待识别图像H对应的主体图像h；其中，图像显著性模型U对待识别图像H的处理包括，识别待识别图像H中的背景区域和主体区域；将背景区域的像素点设置为黑色，将主体区域的像素点设置为白色，由黑色和白色的像素点组成待识别图像H对应的主体图像。

通过基于图像主体识别规则获得与待识别图像对应的主体图像，以便后续结合待识别图像和主体图像对待识别图像进行布局处理。

步骤106：根据所述待识别图像和所述主体图像获得待处理图像，并将所述待处理图像输入至图像布局模型，获得所述待识别图像对应的图像布局信息。

其中，待处理图像是指用于输入图像布局模型的图像；图像布局模型是指可以基于输入的待处理图像输出图像布局信息的模型；图像布局信息是指可以布局在待识别图像中的布局元素的分类、位置等信息，布局元素是指可以在待识别图像中添加的元素，如，大标题、小标题等等；例如，图像A对应的图像布局信息为在图像A右上角添加大标题，即右上角表示布局元素的分类信息，大标题表示布局元素的位置信息。

在实际应用中，所述根据待识别图像和所述主体图像获得待处理图像的方法可以包括：

获取所述待识别图像中每个像素点的三原色信息和所述主体图像中每个像素点的主体颜色信息，其中，所述主体颜色信息包括第一颜色信息或第二颜色信息；

基于每个像素点的三原色信息和主体颜色信息生成每个像素点的像素颜色信息；

根据每个像素点的像素颜色信息获得所述待处理图像。

其中，三原色信息是指像素点的颜色属性值，例如，像素点a的三原色信息为RGB(255,192，203)，该像素点显示时的颜色为粉红色；主体颜色信息是指主体图像中像素点的颜色属性值，主体颜色信息包括第一颜色信息和第二颜色信息；像素颜色信息是指待处理图像的像素点对应的颜色属性值。

具体的，确定待识别图像的像素点的三原色信息和主体图像的像素点的主体颜色信息后；根据每个像素点的三原色信息和每个主体颜色信息进行拼接，得到每个像素点对应的像素颜色信息；基于每个像素点对应的像素颜色信息生成待处理图像。

例如，确定待识别图像A1和待识别图像A1对应的主体图像A2；确定待识别图像A1中每个像素点的三原色信息，以及主体图像中每个像素点的主体颜色信息，具体的，确定待识别图像A1中的像素点a1以及主体图像中的像素点b1，其中，a1和b1为处于相同位置的像素点；将像素点a1的三原色信息与像素点b1的主体颜色信息进行拼接，获得像素颜色信息；同理，可以对相同位置的像素点进行拼接，最终根据每个像素点对应的像素颜色信息生成待处理图像。

通过根据待识别图像和主体图像获得待处理图像，以便后续基于待处理图像确定待识别图像对应的图像布局信息。

在确定待处理图像后，可以将待处理图像输入至图像布局模型中，其中，图像布局模型中包含特征提取器、编码器和解码器。

其中，特征提取器是指可以在待处理图像中提取图像特征的模型，如CNN模型；编码器是指图像布局模型的编码层，用于对图像特征做进一步的细化，例如，编码器为transformer模型中的编码层；解码器是指图像布局模型的解码层，用于确定图像元素之间的关系，例如，解码器为transformer模型中的解码层。

具体的，将所述待处理图像输入至图像布局模型，获得所述待识别图像对应的图像布局信息的方法可以包括：

将所述待处理图像输入至所述特征提取器做特征提取处理，获得所述待处理图像对应的图像特征；

将所述图像特征输入至所述编码器做编码处理，获得图像编码矩阵；

将所述图像编码矩阵输入至所述解码器做解码处理，获得图像解码矩阵；

将所述图像解码矩阵做归一化处理，获得所述图像解码矩阵对应的图像布局信息。

其中，图像特征是指图像颜色特征、图像纹理特征、图像形状特征等等；图像编码矩阵是指由编码器输出的数据矩阵；图像解码矩阵是指由解码器输出的数据矩阵；归一化处理是指将提取到的图像特征进行组合，如，将图像解码矩阵输入至全连接层进行数据特征的拼接。

具体的，使用图像布局模型中的特征提取器对待处理图像中的图像特征进行提取；将提取出的图像特征输入至编码器，并获取编码器输出的图像编码矩阵；将图像编码矩阵输入至解码器，并获取解码器输出的图像解码矩阵；对图像解码矩阵做归一化处理，即将图像编码矩阵输入至全连接层得到图像布局信息。

进一步地，可以多尺度获取待处理图像，为了保证图像特征的丰富度；具体的，将所述待处理图像输入至所述特征提取器做特征提取处理，获得所述待处理图像对应的图像特征的方法包括：

将所述待处理图像输入至所述特征提取器做上采样特征提取处理，获得所述待处理图像对应的多尺度图像特征；

融合所述多尺度图像特征，获得所述待识别图像对应的图像特征。

其中，上采样特征提取处理是指在待处理图像中以上采样的方式提取图像特征；多尺度图像特征是指特征提取器上采样提取出的图像特征；对采集到的多尺度图像特征进行融合，获得待识别图像的图像特征。此外，还可以将待处理图像输入至特征提取器，获得图像特征后，采用上采样的方式进行特征融合，本说明书不做具体限定。

进一步地，除了获得由图像布局模型输出的图像布局信息之外，还可以结合用户的布局需求对待识别图像进行布局，具体方法可以包括：

获取用户布局需求信息；

将所述用户布局需求信息和所述待处理图像输入至图像布局模型，获得所述待识别图像对应的图像布局信息。

其中，用户布局需求是指对待处理图像进行布局的需求信息，如，用户布局需求信息为在图像上布局小标题、在图像上添加产品名称等等。

在本说明书一具体实施例中，将待处理图像G输入至图像布局模型中；获取图像布局模型基于待处理图像G输出的图像布局信息A，其中，图像布局信息A中包含：在待处理图像G的右上角添加产品题目，在待处理图像的下方添加小标题。

在本说明书又一实施例中，获取到针对待处理图像G的用户布局需求，则将待处理图像G和用户布局需求输入至图像布局模型，其中，用户布局需求为在图像中添加联系方式的图像内容；获取图像布局模型输出的图像布局信息B，其中，图像布局信息B中包含：在待处理图像G中的右上角添加产品题目、在待处理图像G的下方添加小标题和在待处理图像G的左上角添加联系方式。

本说明书中获取用户布局需求信息，再基于用户布局需求信息获取图像布局信息，从而得到符合用户布局需求并且布局合理的图像布局信息，在考虑用户需求的基础上进一步对的图像布局信息进行了完善，进而提升了后续对图像进行布局时的合理性。

基于待处理图像得到图像布局信息，结合了待识别图像中的主体位置信息，使得图像布局信息更为合理，避免了图像布局信息对待识别图像中的主体区域的遮挡，造成视觉不平衡的问题，提升了图像布局信息的质量。

为了得到可以基于输入的待处理图像输出对应的图像布局信息的图像布局模型，可以采用以下方式对图像布局模型进行训练：

具体的，上述图像布局模型可以基于如下步骤训练获得：

获取创意图像，其中，所述创意图像包括实际布局信息；

基于所述创意图像获得创意原图像和创意主体图像，并基于所述创意原图像和所述创意主体图像获得待处理训练图像；

将所述待处理训练图像输入至图像布局模型，获得所述图像布局模型输出的预测布局信息；

基于所述预测布局信息和所述实际布局信息计算模型损失值；

根据所述模型损失值调整所述图像布局模型的模型参数，并继续训练，直至达到模型训练停止条件。

其中，创意图像是指已经完成布局的图像，例如，原图为一张杯子图像，创意图为设计师在杯子图像中增加标题、边框等内容得到创意图；实际布局信息是指在创意图中包含的布局元素的位置、布局元素的分类等布局元素的属性信息；在实际应用中，一般无法直接获取到创意图和对应的原图，故本说明书的方法通过获取创意图像，并对创意图像中的布局元素进行识别，得到创意图像对应的实际布局信息；创意原图像是指未经过布局元素进行布局的图像，即创意图像对应的原图像，例如，创意图像为包含边框、标题等布局元素的演唱会海报，创意原图像是仅包含歌手形象的图像。

创意主图像是指对创意原图像进行主体识别得到的图像；具体的，为了使图像布局模型可以输出不遮挡图像主体的图像布局信息，故在图像布局模型训练的过程中，需要将包含主体位置信息的创意主体图像，用于生成训练图像布局模型的待处理训练图像。

待处理训练图像是指用于训练图像布局模型的图像；将待处理训练图像输入至图像布局模型中，得到由模型输出的预测布局信息；基于预设损失值函数、预测布局信息和实际布局信息计算损失值，并基于损失值对图像布局模型中的模型参数进行不断调整，直至接收到停止训练任务或模型达到训练停止条件，则停止对图像布局模型的训练。

在实际应用中，上述基于创意图像获得创意原图像和创意主体图像的具体方法包括：

基于所述创意图像获得创意原图像；

根据所述创意原图像获得创意主体图像。

具体的，基于所述创意图像获得创意原图像的方法可以包括：

获取创意图像，并确定所述创意图像中的实际布局信息，其中，所述实际布局信息是对所述创意图像进行标注获得；

根据所述实际布局信息对所述创意图像进行遮挡，获得遮挡创意图像；

将所述遮挡创意图像输入至图像修复模型，获得所述创意图像对应的创意原图像。

其中，遮挡创意图像是指对创意图像中的布局元素进行遮挡得到图像；图像修复模型是指预先训练完成的可以对包含遮挡区域的图像进行恢复的模型；在实际应用中，由于较难直接获取到创意图像对应的创意原图像，故可以基于实际布局信息对创意图像中的布局元素进行遮挡，得到遮挡创意图像；将遮挡创意图像输入至图像修复模型中，并获取由图像修复模型输出的创意原图像，即对遮挡创意图像中的遮挡部分进行修复，得到创意原图像。

具体的，基于所述创意原图像获得创意主体图像的方法可以包括：

识别所述创意原图像中的主体区域和背景区域；

将所述主体区域中的像素点设置为第一颜色信息，将所述背景区域中的像素点设置为第二颜色信息，获得创意主体图像。

其中，主体区域是指创意原图像中显著的区域，如，创意原图像中占据面积比例较大的主体对应的区域、创意原图像中占据颜色比例较大的主体对应的区域等等，也可能是上述一种或多种区域进行组合确定的，本说明书不做具体限定；背景区域是指创意原图像中非显著的区域，如，创意原图像中的占据面积比例较小的图像内容对应的区域。例如，创意原图像为汽车图像，在汽车图像中占据较大面积的汽车，剩余部分为道路和天空；通过识别确定汽车对应的区域为主体区域、天空和道路对应的区域为背景区域。

第一颜色信息是指与第二颜色信息不同的像素点对应的颜色属性值；第二颜色信息是指与第一颜色信息不同的像素点对应的颜色属性值；由第一颜色信息和第二颜色信息的像素点生成创意主体图像。

在实际应用中，还可以基于布局判别器模型对图像布局模型进行训练：

具体的，基于布局判别模型对图像布局模型进行训练的方法包括：

将所述预测布局信息输入至布局判别模型，获得判别结果；

基于所述判别结果调整所述图像布局模型的模型参数，并继续训练，直至达到模型训练条件。

其中，布局判别模型是指将预测布局信息与实际布局信息进行比对，确定预测布局信息是否与实际布局信息一致的模型，用于对抗训练布局生成模型；具体的，可以将预测布局信息和实际布局信息输入至布局判别模型中，得到布局判别模型输出的判别结果；在实际应用中，生成对抗网络中包含生成器和判别器，本说明书中的图像布局模型作为生成器生成预测布局信息，并将预测布局信息输入至作为判别器的布局判别模型中，获得布局判别器输出的判别结果。

具体的，将预测布局信息输入至布局判别模型中，获取布局判别模型输出的判别结果；其中，所述判别结果包括判别成功和判别失败；在布局判别模型判别的结果为正确的情况下，即确定预测布局信息为真实布局信息的情况下，则需要对图像布局模型的模型参数进行调整，在布局判别模型判别的结果为错误的情况下，即确定预测布局信息为生成布局信息的情况下，则需要布局判别模型的模型参数进行调整，即对生成对应网络中的生成器和判别器进行对抗调整。

本实施例的图像处理方法，可根据图像内容的不同生成不同的布局方案，结合文案、颜色预测制作出图像创意布局，可根据图像主体大小位置、图像背景复杂情况，自动预测制作创意所需的布局元素(如文字、衬底等)的类别与个数，并给出布局元素的位置与尺寸，从而视觉上保证图像主体、整体融合度更强、创意灵活度更高。

本说明书的图像处理方法，基于图像主体识别规则获得待识别图像的主体图像，并根据待识别图像和主体图像获得待处理图像，使得输入图像布局模型中包含主体位置信息，进而便于图像布局模型基于待处理图像得到不遮挡主体区域的图像布局信息，提高了图像布局信息的质量。

下述结合附图2，以本说明书提供的图像处理方法在汽车海报的应用为例，对所述图像处理方法进行进一步说明。其中，图2示出了本说明书一个实施例提供的一种图像处理方法的处理过程流程图，具体步骤包括步骤202至步骤220。

步骤202：获取汽车海报，其中，汽车海报包括实际布局信息。

本实施例中，以汽车海报为例，对图像布局模型的训练过程进行进一步的描述，在实际应用中，需要基于包含预设数量图像的图像数据集对图像布局模型进行训练。

具体的，如图3所示，图3是本说明书一实施例提供的图像布局模型的训练过程示意图，获取汽车海报，在汽车海报中包含布局元素：标题、广告内容；通过标注规则对汽车海报进行标注，获得汽车海报对应的实际布局信息，即确定汽车海报中的标题、广告内容对应的布局元素分类信息和布局元素位置信息。

步骤204：根据实际布局信息对汽车海报进行遮挡，得到遮挡汽车海报。

具体的，根据实际布局信息确定汽车海报中的布局元素，并对汽车海报中的布局元素进行遮挡，得到如图3所示的遮挡汽车海报。

步骤206：将遮挡汽车海报输入至图像修复模型，获得汽车海报对应的汽车原图像。

具体的，图像修复模型对遮挡汽车海报的遮挡区域进行恢复，得到如图3所示的不包含布局元素的汽车原图像。

步骤208：将汽车原图像输入至主体识别模型，获得汽车主体图像，并对汽车主体图像和汽车原图像进行连接，得到汽车待处理训练图像。

具体的，主体识别模型识别汽车原图像中的主体区域和背景区域，得到如图3所示的汽车主体图像；确定concat算法，并基于concat算法对汽车原图像和汽车主体图像进行连接，得到汽车待处理训练图像；具体的，对分辨率为h*w*3的汽车原图像与分辨率为h*w*1的汽车主体图像进行连接处理，得到分辨率为h*w*4的汽车待处理训练图像。

步骤210：将汽车待处理训练图像输入至图像布局模型，并获取图像布局模型输出的预测布局信息。

步骤212：将预测布局信息输入至图像布局判别模型，获得判别结果，并基于判别结果对图像布局模型和图像布局判别模型进行训练，直至达到训练停止条件。

具体的，将包含实际布局信息标签的汽车待处理训练图像，和包含预测布局信息标签的汽车待训练图像作为训练数据对图像布局判别模型进行训练；基于图像布局判别模型输出的判别结果的准确性，若判别结果正确，则对图像布局模型的模型参数进行进一步的调整，使图像布局模型可以输出更为准确的图像布局信息；若判别结果操作，则对图像布局判别模型的模型参数进行进一步的调整，使图像布局判别模型可以输出更准确的判断结果。

在对图像布局模型和图像布局判别模型进行训练的过程中，包含重建损失值和对抗损失值；重建损失值是指预测布局信息与实际布局信息之间通过交叉熵等计算得到的损失值；对抗损失值则是基于构建的布局判别模型获得，其中，布局判别模型与图像布局模型的架构一致。在实际应用中，为了弱化实际布局信息与预测布局信息之间的数据差异，可以对预测布局信息应用argmax函数。

步骤214：接收图像处理请求，并基于图像处理请求确定相框原图像。

具体的，对接收的图像处理请求进行解析，获得图像标识；基于图像标识确定相框原图像。

步骤216：将相框原图像输入至主体识别模型，获得相框主体图像，并根据相框主体图像和相框原图像获得待处理相框图像。

具体的，将相框原图像输入至主体识别模型中，获得如图4所示的相框主体图像，图4为本说明书一实施例提供的图像处理示意图；基于相框主体图像和相框原图像进行连接，得到待处理相框图像。

步骤218：将待处理相框图像输入至训练完成的图像布局模型中，获得相框图像布局信息。

具体的，如图4所示，将待处理图像输入至训练完成的图像布局模型中；图像布局模型中的特征提取层为CNN模型；为了保证CNN模型可以进行全面的特征提取，即不仅提取主体位置等高级语义，还提取区域复杂度等低级特征，故在CNN的最后两个卷积块中增加多尺度策略，即提取图像的多尺度特征；将多尺度特征通过全连接层转换为编码层的输入，通过编码层进一步细化图像特征；解码层将约束或噪声作为数据，并使用交叉注意力机制学习图像与布局之间的联系，通过自注意力机制确定图像中元素之间的内部关系；将解码器输出的特征输入至全连接层中，得到模型预测出的图像布局信息。

步骤220：基于相框图像布局信息，获得相框创意图像。

具体的，相框图像布局信息中包含布局元素类型和布局元素位置信息；在相框原图像中的布局元素位置添加对应的布局元素类型的布局元素，如，在图像上方添加标题等，得到布局完成的相框创意图像。

本实施例的图像处理方法，通过对创意图像进行标注，获得实际布局信息；利用实际标注信息将创意图像中的布局元素进行遮挡，并基于图像修复模型对遮挡的图像进行修复，得到创意原图像，避免了创意原图像获取困难的问题；使用预训练得到的显著性检测模型加强图像中主体区域的特征；通过上述方式使创意图像中的布局元素有效消除，从而减小创意图像与创意原图像之间的差距；并且，为了更好的确定图像与布局元素之前的关系，图像布局模型中包含提取图像特征的多尺度CNN、隐式学习布局生成规则的transformer以及对布局元素的分类和位置信息进行归类的全连接层。

本说明书的图像处理方法，接收图像处理请求，并基于所述图像处理请求确定待识别图像；基于图像主体识别规则识别所述待识别图像的主体图像；根据所述待识别图像和所述主体图像获得待处理图像，并将所述待处理图像输入至图像布局模型，获得所述待识别图像对应的图像布局信息。本说明书实施例的图像处理方法，通过对待识别图像进行主体识别，得到主体图像，并基于主体图像和待识别图像生成待处理图像，以便图像布局模型可以结合图像的主体位置信息确定图像布局信息，从而提升图像布局信息的质量。

与上述方法实施例相对应，本说明书还提供了图像处理装置实施例，图5示出了本说明书一实施例提供的一种图像处理装置的结构示意图。如图5所示，该装置包括：

接收模块502，被配置为接收图像处理请求，并基于所述图像处理请求确定待识别图像；

识别模块504，被配置为基于图像主体识别规则识别所述待识别图像的主体图像；

输入模块506，被配置为根据所述待识别图像和所述主体图像获得待处理图像，并将所述待处理图像输入至图像布局模型，获得所述待识别图像对应的图像布局信息。

可选地，所述装置还包括训练模块，所述训练模块被配置为：

获取创意图像，其中，所述创意图像包括实际布局信息；

可选地，所述训练模块，进一步被配置为：

基于所述创意图像获得创意原图像；

根据所述创意原图像获得创意主体图像。

可选地，所述训练模块，进一步被配置为：

识别所述创意原图像中的主体区域和背景区域；

可选地，所述训练模块，进一步被配置为：

将所述预测布局信息输入至布局判别模型，获得判别结果；

可选地，所述识别模块504，进一步被配置为：

识别所述待识别图像中的主体区域和背景区域；

可选地，所述输入模块506，进一步被配置为：

根据每个像素点的像素颜色信息获得所述待处理图像。

可选地，所述图像布局模型中包含特征提取器、编码器和解码器；所述输入模块506，进一步被配置为：

可选地，所述输入模块506，进一步被配置为：

可选地，所述装置还包括输入子模块，被配置为：

获取用户布局需求信息；

本说明书的图像处理装置，接收模块，被配置为接收图像处理请求，并基于所述图像处理请求确定待识别图像；识别模块，被配置为基于图像主体识别规则识别所述待识别图像的主体图像；输入模块，被配置为根据所述待识别图像和所述主体图像获得待处理图像，并将所述待处理图像输入至图像布局模型，获得所述待识别图像对应的图像布局信息。通过对待识别图像进行主体识别，得到主体图像，并基于主体图像和待识别图像生成待处理图像，以便图像布局模型可以结合图像的主体位置信息确定图像布局信息，从而提升图像布局信息的质量。

上述为本实施例的一种图像处理装置的示意性方案。需要说明的是，该图像处理装置的技术方案与上述的图像处理方法的技术方案属于同一构思，图像处理装置的技术方案未详细描述的细节内容，均可以参见上述图像处理方法的技术方案的描述。

图6示出了根据本说明书一实施例提供的一种计算设备600的结构框图。该计算设备600的部件包括但不限于存储器610和处理器620。处理器620与存储器610通过总线630相连接，数据库650用于保存数据。

计算设备600还包括接入设备640，接入设备640使得计算设备600能够经由一个或多个网络660通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备640可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本说明书的一个实施例中，计算设备600的上述部件以及图6中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图6所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备600可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备600还可以是移动式或静止式的服务器。

其中，处理器620执行所述计算机指令时实现所述的图像处理方法的步骤。

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的图像处理方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述图像处理方法的技术方案的描述。

本说明书一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该计算机指令被处理器执行时实现如前所述图像处理方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的图像处理方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述图像处理方法的技术方案的描述。

本说明书一实施例还提供一种计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行上述图像处理方法的步骤。

上述为本实施例的一种计算机程序的示意性方案。需要说明的是，该计算机程序的技术方案与上述的图像处理方法的技术方案属于同一构思，计算机程序的技术方案未详细描述的细节内容，均可以参见上述图像处理方法的技术方案的描述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，RandomAccessMemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本说明书实施例并不受所描述的动作顺序的限制，因为依据本说明书实施例，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本说明书实施例所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书实施例的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本说明书实施例的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种图像处理方法，包括：

基于图像主体识别规则识别所述待识别图像的主体图像；

2.如权利要求1所述的方法，所述图像布局模型基于如下步骤训练获得：

获取创意图像，其中，所述创意图像包括实际布局信息；

3.如权利要求2所述的方法，所述基于所述创意图像获得创意原图像和创意主体图像，包括：

基于所述创意图像获得创意原图像；

根据所述创意原图像获得创意主体图像。

4.如权利要求3所述的方法，基于所述创意图像获得创意原图像，包括：

5.如权利要求3所述的方法，基于所述创意原图像获得创意主体图像，包括：

识别所述创意原图像中的主体区域和背景区域；

6.如权利要求2所述的方法，所述方法还包括：

将所述预测布局信息输入至布局判别模型，获得判别结果；

7.如权利要求1所述的方法，所述基于图像主体识别规则识别所述待识别图像的主体图像，包括：

识别所述待识别图像中的主体区域和背景区域；

8.如权利要求7所述的方法，所述根据待识别图像和所述主体图像获得待处理图像，包括：

根据每个像素点的像素颜色信息获得所述待处理图像。

9.如权利要求1所述的方法，所述图像布局模型中包含特征提取器、编码器和解码器；

所述将所述待处理图像输入至图像布局模型，获得所述待识别图像对应的图像布局信息，包括：

10.如权利要求9所述的方法，所述将所述待处理图像输入至所述特征提取器做特征提取处理，获得所述待处理图像对应的图像特征，包括：

11.如权利要求1所述的方法，所述方法还包括：

获取用户布局需求信息；

12.一种图像处理装置，包括：

13.一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述计算机指令时实现权利要求1-11任意一项所述方法的步骤。

14.一种计算机可读存储介质，其存储有计算机可执行指令，该计算机指令被处理器执行时实现权利要求1-11任意一项所述方法的步骤。