CN111353822A

CN111353822A - 一种图像布局、模型训练方法、装置、设备及存储介质

Info

Publication number: CN111353822A
Application number: CN202010138426.9A
Authority: CN
Inventors: 利啟东; 胡浩; 梁容铭; 高玮; 杨超龙; 黄聿; 张超; 赵茜
Original assignee: Guangdong Bozhilin Robot Co Ltd
Current assignee: Guangdong Bozhilin Robot Co Ltd
Priority date: 2020-03-03
Filing date: 2020-03-03
Publication date: 2020-06-30

Abstract

本发明实施例公开了一种图像布局、模型训练方法、装置、设备及存储介质，其中，图像布局方法包括：从原始图像中提取图像元素，得到元素框架图；确定元素框架图的当前结构化数据；其中，当前结构化数据包括各个图像元素对应的坐标以及长宽长度属性；将当前结构化数据输入到分层强化学习模型中，确定最高评分对应的结构化数据，并基于最高评分对应的结构化数据确定图像布局结果；其中，分层强化学习模型包括第一强化学习模型和第二强化学习模型；第一强化学习模型，用于选择需要移动的目标图像元素，第二强化学习模型用于选择目标图像元素需要移动的方向。本发明实施例提供的技术方案可以取得更好的布局效果，并且可以将布局任务从复杂变为简单。

Description

一种图像布局、模型训练方法、装置、设备及存储介质

技术领域

本发明实施例涉及图像处理技术领域，尤其涉及一种图像布局、模型训练方法、装置、设备及存储介质。

背景技术

随着人工智能的不断发展，页面、界面或广告平面设计等图像的布局，出现了众多相关的生成算法。例如，基于图像元素间拓扑关系的布局生成方法，基于给定规则的布局生成方法，图像布局约束生成方法等。这些自动化的生成方法在一定程度可以替代工作人员的工作，有效地减少了设计耗时，提升了设计效率。

以广告海报图为例，当对广告海报图进行布局时，需要将广告海报图中的各个图像元素移动到较好的位置，使得广告海报更加好看，更加符合人们的审美。但是现有技术中的布局方法，布局效果相对差一些。

发明内容

本发明实施例提供一种图像布局、模型训练方法、装置、设备及存储介质，可以取得更好的布局效果，并且可以将布局任务从复杂变为简单，可以适应图像元素数量不确定的情况。

第一方面，本发明实施例提供了一种图像布局方法，包括：

从原始图像中提取图像元素，得到元素框架图；

确定所述元素框架图的当前结构化数据；其中，所述当前结构化数据包括各个图像元素对应的坐标以及长宽长度属性；

将所述当前结构化数据输入到分层强化学习模型中，确定最高评分对应的结构化数据，并基于所述最高评分对应的结构化数据确定图像布局结果；

其中，所述分层强化学习模型包括第一强化学习模型和第二强化学习模型；所述第一强化学习模型，用于选择需要移动的目标图像元素，所述第二强化学习模型用于选择所述目标图像元素需要移动的方向。

第二方面，本发明实施例还提供了一种模型训练方法，包括：

从原始样本图像中提取图像元素，得到元素框架图；

将所述元素框架图的当前结构化数据输入到第一强化学习模型中，得到第一动作；所述第一动作为需要移动的目标图像元素；

将所述当前结构化数据输入到第二强化学习模型中，得到第二动作；其中，所述第二动作为所述目标图像元素需要移动的方向；

根据所述第一动作和所述第二动作，得到移动后的元素框架图的结构化数据，并移动后的元素框架图的结构化数据输入至评分网络模型进行评分；

将移动后的元素框架图的结构化数据作为当前结构化数据，返回将所述当前结构化数据输入到第二强化学习模型中的操作，直至所述目标图像元素移动设定步长；

在所述目标图像元素移动设定步长过程中，将截止到最高评分的所有评分对应的第二状态数据输入到所述第二强化学习模型中，对所述第二强化学习模型的参数进行更新；所述第二状态数据包括所述第二动作，以及所述第二动作对应的相关结果；

将所述目标图像元素移动设定步长过程中最高评分对应的结构化数据作为当前结构化数据，返回将所述当前结构化数据输入到第一强化学习模型中的操作，直至所述目标广告元素的选择次数达到设定次数；

在整个过程中截止到最高评分，将所有第一状态数据输入到所述第一强化学习模型中，对所述第一强化学习模型的参数进行更新；其中，所述第一状态数据包括所述第一动作，以及所述第一动作对应的相关结果。

第三方面，本发明实施例提供了一种图像布局装置，包括：

提取模块，用于从原始图像中提取图像元素，得到元素框架图；

第一确定模块，用于确定所述元素框架图的当前结构化数据；其中，所述当前结构化数据包括各个图像元素对应的坐标以及长宽长度属性；

第二确定模块，用于将所述当前结构化数据输入到分层强化学习模型中，确定最高评分对应的结构化数据，并基于所述最高评分对应的结构化数据确定图像布局结果；

第四方面，本发明实施例提供了一种模型训练装置，包括：

提取模块，用于从原始样本图像中提取图像元素，得到元素框架图；

第一输入模块，用于将所述元素框架图的当前结构化数据输入到第一强化学习模型中，得到第一动作；所述第一动作为需要移动的目标图像元素；

第二输入模块，用于将所述当前结构化数据输入到第二强化学习模型中，得到第二动作；其中，所述第二动作为所述目标图像元素需要移动的方向；

第二确定模块，用于根据所述第一动作和所述第二动作，得到移动后的元素框架图的结构化数据，并移动后的元素框架图的结构化数据输入至评分网络模型进行评分；

第一返回模块，用于将移动后的元素框架图的结构化数据作为当前结构化数据，返回将所述当前结构化数据输入到第二强化学习模型中的操作，直至所述目标图像元素移动设定步长；

第一更新模块，用于在所述目标图像元素移动设定步长过程中，将截止到最高评分的所有评分对应的第二状态数据输入到所述第二强化学习模型中，对所述第二强化学习模型的参数进行更新；所述第二状态数据包括所述第二动作，以及所述第二动作对应的相关结果；

第二返回模块，用于将所述目标图像元素移动设定步长过程中最高评分对应的结构化数据作为当前结构化数据，返回将所述当前结构化数据输入到第一强化学习模型中的操作，直至所述目标广告元素的选择次数达到设定次数；

第二更新模块，用于在整个过程中截止到最高评分，将所有第一状态数据输入到所述第一强化学习模型中，对所述第一强化学习模型的参数进行更新；其中，所述第一状态数据包括所述第一动作，以及所述第一动作对应的相关结果。

第五方面，本发明实施例提供了一种设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明实施例提供的一种图像布局方法，或者本发明实施例提供的一种模型训练方法。

第六方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明实施例提供的一种图像布局方法，或者本发明实施例提供的一种模型训练方法。

本发明实施例提供的技术方案，通过从原始图像中提取图像元素得到元素框架图，并通过将元素框架图的当前结构化数据输入到分层强化学习中，通过第一强化学习模型选择需要移动的目标图像元素，通过第二强化学习模型选择目标广告元素需要移动的方向，从而确定最高评分对应的结构化数据，并基于该结构化数据确定图像布局结果，可以取得更好的布局效果，并且可以将布局任务从复杂变为简单。

附图说明

图1是本发明实施例提供的一种图像布局方法流程图；

图2是本发明实施例提供的一种图像布局方法流程图；

图3a是本发明实施例提供的一种图像布局方法流程图；

图3b是本发明实施例提供的广告框架图示意图；

图3c是本发明实施例提供的广告框架图网格化的示意图；

图3d是本发明实施例提供的移动后的最后的广告布局图；

图4是本发明实施例提供的一种图像布局方法流程图；

图5是本发明实施例提供的一种模型训练方法流程图；

图6a是本发明实施例提供的一种模型训练方法流程图；

图6b是本发明实施例提供的图像布局方法流程图；

图7是本发明实施例提供的一种图像布局装置结构框图；

图8是本发明实施例提供的一种模型训练装置结构框图；

图9是本发明实施例提供的一种设备结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

图1是本发明实施例提供的一种图像布局方法流程图，所述方法可以由图像布局装置来执行，所述装置可以由软件和/或硬件来实现，所述装置可以配置在电子设备中，所述方法可以应用于对广告海报图、页面、界面等图像进行布局的场景中。

如图1所示，本发明实施例提供的技术方案包括：

S110：从原始图像中提取图像元素，得到元素框架图。

在本发明实施例中，原始图像可以是广告原图、可以是页面图像或者界面图像等。当原始图像是广告原图时，图像元素为广告元素，其中，广告元素可以是标题，副标题、背景、图片等。

在本发明实施例中，可以将原始图像通过转换，将每一个图像元素提取出来，得到元素框架图。其中，元素框架图可以是由图像元素形成的排布框架图。

S120：确定所述元素框架图的当前结构化数据；其中，所述当前结构化数据包括各个图像元素对应的坐标以及长宽长度属性。

在本发明实施例中，可选的，确定所述元素框架图的当前结构化数据，可以包括：将元素框架图进行网格化操作，得到各个图像元素对应的网格坐标以及长宽长度属性，并形成元素框架图的当前结构化数据。

其中，将元素框架图进行网格化操作可以是固定网格化尺寸，将各个图像元素的坐标信息进行四舍五入，得到各个图像元素对应的网格坐标以及长宽长度属性，可以分别记为[x,y,w,h]，得到相应的结构化数据。其中，结构化数据可以是[[x1,y1,w1,h1],……，[xn,yn,wn,hn]]，n为固定值，为最大允许的图像元素数量，真实情况下可能少于n，仍然要将结构化数据长度补充到n，但以[0,0,0,0],进行表示。由此，通过将元素框架图进行网格化，可以将适应不同尺寸的图像。

S130：将所述当前结构化数据输入到分层强化学习模型中，确定最高评分对应的结构化数据，并基于所述最高评分对应的结构化数据确定图像布局结果；其中，所述分层强化学习模型包括第一强化学习模型和第二强化学习模型；所述第一强化学习模型，用于选择需要移动的目标图像元素，所述第二强化学习模型用于选择所述目标图像元素需要移动的方向。

在本发明实施例中，将元素框架图的当前结构化数据输入到分层强化学习模型中，通过分层强化学习模型中的第一强化学习模型选择需要移动的目标图像元素，通过第二强化学习模型选择目标图像元素需要移动的方向，通过目标图像元素不断的移动，最终达到评分网络模型输出的最高评分，确定最高评分对应的结构化数据，并基于最高评分对应的结构化数据确定图像布局结果。具体的，基于最高评分对应的结构化数据确定图像中各个图像元素的位置，从而确定图像布局结果。其中，分层强化学习模型是已训练的模型，其中，该模型的训练方法可以详见下述实施例中的介绍。

本发明实施例提供的技术方案，通过从原始图像中提取图像元素得到元素框架图，并通过将元素框架图的当前结构化数据输入到分层强化学习中，通过第一强化学习模型选择需要移动的目标图像元素，通过第二强化学习模型选择目标广告元素需要移动的方向，从而确定最高评分对应的结构化数据，并基于该结构化数据确定图像布局结果，可以取得更好的布局效果，并且可以将布局任务从复杂变为简单，可以适应图像元素数量不确定的情况。

图2是本发明实施例提供的一种图像布局方法流程图，在本实施例中，可选的，所述将所述当前结构化数据输入到分层强化学习模型中，确定最高评分对应的结构化数据，并基于所述最高评分对应的结构化数据确定图像元素排布结果，可以包括：

将所述当前结构化数据输入到第一强化学习模型中，得到第一动作；所述第一动作为需要移动的目标图像元素；

将移动后的广告框架图的结构化数据作为当前结构化数据，返回将所述当前结构化数据输入到第二强化学习模型中的操作，直至所述目标图像元素移动设定步长；

将所述目标图像元素移动设定步长过程中最高评分对应的结构化数据作为当前结构化数据，返回将所述当前结构化数据输入到第一强化学习模型中的操作，直至所述目标图像元素的选择次数达到设定次数；

基于整个过程中最高评分对应的结构化数据确定图像元素的排布结果。

如图2所示，本发明实施例提供的技术方案包括：

S210：从原始图像中提取图像元素，得到元素框架图。

S220：确定所述元素框架图的当前结构化数据；其中，所述当前结构化数据包括各个图像元素对应的坐标以及长宽长度属性。

其中，S210和S220可以分别参考上述实施例中的S110和S120。

S230：将所述当前结构化数据输入到第一强化学习模型中，得到第一动作；所述第一动作为需要移动的目标图像元素。

在本发明实施例中，将元素框架图的结构化数据输入到第一强化学习模型中，可以分析输入的当前结构化数据的图像元素个数，并进行相应的限制，得到第一动作。具体的，可以分析输入的当前结构数据的图像元素的个数，可以通过判断[0,0,0,0]所处的位置和个数进行分析，即不允许选择[0,0,0,0]对应的动作。

在本发明实施例中，将当前结构化数据输入到第一强化学习模型中，得到的需要移动的目标图像元素为1个，即每输入一次当前结构化数据，仅仅得到一个需要移动的目标图像元素。

S240：将所述当前结构化数据输入到第二强化学习模型中，得到第二动作；其中，所述第二动作为所述目标图像元素需要移动的方向。

在本发明实施例中，目标图像元素需要移动的方向可以是上、下、左或右。

在本发明实施例中，对S230和S240举例说明，若将元素框架图的当前结构化数据输入到第一强化学习模型中，得到需要移动的目标图像元素为Y，则将元素框架图的当前结构化数据输入到第二强化学习模型中，可以得到图像元素Y的移动方向为上。

S250：根据所述第一动作和所述第二动作，得到移动后的元素框架图的结构化数据，并将移动后的元素框架图的结构化数据输入至评分网络模型进行评分。

在本发明实施例中，可选的，所述根据所述第一动作和所述第二动作，得到移动后的广告框架图的结构化数据，包括：将目标图像元素按照目标图像元素的移动方向进行移动，得到移动后的元素框架图的结构化数据。当得到移动后的元素框架图的结构化数据之后，将移动后的元素框架图的结构化数据输入到评分网络模型中进行评分。其中，评分网络模型输出的评分可以用于评判元素框架图的移动是否合适。当评分越高时，表明元素框架图的图像元素移动越符合标准。其中，评分网络模型可以通过训练进行得到。

S260：判断目标图像元素是否移动设定步长。

若否，执行S270，若是，执行S280。

在本发明实施例中，目标图像元素每次移动仅仅移动一个步长。

S270：将移动后的广告框架图的结构化数据作为当前结构化数据，返回S240。

在本发明实施例中，若目标图像元素没有移动设定步长，将移动后的广告框架图的结构化数据作为当前结构数据，重新输入到第二强化学习模型中，重新选择第二动作，并根据第一动作和重新选择的第二动作得到再次移动的元素框架图的结构化数据，并重新进行评分，直至目标图像元素移动设定步长。

S280：判断所述目标图像元素的选择次数是否达到设定次数。

若否，执行S290，若是，执行S291。

在本发明实施例中，目标图像元素的选择次数即为第一动作的选择次数。其中，设定次数可以根据需要进行设定。例如，设定次数可以是200次。目标图像元素的选择次数可以不受图像元素的个数的限制，故在不同次选择的情况下，可以选择相同的目标图像元素。

S290：将所述目标图像元素移动设定步长过程中最高评分对应的结构化数据作为当前结构化数据，返回S230。

在本发明实施例中，若目标图像元素的选择次数没有达到设定次数，将目标图像元素移动设定步长过程中最高评分对应的结构化数据作为当前结构化数据，并输入到第一强化学习模型中，重新选择第一动作(重新选择目标图像元素)。

S291：基于整个过程中最高评分对应的结构化数据确定图像布局结果。

在本发明实施例中，整个过程是指第一动作和第二动作选择的整个过程，或者理解为第一动作选择设定次数，且第一动作每次选择，第二动作移动设定步长的过程，即为目标图像元素选择设定次数，且目标图像元素的每次选择，目标图像元素移动设定步长的过程。

本发明实施例通过第一强化学习模型选择需要移动的目标图像元素，通过第二强化学习模型选择目标广告元素需要移动的方向，通过图像元素不断移动，确定最高评分对应的结构化数据，并基于该结构化数据确定图像布局结果，相对于传统的强化学习模型(直接以某个图像元素的某个方向移动作为动作)而言，可以将布局任务从复杂变为简单，从而可以提高效率，在选择图像元素的时可以根据图像元素的个数进行选择，可以自适应图像元素个数的情况。

图3a是本发明实施例提供的一种图像布局方法流程图，在本发明实施例中，所述方法应用于对广告海报图进行布局的场景中，可选的，原始图像为广告原图，图像元素为广告元素，元素框架图为广告框架图。

如图3a所示，本发明实施例提供的技术方案包括：

S310：从广告原图中提取广告元素，得到广告框架图。

在本发明实施例中，可以将广告原图通过转换，将每一个广告元素提取出来，得到广告框架图，广告框架图可以参考图3b。

S320：确定所述广告框架图的当前结构化数据；其中，所述当前结构化数据包括各个广告元素对应的坐标以及长宽长度属性。

在本发明实施例中，可以将广告框架图进行网格化操作可以具体是将各个广告元素的坐标信息进行四舍五入，得到各个广告元素对应的网格坐标以及长宽长度属性，可以分别记为[x,y,w,h]，得到相应的结构化数据。其中，结构化数据可以是[[x1,y1,w1,h1],……，[xn,yn,wn,hn]]，n为固定值，为最大允许的广告元素数量，真实情况下可能少于n，仍然要将结构化数据长度补充到n，但以[0,0,0,0],进行表示。其中，将广告框架图进行网格化得到网格化的广告元素布局图可以参考图3c。由此，通过将广告框架图进行网格化，可以将适应不同尺寸的广告海报，也可以适应不定的广告元素数量的情况。

S330：将所述当前结构化数据输入到分层强化学习模型中，确定最高评分对应的结构化数据，并基于所述最高评分对应的结构化数据确定广告布局结果；其中，所述分层强化学习模型包括第一强化学习模型和第二强化学习模型；所述第一强化学习模型，用于选择需要移动的目标广告元素，所述第二强化学习模型用于选择所述目标广告元素需要移动的方向。

在本发明实施例中，通过分层强化学习模型对广告元素的调整，可以最高评分对应的结构化数据，并基于最高评分对应的结构化数据确定的广告布局图(参考图3d)。

由此，通过从广告原图中提取广告元素得到广告框架图，并通过将广告框架图的当前结构化数据输入到分层强化学习中，通过第一强化学习模型选择需要移动的目标图像元素，通过第二强化学习模型选择目标广告元素需要移动的方向，从而确定最高评分对应的结构化数据，并基于该结构化数据确定广告布局结果，可以取得更好的布局效果，并且可以将布局任务从复杂变为简单，可以适应不确定广告元素数量的情况。

图4是本发明实施例提供的一种图像布局方法流程图，如图4所示，本发明实施例提供的技术方案包括：

S410：从广告原图中提取广告元素，得到广告框架图。

S420：将广告框架图进行网格化操作，得到各个广告元素对应的网格坐标以及长宽长度属性，并形成广告框架图的当前结构化数据。

S430：将所述当前结构化数据输入到第一强化学习模型中，得到第一动作；所述第一动作为需要移动的目标广告元素。

S440：将所述当前结构化数据输入到第二强化学习模型中，得到第二动作；其中，所述第二动作为所述目标广告元素需要移动的方向。

S450：根据所述第一动作和所述第二动作，得到移动后的广告框架图的结构化数据，并将移动后的广告框架图的结构化数据输入至评分网络模型进行评分。

S460：判断目标广告元素是否移动设定步长。

若否，执行S470，若是，执行S480。

S470：将移动后的广告框架图的结构化数据作为当前结构化数据，返回S440。

S480：判断所述目标广告元素的选择次数是否达到设定次数。

若是，执行S490，若是，执行S491。

S490：将所述目标广告元素移动设定步长过程中最高评分对应的结构化数据作为当前结构化数据，返回S430。

S491：基于整个过程中最高评分对应的结构化数据确定广告布局结果。

图5是本发明实施例提供的一种模型训练方法流程图，所述方法可以由模型训练装置来执行，所述装置可以由软件和/或硬件来实现，所述装置可以配置在电子设备中，所述方法可以对分层强化学习模型进行训练的场景中。

如图5所示，本发明实施例提供的技术方案包括：

S510：从原始样本图像中提取图像元素，得到元素框架图。

S520：确定所述元素框架图的当前结构化数据；其中，所述当前结构化数据包括各个图像元素对应的坐标以及长宽长度属性。

S530：将元素框架图的当前结构化数据输入到第一强化学习模型中，得到第一动作；所述第一动作为需要移动的目标图像元素。

S540：将所述当前结构化数据输入到第二强化学习模型中，得到第二动作；其中，所述第二动作为所述目标图像元素需要移动的方向。

S550：根据所述第一动作和所述第二动作，得到移动后的元素框架图的结构化数据，并移动后的元素框架图的结构化数据输入至评分网络模型进行评分。

S560：判断目标图像元素是否移动设定步长。

若否，执行S570，若是，执行S580。

S570：将移动后的元素框架图的结构化数据作为当前结构化数据，返回S540。

S580：在所述目标图像元素移动设定步长过程中，将截止到最高评分的所有评分对应的第二状态数据输入到第二强化学习模型中，对所述第二强化学习模型的参数进行更新；所述第二状态数据包括所述第二动作，以及所述第二动作对应的相关结果。

在本发明实施例中，第二状态数据包括第二动作以及第二动作对应的相关结果，其中第二状态数据对应的相关结果包括第二动作对应的第二奖赏值；其中，第二动作对应的第二奖赏值为：第二动作每选择一次得到的移动后的元素框架图的结构化数据对应的第二奖赏值。具体的确定方法是：当确定第一动作时，第二动作每选择一次得到移动后的元素框架图的结构化数据，并将该结构化数据输入到评分网络模型进行评分，并得到评分对应的第二奖赏值。其中，每选择一次第二动作(目标图像元素每移动一次)，则存在一个对应的第二奖赏值，即第二强化学习模型每迭代一次，则重新选择第二动作，则对应一个第二奖赏值。

在本发明实施例中，第二状态数据还可以包括移动前的元素框架图的结构化数据、移动后的元素框架图的结构化数据以及目标广告元素是否移动设定步长的结果(在确定第一动作的情况下，第二动作是否选择终止的结果)。

在本发明实施例中，通过判断目标图像元素是否移动设定步长来判断是否第二强化学习模型是否迭代终止，终止结果可以记为is_end1，若is_end1为False，将[s,s’,a2,r2，is_end1]作为第二状态数据存放到容器memory2中，则将s＝s’传递回第一强化学习模型中，将移动后的元素框架图的结构化数据作为当前结构化数据，返回S540。若is_end1为True，结束本轮循环。其中，第二状态数据包括第二动作a2、第二动作对应的第二奖赏值r2、移动前的元素框架图的结构化数据s、移动后的元素框架图的结构化数据s’以及第二强化学习模型本轮迭代是否终止的结果is_end1。

当对第二强化学习模型训练时，从容器memory2中取目标图像元素移动设定步长过程中，将截止到最高评分的所有评分对应的第二状态数据输入到第二强化学习模型中，对第二强化学习模型进行参数更新。其中，目标图像元素每次移动，均对应评分网络模型输出的评分，每个评分均对应元素框架图的第二状态数据。故当对第二强化学习模型训练时，将本轮存储的[[s,s’,a2,r2，is_end]1，……，[s,s’,a2,r2，is_end]m]传递回第二强化学习模型中，对第二强化学习模型进行参数更新。

其中，第二强化学习模型可以基于公式Q(s,a₂)＝Q(s,a₂)+α(r₂+γQ(s',a₂')-Q(s,a₂))进行参数更新。其中，α为更新步长，γ为奖赏折扣。

S590：判断所述目标图像元素的选择次数是否达到设定次数。

若否，执行S591，若是，执行S592。

S591：将所述目标图像元素移动设定步长过程中最高评分对应的结构化数据作为当前结构化数据，返回S530。

S592：在整个过程中截止到最高评分，将所有第一状态数据输入到第一强化学习模型中，对所述第一强化学习模型的参数进行更新；其中，第一状态数据包括所述第一动作，以及所述第一动作对应的相关结果。

在本发明实施例中,第一状态数据包括第一动作以及第一动作对应的相关结果，其中第一动作对应的相关结果包括在目标广告元素移动设定步长过程中截止到最高评分，基于所有评分分别对应的第二奖赏值的累加值确定的第一奖赏值。例如，当目标广告元素每次选择(第一动作每次选择)后，在目标广告元素移动设定步长过程中截止到最高评分，若每个评分分别对应的第二奖励值分别是r21，r22……r2u，则第二奖励值的累加值r＝r21+r22+……r2u。则第一奖励值可以是第二奖励值的累加值，或者也可以基于第二奖励值的累加值确定的值，例如，若第二奖励值累加值为20，则第一奖励值为2；若第二奖励值的累加值为30，则第一奖励值为3。

其中，第一状态数据还包括目标广告元素移动设定步长过程中最高评分对应的结构化数据s，作为移动前的元素框架图的结构化数据，以及基于该结构化数据s得到第一动作和第二动作，基于第一动作和第二动作得到的移动后的元素框架图的结构化数据s’，以及目标广告元素选择是否达到设定次数的结果is_end2。其中，若is_end2为False，将[s,s’,a1,r1，is_end2]作为第一状态数据存放到容器memory1中，则将s＝s’传递回第二强化学习模型中，返回S530。若is_end1为True，结束本轮循环。当在第一强化学习模型训练时，从容器memory2中取出整个过程中截止到最高评分，将所有第一状态数据输入到第一强化学习模型中，对第一强化学习模型进行参数更新。即当对第一强化学习模型训练时，将存储的[[s,s’,a1,r1，is_end2]1，……，[s,s’,a1,r1，is_end2]q]传递回第一强化学习模型中，对第一强化学习模型进行参数更新。其中，第一强化学习模型可以基于公式Q(s,a₁)＝Q(s,a₁)+α(r₁+γQ(s',a₁')-Q(s,a₁))进行参数更新。其中，α为更新步长，γ为奖赏折扣。

本发明实施例提供的技术方案，通过第一强化学习模型选择需要移动的目标图像元素，通过第二强化学习模型选择目标广告元素需要移动的方向，通过图像元素不断移动过程中，达到最优情况下，通过对第一强化学习模型和第二强化模型的训练，可以使分层强化学习模型训练更加充分，更加容易收敛，性能更强。

图6a是本发明实施例提供的一种模型训练方法流程图，如图6a所示，本发明实施例提供的技术方案包括：

S610：从广告样本原图中提取广告元素，得到广告框架图。

S620：确定所述广告框架图的当前结构化数据；其中，所述当前结构化数据包括各个广告元素对应的坐标以及长宽长度属性。

S630：将广告框架图的当前结构化数据输入到第一强化学习模型中，得到第一动作；所述第一动作为需要移动的目标广告元素。

S640：将所述当前结构化数据输入到第二强化学习模型中，得到第二动作；其中，所述第二动作为所述目标广告元素需要移动的方向。

S650：根据所述第一动作和所述第二动作，得到移动后的广告框架图的结构化数据，并移动后的广告框架图的结构化数据输入至评分网络模型进行评分。

S660：判断目标广告元素是否移动设定步长。

若否，执行S670，若是，执行S680。

S670：将移动后的广告框架图的结构化数据作为当前结构化数据，返回S640。

S680：在所述目标广告元素移动设定步长过程中，将截止到最高评分的所有评分对应的第二状态数据输入到第二强化学习模型中，对所述第二强化学习模型的参数进行更新；所述第二状态数据包括所述第二动作，以及所述第二动作对应的相关结果。

S690：判断所述目标广告元素的选择次数是否达到设定次数。

若否，执行S691，若是，执行S692。

S691：将所述目标广告元素移动设定步长过程中最高评分对应的结构化数据作为当前结构化数据，返回S630。

S692：在整个过程中截止到最高评分，将所有第一状态数据输入到第一强化学习模型中，对所述第一强化学习模型的参数进行更新；其中，第一状态数据包括所述第一动作，以及所述第一动作对应的相关结果。

为了能够让本领域技术人员更加清楚的了解本发明实施例提供的方案，本申请还提供了以下优选实施方式。

由于广告元素数量的不确定性，导致广告元素形成的结构化数据长度不定，本发明实施例采用分层强化学习模型，将强化学习的动作拆分为2步，第一步为选择需要移动的目标广告元素，第二步为选择目标广告元素移动的方向。本发明实施例采用的方法相比于传统的强化学习(直接以某个元素的某个方向移动作为动作)，可以将任务从复杂的变为简单，从而提高效率，可以取得更好的布局效果，加入了先验知识，使模型训练更加充分，更加容易收敛，同时在选择广告元素时，通过分析输入的广告元素个数，从而限制选择的目标广告元素，使得模型可以自适应广告元素个数的情况。

本发明实施例提供的方法流程可以参考图6b。

具体的过程实现细节如下：

步骤一、将广告原图经过元素提取方式，得到了广告框架图，如图3b所示；

步骤二、将提取得到的广告框架图，经过网格化操作，如图3c所示，得到了各个广告元素相对应的网格坐标和各自的长宽长度属性，分别记为[x,y,w,h]，得到相应的结构化数据[[x1,y1,w1,h1],……，[xn,yn,wn,hn]]，n为固定值，为最大允许的广告元素数量，真实情况下可能少于这个，此时仍然要将结构化数据长度补充到n，但以[0,0,0,0],进行表示。

步骤三、将结构化数据分别输入强化学习模型1和强化学习模型2中。

强化学习模型1，其状态定义为结构化数据s，动作a1为需要移动的广告元素。

强化学习模型2，其状态定义为结构化数据s，动作a2为广告元素需要移动的方向。

步骤四、将得到的结构化数据s输入到强化学习模型1中，分析输入的s个广告元素个数，并进行相应的限制，得到动作a1；这里的判断输入结构化数据s的广告元素个数，即通过判断[0,0,0,0]所处的位置和个数进行分析，限制不允许选择[0,0,0,0]对应的动作。

步骤五、将得到的结构化数据s输入到强化学习模型2中，得到动作a2；

步骤六、根据得到的动作a1和动作a2，得到移动后的广告框架图的结构化数据s’，经过评分网络模型得到对应的奖励值r2；评分网络模型输出的是该广告框架图移动的好坏过程，记录该轮次的最好分数，若大于最高分数，则奖励值为1。

步骤七、根据终止条件1判断是否终止，终止结果记为is_end1，将[s,s’,a2,r2，is_end1]放进容器memory2中，将s＝s’传递回强化学习模型2，进行下一轮迭代。若为训练阶段，在容器memory2取batchsize组数据，并根据Q值更新公式Q(s,a₂)＝Q(s,a₂)+α(r₂+γQ(s',a₂')-Q(s,a₂))进行强化学习模型1的更新，α为更新步长，γ为奖赏折扣。

步骤八、若终止条件1的is_end1为false，则执行步骤七，并得到奖励值r1＝r21+r22，若is_end1为true，将奖励值r1传递下去，进行终止条件2的判断。

步骤九、进行终止条件2的判断，结果记为is_end2，将[s,s’,a1,r1，is_end2]放进容器memory2中，将s＝s’传递回强化学习模型1，进行下一轮迭代。其中，终止条件2为第一动作的选择次数是否达到设定次数。若为训练阶段，在memory2中提取batchsize组数据，并根据Q值更新公式Q(s,a₁)＝Q(s,a₁)+α(r₁+γQ(s',a₁')-Q(s,a₁))，α为更新步长，γ为奖赏折扣进行强化学习模型1的更新；

步骤十：若终止条件2的is_end2为false，则执行步骤九，若is_end2为true，结束广告框架图的移动，生成最终广告框架图，结束当前轮次的训练。

图7是本发明实施例提供的一种图像布局装置结构框图，如图7所示，本发明实施例提供的装置包括提取模块710、第一确定模块720和第二确定模块730。

其中，提取模块710，用于从原始图像中提取图像元素，得到元素框架图；

第一确定模块720，用于确定所述元素框架图的当前结构化数据；其中，所述当前结构化数据包括各个图像元素对应的坐标以及长宽长度属性；

第二确定模块730，用于将所述当前结构化数据输入到分层强化学习模型中，确定最高评分对应的结构化数据，并基于所述最高评分对应的结构化数据确定图像布局结果；

可选的，第二确定模块730，用于：

根据所述第一动作和所述第二动作，得到移动后的元素框架图的结构化数据，并将移动后的元素框架图的结构化数据输入至评分网络模型进行评分；

基于整个过程中最高评分对应的结构化数据确定图像布局结果。

可选的，第一确定模块720，用于将所述元素框架图进行网格化操作，得到各个图像元素对应的网格坐标以及长宽长度属性，并形成所述元素框架图的当前结构化数据。

可选的，所述根据所述第一动作和所述第二动作，得到移动后的广告框架图的结构化数据，包括：

将所述目标图像元素按照所述目标图像元素的移动方向进行移动，得到移动后的元素框架图的结构化数据。

可选的，所述原始图像为广告原图；所述图像元素为广告元素；所述元素框架图为广告框架图。

上述产品可执行本发明任意实施例所提供的方法，具备执行方法相应的功能模块和有益效果。

图8是本发明实施例提供的一种模型训练装置结构框图，如图8所示，本发明实施例提供的装置包括：提取模块810、第一确定模块820、第一输入模块830、第二输入模块840、第二确定模块850、第一返回模块860、第一更新模块870、第二返回模块880和第二更新模块890。

提取模块810，用于从原始样本图像中提取图像元素，得到元素框架图；

第一确定模块820，用于确定所述元素框架图的当前结构化数据；其中，所述当前结构化数据包括各个图像元素对应的坐标以及长宽长度属性；

第一输入模块830，用于将所述元素框架图的当前结构化数据输入到第一强化学习模型中，得到第一动作；所述第一动作为需要移动的目标图像元素；

第二输入模块840，用于将所述当前结构化数据输入到第二强化学习模型中，得到第二动作；其中，所述第二动作为所述目标图像元素需要移动的方向；

第二确定模块850，用于根据所述第一动作和所述第二动作，得到移动后的元素框架图的结构化数据，并移动后的元素框架图的结构化数据输入至评分网络模型进行评分；

第一返回模块860，用于将移动后的元素框架图的结构化数据作为当前结构化数据，返回将所述当前结构化数据输入到第二强化学习模型中的操作，直至所述目标图像元素移动设定步长；

第一更新模块870，用于在所述目标图像元素移动设定步长过程中，将截止到最高评分的所有评分对应的第二状态数据输入到所述第二强化学习模型中，对所述第二强化学习模型的参数进行更新；所述第二状态数据包括所述第二动作，以及所述第二动作对应的相关结果；

第二返回模块880，用于将所述目标图像元素移动设定步长过程中最高评分对应的结构化数据作为当前结构化数据，返回将所述当前结构化数据输入到第一强化学习模型中的操作，直至所述目标广告元素的选择次数达到设定次数；

第二更新模块890，用于在整个过程中截止到最高评分，将所有第一状态数据输入到所述第一强化学习模型中，对所述第一强化学习模型的参数进行更新；其中，所述第一状态数据包括所述第一动作，以及所述第一动作对应的相关结果。

可选的，所述第二动作对应的相关结果包括第二动作对应的第二奖赏值；

所述第一动作对应的相关结果包括在所述目标广告元素移动设定步长过程中截止到最高评分，基于所有评分分别对应的第二奖赏值的累加值确定的第一奖赏值。

图9是本发明实施例提供的一种设备结构示意图，如图9所示，该设备包括：

一个或多个处理器910，图9中以一个处理器910为例；

存储器920；

所述设备还可以包括：输入装置930和输出装置940。

所述设备中的处理器910、存储器920、输入装置930和输出装置940可以通过总线或者其他方式连接，图9中以通过总线连接为例。

存储器920作为一种非暂态计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的一种图像布局方法对应的程序指令/模块(例如，附图7所示的提取模块710、第一确定模块720和第二确定模块730)，或者如本发明实施例中的一种模型训练方法对应的程序指令/模块(例如，附图8所示的提取模块810、第一确定模块820、第一输入模块830、第二输入模块840、第二确定模块850、第一返回模块860、第一更新模块870、第二返回模块880和第二更新模块890)。处理器910通过运行存储在存储器920中的软件程序、指令以及模块，从而执行计算机设备的各种功能应用以及数据处理，即实现上述方法实施例的一种图像布局方法，即：

从原始图像中提取图像元素，得到元素框架图；

或者实现本发明实施例提供的模型训练方法，即：

从原始样本图像中提取图像元素，得到元素框架图；

存储器920可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据计算机设备的使用所创建的数据等。此外，存储器920可以包括高速随机存取存储器，还可以包括非暂态性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态性固态存储器件。在一些实施例中，存储器920可选包括相对于处理器910远程设置的存储器，这些远程存储器可以通过网络连接至终端设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置930可用于接收输入的数字或字符信息，以及产生与计算机设备的用户设置以及功能控制有关的键信号输入。输出装置940可包括显示屏等显示设备。

本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明实施例提供的一种图像布局方法：

从原始图像中提取图像元素，得到元素框架图；

或者实现本发明实施例提供的模型训练方法，即：

从原始样本图像中提取图像元素，得到元素框架图；

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种图像布局方法，其特征在于，包括：

从原始图像中提取图像元素，得到元素框架图；

2.根据权利要求1所述的方法，其特征在于，所述将所述当前结构化数据输入到分层强化学习模型中，确定最高评分对应的结构化数据，并基于所述最高评分对应的结构化数据确定图像元素排布结果，包括：

3.根据权利要求1所述的方法，其特征在于，所述确定广告框架图的当前结构化数据，包括：

将所述元素框架图进行网格化操作，得到各个图像元素对应的网格坐标以及长宽长度属性，并形成所述元素框架图的当前结构化数据。

4.根据权利要求2所述的方法，其特征在于，所述根据所述第一动作和所述第二动作，得到移动后的广告框架图的结构化数据，包括：

5.根据权利要求1-4任一项所述的方法，其特征在于，所述原始图像为广告原图；所述图像元素为广告元素；所述元素框架图为广告框架图。

6.一种模型训练方法，其特征在于，包括：

从原始样本图像中提取图像元素，得到元素框架图；

7.根据权利要求6所述的方法，其特征在于，

所述第二动作对应的相关结果包括第二动作对应的第二奖赏值；

8.一种图像布局装置，其特征在于，包括：

9.一种模型训练装置，其特征在于，包括：

10.一种设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-5任一项所述的一种图像布局方法，或者权利要求6或7所述的一种模型训练方法。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5任一项所述的一种图像布局方法，或者权利要求6或7所述的一种模型训练方法。