CN111179382A

CN111179382A - 一种图像的排版方法、装置、介质及电子设备

Info

Publication number: CN111179382A
Application number: CN202010001984.0A
Authority: CN
Inventors: 梁容铭; 杨超龙; 胡浩; 利啟东; 高玮; 黄聿; 张超; 赵茜
Original assignee: Guangdong Bozhilin Robot Co Ltd
Current assignee: Guangdong Bozhilin Robot Co Ltd
Priority date: 2020-01-02
Filing date: 2020-01-02
Publication date: 2020-05-19

Abstract

本申请实施例公开了一种图像的排版方法、装置、介质及电子设备。该方法包括：获取构成目标图像的图像数据，并根据所述图像数据确定至少一个排版图层；根据所述排版图层的初始位置拼接得到初始的图像状态，输入至强化学习模型，得到目标图像的目标图层以及目标图层的移动步长；将所述目标图层按照目标图层的移动步长进行移动，并将移动后的图像状态输入至评分网络模型；若评分网络模型的输出评分结果符合预设标准，则将当前图像状态确定为图像的排版结果。通过运行本申请所提供的技术方案，可以通过机器学习的手段对图像进行自动排版，以达到节省对图像排版和审核过程中节省人力成本的效果。

Description

一种图像的排版方法、装置、介质及电子设备

技术领域

本申请实施例涉及图像处理技术领域，尤其涉及一种图像的排版方法、装置、介质及电子设备。

背景技术

随着科技的迅速发展，各种功能的图像是对信息最直观的展示方式，因此图像的布局被工作人员看得尤为重要。

以海报为例，在设计过程中，排版的问题一直是对于设计人员在制作过程中耗时最大的工作。为了凸显图像的主题，并且让图像的内容更具有可读性，设计人员往往需要对形成海报的各个元素的大小、位置以及其他参数进行精确的设计。而目前已有的做法是采用一种智能排版方式，即设定好排版规则，如图像中各个元素之间不能够堆叠，所有元素在图像的固定范围内显示，等等。然而经过这种智能排版之后，仍然需要由设计人员来进行审核。这就造成了对于海报等图像的设计耗费较多的人力成本的问题。

发明内容

本申请实施例提供一种图像的排版方法、装置、介质及电子设备，可以通过机器学习的手段对图像进行自动排版，以达到节省对图像排版和审核过程中节省人力成本的效果。

第一方面，本申请实施例提供了一种图像的排版方法，该方法包括：

获取构成目标图像的图像数据，并根据所述图像数据确定至少一个排版图层；

根据所述排版图层的初始位置拼接得到初始的图像状态，输入至强化学习模型，得到目标图像的目标图层以及目标图层的移动步长；

将所述目标图层按照目标图层的移动步长进行移动，并将移动后的图像状态输入至评分网络模型；

若评分网络模型的输出评分结果符合预设标准，则将当前图像状态确定为图像的排版结果。

可选的，在将移动后的图像状态输入至评分网络模型之后，所述方法还包括：

若评分网络模型的输出评分结果不符合预设标准，则将当前图像状态返回值强化学习模型，得到由强化学习模型确定的下一图像状态，并重新进行评分。

可选的，所述评分网络模型的训练过程包括：

采集样本图像，并获取样本图像的标准分数，作为样本图像的分数标签；

对所述样本图像进行图像数据的排版图层提取；

根据所述样本图像排版图层的当前位置确定样本图像的当前状态，并将当前状态以及样本图像的分数标签输入至评分网络模型；

根据所述评分网络模型的输出结果与样本图像的分数标签之间的关系，对所述评分网络模型进行有监督训练。

可选的，根据所述评分网络模型的输出结果与样本图像的分数标签之间的关系，对所述评分网络模型进行有监督训练，包括：

根据样本图像的分数标签，确定所述评分网络模型的训练终止条件；

若所述评分网络模型的输出结果符合所述训练终止条件，则结束对评分网络模型的训练；

若所述评分网络模型的输出结果不符合所述训练终止条件，则将样本图像的当前状态输入至强化学习模型，得到样本图像的下一状态；

根据所有的样本图像的状态数据，对所述强化学习模型的参数进行更新；其中，所述状态数据包括：针对当前状态的目标图层的移动步长和针对当前状态的评分网络模型的输出结果相关数据。

可选的，针对当前状态的评分网络模型的输出结果相关数据包括：针对当前状态的评分网络模型的输出结果，采用奖赏函数得到的奖赏值。

可选的，在对所述评分网络模型进行有监督训练之后，所述方法还包括：

获取测试图像，并对所述测试图像进行图像数据的排版图层提取；

根据所述测试图像排版图层的当前位置确定测试图像的当前状态，并输入至强化学习模型，得到测试图像的目标图层以及目标图层的移动步长；

将所述测试图像的目标图层按照目标图层的移动步长进行移动，并将移动后的图像状态确定为测试图像的排版结果。

第二方面，本申请实施例提供了一种图像的排版装置，该装置包括：

排版图层确定模块，用于获取构成目标图像的图像数据，并根据所述图像数据确定至少一个排版图层；

移动步长确定模块，用于根据所述排版图层的初始位置拼接得到初始的图像状态，输入至强化学习模型，得到目标图像的目标图层以及目标图层的移动步长；

图像状态更新模块，用于将所述目标图层按照目标图层的移动步长进行移动，并将移动后的图像状态输入至评分网络模型；

排版结果确定模块，用于若评分网络模型的输出评分结果符合预设标准，则将当前图像状态确定为图像的排版结果。

进一步的，所述装置还包括：

重定位模块，用于若评分网络模型的输出评分结果不符合预设标准，则将当前图像状态返回值强化学习模型，得到由强化学习模型确定的下一图像状态，并重新进行评分。

第三方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器运行时实现如本申请实施例所述的图像的排版方法。

第四方面，本申请实施例提供了一种电子设备，包括存储器，处理器及存储在存储器上并可在处理器运行的计算机程序，所述处理器运行所述计算机程序时实现如本申请实施例所述的图像的排版方法。

本申请实施例所提供的技术方案，获取构成目标图像的图像数据，并根据所述图像数据确定至少一个排版图层；根据所述排版图层的初始位置拼接得到初始的图像状态，输入至强化学习模型，得到目标图像的目标图层以及目标图层的移动步长；将所述目标图层按照目标图层的移动步长进行移动，并将移动后的图像状态输入至评分网络模型；若评分网络模型的输出评分结果符合预设标准，则将当前图像状态确定为图像的排版结果。通过采用本申请所提供的技术方案，可以通过机器学习的手段对图像进行自动排版，以达到节省对图像排版和审核过程中节省人力成本的效果。

附图说明

图1是本申请实施例一提供的图像的排版方法的流程图；

图2是本申请实施例二提供的图像的排版方法的流程图；

图3是本申请实施例三提供的图像的排版装置的结构示意图；

图4是本申请实施例五提供的一种电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本申请，而非对本申请的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本申请相关的部分而非全部结构。

在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理，但是其中的许多步骤可以被并行地、并发地或者同时实施。此外，各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

实施例一

图1是本申请实施例一提供的图像的排版方法的流程图，本实施例可适于图像排版的情况，该方法可以由本申请实施例所提供的图像的排版装置运行，该装置可以由软件和/或硬件的方式来实现，并可集成于用于智能终端、服务器以及其他电子设备中。

如图1所示，所述图像的排版方法包括：

S110、获取构成目标图像的图像数据，并根据所述图像数据确定至少一个排版图层。

其中，目标图像即为需要得到的图像，例如可以是海报、杂志封面等。目标图像的图像数据，可以是包括图像的宽度、高度以及图像中各种元素的数据内容，例如背景颜色元素、文字元素以及图像元素等。其中，图像的宽度和高度可以是图像的像素点列数和像素点行数的值。针对背景颜色元素，可以是背景颜色的具体像素值，例如每个像素点的R、G、B三个通道的颜色分量值。针对文字元素和图像元素，可以是文字元素的范围，如矩形范围的宽度和高度，和图像元素的范围，如圆形的图像的半径大小。确定每种图像元素后，可以为每一种图像元素确定一个排版图层。其中，一个排版图层中可以包括由多个文字构成的文字元素，一个或者多个图像构成的图像元素以及背景元素等。其中，背景元素由于用于确定背景颜色，则所有的像素点均为有效像素点。而针对文字元素和图像元素，在文字和图像占用的像素点以外的像素点均为无效像素点，只有文字和图像所占用的像素点为有效像素点。因此，可以将无效像素点设置为无色透明的像素点，例如，像素点的颜色值为(255，255，255)，透明度可以设置为完全透明，即100％。

在本技术方案中，由于图像是由多个构建图层组成的，因此，可以将图像中的信息以三维矩阵的形式表现出来，例如可以是三维矩阵[x，y，n×4]，其中x，y分别是图像的宽度和高度，n×4代表了有n个图层，每一个图层是[x，y，4]的三维矩阵，其中，该图像的像素点参数包括RGBA四个参数，A为像素点的透明度。

S120、根据所述排版图层的初始位置拼接得到初始的图像状态，输入至强化学习模型，得到目标图像的目标图层以及目标图层的移动步长。

其中，可以将排版图层的随机初始位置进行拼接，得到初始图像的状态。其中图像状态可以采用上述示例中的三维矩阵来表示。得到初始的图像状态之后，可以将其输入至强化学习模型，由强化学习模型确定目标图像的目标图层，以及该目标图层的移动步长。

强化学习模型可以是预先训练得到的，可以是与评分网络模型共同构成的对抗网络模型，强化学习模型用于确定目标图层以及该目标图层的移动步长，并且由评分网络模型对该强化模型输出的移动结果进行评分。如果评分越高，则说明强化学习模型训练的越好。如果评分不高，则可以对强化学习模型进行更新，并重新输入至强化学习模型，得到新的输出结果，再进行判断。

S130、将所述目标图层按照目标图层的移动步长进行移动，并将移动后的图像状态输入至评分网络模型。

其中，所述评分网络模型可以是预先训练得到的，也可以是在需要使用时直接进行构建的网络模型。在确定目标图层按照目标图层的移动步长之后，可以按照该移动步长进行移动，并得到移动后的结果，即移动后的图像状态，并将该图像状态输入至评分网络模型进行评分。其中，评分网络模型可以是通过预先训练得到的。

S140、若评分网络模型的输出评分结果符合预设标准，则将当前图像状态确定为图像的排版结果。

当输入至评分网络模型之后，可以得到评分网络模型的输出评分结果，该结果可以是一个数值，还可以是一个范围值。进而再对该评分结果是否符合预设标准进行判断，其中预设标准可以是预设的认为符合人们审美观念的标准，例如打分超过90分则确定符合预设标准。或者打分为第一等级和第二等级则认为符合预设标准。进而，可以将得到的当前图像状态确定为图像的排版结果。

在上述技术方案的基础上，可选的，在将移动后的图像状态输入至评分网络模型之后，所述方法还包括：若评分网络模型的输出评分结果不符合预设标准，则将当前图像状态返回值强化学习模型，得到由强化学习模型确定的下一图像状态，并重新进行评分。在得到的评分结果不符合预设标准时，可以将当前图像状态返回值强化学习模型，以得到下一图像状态，并由评分网络模型对下一图像状态进行评分。在本方案中，可以对重新评分的次数进行限定，例如，可以设定为三次，即便得到的所有结果均不符合预设标准，在重新评分达到三次后终止。并可以返回相应的提示信息以提示用户无法得到一个满足预设标准的图像输出结果。本技术方案通过重新评分的设置，可以在得到的排版结果不是很理想的情况下进行重新排版，以满足用户的图像排版需求。

实施例二

图2是本申请实施例二提供的图像的排版方法的流程图，本实施例在上述实施例的基础上进行了进一步的优化，具体优化为：所述评分网络模型的训练过程包括：采集样本图像，并获取样本图像的标准分数，作为样本图像的分数标签；对所述样本图像进行图像数据的排版图层提取；根据所述样本图像排版图层的当前位置确定样本图像的当前状态，并将当前状态以及样本图像的分数标签输入至评分网络模型；根据所述评分网络模型的输出结果与样本图像的分数标签之间的关系，对所述评分网络模型进行有监督训练。

如图2所示，所述图像的排版方法包括：

S210、采集样本图像，并获取样本图像的标准分数，作为样本图像的分数标签。

其中，样本图像可以是预先采集的比较符合用户的审美观念的图像。以海报为例，则可以是预先采集的较多数量的真实海报。在本技术方案中，可以由用户预先对各个海报的排版情况进行评分，确定为标准分数。并将该标准分数作为该样本图像的分数标签。

S220、对所述样本图像进行图像数据的排版图层提取。

其中，可以以样本图像中的每一种图像元素进行图像数据的排版图层提取。例如将背景作为一个图层，将图像和文字分别作为相应的图层。

S230、根据所述样本图像排版图层的当前位置确定样本图像的当前状态，并将当前状态以及样本图像的分数标签输入至评分网络模型。

可以根据分数标签以及输出的评分结果，对评分网络模型进行有监督的训练。

在本实施例中，可选的，根据所述评分网络模型的输出结果与样本图像的分数标签之间的关系，对所述评分网络模型进行有监督训练，包括：根据样本图像的分数标签，确定所述评分网络模型的训练终止条件；若所述评分网络模型的输出结果符合所述训练终止条件，则结束对评分网络模型的训练；若所述评分网络模型的输出结果不符合所述训练终止条件，则将样本图像的当前状态输入至强化学习模型，得到样本图像的下一状态；根据所有的样本图像的状态数据，对所述强化学习模型的参数进行更新；其中，所述状态数据包括：针对当前状态的目标图层的移动步长和针对当前状态的评分网络模型的输出结果相关数据。

其中，可以根据分数标签，确定训练终止条件。例如该分数标签的评分为95分，则可以设计终止条件为95分以上或者90分以上。确定终止条件之后，可以确定该评分网络模型的输出结果是否符合该终止条件。若符合，则终止训练，并可以对其他采集的样本图像进行训练，或者完全终止对评分网络模型的训练。若不符合，则可以将该样本图像的当前状态输入至强化学习模型，得到样本图像的下一状态，并重新进行评分和确定下一状态的评分结果是否符合终止条件。在最终得到样本图像的评分结果符合终止条件之后，可以根据每一次输入至强化学习模型的图像状态，移动后的图像状态，评分网络模型的输出结果相关数据等状态数据，对强化学习模型进行更新。本技术方案通过这样的设置，可以更好的对强化学习模型和评分网络模型进行训练，从而可以实现无需人工参与设计和审核的图像排版过程。

在上述技术方案的基础上，可选的，针对当前状态的评分网络模型的输出结果相关数据包括：针对当前状态的评分网络模型的输出结果，采用奖赏函数得到的奖赏值。其中，奖赏函数可以是预先设置的，可以通过奖赏函数对评分结果进行计算，得到本轮评分的奖赏值，并以该奖赏值作为对强化学习模型进行更新的数据基础。由此可以提高模型训练的精度和效率，可以更加准确和快速的得到强化学习模型。

本技术方案通过这样的设置，可以采用真实的海报等图像对模型进行训练，进而得到符合用户需求的对抗网络模型，从而提高该对抗网络模型中强化学习模型和评分网络模型的准确度。

在上述各技术方案的基础上，可选的，在对所述评分网络模型进行有监督训练之后，所述方法还包括：获取测试图像，并对所述测试图像进行图像数据的排版图层提取；根据所述测试图像排版图层的当前位置确定测试图像的当前状态，并输入至强化学习模型，得到测试图像的目标图层以及目标图层的移动步长；将所述测试图像的目标图层按照目标图层的移动步长进行移动，并将移动后的图像状态确定为测试图像的排版结果。其中，可以在完成训练之后，采用测试图像对训练得到的强化学习模型和评分网络模型进行测试，从而得到最终的输出结果。可以在得到输出结果之后，将得到的图像排版结果和评分结果供用户审核，如果排版和评分均符合用户的设计需求，则说明对抗网络模型的训练结果可以使用，如果不符合设计需求，则可以把对抗网络模型进行进一步的更新，得到更好的输出结果。

为了能够让本领域技术人员更加清楚的了解本方案，本申请还提供了以下优选实施方式。

本方法直接用图层还原元素的真实信息，用各个图层拼接在一起，合成一幅真实的海报，介于真实海报训练的一个深度学习评分网络，通过卷积和上下采样等特征提取的方法，能很好地评价海报的质量，解决了框架排版的方法中矩形框不能很好的拟合元素轮廓以及元素与元素间、元素与背景间的颜色搭配突兀等问题。而通过卷积和上下采样等方式提取的图像特征，还能被用于强化学习更好地对海报进行排版。进而大幅度提升了强化学习生成的海报的质量和多样性，更符合专业设计师的审美要求。

训练数据集的处理过程包括：

(1)，由专业设计师提供大量优质海报，将每一个海报里的每个图层单独提取出来，得到[x，y，n×4]的图像数据，其中x，y分别是海报的宽和高，n×4代表了有n个图层，每一个图层是[x，y，4]，代表着一个海报元素的图像，其为RGBA图像，把每一个图层拼接起来得到[x，y，n×4]，将该状态记为s；

(2)，将得到的s，输入强化学习模型中，强化学习根据输入的图像数据信息，输出一个动作a的指示：移动对应的图层，准确的说是该图层对应的所有有效像素点以某个方向移动单位步长。

(3)，步骤(2)得到新状态s’，其数据结构也是三维矩阵[x，y，4×n]，通过每个图层的A通道将所有图层组合成一张完整的新海报，此时数据是[x，y，4]，记为X。

(4)，步骤(3)得到的海报数据X输入评分网络模型，会得到一个对海报符合设计师审美的分数Score，该分数经过奖赏函数转换得到奖赏值r。该评分网络模型可以是基于深度学习模型设计的一个分类器，训练数据是海量专业设计师设计的各种等级的海报，并对每一张海报由专业设计师给予一个分数标签，输入是一张完整的海报，即三维矩阵[x，y，4]，其中x，y分别是海报的宽和高，4是该海报的RGBA值，输出是评分网络模型预测该海报的一个分数等级，该分数衡量该海报是否符合专业设计师的审美。评分网络模型就是海量海报以及海报对应的分数标签对评分网络模型进行有监督学习而来。

(5)，根据评估网路的结果Score，判断是否达到终止条件，记为is_end，若is_end为False，储存此时的移动过程数据[s，a，s’，r，is_end]，并将s＝s’继续执行步骤(2)。直到is_end为True，则结束本轮循环。若为训练阶段，将本轮储存的所有的[[s，s’，a，r，is_end]1，……，[s，s’，a，r，is_end]n]传递回强化学习模型进行网络参数更新。若为测试阶段，则直接得到排版好的海报。

实施例三

图3是本申请实施例三提供的图像的排版装置的结构示意图。如图3所示，所述图像的排版装置，包括：

排版图层确定模块310，用于获取构成目标图像的图像数据，并根据所述图像数据确定至少一个排版图层；

移动步长确定模块320，用于根据所述排版图层的初始位置拼接得到初始的图像状态，输入至强化学习模型，得到目标图像的目标图层以及目标图层的移动步长；

图像状态更新模块330，用于将所述目标图层按照目标图层的移动步长进行移动，并将移动后的图像状态输入至评分网络模型；

排版结果确定模块340，用于若评分网络模型的输出评分结果符合预设标准，则将当前图像状态确定为图像的排版结果。

可选的，所述装置还包括：

上述产品可运行本申请任意实施例所提供的方法，具备运行方法相应的功能模块和有益效果。

实施例四

本申请实施例还提供一种包含计算机可运行指令的存储介质，所述计算机可运行指令在由计算机处理器运行时用于运行一种图像的排版方法，该方法包括：

存储介质——任何的各种类型的存储器设备或存储设备。术语“存储介质”旨在包括：安装介质，例如CD-ROM、软盘或磁带装置；计算机系统存储器或随机存取存储器，诸如DRAM、DDR RAM、SRAM、EDO RAM，兰巴斯(Rambus)RAM等；非易失性存储器，诸如闪存、磁介质(例如硬盘或光存储)；寄存器或其它相似类型的存储器元件等。存储介质可以还包括其它类型的存储器或其组合。另外，存储介质可以位于程序在其中被运行的计算机系统中，或者可以位于不同的第二计算机系统中，第二计算机系统通过网络(诸如因特网)连接到计算机系统。第二计算机系统可以提供程序指令给计算机用于运行。术语“存储介质”可以包括可以驻留在不同位置中(例如在通过网络连接的不同计算机系统中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器运行的程序指令(例如具体实现为计算机程序)。

当然，本申请实施例所提供的一种包含计算机可运行指令的存储介质，其计算机可运行指令不限于如上所述的图像的排版操作，还可以运行本申请任意实施例所提供的图像的排版方法中的相关操作。

实施例五

本申请实施例提供了一种电子设备，该电子设备中可集成本申请实施例提供的图像的排版装置。图4是本申请实施例五提供的一种电子设备的结构示意图。如图4所示，本实施例提供了一种电子设备400，其包括：一个或多个处理器420；存储装置410，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器420运行，使得所述一个或多个处理器420实现本申请实施例所提供的图像的排版方法，该方法包括：

当然，本领域技术人员可以理解，处理器420还可以实现本申请任意实施例所提供的图像的排版方法的技术方案。

图4显示的电子设备400仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图4所示，该电子设备400包括处理器420、存储装置410、输入装置430和输出装置440；电子设备中处理器420的数量可以是一个或多个，图4中以一个处理器420为例；电子设备中的处理器420、存储装置410、输入装置430和输出装置440可以通过总线或其他方式连接，图4中以通过总线450连接为例。

存储装置410作为一种计算机可读存储介质，可用于存储软件程序、计算机可运行程序以及模块单元，如本申请实施例中的图像的排版方法对应的程序指令。

存储装置410可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储装置410可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储装置410可进一步包括相对于处理器420远程设置的存储器，这些远程存储器可以通过网络连接。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置430可用于接收输入的数字、字符信息或语音信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入。输出装置440可包括显示屏、扬声器等设备。

本申请实施例提供的电子设备，可以实现在测试过程中，可以实现在有标签的训练样本资源有限的情况下，能够保证高质量的模型训练效果，无需消耗大量的人力资源对较多数据进行标注标签的目的。

上述实施例中提供的图像的排版装置、介质及电子设备可运行本申请任意实施例所提供的图像的排版方法，具备运行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节，可参见本申请任意实施例所提供的图像的排版方法。

注意，上述仅为本申请的较佳实施例及所运用技术原理。本领域技术人员会理解，本申请不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此，虽然通过以上实施例对本申请进行了较为详细的说明，但是本申请不仅仅限于以上实施例，在不脱离本申请构思的情况下，还可以包括更多其他等效实施例，而本申请的范围由所附的权利要求范围决定。

Claims

1.一种图像的排版方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，在将移动后的图像状态输入至评分网络模型之后，所述方法还包括：

3.根据权利要求1或2所述的方法，其特征在于，所述评分网络模型的训练过程包括：

对所述样本图像进行图像数据的排版图层提取；

4.根据权利要求3所述的方法，其特征在于，根据所述评分网络模型的输出结果与样本图像的分数标签之间的关系，对所述评分网络模型进行有监督训练，包括：

5.根据权利要求4所述的方法，其特征在于，针对当前状态的评分网络模型的输出结果相关数据包括：针对当前状态的评分网络模型的输出结果，采用奖赏函数得到的奖赏值。

6.根据权利要求3所述的方法，其特征在于，在对所述评分网络模型进行有监督训练之后，所述方法还包括：

7.一种图像的排版装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-6中任一项所述的图像的排版方法。

10.一种电子设备，包括存储器，处理器及存储在存储器上并可在处理器运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-6中任一项所述的图像的排版方法。