CN108597002A

CN108597002A - 一种基于深度强化学习的自动布局装置

Info

Publication number: CN108597002A
Application number: CN201810235952.XA
Authority: CN
Inventors: 李荣陆; 王心磊
Original assignee: Individual
Current assignee: Shanghai Muchuan Industrial Design Co ltd
Priority date: 2018-03-21
Filing date: 2018-03-21
Publication date: 2018-09-28

Abstract

本发明涉及一种图文平面设计技术领域，提供一种基于深度强化学习的自动布局装置，根据所述基于深度强化学习的自动布局装置，可以在不同的设计背景尺寸，对于多段文字与图片输入依据装置模型参数快速的自动布局结构，并且可以快速适应在各种不同的场景上。

Description

一种基于深度强化学习的自动布局装置

技术领域

本发明涉及图文平面设计技术领域，特别涉及一种基于深度强化学习的自动布局装置。

背景技术

当我们面对多图与多段文字，要产生优良的布局结果，一般依赖传统的模板或者规则的套用方法，此方法虽然可以快速产生效果不错的布局，但是其缺点是前期需要人工制作大量模板，因此模板质量与数量决定了最后产出，对于输入的内容数量也必须限制，否则无法正确适配模板，无法产生质量良好的布局效果。

发明内容

因此，针对上述的问题，本发明提出一种基于深度强化学习的自动布局装置，在面对多图与多段文字的输入内容时，可以根据装置学习的算法与模型，以自动产生高质量的布局输出，解决现有技术中对模板与规则的依赖性。

为实现上述技术问题，本发明采取的解决方案为：一种基于深度强化学习的自动布局装置，包括环境、通信模组、智能体和裁判模组；智能体共有N 个；

环境是由同处于一个尺寸范围内的多个文字区块和图片区块构成；

所述通信模组为各个智能体相互传递信息，实现各智能体之间的消息共享，所述通信模组所传递的信息包含有各个智能体的局部观测历史和行为；

基于同一环境，各个智能体分别对应构建一个布局特征的优化场景，各个智能体分别维持一个行为网络，在行为网络中，智能体局部观测环境中与其对应相关的布局特征信息，对布局特征信息进行参数改变的行为，智能体在一个行为完成时获得一个对应环境奖励，同时，智能体结合通信模组传递的信息、其自身的局部观测，根据策略函数以决策下一次行为，完成一次智能体与环境的交互；

所述裁判模组通过评估函数以预估行为执行时未来环境全局的奖励期望；当奖励期望值最大时，对应的行为应用即最优的布局效果。

其中，所述通信模组传递的信息为：

是由所有智能体的观测组成的观测向量，

是由所有智能体的行为组成的行为向量，

ψ是LSTM网络的权值参数；

LSTM网络的权值参数ψ的更新方程为：

各个智能体能够分别根据通信模组传递的信息凝合得到全局状态：

所述智能体根据策略函数决定自己的行为：

是策略函数的权值参数；同时，智能体从环境中对应得到一个环境奖励并将状态由s_t更新为s_t+1；

权值参数的更新方程为：

全体智能体的权值参数梯度为：

所述裁判模组通过评估函数预估未来环境全局的奖励期望，评估函数为

φ为评估函数的权值参数；

评估函数的权值参数φ通过最小化损失函数来更新：

其中，γ为学习效率，φ为评估函数的权值参数。

通过采用前述技术方案，本发明的有益效果是：如上所述设计的基于深度强化学习的自动布局装置，建立了深度强化学习模型，包括全局的裁判模组、通信模组和多个分别独立的智能体，在装置中，每个智能体分别对应一个布局特征的优化，每个智能体产生一个排序策略，然后学习自己的策略函数，该函数可以将自己的状态映射到一个行为上，每个时间点上，智能体通过返回一个行为决策给环境，完成一次智能体与环境的交互；通信模型用来生产消息，所有的消息可以被多个智能体共享，每条消息编码了全局环境观测与所有智能体的行为，被用于凝合全局的环境状态，这解决了每个智能体只接收局部观测，却不能得到全局状态的问题，实现多个智能体的协同合作，期望达到整体的最大奖励收益；同时，裁判模组会维护一个(行为-值)函数，该函数表示，在当前状态下，执行一个行为时，未来环境全局的奖励期望，当奖励期望值最大时，对应的行为应用即最优的布局效果，以输出最优布局；因此，基于深度强化学习的自动布局装置，在面对多图与多段文字的输入内容时，可以根据装置学习的算法与模型，以自动产生高质量的布局输出，解决现有技术中对模板与规则的依赖性。

附图说明

图1、本发明实施例的结构原理框图。

具体实施方式

现结合附图和具体实施例对本发明进一步说明。

参考图1，本发明实施例揭示的是，一种基于深度强化学习的自动布局装置，包括环境、通信模组、智能体和裁判模组；智能体共有N个；

其中，所述通信模组传递的信息为：

是由所有智能体的观测组成的观测向量，

是由所有智能体的行为组成的行为向量，

ψ是LSTM网络的权值参数；

LSTM网络的权值参数ψ的更新方程为：

所述智能体根据策略函数决定自己的行为：

是策略函数的权值参数；

同时，智能体从环境中对应得到一个环境奖励并将状态由s_t更新为s_t+1；

权值参数的更新方程为：

全体智能体的权值参数梯度为：

φ为评估函数的权值参数；

评估函数的权值参数φ通过最小化损失函数来更新：

其中，γ为学习效率，φ为评估函数的权值参数。

综上所述设计的述基于深度强化学习的自动布局装置，在面对多图与多段文字的输入内容时，可以根据装置学习的算法与模型，以自动产生高质量的布局输出，解决现有技术中对模板与规则的依赖性。

以上所记载，仅为利用本创作技术内容的实施例，任何熟悉本项技艺者运用本创作所做的修饰、变化，皆属本创作主张的专利范围，而不限于实施例所揭示者。

Claims

1.一种基于深度强化学习的自动布局装置，其特征在于：包括环境、通信模组、智能体和裁判模组；智能体共有N个；

2.根据权利要求1所述的基于深度强化学习的自动布局装置，其特征在于：

所述通信模组传递的信息为：

是由所有智能体的观测组成的观测向量，

是由所有智能体的行为组成的行为向量，

ψ是LSTM网络的权值参数；

LSTM网络的权值参数ψ的更新方程为：

所述智能体根据策略函数决定自己的行为：

是策略函数的权值参数；

权值参数的更新方程为：

全体智能体的权值参数梯度为：

φ为评估函数的权值参数；

评估函数的权值参数φ通过最小化损失函数来更新：

其中，γ为学习效率，φ为评估函数的权值参数。