CN108597002A - 一种基于深度强化学习的自动布局装置 - Google Patents
一种基于深度强化学习的自动布局装置 Download PDFInfo
- Publication number
- CN108597002A CN108597002A CN201810235952.XA CN201810235952A CN108597002A CN 108597002 A CN108597002 A CN 108597002A CN 201810235952 A CN201810235952 A CN 201810235952A CN 108597002 A CN108597002 A CN 108597002A
- Authority
- CN
- China
- Prior art keywords
- intelligent body
- environment
- behavior
- weighting parameter
- intelligent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/60—Editing figures and text; Combining figures or text
Landscapes
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明涉及一种图文平面设计技术领域,提供一种基于深度强化学习的自动布局装置,根据所述基于深度强化学习的自动布局装置,可以在不同的设计背景尺寸,对于多段文字与图片输入依据装置模型参数快速的自动布局结构,并且可以快速适应在各种不同的场景上。
Description
技术领域
本发明涉及图文平面设计技术领域,特别涉及一种基于深度强化学习的自动布局装置。
背景技术
当我们面对多图与多段文字,要产生优良的布局结果,一般依赖传统的模板或者规则的套用方法,此方法虽然可以快速产生效果不错的布局,但是其缺点是前期需要人工制作大量模板,因此模板质量与数量决定了最后产出,对于输入的内容数量也必须限制,否则无法正确适配模板,无法产生质量良好的布局效果。
发明内容
因此,针对上述的问题,本发明提出一种基于深度强化学习的自动布局装置,在面对多图与多段文字的输入内容时,可以根据装置学习的算法与模型,以自动产生高质量的布局输出,解决现有技术中对模板与规则的依赖性。
为实现上述技术问题,本发明采取的解决方案为:一种基于深度强化学习的自动布局装置,包括环境、通信模组、智能体和裁判模组;智能体共有N 个;
环境是由同处于一个尺寸范围内的多个文字区块和图片区块构成;
所述通信模组为各个智能体相互传递信息,实现各智能体之间的消息共享,所述通信模组所传递的信息包含有各个智能体的局部观测历史和行为;
基于同一环境,各个智能体分别对应构建一个布局特征的优化场景,各个智能体分别维持一个行为网络,在行为网络中,智能体局部观测环境中与其对应相关的布局特征信息,对布局特征信息进行参数改变的行为,智能体在一个行为完成时获得一个对应环境奖励,同时,智能体结合通信模组传递的信息、其自身的局部观测,根据策略函数以决策下一次行为,完成一次智能体与环境的交互;
所述裁判模组通过评估函数以预估行为执行时未来环境全局的奖励期望;当奖励期望值最大时,对应的行为应用即最优的布局效果。
其中,所述通信模组传递的信息为:
是由所有智能体的观测组成的观测向量,
是由所有智能体的行为组成的行为向量,
ψ是LSTM网络的权值参数;
LSTM网络的权值参数ψ的更新方程为:
各个智能体能够分别根据通信模组传递的信息凝合得到全局状态:
所述智能体根据策略函数决定自己的行为:
是策略函数的权值参数;同时,智能体从环境中对应得到一个环境奖励并将状态由st更新为st+1;
权值参数的更新方程为:
全体智能体的权值参数梯度为:
所述裁判模组通过评估函数预估未来环境全局的奖励期望,评估函数为
φ为评估函数的权值参数;
评估函数的权值参数φ通过最小化损失函数来更新:
其中,γ为学习效率,φ为评估函数的权值参数。
通过采用前述技术方案,本发明的有益效果是:如上所述设计的基于深度强化学习的自动布局装置,建立了深度强化学习模型,包括全局的裁判模组、通信模组和多个分别独立的智能体,在装置中,每个智能体分别对应一个布局特征的优化,每个智能体产生一个排序策略,然后学习自己的策略函数,该函数可以将自己的状态映射到一个行为上,每个时间点上,智能体通过返回一个行为决策给环境,完成一次智能体与环境的交互;通信模型用来生产消息,所有的消息可以被多个智能体共享,每条消息编码了全局环境观测与所有智能体的行为,被用于凝合全局的环境状态,这解决了每个智能体只接收局部观测,却不能得到全局状态的问题,实现多个智能体的协同合作,期望达到整体的最大奖励收益;同时,裁判模组会维护一个(行为-值)函数,该函数表示,在当前状态下,执行一个行为时,未来环境全局的奖励期望,当奖励期望值最大时,对应的行为应用即最优的布局效果,以输出最优布局;因此,基于深度强化学习的自动布局装置,在面对多图与多段文字的输入内容时,可以根据装置学习的算法与模型,以自动产生高质量的布局输出,解决现有技术中对模板与规则的依赖性。
附图说明
图1、本发明实施例的结构原理框图。
具体实施方式
现结合附图和具体实施例对本发明进一步说明。
参考图1,本发明实施例揭示的是,一种基于深度强化学习的自动布局装置,包括环境、通信模组、智能体和裁判模组;智能体共有N个;
环境是由同处于一个尺寸范围内的多个文字区块和图片区块构成;
所述通信模组为各个智能体相互传递信息,实现各智能体之间的消息共享,所述通信模组所传递的信息包含有各个智能体的局部观测历史和行为;
基于同一环境,各个智能体分别对应构建一个布局特征的优化场景,各个智能体分别维持一个行为网络,在行为网络中,智能体局部观测环境中与其对应相关的布局特征信息,对布局特征信息进行参数改变的行为,智能体在一个行为完成时获得一个对应环境奖励,同时,智能体结合通信模组传递的信息、其自身的局部观测,根据策略函数以决策下一次行为,完成一次智能体与环境的交互;
所述裁判模组通过评估函数以预估行为执行时未来环境全局的奖励期望;当奖励期望值最大时,对应的行为应用即最优的布局效果。
其中,所述通信模组传递的信息为:
是由所有智能体的观测组成的观测向量,
是由所有智能体的行为组成的行为向量,
ψ是LSTM网络的权值参数;
LSTM网络的权值参数ψ的更新方程为:
各个智能体能够分别根据通信模组传递的信息凝合得到全局状态:
所述智能体根据策略函数决定自己的行为:
是策略函数的权值参数;
同时,智能体从环境中对应得到一个环境奖励并将状态由st更新为st+1;
权值参数的更新方程为:
全体智能体的权值参数梯度为:
所述裁判模组通过评估函数预估未来环境全局的奖励期望,评估函数为
φ为评估函数的权值参数;
评估函数的权值参数φ通过最小化损失函数来更新:
其中,γ为学习效率,φ为评估函数的权值参数。
综上所述设计的述基于深度强化学习的自动布局装置,在面对多图与多段文字的输入内容时,可以根据装置学习的算法与模型,以自动产生高质量的布局输出,解决现有技术中对模板与规则的依赖性。
以上所记载,仅为利用本创作技术内容的实施例,任何熟悉本项技艺者运用本创作所做的修饰、变化,皆属本创作主张的专利范围,而不限于实施例所揭示者。
Claims (2)
1.一种基于深度强化学习的自动布局装置,其特征在于:包括环境、通信模组、智能体和裁判模组;智能体共有N个;
环境是由同处于一个尺寸范围内的多个文字区块和图片区块构成;
所述通信模组为各个智能体相互传递信息,实现各智能体之间的消息共享,所述通信模组所传递的信息包含有各个智能体的局部观测历史和行为;
基于同一环境,各个智能体分别对应构建一个布局特征的优化场景,各个智能体分别维持一个行为网络,在行为网络中,智能体局部观测环境中与其对应相关的布局特征信息,对布局特征信息进行参数改变的行为,智能体在一个行为完成时获得一个对应环境奖励,同时,智能体结合通信模组传递的信息、其自身的局部观测,根据策略函数以决策下一次行为,完成一次智能体与环境的交互;
所述裁判模组通过评估函数以预估行为执行时未来环境全局的奖励期望;当奖励期望值最大时,对应的行为应用即最优的布局效果。
2.根据权利要求1所述的基于深度强化学习的自动布局装置,其特征在于:
所述通信模组传递的信息为:
是由所有智能体的观测组成的观测向量,
是由所有智能体的行为组成的行为向量,
ψ是LSTM网络的权值参数;
LSTM网络的权值参数ψ的更新方程为:
各个智能体能够分别根据通信模组传递的信息凝合得到全局状态:
所述智能体根据策略函数决定自己的行为:
是策略函数的权值参数;
同时,智能体从环境中对应得到一个环境奖励并将状态由st更新为st+1;
权值参数的更新方程为:
全体智能体的权值参数梯度为:
所述裁判模组通过评估函数预估未来环境全局的奖励期望,评估函数为
φ为评估函数的权值参数;
评估函数的权值参数φ通过最小化损失函数来更新:
其中,γ为学习效率,φ为评估函数的权值参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810235952.XA CN108597002A (zh) | 2018-03-21 | 2018-03-21 | 一种基于深度强化学习的自动布局装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810235952.XA CN108597002A (zh) | 2018-03-21 | 2018-03-21 | 一种基于深度强化学习的自动布局装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108597002A true CN108597002A (zh) | 2018-09-28 |
Family
ID=63627104
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810235952.XA Withdrawn CN108597002A (zh) | 2018-03-21 | 2018-03-21 | 一种基于深度强化学习的自动布局装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108597002A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109740243A (zh) * | 2018-12-29 | 2019-05-10 | 江苏艾佳家居用品有限公司 | 一种基于分件强化学习技术的家具布局方法及系统 |
CN110222324A (zh) * | 2019-05-21 | 2019-09-10 | 上海阿几网络技术有限公司 | 一种基于文字段落结构和字号变化率的自动布局装置 |
CN110471297A (zh) * | 2019-07-30 | 2019-11-19 | 清华大学 | 多智能体协同控制方法、系统及设备 |
CN111582439A (zh) * | 2020-04-14 | 2020-08-25 | 清华大学 | 状态部分可观测强化学习算法的高效采样更新方法及装置 |
CN113261003A (zh) * | 2018-12-04 | 2021-08-13 | 谷歌有限责任公司 | 使用神经网络生成集成电路平面图 |
WO2023041022A1 (en) * | 2021-09-17 | 2023-03-23 | Huawei Technologies Co., Ltd. | System and method for computer-assisted design of inductor for voltage-controlled oscillator |
-
2018
- 2018-03-21 CN CN201810235952.XA patent/CN108597002A/zh not_active Withdrawn
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113261003A (zh) * | 2018-12-04 | 2021-08-13 | 谷歌有限责任公司 | 使用神经网络生成集成电路平面图 |
CN109740243A (zh) * | 2018-12-29 | 2019-05-10 | 江苏艾佳家居用品有限公司 | 一种基于分件强化学习技术的家具布局方法及系统 |
CN109740243B (zh) * | 2018-12-29 | 2022-07-08 | 江苏艾佳家居用品有限公司 | 一种基于分件强化学习技术的家具布局方法及系统 |
CN110222324A (zh) * | 2019-05-21 | 2019-09-10 | 上海阿几网络技术有限公司 | 一种基于文字段落结构和字号变化率的自动布局装置 |
CN110222324B (zh) * | 2019-05-21 | 2022-11-08 | 上海阿几网络技术有限公司 | 一种基于文字段落结构和字号变化率的自动布局装置 |
CN110471297A (zh) * | 2019-07-30 | 2019-11-19 | 清华大学 | 多智能体协同控制方法、系统及设备 |
CN111582439A (zh) * | 2020-04-14 | 2020-08-25 | 清华大学 | 状态部分可观测强化学习算法的高效采样更新方法及装置 |
CN111582439B (zh) * | 2020-04-14 | 2021-08-10 | 清华大学 | 状态部分可观测强化学习算法的高效采样更新方法及装置 |
WO2023041022A1 (en) * | 2021-09-17 | 2023-03-23 | Huawei Technologies Co., Ltd. | System and method for computer-assisted design of inductor for voltage-controlled oscillator |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108597002A (zh) | 一种基于深度强化学习的自动布局装置 | |
CN109039942B (zh) | 一种基于深度强化学习的网络负载均衡系统及均衡方法 | |
CN112202672B (zh) | 一种基于业务服务质量需求的网络路由转发方法和系统 | |
Gellner et al. | Reconciling the omnivory-stability debate | |
Nguyen et al. | Distributed deep deterministic policy gradient for power allocation control in D2D-based V2V communications | |
CN108075975B (zh) | 一种物联网环境中的路由传输路径的确定方法及确定系统 | |
CN104641598A (zh) | 用于混合通信网络的转发表 | |
CN109413707B (zh) | 无线网络环境下基于深度强化学习技术的智能路由方法 | |
CN104901989A (zh) | 一种现场服务提供系统及方法 | |
EP2357764A1 (en) | Traffic shaping scheduling method, traffic shaping scheduling apparatus, and routing device | |
WO2023109699A1 (zh) | 一种多智能体的通信学习方法 | |
CN111010341B (zh) | 一种基于深度学习的覆盖网络路由决策方法 | |
CN111431588A (zh) | 一种光通信星座网络拓扑生成方法及存储介质 | |
US20220247667A1 (en) | Method and Apparatus for Inter-Domain Data Interaction | |
Gao et al. | Resource allocation via graph neural networks in free space optical fronthaul networks | |
CN115665227A (zh) | 一种普适的异构融合算网资源智慧适配网络架构及方法 | |
Abdel-Kader | An improved discrete PSO with GA operators for efficient QoS-multicast routing | |
CN106230737A (zh) | 一种状态感知的软件定义组网方法 | |
Wang et al. | Dynamic Routing Algorithm with Q-learning for Internet of things with Delayed Estimator | |
Wang et al. | I-CSMA: A link-scheduling algorithm for wireless networks based on Ising model | |
Malandrino et al. | Energy-efficient Training of Distributed DNNs in the Mobile-edge-cloud Continuum | |
CN110224861A (zh) | 基于学习的自适应动态异构网络选择策略的实现方法 | |
Zhou et al. | Event-based bipartite consensus on signed networks | |
Zhang et al. | QoE-driven scheme for multimedia content dissemination in device-to-device communication | |
US10091069B2 (en) | Method for modelling information transmission network having hierarchical structure and apparatus thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20181224 Address after: Room J37, Room 108, 1st Floor, Building 6988, North Jiasong Road, Anting Town, Jiading District, Shanghai, 201800 Applicant after: SHANGHAI MUCHUAN INDUSTRIAL DESIGN Co.,Ltd. Address before: 200050 No. 900 Yan'an West Road, Changning District, Shanghai Applicant before: Li Ronglu |
|
TA01 | Transfer of patent application right | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20180928 |
|
WW01 | Invention patent application withdrawn after publication |