CN111062105A - 一种基于强化学习的区域规划设计方法 - Google Patents

一种基于强化学习的区域规划设计方法 Download PDF

Info

Publication number
CN111062105A
CN111062105A CN201911084070.9A CN201911084070A CN111062105A CN 111062105 A CN111062105 A CN 111062105A CN 201911084070 A CN201911084070 A CN 201911084070A CN 111062105 A CN111062105 A CN 111062105A
Authority
CN
China
Prior art keywords
layout
reinforcement learning
road
agent
planning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911084070.9A
Other languages
English (en)
Other versions
CN111062105B (zh
Inventor
吕培
陈伟超
张权
徐明亮
周兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou University
Original Assignee
Zhengzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou University filed Critical Zhengzhou University
Priority to CN201911084070.9A priority Critical patent/CN111062105B/zh
Publication of CN111062105A publication Critical patent/CN111062105A/zh
Application granted granted Critical
Publication of CN111062105B publication Critical patent/CN111062105B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Remote Sensing (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种基于强化学习的区域规划设计方法。该方法包括步骤有规划道路、区域划分、学习优化和非拓扑变换,首先由布局图表示道路网络的拓扑结构,采用包围盒算法,对道路网络拓扑结构采用递归的方法进行区域划分,再基于强化学习将每个道路交叉节点视为一个Agent,多个Agent在公共环境下共同学习,依此优化道路网络中的道路交叉点;基于仿射变换实现非拓扑变换操作,进一步优化布局并返回最优布局状态。该方法将区域规划设计中融入了机器学习的方法,构建了一个基于强化学习的布局学习框架,布局设计时是基于已学习到的知识,不用像传统方法实时计算最优解,在设计同等规模布局时,时间会大大缩短。

Description

一种基于强化学习的区域规划设计方法
技术领域
本发明涉及计算机图形学领域,尤其涉及一种基于强化学习的区域规划设计方法。
背景技术
城市道路和建筑布局设计作为计算机图形学领域的研究热点,可以通过计算机自动、快速生成大面积城市布局。
现有技术中,又发展出允许用户编辑的自动生成道路网络模型的方法,采用不同的几何图生成具有等级划分的道路网络结构的方法,交互编辑的城市道路网络生成模型等。
尽管如今已经有大量的研究方法进行布局设计,但是多以人机交互方式为主,并没有实现完全计算机自主生成。
发明内容
本发明主要解决的技术问题是提供一种基于强化学习的区域规划设计方法,解决现有技术中道路布局设计不能实现自主学习、机器学习的问题。
为解决上述技术问题,本发明采用的一个技术方案是提供一种基于强化学习的区域规划设计方法,包括以下步骤:
规划道路,首先定义道路网络的拓扑结构,由布局图表示所述道路网络的拓扑结构,采用邻接矩阵或邻接表的方法保存所述道路网络的拓扑结构;区域划分,采用包围盒算法,以包围盒长轴中心点为基准,对所述道路网络拓扑结构采用递归的方法进行区域划分;学习优化,采用强化学习方法,将每个道路交叉节点定义为一个Agent,多个Agent在公共环境下共同学习,优化定义所述道路网络中的道路交叉点;非拓扑变换,基于仿射变换实现非拓扑变换操作,进一步优化所述道路网络中的道路交叉点,返回最优布局状态。
在本发明基于强化学习的区域规划设计方法另一实施例中,在所述规划道路步骤中,根据拓扑结构将布局构建成一张布局图G={V,E},V表示节点集合,E表示道路集合,每个节点v∈V包括道路交叉点、布局入口点或者建筑的门;每条边e∈E表示一条道路,所有节点和道路组成道路网络,布局入口点之间不直接相连。
在本发明基于强化学习的区域规划设计方法另一实施例中,通过邻接矩阵或邻接表的方式存储布局图中的各个节点和道路。
在本发明基于强化学习的区域规划设计方法另一实施例中,在所述包围盒算法中,计算最小区域OBB范围方法包括:
假设在布局图对应的空间块上划分出n个三角形,其中第i个三角形面片中心点oi、表面积Si,空间块的总面积为W,计算公式如下所示:
oi=(pi、qi、ri)/3,
其中,pi、qi、ri分别为第i个三角形的三个顶点的矢量;
三角形面片表面积:
Si=|(pi-qi)×(pi-ri)|/2,
空间块的总面积:
Figure BDA0002264851240000021
则包围盒的中心点O:
Figure BDA0002264851240000022
计算协方差:
Figure BDA0002264851240000023
其中,j和k代表了包围盒的中心点O坐标(x,y,z)的分量(1≤j,k≤3),对应协方差矩阵的相应位置。
在本发明基于强化学习的区域规划设计方法另一实施例中,所述布局图的区域被分成两个较小的区域,这些小区域被递归地分成更多的区域,直到得到的区域的面积全部在(Amin,Amax)之内,或者区域的宽度在(Wmin,Wmax)之内,(Amin,Amax)、(Wmin,Wmax)分别表示最终划分的区域面积的最小值Amin与区域面积的最大值Amax构成的取值区间,区域宽度的最小值Wmin与区域宽度的最大值Wmax构成的取值区间。
在本发明基于强化学习的区域规划设计方法另一实施例中,在所述强化学习方法中,采用平均场强化学习,将Agent与其他Agent的交流变成单个Agent之间的交流,具体方法是:基于Agent j邻域,计算平均动作
Figure BDA0002264851240000031
且如下公式:
Figure BDA0002264851240000032
其中:
Figure BDA0002264851240000033
为Agent j根据其邻域采取行动的经验分布,δ为折扣因子,N为Agent的数量,ak为Agent k的one-hot动作,aj,k为Agent j,k的one-hot动作。
在本发明基于强化学习的区域规划设计方法另一实施例中,进一步利用用Q函数表示为:
Figure BDA0002264851240000034
其中,s为Agent当前状态,a为Agent执行的动作,Qj为Agent j的Q函数。
在本发明基于强化学习的区域规划设计方法另一实施例中,通过学习优化返回两个决策序列,第一个序列是每个Agent的移动方向θ,第二个序列是每个Agent的移动距离l,若Agent所在点为(x0,y0),目标点为(x1,y1),则可计算出移动方向对应的角度θ=arctan(Δy/Δx),移动距离
Figure BDA0002264851240000035
其中Δx=x1-x0,Δy=y1-y0
在本发明基于强化学习的区域规划设计方法另一实施例中,对于非拓扑变换T用仿射变换实现,非拓扑变换表示为
Figure BDA0002264851240000041
A为仿射变换,W为每个节点
Figure BDA0002264851240000042
的权重wv∈[0,1],仿射变换表示为:
Figure BDA0002264851240000043
其中:x,y为非拓扑变换前的坐标点;x*,y*为非拓扑变换后的坐标点;tx,ty,ai(i=1-4)为仿射变换矩阵的参数,(tx,ty)表示平移量,而参数ai则反映了图像旋转、缩放变化。
本发明的有益效果是:本发明公开了一种基于强化学习的区域规划设计方法。该方法包括步骤有规划道路、区域划分、学习优化和非拓扑变换,首先由布局图表示道路网络的拓扑结构,采用包围盒算法,对道路网络拓扑结构采用递归的方法进行区域划分,再基于强化学习将每个道路交叉节点视为一个Agent,多个Agent在公共环境下共同学习,依此优化道路网络中的道路交叉点;基于仿射变换实现非拓扑变换操作,进一步优化布局并返回最优布局状态。该方法将区域规划设计中融入了机器学习的方法,构建了一个基于强化学习的布局学习框架,布局设计时是基于已学习到的知识,不用像传统方法实时计算最优解,在设计同等规模布局时,时间会大大缩短。
附图说明
图1是根据本发明基于强化学习的区域规划设计方法一实施例的流程图;
图2是根据本发明基于强化学习的区域规划设计方法另一实施例中的布局拓扑示意图;
图3是根据本发明基于强化学习的区域规划设计方法另一实施例中的邻接矩阵示意图;
图4是根据本发明基于强化学习的区域规划设计方法另一实施例中的邻接表示意图;
图5是根据本发明基于强化学习的区域规划设计方法另一实施例中的交叉点示意图;
图6是根据本发明基于强化学习的区域规划设计方法另一实施例中的邻接表存储示意图;
图7是根据本发明基于强化学习的区域规划设计方法另一实施例中的包围盒第一次划分原理示意图;
图8是根据本发明基于强化学习的区域规划设计方法另一实施例中的包围盒第二次划分原理示意图;
图9是根据本发明基于强化学习的区域规划设计方法另一实施例中的包围盒第二次划分原理示意图;
图10是根据本发明基于强化学习的区域规划设计方法另一实施例中的包围盒最终划分原理示意图;
图11是根据本发明基于强化学习的区域规划设计方法另一实施例中的强化学习原理示意图;
图12是根据本发明基于强化学习的区域规划设计方法另一实施例中的多层级强化学习原理示意图;
图13是根据本发明基于强化学习的区域规划设计方法另一实施例中的非拓扑变换示意图。
具体实施方式
为了便于理解本发明,下面结合附图和具体实施例,对本发明进行更详细的说明。附图中给出了本发明的较佳的实施例。但是,本发明可以以许多不同的形式来实现,并不限于本说明书所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。
需要说明的是,除非另有定义,本说明书所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是用于限制本发明。本说明书所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。
图1显示了本发明基于强化学习的区域规划设计方法一实施例的流程图。在图1中,包括步骤:
步骤S101,规划道路,首先定义道路网络的拓扑结构,由布局图表示所述道路网络的拓扑结构,采用邻接矩阵或邻接表的方法保存所述道路网络的拓扑结构;
步骤S102,区域划分,采用包围盒算法,以包围盒长轴中心点为基准,对所述道路网络拓扑结构采用递归的方法进行区域划分;
步骤S103,学习优化,采用强化学习方法,将每个道路交叉节点定义为一个Agent,多个Agent在公共环境下共同学习,优化定义所述道路网络中的道路交叉点;
步骤S104,非拓扑变换,基于仿射变换实现非拓扑变换操作,进一步优化所述道路网络中的道路交叉点,返回最优布局状态。
优选的,在步骤S101规划道路中,道路网络的拓扑结构可由用户自定义,也可以由系统随机生成,道路网络将布局设计分割为若干个块,每个块代表一个建筑区域,建筑区域可再次细分为若干个建筑。
优选的,如图2所示为定义的道路网络拓扑结构图。根据拓扑结构将每个布局都构建一张布局图G={V,E},V表示节点集合,E表示道路集合,每个节点v∈V既可以是道路交叉点P1,或者是布局入口点P2,或者是建筑的门P3;每条边e∈E表示一条道路P0,所有节点V和道路E组成道路网络,布局边界中设置若干个入口点P2,入口点P2的位置固定不变,且入口点P2之间不直接相连,布局域内道路网络之间存在交叉点P1。
优选的,为了便于存储布局图中的各个节点和道路,这里通过邻接矩阵的方式进行存储。图3所示为构建无向图邻接矩阵过程,该邻接矩阵用于保存构建的道路拓扑结构图。图3中有4个节点,按节点序号构建4*4的表格,连通节点的边表示为1,非连通节点表示为0,显然这就需要42个存储空间,图3中节点0和节点1连通,节点1和节点0、节点2和节点3都连通,节点2和节点1、节点3连通,节点3和节点1、节点2连通,因此在对应的表格中分别显示1或0,代表连通或非连通,同一个节点之间属于不连通。由此可以类推,利用该方法当有N个节点,以节点序号构建N*N的表格,连通节点的边表示为1,非连通节点表示为0。无论有多少条边,一定占用N2个存储空间。
优选的,在图3基础上还可以进一步改进,如图4所示,采用邻接表的方式进行存储,第一列为节点序号,每一行为该节点对应相连通的其他节点的序号。若有M条边,无论有多少个节点,一定占用2*M个存储空间。
图5为另一个具体拓扑结构实施例,数字1-6为布局入口点,数字7-9为道路交叉点,这是两种不同的节点,布局入口点之间定义互不连通。设布局入口点和道路交叉点的节点数分别为M和N,若使用图3所示的传统的邻接矩阵,则占用(M+N)2个存储空间。若使用邻接表方法,如图6所示邻接表,共占用M*(M+N-1)个单位空间,冗余数据降至N(N-1)/2个。
优选的,在步骤S102区域划分中,对于包围盒(OBB)算法,是对一个空间块进行分区,对步骤S101中定义的道路网络拓扑结构多次细化划分为多个区域,第一次划分过程如图7所示。
图7中实线L1是对道路网络拓扑结构所在的空间块M1进行第一次划分时对应的分割线,包围实线L1的矩形框对应的虚线W1为包围盒,包围盒中平行实线L1的边为短轴W11,垂直实线L1的边为长轴W12。
在包围盒(OBB)算法中,为了将空间块M1进行第一次划分,需要确定图7中的初始分割线L1,这就需要计算该空间块M1对应的最小区域OBB范围。
优选的,最小区域OBB范围的计算方法:
假设该空间块上可以划分出n个三角形,其中第i个三角形面片中心点oi,表面积Si,空间块的总面积为W,计算公式如下所示:
三角形面片的中心位置:
oi=(pi、qi、ri)/3
其中,pi、qi、ri分别为第i个三角形的三个顶点的矢量;
三角形面片表面积:
Si=|(pi-qi)×(pi-ri)|/2
空间块的总面积:
Figure BDA0002264851240000081
则包围盒的中心点O:
Figure BDA0002264851240000082
计算协方差:
Figure BDA0002264851240000083
j和k代表了包围盒的中心点O的坐标(x,y,z)的分量(1≤j,k≤3),对应协方差矩阵的相应位置。
这里,协方差C为一个3*3对称矩阵,将其单位化后作为OBB的三个方向轴,在这个坐标系统中得到的包围盒紧密性最好。本发明只考虑二维平面,将z轴置0即可得到平面OBB方向轴,得到平面OBB方向轴后,把几何平面的所有顶点向平面OBB方向轴上投影,得到平面OBB坐标轴向上的投影区间,该区间即为OBB区间。
OBB区间中较短的边为短轴W11,较长的边的长轴W12。分割线L1的枢轴点由OBB长轴的中点给出,分割线L1的方向由OBB短轴W11的方向决定,与短轴方向平行。
进一步的,在图7中,虽然通过分割线L1将空间块M1划分为两个分区M11和M12,但是这两个分区M11和M12再进一步分割时还需要分别确定各自的最小区域OBB范围。
在图7所示实施例基础上,如图8所示,这是对第一分区M11进行第二次划分的效果示意图,其中包括二次划分分割线L2。如图9所示,这是对第二分区M12进行第二次划分的效果示意图,其中包括二次划分分割线L3。最终经过多次划分后,每个区域被分成两个较小的区域,这些小区域被递归地分成更多的区域,直到得到的区域的面积全部在(Amin,Amax)之内,或者区域的宽度在(Wmin,Wmax)之内。(Amin,Amax)、(Wmin,Wmax)分别表示最终划分的区域面积的最小值Amin与区域面积的最大值Amax构成的取值区间,区域宽度的最小值Wmin与区域宽度的最大值Wmax构成的取值区间,具体数值可以根据实际情况来确定,图10显示了对图7中空间块的最终划分结果。
优选的,在步骤S103学习优化中,采用多Agent强化学习的方法,在步骤S102已经得到初始布局状态之后,需要进一步优化得到更好的布局状态。
本发明采用强化学习的方式,将每个道路交叉节点定义为一个Agent,多个Agent在公共环境下共同学习,这里在强化学习中接受Agent的动作并作出反馈的模型,称之为公共环境。
图11所示为单个Agent学习过程,图12所示为多个Agent在同一环境下合作学习的过程。一个Agent的策略改变将影响其他Agent的策略,反之亦然,所以随着Agent数量的增加,学习变得越来越困难,甚至会产生维数灾难。
在图11中,强化学习的设置由两部分组成,一个是Agent表示,道路交叉节点,另一个是公共环境,表示空间布局。公共环境可以接受Agent的动作并作出奖励或惩罚的反馈。
公共环境首先向Agent发送一个状态,然后Agent基于其知识,采取动作来响应该状态。之后,公共环境发送下一个状态,并把奖励返回给Agent。Agent用公共环境所返回的奖励来更新其知识,对上一个动作进行评估。这个循环一直持续,直到公共环境发送终止状态来结束这个事件。
在图12中,学习模型是分层结构,总共有四层,包括任务层、工作层、通信层和决策层。每层承担了不同的工作,各层之间的合作使得多个Agent强化学习系统能够顺利高效地运行。
这里,任务层是系统运行的起点,目的是拆分任务,且根据具体情况分配给工作层Agent;工作层是Agent所在的主体区域,接收任务层所分配的工作进行强化学习,完成任务;通信层是起承上启下的作用,作为工作层Agent和决策层管理者交换信息的桥梁;决策层可由一个或多个管理者组成,是整个学习模型的信息仓库和策略库。
强化学习中状态转移矩阵P=(S,A),其中s∈S为布局空间,包括原始输入布局域和自动学习过程中的所有中间结果,a∈A为所有动作集合。
当Agent遇到两种情况时,停止当前回合的学习,返回初始位置:第一种情况是拓扑关系发生变化,即交叉节点发生变化,该种情况下返回惩罚值;第二种情况是满足奖励条件,奖励条件由公共环境给出,这种情况下返回奖励值。
优选的,本发明采用平均场强化学习,其中Agent群内的相互作用近似于单个Agent之间的相互作用平均效应,将Agent与其他Agent的交流变成单个Agent之间的交流。
具体方法是:基于Agent j邻域,计算平均动作
Figure BDA0002264851240000101
且如下公式:
Figure BDA0002264851240000102
其中:
Figure BDA0002264851240000103
为Agent j根据其邻域采取行动的经验分布,δ为折扣因子,N为Agent的数量,ak为Agent k的one-hot动作,aj,k为Agent j,k的one-hot动作。
进一步的,利用Q函数表示为:
Figure BDA0002264851240000104
其中,s为Agent当前状态,a为Agent执行的动作,Qj为Agent j的Q函数,其余符号的含义与前面描述相同。
在此基础上,将Agent放入强化学习网络,如图12所示,多Agent强化学习分为任务层、工作层、通信层和决策层,每个Agent都有独立的学习机制,多Agent之间为合关系。
学习过程是一个序列化过程,在时刻t,Agent基于当前状态st发出动作at,公共环境做出回应,生成新的状态st+1和对应的回报Rt+1,Agent的目标是通过更加明智地执行动作,从而最大化累计奖励Gt,如下式所示:
Figure BDA0002264851240000111
其中:t为时间;m∈[0,∞];R为回报奖励,Rt为t时刻的奖励,Rt+m为t+m时刻的奖励;γ为折扣奖励,是一个自定义的常量,γ∈[0,1]。
返回两个决策序列,第一个序列是每个Agent的移动方向θ,第二个序列是每个Agent的移动距离l。设Agent所在点为(x0,y0),目标点为(x1,y1),则可计算出移动方向对应的角度θ=arctan(Δy/Δx),移动距离
Figure BDA0002264851240000112
其中Δx=x1-x0,Δy=y1-y0
优选的,在步骤S104非拓扑变换中,当一个布局U满足以下三个条件时,本发明中称之为有效布局:第一条件是道路与道路之间不交叉;第二条件是建筑与建筑,或建筑与道路之间不交叉;第三条就是未达到OBB阈值,即无法满足区域的面积全部在(Amin,Amax)之内,或者区域的宽度在(Wmin,Wmax)之内,这样的有效布局称之为
Figure BDA0002264851240000116
当布局不是有效布局时,需要进行布局编辑操作,布局编辑操作包括:第一是对现有布局的区域编辑,主要是通过OBB递归细分实现,如前所述;第二是对现有布局的微调,通过非拓扑变换实现。
优选的,对于非拓扑变换T可以用仿射变换实现。非拓扑变换表示为
Figure BDA0002264851240000113
A为仿射变换,W为有效布局中的每个节点
Figure BDA0002264851240000114
的权重wv∈[0,1]。仿射变换可以表示为:
Figure BDA0002264851240000115
其中:x,y为非拓扑变换前的坐标点;x*,y*为非拓扑变换后的坐标点;tx,ty,ai(i=1-4)为仿射变换矩阵的参数,(tx,ty)表示平移量,而参数ai则反映了图像旋转、缩放等变化。将参数tx,ty,ai(i=1-4)计算出,即可得到两个多边形的坐标变换关系。
Agent移动即代表节点位置移动,当移动对整体影响不大时,可采用非拓扑变换,改变布局内建筑的形状;当影响超过阈值时,非拓扑变换使得建筑形状改变过大,可重新进行OBB递归细分,生成该区域内新的建筑,即返回步骤S102循环执行。通过以上学习机制,最终可得到最优的布局状态。
图13显示了本发明经过OBB递归细分和非拓扑变换的变化示意图,其中优化前的布局设计Y1经过自主学习实现OBB递归细分和非拓扑变换后得到优化后的布局设计Y2,可以通过Y11到Y21的变化看出OBB递归细分对区域分割划分的效果,通过Y12到Y22的变化看出非拓扑变换对道路调整优化的效果,而这些过程可以基于计算机进行自主强化学习自动完成。
由此可见,本发明的有益效果是:本发明公开了一种基于强化学习的区域规划设计方法。该方法包括步骤有规划道路、区域划分、学习优化和非拓扑变换,首先由布局图表示道路网络的拓扑结构,采用包围盒算法,对道路网络拓扑结构采用递归的方法进行区域划分,再基于强化学习将每个道路交叉节点视为一个Agent,多个Agent在公共环境下共同学习,依此优化道路网络中的道路交叉点;基于仿射变换实现非拓扑变换操作,进一步优化布局并返回最优布局状态。该方法将区域规划设计中融入了机器学习的方法,构建了一个基于强化学习的布局学习框架,布局设计时是基于已学习到的知识,不用像传统方法实时计算最优解,在设计同等规模布局时,时间会大大缩短。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (9)

1.一种基于强化学习的区域规划设计方法,其特征在于,包括以下步骤:
规划道路,首先定义道路网络的拓扑结构,由布局图表示所述道路网络的拓扑结构,采用邻接矩阵或邻接表的方法保存所述道路网络的拓扑结构;
区域划分,采用包围盒算法,以包围盒长轴中心点为基准,对所述道路网络的拓扑结构采用递归的方法进行区域划分;
学习优化,采用强化学习方法,将每个道路交叉节点定义为一个Agent,多个Agent在公共环境下共同学习,优化定义所述道路网络中的道路交叉点;
非拓扑变换,基于仿射变换实现非拓扑变换操作,进一步优化所述道路网络中的道路交叉点,返回最优布局状态。
2.根据权利要求1所述的基于强化学习的区域规划设计方法,其特征在于,在所述规划道路步骤中,根据拓扑结构将布局构建成一张布局图G={V,E},V表示节点集合,E表示道路集合,每个节点v∈V包括道路交叉点、布局入口点或者建筑的门;每条边e∈E表示一条道路,所有节点和道路组成道路网络,布局入口点之间不直接相连。
3.根据权利要求2所述的基于强化学习的区域规划设计方法,其特征在于,通过邻接矩阵或邻接表的方式存储布局图中的各个节点和道路。
4.根据权利要求3所述的基于强化学习的区域规划设计方法,其特征在于,在所述包围盒算法中,计算最小区域OBB范围的方法包括:
假设在布局图对应的空间块上划分出n个三角形,其中第i个三角形面片中心点oi、表面积Si,空间块的总面积为W,计算公式如下所示:
oi=(pi、qi、ri)/3,
其中,pi、qi、ri分别为第i个三角形的三个顶点的矢量;
三角形面片的表面积:
Si=|(pi-qi)×(pi-ri)|/2,
空间块的总面积:
Figure FDA0002264851230000021
则包围盒的中心点O:
Figure FDA0002264851230000022
计算协方差:
Figure FDA0002264851230000023
其中,j和k代表了包围盒的中心点O坐标(x,y,z)的分量(1≤j,k≤3),对应协方差矩阵的相应位置。
5.根据权利要求4所述的基于强化学习的区域规划设计方法,其特征在于,所述布局图的区域被分成两个较小的区域,这些小区域被递归地分成更多的区域,直到得到的区域的面积全部在(Amin,Amax)之内,或者区域的宽度在(Wmin,Wmax)之内,(Amin,Amax)表示最终划分的区域面积的最小值Amin与区域面积的最大值Amax构成的取值区间,(Wmin,Wmax)表示区域宽度的最小值Wmin与区域宽度的最大值Wmax构成的取值区间。
6.根据权利要求5所述的基于强化学习的区域规划设计方法,其特征在于,在所述强化学习方法中,采用平均场强化学习,将Agent与其他Agent的交流变成单个Agent之间的交流,具体方法是:基于Agent j邻域,计算平均动作
Figure FDA0002264851230000024
且如下公式:
Figure FDA0002264851230000025
其中:
Figure FDA0002264851230000026
为Agent j根据其邻域采取行动的经验分布,δ为折扣因子,N为Agent的数量,ak为Agent k的one-hot动作,aj,k为Agentj,k的one-hot动作。
7.根据权利要求6所述的基于强化学习的区域规划设计方法,其特征在于,进一步利用Q函数表示为:
Figure FDA0002264851230000031
其中,s为Agent当前状态,a为Agent执行的动作,Qj为Agent j的Q函数。
8.根据权利要求7所述的基于强化学习的区域规划设计方法,其特征在于,通过学习优化返回两个决策序列,第一个序列是每个Agent的移动方向θ,第二个序列是每个Agent的移动距离l,若Agent所在点为(x0,y0),目标点为(x1,y1),则可计算出移动方向对应的角度θ=arctan(Δy/Δx),移动距离
Figure FDA0002264851230000032
其中Δx=x1-x0,Δy=y1-y0
9.根据权利要求8所述的基于强化学习的区域规划设计方法,其特征在于,对于非拓扑变换T用仿射变换实现,非拓扑变换表示为
Figure FDA0002264851230000033
A为仿射变换,W为有效布局中的每个节点
Figure FDA0002264851230000034
的权重wv∈[0,1],仿射变换表示为:
Figure FDA0002264851230000035
其中:x,y为非拓扑变换前的坐标点;x*,y*为非拓扑变换后的坐标点;tx,ty,ai为仿射变换矩阵的参数,i取值1至4,tx和ty表示平移量,而参数ai则反映了图像旋转、缩放变化。
CN201911084070.9A 2019-11-07 2019-11-07 一种基于强化学习的区域规划设计方法 Active CN111062105B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911084070.9A CN111062105B (zh) 2019-11-07 2019-11-07 一种基于强化学习的区域规划设计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911084070.9A CN111062105B (zh) 2019-11-07 2019-11-07 一种基于强化学习的区域规划设计方法

Publications (2)

Publication Number Publication Date
CN111062105A true CN111062105A (zh) 2020-04-24
CN111062105B CN111062105B (zh) 2023-07-21

Family

ID=70297889

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911084070.9A Active CN111062105B (zh) 2019-11-07 2019-11-07 一种基于强化学习的区域规划设计方法

Country Status (1)

Country Link
CN (1) CN111062105B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112161630A (zh) * 2020-10-12 2021-01-01 北京化工大学 适用于大型仓储系统的agv在线无碰撞路径规划方法
CN112329106A (zh) * 2020-11-05 2021-02-05 深圳壹账通智能科技有限公司 道路安全设计方法、系统、计算机设备和可读存储介质
CN115130255A (zh) * 2022-05-16 2022-09-30 西南交通大学 一种基于协同优化的带分支管道布局方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100239147A1 (en) * 2009-03-18 2010-09-23 Siemens Corporation Method and System for Dynamic Pulmonary Trunk Modeling and Intervention Planning
US20140328519A1 (en) * 2011-12-16 2014-11-06 Universitat Zu Lubeck Method and apparatus for estimating a pose
CN109947098A (zh) * 2019-03-06 2019-06-28 天津理工大学 一种基于机器学习策略的距离优先最佳路径选择方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100239147A1 (en) * 2009-03-18 2010-09-23 Siemens Corporation Method and System for Dynamic Pulmonary Trunk Modeling and Intervention Planning
US20140328519A1 (en) * 2011-12-16 2014-11-06 Universitat Zu Lubeck Method and apparatus for estimating a pose
CN109947098A (zh) * 2019-03-06 2019-06-28 天津理工大学 一种基于机器学习策略的距离优先最佳路径选择方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
王文玺等: "模糊神经网络下基于强化学习的自主式地面车辆路径规划研究", 《中国机械工程》 *
谭光华等: "特征保持的大规模点云曲面自由变形", 《浙江大学学报(工学版)》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112161630A (zh) * 2020-10-12 2021-01-01 北京化工大学 适用于大型仓储系统的agv在线无碰撞路径规划方法
CN112161630B (zh) * 2020-10-12 2022-07-15 北京化工大学 适用于大型仓储系统的agv在线无碰撞路径规划方法
CN112329106A (zh) * 2020-11-05 2021-02-05 深圳壹账通智能科技有限公司 道路安全设计方法、系统、计算机设备和可读存储介质
CN115130255A (zh) * 2022-05-16 2022-09-30 西南交通大学 一种基于协同优化的带分支管道布局方法

Also Published As

Publication number Publication date
CN111062105B (zh) 2023-07-21

Similar Documents

Publication Publication Date Title
CN111062105B (zh) 一种基于强化学习的区域规划设计方法
Xiang et al. Demand coverage diversity based ant colony optimization for dynamic vehicle routing problems
CN107491086B (zh) 时变网络拓扑下的无人机编队避障方法及系统
Trotts et al. Simplification of tetrahedral meshes with error bounds
CN103329182B (zh) 用于人工指令系统的碰撞避免系统和方法
CN103559374B (zh) 一种多子网格模型上进行面分裂型曲面细分的方法
CN107391824B (zh) 增材制造中自支撑结构的拓扑优化设计方法
CN109800904A (zh) 带时间窗的装配式建筑预制件配送路径优化方法及系统
CN110763247A (zh) 基于可视图和贪心算法结合的机器人路径规划方法
CN114815802A (zh) 一种基于改进蚁群算法的无人天车路径规划方法和系统
CN111080786A (zh) 基于bim的室内地图模型构建方法及装置
US20210150376A1 (en) Method, apparatus, and system for representing internet of vehicles knowledge base
Guo et al. Lane-changing decision modelling in congested traffic with a game theory-based decomposition algorithm
Huang et al. Research on path planning algorithm of autonomous vehicles based on improved RRT algorithm
CN113706715B (zh) 一种随机可控城市生成方法
Marchese A directional diffusion algorithm on cellular automata for robot path-planning
CN112817316B (zh) 一种多机器人路径规划方法及装置
De Waen et al. Scalable multirotor UAV trajectory planning using mixed integer linear programming
Kojima et al. An efficient grid layout algorithm for biological networks utilizing various biological attributes
Pereira et al. Towards the self-regulation of personality-based social exchange processes in multiagent systems
Adamidou et al. A game theoretic/network equilibrium solution approach for the railroad freight car management problem
CN115759175A (zh) 一种基于近似全局优化的细节层次网格模型逼近方法
Wang et al. Towards optimization of path planning: An RRT*-ACO algorithm
Paris et al. Ca-lod: Collision avoidance level of detail for scalable, controllable crowds
Wang et al. A generic algorithm for mesh optimisation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant