CN114996278A - 一种基于强化学习的路网最短路径距离计算方法 - Google Patents
一种基于强化学习的路网最短路径距离计算方法 Download PDFInfo
- Publication number
- CN114996278A CN114996278A CN202210740846.3A CN202210740846A CN114996278A CN 114996278 A CN114996278 A CN 114996278A CN 202210740846 A CN202210740846 A CN 202210740846A CN 114996278 A CN114996278 A CN 114996278A
- Authority
- CN
- China
- Prior art keywords
- road network
- node
- nodes
- shortest path
- tree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2246—Trees, e.g. B+trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
- G06Q10/047—Optimisation of routes or paths, e.g. travelling salesman problem
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Computational Linguistics (AREA)
- Strategic Management (AREA)
- Software Systems (AREA)
- Economics (AREA)
- Marketing (AREA)
- Biomedical Technology (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- Remote Sensing (AREA)
- Operations Research (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Business, Economics & Management (AREA)
- Biophysics (AREA)
- Development Economics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于强化学习的路网最短路径距离计算方法,涉及计算机数据管理技术领域,包括:将构建最短路径距离索引的过程转化成马尔可夫决策过程;基于马尔可夫决策过程,构建并训练基于强化学习的策略模型;利用策略模型构建层级结构的2‑hop label索引;对2‑hop label索引进行优化;运用优化后的2‑hop label索引处理查询,并返回查询结果。本发明构建的索引结构更均衡,占用空间少,查询速度更快,具有很强的实用性,智能化高,模型构建索引的速度快,泛化性能好。
Description
技术领域
本发明涉及计算机数据管理技术领域,具体而言,涉及一种基于强化学习的路网最短路径距离计算方法。
背景技术
最短路径距离查询是指给定一个网络上的起点和终点,要求返回这两点间的最短路径距离。其作为一项基本操作,是GPS导航、POI推荐和路线规划等基于位置服务的应用中的重要组成模块。目前主流的最短路径查询方法主要分为基于在线搜索的方法和基于索引结构的方法两种。最经典的基于在线搜索的方法是Dijkstra算法,Dijkstra算法从查询的最短路径起点开始搜索,先求出长度最短的一条路径,再参照该最短路径求出长度次短的一条路径,直到求出从源点到其他各个顶点的最短路径。基于在线搜索的方法随着路网规模的增大,搜索空间随之增大,搜索时间也急剧增加,尤其是当两个查询点距离很远的时候Dijkstra可能需要遍历整个路网,无法满足实时性的需求。
为了能更有效地处理最短路径查询,研究人员提出了基于索引结构的方法,即在预处理阶段构建辅助的数据结构存储相关信息,来加快在线查询阶段的速度。其中一类基于索引结构的方法被称为基于层级结构的方法,其在预处理阶段构建层级结构,从而减小查询阶段的计算开销。另一种基于索引结构的方法被称为基于2-hop label的方法,该类方法应用最为广泛,成为最短路径距离查询的主流算法。2-hop label最早由Edith Cohen等人在2002年提出,是一种分布式的数据结构。其主要思想是给路网中每个节点计算一个标签集合,该标签集合中的每个元组由节点和到该节点的最短路径距离组成。在查询阶段,任意两节点之间的最短路径距离只需遍历两个节点的标签索引即可计算得到。为了进一步优化最短路径距离查询的计算速度,D.Ouyang等人在2018年提出了H2H(Hierarchical 2-hop)方法,该方法综合利用了基于层级结构的方法和基于标签的方法。其首先利用树分解过程将路网转化为树结构,再按照自顶向下的方式建立索引2-hop Label标签索引。对于给定的查询,只需要遍历查询起点和查询终点LCA(最近公共祖先)的标签索引即可得到查询结果,避免了遍历查询起点和查询终点的所有标签索引,使得查询时间相较于以往的基于标签索引的方法减小了约十倍。
然而H2H使用基于启发式的策略来对路网进行树分解,只考虑了节点的度这一特征,导致所构建的树结构不平衡且高度大。从而导致索引开销大,限制了该方法在大规模路网上的应用和拓展性。
发明内容
本发明在于提供一种基于强化学习的路网最短路径距离计算方法,其能够缓解上述问题。
为了缓解上述的问题,本发明采取的技术方案如下:
本发明提供了一种基于强化学习的路网最短路径距离计算方法,包括以下步骤:
S1、将构建最短路径距离索引的过程转化成马尔可夫决策过程;
S2、基于马尔可夫决策过程,构建并训练基于强化学习的策略模型;
S3、利用策略模型构建层级结构的2-hop label索引;
S4、对2-hop label索引进行优化;
S5、运用优化后的2-hop label索引处理查询,并返回查询结果。
在本发明的一较佳实施方式中,所述S1包括以下步骤:
S11、定义路网和最短路径查询;
S12、定义树分解;
S13、基于路网、最短路径查询和树分解,定义马尔可夫决策过程。
在本发明的一较佳实施方式中,在树分解的每一步,都需从剩余未移除的节点中筛选出若干候选节点,将所有候选节点的特征拼接后构成马尔可夫决策过程的状态;
用Vk={u1,…,uk}表示筛选出的k个候选节点,一个马尔可夫决策过程的行为a=j表示从Vk中选择节点uj,1≤j≤k;
采用同步参考法得到马尔可夫决策过程的奖励,具体为:在树分解的每一步中,从候选节点中选择节点移除的同时,同步使用启发式的方法选择节点进行移除,将该两种操作中得到的结果的差值作为奖励;
马尔可夫决策过程的状态转移表示为一个元组(s,a,s′,r),指在当前状态s下选择行为a,进入下一个状态s′并得到奖励r的过程。
在本发明的一较佳实施方式中,所述S2包括以下步骤:
S21、基于Deep Q Network构建基于强化学习的策略模型;
S22、基于马尔可夫决策过程,对策略模型进行训练。
在本发明的一较佳实施方式中,所述S22包括以下步骤:
S222、判断训练周期是否结束,若结束,则跳转至步骤S229,否则继续执行步骤S223;
S223、初始化路网,得到第一个状态;
S224、判断是否达到终止状态,若是,则跳转至步骤S222,否则继续执行步骤S225;
S225、按照∈-greedy的方式,选择行为a,得到状态s′和奖励r,存储状态转移元组(s,a,s′,r)到经验池M;
S226、判断经验池M是否达到容量N,若是,则继续执行步骤S227,否则跳转至步骤S224;
S227、从经验池M随机采样一个batch的状态转移元组训练行为网络Q(s,a;Θ);
S228、进入下一个状态,跳转至步骤S224;
S229、训练结束,得到训练好的行为网络Q(s,a;Θ)。
在本发明的一较佳实施方式中,所述S3包括以下步骤:
S31、基于策略模型将路网转化为树结构;
S32、对于树结构中的每一个结点,按照从上到下的方式计算基于层级结构的2-hop label索引。
在本发明的一较佳实施方式中,所述S31包括以下步骤:
S311、获取路网;
S312、根据路网构建倒排表;
S313、从倒排表中选出k个候选节点组成集合Vk,计算各候选节点的特征值,将各特征值进行拼接组成状态向量;
S314、将状态向量输入到策略模型,选择奖励值最大的节点作为移除节点,进行节点移除操作和节点连接操作,将移除节点从未删除节点集合移动到已删除节点集合;
S315、判断未删除节点集合是否为空集,若是,则输出各移除节点连接而成的树结构,否则跳转至步骤S312。
在本发明的一较佳实施方式中,索引包括位置数组pos(v)和距离数组dis(v),位置数组pos(v)存储的是树结构的结点X(v)中所有节点在树结构中的深度,距离数组dis(v)存储的是结点X(v)到所有祖先节点的最短距离。
在本发明的一较佳实施方式中,所述S4包括以下步骤:
S41、计算路网的图密度ρ,公式如下:
其中,|E|为路网的边总数,|V|为路网的节点总数;
S42、选择对路网进行树分解的方法,具体为:设定图密度阈值ρθ,当ρ≤ρθ时,使用最小度的启发式方法对路网进行树分解,当ρ>ρθ时,使用强化学习的方法对路网进行树分解;
S43、对路网进行树分解,在该过程中,对于路网中同一条没有分叉的路径Line,找到其端点X(u),并将端点X(u)的结点编号u存储在该Line的位置数组pos(v)中;
S44、对于Line生成的单支树,将其中所有祖先结点的高度,依次存放于其位置数组pos(v)中;
S45、从树根到叶子,依次计算Line中所有结点到单支树中祖先结点的最短路径距离,并存放在距离数组dis(v)中,此时,2-hop label索引的优化过程结束。
在本发明的一较佳实施方式中,在步骤S5中,查询过程包括非单支树结点之间的查询、同一单支树结点之间的查询以及不同单支树结点之间的查询。
与现有技术相比,本发明的有益效果是:
将最短路径索引的构建过程转化成一个马尔可夫决策过程,并采用了基于强化学习的方法进行最短路径距离索引的构建,构建的索引结构更均衡,空间开销少,查询速度更快,具有很强的实用性,在诸如GPS导航、自动驾驶、路径规划等应用中可以占用更小的资源,获得更好的性能;
采用了基于强化学习的方法进行最短路径距离索引的构建,相比以往算法采用人工启发式策略的索引构建方法,更加智能化,具有很强的创新性;
针对模型构建索引时间慢的弱点,利用图密度将索引构建过程分为两个阶段,前一阶段采用启发式的方法进行,后一阶段采用强化学习的方法,该优化方案加快了模型构建索引的速度,提升了模型的泛化性能,节省训练时间,可将训练好的模型直接应用到其他路网,不用重复训练,具有很强的实用性;
利用路网中Line结构生成的单支树的结构特点,提出了一种新的索引结构,保证查询效率的同时进一步减少了叶子结点的索引占用空间。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举本发明实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本发明所述基于强化学习的路网最短路径距离计算方法流程图;
图2是本发明中将构建最短路径距离索引的过程转化成马尔可夫决策过程的流程图;
图3是本发明训练模型的流程图;
图4是本发明利用模型进行树分解得到树结构的流程图;
图5是为本发明实例提供的利用树结构构建标签索引的流程图;
图6是本发明对索引进行优化的流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和展示的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参照图1~图6,本发明提供了一种基于强化学习的路网最短路径距离计算方法,包括以下步骤:
S1、将构建最短路径距离索引的过程转化成马尔可夫决策过程,见图2所示,具体如下:
S11、定义路网和最短路径距离查询。
路网用G=(V,E,W)表示,其中:
V={v1,v2,…,vn}表示节点集合,即路网中道路的交叉点;
E={(vi,vj)|vi,vj∈V}表示边的集合,即路网中的道路,对于有向图,(vi,vj)和(vj,vi)指不同的边;
W={w(vi,vj)|vi,vj∈V}表示权重的集合,可选择不同的标准作为权重,一般设置为道路的距离或者行驶时间。
最短路径距离查询q(s,t)要求返回s和t之间的最短路径的距离。s到t的一条路径,是一个节点序列<s,…,vi,vi+1,…,t>,最短路径距离是这条路径上的边的权值和最小的路径的距离。
目前最前沿的最短路径索引方法是H2H,本发明采用强化学习的方法构建一个存储开销小、查询速度快、构建时间短的层级结构2-hop label索引。构建层级结构的2-hoplabel索引需要经过一个树分解的过程。
S12、定义树分解。
用T表示路网G=(V,E,W)进行树分解得到的树结构,VT表示T中结点的集合,T中的每一个结点X(vi)∈VT都是V的一个子集,并且以下三个条件成立:
1)∪X(vi)=V;
2)对于每一条边(u,u′)∈E,都存在一个结点X(vi)满足u,u′∈X(vi);
3)对于每一个点u∈V,{X(vi)|u∈X(vi)}集合构成T的子树。
路网G中vi∈V被称为节点,树结构T中X(vi)∈VT被称为结点,其中结点X(vi)由一系列节点组成,vi是X(vi)的核心节点。树结构的宽度表示为ω(T)=max|X(vi)|-1,这里|X(vi)|表示结点X(vi)中点的数量。树结构的高度h(T)表示从叶子到树根的最远距离,当上下文明确时,我们分别用ω和h来表示树宽度和树高度。对于任意节点vi∈V,我们用T(vi)表示由X(vi)作为根结点的子树,|T(vi)|表示子树结构中结点的数量。
从路网G=(V,E,W)到树结构T,需要按照一定的顺序对路网中的节点进行移除操作。每移除一个节点,需要更新这个节点的邻接点之间的边的权值,以保持距离查询的正确性。具体操作为,对于节点vi任意两个邻居节点对u,u′,如果这两个邻居节点u和u′之间没有边相连,则添加一条连接u和u′的边(u,u′),边的权值为节点vi到这两个邻居节点的边权值之和,即w(u,u′)=w(u,vi)+w(vi,u′);反之如果u和u′之间有边(u,u′)存在,则将该条边的权值w(u,u′)更新为min(w(u,u′),w(u,vi)+w(vi,u′))。树分解移除的节点会连接在一起,一个已经移除节点vi的最先移除的邻居节点vj会成为vi的父节点,移除的节点之间的连接会形成一个森林,直到最后一个节点删除,该节点会成为T的根节点。
S13、定义马尔可夫决策过程。
对路网进行树分解并构建索引的过程可以看作一个马尔可夫决策过程,按照以下方式定义马尔可夫决策过程的四要素,即状态,行为,奖励,状态转移。
状态:树分解的每一步,都需要从剩余未移除的节点中筛选出k个候选节点,将k个候选节点的特征拼接起来构成状态。
具体实施方法为,初始化图G′=G,用一个倒排表存储所有的节点。
倒排表由一系列的列表组成,每一个列表里存储的节点度相同,列表按照度从小到大排序。用表示度最小的b个列表,dmin表示当前最小的度,候选节点从L中选出。首先从L中的每个列表中选出前个节点,如果选出来的节点不足k个,就从L中的第一个列表开始补选,每个列表补选一个节点,直到候选节点数达到k个。每个列表中的节点,按照|T(vi)|排序并使用一个优先队列维护,|T(vi)|表示森林中以X(vi)为根节点的树结构T(vi)的节点总数。对于每个候选节点,计算出6个特征其中,前两个特征来自G′,d(vi)表示节点vi在G′中的度,表示vi在G′中邻居节点的平均度。后四个特征来自移除节点vi后,以X(vi)为根节点的树结构T(vi)。h(vi)表示T(vi)的高度,表示T(vi)中所有节点的平均深度,nc(vi)表示T(vi)中节点vi子树的数量,|T(vi)|表示T(vi)中的节点总数。得到每个候选节点的特征后,将k个候选节点的特征拼接起来,形成一个6·k的向量,以构成状态。
特别地,每移除一个节点后,其邻居节点的度和|T(vi)|会发生更新,并重新插入到相应列表中。
行为:用Vk={u1,…,uk}表示筛选出的k个候选节点,一个行为a=j表示从Vk中选择节点uj,1≤j≤k。
奖励:我们用同步参考法来得到奖励。
具体地,在树分解的每一步中,从候选节点中选择节点移除的同时,同步使用启发式的方法选择节点进行移除,两种方法得到的结果的差值作为奖励。首先,采用启发式的方法选择节点,移除这个节点并计算形成的森林的平均高度H1。恢复对该节点的移除操作,以保持状态不变,再采用本发明的方法选择节点移除,计算森林的平均高度H2,两种方法得到的高度差值r=H1-H2作为奖励。
状态转移:状态转移表示为一个元组(s,a,s′,r),包含上述定义的元素,指在当前状态s下选择行为a,进入下一个状态s′并得到奖励r的过程,用于模型的训练。
S2、基于马尔可夫决策过程,构建并训练基于强化学习的策略模型,具体如下:
S21、构建基于强化学习的策略模型,具体如下:
基于强化学习的策略模型采用Deep Q Network实现,该模型由两个神经网络和一个经验池组成。两个神经网络一个是行为网络,一个是目标网络,拥有相同的网络结构,由三层的全连接层组成,神经元个数分别为(6·k,128,k)。行为网络训练好后用来最终决策,目标网络为辅助行为网络训练的网络。经验池可以看作一个数组,存储了一系列的状态转移元组(s,a,s′,r),用来训练行为网络的参数。
S22、训练基于强化学习的策略模型,见图3所示,具体如下:
在每一个训练周期里面,初始化路网G′。
在树分解的每一步,算法从剩余的路网中选取k个候选节点。利用候选节点的特征得到状态,采用∈-greedy的方式选择一个行为a,即,以∈的概率随机选择行为,以1-∈的概率选择at=argmaxaQ(s,a;Θ)。执行行为并进入下一个状态s′,得到奖励r。这样的一个元组(s,a,s′,r)被储存到经验池M中,重复这个过程直至结束状态。
在这个过程中,当经验池M达到设定的容量N之后,模型每一步都从经验池中随机采样一系列的经验用来训练网络。
具体训练过程为,将状态s和行为a输入行为网络Q(s,a;Θ)得到预测值yp,同时将状态s′输入目标网络得到目标值,该目标值加上奖励r得到yt,计算训练误差L(Θ)=[yt-yp]2,用此误差对行为网络Q(s,a;Θ)进行梯度下降以更新参数Θ。目标网络的参数Θ-会周期性的和行为网络Q(s,a;Θ)的参数Θ保持同步。
S3、利用策略模型构建层级结构的2-hop label索引,具体如下:
S31、基于策略模型将路网转化为树结构,见图4所示,包括以下步骤:
S311、获取路网。
S312、根据路网构建倒排表。
对于每个列表Ld中的所有节点,采用一个优先队列,按照每个节点vi为根结点形成的树结构的总结点数|T(vi)|维护顺序,将G′={V′,E′,W′}(V′=V2)初始化为G,G′表示每次删除节点后剩下的距离保留图,V1表示已删除节点的集合,V2表示未删除节点的集合,V1初始化为空集,V2初始化为路网中全部节点。
S313、从倒排表中选出k个候选节点组成集合Vk,计算各候选节点的特征值,将各征值进行拼接组成状态向量,具体如下:
从倒排表L中选择前b个列表其中dmin表示当前剩下的距离保留图G′中的节点最小度。从Lb中的每个列表中选出前个节点添加到候选节点集合Vk中,如果候选节点数量小于k,再依次从列表Lb中每次选出一个具有最小|T(vi)|值的未被选择的节点v添加到Vk中,直到Vk含有k个节点。
根据上述方法选出k个候选节点组成集合Vk={u1,…,uk}后,分别计算这k个候选节点的特征值,拼接起来组成状态。
具体地,对任意的一个候选节点vi∈Vk被选为下一个移除节点时,其需要计算的特征值包括:
1)节点vi当前的度d(vi);
3)节点vi和其邻居节点形成的结点X(vi)在树中的高度h(vi);
5)X(vi)的子结点数目nc(vi);
6)以X(vi)为根节点的树的结点总数|T(vi)|。
对k个候选节点都进行以上计算后,将特征值进行拼接组成大小为6·k的状态向量。
S314、将状态向量输入到策略模型,选择奖励值最大的节点作为移除节点,进行节点移除操作和节点连接操作,将移除节点从未删除节点集合移动到已删除节点集合,具体如下:
将状态向量输入策略模型中,模型输出为对应选择每个候选节点的奖励值大小,选择奖励值最大的节点vi作为真正的移除节点。
进行节点移除操作,包括以下步骤:
1)对于节点vi任意两个邻居节点对u,u′,如果这两个邻居节点u和u′之间没有边相连,则添加一条连接u和u′的边(u,u′),边权值为节点vi到这两个邻居节点的边权值之和,即w(u,u′)=w(u,vi)+w(vi,u′);反之如果u和u′之间有边(u,u′)存在,则将该条边的权值w(u,u′)更新为min(w(u,u′),w(u,vi)+w(vi,u′));
2)将节点vi和其邻居节点组成X(vi),并保存vi到其邻居节点的边及其权值,然后将该节点vi从剩下的距离保留图G′中移除,并从未删除节点集合V2移动到已删除节点集合V1。
在本发明中,策略模型采用具有三层全连接层的深度神经网络,输入层含有60个神经元,隐藏层有128个神经元,输出层有10个神经元。
将移除节点vi生成的结点X(vi)连接到已删除节点V1形成的森林中。具体包含以下操作:
1)将vi添加到vi所有邻居节点u的可能子结点集合pc(u)中;
2)检查vi所有可能的子结点o∈pc(vi),如果X(o)至今没有父节点则将X(vi)设为X(o)的父结点;
重复进行上述步骤,直到路网图中所有节点被删除,最终将路网G′转化为了树结构T。
S32、计算基于层级结构的2-hop label索引,具体包括:
对于树结构T中的每一个结点X(v)∈VT,按照从上到下的方式进行计算基于层级结构的2-hop标签索引。
标签索引由位置数组pos(v)和距离数组dis(v)组成。
位置数组pos(v)存储的是X(v)中所有节点形成的结点在树结构中的深度。
距离数组dis(v)存储的是结点X(v)到所有祖先结点的最短距离。
在本发明中,每个节点的基于层级结构的标签索引计算方法参阅图5所示。
S4、对2-hop label索引进行优化,见图6所示,具体如下:
S41、计算路网的图密度ρ,
图密度反应了树分解过程中图G′的密度大小,其计算公式如下:
其中,|E|为路网的边总数,|V|为路网的节点总数,V代表节点的集合;
树分解过程中,图密度是单调递增的。初始化时,读取路网的节点总数|V|和边总数|E|,在树分解过程中,每删除一个节点,对节点总数|V|和边的总数|E|进行更新,并利用公式计算当前图密度ρ。
S42、选择对路网进行树分解的方法,具体为:
设定图密度阈值ρθ,当ρ≤ρθ时,使用最小度的启发式方法对路网进行树分解,当ρ>ρθ时,使用前述强化学习的方法对路网进行树分解。
S43、对路网进行树分解,在该过程中,对于路网中同一条没有分叉的路径Line,找到其端点X(u),并将端点X(u)的结点编号u存储在该Line的位置数组pos(v)中,具体如下:
我们用Line表示路网中的一条没有分叉的路径,其内部节点的度都为2,对于Line的两个顶点u和v,u的度d(u)≥2称作端点,v的度d(v)=1称作叶子结点。在树分解过程中,从叶子结点到端点依次删除Line中的点,将生成一棵单支树。对于树分解中的每个叶子结点X(v),从X(v)开始在同一条Line上迭代寻找父结点,直到找到端点X(u)为止,将X(u)的结点编号u存储在Line中所有节点的位置数组pos(v)中。
S44、对于Line生成的单支树,将其中所有祖先结点的高度,依次存放于其位置数组pos(v)中。
S45、从树根到叶子,依次计算Line中所有结点到单支树中祖先结点的最短路径距离,并存放在距离数组dis(v)中,此时,2-hop label索引的优化过程结束。
上述步骤中,步骤S43、S44、S45都是优化叶子结点的索引结构的过程。
S5、运用优化后的2-hop label索引处理查询,并返回查询结果,一般情况下,具有以下三种查询。
(1)非单支树结点之间的查询
当两个结点X(s)和X(t)是单支树的内部结点时,首先找到X(s)和X(t)的最近共同祖先LCA(s,t),依次遍历最近共同祖先节点中的位置数组并比较s和t到位置数组对应节点的距离之和,具体计算公式为:
Dist(s,t)=mini∈pos(LCA(s,t)){dis(s)[i]+dis(t)[i]}。
(2)同一单支树结点之间的查询
比较pos(s)和pos(t)中存储的端点编号,当端点编号相同时,X(s)和X(t)在同一棵单支树上。首先找到X(s)和X(t)的最近共同祖先LCA(s,t),如果LCA(s,t)=X(s),则直接通过dis(t)求得最短路径距离,具体计算公式为:
Dist(s,t)=dis(t)[pos(s)[1]];
如果LCA(s,t)=X(t),则直接通过dis(s)求得最短路径距离,具体计算公式为:
Dist(s,t)=dis(s)[pos(t)[1]]。
(3)不同单支树结点之间的查询
比较pos(s)和pos(t)中存储的端点编号u和v,当端点编号不同时,X(s)和X(t)在不同单支树上。
首先,找到两个端点X(u)和X(v)的最近共同祖先LCA(u,v),并利用公式
Dist(u,v)=mini∈pos(LCA(u,v)){dis(u)[i]+dis(v)[i]}
计算端点之间的最短路径距离。
然后,利用dis(s)[1]和dis(t)[1]分别得到s和t到端点u和v的最短路径距离,则
dist(s,t)=dis(s)[1]+Dist(u,v)+dis(t)[1]。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于强化学习的路网最短路径距离计算方法,其特征在于,包括以下步骤:
S1、将构建最短路径距离索引的过程转化成马尔可夫决策过程;
S2、基于马尔可夫决策过程,构建并训练基于强化学习的策略模型;
S3、利用策略模型构建层级结构的2-hop label索引;
S4、对2-hop label索引进行优化;
S5、运用优化后的2-hop label索引处理查询,并返回查询结果。
2.根据权利要求1所述基于强化学习的路网最短路径距离计算方法,其特征在于,所述S1包括以下步骤:
S11、定义路网和最短路径查询;
S12、定义树分解;
S13、基于路网、最短路径查询和树分解,定义马尔可夫决策过程。
3.根据权利要求2所述基于强化学习的路网最短路径距离计算方法,其特征在于,
在树分解的每一步,都需从剩余未移除的节点中筛选出若干候选节点,将所有候选节点的特征拼接后构成马尔可夫决策过程的状态;
用Vk={u1,…,uk}表示筛选出的k个候选节点,一个马尔可夫决策过程的行为a=j表示从Vk中选择节点uj,1≤j≤k;
采用同步参考法得到马尔可夫决策过程的奖励,具体为:在树分解的每一步中,从候选节点中选择节点移除的同时,同步使用启发式的方法选择节点进行移除,将该两种操作中得到的结果差值作为奖励;
马尔可夫决策过程的状态转移表示为一个元组(s,a,s′,r),表示在当前状态s下选择行为a,进入下一个状态s′并得到奖励r的过程。
4.根据权利要求3所述基于强化学习的路网最短路径距离计算方法,其特征在于,所述S2包括以下步骤:
S21、基于Deep Q Network构建基于强化学习的策略模型;
S22、基于马尔可夫决策过程,对策略模型进行训练。
5.根据权利要求4所述基于强化学习的路网最短路径距离计算方法,其特征在于,所述S22包括以下步骤:
S222、判断训练周期是否结束,若结束,则跳转至步骤S229,否则继续执行步骤S223;
S223、初始化路网,得到第一个状态;
S224、判断是否达到终止状态,若是,则跳转至步骤S222,否则继续执行步骤S225;
S225、按照∈-greedy的方式,选择行为a,得到状态s′和奖励r,存储状态转移元组(s,a,s′,r)到经验池M;
S226、判断经验池M是否达到容量N,若是,则继续执行步骤S227,否则跳转至步骤S224;
S227、从经验池M随机采样一个batch的状态转移元组训练行为网络Q(s,a;Θ);
S228、进入下一个状态,跳转至步骤S224;
S229、训练结束,得到训练好的行为网络Q(s,a;Θ)。
6.根据权利要求5所述基于强化学习的路网最短路径距离计算方法,其特征在于,所述S3包括以下步骤:
S31、基于策略模型将路网转化为树结构;
S32、对于树结构中的每一个树结点,按照从上到下的方式计算基于层级结构的2-hoplabel索引。
7.根据权利要求6所述基于强化学习的路网最短路径距离计算方法,其特征在于,所述S31包括以下步骤:
S311、获取路网;
S312、根据路网构建倒排表;
S313、从倒排表中选出k个候选节点组成集合Vk,计算各候选节点的特征值,将各征值进行拼接组成状态向量;
S314、将状态向量输入到策略模型,选择奖励值最大的节点作为移除节点,进行节点移除操作和节点连接操作,将移除节点从未删除节点集合移动到已删除节点集合;
S315、判断未删除节点集合是否为空集,若是,则输出各移除节点连接而成的树结构,否则跳转至步骤S312。
8.根据权利要求7所述基于强化学习的路网最短路径距离计算方法,其特征在于,索引包括位置数组pos(v)和距离数组dis(v),位置数组pos(v)存储的是步骤S31得到的树结构的结点X(v)中所有节点在树结构中的深度,距离数组dis(v)存储的是树结构的结点X(v)到所有祖先节点的最短距离。
9.根据权利要求8所述基于强化学习的路网最短路径距离计算方法,其特征在于,所述S4包括以下步骤:
S41、计算路网的图密度ρ,公式如下:
其中,|E|为路网的边总数,|V|为路网的节点总数;
S42、选择对路网进行树分解的方法,具体为:设定图密度阈值ρθ,当ρ≤ρθ时,使用最小度的启发式方法对路网进行树分解,当ρ>ρθ时,使用强化学习的方法对路网进行树分解;
S43、对路网进行树分解,在该过程中,对于路网中同一条没有分叉的路径Line,找到其端点X(u),并将端点X(u)的结点编号u存储在该Line的位置数组pos(v)中;
S44、对于Line生成的单叉树,将其中所有祖先结点的高度,依次存放于其位置数组pos(v)中;
S45、从树根到叶子,依次计算Line中所有结点到单支树中祖先结点的最短路径距离,并存放在距离数组dis(v)中,此时,2-hop label索引的优化过程结束。
10.根据权利要求9所述基于强化学习的路网最短路径距离计算方法,其特征在于,在步骤S5中,查询过程包括非单支树结点之间的查询、同一单支树结点之间的查询以及不同单支树结点之间的查询。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210740846.3A CN114996278B (zh) | 2022-06-27 | 2022-06-27 | 一种基于强化学习的路网最短路径距离查询方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210740846.3A CN114996278B (zh) | 2022-06-27 | 2022-06-27 | 一种基于强化学习的路网最短路径距离查询方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114996278A true CN114996278A (zh) | 2022-09-02 |
CN114996278B CN114996278B (zh) | 2023-05-23 |
Family
ID=83036669
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210740846.3A Active CN114996278B (zh) | 2022-06-27 | 2022-06-27 | 一种基于强化学习的路网最短路径距离查询方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114996278B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116662412A (zh) * | 2023-07-24 | 2023-08-29 | 云南电网能源投资有限责任公司 | 一种电网配用电大数据的数据挖掘方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106779251A (zh) * | 2017-01-23 | 2017-05-31 | 东南大学 | 一种基于位置学习效应的最短路径问题的启发式搜索方法 |
CN110794832A (zh) * | 2019-10-21 | 2020-02-14 | 同济大学 | 一种基于强化学习的移动机器人路径规划方法 |
CN111626489A (zh) * | 2020-05-20 | 2020-09-04 | 杭州安恒信息技术股份有限公司 | 基于时序差分学习算法的最短路径规划方法和装置 |
CN112101676A (zh) * | 2020-09-23 | 2020-12-18 | 腾讯科技(深圳)有限公司 | 一种乘车路径规划方法、装置、计算机设备及存储介质 |
CN113094982A (zh) * | 2021-03-29 | 2021-07-09 | 天津理工大学 | 一种基于多智能体深度强化学习的车联网边缘缓存方法 |
CN114253975A (zh) * | 2021-12-20 | 2022-03-29 | 华中科技大学 | 一种负载感知的路网最短路径距离计算方法及装置 |
WO2022083029A1 (zh) * | 2020-10-19 | 2022-04-28 | 深圳大学 | 一种基于深度强化学习的决策方法 |
WO2022120953A1 (zh) * | 2020-12-10 | 2022-06-16 | 中国科学院深圳先进技术研究院 | 基于增量式最小费用最大流的虚拟服务迁移方法及系统 |
-
2022
- 2022-06-27 CN CN202210740846.3A patent/CN114996278B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106779251A (zh) * | 2017-01-23 | 2017-05-31 | 东南大学 | 一种基于位置学习效应的最短路径问题的启发式搜索方法 |
CN110794832A (zh) * | 2019-10-21 | 2020-02-14 | 同济大学 | 一种基于强化学习的移动机器人路径规划方法 |
CN111626489A (zh) * | 2020-05-20 | 2020-09-04 | 杭州安恒信息技术股份有限公司 | 基于时序差分学习算法的最短路径规划方法和装置 |
CN112101676A (zh) * | 2020-09-23 | 2020-12-18 | 腾讯科技(深圳)有限公司 | 一种乘车路径规划方法、装置、计算机设备及存储介质 |
WO2022083029A1 (zh) * | 2020-10-19 | 2022-04-28 | 深圳大学 | 一种基于深度强化学习的决策方法 |
WO2022120953A1 (zh) * | 2020-12-10 | 2022-06-16 | 中国科学院深圳先进技术研究院 | 基于增量式最小费用最大流的虚拟服务迁移方法及系统 |
CN113094982A (zh) * | 2021-03-29 | 2021-07-09 | 天津理工大学 | 一种基于多智能体深度强化学习的车联网边缘缓存方法 |
CN114253975A (zh) * | 2021-12-20 | 2022-03-29 | 华中科技大学 | 一种负载感知的路网最短路径距离计算方法及装置 |
Non-Patent Citations (5)
Title |
---|
BOLONG ZHENG 等: ""Keyword-Aware Continuous kNN Query on Road Networks"", 《HTTPS://IEEEXPLORE.IEEE.ORG/ABSTRACT/DOCUMENT/7498297》 * |
JABES: ""强化学习基础篇(二)马尔科夫决策过程"", 《HTTPS://WWW.JIANSHU.COM/P/FB33231AC3A8》 * |
毛江云等: "路网空间下基于马尔可夫决策过程的异常车辆轨迹检测算法", 《计算机学报》 * |
知乎用户V64FGV: ""论文阅读|Distance Queries via 2-hop Labels"", 《HTTPS://ZHUANLAN.ZHIHU.COM/P/259514664》 * |
零独叶: ""如何用强化学习来解决最短路径问题?优势在哪里"", 《HTTPS://WWW.ZHIHU.COM/QUESTION/405528845》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116662412A (zh) * | 2023-07-24 | 2023-08-29 | 云南电网能源投资有限责任公司 | 一种电网配用电大数据的数据挖掘方法 |
CN116662412B (zh) * | 2023-07-24 | 2023-10-03 | 云南电网能源投资有限责任公司 | 一种电网配用电大数据的数据挖掘方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114996278B (zh) | 2023-05-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Madkour et al. | A survey of shortest-path algorithms | |
CN106503789A (zh) | 基于迪杰斯特拉和最大最小蚁群的无环最短路径搜索方法 | |
CN109840551B (zh) | 一种用于机器学习模型训练的优化随机森林参数的方法 | |
CN111709560A (zh) | 一种基于改进蚁群算法的解决车辆路径问题方法 | |
CN111695668A (zh) | 一种基于反向学习的蚁群算法优化方法 | |
CN114996278B (zh) | 一种基于强化学习的路网最短路径距离查询方法 | |
CN110675004A (zh) | 一种基于灰狼算法的路径规划方法 | |
CN112734051A (zh) | 一种针对分类问题的进化集成学习方法 | |
Huang et al. | Ponas: Progressive one-shot neural architecture search for very efficient deployment | |
CN114253975B (zh) | 一种负载感知的路网最短路径距离计算方法及装置 | |
CN116817958B (zh) | 一种基于障碍物分组的参考路径生成方法、装置和介质 | |
Zheng et al. | Reinforcement Learning based Tree Decomposition for Distance Querying in Road Networks | |
CN108052743B (zh) | 一种阶梯接近中心度确定方法及系统 | |
CN113920514A (zh) | 一种面向目标检测的高效进化神经网络架构搜索方法 | |
CN111462812B (zh) | 一种基于特征层次的多目标系统发育树构建方法 | |
CN114896480B (zh) | 基于路网索引的Top-K空间关键字查询方法 | |
CN115270377B (zh) | 一种基于改进蚁群算法的多电缆最佳路径规划方法 | |
CN117135087A (zh) | 一种面向轻重边有效分离的双层邻接矩阵图流测量方法 | |
CN117291323A (zh) | 基于量子算法的车辆路径优化方法、装置、设备及介质 | |
CN116304213A (zh) | 基于图神经网络的rdf图数据库子图匹配查询优化方法 | |
CN110097076A (zh) | 一种基于gpu架构的矢量道路网络匹配并行计算方法及装置 | |
CN112785082B (zh) | 基于学习的路网最短路距离近似计算模型训练方法和装置 | |
Huang et al. | ACR-Tree: Constructing R-Trees Using Deep Reinforcement Learning | |
CN115046566A (zh) | 长距离导航的路径规划方法、设备和计算机可读存储介质 | |
Yoga et al. | Advanced Traveler Information Systems: Itinerary Optimisation Using Orienteering Problem Model and Genetic Algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |