CN114023063B - 一种基于认知网络的智能交通系统协同决策方法 - Google Patents

一种基于认知网络的智能交通系统协同决策方法 Download PDF

Info

Publication number
CN114023063B
CN114023063B CN202111288152.2A CN202111288152A CN114023063B CN 114023063 B CN114023063 B CN 114023063B CN 202111288152 A CN202111288152 A CN 202111288152A CN 114023063 B CN114023063 B CN 114023063B
Authority
CN
China
Prior art keywords
task
decision
compatible
granularity
formula
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111288152.2A
Other languages
English (en)
Other versions
CN114023063A (zh
Inventor
林恺
高建
周东生
陈炳才
赵楠
张强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN202111288152.2A priority Critical patent/CN114023063B/zh
Publication of CN114023063A publication Critical patent/CN114023063A/zh
Application granted granted Critical
Publication of CN114023063B publication Critical patent/CN114023063B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0125Traffic data processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0137Measuring and analyzing of parameters relative to traffic conditions for specific applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/30Services specially adapted for particular environments, situations or purposes
    • H04W4/40Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Traffic Control Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明属于智能交通实时决策技术领域,涉及一种基于认知网络的智能交通系统协同决策方法。本发明致力于解决智能交通系统中多任务并行协同决策实时性不足的问题,充分考虑来自任务多样性与环境多变性带来的挑战,利用粒计算对模糊环境的表达能力构建多任务并行的层次化相容粒度空间模型并基于此设计了多任务协同实时决策算法。本发明方法能够第一时间响应任务和环境的变化,保证了时间敏感场景下的多任务协同实时决策。

Description

一种基于认知网络的智能交通系统协同决策方法
技术领域
本发明属于智能交通实时决策技术领域,涉及一种基于认知网络的智能交通系统协同决策方法。
背景技术
随着智能交通系统的飞速发展,车辆的大规模协同决策的实时性受到了广泛关注。同时,在动态环境下及时分配资源对于满足决策目标至关重要。虽然结合了6G新的通信技术等,进一步保证性能智能交通系统中的协同决策,多个共存决策任务给响应时间和决策的准确性带来巨大的挑战。尤其是在智能交通系统的动态和复杂环境中,车辆只能获取信息通过局部观察进行决策,数据的模糊性严重影响协同决策的准确性和响应时间。
粒度分解在特征提取和不确定信息的描述方面有明显的优势,引入到认知网络驱动的智能交通系统的粒度计算可以加强不确定性知识发现能力决策过程中的数据。
另一方面,作为可以应对复杂动态环境的先进技术,认知网络带来了可能智能交通吸引的高效并行决策能力。Zhao等人设计了信息中心网络结合认知网络并应用于智能交通系统中的规划决策问题,它使用分析网络实现主动认知访问的能力到交通数据。这些研究分别满足执行不同的决策任务,但它们不支持多任务并行决策的执行制作。粒计算结合粗糙集理论进行粒化不同角度的信息来源,形成一个决策数据的多视图多层次表达,根据粒度和它们之间的关系,有助于在智能交通系统中用于处理决策的执行在复杂的环境中完成任务。Lyu等人提议驾驶员状态的长期多粒度深度框架为智能交通系统提供安全驾驶保障功能。Javier等人提出了估计缺失值的细粒度算法,在模糊偏好关系中的信息缺乏条件下提高群体决策信息能力。
发明内容
为了克服现有技术的不足,本发明的目的在于面向智能交通领域任务多变和环境复杂的特点提供一种基于认知网络的智能交通协同决策方法,本发明构建了层次化相容粒度空间模型,以增强信息粒的认知不完全或者遗漏识别理解能力,通过构建多粒度信息结构来提高决策过程的知识发现能力。基于该模型结合序贯决策理论设计一种多任务协同实时决策算法,实现任务间的多粒度的信息匹配和知识迁移,进而提升多任务并行的智能交通系统协同实时决策效率。
本发明的主要技术包括两个部分:
(1)构建了层次化相容粒度空间模型,在智能交通系统中部分任务的数据来源是模糊的,信息的不确定性导致数据无法直接作为决策过程的输入,首先需要对数据进行粒化,针对模糊数据与决策目标间内在影响进行抽象概括,构建一种面向多个交通任务并行的层次化相容粒度空间模型,通过将各个任务的决策信息源转化为层次化的信息粒结构以加强对任务间联系的认知,并设计自适应调整功能,使相容粒度空间的结构应随任务集动态变化而进行调整,以满足任务各自的执行特点与任务间的协作需求,为智能交通系统中数据模糊环境下的多任务协同实时决策算法提供基础。
(2)设计基于深度Q学习的多任务协同实时决策算法,该算法基于上述层次化相容粒度空间模型建立,结合深度神经网络与强化学习的深度Q学习设计多任务协同实时决策算法,以适应决策时产生的庞大且交错的状态空间和实时动态更新的决策数据,从而实现动态实时协同决策。由于多粒度实时决策模型底层权重确定是根据相容信息粒度空间的,高层胶囊权重同时也可由基于低层获得,为了跟踪及确定每一层的最优权重以及训练状态,该算法使用ε-greedy策略来决定采取的动作,依据奖励选择最佳动作并循环该过程直到奖励增加不明显未知,从而通过深度Q学习获得最优决策。
为了达到上述目的,本发明采用的技术方案如下:
一种基于认知网络的智能交通协同决策方法,步骤如下:
步骤(1)多任务并行下的层次化相容粒度空间模型构建
(1.1)首先针对各交通任务建立各自的粗糙集。对于智能交通系统中的并行任务集合M={m1,m2,...,mn}中的任意一个任务,用二元组Ki=<Ui,Ri>表示其粗糙集对应的近似空间,其中Ui={u1,u2,...,ul}指的是任务mi对应的论域,是通过不同角度对交通任务mi进行描述的非空有限集,而Ri={r1,r2,...,rc}是描述各ua间等价关系的集合。通过近似关系获取道路模糊信息ua的边界域为
Figure BDA0003333950050000031
R i(ua)和
Figure BDA0003333950050000032
分别表示下近似集合和下近似集合,计算方式如公式(1)所示:
Figure BDA0003333950050000033
Figure BDA0003333950050000034
其次要精确衡量论域间的相似程度,从计算不同论域间知识的相关程度出发。并行任务集合M定义三元组PM=<U,R,δ>表示任务并行下的近似空间,其中U表示并行任务下的总论域,δ={δ12,...,δσ}表示不同论域间信息粒的等价关系的集合,对于任意两个任务mi,mj分别产生的论域Ui,Uj中的任意两个元素ua和ub,用公式(2)中的参数zab描述两元素的相似程度:
Figure BDA0003333950050000035
其中
Figure BDA0003333950050000036
表示信息粒ua与ub在并行任务下的下近似粗糙集。
为满足相容粒度空间的结构随车辆任务集变化而改变,根据公式(2)设计相容参数ρ敏感的诱导相容函数τρ,使其满足相容粒度空间的自适应调整功能:
Figure BDA0003333950050000041
其中ρ表示相容参数,依据论域间相似程度结果zab定义的阈值。它的取值随实际任务的属性和状态改变而变化,能够一定程度上保证决策结果的准确性。
基于公式(3)得到的诱导相容函数τρ,定义T时间段内并行的任务集合MT对应的相容粒度空间模型:
<MT,U,τρ> (4)
公式(4)中U表示MT对应的论域集合,τρ表示MT对应的诱导相容函数,用来支持相容信息粒度空间内部结构的自适应调整。
(1.2)将步骤(1.1)获得的相容粒度空间模型依据车辆任务的决策属性进行分类和分层,由粗到细的粒层次结构更加有利于多任务并行决策。对于任意任务都拥有自己独立一组分层规则。为了量化分层规则对任务信息粒的严格程度,利用向量形式表示分层规则,严格程度则由向量的模长决定。分层规则如下定义:
Figure BDA0003333950050000042
公式(5)中
Figure BDA0003333950050000043
Vi是各决策属性下对应的值域,d表示对应的决策属性,α∈B表示任意条件属性子集,任何属性η其决策后值域为Vi η,{*}表示与当前规则无关的相应属性值,向量的模长由非*属性值的数量||χ||决定,即相关属性值越多代表该向量越大,同时也代表在该规则下信息粒越细。
根据公式(5)的对相容粒度空间的分层规则定义,层次化相容粒度空间完成最终定义:
Spi={Ui,Bi,Di,Vi,fi,Li} (6)
公式(6)中Ui表示mi对应的整个信息粒空间,即对应论域,Bi是条件属性集,Di表示决策属性集,Vi是各决策属性下对应的值域,即对于任何属性η∈Diη∈Di,其决策后值域为Vi η,fi表示决策函数集,每个属性都有其对应决策函数,即fi:Ui×Di→Vi,Li为当前任务对应论域与其它任务中的相似信息粒集合。
步骤(2)基于深度Q学习的多任务协同实时决策算法设计
利用深度Q学习的经验回放机制,以步骤(1)构造的层次化相容粒度空间模型为基础,设计了一种在此决策模型下运行的基于深度Q学习的多任务协同实时决策算法,以确保交通任务的实时性能。在该算法分为两个部分,分别服务于各阶段的胶囊网络中和整个序贯决策阶段,该算法相关描述如下:
多任务协同实时决策依赖胶囊神经网络和长短期记忆网络结合的多任务学习网络,分别服务于各阶段的胶囊网络中和整个序贯决策阶段。
单阶段胶囊网络最底层的胶囊权重由信息粒在当前任务下的层级确定即可由公式(7)得到,胶囊的层间转化公式如下表示:
Figure BDA0003333950050000051
squash(·)函数表示一种挤压函数,
Figure BDA0003333950050000052
表示当前层的胶囊集合,当h=0时,即阶段β的初始底层胶囊为Spβ和基于Ndβ产生新信息粒的相容空间中的信息粒,任务mi处于β阶段时的初始权重集合为
Figure BDA0003333950050000053
单个阶段初始状态
Figure BDA0003333950050000054
即为相容粒度空间中各粒度对应的胶囊的状态,执行的动作a则对应如何得到特征最清晰的高层胶囊,即获取最大的Q值,每层都根据当前层输出结果Q(ζ,a,θ)进行下一步的决策,其中θ表示网络学习参数。公式(8)为任务mc和md在单阶段内的损失函数l(θ):
Figure BDA0003333950050000055
其中p和q分别为常量,公式(9)参数的更新方式:
Figure BDA0003333950050000061
其中
Figure BDA0003333950050000062
为参数θ的更新梯度,当Q值趋于稳定时输出最新的状态。
在整体序贯决策过程,结合序贯决策理论进行的训练与推理,对于第β阶段来说,其输入来源为前一阶段的输出Oβ-1、阶段内胶囊神经网络部分的决策结果
Figure BDA0003333950050000063
以及新加入的数据Ndβ。模型中每个阶段的输入包括子任务集合,对应相容粒度空间,各任务的历史决策结果以及新加入的决策数据,阶段β的输入可由下述公式描述:
Iβ=[Mβ,Spβ,Oβ-1,Ndβ] (10)
将上述输入来源抽象为多维向量并作为当前层的初始状态
Figure BDA0003333950050000064
进行训练,反复迭代直至Q值不随动作的变化而变化为止。
由于不同任务间的迭代次数会产生分歧,有部分任务已经完成,只要有一个任务还在决策过程中,合成的状态还会不断更新,而实际上已经完成的任务无需再跟随整体决策过程继续计算,会耗费多余的时间和资源。为解决上述问题,针对任务mi用变量
Figure BDA0003333950050000065
进行标记,当任务mi结束时也就意味着Q值趋于稳定,既
Figure BDA0003333950050000066
反之记为1。以任务mc和md并行为例,公式(11)为整体序贯决策过程的损失函数:
Figure BDA0003333950050000067
参数
Figure BDA0003333950050000068
的更新方式如公式(9)通过更新梯度进行计算。
当其中一个任务提前结束时,其对应的Q值将不再影响损失函数的变化,同时也不会再影响后续其他任务进行的状态。因为标记
Figure BDA0003333950050000069
存在的原因,可以及时分离并结束Q值已经趋于平稳的任务,最大限度削减决策成本的同时也保证了任务的实时性能。
本发明的有益效果:
1.高效利用智能交通系统中的模糊信息。普通的交通系统信息处理方法,无法有效利用模糊信息,更无法挖掘到模糊信息中的潜在知识。本方法构建相应关系的粗糙集,提高信息利用率,进而提高决策准确率。
2.解决任务协同低效和实时性不足的问题。由于任务多样性与环境复杂性,不同任务间互相制约决策过程,消耗大量决策成本,本方法对不同任务的信息粒建立层次化的相容粒度空间,且结合序贯决策理论进行深度学习算法,最大限度削减决策成本的同时也保证了任务的实时性能。
附图说明
图1为本发明的智能交通系统的协同决策整体框架。
图2为本发明的决策任务执行过程示意图。
图3为本发明的两个任务并行层次化相容粒度空间形成过程示意图。
图4为本发明的两任务并行的多粒度协同决策模型训练过程示意图。
具体实施方式
以下结合附图和技术方案,进一步说明本发明的具体实施方式。
本发明可用于智能交通系统中的实时协同决策任务,本发明的智能交通系统的协同决策整体框架如图1所示,这里以路径规划和紧急避碰两个任务为例,决策任务执行过程如图2所示,两个任务并行层次化相容粒度空间形成过程如图3所示,两任务并行的多粒度协同决策算法训练过程如图4所示。
本实施例应用到了基于认知网络的智能交通协同决策任务,所论述的具体实施方案仅用于说明本发明的实现方式,而不限制本发明的范围。
下面主要针对智能交通系统下路径规划和紧急避碰两个任务的协同决策情况对本发明的实施方案进行详细说明,主要分为层次化相容粒度空间模型的构建和多任务协同实时决策算法的训练:
(1)层次化相容粒度空间模型的构建:
首先将路径规划和紧急避碰任务中的模糊信息根据公式(1)建立相应的粗糙集,基于公式(2)得到论域中各元素的相关程度衡量进而得出两个任务间的相似程度,根据任一时刻任务间的具体相容程度进行判断和计算。由于智能交通系统的高度动态性,依据公式(3)计算能满足自适应调整的诱导相容函数,结合公式(2)和公式(3)得到路径规划和紧急避碰两个任务融合的相容粒度空间表示。按照公式(5)定义分层规则,确定规划与避碰任务中未相容的信息粒的粗细程度和全部信息粒的层次划分,进而得到能将信息里精准分层的层次化相容粒度空间。
(2)多任务协同实时决策算法的训练:
结合公式(6)已构建的层次化相容粒度空间模型,对规划与避碰任务进行分阶段学习网络训练,首先针对单阶段中的胶囊神经网络,它的底层权重根据相容信息粒度空间确定,高层胶囊权重根据公式(7)由基于低层获得,并公式(8)-(9)可得到单个阶段内胶囊神经网络的损失函数,贪婪地选择最少损失地训练方式直到训练到达最后一层获取最优决策结论。对于整体序贯决策过程,按照公式(10)得到各阶段间的输入表示,通过长短期记忆网络的输出门和tanh函数的激励得到该阶段的最终的阶段性决策输出。根据公式(11)得到的整体决策过程损失函数,使用更新梯度进行计算其对应的Q值将不再影响损失函数的变化,最终路径规划和紧急避碰两个任务及时分离并得到各自的最佳决策结果。

Claims (1)

1.一种基于认知网络的智能交通协同决策方法,其特征在于,步骤如下:
步骤(1)层次化相容粒度空间模型构建
(1.1)首先针对各交通任务建立各自的粗糙集;对于智能交通系统中的并行任务集合M={m1,m2,...,mn}中的任意一个任务,用二元组Ki=<Ui,Ri>表示其粗糙集对应的近似空间,其中Ui={u1,u2,...,ul}指的是任务mi对应的论域,是通过不同角度对交通任务mi进行描述的非空有限集,而Ri={r1,r2,...,rc}是描述各ua间等价关系的集合;通过近似关系获取道路模糊信息ua的边界域为
Figure FDA0003774725510000011
R i(ua)和
Figure FDA0003774725510000012
分别表示下近似集合和上近似集合,计算方式如公式(1)所示:
Figure FDA0003774725510000013
Figure FDA0003774725510000014
其次要精确衡量论域间的相似程度,从计算不同论域间知识的相关程度出发;并行任务集合M定义三元组PM=<U,R,δ>表示任务并行下的近似空间,其中U表示并行任务下的总论域,δ={δ12,...,δσ}表示不同论域间信息粒的等价关系的集合,对于任意两个任务mi,mj分别产生的论域Ui,Uj中的任意两个元素ua和ub,用公式(2)中的参数zab描述两元素的相似程度:
Figure FDA0003774725510000015
其中
Figure FDA0003774725510000016
表示信息粒ua与ub在并行任务下的下近似粗糙集;
为满足相容粒度空间的结构随车辆任务集变化而改变,根据公式(2)设计相容参数ρ敏感的诱导相容函数τρ,使其满足相容粒度空间的自适应调整功能:
Figure FDA0003774725510000017
其中ρ表示相容参数,依据论域间相似程度结果zab定义的阈值;
基于公式(3)得到的诱导相容函数τρ,定义T时间段内并行的任务集合MT对应的相容粒度空间模型:
<MT,U,τρ> (4)
公式(4)中U表示MT对应的论域集合,τρ表示MT对应的诱导相容函数,用来支持相容信息粒度空间内部结构的自适应调整;
(1.2)将步骤(1.1)获得的相容粒度空间模型依据车辆任务的决策属性进行分类和分层,由粗到细的粒层次结构更加有利于多任务并行决策;对于任意任务都拥有自己独立一组分层规则;为了量化分层规则对任务信息粒的严格程度,利用向量形式表示分层规则,严格程度则由向量的模长决定;分层规则如下定义:
Figure FDA0003774725510000021
公式(5)中
Figure FDA0003774725510000022
Vi是各决策属性下对应的值域,d表示对应的决策属性,α∈B表示任意条件属性子集,任何属性η其决策后值域为Vi η,{*}表示与当前规则无关的相应属性值,向量的模长由非*属性值的数量||χ||决定,即相关属性值越多代表该向量越大,同时也代表在该规则下信息粒越细;
根据公式(5)的对相容粒度空间的分层规则定义,层次化相容粒度空间完成最终定义:
Spi={Ui,Bi,Di,Vi,fi,Li} (6)
公式(6)中Ui表示mi对应的整个信息粒空间,即对应论域,Bi是条件属性集,Di表示决策属性集,Vi是各决策属性下对应的值域,即对于任何属性η∈Di,其决策后值域为Vi η,fi表示决策函数集,每个属性都有其对应决策函数,即fi:Ui×Di→Vi,Li为当前任务对应论域与其它任务中的相似信息粒集合;
步骤(2)基于深度Q学习的多任务协同实时决策算法,
利用深度Q学习的经验回放机制,以步骤(1)构造的层次化相容粒度空间模型为基础,设计在模型下运行的基于深度Q学习的多任务协同实时决策算法,以确保交通任务的实时性能;多任务协同实时决策依赖胶囊神经网络和长短期记忆网络结合的多任务学习网络,分别服务于各阶段的胶囊网络中和整个序贯决策阶段;
单阶段胶囊网络最底层的胶囊权重由信息粒在当前任务下的层级确定即可由公式(7)得到,定义任务mi处于β阶段时的初始权重集合为
Figure FDA0003774725510000031
胶囊的层间转化公式如下表示:
Figure FDA0003774725510000032
公式(7)中squash(·)函数表示一种挤压函数,
Figure FDA0003774725510000033
表示当前层的胶囊集合,当h=0时,即阶段β的初始底层胶囊为Spβ和基于Ndβ产生新信息粒的相容空间中的信息粒;
单个阶段初始状态
Figure FDA0003774725510000037
即为相容粒度空间中各粒度对应的胶囊的状态,执行的动作a则对应如何得到特征最清晰的高层胶囊,即获取最大的Q值,每层都根据当前层输出结果Q(ζ,a,θ)进行下一步的决策,其中θ表示网络学习参数;公式(8)为任务mc和md在单阶段内的损失函数l(θ):
Figure FDA0003774725510000034
其中p和q分别为常量,公式(9)参数的更新方式:
Figure FDA0003774725510000035
其中
Figure FDA0003774725510000036
为参数θ的更新梯度,当Q值趋于稳定时输出最新的状态;
在整体序贯决策过程第β阶段来说,其输入来源为前一阶段的输出Oβ-1、阶段内胶囊神经网络部分的决策结果
Figure FDA0003774725510000038
以及新加入的数据Ndβ;模型中每个阶段的输入包括子任务集合,对应相容粒度空间,各任务的历史决策结果以及新加入的决策数据,阶段β的输入由下述公式描述:
Iβ=[Mβ,Spβ,Oβ-1,Ndβ] (10)
将上述输入来源抽象为多维向量并作为当前层的初始状态
Figure FDA0003774725510000046
进行训练,反复迭代直至Q值不随动作的变化而变化为止;
针对任务mi用变量
Figure FDA0003774725510000041
进行标记,当任务mi结束时也就意味着Q值趋于稳定,既
Figure FDA0003774725510000042
反之记为1;以任务mc和md并行为例,公式(11)为整体序贯决策过程的损失函数:
Figure FDA0003774725510000043
参数
Figure FDA0003774725510000044
的更新方式如公式(9)通过更新梯度进行计算;
当其中一个任务提前结束时,其对应的Q值将不再影响损失函数的变化,同时也不会再影响后续其他任务进行的状态;因为标记
Figure FDA0003774725510000045
存在的原因,可以及时分离并结束Q值已经趋于平稳的任务,最大限度削减决策成本的同时也保证任务的实时性能。
CN202111288152.2A 2021-11-02 2021-11-02 一种基于认知网络的智能交通系统协同决策方法 Active CN114023063B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111288152.2A CN114023063B (zh) 2021-11-02 2021-11-02 一种基于认知网络的智能交通系统协同决策方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111288152.2A CN114023063B (zh) 2021-11-02 2021-11-02 一种基于认知网络的智能交通系统协同决策方法

Publications (2)

Publication Number Publication Date
CN114023063A CN114023063A (zh) 2022-02-08
CN114023063B true CN114023063B (zh) 2022-10-21

Family

ID=80059759

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111288152.2A Active CN114023063B (zh) 2021-11-02 2021-11-02 一种基于认知网络的智能交通系统协同决策方法

Country Status (1)

Country Link
CN (1) CN114023063B (zh)

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101330417A (zh) * 2008-07-24 2008-12-24 安徽大学 一种求网络最短路径的商空间覆盖模型及其构建方法
CN101820665B (zh) * 2010-03-31 2012-06-27 北京邮电大学 异构无线网络环境下的接纳控制方法及系统
CN103336790B (zh) * 2013-06-06 2015-02-25 湖州师范学院 基于Hadoop的邻域粗糙集快速属性约简方法
CN110135364A (zh) * 2019-05-16 2019-08-16 中煤航测遥感集团有限公司 一种地物识别方法及装置
CN111354427B (zh) * 2020-02-25 2022-04-29 南通大学 用于大规模电子健康档案知识协同约简的最近邻多粒度利润方法
CN111353551B (zh) * 2020-03-13 2020-12-08 广东工业大学 一种面向产品装配工艺的非均匀样本均衡化方法及系统
AU2020103782A4 (en) * 2020-11-30 2021-02-11 Ningxia Medical University Pet/ct high-dimensional feature level selection method based on genetic algorithm and variable precision rough set
CN113052268A (zh) * 2021-04-29 2021-06-29 南京理工大学 区间集数据类型下基于不确定性度量的属性约简算法

Also Published As

Publication number Publication date
CN114023063A (zh) 2022-02-08

Similar Documents

Publication Publication Date Title
Xu et al. Service offloading with deep Q-network for digital twinning-empowered internet of vehicles in edge computing
Shiue et al. Real-time scheduling for a smart factory using a reinforcement learning approach
WO2019127945A1 (zh) 基于结构化神经网络的成像任务可调度性预测方法
CN112598150B (zh) 一种在智能电厂中基于联邦学习提升火灾检测效果的方法
CN113538910B (zh) 一种自适应的全链条城市区域网络信号控制优化方法
Yu et al. A special event-based K-nearest neighbor model for short-term traffic state prediction
Lin et al. Traffic signal optimization based on fuzzy control and differential evolution algorithm
Zhang et al. Multi-task allocation in mobile crowd sensing with mobility prediction
CN110515732A (zh) 一种基于资源受限机器人深度学习推理的任务分配方法
Tung et al. eFSM—A novel online neural-fuzzy semantic memory model
Mason et al. Applying multi-agent reinforcement learning to watershed management
CN112990485A (zh) 基于强化学习的知识策略选择方法与装置
Kuang et al. Intelligent traffic signal control based on reinforcement learning with state reduction for smart cities
CN116126534A (zh) 一种云资源动态伸缩方法及系统
Alhroob et al. Adaptive fuzzy map approach for accruing velocity of big data relies on fireflies algorithm for decentralized decision making
Chen et al. A collaborative communication-Qmix approach for large-scale networked traffic signal control
Yang et al. A dynamic multi-swarm cooperation particle swarm optimization with dimension mutation for complex optimization problem
CN114023063B (zh) 一种基于认知网络的智能交通系统协同决策方法
Zhao et al. Adaptive Swarm Intelligent Offloading Based on Digital Twin-assisted Prediction in VEC
CN116503378A (zh) 一种双模态cnn二次迁移学习的精矿品位等级预测方法
Zhao et al. Enhancing traffic signal control with composite deep intelligence
Cao et al. Research On Regional Traffic Flow Prediction Based On MGCN-WOALSTM
Damba et al. Hierarchical control in a multiagent system
Zhang et al. Tmfo-aggru: a graph convolutional gated recurrent network for metro passenger flow forecasting
Bao et al. Spatial Influence-aware Reinforcement Learning for Intelligent Transportation System

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant