CN109215311A - 基于强化学习的公共事件预警模型的动态参数权重确定方法 - Google Patents
基于强化学习的公共事件预警模型的动态参数权重确定方法 Download PDFInfo
- Publication number
- CN109215311A CN109215311A CN201811361447.6A CN201811361447A CN109215311A CN 109215311 A CN109215311 A CN 109215311A CN 201811361447 A CN201811361447 A CN 201811361447A CN 109215311 A CN109215311 A CN 109215311A
- Authority
- CN
- China
- Prior art keywords
- historical data
- warning
- data
- intelligent body
- public
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 claims abstract description 24
- 230000003252 repetitive effect Effects 0.000 claims abstract description 17
- 238000013528 artificial neural network Methods 0.000 claims abstract description 6
- 230000009471 action Effects 0.000 claims description 15
- 230000008859 change Effects 0.000 claims description 12
- 230000007246 mechanism Effects 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 4
- 230000003542 behavioural effect Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 2
- 230000008901 benefit Effects 0.000 claims 1
- 238000013461 design Methods 0.000 abstract description 3
- 230000007613 environmental effect Effects 0.000 description 6
- 241001269238 Data Species 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000013499 data model Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000010429 evolutionary process Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013079 data visualisation Methods 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003014 reinforcing effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G08—SIGNALLING
- G08B—SIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
- G08B31/00—Predictive alarm systems characterised by extrapolation or other computation using updated historic data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
- G06Q50/265—Personal security, identity or safety
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/01—Detecting movement of traffic to be counted or controlled
- G08G1/0104—Measuring and analyzing of parameters relative to traffic conditions
- G08G1/0137—Measuring and analyzing of parameters relative to traffic conditions for specific applications
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Educational Administration (AREA)
- Tourism & Hospitality (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Theoretical Computer Science (AREA)
- General Business, Economics & Management (AREA)
- Emergency Management (AREA)
- Analytical Chemistry (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Computing Systems (AREA)
- Game Theory and Decision Science (AREA)
- Chemical & Material Sciences (AREA)
- Computer Security & Cryptography (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明公开了基于强化学习的公共事件预警模型的动态参数权重确定方法,采集公交车、出租车以及路口非机动车的车辆历史数据;使用基于位置信息的多维行车时间序列分形的表示方法对采集的历史数据进行处理,得到一个四维的历史数据图;利用标定的冲突预警标签,使用强化学习算法进行模型的搭建;通过迭代训练获得智能体到达异常序列即公共预警事件的到达路径,将不同的迭代训练的智能体进行多线程的演示对比,选取三个指标最优的智能体,将四维的历史数据进行展开,分析神经网络中的权重参数,得到动态权重的参数。有效提高了预警模型的准确性,该方法新颖独特,设计构思巧妙,预测结果准确,应用环境好,市场前景广阔。
Description
技术领域
本公开涉及计算机数据处理技术领域,特别是涉及基于强化学习的公共事件预警模型的 动态参数权重确定方法。
背景技术
公共安全出现问题,不会是瞬间的,而是一个演化过程,如果可以预先捕捉到事物要出 故障的信号,安全预警系统就可以把这些异常数据与正常情况进行对比,尽早发现异常,采 取预警措施。
因此,如何利用大量历史数据得到公共事件的动态参数权重预测出公共事件的出现的概 率是本公开所要解决的技术问题。
发明内容
为了解决现有技术的不足,本公开的一个方面是提供了基于强化学习的公共事件预警模 型的动态参数权重确定方法,能够得到动态权重的参数。
为了实现上述目的,本申请采用以下技术方案:
基于强化学习的公共事件预警模型的动态参数权重确定方法,包括:
采集公交车、出租车以及路口非机动车的车辆历史数据;
使用基于位置信息的多维行车时间序列分形的表示方法对采集的历史数据进行处理,得 到一个四维的历史数据图,四维历史数据图的维度,具体包括二维线路地图、一维车流量变 化序列、一维时间序列,按照历史事件的冲突预警发生时间与地点,标定在三元组的四维的 历史数据图中;
利用标定的冲突预警标签,使用强化学习算法进行模型的搭建,创建智能体,在四维历 史数据上通过奖惩机制搜寻公共预警事件,当找到标定的冲突预警标签,给予智能体相当的 奖励值,使用记忆模型记忆智能体的路径,即为异常序列即公共预警事件发生的不确定条件;
通过迭代训练获得智能体到达异常序列即公共预警事件的到达路径,将不同的迭代训练 的智能体进行多线程的演示对比,选取三个指标最优的智能体,将四维的历史数据进行展开, 分析神经网络中的权重参数,得到动态权重的参数。
进一步的技术方案,将迭代出的不同线程的最优智能体进行汇总,构建智能体模型,将 智能体所经历的路径定义为智能体路径模型,存储在智能体的记忆中;
将公交车、出租车以及路口非机动车每天实时产生的数据进行实时处理,定义为四维历 史数据,并让智能体在路径模型与四维历史数据状态对应时出现,沿着路径模型线路与四维 历史数据状态相同的路线前进,当路径模型走完,完全满足路径模型条件时,即认定出现异 常序列。
进一步的技术方案,所述公交车的历史数据包括经纬度、车次、站点数、到离站时间以 及车道数、是否有公交车道、站与站相距的距离、路口数;
所述出租车的历史数据包括出租车实时接收车载终端的GPS的经纬度、速度,以及计算 得到的周期内的车流量、平均车速、占有率;
所述路口非机动车的历史数据包括基于时间段的车流量、等待时间。
进一步的技术方案,所述使用基于位置信息的多维行车时间序列分形的表示方法,即将 采集的历史数据先分别就公交车、出租车、路口非机动车三个维度进行数据归一化,然后将 处理后的三个维度的数据转换到时间段、二维线路地图、车流量变化序列这样的三元组数据;
然后将三个维度的三元组数据进行合并,公交车的三元组数据按照时间段与二维线路地 图并行到出租车三元组数据中,而路口非机动车的三元组数据按照二维线路地图嵌入到上述 合并后的数据中;
将最后合并的三元组数据再次归一化,构建为一个四维的历史数据图。
进一步的技术方案,利用标定的冲突预警标签,使用强化学习中的Deep Q-learning算法 进行模型的搭建,创建智能体Agent,也就是决策过程里的行为主体,四维的历史数据图就 是Environment,使用State表示四维历史数据图中的某个状态值,Agent对于四维历史数据图 的观测为Obervation,每一次Agent根据决策移动的方向,均是对环境做出的Action;
Q(s,a)=r+γ(max(Q(s′,a′))
s:当前状态state;a:从当前状态下,采取的行动action;s’:当前行动所产生的新一轮 state;a’:下一次action;r:当前行动产生的奖励reward;γ:折扣因数,表示牺牲当前收益, 换取长远收益的程度。
进一步的技术方案,所述Deep Q-learning算法,即定义一个Agent智能体,在四维历史 数据上通过奖惩机制搜寻公共预警事件,当找到标定的冲突预警标签,给予Agent相当的奖 励值,使用记忆模型记忆Agent的路径,即为异常序列即公共预警事件发生的不确定条件。
进一步的技术方案,将不同的迭代训练的智能体进行多线程的演示对比时,以准确率、 搜索时间、搜索路径作为评价指标。
本发明的第二方面是提供一种计算机可读存储介质。
为了实现上述目的,本发明采用如下一种技术方案:
一种计算机可读存储介质,其中存储有多条指令,所述指令适于由终端设备的处理器加 载并执行所述的基于强化学习的公共事件预警模型的动态参数权重确定方法。
本发明的第三方面是提供一种终端设备。
为了实现上述目的,本发明采用如下一种技术方案:
一种终端设备,包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可 读存储介质用于存储多条指令,所述指令适于由处理器加载并执行所述的基于强化学习的公 共事件预警模型的动态参数权重确定方法。
本发明的第四方面是提供基于强化学习的公共事件预警模型的动态参数权重确定系统。
为了实现上述目的,本发明采用如下一种技术方案:
基于强化学习的公共事件预警模型的动态参数权重确定系统,包括:
历史数据采集单元,采集公交车、出租车以及路口非机动车的车辆历史数据;
数据处理单元,使用基于位置信息的多维行车时间序列分形的表示方法对采集的历史数 据进行处理,得到一个四维的历史数据图,四维历史数据图的维度,具体包括二维线路地图、 一维车流量变化序列、一维时间序列,按照历史事件的冲突预警发生时间与地点,标定在三 元组的四维的历史数据图中;
算法模型建立单元,利用标定的冲突预警标签,使用强化学习算法进行模型的搭建,创 建智能体,在四维历史数据上通过奖惩机制搜寻公共预警事件,当找到标定的冲突预警标签, 给予智能体相当的奖励值,使用记忆模型记忆智能体的路径,即为异常序列即公共预警事件 发生的不确定条件;
动态权重的参数获得单元,通过迭代训练获得智能体到达异常序列即公共预警事件的到 达路径,将不同的迭代训练的智能体进行多线程的演示对比,选取三个指标最优的智能体, 将四维的历史数据进行展开,分析神经网络中的权重参数,得到动态权重的参数。
与现有技术相比,本公开的有益效果是:
本公开首先将城市公交车、出租车、城市路口非机动车辆的数据信息定义为时间序列, 即基于位置信息的多维行车时间序列数据,然后将这些历史数据通过定义的奖惩算法模型进 行迭代训练,以发生公共事件预警的特定异常时间序列与非异常时间序列作为奖惩,进行异 常时历史数据的动态参数权重,该方法通过奖惩机制的算法模型与历史数据分析模型,来探 索发生公共冲突事件的必备条件,有效提高了预警模型的准确性,该方法新颖独特,设计构 思巧妙,预测结果准确,应用环境好,市场前景广阔。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实 施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1为本公开一些实施例子的流程图;
图2为本公开一些实施例子的智能体与环境模型的关系示意图;
图3为本公开一些实施例子的三元组可视化示意图;
图4为本公开一些实施例子的三个并行的序列图;
图5为本公开一些实施例子的搜索到达异常序列示意图。
具体实施方式
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指 明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的 相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申 请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图 包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其 指明存在特征、步骤、操作、器件、组件和/或它们的组合。
大数据时代下,不再受限于各种假象,不再受限于“为什么”的逻辑,而是来源于数据显 示的纯粹和相关关系。进行大数据挖掘可以形成主动防御型预警机制。数据导向的城市公共 安全预警体系是对公共安全事件诱因和演化过程信息进行监测、判断、预警、控制,能够整 合、完善、共享公共安全信息资源,规范预警信息的采集、存储、处理、传播、使用、回馈 等程序,从而构建一种防御型的安全预警体系。在理论领域进一步拓展公共危机预警机制的 研究和时间序列数据挖掘中序列相似性和异常检测研究。
强化学习是人工智能的一个分支,使用Agent智能体与环境的状态交互进行学习。即本公 开的环境使用公交车、出租车、以及路口非机动车的车辆历史数据(包括位置信息、车辆速度 等)。
如何构建公共事件预警模型是本公开技术方案要解决的问题,即建立一个预警模型,来 预警及预测公共事件的发生,使用人工智能及大数据的方法却比较少。而本公开的技术创新 点在于对于上述Agent智能体与环境的交互过程中所产生的动态参数,根据这些参数权重来预 警预测公共事件是否发生。
本申请的一种典型的实施方式中,如图1所示,提供了一种基于强化学习的公共事件预 警模型的动态参数权重确定方法,整体技术构思为:
搭建环境模型:使用基于位置信息的多维行车时间序列分形的表示方法对采集的历史数 据进行处理,得到一个四维的历史数据图,四维历史数据图的维度,具体包括二维线路地 图、一维车流量变化序列、一维时间序列,按照历史事件的冲突预警发生时间与地点,标定 在三元组的四维的历史数据图中;
如图2所示,智能体Agent模型,使用Agent模型搜寻标定的冲突预警标签,即在环境 模型中的四维历史数据图中的点,使用强化学习算法进行模型的搭建,创建智能体,在四维 历史数据上通过奖惩机制搜寻公共预警事件,当找到标定的冲突预警标签,给予智能体相当 的奖励值,使用记忆模型记忆智能体的路径,即为异常序列即公共预警事件发生的不确定条 件。
动态参数确定:Agent(智能体)在四维历史数据图中,从随机开始任意点到标定的异常 序列(发生公共事件冲突预警的点)的路径,包括Agent路径记忆、环境状态转移等参数,都可 以认为是公共冲突事件发生的必要条件。
其中,动态参数是指:Agent在四维历史数据图的路径参数;环境模型的状态转移参数。
在具体技术方案中,包括以下步骤:
(1)采集历史数据:采集公交车、出租车以及路口非机动车的车辆历史数据,具体公交 车的历史数据包括经纬度、车次、站点数、到离站时间以及车道数、是否有公交车道、站与 站相距的距离、路口数等;具体出租车的历史数据包括出租车实时接收车载终端的GPS的经 纬度、速度,以及计算得到的周期内的车流量、平均车速、占有率等。具体路口非机动车的 历史数据包括基于时间段的车流量、等待时间等。
(2)历史数据处理:使用基于位置信息的多维行车时间序列分形的表示方法,即将步骤 (1)中的数据先分别就公交车、出租车、路口非机动车三个维度进行数据归一化,然后将处理 后的三个维度的数据转换到时间段、二维线路地图、车流量变化序列这样的三元组数据。如 图3所示为三维数据可视化图;其中,车流量变化序列是随着时间变化的序列。
然后将三个维度的三元组数据进行合并,公交车的三元组数据按照时间段与二维线路地 图并行到出租车三元组数据中,而路口非机动车的三元组数据按照二维线路地图嵌入到刚才 合并后的数据中。将最后合并的三元组数据再次归一化,构建为一个四维的历史数据图,然 后按照历史事件的冲突预警发生时间与地点,标定在三元组的四维的历史数据图中,形成冲 突预警标签。所述四维历史数据图的维度,具体包括二维线路地图、一维车流量变化序列、 一维时间序列。
将三个维度的三元组数据进行合并时,公交车、出租车、路口非机动车的车流量序列三 个序列按照对应的时间、地图位置并行。三个并行的序列,现在将数据部分进行展示,如图 4所示。
现在数据特征相当于是6个维度:二个维度的地图信息特征,一个维度的时间信息特征, 一个维度的公交车数据信息特征,一个维度的出租车信息特征,一个维度的非机动车信息特 征,为了方便理解,将后三个数据合并为一个维度。
通过上述方式构建为四维的历史数据图以后,就搭建了Agent(智能体)的探索与交互 的环境。
设定异常序列,标定好发生公共事件的时间、地点,随机初始Agent的位置,让它搜索 到达异常序列,根据Agent走过的动态参数,反向确定公共事件预警模型必要条件,如图5 所示,圆圈为标定的异常序列,灰色方框为智能Agent,黑色方框为设定的死循环点,重新开始迭代训练,背景的网格设定为四维的历史数据图。
(3)定义算法模型:利用步骤(2)中标定的冲突预警标签(即为在四维历史数据图中标定 发生的公共事件的时间及地点),使用强化学习中的Deep Q-learning算法进行模型的搭建, 创建智能体Agent,也就是决策过程里的行为主体,四维的历史数据图就是Environment,使 用State表示四维历史数据图中的某个状态值,Agent对于四维历史数据图的观测为 Obervation,每一次Agent根据决策移动的方向,都是对环境做出的Action。
Q(s,a)=r+γ(max(Q(s′,a′))
s:当前状态state;
a:从当前状态下,采取的行动action;
s’:当前行动所产生的新一轮state;
a’:下一次action;
r:当前行动产生的奖励reward;
γ:折扣因数,表示牺牲当前收益,换取长远收益的程度。
Q(.)表示为状态—动作值函数,State-action value Function。
所述Deep Q-learning算法,即定义一个Agent智能体,在四维历史数据上通过奖惩机制 搜寻公共预警事件,当找到(2)中标定的冲突预警标签,给予Agent相当的奖励值,使用记忆 模型记忆Agent的路径,即为异常序列(公共预警事件)发生的不确定条件。
后续让Agent根据deep Q-learning算法,在四维历史数据图上探寻搜索这个异常序列, 即不确定条件。
记录Agent搜寻过程中的参数模型。拥有这个参数模型后,就能够反向分析Agent在环 境模型中的路径,就能够确定公共事件发生的必备的环境影响条件。
(4)迭代训练:Agent在四维历史数据图中的运动轨迹是根据奖惩机制自我探索出的路 径,具有一定的随机性和试错性,所以需要不断的迭代训练,找出Agent“自我认为”最正确的 一条到达路径。即迭代训练到最后,Agent会得到特定的一条到达异常序列(公共预警事件) 的到达路径。
(5)结果评价:将不同的迭代训练的Agent进行多线程的演示对比,进行对比分析,以 准确率、搜索时间、搜索路径作为评价指标。
(6)计算出最终预测参数:选取三个指标最优的Agent,将四维的历史数据进行展开, 即展开为公交车、出租车、路口非机动车三类数据的三元组合并后的形式,然后分析Agent 与环境模型(四维历史数据模型)交互的权重参数,得到动态权重的参数。
(7)动态权重参数应用:将(5)中迭代出的不同线程的最优Agent进行汇总,构建Agent 模型,将Agent所经历的路径定义为Agent路径模型,存储在Agent的记忆中。每天实时产 生的数据可以通过上述的(1)(2)的数据采集与处理流程,将产生的数据进行实时处理,定 义为四维历史数据,并让Agent在路径模型与四维历史数据状态对应时出现,沿着路径模型 线路与四维历史数据状态相同的路线前进,当路径模型走完,完全满足路径模型条件时,即 认定出现异常序列(公共预警事件)。
四维历史数据环境模型,是历史的数据生成的,并使用Agent在上面进行训练,寻找公 共事件发生的标签(异常序列)。
当新的实时数据产生,构建为四维历史数据模型的时候,Agent的路径与训练时的一样时, 就证明发生公共事件冲突(异常序列)的必备条件已经出现。
本公开的另一实施例子,公开了一种计算机可读存储介质,其中存储有多条指令,所述 指令适于由终端设备的处理器加载并执行所述的基于强化学习的公共事件预警模型的动态参 数权重确定方法。
本公开的再一实施例子,公开了一种终端设备,包括处理器和计算机可读存储介质,处 理器用于实现各指令;计算机可读存储介质用于存储多条指令,所述指令适于由处理器加载 并执行所述的基于强化学习的公共事件预警模型的动态参数权重确定方法。
本公开的又一实施例子,公开了基于强化学习的公共事件预警模型的动态参数权重确定 系统,包括:
历史数据采集单元,采集公交车、出租车以及路口非机动车的车辆历史数据;
数据处理单元,使用基于位置信息的多维行车时间序列分形的表示方法对采集的历史数 据进行处理,得到一个四维的历史数据图,四维历史数据图的维度,具体包括二维线路地图、 一维车流量变化序列、一维时间序列,按照历史事件的冲突预警发生时间与地点,标定在三 元组的四维的历史数据图中;
算法模型建立单元,利用标定的冲突预警标签,使用强化学习算法进行模型的搭建,创 建智能体,在四维历史数据上通过奖惩机制搜寻公共预警事件,当找到标定的冲突预警标签, 给予智能体相当的奖励值,使用记忆模型记忆智能体的路径,即为异常序列即公共预警事件 发生的不确定条件;
动态权重的参数获得单元,通过迭代训练获得智能体到达异常序列即公共预警事件的到 达路径,将不同的迭代训练的智能体进行多线程的演示对比,选取三个指标最优的智能体, 将四维的历史数据进行展开,分析神经网络中的权重参数,得到动态权重的参数。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员 来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等 同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.基于强化学习的公共事件预警模型的动态参数权重确定方法,其特征是,包括:
采集公交车、出租车以及路口非机动车的车辆历史数据;
使用基于位置信息的多维行车时间序列分形的表示方法对采集的历史数据进行处理,得到一个四维的历史数据图,四维历史数据图的维度,具体包括二维线路地图、一维车流量变化序列、一维时间序列,按照历史事件的冲突预警发生时间与地点,标定在三元组的四维的历史数据图中;
利用标定的冲突预警标签,使用强化学习算法进行模型的搭建,创建智能体,在四维历史数据上通过奖惩机制搜寻公共预警事件,当找到标定的冲突预警标签,给予智能体相当的奖励值,使用记忆模型记忆智能体的路径,即为异常序列即公共预警事件发生的不确定条件;
通过迭代训练获得智能体到达异常序列即公共预警事件的到达路径,将不同的迭代训练的智能体进行多线程的演示对比,选取三个指标最优的智能体,将四维的历史数据进行展开,分析神经网络中的权重参数,得到动态权重的参数。
2.如权利要求1所述的基于强化学习的公共事件预警模型的动态参数权重确定方法,其特征是,将迭代出的不同线程的最优智能体进行汇总,构建智能体模型,将智能体所经历的路径定义为智能体路径模型,存储在智能体的记忆中;
将公交车、出租车以及路口非机动车每天实时产生的数据进行实时处理,定义为四维历史数据,并让智能体在路径模型与四维历史数据状态对应时出现,沿着路径模型线路与四维历史数据状态相同的路线前进,当路径模型走完,完全满足路径模型条件时,即认定出现异常序列。
3.如权利要求1所述的基于强化学习的公共事件预警模型的动态参数权重确定方法,其特征是,所述公交车的历史数据包括经纬度、车次、站点数、到离站时间以及车道数、是否有公交车道、站与站相距的距离、路口数;
所述出租车的历史数据包括出租车实时接收车载终端的GPS的经纬度、速度,以及计算得到的周期内的车流量、平均车速、占有率;
所述路口非机动车的历史数据包括基于时间段的车流量、等待时间。
4.如权利要求1所述的基于强化学习的公共事件预警模型的动态参数权重确定方法,其特征是,所述使用基于位置信息的多维行车时间序列分形的表示方法,即将采集的历史数据先分别就公交车、出租车、路口非机动车三个维度进行数据归一化,然后将处理后的三个维度的数据转换到时间段、二维线路地图、车流量变化序列这样的三元组数据;
然后将三个维度的三元组数据进行合并,公交车的三元组数据按照时间段与二维线路地图并行到出租车三元组数据中,而路口非机动车的三元组数据按照二维线路地图嵌入到上述合并后的数据中;
将最后合并的三元组数据再次归一化,构建为一个四维的历史数据图。
5.如权利要求1所述的基于强化学习的公共事件预警模型的动态参数权重确定方法,其特征是,利用标定的冲突预警标签,使用强化学习中的Deep Q-learning算法进行模型的搭建,创建智能体Agent,也就是决策过程里的行为主体,四维的历史数据图就是Environment,使用State表示四维历史数据图中的某个状态值,Agent对于四维历史数据图的观测为Obervation,每一次Agent根据决策移动的方向,均是对环境做出的Action;
Q(s,a)=r+γ(max(Q(s′,a′))
s:当前状态state;a:从当前状态下,采取的行动action;s’:当前行动所产生的新一轮state;a’:下一次action;r:当前行动产生的奖励reward;γ:折扣因数,表示牺牲当前收益,换取长远收益的程度。
6.如权利要求1所述的基于强化学习的公共事件预警模型的动态参数权重确定方法,其特征是,所述Deep Q-learning算法,即定义一个Agent智能体,在四维历史数据上通过奖惩机制搜寻公共预警事件,当找到标定的冲突预警标签,给予Agent相当的奖励值,使用记忆模型记忆Agent的路径,即为异常序列即公共预警事件发生的不确定条件。
7.如权利要求1所述的基于强化学习的公共事件预警模型的动态参数权重确定方法,其特征是,将不同的迭代训练的智能体进行多线程的演示对比时,以准确率、搜索时间、搜索路径作为评价指标。
8.一种计算机可读存储介质,其中存储有多条指令,所述指令适于由终端设备的处理器加载并执行权利要求1-7任一所述的基于强化学习的公共事件预警模型的动态参数权重确定方法。
9.一种终端设备,包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,所述指令适于由处理器加载并执行权利要求1-7任一所述的基于强化学习的公共事件预警模型的动态参数权重确定方法。
10.基于强化学习的公共事件预警模型的动态参数权重确定系统,包括:
历史数据采集单元,采集公交车、出租车以及路口非机动车的车辆历史数据;
数据处理单元,使用基于位置信息的多维行车时间序列分形的表示方法对采集的历史数据进行处理,得到一个四维的历史数据图,四维历史数据图的维度,具体包括二维线路地图、一维车流量变化序列、一维时间序列,按照历史事件的冲突预警发生时间与地点,标定在三元组的四维的历史数据图中;
算法模型建立单元,利用标定的冲突预警标签,使用强化学习算法进行模型的搭建,创建智能体,在四维历史数据上通过奖惩机制搜寻公共预警事件,当找到标定的冲突预警标签,给予智能体相当的奖励值,使用记忆模型记忆智能体的路径,即为异常序列即公共预警事件发生的不确定条件;
动态权重的参数获得单元,通过迭代训练获得智能体到达异常序列即公共预警事件的到达路径,将不同的迭代训练的智能体进行多线程的演示对比,选取三个指标最优的智能体,将四维的历史数据进行展开,分析神经网络中的权重参数,得到动态权重的参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811361447.6A CN109215311B (zh) | 2018-11-15 | 2018-11-15 | 基于强化学习的公共事件预警模型的动态参数权重确定方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811361447.6A CN109215311B (zh) | 2018-11-15 | 2018-11-15 | 基于强化学习的公共事件预警模型的动态参数权重确定方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109215311A true CN109215311A (zh) | 2019-01-15 |
CN109215311B CN109215311B (zh) | 2020-07-21 |
Family
ID=64994425
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811361447.6A Expired - Fee Related CN109215311B (zh) | 2018-11-15 | 2018-11-15 | 基于强化学习的公共事件预警模型的动态参数权重确定方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109215311B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109686050A (zh) * | 2019-01-18 | 2019-04-26 | 桂林电子科技大学 | 基于云服务与深度神经网络的车内环境监测预警方法 |
CN110428666A (zh) * | 2019-08-01 | 2019-11-08 | 中国民航大学 | 一种基于人机协同进化智能的民航飞机空中冲突解决决策方法 |
CN111612677A (zh) * | 2020-05-27 | 2020-09-01 | 北京明略软件系统有限公司 | 事件安全性的检测方法、检测装置、电子设备及存储介质 |
CN117037073A (zh) * | 2023-09-12 | 2023-11-10 | 天津君萌科技有限公司 | 基于人工智能可视化的对象定位方法及可视化监控系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103702349A (zh) * | 2013-12-26 | 2014-04-02 | 中国科学院自动化研究所 | 一种基于稀疏强化学习的传感器网络优化方法 |
CN103808316A (zh) * | 2012-11-12 | 2014-05-21 | 哈尔滨恒誉名翔科技有限公司 | 室内飞行智能体惯性系统与激光测距仪组合导航改进方法 |
CN104932267A (zh) * | 2015-06-04 | 2015-09-23 | 曲阜师范大学 | 一种采用资格迹的神经网络学习控制方法 |
US9311600B1 (en) * | 2012-06-03 | 2016-04-12 | Mark Bishop Ring | Method and system for mapping states and actions of an intelligent agent |
US20180025249A1 (en) * | 2016-07-25 | 2018-01-25 | Mitsubishi Electric Research Laboratories, Inc. | Object Detection System and Object Detection Method |
US20180373982A1 (en) * | 2017-06-23 | 2018-12-27 | Carnege Mellon University | Neural map |
-
2018
- 2018-11-15 CN CN201811361447.6A patent/CN109215311B/zh not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9311600B1 (en) * | 2012-06-03 | 2016-04-12 | Mark Bishop Ring | Method and system for mapping states and actions of an intelligent agent |
CN103808316A (zh) * | 2012-11-12 | 2014-05-21 | 哈尔滨恒誉名翔科技有限公司 | 室内飞行智能体惯性系统与激光测距仪组合导航改进方法 |
CN103702349A (zh) * | 2013-12-26 | 2014-04-02 | 中国科学院自动化研究所 | 一种基于稀疏强化学习的传感器网络优化方法 |
CN104932267A (zh) * | 2015-06-04 | 2015-09-23 | 曲阜师范大学 | 一种采用资格迹的神经网络学习控制方法 |
US20180025249A1 (en) * | 2016-07-25 | 2018-01-25 | Mitsubishi Electric Research Laboratories, Inc. | Object Detection System and Object Detection Method |
US20180373982A1 (en) * | 2017-06-23 | 2018-12-27 | Carnege Mellon University | Neural map |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109686050A (zh) * | 2019-01-18 | 2019-04-26 | 桂林电子科技大学 | 基于云服务与深度神经网络的车内环境监测预警方法 |
CN110428666A (zh) * | 2019-08-01 | 2019-11-08 | 中国民航大学 | 一种基于人机协同进化智能的民航飞机空中冲突解决决策方法 |
CN110428666B (zh) * | 2019-08-01 | 2021-06-29 | 中国民航大学 | 一种基于人机协同进化智能的民航飞机空中冲突解决决策方法 |
CN111612677A (zh) * | 2020-05-27 | 2020-09-01 | 北京明略软件系统有限公司 | 事件安全性的检测方法、检测装置、电子设备及存储介质 |
CN117037073A (zh) * | 2023-09-12 | 2023-11-10 | 天津君萌科技有限公司 | 基于人工智能可视化的对象定位方法及可视化监控系统 |
CN117037073B (zh) * | 2023-09-12 | 2024-05-28 | 湖北亿立能科技股份有限公司 | 基于人工智能可视化的对象定位方法及可视化监控系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109215311B (zh) | 2020-07-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Miglani et al. | Deep learning models for traffic flow prediction in autonomous vehicles: A review, solutions, and challenges | |
CN109215311A (zh) | 基于强化学习的公共事件预警模型的动态参数权重确定方法 | |
Gu et al. | A novel lane-changing decision model for autonomous vehicles based on deep autoencoder network and XGBoost | |
US11480963B2 (en) | Vehicle intent prediction neural network | |
Zhu et al. | Deep learning for autonomous vehicle and pedestrian interaction safety | |
Kumar et al. | Interaction-based trajectory prediction over a hybrid traffic graph | |
Chandra et al. | Graphrqi: Classifying driver behaviors using graph spectrums | |
CN116451862A (zh) | 模型训练方法和装置、交通事件发生概率评估方法和装置 | |
Sharma et al. | Kernelized convolutional transformer network based driver behavior estimation for conflict resolution at unsignalized roundabout | |
Wu et al. | Lane-GNN: Integrating GNN for Predicting Drivers' Lane Change Intention | |
CN114863170A (zh) | 一种基于深度学习的新能源车电池自燃预警方法及装置 | |
Domínguez et al. | Vehicle detection system for smart crosswalks using sensors and machine learning | |
Wu et al. | Infrared target detection based on deep learning | |
Khidhir et al. | Comparative Transfer Learning Models for End-to-End Self-Driving Car | |
Nezhadalinaei et al. | Motion object detection and tracking optimization in autonomous vehicles in specific range with optimized deep neural network | |
Fu et al. | LSTM-based lane change prediction using Waymo open motion dataset: The role of vehicle operating space | |
Sarker et al. | A suspicion-free black-box adversarial attack for deep driving maneuver classification models | |
Khanum et al. | Anticipating autonomous vehicle driving based on multi-modal multiple motion tasks network | |
Pethiyagoda et al. | Deep Learning-Based Vehicle Type Detection and Classification. | |
Li et al. | Driving Behavior Prediction Based on Combined Neural Network Model | |
Wang et al. | Geographical information enhanced recognition of traffic modes and behavior patterns | |
Zhang et al. | Vehicle acceleration prediction based on nonlinear auto regressive models with exogenous inputs | |
Isong et al. | Deep Learning-Based Object Detection Techniques for Self-Driving Cars: an in-Depth Analysis | |
Pangesta et al. | Travel duration prediction based on traffic speed and driving pattern using deep learning | |
Yan et al. | A multi-level movement intention inference approach for an urban evasive target with unknowable destinations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20200721 |