CN109215311A

CN109215311A - 基于强化学习的公共事件预警模型的动态参数权重确定方法

Info

Publication number: CN109215311A
Application number: CN201811361447.6A
Authority: CN
Inventors: 孙梅玉; 程合彬; 孟令国; 阮芳; 苗健; 郭胜召; 张会; 吴雪松; 杨凯
Original assignee: Shandong Management University
Current assignee: Shandong Management University
Priority date: 2018-11-15
Filing date: 2018-11-15
Publication date: 2019-01-15
Anticipated expiration: 2038-11-15
Also published as: CN109215311B

Abstract

本发明公开了基于强化学习的公共事件预警模型的动态参数权重确定方法，采集公交车、出租车以及路口非机动车的车辆历史数据；使用基于位置信息的多维行车时间序列分形的表示方法对采集的历史数据进行处理，得到一个四维的历史数据图；利用标定的冲突预警标签，使用强化学习算法进行模型的搭建；通过迭代训练获得智能体到达异常序列即公共预警事件的到达路径，将不同的迭代训练的智能体进行多线程的演示对比，选取三个指标最优的智能体，将四维的历史数据进行展开，分析神经网络中的权重参数，得到动态权重的参数。有效提高了预警模型的准确性，该方法新颖独特，设计构思巧妙，预测结果准确，应用环境好，市场前景广阔。

Description

基于强化学习的公共事件预警模型的动态参数权重确定方法

技术领域

本公开涉及计算机数据处理技术领域，特别是涉及基于强化学习的公共事件预警模型的动态参数权重确定方法。

背景技术

公共安全出现问题，不会是瞬间的，而是一个演化过程，如果可以预先捕捉到事物要出故障的信号，安全预警系统就可以把这些异常数据与正常情况进行对比，尽早发现异常，采取预警措施。

因此，如何利用大量历史数据得到公共事件的动态参数权重预测出公共事件的出现的概率是本公开所要解决的技术问题。

发明内容

为了解决现有技术的不足，本公开的一个方面是提供了基于强化学习的公共事件预警模型的动态参数权重确定方法，能够得到动态权重的参数。

为了实现上述目的，本申请采用以下技术方案：

基于强化学习的公共事件预警模型的动态参数权重确定方法，包括：

采集公交车、出租车以及路口非机动车的车辆历史数据；

使用基于位置信息的多维行车时间序列分形的表示方法对采集的历史数据进行处理，得到一个四维的历史数据图，四维历史数据图的维度，具体包括二维线路地图、一维车流量变化序列、一维时间序列，按照历史事件的冲突预警发生时间与地点，标定在三元组的四维的历史数据图中；

利用标定的冲突预警标签，使用强化学习算法进行模型的搭建，创建智能体，在四维历史数据上通过奖惩机制搜寻公共预警事件，当找到标定的冲突预警标签，给予智能体相当的奖励值，使用记忆模型记忆智能体的路径，即为异常序列即公共预警事件发生的不确定条件；

通过迭代训练获得智能体到达异常序列即公共预警事件的到达路径，将不同的迭代训练的智能体进行多线程的演示对比，选取三个指标最优的智能体，将四维的历史数据进行展开，分析神经网络中的权重参数，得到动态权重的参数。

进一步的技术方案，将迭代出的不同线程的最优智能体进行汇总，构建智能体模型，将智能体所经历的路径定义为智能体路径模型，存储在智能体的记忆中；

将公交车、出租车以及路口非机动车每天实时产生的数据进行实时处理，定义为四维历史数据，并让智能体在路径模型与四维历史数据状态对应时出现，沿着路径模型线路与四维历史数据状态相同的路线前进，当路径模型走完，完全满足路径模型条件时，即认定出现异常序列。

进一步的技术方案，所述公交车的历史数据包括经纬度、车次、站点数、到离站时间以及车道数、是否有公交车道、站与站相距的距离、路口数；

所述出租车的历史数据包括出租车实时接收车载终端的GPS的经纬度、速度，以及计算得到的周期内的车流量、平均车速、占有率；

所述路口非机动车的历史数据包括基于时间段的车流量、等待时间。

进一步的技术方案，所述使用基于位置信息的多维行车时间序列分形的表示方法，即将采集的历史数据先分别就公交车、出租车、路口非机动车三个维度进行数据归一化，然后将处理后的三个维度的数据转换到时间段、二维线路地图、车流量变化序列这样的三元组数据；

然后将三个维度的三元组数据进行合并，公交车的三元组数据按照时间段与二维线路地图并行到出租车三元组数据中，而路口非机动车的三元组数据按照二维线路地图嵌入到上述合并后的数据中；

将最后合并的三元组数据再次归一化，构建为一个四维的历史数据图。

进一步的技术方案，利用标定的冲突预警标签，使用强化学习中的Deep Q-learning算法进行模型的搭建，创建智能体Agent，也就是决策过程里的行为主体，四维的历史数据图就是Environment，使用State表示四维历史数据图中的某个状态值，Agent对于四维历史数据图的观测为Obervation，每一次Agent根据决策移动的方向，均是对环境做出的Action；

Q(s，a)＝r+γ(max(Q(s′，a′))

s：当前状态state；a：从当前状态下，采取的行动action；s’：当前行动所产生的新一轮 state；a’：下一次action；r：当前行动产生的奖励reward；γ：折扣因数，表示牺牲当前收益，换取长远收益的程度。

进一步的技术方案，所述Deep Q-learning算法，即定义一个Agent智能体，在四维历史数据上通过奖惩机制搜寻公共预警事件，当找到标定的冲突预警标签，给予Agent相当的奖励值，使用记忆模型记忆Agent的路径，即为异常序列即公共预警事件发生的不确定条件。

进一步的技术方案，将不同的迭代训练的智能体进行多线程的演示对比时，以准确率、搜索时间、搜索路径作为评价指标。

本发明的第二方面是提供一种计算机可读存储介质。

为了实现上述目的，本发明采用如下一种技术方案：

一种计算机可读存储介质，其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行所述的基于强化学习的公共事件预警模型的动态参数权重确定方法。

本发明的第三方面是提供一种终端设备。

为了实现上述目的，本发明采用如下一种技术方案：

一种终端设备，包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行所述的基于强化学习的公共事件预警模型的动态参数权重确定方法。

本发明的第四方面是提供基于强化学习的公共事件预警模型的动态参数权重确定系统。

为了实现上述目的，本发明采用如下一种技术方案：

基于强化学习的公共事件预警模型的动态参数权重确定系统，包括：

历史数据采集单元，采集公交车、出租车以及路口非机动车的车辆历史数据；

数据处理单元，使用基于位置信息的多维行车时间序列分形的表示方法对采集的历史数据进行处理，得到一个四维的历史数据图，四维历史数据图的维度，具体包括二维线路地图、一维车流量变化序列、一维时间序列，按照历史事件的冲突预警发生时间与地点，标定在三元组的四维的历史数据图中；

算法模型建立单元，利用标定的冲突预警标签，使用强化学习算法进行模型的搭建，创建智能体，在四维历史数据上通过奖惩机制搜寻公共预警事件，当找到标定的冲突预警标签，给予智能体相当的奖励值，使用记忆模型记忆智能体的路径，即为异常序列即公共预警事件发生的不确定条件；

动态权重的参数获得单元，通过迭代训练获得智能体到达异常序列即公共预警事件的到达路径，将不同的迭代训练的智能体进行多线程的演示对比，选取三个指标最优的智能体，将四维的历史数据进行展开，分析神经网络中的权重参数，得到动态权重的参数。

与现有技术相比，本公开的有益效果是：

本公开首先将城市公交车、出租车、城市路口非机动车辆的数据信息定义为时间序列，即基于位置信息的多维行车时间序列数据，然后将这些历史数据通过定义的奖惩算法模型进行迭代训练，以发生公共事件预警的特定异常时间序列与非异常时间序列作为奖惩，进行异常时历史数据的动态参数权重，该方法通过奖惩机制的算法模型与历史数据分析模型，来探索发生公共冲突事件的必备条件，有效提高了预警模型的准确性，该方法新颖独特，设计构思巧妙，预测结果准确，应用环境好，市场前景广阔。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为本公开一些实施例子的流程图；

图2为本公开一些实施例子的智能体与环境模型的关系示意图；

图3为本公开一些实施例子的三元组可视化示意图；

图4为本公开一些实施例子的三个并行的序列图；

图5为本公开一些实施例子的搜索到达异常序列示意图。

具体实施方式

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

大数据时代下，不再受限于各种假象，不再受限于“为什么”的逻辑，而是来源于数据显示的纯粹和相关关系。进行大数据挖掘可以形成主动防御型预警机制。数据导向的城市公共安全预警体系是对公共安全事件诱因和演化过程信息进行监测、判断、预警、控制，能够整合、完善、共享公共安全信息资源，规范预警信息的采集、存储、处理、传播、使用、回馈等程序，从而构建一种防御型的安全预警体系。在理论领域进一步拓展公共危机预警机制的研究和时间序列数据挖掘中序列相似性和异常检测研究。

强化学习是人工智能的一个分支，使用Agent智能体与环境的状态交互进行学习。即本公开的环境使用公交车、出租车、以及路口非机动车的车辆历史数据(包括位置信息、车辆速度等)。

如何构建公共事件预警模型是本公开技术方案要解决的问题，即建立一个预警模型，来预警及预测公共事件的发生，使用人工智能及大数据的方法却比较少。而本公开的技术创新点在于对于上述Agent智能体与环境的交互过程中所产生的动态参数，根据这些参数权重来预警预测公共事件是否发生。

本申请的一种典型的实施方式中，如图1所示，提供了一种基于强化学习的公共事件预警模型的动态参数权重确定方法，整体技术构思为：

搭建环境模型：使用基于位置信息的多维行车时间序列分形的表示方法对采集的历史数据进行处理，得到一个四维的历史数据图，四维历史数据图的维度，具体包括二维线路地图、一维车流量变化序列、一维时间序列，按照历史事件的冲突预警发生时间与地点，标定在三元组的四维的历史数据图中；

如图2所示，智能体Agent模型，使用Agent模型搜寻标定的冲突预警标签，即在环境模型中的四维历史数据图中的点，使用强化学习算法进行模型的搭建，创建智能体，在四维历史数据上通过奖惩机制搜寻公共预警事件，当找到标定的冲突预警标签，给予智能体相当的奖励值，使用记忆模型记忆智能体的路径，即为异常序列即公共预警事件发生的不确定条件。

动态参数确定：Agent(智能体)在四维历史数据图中，从随机开始任意点到标定的异常序列(发生公共事件冲突预警的点)的路径，包括Agent路径记忆、环境状态转移等参数，都可以认为是公共冲突事件发生的必要条件。

其中，动态参数是指：Agent在四维历史数据图的路径参数；环境模型的状态转移参数。

在具体技术方案中，包括以下步骤：

(1)采集历史数据：采集公交车、出租车以及路口非机动车的车辆历史数据，具体公交车的历史数据包括经纬度、车次、站点数、到离站时间以及车道数、是否有公交车道、站与站相距的距离、路口数等；具体出租车的历史数据包括出租车实时接收车载终端的GPS的经纬度、速度，以及计算得到的周期内的车流量、平均车速、占有率等。具体路口非机动车的历史数据包括基于时间段的车流量、等待时间等。

(2)历史数据处理：使用基于位置信息的多维行车时间序列分形的表示方法，即将步骤 (1)中的数据先分别就公交车、出租车、路口非机动车三个维度进行数据归一化，然后将处理后的三个维度的数据转换到时间段、二维线路地图、车流量变化序列这样的三元组数据。如图3所示为三维数据可视化图；其中，车流量变化序列是随着时间变化的序列。

然后将三个维度的三元组数据进行合并，公交车的三元组数据按照时间段与二维线路地图并行到出租车三元组数据中，而路口非机动车的三元组数据按照二维线路地图嵌入到刚才合并后的数据中。将最后合并的三元组数据再次归一化，构建为一个四维的历史数据图，然后按照历史事件的冲突预警发生时间与地点，标定在三元组的四维的历史数据图中，形成冲突预警标签。所述四维历史数据图的维度，具体包括二维线路地图、一维车流量变化序列、一维时间序列。

将三个维度的三元组数据进行合并时，公交车、出租车、路口非机动车的车流量序列三个序列按照对应的时间、地图位置并行。三个并行的序列，现在将数据部分进行展示，如图 4所示。

现在数据特征相当于是6个维度：二个维度的地图信息特征，一个维度的时间信息特征，一个维度的公交车数据信息特征，一个维度的出租车信息特征，一个维度的非机动车信息特征，为了方便理解，将后三个数据合并为一个维度。

通过上述方式构建为四维的历史数据图以后，就搭建了Agent(智能体)的探索与交互的环境。

设定异常序列，标定好发生公共事件的时间、地点，随机初始Agent的位置，让它搜索到达异常序列，根据Agent走过的动态参数，反向确定公共事件预警模型必要条件，如图5 所示，圆圈为标定的异常序列，灰色方框为智能Agent，黑色方框为设定的死循环点，重新开始迭代训练，背景的网格设定为四维的历史数据图。

(3)定义算法模型：利用步骤(2)中标定的冲突预警标签(即为在四维历史数据图中标定发生的公共事件的时间及地点)，使用强化学习中的Deep Q-learning算法进行模型的搭建，创建智能体Agent，也就是决策过程里的行为主体，四维的历史数据图就是Environment，使用State表示四维历史数据图中的某个状态值，Agent对于四维历史数据图的观测为 Obervation，每一次Agent根据决策移动的方向，都是对环境做出的Action。

Q(s，a)＝r+γ(max(Q(s′，a′))

s：当前状态state；

a：从当前状态下，采取的行动action；

s’：当前行动所产生的新一轮state；

a’：下一次action；

r：当前行动产生的奖励reward；

γ：折扣因数，表示牺牲当前收益，换取长远收益的程度。

Q(.)表示为状态—动作值函数，State-action value Function。

所述Deep Q-learning算法，即定义一个Agent智能体，在四维历史数据上通过奖惩机制搜寻公共预警事件，当找到(2)中标定的冲突预警标签，给予Agent相当的奖励值，使用记忆模型记忆Agent的路径，即为异常序列(公共预警事件)发生的不确定条件。

后续让Agent根据deep Q-learning算法，在四维历史数据图上探寻搜索这个异常序列，即不确定条件。

记录Agent搜寻过程中的参数模型。拥有这个参数模型后，就能够反向分析Agent在环境模型中的路径，就能够确定公共事件发生的必备的环境影响条件。

(4)迭代训练：Agent在四维历史数据图中的运动轨迹是根据奖惩机制自我探索出的路径，具有一定的随机性和试错性，所以需要不断的迭代训练，找出Agent“自我认为”最正确的一条到达路径。即迭代训练到最后，Agent会得到特定的一条到达异常序列(公共预警事件) 的到达路径。

(5)结果评价：将不同的迭代训练的Agent进行多线程的演示对比，进行对比分析，以准确率、搜索时间、搜索路径作为评价指标。

(6)计算出最终预测参数：选取三个指标最优的Agent，将四维的历史数据进行展开，即展开为公交车、出租车、路口非机动车三类数据的三元组合并后的形式，然后分析Agent 与环境模型(四维历史数据模型)交互的权重参数，得到动态权重的参数。

(7)动态权重参数应用：将(5)中迭代出的不同线程的最优Agent进行汇总，构建Agent 模型，将Agent所经历的路径定义为Agent路径模型，存储在Agent的记忆中。每天实时产生的数据可以通过上述的(1)(2)的数据采集与处理流程，将产生的数据进行实时处理，定义为四维历史数据，并让Agent在路径模型与四维历史数据状态对应时出现，沿着路径模型线路与四维历史数据状态相同的路线前进，当路径模型走完，完全满足路径模型条件时，即认定出现异常序列(公共预警事件)。

四维历史数据环境模型，是历史的数据生成的，并使用Agent在上面进行训练，寻找公共事件发生的标签(异常序列)。

当新的实时数据产生，构建为四维历史数据模型的时候，Agent的路径与训练时的一样时，就证明发生公共事件冲突(异常序列)的必备条件已经出现。

本公开的另一实施例子，公开了一种计算机可读存储介质，其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行所述的基于强化学习的公共事件预警模型的动态参数权重确定方法。

本公开的再一实施例子，公开了一种终端设备，包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行所述的基于强化学习的公共事件预警模型的动态参数权重确定方法。

本公开的又一实施例子，公开了基于强化学习的公共事件预警模型的动态参数权重确定系统，包括：

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.基于强化学习的公共事件预警模型的动态参数权重确定方法，其特征是，包括：

采集公交车、出租车以及路口非机动车的车辆历史数据；

2.如权利要求1所述的基于强化学习的公共事件预警模型的动态参数权重确定方法，其特征是，将迭代出的不同线程的最优智能体进行汇总，构建智能体模型，将智能体所经历的路径定义为智能体路径模型，存储在智能体的记忆中；

3.如权利要求1所述的基于强化学习的公共事件预警模型的动态参数权重确定方法，其特征是，所述公交车的历史数据包括经纬度、车次、站点数、到离站时间以及车道数、是否有公交车道、站与站相距的距离、路口数；

4.如权利要求1所述的基于强化学习的公共事件预警模型的动态参数权重确定方法，其特征是，所述使用基于位置信息的多维行车时间序列分形的表示方法，即将采集的历史数据先分别就公交车、出租车、路口非机动车三个维度进行数据归一化，然后将处理后的三个维度的数据转换到时间段、二维线路地图、车流量变化序列这样的三元组数据；

5.如权利要求1所述的基于强化学习的公共事件预警模型的动态参数权重确定方法，其特征是，利用标定的冲突预警标签，使用强化学习中的Deep Q-learning算法进行模型的搭建，创建智能体Agent，也就是决策过程里的行为主体，四维的历史数据图就是Environment，使用State表示四维历史数据图中的某个状态值，Agent对于四维历史数据图的观测为Obervation，每一次Agent根据决策移动的方向，均是对环境做出的Action；

Q(s，a)＝r+γ(max(Q(s′，a′))

s：当前状态state；a：从当前状态下，采取的行动action；s’：当前行动所产生的新一轮state；a’：下一次action；r：当前行动产生的奖励reward；γ：折扣因数，表示牺牲当前收益，换取长远收益的程度。

6.如权利要求1所述的基于强化学习的公共事件预警模型的动态参数权重确定方法，其特征是，所述Deep Q-learning算法，即定义一个Agent智能体，在四维历史数据上通过奖惩机制搜寻公共预警事件，当找到标定的冲突预警标签，给予Agent相当的奖励值，使用记忆模型记忆Agent的路径，即为异常序列即公共预警事件发生的不确定条件。

7.如权利要求1所述的基于强化学习的公共事件预警模型的动态参数权重确定方法，其特征是，将不同的迭代训练的智能体进行多线程的演示对比时，以准确率、搜索时间、搜索路径作为评价指标。

8.一种计算机可读存储介质，其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行权利要求1-7任一所述的基于强化学习的公共事件预警模型的动态参数权重确定方法。

9.一种终端设备，包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行权利要求1-7任一所述的基于强化学习的公共事件预警模型的动态参数权重确定方法。

10.基于强化学习的公共事件预警模型的动态参数权重确定系统，包括：