CN109979193B - 一种基于马尔科夫模型的数据异常诊断方法 - Google Patents

一种基于马尔科夫模型的数据异常诊断方法 Download PDF

Info

Publication number
CN109979193B
CN109979193B CN201910124473.5A CN201910124473A CN109979193B CN 109979193 B CN109979193 B CN 109979193B CN 201910124473 A CN201910124473 A CN 201910124473A CN 109979193 B CN109979193 B CN 109979193B
Authority
CN
China
Prior art keywords
lane
data
flow
value
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910124473.5A
Other languages
English (en)
Other versions
CN109979193A (zh
Inventor
刘彦斌
朱海峰
韦学武
温熙华
龚方徽
刘畅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Haikang Zhilian Technology Co ltd
Original Assignee
Zhejiang Haikang Zhilian Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Haikang Zhilian Technology Co ltd filed Critical Zhejiang Haikang Zhilian Technology Co ltd
Priority to CN201910124473.5A priority Critical patent/CN109979193B/zh
Publication of CN109979193A publication Critical patent/CN109979193A/zh
Application granted granted Critical
Publication of CN109979193B publication Critical patent/CN109979193B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Evolutionary Computation (AREA)
  • Geometry (AREA)
  • General Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种基于马尔科夫模型的数据异常诊断方法,包括以下步骤:获取交叉口的车辆信息,定时计算数据延迟指标,并根据数据延迟指标判断是否出现数据延迟,若出现数据延迟则对所述车辆信息进行标记并结束本次数据异常诊断;否则定时计算数据缺失指标,根据数据缺失指标判断是否出现数据缺失,若出现数据缺失则对所述车辆信息进行标记并结束本次数据异常诊断;否则定时计算异常偏离指标,根据异常偏离指标判断是否出现异常偏离,若出现异常偏离则对所述车辆信息进行标记并结束本次数据异常诊断;否则直接结束本次数据异常诊断。本发明的数据异常诊断方法能够进行数据的实时异常监测,且监测的准确性高。

Description

一种基于马尔科夫模型的数据异常诊断方法
技术领域
本发明属于交通数据挖掘技术领域,具体涉及一种基于马尔科夫模型的数据异常诊断方法。
背景技术
随着交通检测设备的部署和普及,尤其是电子警察设备的应用,为城市交通管理积累海量的数据资源。同时,基于及时准确的电警数据,对于研究交通控制、车辆诱导、公交规划等技术起到至关重要的作用。但在实际道路交通环境中,电子警察检测的数据由于检测器故障、线路通信故障或者异常交通事件,导致其中部分数据属于异常数据。这些异常数据主要包括:1)数据延迟,这类主要由于线路通信故障导致数据的上传不及时;2)数据缺失,主要由于检测器临时故障或联网中断导致的;3)异常偏离,指临时的交通事件或设备问题导致的流量过大或过小。
现有的数据异常检测大体可分为交通流理论分析、历史统计方法、趋势挖掘方法等。交通流理论分析是指设置某些交通流参数临界值,对超出临界值的交通流参数进行筛选的方法。历史统计方法可从历史数据中计算流量变化的区间,分析检测值发生异常的阈值范围。趋势挖掘方法利用机器学习的相关算法,计算流量的未来变化趋势以及发生概率特性,识别流量检测值的异常变化。其中交通流理论和历史统计两种方法不能动态地跟踪交通流量的变化趋势情况,无法准确地估计流量的合理区间:交通流理论方法受限于人工对交通流影响因素的手动调参精度,历史统计法则依赖于历史数据的全面和完整。
如申请号为201510077183.1的专利文献公开了一种交通异常路段概率识别方法,采用历史统计方法计算各微波点车速、流量的均值和标准差,进而计算车速异常指数和流量异常指数,输出前K个最异常的路段预警。该方法给定的标准差范围涵盖了所有异常值,并不能结合实际的流量变化给出准确的波动区间。
又如,申请号为201810585465.6的专利文献中公开了一种微波交通数据采集设备的异常值检测方法,采用对标准化的多维有效数据进行聚类,确定哪些类别的数据为异常数据。该方法采用固定的聚类类别并不能实时研判流量周期性的合理波动区间。
发明内容
本发明的目的在于提供一种基于马尔科夫模型的数据异常诊断方法,该方法基于趋势挖掘方法并结合交通自身的规律,提供一种分别对三类数据异常进行识别和实时监测的技术,提高数据异常监测的准确性和可靠性。
为实现上述目的,本发明所采取的技术方案为:
一种基于马尔科夫模型的数据异常诊断方法,所述的基于马尔科夫模型的数据异常诊断方法,包括以下步骤:
S1、获取交叉口的车辆信息,所述车辆信息包括过车时间、车牌号码和行驶车道;
S2、根据所获取的车辆信息,定时计算数据延迟指标,并根据数据延迟指标判断是否出现数据延迟,若出现数据延迟则对所述车辆信息进行标记并结束本次数据异常诊断;否则定时计算数据缺失指标并进入下一步;
S3、根据数据缺失指标判断是否出现数据缺失,若出现数据缺失则对所述车辆信息进行标记并结束本次数据异常诊断;否则定时计算异常偏离指标并进入下一步,所述异常偏离指标的计算包括利用马尔科夫模型进行流量的概率分布预测,以及利用EM算法拟合概率分布得到对应的均值和标准差;
S4、根据异常偏离指标判断是否出现异常偏离,若出现异常偏离则对所述车辆信息进行标记并结束本次数据异常诊断;否则直接结束本次数据异常诊断,所述异常偏离的判断包括以均值作为流量的预测值,标准差作为流量的合理分布阈值,判断数据是否出现异常偏离;
其中,所述利用马尔科夫模型进行流量的概率分布预测,包括:
设车道流量的真实值为
Figure GDA0002705546500000021
车道流量的预测值为
Figure GDA0002705546500000022
前一相邻时间区间内车道流量的真实值为
Figure GDA0002705546500000023
进口道平均车道流量的预测值为
Figure GDA0002705546500000024
前一天当前时刻的进口道平均车道流量为
Figure GDA0002705546500000025
Figure GDA0002705546500000026
作为马尔科夫模型的观测序列,且
Figure GDA0002705546500000027
作为马尔科夫模型的状态序列;
根据一阶马尔科夫模型,得到车道流量的预测值
Figure GDA0002705546500000028
的概率密度函数为:
Figure GDA0002705546500000031
其中,
Figure GDA0002705546500000032
X为车道流量预测值的分布集合;
根据
Figure GDA0002705546500000033
的概率密度函数得到
Figure GDA0002705546500000034
的概率分布表。
作为优选,所述定时计算数据延迟指标,并根据数据延迟指标判断是否出现数据延迟,包括:
设所述过车时间为t0,所述车辆信息上传至数据库的时间为t1,则数据延迟指标的计算方法包括:计算车辆信息上传至数据库的时间与过车时间的间隔t1-t0
预设允许的延迟时间阈值为α,若(t1-t0)≥α,则当前的车辆信息存在数据延迟;否则当前的车辆信息不存在数据延迟。
作为优选,所述定时计算数据缺失指标,根据数据缺失指标判断是否出现数据缺失,包括:
在日间时段,若[T0,T1]时间段内指定车道的流量q(t)=0,则数据缺失指标的计算方法包括统计该车道在T1时间前一小时内的总流量Q(t);若总流量Q(t)=0,则这一小时内的车辆信息存在数据缺失,其中T0和T1的时间间隔为ΔT;
在夜间时段,若[T0′,T1′]时间段内指定车道的流量q(t)′=0,则数据缺失指标的计算方法包括统计该车道在T1′时间前三小时内的总流量Q(t)′;若总流量Q(t)′=0,则这三小时内的车辆信息存在数据缺失,其中T0′和T1′的时间间隔为ΔT。
作为优选,所述根据
Figure GDA0002705546500000035
的概率密度函数得到
Figure GDA0002705546500000036
的概率分布表,包括:
根据所述车辆信息,统计进口道平均车道流量状态转移矩阵
Figure GDA0002705546500000037
车道流量状态转移矩阵
Figure GDA0002705546500000038
和车道流量分配比例状态矩阵
Figure GDA0002705546500000039
其中γn表示车道流量分配比例;
获取
Figure GDA00027055465000000310
结合
Figure GDA00027055465000000311
的概率密度函数,按照进口道平均车道流量状态转移矩阵
Figure GDA00027055465000000312
生成进口道平均车道流量的预测值
Figure GDA00027055465000000313
将获得的进口道平均车道流量的预测值
Figure GDA00027055465000000314
乘以车道流量分配比例γn,得到车道流量的预测值
Figure GDA00027055465000000315
若前一相邻时间区间内车道流量的真实值qreal(t-1)与设定时间内车道流量的集合Qreal满足qreal(t-1)∈Qreal的关系时,则按照车道流量状态转移矩阵
Figure GDA0002705546500000041
计算车道流量的联合概率分布,作为先验概率分布;
若观测序列中存在的有效样本量大于等于3个,则根据全概率公式更新所述联合概率分布中各流量对应的概率值,得到后验概率分布,从而获得
Figure GDA0002705546500000042
的概率分布表。
作为优选,所述利用EM算法拟合概率分布得到对应的均值和标准差,包括:
设时间间隔ΔT采集的车道流量的真实值为qlane,基于K阶混合高斯模型,计算流量的总样本量N=(max(qlane)-min(qlane))*K,其中max(qlane)为采集的车道流量的真实值的最大值,min(qlane)为采集的车道流量的真实值的最小值,K为混合高斯模型的总阶数;
从所述
Figure GDA0002705546500000043
的概率分布表中获取各流量对应的概率值p(qlane),并根据公式
Figure GDA0002705546500000044
计算得到各流量对应的样本量
Figure GDA0002705546500000045
并获得总样本量为N的车道流量值序列{q1,q2,…,qi,…,qN-1,qN},并整合样本量
Figure GDA0002705546500000046
和车道流量值序列得到车道流量的概率分布函数P(qlane);
假设P(qlane)服从K阶混合高斯模型,且样本间相互独立,则可得到
Figure GDA0002705546500000047
其中K为混合高斯模型的总阶数,k表示第k阶高斯模型,αk为权重,且αk≥0,
Figure GDA0002705546500000048
N(q;qkk)为高斯分布密度函数,qk、σk为分布参数,q为服从高斯分布密度函数N(qkk)的分布变量;
采用EM算法迭代计算qk、αk和σk的值,并得到均值和标准差。
作为优选,所述采用EM算法迭代计算qk、αk和σk的值,并得到均值和标准差,包括:
E步:依据当前模型参数,计算样本数据qj属于每个分模型k的概率γjk,计算式为:
Figure GDA0002705546500000049
M步:计算新一轮迭代的模型参数,计算式为:
Figure GDA00027055465000000410
Figure GDA0002705546500000051
Figure GDA0002705546500000052
重复E步和M步的计算,直至qk、αk和σk的迭代差值小于阈值或者迭代次数小于阈值时,停止迭代,得到qk、αk和σk的值;
根据得到的qk、αk和σk的值计算车道流量预测值的均值
Figure GDA0002705546500000053
和标准差
Figure GDA0002705546500000054
计算式为:
Figure GDA0002705546500000055
Figure GDA0002705546500000056
式中K为混合高斯模型的总阶数,k表示第k阶高斯模型,αk为权重,qk、σk为分布参数。
作为优选,所述以均值作为流量的预测值,标准差作为流量的合理分布阈值,判断数据是否存在异常偏离,包括:
若时间间隔ΔT采集的车道流量的真实值为qlane,且车道流量的真实值qlane满足
Figure GDA0002705546500000057
则当前ΔT时间内的车道流量数据正常;否则当前ΔT时间内的车道流量数据存在异常偏离。
本发明提供的基于马尔科夫模型的数据异常诊断方法,该方法基于趋势挖掘方法并结合交通自身的规律,提供一种分别对三类数据异常进行识别和实时监测的技术。经过实际场景的内网测试,在各类全天场景中数据延迟和数据缺失诊断正常,准确地识别了部分电警的故障情况和数据质量问题。
另外,基于马尔科夫的预测模型能够基于已有的经验知识,通过新数据的加入不断调整流量变化的趋势;同时,马尔科夫模型的输出包含完整的变量空间,通过概率的形式对变量出现的可能性进行量化,保留了变量的完整性。而非类似回归方法得到的单一输出值。在日间场景时段,数据异常中涉及到的预设时间内流量预测的准确率在87%左右,显著提高数据异常监测的准确性和可靠性。
附图说明
图1为本发明的基于马尔科夫模型的数据异常诊断方法的流程框图;
图2为本发明的基于马尔科夫模型的流量分布预测模型结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是在于限制本发明。
本实施例提供一种基于马尔科夫模型的数据异常诊断方法,该方法设计了数据延迟指标、数据缺失指标和异常偏离指标,且各指标建立有对应的计算方法,在进行数据异常诊断时,根据各指标计算所得的值判断电警设备所获取的数据是否存在异常情况,进而实现数据异常监测的目标。
如图1所示,基于马尔科夫模型的数据异常诊断方法,具体包括以下步骤:
S1、获取交叉口的车辆信息,所述车辆信息包括但不仅限于过车时间、车牌号码和行驶车道。此处默认的是交叉口的信息是已知的,交叉口的信息包括交叉口的车道信息按照所属交叉口、进口道方向和车道编号进行标记。
容易理解的是,车辆信息可采用安装在交叉口的电子眼等电警监控设备获取,所获取的数据按车道编号经过预处理转换为以5分钟为时间间隔的车道流量(单位:辆/min),并将车道流量存储在数据表中以供取用。当然时间间隔可以根据实际路况进行预设调整。
历史获取的车辆信息可作为历史数据,用于对交叉口各车道状态转移矩阵的训练。以某一交叉口为例,收集数据表中所有日期的5分钟车道流量。历史数据训练是对原始过车数据和车道流量进行筛选,进而将正常的流量数据导入到数据质量实时监测中。
所述的历史数据训练包括以下步骤:
步骤1:首先通过数据延迟指标的计算方法,以5分钟为时间间隔将满足延迟条件的交叉口标记为延迟,即data_latency=1(默认值为0),将标记为0的时间区间作为步骤2的筛选条件。
步骤2:后进行数据缺失指标的计算,若某一15分钟时间区间的数据延迟标记为0,进而判断车道流量是否为0。如果车道流量为0,则在日间时段(06:00-23:59)以当前为时间终点,统计前一小时内的车道流量总和;在夜间时段(00:00-06:00)以当前为时间终点,统计前三个小时内的车道流量总和。如果白天时段或夜间时段的流量总和为0,则将前一小时或三个小时时段的车道标记为数据缺失,即data_miss=1(默认值为0)。
步骤3:筛选数据延迟标记为0并且数据缺失标记为0的车道,将数据正常的15分钟车道流量作为历史数据,转入步骤4进行转移矩阵的计算。
步骤4:如图2所示,以15分钟为时间间隔统计分析进口道平均车道流量状态转移矩阵
Figure GDA0002705546500000071
车道流量状态转移矩阵
Figure GDA0002705546500000072
和车道流量分配比例状态矩阵
Figure GDA0002705546500000073
其中γn表示车道流量分配比例。其中
Figure GDA0002705546500000074
表示当前某一时刻与昨天相同时刻的平均车道流量对
Figure GDA0002705546500000075
在所有当前时刻的历史样本中所占的概率,可表示为:
Figure GDA0002705546500000076
公式(1)中,
Figure GDA0002705546500000077
表示当前t时刻的某一流量值与昨天t时刻的某一流量相对应的天数,
Figure GDA0002705546500000078
表示t时刻采集到某一流量
Figure GDA0002705546500000079
(流量值已知)的总天数。
类似地,
Figure GDA00027055465000000710
表示当前某一时刻与当前前一时刻的车道流量对
Figure GDA00027055465000000711
在所有当前时刻的历史样本中所占的概率;
Figure GDA00027055465000000712
表示某一时刻,进口道流量一定的情况下,某一车道流量分配比例所占的概率。其中,在已知进口道的车道总数为Nlane的情况下,车道流量分配比例γn的计算公式如下:
Figure GDA00027055465000000713
公式(2)中,q(t)表示车道流量的真实值,qEnter(t)表示进口道平均车道流量。
步骤5:结合交叉口信息和车辆信息,得到每天的车道流量、转向流量,并存储在数据库中。以数据库中每天的车道流量、转向流量为数据源,以日期(年-月-日格式)为变量,循环计算某一车道对应的三个状态矩阵,以数据表的形式存储在数据库中。
步骤6:以车道为变量,统计每个交叉口有流量数据的各个车道的状态转移矩阵,写入对应的数据表中。至此基于历史所有流量数据,完成每个车道状态转移矩阵的训练。
基于上述步骤,能够根据丰富的历史数据得到每个车道状态转移矩阵的训练,以训练所得的状态转移矩阵为基础进行交通数据的实时异常监测,能够得到较高的监测准确性和可靠性。
在交通数据的实时异常监测中,需要对数据延迟指标、数据缺失指标和异常偏离指标进行循环计算,进一步地这三个指标的计算遵循一定的优先级和跳出机制,包括:
依次计算数据延迟指标、数据缺失指标和异常偏离指标;
若出现数据延迟,则跳出计算序列并结束;否则继续进行数据缺失指标的计算;若出现数据缺失,则跳出计算序列并结束;否则继续进行异常偏离指标的计算。根据所述的优先级和跳出机制进行数据异常的诊断。
S2、根据所获取的车辆信息,定时计算数据延迟指标,并根据数据延迟指标判断是否出现数据延迟。
实时获取的交叉口的车辆信息,用于进行数据的实时异常监测。根据所获得的车辆信息,计算数据异常的三个指标,其中,以5分钟的间隔时长计算数据延迟指标,以15分钟的间隔时长计算数据缺失指标和异常偏离指标。
数据延迟是指过车数据推送到数据库的时间,与过车采集时间不一致时,数据存在延迟的问题。电警数据中包含采集时间字段和入库时间字段,设过车时间(即采集时间)为t0,所述车辆信息上传至数据库的时间(即入库时间)为t1,则数据延迟指标的计算方法包括:计算入库时间与采集时间的时间间隔t1-t0,并进一步根据数据延迟指标计算所得的值判断是否出现数据延迟。
判断数据延迟的方法包括:预设允许的延迟时间阈值为α,若(t1-t0)≥α,则当前的车辆信息存在数据延迟;否则当前的车辆信息不存在数据延迟。本实施例中根据交通流的实际情况,取α取值为60秒。
上述判断方式为针对每一条上传的车辆信息进行判断,但针对每一条上传的车辆信息进行判断容易出现误判或无法排除随机误差的情况。故本实施例以上述判断方法为基础,进一步优化数据延迟指标的判别。
具体为,设数据延迟判断的时间区间为[T3,T4],其中T3与T4的时间间隔为5分钟。在时间区间[T3,T4]内,总车辆信息的数量为Nall,存在数据延迟的车辆信息的数量为nlatency,若两者满足
Figure GDA0002705546500000091
则该时间区间内的数据记为存在数据延迟。其中
Figure GDA0002705546500000092
为一定时间区间内存在数据延迟的车辆信息的数量占总车辆信息的数量的比值的阈值,本实施例中
Figure GDA0002705546500000093
取值为0.05。
进一步地,在实际数据诊断中,每隔5分钟根据路网中指定交叉口的电警编号计算延迟结果。在满足数据延迟条件时,统计已发生延迟的过车记录延迟时间tveh_late的平均值Tlate,满足如下关系式:
Figure GDA0002705546500000094
若出现数据延迟则对所述车辆信息进行标记并结束本次数据异常诊断;否则定时计算数据缺失指标并进入下一步。
S3、根据数据缺失指标判断是否出现数据缺失。
数据缺失是指某一时段,电警设备发生故障或者数据库通信网络中断,导致部分车道数据丢失,过车数据出现缺失的问题。以交叉口某一车道为统计分析的单元,记T0为统计区间的起始时刻,T1为终点时刻,且T0和T1的时间间隔为ΔT,为了与数据缺失指标的计算频率相对应,ΔT的取值为15分钟。
异常实时监测中数据缺失指标计算与判断同样与历史数据训练中的计算与判断方法一致,可概括为:在日间时段,若[T0,T1]时间段内指定车道的流量q(t)=0,则数据缺失指标的计算方法包括统计该车道在T1时间前一小时内的总流量Q(t);若总流量Q(t)=0,则这一小时内的车辆信息存在数据缺失;在夜间时段,若[T0′,T1′]时间段内指定车道的流量q(t)′=0,则数据缺失指标的计算方法包括统计该车道在T1′时间前三小时内的总流量Q(t)′;若总流量Q(t)′=0,则这三小时内的车辆信息存在数据缺失。
数据缺失指标具体的计算与判断步骤如下:
S3.1、在[T0,T1]时间段内,判断区间内数据未发生延迟情况,但统计得到某一车道的车道流量为q(t)=0。
S3.2、在日间时段(06:00-23:59),则统计前一小时时间区间,即该车道在时间段[T0-45,T1-45]、[T0-30,T1-30]和[T0-15,T1-15]内的车流量分别为q(t-45)、q(t-30)和q(t-15);若q(t-45)+q(t-30)+q(t-15)=0,则表示该车道存在数据缺失情况,且该车道的数据在时间段[T0-45,T1-45]、[T0-30,T1-30]、[T0-15,T1-15]和[T0,T1]区间内存在数据缺失;否则该车道数据正常。
S3.3、在夜间时段(00:00-06:00),则统计前三小时时间区间,即该车道在时间段[T0-165,T1-165]、[T0-150,T1-150]、[T0-135,T1-135]……[T0-30,T1-30]和[T0-15,T1-15]内的车流量分别为q(t-165)、q(t-150)、q(t-135)……q(t-30)和q(t-15);
若q(t-165)+q(t-150)+q(t-135)+……+q(t-30)+q(t-15)=0,则表示该车道存在数据缺失情况,且该车道的数据在时间段[T0-165,T1-165]、[T0-150,T1-150]、[T0-135,T1-135]……[T0-30,T1-30]、[T0-15,T1-15]和[T0,T1]区间内存在数据缺失;否则该车道数据正常。
若出现数据缺失则对所述车辆信息进行标记并结束本次数据异常诊断;否则定时计算异常偏离指标并进入下一步。
S4、根据异常偏离指标判断是否出现异常偏离,若出现异常偏离则对所述车辆信息进行标记并结束本次数据异常诊断;否则直接结束本次数据异常诊断,所述异常偏离的判断包括以均值作为流量的预测值,标准差作为流量的合理分布阈值,判断数据是否出现异常偏离。
异常偏离是指当前统计的车道流量偏离历史平均值过大时,说明该车道的数据受到外界或内部环境的影响,出现异常偏离的问题。以交叉口某一车道为统计分析的单元,基于马尔科夫模型对未来15分钟流量进行概率分布的预测,判断实际的交通流量是否处于合理的检验区间。基本思路是对时间序列数据进行预测,比较真实值与预测值之间的误差,如果误差超过一定的限度,则认为该记录出现异常偏离。
异常偏离指标的计算包括利用马尔科夫模型进行流量的概率分布预测,以及利用EM算法拟合概率分布得到对应的均值和标准差。历史数据训练的基本原则是保证数据不存在延迟和缺失,并尽可能利用已有的流量数据。历史数据越全面,实时异常监测的结果越准确、可靠性越高。基于训练的状态转移矩阵,本实施例基于马尔科夫模型构建异常偏离的算法。
其中,马尔科夫模型是基于马尔可夫链,根据变量的目前状况预测其将来各个时期变动状况的一种预测方法。主要思路为利用当天车道流量的前一历史值,前一天和同一星期当前时刻进口道平均车道流量,以及车道流量分配比,确定当前时刻流量的预测值。
具体地,根据异常偏离指标判断是否出现异常偏离的步骤包括:
S4.1、马尔科夫模型假设:车道流量的预测值与前一个时间区间的流量值,以及前一天当前时刻和同一星期的进口道平均车道流量值存在相关性,同时自变量之间相互独立。
S4.2、将每一天的车道流量按照15分钟的间隔,划分为一组时间序列值{q1,q2,…,q96},且设车道流量的真实值为
Figure GDA0002705546500000111
车道流量的预测值为
Figure GDA0002705546500000112
前一相邻时间区间内车道流量的真实值为
Figure GDA0002705546500000113
进口道平均车道流量的预测值为
Figure GDA0002705546500000114
前一天当前时刻的进口道平均车道流量为
Figure GDA0002705546500000115
其中
Figure GDA0002705546500000116
作为马尔科夫模型的观测序列,且
Figure GDA0002705546500000117
作为马尔科夫模型的状态序列,用于确定
Figure GDA0002705546500000118
取值的状态空间。
本实施例根据一阶马尔科夫模型,得到车道流量的预测值
Figure GDA0002705546500000119
的概率密度函数为:
Figure GDA00027055465000001110
Figure GDA00027055465000001111
则公式(4)可转化为:
Figure GDA00027055465000001112
在针对预测问题时,车道流量的预测值可能有i个,且i个可能的流量值表示为xi,则假设车道流量预测值xi的分布集合X={xi}已知,所以可理解为P(X)=1。根据
Figure GDA00027055465000001113
的概率密度函数即可得到
Figure GDA00027055465000001114
的概率分布表。
S4.3、根据
Figure GDA00027055465000001115
的概率密度函数得到
Figure GDA00027055465000001116
的概率分布表,包括:
S4.3.1、由进口道平均车道流量的初始状态分布产生某一状态
Figure GDA00027055465000001117
结合
Figure GDA00027055465000001118
的概率密度函数中的公式(5),按照进口道平均车道流量状态转移矩阵
Figure GDA00027055465000001119
生成进口道平均车道流量的预测值
Figure GDA00027055465000001120
将获得的进口道平均车道流量的预测值
Figure GDA00027055465000001121
乘以车道流量分配比例γn,得到车道流量的预测值
Figure GDA00027055465000001122
同时为了降低周末和工作日之间相互进行状态转移导致的预测不准,在算法输入中,将上周同一天的流量数据也作为状态值。
当部分时段由于无法根据进口道平均车道状态转移概率表获得流量的状态序列时,采用进口道平均车道流量的最邻近值(即从概率表中筛选最接近当前平均车道流量的值)生成流量值
Figure GDA0002705546500000121
S4.3.2、若前一相邻时间区间内车道流量的真实值qreal(t-1)与设定时间内车道流量的集合Qreal满足qreal(t-1)∈Qreal的关系时,则按照车道流量状态转移矩阵
Figure GDA0002705546500000122
计算车道流量的联合概率分布,作为先验概率分布。其中,当预测15分钟流量时,qreal(t-1)的取值以当前采集的过车流量为准;否则以预测的概率分布取值区间依次遍历;
S4.3.3、若观测序列中存在的有效样本量大于等于3个,则根据全概率公式更新所述联合概率分布中各流量对应的概率值,得到后验概率分布,从而获得
Figure GDA0002705546500000123
的概率分布表。
全概率公式根据各流量值在先验概率中的概率值分别进行计算得到后验概率中的概率值,本实施例中以真实流量值的概率分布计算为例展示全概率公式如下:
Figure GDA0002705546500000124
若步骤S4.3.1中进口道平均车道流量无法按照状态转移矩阵生成当前的流量值或者生成的样本数少于3个,则采用该时刻的所有历史数据拟合函数分布计算均值和标准差。
若步骤S4.3.3中观测序列中存在的有效样本量少于3个(有效样本量指车道流量对应的概率值大于0),则将观测序列中所有的流量值作为样本集合
Figure GDA0002705546500000125
对应的概率以平均的方式计算,进而通过样本求取均值和标准差。
另外,在数据异常实时监测中,需要根据三个状态转移矩阵的计算方法,将最新的15分钟流量值更新到进口道平均车道流量状态转移矩阵表、车道流量状态转移矩阵表和车道流量分配比例状态矩阵表中,以保持矩阵表中数据的最新,提高车道流量预测的准确性。
S4.4、在得到
Figure GDA0002705546500000131
的概率分布表后,利用EM算法拟合概率分布得到对应的均值和标准差。
S4.4.1、设时间间隔ΔT(本实施例中ΔT取值为15分钟)采集的车道流量的真实值为qlane,基于K阶混合高斯模型,计算流量的总样本量N,计算式为:
N=(max(qlane)-min(qlane))*K (7)
公式(7)中,max(qlane)为采集的车道流量的真实值的最大值,min(qlane)为采集的车道流量的真实值的最小值,K为混合高斯模型的总阶数。
S4.4.2、根据样本总量和各车道流量的概率计算每个车道流量对应的样本量,具体为:从所述
Figure GDA0002705546500000132
的概率分布表中获取各流量对应的概率值p(qlane),并根据公式
Figure GDA0002705546500000133
计算得到各流量对应的样本量
Figure GDA0002705546500000134
并获得总样本量为N的车道流量值序列{q1,q2,…,qi,…,qN-1,qN},并整合样本量
Figure GDA0002705546500000135
和车道流量值序列得到车道流量的概率分布函数P(qlane)。
S4.4.3、通过应用期望最大算法(EM算法)迭代计算分布参数qk、σk和权重αk的值,具体计算过程如下:
假设P(qlane)服从K阶混合高斯模型,且样本间相互独立,则可得到如下关系式:
Figure GDA0002705546500000136
公式(8)中K为混合高斯模型的总阶数,k表示第k阶高斯模型,αk设置为1/K,且αk≥0,则
Figure GDA0002705546500000137
N为总样本量,qk的初始值设置为k/K分位数对应的样本均值,N(q;qkk)为高斯分布密度函数,qk、σk为分布参数,q为服从高斯分布密度函数N(qkk)的分布变量。
S4.4.4、采用EM算法迭代计算qk、αk和σk的值,并得到均值和标准差,计算过程包括:
E步:依据当前模型参数,计算样本数据qj属于每个分模型k的概率γjk,计算式为:
Figure GDA0002705546500000138
M步:计算新一轮迭代的模型参数,计算式为:
Figure GDA0002705546500000141
Figure GDA0002705546500000142
Figure GDA0002705546500000143
重复E步和M步中公式(9)~(12)的计算,直至qk、αk和σk的迭代差值小于阈值或者迭代次数小于阈值时,停止迭代,得到qk、αk和σk的值;
S4.4.5、根据得到的qk、αk和σk的值计算车道流量预测值的均值
Figure GDA0002705546500000144
和标准差
Figure GDA0002705546500000145
计算式为:
Figure GDA0002705546500000146
Figure GDA0002705546500000147
式中K为混合高斯模型的总阶数,k表示第k阶高斯模型,αk为权重,qk、σk为分布参数。根据公式(13)和公式(14)即可得到车道流量预测值的均值和标准差。
S4.5、以均值作为流量的预测值,标准差作为流量的合理分布阈值,判断数据是否存在异常偏离。
具体判断如下:若间隔ΔT采集的车道流量的真实值为qlane,且车道流量的真实值qlane满足
Figure GDA0002705546500000148
则当前ΔT时间内的车道流量数据正常;否则当前ΔT时间内的车道流量数据存在异常偏离。本实施例中的ΔT取值为15分钟。
过车数据出现异常偏离时,还可进一步判断数据出现异常偏离的原因:
Figure GDA0002705546500000149
其中Clane表示车道的实际通行能力(根据车道饱和流率和信号配时确定),则数据出现异常偏离的原因为对应时刻车道的车流量突然增多,并将“突发流量”写入数据表中;
若qlane>Clane,则数据出现异常偏离的原因为对应时刻的电警监测设备故障,并将“检测器故障”写入数据表中;
Figure GDA0002705546500000151
则表示对应时刻车道上发生异常事件,导致车流量减小,并将“异常事件”写入数据表中。
本实施例通过上述步骤,以车道为统计单元,时间间隔取15分钟,循环计算基于电警数据的延迟、缺失,并基于马尔科夫模型分析流量数据波动的正常区间,判别异常偏离情况。从而实现对流量的预测和数据质量的整体评价,为交通诱导、交通控制等应用提供有效准确的数据支撑。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (7)

1.一种基于马尔科夫模型的数据异常诊断方法,其特征在于,所述的基于马尔科夫模型的数据异常诊断方法,包括以下步骤:
S1、获取交叉口的车辆信息,所述车辆信息包括过车时间、车牌号码和行驶车道;
S2、根据所获取的车辆信息,定时计算数据延迟指标,并根据数据延迟指标判断是否出现数据延迟,若出现数据延迟则对所述车辆信息进行标记并结束本次数据异常诊断;否则定时计算数据缺失指标并进入下一步;
S3、根据数据缺失指标判断是否出现数据缺失,若出现数据缺失则对所述车辆信息进行标记并结束本次数据异常诊断;否则定时计算异常偏离指标并进入下一步,所述异常偏离指标的计算包括利用马尔科夫模型进行流量的概率分布预测,以及利用EM算法拟合概率分布得到对应的均值和标准差;
S4、根据异常偏离指标判断是否出现异常偏离,若出现异常偏离则对所述车辆信息进行标记并结束本次数据异常诊断;否则直接结束本次数据异常诊断,所述异常偏离的判断包括以均值作为流量的预测值,标准差作为流量的合理分布阈值,判断数据是否出现异常偏离;
其中,所述利用马尔科夫模型进行流量的概率分布预测,包括:
设车道流量的真实值为
Figure FDA0002705546490000011
车道流量的预测值为
Figure FDA0002705546490000012
前一相邻时间区间内车道流量的真实值为
Figure FDA0002705546490000013
进口道平均车道流量的预测值为
Figure FDA0002705546490000014
前一天当前时刻的进口道平均车道流量为
Figure FDA0002705546490000015
Figure FDA0002705546490000016
作为马尔科夫模型的观测序列,且
Figure FDA0002705546490000017
作为马尔科夫模型的状态序列;
根据一阶马尔科夫模型,得到车道流量的预测值
Figure FDA0002705546490000018
的概率密度函数为:
Figure FDA0002705546490000019
其中,
Figure FDA00027055464900000110
X为车道流量预测值的分布集合;
根据
Figure FDA00027055464900000111
的概率密度函数得到
Figure FDA00027055464900000112
的概率分布表。
2.如权利要求1所述的基于马尔科夫模型的数据异常诊断方法,其特征在于,所述定时计算数据延迟指标,并根据数据延迟指标判断是否出现数据延迟,包括:
设所述过车时间为t0,所述车辆信息上传至数据库的时间为t1,则数据延迟指标的计算方法包括:计算车辆信息上传至数据库的时间与过车时间的间隔t1-t0
预设允许的延迟时间阈值为α,若(t1-t0)≥α,则当前的车辆信息存在数据延迟;否则当前的车辆信息不存在数据延迟。
3.如权利要求1所述的基于马尔科夫模型的数据异常诊断方法,其特征在于,所述定时计算数据缺失指标,根据数据缺失指标判断是否出现数据缺失,包括:
在日间时段,若[T0,T1]时间段内指定车道的流量q(t)=0,则数据缺失指标的计算方法包括统计该车道在T1时间前一小时内的总流量Q(t);若总流量Q(t)=0,则这一小时内的车辆信息存在数据缺失,其中T0和T1的时间间隔为ΔT;
在夜间时段,若[T0′,T1′]时间段内指定车道的流量q(t)′=0,则数据缺失指标的计算方法包括统计该车道在T1′时间前三小时内的总流量Q(t)′;若总流量Q(t)′=0,则这三小时内的车辆信息存在数据缺失,其中T0′和T1′的时间间隔为ΔT。
4.如权利要求1所述的基于马尔科夫模型的数据异常诊断方法,其特征在于,所述根据
Figure FDA0002705546490000021
的概率密度函数得到
Figure FDA0002705546490000022
的概率分布表,包括:
根据所述车辆信息,统计进口道平均车道流量状态转移矩阵
Figure FDA0002705546490000023
车道流量状态转移矩阵
Figure FDA0002705546490000024
和车道流量分配比例状态矩阵
Figure FDA0002705546490000025
其中γn表示车道流量分配比例;
获取
Figure FDA0002705546490000026
结合
Figure FDA0002705546490000027
的概率密度函数,按照进口道平均车道流量状态转移矩阵
Figure FDA0002705546490000028
生成进口道平均车道流量的预测值
Figure FDA0002705546490000029
将获得的进口道平均车道流量的预测值
Figure FDA00027055464900000210
乘以车道流量分配比例γn,得到车道流量的预测值
Figure FDA00027055464900000211
若前一相邻时间区间内车道流量的真实值qreal(t-1)与设定时间内车道流量的集合Qreal满足qreal(t-1)∈Qreal的关系时,则按照车道流量状态转移矩阵
Figure FDA00027055464900000212
计算车道流量的联合概率分布,作为先验概率分布;
若观测序列中存在的有效样本量大于等于3个,则根据全概率公式更新所述联合概率分布中各流量对应的概率值,得到后验概率分布,从而获得
Figure FDA00027055464900000213
的概率分布表。
5.如权利要求4所述的基于马尔科夫模型的数据异常诊断方法,其特征在于,所述利用EM算法拟合概率分布得到对应的均值和标准差,包括:
设时间间隔ΔT采集的车道流量的真实值为qlane,基于K阶混合高斯模型,计算流量的总样本量N=(max(qlane)-min(qlane))*K,其中max(qlane)为采集的车道流量的真实值的最大值,min(qlane)为采集的车道流量的真实值的最小值,K为混合高斯模型的总阶数;
从所述
Figure FDA0002705546490000031
的概率分布表中获取各流量对应的概率值p(qlane),并根据公式
Figure FDA00027055464900000310
计算得到各流量对应的样本量
Figure FDA00027055464900000311
并获得总样本量为N的车道流量值序列{q1,q2,…,qi,…,qN-1,qN},并整合样本量
Figure FDA00027055464900000312
和车道流量值序列得到车道流量的概率分布函数P(qlane);
假设P(qlane)服从K阶混合高斯模型,且样本间相互独立,则可得到
Figure FDA0002705546490000032
其中K为混合高斯模型的总阶数,k表示第k阶高斯模型,αk为权重,且αk≥0,
Figure FDA0002705546490000033
为高斯分布密度函数,qk、σk为分布参数,q为服从高斯分布密度函数N(qk,σk)的分布变量;
采用EM算法迭代计算qk、αk和σk的值,并得到均值和标准差。
6.如权利要求5所述的基于马尔科夫模型的数据异常诊断方法,其特征在于,所述采用EM算法迭代计算qk、αk和σk的值,并得到均值和标准差,包括:
E步:依据当前模型参数,计算样本数据qj属于每个分模型k的概率γjk,计算式为:
Figure FDA0002705546490000034
M步:计算新一轮迭代的模型参数,计算式为:
Figure FDA0002705546490000035
Figure FDA0002705546490000036
Figure FDA0002705546490000037
重复E步和M步的计算,直至qk、αk和σk的迭代差值小于阈值或者迭代次数小于阈值时,停止迭代,得到qk、αk和σk的值;
根据得到的qk、αk和σk的值计算车道流量预测值的均值
Figure FDA0002705546490000038
和标准差
Figure FDA0002705546490000039
计算式为:
Figure FDA0002705546490000041
Figure FDA0002705546490000042
式中K为混合高斯模型的总阶数,k表示第k阶高斯模型,αk为权重,qk、σk为分布参数。
7.如权利要求6所述的基于马尔科夫模型的数据异常诊断方法,其特征在于,所述以均值作为流量的预测值,标准差作为流量的合理分布阈值,判断数据是否存在异常偏离,包括:
若时间间隔ΔT采集的车道流量的真实值为qlane,且车道流量的真实值qlane满足
Figure FDA0002705546490000043
则当前ΔT时间内的车道流量数据正常;否则当前ΔT时间内的车道流量数据存在异常偏离。
CN201910124473.5A 2019-02-19 2019-02-19 一种基于马尔科夫模型的数据异常诊断方法 Active CN109979193B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910124473.5A CN109979193B (zh) 2019-02-19 2019-02-19 一种基于马尔科夫模型的数据异常诊断方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910124473.5A CN109979193B (zh) 2019-02-19 2019-02-19 一种基于马尔科夫模型的数据异常诊断方法

Publications (2)

Publication Number Publication Date
CN109979193A CN109979193A (zh) 2019-07-05
CN109979193B true CN109979193B (zh) 2021-01-19

Family

ID=67077044

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910124473.5A Active CN109979193B (zh) 2019-02-19 2019-02-19 一种基于马尔科夫模型的数据异常诊断方法

Country Status (1)

Country Link
CN (1) CN109979193B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111144473B (zh) * 2019-12-23 2024-04-23 中国医学科学院肿瘤医院 训练集构建方法、装置、电子设备及计算机可读存储介质
CN112380215B (zh) * 2020-11-17 2023-07-28 北京融七牛信息技术有限公司 一种基于交叉聚合的自动特征生成方法
CN115188186B (zh) * 2022-06-28 2024-02-20 公安部交通管理科学研究所 一种区域内交通流量监测方法
CN115662143B (zh) * 2022-11-21 2023-04-14 吉林大学 一种公交企业运营安全态势动态预测系统及方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7403664B2 (en) * 2004-02-26 2008-07-22 Mitsubishi Electric Research Laboratories, Inc. Traffic event detection in compressed videos
CN104217002B (zh) * 2014-09-14 2017-08-25 北京航空航天大学 一种基于高质量数据获取的路况信息填补方法
CN104916131B (zh) * 2015-05-14 2017-05-10 重庆大学 高速公路事件检测的数据清洗方法
CN107784709A (zh) * 2017-09-05 2018-03-09 百度在线网络技术(北京)有限公司 处理自动驾驶训练数据的方法和装置
CN107862413A (zh) * 2017-11-16 2018-03-30 四维口袋科技(北京)有限公司 基于马尔科夫链的预测方法和装置

Also Published As

Publication number Publication date
CN109979193A (zh) 2019-07-05

Similar Documents

Publication Publication Date Title
CN109979193B (zh) 一种基于马尔科夫模型的数据异常诊断方法
GB2582531A (en) Method for detecting traffic anomally of urban road with equidistant spatial-temporal division
CN107085943B (zh) 一种道路旅行时间短期预测方法和系统
CN111179591B (zh) 一种路网交通时序特征数据质量诊断与修复方法
CN109409713B (zh) 基于贝叶斯模型和三倍标准差准则的道路网络评估方法
CN110349427B (zh) 一种基于大数据的智慧交通管理系统
CN101187943A (zh) 自动更新系统、自动更新方法及其程序
CN113159374B (zh) 一种数据驱动的城市交通流速模式识别与实时预测预警方法
CN113963539B (zh) 高速公路交通事故识别方法、模块及系统
CN110414715B (zh) 一种基于社团检测的客流量预警方法
CN111176953A (zh) 一种异常检测及其模型训练方法、计算机设备和存储介质
CN109360415A (zh) 一种道路交通流异常数据识别方法
CN111383453B (zh) 交通信号控制在线仿真和实时跟踪反馈系统及运行方法
Mihaita et al. Traffic congestion anomaly detection and prediction using deep learning
CN116843071B (zh) 一种用于智慧港口的运输网络运行指数预测方法及装置
CN115331425A (zh) 一种交通预警方法、装置和系统
CN114283590B (zh) 车流量高峰预测方法及装置、电子设备
KR101960755B1 (ko) 미취득 전력 데이터 생성 방법 및 장치
CN116863723B (zh) 一种数字孪生基座的使用方法
CN111145535B (zh) 一种复杂场景下的行程时间可靠性分布预测方法
CN113673822A (zh) 一种弹性调度方法及系统
CN113032239A (zh) 风险提示方法、装置、电子设备及存储介质
CN109523788B (zh) 一种路段运行效果评价方法
CN116132262A (zh) 一种面向智能网联汽车的数据实时监测报警系统及方法
CN116259173A (zh) 一种基于d-s证据理论的多检测方式交通事件融合方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20200423

Address after: 314501 room 116, floor 1, building 2, No. 87 Hexi, Changfeng street, Wuzhen Town, Tongxiang City, Jiaxing City, Zhejiang Province

Applicant after: Zhejiang Haikang Zhilian Technology Co.,Ltd.

Address before: Yuhang District, Hangzhou City, Zhejiang Province, 311121 West No. 1500 Building 1 room 311

Applicant before: CETHIK GROUP Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant
CP02 Change in the address of a patent holder

Address after: 311115 Room 108, Building 5, Pinggao Entrepreneurship City, Liangzhu Street, Yuhang District, Hangzhou City, Zhejiang Province

Patentee after: Zhejiang Haikang Zhilian Technology Co.,Ltd.

Address before: Room 116, 1 / F, building 2, No.87 Hexi, Changfeng street, Wuzhen Town, Tongxiang City, Jiaxing City, Zhejiang Province

Patentee before: Zhejiang Haikang Zhilian Technology Co.,Ltd.

CP02 Change in the address of a patent holder