CN109979193A

CN109979193A - 一种基于马尔科夫模型的数据异常诊断方法

Info

Publication number: CN109979193A
Application number: CN201910124473.5A
Authority: CN
Inventors: 刘彦斌; 朱海峰; 韦学武; 温熙华; 龚方徽; 刘畅
Original assignee: CETHIK Group Ltd
Current assignee: Zhejiang Haikang Zhilian Technology Co ltd
Priority date: 2019-02-19
Filing date: 2019-02-19
Publication date: 2019-07-05
Anticipated expiration: 2039-02-19
Also published as: CN109979193B

Abstract

本发明公开了一种基于马尔科夫模型的数据异常诊断方法，包括以下步骤：获取交叉口的车辆信息，定时计算数据延迟指标，并根据数据延迟指标判断是否出现数据延迟，若出现数据延迟则对所述车辆信息进行标记并结束本次数据异常诊断；否则定时计算数据缺失指标，根据数据缺失指标判断是否出现数据缺失，若出现数据缺失则对所述车辆信息进行标记并结束本次数据异常诊断；否则定时计算异常偏离指标，根据异常偏离指标判断是否出现异常偏离，若出现异常偏离则对所述车辆信息进行标记并结束本次数据异常诊断；否则直接结束本次数据异常诊断。本发明的数据异常诊断方法能够进行数据的实时异常监测，且监测的准确性高。

Description

一种基于马尔科夫模型的数据异常诊断方法

技术领域

本发明属于交通数据挖掘技术领域，具体涉及一种基于马尔科夫模型的数据异常诊断方法。

背景技术

随着交通检测设备的部署和普及，尤其是电子警察设备的应用，为城市交通管理积累海量的数据资源。同时，基于及时准确的电警数据，对于研究交通控制、车辆诱导、公交规划等技术起到至关重要的作用。但在实际道路交通环境中，电子警察检测的数据由于检测器故障、线路通信故障或者异常交通事件，导致其中部分数据属于异常数据。这些异常数据主要包括：1)数据延迟，这类主要由于线路通信故障导致数据的上传不及时；2)数据缺失，主要由于检测器临时故障或联网中断导致的；3)异常偏离，指临时的交通事件或设备问题导致的流量过大或过小。

现有的数据异常检测大体可分为交通流理论分析、历史统计方法、趋势挖掘方法等。交通流理论分析是指设置某些交通流参数临界值，对超出临界值的交通流参数进行筛选的方法。历史统计方法可从历史数据中计算流量变化的区间，分析检测值发生异常的阈值范围。趋势挖掘方法利用机器学习的相关算法，计算流量的未来变化趋势以及发生概率特性，识别流量检测值的异常变化。其中交通流理论和历史统计两种方法不能动态地跟踪交通流量的变化趋势情况，无法准确地估计流量的合理区间：交通流理论方法受限于人工对交通流影响因素的手动调参精度，历史统计法则依赖于历史数据的全面和完整。

如申请号为201510077183.1的专利文献公开了一种交通异常路段概率识别方法，采用历史统计方法计算各微波点车速、流量的均值和标准差，进而计算车速异常指数和流量异常指数，输出前K个最异常的路段预警。该方法给定的标准差范围涵盖了所有异常值，并不能结合实际的流量变化给出准确的波动区间。

又如，申请号为201810585465.6的专利文献中公开了一种微波交通数据采集设备的异常值检测方法，采用对标准化的多维有效数据进行聚类，确定哪些类别的数据为异常数据。该方法采用固定的聚类类别并不能实时研判流量周期性的合理波动区间。

发明内容

本发明的目的在于提供一种基于马尔科夫模型的数据异常诊断方法，该方法基于趋势挖掘方法并结合交通自身的规律，提供一种分别对三类数据异常进行识别和实时监测的技术，提高数据异常监测的准确性和可靠性。

为实现上述目的，本发明所采取的技术方案为：

一种基于马尔科夫模型的数据异常诊断方法，所述的基于马尔科夫模型的数据异常诊断方法，包括以下步骤：

S1、获取交叉口的车辆信息，所述车辆信息包括过车时间、车牌号码和行驶车道；

S2、根据所获取的车辆信息，定时计算数据延迟指标，并根据数据延迟指标判断是否出现数据延迟，若出现数据延迟则对所述车辆信息进行标记并结束本次数据异常诊断；否则定时计算数据缺失指标并进入下一步；

S3、根据数据缺失指标判断是否出现数据缺失，若出现数据缺失则对所述车辆信息进行标记并结束本次数据异常诊断；否则定时计算异常偏离指标并进入下一步，所述异常偏离指标的计算包括利用马尔科夫模型进行流量的概率分布预测，以及利用EM算法拟合概率分布得到对应的均值和标准差；

S4、根据异常偏离指标判断是否出现异常偏离，若出现异常偏离则对所述车辆信息进行标记并结束本次数据异常诊断；否则直接结束本次数据异常诊断，所述异常偏离的判断包括以均值作为流量的预测值，标准差作为流量的合理分布阈值，判断数据是否出现异常偏离。

作为优选，所述定时计算数据延迟指标，并根据数据延迟指标判断是否出现数据延迟，包括：

设所述过车时间为t₀，所述车辆信息上传至数据库的时间为t₁，则数据延迟指标的计算方法包括：计算车辆信息上传至数据库的时间与过车时间的间隔t₁-t₀；

预设允许的延迟时间阈值为α，若(t₁-t₀)≥α，则当前的车辆信息存在数据延迟；否则当前的车辆信息不存在数据延迟。

作为优选，所述定时计算数据缺失指标，根据数据缺失指标判断是否出现数据缺失，包括：

在日间时段，若[T₀,T₁]时间段内指定车道的流量q(t)＝0，则数据缺失指标的计算方法包括统计该车道在T₁时间前一小时内的总流量Q(t)；若总流量Q(t)＝0，则这一小时内的车辆信息存在数据缺失，其中T₀和T₁的时间间隔为ΔT；

在夜间时段，若[T₀′,T₁′]时间段内指定车道的流量q(t)′＝0，则数据缺失指标的计算方法包括统计该车道在T₁′时间前三小时内的总流量Q(t)′；若总流量Q(t)′＝0，则这三小时内的车辆信息存在数据缺失，其中T₀′和T₁′的时间间隔为ΔT。

作为优选，所述利用马尔科夫模型进行流量的概率分布预测，包括：

设车道流量的真实值为车道流量的预测值为前一相邻时间区间内车道流量的真实值为进口道平均车道流量的预测值为前一天当前时刻的进口道平均车道流量为且作为马尔科夫模型的观测序列，且作为马尔科夫模型的状态序列；

根据一阶马尔科夫模型，得到车道流量的预测值的概率密度函数为：其中，X为车道流量预测值的分布集合；

根据的概率密度函数得到的概率分布表。

作为优选，所述根据的概率密度函数得到的概率分布表，包括：

根据所述车辆信息，统计进口道平均车道流量状态转移矩阵车道流量状态转移矩阵和车道流量分配比例状态矩阵其中γ_n表示车道流量分配比例；

获取结合的概率密度函数，按照进口道平均车道流量状态转移矩阵生成进口道平均车道流量的预测值

将获得的进口道平均车道流量的预测值乘以车道流量分配比例γ_n，得到车道流量的预测值

若前一相邻时间区间内车道流量的真实值q_real(t-1)与设定时间内车道流量的集合Q_real满足q_real(t-1)∈Q_real的关系时，则按照车道流量状态转移矩阵计算车道流量的联合概率分布，作为先验概率分布；

若观测序列中存在的有效样本量大于等于3个，则根据全概率公式更新所述联合概率分布中各流量对应的概率值，得到后验概率分布，从而获得的概率分布表。

作为优选，所述利用EM算法拟合概率分布得到对应的均值和标准差，包括：

设时间间隔ΔT采集的车道流量的真实值为q_lane，基于K阶混合高斯模型，计算流量的总样本量N＝(max(q_lane)-min(q_lane))*K，其中max(q_lane)为采集的车道流量的真实值的最大值，min(q_lane)为采集的车道流量的真实值的最小值，K为混合高斯模型的总阶数；

从所述的概率分布表中获取各流量对应的概率值p(q_lane)，并根据公式计算得到各流量对应的样本量并获得总样本量为N的车道流量值序列{q₁,q₂,…,q_i,…,q_N-1,q_N}，并整合样本量和车道流量值序列得到车道流量的概率分布函数P(q_lane)；

假设P(q_lane)服从K阶混合高斯模型，且样本间相互独立，则可得到其中K为混合高斯模型的总阶数，k表示第k阶高斯模型，α_k为权重，且α_k≥0，N(q；q_k,σ_k)为高斯分布密度函数，q_k、σ_k为分布参数，q为服从高斯分布密度函数N(q_k,σ_k)的分布变量；

采用EM算法迭代计算q_k、α_k和σ_k的值，并得到均值和标准差。

作为优选，所述采用EM算法迭代计算q_k、α_k和σ_k的值，并得到均值和标准差，包括：

E步：依据当前模型参数，计算样本数据q_j属于每个分模型k的概率γ_jk，计算式为：

M步：计算新一轮迭代的模型参数，计算式为：

重复E步和M步的计算，直至q_k、α_k和σ_k的迭代差值小于阈值或者迭代次数小于阈值时，停止迭代，得到q_k、α_k和σ_k的值；

根据得到的q_k、α_k和σ_k的值计算车道流量预测值的均值和标准差计算式为：

式中K为混合高斯模型的总阶数，k表示第k阶高斯模型，α_k为权重，q_k、σ_k为分布参数。

作为优选，所述以均值作为流量的预测值，标准差作为流量的合理分布阈值，判断数据是否存在异常偏离，包括：

若时间间隔ΔT采集的车道流量的真实值为q_lane，且车道流量的真实值q_lane满足则当前ΔT时间内的车道流量数据正常；否则当前ΔT时间内的车道流量数据存在异常偏离。

本发明提供的基于马尔科夫模型的数据异常诊断方法，该方法基于趋势挖掘方法并结合交通自身的规律，提供一种分别对三类数据异常进行识别和实时监测的技术。经过实际场景的内网测试，在各类全天场景中数据延迟和数据缺失诊断正常，准确地识别了部分电警的故障情况和数据质量问题。

另外，基于马尔科夫的预测模型能够基于已有的经验知识，通过新数据的加入不断调整流量变化的趋势；同时，马尔科夫模型的输出包含完整的变量空间，通过概率的形式对变量出现的可能性进行量化，保留了变量的完整性。而非类似回归方法得到的单一输出值。在日间场景时段，数据异常中涉及到的预设时间内流量预测的准确率在87％左右，显著提高数据异常监测的准确性和可靠性。

附图说明

图1为本发明的基于马尔科夫模型的数据异常诊断方法的流程框图；

图2为本发明的基于马尔科夫模型的流量分布预测模型结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是在于限制本发明。

本实施例提供一种基于马尔科夫模型的数据异常诊断方法，该方法设计了数据延迟指标、数据缺失指标和异常偏离指标，且各指标建立有对应的计算方法，在进行数据异常诊断时，根据各指标计算所得的值判断电警设备所获取的数据是否存在异常情况，进而实现数据异常监测的目标。

如图1所示，基于马尔科夫模型的数据异常诊断方法，具体包括以下步骤：

S1、获取交叉口的车辆信息，所述车辆信息包括但不仅限于过车时间、车牌号码和行驶车道。此处默认的是交叉口的信息是已知的，交叉口的信息包括交叉口的车道信息按照所属交叉口、进口道方向和车道编号进行标记。

容易理解的是，车辆信息可采用安装在交叉口的电子眼等电警监控设备获取，所获取的数据按车道编号经过预处理转换为以5分钟为时间间隔的车道流量(单位：辆/min)，并将车道流量存储在数据表中以供取用。当然时间间隔可以根据实际路况进行预设调整。

历史获取的车辆信息可作为历史数据，用于对交叉口各车道状态转移矩阵的训练。以某一交叉口为例，收集数据表中所有日期的5分钟车道流量。历史数据训练是对原始过车数据和车道流量进行筛选，进而将正常的流量数据导入到数据质量实时监测中。

所述的历史数据训练包括以下步骤：

步骤1：首先通过数据延迟指标的计算方法，以5分钟为时间间隔将满足延迟条件的交叉口标记为延迟，即data_latency＝1(默认值为0)，将标记为0的时间区间作为步骤2的筛选条件。

步骤2：后进行数据缺失指标的计算，若某一15分钟时间区间的数据延迟标记为0，进而判断车道流量是否为0。如果车道流量为0，则在日间时段(06:00-23:59)以当前为时间终点，统计前一小时内的车道流量总和；在夜间时段(00:00-06:00)以当前为时间终点，统计前三个小时内的车道流量总和。如果白天时段或夜间时段的流量总和为0，则将前一小时或三个小时时段的车道标记为数据缺失，即data_miss＝1(默认值为0)。

步骤3：筛选数据延迟标记为0并且数据缺失标记为0的车道，将数据正常的15分钟车道流量作为历史数据，转入步骤4进行转移矩阵的计算。

步骤4：如图2所示，以15分钟为时间间隔统计分析进口道平均车道流量状态转移矩阵车道流量状态转移矩阵和车道流量分配比例状态矩阵其中γ_n表示车道流量分配比例。其中表示当前某一时刻与昨天相同时刻的平均车道流量对在所有当前时刻的历史样本中所占的概率，可表示为：

公式(1)中，表示当前t时刻的某一流量值与昨天t时刻的某一流量相对应的天数，表示t时刻采集到某一流量(流量值已知)的总天数。

类似地，表示当前某一时刻与当前前一时刻的车道流量对在所有当前时刻的历史样本中所占的概率；表示某一时刻，进口道流量一定的情况下，某一车道流量分配比例所占的概率。其中，在已知进口道的车道总数为N_lane的情况下，车道流量分配比例γ_n的计算公式如下：

公式(2)中，q(t)表示车道流量的真实值，q_Enter(t)表示进口道平均车道流量。

步骤5：结合交叉口信息和车辆信息，得到每天的车道流量、转向流量，并存储在数据库中。以数据库中每天的车道流量、转向流量为数据源，以日期(年-月-日格式)为变量，循环计算某一车道对应的三个状态矩阵，以数据表的形式存储在数据库中。

步骤6：以车道为变量，统计每个交叉口有流量数据的各个车道的状态转移矩阵，写入对应的数据表中。至此基于历史所有流量数据，完成每个车道状态转移矩阵的训练。

基于上述步骤，能够根据丰富的历史数据得到每个车道状态转移矩阵的训练，以训练所得的状态转移矩阵为基础进行交通数据的实时异常监测，能够得到较高的监测准确性和可靠性。

在交通数据的实时异常监测中，需要对数据延迟指标、数据缺失指标和异常偏离指标进行循环计算，进一步地这三个指标的计算遵循一定的优先级和跳出机制，包括：

依次计算数据延迟指标、数据缺失指标和异常偏离指标；

若出现数据延迟，则跳出计算序列并结束；否则继续进行数据缺失指标的计算；若出现数据缺失，则跳出计算序列并结束；否则继续进行异常偏离指标的计算。根据所述的优先级和跳出机制进行数据异常的诊断。

S2、根据所获取的车辆信息，定时计算数据延迟指标，并根据数据延迟指标判断是否出现数据延迟。

实时获取的交叉口的车辆信息，用于进行数据的实时异常监测。根据所获得的车辆信息，计算数据异常的三个指标，其中，以5分钟的间隔时长计算数据延迟指标，以15分钟的间隔时长计算数据缺失指标和异常偏离指标。

数据延迟是指过车数据推送到数据库的时间，与过车采集时间不一致时，数据存在延迟的问题。电警数据中包含采集时间字段和入库时间字段，设过车时间(即采集时间)为t₀，所述车辆信息上传至数据库的时间(即入库时间)为t₁，则数据延迟指标的计算方法包括：计算入库时间与采集时间的时间间隔t₁-t₀，并进一步根据数据延迟指标计算所得的值判断是否出现数据延迟。

判断数据延迟的方法包括：预设允许的延迟时间阈值为α，若(t₁-t₀)≥α，则当前的车辆信息存在数据延迟；否则当前的车辆信息不存在数据延迟。本实施例中根据交通流的实际情况，取α取值为60秒。

上述判断方式为针对每一条上传的车辆信息进行判断，但针对每一条上传的车辆信息进行判断容易出现误判或无法排除随机误差的情况。故本实施例以上述判断方法为基础，进一步优化数据延迟指标的判别。

具体为，设数据延迟判断的时间区间为[T₃,T₄]，其中T₃与T₄的时间间隔为5分钟。在时间区间[T₃,T₄]内，总车辆信息的数量为N_all，存在数据延迟的车辆信息的数量为n_latency，若两者满足则该时间区间内的数据记为存在数据延迟。其中为一定时间区间内存在数据延迟的车辆信息的数量占总车辆信息的数量的比值的阈值，本实施例中取值为0.05。

进一步地，在实际数据诊断中，每隔5分钟根据路网中指定交叉口的电警编号计算延迟结果。在满足数据延迟条件时，统计已发生延迟的过车记录延迟时间t_{veh_late}的平均值T_late，满足如下关系式：

若出现数据延迟则对所述车辆信息进行标记并结束本次数据异常诊断；否则定时计算数据缺失指标并进入下一步。

S3、根据数据缺失指标判断是否出现数据缺失。

数据缺失是指某一时段，电警设备发生故障或者数据库通信网络中断，导致部分车道数据丢失，过车数据出现缺失的问题。以交叉口某一车道为统计分析的单元，记T₀为统计区间的起始时刻，T₁为终点时刻，且T₀和T₁的时间间隔为ΔT，为了与数据缺失指标的计算频率相对应，ΔT的取值为15分钟。

异常实时监测中数据缺失指标计算与判断同样与历史数据训练中的计算与判断方法一致，可概括为：在日间时段，若[T₀,T₁]时间段内指定车道的流量q(t)＝0，则数据缺失指标的计算方法包括统计该车道在T₁时间前一小时内的总流量Q(t)；若总流量Q(t)＝0，则这一小时内的车辆信息存在数据缺失；在夜间时段，若[T₀′,T₁′]时间段内指定车道的流量q(t)′＝0，则数据缺失指标的计算方法包括统计该车道在T₁′时间前三小时内的总流量Q(t)′；若总流量Q(t)′＝0，则这三小时内的车辆信息存在数据缺失。

数据缺失指标具体的计算与判断步骤如下：

S3.1、在[T₀,T₁]时间段内，判断区间内数据未发生延迟情况，但统计得到某一车道的车道流量为q(t)＝0。

S3.2、在日间时段(06:00-23:59)，则统计前一小时时间区间，即该车道在时间段[T₀-45,T₁-45]、[T₀-30,T₁-30]和[T₀-15,T₁-15]内的车流量分别为q(t-45)、q(t-30)和q(t-15)；若q(t-45)+q(t-30)+q(t-15)＝0，则表示该车道存在数据缺失情况，且该车道的数据在时间段[T₀-45,T₁-45]、[T₀-30,T₁-30]、[T₀-15,T₁-15]和[T₀,T₁]区间内存在数据缺失；否则该车道数据正常。

S3.3、在夜间时段(00:00-06:00)，则统计前三小时时间区间，即该车道在时间段[T₀-165,T₁-165]、[T₀-150,T₁-150]、[T₀-135,T₁-135]……[T₀-30,T₁-30]和[T₀-15,T₁-15]内的车流量分别为q(t-165)、q(t-150)、q(t-135)……q(t-30)和q(t-15)；

若q(t-165)+q(t-150)+q(t-135)+……+q(t-30)+q(t-15)＝0，则表示该车道存在数据缺失情况，且该车道的数据在时间段[T₀-165,T₁-165]、[T₀-150,T₁-150]、[T₀-135,T₁-135]……[T₀-30,T₁-30]、[T₀-15,T₁-15]和[T₀,T₁]区间内存在数据缺失；否则该车道数据正常。

若出现数据缺失则对所述车辆信息进行标记并结束本次数据异常诊断；否则定时计算异常偏离指标并进入下一步。

异常偏离是指当前统计的车道流量偏离历史平均值过大时，说明该车道的数据受到外界或内部环境的影响，出现异常偏离的问题。以交叉口某一车道为统计分析的单元，基于马尔科夫模型对未来15分钟流量进行概率分布的预测，判断实际的交通流量是否处于合理的检验区间。基本思路是对时间序列数据进行预测，比较真实值与预测值之间的误差，如果误差超过一定的限度，则认为该记录出现异常偏离。

异常偏离指标的计算包括利用马尔科夫模型进行流量的概率分布预测，以及利用EM算法拟合概率分布得到对应的均值和标准差。历史数据训练的基本原则是保证数据不存在延迟和缺失，并尽可能利用已有的流量数据。历史数据越全面，实时异常监测的结果越准确、可靠性越高。基于训练的状态转移矩阵，本实施例基于马尔科夫模型构建异常偏离的算法。

其中，马尔科夫模型是基于马尔可夫链，根据变量的目前状况预测其将来各个时期变动状况的一种预测方法。主要思路为利用当天车道流量的前一历史值，前一天和同一星期当前时刻进口道平均车道流量，以及车道流量分配比，确定当前时刻流量的预测值。

具体地，根据异常偏离指标判断是否出现异常偏离的步骤包括：

S4.1、马尔科夫模型假设：车道流量的预测值与前一个时间区间的流量值，以及前一天当前时刻和同一星期的进口道平均车道流量值存在相关性，同时自变量之间相互独立。

S4.2、将每一天的车道流量按照15分钟的间隔，划分为一组时间序列值{q₁,q₂,…,q₉₆}，且设车道流量的真实值为车道流量的预测值为前一相邻时间区间内车道流量的真实值为进口道平均车道流量的预测值为前一天当前时刻的进口道平均车道流量为

其中作为马尔科夫模型的观测序列，且作为马尔科夫模型的状态序列，用于确定取值的状态空间。

本实施例根据一阶马尔科夫模型，得到车道流量的预测值的概率密度函数为：

记则公式(4)可转化为：

在针对预测问题时，车道流量的预测值可能有i个，且i个可能的流量值表示为x_i，则假设车道流量预测值x_i的分布集合X＝{x_i}已知，所以可理解为P(X)＝1。根据的概率密度函数即可得到的概率分布表。

S4.3、根据的概率密度函数得到的概率分布表，包括：

S4.3.1、由进口道平均车道流量的初始状态分布产生某一状态结合的概率密度函数中的公式(5)，按照进口道平均车道流量状态转移矩阵生成进口道平均车道流量的预测值

将获得的进口道平均车道流量的预测值乘以车道流量分配比例γ_n，得到车道流量的预测值同时为了降低周末和工作日之间相互进行状态转移导致的预测不准，在算法输入中，将上周同一天的流量数据也作为状态值。

当部分时段由于无法根据进口道平均车道状态转移概率表获得流量的状态序列时，采用进口道平均车道流量的最邻近值(即从概率表中筛选最接近当前平均车道流量的值)生成流量值

S4.3.2、若前一相邻时间区间内车道流量的真实值q_real(t-1)与设定时间内车道流量的集合Q_real满足q_real(t-1)∈Q_real的关系时，则按照车道流量状态转移矩阵计算车道流量的联合概率分布，作为先验概率分布。其中，当预测15分钟流量时，q_real(t-1)的取值以当前采集的过车流量为准；否则以预测的概率分布取值区间依次遍历；

S4.3.3、若观测序列中存在的有效样本量大于等于3个，则根据全概率公式更新所述联合概率分布中各流量对应的概率值，得到后验概率分布，从而获得的概率分布表。

全概率公式根据各流量值在先验概率中的概率值分别进行计算得到后验概率中的概率值，本实施例中以真实流量值的概率分布计算为例展示全概率公式如下：

若步骤S4.3.1中进口道平均车道流量无法按照状态转移矩阵生成当前的流量值或者生成的样本数少于3个，则采用该时刻的所有历史数据拟合函数分布计算均值和标准差。

若步骤S4.3.3中观测序列中存在的有效样本量少于3个(有效样本量指车道流量对应的概率值大于0)，则将观测序列中所有的流量值作为样本集合对应的概率以平均的方式计算，进而通过样本求取均值和标准差。

另外，在数据异常实时监测中，需要根据三个状态转移矩阵的计算方法，将最新的15分钟流量值更新到进口道平均车道流量状态转移矩阵表、车道流量状态转移矩阵表和车道流量分配比例状态矩阵表中，以保持矩阵表中数据的最新，提高车道流量预测的准确性。

S4.4、在得到的概率分布表后，利用EM算法拟合概率分布得到对应的均值和标准差。

S4.4.1、设时间间隔ΔT(本实施例中ΔT取值为15分钟)采集的车道流量的真实值为q_lane，基于K阶混合高斯模型，计算流量的总样本量N，计算式为：

N＝(max(q_lane)-min(q_lane))*K (7)

公式(7)中，max(q_lane)为采集的车道流量的真实值的最大值，min(q_lane)为采集的车道流量的真实值的最小值，K为混合高斯模型的总阶数。

S4.4.2、根据样本总量和各车道流量的概率计算每个车道流量对应的样本量，具体为：从所述的概率分布表中获取各流量对应的概率值p(q_lane)，并根据公式计算得到各流量对应的样本量并获得总样本量为N的车道流量值序列{q₁,q₂,…,q_i,…,q_N-1,q_N}，并整合样本量和车道流量值序列得到车道流量的概率分布函数P(q_lane)。

S4.4.3、通过应用期望最大算法(EM算法)迭代计算分布参数q_k、σ_k和权重α_k的值，具体计算过程如下：

假设P(q_lane)服从K阶混合高斯模型，且样本间相互独立，则可得到如下关系式：

公式(8)中K为混合高斯模型的总阶数，k表示第k阶高斯模型，α_k设置为1/K，且α_k≥0，则N为总样本量，q_k的初始值设置为k/K分位数对应的样本均值，N(q；q_k,σ_k)为高斯分布密度函数，q_k、σ_k为分布参数，q为服从高斯分布密度函数N(q_k,σ_k)的分布变量。

S4.4.4、采用EM算法迭代计算q_k、α_k和σ_k的值，并得到均值和标准差，计算过程包括：

M步：计算新一轮迭代的模型参数，计算式为：

重复E步和M步中公式(9)～(12)的计算，直至q_k、α_k和σ_k的迭代差值小于阈值或者迭代次数小于阈值时，停止迭代，得到q_k、α_k和σ_k的值；

S4.4.5、根据得到的q_k、α_k和σ_k的值计算车道流量预测值的均值和标准差计算式为：

式中K为混合高斯模型的总阶数，k表示第k阶高斯模型，α_k为权重，q_k、σ_k为分布参数。根据公式(13)和公式(14)即可得到车道流量预测值的均值和标准差。

S4.5、以均值作为流量的预测值，标准差作为流量的合理分布阈值，判断数据是否存在异常偏离。

具体判断如下：若间隔ΔT采集的车道流量的真实值为q_lane，且车道流量的真实值q_lane满足则当前ΔT时间内的车道流量数据正常；否则当前ΔT时间内的车道流量数据存在异常偏离。本实施例中的ΔT取值为15分钟。

过车数据出现异常偏离时，还可进一步判断数据出现异常偏离的原因：

若其中C_lane表示车道的实际通行能力(根据车道饱和流率和信号配时确定)，则数据出现异常偏离的原因为对应时刻车道的车流量突然增多，并将“突发流量”写入数据表中；

若q_lane＞C_lane，则数据出现异常偏离的原因为对应时刻的电警监测设备故障，并将“检测器故障”写入数据表中；

若则表示对应时刻车道上发生异常事件，导致车流量减小，并将“异常事件”写入数据表中。

本实施例通过上述步骤，以车道为统计单元，时间间隔取15分钟，循环计算基于电警数据的延迟、缺失，并基于马尔科夫模型分析流量数据波动的正常区间，判别异常偏离情况。从而实现对流量的预测和数据质量的整体评价，为交通诱导、交通控制等应用提供有效准确的数据支撑。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于马尔科夫模型的数据异常诊断方法，其特征在于，所述的基于马尔科夫模型的数据异常诊断方法，包括以下步骤：

2.如权利要求1所述的基于马尔科夫模型的数据异常诊断方法，其特征在于，所述定时计算数据延迟指标，并根据数据延迟指标判断是否出现数据延迟，包括：

3.如权利要求1所述的基于马尔科夫模型的数据异常诊断方法，其特征在于，所述定时计算数据缺失指标，根据数据缺失指标判断是否出现数据缺失，包括：

4.如权利要求1所述的基于马尔科夫模型的数据异常诊断方法，其特征在于，所述利用马尔科夫模型进行流量的概率分布预测，包括：

根据的概率密度函数得到的概率分布表。

5.如权利要求4所述的基于马尔科夫模型的数据异常诊断方法，其特征在于，所述根据的概率密度函数得到的概率分布表，包括：

6.如权利要求5所述的基于马尔科夫模型的数据异常诊断方法，其特征在于，所述利用EM算法拟合概率分布得到对应的均值和标准差，包括：

7.如权利要求6所述的基于马尔科夫模型的数据异常诊断方法，其特征在于，所述采用EM算法迭代计算q_k、α_k和σ_k的值，并得到均值和标准差，包括：

M步：计算新一轮迭代的模型参数，计算式为：

8.如权利要求7所述的基于马尔科夫模型的数据异常诊断方法，其特征在于，所述以均值作为流量的预测值，标准差作为流量的合理分布阈值，判断数据是否存在异常偏离，包括：