基于改进的相似性搜索技术的域内交通流量模式发现方法
技术领域
本发明属于数据挖掘领域,为了更好地对域内交通流量特定模式进行挖掘,本发明提出了一种基于改进的相似性搜索技术的域内交通流量模式发现方法。
背景技术
域内交通流量数据主要记载了在选定时间段内,通过道路该区域的交通实体数。其具有时间相关性,表现为流量分布随时间变化而变化,在不同的时间段,交通流呈现不同的特征。因此,时间序列是交通流量的一个很好的表征工具。通过对交通流时间序列的模式进行挖掘,可以认识交通系统的内部特征,揭示其运行规律。其中特定模式的发现,有利于通过当前所得到的异常数据完成对历史数据的回溯,并通过历史信息完成对当前异常的解析工作,并及时做出反应。
关于时间序列的相似性搜索问题是指,搜索时间序列数据库并查询出与拟查询对象时间序列之间存在有相似性关系的时间序列。为了能够更好的对时间序列相似性搜索技术进行描述,对该问题进行如下定义:
定义1:时间序列S,时间序列S是由一列元素组成的即S={s1,s2,s3,…,sn},其中n为整个时间序列S的长度。
定义2:组成元素si,组成元素si由采样时间ti和样本值组成ri,可记为si=[ti,ri]。
定义3:子序列Si,k,即时间序列S中的一段序列,其元素组成由i至k,序列顺序与S中保持一致,记为子序列Si,k=si,si+1,si+2,…,sk,其中1≤i≤k≤n。
定义4:查询序列(特定模式)Q,查询序列Q是由一列元素组成的,即Q={q1,q2,q3,…,qm},其中m为查询序列Q的长度,该序列中即为所需要查询的特定模式。
定义5:相似性搜索,即在长度为n的时间序列S中,查找出与长度为m的查询序列Q间具有相似性描述(两序列间相似性度量结果)满足初设阈值ε的所有子序列Si,k的集合,可记作R={Si,k∈S|Dis(Si,k,Q)≤ε}。
定义6:最佳相似性搜索,即在长度为n的时间序列S中,查找出与长度为m的查询序列Q间具有最佳相似性描述(两序列间相似性度量结果最为接近)的子序列Si,k,用公式表示为Dis(Si,k,Q)<Dis(Sa,b,Q),其中1≤a≤n,1≤b≤n。
大量研究发现DTW(动态时间弯曲)技术和欧氏距离这两种相似性度量方法都能够很好的完成时间序列的相似性描述工作,但是由于欧式距离无法处理存在相位偏移序列的这一问题,因此本发明选择基于DTW技术的时间序列相似性搜索作为进一步的研究目标。
定义7:DTW技术,设存在两条时间序列数据Q={q1,q2,q3,…,qn}与S={s1,s2,…,sm},其长度分别为n与m,则存在两序列构成的大小为n×m的矩阵M,其中矩阵元素(i,j)对应的是序列Q与S中的元素Qi和Si之间的基准距离,即(i,j)=Dbase(qi,sj),其中基准距离函数Dbase通常选用均方欧式距离。在此基础上,序列Q与S的元素之间距离之和的最小值的可以使用弯曲路径W={w1,w2,w3,…,wk,…,wL}进行表达,其中Max(m,n)≤L≤m+n-1;wk=(i,j)k。该路径的选择一般是采用动态规划方法从起点(1,1)出发到终点(m,n)的最小化累积距离路径,该路径一般被认为是最优的,其公式表述如下所示:
然而,经过研究发现DTW技术的时间复杂度为O(nm),与欧式距离相比计算花销巨大。不仅如此,若在相似性搜索技术中采用滑动窗口技术完成初始子序列的生成工作,那么对于一条长度为n的时间序列S来说,若查询序列Q的长度为m,则初始子序列规模为n-m+1。这样,可以计算用于完成查询序列匹配工作的计算量将会达到惊人的o(nm2)。因此,如何解决相似性分析中基础度量函数——DTW技术的高时间复杂度这一问题,已经成为了相似性度量研究中的重要部分。
大量的文献研究发现,目前最为有效的减少DTW技术计算开销的方法为——下界函数技术。
定义8:下界函数DLower_BF,定义Dis表示为对象空间Space中两条时间序列间的距离度量函数,若存在有对任意的时间序列Spacei,Spacej∈Space,且满足0≤DLower_BF(Spacei,Spacej)≤Dis(Spacei,Spacej),则将DLower_BF定义为距离度量函数Dis的下界函数。
下界函数技术的核心思想就是使用一种简单有效的函数完成对两条时间序列间DTW度量的粗略估计,并将估计结果中一定大于阀值的部分进行提前剔除,最终在完成DTW度量时只针对选入候选集中的较少部分序列进行度量计算,从而降低整个DTW度量中所需要的计算开销。
经过多次的计算发现,LB_Keogh方法是目前下界距离函数中比较先进的技术。在LB_Keogh方法中只是针对查询序列Q={q1,q2,q3,…,qm}进行下界函数的计算工作。而经过对比发现,若将查询序列与比对子序列Si,k进行角色互换,即对子序列Si,k使用LB_Keogh方法完成下界函数的计算在一般情况下其计算出来的下界函数是不一样的。因此,这种角色互换思想能够进一步的降低DTW技术的计算开销。
发明内容
为了能够更好的降低DTW技术的计算开销。本发明通过融合“角色互换”和“下界函数”这两种思想,提出了一种新的减少DTW技术度量计算的方法,如下:
若存在两条时间序列S={s1,s2,s3,…,sn}与Q={q1,q2,q3,…,qn},则定义新序列Q_Ui、Q_Li、S_Ui及S_Li如下:
Q_Ui=Max(qi-r,qi-r+1,qi-r+2,…,qi+r); (2)
Q_Li=Min(qi-r,qi-r+1,qi-r+2,…,qi+r); (3)
S_Ui=Max(si-r,si-r+1,si-r+2,…,si+r); (4)
S_Li=Min(si-r,si-r+1,si-r+2,…,si+r); (5)
Q_Ui为时间序列Q在以i点为中心以r为弯曲窗口的范围内的最大值组成的序列串
Q_Li为时间序列Q在以i点为中心以r为弯曲窗口的范围内的最小值组成的序列串
S_Ui为时间序列S在以i点为中心以r为弯曲窗口的范围内的最大值组成的序列串
S_Li为时间序列S在以i点为中心以r为弯曲窗口的范围内的最小值组成的序列串
同时有:
则有:
其中,ε为计算提前终止阈值,r为全局约束所定义的弯曲窗口,a、b为参与距离计算的数据点数量,i代表第i个数据点,1≤i≤n;
Acc_Dis(S,Q)取Acc的最小值,当Acc_Dis(S,Q)<0时,定义下界距离为无穷大;
上述定义的新的计算方法,其核心技术是融合下界函数技术及角色互换思想,同时在此基础上增加计算提前终止阈值ε,减少越界后的计算。
根据上述所提出的改进方法给出域内交通流量特定模式发现整体技术框架,如图1所示。
本发明提供的技术方案如下:
基于相似性搜索技术的域内交通流量模式发现方法,其特征是,包括如下步骤:
1)时间序列数据提取:
时间序列S,即S={s1,s2,s3,…,sn},序列长度为n;
查询序列(特定模式)Q,即Q={q1,q2,q3,…,qm},序列长度为m;
2)初设阈值ε;
3)标准化将序列Q标准化为
4)for i=1 to n-m+1
5)将子序列Si,k标准化为
6)计算
7)ifthen
8)计算
9)ifthen
10)计算
11)
12)如果小于Min则并记录Si,k;
13)else删除不相似子序列Si,k
14)else删除不相似子序列Si,k
15)end for
16)return R或最相似子序列Si,k。
本发明的有益效果:利用本发明提供的技术方案进行城市智能交通信息系统所提供的原始交通数据集特定模式的发现实验,基于改进DTW技术的搜索技术获得的域内交通流量特定模式与原查询序列间具有更好的相似关系,使用下界函数技术后DTW的实际计算率也大幅度下降。
附图说明
图1为本发明所诉域内交通流量特定模式发现方法的整体技术框架;
图2为原始交通数据不同采样频率下所生成的流量时变图对比;
图3为基于改进DTW搜索技术的特定模式发现结果;
图4为基于欧氏距离和基于改进DTW为搜索技术的特定模式发现结果对比。
具体实施方式
本发明提供的基于改进的相似性搜索技术的域内交通流量模式发现方法,步骤如下:
1)时间序列数据提取:
构造域内交通流量时间序列S={s1,s2,s3,…,sn},序列长度为n;
构造日交通流量查询序列(特定模式)Q={q1,q2,q3,…,qm},序列长度为m;
2)初设计算提前终止阈值ε;
ε是计算提前终止阈值,其作用体现在,当两个序列间的下界函数值大于ε时,则认为这两个序列不相似,不需要再进行相似性距离计算,从而减少了动态时间弯曲(DTW)技术的计算开销;
3)标准化序列Q;
序列标准化方法为:
设序列Q={q1,q2,q3,…,qm}的标准化序列为则:
其中,μ为序列Q={q1,q2,q3,…,qm}的均值,σ为序列Q={q1,q2,q3,…,qm}的标准差,1≤i≤m;
4)利用滑动窗口技术划分S的子序列Si,k,其中,1≤i≤n-m+1,m≤k≤n;
5)标准化Si,k;
子序列标准化方法为:
设子序列Si,k={si,si+1,si+2,…,sk}的标准化序列为则:
其中,μ为序列Si,k={si,si+1,si+2,…,sk}的均值,σ为序列Si,k={si,si+1,si+2,…,sk}的标准差,i,k的取值来自于滑动窗口技术;
6)利用LB_Kim下界技术预先排除明显的子序列;
计算LB_Kim下界距离判断是否成立,成立则跳到步骤4),不成立则跳到步骤7);
LB_Kim下界距离为:
若存在两条时间序列S={s1,s2,s3,…,sn}与Q={q1,q2,q3,…,qm},则
7)计算查询序列的标准化序列与子序列的标准化序列的下界函数
此处的下界函数为:
若存在两条时间序列S={s1,s2,s3,…,sn}与Q={q1,q2,q3,…,qn},则定义新序列Q_Ui、Q_Li、S_Ui及S_Li如下:
Q_Ui=Max(qi-r,qi-r+1,qi-r+2,…,qi+r);
Q_Li=Min(qi-r,qi-r+1,qi-r+2,…,qi+r);
S_Ui=Max(si-r,si-r+1,si-r+2,…,si+r);
S_Li=Min(si-r,si-r+1,si-r+2,…,si+r);
Q_Ui为时间序列Q在以i点为中心以r为弯曲窗口的范围内的最大值组成的序列串;
Q_Li为时间序列Q在以i点为中心以r为弯曲窗口的范围内的最小值组成的序列串;
S_Ui为时间序列S在以i点为中心以r为弯曲窗口的范围内的最大值组成的序列串;
S_Li为时间序列S在以i点为中心以r为弯曲窗口的范围内的最小值组成的序列串;同时有:
则有:
其中,ε为步骤2)中的计算提前终止阈值,r为全局约束所定义的弯曲窗口,a、b为参与距离计算的数据点数量,i代表第i个数据点,1≤i≤n;
Acc_Dis(S,Q)取Acc的最小值,当Acc_Dis(S,Q)<0时,定义下界距离为无穷大,则停止计算,认为该子序列与查询序列不相似;
以上新定义的下界函数可以使DTW的实际计算量大幅度下降;
8)判断是否成立,成立则跳到步骤12),否则跳到步骤9);
9)计算查询序列的标准化序列与子序列的标准化序列的动态时间弯曲(DTW)距离
10)将Si,k加入候选集R,
11)判断是否小于之前的历史最小值Min,若小于则将赋给Min,并记录Si,k,由此找出最佳相似子序列,返回步骤4);
12)如果则认为查询序列Q与子序列Si,k不相似,删除子序列Si,k,直接返回步骤4);
13)查询序列Q与所有可能子序列计算相似性之后返回候选集R和最相似子序列Si,k。
为了能够验证所提出的域内交通流量特定模式发现方法的有效性,本发明从城市智能交通信息系统所提供的原始交通数据集中,选取2012年11月1日至2012年11月30日的所有行车数据作为历史数据,选择2012年10月31日数据作为特定数据,进而完成整个特定模式的发现实验。
由于原始交通数据中所提供的均为单独车辆的行车记录,为此需要完成区域内部数据的单条数据整理为时变数据。其方法是,设定采样频率后,在数据库中以采样频率作为时间分段,完成每一个时间分段内的驶过车辆数量的统计工作,并记录于文本文件,然后使用相应的工具完成对统计数据的描述工作,这种使用曲线将整个交通流量在一定的采样频率下的数据变化表现出来,就绘制出了改采样频率下的交通流量时变图。其具体形式如图2所示,其中(a)为采样频率为1分钟时的时变图,(b)为采样频率为2分钟时的时变图,(c)为采样频率分别为3分钟、4分钟、5分钟、10分钟时的的时变图。
图2是由数据库中日期为“2012-11-01”的所有的车辆的行车记录依据不同的采样频率而生成出来的。由图2可以看出,不同的采样频率对于序列整体的抖动具有不同的表现,在采样频率为1分钟时,明显发现序列的抖动达到最高,这也从侧面反映出序列的平滑性差的问题,但是若采样频率过大,则会导致样本数据异常丢失等问题的产生。因此,本文经过多次比对,认为在采样频率为5分钟时,满足于后续的时间序列分析的要求,为此本发明将5分钟作为了流量时变图制作的采样频率。因此,在采样频率为5分钟时,整个历史数据集由8640点数据(60×24×30/5)组成,待查询特定序列由288点数据(60×24/5)组成。
在域内交通流量特定模式发现过程中,本发明选择了改进DTW这种相似性度量技术来作为整个搜索技术的核心,其具体结果如图3所示,上图为历史数据序列,16号起始点为匹配序列起点,下图为查询序列与匹配序列的具体展示。
为了考虑不同弯曲窗口约束对于匹配结果的影响,在实验中分别选取了尺寸大小为+/-5%、+/-10%、+/-15%、+/-20%、+/-25%四种不同的弯曲窗口约束进行验证,其具体结果如表1所示。
表1 基于改进DTW搜索技术的特定模式发现具体结果汇总表
从表1中,可以发现使用下界函数技术后DTW的实际计算率大幅度下降。这里需要注意的是,虽然动态窗口技术的使用能够降低DTW计算的开销,但是过小的动态窗口将会导致两序列间距离的增加。为此,在使用动态窗口技术时,需要在相似性度量计算精度与时间开销二者之间进行平衡考虑。
为了能够更好的将结果进行多方对比,本发明将原始查询序列、欧氏距离匹配序列以及改进DTW匹配序列绘制成一张图片,其具体结果如图4所示。
从图4中可以发现,基于改进DTW技术的搜索技术获得的域内交通流量特定模式与原查询序列间具有更好的相似关系。
当从历史数据集中完成特定模式发现工作以后,有关部门则可以对匹配得到的序列时间段进行研究,达到对该时间段内曾对城市道路安全造成重大危害的事件信息的收集与评估工作。通过信息的迁移完成当前特定模式状态的研判工作,以便能够预防对城市道路安全具有重大威胁性事件的再次发生。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。