CN113159128A

CN113159128A - 一种基于快速提取shapelets的分类算法判断交通事故的方法

Info

Publication number: CN113159128A
Application number: CN202110311321.3A
Authority: CN
Inventors: 赵聪; 高东怀; 宁玉文
Original assignee: Northwestern University
Current assignee: Northwestern University
Priority date: 2021-03-24
Filing date: 2021-03-24
Publication date: 2021-07-23
Anticipated expiration: 2041-03-24
Also published as: CN113159128B

Abstract

本发明提供了一种基于快速提取shapelets的分类算法判断交通事故的方法，将交通领域数据集中的训练集中的时间序列转换成ID序列通过相似性判断去除相似序列进行降重；从降重后的时间序列集T_new中选择堵塞相关的时间序列子序列获取shapelet候选集S_candidate；从shapelet候选集S_candidate中选取shapelet处理集S；为shapelet处理集S的属性配置文件；选取交通领域数据集中的时间序列，对时间序列与shapelet处理集S进行距离计算，结合得到的属性配置文件对时间序列进行判断。本发明能够快速提取shapelets候选集，并筛选出有最佳区分度的shapelets，再用其对时间序列数据进行分类，判断当前堵塞属于正常状况还是出现交通事故从而缓解交通问题，提高了训练速度的同时保证了算法的准确性，后期实验证明本方法的有效性。

Description

一种基于快速提取shapelets的分类算法判断交通事故的方法

技术领域

本发明属于城市交通数据分析领域，涉及时间序列分类，具体涉及一种基于快速提取shapelet的交通事故的判断方法。

背景技术

城市交通堵塞问题始终困扰着居民的日常生活，造成交通堵塞的情况有多种，路网的密度过低、红绿灯时间设置不合理以及交通事故造成的意外状况。所以如何判断当前堵塞问题属于哪种情况就有着重要的研究价值，我们可以把堵塞状况分为经常性拥堵和非经常性拥堵，如果是非经常性拥堵那么就判断是否发生了交通事故，从而提醒交通中心快速的做出响应；如果是经常性拥堵我们就需要考虑当前道路设计是否存在问题。交通事故是城市交通的一大问题，它不仅会导致交通拥堵，如果发生严重交通事故还会造成人员的伤亡，判断当前交通堵塞的原因就非常值得关注，得到的结果可以协助管理部门对其做出快速响应避免事态的进一步恶化。此外，还可以把此发明应用到无人驾驶领域，让无人驾驶系统可以对前方路况进行快速判断，从而避免交通堵塞。

现有的研究技术主要包括基于传统时间序列分类的算法和基于机器学习的方法。基于传统时间序列分类的算法不具备较强的解释性，并且很难在数据中进行有效的区分，不能及时的将不同的数据进行分类，时间复杂度较高，耗时长；基于机器学习的方法不具备解释性，而且机器学习模型一般被看作是黑匣子，所以就很难对部门的决策做出帮助，而且机器学习的鲁棒性较低，这些问题都需要我们进一步去解决。Shapelet完美的解决了这一问题，作为时间序列中最具区分性的子序列，具有区分度高，可解释性强的特点。

针对现有技术存在的不足，本发明的目的在于提供一种基于快速提取shapelet的交通事故的判断方法，解决现有技术中分类速度慢的技术问题。

为了解决上述技术问题，本发明采用如下技术方案予以实现：

步骤1，将交通领域数据集中的训练集的实数形式的时间序列集T＝{t₁,…,t_n}中的时间序列转换为ID序列，生成一个ID序列数据集；

所述的交通领域数据集中训练集包括畅通时间序列集T_P＝{T₁,T₂,…,T_v}、堵塞时发生事故时间序列集T_E＝{T₁,T₂,…,T_l}和堵塞时未发生事故时间序列集T_NE＝{T₁,T₂,…,T_m}；

其中：

t_n为交通领域数据集中的训练集第n个时间序列；

T_v为畅通时间序列集T_P中第v个畅通时间序列；

T_l为堵塞时发生事故时间序列集T_E中第l个堵塞时发生事故时间序列；

T_m为堵塞时未发生事故时间序列集T_NE中第m个堵塞时未发生事故时间序列；

步骤2，通过对ID序列数据集中的ID序列进行哈希处理去除相似序列，实现数据降重；

步骤3，从时间序列集T中提取经过步骤2处理后的ID序列数据集对应的降重后的时间序列集T_new，从降重后的时间序列集T_new中选择堵塞相关的时间序列子序列获取shapelet候选集S_candidate；

步骤4，从shapelet候选集S_candidate中选取shapelet处理集S，具体步骤为：

步骤4.1，从降重后的时间序列集T_new中任意选取第i个时间序列的shapelet即S_i和第j个时间序列的shapelet即S_j，计算S_i和S_j之间的距离dist(S_i,S_j)；

其中，1≤i＜j≤U,i≠j；

步骤4.2，通过欧氏距离计算得出shapelet候选集S^candidate中的每个候选shapelet和降重后的时间序列集T_new之间的距离阈值

选取τ_u中S_i对应的距离阈值τ_i和S_j对应的距离阈值τ_j；

当S_i和S_j满足dist(S_i,S_j)≤min(τ_i,τ_j)时，判定S_i和S_j相似并去除S_j；

其中：u∈{1,2,…,U}，U为shapelet候选集S^candidate中shapelet的个数；

步骤4.3，以信息增益作为质量标准从高到低给shapelet候选集S^candidate中剩余的shapelet进行质量排序，并选择信息增益值最大的k个shapelet作为shapelet处理集S；

步骤5，为shapelet处理集S的属性配置文件，所述的shapelet处理集S对应的属性配置文件为一个3元组SP_S＝<WP^S，WE^S，WNE^S>；

所述的WP^S为畅通时间序列的距离集，所述的畅通时间序列的距离集WP^S中包含有shapelet处理集S中的shapelet与交通领域的数据集的训练集中畅通时间序列集T_P＝{T₁,T₂,…,T_v}中时间序列的距离值subdist(S,T_v)；

所述的WE^S为堵塞时发生事故时间序列的距离集，所述的堵塞时发生事故时间序列的距离集WE^S中包含有shapelet处理集S与交通领域的数据集的训练集中堵塞时发生事故时间序列集T_E＝{T₁,T₂,…,T_l}中的时间序列的距离值subdist(S,T_l)；

所述的WNE^S为堵塞时未发生事故时间序列的距离集，所述的堵塞时未发生事故时间序列的距离集WNE^S中包含有shapelet处理集S与交通领域的数据集的训练集中堵塞时未发生事故时间序列集T_NE＝{T₁,T₂,…,T_m}中的时间序列的距离值subdist(S,T_m)；

所述的属性配置文件用于判断时间序列是否发生交通事故。

步骤6，选取交通领域数据集中的时间序列，对所述的时间序列与shapelet处理集S进行距离计算，结合步骤5中得到的属性配置文件对时间序列进行判断：

当时间序列与shapelet处理集S中shapelet的距离值处于畅通时间序列的距离集WP^S的距离值区间时，判断该时间序列为畅通时间序列；

当时间序列与shapelet处理集S中shapelet的距离值处于堵塞时发生事故时间序列的距离集WE^S的距离值区间时，判断该时间序列为堵塞时发生事故时间序列；

当时间序列与shapelet处理集S中shapelet的距离值处于堵塞未发生事故时间序列的距离集WNE^S的距离值区间时，判断该时间序列为堵塞未发生事故时间序列。

本发明还有如下技术特征：

所述的步骤2具体步骤如下：

步骤2.1，将不同长度的ID序列统一放大到最长ID序列长度的2倍；

步骤2.2，将步骤2.1放大后的ID序列随机选择3个ID序列作为区分ID进行哈希处理，构建区分哈希族；

步骤2.3，对ID序列中未作为区分ID的待计算的ID序列进行哈希处理，构建待计算哈希族；

步骤2.4，将待计算哈希族中的元素逐个与区分哈希族进行对比，只要与区分哈希族的哈希值有一次相同，就判定计算哈希族中的元素和区分哈希族中的ID序列相似，并将该元素对应的ID序列从ID序列数据集中移除，对比所有的待计算哈希族中的每个元素实现数据降重。

所述的与堵塞相关的时间序列子序列具体为：

堵塞发生前时间序列的子序列、堵塞发生时同时间段过去时间序列的子序列、堵塞开始后时间序列的子序列、堵塞开始到结束期间时间序列的子序列、堵塞结束时同时间段过去时间序列的子序列和堵塞结束后时间序列的子序列。

本发明与现有技术相比，具有如下技术效果：

(Ⅰ)本发明在时间序列数据预处理阶段，通过一种新的相似性度量方法对数据中的序列进行对比，去除掉大量相似的时间序列，起到数据降维作用，为后续实验提供帮助

(Ⅱ)本发明在shapelet处理集选择方面，通过引入重要特征区间提取出区分特征比较明显的子序列，快速的提取shapelet候选集，在实验的时间消耗上有了极大的缩减，有效地避免了生成无效的冗余shapelet，为后续的处理工作提供帮助；

(Ⅲ)本发明在判断依据方面，通过引入shapelet属性配置文件，对分类结果进一步优化，从而使得每个shapelet都具有很好的解释性，为判断结果的准确性提供有效依据。

附图说明

图1为本发明算法具体流程图。

图2为实施例1中欧式计算距离阈值分割图。

图3为实施例1中本发明算法与现有算法的时间对比示意图。

图4为实施例1中降重后的时间序列示意图，图4(a)为原始时间序列集T示意图，图4(b)为降重后的时间序列集T_new示意图。

图5为本发明算法与现有技术准确率对比示意图。

图6为实施例1中交通领域数据集中的训练集时间序列示意图，图6(a)为畅通时间序列集T_P示意图，图6(b)为堵塞时发生事故时间序列集T_E示意图，图6(c)堵塞时未发生事故时间序列集T_NE示意图。

图7为实施例1中属性配置文件中距离集示意图。

以下结合实施例对本发明的具体内容作进一步详细解释说明。

具体实施方式

所述的交通领域的数据集为交通领域中车流量的时间序列数据集。

所述的shapelet为时间序列中最具区分性的子序列，具有区分度高，可解释性强的特点。

以下给出本发明的具体实施例，需要说明的是本发明并不局限于以下具体实施例，凡在本申请技术方案基础上做的等同变换均落入本发明的保护范围。

实施例1：

本实施例给出一种基于快速提取shapelets的分类算法判断交通事故的方法，如图1所示，该方法包括如下步骤：

其中：

t_n为交通领域数据集中的训练集第n个时间序列；

T_v为畅通时间序列集T_P中第v个畅通时间序列；

在本实施例中，所述的交通领域数据集中训练集分类如表2所示，所述的畅通时间序列集如图6(a)所示，所述的堵塞时发生事故时间序列集如图6(b)所示，所述的堵塞时未发生事故时间序列集如图6(c)所示；

在本实施例中，将交通领域的数据集D中的时间序列T转换成字符串并进行z-标准化，然后再给标准化后的时间序列数据分配ID序列，即将实数形式的时间序列T转换成整数形式的ID序列，生成一个ID序列数据集；降低了时间序列数据的维度，从而降低所需存储空间；

将时间序列集T转换为ID序列数据集的为：

length＝((t_max-t_min)/BUCKET_SUM)*1.01

width＝(Length(T)/BUCKET_SUM))*1.01

ID＝{row_i×BUCKET_SUM+dow_i}(1≤i≤n)

其中：

BUCKET_SUM为交通数据集中类别数；

length为哈希族长度参数；

width为哈希族广度参数；

row为哈希族长度差值；

dow为哈希族广度差值；

t_min为时间序列集T中当前时间序列上的最小值；

t_max为时间序列集T中当前时间序列上的最大值；

Length(T)计算时间序列集T中当前时间序列T的长度，t_i∈T；

在本实施例中，如图4所示，图4(a)为原始时间序列集T，图4(b)为降重后的时间序列集T_new；

其中，1≤i＜j≤U,i≠j；

选取τ_u中S_i对应的距离阈值τ_i和S_j对应的距离阈值τ_j；

在本实施例中，降重后的时间序列集T_new中存在长度都是p的时间序列X和时间序列Y，计算两条时间序列X和Y之间的距离：

其中：1≤i≤p；

Shapelet距离计算的是时间序列Y的子序列Y_|z|和时间序列X之间的最小距离，即子序列距离：

subdist(X，Y)＝mindist(，Y_|z|)

其中，Y_|z|为时间序列Y中长度为|z|的子序列，subdist(X，Y)为时间序列X和时间序列Y之间的最小距离；

步骤4.3，以信息增益作为质量标准从高到低给shapelet候选集Scan^didate中剩余的shapelet进行质量排序，并选择信息增益值最大的k个shapelet作为shapelet处理集S；

在本实施例中，通过信息增益评估每个候选shapelet的质量；shapelet将交通领域的数据集D分割成两个不相交的子集，具体计算方式为：

shapelet是根据交通领域的数据集D的子序列s和距离阈值τ组成的一个元组(s，τ)，这个shapelet就可以将数据集D分割成两个不相交的子集，计算方式为：

D_left＝{t_i：T_new∈D，subdist(s，ti)≤τ}，

D_right＝{t_j：T_new∈D，subdist(s，t_j)＞τ}

T_new表示经过步骤2处理后的ID序列数据集对应的降重后的时间序列集，t表示为T_new中的数据点，1≤i，j≤p，i≠j；

如图2所示，Orderline为根据递增顺序记录shapelet和交通领域的数据集里时间序列间的距离；D_left为交通领域的数据集D中时间序列与shapelet的距离小于阈值的数据集，D_right为交通领域的数据集D中时间序列与shapelet的距离大于阈值的数据集；

信息增益计算为：

其中，E(D)是数据集D的信息熵，N代表数据集D中的时间序列数量，|D_left|＝N₁，|D_right|＝N₂；

所述的E(D)的计算方式为：

其中，n_i为交通领域的数据集中的第i个时间序列；

将候选shapelet集中的候选shapelet的信息增益值从高到低对候选shapelet进行排序，选择出信息增益值最高的k个候选shapelet，最后提取出前k个候选shapelet为shapelet处理集S。

所述的属性配置文件用于判断时间序列是否发生交通事故；

在本实施例中，如图7所示，所述的畅通时间序列的距离集WP^S的距离值区间为13.43～16.72；所述的堵塞时发生事故时间序列的距离集WE^S的距离值区间为17.45～19.5；所述的堵塞时未发生事故时间序列的距离集WNE^S的距离值区间为19.73～21.39；

当时间序列与shapelet处理集S中shapelet的距离值处于堵塞未发生事故时间序列的距离集WNE^S的距离值区间时，判断该时间序列为堵塞未发生事故时间序列；

在本实施例中，当时间序列与shapelet处理集S中shapelet的距离处于畅通时间序列的距离集WP^S的距离值区间13.43～16.72时，判断该时间序列为畅通时间序列；当时间序列与shapelet处理集S中shapelet的距离处于堵塞时发生事故时间序列的距离集WE^S的距离值区间17.45～19.5时，判断该时间序列为堵塞时发生事故时间序列；当时间序列与shapelet处理集S中shapelet的距离处于堵塞时未发生事故时间序列的距离集WNE^S的距离值区间19.73～21.39时，判断该时间序列为堵塞未发生事故时间序列。

作为本实施例的一种优选方案，所述的步骤2具体步骤如下：

作为本实施例的一种优选方案，所述的与堵塞相关的时间序列子序列具体为：

在本实施例中，使用事件检测检测率即DR，准确性(Accuracy)，错误警报率(FAR)和平均检测时间(MTTD)作为评估事件检测质量的标准，它们的定义如下：

·Accuracy即准确性，为所有实例数中正确分类实例数的比例；

·DR即事件检测检测率，为正确分类为事故的实例的比例；

·FAR即错误警报率，为错误地分类为事故的比例；

·MTTD即平均检测时间，为从事故发生到被算法检测到的时间差的平均值；

本实施例中交通领域的数据集为旧金山的I-880Freeway数据集，数据来源于美国加州Hayward的I-880高速路，该数据集包含交通事件数据集，用来验证本发明的方法是否可行，通过与K近邻算法(KNN)、随机森林(RF)、贝叶斯网络(BayesNet)和基于DTW的时间序列分类算法(DTW)进行10次实验比较，如图5所示为本发明算法与现有技术10次实验对比，选取实验结果的平均值进行比较，实验结果如表1所示和图3所示，证明本发明的算法t-ST在大多数评价标准的比较中优于其他算法，本发明算法使DR更好的同时降低了FAR和MTTD。

表1与现有算法比较表

	Accuracy	DR	FAR	MTTD
					RFs	92.37％	85.54％	2.673％	6.736
ST	92.35％	85.61％	2.702％	6.659
					BayesNet	89.08％	86.78％	6.893％	12.736
KNN	91.97％	84.01％	2.378％	7.582
					t-ST	92.78％	85.92％	2.472％	6.375

表2交通领域的数据集的训练集

名称	数据类别	特点
			畅通时间序列集	1	相对平稳具有规律
堵塞时发生事故时间序列集	2	不平稳，没有规律
			堵塞时未发生事故时间序列集	3	不平稳，但有规律

Claims

1.一种基于快速提取shapelets的分类算法判断交通事故的方法，其特征在于，该方法包括如下步骤：

步骤1，将交通领域数据集中的训练集的实数形式的时间序列集T＝{t₁，...，t_n}中的时间序列转换为ID序列，生成一个ID序列数据集；

所述的交通领域数据集中训练集包括畅通时间序列集T_P＝{T₁，T₂，...，T_v}、堵塞时发生事故时间序列集T_E＝{T₁，T₂，...，T_l}和堵塞时未发生事故时间序列集T_NE＝{T₁，T₂，...，T_m}；

其中：

t_n为交通领域数据集中的训练集第n个时间序列；

T_v为畅通时间序列集T_P中第v个畅通时间序列；

步骤4.1，从降重后的时间序列集T_new中任意选取第i个时间序列的shapelet即S_i和第j个时间序列的shapelet即S_j，计算S_i和S_j之间的距离dist(S_i，S_j)；

其中，1≤i＜j≤U，i≠j；

选取τ_u中S_i对应的距离阈值τ_i和S_j对应的距离阈值τ_j；

当S_i和S_j满足dist(S_i，S_j)≤min(τ_i，τ_j)时，判定S_i和S_j相似并去除S_j；

其中：u∈{1，2，....，U}，U为shapelet候选集S^candidate中shapelet的个数；

所述的WP^S为畅通时间序列的距离集，所述的畅通时间序列的距离集WP^S中包含有shapelet处理集S中的shapelet与交通领域的数据集的训练集中畅通时间序列集T_P＝{T₁，T₂，...，T_v}中时间序列的距离值subdist(S，T_v)；

所述的WE^S为堵塞时发生事故时间序列的距离集，所述的堵塞时发生事故时间序列的距离集WE^S中包含有shapelet处理集S与交通领域的数据集的训练集中堵塞时发生事故时间序列集T_E＝{T₁，T₂，...，T_l}中的时间序列的距离值subdist(S，T_l)；

所述的WNE^S为堵塞时未发生事故时间序列的距离集，所述的堵塞时未发生事故时间序列的距离集WNE^S中包含有shapelet处理集S与交通领域的数据集的训练集中堵塞时未发生事故时间序列集T_NE＝{T₁，T₂，...，T_m}中的时间序列的距离值subdist(S，T_m)；

所述的属性配置文件用于判断时间序列是否发生交通事故；

2.如权利要求1所述的基于快速提取shapelets的分类算法判断交通事故的方法，其特征在于，所述的步骤2具体步骤如下：

3.如权利要求1所述的基于快速提取shapelets的分类算法判断交通事故的方法，其特征在于，所述的与堵塞相关的时间序列子序列具体为：