CN113159128A - 一种基于快速提取shapelets的分类算法判断交通事故的方法 - Google Patents

一种基于快速提取shapelets的分类算法判断交通事故的方法 Download PDF

Info

Publication number
CN113159128A
CN113159128A CN202110311321.3A CN202110311321A CN113159128A CN 113159128 A CN113159128 A CN 113159128A CN 202110311321 A CN202110311321 A CN 202110311321A CN 113159128 A CN113159128 A CN 113159128A
Authority
CN
China
Prior art keywords
shape
sequence
time
time series
time sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110311321.3A
Other languages
English (en)
Other versions
CN113159128B (zh
Inventor
赵聪
高东怀
宁玉文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern University
Original Assignee
Northwestern University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern University filed Critical Northwestern University
Priority to CN202110311321.3A priority Critical patent/CN113159128B/zh
Publication of CN113159128A publication Critical patent/CN113159128A/zh
Application granted granted Critical
Publication of CN113159128B publication Critical patent/CN113159128B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Traffic Control Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种基于快速提取shapelets的分类算法判断交通事故的方法,将交通领域数据集中的训练集中的时间序列转换成ID序列通过相似性判断去除相似序列进行降重;从降重后的时间序列集Tnew中选择堵塞相关的时间序列子序列获取shapelet候选集Scandidate;从shapelet候选集Scandidate中选取shapelet处理集S;为shapelet处理集S的属性配置文件;选取交通领域数据集中的时间序列,对时间序列与shapelet处理集S进行距离计算,结合得到的属性配置文件对时间序列进行判断。本发明能够快速提取shapelets候选集,并筛选出有最佳区分度的shapelets,再用其对时间序列数据进行分类,判断当前堵塞属于正常状况还是出现交通事故从而缓解交通问题,提高了训练速度的同时保证了算法的准确性,后期实验证明本方法的有效性。

Description

一种基于快速提取shapelets的分类算法判断交通事故的 方法
技术领域
本发明属于城市交通数据分析领域,涉及时间序列分类,具体涉及一种基于快速提取shapelet的交通事故的判断方法。
背景技术
城市交通堵塞问题始终困扰着居民的日常生活,造成交通堵塞的情况有多种,路网的密度过低、红绿灯时间设置不合理以及交通事故造成的意外状况。所以如何判断当前堵塞问题属于哪种情况就有着重要的研究价值,我们可以把堵塞状况分为经常性拥堵和非经常性拥堵,如果是非经常性拥堵那么就判断是否发生了交通事故,从而提醒交通中心快速的做出响应;如果是经常性拥堵我们就需要考虑当前道路设计是否存在问题。交通事故是城市交通的一大问题,它不仅会导致交通拥堵,如果发生严重交通事故还会造成人员的伤亡,判断当前交通堵塞的原因就非常值得关注,得到的结果可以协助管理部门对其做出快速响应避免事态的进一步恶化。此外,还可以把此发明应用到无人驾驶领域,让无人驾驶系统可以对前方路况进行快速判断,从而避免交通堵塞。
现有的研究技术主要包括基于传统时间序列分类的算法和基于机器学习的方法。基于传统时间序列分类的算法不具备较强的解释性,并且很难在数据中进行有效的区分,不能及时的将不同的数据进行分类,时间复杂度较高,耗时长;基于机器学习的方法不具备解释性,而且机器学习模型一般被看作是黑匣子,所以就很难对部门的决策做出帮助,而且机器学习的鲁棒性较低,这些问题都需要我们进一步去解决。Shapelet完美的解决了这一问题,作为时间序列中最具区分性的子序列,具有区分度高,可解释性强的特点。
针对现有技术存在的不足,本发明的目的在于提供一种基于快速提取shapelet的交通事故的判断方法,解决现有技术中分类速度慢的技术问题。
为了解决上述技术问题,本发明采用如下技术方案予以实现:
步骤1,将交通领域数据集中的训练集的实数形式的时间序列集T={t1,…,tn}中的时间序列转换为ID序列,生成一个ID序列数据集;
所述的交通领域数据集中训练集包括畅通时间序列集TP={T1,T2,…,Tv}、堵塞时发生事故时间序列集TE={T1,T2,…,Tl}和堵塞时未发生事故时间序列集TNE={T1,T2,…,Tm};
其中:
tn为交通领域数据集中的训练集第n个时间序列;
Tv为畅通时间序列集TP中第v个畅通时间序列;
Tl为堵塞时发生事故时间序列集TE中第l个堵塞时发生事故时间序列;
Tm为堵塞时未发生事故时间序列集TNE中第m个堵塞时未发生事故时间序列;
步骤2,通过对ID序列数据集中的ID序列进行哈希处理去除相似序列,实现数据降重;
步骤3,从时间序列集T中提取经过步骤2处理后的ID序列数据集对应的降重后的时间序列集Tnew,从降重后的时间序列集Tnew中选择堵塞相关的时间序列子序列获取shapelet候选集Scandidate
步骤4,从shapelet候选集Scandidate中选取shapelet处理集S,具体步骤为:
步骤4.1,从降重后的时间序列集Tnew中任意选取第i个时间序列的shapelet即Si和第j个时间序列的shapelet即Sj,计算Si和Sj之间的距离dist(Si,Sj);
其中,1≤i<j≤U,i≠j;
步骤4.2,通过欧氏距离计算得出shapelet候选集Scandidate中的每个候选shapelet和降重后的时间序列集Tnew之间的距离阈值
Figure BDA0002989817120000031
选取τu中Si对应的距离阈值τi和Sj对应的距离阈值τj
当Si和Sj满足dist(Si,Sj)≤min(τij)时,判定Si和Sj相似并去除Sj
其中:u∈{1,2,…,U},U为shapelet候选集Scandidate中shapelet的个数;
步骤4.3,以信息增益作为质量标准从高到低给shapelet候选集Scandidate中剩余的shapelet进行质量排序,并选择信息增益值最大的k个shapelet作为shapelet处理集S;
步骤5,为shapelet处理集S的属性配置文件,所述的shapelet处理集S对应的属性配置文件为一个3元组SPS=<WPS,WES,WNES>;
所述的WPS为畅通时间序列的距离集,所述的畅通时间序列的距离集WPS中包含有shapelet处理集S中的shapelet与交通领域的数据集的训练集中畅通时间序列集TP={T1,T2,…,Tv}中时间序列的距离值subdist(S,Tv);
所述的WES为堵塞时发生事故时间序列的距离集,所述的堵塞时发生事故时间序列的距离集WES中包含有shapelet处理集S与交通领域的数据集的训练集中堵塞时发生事故时间序列集TE={T1,T2,…,Tl}中的时间序列的距离值subdist(S,Tl);
所述的WNES为堵塞时未发生事故时间序列的距离集,所述的堵塞时未发生事故时间序列的距离集WNES中包含有shapelet处理集S与交通领域的数据集的训练集中堵塞时未发生事故时间序列集TNE={T1,T2,…,Tm}中的时间序列的距离值subdist(S,Tm);
所述的属性配置文件用于判断时间序列是否发生交通事故。
步骤6,选取交通领域数据集中的时间序列,对所述的时间序列与shapelet处理集S进行距离计算,结合步骤5中得到的属性配置文件对时间序列进行判断:
当时间序列与shapelet处理集S中shapelet的距离值处于畅通时间序列的距离集WPS的距离值区间时,判断该时间序列为畅通时间序列;
当时间序列与shapelet处理集S中shapelet的距离值处于堵塞时发生事故时间序列的距离集WES的距离值区间时,判断该时间序列为堵塞时发生事故时间序列;
当时间序列与shapelet处理集S中shapelet的距离值处于堵塞未发生事故时间序列的距离集WNES的距离值区间时,判断该时间序列为堵塞未发生事故时间序列。
本发明还有如下技术特征:
所述的步骤2具体步骤如下:
步骤2.1,将不同长度的ID序列统一放大到最长ID序列长度的2倍;
步骤2.2,将步骤2.1放大后的ID序列随机选择3个ID序列作为区分ID进行哈希处理,构建区分哈希族;
步骤2.3,对ID序列中未作为区分ID的待计算的ID序列进行哈希处理,构建待计算哈希族;
步骤2.4,将待计算哈希族中的元素逐个与区分哈希族进行对比,只要与区分哈希族的哈希值有一次相同,就判定计算哈希族中的元素和区分哈希族中的ID序列相似,并将该元素对应的ID序列从ID序列数据集中移除,对比所有的待计算哈希族中的每个元素实现数据降重。
所述的与堵塞相关的时间序列子序列具体为:
堵塞发生前时间序列的子序列、堵塞发生时同时间段过去时间序列的子序列、堵塞开始后时间序列的子序列、堵塞开始到结束期间时间序列的子序列、堵塞结束时同时间段过去时间序列的子序列和堵塞结束后时间序列的子序列。
本发明与现有技术相比,具有如下技术效果:
(Ⅰ)本发明在时间序列数据预处理阶段,通过一种新的相似性度量方法对数据中的序列进行对比,去除掉大量相似的时间序列,起到数据降维作用,为后续实验提供帮助
(Ⅱ)本发明在shapelet处理集选择方面,通过引入重要特征区间提取出区分特征比较明显的子序列,快速的提取shapelet候选集,在实验的时间消耗上有了极大的缩减,有效地避免了生成无效的冗余shapelet,为后续的处理工作提供帮助;
(Ⅲ)本发明在判断依据方面,通过引入shapelet属性配置文件,对分类结果进一步优化,从而使得每个shapelet都具有很好的解释性,为判断结果的准确性提供有效依据。
附图说明
图1为本发明算法具体流程图。
图2为实施例1中欧式计算距离阈值分割图。
图3为实施例1中本发明算法与现有算法的时间对比示意图。
图4为实施例1中降重后的时间序列示意图,图4(a)为原始时间序列集T示意图,图4(b)为降重后的时间序列集Tnew示意图。
图5为本发明算法与现有技术准确率对比示意图。
图6为实施例1中交通领域数据集中的训练集时间序列示意图,图6(a)为畅通时间序列集TP示意图,图6(b)为堵塞时发生事故时间序列集TE示意图,图6(c)堵塞时未发生事故时间序列集TNE示意图。
图7为实施例1中属性配置文件中距离集示意图。
以下结合实施例对本发明的具体内容作进一步详细解释说明。
具体实施方式
所述的交通领域的数据集为交通领域中车流量的时间序列数据集。
所述的shapelet为时间序列中最具区分性的子序列,具有区分度高,可解释性强的特点。
以下给出本发明的具体实施例,需要说明的是本发明并不局限于以下具体实施例,凡在本申请技术方案基础上做的等同变换均落入本发明的保护范围。
实施例1:
本实施例给出一种基于快速提取shapelets的分类算法判断交通事故的方法,如图1所示,该方法包括如下步骤:
步骤1,将交通领域数据集中的训练集的实数形式的时间序列集T={t1,…,tn}中的时间序列转换为ID序列,生成一个ID序列数据集;
所述的交通领域数据集中训练集包括畅通时间序列集TP={T1,T2,…,Tv}、堵塞时发生事故时间序列集TE={T1,T2,…,Tl}和堵塞时未发生事故时间序列集TNE={T1,T2,…,Tm};
其中:
tn为交通领域数据集中的训练集第n个时间序列;
Tv为畅通时间序列集TP中第v个畅通时间序列;
Tl为堵塞时发生事故时间序列集TE中第l个堵塞时发生事故时间序列;
Tm为堵塞时未发生事故时间序列集TNE中第m个堵塞时未发生事故时间序列;
在本实施例中,所述的交通领域数据集中训练集分类如表2所示,所述的畅通时间序列集如图6(a)所示,所述的堵塞时发生事故时间序列集如图6(b)所示,所述的堵塞时未发生事故时间序列集如图6(c)所示;
在本实施例中,将交通领域的数据集D中的时间序列T转换成字符串并进行z-标准化,然后再给标准化后的时间序列数据分配ID序列,即将实数形式的时间序列T转换成整数形式的ID序列,生成一个ID序列数据集;降低了时间序列数据的维度,从而降低所需存储空间;
将时间序列集T转换为ID序列数据集的为:
length=((tmax-tmin)/BUCKET_SUM)*1.01
width=(Length(T)/BUCKET_SUM))*1.01
Figure BDA0002989817120000071
Figure BDA0002989817120000072
ID={rowi×BUCKET_SUM+dowi}(1≤i≤n)
其中:
BUCKET_SUM为交通数据集中类别数;
length为哈希族长度参数;
width为哈希族广度参数;
row为哈希族长度差值;
dow为哈希族广度差值;
tmin为时间序列集T中当前时间序列上的最小值;
tmax为时间序列集T中当前时间序列上的最大值;
Length(T)计算时间序列集T中当前时间序列T的长度,ti∈T;
步骤2,通过对ID序列数据集中的ID序列进行哈希处理去除相似序列,实现数据降重;
步骤3,从时间序列集T中提取经过步骤2处理后的ID序列数据集对应的降重后的时间序列集Tnew,从降重后的时间序列集Tnew中选择堵塞相关的时间序列子序列获取shapelet候选集Scandidate
在本实施例中,如图4所示,图4(a)为原始时间序列集T,图4(b)为降重后的时间序列集Tnew
步骤4,从shapelet候选集Scandidate中选取shapelet处理集S,具体步骤为:
步骤4.1,从降重后的时间序列集Tnew中任意选取第i个时间序列的shapelet即Si和第j个时间序列的shapelet即Sj,计算Si和Sj之间的距离dist(Si,Sj);
其中,1≤i<j≤U,i≠j;
步骤4.2,通过欧氏距离计算得出shapelet候选集Scandidate中的每个候选shapelet和降重后的时间序列集Tnew之间的距离阈值
Figure BDA0002989817120000081
选取τu中Si对应的距离阈值τi和Sj对应的距离阈值τj
当Si和Sj满足dist(Si,Sj)≤min(τij)时,判定Si和Sj相似并去除Sj
其中:u∈{1,2,…,U},U为shapelet候选集Scandidate中shapelet的个数;
在本实施例中,降重后的时间序列集Tnew中存在长度都是p的时间序列X和时间序列Y,计算两条时间序列X和Y之间的距离:
Figure BDA0002989817120000091
其中:1≤i≤p;
Shapelet距离计算的是时间序列Y的子序列Y|z|和时间序列X之间的最小距离,即子序列距离:
subdist(X,Y)=mindist(,Y|z|)
其中,Y|z|为时间序列Y中长度为|z|的子序列,subdist(X,Y)为时间序列X和时间序列Y之间的最小距离;
步骤4.3,以信息增益作为质量标准从高到低给shapelet候选集Scandidate中剩余的shapelet进行质量排序,并选择信息增益值最大的k个shapelet作为shapelet处理集S;
在本实施例中,通过信息增益评估每个候选shapelet的质量;shapelet将交通领域的数据集D分割成两个不相交的子集,具体计算方式为:
shapelet是根据交通领域的数据集D的子序列s和距离阈值τ组成的一个元组(s,τ),这个shapelet就可以将数据集D分割成两个不相交的子集,计算方式为:
Dleft={ti:Tnew∈D,subdist(s,ti)≤τ},
Dright={tj:Tnew∈D,subdist(s,tj)>τ}
Tnew表示经过步骤2处理后的ID序列数据集对应的降重后的时间序列集,t表示为Tnew中的数据点,1≤i,j≤p,i≠j;
如图2所示,Orderline为根据递增顺序记录shapelet和交通领域的数据集里时间序列间的距离;Dleft为交通领域的数据集D中时间序列与shapelet的距离小于阈值的数据集,Dright为交通领域的数据集D中时间序列与shapelet的距离大于阈值的数据集;
信息增益计算为:
Figure BDA0002989817120000101
其中,E(D)是数据集D的信息熵,N代表数据集D中的时间序列数量,|Dleft|=N1,|Dright|=N2
所述的E(D)的计算方式为:
Figure BDA0002989817120000102
其中,ni为交通领域的数据集中的第i个时间序列;
将候选shapelet集中的候选shapelet的信息增益值从高到低对候选shapelet进行排序,选择出信息增益值最高的k个候选shapelet,最后提取出前k个候选shapelet为shapelet处理集S。
步骤5,为shapelet处理集S的属性配置文件,所述的shapelet处理集S对应的属性配置文件为一个3元组SPS=<WPS,WES,WNES>;
所述的WPS为畅通时间序列的距离集,所述的畅通时间序列的距离集WPS中包含有shapelet处理集S中的shapelet与交通领域的数据集的训练集中畅通时间序列集TP={T1,T2,…,Tv}中时间序列的距离值subdist(S,Tv);
所述的WES为堵塞时发生事故时间序列的距离集,所述的堵塞时发生事故时间序列的距离集WES中包含有shapelet处理集S与交通领域的数据集的训练集中堵塞时发生事故时间序列集TE={T1,T2,…,Tl}中的时间序列的距离值subdist(S,Tl);
所述的WNES为堵塞时未发生事故时间序列的距离集,所述的堵塞时未发生事故时间序列的距离集WNES中包含有shapelet处理集S与交通领域的数据集的训练集中堵塞时未发生事故时间序列集TNE={T1,T2,…,Tm}中的时间序列的距离值subdist(S,Tm);
所述的属性配置文件用于判断时间序列是否发生交通事故;
在本实施例中,如图7所示,所述的畅通时间序列的距离集WPS的距离值区间为13.43~16.72;所述的堵塞时发生事故时间序列的距离集WES的距离值区间为17.45~19.5;所述的堵塞时未发生事故时间序列的距离集WNES的距离值区间为19.73~21.39;
步骤6,选取交通领域数据集中的时间序列,对所述的时间序列与shapelet处理集S进行距离计算,结合步骤5中得到的属性配置文件对时间序列进行判断:
当时间序列与shapelet处理集S中shapelet的距离值处于畅通时间序列的距离集WPS的距离值区间时,判断该时间序列为畅通时间序列;
当时间序列与shapelet处理集S中shapelet的距离值处于堵塞时发生事故时间序列的距离集WES的距离值区间时,判断该时间序列为堵塞时发生事故时间序列;
当时间序列与shapelet处理集S中shapelet的距离值处于堵塞未发生事故时间序列的距离集WNES的距离值区间时,判断该时间序列为堵塞未发生事故时间序列;
在本实施例中,当时间序列与shapelet处理集S中shapelet的距离处于畅通时间序列的距离集WPS的距离值区间13.43~16.72时,判断该时间序列为畅通时间序列;当时间序列与shapelet处理集S中shapelet的距离处于堵塞时发生事故时间序列的距离集WES的距离值区间17.45~19.5时,判断该时间序列为堵塞时发生事故时间序列;当时间序列与shapelet处理集S中shapelet的距离处于堵塞时未发生事故时间序列的距离集WNES的距离值区间19.73~21.39时,判断该时间序列为堵塞未发生事故时间序列。
作为本实施例的一种优选方案,所述的步骤2具体步骤如下:
步骤2.1,将不同长度的ID序列统一放大到最长ID序列长度的2倍;
步骤2.2,将步骤2.1放大后的ID序列随机选择3个ID序列作为区分ID进行哈希处理,构建区分哈希族;
步骤2.3,对ID序列中未作为区分ID的待计算的ID序列进行哈希处理,构建待计算哈希族;
步骤2.4,将待计算哈希族中的元素逐个与区分哈希族进行对比,只要与区分哈希族的哈希值有一次相同,就判定计算哈希族中的元素和区分哈希族中的ID序列相似,并将该元素对应的ID序列从ID序列数据集中移除,对比所有的待计算哈希族中的每个元素实现数据降重。
作为本实施例的一种优选方案,所述的与堵塞相关的时间序列子序列具体为:
堵塞发生前时间序列的子序列、堵塞发生时同时间段过去时间序列的子序列、堵塞开始后时间序列的子序列、堵塞开始到结束期间时间序列的子序列、堵塞结束时同时间段过去时间序列的子序列和堵塞结束后时间序列的子序列。
在本实施例中,使用事件检测检测率即DR,准确性(Accuracy),错误警报率(FAR)和平均检测时间(MTTD)作为评估事件检测质量的标准,它们的定义如下:
·Accuracy即准确性,为所有实例数中正确分类实例数的比例;
·DR即事件检测检测率,为正确分类为事故的实例的比例;
·FAR即错误警报率,为错误地分类为事故的比例;
·MTTD即平均检测时间,为从事故发生到被算法检测到的时间差的平均值;
本实施例中交通领域的数据集为旧金山的I-880Freeway数据集,数据来源于美国加州Hayward的I-880高速路,该数据集包含交通事件数据集,用来验证本发明的方法是否可行,通过与K近邻算法(KNN)、随机森林(RF)、贝叶斯网络(BayesNet)和基于DTW的时间序列分类算法(DTW)进行10次实验比较,如图5所示为本发明算法与现有技术10次实验对比,选取实验结果的平均值进行比较,实验结果如表1所示和图3所示,证明本发明的算法t-ST在大多数评价标准的比较中优于其他算法,本发明算法使DR更好的同时降低了FAR和MTTD。
表1与现有算法比较表
Accuracy DR FAR MTTD
RFs 92.37% 85.54% 2.673% 6.736
ST 92.35% 85.61% 2.702% 6.659
BayesNet 89.08% 86.78% 6.893% 12.736
KNN 91.97% 84.01% 2.378% 7.582
t-ST 92.78% 85.92% 2.472% 6.375
表2交通领域的数据集的训练集
名称 数据类别 特点
畅通时间序列集 1 相对平稳具有规律
堵塞时发生事故时间序列集 2 不平稳,没有规律
堵塞时未发生事故时间序列集 3 不平稳,但有规律

Claims (3)

1.一种基于快速提取shapelets的分类算法判断交通事故的方法,其特征在于,该方法包括如下步骤:
步骤1,将交通领域数据集中的训练集的实数形式的时间序列集T={t1,...,tn}中的时间序列转换为ID序列,生成一个ID序列数据集;
所述的交通领域数据集中训练集包括畅通时间序列集TP={T1,T2,...,Tv}、堵塞时发生事故时间序列集TE={T1,T2,...,Tl}和堵塞时未发生事故时间序列集TNE={T1,T2,...,Tm};
其中:
tn为交通领域数据集中的训练集第n个时间序列;
Tv为畅通时间序列集TP中第v个畅通时间序列;
Tl为堵塞时发生事故时间序列集TE中第l个堵塞时发生事故时间序列;
Tm为堵塞时未发生事故时间序列集TNE中第m个堵塞时未发生事故时间序列;
步骤2,通过对ID序列数据集中的ID序列进行哈希处理去除相似序列,实现数据降重;
步骤3,从时间序列集T中提取经过步骤2处理后的ID序列数据集对应的降重后的时间序列集Tnew,从降重后的时间序列集Tnew中选择堵塞相关的时间序列子序列获取shapelet候选集Scandidate
步骤4,从shapelet候选集Scandidate中选取shapelet处理集S,具体步骤为:
步骤4.1,从降重后的时间序列集Tnew中任意选取第i个时间序列的shapelet即Si和第j个时间序列的shapelet即Sj,计算Si和Sj之间的距离dist(Si,Sj);
其中,1≤i<j≤U,i≠j;
步骤4.2,通过欧氏距离计算得出shapelet候选集Scandidate中的每个候选shapelet和降重后的时间序列集Tnew之间的距离阈值
Figure FDA0002989817110000021
选取τu中Si对应的距离阈值τi和Sj对应的距离阈值τj
当Si和Sj满足dist(Si,Sj)≤min(τi,τj)时,判定Si和Sj相似并去除Sj
其中:u∈{1,2,....,U},U为shapelet候选集Scandidate中shapelet的个数;
步骤4.3,以信息增益作为质量标准从高到低给shapelet候选集Scandidate中剩余的shapelet进行质量排序,并选择信息增益值最大的k个shapelet作为shapelet处理集S;
步骤5,为shapelet处理集S的属性配置文件,所述的shapelet处理集S对应的属性配置文件为一个3元组SPS=<WPS,WES,WNES>;
所述的WPS为畅通时间序列的距离集,所述的畅通时间序列的距离集WPS中包含有shapelet处理集S中的shapelet与交通领域的数据集的训练集中畅通时间序列集TP={T1,T2,...,Tv}中时间序列的距离值subdist(S,Tv);
所述的WES为堵塞时发生事故时间序列的距离集,所述的堵塞时发生事故时间序列的距离集WES中包含有shapelet处理集S与交通领域的数据集的训练集中堵塞时发生事故时间序列集TE={T1,T2,...,Tl}中的时间序列的距离值subdist(S,Tl);
所述的WNES为堵塞时未发生事故时间序列的距离集,所述的堵塞时未发生事故时间序列的距离集WNES中包含有shapelet处理集S与交通领域的数据集的训练集中堵塞时未发生事故时间序列集TNE={T1,T2,...,Tm}中的时间序列的距离值subdist(S,Tm);
所述的属性配置文件用于判断时间序列是否发生交通事故;
步骤6,选取交通领域数据集中的时间序列,对所述的时间序列与shapelet处理集S进行距离计算,结合步骤5中得到的属性配置文件对时间序列进行判断:
当时间序列与shapelet处理集S中shapelet的距离值处于畅通时间序列的距离集WPS的距离值区间时,判断该时间序列为畅通时间序列;
当时间序列与shapelet处理集S中shapelet的距离值处于堵塞时发生事故时间序列的距离集WES的距离值区间时,判断该时间序列为堵塞时发生事故时间序列;
当时间序列与shapelet处理集S中shapelet的距离值处于堵塞未发生事故时间序列的距离集WNES的距离值区间时,判断该时间序列为堵塞未发生事故时间序列。
2.如权利要求1所述的基于快速提取shapelets的分类算法判断交通事故的方法,其特征在于,所述的步骤2具体步骤如下:
步骤2.1,将不同长度的ID序列统一放大到最长ID序列长度的2倍;
步骤2.2,将步骤2.1放大后的ID序列随机选择3个ID序列作为区分ID进行哈希处理,构建区分哈希族;
步骤2.3,对ID序列中未作为区分ID的待计算的ID序列进行哈希处理,构建待计算哈希族;
步骤2.4,将待计算哈希族中的元素逐个与区分哈希族进行对比,只要与区分哈希族的哈希值有一次相同,就判定计算哈希族中的元素和区分哈希族中的ID序列相似,并将该元素对应的ID序列从ID序列数据集中移除,对比所有的待计算哈希族中的每个元素实现数据降重。
3.如权利要求1所述的基于快速提取shapelets的分类算法判断交通事故的方法,其特征在于,所述的与堵塞相关的时间序列子序列具体为:
堵塞发生前时间序列的子序列、堵塞发生时同时间段过去时间序列的子序列、堵塞开始后时间序列的子序列、堵塞开始到结束期间时间序列的子序列、堵塞结束时同时间段过去时间序列的子序列和堵塞结束后时间序列的子序列。
CN202110311321.3A 2021-03-24 2021-03-24 一种基于快速提取shapelets的分类算法判断交通事故的方法 Active CN113159128B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110311321.3A CN113159128B (zh) 2021-03-24 2021-03-24 一种基于快速提取shapelets的分类算法判断交通事故的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110311321.3A CN113159128B (zh) 2021-03-24 2021-03-24 一种基于快速提取shapelets的分类算法判断交通事故的方法

Publications (2)

Publication Number Publication Date
CN113159128A true CN113159128A (zh) 2021-07-23
CN113159128B CN113159128B (zh) 2023-03-31

Family

ID=76888419

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110311321.3A Active CN113159128B (zh) 2021-03-24 2021-03-24 一种基于快速提取shapelets的分类算法判断交通事故的方法

Country Status (1)

Country Link
CN (1) CN113159128B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115829755A (zh) * 2023-02-07 2023-03-21 支付宝(杭州)信息技术有限公司 交易风险的预测结果的解释方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190012547A1 (en) * 2016-01-12 2019-01-10 Hitachi Kokusai Electric Inc. Congestion-state-monitoring system
CN110019421A (zh) * 2018-07-27 2019-07-16 山东大学 一种基于数据特征片段的时间序列数据分类方法
CN112330158A (zh) * 2020-11-06 2021-02-05 北京建筑大学 基于自回归差分移动平均-卷积神经网络的识别交通指数时间序列的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190012547A1 (en) * 2016-01-12 2019-01-10 Hitachi Kokusai Electric Inc. Congestion-state-monitoring system
CN110019421A (zh) * 2018-07-27 2019-07-16 山东大学 一种基于数据特征片段的时间序列数据分类方法
CN112330158A (zh) * 2020-11-06 2021-02-05 北京建筑大学 基于自回归差分移动平均-卷积神经网络的识别交通指数时间序列的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
AHMED A ET AL: "《Framework for traffic event detection using Shapelet Transform》", 《SCIENCEDIRECT》 *
付熊: "《基于机器视觉的交通拥堵及运动目标检测》", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115829755A (zh) * 2023-02-07 2023-03-21 支付宝(杭州)信息技术有限公司 交易风险的预测结果的解释方法和装置

Also Published As

Publication number Publication date
CN113159128B (zh) 2023-03-31

Similar Documents

Publication Publication Date Title
DE60315506T2 (de) Identifizierung von kritischen merkmalen in einem geordneten skala-raum
US5862259A (en) Pattern recognition employing arbitrary segmentation and compound probabilistic evaluation
CN113505826B (zh) 基于联合特征选择的网络流量异常检测方法
CN113159128B (zh) 一种基于快速提取shapelets的分类算法判断交通事故的方法
CN113378990A (zh) 基于深度学习的流量数据异常检测方法
CN111104398A (zh) 针对智能船舶近似重复记录的检测方法、消除方法
CN112069307B (zh) 一种法律法条引用信息抽取系统
Srihari et al. Biometric and forensic aspects of digital document processing
Yuan et al. Intrusion detection model based on improved support vector machine
CN113569920B (zh) 基于自动编码的第二近邻异常检测方法
CN113468538A (zh) 一种基于相似性度量的漏洞攻击数据库构建方法
Wang et al. A study on the document zone content classification problem
CN112561175A (zh) 交通事故影响因子预测方法、装置、设备及存储介质
CN108460119B (zh) 一种使用机器学习提升技术支持效率的系统
CN116778460A (zh) 一种基于图像识别的疲劳驾驶识别方法
CN114170796B (zh) 算法改进型拥堵传播分析方法
CN115361224A (zh) 基于强扰动检测与模型再训练的深度强化学习交通信号控制中毒防御方法
CN115842645A (zh) 基于umap-rf的网络攻击流量检测方法、装置及可读存储介质
CN111833174A (zh) 一种基于lof算法的互联网金融申请反欺诈识别方法
CN113609480A (zh) 基于大规模网络流的多路学习入侵检测方法
Apte et al. Decomposition of heterogeneous classification problems
CN113380032B (zh) 一种基于层次聚类法的高速公路拥堵判断方法及装置
Guermazi et al. Combining classifiers for web violent content detection and filtering
CN113094703B (zh) 针对web入侵检测的输出内容过滤方法及系统
JPH0749926A (ja) 文字認識装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant