CN110275911B

CN110275911B - 基于频繁序列模式的私家车出行热点路径挖掘方法

Info

Publication number: CN110275911B
Application number: CN201910551080.2A
Authority: CN
Inventors: 郑林江; 吕俊超; 孙棣华; 赵敏
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2019-06-24
Filing date: 2019-06-24
Publication date: 2023-05-23
Anticipated expiration: 2039-06-24
Also published as: CN110275911A

Abstract

本发明公开了一种基于频繁序列模式的私家车出行热点路径挖掘方法，包括以下步骤：步骤S1：将私家车出行链序列化；步骤S2：在PrefixSpan算法的基础上，定义了RFID阅读器后继集合来加快数据挖掘；步骤S3：结合由经过相邻两个阅读器的时间阈值和时间戳泛化的值共同确定到达后继RFID阅读器的时间范围；步骤S4：基于频繁序列模式，将步骤S1得到的出行链的序列数据库作为PSSS算法的输入部分，进行热点路径的挖掘。本发明利用ERI数据作为热点路径挖掘的基础数据，将基于ERI数据的私家车出行链进行序列化，作为PSSS算法的输入维度，在确保信息完整的同时降低了分析处理的难度，提高了算法效率。

Description

基于频繁序列模式的私家车出行热点路径挖掘方法

技术领域

本发明涉及交通技术领域，特别涉及一种基于频繁序列模式的私家车出行热点路径挖掘方法。

背景技术

我国已经进入了汽车时代，机动车保有量持续增长，私家车保有量增长迅速。公安部统计数据指出，截至2018年底，我国私家车保有量达1.89亿辆，占机动车总保有量的57.8％。交通拥堵、尾气污染、交通混乱等问题也随之而来，已成为当前社会的主要难题。共乘模式是居民通过共享车辆一起出行的交通方式，利用共乘模式，可以提高车辆的入座率，减少车流量，缓解交通拥堵、减少尾气排放量。其中，共乘需求的发现是利用共乘模式的基础。而热点路径是指在一段时间范围内有大量移动对象经过的路径，其体现了城市中交通流的情况。热点路径的存在说明了在某段时间内人们的出行具有很强的相似性，故他们可以选择进行共乘出行，即存在共乘需求。因此通过挖掘出行热点路径来发现城市中的共乘需求对共乘模式极为重要。

当前热点路径的挖掘方法主要有三类：①移动对象聚类。通过发现一起运动的对象，将它们的轨迹定义为热点路径。根据对象聚类模式的不同分为Convey、Flock、Swarm和Gathering等；②轨迹聚类。根据轨迹进行聚类发现相似的子轨迹，将其定义为热点路径。针对数据的特点定义相似度，从而进行聚类操作挖掘出相应的热点路径；③路径的连通性分析。通过合并连通的高流量路径来获得热点路径。但这些方法大部分是针对GPS数据进行讨论的，GPS数据主要来自于出租车，不涵盖城市中的全部车辆的轨迹数据，特别是私家车的出行轨迹数据。在当前私家车数量日益增长的时代，这样的热点路径不能全面反映城市居民的出行特征。汽车电子标识(electronic registration identification of the motorvehicle，简称ERI)数据是一种基于RFID技术的新型智能交通系统采集的数据，RFID技术在交通流域的优势体现在车辆识别技术快、车辆识别不受天气条件影响、车辆识别信息全面等方面，故ERI数据全面且精确。所以ERI数据相对于其它交通流数据更适合作为热点路径挖掘的基础数据。

发明内容

有鉴于此，本发明的目的是提供一种基于汽车电子标识数据以及频繁序列模式的私家车出行热点路径挖掘方法，能够对基于ERI数据的出行链进行建模，将其序列化，从而构成轨迹的序列数据库。基于频繁序列模式挖掘的思想对序列数据库进行极大频繁序列的挖掘，从而得到私家车出行热点路径。

本发明的目的是通过以下技术方案实现的：

基于频繁序列模式的私家车出行热点路径挖掘方法，包括以下步骤：

步骤S1：将私家车出行链序列化，序列化包括时间戳泛化和记录序列化；

步骤S2：在PrefixSpan算法的基础上，定义了RFID阅读器后继集合来加快数据挖掘，所述阅读器后继集合指通过该阅读器后可能通过的阅读器所构成的集合，在此基础上提出进行热点路径挖掘时不需要每次搜索投影数据库中的序列的首项，而是直接取后继集合中的项；

步骤S3：结合由经过相邻两个阅读器的时间阈值和时间戳泛化的值共同确定的到达后继RFID阅读器的时间范围，若后继集合中的高频阅读器的所有时间段构成的项在投影数据库中都不满足频度要求，则不讨论集合中的低频阅读器；

步骤S4：基于频繁序列模式，将步骤S1得到的出行链的序列数据库作为PSSS算法的输入部分，进行热点路径的挖掘。此处需要的热点路径是连续的且在满足阈值的情况下最长的，即极大频繁序列。

特别地，所述步骤S1中，时间戳泛化是将将一个具体的时间戳yyyy-MM-dd HH:mm根据某一泛化值α泛化成时间段

若/>

则向小时部分进1，转化为/>

特别地，所述步骤S1中，记录序列化是针对记录R＝(eid,rid,pastime)，R·eid表示机动车的唯一电子标识，R·rid表示RFID阅读器的唯一标识，R·passtime表示该机动车通过这个RFID阅读器的时间，将R·passtime根据某个时间阈值进行时间戳泛化，将泛化后的时间戳与R·rid构成字符串，形如

经过序列化后的记录仍然承载着车辆何时通过某个RFID阅读器的信息，即/>

部分和Node(R·rid)部分。

特别地，所述步骤S2中，采用以下方式获得阅读器后继集合：有了所有轨迹链后，将阅读器a在轨迹中相邻的后一个阅读器z作为该阅读器的候选后继，从而构成a的候选后继集合Suc′_a。然后根据以下公式计算该阅读器a的候选后继z的频次Fre_az：

其中，Count_az是通过历史数据统计得到的从阅读器a直接到达阅读器z的次数，而

是从阅读器a直接到其所有候选后继次数的总和。然后根据频次Fre从高到低对候选后继集合中的后继进行排序，对排序后的集合根据以下公式计算各个候选后继的累积频次，去除累积频次大于90％的候选后继从而构成后继集合Suc_a。

CFre_az＝∑Fre_ai

其中，Fre_ai是排序后的候选后继集合中排在z前面的候选阅读器的频次。

另一方面，本发明还提供了一种电子设备，包括：处理器、存储器和总线，其中，

所述处理器和所述存储器通过所述总线完成相互间的通信；

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如前所述的方法。

第三方面，本发明还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如前所述的方法。

本发明的有益效果是：

本发明利用ERI数据作为热点路径挖掘的基础数据，可以更好的反映城市居民的出行特征，并且将基于ERI数据的私家车出行链进行序列化，作为PSSS算法的输入维度，在确保信息完整的同时极大的降低了分析处理的难度，提高了算法效率；还通过提出“后继集合策略”和“高频策略”，在现有常规方法的基础上改变了思路，进一步提升了算法效率。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书和权利要求书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步的详细描述，其中：

图1为本发明的流程图；

图2为PSSS算法流程图；

图3为procedure get_frequent_squence过程流程图；

图4为生成next的过程。

具体实施方式

以下将参照附图，对本发明的优选实施例进行详细的描述。应当理解，优选实施例仅为了说明本发明，而不是为了限制本发明的保护范围。

如图1所示本发明提供的一种基于频繁序列模式的私家车出行热点路径挖掘方法，包括

步骤S1：私家车出行链序列化，这里的序列化包括时间戳泛化和记录序列化。下面是出行链序列化的过程：

步骤S11：时间戳泛化：将一个具体的时间戳yyyy-MM-dd HH:mm根据某一泛化值α泛化成时间段yyyy-MM-dd

(若

则向小时部分进1，转化为/>

为了简化表示将其表达为/>

其中用“#”将时间戳中的小时部分与分钟部分分隔，在“<>”里存储泛化值。泛化后的时间段分为以下2种：

①时间段起始时间点在同一个小时内。如2018-12-17 09:43，采用12作为泛化值，泛化得到时间段2018-12-17 09:36～2018-12-17 09:48，表示为2018-12-17 09#3<12>。

②时间段起始时间点不在同一个小时内。如2018-12-17 09:50，采用12作为泛化值，泛化得到时间段2018-12-17 09:48～2018-12-17 10:00，表示为2018-12-17 10#4<12>。

步骤S12：记录序列化：针对记录R＝(eid,rid,pastime)，R·eid表示机动车的唯一电子标识，R·rid表示RFID阅读器的唯一标识，R·passtime表示该机动车通过这个RFID阅读器的时间。将R·passtime根据某个时间阈值进行时间戳泛化，将泛化后的时间戳与R·rid构成字符串，形如

部分和Node(R·rid)部分。

某个出行链Trip＝{R₁,R₂,...,R_k}序列化前后对比如表1所示，这里选择时间阈值α＝15。经过时间戳泛化，共得到四个时间段2018-10-02 07#1<15>、2018-10-02 07#2<15>、2018-10-0207#3<15>和2018-10-02 08#0<15>，将Time部分和Node部分拼接得到出行链序列化后的表达形式：

Seq＝{2018-10-0207#1<15>_wm7b0gc,2018-10-0207#2<15>_wm7b0vd,

2018-10-02 07#3<15>_wm7b1pb,2018-10-02 08#0<15>_wm7b2ha}。

对所有出行链进行序列化后，形成出行链的序列数据库，作为步骤S2的输入部分。

步骤S2：在PrefixSpan算法的基础上，定义RFID阅读器后继集合来加快数据挖掘。

阅读器后继集合(Successor Set)：指通过该阅读器后可能通过的阅读器所构成的集合。本发明中，定义a阅读器的后继集合为Suc_a＝{b,c,d}，即在轨迹链Tra＝{R₁,R₂,...,R_n}中当R_n-1·rid＝a时，R_n·rid＝b||c||d，通过a阅读器后下一个阅读器是b、c、d中一个，a后继集合中的阅读器称为a的后继。

具体实施中，采用以下方式获得阅读器后继集合：有了所有轨迹链后，将阅读器a在轨迹中相邻的后一个阅读器z作为该阅读器的候选后继，从而构成a的候选后继集合Suc′_a。然后根据以下公式计算该阅读器a的候选后继z的频次Fre_az。

CFre_az＝∑Fre_ai

这里去除累积频次大于90％的候选阅读器，不认为它们是a的后继是因为考虑到RFID数据的不可靠性。这种数据不可靠性包括数据冗余、数据多读和数据漏读。这些年随着技术的发展检全率得到提高，故取90％的界限进行划分，界限后面的阅读器认为不属于后继集合中。

步骤S3：若后继集合中的高频阅读器的所有时间段构成的项在投影数据库中都不满足频度要求，则不讨论集合中的低频阅读器；该策略简称高频策略，提高算法效率。

在利用步骤S2产生的后继集合提升算法效率的基础上，由于后继集合中的阅读器按频次进行排序，若高频阅读器的所有时间段构成的项在投影数据库中都不满足频度要求，则后面低频阅读器则不进行讨论。

步骤S4：基于频繁序列模式，将步骤1得到的出行链的序列数据库作为PSSS算法的输入部分，进行热点路径的挖掘。这里热点路径是连续的且在满足阈值的情况下最长的，即极大频繁序列。PSSS算法步骤如下：

步骤S41：输入操作：

①输入T(轨迹序列集合)。序列中的项由Time和Node两个部分组成，其中以α值对时间戳进行泛化得到Time部分，Node部分是RFID阅读器唯一标识；

②输入min_sup(最小支持度计数阈值)；

③输入nodeSet(A)(A阅读器的后继集合)；

④输入timeThreshold(A,B)(通行A,B阅读器的时间阈值)。

步骤S42：计算过程：计算流程如图2、图3所示

①S1＝find_frequent_1_sequences(T)；

从轨迹序列集合T中寻找频繁_1项集，该步骤同PrefixSpan算法中寻找频繁_1序列；

②D＝generate(s,T),s∈S1；

对步骤①中得到的频繁_1序列产生投影数据库D，该步骤同PrefixSpan算法中产生投影数据库,D不为空时，进行下一步；

③for i from 0 to

next＝item(s.time+i，n)；

其中，n∈nodeSet(s.node)，s∈S1。

s.node为频繁_1项中的阅读器唯一标识，与T中的Node部分一致；n为所有频繁_1项的所有后继节点的阅读器唯一标识，与T中的Node部分一致；timeThreashold(s.node,n)为通行s.node，n阅读器的时间阈值；next为item()函数的处理结果；item()函数的作用是根据通行两阅读器的时间阈值得出可能的Time部分，与Node部分拼接得到在轨迹链中可能出现在s.node对应的轨迹项之后的所有可能轨迹项next；图4举例说明了这一过程；

④count＝get_count(D,next)；

计算投影数据库D中的每个序列首项的Node部分是上一步得到的next的序列个数；

⑤if(count>＝min_sup)then{flag＝TRUE；get_frequent_squence(Seq(s,next),D)；}

如果上一步得到的count满足最小支持度计数阈值，通过Seq()函数将s与next构成序列前缀；

⑥if(count<min_sup)then break；

针对所有由n得到的所有next，如所有next的count都不满足最小支持度计数阈值，则频次排后的节点不考虑；

⑦get_frequent_squence(prefix:序列前缀,T’:对应的序列数据库)；该函数包括以下几个步骤：

a)S’＝get.lastItem(prefix)；

取序列前缀的最后一项构成集合S’；

b)D’＝generate(s’,T’),s’∈S’；

根据得到的序列前缀的最后一项产生投影数据库D’；

c)if D’.size<min_sup then S.add(prefix)；

若该序列前缀的投影数据库序列个数小于支持度，则将该序列前缀作为极大频繁连续序列；

d)if D’.size>＝min_sup then依次执行步骤③，④，⑤，⑥；

其中，步骤⑥略作修改，修改为if(count<min_sup)then S.add(prefix)；break；。利用递归最终通过S.add(s’)，得到极大频繁连续序列集合S。

⑧return S。

输出S(T中的极大频繁连续序列)。

应当认识到，本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现，其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而，若需要，该程序可以以汇编或机器语言实现。在任何情况下，该语言可以是编译或解释的语言。此外，为此目的该程序能够在编程的专用集成电路上运行。

此外，可按任何合适的顺序来执行本文描述的过程的操作，除非本文另外指示或以其他方式明显地与上下文矛盾。本文描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行，并且可作为共同地在一个或多个处理器上执行的代码(例如，可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。

进一步，所述方法可以在可操作地连接至合适的任何类型的计算平台中实现，包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现，无论是可移动的还是集成至计算平台，如硬盘、光学读取和/或写入存储介质、RAM、ROM等，使得其可由可编程计算机读取，当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外，机器可读代码，或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时，本文所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的动态配置于频繁序列模式的私家车出行热点路径挖掘技术时，本发明还包括计算机本身。

计算机程序能够应用于输入数据以执行本文所述的功能，从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中，转换的数据表示物理和有形的对象，包括显示器上产生的物理和有形对象的特定视觉描绘。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.基于频繁序列模式的私家车出行热点路径挖掘方法，其特征在于：包括以下步骤：

步骤S1：将私家车出行链序列化，序列化包括时间戳泛化和记录序列化，其中，时间戳泛化是将一个具体的时间戳yyyy-MM-ddHH:mm根据某一泛化值α泛化成时间段

若/>

则向小时部分进1，转化为/>

记录序列化是针对记录R＝(eid,rid,pastime)，R·eid表示机动车的唯一电子标识，R·rid表示RFID阅读器的唯一标识，R·passtime表示该机动车通过这个RFID阅读器的时间，将R·passtime根据某个时间阈值进行时间戳泛化，将泛化后的时间戳与R·rid构成字符串，形如/>

步骤S2：在PrefixSpan算法的基础上，定义了RFID阅读器后继集合来加快数据挖掘，所述阅读器后继集合指通过该阅读器后可能通过的阅读器所构成的集合，在此基础上提出进行热点路径挖掘时不需要每次搜索投影数据库中的序列的首项，而是直接取后继集合中的项，其中，获取阅读器后继集合的方式为：

获取所有轨迹链，将阅读器a在轨迹中相邻的后一个阅读器z作为该阅读器的候选后继，从而构成a的候选后继集合Suc′_a，然后根据以下公式计算该阅读器a的候选后继z的频次Fre_az：

是从阅读器a直接到其所有候选后继次数的总和，然后根据频次Fre从高到低对候选后继集合中的后继进行排序，对排序后的集合根据以下公式计算各个候选后继的累积频次，去除累积频次大于90％的候选后继从而构成后继集合Suc_a

CFre_az＝∑Fre_ai

其中，Fre_ai是排序后的候选后继集合中排在z前面的候选阅读器的频次；步骤S3：结合由经过相邻两个阅读器的时间阈值和时间戳泛化的值共同确定的到达后继RFID阅读器的时间范围，若后继集合中的高频阅读器的所有时间段构成的项在投影数据库中都不满足频度要求，则不涉及集合中的低频阅读器；步骤S4：基于频繁序列模式，将步骤S1得到的出行链的序列数据库作为PSSS算法的输入部分，进行热点路径的挖掘；此处需要的热点路径是连续的且在满足最小支持度计数阈值的情况下最长的，即极大频繁序列，包括：

步骤S41：输入操作：

输入轨迹序列集合T，序列中的项由Time和Node两个部分组成，其中以α值对时间戳进行泛化得到Time部分，Node部分是RFID阅读器唯一标识；

输入min_sup，即最小支持度计数阈值；

输入nodeSet(A)，即A阅读器的后继集合；

输入timeThreshold(A,B)，即通行A,B阅读器的时间阈值；

步骤S42：

①从轨迹序列集合T中采用PrefixSpan算法来寻找频繁_1项集S1；

②对步骤①中得到的频繁_1序列基于PrefixSpan算法来产生投影数据库D；当D不为空时，进行下一步；

③从0到

根据通行两阅读器的时间阈值得出可能的Time部分，与Node部分拼接得到在轨迹链中可能出现在s.node对应的轨迹项之后的所有可能轨迹项next；其中，n∈nodeSet(s.node)，s∈S1，s.node为频繁_1项中的阅读器唯一标识，与T中的Node部分一致；n为所有频繁_1项的所有后继节点的阅读器唯一标识，与T中的Node部分一致；timeThreashold(s.node,n)为通行阅读器s.node，阅读器n的时间阈值；

④计算投影数据库D中的每个序列首项的Node部分是上一步得到的next的序列个数count；

⑤如果上一步得到的count满足最小支持度计数阈值，将s与next构成序列前缀；

⑥针对由n得到的所有next，如果所有next的count都不满足最小支持度计数阈值，则频次排后的节点不考虑；

⑦获取极大序列包括以下几个步骤：

a)取序列前缀的最后一项构成集合S’；

b)根据得到的序列前缀的最后一项产生投影数据库D’；

c)若该序列前缀的投影数据库序列个数D’.size小于支持度min_sup，则将该序列前缀作为极大频繁连续序列；

d)若该序列前缀的投影数据库序列个数D’.size不小于支持度min_sup，则依次执行步骤③，④，⑤，并且执行：

如果count<min_sup，则将该序列前缀作为极大频繁连续序列；并利用递归方法得到极大频繁连续序列集合S；

⑧即输出S，其表示T中的极大频繁连续序列。

2.一种电子设备，其特征在于，包括：处理器、存储器和总线，其中，

所述处理器和所述存储器通过所述总线完成相互间的通信；

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如权利要求1所述的方法。

3.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如权利要求1所述的方法。