CN114996544A - 一种基于手机信令数据和Mix-Markov模型的出行路径提取方法 - Google Patents

一种基于手机信令数据和Mix-Markov模型的出行路径提取方法 Download PDF

Info

Publication number
CN114996544A
CN114996544A CN202210448342.4A CN202210448342A CN114996544A CN 114996544 A CN114996544 A CN 114996544A CN 202210448342 A CN202210448342 A CN 202210448342A CN 114996544 A CN114996544 A CN 114996544A
Authority
CN
China
Prior art keywords
matched
track point
point
track
time state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210448342.4A
Other languages
English (en)
Inventor
陆振波
周臣
冯泽禹
何静
柴林
黄培
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202210448342.4A priority Critical patent/CN114996544A/zh
Publication of CN114996544A publication Critical patent/CN114996544A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/907Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/909Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/28Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network with correlation of data from several navigational instruments
    • G01C21/30Map- or contour-matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Automation & Control Theory (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种基于手机信令数据和Mix‑Markov模型的出行路径提取方法。首先对手机信令数据进行“降噪”预处理,结合基于时空信息的DBSCAN聚类算法,确定有效轨迹点;然后根据隐马尔可夫模型分析待匹配点与候选点之间的空间关系,建立发射概率向量与转移概率矩阵;最后根据维特比算法获取最优路径,即得到地图匹配结果,完成手机用户的出行路径提取。本发明在进行用户轨迹数据地图匹配时,仅需要输入用户的轨迹数据获取用户出行路径,计算速度快,匹配结果准确,为用户出行特征的分析提供了充分的研究数据。

Description

一种基于手机信令数据和Mix-Markov模型的出行路径提取 方法
技术领域
本发明涉及电子技术领域及通信领域,具体是一种基于手机信令数据和Mix-Markov模型的出行路径提取方法。
背景技术
单纯增加基础道路设施的方法已经无法适用于路网体系城市的现代化城市了,智慧交通的理念逐渐成为城市拥堵研究的重点。手机终端在满足用户通讯或上网需求的时候会与邻近的蜂窝基站建立联系,能够记录一系列以时间为顺序、以基站为位置的时空轨迹点,即手机信令数据。结合用户出行特征能够分析路网道路状态,及时辨别与预防交通拥堵,有助于改善城市路网交通通行状态;研究用户出行特征又依赖于用户出行的轨迹定位数据,需利用地图匹配算法挖掘出用户的实际出行路径。因此,基于地图匹配算法提取用户出行路径分析用户出行特征,进而研究路网交通状态,对于现代化城市的智慧管控是极为重要的。
发明内容
本发明为解决背景技术中存在的问题,结合用户出行过程中产生的原始轨迹信令数据,为研究用户出行在路网路段中的特征,提出了一种基于手机信令数据和Mix-Markov模型的出行路径提取方法。
本发明为解决上述技术问题采用以下技术方案:
一种基于手机信令数据和Mix-Markov模型的出行路径提取方法,步骤如下:
(1)对手机用户出行过程中产生的手机信令数据进行预处理以去除噪声,并采用基于时空信息DBSCAN算法对停留点进行分簇,将各停留点簇的中心点与移动点作为用户出行的有效轨迹点;
(2)从步骤(1)提取的用户出行的有效轨迹点中,分日期分用户提取出每个用户出行的有效轨迹点的时间序列,作为地图匹配的待匹配轨迹点序列;
(3)基于隐马尔可夫模型,计算每个待匹配轨迹点的发射概率向量以及相邻时间状态下待匹配轨迹点的路网候选轨迹点之间转移概率矩阵;
(4)根据维特比算法获取最优路径,即得到地图匹配结果,完成手机用户的出行路径提取。
进一步地,所述步骤(1)中采用距离均值方法,确定停留点簇的中心点:计算停留点簇内各停留点到簇内其他停留点的距离均值,以均值最小的停留点作为停留点簇的中心点。
进一步地,所述步骤(2)中根据用户标号的唯一性特点,按照日期与用户标号将每个用户出行的有效轨迹点的时间序列:
根据手机信令数据的start_time字段,将步骤(1)提取的用户出行的有效轨迹点按日期进行分离;
根据手机信令数据的user_id字段将按日期进行分离后同一个日期内用户出行的有效轨迹点按用户进行分离;
同一日期内用户出行的有效轨迹点按时间顺序排列,形成用户出行的有效轨迹点的时间序列,作为地图匹配的待匹配轨迹点序列。
进一步地,所述步骤(3)具体步骤如下:
确定搜索半径,以及搜索范围内最大候选轨迹点数量N;
基于几何匹配思想,利用待匹配轨迹点到搜索范围内各个路网候选轨迹点的几何距离,计算每个待匹配轨迹点到搜索范围内各个路网候选轨迹点的发射概率,形成每个待匹配轨迹点的发射概率向量;
基于拓扑匹配思想,利用相邻时间状态下待匹配轨迹点的路网候选轨迹点之间拓扑距离,计算相邻时间状态下待匹配轨迹点的路网候选轨迹点之间转移概率矩阵。
进一步地,所述每个待匹配轨迹点的发射概率向量的计算方法分为两种情况:
(1)对待匹配轨迹点序列中初始时间状态下的待匹配轨迹点,使用正态分布概率分布,计算其发射概率向量π=[p1,1,p1,2,…,p1,N];其中,
Figure BDA0003616314330000021
p1,j表示初始时间状态下的待匹配轨迹点到其搜索范围内第j个候选轨迹点之间的发射概率,d1,j表示初始时间状态下的待匹配轨迹点到其搜索范围内第j个候选轨迹点之间的距离,μ、σ为正态分布参数,N1为初始时间状态下的待匹配轨迹点搜索范围内候选轨迹点数量,若N>N1
Figure BDA0003616314330000022
均为0;
(2)对待匹配轨迹点序列中非初始时间状态下的待匹配轨迹点,使用正态分布概率分布,计算待匹配轨迹点序列中第i个时间状态下的待匹配轨迹点的发射概率向量为:Ai=[pi,1,pi,2,…,pi,N];其中,
Figure BDA0003616314330000023
pi,j表示待匹配轨迹点序列中第i个时间状态下的待匹配轨迹点到其搜索范围内第j个候选轨迹点之间的发射概率,di,j表示待匹配轨迹点序列中第i个时间状态下的待匹配轨迹点到其搜索范围内第j个候选轨迹点之间的距离,μ、σ为正太分布参数,i≠1;Ni为第i个时间状态下的待匹配轨迹点搜索范围内候选轨迹点数量,若N>Ni
Figure BDA0003616314330000024
均为0。
进一步地,待匹配轨迹点序列中第i个时间状态下的待匹配轨迹点搜索范围内候选轨迹点与第i+1个时间状态下的待匹配轨迹点搜索范围内候选轨迹点之间的转移概率矩阵为:Bi,i+1=[Bαβ]N×N;Bαβ为Bi,i+1中第α行第β列元素,表示待匹配轨迹点序列中第i个时间状态下的待匹配轨迹点搜索范围内第α个候选轨迹点与第i+1个时间状态下的待匹配轨迹点搜索范围内第β个候选轨迹点之间的转移概率,若α≤Ni且β≤Ni+1,则
Figure BDA0003616314330000031
dαβ=|di,i+1-d′αβ|,di,i+1为待匹配轨迹点序列中第i个时间状态下的待匹配轨迹点与第i+1个时间状态下的待匹配轨迹点之间的欧几里得距离,d′αβ为待匹配轨迹点序列中第i个时间状态下的待匹配轨迹点搜索范围内第α个候选轨迹点与第i+1个时间状态下的待匹配轨迹点搜索范围内第β个候选轨迹点之间的拓扑距离;若α>Ni或β>Ni+1,则Bαβ=0。
进一步地,所述步骤(4)中,对待匹配轨迹点序列{L1,L2,…,Ls},由L1至Ls的最优出行路径提取方法为:
根据维特比算法,利用发射概率向量和转移概率矩阵,计算待匹配轨迹点序列中第i个时间状态下的待匹配轨迹点到达待匹配轨迹点序列中第i+1个时间状态下的待匹配轨迹点的所有路径概率矩阵:tempi,i+1=nowprobi*Ai*Ai+1*Bi,i+1,Ai+1表示待匹配轨迹点序列中第i+1个时间状态下的待匹配轨迹点的发射概率向量;nowprobi表示到达待匹配轨迹点序列中第i个时间状态下的待匹配轨迹点搜索范围内各候选轨迹点的最大累计路径概率向量,nowprob1=π,nowprob=max(tempi-1,i),max(tempi-1,i)表示按列取出tempi-1,i中每列的最大值;
待匹配轨迹点序列中,获取到达第i+1个时间状态下的待匹配轨迹点搜索范围内各候选轨迹点的最优第i个时间状态下的待匹配轨迹点搜索范围内的候选轨迹点序列:nodesi+1=argmax(tempi,i+1),argmax(tempi,i+1)表示tempi,i+1中每列最大值对应的第i个时间状态下的待匹配轨迹点搜索范围内的候选轨迹点编号;
提取L1至Ls的最优出行路径时,首先,计算Ls-1到达Ls的所有路径概率矩阵temps-1,s=nowprobs*As-1*As*Bs-1,s;其次,获取temps-1,s中最大元素对应的第s-1个时间状态下的待匹配轨迹点Ls-1搜索范围内的候选轨迹点编号和第s个时间状态下的待匹配轨迹点Ls搜索范围内的候选轨迹点编号;最后,根据nodesi+1,依次回溯直至L1,得到最优出行路径;其中,nowprobs-1表示到达待匹配轨迹点序列中第s-1个时间状态下的待匹配轨迹点Ls-1搜索范围内各候选轨迹点的最大累计路径概率向量,As-1为Ls-1的发射概率向量,As为Ls的发射概率向量,Bs-1,s为Ls-1与Ls之间的转移概率矩阵。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
1、在数据源方面:与传统出行调查数据相比,手机信令数据具有采集成本低的优点;与其他定位数据,如GPS数据相比,手机信令数据具有群体覆盖范围广、采集频率高等特点。不同于传统调查方法直接获取出行目的、出行方式等具体出行需求和出行行为信息,信令数据只能够记录带有时空信息的轨迹点,但多个轨迹点的集合可以记录移动对象出行的移动路径,反映用户日常活动轨迹与出行行为特征。轨迹数据记录相当长时间段内某个移动对象的活动情况,在完成地图匹配后的一系列轨迹点能够较为客观的反映移动对象个体(或群体)的活动规律。因此本发明采用用户出行过程中产生的手机信令数据作为数据源,以手机用户为研究对象,提取用户实际出行的路径信息。
2、在出行活动特征方面:用户出行是一个分阶段动态的过程,出行总会伴随着停留与移动,根据基站通信的定位特性,停留点处会生成多个轨迹点,这些轨迹点一般都是生成于同一个基站或者是附近基站,对于描述用户的出行是重复多余的,因此将停留点数据与移动点数据区分出来有助于进一步精确研究用户的出行轨迹。本发明使用基于停留时间间隔阈值与移动距离阈值的DBSCAN聚类算法,通过设置时间尺度和空间尺度阈值对手机信令数据进行聚类,使用均值法提取停留簇中心点,将用户出行过程的显著停留点与移动点都提取出来,为之后的研究提供了更加简洁的输入数据,高效地对用户的出行活动特征进行分析。
3、在地图匹配方法方面:目前大多数地图匹配算法都是基于GPS定位数据研究的,但GPS定位数据本身仍然存在显著的缺点,诸如数据采样率不高、用户群体覆盖率不高等。手机信令数据具有较低的采集成本与较高的时空覆盖率,基于手机数据的地图匹配能够提取大规模、多类型的用户出行路径。本发明基于隐马尔科夫模型和动态规划理论,结合几何地图匹配与拓扑地图匹配思想,提出了一种基于手机信令数据的地图匹配方法,使用维特比算法提取最大概率匹配路径,作为用户出行的实际路径,为分析用户出行特征提供准确依据。
附图说明
图1为本发明的整体流程图;
图2为部分手机数据预处理前的分布图;
图3为部分手机数据预处理后的分布图;
图4为停留点算法流程图;
图5实施实例中不同参数组合下的用户轨迹分类数;
图6为实施例中不同参数组合下的用户分类评价值;
图7为实施例中基于时空信息的DBSCAN算法的聚类结果;
图8为维特比算法的动态规划思想示意图,其中,(a)是所有路径的概率值,(b)是相邻节点转移后路径概率示意,(c)是最终状态的候选点的路径概率,(d)是向前搜索示意;
图9为实施例中不同搜索半径与候选点数量组合下的三种算法的平均精度;
图10为实施例中不同搜索半径与候选点数量组合下的三种算法的运行时间;
图11为实施例中不同搜索半径与候选点数量组合下部分算法的评估值;
图12为实施例中不同搜索半径与候选点数量组合下的三种算法的匹配结果评估值。
图13为实施例中参数确定后的三种算法的匹配准确率。
图14为实施例中部分用户的路径匹配结果图。
具体实施方式
下面结合实施例对本发明作进一步说明,但本发明的保护范围不限于此。
本发明将手机信令数据进行数据预处理后,以提取停留点为出发点,采用基于时空阈值的DBSCAN聚类算法对手机信令数据进行分类,依据不同参数组合的分类结果以及评价公式分类评价值并确定时空聚类算法的参数,然后根据确定的参数使用DBSCAN算法提取停留点簇,根据均值法计算停留中心点,为了提高匹配效率将移动点与停留中心点作为用户的有效出行轨迹点。通过隐马尔可夫模型建立地图匹配算法框架,根据几何匹配思想确定发射概率模型参数,并计算发射概率向量,根据拓扑匹配思想确定转移概率模型参数,并计算转移概率矩阵,初步确定地图匹配算法模型λ=(A,B,π,R,N),其中A表示发射概率向量,B表示转移概率矩阵,π表示初始状态概率向量,R表示搜索半径,N表示最大候选点数量。根据基站定位特点,通过验证数据研究地图匹配算法的候选点搜索半径与候选点数量参数,结合算法精度与运行时间分析算法结果,最终确定地图匹配算法参数与模型。在进行用户轨迹数据地图匹配时,仅需要输入用户的轨迹数据获取本发明提到的用户出行路径,输入该模型即可提取用户的最大概率出行路径,该模型计算速度快,匹配结果准确,为用户出行特征的分析提供了充分的研究数据。
本发明的整体流程图如图1所示,具体步骤如下:
(1)对手机用户出行过程中产生的手机信令数据进行预处理以去除噪声(预处理包括剔除无效数据、漂移数据、乒乓数据、缺失数据),预处理处理前后如图2和图3所示。采用基于时空阈值的DBSCAN算法对停留点进行分簇,以各停留点簇的中心点,结合用户移动点,最终提取用户出行的有效轨迹点序列O=[O1,O2,O3,……,On],n为有效轨迹点总数,有效轨迹点的识别流程如图4所示:
使用不同的距离阈值和最小类内点数量组合作为DBSCAN参数,对手机信令数据分类结果进行评估;
选取分类评价结果较好的参数组合,设定DBSCAN聚类算法的参数,结合时间阈值对用户轨迹点进行聚类;
利用均值法,计算簇内各点到簇内其他点的距离均值,以均值最小的点作为停留点簇中心,将停留点簇中心点与移动点序列作为用户的有效轨迹序列O=[O1,O2,O3,……,On]。
(2)使用Python的数据处理包以及依据手机信令数据的字段特征,根据用户ID与日期将用户的手机信令数据进行分日期分ID的分离:
根据手机信令数据的user_id字段,将不同用户的轨迹数据分割开,user_id相同的数据被认为是同一条轨迹内数据;
根据手机信令数据的start_time字段,将不同日期的轨迹数据分隔开,由于start_time是16位的字符数据,如“20190527142846”,前八位表示年月日信息,后八位表示时分秒信息,利用前八位数字识别用户出行的日期,利用后八位数据提取用户轨迹点的时间戳。
(3)基于隐马尔可夫模型,计算每个待匹配轨迹点的发射概率向量以及相邻时间状态下待匹配轨迹点的路网候选轨迹点之间转移概率矩阵。
S1、确定搜索半径R,以及搜索范围内最大候选轨迹点数量N。
S2、基于几何匹配思想,利用待匹配轨迹点到搜索范围内各个路网候选轨迹点的几何距离,使用正态分布概率分布,计算每个待匹配轨迹点到搜索范围内各个路网候选轨迹点的发射概率,形成每个待匹配轨迹点的发射概率向量。
对待匹配轨迹点序列中初始时间状态下的待匹配轨迹点,其发射概率向量π=[p1,1,p1,2,…,p1,N];其中,
Figure BDA0003616314330000061
p1,j表示初始时间状态下的待匹配轨迹点到其搜索范围内第j个候选轨迹点之间的发射概率,d1,j表示初始时间状态下的待匹配轨迹点到其搜索范围内第j个候选轨迹点之间的距离,μ、σ为正态分布参数,N1为初始时间状态下的待匹配轨迹点搜索范围内候选轨迹点数量,若N>N1
Figure BDA0003616314330000062
均为0。
对待匹配轨迹点序列中非初始时间状态下的待匹配轨迹点,使用正态分布概率分布,计算待匹配轨迹点序列中第i个时间状态下的待匹配轨迹点的发射概率向量为:Ai=[pi,1,pi,2,…,pi,N];其中,
Figure BDA0003616314330000063
pi,j表示待匹配轨迹点序列中第i个时间状态下的待匹配轨迹点到其搜索范围内第j个候选轨迹点之间的发射概率,di,j表示待匹配轨迹点序列中第i个时间状态下的待匹配轨迹点到其搜索范围内第j个候选轨迹点之间的距离,μ、σ为正太分布参数,i≠1;Ni为第i个时间状态下的待匹配轨迹点搜索范围内候选轨迹点数量,若N>Ni
Figure BDA0003616314330000071
均为0。
S3、基于拓扑匹配思想,利用相邻时间状态下待匹配轨迹点的路网候选轨迹点之间拓扑距离,使用指数概率分布,计算相邻时间状态下待匹配轨迹点的路网候选轨迹点之间转移概率矩阵。
待匹配轨迹点序列中第i个时间状态下的待匹配轨迹点搜索范围内候选轨迹点与第i+1个时间状态下的待匹配轨迹点搜索范围内候选轨迹点之间的转移概率矩阵为:Bi,i+1=[Bαβ]N×N;Bαβ为Bi,i+1中第α行第β列元素,表示待匹配轨迹点序列中第i个时间状态下的待匹配轨迹点搜索范围内第α个候选轨迹点与第i+1个时间状态下的待匹配轨迹点搜索范围内第β个候选轨迹点之间的转移概率,若α≤Ni且β≤Ni+1,则
Figure BDA0003616314330000072
dαβ=|di,i+1-d′αβ|,di,i+1为待匹配轨迹点序列中第i个时间状态下的待匹配轨迹点与第i+1个时间状态下的待匹配轨迹点之间的欧几里得距离,d′αβ为待匹配轨迹点序列中第i个时间状态下的待匹配轨迹点搜索范围内第α个候选轨迹点与第i+1个时间状态下的待匹配轨迹点搜索范围内第β个候选轨迹点之间的拓扑距离;若α>Ni或β>Ni+1,则Bαβ=0。
(4)根据维特比算法,利用发射概率向量和转移概率矩阵,计算待匹配轨迹点序列中第i个时间状态下的待匹配轨迹点到达待匹配轨迹点序列中第i+1个时间状态下的待匹配轨迹点的所有路径概率矩阵:tempi,i+1=nowprobi*Ai*Ai+1*Bi,i+1,Ai+1表示待匹配轨迹点序列中第i+1个时间状态下的待匹配轨迹点的发射概率向量;nowprobi表示到达待匹配轨迹点序列中第i个时间状态下的待匹配轨迹点搜索范围内各候选轨迹点的最大累计路径概率向量,nowprob1=π,nowprobi=max(tempi-1,i),max(tempi-1,i)表示按列取出tempi-1,i中每列的最大值;
待匹配轨迹点序列中,获取到达第i+1个时间状态下的待匹配轨迹点搜索范围内各候选轨迹点的最优第i个时间状态下的待匹配轨迹点搜索范围内的候选轨迹点序列:nodesi+1=argmax(tempi,i+1),argmax(tempi,i+1)表示tempi,i+1中每列最大值对应的第i个时间状态下的待匹配轨迹点搜索范围内的候选轨迹点编号;
提取L1至Ls的最优出行路径时,首先,计算Ls-1到达Ls的所有路径概率矩阵temps-1,s=nowprob*As-1*As*Bs-1,s;其次,获取temps-1,s中最大元素对应的第s-1个时间状态下的待匹配轨迹点Ls-1搜索范围内的候选轨迹点编号和第s个时间状态下的待匹配轨迹点Ls搜索范围内的候选轨迹点编号;最后,根据nodesi+1,依次回溯直至L1,得到最优出行路径;其中,nowprobs-1表示到达待匹配轨迹点序列中第s-1个时间状态下的待匹配轨迹点Ls-1搜索范围内各候选轨迹点的最大累计路径概率向量,As-1为Ls-1的发射概率向量,As为Ls的发射概率向量,Bs-1,s为Ls-1与Ls之间的转移概率矩阵。
下面结合一个具体实例对本发明的技术内容进行解释说明。
本发明考虑昆山基站服务半径在200~500米,将最小分类簇的点数量设置在3~20个,同时将距离阈值的区间设定在200~500米,即相邻两点距离不超过距离阈值才可能判定为停留,根据先验知识将时间阈值设置为180s,即手机用户在某基站停留时间大于180s,才可能判定为停留,最终将相邻两轨迹点间距离小于距离阈值且时间间隔大于180s的判定为停留点。根据各参数组合的分类结果分析后,如图5表示最小类内点数量参数为5与各个距离阈值参数组合下的DBSCAN算法聚类数,图6表示距离阈值参数为400与各个最小类内点数量参数组合下的DBSCAN算法聚类评价值,最终确定距离阈值参数为400m,最小类内点数量为5。停留点识别过程如算法1所示:
Figure BDA0003616314330000081
Figure BDA0003616314330000091
聚类后的某用户的停留点如图7所示。基于提取的停留点簇,针对每个用户计算停留点簇内某点到簇内其他各点的距离均值,以均值最小的点作为停留中心点,将分类为-1的点作为移动点,把停留中心点与移动点按时间序列组合起来作为地图匹配模型的输入数据。
根据基站覆盖范围搜索半径设置在200~500米,根据昆山路网密度将候选点个数设定为3~10。将搜索半径以50m作为间隔,候选点数量以1个作为间隔。在各个参数组合条件下,针对现有的ST地图匹配算法、基于交叉口的地图匹配算法以及本发明提出的地图匹配算法模型λ=(A,B,π,R,N)完成对验证数据的地图匹配以后,获取各算法运算时间以及路径匹配的准确率,其中不同参数组合下三种地图匹配算法的平均精度如图9所示,横坐标为参数组合的索引,纵坐标表示地图匹配算法的;图10为候选点为4时的三种地图匹配算法的运行时间,横坐标为不同搜索半径,纵坐标为算法运行时间。对于部分搜索半径r和最大候选点数量k组合的算法评估值如图11所示,其中r为搜索半径,k为候选点数量,st、cross、our为分别ST算法、基于交叉口的算法以及本发明的算法模型的运行时间,v_st、v_cross、v_our为分别ST算法、基于交叉口的算法以及本发明的算法模型的匹配准确度,m_value为三种地图匹配算法平均准确度。
结合算法运行时间与匹配准确度,计算不同参数组合下各算法评估值,最终选取算法评估值最大时(如图12所示)对应的搜索半径为250m,候选点个数为4,此时各算法在当前参数组合下针对不同用户的匹配准确率如图13所示,由于不同用户的轨迹数量不同,可以发现本发明提出的地图匹配算法模型在不同数据量下的准确率高于其他两种算法,且最终使用地图匹配模型λ=(A,B,π,250,4)。
根据地图匹配模型λ=(A,B,π,250,4)分别对验证数据进行匹配,将路段看作是地球坐标系下的局部直线,利用海伦公式状态点与候选点之间的欧几里得距离,利用两直线交点公式计算各个候选点位置,并使用正态分布概率计算初始发射概率向量π,与各状态的发射概率向量Ai;利用dijkstra算法计算相邻状态候选点间的距离,并计算相邻状态点间的转移概率矩阵Bi,i+1,根据到达当前状态各个候选点的路径的概率,保留到达各个候选的最大路径概率,并记录最大概率路径对应的转移点位置,如第i状态的第j个候选点。
在一个实施例中,从最初状态待匹配点开始按照时间序列更新到达各待匹配点的路网候选点的路径概率,结合维特比算法原理,如图8中的(a)至(d)所示。图8中的(a)列出了状态1,2,3之间所有路径的概率值。而图8中的(b)在相邻节点转移后,将到达状态2每一个候选点最大概率路径保留,其他路径予以删除,并且记录当前最大概率路径的上一节点号(即状态1的候选轨迹点编号);然后按照当前最大路径再进入下一个状态(状态3)。以此类推,获取到达最终状态n的候选轨迹点的路径概率向量,如图8中的(c)所示;
选取到达最终状态概率最大的路径作为用户的实际出行路径。以最终状态n的路径概率向量中概率最大的节点为终点节点,然后根据相邻状态的路径向前搜索前置节点直至初始状态,如图8中的(d)所示,最终提取出用户出行路径。
最终,将其他用户数据作为输入数据导入地图匹配算法模型中,即可获得最大概率的用户出行路径T作为匹配结果。生成的部分地图匹配结果如图14所示,其中数字6为初始点,带有L标号的为匹配的路径轨迹点。
地图匹配模型构建完成后,可以通过获得的用户出行路径信息提取用户在路网或路段中的出行特征,进一步研究路段与路网的交通状态。
以上所述,仅为本发明中的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可理解想到的变换或替换,都应涵盖在本发明的包含范围之内,因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (7)

1.一种基于手机信令数据和Mix-Markov模型的出行路径提取方法,其特征在于,步骤如下:
(1)对手机用户出行过程中产生的手机信令数据进行预处理以去除噪声,并采用基于时空信息DBSCAN算法对停留点进行分簇,将各停留点簇的中心点与移动点作为用户出行的有效轨迹点;
(2)从步骤(1)提取的用户出行的有效轨迹点中,分日期分用户提取出每个用户出行的有效轨迹点的时间序列,作为地图匹配的待匹配轨迹点序列;
(3)基于隐马尔可夫模型,计算每个待匹配轨迹点的发射概率向量以及相邻时间状态下待匹配轨迹点的路网候选轨迹点之间转移概率矩阵;
(4)根据维特比算法获取最优路径,即得到地图匹配结果,完成手机用户的出行路径提取。
2.如权利要求1所述的一种基于手机信令数据和Mix-Markov模型的出行路径提取方法,其特征在于,所述步骤(1)中采用距离均值方法,确定停留点簇的中心点:计算停留点簇内各停留点到簇内其他停留点的距离均值,以均值最小的停留点作为停留点簇的中心点。
3.如权利要求1所述的一种基于手机信令数据和Mix-Markov模型的出行路径提取方法,其特征在于,所述步骤(2)中根据用户标号的唯一性特点,按照日期与用户标号将每个用户出行的有效轨迹点的时间序列:
根据手机信令数据的start_time字段,将步骤(1)提取的用户出行的有效轨迹点按日期进行分离;
根据手机信令数据的user_id字段将按日期进行分离后同一个日期内用户出行的有效轨迹点按用户进行分离;
同一日期内用户出行的有效轨迹点按时间顺序排列,形成用户出行的有效轨迹点的时间序列,作为地图匹配的待匹配轨迹点序列。
4.如权利要求1所述的一种基于手机信令数据和Mix-Markov模型的出行路径提取方法,其特征在于,所述步骤(3)具体步骤如下:
确定搜索半径,以及搜索范围内最大候选轨迹点数量N;
基于几何匹配思想,利用待匹配轨迹点到搜索范围内各个路网候选轨迹点的几何距离,计算每个待匹配轨迹点到搜索范围内各个路网候选轨迹点的发射概率,形成每个待匹配轨迹点的发射概率向量;
基于拓扑匹配思想,利用相邻时间状态下待匹配轨迹点的路网候选轨迹点之间拓扑距离,计算相邻时间状态下待匹配轨迹点的路网候选轨迹点之间转移概率矩阵。
5.如权利要求4所述的一种基于手机信令数据和Mix-Markov模型的出行路径提取方法,其特征在于,所述每个待匹配轨迹点的发射概率向量的计算方法分为两种情况:
(1)对待匹配轨迹点序列中初始时间状态下的待匹配轨迹点,使用正态分布概率分布,计算其发射概率向量π=[p1,1,p1,2,…,p1,N];其中,
Figure FDA0003616314320000021
p1,j表示初始时间状态下的待匹配轨迹点到其搜索范围内第j个候选轨迹点之间的发射概率,d1,j表示初始时间状态下的待匹配轨迹点到其搜索范围内第j个候选轨迹点之间的距离,μ、σ为正态分布参数,N1为初始时间状态下的待匹配轨迹点搜索范围内候选轨迹点数量,若N>N1
Figure FDA0003616314320000024
均为0;
(2)对待匹配轨迹点序列中非初始时间状态下的待匹配轨迹点,使用正态分布概率分布,计算待匹配轨迹点序列中第i个时间状态下的待匹配轨迹点的发射概率向量为:Ai=[pi,1,pi,2,…,pi,N];其中,
Figure FDA0003616314320000022
pi,j表示待匹配轨迹点序列中第i个时间状态下的待匹配轨迹点到其搜索范围内第j个候选轨迹点之间的发射概率,di,j表示待匹配轨迹点序列中第i个时间状态下的待匹配轨迹点到其搜索范围内第j个候选轨迹点之间的距离,μ、σ为正太分布参数,i≠1;Ni为第i个时间状态下的待匹配轨迹点搜索范围内候选轨迹点数量,若N>Ni
Figure FDA0003616314320000025
均为0。
6.如权利要求5所述的一种基于手机信令数据和Mix-Markov模型的出行路径提取方法,其特征在于,待匹配轨迹点序列中第i个时间状态下的待匹配轨迹点搜索范围内候选轨迹点与第i+1个时间状态下的待匹配轨迹点搜索范围内候选轨迹点之间的转移概率矩阵为:Bi,i+1=[Bαβ]N×N;Bαβ为Bi,i+1中第α行第β列元素,表示待匹配轨迹点序列中第i个时间状态下的待匹配轨迹点搜索范围内第α个候选轨迹点与第i+1个时间状态下的待匹配轨迹点搜索范围内第β个候选轨迹点之间的转移概率,若α≤Ni且β≤Ni+1,则
Figure FDA0003616314320000023
dαβ=|di,i+1-d′αβ|,di,i+1为待匹配轨迹点序列中第i个时间状态下的待匹配轨迹点与第i+1个时间状态下的待匹配轨迹点之间的欧几里得距离,d′αβ为待匹配轨迹点序列中第i个时间状态下的待匹配轨迹点搜索范围内第α个候选轨迹点与第i+1个时间状态下的待匹配轨迹点搜索范围内第β个候选轨迹点之间的拓扑距离;若α>Ni或β>Ni+1,则Bαβ=0。
7.如权利要求6所述的一种基于手机信令数据和Mix-Markov模型的出行路径提取方法,其特征在于,所述步骤(4)中,对待匹配轨迹点序列{L1,L2,…,Ls},由L1至Ls的最优出行路径提取方法为:
根据维特比算法,利用发射概率向量和转移概率矩阵,计算待匹配轨迹点序列中第i个时间状态下的待匹配轨迹点到达待匹配轨迹点序列中第i+1个时间状态下的待匹配轨迹点的所有路径概率矩阵:tempi,i+1=nowpro*Ai*Ai+1*Bi,i+1,Ai+1表示待匹配轨迹点序列中第i+1个时间状态下的待匹配轨迹点的发射概率向量;nowprob表示到达待匹配轨迹点序列中第i个时间状态下的待匹配轨迹点搜索范围内各候选轨迹点的最大累计路径概率向量,nowprob=π,nowpro=max(tempi-1,i),max(tempi-1,i)表示按列取出tempi-1,i中每列的最大值;
待匹配轨迹点序列中,获取到达第i+1个时间状态下的待匹配轨迹点搜索范围内各候选轨迹点的最优第i个时间状态下的待匹配轨迹点搜索范围内的候选轨迹点序列:nodesi+1=argmax(tempi,i+1),argmax(tempi,i+1)表示tempi,i+1中每列最大值对应的第i个时间状态下的待匹配轨迹点搜索范围内的候选轨迹点编号;
提取L1至Ls的最优出行路径时,首先,计算Ls-1到达Ls的所有路径概率矩阵temps-1,s=nowprobs-1*As-1*As*Bs-1,s;其次,获取temps-1,s中最大元素对应的第s-1个时间状态下的待匹配轨迹点Ls-1搜索范围内的候选轨迹点编号和第s个时间状态下的待匹配轨迹点Ls搜索范围内的候选轨迹点编号;最后,根据nodesi+1,依次回溯直至L1,得到最优出行路径;其中,nowprobs表示到达待匹配轨迹点序列中第s-1个时间状态下的待匹配轨迹点Ls-1搜索范围内各候选轨迹点的最大累计路径概率向量,As-1为Ls-1的发射概率向量,As为Ls的发射概率向量,Bs-1,s为Ls-1与Ls之间的转移概率矩阵。
CN202210448342.4A 2022-04-26 2022-04-26 一种基于手机信令数据和Mix-Markov模型的出行路径提取方法 Pending CN114996544A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210448342.4A CN114996544A (zh) 2022-04-26 2022-04-26 一种基于手机信令数据和Mix-Markov模型的出行路径提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210448342.4A CN114996544A (zh) 2022-04-26 2022-04-26 一种基于手机信令数据和Mix-Markov模型的出行路径提取方法

Publications (1)

Publication Number Publication Date
CN114996544A true CN114996544A (zh) 2022-09-02

Family

ID=83025363

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210448342.4A Pending CN114996544A (zh) 2022-04-26 2022-04-26 一种基于手机信令数据和Mix-Markov模型的出行路径提取方法

Country Status (1)

Country Link
CN (1) CN114996544A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115439064A (zh) * 2022-09-15 2022-12-06 江南大学 面向订单聚合的拣货路径动态优化方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115439064A (zh) * 2022-09-15 2022-12-06 江南大学 面向订单聚合的拣货路径动态优化方法及系统
CN115439064B (zh) * 2022-09-15 2023-04-18 江南大学 面向订单聚合的拣货路径动态优化方法及系统

Similar Documents

Publication Publication Date Title
CN110047277B (zh) 基于信令数据的城市道路交通拥堵排名方法及系统
CN111681421B (zh) 基于手机信令数据的对外客运枢纽集疏空间分布分析方法
CN111653097B (zh) 一种基于手机信令数据且含个人属性修正的城市出行方式综合识别方法
CN108955693B (zh) 一种路网匹配的方法及系统
CN112133090A (zh) 一种基于手机信令数据的多方式交通分布模型构建方法
Li et al. Transportation mode identification with GPS trajectory data and GIS information
CN111210612B (zh) 基于公交gps数据与站点信息提取公交线路轨迹的方法
CN106997666B (zh) 一种利用手机信令数据位置切换获取交通流速度的方法
CN109446186A (zh) 一种基于移动轨迹的社会关系判断方法
CN111653096A (zh) 一种基于手机信令数据的城市出行方式识别方法
CN110909106B (zh) 一种轨迹预测方法和系统
CN112511982B (zh) 一种出行语义自动标注的地铁乘客轨迹实时追溯还原方法
CN109784416B (zh) 基于手机信令数据的半监督svm的交通方式判别方法
CN111653094A (zh) 一种基于手机信令数据且含路网修正的城市出行方式综合识别方法
CN110598917B (zh) 一种基于路径轨迹的目的地预测方法、系统及存储介质
CN110969861B (zh) 一种车辆识别方法、装置、设备及计算机存储介质
CN114446048B (zh) 基于手机信令数据的轨道交通出行者全出行链分析方法
CN108090722A (zh) 一种基于gps的物流网络站点识别设备与识别方法
CN112309118A (zh) 一种基于时空相似度的车辆轨迹推算方法
CN111144452A (zh) 一种基于信令数据和聚类算法的移动用户出行链提取方法
CN110727714A (zh) 融合时空聚类和支持向量机的居民出行特征提取方法
CN114996544A (zh) 一种基于手机信令数据和Mix-Markov模型的出行路径提取方法
CN109121094A (zh) 伪码信令数据预处理与出行链识别方法
CN115862331A (zh) 考虑卡口网络拓扑结构的车辆出行轨迹重构方法
CN113079463A (zh) 一种基于手机信令数据的旅游景点游客出行活动识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination