CN111144452A - 一种基于信令数据和聚类算法的移动用户出行链提取方法 - Google Patents

一种基于信令数据和聚类算法的移动用户出行链提取方法 Download PDF

Info

Publication number
CN111144452A
CN111144452A CN201911266151.0A CN201911266151A CN111144452A CN 111144452 A CN111144452 A CN 111144452A CN 201911266151 A CN201911266151 A CN 201911266151A CN 111144452 A CN111144452 A CN 111144452A
Authority
CN
China
Prior art keywords
points
time
oscillation
sequence
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911266151.0A
Other languages
English (en)
Other versions
CN111144452B (zh
Inventor
许国良
王超
张轩
李万林
雒江涛
易燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN201911266151.0A priority Critical patent/CN111144452B/zh
Publication of CN111144452A publication Critical patent/CN111144452A/zh
Application granted granted Critical
Publication of CN111144452B publication Critical patent/CN111144452B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/02Services making use of location information
    • H04W4/029Location-based management or tracking services

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于信令数据和聚类算法的移动用户出行链提取方法,属于移动通信和计算机应用领域。具体包括:1)针对常见的轨迹震荡序列类型,完成基于时间窗的震荡轨迹检测,并制定数据修正策略以修正原序列中的震荡轨迹数据;2)计算局部时空密度、高密度空间距离、高密度时间间隔;3)计算各轨迹点的聚类中心权值大小,利用聚类中心权值制定筛选策略自动地选取聚类中心候选点;4)根据基站覆盖场景信息制定合并策略,对冗余的聚类中心候选点进行合并,将合并后的聚类中心点记为停驻点;5)利用各停驻点对原出行轨迹进行划分,得到完整的出行链信息。本发明解决了传统密度聚类算法仅能识别单一密度噪声的问题,降低了计算复杂度。

Description

一种基于信令数据和聚类算法的移动用户出行链提取方法
技术领域
本发明涉及移动通信和计算机应用技术领域,涉及一种基于信令数据和聚类算法的移动用户出行链提取方法。
背景技术
随着智能手机、智能手表、智能行车记录仪等移动通讯设备的普及和移动互联网的快速发展,通信网络运营商积累了海量的信令数据。庞大的用户规模为通信网络运营商提供了海量的数据资源。信令数据与其他数据相比有着覆盖范围广、数据易获取、被动上传、真实可靠等优点。包含位置信息的信令数据已经成为城市计算领域的重要数据来源之一。
信令数据中的位置信息由基站定位产生,相比GPS定位数据存在定位精度低、采样频率低、噪声数据严重等问题,且用户的出行次数、出行目的、出行方式等行为复杂。如何从海量的轨迹数据中提取用户多个驻留点信息,并按照驻留点将复杂轨迹切分成出行模式单一的出行片段成为了一个亟需解决的技术问题。
目前,关于驻留点识别以及出行链提取的算法研究,可以根据有无借助时空轨迹数据之外的额外数据分成两类。第一类方法主要借助来自OpenStreetMap中的兴趣点(Point Of Interests,POI)信息,基于GPS数据按照停留条件(如停留时间)对轨迹点进行筛选,得到与POI信息对应的候选停留点。当POI信息来源可靠且足够丰富时,算法结果是很有意义的,但是目前完善且能够持续更新的POI信息较难获取,从而限制了该类算法的使用范围。第二类方法主要利用常见的K-Means,ST-DBSCAN的聚类算法识别驻留点。其中有学者使用K-Means算法对于历史GPS数据进行学习,将用户轨迹分成K类,然后依次判断各聚类中心是否为驻留点,但算法对K值依赖性强,不适用于驻留点个数未知的场景;也有学者提出了时空聚类的ST-DBSCAN算法,引入Eps1(空间邻域)和Eps2(非空间邻域)两类邻域空间,增加Δε作为阈值以区分距离较近的簇类,但该算法只能过滤单一密度的噪声数据并且需要设置Eps1、Eps2、MinPts、Δε四个独立的参数,在先验知识未知的前提下,如何确定合适的参数也是较大挑战。
因此亟需一种新的移动用户出行链提取方法,以解决上述问题。
发明内容
有鉴于此,本发明的目的在于提供一种基于信令数据和聚类算法的移动用户出行链提取方法,通过该方法可以有效地识别移动用户一段时间内的起讫点信息,最终完成对一段时间内多次出行的轨迹链的提取。
为达到上述目的,本发明提供如下技术方案:
一种基于信令数据和聚类算法的移动用户出行链提取方法,具体包括以下步骤:
S1:针对常见的轨迹震荡序列类型,完成基于时间窗的震荡轨迹检测,并制定震荡轨迹数据修正策略以修正原序列中的震荡轨迹数据;
S2:引入局部时空密度ρi、高密度空间距离δi和高密度时间间隔τi等特征值,计算表示震荡轨迹数据中各轨迹点的时空特性;
S3:根据局部时空密度ρi、高密度空间距离δi和高密度时间间隔τi计算各轨迹点的聚类中心权值γi,参考γi制定筛选策略以自动地选取聚类中心候选点;
S4:根据基站覆盖场景信息制定合并策略,对冗余的聚类中心候选点进行合并,将合并后的聚类中心点记为停驻点;
S5:利用各停驻点对原移动轨迹进行划分,得到完整的出行链信息。
其中,信令数据包括但不限于用户轨迹数据和基站位置数据。
进一步,所述步骤S1中,改进时间窗的震荡轨迹检测具体内容包含但不限于基于时间窗口的震荡轨迹检测方案,以及方案涉及时间窗内序列点个数Nw和最大时间间隔Tw_max等参数的设置。基于时间窗的震荡轨迹检测具体包括以下步骤:
S11:按顺序截取原始数据
Figure BDA0002312892240000021
中的前Nw个位置组成序列Lw,Nw表示时间窗内序列点个数;
S12:检测中Lw是否出现循环模式,如果出现则执行步骤S13,否则序列点向前移1位,重新执行步骤S11,截取后续Nw个位置的序列片段;
S13:对检测到的震荡部分序列记为(Lbeg,...,Lend),判断该针震荡部分序列的总时间是否小于最大时间间隔Tw_max,如果满足,那么将该震荡部分序列记为Losc,同时序列点向前移1位,返回步骤S11;如果不满足,直接返回步骤S11,直至遍历完
Figure BDA0002312892240000022
内所有轨迹点。
进一步,所述步骤S11中时间窗内序列点个数Nw和步骤S13中最大时间间隔Tw_max的设置方法为:时间窗内序列点个数Nw为常见震荡模式的序列长度和;依据平均震荡长度比和平均震荡时间比分别与间隔时间的关系图,以图像曲率突变处的时间间隔作为最大时间间隔Tw_max;其中震荡长度比是指检测到的震荡序列的长度与Nw的比值,震荡时间比是指震荡序列的总时间和时间窗总时间Tw的比值。
进一步,所述步骤S1中,震荡轨迹数据修正策略具体为:根据实际位置点在震荡序列中出现的频次较多或停留时间较长的特点,选取震荡序列中被访问次数最多或在震荡序列中总停留时间最长的点作为真实位置。
进一步,所述步骤S2中,局部时空密度ρi具体表示:在空间维度相距目标点小于截断距离dc,同时在时间维度与目标点间隔时间小于截断时间tc的数据点的个数;数学表示如下:
Figure BDA0002312892240000031
其中,sgn(x)为符号函数,当x>0时,sgn(x)=1;当x=0时,sgn(x)=0;当x<0时,sgn(x)=-1;χ(Δd)为指示函数,当Δd>0时,χ(Δd)=1,其它情况χ(Δd)=0;
高密度空间距离δi具体表示:目标点到比该点局部时空密度ρi更大的点的空间距离的最小值;数学表示如下:
Figure BDA0002312892240000032
对于局部时空密度最高的点,高密度空间距离δi定义为目标点到其它点的空间距离最大值,即
Figure BDA0002312892240000033
高密度时间间隔τi具体表示:目标点到任何比其局部时空密度ρi更大的点的时间间隔的最小值;数学表示如下:
Figure BDA0002312892240000034
对于局部时空密度最高的点,高密度时间间隔τi,定义为目标点到其它点的时间间隔最大值,即:
Figure BDA0002312892240000035
进一步,所述步骤S3中,聚类中心权值γi的具体计算方式为:ρi、δi、τi按照max-min标准归一化后乘积的大小表示数据点作为聚类中心的可能性的大小;数学表示为:
Figure BDA0002312892240000036
筛选策略具体为:将聚类中心权重大于平均值的数据点作为初始的聚类中心候选点。
进一步,所述步骤S4中,合并策略具体为:合并候选点中覆盖场景相同且空间距离小于截断距离dc或时间间隔小于截断时间tc的“相似的”候选数据点;合并原则是保留聚类中心权重较高的点。
进一步,合并“相似的”候选数据点的具体为:
S41:根据覆盖场景对候选点集合中的数据点再次划分;
S42:对在同一覆盖场景内的候选点两两循环判断相距是否满足条件:相似点相距小于截断距离dc;如果满足执行S44,否则执行S43;
S43:对在同一覆盖场景内的候选点两两循环判断相距是否满足条件:相似点相隔小于截断时间tc;如果满足执行S44,否则执行S42,直至候选点集合内不再有相似点;
S44:多个相似点根据聚类中心权重大小,保留权重最大的数据点,执行S42。
进一步,所述步骤S5中,对原移动轨迹进行划分具体为:根据提取出的轨迹中的停驻点,按照时间顺序排列,将该时间段内的轨迹分割成由多组起讫点构成的出行片段,最终形成用户的出行链。
本发明的有益效果在于:本发明针对覆盖范围广、被动上传、采样稀疏的移动信令数据,提出一种基于密度峰值的时空聚类算法,用以识别时空轨迹中的驻留点信息,并根据提取出的轨迹中的停驻点形成用户的出行链。相较电话采访、问卷调查或GPS定位等数据来源,本发明依托的移动信令数据具有覆盖范围广、被动上传、可信度高、容易获取等优势。同时本发明解决了传统密度聚类算法仅能识别单一密度噪声的问题,降低了计算复杂度,为基于信令数据展开的出行方式和出行目的识别等相关研究奠定了重要基础。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1是本发明所述方法的原理图;
图2是震荡时间最大间隔Tw_max与震荡比的关系图;
图3是原始轨迹分布以及驻留点识别结果图,图3(a)为原始数据分布图,图3(b)为决策分析图,图3(c)为聚类后数据分布图(未剪枝),图3(d)为聚类后数据分布图(已剪枝)。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
请参阅图1~图3,图1为本发明所述的一种基于信令数据和聚类算法的移动用户出行链提取方法,其中手机信令数据指信令数据中经过解析后的位置信息,包括但不限于用户轨迹数据和基站位置数据。主要包括用户编号、经度、维度、覆盖场景、时间等字段内容,具体数据如表1所示。
表1用户的具体信令数据
用户编号 经度 维度 覆盖场景 时间
0001A 106.59767 29.40709 城区道路 2018-07-03 15:25:14
0002A 106.61392 29.53832 高校 2018-07-03 16:35:19
其中,用户编号:对原本以手机号码标识的用户脱密处理后的用户标识符,标识符唯一代表一个用户;
经度:当前时刻为该用户提供服务的基站位置的经度信息;
维度:当前时刻为该用户提供服务的基站位置的维度信息;
覆盖场景:当前时刻为该用户提供服务的基站所覆盖的场景标识,主要有“城区道路”、“商业住宅”、“高校”、“车站”等;
时间:因通信行为或位置切换产生的手机与基站信令交互的时刻信息。
如图1所示,本发明所述基于信令数据和聚类算法的移动用户出行链提取方法的一种优选实施例,具体包括以下步骤:
步骤1),针对常见的轨迹震荡序列类型,完成基于时间窗的震荡轨迹检测,并制定数据修正策略以修正原序列中的震荡轨迹数据。
其中,轨迹震荡序列如表2所示,L0-L1-L0为常见轨迹震荡序列模式之一,表示某用户轨迹由L0出发切换至较远距离的L1,经短时间后又切换回L0的震荡现象。
表2轨迹震荡序列
轨迹 位置 时间 距离(km) 切换速度(km/h)
D0 L0(106.607617,29.530807) 08:19:35 / /
D1 L1(106.602659,29.545336) 08:20:14 1.6 147.6923
D2 L0(106.607617,29.530807) 08:20:39 1.6 230.4000
D3 L2(106.602659,29.453360) 08:23:02 1.9 47.8348
基于时间窗的震荡轨迹检测方法具体为:
Step1:按顺序截取原始数据
Figure BDA0002312892240000051
中的前Nw个位置组成序列Lw
其中,Nw表示时间窗内序列点个数,该参数的设置方法具体为:考虑到一个震荡序列中可能包含多种模式的组合,所以选取常见震荡模式(L0-L1-L0或L0-L1-L2-L0以及L0-L1-L0-L2-L3-L2-L1)的序列长度之和为时间窗内序列点个数,即Nw=15。
Step2:检测中Lw是否出现循环模式,如果出现则执行Step3,否则序列点向前移1位,重新执行Step1,截取后续Nw个位置的序列片段;
Step3:对检测到的震荡部分记为(Lbeg,...,Lend),判断该部分序列的总时间是否小于Tw_max,如果满足,那么将该震荡序列记为Losc,同时序列点向前移1位,返回Step1;如果不满足,直接返回Step1,直至遍历完
Figure BDA0002312892240000061
内所有轨迹点。
其中,Tw_max表示最大时间间隔,该参数的设置方法具体为:引入了平均震荡长度比和平均震荡时间比作为评价指标。震荡长度比是指检测到的震荡序列的长度与Nw的比值,震荡时间比是指震荡序列的总时间和时间窗总时间Tw的比值。如图2所示,根据Tw_max与平均震荡长度比和平均震荡时间比的关系可得,当Tw_max<5分钟时,随着Tw_max的增大,平均震荡率都有较大的增加;当Tw_max>5分钟时,曲线变得较为平缓,此时增加Tw_max并不能更好的区分震荡轨迹和真实移动轨迹,并且过大的Tw_max会增加对真实移动轨迹的误检。由此,本发明将最大时间间隔Tw_max取值为5分钟。
震荡轨迹修正策略具体为:根据实际位置点在震荡序列中出现的频次较多或停留时间较长的特点,选取震荡序列中被访问次数最多或在震荡序列中总停留时间最长的点作为真实位置。如表2所示,在轨迹序列L0-L1-L0-L2中,保留在序列中被访问次数最多的L0位置,修正后的轨迹数据为L0-L2。
步骤2),计算移动用户轨迹数据中各个数据点的局部时空密度ρi,高密度空间距离δi,高密度时间间隔τi
计算得到的局部时空密度ρi,高密度空间距离δi,高密度时间间隔τi分别按照max-min准则进行标准化为
Figure BDA0002312892240000062
数学表为:
Figure BDA0002312892240000063
步骤3),计算各个数据点的聚类中心权值γi,权值越大该数据点就越有可能是原始时空数据中的聚类中心点。并将聚类中心权值的平均值作为阈值,大于该阈值的数据点加入到聚类中心候选点集合中。
步骤4),借助原始数据中关于数据点覆盖场景的描述d,以及截断距离dc与截断时间tc,对聚类中心候选点集合中的“相似的”候选数据点进行合并,保留聚类中心权重较高的点,将合并后的聚类中心点记为停驻点。
其中,判断“相似的”候选数据点以及合并的方法具体为:
Step1:根据覆盖场景对候选点集合中的数据点再次划分;
Step2:对在同一覆盖场景内的候选点两两循环判断相距是否满足条件:相似点相距小于截断距离dc,如果满足执行Step4,否则执行Step3;
Step3:对在同一覆盖场景内的候选点两两循环判断相距是否满足条件:相似点相隔小于截断时间tc,如果满足执行Step4),否则执行Step2),直至候选点集合内不再有相似点;
Step4:多个相似点根据聚类中心权重大小,保留权重最大的数据点。执行Step2。
其中,步骤4)的原始轨迹分布以及驻留点识别结果如图3。具体地,原始轨迹分布如图(3a),各坐标轴分别表示经度、纬度、从当日0时起的时间;计算得到各个轨迹点的局部时空密度ρi、高密度空间距离δi、高密度时间间隔τi,将各变量标准化后绘制决策分析图(3b);根据聚类中心权值的大小得到未剪枝情况下的中心点分布图(3c);结合基站覆盖场景等语义信息可得剪枝后的聚类中心分布图(3d)。
步骤5),根据提取出的轨迹中的停驻点,按照时间顺序排列,将该时间段内的轨迹分割成由多组起讫点构成的出行片段,最终形成用户的出行链。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (9)

1.一种基于信令数据和聚类算法的移动用户出行链提取方法,其特征在于,该方法具体包括以下步骤:
S1:针对常见的轨迹震荡序列类型,完成基于时间窗的震荡轨迹检测,并制定震荡轨迹数据修正策略以修正原序列中的震荡轨迹数据;
S2:引入局部时空密度ρi、高密度空间距离δi和高密度时间间隔τi,计算表示震荡轨迹数据中各轨迹点的时空特性;
S3:根据局部时空密度ρi、高密度空间距离δi和高密度时间间隔τi计算各轨迹点的聚类中心权值γi,参考γi制定筛选策略以自动地选取聚类中心候选点;
S4:根据基站覆盖场景信息制定合并策略,对冗余的聚类中心候选点进行合并,将合并后的聚类中心点记为停驻点;
S5:利用各停驻点对原移动轨迹进行划分,得到完整的出行链信息。
2.根据权利要求1所述的基于信令数据和聚类算法的移动用户出行链提取方法,其特征在于,所述步骤S1中,基于时间窗的震荡轨迹检测具体包括以下步骤:
S11:按顺序截取原始数据
Figure FDA0002312892230000011
中的前Nw个位置组成序列Lw,Nw表示时间窗内序列点个数;
S12:检测中Lw是否出现循环模式,如果出现则执行步骤S13,否则序列点向前移1位,重新执行步骤S11,截取后续Nw个位置的序列片段;
S13:对检测到的震荡部分序列记为(Lbeg,...,Lend),判断该针震荡部分序列的总时间是否小于最大时间间隔Tw_max,如果满足,那么将该震荡部分序列记为Losc,同时序列点向前移1位,返回步骤S11;如果不满足,直接返回步骤S11,直至遍历完
Figure FDA0002312892230000012
内所有轨迹点。
3.根据权利要求2所述的基于信令数据和聚类算法的移动用户出行链提取方法,其特征在于,所述步骤S11中时间窗内序列点个数Nw和步骤S13中最大时间间隔Tw_max的设置方法为:时间窗内序列点个数Nw为常见震荡模式的序列长度和;依据平均震荡长度比和平均震荡时间比分别与间隔时间的关系图,以图像曲率突变处的时间间隔作为最大时间间隔Tw_max;其中震荡长度比是指检测到的震荡序列的长度与Nw的比值,震荡时间比是指震荡序列的总时间和时间窗总时间Tw的比值。
4.根据权利要求1所述的基于信令数据和聚类算法的移动用户出行链提取方法,其特征在于,所述步骤S1中,震荡轨迹数据修正策略具体为:根据实际位置点在震荡序列中出现的频次较多或停留时间较长的特点,选取震荡序列中被访问次数最多或在震荡序列中总停留时间最长的点作为真实位置。
5.根据权利要求1所述的基于信令数据和聚类算法的移动用户出行链提取方法,其特征在于,所述步骤S2中,局部时空密度ρi具体表示:在空间维度相距目标点小于截断距离dc,同时在时间维度与目标点间隔时间小于截断时间tc的数据点的个数;数学表示如下:
Figure FDA0002312892230000021
其中,sgn(x)为符号函数,当x>0时,sgn(x)=1;当x=0时,sgn(x)=0;当x<0时,sgn(x)=-1;χ(Δd)为指示函数,当Δd>0时,χ(Δd)=1,其它情况χ(Δd)=0;
高密度空间距离δi具体表示:目标点到比该点局部时空密度ρi更大的点的空间距离的最小值;数学表示如下:
Figure FDA0002312892230000022
对于局部时空密度最高的点,高密度空间距离δi定义为目标点到其它点的空间距离最大值,即
Figure FDA0002312892230000023
高密度时间间隔τi具体表示:目标点到任何比其局部时空密度ρi更大的点的时间间隔的最小值;数学表示如下:
Figure FDA0002312892230000024
对于局部时空密度最高的点,高密度时间间隔τi,定义为目标点到其它点的时间间隔最大值,即:
Figure FDA0002312892230000025
6.根据权利要求1所述的基于信令数据和聚类算法的移动用户出行链提取方法,其特征在于,所述步骤S3中,聚类中心权值γi的具体计算方式为:ρi、δi、τi按照max-min标准归一化后乘积的大小表示数据点作为聚类中心的可能性的大小;数学表示为:
Figure FDA0002312892230000026
筛选策略具体为:将聚类中心权重大于平均值的数据点作为初始的聚类中心候选点。
7.根据权利要求1所述的基于信令数据和聚类算法的移动用户出行链提取方法,其特征在于,所述步骤S4中,合并策略具体为:合并候选点中覆盖场景相同且空间距离小于截断距离dc或时间间隔小于截断时间tc的“相似的”候选数据点;合并原则是保留聚类中心权重较高的点。
8.根据权利要求7所述的基于信令数据和聚类算法的移动用户出行链提取方法,其特征在于,合并“相似的”候选数据点的具体为:
S41:根据覆盖场景对候选点集合中的数据点再次划分;
S42:对在同一覆盖场景内的候选点两两循环判断相距是否满足条件:相似点相距小于截断距离dc;如果满足执行S44,否则执行S43;
S43:对在同一覆盖场景内的候选点两两循环判断相距是否满足条件:相似点相隔小于截断时间tc;如果满足执行S44,否则执行S42,直至候选点集合内不再有相似点;
S44:多个相似点根据聚类中心权重大小,保留权重最大的数据点,执行S42。
9.根据权利要求1所述的基于信令数据和聚类算法的移动用户出行链提取方法,其特征在于,所述步骤S5中,对原移动轨迹进行划分具体为:根据提取出的轨迹中的停驻点,按照时间顺序排列,将该时间段内的轨迹分割成由多组起讫点构成的出行片段,最终形成用户的出行链。
CN201911266151.0A 2019-12-11 2019-12-11 一种基于信令数据和聚类算法的移动用户出行链提取方法 Active CN111144452B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911266151.0A CN111144452B (zh) 2019-12-11 2019-12-11 一种基于信令数据和聚类算法的移动用户出行链提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911266151.0A CN111144452B (zh) 2019-12-11 2019-12-11 一种基于信令数据和聚类算法的移动用户出行链提取方法

Publications (2)

Publication Number Publication Date
CN111144452A true CN111144452A (zh) 2020-05-12
CN111144452B CN111144452B (zh) 2022-10-25

Family

ID=70518047

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911266151.0A Active CN111144452B (zh) 2019-12-11 2019-12-11 一种基于信令数据和聚类算法的移动用户出行链提取方法

Country Status (1)

Country Link
CN (1) CN111144452B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111582948A (zh) * 2020-05-25 2020-08-25 北京航空航天大学 一种基于手机信令数据与poi兴趣点的个体行为分析方法
CN112434225A (zh) * 2020-12-13 2021-03-02 天津市市政工程设计研究院 一种基于过程聚类的手机信令驻留点提取方法
CN112559587A (zh) * 2020-12-06 2021-03-26 复旦大学 基于城市语义图谱的轨迹时空语义模式提取方法
CN112613530A (zh) * 2020-11-23 2021-04-06 北京思特奇信息技术股份有限公司 基于自适应密度聚类算法的小区住户识别方法和系统
CN113946867A (zh) * 2021-10-21 2022-01-18 福建工程学院 基于空间影响力的位置隐私保护方法
CN113963536A (zh) * 2021-10-19 2022-01-21 海南波罗密信息科技有限公司 通过手机信令数据识别居民惯常环境和出行目的的方法
CN114997897A (zh) * 2022-04-07 2022-09-02 重庆邮电大学 一种基于移动数据的易受诈人群画像构建方法
CN117858024A (zh) * 2024-01-09 2024-04-09 东南大学 一种基于手机信令数据的多段出行方式识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110039580A1 (en) * 2008-04-25 2011-02-17 Wigren Torbjoern Radio fingerprint method in a positioning node for providing geographic region data
US20110159886A1 (en) * 2009-12-30 2011-06-30 Telefonaktiebolaget Lm Ericsson (Publ) Method and apparatus for position determination in a cellular communications system
CN109104694A (zh) * 2018-06-26 2018-12-28 重庆市交通规划研究院 一种基于手机信令的用户停留位置发现方法及系统
CN110324787A (zh) * 2019-06-06 2019-10-11 东南大学 一种手机信令数据的职住地获取方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110039580A1 (en) * 2008-04-25 2011-02-17 Wigren Torbjoern Radio fingerprint method in a positioning node for providing geographic region data
US20110159886A1 (en) * 2009-12-30 2011-06-30 Telefonaktiebolaget Lm Ericsson (Publ) Method and apparatus for position determination in a cellular communications system
CN109104694A (zh) * 2018-06-26 2018-12-28 重庆市交通规划研究院 一种基于手机信令的用户停留位置发现方法及系统
CN110324787A (zh) * 2019-06-06 2019-10-11 东南大学 一种手机信令数据的职住地获取方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
XIANGHUA LI: "A Hybrid Algorithm for Estimating Origin-Destination Flows", 《IEEE》, 31 December 2018 (2018-12-31) *
周剑明: "基于手机信令数据的居民出行特征研究", 《信息与电脑(理论版)》, no. 23, 10 December 2019 (2019-12-10) *
周洋 等: "基于时空聚类算法的轨迹停驻点识别研究", 《交通运输系统工程与信息》, 31 December 2018 (2018-12-31) *
周洋等: "基于时空聚类算法的轨迹停驻点识别研究", 《交通运输系统工程与信息》, no. 04, 15 August 2018 (2018-08-15) *
崔邓等: "一种面向移动智能手机用户轨迹停留点提取的时空聚类算法研究", 《西南师范大学学报(自然科学版)》, no. 10, 20 October 2016 (2016-10-20) *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111582948A (zh) * 2020-05-25 2020-08-25 北京航空航天大学 一种基于手机信令数据与poi兴趣点的个体行为分析方法
CN111582948B (zh) * 2020-05-25 2023-04-18 北京航空航天大学 一种基于手机信令数据与poi兴趣点的个体行为分析方法
CN112613530A (zh) * 2020-11-23 2021-04-06 北京思特奇信息技术股份有限公司 基于自适应密度聚类算法的小区住户识别方法和系统
CN112613530B (zh) * 2020-11-23 2024-08-02 北京思特奇信息技术股份有限公司 基于自适应密度聚类算法的小区住户识别方法和系统
CN112559587A (zh) * 2020-12-06 2021-03-26 复旦大学 基于城市语义图谱的轨迹时空语义模式提取方法
CN112559587B (zh) * 2020-12-06 2022-11-18 复旦大学 基于城市语义图谱的轨迹时空语义模式提取方法
CN112434225A (zh) * 2020-12-13 2021-03-02 天津市市政工程设计研究院 一种基于过程聚类的手机信令驻留点提取方法
CN113963536A (zh) * 2021-10-19 2022-01-21 海南波罗密信息科技有限公司 通过手机信令数据识别居民惯常环境和出行目的的方法
CN113946867A (zh) * 2021-10-21 2022-01-18 福建工程学院 基于空间影响力的位置隐私保护方法
CN113946867B (zh) * 2021-10-21 2024-05-31 福建工程学院 基于空间影响力的位置隐私保护方法
CN114997897A (zh) * 2022-04-07 2022-09-02 重庆邮电大学 一种基于移动数据的易受诈人群画像构建方法
CN117858024A (zh) * 2024-01-09 2024-04-09 东南大学 一种基于手机信令数据的多段出行方式识别方法

Also Published As

Publication number Publication date
CN111144452B (zh) 2022-10-25

Similar Documents

Publication Publication Date Title
CN111144452B (zh) 一种基于信令数据和聚类算法的移动用户出行链提取方法
CN106600960B (zh) 基于时空聚类分析算法的交通出行起讫点识别方法
CN104850604B (zh) 一种基于张量的用户轨迹挖掘方法
US20200317200A1 (en) Traffic obstruction detection
Zheng et al. Detecting collective anomalies from multiple spatio-temporal datasets across different domains
CN106912015B (zh) 一种基于移动网络数据的人员出行链识别方法
CN106096631B (zh) 一种基于手机大数据的流动人口分类识别分析方法
CN102682041B (zh) 用户行为识别设备及方法
CN106227726B (zh) 一种基于车辆轨迹数据的路径提取方法
CN104902438B (zh) 一种基于移动通信终端分析客流特征信息的统计方法及其系统
CN110020224B (zh) 地图兴趣点数据的关联方法、装置、设备及介质
CN106951828B (zh) 一种基于卫星影像和网络的城市区域功能属性的识别方法
CN106326923B (zh) 一种顾及位置重复和密度峰值点的签到位置数据聚类方法
CN106997666A (zh) 一种利用手机信令数据位置切换获取交通流速度的方法
CN111931077B (zh) 数据处理方法、装置、电子设备及存储介质
CN110472999A (zh) 基于地铁和共享单车数据的客流模式分析方法及装置
CN103889051A (zh) 基于ap id过滤和卡尔曼滤波的室内wlan指纹定位方法
CN112749825A (zh) 预测车辆的目的地的方法和装置
CN112215666A (zh) 一种基于手机定位数据的不同出行活动目的特征识别方法
CN111222381A (zh) 用户出行方式识别方法、装置、电子设备及存储介质
CN110727714A (zh) 融合时空聚类和支持向量机的居民出行特征提取方法
CN111024098A (zh) 一种基于低采样数据的机动车路径拟合算法
CN109190656B (zh) 一种低采样定位环境下的室内语义轨迹标注和补全方法
CN111414878A (zh) 一种关于地块的社会属性分析、图像处理方法及装置
CN112637781B (zh) 一种基于基站轨迹的用户通行方式判别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant