CN111582948A - 一种基于手机信令数据与poi兴趣点的个体行为分析方法 - Google Patents

一种基于手机信令数据与poi兴趣点的个体行为分析方法 Download PDF

Info

Publication number
CN111582948A
CN111582948A CN202010447795.6A CN202010447795A CN111582948A CN 111582948 A CN111582948 A CN 111582948A CN 202010447795 A CN202010447795 A CN 202010447795A CN 111582948 A CN111582948 A CN 111582948A
Authority
CN
China
Prior art keywords
point
user
time
data
points
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010447795.6A
Other languages
English (en)
Other versions
CN111582948B (zh
Inventor
诸彤宇
许伟
魏翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN202010447795.6A priority Critical patent/CN111582948B/zh
Publication of CN111582948A publication Critical patent/CN111582948A/zh
Application granted granted Critical
Publication of CN111582948B publication Critical patent/CN111582948B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/02Services making use of location information
    • H04W4/029Location-based management or tracking services
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/20Services signaling; Auxiliary data signalling, i.e. transmitting data via a non-traffic channel
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Remote Sensing (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种基于手机信令数据与POI兴趣点数据的个体行为分析方法,用于解决特殊社会人群的个人出行行为辨识问题。该方法包含个人出行特征提取与出行行为预测两部分:(1)个人出行特征提取:使用手机信令数据,完成个人的出行链提取;基于个人出行链数据,设计出行特征,结合POI兴趣点数据完成个人出行特征的计算。(2)个人出行行为预测:基于个人的出行特征,采用决策树的方法对个人的出行行为进行预测。

Description

一种基于手机信令数据与POI兴趣点的个体行为分析方法
技术领域
本发明属于轨迹数据挖掘领域,更具体地说,是一种根据轨迹数据的个体行为分析方法,可用于分析目标属性人群的活动规律与生活习惯。
背景技术
近几年来,随着智能手机与4G通信技术的普及,手机已成为大部分人每天随身携带的设备之一,手机信令数据因此具有数据量大,覆盖用户面广等优点。通过分析手机信令数据,出行特征,得出人群活动规律、生活习性等较为丰富的语义信息,逐渐成为了轨迹数据挖掘领域研究的热点。
交通出行对于每个居民的日常生活都十分重要,出行作为一种派生性需求,个体基于活动,通过安排出行OD(origin-destnation,起止点)、出行时间和出行方式来组织日常生活。在“交通公平性”的目的和背景下,通过分析低收入等特殊人群的出行模式,解决这部分人群的日常出行问题显得十分重要。
关于如何分析特殊人群的出行行为这一问题,目前大部分的解决方案是采用调查问卷的方式,该方法具有数据量低、样本随机性大等缺点。本发明提出了一种基于手机信令数据与POI兴趣点数据的个人出行行为估计方法,充分利用了手机信令数据覆盖用户面广,数据量大等优点,较为准确地分析了特殊人群的出行行为。
发明内容
本发明的技术解决问题:解决了使用调查问卷等传统方式获取人群出行行为样本随机性大、数据量低等问题。提出了基于手机信令数据与POI兴趣点数据的个人出行行为估计方法,该方法能较为准确地分析用户的出行行为。
本发明的技术解决方案为:一种基于手机信令数据与POI兴趣点的个体行为分析方法,步骤如下:
步骤1、获取个体手机信令数据,对手机信令数据进行预处理;首先剔除数据格式错误,数据字段缺失的数据;然后通过时间阈值与空间阈值,完成长距离抖动信令数据的剔除;最后通过制定活跃用户判别规则,完成优质用户的提取;
步骤2、通过手机信令数据预处理,得到蕴含用户时空信息的信令数据;采用ST-DBSCAN密度聚类算法,完成用户停留态,移动态的识别;生成用户的出行链数据;根据用户的多天的出行链数据,设立居家时间段与工作时间段,完成用户职住地数据的提取;
步骤3、根据用户的出行链数据与职住地数据,结合周边POI兴趣点数据,POI兴趣点在地理信息系统中指某个位置点的周边信息,比如银行、商店、加油站等。可以通过调用互联网地图服务商提供的接口来获取POI信息,结合个体的出行链数据与职住数据,分析个体的出行行为设计出行特征数据:包括用户离家时间,用户归家时间,用户出行距离,用户出行次数,用户出行轨迹相似性,用户出行时间,用户居住地数量,用户工作地数量;依据用户出行特征数据,采用决策树预测方法,完成个体行为的分析。
进一步的,所述步骤(1)中长距离抖动信令数据的剔除具体实现过程如下:
对于某一用户一段时间内产生的手机信令数据序列:cellDatai-1(lngi-1,lati-1,timei-1),cellDatai(lngi,lati,timei),
cellDatai+1(lngi+1,lati+1,timei+1)...,其中cellData表示信令数据,lng表示该信令数据产生时的位置的经度,lat表示该信令产生的位置的纬度,time表示该信令发生的时间;i表示信令的序号;剔除条件如下:
Dis(cellDatai-1,cellDatai)>Dthread∩
Dis(cellDatai,cellDatai+1)>Dthread∩
Spd(cellDatai-1,cellDatai)>Sthread∩
Spd(cellDatai,cellDatai+1)>Sthread
其中,Dis(cellDatai-1,cellDatai)表示信令i-1与信令i之间的产生的位置点之间的距离,Spd(cellDatai-1,cellDatai)表示用户产生信令i-1与产生信令i之间的移动速度;Dthread表示距离阈值,Sthread表示速度阈值;结合城市人群出行规律,Dthread取3000m,Sthread取180km/h;将符合条件的信令i删除;
进一步的,所述步骤(1)中优质用户的提取过程如下:
所述优质用户的定义为:
(1.1)用户产生的一天内产生的信令数量大于80条;
(1.2)用户在0点-7点间产生过3条以上的信令;
(1.3)用户在8点-18点间每小时产生过1条以上的信令;
(1.4)用户在19点-24点间产生过3条以上的信令;
同时满足上述四个条件的用户为优质用户,使用优质用户产生的信令数据进行后续分析。
进一步的,所述步骤(2)具体实现过程如下:
对于某个用户产生的信令数据序列格式为:...cellDatai-1(lngi-1,lati-1,timei-1),cellDatai(lngi,lati,timei),cellDatai+1(lngi+1,lati+1,timei+1)...;其中cellData表示信令数据,lng表示该信令数据产生时的位置的经度,lat表示该信令产生的位置的纬度,time表示该信令发生的时间;
为提取用户的出行链,处理过程中的相关定义如下:
停留点:stopPoint(startTime,endTime,lng,lat),其中startTime表示停留开始时间,endTime表示停留结束时间,lng表示停留点位置的经度,lat表示停留点位置的纬度;
移动点:movePoint(time,lng,lat),其中time表示移动时间,lng表示移动点位置的经度;
出行链:tripChain(stopPointi,movePointi...movePointn,stopPointi+1...),出行链由用户的停留点stopPoint与移动点movePoint按时间发生顺序构成。
进一步的,步骤(2)中,通过对信令数据采用ST-DBSCAN算法生成用户的停留点及出行链数据;
用户处于停留状态在数据层面上表示为多条时间,空间上相近的信令集合,采用ST-DBSCAN算法对信令数据在时间层面上与空间层面上进行聚类,算法相关定义如下:ε-邻域:点p的ε-邻域是指以点p为圆心、ε为半径的区域。
核心点:点p被称为核心点当且仅当点p的ε-邻域内的时序前驱和后继点的时间跨度超过最短时间跨度阈值MinTimeSpan。
直接时间密度可达:点q由核心点p直接时间密度可达当且仅当点q在点p的ε-邻域内并且点q是点p的时序直接前驱或后继点,或是p直接时间密度可达点的时序直接前驱或后继点;
时间密度可达:点q由点p时间密度可达当且仅当存在一条路径p1,p2,…,pn,其中p1=p,pn=q,对任意点pi+1都由pi直接时间密度可达。
ST-DBSCAN算法按以下流程执行:
步骤(2.1)载入用户位置序列D,把D中的点按时间先后顺序排序,并把所有的点标记为未被访问unvisited;
步骤(2.2)从排序后的序列中选择第一个未被访问的点p,标记为已被访问visited;判断点p是否是核心点;如果点p是核心点,则创建一个新的簇C,把点p加入簇C;如果点p不是核心点,则把点p标记为移动点;如果点p是核心点,创建一个集合N保存点p的所有时间密度可达点;
步骤(2.3)对于N中的任意一个未被访问的点q:如果点q当前不属于任何簇,把点q加入簇C中;如果点q是核心点,把点q的所有时间密度可达点加入集合N中;
步骤(2.4)重复步骤(2.3)直到集合N中所有的点都被访问;
步骤(2.5)重复步骤(2.2),直到所有的点都被访问;
进一步的,步骤(2)中,
停留点蕴含的语义信息比较匮乏,仅能表示用户的停留、移动状态。人群在停留时都从事某项活动,例如工作、休息、娱乐等等。一般人群一天中的大量时间都花费在工作与居家休息这两项活动中,因此根据停留点的时间段为停留点赋予居家、工作属性;
结合日常通勤规律,定义居家时间段为0点-7点、19点-24点;工作时间段为7点-19点。
停留点属性算法如下:
步骤(2.1a)、从用户出行链中读取一个停留点SP,并计算其与工作时间段的交集时长;
步骤(2.2a)、如果停留点SP与工作时段的交集时长大于3小时并且交集时长占停留点SP停留时段的50%以上,将停留点SP标记为工作地;
步骤(2.3a)、否则计算停留点SP与居住时间段的交集时长,如果停留点SP与居住时段的交集时长大于2小时并且交集时长占停留点SP停留时段的50%以上,将停留点SP标记为居住地;
若步骤(2.2a)和步骤(2.3a)的条件均不满足,将停留点SP标记为其他;
重复步骤(2.1a),直到所有的停留点均被访问。
进一步的,所述步骤(3)具体实现过程如下:
基于个人出行链与职住点及POI兴趣点数据,设计出行特征如下:
离家时间:leaveHomeTime,指用户第一次离开居住地的时间;
居住地数量:homeCpunt,指用户的居住地数量;
工作地数量:workCount,指用户的工作地数量;
回家时间:returnHomeTime,指用户最后一次返回居住地的时间;
出行距离:tripDis,指用户一天当中的移动距离,具体计算公式为:
Figure BDA0002506570350000051
其中dis表示两个相邻停留点间的距离,n为停留点的数量;
出行时间:tripTime,指用户一天当中处于移动状态的时间,具体计算公式为:
Figure BDA0002506570350000052
出行次数:tripfreq,指用户一天的移动次数,具体为用户当天的停留点数量减1;
出行轨迹相似性:routeSimilar,指用户多天内的出行轨迹的相似程度;将一天划分为24个小时,根据用户的出行链信息计算用户在每个时段的停留位置;采用最长公共子序列LCSS算法计算用户的出行轨迹相似性;
进一步的,基于个人出行链与职住点及POI兴趣点数据,设计POI特征如下:
POI特征为:从互联网地图上爬取POI兴趣点数据,根据数据类别将其分为5类:科教文化、住宅区、工业园区、商业楼宇、其他;
POI数据的格式如下:POI(kind,lng,lat),其中kind表示POI类别,lng表示该POI位置的经度,lat表示该POI位置的纬度;定义居家时间段为0点-7点、19点-24点;工作时间段为7点-19点;定义如下特征:
PoiHomeTimei i∈{1,2,3,4,5}:表示用户一天内在第i个类别的POI区域内停留时长占居家时间段的比例;
PoiWorkTimei i∈{1,2,3,4,5}:表示用户一天内在第i个类别的POI区域内停留时长占工作时间段的比例;
采用人工标注的方式,将人群的出行行为分为4类,分别为高校学生的出行行为、工厂工人的出行行为、一般通勤者的出行行为、其他人员的出行行为;使用标注好的训练集进行决策树预测模型的构建,选取部分没有标注的用户的信令数据,计算其出行特征,完成特征向量的构建;使用训练好的预测模型输出用户出行行为的分析结果,得到出行行为为高校学生、工厂工人、一般通勤者、其他人员出行行为中的一种。
有益效果:
关于如何分析特殊人群的出行行为这一问题,目前大部分的解决方案是采用调查问卷的方式,该方法具有数据量低、样本随机性大等缺点。本发明提出了一种基于手机信令数据与POI兴趣点数据的个人出行行为估计方法,充分利用了手机信令数据覆盖用户面广,数据量大等优点,较为准确地分析了特殊人群的出行行为。
附图说明:
图1:本发明提出的出行行为预测模型图;
图2:本发明时空密度聚类算法(ST-DBSCAN)流程图;
图3:本发明停留点属性识别流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅为本发明的一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域的普通技术人员在不付出创造性劳动的前提下所获得的所有其他实施例,都属于本发明的保护范围。
根据本本发明的一个实施例,本发明提出一种基于手机信令数据与POI兴趣点的个体行为分析方法,包括如下步骤:
(1)根据手机信令数据已发生基站抖动、采样频率较低等特点,对手机信令数据进行预处理工作。首先剔除数据格式错误,数据字段缺失的数据;然后通过设立合理的时间阈值与空间阈值,完成长距离抖动信令数据的剔除;最后通过制定活跃用户判别规则,完成优质用户的提取。
(2)完成信令数据预处理后,可以得到蕴含用户时空信息的信令数据。采用基于时空维度数据的密度聚类算法(ST-DBSCAN)算法,完成用户停留态,移动态的识别。生成用户的出行链数据。根据用户的多天的出行链数据,设立居家时间段与工作时间段,完成用户职住的提取。
(3)根据用户的出行链数据与职住地数据,结合POI兴趣点数据,设计出行特征:用户离家时间,用户归家时间,用户出行距离,用户出行次数,用户出行轨迹相似性,用户出行时间,用户居住地数量,用户工作地数量。最终依据用户出行特征数据,采用决策树预测方法,完成个人出行行为的预测。
所述步骤(1)具体实现过程如下:
手机信令数据存在着长距离基站抖动的情况,以某一用户一段时间内产生的手机信令数据序列为例:...cellDatai-1(lngi-1,lati-1,timei-1),cellDatai(lngi,lati,timei),cellDatai+1(lngi+1,lati+1,timei+1)...,其中cellData表示信令数据,lng表示该信令数据产生时的位置的经度,lat表示该信令产生的位置的纬度,time表示该信令发生的时间。长距离抖动具体表示为信令在短时间内跳跃一个距离较远的位置点,随后又在短时间内跳回原位置点。这种长距离抖动的信令对后续分析影响较大,应予以剔除,为此制定剔除规则如下:
Dis(cellDatai-1,cellDatai)>Dthread∩
Dis(cellDatai,cellDatai+1)>Dthread∩
Spd(cellDatai-1,cellDatai)>Sthread∩
Spd(cellDatai,cellDatai+1)>Sthread
其中,Dis(cellDatai-1,cellDatai)表示信令i-1与信令i之间的产生的位置点之间的距离,Spd(cellDatai-1,cellDatai)表示信令i-1与信令i之间的移动速度。Dthread表示距离阈值,Sthread表示速度阈值。结合城市人群出行规律,Dthread取3000m,Sthread取180km/h。将符合规则的信令i删除。
手机信令数据具有数据量大,采样频率不均匀等特点。为此需筛选出产生信令量较多,产生信令时间较均匀的优质用户进行后续分析。其中优质用户的定义如下:
(1.1)用户产生的一天内产生的信令数量大于80条;
(1.2)用户在0点-7点间产生过3条以上的信令;
(1.3)用户在8点-18点间每小时产生过1条以上的信令;
(1.4)用户在19点-24点间产生过3条以上的信令同时满足以上四个条件的优质用户,使用优质用户产生的信令数据进行后续分析。
所述步骤(2)具体实现过程如下:
某个用户产生的信令数据序列格式为:...cellDatai-1(lngi-1,lati-1,timei-1),cellDatai(lngi,lati,timei),cellDatai+1(lngi+1,lati+1,timei+1)...。其中cellData表示信令数据,lng表示该信令数据产生时的位置的经度,lat表示该信令产生的位置的纬度,time表示该信令发生的时间。为提取用户的出行链,给出处理过程中的相关定义:
停留点:stopPoint(startTime,endTime,lng,lat),其中startTime表示停留开始时间,endTime表示停留结束时间,lng表示停留点位置的经度,lat表示停留点位置的纬度。
移动点:movePoint(time,lng,lat),其中time表示移动时间,lng表示移动点位置的经度。
出行链:tripChain(stopPointi,movePointi...movePointn,stopPointi+1...),出行链由用户的停留点stopPoint与移动点move按时间发生顺序构成。
用户处于停留状态在数据层面上表示为多条时间,空间上相近的信令集合,因此采用ST-DBSCAN算法对信令数据在时间层面上与空间层面上进行聚类,算法如下:
ε-邻域:点p的ε-邻域是指以点p为圆心、ε为半径的区域。
核心点:点p被称为核心点当且仅当点p的ε-邻域内的时序前驱和后继点的时间跨度超过最短时间跨度阈值MinTimeSpan;
直接时间密度可达:点q由核心点p直接时间密度可达当且仅当点q在点p的ε-邻域内并且点q是点p的时序直接前驱或后继点,或是p直接时间密度可达点的时序直接前驱或后继点;
时间密度可达:点q由点p时间密度可达当且仅当存在一条路径p1,p2,…,pn,其中p1=p,pn=q,对任意点pi+1都由pi直接时间密度可达;
ST-DBSCAN算法按以下流程执行:
步骤(2.1)载入用户位置序列D,把D中的点按时间先后顺序排序,并把所有的点标记为未被访问unvisited;
步骤(2.2)从排序后的序列中选择第一个未被访问的点p,标记为已被访问visited;判断点p是否是核心点;如果点p是核心点,则创建一个新的簇C,把点p加入簇C;如果点p不是核心点,则把点p标记为移动点;如果点p是核心点,创建一个集合N保存点p的所有时间密度可达点;
步骤(2.3)对于N中的任意一个未被访问的点q:如果点q当前不属于任何簇,把点q加入簇C中;如果点q是核心点,把点q的所有时间密度可达点加入集合N中;
步骤(2.4)重复步骤(2.3)直到集合N中所有的点都被访问;
步骤(2.5)重复步骤(2.2),直到所有的点都被访问。
通过对信令数据采用ST-DBSCAN算法可以生成用户的停留点及出行链数据。停留点蕴含的语义信息比较匮乏,仅能表示用户的停留、移动状态。人群在停留时都从事某项活动,例如工作、休息、娱乐等等。一般人群一天中的大量时间都花费在工作与居家休息这两项活动中,因此根据停留点的时间段为停留点赋予居家、工作属性。结合日常通勤规律,定义居家时间段为0点-7点、19点-24点;工作时间段为7点-19点。
停留点属性算法如下:
步骤(2.1a)、从用户出行链中读取一个停留点SP,并计算其与工作时间段的交集时长;
步骤(2.2a)、如果停留点SP与工作时段的交集时长大于3小时并且交集时长占停留点SP停留时段的50%以上,将停留点SP标记为工作地;
步骤(2.3a)、否则计算停留点SP与居住时间段的交集时长,如果停留点SP与居住时段的交集时长大于2小时并且交集时长占停留点SP停留时段的50%以上,将停留点SP标记为居住地;
若步骤(2.2a)和步骤(2.3a)的条件均不满足,将停留点SP标记为其他;重复步骤(2.1a),直到所有的停留点均被访问。
所述步骤(3)具体实现过程如下:
基于个人出行链与职住点及POI兴趣点数据,设计出行特征如下:
离家时间:leaveHomeTime,指用户第一次离开居住地的时间
居住地数量:homeCpunt,指用户的居住地数量
工作地数量:workCount,指用户的工作地数量
回家时间:returnHomeTime,指用户最后一次返回居住地的时间
出行距离:tripDis,指用户一天当中的移动距离,具体计算公式为:
Figure BDA0002506570350000091
其中dis表示两个相邻停留点间的距离。
出行时间:tripTime,指用户一天当中处于移动状态的时间,具体计算公式为:
Figure BDA0002506570350000092
出行次数:tripfreq,指用户一天的移动次数,具体为用户当天的停留点数量减1。
出行轨迹相似性:routeSimilar,指用户多天内的出行轨迹的相似程度。将一天划分为24个小时,根据用户的出行链信息计算用户在每个时段的停留位置。采用LCSS(最长公共子序列)算法计算用户的出行轨迹相似性。
POI特征:从互联网地图上爬取POI兴趣点数据,根据数据类别将其分为5类:科教文化、住宅区、工业园区、商业楼宇、其他。POI数据的格式如下:POI(kind,lng,lat),其中kind表示POI类别,lng表示该POI位置的经度,lat表示该POI位置的纬度。定义居家时间段为0点-7点、19点-24点;工作时间段为7点-19点。定义如下特征:
PoiHomeTimei i∈{1,2,3,4,5}:表示用户一天内在第i个类别的POI区域内停留时长占居家时间段的比例;
PoiWorkTimei i∈{1,2,3,4,5}:表示用户一天内在第i个类别的POI区域内停留时长占工作时间段的比例;
采用人工标注的方式,将人群的出行行为分为4类,分别为高校学生的出行行为、工厂工人的出行行为、一般通勤者的出行行为、其他人员的出行行为;使用标注好的训练集进行决策树预测模型的构建,选取部分没有标注的用户的信令数据,计算其出行特征,完成特征向量的构建;使用训练好的预测模型输出用户出行行为的分析结果。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,且应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (8)

1.一种基于手机信令数据与POI兴趣点的个体行为分析方法,其特征在于,步骤如下:
步骤1、获取个体手机信令数据,对手机信令数据进行预处理;首先剔除数据格式错误,数据字段缺失的数据;然后通过时间阈值与空间阈值,完成长距离抖动信令数据的剔除;最后通过制定活跃用户判别规则,完成优质用户的提取;
步骤2、通过手机信令数据预处理,得到蕴含用户时空信息的信令数据;采用ST-DBSCAN密度聚类算法,完成用户停留态,移动态的识别;生成用户的出行链数据;根据用户的多天的出行链数据,设立居家时间段与工作时间段,完成用户职住地数据的提取;
步骤3、根据用户的出行链数据与职住地数据,结合周边POI兴趣点数据,结合个体的出行链数据与职住数据,设计出行特征数据:包括用户离家时间,用户归家时间,用户出行距离,用户出行次数,用户出行轨迹相似性,用户出行时间,用户居住地数量,用户工作地数量;依据用户出行特征数据,采用决策树预测方法,完成个体出行行为分析。
2.根据权利要求1所述的基于手机信令数据及POI兴趣点数据的个人出行行为预测方法,其特征在于:
所述步骤(1)中长距离抖动信令数据的剔除具体实现过程如下:
对于某一用户一段时间内产生的手机信令数据序列:cellDatai-1(lngi-1,lati-1,timei-1),cellDatai(lngi,lati,timei),cellDatai+1(lngi+1,lati+1,timei+1)...,其中cellData表示信令数据,lng表示该信令数据产生时的位置的经度,lat表示该信令产生的位置的纬度,time表示该信令发生的时间;i表示信令的序号;剔除条件如下:
Dis(cellDatai-1,cellDatai)>Dthread∩
Dis(cellDatai,cellDatai+1)>Dthread∩
Spd(cellDatai-1,cellDatai)>Sthread∩
Spd(cellDatai,cellDatai+1)>Sthread
其中,Dis(cellDatai-1,cellDatai)表示信令i-1与信令i之间的产生的位置点之间的距离,Spd(cellDatai-1,cellDatai)表示用户产生信令i-1与产生信令i之间的移动速度;Dthread表示距离阈值,Sthread表示速度阈值;结合城市人群出行规律,将符合条件的信令i删除。
3.根据权利要求1所述的基于手机信令数据及POI兴趣点数据的个人出行行为预测方法,其特征在于:
所述步骤(1)中优质用户的提取过程如下:
所述优质用户的定义为:
(1.1)用户产生的一天内产生的信令数量大于80条;
(1.2)用户在0点-7点间产生过3条以上的信令;
(1.3)用户在8点-18点间每小时产生过1条以上的信令;
(1.4)用户在19点-24点间产生过3条以上的信令;
同时满足上述四个条件的用户为优质用户,使用优质用户产生的信令数据进行后续分析。
4.根据权利要求1所述的基于手机信令数据及POI兴趣点数据的个人出行行为预测方法,其特征在于:
所述步骤(2)具体实现过程如下:
对于某个用户产生的信令数据序列格式为:...cellDatai-1(lngi-1,lati-1,timei-1),cellDatai(lngi,lati,timei),cellDatai+1(lngi+1,lati+1,timei+1)...;其中cellData表示信令数据,lng表示该信令数据产生时的位置的经度,lat表示该信令产生的位置的纬度,time表示该信令发生的时间;
为提取用户的出行链,处理过程中的相关定义如下:
停留点:stopPoint(startTime,endTime,lng,lat),其中startTime表示停留开始时间,endTime表示停留结束时间,lng表示停留点位置的经度,lat表示停留点位置的纬度;
移动点:movePoint(time,lng,lat),其中time表示移动时间,lng表示移动点位置的经度;
出行链:tripChain(stopPointi,movePointi...movePointn,stopPointi+1...),出行链由用户的停留点stopPoint与移动点movePoint按时间发生顺序构成。
5.根据权利4所述的基于手机信令数据与POI兴趣点的个体行为分析方法,其特征在于:
步骤(2)中,通过对信令数据采用ST-DBSCAN算法生成用户的停留点及出行链数据;
用户处于停留状态在数据层面上表示为多条时间,空间上相近的信令集合,采用ST-DBSCAN算法对信令数据在时间层面上与空间层面上进行聚类,算法相关定义如下:
ε-邻域:点p的ε-邻域是指以点p为圆心、ε为半径的区域。
核心点:点p被称为核心点当且仅当点p的ε-邻域内的时序前驱和后继点的时间跨度超过最短时间跨度阈值MinTimeSpan;
直接时间密度可达:点q由核心点p直接时间密度可达当且仅当点q在点p的ε-邻域内并且点q是点p的时序直接前驱或后继点,或是p直接时间密度可达点的时序直接前驱或后继点;
时间密度可达:点q由点p时间密度可达当且仅当存在一条路径p1,p2,…,pn,其中p1=p,pn=q,对任意点pi+1都由pi直接时间密度可达;
ST-DBSCAN算法按以下流程执行:
步骤(2.1)载入用户位置序列D,把D中的点按时间先后顺序排序,并把所有的点标记为未被访问unvisited;
步骤(2.2)从排序后的序列中选择第一个未被访问的点p,标记为已被访问visited;判断点p是否是核心点;如果点p是核心点,则创建一个新的簇C,把点p加入簇C;如果点p不是核心点,则把点p标记为移动点;如果点p是核心点,创建一个集合N保存点p的所有时间密度可达点;
步骤(2.3)对于N中的任意一个未被访问的点q:如果点q当前不属于任何簇,把点q加入簇C中;如果点q是核心点,把点q的所有时间密度可达点加入集合N中;
步骤(2.4)重复步骤(2.3)直到集合N中所有的点都被访问;
步骤(2.5)重复步骤(2.2),直到所有的点都被访问。
6.根据权利5所述的基于手机信令数据与POI兴趣点的个体行为分析方法,其特征在于:
步骤(2)中,结合日常通勤规律,定义居家时间段为0点-7点、19点-24点;工作时间段为7点-19点;
停留点属性算法如下:
步骤(2.1a)、从用户出行链中读取一个停留点SP,并计算其与工作时间段的交集时长;
步骤(2.2a)、如果停留点SP与工作时段的交集时长大于3小时并且交集时长占停留点SP停留时段的50%以上,将停留点SP标记为工作地;
步骤(2.3a)、否则计算停留点SP与居住时间段的交集时长,如果停留点SP与居住时段的交集时长大于2小时并且交集时长占停留点SP停留时段的50%以上,将停留点SP标记为居住地;
若步骤(2.2a)和步骤(2.3a)的条件均不满足,将停留点SP标记为其他;
重复步骤(2.1a),直到所有的停留点均被访问。
7.根据权利要求1所述的基于手机信令数据及POI兴趣点数据的个人出行行为分析方法,其特征在于:
所述步骤(3)具体实现过程如下:
基于个人出行链与职住点及POI兴趣点数据,设计出行特征如下:
离家时间:leaveHomeTime,指用户第一次离开居住地的时间;
居住地数量:homeCpunt,指用户的居住地数量;
工作地数量:workCount,指用户的工作地数量;
回家时间:returnHomeTime,指用户最后一次返回居住地的时间;
出行距离:tripDis,指用户一天当中的移动距离,具体计算公式为:
Figure FDA0002506570340000041
其中dis表示两个相邻停留点间的距离,n为停留点的数量;
出行时间:tripTime,指用户一天当中处于移动状态的时间,具体计算公式为:
Figure FDA0002506570340000042
出行次数:tripfreq,指用户一天的移动次数,具体为用户当天的停留点数量减1;
出行轨迹相似性:routeSimilar,指用户多天内的出行轨迹的相似程度;将一天划分为24个小时,根据用户的出行链信息计算用户在每个时段的停留位置;采用最长公共子序列LCSS算法计算用户的出行轨迹相似性。
8.根据权利要求7所述的基于手机信令数据及POI兴趣点数据的个人出行行为分析方法,其特征在于:
基于个人出行链与职住点及POI兴趣点数据,设计POI特征如下:
POI特征为:从互联网地图上爬取POI兴趣点数据,根据数据类别将其分为5类:科教文化、住宅区、工业园区、商业楼宇、其他;
POI数据的格式如下:POI(kind,lng,lat),其中kind表示POI类别,lng表示该POI位置的经度,lat表示该POI位置的纬度;定义居家时间段为0点-7点、19点-24点;工作时间段为7点-19点;定义如下特征:
PoiHomeTimeii∈{1,2,3,4,5}:表示用户一天内在第i个类别的POI区域内停留时长占居家时间段的比例;
PoiWorkTimeii∈{1,2,3,4,5}:表示用户一天内在第i个类别的POI区域内停留时长占工作时间段的比例;
采用人工标注的方式,将人群的出行行为分为4类,分别为高校学生的出行行为、工厂工人的出行行为、一般通勤者的出行行为、其他人员的出行行为;使用标注好的训练集进行决策树预测模型的构建,选取部分没有标注的用户的信令数据,计算其出行特征,完成特征向量的构建;使用训练好的预测模型输出用户出行行为的分析结果。
CN202010447795.6A 2020-05-25 2020-05-25 一种基于手机信令数据与poi兴趣点的个体行为分析方法 Active CN111582948B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010447795.6A CN111582948B (zh) 2020-05-25 2020-05-25 一种基于手机信令数据与poi兴趣点的个体行为分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010447795.6A CN111582948B (zh) 2020-05-25 2020-05-25 一种基于手机信令数据与poi兴趣点的个体行为分析方法

Publications (2)

Publication Number Publication Date
CN111582948A true CN111582948A (zh) 2020-08-25
CN111582948B CN111582948B (zh) 2023-04-18

Family

ID=72125319

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010447795.6A Active CN111582948B (zh) 2020-05-25 2020-05-25 一种基于手机信令数据与poi兴趣点的个体行为分析方法

Country Status (1)

Country Link
CN (1) CN111582948B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112541551A (zh) * 2020-12-16 2021-03-23 中国联合网络通信集团有限公司 加油站用户信息处理方法、装置及服务器
CN112667760A (zh) * 2020-12-24 2021-04-16 北京市安全生产科学技术研究院 一种用户出行活动轨迹编码方法
CN112784901A (zh) * 2021-01-22 2021-05-11 北京航空航天大学 一种基于位置数据的行人出行分类检测方法和系统
CN113473399A (zh) * 2021-06-28 2021-10-01 京东城市(北京)数字科技有限公司 异常聚集事件检测方法、装置、计算机设备及存储介质
CN113656709A (zh) * 2021-08-24 2021-11-16 东北大学 一种融合知识图谱和时序特征的可解释兴趣点推荐方法
WO2022041262A1 (zh) * 2020-08-31 2022-03-03 苏州大成电子科技有限公司 一种基于大数据的城市轨交用户锚点计算方法
CN114741612A (zh) * 2022-06-13 2022-07-12 北京融信数联科技有限公司 一种基于大数据的消费习惯分类方法、系统和存储介质
CN115034524A (zh) * 2022-08-11 2022-09-09 北京融信数联科技有限公司 基于手机信令的工作居住人口预测方法、系统和存储介质
CN115086880A (zh) * 2022-08-22 2022-09-20 广州市城市规划勘测设计研究院 一种出行特征识别方法、装置、设备及存储介质
CN115587503A (zh) * 2022-11-23 2023-01-10 深圳市城市交通规划设计研究中心股份有限公司 基于多模式仿真的个体出行链还原方法
CN117098071A (zh) * 2023-10-13 2023-11-21 中国移动紫金(江苏)创新研究院有限公司 出行识别方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120100867A1 (en) * 2010-10-25 2012-04-26 Alohar Mobile Inc. Determining Points of Interest of a Mobile User
CN108650632A (zh) * 2018-04-28 2018-10-12 广州市交通规划研究院 一种基于职住对应关系和时空间核聚类的驻点判断方法
CN110956188A (zh) * 2018-09-26 2020-04-03 北京融信数联科技有限公司 基于移动通信信令数据的人口行为轨迹数字化编码方法
CN111144452A (zh) * 2019-12-11 2020-05-12 重庆邮电大学 一种基于信令数据和聚类算法的移动用户出行链提取方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120100867A1 (en) * 2010-10-25 2012-04-26 Alohar Mobile Inc. Determining Points of Interest of a Mobile User
CN108650632A (zh) * 2018-04-28 2018-10-12 广州市交通规划研究院 一种基于职住对应关系和时空间核聚类的驻点判断方法
CN110956188A (zh) * 2018-09-26 2020-04-03 北京融信数联科技有限公司 基于移动通信信令数据的人口行为轨迹数字化编码方法
CN111144452A (zh) * 2019-12-11 2020-05-12 重庆邮电大学 一种基于信令数据和聚类算法的移动用户出行链提取方法

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022041262A1 (zh) * 2020-08-31 2022-03-03 苏州大成电子科技有限公司 一种基于大数据的城市轨交用户锚点计算方法
CN112541551A (zh) * 2020-12-16 2021-03-23 中国联合网络通信集团有限公司 加油站用户信息处理方法、装置及服务器
CN112541551B (zh) * 2020-12-16 2023-11-24 中国联合网络通信集团有限公司 加油站用户信息处理方法、装置及服务器
CN112667760A (zh) * 2020-12-24 2021-04-16 北京市安全生产科学技术研究院 一种用户出行活动轨迹编码方法
CN112667760B (zh) * 2020-12-24 2022-03-29 北京市应急管理科学技术研究院 一种用户出行活动轨迹编码方法
CN112784901B (zh) * 2021-01-22 2023-04-07 北京航空航天大学 一种基于位置数据的行人出行分类检测方法和系统
CN112784901A (zh) * 2021-01-22 2021-05-11 北京航空航天大学 一种基于位置数据的行人出行分类检测方法和系统
CN113473399A (zh) * 2021-06-28 2021-10-01 京东城市(北京)数字科技有限公司 异常聚集事件检测方法、装置、计算机设备及存储介质
CN113656709B (zh) * 2021-08-24 2023-07-25 东北大学 一种融合知识图谱和时序特征的可解释兴趣点推荐方法
CN113656709A (zh) * 2021-08-24 2021-11-16 东北大学 一种融合知识图谱和时序特征的可解释兴趣点推荐方法
CN114741612A (zh) * 2022-06-13 2022-07-12 北京融信数联科技有限公司 一种基于大数据的消费习惯分类方法、系统和存储介质
CN115034524A (zh) * 2022-08-11 2022-09-09 北京融信数联科技有限公司 基于手机信令的工作居住人口预测方法、系统和存储介质
CN115086880A (zh) * 2022-08-22 2022-09-20 广州市城市规划勘测设计研究院 一种出行特征识别方法、装置、设备及存储介质
CN115587503A (zh) * 2022-11-23 2023-01-10 深圳市城市交通规划设计研究中心股份有限公司 基于多模式仿真的个体出行链还原方法
CN117098071A (zh) * 2023-10-13 2023-11-21 中国移动紫金(江苏)创新研究院有限公司 出行识别方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN111582948B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
CN111582948B (zh) 一种基于手机信令数据与poi兴趣点的个体行为分析方法
CN106096631B (zh) 一种基于手机大数据的流动人口分类识别分析方法
Zhong et al. Inferring building functions from a probabilistic model using public transportation data
Lee et al. Urban spatiotemporal analysis using mobile phone data: Case study of medium-and large-sized Korean cities
CN111737605A (zh) 一种基于手机信令数据的出行目的识别方法及装置
CN105532030A (zh) 用于分析目标实体的移动的装置、系统和方法
Furletti et al. Analysis of GSM calls data for understanding user mobility behavior
CN108733774B (zh) 一种基于大数据的失业人口动态监测方法
WO2014012927A1 (en) Method and system for traffic estimation
Alvarez-Lozano et al. Learning and user adaptation in location forecasting
Cao et al. Understanding metropolitan crowd mobility via mobile cellular accessing data
CN111104468B (zh) 一种基于语义轨迹推断用户活动的方法
Mazumdar et al. An approach to compute user similarity for GPS applications
CN109672986A (zh) 一种时空大数据分析系统
CN117056823A (zh) 一种识别共享单车通勤用户职业类型的方法及系统
Fang et al. CityTracker: Citywide individual and crowd trajectory analysis using hidden Markov model
Huang et al. Hierarchical destination prediction based on GPS history
Rahimipour et al. A hybrid of neuro-fuzzy inference system and hidden Markov Model for activity-based mobility modeling of cellphone users
Alvarez-Lozano et al. Crowd location forecasting at points of interest
CN111970685B (zh) 一种大数据环境下一人多卡识别方法
Yang et al. Mobility pattern identification based on mobile phone data
CN114611622B (zh) 一种利用手机数据识别跨城通勤人群的方法
Ling et al. Mining travel behaviors of tourists with mobile phone data: A case study in Hainan
Chen et al. Trip purpose prediction based on hidden Markov model with GPS and land use data
Pang et al. Modeling and reproducing human daily travel behavior from GPS data: A Markov Decision Process approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant