CN106912015B - 一种基于移动网络数据的人员出行链识别方法 - Google Patents

一种基于移动网络数据的人员出行链识别方法 Download PDF

Info

Publication number
CN106912015B
CN106912015B CN201710015703.5A CN201710015703A CN106912015B CN 106912015 B CN106912015 B CN 106912015B CN 201710015703 A CN201710015703 A CN 201710015703A CN 106912015 B CN106912015 B CN 106912015B
Authority
CN
China
Prior art keywords
data
time
point
record
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710015703.5A
Other languages
English (en)
Other versions
CN106912015A (zh
Inventor
陆俊贤
张娜娜
黄朕
陈明威
刘胜平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Yundi Information Technology Co ltd
Original Assignee
Shanghai Yundi Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Yundi Information Technology Co ltd filed Critical Shanghai Yundi Information Technology Co ltd
Priority to CN201710015703.5A priority Critical patent/CN106912015B/zh
Publication of CN106912015A publication Critical patent/CN106912015A/zh
Application granted granted Critical
Publication of CN106912015B publication Critical patent/CN106912015B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/02Services making use of location information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/02Services making use of location information
    • H04W4/023Services making use of location information using mutual or relative location information between multiple location based services [LBS] targets or of distance thresholds
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/02Services making use of location information
    • H04W4/025Services making use of location information using location based information parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Traffic Control Systems (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种基于移动网络数据的人员出行链识别方法,该识别方法为:选取待识别手机用户的移动网络数据;采用DBSCAN空间聚类方法对移动网络数据进行空间聚类分簇;根据时间相邻不同聚类点间的速度排除异常数据,得到用户位置数据,选取位置代表点记录起始时刻,生成用户位置序列数据;关联土地利用性质,根据位置停留时间和土地利用性质来判定用户的停留点或移动点,最终生成用户的出行链数据。本发明的优点是,充分依托现有的无线通信网络信息资源,结合用地性质快速方便的进行人员出行链识别,为交通规划工作提供相关数据,并具有比传统交通调查方法更低的成本和更短的数据更新周期。

Description

一种基于移动网络数据的人员出行链识别方法
技术领域
本发明属于城市规划管理技术领域,具体涉及一种基于移动网络数据的人员出行链识别方法。
背景技术
近年来,随着GPS导航仪和智能手机为代表的智能终端的普及与应用,人们已经可以以相对低廉的代价获得大量用户的位置数据,这些数据的背后,隐含丰富的用户行为规律信息,本专利通过对这些信息的深入挖掘和利用,阐述一种基于移动网络数据的人员出行链识别方法,不仅有可能发现个体用户的日常行为规律和群体用户的共性行为特征,还可以掌握社交关系信息,这对于智能交通、广告投送、面向企业的商业合作应用服务具有重要意义,为交通规划工作提供相关数据,并具有比传统交通调查方法更低的成本和更短的数据更新周期。
发明内容
本发明的目的是根据上述现有技术的不足之处,提供一种基于移动网络数据的人员出行链识别方法,该识别方法根据手机用户的移动网络数据,采用DBSCAN空间聚类方法对移动网络数据进行空间聚类分簇;根据时间相邻不同聚类点间的速度排除异常数据,得到筛选后的用户位置数据,选取位置代表点记录起始时刻,生成用户位置序列数据;关联土地利用性质,根据位置停留时间和土地利用性质来判定用户的停留点或移动点,最终生成用户的出行链数据。
本发明目的实现由以下技术方案完成:
一种基于移动网络数据的人员出行链识别方法,其特征在于所述识别方法包括以下步骤:
(步骤1)选取待识别手机用户的移动网络数据,包括用户ID、时间戳、基站ID、基站经纬度;
(步骤2)基于DBSCAN空间聚类方法,对所述手机用户的移动网络数据进行空间聚类分簇,得到空间聚类分簇后的用户位置数据,包括用户ID、时间戳、基站经纬度、聚类簇编号;
(步骤3)将用户位置数据中的位置点按照时间戳进行升序排序,按顺序计算时间相邻的不同位置点间的距离和速度,判定速度是否处于速度阈值[a,b]范围内,若是则表明位置点数据合理,若否则舍弃该位置点,其中,a、b分别表示速度阈值下限和速度阈值上限;继续下一相邻位置点的判定,直至完成所有位置点的判定;随后对于聚类簇编号来回切换的位置点进行筛选,筛选之后的用户位置数据沿用原聚类簇编号,包括用户ID、时间戳、基站经纬度、聚类簇编号;
(步骤4)对于每一聚类簇位置点集合,以相同位置的出现次数为权重选取重心位置作为该聚类簇的位置代表点,并选取该聚类簇的时间上第一条记录的时刻作为起始时刻、最后一条记录的时刻作为终止时刻,生成所述手机用户的位置序列数据,包括用户ID、起始时刻、终止时刻、位置代表点的经纬度;
(步骤5)将所述手机用户的位置序列数据中位置代表点的经纬度与土体利用数据进行空间关联,生成所述手机用户含有土地利用性质的位置序列数据,包括用户ID、起始时刻、终止时刻、位置代表点的经纬度、土地利用类型;
(步骤6)根据位置序列数据中的终止时刻与起始时刻之差计算获得位置停留时间,根据停留时间和土地利用类型,判断该位置点的位置状态,所述位置状态是指停留或移动,生成所述手机用户的出行轨迹数据,包括用户ID、起始时刻、终止时刻、代表点的经纬度、土地利用类型、位置状态。
所述步骤(2)包括以下步骤:
(2.1)DBSCAN空间聚类算法中MinPts的确定,其中,MinPts是指以所述移动网络数据中某一数据点为中心的邻域内最少点的数量;
(2.2)DBSCAN空间聚类算法中半径Eps的确定,其中,半径Eps是指以给定数据点为中心的圆形邻域范围;计算所述手机用户每个数据点位置与其它所有数据点位置之间的欧几里德距离,计算每个数据点的k-距离值,并对所有数据点的k-距离值集合进行升序排列,输出排序后的k-距离值;
其中,k值对应于MinPts,指:给定数据集P={p(i);i=0,1…n},对于任一点p(i),计算点p(i)到集合D的子集S={p(1),p(2),…,p(i-1),p(i+1),…,p(n)}中所有点之间的距离,距离按照从小到大的顺序排列,假设排序后的距离集合为D={d(1),d(2),…,d(k-1),d(k),d(k+1),…,d(n)},d(k)就被成为k-距离;
将所有数据点的k-距离值使用散点图进行显示,计算散点图中所有相邻数据点间连线所成的斜率的平均值,挑选所有大于4倍斜率平均值的斜率所对应的k-距离,这些k-距离的平均值即为半径Eps的值;
(2.3)DBSCAN空间聚类算法中核心点的计算:以点P为中心、半径为Eps的邻域内的点的个数不少于MinPts,则称点P为核心点;根据Eps和MinPts,计算所有核心点,并建立核心点与到核心点距离小于半径Eps的点的映射,即为核心点集合;
(2.4)根据核心点集合以及半径Eps的值,计算能够连通的核心点,将能够连通的每一组核心点以及到核心点距离小于半径Eps的点,都放到一起形成一个聚类簇,并进行聚类簇编号ClusterID(1,2,3…n)。
DBSCAN空间聚类算法中MinPts取4。
所述步骤(3)为:
(3.1)将聚类分簇后的用户位置数据中的位置点记录按照时间戳进行升序排序,选取一条记录,若此记录为第一条记录则进入步骤3.2,若否则进入步骤3.3;
(3.2)选取下一条记录,进入步骤3.3;
(3.3)判断本记录与上一条记录的聚类簇编号是否相同,若相同则保留上一条记录,并返回步骤3.2;若否则计算两条记录的距离和速度,若速度处于速度阈值[a,b]范围之内,则保存本记录,若否则舍弃本条记录,进入步骤3.4;
(3.4)判断记录是否遍历完,若遍历完则结束,若否则返回步骤3.2;直至遍历完所有记录,得到经速度筛选后的用户位置数据;
(3.5)筛选聚类簇编号来回切换的位置点,对于步骤(3.4)中得到的每一条记录,判断其之后10分钟时间段内是否有位置点的聚类簇编号来回切换大于或等于4次的,若有,则保留出现次数多的位置点数据,删除出现次数少的位置点数据;若无,则判断下一条记录;直至遍历完成所有记录。
所述步骤(4)包括以下步骤:
(4.1)以相同位置的出现次数为权重选取重心位置为位置代表点,包括步骤:对于每一聚类簇位置集合,即当聚类簇编号ClusterID=i时,该聚类簇的位置点用(LONij,LATij)表示,其中,j=1,2,3,…,m,则该聚类簇位置集合的位置代表点的经纬度为(CoreLongitudei,CoreLatitudei),其中,QUOTE
Figure 100002_DEST_PATH_IMAGE002
Figure DEST_PATH_IMAGE002A
, QUOTE
Figure 100002_DEST_PATH_IMAGE004
Figure DEST_PATH_IMAGE004A
,将该聚类簇上所有位置点的坐标都变更为位置代表点的经纬度(CoreLongitudei, CoreLatitudei);
(4.2)生成用户位置序列数据,包括以下步骤:
(4.2.1)将聚类簇上的位置点记录按照时间戳生序排列,选取任一条记录;
(4.2.2)判断当前记录是否为第一条记录,若为第一条记录,则起始时刻为当前记录的时间,终止时刻为当前记录时刻,继续选取下一条记录;若非第一条记录,则进入步骤(4.2.3);
(4.2.3)判断当前记录是否与前一条记录的聚类簇编号相同,若相同,则更新终止时刻为当前记录的时间;若不相同,则当前记录为另一聚类簇位置数据,则起始时刻为当前记录的时间,终止时刻为当前记录时刻;
(4.2.4)判断数据是否遍历完全,若遍历未完全,则返回步骤(4.2.2);若遍历完全则结束,生成用户位置序列数据,包括用户ID、起始时刻、终止时刻、位置代表点的经纬度。
所述步骤(5)中所述土地利用类型分为9类,包括住宅用地、商业金融业用地、交通用地、公共建筑用地、工业或仓储用地、湖泊用地、市政用地、特殊用地、其它用地。
所述步骤(6)包括以下步骤:根据位置序列数据中的终止时刻与起始时刻之差计算获得位置停留时间,若停留时间小于1h,则位置状态为移动;若停留时间大于1h且土地利用类型为交通用地或市政用地,则状态为停留;若停留时间大于3h且土体利用类型为住宅用地或商业金融业用地或公共建筑用地,则状态为停留;其它情况皆为移动;生成所述手机用户的出行轨迹数据,包括用户ID、起始时刻、终止时刻、代表点的经纬度、土地利用类型、位置状态。
本发明的优点是,充分依托现有的无线通信网络信息资源,结合用地性质快速方便的进行人员出行链识别,为交通规划工作提供相关数据,并具有比传统交通调查方法更低的成本和更短的数据更新周期。
附图说明
图1为本发明中基于移动网络数据的人员出行链识别方法流程示意图;
图2为本发明实施例中某手机用户的部分移动网络数据统计表;
图3为本发明实施例中某手机用户每个位置点与其它所有位置点之间的欧几里德距离统计表;
图4为本发明实施例中某手机用户所有位置点的4-距离集合升序排列统计表;
图5为本发明实施例中某手机用户所有位置点的4-距离散点图;
图6为本发明图5中排名570至624的位置点所对应的4-距离散点图;
图7为本发明实施例中形成4个聚类簇的数据统计表;
图8为本发明步骤3中异常点排除方法流程示意图;
图9为本发明实施例中聚类后全天位置数据中上午9-10点时间段数据统计表;
图10为本发明实施例中两条记录之间的速度判定数据统计表;
图11为本发明实施例中遍历判定完所有记录后的数据结果统计表;
图12为本发明实施例中9:04:01至9:14:49时间段内筛选来回切换位置点数据统计表;
图13为本发明实施例中所有时间段内筛选来回切换位置点数据统计表;
图14为本发明步骤4中用户位置序列数据生成方法流程示意图;
图15为本发明实施例中将用户记录按照时间戳Time升序排列的数据统计表;
图16为本发明实施例中生成用户位置序列数据的数据统计表;
图17为本发明中土地利用类型分类表;
图18为本发明实施例中生成的含有土地利用性质的位置序列数据统计表;
图19为本发明实施例中所生成的某手机用户的出行轨迹数据表。
具体实施方式
以下结合附图通过实施例对本发明的特征及其它相关特征作进一步详细说明,以便于同行业技术人员的理解:
实施例:如图1所示,本实施例具体涉及一种基于移动网络数据的人员出行链识别方法,该人员出行链识别方法具体以下步骤:
【步骤1】
选取某一手机用户全天内的移动网络数据,该移动网络数据主要包括用户ID(UserID)、时间戳(Time)、基站ID(CELLID)、基站经纬度(Longitude,Latitude);
如图2所示,本实施例中选取用户ID为30C0F16的手机用户在2016年4月26日的全天移动网络数据,总共672个位置点,由于位置点数量较多,因此图2中仅列出其中部分数据。
【步骤2】
基于DBSCAN空间聚类方法,对该手机用户的全天移动网络数据中的位置数据进行空间聚类,得到该手机用户全天位置数据;
(步骤2.1)DBSCAN空间聚类算法中MinPts的确定:
DBSCAN空间聚类算法中的一个参数是MinPts,表示以某一位置点为中心的邻域内最少位置点的数量;DBSCAN算法中取MinPts=4,下面确定Eps时,k-距离中设置k=4;
(步骤2.2)DBSCAN空间聚类算法中Eps的确定:
(2.2.1)DBSCAN空间聚类算法中另一个是参数半径Eps,表示以给定位置点为中心的圆形邻域的范围;计算该手机用户每个位置点与其它所有位置点之间的欧几里德距离,计算每个位置点的4-距离值,并对所有位置点的4-距离集合进行升序排列,输出排序后的4-距离值;
在本实施例中,该手机用户每个位置点与其它所有位置点之间的欧几里德距离如图3所示;该手机用户所有位置点的4-距离集合进行升序排列后如图4所示;
(2.2.2)将如图4中所示的4-距离值,在Excel软件中使用散点图显示4-距离变化趋势,将急剧发生变化的位置点所对应的4-距离值,确定为半径Eps的值,如图5所示(横坐标是名次,纵坐标是4-距离值),排名570往后所对应的距离变化较为明显,横坐标排名625后变化太快可忽略;如图6所示,进一步放大570至624所对应的4-距离;
所有相邻位置点连线所成斜率的平均值为0.003685,则斜率均值的4倍为0.01474,大于此值所对应的4-距离值共有20个位置点,这20个平均4-距离值为540米,则半径EPS=540米;
(步骤2.3)DBSCAN空间聚类算法中核心点计算:
以点P为中心、半径为Eps的邻域内的点的个数不少于MinPts,则称点P为核心点;根据Eps=510米和MinPts=4,计算所有核心点,并建立核心点与到核心点距离小于半径Eps的点的映射;
(步骤2.4)根据核心点集合,以及半径Eps的值,计算能够连通的核心点,将能够联通的每一组核心点,以及到核心点距离小于半径Eps=540米的点,都放到一起,形成一个聚类簇,并进行聚类簇编号ClusterID(1,2,3…n),此实际案例中,形成4簇数据,如图7所示。
【步骤3】
对于聚类后的全天位置数据,按照时间TIME进行升序排序,按速度(Speed)进行筛选,包括用户ID(UserID)、时间戳(TIME)、基站经纬度(Longitude ,Latitude)、聚类簇编号(ClusterID);
如图8、9所示,下文从聚类后的全天位置数据中选取上午9点至10点时间段,共26个记录做具体分析:
(3.1)将聚类后的该用户的全天位置数据按照Time进行升序排序,如下表,选取一条记录,本案例选取时间为9:04:01的记录,并假设为第一条记录;
(3.2)选取下一条记录,时间为9:07:00的记录,作为本条记录 ;
(3.3)本记录9:07:00与上一条记录09:04:01的聚类簇编号(ClusterID)均为2,保留上一条记录;
(3.4)继续选取下一条09:08:30记录作为本条记录,本记录与上一条记录09:07:00的聚类簇编号分别为1和2,计算两条记录的距离和速度;城市道路中车速一般不超过100km/h,即27m/s左右;行人速度一般1.5m/s,在此认为速度合理范围为[1,27]m/s,速度合理范围因地区不同而有所差异;
如图10所示,上述两条记录之间速度为24.5m/s,在合理速度范围内,保留本条09:08:30记录;依此方法继续遍历数据直至遍历完所有数据,数据结果如图11所示;
(3.5)筛选来回切换位置点,对于如图11表中的每一条记录,时间向后推10分钟,判断这段时间内是否有位置点来回切换大于或等于4次的记录,若有则保留出现次数多的位置点数据,删除出现次数少的位置点数据;否则下一条记录直至遍历完所有记录;此处所指的位置点来回切换具体是指位置点所属的聚类簇编号来回变化;
以9:04:01向后10分钟内的数据为例,即9:04:01至9:14:49这一时间段,该用户在聚类簇编号CLUSTERID=2或1或0的位置聚类簇点之间来回切换,超过4次,聚类簇编号CLUSTERID=2或1或0的位置聚类簇点出现次数分别为:4次、1次2次;因此保留此时间段聚类簇编号CLUSTERID=2的数据,删除此时间段聚类簇编号CLUSTERID=1或0的数据,得到如图12所示的结果;
同样的方法判断9:07:00向后10分钟内数据情况,以此类推直至全部数据,得到如图13所示的最终位置序列数据。
【步骤4】
如图14所示,对于每一聚类簇位置集合,以位置出现次数为权重选取重心位置作为位置代表点,并选取该聚类簇的时间上第一条记录的时刻作为起始时刻(StartTime),选取该类的时间上最后一条记录的时刻作为终止时刻(EndTime),生成该用户的位置序列数据;
(4.1)对于每一聚类簇位置集合,即当聚类簇编号ClusterID=0时,这一聚类簇的位置点共有16个,获得这一聚类簇位置集合的位置代表点的经纬度,将该聚类簇所有位置点的坐标都变更为位置代表点的经纬度;同样的方法求出聚类簇编号ClusterID为1、2、3、4时的经纬度,分别为(121.61001,29.85892)、(121.58609,29.864989)、(121.543767,29.89086)、(121.565849,29.870109),用位置代表点的经纬度代替同一聚类簇所有位置点的经纬度;
(4.2)如图14所示生成用户位置序列数据
(4.2.1)将用户记录按照时间戳Time升序排列,选取一条记录,时间为9:04:01,如图15所示;
(4.2.2)假设此记录为第一条记录,则StartTime=9:04:01,EndTime=9:04:01;
(4.2.3)继续选取下一条数据9:07:00,作为当前记录,当前记录是与上一条记录的聚类簇编号ClusterID相同,均为2,则更新EndTime=9:07:00;
(4.2.4)继续选取记录,当选取9:29:21时,本记录与上一条记录分属不同的聚类簇编号,则StartTime=9:29:21,EndTime=9:29:21,依次遍历记录,直至所有记录;生成该用户的位置序列数据,如图16所示。
【步骤5】
将该手机用户的位置序列数据的位置与土地利用数据进行空间关联,生成该用户的含有土地利用性质的位置序列数据,主要包括用户ID(UserID)、起始时刻(StartTime)、终止时刻(EndTime)、代表位置经纬度(CoreLongitude , CoreLatitude)、土地利用类型(LanduseType);其中,由于土地利用类型众多,本方法将之归为9类,这9类包含所有土地利用类型,如图17所示;
本实施例中所生成的含有土地利用性质的位置序列数据如图18所示。
【步骤6】
如图17、18所示,计算位置停留时间StayTime=EndTime-StartTime,根据停留时间和土地利用类型,判断该位置点是停留点还是移动点,生成该用户的出行轨迹数据。
若StayTime<1h,则状态为Move;
若StayTime>1h 且LanduseType为3或7,则状态为Stay;
若StayTime>3h 且LanduseType为1或2或4,则状态为Stay;
其他情况,状态皆为Move;
从而得到生成该用户的出行轨迹数据,如图19所示。

Claims (7)

1.一种基于移动网络数据的人员出行链识别方法,其特征在于所述识别方法包括以下步骤:
步骤1:选取待识别手机用户的移动网络数据,包括用户ID、时间戳、基站ID以及基站经纬度;
步骤2:基于DBSCAN空间聚类方法,对所述手机用户的移动网络数据进行空间聚类分簇,得到空间聚类分簇后的用户位置数据,包括用户ID、时间戳、基站经纬度以及聚类簇编号;其中,所述DBSCAN空间聚类方法为基于密度的噪声应用空间聚类方法;
步骤3:将用户位置数据中的位置点按照时间戳进行升序排序,按顺序计算时间相邻的不同位置点间的距离和速度,判定速度是否处于速度阈值[a,b]范围内,若是则表明位置点数据合理,若否则舍弃该位置点,其中,a和b分别表示速度阈值下限和速度阈值上限;继续下一相邻位置点的判定,直至完成所有位置点的判定;随后对于聚类簇编号来回切换的位置点进行筛选,筛选之后的用户位置数据沿用原聚类簇编号,包括用户ID、时间戳、基站经纬度以及聚类簇编号;
步骤4:对于每一聚类簇位置点集合,以相同位置的出现次数为权重选取重心位置作为该聚类簇的位置代表点,并选取该聚类簇的时间上第一条记录的时刻作为起始时刻、最后一条记录的时刻作为终止时刻,生成所述手机用户的位置序列数据,包括用户ID、起始时刻、终止时刻以及位置代表点的经纬度;
步骤5:将所述手机用户的位置序列数据中位置代表点的经纬度与土体利用数据进行空间关联,生成所述手机用户含有土地利用性质的位置序列数据,包括用户ID、起始时刻、终止时刻、位置代表点的经纬度以及土地利用类型;其中,所述土体利用数据为土地利用类型;
步骤6:根据位置序列数据中的终止时刻与起始时刻之差计算获得位置停留时间,根据停留时间和土地利用类型,判断该位置点的位置状态,所述位置状态是指停留或移动,生成所述手机用户的出行轨迹数据,包括用户ID、起始时刻、终止时刻、代表点的经纬度、土地利用类型以及位置状态。
2.根据权利要求1所述的一种基于移动网络数据的人员出行链识别方法,其特征在于所述步骤2包括以下步骤:
2.1:DBSCAN空间聚类算法中MinPts的确定,其中,MinPts是指以所述移动网络数据中某一数据点为中心的邻域内最少点的数量;
2.2:DBSCAN空间聚类算法中半径Eps的确定,其中,半径Eps是指以给定数据点为中心的圆形邻域范围;计算所述手机用户每个数据点位置与其它所有数据点位置之间的欧几里德距离,计算每个数据点的k-距离值,并对所有数据点的k-距离值集合进行升序排列,输出排序后的k-距离值;
其中,k值与MinPts的值相同;给定数据集P={p(i);i=0,1…n},对于任一点p(i),计算点p(i)到集合D的子集S={p(1),p(2),…,p(i-1),p(i+1),…,p(n)}中所有点之间的距离,距离按照从小到大的顺序排列,假设排序后的距离集合为D={d(1),d(2),…,d(k-1),d(k),d(k+1),…,d(n)},d(k)的值作为k-距离的值;
将所有数据点的k-距离值使用散点图进行显示,计算散点图中所有相邻数据点间连线所成的斜率的平均值,挑选所有大于4倍斜率平均值的斜率所对应的k-距离,这些k-距离的平均值即为半径Eps的值;
2.3:DBSCAN空间聚类算法中核心点的计算:以点P为中心且半径为Eps的邻域内的点的个数不少于MinPts,则称点P为核心点;根据Eps和MinPts,计算所有核心点,并建立核心点与到核心点距离小于半径Eps的点的映射,即为核心点集合;
2.4:根据核心点集合以及半径Eps的值,计算能够连通的核心点,将能够连通的每一组核心点以及到核心点距离小于半径Eps的点,都放到一起形成一个聚类簇,并进行聚类簇编号ClusterID,其中ClusterID为正整数。
3.根据权利要求2所述的一种基于移动网络数据的人员出行链识别方法,其特征在于DBSCAN空间聚类算法中MinPts取4。
4.根据权利要求1所述的一种基于移动网络数据的人员出行链识别方法,其特征在于所述步骤3为:
3.1:将聚类分簇后的用户位置数据中的位置点记录按照时间戳进行升序排序,选取一条记录,若此记录为第一条记录则进入步骤3.2,若否则进入步骤3.3;
3.2:选取下一条记录,进入步骤3.3;
3.3:判断本记录与上一条记录的聚类簇编号是否相同,若相同则保留上一条记录,并返回步骤3.2;若否则计算两条记录的距离和速度,若速度处于速度阈值[a,b]范围之内,则保存本记录,若否则舍弃本条记录,进入步骤3.4;
3.4:判断记录是否遍历完,若遍历完则结束,若否则返回步骤3.2;直至遍历完所有记录,得到经速度筛选后的用户位置数据;
3.5:筛选聚类簇编号来回切换的位置点,对于步骤(3.4)中得到的每一条记录,判断其之后10分钟时间段内是否有位置点的聚类簇编号来回切换大于或等于4次的,若有,则保留出现次数多的位置点数据,删除出现次数少的位置点数据;若无,则判断下一条记录;直至遍历完成所有记录。
5.根据权利要求1所述的一种基于移动网络数据的人员出行链识别方法,其特征在于所述步骤4包括以下步骤:
4.1:以相同位置的出现次数为权重选取重心位置为位置代表点,包括步骤:对于每一聚类簇位置集合,即当聚类簇编号ClusterID=i时,该聚类簇的位置点用(LONij,LATij)表示,其中,j=1,2,3,…,m,则该聚类簇位置集合的位置代表点的经纬度为(CoreLongitudei,CoreLatitudei),其中,
Figure DEST_PATH_IMAGE002
Figure DEST_PATH_IMAGE004
,将该聚类簇上所有位置点的坐标都变更为位置代表点的经纬度(CoreLongitudei, CoreLatitudei);
4.2:生成用户位置序列数据,包括以下步骤:
4.2.1:将聚类簇上的位置点记录按照时间戳生序排列,选取任一条记录;
4.2.2:判断当前记录是否为第一条记录,若为第一条记录,则起始时刻为当前记录的时间,终止时刻为当前记录时刻,继续选取下一条记录;若非第一条记录,则进入步骤4.2.3;
4.2.3:判断当前记录是否与前一条记录的聚类簇编号相同,若相同,则更新终止时刻为当前记录的时间;若不相同,则当前记录为另一聚类簇位置数据,则起始时刻为当前记录的时间,终止时刻为当前记录时刻;
4.2.4:判断数据是否遍历完全,若遍历未完全,则返回步骤(4.2.2);若遍历完全则结束,生成用户位置序列数据,包括用户ID、起始时刻、终止时刻以及位置代表点的经纬度。
6.根据权利要求1所述的一种基于移动网络数据的人员出行链识别方法,其特征在于所述步骤5中所述土地利用类型分为9类,包括住宅用地、商业金融业用地、交通用地、公共建筑用地、工业或仓储用地、湖泊用地、市政用地、特殊用地以及其它用地。
7.根据权利要求1所述的一种基于移动网络数据的人员出行链识别方法,其特征在于所述步骤6包括以下步骤:根据位置序列数据中的终止时刻与起始时刻之差计算获得位置停留时间,若停留时间小于1小时,则位置状态为移动;若停留时间大于1小时且土地利用类型为交通用地或市政用地,则状态为停留;若停留时间大于3小时且土地利用类型为住宅用地或商业金融业用地或公共建筑用地,则状态为停留;其它情况皆为移动;生成所述手机用户的出行轨迹数据,包括用户ID、起始时刻、终止时刻、代表点的经纬度、土地利用类型以及位置状态。
CN201710015703.5A 2017-01-10 2017-01-10 一种基于移动网络数据的人员出行链识别方法 Active CN106912015B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710015703.5A CN106912015B (zh) 2017-01-10 2017-01-10 一种基于移动网络数据的人员出行链识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710015703.5A CN106912015B (zh) 2017-01-10 2017-01-10 一种基于移动网络数据的人员出行链识别方法

Publications (2)

Publication Number Publication Date
CN106912015A CN106912015A (zh) 2017-06-30
CN106912015B true CN106912015B (zh) 2020-04-28

Family

ID=59207445

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710015703.5A Active CN106912015B (zh) 2017-01-10 2017-01-10 一种基于移动网络数据的人员出行链识别方法

Country Status (1)

Country Link
CN (1) CN106912015B (zh)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107330469B (zh) * 2017-07-04 2020-07-31 上海交通大学 一种基于gps轨迹数据的出行方式识别方法
CN107909098A (zh) * 2017-11-09 2018-04-13 苏州大成电子科技有限公司 一种基于大数据的城市居民锚点计算方法
CN108492124A (zh) * 2018-01-22 2018-09-04 阿里巴巴集团控股有限公司 店铺信息推荐方法、装置及客户端
CN108596202B (zh) * 2018-03-08 2020-04-03 清华大学 基于移动终端gps定位数据计算个人通勤时间的方法
CN109104694B (zh) * 2018-06-26 2020-10-30 重庆市交通规划研究院 一种基于手机信令的用户停留位置发现方法及系统
CN109446186B (zh) * 2018-09-27 2021-07-20 江苏大学 一种基于移动轨迹的社会关系判断方法
CN109302683B (zh) * 2018-10-26 2021-01-29 福州大学 一种基于重复跳转模式的手机位置数据中异常记录检测方法
CN111314947B (zh) * 2018-12-12 2022-12-09 中兴通讯股份有限公司 一种用户识别方法、装置、设备及计算机可读存储介质
CN109788428B (zh) * 2018-12-28 2020-12-18 科大国创软件股份有限公司 一种基于运营商数据的用户分类识别方法
CN110188810A (zh) * 2019-05-23 2019-08-30 西北工业大学 一种基于密度聚类的在线野值检测、识别与修正方法
CN110519686B (zh) * 2019-08-28 2021-03-30 中国联合网络通信集团有限公司 预设地点识别方法、装置、设备及计算机可读存储介质
TWI749393B (zh) * 2019-10-31 2021-12-11 中華電信股份有限公司 運輸狀態改變偵測方法及裝置
CN111405483B (zh) * 2020-03-10 2021-07-30 腾讯科技(深圳)有限公司 行程轨迹生成方法、装置、电子设备及存储介质
CN111340310A (zh) * 2020-03-20 2020-06-26 重庆港力环保股份有限公司 一种基于大数据模型的餐饮油烟预测方法
CN111427877A (zh) * 2020-03-20 2020-07-17 重庆港力环保股份有限公司 一种基于聚类分析的环保异常数据精筛方法
CN111428135A (zh) * 2020-03-20 2020-07-17 重庆港力环保股份有限公司 一种基于高斯模型的环保异常数据粗筛方法
CN111680102B (zh) * 2020-05-21 2023-12-26 平安国际智慧城市科技股份有限公司 基于人工智能的定位数据处理方法及相关设备
CN111861397A (zh) * 2020-07-22 2020-10-30 亿景智联(北京)科技有限公司 一种针对客户探访的智能排班平台
CN113096785B (zh) * 2021-04-09 2022-01-25 中南林业科技大学 一种疫情时期医疗资源分配方法
CN113553482B (zh) * 2021-09-18 2022-02-01 深圳市城市交通规划设计研究中心股份有限公司 停留点识别和出行链构建系统、算法、设备及存储介质
CN116740838A (zh) * 2023-08-08 2023-09-12 山东华光新材料技术有限公司 一种光纤预制棒生产用气体用量数据采集方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102595323A (zh) * 2012-03-20 2012-07-18 北京交通发展研究中心 基于手机定位数据的居民出行特征参数的获取方法
CN104596507A (zh) * 2015-02-09 2015-05-06 成都小步创想畅联科技有限公司 一种移动终端出行轨迹的确定方法
CN105206041A (zh) * 2015-08-12 2015-12-30 东南大学 一种考虑时序dbscan的智能手机轨迹链簇识别方法
CN105404648A (zh) * 2015-10-29 2016-03-16 东北大学 一种基于密度与紧密度聚类的用户移动行为确定方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102595323A (zh) * 2012-03-20 2012-07-18 北京交通发展研究中心 基于手机定位数据的居民出行特征参数的获取方法
CN104596507A (zh) * 2015-02-09 2015-05-06 成都小步创想畅联科技有限公司 一种移动终端出行轨迹的确定方法
CN105206041A (zh) * 2015-08-12 2015-12-30 东南大学 一种考虑时序dbscan的智能手机轨迹链簇识别方法
CN105404648A (zh) * 2015-10-29 2016-03-16 东北大学 一种基于密度与紧密度聚类的用户移动行为确定方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
A Density-Based Algorithm for Discovering Clusters;Ester,等;《KDD-96 Proceedings》;19960831;第96卷(第34期);全文 *

Also Published As

Publication number Publication date
CN106912015A (zh) 2017-06-30

Similar Documents

Publication Publication Date Title
CN106912015B (zh) 一种基于移动网络数据的人员出行链识别方法
Zheng et al. Diagnosing New York city's noises with ubiquitous data
CN105243128B (zh) 一种基于签到数据的用户行为轨迹聚类方法
CN104239556B (zh) 基于密度聚类的自适应轨迹预测方法
CN109688532B (zh) 一种划分城市功能区域的方法及装置
CN107305590B (zh) 一种基于手机信令数据的城市交通出行特征确定方法
Zheng et al. Detecting collective anomalies from multiple spatio-temporal datasets across different domains
CN110324787B (zh) 一种手机信令数据的职住地获取方法
CN106792517B (zh) 基于手机位置时空转移概率的基站服务人数时序预测方法
CN108320501A (zh) 基于用户手机信令的公交线路识别方法
CN107920362A (zh) 一种基于微区域的lte网络性能评估方法
EP3462427A1 (en) Method of predicting the probability of occurrence of vacant parking slots and its realization system
CN112001829B (zh) 一种基于手机信令数据的人口分布判断方法
CN110134865B (zh) 一种基于城市公共交通出行大数据的通勤乘客社交推荐方法及平台
CN107018493A (zh) 一种基于连续时序马尔科夫模型的地理位置预测方法
CN113613174A (zh) 基于手机信令数据的职住地识别方法、装置及存储介质
CN106339716A (zh) 一种基于加权欧氏距离的移动轨迹相似度匹配方法
CN106651027A (zh) 一种基于社交网络的互联网班车线路优化方法
CN110716935A (zh) 基于网约车出行的轨迹数据分析与可视化方法及系统
CN113505314A (zh) 时空复杂网络聚类的位置轨迹分析系统
CN106162544A (zh) 一种地理围栏的生成方法和设备
CN106326923A (zh) 一种顾及位置重复和密度峰值点的签到位置数据聚类方法
CN110322067A (zh) 基于因子图模型的移动用户位置预测方法
Li et al. Estimating crowd flow and crowd density from cellular data for mass rapid transit
CN112101132A (zh) 一种基于图嵌入模型和度量学习的交通状况预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant