CN106971001B - 一种针对手机基站定位数据的可视分析系统及方法 - Google Patents
一种针对手机基站定位数据的可视分析系统及方法 Download PDFInfo
- Publication number
- CN106971001B CN106971001B CN201710247760.6A CN201710247760A CN106971001B CN 106971001 B CN106971001 B CN 106971001B CN 201710247760 A CN201710247760 A CN 201710247760A CN 106971001 B CN106971001 B CN 106971001B
- Authority
- CN
- China
- Prior art keywords
- base station
- people
- cluster
- crowd
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
- G06F16/287—Visualization; Browsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/04—Processing captured monitoring data, e.g. for logfile generation
- H04L43/045—Processing captured monitoring data, e.g. for logfile generation for graphical visualisation of monitoring data
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/02—Services making use of location information
- H04W4/025—Services making use of location information using location based information parameters
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Remote Sensing (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明涉及一种针对手机基站定位数据的可视分析系统及方法,通过采用结合基于空间简化和时间简化的技术,对手机基站定位数据集进行基站可视化处理、基站间人群流向可视化处理、基于基站的人群流动模式可视化处理和基于时间步的人群流动模式可视化处理,从多个角度展示手机基站定位数据中包含的大量信息。
Description
技术领域
本发明属于信息可视化领域,具体涉及一种针对手机基站定位数据的可视分析系统及方法,用于观察城市中人群的空间分布状况以及人群流动情况,以实现对某地区进行人流监控以及规律分析。
背景技术
我国是世界上人口最多的国家,随着大数据时代的到来和智慧城市的提出,如何合理的监控、引导和预警大城市或超大城市人口流动状况,提高市民的生活质量,预警特定高密度人口流动区域异常事件的发生,已成为一个亟待解决的实用性课题。随着手机等移动终端的普及,人们从移动通信网络中收集了到大量的数据。手机定位数据作为移动通信网络数据中的一类,在分析人群移动模式、城市功能区识别以及交通网络规划中都提供了很大的帮助。目前,相关领域的很多专家学者都在关注如何利用从移动通信网络中获取的数据来进行可视化研究。
在数据可视化中,基于点的可视化重点考虑离散的个体,可以直接显示物体在某一时间点的位置。基于点的表示方法的优势是能够使用户直接观察到数据中的每一个个体,但是当数据量非常庞大时,过多的点会造成画面中相互遮挡和不清楚的问题。
现有的流向图是表示物体从一个地方到另一个地方的移动,在地图上的区域之间直接绘制有向边,并用边的宽度或颜色等表示流量大小。传统的流向图直接将所有轨迹绘制在地图上,会造成轨迹间相互遮挡覆盖和不清晰问题。Selassie D等在2011年提出了边捆绑的方法,通过弯曲边让相似的边相互靠近形成一束,以减少相互遮挡。尽管边捆绑可以减少混乱问题,但是在两个位置之间识别实际的连接方向是很困难的。
基于手机基站定位的数据集纪录了每个手机用户在不同时刻出现的位置,但从个人的轨迹数据中,很难看出整个城市的整体人群流动情况。现有的一些基于手机定位数据的可视分析系统,能够分析出不同时间段的人群密度,人群流向等特征,但无法展示出每个基站特有的人群流动模式,以及人群移动模式随时间的变化。
综上所述,在对手机定位数据可视化中,通过有效的聚类算法可以避免大量数据造成的画面不清晰;通过对数据集进行基于空间上的简化和时间上的简化,可以有针对性的对城市中不同区域、不同时间段的人群移动模式进行可视化。
发明内容
本发明技术解决问题,克服现有技术的不足,提供一种针对手机基站定位数据的可视分析系统及方法,通过采用结合基于空间简化和时间简化的可视化技术,从多个角度展示手机基站定位数据中包含的大量信息,通过采用结合基于空间简化和时间简化的可视化方法,对城市中的人群流动情况进行可视化。
本发明技术解决方案:一种面向手机定位数据的可视分析系统,包括数据预处理模块和可视化模块。
所述数据预处理模块:可分为数据清洗和数据统计两个步骤。数据清洗是整套手机基站定位数据的基础,其主要功能为:剔除原始数据集中信息不完整有缺失的数据,例如基站经纬度缺失的数据;同时清理会对后续可视化有干扰的信息,例如在手机基站定位数据中影响最大的“乒乓效应”。数据统计是在数据清洗后,为了后续可视化的需要,对现有数据进行统计处理,根据信令产生时间,选择一段特定时间作为固定的时间步,统计每个时间步每个基站内的人数,以及该基站到其他基站的流入、流出人数。
所述可视化模块:可分为基站可视化、基站间人群流向可视化、基于基站的人群流动模式可视化和基于时间步的人群流动模式可视化。基站可视化是根据数据集中基站的经纬度,将基站用图标在地图上展示出来。由于基站数量多,直接显示会造成地图上图标过于密集,因此采用一种基于地图分辨率的层次聚类算法对基站进行聚类后,根据地图分辨率直接展示基站聚类后的结果。基站间人群流向可视化采用流向图展示,该部分用于可视化基站间人群流动情况,用线条的粗细表示人群流量的大小。基于基站的人群流动模式可视化,用于展示每个基站聚类在一天中的人群流动情况,用南丁格尔玫瑰图展示一天中各个时间段的人数变化情况。基于时间步的人群流动模式可视化,用于展示不同时间步之间的关系,对于每个时间步,采用基站间的流量作为特征向量,构建每个时间步的特征矩阵,并对此进行聚类,聚为一类的时间步表示这些时间段内,城市中人群流动的模式较为相似,并采用圆环图对其进行可视化。
一种针对手机基站定位数据的可视分析方法,使用基于地图比例尺的层次聚类算法对基站进行聚类,根据人群密度或流向分别采用不同的可视化方案。
数据预处理模块实现过程如下:
A对基于手机基站定位的原始数据集(包括手机用户的唯一标识、经纬度和时间信息,由于数据量很大往往存储在分布式数据仓库中,例如Hive数据仓库),在取出数据导入本地文件时,进行数据预处理,包括:
A1)针对基站信息数据集,将基站地点经纬度缺失的数据清除;
A2)针对手机定位数据集,消除数据中出现的“乒乓效应”。所谓乒乓效应,在数据表中的表现就是同一个用户在一段很短的时间内(此处设定为10分钟),反复在两个或多个基站间频繁切换的现象。得到清理后的数据集,根据后续可视化的需要,对其进行统计处理,包括:
A3)选择一个固定的时间步,例如60分钟,计算每个时间步中各个基站的人数BN={bn1,bn2,…,bnm}(时间步个数为n,基站个数为m);
A4)计算每个时间步中,各个基站的人群流动情况,即每个基站到其他基站的流出人数BFi,j,例如从基站C1到基站C2的流出人数为BF1,2,从基站C2到基站C1的流出人数为BF2,1。
可视化模块,具体包括以下步骤:
B根据上述处理后的数据集进行可视化,包括如下操作:
基站可视化具体实现如下:
B1)根据不同的地图分辨率R={r1,r2,…,rn},设置不同的地图缩放级别L={l1,l2,…,ln},展示不同分别率的地图。设计一种基于地图分别率的层次聚类算法,对基站进行聚类。
针对上述基于地图分辨率的层次聚类算法,该算法是对凝聚层次聚类算法的扩展。所述聚类算法描述如下:
step1:有m个基站,设B={b1,b2,…,bm}为所有基站的集合。设置n个地图缩放级别,以下简称为n层,每层对应的分辨率R={r1,r2,…,rn}。设置一个常量c,每层的聚类间最小距离di=c*ri,即距离超过di的基站将不聚为一类。设每层的聚类结果为H={h1,h2,…,hn},hi是在第i层的聚类结果。初始化H为空集。
Step2:计算第1层的最大相似距离d1=c*r1,采用凝聚层次聚类算法对B进行聚类。对初始的基站集合B中m个基站作为m个簇,将距离小于d1的最近的两个簇聚为一类,然后更新集合B,此时集合内簇的个数为m-1;对更新的集合B中继续将距离小于d1的最近的两个簇聚为一类,再更新集合B,此时集合内簇的个数为m-2;重复上述步骤,直至所有簇间距离均大于d1。最终聚类结果为h1;
Step3:计算第2层的最大相似距离d2=c*r2,采用相同凝聚层次聚类算法算法对上一层的结果h1进行聚类,结果为h2;
Step4:计算第i层的最大相似距离di=c*ri,采用相同凝聚层次聚类算法算法对上一层的结果hi-1进行聚类,结果为hi;
Step5:重复step4直到得到所有层的聚类结果。
B2)在地图上根据不同的缩放级别对基站进行可视化,包括如下操作:
B21)采用聚类中包含的所有基站的坐标平均值作为该基站聚类的坐标,计算该聚类所包含的基站数量,在基站图标上显示出具体数值。
B22)根据所选时段中,该基站聚类(聚类或单个基站,以下统称为基站聚类)的流入人数多于流出人数,或流出人数多于流入人数,采用不同颜色进行区分。
B23)采用多视图协同的可视化方法,对于某个基站聚类,绘制折线图表示其流入、流出及当前时刻总人数随时间的变化。
人群流向可视化具体实现如下:
B3)绘制流向图,对不同时刻人群的流动方向及流量大小进行可视化。包括如下操作:
B31)根据不同的地图缩放级别,对有人群流动的基站聚类之间,绘制连接线表示人群的流动。若两个基站聚类之间有人群流动,绘制两条弧线分别表示从一个基站聚类到另一个基站聚类的人群流动。采用弧线是为了避免流线的相互遮挡造成画面不清晰,进一步的,设定逆时针方向的弧线表示人群的流出,并加以箭头表示。例如,从一个基站聚类流入到另一个基站聚类的人群,表示为从一个基站聚类指向另一个基站的逆时针的有箭头弧线。
B32)使用线条粗细区分人流大小。具体表示为基站聚类间连接线的粗细的不同。线条粗细的设定采用一种自适应的宽度选择算法。选择四个宽度值w1,w2,w3,w4;设某时段流量最小时的人数为qmin,流量最大时的人数为qmax;计算从qmin到qmax的四分位数分别为q1,q2,q3,设q1,q2,q3,qmax每个值依次对应一个宽度值w1,w2,w3,w4,当流量在qmin至q1之间时,采用宽度w1,当流量在qmin至q1之间时,采用宽度w1;当流量在q1至q2之间时,采用宽度w2;当流量在q2至q3之间时,采用宽度w3;当流量在q3至qmax之间时,采用宽度w4。
基于基站的人群流动模式可视化步骤如下:
B4)绘制南丁格尔玫瑰图,对每个基站聚类一天中人群流动情况进行可视化。具体包括如下操作:
B41)在固定的地图分辨率下,计算每个基站聚类每个小时的净流入人数,净流入人数=该聚类内每个基站的流入人数-该聚类内每个基站的流出人数。
B42)绘制圆环,分成24等份,分别表示一天中24个时间步。
B43)在圆环内侧,绘制南丁格尔玫瑰图,每一个扇形表示一个时间步,扇形面积表示净流入人数。若净流入人数为正数,表示该基站聚类该时间步流入人数大于流出人数,扇形用灰色填充;若净流入人数为负数,表示该基站聚类该时间步流入人数小于流出人数,扇形用黑色填充。
基于时间步的人群流动模式可视化步骤如下:
B5)根据每个时间步对应的基站聚类间人群流量大小,对时间步进行聚类,并用圆环图进行可视化。该图可以帮助分析不同时间步之间的关系,聚为一类的时间步,所对应的该段时间的基站聚类间人群流动模式较为相似。
针对上述对时间步的聚类算法,其具体步骤如下:
Step1:使用基站间的流量作为特征向量,共有n个基站聚类,每个时间步对应一个n*n的矩阵L,其中L(i,j)表示在该时间步下,基站聚类i向基站聚类j流出的人数;
Step2:对n个基站聚类的矩阵,采用K-means算法进行聚类,人群流动模式相似的时间步被聚为一类。
根据聚类结果,用圆环图对其进行可视化。每个环表示一天,分成24等份,分别表示一天中24个时间步,并根据所属聚类对各个单元格进行颜色填充。
与现有技术相比,本发明的有益效果是:
采用传统点数据可视化方法对城市内基站进行可视化时,由于基站数量很大,很容易造成基站间相互遮挡的问题。本发明能够有效解决遮挡问题,并且采用了多视图协同可视化的方法,增加了折线图,辅助展示各个层次下基站聚类或基站的详细信息。在使用流向图表示人群移动时,采用自适应的宽度选择算法,可以保证切换到任意时间段都能根据线条粗细看出当前各处流量大小的区别。用南丁格尔玫瑰图对每个基站聚类各个时间步的净流入人数进行可视化,可以了解不同区域的人群流动模式的变化。用圆环图展示从时间上的聚类结果,可以了解人群移动模式随时间的变化,以及不同时间段的移动模式之间的区别。
附图说明
图1为本发明一种针对手机基站定位数据的可视化方法的流程框图;
图2为本发明中预处理模块的实现流程图;
图3为本发明中可视化模块的实现流程图;
图4为本发明实施例中,两个不同地图分辨率对应的基站可视化结果;
图5为本发明实施例中,展示某个基站聚类,图上的三条曲线分别表示流入、流出及当前时刻总人数随时间的变化;
图6为本发明实施例中,某个时间段对应的人群流向可视化结果;
图7为本发明实施例中,显示当前基站聚类到其他基站聚类的流入/流出情况:
其中,(a)显示当前基站聚类到其他基站聚类的人群流出;(b)显示其他基站聚类到当前基站聚类的人群流入;
图8为本发明实施例中,基于基站的人群流动模式可视化结果:
其中,(a)显示一个基站聚类的结果;(b)在地图上同时显示所有基站聚类的结果;
图9为本发明实施例中,对168个时间步进行聚类的结果,并将聚类结果进行可视化。
具体实施方式
下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。
图1为本发明提供的一种针对手机基站定位数据的可视化系统的流程图。
本发明系统包括数据预处理模块和可视化模块。
本发明预处理模块的实现流程图如图2所示。数据预处理模块将原始数据集中信息有缺失和对可视化有干扰的数据进行过滤,并对过滤后的数据进行统计处理。
本发明可视化模块的实现流程图如图3所示。可视化模块分为基站可视化、基站间人群流向可视化、基于基站的人群流动模式可视化和基于时间步的人群流动模式可视化。基站可视化可在不同分辨率的地图上展示基站或基站聚类的位置;基站间人群流向可视化可展示在特定时间步的人群在基站间流动情况;基于基站的人群流动模式可视化展示每个基站聚类一天中各个时间段的人数变化情况;基于时间步的人群流动模式可视化可以分析不同时间步之间的关系,聚为一类的时间步,所对应的该段时间的基站聚类间人群流动模式较为相似。
本发明实施例中的待可视化数据集为上海地区2015年5月1日-5月7日的手机移动实时信令数据集和基站地理信息数据集,其属性表如表1和表2所示。移动实时信令数据包含2G/3G/CDMA手机实时所处基站位置信息。每次定位(产生记录)的触发条件为短信收发、去来电和开关机等动作、半小时为周期的心跳定位以及服务区切换等。
表1移动实时信令数据属性表
表2基站地理位置属性表
字段名 | 字段含义 |
bsid | 基站编号 |
longitude | GPS经度 |
latitude | GPS纬度 |
本发明提供一种针对手机基站定位数据的可视分析系统。通过结合热力图、流向图和圆环图等,对基站、人群流向等进行可视化展示。
该可视化方法的具体操作步骤为:
A对移动实时信令数据原始数据集,进行数据预处理:
A1)针对基站地理位置属性表中的数据,将基站地点经纬度缺失的数据清除;
A2)针对移动实时信令数据属性表中的数据,使用Dartmouth方法消除数据中出现的乒乓效应;
得到清理后的数据集,对其进行统计处理:
A3)设置固定的时间步为一个小时,计算每个小时中各个基站的总人数;
A4)计算每个小时各个基站间的人群流动情况,例如,对于基站C01,统计C01到C02、C03等其他基站的人员流入/流出次数。
B根据上述处理后的数据集,分别对基站、人群流向进行可视化:
B1)设置地图缩放级别为10到19,对应的分辨率为R={152.8741,76.437,38.2185,19.1093,9.5546,4.7773,2.3887,1.1943,0.5972,0.2986}。采用基于地图比例尺的层次聚类算法,对基站进行聚类,具体步骤如下:
step1:设置常量c=40,每层的聚类间最小距离di=40*ri。设每层的聚类结果为H={h1,h2,…,hn},hi是在第i层的聚类结果。初始化H为空集。
Step2:计算第1层的最大相似距离d1=c*r1,采用凝聚层次聚类算法将距离最近的两个基站聚为一类,直至所有类间距离均大于d1。聚类结果为h1;
Step3:计算第2层的最大相似距离d2=c*r2,采用凝聚层次聚类算法对上一层的结果h1进行聚类,结果为h2;
Step4:计算第i层的最大相似距离di=c*ri,采用凝聚层次聚类算法对上一层的结果hi-1进行聚类,结果为hi;
Step5:重复step4直到得到所有层的聚类结果。
B2)在地图上根据不同的缩放级别对基站进行可视化:
B21)采用聚类中包含的所有基站的坐标平均值作为该基站聚类的坐标,计算该聚类所包含的基站数量,在基站图标上显示出具体数值。
B22)根据所选时段中,该基站聚类流入及流出人数的多少,采用不同颜色进行区分。具体设置如下:当流入人数小于流出人数时,用白色的图标表示;当流入人数大于流出人数时,用黑色的图标表示;当流入人数等于流出人数时,用灰色的图标表示。如图4所示,由于流入人数和流出人数恰好相等的情况并不常见,因此图中大多为黑色和白色的图标。
B23)绘制折线图展示每个基站聚类的具体信息。对于某个基站聚类,在折线图上绘制三条折线分别表示流入、流出及当前时刻总人数随时间的变化。如图5所示,以某个基站聚类为例,圆形节点的折线表示基站聚类总人数(Crowd),正方形节点的折线表示基站聚类流入人数(Inflow),三角形节点的折线表示基站聚类的流出人数(Outflow)。从图中可以看出,基站每天的人数变化有着一定的规律,并且5月4日-5月7日四天工作日的流入、流出人数有明显的早晚高峰特点。
考虑到手机基站定位数据量的巨大,在显示时可能需要过滤掉一些流量较小的线条,此处设置一个图例,通过更改图例上箭头的位置,过滤掉箭头之外对应人数的流线。
B3)绘制流向图,具体操作如下:
B31)根据不同的地图缩放级别,针对全部的基站聚类,绘制基站聚类间的连接线表示人群的流动。为了避免相互遮挡,采用带箭头的弧线表示人群流动,逆时针方向的箭头表示该基站聚类的流出人数。使用线条粗细区分人流大小。选择四个宽度值1,2,3,4;设某时段流量最小时的人数为qmin,流量最大时的人数为qmax;计算从qmin到qmax的四分位数分别为q1,q2,q3,设q1,q2,q3,qmax每个值依次对应一个宽度值1,2,3,4,当流量在qmin至q1之间时,宽度为1,当流量在q1至q2之间时,宽度为2,当流量在q2至q3之间时,宽度为3,当流量在q3至qmax之间时,宽度为4。如图6所示,该图展示了某个时间段的全部基站聚类间流动情况,可以看出中心区域基站间的流动人数要明显多于周边区域。
B32)针对单独的某个基站聚类,绘制其到其他基站聚类间的连接线表示人群的流动。考虑到可能需要分别分析该基站聚类的流入和流出情况,设置单独的in/out按钮,控制在地图上分别显示该基站聚类到其他基站聚类的流入和流出情况。如图7所示,该图展示了某个时间段的某个基站聚类的人群流动情况。图7中的(a)展示其他基站到该基站的流入情况,图7中的(b)展示该基站到其他基站的流出情况。
B4)绘制南丁格尔玫瑰图,对每个基站聚类一天中人群流动情况进行可视化。具体步骤如下:
B41)选择一个固定的地图分辨率R=76.437,计算每个基站聚类每个小时的净流入人数,净流入人数=该聚类内每个基站的流入人数-该聚类内每个基站的流出人数。
B42)绘制圆环,分成24等分,分别表示一天中24个时间步。
B43)在圆环内侧,绘制南丁格尔玫瑰图,每一个扇形表示一个时间步,扇形面积表示净流入人数。若净流入人数为正数,表示该基站聚类该时间步流入人数大于流出人数,扇形用灰色填充;若净流入人数为负数,表示该基站聚类该时间步流入人数小于流出人数,扇形用黑色填充。图8中的(a)展示了某个基站聚类一天中人群的流动情况,从图中可以看出从1:00-14:00该基站聚类的人数一直在增加,15:00过后大部分时间步的人数都在减少,其中6:00-10:00人群流入最多,16:00-19:00人群流出最多,由此可以认为该基站聚类所在位置可能是类似写字楼密集的办公区域。图8中的(b)在地图上做南丁格尔玫瑰图,可以同时看到一天中多个基站聚类的人群流动情况,由此分析职住地的分布特征。
B5)根据每个小时对应的基站聚类间人群流量大小,对时间步进行聚类,聚类步骤如下:
Step1:使用基站间的流量作为特征向量,共有2896个基站聚类,每个小时对应一个2896*2896的矩阵L,其中L(i,j)表示在该时间步下,基站聚类i向基站聚类j流出的人数。本实施例选择2015年5月1日到2015年5月7日的数据,即共168个时间步。
Step2:对2896个基站聚类的矩阵,采用K-means算法进行聚类,设k=7,最终得到7个时间步聚类。
B6)绘制圆环图。圆环图从内层到外层分别表示1日-7日,由于时间步设置为一个小时,因此每个单独的环被划分为24个单元格,每个单元格代表一个小时。7个聚类用7种不同颜色表示,每个单元格的颜色标明了该时间步属于哪个聚类。如图9所示,能够看到节假日(内三圈)与工作日(外四圈)的区别,工作日的人群流动模式十分相似,以及工作日有明显的早晚高峰的特点。
B7)为了更好地展示每个时间步聚类对应的人群流动模式,当在圆环图上选择某个单元格时,地图上显示该单元格对应时间步的流向图。流向图的绘制与上述B3步骤相同。
提供以上实施例仅仅是为了描述本发明的目的,而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改,均应涵盖在本发明的范围之内。
Claims (6)
1.一种针对手机基站定位数据的可视分析系统,其特征在于:包括数据预处理模块和可视化模块;
所述数据预处理模块,对手机定位基站定位得到的数据集进行数据清洗和数据统计,得到预处理后的数据集;所述数据集包括手机定位数据集和基站信息数据集,手机定位数据集包括手机用户的唯一标识、信令产生的时间、以及用户所在基站的编号;基站信息数据集包括基站编号和基站所在地点经纬度;
所述可视化模块,对数据预处理模块处理后的数据集分别进行基站可视化处理、基站间人群流向可视化处理、基于基站的人群流动模式可视化处理和基于时间步的人群流动模式可视化处理;基站可视化处理采用基于地图分别率的层次聚类算法对基站进行聚类,得到聚类结果;根据聚类结果,在地图上根据不同的缩放级别对基站进行可视化;基站间人群流向可视化处理绘制流向图,对不同时刻人群的流动方向及流量大小进行可视化;基于基站的人群流动模式可视化处理计算各个基站聚类每个时间步的净流入人数,通过绘制南丁格尔玫瑰图,对每个基站聚类一天中各个时间段的人数变化情况进行可视化;基于时间步的人群流动模式可视化处理根据每个时间步对应的基站聚类间人群流量大小,对时间步进行聚类,得到人群流动模式相似的时间步被聚为一类,并用图进行可视化,能够帮助分析不同时间步之间的关系;
所述可视化模块中,基站可视化处理具体包括以下步骤:
(1)根据不同的地图分辨率R={r1,r2,…,rn},设置不同的地图缩放级别L={l1,l2,…,ln},展示不同分别率的地图,设计一种基于地图分别率的层次聚类算法,对基站进行聚类,所述聚类算法描述如下:
step1:有m个基站,设B={b1,b2,…,bm}为所有基站的集合,设置n个地图缩放级别,以下简称为n层,每层对应的分辨率R={r1,r2,…,rn},设置一个常量c,每层的聚类间最小距离di=c*ri,即距离超过di的基站将不聚为一类,设每层的聚类结果为H={h1,h2,…,hn},hi是在第i层的聚类结果,初始化H为空集;
Step2:计算第1层的最大相似距离d1=c*r1,采用凝聚层次聚类算法对B进行聚类, 对初始的基站集合B中m个基站作为m个簇,将距离小于d1的最近的两个簇聚为一类,然后更新集合B,此时集合内簇的个数为m-1;对更新的集合B中继续将距离小于d1的最近的两个簇聚为一类,再更新集合B,此时集合内簇的个数为m-2;重复上述步骤,直至所有簇间距离均大于d1,最终聚类结果为h1;
Step3:计算第2层的最大相似距离d2=c*r2,采用相同凝聚层次聚类算法对上一层的结果h1进行聚类,结果为h2;
Step4:计算第i层的最大相似距离di=c*ri,采用相同凝聚层次聚类算法对上一层的结果hi-1进行聚类,结果为hi;
Step5:重复step4直到得到所有层的聚类结果;
(2)根据聚类结果,在地图上根据不同的缩放级别对基站进行可视化,包括如下操作:
(21)采用聚类中包含的所有基站的坐标平均值作为该基站聚类的坐标,计算该聚类所包含的基站数量,在基站图标上显示出具体数值;
(22)根据所选时段中,该基站聚类的流入人数多于流出人数,或流出人数多于流入人数,采用不同颜色进行区分;
(23)采用多视图协同的可视化方法,对于某个基站聚类,绘制折线图表示基站聚类流入、流出及当前时刻总人数随时间的变化。
2.根据权利要求1所述的针对手机基站定位数据的可视分析系统,其特征在于:所述数据预处理模块中,数据清洗步骤如下:
(1)针对基站信息数据集,将基站地点经纬度缺失的数据清除;针对手机定位数据集,消除手机用户时间信息的数据中出现的乒乓效应,所述乒乓效应在数据表中的表现就是同一个用户在10分钟之内,反复在两个或多个基站间频繁切换的现象;最后得到预处理后的数据集;
(2)得到预处理后的数据集,根据后续可视化的需要,进行统计处理,统计处理过程为:选择一个固定的时间步,计算每个时间步中各个基站的人数:BN={bn1,bn2,…,bnm},时间步个数为n,基站个数为m;然后计算每个时间步中,各个基站的人群流动情况,即每个基站到其他基站的流出人数,基站i到基站j的流出人数表示为BFi,j。
3.根据权利要求1所述的针对手机基站定位数据的可视分析系统,其特征在于:所述可视化模块中,人群流向可视化处理中绘制流向图,对不同时刻人群的流动方向及流量大小进行可视化,包括如下操作:
(1)根据不同的地图缩放级别,对有人群流动的基站聚类之间,绘制连接线表示人群的流动,若两个基站聚类之间有人群流动,绘制两条弧线分别表示从一个基站聚类到另一个基站聚类的人群流动,采用弧线是为了避免线条的相互遮挡造成画面不清晰,进一步的,设定逆时针方向的弧线表示人群的流出,并加以箭头表示;
(2)使用线条宽度区分人流大小,具体表示为基站聚类间连接线的粗细的不同,线条粗细的设定采用一种自适应的宽度选择算法,选择四个宽度值w1,w2,w3,w4;设某时段流量最小时的人数为qmin,流量最大时的人数为qmax;计算从qmin到qmax的四分位数分别为q1,q2,q3,设q1,q2,q3,qmax每个值依次对应一个宽度值w1,w2,w3,w4,当流量在qmin至q1之间时,线条采用宽度w1;当流量在q1至q2之间时,采用宽度w2;当流量在q2至q3之间时,采用宽度w3;当流量在q3至qmax之间时,采用宽度w4。
4.根据权利要求1所述的针对手机基站定位数据的可视分析系统,其特征在于:所述可视化模块中,基于基站的人群流动模式可视化处理中,具体步骤如下:
(1)在固定的地图分辨率下,计算每个基站聚类每个时间步的净流入人数,净流入人数=该聚类内每个基站的流入人数-该聚类内每个基站的流出人数;
(2)绘制圆环,分成24等份,分别表示一天中24个时间步;
(3)在圆环内侧,绘制南丁格尔玫瑰图,每一个扇形表示一个时间步,扇形面积表示净流入人数,若净流入人数为正数,表示该基站聚类该时间步流入人数大于流出人数,扇形用灰色填充;若净流入人数为负数,表示该基站聚类该时间步流入人数小于流出人数,扇形用黑色填充。
5.根据权利要求1所述的针对手机基站定位数据的可视分析系统,其特征在于:所述可视化模块中,基于时间步的人群流动模式可视化处理中,对时间步进行聚类的具体步骤如下:
Step1:使用基站间的流量作为特征向量,共有n个基站聚类,每个时间步对应一个n*n的矩阵L,其中L(i,j)表示在对应时间步下,基站聚类i向基站聚类j流出的人数;
Step2:对n个基站聚类的矩阵,采用K-means算法进行聚类,人群流动模式相似的时间步被聚为一类;根据聚类结果,用圆环图对其进行可视化,每个环表示一天,分成24等份,分别表示一天中24个时间步,并根据所属聚类对各个单元格进行颜色填充。
6.一种针对手机基站定位数据的可视分析方法,其特征在于步骤为:
(1)对原始数据集进行清洗,删除信息有缺失的数据,消除出现乒乓效应的数据,所述乒乓效应是指在数据表中的表现就是同一个用户在10分钟之内,反复在两个或多个基站间频繁切换的现象的数据;选择一个固定的时间步,计算每个时间步中各个基站的人数BN={bn1,bn2,…,bnm},时间步个数为n,基站个数为m;然后计算每个时间步中,各个基站的人群流动情况,即每个基站到其他基站的流出人数BFi,j;
(2)根据不同地图分辨率,采用基于地图分辨率的层次聚类算法对基站进行聚类;采用聚类中包含的所有基站的坐标平均值作为该基站聚类的坐标,并在相应地图分辨率下对基站聚类进行可视化;计算该聚类所包含的基站数量,在基站图标上显示出具体数值,用颜色区分流入人数大于流出人数,或流入人数小于流出人数;
(3)根据不同地图分辨率,计算基站聚类间人群流入/流出人数;用流向图对人群在基站间流动情况进行可视化,连接线的宽度采用自适应的宽度选择算法,用于区别人流大小;
(4)在固定的地图分辨率下,计算每个基站聚类每个小时的净流入人数,净流入人数=该聚类内每个基站的流入人数-该聚类内每个基站的流出人数;绘制圆环,划分出一天中24个时间步;在圆环内侧,绘制南丁格尔玫瑰图,每一个扇形表示一个时间步,扇形面积表示净流入人数,用颜色区分该时间步流入人数大于流出人数,或流入人数小于流出人数;
(5)使用基站间的流量作为特征向量,构建各个时间步的特征矩阵;对矩阵采用K-means算法进行聚类,则人群流动模式相似的时间步被聚为一类;根据聚类结果,用圆环图对其进行可视化,每个环表示一天,根据各个时间步所属聚类对各个单元格进行颜色填充。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710247760.6A CN106971001B (zh) | 2017-04-17 | 2017-04-17 | 一种针对手机基站定位数据的可视分析系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710247760.6A CN106971001B (zh) | 2017-04-17 | 2017-04-17 | 一种针对手机基站定位数据的可视分析系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106971001A CN106971001A (zh) | 2017-07-21 |
CN106971001B true CN106971001B (zh) | 2020-04-03 |
Family
ID=59332951
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710247760.6A Active CN106971001B (zh) | 2017-04-17 | 2017-04-17 | 一种针对手机基站定位数据的可视分析系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106971001B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107182034B (zh) * | 2017-07-26 | 2018-08-21 | 江苏省城市规划设计研究院 | 基于复杂网络和手机信令数据的城市交通枢纽点评价方法 |
CN107748896A (zh) * | 2017-10-30 | 2018-03-02 | 陕西师范大学 | 一种城市人群多层次主体流向生成方法 |
CN108184203B (zh) * | 2017-12-26 | 2020-10-16 | 中国移动通信集团江苏有限公司 | 基于运营商位置信令的多级防控方法、装置、设备及介质 |
US20200044939A1 (en) * | 2018-08-01 | 2020-02-06 | Futurewei Technologies, Inc. | Interactive system for visualizing and maintaining large networks |
CN110018771B (zh) * | 2018-11-20 | 2022-04-22 | 创新先进技术有限公司 | 一种信息展示方法及装置 |
CN111669784B (zh) * | 2019-03-07 | 2023-04-07 | 成都鼎桥通信技术有限公司 | 一种监测基站流量的方法、装置和存储介质 |
CN110516021A (zh) * | 2019-08-16 | 2019-11-29 | 衢州学院 | 一种基于大数据的移动手机用户流动规律分析方法及系统 |
CN110908988A (zh) * | 2019-11-20 | 2020-03-24 | 武汉烽火众智数字技术有限责任公司 | 一种基于手机信令数据的安防监控方法、系统和介质 |
CN112217995A (zh) * | 2020-09-30 | 2021-01-12 | 深圳市友华通信技术有限公司 | 基于5g基站的地理信息主动获取方法和系统 |
CN112380302B (zh) * | 2020-10-23 | 2023-07-21 | 北京建筑大学 | 基于轨迹数据的热力图生成方法、装置、电子设备以及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104484993A (zh) * | 2014-11-27 | 2015-04-01 | 北京交通大学 | 用于交通小区划分的手机信令信息的处理方法 |
CN105095481A (zh) * | 2015-08-13 | 2015-11-25 | 浙江工业大学 | 大规模出租车od数据可视分析方法 |
CN106294679A (zh) * | 2016-08-08 | 2017-01-04 | 大连理工大学 | 一种基于地铁数据进行站点聚类的可视化方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9123259B2 (en) * | 2013-03-14 | 2015-09-01 | Microsoft Technology Licensing, Llc | Discovering functional groups of an area |
-
2017
- 2017-04-17 CN CN201710247760.6A patent/CN106971001B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104484993A (zh) * | 2014-11-27 | 2015-04-01 | 北京交通大学 | 用于交通小区划分的手机信令信息的处理方法 |
CN105095481A (zh) * | 2015-08-13 | 2015-11-25 | 浙江工业大学 | 大规模出租车od数据可视分析方法 |
CN106294679A (zh) * | 2016-08-08 | 2017-01-04 | 大连理工大学 | 一种基于地铁数据进行站点聚类的可视化方法 |
Non-Patent Citations (1)
Title |
---|
"手机基站定位数据可视分析";李海生 等;《大数据》;20170120;61-71 * |
Also Published As
Publication number | Publication date |
---|---|
CN106971001A (zh) | 2017-07-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106971001B (zh) | 一种针对手机基站定位数据的可视分析系统及方法 | |
US7561876B2 (en) | System with user interface for network planning and mobility management optimization in a mobile communication network and method thereof | |
CN101277429B (zh) | 监控中多路视频信息融合处理与显示的方法和系统 | |
US10699459B2 (en) | Digitally generated set of regional shapes for presenting information on a display screen | |
CN107624249B (zh) | 通过电信网络的聚合数据实时计数聚集人数的方法和系统 | |
CN107038754A (zh) | 一种基于三维实景的智慧园区管理系统及方法 | |
CN111143504B (zh) | 一种多摄像机室内视频地图构建方法 | |
CN110716935A (zh) | 基于网约车出行的轨迹数据分析与可视化方法及系统 | |
CN106991818A (zh) | 一种有效缓解城市交通拥堵的方法、存储介质和系统 | |
US20170301117A1 (en) | Digitally-Generated Map Containing Defined Regions for Rendering with Photo Overlays | |
CN111080501B (zh) | 基于手机信令数据的真实人群密度时空分布估算方法 | |
CN103577875A (zh) | 一种基于fast的计算机辅助cad人数统计方法 | |
CN110896462B (zh) | 一种视频监控集群的控制方法、装置、设备及存储介质 | |
CN108958231A (zh) | 一种移动机器人地图的多分辨率区域划分方法 | |
CN110135609A (zh) | 一种基于大数据共建共享的智慧旅游系统及方法 | |
CN110765220A (zh) | 一种基于热力图的地理位置确定方法和电子设备 | |
Roberts et al. | Interactive Analytical Treemaps for Visualisation of Call Centre Data. | |
CN112040265B (zh) | 一种多摄像机协同的地理视频直播流生成方法 | |
CN114782219A (zh) | 一种人员流动数据分析方法及装置 | |
CN109978768A (zh) | 一种基于视觉显著性检测的图像非线性缩放方法 | |
Yamamoto et al. | On-demand generalization of road networks based on facility search results | |
CN112097776A (zh) | 用于提高航线地图渲染效率的方法及系统 | |
EP3446232A1 (en) | A digitally generated set of regional shapes for presenting information on a display screen | |
CN114827590B (zh) | 摄像头位置分布合理性分析方法、装置和电子设备 | |
CN112711990A (zh) | 一种多相机联合的大场景人群计数方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |