CN109362041A - 一种基于大数据的人口时空分布分析方法 - Google Patents
一种基于大数据的人口时空分布分析方法 Download PDFInfo
- Publication number
- CN109362041A CN109362041A CN201811554817.8A CN201811554817A CN109362041A CN 109362041 A CN109362041 A CN 109362041A CN 201811554817 A CN201811554817 A CN 201811554817A CN 109362041 A CN109362041 A CN 109362041A
- Authority
- CN
- China
- Prior art keywords
- base station
- period
- data
- user
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/02—Services making use of location information
- H04W4/029—Location-based management or tracking services
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W24/00—Supervisory, monitoring or testing arrangements
- H04W24/08—Testing, supervising or monitoring using real traffic
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明涉及数据处理技术领域,具体涉及一种基于大数据的人口时空分布分析方法。本发明通过手机的运动轨迹,结合手机连接基站的位置,对手机驻留的地点和驻留时间进行精确定位,由于手机用户是实时将手机带在身上的,故对手机进行精确定位,即相当于对手机用户进行精确定位。定位后,确定每一个手机用户在每个时间段内所驻留的具体地理实体,统计每个地理实体在每个时间段内的人口驻留数据,再将统计到的每个地理实体的驻留数据进行汇总,即可得到任意一个区域内的任意一个时间段内的人口驻留数据。
Description
技术领域
本发明涉及数据处理技术领域,具体涉及一种基于大数据的人口时空分布分析方法。
背景技术
人口学研究历史悠久,其意义自不待言,在当代更加受到重视,1994年开罗联合国人口与发展大会提出“人处于普受关注的可持续发展问题的中心”。虽然我国己进入稳定低生育水平阶段,但受人口基致、人口年龄结构、人口迁移以及社会经济发展进程的影响,人文发展水平还很低,人口问题对经济社会发展的影响正逐渐加大。
人类作为人口系统的主体是活动在地球表面的,他们的生存、发展、迁移等绝大多数活动都不可避免地与周围的地理空间发生紧密的联系、交流,这就使人口分布及变动具有深刻的空间分布特征。如果忽视或不清楚人口的空间分布特征,就很有可能导致管理决策出现重大失误,从而对国民经济发展和人民生活造成损失。因此,人口的空间分布特征究竟如何、可否指导我们的生产生活,发挥应有的作用,这已经成为当代人口学研究极为迫切的问题。毋庸质疑,传统人口学已经取得了许多很有价值的成果,但是由于自身研究手段和方法的限制在这方面的研究还有待深入。在人口学研究的过程中,人口时空分布的数据统计,是人口学研究的基础,人口时空分布统计数据越精准,对人口学研究的助力越大。
同时,人口的时空分布数据对于城市规划及交通线路建设都有重大的参考意义。但是现有的人口时空分布数据统计方法依然较为落后,统计的数据不够精准。
公开号为CN106096631A,公开日为20161109的中国发明专利,公开了一种基于手机大数据的流动人口分类识别分析方法,利用大数据从行为轨迹中提取客观时空信息进行分析挖掘,从空间及时间维度,对人口流动进行观察及识别,区分流动人口群体,并基于该群体行为特征及逗留时长,并从数据使用者的角度考量流动人口不同分类,将其区分为长期流动人口、短期流动人口及短时入境人口。
该技术方案仅仅能够对一定区域内的流动人口进行统计,不能对人口的时空分布数据进行全面精确的统计。
发明内容
本发明目提供了一种基于大数据的人口时空分布分析方法,解决了现有技术中不能对人口的时空分布数据进行全面精确统计的问题。
本发明所采用的技术方案为:
一种基于大数据的人口时空分布分析方法,包括以下步骤:
S1、获取通信运营商提供的基站工程参数、移动业务信令数据和地图服务商提供的空间区块实际位置坐标点集合;
S2、通过基站工程参数和空间区块实际位置坐标点集合,形成地理实体特征指纹;
S3、将业务信令数据按时间、空间关系进行聚合,确定用户的业务信令轨迹数据特征;由于是业务信令,即一个时间点只有一个基站。但由于用户在一个位置时,可能由于多种因素会发生基站切换,即用户连续的多条业务信令可能均指向一个位置,因此需要将用户的业务信令按时间、空间关系进行聚合;
S4、根据聚合后的业务信令轨迹数据特征,对手机用户的每个时段进行定位,判断用户在每一时段所处的具体地理实体;
S5、根据用户每一时段所处的具体地理实体,统计出每个地理实体在各个时段的人口驻留数据;所述人口驻留数据包括人员量、驻留类型、驻留人员男女比例和驻留人员年龄分布等。
作为上述技术方案的优选,所述步骤S2中,形成地理实体特征指纹的步骤为:
S201、根据基站工程参数计算基站的覆盖面;
S202、根据地理实体的覆盖范围和基站的覆盖面,通过gis空间计算引擎,计算得到地理实体和基站覆盖的交叉面积S;所述地理实体的覆盖范围为:将地图服务商提供的地理实体实际位置坐标点进行两两相连,形成封闭的覆盖区域,即为地理实体覆盖范围;
S203:通过基站的工程参数计算出基站的覆盖面积Sb;
S204:通过基站的覆盖面积Sb和交叉面积S,通过方程计算地理实体和基站的空间关系系数α,计算方程为:α=S÷Sb;
S205:输出地理实体和覆盖该地理实体的基站的关系:
{B,{Lc1,α},{Lc2,α}{Lc3,α}..{Lcn,α}} (1)
其中,B为地理实体,Lc为基站编号。
作为上述技术方案的优选,所述步骤S3中,确定用户的业务信令轨迹数据特征包括如下步骤:
S301、对用户业务信令记录按发生时间进行排序,如连续的业务信令记录出现往复切换,则将这两条业务信令记录合并;
例如基站A->…->基站A这样的切换,如两次出现基站A的时间间隔不超过2小时,且两次基站A之前出现的其他基站和基站A之间的距离均不超过1km,则将这些记录合并;
S302、将时间间隔在1分钟的业务信令数据合并;
由于业务信令采集来源为多个数据源,且各数据源时间可能有些许差异,故将时间间隔在1分钟的业务信令数据合并;
S303、迭代执行步骤S301和步骤S302,直到无法合并为止;
S304、合并后的记录按“开始-结束”时间划分为多个时段,每个时段内存在多条记录,修正错误数据,找到每个时段内出现时间最长的基站,并剔除时段内跟该基站距离大于1km的记录;
S305、历史数据学习,将步骤S304处理后的记录存入数据库,并与历史记录进行相似度匹配,将相似的历史记录并入该时段;
S306、计算同一时段中出现过的每个基站在近一个月中的出现频次W;
S307、输出合并后的记录:
{U,Ts,Te,{Lc1,W1},{Lc2,W2},{Lc3,W3}…{Lcn,Wn}} (2)
其中,U为用户标识,Ts为时段开始时间,Te为时段结束时间,Lcn为基站小区标识,Wn为基站小区在近一个月的出现频次。
所述S305中,如历史记录中存在跟该时段相似度大于80%,且均为工作日或均为非工作日,且历史记录的中的基站经纬度跟当前时段中所有基站的经纬度距离均小于1km,则将历史记录也并入该时段。时段相似度=两时段内相同分钟数的平方÷(时段一分钟数×时段二分钟数)。
作为上述技术方案的优选,所述步骤S4中,判断用户在每一时段所处的具体地理实体包括:
将式(1)和式(2)按照方程(3)进行关联计算,得到用户在该时段可能所在的可能性大小P,方程(3)为:
P{u,b}=∑W*α (3)
形成每个用户每个时段在各地理实体内的可能性大小数据集,
{U,Ts,Te,{B1,P1},{B2,P2},{B3,P3}…{Bn,Pn}} (4)
其中P最大的一个地理实体即为用户该时段的驻留位置。
作为上述技术方案的优选,所述基站工程参数包括地区区域码、基站识别码、网络制式、天线类型、天线方位角、基站覆盖类型、基站天线位置经度坐标和基站天线位置纬度坐标;所述移动业务信令数据包括时间、用户号码和基站编号。
作为上述技术方案的优选,所述基站覆盖类型包括室内型和非室内型;所述天线类型包括全向天线和定向天线;所述室内型基站的覆盖半径R为固定值;非室内型基站的覆盖半径R为,该基站天线经纬度坐标和最近的三个非室内型基站的平均距离与特定系数的乘积。所述特定系数为1.6;所述室内型基站的覆盖半径R默认为400米;
作为上述技术方案的优选,所述全向天线基站覆盖面的计算方法为:以天线经纬度为中心点,每隔45度向外延伸基站覆盖半径R的长度,分别得到八个坐标点,将相邻的坐标点用直线两两连接,形成封闭的基站覆盖区域,即得到全向天线基站的覆盖面。
作为上述技术方案的优选,所述定向天线基站覆盖面的计算方法为:以天线经纬度为中心点,分别按角度A、A+H÷6、A+H÷3、A+H÷2、A-H÷6、A-H÷3和A+H÷2向外延伸基站覆盖半径R的长度,得到七个坐标点,将相邻的坐标点用直线两两连接,两端的两个坐标点分别与天线经纬度点相连,形成封闭的基站覆盖区域,即得到全向天线基站的覆盖面;所述角度A为天线方位角,角度H为水平波瓣角度。所述水平波瓣角度计算方法为,若该基站定向天线数量小于等于2,则为180度,否则为120度。
作为上述技术方案的优选,所述步骤S5中,驻留类型的判断方法为:
S501、根据用户的历史定位轨迹链,统计出用户当月在该地理实体的驻留频次、驻留开始时段、驻留结束时段、平均驻留时长、工作日驻留天数、非工作日驻留天数和同类位置驻留天数;
S502、根据S501中统计出的数据,判断该用户每一次驻留行为的类型,驻留类型包括居住、工作和路过。
作为上述技术方案的优选,所述驻留类型确定后,结合用户的自然属性,统计各地理实体内用户结构分布,形成地理实体标签。所述自然属性由通信运营商提供,包括用户性别、年龄等。
本发明的有益效果为:
本发明通过手机的运动轨迹,结合手机连接基站的位置,对手机驻留的地点和驻留时间进行精确定位,由于手机用户是实时将手机带在身上的,故对手机进行精确定位,即相当于对手机用户进行精确定位。定位后,确定每一个手机用户在每个时间段内所驻留的具体地理实体,统计每个地理实体在每个时间段内的人口驻留数据,再将统计到的每个地理实体的驻留数据进行汇总,即可得到任意一个区域内的任意一个时间段内的人口驻留数据。本发明定位准确,仅仅需要移动信令数据和空间区块位置信息,即可进行精确的定位,需要处理和存储的数据量小。另外,不需要实时的数据进行分析,每天的固定时间由通信运营商将前一天的数据传送过来即可,没有传输速度的要求,不会因为传输速度的限制而影响本发明技术方案的处理速度。
附图说明
图1是本发明-实施例1地理实体标签的定义标准示例。
具体实施方式
下面结合附图及具体实施例对本发明作进一步阐述。在此需要说明的是,对于这些实施例方式的说明用于帮助理解本发明,但并不构成对本发明的限定。本文公开的特定结构和功能细节仅用于描述本发明的示例实施例。然而,可用很多备选的形式来体现本发明,并且不应当理解为本发明限制在本文阐述的实施例中。
应当理解,尽管本文可以使用术语第一、第二等等来描述各种单元,这些单元不应当受到这些术语的限制。这些术语仅用于区分一个单元和另一个单元。例如可以将第一单元称作第二单元,并且类似地可以将第二单元称作第一单元,同时不脱离本发明的示例实施例的范围。
应当理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,单独存在B,同时存在A和B三种情况,本文中术语“/和”是描述另一种关联对象关系,表示可以存在两种关系,例如,A/和B,可以表示:单独存在A,单独存在A和B两种情况,另外,本文中字符“/”,一般表示前后关联对象是一种“或”关系。
应当理解,当将单元称作与另一个单元“连接”、“相连”或“耦合”时,它可以与另一个单元直相连接或耦合,或中间单元可以存在。相対地,当将单元称作与另一个单元“直接相连”或“直接耦合”时,不存在中间单元。应当以类似方式来解释用于描述单元之间的关系的其他单词(例如,“在……之间”对“直接在……之间”,“相邻”对“直接相邻”等等)。
本文使用的术语仅用于描述特定实施例,并且不意在限制本发明的示例实施例。如本文所使用的,单数形式“一”、“一个”以及“该”意在包括复数形式,除非上下文明确指示相反意思。还应当理解术语“包括”、“包括了”、“包含”、和/或“包含了”当在本文中使用时,指定所声明的特征、整数、步骤、操作、单元和/或组件的存在性,并且不排除一个或多个其他特征、数量、步骤、操作、单元、组件和/或他们的组合存在性或增加。
还应当注意到在一些备选实施例中,所出现的功能/动作可能与附图出现的顺序不同。例如,取决于于所涉及的功能/动作,实际上可以实质上并发地执行,或者有时可以以相反的顺序来执行连续示出的两个图。
在下面的描述中提供了特定的细节,以便于对示例实施例的完全理解。然而,本领域普通技术人员应当理解可以在没有这些特定细节的情况下实现示例实施例。例如可以在框图中示出系统,以避免用不必要的细节来使得示例不清楚。在其他实施例中,可以不以非必要的细节来示出众所周知的过程、结构和技术,以避免使得示例实施例不清楚。
实施例1:
本实施例提供了一种基于大数据的人口时空分布分析方法,包括以下步骤:
S1、获取通信运营商提供的基站工程参数、移动业务信令数据和地图服务商提供的空间区块实际位置坐标点集合;
S2、通过基站工程参数和空间区块实际位置坐标点集合,形成地理实体特征指纹;
S3、将业务信令数据按时间、空间关系进行聚合,确定用户的业务信令轨迹数据特征;由于是业务信令,即一个时间点只有一个基站。但由于用户在一个位置时,可能由于多种因素会发生基站切换,即用户连续的多条业务信令可能均指向一个位置,因此需要将用户的业务信令按时间、空间关系进行聚合;
S4、根据聚合后的业务信令轨迹数据特征,对手机用户的每个时段进行定位,判断用户在每一时段所处的具体地理实体;
S5、根据用户每一时段所处的具体地理实体,统计出每个地理实体在各个时段的人口驻留数据;所述人口驻留数据包括人员量、驻留类型、驻留人员男女比例和驻留人员年龄分布等。
所述步骤S2中,形成地理实体特征指纹的步骤为:
S201、根据基站工程参数计算基站的覆盖面;
S202、根据地理实体的覆盖范围和基站的覆盖面,通过gis空间计算引擎,计算得到地理实体和基站覆盖的交叉面积S;所述地理实体的覆盖范围为:将地图服务商提供的地理实体实际位置坐标点进行两两相连,形成封闭的覆盖区域,即为地理实体覆盖范围;
S203:通过基站的工程参数计算出基站的覆盖面积Sb;
S204:通过基站的覆盖面积Sb和交叉面积S,通过方程计算地理实体和基站的空间关系系数α,计算方程为:α=S÷Sb;
S205:输出地理实体和覆盖该地理实体的基站的关系:
{B,{Lc1,α},{Lc2,α}{Lc3,α}..{Lcn,α}} (1)
其中,B为地理实体,Lc为基站编号。
所述步骤S3中,确定用户的业务信令轨迹数据特征包括如下步骤:
S301、对用户业务信令记录按发生时间进行排序,如连续的业务信令记录出现往复切换,则将这两条业务信令记录合并;
例如基站A->…->基站A这样的切换,如两次出现基站A的时间间隔不超过2小时,且两次基站A之前出现的其他基站和基站A之间的距离均不超过1km,则将这些记录合并;
S302、将时间间隔在1分钟的业务信令数据合并;
由于业务信令采集来源为多个数据源,且各数据源时间可能有些许差异,故将时间间隔在1分钟的业务信令数据合并;
S303、迭代执行步骤S301和步骤S302,直到无法合并为止;
S304、合并后的记录按“开始-结束”时间划分为多个时段,每个时段内存在多条记录,修正错误数据,找到每个时段内出现时间最长的基站,并剔除时段内跟该基站距离大于1km的记录;
S305、历史数据学习,将步骤S304处理后的记录存入数据库,并与历史记录进行相似度匹配,将相似的历史记录并入该时段;
S306、计算同一时段中出现过的每个基站在近一个月中的出现频次W;
S307、输出合并后的记录:
{U,Ts,Te,{Lc1,W1},{Lc2,W2},{Lc3,W3}…{Lcn,Wn}} (2)
其中,U为用户标识,Ts为时段开始时间,Te为时段结束时间,Lcn为基站小区标识,Wn为基站小区在近一个月的出现频次。
所述S305中,如历史记录中存在跟该时段相似度大于80%,且均为工作日或均为非工作日,且历史记录的中的基站经纬度跟当前时段中所有基站的经纬度距离均小于1km,则将历史记录也并入该时段。时段相似度=两时段内相同分钟数的平方÷(时段一分钟数×时段二分钟数)。
所述步骤S4中,判断用户在每一时段所处的具体地理实体包括:
将式(1)和式(2)按照方程(3)进行关联计算,得到用户在该时段可能所在的可能性大小P,方程(3)为:
P{u,b}=∑W*α (3)
形成每个用户每个时段在各地理实体内的可能性大小数据集,
{U,Ts,Te,{B1,P1},{B2,P2},{B3,P3}…{Bn,Pn}} (4)
其中P最大的一个地理实体即为用户该时段的驻留位置。
所述基站工程参数包括地区区域码、基站识别码、网络制式、天线类型、天线方位角、基站覆盖类型、基站天线位置经度坐标和基站天线位置纬度坐标;所述移动业务信令数据包括时间、用户号码和基站编号。
所述基站覆盖类型包括室内型和非室内型;所述天线类型包括全向天线和定向天线;所述室内型基站的覆盖半径R为固定值;非室内型基站的覆盖半径R为,该基站天线经纬度坐标和最近的三个非室内型基站的平均距离与特定系数的乘积。所述特定系数为1.6;所述室内型基站的覆盖半径R默认为400米;
所述全向天线基站覆盖面的计算方法为:以天线经纬度为中心点,每隔45度向外延伸基站覆盖半径R的长度,分别得到八个坐标点,将相邻的坐标点用直线两两连接,形成封闭的基站覆盖区域,即得到全向天线基站的覆盖面。
所述定向天线基站覆盖面的计算方法为:以天线经纬度为中心点,分别按角度A、A+H÷6、A+H÷3、A+H÷2、A-H÷6、A-H÷3和A+H÷2向外延伸基站覆盖半径R的长度,得到七个坐标点,将相邻的坐标点用直线两两连接,两端的两个坐标点分别与天线经纬度点相连,形成封闭的基站覆盖区域,即得到全向天线基站的覆盖面;所述角度A为天线方位角,角度H为水平波瓣角度。所述水平波瓣角度计算方法为,若该基站定向天线数量小于等于2,则为180度,否则为120度。
所述步骤S5中,驻留类型的判断方法为:
S501、根据用户的历史定位轨迹链,统计出用户当月在该地理实体的驻留频次、驻留开始时段、驻留结束时段、平均驻留时长、工作日驻留天数、非工作日驻留天数和同类位置驻留天数;
S502、根据S501中统计出的数据,判断该用户每一次驻留行为的类型,驻留类型包括居住、工作和路过。
所述驻留类型确定后,结合用户的自然属性,统计各地理实体内用户结构分布,形成地理实体标签。所述自然属性由通信运营商提供,包括用户性别、年龄等。
所述地理实体标签的定义标准示例:
青年社区:35岁以下年龄段居住用户占比高出平均水平20%以上;
老年社区:50岁以下年龄段居住用户占比高出平均水平20%以上;
商住两用:居住、工作人口占比均高于30%;
男性工作区:工作人口中男性比例高于80%;
女性工作区:工作人口中女性比例高于80%。
通过本发明,可获得以下人口时空分布数据:
1.获取某个位置的地理基础信息数据
需求描述:获取某个位置的地理基础信息数据;
请求参数:位置id,key
返回数据:位置名称,位置类型,所属省份,所属城市,所属区/县,位置中心点(经度、纬度),位置边界(经纬度串),位置面积。
2.获取某个位置的建筑物信息
需求描述:获取某个位置上建筑物信息数据;
请求参数:位置id,key;
返回数据:位置名称,位置类型,修建年代,房价,物业费,栋数,户数。
3.获取位置上的人数
需求描述:获取某个位置某个时间段的的人数;
请求参数:位置id,起/止时间,粒度(15分、30分、时、天、月、年),key;
返回数据:位置名称、人数
4.获取位置上人的职住属性
需求描述:获取某位置某个时间段的人的职住属性;
请求参数:位置id,起/止时间,key;
返回数据:位置名称,人数,职住属性(仅居住、仅工作、职住同址、逗留、路过)。
备注:仅居住的人+仅工作的人+职住同址的人+逗留的人+路过的人=人数。
5.获取位置上人的新老分布
需求描述:获取某位置某个时间段新老用户分布;
请求参数:位置id,起/止时间,key;
返回数据:位置名称,人数,新用户人数,老用户人数。
备注:新用户(首次到访此地的用户)。
6.获取位置上人的到访频次
需求描述:获取某个位置某个时间段人的到访频次分布数据;
请求参数:位置id,起/止时间,key;
返回数据:位置名称,人数,到访频次的人数(1次、2次、3次、4次、5次以上)。
备注:到访频次区间分布再定。
7.获取位置上人的到访方式
需求描述:获取某个位置某个时间段人的到访方式;
请求参数:位置id,起/止时间,key;
返回数据:位置名称,人数,到访方式的人数(步行、单车、公交、地铁、出租车、自驾);
备注:到访方式挖掘可以根据每个imsi的OD出行距离,结合时间打标签。
8.获取位置上人的性别信息
需求描述:获取某个位置某个时间段人的性别分布;
请求参数:位置id,起/止时间,key;
返回数据:位置名称,人数,男性人数,女性人数,未知性别人数;
备注:男性人数+女性人数+未知性别人数=人数。
9.获取位置上人的年龄信息
需求描述:获取某个位置某个时间段人的年龄分布数据;
请求参数:位置id,起/止时间,key;
返回数据:位置名称,人数,不同年龄段的人数(18岁以下、18~25岁、26~35岁、36~45岁、45~60岁、61岁以上)。
10.获取位置上人的职业信息
需求描述:获取某个位置某个时间段人的职业分布数据;
请求参数:位置id,起/止时间,key;
返回数据:位置名称,人数,不同职业的人数(公司职员、医务人员、公务员、老师、学生、个体户、自由职业者……)。
备注:职业挖掘可以根据每个imsi的出行轨迹、居住地、工作地综合分析,然后打标签。
11.获取位置上人的消费潜力
需求描述:获取某个位置某个时间段人的消费潜力分布;
请求参数:位置id,起/止时间,key;
返回数据:位置名称,人数,不同消费潜力的人数(低收入、工薪族、中产、富人……)。
备注:消费潜力挖掘可以根据每个imsi工作地、居住地扩展属性(房价、地段)综合分析打标签。
12.获取位置上人的来源地
需求描述:获取某个位置某个时间段人的来源地分布;
请求参数:位置id,起/止时间,驻留类型,来源位置类型,key;
返回数据:{来源地1,人数,百分比;来源地2,人数,百分比;……}。
备注:驻留类型(仅居住的人、仅工作的人、职住同址的人、路过的人、逗留的人);来源位置类型(居住地、工作地、商业地、上一个有效驻留位置)。
13.获取位置上人的去向地
需求描述:获取某个位置某个时间段人的去向地分布;
请求参数:位置id,起/止时间,驻留类型,去向位置类型,key;
返回数据:{去向地1,人数,百分比;去向地2,人数,百分比;……}。
备注:驻留类型(仅居住的人、仅工作的人、职住同址的人、路过的人、逗留的人);去向位置类型(居住地、工作地、商业地、下一个有效驻留位置)。
14.获取位置上人的来源地距离信息
需求描述:获取某个位置某个时间段的人的来源地距离分布数据;
请求参数:位置id,起/止时间,key;
返回数据:位置名称,人数,不同距离的人数(1公里以内、1~2公里、2~3公里、3~4公里、5公里以上)。
15.获取行政区级的地理基础信息
需求描述:获取行政区级地理基础信息数据;
请求参数:行政区id,key;
返回数据:行政区名称,区域中心点(经度、纬度),区域边界(经纬度串),区域面积。
备注:行政区支持五级(国-省-市-区/县-街道办/镇)。
16.获取行政区域上的人数
需求描述:获取某个行政区某个时段的人数趋势数据;
请求参数:行政区id,起/止时间,粒度(15分、30分、时、天、月、年),key;
返回数据:行政区名称、人数。
备注:人数按天去重后保存。超过一天的数据请求,人数按天汇总即可。
17.获取行政区域上人的分布情况
需求描述:获取某个行政区某个时段人的分布情况;
请求参数:行政区id,起/止时间,key;
返回数据:{直接下级行政区1,人数,百分比;直接下级行政区2,人数,百分比;……}。
备注:需要维护一个行政区划表。
18.获取行政区域上人的来源地
需求描述:获取某个行政区某个时段人的来源地分布数据;
请求参数:行政区id,起/止时间,来源地级别,key;
返回数据:{来源地1,人数,百分比;来源地2,人数,百分比;……}。
备注:来源地级别指国、省、市、区/县、街道办。
19.获取行政区上人的去向地
需求描述:获取某个行政区某个时段人的去向地数据;
请求参数:行政区id,起/止时间,去向地级别,key;
返回数据:{去向地1,人数,百分比;去向地2,人数,百分比;……}。
备注:来源地级别指国、省、市、区/县、街道办。
20.获取A时段在A’行政区的人,B时段在哪里
需求描述:获取某个时间在某个行政区的人,在另一个时段在哪里(行政区);
请求参数:行政区id,A时段(起/止时间),驻留类型,B时段(起止时间),政区级别,key;
返回数据:{行政区1,人数,百分比;行政区1,人数,百分比;……}。
备注:驻留类型(仅居住的人、仅工作的人、职住同址的人、路过的人、逗留的人);行政区级别指国、省、市、区/县、街道办。
21.创建位置组合服务
需求描述:将不同的位置组成集合;
请求参数:组名,包含{位置id-1,位置id-2,位置di-3……};
返回数据:{成功;失败,失败原因};
备注:位置组合服务,可以满足更加个性化的数据自定义输出服务;举例:将成都的“火车北站”、“火车东站”、“火车南站”、“火车西站”、“双流国际机场”五个位置关联一起,取名“成都交通枢纽”,以后通过“成都交通枢纽”就可以方便调取原来5个地方的汇总数据和明细数据;位置组合需要考虑多级组合的情况;针对已经存在位置组合,修改编辑功能,也需要通过API接口服务。
22.获取位置组合的人数
需求描述:获取自定义位置组合某个时段的人数;
请求参数:位置组合id,起/止时间,粒度(15分、30分、时、天、月、年),key;
返回数据:位置组合名称,人数。
备注:人数按天去重后保存。超过一天的数据请求,人数按天汇总即可。位置组合id支持(父id和子id),即支持多级组合。
23.获取位置组合人的分布情况
需求描述:获取某个自定义位置组合某个时段的人数;
请求参数:位置组合id,起/止时间,key;
返回数据:{组合包含位置1,人数,百分比;组合包含位置2,人数,百分比;……}。
备注:位置组合包含的位置,由客户自定义,并通过我们的能力接口实现组合功能。
实施例2:
本实施例提供了一种基于大数据的人口时空分布分析方法,包括以下步骤:
S1、获取通信运营商提供的基站工程参数、移动业务信令数据和地图服务商提供的空间区块实际位置坐标点集合;
S2、通过基站工程参数和空间区块实际位置坐标点集合,形成地理实体特征指纹;
S3、将业务信令数据按时间、空间关系进行聚合,确定用户的业务信令轨迹数据特征;由于是业务信令,即一个时间点只有一个基站。但由于用户在一个位置时,可能由于多种因素会发生基站切换,即用户连续的多条业务信令可能均指向一个位置,因此需要将用户的业务信令按时间、空间关系进行聚合;
S4、根据聚合后的业务信令轨迹数据特征,对手机用户的每个时段进行定位,判断用户在每一时段所处的具体地理实体;
S5、根据用户每一时段所处的具体地理实体,统计出每个地理实体在各个时段的人口驻留数据;所述人口驻留数据包括人员量、驻留类型、驻留人员男女比例和驻留人员年龄分布等。
本发明通过手机的运动轨迹,结合手机连接基站的位置,对手机驻留的地点和驻留时间进行精确定位,由于手机用户是实时将手机带在身上的,故对手机进行精确定位,即相当于对手机用户进行精确定位。定位后,确定每一个手机用户在每个时间段内所驻留的具体地理实体,统计每个地理实体在每个时间段内的人口驻留数据,再将统计到的每个地理实体的驻留数据进行汇总,即可得到任意一个区域内的任意一个时间段内的人口驻留数据。本发明定位准确,仅仅需要移动信令数据和空间区块位置信息,即可进行精确的定位,需要处理和存储的数据量小。另外,不需要实时的数据进行分析,每天的固定时间由通信运营商将前一天的数据传送过来即可,没有传输速度的要求,不会因为传输速度的限制而影响本发明技术方案的处理速度。
本发明不局限于上述可选的实施方式,任何人在本发明的启示下都可得出其他各种形式的产品。上述具体实施方式不应理解成对本发明的保护范围的限制,本发明的保护范围应当以权利要求书中界定的为准,并且说明书可以用于解释权利要求书。
Claims (10)
1.一种基于大数据的人口时空分布分析方法,其特征在于,包括以下步骤:
S1、获取通信运营商提供的基站工程参数、移动业务信令数据和地图服务商提供的空间区块实际位置坐标点集合;
S2、通过基站工程参数和空间区块实际位置坐标点集合,形成地理实体特征指纹;
S3、将业务信令数据按时间、空间关系进行聚合,确定用户的业务信令轨迹数据特征;
S4、根据聚合后的业务信令轨迹数据特征,对手机用户的每个时段进行定位,判断用户在每一时段所处的具体地理实体;
S5、根据用户每一时段所处的具体地理实体,统计出每个地理实体在各个时段的人口驻留数据;所述人口驻留数据包括人员量和驻留类型。
2.根据权利要求1所述的基于大数据的人口时空分布分析方法,其特征在于,所述步骤S2中,形成地理实体特征指纹的步骤为:
S201、根据基站工程参数计算基站的覆盖面;
S202、根据地理实体的覆盖范围和基站的覆盖面,通过gis空间计算引擎,计算得到地理实体和基站覆盖的交叉面积S;
S203:通过基站的工程参数计算出基站的覆盖面积Sb;
S204:通过基站的覆盖面积Sb和交叉面积S,通过方程计算地理实体和基站的空间关系系数α,计算方程为:α=S÷Sb;
S205:输出地理实体和覆盖该地理实体的基站的关系:
{B,{Lc1,α},{Lc2,α}{Lc3,α}..{Lcn,α}} (1)
其中,B为地理实体,Lc为基站编号。
3.根据权利要求2所述的基于大数据的人口时空分布分析方法,其特征在于,所述步骤S3中,确定用户的业务信令轨迹数据特征包括如下步骤:
S301、对用户业务信令记录按发生时间进行排序,如连续的业务信令记录出现往复切换,则将这两条业务信令记录合并;
S302、将时间间隔在1分钟的业务信令数据合并;
S303、迭代执行步骤S301和步骤S302,直到无法合并为止;
S304、修正错误数据,找到每个时段内出现时间最长的基站,并剔除时段内跟该基站距离大于1km的记录;
S305、历史数据学习,将步骤S304处理后的记录存入数据库,并与历史记录进行相似度匹配,将相似的历史记录并入该时段;
S306、计算同一时段中出现过的每个基站在近一个月中的出现频次W;
S307、输出合并后的记录:
{U,Ts,Te,{Lc1,W1},{Lc2,W2},{Lc3,W3}…{Lcn,Wn}} (2)
其中,U为用户标识,Ts为时段开始时间,Te为时段结束时间,Lcn为基站小区标识,Wn为基站小区在近一个月的出现频次。
4.根据权利要求3所述的基于大数据的人口时空分布分析方法,其特征在于,所述步骤S4中,判断用户在每一时段所处的具体地理实体包括:
将式(1)和式(2)按照方程(3)进行关联计算,得到用户在该时段可能所在的可能性大小P,方程(3)为:
P{u,b}=∑W*α (3)
形成每个用户每个时段在各地理实体内的可能性大小数据集,
{U,Ts,Te,{B1,P1},{B2,P2},{B3,P3}…{Bn,Pn}} (4)
其中P最大的一个地理实体即为用户该时段的驻留位置。
5.根据权利要求1所述的基于大数据的人口时空分布分析方法,其特征在于:所述基站工程参数包括天线类型、天线方位角、基站覆盖类型、基站天线位置经度坐标和基站天线位置纬度坐标;所述移动业务信令数据包括时间、用户号码和基站编号。
6.根据权利要求5所述的基于大数据的人口时空分布分析方法,其特征在于:所述基站覆盖类型包括室内型和非室内型;所述天线类型包括全向天线和定向天线;所述室内型基站的覆盖半径R为固定值;非室内型基站的覆盖半径R为,该基站天线经纬度坐标和最近的三个非室内型基站的平均距离与特定系数的乘积。
7.根据权利要求6所述的基于大数据的人口时空分布分析方法,其特征在于:所述全向天线基站覆盖面的计算方法为:以天线经纬度为中心点,每隔45度向外延伸基站覆盖半径R的长度,分别得到八个坐标点,将相邻的坐标点用直线两两连接,形成封闭的基站覆盖区域,即得到全向天线基站的覆盖面。
8.根据权利要求6所述的基于大数据的人口时空分布分析方法,其特征在于:所述定向天线基站覆盖面的计算方法为:以天线经纬度为中心点,分别按角度A、A+H÷6、A+H÷3、A+H÷2、A-H÷6、A-H÷3和A+H÷2向外延伸基站覆盖半径R的长度,得到七个坐标点,将相邻的坐标点用直线两两连接,两端的两个坐标点分别与天线经纬度点相连,形成封闭的基站覆盖区域,即得到全向天线基站的覆盖面;所述角度A为天线方位角,角度H为水平波瓣角度。
9.根据权利要求1所述的基于大数据的人口时空分布分析方法,其特征在于,所述步骤S5中,驻留类型的判断方法为:
S501、根据用户的历史定位轨迹链,统计出用户当月在该地理实体的驻留频次、驻留开始时段、驻留结束时段、平均驻留时长、工作日驻留天数、非工作日驻留天数和同类位置驻留天数;
S502、根据S501中统计出的数据,判断该用户每一次驻留行为的类型,驻留类型包括居住、工作和路过。
10.根据权利要求9所述的基于大数据的人口时空分布分析方法,其特征在于,所述驻留类型确定后,结合用户的自然属性,统计各地理实体内用户结构分布,形成地理实体标签。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811554817.8A CN109362041B (zh) | 2018-12-18 | 2018-12-18 | 一种基于大数据的人口时空分布分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811554817.8A CN109362041B (zh) | 2018-12-18 | 2018-12-18 | 一种基于大数据的人口时空分布分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109362041A true CN109362041A (zh) | 2019-02-19 |
CN109362041B CN109362041B (zh) | 2021-06-04 |
Family
ID=65329897
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811554817.8A Active CN109362041B (zh) | 2018-12-18 | 2018-12-18 | 一种基于大数据的人口时空分布分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109362041B (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109947887A (zh) * | 2019-03-20 | 2019-06-28 | 智慧足迹数据科技有限公司 | 人口分布统计方法及装置 |
CN110263840A (zh) * | 2019-06-13 | 2019-09-20 | 东软集团股份有限公司 | 一种线路分析方法、装置及程序产品、存储介质 |
CN110545522A (zh) * | 2019-08-13 | 2019-12-06 | 广州瀚信通信科技股份有限公司 | 一种基于移动大数据的用户位置及功能区的识别方法 |
CN110868689A (zh) * | 2019-11-25 | 2020-03-06 | 智慧足迹数据科技有限公司 | 常住人口确定方法、装置和电子设备 |
CN111078816A (zh) * | 2019-12-16 | 2020-04-28 | 秒针信息技术有限公司 | 基于位置的分析方法、装置、终端及存储介质 |
CN111615054A (zh) * | 2020-05-25 | 2020-09-01 | 和智信(山东)大数据科技有限公司 | 人口分析方法及装置 |
CN111639092A (zh) * | 2020-05-29 | 2020-09-08 | 京东城市(北京)数字科技有限公司 | 一种人员流动分析方法、装置、电子设备及存储介质 |
CN113722565A (zh) * | 2021-11-02 | 2021-11-30 | 北京融信数联科技有限公司 | 一种基于大数据的人口特征分析方法、系统和存储介质 |
CN113935881A (zh) * | 2021-12-16 | 2022-01-14 | 北京融信数联科技有限公司 | 一种基于大数据的人口结构分析方法、系统及可读存储介质 |
CN113993120A (zh) * | 2021-12-30 | 2022-01-28 | 中国移动紫金(江苏)创新研究院有限公司 | 一种基于无线用户信令的人口统计方法及系统 |
CN116861197A (zh) * | 2023-09-01 | 2023-10-10 | 北京融信数联科技有限公司 | 一种基于大数据的流动人口监测方法、系统和存储介质 |
CN116980833A (zh) * | 2023-09-22 | 2023-10-31 | 北京融信数联科技有限公司 | 一种基于信令数据的区域人口年龄段识别方法及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011091062A1 (en) * | 2010-01-20 | 2011-07-28 | Worcester Polytechnic Institute | Precision location method and system |
CN105513351A (zh) * | 2015-12-17 | 2016-04-20 | 北京亚信蓝涛科技有限公司 | 一种基于大数据的交通出行特征数据提取方法 |
CN105634854A (zh) * | 2014-11-07 | 2016-06-01 | 中兴通讯股份有限公司 | 用户属性分析方法及装置 |
CN105682025A (zh) * | 2016-01-05 | 2016-06-15 | 重庆邮电大学 | 基于移动信令数据的用户驻留地识别方法 |
CN106096631A (zh) * | 2016-06-02 | 2016-11-09 | 上海世脉信息科技有限公司 | 一种基于手机大数据的流动人口分类识别分析方法 |
CN106530716A (zh) * | 2016-12-23 | 2017-03-22 | 重庆邮电大学 | 基于手机信令数据计算高速公路路段平均速度的方法 |
CN106792514A (zh) * | 2016-11-30 | 2017-05-31 | 南京华苏科技有限公司 | 基于信令数据的用户职住地分析方法 |
WO2018122816A1 (zh) * | 2016-12-30 | 2018-07-05 | 同济大学 | 一种使用wi-fi探针判别行人流向的方法 |
-
2018
- 2018-12-18 CN CN201811554817.8A patent/CN109362041B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011091062A1 (en) * | 2010-01-20 | 2011-07-28 | Worcester Polytechnic Institute | Precision location method and system |
CN105634854A (zh) * | 2014-11-07 | 2016-06-01 | 中兴通讯股份有限公司 | 用户属性分析方法及装置 |
CN105513351A (zh) * | 2015-12-17 | 2016-04-20 | 北京亚信蓝涛科技有限公司 | 一种基于大数据的交通出行特征数据提取方法 |
CN105682025A (zh) * | 2016-01-05 | 2016-06-15 | 重庆邮电大学 | 基于移动信令数据的用户驻留地识别方法 |
CN106096631A (zh) * | 2016-06-02 | 2016-11-09 | 上海世脉信息科技有限公司 | 一种基于手机大数据的流动人口分类识别分析方法 |
CN106792514A (zh) * | 2016-11-30 | 2017-05-31 | 南京华苏科技有限公司 | 基于信令数据的用户职住地分析方法 |
CN106530716A (zh) * | 2016-12-23 | 2017-03-22 | 重庆邮电大学 | 基于手机信令数据计算高速公路路段平均速度的方法 |
WO2018122816A1 (zh) * | 2016-12-30 | 2018-07-05 | 同济大学 | 一种使用wi-fi探针判别行人流向的方法 |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109947887A (zh) * | 2019-03-20 | 2019-06-28 | 智慧足迹数据科技有限公司 | 人口分布统计方法及装置 |
CN110263840A (zh) * | 2019-06-13 | 2019-09-20 | 东软集团股份有限公司 | 一种线路分析方法、装置及程序产品、存储介质 |
CN110545522A (zh) * | 2019-08-13 | 2019-12-06 | 广州瀚信通信科技股份有限公司 | 一种基于移动大数据的用户位置及功能区的识别方法 |
CN110868689B (zh) * | 2019-11-25 | 2020-12-08 | 智慧足迹数据科技有限公司 | 常住人口确定方法、装置和电子设备 |
CN110868689A (zh) * | 2019-11-25 | 2020-03-06 | 智慧足迹数据科技有限公司 | 常住人口确定方法、装置和电子设备 |
CN111078816B (zh) * | 2019-12-16 | 2023-08-25 | 秒针信息技术有限公司 | 基于位置的分析方法、装置、终端及存储介质 |
CN111078816A (zh) * | 2019-12-16 | 2020-04-28 | 秒针信息技术有限公司 | 基于位置的分析方法、装置、终端及存储介质 |
CN111615054A (zh) * | 2020-05-25 | 2020-09-01 | 和智信(山东)大数据科技有限公司 | 人口分析方法及装置 |
CN111639092A (zh) * | 2020-05-29 | 2020-09-08 | 京东城市(北京)数字科技有限公司 | 一种人员流动分析方法、装置、电子设备及存储介质 |
CN111639092B (zh) * | 2020-05-29 | 2023-09-26 | 京东城市(北京)数字科技有限公司 | 一种人员流动分析方法、装置、电子设备及存储介质 |
CN113722565A (zh) * | 2021-11-02 | 2021-11-30 | 北京融信数联科技有限公司 | 一种基于大数据的人口特征分析方法、系统和存储介质 |
CN113722565B (zh) * | 2021-11-02 | 2022-03-15 | 北京融信数联科技有限公司 | 一种基于大数据的人口特征分析方法、系统和存储介质 |
CN113935881A (zh) * | 2021-12-16 | 2022-01-14 | 北京融信数联科技有限公司 | 一种基于大数据的人口结构分析方法、系统及可读存储介质 |
CN113993120A (zh) * | 2021-12-30 | 2022-01-28 | 中国移动紫金(江苏)创新研究院有限公司 | 一种基于无线用户信令的人口统计方法及系统 |
CN116861197A (zh) * | 2023-09-01 | 2023-10-10 | 北京融信数联科技有限公司 | 一种基于大数据的流动人口监测方法、系统和存储介质 |
CN116861197B (zh) * | 2023-09-01 | 2024-04-05 | 北京融信数联科技有限公司 | 一种基于大数据的流动人口监测方法、系统和存储介质 |
CN116980833A (zh) * | 2023-09-22 | 2023-10-31 | 北京融信数联科技有限公司 | 一种基于信令数据的区域人口年龄段识别方法及系统 |
CN116980833B (zh) * | 2023-09-22 | 2024-01-23 | 北京融信数联科技有限公司 | 一种基于信令数据的区域人口年龄段识别方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109362041B (zh) | 2021-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109362041A (zh) | 一种基于大数据的人口时空分布分析方法 | |
Jiang et al. | Activity-based human mobility patterns inferred from mobile phone data: A case study of Singapore | |
Helminen et al. | Relationships between commuting distance, frequency and telework in Finland | |
CN102595323B (zh) | 基于手机定位数据的居民出行特征参数的获取方法 | |
Zhai et al. | Using mobile signaling data to exam urban park service radius in Shanghai: methods and limitations | |
CN110930285B (zh) | 一种人口分布分析方法及装置 | |
Lee et al. | Urban spatiotemporal analysis using mobile phone data: Case study of medium-and large-sized Korean cities | |
CN109495856B (zh) | 一种基于大数据的手机用户类型标记方法 | |
US20120209658A1 (en) | Population mobility estimation system, population mobility estimation method, and population mobility estimation program | |
CN108495254B (zh) | 一种基于信令数据的交通小区人口特征估计方法 | |
CN109727076A (zh) | 一种基于人口时空分布的选址方法 | |
WO2015096400A1 (zh) | 一种利用移动通信数据挖掘进行公交规划的方法 | |
CN109672986A (zh) | 一种时空大数据分析系统 | |
CN109509351B (zh) | 一种公交站点周边地区公交分担率的计算方法 | |
CN108549976A (zh) | 智慧旅游大数据分析方法 | |
EP3241367B1 (en) | Method and system for real-time computing of origin-destination matrices relating to attendees at a public happening through analysis of mobile communication network data | |
CN110955738A (zh) | 一种基于信令数据结合场景信息的人物画像刻画方法 | |
CN105336155A (zh) | 公交班次加派方法及系统 | |
CN113423065B (zh) | 一种基于手机信令数据确定交通小区人口岗位数据的方法 | |
Zacharias | Modeling pedestrian dynamics in Montreal's underground city | |
EP3241369B1 (en) | Method and system for a posteriori computation of origin-destination matrices relating to gathering of people through analysis of mobile communication network data | |
CN109495848A (zh) | 一种用户空间定位的方法 | |
McKercher et al. | Methodological considerations when mapping tourist movements in a destination | |
CN108256101B (zh) | 基于公共自行车刷卡数据和poi识别通勤od的方法 | |
McArdle et al. | City-scale traffic simulation from digital footprints |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20220901 Address after: Room A-8794, Building 3, No. 20, Yongan Road, Shilong Economic Development Zone, Mentougou District, Beijing, 102300 (cluster registration) Patentee after: Beijing Huaxin Xinchuang Technology Co.,Ltd. Address before: No. 505, 5th floor, building 6, No. 599, shijicheng South Road, high tech Zone, Chengdu, Sichuan 610000 Patentee before: CHENGDU FANGWEI TECHNOLOGY Co.,Ltd. |
|
TR01 | Transfer of patent right |