CN107977673B - 一种基于大数据的经济活动人口识别方法 - Google Patents

一种基于大数据的经济活动人口识别方法 Download PDF

Info

Publication number
CN107977673B
CN107977673B CN201711133199.5A CN201711133199A CN107977673B CN 107977673 B CN107977673 B CN 107977673B CN 201711133199 A CN201711133199 A CN 201711133199A CN 107977673 B CN107977673 B CN 107977673B
Authority
CN
China
Prior art keywords
time
node
individual
economic activity
travel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711133199.5A
Other languages
English (en)
Other versions
CN107977673A (zh
Inventor
刘杰
冷燮
周示莹
彭成阳
顾高翔
张颖
吴佳玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai City Pudong New Area Statistical Survey Center
SHANGHAI SHIMAI INFORMATION TECHNOLOGY CO LTD
Original Assignee
Shanghai City Pudong New Area Statistical Survey Center
SHANGHAI SHIMAI INFORMATION TECHNOLOGY CO LTD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai City Pudong New Area Statistical Survey Center, SHANGHAI SHIMAI INFORMATION TECHNOLOGY CO LTD filed Critical Shanghai City Pudong New Area Statistical Survey Center
Priority to CN201711133199.5A priority Critical patent/CN107977673B/zh
Publication of CN107977673A publication Critical patent/CN107977673A/zh
Application granted granted Critical
Publication of CN107977673B publication Critical patent/CN107977673B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2477Temporal data queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Fuzzy Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供的一种基于大数据的经济活动人口识别方法利用移动终端个体在指定时间范围和空间范围内的活动数据集(即移动终端个体与固定位置传感器的通信记录),构成个体出行轨迹,对出行轨迹进行插值扩充节点,建立个体出行轨迹;通过空间聚类方法将个体的出行空间划分为若干区域,提取其长时间驻留地点;选取样本个体的出行轨迹,对其进行训练,学习获得各种经济活动人口的出行活动的空间分布特征及其相关参数;对全样本的数据进行分析,识别判断出样本中的经济活动人口;最后采样固定比例进行扩样,得到实时的经济活动人口总数。

Description

一种基于大数据的经济活动人口识别方法
技术领域
本发明涉及一种基于海量匿名加密时间序列定位数据的经济活动人口的识别的方法,根据个体的时间和空间位置数据构建海量的个体出行轨迹;通过空间聚类将个体的出行轨迹划分为若干区域,对其长时间的驻留点进行判断和提取;通过样本训练学习获得各种经济活动人口的日常出行模式特征及其相关的参数取值;对全样本个体出行轨迹进行识别,判断其是否属于经济活动人口,以及属于哪一类经济活动人口;对样本数据进行扩样,获得全社会的经济活动人口数量和分布。
背景技术
经济活动人口指的是所有年龄在16岁及以上,在一定时期内为各种经济生产和服务活动提供劳动力供给的人口。这些人被视为实际参加或要求参加社会经济活动的人口,也称为现实的人力资源,是就业人口和失业人口之和。经济活动人口的调查和统计对于社会经济稳定和发展状况的分析和预测具有重要的现实意义。传统对于经济活动人口的统计往往依赖大样本和长时间的抽样调查,这种调查方法在时间和人力物力方面的消耗都非常大,而且其抽样比例并不高,统计的时效性也会存在滞后的问题,严重降低了经济活动人口调查的实用性。
近年来,随着信息技术的发展,数据信息量呈现爆炸式增长,数据来源越来越多,数据量也越来越庞大。其中,由手机、WIFI、物联网等信息传感器记录的数据已经成为大数据分析中最重要的数据来源,其较为完备的个体出行记录为大数据分析,尤其是交通大数据分析,提供了很好的数据支持。以手机为例,至2017年9月,手机用户达到14.1亿,超过现阶段人口总量13.827亿,手机终端设备持续产生的信号信息,形成了记录用户出行的一系列数据集,为分析城市人群出行、滞留等行为活动提供了重要的数据来源。
发明内容
本发明的目的是:利用大数据及其分析技术训练和识别经济活动人口的日常出行行为特征,以此为基础判断识别总样本中的经济活动人口,分析其时序变化特征,实时监测经济活动人口的变化。
为了达到上述目的,本发明的技术方案是利用移动终端个体在指定时间范围和空间范围内的活动数据集(即移动终端个体与固定位置传感器的通信记录),构成个体出行轨迹,对出行轨迹进行插值扩充节点,建立个体出行轨迹;通过空间聚类方法将个体的出行空间划分为若干区域,提取其长时间驻留地点;选取样本个体的出行轨迹,对其进行训练,学习获得各种经济活动人口的出行活动的空间分布特征及其相关参数;对全样本的数据进行分析,识别判断出样本中的经济活动人口;最后采样固定比例进行扩样,得到实时的经济活动人口总数。
具体而言,本发明提供的一种基于大数据的经济活动人口识别方法包括以下步骤:
步骤1、从传感器运营商获取匿名加密移动终端传感器数据,匿名加密移动终端传感器数据在时间与空间上连续,不同移动终端对应不同的EPID;
步骤2、依次提取每个EPID在指定时间段内与传感器的通信信令记录,按时间顺序排序,建立与当前EPID相对应的个体出行轨迹数据集;从时间起点t0出发,以T时间为间隔对个体出行轨迹数据集的空间位置进行插值,构建由真实点和插值点构成的个体出行时空序列;
步骤3、基于DBSCAN算法,设计基于距离的空间聚类算法,对样本的个体出行时空序列数据上的插值点进行空间聚类,提取出节点的节点聚类簇,从中提取出节点聚类簇中的核心点作为当前个体的驻留点,以个体在节点聚类簇内驻留的时间作为节点聚类簇的大小;
步骤4、对经济活动和非经济活动类型进行划分,选取其中的典型样本的出行时空序列数据,统计其在指定时间段内的聚类数量、聚类大小、聚类中心点所在位置,挖掘不同活动类型的个体的空间出行活动特征,获得不同活动类型的典型特征参数及其上下界误差范围,作为个体活动类型的判别依据;
步骤5、遍历个体出行时空序列,依据步骤4获得的判别依据,对每个个体的经济活动类型进行判断和识别;
步骤6、对得到的经济活动个体进行扩样,得到经济活动人口的总体统计数据,完成对于经济活动人口的动态监测,并更新数据库。
优选地,在所述步骤1中,匿名加密移动终端传感器数据包括:用户个体唯一编号EPID、通信动作类型TYPE、通信动作发生时刻TIME、传感器所处大区REGIONCODE、传感器具体编号SENSORID,其中,传感器所处大区REGIONCODE及传感器具体编号SENSORID构成了传感器编号。
优选地,所述步骤2包括:
步骤2.1、提取个体出行轨迹数据集中,所有的固定位置传感器编号REGIONCODE-SENSORID及其对应的经纬度坐标LON-LAT,将经纬度坐标LON-LAT转换为地理坐标X-Y;
步骤2.2、遍历个体出行轨迹数据集,将其按触发通信时间TIMESTAMP顺序排列;
步骤2.3、从时间起点开始遍历出行数据,相邻的每3个通信记录点拟合一条二次曲线,二次曲线的x轴为个体出行轨迹的时间,y轴为通信记录点的X-Y坐标,若个体的出行轨迹包含n个通信记录点,则总共需要拟合出2n-4条二次曲线;
步骤2.4、从时间起点t0出发出发,按时间间隔T计算个体在每个时间点的X-Y坐标,相同时间X(t0+nT)和Y((t0+nT)构成一个插值点,除首尾两段外,其余通信点之间都存在2条拟合曲线,在此之间的插值点的X-Y坐标由两条曲线的计算结果求平均得到;
步骤2.5、将所有插值点和记录点按时间顺序排序,构成初步的个体的出行时空序列数据;
步骤2.6、对步骤2.5得到的出行时空序列数据进行分割,以记录点为端点,平均分割所有两两记录点之间的插值点,将插值点归属到离其最近的记录点,将记录点中的传感器编号赋给插值点,表明插值点也是潜在的会于该传感器通信的点;
步骤2.7、从步骤2.5得到的出行时空序列数据中删除所有的记录点,从而使得到的个体出行时空序列完全由赋有传感器编号的插值点组成。
优选地,所述步骤3包括:
步骤3.1、从数据库中读取已由步骤2得到的个体出行时空序列,从时间起点开始遍历,以每个节点为中心,查找其前后邻域中的N1个临近节点,前后各
Figure BDA0001469039560000031
个;
步骤3.2、假设当前遍历到节点n,则其前后临近点的边界为节点
Figure BDA0001469039560000032
Figure BDA0001469039560000041
统计从节点
Figure BDA0001469039560000042
到节点
Figure BDA0001469039560000043
的分段距离和
Figure BDA0001469039560000044
式中,
Figure BDA0001469039560000045
Di表示节点
Figure BDA0001469039560000046
到节点
Figure BDA0001469039560000047
区间内,从节点i到节点i+1之间的距离,即区间内相邻节点之间的距离,该距离以欧式距离计算;
步骤3.3、根据得到的节点n邻域内的分段距离和,计算以节点n为中心的邻域的节点密度ρ,
Figure BDA0001469039560000048
步骤3.4、判断以节点n为中心的邻域的节点密度ρ是否大于临界阈值Thr-ρ,若大于临界阈值Thr-ρ,则当前邻域内为密度可达,将该邻域标注为一个节点n的节点聚类簇,令其密度相连,将其内部所有的节点都标注为聚类节点,记录下其外部前后的一个节点的空间坐标;若小于临界阈值Thr-ρ,则舍弃当前邻域,继续遍历下一个节点;
步骤3.5、采用步骤3.2至步骤3.4遍历完整个个体出行时空序列后,从头开始遍历每个判定的节点聚类簇,判断:
1)相邻的节点聚类簇所包含的节点之间是否有交集,若存在交集,则该两个节点聚类簇之间密度可达,将这两个节点聚类簇合并为一个,令其密度相连,重新计算合并后的节点聚类簇的节点密度,并统计节点聚类簇内的节点数量;
2)每个节点聚类簇内的插值点数量是否小于阈值Thr-n,若小于阈值Thr-n,则表明个体在该节点聚类簇内的停留时间太短,达不到驻留标准,舍弃该节点聚类簇;
步骤3.6、遍历每个留存下来的节点聚类簇,计算每个节点聚类簇的加权中心点C,其中权重w为节点聚类簇内节点距离其加权中心点C的序号差,若节点聚类簇内节点数为M,则第1个和第M个节点的权重w最小,第
Figure BDA0001469039560000049
个节点的权重w最大,设聚类中心点C的X轴坐标为XC,聚类中心点C的Y轴坐标为YC,则有:
Figure BDA0001469039560000051
Figure BDA0001469039560000052
式中,n1表示节点聚类内的节点数量,Xi表示节点聚类内节点i的X坐标,Yi表示节点聚类内节点i的Y坐标。
优选地,所述步骤4包括:
步骤4.1、将经济活动与非经济活动人口分类,其中,经济活动人口划分为职住分离白天全职型、职住分离夜间全职型、职住分离轮岗全职型、职住分离白天兼职型、职住分离夜间兼职型、职住分离混合型、厂区居住型、公司居住型、教师、在校高中大学学生、自由职业者、失业者;非经济活动人口分为:在校初中小学生、退休人员、居家无劳动能力者;
步骤4.2、选取若干已明确活动特征的个体出行时空序列作为样本;
步骤4.3、计算样本的个体出行时空序列的洛伦兹曲线和基尼系数;
步骤4.4、计算出指定时间段内各个样本的空间聚类特征,包括聚类数量、聚类大小、聚类中心点所在位置;
步骤4.5、以聚类覆盖的时间为大小,统计每天各种大小的聚类的平均数量,以聚类大小为X坐标,聚类数量为Y坐标,计算聚类大小分布;
步骤4.6、提取聚类点中心所在地,依照区域功能将其划分为不同的驻留地类型,个体平均有每天在上述地点的累积聚类时间,将其按照固定顺序排列,以累积时间的长短作为累积量,计算个体日常生活中驻留地类型的分布特征;
步骤4.7、根据得到的各个典型出行时间序列样本的出行活动特征,包括洛伦兹曲线、基尼系数、聚类大小分布和驻留地类型分布,计算各种经济活动类型的人群日常空间活动的平均出行特征及其上下界误差范围,作为对后续步骤中对大量样本的识别判断的统计基础。
优选地,所述步骤4.3包括:
步骤4.3.1、遍历样本个体出行时空序列,读取其中的节点及其通信传感器编号;
步骤4.3.2、统计每条出行时空序列中与每个通信传感器发生通信行为的节点的数量,该节点包括记录点和插值点,对传感器以节点数量从小到大排序,画出个体出行时空序列的洛伦兹曲线;
洛伦兹曲线的定义为:设全球各个国家/地区的(x1,x2,...,xn),(y1,y2,...,yn)分别为根据“人均所有量”从低到高排序得到的相应的国家/地区的人口和碳排放所有量占全球总数的比例。(xi,yi)表示国家i的人口比例和所有量比例。则以点
Figure BDA0001469039560000061
绘制散点图得到洛伦兹曲线。洛伦兹曲线的两端分别为(0,0)点和(1,1)点。
在本发明中,由于传感器本身是均质的,所以不需要考虑平均的概念,因此在本发明中,设各个传感器的(x1,x2,..,xn),(y1,y2,...,yn)分别为根据“通信节点数量”从低到高排序得到的相应的传感器和通信节点数量占全球总数的比例。因此(x1,x2,...,xn)的数值都为1/n,(y1,y2,...,yn)为各个传感器的通信节点数占总节点数的比例,仍然以
Figure BDA0001469039560000062
绘制洛伦兹曲线;
步骤4.3.3、根据洛仑兹曲线得到的各个传感器根据“通信节点数量”从低到高排序得到的相应的传感器和通信节点数量占全球总数的比例,计算个体出行时空序列中传感器分布的基尼系数。
基尼系数的表达方式有很多种,本发明采用最典型的计算方法:基尼系数的值等于洛伦兹曲线与45°直线所围成面积占45度直线与x轴,x=1所围成的面积的比。由于45°直线与x轴,x=1所围成的面积等于0.5,因此碳排放的基尼系数实际也等于洛伦兹曲线与45°的直线所围成面积的两倍,它在数值上位于区间[0,1)上;基尼系数越小,则说明结果越趋于公平;
对于本发明,个体出行时空序列的基尼系数的数学表达为:
Figure BDA0001469039560000063
式中,(y1,y2,...,yn,...yN)为各个传感器的通信节点数占总节点数的比例;
优选地,在所述步骤4.7中,对于洛伦兹曲线、聚类分布和驻留地类型分布,取各样本与统计平均之间相关系数的上下界和关键节点的上下界作为误差范围;对于基尼系数,取各样本与统计平均之间的最大差值作为误差范围;洛仑兹曲线本身为离散函数,且x轴取值点各不相同,因此在做相关性分析的时候分别取两条洛仑兹曲线上的数值点f(x),x={0.1,0.2,0.3,……,0.8,0.9}进行相关性分析。
优选地,所述步骤5包括:
步骤5.1、遍历每条待识别的个体出行时间序列,进行节点的空间聚类,得到其日常空间活动范围的聚类结果;
步骤5.2、计算出每条个体出行时间序列的洛伦兹曲线、基尼系数、聚类分布和驻留地分布;
步骤5.3、对计算得到的洛伦兹曲线、基尼系数、聚类大小分布和驻留地分布,将其与步骤4得到判别依据对比(各种活动类型的平均值、平均曲线,分为相关系数计算和关键节点),寻找与其最为相似的活动类型,比较该出行时空序列与该活动类型的典型特征参数差值(比较该出行时空序列与该活动类型的各曲线和参数的相关系数和关键节点差值),若满足其上下界误差范围,则将其归类到与其最为相似的活动类型中;
若个体出行时间序列与任何一种典型样本的典型特征参数差值都大于其上下界范围,则将其定义为异常样本,提取出来人工判别进行归类,并将其作为典型样本存入样本库;
步骤5.5、遍历完所有个体出行时空序列后,统计提取所有的人工判别的异常记录,将其作为典型样本,重新对各个典型经济活动类型进行训练,校正曲线和判别参数。
优选地,所述步骤6包括:
步骤6.1、依据已有的统计资料,统计各种活动类型的人口,包括非经济活动人口,的手机持有率数据;
步骤6.2、根据各活动类型的手持移动设备持有率,计算出各活动类型人口的总数;
步骤6.3、针对特殊群体,则分别根据不同的经济活动非经济活动人口比和经济活动非经济活动人口手持移动设备持有率,统计出活动范围内的经济活动非经济活动人口数量,计算公式为:
Figure BDA0001469039560000081
式中,Pt为经济活动人口数量,Ps为非经济活动人口数量,ht和hs分别为经济活动人口和非经济活动人口的持有手持移动设备的比率,r为经济活动对非经济活动人口的比例,R为指定时间段内指定活动范围内记录的个体的数量;
步骤6.4、统计计算得到指定区域内的经济活动人口和非经济活动人口的人数和比例,更新人口监测数据库。
本发明对于移动终端大数据进行处理和筛选,由个体所持移动终端和传感器之间的通信记录构建出个体出行的时空序列数据,通过数学插值补全时间间隔统一的用户出行时空序列数据,并将记录点的传感器编号以就近原则赋给插值点,并由插值点组成个体出行时空序列;通过对个体出行时空序列中的节点按照其时空分布进行空间聚类,得到时空序列中个体在不同时间范围内的空间驻留区域及其中心点;通过对大量典型的经济活动和非经济活动样本进行空间活动分布特征的特征分析(包括计算节点分布的洛仑兹曲线、基尼系数、节点聚类大小分布、个体驻留地分布),计算各种活动类型人口的平均活动特征及其相关系数和关键节点差值的上下界;在此基础上,采用同样方法分析待判别的个体出行时空序列的空间活动分布特征,并将其与典型经济/非经济活动的特征进行比对,对其经济活动类型进行判断和识别,从而统计指定时间段内相关的经济活动个体的数量及其在所有个体中的比例,并采用固定系数扩样的方法,最终获得全局的经济活动人口数量和比例。
本发明的优点是:充分依托现有的用户持有的移动终端与传感器之间的通信大数据资源,利用通信网络中已有海量匿名移动终端持续的加密位置信息,即能低成本、自动化、便捷地获取指定时间范围内大量人口的出行时空序列,采用空间聚类算法快速地找出出行时空序列中个体的驻留地点、时间和时长,从中挑选典型样本出行时空序列的空间活动特征的挖掘和判别参数的训练,依据训练得到的参数和规则进行个体经济活动类型的识别和判断,从而便捷、高效地对指定时间和区域内经济活动人口的数量进行统计。
附图说明
图1为本发明的总体流程图;
图2为职住分离白天全职型样本出行时空序列节点分布洛仑兹曲线(全局),节点分布的基尼系数为0.9792;
图3为职住分离白天全职型洛仑兹平均曲线及其关键节点上下界;
图4为个体出行时空序列洛仑兹曲线。
具体实施方式
为使本发明更明显易懂,兹以优选实施例,并配合附图作详细说明如下。
本发明的目的是利用移动终端个体在指定时间范围内的空间活动数据集,挖掘大量个体的出行轨迹数据,对其进行拟合插值,获得等时间间隔的个体出行时空序列;采用空间聚类方法在个体出行时空序列中搜索可能的聚类区域,获得个体的驻留点;对个体的经济活动类型进行划分,利用已识别经济活动类型的样本训练出每种经济活动类型的特征;利用这些特征对待识别出行时空序列进行判别,为其划分经济活动类型。为了达到上述目的,本发明提供了一种大数据环境下个体经济活动类型识别的系统。本发明利用通信网络中已有海量匿名移动终端持续的加密位置信息,即能低成本、自动化、便捷地获取指定时间范围内大量人口的出行轨迹,利用样本出行时空序列数据训练个体经济活动类别的判别规则和阈值,并以此对海量个体的经济活动类型进行判断和识别;从而实现快速高效地统计地区的经济活动状况。
为了达到上述目的,本发明提供了一种基于大数据的经济活动人口识别方法,如图1所示,包括以下步骤:
步骤1、系统读取从传感器运营商获取匿名加密移动终端传感器数据,匿名加密移动终端传感器数据理论上在时间与空间上连续,不同移动终端对应不同的EPID,提取每个EPID在指定时间段内所触发的通信信令记录,构成该EPID的出行数据集;
匿名加密移动终端传感器数据是运营商从移动通信网络、固定宽带网络、无线WIFI以及位置服务相关APP等实时获取并脱敏加密后的匿名手机用户时间序列的加密位置信息,内容包括:EPID、TYPE、TIME、REGIONCODE、SENSORID,参见申请号为201610273693.0的中国专利。具体介绍如下:
EPID(匿名单向加密全球唯一移动终端标识码,EncryPtion internationalmobile subscriber IDentity),是对每个移动终端用户进行单向不可逆加密,从而唯一标识每个移动终端用户,且不暴露用户号码隐私信息,要求每个移动终端用户加密后的EPID保持唯一性,即任意时刻各手机用户的EPID保持不变且不与其它手机用户重复。
TYPE,是当前记录所涉及的通信动作类型,如,上网、通话、主被叫、收发短信、GPS定位、传感器小区切换、传感器切换、开关机等。
TIME,是当前记录所涉及的通信动作发生时刻,单位为毫秒。
REGIONCODE、SENSORID是当前记录所涉及的通信动作发生的传感器加密位置信息。REGIONCODE、SENSORID传感器的编号,其中REGIONCODE代表传感器所处大区,SENSORID是具体的传感器的编号。
步骤1.1、系统读取从传感器运营商获取匿名加密移动终端传感器数据,理论上匿名加密移动终端传感器数据在时间与空间上都应该是连续的,包括:用户唯一编号EPID、通信动作类型TYPE、通信动作发生时刻TIME、传感器所处大区REGIONCODE、传感器具体编号SENSORID;其中,传感器所处大区REGIONCODE及传感器具体编号SENSORID构成了传感器编号;
步骤1.2、一条匿名加密移动终端传感器数据为一个信令记录,对每条信令记录进行解密;
步骤1.3、根据用户编号EPID,查询其在指定时间段内所有的通讯记录,构建用户出行数据;
在本例中,提取得到的用户与传感器的实时信令记录数据为:
表1:解密后新接收的实时信令记录数据
Figure BDA0001469039560000101
Figure BDA0001469039560000111
步骤2、依次提取每个EPID在指定时间段内与传感器的通信记录,按时间顺序排序,建立个体出行轨迹数据集;从时间起点t0出发,以T时间为间隔对出行数据的空间位置进行插值,构建由真实点和插值点构成的个体出行时空序列;
步骤2.1、提取步骤1.3得到的用户出行轨迹数据中,所有的固定位置传感器编号REGIONCODE-SENSORID及其对应的经纬度坐标LON-LAT,将经纬度坐标转换为地理坐标X-Y;
在本例中,固定位置传感器的编号和地理坐标样例见表2:
表2经纬度转换后的固定位置传感器X-Y坐标
Figure BDA0001469039560000112
Figure BDA0001469039560000121
步骤2.2、遍历用户出行轨迹数据,将其按触发通信时间TIMESTAMP顺序排列;
步骤2.3、从时间起点开始遍历出行数据,相邻的每3个通信记录点拟合一条二次曲线,二次曲线的x轴为用户出行轨迹的时间,y轴为通信记录点的X-Y坐标,这样若用户的出行轨迹包含n个通信记录点,则总共需要拟合出2n-4条二次曲线;
步骤2.4、从整数时间起点t0出发,按时间间隔T计算用户在每个时间点的X-Y坐标,相同时间X(t0+nT)和Y((t0+nT)构成一个插值点,除首尾两段外,其余通信点之间都存在2条拟合曲线,在此之间的插值点的X-Y坐标由两条曲线的计算结果求平均得到;
在本例中,令时间起点t0为00:00,时间间隔T为10分钟,插值后得到的个体出行时空序列,见表3。
表3插值数据与记录数据(部分)
Figure BDA0001469039560000122
Figure BDA0001469039560000131
步骤2.5、将所有插值点和记录点按时间顺序排序,构成初步的个体的出行时空序列数据;
步骤2.6、对个体出行时空序列进行分割,以记录点为端点,平均分割所有两两记录点之间的插值点,将插值点归属到离其最近的记录点,将记录点中的固定位置传感器编号赋给插值点,表明插值点也是潜在的会于该传感器通信的点。
在本例中,附上固定位置传感器编号的插值点和记录点见表4。
表4附上固定传感编号的插值数据与记录数据(部分)
Figure BDA0001469039560000132
Figure BDA0001469039560000141
步骤2.7、从个体出行时空序列中删除所有的记录点,使个体出行时空序列完全由赋有传感器编号的插值点组成;
在本例中,去掉通信节点后,仅由插值点构成的个体出行时空序列为见表5。
表5个体出行时空序列(部分)
RECORDID TIMESTAMP REGIONCODE SENSORID X Y
...... ...... ...... ...... ...... ......
INS48 2017-06-20 08:00:00 9878 3415 3821.941 5598.461
INS49 2017-06-20 08:10:00 9878 3415 3821.941 5598.461
INS50 2017-06-20 08:20:00 9878 3415 3821.941 5598.461
INS51 2017-06-20 08:30:00 9878 3415 3821.941 5598.461
INS52 2017-06-20 08:40:00 9878 3415 4298.192 5730.753
INS53 2017-06-20 08:50:00 9878 4632 4858.885 5882.748
INS54 2017-06-20 09:00:00 9878 6343 5534.418 6040.373
INS55 2017-06-20 09:10:00 9880 1242 6055.029 6238.754
INS56 2017-06-20 09:20:00 9880 1253 6615.191 6467.808
INS57 2017-06-20 09:30:00 9880 1253 7100.821 6594.081
INS58 2017-06-20 09:40:00 9880 1454 7414.402 6574.482
INS59 2017-06-20 09:50:00 9880 1454 7727.983 6554.883
INS60 2017-06-20 10:00:00 9880 1454 8065.866 6434.546
INS61 2017-06-20 10:10:00 9880 7645 8409.825 6289.025
INS62 2017-06-20 10:20:00 9880 7645 8478.617 6259.921
INS63 2017-06-20 10:30:00 9880 7645 8478.617 6259.921
INS64 2017-06-20 10:40:00 9880 7645 8478.617 6259.921
...... ...... ...... ...... ...... ......
步骤3、基于DBSCAN算法,设计一种基于距离的空间聚类算法,对样本出行时空序列数据上的插值点进行空间聚类,提取出节点的聚类簇(Cluster),从中提取出聚类簇中的核心点(CorePt)作为个体的驻留点,以个体在聚类内驻留的时间作为聚类的大小;
步骤3.1、从数据库中读取已由步骤2得到的个体出行时空序列数据,从时间起点开始遍历,以每个节点为中心,查找其前后邻域中的N1个临近节点(前后各
Figure BDA0001469039560000151
个);
在本例中,令N1为2;
步骤3.2、假设当前遍历到节点n,则其前后临近点的边界为节点
Figure BDA0001469039560000152
Figure BDA0001469039560000153
统计从节点
Figure BDA0001469039560000154
到节点
Figure BDA0001469039560000155
的分段距离加和
Figure BDA0001469039560000156
其中节点间的距离以欧式距离计算;
在本例中,个体出行时空序列中INS53邻域内各节点之间的距离见表6。
表6个体出行时空序列(部分)
RECORDID RECORDID DISTANCE
...... ...... ......
INS48 INS49 0
INS49 INS50 0
INS50 INS51 0
INS51 INS52 494.2835
INS52 INS53 580.9295
INS53 INS54 693.6789
INS54 INS55 557.1273
INS55 INS56 605.1836
INS56 INS57 501.7782
INS57 INS58 314.1929
INS58 INS59 314.1929
INS59 INS60 358.6724
INS60 INS61 373.4758
INS61 INS62 74.69526
INS62 INS63 0
INS63 INS64 0
INS64 INS65 0
...... ...... ......
步骤3.3、根据得到的节点n邻域内的距离和,计算以节点n为中心的邻域的节点密度:
Figure BDA0001469039560000157
在本例中,个体出行时空序列中各节点的邻域节点密度见表7。
表7个体出行时空序列节点邻域密度(部分)
RECORDID DENSITY
...... ......
INS48 2
INS49 2
INS50 0.004038
INS51 0.001858
INS52 0.00113
INS53 0.001091
INS54 0.001077
INS55 0.001201
INS56 0.001406
INS57 0.001768
INS58 0.002024
INS59 0.00191
INS60 0.002476
INS61 0.004453
INS62 0.026422
INS63 2
INS64 2
...... ......
步骤3.4、判断以点n为中心的邻域的节点密度是否大于临界阈值Thr-ρ;
步骤3.4.1、若大于Thr-ρ,则该节点邻域内为密度可达,将该邻域标注为一个节点聚类簇,令其密度相连,将其内部所有的节点都标注为聚类节点,记录下其外部前后的一个节点的空间坐标;
步骤3.4.2、若小于Thr-ρ,则舍弃该节点邻域,继续遍历下一个节点;
步骤3.5、当遍历完整个个体出行时空序列后,从头开始遍历每个判定的节点聚类簇,判断相邻的节点聚类所包含的节点之间是否有交集,若存在交集,则称该两个节点聚类簇之间密度可达,将这两个节点聚类簇合并为一个,令其密度相连,重新计算该合并后的节点聚类簇的节点密度,并统计聚类内的节点数量;
在本例中,令Thr-ρ等于2,最终得到的三个聚类,见表8。
表8聚类结果
No From To
1 2017-06-20 00:00:00 2017-06-20 08:30:00
2 2017-06-20 10:20:00 2017-06-20 17:20:00
3 2017-06-20 19:20:00 2017-06-20 24:00:00
步骤3.6、若聚类内的插值点数量小于阈值Thr-n,则表明个体在该聚类内的停留时间太短,达不到驻留标准,舍弃该聚类;
在本例中,令Thr-n等于30分钟,本例中的三个聚类时间都在30分钟以上,因此保留聚类结果;
步骤3.7、遍历每个留存下来的节点聚类簇,计算每个节点聚类簇的加权中心点C,其中权重w为聚类内节点距离其排序中心点的序号差,若聚类内节点数为M个,则第1个和第M个节点的权重w最小,第
Figure BDA0001469039560000171
个节点的权重最大,聚类中心点C的X-Y坐标为,
Figure BDA0001469039560000172
Figure BDA0001469039560000173
在本例中,三个聚类的中心点见表9:
表9聚类中心点
No X Y
1 3821.941 5598.461
2 8478.617 6259.921
3 3821.941 5598.461
步骤4、对经济活动和非经济活动类型进行划分,选取其中的典型样本的出行时空序列数据,统计其在指定时间段内的聚类数量、聚类大小、聚类中心点所在位置等数值,挖掘不同活动类型的个体的空间出行活动特征,获得不同活动类型的典型特征参数及其上下界误差范围,作为个体活动类型的判别依据;
步骤4.1、将经济活动与非经济活动人口分类;其中,经济活动人口划分为职住分离白天全职型、职住分离夜间全职型、职住分离轮岗全职型、职住分离白天兼职型、职住分离夜间兼职型、职住分离混合型、厂区居住型、公司居住型、教师、在校高中大学学生、自由职业者、失业者;非经济活动人口分为:在校初中小学生、退休人员、居家无劳动能力者;
步骤4.2、选取若干已明确活动特征的个体(包含经济活动人口和非经济活动人口)出行时空序列作为样本;
在本例中,职住分离白天全职型的样本出行时空序列样本见表10:
表10职住分离白天全职型样本出行时空序列(一天)
RECORDID TIMESTAMP REGIONCODE SENSORID
...... ...... ...... ......
INS48 2017-03-20 00:00:00 9878 3442
INS49 2017-03-20 00:10:00 9878 3442
...... ...... ...... ......
INS50 2017-03-20 07:10:00 9878 3442
INS51 2017-03-20 07:20:00 9878 5462
INS52 2017-03-20 07:30:00 9878 8562
INS53 2017-03-20 07:40:00 9878 7845
INS54 2017-03-20 07:50:00 9878 2354
INS55 2017-03-20 08:00:00 9878 9845
...... ...... ...... ......
INS56 2017-03-20 12:10:00 9878 9845
INS57 2017-03-20 12:20:00 9878 5624
INS58 2017-03-20 12:30:00 9878 9845
...... ...... ...... ......
INS59 2017-03-20 19:10:00 9878 9845
INS60 2017-03-20 19:20:00 9878 4165
INS61 2017-03-20 19:30∶00 9878 8995
INS62 2017-03-20 19:40∶00 9878 4323
INS63 2017-03-20 19:50:00 9878 2133
INS64 2017-03-20 20:00:00 9878 7459
INS64 2017-03-20 20:10:00 9878 3442
...... ...... ...... ......
INS64 2017-03-20 23:50:00 9878 3442
...... ...... ...... ......
步骤4.3、计算样本个体出行时空序列的洛伦兹曲线和基尼系数;
步骤4.3.1、遍历样本个体出行时空序列,读取其中的节点及其通信传感器编号;
步骤4.3.2、统计每条出行时空序列中与每个通信传感器发生通信行为节点(包括记录点和插值点)的数量,对传感器以节点数量从小到大排序,画出个体出行时空序列的洛伦兹曲线;
洛伦兹曲线的定义为:设全球各个国家/地区的(x1,x2,...,xn),(y1,y2,...,yn)分别为根据“人均所有量”从低到高排序得到的相应的国家/地区的人口和碳排放所有量占全球总数的比例。(xi,yi)表示国家j的人口比例和所有量比例。则以点
Figure BDA0001469039560000191
绘制散点图得到洛伦兹曲线;洛伦兹曲线的两端分别为(0,0)点和(1,1)点;
在本发明中,由于传感器本身是均质的,所以不需要考虑平均的概念,因此在本发明中,设各个传感器的(x1,x2,...,xn),(y1,y2,...,yn)分别为根据“通信节点数量”从低到高排序得到的相应的传感器和通信节点数量占全球总数的比例。因此(x1,x2,...,xn)的数值都为1/n,(y1,y2,...,yn)为各个传感器的通信节点数占总节点数的比例,仍然以
Figure BDA0001469039560000192
绘制洛伦兹曲线;
步骤4.3.3、根据洛仑兹曲线得到的各个传感器根据“通信节点数量”从低到高排序得到的相应的传感器和通信节点数量占全球总数的比例,计算个体出行时空序列中传感器分布的基尼系数;基尼系数的表达方式有很多种,本专利采用最典型的计算方法:基尼系数的值等于洛伦兹曲线与45°的直线所围成面积占45度直线与x轴,x=1所围成的面积的比。由于45°直线与x轴,x=1所围成的面积等于0.5,因此碳排放的基尼系数实际也等于洛伦兹曲线与45°的直线所围成面积的两倍,它在数值上位于区间[0,1)上;基尼系数越小,则说明结果越趋于公平;
对于本发明,个体出行时空序列的基尼系数的数学表达可写为:
Figure BDA0001469039560000193
在本例中,职住分离白天全职型的样本出行时空序列的以节点数排序的固定位置传感器列表及其节点数见表11:
表11职住分离白天全职型样本出行时空序列分传感器节点数(一天)
Figure BDA0001469039560000194
Figure BDA0001469039560000201
获得的全局的洛仑兹曲线如图2所示。
步骤4.4、采用步骤3.1-3.3的方法,计算出指定时间段内各个样本的空间聚类特征,包括聚类数量、聚类大小、聚类中心点所在位置;
步骤4.5、以聚类覆盖的时间为大小,统计每天各种大小的聚类的平均数量(具体分为12+小时聚类、10-12小时聚类、8-10小时聚类、6-8小时聚类、4-6小时聚类、2-4小时聚类、0-2小时聚类),以聚类大小为X坐标,聚类数量为Y坐标,计算聚类大小分布;
在本例中,职住分离白天全职型样本出行时空序列的聚类大小分布见表12:
表12职住分离白天全职型样本出行时空序列聚类大小平均分布(个/天)
聚类大小 平均出现频率(个/天)
12+ 0.38
10-12 1.03
8-10 0.92
6-8 0.05
4-6 0.06
2-4 0.15
0-2 0.46
步骤4.6、提取聚类点中心所在地,将其划分为住宅区、厂区、办公楼、购物中心、商业设施、医院、学校、广场公园、道路等,个体平均有每天在上述地点的累积聚类时间,将其按照固定顺序排列,以累积时间的长短作为累积量,计算个体日常生活中驻留地类型的分布特征;
在本例中,职住分离白天全职型样本出行时空序列的驻留地分布见表13
表13职住分离白天全职型样本出行时空序列的驻留地分布
驻留地类型 平均驻留时间(小时/天)
住宅 11.2
厂区 0
办公楼 9.8
购物中心 0.3
商业设施 0.05
医院 0
学校 0
广场公园 0.1
道路 0
步骤4.7、根据得到的各个典型出行时间序列样本的出行活动特征(包括洛伦兹曲线、基尼系数、聚类大小分布和驻留地类型分布),计算各种经济活动类型的人群日常空间活动的平均出行特征及其上下界误差范围,作为对后续步骤中对大量样本的识别判断的统计基础;对于洛伦兹曲线、聚类分布和驻留地类型分布,本专利取取各样本与统计平均之间相关系数的最低值和关键节点的上下界作为误差范围;对于基尼系数,本专利直接取各样本与统计平均之间的最大差值作为误差范围;洛仑兹曲线本身为离散函数,且x轴取值点各不相同,因此在做相关性分析的时候分别取两条洛仑兹曲线上的数值点f(x),x={0.1,0.2,0.3,......,0.8,0.9}进行相关性分析;
在本例中,通过多样本计算训练,得到职住分离白天全职型样本出行时空序列的四种特征:洛仑兹曲线、基尼系数、聚类大小分布和驻留地分布的平均值关键节点上下界见图3、表14、表15:
表14、职住分离白天全职型基尼系数平均值和上下界
平均值 上界 下界
0.74 1 0.52
表14、职住分离白天全职型聚类大小平均分布及其关键节点上下界(个/天)
Figure BDA0001469039560000211
Figure BDA0001469039560000221
表15、职住分离白天全职型驻留地分布及其关键节点上下界(个/天)
驻留地类型 平均驻留时间(小时/天) 上界 下界
住宅 10.5 14.5 8.2
厂区 11.3 12.5 7.4
办公楼 10.2 12.4 6.2
购物中心 0.2 0.8 0
商业设施 0.3 1.2 0
医院 0.2 0.4 0
学校 0.2 0.5 0
广场公园 0.1 1.2 0
道路 0 0 0
其中三种特征:洛仑兹曲线、聚类大小分布和驻留地分布的相关系数见表16:
表16、职住分离白天全职型三种特征相关系数最低值
特征类型 取值
洛仑兹曲线 0.75
聚类大小分布 0.62
驻留地分布 0.68
步骤5、遍历个体出行时空序列,依据步骤4获得的经济活动判别特征和参数,对每个个体的经济活动类型进行判断和识别;
步骤5.1、遍历每条待识别的个体出行时间序列,采用步骤3.1-3.3的方法进行节点的空间聚类,得到其日常空间活动范围的聚类结果;
步骤5.2、采用步骤4.2-4.6的方法,计算出每条个体出行时间序列的洛伦兹曲线、基尼系数、聚类分布和驻留地分布;
本例中,表5显示的个体出行时空序列,其完整序列的基尼系数为0.8746,洛仑兹曲线,聚类分布和驻留地分布见图4、表17和表18:
表17个体出行时空序列聚类分布
Figure BDA0001469039560000222
Figure BDA0001469039560000231
表18个体出行时空序列驻留地分布
驻留地类型 平均驻留时间(小时/天)
住宅 11.5
厂区 0
办公楼 9.3
购物中心 0.5
商业设施 0
医院 0
学校 0
广场公园 0.5
道路 0
步骤5.3、对计算得到的洛伦兹曲线、基尼系数、聚类大小分布和驻留地分布,将其与步骤4.7得到的各种活动类型的平均值、平均曲线进行比较(分为相关系数计算和关键节点对比),寻找与其最为相似的活动类型,比较该出行时空序列与该活动类型的各曲线和参数的相关系数和关键节点差值,若满足其上下界范围,则将其归类到与其最为相似的活动类型中;
在本例中,对比发现个体出行时空序列的特征与职住分离白天全职型的特征相关度最高,且其四种特征关键节点的值都在职住分离白天全职型的特征关键节点取值上下界之间,因此判定该个体出行时空序列为职住分离白天全职型。
步骤5.4、若个体出行时间序列与任何一种典型样本的相关系数和关键节点的差值都大于其上下界范围,则将其定义为异常样本,提取出来人工判别进行归类,并将其作为典型样本存入样本库;
步骤5.5、遍历完所有个体出行时空序列后,统计提取所有的人工判别的异常记录,将其作为典型样本,重新对各个典型经济活动类型进行训练,校正曲线和判别参数。

Claims (8)

1.一种基于大数据的经济活动人口识别方法,其特征在于,包括以下步骤:
步骤1、从传感器运营商获取匿名加密移动终端传感器数据,匿名加密移动终端传感器数据在时间与空间上连续,不同移动终端对应不同的EPID;
步骤2、依次提取每个EPID在指定时间段内与传感器的通信信令记录,按时间顺序排序,建立与当前EPID相对应的个体出行轨迹数据集;从时间起点t0出发,以T时间为间隔对个体出行轨迹数据集的空间位置进行插值,构建由真实点和插值点构成的个体出行时空序列;
步骤3、基于DBSCAN算法,设计基于距离的空间聚类算法,对样本的个体出行时空序列数据上的插值点进行空间聚类,提取出节点的节点聚类簇,从中提取出节点聚类簇中的核心点作为当前个体的驻留点,以个体在节点聚类簇内驻留的时间作为节点聚类簇的大小;
所述步骤3包括:
步骤3.1、从数据库中读取已由步骤2得到的个体出行时空序列,从时间起点开始遍历,以每个节点为中心,查找其前后邻域中的N1个临近节点,前后各
Figure FDA0002985882300000011
个;
步骤3.2、假设当前遍历到节点n,则其前后临近点的边界为节点
Figure FDA0002985882300000012
Figure FDA0002985882300000013
统计从节点
Figure FDA0002985882300000014
到节点
Figure FDA0002985882300000015
的分段距离和
Figure FDA0002985882300000016
式中,
Figure FDA0002985882300000017
Di表示节点
Figure FDA0002985882300000018
到节点
Figure FDA0002985882300000019
区间内,从节点i到节点i+1之间的距离,即区间内相邻节点之间的距离,该距离以欧式距离计算;
步骤3.3、根据得到的节点n邻域内的分段距离和,计算以节点n为中心的邻域的节点密度ρ,
Figure FDA00029858823000000110
步骤3.4、判断以节点n为中心的邻域的节点密度ρ是否大于临界阈值Thr-ρ,若大于临界阈值Thr-ρ,则当前邻域内为密度可达,将该邻域标注为一个节点n的节点聚类簇,令其密度相连,将其内部所有的节点都标注为聚类节点,记录下其外部前后的一个节点的空间坐标;若小于临界阈值Thr-ρ,则舍弃当前邻域,继续遍历下一个节点;
步骤3.5、采用步骤3.2至步骤3.4遍历完整个个体出行时空序列后,从头开始遍历每个判定的节点聚类簇,判断:
1)相邻的节点聚类簇所包含的节点之间是否有交集,若存在交集,则该两个节点聚类簇之间密度可达,将这两个节点聚类簇合并为一个,令其密度相连,重新计算合并后的节点聚类簇的节点密度,并统计节点聚类簇内的节点数量;
2)每个节点聚类簇内的插值点数量是否小于阈值Thr-n,若小于阈值Thr-n,则表明个体在该节点聚类簇内的停留时间太短,达不到驻留标准,舍弃该节点聚类簇;
步骤3.6、遍历每个留存下来的节点聚类簇,计算每个节点聚类簇的加权中心点C,其中权重w为节点聚类簇内节点距离其加权中心点C的序号差,若节点聚类簇内节点数为M,则第1个和第M个节点的权重w最小,第
Figure FDA0002985882300000021
个节点的权重w最大,设聚类中心点C的X轴坐标为XC,聚类中心点C的Y轴坐标为YC,则有:
Figure FDA0002985882300000022
Figure FDA0002985882300000023
式中,n1表示节点聚类内的节点数量,Xi表示节点聚类内节点i的X坐标,Yi表示节点聚类内节点i的Y坐标
步骤4、对经济活动和非经济活动类型进行划分,选取其中的典型样本的出行时空序列数据,统计其在指定时间段内的聚类数量、聚类大小、聚类中心点所在位置,挖掘不同活动类型的个体的空间出行活动特征,获得不同活动类型的典型特征参数及其上下界误差范围,作为个体活动类型的判别依据;
步骤5、遍历个体出行时空序列,依据步骤4获得的判别依据,对每个个体的经济活动类型进行判断和识别;
步骤6、对得到的经济活动个体进行扩样,得到经济活动人口的总体统计数据,完成对于经济活动人口的动态监测,并更新数据库。
2.如权利要求1所述的一种基于大数据的经济活动人口识别方法,其特征在于,在所述步骤1中,匿名加密移动终端传感器数据包括:用户个体唯一编号EPID、通信动作类型TYPE、通信动作发生时刻TIME、传感器所处大区REGIONCODE、传感器具体编号SENSORID,其中,传感器所处大区REGIONCODE及传感器具体编号SENSORID构成了传感器编号。
3.如权利要求2所述的一种基于大数据的经济活动人口识别方法,其特征在于,所述步骤2包括:
步骤2.1、提取个体出行轨迹数据集中,所有的固定位置传感器编号REGIONCODE-SENSORID及其对应的经纬度坐标LON-LAT,将经纬度坐标LON-LAT转换为地理坐标X-Y;
步骤2.2、遍历个体出行轨迹数据集,将其按触发通信时间TIMESTAMP顺序排列;
步骤2.3、从时间起点开始遍历出行数据,相邻的每3个通信记录点拟合一条二次曲线,二次曲线的x轴为个体出行轨迹的时间,y轴为通信记录点的X-Y坐标,若个体的出行轨迹包含n个通信记录点,则总共需要拟合出2n-4条二次曲线;
步骤2.4、从时间起点t0出发出发,按时间间隔T计算个体在每个时间点的X-Y坐标,相同时间X(t0+nT)和Y(t0+nT)构成一个插值点,除首尾两段外,其余通信点之间都存在2条拟合曲线,在此之间的插值点的X-Y坐标由两条曲线的计算结果求平均得到;
步骤2.5、将所有插值点和记录点按时间顺序排序,构成初步的个体的出行时空序列数据;
步骤2.6、对步骤2.5得到的出行时空序列数据进行分割,以记录点为端点,平均分割所有两两记录点之间的插值点,将插值点归属到离其最近的记录点,将记录点中的传感器编号赋给插值点,表明插值点也是潜在的会与该传感器通信的点;
步骤2.7、从步骤2.5得到的出行时空序列数据中删除所有的记录点,从而使得到的个体出行时空序列完全由赋有传感器编号的插值点组成。
4.如权利要求1所述的一种基于大数据的经济活动人口识别方法,其特征在于,所述步骤4包括:
步骤4.1、将经济活动与非经济活动人口分类,其中,经济活动人口划分为职住分离白天全职型、职住分离夜间全职型、职住分离轮岗全职型、职住分离白天兼职型、职住分离夜间兼职型、职住分离混合型、厂区居住型、公司居住型、教师、在校高中大学学生、自由职业者、失业者;非经济活动人口分为:在校初中小学生、退休人员、居家无劳动能力者;
步骤4.2、选取若干已明确活动特征的个体出行时空序列作为样本;
步骤4.3、计算样本的个体出行时空序列的洛伦兹曲线和基尼系数;
步骤4.4、计算出指定时间段内各个样本的空间聚类特征,包括聚类数量、聚类大小、聚类中心点所在位置;
步骤4.5、以聚类覆盖的时间为大小,统计每天各种大小的聚类的平均数量,以聚类大小为X坐标,聚类数量为Y坐标,计算聚类大小分布;
步骤4.6、提取聚类点中心所在地,依照区域功能将其划分为不同的驻留地类型,个体平均有每天在上述驻留地的累积聚类时间,将其按照固定顺序排列,以累积时间的长短作为累积量,计算个体日常生活中驻留地类型的分布特征;
步骤4.7、根据得到的各个典型出行时间序列样本的出行活动特征,包括洛伦兹曲线、基尼系数、聚类大小分布和驻留地类型分布,计算各种经济活动类型的人群日常空间活动的平均出行特征及其上下界误差范围,作为对后续步骤中对大量样本的识别判断的统计基础。
5.如权利要求4所述的一种基于大数据的经济活动人口识别方法,其特征在于,所述步骤4.3包括:
步骤4.3.1、遍历样本个体出行时空序列,读取其中的节点及其通信传感器编号;
步骤4.3.2、统计每条出行时空序列中与每个通信传感器发生通信行为的节点的数量,该节点包括记录点和插值点,对传感器以节点数量从小到大排序,画出个体出行时空序列的洛伦兹曲线;
步骤4.3.3、根据洛伦兹曲线得到的各个传感器根据“通信节点数量”从低到高排序得到的相应的传感器和通信节点数量占全球总数的比例,计算个体出行时空序列中传感器分布的基尼系数,个体出行时空序列的基尼系数的数学表达为:
Figure FDA0002985882300000051
式中,(y1,y2,...,yn,...yN)为各个传感器的通信节点数占总节点数的比例。
6.如权利要求5所述的一种基于大数据的经济活动人口识别方法,其特征在于,在所述步骤4.7中,对于洛伦兹曲线、聚类分布和驻留地类型分布,取各样本与统计平均之间相关系数的上下界和关键节点的上下界作为误差范围;对于基尼系数,取各样本与统计平均之间的最大差值作为误差范围;在做相关性分析的时,分别取两条洛伦兹曲线上的数值点f(x),x={0.1,0.2,0.3,……,0.8,0.9}进行相关性分析。
7.如权利要求1所述的一种基于大数据的经济活动人口识别方法,其特征在于,所述步骤5包括:
步骤5.1、遍历每条待识别的个体出行时间序列,进行节点的空间聚类,得到其日常空间活动范围的聚类结果;
步骤5.2、计算出每条个体出行时间序列的洛伦兹曲线、基尼系数、聚类分布和驻留地分布;
步骤5.3、对计算得到的洛伦兹曲线、基尼系数、聚类大小分布和驻留地分布,将其与步骤4得到判别依据对比,寻找与其最为相似的活动类型,比较该出行时空序列与该活动类型的典型特征参数差值,若满足其上下界误差范围,则将其归类到与其最为相似的活动类型中;
若个体出行时间序列与任何一种典型样本的典型特征参数差值都大于其上下界范围,则将其定义为异常样本,提取出来人工判别进行归类,并将其作为典型样本存入样本库;
步骤5.5、遍历完所有个体出行时空序列后,统计提取所有的人工判别的异常记录,将其作为典型样本,重新对各个典型经济活动类型进行训练,校正曲线和判别参数。
8.如权利要求1所述的一种基于大数据的经济活动人口识别方法,其特征在于,所述步骤6包括:
步骤6.1、依据已有的统计资料,统计各种活动类型的人口,包括非经济活动人口,的手机持有率数据;
步骤6.2、根据各活动类型的手持移动设备持有率,计算出各活动类型人口的总数;
步骤6.3、针对特殊群体,则分别根据不同的经济活动非经济活动人口比和经济活动非经济活动人口手持移动设备持有率,统计出活动范围内的经济活动非经济活动人口数量,计算公式为:
Figure FDA0002985882300000061
式中,Pt为经济活动人口数量,Ps为非经济活动人口数量,ht和hs分别为经济活动人口和非经济活动人口的持有手持移动设备的比率,r为经济活动对非经济活动人口的比例,R为指定时间段内指定活动范围内记录的个体的数量;
步骤6.4、统计计算得到指定区域内的经济活动人口和非经济活动人口的人数和比例,更新人口监测数据库。
CN201711133199.5A 2017-11-15 2017-11-15 一种基于大数据的经济活动人口识别方法 Active CN107977673B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711133199.5A CN107977673B (zh) 2017-11-15 2017-11-15 一种基于大数据的经济活动人口识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711133199.5A CN107977673B (zh) 2017-11-15 2017-11-15 一种基于大数据的经济活动人口识别方法

Publications (2)

Publication Number Publication Date
CN107977673A CN107977673A (zh) 2018-05-01
CN107977673B true CN107977673B (zh) 2021-05-14

Family

ID=62013582

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711133199.5A Active CN107977673B (zh) 2017-11-15 2017-11-15 一种基于大数据的经济活动人口识别方法

Country Status (1)

Country Link
CN (1) CN107977673B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108733818B (zh) * 2018-05-21 2021-04-02 上海世脉信息科技有限公司 一种基于多场景多数据源校验的大数据扩样方法
CN109190588A (zh) * 2018-09-19 2019-01-11 东方网力科技股份有限公司 一种人口分类的方法及装置
CN110059919B (zh) * 2019-03-07 2020-06-12 特斯联(北京)科技有限公司 一种基于大数据的人口异常信息检测方法和系统
CN110245981B (zh) * 2019-05-31 2021-10-01 南京瑞栖智能交通技术产业研究院有限公司 一种基于手机信令数据的人群类型识别方法
CN110377863B (zh) * 2019-07-29 2021-12-28 秒针信息技术有限公司 一种浏览资源评估点的扩充拟合方法及扩充拟合装置
CN110909765B (zh) * 2019-10-24 2023-06-20 中电海康集团有限公司 一种面向轨迹大数据的行人行为模式分类方法
CN110969483B (zh) * 2019-11-29 2023-10-10 支付宝实验室(新加坡)有限公司 一种识别商户位置的方法、装置及电子设备
CN113282638B (zh) * 2021-04-23 2024-05-07 中寰卫星导航通信有限公司 一种城建用车识别方法和装置
CN113722878B (zh) * 2021-07-16 2022-11-01 东南大学 一种基于身份感知数据且面向仿真的交通需求确定方法
CN115587120B (zh) * 2022-09-30 2023-04-07 杭州雅拓信息技术有限公司 一种用户数据处理方法和系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105488120A (zh) * 2015-11-23 2016-04-13 上海川昱信息科技有限公司 基于手机大数据实时采集人口空间分布与大客流预警方法
CN106096631A (zh) * 2016-06-02 2016-11-09 上海世脉信息科技有限公司 一种基于手机大数据的流动人口分类识别分析方法
KR101727306B1 (ko) * 2014-06-24 2017-05-02 한국전자통신연구원 언어모델 군집화 기반 음성인식 장치 및 방법

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9461876B2 (en) * 2012-08-29 2016-10-04 Loci System and method for fuzzy concept mapping, voting ontology crowd sourcing, and technology prediction

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101727306B1 (ko) * 2014-06-24 2017-05-02 한국전자통신연구원 언어모델 군집화 기반 음성인식 장치 및 방법
CN105488120A (zh) * 2015-11-23 2016-04-13 上海川昱信息科技有限公司 基于手机大数据实时采集人口空间分布与大客流预警方法
CN106096631A (zh) * 2016-06-02 2016-11-09 上海世脉信息科技有限公司 一种基于手机大数据的流动人口分类识别分析方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
1935-2010年中国人口分布空间格局及其演变特征;杨强 等;《地理研究》;20161231;第35卷(第8期);第1547-1560页 *
Numerical method to calculate gini coefficient from limited data of subgroups;Huang weidong;《APPLIED ECONOMICS LETTERS》;20130930;第20卷(第13期);第1249-1253页 *

Also Published As

Publication number Publication date
CN107977673A (zh) 2018-05-01

Similar Documents

Publication Publication Date Title
CN107977673B (zh) 一种基于大数据的经济活动人口识别方法
CN106096631B (zh) 一种基于手机大数据的流动人口分类识别分析方法
CN111582948B (zh) 一种基于手机信令数据与poi兴趣点的个体行为分析方法
Luo et al. Explore spatiotemporal and demographic characteristics of human mobility via Twitter: A case study of Chicago
Gao et al. Discovering spatial interaction communities from mobile phone d ata
CN105307121B (zh) 一种信息处理方法及装置
CN107609682B (zh) 一种大数据环境下人口集聚中短期预警方法
CN108733774B (zh) 一种基于大数据的失业人口动态监测方法
CN109688532B (zh) 一种划分城市功能区域的方法及装置
US8838134B2 (en) Method and computer programs for the construction of communting matrices using call detail records and a use for providing user's mobility information
Demissie et al. Analysis of the pattern and intensity of urban activities through aggregate cellphone usage
Zheng et al. Exploring both home-based and work-based jobs-housing balance by distance decay effect
CN115049159B (zh) 人口分布预测方法和装置、存储介质及电子设备
Gkiotsalitis et al. A utility-maximization model for retrieving users’ willingness to travel for participating in activities from big-data
Järv et al. The link between ethnic segregation and socio‐economic status: An activity space approach
CN110750609A (zh) 基于时空数据和神经网络的犯罪案件数量预测方法
Fekih et al. Potential of cellular signaling data for time-of-day estimation and spatial classification of travel demand: a large-scale comparative study with travel survey and land use data
CN112738729A (zh) 一种用手机信令数据判别探亲返乡游客的方法及系统
Cui et al. Social media and mobility landscape: Uncovering spatial patterns of urban human mobility with multi source data
Cao et al. Understanding metropolitan crowd mobility via mobile cellular accessing data
Zhao et al. Celltrademap: Delineating trade areas for urban commercial districts with cellular networks
Mark et al. Microscopic simulations of complex metropolitan dynamics
Frei et al. Modeling spatial embedded social networks
Dyrmishi et al. Mobile positioning and trajectory reconstruction based on mobile phone network data: A tentative using particle filter
CN111581318B (zh) 一种共享单车骑行目的推断方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant