CN108733774B - 一种基于大数据的失业人口动态监测方法 - Google Patents

一种基于大数据的失业人口动态监测方法 Download PDF

Info

Publication number
CN108733774B
CN108733774B CN201810396262.2A CN201810396262A CN108733774B CN 108733774 B CN108733774 B CN 108733774B CN 201810396262 A CN201810396262 A CN 201810396262A CN 108733774 B CN108733774 B CN 108733774B
Authority
CN
China
Prior art keywords
individual
population
unemployment
time
employment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810396262.2A
Other languages
English (en)
Other versions
CN108733774A (zh
Inventor
张颖
顾高翔
刘杰
吴佳玲
郭鹏
宫龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANGHAI SHIMAI INFORMATION TECHNOLOGY CO LTD
Original Assignee
SHANGHAI SHIMAI INFORMATION TECHNOLOGY CO LTD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI SHIMAI INFORMATION TECHNOLOGY CO LTD filed Critical SHANGHAI SHIMAI INFORMATION TECHNOLOGY CO LTD
Priority to CN201810396262.2A priority Critical patent/CN108733774B/zh
Publication of CN108733774A publication Critical patent/CN108733774A/zh
Application granted granted Critical
Publication of CN108733774B publication Critical patent/CN108733774B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Abstract

本发明提供的一种基于大数据的失业人口动态监测方法,包括以下步骤:根据个体的时空记录数据构建海量的个体出行轨迹;通过对先验样本进行训练,学习获得失业和就业人口在日常出行模式特征上的分界线;以此为基础对全体样本进行识别,判断其当前的就业状态;实时更新数据,对全体样本的就业情况进行监测和更新,计算失业人口占样本的比例;对样本进行扩样,获得全社会的在时间和空间两个维度上的失业人口分布情况及其统计结果。本发明的优点是能够便捷、高效地进行区域内实时失业人口和失业率的统计。

Description

一种基于大数据的失业人口动态监测方法
技术领域
本发明涉及一种基于海量匿名加密时间序列定位数据的失业人口动态识别与监测的方法,以获得全社会的在时间和空间两个维度上的失业人口分布情况及其统计结果。
背景技术
统计意义上失业人口的定义是在16岁及以上,有劳动能力,在调查期间无工作,当前有就业的可能并以某种方式寻找工作的人员。由于调查的局限性,失业人口统计又被分为城镇调查失业人口与城镇登记失业人口,其判断个人失业与否依赖于大量的前提条件。其中,城镇登记失业人口是指有非农业户口,在一定的劳动年龄(16岁至退休年龄)内,有劳动能力,无业且要求就业,并在当地劳动保障机构进行求职登记的人员。而调查失业人口的统计标准是在调查周内,未从事为取得报酬或经营利润的劳动,也没有处于就业定义中的暂时未工作状态,在某一特定期间内采取了某种方式寻找工作,当前如有工作机会可以在一个特定期间内应聘就业或从事自营职业。可以看到,尽管失业在日常经济活动频繁发生,但是由于常规统计的局限性,在具体的调查过程中被许多先决条件所限定,使得调查统计数据与经济活动中真实的失业人口相比存在一定的差距。
近年来,随着信息技术的发展,数据信息量呈现爆炸式增长,数据来源越来越多,数据量也越来越庞大。其中,由手机、WIFI、物联网等信息传感器记录的数据已经成为大数据分析中最重要的数据来源,其较为完备的个体出行记录为大数据,尤其是交通大数据分析提供了很好的数据支持。以手机为例,至2015年,手机用户达到13.06亿,占到总人口的96%以上,手机终端设备持续产生的信号信息,形成了记录用户出行的一系列数据集,为分析城市人群出行、滞留等行为活动提供了重要的数据来源。
发明内容
本发明的目的是:利用大数据及其分析技术识别失业人口和就业人口在日常出行行为上的界限,以此识别并实时监测社会人口在就业和失业状态之间的转换情况,统计实时失业率和失业人口分布,观察失业状况在时间和空间上的变化趋势。
为了达到上述目的,本发明的技术方案是提供了一种基于大数据的失业人口动态监测方法,其特征在于,包括以下步骤:
步骤1、从传感器运营商获取匿名加密移动终端传感器数据,提取个体的出行数据,以此构建个体出行轨迹数据集,以时间T为间隔对个体出行轨迹数据集的空间位置进行插值,构建个体出行时空序列;步骤1的具体计算过程可以参考申请号为201710535039.7的中国专利以及申请号为201710843841.2的中国专利;
步骤2、采用空间聚类算法,对个体出行时空序列数据上的节点进行空间聚类,提取出个体长时间停留的空间聚类簇,以个体在聚类内驻留的时间作为聚类的大小,并将基本地理信息赋予该聚类,人工选择出大量失业人口样本,提取停留时间超过T小时的聚类点,对聚类点进行分析判断,提取出居住地和主要日常停留地,得到失业人口日常在非居留地的停留状态分布状况,作为失业状态的判断依据,具体包括以下步骤:
步骤2.1、获取由步骤1得到的目标个体每天的个体出行时空序列数据,采用基于DBSCAN的空间聚类方法将个体每天在空间上的停留点聚类出来,获得个体每天可能的居住地和工作地;基于DBSCAN的空间聚类算法的设计和结构公开在申请号为201711133199.5的中国专利中;
步骤2.2、在DBSCAN空间聚类算法的基础上,选择m条先验判定当天为失业人口的个体的个体出行时空序列,设总共有n1个不同个体,对个体出行时空序列进行聚类,获取所有节点数量大于阈值Thr-n的聚类;
步骤2.3、根据聚类内节点数量,对聚类进行排序,提取失业个体聚类特征,包括以下步骤:
步骤2.3.1、选取节点数量最多的聚类,提取该聚类的基础地理信息,若该聚类中最主要的地块类型为住宅,则定义此聚类为居住地,若不是住宅地块,则依聚类大小遍历,直到找到地块类型的居住地的聚类,若该聚类中的节点数量大于n2,将其定义为居住地,若小于n2,则舍弃该个体出行时空序列;
步骤2.3.2、除居住地外,查找所有主要地块类型可能为工作地的聚类(包括非居住地住宅、工厂区、公共服务设施、商业设施等),记录其中规模最大的聚类的节点数;
步骤2.3.3、记录每天规模最大的可能工作地聚类的节点数,对于同一个体,取其在其失业期间最大可能工作地的节点数的中位数,作为判别其是否失业的标准;
步骤2.3.4、根据先验的n1个不同个体的失业期间最大可能工作地的节点数的中位数,统计出失业人员在可能工作地停留时间的中位数和阈值范围threshold_q;
步骤2.4、查找所有状态从正常就业到非正常就业再到正常就业的个体样本(为剔除离职后的无就业意愿者),统计其从正常就业再到正常再就业之间的时间,计算其平均值,取其十分之一为连续失业待观察天数阈值threshold_t,若个体连续非正常就业天数小于threshold_t,则其没有失业的概率大于90%,即满足0.1水平显著;
步骤3、基于步骤2获得的失业人口日常在非居留地的停留状态分布状况,判断全样本中每个个体的就业/失业过程和当前状态,从中筛选当前处于统计意义上的失业状态的人数,依照固定比例扩样,得到任一时间点的失业人口数和失业率;
步骤4、对个体的日常出行数据进行实时更新,分析监测每个个体的就业/失业状态变化,实现对失业人口的实时监测工作,
步骤5、针对判别得到的个体失业/就业情况数据,分时间维度和空间维度以及时间空间综合分析失业人口的时空变化。
优选地,所述步骤3包括:
步骤3.1、遍历所有样本,对样本中每个个体每天的个体出行时空序列数据进行聚类,将其按照内部节点数量大小进行排序;
步骤3.2、对于同一个体,比较其所有个体出行时空序列的聚类情况,选取主要地块类型为住宅的聚类中,节点数量最多的聚类作为个体的居住地,将其剔除后,选取剩余所有聚类中地块类型为可能工作地(包括商业用地、工厂、住宅、公共服务设施等)中节点数量最多的聚类作为其可能的工作地;
步骤3.3、将个体的就业情况状态分为就业、失业、失业待观察三种,依照个体在个体出行时空序列上每天在可能工作地聚类的节点数与阈值范围threshold_q的关系判断个体的就业情况:
若个体之前处于就业状态,且当天在可能工作地聚类的节点数大于阈值范围threshold_q,则判定个体当天为就业状态;
若个体之前处于就业状态,且当天在可能工作地聚类的节点数小于阈值范围threshold_q,则将个体当天的就业状况改为失业待观察,失业待观察天数为1;
若个体之前处于失业待观察状态,且当天在可能工作地聚类的节点数大于阈值范围threshold_q,则判定个体当天的就业状态为就业,失业待观察天数清零;
若个体之前处于失业待观察状态,且当天在可能工作地聚类的节点数小于阈值范围threshold_q,则判定个体当天的就业状态为失业待观察,失业待观察天数加1,若个体累积的连续失业待观察天数大于阈值threshold_t,则判定个体处于失业状态,将其之前的失业待观察时期改为失业期;
若个体之前处于失业状态和没有就业意愿状态,且当天在可能工作地聚类的节点数大于阈值范围threshold_q,则判定个体当天结束失业状态,重新变成就业状态,记录下其可能工作地的空间位置和地理属性;
若个体之前处于失业状态,且当天在可能工作地聚类的节点数小于阈值范围threshold_q,则将个体仍维持失业状态,失业天数加1,若累积连续失业天数大于90天,则判定该个体为没有就业意愿人口;
步骤3.4、遍历完所有个体出行时空序列后,针对某一时间节点,统计当时的有就业意愿的总人口和失业人口,依照固定比例
Figure GDA0003356297500000041
从失业人口中剔除没有固定工作地点的从业人员(如出租车司机、快递员、销售客服等),依照固定扩样比例,得到该时间点全局的失业人口和失业率。
优选地,所述步骤4包括:
步骤4.1、以固定时间间隔向系统上传最新的个体出行记录数据,依照步骤2和步骤3的方法构建每天的个体出行时空序列,并将个体出行时空序列聚类得到个体在空间上的主要停留点;
步骤4.2、依照时间顺序遍历每天每个个体的聚类情况,依据以下判断原则分析在此固定时段内个体每天的就业情况,实时更新个体的就业/失业情况:
原则一、若个体当天的停留点聚类中最大可能工作地停留的节点数低于失业人员在可能工作地停留时间的阈值范围threshold_q,则:
若个体之前处于失业状态,则其当天仍然处于失业状态,若累积失业天数大于90天,则判定为没有就业意愿人口;
若个体之前处于失业待观察状态,则将其待观察天数加1,若待观察天数达到threshold_t,则判定个体之前的threshold_t天均为失业状态;
若个体之前处于就业状态,则当天判定为失业待观察,将其失业观察天数设定为1;
原则二、若个体当天的停留点聚类中最大可能工作地停留的节点数高于失业人员在可能工作地停留时间的阈值范围threshold_q,则将个体当天判定为就业状态;
步骤4.3、更新完所有数据后,统计最新的总的有就业意愿人口和失业人口样本数量,依照固定扩样比例,得到当前时间点全局的失业人口和失业率。
优选地,所述步骤5包括以下步骤:
步骤5.1、时间维度失业人口与失业率统计,分为实时失业人口和失业率统计,周失业/重新就业人口与平均失业率统计,月失业/重新就业人口与平均失业率统计三部分,采用步骤4完成的个体时序失业/就业状况进行统计分析,得到实时的失业人口Pu,t,以此计算实时失业率Ru,t
Figure GDA0003356297500000051
式中,Pt为实时总人口;
对于周失业/重新就业人口统计,先统计一周内出现的新的失业人口Peu,w和在失业状态下重新找到工作的人口Pue,w,则周末失业人口为Pu,w
Pu,w=Pu,w-1+Peu,w-Pue,w-Pr,w
式中,Pu,w-1为上一周失业人口统计,Pr,w为因退休或其他原因退出劳动力市场的人口统计;
周平均失业率Ru,w表示为周中每日失业人口的加和除以周中每日总人口的加和:
Figure GDA0003356297500000052
式中,W表示周;
月末失业人口Pu,m表示为:
Pu,m=Pu,m-1+Peu,m-Pue,m-Pr,m
式中,Pu,m-1为上月失业人口统计,Pr,m为本月因退休或其他原因退出劳动力市场的人口统计,Pue,m为本月失业状态下重新找到工作的人口,Peu,m为本月新出现的失业人口;
月平均失业率Ru,m表示为:
Figure GDA0003356297500000061
式中,M表示月份;
步骤5.2、空间维度失业人口与失业率统计,分为格网失业人口与失业率统计、居村委失业人口与失业率统计和分区失业人口与失业率统计三部分,其中,格网失业人口与失业率统计按照边长为l的正方形将地理空间划分为格网,统计每个格网中实时的失业人口数量Pu,i,t和失业率Ru,i,t
Figure GDA0003356297500000062
式中,Pi,t为格网i中的总人口;
居村委的实时失业人数和失业率可表示为:
Figure GDA0003356297500000063
式中,V表示居村委,
Figure GDA0003356297500000064
为居村委实时失业人数;
分区实时失业率表示为:
Figure GDA0003356297500000065
式中,D表示区,
Figure GDA0003356297500000066
为区实时失业人数;
步骤5.3、时空综合失业人口和失业率分析分为分居住地失业人口与失业率统计和分就业地就业人口变化统计,其中,跨期的分居住地的失业率变化表示为:
Figure GDA0003356297500000071
式中,t代表时间,
Figure GDA0003356297500000072
Figure GDA0003356297500000073
即为居住地H两期的失业人口数;
就业地就业人口变化率表示为:
Figure GDA0003356297500000074
式中,
Figure GDA0003356297500000075
Figure GDA0003356297500000076
即为工作地F两期的就业人口数。
本发明对于移动终端大数据进行处理和筛选,由个体所持移动终端和传感器之间的通信记录构建出个体出行的时空序列数据,通过插值算法建立统一时间间隔的,完全由插值点构成的用户出行时空序列;通过对个体出行时空序列中的节点按照其分布密度进行空间聚类,得到个体在空间上的停留区域及其区域的地理属性;通过对大量典型失业人口日常活动样本进行聚类分布的特征分析,计算失业人口与非失业人口在可能工作地停留时间的分界线,以此判别的个体是否处于失业状态;通过对比个体在时序上的失业/就业状态变化,根据判断规则判断个体在一定时段内的就业/失业情况;实时更新个体出行数据,实时判断个体的就业/失业状态的变化情况,采用固定系数折算和扩样的方法,最终获得全局的有就业意愿的人口和失业人口数量,得到全局在时间和空间上的失业率数据集以及相关的时空统计结果。
本发明的优点是:充分依托现有的用户持有的移动终端与传感器之间的通信大数据资源,利用通信网络中已有海量匿名移动终端持续的加密位置信息,即能低成本、自动化、便捷地获取指定时间范围内大量人口的出行时空序列,采用空间聚类算法挖掘出行时空序列中个体在空间中的停留地点,挑选典型失业样本进行可能工作地停留时间的分界值参数训练,依据训练得到的参数进行个体失业/就业状态的判断和更新,从而便捷、高效地进行区域内实时失业人口和失业率的统计工作。
附图说明
图1为本发明的流程图。
具体实施方式
为使本发明更明显易懂,兹以优选实施例,并配合附图作详细说明如下。
步骤1、系统读取从传感器运营商获取匿名加密移动终端传感器数据,匿名加密移动终端传感器数据理论上在时间与空间上连续,不同移动终端对应不同的EPID,提取每个EPID在指定时间段内所触发的通信信令记录,构成该EPID的出行数据集。
步骤1.1、系统读取从传感器运营商获取匿名后的个体加密移动终端传感器数据,构建由个体和固定传感器通信记录构成的初步的个体出行时空轨迹,个体和固定传感器之间通讯记录的提取公开在申请号为201710535039.7的中国专利中。
在本例中,提取得到的用户与传感器的实时信令记录数据见表1:
表1:解密后新接收的实时信令记录数据
RECORDID EPID TYPE TIMESTAMP REGIONCODE SENSORID
…… …… …… …… …… ……
R2503 E1 T2 2017-06-20 09:10:42 9878 6343
R2504 E1 T3 2017-06-20 09:19:22 9880 1242
R2505 E1 T3 2017-06-20 09:28:49 9880 1253
R2506 E1 T3 2017-06-20 09:41:12 9880 1454
R2507 E1 T2 2017-06-20 10:09:23 9880 7645
R2508 E1 T1 2017-06-20 10:29:59 9880 7645
R2509 E1 T1 2017-06-20 10:45:11 9880 7661
R2509 E1 T1 2017-06-20 10:47:21 9880 7661
R2510 E1 T2 2017-06-20 10:58:21 9880 7645
R2511 E1 T3 2017-06-20 11:15:54 9880 7645
…… …… …… …… …… ……
R2574 E1 T2 2017-06-20 17:11:31 9880 7645
R2575 E1 T2 2017-06-20 17:26:43 9880 7645
R2576 E1 T2 2017-06-20 17:42:56 9880 2311
R2577 E1 T1 2017-06-20 17:57:21 9880 6181
R2578 E1 T2 2017-06-20 18:14:26 9880 5739
…… …… …… …… …… ……
步骤1.2、根据步骤1.1得到的个体出行轨迹数据,按时间顺序排序,采用二次曲线拟合个体连续的出行轨迹连续函数,按时间间隔T计算个体在每个时间点的X-Y坐标,作为插值点,由插值点组成的个体每天的出行时空序列,并将其与地图进行叠置分析,将该点的真实地理信息(名称、土地利用类型、设施类型等)赋予该节点,个体出行时空序列的构建方法公开在申请号为201710843841.2的中国专利中。
再本例中,个体出行时空序列的构建过程见表2-表7:
表2经纬度转换后的固定传感器X-Y坐标
REGIONCODE SENSORID X Y
…… …… …… ……
9878 3415 3821.941 5598.461
9878 4632 4774.443 5863.045
9878 6343 5568.195 6048.254
9880 1242 6176.738 6286.379
9880 1253 6944.031 6603.88
9880 1454 7790.699 6550.963
9880 7645 8478.617 6259.921
9880 2311 8769.66 5704.295
9880 6181 9166.535 5280.96
9880 5739 9669.245 4989.918
9880 2165 9219.452 4910.543
9878 5422 8822.576 4963.46
…… …… …… ……
表3:解密后新接收的实时信令记录数据
Figure GDA0003356297500000091
Figure GDA0003356297500000101
表4:添加了X-Y坐标后新接收的实时信令记录数据
Figure GDA0003356297500000102
Figure GDA0003356297500000111
表5插值数据与记录数据
Figure GDA0003356297500000112
Figure GDA0003356297500000121
表6由插值点构成的个体出行时空序列
Figure GDA0003356297500000122
Figure GDA0003356297500000131
Figure GDA0003356297500000141
表7附带基本地理信息的个体出行时空序列(插值点)
Figure GDA0003356297500000142
Figure GDA0003356297500000151
步骤2、采用空间聚类算法,对个体出行时空序列数据上的节点进行空间聚类,提取出个体长时间停留的空间聚类簇,以个体在聚类内驻留的时间作为聚类的大小,并赋予基本地理信息赋予该聚类,人工选择出大量失业人口样本,提取停留时间超过T小时的聚类点,对聚类点进行分析判断,提取出居住地和主要日常停留地,得到失业人口日常在非居留地的停留状态分布状况,作为失业状态的判断依据,包括以下步骤:
步骤2.1、从数据库中读取已由步骤1得到的个体每天出行时空序列数据,采用基于DBSCAN的空间聚类方法将个体每天在空间上的停留点聚类出来,获得个体每天可能的居住地和工作地,基于DBSCAN的空间聚类算法的设计和结构公开在申请号为201711133199.5的中国专利中。
在本例中,聚类的过程和得到的结果见表8-13:
表8节点之间的距离
Figure GDA0003356297500000152
Figure GDA0003356297500000161
表9各节点邻域内的节点密度
Figure GDA0003356297500000162
Figure GDA0003356297500000171
表10初步节点聚类
Figure GDA0003356297500000172
Figure GDA0003356297500000181
表11聚类合并结果
CLUSTER INS-POINTS P-NUMBER DENSITY
C1 INS1-INS64 64 2
C2 INS82-INS86 5 0.00769
C3 INS103-INS105 3 0.006831
C4 INS110-INS145 36 2
表12聚类中各地块类型加权占比
Figure GDA0003356297500000182
表13聚类中各地块类型加权占比
CLUSTER MAIN LANDTYPE P-NUMBER
C1 住宅 100
C2 办公楼 5
C3 办公楼 3
步骤2.2、在基于DBSCAN空间聚类算法的基础上,选择m条先验判定当天为失业人口的个体的出行时空序列(总共有n1个不同个体),对其时空序列进行聚类,获取所有节点数量大于阈值Thr-n的聚类;
步骤2.3、根据聚类内节点数量,对聚类进行排序,提取失业个体聚类特征;
步骤2.3.1、选取节点数量最多的聚类,提取其基础地理信息,若该聚类中最主要的地块类型为住宅,则定义此聚类为居住地,若不是住宅地块,则依聚类大小遍历,直到找到地块类型的居住地的聚类,若该聚类中的节点数量大于n2,将其定义为居住地,若小于n2,则舍弃该个体出行时空序列;
在本例中,设n2为36,以表12为例,聚类C1和C4地理位置和基础地理信息基本一致,且为节点数最大的聚类,因此判定为个体的居住地,而聚类C2和C3的主要用地类型为办公楼,因此判定为可能工作地;
步骤2.3.2、除居住地外,查找所有主要地块类型可能为工作地的聚类(包括非居住地住宅、工厂区、公共服务设施、商业设施等),记录其中规模最大的聚类的节点数;
步骤2.3.3、记录每天规模最大的可能工作地聚类的节点数,对于同一个体,取其在其失业期间最大可能工作地的节点数的中位数,作为判别其是否失业的标准;
步骤2.3.4、根据先验的n1个不同个体的失业期间最大可能工作地的节点数的中位数,统计出失业人员在可能工作地停留时间的中位数和阈值范围threshold_q;
在本例中,通过对大样本的失业人员日常出行时空序列的聚类的分析,得到失业个体每天的最大的可能工作地聚类中平均节点数为1.3735个,最大的节点数阈值为6.1432个,即就业人口每天在必须有节点数大于6的可能工作地聚类,否则即判定为失业或失业待观察;
步骤2.4、查找所有状态从正常就业到非正常就业再到正常就业的个体样本(为剔除离职后的无就业意愿者),统计其从正常就业再到正常再就业之间的时间,计算其平均值,取其十分之一为连续失业待观察天数阈值threshold_t,表明若个体连续非正常就业天数小于threshold_t,则其没有失业的概率大于90%,即满足0.1水平显著;
在本例中,通过大样本学习获得的阈值threshold_t为4.843天,取四舍五入为5,即个体连续失业待观察天数阈值threshold_t为5天,连续超过5天未正常就业即判定为失业;
步骤3、基于步骤2获得的失业人口的日常出行规律,判断全样本中每个个体的就业/失业过程和当前状态,从中筛选当前处于统计意义上的失业状态的人数,依照固定比例扩样,得到任一时间点的失业人口数和失业率;
步骤3.1、遍历所有样本,对样本中每个个体每天的出行时空序列数据进行聚类,将其按照内部节点数量大小进行排序;
步骤3.2、对于同一个体,比较其所有出行时空序列的聚类情况,选取主要地块类型为住宅的聚类中,节点数量最多的聚类作为个体的居住地,将其剔除后,选取剩余所有聚类中地块类型为可能工作地(包括商业用地、工厂、住宅、公共服务设施等)中节点数量最多的聚类作为其可能的工作地;
步骤3.3、将个体的就业情况状态分为就业、失业、失业待观察三种,依照个体在时序上每天在可能工作地聚类的节点数与阈值范围threshold_q的关系判断个体的就业情况;
若个体之前处于就业状态,且当天在可能工作地聚类的节点数大于阈值范围threshold_q,则判定个体当天为就业状态;
若个体之前处于就业状态,且当天在可能工作地聚类的节点数小于阈值范围threshold_q,则将个体当天的就业状况改为失业待观察,失业待观察天数为1;
若个体之前处于失业待观察状态,且当天在可能工作地聚类的节点数大于阈值范围threshold_q,则判定个体当天的就业状态为就业,失业待观察天数清零;
若个体之前处于失业待观察状态,且当天在可能工作地聚类的节点数小于阈值范围threshold_q,则判定个体当天的就业状态为失业待观察,失业待观察天数加1,若个体累积的连续失业待观察天数大于阈值threshold_t,则判定个体处于失业状态,将其之前的失业待观察时期改为失业期;
若个体之前处于失业状态和没有就业意愿状态,且当天在可能工作地聚类的节点数大于阈值范围threshold_q,则判定个体当天结束失业状态,重新变成就业状态,记录下其可能工作地的空间位置和地理属性;
若个体之前处于失业状态,且当天在可能工作地聚类的节点数小于阈值范围threshold_q,则将个体仍维持失业状态,失业天数加1,若累积连续失业天数大于90天,则判定该个体为没有就业意愿人口;
在本例中,令threshold_t为5个工作日,个体连续10天的出行时空序列最大可能工作地聚类挖掘结果表13,个体在6月20日的状态为失业待观察,个体从6月14日开始处于失业待观察状态,到6月20日已满5个工作日,因此判定个体在6月14日至6月20日期间为失业状态。
表14个体最大可能工作地聚类结果
DATE LANDTYPE P-NUMBER
2017-06-12(工作日) 办公楼 31
2017-06-13(工作日) 办公楼 30
2017-06-14(工作日) 办公楼 3
2017-06-15(工作日) 商场 2
2017-06-16(工作日)
2017-06-17(周末)
2017-06-18(周末) 住宅 4
2017-06-19(工作日) 公园 2
2017-06-20(工作日) 办公楼 5
步骤4、对个体的日常出行数据进行实时更新,分析监测每个个体的就业/失业状态变化,实现对失业人口的实时监测工作,
步骤4.1、以固定时间间隔向系统上传最新的个体出行记录数据,依照步骤2和步骤3的方法构建每天的个体出行时空序列,并将时空序列聚类得到个体在空间上的主要停留点;
步骤4.2、依照时间顺序遍历每天每个个体的聚类情况,依据以下原则分析在此固定时段内个体每天的就业情况,实时更新个体的就业/失业情况;
原则一、若个体当天的停留点聚类中最大可能工作地停留的节点数低于失业人员在可能工作地停留时间的阈值范围threshold_q,则:
若个体之前处于失业状态,则其当天仍然处于失业状态,若累积失业天数大于90天,则判定为没有就业意愿人口;
若个体之前处于失业待观察状态,则将其待观察天数加1,若待观察天数达到threshold_t,则判定个体之前的threshold_t天均为失业状态;
若个体之前处于就业状态,则当天判定为失业待观察,将其失业观察天数设定为1;
原则二、若个体当天的停留点聚类中最大可能工作地停留的节点数高于失业人员在可能工作地停留时间的阈值范围threshold_q,则将个体当天判定为就业状态;
步骤4.3、更新完所有数据后,统计最新的总的有就业意愿人口和失业人口样本数量,依照固定扩样比例φ,得到当前时间点全局的失业人口和失业率;
在本例中,更新后的当前实时失业率为3.24%,失业人口26.956万;
步骤5、针对判别得到的个体失业/就业情况数据,分时间维度和空间维度以及时间空间综合分析失业人口的时空变化。
步骤5.1、时间维度失业人口与失业率统计,分为实时失业人口和失业率统计,周失业/重新就业人口与平均失业率统计,月失业/重新就业人口与平均失业率统计三部分,采用步骤4完成的个体时序失业/就业状况进行统计分析,得到实时的失业人口Pu,t,以此计算实时失业率Ru,t
Figure GDA0003356297500000221
式中,Pt为实时总人口;对于周失业/重新就业人口统计,先统计一周内出现的新的失业人口Peu,w和在失业状态下重新找到工作的人口Pue,w,则周末失业人口为:
Pu,w=Pu,w-1+Peu,w-Pue,w-Pr,w
式中,Pu,w-1为上一周失业人口统计,Pr,w为因退休或其他原因退出劳动力市场的人口统计;周平均失业率可表示为周中每日失业人口的加和除以周中每日总人口的加和:
Figure GDA0003356297500000222
式中,W表示周;同理,月末失业人口Pu,m可表示为:
Pu,m=Pu,m-1+Peu,m-Pue,m-Pr,m
式中,Pu,m-1为上月失业人口统计,Pr,m为本月因退休或其他原因退出劳动力市场的人口统计,Pue,m为本月失业状态下重新找到工作的人口,Peu,m为本月新出现的失业人口;其月平均失业率Ru,m可表示为:
Figure GDA0003356297500000231
式中,M表示月份;
在本例中,失业人数为35.19万,地区实时失业率为4.23%;周累计新增失业人数1.05万,累计重新就业人数1.11万,累计退出劳动力市场人数0.23万,上周失业人数36.34万,周末净失业人数36.05万,平均失业率4.53%;月累计新增失业人数5.24万,累计重新就业人数7.83万,累计退出劳动力市场人数1.72万,上月失业人数37.34万,月末净失业人数为33.03万,平均失业率为4.07%;
步骤5.2、空间维度失业人口与失业率统计,分为格网失业人口与失业率统计、居村委失业人口与失业率统计和分区失业人口与失业率统计三部分;其中,格网失业人口与失业率统计按照边长为l的正方形将地理空间划分为格网,统计每个格网中实时的失业人口数量Pu,i,t和失业率Ru,i,t
Figure GDA0003356297500000232
式中,Pi,t为格网i中的总人口。同理,居村委的实时失业人数和失业率可表示为:
Figure GDA0003356297500000233
式中,V表示居村委,
Figure GDA0003356297500000234
即为居村委实时失业人数;分区实时失业率可表示为:
Figure GDA0003356297500000235
式中,D表示区,
Figure GDA0003356297500000236
即为区实时失业人数;
在本例中,格网的变长设定为500米,格网In的实时失业人数为28人,失业率为3.03%;居村委Vn的实时失业人数为153人,失业率为4.25%;区Dn的实时失业人数为10.65万人,实时失业率为4.02%;
步骤5.3、时空综合失业人口和失业率分析分为分居住地失业人口与失业率统计和分就业地就业人口变化统计;跨期的分居住地的失业率变化可表示为:
Figure GDA0003356297500000241
式中,t代表时间,
Figure GDA0003356297500000242
Figure GDA0003356297500000243
即为居住地H两期的失业人口数;就业地就业人口变化率可表示为:
Figure GDA0003356297500000244
式中,
Figure GDA0003356297500000245
Figure GDA0003356297500000246
即为工作地F两期的就业人口数。
在本例中,居住地Hn的跨期失业率变化为0.424个百分点,工作地Fn的跨期就业人口变化为0.234个百分点。
本发明的目的是利用移动终端个体在指定时间范围内的空间活动数据集,挖掘大量个体的出行轨迹数据,对其进行二次曲线拟合插值,获得插值点之间时间间隔相等的个体出行时空序列;采用空间聚类方法在个体在空间中的长时间停留点;利用大量状态为失业的个体样本训练出失业状态下个体每天在可能工作地停留的时间阈值以及个体从非正常就业到判断为失业的时间阈值;利用挖掘出来的判断参数识别大量个体出行时空序列,判断其就业/失业状态及其转变过程,以及实时的失业人口统计。为了达到上述目的,本发明提供了一种大数据环境下个体经济活动类型识别的系统。本发明利用通信网络中已有海量匿名移动终端持续的加密位置信息,即能低成本、自动化、便捷地获取指定时间范围内大量人口的出行轨迹,利用样本出行时空序列数据训练失业人口判别阈值,并以此对海量个体的失业/就业状态及其相互转变进行判断和识别;从而实现快速高效地统计地区的失业人口数量及失业在就业状况,实现对失业人口在时间和空间两个维度上的挖掘、处理和统计。

Claims (4)

1.一种基于大数据的失业人口动态监测方法,其特征在于,包括以下步骤:
步骤1、从传感器运营商获取匿名加密移动终端传感器数据,提取个体的出行数据,以此构建个体出行轨迹数据集,以时间T为间隔对个体出行轨迹数据集的空间位置进行插值,构建个体出行时空序列;
步骤2、采用空间聚类算法,对个体出行时空序列数据上的节点进行空间聚类,提取出个体长时间停留的空间聚类簇,以个体在聚类内驻留的时间作为聚类的大小,并将基本地理信息赋予该聚类,人工选择出大量失业人口样本,提取停留时间超过T小时的聚类点,对聚类点进行分析判断,提取出居住地和日常停留地,得到失业人口日常在非居留地的停留状态分布状况,作为失业状态的判断依据,具体包括以下步骤:
步骤2.1、获取由步骤1得到的目标个体每天的个体出行时空序列数据,采用基于DBSCAN的空间聚类方法将个体每天在空间上的停留点聚类出来,获得个体每天可能的居住地和工作地;
步骤2.2、在DBSCAN空间聚类算法的基础上,选择m条先验判定当天为失业人口的个体的个体出行时空序列,设总共有n1个不同个体,对个体出行时空序列进行聚类,获取所有节点数量大于阈值Thr-n的聚类;
步骤2.3、根据聚类内节点数量,对聚类进行排序,提取失业个体聚类特征,包括以下步骤:
步骤2.3.1、选取节点数量最多的聚类,提取该聚类的基础地理信息,若该聚类中最主要的地块类型为住宅,则定义此聚类为居住地,若不是住宅地块,则依聚类大小遍历,直到找到地块类型的居住地的聚类,若该聚类中的节点数量大于n2,将其定义为居住地,若小于n2,则舍弃该个体出行时空序列;
步骤2.3.2、除居住地外,查找所有地块类型可能为工作地的聚类,记录其中规模最大的聚类的节点数;
步骤2.3.3、记录每天规模最大的可能工作地聚类的节点数,对于同一个体,取其在其失业期间最大可能工作地的节点数的中位数,作为判别其是否失业的标准;
步骤2.3.4、根据先验的n1个不同个体的失业期间最大可能工作地的节点数的中位数,统计出失业人员在可能工作地停留时间的中位数和阈值范围threshold_q;
步骤2.4、查找所有状态从正常就业到非正常就业再到正常就业的个体样本,统计其从正常就业再到正常再就业之间的时间,计算其平均值,取其十分之一为连续失业待观察天数阈值threshold_t,若个体连续非正常就业天数小于threshold_t,则其没有失业的概率大于90%,即满足0.1水平显著;
步骤3、基于步骤2获得的失业人口日常在非居留地的停留状态分布状况,判断全样本中每个个体的就业/失业过程和当前状态,从中筛选当前处于统计意义上的失业状态的人数,依照固定比例扩样,得到任一时间点的失业人口数和失业率;
步骤4、对个体的日常出行数据进行实时更新,分析监测每个个体的就业/失业状态变化,实现对失业人口的实时监测工作,
步骤5、针对判别得到的个体失业/就业情况数据,分时间维度和空间维度以及时间空间综合分析失业人口的时空变化。
2.如权利要求1所述的一种基于大数据的失业人口动态监测方法,其特征在于,所述步骤3包括:
步骤3.1、遍历所有样本,对样本中每个个体每天的个体出行时空序列数据进行聚类,将其按照内部节点数量大小进行排序;
步骤3.2、对于同一个体,比较其所有个体出行时空序列的聚类情况,选取地块类型为住宅的聚类中,节点数量最多的聚类作为个体的居住地,将其剔除后,选取剩余所有聚类中地块类型为可能工作地中节点数量最多的聚类作为其可能的工作地;
步骤3.3、将个体的就业情况状态分为就业、失业、失业待观察三种,依照个体在个体出行时空序列上每天在可能工作地聚类的节点数与阈值范围threshold_q的关系判断个体的就业情况:
若个体之前处于就业状态,且当天在可能工作地聚类的节点数大于阈值范围threshold_q,则判定个体当天为就业状态;
若个体之前处于就业状态,且当天在可能工作地聚类的节点数小于阈值范围threshold_q,则将个体当天的就业状况改为失业待观察,失业待观察天数为1;
若个体之前处于失业待观察状态,且当天在可能工作地聚类的节点数大于阈值范围threshold_q,则判定个体当天的就业状态为就业,失业待观察天数清零;
若个体之前处于失业待观察状态,且当天在可能工作地聚类的节点数小于阈值范围threshold_q,则判定个体当天的就业状态为失业待观察,失业待观察天数加1,若个体累积的连续失业待观察天数大于阈值threshold_t,则判定个体处于失业状态,将其之前的失业待观察时期改为失业期;
若个体之前处于失业状态和没有就业意愿状态,且当天在可能工作地聚类的节点数大于阈值范围threshold_q,则判定个体当天结束失业状态,重新变成就业状态,记录下其可能工作地的空间位置和地理属性;
若个体之前处于失业状态,且当天在可能工作地聚类的节点数小于阈值范围threshold_q,则将个体仍维持失业状态,失业天数加1,若累积连续失业天数大于90天,则判定该个体为没有就业意愿人口;
步骤3.4、遍历完所有个体出行时空序列后,针对某一时间节点,统计当时的有就业意愿的总人口和失业人口,依照固定比例
Figure FDA0003356297490000031
从失业人口中剔除没有固定工作地点的从业人员,依照固定扩样比例,得到该时间点全局的失业人口和失业率。
3.如权利要求2所述的一种基于大数据的失业人口动态监测方法,其特征在于,所述步骤4包括:
步骤4.1、以固定时间间隔向系统上传最新的个体出行记录数据,依照步骤2和步骤3的方法构建每天的个体出行时空序列,并将个体出行时空序列聚类得到个体在空间上的停留点;
步骤4.2、依照时间顺序遍历每天每个个体的聚类情况,依据以下判断原则分析在此固定时段内个体每天的就业情况,实时更新个体的就业/失业情况:
原则一、若个体当天的停留点聚类中最大可能工作地停留的节点数低于失业人员在可能工作地停留时间的阈值范围threshold_q,则:
若个体之前处于失业状态,则其当天仍然处于失业状态,若累积失业天数大于90天,则判定为没有就业意愿人口;
若个体之前处于失业待观察状态,则将其待观察天数加1,若待观察天数达到threshold_t,则判定个体之前的threshold_t天均为失业状态;
若个体之前处于就业状态,则当天判定为失业待观察,将其失业观察天数设定为1;
原则二、若个体当天的停留点聚类中最大可能工作地停留的节点数高于失业人员在可能工作地停留时间的阈值范围threshold_q,则将个体当天判定为就业状态;
步骤4.3、更新完所有数据后,统计最新的总的有就业意愿人口和失业人口样本数量,依照固定扩样比例,得到当前时间点全局的失业人口和失业率。
4.如权利要求3所述的一种基于大数据的失业人口动态监测方法,其特征在于,所述步骤5包括以下步骤:
步骤5.1、时间维度失业人口与失业率统计,分为实时失业人口和失业率统计,周失业/重新就业人口与平均失业率统计,月失业/重新就业人口与平均失业率统计三部分,采用步骤4完成的个体时序失业/就业状况进行统计分析,得到实时的失业人口Pu,t,以此计算实时失业率Ru,t
Figure FDA0003356297490000041
式中,Pt为实时总人口;
对于周失业/重新就业人口统计,先统计一周内出现的新的失业人口Peu,w和在失业状态下重新找到工作的人口Pue,w,则周末失业人口为Pu,w
Pu,w=Pu,w-1+Peu,w-Pue,w-Pr,w
式中,Pu,w-1为上一周失业人口统计,Pr,w为因退休或其他原因退出劳动力市场的人口统计;
周平均失业率Ru,w表示为周中每日失业人口的加和除以周中每日总人口的加和:
Figure FDA0003356297490000042
式中,W表示周;
月末失业人口Pu,m表示为:
Pu,m=Pu,m-1+Peu,m-Pue,m-Pr,m
式中,Pu,m-1为上月失业人口统计,Pr,m为本月因退休或其他原因退出劳动力市场的人口统计,Pue,m为本月失业状态下重新找到工作的人口,Peu,m为本月新出现的失业人口;
月平均失业率Ru,m表示为:
Figure FDA0003356297490000051
式中,M表示月份;
步骤5.2、空间维度失业人口与失业率统计,分为格网失业人口与失业率统计、居村委失业人口与失业率统计和分区失业人口与失业率统计三部分,其中,格网失业人口与失业率统计按照边长为l的正方形将地理空间划分为格网,统计每个格网中实时的失业人口数量Pu,i,t和失业率Ru,i,t
Figure FDA0003356297490000052
式中,Pi,t为格网i中的总人口;
居村委的实时失业人数和失业率可表示为:
Figure FDA0003356297490000053
式中,V表示居村委,
Figure FDA0003356297490000054
为居村委实时失业人数;
分区实时失业率表示为:
Figure FDA0003356297490000055
式中,D表示区,
Figure FDA0003356297490000056
为区实时失业人数;
步骤5.3、时空综合失业人口和失业率分析分为分居住地失业人口与失业率统计和分就业地就业人口变化统计,其中,跨期的分居住地的失业率变化表示为:
Figure FDA0003356297490000057
式中,t代表时间,
Figure FDA0003356297490000058
Figure FDA0003356297490000059
即为居住地H两期的失业人口数;
就业地就业人口变化率表示为:
Figure FDA0003356297490000061
式中,
Figure FDA0003356297490000062
Figure FDA0003356297490000063
即为工作地F两期的就业人口数。
CN201810396262.2A 2018-04-27 2018-04-27 一种基于大数据的失业人口动态监测方法 Active CN108733774B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810396262.2A CN108733774B (zh) 2018-04-27 2018-04-27 一种基于大数据的失业人口动态监测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810396262.2A CN108733774B (zh) 2018-04-27 2018-04-27 一种基于大数据的失业人口动态监测方法

Publications (2)

Publication Number Publication Date
CN108733774A CN108733774A (zh) 2018-11-02
CN108733774B true CN108733774B (zh) 2022-04-05

Family

ID=63940056

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810396262.2A Active CN108733774B (zh) 2018-04-27 2018-04-27 一种基于大数据的失业人口动态监测方法

Country Status (1)

Country Link
CN (1) CN108733774B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110059919B (zh) * 2019-03-07 2020-06-12 特斯联(北京)科技有限公司 一种基于大数据的人口异常信息检测方法和系统
CN110162997B (zh) * 2019-04-25 2021-01-01 安徽师范大学 基于插值点的匿名隐私保护方法
CN112633660A (zh) * 2020-12-17 2021-04-09 山大地纬软件股份有限公司 一种多角度的失业风险预警装置及方法
CN113762611B (zh) * 2021-08-30 2024-04-16 青岛海信网络科技股份有限公司 新增就业人数的预测方法及电子设备
CN116957520B (zh) * 2023-09-20 2023-12-26 北京融信数联科技有限公司 一种基于大数据的失业率监测方法、系统和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101877087A (zh) * 2009-04-23 2010-11-03 中国科学院地理科学与资源研究所 基于空间位置的流动人口监测调查系统及方法
CN106096631A (zh) * 2016-06-02 2016-11-09 上海世脉信息科技有限公司 一种基于手机大数据的流动人口分类识别分析方法
CN107133318A (zh) * 2017-05-03 2017-09-05 北京市交通信息中心 一种基于手机信令数据的人口识别方法
CN107330085A (zh) * 2017-07-03 2017-11-07 上海世脉信息科技有限公司 大数据环境下固定传感器错误位置的判断识别和矫正方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120050048A1 (en) * 2010-08-30 2012-03-01 Johnston Sandra Child Locator

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101877087A (zh) * 2009-04-23 2010-11-03 中国科学院地理科学与资源研究所 基于空间位置的流动人口监测调查系统及方法
CN106096631A (zh) * 2016-06-02 2016-11-09 上海世脉信息科技有限公司 一种基于手机大数据的流动人口分类识别分析方法
CN107133318A (zh) * 2017-05-03 2017-09-05 北京市交通信息中心 一种基于手机信令数据的人口识别方法
CN107330085A (zh) * 2017-07-03 2017-11-07 上海世脉信息科技有限公司 大数据环境下固定传感器错误位置的判断识别和矫正方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
大数据背景下中国季度失业率的测算研究;董恒新;《中国优秀硕士学位论文全文数据库 经济与管理科学辑(月刊)》;20170615(第06期);第[1]-[4]章 *

Also Published As

Publication number Publication date
CN108733774A (zh) 2018-11-02

Similar Documents

Publication Publication Date Title
CN108733774B (zh) 一种基于大数据的失业人口动态监测方法
Xu et al. Another tale of two cities: Understanding human activity space using actively tracked cellphone location data
Yabe et al. Effects of income inequality on evacuation, reentry and segregation after disasters
Gao et al. Discovering spatial interaction communities from mobile phone d ata
CN107977673B (zh) 一种基于大数据的经济活动人口识别方法
US8620624B2 (en) Event identification in sensor analytics
Domínguez et al. Sensing the city with Instagram: Clustering geolocated data for outlier detection
EP3132592B1 (en) Method and system for identifying significant locations through data obtainable from a telecommunication network
US8838134B2 (en) Method and computer programs for the construction of communting matrices using call detail records and a use for providing user's mobility information
CN111582948A (zh) 一种基于手机信令数据与poi兴趣点的个体行为分析方法
Greger Spatio‐Temporal Building Population Estimation for Highly Urbanized Areas Using GIS
Demissie et al. Analysis of the pattern and intensity of urban activities through aggregate cellphone usage
Kalogianni et al. Passive WiFi monitoring of the rhythm of the campus
Shi et al. Analysis of trip generation rates in residential commuting based on mobile phone signaling data
Sadeghinasr et al. Estimating commuting patterns from high resolution phone GPS data
Rodrigues et al. Measuring mobility inequalities of favela residents based on mobile phone data
Bulygin et al. A new approach to clustering districts and connections between them based on cellular operator data
Dai et al. Postearthquake situational awareness based on mobile phone signaling data: An example from the 2017 Jiuzhaigou earthquake
Sinnott et al. Estimating micro-populations through social media analytics
Tsumura et al. Examining potentials and practical constraints of mobile phone data for improving transport planning in developing countries
Li et al. Detecting individual internal displacements following a sudden-onset disaster using time series analysis of call detail records
Aung et al. Identification and classification of land use types in yangon city by using mobile call detail records (cdrs) data
Pierdicca et al. Identifying the use of a park based on clusters of visitors' movements from mobile phone data
CN111242723B (zh) 用户子女情况判断方法、服务器及计算机可读存储介质
Luckner et al. Estimating population density without contravening citizen’s privacy: Warsaw use case

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant