CN109948723A - 一种手机用户中通勤人口的识别方法 - Google Patents

一种手机用户中通勤人口的识别方法 Download PDF

Info

Publication number
CN109948723A
CN109948723A CN201910241614.1A CN201910241614A CN109948723A CN 109948723 A CN109948723 A CN 109948723A CN 201910241614 A CN201910241614 A CN 201910241614A CN 109948723 A CN109948723 A CN 109948723A
Authority
CN
China
Prior art keywords
mobile phone
feature
phone user
candidate feature
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910241614.1A
Other languages
English (en)
Inventor
雷方舒
赵祥
孙建平
温慧敏
郭继孚
徐春玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Traffic Development Research Institute
Original Assignee
Beijing Traffic Development Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Traffic Development Research Institute filed Critical Beijing Traffic Development Research Institute
Priority to CN201910241614.1A priority Critical patent/CN109948723A/zh
Publication of CN109948723A publication Critical patent/CN109948723A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开的手机用户中通勤人口的识别方法,涉及大数据技术领域,根据通勤出行的特点,获取各个手机用户通勤出行的多个候选特征,利用熵权法,分别计算各个候选特征的熵权值并根据所述熵权值及设定的各个候选特征的权重,分别计算各个候选特征的综合权重,根据所述综合权重及TOPSS打分法,分别为各个手机用户的候选特征评分,获得各个手机用户的候选特征分值,利用K‑Means聚类算法,对各个手机用户的候选特征分值进行聚类,根据聚类结果,识别通勤人口,提高了对对通勤人口识别的精度。

Description

一种手机用户中通勤人口的识别方法
技术领域
本发明涉及大数据技术领域,具体涉及一种手机用户中通勤人口的识别方法。
背景技术
通勤出行是指以上下班、上下学为目的的出行,具有时空规律性强、刚性大的特点,是城市交通管理服务的主要对象,通勤出行量大、出行距离长是造成早晚高峰拥堵的主要原因之一。准确把握通勤出行规律和特征,对于缓解城市病和交通病问题起到至关重要的作用。
传统的数据资源与技术难以准确地定位通勤人口、识别并长时间追踪通勤出行。随着大数据时代的到来,数据资源日益丰富,分析技术日趋完备,伪码信令数据具有样本量大、可持续追踪的特点,可应用于交通特征的量化分析,为准确的定位规律出行的通勤人口提供了可能。
但目前对大数据的应用刚刚兴起,大数据处理与分析技术仍处于发展阶段,对与通勤人口及出行的识别尚且停留在简单、粗糙的“阈值法”上,即以给定指标阈值划分通勤人口的方法体系。例如,现阶段基于伪码信令数据识别通勤人口的常用方法是:以白天驻留地为用户的工作地,夜间驻留地为用户的居住地,则设定10天以上往返于相同居住地与工作地之间的用户为通勤人口。这类方法的缺点在于:由于设定的阈值的主观性强且选取通勤特征指标单一,导致识别准确度难以保证,对于阈值附近的用户如何划分难以给出理论依据,“一刀切”的方法将大大降低识别精度。
发明内容
为解决现有技术的不足,本发明实施例提供了一种手机用户中通勤人口的识别方法,该方法包括以下步骤:
根据通勤出行的特点,获取各个手机用户通勤出行的多个候选特征,其中,所述多个候选特征包括时间、空间及频次;
利用熵权法,分别计算各个候选特征的熵权值并根据所述熵权值及设定的各个候选特征的权重,分别计算各个候选特征的综合权重;
根据所述综合权重及TOPSS打分法,分别为各个手机用户的候选特征评分,获得各个手机用户的候选特征分值;
利用K-Means聚类算法,对各个手机用户的候选特征分值进行聚类,根据聚类结果,识别通勤人口。
进一步地,利用熵权法,分别计算各个候选特征的熵权值并根据所述熵权值及设定的各个候选特征的权重,分别计算各个候选特征的综合权重包括:
统计各个手机用户的通勤出行候选特征,形成候选特征矩阵:
其中,nij为第i个手机用户的第j个候选特征,i=a,b...m为各个手机用户,j=1…q为候选特征的数量;
根据公式计算各候选特征下各个手机用户的比重pij,其中,pij为第i个手机用户第j个候选特征的比重;
根据公式计算各个候选特征的熵权值ej,其中,k=1/lnm;
根据公式计算第j个候选特征的熵权值wj
根据公式计算各个候选特征的综合权重,其中,αj为人为设定的各个候选特征对通勤表征的权重。
进一步地,为各个手机用户的候选特征评分包括:根据公式对候选特征矩阵进行规范化,得到规范矩阵其中,i=a,b...m,j=1…q;
通过公式得到加权特征矩阵,其中,Nij为加权特征矩阵,βj为各个候选特征的综合权重;
根据公式计算各候选特征的正理想解,根据公式计算各个候选特征的负理想解,其中,I1为效益型指标,I2为成本型指标;
根据公式计算各个手机用户与正理想解之间的距离,根据公式计算各个手机用户与负理想解之间的距离;
根据公式计算各个手机用户的候选特征的评分,分值越高,则通勤属性越显著;其中,为候选特征分值。
进一步地,利用K-Means聚类算法,对各个手机用户的候选特征分值进行聚类,根据聚类结果,识别通勤人口包括:
利用K-means聚类算法,对各个手机用户的候选特征分值进行聚类,得到典型通勤特征用户组、模糊通勤特征用户组和无通勤特征用户组并确认典型通勤特征用户组为通勤人口,其中,典型通勤特征组为候选特征分值最高的组。
本发明实施例提供的手机用户中通勤人口的识别方法具有以下
有益效果:
(1)综合多个通勤特征指进行通勤人口的判别,避免了单一指标的局限性;
(2)根据TOPSS打分法为各个候选特征评分,避免了简单通过指标阈值划分通勤人口的粗糙性,避免了阈值选取的困难性,提高了对通勤人口识别的精度;
(3)根据熵权法与主观权重相结合的方法来确定各通勤指标的综合权重,避免了单一因素所确定权重的片面性。
附图说明
图1为本发明实施例提供的手机用户中通勤人口的识别方法的流程示意图;
图2为全部用户24小时出行量分布图;
图3为通勤人口24小时出行量分布图。
具体实施方式
以下结合附图和具体实施例对本发明作具体的介绍。
如图1所示,本发明实施例提供的手机用户中通勤人口的识别方法包括以下步骤:
S101,根据通勤出行的特点,获取各个手机用户通勤出行的多个候选特征,其中,所述多个候选特征包括时间、空间及频次。
作为一个具体的实施例,通勤出行具有聚集性:
以北京市为例,通勤出行一般集中于早高峰7:00-9:00、晚高峰17:00-19:00。基于此,选取7:00-9:00及17:00-19:00的时间段为通勤出行的候选特征;
通勤出行具有往返性:
对于北京等大城市来说,通常为1次往返,即早高峰一次出行起点为家,终点为单位;晚高峰一次出行起点为单位,终点为家。基于此,选取日大于或等于2次的出行为通勤出行的候选特征;
空间包括:日间驻留地(工作地)和夜间驻留地(居住地)。
其中,通勤人口日间驻留于相同空间位置(工作地),夜间驻留地(居住地),夜间返回居住地,基于此,选取日间驻留地(工作地)和夜间驻留地(居住地)为通勤出行的候选特征。
S102,利用熵权法,分别计算各个候选特征的熵权值并根据所述熵权值及设定的各个候选特征的权重,分别计算各个候选特征的综合权重。
其中,对于权重值的设定,一方面需要考虑主观因素,即专家打分结果;另一方面,需要分析各指标值自身的特征。
S103,根据所述综合权重及TOPSS打分法,分别为各个手机用户的候选特征评分,获得各个手机用户的候选特征分值。
S104,利用K-Means聚类算法,对各个手机用户的候选特征分值进行聚类,根据聚类结果,识别通勤人口。
可选地,利用熵权法,分别计算各个候选特征的熵权值并根据所述熵权值及设定的各个候选特征的权重,分别计算各个候选特征的综合权重包括:
统计各个手机用户的通勤出行候选特征,形成候选特征矩阵:
其中,nij为第i个手机用户的第j个候选特征,i=a,b...m为各个手机用户,j=1…q为候选特征的数量;
根据公式计算各候选特征下各个手机用户的比重pij,其中,pij为第i个手机用户第j个候选特征的比重;
根据公式计算各个候选特征的熵权值ej,其中,k=1/lnm;
根据公式计算第j个候选特征的熵权值wj
根据公式计算各个候选特征的综合权重,其中,αj为人为设定的各个候选特征的权重。
作为一个具体的实施例,将候选特征为7:00-9:00及17:00-19:00的时间段、日大于或等于2次的出行、日间驻留地(工作地)、夜间驻留地(居住地)的权重分别设为a1=0.3,a2=0.3,a3=0.2,a4=0.2。
可选地,为各个手机用户的候选特征评分包括:根据公式对候选特征矩阵进行规范化,得到规范矩阵其中,i=a,b...m,j=1…q;
通过公式得到加权特征矩阵,其中,Nij为加权特征矩阵,βj为各个候选特征的综合权重;
根据公式计算各候选特征的正理想解,根据公式计算各个候选特征的负理想解,其中,I1为效益型指标,I2为成本型指标;
根据公式计算各个手机用户与正理想解之间的距离,根据公式计算各个手机用户与负理想解之间的距离;
根据公式计算各个手机用户的候选特征的评分,分值越高,则通勤属性越显著;其中,ri *为候选特征分值。
可选地,利用K-Means聚类算法,对各个手机用户的候选特征分值进行聚类,根据聚类结果,识别通勤人口包括:
利用K-means聚类算法,对各个手机用户的候选特征分值进行聚类,得到典型通勤特征用户组、模糊通勤特征用户组和无通勤特征用户组并确认典型通勤特征用户组为通勤人口,其中,典型通勤特征组为候选特征分值最高的组。
作为一个具体的实施例,对北京市联通用户的数据进行通勤人口的识别的结果:聚类得到3个通勤特征类,这3个通勤特征类的平均评分分别为0.17、0.4及0.62,则确认评分为0.62的通勤特征类为典型通勤特征用户组,将具有通勤特征类的用户视为通勤人口。
作为一个具体的实施例,如表1所示,将采用本发明实施例提供的手机用户中通勤人口的识别方法得到的结果与与综合交通调查对比:
表1
参数 识别通勤出行 综合交通调查 差异
通勤距离 9.6km 10km 4%
其中,通勤距离为通勤人口的日间驻留地(工作地)、夜间驻留地(居住地)之间的距离,采用本发明提供的手机用户中识别通勤人口的识别方法识别的通勤出行特征指标与综合交通调查相比,所反映出行距离等通勤出行特征相差不大,表明本发明提供的手机用户中通勤人口的识别方法的识别准确度较高。
如图2所示,通勤人口往返于职住地之间的出行则为通勤出行,识别的通勤出行24小时出行量分布。
如图3所示,通勤出行分布具有更为显著的早晚高峰特征,且不同日期的出行波动性更小,符合通勤出行长期、恒定的特征,合理性显著。
本发明实施例提供的手机用户中通勤人口的识别方法,根据通勤出行的特点,获取各个手机用户通勤出行的多个候选特征,利用熵权法,分别计算各个候选特征的熵权值并根据所述熵权值及设定的各个候选特征的权重,分别计算各个候选特征的综合权重,根据所述综合权重及TOPSS打分法,分别为各个手机用户的候选特征评分,获得各个手机用户的候选特征分值,利用K-Means聚类算法,对各个手机用户的候选特征分值进行聚类,根据聚类结果,识别通勤人口,提高了对对通勤人口识别的精度。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (4)

1.一种手机用户中通勤人口的识别方法,其特征在于,包括如下步骤:
根据通勤出行的特点,获取各个手机用户通勤出行的多个候选特征,其中,所述多个候选特征包括时间、空间及频次;
利用熵权法,分别计算各个候选特征的熵权值并根据所述熵权值及设定的各个候选特征的权重,分别计算各个候选特征的综合权重;
根据所述综合权重及TOPSS打分法,分别为各个手机用户的候选特征评分,获得各个手机用户的候选特征分值;
利用K-Means聚类算法,对各个手机用户的候选特征分值进行聚类,根据聚类结果,识别通勤人口。
2.根据权利要求1所述的手机用户中通勤人口的识别方法,其特征在于,利用熵权法,分别计算各个候选特征的熵权值并根据所述熵权值及设定的各个候选特征的权重,分别计算各个候选特征的综合权重包括:
统计各个手机用户的通勤出行候选特征,形成候选特征矩阵:
其中,nij为第i个手机用户的第j个候选特征,i=a,b...m为各个手机用户,j=1…q为候选特征的数量;
根据公式计算各候选特征下各个手机用户的比重pij,其中,pij为第i个手机用户第j个候选特征的比重;
根据公式计算各个候选特征的熵权值ej,其中,k=1/lnm;
根据公式计算第j个候选特征的熵权值wj
根据公式计算各个候选特征的综合权重,其中,αj为人为设定的各个候选特征对通勤表征的权重。
3.根据权利要求1所述的手机用户中通勤人口的识别方法,其特征在于,为各个手机用户的候选特征评分包括:根据公式对候选特征矩阵进行规范化,得到规范矩阵其中,i=a,b...m,j=1…q;
通过公式得到加权特征矩阵,其中,Nij为加权特征矩阵,βj为各个候选特征的综合权重;
根据公式计算各候选特征的正理想解,根据公式计算各个候选特征的负理想解,其中,I1为效益型指标,I2为成本型指标;
根据公式计算各个手机用户与正理想解之间的距离,根据公式计算各个手机用户与负理想解之间的距离;
根据公式计算各个手机用户的候选特征的评分,分值越高,则通勤属性越显著;其中,ri *为候选特征分值。
4.根据权利要求1所述的手机用户中通勤人口的识别方法,其特征在于,利用K-Means聚类算法,对各个手机用户的候选特征分值进行聚类,根据聚类结果,识别通勤人口包括:
利用K-means聚类算法,对各个手机用户的候选特征分值进行聚类,得到典型通勤特征用户组、模糊通勤特征用户组和无通勤特征用户组并确认典型通勤特征用户组为通勤人口,其中,典型通勤特征组为候选特征分值最高的组。
CN201910241614.1A 2019-03-28 2019-03-28 一种手机用户中通勤人口的识别方法 Pending CN109948723A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910241614.1A CN109948723A (zh) 2019-03-28 2019-03-28 一种手机用户中通勤人口的识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910241614.1A CN109948723A (zh) 2019-03-28 2019-03-28 一种手机用户中通勤人口的识别方法

Publications (1)

Publication Number Publication Date
CN109948723A true CN109948723A (zh) 2019-06-28

Family

ID=67012145

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910241614.1A Pending CN109948723A (zh) 2019-03-28 2019-03-28 一种手机用户中通勤人口的识别方法

Country Status (1)

Country Link
CN (1) CN109948723A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110765351A (zh) * 2019-10-11 2020-02-07 卓尔智联(武汉)研究院有限公司 目标用户识别方法、装置、计算机设备和存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000078018A1 (en) * 1999-06-14 2000-12-21 Wilshire Cellular, Inc. Method and apparatus for communicating via virtual office telephone extensions
CN102768737A (zh) * 2012-07-06 2012-11-07 西北工业大学 一种考虑机器多维特征属性的作业车间瓶颈识别方法
CN103577888A (zh) * 2013-09-05 2014-02-12 西安电子科技大学 一种改进的熵权层次分析法及其应用
CN105701180A (zh) * 2016-01-06 2016-06-22 北京航空航天大学 一种基于公交ic卡数据的通勤乘客特征提取及判定方法
CN106202872A (zh) * 2016-06-27 2016-12-07 江苏迪纳数字科技股份有限公司 机动车辆驾驶行为评分方法
CN106600077A (zh) * 2017-01-11 2017-04-26 重庆大学 一种模糊topsis评价方法
CN108717790A (zh) * 2018-07-06 2018-10-30 广州市交通运输研究所 一种基于卡口车牌识别数据的车辆出行分析方法
CN109191189A (zh) * 2018-08-20 2019-01-11 国网河南省电力公司经济技术研究院 售电市场放开下电力客户价值评价方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000078018A1 (en) * 1999-06-14 2000-12-21 Wilshire Cellular, Inc. Method and apparatus for communicating via virtual office telephone extensions
CN102768737A (zh) * 2012-07-06 2012-11-07 西北工业大学 一种考虑机器多维特征属性的作业车间瓶颈识别方法
CN103577888A (zh) * 2013-09-05 2014-02-12 西安电子科技大学 一种改进的熵权层次分析法及其应用
CN105701180A (zh) * 2016-01-06 2016-06-22 北京航空航天大学 一种基于公交ic卡数据的通勤乘客特征提取及判定方法
CN106202872A (zh) * 2016-06-27 2016-12-07 江苏迪纳数字科技股份有限公司 机动车辆驾驶行为评分方法
CN106600077A (zh) * 2017-01-11 2017-04-26 重庆大学 一种模糊topsis评价方法
CN108717790A (zh) * 2018-07-06 2018-10-30 广州市交通运输研究所 一种基于卡口车牌识别数据的车辆出行分析方法
CN109191189A (zh) * 2018-08-20 2019-01-11 国网河南省电力公司经济技术研究院 售电市场放开下电力客户价值评价方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
董路熙: "基于手机数据的城市出行需求时空分布方法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110765351A (zh) * 2019-10-11 2020-02-07 卓尔智联(武汉)研究院有限公司 目标用户识别方法、装置、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
WO2020238631A1 (zh) 一种基于手机信令数据的人群类型识别方法
Zhang et al. An improved spatial error model for the mass appraisal of commercial real estate based on spatial analysis: Shenzhen as a case study
CN105307121B (zh) 一种信息处理方法及装置
CN108288106A (zh) 一种基于大数据的旅游客流预测方法
CN103345512A (zh) 一种基于用户属性的网络广告点击率预测方法和装置
CN109408712A (zh) 一种旅行社用户多维信息画像的构建方法
CN109446186A (zh) 一种基于移动轨迹的社会关系判断方法
CN112966899B (zh) 一种影响人口密度的城市公共服务设施建设决策方法
CN107317872B (zh) 一种空间众包中多类型任务的调度方法
CN110119948A (zh) 基于时变权重动态组合的电力用户信用评价方法及系统
CN109101559A (zh) 一种基于poi和公交刷卡数据的城市功能区识别方法
CN107578277A (zh) 用于电力营销的出租房客户定位方法
CN106295969A (zh) 电力客户价值分群的一种加权K‑means方法
Bi et al. How built environment impacts online car-hailing ridership
CN108898244B (zh) 一种耦合多源要素的数字标牌位置推荐方法
CN108399553A (zh) 一种考虑地理和线路从属关系的用户特征标签设定方法
CN109948723A (zh) 一种手机用户中通勤人口的识别方法
CN111985576B (zh) 基于决策树的店铺选址方法
CN112785156A (zh) 一种基于聚类与综合评价的产业领袖识别方法
CN106446194A (zh) 一种地理区域的采集参数确定方法及装置
CN110175199A (zh) 基于k均值聚类算法的能源企业关键用户识别分析方法
CN108133296B (zh) 基于活动的社交网络下的一种结合环境数据的活动出席预测方法
CN109064353A (zh) 一种基于改进聚类融合的大型建筑用户行为分析方法
CN112926809B (zh) 一种基于聚类和改进的xgboost的航班流量预测方法及系统
CN108647189A (zh) 一种识别用户人群属性的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination