CN109948723A - 一种手机用户中通勤人口的识别方法 - Google Patents
一种手机用户中通勤人口的识别方法 Download PDFInfo
- Publication number
- CN109948723A CN109948723A CN201910241614.1A CN201910241614A CN109948723A CN 109948723 A CN109948723 A CN 109948723A CN 201910241614 A CN201910241614 A CN 201910241614A CN 109948723 A CN109948723 A CN 109948723A
- Authority
- CN
- China
- Prior art keywords
- candidate
- mobile phone
- phone user
- commuting
- characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000003064 k means clustering Methods 0.000 claims abstract description 11
- 239000011159 matrix material Substances 0.000 claims description 15
- 239000002131 composite material Substances 0.000 claims description 6
- 230000008901 benefit Effects 0.000 claims description 4
- 238000013077 scoring method Methods 0.000 claims description 4
- 230000005484 gravity Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000011664 signaling Effects 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
Landscapes
- Mobile Radio Communication Systems (AREA)
Abstract
本发明公开的手机用户中通勤人口的识别方法,涉及大数据技术领域,根据通勤出行的特点,获取各个手机用户通勤出行的多个候选特征,利用熵权法,分别计算各个候选特征的熵权值并根据所述熵权值及设定的各个候选特征的权重,分别计算各个候选特征的综合权重,根据所述综合权重及TOPSS打分法,分别为各个手机用户的候选特征评分,获得各个手机用户的候选特征分值,利用K‑Means聚类算法,对各个手机用户的候选特征分值进行聚类,根据聚类结果,识别通勤人口,提高了对对通勤人口识别的精度。
Description
技术领域
本发明涉及大数据技术领域,具体涉及一种手机用户中通勤人口的识别方法。
背景技术
通勤出行是指以上下班、上下学为目的的出行,具有时空规律性强、刚性大的特点,是城市交通管理服务的主要对象,通勤出行量大、出行距离长是造成早晚高峰拥堵的主要原因之一。准确把握通勤出行规律和特征,对于缓解城市病和交通病问题起到至关重要的作用。
传统的数据资源与技术难以准确地定位通勤人口、识别并长时间追踪通勤出行。随着大数据时代的到来,数据资源日益丰富,分析技术日趋完备,伪码信令数据具有样本量大、可持续追踪的特点,可应用于交通特征的量化分析,为准确的定位规律出行的通勤人口提供了可能。
但目前对大数据的应用刚刚兴起,大数据处理与分析技术仍处于发展阶段,对与通勤人口及出行的识别尚且停留在简单、粗糙的“阈值法”上,即以给定指标阈值划分通勤人口的方法体系。例如,现阶段基于伪码信令数据识别通勤人口的常用方法是:以白天驻留地为用户的工作地,夜间驻留地为用户的居住地,则设定10天以上往返于相同居住地与工作地之间的用户为通勤人口。这类方法的缺点在于:由于设定的阈值的主观性强且选取通勤特征指标单一,导致识别准确度难以保证,对于阈值附近的用户如何划分难以给出理论依据,“一刀切”的方法将大大降低识别精度。
发明内容
为解决现有技术的不足,本发明实施例提供了一种手机用户中通勤人口的识别方法,该方法包括以下步骤:
根据通勤出行的特点,获取各个手机用户通勤出行的多个候选特征,其中,所述多个候选特征包括时间、空间及频次;
利用熵权法,分别计算各个候选特征的熵权值并根据所述熵权值及设定的各个候选特征的权重,分别计算各个候选特征的综合权重;
根据所述综合权重及TOPSS打分法,分别为各个手机用户的候选特征评分,获得各个手机用户的候选特征分值;
利用K-Means聚类算法,对各个手机用户的候选特征分值进行聚类,根据聚类结果,识别通勤人口。
进一步地,利用熵权法,分别计算各个候选特征的熵权值并根据所述熵权值及设定的各个候选特征的权重,分别计算各个候选特征的综合权重包括:
统计各个手机用户的通勤出行候选特征,形成候选特征矩阵:
其中,nij为第i个手机用户的第j个候选特征,i=a,b...m为各个手机用户,j=1…q为候选特征的数量;
根据公式计算各候选特征下各个手机用户的比重pij,其中,pij为第i个手机用户第j个候选特征的比重;
根据公式计算各个候选特征的熵权值ej,其中,k=1/lnm;
根据公式计算第j个候选特征的熵权值wj;
根据公式计算各个候选特征的综合权重,其中,αj为人为设定的各个候选特征对通勤表征的权重。
进一步地,为各个手机用户的候选特征评分包括:根据公式对候选特征矩阵进行规范化,得到规范矩阵其中,i=a,b...m,j=1…q;
通过公式得到加权特征矩阵,其中,Nij为加权特征矩阵,βj为各个候选特征的综合权重;
根据公式计算各候选特征的正理想解,根据公式计算各个候选特征的负理想解,其中,I1为效益型指标,I2为成本型指标;
根据公式计算各个手机用户与正理想解之间的距离,根据公式计算各个手机用户与负理想解之间的距离;
根据公式计算各个手机用户的候选特征的评分,分值越高,则通勤属性越显著;其中,为候选特征分值。
进一步地,利用K-Means聚类算法,对各个手机用户的候选特征分值进行聚类,根据聚类结果,识别通勤人口包括:
利用K-means聚类算法,对各个手机用户的候选特征分值进行聚类,得到典型通勤特征用户组、模糊通勤特征用户组和无通勤特征用户组并确认典型通勤特征用户组为通勤人口,其中,典型通勤特征组为候选特征分值最高的组。
本发明实施例提供的手机用户中通勤人口的识别方法具有以下
有益效果:
(1)综合多个通勤特征指进行通勤人口的判别,避免了单一指标的局限性;
(2)根据TOPSS打分法为各个候选特征评分,避免了简单通过指标阈值划分通勤人口的粗糙性,避免了阈值选取的困难性,提高了对通勤人口识别的精度;
(3)根据熵权法与主观权重相结合的方法来确定各通勤指标的综合权重,避免了单一因素所确定权重的片面性。
附图说明
图1为本发明实施例提供的手机用户中通勤人口的识别方法的流程示意图;
图2为全部用户24小时出行量分布图;
图3为通勤人口24小时出行量分布图。
具体实施方式
以下结合附图和具体实施例对本发明作具体的介绍。
如图1所示,本发明实施例提供的手机用户中通勤人口的识别方法包括以下步骤:
S101,根据通勤出行的特点,获取各个手机用户通勤出行的多个候选特征,其中,所述多个候选特征包括时间、空间及频次。
作为一个具体的实施例,通勤出行具有聚集性:
以北京市为例,通勤出行一般集中于早高峰7:00-9:00、晚高峰17:00-19:00。基于此,选取7:00-9:00及17:00-19:00的时间段为通勤出行的候选特征;
通勤出行具有往返性:
对于北京等大城市来说,通常为1次往返,即早高峰一次出行起点为家,终点为单位;晚高峰一次出行起点为单位,终点为家。基于此,选取日大于或等于2次的出行为通勤出行的候选特征;
空间包括:日间驻留地(工作地)和夜间驻留地(居住地)。
其中,通勤人口日间驻留于相同空间位置(工作地),夜间驻留地(居住地),夜间返回居住地,基于此,选取日间驻留地(工作地)和夜间驻留地(居住地)为通勤出行的候选特征。
S102,利用熵权法,分别计算各个候选特征的熵权值并根据所述熵权值及设定的各个候选特征的权重,分别计算各个候选特征的综合权重。
其中,对于权重值的设定,一方面需要考虑主观因素,即专家打分结果;另一方面,需要分析各指标值自身的特征。
S103,根据所述综合权重及TOPSS打分法,分别为各个手机用户的候选特征评分,获得各个手机用户的候选特征分值。
S104,利用K-Means聚类算法,对各个手机用户的候选特征分值进行聚类,根据聚类结果,识别通勤人口。
可选地,利用熵权法,分别计算各个候选特征的熵权值并根据所述熵权值及设定的各个候选特征的权重,分别计算各个候选特征的综合权重包括:
统计各个手机用户的通勤出行候选特征,形成候选特征矩阵:
其中,nij为第i个手机用户的第j个候选特征,i=a,b...m为各个手机用户,j=1…q为候选特征的数量;
根据公式计算各候选特征下各个手机用户的比重pij,其中,pij为第i个手机用户第j个候选特征的比重;
根据公式计算各个候选特征的熵权值ej,其中,k=1/lnm;
根据公式计算第j个候选特征的熵权值wj;
根据公式计算各个候选特征的综合权重,其中,αj为人为设定的各个候选特征的权重。
作为一个具体的实施例,将候选特征为7:00-9:00及17:00-19:00的时间段、日大于或等于2次的出行、日间驻留地(工作地)、夜间驻留地(居住地)的权重分别设为a1=0.3,a2=0.3,a3=0.2,a4=0.2。
可选地,为各个手机用户的候选特征评分包括:根据公式对候选特征矩阵进行规范化,得到规范矩阵其中,i=a,b...m,j=1…q;
通过公式得到加权特征矩阵,其中,Nij为加权特征矩阵,βj为各个候选特征的综合权重;
根据公式计算各候选特征的正理想解,根据公式计算各个候选特征的负理想解,其中,I1为效益型指标,I2为成本型指标;
根据公式计算各个手机用户与正理想解之间的距离,根据公式计算各个手机用户与负理想解之间的距离;
根据公式计算各个手机用户的候选特征的评分,分值越高,则通勤属性越显著;其中,ri *为候选特征分值。
可选地,利用K-Means聚类算法,对各个手机用户的候选特征分值进行聚类,根据聚类结果,识别通勤人口包括:
利用K-means聚类算法,对各个手机用户的候选特征分值进行聚类,得到典型通勤特征用户组、模糊通勤特征用户组和无通勤特征用户组并确认典型通勤特征用户组为通勤人口,其中,典型通勤特征组为候选特征分值最高的组。
作为一个具体的实施例,对北京市联通用户的数据进行通勤人口的识别的结果:聚类得到3个通勤特征类,这3个通勤特征类的平均评分分别为0.17、0.4及0.62,则确认评分为0.62的通勤特征类为典型通勤特征用户组,将具有通勤特征类的用户视为通勤人口。
作为一个具体的实施例,如表1所示,将采用本发明实施例提供的手机用户中通勤人口的识别方法得到的结果与与综合交通调查对比:
表1
参数 | 识别通勤出行 | 综合交通调查 | 差异 |
通勤距离 | 9.6km | 10km | 4% |
其中,通勤距离为通勤人口的日间驻留地(工作地)、夜间驻留地(居住地)之间的距离,采用本发明提供的手机用户中识别通勤人口的识别方法识别的通勤出行特征指标与综合交通调查相比,所反映出行距离等通勤出行特征相差不大,表明本发明提供的手机用户中通勤人口的识别方法的识别准确度较高。
如图2所示,通勤人口往返于职住地之间的出行则为通勤出行,识别的通勤出行24小时出行量分布。
如图3所示,通勤出行分布具有更为显著的早晚高峰特征,且不同日期的出行波动性更小,符合通勤出行长期、恒定的特征,合理性显著。
本发明实施例提供的手机用户中通勤人口的识别方法,根据通勤出行的特点,获取各个手机用户通勤出行的多个候选特征,利用熵权法,分别计算各个候选特征的熵权值并根据所述熵权值及设定的各个候选特征的权重,分别计算各个候选特征的综合权重,根据所述综合权重及TOPSS打分法,分别为各个手机用户的候选特征评分,获得各个手机用户的候选特征分值,利用K-Means聚类算法,对各个手机用户的候选特征分值进行聚类,根据聚类结果,识别通勤人口,提高了对对通勤人口识别的精度。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (4)
1.一种手机用户中通勤人口的识别方法,其特征在于,包括如下步骤:
根据通勤出行的特点,获取各个手机用户通勤出行的多个候选特征,其中,所述多个候选特征包括时间、空间及频次;
利用熵权法,分别计算各个候选特征的熵权值并根据所述熵权值及设定的各个候选特征的权重,分别计算各个候选特征的综合权重;
根据所述综合权重及TOPSS打分法,分别为各个手机用户的候选特征评分,获得各个手机用户的候选特征分值;
利用K-Means聚类算法,对各个手机用户的候选特征分值进行聚类,根据聚类结果,识别通勤人口。
2.根据权利要求1所述的手机用户中通勤人口的识别方法,其特征在于,利用熵权法,分别计算各个候选特征的熵权值并根据所述熵权值及设定的各个候选特征的权重,分别计算各个候选特征的综合权重包括:
统计各个手机用户的通勤出行候选特征,形成候选特征矩阵:
其中,nij为第i个手机用户的第j个候选特征,i=a,b...m为各个手机用户,j=1…q为候选特征的数量;
根据公式计算各候选特征下各个手机用户的比重pij,其中,pij为第i个手机用户第j个候选特征的比重;
根据公式计算各个候选特征的熵权值ej,其中,k=1/lnm;
根据公式计算第j个候选特征的熵权值wj;
根据公式计算各个候选特征的综合权重,其中,αj为人为设定的各个候选特征对通勤表征的权重。
3.根据权利要求1所述的手机用户中通勤人口的识别方法,其特征在于,为各个手机用户的候选特征评分包括:根据公式对候选特征矩阵进行规范化,得到规范矩阵其中,i=a,b...m,j=1…q;
通过公式得到加权特征矩阵,其中,Nij为加权特征矩阵,βj为各个候选特征的综合权重;
根据公式计算各候选特征的正理想解,根据公式计算各个候选特征的负理想解,其中,I1为效益型指标,I2为成本型指标;
根据公式计算各个手机用户与正理想解之间的距离,根据公式计算各个手机用户与负理想解之间的距离;
根据公式计算各个手机用户的候选特征的评分,分值越高,则通勤属性越显著;其中,ri *为候选特征分值。
4.根据权利要求1所述的手机用户中通勤人口的识别方法,其特征在于,利用K-Means聚类算法,对各个手机用户的候选特征分值进行聚类,根据聚类结果,识别通勤人口包括:
利用K-means聚类算法,对各个手机用户的候选特征分值进行聚类,得到典型通勤特征用户组、模糊通勤特征用户组和无通勤特征用户组并确认典型通勤特征用户组为通勤人口,其中,典型通勤特征组为候选特征分值最高的组。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910241614.1A CN109948723A (zh) | 2019-03-28 | 2019-03-28 | 一种手机用户中通勤人口的识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910241614.1A CN109948723A (zh) | 2019-03-28 | 2019-03-28 | 一种手机用户中通勤人口的识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109948723A true CN109948723A (zh) | 2019-06-28 |
Family
ID=67012145
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910241614.1A Pending CN109948723A (zh) | 2019-03-28 | 2019-03-28 | 一种手机用户中通勤人口的识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109948723A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110765351A (zh) * | 2019-10-11 | 2020-02-07 | 卓尔智联(武汉)研究院有限公司 | 目标用户识别方法、装置、计算机设备和存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2000078018A1 (en) * | 1999-06-14 | 2000-12-21 | Wilshire Cellular, Inc. | Method and apparatus for communicating via virtual office telephone extensions |
CN102768737A (zh) * | 2012-07-06 | 2012-11-07 | 西北工业大学 | 一种考虑机器多维特征属性的作业车间瓶颈识别方法 |
CN103577888A (zh) * | 2013-09-05 | 2014-02-12 | 西安电子科技大学 | 一种改进的熵权层次分析法及其应用 |
CN105701180A (zh) * | 2016-01-06 | 2016-06-22 | 北京航空航天大学 | 一种基于公交ic卡数据的通勤乘客特征提取及判定方法 |
CN106202872A (zh) * | 2016-06-27 | 2016-12-07 | 江苏迪纳数字科技股份有限公司 | 机动车辆驾驶行为评分方法 |
CN106600077A (zh) * | 2017-01-11 | 2017-04-26 | 重庆大学 | 一种模糊topsis评价方法 |
CN108717790A (zh) * | 2018-07-06 | 2018-10-30 | 广州市交通运输研究所 | 一种基于卡口车牌识别数据的车辆出行分析方法 |
CN109191189A (zh) * | 2018-08-20 | 2019-01-11 | 国网河南省电力公司经济技术研究院 | 售电市场放开下电力客户价值评价方法 |
-
2019
- 2019-03-28 CN CN201910241614.1A patent/CN109948723A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2000078018A1 (en) * | 1999-06-14 | 2000-12-21 | Wilshire Cellular, Inc. | Method and apparatus for communicating via virtual office telephone extensions |
CN102768737A (zh) * | 2012-07-06 | 2012-11-07 | 西北工业大学 | 一种考虑机器多维特征属性的作业车间瓶颈识别方法 |
CN103577888A (zh) * | 2013-09-05 | 2014-02-12 | 西安电子科技大学 | 一种改进的熵权层次分析法及其应用 |
CN105701180A (zh) * | 2016-01-06 | 2016-06-22 | 北京航空航天大学 | 一种基于公交ic卡数据的通勤乘客特征提取及判定方法 |
CN106202872A (zh) * | 2016-06-27 | 2016-12-07 | 江苏迪纳数字科技股份有限公司 | 机动车辆驾驶行为评分方法 |
CN106600077A (zh) * | 2017-01-11 | 2017-04-26 | 重庆大学 | 一种模糊topsis评价方法 |
CN108717790A (zh) * | 2018-07-06 | 2018-10-30 | 广州市交通运输研究所 | 一种基于卡口车牌识别数据的车辆出行分析方法 |
CN109191189A (zh) * | 2018-08-20 | 2019-01-11 | 国网河南省电力公司经济技术研究院 | 售电市场放开下电力客户价值评价方法 |
Non-Patent Citations (1)
Title |
---|
董路熙: "基于手机数据的城市出行需求时空分布方法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110765351A (zh) * | 2019-10-11 | 2020-02-07 | 卓尔智联(武汉)研究院有限公司 | 目标用户识别方法、装置、计算机设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112990976B (zh) | 基于开源数据挖掘的商业网点选址方法、系统、设备及介质 | |
CN107274066B (zh) | 一种基于lrfmd模型的共享交通客户价值分析方法 | |
CN112183605B (zh) | 一种基于运行特征的民航管制扇区分类方法 | |
CN112862283A (zh) | 基于层次分析的城管派遣方法和系统 | |
CN112330227A (zh) | 基于数字化城管业务构建的城市管理能力评价方法和系统 | |
Huang et al. | Traffic node importance evaluation based on clustering in represented transportation networks | |
CN114022188A (zh) | 目标人群圈选方法、装置、设备以及存储介质 | |
CN114661393B (zh) | 基于流动人口数据特征聚类的城市集聚效应可视分析方法 | |
CN116013084A (zh) | 交通管控场景确定方法、装置、电子设备及存储介质 | |
CN116644184A (zh) | 基于数据聚类的人力资源信息管理系统 | |
CN115879800A (zh) | 基于数据智能的航班管理延误事后分析方法 | |
CN109948723A (zh) | 一种手机用户中通勤人口的识别方法 | |
CN113672788B (zh) | 一种基于多源数据和权重系数法的城市建筑功能分类方法 | |
CN106446194B (zh) | 一种地理区域的采集参数确定方法及装置 | |
EU et al. | Multicriteria analysis of regional disparities in the context of the EU cohesion | |
CN106779245A (zh) | 基于事件的民航需求预测方法和装置 | |
Nagy et al. | Land-use zone estimation in public transport planning with data mining | |
CN116151686A (zh) | 一种科技企业孵化器的孵化效益评价方法 | |
CN113240306B (zh) | 基于人工智能和大数据的商场选址方法及系统 | |
CN109146170A (zh) | 一种影响水库年来水的天文因子识别方法 | |
CN110428627B (zh) | 一种公交出行潜力区域识别方法及识别系统 | |
Gkiotsalitis et al. | Mobility demand prediction in urban scenarios through multi-source, user-generated data | |
CN110825780A (zh) | 一种基于聚集算法的创新资源评估方法及装置 | |
CN113095731B (zh) | 一种基于客流时序聚类优化航班调控方法及系统 | |
Dobuliak | Level of small business development in the regions of Ukraine |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190628 |