CN111737605A

CN111737605A - 一种基于手机信令数据的出行目的识别方法及装置

Info

Publication number: CN111737605A
Application number: CN202010658543.8A
Authority: CN
Inventors: 刘娟; 陆振波; 万紫吟; 张改; 张静芬; 施玉芬; 丁向燕
Original assignee: Nanjing Ruiqi Intelligent Transportation Technology Industry Research Institute Co ltd
Current assignee: Nanjing Ruiqi Intelligent Transportation Technology Industry Research Institute Co ltd
Priority date: 2020-07-09
Filing date: 2020-07-09
Publication date: 2020-10-02

Abstract

本发明涉及出行目的识别技术领域，尤其涉及一种基于手机信令数据的出行目的识别方法及装置。出行目的识别方法，步骤：提取OD数据，划分人口类型及职住地；获取POI及基站位置，并分别与其所在地块关联，形成位置对应关系；基于出行终点基站所在地块与该地块对应的POI类型及职住地的对应关系对出行目的进行初步识别，提取特征参数基于K‑means聚类算法对剩余样本进行聚类，最终获取出行目的；由人口类型，对出行目的结果进行修正。本实施例基于手机信令数据及POI点，通过机器学习算法对居民出行目的进行划分，同时结合人群的出行行为特性对结果进行修正，该方法不仅减少了对先验经验知识的依赖与需求，而且可以避免单一规则判别法所带来的主观性。

Description

一种基于手机信令数据的出行目的识别方法及装置

技术领域

本发明涉及出行目的识别技术领域，具体地，涉及基于手机信令数据的出行目的识别方法及装置。

背景技术

通信与互联网技术的发展与普及应用，应运而生的是对其背后蕴藏的大量潜在信息的大数据的挖掘研究。手机作为一种便携式通讯设备随着经济的发展已经在国民中快速普及，截止2016年，我国手机拥有量己超过96部/百人，除了部分交通从属群体比如老人和小孩，在国内大部分地区基本上人人都拥有手机，手机终端为了满足用户通讯和上网的需求会与邻近的蜂窝基站建立联系，同时记录下用户接入基站的时间和基站的位置信息，其能实时追踪个体并提供用户位置的特点为出行信息的采集提供了一条新思路。出行目的作为交通调查中的一项关键内容，对交通分析、交通规划等相关专题研究至关重要。目前有大量的GPS、视频监控设备可以感知并记录个体实时位置信息，但是对于出行目的相关的主观出行行为信息却无法直接通过信息设备进行感知。

兴趣点是描述特定活动与服务场所的点位，泛指一切可以抽象为点的地理对象，尤其是一些与人们生活密切相关的地理实体，如学校、银行、餐馆、加油站、医院、超市等。目前国内主流的地图软件包括高德、百度均开放有API接口供用户下载兴趣点相关信息，兴趣点在很大程度上代表了一个区域的土地使用状况，而土地利用是出行生成活动的主要决定因素，所以土地利用的类别将决定居民出行活动的行为特性。

手机信令数据出于保护隐私以及数据采集字段自身的一些局限性的缘故，很难大规模的获取到准确的带有标签的样本信息，这给出行行为信息分析挖掘带来了一定的难度。对于无法获取标签的特征分析问题，机器学习中的聚类算法提供了一种较好的解决思路。聚类方法在各种科学领域已有长久的研究历史，k-means，作为其中一种最流行最普遍的聚类算法于1955年首次提出。在k-means算法提出后的六十几年里，陆续有上千种聚类算法被学者提出，但是k-means算法目前仍被广泛应用于各个领域。该算法是一种成熟有效的无标签样本分类方法，通过测量样本本质间的相似度来对样本进行聚合分组。

在出行目的识别特征选取方面，现有的诸多研究结合了乘客出行的时间属性和空间属性，但是识别的过程中仍然存在很多问题。一方面，空间属性通常以土地利用类型来表征，然而土地利用性质只是在规划用地时一个相对综合的类型表征，一般来说一个使用同样的土地利用类型数据，但是会存在超过一种以上的POI点类型，比如商业用地地块上会有商超以及旅馆等类型的POI，因此空间属性的精确表达有待提高。另一方面，除了和出行目的直接相关联的时空属性外，对于用地类型较为综合的地块较少考虑不同人群的出行行为特性，导致识别结果可靠性较低。

本发明发明人在实现本发明的过程中，发现：目前，现有的基于位置信息的出行目的识别研究的数据源大部分是GPS数据，手机信令数据方面相对较少。相比于手机信令数据，GPS位置数据的定位更为精确，但是必须有特定的采集设备或者数据获取协议，而手机信令数据是移动通信过程中所产生的副产品，且经过了匿名脱敏处理不涉及用户，更适宜于全样本的出行特征获取。另一方面，现有研究在进行出行目的识别时，大部分只是基于出行端点的POI特性，但是随着城市用地越来越复杂，居民出行越来越多样化，仅根据POI很难对出行目的进行准确的识别。

发明内容

针对现有技术的上述缺陷，本发明的主要目的在于提供一种基于手机信令数据的出行目的识别方法，主要步骤包括：

从手机信令数据中提取OD数据，从地图中获取城市的POI点数据；

从OD数据中获取用户停驻时间特征，并以停驻时间特征的划分出人口类型及职住地；

获取POI点数据中的POI位置以及基站位置，并分别与其所在地块相关联，形成位置对应关系；

基于出行目的中的出行终点对应的基站所在地块分别与该地块对应的POI类型以及用户职住地之间的对应关系，进行出行目的识别，对识别到的出行目的分类获得预划分集在未被识别到的出行目的中提取出出发时间、逗留时间、各类出行目的对应的POI熵值特征，并使用聚类算法对出行目的进行二次划分，获得第二划分集，将预划分集与第二划分集结合获得出行目的集；

根据人口类型，对出行目的集进行修正，最终识别出出行目。

进一步的，所述出行目的集的获取步骤包括：

通过OD数据中用户停驻时间特性判断职住地及人口类型，在此基础上根据出行终点基站分别与职住地以及各类型POI点的位置对应关系，对出行目的进行预划分，获得的预分类集；

提取出未被预划分的OD数据的时间特征和出行目的所对应的 POI熵值特征组成的特征集，并筛选出最优特征子集；

通过最优特征子集对未预划分成功的OD数据进行聚类，结合特征参数含义对聚类簇进行出行目的识别分类，获得第二划分集；

并将第二划分集加入到预分类集中，获得出行目的集。

进一步的，所述预划分获得的预分类集主要步骤：

根据用户OD数据中的停留时间特征，对其职住地以及人口类型进行判断；

根据基站与地块的位置对应关系，形成基站与地块匹配集，根据 POI与地块的位置对应关系，形成POI与地块匹配集，以地块为媒介对基站与POI点进行关联，将获取的POI类型分别进行匹配，建立关联关系；

再通过出行终点基站与用户职住地的对应关系以及终点基站所在地块的POI类型对出行目的进行分类，从而获得预分类集。

进一步的，所述最优特征子集的获取方法：

还需要基于聚类模型对其他几类出行目的进行进一步的分类，在经预划分后未识别出的出行目的的数据中提取特征参数集，具体如下：提取出在预划分中没有识别出的出行数据形成未识别的出行集，从出行集中获取包括出行的出行时间、逗留时间、是否为工作日、一周内在该出行终点的停留次数、用户人口类型、出发时刻的特征参数，将相同的特征参数聚类成最优特征子集。

进一步的，所述对聚类簇进行出行目的识别分类主要步骤：

从未识别的出行集的最优特征子集中随机选择k个样本作为初始均值向量；

遍历最优特征子集，计算每个最优特征子集与各均值向量的欧式距离，并根据与其距离最近的均值向量确定其簇标记；

划分完所有样本后，重新计算均值向量，

经过重新计算的均值向量后再次进行欧式距离计算及确定其簇标记，直到当前均值向量均未再更新后，输出簇划分后的聚类集合；

根据出行目的的类型对应POI熵值依次定义出聚类集合中每个簇所属出行目的，定义后的出行目的的类型对应POI占比越大则该中心簇的未识别的出行集即归入该类型的出行目的。

进一步的，获取OD数据的主要步骤包括：

对手机信令数据进行去噪处理获得用户定位轨迹数据；

根据用户定位轨迹数据中定位点的时空属性识别轨迹数据中的停留点数据以及位移点数据；

根据识别出的停留点数据和位移点数据划分用户出行的OD数据；

并通过地图提供的API接口获取研究城市的POI点数据。

进一步的，从OD数据中获取时间特征主要步骤包括：

对于在研究时间范围内，用户在工作时间区间以及居住时间区间内各逗留地的逗留时间长短，分别进行职住地识别；

遍历经过数据去噪处理后的OD数据集合，分别统计在研究时间范围内用户在研究城市出现的天数，并根据出现的天数进行区分人口类型。

进一步的，获取POI点数据中的POI位置及基站位置，并且分别与所在地块相关联，形成位置对应关系，具体步骤如下：

将地块地理信息数据、POI点数据以及城市基站数据使用连接分析工具，将POI点数据与地块进行匹配；具体的，

若某POI点处于某地块范围内，则该POI点与该地块匹配成功；否则，将该POI点与直线距离最近的地块进行匹配，获得POI位置与地块对应关系；

若某基站处于某地块范围内，则该基站与该地块匹配成功；否则，将该基站点与直线距离最近的地块进行匹配，获得基站位置与地块对应关系；

进一步的，根据人口类型，出行目的集进行修正，包括以下步骤：

对于识别出职住地中的常住人口，判断在工作日时间特征工作时间段内非工作的出行，具体判断方法：

若存在，则判断公务类出行目的POI占比是否大于零，若成立则将该次出行的出行目的修正为公务；若不成立则不进行修改；

对于商旅人口，判断该人口在访客期间有无旅游或就医出行，若不存在，提取其在工作日工作时间段的所有出行，若存在购物、休闲内出行，则将其修正为公务。

实施例中是基于手机信令数据与POI点数据，从数据样本整体角度出发，在识别出行OD的基础上，通过职驻地识别、典型POI点特征对出行目的进行预划分，然后利用目的地逗留时间、到达频次、对应目的POI等特征运用无监督机器学习的k-means聚类分析法对出行目的进行识别，最后根据不同人群的出行时间、出行行为特性对结果进行修正，提高模型的可靠性。运用机器学习的方法对出行目的识别，充分挖掘了手机信令数据中蕴含的信息，降低了对先验知识的需求，并减少人为干预，提高了方法的客观性。

实施例还公开了一种基于手机信令数据的出行目的识别装置，主要包括：

数据获取模块，用于从手机信令数据中获取OD数据，及获取地图中城市的POI点数据；

数据分类模块，用于从OD数据中获取停驻时间特征，并以停驻时间特征划分出人口类型及职住地；

位置对应模块，用于获取POI点数据中的POI位置及基站位置，并且分别与所在地块相关联，形成位置对应关系；

分类模块，用于基于出行目的中的出行终点对应的基站所在地块分别与该地块对应的POI类型以及用户职住地之间的对应关系，进行出行目的识别获得出行目的集；

数据修正模块，用于根据人口类型，对出行目的集进行修正，最终识别出出行目的。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中，类似的元件或部分一般由类似的附图标记标识。附图中，各元件或部分并不一定按照实际的比例绘制。

图1是本发明中一实施例的基于手机信令数据的出行目的识别方法的流程图；

图2是本发明中一实施例的获取OD数据的的流程图；

图3是本发明中一实施例的从OD数据中划分出人口类型及职住地的流程图；

图4是本发明中一实施例的所述出行目的集的获取的流程图；

图5是本发明中一实施例的对出行目的进行预划分获得的预分类集的流程图；

图6是本发明中一实施例的对未分类的出行进行进一步的分类的流程图；

图7是本发明中一实施例的基于手机信令数据的出行目的识别装置的示意图。

具体实施方式

下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案，因此只作为示例，而不能以此来限制本发明的保护范围。

首先需要说明的是，在本发明各实施例中，所涉及的术语为：

手机信令数据，是指移动通信网络主动或被动、定期或不定期的为与手机用户的移动终端保持联系所产生的一系列控制指令，包括了手机识别码、时间戳、事件类型、基站编号、基站经纬度、号码归属地等字段。

OD，是交通中由起点到终点一次出行的简称，“O”来源于英文 ORIGIN,指出行的出发地点,“D”来源于英文DESTINATION,指出行的目的地。

k-means算法，是指一种将数据集在某些方面相似的数据成员进行分类组织的无监督算法。

下面，将通过几个具体的实施例对发明实施例提供的一种基于手机信令数据的出行目的识别方法及装置进行详细介绍和说明。

一种基于手机信令数据的出行目的识别方法，主要步骤包括：

步骤S210：从手机信令数据中提取OD数据，从地图中获取城市的POI点数据；

获取OD数据的主要步骤包括：

步骤S610：对手机信令数据进行去噪处理获得定位的用户轨迹数据；

步骤S620：根据用户定位轨迹数据中定位点的时空属性识别轨迹数据中的停留点数据以及位移点数据；

步骤S630：根据识别出的停留点数据和位移点数据划分用户出行的OD数据；

步骤S640：并通过地图提供的API接口获取研究城市的POI点数据。

可以理解的，实施例是数据源的手机信令数据是一种近似全样本且空间全覆盖，时间连续的位置数据，且获取简单经济无需额外的感知设备，高德POI点数据有开放的API接口供免费下载且相比于土地使用性质信息，高德POI点数据空间属性更为丰富更新也更为及时。

实际实施例中，首先，是对获取到的手机信令数据进行去噪处理，所述去噪处理包括重复定位、乒乓定位以及漂移定位数据的处理，从而得到较为准确的用户定位轨迹信息；

再，根据去噪处理后的定位点的时空属性，用于识别轨迹中的停留点以及位移点，既计算当前轨迹点的停留时间以及与下一个轨迹点的空间距离。如，当该轨迹点的停留时间大于40min，且与下一轨迹点的空间距离大于800m时，将该轨迹点标记为停留点，其余为位移点。具体的时空阈值可根据研究城市的出行特点以及基站覆盖范围决定。

接着，根据识别出的停留点和位移点划分出用户的出行OD信息。其中，一段出行OD包括两个连续的停留点以及中间的位移点组成，末端的停留点认为是用户本次出行OD的出行目的地，也是进行出行目的识别的重要依据之一。

同时，通过高德提供的API接口获取要研究城市的POI点信息。其中，所述POI点信息包括餐饮服务、风景名胜、公共设施、金融保险、公司企业、科教文化、商务住宅、体育休闲、停车设施、医疗保健及政府机构共十一类兴趣点，然后再获取的POI点信息中保留与出行目的关联度强的兴趣点，而剔除公共设施、金融保险、停车设施这三类兴趣点，从而获得所需的POI点信息。

步骤S220：从OD数据中获取用户停驻时间特征，并以停驻时间特征的划分出人口类型及职住地；

从OD数据中划分出人口类型及职住地的主要步骤包括：

步骤S710：对于在研究时间范围内，用户在工作时间区间以及居住时间区间内各逗留地的逗留时间长短，分别进行职住地识别；

步骤S720：遍历经过数据去噪处理后的OD数据形成的出行目的集合，分别统计在研究时间范围内所有出现的用户出现的天数，并根据出现的天数进行区分人口类型。

进一步的，所述根据出现的天数进行区分人口类型，具体的如下：

当用户一天出现的时间小于某阀值认定为过客；

当用户在某个一个月内，出现的天数大于某个阀值，并且日停留时间大于某个阀值，则认定为常住人口；当用户在某个一个月内，出现的天数小于某个阀值，并且工作日内出现时间占较大时，将该用户标记为商旅人口。

实际实施例中，OD数据中划分出人口类型及职住地如下：

对于在研究时间范围内，出现的每一个用户进行研究。根据手机用户在确定的研究时间段区间内各逗留地的逗留时间长短，分别进行职住地识别。实施例中，确定的研究时间段是，根据经验知识并结合研究地块实际情况，确定工作时间区间，如一般为早上九点至下午六点；以及居住时间区间，如一般为晚上十一点至第二天早上七点。根据工作时间区间和居住时间区间，用户的停留时间判断停留地是否是职住地，即在上述时间期间的停留地为职住地。

遍历经过数据去噪处理后的所有OD数据的集合，进而分别统计在研究时间范围内，如选取一个月，在该研究时间内所有出现的用户出现的天数，从而判断出用户的人口类型。

具体的，当某用户在某天出现时间小于或等于两小时时，将该用户标记为过客，且该天不计入后续判断的累加天数中，即剔除该OD 数据；当在一个月内用户出现天数大于7天时，且日均停留时间大于 8h时，将该用户标记为常住人口；当在一个月内某用户出现天数小于等于7天时，且工作日内出现时间占全部出现时间不小于三分之二时，将该用户标记为商旅人口。

步骤S230：获取POI点数据中的POI位置以及基站位置，并分别与其所在地块相关联，形成位置对应关系；

获取POI点数据中的POI位置和基站位置，并且分别与所在地块相关联，形成位置对应关系，具体步骤如下：

实际实施例中，具体的如下：

将由当地规划局提供的地块的地理信息数据、地图的POI点数据以及城市的基站信息导入ArcGIS中。通过ArcGIS中的连接分析工具，将POI信息与地块进行匹配。具体的，如，若某兴趣点处于某地块范围内，则认为该兴趣点直接与所处地块匹配成功；否则，将该兴趣点与直线距离最近的地块进行匹配，从而形成POI信息中的兴趣点与地块的匹配关系。

在基站位置周围300m内设置为缓冲区，通过ArcGIS中的相交分析工具，将基站对应的缓冲区与地块进行相交，确定基站的覆盖地块范围，从而形成基站与地块的匹配关系。

这里需要说明的是，这里的POI点数据获取的地图包括高德、百度及谷歌等地图。

实施例是基于地块与POI的匹配以及基站与地块的匹配，通过实际地块为媒介，建立了基站与POI的对应关系，相比于以往直接建立缓冲区或泰森多边形的方法结合了现实地块分布与基站覆盖范围两个因素，提高了基站与POI对应准确性。

步骤S240：基于出行目的中的出行终点对应的基站所在地块分别与该地块对应的POI类型以及用户职住地之间的对应关系，进行出行目的识别，对识别到的出行目的分类获得预划分集在未被识别到的出行目的中提取出出发时间、逗留时间、各类出行目的对应的POI熵值特征，并使用聚类算法对出行目的进行二次划分，获得第二划分集，将预划分集与第二划分集结合获得出行目的集；

所述出行目的集的获取步骤包括：

步骤S810：通过OD数据中用户停驻时间特性判断职住地及人口类型，在此基础上根据出行终点基站分别与职住地以及各类型POI点的位置对应关系，对出行目的进行预划分，获得的预分类集；

步骤S820：提取出未被预划分的OD数据的时间特征和出行目的所对应的POI熵值特征组成的特征集，并筛选出最优特征子集；

步骤S830：通过最优特征子集对未预划分成功的OD数据进行聚类，结合特征参数含义对聚类簇进行出行目的识别分类，获得第二划分集；

并将第二划分集加入到预分类集中，获得出行目的集。

实施例中，从识别方法的角度，该实施例中可以更加充分挖掘手机信令数据中的出行特征相关信息，首先根据职住地识别对通勤以及典型POI点位对就医等具有明显空间地块属性的出行目的进行预划分，再利用机器学习的方法从全局的角度分析出行目的，最后根据不同人群的出行行为特性结合时空属性对结果进行修正，该方法不仅减少了对先验经验知识的依赖与需求，提高了方法的适用性，而且可以避免单一规则判别法所带来的主观性。

实施例进一步的，所述预划分获得的预分类集主要步骤：

步骤S8101：根据用户OD数据中的停留时间特征，对其职住地以及人口类型进行判断；

步骤S8102：根据基站与地块的位置对应关系，形成基站与地块匹配集，根据POI与地块的位置对应关系，形成POI与地块匹配集，以地块为媒介对基站与POI点进行关联，将获取的POI类型分别进行匹配，建立关联关系；

步骤S8103：再通过出行终点基站与用户职住地的对应关系以及终点基站所在地块的POI类型对出行目的进行分类，从而获得预分类集。

实际实施例中，具体的如下：

结合现有交通调查的分类情况，将用户的出行目的划分为包括分别为回家(旅馆)、上班(上学)、公务(商务)、就医、旅游、休闲、购物和其他的大类。其中前三类回家(旅馆)、上班(上学)、公务(商务)的出行时间和地点较为固定，因此设为刚性出行需求。而就医、旅游、休闲、购物和其他这几类时间和地点不固定，为弹性出行需求。实施例将每一类出行目的与相关兴趣点进行分类关联，如表1所示：

表一出行目的与相关兴趣点类别关联表

出行目的	兴趣点
		回家	商务住宅、住宿服务
上班(上学)	政府机构、科教文化、公司企业
		公务(商务)	政府机构、公司企业
就医	医疗保健
		旅游	风景名胜
休闲	体育休闲
		购物	购物服务

对识别出的职住地的用户，当一次出行的终点基站与职住地基站距离在800m范围内，则认为该次出行的出行目的为上班(上学)、回家。

筛选出风景名胜类型的兴趣点，找到兴趣点对应的所属地块的地块集合T。当一次出行的终点对应的基站所覆盖的其中一个或多个地块位于该地块集合T中，且不属于职住地的出行目的，则认为该次出行的出行目的为旅游。

筛选出医疗保健类型的兴趣点，找到兴趣点对应的所属地块的地块集合H。当一次出行的终点基站所处地块位于该地块集合中，且不属于职住地的出行目的，则认为该次出行的出行目的为就医。

实施例进一步的，所述最优特征子集的获取方法，具体如下：

还需要基于聚类模型对其他几类出行目的进行进一步的分类，在经预划分后未识别出的出行目的的数据中提取特征参数集，具体如下：提取出在预划分中没有识别出的出行数据形成未识别的出行集，从出行集中获取包括出行的出行时间、逗留时间、是否为工作日、一周内在该出行终点的停留次数、用户人口类型、出发时刻的特征参数。

步骤S8201：提取出在预划分中没有识别出的出行形成未识别的出行集，并且获取出行在出行终点处的时间特征，并通过时间特征进行标记；

步骤S8202：通过未识别的初步出行分类集中各个分类集的欧氏距离计算获得初步出行分类集的欧氏距离；

步骤S8203：再计算获得初步出行分类集中各个分类集相互之间的相似性度量和离散型变量；

步骤S8204：再用相似性度量和离散型变量计算出初步出行分类集中各个分类集相互之间的距离熵；

步骤S8205：最后用距离熵经过计算获得初步出行分类集总体距离熵；

步骤S8206：采用后向消除法作为搜索策略，遍历特征集，计算每次除去一个特征的总体距离熵，取值最小的总体距离熵对应去除的特征即为最不重要特征，然后从特征集中剔除这个特征，将其放到新特征集中；

步骤S8207：重复上述过程一次迭代直到所有特征都转移到了新特征集中，将新特征集逆序即得到特征的重要性排序。

实施例中具体的：提取该次出行在出行终点处的停留时间：具体如，是否为工作日，是工作日标记为1、非工作日标记为0。一周内在该出行终点的停留次数、用户人口类型(常住人口标记为1，商旅人口标记为2)以及该次出行的出发时刻(当出发时刻处于上午6点 -12点标记为1，当出行时刻处于下午13点至17点标记为2，当出发时刻处于晚上18点至22点标记为3，当出发时刻处于夜间23点至第二天凌晨5点标记为4)。

接着，计算出行终点基站覆盖地块范围内各类出行目的的POI占比，计算公式如下：

实际实施例中，假设某基站覆盖地块范围内，公务(商务)、购物、休闲三种活动对应的POI数目分别为N_i(i＝1，2，3)，总和为N。

再，遍历所有样本集合，计算各样本间提取的特征变量的欧氏距离，样本x_i和x_j之间的欧氏距离D_ij计算公式如下(其中max_k和min_k分别表示第k个特征的最大值与最小值，M表示特征数)：

计算各样本之间的相似性度量，并归一化到0到1之间，样本连续变量x_i和x_j之间的相似性S_ij计算公式如下：其中α为控制参数，理论上取

为对象间平均距离)：

离散变量间的相似性计算公式如下，其中M为离散型变量数：

计算各样本之间的距离熵，样本x_i和x_j之间的距离熵E_ij计算公式如下：

E_ij＝-S_ijlogS_ij-(1-S_ij)*log(1-S_ij)

计算样本总体的距离熵，计算公式如下，其中N表示样本数：

采用后向消除法作为搜索策略，遍历特征集，计算每次除去一个特征的总体距离熵，取值最小的总体距离熵对应去除的特征即为最不重要特征，然后从特征集中剔除这个特征，将其放到新特征集中；

重复上述过程一次迭代直到所有特征都转移到了新特征集中，将新特征集逆序即得到特征的重要性排序，获得最优特征子集。

实施例进一步的，所述对聚类簇进行出行目的识别分类主要步骤，具体的如下：

根据提取出的特征参数，使用K-means聚类算法对预划分中未识别成功的最优特征子集进行聚类，结合特征参数含义对各聚类簇进行出行目的识别，包括以下步骤：

步骤S8301：从未识别的出行集的最优特征子集中随机选择k个样本作为初始均值向量；

具体的如：从最优特征子集中随机选择k个集作为样本作为初始均值向量{μ₁,μ₂,...,μ_k}；

步骤S8302：遍历最优特征子集，计算每个最优特征子集与各均值向量的欧式距离，并根据与其距离最近的均值向量确定其簇标记；

具体的如：遍历样本集，计算每个样本x与各均值向量的欧式距离，并根据与其距离最近的均值向量μ_i确定其簇标记C_i；

步骤S8303：划分完所有样本后，重新计算均值向量，计算公式如下：

步骤S8304：经过重新计算的均值向量后再次进行欧式距离计算及确定其簇标记，直到当前均值向量均未再更新后，输出簇划分后的聚类集合；

具体的如：循环重复步骤S8302，直到当前均值向量均未更新，输出簇划分的聚类集合C＝{C₁,C₂,...,C_k}；

步骤S8305：根据出行目的的类型对应POI熵值依次定义出聚类集合中每个簇所属出行目的根据出行目的的类型对应POI熵值依次定义出聚类集合中每个簇所属出行目的，定义后的出行目的的类型对应POI占比越大则该中心簇的未识别的出行集即归入该类型的出行目的。

具体的如：对于公务(商务)、购物、休闲三种活动对应的POI数目分别为N_i(i＝1，2，3)，总和为N，特征参数POI熵值计算公式如下：

当中心簇的特征参数满足P₁＞P₂，且P₁＞P₃时，则该中心簇代表的出行目的为公务，当中心簇的特征参数满足P₂＞P₁，且P₂＞P₃时，则该中心簇代表的出行目的为购物，当中心簇的特征参数满足P₃＞P₁，且P₃＞P₂时，则该中心簇代表的出行目的为休闲。

步骤S250：根据人口类型，对出行目的集进行修正，最终识别出出行目的。

根据人口类型，出行目的集进行修正，包括以下步骤：

实施例利用的手机信令数据能获取人出行的数据，包括出发时间地点、到达时间地点等时间和位置的信息数据，但是该数据中缺少行为信息，比如出行目的，而对出行目的的预判可有效的提高对交通分析、交通规划等至关重要。实施例是中对出行目的的识别主要包括：是在识别出用户上班、家庭住址的基础上，对于回家、上班这类目的可以直接识别；同时对于医院景点这类具有很明显地点特征的出行目的进行识别；再通过聚类建模的方法，提取和出行目的相关的特征参数，比如停留时间，终点用地性质的熵值从而借助机器学习进行识别，如此对所有的目的完成识别。并且本实施例还根据人口类型对某些目的进行修正来提高精度，主要依据是不同人口类型是会存在不同的出行特性的，降低了对先验知识的需求，并减少人为干预，提高了方法的客观性。

实际实施例中，具体的如下：

实施方式中还公开了一种基于手机信令数据的出行目的识别装置，主要包括：

数据获取模块101，用于从手机信令数据中获取OD数据，及获取地图中城市的POI点数据；

数据分类模块102，用于从OD数据中获取停驻时间特征，并以停驻时间特征划分出人口类型及职住地；

位置对应模块103，用于获取POI点数据中的POI位置及基站位置，并且分别与所在地块相关联，形成位置对应关系；

分类模块104，用于基于出行目的中的出行终点对应的基站所在地块分别与该地块对应的POI类型以及用户职住地之间的对应关系，进行出行目的识别获得出行目的集；

数据修正模块105，用于根据人口类型，对出行目的集进行修正，最终完成出行OD数据的出行目的分析。

进一步的，所述分类模块104包括：

预分类模块，用于通过OD数据中用户停驻时间特性判断职住地及人口类型，在此基础上根据出行终点基站分别与职住地以及各类型 POI点的位置对应关系，对出行目的进行预划分，获得的预分类集；

获取最优特征子集模块，用于提取出未被预划分的OD数据的时间特征和出行目的所对应的POI熵值特征组成的特征集，并筛选出最优特征子集；

第二划分模块，用于通过最优特征子集对未预划分成功的OD数据进行聚类，结合特征参数含义对聚类簇进行出行目的识别分类，获得第二划分集；

并将第二划分集加入到预分类集中，获得出行目的集。

进一步的，所述预分类模块包括：

类型判断模块，用于根据用户OD数据中的停留时间特征，对其职住地以及人口类型进行判断；

关联模块，用于根据基站与地块的位置对应关系，形成基站与地块匹配集，根据POI与地块的位置对应关系，形成POI与地块匹配集，以地块为媒介对基站与POI点进行关联，将获取的POI类型分别进行匹配，建立关联关系；

对应分类模块，用于再通过出行终点基站与用户职住地的对应关系以及终点基站所在地块的POI类型对出行目的进行分类，从而获得预分类集。

进一步的，所述获取最优特征子集模块进一步的：

还用于基于聚类模型对其他几类出行目的进行进一步的分类，在经预划分后未识别出的出行目的的数据中提取特征参数集，具体如下：提取出在预划分中没有识别出的出行数据形成未识别的出行集，从出行集中获取包括出行的出行时间、逗留时间、是否为工作日、一周内在该出行终点的停留次数、用户人口类型、出发时刻的特征参数，将相同的特征参数聚类成最优特征子集。

进一步的，所述第二划分模块包括：

初始均值向量获取模块，用于从未识别的出行集的最优特征子集中随机选择k个样本作为初始均值向量；

簇标记模块，用于遍历最优特征子集，计算每个最优特征子集与各均值向量的欧式距离，并根据与其距离最近的均值向量确定其簇标记；

聚类模块，用于划分完所有样本后，重新计算均值向量，经过重新计算的均值向量后再次进行欧式距离计算及确定其簇标记，直到当前均值向量均未再更新后，输出簇划分后的聚类集合；

类型归类模块，用于根据出行目的的类型对应POI熵值依次定义出聚类集合中每个簇所属出行目的，定义后的出行目的的类型对应 POI占比越大则该中心簇的未识别的出行集即归入该类型的出行目的。

进一步的，所述数据获取模块101包括：

数据处理模块，用于对手机信令数据进行去噪处理获得用户定位轨迹数据；

数据识别模块，用于根据用户定位轨迹数据中定位点的时空属性识别轨迹数据中的停留点数据以及位移点数据；

OD数据划分模块，用于根据识别出的停留点数据和位移点数据划分用户出行的OD数据；

POI点数据获取模块，用于通过地图提供的API接口获取研究城市的POI点数据。

进一步的，所述数据分类模块102包括：

职住地识别模块，用于对于在研究时间范围内，用户在工作时间区间以及居住时间区间内各逗留地的逗留时间长短，分别进行职住地识别；

人口类型识别模块，用于遍历经过数据去噪处理后的OD数据集合，分别统计在研究时间范围内用户在研究城市出现的天数，并根据出现的天数进行区分人口类型。

进一步的，所述位置对应模块103，

用于将地块地理信息数据、POI点数据以及城市基站数据使用连接分析工具，将POI点数据与地块进行匹配；具体的包括，

POI点对应关系获取模块，用于判断若某POI点处于某地块范围内，则该POI点与该地块匹配成功；否则，将该POI点与直线距离最近的地块进行匹配，获得POI位置与地块对应关系；

基站对应关系获取模块，用于判断若某基站处于某地块范围内，则该基站与该地块匹配成功；否则，将该基站点与直线距离最近的地块进行匹配，获得基站位置与地块对应关系。

进一步的，根据人口类型，出行目的集进行修正，包括：

常住人口修正模块，用于对于识别出职住地中的常住人口，判断在工作日时间特征工作时间段内非工作的出行，具体判断方法：

商旅人口修正模块，用于对于商旅人口，判断该人口在访客期间有无旅游或就医出行，若不存在，提取其在工作日工作时间段的所有出行，若存在购物、休闲内出行，则将其修正为公务。

本实施例利用的手机信令数据能获取人出行的数据，包括出发时间地点、到达时间地点等时间和位置的信息数据，但是该数据中缺少行为信息，比如出行目的，而对出行目的的预判可有效的提高对交通分析、交通规划等至关重要。实施例是中对出行目的的识别主要包括：是在识别出用户上班、家庭住址的基础上，对于回家、上班这类目的可以直接识别；同时对于医院景点这类具有很明显地点特征的出行目的进行识别；再通过聚类建模的方法，提取和出行目的相关的特征参数，比如停留时间，终点用地性质的熵值从而借助机器学习进行识别，如此对所有的目的完成识别。并且本实施例还根据人口类型对某些目的进行修正来提高精度，主要依据是不同人口类型是会存在不同的出行特性的，降低了对先验知识的需求，并减少人为干预，提高了方法的客观性。

本实施例还提供了一种计算机可读存储介质，所述存储介质中存储有计算机可执行指令，所述计算机可执行指令由处理器加载并执行本实施例上述的一种基于手机信令数据的出行目的识别方法。

可选地，在本实施例中，上述存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。尤其是，只要不存在结构冲突，各个实施例中所提到的各项技术特征均可以任意方式组合起来。本发明并不局限于文中公开的特定实施例，而是包括落入权利要求的范围内的所有技术方案。

Claims

1.一种基于手机信令数据的出行目的识别方法，其特征在于，主要步骤包括：

基于出行目的中的出行终点对应的基站所在地块分别与该地块对应的POI类型以及用户职住地之间的对应关系，进行出行目的识别获得出行目的集；

根据人口类型，对出行目的集进行修正，最终识别出出行目的。

2.根据权利要求1所述的基于手机信令数据的出行目的识别方法，其特征在于，所述出行目的集的获取步骤包括：

提取出未被预划分的OD数据的时间特征和出行目的所对应的POI熵值特征组成的特征集，并筛选出最优特征子集；

并将第二划分集加入到预分类集中，获得出行目的集。

3.根据权利要求2所述的基于手机信令数据的出行目的识别方法，其特征在于，所述预划分获得的预分类集主要步骤：

根据基站与地块的位置对应关系，形成基站与地块匹配集，根据POI与地块的位置对应关系，形成POI与地块匹配集，以地块为媒介对基站与POI点进行关联；

将获取的POI类型分别进行匹配，建立关联关系；

4.根据权利要求2所述的基于手机信令数据的出行目的识别方法，其特征在于，所述最优特征子集的获取方法：

基于聚类模型对出行目的进行进一步的分类，在经预划分后未识别出的出行目的的数据中提取特征参数集，具体如下：提取出在预划分中没有识别出的出行数据形成未识别的出行集，从出行集中获取包括出行的出行时间、逗留时间、是否为工作日、一周内在该出行终点的停留次数、用户人口类型、出发时刻的特征参数，通过特征筛选方法获取最优特征子集。

5.根据权利要求2所述的基于手机信令数据的出行目的识别方法，其特征在于，所述对聚类簇进行出行目的识别分类主要步骤：

划分完所有样本后，重新计算均值向量，

6.根据权利要求1所述的基于手机信令数据的出行目的识别方法，其特征在于，获取OD数据的主要步骤包括：

对手机信令数据进行去噪处理获得用户定位轨迹数据；

并通过地图提供的API接口获取研究城市的POI点数据。

7.根据权利要求1所述的基于手机信令数据的出行目的识别方法，其特征在于，从OD数据中获取时间特征主要步骤包括：

8.根据权利要求1所述的基于手机信令数据的出行目的识别方法，其特征在于，获取POI点数据中的POI位置及基站位置，并且分别与所在地块相关联，形成位置对应关系，具体步骤如下：

若某基站处于某地块范围内，则该基站与该地块匹配成功；否则，将该基站点与直线距离最近的地块进行匹配，获得基站位置与地块对应关系。

9.根据权利要求1所述的基于手机信令数据的出行目的识别方法，其特征在于，根据人口类型，出行目的集进行修正，包括以下步骤：

10.一种基于手机信令数据的出行目的识别装置，其特征在于，主要包括：