CN109978056A

CN109978056A - 一种基于机器学习的地铁乘客分类方法

Info

Publication number: CN109978056A
Application number: CN201910232055.8A
Authority: CN
Inventors: 张俊秀; 谢侃
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2019-03-26
Filing date: 2019-03-26
Publication date: 2019-07-05

Abstract

本发明公开了一种基于机器学习的地铁乘客分类方法，包括下述步骤：步骤一，从一卡通公司获取城市全部地铁站的历史刷卡数据；步骤二，对历史刷卡数据进行预处理，缺失值补0；步骤三，对部分刷卡数据进行人工标注，得到乘客类别，作为半监督学习中的已知类别的数据集，用于初始训练；步骤四，按照实际情况，对地铁站进行等级划分；步骤五，考虑影响地铁乘客类别的影响因素，分析建立模型时所需要的初始特征；本发明考虑影响乘客类别的因素较为全面，利用GBDT算法模型根据已有特征构建出新特征，实现了特征的自动提取，算法模型简单，能解决现有方法分类效果较差等问题，提高了分类的精度。

Description

一种基于机器学习的地铁乘客分类方法

技术领域

本发明涉及乘客分类技术领域，具体涉及一种基于机器学习的地铁乘客分类方法。

背景技术

随着社会的发展，交通方式越来越多，地铁是很重要的一种出行方式，它对于一个城市的建设具有重要意义，有利于引导和实现城市可持续发展，并且逐渐成为居民出行的首要选择，因此对于地铁乘客进行分类尤为重要。通过对地铁乘客进行分类预测，可以针对不同种类的乘客提供有针对性的服务，可以提高服务质量。

关于地铁乘客分类预测的研究，国内的赵娟娟等人提出了一种“基于时空数据挖掘的地铁乘客分类方法”(CN103699601A)，该方法基于时间、空间的用户出行规律算法，通过对乘客的出行进行特征分析，将具有相似特征的乘客聚类，最后完成分类；尹宝才等人提出了“一种基于地铁刷卡数据的乘客出行行为分析方法”(CN105718946A)，在分析出行行为时，对乘客进行聚类，但是，这两种方法实现较为繁琐，根据出行规律算法进行计算，计算不方便，并且没有考虑天气属性等外在因素对乘客类别的影响，只是考虑进出站的站点以及时间等常规因素，也没有利用算法从已有特征中进行自动提取新特征，所以整体分类没有达到很好的分类效果。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提供一种基于机器学习的地铁乘客分类方法，该方法利用机器学习算法对现有特征进行特征的自动提取，进一步发现数据背后的知识，提高分类精度。

本发明的目的通过下述技术方案实现：

一种基于机器学习的地铁乘客分类方法，包括下述步骤：

步骤一，从一卡通公司获取城市全部地铁站的历史刷卡数据；

步骤二，对历史刷卡数据进行预处理，缺失值补0；

步骤三，对部分刷卡数据进行人工标注，得到乘客类别，作为半监督学习中的已知类别的数据集，用于初始训练；

步骤四，按照实际情况，对地铁站进行等级划分；

步骤五，考虑影响地铁乘客类别的影响因素，分析建立模型时所需要的初始特征；

步骤六，训练GBDT算法模型；

(1)GBDT算法模型是以决策树为基模型的；

(2)利用已知类别的那部分数据，进行特征工程，得到满足GBDT算法模型的特征表示，将该特征记为X'；

(3)将数据划分为训练集和测试集；

(4)将已知的乘客类别作为目标y，特征作为输入x，传给GBDT算法模型，利用训练集训练GBDT算法模型，利用测试集测试GBDT算法模型的性能以及调整模型参数，得到准确度较高的模型；

步骤七，利用GBDT算法模型构建新特征；

(1)利用GBDT算法模型学习得到的树来对已经标注的数据构造新特征，记为X”；

(2)将该新特征X”加入原有特征X'，一起构成了特征集X”'；

步骤八，建立softmax算法模型；

(1)softmax算法模型的函数为

(2)将经过GBDT算法模型构建的新的特征集X”'划分为训练集和测试集，用softmax算法模型对训练集进行训练，用测试集测试模型自身的性能；

(3)得到softmax算法模型的模型参数；

步骤九，对其他未进行标注的数据，按照步骤一至步骤八的方法进行处理，得到具有与特征集X”'相同特征数量的特征；

步骤十，利用GBDT+softmax算法模型对地铁乘客进行分类。

优选地，步骤四中所述的实际情况，具体为地理位置和地铁人流量这些因素。

优选地，步骤五中所述的初始特征，主要包括以下特征：

(1)进出地铁站的刷卡时间字段以及地铁站所处的等级；

(2)天气特征，划分为6个等级，晴天划分为等级1，多云和阴天划分为等级2，小雨划分为等级3，阵雨划分为等级4，中雨划分为等级5，剩余的情况划分为等级6；

(3)温度特征，得到最高温度与最低温度；

(4)是否周末，分为工作日、周六与周日三种；

(5)风力特征，按照实际情况，划分为三个等级；

(6)是否节假日；将节假日分为四个等级，其中，春节划分为等级4，清明、端午、元旦、国庆这四个节假日划分为等级3，劳动节划分为等级2，剩余的划分为等级1。

本发明与现有技术相比具有以下的有益效果：

本发明以一卡通数据为依托，分析影响地铁乘客类别的因素，利用GBDT算法模型构建新特征，结合softmax算法模型进行地铁乘客分类，解决了计算量大、没有利用算法进行自动提取特征以及分类精度较低等技术问题，本发明考虑影响乘客类别的因素较为全面，利用GBDT算法模型根据已有特征构建出新特征，实现了特征的自动提取，算法模型简单，能解决现有方法分类效果较差等问题，提高了分类的精度。

附图说明

图1为本发明的整体流程图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

如图1所示，一种基于机器学习的地铁乘客分类方法，包括下述步骤：

步骤二，对历史刷卡数据进行预处理，缺失值补0；

步骤四，按照实际情况，对地铁站进行等级划分，其中，所述的实际情况，具体为地理位置和地铁人流量这些因素；

步骤五，考虑影响地铁乘客类别的影响因素，分析建立模型时所需要的初始特征，其中，所述的初始特征，主要包括以下特征：

(1)进出地铁站的刷卡时间字段以及地铁站所处的等级；

(2)天气特征，划分为6个等级，晴天划分为等级1，多云和阴天划分为等级2，小雨划分为等级3，阵雨划分为等级4，中雨划分为等级5，剩余的情况划分为等级6；为适应模型的需要，需要进行量化，具体为：晴天量化为12，多云和阴天量化为10，小雨量化为8，阵雨量化为6，中雨量化为4，其他情况量化为2；

(3)温度特征，得到最高温度与最低温度；

(4)是否周末，分为工作日、周六与周日三种；为适应模型的需要，需要进行量化，具体为：工作日量化为6，周六为4，周日为2；

(5)风力特征，按照实际情况，划分为三个等级；为适应模型的需要，需要进行量化，具体为：无风或者微风量化为6，三级风力量化为4，其他量化为2；

(6)是否节假日，只考虑一些重要节假日，对于一些非重要节假日，当成普通日子进行处理；将节假日分为四个等级，其中，春节划分为等级4，清明、端午、元旦、国庆这四个节假日划分为等级3，劳动节划分为等级2，剩余的划分为等级1；为适应模型的需要，需要进行量化，具体为：春节量化为2，清明为4，劳动为6，其他为8；

步骤六，训练GBDT算法模型；

(1)GBDT算法模型是以决策树为基模型的；

(3)将数据划分为训练集和测试集；

步骤七，利用GBDT算法模型构建新特征；

(2)将该新特征X”加入原有特征X'，一起构成了特征集X”'；

步骤八，建立softmax算法模型；

(1)softmax算法模型的函数为

(3)得到softmax算法模型的模型参数；

步骤十，利用GBDT+softmax算法模型对地铁乘客进行分类。

本发明综合考虑了影响地铁乘客类别的外在因素，进出站时间，进出站的地铁等级，天气属性，风力属性、温度属性以及是否周末，从原始特征出发，利用GBDT算法模型构建影响地铁乘客类别的新特征，结合softmax算法模型的分类方法进行分类。

上述为本发明较佳的实施方式，但本发明的实施方式并不受上述内容的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于机器学习的地铁乘客分类方法，其特征在于，包括下述步骤：

步骤二，对历史刷卡数据进行预处理，缺失值补0；

步骤四，按照实际情况，对地铁站进行等级划分；

步骤六，训练GBDT算法模型；

(1)GBDT算法模型是以决策树为基模型的；

(3)将数据划分为训练集和测试集；

步骤七，利用GBDT算法模型构建新特征；

(2)将该新特征X”加入原有特征X'，一起构成了特征集X”'；

步骤八，建立softmax算法模型；

(1)softmax算法模型的函数为

(3)得到softmax算法模型的模型参数；

步骤十，利用GBDT+softmax算法模型对地铁乘客进行分类。

2.根据权利要求1所述的基于机器学习的地铁乘客分类方法，其特征在于，步骤四中所述的实际情况，具体为地理位置和地铁人流量这些因素。

3.根据权利要求1所述的基于机器学习的地铁乘客分类方法，其特征在于，步骤五中所述的初始特征，主要包括以下特征：

(1)进出地铁站的刷卡时间字段以及地铁站所处的等级；

(3)温度特征，得到最高温度与最低温度；

(4)是否周末，分为工作日、周六与周日三种；

(5)风力特征，按照实际情况，划分为三个等级；