CN109978056A - 一种基于机器学习的地铁乘客分类方法 - Google Patents

一种基于机器学习的地铁乘客分类方法 Download PDF

Info

Publication number
CN109978056A
CN109978056A CN201910232055.8A CN201910232055A CN109978056A CN 109978056 A CN109978056 A CN 109978056A CN 201910232055 A CN201910232055 A CN 201910232055A CN 109978056 A CN109978056 A CN 109978056A
Authority
CN
China
Prior art keywords
divided
algorithm model
feature
classification
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910232055.8A
Other languages
English (en)
Inventor
张俊秀
谢侃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN201910232055.8A priority Critical patent/CN109978056A/zh
Publication of CN109978056A publication Critical patent/CN109978056A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Tourism & Hospitality (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Primary Health Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Game Theory and Decision Science (AREA)
  • Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于机器学习的地铁乘客分类方法,包括下述步骤:步骤一,从一卡通公司获取城市全部地铁站的历史刷卡数据;步骤二,对历史刷卡数据进行预处理,缺失值补0;步骤三,对部分刷卡数据进行人工标注,得到乘客类别,作为半监督学习中的已知类别的数据集,用于初始训练;步骤四,按照实际情况,对地铁站进行等级划分;步骤五,考虑影响地铁乘客类别的影响因素,分析建立模型时所需要的初始特征;本发明考虑影响乘客类别的因素较为全面,利用GBDT算法模型根据已有特征构建出新特征,实现了特征的自动提取,算法模型简单,能解决现有方法分类效果较差等问题,提高了分类的精度。

Description

一种基于机器学习的地铁乘客分类方法
技术领域
本发明涉及乘客分类技术领域,具体涉及一种基于机器学习的地铁乘客分类方法。
背景技术
随着社会的发展,交通方式越来越多,地铁是很重要的一种出行方式,它对于一个城市的建设具有重要意义,有利于引导和实现城市可持续发展,并且逐渐成为居民出行的首要选择,因此对于地铁乘客进行分类尤为重要。通过对地铁乘客进行分类预测,可以针对不同种类的乘客提供有针对性的服务,可以提高服务质量。
关于地铁乘客分类预测的研究,国内的赵娟娟等人提出了一种“基于时空数据挖掘的地铁乘客分类方法”(CN103699601A),该方法基于时间、空间的用户出行规律算法,通过对乘客的出行进行特征分析,将具有相似特征的乘客聚类,最后完成分类;尹宝才等人提出了“一种基于地铁刷卡数据的乘客出行行为分析方法”(CN105718946A),在分析出行行为时,对乘客进行聚类,但是,这两种方法实现较为繁琐,根据出行规律算法进行计算,计算不方便,并且没有考虑天气属性等外在因素对乘客类别的影响,只是考虑进出站的站点以及时间等常规因素,也没有利用算法从已有特征中进行自动提取新特征,所以整体分类没有达到很好的分类效果。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供一种基于机器学习的地铁乘客分类方法,该方法利用机器学习算法对现有特征进行特征的自动提取,进一步发现数据背后的知识,提高分类精度。
本发明的目的通过下述技术方案实现:
一种基于机器学习的地铁乘客分类方法,包括下述步骤:
步骤一,从一卡通公司获取城市全部地铁站的历史刷卡数据;
步骤二,对历史刷卡数据进行预处理,缺失值补0;
步骤三,对部分刷卡数据进行人工标注,得到乘客类别,作为半监督学习中的已知类别的数据集,用于初始训练;
步骤四,按照实际情况,对地铁站进行等级划分;
步骤五,考虑影响地铁乘客类别的影响因素,分析建立模型时所需要的初始特征;
步骤六,训练GBDT算法模型;
(1)GBDT算法模型是以决策树为基模型的;
(2)利用已知类别的那部分数据,进行特征工程,得到满足GBDT算法模型的特征表示,将该特征记为X';
(3)将数据划分为训练集和测试集;
(4)将已知的乘客类别作为目标y,特征作为输入x,传给GBDT算法模型,利用训练集训练GBDT算法模型,利用测试集测试GBDT算法模型的性能以及调整模型参数,得到准确度较高的模型;
步骤七,利用GBDT算法模型构建新特征;
(1)利用GBDT算法模型学习得到的树来对已经标注的数据构造新特征,记为X”;
(2)将该新特征X”加入原有特征X',一起构成了特征集X”';
步骤八,建立softmax算法模型;
(1)softmax算法模型的函数为
(2)将经过GBDT算法模型构建的新的特征集X”'划分为训练集和测试集,用softmax算法模型对训练集进行训练,用测试集测试模型自身的性能;
(3)得到softmax算法模型的模型参数;
步骤九,对其他未进行标注的数据,按照步骤一至步骤八的方法进行处理,得到具有与特征集X”'相同特征数量的特征;
步骤十,利用GBDT+softmax算法模型对地铁乘客进行分类。
优选地,步骤四中所述的实际情况,具体为地理位置和地铁人流量这些因素。
优选地,步骤五中所述的初始特征,主要包括以下特征:
(1)进出地铁站的刷卡时间字段以及地铁站所处的等级;
(2)天气特征,划分为6个等级,晴天划分为等级1,多云和阴天划分为等级2,小雨划分为等级3,阵雨划分为等级4,中雨划分为等级5,剩余的情况划分为等级6;
(3)温度特征,得到最高温度与最低温度;
(4)是否周末,分为工作日、周六与周日三种;
(5)风力特征,按照实际情况,划分为三个等级;
(6)是否节假日;将节假日分为四个等级,其中,春节划分为等级4,清明、端午、元旦、国庆这四个节假日划分为等级3,劳动节划分为等级2,剩余的划分为等级1。
本发明与现有技术相比具有以下的有益效果:
本发明以一卡通数据为依托,分析影响地铁乘客类别的因素,利用GBDT算法模型构建新特征,结合softmax算法模型进行地铁乘客分类,解决了计算量大、没有利用算法进行自动提取特征以及分类精度较低等技术问题,本发明考虑影响乘客类别的因素较为全面,利用GBDT算法模型根据已有特征构建出新特征,实现了特征的自动提取,算法模型简单,能解决现有方法分类效果较差等问题,提高了分类的精度。
附图说明
图1为本发明的整体流程图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
如图1所示,一种基于机器学习的地铁乘客分类方法,包括下述步骤:
步骤一,从一卡通公司获取城市全部地铁站的历史刷卡数据;
步骤二,对历史刷卡数据进行预处理,缺失值补0;
步骤三,对部分刷卡数据进行人工标注,得到乘客类别,作为半监督学习中的已知类别的数据集,用于初始训练;
步骤四,按照实际情况,对地铁站进行等级划分,其中,所述的实际情况,具体为地理位置和地铁人流量这些因素;
步骤五,考虑影响地铁乘客类别的影响因素,分析建立模型时所需要的初始特征,其中,所述的初始特征,主要包括以下特征:
(1)进出地铁站的刷卡时间字段以及地铁站所处的等级;
(2)天气特征,划分为6个等级,晴天划分为等级1,多云和阴天划分为等级2,小雨划分为等级3,阵雨划分为等级4,中雨划分为等级5,剩余的情况划分为等级6;为适应模型的需要,需要进行量化,具体为:晴天量化为12,多云和阴天量化为10,小雨量化为8,阵雨量化为6,中雨量化为4,其他情况量化为2;
(3)温度特征,得到最高温度与最低温度;
(4)是否周末,分为工作日、周六与周日三种;为适应模型的需要,需要进行量化,具体为:工作日量化为6,周六为4,周日为2;
(5)风力特征,按照实际情况,划分为三个等级;为适应模型的需要,需要进行量化,具体为:无风或者微风量化为6,三级风力量化为4,其他量化为2;
(6)是否节假日,只考虑一些重要节假日,对于一些非重要节假日,当成普通日子进行处理;将节假日分为四个等级,其中,春节划分为等级4,清明、端午、元旦、国庆这四个节假日划分为等级3,劳动节划分为等级2,剩余的划分为等级1;为适应模型的需要,需要进行量化,具体为:春节量化为2,清明为4,劳动为6,其他为8;
步骤六,训练GBDT算法模型;
(1)GBDT算法模型是以决策树为基模型的;
(2)利用已知类别的那部分数据,进行特征工程,得到满足GBDT算法模型的特征表示,将该特征记为X';
(3)将数据划分为训练集和测试集;
(4)将已知的乘客类别作为目标y,特征作为输入x,传给GBDT算法模型,利用训练集训练GBDT算法模型,利用测试集测试GBDT算法模型的性能以及调整模型参数,得到准确度较高的模型;
步骤七,利用GBDT算法模型构建新特征;
(1)利用GBDT算法模型学习得到的树来对已经标注的数据构造新特征,记为X”;
(2)将该新特征X”加入原有特征X',一起构成了特征集X”';
步骤八,建立softmax算法模型;
(1)softmax算法模型的函数为
(2)将经过GBDT算法模型构建的新的特征集X”'划分为训练集和测试集,用softmax算法模型对训练集进行训练,用测试集测试模型自身的性能;
(3)得到softmax算法模型的模型参数;
步骤九,对其他未进行标注的数据,按照步骤一至步骤八的方法进行处理,得到具有与特征集X”'相同特征数量的特征;
步骤十,利用GBDT+softmax算法模型对地铁乘客进行分类。
本发明综合考虑了影响地铁乘客类别的外在因素,进出站时间,进出站的地铁等级,天气属性,风力属性、温度属性以及是否周末,从原始特征出发,利用GBDT算法模型构建影响地铁乘客类别的新特征,结合softmax算法模型的分类方法进行分类。
本发明以一卡通数据为依托,分析影响地铁乘客类别的因素,利用GBDT算法模型构建新特征,结合softmax算法模型进行地铁乘客分类,解决了计算量大、没有利用算法进行自动提取特征以及分类精度较低等技术问题,本发明考虑影响乘客类别的因素较为全面,利用GBDT算法模型根据已有特征构建出新特征,实现了特征的自动提取,算法模型简单,能解决现有方法分类效果较差等问题,提高了分类的精度。
上述为本发明较佳的实施方式,但本发明的实施方式并不受上述内容的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (3)

1.一种基于机器学习的地铁乘客分类方法,其特征在于,包括下述步骤:
步骤一,从一卡通公司获取城市全部地铁站的历史刷卡数据;
步骤二,对历史刷卡数据进行预处理,缺失值补0;
步骤三,对部分刷卡数据进行人工标注,得到乘客类别,作为半监督学习中的已知类别的数据集,用于初始训练;
步骤四,按照实际情况,对地铁站进行等级划分;
步骤五,考虑影响地铁乘客类别的影响因素,分析建立模型时所需要的初始特征;
步骤六,训练GBDT算法模型;
(1)GBDT算法模型是以决策树为基模型的;
(2)利用已知类别的那部分数据,进行特征工程,得到满足GBDT算法模型的特征表示,将该特征记为X';
(3)将数据划分为训练集和测试集;
(4)将已知的乘客类别作为目标y,特征作为输入x,传给GBDT算法模型,利用训练集训练GBDT算法模型,利用测试集测试GBDT算法模型的性能以及调整模型参数,得到准确度较高的模型;
步骤七,利用GBDT算法模型构建新特征;
(1)利用GBDT算法模型学习得到的树来对已经标注的数据构造新特征,记为X”;
(2)将该新特征X”加入原有特征X',一起构成了特征集X”';
步骤八,建立softmax算法模型;
(1)softmax算法模型的函数为
(2)将经过GBDT算法模型构建的新的特征集X”'划分为训练集和测试集,用softmax算法模型对训练集进行训练,用测试集测试模型自身的性能;
(3)得到softmax算法模型的模型参数;
步骤九,对其他未进行标注的数据,按照步骤一至步骤八的方法进行处理,得到具有与特征集X”'相同特征数量的特征;
步骤十,利用GBDT+softmax算法模型对地铁乘客进行分类。
2.根据权利要求1所述的基于机器学习的地铁乘客分类方法,其特征在于,步骤四中所述的实际情况,具体为地理位置和地铁人流量这些因素。
3.根据权利要求1所述的基于机器学习的地铁乘客分类方法,其特征在于,步骤五中所述的初始特征,主要包括以下特征:
(1)进出地铁站的刷卡时间字段以及地铁站所处的等级;
(2)天气特征,划分为6个等级,晴天划分为等级1,多云和阴天划分为等级2,小雨划分为等级3,阵雨划分为等级4,中雨划分为等级5,剩余的情况划分为等级6;
(3)温度特征,得到最高温度与最低温度;
(4)是否周末,分为工作日、周六与周日三种;
(5)风力特征,按照实际情况,划分为三个等级;
(6)是否节假日;将节假日分为四个等级,其中,春节划分为等级4,清明、端午、元旦、国庆这四个节假日划分为等级3,劳动节划分为等级2,剩余的划分为等级1。
CN201910232055.8A 2019-03-26 2019-03-26 一种基于机器学习的地铁乘客分类方法 Pending CN109978056A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910232055.8A CN109978056A (zh) 2019-03-26 2019-03-26 一种基于机器学习的地铁乘客分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910232055.8A CN109978056A (zh) 2019-03-26 2019-03-26 一种基于机器学习的地铁乘客分类方法

Publications (1)

Publication Number Publication Date
CN109978056A true CN109978056A (zh) 2019-07-05

Family

ID=67080611

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910232055.8A Pending CN109978056A (zh) 2019-03-26 2019-03-26 一种基于机器学习的地铁乘客分类方法

Country Status (1)

Country Link
CN (1) CN109978056A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110598747A (zh) * 2019-08-13 2019-12-20 广东工业大学 基于自适应k均值聚类算法的道路分类方法
CN112926701A (zh) * 2021-05-10 2021-06-08 北京人人云图信息技术有限公司 一种基于gcn半监督的航空乘客的分类方法和系统及其设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150036874A1 (en) * 2013-07-31 2015-02-05 Digitalglobe, Inc. Automatic generation of built-up layers from high resolution satellite image data
CN106203523A (zh) * 2016-07-17 2016-12-07 西安电子科技大学 基于梯度提升决策树半监督算法融合的高光谱图像分类
CN107067115A (zh) * 2017-04-26 2017-08-18 大连理工大学 一种基于忠实乘客的多特征地铁乘车人数预测方法
CN108764273A (zh) * 2018-04-09 2018-11-06 中国平安人寿保险股份有限公司 一种数据处理的方法、装置、终端设备及存储介质
CN109035003A (zh) * 2018-07-04 2018-12-18 北京玖富普惠信息技术有限公司 基于机器学习的反欺诈模型建模方法和反欺诈监控方法
CN109447273A (zh) * 2018-09-30 2019-03-08 深圳市元征科技股份有限公司 模型训练方法、广告推荐方法、相关装置、设备及介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150036874A1 (en) * 2013-07-31 2015-02-05 Digitalglobe, Inc. Automatic generation of built-up layers from high resolution satellite image data
CN106203523A (zh) * 2016-07-17 2016-12-07 西安电子科技大学 基于梯度提升决策树半监督算法融合的高光谱图像分类
CN107067115A (zh) * 2017-04-26 2017-08-18 大连理工大学 一种基于忠实乘客的多特征地铁乘车人数预测方法
CN108764273A (zh) * 2018-04-09 2018-11-06 中国平安人寿保险股份有限公司 一种数据处理的方法、装置、终端设备及存储介质
CN109035003A (zh) * 2018-07-04 2018-12-18 北京玖富普惠信息技术有限公司 基于机器学习的反欺诈模型建模方法和反欺诈监控方法
CN109447273A (zh) * 2018-09-30 2019-03-08 深圳市元征科技股份有限公司 模型训练方法、广告推荐方法、相关装置、设备及介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王天华: "基于改进的GBDT算法的乘客出行预测研究", 《中国优秀硕士学位论文全文数据库工程科技II辑》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110598747A (zh) * 2019-08-13 2019-12-20 广东工业大学 基于自适应k均值聚类算法的道路分类方法
CN110598747B (zh) * 2019-08-13 2023-05-02 广东工业大学 基于自适应k均值聚类算法的道路分类方法
CN112926701A (zh) * 2021-05-10 2021-06-08 北京人人云图信息技术有限公司 一种基于gcn半监督的航空乘客的分类方法和系统及其设备

Similar Documents

Publication Publication Date Title
CN106650767B (zh) 基于聚类分析和实时校正的洪水预报方法
CN108303108A (zh) 一种基于车辆历史轨迹的个性化路线推荐方法
CN113902011A (zh) 基于循环神经网络的城市轨道交通短时客流预测方法
CN109034448A (zh) 基于车辆轨迹语义分析和深度信念网络的轨迹预测方法
CN109034469A (zh) 一种基于机器学习的游客流量预测方法
CN109784416B (zh) 基于手机信令数据的半监督svm的交通方式判别方法
CN107944472B (zh) 一种基于迁移学习的空域运行态势计算方法
CN103942606A (zh) 基于果蝇智能优化算法的居民用电客户细分方法
CN107730059A (zh) 基于机器学习的变电站电量趋势预测分析的方法
WO2023050955A1 (zh) 一种基于功能混合度和集成学习的城市功能区识别方法
CN109978056A (zh) 一种基于机器学习的地铁乘客分类方法
CN113159149B (zh) 一种企业办公地址的识别方法及装置
CN109118020A (zh) 一种地铁车站能耗短期预测方法及其预测系统
CN104199840A (zh) 基于统计模型的智能地名识别技术
CN114997499A (zh) 一种半监督学习下的城市颗粒物浓度时空预测方法
CN112580636A (zh) 一种基于跨模态协同推理的图像美学质量评价方法
CN109146063A (zh) 一种基于重要点分割的多分段短期负荷预测方法
CN110245773A (zh) 一种多源实况时空预报因子提取及纳入模式解释应用的方法
CN110503485A (zh) 地理区域分类方法及装置、电子设备、存储介质
CN115100395A (zh) 一种融合poi预分类和图神经网络的城市街区功能分类方法
CN109583503A (zh) 一种可中断负荷预测方法
CN114511061A (zh) 基于深度神经网络的岸滨地区海雾能见度预报方法
CN113537569A (zh) 一种基于权重堆叠决策树的短时公交客流预测方法及系统
CN109242039A (zh) 一种基于候选标记估计的未标记数据利用方法
Mao et al. Naive Bayesian algorithm classification model with local attribute weighted based on KNN

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190705

WD01 Invention patent application deemed withdrawn after publication