CN114519388A - 一种基于高速etc收费数据的用户细分方法 - Google Patents

一种基于高速etc收费数据的用户细分方法 Download PDF

Info

Publication number
CN114519388A
CN114519388A CN202210114306.4A CN202210114306A CN114519388A CN 114519388 A CN114519388 A CN 114519388A CN 202210114306 A CN202210114306 A CN 202210114306A CN 114519388 A CN114519388 A CN 114519388A
Authority
CN
China
Prior art keywords
highway
user
trip
users
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210114306.4A
Other languages
English (en)
Inventor
常志宏
陈雪珲
贾健民
曹蓉
康传刚
马小刚
陈宏�
郭春晖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Jianzhu University
Shandong Hi Speed Co Ltd
Original Assignee
Shandong Jianzhu University
Shandong Hi Speed Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Jianzhu University, Shandong Hi Speed Co Ltd filed Critical Shandong Jianzhu University
Priority to CN202210114306.4A priority Critical patent/CN114519388A/zh
Publication of CN114519388A publication Critical patent/CN114519388A/zh
Priority to US18/094,243 priority patent/US20230245007A1/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • G06Q10/047Optimisation of routes or paths, e.g. travelling salesman problem
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/04Billing or invoicing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q2240/00Transportation facility access, e.g. fares, tolls or parking

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Theoretical Computer Science (AREA)
  • Economics (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Tourism & Hospitality (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Educational Administration (AREA)
  • Primary Health Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Traffic Control Systems (AREA)
  • Devices For Checking Fares Or Tickets At Control Points (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种基于高速ETC收费数据的用户细分方法,对高速公路收费数据进行预处理,提取高速公路用户分类所需的字段信息,并以高速公路用户车牌号为关键字段存储基础信息,形成高速公路用户的出行基础数据;对每一高速公路用户的高速收费记录按照时间排序,依据时间和空间的异常状态进行数据清洗,得到数据清洗之后的高速收费数据;依据清洗后的数据,分别提取高速公路用户时间指标、空间指标和个人属性指标三个维度的信息,形成用户分类评价指标体系,并完成高速公路用户的分类;以月为周期依据高速公路用户出行的时间指标和空间指标进行分类,识别通勤出行、营运出行、零星出行、商务出行各类出行。本发明信息全、精度高,为高速公路规划和建设提供依据。

Description

一种基于高速ETC收费数据的用户细分方法
技术领域
本发明涉及一种对高速公路用户识别和分类的方法。特别是涉及一种基于高速ETC收费数据的用户细分方法。
背景技术
高速公路是城市交通的组成部分,掌握高速公路用户的出行需求对于高速公路规划和管理具有重要意义。《交通强国建设纲要》对高速公路运营管理和出行服务提出更高的要求,而传统的MTC(Manual Toll Collection system)人工收费系统对于用户的数据字段涉及较少,无法对高速公路用户进行持续分析。此外,如果利用交通调查、问卷等人工调查方式,有周期长、采样率低、成本高等劣势,并且由于数据质量较低,难以达到预期效果。
随着信息技术和基础设施的发展,ETC系统得到广泛应用,并且随着高速公路的运营产生了海量的ETC收费数据。ETC收费数据具有唯一标识用户的特征,实现了一人一车一签,为识别高速公路用户的通勤、营运、商务和零星等出行提供了可能。在2020年10月,ETC不停车收费系统的使用率接近70%,覆盖了大部分的高速公路用户,通过挖掘用户的出行特征,为更深入的高速公路用户识别和分类提供了契机。
SOM是比较有代表性的半监督机器学习算法。与传统的k-means聚类和模糊聚类方法不同,SOM算法无需设置聚类数目的初始值,更加便于操作,它不仅可以自动寻找样本属性之间的内在联系,还可以降低数据的维度和复杂度,典型的SOM模型是层次结构,一般只有输入层和竞争层,对于大规模复杂数据的处理具有很大优势。
目前尚未有相关文献报导。
发明内容
本发明所要解决的技术问题是,为了克服现有技术的不足,提供一种能够快速、准确的对高速公路用户识别和分类的基于高速ETC收费数据的用户细分方法。
本发明所采用的技术方案是:一种基于高速ETC收费数据的用户细分方法,是针对高速公路用户的通勤出行、营运出行、商务出行、零星出行的出行目的进行识别,包括以下步骤:
1)对设定周期内高速公路收费数据进行预处理,提取高速公路用户分类所需的字段信息,并以高速公路用户车牌号为关键字段存储基础信息,形成高速公路用户的出行基础数据;
2)对设定周期内每一高速公路用户的高速收费记录按照时间排序,依据时间和空间的异常状态进行数据清洗,得到数据清洗之后的高速收费数据;
3)依据步骤2)清洗后的数据,分别提取设定周期内高速公路用户时间指标、空间指标和个人属性指标三个维度的信息,形成用户分类评价指标体系,并利用SOM聚类算法完成高速公路用户的分类;
4)以月为周期依据高速公路用户出行的时间指标和空间指标进行分类,识别通勤出行、营运出行、零星出行、商务出行各类出行。
步骤1)包括:按照用户的车牌号,对设定周期内高速收费记录进行排序,剔除字段缺失,车牌号错误的异常数据记录,形成以下出行基础数据存储格式,
[车牌号,进站时间,进站地点,出站时间,出站地点,计费距离,最终收费]。
步骤2)所述的依据时间的异常状态进行数据清洗是:读取设定周期内高速公路用户一次出行记录的出站时间和进站时间,并计算该记录下的行驶时间,如果行驶时间为负,即出站时间小于进站时间,或者行驶时间超过24小时,则判定本次消费记录为高速公路用户的时间异常数据,并剔除。
步骤2)所述的依据和空间的异常状态进行数据清洗是:读取设定周期内高速公路用户一次出行记录的出站时间、进站时间和计费距离,计算本次出行的行驶速度,若速度大于120km/h,或者计费距离大于1000km,则判定本次消费记录为高速公路用户的空间异常数据,并剔除。
步骤3)所述提取高速公路用户时间指标的方法为:统计设定周期内每个高速公路用户在设定周期内工作日出行和非工作日出行的天数,统计高峰时期和非高峰时期出行天数,其中所述的高峰时期为一天中的7:00-9:00的早高峰和17:00-19:00的晚高峰,其余时间为非高峰时期。
步骤3)所述的提取高速公路用户空间指标的方法为:提取高速公路每个用户在设定周期内出行中的所有收费站起终点并赋予编号a,然后依据编号统计设定周期内每个用户在每个起终点的出行频率,最后计算每个用户设定周期内在每个起终点的出行占比,计算公式如下:
Figure BDA0003495747940000021
Figure BDA0003495747940000022
其中,a为收费站设定周期内起终点编号,C为设定周期内高速公路每个用户的总出行频率,A为设定周期内每个用户经过的所有起终点集合,Ca为设定周期内每个用户在起终点a的出行频率,Qa为设定周期内每个用户在起终点a的出行占比。
步骤3)所述的提取高速公路用户个人属性指标的方法为:利用聚合函数计算每个高速公路用户在设定周期内的总出行计费距离,计算公式如下:
Figure BDA0003495747940000023
其中,a为收费站设定周期内起终点编号,A为设定周期内每个用户经过的所有起终点a的集合,S为高速公路每个用户的总出行计费距离,Sa为起终点a的单次计费距离。
步骤3)所述的利用SOM聚类算法完成高速公路用户的分类,是利用SOM聚类算法,输入提取的高速公路用户时间和空间的出行指标,设置自适应神经网络竞争层的尺寸为N*N,其中,N为神经元的数目,由如下公式得到:
Figure BDA0003495747940000024
其中sample是高速公路用户的数目
通过SOM聚类算法中的python-minisom工具完成聚类分析,并依据聚类分析结果计算每个聚类中高速公路用户在时间和空间指标上的平均值,形成以下存储格式,
Figure BDA0003495747940000031
步骤4)所述的识别通勤出行和营运出行的方法为:选择高速公路用户一周工作日平均出行超过3天的聚类ID,然后对所述的聚类ID中高速公路用户在7:00-9:00和17:00-19:00的高峰时段和非高峰时段出行的总天数,具体是选第k个进行计算,
Figure BDA0003495747940000032
Figure BDA0003495747940000033
其中,Wk为第k个月在高峰时段高速公路用户出行总天数;为Mk第k个月在非高峰时段高速公路用户出行总天数;
如果,Wk>Mk,那么该聚类ID高速公路用户包含的高速公路用户定义为通勤用户,否则,该聚类ID高速公路用户定义为日常营运用户。
步骤4)所述的识别零星出行和商务出行的方法为:选择高速公路用户一周工作日平均出行小于3天的聚类ID,然后对每个高速公路用户第k个月的所有起终点的出行频率进行计算:
Figure BDA0003495747940000034
Figure BDA0003495747940000035
其中,Pkj为第k个月在第j个起终点高速公路用户出行频率;Pk为第k个月高速公路用户总出行频率;q为起终点的总数;
计算该聚类ID的高速公路用户每一起终点在全部起终点的占比,如果最大的起终点占比超过40%,那么该聚类ID的高速公路用户定义为商务出行用户,否则,该聚类ID的高速公路定义为零星出行用户。
本发明的一种基于高速ETC收费数据的用户细分方法,优点在于:
(1)本发明充分利用高速公路ETC收费数据,可以快速、较准确的划分出通勤、日常营运、上午、零星出行用户,为高速公路规划和建设提供依据。
(2)本发明的基础数据来源于具有唯一标识的ETC用户高速出行记录,相对于传统的交通抽样调查等方法具有信息全、精度高的特点。
(3)本发明采用的SOM分类方法灵活易用,对于处理大规模的ETC收费数据具有显著优势,可以快速得到分类结果。
(4)本发明的高速公路用户分类结果可以较准确的反映出高速公路用户在出行时空分布上的差异,可以为高速公路运营和拥堵管理决策提供支持。
附图说明
图1是本发明一种基于高速ETC收费数据的用户细分方法的流程图;
图2是发明中SOM聚类示意图;
图3是发明中高速公路用户划分示意图。
具体实施方式
下面结合实施例和附图对本发明的一种基于高速ETC收费数据的用户细分方法做出详细说明。
本发明的一种基于高速ETC收费数据的用户细分方法,是针对高速公路用户的通勤出行、营运出行、商务出行、零星出行的出行目的进行识别,如图1所示,包括以下步骤:
1)对设定周期内高速公路收费数据进行预处理,提取高速公路用户分类所需的字段信息,并以高速公路用户车牌号为关键字段存储基础信息,形成高速公路用户的出行基础数据;包括:
按照用户的车牌号,对设定周期内高速收费记录进行排序,剔除字段缺失,车牌号错误的异常数据记录,形成以下出行基础数据存储格式,
[车牌号,进站时间,进站地点,出站时间,出站地点,计费距离,最终收费];
2)对设定周期内每一高速公路用户的高速收费记录按照时间排序,依据时间和空间的异常状态进行数据清洗,得到数据清洗之后的高速收费数据;其中,
所述的依据时间的异常状态进行数据清洗是:读取设定周期内高速公路用户一次出行记录的出站时间和进站时间,并计算该记录下的行驶时间,如果行驶时间为负,即出站时间小于进站时间,或者行驶时间超过24小时,则判定本次消费记录为高速公路用户的时间异常数据,并剔除;
所述的依据和空间的异常状态进行数据清洗是:读取设定周期内高速公路用户一次出行记录的出站时间、进站时间和计费距离,计算本次出行的行驶速度,若速度大于120km/h,或者计费距离大于1000km,则判定本次消费记录为高速公路用户的空间异常数据,并剔除
3)依据步骤2)清洗后的数据,分别提取设定周期内高速公路用户时间指标、空间指标和个人属性指标三个维度的信息,形成用户分类评价指标体系,并利用SOM聚类算法完成高速公路用户的分类;其中,
所述提取高速公路用户时间指标的方法为:统计设定周期内每个高速公路用户在设定周期内工作日出行和非工作日出行的天数,统计高峰时期和非高峰时期出行天数,其中所述的高峰时期为一天中的7:00-9:00的早高峰和17:00-19:00的晚高峰,其余时间为非高峰时期。
所述的提取高速公路用户空间指标的方法为:提取高速公路每个用户在设定周期内出行中的所有收费站起终点并赋予编号a,然后依据编号统计设定周期内每个用户在每个起终点的出行频率,最后计算每个用户设定周期内在每个起终点的出行占比,计算公式如下:
Figure BDA0003495747940000051
Figure BDA0003495747940000052
其中,a为收费站设定周期内起终点编号,C为设定周期内高速公路每个用户的总出行频率,A为设定周期内每个用户经过的所有起终点集合,Ca为设定周期内每个用户在起终点a的出行频率,Qa为设定周期内每个用户在起终点a的出行占比。
所述的提取高速公路用户个人属性指标的方法为:利用聚合函数计算每个高速公路用户在设定周期内的总出行计费距离,计算公式如下:
Figure BDA0003495747940000053
其中,a为收费站设定周期内起终点编号,A为设定周期内每个用户经过的所有起终点a的集合,S为高速公路每个用户的总出行计费距离,Sa为起终点a的单次计费距离。
所述的利用SOM聚类算法完成高速公路用户的分类,是利用如图2所示的SOM聚类算法,输入提取的高速公路用户时间和空间的出行指标,设置自适应神经网络竞争层的尺寸为N*N,其中,N为神经元的数目,由如下公式得到:
Figure BDA0003495747940000054
其中sample是高速公路用户的数目
通过SOM聚类算法中的python-minisom工具完成聚类分析,并依据聚类分析结果计算每个聚类中高速公路用户在时间和空间指标上的平均值,形成以下存储格式,
Figure BDA0003495747940000055
4)如图3所示,以月为周期依据高速公路用户出行的时间指标和空间指标进行分类,识别通勤出行、营运出行、零星出行、商务出行各类出行;其中,
所述的识别通勤出行和营运出行的方法为:选择高速公路用户一周工作日平均出行超过3天的聚类ID,然后对所述的聚类ID中高速公路用户在高峰时段(7:00-9:00,17:00-19:00)和非高峰时段出行的总天数,具体是选第k个进行计算,
Figure BDA0003495747940000056
Figure BDA0003495747940000057
其中,Wk为第k个月在高峰时段高速公路用户出行总天数;为Mk第k个月在非高峰时段高速公路用户出行总天数;
如果,Wk>Mk,那么该聚类ID高速公路用户包含的高速公路用户定义为通勤用户,否则,该聚类ID高速公路用户定义为日常营运用户。
所述的识别零星出行和商务出行的方法为:选择高速公路用户一周工作日平均出行小于3天的聚类ID,然后对每个高速公路用户第k个月的所有起终点的出行频率进行计算:
Figure BDA0003495747940000061
Figure BDA0003495747940000062
其中,Pkj为第k个月在第j个起终点高速公路用户出行频率;Pk为第k个月高速公路用户总出行频率;q为起终点的总数;
计算该聚类ID的高速公路用户每一起终点在全部起终点的占比,如果最大的起终点占比超过40%,那么该聚类ID的高速公路用户定义为商务出行用户,否则,该聚类ID的高速公路定义为零星出行用户。
下面给出具体实例:
按照本发明方法对某高速公路特定通道的2019年7月的ETC收费数据,如流程图所示,开展了基于高速ETC收费数据的通勤、营运、商务和零星出行用户划分。
步骤101、对高速ETC数据的进行预处理。
高速公路ETC收费数据量巨大,超过100G,为提高存储效率,将原始数据按照时间和空间特征提取关键字段,并对高速收费记录进行排序,剔除字段缺失,车牌号错误等异常数据记录,并形成以下基础数据存储格式,包含2000万条记录和140余万用户。
[车牌号,进站时间,进站地点,出站时间,出站地点,计费距离,最终收费]
步骤102、根据时间和空间异常判断对用户的出行记录进行清洗。
由于高速ETC数据存在系统录入、识别等错误,所以在数据处理之前要进行数据清洗,首先对每个用户的出行记录按照时间排序,然后进行如下步骤:
步骤1021、清洗时间异常数据记录。
读取高速公路用户一次出行记录的出站时间和进站时间,并计算该记录下的行驶时间,如果行驶时间为负(出站时间小于进站时间),或者行驶时间超过24小时,则判定本次消费记录为高速公路用户的时间异常数据。
步骤1022、清洗空间异常数据记录。
读取高速公路用户一次出行记录的出站时间、进站时间和计费距离,并计算本次出行的行驶速度,若速度大于120km/h,或者计费距离大于1000km,则判定本次消费记录为高速公路用户的空间异常数据。经过数据清洗,高速公路用户剩余约135万。
步骤1023、提取用户时间、空间和个人属性出行指标。
统计周期内工作日出行和非工作日出行的天数,以7:00-9:00作为早高峰、17:00-19:00作为晚高峰统计高峰时期和非高峰时期出行天数;统计高速公路用户出行中每个起终点的出行频率,并计算起终点在所有出行中的占比;利用聚合函数计算每个高速出行用户在研究时间段内的总出行频率和总出行计费距离,从而得到所有高速公路用户的出行指标,某个高速公路用户的出行指标如表1所示,
表1
Figure BDA0003495747940000071
步骤103、利用SOM聚类,完成高速公路用户聚类
利用SOM聚类方法中的python-minisom工具对上述的高速公路用户时间、空间和个人属性指标进行聚类分析,SOM聚类算法的输入参数包括高速公路用户工作日和非工作日的出行天数,月用户高峰和非高峰时期的出行天数,最常用起终点在所有出行的占比,并设置自适应神网络竞争层的尺寸为N×N=76×76。
经过SOM聚类最终得到6个分类,然后根据聚类编号ID计算本聚类中所有用户出行指标的平均值,对每个聚类形成表2所示的数据格式。
表2
Figure BDA0003495747940000072
步骤104、依据高速公路用户识别原则,划分通勤、营运、商务、零星出行用户
聚类1和聚类4的高速公路用户周均工作日出行均超过三次,但是聚类1的用户出行更加集中于高峰时期,而聚类4出行时间更加分散,从而聚类1定义为通勤用户,而聚类4定义为营运用户。其余聚类2、聚类3、聚类5和聚类6的高速公路用户出行次数均较少,在工作日周均出行小于3次,但是聚类3的出行中,最常用起终点出行占比超过40%,出行路线较为集中,从而聚类3定义为商务出行用户,而剩余聚2、5和6类均定义为零星出行用户。
提供以上实施例仅仅是为了描述本发明的目的,而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改,均应涵盖在本发明的范围之内。

Claims (10)

1.一种基于高速ETC收费数据的用户细分方法,其特征在于,是针对高速公路用户的通勤出行、营运出行、商务出行、零星出行的出行目的进行识别,包括以下步骤:
1)对设定周期内高速公路收费数据进行预处理,提取高速公路用户分类所需的字段信息,并以高速公路用户车牌号为关键字段存储基础信息,形成高速公路用户的出行基础数据;
2)对设定周期内每一高速公路用户的高速收费记录按照时间排序,依据时间和空间的异常状态进行数据清洗,得到数据清洗之后的高速收费数据;
3)依据步骤2)清洗后的数据,分别提取设定周期内高速公路用户时间指标、空间指标和个人属性指标三个维度的信息,形成用户分类评价指标体系,并利用SOM聚类算法完成高速公路用户的分类;
4)以月为周期依据高速公路用户出行的时间指标和空间指标进行分类,识别通勤出行、营运出行、零星出行、商务出行各类出行。
2.根据权利要求1所述的一种基于高速ETC收费数据的用户细分方法,其特征在于,步骤1)包括:按照用户的车牌号,对设定周期内高速收费记录进行排序,剔除字段缺失,车牌号错误的异常数据记录,形成以下出行基础数据存储格式,
[车牌号,进站时间,进站地点,出站时间,出站地点,计费距离,最终收费]。
3.根据权利要求1所述的一种基于高速ETC收费数据的用户细分方法,其特征在于,步骤2)所述的依据时间的异常状态进行数据清洗是:读取设定周期内高速公路用户一次出行记录的出站时间和进站时间,并计算该记录下的行驶时间,如果行驶时间为负,即出站时间小于进站时间,或者行驶时间超过24小时,则判定本次消费记录为高速公路用户的时间异常数据,并剔除。
4.根据权利要求1所述的一种基于高速ETC收费数据的用户细分方法,其特征在于,步骤2)所述的依据和空间的异常状态进行数据清洗是:读取设定周期内高速公路用户一次出行记录的出站时间、进站时间和计费距离,计算本次出行的行驶速度,若速度大于120km/h,或者计费距离大于1000km,则判定本次消费记录为高速公路用户的空间异常数据,并剔除。
5.根据权利要求1所述的一种基于高速ETC收费数据的用户细分方法,其特征在于,步骤3)所述提取高速公路用户时间指标的方法为:统计设定周期内每个高速公路用户在设定周期内工作日出行和非工作日出行的天数,统计高峰时期和非高峰时期出行天数,其中所述的高峰时期为一天中的7:00-9:00的早高峰和17:00-19:00的晚高峰,其余时间为非高峰时期。
6.根据权利要求1所述的一种基于高速ETC收费数据的用户细分方法,其特征在于,步骤3)所述的提取高速公路用户空间指标的方法为:提取高速公路每个用户在设定周期内出行中的所有收费站起终点并赋予编号a,然后依据编号统计设定周期内每个用户在每个起终点的出行频率,最后计算每个用户设定周期内在每个起终点的出行占比,计算公式如下:
Figure FDA0003495747930000021
Figure FDA0003495747930000022
其中,a为收费站设定周期内起终点编号,C为设定周期内高速公路每个用户的总出行频率,A为设定周期内每个用户经过的所有起终点集合,Ca为设定周期内每个用户在起终点a的出行频率,Qa为设定周期内每个用户在起终点a的出行占比。
7.根据权利要求1所述的一种基于高速ETC收费数据的用户细分方法,其特征在于,步骤3)所述的提取高速公路用户个人属性指标的方法为:利用聚合函数计算每个高速公路用户在设定周期内的总出行计费距离,计算公式如下:
Figure FDA0003495747930000023
其中,a为收费站设定周期内起终点编号,A为设定周期内每个用户经过的所有起终点a的集合,S为高速公路每个用户的总出行计费距离,Sa为起终点a的单次计费距离。
8.根据权利要求1所述的一种基于高速ETC收费数据的用户细分方法,其特征在于,步骤3)所述的利用SOM聚类算法完成高速公路用户的分类,是利用SOM聚类算法,输入提取的高速公路用户时间和空间的出行指标,设置自适应神经网络竞争层的尺寸为N*N,其中,N为神经元的数目,由如下公式得到:
Figure FDA0003495747930000024
其中sample是高速公路用户的数目
通过SOM聚类算法中的python-minisom工具完成聚类分析,并依据聚类分析结果计算每个聚类中高速公路用户在时间和空间指标上的平均值,形成以下存储格式,
Figure FDA0003495747930000025
9.根据权利要求1所述的一种基于高速ETC收费数据的用户细分方法,其特征在于,步骤4)所述的识别通勤出行和营运出行的方法为:选择高速公路用户一周工作日平均出行超过3天的聚类ID,然后对所述的聚类ID中高速公路用户在7:00-9:00和17:00-19:00的高峰时段和非高峰时段出行的总天数,具体是选第k个进行计算,
Figure FDA0003495747930000026
Figure FDA0003495747930000027
其中,Wk为第k个月在高峰时段高速公路用户出行总天数;为Mk第k个月在非高峰时段高速公路用户出行总天数;
如果,Wk>Mk,那么该聚类ID高速公路用户包含的高速公路用户定义为通勤用户,否则,该聚类ID高速公路用户定义为日常营运用户。
10.根据权利要求1所述的一种基于高速ETC收费数据的用户细分方法,其特征在于,步骤4)所述的识别零星出行和商务出行的方法为:选择高速公路用户一周工作日平均出行小于3天的聚类ID,然后对每个高速公路用户第k个月的所有起终点的出行频率进行计算:
Figure FDA0003495747930000031
Figure FDA0003495747930000032
其中,Pkj为第k个月在第j个起终点高速公路用户出行频率;Pk为第k个月高速公路用户总出行频率;q为起终点的总数;
计算该聚类ID的高速公路用户每一起终点在全部起终点的占比,如果最大的起终点占比超过40%,那么该聚类ID的高速公路用户定义为商务出行用户,否则,该聚类ID的高速公路定义为零星出行用户。
CN202210114306.4A 2022-01-30 2022-01-30 一种基于高速etc收费数据的用户细分方法 Pending CN114519388A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210114306.4A CN114519388A (zh) 2022-01-30 2022-01-30 一种基于高速etc收费数据的用户细分方法
US18/094,243 US20230245007A1 (en) 2022-01-30 2023-01-06 User segmentation method based on toll data of expressway electronic toll collection

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210114306.4A CN114519388A (zh) 2022-01-30 2022-01-30 一种基于高速etc收费数据的用户细分方法

Publications (1)

Publication Number Publication Date
CN114519388A true CN114519388A (zh) 2022-05-20

Family

ID=81596284

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210114306.4A Pending CN114519388A (zh) 2022-01-30 2022-01-30 一种基于高速etc收费数据的用户细分方法

Country Status (2)

Country Link
US (1) US20230245007A1 (zh)
CN (1) CN114519388A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115440040A (zh) * 2022-09-02 2022-12-06 重庆大学 一种基于高速公路通行数据的通勤车辆识别方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115440040A (zh) * 2022-09-02 2022-12-06 重庆大学 一种基于高速公路通行数据的通勤车辆识别方法
CN115440040B (zh) * 2022-09-02 2023-09-22 重庆大学 一种基于高速公路通行数据的通勤车辆识别方法

Also Published As

Publication number Publication date
US20230245007A1 (en) 2023-08-03

Similar Documents

Publication Publication Date Title
CN107305590B (zh) 一种基于手机信令数据的城市交通出行特征确定方法
Li et al. Comprehensive comparison of e-scooter sharing mobility: Evidence from 30 European cities
WO2020238631A1 (zh) 一种基于手机信令数据的人群类型识别方法
CN108346292B (zh) 基于卡口数据的城市快速路实时交通指数计算方法
CN107133318B (zh) 一种基于手机信令数据的人口识别方法
CN104318324B (zh) 基于出租车gps记录的机场巴士站点及路线规划方法
CN105206048B (zh) 一种基于交通od数据的城市居民群体换乘模式发现系统及方法
CN107610469A (zh) 一种考虑多因素影响的日维度区域交通指数预测方法
CN111813835B (zh) 一种基于手机信令和poi数据的公共活动中心识别系统
CN105740904A (zh) 一种基于dbscan聚类算法的出行与活动模式识别方法
CN112734532A (zh) 基于共享电单车借还车点数据的通勤行为识别方法
CN114596700B (zh) 一种基于门架数据的高速公路路段实时流量估计方法
Xiong et al. Understanding operation patterns of urban online ride-hailing services: A case study of Xiamen
Yang et al. Daily metro origin-destination pattern recognition using dimensionality reduction and clustering methods
CN111768619A (zh) 一种基于卡口数据的快速路车辆od点确定方法
CN114463972A (zh) 一种基于etc门架通信数据的路段区间交通分析预测方法
Yao et al. Understanding vehicles commuting pattern based on license plate recognition data
US20230245007A1 (en) User segmentation method based on toll data of expressway electronic toll collection
CN102324111B (zh) 基于公交ic卡数据的车辆运行方向判断方法
CN108256923A (zh) 一种基于车辆通行特征的etc客户细分方法
CN108681741B (zh) 基于ic卡和居民调查数据的地铁通勤人群信息融合方法
Song et al. Public transportation service evaluations utilizing seoul transportation card data
CN114912657B (zh) 一种基于多种收费票制的公交客流od推导方法
Chen et al. Customized bus line design model based on multi-source data
CN115510056A (zh) 一种利用手机信令数据进行宏观经济分析的数据处理系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination