CN110543503A - 针对固定桩位共享单车骑行规律和异常行为的数据挖掘方法 - Google Patents
针对固定桩位共享单车骑行规律和异常行为的数据挖掘方法 Download PDFInfo
- Publication number
- CN110543503A CN110543503A CN201910839584.4A CN201910839584A CN110543503A CN 110543503 A CN110543503 A CN 110543503A CN 201910839584 A CN201910839584 A CN 201910839584A CN 110543503 A CN110543503 A CN 110543503A
- Authority
- CN
- China
- Prior art keywords
- riding
- time
- abnormal
- behavior
- space
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 206010000117 Abnormal behaviour Diseases 0.000 title claims abstract description 35
- 238000007418 data mining Methods 0.000 title claims abstract description 15
- 230000006399 behavior Effects 0.000 claims abstract description 92
- 230000002159 abnormal effect Effects 0.000 claims abstract description 42
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 238000009826 distribution Methods 0.000 claims description 39
- 238000004458 analytical method Methods 0.000 claims description 12
- 230000000737 periodic effect Effects 0.000 claims description 7
- 238000005457 optimization Methods 0.000 abstract description 6
- 238000012800 visualization Methods 0.000 abstract description 5
- 238000005516 engineering process Methods 0.000 abstract description 4
- 238000011160 research Methods 0.000 abstract description 3
- 230000009467 reduction Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 5
- 230000001351 cycling effect Effects 0.000 description 4
- 238000005065 mining Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 208000025174 PANDAS Diseases 0.000 description 1
- 208000021155 Paediatric autoimmune neuropsychiatric disorders associated with streptococcal infection Diseases 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000003442 weekly effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/248—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Data Mining & Analysis (AREA)
- Human Resources & Organizations (AREA)
- General Engineering & Computer Science (AREA)
- Development Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Probability & Statistics with Applications (AREA)
- General Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Marketing (AREA)
- Game Theory and Decision Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Fuzzy Systems (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Remote Sensing (AREA)
- Educational Administration (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了针对固定桩位共享单车骑行日志的骑行规律和异常行为数据挖掘方法,该方法通过数据预处理、可视化技术将共享单车骑行行为分别在时间和空间进行直观展示,以共享单车骑行开始和结束时间、骑行者类型等为研究对象,引入骑行数量等分别对骑行行为进行时间和空间维度上的挖掘,借助统计和岭回归等方法获得时空上的骑行规律,并依据时空规律提出不同周期时间尺度下的空间优化方案。同时借助boxplot方法对时间上的骑行行为和空间上的共享单车进行异常识别,并提出减少异常状态的方案。通过共享单车时空上的优化调度和异常状态的减少,可以提高共享单车的使用效率。
Description
技术领域
本发明属于物联网技术领域,涉及大数据分析,尤其是一种针对固定桩位共享单车骑行规律和异常行为的数据挖掘方法。
背景技术
共享单车伴随着绿色出行的倡导和共享经济的先进理念在我国各大城市获得指数级的发展,比如膜拜单车等典型企业已经有千万级的使用者。伴随经济的发展,城市面积急速扩张。为此,大城市常通过建设轨道交通的方式解决城市交通拥堵问题。但是在共享单车诞生之前,作为轨道交通站点接驳工作单位或居住地等之间“最后一公里”难题始终难以得到较好解决。
共享单车的出现,几乎解决了大城市出行“最后一公里”这一难题。之所以用“几乎解决”而不是完全解决,是因为在共享单车使用中,还存在一些问题,比如在早高峰和晚高峰,常常发现共享单车不是容易找到。这其中主要有共享单车调度需要优化的问题,也有共享单车使用和维护中出现的一些问题,比如有些使用者通过安装私锁或毁坏共享单车唯一标志码等方式实现本该共享的单车变成“独享”单车。而有些共享单车损坏后,长期得不到维修,这样些问题都使得共享单车的有效供给小于共享单车的实际数量。
因此,如果能通过共享单车已有交易数据挖掘出人们的出行规律,则可以为共享单车的调度优化提供坚实的基础;如果能通过共享单车已有交易数据挖掘出共享单车的异常使用行为,则可以快速发现损坏的共享单车或“独享”的单车,通过修理或惩罚等措施,可以实现共享单车有效供给的增加。但一方面因为共享单车近年才兴起,属于新事物,相关数据较少,另一方面,由于数据资源的不公开,也少有人能接触到相关数据。
为此,本发明将以某市固定桩位的近1700万条共享单车交易记录为发明的实施例子,利用python语言中的可视化模块实现出行行为的可视化;同时利用共享单车交易记录中使用者的性别、年龄人口特征获得使用者分布规律;另外分别以共享单车每次骑行的出发时刻、终止时刻、骑行时间长度、起点和终点为研究对象,获得这些变量的统计分布规律,也即该市的出行规律;以每一辆共享单车的时间序列行为为研究对象,借助boxplot方法,获得异常的共享单车,从而为消除对应异常行为采取相应的措施,可以增加共享单车的有效供给。
发明内容
针对现有技术中存在的不足,本发明提供一种基于固定桩位共享单车骑行日志的骑行规律和异常行为数据挖掘方法,该方法用于共享单车骑行时空规律的挖掘,异常骑行行为的识别,并给出共享单车优化配置的方法,实现共享单车时空投放上的均衡和优化,减少异常骑行行为,最终达成提高共享单车的使用效率,降低运营成本的目的。
本发明采取的技术方案是:
针对固定桩位共享单车骑行规律和异常行为的数据挖掘方法,其特征在于:包括如下步骤:
步骤1:数据预处理,将原始固定桩位共享单车骑行日志导入分析系统;
步骤2:固定桩位共享单车骑行行为分析;
2.1分析时间周期下骑行数量的分布状态,时间周期分别包括年、周、日;
2.2分析空间各固定桩位在一天内的加气行为;
2.3优化调度;
步骤3:异常行为识别;
3.1基于时间维度的异常骑行行为识别:
基于单次骑行时间长度为单一变量,利用boxplot方法识出基于该变量的某次骑行是否属于异常行为;
3.2基于空间维度的异常共享单车识别:
基于每辆共享单车所经历的站的数量为变量,利用boxplot方法识别基于该变量的某辆单车是否为异常状态;
3.3减少异常行为的方案;
基于时间维度和空间维度识别的异常行为特征,提出针对性的减少异常行为的方案。
进一步的,所述步骤2.1包括如下步骤:
2.1.1定义开锁为一次骑行行为,定义骑行总次数numStart;
2.1.2引入不同属性的变量,建立相应骑行总次数的函数,属性包括用户类型,出行时间,
出生年龄;
2.1.3分别获取1年内各月,一周内各天和一天内各小时的总骑行人次,并建立箱型图;
2.1.4统计分析在这年、周和日内骑行分布,利用岭回归方法建立拟合曲线方程;
2.1.5比较各周期性时间长度下的骑行次数中位数,获得在此时间段内各共享单车的不同属性对共享单车的需求强度。
进一步的,所述步骤2.2包括如下步骤:
2.2.1分别引入基于各站点的骑行出发总数,骑行到达总数,骑行总数,以及骑行出发与到达之差变量;
2.2.2分析年内,周内、天内加气行为在空间上的分布;
2.2.3为共享单车空间调度和布局提供可行性分析。
进一步的,所述步骤2.3包括如下步骤:
2.3.1优化一天内的共享单车空间调度;
2.3.2优化一周内的共享单车空间调度;
2.3.3优化一年内的共享单车空间调度。
本发明的优点和积极效果是:
1、本发明中,引入已获取的原始数据信息加载至数据库中,作为数据挖掘和对异常骑行行为进行识别的基础。引入基于属性等骑行开始和结束时间、骑行者类型、骑行者性别及出生年份,以及变量等不同周期时间尺度下的骑行数量,利用统计和岭回归方法从时间和空间角度对骑行行为规律进行挖掘,获得共享出行在时空上的分布规律。
2、本发明中,利用boxplot方法基于属性等骑行时间长度和变量等各共享单车经过站点数量及其占比,分别对时间上的异常骑行行为和空间上的异常共享单车进行识别。
3、本发明中,基于通过数据挖掘获得的共享单车的时空出行规律和异常识别结果,提出共享单车在不同周期时间尺度下的空间优化调度方案,提出减少异常行为和异常状态的方法,以提高共享单车使用效率,达成降低运营成本的目的。
附图说明
图1为本发明的流程图;
图2为某市共享单车一小时内骑行量的时间序列图;
图3为在研究时段内,某市共享单车骑行总数量在各固定桩位上的空间分布图;
图4为某市年内各月骑行数量的boxplot图及岭回归图;
图5为某市周内各天骑行数量的boxplot图及岭回归图;
图6为某市天内各小时骑行数量的boxplot图及岭回归图;
图7为某市年内各月男性、女性和Customer用户骑行数量中位数时间序列图;
图8为某市周内各天男性、女性和Customer用户骑行数量中位数时间序列图;
图9为某市天内各小时男性、女性和Customer用户骑行数量中位数时间序列图;
图10为某市骑行数量的骑行者出生年份分布图;
图11为各站点出发骑行行为总数在月、天和小时这三个时间尺度下前5%总数分布图;
图12为各站点出发骑行行为总数在月、天和小时这三个时间尺度下前5%均值分布图;
图13为Subscriber在月、天和小时这三个时间尺度下的骑行均值前5%站点分布图;
图14为Customer在月、天和小时这三个时间尺度下的骑行均值前5%站点分布图;
图15为一天内各小时各站点出发与到达骑行行为数量之差均值的前5%分布图;
图16为一天内各小时各站点出发与到达骑行行为数量之差均值的后5%分布图;
图17为基于各共享单车经过的站点数与总站点数及均值等识别异常共享单车结果图。
具体实施方式
下面结合实施例,对本发明进一步说明,下述实施例是说明性的,不是限定性的,不能以下述实施例来限定本发明的保护范围。
针对固定桩位共享单车骑行规律和异常行为的数据挖掘方法,本发明的创新在于,包括如下步骤:
步骤1:数据预处理,将原始固定桩位共享单车骑行日志导入分析系统;
伴随技术的进步,包括共享单车骑行日志在内的事件发生的时空坐标及有关特征变量的记录、传输和存储成为可能。表1给出了某市共享单车日志记录的部分数据。表1中每一行代表一次骑行行为,每一列表示该次骑行行为中的各特征变量的值。其中第一列(trip_id)表示该次骑行行为的骑行行为编号,其间接标注了该次骑行行为在该市中的骑行序号。每次骑行行为的空间坐标由第二、三表征,分别表示骑行行为开始的时间(start_time)和结束的时间(end_time)。每次骑行行为的空间坐标由第六至第九列表示,其中固定桩位站点的编号和名称是一一对应关系,因此对于一次骑行行为,即可以用出发和结束站点的编号,也可以用出发和结束站点名称表示骑行行为的空间坐标。在本发明实例中,分析空间行为时使用站点编号,而可视化骑行行为空间分布时,借助站点名称获得站点的经纬度坐标,从而获得骑行行为在地图上可视化时的真正坐标。其余的列数据都记录了每次骑行行为的特征变量,如第四列记录了每次骑行的共享单车编号,第五列记录每次骑行的时间长度,该变量实际可以通过第三列和第二列数据计算获得。而第十一至十三列表示每次骑行者的类型及人口特征,如果骑行者为Subscriber,则第十二和十三列分别给出该骑行者的性别和出生年份,如果骑行者为Customer,则骑行者的性别和出生年份均不给出,值为空。
通过Python编写程序,将表1所示的某城市的骑行日志记录加载进入mongoDB数据库系统,为进一步分析奠定基础;mongoDB数据库作为典型的非关系型开源数据库,既能兼顾不同记录格式的历史数据,还能免费使用而降低成本;
表1某城市的骑行日志记录(部分)
借助Python语言中的Matplotlib模块和Pandas模块提供的可视化技术,展示了该市时间上1小时内的骑行人次总数的时间序列图(如图2所示)和空间上各固定桩位站点的总骑行人次总数空间分布图(如图3所示);
在时间上,由图2可以直观发现,骑行行为在时间上呈周期性变化,在每年年中骑行都处于高峰期间,而年末则处于低谷期间。因此,在时间上骑行不是均匀分布的,共享单车从时间角度具有优化的可能性。
在空间上,图3也展示了骑行行为的分布具有不均衡性,这说明共享单车从空间角度也具有优化的可能性。
步骤2:固定桩位共享单车骑行行为分析;
2.1分析时间周期下骑行数量的分布状态,时间周期分别包括年、周、日;
2.1.1定义开锁为一次骑行行为,定义骑行总次数numStart;
2.1.2引入不同属性的变量,建立相应骑行总次数的函数,属性包括用户类型,出行时间,出生年龄;
骑行总次数numStart为时间t、客户类型和出生年龄
和其他属性(如用户类型、出生年龄、性别)的函数,numStart=numStart(t),即:
numStart=numStart(usertype)=∑t∑birthdaynumStart(t,usertype,birthyear);
numStart=numStart(birthyear)=∑t∑usertypenumStart(t,usertype,birthyear);
2.1.3分别获取1年内各月,一周内各天和一天内各小时的总骑行人次,并建立箱型图;
如果统计量numStart的时间长度限定为一年内的各月,则可得年度内12个月的骑行行为统计量;即
numStart=numStart(month)=∑t∈month∑usertype∑birthdaynumStart(t,usertype,birthyear)
其中month的取值为1到12,第一个求和号通过python中datetime模块的t.month来实现;
由于示例的数据时间跨度时2013年6月到2018年12月,故对每年的每一个月份,numStart(month)有5个(1至5月)或6个数(6至12月),图4利用boxplot分别展示每月这些数的中值(盒中间的横线)、均值(倒三角形)、1/4分位数(盒下底部)、3/4分位数(盒上顶部)以及正常值的上下边界(盒的上下须);
如果统计量numStart的时间长度限定为一周内的各天,则可得周内7天的骑行行为统计量;即
numStart=numStart(weekday)=
∑t∈weekday∑usertype∑birthdaynumStart(t,usertype,birthyear)
其中weekday的取值为1到7,第一个求和号通过python中datetime模块的t.weekday()来实现;
对每周中的各天,有287个数据,或者说本发明示例的数据跨越287周,numStart的boxplot图见图5;
如果统计量numStart的时间长度限定为一天内的各小时,则可得天内24小时的骑行行为统计量。即
numStart=numStart(hour)=∑t∈hour∑usertype∑birthdaynumStart(t,usertype,birthyear)
其中hour的取值为1到24,第一个求和号通过python中datetime模块的t.hour来实现;
对每天中的各小时,有2014个数据,即本发明示例的数据跨越2014天,其numStart(hour)的boxplot图见图6;
2.1.4统计分析在这年、周和日内骑行分布,利用岭回归方法建立拟合曲线方程;
对图4,年内拟合曲线方程为:
numStart(month)=-1.13427804e(+03)*month1-1.20597739e(+03)*month2+6.65620062e(+02)*mont h3+2.51453411e(+03)*month4-1.58541256e(+03)*month5+5.17992425e(+02)*month6-9.51689782e(+01)*month7+9.62882183e(+00)*month8-5.01065103e(-01)*month9+1.04972031e(-02)*month10
对图5,周内拟合曲线方程为:
numStart(weekday)=1.09799435e(+01)*weekday1+2.42368182e(+01)*weekday2+3.37177900e(+01)*weekday3+2.67691678e(+01)*weekday4-6.11784700e(+00)*weekday5-3.31689619e(+01)*weekday6+2.13594778e(+01)*weekday7-5.27278963e(+00)*weekday8+5.88326748e(-01)*weekday9-2.48087525e(-02)*weekday10
对图6,日内拟合曲线方程为:
numStart(hour)=-3.7728352e(+02)*hour1+4.1048114e(+02)*hour2-2.08314890e(+02)*hour3+5.37467451e(+01)*hour4-7.65746556e(+00)*hour5+6.38345800e(-01)*hour6-3.16982550e(-02)*hour7+9.12815247e(-04)*hour8-1.38293924e(-05)*hour9+8.2699760e(-08)*hour10
2.1.5比较各周期性时间长度下的骑行次数中位数,获得在此时间段内各共享单车的不同属性对共享单车的需求强度。
有记录以来,月、天和小时尺度下的总骑行次数的行为分别如图7-9所示;
其中图7为月度数据,可以发现在一年之内各月的行为具有强的周期性,冬天骑行少,而春夏较多;因此年内月尺度下的周期性行为反映的是一年四季温度等的周期性现象;
图8为天尺度下的行为,图中数据表明也有周期性;典型的是,周六和周日,用户类型为Customer的骑行者总数跃升为第一;因此周内的天尺度下的周期性行为反映的是一周中工作日和周末周期性现象;
图9为小时尺度下的行为,图中数据表明一天内的骑行行为具有周期性;典型的是,白天骑行总体较多,夜晚较少,深夜特别少,上下班高峰期骑行多;这反映的是一天内作息规律周期性;
图10展示了骑行行为在各年龄中的分布。
2.2分析空间各固定桩位在一天内的加气行为;
2.2.1分别引入基于各站点的骑行出发总数,骑行到达总数,骑行总数,以及骑行出发与到达之差等变量;
包括从各站点出发的所有骑行人次(用numStart[i]表示从i站点出发的骑行总次数)分布;
各站点骑行到达人次(用numEnd[i]表示到达i站点的骑行总次数)分布;
定义某站点的总骑行次数(用numTotal[i]表示i站点的到达和出发骑行总次数)为从该点出发的的骑行次数(numStart[i])和到达该站点的骑行次数(numEnd[i])之和,即
numTotal[i]=numStart[i]+numEnd[i]
定义某站点每天的骑行数量(numPerDay[i])为
numPerDay[i]=numTotal[i]*1.0/(numDays[i])
其中numDays[i]表示i站点运营总天数;
还需要继续定义i站点的出发骑行次数与到达次数之差(numStartMinusEnd[i]用表示i站点出发骑行次数与到达该站点的次数之差)为
numStartMinusEnd[i]=numStart[i]-numEnd[i]
该量为正表示i站点的骑行出发数量大于到达数量,表示该站点共享单车欠缺,需要从共享单车剩余的站点将共享单车运到该站补充;该量为负表示i站点。
2.2.2分析年内,周内、天内加气行为在空间上的分布;
依据如上相同的定义变量,只是将统计各时间尺度下的变量值;
对于年内分析,计算各站点每年各月的统计量。比如i站点年内统计变量,分别计算该固定桩位站点j月份(j取值1到12)的出发骑行总次数月均值numStartM[i][j],到达骑行总次数月均值numEndM[i][j],总骑行次数月均值numTotalM[i][j],每天骑行次数numPerDayM[i][j]以及出发与到达骑行次数之差月均值numStartMinusEndM[i][j];
对于周内分析,计算各站点每天的统计量。比如i站点周内统计变量,分别计算该固定桩位站点星期j(j取值位1到7,其中j=7表示星期天)的总骑行次数周均值numStartW[i][j],到达骑行总次数周均值numEndW[i][j],总骑行次数周均值numTotalW[i][j],每天的骑行次数numPerDayW[i][j]以及出发与到达骑行次数之差周均值numStartMinusEndW[i][j];
对天内分析,计算各站点每小时的统计量。比如i站点天内统计变量,分别计算该固定桩位站点j小时(j取值位0到23,其中j=0表示0点到1点,而23表示23点到0点之间的相关骑行统计量)的总骑行次数时均值numStartH[i][j],到达骑行总次数时均值numEndH[i][j],总骑行次数时均值numTotalH[i][j],每时的骑行次数numPerHour[i][j]以及出发与到达骑行次数之差时均值numStartMinusEndH[i][j];
结合骑行者的属性,即骑行者分为Customer和Subscriber,后者又可以继续分为Male和Female,以及部分属性的所有骑行行为,即Total,可以进行上述三种时间尺度下的各类骑行者的骑行行为分析;
结合骑行行为的属性,即骑行是Start,End,以及骑行行为二者的差(即某站点Start骑行减去End骑行)与和(即某站点发生的骑行行为和,Start行为加上End行为),进行上述三种时间尺度下的骑行行为分析;
图11和图12分别表示各站点出发的骑行行为总数在三个时间尺度下的前5%(31个站点)的总数和均值分布图;
类似于11和12的图还可以分别对属性其他骑行者的属性和骑行行为的属性进行分析,由于各站点投入使用的时间不一致,因此衡量骑行行为空间分布更好的量是各属性行为的均值;比如Subscriber和Customer的在三个时间尺度下的骑行均值空间分布的前5%分别见图13和图14;而对于各站点出发与到达骑行行为之差的属性变量,可以获得前5%和后5%的站点空间分布,其中一周内各天骑行差的均值的行为规律如图15和图16所示,而一天内每小时,一年内各月的骑行差的均值及总数都可以类似作图。
2.2.3为共享单车空间调度和布局提供可行性分析;
从骑行行为的空间分布看,空间上骑行具有不均衡性,需要辅助调度;本发明提供的骑行空间规律挖掘发现有一些站点持续有出行大于达到(如图15),而另一些站点则持续有到达行为多余出发行为(如图16),因此调度可以在这两类行为之间进行。
2.3优化调度;
2.3.1优化一天内的共享单车空间调度;
在时间上,不论是Subscriber还是Customer用户,一天内的骑行行为主要发生在6点到21点之间。由图6看出,一天之内各小时出发骑行数量具有明显的不均衡分布。
进一步依据骑行者属性进行分类的骑行行为规律(见图7-9)表明不同类型的骑行者在时间上具有不均衡性。其中从一天内骑行行为规律(见图9)来看,Subscriber用户的骑行在9点和18点分别有两个高峰,即在7点道9点之间,以及16到18点之间的骑行行为是Subscriber骑行最多的,这刚好说明Subscriber主要是上班的人员。进一步的佐证见图8,即Subscriber周六和周日骑行较少。而Customer则主要在周末骑行,且一天内的骑行行为分布是单峰的,这说明Customer主要是游客为主。因此,工作日调配主要考虑Subscriber的骑行规律,而周末则主要考虑Customer的骑行规律。即工作日调配时间主要集中于7点至10点和16至19点两个高峰时段,而Customer则需要在10点至19点之间持续调度。
在空间上,进一步分析空间站点上的分布行为,发现Customer的高峰出行站点和Subscriber的不一样(如图15和图16,图中的C与S分别表示Customer和Subscriber)。因此,上班日和周末调配的空间布局上有不同,应该依据两类骑行人群的出行空间分布规律进行空间调度。
2.3.2优化一周内的共享单车空间调度;
在时间上,工作日和周末出行人群主体不同,因此两个时间段上调度所依据的行为规律不同。
在空间上,由于不同的骑行主体空间分布不同,空间调度上也会有工作日和周末调度的不同。
2.3.3优化一年内的共享单车空间调度;
在时间上,4月至10月都是两类人群的骑行高峰时间,也是调度优化共享单车的主要时间。
在空间上,各月份的骑行空间分布也不一致,因此需要针对性进行空间调度优化。
步骤3:异常行为识别;
3.1基于时间维度的异常骑行行为识别:
基于单次骑行时间长度为单一变量,利用boxplot方法识出基于该变量的某次骑行是否属于异常行为;
基于单次骑行时间长度为单一变量,利用boxplot方法识出基于该变量的某次骑行是否属于异常行为;
骑行时间的长度表示对共享单车的独占时间的长度,因此利用该变量对骑行异常行为进行识别是有重要实际意义的;依据boxplot方法,获得不同骑行者类型的主要特征参数如表2。
从前面骑行规律的挖掘中发现不同骑行者类型的骑行规律不同,因此在对该市全部骑行行为进行异常识别时,也对各骑行类型(包括男性,女性,Sub(表示Subscriber)和Cus(表示Customer))进行分类的异常骑行行为识别。表2中Q1,Q2,Q3分别表示25,50,75分位数,而IQR定义为Q3与Q1之差,上界为75分位数加上1.5倍的IQR所得数值,在boxplot异常行为识别时,行为的变量取值大于该上界的行为被认为是异常行为。表2中给出各骑行类型的正常行为的上界值,并给出大于该值的异常骑行量,以及该异常骑行量占该骑行类型总骑行量(N)的比例。为了对照正态分布状态下异常行为识别的3倍标准差方法,表2也给出了3倍标准差的计算结果。同时,还给出了骑行量累积占比为95%,99.7%,99.99%时对应的骑行时间长度值。
表2基于时间维度异常行为的识别的有关参数
3.2基于空间维度的异常共享单车识别:
基于每辆共享单车所经历的站的数量为变量,利用boxplot方法识别基于该变量的某辆单车是否为异常状态;
基于每辆共享单车所经历站的数量n(不含编号相同的站)为变量,利用boxplot方法识别基于该变量的某辆单车是否为异常状态。识别结果下界值322。该市拥有共享桩位的总站点数为622,而在本实例研究的6年内,共有骑行总次数高达17425340次,但研究发现没有一辆自行车遍历所有的站点,经过站点数最大值为434。该市在研究期间共有效地投放共享单车6386辆,而n小于下界值的异常共享单车为266辆,比值为0.042,即异常单车比例为4.2%。通过引入共享单车经过的总站数N(含编号相同的站点,即重复经过的站点也计入站点总数N,但重复经过的站点不计入n),n与N的比值,共享单车存续时间长度Δt(即最后一次骑行行为的时间减去第一次骑行行为发生的时间,以天为单位),平均每天经过站点数n/Δt。借助matplotlib将这些变量可视化,结果如图17所示。图17中第一副子图表示n的柱状分布图,由图可以看到,在分布图的左端存在异常共享单车的可能。借助boxplot求得下界值,并在图17中用竖直点画线表示。从图17的其它子图看出,异常共享单车在引入的变量中也表现出异常性。
3.3减少异常行为的方案;
减少时间维度上异常骑行行为的策略建议:
从表2看出,Subscriber和Customer的骑行时间长度分布明显不同,这样在异常骑行行为识别上需要区分对待。为了减少异常骑行行为,所采取的策略也应不同。比如通过对骑行时间大于上界的值加收额外费用而减少异常行为时,Subscriber和Customer用户的上界值应该区分对待。
减少空间维度上异常共享单车的策略建议:
从图17看出,异常共享单车在通过的总站点数N,经历的站点数n,以及n/N变量都有异于其它共享单车,因此可以定期,比如每月或每半年对所有共享单车的这些统计量进行分析并可视化,利用boxplot方法给出量化下界,对统计量低于下界的共享单车进行重新调度投放,增加这些异常单车的使用效率。
本发明根据固定桩位共享单车骑行日志,提出获得骑行时间和空间分布规律,以及异常行为识别的一套数据挖掘方法。对于一件事件,其必然有发生的时间和空间。而技术的进步使得共享单车每次骑行的开始和结束行为的时空坐标被记录下来,构成骑行日志。本发明分别从时间和空间两个角度来挖掘骑行规律及异常行为。表示时间的量有很多,选择哪些表示时间的变量来挖掘骑行行为在时间上的规律和异常共享单车骑行行为,以及选择哪些空间变量来挖掘骑行行为在空间上的规律和异常共享单车的识别,是数据挖掘中需要解决的首要问题。本发明提出时空维度上的特征变量选择,同时借助可视化技术、岭回归方法对共享单车的行为进行时空挖掘,获得年内、周内和日内不同周期的时间尺度下的骑行规律,并挖掘了对应时间尺度下的空间分布规律。根据所挖掘的时空规律,本发明还提出基于不同实时间尺度下的空间优化调度的方案。同时,借助boxplot方法,本发明还对时间上的异常骑行行为和空间上的异常共享单车进行识别,并提出减少异常状态的案。经过优化调度和异常状态的减少,会使得共享单车的使用效率提高。
以上对本发明做了示例性的描述,应该说明的是,在不脱离本发明的核心的情况下,任何简单的变形、修改或者其他本领域技术人员能够不花费创造性劳动的等同替换均落入本发明的保护范围。
Claims (4)
1.针对固定桩位共享单车骑行规律和异常行为的数据挖掘方法,其特征在于:包括如下步骤:
步骤1:数据预处理,将原始固定桩位共享单车骑行日志导入分析系统;
步骤2:固定桩位共享单车骑行行为分析;
2.1分析时间周期下骑行数量的分布状态,时间周期分别包括年、周、日;
2.2分析空间各固定桩位在一天内的加气行为;
2.3优化调度;
步骤3:异常行为识别;
3.1基于时间维度的异常骑行行为识别:
基于单次骑行时间长度为单一变量,利用boxplot方法识出基于该变量的某次骑行是否属于异常行为;
3.2基于空间维度的异常共享单车识别:
基于每辆共享单车所经历的站的数量为变量,利用boxplot方法识别基于该变量的某辆单车是否为异常状态;
3.3减少异常行为的方案;
基于时间维度和空间维度识别的异常行为特征,提出针对性的减少异常行为的方案。
2.根据权利要求1所述的针对固定桩位共享单车骑行规律和异常行为的数据挖掘方法,其特征在于:所述步骤2.1包括如下步骤:
2.1.1定义开锁为一次骑行行为,定义骑行总次数numStart;
2.1.2引入不同属性的变量,建立相应骑行总次数的函数,属性包括用户类型,出行时间,
出生年龄;
2.1.3分别获取1年内各月,一周内各天和一天内各小时的总骑行人次,建立箱型图;
2.1.4统计分析在这年、周和日内骑行分布,利用岭回归方法建立拟合曲线方程;
2.1.5比较各周期性时间长度下的骑行次数中位数,获得在此时间段内各共享单车的不同属性对共享单车的需求强度。
3.根据权利要求1所述的针对固定桩位共享单车骑行规律和异常行为的数据挖掘方法,其特征在于:所述步骤2.2包括如下步骤:
2.2.1分别引入基于变量,包括各站点的骑行出发总数,骑行到达总数,骑行总数,以及骑行出发与到达之差;
2.2.2分析年内,周内、天内加气行为在空间上的分布;
2.2.3为共享单车空间调度和布局提供可行性分析。
4.根据权利要求2或3所述的针对固定桩位共享单车骑行规律和异常行为的数据挖掘方法,其特征在于:所述步骤2.3包括如下步骤:
2.3.1优化一天内的共享单车空间调度;
2.3.2优化一周内的共享单车空间调度;
2.3.3优化一年内的共享单车空间调度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910839584.4A CN110543503B (zh) | 2019-09-06 | 2019-09-06 | 针对固定桩位共享单车骑行规律和异常行为的数据挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910839584.4A CN110543503B (zh) | 2019-09-06 | 2019-09-06 | 针对固定桩位共享单车骑行规律和异常行为的数据挖掘方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110543503A true CN110543503A (zh) | 2019-12-06 |
CN110543503B CN110543503B (zh) | 2022-04-26 |
Family
ID=68712746
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910839584.4A Expired - Fee Related CN110543503B (zh) | 2019-09-06 | 2019-09-06 | 针对固定桩位共享单车骑行规律和异常行为的数据挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110543503B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113240898A (zh) * | 2021-04-30 | 2021-08-10 | 云上青海大数据产业有限公司 | 一种大数据信息采集方法及系统 |
CN113779398A (zh) * | 2021-09-14 | 2021-12-10 | 成都市规划设计研究院 | 一种共享单车接驳轨道交通骑行行为识别方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040176969A1 (en) * | 2001-04-03 | 2004-09-09 | Michio Fujinuma | Vehicle sharing system |
CN106530724A (zh) * | 2017-01-03 | 2017-03-22 | 上海量明科技发展有限公司 | 监测共享交通工具使用状态的方法及系统 |
CN107067493A (zh) * | 2017-04-10 | 2017-08-18 | 上海量明科技发展有限公司 | 判定共享车辆性能的方法、系统、客户端及共享车辆 |
CN107145849A (zh) * | 2017-04-27 | 2017-09-08 | 努比亚技术有限公司 | 一种目标物体状态检测方法、移动终端以及计算机可读存储介质 |
CN107170237A (zh) * | 2017-07-20 | 2017-09-15 | 长安大学 | 一种城市共享单车异常的检测方法 |
CN107301584A (zh) * | 2017-05-31 | 2017-10-27 | 广东工业大学 | 一种智能交通领域的共享单车公共管理系统 |
CN107491895A (zh) * | 2017-08-30 | 2017-12-19 | 国信优易数据有限公司 | 一种共享单车停放点的确定方法及装置 |
-
2019
- 2019-09-06 CN CN201910839584.4A patent/CN110543503B/zh not_active Expired - Fee Related
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040176969A1 (en) * | 2001-04-03 | 2004-09-09 | Michio Fujinuma | Vehicle sharing system |
CN106530724A (zh) * | 2017-01-03 | 2017-03-22 | 上海量明科技发展有限公司 | 监测共享交通工具使用状态的方法及系统 |
CN107067493A (zh) * | 2017-04-10 | 2017-08-18 | 上海量明科技发展有限公司 | 判定共享车辆性能的方法、系统、客户端及共享车辆 |
CN107145849A (zh) * | 2017-04-27 | 2017-09-08 | 努比亚技术有限公司 | 一种目标物体状态检测方法、移动终端以及计算机可读存储介质 |
CN107301584A (zh) * | 2017-05-31 | 2017-10-27 | 广东工业大学 | 一种智能交通领域的共享单车公共管理系统 |
CN107170237A (zh) * | 2017-07-20 | 2017-09-15 | 长安大学 | 一种城市共享单车异常的检测方法 |
CN107491895A (zh) * | 2017-08-30 | 2017-12-19 | 国信优易数据有限公司 | 一种共享单车停放点的确定方法及装置 |
Non-Patent Citations (1)
Title |
---|
李阳 等: "公共自行车租赁系统站点控制平台软件设计", 《电视技术》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113240898A (zh) * | 2021-04-30 | 2021-08-10 | 云上青海大数据产业有限公司 | 一种大数据信息采集方法及系统 |
CN113240898B (zh) * | 2021-04-30 | 2022-11-22 | 云上青海大数据产业有限公司 | 一种大数据信息采集方法 |
CN113779398A (zh) * | 2021-09-14 | 2021-12-10 | 成都市规划设计研究院 | 一种共享单车接驳轨道交通骑行行为识别方法及系统 |
CN113779398B (zh) * | 2021-09-14 | 2024-02-02 | 成都市规划设计研究院 | 一种共享单车接驳轨道交通骑行行为识别方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110543503B (zh) | 2022-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Toqué et al. | Short & long term forecasting of multimodal transport passenger flows with machine learning methods | |
Li et al. | Regulating TNCs: Should Uber and Lyft set their own rules? | |
Cui | Bus passenger origin-destination matrix estimation using automated data collection systems | |
Evangelinos et al. | Pricing workplace parking via cash-out: Effects on modal choice and implications for transport policy | |
Golob et al. | Impacts of highway congestion on freight operations: perceptions of trucking industry managers | |
CN110599767A (zh) | 一种基于网约车出行需求的长短期预测方法 | |
CN110543503B (zh) | 针对固定桩位共享单车骑行规律和异常行为的数据挖掘方法 | |
Morency et al. | Typology of carsharing members | |
Liu et al. | A trip-specific model for fuel saving estimation and subsidy policy making of carpooling based on empirical data | |
US20160364669A1 (en) | Dynamic location recommendation for public service vehicles | |
CN110033177B (zh) | 基于gps大数据的出租车高效益智能集体调度方法 | |
CN108573600B (zh) | 一种驾驶员行为诱导与局部交通流优化方法 | |
CN111915200B (zh) | 一种基于公交分担率的精细空间尺度的城市公共交通供需状态划分方法 | |
Deschaintres et al. | Cross-analysis of the variability of travel behaviors using one-day trip diaries and longitudinal data | |
Stone et al. | Providing a foundation for road transport energy demand analysis: a vehicle pare model for South Africa | |
CN116324838A (zh) | 用于通过叫车平台调度共享乘车的系统和方法 | |
Cohen et al. | The impact of high-occupancy vehicle lanes on carpooling | |
Sall et al. | An analysis of weekend work activity patterns in the San Francisco Bay Area | |
CN105809276A (zh) | 取号预测方法及系统 | |
Rogers | Expectations of unemployment insurance and unemployment duration | |
Ecola et al. | Future travel demand in China: Scenarios for Year 2030 | |
Hobi | The impact of real-time information sources on crowd-sourced parking availability prediction | |
Korentzelou et al. | Investigating the acceptance of an environmental transport charging policy. The case of Athens | |
Moudon et al. | The Impact of Shared Mobility Options on Travel Demand | |
Coetzee et al. | Demand-responsive transit design methods and applications for minibus Taxi hybrid models in South Africa |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20221130 Address after: 300452 Tianjin Binhai New Area Tianjin Free Trade Pilot Zone (Central Business District) Binhai Huamao Center-1118 (Trusteeship No. 423 of Tianjin Huashang Business Secretary Co., Ltd.) Patentee after: Tianjin Yuan'an Electromechanical Technology Co.,Ltd. Address before: 300384 No. 22, Jing Jing Road, Xiqing District, Tianjin Patentee before: TIANJIN AGRICULTURAL University |
|
TR01 | Transfer of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220426 |
|
CF01 | Termination of patent right due to non-payment of annual fee |