CN111291236A - 一种高速路网用户画像信息获取与分析方法及系统 - Google Patents
一种高速路网用户画像信息获取与分析方法及系统 Download PDFInfo
- Publication number
- CN111291236A CN111291236A CN201811495603.8A CN201811495603A CN111291236A CN 111291236 A CN111291236 A CN 111291236A CN 201811495603 A CN201811495603 A CN 201811495603A CN 111291236 A CN111291236 A CN 111291236A
- Authority
- CN
- China
- Prior art keywords
- user
- users
- calculating
- truck
- travel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
本发明公开高速公路用户画像数据获取与分析方法及系统,使用了用户画像技术,建立ETC用户画像建设方案模型并开发一套ETC用户画像分析原型系统,对高速公路ETC用户构建用户基本属性、用户消费、用户出行时空习惯、用户价值、用户活跃度、用户信用等标签,多角度描述、刻画用户。在用户分群的基础上刻画不同用户的出行习惯,进一步分析客车和货车出行的关联性、差异性及背后的原因;从时间角度,分析节假日、昼夜等对用户出行的影响。系统基于所提出的ETC用户画像模型,基于SQL数据库和python语言设计。本发明具有使用高效、运算成本低和结果实时性强等优势,能够满足实际应用需求。
Description
技术领域
本发明属于智能交通技术领域,涉及高速公路网用户画像信息的获取与分析方法及其计算机系统。
背景技术
近年来,我国的高速公路飞速发展,高速公路路网连接了全国467个城市中的三百余个,覆盖了10亿多的人口。2017年末,全国公路总里程达到477.35万公里,是1984年末的5.2倍。其中,高速公路达到13.65万公里,里程规模居世界第一。
随着高速路网的完善、车辆在国民中的普及与各个城市之间愈发紧密的联系,高速公路的车流量逐年递增,产生了海量的车辆通行数据。但是,这些海量车辆通行数据缺乏合理有效的分析方式。对车辆用户(包括ETC用户)的行为习惯、通行模式等方面的深度分析和分析挖掘工作尚为空白,这对诸多即将开展的各类高速车辆业务应用形成制约。
用户画像根据用户的基本属性、用户偏好、生活习惯、用户行为等信息,抽象出来标签化用户模型。标签是通过对用户信息分析而来的高度精炼的特征标识。通过打标签可以利用一些高度概括、容易理解的特征来描述用户,可以让人更容易理解用户,并且可以方便计算机处理。在当下的大数据时代,用户画像在各大电商中被广泛应用。本发明提出一套高速公路用户画像分析模型方法,通过处理高速公路ETC的海量数据,对用户基本属性、用户消费行为、用户出行行为等进行分析,多角度描绘、刻画用户,对每一个特定的用户打上标签。
通过用户画像,我们可以更方便地进行用户统计,统计拥有某一个制定特征的用户人数、占比以及这一类用户的其他主要特征等等;可以实现精准分类,将的目前海量的高速公路ETC用户分成几类具有鲜明特点的用户群,以便于分析和决策;可以进行效果评估,分析某一个政策或者行动对于具有不同特征的用户各自具有什么样的影响;可以对用户进行“私人定制”,对于某一指定的客户,可以利用其用户画像特征,为他定制一份只属于他的服务或者产品。
发明内容
为了弥补目前高速路网用户画像技术与方法的空白,本发明基于高速公路用户的出行通行数据,提供一种高速公路用户画像信息获取方法:首先,从用户基本属性、用户消费属性、用户出行规律、用户信用状况和货车用户货运特点几个方面建立一套指标体系;然后,再基于用户各个指标计算得到的结果和结果落在的阈值区间,对用户进行标签化处理;最后,对多个标签进行综合判定,输出最终的综合标签结果。本发明在真实路网规模情况下可以准确地刻画用户的行为特点,对用户精准“画像”,满足实际应用需求。
本发明提供的技术方案是:
一种高速公路用户画像信息获取方法,所述方法通过高速公路用户数据获取装置,获得一段时间内高速公路用户历史(或实时)收费站出口交易、用户充值、用户基本信息、收费站信息、用户车辆信息数据,通过用户画像指标化过程和标签化过程,获得每个用户的“画像”特征,并进行用户分群;相关应用单位或用户(如高速路网管理部门和运营单位)可通过网络获取路网用户的画像特征,包括通行状态,从而有效制定政策,并进一步进行有效的增值服务设计与推荐应用。具体包括如下步骤:
1)计算客车、货车用户的基本属性指标体系;统计用户的基本属性信息,包括:性别、年龄、常驻地、职业等。用户基本信息会影响用户的出行特点,例如:上班族在高速公路中工作日经常在某两个地点出入,出行轨迹非常规律。
2)计算客车、货车用户的消费属性指标体系;统计用户的消费属性信息,包括:用户价值、用户消费方式、用户活跃度等。得到用户价值后可以使用该值对用户进行排序,对价值高的用户施以优先关注,从而提高资源利用的效率,得到更大的回报。
3)计算客车、货车用户的出行规律指标体系;统计高速公路用户的出行规律,包括:通行稳定性、最常去的收费站、最常经过的路段、周末出行比、白昼出行比、节假日敏感度等。用户的出行规律对于高速公路运营管理的政策制定,有重要意义。例如:如果有大量的用户在周末出行,则管理人员可以考虑在周末采取一定的免费通行政策。
4)计算客车、货车用户的信用指标体系;统计分析用户的信用情况,用户信誉的好坏,对于稽查路网中的逃费行为具有重要参考价值。
5)计算货车用户的货运规律指标体系;统计分析货车的货运情况,具体包括:货运量、周转量、平均运距和绿通运输次数占比。高速公路一个重要的功能就是货运运输,故分析用户的货运特点是非常必要的。
6)客车、货车用户基本属性标签化;基于统计的基本属性指标体系,需要对不同的数值,打上标签,例如“上班族”、“出差族”,方便人们理解。
7)客车、货车用户消费属性标签化;基于统计的基本属性指标体系,需要对不同的数值,打上标签,例如“高价值用户”、“流失用户”。
8)客车、货车用户出行规律标签化;基于统计的出行规律指标结果,需要对不同的数值,打上标签,例如“夜猫子”、“旅游爱好者”。
9)货车用户货运规律标签化。基于统计的货运指标结果,需要对不同的数值,打上标签,例如“高货运量用户”、“低货运量用户”。
针对上述高速公路用户画像分析模型方法,进一步地,
步骤1)所述计算客车、货车用户的基本属性指标体系具体包括如下步骤:
11)计算用户性别;性别是重要的人口属性。研究表明,性别极大影响客户的消费行为,消费观念,消费品味,在购买决策中也有很大不同。
12)计算用户年龄;年龄是重要的人口统计变量,可以通过影响客户的出行,收入来影响消费情况。同时,年龄也能够提供更多的额外信息,如家庭,职业等。
13)计算用户最常通行的收费站。地域的不同造成了经济、文化等方面的差异。用户所在地域信息的可以更帮助进行更精准的推荐,甚至有希望建立同城ETC用户网络等,从而引入社交关系信息。
步骤2)所述计算客车、货车用户的消费属性指标体系具体包括如下步骤:
21)计算用户价值;用户价值是用户数据分析中的重要概念,计算得到用户价值后可以使用该值对用户进行排序,对价值高的用户施以优先关注,从而提高资源利用的效率,得到更大的回报。
22)计算用户活跃度;活跃用户,是相对于“流失用户”的一个概念,是指那些会时不时地产生消费行为,从而带来价值的用户。流失用户,是指那些曾经使用过服务或产品,但由于渐渐失去兴趣后逐渐远离,进而彻底脱离的那批用户。活跃度高的用户使用时间长,频率高,能够获取信息更多,更具有价值。用户活跃度可用作预估消费的依据,对活跃度高的用户进行重点关注。活跃用户用于衡量运营现状,而流失用户则用于分析留住新用户的能力。
23)计算用户消费方式;定义用户的消费方式为四种“ETC入,ETC出”;“MTC入,ETC出”;“ETC入,MTC出”;“MTC入,MTC出”消费方式中,各个方式所占的比例。用户是一个“ETC”用户,还是“MTC”用户,是具有运营价值的。如果一个用户是“MTC”用户,意味着运营管理人员需要重点向该用户推荐发展ETC的使用。
24)计算用户状态名单历史;主要意义在于分析用户的违规行为及程度。包括用户因“账户透支”或“车型不符”进入状态黑名单的次数。
25)计算用户节假日敏感度。2012年中秋、国庆双节首次实行的收费公路免费通行政策,作为一项惠民举措极大地激发了人们出游的热情,引爆假日旅游,特别是自驾车旅游市场。用户对节假日和工作日的出行差异,反映了用户对该项惠民举措的态度。故研究用户的节假日敏感度是很有意义的。
步骤3)所述计算客车、货车用户的出行规律指标体系具体包括如下步骤:
31)计算用户通行稳定性;通行稳定性指用户在路网中通行是否具有规律性,如是否经常往返于某两个收费站之间。出行不规律的用户意味着其在路网中的活动范围更广,对其进行的增值服务更多地可能是住宿的酒店推荐。而对于出行规律的用户,其很可能是上班族或者经常跑某一线路的货车司机,对于这些用户而言,某条线路对于他们可能是十分重要的,这对于路网的改建有着重要的参考价值。
32)计算用户周末出行比;周末出行比反映用户在一周内的出行习惯。用户出行时间习惯用于挖掘用户使用高速公路的时间规律,通过较长时间的数据分析,有可能分辨出周期性的运输行业用户,节假日旅游用户,异地上班用户等。
33)计算用户白昼出行比;白昼出行比反映用户在一天的时间范围内的出行习惯。
34)计算用户行驶时长;行驶时长反映用户在一条消费记录中行驶的时长。
35)计算用户收费站归属度;收费站归属度表征了用户在某个收费站出现的频率。通过对移动用户位置数据运用数据挖掘技术,得到用户出行爱好的特点,系统中需要统计用户出行的情况,重点在于时序变化、人群比较、出行规律:
·移动用户出行位置的随机性:移动用户的出行位置点具有连续性,一天时间内每个不同的位置点变化都是相互关联的,但是用户出现的位置点受客观的影响是不确定的。
·移动用户出行位置的规律性:在大部分情况下,移动用户的访问都是有规律的、像周末、节假日会出现不同的访问情况。
36)计算用户路段归属度;路段归属度表征了用户在某个路段出现的频率。
37)计算用户行驶距离;行驶距离反映用户在一次ETC交易中行驶的距离。
步骤4)所述计算客车、货车用户的信用指标体系具体包括如下步骤:
41)计算用户信誉水平指标;
42)计算用户逃费情况指标。
步骤5)所述计算货车用户的货运规律指标体系具体包括如下步骤:
51)计算货车用户ETC货运量指标;货物周转量能够较全而地反映运输的产品数量,是考核运输生产的重要产量指标,也是运输部门核算运费计算分析运输成本和劳动生产率的依据。
52)计算货车用户ETC周转量指标;周转量是反应货运情况的重要指标。货运情况对于高速公路运营管理人员具有重要参考意义。
53)计算货车用户ETC平均运距指标;平均运距是反应货运情况的重要指标。
54)计算货车用户绿通运输次数占比指标;反映货车用户的绿通货物运输情况。
步骤6)所述客车、货车用户基本属性标签化具体包括如下步骤:
61)根据用户性别的计算结果,将用户分为“男司机”或“女司机”。
62)根据用户年龄的计算结果,将用户分为“小青年”、“青壮年”、“中年”或“老年人”。
63)根据用户计算得到的用户最常通行的收费站所在的省市,为用户标记其“常驻地”。
步骤7)所述客车、货车用户消费属性标签化具体包括如下步骤:
71)根据用户价值的计算结果,将用户分为“流失优质用户”、“流失用户”、“一般流失用户”、“重要流失用户”、“待发展用户”、“重要保持用户”或“优质用户”几种。
72)根据用户活跃度的计算结果,将用户分为“僵尸用户”、“低活跃用户”、“活跃用户”或“老司机(高活跃用户)”。
73)根据用户消费方式的计算结果,将用户分为“MTC用户”或“ETC用户”。
74)根据用户状态名单历史的计算结果,将用户分为“状态名单历史一般用户”或“状态名单历史良好用户”。
75)根据用户节假日敏感度的计算结果,将用户分为“宅男宅女”或“驴友(旅行爱好者)”。
步骤8)所述客车、货车用户出行规律标签化具体包括如下步骤:
81)根据用户通行稳定性的计算结果,将用户分为“上班通勤族”、“宅男宅女”、“自由职业者(如:学生、家庭主妇)”、“出差族”或“旅行爱好者”。
81)根据用户周末出行比的计算结果,将用户分为“周中出行用户”或“周末出行用户”。
82)根据用户白昼出行比的计算结果,将用户分为“太阳用户”(经常白天出行的用户)或“夜猫子(月亮用户)”(经常夜晚出行的用户)。
83)根据用户行驶时长的计算结果,将用户分为“疲劳驾驶用户(高行驶时长用户)”或“低行驶时长用户”。
84)根据用户收费站通行时间的计算结果,将用户分为“快速通行收费站用户”或“慢速通行收费站用户”。
85)根据用户收费站归属和收费站所在的省市的计算结果,为用户标记用户最常出行的收费站和常驻地。
86)根据用户路段归属和路段所在的省市的计算结果的计算结果,为用户标记用户最常出行的收费站和常驻地。
87)根据用户行驶距离的计算结果,将用户分为“高行驶距离用户”或“低行驶距离用户”。
步骤9)所述货车用户货运规律标签化具体包括如下步骤:
91)根据用户ETC货运量的计算结果,将用户分为“高货运量用户”、“中等货运量用户”或“低货运量用户”。
92)根据用户ETC周转量的计算结果,将用户分为“高周转量用户”、“中等周转量用户”或“低周转量用户”。
93)根据用户ETC平均运距的计算结果,将用户分为“高平均运距用户”、“中等平均运距用户”或“低平均运距用户”。
94)根据用户绿通运输次数占比的计算结果,将用户分为“高绿通用户”、“高绿通用户”或“低绿通用户”。
本发明还提供一种高速公路用户画像信息系统,包括:高速公路用户数据获取装置、信息数据库模块、用户画像指标化模块、用户画像分群与标签化模块、用户画像信息共享应用模块、用户画像可视化模块;其中,
高速公路用户数据获取装置用于获取用户数据,包括:一段时间内高速公路用户历史(或实时)收费站出口交易、用户充值、用户基本信息、收费站信息、用户车辆信息等数据;用户包括客车用户和货车用户;
用户画像指标化模块用于分别建立客车用户和货车用户的多属性指标体系;获得每个用户的“画像”特征;
用户画像标签化模块通过设置多种分类方法,将用户进行分群,并设置相对应的标签;
用户画像可视化模块通过可视化技术,多层次多角度展示高速公路用户画像特征;
用户画像信息共享应用模块用于通过计算机及无线网络共享用户画像信息。
本发明的意义和有益效果是:
本发明使用了用户画像技术,建立ETC用户画像建设方案模型并开发一套ETC用户画像分析原型系统;弥补了目前高速公路对用户(尤其是ETC用户)的研究,创新性地提出了一套能够准确刻画高速公路网中用户出行特点的模型。具体来说,该ETC用户画像模型可以分析用户在不同角度的出行特点:出行频率、出行偏好等;消费习惯:消费频率、消费金额等,分析客车和货车出行的关联性、差异性及背后的原因;从时间角度,我们提出三大类用户指标分别为基础信息类,用户消费以及用户出行类,其中基础信息类包括用户的一些基本个人信息,性别,年龄,居住地等指标;用户消费类包含用户的活跃度,消费方式,节假日敏感度等指标;对于用户出行类,我们从时间和空间维度提出指标,时间指标包含,白昼和周中周末的出行习惯,空间指标包括用户常出现的收费站和路段信息。针对每一项指标,我们根据我们的模型计算具体的值,然后根据多种离散化方法来讲定量数据定型化,确定不同区间的阈值范围。我们使用多层次标签化,抽象成贴合具体业务的标签,如:出差族、上班族、旅游爱好者、老司机等。对每一条用户通行记录,都可以得到该记录的用户画像。对于模型产出的结果,我们可以分析不同类型用户之间的群体和个体特征,例如客车和货车的共同点和区别点。
因此,本文所述的“一种高速公路网的ETC用户画像方法”,可从多角度多维度刻画路网中用户的基本属性和出行特点,如:用户的基本属性、用户消费习惯、用户出行时间习惯、用户出行空间习惯、用户价值、用户活跃度、节假日敏感度、用户信用等。通过本发明提供的技术方案,短期来看,该方法可以综合全面地对路网中的用户进行准确“画像”,填补了高速路网中尚无针对用户出行特点开展研究的空白;长期来看,该方法可最大限度地帮助高速路网管理部门和运营单位等更准确地了解路网用户的通行状态,从而有效制定政策,并进行有效的增值服务设计与推荐。
附图说明
图1是本发明提供方法的整体处理流程图;
首先对原始的输入数据进行预处理(如:异常值检测与删除、缺失字段填充),然后分别计算用户的基本属性标签、消费标签、出行标签和货运标签,最后进行可视化展示。
图2是本发明提供方法的用户画像模型流程图;
主要分为两大部分:用户数据指标计算和标签化,标签是对指标的概括和提炼。模型过程是:对于一个指标,首先计算所有样本用户在该指标上的取值,然后进行离散化,完成区间划分。然后对划分后的区间打标签,从而得到用户画像。
图3是某客车在一段时间内的出行轨迹示意图;
从图中可以看出:该用户为贵州铜仁人,很活跃的出现在贵州、湖南、浙江和广东,轨迹具有一定的规律性,去的最多的地方是杭州。
具体实施方式
下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。
本发明提供一种高速公路用户画像数据获取与分析方法及系统。具体实施时,本发明提供的高速公路用户画像信息系统,包括:高速公路用户数据获取装置、信息数据库模块、用户画像指标化模块、用户画像分群与标签化模块、用户画像信息共享应用模块、用户画像可视化模块;其中,高速公路用户数据获取装置用于获取用户数据,包括:一段时间内高速公路用户历史(或实时)收费站出口交易、用户充值、用户基本信息、收费站信息、用户车辆信息等数据;用户包括客车用户和货车用户;用户画像指标化模块用于分别建立客车用户和货车用户的多属性指标体系;获得每个用户的“画像”特征;用户画像标签化模块通过设置多种分类方法,将用户进行分群,并设置相对应的标签;用户画像可视化模块通过可视化技术,多层次多角度展示高速公路用户画像特征;用户画像信息共享应用模块用于通过计算机及无线网络共享用户画像信息。
图1是本发明提供方法的整体流程图,首先对数据进行预处理操作(具体包括:异常值检测、缺失值填充等);接着计算用户的四大方面的标签结果;最后通过可视化模块展示分析结果。图2为本发明方法中计算用户标签的流程图,首先基于用户通行数据,通过指标体系对用户的各个特征进行指标化;然后基于指标化的计算结果,对结果划分阈值,然后对用户打上不同的标签。具体包括如下步骤:
1)计算客车、货车用户的基本属性指标体系;
2)计算客车、货车用户的消费属性指标体系;
3)计算客车、货车用户的出行规律指标体系;
4)计算客车、货车用户的信用指标体系;
5)计算货车用户的货运规律指标体系;
6)客车、货车用户基本属性标签化;
7)客车、货车用户消费属性标签化;
8)客车、货车用户出行规律标签化;
9)货车用户货运规律标签化。
针对上述高速公路用户画像分析模型,进一步地,
步骤1)所述计算客车、货车用户的基本属性指标体系具体包括如下步骤:
11)计算用户性别。通过SQL语句,从“用户表”中获取用户id、性别字段,提取性别字段信息,得到用户性别。
12)计算用户年龄。通过SQL语句,从“用户表”中获取用户id、出生日期字段,用当前年份减去用户出生的年份,得到用户年龄。
13)计算用户最常通行的收费站。通过SQL语句,从“出口交易流水表”中获取每个用户每次交易经过的收费站编号,使用python统计该用户每个收费站出行的次数,对次数进行排序后,得到用户最常通行的收费站编号。
步骤2)所述计算客车、货车用户的消费属性指标体系具体包括如下步骤:
21)计算用户价值。首先通过SQL语句,从“出口交易流水表”中获取每个用户的R′、F′、M′三个指标。R′表示最近一次ETC交易的日期距现在时间(单位:天),F′表示月均ETC交易的次数,M′表示月均ETC交易金额。然后分别计算所有用户的R′,F′,M′的最大值,得到Rl,Fl,Ml;再计算所有用户中R,F,M的最小值,得到Rs,Fs,Ms。然后对每个用户的R′、F′、M′三项指标进行标准化处理,计算方法为即可对每个用户计算出[R,F,M]一个三维向量。计算所有向量的总体均值[R0,F0,M0]。最终使用kmeans聚类算法对所有向量进行聚类。聚类完成后,对每类用户计算计算平均值[Ri,Fi,Mi](i=1,2,3,4,5,6),并将[Ri,Fi,Mi](i=1,2,3,4,5,6)和[R0,F0,M0]作比较,根据下表对每类用户进行分类。
22)计算用户活跃度。首先通过SQL语句,从“出口交易流水表”中获取每个用户在给定时间内的交易次数和交易金额,从“充值交易流水表”中抽取每个用户在给定时间内的充值次数和充值金额。对于一个用户来说,定义R表示一个评价周期(如一个月)内该用户的充值金额,R-为所有用户的平均充值金额;T表示该用户交易金额和,T-为所有用户的平均交易金额。α和β为权重系数。则用户活跃度计算方式为
23)计算用户消费方式。定义用户的消费方式为四种“ETC入,ETC出”;“MTC入,ETC出”;“ETC入,MTC出”;“MTC入,MTC出”消费方式中,各个方式所占的比例。令i=1,…4分别为“ETC入,ETC出”;“MTC入,ETC出”;“ETC入,MTC出”;“MTC入,MTC出”四种出行方式。ci为一段时间内(如:一个月)当前用户第i种出行方式的出行次数。则某用户的消费方式定义为
24)计算用户状态名单历史。通过SQL语句,从“用户卡黑名单表”中计算因“账户透支”次数a和“车型不符”次数b相加得到(a+b)作为用户的违规次数。
25)计算用户节假日敏感度。通过SQL语句,从“出口交易流水表”中获取每个用户在给定时间内每天的交易次数。分别统计在给定时间内,用户节假日出行的总次数和工作日出行的总次数,二者做除法得到用户的节假日敏感度。
步骤3)所述计算客车、货车用户的出行规律指标体系具体包括如下步骤:
31)计算用户通行稳定性。通过SQL语句,从“出口交易流水表”中获取每个用户在给定时间内每条交易的入口收费站id、出口收费站id。对每个用户,统计其各个(入口收费站id,出口收费站id)对的出现次数,并统计用户所有的对的个数。通过下述公式计算其通行稳定性。定义为第i对OD的通行次数,N为用户通行的OD对数量,则
32)计算用户周末出行比。周末出行比反映用户在一周内的出行习惯。首先通过从mysql导出的ETC卡交易的数据统计每个ETC卡在周末,周中出现的次数以及总的次数,周一到周五为周中,周六和周日为周末。然后中周末出现次数除以总次数,得到该ETC卡在周中和周末出现的频率。通过下述公式计算用户周末出行比:
33)计算用户白昼出行比;白昼出行比反映用户在一天的时间范围内的出行习惯。首先通过从mysql导出的ETC卡交易的数据统计用户出行在24小时上的分布结果,发现具有明显的在上午7点和下午7点改分界点出行数量上有明显的差异,于是将白天定义为7-19点。然后统计每个ETC卡在白天,晚上出现的次数以及总的次数,然后中白天出现次数除以总次数,得到该ETC卡在白天和晚上出现的频率。通过下述公式计算用户白昼出行比:
34)计算用户行驶时长。行驶时长反映用户在一条消费记录中行驶的时长。首先通过从mysql导出的ETC卡交易的数据统计计算每条交易记录的行驶时长,在根据ETC卡的ID统计每个ETC的平均行驶时长。通过下述公式计算用户行驶时长:行驶时长=结束时间-开始时间。然后将某个用户的平均行驶时长和所有用户的平均行驶时长做比较。
35)计算用户收费站归属度。收费站归属度表征了用户在某个收费站出现的频率。首先通过从mysql导出的ETC卡交易的数据统计每个ETC卡在每个收费站出现的频次以及总的频次。然后中该ETC卡每个收费站的频次除以总频次,得到该ETC卡在在每个收费站出现的频次。通过下述公式计算用户收费站归属度:
36)计算用户路段归属度。路段归属度表征了用户在某个路段出现的频率。首先通过从mysql导出的ETC卡交易的数据统计每个ETC卡在每个路段出现的频次以及总的频次。然后中该ETC卡每个路段的频次除以总频次,得到该ETC卡在在每个路段出现的频次。通过下述公式计算用户路段归属度:
37)计算用户行驶距离。行驶距离反映用户在一条消费记录中行驶的距离。首先通过从mysql导出的ETC卡交易的数据统计计算每条交易记录的行驶距离,计算行驶距离需要查找行驶的路段ID,然后计算其经过的所有路段的长度,在根据ETC卡的ID统计每个ETC的平均行驶距离。通过下述公式计算用户行驶距离:di是某个用户第i条路段的长度,然后该用户的长度和平均长度做比较。
步骤4)所述计算客车、货车用户的信用指标体系具体包括如下步骤:
41)计算用户信誉水平指标。用户信誉水平指标由下设的二级指标计算得到,定义n1表示用户进入灰名单的次数,n2表示用户进入黑名单的次数,t1表示用户进入灰名单的时长,t2表示用户进入黑名单的时长,T表示用户总行驶时长。其计算公式为
42)计算用户逃费情况指标。用户逃费情况指标由下设的二级指标计算得到,定义ni,i=1…16分别表示车辆标志点作弊次数、车辆倒卡换卡次数、车辆大车小标次数、车辆冲关次数、车辆跟车次数、车辆假冒优惠车次数、车辆假冒绿通车次数、车辆车标不一致次数、车辆调整称重设备次数、车辆OBU卡倒换次数、车辆通行超时次数、车辆无出口记录次数、车辆出入口信息不闭合次数、车辆补交偷逃费超期次数、车辆使用假证件次数、车辆一车多标次数。则逃费情况计算结果为
步骤5)所述计算货车用户的货运规律指标体系具体包括如下步骤:
51)计算货车用户月均货物运输量指标。通过SQL语句,从“出口交易流水表”中计算用户的货物总运输量,然后除以月数得到月均货物运输量;
52)计算货车用户月均货物周转量指标。通过SQL语句,从“出口交易流水表”中计算用户的货物周转量,计算方法为∑i(wi×di),wi和di分别表示在一次交易记录中的货物运输量(单位:吨)和运输距离(单位:公里),然后除以月数得到月均货物周转量;
步骤6)所述客车、货车用户基本属性标签化具体包括如下步骤:
61)根据用户性别的计算结果,将用户分为“男司机”或“女司机”。
62)根据用户年龄的计算结果,将用户分为“小青年”、“青壮年”、“中年”或“老年人”。
63)根据用户计算得到的用户最常通行的收费站所在的省市,为用户标记其“常驻地”。
步骤7)所述客车、货车用户消费属性标签化具体包括如下步骤:
71)根据用户价值的计算结果,将用户分为“流失优质用户”、“流失用户”、“一般流失用户”、“重要流失用户”、“待发展用户”、“重要保持用户”或“优质用户”几种。
72)根据用户活跃度的计算结果,将用户分为“僵尸用户”、“低活跃用户”、“活跃用户”或“老司机(高活跃用户)”。
73)根据用户消费方式的计算结果,将用户分为“MTC用户”或“ETC用户”。
74)根据用户状态名单历史的计算结果,将用户分为“状态名单历史一般用户”或“状态名单历史良好用户”。
75)根据用户节假日敏感度的计算结果,将用户分为“宅男宅女”或“驴友(旅行爱好者)”。
步骤8)所述客车、货车用户出行规律标签化具体包括如下步骤:
81)根据用户通行稳定性的计算结果,将用户分为“上班通勤族”、“宅男宅女”、“自由职业者(如:学生、家庭主妇)”、“出差族”或“旅行爱好者”。
81)根据用户周末出行比的计算结果,将用户分为“周中出行用户”或“周末出行用户”。
82)根据用户白昼出行比的计算结果,将用户分为“太阳用户”(经常白天出行的用户)或“夜猫子(月亮用户)”(经常夜晚出行的用户)。
83)根据用户行驶时长的计算结果,将用户分为“疲劳驾驶用户(高行驶时长用户)”或“低行驶时长用户”。
84)根据用户收费站通行时间的计算结果,将用户分为“快速通行收费站用户”或“慢速通行收费站用户”。
85)根据用户收费站归属和收费站所在的省市的计算结果,为用户标记用户最常出行的收费站和常驻地。
86)根据用户路段归属和路段所在的省市的计算结果的计算结果,为用户标记用户最常出行的收费站和常驻地。
87)根据用户行驶距离的计算结果,将用户分为“高行驶距离用户”或“低行驶距离用户”。
步骤9)所述货车用户货运规律标签化具体包括如下步骤:
91)根据用户ETC货运量的计算结果,将用户分为“高货运量用户”、“中等货运量用户”或“低货运量用户”。
92)根据用户ETC周转量的计算结果,将用户分为“高周转量用户”、“中等周转量用户”或“低周转量用户”。
93)根据用户ETC平均运距的计算结果,将用户分为“高平均运距用户”、“中等平均运距用户”或“低平均运距用户”。
94根据用户绿通运输次数占比的计算结果,将用户分为“高绿通用户”、“高绿通用户”或“低绿通用户”。
需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。
Claims (8)
1.一种高速公路用户画像信息获取与分析方法,获取用户通行数据,建立用户数据库;再通过建立指标体系对用户的各个特征进行指标化;然后基于指标化的计算结果,划分阈值,对用户打上标签;具体包括如下步骤:
1)计算客车、货车用户的基本属性指标体系;
2)计算客车、货车用户的消费属性指标体系;
3)计算客车、货车用户的出行规律指标体系;
4)计算客车、货车用户的信用指标体系;
5)计算货车用户的货运规律指标体系;
6)客车、货车用户基本属性标签化;
7)客车、货车用户消费属性标签化;
8)客车、货车用户出行规律标签化;
9)货车用户货运规律标签化;
步骤1)所述计算客车、货车用户的基本属性指标体系具体包括如下步骤:
11)计算用户性别:通过SQL语句,从数据库的用户表中获取用户id、性别字段,提取性别字段信息,得到用户性别;
12)计算用户年龄;通过SQL语句,从用户表中获取用户id、出生日期字段,用当前年份减去用户出生的年份,得到用户年龄;
13)计算用户最常通行的收费站;
通过SQL语句,从数据库的出口交易流水表中获取每个用户每次交易经过的收费站编号,使用python统计该用户每个收费站出行的次数,对次数进行排序后,得到用户最常通行的收费站编号;
步骤2)所述计算客车、货车用户的消费属性指标体系具体包括如下步骤:
21)计算用户价值;
22)计算用户活跃度;
首先通过SQL语句,从“出口交易流水表”中获取每个用户在给定时间内的交易次数和交易金额,从“充值交易流水表”中抽取每个用户在给定时间内的充值次数和充值金额;
23)计算用户消费方式;定义用户的消费方式为四种“ETC入,ETC出”;“MTC入,ETC出”;“ETC入,MTC出”;“MTC入,MTC出”消费方式中,各个方式所占的比例;
24)计算用户状态名单历史;
通过SQL语句,从“用户卡黑名单表”中计算因“账户透支”次数a和“车型不符”次数b并相加,得到结果作为用户的违规次数;
25)计算用户节假日敏感度;
通过SQL语句,从“出口交易流水表”中获取每个用户在给定时间内每天的交易次数;分别统计在给定时间内,用户节假日出行的总次数和工作日出行的总次数,二者做除法得到用户的节假日敏感度;
步骤3)所述计算客车、货车用户的出行规律指标体系具体包括如下步骤:
31)计算用户通行稳定性;
通过SQL语句,从“出口交易流水表”中获取每个用户在给定时间内每条交易的入口收费站id、出口收费站id;对每个用户,统计其各个对:入口收费站id,出口收费站id,各个对的出现次数,并统计用户所有的对的个数;
通过下述公式计算其通行稳定性:
32)计算用户周末出行比;
首先通过从mysql导出的ETC卡交易的数据统计每个ETC卡在周末,周中出现的次数以及总的次数,周一到周五为周中,周六和周日为周末;
然后中周末出现次数除以总次数,得到该ETC卡在周中和周末出现的频率;通过下述公式计算用户周末出行比:
33)计算用户白昼出行比:
首先通过从mysql导出的ETC卡交易的数据统计用户出行在24小时上的分布结果,将白天定义为7-19点;
然后统计每个ETC卡在白天,晚上出现的次数以及总的次数,
将白天出现次数除以总次数,得到该ETC卡在白天和晚上出现的频率;通过下述公式计算用户白昼出行比:
34)计算用户行驶时长;
首先通过从mysql导出的ETC卡交易的数据统计计算每条交易记录的行驶时长,
再根据ETC卡的ID统计每个ETC的平均行驶时长;
通过下述公式计算用户行驶时长:行驶时长=结束时间-开始时间;
然后将某个用户的平均行驶时长和所有用户的平均行驶时长进行比较;
35)计算用户收费站归属度;
首先通过从mysql导出的ETC卡交易的数据统计每个ETC卡在每个收费站出现的频次以及总的频次;
然后将该ETC卡每个收费站的频次除以总频次,得到该ETC卡在在每个收费站出现的频次;通过下述公式计算用户收费站归属度:
36)计算用户路段归属度;路段归属度表征用户在某个路段出现的频率;
首先通过从mysql导出的ETC卡交易的数据统计每个ETC卡在每个路段出现的频次以及总的频次;
然后中该ETC卡每个路段的频次除以总频次,得到该ETC卡在在每个路段出现的频次;通过下述公式计算用户路段归属度:
37)计算用户行驶距离;行驶距离反映用户在一条消费记录中行驶的距离;
首先通过从mysql导出的ETC卡交易的数据统计计算每条交易记录的行驶距离,计算行驶距离需要查找行驶的路段ID;
然后计算其经过的所有路段的长度,在根据ETC卡的ID统计每个ETC的平均行驶距离;
步骤4)所述计算客车、货车用户的信用指标体系具体包括如下步骤:
41)计算用户信誉水平指标;
用户信誉水平指标由下设的二级指标计算得到,定义n1表示用户进入灰名单的次数,n2表示用户进入黑名单的次数,t1表示用户进入灰名单的时长,t2表示用户进入黑名单的时长,T表示用户总行驶时长;通过计算得到;
42)计算用户逃费情况指标;
用户逃费情况指标由下设的二级指标计算得到,定义ni,i=1…16分别表示车辆标志点作弊次数、车辆倒卡换卡次数、车辆大车小标次数、车辆冲关次数、车辆跟车次数、车辆假冒优惠车次数、车辆假冒绿通车次数、车辆车标不一致次数、车辆调整称重设备次数、车辆OBU卡倒换次数、车辆通行超时次数、车辆无出口记录次数、车辆出入口信息不闭合次数、车辆补交偷逃费超期次数、车辆使用假证件次数、车辆一车多标次数;则逃费情况计算结果为
步骤5)所述计算货车用户的货运规律指标体系具体包括如下步骤:
51)计算货车用户月均货物运输量指标;
通过SQL语句,从“出口交易流水表”中计算用户的货物总运输量,然后除以月数得到月均货物运输量;
52)计算货车用户月均货物周转量指标;
通过SQL语句,从“出口交易流水表”中计算用户的货物周转量,计算方法为∑i(wi×di),wi和di分别表示在一次交易记录中的货物运输量和运输距离,然后除以月数得到月均货物周转量;
53)计算货车用户平均运距指标;
54)计算货车用户绿通运输次数占比指标;
2.如权利要求1所述的高速公路用户画像信息获取与分析方法,其特征是,步骤6)所述客车、货车用户基本属性标签化,具体包括如下步骤:
61)根据用户性别的计算结果,将用户分为“男司机”或“女司机”;
62)根据用户年龄的计算结果,将用户分为“小青年”、“青壮年”、“中年”或“老年人”;
63)根据用户计算得到的用户最常通行的收费站所在的省市,为用户标记其“常驻地”。
3.如权利要求1所述的高速公路用户画像信息获取与分析方法,其特征是,步骤7)所述客车、货车用户消费属性标签化具体包括如下步骤:
71)根据用户价值的计算结果,将用户分为“流失优质用户”、“流失用户”、“一般流失用户”、“重要流失用户”、“待发展用户”、“重要保持用户”或“优质用户”;
72)根据用户活跃度的计算结果,将用户分为“僵尸用户”、“低活跃用户”、“活跃用户”或“老司机或高活跃用户”;
73)根据用户消费方式的计算结果,将用户分为“MTC用户”或“ETC用户”;
74)根据用户状态名单历史的计算结果,将用户分为“状态名单历史一般用户”或“状态名单历史良好用户”;
75)根据用户节假日敏感度的计算结果,将用户分为“宅男宅女”或“驴友(旅行爱好者)”。
4.如权利要求1所述的高速公路用户画像信息获取与分析方法,其特征是,步骤8)所述客车、货车用户出行规律标签化具体包括如下步骤:
81)根据用户通行稳定性的计算结果,将用户分为“上班通勤族”、“宅男宅女”、“自由职业者”、“出差族”或“旅行爱好者”;
81)根据用户周末出行比的计算结果,将用户分为“周中出行用户”或“周末出行用户”;
82)根据用户白昼出行比的计算结果,将用户分为“太阳用户”或“夜猫子”;
83)根据用户行驶时长的计算结果,将用户分为“疲劳驾驶用户”或“低行驶时长用户”;
84)根据用户收费站通行时间的计算结果,将用户分为“快速通行收费站用户”或“慢速通行收费站用户”;
85)根据用户收费站归属和收费站所在的省市的计算结果,为用户标记用户最常出行的收费站和常驻地;
86)根据用户路段归属和路段所在的省市的计算结果的计算结果,为用户标记用户最常出行的收费站和常驻地;
87)根据用户行驶距离的计算结果,将用户分为“高行驶距离用户”或“低行驶距离用户”。
5.如权利要求1所述的高速公路用户画像信息获取与分析方法,其特征是,步骤9)所述货车用户货运规律标签化具体包括如下步骤:
91)根据用户ETC货运量的计算结果,将用户分为“高货运量用户”、“中等货运量用户”或“低货运量用户”;
92)根据用户ETC周转量的计算结果,将用户分为“高周转量用户”、“中等周转量用户”或“低周转量用户”;
93)根据用户ETC平均运距的计算结果,将用户分为“高平均运距用户”、“中等平均运距用户”或“低平均运距用户”;
94根据用户绿通运输次数占比的计算结果,将用户分为“高绿通用户”、“高绿通用户”或“低绿通用户”。
6.一种高速公路用户画像信息系统,包括:高速公路用户数据获取装置、信息数据库模块、用户画像指标化模块、用户画像分群与标签化模块、用户画像信息共享应用模块、用户画像可视化模块;其中,
高速公路用户数据获取装置用于获取用户数据;用户包括客车用户和货车用户;
用户画像指标化模块用于分别建立客车用户和货车用户的多属性指标体系;获得每个用户的“画像”特征;
用户画像标签化模块通过设置多种分类方法,将用户进行分群,并设置相对应的标签;
用户画像可视化模块通过可视化技术,多层次多角度展示高速公路用户画像特征;
用户画像信息共享应用模块用于通过计算机及无线网络共享用户画像信息。
7.如权利要求6所述的高速公路用户画像信息系统,其特征是,高速公路用户数据包括:一段时间内高速公路用户历史或实时收费站出口交易、用户充值、用户基本信息、收费站信息、用户车辆信息数据。
8.如权利要求6所述的高速公路用户画像信息系统,其特征是,多属性指标体系包括:基本属性指标体系、消费属性指标体系、出行规律指标体系、信用指标体系、货运规律指标体系。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811495603.8A CN111291236A (zh) | 2018-12-07 | 2018-12-07 | 一种高速路网用户画像信息获取与分析方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811495603.8A CN111291236A (zh) | 2018-12-07 | 2018-12-07 | 一种高速路网用户画像信息获取与分析方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111291236A true CN111291236A (zh) | 2020-06-16 |
Family
ID=71021171
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811495603.8A Pending CN111291236A (zh) | 2018-12-07 | 2018-12-07 | 一种高速路网用户画像信息获取与分析方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111291236A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111967897A (zh) * | 2020-07-29 | 2020-11-20 | 哈尔滨商业大学 | 基于Agent的消费者偏好分析系统 |
CN112396517A (zh) * | 2020-12-04 | 2021-02-23 | 深圳前海微众银行股份有限公司 | Etc卡管理方法、装置、系统与计算机存储介质 |
CN112925820A (zh) * | 2021-02-02 | 2021-06-08 | 重庆首讯科技股份有限公司 | 一种车辆偷逃通行费的识别方法、装置及系统 |
CN113409095A (zh) * | 2021-08-18 | 2021-09-17 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、服务器及存储介质 |
CN114006865A (zh) * | 2021-12-28 | 2022-02-01 | 上海领健信息技术有限公司 | 基于多维度指标的用户流量控制系统、方法、终端及介质 |
CN114832386A (zh) * | 2022-04-26 | 2022-08-02 | 江苏果米文化发展有限公司 | 一种基于大数据分析的游戏用户智能管理系统 |
CN114999169A (zh) * | 2022-04-15 | 2022-09-02 | 江苏交控数字交通研究院有限公司 | 一种高速路大数据的可视化联动系统 |
CN114832386B (zh) * | 2022-04-26 | 2024-05-14 | 江苏果米文化发展有限公司 | 一种基于大数据分析的游戏用户智能管理系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6449555B1 (en) * | 1999-03-05 | 2002-09-10 | Kabushiki Kaisha Toshiba | Run time information arithmetic operation apparatus |
CN107066458A (zh) * | 2016-08-26 | 2017-08-18 | 北京车网互联科技有限公司 | 一种基于车联网数据的时空维度用户画像分析方法 |
CN108256923A (zh) * | 2018-01-30 | 2018-07-06 | 长安大学 | 一种基于车辆通行特征的etc客户细分方法 |
-
2018
- 2018-12-07 CN CN201811495603.8A patent/CN111291236A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6449555B1 (en) * | 1999-03-05 | 2002-09-10 | Kabushiki Kaisha Toshiba | Run time information arithmetic operation apparatus |
CN107066458A (zh) * | 2016-08-26 | 2017-08-18 | 北京车网互联科技有限公司 | 一种基于车联网数据的时空维度用户画像分析方法 |
CN108256923A (zh) * | 2018-01-30 | 2018-07-06 | 长安大学 | 一种基于车辆通行特征的etc客户细分方法 |
Non-Patent Citations (1)
Title |
---|
马春平: "基于全国联网ETC运营数据的应用研究" * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111967897A (zh) * | 2020-07-29 | 2020-11-20 | 哈尔滨商业大学 | 基于Agent的消费者偏好分析系统 |
CN112396517A (zh) * | 2020-12-04 | 2021-02-23 | 深圳前海微众银行股份有限公司 | Etc卡管理方法、装置、系统与计算机存储介质 |
CN112925820A (zh) * | 2021-02-02 | 2021-06-08 | 重庆首讯科技股份有限公司 | 一种车辆偷逃通行费的识别方法、装置及系统 |
CN113409095A (zh) * | 2021-08-18 | 2021-09-17 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、服务器及存储介质 |
CN113409095B (zh) * | 2021-08-18 | 2021-12-03 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、服务器及存储介质 |
CN114006865A (zh) * | 2021-12-28 | 2022-02-01 | 上海领健信息技术有限公司 | 基于多维度指标的用户流量控制系统、方法、终端及介质 |
CN114006865B (zh) * | 2021-12-28 | 2022-04-15 | 上海领健信息技术有限公司 | 基于多维度指标的用户流量控制系统、方法、终端及介质 |
CN114999169A (zh) * | 2022-04-15 | 2022-09-02 | 江苏交控数字交通研究院有限公司 | 一种高速路大数据的可视化联动系统 |
CN114832386A (zh) * | 2022-04-26 | 2022-08-02 | 江苏果米文化发展有限公司 | 一种基于大数据分析的游戏用户智能管理系统 |
CN114832386B (zh) * | 2022-04-26 | 2024-05-14 | 江苏果米文化发展有限公司 | 一种基于大数据分析的游戏用户智能管理系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111291236A (zh) | 一种高速路网用户画像信息获取与分析方法及系统 | |
Ma et al. | Mining smart card data for transit riders’ travel patterns | |
Devarasetty et al. | The value of travel time and reliability-evidence from a stated preference survey and actual usage | |
Medina | Inferring weekly primary activity patterns using public transport smart card data and a household travel survey | |
Chen et al. | Clustering vehicle temporal and spatial travel behavior using license plate recognition data | |
Sun et al. | Modeling passengers’ loyalty to public transit in a two-dimensional framework: A case study in Xiamen, China | |
Yong et al. | Mining metro commuting mobility patterns using massive smart card data | |
CN106448132A (zh) | 一种常规公交服务指数实时评价系统及评价方法 | |
Hu et al. | Frequent-pattern growth algorithm based association rule mining method of public transport travel stability | |
CN111598333A (zh) | 客流数据的预测方法及装置 | |
Zhao et al. | Recognizing metro-bus transfers from smart card data | |
Liu et al. | Exploring travel pattern variability of public transport users through smart card data: Role of gender and age | |
Chen et al. | RFM model and K-means clustering analysis of transit traveller profiles: A case study | |
CN106295868A (zh) | 交通出行数据处理方法及装置 | |
Cui et al. | Measuring full cost accessibility by auto | |
Peng et al. | Travel mode recognition of urban residents using mobile phone data and MapAPI | |
Chen et al. | Unraveling latent transfer patterns between metro and bus from large-scale smart card data | |
Wang et al. | What is the elasticity of sharing a ridesourcing trip? | |
Bousonville et al. | Data driven analysis and forecasting of medium and heavy truck fuel consumption | |
Lee et al. | Travel pattern-based bus trip origin-destination estimation using smart card data | |
Berry | Recent studies concerning the role of transportation in the space economy | |
Shah et al. | Why do people take e-scooter trips? Insights on temporal and spatial usage patterns of detailed trip data | |
Jou et al. | Freeway drivers’ willingness to pay for an on board unit under an electronic toll collection system | |
Gitelman et al. | The relationship between travel speeds, infrastructure characteristics, and crashes on two-lane highways | |
Crawford et al. | Analysing spatial intrapersonal variability of road users using point-to-point sensor data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |