CN105303349A - 一种铁路货运业务预警方法 - Google Patents

一种铁路货运业务预警方法 Download PDF

Info

Publication number
CN105303349A
CN105303349A CN201510710968.8A CN201510710968A CN105303349A CN 105303349 A CN105303349 A CN 105303349A CN 201510710968 A CN201510710968 A CN 201510710968A CN 105303349 A CN105303349 A CN 105303349A
Authority
CN
China
Prior art keywords
client
data
railway freight
customer
early warning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510710968.8A
Other languages
English (en)
Inventor
孙远运
朱广劼
陈宁
章雪岩
霍星
杨嘉欢
吴云云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest Jiaotong University
China Railway Information Technology Center
Original Assignee
Southwest Jiaotong University
China Railway Information Technology Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest Jiaotong University, China Railway Information Technology Center filed Critical Southwest Jiaotong University
Priority to CN201510710968.8A priority Critical patent/CN105303349A/zh
Publication of CN105303349A publication Critical patent/CN105303349A/zh
Pending legal-status Critical Current

Links

Abstract

本申请提供了一种铁路货运业务预警方法,该方法包括:使用存储的第一预设时间内的铁路货运业务预警分析数据,按照预设打分规则确定所述预设打分规则对应个数个货运指标的得分值,以及各货运指标的综合得分值;根据各货运指标的得分值,以及综合得分值使用预设聚类算法,确定Q类客户类别,以及铁路货运业务预警分析数据对应的各客户所属的客户类别,并存储;针对任一客户,该预警设备若确定在第一预设时间内所属客户类别,与存储的该客户在第二预设时间内所属客户类别不同,则将该客户,以及该客户在第一预设时间,以及第二预设时间所属客户类别进行预警显示。该技术方案能够在降低人为因素影响的情况下准确进行铁路货运业务预警。

Description

一种铁路货运业务预警方法
技术领域
本发明涉及大数据技术领域,特别涉及一种铁路货运业务预警方法。
背景技术
近二十年来,在向市场迈进和参与竞争的过程中,铁路货运初步建立了自身的营销工作体系,但由于受到各方面的制约,铁路货运市场营销工作还存在着无法确切掌握客户的流失情况、无法及时发现货运量的异常波动、无法及时了解哪些营销渠道的绩效在不断下降、无法保障货物按时到达等诸多问题,与当前及今后铁路企业分开改革、客货分线运输、运能逐步释放、铁路货运逐步由内部生产型向外部营销型转变的内在形势和货运市场需求多样化、个性化、物流化的外在形势极不相称。
另一方面,随着铁路货运货票系统、货调系统、现车系统等业务系统的升级应用、铁路货运电子商务货运业务办理全流程平台以及运输生产集成平台的建立,铁路部门积累了大量的客户信息和生产运输信息,这些信息的积累使得铁路货运部门能够基于大数据技术来为各类营销行为提供依据,及时对营销过程中存在的问题进行预警,以便及时制定相应的解决方案。
目前,常用的预警方法主要有以下几种:指数预警、统计预警、专家预警等。其中,针对指数预警,人为因素较多,数据不足也给这一方法带来较大的限制;统计预警缺乏较强的理论依据,不能测算警情变动强度等;专家预警受制于专家的经验和主观判断,指标化比较困难。
发明内容
有鉴于此,本申请提供一种铁路货运业务预警方法,以解决铁路货运预警由于人为因素较多,数据不足等原因造成的预警不准确的问题。
为解决上述技术问题,本申请的技术方案是这样实现的:
一种铁路货运业务预警方法,其特征在于,该方法包括:
获取铁路货运数据,按预设规则将所述铁路货运数据进行预处理后作为铁路货运业务预警分析数据,并进行存储;
使用存储的第一预设时间内的铁路货运业务预警分析数据,按照预设打分规则确定所述预设打分规则对应个数个货运指标的得分值,以及各货运指标的综合得分值;
根据各货运指标的得分值,以及综合得分值使用预设聚类算法,确定Q类客户类别,以及铁路货运业务预警分析数据对应的各客户所属的客户类别,并存储;
针对任一客户,该预警设备若确定在第一预设时间内所属客户类别,与存储的该客户在第二预设时间内所属客户类别不同,则将该客户,以及该客户在第一预设时间,以及第二预设时间所属客户类别进行预警显示。
由上面的技术方案可知,本申请中通过对大量铁路货运业务数据的处理、分析,以确定在不同时间段客户所属的客户类若变化时,预警显示该客户在不同时间段所属类别,以使实施者能够确定该客户在不同时间段的货运情况。该技术方案能够在降低人为因素影响的情况下准确进行铁路货运业务预警。
附图说明
图1为本申请实施例中星型模型示意图;
图2为本申请实施例中铁路货运业务预警流程示意图;
图3为本申请实施例中进一步确定一客户是否为流失客户流程示意图;
图4为本申请实施例中规则集示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,下面结合附图并举实施例,对本发明的技术方案进行详细说明。
本申请实施例中提供一种铁路货运业务预警方法,应用于进行铁路货运业务预警的设备上,下文为了描述方便,称为预警设备,该预警设备可以为一台设备,也可以为多台设备。
预警设备可以从铁路货运电商平台、运输集成等平台中获取铁路货运业务数据。
预警设备获取的铁路货运业务数据可能有结构化、半结构化和非结构化铁路货运数据;如果存在半结构化和非结构化数据,需复制一份,一份用于以半结构化或非结构化的方式存储;一份转化为结构化铁路货运数据用于进行预处理,以获得铁路货运业务预警分析数据。
该预警设备针对结构化的铁路货运数据进行的与处理包括:将数据中的缺省值,或空白值的进行填补;对冗余值进行删除、数据压缩等;如果从各平台获取的数据的格式不一致,还可以转换为统一数据格式,以便进行业务预警。
在具体实现时,可以利用MapReduce编程、ETL技术、元数据抽取等方式提取非结构化数据的属性标签,并以<属性,属性值>的方式对其进行标识。数据的预处理可以分为手工处理和自动处理两种方式,例如:删除重复数据、删除离群数据、数据压缩等数据预处理过程可以通过编写专门的应用程序的方式实现自动处理,而新增数据字段、填补空白值等数据预处理过程则需采取手工处理的方式进行等。
为了后续使用铁路货运业务预警分析数据方便,还可以根据数据仓库的方式处理铁路货运业务预警分析数据,并进行存储。
该预警设备将业务上强相关,数据上弱相关的铁路货运业务预警分析数据建立数据之间的关联关系;并确定各货运指标对应的数据值,按照预设的规则将各货运指标值存储到对应的事实表中和纬度表中;所述货运指标包括铁路货运业务数据对应的基础货运指标,以及根据铁路货运业务数据计算的统计量对应的货运指标。
在具体是现实,铁路货运业务预警分析数据的基础货运指标包括:提报时间、需求吨数、货票完成车数、审定吨数、货调完成车数、需求车数、货调完成吨数、审定车数、货票完成车数、运输里程、货运金额等;
基于基础货运指标计算的统计量,以进一步获得的货运指标,即衍生数据,包括:货运同比增长率、货运环比增长率、客户信誉度、提报吨数满足率、提报车数满足率、客户贡献度、货运事故数、运达时限、货运收入环比增长、准时交货率、客户反馈信息等。
下面以具体实施例详细说明本申请实施例中的事实表和纬度表包括的具体内容。
事实表,即运输需求表,具体包括:需求受理号、提报日期、发局、到局、发货单位名称、收货单位名称、品类、车种、需求车数等。
维度表,可以根据实际需要确定建立多少个纬度表,这里以建立五个纬度表为例,具体如下:
企业维度表,包括:提报企业代码、提报企业名称、地址、经济性质、经营范围等;
路局维度表,包括:路局代码、路局全称、路局简称等;
车种维度表,包括:车种代码、车种全称、车种简称等;
时间维度表,包括:日期、年、季度、月、日等;
品类维度表,包括:品类代码、品类简称、拼音码等。
参见图1,图1为本申请实施例中星型模型示意图。图1中以一个事实表(运输需求表)和五个纬度表(企业维度表、路局维度表、车种维度表、时间维度表、品类维度表)为例。
使用数据仓库系统与分布式系统基础架构(Hadoop)系统进行存储并管理相关数据。
结构化数据利用数据仓库进行存储,半结构化数据利用Hive+HDFS的方式进行存储,非结构化数据利用Hbase+HDFS的方式进行存储,数据仓库与Hadoop系统之间应用Sqoop工具实现连接互通以及数据交换。
铁路货运的非结构化数据主要包括:文档文件、电子邮件、日志文件、点击流数据等;半结构化数据主要包括:图像、语音、视频等,这些数据类型在结构上与关系型数据不同,但仍可以借鉴关系型数据的处理方法。
下面结合附图,详细说明本申请实施例中进行铁路货运业务预警过程。
参见图2,图2为本申请实施例中铁路货运业务预警流程示意图。具体步骤为:
步骤201,预警设备使用存储的第一预设时间内的铁路货运业务预警分析数据,按照预设打分规则确定所述预设打分规则对应个数个货运指标的得分值,以及各货运指标的综合得分值。
当所述预设打分规则采用基于铁路货运客户行为价值的细分综合评价模型(KGFM)打分方法时,KGFM打分方法时,KGFM打分方法对应的货运指标个数为4;4个货运指标可以为:K表示铁路货运客户最近一次购买距分析时间点的时间间隔与客户平均货运时间间隔的比值;G表示选取时间节点内,较上一同期节点的货运增长量;F指代提报次数;M指代货运总金额。
若已存储上述4个货运指标对应的值,则直接使用,若不存在,则使用存储的基础货运指标进行计算,获得上述4个货运指标。
上述4个货运指标仅是一种举例,具体实现时,实施者可以根据预设打分规则确定实际需要选择哪些货运指标,选择几个货运指标。
所述对应个数货指标的综合得分值,根据4个指标对客户进行货运行为的细分以及客户流失的影响程度确定各货运指标的权重值,以及各货运指标的归一化值加权求和获得。
在使用KGFM打分方法时,KGFM综合得分值KGFM=iK’+tG’+jF’+pM’,其中,K’表示K对应的货运指标的归一化值,G’表示G对应的货运指标的归一化值,F’表示F对应的货运指标的归一化值,M’表示M对应的货运指标的归一化值;i、t、j、p分别为4个货运指标的权重值。
步骤202,该预警设备根据各货运指标的得分值,以及综合得分值使用预设聚类算法,确定Q类客户类别,以及铁路货运业务预警分析数据对应的各客户所属的客户类别,并存储。
所述Q类客户类别根据铁路货运业务与各货运指标的关系确定,当Q为4时,第一类客户类别为高附加值高成长客户;第二类客户类别为高附加值稳定型客户;第三类客户类别为低附加值稳定型客户;第四类客户类型为低附加值流失型客户。
其中,预设聚类算法可以采用K-means聚类算法,此时,步骤中的Q与K-means中的K(类别数)表示的含义相同;与KGFM打分法中的K在对应技术领域表示相应的含义,它们之间没有任何关系,Q为大于1的整数。
步骤203,针对任一客户,该预警设备若确定在第一预设时间内所属客户类别,与存储的该客户在第二预设时间内所属客户类别不同,则将该客户,以及该客户在第一预设时间,以及第二预设时间所属客户类别进行预警显示。
上述举例按照预设顺序排列各客户类别为:第一客户类别、第二客户类别、第三客户类别、第四客户类别。
当客户由属于排列在前的类客户类别变为属于排列在后的客户类别,则根据预警显示初步确定该客户在流失,即为流失客户;否则,确定该客户不为流失客户,为正常客户,或者稳定上升客户等。
本步骤的第二预设时间与第一预设时间不同,如第二预设时间为2015年1-3月,第一预设时间为2015年4-6月,则按照上述对第一预设时间中的铁路货运业务预警分析数据的处理,获得在第二预设时间内各客户所属的客户类别,并存储。
在具体实现时,可以将所属客户类别变化的客户,以及所属客户类别进行预警显示,也可以仅显示流失的客户。
参见图3,图3为本申请实施例中进一步确定一客户是否为流失客户流程示意图。具体步骤为:
步骤301,预警设备根据预警显示,若确定任一客户为流失客户时,使用第一预设时间内已确定为流失客户的客户所对应的铁路货运数据作为样本进行训练建立决策树模型。
步骤302,该预警设备将该客户对应的铁路货运业务预警分析数据作为测试数据,并根据通过所述决策树提取的流失规则集,确定该客户是否为流失客户。
在进行决策树建立时,先从存储的铁路货运预警分析数据中获取预警显示的流失客户对应的相关数据;再确定输入变量与输出变量。这里的输出变量为客户状态,其为分类型变量,其他输入变量为货运指标,如客户行为数据,包括平均月提报次数、货运同比增长率、货运总提报吨数等。由于输入指标变量过多,对变量进行相关性以及重要性分析,从而对变量进行初步的筛选,确定建模字段;然后对样本集进行划分,包括训练样本集以及测试样本集。划分方法可选择随机抽样,按比例划分,或者1/N法(从第一个样本开始,从连续N个样本中抽取1个,N值可自行设定);利用决策树算法,进行流失分析,得到一棵决策树,并对决策树进行剪枝;利用测试样本集,检验模型的准确性;得到最终的决策树模型,提取流失规则集,并且应用到业务系统。
为了检测某一客户是否会流失,可以利用大量流失客户数据作为训练样本集来建立决策树模型,并将该客户信息作为测试样本集,就最近三个月是否有投诉、提报未满足率、三个月是否发生货损、总发货吨数等指标进行对比分析,进而得出分析结果。
随后使用SQL语句来表述推理规则集,使系统自动输出具有流失倾向的客户名单,以供分析人员查看。例如,在实际分析的时候会得到几组不同的推理规则集,而每一规则集当中又会包含若干条规则.
参见图4,图4为本申请实施例中规则集示意图。图4中规则集1中包含11条规则,其中用于1,即客户价值流失状态的有7条规则,规则以“如果<条件>,则<结论>...”形式表现,如规则1可以理解为:如果客户在最近三个月内有投诉记录,且其提报需求未满足率大于0.21时,客户很可能会发生价值流失。
该预警设备若确定一客户为流失客户时,在存储的第二预设时间内的非结构化,和半结构化铁路货运数据中查找该客户对应的数据,并显示,以使使用者确定该客户流失的原因。
在具体实现时,将客户的任一货运指标,包括基础货运指标,以及经过统计计算的货运指标的相关数据的动态可视化归类展示。如“平均月提报次数”这个货运指标,通过决策树模型可确定其动态阈值大小。从而,该货运指标对应的所有客户的具体数据可用以可视化方法展示:低于该阈值的值归类为预警状态,结果可以红色展示;而高于该阈值的值归类为正常状态,结果可用绿色展示。
综上所述,本申请通过对大量铁路货运业务数据的处理、分析,以确定在不同时间段客户所属的客户类若变化时,预警显示该客户在不同时间段所属类别,以使实施者能够确定该客户在不同时间段的货运情况。该技术方案能够在降低人为因素影响的情况下准确进行铁路货运业务预警。
本申请实施例中利用大数据技术实现了铁路货运多源数据的融合,建立了结构化数据与非结构数据之间的关联,使业务上强关联,数据上弱关联的各类数据能够有效的关联起来。
本申请实施例中制定了铁路货运业务数据预处理方案,包括空白值处理方案、数据格式转换方案、数据拆分方案、衍生指标计算方案等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (7)

1.一种铁路货运业务预警方法,其特征在于,该方法包括:
获取铁路货运数据,按预设规则将所述铁路货运数据进行预处理后作为铁路货运业务预警分析数据,并进行存储;
使用存储的第一预设时间内的铁路货运业务预警分析数据,按照预设打分规则确定所述预设打分规则对应个数个货运指标的得分值,以及各货运指标的综合得分值;
根据各货运指标的得分值,以及综合得分值使用预设聚类算法,确定Q类客户类别,以及铁路货运业务预警分析数据对应的各客户所属的客户类别,并存储;
针对任一客户,该预警设备若确定在第一预设时间内所属客户类别,与存储的该客户在第二预设时间内所属客户类别不同,则将该客户,以及该客户在第一预设时间,以及第二预设时间所属客户类别进行预警显示。
2.根据权利要求1所述的方法,其特征在于,
当所述预设打分规则采用基于铁路货运客户行为价值的细分综合评价模型KGFM打分方法时,KGFM打分方法对应的货运指标个数为4;4个货运指标分别为:K表示铁路货运客户最近一次购买距分析时间点的时间间隔与客户平均货运时间间隔的比值;G表示选取时间节点内,较上一同期节点的货运增长量;F指代提报次数;M指代货运总金额;
所述对应个数货指标的综合得分值,根据4个指标对客户进行货运行为的细分以及客户流失的影响程度确定各货运指标的权重值,以及各货运指标的归一化值加权求和获得。
3.根据权利要求1所述的方法,其特征在于,
所述Q类客户类别根据铁路货运业务与各货运指标的关系确定,当Q为4时,第一类客户类别为高附加值高成长客户;第二类客户类别为高附加值稳定型客户;第三类客户类别为低附加值稳定型客户;第四类客户类型为低附加值流失型客户。
4.根据权利要求1所述的方法,其特征在于,所述方法进一步包括:
根据所述预警显示,若确定任一客户为流失客户时,使用第一预设时间内已确定为流失客户的客户所对应的铁路货运数据作为样本进行训练建立决策树模型;
将该客户对应的铁路货运业务预警分析数据作为测试数据,并根据通过所述决策树提取的流失规则集,确定该客户是否为流失客户。
5.根据权利要求1所述的方法,其特征在于,所述方法进一步包括:
若确定一客户为流失客户时,在存储的第二预设时间内的非结构化,和半结构化铁路货运数据中查找该客户对应的数据,并显示。
6.根据权利要求1所述的方法,其特征在于,所述按预设规则将所述铁路货运数据进行预处理,包括:
若所述铁路货运数据为半结构化数据,或结构化数据,则将所述铁路货运数据处理为结构化铁路货运数据;
对结构化铁路货运数据中的缺省值,或空白值的进行填补;对冗余值进行删除。
7.根据权利要求1所述的方法,其特征在于,
对铁路货运业务预警分析数据进行存储,包括:
根据铁路货运业务预警分析数据计算各货运指标对应的统计度量,将所述铁路货运业务预警分析数据中的各货运指标存储到事实表中;将各货运指标对应的统计量分别存储到对应的维度表中;
将所述事实表和维度表建立星型数据模型,使用数据仓库系统与分布式系统基础架构Hadoop系统进行存储。
CN201510710968.8A 2015-10-28 2015-10-28 一种铁路货运业务预警方法 Pending CN105303349A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510710968.8A CN105303349A (zh) 2015-10-28 2015-10-28 一种铁路货运业务预警方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510710968.8A CN105303349A (zh) 2015-10-28 2015-10-28 一种铁路货运业务预警方法

Publications (1)

Publication Number Publication Date
CN105303349A true CN105303349A (zh) 2016-02-03

Family

ID=55200586

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510710968.8A Pending CN105303349A (zh) 2015-10-28 2015-10-28 一种铁路货运业务预警方法

Country Status (1)

Country Link
CN (1) CN105303349A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109670724A (zh) * 2018-12-29 2019-04-23 重庆誉存大数据科技有限公司 风险评估方法及装置
CN109858761A (zh) * 2018-12-29 2019-06-07 重庆誉存大数据科技有限公司 企业风险预估方法及装置
CN110096568A (zh) * 2019-03-22 2019-08-06 泰康保险集团股份有限公司 用于上市公司业绩预警的方法、装置、设备及存储介质
CN115147155A (zh) * 2022-07-05 2022-10-04 西南交通大学 一种基于集成学习的铁路货运客户流失预测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8249231B2 (en) * 2008-01-28 2012-08-21 International Business Machines Corporation System and computer program product for predicting churners in a telecommunications network
CN103854065A (zh) * 2012-11-30 2014-06-11 西门子公司 一种用于客户流失预测的方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8249231B2 (en) * 2008-01-28 2012-08-21 International Business Machines Corporation System and computer program product for predicting churners in a telecommunications network
CN103854065A (zh) * 2012-11-30 2014-06-11 西门子公司 一种用于客户流失预测的方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘明桦: "铁路货运大数据平台下基于聚类的客户细分应用研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109670724A (zh) * 2018-12-29 2019-04-23 重庆誉存大数据科技有限公司 风险评估方法及装置
CN109858761A (zh) * 2018-12-29 2019-06-07 重庆誉存大数据科技有限公司 企业风险预估方法及装置
CN110096568A (zh) * 2019-03-22 2019-08-06 泰康保险集团股份有限公司 用于上市公司业绩预警的方法、装置、设备及存储介质
CN110096568B (zh) * 2019-03-22 2022-12-06 泰康保险集团股份有限公司 用于上市公司业绩预警的方法、装置、设备及存储介质
CN115147155A (zh) * 2022-07-05 2022-10-04 西南交通大学 一种基于集成学习的铁路货运客户流失预测方法

Similar Documents

Publication Publication Date Title
CN106570778B (zh) 一种基于大数据的数据集成与线损分析计算的方法
CN109583796A (zh) 一种用于物流园区运营分析的数据挖掘系统及方法
Gal-Tzur et al. The impact of social media usage on transport policy: issues, challenges and recommendations
CN104834686A (zh) 一种基于混合语义矩阵的视频推荐方法
CN105303349A (zh) 一种铁路货运业务预警方法
CN109583738A (zh) 一种用于债券风险控制的装置及方法
KR102328881B1 (ko) 빅데이터 기반의 화장품업체 협업시스템
Nuzzolo et al. City logistics long-term planning: simulation of shopping mobility and goods restocking and related support systems
CN109583782B (zh) 支持多数据源的汽车金融风控方法
US20240086726A1 (en) Systems and methods for big data analytics
Timperio et al. Integrated decision support framework for distribution network design
CN111144938A (zh) 适用于汽车行业的销售线索评级的方法和系统
Bellizzi et al. Classification trees for analysing highly educated people satisfaction with airlines’ services
Baltazar et al. Spanish airports performance and efficiency benchmark. A PESA-AGB study
CN111125103A (zh) 一种数据处理方法、装置及计算机可读存储介质
CN112288453A (zh) 标签选择方法和装置
CN107688969B (zh) 一种新技术产品研发管理信息系统及管理信息方法
CN105956816A (zh) 物资运输信息智能处理方法
CN110175113B (zh) 业务场景确定方法和装置
Gonçalves et al. Stochastic optimization for humanitarian aid supply and distribution of World Food Programme (WFP) in Ethiopia
CN112232945B (zh) 一种确定个人客户授信的方法及装置
Siqueira et al. Analysis of technical efficiency and eco-efficiency in container terminals
CN109803022A (zh) 一种数字化资源共享系统及其服务方法
CN109801162A (zh) 一种社交媒体数据与多标准交叉认证融合的信用评级方法
CN109522292A (zh) 基于电网标准统一信息模型的数据处理装置和方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160203

RJ01 Rejection of invention patent application after publication