CN111291933A

CN111291933A - 一种集装箱码头客户模型建模方法

Info

Publication number: CN111291933A
Application number: CN202010096706.8A
Authority: CN
Inventors: 陈强; 刘耀徽; 张雪飞; 董浩磊; 韩晓龙; 王东远; 赵彤; 张晓�
Original assignee: Qingdao New Qianwan Container Terminal Co ltd; Qingdao Port International Co Ltd
Current assignee: Qingdao New Qianwan Container Terminal Co ltd; Qingdao Port International Co Ltd
Priority date: 2020-02-17
Filing date: 2020-02-17
Publication date: 2020-06-16

Abstract

本发明公开了一种集装箱码头客户模型建模方法，包括：搭建Spark+Hadoop集群环境；基于设定指标维度选取客户群体信息；处理客户群体信息得到客户群体数据，并对客户群体数据进行归一化处理；建立聚类模型，在搭建的Spark平台上对所述客户群体数据进行聚类分析确定关注客户类别，针对每个类别的关注客户确定客户关注度。解决大数据背景之下的高维数据计算效率问题，帮助集装箱码头识别不同的客户群体，达到优化资源配置、降低成本的目的。

Description

一种集装箱码头客户模型建模方法

技术领域

本发明属于集装箱码头技术领域，具体地说，是涉及一种集装箱码头客户模型建模方法。

背景技术

随着集装箱码头规模的不断扩大，服务客户群体的迅速增多，集装箱码头公司的客户数据信息在急剧增长，全国集装箱码头一直在探索利用大数据技术实现对码头客户的精细化管理和细分，以实现码头客户资源的高效配置和优化。现在全国集装箱码头客户信息主要领域集中在客户信息数据库及统计分析系统等领域，但是针对大数据背景下集装箱码头客户深层次的挖掘与细分工作少有突破。

发明内容

本发明的目的在于提供一种集装箱码头客户模型建模方法，解决大数据背景之下的高维数据计算效率问题，帮助集装箱码头识别不同的客户群体，达到优化资源配置、降低成本的目的。

为解决上述技术问题，本发明采用以下技术方案予以实现：

提出一种集装箱码头客户模型建模方法，包括：搭建Spark+Hadoop集群环境；基于设定指标维度选取客户群体信息；处理客户群体信息得到客户群体数据，并对客户群体数据进行归一化处理；建立聚类模型，在搭建的Spark平台上对所述客户群体数据进行聚类分析确定关注客户类别，针对每个类别的关注客户确定客户关注度。

进一步的，在搭建Spark+Hadoop集群环境中，包括：所述Spark集群依赖于CDH集群正常工作；以及，在搭建Hadoop集群基础上搭建YARN资源管理器的Spark分布式集群，基于Hadoop底层的HDFS实现海量数据存储，基于Spark实现对大规模数据的快速分布式计算。

进一步的，基于设定指标维度选取客户群体信息中，所述设定指标维度包括：基于客户对码头贡献的集装箱吞吐量、客户对码头贡献的单箱收入、客户对码头贡献收入的增长率、客户挂靠码头的航线数量和客户的欠款额。

进一步的，处理客户群体信息得到客户群体数据，包括：通过ETL工具对不同客户群体信息进行过滤、清洗、转换，得到客户群体数据。

进一步的，对客户群体数据进行归一化处理，包括：采用线性归一化处理客户群体数据，使得结果值映射到[0,1]之间。

进一步的，建立聚类模型，具体包括：在搭建的Spark集群环境中将所述不同客户群体数据采用Spark MLlib K-means算法建立Spark MLlib K-means聚类模型。

进一步的，在K-means算法中，采用误差平方和SSE确定最佳聚类数k；在SparkMLlib K-means中对初始聚类中心采用随机选择方式得到所需的聚类中心。

与现有技术相比，本发明的优点和积极效果是：本发明申请提出的集装箱码头客户模型建模方法，通过搭建Spark+Hadoop集群模式，实现海量数据的分布式存储和快速分布式计算，对客户信息细分效率更快，更有利于高效的进行客户资源配置和优化；基于能够体现客户价值的设定指标维度：客户对码头贡献的集装箱吞吐量、客户对码头贡献的单箱收入、客户对码头贡献收入的增长率、客户挂靠码头的航线数量和客户的欠款额，来选取客户群体信息，建模分析不同的客户群体数据，确定重点关注客户类别，对不同的客户类别给予不同的关注度，从客户的“全面把控”到“重点关注”，保证高效率的资源配置与优化，可节约成本提高收入。

结合附图阅读本发明实施方式的详细描述后，本发明的其他特点和优点将变得更加清楚。

附图说明

图1为本发明提出的集装箱码头客户模型建模方法的流程图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步详细的说明。

本发明提出的集装箱码头客户模型建模方法，使用大数据技术实现海量数据的分布式存储和快速计算，选取五个维度建模分析不同的客户群体数据，确定重点关注客户类别，对不同的客户类别给予不同的关注度，具体的，如图1所示，包括如下步骤：

步骤S1：搭建Spark+Hadoop集群环境。

为实现系统的良好兼容，系统所有软件均采用CDH(Hadoop分支中的一种)版本，Spark(专为大规模数据处理而设计的快速通用的计算引擎)集群依赖于CDH集群正常工作，在搭建Hadoop(分布式存储)集群基础上搭建基于YARN资源管理器的Spark分布式集群，借助Hadoop底层的HDFS实现海量数据的存储，利用Spark在数据处理上的速度优势实现对大规模数据的快速分布式计算。

步骤S2：基于设定指标维度选取客户群体信息。

通过从统计学特征、价值等因素综合分析选取能够体现客户价值的变量作为指标，包括客户对码头贡献的集装箱吞吐量、客户对码头贡献的单箱收入、客户对码头贡献收入的增长率、客户挂靠码头的航线数量、客户的欠款额5个指标维度。

客户对码头贡献的集装箱吞吐量越大，该客户规模和盈利情况越可观，服务水平越好，给码头带来的收入就越高，客户价值越高；客户对码头贡献的单箱收入和客户对码头贡献收入的增长率是衡量该客户价值的最直接体现，客户对码头贡献的单箱收入是客户对码头贡献的收入与客户对码头贡献的集装箱吞吐量之比，比值越大，则该客户的价值越高，同时客户对码头贡献收入的增长率越高，该客户的价值越高；客户挂靠码头的航线数量越多，则该客户与码头有较稳定的合作关系，价值越高；客户的欠款额则反应了客户的信任度，欠款额越大，信任度越低，客户价值越低。

步骤S3：处理客户群体信息得到客户群体数据，并对客户群体数据进行归一化处理。

通过ETL(Extract-Transform-Load，用来描述将数据从来源端经过抽取、转换、加载至目的端的过程)工具对不同客户群体信息进行过滤、清洗、转换。过滤、清洗部分是指某些字段值缺失、数据记录不完整、数据空值、数据转码异常等情况。因为不同的客户系统信息化不同，业务系统数据库设计不一致等，因此需要通过数据转换实现数据联网，将来自于不同系统的数据统一汇聚到一个系统中，统一使用。

采用线性归一化方法，对原始数据进行线性变换，使得结果值映射到[0,1]之间，缩小数据范围，避免值域过大。转换函数如下：

式中，x'是转换后的值，x转换前的值，min(x)是该属性的最小值，max(x)该属性的最大值。

步骤S4：建立聚类模型，在搭建的Spark平台上对所述客户群体数据进行聚类分析确定关注客户类别，针对每个类别的关注客户确定客户关注度。

在搭建的Spark集群环境中将不同客户群体数据(经过ETL处理和线性归一化后的5个指标维度)，运用MLlib机器学习算法库，调用K-means算法，建立Spark MLlib K-means聚类模型进行聚类。

K-means算法对聚类数k和初始聚类中心的依赖很大，采用基于误差平方和SSE来确定k值，核心指标SSE(sum of the squared errors，简称SSE)的计算公式为：

式中C_i是第i个簇，p是C_i中的样本点，m_i是C_i的质心(C_i中所有样本的均值)，在Spark MLlib K-means中对初始聚类中心的选择支持随机选择的方法，得到所需的聚类中心。

根据上述的指标维度和最佳聚类数k，建立Spark MLlib K-means聚类模型，根据聚类结果，得到重点关注客户类别。

本实施例中，对集装箱码头服务的船公司客户群体进行建模分析，确定最佳聚类数k为5，根据客户价值将现有客户聚成5类：高价值客户、潜在价值客户、中价值客户、低价值客户及无价值客户。高价值客户对码头吞吐量贡献极大，给码头带来很高的经济利润，贡献的单箱收入很高，自身发展速度较快，挂靠在该码头的航线数量很多，基本无欠款额，与码头有稳定且长久的合作关系，因此需要对该类客户足够重视，重点关注该类别的客户。潜在价值客户信用较好，此类客户与公司建立合作关系较晚，对码头贡献的集装箱吞吐量较多，贡献的单箱收入利润较高，挂靠在该码头的航线数量较多，欠款额较少，因此公司需要不断提升该类别客户的满意度，使其能够快速升级为高价值客户，建立长久的合作关系。中价值客户总体的箱量不大，但是对该码头贡献的集装箱吞吐量逐渐增长，贡献的单箱收入较高，挂靠在该码头的航线数量逐渐增多，欠款额不大，该类客户的服务水平较高，因此对该类客户在保持现有的合作关系的基础上争取建立长久的合作关系。低价值客户码头吞吐量贡献较低，给码头带来的直接经济利润较低，挂靠在码头的航线数量少，欠款额高，信任度低，对该类别客户给予适当的关注即可。无价值客户对码头贡献的集装箱吞吐量和单箱收入极低，挂靠在该码头的航线数很少，欠款额很高，信任度很低，对该类别的客户无需过多关注。

上述本发明提出的集装箱码头客户模型建模方法中，实现了对集装箱码头客户细分的三个转变：

(1)从传统的数据库存储和计算到利用大数据技术进行海量数据的存储和计算。以往的客户信息数据仅仅是存储在传统的数据库中，对于客户信息的计算和分析方面也较欠缺；本发明通过搭建Spark+Hadoop集群模式，实现了海量数据的分布式存储和快速分布式计算，对客户信息细分效率更快，更有利于高效的进行客户资源配置和优化。

(2)从独立信息的展示到五个指标维度的体系化建模。客户对码头贡献的集装箱吞吐量、客户对码头贡献的单箱收入、客户对码头贡献收入的增长率、客户挂靠码头的航线数量、客户的欠款额五个指标维度，是一个价值性和全面性的体现。

(3)从客户的“全面把控”到“重点关注”。有依据的选择优先服务的客户，适中投入资源服务客户，保证高效率的资源配置与优化，赢得客户的认可，进而节约成本，提高收入。

应该指出的是，上述说明并非是对本发明的限制，本发明也并不仅限于上述举例，本技术领域的普通技术人员在本发明的实质范围内所做出的变化、改型、添加或替换，也应属于本发明的保护范围。

Claims

1.一种集装箱码头客户模型建模方法，其特征在于，包括：

搭建Spark+Hadoop集群环境；

基于设定指标维度选取客户群体信息；

处理客户群体信息得到客户群体数据，并对客户群体数据进行归一化处理；

建立聚类模型，在搭建的Spark平台上对所述客户群体数据进行聚类分析确定关注客户类别，针对每个类别的关注客户确定客户关注度。

2.根据权利要求1所述的集装箱码头客户模型建模方法，其特征在于，在搭建Spark+Hadoop集群环境中，包括：

所述Spark集群依赖于CDH集群正常工作；以及，

在搭建Hadoop集群基础上搭建YARN资源管理器的Spark分布式集群，基于Hadoop底层的HDFS实现海量数据存储，基于Spark实现对大规模数据的快速分布式计算。

3.根据权利要求1所述的集装箱码头客户模型建模方法，其特征在于，基于设定指标维度选取客户群体信息中，所述设定指标维度包括：

基于客户对码头贡献的集装箱吞吐量、客户对码头贡献的单箱收入、客户对码头贡献收入的增长率、客户挂靠码头的航线数量和客户的欠款额。

4.根据权利要求1所述的集装箱码头客户模型建模方法，其特征在于，处理客户群体信息得到客户群体数据，包括：

通过ETL工具对不同客户群体信息进行过滤、清洗、转换，得到客户群体数据。

5.根据权利要求1所述的集装箱码头客户模型建模方法，其特征在于，对客户群体数据进行归一化处理，包括：

采用线性归一化处理客户群体数据，使得结果值映射到[0,1]之间。

6.根据权利要求1所述的集装箱码头客户模型建模方法，其特征在于，建立聚类模型，具体包括：

在搭建的Spark集群环境中将所述不同客户群体数据采用Spark MLlib K-means算法建立Spark MLlib K-means聚类模型。

7.根据权利要求6所述的集装箱码头客户模型建模方法，其特征在于，在K-means算法中，采用误差平方和SSE确定最佳聚类数k；在Spark MLlib K-means中对初始聚类中心采用随机选择方式得到所需的聚类中心。