CN112967102A

CN112967102A - 以物流数据建立客户画像的方法

Info

Publication number: CN112967102A
Application number: CN202110151580.4A
Authority: CN
Inventors: 梁广俊; 李梦; 俞晨飞; 倪雪莉; 邓雯; 王蔓萱; 王一凡
Original assignee: JIANGSU POLICE INSTITUTE
Current assignee: JIANGSU POLICE INSTITUTE
Priority date: 2021-02-04
Filing date: 2021-02-04
Publication date: 2021-06-15

Abstract

本发明公开了以物流数据建立客户画像的方法，包括下列步骤：步骤1、数据获取和预处理：获取物流数据并对物流数据进行清洗；步骤2、构建客户生命周期模型；步骤3、构建关于需求偏好的客户画像；步骤4、构建推荐系统：采用K‑means聚类方法对客户产生的盈利额进行离散化分析进而划分客户等级，通过协同方法分析获得与客户需求接近的产品进行推荐，当无法通过协同方法获得足够的可推荐产品时，采用矩阵分解方法对客户进行推荐。本发明方便企业根据客户生命周期阶段及其变化，主动调整应对策略，产生更好的收益。同时由此方法扩大了可推荐产品的范围，保证了一定的可靠性。

Description

以物流数据建立客户画像的方法

技术领域

本发明属于大数据领域，涉及以物流数据建立客户画像的方法。

背景技术

随着信息时代的发展，随处都充斥着大数据的身影。在此类海量数据库中，隐藏着无数商业秘密，也孕育着很多机遇以及潜在的成功。但将这些信息利用起来却是一项令人望而生畏的工程。

现有的建立客户画像的方法，对物流数据的利用大部分聚焦于客户购买物品的种类、数量、地址等数据，在进行客户画像的时候缺乏对客户作为购买者在长期购买过程中由于所处客户生命周期的阶段不同，产生不同的消费心理，特别是缺乏依据物流数据分析获取客户生命周期，从而进一步完善客户画像的方法。另一方面，现有对客户偏好的分析获取的推荐产品的算法，大多基于客户个体已购买的产品，而由于物流数据中与产品相关的特征较少，导致对客户推荐的产品与客户需求不对应或属于已被满足的客户需求，因此导致客户画像用于产品推荐有效性不足的问题。

发明内容

本发明的目的在于提供以物流数据建立客户画像的方法，以解决现有技术中缺乏依据物流数据分析获取客户生命周期，导致客户画像不准确，以及物料数据中涉及产品的特征较少，导致现有客户画像应用的推荐算法不能有效匹配客户需求的技术问题。

所述的以物流数据建立客户画像的方法，包括下列步骤：

步骤1、数据获取和预处理：获取物流数据并对物流数据进行清洗；

步骤2、构建客户生命周期模型：定义客户的购买持续时间L为客户第一次购买到最后一次购买的时间间隔，定义客户最近一次购买时间间隔R为客户最近一次购买时间到建立客户画像当日的时间间隔，以L为横轴、R为纵轴设定坐标系绘制客户气泡图，通过设定分别对应横轴和纵轴的分类节点值l和r，将所述气泡图划分为四个区域，所述四个区域对应客户生命周期的不同阶段；

步骤3、构建关于需求偏好的客户画像：根据物流数据中的消费数据分别汇总，统计客户购买最多的产品系列，客户生命周期，客户的购买时间分布，客户购买商品总耗费的金额；

步骤4、构建推荐系统：采用K-means聚类方法对客户产生的盈利额进行离散化分析进而划分客户等级，通过协同方法分析客户相似度获得与客户需求接近的产品进行推荐，当无法通过协同方法获得足够的可推荐产品时，采用矩阵分解方法对客户进行推荐；

由上述步骤得到客户的需求偏好，确定对客户的推荐产品和相应的客户关怀力度。

优选的，所述步骤2中，所述四个区域与客户生命周期的不同阶段的对应关系如下：拓展阶段对应L＜l且R＜r的区域，成熟阶段对应L＜l且R＞r的区域，提升阶段对应L＞l且R＜r的区域，衰退流失阶段对应L＞l且R＞r的区域，在制定客户关怀政策时依据客户生命周期的不同阶段进行不同力度的关怀，按照衰退流失阶段、拓展阶段、提升阶段到成熟阶段的次序依次增大关怀力度。

优选的，所述步骤4中，所述K-means聚类方法具体为：利用K-means聚类方法迭代求解，先随机选取K个对象作为初始的聚类中心，然后计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心；聚类中心以及分配给它们的对象就代表一个聚类，每分配一个样本，聚类的聚类中心会根据聚类中现有的对象被重新计算产生，上述计算过程不断重复迭代直到满足终止条件；所述终止条件包括：没有产生对象或只产生设定的最小数目的对象被重新分配给不同的聚类、没有聚类中心或只有最小数目的聚类中心发生变化、误差平方和局部最小三种中的任意一种情况。

优选的，所述步骤4中，所述协同过滤方法将客户作为分析的目标，包括有根据客户相似度获取可推荐产品的方法，所述根据客户相似度获取可推荐产品的方法通过分析得到与目标相似度高的其他客户，再根据相似度高的其他客户与目标之间已购产品的差异，将目标未购置但相似度高的其他客户已购置的产品作为可推荐产品。

优选的，根据客户相似度获取可推荐产品的方法的具体计算方法如下：采用余弦相似度作为计算相似度的计算方法，给定客户u和客户v,设N(u)和N(v)分别表示客户u和v有过积极行为反馈的产品组合，则这两个客户的相似度如公式：

当sim(u，v)大于设定阈值则认为客户u和客户v之间足够相似，客户u和客户v互为相似度高的其他客户。

优选的，构建矩阵，矩阵中列表示客户、行表示商品、矩阵中的元素表示对应客户购买对应商品产生的盈利额，当无法通过协同方法获得足够的可推荐产品时，采用矩阵分解方法对客户进行推荐，对矩阵进行矩阵分解，经过一定次数的梯度下降调优后，若分解的模型损失大幅下降趋于稳定，则视为矩阵分解的训练结果成功，之后对分解后的矩阵进行分析，将数值高于一定阈值的元素所对应的商品作为可推荐的商品。

优选的，所述步骤1中对数据集数据进行清洗时，忽略销售数量为负数的数据异常值，部分数据缺失值记为NULL在编译过程中直接忽略。

本发明的技术效果：本发明通过对客户的购买持续时间和最近一次购买时间间隔的定义，制定相应坐标系，然后据此绘制客户气泡图，通过设定对应节点值，将客户准确划分为对应不同客户购买规律的客户生命周期阶段。上述过程准确表现了客户客户与企业从建立业务关系到终止业务关系的全过程，也表现这一过程中的企业与客户关系的发展轨迹，因此能成为企业对客户关怀力度调整的依据，方便企业根据客户生命周期阶段及其变化，主动调整应对策略，产生更好的收益。

此外本发明在统计了客户购买产品的偏好的基础上，进一步客户相似度进行分析得到设于推荐给该客户的可推荐产品。这当中考虑到如果采用产品的相似度进行分析，由于物流数据中产品的特征较少，因此基于物流数据的客户画像不采用基于产品相似度的推荐算法获取可推荐产品。而且在采集足够的购买产品的物流信息后还能据此分析客户相似度，由于客户已购买的产品可能已经满足客户需求，因此通过客户相似度较近的其它客户推断目标客户可能接受的产品，进一步扩大了可推荐产品的范围，同时又能保证新增可推荐产品与客户需求具有足够的对应关系，避免盲目推荐或推荐产品范围太小。

当采用用户相似度的分析方法发现不能提供推荐产品或推荐产品的数量不足时，本方案还能采用矩阵分析法，将客户与产品的对应关系通过盈利额表现，并经过多次梯度下调后确定，这样即使无法通过客户相似度进行分析也能通过矩阵分析法获得相应的可推荐产品。

附图说明

图1为本发明中通过客户相似度得到可推荐产品的流程图。

图2为本发明实施例中划分客户生命周期阶段的客户气泡图。

图3为本发明实施例中统计得到相关企业的客户中客户生命周期阶段占比的饼状图。

图4为本发明实施例中对客户进行K-means聚类分析得到的客户分类的客户分布散点图。

图5为本发明实施例中进行矩阵分解的模型训练损失变化图。

具体实施方式

下面对照附图，通过对实施例的描述，对本发明具体实施方式作进一步详细的说明，以帮助本领域的技术人员对本发明的发明构思、技术方案有更完整、准确和深入的理解。

如图1-5所示，本发明提供了以物流数据建立客户画像的方法，下列步骤。

步骤1、数据获取和预处理：获取物流数据并对物流数据进行清洗。

步骤2、构建客户生命周期模型：确定客户属于客户生命周期的哪个阶段。

步骤3、构建关于需求偏好的客户画像：根据物流数据确定客户购买最多的产品系列和其他偏好因素。

步骤4、构建推荐系统：根据上述信息确定用哪种方法对客户进行推荐，推得对应客户的可推荐产品。

由上述步骤得到包含客户生命周期阶段、购买产品系列偏好、客户等级在内的客户画像，进一步确定对客户的推荐产品和相应的客户关怀力度。具体而言，上述步骤采用的具体操作方法如下。

一、数据获取和预处理。

首先采集物流数据，在对数据的分析过程中发现，2018年的销售订单仅包含单据编号、单据日期、单据类型、结算单位地址、往来单位编号、商品编号、商品名称、销售数量/销售单位/质量、自定义辅助数量、职员名称这十项数据，而2019年的销售订单明显比2018多了单价、销售金额、成本单价、成本金额等信息，于是首先利用19年销售订单数据补全18年销售订单缺失的销售单价等信息，再将两年的物流配送数据进行拼接，形成一个完整的数据集。

接着对数据集数据进行清洗，对数据进行筛查中发现两年销售订单中含有销售数量小于零的数据，将这些数据作为异常值直接去掉。其次因为2018年的销售数据信息部分来自2019年，而实际情况下有些订单涉及的商品18年有而到了19年却没有了，导致部分数据缺失，便将这些数据记为NULL值在编译过程中直接忽略。由此得到的数据信息表如下。

表1：处理后的完整数据信息表

接下来生成19年数据，商品编号与产地的对应字典、商品编号与单件原币的对应字典、商品编号与成本单价的对应字典。然后完善2018年数据，利用2019年的数据将2018年数据中所缺年的数据完善补充。如下表所示。

表2：2018年销售数据表

在两年销售订单数据集中，自定义辅助数量大多以箱为单位，只有极少数的情况会出现个、瓶，现实生活中每箱中有多少瓶并非固定，且考虑到采用该类单位的销售订单数量的极少也直接忽略，只计算了自定义辅助数量单位为箱的大部分数据。最后合并2018、2019年数据，去除含NULL的行。

二、构建客户生命周期模型

作为企业的重要资源，客户具有价值和生命周期。客户生命周期模型是指从企业与客户建立业务关系到完全终止关系的全过程，是客户关系水平随时间变化的发展轨迹。具体到不同的行业有不同的详细定义。

首先，划分两个重要指标：

客户的购买持续时间L(第一次购买与最后一次购买的时间间隔)。

截止到今天，客户最近一次的购买时间间隔R(即最后一次购买时间与今天的时间间隔)。从物流数据所得相关数据如下表所示：

表3：购买持续时间与间隔表

其次，需要定义分类的节点，即分别对应L和R的分类节点值l和r。在这里，我们暂且将L和R的分类节点值均设定为250天。通过这两步，我们便可以将客户分成四个类别：拓展阶段：对应L＜l且R＜r的区域；提升阶段：对应L＜l且R＞r的区域；成熟阶段：对应L＞l且R＜r的区域；衰退流失阶段：对应L＞l且R＞r的区域。

确定分类后，我们便将客户以L为横轴，R为纵轴，作客户气泡图，即可得到我们的客户在时间上与生命周期模型相关的分布结果。然后以250、250为分界线划分得到如图3所示结果：将客户划分为与客户生命周期阶段相关的四个类别。

结果显示，绝大多数的客户处于拓展阶段和提升阶段，少部分处于成熟阶段，

亦有少部分处于衰退和流失阶段，总体呈锥形分布。对于不同阶段的客户，为企业带来的利润不同，对应的运营策略也有所不同：在拓展阶段，客户往往不稳定，首次消费无法获取客户质量，对企业贡献不大，但从可持续发展的角度看，应向其倾斜客户关怀；在提升阶段，企业从客户交易获得的收入大于投入，开始盈利，企业关怀策略适当倾斜；在成熟阶段，客户愿意支付较高的价格，给企业带来的利润较大，而且由于客户忠实程度的增加，企业获得良好的间接收益，企业关怀大幅度倾斜；在衰退和流失阶段，客户对企业提供的价值不满意，获得更倾向于其他企业，交易量回落，客户利润快速下降，减少对其的关怀。

统计客户所处阶段，清楚客户需求的变化特征和发展趋势，主动调整应对策略，将更有效的管理现金流以及库存水平。

上述结果后续也能用于统计相应企业或商店的客户培养情况，通过统计不同客户生命周期阶段中客户的数量和占比，以饼形图方式显示，如图3所示，也能便于管理人员了解相应阶段的客户分布和客户培养情况。

三、构建关于需求偏好的客户画像。

通过数理统计的方法勾画目标客户、联系客户诉求。以消费数据为核心，将物流数据中各个客户的消费数据分别汇总，统计得到每个客户购买最多的产品系列。还可以进一步统计客户往来单位编号，购买持续时间，最近一次购买时间、企业盈利额、购买次数、企业销售金额、购买最多的商品系列、消费最多的公司、消费最多的年份、消费最多的月份。上述数据结合客户所处生命周期的阶段，能更好地反映客户品质及客户诉求，了解客户的需求偏好和特点。

四、构建推荐系统。

首先根据物流信息获取客户的历史购买行为的相关数据，计算对应客户购买的商品带给企业的盈利额，然后构建矩阵，矩阵中列表示客户、行表示商品、矩阵中的元素表示对应客户购买对应商品产生的盈利额。

由于盈利额数值差距较大，通过客户相似度求解客户之间距离的话，计算出的距离会非常大，导致算法精度较差。于是我们采用kmeans聚类的方法对盈利额进行离散化。聚类能发现数据对象之间的关系，将数据进行分组，组内的相似性越大，组间的差别越大，则聚类效果越好。通过迭代求解的聚类分析算法，先随机选取K个对象作为初始的聚类中心，然后计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本，聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有(或只产生最小数目)对象被重新分配给不同的聚类，也可以是没有(或只产生最小数目)聚类中心再发生变化，又或者是误差平方和局部最小。

通过K-means聚类分析客户的购买行为，将其离散化为5个等级，5：超级大客户、4：大客户、3：较大客户、2：普通客户、1：小客户，客户分布散点图如图4所示，其中x轴为企业盈利额，y轴为客户分类。因此，构建离散化后新的矩阵。

推荐系统采用多种方法从上述数据中产生可推荐产品，向对应客户推荐，其中包括基于产品相似度或客户相似度的协同过滤方法，以及矩阵分解方法。根据产品相似度获取可推荐产品的方法通过分析与目标已购产品相似度高的其他产品作为可推荐产品，这种方法必然能产生推荐产品与客户已购买产品相关性强的优点，但由于物流数据能够获取的与产品相关的特征较少，因此本方法不采用基于项目相似度的推荐算法。

所述根据客户相似度获取可推荐产品的方法通过分析得到与目标相似度高的其他客户。具体计算方法如下：采用余弦相似度作为计算相似度的计算方法，给定客户u和客户v,设N(u)和N(v)分别表示客户u和v有过积极行为反馈的产品组合，则这两个客户的相似度如公式：

再根据相似度高的其他客户与目标之间已购产品的差异，将目标未购置但相似度高的其他客户已购置的产品作为可推荐产品。这样能有效扩大推荐商品的范围，而且推荐的商品是客户尚未购买的，因此在客户需求掌握比较充分的情况下，很可能引发客户的购买欲望。

矩阵分解的推荐方法是对上述矩阵进行进一步处理。由于在实际操作中发现，有的客户的相似客户买的东西并不比他多，这种情况下，基于客户相似度的协同过滤起不了作用。于是采用矩阵分解的方法对客户进行推荐。因此采用矩阵分解方法，经过1000次梯度下降调优后，模型损失大幅下降并趋于一个稳定值，这时可视为算法的训练较为成功。模型损失的变化图如图5所示。这时就可以采用矩阵分解得到的训练结果。

对于每个客户而言，客户与商品对应的数值越高，客户越可能偏好这种商品，于是一次作为推荐的衡量指标。上述方法的流程如图1所示，通过协同过滤的方法分析客户相似度，如果能推出结果则直接推荐商品，如果不能则再利用矩阵分解得到最终结果。

上面结合附图对本发明进行了示例性描述，显然本发明具体实现并不受上述方式的限制，只要采用了本发明的发明构思和技术方案进行的各种非实质性的改进，或未经改进将本发明构思和技术方案直接应用于其它场合的，均在本发明保护范围之内。

Claims

1.以物流数据建立客户画像的方法，其特征在于：包括下列步骤：

2.根据权利要求1所述的以物流数据建立客户画像的方法，其特征在于：所述步骤2中，所述四个区域与客户生命周期的不同阶段的对应关系如下：拓展阶段对应L＜l且R＜r的区域，提升阶段对应L＜l且R＞r的区域，成熟阶段对应L＞l且R＜r的区域，衰退流失阶段对应L＞l且R＞r的区域，在制定客户关怀政策时依据客户生命周期的不同阶段进行不同力度的关怀，按照衰退流失阶段、拓展阶段、提升阶段到成熟阶段的次序依次增大关怀力度。

3.根据权利要求1或2所述的以物流数据建立客户画像的方法，其特征在于：所述步骤4中，所述K-means聚类方法具体为：利用K-means聚类方法迭代求解，先随机选取K个对象作为初始的聚类中心，然后计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心；聚类中心以及分配给它们的对象就代表一个聚类，每分配一个样本，聚类的聚类中心会根据聚类中现有的对象被重新计算产生，上述计算过程不断重复迭代直到满足终止条件；所述终止条件包括：没有产生对象或只产生设定的最小数目的对象被重新分配给不同的聚类、没有聚类中心或只有最小数目的聚类中心发生变化、误差平方和局部最小三种中的任意一种情况。

4.根据权利要求1或2所述的以物流数据建立客户画像的方法，其特征在于：所述步骤4中，所述协同过滤方法将客户作为分析的目标，包括有根据客户相似度获取可推荐产品的方法，所述根据客户相似度获取可推荐产品的方法通过分析得到与目标相似度高的其他客户，再根据相似度高的其他客户与目标之间已购产品的差异，将目标未购置但相似度高的其他客户已购置的产品作为可推荐产品。

5.根据权利要求4所述的以物流数据建立客户画像的方法，其特征在于：根据客户相似度获取可推荐产品的方法的具体计算方法如下：采用余弦相似度作为计算相似度的计算方法，给定客户u和客户v,设N(u)和N(v)分别表示客户u和v有过积极行为反馈的产品组合，则这两个客户的相似度如公式：

6.根据权利要求5所述的以物流数据建立客户画像的方法，其特征在于：构建矩阵，矩阵中列表示客户、行表示商品、矩阵中的元素表示对应客户购买对应商品产生的盈利额，当相似度高的其他客户已购置的产品均已被分析的目标所购买时，对矩阵进行矩阵分解，经过一定次数的梯度下降调优后，若分解的模型损失大幅下降趋于稳定，则视为矩阵分解的训练结果成功，之后对分解后的矩阵进行分析，将数值高于一定阈值的元素所对应的商品作为可推荐的商品。

7.根据权利要求1所述的以物流数据建立客户画像的方法，其特征在于：所述步骤1中对数据集数据进行清洗时，忽略销售数量为负数的数据异常值，部分数据缺失值记为NULL在编译过程中直接忽略。