CN111966951A

CN111966951A - 一种基于社交电商交易数据的用户群体阶层划分方法

Info

Publication number: CN111966951A
Application number: CN202010639118.4A
Authority: CN
Inventors: 张文; 崔浩亮; 陈轶; 牛少彰; 王让定; 焦崇
Original assignee: Southeast Digital Economic Development Research Institute
Current assignee: Southeast Digital Economic Development Research Institute
Priority date: 2020-07-06
Filing date: 2020-07-06
Publication date: 2020-11-20

Abstract

本发明提供了一种基于社交电商交易数据的用户群体阶层划分方法，它解决了现有操作复杂精准度不高的问题。其方法包括：步骤S1：取单位时间段内的平台使用天数、日均交易笔数、平均单笔建议金额和平均每天使用时长；步骤S2：对S1中数据进行0‑1规格化处理；步骤S3：将S2得到的纯数值采用聚类算法计算，步骤S4：以k值为x轴，SSE值为y轴建立二维坐标系。以坐标系上k值的最小和最大值对应的两点确定直线L。对每个k值对应的点计算其到直线L的垂直距离，选择距离最长的点对应的k值为最终为社交电商用户群体按照交易数据划分的阶层数。本发明优点在于更为精准便捷的进行阶层划分。

Description

一种基于社交电商交易数据的用户群体阶层划分方法

技术领域

本发明涉及电商数据整合技术领域，具体涉及一种基于社交电商交易数据的用户群体阶层划分方法。

背景技术

随着移动互联网技术和大数据技术的日益成熟，社交电商这类以移动社交平台为基础进行电商交易的群体正出于高速发展阶段，也因此涌现出各类为社交电商从业者提供相关服务的社交电商平台。这类平台为了能更有针对性地为不同类型用户推出相应的服务策略和运营策略，就须要对社交电商用户群体进行有效地阶层划分。

目前，多数网络平台在处理用户阶层划分时多采用人工标记的方式。然而，社交电商用户群体相对于传统用户群体出现较晚且复杂度高，基于人工经验的方法在处理此类问题时会存在主观性强、模糊性高、思虑不周等问题影响划分标准的最终统一。此外，面对大规模数据集时人工操作的方式也会存在处理时间过长、人力成本过高等其他一系列问题影响决策者及时做出相应的策略更改，因此急需一种便捷高效精准的阶层划分方法。

发明内容

鉴于此，本发明的目的在于克服现有技术的不足，提供一种基于社交电商交易数据的用户群体阶层划分方法，更为精准便捷的进行阶层划分。

为实现以上目的，本发明采用如下技术方案：

一种基于社交电商交易数据的用户群体阶层划分方法，包括以下步骤：

步骤S1：取单位时间段内的平台使用天数、日均交易笔数、平均单笔建议金额和平均每天使用时长；

步骤S2：对S1中数据进行0-1规格化处理；

步骤S3：将S2得到的纯数值采用聚类算法计算，公式如下：

步骤S4：以k值为x轴，SSE值为y轴建立二维坐标系。以坐标系上k值的最小和最大值对应的两点确定直线L。对每个k值对应的点计算其到直线L的垂直距离，选择距离最长的点对应的k值为最终为社交电商用户群体按照交易数据划分的阶层数。

在上述的一种基于社交电商交易数据的用户群体阶层划分方法中，在S2中的0-1规格化处理的计算公式：

在上述的一种基于社交电商交易数据的用户群体阶层划分方法中，S3中k值取1-10中的整数。

本发明相比于传统手肘法以肉眼观察SSE值拐点的方式确定k值，本发明k值确定方法自动化程度高；本发明计算量小且计算复杂度低，相对于深度学习方法更适合大规模数据分析场景。

附图说明

附图1为本发明提供的流程示意图；

附图2为本发明提供的K值与SSE值的关系图；

附图3为本发明提供的5月份K值与SSE值的关系图；

附图4为本发明提供的6月份K值与SSE值的关系图。

具体实施方式

以下采用本发明的优选实施例并结合附图，对本发明的技术方案作进一步的描述，但本发明并不限于这些实施例。

参见附图1，本发明一实施例提供的一种基于社交电商交易数据的用户群体阶层划分方法，包括：

步骤S2：对S1中数据进行0-1规格化处理；0-1规格化处理的计算公式：

步骤S3：将S2得到的纯数值采用聚类算法计算，公式如下：

平方误差和(SSE)值作为K值的调优指标，其中μⁱ表示第i个聚类簇的中心，C_i是第i个聚类簇。

聚类算法选用k-means++算法。聚类算法是一种常见的数据挖掘算法，在处理大规模无标签场景数据时有着广泛的应用，其中，k-means是具有代表性的一种聚类分析算法。本发明采用的k-means++算法是k-means算法的改进版，优化了因人为选择初始聚类中心而造成结果不稳定的情况。

本发明中的k-means++聚类算法在k值选择时以传统手肘法思想为基础进行自动化分析，方法如图2所示：根据SSE计算公式得出不同k值下的SSE值，k值按照实际需求范围选定在0到10的整数。以k值为x轴，SSE值为y轴建立二维坐标系。以坐标系上k值等于1和10对应的两点确定直线L。对每个K值对应的点计算其到直线L的垂直距离，选择距离最长的点对应的k值为最终为社交电商用户群体按照交易数据划分的阶层数，并依据此k值对应的聚类结果对社交电商用户群体进行阶层划分。

我们以社交电商平台五、六月份的交易数据为原始数据，选择其中的使用天数、日均交易笔数、平均单笔交易金额和平均每天使用时长等为特征值，利用0-1规格化方法对其进行预处理。数据预处理完成后使用k-means++算法进行聚类分析，计算不同k值情况下平方误差和(SSE)值，计算公式为：

其中，μⁱ表示第i个聚类簇的中心，C_i是第i个聚类簇。

k值按实际需求选择1到10。如图3和图4所示以k＝1和k＝10对应的两个点为基准建立关系直线。

计算各k值在坐标系上对应的点到关系直线的垂直距离，计算结果如下表所示。

K值	2	3	4	5	6	7	8	9
									5月	4.94	4.99	4.75	4.28	3.48	2.64	1.78	0.90
6月	4.91	5.01	4.76	4.3	3.5	2.66	1.81	0.93

根据表1计算结果显示，k＝3时的垂直距离最大。因此，我们选定3为该数据集的聚类k值。

为了进一步观察k＝3时社交电商用户群体的阶层划分效果，我们选用业内最为关心的用户留存率作为观察指标。留存率计算公式如下：

H_i＝p_i/m_i*100％

其中，m_i是本月第i个聚类簇的数量，p_i是第i个聚类簇在下个月用户中留存的数量。

五月份各阶层类别用户对应的人数和留存率如下表所示：

六月份各阶层类别用户对应的人数和留存率如下表所示：

从上表留存率结果来看，两个月份的聚类所得聚类簇在大多数维度上都比较相似。同时，聚类簇之间的留存率呈现阶梯状，聚类结果在留存率上表现良好，能够对社交电商用户进行较好的阶层划分。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于社交电商交易数据的用户群体阶层划分方法，其特征在于，包括以下步骤：

步骤S2：对S1中数据进行0-1规格化处理；

步骤S3：将S2得到的纯数值采用聚类算法计算，公式如下：

2.根据权利要求1所述的一种基于社交电商交易数据的用户群体阶层划分方法，其特征在于，在S2中的0-1规格化处理的计算公式：

3.根据权利要求2所述的一种基于社交电商交易数据的用户群体阶层划分方法，其特征在于，S3中k值取1-10中的整数。