CN116975539A

CN116975539A - 基于聚类算法的营销数据存储管理系统

Info

Publication number: CN116975539A
Application number: CN202311030610.1A
Authority: CN
Inventors: 黎伟琛; 罗士伟; 杜阳天
Original assignee: Hangzhou Huonu Data Technology Co ltd
Current assignee: Hangzhou Huonu Data Technology Co ltd
Priority date: 2023-08-16
Filing date: 2023-08-16
Publication date: 2023-10-31
Anticipated expiration: 2043-08-16
Also published as: CN116975539B

Abstract

本发明涉及数据处理技术领域，具体涉及基于聚类算法的营销数据存储管理系统，包括：数据采集及预处理模块，获取每一个用户归一化后的营销数据；数据降维模块，获取得到降维营销数据；数据聚类存储模块，获取最小个数估计值，获取邻域半径估计值；利用聚类算法进行聚类，并对聚类结果进行标签标记，将数据按照标签进行存储管理。本发明通过对应不同用户进行针对性的降维数据后，提高降维后用户营销数据的稳定分布能力，并根据用户营销数据的分布情况，进行自适应参数的数据分类，进一步提高营销数据的分类准确性，进而实现用户的不同类型分类，有利提高企业营销管理效率。

Description

基于聚类算法的营销数据存储管理系统

技术领域

本发明涉及数据处理技术领域，具体涉及基于聚类算法的营销数据存储管理系统。

背景技术

随着营销活动的不断增加，企业存有大量的营销数据。这些数据包括客户信息、客户交易信息等，其中在对客户进行存储管理时，为了便于对客户需求的更深层次挖掘，在更好的服务于客户的同时，提高营销手段的有效性，可以通过营销数据对不同客户进行分类，根据客户分类结果进行存储管理。

通过对营销数据进行聚类分析，实现对客户分类，可以有效提高企业对营销数据的管理效率。现有通过DBSCAN聚类算法可以给客户打上标签，进而将客户按照标签值进行存储管理。

但是现有DBSCAN算法在进行分类时，由于其仅依据营销数据中客户消费数据的近似性，进行分类，导致分类结果较为混乱，因为可能部分客户消费不稳定，导致难以实现对客户类型进行更加准确的标签值分类，进而本方案提出了一种基于聚类算法的营销数据存储管理系统，用于对营销数据的存储管理。

发明内容

本发明提供基于聚类算法的营销数据存储管理系统，以解决现有的问题。

本发明的基于聚类算法的营销数据存储管理系统采用如下技术方案：

本发明一个实施例提供了基于聚类算法的营销数据存储管理系统，该系统包括以下模块：

数据采集及预处理模块，用于获取每个用户的所有营销数据，所述营销数据为多维的；

数据降维模块，用于根据每个用户的所有营销数据获取每个用户的所有降维营销数据；

数据聚类存储模块，用于根据每个用户的营销数据的数量得到聚类算法的最小个数估计值，根据每个用户的降维营销数据得到每个用户的降维营销数据上的分布间隔值，获取降维营销数据的最大分布间隔值，根据每个用户的降维营销数据上的分布间隔值和最大分布间隔值，得到每个用户的间隔比值，根据每个用户的间隔比值、最大分布间隔值以及每个用户的降维营销数据的离散程度得到所有用户的降维营销数据在聚类时的邻域半径估计值；

根据最小个数估计值和邻域半径估计值对所有用户的降维营销数据进行聚类得到若干簇类，对聚类后的簇类进行标签标记，将具有相同标签对应用户的营销数据进行存储管理。

进一步地，所述根据每个用户的所有营销数据获取每个用户的所有降维营销数据，包括的具体步骤如下：

对每个用户的所有归一化后的营销数据利用PCA算法进行降维，降成1维，得到每个用户的降维营销数据。

进一步地，所述根据每个用户的营销数据的数量得到聚类算法的最小个数估计值，包括的具体步骤如下：

获取营销数据中每个用户的所有购买行为产生的购买数据次数，将所有用户的购买数据次数的平均值作为聚类算法的最小个数值，预设超参数，将超参数与最小个数值的乘积作为聚类算法的最小个数估计值。

进一步地，所述超参数的具体获取如下：

预设超参数为1。

进一步地，所述根据每个用户的降维营销数据得到每个用户的降维营销数据上的分布间隔值，包括的具体步骤如下：

获取第i个用户的降维营销数据上的最大值和最小值，将最大值和最小值之间的差值绝对值记为第i个用户的降维营销数据上的分布间隔值L_i。

进一步地，所述获取降维营销数据的最大分布间隔值，根据每个用户的降维营销数据上的分布间隔值和最大分布间隔值，得到每个用户的间隔比值，包括的具体步骤如下：

将最大分布间隔值记为L，将L_i与L的比值记为M_i，M_i为第i个用户的间隔比值，L_i为第i个用户的降维营销数据上的分布间隔值。

进一步地，所述根据每个用户的间隔比值、最大分布间隔值以及每个用户的降维营销数据的离散程度得到所有用户的降维营销数据在聚类时的邻域半径估计值，包括的具体步骤如下：

获取第i个用户的降维营销数据的方差，将第i个用户的降维营销数据的方差记为D_i，D_i记为第i个用户的降维营销数据的离散程度，将D_i与M_i的乘积记为E_i，E_i表示第i个用户的降维营销数据在进行聚类时的邻域半径估计值，M_i为第i个用户的间隔比值，进一步地，获取所有用户的降维营销数据在进行聚类时的邻域半径估计值，将所有用户的降维营销数据在进行聚类时的邻域半径估计值的均值记为E，将E与L的乘积记为F，L表示所有用户的降维营销数据上的最大分布间隔值，F表示最终所有用户的降维营销数据在进行聚类时的邻域半径估计值。

进一步地，所述根据最小个数估计值和邻域半径估计值对所有用户的降维营销数据进行聚类得到若干簇类，包括的具体步骤如下：

根据最小个数估计值和邻域半径估计值，利用DBSCAN算法对所有用户的降维营销数据进行聚类，得到若干簇类。

进一步地，所述对聚类后的簇类进行标签标记，将具有相同标签对应用户的营销数据进行存储管理，包括的具体步骤如下：

将得到的类簇个数记为N，对聚类后的簇类利用不同整数标签进行标记，使得每个类簇唯一对应一个整数标签；

预设阈值r，获取第i个用户的所有标签中包含降维营销数据的总条数，记为OST1；获取第i个用户的所有标签中包含降维营销数据条数最多的一个标签，记为MA，将MA中包含降维营销数据的条数，记为OSTM，当OSTM与OST1比值大于r时，则将第i个用户的所有标签均设置MA标签，记为第i个用户的最终标签，当OSTM与OST1比值小于等于r时，则认为第i个用户的降维营销数据无法进行有效的聚类，对于无法进行有效聚类的数据创建一个新的标签值，将具有相同最终标签对应用户的营销数据存储在一起。

进一步地，所述预设阈值r的具体获取方法如下：

预设阈值r＝0.6。

本发明的技术方案的有益效果是：本发明通过对应不同用户进行针对性的降维数据后，提高降维后用户营销数据的稳定分布能力，并根据用户营销数据的分布情况，进行自适应参数的数据分类，进一步提高营销数据的分类准确性，进而实现用户的不同类型分类，有利提高企业营销管理效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一个实施例所提供的基于聚类算法的营销数据存储管理系统的系统框架图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的基于聚类算法的营销数据存储管理系统，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一个或多个实施例中的特定特征、结构或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

下面结合附图具体的说明本发明所提供的基于聚类算法的营销数据存储管理系统的具体方案。

请参阅图1，其示出了本发明一个实施例提供的基于聚类算法的营销数据存储管理系统的系统框架图，该系统包括以下模块：

数据采集及预处理模块：

需要说明的是，本实施例主要是基于聚类算法的营销数据存储管理系统，首先需要获取营销数据。

具体的，通过营销平台，采集获取得到营销平台的营销数据。其中营销数据为每个用户购物行为对应的购买时间和商品类型和消费金额。其中商品类型之间的近似性，通过词嵌入模型进行获取。

其中每个用户的一次购买行为产生的营销数据为一条数据，每一条数据中的商品类型在词嵌入模型中数值获取方法为：对商品的类型描述文本信息利用预训练好的词嵌入模型，如word2vec，得到对应的词嵌入向量，进而将商品类型中的单词转换为词嵌入向量。其中预训练好的词嵌入模型和将商品类型中的单词转换为词嵌入向量的内容和过程为公知技术手段，本实施例不再赘述。

进一步地，对每一条营销数据中的时间和词嵌入向量以及消费金额数据分别进行线性归一化处理，得到每一个用户归一化后的营销数据，目的是消除不同数据的量纲影响。

至此，得到了每一个用户归一化后的营销数据。

数据降维模块：

需要说明的是，在得到营销平台上的营销数据后，可对营销数据利用PCA降维方法进行数据降维，其中本方案仅选择三个维度的数据，时间和商品类型以及消费金额，实施者可根据具体实施场景调整数据类型，比如说销售地址，交易频率等更多维度的因素。由于营销数据是多维的所以利用PCA降维是必要的。

需要说明的是，在得到每一个用户归一化后的营销数据后，为了获取每个用户在不同维度上的消费习惯，本实施例选择利用PCA算法对每一个用户归一化后的营销数据进行降维，表示用户的消费习惯。

具体的，利用PCA算法对每个用户的所有归一化后的营销数据进行降维，降成1维，得到每个用户的降维营销数据，进一步地，得到所有用户的降维营销数据。

数据聚类存储模块：

需要说明的是，如果直接将营销平台上的营销数据利用PCA算法进行降维，若客户的某一个消费习惯稳定但是其它消费习惯差异较大时(比如类型多样但是金额近似，或者近似差异大，但是消费类型近似)，则会导致在PCA降维后，降维数据比较分散，导致在聚类时分类效果不好，进而影响对客户打标签的准确度，导致按标签进行分类存储管理时的效果较差。

进而本实施例为了使得PCA降维后的数据更加的稳定，本实施例选择采用对PCA降维进行优化，使得在利用降维后的数据进行DBSCAN算法对用户进行分类时，具有更好的分类效果。并且在利用DBSCAN算法在对用户进行分类时，为了使得分类效果进一步稳定，本实施例通过各个用户在降维数据上的分布间隔，进行DBSCAN算法中的邻域半径估计，和最小个数估计，进而根据邻域半径估计值，和最小个数估计值，得到最终的分类结果。

进而完成营销数据中各个用户的分类，进而根据各个用户的分类结果，将其对应的营销数据进行分类存储，实效更为高效的营销数据管理。

需要说明的是，通过计算各个用户之间的最大的距离值，和整体差异分布，进行领域半径估计，其中个数本方案为各用户对应数据的均值，进而利用DBSCAN方法，完成数据分类。在得到降维营销数据之后，可以利用DBSCAN算法进行降维营销数据分类，其中之所以采用DBSCAN算法是因为DBSCAN算法可以将连续密度近似的数据分为一类，进而可以将即使存在一定投影数据分布变化的用户分为一类，且不需要提前舍去分类个数。

进一步需要说明的是，但是在采用DBSCAN算法进行分类时，如果邻域半径值和最小个数选择不佳，则会极大的影响最终分类个数，由于本实施例是为了更稳定将同一类型用户分为一类，其中最小个数本实施例选择为获取所有用户所拥有购买数据条数的平均值，作为最小个数值，进而保证在利用DBSCAN算法进行分类时，不会分类过于分散或者集中。

具体的，对于DBSCAN算法的最小个数，具体获取方法如下：

获取营销数据中每个用户的所有购买行为产生的购买数据次数，将所有用户的购买数据次数的平均值作为DBSCAN算法的最小个数值，其中最小个数值，可由实施者在具体实施要求中，根据所需要的标签个数对其利用超参数进行调整，以控制最终用户分类个数，例如需要用户分类个数较多时，则超参数应当为大于1的数，需要用户分类个数较少时，则超参数应当为小于1的数，将超参数与最小个数值进行相乘，得到最小个数估计值，本实施例中以超参数为1进行说明，可由实施者根据具体实施场景进行调整。由于最小个数值和最小个数估计值都要求为整数，当最小个数估计值不为整数时，利用四舍五入方法对其进行取整，保证最终的结果为整数。

进一步地，对于DBSCAN算法的邻域半径值，具体获取方法如下；

获取第i个用户的降维营销数据上的分布间隔值L_i，其中分布间隔值具体获取如下：获取第i个用户的降维营销数据上的最大值和最小值，将最大值和最小值之间的差值绝对值记为分布间隔值L_i。分布间隔值L_i越大，则表明数据分散越严重，进而在保证第i个用户的降维营销数据能够被分为一类时，其邻域半径值偏大。获取所有用户的降维营销数据上的分布间隔值，将最大分布间隔值记为L，将L_i与L的比值记为M_i，M_i为第i个用户的间隔比值，其中M_i的值越大，越近似于1，则表示其在将第i个用户的降维营销数据分为一类时所需要的邻域半径越大。

具体的，由于第i个用户的降维营销数据在进行聚类时，所需领域半径过大时，可能由于数据的不稳定导致聚类完成后数据被分为多类，针对这种情况，本实施例通过计算邻域半径估计值来对数据进行聚类，具体如下：

获取第i个用户的降维营销数据的方差，用户的降维营销数据的方差可以反应用户的降维营销数据的稳定性，将第i个用户的降维营销数据的方差记为D_i，D_i记为第i个用户的降维营销数据的离散程度，其中D_i越小，则表示第i个用户的数据越集中，越需要被分为一类，将D_i作为第i个用户在求取邻域半径估计值时的权重值，将D_i与M_i的乘积记为E_i，E_i表示第i个用户的降维营销数据在进行聚类时的邻域半径估计值，进一步地，获取所有用户的降维营销数据在进行聚类时的邻域半径估计值，将所有用户的降维营销数据在进行聚类时的邻域半径估计值的均值记为E，将E与L的乘积记为F，L表示所有用户的降维营销数据上的最大分布间隔值，F表示最终所有用户的降维营销数据在进行聚类时的邻域半径估计值。

进一步地，确定了DBSCAN算法的最小个数估计值和邻域半径估计值，利用DBSCAN算法对所有用户的降维营销数据进行聚类，得到若干簇类，得到的类簇个数记为N，对聚类后的簇类利用不同整数标签进行标记，用1，2，3，……，N这N个整数对N个类簇随机分配标签，使得每个类簇唯一对应一个整数标签，目的是区分不同的簇类，由于每一个用户的降维营销数据可能被分到同一个簇类也可能被分到多个簇类中，因此，每一个用户可能被打上同一个标签，也可能被打上多个标签，为了更好的进行管理因此需要对标签进行统一。

预设阈值r，本实施例中以预设阈值r＝0.6为例进行叙述，具体实施时可由实施者根据具体场景进行调整，获取第i个用户的所有标签中包含降维营销数据的总条数，记为OST1；获取第i个用户的所有标签中包含降维营销数据条数最多的一个标签，记为MA，将MA中包含降维营销数据的条数，记为OSTM，当OSTM与OST1比值大于r时，则将第i个用户的所有标签均设置MA标签，记为第i个用户的最终标签，当OSTM与OST1比值小于等于r时，则认为第i个用户的降维营销数据无法进行有效的聚类，本实施例中对于无法进行有效聚类的数据创建一个新的标签值，新的标签值和其他标签不重复，带有新的标签的降维营销数据无法进行有效的聚类，对于无法进行有效的聚类的数据，可以通过具有相关营销分类经验的工作人员进行人工分类，实施时也可以根据具体实施场景进行其他方式的处理。

至此，对每个用户对应的多个标签进行统一标记，进而使得每个用户对应一个最终标签，使得具有相同最终标签的用户的降维营销数据集中分布在一起，也即相同最终标签的用户具有相似的消费习惯，而不同最终标签的用户彼此之间的消费习惯存在一定的差异，为了便于后续更好的营销推荐，将具有相同最终标签对应用户的营销数据存储在一起，从而提高一定的数据存储管理效率。例如在进行个性化推荐时，可以根据存储在一起的、具有相同消费习惯的用户对应的存营销数据进行推荐商品，以保证不会存在不同消费习惯的用户影响个性化推荐的准确性的情况。具体的个性化推荐是公知技术且不是本实施例的重点实施步骤，因此本实施例不再展开叙述。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于聚类算法的营销数据存储管理系统，其特征在于，该系统包括以下模块：

数据聚类存储模块，用于根据每个用户的营销数据的数量得到聚类算法的最小个数估计值，根据每个用户的降维营销数据得到每个用户的降维营销数据上的分布间隔值，

获取降维营销数据的最大分布间隔值，根据每个用户的降维营销数据上的分布间隔值和最大分布间隔值，得到每个用户的间隔比值，根据每个用户的间隔比值、最大分布间隔值以及每个用户的降维营销数据的离散程度得到所有用户的降维营销数据在聚类时的邻域半径估计值；

2.根据权利要求1所述基于聚类算法的营销数据存储管理系统，其特征在于，所述根据每个用户的所有营销数据获取每个用户的所有降维营销数据，包括的具体步骤如下：

3.根据权利要求1所述基于聚类算法的营销数据存储管理系统，其特征在于，所述根据每个用户的营销数据的数量得到聚类算法的最小个数估计值，包括的具体步骤如下：

4.根据权利要求3所述基于聚类算法的营销数据存储管理系统，其特征在于，所述超参数的具体获取如下：

预设超参数为1。

5.根据权利要求1所述基于聚类算法的营销数据存储管理系统，其特征在于，所述根据每个用户的降维营销数据得到每个用户的降维营销数据上的分布间隔值，包括的具体步骤如下：

6.根据权利要求1所述基于聚类算法的营销数据存储管理系统，其特征在于，所述获取降维营销数据的最大分布间隔值，根据每个用户的降维营销数据上的分布间隔值和最大分布间隔值，得到每个用户的间隔比值，包括的具体步骤如下：

7.根据权利要求1所述基于聚类算法的营销数据存储管理系统，其特征在于，所述根据每个用户的间隔比值、最大分布间隔值以及每个用户的降维营销数据的离散程度得到所有用户的降维营销数据在聚类时的邻域半径估计值，包括的具体步骤如下：

8.根据权利要求1所述基于聚类算法的营销数据存储管理系统，其特征在于，所述根据最小个数估计值和邻域半径估计值对所有用户的降维营销数据进行聚类得到若干簇类，包括的具体步骤如下：

9.根据权利要求1所述基于聚类算法的营销数据存储管理系统，其特征在于，所述对聚类后的簇类进行标签标记，将具有相同标签对应用户的营销数据进行存储管理，包括的具体步骤如下：

10.根据权利要求9所述基于聚类算法的营销数据存储管理系统，其特征在于，所述预设阈值r的具体获取方法如下：

预设阈值r＝0.6。