CN116975539B - 基于聚类算法的营销数据存储管理系统 - Google Patents
基于聚类算法的营销数据存储管理系统 Download PDFInfo
- Publication number
- CN116975539B CN116975539B CN202311030610.1A CN202311030610A CN116975539B CN 116975539 B CN116975539 B CN 116975539B CN 202311030610 A CN202311030610 A CN 202311030610A CN 116975539 B CN116975539 B CN 116975539B
- Authority
- CN
- China
- Prior art keywords
- marketing data
- user
- dimension
- data
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000007726 management method Methods 0.000 title claims abstract description 31
- 238000013500 data storage Methods 0.000 title claims abstract description 23
- 230000009467 reduction Effects 0.000 claims abstract description 66
- 238000000034 method Methods 0.000 claims abstract description 17
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 102100034583 Dolichyl-diphosphooligosaccharide-protein glycosyltransferase subunit 1 Human genes 0.000 claims description 9
- 101000848781 Homo sapiens Dolichyl-diphosphooligosaccharide-protein glycosyltransferase subunit 1 Proteins 0.000 claims description 9
- 230000006399 behavior Effects 0.000 claims description 5
- 239000006185 dispersion Substances 0.000 claims description 5
- 238000002372 labelling Methods 0.000 claims description 3
- 230000006872 improvement Effects 0.000 abstract description 3
- 230000000694 effects Effects 0.000 description 6
- 239000013598 vector Substances 0.000 description 4
- 238000010586 diagram Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及数据处理技术领域,具体涉及基于聚类算法的营销数据存储管理系统,包括:数据采集及预处理模块,获取每一个用户归一化后的营销数据;数据降维模块,获取得到降维营销数据;数据聚类存储模块,获取最小个数估计值,获取邻域半径估计值;利用聚类算法进行聚类,并对聚类结果进行标签标记,将数据按照标签进行存储管理。本发明通过对应不同用户进行针对性的降维数据后,提高降维后用户营销数据的稳定分布能力,并根据用户营销数据的分布情况,进行自适应参数的数据分类,进一步提高营销数据的分类准确性,进而实现用户的不同类型分类,有利提高企业营销管理效率。
Description
技术领域
本发明涉及数据处理技术领域,具体涉及基于聚类算法的营销数据存储管理系统。
背景技术
随着营销活动的不断增加,企业存有大量的营销数据。这些数据包括客户信息、客户交易信息等,其中在对客户进行存储管理时,为了便于对客户需求的更深层次挖掘,在更好的服务于客户的同时,提高营销手段的有效性,可以通过营销数据对不同客户进行分类,根据客户分类结果进行存储管理。
通过对营销数据进行聚类分析,实现对客户分类,可以有效提高企业对营销数据的管理效率。现有通过DBSCAN聚类算法可以给客户打上标签,进而将客户按照标签值进行存储管理。
但是现有DBSCAN算法在进行分类时,由于其仅依据营销数据中客户消费数据的近似性,进行分类,导致分类结果较为混乱,因为可能部分客户消费不稳定,导致难以实现对客户类型进行更加准确的标签值分类,进而本方案提出了一种基于聚类算法的营销数据存储管理系统,用于对营销数据的存储管理。
发明内容
本发明提供基于聚类算法的营销数据存储管理系统,以解决现有的问题。
本发明的基于聚类算法的营销数据存储管理系统采用如下技术方案:
本发明一个实施例提供了基于聚类算法的营销数据存储管理系统,该系统包括以下模块:
数据采集及预处理模块,用于获取每个用户的所有营销数据,所述营销数据为多维的;
数据降维模块,用于根据每个用户的所有营销数据获取每个用户的所有降维营销数据;
数据聚类存储模块,用于根据每个用户的营销数据的数量得到聚类算法的最小个数估计值,根据每个用户的降维营销数据得到每个用户的降维营销数据上的分布间隔值,获取降维营销数据的最大分布间隔值,根据每个用户的降维营销数据上的分布间隔值和最大分布间隔值,得到每个用户的间隔比值,根据每个用户的间隔比值、最大分布间隔值以及每个用户的降维营销数据的离散程度得到所有用户的降维营销数据在聚类时的邻域半径估计值;
根据最小个数估计值和邻域半径估计值对所有用户的降维营销数据进行聚类得到若干簇类,对聚类后的簇类进行标签标记,将具有相同标签对应用户的营销数据进行存储管理。
进一步地,所述根据每个用户的所有营销数据获取每个用户的所有降维营销数据,包括的具体步骤如下:
对每个用户的所有归一化后的营销数据利用PCA算法进行降维,降成1维,得到每个用户的降维营销数据。
进一步地,所述根据每个用户的营销数据的数量得到聚类算法的最小个数估计值,包括的具体步骤如下:
获取营销数据中每个用户的所有购买行为产生的购买数据次数,将所有用户的购买数据次数的平均值作为聚类算法的最小个数值,预设超参数,将超参数与最小个数值的乘积作为聚类算法的最小个数估计值。
进一步地,所述超参数的具体获取如下:
预设超参数为1。
进一步地,所述根据每个用户的降维营销数据得到每个用户的降维营销数据上的分布间隔值,包括的具体步骤如下:
获取第i个用户的降维营销数据上的最大值和最小值,将最大值和最小值之间的差值绝对值记为第i个用户的降维营销数据上的分布间隔值Li。
进一步地,所述获取降维营销数据的最大分布间隔值,根据每个用户的降维营销数据上的分布间隔值和最大分布间隔值,得到每个用户的间隔比值,包括的具体步骤如下:
将最大分布间隔值记为L,将Li与L的比值记为Mi,Mi为第i个用户的间隔比值,Li为第i个用户的降维营销数据上的分布间隔值。
进一步地,所述根据每个用户的间隔比值、最大分布间隔值以及每个用户的降维营销数据的离散程度得到所有用户的降维营销数据在聚类时的邻域半径估计值,包括的具体步骤如下:
获取第i个用户的降维营销数据的方差,将第i个用户的降维营销数据的方差记为Di,Di记为第i个用户的降维营销数据的离散程度,将Di与Mi的乘积记为Ei,Ei表示第i个用户的降维营销数据在进行聚类时的邻域半径估计值,Mi为第i个用户的间隔比值,进一步地,获取所有用户的降维营销数据在进行聚类时的邻域半径估计值,将所有用户的降维营销数据在进行聚类时的邻域半径估计值的均值记为E,将E与L的乘积记为F,L表示所有用户的降维营销数据上的最大分布间隔值,F表示最终所有用户的降维营销数据在进行聚类时的邻域半径估计值。
进一步地,所述根据最小个数估计值和邻域半径估计值对所有用户的降维营销数据进行聚类得到若干簇类,包括的具体步骤如下:
根据最小个数估计值和邻域半径估计值,利用DBSCAN算法对所有用户的降维营销数据进行聚类,得到若干簇类。
进一步地,所述对聚类后的簇类进行标签标记,将具有相同标签对应用户的营销数据进行存储管理,包括的具体步骤如下:
将得到的类簇个数记为N,对聚类后的簇类利用不同整数标签进行标记,使得每个类簇唯一对应一个整数标签;
预设阈值r,获取第i个用户的所有标签中包含降维营销数据的总条数,记为OST1;获取第i个用户的所有标签中包含降维营销数据条数最多的一个标签,记为MA,将MA中包含降维营销数据的条数,记为OSTM,当OSTM与OST1比值大于r时,则将第i个用户的所有标签均设置MA标签,记为第i个用户的最终标签,当OSTM与OST1比值小于等于r时,则认为第i个用户的降维营销数据无法进行有效的聚类,对于无法进行有效聚类的数据创建一个新的标签值,将具有相同最终标签对应用户的营销数据存储在一起。
进一步地,所述预设阈值r的具体获取方法如下:
预设阈值r=0.6。
本发明的技术方案的有益效果是:本发明通过对应不同用户进行针对性的降维数据后,提高降维后用户营销数据的稳定分布能力,并根据用户营销数据的分布情况,进行自适应参数的数据分类,进一步提高营销数据的分类准确性,进而实现用户的不同类型分类,有利提高企业营销管理效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一个实施例所提供的基于聚类算法的营销数据存储管理系统的系统框架图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的基于聚类算法的营销数据存储管理系统,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一个或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的基于聚类算法的营销数据存储管理系统的具体方案。
请参阅图1,其示出了本发明一个实施例提供的基于聚类算法的营销数据存储管理系统的系统框架图,该系统包括以下模块:
数据采集及预处理模块:
需要说明的是,本实施例主要是基于聚类算法的营销数据存储管理系统,首先需要获取营销数据。
具体的,通过营销平台,采集获取得到营销平台的营销数据。其中营销数据为每个用户购物行为对应的购买时间和商品类型和消费金额。其中商品类型之间的近似性,通过词嵌入模型进行获取。
其中每个用户的一次购买行为产生的营销数据为一条数据,每一条数据中的商品类型在词嵌入模型中数值获取方法为:对商品的类型描述文本信息利用预训练好的词嵌入模型,如word2vec,得到对应的词嵌入向量,进而将商品类型中的单词转换为词嵌入向量。其中预训练好的词嵌入模型和将商品类型中的单词转换为词嵌入向量的内容和过程为公知技术手段,本实施例不再赘述。
进一步地,对每一条营销数据中的时间和词嵌入向量以及消费金额数据分别进行线性归一化处理,得到每一个用户归一化后的营销数据,目的是消除不同数据的量纲影响。
至此,得到了每一个用户归一化后的营销数据。
数据降维模块:
需要说明的是,在得到营销平台上的营销数据后,可对营销数据利用PCA降维方法进行数据降维,其中本方案仅选择三个维度的数据,时间和商品类型以及消费金额,实施者可根据具体实施场景调整数据类型,比如说销售地址,交易频率等更多维度的因素。由于营销数据是多维的所以利用PCA降维是必要的。
需要说明的是,在得到每一个用户归一化后的营销数据后,为了获取每个用户在不同维度上的消费习惯,本实施例选择利用PCA算法对每一个用户归一化后的营销数据进行降维,表示用户的消费习惯。
具体的,利用PCA算法对每个用户的所有归一化后的营销数据进行降维,降成1维,得到每个用户的降维营销数据,进一步地,得到所有用户的降维营销数据。
数据聚类存储模块:
需要说明的是,如果直接将营销平台上的营销数据利用PCA算法进行降维,若客户的某一个消费习惯稳定但是其它消费习惯差异较大时(比如类型多样但是金额近似,或者近似差异大,但是消费类型近似),则会导致在PCA降维后,降维数据比较分散,导致在聚类时分类效果不好,进而影响对客户打标签的准确度,导致按标签进行分类存储管理时的效果较差。
进而本实施例为了使得PCA降维后的数据更加的稳定,本实施例选择采用对PCA降维进行优化,使得在利用降维后的数据进行DBSCAN算法对用户进行分类时,具有更好的分类效果。并且在利用DBSCAN算法在对用户进行分类时,为了使得分类效果进一步稳定,本实施例通过各个用户在降维数据上的分布间隔,进行DBSCAN算法中的邻域半径估计,和最小个数估计,进而根据邻域半径估计值,和最小个数估计值,得到最终的分类结果。
进而完成营销数据中各个用户的分类,进而根据各个用户的分类结果,将其对应的营销数据进行分类存储,实效更为高效的营销数据管理。
需要说明的是,通过计算各个用户之间的最大的距离值,和整体差异分布,进行领域半径估计,其中个数本方案为各用户对应数据的均值,进而利用DBSCAN方法,完成数据分类。在得到降维营销数据之后,可以利用DBSCAN算法进行降维营销数据分类,其中之所以采用DBSCAN算法是因为DBSCAN算法可以将连续密度近似的数据分为一类,进而可以将即使存在一定投影数据分布变化的用户分为一类,且不需要提前舍去分类个数。
进一步需要说明的是,但是在采用DBSCAN算法进行分类时,如果邻域半径值和最小个数选择不佳,则会极大的影响最终分类个数,由于本实施例是为了更稳定将同一类型用户分为一类,其中最小个数本实施例选择为获取所有用户所拥有购买数据条数的平均值,作为最小个数值,进而保证在利用DBSCAN算法进行分类时,不会分类过于分散或者集中。
具体的,对于DBSCAN算法的最小个数,具体获取方法如下:
获取营销数据中每个用户的所有购买行为产生的购买数据次数,将所有用户的购买数据次数的平均值作为DBSCAN算法的最小个数值,其中最小个数值,可由实施者在具体实施要求中,根据所需要的标签个数对其利用超参数进行调整,以控制最终用户分类个数,例如需要用户分类个数较多时,则超参数应当为大于1的数,需要用户分类个数较少时,则超参数应当为小于1的数,将超参数与最小个数值进行相乘,得到最小个数估计值,本实施例中以超参数为1进行说明,可由实施者根据具体实施场景进行调整。由于最小个数值和最小个数估计值都要求为整数,当最小个数估计值不为整数时,利用四舍五入方法对其进行取整,保证最终的结果为整数。
进一步地,对于DBSCAN算法的邻域半径值,具体获取方法如下;
获取第i个用户的降维营销数据上的分布间隔值Li,其中分布间隔值具体获取如下:获取第i个用户的降维营销数据上的最大值和最小值,将最大值和最小值之间的差值绝对值记为分布间隔值Li。分布间隔值Li越大,则表明数据分散越严重,进而在保证第i个用户的降维营销数据能够被分为一类时,其邻域半径值偏大。获取所有用户的降维营销数据上的分布间隔值,将最大分布间隔值记为L,将Li与L的比值记为Mi,Mi为第i个用户的间隔比值,其中Mi的值越大,越近似于1,则表示其在将第i个用户的降维营销数据分为一类时所需要的邻域半径越大。
具体的,由于第i个用户的降维营销数据在进行聚类时,所需领域半径过大时,可能由于数据的不稳定导致聚类完成后数据被分为多类,针对这种情况,本实施例通过计算邻域半径估计值来对数据进行聚类,具体如下:
获取第i个用户的降维营销数据的方差,用户的降维营销数据的方差可以反应用户的降维营销数据的稳定性,将第i个用户的降维营销数据的方差记为Di,Di记为第i个用户的降维营销数据的离散程度,其中Di越小,则表示第i个用户的数据越集中,越需要被分为一类,将Di作为第i个用户在求取邻域半径估计值时的权重值,将Di与Mi的乘积记为Ei,Ei表示第i个用户的降维营销数据在进行聚类时的邻域半径估计值,进一步地,获取所有用户的降维营销数据在进行聚类时的邻域半径估计值,将所有用户的降维营销数据在进行聚类时的邻域半径估计值的均值记为E,将E与L的乘积记为F,L表示所有用户的降维营销数据上的最大分布间隔值,F表示最终所有用户的降维营销数据在进行聚类时的邻域半径估计值。
进一步地,确定了DBSCAN算法的最小个数估计值和邻域半径估计值,利用DBSCAN算法对所有用户的降维营销数据进行聚类,得到若干簇类,得到的类簇个数记为N,对聚类后的簇类利用不同整数标签进行标记,用1,2,3,……,N这N个整数对N个类簇随机分配标签,使得每个类簇唯一对应一个整数标签,目的是区分不同的簇类,由于每一个用户的降维营销数据可能被分到同一个簇类也可能被分到多个簇类中,因此,每一个用户可能被打上同一个标签,也可能被打上多个标签,为了更好的进行管理因此需要对标签进行统一。
预设阈值r,本实施例中以预设阈值r=0.6为例进行叙述,具体实施时可由实施者根据具体场景进行调整,获取第i个用户的所有标签中包含降维营销数据的总条数,记为OST1;获取第i个用户的所有标签中包含降维营销数据条数最多的一个标签,记为MA,将MA中包含降维营销数据的条数,记为OSTM,当OSTM与OST1比值大于r时,则将第i个用户的所有标签均设置MA标签,记为第i个用户的最终标签,当OSTM与OST1比值小于等于r时,则认为第i个用户的降维营销数据无法进行有效的聚类,本实施例中对于无法进行有效聚类的数据创建一个新的标签值,新的标签值和其他标签不重复,带有新的标签的降维营销数据无法进行有效的聚类,对于无法进行有效的聚类的数据,可以通过具有相关营销分类经验的工作人员进行人工分类,实施时也可以根据具体实施场景进行其他方式的处理。
至此,对每个用户对应的多个标签进行统一标记,进而使得每个用户对应一个最终标签,使得具有相同最终标签的用户的降维营销数据集中分布在一起,也即相同最终标签的用户具有相似的消费习惯,而不同最终标签的用户彼此之间的消费习惯存在一定的差异,为了便于后续更好的营销推荐,将具有相同最终标签对应用户的营销数据存储在一起,从而提高一定的数据存储管理效率。例如在进行个性化推荐时,可以根据存储在一起的、具有相同消费习惯的用户对应的存营销数据进行推荐商品,以保证不会存在不同消费习惯的用户影响个性化推荐的准确性的情况。具体的个性化推荐是公知技术且不是本实施例的重点实施步骤,因此本实施例不再展开叙述。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.基于聚类算法的营销数据存储管理系统,其特征在于,该系统包括以下模块:
数据采集及预处理模块,用于获取每个用户的所有营销数据,所述营销数据为多维的;
数据降维模块,用于根据每个用户的所有营销数据获取每个用户的所有降维营销数据;
数据聚类存储模块,用于根据每个用户的营销数据的数量得到聚类算法的最小个数估计值,根据每个用户的降维营销数据得到每个用户的降维营销数据上的分布间隔值,获取降维营销数据的最大分布间隔值,根据每个用户的降维营销数据上的分布间隔值和最大分布间隔值,得到每个用户的间隔比值,根据每个用户的间隔比值、最大分布间隔值以及每个用户的降维营销数据的离散程度得到所有用户的降维营销数据在聚类时的邻域半径估计值;
根据最小个数估计值和邻域半径估计值对所有用户的降维营销数据进行聚类得到若干簇类,对聚类后的簇类进行标签标记,将具有相同标签对应用户的营销数据进行存储管理;
所述根据每个用户的间隔比值、最大分布间隔值以及每个用户的降维营销数据的离散程度得到所有用户的降维营销数据在聚类时的邻域半径估计值,包括的具体步骤如下:
获取第i个用户的降维营销数据的方差,将第i个用户的降维营销数据的方差记为Di,Di记为第i个用户的降维营销数据的离散程度,将Di与Mi的乘积记为Ei,Ei表示第i个用户的降维营销数据在进行聚类时的邻域半径估计值,Mi为第i个用户的间隔比值,进一步地,获取所有用户的降维营销数据在进行聚类时的邻域半径估计值,将所有用户的降维营销数据在进行聚类时的邻域半径估计值的均值记为E,将E与L的乘积记为F,L表示所有用户的降维营销数据上的最大分布间隔值,F表示最终所有用户的降维营销数据在进行聚类时的邻域半径估计值。
2.根据权利要求1所述基于聚类算法的营销数据存储管理系统,其特征在于,所述根据每个用户的所有营销数据获取每个用户的所有降维营销数据,包括的具体步骤如下:
对每个用户的所有归一化后的营销数据利用PCA算法进行降维,降成1维,得到每个用户的降维营销数据。
3.根据权利要求1所述基于聚类算法的营销数据存储管理系统,其特征在于,所述根据每个用户的营销数据的数量得到聚类算法的最小个数估计值,包括的具体步骤如下:
获取营销数据中每个用户的所有购买行为产生的购买数据次数,将所有用户的购买数据次数的平均值作为聚类算法的最小个数值,预设超参数,将超参数与最小个数值的乘积作为聚类算法的最小个数估计值。
4.根据权利要求3所述基于聚类算法的营销数据存储管理系统,其特征在于,所述超参数的具体获取如下:
预设超参数为1。
5.根据权利要求1所述基于聚类算法的营销数据存储管理系统,其特征在于,所述根据每个用户的降维营销数据得到每个用户的降维营销数据上的分布间隔值,包括的具体步骤如下:
获取第i个用户的降维营销数据上的最大值和最小值,将最大值和最小值之间的差值绝对值记为第i个用户的降维营销数据上的分布间隔值Li。
6.根据权利要求1所述基于聚类算法的营销数据存储管理系统,其特征在于,所述获取降维营销数据的最大分布间隔值,根据每个用户的降维营销数据上的分布间隔值和最大分布间隔值,得到每个用户的间隔比值,包括的具体步骤如下:
将最大分布间隔值记为L,将Li与L的比值记为Mi,Mi为第i个用户的间隔比值,Li为第i个用户的降维营销数据上的分布间隔值。
7.根据权利要求1所述基于聚类算法的营销数据存储管理系统,其特征在于,所述根据最小个数估计值和邻域半径估计值对所有用户的降维营销数据进行聚类得到若干簇类,包括的具体步骤如下:
根据最小个数估计值和邻域半径估计值,利用DBSCAN算法对所有用户的降维营销数据进行聚类,得到若干簇类。
8.根据权利要求1所述基于聚类算法的营销数据存储管理系统,其特征在于,所述对聚类后的簇类进行标签标记,将具有相同标签对应用户的营销数据进行存储管理,包括的具体步骤如下:
将得到的类簇个数记为N,对聚类后的簇类利用不同整数标签进行标记,使得每个类簇唯一对应一个整数标签;
预设阈值r,获取第i个用户的所有标签中包含降维营销数据的总条数,记为OST1;获取第i个用户的所有标签中包含降维营销数据条数最多的一个标签,记为MA,将MA中包含降维营销数据的条数,记为OSTM,当OSTM与OST1比值大于r时,则将第i个用户的所有标签均设置MA标签,记为第i个用户的最终标签,当OSTM与OST1比值小于等于r时,则认为第i个用户的降维营销数据无法进行有效的聚类,对于无法进行有效聚类的数据创建一个新的标签值,将具有相同最终标签对应用户的营销数据存储在一起。
9.根据权利要求8所述基于聚类算法的营销数据存储管理系统,其特征在于,所述预设阈值r的具体获取方法如下:
预设阈值r=0.6。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311030610.1A CN116975539B (zh) | 2023-08-16 | 2023-08-16 | 基于聚类算法的营销数据存储管理系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311030610.1A CN116975539B (zh) | 2023-08-16 | 2023-08-16 | 基于聚类算法的营销数据存储管理系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116975539A CN116975539A (zh) | 2023-10-31 |
CN116975539B true CN116975539B (zh) | 2024-03-19 |
Family
ID=88479544
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311030610.1A Active CN116975539B (zh) | 2023-08-16 | 2023-08-16 | 基于聚类算法的营销数据存储管理系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116975539B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117743876B (zh) * | 2023-12-22 | 2024-07-16 | 冻冻(北京)网络科技有限公司 | 基于云计算的智慧仓储数据优化管理方法 |
CN117853152B (zh) * | 2024-03-07 | 2024-05-17 | 云南疆恒科技有限公司 | 一种基于多渠道的业务营销数据处理系统 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5832182A (en) * | 1996-04-24 | 1998-11-03 | Wisconsin Alumni Research Foundation | Method and system for data clustering for very large databases |
WO2018059015A1 (zh) * | 2016-09-29 | 2018-04-05 | 深圳大学 | 一种基于交易数据的客户分类方法及其系统 |
CN109685140A (zh) * | 2018-12-25 | 2019-04-26 | 上海海事大学 | 一种基于主成分分析的dbscan算法岸桥状态分类方法 |
CN109978575A (zh) * | 2017-12-27 | 2019-07-05 | 中国移动通信集团广东有限公司 | 一种挖掘用户流量经营场景的方法及装置 |
CN110362638A (zh) * | 2019-05-17 | 2019-10-22 | 天津大学 | 一种基于聚类算法dbscan的维度细分方法 |
CN112328792A (zh) * | 2020-11-09 | 2021-02-05 | 浪潮软件股份有限公司 | 一种基于dbscan聚类算法识别信用事件的优化方法 |
CN115344678A (zh) * | 2022-07-11 | 2022-11-15 | 北京容联易通信息技术有限公司 | 一种基于多种算法融合的聚类方法 |
CN115618249A (zh) * | 2022-11-08 | 2023-01-17 | 贵州电网有限责任公司 | 一种基于LargeVis降维与DBSCAN聚类的低压配电台区相位识别方法 |
CN115659194A (zh) * | 2022-11-15 | 2023-01-31 | 杨童菲 | 一种人工智能云诊断终端平台数据管理方法及系统 |
CN116561535A (zh) * | 2023-07-11 | 2023-08-08 | 安徽建筑大学 | 一种基于个性化建筑交互设计处理方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230115191A1 (en) * | 2021-10-13 | 2023-04-13 | Canon U.S.A., Inc. | Artifact removal from multimodality oct images |
-
2023
- 2023-08-16 CN CN202311030610.1A patent/CN116975539B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5832182A (en) * | 1996-04-24 | 1998-11-03 | Wisconsin Alumni Research Foundation | Method and system for data clustering for very large databases |
WO2018059015A1 (zh) * | 2016-09-29 | 2018-04-05 | 深圳大学 | 一种基于交易数据的客户分类方法及其系统 |
CN109978575A (zh) * | 2017-12-27 | 2019-07-05 | 中国移动通信集团广东有限公司 | 一种挖掘用户流量经营场景的方法及装置 |
CN109685140A (zh) * | 2018-12-25 | 2019-04-26 | 上海海事大学 | 一种基于主成分分析的dbscan算法岸桥状态分类方法 |
CN110362638A (zh) * | 2019-05-17 | 2019-10-22 | 天津大学 | 一种基于聚类算法dbscan的维度细分方法 |
CN112328792A (zh) * | 2020-11-09 | 2021-02-05 | 浪潮软件股份有限公司 | 一种基于dbscan聚类算法识别信用事件的优化方法 |
CN115344678A (zh) * | 2022-07-11 | 2022-11-15 | 北京容联易通信息技术有限公司 | 一种基于多种算法融合的聚类方法 |
CN115618249A (zh) * | 2022-11-08 | 2023-01-17 | 贵州电网有限责任公司 | 一种基于LargeVis降维与DBSCAN聚类的低压配电台区相位识别方法 |
CN115659194A (zh) * | 2022-11-15 | 2023-01-31 | 杨童菲 | 一种人工智能云诊断终端平台数据管理方法及系统 |
CN116561535A (zh) * | 2023-07-11 | 2023-08-08 | 安徽建筑大学 | 一种基于个性化建筑交互设计处理方法 |
Non-Patent Citations (4)
Title |
---|
dbscan: Fast Density-Based Clustering with R;Michael Hahsler et al.;Journal of Statistical Software;第91卷(第1期);全文 * |
基于DBSCAN算法的电信客户分类的应用研究;左国才;周荣华;符开耀;;北京联合大学学报(自然科学版)(03);全文 * |
基于自然近邻的自适应关联融合聚类算法;李萍等;计算机工程;第46卷(第6期);全文 * |
改进k值自动获取VDBSCAN聚类算法;赵文冲;蔡江辉;张继福;;计算机系统应用(09);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116975539A (zh) | 2023-10-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116975539B (zh) | 基于聚类算法的营销数据存储管理系统 | |
US9015083B1 (en) | Distribution of parameter calculation for iterative optimization methods | |
Shao et al. | A new electricity price prediction strategy using mutual information-based SVM-RFE classification | |
Schaeffer et al. | Forecasting client retention—A machine-learning approach | |
CN111179016B (zh) | 一种售电套餐推荐方法、设备及存储介质 | |
CN105225135B (zh) | 潜力客户识别方法以及装置 | |
CN112330404A (zh) | 数据处理方法和装置、服务器及存储介质 | |
CN110795610B (zh) | 一种基于聚类的电力负荷分析方法 | |
WO2023225529A2 (en) | Predictive systems and processes for product attribute research and development | |
US11061937B2 (en) | Method and system for classifying user identifiers into similar segments | |
CN112036960B (zh) | 数据获取方法、装置、设备及介质 | |
CN113378071A (zh) | 广告推荐方法及装置、电子设备、存储介质 | |
CN111339294B (zh) | 客户数据分类方法、装置及电子设备 | |
CN116934531A (zh) | 一种基于数据分析的酒类信息智能管理方法及系统 | |
CN115544250B (zh) | 一种数据处理方法及系统 | |
CN110750549A (zh) | 一种基于大数据的车辆库存管理系统 | |
CN115018207B (zh) | 一种基于上下游的供应链管理方法、系统和设备 | |
CN116596576A (zh) | 目标推荐方法及装置 | |
CN115687948A (zh) | 一种基于负荷曲线的电力专变用户无监督分类方法 | |
Li et al. | A study on customer churn of commercial banks based on learning from label proportions | |
WO2021077227A1 (en) | Method and system for generating aspects associated with a future event for a subject | |
Dogan et al. | Fuzzy RFM analysis in car rental sector | |
US20210125031A1 (en) | Method and system for generating aspects associated with a future event for a subject | |
CN116583863A (zh) | 用于使用自然语言搜索生成广告弹性模型的系统和方法 | |
CN113407827A (zh) | 基于用户价值分类的信息推荐方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |