CN116501770A - 一种基于模糊算法的用户数据采集方法及系统 - Google Patents
一种基于模糊算法的用户数据采集方法及系统 Download PDFInfo
- Publication number
- CN116501770A CN116501770A CN202310372614.1A CN202310372614A CN116501770A CN 116501770 A CN116501770 A CN 116501770A CN 202310372614 A CN202310372614 A CN 202310372614A CN 116501770 A CN116501770 A CN 116501770A
- Authority
- CN
- China
- Prior art keywords
- product
- fuzzy
- data
- attribute
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 36
- 238000012216 screening Methods 0.000 claims abstract description 36
- 238000004364 calculation method Methods 0.000 claims abstract description 20
- 230000008901 benefit Effects 0.000 claims description 27
- 238000012545 processing Methods 0.000 claims description 14
- 238000011156 evaluation Methods 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000012800 visualization Methods 0.000 claims description 7
- 238000007621 cluster analysis Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000013480 data collection Methods 0.000 claims description 2
- 238000013500 data storage Methods 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 27
- 238000004458 analytical method Methods 0.000 description 7
- 238000012163 sequencing technique Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000007423 decrease Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000000691 measurement method Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2468—Fuzzy queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
- G06F18/2113—Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2337—Non-hierarchical techniques using fuzzy logic, i.e. fuzzy clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Fuzzy Systems (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Mathematical Physics (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- Automation & Control Theory (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Entrepreneurship & Innovation (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Game Theory and Decision Science (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于模糊算法的用户数据采集方法及系统,所述采集方法包括以下步骤:从模糊规则中获取产品的参数后,通过公式建立属性系数,将产品通过属性系数由大到小进行排序生成优先级排序表,通过数据类型和业务需求使用模糊逻辑和模糊推理来建立模糊规则,从模糊规则中获取产品的参数后,通过公式建立属性系数,将产品通过属性系数由大到小进行排序,生成优先级排序表,从而提高对重要性大的用户特征数据的关注度。本发明将属性系数小于筛选阈值的产品从排序表中删除,降低企业计算量,从而降低计算成本,提高计算效率,且降低数据存储量。
Description
技术领域
本发明涉及数据采集技术领域,具体涉及一种基于模糊算法的用户数据采集方法及系统。
背景技术
用户数据采集系统是一种用于收集、存储和分析用户数据的系统,用户数据采集系统的主要目的是收集和分析用户数据,以便企业或组织能够更好地了解用户的行为、偏好和需求,从而提高产品和服务的质量和用户体验。此外,用户数据采集系统还可以帮助企业或组织制定更精准的营销策略、提高用户留存率和转化率,从而增加收入和利润。
现有技术存在以下不足:现有用户数据采集系统在采集用户数据后,仅通过模糊算法来获取到产品,然而,由于产品的数据量庞大,用户数据采集系统对产品没有重要度排序,以及筛选,大量的产品数据一是增加系统的计算负担,增加计算成本,降低计算效率,二是增加系统的存储负担,使用局限性大。
发明内容
本发明的目的是提供一种基于模糊算法的用户数据采集方法及系统,以解决背景技术中不足。
为了实现上述目的,本发明提供如下技术方案:一种基于模糊算法的用户数据采集方法,所述采集方法包括以下步骤:
S1:确定需要采集的用户数据类型,并根据数据类型和业务需求使用模糊逻辑和模糊推理来建立模糊规则;
S2:从模糊规则中获取产品的参数后,通过公式建立属性系数,将产品通过属性系数由大到小进行排序生成优先级排序表;
S3:设定筛选阈值,将属性系数小于筛选阈值的产品从排序表中删除;
S4:使用模糊聚类算法为产品分入多个用户,并通过可视化工具对分组结果分析和可视化;
S5:将用户数据存储在数据库中。
在一个优选的实施方式中,步骤S2中,建立所述属性系数包括以下步骤:
获取产品中的特征参数以及效益参数,将特征参数与效益参数通过公式计算后建立属性系数,表达式为:
式中,为特征参数,/>为效益参数,α、β分别为特征参数以及效益参数的比例系数,且α>β>0。
在一个优选的实施方式中,所述特征参数用于体现产品的用户感兴趣度,其中,Yi表示用户浏览产品数量,Sj表示用户浏览产品时间,Dj表示产品点击率。
在一个优选的实施方式中,所述效益参数效益参数用于体现产品的经济效益,其中,(XSz+PFz)表示产品的数据项权重系数,XSz表示销售量的权重系数,PFz表示用户评价分数的权重系数,(XSg+PFg)表示产品的数据项归一化值,XSg表示销售量的归一化值,PFg表示用户评价分数的归一化值。
在一个优选的实施方式中,所述销售量的归一化值XSg的计算公式为:
式中,XSi为最近一段时间产品的销售量,XSmax为产品的最大销售量,XSmin为产品的最小销售量;
所述用户评价分数的归一化值PFz的计算公式为:
式中,PFi为最近一段时间产品的用户评价分数,XSmax为产品的最大用户评价分数,XSmin为产品的最小用户评价分数。
在一个优选的实施方式中,获取所述产品的属性系数SXi后,将产品依据属性系数SXi由大到小进行排序,生成优先级排序表,优先级排序表为其中,/>
在一个优选的实施方式中,获取所述产品的属性系数SXi后,设定筛选阈值Sxz,将产品的属性系数SXi与筛选阈值Sxz进行对比,若属性系数SXi<筛选阈值Sxz,系统判定该产品的关注度未达到要求,将产品从优先级排序表中去除,若属性系数SXi≥筛选阈值Sxz,系统判定该产品的关注度达到要求,产品进入优先级排序表中排序。
在一个优选的实施方式中,步骤S1还包括以下步骤:
S1.1:根据数据类型和业务需求,建立的模糊变量和模糊集,设计模糊规则库,将用户输入的数据转换为模糊值;
S1.2:使用模糊推理方法对用户数据进行推理,将推理结果转化为数值或分类;
S1.3:通过历史数据验证模型,并对模型进行调整和优化。
在一个优选的实施方式中,步骤S4还包括以下步骤:
S4.1:根据业务需求和数据特点,选择模糊c均值聚类算法,确定用于聚类的变量,通过聚类分析方法确定聚类的个数;
S4.2:根据变量和数据特点,确定隶属函数,并依据聚类个数和数据量,初始化隶属度矩阵;
S4.3:通过隶属度矩阵和聚类中心的计算公式,进行多次迭代计算,直到收敛或达到预设迭代次数,获取隶属度矩阵和聚类中心,将不同的数据点划分到相应的聚类中。
本发明还提供一种基于模糊算法的用户数据采集系统,包括规则建立模块、排序模块、筛选模块、聚类模块、处理模块、存储模块;
所述规则建立模块根据数据类型和业务需求使用模糊逻辑和模糊推理来建立模糊规则,从模糊规则中获取产品的参数后,通过公式建立属性系数,所述排序模块将产品通过属性系数由大到小进行排序,生成优先级排序表,设定筛选阈值,所述筛选模块将属性系数小于筛选阈值的产品从排序表中删除,所述聚类模块通过模糊聚类算法为产品分入多个用户,所述处理模块通过可视化工具对分组结果分析和可视化,所述存储模块将用户数据存储在数据库中。
在上述技术方案中,本发明提供的技术效果和优点:
1、本发明通过数据类型和业务需求使用模糊逻辑和模糊推理来建立模糊规则,从模糊规则中获取产品的参数后,通过公式建立属性系数,将产品通过属性系数由大到小进行排序后,生成优先级排序表,从而提高对重要性大的用户特征数据的关注度,并且,将属性系数小于筛选阈值的产品从排序表中删除,降低企业计算量,从而降低计算成本,提高计算效率,且降低数据存储量;
2、本发明通过获取产品中的特征参数以及效益参数,将特征参数与效益参数通过公式计算后建立属性系数,将多项参数去除单位后综合处理,有利于提高数据处理效率,并且,若属性系数SXi<筛选阈值Sxz,系统判定该产品的关注度未达到要求,将产品从优先级排序表中去除,从而降低系统对产品数据的处理量和存储量;
3、本发明通过模糊聚类算法为产品分入多个用户,具有相似兴趣和购买意愿的用户放在一起,便于后续的营销和推广。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本发明的方法流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
请参阅图1所示,本实施例所述一种基于模糊算法的用户数据采集方法,所述采集方法包括以下步骤:
确定需要采集的用户数据类型,并根据数据类型和业务需求使用模糊逻辑和模糊推理来建立模糊规则,从模糊规则中获取产品的参数后,通过公式建立属性系数,将产品通过属性系数由大到小进行排序后,生成优先级排序表,属性系数可以用来量化产品的重要性和贡献度,从而为后续的排序和聚类提供依据,产品在排序表中越靠前,重要性越大,用于指导后续的数据分析和决策,设定筛选阈值,将属性系数小于筛选阈值的产品从排序表中删除,降低企业计算量,从而降低计算成本,提高计算效率,最后通过模糊聚类算法为产品分入多个用户,具有相似兴趣和购买意愿的用户放在一起,便于后续的营销和推广,通过可视化工具对分组结果分析和可视化,帮助企业更好地理解用户特征和需求,并根据分析结果优化模糊规则后,提高模型的准确性和实用性,将用户数据存储在数据库中,以便后续的查询和分析。
本实施例中,数据库的设计需要考虑数据的结构和索引,以便提高数据的访问效率和查询速度,具体为:
(1)数据库的结构设计应该符合第一范式、第二范式和第三范式的要求,以确保数据的完整性和一致性,具体来说,每个表应该具有唯一的主键,并且每个属性都应该具有原子性;
(2)尽量避免使用过多的冗余数据,因为冗余数据会增加数据库的存储空间和查询时间;
(3)根据数据的访问模式来选择合适的存储引擎,如MyISAM、InnoDB等,以便提高查询性能;
(4)根据查询的频率和类型来选择适当的索引类型,如B-Tree索引、Hash索引等,索引的设计应该尽量避免使用过多的索引,因为过多的索引会降低数据库的写入性能;
(5)考虑数据库的扩展性和可维护性,具体来说,应该将数据库的逻辑和物理结构分离开来,以便后续的扩展和维护;
(6)考虑到数据的安全性和保密性,具体来说,应该使用合适的身份验证和授权机制,以保护敏感数据不被未经授权的人员访问。
本申请通过数据类型和业务需求使用模糊逻辑和模糊推理来建立模糊规则,从模糊规则中获取产品的参数后,通过公式建立属性系数,将产品通过属性系数由大到小进行排序后,生成优先级排序表,从而提高对重要性大的用户特征数据的关注度,并且,将属性系数小于筛选阈值的产品从排序表中删除,降低企业计算量,从而降低计算成本,提高计算效率,且降低数据存储量。
本实施例中,根据数据类型和业务需求使用模糊逻辑和模糊推理来建立模糊规则具体包括以下步骤:
(1)确定模糊变量和模糊集:根据数据类型和业务需求,确定需要建立的模糊变量和模糊集;
(2)设计模糊规则库:根据业务需求和数据类型的特征,设计模糊规则库,将一组模糊条件和相应的模糊结论建立联系;
(3)模糊化:将用户输入的数据转换为模糊值;
(4)模糊推理:使用模糊推理方法对用户数据进行推理,例如使用模糊推理方法推断用户对该产品是否感兴趣;
(5)去模糊化:将推理结果转化为具体的数值或分类,例如使用去模糊化方法将推理结果转化为“感兴趣”或“不感兴趣”;
(6)验证模型:使用历史数据或实验结果验证模型的准确性和可靠性,对模型进行调整和优化,提高模型的预测准确率。
使用模糊逻辑和模糊推理来建立规则需要从模糊变量和模糊集、模糊规则库、模糊化、模糊推理、去模糊化和验证模型等方面出发,进行逐步构建和优化,从而实现更准确、更有效的数据分类和预测。
本实施例中,根据数据类型和业务需求,确定需要建立的模糊变量和模糊集,按照用户的年龄将用户划分为青年、中年和老年三个模糊集,并确定隶属函数,青年人的隶属函数可以采用三角形隶属函数,中年人的隶属函数可以采用梯形隶属函数,老年人的隶属函数可以采用高斯隶属函数;
其中,
青年人的隶属函数可以采用三角形隶属函数,表达式为:
其中,a、b、c为三角形隶属函数的参数,a为隶属度为0的起始点,c为隶属度为0的结束点,b为隶属度为1的峰值点,x为输入变量的值,μ(x)为输入变量x的隶属度,三角形隶属函数的图形呈现三角形状,随着输入变量x从a增加到b,隶属度从0线性增加到1,随着输入变量x从b增加到c,隶属度从1线性减少到0。
中年人的隶属函数可以采用梯形隶属函数,表达式为:
其中,d、e、f、g为梯形隶属函数的参数,d为隶属度为0的起始点,g为隶属度为0的结束点,e、f为隶属度为1的峰值点,y为输入变量的值,μ(y)为输入变量y的隶属度,梯形隶属函数的图形呈现梯形状,随着输入变量y从d增加到e,隶属度从0线性增加到1,在e到f之间,隶属度为1,随着输入变量y从f增加到g,隶属度从1线性减少到0。
老年人的隶属函数可以采用高斯隶属函数,表达式为:
μ(z)=exp[-(z-h)2/2σ2]
式中,exp表示以自然常数e为底数的指数函数,h为高斯隶属函数的中心点,σ为高斯隶属函数的标准差,z为输入变量的值,μ(z)为输入变量x的隶属度,高斯隶属函数的图形呈现钟形曲线,随着输入变量z从中心点h偏离越远,隶属度逐渐降低,标准差σ决定了曲线的陡峭程度,σ越大,曲线越平缓,σ越小,曲线越陡峭。
实施例2
上述实施例1中,从模糊规则中获取产品的参数后,通过公式建立属性系数,将产品通过属性系数由大到小进行排序后,生成优先级排序表包括以下步骤:
获取产品中的特征参数以及效益参数,将特征参数与效益参数通过公式计算后建立属性系数,表达式为:
式中,为特征参数,/>为效益参数,α、β分别为特征参数以及效益参数的比例系数,且α>β>0。
特征参数特征参数用于体现产品的用户感兴趣度,其中,Yi表示用户浏览产品数量,Sj表示用户浏览产品时间,Dj表示产品点击率,特征参数越大,用户对产品的感兴趣度越大。
效益参数效益参数用于体现产品的经济效益,其中,(XSz+PFz)表示产品的数据项权重系数,XSz表示销售量的权重系数,PFz表示用户评价分数的权重系数,(XSg+PFg)表示产品的数据项归一化值,XSg表示销售量的归一化值,PFg表示用户评价分数的归一化值,效益参数越大,产品的经济效益越高;
其中,产品销售量的权重系数XSz、用户评价分数的权重系数PFz通过对历史数据和业务需求的分析,利用相关算法和模型来评估不同数据项对业务目标的贡献和影响程度,进而确定不同数据项的权重系数;
销售量的归一化值XSg的计算公式为:
式中,XSi为最近一段时间产品的销售量,XSmax为产品的最大销售量,XSmin为产品的最小销售量。
用户评价分数的归一化值PFz的计算公式为:
式中,PFi为最近一段时间产品的用户评价分数,XSmax为产品的最大用户评价分数,XSmin为产品的最小用户评价分数。
获取产品的属性系数SXi后,将产品依据属性系数SXi由大到小进行排序,生成优先级排序表,优先级排序表为其中,
获取产品的属性系数SXi后,设定筛选阈值Sxz,将产品的属性系数SXi与筛选阈值Sxz进行对比,若属性系数SXi<筛选阈值Sxz,系统判定该产品的关注度未达到要求,将产品从优先级排序表中去除,若属性系数SXi≥筛选阈值Sxz,系统判定该产品的关注度达到要求,产品进入优先级排序表中排序。
本申请通过获取产品中的特征参数以及效益参数,将特征参数与效益参数通过公式计算后建立属性系数,将多项参数去除单位后综合处理,有利于提高数据处理效率,并且,若属性系数SXi<筛选阈值Sxz,系统判定该产品的关注度未达到要求,将产品从优先级排序表中去除,从而降低系统对产品数据的处理量和存储量。
实施例3
上述实施例1中,将具有相似兴趣和购买意愿的用户放在一起,通过模糊聚类算法为产品分入多个用户,便于后续的营销和推广具体包括以下步骤:
(1)根据业务需求和数据特点,选择模糊c均值聚类算法,确定用于聚类的变量(产品的特征参数以及效益参数),通过聚类分析、轮廓系数等方法确定聚类的个数;
(2)根据变量和数据特点,确定隶属函数,并依据聚类个数和数据量,初始化隶属度矩阵;
(3)通过隶属度矩阵和聚类中心的计算公式,进行多次迭代计算,直到收敛或达到预设迭代次数,计算出的隶属度矩阵和聚类中心,将不同的数据点划分到相应的聚类中;
(4)通过可视化工具对分组结果进行分析和可视化,根据分析结果优化模糊规则,进一步提高聚类精度和效果。
其中,模糊c均值聚类算法,确定用于聚类的变量的处理逻辑为:
(1)数据预处理:首先需要对原始数据进行预处理,包括数据清洗、缺失值处理、异常值处理、特征选择等;预处理的目的是为了去除数据中的噪声和不必要的信息,从而提高聚类的效果;
(2)确定聚类的目标:根据实际需求确定聚类的目标,例如是要将数据集分为多少个簇,或者是要将数据集分为哪些类别;
(3)选择合适的距离度量方法:选择合适的距离度量方法可以影响聚类结果的质量,常用的距离度量方法包括欧几里得距离、曼哈顿距离、余弦距离等;
(4)确定初始聚类中心:选择合适的初始聚类中心也是影响聚类结果的重要因素之一,常用的方法包括随机初始化、K-means初始化、层次聚类初始化等;
(5)确定模糊因子:模糊因子用于衡量样本与各个聚类中心之间的隶属度程度,是模糊c均值聚类算法的核心之一,通常情况下,模糊因子取值范围在[1,∞),值越大表示聚类结果越模糊,值越小表示聚类结果越清晰;
(6)迭代计算聚类中心和隶属度:通过迭代计算更新聚类中心和样本的隶属度,具体地,对于每个样本,计算其与各个聚类中心之间的距离,并更新其隶属度,同时,根据当前样本的隶属度更新每个聚类中心的坐标;
(7)检查聚类结果是否收敛:判断聚类结果是否收敛,如果聚类结果已经收敛,则输出聚类结果;否则,继续进行迭代计算;
(8)对聚类结果进行评估:对聚类结果进行评估,包括内部评估和外部评估,内部评估指的是根据聚类结果自身的一些特征进行评估,如簇内离散度、簇间距离等;外部评估指的是将聚类结果与真实结果进行比较,如准确率、召回率等。
本申请通过模糊聚类算法为产品分入多个用户,具有相似兴趣和购买意愿的用户放在一起,便于后续的营销和推广。
实施例4
请参阅图1所示,本实施例所述一种基于模糊算法的用户数据采集系统,包括规则建立模块、排序模块、筛选模块、聚类模块、处理模块、存储模块;
其中,
规则建立模块:确定需要采集的用户数据类型,并根据数据类型和业务需求使用模糊逻辑和模糊推理来建立模糊规则;
排序模块:从模糊规则中获取产品的参数后,通过公式建立属性系数,将产品通过属性系数由大到小进行排序后,生成优先级排序表;
筛选模块:设定筛选阈值,将属性系数小于筛选阈值的产品从排序表中删除,降低企业计算量,从而降低计算成本,提高计算效率;
聚类模块:通过模糊聚类算法为产品分入多个用户,具有相似兴趣和购买意愿的用户放在一起;
处理模块:通过可视化工具对分组结果分析和可视化,帮助企业更好地理解用户特征和需求,并根据分析结果优化模糊规则后,提高模型的准确性和实用性;
存储模块:将用户数据存储在数据库中,以便后续的查询和分析。
上述实施例,可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时,上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令或计算机程序。在计算机上加载或执行所述计算机指令或计算机程序时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质。半导体介质可以是固态硬盘。
应理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况,其中A,B可以是单数或者复数。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系,但也可能表示的是一种“和/或”的关系,具体可参考前后文进行理解。
本申请中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b,或c中的至少一项(个),可以表示:a,b,c,a-b,a-c,b-c,或a-b-c,其中a,b,c可以是单个,也可以是多个。
应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种基于模糊算法的用户数据采集方法,其特征在于:所述采集方法包括以下步骤:
S1:确定需要采集的用户数据类型,并根据数据类型和业务需求使用模糊逻辑和模糊推理来建立模糊规则;
S2:从模糊规则中获取产品的参数后,通过公式建立属性系数,将产品通过属性系数由大到小进行排序生成优先级排序表;
S3:设定筛选阈值,将属性系数小于筛选阈值的产品从排序表中删除;
S4:使用模糊聚类算法为产品分入多个用户,并通过可视化工具对分组结果分析和可视化;
S5:将用户数据存储在数据库中。
2.根据权利要求1所述的一种基于模糊算法的用户数据采集方法,其特征在于:步骤S2中,建立所述属性系数包括以下步骤:
获取产品中的特征参数以及效益参数,将特征参数与效益参数通过公式计算后建立属性系数,表达式为:
式中,为特征参数,/>为效益参数,α、β分别为特征参数以及效益参数的比例系数,且α>β>0。
3.根据权利要求2所述的一种基于模糊算法的用户数据采集方法,其特征在于:所述特征参数用于体现产品的用户感兴趣度,其中,Yi表示用户浏览产品数量,Sj表示用户浏览产品时间,Dj表示产品点击率。
4.根据权利要求2所述的一种基于模糊算法的用户数据采集方法,其特征在于:所述效益参数效益参数用于体现产品的经济效益,其中,(XSz+PFz)表示产品的数据项权重系数,XSz表示销售量的权重系数,PFz表示用户评价分数的权重系数,(XSg+PFg)表示产品的数据项归一化值,XSg表示销售量的归一化值,PFg表示用户评价分数的归一化值。
5.根据权利要求4所述的一种基于模糊算法的用户数据采集方法,其特征在于:所述销售量的归一化值XSg的计算公式为:
式中,XSi为最近一段时间产品的销售量,XSmax为产品的最大销售量,XSmin为产品的最小销售量;
所述用户评价分数的归一化值PFz的计算公式为:
式中,PFi为最近一段时间产品的用户评价分数,XSmax为产品的最大用户评价分数,XSmin为产品的最小用户评价分数。
6.根据权利要求2所述的一种基于模糊算法的用户数据采集方法,其特征在于:获取所述产品的属性系数SXi后,将产品依据属性系数SXi由大到小进行排序,生成优先级排序表,优先级排序表为 其中,/>
7.根据权利要求2所述的一种基于模糊算法的用户数据采集方法,其特征在于:获取所述产品的属性系数SXi后,设定筛选阈值Sxz,将产品的属性系数SXi与筛选阈值Sxz进行对比,若属性系数SXi<筛选阈值Sxz,系统判定该产品的关注度未达到要求,将产品从优先级排序表中去除,若属性系数SXi≥筛选阈值Sxz,系统判定该产品的关注度达到要求,产品进入优先级排序表中排序。
8.根据权利要求1所述的一种基于模糊算法的用户数据采集方法,其特征在于:步骤S1还包括以下步骤:
S1.1:根据数据类型和业务需求,建立的模糊变量和模糊集,设计模糊规则库,将用户输入的数据转换为模糊值;
S1.2:使用模糊推理方法对用户数据进行推理,将推理结果转化为数值或分类;
S1.3:通过历史数据验证模型,并对模型进行调整和优化。
9.根据权利要求1所述的一种基于模糊算法的用户数据采集方法,其特征在于:步骤S4还包括以下步骤:
S4.1:根据业务需求和数据特点,选择模糊c均值聚类算法,确定用于聚类的变量,通过聚类分析方法确定聚类的个数;
S4.2:根据变量和数据特点,确定隶属函数,并依据聚类个数和数据量,初始化隶属度矩阵;
S4.3:通过隶属度矩阵和聚类中心的计算公式,进行多次迭代计算,直到收敛或达到预设迭代次数,获取隶属度矩阵和聚类中心,将不同的数据点划分到相应的聚类中。
10.一种基于模糊算法的用户数据采集系统,用于实现权利要求1-9任一项所述的采集方法,其特征在于:包括规则建立模块、排序模块、筛选模块、聚类模块、处理模块、存储模块;
所述规则建立模块根据数据类型和业务需求使用模糊逻辑和模糊推理来建立模糊规则,从模糊规则中获取产品的参数后,通过公式建立属性系数,所述排序模块将产品通过属性系数由大到小进行排序,生成优先级排序表,设定筛选阈值,所述筛选模块将属性系数小于筛选阈值的产品从排序表中删除,所述聚类模块通过模糊聚类算法为产品分入多个用户,所述处理模块通过可视化工具对分组结果分析和可视化,所述存储模块将用户数据存储在数据库中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310372614.1A CN116501770B (zh) | 2023-04-10 | 2023-04-10 | 一种基于模糊算法的用户数据采集方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310372614.1A CN116501770B (zh) | 2023-04-10 | 2023-04-10 | 一种基于模糊算法的用户数据采集方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116501770A true CN116501770A (zh) | 2023-07-28 |
CN116501770B CN116501770B (zh) | 2023-11-03 |
Family
ID=87321001
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310372614.1A Active CN116501770B (zh) | 2023-04-10 | 2023-04-10 | 一种基于模糊算法的用户数据采集方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116501770B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110415084A (zh) * | 2019-07-30 | 2019-11-05 | 中国工商银行股份有限公司 | 一种产品智能推荐方法及装置 |
US20210304042A1 (en) * | 2020-03-26 | 2021-09-30 | International Business Machines Corporation | Data Filtering With Fuzzy Attribute Association |
KR20210125276A (ko) * | 2020-04-08 | 2021-10-18 | 주식회사 퍼시픽나인 | 유전자 알고리즘을 이용한 지역 상권 분석 서비스 제공 서버 및 그 방법 |
CN114387024A (zh) * | 2022-01-12 | 2022-04-22 | 徐州工业职业技术学院 | 基于Mamdani算法的电商复购行为的用户分析系统 |
-
2023
- 2023-04-10 CN CN202310372614.1A patent/CN116501770B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110415084A (zh) * | 2019-07-30 | 2019-11-05 | 中国工商银行股份有限公司 | 一种产品智能推荐方法及装置 |
US20210304042A1 (en) * | 2020-03-26 | 2021-09-30 | International Business Machines Corporation | Data Filtering With Fuzzy Attribute Association |
KR20210125276A (ko) * | 2020-04-08 | 2021-10-18 | 주식회사 퍼시픽나인 | 유전자 알고리즘을 이용한 지역 상권 분석 서비스 제공 서버 및 그 방법 |
CN114387024A (zh) * | 2022-01-12 | 2022-04-22 | 徐州工业职业技术学院 | 基于Mamdani算法的电商复购行为的用户分析系统 |
Non-Patent Citations (1)
Title |
---|
那日萨 等: "基于情感词汇的在线评论产品个性化推荐方法研究", 郑州大学学报(理学版), vol. 43, no. 2, pages 48 - 51 * |
Also Published As
Publication number | Publication date |
---|---|
CN116501770B (zh) | 2023-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111091282B (zh) | 一种基于用户行为数据的客户忠诚度细分方法 | |
US9489627B2 (en) | Hybrid clustering for data analytics | |
EP1508103A1 (en) | Expert database forward back link weighted association rules | |
CN107180093A (zh) | 信息搜索方法及装置和时效性查询词识别方法及装置 | |
CN112001788B (zh) | 一种基于rf-dbscan算法的信用卡违约欺诈识别方法 | |
CN111079941B (zh) | 信用信息处理方法、系统、终端和存储介质 | |
CN111046297A (zh) | 一种基于机器学习算法的服务智能匹配推荐方法、装置、设备及存储介质 | |
CN112990386B (zh) | 用户价值聚类方法、装置、计算机设备和存储介质 | |
CN112308462A (zh) | 电力用户分类方法及装置 | |
CN116431931B (zh) | 实时增量数据统计分析方法 | |
CN113159881B (zh) | 一种数据聚类及b2b平台客户偏好获取方法、系统 | |
CN115115265A (zh) | 一种基于rfm模型的消费者评估方法、装置及介质 | |
CN112488716A (zh) | 一种异常事件检测系统 | |
CN115577152A (zh) | 基于数据分析的在线图书借阅管理系统 | |
CN112950359B (zh) | 一种用户识别方法和装置 | |
CN113450004A (zh) | 电力信用报告生成方法、装置、电子设备及可读存储介质 | |
CN116501770B (zh) | 一种基于模糊算法的用户数据采集方法及系统 | |
CN112348685A (zh) | 信用评分方法、装置、设备及存储介质 | |
CN112016769A (zh) | 管理相对人风险预测以及信息推荐方法及装置 | |
CN108921431A (zh) | 政企客户聚类方法及装置 | |
CN117195292B (zh) | 一种基于数据融合和边缘计算的电力业务评估方法 | |
Ramalingam et al. | Analysing News for Stock Market Prediction | |
CN112632990B (zh) | 一种标签的获取方法、装置、设备及可读存储介质 | |
Sidqi et al. | Analysis of Poor Population in DKI Jakarta Regions using Fuzzy C-Means and K-Means Algorithms | |
CN111259118B (zh) | 一种文本数据检索方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right |
Denomination of invention: A User Data Collection Method and System Based on Fuzzy Algorithm Granted publication date: 20231103 Pledgee: Jiangsu Zijin Rural Commercial Bank Co.,Ltd. Yuhuatai sub branch Pledgor: NANJING UMA SOFTWARE TECHNOLOGY Co.,Ltd. Registration number: Y2024320000003 |