CN117593034B - 基于计算机的用户分类方法 - Google Patents
基于计算机的用户分类方法 Download PDFInfo
- Publication number
- CN117593034B CN117593034B CN202410064413.XA CN202410064413A CN117593034B CN 117593034 B CN117593034 B CN 117593034B CN 202410064413 A CN202410064413 A CN 202410064413A CN 117593034 B CN117593034 B CN 117593034B
- Authority
- CN
- China
- Prior art keywords
- user
- occurrence
- classified
- target
- cluster
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000011156 evaluation Methods 0.000 claims abstract description 89
- 238000012545 processing Methods 0.000 claims abstract description 13
- 238000004364 calculation method Methods 0.000 claims description 26
- 238000004422 calculation algorithm Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 3
- 238000007405 data analysis Methods 0.000 abstract description 2
- 230000006399 behavior Effects 0.000 description 41
- 230000009286 beneficial effect Effects 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000013145 classification model Methods 0.000 description 3
- 238000007621 cluster analysis Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000003542 behavioural effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Marketing (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及数据分析领域,尤其涉及一种基于计算机的用户分类方法,该方法包括:获取若干待分类用户的年龄信息以及在预设时长内的用户事件发生行为数据;构建用户事件发生评价标准并确定第一评分集;基于目标年龄用户标准对每个待分类用户的年龄信息进行评分得到第二评分;将第一评分集和第二评分进行处理以能够体现对应的实际数值;将待分类用户根据第一评分集中的评分和第二评分分为若干用户簇并确定群中心;调整每个用户簇内的待分类用户以及群中心,直至每个用户簇内的待分类用户与群中心的距离相同;将待分类用户确定相应的目标用户簇,在目标用户簇中任意待分类用户与群中心的距离都相同。本发明提高了用户分类的准确性。
Description
技术领域
本发明涉及数据分析领域,尤其涉及一种基于计算机的用户分类方法。
背景技术
客户分类通常也就是我们所说的客户画像分类,客户画像是B2B数字化营销中非常重要的概念,贯穿整个客户生命周期管理及运营。客户画像是基于客户数据和行为的综合描述,可以帮助营销人员更好地了解客户。包括客户的年龄、性别、教育程度、职业、兴趣爱好、行为轨迹等信息。通过这些数据,营销人员可以更好地理解客户的需求和采购行为,并提供更加精准的产品和服务。
中国专利公开号为CN114022712A的专利文献公开了一种用户分类方法,该方法包括:获取待分类用户的画像信息,所述画像信息包括用户属性信息以及用户交易信息;将所述待分类用户的画像信息输入至分类模型中,得到所述待分类用户的用户类别,所述分类模型是根据逻辑回归模型以及接受者操作特征ROC曲线获得的,所述用户类别包括第一类用户和第二类用户,所述ROC曲线用于表征所述分类模型的预测精度,所述第一类用户为催收难度大于预设阈值的用户,所述第二类用户为催收难度小于预设阈值的用户。
现有技术中对客户分群的方法主要依赖于标签,一个客群包含多种标签,组成客群所选用的标签不准确,造成客户分类不准确。
发明内容
为此,本发明提供一种基于计算机的用户分类方法,通过获取待分类用户的年龄信息和他们在预设时长内的用户事件发生行为数据并根据上述数据进行用户簇的分类可以解决客户分类不准确问题。
为实现上述目的,本发明提供一种基于计算机的用户分类方法,该方法包括:
获取若干待分类用户的年龄信息以及所述待分类用户在预设时长内的用户事件发生行为数据,所述用户事件发生行为数据包括待分类用户在所述预设时长内的目标事件发生频率、目标事件发生时间间隔以及目标事件发生金额;
构建所述待分类用户的用户事件发生评价标准,基于所述用户事件发生评价标准确定每个所述待分类用户的事件发生行为数据对应的第一评分集;
基于事件发生场景下的目标年龄用户标准对每个所述待分类用户的年龄信息进行评分,以得到第二评分;
将所述第一评分集和所述第二评分进行数据处理以使所述第一评分集中的评分和所述第二评分能够体现对应的实际数值;
将待分类用户根据所述第一评分集中的评分和第二评分分为若干用户簇,并分别确定每个所述用户簇的群中心;
调整所述每个用户簇内的待分类用户以及所述群中心,直至每个用户簇内的待分类用户与所述群中心的距离相同;
将所述待分类用户确定相应的目标用户簇,在所述目标用户簇中任意待分类用户与群中心的距离都相同。
进一步地,获取若干待分类用户的年龄信息以及所述待分类用户在预设时长内的用户事件发生行为数据包括:
统计用户在所述预设时长内若干事件的发生次数,获取用户的目标事件发生次数、最小发生次数和最大发生次数,根据所述目标事件发生次数、所述最小发生次数和所述最大发生次数计算所述目标事件发生频率;
统计用户在所述预设时长内相邻目标事件的若干时间间隔,计算若干所述时间间隔的均值,将均值计算结果作为所述目标事件发生时间间隔;
统计用户在所述预设时长内目标事件的若干事件发生金额,计算若干所述事件发生金额的均值,将均值计算结果作为所述目标事件发生金额。
进一步地,根据所述目标事件发生次数、所述最小发生次数和所述最大发生次数计算所述目标事件发生频率包括:
目标事件发生频率 = (目标事件发生次数 - 最小发生次数)/(最大发生次数 -最小发生次数)。
进一步地,基于所述用户事件发生评价标准确定每个所述待分类用户的事件发生行为数据对应的第一评分集包括:
将所述事件发生频率与所述事件标准发生频率进行计算,获取频率评价值;
将所述事件发生时间间隔与事件标准发生时间间隔进行计算,获取时间间隔评价值;
将所述事件发生金额与事件标准发生金额进行计算,获取金额评价值;
根据预设权重值对所述频率评价值、所述时间间隔评价值和所述金额评价值进行加权计算,获取第一评分值;
统计每个所述待分类用户的事件发生行为数据对应的第一评分值,基于若干所述第一评分值构建所述第一评分集。
进一步地,将所述事件发生频率与所述事件预设发生频率进行计算,获取频率评价值包括:
式中,S频率为频率评价值,P频率为事件发生频率,P预设频率为事件预设发生频率;
所述时间间隔评价值和所述金额评价值与所述频率评价值计算过程相同。
进一步地,根据所述预设权重值对所述频率评价值、所述时间间隔评价值和所述金额评价值进行加权计算,获取第一评分值包括:
S1=5×S频率+3×S时间+2×S金额,
式中,S1为第一评分值、S频率为频率评价值、S时间为时间间隔评价值、S金额为金额评价值。
进一步地,基于所述事件发生场景下的目标年龄用户标准对每个所述待分类用户的年龄信息进行评分,以得到第二评分包括:
通过公式:S2=10-0.8×|y实-y标|计算所述第二评分;
式中,S2为所述第二评分,y实为所述待分类用户的实际年龄信息,y标为所述事件发生场景下的目标年龄用户的标准年龄信息。
进一步地,将待分类用户根据所述第一评分集中的评分和第二评分分为若干用户簇,并分别确定每个所述用户簇的群中心包括:
将每个所述待分类用户的所述第一评分集的均值和所述第二评分作为初始簇中心,并获取若干簇;
通过欧几里得距离算法计算所述待分类用户的所述第一评分集中的评分和第二评分与若干所述初始簇中心之间的距离,获取若干距离值;
将若干所述距离值根据由小到大进行排序,选择排序第一的所述初始簇中心对应的簇为所述待分类用户的目标簇;
将所述目标簇的所述第一评分集的均值和所述第二评分的均值作为所述目标簇的群中心。
进一步地,调整所述每个用户簇内的待分类用户以及所述群中心包括:
计算所述目标簇内每个所述待分类用户与所述目标簇的群中心的距离;
将计算获取的若干距离中最大距离值对应的所述待分类用户进行标记作为标记用户;
重新计算所述标记用户与所述若干簇的群中心的若干距离,选择距离最小值对应的簇作为所述标记用户的更新簇。
对所述标记用户进行重新分配后,更新所述目标簇和所述更新簇的群中心。
进一步地,计算所述目标簇内每个所述待分类用户与所述目标簇的群中心的距离包括:
式中,S1为所述待分类用户的第一评分,S2为所述待分类用户的第二评分,C1为所述目标簇内所述第一评分集的均值,C2为所述目标簇内所述第二评分的均值。
与现有技术相比,本发明的有益效果在于,通过采集用户的年龄信息以及用户事件发生行为数据为后续分类用户提供了数据基础,避免了主观臆断,从而提高了用户分类的客观性和准确性,该方法考虑了每个待分类用户的年龄信息以及用户事件发生行为数据,能够更精细化地反映用户的个性和行为特点,进而实现用户的个性化分类,通过获取用户在预设时长内的目标事件发生频率、目标事件发生时间间隔以及目标事件发生金额等多维度的数据,更全面地了解用户的行为模式和消费习惯,使得后续用户分类结果准确且全面,该方法提供调整每个用户簇内的待分类用户以及群中心的步骤,使得分类结果可以随着用户行为的变化而动态调整,保持分类的时效性和准确性,通过调整使得每个用户簇内的待分类用户与群中心的距离相同,这样简化了用户分类的操作,并提高了分类的效率,在所有待分类用户都被确定到相应的目标用户簇后,每个目标用户簇中的用户与群中心的距离都相同,这样进一步强化了目标用户簇的确定性和内聚性,提高用户体验和满意度,有助于提高用户分类的准确性。
尤其,通过统计用户在预设时长内的目标事件发生次数,并计算目标事件发生频率,更加精细地了解用户的行为模式和习惯,同时,获取最小发生次数和最大发生次数,全面地掌握用户行为的范围和变化情况,使得后续用户分类结果准确,统计用户在预设时长内相邻目标事件的时间间隔,并计算其均值作为目标事件发生时间间隔,深入了解用户行为的时间分布和规律性,有助于了解用户的需求和偏好,并对用户行为进行合理的预测和规划,使得后续用户分类结果准确,通过统计用户在预设时长内目标事件的若干事件发生金额,并计算其均值作为目标事件发生金额,全面地了解用户在金额方面的行为和消费水平,为后续用户分类提供准确的数据基础,综合考虑用户的年龄信息以及目标事件发生频率、目标事件发生时间间隔、目标事件发生金额等多个维度的数据,形成更全面、个性化的用户画像,更准确地反映用户的需求和特点,为后续的用户分类提供了丰富且准确的数据基础,有助于提高分类的准确性和针对性。
尤其,通过该公式对目标事件发生次数进行了标准化处理,通过减去最小发生次数并除以最大与最小发生次数之差,将原始的次数值转换到0和1之间的比例,消除不同用户或不同事件在发生次数上的绝对差异,使得不同用户的目标事件发生频率具有可比性,若某个用户的目标事件发生频率接近1,说明该用户在该事件上非常活跃,相反,若接近0则说明该用户在该事件上不太活跃,有助于在后续分析中更准确地识别出对这些目标事件表现活跃的用户,从而针对这些用户采取更精准的措施,为后续的数据处理提供了方便。
尤其,通过事件发生频率、事件发生时间间隔和事件发生金额的计算,保证了对用户分类数据的全面,确保对用户的事件发生行为进行全面评价,避免了主观偏见,根据预设权重值对频率评价值、时间间隔评价值和金额评价值进行加权计算,使得评价方法具有极大的灵活性,针对不同的待分类用户,其事件发生行为数据会有所不同,通过统计每个待分类用户的事件发生行为数据对应的第一评分值,实现对用户的个性化的评价,更准确地反映每个用户的真实行为模式,基于若干第一评分值构建第一评分集,这为后续的用户分类提供了坚实的数据基础,提高了后续处理的效率。
尤其,通过具体的数值计算,将事件发生频率转化为频率评价值,使得对不同事件的发生频率进行量化评估,进而能够更准确地衡量待分类用户在该事件上的活跃程度,通过将事件发生频率与事件预设发生频率进行计算,充分利用预设发生频率的参考价值,有助于待分类用户进行更客观、准确的评估,通过计算公式中的差值与和值的商,得到一个介于0和1之间的频率评价值,归一化的处理方式有助于将不同事件发生频率的评价值调整到相同的范围内,便于后续的数据处理和比较分析。
尤其,通过使用第一评分集中的评分和第二评分作为分类依据,确保分类结果基于客观、全面的数据,减少主观因素的影响,从而提高分类的准确性,将每个待分类用户的第一评分集的均值和第二评分作为初始簇中心,能够充分利用现有数据,为后续的聚类分析提供合理的起点,使得初始簇中心更具有代表性,通过欧几里得距离算法计算待分类用户与初始簇中心之间的距离,量化用户与簇中心之间的相似度,为后续的用户归类提供准确依据,将距离值按照由小到大的顺序进行排序,并选择排序第一的初始簇中心对应的簇作为待分类用户的目标簇,确保了目标簇是与待分类用户最为相似的簇,提高了分类的精确性和针对性,通过将目标簇的第一评分集的均值和第二评分的均值作为目标簇的群中心,准确地反映目标簇用户的整体特征和行为模式,有助于削弱异常值对群中心的影响,提高群中心的稳定性和代表性。
附图说明
图1为本发明实施例提供的基于计算机的用户分类方法的第一种流程示意图;
图2为本发明实施例提供的基于计算机的用户分类方法的第二种流程示意图;
图3为本发明实施例提供的基于计算机的用户分类方法的第三种流程示意图;
图4为本发明实施例提供的基于计算机的用户分类方法的第四种流程示意图。
具体实施方式
为了使本发明的目的和优点更加清楚明白,下面结合实施例对本发明作进一步描述;应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非在限制本发明的保护范围。
此外,还需要说明的是,在本发明的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体的连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域技术人员而言,可根据具体情况理解上述术语在本发明中的具体含义。
请参阅图1所示,本发明提供一种基于计算机的用户分类方法,该方法包括:
步骤S100,获取若干待分类用户的年龄信息以及所述待分类用户在预设时长内的用户事件发生行为数据,所述用户事件发生行为数据包括待分类用户在所述预设时长内的目标事件发生频率、目标事件发生时间间隔以及目标事件发生金额;
步骤S200,构建所述待分类用户的用户事件发生评价标准,基于所述用户事件发生评价标准确定每个所述待分类用户的事件发生行为数据对应的第一评分集;
步骤S300,基于事件发生场景下的目标年龄用户标准对每个所述待分类用户的年龄信息进行评分,以得到第二评分;
步骤S400,将所述第一评分集和所述第二评分进行数据处理以使所述第一评分集中的评分和所述第二评分能够体现对应的实际数值;
步骤S500,将待分类用户根据所述第一评分集中的评分和第二评分分为若干用户簇,并分别确定每个所述用户簇的群中心;
步骤S600,调整所述每个用户簇内的待分类用户以及所述群中心,直至每个用户簇内的待分类用户与所述群中心的距离相同;
步骤S700,将所述待分类用户确定相应的目标用户簇,在所述目标用户簇中任意待分类用户与群中心的距离都相同。
具体而言,本发明实施例通过采集用户的年龄信息以及用户事件发生行为数据为后续分类用户提供了数据基础,避免了主观臆断,从而提高了用户分类的客观性和准确性,该方法考虑了每个待分类用户的年龄信息以及用户事件发生行为数据,能够更精细化地反映用户的个性和行为特点,进而实现用户的个性化分类,通过获取用户在预设时长内的目标事件发生频率、目标事件发生时间间隔以及目标事件发生金额等多维度的数据,更全面地了解用户的行为模式和消费习惯,使得后续用户分类结果准确且全面,该方法提供调整每个用户簇内的待分类用户以及群中心的步骤,使得分类结果可以随着用户行为的变化而动态调整,保持分类的时效性和准确性,通过调整使得每个用户簇内的待分类用户与群中心的距离相同,这样简化了用户分类的操作,并提高了分类的效率,在所有待分类用户都被确定到相应的目标用户簇后,每个目标用户簇中的用户与群中心的距离都相同,这样进一步强化了目标用户簇的确定性和内聚性,提高用户体验和满意度,有助于提高用户分类的准确性。
参阅图2所示,获取若干待分类用户的年龄信息以及所述待分类用户在预设时长内的用户事件发生行为数据包括:
步骤S110,统计用户在所述预设时长内若干事件的发生次数,获取用户的目标事件发生次数、最小发生次数和最大发生次数,根据所述目标事件发生次数、所述最小发生次数和所述最大发生次数计算所述目标事件发生频率;
步骤S120,统计用户在所述预设时长内相邻目标事件的若干时间间隔,计算若干所述时间间隔的均值,将均值计算结果作为所述目标事件发生时间间隔;
步骤S130,统计用户在所述预设时长内目标事件的若干事件发生金额,计算若干所述事件发生金额的均值,将均值计算结果作为所述目标事件发生金额。
具体而言,本发明实施例通过统计用户在预设时长内的目标事件发生次数,并计算目标事件发生频率,更加精细地了解用户的行为模式和习惯,同时,获取最小发生次数和最大发生次数,全面地掌握用户行为的范围和变化情况,使得后续用户分类结果准确,统计用户在预设时长内相邻目标事件的时间间隔,并计算其均值作为目标事件发生时间间隔,深入了解用户行为的时间分布和规律性,有助于了解用户的需求和偏好,并对用户行为进行合理的预测和规划,使得后续用户分类结果准确,通过统计用户在预设时长内目标事件的若干事件发生金额,并计算其均值作为目标事件发生金额,全面地了解用户在金额方面的行为和消费水平,为后续用户分类提供准确的数据基础,综合考虑用户的年龄信息以及目标事件发生频率、目标事件发生时间间隔、目标事件发生金额等多个维度的数据,形成更全面、个性化的用户画像,更准确地反映用户的需求和特点,为后续的用户分类提供了丰富且准确的数据基础,有助于提高分类的准确性和针对性,使得企业对用户群体有更清晰的认识。
具体而言,根据所述目标事件发生次数、所述最小发生次数和所述最大发生次数计算所述目标事件发生频率包括:
目标事件发生频率 = (目标事件发生次数 - 最小发生次数)/(最大发生次数 -最小发生次数)。
具体而言,本发明实施例通过该公式对目标事件发生次数进行了标准化处理,通过减去最小发生次数并除以最大与最小发生次数之差,将原始的次数值转换到0和1之间的比例,消除不同用户或不同事件在发生次数上的绝对差异,使得不同用户的目标事件发生频率具有可比性,若某个用户的目标事件发生频率接近1,说明该用户在该事件上非常活跃,相反,若接近0则说明该用户在该事件上不太活跃,有助于在后续分析中更准确地识别出对这些目标事件表现活跃的用户,从而针对这些用户采取更精准的措施,为后续的数据处理提供了方便。
参阅图3所示,基于所述用户事件发生评价标准确定每个所述待分类用户的事件发生行为数据对应的第一评分集包括:
步骤S210,将所述事件发生频率与所述事件标准发生频率进行计算,获取频率评价值;
步骤S220,将所述事件发生时间间隔与事件标准发生时间间隔进行计算,获取时间间隔评价值;
步骤S230,将所述事件发生金额与事件标准发生金额进行计算,获取金额评价值;
步骤S240,根据预设权重值对所述频率评价值、所述时间间隔评价值和所述金额评价值进行加权计算,获取第一评分值;
步骤S250,统计每个所述待分类用户的事件发生行为数据对应的第一评分值,基于若干所述第一评分值构建所述第一评分集。
具体而言,本发明实施例通过事件发生频率、事件发生时间间隔和事件发生金额的计算,保证了对用户分类数据的全面,确保对用户的事件发生行为进行全面评价,避免了主观偏见,根据预设权重值对频率评价值、时间间隔评价值和金额评价值进行加权计算,使得评价方法具有极大的灵活性,针对不同的待分类用户,其事件发生行为数据会有所不同,通过统计每个待分类用户的事件发生行为数据对应的第一评分值,实现对用户的个性化的评价,更准确地反映每个用户的真实行为模式,基于若干第一评分值构建第一评分集,这为后续的用户分类提供了坚实的数据基础,提高了后续处理的效率。
具体而言,将所述事件发生频率与所述事件预设发生频率进行计算,获取频率评价值包括:
式中,S频率为频率评价值,P频率为事件发生频率,P预设频率为事件预设发生频率;
所述时间间隔评价值和所述金额评价值与所述频率评价值计算过程相同。
具体而言,所述预设发生频率基于历史数据获得。
具体而言,本发明实施例通过具体的数值计算,将事件发生频率转化为频率评价值,使得对不同事件的发生频率进行量化评估,进而能够更准确地衡量待分类用户在该事件上的活跃程度,通过将事件发生频率与事件预设发生频率进行计算,充分利用预设发生频率的参考价值,有助于待分类用户进行更客观、准确的评估,通过计算公式中的差值与和值的商,得到一个介于0和1之间的频率评价值,归一化的处理方式有助于将不同事件发生频率的评价值调整到相同的范围内,便于后续的数据处理和比较分析。
具体而言,根据所述预设权重值对所述频率评价值、所述时间间隔评价值和所述金额评价值进行加权计算,获取第一评分值包括:
S1=5×S频率+3×S时间+2×S金额,
式中,S1为第一评分值、S频率为频率评价值、S时间为时间间隔评价值、S金额为金额评价值。
进一步地,基于所述事件发生场景下的目标年龄用户标准对每个所述待分类用户的年龄信息进行评分,以得到第二评分包括:
通过公式:S2=10-0.8×|y实-y标|计算所述第二评分;
式中,S2为所述第二评分,y实为所述待分类用户的实际年龄信息,y标为所述事件发生场景下的目标年龄用户的标准年龄信息。
参阅图4所示,将待分类用户根据所述第一评分集中的评分和第二评分分为若干用户簇,并分别确定每个所述用户簇的群中心包括:
步骤S510,将每个所述待分类用户的所述第一评分集的均值和所述第二评分作为初始簇中心,并获取若干簇;
步骤S520,通过欧几里得距离算法计算所述待分类用户的所述第一评分集中的评分和第二评分与若干所述初始簇中心之间的距离,获取若干距离值;
步骤S530,将若干所述距离值根据由小到大进行排序,选择排序第一的所述初始簇中心对应的簇为所述待分类用户的目标簇;
步骤S540,将所述目标簇的所述第一评分集的均值和所述第二评分的均值作为所述目标簇的群中心。
具体而言,本发明实施例通过使用第一评分集中的评分和第二评分作为分类依据,确保分类结果基于客观、全面的数据,减少主观因素的影响,从而提高分类的准确性,将每个待分类用户的第一评分集的均值和第二评分作为初始簇中心,能够充分利用现有数据,为后续的聚类分析提供合理的起点,使得初始簇中心更具有代表性,通过欧几里得距离算法计算待分类用户与初始簇中心之间的距离,量化用户与簇中心之间的相似度,为后续的用户归类提供准确依据,将距离值按照由小到大的顺序进行排序,并选择排序第一的初始簇中心对应的簇作为待分类用户的目标簇,确保了目标簇是与待分类用户最为相似的簇,提高了分类的精确性和针对性,通过将目标簇的第一评分集的均值和第二评分的均值作为目标簇的群中心,准确地反映目标簇用户的整体特征和行为模式,有助于削弱异常值对群中心的影响,提高群中心的稳定性和代表性。
具体而言,调整所述每个用户簇内的待分类用户以及所述群中心包括:
计算所述目标簇内每个所述待分类用户与所述目标簇的群中心的距离;
将计算获取的若干距离中最大距离值对应的所述待分类用户进行标记作为标记用户;
重新计算所述标记用户与所述若干簇的群中心的若干距离,选择距离最小值对应的簇作为所述标记用户的更新簇。
对所述标记用户进行重新分配后,更新所述目标簇和所述更新簇的群中心。
具体而言,本发明实施例通过计算目标簇内每个待分类用户与群中心的距离,找出与群中心距离最远的用户,对这些用户进行重新分配,能够减少分类错误,提高每个簇的用户同质化程度,进而提高分类的精度,通过调整用户簇和群中心,使分类结果能够随时适应数据和用户行为的变化,使得保持用户分类结果的时效性和准确性,使得最终的分类结果更加稳定和可靠。
具体而言,计算所述目标簇内每个所述待分类用户与所述目标簇的群中心的距离包括:
式中,S1为所述待分类用户的第一评分,S2为所述待分类用户的第二评分,C1为所述目标簇内所述第一评分集的均值,C2为所述目标簇内所述第二评分的均值。
具体而言,本发明实施例通过对待分类用户的第一评分和第二评分与目标簇内的均值进行计算,实现了对待分类用户与目标簇之间相似度的数值化评估,为后续的距离计算和分类调整提供了量化基础,提高分类的准确性。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
以上所述仅为本发明的优选实施例,并不用于限制本发明;对于本领域的技术人员来说,本发明可以有各种更改和变化。 凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (3)
1.一种基于计算机的用户分类方法,其特征在于,包括:
获取若干待分类用户的实际年龄信息以及所述待分类用户在预设时长内的用户事件发生行为数据,所述用户事件发生行为数据包括待分类用户在所述预设时长内的目标事件发生频率、目标事件发生时间间隔以及目标事件发生金额;
获取若干待分类用户的实际年龄信息以及所述待分类用户在预设时长内的用户事件发生行为数据包括:
统计用户在所述预设时长内若干事件的发生次数,获取用户的目标事件发生次数、最小发生次数和最大发生次数,根据所述目标事件发生次数、所述最小发生次数和所述最大发生次数计算所述目标事件发生频率;
统计用户在所述预设时长内相邻目标事件的若干时间间隔,计算若干所述时间间隔的均值,将均值计算结果作为所述目标事件发生时间间隔;
统计用户在所述预设时长内目标事件的若干事件发生金额,计算若干所述事件发生金额的均值,将均值计算结果作为所述目标事件发生金额;
根据所述目标事件发生次数、所述最小发生次数和所述最大发生次数计算所述目标事件发生频率包括:
目标事件发生频率 = (目标事件发生次数 - 最小发生次数)/(最大发生次数 - 最小发生次数);
构建所述待分类用户的用户事件发生评价标准,基于所述用户事件发生评价标准确定每个所述待分类用户的事件发生行为数据对应的第一评分集;
基于所述用户事件发生评价标准确定每个所述待分类用户的事件发生行为数据对应的第一评分集包括:
将所述目标事件发生频率与事件标准发生频率进行计算,获取频率评价值;
将所述目标事件发生时间间隔与事件标准发生时间间隔进行计算,获取时间间隔评价值;
将所述目标事件发生金额与事件标准发生金额进行计算,获取金额评价值;
根据预设权重值对所述频率评价值、所述时间间隔评价值和所述金额评价值进行加权计算,获取第一评分值;
统计每个所述待分类用户的事件发生行为数据对应的第一评分值,基于若干所述第一评分值构建所述第一评分集;
将所述目标事件发生频率与所述事件标准发生频率进行计算,获取频率评价值包括:;式中,S频率为频率评价值,P频率为目标事件发生频率,P预设频率为事件标准发生频率;
所述时间间隔评价值和所述金额评价值与所述频率评价值计算过程相同;
基于事件发生场景下的目标年龄用户标准对每个所述待分类用户的实际年龄信息进行评分,以得到第二评分;
其中,通过公式:S2=10-0.8×|y实-y标|计算所述第二评分;
式中,S2为所述第二评分,y实为所述待分类用户的实际年龄信息,y标为所述事件发生场景下的目标年龄用户的标准年龄信息;
将所述第一评分集和所述第二评分进行数据处理以使所述第一评分集中的评分和所述第二评分能够体现对应的实际数值;
将待分类用户根据所述第一评分集中的评分和第二评分分为若干用户簇,并分别确定每个用户簇的群中心;
调整每个所述用户簇内的待分类用户以及所述群中心,直至每个用户簇内的待分类用户与所述群中心的距离相同;
其中,调整每个所述用户簇内的待分类用户以及所述群中心包括:
计算目标簇内每个所述待分类用户与所述目标簇的群中心的距离;
将计算获取的若干距离中最大距离值对应的所述待分类用户进行标记作为标记用户;
重新计算所述标记用户与若干所述用户簇的群中心的若干距离,选择距离最小值对应的簇作为所述标记用户的更新簇;
对所述标记用户进行重新分配后,更新所述目标簇和所述更新簇的群中心;
其中,计算所述目标簇内每个所述待分类用户与所述目标簇的群中心的距离包括:,式中,S1为所述待分类用户的第一评分,S2为所述待分类用户的第二评分,C1为所述目标簇内所述第一评分集的均值,C2为所述目标簇内所述第二评分的均值;
将所述待分类用户确定相应的目标用户簇,在所述目标用户簇中任意待分类用户与群中心的距离都相同。
2.根据权利要求1所述的基于计算机的用户分类方法,其特征在于,根据所述预设权重值对所述频率评价值、所述时间间隔评价值和所述金额评价值进行加权计算,获取第一评分值包括:,式中,S1为第一评分值、S频率为频率评价值、S时间为时间间隔评价值、S金额为金额评价值。
3.根据权利要求2所述的基于计算机的用户分类方法,其特征在于,将待分类用户根据所述第一评分集中的评分和第二评分分为若干用户簇,并分别确定每个所述用户簇的群中心包括:
通过欧几里得距离算法计算所述待分类用户的所述第一评分集中的评分和第二评分与若干初始簇中心之间的距离,获取若干距离值;
将若干所述距离值根据由小到大进行排序,选择排序第一的所述初始簇中心对应的簇为所述待分类用户的目标簇;
将所述目标簇的所述第一评分集的均值和所述第二评分的均值作为所述目标簇的群中心。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410064413.XA CN117593034B (zh) | 2024-01-17 | 2024-01-17 | 基于计算机的用户分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410064413.XA CN117593034B (zh) | 2024-01-17 | 2024-01-17 | 基于计算机的用户分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117593034A CN117593034A (zh) | 2024-02-23 |
CN117593034B true CN117593034B (zh) | 2024-06-07 |
Family
ID=89913607
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410064413.XA Active CN117593034B (zh) | 2024-01-17 | 2024-01-17 | 基于计算机的用户分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117593034B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001134648A (ja) * | 1999-11-02 | 2001-05-18 | Dentsu Tec Inc | 顧客維持育成のための顧客データ分析方法 |
KR20160090509A (ko) * | 2015-01-22 | 2016-08-01 | 주식회사 디케이아이테크놀로지 | 감성기반 사용자특성 분석을 이용한 개인화된 광고 제공 서비스 방법 |
CN107066512A (zh) * | 2017-01-23 | 2017-08-18 | 重庆邮电大学 | 一种基于Hadoop的用户偏好评估方法及系统 |
CN111967971A (zh) * | 2020-08-18 | 2020-11-20 | 中国银行股份有限公司 | 银行客户数据处理方法及装置 |
CN112001754A (zh) * | 2020-08-21 | 2020-11-27 | 上海风秩科技有限公司 | 用户画像生成方法、装置、设备及计算机可读介质 |
CN112699955A (zh) * | 2021-01-08 | 2021-04-23 | 广州新科佳都科技有限公司 | 一种用户分类方法、装置、设备及存储介质 |
CN113094615A (zh) * | 2019-12-23 | 2021-07-09 | 中国石油天然气股份有限公司 | 消息推送方法、装置、设备和存储介质 |
WO2021203854A1 (zh) * | 2020-04-09 | 2021-10-14 | 深圳壹账通智能科技有限公司 | 用户分类方法、装置、计算机设备和存储介质 |
CN113743826A (zh) * | 2021-09-18 | 2021-12-03 | 中国银行股份有限公司 | 一种客户分类方法及装置 |
CN113837319A (zh) * | 2021-10-22 | 2021-12-24 | 平安科技(深圳)有限公司 | 基于聚类的客户分类方法、装置、设备及存储介质 |
CN115115265A (zh) * | 2022-07-21 | 2022-09-27 | 云南中烟工业有限责任公司 | 一种基于rfm模型的消费者评估方法、装置及介质 |
CN115170294A (zh) * | 2022-07-22 | 2022-10-11 | 中国工商银行股份有限公司 | 一种客户分类方法、装置及服务器 |
-
2024
- 2024-01-17 CN CN202410064413.XA patent/CN117593034B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001134648A (ja) * | 1999-11-02 | 2001-05-18 | Dentsu Tec Inc | 顧客維持育成のための顧客データ分析方法 |
KR20160090509A (ko) * | 2015-01-22 | 2016-08-01 | 주식회사 디케이아이테크놀로지 | 감성기반 사용자특성 분석을 이용한 개인화된 광고 제공 서비스 방법 |
CN107066512A (zh) * | 2017-01-23 | 2017-08-18 | 重庆邮电大学 | 一种基于Hadoop的用户偏好评估方法及系统 |
CN113094615A (zh) * | 2019-12-23 | 2021-07-09 | 中国石油天然气股份有限公司 | 消息推送方法、装置、设备和存储介质 |
WO2021203854A1 (zh) * | 2020-04-09 | 2021-10-14 | 深圳壹账通智能科技有限公司 | 用户分类方法、装置、计算机设备和存储介质 |
CN111967971A (zh) * | 2020-08-18 | 2020-11-20 | 中国银行股份有限公司 | 银行客户数据处理方法及装置 |
CN112001754A (zh) * | 2020-08-21 | 2020-11-27 | 上海风秩科技有限公司 | 用户画像生成方法、装置、设备及计算机可读介质 |
CN112699955A (zh) * | 2021-01-08 | 2021-04-23 | 广州新科佳都科技有限公司 | 一种用户分类方法、装置、设备及存储介质 |
CN113743826A (zh) * | 2021-09-18 | 2021-12-03 | 中国银行股份有限公司 | 一种客户分类方法及装置 |
CN113837319A (zh) * | 2021-10-22 | 2021-12-24 | 平安科技(深圳)有限公司 | 基于聚类的客户分类方法、装置、设备及存储介质 |
CN115115265A (zh) * | 2022-07-21 | 2022-09-27 | 云南中烟工业有限责任公司 | 一种基于rfm模型的消费者评估方法、装置及介质 |
CN115170294A (zh) * | 2022-07-22 | 2022-10-11 | 中国工商银行股份有限公司 | 一种客户分类方法、装置及服务器 |
Also Published As
Publication number | Publication date |
---|---|
CN117593034A (zh) | 2024-02-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11659050B2 (en) | Discovering signature of electronic social networks | |
Nahm et al. | New rating methods to prioritize customer requirements in QFD with incomplete customer preferences | |
KR100887253B1 (ko) | 평가자의 신뢰도에 기초한 컨텐츠 신뢰도 평가 시스템 및그 방법 | |
CN111797320B (zh) | 数据处理方法、装置、设备及存储介质 | |
KR20150105830A (ko) | 사용자 프로파일과 상황 정보를 이용한 선호도 기반 하이브리드 필터링 콘텐츠 추천 장치 및 방법 | |
CN110532429B (zh) | 一种基于聚类和关联规则的线上用户群体分类方法及装置 | |
CN107274066B (zh) | 一种基于lrfmd模型的共享交通客户价值分析方法 | |
US20190019131A1 (en) | System and method for comparing enterprise performance using industry consumer data in a network of distributed computer systems | |
CN111984873A (zh) | 一种服务推荐系统和方法 | |
JP5061999B2 (ja) | 解析装置、解析方法及び解析プログラム | |
Lewaaelhamd | Customer segmentation using machine learning model: an application of RFM analysis | |
CN117593034B (zh) | 基于计算机的用户分类方法 | |
CN115964570B (zh) | 基于QoS多时段变化特征预测的云服务推荐方法及装置 | |
CN116703533A (zh) | 一种商业管理数据优化存储分析方法 | |
CN116167733A (zh) | 绩效评估方法、装置、设备及介质 | |
CN108388911A (zh) | 一种面向混合属性的移动用户动态模糊聚类方法 | |
US10210528B2 (en) | Method and system for assessing and improving individual customer profitability for a profit-making organization | |
CN113537759A (zh) | 一种基于权重自适应的用户体验度量模型 | |
KR20220057955A (ko) | 가맹점 추천 정보를 제공하는 방법 및 디바이스 | |
CN112632137A (zh) | 业务数据的推送方法、装置和服务器 | |
CN117807450B (zh) | 一种城市智能化公共交通系统及方法 | |
CN118296216B (zh) | 一种族谱信息与地理信息的关联匹配方法及系统 | |
CN118761483A (zh) | 一种提高网约车平台完单频次的方法 | |
CN118097197B (zh) | 一种图像识别神经网络模型的匹配方法 | |
CN117893258A (zh) | 用户推荐方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |