CN112070548A - 一种用户分层的方法、装置、设备及存储介质 - Google Patents

一种用户分层的方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112070548A
CN112070548A CN202010952793.2A CN202010952793A CN112070548A CN 112070548 A CN112070548 A CN 112070548A CN 202010952793 A CN202010952793 A CN 202010952793A CN 112070548 A CN112070548 A CN 112070548A
Authority
CN
China
Prior art keywords
user
feature data
data
component
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010952793.2A
Other languages
English (en)
Other versions
CN112070548B (zh
Inventor
方依
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Second Picket Network Technology Co ltd
Original Assignee
Shanghai Fengzhi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Fengzhi Technology Co ltd filed Critical Shanghai Fengzhi Technology Co ltd
Priority to CN202010952793.2A priority Critical patent/CN112070548B/zh
Publication of CN112070548A publication Critical patent/CN112070548A/zh
Application granted granted Critical
Publication of CN112070548B publication Critical patent/CN112070548B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/067Enterprise or organisation modelling
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Educational Administration (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种用户分层的方法、装置、设备及存储介质,其中,该方法包括:针对每一用户,按照服务提供方所属的业务类型映射的统计周期,获取该用户在所述业务类型下的所述统计周期内的目标行为的数据;根据所述目标行为的数据,得到该用户的第一特征数据、第二特征数据以及第三特征数据;根据每一所述用户对应的所述第一特征数据、所述第二特征数据以及所述第三特征数据,确定各所述用户中特征相同的特征数据对应的分裂点;基于确定的各所述分裂点,对所有的所述用户进行分层,得到每一层级对应的用户名单。这样,可以减少人为主观因素的干扰,客观的划分用户层级,提高用户分层结果的准确度,更好的挖掘用户的潜在价值。

Description

一种用户分层的方法、装置、设备及存储介质
技术领域
本发明涉及数据处理技术领域,具体而言,涉及一种用户分层的方法、装置、设备及存储介质。
背景技术
为了企业能够高效的发展,企业往往需要针对不同类型的客户制定不同的服务策略,以满足不同类型的用户需求。考虑到企业服务的投入与产出,常常需要根据用户对企业的贡献价值,对用户进行分层,将企业服务的投入成本向贡献价值较高的用户进行倾斜,以便提高整体的工作和服务效率。
目前的方法,对于用户的分层,主要通过服务方人为设定的层级阈值,将用户划分成不同的层级。例如,品牌方可以根据用户的消费金额,设定两个层级的消费阈值,当用户的消费金额低于第一消费阈值时,将该用户划分为普通客户;当用户的消费金额在第一消费阈值与第二消费阈值之间时,将该用户划分为中级客户;当用户的消费金额高于第二消费阈值时,将该用户划分为重要客户。这样,通过主观设定的层级阈值对用户进行分层,很难客观的评价用户的潜在价值,并且用户的分层结果受到主观因素的干扰较大,导致分层结果并不准确,不利于挖掘用户的潜在价值。
发明内容
有鉴于此,本发明的目的在于提供一种用户分层的方法、装置、设备及存储介质,以减少人为主观因素的干扰,客观的划分用户层级,提高用户分层结果的准确度,更好的挖掘用户的潜在价值。
第一方面,本发明实施例提供了一种用户分层的方法,所述方法包括:
针对每一用户,按照服务提供方所属的业务类型映射的统计周期,获取该用户在所述业务类型下的所述统计周期内的目标行为的数据;
根据所述目标行为的数据,得到该用户的第一特征数据、第二特征数据以及第三特征数据,其中,所述第一特征数据是该用户最后一次做出所述目标行为的时间,所述第二特征数据是该用户在所述统计周期内做出所述目标行为的次数,所述第三特征数据是该用户在所述统计周期内使用的总虚拟资源;
根据每一所述用户对应的所述第一特征数据、所述第二特征数据以及所述第三特征数据,确定各所述用户中特征相同的特征数据对应的分裂点,其中,所述分裂点用于针对每一种特征数据,将所有的所述用户划分为两组;
基于确定的各所述分裂点,对所有的所述用户进行分层,得到每一层级对应的用户名单。
可选的,所述根据每一所述用户对应的所述第一特征数据、所述第二特征数据以及所述第三特征数据,确定各所述用户中特征相同的特征数据对应的分裂点,包括:
针对每一所述用户,分别对该用户的所述第一特征数据、所述第二特征数据以及所述第三特征数据进行归一化处理,将各归一化处理的结果作为该用户对应的样本数据,其中,所述样本数据包括:所述第一特征数据对应的第一类型的分量、所述第二特征数据对应的第二类型的分量以及所述第三特征数据对应的第三类型的分量;
对所有的所述样本数据进行聚类处理,得到所有的所述样本数据对应的初始分类结果;
利用所述初始分类结果,确定各所述样本数据中类型相同的分量对应的分裂点。
可选的,所述分别对该用户的所述第一特征数据、所述第二特征数据以及所述第三特征数据进行归一化处理,将各归一化处理的结果作为该用户对应的样本数据,包括:
利用各所述第一特征数据中的最大值和最小值,对该用户对应的所述第一特征数据进行归一化处理,将归一化处理的结果作为该用户对应的所述第一类型的分量;
利用各所述第二特征数据中的最大值和最小值,对该用户对应的所述第二特征数据进行归一化处理,将归一化处理的结果作为该用户对应的所述第二类型的分量;
利用各所述第三特征数据中的最大值和最小值,对该用户对应的所述第三特征数据进行归一化处理,将归一化处理的结果作为该用户对应的所述第三类型的分量。
可选的,所述对所有的所述样本数据进行聚类处理,得到所有的所述样本数据对应的初始分类结果,包括:
对所有的所述样本数据进行密度聚类,以确定所有的所述样本数据对应的密度聚类簇数;
判断所述密度聚类簇数是否符合预先设置的聚类规则,根据判断结果,确定所有的所述样本数据对应的目标聚类簇数;
按照所述目标聚类簇数,对所有的所述样本数据进行均值聚类,得到各簇对应的样本数据集合;
将各簇对应的所述样本数据集合以及该样本数据集合对应的簇心,作为所述初始分类结果,其中,所述簇心为所述样本数据集合对应的三维空间内的中心点坐标,所述三维空间是指所述第一类型的分量、所述第二类型的分量以及所述第三类型的分量构成的三维坐标空间。
可选的,所述判断所述密度聚类簇数是否符合预先设置的聚类规则,根据判断结果,确定所有的所述样本数据对应的目标聚类簇数,包括:
计算所述密度聚类簇数与预先存储的聚类簇数的差值;
依据预先设置的聚类阈值,判断所述差值的绝对值是否小于所述聚类阈值;
若所述差值的绝对值小于所述聚类阈值,则将所述密度聚类簇数作为所述目标聚类簇数;
若所述差值的绝对值大于或者等于所述聚类阈值,则将所述聚类簇数作为所述目标聚类簇数。
可选的,所述利用所述初始分类结果,确定各所述样本数据中类型相同的分量对应的分裂点,包括:
将所述初始分类结果输入分裂点预测模型,得到各所述样本数据中类型相同的分量对应的初始分裂点;
针对同一类型的分量,若该类型的分量对应的所述初始分裂点的个数不唯一,则根据各所述样本数据集合在所述三维空间中的数据分布,来确定是否存在符合分裂条件的唯一的分裂点;
若确定不存在符合分裂条件的唯一的分裂点,则利用所述分裂点预测模型对该类型的分量进行二次预测,确定该类型的分量对应的所述分裂点。
可选的,所述根据各所述样本数据集合在所述三维空间中的数据分布,来确定是否存在符合分裂条件的唯一的分裂点,包括:
针对每一所述样本数据集合,根据该样本数据集合对应的所述簇心在所述三维空间中的分布,确定第一目标簇心和第二目标簇心,其中,所述第一目标簇心和所述第二目标簇心是簇心坐标的斜率变化最大处对应的两个相邻的簇心;
获取第一分量值和第二分量值,其中,所述第一分量值为所述第一目标簇心所在的样本数据集合中包含的该类型的分量的最大值,所述第二分量值为所述第二目标簇心所在的样本数据集合中包含的该类型的分量的最小值;
判断所述第一分量值是否小于或者等于所述第二分量值;
若所述第一分量值小于或者等于所述第二分量值,则确定存在符合分裂条件的唯一的分裂点。
可选的,所述利用所述分裂点预测模型对该类型的分量进行二次预测,确定该类型的分量对应的所述分裂点,包括:
针对该类型的分量对应的每一所述初始分裂点,将该初始分裂点作为所述分裂点预测模型的输入参数,输入到所述分裂点预测模型,得到该初始分裂点对应的信息增益;
通过比较各所述初始分裂点对应的所述信息增益,将所述信息增益的最大值对应的初始分裂点作为该类型的分量对应的所述分裂点。
第二方面,本发明实施例还提供了一种用户分层的装置,所述装置包括:
获取模块,用于针对每一用户,按照服务提供方所属的业务类型映射的统计周期,获取该用户在所述业务类型下的所述统计周期内的目标行为的数据;
统计模块,用于根据所述目标行为的数据,得到该用户的第一特征数据、第二特征数据以及第三特征数据,其中,所述第一特征数据是该用户最后一次做出所述目标行为的时间,所述第二特征数据是该用户在所述统计周期内做出所述目标行为的次数,所述第三特征数据是该用户在所述统计周期内使用的总虚拟资源;
处理模块,用于根据每一所述用户对应的所述第一特征数据、所述第二特征数据以及所述第三特征数据,确定各所述用户中特征相同的特征数据对应的分裂点,其中,所述分裂点用于针对每一种特征数据,将所有的所述用户划分为两组;
分层模块,用于基于确定的各所述分裂点,对所有的所述用户进行分层,得到每一层级对应的用户名单。
可选的,所述处理模块,包括:
归一化模块,用于针对每一所述用户,分别对该用户的所述第一特征数据、所述第二特征数据以及所述第三特征数据进行归一化处理,将各归一化处理的结果作为该用户对应的样本数据,其中,所述样本数据包括:所述第一特征数据对应的第一类型的分量、所述第二特征数据对应的第二类型的分量以及所述第三特征数据对应的第三类型的分量;
聚类模块,用于对所有的所述样本数据进行聚类处理,得到所有的所述样本数据对应的初始分类结果;
分析模块,用于利用所述初始分类结果,确定各所述样本数据中类型相同的分量对应的分裂点。
可选的,所述归一化模块,还用于:
利用各所述第一特征数据中的最大值和最小值,对该用户对应的所述第一特征数据进行归一化处理,将归一化处理的结果作为该用户对应的所述第一类型的分量;
利用各所述第二特征数据中的最大值和最小值,对该用户对应的所述第二特征数据进行归一化处理,将归一化处理的结果作为该用户对应的所述第二类型的分量;
利用各所述第三特征数据中的最大值和最小值,对该用户对应的所述第三特征数据进行归一化处理,将归一化处理的结果作为该用户对应的所述第三类型的分量。
可选的,所述聚类模块,包括:
密度聚类单元,用于对所有的所述样本数据进行密度聚类,以确定所有的所述样本数据对应的密度聚类簇数;
判断单元,用于判断所述密度聚类簇数是否符合预先设置的聚类规则,根据判断结果,确定所有的所述样本数据对应的目标聚类簇数;
均值聚类单元,用于按照所述目标聚类簇数,对所有的所述样本数据进行均值聚类,得到各簇对应的样本数据集合;
确定单元,用于将各簇对应的所述样本数据集合以及该样本数据集合对应的簇心,作为所述初始分类结果,其中,所述簇心为所述样本数据集合对应的三维空间内的中心点坐标,所述三维空间是指所述第一类型的分量、所述第二类型的分量以及所述第三类型的分量构成的三维坐标空间。
可选的,所述判断单元,还用于:
计算所述密度聚类簇数与预先存储的聚类簇数的差值;
依据预先设置的聚类阈值,判断所述差值的绝对值是否小于所述聚类阈值;
若所述差值的绝对值小于所述聚类阈值,则将所述密度聚类簇数作为所述目标聚类簇数;
若所述差值的绝对值大于或者等于所述聚类阈值,则将所述聚类簇数作为所述目标聚类簇数。
可选的,所述分析模块,包括:
第一预测单元,用于将所述初始分类结果输入分裂点预测模型,得到各所述样本数据中类型相同的分量对应的初始分裂点;
分析判断单元,用于针对同一类型的分量,若该类型的分量对应的所述初始分裂点的个数不唯一,则根据各所述样本数据集合在所述三维空间中的数据分布,来确定是否存在符合分裂条件的唯一的分裂点;
第二预测单元,用于若确定不存在符合分裂条件的唯一的分裂点,则利用所述分裂点预测模型对该类型的分量进行二次预测,确定该类型的分量对应的所述分裂点。
可选的,所述分析判断单元,还用于:
针对每一所述样本数据集合,根据该样本数据集合对应的所述簇心在所述三维空间中的分布,确定第一目标簇心和第二目标簇心,其中,所述第一目标簇心和所述第二目标簇心是簇心坐标的斜率变化最大处对应的两个相邻的簇心;
获取第一分量值和第二分量值,其中,所述第一分量值为所述第一目标簇心所在的样本数据集合中包含的该类型的分量的最大值,所述第二分量值为所述第二目标簇心所在的样本数据集合中包含的该类型的分量的最小值;
判断所述第一分量值是否小于或者等于所述第二分量值;
若所述第一分量值小于或者等于所述第二分量值,则确定存在符合分裂条件的唯一的分裂点。
可选的,所述第二预测单元,还用于:
针对该类型的分量对应的每一所述初始分裂点,将该初始分裂点作为所述分裂点预测模型的输入参数,输入到所述分裂点预测模型,得到该初始分裂点对应的信息增益;
通过比较各所述初始分裂点对应的所述信息增益,将所述信息增益的最大值对应的初始分裂点作为该类型的分量对应的所述分裂点。
第三方面,本申请实施例提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述用户分层的方法的步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述用户分层的方法的步骤。
本申请的实施例提供的技术方案可以包括以下有益效果:
考虑到用户对于不同业务类型的服务存在不同的需求周期,例如,用户超市购物的频率普遍会高于用户剪发的频率,因此,本申请是按照服务提供方所属的业务类型映射的统计周期,获取每一用户在所述统计周期内的目标行为的数据,根据用户在所述统计周期内最后一次做出所述目标行为的时间、用户在所述统计周期内做出所述目标行为的次数以及用户在所述统计周期内使用的总虚拟资源,在这三个特征维度上,对用户进行细分,以针对不同业务类型的服务提供方,得到该业务类型下的用户的最佳分层方案,提高用户层级划分的准确度。
进一步地,本申请针对每一种特征数据,确定该种特征数据对应的分裂点,在该种特征数据对应的特征维度上,利用所述分裂点,将所有的用户划分为两组。这样,在上述三个特征维度上,根据三种特征数据各自对应的分裂点,可以将用户分为八个基本层级,得到每一基本层级对应的用户名单,根据服务提供方的实际需要,可以对相邻的基本层级进行合并,以满足整体的工作及服务需求。由于本申请是通过分析用户的各种特征数据的实际分布规律,来确定出的每种特征数据对应的分裂点,将该分裂点看作层级划分的阈值,对用户进行的层级划分,因此,可以有效地减少人为主观因素的干扰,客观的划分用户层级,提高用户分层结果的准确度,更好的挖掘用户的潜在价值。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的一种用户分层的方法的流程示意图;
图2示出了本申请实施例所提供的一种特征数据的分析处理方法的流程示意图;
图3示出了本申请实施例所提供的一种聚类处理的方法的流程示意图;
图4示出了本申请实施例所提供的一种确定分裂点的方法的流程示意图;
图5示出了本申请实施例所提供的一种利用数据分布规律来确定分裂点的方法的流程示意图;
图6示出了本申请实施例所提供的一种利用信息增益来确定分裂点的方法的流程示意图;
图7示出了本申请实施例所提供的用户分层的装置的结构示意图;
图8为本申请实施例提供的一种计算机设备800的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种用户分层的方法、装置、设备及存储介质,下面通过实施例进行描述。
实施例一
图1示出了本申请实施例所提供的一种用户分层的方法的流程示意图;该方法包括步骤S101-S104;具体的:
S101,针对每一用户,按照服务提供方所属的业务类型映射的统计周期,获取该用户在所述业务类型下的所述统计周期内的目标行为的数据。
需要说明的是,本申请实施例中提到的服务提供方包括但不限于:网络电商、线下实体消费场所、品牌方等可以为用户提供服务,以满足用户需求的服务提供对象,所述目标行为包括但不限于:消费行为、浏览行为、点击行为、收藏行为等可以表示用户与所述服务提供方之间进行交互的行为,具体的目标行为可以根据服务提供方的服务策略制定需求,进行调整,本申请对此不进行限定。
具体的,考虑到用户对于不同业务类型的服务存在不同的需求周期。因此,可以根据不同业务类型的服务提供方对应的平均需求周期,对不同的业务类型设置不同的统计周期,获取每一用户在所述统计周期内的目标行为的数据,以得到该业务类型下的用户的最佳分层方案,提高用户层级划分的准确度。
示例性的说明,以超市和服装品牌为例,同样是消费行为,但是用户超市消费的频率普遍会高于服装消费的频率,因此,需要为不同业务类型的服务提供方设置不同的统计周期,例如,当服务提供方为超市A时,超市映射的统计周期可以为一周,针对超市A,可以获取每个用户在一周内的消费数据作为各用户对应的所述目标行为的数据;当服务提供方为服装品牌B时,服装品牌映射的统计周期可以为一个季度,针对服装品牌B,可以获取每个用户在一个季度内的消费数据作为各用户对应的所述目标行为的数据。
S102,根据所述目标行为的数据,得到该用户的第一特征数据、第二特征数据以及第三特征数据,其中,所述第一特征数据是该用户最后一次做出所述目标行为的时间,所述第二特征数据是该用户在所述统计周期内做出所述目标行为的次数,所述第三特征数据是该用户在所述统计周期内使用的总虚拟资源。
需要说明的是,所述总虚拟资源是指可以用于表示该用户对服务提供方的贡献价值的参数,所述总虚拟资源包括但不限于:消费总金额。
具体的,用户在统计周期内最后一次做出所述目标行为的时间的远近,可以用于衡量是否需要对该用户进行联络与挽留;用户在统计周期内做出所述目标行为的次数的大小,可以用于衡量该用户是否具有可持续性的贡献价值;用户在统计周期内使用的总虚拟资源的大小,可以用于衡量该用户对服务提供方的贡献价值的高低。因此,根据该用户的第一特征数据、第二特征数据以及第三特征数据,可以分别从三种不同的维度,来客观的衡量该用户的潜在价值,在这三个特征维度上,对用户进行细分,以针对不同业务类型的服务提供方,得到该业务类型下的用户的最佳分层方案,提高用户层级划分的准确度。
示例性的说明,以服务提供方是服装品牌B为例,可以将用户的消费行为作为所述目标行为,若统计周期为一个季度,对于用户a,则可以从用户a一个季度的消费数据中,获取用户a在一个季度内最后一次的消费时间作为所述第一特征数据;获取用户a在一个季度内消费的次数作为所述第二特征数据;获取用户a在一个季度内对服装品牌B的消费总金额作为所述第三特征数据。
S103,根据每一所述用户对应的所述第一特征数据、所述第二特征数据以及所述第三特征数据,确定各所述用户中特征相同的特征数据对应的分裂点,其中,所述分裂点用于针对每一种特征数据,将所有的所述用户划分为两组。
具体的,针对每一种特征数据,确定该种特征数据对应的所述分裂点,以在该种特征数据对应的特征维度上,利用所述分裂点,将所有的用户划分为两组,这样,利用所述第一特征数据对应的分裂点,可以将所有的用户划分为两组;利用所述第二特征数据对应的分裂点,可以在前两组的基础上对所有的用户继续进行分组,将所有的用户划分为四组;利用所述第三特征数据对应的分裂点,可以在前四组的基础上对所有的用户继续进行分组,最终将所有的用户划分为八个基本的层级。
示例性的说明,以所述第二特征数据为例,若确定第二特征数据对应的分裂点为y,则针对所述第二特征数据,可以将第二特征数据小于y的用户划分为一组,将第二特征数据大于或者等于y的用户划分为另一组。
S104,基于确定的各所述分裂点,对所有的所述用户进行分层,得到每一层级对应的用户名单。
具体的,在三种特征数据构成的三维用户评价空间中,可以在三个特征维度上,根据所述第一特征数据、所述第二特征数据以及所述第三特征数据各自对应的分裂点,将用户分为八个基本层级,得到每一基本层级对应的用户名单,根据服务提供方的实际需要,可以对相邻的基本层级进行合并,以满足整体的工作及服务需求。
本申请实施例中,作为一可选实施例,所述基于确定的各所述分裂点,对所有的所述用户进行分层,包括:
针对每一所述分裂点,在该分裂点对应的特征数据所在的维度上,将所述特征数据小于该分裂点的用户对应的特征数据类型标记为0;
将所述特征数据大于或者等于该分裂点的用户对应的特征数据类型标记为1;
针对每一所述用户,根据该用户对应的标记结果,确定该用户对应的层级。
示例性的说明,第一特征数据对应的特征数据类型标记结果记为X、第二特征数据对应的特征数据类型标记结果记为Y、第三特征数据对应的特征数据类型标记结果记为Z,则可以得到用户的分层划分结果如下表1所示:
Figure BDA0002677584790000111
Figure BDA0002677584790000121
表1
在一个可行的实施方案中,图2示出了本申请实施例所提供的一种特征数据的分析处理方法的流程示意图,如图2所示,在执行步骤S103时,该方法还包括S201-S203;具体的:
S201,针对每一所述用户,分别对该用户的所述第一特征数据、所述第二特征数据以及所述第三特征数据进行归一化处理,将各归一化处理的结果作为该用户对应的样本数据,其中,所述样本数据包括:所述第一特征数据对应的第一类型的分量、所述第二特征数据对应的第二类型的分量以及所述第三特征数据对应的第三类型的分量。
具体的,考虑到不同用户的同种特征数据之间的大小可能相差较大,因此,本申请按照特征数据的所属类型,先分别对各用户的第一特征数据、第二特征数据以及第三特征数据进行归一化处理,然后,将归一化处理的结果作为需要分析的样本数据。这样,在归一化之后,针对每一类特征数据,相当于将不同用户的该类特征数据转化成每个用户在总体数据中所占的比重,有利于缩小不同用户对应的同一类特征数据之间的差值,更好的分析用户与用户之间的差异大小,提高数据分析的准确度。
本申请实施例中,作为一可选实施例,所述分别对该用户的所述第一特征数据、所述第二特征数据以及所述第三特征数据进行归一化处理,将各归一化处理的结果作为该用户对应的样本数据,包括:
利用各所述第一特征数据中的最大值和最小值,对该用户对应的所述第一特征数据进行归一化处理,将归一化处理的结果作为该用户对应的所述第一类型的分量;
利用各所述第二特征数据中的最大值和最小值,对该用户对应的所述第二特征数据进行归一化处理,将归一化处理的结果作为该用户对应的所述第二类型的分量;
利用各所述第三特征数据中的最大值和最小值,对该用户对应的所述第三特征数据进行归一化处理,将归一化处理的结果作为该用户对应的所述第三类型的分量。
示例性的说明,可以根据以下公式,来对该用户的所述第一特征数据、所述第二特征数据以及所述第三特征数据进行归一化处理:
Figure BDA0002677584790000131
Figure BDA0002677584790000132
Figure BDA0002677584790000133
其中:
x'i是第i个用户对应的所述第一类型的分量;
xi是第i个用户对应的第一特征数据;
xmax是所有用户对应的第一特征数据中的最大值;
xmin是所有用户对应的第一特征数据中的最小值;
y'i是第i个用户对应的所述第二类型的分量;
yi是第i个用户对应的第二特征数据;
ymax是所有用户对应的第二特征数据中的最大值;
ymin是所有用户对应的第二特征数据中的最小值;
z'i是第i个用户对应的所述第三类型的分量;
zi是第i个用户对应的第三特征数据;
zmax是所有用户对应的第三特征数据中的最大值;
zmin是所有用户对应的第三特征数据中的最小值。
S202,对所有的所述样本数据进行聚类处理,得到所有的所述样本数据对应的初始分类结果。
具体的,可以分别将第一特征数据、第二特征数据以及第三特征数据各自作为一个向量维度,得到一个三维用户评价空间,这样,每一所述样本数据都可看作是该三维用户评价空间中的一个样本点,基于各样本点的分布密度,可以先对所有的样本点进行密度聚类,以去除异常的离群样本点,提高样本数据初始分类结果的准确度。
S203,利用所述初始分类结果,确定各所述样本数据中类型相同的分量对应的分裂点。
具体的,根据所述初始分类结果,可以确定出所有的所述样本数据聚集的簇数,例如,经过聚类处理,得到出现聚集现象的样本数据的集合有7个,则可以确定所述样本数据聚集的簇数为7簇,基于决策树算法,可以利用每一簇中,类型相同的分量对应的信息增益的值,来确定该类型的分量对应的所述分裂点。
需要说明的是,在利用决策树算法,来确定每种相同类型的分量对应的分裂点时,不可以使用CART(classification and regression tree,分类与回归决策树)决策树算法。
在一个可行的实施方案中,图3示出了本申请实施例所提供的一种聚类处理的方法的流程示意图,如图3所示,在执行步骤S202时,该方法还包括S301-S304;具体的:
S301,对所有的所述样本数据进行密度聚类,以确定所有的所述样本数据对应的密度聚类簇数。
具体的,在进行密度聚类时,可以将每个样本数据中的第一特征数据、第二特征数据以及第三特征数据分别看作是三维空间中的x轴坐标、y轴坐标以及z轴坐标,这样,每个样本数据都相当于三维坐标空间中的一个样本点。
具体的,针对随机选取的一个样本点,以该样本点为圆心,依据预先设置的半径,可以得到一个目标球体,获取该目标球体内包含的样本点的数量,当获取到的样本点的数量超过密度阈值时,则确定圆心处的样本点为核心对象;分别以核心对象所在的目标球体中包含的每一样本点作为圆心,利用同样的方法,可以得到各样本点对应的子球体的覆盖范围,对于能够与所述目标球体形成连通域的子球体,该子球体的圆心对应的样本点与核心对象具有密度可达关系。这样,针对每一个核心对象,利用密度可达关系,可以确定出该核心对象对应的最大密度相连的样本数据集合,该样本数据集合即为一个密度聚类簇数。
S302,判断所述密度聚类簇数是否符合预先设置的聚类规则,根据判断结果,确定所有的所述样本数据对应的目标聚类簇数。
具体的,对于三种类型的分量而言,每种类型相同的分量对应一个最优分裂点时,可以将所有的所述样本数据分为八个层级,因此,优选的,可以通过密度聚类簇数与八个簇数之间的差值大小,来判断所述密度聚类簇数是否符合所述聚类规则。
本申请实施例中,作为一可选实施例,所述判断所述密度聚类簇数是否符合预先设置的聚类规则,根据判断结果,确定所有的所述样本数据对应的目标聚类簇数,包括:
计算所述密度聚类簇数与预先存储的聚类簇数的差值;
依据预先设置的聚类阈值,判断所述差值的绝对值是否小于所述聚类阈值;
若所述差值的绝对值小于所述聚类阈值,则将所述密度聚类簇数作为所述目标聚类簇数;
若所述差值的绝对值大于或者等于所述聚类阈值,则将所述聚类簇数作为所述目标聚类簇数。
优选的,预先存储的聚类簇数可以是八簇。
示例性的说明,以预先设置的聚类阈值是2簇、预先存储的聚类簇数是8簇为例,若密聚类簇数为5簇,则计算得到密度聚类簇数与所述聚类簇数的差值为负3,由于所述差值的绝对值大于所述聚类阈值,因此,可以确定目标聚类簇数为8簇;若密聚类簇数为7簇,则计算得到密度聚类簇数与所述聚类簇数的差值为负1,由于所述差值的绝对值小于所述聚类阈值,因此,可以确定目标聚类簇数为7簇。
S303,按照所述目标聚类簇数,对所有的所述样本数据进行均值聚类,得到各簇对应的样本数据集合。
示例性的说明,若确定的目标聚类簇数为7簇,则利用k均值聚类算法,可以将所有的所述样本数据分为7簇,得到每一簇对应的样本数据集合。
S304,将各簇对应的所述样本数据集合以及该样本数据集合对应的簇心,作为所述初始分类结果,其中,所述簇心为所述样本数据集合对应的三维空间内的中心点坐标,所述三维空间是指所述第一类型的分量、所述第二类型的分量以及所述第三类型的分量构成的三维坐标空间。
具体的,在所述三维空间中,针对每一所述样本数据集合,将该样本数据集合中的每个样本数据看作三维空间中的一个样本点,可以得到该样本数据集合在三维空间中对应的样本空间,从而将该样本空间的中心点坐标作为该簇样本数据集合对应的所述簇心。
在一个可行的实施方案中,图4示出了本申请实施例所提供的一种确定分裂点的方法的流程示意图,如图4所示,在执行步骤S203时,该方法还包括S401-S403;具体的:
S401,将所述初始分类结果输入分裂点预测模型,得到各所述样本数据中类型相同的分量对应的初始分裂点。
具体的,可以根据ID3决策树算法或者C4.5决策树算法,生成所述分裂点预测模型,将各簇对应的样本数据集合以及该样本数据集合对应的簇心输入到该分裂点预测模型中,该分裂点预测模型用于根据每一簇中,类型相同的分量对应的信息增益的值,来确定该类型的分量对应的初始分裂点。
S402,针对同一类型的分量,若该类型的分量对应的所述初始分裂点的个数不唯一,则根据各所述样本数据集合在所述三维空间中的数据分布,来确定是否存在符合分裂条件的唯一的分裂点。
示例性的说明,若第一类型的分量对应所述三维空间中的x轴,第二类型的分量对应所述三维空间中的y轴,第三类型的分量对应所述三维空间中的z轴,第一类型的分量对应的初始分裂点为X1、第二类型的分量对应的初始分裂点为Y1、Y2、第三类型的分量对应的初始分裂点为Z1,则可以根据各所述样本数据集合包含的样本数据沿y轴方向的数据分布规律,来确定第二类型的分量是否存在符合分裂条件的唯一的分裂点。
S403,若确定不存在符合分裂条件的唯一的分裂点,则利用所述分裂点预测模型对该类型的分量进行二次预测,确定该类型的分量对应的所述分裂点。
示例性的说明,仍以上述举例情况为例,若根据各所述样本数据集合包含的样本数据沿y轴方向的数据分布规律,确定不存在符合分裂条件的分裂点,则可以分别将第二类型的分量对应的分裂点为Y1以及第二类型的分量对应的分裂点为Y2作为预测条件,输入所述分裂点预测模型,通过比较两种预测条件各自对应的信息增益,以根据比较结果,从Y1以及Y2中选择一个最优的分裂点作为第二类型的分量对应的分裂点。
在一个可行的实施方案中,图5出了本申请实施例所提供的一种利用数据分布规律来确定分裂点的方法的流程示意图,如图5示,在执行步骤S402时,该方法还包括S501-S504;具体的:
S501,针对每一所述样本数据集合,根据该样本数据集合对应的所述簇心在所述三维空间中的分布,确定第一目标簇心和第二目标簇心,其中,所述第一目标簇心和所述第二目标簇心是簇心坐标的斜率变化最大处对应的两个相邻的簇心。
示例性的说明,仍以上述举例情况为例,若目标聚类簇数是8簇,第二类型的分量对应的初始分裂点为Y1和Y2,作为一可选实施例,可以按照各簇样本数据集合对应的簇心沿y轴方向的数据分布呈递增趋势的顺序,对各簇样本数据集合对应的簇心进行排序,得到各簇样本数据集合对应的簇心分别为:(x1,y1,z1)、(x2,y2,z2)、(x3,y3,z3)、(x4,y4,z4)、(x5,y5,z5)、(x6,y6,z6)、(x7,y7,z7)、(x8,y8,z8);根据各簇心沿y轴方向的斜率变化,若确定y3和y4之间的线段对应斜率变化的最大处,则可以确定(x3,y3,z3)为第一目标簇心,(x4,y4,z4)为第二目标簇心。
S502,获取第一分量值和第二分量值,其中,所述第一分量值为所述第一目标簇心所在的样本数据集合中包含的该类型的分量的最大值,所述第二分量值为所述第二目标簇心所在的样本数据集合中包含的该类型的分量的最小值。
示例性的说明,以上述举例情况为例,在确定(x3,y3,z3)为第一目标簇心,(x4,y4,z4)为第二目标簇心之后,寻找两个簇分别对应的分量的最大值与分量的最小值,获取第3簇样本数据集合中第二类型的分量的最大值y'max作为所述第一分量值;获取第4簇样本数据集合中第二类型的分量的最小值y'min作为所述第二分量值。
本申请实施例中,作为另一可选实施例,在获取所述第一分量值或所述第二分量值时,还可以在预设的比例阈值内的所述第一目标簇心所在的样本数据集合中进行获取。
示例性的说明,以(x3,y3,z3)为第一目标簇心,(x4,y4,z4)为第二目标簇心为例,簇心(x3,y3,z3)对应第3簇样本数据集合,簇心(x4,y4,z4)对应第4簇样本数据集合,若预设的比例阈值为0.95,则在获取第一分量值时,可以将第3簇样本数据集合中满足95%的第二类型的分量分布的最大值y”max作为所述第一分量值;在获取第二分量值时,可以将第4簇样本数据集合中满足95%的第二类型的分量分布的最小值y”min作为所述第二分量值。
S503,判断所述第一分量值是否小于或者等于所述第二分量值。
本申请实施例中,作为一可选实施例,所述方法还包括:
若所述第一分量值大于所述第二分量值,则确定不存在符合分裂条件的唯一的分裂点。
示例性的说明,以上述举例情况为例,若第一分量值y'max为0.2、第二分量值y'min为0.1,则可以确定不存在符合分裂条件的唯一的分裂点。
S504,若所述第一分量值小于或者等于所述第二分量值,则确定存在符合分裂条件的唯一的分裂点。
本申请实施例中,作为一可选实施例,在确定所述第一分量值小于或者等于所述第二分量值之后,所述方法还包括:
计算所述第一分量值与所述第二分量值的中位数;
将该中位数作为所述分裂点。
示例性的说明,以上述举例情况为例,若第一分量值y'max为0.1、第二分量值y'min为0.11,则可以确定存在符合分裂条件的唯一的分裂点,将y'max和y'min的中位数0.105作为第二类型的分量对应的分裂点。
在一个可行的实施方案中,图6示出了本申请实施例所提供的一种利用信息增益来确定分裂点的方法的流程示意图,如图6所示,在执行步骤S403时,该方法还包括S601-S602;具体的:
S601,针对该类型的分量对应的每一所述初始分裂点,将该初始分裂点作为所述分裂点预测模型的输入参数,输入到所述分裂点预测模型,得到该初始分裂点对应的信息增益。
具体的,信息增益是指所有的样本数据分裂前的信息熵与分裂后的信息熵的差值,在步骤S401中,将所有的样本数据输入到所述分裂点预测模型,可以得到所有的样本数据在根据分裂点进行分裂之前的原始信息熵,在初始分裂点不唯一时,可以分别将每一初始分裂点作为输入参数,输入到所述分裂点预测模型中,以得到所有的样本数据在根据该初始分裂点进行分裂之后的信息熵,进而,计算原始信息熵与当前分裂后的信息熵的差值,将该差值作为该初始分裂点对应的信息增益。
示例性的说明,以第二类型的分量对应的初始分裂点为Y1和Y2为例,若根据步骤S503的判断,确定第二类型的分量不存在符合分裂条件的唯一的分裂点,则将第二类型的分量对应的分裂点为Y1作为输入参数,输入所述分裂点预测模型中,得到所有的样本数据根据分裂点Y1进行分裂之后的信息熵S1;将第二类型的分量对应的分裂点为Y2作为输入参数,输入所述分裂点预测模型中,得到所有的样本数据根据分裂点Y2进行分裂之后的信息熵S2;若所有的样本数据在根据Y1或者Y2分裂之前的原始信息熵为S,则初始分裂点Y1对应的信息增益为:S-S1,初始分裂点Y2对应的信息增益为:S-S2。
S602,通过比较各所述初始分裂点对应的所述信息增益,将所述信息增益的最大值对应的初始分裂点作为该类型的分量对应的所述分裂点。
示例性的说明,以上述举例情况为例,若S-S1的值大于S-S2的值,则可以将初始分裂点Y1作为第二类型的分量对应的唯一的分裂点。
实施例二
图7示出了本申请实施例所提供的用户分层的装置的结构示意图;所述装置包括:
获取模块701,用于针对每一用户,按照服务提供方所属的业务类型映射的统计周期,获取该用户在所述业务类型下的所述统计周期内的目标行为的数据;
统计模块702,用于根据所述目标行为的数据,得到该用户的第一特征数据、第二特征数据以及第三特征数据,其中,所述第一特征数据是该用户最后一次做出所述目标行为的时间,所述第二特征数据是该用户在所述统计周期内做出所述目标行为的次数,所述第三特征数据是该用户在所述统计周期内使用的总虚拟资源;
处理模块703,用于根据每一所述用户对应的所述第一特征数据、所述第二特征数据以及所述第三特征数据,确定各所述用户中特征相同的特征数据对应的分裂点,其中,所述分裂点用于针对每一种特征数据,将所有的所述用户划分为两组;
分层模块704,用于基于确定的各所述分裂点,对所有的所述用户进行分层,得到每一层级对应的用户名单。
可选的,所述处理模块703,包括:
归一化模块(图中未示出),用于针对每一所述用户,分别对该用户的所述第一特征数据、所述第二特征数据以及所述第三特征数据进行归一化处理,将各归一化处理的结果作为该用户对应的样本数据,其中,所述样本数据包括:所述第一特征数据对应的第一类型的分量、所述第二特征数据对应的第二类型的分量以及所述第三特征数据对应的第三类型的分量;
聚类模块(图中未示出),用于对所有的所述样本数据进行聚类处理,得到所有的所述样本数据对应的初始分类结果;
分析模块(图中未示出),用于利用所述初始分类结果,确定各所述样本数据中类型相同的分量对应的分裂点。
可选的,所述归一化模块,还用于:
利用各所述第一特征数据中的最大值和最小值,对该用户对应的所述第一特征数据进行归一化处理,将归一化处理的结果作为该用户对应的所述第一类型的分量;
利用各所述第二特征数据中的最大值和最小值,对该用户对应的所述第二特征数据进行归一化处理,将归一化处理的结果作为该用户对应的所述第二类型的分量;
利用各所述第三特征数据中的最大值和最小值,对该用户对应的所述第三特征数据进行归一化处理,将归一化处理的结果作为该用户对应的所述第三类型的分量。
可选的,所述聚类模块,包括:
密度聚类单元(图中未示出),用于对所有的所述样本数据进行密度聚类,以确定所有的所述样本数据对应的密度聚类簇数;
判断单元(图中未示出),用于判断所述密度聚类簇数是否符合预先设置的聚类规则,根据判断结果,确定所有的所述样本数据对应的目标聚类簇数;
均值聚类单元(图中未示出),用于按照所述目标聚类簇数,对所有的所述样本数据进行均值聚类,得到各簇对应的样本数据集合;
确定单元(图中未示出),用于将各簇对应的所述样本数据集合以及该样本数据集合对应的簇心,作为所述初始分类结果,其中,所述簇心为所述样本数据集合对应的三维空间内的中心点坐标,所述三维空间是指所述第一类型的分量、所述第二类型的分量以及所述第三类型的分量构成的三维坐标空间。
可选的,所述判断单元,还用于:
计算所述密度聚类簇数与预先存储的聚类簇数的差值;
依据预先设置的聚类阈值,判断所述差值的绝对值是否小于所述聚类阈值;
若所述差值的绝对值小于所述聚类阈值,则将所述密度聚类簇数作为所述目标聚类簇数;
若所述差值的绝对值大于或者等于所述聚类阈值,则将所述聚类簇数作为所述目标聚类簇数。
可选的,所述分析模块,包括:
第一预测单元(图中未示出),用于将所述初始分类结果输入分裂点预测模型,得到各所述样本数据中类型相同的分量对应的初始分裂点;
分析判断单元(图中未示出),用于针对同一类型的分量,若该类型的分量对应的所述初始分裂点的个数不唯一,则根据各所述样本数据集合在所述三维空间中的数据分布,来确定是否存在符合分裂条件的唯一的分裂点;
第二预测单元(图中未示出),用于若确定不存在符合分裂条件的唯一的分裂点,则利用所述分裂点预测模型对该类型的分量进行二次预测,确定该类型的分量对应的所述分裂点。
可选的,所述分析判断单元,还用于:
针对每一所述样本数据集合,根据该样本数据集合对应的所述簇心在所述三维空间中的分布,确定第一目标簇心和第二目标簇心,其中,所述第一目标簇心和所述第二目标簇心是簇心坐标的斜率变化最大处对应的两个相邻的簇心;
获取第一分量值和第二分量值,其中,所述第一分量值为所述第一目标簇心所在的样本数据集合中包含的该类型的分量的最大值,所述第二分量值为所述第二目标簇心所在的样本数据集合中包含的该类型的分量的最小值;
判断所述第一分量值是否小于或者等于所述第二分量值;
若所述第一分量值小于或者等于所述第二分量值,则确定存在符合分裂条件的唯一的分裂点。
可选的,所述第二预测单元,还用于:
针对该类型的分量对应的每一所述初始分裂点,将该初始分裂点作为所述分裂点预测模型的输入参数,输入到所述分裂点预测模型,得到该初始分裂点对应的信息增益;
通过比较各所述初始分裂点对应的所述信息增益,将所述信息增益的最大值对应的初始分裂点作为该类型的分量对应的所述分裂点。
实施例三
如图8所示,本申请一实施例提供了一种计算机设备800,用于执行本申请中的用户分层的方法,该设备包括存储器801、处理器802及存储在该存储器801上并可在该处理器802上运行的计算机程序,其中,上述处理器802执行上述计算机程序时实现上述用户分层的方法的步骤。
具体地,上述存储器801和处理器802可以为通用的存储器和处理器,这里不做具体限定,当处理器802运行存储器801存储的计算机程序时,能够执行上述用户分层的方法。
对应于本申请中的用户分层的方法,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述用户分层的方法的步骤。
具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述用户分层的方法。
在本申请所提供的实施例中,应该理解到,所揭露系统和方法,可以通过其它的方式实现。以上所描述的系统实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,系统或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

Claims (11)

1.一种用户分层的方法,其特征在于,所述方法包括:
针对每一用户,按照服务提供方所属的业务类型映射的统计周期,获取该用户在所述业务类型下的所述统计周期内的目标行为的数据;
根据所述目标行为的数据,得到该用户的第一特征数据、第二特征数据以及第三特征数据,其中,所述第一特征数据是该用户最后一次做出所述目标行为的时间,所述第二特征数据是该用户在所述统计周期内做出所述目标行为的次数,所述第三特征数据是该用户在所述统计周期内使用的总虚拟资源;
根据每一所述用户对应的所述第一特征数据、所述第二特征数据以及所述第三特征数据,确定各所述用户中特征相同的特征数据对应的分裂点,其中,所述分裂点用于针对每一种特征数据,将所有的所述用户划分为两组;
基于确定的各所述分裂点,对所有的所述用户进行分层,得到每一层级对应的用户名单。
2.根据权利要求1所述的方法,其特征在于,所述根据每一所述用户对应的所述第一特征数据、所述第二特征数据以及所述第三特征数据,确定各所述用户中特征相同的特征数据对应的分裂点,包括:
针对每一所述用户,分别对该用户的所述第一特征数据、所述第二特征数据以及所述第三特征数据进行归一化处理,将各归一化处理的结果作为该用户对应的样本数据,其中,所述样本数据包括:所述第一特征数据对应的第一类型的分量、所述第二特征数据对应的第二类型的分量以及所述第三特征数据对应的第三类型的分量;
对所有的所述样本数据进行聚类处理,得到所有的所述样本数据对应的初始分类结果;
利用所述初始分类结果,确定各所述样本数据中类型相同的分量对应的分裂点。
3.根据权利要求2所述的方法,其特征在于,所述分别对该用户的所述第一特征数据、所述第二特征数据以及所述第三特征数据进行归一化处理,将各归一化处理的结果作为该用户对应的样本数据,包括:
利用各所述第一特征数据中的最大值和最小值,对该用户对应的所述第一特征数据进行归一化处理,将归一化处理的结果作为该用户对应的所述第一类型的分量;
利用各所述第二特征数据中的最大值和最小值,对该用户对应的所述第二特征数据进行归一化处理,将归一化处理的结果作为该用户对应的所述第二类型的分量;
利用各所述第三特征数据中的最大值和最小值,对该用户对应的所述第三特征数据进行归一化处理,将归一化处理的结果作为该用户对应的所述第三类型的分量。
4.根据权利要求2所述的方法,其特征在于,所述对所有的所述样本数据进行聚类处理,得到所有的所述样本数据对应的初始分类结果,包括:
对所有的所述样本数据进行密度聚类,以确定所有的所述样本数据对应的密度聚类簇数;
判断所述密度聚类簇数是否符合预先设置的聚类规则,根据判断结果,确定所有的所述样本数据对应的目标聚类簇数;
按照所述目标聚类簇数,对所有的所述样本数据进行均值聚类,得到各簇对应的样本数据集合;
将各簇对应的所述样本数据集合以及该样本数据集合对应的簇心,作为所述初始分类结果,其中,所述簇心为所述样本数据集合对应的三维空间内的中心点坐标,所述三维空间是指所述第一类型的分量、所述第二类型的分量以及所述第三类型的分量构成的三维坐标空间。
5.根据权利要求4所述的方法,其特征在于,所述判断所述密度聚类簇数是否符合预先设置的聚类规则,根据判断结果,确定所有的所述样本数据对应的目标聚类簇数,包括:
计算所述密度聚类簇数与预先存储的聚类簇数的差值;
依据预先设置的聚类阈值,判断所述差值的绝对值是否小于所述聚类阈值;
若所述差值的绝对值小于所述聚类阈值,则将所述密度聚类簇数作为所述目标聚类簇数;
若所述差值的绝对值大于或者等于所述聚类阈值,则将所述聚类簇数作为所述目标聚类簇数。
6.根据权利要求4所述的方法,其特征在于,所述利用所述初始分类结果,确定各所述样本数据中类型相同的分量对应的分裂点,包括:
将所述初始分类结果输入分裂点预测模型,得到各所述样本数据中类型相同的分量对应的初始分裂点;
针对同一类型的分量,若该类型的分量对应的所述初始分裂点的个数不唯一,则根据各所述样本数据集合在所述三维空间中的数据分布,来确定是否存在符合分裂条件的唯一的分裂点;
若确定不存在符合分裂条件的唯一的分裂点,则利用所述分裂点预测模型对该类型的分量进行二次预测,确定该类型的分量对应的所述分裂点。
7.根据权利要求6所述的方法,其特征在于,所述根据各所述样本数据集合在所述三维空间中的数据分布,来确定是否存在符合分裂条件的唯一的分裂点,包括:
针对每一所述样本数据集合,根据该样本数据集合对应的所述簇心在所述三维空间中的分布,确定第一目标簇心和第二目标簇心,其中,所述第一目标簇心和所述第二目标簇心是簇心坐标的斜率变化最大处对应的两个相邻的簇心;
获取第一分量值和第二分量值,其中,所述第一分量值为所述第一目标簇心所在的样本数据集合中包含的该类型的分量的最大值,所述第二分量值为所述第二目标簇心所在的样本数据集合中包含的该类型的分量的最小值;
判断所述第一分量值是否小于或者等于所述第二分量值;
若所述第一分量值小于或者等于所述第二分量值,则确定存在符合分裂条件的唯一的分裂点。
8.根据权利要求6所述的方法,其特征在于,所述利用所述分裂点预测模型对该类型的分量进行二次预测,确定该类型的分量对应的所述分裂点,包括:
针对该类型的分量对应的每一所述初始分裂点,将该初始分裂点作为所述分裂点预测模型的输入参数,输入到所述分裂点预测模型,得到该初始分裂点对应的信息增益;
通过比较各所述初始分裂点对应的所述信息增益,将所述信息增益的最大值对应的初始分裂点作为该类型的分量对应的所述分裂点。
9.一种用户分层的装置,其特征在于,所述装置包括:
获取模块,用于针对每一用户,按照服务提供方所属的业务类型映射的统计周期,获取该用户在所述业务类型下的所述统计周期内的目标行为的数据;
统计模块,用于根据所述目标行为的数据,得到该用户的第一特征数据、第二特征数据以及第三特征数据,其中,所述第一特征数据是该用户最后一次做出所述目标行为的时间,所述第二特征数据是该用户在所述统计周期内做出所述目标行为的次数,所述第三特征数据是该用户在所述统计周期内使用的总虚拟资源;
处理模块,用于根据每一所述用户对应的所述第一特征数据、所述第二特征数据以及所述第三特征数据,确定各所述用户中特征相同的特征数据对应的分裂点,其中,所述分裂点用于针对每一种特征数据,将所有的所述用户划分为两组;
分层模块,用于基于确定的各所述分裂点,对所有的所述用户进行分层,得到每一层级对应的用户名单。
10.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至8任一所述的用户分层的方法的步骤。
11.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至8任一所述的用户分层的方法的步骤。
CN202010952793.2A 2020-09-11 2020-09-11 一种用户分层的方法、装置、设备及存储介质 Active CN112070548B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010952793.2A CN112070548B (zh) 2020-09-11 2020-09-11 一种用户分层的方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010952793.2A CN112070548B (zh) 2020-09-11 2020-09-11 一种用户分层的方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN112070548A true CN112070548A (zh) 2020-12-11
CN112070548B CN112070548B (zh) 2024-02-20

Family

ID=73695385

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010952793.2A Active CN112070548B (zh) 2020-09-11 2020-09-11 一种用户分层的方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112070548B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113082725A (zh) * 2021-03-08 2021-07-09 杭州电魂网络科技股份有限公司 游戏用户分群方法、装置、电子设备和存储介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105139225A (zh) * 2015-08-17 2015-12-09 北京京东世纪贸易有限公司 一种确定用户行为能力等级的方法和装置
CN106022800A (zh) * 2016-05-16 2016-10-12 北京百分点信息科技有限公司 一种用户特征数据的处理方法和装置
US20170116316A1 (en) * 2015-10-26 2017-04-27 Xerox Corporation Latent student clustering using a hierarchical block clustering method
CN107992883A (zh) * 2017-11-22 2018-05-04 福建省计量科学研究院 一种基于crfm模型的计量行业客户细分方法
CN108230029A (zh) * 2017-12-29 2018-06-29 西南大学 客户交易行为分析方法
CN108765052A (zh) * 2018-04-20 2018-11-06 网易无尾熊(杭州)科技有限公司 电商推荐/推送方法及装置、存储介质及计算设备
CN109214468A (zh) * 2018-10-18 2019-01-15 浙江工业大学 一种基于可拓距优化聚类中心的数据聚类方法
CN110361744A (zh) * 2019-07-09 2019-10-22 哈尔滨工程大学 基于密度聚类的rbmcda水下多目标跟踪方法
CN110443300A (zh) * 2019-08-01 2019-11-12 北京知呱呱科技服务有限公司 一种聚类算法中簇数量确定方法、系统、设备及存储介质
CN110489175A (zh) * 2019-08-23 2019-11-22 腾讯科技(深圳)有限公司 服务处理方法、装置、服务器及存储介质
CN111091282A (zh) * 2019-12-10 2020-05-01 焦点科技股份有限公司 一种基于用户行为数据的客户忠诚度细分方法
CN111127105A (zh) * 2019-12-25 2020-05-08 青梧桐有限责任公司 用户分层模型构建方法及系统、运营分析方法及系统

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105139225A (zh) * 2015-08-17 2015-12-09 北京京东世纪贸易有限公司 一种确定用户行为能力等级的方法和装置
US20170116316A1 (en) * 2015-10-26 2017-04-27 Xerox Corporation Latent student clustering using a hierarchical block clustering method
CN106022800A (zh) * 2016-05-16 2016-10-12 北京百分点信息科技有限公司 一种用户特征数据的处理方法和装置
CN107992883A (zh) * 2017-11-22 2018-05-04 福建省计量科学研究院 一种基于crfm模型的计量行业客户细分方法
CN108230029A (zh) * 2017-12-29 2018-06-29 西南大学 客户交易行为分析方法
CN108765052A (zh) * 2018-04-20 2018-11-06 网易无尾熊(杭州)科技有限公司 电商推荐/推送方法及装置、存储介质及计算设备
CN109214468A (zh) * 2018-10-18 2019-01-15 浙江工业大学 一种基于可拓距优化聚类中心的数据聚类方法
CN110361744A (zh) * 2019-07-09 2019-10-22 哈尔滨工程大学 基于密度聚类的rbmcda水下多目标跟踪方法
CN110443300A (zh) * 2019-08-01 2019-11-12 北京知呱呱科技服务有限公司 一种聚类算法中簇数量确定方法、系统、设备及存储介质
CN110489175A (zh) * 2019-08-23 2019-11-22 腾讯科技(深圳)有限公司 服务处理方法、装置、服务器及存储介质
CN111091282A (zh) * 2019-12-10 2020-05-01 焦点科技股份有限公司 一种基于用户行为数据的客户忠诚度细分方法
CN111127105A (zh) * 2019-12-25 2020-05-08 青梧桐有限责任公司 用户分层模型构建方法及系统、运营分析方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
余小兵;熊涛;郁荣涛;: "基于Web的分层聚类与可视化系统的设计与实现", 中国新通信, no. 02 *
黄亚萍;李垣江;: "基于K-means算法的电子商务客户细分研究", 电子设计工程, no. 02 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113082725A (zh) * 2021-03-08 2021-07-09 杭州电魂网络科技股份有限公司 游戏用户分群方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN112070548B (zh) 2024-02-20

Similar Documents

Publication Publication Date Title
Kingrani et al. Estimating the number of clusters using diversity
CN106294508B (zh) 一种刷量工具检测方法及装置
CN112132384A (zh) 工作效率评估方法、装置、存储介质及计算机设备
CN110866249A (zh) 一种动态检测恶意代码的方法、装置及电子设备
CN112307297A (zh) 一种基于优先级规则的用户标识统一方法及系统
CN112070548B (zh) 一种用户分层的方法、装置、设备及存储介质
CN109271460B (zh) 对电子平台中的商户进行分类的方法和装置
CN105528669B (zh) 用于电力系统的负荷预测系统
CN112446660A (zh) 网点聚类方法、装置、服务器及存储介质
CN114037514A (zh) 用户群欺诈风险的检测方法、装置、设备及存储介质
CN109784634A (zh) 服务区域划分方法、电子装置及可读存储介质
CN107291860B (zh) 种子用户确定方法
CN112348356A (zh) 一种作品质量确定方法、装置、计算机设备及可读存储介质
US11475322B2 (en) Methods of explaining an individual predictions made by predictive processes and/or predictive models
CN114238433B (zh) 一种基于大数据的人口监测方法、系统和存储介质
CN114511409B (zh) 用户样本处理方法、装置及电子设备
CN111582679B (zh) 应用服务分区的处理方法、装置、设备及存储介质
CN113434770A (zh) 电子商务与大数据结合的业务画像分析方法及系统
KR102136222B1 (ko) 그래프 데이터 클러스터링 시스템 및 방법과, 이를 위한 컴퓨터 프로그램
CN108109002B (zh) 数据处理方法及装置
CN113448872B (zh) 一种测试的执行方法、装置、设备及存储介质
CN110264333A (zh) 一种风险规则确定方法和装置
CN111581485B (zh) 一种信息分配方法及装置
CN118505788B (zh) 一种建设项目占用现状地类面积的确定方法及装置
CN115757273B (zh) 基于云平台的养老政策资料管理方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20240103

Address after: 200,030 Unit 5B03, Floor 5, Building 2, No. 277, Longlan Road, Xuhui District, Shanghai

Applicant after: SHANGHAI SECOND PICKET NETWORK TECHNOLOGY CO.,LTD.

Address before: Floors 4, 5 and 6, No. 3, Lane 1473, Zhenguang Road, Putuo District, Shanghai, 200333

Applicant before: Shanghai Fengzhi Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant