CN109977982A - 用户分类方法、系统、电子设备及计算机可读介质 - Google Patents

用户分类方法、系统、电子设备及计算机可读介质 Download PDF

Info

Publication number
CN109977982A
CN109977982A CN201711470886.6A CN201711470886A CN109977982A CN 109977982 A CN109977982 A CN 109977982A CN 201711470886 A CN201711470886 A CN 201711470886A CN 109977982 A CN109977982 A CN 109977982A
Authority
CN
China
Prior art keywords
user
cluster
commodity
module
self
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711470886.6A
Other languages
English (en)
Inventor
白文庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201711470886.6A priority Critical patent/CN109977982A/zh
Publication of CN109977982A publication Critical patent/CN109977982A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Theoretical Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Marketing (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种用户分类方法,包括:获取待分类的用户数据,所述用户数据包括多个用户中每个用户的多个特征;对所述多个用户进行自适应聚类,得到每个聚类的中心点的初始值和聚类数目;以及根据所述每个聚类的中心点的初始值和所述聚类数目,对所述多个用户进行迭代聚类,将所述多个用户分为多个用户类。

Description

用户分类方法、系统、电子设备及计算机可读介质
技术领域
本公开涉及大数据处理技术领域,更具体地,涉及一种用户分类方法、系统、电子设备及计算机可读介质。
背景技术
随着大数据技术的深入研究与应用,企业的专注点日益聚焦于怎样利用大数据来为精准营销服务,进而深入挖掘潜在的商业价值。用户数据作为大数据的根基,它完美地抽象出一个用户的信息全貌,为进一步精准、快速地分析用户行为习惯、消费习惯等重要信息,提供了足够的数据基础,奠定了大数据时代的基石。用户数据,即用户信息标签化,就是企业通过收集与分析消费者社会属性、生活习惯、消费行为等主要信息的数据之后,完美地抽象出一个用户的商业全貌作是企业应用大数据技术的基本方式。用户数据为企业提供了足够的信息基础,能够帮助企业快速找到精准用户群体以及用户需求等更为广泛的反馈信息。
然而,各个电商目前针对三级品类偏爱度的标签,一般采用KMeans算法对用户数据迭代聚类。但是在实现本发明构思的过程中,发明人发现现有技术中至少存在如下问题:采用KMeans算法对用户数据迭代聚类的结果准确度不高,在执行该算法之前需要人工设定聚类中心点,因此容易陷入局部最优的聚类结果,误差较大,导致在超级品类日活动时,无法根据商品的三级分类精准营销,优惠券等也无法精准发放,只能放到优惠券集市让用户自己去领取,但优惠券数量又有限。
发明内容
有鉴于此,本公开提供了一种用户分类方法、系统、电子设备及计算机可读介质。
本公开的一个方面提供了一种用户分类方法,包括:获取待分类的用户数据,所述用户数据包括多个用户中每个用户的多个特征;对所述多个用户进行自适应聚类,得到每个聚类的中心点的初始值和聚类数目;以及根据所述每个聚类的中心点的初始值和所述聚类数目,对所述多个用户进行迭代聚类,将所述多个用户分为多个用户类。
根据本公开的实施例,所述多个用户是特定时间段内购买过相同商品品类的多个用户。
根据本公开的实施例,所述多个特征包括所述用户在特定时间段内的以下任意一个或多个特征:购物次数、购物金额、使用优惠券金额占订单总金额的比重、浏览购物界面的总时长、登录购物界面的次数、最近一次下单距离当前时间的时长、购买商品的总数量、购买商品的品类总数量、加入购物车的商品数量、浏览的商品总数量、和浏览商品的品类总数量。
根据本公开的实施例,所述方法还包括:获取用户数据集合;对所述用户数据集合中的用户数据,按照相应用户购买的商品品类进行分类得到一个或多个用户数据子集;以及将至少一个用户数据子集作为所述待分类的用户数据,执行所述自适应聚类和所述迭代聚类。
根据本公开的实施例,自适应聚类包括通过自组织映射算法进行自适应聚类;并且/或者迭代聚类包括通过KMeans算法进行迭代聚类。
根据本公开的实施例,所述购买行为数据包括在该一次购买行为中购买的所述特定种类物品所包含的所述N个决策指标数据。
根据本公开的实施例,所述方法还包括:根据迭代聚类得到的每个用户类的类别内误差以及所有类的类别内误差计算验证参数;以及在所述验证参数不符合预定条件的情况下,修改以下的任意一项或多项:用户特征的选择、自适应聚类的聚类参数、和迭代聚类的聚类参数。
本公开的另一个方面提供了一种用户分类系统,包括:第一获取模块,用于获取待分类的用户数据,所述用户数据包括多个用户中每个用户的多个特征;第一聚类模块,用于对所述多个用户进行自适应聚类,得到每个聚类的中心点的初始值和聚类数目;以及第二聚类模块,用于根据所述每个聚类的中心点的初始值和所述聚类数目,对所述多个用户进行迭代聚类,将所述多个用户分为多个用户类。
根据本公开的实施例,所述多个用户是特定时间段内购买过相同商品品类的多个用户。
根据本公开的实施例,所述多个特征包括所述用户在特定时间段内的以下任意一个或多个特征:购物次数、购物金额、使用优惠券金额占订单总金额的比重、浏览购物界面的总时长、登录购物界面的次数、最近一次下单距离当前时间的时长、购买商品的总数量、购买商品的品类总数量、加入购物车的商品数量、浏览的商品总数量、和浏览商品的品类总数量。
根据本公开的实施例,所述系统还包括:第二获取模块,用于获取用户数据集合;分类模块,用于对所述用户数据集合中的用户数据,按照相应用户购买的商品品类进行分类得到一个或多个用户数据子集;以及执行模块,用于将至少一个用户数据子集作为所述待分类的用户数据,执行所述自适应聚类和所述迭代聚类。
根据本公开的实施例,自适应聚类包括通过自组织映射算法进行自适应聚类;并且/或者迭代聚类包括通过KMeans算法进行迭代聚类。
根据本公开的实施例,所述购买行为数据包括在该一次购买行为中购买的所述特定种类物品所包含的所述N个决策指标数据。
根据本公开的实施例,所述系统还包括:验证模块,用于根据迭代聚类得到的每个用户类的类别内误差以及所有类的类别内误差计算验证参数;以及修改模块,用于在所述验证参数不符合预定条件的情况下,修改以下的任意一项或多项:用户特征的选择、自适应聚类的聚类参数、和迭代聚类的聚类参数。
本公开实施例的另一方面提供一种电子设备,包括:一个或多个处理器;以及一个或多个存储器,存储有可执行指令,所述指令在被处理器执行时,使得处理器执行时用于实现如上所述的方法。
本公开的另一方面提供了一种计算机可读介质,存储有计算机可执行指令,所述指令在被执行时用于实现如上所述的方法。
本公开的另一方面提供了一种计算机程序,所述计算机程序包括计算机可执行指令,所述指令在被执行时用于实现如上所述的方法。
根据本公开的实施例,可以至少部分地解决了现有技术中的没有针对三级品类偏爱度的标签的问题,并因此可以实现将多个用户分为多个用户类的技术效果。
附图说明
通过以下参照附图对本公开实施例的描述,本公开的上述以及其他目的、特征和优点将更为清楚,在附图中:
图1示意性示出了根据本公开实施例的用户分类方法和系统的应用场景;
图2示意性示出了根据本公开实施例的用户分类方法的流程图;
图3示意性示出了根据本公开另一实施例的用户分类方法的流程图;
图4示意性示出了根据本公开另一实施例的用户分类方法的流程图;
图5示意性示出了根据本公开实施例的用户分类系统的方框图;
图6示意性示出了根据本公开另一实施例的用户分类系统的方框图;
图7示意性示出了根据本公开另一实施例的用户分类系统的方框图;以及
图8示意性示出了根据本公开实施例的可以应用用户分类方法的示例性系统架构。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“使、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“系、B或C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。本领域技术人员还应理解,实质上任意表示两个或更多可选项目的转折连词和/或短语,无论是在说明书、权利要求书还是附图中,都应被理解为给出了包括这些项目之一、这些项目任一方、或两个项目的可能性。例如,短语“A或B”应当被理解为包括“A”或“B”、或“A和B”的可能性。
本公开的实施例提供了一种用户分类方法以及系统。该方法包括获取待分类的用户数据,所述用户数据包括多个用户中每个用户的多个特征;对所述多个用户进行自适应聚类,得到每个聚类的中心点的初始值和聚类数目;以及根据所述每个聚类的中心点的初始值和所述聚类数目,对所述多个用户进行迭代聚类,将所述多个用户分为多个用户类。
图1示意性示出了根据本公开实施例的可以应用用户分类方法和系统的示例性系统架构100。需要注意的是,图1所示仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。
如图1所示,根据该实施例的系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理,并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。
在一些实施例中,服务器105通过获取待分类的用户数据,对多个用户进行自适应聚类,得到每个聚类的中心点的初始值和聚类数目,然后根据所述每个聚类的中心点的初始值和所述聚类数目,对多个用户进行迭代聚类,将多个用户分为多个用户类,这样服务器在特定的时间段(例如,用户类中的多个用户购买过的商品的活动日)可以向该用户类的多个用户的终端设备101、102、103发送特定信息。例如,特定信息可以包括优惠券、打折、满减等等。
需要说明的是,本公开实施例所提供的用户分类方法一般可以由服务器105执行。相应地,本公开实施例所提供的用户分类系统一般可以设置于服务器105中。本公开实施例所提供的用户分类方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的用户分类系统也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
图2示意性示出了根据本公开实施例的用户分类方法的流程图。
如图2所示,该验证方法包括操作S201~操作S203。
在操作S201,获取待分类的用户数据,所述用户数据包括多个用户中每个用户的多个特征。
根据本公开的实施例,上述多个用户可以是特定时间段内购买过相同商品品类的多个用户。例如,在2017年11月11日至2017年12月12日这个特定时间段,用户A、B、C、D都购买过手机,分别为:用户A购买了华为手机,用户B购买了苹果手机,用户C购买了小米手机,用户D购买了vivo手机。
根据本公开的实施例,上述多个特征包括用户在特定时间段内的以下任意一个或多个特征:购物次数、购物金额、使用优惠券金额占订单总金额的比重、浏览购物界面的总时长、登录购物界面的次数、最近一次下单距离当前时间的时长、购买商品的总数量、购买商品的品类总数量、加入购物车的商品数量、浏览的商品总数量、和浏览商品的品类总数量。
例如,在2017年11月11日至2017年12月12日这个特定时间段,用户A购买了一次华为手机,华为手机的购物金额为3000元,用户A使用优惠券金额占订单总金额的比重的5%,在用户A购买华为手机之前,用户的浏览购物界面的总时长为5个小时,登录该购物界面的次数为10次,用户A在特定时间段内下单的时间距离当前时间的时长为7天,用户A购买华为手机的总数量为1,用户A购买手机的品类总数量为1,用户A加入购物车的华为手机数量为10个,用户A浏览的华为手机的总数量为30个,用户A浏览商品的品类总数量为100个。
在操作S202,对多个用户进行自适应聚类,得到每个聚类的中心点的初始值和聚类数目。
下面通过表1对操作S202进行详细的描述,表1中的数据为待分类的用户数据,例如,用户A、B、C、D都购买过手机品类下的手机,具体如表1所示。
根据本公开的实施例,自适应聚类包括通过自组织映射算法进行自适应聚类。自组织映射算法是一个无监督的学习模式,它能够将数据从高维空间映射到低维空间,通过降维寻找多维数据的主要统计特征,并根据数据间的相似性自动将数据分成不同的类别,从而达到增强客户有效信息,降低噪声的影响。
例如,获取100个用户数据,其中在100个用户的数据中有20个用户的数据与用户A的数据相似,即20个用户都购买过华为手机,所述20个用户的数据与用户A的数据中的购买次数相同或相近。在100个用户数据中有30个用户的数据与用户B的数据相似,即30个用户都购买过苹果手机,所述30个用户的数据与用户B的数据中的使用优惠券金额占订单总金额的比重相同或相近。在100个用户数据中有25个用户的数据与用户C的数据相似,即25个用户都购买过小米手机,所述25个用户的数据与用户C的数据中的购买商品的总数量相同或相近。在100个用户的数据中有25个用户的数据与用户D的数据相似,即25个用户都购买过vivo手机,所述25个用户的数据与用户D的数据中的加入购物车的商品数量相同或相近。这种情况下,利用自组织映射算法对100个用户的数据进行处理,得到聚类的中心点的初始值和4个聚类类目,分别是购买一次华为手机的用户、购买苹果手机时使用优惠券金额占订单总金额的比重的7%的用户、购买小米手机的总数达到2台的用户、和加入购物车的vivo手机的数量为10的用户,需要说明的是与上述4个聚类中心点相近的也将被聚类到对其对应的中心点。具体地,通过下面公式求出聚类的中心点的初始值和聚类类目:
其中,XK为自组织映射算法中输入层的输入节点,Wj为自组织映射算法中输出层的输出节点,Wg为输入层的输入节点到输出节点的最小向量,其中K为输入节点的个数,具体与用户数相同,输出节点的个数为1~P,具体与用户数据包含的特征数量相同。例如,获取100个用户数据,输入节点的数量为100,100个用户数据中不同特征数量为11,输出节点的数量为11。
例如,可以根据每个用户的数据,通过上述公式计算出每个用户的数据与多个输出节点Wj的连接向量,其中将与输出节点连接的最小向量Wg的用户数据聚类在该用户特征下的输出节点。例如,表1中用户A的数据与以购买次数为输出节点的连接向量最小,那么就将用户A聚类到该输出节点,循环计算其他用户数据到该输出节点的连接向量,最后的计算结果为100个用户的数据中存在30用户的数据可以聚类在该输出节点,即该输出节点为聚类的中心点。上述其他三个聚类中心点与以购买次数为聚类中心点的计算方法相同,在此不再赘述。
在一些实施例中,上述100个用户的数据从自组织映射算法中输入层的输入节点输入,通过上述公式计算出每个用户的数据与多个输出节点Wj的连接向量,其中将与输出节点连接的最小向量的用户数据聚类在该用户特征下的输出节点,例如该用户特征可以是购买金额,即将100个用户中的每个用户的购买金额相同或相似的用户作为一个聚类中心点。当然,该用户特征也可以是表1中的其他用户特征。在这种情况下,100个用户的数据须都是针对相同品类的商品。例如,100个用户都购买过手机等等。
在操作S203,根据每个聚类的中心点的初始值和聚类数目,对多个用户进行迭代聚类,将多个用户分为多个用户类。
根据本公开的实施例,利用上述100个用户的数据作为KMeans算法的输入数据,并且将经过自组织映射算法所得的聚类的中心点的初始值和聚类数目也作为输入数据,迭代计算每个用户数据与上述的4个聚类中心点的距离,将每个用户数据归到距离最短的聚类中心所在的类。在迭代计算的过程中,利用均值等方法更新该聚类中心点的初始值。
应当注意的是,对于上述4个聚类中心点,当利用均值等方法更新4个聚类中心点的中心值保持不变时,则迭代结束,否则迭代继续。迭代结束后输出通过KMeans算法计算所得的多个用户类。
根据本公开的实施例,通过自组织映射算法对待分类的用户数据进行自适应聚类,得到每个聚类的中心点的初始值和聚类数目,然后将得到的每个聚类的中心点的初始值和聚类数目输入到KMeans算法中,KMeans算法可以根据所述每个聚类的中心点的初始值和聚类数目,对多个用户进行迭代聚类,将多个用户分为多个用户类。以此方式对待分类的用户数据进行聚类,无需提前设定聚类中心点的初始值,因此解决了现有技术中通过KMeans算法直接对待分类的用户数据进行聚类所带来的缺陷。例如,需要提前设置的聚类中心点的初始值,这样会影响聚类的结果,从而导致聚类结果的准确性降低,这样的聚类方法还容易陷入局部最优。
图3示意性示出了根据本公开另一实施例的用户分类方法的流程图。
如图3所示,该用户分类方法除了图2实施例描述的操作S201~操作S203外,该方法还包括操作S301~操作S303。
在操作S301,获取用户数据集合。
在操作S302,对所述用户数据集合中的用户数据,按照相应用户购买的商品品类进行分类得到一个或多个用户数据子集。
在操作S303,将至少一个用户数据子集作为所述待分类的用户数据,执行所述自适应聚类和所述迭代聚类。
根据本公开的实施例,例如用户数据集合可以包括100个用户的数据,按照100个用户中相应用户购买的商品品类进行分类,可以得到一个或多个用户数据子集(例如,20个用户购买了服装、30个用户购买了生鲜、50个用户购买了手机)。这样对用户数据集合进行分类,方便后续对每个类再进行聚类,并且使得聚类的结果准确性更高。
图4意性示出了根据本公开另一实施例的用户分类方法的流程图。
如图4所示,该用户分类方法除了图2实施例描述的操作S201~操作S203外,该方法还包括操作S401和操作S402。
在操作S401,根据迭代聚类得到的每个用户类的类别内误差以及所有类的类别内误差计算验证参数。
根据本公开的实施例,验证参数可以通过计算每个用户类中每两个用户之间的距离和每两个用户类之间的距离之和,然后求两者和的比,即为验证参数,根据该验证参数可以获知计算所得的用户类的准确度。例如,如果验证参数较大,说明计算所得的用户类的准确度不高,需要排除误差。如果验证参数较小,说明计算所得的用户类的准确度高,可以直接使用,例如,在商品活动时,可以根据该商品与用户类之间的关系,下发优惠信息。
在操作S402,在验证参数不符合预定条件的情况下,修改以下的任意一项或多项:用户特征的选择、自适应聚类的聚类参数、和迭代聚类的聚类参数。
根据本公开的实施例,通过修改用户特征的选择、自适应聚类的聚类参数、和/或迭代聚类的聚类参数,可以提高聚类结果的准确度。
图5示意性示出了根据本公开实施例的用户分类系统的方框图。
如图5所示,系统500包括第一获取模块510、第一聚类模块520、以及第二聚类模块530。
第一获取模块510,用于获取待分类的用户数据,所述用户数据包括多个用户中每个用户的多个特征。
第一聚类模块520,用于对多个用户进行自适应聚类,得到每个聚类的中心点的初始值和聚类数目。
第二聚类模块530,用于根据所述每个聚类的中心点的初始值和所述聚类数目,对多个用户进行迭代聚类,将多个用户分为多个用户类。
根据本公开的实施例,系统500可以用于实现参考图2描述的方法流程。
图6示意性示出了根据本公开另一实施例的用户分类系统的方框图。
如图6所示,系统600除第一获取模块510、第一聚类模块520、以及第二聚类模块530之外,还包括第二获取模块610、分类模块620、以及执行模块630。
第二获取模块610,用于获取用户数据集合。
分类模块620,用于对用户数据集合中的用户数据,按照相应用户购买的商品品类进行分类得到一个或多个用户数据子集。
执行模块630,用于将至少一个用户数据子集作为待分类的用户数据,执行自适应聚类和迭代聚类。
根据本公开的实施例,系统600可以用于实现参考图3描述的方法流程。
图7示意性示出了根据本公开另一实施例的用户分类系统的方框图。
如图7所示,系统700除第一获取模块510、第一聚类模块520、以及第二聚类模块530之外,还包括验证模块710和修改模块720。
验证模块710,用于根据迭代聚类得到的每个用户类的类别内误差以及所有类的类别内误差计算验证参数;以及
修改模块720,用于在验证参数不符合预定条件的情况下,修改以下的任意一项或多项:用户特征的选择、自适应聚类的聚类参数、和迭代聚类的聚类参数。
可以理解的是,第一获取模块510、第一聚类模块520、第二聚类模块530、第二获取模块610、分类模块620、执行模块630、验证模块710、以及修改模块720可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本发明的实施例,第一获取模块510、第一聚类模块520、第二聚类模块530、第二获取模块610、分类模块620、执行模块630、验证模块710、以及修改模块720中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以以对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式的适当组合来实现。或者,第一获取模块510、第一聚类模块520、第二聚类模块530、第二获取模块610、分类模块620、执行模块630、验证模块710、以及修改模块720中的至少一个可以至少被部分地实现为计算机程序模块,当该程序被计算机运行时,可以执行相应模块的功能。
图8示意性示出了根据本公开实施例的可以应用用户分类方法的示例性系统架构。图8示出的计算机系统仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图8所示,根据本公开实施例的计算机系统800包括处理器801,其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。处理器801例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC)),等等。处理器801还可以包括用于缓存用途的板载存储器。处理器801可以包括用于执行参考图2~图4描述的根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
在RAM 803中,存储有系统800操作所需的各种程序和数据。处理器801、ROM 802以及RAM 803通过总线804彼此相连。处理器801通过执行ROM 802和/或RAM 803中的程序来执行以上参考图2~图4描述的用户分类方法的各种操作。需要注意,所述程序也可以存储在除ROM 802和RAM 803以外的一个或多个存储器中。处理器801也可以通过执行存储在所述一个或多个存储器中的程序来执行以上参考图2~图5描述的用户分类方法的各种操作。
根据本公开的实施例,系统800还可以包括输入/输出(I/O)接口805,输入/输出(I/O)接口805也连接至总线804。系统800还可以包括连接至I/O接口805的以下部件中的一项或多项:包括键盘、鼠标等的输入部分806;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807;包括硬盘等的存储部分808;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入存储部分808。
根据本公开的实施例,上文参考流程图描述的方法可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分809从网络上被下载和安装,和/或从可拆卸介质811被安装。在该计算机程序被处理器801执行时,执行本公开实施例的系统中限定的上述功能。根据本公开的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
需要说明的是,本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。根据本公开的实施例,计算机可读介质可以包括上文描述的ROM 802和/或RAM 803和/或ROM 802和RAM 803以外的一个或多个存储器。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
作为另一方面,本公开还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备执行:获取待分类的用户数据,所述用户数据包括多个用户中每个用户的多个特征;对多个用户进行自适应聚类,得到每个聚类的中心点的初始值和聚类数目;以及根据每个聚类的中心点的初始值和所述聚类数目,对多个用户进行迭代聚类,将多个用户分为多个用户类。
以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。

Claims (14)

1.一种用户分类方法,包括:
获取待分类的用户数据,所述用户数据包括多个用户中每个用户的多个特征;
对所述多个用户进行自适应聚类,得到每个聚类的中心点的初始值和聚类数目;以及
根据所述每个聚类的中心点的初始值和所述聚类数目,对所述多个用户进行迭代聚类,将所述多个用户分为多个用户类。
2.根据权利要求1所述的方法,其中,所述多个用户是特定时间段内购买过相同商品品类的多个用户。
3.根据权利要求1所述的方法,其中,所述多个特征包括所述用户在特定时间段内的以下任意一个或多个特征:购物次数、购物金额、使用优惠券金额占订单总金额的比重、浏览购物界面的总时长、登录购物界面的次数、最近一次下单距离当前时间的时长、购买商品的总数量、购买商品的品类总数量、加入购物车的商品数量、浏览的商品总数量、和浏览商品的品类总数量。
4.根据权利要求1所述的方法,还包括:
获取用户数据集合;
对所述用户数据集合中的用户数据,按照相应用户购买的商品品类进行分类得到一个或多个用户数据子集;以及
将至少一个用户数据子集作为所述待分类的用户数据,执行所述自适应聚类和所述迭代聚类。
5.根据权利要求1所述的方法,其中:
自适应聚类包括通过自组织映射算法进行自适应聚类;并且/或者
迭代聚类包括通过KMeans算法进行迭代聚类。
6.根据权利要求1所述的方法,还包括:
根据迭代聚类得到的每个用户类的类别内误差以及所有类的类别内误差计算验证参数;以及
在所述验证参数不符合预定条件的情况下,修改以下的任意一项或多项:用户特征的选择、自适应聚类的聚类参数、和迭代聚类的聚类参数。
7.一种用户分类系统,包括:
第一获取模块,用于获取待分类的用户数据,所述用户数据包括多个用户中每个用户的多个特征;
第一聚类模块,用于对所述多个用户进行自适应聚类,得到每个聚类的中心点的初始值和聚类数目;以及
第二聚类模块,用于根据所述每个聚类的中心点的初始值和所述聚类数目,对所述多个用户进行迭代聚类,将所述多个用户分为多个用户类。
8.根据权利要求7所述的系统,其中,所述多个用户是特定时间段内购买过相同商品品类的多个用户。
9.根据权利要求7所述的系统,其中,所述多个特征包括所述用户在特定时间段内的以下任意一个或多个特征:购物次数、购物金额、使用优惠券金额占订单总金额的比重、浏览购物界面的总时长、登录购物界面的次数、最近一次下单距离当前时间的时长、购买商品的总数量、购买商品的品类总数量、加入购物车的商品数量、浏览的商品总数量、和浏览商品的品类总数量。
10.根据权利要求7所述的系统,还包括:
第二获取模块,用于获取用户数据集合;
分类模块,用于对所述用户数据集合中的用户数据,按照相应用户购买的商品品类进行分类得到一个或多个用户数据子集;以及
执行模块,用于将至少一个用户数据子集作为所述待分类的用户数据,执行所述自适应聚类和所述迭代聚类。
11.根据权利要求7所述的系统,其中:
自适应聚类包括通过自组织映射算法进行自适应聚类;并且/或者
迭代聚类包括通过KMeans算法进行迭代聚类。
12.根据权利要求7所述的系统,还包括:
验证模块,用于根据迭代聚类得到的每个用户类的类别内误差以及所有类的类别内误差计算验证参数;以及
修改模块,用于在所述验证参数不符合预定条件的情况下,修改以下的任意一项或多项:用户特征的选择、自适应聚类的聚类参数、和迭代聚类的聚类参数。
13.一种电子设备,包括:
一个或多个处理器;以及
一个或多个存储器,存储有可执行指令,所述指令在被处理器执行时,使得处理器执行根据权利要求1~6中任意一项所述的方法。
14.一种计算机可读介质,其上存储有用于执行根据权利要求1~6中任意一项所述的方法的指令。
CN201711470886.6A 2017-12-28 2017-12-28 用户分类方法、系统、电子设备及计算机可读介质 Pending CN109977982A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711470886.6A CN109977982A (zh) 2017-12-28 2017-12-28 用户分类方法、系统、电子设备及计算机可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711470886.6A CN109977982A (zh) 2017-12-28 2017-12-28 用户分类方法、系统、电子设备及计算机可读介质

Publications (1)

Publication Number Publication Date
CN109977982A true CN109977982A (zh) 2019-07-05

Family

ID=67075618

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711470886.6A Pending CN109977982A (zh) 2017-12-28 2017-12-28 用户分类方法、系统、电子设备及计算机可读介质

Country Status (1)

Country Link
CN (1) CN109977982A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110570247A (zh) * 2019-09-09 2019-12-13 中国建设银行股份有限公司 一种电子券分发方法、装置、设备及存储介质
CN114035883A (zh) * 2021-11-26 2022-02-11 中国银行股份有限公司 一种基于聚类分析的终端界面设置方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101477529A (zh) * 2008-12-01 2009-07-08 清华大学 一种三维对象的检索方法和装置
WO2009085554A1 (en) * 2007-12-31 2009-07-09 Mastercard International Incorporated Methods and apparatus for implementing an ensemble merchant prediction system
CN106021376A (zh) * 2016-05-11 2016-10-12 上海点荣金融信息服务有限责任公司 用于处理用户信息的方法和设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009085554A1 (en) * 2007-12-31 2009-07-09 Mastercard International Incorporated Methods and apparatus for implementing an ensemble merchant prediction system
CN101477529A (zh) * 2008-12-01 2009-07-08 清华大学 一种三维对象的检索方法和装置
CN106021376A (zh) * 2016-05-11 2016-10-12 上海点荣金融信息服务有限责任公司 用于处理用户信息的方法和设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
R.J. KUO等: "Integration of self-organizing feature map and K-means algorithm for market segmentation", 《COMPUTERS & OPERATIONS RESEARCH》 *
周欢 等: "SOM + K-means 两阶段聚类算法及其应用", 《现代电子技术》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110570247A (zh) * 2019-09-09 2019-12-13 中国建设银行股份有限公司 一种电子券分发方法、装置、设备及存储介质
CN114035883A (zh) * 2021-11-26 2022-02-11 中国银行股份有限公司 一种基于聚类分析的终端界面设置方法及系统

Similar Documents

Publication Publication Date Title
US9922360B2 (en) Recommendations system
CN107463675B (zh) 数据处理方法及其系统
CN108776692A (zh) 用于处理信息的方法和装置
CN109087138A (zh) 数据处理方法及系统、计算机系统和可读存储介质
CN109754272A (zh) 网络广告的计费方法和系统
CN110020143A (zh) 一种落地页生成方法和装置
CN110020112A (zh) 对象推送方法及其系统
CN110427304A (zh) 用于银行系统的运维方法、装置、电子设备以及介质
CN110400201A (zh) 信息展示方法、装置、电子设备以及介质
CN109727047A (zh) 一种确定数据关联度的方法和装置、数据推荐方法和装置
CN108810047A (zh) 用于确定信息推送准确率的方法、装置及服务器
CN109978650A (zh) 构建决策树的方法及系统
CN107679916A (zh) 用于获取用户兴趣度的方法及装置
CN107562941A (zh) 数据处理方法及其系统
CN109977982A (zh) 用户分类方法、系统、电子设备及计算机可读介质
CN110245684A (zh) 数据处理方法、电子设备和介质
CN113761350A (zh) 一种数据推荐方法、相关装置和数据推荐系统
CN109474884A (zh) 数据处理方法及其系统
CN108898435A (zh) 会话数据处理方法及系统、计算机系统及可读存储介质
CN109978594A (zh) 订单处理方法、装置及介质
CN110060075A (zh) 用于预测销量的方法、装置、系统及介质
CN107844932A (zh) 订单处理方法和装置
CN109634866A (zh) 数据测试方法、装置、介质及电子设备
CN110827044A (zh) 提取用户兴趣模式的方法和装置
CN110019531A (zh) 一种获取相似对象集合的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination