CN110322318A - 一种客户分群方法、装置及计算机存储介质 - Google Patents
一种客户分群方法、装置及计算机存储介质 Download PDFInfo
- Publication number
- CN110322318A CN110322318A CN201910529317.7A CN201910529317A CN110322318A CN 110322318 A CN110322318 A CN 110322318A CN 201910529317 A CN201910529317 A CN 201910529317A CN 110322318 A CN110322318 A CN 110322318A
- Authority
- CN
- China
- Prior art keywords
- client
- random walk
- repeated
- clients
- positive integer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000005295 random walk Methods 0.000 claims abstract description 99
- 238000013507 mapping Methods 0.000 claims abstract description 27
- 238000004891 communication Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 10
- 238000010276 construction Methods 0.000 claims description 7
- 108091081062 Repeated sequence (DNA) Proteins 0.000 claims description 6
- 238000001228 spectrum Methods 0.000 claims 1
- 238000005516 engineering process Methods 0.000 abstract description 2
- 238000013461 design Methods 0.000 description 12
- 239000000047 product Substances 0.000 description 11
- 238000010586 diagram Methods 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000011282 treatment Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000006227 byproduct Substances 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012067 mathematical method Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0631—Item recommendations
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Data Mining & Analysis (AREA)
- Development Economics (AREA)
- Theoretical Computer Science (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Marketing (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Game Theory and Decision Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明实施例公开了一种客户分群方法、装置及计算机存储介质,应用于计算机技术领域。其中,该方法包括:根据N个客户以及所述N个客户的特征数据构建知识图谱,所述知识图谱中包括N个节点,所述N个节点分别代表所述N个客户,存在边连接的两个客户具备至少一个相同特征数据,N为正整数;以所述知识图谱中的第一客户为起始节点重复执行M次随机游走得到M条随机路径,所述M条随机路径中的每一条随机路径均包括预设数量的客户,M为正整数;根据客户在所述M条随机路径中重复出现的次数选择出P个客户,将所述第一客户与所述P个客户划分为同一客户群,P为正整数。实施本发明实施例,能够精准地对客户进行分群。
Description
技术领域
本申请涉及互联网技术领域,尤其涉及一种客户分群方法、装置及计算机存储介质。
背景技术
在产品营销领域,如何将顾客进行分群,无论在学术界还是商业界,都是一个重要的问题。传统的将客户分群的方式是如K-means等传统无监督的聚类方法。
K-means算法中的k表示的是聚类为k个簇,means代表取每一个聚类中数据值的均值作为该簇的中心,或者称为质心,即用每一个类的质心对该簇进行描述。K-means算法的工作流程:首先,随机确定k个初始点的质心;然后将数据集中的每一个点随机分配到一个簇中,即为每一个点找到距其最近的质心,并将其分配给该质心所对应的簇;该步完成后,每一个簇的质心更新为该簇所有点的平均值。采用计算质心-分配-重新计算质心的方式反复迭代,算法停止的条件是,当数据集所有的点分配的距其最近的簇不在发生变化时,就停止分配,更新所有簇的质心后,返回k个类的质心(一般是向量的形式)组成的质心列表,以及存储各个数据点的分类结果和误差距离的平方的二维矩阵。
在实际操作中,采用K-means算法进行客户分群的方法的效果一般,并没有准确地将不同顾客进行区分。造成这种原因的结果包括:第一,在数学方法上,K-means等方法只对凸数据集有效,而对非凸数据集效果较差。第二,K-means的效果严重依赖于数据集的特征,而当前,数据特征基本上是人工提取的,存在很大的主观性。因此,如何准确地将不同客户进行分群是需要解决的技术问题。
发明内容
本发明实施例提供了一种客户分群方法、装置及计算机存储介质,能够准确地对客户进行分群。
第一方面,本发明实施例提供了一种客户分群方法,包括:
根据N个客户以及所述N个客户的特征数据构建知识图谱,所述知识图谱中包括N个节点,所述N个节点分别代表所述N个客户,存在边连接的两个客户具备至少一个相同特征数据,N为正整数;
以所述知识图谱中的第一客户为起始节点重复执行M次随机游走得到M条随机路径,所述M条随机路径中的每一条随机路径均包括预设数量的客户,M为正整数;
根据客户在所述M条随机路径中重复出现的次数选择出P个客户,将所述第一客户与所述P个客户划分为同一客户群,P为正整数。
实施本发明实施例,能够基于客户的特征数据构建知识图谱,进而基于随机游走方式来寻找知识图谱中相似的特征节点,与现有技术中的K-means算法不同,该方法规避了数据集非凸的问题。并且该客户分群的方法并没有使用传统的特征构造方法,而是采用基于图网络的特征提取方法,该方法提取了图网络的天然特征,无需进行其他的人工处理,节省了人工成本并提高了效率。本申请将数据以图网络的形式进行组织,比传统的特征构建方式更加直观明了,且操作方式简单。与传统的聚类方法相比,该方法得到的分群更加符合人的直观认识,能够针对不同的客户精准分群,提高了分群的效率。
在一种可能的设计中,所述根据客户在所述M条随机路径中重复出现的次数选择出P个客户,包括:
从所述M条随机路径中选择客户重复出现的次数大于等于预设次数的P个客户。
在一种可能的设计中,所述根据客户在所述M条随机路径中重复出现的次数选择出P个客户,包括:
将所述M条随机路径中出现的客户按照重复出现的次数由高到低进行排序,并选择重复出现的次数排序前P位的P个客户。
在一种可能的设计中,所述将所述M条随机路径中出现的客户按照重复出现的次数由高到低进行排序,并选择重复出现的次数排序前P位的P个客户,包括:
将所述M条随机路径中出现的客户按照重复出现的次数由高到低进行排序,当重复出现的次数排序前P位的客户的数量为Q个时,将所述Q个客户按照与所述第一客户之间的距离由近到远进行排序,并选择排序前P位的P个客户,Q为大于P的正整数;
或者,将所述M条随机路径中出现的客户按照重复出现的次数由高到低进行排序,当重复出现的次数排序前P位的客户的数量为Q个时,从所述Q个客户中选择重复出现的次数最高且与所述第一客户之间的距离最近的P个客户,Q为大于P的正整数。
在一种可能的设计中,所述P个客户包括第二客户;所述将所述第一客户与所述P个客户划分为同一客户群,包括:
若以所述第二客户为起始节点重复执行M次随机游走得到M条随机路径并根据客户在该M条随机路径中重复出现的次数选择出的P个客户中包括所述第一客户,则将所述第一客户与所述第二客户划分为同一客户群。
在一种可能的设计中,所述方法还包括:
将与所述第一客户同属一个客户群的客户购买的产品推荐给所述第一客户。
在一种可能的设计中,所述特征数据包括客户的性别、客户的年龄、客户的身高、客户的体重、客户的家乡、客户的毕业学校、客户的家庭所在小区、客户的单位、客户喜好的电视节目、客户喜好的城市、客户喜好的衣服品牌、客户购买的保险产品、客户购买的车型、客户的家庭人数中的一种或多种。
第二方面,本发明实施例提供了一种客户分群装置,包括:
构建单元,用于根据N个客户以及所述N个客户的特征数据构建知识图谱,所述知识图谱中包括N个节点,所述N个节点分别代表所述N个客户,存在边连接的两个客户具备至少一个相同特征数据,N为正整数;
确定单元,用于以所述知识图谱中的第一客户为起始节点重复执行M次随机游走得到M条随机路径,所述M条随机路径中的每一条随机路径均包括预设数量的客户,M为正整数;
选择单元,用于根据客户在所述M条随机路径中重复出现的次数选择出P个客户;
分群单元,用于将所述第一客户与所述P个客户划分为同一客户群,P为正整数。
在一种可能的设计中,所述确定单元,用于根据客户在所述M条随机路径中重复出现的次数选择出P个客户,包括:
从所述M条随机路径中选择客户重复出现的次数大于等于预设次数的P个客户。
在一种可能的设计中,所述确定单元,用于根据客户在所述M条随机路径中重复出现的次数选择出P个客户,包括:
将所述M条随机路径中出现的客户按照重复出现的次数由高到低进行排序,并选择重复出现的次数排序前P位的P个客户。
在一种可能的设计中,所述确定单元,用于将所述M条随机路径中出现的客户按照重复出现的次数由高到低进行排序,并选择重复出现的次数排序前P位的P个客户,包括:
将所述M条随机路径中出现的客户按照重复出现的次数由高到低进行排序,当重复出现的次数排序前P位的客户的数量为Q个时,将所述Q个客户按照与所述第一客户之间的距离由近到远进行排序,并选择排序前P位的P个客户,Q为大于P的正整数;
或者,将所述M条随机路径中出现的客户按照重复出现的次数由高到低进行排序,当重复出现的次数排序前P位的客户的数量为Q个时,从所述Q个客户中选择重复出现的次数最高且与所述第一客户之间的距离最近的P个客户,Q为大于P的正整数。
在一种可能的设计中,所述P个客户包括第二客户;所述分群单元,用于将所述第一客户与所述P个客户划分为同一客户群,包括:
若以所述第二客户为起始节点重复执行M次随机游走得到M条随机路径并根据客户在该M条随机路径中重复出现的次数选择出的P个客户中包括所述第一客户,则将所述第一客户与所述第二客户划分为同一客户群。
在一种可能的设计中,所述装置还包括:
推荐单元,用于将与所述第一客户同属一个客户群的客户购买的产品推荐给所述第一客户。
在一种可能的设计中,所述特征数据包括客户的性别、客户的年龄、客户的身高、客户的体重、客户的家乡、客户的毕业学校、客户的家庭所在小区、客户的单位、客户喜好的电视节目、客户喜好的城市、客户喜好的衣服品牌、客户购买的保险产品、客户购买的车型、客户的家庭人数中的一种或多种。
第三方面,本发明实施例提供了一种计算机设备,用于执行第一方面所提供的客户分群方法。该计算机设备可包括:处理器、通信接口和存储器,处理器、通信接口和存储器相互连接。其中,通信接口用于与其它网络设备(例如终端)进行通信,存储器用于存储第一方面所提供的客户分群方法的实现代码,处理器用于执行存储器中存储的程序代码,即执行第一方面所提供的客户分群方法。
第四方面,本申请实施例提供一种计算机可读存储介质,可读存储介质上存储有指令,当其在处理器上运行时,使得处理器执行上述第一方面描述的客户分群方法。
第五方面,本申请实施例提供了一种包含指令的计算机程序产品,当其在处理器上运行时,使得处理器执行上述第一方面描述的客户分群方法。
附图说明
图1是本发明实施例提供的一种计算机设备的硬件结构示意图;
图2是本发明实施例提供的一种客户分群方法的流程示意图;
图3是本发明实施例提供的一种基于客户以及客户的特征数据构建的知识图谱的示意图;
图4是本发明实施例提供的取交集进行分群的示意图;
图5是本发明实施例提供的一种计算机设备的逻辑结构示意图。
具体实施方式
首先针对本发明实施例涉及的计算机设备进行介绍。请参见图1,示出了本发明实施例提供的计算机设备,该计算机设备100可包括:存储器101、通信接口102、和一个或多个处理器103。这些部件可通过总线104或者其他方式连接,图1以通过总线连接为例。其中:
存储器101可以和处理器103通过总线104或者输入输出端口耦合,存储器101也可以与处理器103集成在一起。存储器101用于存储各种软件程序和/或多组指令。具体的,存储器101可包括高速随机存取的存储器,并且也可包括非易失性存储器,例如一个或多个磁盘存储设备、闪存设备或其他非易失性固态存储设备。存储器101还可以存储网络通信程序,该网络通信程序可用于与一个或多个附加设备,一个或多个终端,一个或多个网络设备进行通信。
处理器103可以是通用处理器,例如中央处理器(central processing unit,CPU),还可以是数字信号处理器(digital signal processing,DSP)、专用集成电路(application specific integrated circuit,ASIC),或者是被配置成实施本申请实施例的一个或多个集成电路。处理器103可处理通过通信接口102接收到的数据。
通信接口102用于计算机设备100与其他网络设备进行通信,例如终端进行通信。通信接口102可以是收发器、收发电路等,其中,通信接口是统称,可以包括一个或多个接口,例如终端与服务器之间的接口。通信接口102可以包括有线接口和无线接口,例如标准接口、以太网、多机同步接口。
处理器103可用于读取和执行计算机可读指令。具体的,处理器103可用于调用存储于存储器101中的数据。可选地,当处理器103发送任何消息或数据时,其具体通过驱动或控制通信接口102做所述发送。可选地,当处理器103接收任何消息或数据时,其具体通过驱动或控制通信接口102做所述接收。因此,处理器103可以被视为是执行发送或接收的控制中心,通信接口102是发送和接收操作的具体执行者。
在本申请实施例中,通信接口102具体用于执行下述方法实施例中涉及的数据收发的步骤,处理器103具体用于实施除数据收发之外的数据处理的步骤。
本发明实施例中,计算机设备100可以是具备计算或处理能力的服务器或者终端设备等。
基于图1所示的计算机设备的结构,图2提供了本发明实施例涉及的一种客户分群方法,该客户分群方法包括但不限于如下步骤S201-S203。
步骤S201:根据N个客户以及该N个客户的特征数据构建知识图谱,N为正整数。
其中,每个客户均具有若干个特征数据。特征数据可以表征客户的某一特征,例如,特征数据可以是客户的性别、客户的年龄、客户的身高、客户的体重、客户的家乡、客户的毕业学校、客户的家庭所在小区、客户的单位、客户喜好的电视节目、客户喜好的城市、客户喜好的衣服品牌、客户购买的保险产品、客户购买的车型、客户的家庭人数等等。
本申请的知识图谱中的节点为客户,边用于表征某两个客户之间存在至少一个相同特征。只要某两个客户具备某一相同特征,则该两个客户之间通过边建立连接。其中,具备相同特征可以是:年龄相同、年龄相同、家乡相同、毕业学校相同、所在小区相同、单位相同、购买的车型相同等等。
参见图3,是本发明实施例提供的一种知识图谱的示意图。图3中存在边连接的两个客户为至少存在一相同特征的客户。
本发明实施例中,上述N个客户以及客户的特征数据可以是基于大数据分析获取到的,也可以是系统中存储的。例如,该N个客户及其特征数据为保险公司系统中存储的N个客户,保险公司可以对这N个客户进行分群,以针对不同群组的客户定制化推荐保险产品。
S202:从所述N个客户中的第一客户出发重复执行M次随机游走得到M条随机路径,所述M条随机路径中的每一条随机路径均包括预设数量的客户,M为正整数。
需要说明的是,M以及预设数量可以是系统默认设置的,也可以由客户自主设置,本申请对此不进行限定。
分别以N个客户中的每个客户出发各自执行M次随机游走得到每个客户对应的M条随机游走路径。例如,针对图3所示的知识图谱,以第一客户为客户A为例,M为5,预设数量等于6,则从客户A出发执行5次随机游走,每次随机游走5步,即5次随机游走中的每次随机游走途径的客户数量为5个,也即是说,5条随机路径中的每条随机路径均包括6个客户。这里,途径的客户数量可以包括第一客户本人,也可以不包括,本申请对此不进行限定。假设从客户A出发执行随机游走得到的5条随机路径分别是:路径1(客户A--客户C--客户E--客户J--客户M--客户P)、路径2(客户A--客户C--客户J--客户I--客户S--客户R)、路径3(客户A--客户L--客户Q--客户P--客户R--客户G)、路径4(客户A--客户D--客户G--客户R--客户S--客户F)和路径5(客户A--客户M--客户P--客户R--客户G--客户D)。
具体实现中,为了提高分群的精度,可以将M设置的值大一些,例如,将M设置为10000次,则从每个客户出发重复执行10000次随机游走,得到每个客户对应的10000条随机路径。每条随机路径所包含的客户的数量也可以设置的较大。
S203:根据客户在所述M条随机路径中重复出现的次数选择出P个客户,将所述第一客户与所述P个客户划分为同一个客户群,P为正整数。
在一种实现方式中,所述根据客户在所述M条随机路径中重复出现的次数选择出P个客户,包括:从所述M条随机路径中选择重复出现的次数大于等于预设次数的P个客户。这里,预设次数可以是系统自动设置的,也可以是用户手动设置的。
具体的,针对每个客户,统计该客户基于步骤S202得到的M条随机路径中出现次较多的客户。例如,第一客户为客户A,客户A对应的5条随机路径中,客户C出现的次数为2次,客户E出现的次数为1次,客户J出现的次数为2次,客户M出现的次数为2次,客户P出现的次数为3次,客户I出现的次数为1次,客户S出现的次数为2次,客户R出现的次数为4次,客户L出现的次数为1次,客户Q出现的次数为1次,客户G出现的次数为3次,客户D出现的次数为2次,客户F出现的次数为1次。则可以设置一预设次数为3次,从上述5条随机路径中选择重复出现的次数大于等于3次的客户,即客户P、客户R和客户G,则可以将客户A、客户P、客户R和客户G划分为一个客户群。同样的,针对客户A以外的其他客户,也是按照上述随机游走的方式进行客户分群的,依此方法可以将上述N个客户全部进行分群。
或者,在另一种实现方式中,所述根据客户在所述M条随机路径中重复出现的次数选择出P个客户,包括:将所述M条随机路径中出现的客户按照重复出现的次数由高到低进行排序,并选择重复出现的次数排序前P位的P个客户。
例如,P等于3,将上述5条随机路径中出现的客户按照重复出现的次数从大到小进行排序,得到的排序为:客户R(4次)、客户P(3次)、客户G(3次)、客户C(2次)、客户J(2次)、客户M(2次)、客户S(2次)、客户D(2次)、客户E(1次)、客户I(1次)、客户Q(1次)、客户F(1次)。则从该排序中选择重复出现的次数排序前3的3位客户,分别是客户R、客户P和客户G,则可以将客户A、客户P、客户R和客户G划分为一个客户群。同样的,针对客户A以外的其他客户,也是按照上述随机游走的方式进行客户分群的,依此方法可以将上述N个客户全部进行分群。
若重复出现的次数排序前P位的包括Q个客户,且Q大于P,则可以将所述Q个客户按照与所述第一客户之间的距离由近到远进行排序,并选择排序前P位的P个客户。例如,P等于6,则从该排序中选择重复出现的次数排序前6的客户,分别是客户R、客户P、客户G、客户C、客户J、客户M、客户S和客户D,共8位,超过了6位,则可以将这8位客户中按照与所述客户A之间的距离由近到远进行排序,得到的排序为:客户R(3跳)、客户P(2跳)、客户G(2跳)、客户C(1跳)、客户J(2跳)、客户M(1跳)、客户S(5跳)和客户D(1跳)。则从这8个客户中选择距离最近的5个客户(客户C、客户M、客户D、客户J、客户P、客户G确定为6位客户,将该6位客户与客户A划分为一个客户群。需要说明的是,在本申请中,知识图谱中的某两个节点之间的距离可以指该两个节点之间的最短距离。
或者,若重复出现的次数排序前P位的包括Q个客户,且Q大于P,则可以从所述Q个客户中选择重复出现的次数最高且与所述第一客户之间的距离最近的P个客户,Q为大于P的正整数。例如,P等于6,则从该排序中选择重复出现的次数排序前6的客户,分别是客户R、客户P、客户G、客户C、客户J、客户M、客户S和客户D,共8位,超过了6位,则可以将这8位客户中按照重复出现的次数由高到低以及与所述客户A之间的距离由近到远进行排序,得到的排序为:客户R(4次、3跳)、客户P(3次、2跳)、客户G(3次、2跳)、客户C(2次、1跳)、客户M(2次、1跳)、客户D(2次、1跳)、客户J(2次、2跳)、客户S(2次、5跳)、客户Q(1次、1跳)、客户E(1次、2跳)、客户I(1次、3跳)、客户F(1次、4跳)。则从这8个客户中选择重复出现次数最多且距离最近的6个客户(客户R、客户P、客户G、客户C、客户M、客户D确定为6位客户,将该6位客户与客户A划分为一个客户群。
或者,可以将该Q个客户中排序最小的O个客户按照与所述第一客户的距离由近到远进行排序,从所述O个客户中选择距离所述第一客户最近的P-Q+O个以及从所述Q个客户中选择排序最大的Q-O个客户作为所述P个客户。例如,P等于6,则从该排序中选择重复出现的次数排序前6的客户,分别是客户R、客户P、客户G、客户C、客户J、客户M、客户S和客户D,共8位,超过了6位,则可以将这8位客户中排序最小的客户(即客户C、客户J、客户M、客户S和客户D)照与所述第一客户的距离由近到远进行排序,得到的排序为:客户C(1跳)、客户J(2跳)、客户M(1跳)、客户S(5跳)和客户D(1跳)。则从这5个客户中选择距离最近的3个客户(客户C、客户M和客户D)与出现次数最大的客户R、客户P、客户G确定为6位客户,将该6位客户与客户A划分为一个客户群。
可选的,假设基于客户A选出的与其同属一个客户群的客户包括客户R、客户P、客户G,基于客户R进行随机游走选出的与其同属一个客户群的客户包括客户A、客户P、客户Q,基于客户P进行随机游走选出的与其同属一个客户群的客户包括客户A、客户R、客户I,基于客户G进行随机游走选出的与其同属一个客户群的客户包括客户C、客户D。则可以按照取交集的方式进行分群。参见图4所示,可以将客户A、客户R和客户P划分为一个客户群。
可选的,在将上述N个客户进行分群后,可以针对不同的客户群定制化推荐产品。例如,与客户A同属一个客户群的客户包括客户R,则可以将客户R购买过的产品推荐给客户A。
通过实施本发明实施例,无需拘泥于两个客户之间的距离怎么计算,只要两个客户具备某一相同特征(例如认识,或者学历相似,或者同一个学校,或者同一个单位)都可以建立知识图谱关系,进而依据建立的社交型知识图谱,为客户进行分群,提高了客户分群的精准度以及效率,并且,本发明实施例针对结构化的用户数据会更有优势。
本发明实施例能够基于客户的特征数据构建知识图谱,进而基于随机游走方式来寻找知识图谱中相似的特征节点,与现有技术中的K-means算法不同,该方法规避了数据集非凸的问题。并且该客户分群的方法并没有使用传统的特征构造方法,而是采用基于图网络的特征提取方法,该方法提取了图网络的天然特征,无需进行其他的人工处理,节省了人工成本并提高了效率。本申请将数据以图网络的形式进行组织,比传统的特征构建方式更加直观明了,且操作方式简单。与传统的聚类方法相比,该方法得到的分群更加符合人的直观认识,能够针对不同的客户精准分群,提高了分群的效率。
参见图5,图5示给出了一种客户分群装置的结构示意图,如图5所示,该客户分群装置500包括:构建单元501,确定单元502,选择单元503和分群单元504。
其中,构建单元501,用于根据N个客户以及所述N个客户的特征数据构建知识图谱,所述知识图谱中包括N个节点,所述N个节点分别代表所述N个客户,存在边连接的两个客户具备至少一个相同特征数据,N为正整数;
确定单元502,用于以所述知识图谱中的第一客户为起始节点重复执行M次随机游走得到M条随机路径,所述M条随机路径中的每一条随机路径均包括预设数量的客户,M为正整数;
选择单元503,用于根据客户在所述M条随机路径中重复出现的次数选择出P个客户;
分群单元504,用于将所述第一客户与所述P个客户划分为同一客户群,P为正整数。
可选的,所述确定单元502,用于根据客户在所述M条随机路径中重复出现的次数选择出P个客户,包括:
从所述M条随机路径中选择客户重复出现的次数大于等于预设次数的P个客户。
可选的,所述确定单元502,用于根据客户在所述M条随机路径中重复出现的次数选择出P个客户,包括:
将所述M条随机路径中出现的客户按照重复出现的次数由高到低进行排序,并选择重复出现的次数排序前P位的P个客户。
可选的,所述确定单元502,用于将所述M条随机路径中出现的客户按照重复出现的次数由高到低进行排序,并选择重复出现的次数排序前P位的P个客户,包括:
将所述M条随机路径中出现的客户按照重复出现的次数由高到低进行排序,当重复出现的次数排序前P位的客户的数量为Q个时,将所述Q个客户按照与所述第一客户之间的距离由近到远进行排序,并选择排序前P位的P个客户,Q为大于P的正整数;
或者,将所述M条随机路径中出现的客户按照重复出现的次数由高到低进行排序,当重复出现的次数排序前P位的客户的数量为Q个时,从所述Q个客户中选择重复出现的次数最高且与所述第一客户之间的距离最近的P个客户,Q为大于P的正整数。
可选的,所述P个客户包括第二客户;所述分群单元504,用于将所述第一客户与所述P个客户划分为同一客户群,包括:
若以所述第二客户为起始节点重复执行M次随机游走得到M条随机路径并根据客户在该M条随机路径中重复出现的次数选择出的P个客户中包括所述第一客户,则将所述第一客户与所述第二客户划分为同一客户群。
可选的,所述装置500还包括:
推荐单元,用于将与所述第一客户同属一个客户群的客户购买的产品推荐给所述第一客户。
可选的,所述特征数据包括客户的性别、客户的年龄、客户的身高、客户的体重、客户的家乡、客户的毕业学校、客户的家庭所在小区、客户的单位、客户喜好的电视节目、客户喜好的城市、客户喜好的衣服品牌、客户购买的保险产品、客户购买的车型、客户的家庭人数中的一种或多种。
需要说明的是,关于客户分群装置500的具体实现过程可以参见前述图2所示方法实施例的相关描述,此处不再赘述。
在本申请的另一实施例中提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如数字多功能光盘(digital versatile disc,DVD)、半导体介质(例如固态硬盘solid state disk,SSD)等。
以上所述的具体实施方式,对本发明实施例的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明实施例的具体实施方式而已,并不用于限定本发明实施例的保护范围,凡在本发明实施例的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明实施例的保护范围之内。
Claims (10)
1.一种客户分群方法,其特征在于,包括:
根据N个客户以及所述N个客户的特征数据构建知识图谱,所述知识图谱中包括N个节点,所述N个节点分别代表所述N个客户,存在边连接的两个客户具备至少一个相同特征数据,N为正整数;
以所述知识图谱中的第一客户为起始节点重复执行M次随机游走得到M条随机路径,所述M条随机路径中的每一条随机路径均包括预设数量的客户,M为正整数;
根据客户在所述M条随机路径中重复出现的次数选择出P个客户,将所述第一客户与所述P个客户划分为同一客户群,P为正整数。
2.根据权利要求1所述的方法,其特征在于,所述根据客户在所述M条随机路径中重复出现的次数选择出P个客户,包括:
从所述M条随机路径中选择客户重复出现的次数大于等于预设次数的P个客户。
3.根据权利要求1所述的方法,其特征在于,所述根据客户在所述M条随机路径中重复出现的次数选择出P个客户,包括:
将所述M条随机路径中出现的客户按照重复出现的次数由高到低进行排序,并选择重复出现的次数排序前P位的P个客户。
4.根据权利要求3所述的方法,其特征在于,所述将所述M条随机路径中出现的客户按照重复出现的次数由高到低进行排序,并选择重复出现的次数排序前P位的P个客户,包括:
将所述M条随机路径中出现的客户按照重复出现的次数由高到低进行排序,当重复出现的次数排序前P位的客户的数量为Q个时,将所述Q个客户按照与所述第一客户之间的距离由近到远进行排序,并选择排序前P位的P个客户,Q为大于P的正整数;
或者,将所述M条随机路径中出现的客户按照重复出现的次数由高到低进行排序,当重复出现的次数排序前P位的客户的数量为Q个时,从所述Q个客户中选择重复出现的次数最高且与所述第一客户之间的距离最近的P个客户,Q为大于P的正整数。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述P个客户包括第二客户;所述将所述第一客户与所述P个客户划分为同一客户群,包括:
若以所述第二客户为起始节点重复执行M次随机游走得到M条随机路径并根据客户在该M条随机路径中重复出现的次数选择出的P个客户中包括所述第一客户,则将所述第一客户与所述第二客户划分为同一客户群。
6.根据权利要求1至4任一项所述的方法,其特征在于,所述方法还包括:
将与所述第一客户同属一个客户群的客户购买的产品推荐给所述第一客户。
7.根据权利要求1至4任一项所述的方法,其特征在于,所述特征数据包括客户的性别、客户的年龄、客户的身高、客户的体重、客户的家乡、客户的毕业学校、客户的家庭所在小区、客户的单位、客户喜好的电视节目、客户喜好的城市、客户喜好的衣服品牌、客户购买的保险产品、客户购买的车型、客户的家庭人数中的一种或多种。
8.一种客户分群装置,其特征在于,包括:
构建单元,用于根据N个客户以及所述N个客户的特征数据构建知识图谱,所述知识图谱中包括N个节点,所述N个节点分别代表所述N个客户,存在边连接的两个客户具备至少一个相同特征数据,N为正整数;
确定单元,用于以所述知识图谱中的第一客户为起始节点重复执行M次随机游走得到M条随机路径,所述M条随机路径中的每一条随机路径均包括预设数量的客户,M为正整数;
选择单元,用于根据客户在所述M条随机路径中重复出现的次数选择出P个客户;
分群单元,用于将所述第一客户与所述P个客户划分为同一客户群,P为正整数。
9.一种计算机设备,其特征在于,包括处理器、通信接口和存储器,所述处理器、所述通信接口和所述存储器相互连接,其中,所述通信接口用于与其它网络设备进行通信,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-7任一项所述的客户分群方法。
10.一种计算机可读存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-7任一项所述的客户分群方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910529317.7A CN110322318A (zh) | 2019-06-18 | 2019-06-18 | 一种客户分群方法、装置及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910529317.7A CN110322318A (zh) | 2019-06-18 | 2019-06-18 | 一种客户分群方法、装置及计算机存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110322318A true CN110322318A (zh) | 2019-10-11 |
Family
ID=68119818
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910529317.7A Pending CN110322318A (zh) | 2019-06-18 | 2019-06-18 | 一种客户分群方法、装置及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110322318A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111026816A (zh) * | 2019-12-09 | 2020-04-17 | 重庆锐云科技有限公司 | 基于知识图谱的高净值客户群识别方法、装置及存储介质 |
CN111078864A (zh) * | 2019-12-24 | 2020-04-28 | 国网山东省电力公司电力科学研究院 | 基于知识图谱的信息安全系统 |
CN111199459A (zh) * | 2019-12-30 | 2020-05-26 | 深圳市盟天科技有限公司 | 商品推荐方法、装置、电子设备、及存储介质 |
CN114116534A (zh) * | 2022-01-27 | 2022-03-01 | 广东省新一代通信与网络创新研究院 | 一种提高超标量处理器缓存命中率的方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105760503A (zh) * | 2016-02-23 | 2016-07-13 | 清华大学 | 一种快速计算图节点相似度的方法 |
CN106649731A (zh) * | 2016-12-23 | 2017-05-10 | 中山大学 | 一种基于大规模属性网络的节点相似性搜索方法 |
CN107943934A (zh) * | 2017-11-23 | 2018-04-20 | 北京天广汇通科技有限公司 | 关系强度确定方法和装置 |
CN109802859A (zh) * | 2019-01-15 | 2019-05-24 | 腾讯科技(深圳)有限公司 | 一种网络图中的节点推荐方法和服务器 |
-
2019
- 2019-06-18 CN CN201910529317.7A patent/CN110322318A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105760503A (zh) * | 2016-02-23 | 2016-07-13 | 清华大学 | 一种快速计算图节点相似度的方法 |
CN106649731A (zh) * | 2016-12-23 | 2017-05-10 | 中山大学 | 一种基于大规模属性网络的节点相似性搜索方法 |
CN107943934A (zh) * | 2017-11-23 | 2018-04-20 | 北京天广汇通科技有限公司 | 关系强度确定方法和装置 |
CN109802859A (zh) * | 2019-01-15 | 2019-05-24 | 腾讯科技(深圳)有限公司 | 一种网络图中的节点推荐方法和服务器 |
Non-Patent Citations (1)
Title |
---|
赵海燕;骆金;陈庆奎;: "时间与位置感知的活动个性化推荐方法", 计算机工程, no. 04, 15 April 2018 (2018-04-15) * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111026816A (zh) * | 2019-12-09 | 2020-04-17 | 重庆锐云科技有限公司 | 基于知识图谱的高净值客户群识别方法、装置及存储介质 |
CN111026816B (zh) * | 2019-12-09 | 2022-09-02 | 重庆锐云科技有限公司 | 基于知识图谱的高净值客户群识别方法、装置及存储介质 |
CN111078864A (zh) * | 2019-12-24 | 2020-04-28 | 国网山东省电力公司电力科学研究院 | 基于知识图谱的信息安全系统 |
CN111199459A (zh) * | 2019-12-30 | 2020-05-26 | 深圳市盟天科技有限公司 | 商品推荐方法、装置、电子设备、及存储介质 |
CN111199459B (zh) * | 2019-12-30 | 2024-02-09 | 深圳市盟天科技有限公司 | 商品推荐方法、装置、电子设备、及存储介质 |
CN114116534A (zh) * | 2022-01-27 | 2022-03-01 | 广东省新一代通信与网络创新研究院 | 一种提高超标量处理器缓存命中率的方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110322318A (zh) | 一种客户分群方法、装置及计算机存储介质 | |
Zhao et al. | Efficient shortest paths on massive social graphs | |
US8713151B2 (en) | Configuration method and system of complex network and configuration and management module of server resources | |
CN108574706B (zh) | 媒体文件的推送方法及装置 | |
CN110335112A (zh) | 一种产品推荐方法、装置及计算机存储介质 | |
Shang et al. | Evolving networks—Using past structure to predict the future | |
CN109978292B (zh) | 门店的智能管理方法及装置 | |
CN112085615A (zh) | 图神经网络的训练方法及装置 | |
CN104992348A (zh) | 一种信息展示的方法和装置 | |
CN111492394A (zh) | 出席者参与度确定系统和方法 | |
CN110032603A (zh) | 一种对关系网络图中的节点进行聚类的方法及装置 | |
CN104156467B (zh) | Api推荐方法及api推荐装置 | |
CN107169398A (zh) | 信号处理方法及装置 | |
Lin et al. | A multilevel ACO approach for solving forest transportation planning problems with environmental constraints | |
Bienkowski et al. | A deterministic algorithm for online steiner tree leasing | |
CN113609345B (zh) | 目标对象关联方法和装置、计算设备以及存储介质 | |
CN109977979B (zh) | 定位种子用户的方法、装置、电子设备和存储介质 | |
CN109166016A (zh) | 基于聚类的信息推送方法、装置、计算机设备及存储介质 | |
WO2011114135A1 (en) | Detecting at least one community in a network | |
Dey et al. | Comparison of Probabilistic-D and k-Means Clustering in Segment Profiles for B2B Markets | |
CN104199843A (zh) | 一种基于社会网络交互数据的服务排序及推荐方法与系统 | |
Sajjad et al. | Smart partitioning of geo-distributed resources to improve cloud network performance | |
Savarala et al. | An Improved Fruit Fly Optimization Algorithm for QoS Aware Cloud Service Composition. | |
CN110941771A (zh) | 一种电商平台中的商品并行动态推送方法 | |
CN111738786A (zh) | 构建商品组合的方法、系统、装置和可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |