CN110472998A - 一种构建用户画像信息的方法、装置及电子设备 - Google Patents
一种构建用户画像信息的方法、装置及电子设备 Download PDFInfo
- Publication number
- CN110472998A CN110472998A CN201910641681.2A CN201910641681A CN110472998A CN 110472998 A CN110472998 A CN 110472998A CN 201910641681 A CN201910641681 A CN 201910641681A CN 110472998 A CN110472998 A CN 110472998A
- Authority
- CN
- China
- Prior art keywords
- user
- feature
- portrait
- cluster
- user group
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0631—Item recommendations
Landscapes
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Engineering & Computer Science (AREA)
- General Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Marketing (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Theoretical Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Data Mining & Analysis (AREA)
- Game Theory and Decision Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种构建用户画像信息的方法、装置及电子设备,该方法包括:获取特定用户集合对应的用户数据集合,其中,用户数据集合中的每条数据唯一对应于特定用户集合中的一个用户,且每条数据包括多个特征分别对应的特征值;从多个特征中选取部分特征作为聚类特征;基于所选取的聚类特征进行聚类处理,将特定用户集合分为多个用户族群;从多个特征中选取画像发现特征;分别针对每个画像发现特征,计算各用户族群在该画像发现特征上的得分,并根据得分确定每个用户族群对应的画像信息;输出每个用户族群对应的画像信息。
Description
技术领域
本发明涉及互联网技术领域,更具体地,涉及一种构建用户画像信息的方法、一种构建用户画像信息的装置、一种电子设备、及一种可读存储介质。
背景技术
在互联网时代,每天都会产生大量的用户数据。这些用户数据包含了不同用户的特点。利用合适的方法对大量的用户数据进行分析,来构建出合适的用户画像信息,从而根据用户画像信息针对每个用户制定出个性化产品推荐策略。
目前构建用户画像信息的常用的方法是通过专家规则来构建用户画像信息。该方法的优点是可以通过人类主观想法随时调整规则。但是该方法也存在一些缺点,包括:设计合理的专家规则需要丰富的行业经验;而且由于人类的局限性,不能同时对多维度的大数据进行分析,可能会漏掉很多有用的信息,导致构建的用户画像信息准确度较低。
发明内容
通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
根据本发明的第一方面,提供了一种构建用户画像信息的方法,包括:
获取特定用户集合对应的用户数据集合,其中,所述用户数据集合中的每条数据唯一对应于所述特定用户集合中的一个用户,且每条数据包括多个特征分别对应的特征值;
从所述多个特征中选取部分特征作为聚类特征;
基于所选取的聚类特征进行聚类处理,将所述特定用户集合分为多个用户族群;
从所述多个特征中选取画像发现特征;
分别针对每个画像发现特征,计算各用户族群在该画像发现特征上的得分,并根据所述得分确定每个用户族群对应的画像信息;
输出每个用户族群对应的画像信息。
可选的,所述基于所选取的聚类特征进行聚类处理,将所述特定用户集合分为多个用户族群包括:
为所述特定用户集合中的每个用户构建由各聚类特征对应的特征值组成的样本,得到用户聚类样本集合;
采用聚类算法,根据所述用户聚类样本集合对所述特定用户集合中的用户进行聚类处理,得到多个用户族群。
可选的,所述获取特定用户集合对应的用户数据集合包括:
获取关于所述特定用户集合的多个数据表;
以用户标识作为主键,将所述多个数据表拼接为一个宽表;其中,所述宽表的每一行对应一个用户,除用户标识以外的每一列对应一个特征;或者,所述宽表的每一列对应一个用户,除用户标识以外的每一行对应一个特征。
可选的,从所述多个特征中选取部分特征作为聚类特征的方法为以下任意一种或多种:
从所述多个特征中选取空值率小于或等于设定值的特征,作为所述聚类特征;
从所述多个特征中选取满足业务需求的部分特征,作为所述聚类特征,其中,所述业务是应用所述画像信息进行决策的业务;
从所述多个特征中选取至少一组类型重复的特征,分别合并每组类型重复的特征得到新的特征,将所述新的特征作为所述聚类特征;
从所述多个特征中选取至少一组类型重复的特征,分别从每组类型重复的特征中选取一个代表特征,将所述代表特征作为所述聚类特征。
可选的,所述用户数据集合为以用户标识作为主键的宽表;
当从所述多个特征中选取空值率小于设定值的特征时,该方法还包括如下计算特征空值率的步骤:
根据所述宽表,获得用户的总数量,作为第一数量;
根据所述宽表,分别获得每个特征的特征值为空的用户的数量,作为每个特征对应的第二数量;
分别确定每个特征对应的第二数量和所述第一数量的比值,作为每个特征的空值率。
可选的,所述基于所选取的聚类特征进行聚类处理,将所述特定用户集合分为多个用户族群的步骤包括:
根据所述聚类特征的特征值,确定每两个用户之间的欧式距离;
根据每两个用户之间的欧式距离对所述特定用户集合中的用户进行聚类,得到多个所述用户族群。
可选的,所述用户族群的数量为设定数量;
所述根据每两个用户之间的欧式距离对所述特定用户集合中的用户进行聚类,得到多个所述用户族群的步骤包括:
选取欧式距离最大的设定数量个用户,分别作为每个用户族群的初始中心;
将其他用户划分至与对应的初始中心之间的欧式距离最近的用户族群中;其中,所述其他用户为所述特定用户集合中除所述设定数量个用户以外的用户。
可选的,所述从所述多个特征中选取画像发现特征的步骤包括:
将所述多个特征均作为所述画像发现特征。
可选的,所述分别针对每个画像发现特征,计算各用户族群在该画像发现特征上的得分的步骤包括:
对于每个画像发现特征,分别确定每个用户族群中的用户在该画像发现特征上的平均特征值,作为每个用户族群在该画像发现特征上的第一平均值;
对于每个画像发现特征,计算各用户族群在该画像发现特征上的各第一平均值的平均值,作为该画像发现特征的第二平均值;
对于每个画像发现特征,计算各用户族群在该画像发现特征上的各第一平均值的标准差,作为该画像发现特征的标准差;
对于每个用户族群,根据该用户族群在每个画像发现特征上的第一平均值、以及对应的画像发现特征的第二平均值和标准差,得到该用户族群在每个画像发现特征上的得分。
可选的,所述对于每个用户族群,根据该用户族群在每个画像发现特征上的第一平均值、以及对应的画像发现特征的第二平均值和标准差,得到该用户族群在每个画像发现特征上的得分的步骤包括:
对于每个用户族群,分别确定该用户族群在每个画像发现特征上的第一平均值、与对应的画像发现特征的第二平均值之间的差值,作为该用户族群在每个画像发现特征上的差值;
对于每个用户族群,分别确定该用户族群在每个画像发现特征上的差值、及对应的画像发现特征的标准差之间的比值,作为该用户族群在对应画像发现特征上的得分。
可选的,所述根据所述得分确定每个用户族群对应的画像信息的步骤包括:
对于每个用户族群,确定对应的得分超过设定范围的画像发现特征,作为该用户族群的目标画像特征,并根据该用户族群的目标画像特征和对应的得分,得到该用户族群对应的画像信息。
可选的,所述方法还包括:
获取每个用户族群的聚类中心;
获取新用户的新数据,所述新数据包括每个聚类特征对应的新的特征值;
根据所述新用户的每个聚类特征对应的新的特征值和每个用户族群的聚类中心,确定所述新用户所对应的用户族群。
可选的,获取每个用户族群的聚类中心的步骤包括:
分别确定每个用户族群所对应的用户的每个聚类特征的特征值的平均值,作为每个用户族群的聚类中心。
可选的,所述根据所述新用户的每个聚类特征对应的新的特征值和每个用户族群的聚类中心,确定所述新用户对应的用户族群的步骤包括:
根据所述新用户的聚类特征对应的新的特征值,确定所述新用户与每个聚类中心之间的新的欧式距离;
将所述新用户划分至新的欧式距离最小的聚类中心所对应的用户族群中。
可选的,所述方法还包括:
获取待推荐产品;
分别根据每个用户族群对应的画像信息,选取与每个用户族群匹配的待推荐产品;
向每个用户族群中的用户推荐对应的用户族群所匹配的待推荐产品。
可选的,所述分别根据每个用户族群对应的画像信息,选取与每个用户族群匹配的待推荐产品的步骤包括:
获取待推荐产品的产品标签;
根据每个用户族群对应的画像信息、及待推荐产品的产品标签,确定每个用户族群与每个待推荐产品的匹配度;
根据所述匹配度,选取与每个用户族群匹配的待推荐产品。
可选的,所述方法还包括:
获取所述画像信息所适用的应用场景;
基于所述应用场景,展示每个用户族群对应的画像信息。
根据本发明的第二方面,提供了一种构建用户画像信息的装置,包括:
数据获取模块,用于获取特定用户集合对应的用户数据集合,其中,所述用户数据集合中的每条数据唯一对应于所述特定用户集合中的一个用户,且每条数据包括多个特征分别对应的特征值;
聚类特征选取模块,用于从所述多个特征中选取部分特征作为聚类特征;
聚类模块,用于基于所选取的聚类特征进行聚类处理,将所述特定用户集合分为多个用户族群;
发现特征选取模块,用于从所述多个特征中选取画像发现特征;
画像信息确定模块,用于分别针对每个画像发现特征,计算各用户族群在该画像发现特征上的得分,并根据所述得分确定每个用户族群对应的画像信息;
画像信息输出模块,用于输出每个用户族群对应的画像信息。
根据本发明的第三方面,提供了一种电子设备,包括:
如本发明第二方面所述的装置;或者,
处理器和存储器,所述存储器用于存储指令,所述指令用于控制所述处理器执行根据本发明第一方面所述的方法。
根据本发明的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序在被处理器执行时实现如本发明第一方面所述的方法。
通过本发明的实施例,通过从每条数据包含的多个特征中选取部分特征作为聚类特征,基于所选取的聚类特征对特定用户集合中包含的用户进行聚类处理,将特定用户集合分为多个用户族群;并从多个特征中选取画像发现特征,分别针对每个画像发现特征,计算各用户族群在该画像发现特征上的得分,并根据该得分确定并输出每个用户族群对应的画像信息。
本发明的实施例选取少量聚类特征进行聚类,可以防止不重要的特征对聚类结果产生过度影响。选用大量特征刻画每个用户族群的画像信息,可以拓宽用户画像的分析维度。
通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
附图说明
被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例,并且连同其说明一起用于解释本发明的原理。
图1是显示可用于实现本发明实施例的电子设备的硬件配置的框图;
图2示出了本发明第一个实施例的构建用户画像信息的方法的流程图;
图3示出了本发明第二个实施例的构建用户画像信息的方法的流程图;
图4示出了本发明第三个实施例的构建用户画像信息的方法的流程图;
图5示出了本发明实施例的构建画像信息的方法的一个例子的流程图;
图6示出了本发明实施例的构建画像信息的方法的一个例子的流程图;
图7示出了本发明实施例的构建画像信息的方法的一个例子的流程图;
图8示出了本发明的实施例的构建用户画像信息的装置的框图;
图9示出了本发明的实施例的电子设备的框图。
具体实施方式
现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
下面,参照附图描述根据本发明实施例的各个实施例和例子。
<硬件配置>
图1是显示可用于实现本发明实施例的电子设备的硬件配置的框图。
电子设备1000可以是便携式电脑、台式计算机、手机、平板电脑等。如图1所示,电子设备1000可以包括处理器1100、存储器1200、接口装置1300、通信装置1400、显示装置1500、输入装置1600、扬声器1700、麦克风1800等等。其中,处理器1100可以是中央处理器CPU、微处理器MCU等。存储器1200例如包括ROM(只读存储器)、RAM(随机存取存储器)、诸如硬盘的非易失性存储器等。接口装置1300例如包括USB接口、耳机接口等。通信装置1400例如能够进行有线或无线通信,具体地可以包括Wifi通信、蓝牙通信、2G/3G/4G/5G通信等。显示装置1500例如是液晶显示屏、触摸显示屏等。输入装置1600例如可以包括触摸屏、键盘、体感输入等。用户可以通过扬声器1700和麦克风1800输入/输出语音信息。
图1所示的电子设备仅仅是说明性的并且决不意味着对本发明、其应用或使用的任何限制。应用于本发明的实施例中,电子设备1000的所述存储器1200用于存储指令,所述指令用于控制所述处理器1100进行操作以执行本发明实施例提供的任意一项构建用户画像信息的方法。本领域技术人员应当理解,尽管在图1中对电子设备1000示出了多个装置,但是,本发明可以仅涉及其中的部分装置,例如,电子设备1000只涉及处理器1100和存储装置1200。技术人员可以根据本发明所公开方案设计指令。指令如何控制处理器进行操作,这是本领域公知,故在此不再详细描述。
<方法实施例>
在本实施例中,提供一种构建用户画像信息的方法。该构建用户画像信息的方法可以是由电子设备实施。该电子设备可以是如图1所示的电子设备1000。
根据图2所示,本实施例的构建用户画像信息的方法可以包括如下步骤S2100~S2600:
步骤S2100,获取特定用户集合对应的用户数据集合。
其中,用户数据集合中的每条数据唯一对应于特定用户集合中的一个用户,且每条数据包括多个特征分别对应的特征值。
特定用户集合中可以包括多个用户,每个用户可以具有一个唯一对应的用户标识。用户标识可以是由字母、符号、和/或数字等字符组成的字符串。
在本实施例中,用户数据集合中的每条数据是对对应用户的所有源数据进行整合得到的。本实施例中的多个特征,可以是从特定用户集合中的所有用户的源数据中提取得到的。如果任意用户对应的源数据中无法获取其中一个特征的特征值,那么,可以将该用户对应的一条数据中该特征的特征值设置为零或者是空。
每条数据中包括多个特征对应的特征值。例如,在用户1对应的源数据中的信息可以包括年龄为33岁和存款余额10000元,用户2对应的源数据中的信息可以包括年龄为25岁、存款余额为1000元、本月消费总额为200元,那么,可以确定用户数据集合中,用户1对应的一条数据中,“年龄”这一特征对应的特征值为33,“存款余额”这一特征对应的特征值为10000,“本月消费总额”这一特征对应的特征值可以为零或者是空;用户2对应的一条数据中,“年龄”这一特征对应的特征值为25,“存款余额”这一特征对应的特征值为1000,“本月消费总额”这一特征对应的特征值为200。
在一个例子中,获取特定用户集合对应的用户数据集合的步骤可以包括如下所示的步骤S2110~S2120:
步骤S2110,获取关于特定用户集合的多个数据表。
具体的,特定用户集合的多个数据表可以包括:用于表征特定用户集合中所有用户的基本信息的基本信息表、用于表征特定用户集合中所有用户的交易流水信息的用户交易流水表、用于表征特定用户集合中所有用户的行为信息的用户行为记录表等。每个数据表可以是对特定用户集合中的用户的对应类型的源数据进行整合得到的。每个数据表中可以包括从源数据中提取的至少一个特征、及这些特征对应的特征值。例如,基本信息表中可以包括特征1和2、及特征1和2分别对应的特征值,用户交易流水表中可以包括特征3和4、及特征3和4分别对应的特征值,用户行为记录表中可以包括特征5-n、及特征5-n分别对应的特征值。
步骤S2120,以用户标识作为主键,将多个数据表拼接为一个宽表;其中,宽表的每一行对应一个用户,除用户标识以外的每一列对应一个特征;或者,宽表的每一列对应一个用户,除用户标识以外的每一行对应一个特征。
如果一个用户对应的数据表中不包含特征1及其特征值,那么,在该宽表中,该用户在特征1上的特征值可以是零或者是空。
在一个例子中,得到的宽表可以是如下表1所示:
表1
在如表1所示宽表中,用户1在特征1上的特征值为D1,1,用户1在特征n上的特征值为D1,n,用户2在特征1上的特征值为D2,1,用户2在特征2上的特征值为D2,2,用户2在特征n上的特征值为D2,2,用户3在特征1上的特征值为D3,1,用户3在特征n-1上的特征值为D3,n-1,用户m-1在特征3上的特征值为Dm-1,3,用户m-1在特征n上的特征值为Dm-1,n,用户m在特征2上的特征值为Dm,2,用户m在特征n-1上的特征值为Dm,n-1。用户1在特征2上的特征值、用户1在特征3上的特征值、用户1在特征n-1上的特征值、用户2在特征3上的特征值、用户2在特征n-1上的特征值、用户3在特征2上的特征值、用户3在特征3上的特征值、用户3在特征n上的特征值、用户m-1在特征1上的特征值、用户m-1在特征2上的特征值、用户m-1在特征n-1上的特征值、用户m在特征1上的特征值、用户m在特征3上的特征值、用户m在特征n上的特征值均可以是空。
步骤S2200,从多个特征中选取部分特征作为聚类特征。
在本发明的一个实施例中,从多个特征中选取部分特征作为聚类特征的方法为以下任意一种或多种:
从多个特征中选取空值率小于设定值的特征,作为聚类特征;
从多个特征中选取满足业务需求的部分特征,作为聚类特征,其中,业务是应用画像信息进行决策的业务;
从多个特征中选取至少一组类型重复的特征,分别合并每组类型重复的特征得到新的特征,将新的特征作为聚类特征;
从多个特征中选取至少一组类型重复的特征,分别从每组类型重复的特征中选取一个代表特征,将代表特征作为聚类特征。
在从多个特征中选取部分特征作为聚类特征的方法为从多个特征中选取空值率小于或等于设定值的特征,作为聚类特征的实施例中,可以是预先在步骤S2100中将无法获取对应用户在其中一个特征上的特征值时,将该特征值设置为空。
本实施例中的设定值可以预先根据应用场景或具体需求设定,该设定值可以是大于等于0且小于等于1的值。例如,该设定值可以是0.2,那么,可以从多个特征中选取部分特征作为聚类特征的方法为从多个特征中选取空值率小于或等于0.2的特征,作为聚类特征。
在一个例子中,在通过如上步骤S2100~S2200得到宽表的基础上,计算特征空值率的步骤可以包括:
根据该宽表,获得用户的总数量,作为第一数量;
根据该宽表,分别获得每个特征的特征值为空的用户的数量,作为每个特征对应的第二数量;
分别确定每个特征对应的第二数量和第一数量的比值,作为每个特征的空值率。
具体的,第一数量可以是特定用户集合中所包含的用户的总数量,例如,第一数量可以是m。对于每个特征,确定该特征的特征值为空的用户的数量,即为该特征对应的第二数量。例如,对于特征1~特征n,对应的第二数量分别为A1~An,那么,特征k的空值率可以为Ak/m,k∈[1,n]。
在从多个特征中选取部分特征作为聚类特征的方法为从多个特征中选取满足业务需求的部分特征,作为聚类特征的实施例中,选择出业务认为重要的特征作为聚类特征,该业务可以是画像信息的最终应用之业务,可以是应用画像信息进行决策的业务。
例如,当银行希望提高AUM(Asset Under Management,资产管理规模)时,应该选用AUM相关的特征作为聚类特征(如:存款余额、国债余额、理财产品余额、股票余额等)。当银行希望提高某种金融产品的购买率时,应该选用用户购买行为相关的特征作为聚类特征(如:用户一个月内消费金额、消费次数、浏览次数、点击次数等)。
在从多个特征中选取部分特征作为聚类特征的方法为从多个特征中选取至少一组类型重复的特征,分别合并每组类型重复的特征得到新的特征,将新的特征作为聚类特征的实施例中,为了防止某类特征对聚类结果产生过度影响,需要合并每组类型重复特征。例如,宽表包含“当年平均存款”和“存款余额”两个特征,通过业务分析可以认为这两个特征属于一组类型重复的特征,那么,可以合并每组类型重复的特征得到新的特征,作为聚类特征,并取每组类型重复的特征的平均特征值作为对应聚类特征的特征值。
在从多个特征中选取部分特征作为聚类特征的方法为从多个特征中选取至少一组类型重复的特征,分别从每组类型重复的特征中选取一个代表特征,将代表特征作为聚类特征的实施例中,例如,宽表包含“当年平均存款”和“存款余额”两个特征,通过业务分析可以认为这两个特征属于一组类型重复的特征,那么,可以从每组类型重复的特征中选取一个代表特征作为聚类特征,并将代表特征的特征值作为对应聚类特征的特征值。
步骤S2300,基于所选取的聚类特征进行聚类处理,将特定用户集合分为多个用户族群。
具体的,可以是基于所选取的聚类特征对特定用户集合中包含的所有用户进行聚类处理,得到多个用户族群,每个用户族群中包含至少一个用户,其中,每个用户族群中所包含的用户均包含于特定用户集合中。
在一个例子中,基于所选取的聚类特征进行聚类处理,将特定用户集合分为多个用户族群包括可以包括:
为特定用户集合中的每个用户构建由各聚类特征对应的特征值组成的样本,得到用户聚类样本集合;采用聚类算法,根据用户聚类样本集合对特定用户集合中的用户进行聚类处理,得到多个用户族群。
在本实施例中,可以是仅提取用户数据集合中每个样本在每个聚类特征上的特征值,得到用户聚类样本集合。用户聚类样本集合中的每个样本唯一对应于一个用户,且每个样本中可以仅包含每个聚类特征的特征值。
聚类算法可以是k-means算法(k-means clustering algorithm,k均值聚类算法)、meanshift算法(均值漂移算法)、DBSCAN算法(Density-Based Spatial Clusteringof Applications with Noise,具有噪声的基于密度的聚类方法)或者是BIRCH算法(Balanced Iterative Reducing and Clustering using Hierarchies,)等。
在另一个例子中,可以是采用k-means算法,基于所选取的聚类特征进行聚类处理,将特定用户集合分为多个用户族群,具体可以包括如下所示的步骤S2310~S2320:
步骤S2310,根据聚类特征的特征值,确定每两个用户之间的欧式距离。
例如,用户总数为m,聚类特征的数量为l,用户1在聚类特征1~聚类特征l上的特征值分别为D1,1~D1,l,用户2在聚类特征1~聚类特征l上的特征值分别为D2,1~D2,1,……,用户m在聚类特征1~聚类特征l上的特征值分别为Dm,1~Dm,l,那么,对于用户i和用户j之间的欧式距离可以是其中i,j均为整数,且i,j∈[1,m]。
步骤S2320,根据每两个用户之间的欧式距离对特定用户集合中的用户进行聚类,得到多个用户族群。
在采用k-means算法进行聚类的情况下,需要预先设定用户族群的数量。因此,在本实施例中,可以设定用户族群的数量为设定数量,该设定数量可以是根据应用场景或具体需求设定,例如,该设定数量可以是10,那么,得到的用户族群的数量可以是10。
在本实施例的基础上,根据每两个用户之间的欧式距离对特定用户集合中的用户进行聚类,得到多个用户族群的步骤包括如下所示的步骤S2321~S2322:
步骤S2321,选取欧式距离最大的设定数量个用户,分别作为每个用户族群的初始中心。
具体的,选取欧式距离最大的设定数量个用户,可以是对欧式距离进行排序,按照从大到小的顺序选取欧式距离所对应的用户。例如,按照由大到小的顺序,欧式距离所对应的用户为用户1和用户2、用户3和用户1、用户12和用户5、用户4和用户5,……,那么,在设定数量为5的情况下,选取的欧式距离最大的设定数量个用户可以为用户1、用户2、用户3、用户12和用户5。
步骤S2322,将其他用户划分至与对应的初始中心之间的欧式距离最近的用户族群中。
其中,其他用户为特定用户集合中除被作为每个用户族群的初始中心的设定数量个用户以外的用户。
例如,在选取的作为每个用户族群的初始中心设定数量个用户为用户1、用户2、用户3、用户12和用户5的情况下,对于其他用户6,比较用户6与用户1之间的欧式距离ρ6,1、用户6与用户2之间的欧式距离ρ6,2、用户6与用户3之间的欧式距离ρ6,3、用户6与用户12之间的欧式距离ρ6,12、用户6与用户5之间的欧式距离ρ6,5,如果用户6与用户1之间的欧式距离ρ6,1最小,则可以将用户6划分至以用户1作为初始中心的用户族群中。
步骤S2400,从多个特征中选取画像发现特征。
通常情况下,画像发现特征的数量较多。
在一个例子中,可以是从多个特征中选取感兴趣的特征作为画像发现特征。
在另一个例子中,还可以是将多个特征均作为画像发现特征。具体的,可以是将宽表中的所有特征均作为画像发现特征。
步骤S2500,分别针对每个画像发现特征,计算各用户族群在该画像发现特征上的得分,并根据得分确定每个用户族群对应的画像信息。
在一个例子中,分别针对每个画像发现特征,计算各用户族群在该画像发现特征上的得分的步骤包括如下所示的步骤S2510~S2540:
步骤S2510,对于每个画像发现特征,分别确定每个用户族群中的用户在该画像发现特征的平均特征值,作为每个用户族群在该画像发现特征上的第一平均值。
例如,画像发现特征的数量为x,用户族群1中包含y个用户,这y个用户在画像发现特征1上的特征值的平均值,即为用户族群1在画像发现特征1上的第一平均值avg_F1,1。如果通过步骤S2400得到的用户族群的数量为z,那么,用户族群v在画像发现特征w上的第一平均值可以为avg_Fv,w,其中,v,w均为整数,且v∈[1,z],w∈[1,x]。
步骤S2520,对于每个画像发现特征,计算各用户族群在该画像发现特征上的各第一平均值的平均值,作为该画像发现特征的第二平均值。
在画像发现特征的数量为x,用户族群的数量为z,用户族群v在画像发现特征w上的第一平均值为avg_Fv,w(其中,v,w均为整数,且v∈[1,z],w∈[1,x])的情况下,所有用户族群在画像发现特征w上的第一平均值的平均值,即画像发现特征w的第二平均值可以为
步骤S2530,对于每个画像发现特征,计算各用户族群在该画像发现特征上的各第一平均值的标准差,作为该画像发现特征的标准差。
在画像发现特征的数量为x,用户族群的数量为z,用户族群v在画像发现特征w上的第一平均值为avg_Fv,w(其中,v,w均为整数,且v∈[1,z],w∈[1,x])的情况下,所有用户族群在画像发现特征w上的第一平均值的标准差,即画像发现特征w的标准差可以为
步骤S2540,对于每个用户族群,根据该用户族群在每个画像发现特征上的第一平均值、以及对应的画像发现特征的第二平均值和标准差,得到该用户族群在每个画像发现特征上的得分。
在一个例子中,对于每个用户族群,根据该用户族群在每个画像发现特征上的第一平均值、以及对应的画像发现特征的第二平均值和标准差,得到该用户族群在每个画像发现特征上的得分的步骤包括如下所示的步骤S2541~S2542:
步骤S2541,对于每个用户族群,分别确定该用户族群在每个画像发现特征上的第一平均值、与对应的画像发现特征的第二平均值之间的差值,作为该用户族群在每个画像发现特征上的差值。
在画像发现特征的数量为x,用户族群的数量为z,用户族群v在画像发现特征w上的第一平均值为avg_Fv,w,画像发现特征w的第二平均值为meanw(其中,v,w均为整数,且v∈[1,z],w∈[1,x])的情况下,用户族群v在画像发现特征w上第一平均值avg_Fv,w、与画像发现特征w的第二平均值meanw之间的差值,即用户族群v在画像发现特征w上的差值为diffv,w=avg_Fv,w-meanw。
步骤S2542,对于每个用户族群,分别确定该用户族群在每个画像发现特征上的差值、及对应的画像发现特征的标准差之间的比值,作为该用户族群在对应画像发现特征上的得分。
在画像发现特征的数量为x,用户族群的数量为z,用户族群v在画像发现特征w上的差值为diffv,w,画像发现特征w的标准差为stddevw(其中,v,w均为整数,且v∈[1,z],w∈[1,x])的情况下,用户族群v在画像发现特征w上的差值、与画像发现特征w的标准差之间的比值,即用户族群v在画像发现特征w上的得分可以为scorev,w=diffv,w/stddevw。
在本发明的一个实施例中,根据得分确定每个用户族群对应的画像信息的步骤可以包括:
对于每个用户族群,确定对应的得分超过设定范围的画像发现特征,作为该用户族群的目标画像特征,并根据该用户族群的目标画像特征和对应的得分,得到该用户族群对应的画像信息。
设定范围可以预先根据应用场景或具体需求设定。具体的,不同画像发现特征所对应的设定范围可以相同,也可以不同。
下面以画像发现特征为年龄为例,说明如何确定对应用户族群的画像信息。
例如,通过步骤S2400得到了10个用户族群,这10个用户族群在年龄这一画像发现特征上的第一平均值avg_agev(其中,v为整数,且v∈[1,10])分别为50,55,80,10,60,58,48,52,30,55。根据这10个用户族群在年龄这一画像发现特征上的第一平均值,得到年龄这一画像发现特征的第二平均值可以为年龄这一画像发现特征的标准差可以为根据公式scorev=(avg_agev-mean)/stddev,可以得到这10个用户族群在年龄这一画像发现特征上的得分分别为:0.011,0.294,1.709,-2.252,0.577,0.464,-0.101,0.124,-1.120,0.294。
年龄这一画像发现特征对应的设定范围可以是[-1.5,1.5]。那么,由于用户族群3在年龄这一画像发现特征上的得分score3=1.709,用户族群4在年龄这一画像发现特征上的得分score4=-2.252,均超出对应的设定范围[-1.5,1.5],因此,年龄这一画像发现特征可以作为用户族群3和4的目标画像特征。
由于用户族群3在年龄这一目标画像特征上的得分score3=1.709,大于设定范围的最大阈值1.5,因此可以将“年龄较大”作为第3个用户族群的一个画像信息。由于用户族群4在年龄这一目标画像特征上的得分score4=-2.252,小于设定范围的最小阈值-1.5,因此可以将“年龄较小”作为第4个用户族群的一个画像信息。
对于其他8个用户族群,在年龄这一画像发现特征上的得分均在[-1.5,1.5]这个设定范围之内,因此,年龄这一画像发现特征不能作为这8个用户族群的目标画像特征,对应的,“年龄较大”和“年龄较小”也不能作为这8个用户族群的画像信息。
步骤S2600,输出每个用户族群对应的画像信息。
在一个实施例中,输出每个用户族群对应的画像信息的方式可以包括:
获取画像信息所适用的应用场景;基于该应用场景,展示每个用户族群对应的画像信息。
在另一个实施例中,输出每个用户族群对应的画像信息的方式还可以包括:根据业务需求生成对应文件格式的用户画像报告,以用于指导实际业务。其中,用户画像报告中描述有每个用户族群所对应的画像信息。
通过本发明的实施例,通过从每条数据包含的多个特征中选取部分特征作为聚类特征,基于所选取的聚类特征对特定用户集合中包含的用户进行聚类处理,将特定用户集合分为多个用户族群;并从多个特征中选取画像发现特征,分别针对每个画像发现特征,计算各用户族群在该画像发现特征上的得分,并根据该得分确定并输出每个用户族群对应的画像信息。
本发明的实施例选取少量聚类特征进行聚类,可以防止不重要的特征对聚类结果产生过度影响。选用大量特征刻画每个用户族群的画像信息,可以拓宽用户画像的分析维度。
在一个实施例中,该方法还可以包括如图3所示的步骤S3100~S3300:
步骤S3100,获取每个用户族群的聚类中心。
具体的,该步骤S3100可以是在执行完步骤S2300之后执行的,也可以是在执行完步骤S2500之后执行的,在本实施例中,并不对步骤S3100的执行顺序进行限制。
在一个实施例中,获取每个用户族群的聚类中心的步骤可以包括:
分别确定每个用户族群所对应的用户的每个聚类特征的特征值的平均值,作为每个用户族群的聚类中心。
在本实施例中,聚类中心可以为对应用户族群中的用户在每个聚类特征的特征值的平均值。例如,用户族群1中包含用户1~用户t,聚类特征的数量为l,用户i在聚类特征j上的特征值为fi,j,其中,i,j为整数,且i∈[1,t],j∈[1,l],那么,该用户族群1的聚类中心可以为
步骤S3200,获取新用户的新数据,新数据包括每个聚类特征对应的新的特征值。
本实施例中的新用户可以是产生新数据的用户。具体的,可以是属于上述特定用户集合中的用户,也可以是不属于上述特定用户集合中的用户。
在新用户属于上述特定用户集合中的用户的实施例中,新数据中可以包含与用户数据集合中该用户对应的数据存在差异的内容,例如,新数据中和用户数据集合中该用户对应的数据中同一特征的特征值可以不同。
在一个例子中,每条新数据的数据格式与用户数据集合中所包含的每条数据的数据格式可以相同。
步骤S3300,根据新用户的每个聚类特征对应的新的特征值和每个用户族群的聚类中心,确定新用户所对应的用户族群。
在一个实施例中,根据新用户的每个聚类特征对应的新的特征值和每个用户族群的聚类中心,确定新用户对应的用户族群的步骤可以包括如下所示的步骤S3310~S3320:
步骤S3310,根据新用户的聚类特征对应的新的特征值,确定新用户与每个聚类中心之间的新的欧式距离。
确定新用户与聚类中心之间的新的欧式距离的方式,可以参照前述的确定每两个用户之间的欧式距离的方式,在此不再赘述。
步骤S3320,将新用户划分至新的欧式距离最小的聚类中心所对应的用户族群中。
例如,用户族群的数量为r,新用户与用户族群γ的聚类中心之间的新的欧式距离为ργ,其中,γ为整数,且γ∈[1,r],如果ρ3最小,则表明新用户与用户族群3的聚类中心之间的距离最小,因此,可以是将新用户划分至用户族群3中。
如果新用户不属于上述特定用户集合中的用户,可以是直接将新用户划分至用户族群3中。
如果新用户属于上述特定用户集合中的用户,根据该用户在6月的数据,通过步骤S2300的聚类步骤,得到该新用户属于用户族群1,但是,根据该用户在7月的数据,确定新用户与用户族群3的聚类中心之间的距离最小,则可以是将该用户从用户族群1中删除,并重新将该用户划分至用户族群3中。
在得到新的用户族群之后,还可以对新的用户族群执行上述的步骤S2400~S2600,重新确定并输出每个用户族群的画像信息。
本发明的实施例在每次更新用户族群之后获取每个用户族群的聚类中心,当数据分布发生变化时,即获取到新用户的新的新数据时,仅根据新用户的聚类特征的特征值、及每个用户族群的聚类中心,就可以得到新的聚类结果。如此迭代聚类中心可以保证用户族群的稳定性,而且可以节约人力成本。
在一个实施例中,在执行完上述步骤S2500之后,该方法还可以包括如图4所示的步骤S4100~S4300:
步骤S4100,获取待推荐产品。
具体的,待推荐产品可以是根据应用场景或具体需求确定的一个或多个产品,该待推荐产品可以是信息、理财等虚拟产品,也可以真实产品。
步骤S4200,分别根据每个用户族群对应的画像信息,选取与每个用户族群匹配的待推荐产品。
在一个实施例中,分别根据每个用户族群对应的画像信息,选取与每个用户族群匹配的待推荐产品的步骤可以包括如下所示的步骤S4210~S4230:
步骤S4210,获取待推荐产品的产品标签。
产品标签可以是体现对应的待推荐产品的相关属性的数据。
步骤S4220,根据每个用户族群对应的画像信息、及待推荐产品的产品标签,确定每个用户族群与每个待推荐产品的匹配度。
具体的,可以是将每个用户族群对应的画像信息、及待推荐产品的产品标签输入预先训练好的推荐模型中,得到每个用户族群与每个待推荐产品的匹配度之间的匹配度。
步骤S4230,根据匹配度,选取与每个用户族群匹配的待推荐产品。
如果待推荐产品的数量为一个,可以是将待推荐产品与匹配度最高的第一数量个用户族群进行匹配。
如果待推荐产品的数量为多个,可以是将每个待推荐产品与匹配度最高的第二数量个用户族群进行匹配,也可以是将每个用户族群与匹配度最高的第三数量个待推荐产品进行匹配。
其中,第一数量、第二数量和第三数量可以分别根据对应的应用场景或具体需求来设定。
步骤S4300,向每个用户族群中的用户推荐对应的用户族群所匹配的待推荐产品。
例如,在用户族群1与待推荐产品1匹配的情况下,可以向用户族群1中所包含的所有用户推荐待推荐产品1。
在本实施例中,根据每个用户族群对应的画像信息、及待推荐产品的产品标签,获取每个用户族群与每个待推荐产品的匹配度,可以精准、有效地获取每个用户族群对待推荐信息的偏好程度,为每个用户族群进行精准地产品推荐,以实际满足每个用户族群的产品获取需求,提升每个用户族群的产品获取体验。
<例子1>
以下将结合图5进一步说明本实施例提供的构建用户画像信息的方法。
步骤S5001,获取关于特定用户集合的多个数据表。
步骤S5002,以用户标识作为主键,将多个数据表拼接为一个宽表。
其中,宽表的每一行对应一个用户,除用户标识以外的每一列对应一个特征;或者,宽表的每一列对应一个用户,除用户标识以外的每一行对应一个特征。
步骤S5003,根据该宽表,获得用户的总数量,作为第一数量。
步骤S5004,根据该宽表,分别获得每个特征的特征值为空的用户的数量,作为每个特征对应的第二数量。
步骤S5005,分别确定每个特征对应的第二数量和第一数量的比值,作为每个特征的空值率。
例如,第一数量可以是m。对于每个特征,对于特征1~特征n,对应的第二数量分别为A1~An,那么,特征k的空值率可以为其中,k为整数,且k∈[1,n]。
步骤S5006,从多个特征中选取空值率小于设定值的特征,作为聚类特征。
步骤S5007,根据聚类特征的特征值,确定每两个用户之间的欧式距离。
例如,用户总数为m,聚类特征的数量为L,用户i在聚类特征1~聚类特征L上的特征值分别为Di,1~Di,L,其中,i,l为整数,且i∈[1,m],l∈[1,L],那么,对于用户i和用户j(其中,i≠j,i,j为整数,且i,j∈[1,m])之间的欧式距离可以是
步骤S5008,选取欧式距离最大的设定数量个用户,分别作为设定数量个用户族群的初始中心。
步骤S5009,将特定用户集合中的每个其他用户分别划分至与对应的初始中心之间的欧式距离最近的用户族群中。
步骤S5010,从多个特征中选取画像发现特征。
步骤S5011,对于每个画像发现特征,分别确定每个用户族群中的用户在该画像发现特征的平均特征值,作为每个用户族群在该画像发现特征上的第一平均值。
例如,画像发现特征的数量为x,用户族群1中包含y个用户,用户族群的数量为z,那么,用户族群v在画像发现特征w上的第一平均值可以为avg_Fv,w(其中,v,w均为整数,且v∈[1,z],w∈[1,x])。
步骤S5012,对于每个画像发现特征,计算各用户族群在该画像发现特征上的各第一平均值的平均值,作为该画像发现特征的第二平均值。
例如,画像发现特征w的第二平均值可以为
步骤S5013,对于每个画像发现特征,计算各用户族群在该画像发现特征上的各第一平均值的标准差,作为该画像发现特征的标准差。
例如,画像发现特征w的标准差可以为(其中,v,w均为整数,且v∈[1,z],w∈[1,x])。
步骤S5014,对于每个用户族群,分别确定该用户族群在每个画像发现特征上的第一平均值、与对应的画像发现特征的第二平均值之间的差值,作为该用户族群在每个画像发现特征上的差值。
例如,用户族群v在画像发现特征w上的差值为diffv,w=avg_Fv,w-meanw(其中,v,w均为整数,且v∈[1,z],w∈[1,x])。
步骤S5015,对于每个用户族群,分别确定该用户族群在每个画像发现特征上的差值、及对应的画像发现特征的标准差之间的比值,作为该用户族群在对应画像发现特征上的得分。
例如,用户族群v在画像发现特征w上的得分可以为scorev,w=diffv,w/stddevw(其中,v,w均为整数,且v∈[1,z],w∈[1,x])。
步骤S5016,根据得分确定每个用户族群对应的画像信息。
步骤S5017,输出每个用户族群对应的画像信息。
<例子2>
在上述例子1的基础上,在执行完上述步骤S5009之后,该方法还可以包括如图6所示的步骤S6001~S6004:
步骤S6001,获取每个用户族群的聚类中心。
聚类中心可以为对应用户族群中的用户在每个聚类特征的特征值的平均值。例如,用户族群1中包含用户1~用户t,聚类特征的数量为L,用户i在聚类特征l上的特征值为fi,j,其中,i,l为整数,i∈[1,t],l∈[1,L],那么,该用户族群1的聚类中心可以为
步骤S6002,获取新用户的新数据,新数据包括每个聚类特征对应的新的特征值。
步骤S6003,根据新用户的聚类特征对应的新的特征值,确定新用户与每个聚类中心之间的新的欧式距离。
步骤S6004,将新用户划分至新的欧式距离最小的聚类中心所对应的用户族群中。
在得到新的用户族群之后,还可以对新的用户族群执行例子1中的步骤S5011~S5017,重新确定并输出每个用户族群的画像信息。
<例子3>
在上述例子1和例子2的基础上,在执行完上述步骤S5016之后,该方法还可以包括如图7所示的步骤S7001~S7005:
S7001,获取待推荐产品。
S7002,获取待推荐产品的产品标签。
S7003,根据每个用户族群对应的画像信息、及待推荐产品的产品标签,确定每个用户族群与每个待推荐产品的匹配度。
S7004,根据匹配度,选取与每个用户族群匹配的待推荐产品。
S7005,向每个用户族群中的用户推荐对应的用户族群所匹配的待推荐产品。
<装置>
在本实施例中,提供一种构建用户画像信息的装置8000,如图8所示,包括数据获取模块8100、聚类特征选取模块8200、聚类模块8300、发现特征选取模块8400、画像信息确定模块8500和画像信息输出模块8600。
上述数据获取模块8100用于获取特定用户集合对应的用户数据集合,其中,用户数据集合中的每条数据唯一对应于特定用户集合中的一个用户,且每条数据包括多个特征分别对应的特征值。
上述聚类特征选取模块8200用于从多个特征中选取部分特征作为聚类特征。
上述聚类模块8300用于基于所选取的聚类特征进行聚类处理,将特定用户集合分为多个用户族群。
上述发现特征选取模块8400用于从多个特征中选取画像发现特征。
上述画像信息确定模块8500用于分别针对每个画像发现特征,计算各用户族群在该画像发现特征上的得分,并根据得分确定每个用户族群对应的画像信息。
上述画像信息输出模块8600用于输出每个用户族群对应的画像信息。
在一个实施例中,聚类模块8300还可以用于:
为特定用户集合中的每个用户构建由各聚类特征对应的特征值组成的样本,得到用户聚类样本集合;
采用聚类算法,根据用户聚类样本集合对特定用户集合中的用户进行聚类处理,得到多个用户族群。
在一个实施例中,数据获取模块8100还可以用于:
获取关于特定用户集合的多个数据表;
以用户标识作为主键,将多个数据表拼接为一个宽表;其中,宽表的每一行对应一个用户,除用户标识以外的每一列对应一个特征;或者,宽表的每一列对应一个用户,除用户标识以外的每一行对应一个特征。
在一个实施例中,聚类特征选取模块8200具体可以用于利用以下任意一种或多种方式选取聚类特征:
从多个特征中选取空值率小于或等于设定值的特征,作为聚类特征;
从多个特征中选取满足业务需求的部分特征,作为聚类特征,其中,业务是应用画像信息进行决策的业务;
从多个特征中选取至少一组类型重复的特征,分别合并每组类型重复的特征得到新的特征,将新的特征作为聚类特征;
从多个特征中选取至少一组类型重复的特征,分别从每组类型重复的特征中选取一个代表特征,将代表特征作为聚类特征。
在一个实施例中,用户数据集合为以用户标识作为主键的宽表;
聚类特征选取模块8200用于从多个特征中选取空值率小于或等于设定值的特征,作为聚类特征;
该装置8000还可以包括:
用于根据宽表,获得用户的总数量,作为第一数量的模块;
用于根据宽表,分别获得每个特征的特征值为空的用户的数量,作为每个特征对应的第二数量的模块;
用于分别确定每个特征对应的第二数量和第一数量的比值,作为每个特征的空值率的模块。
在一个实施例中,聚类模块8300还可以用于:
根据聚类特征的特征值,确定每两个用户之间的欧式距离;
根据每两个用户之间的欧式距离对特定用户集合中的用户进行聚类,得到多个用户族群。
在一个实施例中,用户族群的数量为设定数量;
根据每两个用户之间的欧式距离对特定用户集合中的用户进行聚类,得到多个用户族群包括:
选取欧式距离最大的设定数量个用户,分别作为每个用户族群的初始中心;
将其他用户划分至与对应的初始中心之间的欧式距离最近的用户族群中;其中,其他用户为特定用户集合中除设定数量个用户以外的用户。
在一个实施例中,发现特征选取模块8400还可以用于:
将多个特征均作为画像发现特征。
在一个实施例中,分别针对每个画像发现特征,计算各用户族群在该画像发现特征上的得分包括:
对于每个画像发现特征,分别确定每个用户族群中的用户在该画像发现特征上的平均特征值,作为每个用户族群在各画像发现特征上的第一平均值;
对于每个画像发现特征,计算各用户族群在该画像发现特征上的各第一平均值的平均值,作为该画像发现特征的第二平均值;
对于每个画像发现特征,计算各用户族群在该画像发现特征上的各第一平均值的标准差,作为该画像发现特征的标准差;
对于每个用户族群,根据该用户族群在每个画像发现特征上的第一平均值、以及对应的画像发现特征的第二平均值和标准差,得到该用户族群在每个画像发现特征上的得分。
在一个实施例中,对于每个用户族群,根据该用户族群在每个画像发现特征上的第一平均值、以及对应的画像发现特征的第二平均值和标准差,得到该用户族群在每个画像发现特征上的得分包括:
对于每个用户族群,分别确定该用户族群在每个画像发现特征上的第一平均值、与对应的画像发现特征的第二平均值之间的差值,作为该用户族群在每个画像发现特征上的差值;
对于每个用户族群,分别确定该用户族群在每个画像发现特征上的差值、及对应的画像发现特征的标准差之间的比值,作为该用户族群在对应画像发现特征上的得分。
在一个实施例中,根据得分确定每个用户族群对应的画像信息包括:
对于每个用户族群,确定对应的得分超过设定范围的画像发现特征,作为该用户族群的目标画像特征,并根据该用户族群的目标画像特征和对应的得分,得到该用户族群对应的画像信息。
在一个实施例中,该装置8000还可以包括:
用于获取每个用户族群的聚类中心的模块;
用于获取新用户的新数据,新数据包括每个聚类特征对应的新的特征值的模块;
用于根据新用户的每个聚类特征对应的新的特征值和每个用户族群的聚类中心,确定新用户所对应的用户族群的模块。
在一个实施例中,获取每个用户族群的聚类中心包括:
分别确定每个用户族群所对应的用户的每个聚类特征的特征值的平均值,作为每个用户族群的聚类中心。
在一个实施例中,根据新用户的每个聚类特征对应的新的特征值和每个用户族群的聚类中心,确定新用户对应的用户族群包括:
根据新用户的聚类特征对应的新的特征值,确定新用户与每个聚类中心之间的新的欧式距离;
将新用户划分至新的欧式距离最小的聚类中心所对应的用户族群中。
在一个实施例中,该装置8000还可以包括:
用于获取待推荐产品的模块;
用于分别根据每个用户族群对应的画像信息,选取与每个用户族群匹配的待推荐产品的模块;
用于向每个用户族群中的用户推荐对应的用户族群所匹配的待推荐产品的模块。
在一个实施例中,分别根据每个用户族群对应的画像信息,选取与每个用户族群匹配的待推荐产品包括:
获取待推荐产品的产品标签;
根据每个用户族群对应的画像信息、及待推荐产品的产品标签,确定每个用户族群与每个待推荐产品的匹配度;
根据匹配度,选取与每个用户族群匹配的待推荐产品。
在一个实施例中,该装置8000还可以包括:
用于获取画像信息所适用的应用场景的模块;
用于基于应用场景,展示每个用户族群对应的画像信息的模块。
本领域技术人员应当明白,可以通过各种方式来实现构建用户画像信息的装置8000。例如,可以通过指令配置处理器来实现构建用户画像信息的装置8000。例如,可以将指令存储在ROM中,并且当启动设备时,将指令从ROM读取到可编程器件中来实现构建用户画像信息的装置8000。例如,可以将构建用户画像信息的装置8000固化到专用器件(例如ASIC)中。可以将构建用户画像信息的装置8000分成相互独立的单元,或者可以将它们合并在一起实现。构建用户画像信息的装置8000可以通过上述各种实现方式中的一种来实现,或者可以通过上述各种实现方式中的两种或更多种方式的组合来实现。
在本实施例中,构建用户画像信息的装置8000可以具有多种实现形式,例如,构建用户画像信息的装置8000可以是任何的提供网络访问服务的软件产品或者应用程序中运行的功能模块,或者是这些软件产品或者应用程序的外设嵌入件、插件、补丁件等,还可以是这些软件产品或者应用程序本身。
<电子设备>
在本实施例中,还提供一种电子设备9000。该电子设备9000可以是图1所示的电子设备1000。
在一方面,该电子设备9000可以包括前述的构建用户画像信息的装置8000,用于实施本发明任意实施例的构建用户画像信息的方法。
在另一方面,如图9所示,电子设备9000还可以包括处理器9100和存储器9200,该存储器9200用于存储可执行的指令;该处理器9100用于根据指令的控制运行电子设备9000执行根据本发明任意实施例的构建用户画像信息方法。
在本实施例中,该电子设备9000可以是手机、平板电脑、掌上电脑、台式机、笔记本电脑、工作站、游戏机等设备。
<计算机可读存储介质>
在本实施例中,还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序在被处理器执行时实现如本发明任意实施例的构建用户画像信息方法。
本发明可以是设备、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本发明的各个方面。
这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是,通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。
Claims (10)
1.一种构建用户画像信息的方法,其特征在于,包括:
获取特定用户集合对应的用户数据集合,其中,所述用户数据集合中的每条数据唯一对应于所述特定用户集合中的一个用户,且每条数据包括多个特征分别对应的特征值;
从所述多个特征中选取部分特征作为聚类特征;
基于所选取的聚类特征进行聚类处理,将所述特定用户集合分为多个用户族群;
从所述多个特征中选取画像发现特征;
分别针对每个画像发现特征,计算各用户族群在该画像发现特征上的得分,并根据所述得分确定每个用户族群对应的画像信息;
输出每个用户族群对应的画像信息。
2.根据权利要求1所述的方法,其特征在于,所述基于所选取的聚类特征进行聚类处理,将所述特定用户集合分为多个用户族群包括:
为所述特定用户集合中的每个用户构建由各聚类特征对应的特征值组成的样本,得到用户聚类样本集合;
采用聚类算法,根据所述用户聚类样本集合对所述特定用户集合中的用户进行聚类处理,得到多个用户族群。
3.根据权利要求1所述的方法,其特征在于,所述获取特定用户集合对应的用户数据集合包括:
获取关于所述特定用户集合的多个数据表;
以用户标识作为主键,将所述多个数据表拼接为一个宽表;其中,所述宽表的每一行对应一个用户,除用户标识以外的每一列对应一个特征;或者,所述宽表的每一列对应一个用户,除用户标识以外的每一行对应一个特征。
4.根据权利要求1所述的方法,其特征在于,从所述多个特征中选取部分特征作为聚类特征的方法为以下任意一种或多种:
从所述多个特征中选取空值率小于或等于设定值的特征,作为所述聚类特征;
从所述多个特征中选取满足业务需求的部分特征,作为所述聚类特征,其中,所述业务是应用所述画像信息进行决策的业务;
从所述多个特征中选取至少一组类型重复的特征,分别合并每组类型重复的特征得到新的特征,将所述新的特征作为所述聚类特征;
从所述多个特征中选取至少一组类型重复的特征,分别从每组类型重复的特征中选取一个代表特征,将所述代表特征作为所述聚类特征。
5.根据权利要求4所述的方法,其特征在于,所述用户数据集合为以用户标识作为主键的宽表;
当从所述多个特征中选取空值率小于设定值的特征时,该方法还包括如下计算特征空值率的步骤:
根据所述宽表,获得用户的总数量,作为第一数量;
根据所述宽表,分别获得每个特征的特征值为空的用户的数量,作为每个特征对应的第二数量;
分别确定每个特征对应的第二数量和所述第一数量的比值,作为每个特征的空值率。
6.根据权利要求1所述的方法,其特征在于,所述基于所选取的聚类特征进行聚类处理,将所述特定用户集合分为多个用户族群的步骤包括:
根据所述聚类特征的特征值,确定每两个用户之间的欧式距离;
根据每两个用户之间的欧式距离对所述特定用户集合中的用户进行聚类,得到多个所述用户族群。
7.根据权利要求6所述的方法,其特征在于,所述用户族群的数量为设定数量;
所述根据每两个用户之间的欧式距离对所述特定用户集合中的用户进行聚类,得到多个所述用户族群的步骤包括:
选取欧式距离最大的设定数量个用户,分别作为每个用户族群的初始中心;
将其他用户划分至与对应的初始中心之间的欧式距离最近的用户族群中;其中,所述其他用户为所述特定用户集合中除所述设定数量个用户以外的用户。
8.一种构建用户画像信息的装置,其特征在于,包括:
数据获取模块,用于获取特定用户集合对应的用户数据集合,其中,所述用户数据集合中的每条数据唯一对应于所述特定用户集合中的一个用户,且每条数据包括多个特征分别对应的特征值;
聚类特征选取模块,用于从所述多个特征中选取部分特征作为聚类特征;
聚类模块,用于基于所选取的聚类特征进行聚类处理,将所述特定用户集合分为多个用户族群;
发现特征选取模块,用于从所述多个特征中选取画像发现特征;
画像信息确定模块,用于分别针对每个画像发现特征,计算各用户族群在该画像发现特征上的得分,并根据所述得分确定每个用户族群对应的画像信息;
画像信息输出模块,用于输出每个用户族群对应的画像信息。
9.一种电子设备,其特征在于,包括:
如权利要求8所述的装置;或者,
处理器和存储器,所述存储器用于存储指令,所述指令用于控制所述处理器执行根据权利要求1至7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序在被处理器执行时实现如权利要求1至7中任一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310070737.XA CN116109332A (zh) | 2019-07-16 | 2019-07-16 | 一种构建用户画像信息的方法、装置及电子设备 |
CN201910641681.2A CN110472998A (zh) | 2019-07-16 | 2019-07-16 | 一种构建用户画像信息的方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910641681.2A CN110472998A (zh) | 2019-07-16 | 2019-07-16 | 一种构建用户画像信息的方法、装置及电子设备 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310070737.XA Division CN116109332A (zh) | 2019-07-16 | 2019-07-16 | 一种构建用户画像信息的方法、装置及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110472998A true CN110472998A (zh) | 2019-11-19 |
Family
ID=68508804
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310070737.XA Pending CN116109332A (zh) | 2019-07-16 | 2019-07-16 | 一种构建用户画像信息的方法、装置及电子设备 |
CN201910641681.2A Pending CN110472998A (zh) | 2019-07-16 | 2019-07-16 | 一种构建用户画像信息的方法、装置及电子设备 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310070737.XA Pending CN116109332A (zh) | 2019-07-16 | 2019-07-16 | 一种构建用户画像信息的方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (2) | CN116109332A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113723984A (zh) * | 2021-03-03 | 2021-11-30 | 京东城市(北京)数字科技有限公司 | 人群消费画像信息的获取方法、装置和存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106056407A (zh) * | 2016-06-03 | 2016-10-26 | 北京网智天元科技股份有限公司 | 基于用户行为分析的网银用户画像方法及设备 |
CN108776907A (zh) * | 2018-05-31 | 2018-11-09 | 康键信息技术(深圳)有限公司 | 广告智能推荐方法、服务器及存储介质 |
CN109241202A (zh) * | 2018-09-11 | 2019-01-18 | 杭州飞弛网络科技有限公司 | 一种基于聚类的陌生人社交用户匹配方法和系统 |
CN109493199A (zh) * | 2019-01-04 | 2019-03-19 | 深圳壹账通智能科技有限公司 | 产品推荐方法、装置、计算机设备和存储介质 |
CN109543111A (zh) * | 2018-11-28 | 2019-03-29 | 广州虎牙信息科技有限公司 | 推荐信息筛选方法、装置、存储介质及服务器 |
CN109635184A (zh) * | 2018-11-02 | 2019-04-16 | 平安科技(深圳)有限公司 | 基于数据分析的金融产品推荐方法、装置和计算机设备 |
CN109684330A (zh) * | 2018-12-17 | 2019-04-26 | 深圳市华云中盛科技有限公司 | 用户画像库构建方法、装置、计算机设备及存储介质 |
CN109685581A (zh) * | 2019-01-03 | 2019-04-26 | 江苏方天电力技术有限公司 | 一种基于标签聚类技术的电力大客户用电行为分析方法 |
CN109711484A (zh) * | 2019-01-10 | 2019-05-03 | 哈步数据科技(上海)有限公司 | 一种顾客的分类方法及系统 |
CN109815987A (zh) * | 2018-12-27 | 2019-05-28 | 北京卓思天成数据咨询股份有限公司 | 一种人群分类方法和分类系统 |
-
2019
- 2019-07-16 CN CN202310070737.XA patent/CN116109332A/zh active Pending
- 2019-07-16 CN CN201910641681.2A patent/CN110472998A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106056407A (zh) * | 2016-06-03 | 2016-10-26 | 北京网智天元科技股份有限公司 | 基于用户行为分析的网银用户画像方法及设备 |
CN108776907A (zh) * | 2018-05-31 | 2018-11-09 | 康键信息技术(深圳)有限公司 | 广告智能推荐方法、服务器及存储介质 |
CN109241202A (zh) * | 2018-09-11 | 2019-01-18 | 杭州飞弛网络科技有限公司 | 一种基于聚类的陌生人社交用户匹配方法和系统 |
CN109635184A (zh) * | 2018-11-02 | 2019-04-16 | 平安科技(深圳)有限公司 | 基于数据分析的金融产品推荐方法、装置和计算机设备 |
CN109543111A (zh) * | 2018-11-28 | 2019-03-29 | 广州虎牙信息科技有限公司 | 推荐信息筛选方法、装置、存储介质及服务器 |
CN109684330A (zh) * | 2018-12-17 | 2019-04-26 | 深圳市华云中盛科技有限公司 | 用户画像库构建方法、装置、计算机设备及存储介质 |
CN109815987A (zh) * | 2018-12-27 | 2019-05-28 | 北京卓思天成数据咨询股份有限公司 | 一种人群分类方法和分类系统 |
CN109685581A (zh) * | 2019-01-03 | 2019-04-26 | 江苏方天电力技术有限公司 | 一种基于标签聚类技术的电力大客户用电行为分析方法 |
CN109493199A (zh) * | 2019-01-04 | 2019-03-19 | 深圳壹账通智能科技有限公司 | 产品推荐方法、装置、计算机设备和存储介质 |
CN109711484A (zh) * | 2019-01-10 | 2019-05-03 | 哈步数据科技(上海)有限公司 | 一种顾客的分类方法及系统 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113723984A (zh) * | 2021-03-03 | 2021-11-30 | 京东城市(北京)数字科技有限公司 | 人群消费画像信息的获取方法、装置和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116109332A (zh) | 2023-05-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230031926A1 (en) | Method, medium, and system for surfacing recommendations | |
CN102708130B (zh) | 计算用户微细分以用于要约匹配的可扩展引擎 | |
US11049149B2 (en) | Determination of targeted food recommendation | |
Bose et al. | Exploring business opportunities from mobile services data of customers: An inter-cluster analysis approach | |
CN110088749A (zh) | 自动本体生成 | |
WO2018040069A1 (zh) | 信息推荐系统及方法 | |
US20130238649A1 (en) | Visual and context-oriented curation and knowledge/insight discovery platform | |
US20200097456A1 (en) | Integrated entity view across distributed systems | |
US10554613B2 (en) | Dynamic hashtag ordering based on projected interest | |
CN111198873B (zh) | 数据处理的方法和装置 | |
CN109697641A (zh) | 计算商品相似度的方法和装置 | |
CN105094572B (zh) | 菜单自调整滚屏显示控制方法、服务器及便携式终端 | |
CN104102670A (zh) | 绩效指标分析框架 | |
Chang et al. | Cashless Japan: Unlocking influential risk on mobile payment service | |
CN109272402A (zh) | 评分卡的建模方法、装置、计算机设备及存储介质 | |
CN110046981A (zh) | 一种信用评估方法、装置及存储介质 | |
US11386090B2 (en) | Defining attribute feature vectors for matching data entities | |
US11256722B2 (en) | Techniques for modeling aggregation records | |
CN110472998A (zh) | 一种构建用户画像信息的方法、装置及电子设备 | |
US11675773B2 (en) | Content management | |
CN112417004A (zh) | 一种实体关系图谱构建的方法和装置 | |
US11977565B2 (en) | Automated data set enrichment, analysis, and visualization | |
Enahoro et al. | GSM and the Nigerian Economy: The Journey from 2004 to 2019 | |
Fraihat et al. | An efficient enhanced k-means clustering algorithm for best offer prediction in telecom | |
CN106297079B (zh) | 一种提供功能模块的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191119 |