CN109903086A - 一种相似人群扩展方法、装置及电子设备 - Google Patents
一种相似人群扩展方法、装置及电子设备 Download PDFInfo
- Publication number
- CN109903086A CN109903086A CN201910113606.9A CN201910113606A CN109903086A CN 109903086 A CN109903086 A CN 109903086A CN 201910113606 A CN201910113606 A CN 201910113606A CN 109903086 A CN109903086 A CN 109903086A
- Authority
- CN
- China
- Prior art keywords
- user
- specified dimension
- seed
- class cluster
- pond
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供了一种相似人群扩展方法、装置及电子设备,涉及推荐技术领域,可以提高获取相似人群的速度。本申请的实施例包括:确定种子用户集中各种子用户所属的目标类簇,其中,种子用户集包括至少一个种子用户;然后确定候选用户与种子用户集的相似度,其中,候选用户为目标类簇中除种子用户外的用户;再按照相似度从高到低的顺序,选择第一预设数量个候选用户,确定所选择的候选用户为种子用户集的相似用户集。
Description
技术领域
本发明涉及推荐技术领域,特别是涉及一种相似人群扩展方法、装置及电子设备。
背景技术
目前,为满足广告主投放广告的需求,互联网领域已经有一些技术可以提供“相似人群拓展功能”,该功能可以基于定制的种子用户的特征,寻找与种子用户相似的用户,从而自动实现规模化的相似人群拓展,帮助广告主高效地找到潜在的用户,提高了人群圈选和广告投放的效率。
现有的人群扩展算法中,一般是预先通过种子用户和非种子用户的数据对分类模型进行训练,然后在进行相似人群扩展时,将用户池中每个用户的数据逐一输入训练好的分类模型中,根据分类结果确定用户池中的每个用户是否为与种子用户相似的用户,从而从用户池中筛选出相似人群。
但是采用这种方法,每次训练出的分类模型只能用于特定的种子用户的相似人群扩展,若需对其他种子用户进行相似人群扩展,则需要重新训练分类模型。并且在通过分类模型筛选相似人群时,需要逐一判断用户池中每个用户是否为属于相似人群,效率较低。
发明内容
本发明实施例的目的在于提供一种相似人群扩展方法、装置及电子设备,以实现提高获取相似人群的效率。具体技术方案如下:
第一方面,提供了一种相似人群扩展方法,所述方法包括:
确定种子用户集中各种子用户所属的目标类簇;所述种子用户集包括至少一个种子用户;
确定候选用户与所述种子用户集的相似度;所述候选用户为所述目标类簇中除所述种子用户外的用户;
按照相似度从高到低的顺序,选择第一预设数量个候选用户,确定所选择的候选用户为所述种子用户集的相似用户集。
可选的,在所述确定种子用户集中各种子用户所属的目标类簇步骤之前,所述方法还包括:
根据用户池中各用户的用户画像信息,确定所述用户池中各用户在各指定维度的特征值,所述用户画像信息中包括所述指定维度对应的用户信息,所述用户在指定维度的特征值用于反映该用户在所述指定维度的偏好程度;
根据所述用户池中各用户在各指定维度的特征值,对所述用户池中的用户进行聚类,将所述用户池中的用户分为至少两个类簇;
所述确定种子用户集中各种子用户所属的目标类簇,包括:
从所述用户池中,选取种子用户集中各种子用户所属的目标类簇。
可选的,所述确定候选用户与所述种子用户集的相似度,包括:
针对每一指定维度,根据所述种子用户集中各种子用户在所述指定维度的特征值,以及所述用户池中各用户在所述指定维度的特征值,确定所述指定维度的权重;
针对每一候选用户,根据各指定维度的权重,对所述候选用户在各指定维度的特征值加权求和,得到该候选用户与所述种子用户集的相似度。
可选的,所述根据所述种子用户集中各种子用户在所述指定维度的特征值,以及所述用户池中各用户在所述指定维度的特征值,确定所述指定维度的权重,包括:
针对每一指定维度,确定在所述种子用户集中满足预设条件的种子用户的数量为该指定维度对应的第一权重子参数,确定在所述用户池中满足所述预设条件的用户的数量为该指定维度对应的第二权重子参数;所述预设条件为用户在该指定维度的特征值属于预设目标区间;
针对每一指定维度,确定该指定维度对应的第一权重子参数与所述种子用户集中种子用户的总数量的比值,为该指定维度的第一权重参数;确定该指定维度对应的第二权重子参数,与所述用户池中用户的总数量的比值,为该指定维度的第二权重参数;
根据各指定维度的第一权重参数和第二权重参数,利用下述公式,计算各指定维度的权重:
其中,Wi为第i个指定维度的权重,Ai为第i个指定维度的第一权重参数,Bi为第i个指定维度的第二权重参数,a和b均为预设常数。
可选的,所述方法还包括:
若所述目标类簇中候选用户总数小于所述第一预设数量,则在所述用户池中选择除所述目标类簇以外的至少一个类簇,作为备选类簇;所述备选类簇中用户的总数不小于第二预设数量;所述第二预设数量为所述第一预设数量与所述候选用户总数的差值;
确定所述备选类簇中各用户与所述种子用户集的相似度;
按照相似度从高到低的顺序,从所述备选类簇中选择所述第二预设数量个用户加入所述相似用户集。
第二方面,还提供了一种相似人群扩展装置,所述装置包括:
确定模块,用于确定种子用户集中各种子用户所属的目标类簇;所述种子用户集包括至少一个种子用户;确定候选用户与所述种子用户集的相似度;所述候选用户为所述目标类簇中除所述种子用户外的用户;
选择模块,用于按照相似度从高到低的顺序,选择第一预设数量个候选用户,确定所选择的候选用户为所述种子用户集的相似用户集。
可选的,该装置还包括:聚类模块;
所述确定模块,在执行所述确定种子用户集中各种子用户所属的目标类簇步骤之前,还用于根据用户池中各用户的用户画像信息,确定所述用户池中各用户在各指定维度的特征值,所述用户画像信息中包括所述指定维度对应的用户信息,所述用户在指定维度的特征值用于反映该用户在所述指定维度的偏好程度;
所述聚类模块,用于根据所述确定模块确定的所述用户池中各用户在各指定维度的特征值,对所述用户池中的用户进行聚类,将所述用户池中的用户分为至少两个类簇;
在执行所述确定种子用户集中各种子用户所属的目标类簇步骤时,所述确定模块具体用于:
从所述用户池中,选取种子用户集中各种子用户所属的目标类簇。
可选的,所述确定模块,具体用于:
针对每一指定维度,根据所述种子用户集中各种子用户在所述指定维度的特征值,以及所述用户池中各用户在所述指定维度的特征值,确定所述指定维度的权重;针对每一候选用户,根据各指定维度的权重,对所述候选用户在各指定维度的特征值加权求和,得到该候选用户与所述种子用户集的相似度。
可选的,所述确定模块,具体用于:
针对每一指定维度,确定在所述种子用户集中满足预设条件的种子用户的数量为该指定维度对应的第一权重子参数,确定在所述用户池中满足所述预设条件的用户的数量为该指定维度对应的第二权重子参数;所述预设条件为用户在该指定维度的特征值属于预设目标区间;
针对每一指定维度,确定该指定维度对应的第一权重子参数与所述种子用户集中种子用户的总数量的比值,为该指定维度的第一权重参数;确定该指定维度对应的第二权重子参数,与所述用户池中用户的总数量的比值,为该指定维度的第二权重参数;
根据各指定维度的第一权重参数和第二权重参数,利用下述公式,计算各指定维度的权重:
其中,Wi为第i个指定维度的权重,Ai为第i个指定维度对应的第一权重参数,Bi为第i个指定维度对应的第二权重参数,a和b均为预设常数。
可选的,所述选择模块,还用于若所述目标类簇中候选用户总数小于所述第一预设数量,则在所述用户池中选择除所述目标类簇以外的至少一个类簇,作为备选类簇;所述备选类簇中用户的总数不小于第二预设数量;所述第二预设数量为所述第一预设数量与所述候选用户总数的差值;
所述确定模块,还用于确定所述选择模块选择的所述备选类簇中各用户与所述种子用户集的相似度;
所述选择模块,还用于按照相似度从高到低的顺序,从所述备选类簇中选择所述第二预设数量个用户加入所述相似用户集。
第三方面,提供了一种电子设备,所述电子设备包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述任一相似人群扩展方法的步骤。
第四方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一相似人群扩展方法的步骤。
第五方面,本发明实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一相似人群扩展方法。
本发明实施例提供的相似人群扩展方法、装置及电子设备,与现有技术利用分类模型逐一预测用户池中的用户是否为相似用户相比,本申请只需要计算各个候选用户与种子用户群的相似度,能减少相似人群扩展方法的计算量,提高获取相似人群的效率。另外,现有技术每当获取到种子用户后,都要分别选取训练分类模型的正负样本,用选取的正负样本训练模型,所以现有技术获得分类模型需要消耗大量时间,而本申请只需要预先将用户池中的用户分类,每次获取到种子用户时,可以直接获得各个种子用户所属的目标类簇,其中,属于目标类簇的除种子用户外的用户为候选用户,计算各个候选用户与种子用户集的相似度,将与种子用户集相似度高的候选用户确定为相似用户。可见,应用本发明实施例在减少了获取相似人群的计算量的基础上,又减少了获取相似人群所消耗的时间,所以本发明实施例进一步的提高了获取相似人群的效率。
当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明实施例提供的一种相似人群扩展系统结构示意图;
图2为本发明实施例提供的一种相似人群扩展方法流程图;
图3为本发明实施例提供的另一种相似人群扩展方法流程图;
图4为本发明实施例提供的一种相似人群扩展装置结构示意图;
图5为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。
本发明实施例提供的相似人群扩展方法可以应用于图1所示的相似人群扩展系统中,该系统包括服务器和终端。终端可以与服务器通信,终端与服务器之间的连接可以为无线连接。图1中终端与服务器之间的连接以WiFi(Wireless-Fidelity,无线保真)连接为例。
其中,本发明实施例中的终端可以为计算机、手机、平板电脑或其它电子设备。终端用于访问服务器。
服务器用于获取终端的基本信息,以及获取终端访问服务器时的行为信息。
结合图1,本发明实施例提供的一种相似人群扩展方法,应用于服务器,如图2所示,包括如下步骤:
步骤201,确定种子用户集中各种子用户所属的目标类簇。
其中,种子用户集包括至少一个种子用户。
一种实现方式中,通过各种子用户的身份标识(identity,ID),从用户池中,获取种子用户集中各种子用户的ID对应的类簇,将各个种子用户的ID对应的类簇确定为目标类簇。其中,用户的ID用于标识不同的用户,用户的ID可以是国际移动设备标识(International Mobile Equipment Identity,IMEI)或储存在用户本地终端上的数据(cookie)。
在本发明实施例中,用户池中包括各个用户,各个用户以用户的ID的形式表示。可以根据用户的ID获取用户所属的类簇。
示例性的,假设用户池中的用户共分为10个类簇,种子用户集共有5个种子用户,这5个种子用户分别属于类簇1、类簇2、类簇1、类簇3和类簇1,所以将类簇1、类簇2和类簇3确定为目标类簇,将属于类簇1、类簇2或类簇3的除种子用户外的用户都确定为候选用户。
在本发明实施例中,可以通过方式一或方式二预先对用户池中的用户划分类簇。
方式一、
根据用户池中各用户的用户画像信息,确定用户池中各用户之间的相似度,将相似度大于预设阈值的用户划分为一个类簇。例如:预设阈值为0.9,假设用户池中包括用户A、用户B、用户C和用户D,用户A和用户B的相似度为0.92,用户C和用户D的相似度为0.95,用户A和用户C的相似度为0.32,用户B和用户D的相似度为0.50。则将用户A和用户B划分为一个类簇,将用户C和用户D划分为另一个类簇。
方式二、
根据用户池中各用户的用户画像信息,确定用户池中各用户在各指定维度的特征值,其中,用户画像信息中包括指定维度对应的用户信息,用户在指定维度的特征值用于反映该用户在指定维度的偏好程度。然后根据用户池中各用户在各指定维度的特征值,对用户池中的用户进行聚类,将用户池中的用户分为至少两个类簇。
在本发明实施例中,一个指定维度的特征值可以反映用户的一类行为信息或一类基本信息;或者,一个指定维度的特征值可以反映用户的一类行为信息的一个子类信息或一类基本信息的一个子类信息。
例如:一类基本信息为:性别;则可以用0表示用户的性别为男,用1表示用户的性别为女。一类基本信息(年龄)的一个子类信息为:是否为青年;则可以用0表示用户的年龄段不属于青年,用1表示是用户的年龄段属于青年。
示例性的,基本信息包括:性别、年龄和常住城市等。行为信息包括:观看过的视频、加入的泡泡圈子、点击的站内广告、看过的书籍和购买过的商品等。例如,指定维度可以为用户的性别情况,或者用户对电影的观看情况,或者为用户对指定视频的观看情况。例如:若一个指定维度表示对某一个视频的观看情况,则该维度对应的特征值表示用户是否观看过该视频。
用户在各指定维度的特征值用于反映用户在指定维度的行为特征或基本信息特征,例如:若指定的10个指定维度为用户对指定的10个视频的观看情况,则每个用户对每个视频的观看情况对应一个特征值,分别表示用户是否看过这十个视频,假设用户1看过视频1和视频3,那么用户1在这指定的10个指定维度的特征值分别为:1、0、1、0、0、0、0、0、0和0。
再例如:指定维度为用户的年龄情况,服务器将年龄情况分为少年、青年、中年和老年,分别对应四个指定维度的特征值,分别表示用户的年龄是否为:少年、青年、中年和老年。若用户1的年龄是10岁,那么用户1的年龄情况的特征值分别为:1、0、0和0。
在本发明实施例中,特征值可以用0或1表示,也可以用其他参数表示(例如:用a或b表示)。例如:一个指定维度表示对视频4的喜好程度,则该指定维度的特征值还可以为0(表示对视频4的喜好程度为不喜欢)、1(表示对视频4的喜好程度为一般)、2(表示对视频4的喜好程度为喜欢)或3(表示对视频4的喜好程度为非常喜欢)。
在本发明实施例中,可以根据用户池中各用户在各指定维度的特征值,为每个用户分别生成一个特征向量,根据各用户对应的特征向量的距离,利用K均值K-Means算法,预先设置K个类簇,计算用户池中各用户所属的类簇。除了K-Means算法,其它能够将用户划分为K个类簇的聚类算法均可以实现本发明。示例性的,可以将K设置为10。
在本发明实施例中,访问过上述服务器的用户都可以确定为用户池中的用户。
进一步的,可以每隔一段时间(例如每天,或者每小时)根据用户的特征值的更新情况,更新用户池中的各用户所属的类簇。
在本发明实施例中,用户在预设时间段内访问上述服务器时,若产生了新的行为信息,该用户的特征值就会相应的进行更新。
例如:一个指定维度的特征值表示是否点击过站内广告A,若一个用户在预设时间段之前该指定维度的特征值为0,在预设时间段内点击了站内广告A,则将该用户的该指定维度的特征值更新为1。
步骤202,确定候选用户与种子用户集的相似度。
其中,候选用户为目标类簇中除种子用户外的用户。
确定各候选用户与种子用户集的相似度的方法为:针对每一指定维度,根据种子用户集中各种子用户在该指定维度的特征值,以及用户池中各用户在该指定维度的特征值,确定该指定维度的权重。并针对每一候选用户,根据各指定维度的权重,对该候选用户在各指定维度的特征值加权求和,得到该候选用户与种子用户集的相似度。计算相似度的公式为:
其中,Xi为第i个候选用户与种子用户集的相似度,为第i个候选用户的第n个指定维度的特征值,Wn为第n个指定维度的权重。
示例性的,假设用户池中的各用户分别有5个指定维度的特征值,每个指定维度的权重分别为:0.1、0.5、0.7、0.3和0.5。候选用户1的5个指定维度的特征值分别为:0、1、1、0和1,则候选用户1与种子用户集的相似度为:0.1×0+0.5×1+0.7×1+0.3×0+0.5×1=1.7。
进一步的,确定各指定维度的权重的方法为:
首先,针对每一指定维度,确定在种子用户集中满足预设条件的种子用户的数量为该指定维度对应的第一权重子参数,确定在用户池中满足预设条件的用户的数量为该指定维度对应的第二权重子参数,其中,预设条件为用户在该指定维度的特征值属于预设目标区间。
一种实施方式中,若用户在指定维度的特征值为0(表示用户有该指定维度的特征)或1(表示用户没有该指定维度的特征),预设条件为用户在该指定维度的特征值为目标值。可以设置目标值为1,表示确定具有该指定维度特征的用户数量。
例如:种子用户集中共有3个种子用户,用户池中各用户分别有3个指定维度的特征值,种子用户1的3个特征值分别为:1、0和1,种子用户2的3个特征值分别为:1、1和1,种子用户3的3个特征值分别为:1、0和0。假设预设条件为用户在指定维度的特征值为1,则第一个指定维度的第一权重子参数为:第二个指定维度的第一权重子参数为:第三个指定维度的第一权重子参数为:
另一种实施方式中,若用户在指定维度的特征值为0、1、2或3,分别表示该用户在该指定维度的偏好程度,预设条件为用户在该指定维度的特征值属于目标区间。可以设置目标区间为1-3,表示确定对该指定维度偏好程度为1-3的用户数量,即确定对该指定维度有偏好的用户数量。
其次,针对每一指定维度,确定该指定维度对应的第一权重子参数与种子用户集中种子用户的总数量的比值,为该指定维度的第一权重参数。
然后,确定该指定维度对应的第二权重子参数,与用户池中用户的总数量的比值,为该指定维度的第二权重参数。
最后,根据各指定维度的第一权重参数和第二权重参数,利用公式(2),计算各指定维度的权重。通过上述方法确定各指定维度的权重后,可以根据各指定维度的权重,对候选用户在各指定维度的特征值加权求和,得到各候选用户与种子用户集的相似度。
其中,Wi为第i个指定维度的权重,Ai为第i个指定维度对应的第一权重参数,Bi为第i个指定维度对应的第二权重参数,a和b均为预设常数。
示例性的,可以将a设置为0.5,将b设置为0.00001。假设第一个指定维度的第一权重参数为0.7,第一个指定维度的第二权重参数为0.6,则第一个指定维度的权重为:
在本发明实施例中,公式(2)中的分子表示指定维度i在本次相似人群扩展中的重要程度,这是因为第一权重参数Ai表示的是:种子用户集中,具有指定维度i对应的特征信息的种子用户数量,与种子用户集中的种子用户总数量的比值。
所以若指定维度i的第一参数超过0.5,指定维度i的权重则为正数,表示具有指定维度i对应的特征信息的种子用户在种子用户集中所占比例较大,在本次相似人群扩展中较为重要。
若指定维度i的第一参数低于0.5,指定维度i的权重为则负数,表示具有指定维度i对应的特征信息的种子用户在种子用户集中所占比例较小,在本次相似人群扩展中较为不重要。
若指定维度i的第一参数越接近0.5,表示指定维度i在种子用户集中越没有区分度。
公式(2)中的分母表示具有指定维度i对应的特征信息的用户比例在种子用户群中用户和用户池中用户间的差异,若差异越大那么该特征的权重就越小;反之差异越小,该特征的权重就越大;且需保证差异是正数,保证了权重的正负只由分子决定。
另外,可以将分母中的预设常数b设置为接近0的正数,为了保证在差异为0时,公式(2)仍成立。
步骤203,按照相似度从高到低的顺序,选择第一预设数量个候选用户,确定所选择的候选用户为种子用户集的相似用户集。
示例性的,第一预设数量可以为2000万。假设候选用户数量为3000万,其中,候选用户中有100万个种子用户,则除种子用户以外的候选用户数量为2900万,按照相似度从高到底的顺序,从2900万个候选用户中选择2000万个相似度较高的候选用户组成种子用户集的相似用户集。
本发明实施例提供的相似人群扩展方法,与现有技术利用分类模型逐一预测用户池中的用户是否为相似用户相比,本申请只需要计算各个候选用户与种子用户群的相似度,而现有技术需要计算用户池中每个用户与种子用户群的相似度,所以本发明能够减少相似人群扩展方法的计算量。另外,现有技术每当获取到种子用户后,都要分别选取训练分类模型的正负样本,用选取的正负样本训练模型,所以现有技术获得分类模型需要消耗大量时间。而本申请只需要预先将用户池中的用户分类,每次获取到种子用户时,可以直接获得各个种子用户所属的目标类簇,其中,属于目标类簇的除种子用户外的用户为候选用户,计算各个候选用户与种子用户集的相似度,将与种子用户集相似度高的候选用户确定为相似用户。可见,应用本发明实施例既减少了获取相似人群的计算量,又减少了获取相似人群所消耗的时间,所以本发明实施例能够提高获取相似人群的效率。
进一步的,若目标类簇中包括的候选用户的总数小于第一预设数量,则可进一步从其他类簇中选取候选用户,如图3所示,该方法包括步骤301至步骤306。
其中,步骤301至步骤303与步骤201至步骤203相同,可参考上述步骤201至步骤203中的相关描述,在此不再赘述。
步骤304,在用户池中选择除目标类簇以外的至少一个类簇,作为备选类簇。
其中,备选类簇中用户的总数不小于第二预设数量,第二预设数量为第一预设数量与候选用户总数的差值。
在本发明实施例中,可以根据第一预设数量与候选用户总数的差值,确定选择的类簇。例如:若第一预设数量为2000万,候选用户总数为1950万,则第一预设数量与候选用户总数的差值为50万,说明除候选用户外还需要再从用户池中选择50万个除种子用户外的用户加入相似用户集。假设各个类簇中的用户数量均不小于100万,则可以随机选择出目标类簇以外的一个类簇。
步骤305,确定备选类簇中各用户与种子用户集的相似度。
在本发明实施例中,确定备选类簇中各用户与种子用户集的相似度的方法与确定候选用户与种子用户集的相似度的方法相同,可参考上述步骤202中确定候选用户与种子用户集的相似度的方法,在此不再赘述。
步骤306,按照相似度从高到低的顺序,从备选类簇中选择第二预设数量个用户加入相似用户集。
示例性的,若随机选择了一个类簇,该类簇中有100万个用户,第二预设数量为50万,则按照相似度从高到低的顺序,从该类簇的100万个用户中选择50万个相似度较高用户加入种子用户集的相似用户集。
在本发明实施例中,若随机选择一个除目标类簇以外的一个类簇A后,如果把类簇A中的用户都加入相似用户集,判断此时相似用户集中的用户总数是否小于第一预设数量,若小于第一预设数量,则再选择至少一个除目标类簇以外的未被选择过的类簇,从再次选择的类簇中选择相似度排名较高的第三预设数量的用户加入种子用户集的相似用户集,直至相似用户集中的用户数量等于第一预设数量。其中,第三预设数量为:
N3=N1-Nh-NA (3)
其中,N3为第三预设数量,N1为第一预设数量,Nh为候选用户总数,NA为类簇A中用户的数量。
可见,应用本发明实施例,在候选用户总数小于第一预设数量时,可以选择至少一个类簇作为备选类簇,根据备选类簇中的用户与种子用户群的相似度,选择第二预设数量的用户加入相似用户集。由于可以从备选类簇中选择与种子用户集相似度较高的用户加入相似用户集,与现有技术计算用户池中每个用户的相似度,选择预设数量的用户组成相似用户集相比,本发明可以只计算用户池中的各候选用户和备选类簇中的各用户与种子用户集的相似度,所以本发明能够减少相似人群扩展方法的计算量,能够提高获取相似人群的速度,所以本发明还能够满足相似人群扩展的时效性需求。
另外,由于在本发明实施例中,可以根据用户池中各用户的特征值的更新情况,每隔一段时间更新一次用户池中各用户所属的类别,既能够满足相似人群扩展的时效性需求,又提高了获得相似人群的准确度。
对应于上述方法实施例,如图4所示,本发明实施例提供了一种相似人群扩展装置,应用于服务器,该装置包括:确定模块401和选择模块402;
确定模块401,用于确定种子用户集中各种子用户所属的目标类簇;种子用户集包括至少一个种子用户;确定候选用户与种子用户集的相似度;候选用户为目标类簇中除种子用户外的用户;
选择模块402,用于按照相似度从高到低的顺序,选择第一预设数量个候选用户,确定所选择的候选用户为种子用户集的相似用户集。
可选的,该装置还可以包括:聚类模块;
确定模块401,还用于根据用户池中各用户的用户画像信息,确定用户池中各用户在各指定维度的特征值,用户画像信息中包括指定维度对应的用户信息,用户在指定维度的特征值用于反映该用户在指定维度的偏好程度;
聚类模块,用于根据确定模块确定的用户池中各用户在各指定维度的特征值,对用户池中的用户进行聚类,将用户池中的用户分为至少两个类簇;
在执行所述确定种子用户集中各种子用户所属的目标类簇步骤时,确定模块401具体用于:
从用户池中所述聚类模块聚类形成的类簇中,选取种子用户集中各种子用户所属的目标类簇。
可选的,确定模块401,可以具体用于:
针对每一指定维度,根据种子用户集中各种子用户在指定维度的特征值,以及用户池中各用户在指定维度的特征值,确定指定维度的权重;针对每一候选用户,根据各指定维度的权重,对候选用户在各指定维度的特征值加权求和,得到该候选用户与种子用户集的相似度。
可选的,确定模块401,可以具体用于:
针对每一指定维度,确定在种子用户集中满足预设条件的种子用户的数量为该指定维度对应的第一权重子参数,确定在用户池中满足预设条件的用户的数量为该指定维度对应的第二权重子参数;预设条件为用户在该指定维度的特征值属于预设目标区间;
针对每一指定维度,确定该指定维度对应的第一权重子参数与种子用户集中种子用户的总数量的比值,为该指定维度的第一权重参数;确定该指定维度对应的第二权重子参数,与用户池中用户的总数量的比值,为该指定维度的第二权重参数;
根据各指定维度的第一权重参数和第二权重参数,利用下述公式,计算各指定维度的权重:
其中,Wi为第i个指定维度的权重,Ai为第i个指定维度对应的第一权重参数,Bi为第i个指定维度对应的第二权重参数,a和b均为预设常数。
可选的,选择模块402,还用于若目标类簇中候选用户总数小于第一预设数量,则在用户池中选择除目标类簇以外的至少一个类簇,作为备选类簇;备选类簇中用户的总数不小于第二预设数量;第二预设数量为第一预设数量与候选用户总数的差值;
确定模块401,还用于确定选择模块选择的备选类簇中各用户与种子用户集的相似度;
选择模块402,还用于按照相似度从高到低的顺序,从备选类簇中选择第二预设数量个用户加入相似用户集。
本发明实施例还提供了一种电子设备,如图5所示,包括处理器501、通信接口502、存储器503和通信总线504,其中,处理器501,通信接口502,存储器503通过通信总线504完成相互间的通信,
存储器503,用于存放计算机程序;
处理器501,用于执行存储器503上所存放的程序时,实现上述方法实施例中由服务器执行的步骤。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一相似人群扩展方法的步骤。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一相似人群扩展方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (11)
1.一种相似人群扩展方法,其特征在于,所述方法包括:
确定种子用户集中各种子用户所属的目标类簇;所述种子用户集包括至少一个种子用户;
确定候选用户与所述种子用户集的相似度;所述候选用户为所述目标类簇中除所述种子用户外的用户;
按照相似度从高到低的顺序,选择第一预设数量个候选用户,确定所选择的候选用户为所述种子用户集的相似用户集。
2.根据权利要求1所述的方法,其特征在于,在所述确定种子用户集中各种子用户所属的目标类簇步骤之前,所述方法还包括:
根据用户池中各用户的用户画像信息,确定所述用户池中各用户在各指定维度的特征值,所述用户画像信息中包括所述指定维度对应的用户信息,所述用户在指定维度的特征值用于反映该用户在所述指定维度的偏好程度;
根据所述用户池中各用户在各指定维度的特征值,对所述用户池中的用户进行聚类,将所述用户池中的用户分为至少两个类簇;
所述确定种子用户集中各种子用户所属的目标类簇,包括:
从所述用户池中,选取种子用户集中各种子用户所属的目标类簇。
3.根据权利要求2所述的方法,其特征在于,所述确定候选用户与所述种子用户集的相似度,包括:
针对每一指定维度,根据所述种子用户集中各种子用户在所述指定维度的特征值,以及所述用户池中各用户在所述指定维度的特征值,确定所述指定维度的权重;
针对每一候选用户,根据各指定维度的权重,对所述候选用户在各指定维度的特征值加权求和,得到该候选用户与所述种子用户集的相似度。
4.根据权利要求3所述的方法,其特征在于,所述根据所述种子用户集中各种子用户在所述指定维度的特征值,以及所述用户池中各用户在所述指定维度的特征值,确定所述指定维度的权重,包括:
针对每一指定维度,确定在所述种子用户集中满足预设条件的种子用户的数量为该指定维度对应的第一权重子参数,确定在所述用户池中满足所述预设条件的用户的数量为该指定维度对应的第二权重子参数;所述预设条件为用户在该指定维度的特征值属于预设目标区间;
针对每一指定维度,确定该指定维度对应的第一权重子参数与所述种子用户集中种子用户的总数量的比值,为该指定维度的第一权重参数;确定该指定维度对应的第二权重子参数,与所述用户池中用户的总数量的比值,为该指定维度的第二权重参数;
根据各指定维度的第一权重参数和第二权重参数,利用下述公式,计算各指定维度的权重:
其中,Wi为第i个指定维度的权重,Ai为第i个指定维度的第一权重参数,Bi为第i个指定维度的第二权重参数,a和b均为预设常数。
5.根据权利要求2所述的方法,其特征在于,所述方法还包括:
若所述目标类簇中候选用户总数小于所述第一预设数量,则在所述用户池中选择除所述目标类簇以外的至少一个类簇,作为备选类簇;所述备选类簇中用户的总数不小于第二预设数量;所述第二预设数量为所述第一预设数量与所述候选用户总数的差值;
确定所述备选类簇中各用户与所述种子用户集的相似度;
按照相似度从高到低的顺序,从所述备选类簇中选择所述第二预设数量个用户加入所述相似用户集。
6.一种相似人群扩展装置,其特征在于,所述装置包括:
确定模块,用于确定种子用户集中各种子用户所属的目标类簇;所述种子用户集包括至少一个种子用户;确定候选用户与所述种子用户集的相似度;所述候选用户为所述目标类簇中除所述种子用户外的用户;
选择模块,用于按照相似度从高到低的顺序,选择第一预设数量个候选用户,确定所选择的候选用户为所述种子用户集的相似用户集。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:聚类模块;
所述确定模块,在执行所述确定种子用户集中各种子用户所属的目标类簇步骤之前,还用于根据用户池中各用户的用户画像信息,确定所述用户池中各用户在各指定维度的特征值,所述用户画像信息中包括所述指定维度对应的用户信息,所述用户在指定维度的特征值用于反映该用户在所述指定维度的偏好程度;
所述聚类模块,用于根据所述确定模块确定的所述用户池中各用户在各指定维度的特征值,对所述用户池中的用户进行聚类,将所述用户池中的用户分为至少两个类簇;
在执行所述确定种子用户集中各种子用户所属的目标类簇步骤时,所述确定模块具体用于:
从所述用户池中,选取种子用户集中各种子用户所属的目标类簇。
8.根据权利要求7所述的装置,其特征在于,所述确定模块,具体用于:
针对每一指定维度,根据所述种子用户集中各种子用户在所述指定维度的特征值,以及所述用户池中各用户在所述指定维度的特征值,确定所述指定维度的权重;针对每一候选用户,根据各指定维度的权重,对所述候选用户在各指定维度的特征值加权求和,得到该候选用户与所述种子用户集的相似度。
9.根据权利要求8所述的装置,其特征在于,所述确定模块,具体用于:
针对每一指定维度,确定在所述种子用户集中满足预设条件的种子用户的数量为该指定维度对应的第一权重子参数,确定在所述用户池中满足所述预设条件的用户的数量为该指定维度对应的第二权重子参数;所述预设条件为用户在该指定维度的特征值属于预设目标区间;
针对每一指定维度,确定该指定维度对应的第一权重子参数与所述种子用户集中种子用户的总数量的比值,为该指定维度的第一权重参数;确定该指定维度对应的第二权重子参数,与所述用户池中用户的总数量的比值,为该指定维度的第二权重参数;
根据各指定维度的第一权重参数和第二权重参数,利用下述公式,计算各指定维度的权重:
其中,Wi为第i个指定维度的权重,Ai为第i个指定维度对应的第一权重参数,Bi为第i个指定维度对应的第二权重参数,a和b均为预设常数。
10.根据权利要求7所述的装置,其特征在于,
所述选择模块,还用于若所述目标类簇中候选用户总数小于所述第一预设数量,则在所述用户池中选择除所述目标类簇以外的至少一个类簇,作为备选类簇;所述备选类簇中用户的总数不小于第二预设数量;所述第二预设数量为所述第一预设数量与所述候选用户总数的差值;
所述确定模块,还用于确定所述选择模块选择的所述备选类簇中各用户与所述种子用户集的相似度;
所述选择模块,还用于按照相似度从高到低的顺序,从所述备选类簇中选择所述第二预设数量个用户加入所述相似用户集。
11.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-5任一所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910113606.9A CN109903086B (zh) | 2019-02-14 | 2019-02-14 | 一种相似人群扩展方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910113606.9A CN109903086B (zh) | 2019-02-14 | 2019-02-14 | 一种相似人群扩展方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109903086A true CN109903086A (zh) | 2019-06-18 |
CN109903086B CN109903086B (zh) | 2020-12-18 |
Family
ID=66944884
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910113606.9A Active CN109903086B (zh) | 2019-02-14 | 2019-02-14 | 一种相似人群扩展方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109903086B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111382363A (zh) * | 2020-03-13 | 2020-07-07 | 北京悠易网际科技发展有限公司 | 受众扩展方法、装置及设备 |
CN111973996A (zh) * | 2020-08-20 | 2020-11-24 | 腾讯科技(上海)有限公司 | 一种游戏资源投放方法和装置 |
CN112328866A (zh) * | 2019-08-05 | 2021-02-05 | 四川大学 | 一种网络空间安全领域特定用户群体挖掘方法 |
CN112597363A (zh) * | 2020-12-22 | 2021-04-02 | 南京领行科技股份有限公司 | 一种用户处理方法、装置、电子设备及存储介质 |
CN113011922A (zh) * | 2021-03-18 | 2021-06-22 | 北京百度网讯科技有限公司 | 相似人群的确定方法、装置、电子设备和存储介质 |
CN113407763A (zh) * | 2021-06-24 | 2021-09-17 | 腾讯音乐娱乐科技(深圳)有限公司 | 热点音乐挖掘方法及电子设备和计算机可读存储介质 |
CN113536848A (zh) * | 2020-04-17 | 2021-10-22 | 中国移动通信集团广东有限公司 | 一种数据处理方法、装置及电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104751354A (zh) * | 2015-04-13 | 2015-07-01 | 合一信息技术(北京)有限公司 | 一种广告人群筛选方法 |
CN106355449A (zh) * | 2016-08-31 | 2017-01-25 | 腾讯科技(深圳)有限公司 | 用户选取方法和装置 |
CN107563898A (zh) * | 2017-09-26 | 2018-01-09 | 浪潮软件集团有限公司 | 一种社交圈推荐方法及装置 |
CN108021929A (zh) * | 2017-11-16 | 2018-05-11 | 华南理工大学 | 基于大数据的移动端电商用户画像建立与分析方法及系统 |
CN108108451A (zh) * | 2017-12-27 | 2018-06-01 | 合肥美的智能科技有限公司 | 群体的群体用户画像获取方法和装置 |
CN108415913A (zh) * | 2017-02-09 | 2018-08-17 | 周孟 | 基于不确定邻居的人群定向方法 |
-
2019
- 2019-02-14 CN CN201910113606.9A patent/CN109903086B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104751354A (zh) * | 2015-04-13 | 2015-07-01 | 合一信息技术(北京)有限公司 | 一种广告人群筛选方法 |
CN106355449A (zh) * | 2016-08-31 | 2017-01-25 | 腾讯科技(深圳)有限公司 | 用户选取方法和装置 |
CN108415913A (zh) * | 2017-02-09 | 2018-08-17 | 周孟 | 基于不确定邻居的人群定向方法 |
CN107563898A (zh) * | 2017-09-26 | 2018-01-09 | 浪潮软件集团有限公司 | 一种社交圈推荐方法及装置 |
CN108021929A (zh) * | 2017-11-16 | 2018-05-11 | 华南理工大学 | 基于大数据的移动端电商用户画像建立与分析方法及系统 |
CN108108451A (zh) * | 2017-12-27 | 2018-06-01 | 合肥美的智能科技有限公司 | 群体的群体用户画像获取方法和装置 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112328866A (zh) * | 2019-08-05 | 2021-02-05 | 四川大学 | 一种网络空间安全领域特定用户群体挖掘方法 |
CN111382363A (zh) * | 2020-03-13 | 2020-07-07 | 北京悠易网际科技发展有限公司 | 受众扩展方法、装置及设备 |
CN111382363B (zh) * | 2020-03-13 | 2023-12-19 | 北京悠易网际科技发展有限公司 | 受众扩展方法、装置及设备 |
CN113536848A (zh) * | 2020-04-17 | 2021-10-22 | 中国移动通信集团广东有限公司 | 一种数据处理方法、装置及电子设备 |
CN113536848B (zh) * | 2020-04-17 | 2024-03-19 | 中国移动通信集团广东有限公司 | 一种数据处理方法、装置及电子设备 |
CN111973996A (zh) * | 2020-08-20 | 2020-11-24 | 腾讯科技(上海)有限公司 | 一种游戏资源投放方法和装置 |
CN111973996B (zh) * | 2020-08-20 | 2024-03-12 | 腾讯科技(上海)有限公司 | 一种游戏资源投放方法和装置 |
CN112597363A (zh) * | 2020-12-22 | 2021-04-02 | 南京领行科技股份有限公司 | 一种用户处理方法、装置、电子设备及存储介质 |
CN113011922A (zh) * | 2021-03-18 | 2021-06-22 | 北京百度网讯科技有限公司 | 相似人群的确定方法、装置、电子设备和存储介质 |
CN113011922B (zh) * | 2021-03-18 | 2023-08-04 | 北京百度网讯科技有限公司 | 相似人群的确定方法、装置、电子设备和存储介质 |
CN113407763A (zh) * | 2021-06-24 | 2021-09-17 | 腾讯音乐娱乐科技(深圳)有限公司 | 热点音乐挖掘方法及电子设备和计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109903086B (zh) | 2020-12-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109903086A (zh) | 一种相似人群扩展方法、装置及电子设备 | |
Ye et al. | Urban function recognition by integrating social media and street-level imagery | |
US10726208B2 (en) | Consumer insights analysis using word embeddings | |
Yin et al. | A temporal context-aware model for user behavior modeling in social media systems | |
CN104462364B (zh) | 搜索推荐方法及装置 | |
CN104834731B (zh) | 一种自媒体信息的推荐方法及装置 | |
US10685183B1 (en) | Consumer insights analysis using word embeddings | |
CN109033200A (zh) | 事件抽取的方法、装置、设备及计算机可读介质 | |
TW201939400A (zh) | 目標用戶群體的確定方法和裝置 | |
US11663282B2 (en) | Taxonomy-based system for discovering and annotating geofences from geo-referenced data | |
CN108540826A (zh) | 弹幕推送方法、装置、电子设备及存储介质 | |
US11017430B2 (en) | Delivering advertisements based on user sentiment and learned behavior | |
US10558759B1 (en) | Consumer insights analysis using word embeddings | |
CN107526810B (zh) | 建立点击率预估模型的方法及装置、展示方法及装置 | |
US10509863B1 (en) | Consumer insights analysis using word embeddings | |
CN110110201B (zh) | 一种内容推荐方法和系统 | |
US20190034994A1 (en) | Marketplace Feed Ranking on Online Social Networks | |
CN110246007A (zh) | 一种商品推荐方法及装置 | |
US10803248B1 (en) | Consumer insights analysis using word embeddings | |
CN110909222B (zh) | 基于聚类的用户画像建立方法、装置、介质及电子设备 | |
CN110490625A (zh) | 用户偏好确定方法及装置、电子设备、存储介质 | |
CN109190028A (zh) | 基于大数据的活动推荐方法、装置、电子设备及存储介质 | |
CN102135983A (zh) | 基于网络用户行为的群体划分方法和装置 | |
CN109064293A (zh) | 商品推荐方法、装置、计算机设备及存储介质 | |
CN110020107A (zh) | 页面展示方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |