受众扩展方法及装置
技术领域
本公开一般涉及互联网技术领域,尤其涉及基于受众扩展方法及装置。
背景技术
随着互联网技术的发展,人们越来越频繁地浏览网络平台提供的内容信息。在网络上对特定的产品进行宣传营销时,希望向较多的人群提供更有针对性的内容投放。
现有技术方案中,将在特定业务场景下收集到的,对产品、服务有相同需求和兴趣的人群称为种子人群,种子人群通常数量不多,一般在十万以下。可对种子人群进行扩展,将扩展人群作为业务推送的最终目标用户。
期望一种对种子人群进行扩展的高效方法。
发明内容
为解决上述技术问题,本公开的一个方面在于利用种子用户发现其相似人群作为受众扩展人群。具体而言,首先选取种子用户及期望的扩展规模,基于已有种子用户的显著特征,以及候选人群的全局特征数据,通过IV(information value,信息值)构建显著特征矩阵,选取整体排序大于特定阈值或排名靠前的用户作为最终受众扩展群体。
本公开提供了一种扩展目标用户的方法,包括:
针对多个业务特征中的每一个业务特征,确定种子用户集合中满足该业务特征的种子用户总数并根据该种子用户总数来确定该业务特征的种子占比值;
针对所述多个业务特征中的每一个业务特征,确定候选用户集合中满足该业务特征的候选用户总数并根据该候选用户总数来确定该业务特征的候选占比值;
根据所述多个业务特征的多个种子占比值和多个候选占比值来确定所述多个业务特征中的多个显著特征以及所述多个显著特征的权重;
为候选用户集合中的每个用户确定显著特征度量,所述显著特征度量是用户所满足的所述显著特征的权重的总和;以及
根据所述显著特征度量来确定扩展目标用户集合。
可任选地,业务特征的种子占比值是满足所述业务特征的种子用户数量与种子用户总数之比,并且业务特征的候选占比值是满足所述业务特征的候选用户数量与候选用户总数之比。
可任选地,如果业务特征的种子占比值大于阈值,则确定该业务特征为显著特征。
可任选地,如果业务特征的种子占比值与候选占比值的比率大于阈值,则确定该业务特征为显著特征。
可任选地,所述显著特征的权重根据所述显著特征的种子占比值与候选占比值之差来确定。
可任选地,所述确定所述多个显著特征的权重包括:针对每个显著特征,使用其种子占比值和候选占比值计算IV(信息值)以确定该显著特征的权重。
可任选地,该方法进一步包括:
为所述种子用户集合和候选用户集合中的每个用户构建特征向量,所述特征向量中的每个元素表示用户是否满足对应特征;
构建显著特征矩阵,所述显著特征矩阵为对角矩阵,其中所述显著特征矩阵中对应于每个显著特征的元素表示该显著特征的权重并且其它元素为0;以及
将候选用户集合中的每个用户的特征向量与对角矩阵相乘以确定该用户的显著特征向量,并将所述显著特征向量中的所有元素求和以确定该用户的显著特征度量。
可任选地,所述根据所述显著特征度量来确定扩展目标用户集合包括:
针对所述候选用户集合中的每个用户,确定该用户的显著特征度量是否大于一阈值;以及
如果该用户的显著特征度量大于一阈值,则将该用户包括在扩展目标用户集合中。
可任选地,所述根据所述显著特征度量来确定扩展目标用户集合包括:
根据所述候选用户集合中的用户的显著特征度量对所述用户进行排序;以及
根据排序确定扩展目标用户集合。
本发明的另一方面提供了一种扩展目标用户的装置,包括:
用于针对多个业务特征中的每一个业务特征,确定种子用户集合中满足该业务特征的种子用户总数并根据该种子用户总数来确定该业务特征的种子占比值的模块;
用于针对所述多个业务特征中的每一个业务特征,确定候选用户集合中满足该业务特征的候选用户总数并根据该候选用户总数来确定该业务特征的候选占比值的模块;
用于根据所述多个业务特征的多个种子占比值和多个候选占比值来确定所述多个业务特征中的多个显著特征以及所述多个显著特征的权重的模块;
用于为候选用户集合中的每个用户确定显著特征度量的模块,所述显著特征度量是用户所满足的所述显著特征的权重的总和;以及
用于根据所述显著特征度量来确定扩展目标用户集合的模块。
可任选地,业务特征的种子占比值是满足所述业务特征的种子用户数量与种子用户总数之比,并且业务特征的候选占比值是满足所述业务特征的候选用户数量与候选用户总数之比。
可任选地,如果业务特征的种子占比值大于阈值,则确定该业务特征为显著特征。
可任选地,如果业务特征的种子占比值与候选占比值的比率大于阈值,则确定该业务特征为显著特征。
可任选地,所述显著特征的权重根据所述显著特征的种子占比值与候选占比值之差来确定。
可任选地,所述用于确定所述多个显著特征的权重的模块包括:用于针对每个显著特征,使用其种子占比值和候选占比值计算IV(信息值)以确定该显著特征的权重的模块。
可任选地,该装置进一步包括:
用于为所述种子用户集合和候选用户集合中的每个用户构建特征向量,所述特征向量中的每个元素表示用户是否满足对应特征的模块;
用于构建显著特征矩阵,所述显著特征矩阵为对角矩阵的模块,其中所述显著特征矩阵中对应于每个显著特征的元素表示该显著特征的权重并且其它元素为0;以及
用于将候选用户集合中的每个用户的特征向量与对角矩阵相乘以确定该用户的显著特征向量,并将所述显著特征向量中的所有元素求和以确定该用户的显著特征度量的模块。
可任选地,所述用于根据所述显著特征度量来确定扩展目标用户集合的模块包括:
用于针对所述候选用户集合中的每个用户,确定该用户的显著特征度量是否大于一阈值的模块;以及
用于如果该用户的显著特征度量大于一阈值,则将该用户包括在扩展目标用户集合中的模块。
可任选地,所述用于根据所述显著特征度量来确定扩展目标用户集合的模块包括:
用于根据所述候选用户集合中的用户的显著特征度量对所述用户进行排序的模块;以及
用于根据排序确定扩展目标用户集合的模块。
本发明的又一方面提供了一种计算机设备,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
针对多个业务特征中的每一个业务特征,确定种子用户集合中满足该业务特征的种子用户总数并根据该种子用户总数来确定该业务特征的种子占比值;
针对所述多个业务特征中的每一个业务特征,确定候选用户集合中满足该业务特征的候选用户总数并根据该候选用户总数来确定该业务特征的候选占比值;根据所述多个业务特征的多个种子占比值和多个候选占比值来确定所述多个业务特征中的多个显著特征以及所述多个显著特征的权重;
为候选用户集合中的每个用户确定显著特征度量,所述显著特征度量是用户所满足的所述显著特征的权重的总和;以及
根据所述显著特征度量来确定扩展目标用户集合。
附图说明
图1是种子用户集合和受众扩展用户集合的示图。
图2是根据本公开的各方面的用于受众扩展的方法的流程图。
图3是根据本公开的各方面的确定业务的显著特征及其权重的过程示意图。
图4是根据本公开的各方面的基于显著特征来确定扩展用户集合的过程示意图。
图5是根据本公开的各方面的受众扩展装置的示图。
具体实施方式
为让本公开的上述目的、特征和优点能更明显易懂,以下结合附图对本公开的具体实施方式作详细说明。
在下面的描述中阐述了很多具体细节以便于充分理解本公开,但是本公开还可以采用其它不同于在此描述的其它方式来实施,因此本公开不受下面公开的具体实施例的限制。
本公开提供了一种用于业务的受众扩展的方法。
每个业务可以具有种子用户集合S和候选用户集合U。
举例而言,可以根据业务的特性来确定相关用户集合R,在相关用户集合R中选择种子用户集合S。图1是种子用户集合和受众扩展用户集合的示图。
种子用户集合S(101)是从业务的大量相关用户中获取的样本人群。种子用户集合S(101)可以是在特定业务场景下收集到的业务核心用户,例如对业务具有相同需求和兴趣的人群。种子用户集合S(101)可以根据业务设定的目标条件在大量相关用户中选择得到。
例如,可以基于用户关于业务的关联行为数据,确定该业务的种子用户。以保险业务为例,可以按照用户对不同保险广告的投保行为、开通行为、点击行为以及其它行为数据等进行线性加权,在一定阈值范围挖掘出来的核心用户集合,即种子用户集合。
相关用户集合R(100)中除去种子用户集合S(101)即为候选用户集合C。种子用户集合S和候选用户集合C没有交集,即,
可以利用种子用户S在候选用户集合C中选择其相似人群,这些相似人群与种子用户(101)一起作为最终目标用户(102)。
在本公开的受众扩展的方案中,首先通过多个业务特征的多个种子占比值(种子占比值表示业务特征在种子用户集合中出现的频率)以及可任选的该多个业务特征的多个候选占比值(候选占比值表示业务特征在候选用户集合中出现的频率)来确定业务的显著特征集合。接着基于该多个种子占比值和多个候选占比值来确定每个显著特征的权重,该权重可表征显著特征的重要性(种子用户集合和候选用户集合关于显著特征的区分度),例如,显著特征权重可根据种子占比值与候选占比值之差来计算。随后为每个用户计算显著特征度量,该显著特征度量可以是用户满足的显著特征的权重总和。基于每个用户的显著特征度量从候选用户集合中选择扩展用户集合。
图2是根据本公开的各方面的用于受众扩展的方法的流程图。
在步骤202,获取多个业务特征。
可以根据业务的特性来选择需要考虑的多个业务特征。
业务特征可以涉及用户的性别(男、女)、年龄段、地域(例如,国家、省份、城市)、收入阶层、行业、用户购物偏好、广告倾向(例如,点击历史、购买历史)等等。
举例而言,针对教育保险,可以选择年龄段、性别、是否已婚、是否有小孩、收入阶层等特征;针对养老保险,可以选择年龄段、性别、收入阶层、购物偏好等特征。
在步骤204,可以确定多个业务特征的多个种子占比值。
业务特征的种子占比值可表示业务特征在种子用户集合S中的出现频率。
例如,针对相关用户集合中的每个用户,可以根据多个业务特征1-n来形成用户特征向量。
具体而言,对于用户i,可以构建用户i的用户特征向量Fi={fi1,fi2,…,fin},其中,fij对应于业务特征j,fij的值可以表示用户是否满足业务特征j。
fij的取值可以为0或1,其中0表示业务特征j关于用户i未出现过,或即用户i不满足业务特征j;1表示业务特征j关于用户i出现过,或即用户i满足业务特征j。
例如,关于性别可以构建两个特征f1:男,和f2:女。则对于性别为女的用户i而言,fi1=0,fi2=1。
在另一示例中,关于年龄可以构建多个特征f1:age[0:10]、f2:age[1:20]、f3:age[20:30]、f4:age[30:40]、f5:age[40:50]、f6:age[50:60]、f7:age[60:100]。则年龄为25的用户i的多个年龄特征的取值分别为:fi1=0、fi2=0、fi3=1、fi4=0、fi5=0、fi6=0、fi7=0。
请注意,以上仅仅是举例说明,其它用户特征以及特征的其它取值也在本公开的构想中。
例如,种子占比值可以是满足业务特征的种子用户的总和与种子用户总数之比,可以如下计算每个特征的种子占比值:
其中i标识种子用户集合S中的用户,j标识特征,|S|是种子用户数量。
seedsj可以表示特征j在种子用户集合中出现的频率。
在步骤206,可以确定多个业务特征的多个候选占比值。
业务特征的候选占比值可表示业务特征在候选用户集合S中的出现频率。
例如,候选占比值可以是满足业务特征的候选用户的总和与候选用户总数之比,可以如下计算每个特征的候选占比值:
其中i标识候选用户集合U中的用户,j标识特征,|U|是候选用户数量。
cansj可以表示特征j在候选用户集合中出现的频率。
在步骤208,使用多个种子占比值和多个候选占比值来确定显著特征以及该显著特征的权重。
首先,可以基于多个种子占比值以及可任选的多个候选占比值来确定显著特征。
例如,如果一特征的种子占比值高于一阈值(即,seedsj>α1),则该特征可被确定为显著特征。
替换地,如果一特征的种子占比值与候选占比值之的比率高于一阈值(即,),则该特征可被确定为显著特征。
进一步,可以基于显著特征的种子占比值和候选占比值来计算每个显著特征的权重。显著特征的权重可表示种子用户集合相对于候选用户集合关于该显著特征的区分度。在一个示例中,显著特征的权重可以根据所述显著特征的种子占比值与候选占比值之差来确定。
作为示例,可以构建显著特征矩阵W,显著特征矩阵W为对角矩阵,对角线上的每个元素对应于一个特征。对应于显著特征的元素表示显著特征的权重,即,种子用户集合相对于候选用户集合关于显著特征的区分度;对应于非显著特征的元素可以为0。
根据IV(information value)计算显著特征矩阵的一个示例如下:
其中在seedsj>α(在其它示例中,也可以是)的情况下,确定特征j为显著特征,显著特征的权重为否则,确定特征j为非显著特征,其在矩阵中的相应值为0。其中阈值α可以通过业务的特性来选择。
请注意,虽然上面列出了具体的构建显著特征矩阵的算法,但本领域技术人员也能构想到其它算法。显著特征的度量也可以使用能够表征种子用户相对于候选用户的区分度的其它公式来确定。例如,公式(3)是使用信息熵方法论推导的,也可以根据互信息或卡方分布来推导公式。
在步骤210,为候选用户集合中的每个用户i确定显著特征度量Mi,Mi可以表示用户i所拥有的显著特征的权重的总和。
例如,在使用上述特征向量和特征矩阵的情况下,可使用下式来确定用户i的显著特征度量Mi:
其中N为特征的数量。
如上所述,可以为所述种子用户集合和候选用户集合中的每个用户构建特征向量,特征向量中的每个元素表示用户是否满足对应特征;随后构建显著特征矩阵,显著特征矩阵为对角矩阵,其中所述显著特征矩阵中对应于每个显著特征的元素表示该显著特征的权重并且其它元素为0;然后将候选用户集合中的每个用户的特征向量与对角矩阵相乘以确定该用户的显著特征向量,并将所述显著特征向量中的所有元素求和以确定该用户的显著特征度量。
以下以一个具体示例进行说明。假设业务有以下6个特征:
f1:男、f2:女、f3:未婚、f4:已婚、f5:年龄<30、以及f6:年龄>30。
一个女性未婚且年龄<30的用户的特征向量F=[0,1,1,0,1,0]。
假设显著特征为f2、f4、和f5,其权重分别为a、b和c,则可构建显著特征矩阵如下:
可以将用户的特征向量与显著特征矩阵相乘得到显著特征向量:
最后将显著特征向量的各元素求和即为显著特征的度量。
在该示例中,显著特征的度量为0+a+0+0+c+0=a+c。
在步骤212,根据候选用户集合中的各个用户的显著特征度量来确定候选用户集合中的扩展用户集合。
候选用户集合中的一些用户(例如,种子用户集合的相似人群)可被选择与种子用户一起作为业务推送的目标用户集合。
具体而言,可以选取候选用户集合中Mi大于特定阈值的用户作为受众扩展用户集合。
替换地,也可以将候选用户集合中的每个用户的Mi进行排序,选取前N个用户作为受众扩展用户集合。
图3是根据本公开的确定业务的显著特征及其权重的过程示意图。
如图3所示,在框301,确定与业务相关联的多个特征1-N。
例如,在广告推送中,与广告相关联的特征可包括性别、年龄、学历、星座、是否已婚、职业、资产等级、购物偏好、旅行偏好等等。
可以根据业务的特性来选择要考虑的多个特征。
在框302,为每个特征计算种子占比值以及可任选的候选占比值。
种子占比值表示特征在种子用户集合中的出现频率,或即种子用户集合中满足业务特征的用户的总和与种子用户总数之比。候选占比值表示特征在候选用户集合中的出现频率,或即候选用户集合中满足业务特征的用户的总和与候选用户总数之比。
例如,可以按照上式(1)和(2)分别计算每个特征关于种子用户集合S和候选用户集合C的占比值。
在框303,可以根据种子占比值以及可任选的候选占比值来确定显著特征1-M。
例如,如果一特征的种子占比值seedsj大于阈值,则该特征可被确定为显著特征。
作为另一示例,如果种子占比值与候选占比值的比率大于阈值,则该特征可被确定为显著特征。
作为进一步示例,可将多个特征的seedsj或进行排序,选择前N位的特征作为显著特征。
以上阈值和N的取值均可以根据实际需要来选择。
在框304,基于每个显著特征的种子占比值和候选占比值来为显著特征计算权重。
例如,可以使用IV(information value)来计算显著特征j的权重Wj。
图4是根据本公开的各方面的基于显著特征来确定扩展用户集合的过程示意图。
如图4所示,候选用户1-X是以上参照图1描述的候选用户。
在框401,为每个候选用户i计算显著特征度量Mi。
虽然以上实施例采用了显著特征权重,但是也可以不使用显著特征权重。换言之,每个显著特征的权重均为1,由此在框401计算每个用户满足的显著特征总和。
其中K为显著特征的数量。
在框402,根据每个候选用户的显著特征度量来选择扩展用户。
可以选取Mi大于特定阈值的候选用户作为最终受众扩展群体,即,扩展用户集合。替换地,也可以将每个候选用户的Mi进行排序,选取前N个用户作为受众扩展群体。
本公开通过使用种子用户集合确定显著特征集合,进而用显著特征集合来筛选候选用户以形成扩展用户集合,由此能够找到种子用户集合的相似群体进行业务的推送。
图5是根据本公开的各方面的受众扩展装置500的示图。
如图5所示,装置500包括种子占比值模块501、候选占比值模块502、显著特征确定模块503、显著特征度量模块504、以及受众扩展模块505。
种子占比值模块501计算每个特征的种子占比值,如以上关于步骤204所述的。
候选占比值模块502计算每个特征的候选占比值,如以上关于步骤206所述的。
显著特征确定模块503确定显著特征以及显著特征的权重,如以上关于步骤208所述的。
显著特征度量模块504确定候选用户的显著特征度量,如以上关于步骤210所述的。
受众扩展模块505确定候选用户集合中的扩展目标用户,如以上关于步骤212所述的。
本文结合附图阐述的说明描述了示例配置而不代表可被实现或者落在权利要求的范围内的所有示例。本文所使用的术语“示例性”意指“用作示例、实例或解说”,而并不意指“优于”或“胜过其他示例”。本详细描述包括具体细节以提供对所描述的技术的理解。然而,可以在没有这些具体细节的情况下实践这些技术。在一些实例中,众所周知的结构和设备以框图形式示出以避免模糊所描述的示例的概念。
在附图中,类似组件或特征可具有相同的附图标记。此外,相同类型的各个组件可通过在附图标记后跟随短划线以及在类似组件之间进行区分的第二标记来加以区分。如果在说明书中仅使用第一附图标记,则该描述可应用于具有相同的第一附图标记的类似组件中的任何一个组件而不论第二附图标记如何。
结合本文中的公开描述的各种解说性框以及模块可以用设计成执行本文中描述的功能的通用处理器、DSP、ASIC、FPGA或其他可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件、或其任何组合来实现或执行。通用处理器可以是微处理器,但在替换方案中,处理器可以是任何常规的处理器、控制器、微控制器、或状态机。处理器还可被实现为计算设备的组合(例如,DSP与微处理器的组合、多个微处理器、与DSP核心协同的一个或多个微处理器,或者任何其他此类配置)。
本文中所描述的功能可以在硬件、由处理器执行的软件、固件、或其任何组合中实现。如果在由处理器执行的软件中实现,则各功能可以作为一条或多条指令或代码存储在计算机可读介质上或藉其进行传送。其他示例和实现落在本公开及所附权利要求的范围内。例如,由于软件的本质,以上描述的功能可使用由处理器执行的软件、硬件、固件、硬连线或其任何组合来实现。实现功能的特征也可物理地位于各种位置,包括被分布以使得功能的各部分在不同的物理位置处实现。另外,如本文(包括权利要求中)所使用的,在项目列举(例如,以附有诸如“中的至少一个”或“中的一个或多个”之类的措辞的项目列举)中使用的“或”指示包含性列举,以使得例如A、B或C中的至少一个的列举意指A或B或C或AB或AC或BC或ABC(即,A和B和C)。同样,如本文所使用的,短语“基于”不应被解读为引述封闭条件集。例如,被描述为“基于条件A”的示例性步骤可基于条件A和条件B两者而不脱离本公开的范围。换言之,如本文所使用的,短语“基于”应当以与短语“至少部分地基于”相同的方式来解读。
计算机可读介质包括非瞬态计算机存储介质和通信介质两者,其包括促成计算机程序从一地向另一地转移的任何介质。非瞬态存储介质可以是能被通用或专用计算机访问的任何可用介质。作为示例而非限定,非瞬态计算机可读介质可包括RAM、ROM、电可擦除可编程只读存储器(EEPROM)、压缩盘(CD)ROM或其他光盘存储、磁盘存储或其他磁存储设备、或能被用来携带或存储指令或数据结构形式的期望程序代码手段且能被通用或专用计算机、或者通用或专用处理器访问的任何其他非瞬态介质。任何连接也被正当地称为计算机可读介质。例如,如果软件是使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)、或诸如红外、无线电、以及微波之类的无线技术从web网站、服务器、或其它远程源传送而来的,则该同轴电缆、光纤电缆、双绞线、数字订户线(DSL)、或诸如红外、无线电、以及微波之类的无线技术就被包括在介质的定义之中。如本文所使用的盘(disk)和碟(disc)包括CD、激光碟、光碟、数字通用碟(DVD)、软盘和蓝光碟,其中盘常常磁性地再现数据而碟用激光来光学地再现数据。以上介质的组合也被包括在计算机可读介质的范围内。
提供本文的描述是为了使得本领域技术人员能够制作或使用本公开。对本公开的各种修改对于本领域技术人员将是显而易见的,并且本文中定义的普适原理可被应用于其他变形而不会脱离本公开的范围。由此,本公开并非被限定于本文所描述的示例和设计,而是应被授予与本文所公开的原理和新颖特征相一致的最广范围。