CN112150199A - 垂类特征的确定方法及装置、存储介质 - Google Patents
垂类特征的确定方法及装置、存储介质 Download PDFInfo
- Publication number
- CN112150199A CN112150199A CN202010997746.XA CN202010997746A CN112150199A CN 112150199 A CN112150199 A CN 112150199A CN 202010997746 A CN202010997746 A CN 202010997746A CN 112150199 A CN112150199 A CN 112150199A
- Authority
- CN
- China
- Prior art keywords
- model
- vertical
- feature
- target
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000012549 training Methods 0.000 claims abstract description 36
- 230000006399 behavior Effects 0.000 claims description 80
- 238000007477 logistic regression Methods 0.000 claims description 15
- 238000013507 mapping Methods 0.000 claims description 11
- 238000012216 screening Methods 0.000 claims description 10
- 230000003542 behavioural effect Effects 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 3
- 238000009428 plumbing Methods 0.000 claims 2
- 238000005065 mining Methods 0.000 abstract description 12
- 238000010586 diagram Methods 0.000 description 7
- 230000001817 pituitary effect Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 239000002699 waste material Substances 0.000 description 3
- 230000007123 defense Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0251—Targeted advertisements
- G06Q30/0254—Targeted advertisements based on statistics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0251—Targeted advertisements
- G06Q30/0255—Targeted advertisements based on user history
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0277—Online advertisement
Abstract
本公开涉及一种垂类特征的确定方法及装置、存储介质,以解决垂类特征挖掘准确性较低的问题,所述方法包括:根据目标用户的行为特征从用户画像中选取目标特征;将所述目标特征输入所述目标特征对应的垂类模型,得到所述垂类模型输出的所述目标用户的垂类特征及每一所述垂类特征对应的偏好程度,其中,所述垂类模型是将种子用户的历史行为特征作为训练样本训练得到的。这样,可以提高垂类特征挖掘的准确性。
Description
技术领域
本公开涉及人工智能技术领域,尤其涉及垂类特征的确定方法及装置、存储介质。
背景技术
在游戏、动漫等广告信息推送过程中,既需要保证用户能够接触到广告信息,也需要保证投放广告信息的有效性,避免广告信息的无效投放,浪费广告资源,因此,需要对用户的垂类进行挖掘。对用户垂类挖掘,进而向用户推送垂类相关的广告信息,这样,可以提高广告投放的有效性以及减少广告资源浪费。
相关技术中,根据用户的社会属性,例如年龄、性别、受教育程度,结合先验知识对用户进行统计分析,进而确定用户垂类,并向用户推送垂类相关的广告信息。或者基于用户的行为特征,例如,对推送广告是否点击,浏览广告的时间长度,构造相应的特征向量,进而针对特征向量利用例如k均值聚类算法,LDA(Latent Dirichlet Allocation,文档主题生成模型)等聚类方法对用户进行聚类,这样,可以根据用户的类型确定用户垂类,进而向用户推送垂类相关的广告信息。
发明内容
为克服相关技术中存在的问题,本公开提供一种垂类特征的确定方法及装置、存储介质。
根据本公开实施例的第一方面,提供一种垂类特征的确定方法,包括:
根据目标用户的行为特征从用户画像中选取目标特征;
将所述目标特征输入所述目标特征对应的垂类模型,得到所述垂类模型输出的所述目标用户的垂类特征及每一所述垂类特征对应的偏好程度,其中,所述垂类模型是将种子用户的历史行为特征作为训练样本训练得到的。
可选地,所述垂类模型为多个,且每一批种子用户对应不同的垂类模型,其中,不同批的种子用户之间是根据用户的历史行为特征及所述历史行为特征的关联特征进行划分的;
其中,每一所述垂类模型是根据以下方式建立的:
根据所述种子用户的历史行为特征筛选得到模型特征;
对每一所述模型特征进行样本类型判定,得到所述模型特征的正样本集合和负样本集合;
根据所述正样本集合和负样本集合计算每一所述模型特征的信息增益,并根据所述信息增益的大小将对应的所述模型特征映射到树模型的节点上,得到组合特征,其中,每一节点对应有特征值;
针对每一所述组合特征进行逻辑回归模型训练,得到对应于所述种子用户的垂类模型。
可选地,所述垂类模型用于:
将输入的所述目标特征映射到所述树模型的节点上,建立所述目标特征与所述模型特征的对应关系,并根据所述对应关系确定所述目标特征的垂类特征及每一所述垂类特征对应的特征值;
将每一所述特征值进行逻辑回归拟合,得到每一所述特征值对应的特征权重;
计算每一所述特征值和对应的特征权重的乘积,得到每一所述特征值对应的偏好程度,并输出所述垂类特征及每一所述垂类特征对应的偏好程度。
可选地,所述根据所述种子用户的历史行为特征筛选得到模型特征包括:
确定每一所述历史行为特征在所述种子用户中的覆盖度;
将所述覆盖度超过对应的预设阈值的所述历史行为特征作为所述模型特征。
可选地,所述根据目标用户的行为特征从用户画像中选取目标特征,包括:
根据目标用户的行为特征和所述行为特征的关联特征从用户画像中选取目标特征。
可选地,所述方法还包括:
根据所述偏好程度确定所述目标用户感兴趣的垂类;
为所述目标用户推送属于所述目标用户感兴趣的垂类的信息。
根据本公开实施例的第二方面,提供一种垂类特征的确定装置,包括:
选取模块,被配置为根据目标用户的行为特征从用户画像中选取目标特征;
执行模块,被配置为将所述目标特征输入所述目标特征对应的垂类模型,得到所述垂类模型输出的所述目标用户的垂类特征及每一所述垂类特征对应的偏好程度,其中,所述垂类模型是将种子用户的历史行为特征作为训练样本训练得到的。
可选地,所述垂类模型包括:
筛选模块,被配置为根据所述种子用户的历史行为特征筛选得到模型特征;
判定模块,被配置为对每一所述模型特征进行样本类型判定,得到所述模型特征的正样本集合和负样本集合;
映射模块,被配置为根据所述正样本集合和负样本集合计算每一所述模型特征的信息增益,并根据所述信息增益的大小将对应的所述模型特征映射到树模型的节点上,得到组合特征,其中,每一节点对应有特征值;
训练模块,被配置为针对每一所述组合特征进行逻辑回归模型训练,得到对应于所述种子用户的垂类模型。
可选地,所述映射模块,还被配置为将输入的所述目标特征映射到所述树模型的节点上,建立所述目标特征与所述模型特征的对应关系,并根据所述对应关系确定所述目标特征的垂类特征及每一所述垂类特征对应的特征值;
训练模块,还被配置为将每一所述特征值进行逻辑回归拟合,得到每一所述特征值对应的特征权重,并计算每一所述特征值和对应的特征权重的乘积,得到每一所述特征值对应的偏好程度,并输出所述垂类特征及每一所述垂类特征对应的偏好程度。
可选地,所述筛选模块包括:
确定子模块,被配置为确定每一所述历史行为特征在所述种子用户中的覆盖度;
执行子模块,被配置为将所述覆盖度超过对应的预设阈值的所述历史行为特征作为所述模型特征。
可选地,所述选取模块被配置为根据目标用户的行为特征和所述行为特征的关联特征从用户画像中选取目标特征。
可选地,所述装置还包括:
确定模块,被配置为根据所述偏好程度确定所述目标用户感兴趣的垂类;
推送模块,被配置为为所述目标用户推送属于所述目标用户感兴趣的垂类的信息。
根据本公开实施例的第三方面,提供一种垂类特征的确定装置,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
根据目标用户的行为特征从用户画像中选取目标特征;
将所述目标特征输入所述目标特征对应的垂类模型,得到所述垂类模型输出的所述目标用户的垂类特征及每一所述垂类特征对应的偏好程度,其中,所述垂类模型是将种子用户的历史行为特征作为训练样本训练得到的。
根据本公开实施例的第四方面,提供一种计算机可读存储介质,其上存储有计算机程序指令,该程序指令被处理器执行时实现上述任一项所述方法的步骤。
本公开的实施例提供的技术方案可以包括以下有益效果:
通过目标用户的行为特征和用户画像选取目标特征,进而将目标特征输入目标特征对应的垂类模型,得到目标用户的垂类特征及每一垂类特征对应的偏好程度,这样,可以根据行为特征得到目标用户的不同垂类特征及对应的偏好程度,可以有效地挖掘目标用户对不同垂类的兴趣,并可以直观地表现偏好程度,因而提高了目标用户垂类挖掘的准确性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是根据一示例性实施例示出的一种垂类特征的确定方法的流程图。
图2是根据一示例性实施例示出的一种垂类模型建立方法的流程图。
图3是根据一示例性实施例示出的图2中步骤S21的流程图。
图4是根据一示例性实施例示出的另一种垂类特征确定方法的流程图。
图5是根据一示例性实施例示出的一种垂类特征确定装置的框图。
图6是根据一示例性实施例示出的一种垂类模型的框图。
图7是根据一示例性实施例示出的另一种垂类特征确定装置的框图。
图8是根据一示例性实施例示出的一种用于垂体特征确定装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
在介绍本公开提供的垂类特征的确定方法及装置、存储介质之前,首先对本公开的应用场景进行介绍。本公开提供的垂类特征的确定方法可以应用于例如游戏广告信息推送,动漫广告信息推送中的垂类挖掘等等。
准确地对目标用户进行垂类挖掘,可以提高向用户推送广告信息的准确性,可以提高广告信息投放的有效性,并减少广告资源的浪费,降低广告信息的投放成本。相关技术中,根据用户的社会属性进行统计分析,确定用户的垂类,或者根据用户行为特征利用聚类模型,确定用户的垂类。
但是,申请人发现,根据用户的社会属性确定用户的垂类,进而向用户推送垂类相关的广告信息,用户垂类的个性化挖掘较差,例如年轻人比中年人更喜欢玩游戏,但是不能说明年轻人都喜欢玩游戏,也不能说中年人都不喜欢玩游戏,因而广告信息推送的个性化相对较弱,导致广告信息推送的准确性较低。而根据用户行为特征利用聚类模型,进而根据用户类型确定用户的垂类,并确定向用户推送垂类对应的广告信息,无法直接表明该类用户的垂类以及偏好程度,也会导致垂类挖掘准确性较低,造成广告信息推送的准确性较低。
为解决上述技术问题,本公开提供一种垂类特征的确定方法。该方法可以应用于服务器,图1是根据一示例性实施例示出的一种垂类特征的确定方法的流程图,如图1所示,包括以下步骤。
在步骤S11中,根据目标用户的行为特征从用户画像中选取目标特征。
在步骤S12中,将所述目标特征输入所述目标特征对应的垂类模型,得到所述垂类模型输出的所述目标用户的垂类特征及每一所述垂类特征对应的偏好程度。
其中,所述垂类模型是将种子用户的历史行为特征作为训练样本训练得到的。
具体地,用户画像是根据用户的历史行为数据,对用户进行标签化,进而由各种标签构成用户画像。例如,根据用户历史的购物数据,对用户的购买能力进行标签化;根据用户的历史参与活动数据,对用户的兴趣爱好进行标签化,进而由购买能力标签和兴趣爱好标签构成用户画像。
可以理解的是,获取的目标用户的历史行为数据越多,得到的用户画像越准确,进而根据行为特征从用户画像中选取的目标特征越准确,在用户垂类挖掘时,得到的垂类特征以及对应的偏好程度也就越准确。
示例地,根据目标用户的玩某一游戏的时间长度信息这一行为特征,从用户画像中选取相应的游戏。例如,目标用户玩某一游戏的时间长度为不低于30分钟,从用户画像中选取用户平时喜欢玩的游戏类型,目标特征可以是需要花费超过30分钟的游戏。
可选地,选取的目标特征可以是多个,示例地,根据目标用户“看A动漫的时间为每周25分钟”,以及目标用户的用户画像中“喜欢日本动漫”,可以选取“每周更新一集的动漫”、“日本A动漫”作为目标特征。
进一步地,选取的目标特征不同,输入的垂类模型也不同,进而得到的垂类特征及每一垂类特征对应的偏好程度也不同。因此,通过用户画像选取的目标特征准确性越高,有助于准确地选取相应的垂类模型,进而提高垂类特征挖掘的准确性。
具体实施时,通过用户终端,例如,智能手机,平板电脑,台式电脑等获取目标用户的行为特征,在用户终端获取到目标用户的行为特征后,例如,通过用户终端的播放记录,触控记录等,获取目标用户的行为特征,并且用户终端通过移动网络等将包括该行为特征的请求信息发送到服务器。
进一步地,服务器接收该请求信息以后,根据请求信息中的用户信息查找该目标用户的用户画像,进而根据目标用户的行为特征和查找到的用户画像,确定目标特征。
进一步地,服务器在得到垂类特征及每一所述垂类特征对应的偏好程度后,可以将该垂类特征及每一所述垂类特征对应的偏好程度返回到用户终端,用户终端可以基于垂类特征及每一所述垂类特征对应的偏好程度向对应的广告投放服务器请求相应的广告信息。
上述技术方案可以根据目标用户的行为特征和用户画像选取目标特征,进而将目标特征输入目标特征对应的垂类模型,得到目标用户的垂类特征及每一垂类特征对应的偏好程度,这样,可以根据行为特征得到目标用户的不同垂类特征及对应的偏好程度,可以有效地挖掘目标用户对不同垂类的兴趣,并可以直观地表现偏好程度,因而提高了目标用户垂类挖掘的准确性。
在该实施例中,所述垂类模型为多个,且每一批种子用户对应不同的垂类模型,其中,不同批的种子用户之间是根据用户的历史行为特征及所述历史行为特征的关联特征进行划分的。
其中,图2是根据一示例性实施例示出的一种垂类模型建立方法的流程图,如图2所示,每一所述垂类模型的建立包括以下步骤。
在步骤S21中,根据所述种子用户的历史行为特征筛选得到模型特征。
在步骤S22中,对每一所述模型特征进行样本类型判定,得到所述模型特征的正样本集合和负样本集合。
在步骤S23中,根据所述正样本集合和负样本集合计算每一所述模型特征的信息增益,并根据所述信息增益的大小将对应的所述模型特征映射到树模型的节点上,得到组合特征,其中,每一节点对应有特征值。
在步骤S24中,针对每一所述组合特征进行逻辑回归模型训练,得到对应于所述种子用户的垂类模型。
在该实施例中,可以根据垂类特征建立不同的多个垂类模型。例如,根据种子用户爱好的游戏类型不同,可以将游戏类型分为策略类游戏,竞技类游戏,塔防类游戏等,进而,可以建立策略类游戏垂类模型,竞技类游戏垂类模型,塔防类游戏垂类模型等。
值得说明的是,不同的历史行为数据相应的具有不同的关联特征。例如,在历史行为数据为用户观看动漫类型的情况下,关联特征可以是动漫的出品公司,动漫的画风;而在历史行为数据为用户观看动漫时长的情况下,关联特征可以是动漫更新的频率。
具体地,首先根据用户的历史行为数据确定用户在重度用户中的等级,例如,用户甲玩A游戏的时间长度为每天不低于30分钟,确定用户甲为重度用户中的轻度用户;用户乙玩A游戏的时间长度为每天不低于60分钟,确定用户乙为重度用户中的中度用户。
进一步地,根据重度用户的等级及历史行为数据的关联特征,确定该等级对应的种子用户,例如,将A游戏玩家中的所有轻度用户以及与A游戏花费时间相同的其他游戏的所有轻度用户确定为轻度种子用户,将A游戏玩家中的所有中度用户以及与A游戏花费时间相同的其他游戏的所有中度用户确定为中度种子用户。其中,在该实施例中,玩家玩游戏的时间长度为关联特征。
进一步地,针对种子用户的历史行为特征,可以将出现频率较高的历史行为特征筛选作为模型特征,示例地,A游戏的轻度种子用户中,玩游戏的时间长度35至40分钟的出现频率最高,可以将玩游戏时间长度35至40分钟这一历史行为特征作为模型特征。将具有代表性的历史行为特征作为模型特征,可以减少模型训练的样本数据,提高得到的垂类模型的准确性。
在步骤S22中,可以根据模型特征“是否曝光”和“用户是否点击”判定样本类型,例如,若模型特征曝光且用户点击,则模型特征的样本类型为正样本,若模型特征曝光但用户无点击,则模型特征的样本类型为负样本。
可选地,在判定模型特征的样本类型的基础上,可以根据模型特征对应的用户浏览时长,确定正样本的重要程度,并为对应的正样本赋予不同的权重值。例如,在用户浏览时长低于该广告的平均浏览时长的1/3的情况下,确定该正样本为普通正样本,权重值为1;在用户浏览时长为该广告的平均浏览时长的1/3-3/4的情况下,确定该正样本为中度正样本,权重值为2;在用户浏览时长不低于该广告的平均浏览时长的3/4的情况下,确定该正样本为重度正样本,权重值为3。这样,对不同的正样本根据用户浏览时长,赋予相应的权重值,从而兼顾了用户的兴趣偏好,在信息增益计算时,可以更加准备地确定模型特征在树模型上的节点位置。
在步骤S23中,计算得到模型特征的信息增益后,将信息增益值最大的模型特征作为树模型的根节点,随着模型特征的信息增益减小,模型特征在树模型的节点位置越靠下。这样,可以从根节点到不同的叶子结点,形成不同的组合特征。
进一步地,每一个映射到树模型上的模型特征会有子节点或者父节点,以根节点为例,根节点对应有至少一个子节点,该子节点作为父节点时,又对应有至少一个子节点,也就是说,可以通过父节点中子节点的数量,训练得到每一个子节点的值。
进一步地,针对每一组合特征,均可以训练得到对应节点的值,在步骤S24中,将所有组合特征进行逻辑回归模型训练,具体实施时,该逻辑回归模型中,未设置阈值,这样,得到的垂类模型在进行垂类特征训练时,可以得到垂类特征对应的概率值。这样,利用树模型和逻辑回归模型训练得到垂类模型。
在该实施例中,所述垂类模型用于:
将输入的所述目标特征映射到所述树模型的节点上,建立所述目标特征与所述模型特征的对应关系,并根据所述对应关系确定所述目标特征的垂类特征及每一所述垂类特征对应的特征值;
将每一所述特征值进行逻辑回归拟合,得到每一所述特征值对应的特征权重,并计算每一所述特征值和对应的特征权重的乘积,得到每一所述特征值对应的偏好程度,并输出所述垂类特征及每一所述垂类特征对应的偏好程度。
示例地,根据目标用户的兴趣爱好以及用户画像的到目标特征为“目标用户喜欢看A联赛的B球队的篮球比赛”,将该目标特征映射到树模型的节点上,得到对应的垂类特征。
在一种可能实现的方式中,若目标特征对应到该树模型上的节点上,则得到目标特征的值为1,而未映射到的节点得到相应的值为0。这样,可以得到该目标特征对应的所有垂类特征及其相应的特征值。
例如,在垂类特征对应的特征值为3的情况下,经过逻辑回归拟合得到对应的特征权重为0.2,计算特征值3和对应的特征权重0.2的乘积,得到该垂类特征对应的偏好程度为0.6。该偏好程度的值越大,表征目标用户对该垂类特征的感兴趣程度越大,该偏好程度的值越小,表征目标用户对该垂类特征的感兴趣程度越小。
这样,可以准确地确定目标用户的垂类特征,并计算出每一垂类特征对应的偏好程度,该偏好程度可以准确地表征目标用户对每一垂类特征的感兴趣程度,因而提高了垂类特征挖掘的准确性。
可选地,参考图3,步骤S21中根据所述种子用户的历史行为特征筛选得到模型特征包括以下步骤。
在步骤S211中,确定每一所述历史行为特征在所述种子用户中的覆盖度。
在步骤S212中,将所述覆盖度超过对应的预设阈值的所述历史行为特征作为所述模型特征。
示例地,A游戏的轻度种子用户有100人,其中,玩游戏的时间长度35至40分钟这一特征覆盖了60个种子用户,玩游戏的时间长度40至50分钟这一特征覆盖了35个种子用户,即可以确定“玩游戏的时间长度35至40分钟”的覆盖度为60%,覆盖度60%超过其对应的预设阈值50%,则确定该特征为模型特征。“玩游戏的时间长度40至50分钟”的覆盖度为35%,覆盖度35%超过其对应的预设阈值30%,则确定该特征为模型特征。
可以说明的是,不同的历史行为特征对应的预设阈值可以是不同的。
这样,根据历史行为特征在种子用户中的覆盖度筛选出模型特征,可以减少覆盖度较小的历史行为特征影响,提高模型训练的准确性,进而提高垂类特征挖掘的准确性。
可选地,步骤S12中根据目标用户的行为特征从用户画像中选取目标特征,包括:
根据目标用户的行为特征和所述行为特征的关联特征从用户画像中选取目标特征。
示例地,在行为特征为观看A动漫时间为每周25分钟的情况下,关联特征可以包括A动漫相同的出品公司、与A动漫作者相同的漫画家的漫画、与A动漫的画风相同的动漫和与A动漫更新频率相同的动漫。
这样,可以根据行为特征找到多个关联特征,在进行目标特征选取时,可以选取更多的目标特征,可以提高选取的目标特征的准确性,进而提高垂类特征挖掘的准确性。
图4是根据一示例性实施例示出的另一种垂类特征的确定方法的流程图,如图4所示,包括以下步骤。
在步骤S11中,根据目标用户的行为特征从用户画像中选取目标特征。
在步骤S12中,将所述目标特征输入所述目标特征对应的垂类模型,得到所述垂类模型输出的所述目标用户的垂类特征及每一所述垂类特征对应的偏好程度。
在步骤S13中,根据所述偏好程度确定所述目标用户感兴趣的垂类。
在步骤S14中,为所述目标用户推送属于所述目标用户感兴趣的垂类的信息。
可选地,在偏好程度超过对应的偏好阈值时,确定偏好程度对应的垂类特征为目标用户感兴趣的垂类。
示例地,服务器可以将偏好程度表征的偏好值超过预设阈值的垂类特征确定为目标用户感兴趣的垂类。例如,服务器将逻辑回归确定的目标用户对垂类特征感兴趣的概率值超过预设阈值0.5的垂类特征确定为目标用户感兴趣的垂类。
可选地,可以根据偏好程度确定为目标用户推送属于目标用户感兴趣的垂类的信息的频率。例如,服务器在根据偏好程度确定目标用户可能为该垂类的轻度用户的情况下,每周向用户终端推送属于目标用户感兴趣的垂类的信息;在根据偏好程度确定目标用户可能为该垂类的中度用户的情况下,每三天向用户终端推送属于目标用户感兴趣的垂类的信息。
示例地,用户终端在获取到目标用户“喜欢看A联赛的B球队的篮球比赛”行为特征后,服务器查找目标用户的用户画像中“B球队C球星的球迷”,服务器选取目标特征为“篮球游戏”。
进一步地,服务器在确定目标用户为“篮球D游戏”偏好程度为0.3的情况下,确定目标用户为“篮球D游戏”的轻度用户,每周向用户终端推送“篮球D游戏更新新游戏界面”的信息。例如,可以通过邮件或者短信推送该信息,也可以通过在关联的应用程序推送该信息。
又例如,服务器在确定目标用户为“C球星代言的球衣”偏好程度为0.8的情况下,确定目标用户为“C球星代言的球衣”的中度用户,每三天向用户终端推送“C球星代言的球衣打折信息”的信息。
这样,可以根据目标用户的行为特征确定目标用户感兴趣的垂类,并根据偏好程度为目标用户推送属于目标用户感兴趣的垂类的信息,可以准确地对目标用户进行垂类挖掘,可以提高向用户推送广告信息的准确性,进而可以提高广告信息投放的有效性,并减少广告资源的浪费,降低广告信息的投放成本。
基于相同的发明构思,本公开实施例还提供一种垂类特征确定装置500,用于执行上述方法实施例提供的垂类特征确定方法的步骤,该装置500可以应用于服务器。图5是根据一示例性实施例示出的一种垂类特征确定装置框图。参照图5,该装置500包括选取模块510和执行模块520。
该选取模块510被配置为根据目标用户的行为特征从用户画像中选取目标特征。
该执行模块520被配置为将所述目标特征输入所述目标特征对应的垂类模型,得到所述垂类模型输出的所述目标用户的垂类特征及每一所述垂类特征对应的偏好程度。
其中,所述垂类模型是将种子用户的历史行为特征作为训练样本训练得到的。
在该实施例中,参考图6,所述垂类模型600包括筛选模块610,判定模块620,映射模块630和训练模块640。
该筛选模块610被配置为根据所述种子用户的历史行为特征筛选得到模型特征。
该判定模块620被配置为对每一所述模型特征进行样本类型判定,得到所述模型特征的正样本集合和负样本集合。
该映射模块630被配置为根据所述正样本集合和负样本集合计算每一所述模型特征的信息增益,并根据所述信息增益的大小将对应的所述模型特征映射到树模型的节点上,得到组合特征,其中,每一节点对应有特征值。
该训练模块640被配置为针对每一所述组合特征进行逻辑回归模型训练,得到对应于所述种子用户的垂类模型。
可选地,所述映射模块630还被配置为将输入的所述目标特征映射到所述树模型的节点上,建立所述目标特征与所述模型特征的对应关系,并根据所述对应关系确定所述目标特征的垂类特征及每一所述垂类特征对应的特征值;
所述训练模块640还被配置为将每一所述特征值进行逻辑回归拟合,得到每一所述特征值对应的特征权重,并计算每一所述特征值和对应的特征权重的乘积,得到每一所述特征值对应的偏好程度,并输出所述垂类特征及每一所述垂类特征对应的偏好程度。
可选地,所述筛选模块610包括:
确定子模块,被配置为确定每一所述历史行为特征在所述种子用户中的覆盖度;
执行子模块,被配置为将所述覆盖度超过对应的预设阈值的所述历史行为特征作为所述模型特征。
可选地,所述选取模块被配置为根据目标用户的行为特征和所述行为特征的关联特征从用户画像中选取目标特征。
图7是根据一示例性实施例示出的另一种垂体特征确定装置框图。参照图7,所述装置500还包括确定模块530和推送模块540。
即所述装置500包括选取模块510,执行模块520,确定模块530和推送模块540。
该确定模块530被配置为根据所述偏好程度确定所述目标用户感兴趣的垂类;
该推送模块540被配置为为所述目标用户推送属于所述目标用户感兴趣的垂类的信息。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本公开还提供一种计算机可读存储介质,其上存储有计算机程序指令,该程序指令被处理器执行时实现本公开提供的垂类特征的确定方法的步骤。
图8是根据一示例性实施例示出的一种用于垂体特征确定装置800的框图。例如,装置800可以被提供为一服务器。参照图8,装置800包括处理组件822,其进一步包括一个或多个处理器,以及由存储器832所代表的存储器资源,用于存储可由处理组件822的执行的指令,例如应用程序。存储器832中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件822被配置为执行指令,以执行上述垂体特征的确定方法。
装置800还可以包括一个电源组件826被配置为执行装置800的电源管理,一个有线或无线网络接口850被配置为将装置800连接到网络,和一个输入输出(I/O)接口858。装置800可以操作基于存储在存储器832的操作系统,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
本领域技术人员在考虑说明书及实践本公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (10)
1.一种垂类特征的确定方法,其特征在于,包括:
根据目标用户的行为特征从用户画像中选取目标特征;
将所述目标特征输入所述目标特征对应的垂类模型,得到所述垂类模型输出的所述目标用户的垂类特征及每一所述垂类特征对应的偏好程度,其中,所述垂类模型是将种子用户的历史行为特征作为训练样本训练得到的。
2.根据权利要求1所述的方法,其特征在于,所述垂类模型为多个,且每一批种子用户对应不同的垂类模型,其中,不同批的种子用户之间是根据用户的历史行为特征及所述历史行为特征的关联特征进行划分的;
其中,每一所述垂类模型是根据以下方式建立的:
根据所述种子用户的历史行为特征筛选得到模型特征;
对每一所述模型特征进行样本类型判定,得到所述模型特征的正样本集合和负样本集合;
根据所述正样本集合和所述负样本集合计算每一所述模型特征的信息增益,并根据所述信息增益的大小将对应的所述模型特征映射到树模型的节点上,得到组合特征,其中,每一节点对应有特征值;
针对每一所述组合特征进行逻辑回归模型训练,得到对应于所述种子用户的垂类模型。
3.根据权利要求2所述的方法,其特征在于,所述垂类模型用于:
将输入的所述目标特征映射到所述树模型的节点上,建立所述目标特征与所述模型特征的对应关系,并根据所述对应关系确定所述目标特征的垂类特征及每一所述垂类特征对应的特征值;
将每一所述特征值进行逻辑回归拟合,得到每一所述特征值对应的特征权重;
计算每一所述特征值和对应的特征权重的乘积,得到每一所述特征值对应的偏好程度,并输出所述垂类特征及每一所述垂类特征对应的偏好程度。
4.根据权利要求2所述的方法,其特征在于,所述根据所述种子用户的历史行为特征筛选得到模型特征包括:
确定每一所述历史行为特征在所述种子用户中的覆盖度;
将所述覆盖度超过对应的预设阈值的所述历史行为特征作为所述模型特征。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述根据目标用户的行为特征从用户画像中选取目标特征,包括:
根据目标用户的行为特征和所述行为特征的关联特征从用户画像中选取目标特征。
6.根据权利要求1-4任一项所述的方法,其特征在于,所述方法还包括:
根据所述偏好程度确定所述目标用户感兴趣的垂类;
为所述目标用户推送属于所述目标用户感兴趣的垂类的信息。
7.一种垂类特征的确定装置,其特征在于,包括:
选取模块,被配置为根据目标用户的行为特征从用户画像中选取目标特征;
执行模块,被配置为将所述目标特征输入所述目标特征对应的垂类模型,得到所述垂类模型输出的所述目标用户的垂类特征及每一所述垂类特征对应的偏好程度,其中,所述垂类模型是将种子用户的历史行为特征作为训练样本训练得到的。
8.根据权利要求7所述的装置,其特征在于,所述垂类模型包括:
筛选模块,被配置为根据所述种子用户的历史行为特征筛选得到模型特征;
判定模块,被配置为对每一所述模型特征进行样本类型判定,得到所述模型特征的正样本集合和负样本集合;
映射模块,被配置为根据所述正样本集合和负样本集合计算每一所述模型特征的信息增益,并根据所述信息增益的大小将对应的所述模型特征映射到树模型的节点上,得到组合特征,其中,每一节点对应有特征值;
训练模块,被配置为针对每一所述组合特征进行逻辑回归模型训练,得到对应于所述种子用户的垂类模型。
9.一种垂类特征的确定装置,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
根据目标用户的行为特征从用户画像中选取目标特征;
将所述目标特征输入所述目标特征对应的垂类模型,得到所述垂类模型输出的所述目标用户的垂类特征及每一所述垂类特征对应的偏好程度,其中,所述垂类模型是将种子用户的历史行为特征作为训练样本训练得到的。
10.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,该程序指令被处理器执行时实现权利要求1-6中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010997746.XA CN112150199A (zh) | 2020-09-21 | 2020-09-21 | 垂类特征的确定方法及装置、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010997746.XA CN112150199A (zh) | 2020-09-21 | 2020-09-21 | 垂类特征的确定方法及装置、存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112150199A true CN112150199A (zh) | 2020-12-29 |
Family
ID=73894036
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010997746.XA Pending CN112150199A (zh) | 2020-09-21 | 2020-09-21 | 垂类特征的确定方法及装置、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112150199A (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107679920A (zh) * | 2017-10-20 | 2018-02-09 | 北京奇艺世纪科技有限公司 | 一种广告的投放方法和装置 |
CN108363821A (zh) * | 2018-05-09 | 2018-08-03 | 深圳壹账通智能科技有限公司 | 一种信息推送方法、装置、终端设备及存储介质 |
CN109783539A (zh) * | 2019-01-07 | 2019-05-21 | 腾讯科技(深圳)有限公司 | 用户挖掘及其模型构建方法、装置及计算机设备 |
CN110263242A (zh) * | 2019-01-04 | 2019-09-20 | 腾讯科技(深圳)有限公司 | 内容推荐方法、装置、计算机可读存储介质和计算机设备 |
CN110399550A (zh) * | 2019-03-14 | 2019-11-01 | 腾讯科技(深圳)有限公司 | 一种信息推荐方法及装置 |
CN110490625A (zh) * | 2018-05-11 | 2019-11-22 | 北京京东尚科信息技术有限公司 | 用户偏好确定方法及装置、电子设备、存储介质 |
CN111144944A (zh) * | 2019-12-27 | 2020-05-12 | 浙江致梦大数据有限公司 | 一种广告投放方法、装置、电子设备及存储介质 |
CN111178934A (zh) * | 2019-11-29 | 2020-05-19 | 北京深演智能科技股份有限公司 | 获取目标对象的方法及装置 |
CN111340540A (zh) * | 2020-02-24 | 2020-06-26 | 腾讯科技(深圳)有限公司 | 广告推荐模型的监控方法、推荐方法及装置 |
WO2020140400A1 (zh) * | 2019-01-04 | 2020-07-09 | 平安科技(深圳)有限公司 | 基于用户行为的产品推荐方法、装置、设备及存储介质 |
CN111538860A (zh) * | 2020-07-07 | 2020-08-14 | 北京搜狐新媒体信息技术有限公司 | 视频推荐方法及装置、存储介质及电子设备 |
CN111681059A (zh) * | 2020-08-14 | 2020-09-18 | 支付宝(杭州)信息技术有限公司 | 行为预测模型的训练方法及装置 |
-
2020
- 2020-09-21 CN CN202010997746.XA patent/CN112150199A/zh active Pending
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107679920A (zh) * | 2017-10-20 | 2018-02-09 | 北京奇艺世纪科技有限公司 | 一种广告的投放方法和装置 |
CN108363821A (zh) * | 2018-05-09 | 2018-08-03 | 深圳壹账通智能科技有限公司 | 一种信息推送方法、装置、终端设备及存储介质 |
CN110490625A (zh) * | 2018-05-11 | 2019-11-22 | 北京京东尚科信息技术有限公司 | 用户偏好确定方法及装置、电子设备、存储介质 |
CN110263242A (zh) * | 2019-01-04 | 2019-09-20 | 腾讯科技(深圳)有限公司 | 内容推荐方法、装置、计算机可读存储介质和计算机设备 |
WO2020140400A1 (zh) * | 2019-01-04 | 2020-07-09 | 平安科技(深圳)有限公司 | 基于用户行为的产品推荐方法、装置、设备及存储介质 |
CN109783539A (zh) * | 2019-01-07 | 2019-05-21 | 腾讯科技(深圳)有限公司 | 用户挖掘及其模型构建方法、装置及计算机设备 |
CN110399550A (zh) * | 2019-03-14 | 2019-11-01 | 腾讯科技(深圳)有限公司 | 一种信息推荐方法及装置 |
CN111178934A (zh) * | 2019-11-29 | 2020-05-19 | 北京深演智能科技股份有限公司 | 获取目标对象的方法及装置 |
CN111144944A (zh) * | 2019-12-27 | 2020-05-12 | 浙江致梦大数据有限公司 | 一种广告投放方法、装置、电子设备及存储介质 |
CN111340540A (zh) * | 2020-02-24 | 2020-06-26 | 腾讯科技(深圳)有限公司 | 广告推荐模型的监控方法、推荐方法及装置 |
CN111538860A (zh) * | 2020-07-07 | 2020-08-14 | 北京搜狐新媒体信息技术有限公司 | 视频推荐方法及装置、存储介质及电子设备 |
CN111681059A (zh) * | 2020-08-14 | 2020-09-18 | 支付宝(杭州)信息技术有限公司 | 行为预测模型的训练方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11574139B2 (en) | Information pushing method, storage medium and server | |
CN110012060B (zh) | 移动终端的信息推送方法、装置、存储介质和服务器 | |
US20160379268A1 (en) | User behavior data analysis method and device | |
US10949000B2 (en) | Sticker recommendation method and apparatus | |
JP6547070B2 (ja) | プッシュ情報粗選択ソーティングの方法、デバイス、およびコンピュータ記憶媒体 | |
WO2018149337A1 (zh) | 一种信息投放方法、装置及服务器 | |
CN105894028B (zh) | 用户识别方法和装置 | |
CN110413867B (zh) | 用于内容推荐的方法及系统 | |
CN109978033A (zh) | 同操作人识别模型的构建与同操作人识别的方法和装置 | |
CN105654198B (zh) | 具有最优阈值筛选的品牌广告效果优化的方法 | |
CN109324862B (zh) | App展示方法及装置 | |
CN111400586A (zh) | 群组展示方法、终端、服务器、系统及存储介质 | |
CN111597446B (zh) | 基于人工智能的内容推送方法、装置、服务器和存储介质 | |
CN111144936B (zh) | 基于用户标签的相似人群扩展方法及装置 | |
CN113256335B (zh) | 数据筛选方法、多媒体数据的投放效果预测方法及装置 | |
CN111415183A (zh) | 用于处理访问请求的方法和装置 | |
CN112328881A (zh) | 文章推荐方法、装置、终端设备及存储介质 | |
CN113836388A (zh) | 信息推荐方法、装置、服务器及存储介质 | |
CN116823410A (zh) | 数据处理方法、对象处理方法、推荐方法及计算设备 | |
CN112115354A (zh) | 信息处理方法、装置、服务器及存储介质 | |
CN108810577B (zh) | 一种用户画像的构建方法、装置及电子设备 | |
CN112989174A (zh) | 信息推荐方法及装置、介质和设备 | |
JPWO2021048902A1 (ja) | 学習モデル適用システム、学習モデル適用方法、及びプログラム | |
CN112150199A (zh) | 垂类特征的确定方法及装置、存储介质 | |
CN115456691A (zh) | 线下广告位的推荐方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |