CN109871858A - 预测模型建立、对象推荐方法及系统、设备及存储介质 - Google Patents

预测模型建立、对象推荐方法及系统、设备及存储介质 Download PDF

Info

Publication number
CN109871858A
CN109871858A CN201711270286.5A CN201711270286A CN109871858A CN 109871858 A CN109871858 A CN 109871858A CN 201711270286 A CN201711270286 A CN 201711270286A CN 109871858 A CN109871858 A CN 109871858A
Authority
CN
China
Prior art keywords
prediction model
user
objects
feature
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711270286.5A
Other languages
English (en)
Inventor
王颖帅
李晓霞
苗诗雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201711270286.5A priority Critical patent/CN109871858A/zh
Publication of CN109871858A publication Critical patent/CN109871858A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种预测模型建立、对象推荐方法及系统、设备及存储介质。预测模型的建立方法包括以下步骤:获取用户数据和对象数据,分别从所述用户数据和所述对象数据中提取多个用户特征和多个对象特征构成特征矩阵;基于因子分解机构建表征所述特征矩阵中各个特征之间的关联性的隐向量;将所述隐向量作为训练样本输入至GBDT模型,训练得到预测对象特征的预测模型;所述预测模型用于预测对象的对象特征。本发明基于因子分解机进行特征工程建设,降低了因One‑hot编码导致的特征样本数据较稀疏,交叉项特征学习不充分的影响,将因子分解机输出的隐向量作为训练样本得到预测模型,有效提升了模型的准确性。

Description

预测模型建立、对象推荐方法及系统、设备及存储介质
技术领域
本发明涉及机器学习领域,特别涉及一种预测模型建立、对象推荐方法及系统、设备及存储介质。
背景技术
对于机器学习领域来说,业界流行的说法是数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限的方法。所以若要追求更高的预测准确度,特征工程建设是必不可少的步骤。
现有技术中,特征工程建设的基于One-hot编码(独热编码)实现,然后通过线性回归模型来获取各个特征的系数,再将这些特征的系数代入线性模型获取特征模型。但经过One-hot编码后会使特征变得稀疏,使交叉特征学习不充分,导致特征模型不正确。因此,利用One-hot编码得到的稀疏矩阵进行模型训练,得到的预测模型的准确度也是不高的。
发明内容
本发明要解决的技术问题是为了克服采用现有技术的模型训练方法得到的预测模型的准确度不高的缺陷,提供一种预测模型建立、对象推荐方法及系统、设备及存储介质。
本发明是通过下述技术方案来解决上述技术问题:
一种预测模型的建立方法,方法包括以下步骤:
获取用户数据和对象数据,分别从所述用户数据和所述对象数据中提取多个用户特征和多个对象特征构成特征矩阵;
基于因子分解机构建表征所述特征矩阵中各个特征之间的关联性的隐向量;
将所述隐向量作为训练样本输入至GBDT模型,训练得到预测对象特征的预测模型。
较佳地,基于因子分解机构建表征所述特征矩阵中各个特征之间的关联性的隐向量的步骤,具体包括:
预设隐向量的长度;
基于信息增益模型判断因子分解机当前输出的特征的信息增益是否在第一增益阈值范围内;
在判断为是时,将当前输出的特征构建为所述隐向量;
在判断为否时,调节所述隐向量的长度,并返回判断特征的信息增益的步骤;
所述因子分解机当前输出的特征的数量等于预设的隐向量的长度。
较佳地,调节所述隐向量的长度的步骤具体包括:
按照预设步长增加或减小所述长度。
较佳地,获取用户数据和对象数据,分别从所述用户数据和所述对象数据中提取多个用户特征和多个对象特征构成特征矩阵的步骤,具体包括:
按照采样周期采样用户数据和对象数据;
基于信息增益模型从所述用户数据和所述对象数据中提取信息增益在第二增益阈值范围内的多个用户特征和多个对象特征,并构成特征矩阵。
较佳地,将所述隐向量作为训练样本输入至GBDT模型,训练得到对象特征的预测模型的步骤,具体包括:
从所述训练样本中提取第一采样时间获取的用户特征和对象特征输入至所述GBDT模型中;
将所述GBDT模型输出的对象特征与从所述训练样本中提取的第二采样时间获取的对象特征进行比较,根据比较结果更新所述GBDT模型的参数;
迭代上述步骤,直至所述GBDT模型的AUC指标在指标阈值范围内,得到所述预测模型;
所述第二采样时间晚于所述第一采样时间。
较佳地,用户特征包括以下特征中的至少一种:
用户性别、用户等级、用户设备地址、用户网络信息、用户偏好和用户年龄;
对象特征包括以下特征中的至少一种:
对象的点击量、点赞量、分享量、浏览量、曝光量、GMV、曝光点击量、对象质量评分、对象作者评分、对象属性和对象价格等级。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述的预测模型的建立方法。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述的预测模型的建立方法的步骤。
本发明还提供一种对象推荐方法,所述对象推荐方法包括以下步骤:
利用上述的预测模型的建立方法获得预测模型;
根据所述预测模型预测对象特征,并根据所述对象特征计算每个对象的评分;
推荐评分大于评分阈值的对象。
较佳地,推荐评分大于评分阈值的对象的步骤之前,所述对象推荐方法还包括:
将对象按照评分由高至低的顺序进行排序。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述的对象推荐方法。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序所述程序被处理器执行时实现上述的对象推荐方法的步骤。
本发明还提供一种预测模型的建立系统,系统包括:
特征获取模块,用于获取用户数据和对象数据,并分别从所述用户数据和所述对象数据中提取多个用户特征和多个对象特征构成特征矩阵;
隐向量构建模块,用于基于因子分解机构建表征所述特征矩阵中各个特征之间的关联性的隐向量;
训练模块,用于将所述隐向量作为训练样本输入至GBDT模型,训练得到预测对象特征的预测模型。
较佳地,所述隐向量构建模块具体包括:长度预设单元、判断单元、向量构建单元和调节单元;
所述长度预设单元用于预设隐向量的长度;
所述判断单元用于基于信息增益模型判断因子分解机当前输出的特征的信息增益是否在第一增益阈值范围内;在判断为是时,调用所述向量构建单元;在判断为否时,调用所述调节单元;
所述向量构建单元用于将当前输出的特征构建为所述隐向量;
所述调节单元用于在调节所述隐向量的长度后调用所述判断单元;
所述因子分解机当前输出的特征的数量等于预设的隐向量的长度。
较佳地,所述调节单元具体用于按照预设步长增加或减小所述长度。
较佳地,所述特征获取模块具体包括:
采样单元,用于按照采样周期采样用户数据和对象数据;
矩阵构建单元,用于基于信息增益模型从所述用户数据和所述对象数据中提取信息增益在第二增益阈值范围内的多个用户特征和多个对象特征,并构成特征矩阵。
较佳地,所述训练模块具体包括:
输入单元,用于从所述训练样本中提取第一采样时间获取的用户特征和对象特征输入至所述GBDT模型中;
比较单元,用于将所述GBDT模型输出的对象特征与从所述训练样本中提取的第二采样时间获取的对象特征进行比较,根据比较结果更新所述GBDT模型的参数;
调用单元,用于重复调用所述输入单元和所述比较单元,直至所述GBDT模型的AUC指标在指标阈值范围内,得到所述预测模型;
所述第二采样时间晚于所述第一采样时间。
较佳地,用户特征包括以下特征中的至少一种:
用户性别、用户等级、用户设备地址、用户网络信息、用户偏好和用户年龄;
对象特征包括以下特征中的至少一种:
对象的点击量、点赞量、分享量、浏览量、曝光量、GMV、曝光点击量、对象质量评分、对象作者评分、对象属性和对象价格等级。
本发明还提供一种对象推荐系统,所述对象推荐系统包括:评分计算模块、推荐模块和利用如上所述的预测模型的建立系统获得的预测模型;
所述评分计算模块用于根据所述预测模型预测的对象特征计算每个对象的评分;
所述推荐模块用于推荐评分大于评分阈值的对象。
较佳地,所述对象推荐系统还包括:排序模块;
所述排序模块用于将对象按照评分由高至低的顺序进行排序;
所述推荐模块推荐排序后的对象。
本发明的积极进步效果在于:本发明基于因子分解机进行特征工程建设,降低了因One-hot编码导致的特征样本数据较稀疏,交叉项特征学习不充分的影响,将因子分解机输出的隐向量作为训练样本得到预测模型,有效提升了模型的准确性。
附图说明
图1为本发明实施例1的预测模型的建立方法的第一流程图。
图2为本发明实施例1的预测模型的建立方法的第二流程图。
图3为本发明实施例2的电子设备的硬件结构示意图。
图4为本发明实施例4的对象推荐方法的流程图。
图5为本发明实施例7的预测模型的建立系统的模块示意。
图6为本发明实施例8的对象推荐系统的模块示意。
具体实施方式
下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。
实施例1
如图1所示,本实施例的预测模型的建立方法包括以下步骤:
步骤101、获取用户数据和对象数据,分别从用户数据和对象数据中提取多个用户特征和多个对象特征构成特征矩阵。
步骤101中,多个用户特征和多个用户特征的提取与用户最终需要预测的特征(预测模型的输出特征)有关,首先需要分析师基于业务理解,找到对业务目标特征(预测模型的输出特征)有影响的所有自变量特征。特征的可用性评估,包括特征获取难度,特征覆盖率,特征准确度等。
例如,在电子商务网站中,分析师可以选择以下特征中的至少一种作为用户特征:用户性别、用户等级、用户设备地址、用户年龄、用户网络信息(用户当前使用的移动终端是4G网络还是3G网络)和用户偏好(比如用户的价格段偏好、品类偏好和品牌偏好的)等;以及选择以下特征中的至少一种作为对象特征:对象价格、对象所属三级品类、对象的点击量、点赞量、分享量、浏览量、曝光量、GMV(成交总额)、曝光点击量、对象质量评分、对象作者评分、对象属性和对象价格等级等。其中,对象可以是电子书、物品和电子文稿(例如网络新闻、网络文章)等。
本实施例中,如图2所示,步骤101具体包括:
步骤101-1、按照采样周期采样用户数据和对象数据。
例如,可以是一个月采集一次,一周采集一次,或者每天采集一次。其中当前采集的数据可存储于曝光日志中,历史数据存储在Redis数据库中。从而,执行下述步骤中,可从曝光日志中获取当前采集的数据,从Redis数据库中获取历史数据。
本实施例中,执行步骤101-2之前,还可对采集的数据进行清洗。具体的,去掉数据分布上下5%(阈值范围不限于5%,可根据实际需求自行设置)的点,也即将数据中各项特征值的最大数值的5%和/或最小数值的5%认为是异常值,将其去除,以实现数据清洗。然后对数据进行归一化或标准化处理,以便于下面计算的方便,加快计算速度。最后,从预处理好的数据进行特征提取。
特征提取主要由生成策略、评价准则、停止条件和结论验证四个部分组成。其中,生成策略是指从原始特征集合中生成某些特征子集,评价准则是指评价特征子集的相关性,判断生成的特征子集的合理性,停止条件是指判断生成的特征子集是否符合开始定义的要求,结论验证是指验证所生成的特征子集的有效性。从而,实现在不同的业务中,选择最有效的业务特征。具体的,下面提供一种步骤101-2的可能的实现方式。
步骤101-2、基于信息增益模型从用户数据和对象数据中提取信息增益在第二增益阈值范围内的多个用户特征和多个对象特征,并构成特征矩阵。
步骤102、基于因子分解机构建表征特征矩阵中各个特征之间的关联性的隐向量。
下面对因子分解机构的原理进行简要说明:
每个用户数据和对象数据都可以表示成向量,例如对用户数据和对象数据进行特征提取后,将用户数据表示成二维向量,把商品数据表示成二维向量,两个向量的点击就是用户对商品的点击预估率,如下矩阵表示:
其中,R[i,j]表示用户i对对象j的点击率预估矩阵。所有二次项参数rij可以组成一个对称矩阵W,这个矩阵可以分解为W=VTV,V的第j列是第j维特征的隐向量。因子分解机的方程如下:
所有包含xi的非零特征向量都可以用来学习隐向量vi,这很大程度上避免了数据稀疏性造成的影响。某些特征经过关联之后,其相关性会提高,比如女性与化妆品类对象,男性与足球类对象,女性用户很可能会在化妆品有大量浏览,男性用户很可能会在足球类对象有大量浏览,因此,引入两个特征的组合是非常有意义的。
具体的,步骤102包括:
步骤102-1、预设隐向量的长度k。
其中,此时隐向量包含k个描述特征的因子,也即设置因子分解机当前输出的特征的数量。需要说明的是,隐向量中的特征可以包括特征矩阵中全部的对象特征,也可以仅包括部分对象特征,但隐向量中的特征值与特征矩阵中的特征值不同,隐向量中的非零值大大减小。
步骤102-2、基于信息增益模型判断因子分解机当前输出的特征的信息增益是否在第一增益阈值范围内。在判断为是时,执行步骤102-3;在判断为否时,执行步骤102-3’。
步骤102-3、将当前输出的特征构建为隐向量。
步骤102-3’、调节隐向量的长度,并返回步骤102-2。
具体的,步骤102-3’中以按照预设步长增加或减小长度的方式调节隐向量的长度。需要说明的是,预设步长越小,得到的结果越准确。
本实施例中,通过因子分解机构建了丰富的对象特征,且对因子分解机进行改进,使其更加贴合新闻网站、电子商务网站等互联网络的使用场景。比如对象的优惠券特征和对象的折扣特征,可能存在交互,就将该交互特征加入隐向量中,同时计算出交互特征的系数作为特征值。信息增益算法实现了筛选出最优价值的交互特征,也即使得筛选出的特征更能表征预测模型的输出特征。从而,利用改进的因子分解机进行特征工程建设,将参数学习由之前学习交叉项参数的过程,转变为学习n个单特征对应k维隐向量的过程,提升了模型预估能力,提高了特征工程建设的准确性。
步骤103、将隐向量作为训练样本输入至GBDT模型,训练得到对象特征的预测模型。
从而,可以使用预测模型预测商品(或网络新闻或电子书等对象)的价格、所属三级品类、点击量、点赞量、分享量、浏览量、曝光量、GMV(成交总额)、曝光点击量、质量评分、作者评分、属性和价格等级等对象特征。
具体的,步骤103包括:
步骤103-1、从训练样本中提取第一采样时间获取的用户特征和对象特征输入至GBDT模型中。
步骤103-2、将GBDT模型输出的对象特征与从训练样本中提取的第二采样时间获取的对象特征进行比较,根据比较结果更新GBDT模型的参数。
其中,第二采样时间晚于第一采样时间。
步骤103-3、判断当前的GBDT模型的AUC指标是否在指标阈值范围内。在判断为是时,执行步骤103-4;在判断为否时,返回步骤103-1,以重新选择训练样本,对模型参数进行调试。
步骤103-4、将当前的GBDT模型确定为预测模型。
从而,通过迭代执行步骤103-1、步骤103-2和步骤103-3,直至GBDT模型的AUC指标在指标阈值范围内,得到准确的预测模型。该预测模型则可根据当前获取的数据(从曝光日志中获取)进行对象特征的预测,例如,预测模型输出的对象特征包括订单量和点击量,则预测模型可预测一个在线销售的足球的订单量和点击量,从而为进行对象推荐提供参考。
本实施例中,预测模型建立之后,在正式使用前,还可对其应用于不同的业务中,进行线上AB测试(一种测试工具),通过分析测试数据结果决定重新调试模型参数、重新选择特征还是将该模型投入市场使用。
需要说明的是,本实施例的预测模型也可直接输出每个对象的评分,此时就需要设置各个目标对象特征(与评价业务优良相关的特征)的权重,根据对象特征的值和权重计算评分后输出。
实施例2
图3为本发明实施例2提供的一种电子设备的结构示意图。图3示出了适于用来实现本发明实施方式的示例性电子设备30的框图。图3显示的电子设备30仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图3所示,电子设备30可以以通用计算设备的形式表现,例如其可以为服务器设备。电子设备30的组件可以包括但不限于:至少一个处理器31、至少一个存储器32、连接不同系统组件(包括存储器32和处理器31)的总线33。
总线33包括数据总线、地址总线和控制总线。
存储器32可以包括易失性存储器,例如随机存取存储器(RAM)321和/或高速缓存存储器322,还可以进一步包括只读存储器(ROM)323。
存储器32还可以包括具有一组(至少一个)程序模块324的程序/实用工具325,这样的程序模块324包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
处理器31通过运行存储在存储器32中的计算机程序,从而执行各种功能应用以及数据处理,例如本发明实施例1所提供的预测模型的建立方法。
电子设备30也可以与一个或多个外部设备34(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口35进行。并且,电子设备30还可以通过网络适配器36与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器36通过总线33与电子设备30的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备30使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。
应当注意,尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
实施例3
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现实施例1所提供的预测模型的建立方法的步骤。
实施例4
如图4所示,本实施例的对象推荐方法包括以下步骤:
步骤201、获得预测模型
具体的,利用实施例1中的预测模型的建立方法获得预测模型。
步骤202、根据预测模型预测对象特征,并根据对象特征计算每个对象的评分。
具体的,可设置预测模型输出的各个对象特征的权重,通过各个特征的值和权重计算每个对象的评分。
步骤203、推荐评分大于评分阈值的对象。
从而,实现对用户偏好做个性化预测,使得推荐效果千人千面。
本实施例中,步骤203之前还包括:
将对象按照评分由高至低的顺序进行排序。
从而,步骤203中推荐的对象按照评分由高至低的顺序进行排序后展示给用户。
本实施例中,预测模型能准确地预测各个对象的对象特征,根据该预测模型得到的对象特征的值较准确,从而能通过计算对象特征的值量化每个对象的评分,并根据评分进行对象推荐,准确性大大提高。
需要说明的是,若通过实施例1的预测模型的建立方法获得的预测模型能够直接输出对象评分,则本实施例中的对象推荐方法无需执行步骤202,可根据步骤201获得的预测模型输出的对象评分直接进行推荐。
实施例5
本实施例提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现实施例4所提供的对象推荐方法。
实施例6
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现实施例4所提供的对象推荐方法的步骤。
实施例7
如图5所示,本实施例中的对象特征的预测系统包括:特征获取模块11、隐向量构建模块12和训练模块13。
特征获取模块11用于获取用户数据和对象数据,并分别从用户数据和对象数据中提取多个用户特征和多个对象特征构成特征矩阵。
其中,用户特征包括以下特征中的至少一种:用户性别、用户等级、用户设备地址、用户网络信息。对象特征包括以下特征中的至少一种:对象的点击量、点赞量、分享量、浏览量、曝光量、GMV、曝光点击量、对象质量评分、对象作者评分、对象属性和对象价格等级。
本实施例中,特征获取模块11具体包括:采样单元111和矩阵构建单元112。采样单元用于按照采样周期采样用户数据和对象数据;矩阵构建单元用于基于信息增益模型从用户数据和对象数据中提取信息增益在第二增益阈值范围内的多个用户特征和多个对象特征,并构成特征矩阵。
本实施例中,矩阵构建单元构建特征矩阵之前,还可对采集的数据进行清洗。具体的,去掉数据分布上下5%(阈值范围不限于5%,可根据实际需求自行设置)的点,也即将数据中各项特征值的最大数值的5%和/或最小数值的5%认为是异常值,将其去除,以实现数据清洗。然后对数据进行归一化或标准化处理,以便于下面计算的方便,加快计算速度。最后,从预处理好的数据进行特征提取。
隐向量构建模块12用于基于因子分解机构建表征特征矩阵中各个特征之间的关联性的隐向量。
下面对因子分解机构的原理进行简要说明:
每个用户数据和对象数据都可以表示成向量,例如对用户数据和对象数据进行特征提取后,将用户数据表示成二维向量,把商品数据表示成二维向量,两个向量的点击就是用户对商品的点击预估率,如下矩阵表示:
其中,R[i,j]表示用户i对对象j的点击率预估矩阵。所有二次项参数rij可以组成一个对称矩阵W,这个矩阵可以分解为W=VTV,V的第j列是第j维特征的隐向量。因子分解机的方程如下:
所有包含xi的非零特征向量都可以用来学习隐向量vi,这很大程度上避免了数据稀疏性造成的影响。某些特征经过关联之后,其相关性会提高,比如女性与化妆品类对象,男性与足球类对象,女性用户很可能会在化妆品有大量浏览,男性用户很可能会在足球类对象有大量浏览,因此,引入两个特征的组合是非常有意义的。
本实施例中,隐向量构建模块12具体包括:长度预设单元121、判断单元122、向量构建单元123和调节单元124。长度预设单元用于预设隐向量的长度。判断单元用于基于信息增益模型判断因子分解机当前输出的特征的信息增益是否在第一增益阈值范围内;在判断为是时,调用向量构建单元;在判断为否时,调用调节单元。向量构建单元用于将当前输出的特征构建为隐向量。调节单元用于在调节隐向量的长度后调用判断单元。其中,因子分解机当前输出的特征的数量等于预设的隐向量的长度。
本实施例中,通过因子分解机构建了丰富的对象特征,且对因子分解机进行改进,使其更加贴合电子商务网站的使用场景,比如对象的优惠券特征和对象的折扣特征,可能存在交互,就将该交互特征加入隐向量中,同时计算出交互特征的系数作为特征值。信息增益算法实现了筛选出最优价值的交互特征,也即使得筛选出的特征更能表征预测模型的输出特征。从而,利用改进的因子分解机进行特征工程建设,将参数学习由之前学习交叉项参数的过程,转变为学习n个单特征对应k维隐向量的过程,提升了模型预估能力,提高了特征工程建设的准确性。
训练模块13用于将隐向量作为训练样本输入至GBDT模型,训练得到预测对象特征的预测模型。也即当预测模型的输出特征包括对象的点击量、点赞量、分享量、浏览量、曝光量、GMV、曝光点击量、对象质量评分、对象作者评分、对象属性和对象价格等级等特征的时,可对上述特征的值进行预测。
本实施例中,训练模块13具体包括:输入单元131、比较单元132和调用单元133。输入单元用于从训练样本中提取第一采样时间获取的用户特征和对象特征输入至GBDT模型中。比较单元用于将GBDT模型输出的对象特征与从训练样本中提取的第二采样时间获取的对象特征进行比较,根据比较结果更新GBDT模型的参数。调用单元用于重复调用输入单元和比较单元,直至GBDT模型的AUC指标在指标阈值范围内,得到预测模型。第二采样时间晚于第一采样时间。具体的,调节单元用于按照预设步长增加或减小所述长度。
本实施例中,预测模型建立之后,在正式使用前,还可对其应用于不同的业务中,进行线上AB测试(一种测试工具),通过分析测试数据结果决定重新调试模型参数、重新选择特征还是将该模型投入市场使用。
需要说明的是,本实施例的预测模型也可直接输出每个对象的评分,此时就需要设置目标对象特征(与评价业务优良相关的特征)的权重,根据对象特征的值和权重计算评分后输出。
实施例8
如图6所示,本实施例的对象推荐系统包括:评分计算模块21、推荐模块22和预测模型。预测模型利用实施例7中的预测模型的建立系统获得。评分计算模块用于根据预测模型预测的对象特征计算每个对象的评分。推荐模块用于推荐评分大于评分阈值的对象。
本实施例中,对象推荐系统还可包括:排序模块(图中未示出)。排序模块用于将对象按照评分由高至低的顺序进行排序。从而,推荐模块推荐排序后的对象并展示给用户。
需要说明的是,若通过实施例7中的预测系统获得的预测模型能够直接输出对象评分,则本实施例中的对象推荐系统则无需评分计算模块,推荐模块根据预测模型输出的对象评分直接进行对象推荐。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。

Claims (20)

1.一种预测模型的建立方法,其特征在于,方法包括以下步骤:
获取用户数据和对象数据,分别从所述用户数据和所述对象数据中提取多个用户特征和多个对象特征构成特征矩阵;
基于因子分解机构建表征所述特征矩阵中各个特征之间的关联性的隐向量;
将所述隐向量作为训练样本输入至GBDT模型,训练得到预测对象特征的预测模型。
2.如权利要求1所述的预测模型的建立方法,其特征在于,基于因子分解机构建表征所述特征矩阵中各个特征之间的关联性的隐向量的步骤,具体包括:
预设隐向量的长度;
基于信息增益模型判断因子分解机当前输出的特征的信息增益是否在第一增益阈值范围内;
在判断为是时,将当前输出的特征构建为所述隐向量;
在判断为否时,调节所述隐向量的长度,并返回判断特征的信息增益的步骤;
所述因子分解机当前输出的特征的数量等于预设的隐向量的长度。
3.如权利要求2所述的预测模型的建立方法,其特征在于,调节所述隐向量的长度的步骤具体包括:
按照预设步长增加或减小所述长度。
4.如权利要求1所述的预测模型的建立方法,其特征在于,分别从所述用户数据和所述对象数据中提取多个用户特征和多个对象特征构成特征矩阵的步骤,具体包括:
按照采样周期采样用户数据和对象数据;
基于信息增益模型从所述用户数据和所述对象数据中提取信息增益在第二增益阈值范围内的多个用户特征和多个对象特征,并构成特征矩阵。
5.如权利要求4所述的预测模型的建立方法,其特征在于,将所述隐向量作为训练样本输入至GBDT模型,训练得到对象特征的预测模型的步骤,具体包括:
从所述训练样本中提取第一采样时间获取的用户特征和对象特征输入至所述GBDT模型中;
将所述GBDT模型输出的对象特征与从所述训练样本中提取的第二采样时间获取的对象特征进行比较,根据比较结果更新所述GBDT模型的参数;
迭代执行上述步骤,直至所述GBDT模型的AUC指标在指标阈值范围内,得到所述预测模型;
所述第二采样时间晚于所述第一采样时间。
6.如权利要求1所述的预测模型的建立方法,其特征在于,用户特征包括以下特征中的至少一种:
用户性别、用户等级、用户设备地址、用户网络信息、用户偏好和用户年龄;
对象特征包括以下特征中的至少一种:
对象的点击量、点赞量、分享量、浏览量、曝光量、GMV、曝光点击量、对象质量评分、对象作者评分、对象属性和对象价格等级。
7.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6任一项所述的预测模型的建立方法。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6任一项所述的预测模型的建立方法的步骤。
9.一种对象推荐方法,其特征在于,所述对象推荐方法包括以下步骤:
利用权利要求1-6中任意一项所述的预测模型的建立方法获得预测模型;
根据所述预测模型预测对象特征,并根据所述对象特征计算每个对象的评分;
推荐评分大于评分阈值的对象。
10.如权利要求9所述的对象推荐方法,其特征在于,推荐评分大于评分阈值的对象步骤之前,所述对象推荐方法还包括:
将对象按照评分由高至低的顺序进行排序。
11.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求9或10所述的对象推荐方法。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求9或10所述的对象推荐方法的步骤。
13.一种预测模型的建立系统,其特征在于,系统包括:
特征获取模块,用于获取用户数据和对象数据,并分别从所述用户数据和所述对象数据中提取多个用户特征和多个对象特征构成特征矩阵;
隐向量构建模块,用于基于因子分解机构建表征所述特征矩阵中各个特征之间的关联性的隐向量;
训练模块,用于将所述隐向量作为训练样本输入至GBDT模型,训练得到预测对象特征的预测模型。
14.如权利要求13所述的预测模型的建立系统,其特征在于,所述隐向量构建模块具体包括:长度预设单元、判断单元、向量构建单元和调节单元;
所述长度预设单元用于预设隐向量的长度;
所述判断单元用于基于信息增益模型判断因子分解机当前输出的特征的信息增益是否在第一增益阈值范围内;在判断为是时,调用所述向量构建单元;在判断为否时,调用所述调节单元;
所述向量构建单元用于将当前输出的特征构建为所述隐向量;
所述调节单元用于在调节所述隐向量的长度后调用所述判断单元;
所述因子分解机当前输出的特征的数量等于预设的隐向量的长度。
15.如权利要求14所述的预测模型的建立系统,其特征在于,所述调节单元具体用于按照预设步长增加或减小所述长度。
16.如权利要求13所述的预测模型的建立系统,其特征在于,所述特征获取模块具体包括:
采样单元,用于按照采样周期采样用户数据和对象数据;
矩阵构建单元,用于基于信息增益模型从所述用户数据和所述对象数据中提取信息增益在第二增益阈值范围内的多个用户特征和多个对象特征,并构成特征矩阵。
17.如权利要求16所述的预测模型的建立系统,其特征在于,所述训练模块具体包括:
输入单元,用于从所述训练样本中提取第一采样时间获取的用户特征和对象特征输入至所述GBDT模型中;
比较单元,用于将所述GBDT模型输出的对象特征与从所述训练样本中提取的第二采样时间获取的对象特征进行比较,根据比较结果更新所述GBDT模型的参数;
调用单元,用于重复调用所述输入单元和所述比较单元,直至所述GBDT模型的AUC指标在指标阈值范围内,得到所述预测模型;
所述第二采样时间晚于所述第一采样时间。
18.如权利要求13所述的预测模型的建立系统,其特征在于,用户特征包括以下特征中的至少一种:
用户性别、用户等级、用户设备地址、用户网络信息、用户偏好和用户年龄;
对象特征包括以下特征中的至少一种:
对象的点击量、点赞量、分享量、浏览量、曝光量、GMV、曝光点击量、对象质量评分、对象作者评分、对象属性和对象价格等级。
19.一种对象推荐系统,其特征在于,所述对象推荐系统包括:评分计算模块、推荐模块和利用权利要求13-18中任意一项所述的预测模型的建立系统获得的预测模型;
所述评分计算模块用于根据所述预测模型预测的对象特征计算每个对象的评分;
所述推荐模块用于推荐评分大于评分阈值的对象。
20.如权利要求19所述的对象推荐系统,其特征在于,所述对象推荐系统还包括:排序模块;
所述排序模块用于将对象按照评分由高至低的顺序进行排序;
所述推荐模块推荐排序后的对象。
CN201711270286.5A 2017-12-05 2017-12-05 预测模型建立、对象推荐方法及系统、设备及存储介质 Pending CN109871858A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711270286.5A CN109871858A (zh) 2017-12-05 2017-12-05 预测模型建立、对象推荐方法及系统、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711270286.5A CN109871858A (zh) 2017-12-05 2017-12-05 预测模型建立、对象推荐方法及系统、设备及存储介质

Publications (1)

Publication Number Publication Date
CN109871858A true CN109871858A (zh) 2019-06-11

Family

ID=66916690

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711270286.5A Pending CN109871858A (zh) 2017-12-05 2017-12-05 预测模型建立、对象推荐方法及系统、设备及存储介质

Country Status (1)

Country Link
CN (1) CN109871858A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110569447A (zh) * 2019-09-12 2019-12-13 腾讯音乐娱乐科技(深圳)有限公司 一种网络资源的推荐方法、装置及存储介质
CN110689177A (zh) * 2019-09-17 2020-01-14 北京三快在线科技有限公司 订单准备时间的预测方法和装置,电子设备及存储介质
CN110851651A (zh) * 2019-11-08 2020-02-28 杭州趣维科技有限公司 一种个性化视频推荐方法及系统
CN111047406A (zh) * 2019-12-12 2020-04-21 北京思特奇信息技术股份有限公司 一种电信套餐推荐方法、装置、存储介质和设备
CN111259133A (zh) * 2020-01-17 2020-06-09 成都信息工程大学 一种融合多信息的个性化推荐方法
CN111737554A (zh) * 2020-06-16 2020-10-02 北京奇艺世纪科技有限公司 评分模型训练方法、电子书评分方法及装置
CN111898675A (zh) * 2020-07-30 2020-11-06 北京云从科技有限公司 信贷风控模型生成方法、装置、评分卡生成方法、机器可读介质及设备
CN112711643A (zh) * 2019-10-25 2021-04-27 北京达佳互联信息技术有限公司 训练样本集获取方法及装置、电子设备、存储介质
WO2021129055A1 (zh) * 2019-12-25 2021-07-01 百果园技术(新加坡)有限公司 信息预测模型训练方法及装置、信息预测方法及装置、存储介质、设备
CN113177844A (zh) * 2021-05-28 2021-07-27 成都新希望金融信息有限公司 一种信贷风险预测方法、装置、设备及存储介质
WO2021147568A1 (zh) * 2020-08-27 2021-07-29 平安科技(深圳)有限公司 基于gbdt高阶特征组合的推荐方法、装置及存储介质
CN113393279A (zh) * 2021-07-08 2021-09-14 北京沃东天骏信息技术有限公司 一种订单数量的预估方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105117418A (zh) * 2015-07-30 2015-12-02 百度在线网络技术(北京)有限公司 基于搜索的服务信息管理系统及方法
CN105868847A (zh) * 2016-03-24 2016-08-17 车智互联(北京)科技有限公司 一种购物行为的预测方法及装置
US20170046431A1 (en) * 2015-08-11 2017-02-16 Microsoft Technology Licensing, Llc Task-level search engine evaluation
US20170213280A1 (en) * 2016-01-27 2017-07-27 Huawei Technologies Co., Ltd. System and method for prediction using synthetic features and gradient boosted decision tree

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105117418A (zh) * 2015-07-30 2015-12-02 百度在线网络技术(北京)有限公司 基于搜索的服务信息管理系统及方法
US20170046431A1 (en) * 2015-08-11 2017-02-16 Microsoft Technology Licensing, Llc Task-level search engine evaluation
US20170213280A1 (en) * 2016-01-27 2017-07-27 Huawei Technologies Co., Ltd. System and method for prediction using synthetic features and gradient boosted decision tree
CN105868847A (zh) * 2016-03-24 2016-08-17 车智互联(北京)科技有限公司 一种购物行为的预测方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
田嫦丽 等: ""互联网广告点击率预估模型中特征提取方法的研究与实现"", 《计算机应用研究》 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110569447A (zh) * 2019-09-12 2019-12-13 腾讯音乐娱乐科技(深圳)有限公司 一种网络资源的推荐方法、装置及存储介质
CN110569447B (zh) * 2019-09-12 2022-03-15 腾讯音乐娱乐科技(深圳)有限公司 一种网络资源的推荐方法、装置及存储介质
CN110689177A (zh) * 2019-09-17 2020-01-14 北京三快在线科技有限公司 订单准备时间的预测方法和装置,电子设备及存储介质
CN110689177B (zh) * 2019-09-17 2020-11-20 北京三快在线科技有限公司 订单准备时间的预测方法和装置,电子设备及存储介质
CN112711643B (zh) * 2019-10-25 2023-10-10 北京达佳互联信息技术有限公司 训练样本集获取方法及装置、电子设备、存储介质
CN112711643A (zh) * 2019-10-25 2021-04-27 北京达佳互联信息技术有限公司 训练样本集获取方法及装置、电子设备、存储介质
CN110851651A (zh) * 2019-11-08 2020-02-28 杭州趣维科技有限公司 一种个性化视频推荐方法及系统
CN110851651B (zh) * 2019-11-08 2022-07-22 杭州小影创新科技股份有限公司 一种个性化视频推荐方法及系统
CN111047406A (zh) * 2019-12-12 2020-04-21 北京思特奇信息技术股份有限公司 一种电信套餐推荐方法、装置、存储介质和设备
CN111047406B (zh) * 2019-12-12 2023-08-22 北京思特奇信息技术股份有限公司 一种电信套餐推荐方法、装置、存储介质和设备
WO2021129055A1 (zh) * 2019-12-25 2021-07-01 百果园技术(新加坡)有限公司 信息预测模型训练方法及装置、信息预测方法及装置、存储介质、设备
CN111259133B (zh) * 2020-01-17 2021-02-19 成都信息工程大学 一种融合多信息的个性化推荐方法
CN111259133A (zh) * 2020-01-17 2020-06-09 成都信息工程大学 一种融合多信息的个性化推荐方法
CN111737554A (zh) * 2020-06-16 2020-10-02 北京奇艺世纪科技有限公司 评分模型训练方法、电子书评分方法及装置
CN111898675B (zh) * 2020-07-30 2021-04-23 北京云从科技有限公司 信贷风控模型生成方法、装置、评分卡生成方法、机器可读介质及设备
CN111898675A (zh) * 2020-07-30 2020-11-06 北京云从科技有限公司 信贷风控模型生成方法、装置、评分卡生成方法、机器可读介质及设备
WO2021147568A1 (zh) * 2020-08-27 2021-07-29 平安科技(深圳)有限公司 基于gbdt高阶特征组合的推荐方法、装置及存储介质
CN113177844A (zh) * 2021-05-28 2021-07-27 成都新希望金融信息有限公司 一种信贷风险预测方法、装置、设备及存储介质
CN113393279A (zh) * 2021-07-08 2021-09-14 北京沃东天骏信息技术有限公司 一种订单数量的预估方法及系统

Similar Documents

Publication Publication Date Title
CN109871858A (zh) 预测模型建立、对象推荐方法及系统、设备及存储介质
CN111797321B (zh) 一种面向不同场景的个性化知识推荐方法及系统
EP4181026A1 (en) Recommendation model training method and apparatus, recommendation method and apparatus, and computer-readable medium
CN104463637A (zh) 一种基于电商平台的商品推荐方法、装置及服务器
CN104778186B (zh) 将商品对象挂载到标准产品单元的方法及系统
CN107578270A (zh) 一种金融标签的构建方法、装置及计算设备
CN110019163A (zh) 对象特征的预测、推荐的方法、系统、设备和存储介质
TW201437933A (zh) 搜尋引擎的結果排序方法及系統
CN103577660B (zh) 灰度实验系统和方法
CN106610970A (zh) 基于协同过滤的内容推荐系统与方法
CN111949887A (zh) 物品推荐方法、装置及计算机可读存储介质
CN106844330B (zh) 文章情感的分析方法和装置
CN113469730A (zh) 一种非合同场景下的基于RF-LightGBM融合模型的客户复购预测方法及装置
CN105335518A (zh) 生成用户偏好信息的方法及装置
CN108133390A (zh) 用于预测用户行为的方法和装置以及计算设备
CN106991577A (zh) 一种确定目标用户的方法及装置
McKelvey et al. Visualizing communication on social media: Making big data accessible
CN109634820A (zh) 一种云端移动端协同的故障预警方法、相关设备及系统
CN107203558A (zh) 对象推荐方法和装置、推荐信息处理方法和装置
CN105868422B (zh) 一种基于弹性维特征向量优化抽取的协同过滤推荐方法
CN105260458A (zh) 一种用于显示装置的视频推荐方法及显示装置
CN111047406A (zh) 一种电信套餐推荐方法、装置、存储介质和设备
CN104572623B (zh) 一种在线lda模型的高效数据总结分析方法
CN106886934A (zh) 用于确定商家品类的方法、系统和装置
CN107797981A (zh) 一种目标文本识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination