CN114329167A - 超参数学习、智能推荐、关键词和多媒体推荐方法及装置 - Google Patents

超参数学习、智能推荐、关键词和多媒体推荐方法及装置 Download PDF

Info

Publication number
CN114329167A
CN114329167A CN202011060539.8A CN202011060539A CN114329167A CN 114329167 A CN114329167 A CN 114329167A CN 202011060539 A CN202011060539 A CN 202011060539A CN 114329167 A CN114329167 A CN 114329167A
Authority
CN
China
Prior art keywords
hyper
parameter
recommendation
optimal
parameter combination
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011060539.8A
Other languages
English (en)
Inventor
刘家豪
彭艺
谢淼
肖非
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN202011060539.8A priority Critical patent/CN114329167A/zh
Publication of CN114329167A publication Critical patent/CN114329167A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种超参数的学习、智能推荐、关键词推荐方法及装置。所述机器学习模型超参数的学习方法包括:获取机器学习模型的用户反馈行为数据;根据所述用户行为反馈数据,从预设的超参数连续区间中,确定所述机器学习模型的超参数组合所在的最优超参数子区间;在所述最优超参数子区间中,选取出最优超参数组合作为所述机器学习模型的超参数组合。本发明实现了对推荐系统的超参数组合的自主学习,使得推荐系统能够实时地追踪用户的需求和兴趣,从而保证了推荐系统具有较好的推荐效果。

Description

超参数学习、智能推荐、关键词和多媒体推荐方法及装置
技术领域
本发明涉及机器学习技术领域,特别涉及一种超参数的学习、智能推荐、 关键词和多媒体推荐方法及装置。
背景技术
随着互联网的飞速发展,尤其是移动互联网的发展,基于各种场景下的推 荐系统发挥着越来越重要的作用。
近年来,推荐系统的核心所要解决的问题在于,如何实时准确地捕获用户 个性化兴趣从而实现精准的推荐服务,例如基于用户的偏好,向用户推荐他/她 可能感兴趣的商品、多媒体、广告和产品功能等等。
为了解决个性化推荐的问题,推荐系统往往会采用机器学习算法来刻画用 户的兴趣爱好,例如各种线性回归模型、神经网络模型等等。而刻画这些模型 本身属性的超参数,往往在学习过程之前由系统构建者人为指定,这种方式会 加大模型构建者的工作量,更重要的是,仅仅依靠人为自行设定模型超参数的 方式,如果这种超参数设置不合理,会导致推荐模型本身的不合理,推荐系统 自然也就无法达到较优的推荐效果。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地 解决上述问题的一种超参数的学习、智能推荐、关键词推荐方法及装置。
第一方面,本发明实施例提供一种机器学习模型超参数的学习方法,包括:
获取机器学习模型的用户反馈行为数据;
根据所述用户行为反馈数据,从预设的超参数连续区间中,确定所述机器 学习模型的超参数组合所在的最优超参数子区间;
在所述最优超参数子区间中,选取出最优超参数组合作为所述机器学习模 型的超参数组合。
在一个实施例中,根据所述用户反馈行为数据,确定超参数组合所在的最 优超参数子区间,包括:
将用户反馈行为数据输入所述机器学习模型;
利用所述用户反馈行为数据,遍历预设的所述连续区间中范围逐步缩小的 子区间,直至确定出所述机器学习模型的超参数组合所在的最优超参数子区间。
在一个实施例中,预设的超参数连续区间采用树结构;所述树结构的根节 点为所述连续区间,且孩子节点为父节点对应区间的子区间;
利用所述用户反馈行为数据,遍历预设的所述连续区间中范围逐步缩小的 子区间,直至确定出所述机器学习模型的超参数组合所在的最优超参数子区间, 具体包括:
对于树结构中的各个节点,从根节点开始,利用所述用户反馈行为数据, 对同层的每个节点的收益预估值进行评估,并根据评估结果,选择将遍历的下 一个节点,重复上述步骤,直至到达叶子节点;
将所述叶子节点作为所述机器学习模型的超参数组合所在的最优超参数子 区间。
在一个实施例中,在所述最优超参数子区间中,选取出最优超参数组合之 后,还包括:
在所述树结构中,根据所述叶子节点对应子区间的开始端和结束端以及所 述最优超参数组合,将所述叶子节点分裂为至少两个子节点;
从分裂后得到的子节点开始,回溯遍历整个树结构,更新每个节点对应的 子区间的收益预估值。
在一个实施例中,在所述最优超参数子区间中,选取出最优超参数组合, 具体包括:
使用黑盒优化算法、网格搜索优化、贝叶斯优化、随机搜索优化和基于梯 度优化中的一种或多种,从所述最优超参数子区间中,选择出其中包含的最优 超参数组合。
在一个实施例中,预设的超参数连续区间通过下述方式得到:
接收用户输入的超参数初始范围,所述超参数初始范围为超参数连续区间;
在选取出最优超参数组合后,所述方法还包括:
输出所述最优超参数组合,并判断是否接收到对所述最优超参数组合的调 整指令;
若收到所述调整指令,根据所述调整指令调整所述最优超参数组合后再次 输出。
第二方面,本发明实施例提供一种智能推荐的方法,包括:
确定待推荐的至少两个候选对象;
获取推荐模型当前最优超参数组合;
通过所述推荐模型以及所述当前最优超参数组合,对所述至少两个候选对 象进行评分;
基于所述至少两个候选对象的评分值,向用户推荐所述候选对象;
所述最优超参数组合采用如前述的机器学习模型超参数的学习方法得到。
在一个实施例中,上述智能推荐的方法,还包括:
周期性地收集所述推荐模型对应的用户反馈行为数据;
利用所述反馈行为数据,对候选对象的特征进行更新,并将所述反馈行为 数据作为训练样本数据输入所述推荐模型以重新训练所述推荐模型。
在一个实施例中,若所述最优超参数组合中包含影响所述推荐模型结构的 超参数,则所述重新训练所述推荐模型,具体包括:
根据所述影响所述推荐模型结构的超参数,更新所述推荐模型的结构;
将所述反馈行为数据作为训练样本数据输入更新后的推荐模型以重新训练 所述更新后的推荐模型。
在一个实施例中,所述确定待推荐的至少两个候选对象,包括下述一种或 多种的组合:
根据所述用户的地理位置信息,从候选数据库中确定出与所述地理位置信 息匹配的至少两个候选对象:
根据所述用户的属性信息,从候选数据库中确定出与所述属性信息匹配的 至少两个候选对象;
根据用户的偏好信息,从候选数据库中确定出与所述偏好信息相匹配的至 少两个候选对象;
根据用户的关联用户的偏好信息,从候选数据库中确定出与所述偏好信息 相匹配的至少两个候选对象。
第三方面,本发明实施例提供一种搜索关键词的推荐方法,包括:
确定待推荐的至少两个候选搜索关键词;
获取关键词推荐模型的当前最优超参数组合;
通过所述关键词推荐模型和所述最优超参数组合,对至少两个候选搜索关 键词进行评分;
按照评分值的高低顺序,选择从最高评分值开始预设数量的候选搜索词作 为推荐的搜索关键词,并返回所述推荐的搜索关键词;
所述最优超参数组合采用如前述的机器学习模型超参数的学习方法得到。
在一个实施例中,所述最优超参数组合包括下述参数中的至少两个:用于 限制同一类目下召回商品数量的杰卡德距离和编辑距离、用于过滤相似商品的 相似距离、展示商品不同类目的数量类目数。
第四方面,本发明实施例提供一种多媒体的推荐方法,包括:
确定待推荐的至少两个候选多媒体类型;
获取多媒体推荐模型的当前最优超参数组合;
通过所述关键词推荐模型和所述最优超参数组合,对所述候选多媒体类型 的用户偏好指数进行评分;
按照所述偏好指数的评分的高低,选择从最高评分值开始预设数量的多媒 体类型作为推荐的多媒体类型;
从所述推荐的多媒体类型对应的多媒体库中,选择至少一个多媒体推送给 用户;
所述最优超参数组合采用如前述的机器学习模型超参数的学习方法得到。
第五方面,本发明实施例提供一种机器学习模型超参数的学习装置,包括:
获取模块,用于获取推荐模型的用户反馈行为数据;
区间确定模块,用于根据所述用户行为反馈数据,从预设的超参数连续区 间中,确定所述机器学习模型的超参数组合所在的最优超参数子区间;
超参数选取模块,用于在所述最优超参数子区间中,选取出最优超参数组 合作为所述机器学习模型的超参数。
第六方面,本发明实施例提供一种智能推荐装置,包括:
确定模块,用于确定待推荐的至少两个候选对象;
超参数组合获取模块,用于获取推荐模型当前最优超参数组合;
评分模块,用于通过所述推荐模型以及所述当前最优超参数组合,对所述 至少两个候选对象进行评分;
推荐模块,用于基于所述至少两个候选对象的评分值,向用户推荐所述候 选对象;
所述最优超参数组合采用如前述的机器学习模型超参数的学习方法得到。
第七方面,本发明实施例提供一种搜索关键词的推荐装置,包括:
候选关键词确定模块,用于确定待推荐的至少两个候选搜索关键词;
第一获取模块,用于获取关键词推荐模型的当前最优超参数组合;
第一评分模块,用于通过所述关键词推荐模型和所述最优超参数组合,对 至少两个候选搜索关键词进行评分;
搜索关键词推荐模块,用于按照评分值的高低顺序,选择从最高评分值开 始预设数量的候选搜索词作为推荐的搜索关键词,并返回所述推荐的搜索关键 词;
所述最优超参数组合采用如前述的机器学习模型超参数的学习方法得到。
第八方面,本发明实施例提供一种多媒体的推荐装置,包括:
确定模块,用于确定待推荐的至少两个候选多媒体主题类型;
第二获取模块,用于获取多媒体推荐模型的当前最优超参数组合;
第二评分模块,用于通过所述关键词推荐模型和所述最优超参数组合,对 所述候选多媒体主题类型的用户偏好指数进行评分;
选择模块,用于按照所述偏好指数的评分的高低,选择从最高评分值开始 预设数量的多媒体主题类型作为推荐的多媒体主题类型;
推荐模块,用于从所述推荐的多媒体主题类型对应的多媒体库中,选择至 少一个多媒体推送给用户;
上述最优超参数组合采用前述机器学习模型超参数的学习方法得到。
第九方面,本发明实施例提供一种推荐系统,包括:
反馈收集模块,用于收集推荐模型的用户反馈行为数据;
推荐模型模块,用于以用户反馈行为数据作为样本对推荐模型进行训练, 并从候选池中选取出至少两个候选对象,并通过所述推荐模型以及推荐模型的 超参数组合,对所述候选对象进行评分,根据评分结果返回推荐结果;
候选池,用于存储待推荐的候选对象的数据;
在线学习模块,用于根据反馈收集模块收集的用户反馈行为数据,从预设 的超参数连续区间中,确定所述机器学习模型的超参数组合所在的最优超参数 子区间;以及将推荐模型的超参数组合输出给推荐模型模块;
超参数优化模块,用于在所述最优超参数子区间中,选取出最优超参数组 合作为所述推荐模型的超参数组合,并返回至所述在线学习模块。
第十方面,本发明实施例提供的信息处理设备,包括:存储器和处理器; 其中,所述存储器存储有计算机程序,所述程序被处理器执行时能够实现如前 述的机器学习模型超参数的学习方法,或实现如前述的智能推荐的方法,或实 现如前述的搜索关键词的推荐方法,或实现如前述的多媒体的推荐方法。
第九方面,本发明实施例提供的计算机可读存储介质,其上存储有计算机 指令,该指令被处理器执行时能够实现如前述的机器学习模型超参数的学习方 法,或实现如前述的智能推荐的方法,或实现如前述的搜索关键词的推荐方法, 或实现如前述的多媒体的推荐方法。
本发明实施例提供的上述技术方案的有益效果至少包括:
本发明实施例提供的超参数的学习、智能推荐、关键词和多媒体推荐方法 及装置,通过探索得到最优超参数子区间,再在最优超参数子区间中确定推荐 模型的最优超参数组合,实现了对推荐系统的超参数组合的自主学习,使得推 荐系统能够实时地追踪用户的需求和兴趣,从而保证了推荐系统具有较好的推 荐效果,并且,采用超参数自学习的方式,也能大大减少模型构建者的工作量。
进一步地,在本发明实施例中,将bandit算法与超参数优化方法相结合, 先利用bandit算法找到超参数最优超参数子区间,再利用超参数优化方法在该 子区间内选择出极值点,确定为最优超参数组合,不仅降低了超参数优化算法 搜索的区间大小,降低了系统开销,同时还提升了最优超参数组合的精准度, 整体效率较高。而bandit算法能够很好地平衡探索和利用,对于未知情况能够 保持较好的探索能力,同时又能很好地利用之前探索的结果,选择累积收益最 高的候选对象为最终推荐的对象,从而达到较好的推荐效果。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明 书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可 通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获 得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发 明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例提供的机器学习模型超参数学习方法的流程图;
图2为本发明实施例提供的连续区间的树结构的示意图;
图3为本发明实施例提供的树结构的另一示意图;
图4为本发明实施例提供的智能推荐的方法的流程图;
图5A为本发明实施例提供的搜索关键词的推荐方法的流程图;
图5B为本发明实施例提供的多媒体的推荐方法的流程图;
图6为本发明实施例一提供的推荐系统的架构示意图;
图7为本发明实施例一提供的推荐模型模块的工作流程图;
图8为本发明实施例一提供的在线学习模块的工作流程图;
图9为本发明实施例一提供的遍历路径的示意图;
图10为本发明实施例一提供的超参数优化模块的工作流程图;
图11为本发明实施例一提供的反馈收集模块的工作流程图;
图12为本发明实施例一提供的侯选池模块的工作流程图;
图13为本发明实施例二提供的搜索界面的示意图;
图14为本发明实施例二提供的推荐系统的架构示意图;
图15为本发明实施例提供的机器学习模型超参数的学习装置的结构示意 图;
图16为本发明实施例提供的智能推荐装置的结构示意图;
图17为本发明实施例提供的搜索关键词的推荐装置的结构示意图;
图18为本发明实施例提供的多媒体的推荐装置的结构示意图;
图19为本发明实施例提供的推荐系统的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了 本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被 这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本 公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
为了解决个性化推荐的问题,推荐系统往往会采用机器学习算法来刻画用 户的兴趣爱好,比如线性回归模型、深度学习模型等等。无论采用什么类型的 机器学习算法,都会存在两种类型的参数即模型参数和超参数,模型参数用来 刻画训练数据和标签之间的关系,而超参数则是用来刻画模型本身属性的。由 于超参数是用于刻画模型的,现有技术中常由模型设计者来预先设定。
机器学习模型本质是机器通过某种算法学习数据的计算过程,通过学习得 到的模型本质是一系列的数字,比如树模型每个节点上判断属于左右子数的数, 或者逻辑回归模型中的一维数组,这些参数称之为模型参数,而超参数是那些 定义模型属性或者定义训练过程的参数。
以深度学习模型为例,模型参数包含每个神经元对应的参数,这些神经元 对应的数值刻画了输入样本到输出标签之间的关系,而超参数则包含:例如有 多少层神经网络、每层神经网络包含多少个神经元这些参数。显然,超参数的 选择对模型最终的效果有极大的影响。对于一整套推荐系统而言,往往会涉及 到很多个机器学习模型,而且每个模型又会包含多个超参数,如果这些超参数 全部需要系统构建者来指定的话,极大的增加了构建者的工作量。而且,超参 数的设定对模型最终效果影响是极大的,如果仅依靠推荐系统构建者来自行预 设定模型的超参数,推荐系统很难达到较优效果。
针对现有技术中推荐系统的模型超参数的设定方式导致的推荐系统难以达 到较优效果的这一问题,本发明实施例提出了一种机器学习模型超参数学习方 法、智能推荐的方法、搜索关键词的推荐方法及装置和推荐系统,该机器学习 模型超参数学习方法可通过自学习的方式探索得到一组最优超参数组合,从而 大大提升推荐系统的效果。
下面结合附图,对本发明实施例提供的机器学习模型超参数学习方法、智 能推荐的方法、搜索关键词的推荐方法及装置和推荐系统的具体实施方式进行 详细的说明。
本发明实施例提供的机器学习模型超参数学习方法,参照图1所示,包括 下述步骤:
S11、获取机器学习模型的用户反馈行为数据;
S12、根据用户行为反馈数据,从预设的超参数连续区间中,确定机器学习 模型的超参数组合所在的最优超参数子区间;
S13、在最优超参数子区间中,选取出最优超参数组合作为机器学习模型的 超参数组合。
本发明实施例提供的机器学习模型,可以适用于多种场景下的机器学习模 型,例如:线性回归模型、深度学习模型、各类神经网络模型、图学习模型等 等,本发明实施例并不限于推荐系统所使用的机器学习模型。
机器学习模型在输出结果后,以推荐模型为例,在输出推荐结果之后,可 以接收用户对推荐结果的反馈数据,这些数据可以反映推荐对象与用户偏好或 喜好之间的隐性关系,用以进一步修正推荐模型的准确性。这些用户反馈行为 数据,与具体的应用场景相关。
以推荐系统为例,这些机器学习模型,可以适用的推荐场景包括但不限于 下述场景:
1)商品的推荐:
在电子商务领域,商家会在网站或者APP上发布很多商品,而每一个用户 又有着自己独特的偏好,因而推荐系统需要考虑用户的兴趣,从商家发布的大 量商品中选择一个适合该用户的商品推荐给用户,从而满足用户的兴趣爱好, 从而提升商品的成交转化率。
在商品的推荐场景下,用户反馈行为数据例如可以是行为日志数据,例如 浏览某商品、点击某商品、购买某商品、收藏某商品等等行为的相关日志数据 等等。
比如用户点击了一个商品,会产生如下格式的行为日志数据:
2019-08-16 15:03:10\t u222\t 7b93ba75-4fdc-4116-8e3e-5a0e81ce42e6\ti1111\t click
日志数据包含多部分,不同部分之间用\t进行分割,第一部分表示行为发 生时间,第二部分是该用户的ID,第三部分是该日志的唯一标识符,第四部分 是用户点击的商品ID,第五部分是行为类型(“click”表示用户点击了该商品)。
2)视频素材图的推荐:
随着移动互联网的发展,用户越来越多利用零碎的时间通过移动终端观看 视频。例如对于视频APP来说,会有很多热门的电视剧或者电影等,这些视频 内容往往都有很多推荐图片,这些图片可能是设计师设计也有可能来自于视频 内容本身的截图。对于同一个视频,究竟选哪张图片作为封面图,可能针对不 同用户就有不同的答案,所以,推荐系统需要为不同用户推荐他最喜好的图片 作为封面图。
在视频素材库的推荐场景下,用户反馈数据,也可以来自用户行为日志数 据,例如可以是用户观看某视频或某类视频的时长、频率、观看次数等等数据。
3)功能与服务的推荐:
以移动终端上网的数据服务接入为例,数据接入方式通常有很多,比如3G、 4G、Wifi等等,在同一时间,通常有很多种上网方式可以进行数据传输,不同 的用户可能有不同的喜好,不同的使用环境,那么也需要个性化的进行推荐。
类似地,在功能与服务的推荐场景下,用户反馈数据,例如可以是用户对 使用某一功能和/或服务的时长、频率、次数,或功能和/或服务切换的时间、次 数、频率等数据等等。
上述步骤S12中,根据所述用户反馈行为数据,确定超参数组合所在的最 优超参数子区间,在具体实施时,例如可以通过下述方式实现:
将用户反馈行为数据输入所述机器学习模型;利用用户反馈行为数据,遍 历预设的超参数连续区间中范围逐步缩小的子区间,直至确定出机器学习模型 的超参数组合所在的最优超参数子区间。
具体来说,上述预设的超参数连续区间采用树结构存储,树结构的根节点 为连续区间本身,不同层级间孩子节点为父节点对应区间的子区间;
例如超参数连续区间假设为(s,e),s和e分别为该连续区间的上限和下 限,则根节点对应的区间为(s,e),根节点的下一级子节点对应的子区间分别 为(s,y)和(y,e)。以下层级的节点的区间以此类推。
将用户反馈行为数据输入机器学习模型,对于树结构中的各个节点,从根 节点开始,利用用户反馈行为数据,对同层的每个节点的收益预估值进行评估 (例如采用置信区间上界方法等),并根据评估结果,选择将遍历的下一个节点, 重复上述步骤,直至到达叶子节点;
将叶子节点作为所述机器学习模型的超参数组合所在的最优超参数子区 间。
从上述过程可以看出,确定最优超参数子区间的过程,可视作在整个连续 区间内不断缩小范围的过程,在此过程中,每一次缩小范围的步骤,即在两个 子区间中按照收益预估值最优的原则,来选择两者中收益预估值较优的一个子 区间作为下一个到达的子区间的过程,因此,只需要将遍历的下一级子节点, 比较不同子节点的收益优劣,最终可选择出最优的超参数子区间。重复过程的 停止条件可以有多种,例如预设的时间达到,或者达到置信区间稳定(收敛, 例如上述达到叶子节点),本发明实施例对此不做限定。
在本发明实施例中,收益预估值是指,由选择子区间所带来的收益的期望, 也就是对推荐效果的量化,对于不同的应用场景来说,收益的含义与推荐模型 自身的推荐目的有关,例如对于搜索引擎来说,推荐成功与否的衡量标准是推 荐了用户最想得到的内容,因此“收益”的含义即为关键词所带来的点击收益(点 击次数等),又例如,在商品推荐场景下,“收益”的具体含义可能包含例如商品 浏览量、访客购买数量、金额等等。在此不再一一列举。
在本发明实施例中,将实时反馈的用户反馈行为数据输入机器学习模型, 并利用连续区间MAB(Multi-armed bandit)算法,MAB算法通过平衡探索与 利用实现累积收益最大化。
超参数连续区间,为一个预设的超参数的初始查找区间,可以是机器学习 模型的构建者预先设置,或者由构建者预先设置后通过其他优化方式初步处理 得来。超参数的连续区间是模型构建者为了选出最优超参数组合而预先设置的 超参数的区间,该区间是个连续的数值区间。最优超参数子区间,是超参数的 连续区间中的一个子区间,通过例如价值评估方法在前述超参数连续区间中探 索得到的。
超参数的连续区间采用树形结构的方式存储,一个连续区间的树结构的示 意图参照图2所示,每个父节点包含两个孩子节点,且两个孩子节点(以下称 为子节点)分别所对应的两个区间之和为父亲节点(以下简称父节点)所对应 区间的子区间。
在遍历整个树结构时,从根节点开始,比较其左子节点和右子节点的收益 预估值,哪个子节点的收益预估值较大,则继续遍历至较大的收益预估值的那 个子节点,如果两子节点的收益预估值相等,那么按照等概率随机选择任一个 字节点,重复上述过程,直至达到整个树结构的叶子节点,那么这个叶子节点 对应的子区间为当前最优超参数子区间。
在一个实施例中,在上述步骤S13即在最优超参数子区间中,选取出最优 超参数组合之后,上述方法还可以执行下述步骤:
在所述连续区间的树结构中,根据叶子节点对应子区间的开始端和结束端 以及所述最优超参数组合,将叶子节点分裂为至少两个子节点;
从分裂后得到的子节点开始,回溯遍历整个树结构,更新每个节点对应的 子区间的收益预估值。
在原有的树结构中,叶子节点已经是最深的一级节点(距离根节点最远的 一级节点),经过本次选择出最优超参数组合之后,会在原有的结构基础上增加 一层,树形结构会动态变化,随着机器学习系统的运行,不断实时选取出最优 超参数组合后,也使得整个树结构的深度越来越深,当前叶子节点对应的子区 间会越来越小,从而越来越趋近或者收敛至最优的超参数组合,其过程可参照 图3所示。
图3所示的例子中,树结构存储的超参数连续区间的节点自下往上分裂延 伸,该树结构的根节点(即图3中最下方的节点)为该超参数连续区间本身, 第二层结构中,该根节点分裂为两个节点,该节点为根节点子节点,对应的区 间分别为根节点的子区间,第三层结构中,第二层的每个节点继续按照1个节 点分裂出2个节点的方式进行分裂,以此类推,每次选出最优超参数后,树形 结构就会更深入一层,产生新的叶子节点,以备下一次的最优超参数子区间的 查找过程使用,使得叶子节点对应的区间不断地缩小。
这种通过树结构逐步缩小连续区间直至得到最优超参数子区间的方法,不 仅降低超参数组合的搜索的区间范围,同时还提升了找到的最优超参数组合的 精准度,从而提升机器学习模型的整体性能。
在上述本发明实施例中,采用树结构对连续区间进行划分,孩子节点是父 亲节点的子区间,同时在统计数据更新过程中,叶子节点的统计数据会用于更 新它的所有祖先节点。这种树结构的优势在于父亲节点共享所有孩子节点的统 计数据,可大大加速节点统计数据的收敛速度。
在上述本发明实施例中,例如可采用置信区间上界(UCB,Upper ConfidenceBound)方法对树结构里每个节点对应子区间的收益预估值进行评估,该方法 是bandit算法中常见的价值评估方法,以收益(bonus)均值的置信区间上限代 表对该节点对应收益的预估值,公式为:
Figure RE-GDA0002823511390000101
其中μi是收益的期望,n为总的尝试次数(实验轮数),ni是尝试次数,从 公式可以看到对i的尝试次数越多,其预估值与置信上界的差值就越小,也就是 越有置信度。UCB方法遍历树结构存储的超参数连续区间时,需要把每层两个 节点的置信上界计算出来作为收益预估值,然后选取出来其中收益预估值较大 的那个节点。
该方法的优势是能够很好的平衡探索和利用,对于未知情况能保持探索的 能力,但又能很好的利用之前探索的结果,从而使得探索得到的区间的累积收 益最高。本发明实施例采用了这一bandit算法,可实现超参数组合的自学习,对 于推荐模型这种机器学习模型来说,学习过程中能自动智能地能对未知状态进 行探索,从而使学习得到的超参数组合能够保证推荐模型能够更加多元化的探 索用户兴趣并且实时捕获用户兴趣的变化,从而使推荐效果更好。
还可以使用例如Epsilon-Greedy算法、Thompson Sampling算法等其他现有 算法来进行收益预估值的评估,具体实施方式可参照现有技术,在此不再详述。
在上述步骤S13中,在所述最优超参数子区间中,选取出最优超参数组合, 在具体实施时,可使用黑盒优化算法、网格搜索优化、贝叶斯优化、随机搜索 优化和基于梯度优化等等中的一种或多种,从最优超参数子区间中,选择出其 中包含的最优超参数组合。
以黑盒优化算法为例,以前述步骤得到的最优超参数子区间[Xs,Xe]和部分 数据样本{(x0,y0),...,(xn,yn)}作为算法输入,其中数据样本满足f(x)=y,但函数f 是未知的。通过黑盒优化算法利用数据样本对未知函数f进行拟合,从而在区 间[Xs,Xe]里找到函数f的极值点
Figure BDA0002712221710000102
该极值点即为最优超参数 组合。
黑盒优化算法适应范围广泛,具有较高的普适性。并且,在前述已确定出 的最优超参数子区间内寻找极值点,相比于在整个区间上进行优化,大大降低 了性能开销。并且,对于推荐模型来说,最优超参数子区间内的超参数组合相 比较而言都已具有较好的推荐效果,因此在此区间内寻找极值点则推荐效果更 优。
需要说明的是,由多个超参数组成的超参数组合,为高维空间中的一个点, 本发明实施例前述的区间和子区间等也是高维空间的,因此确定了该极值点, 即找到了对应的超参数组合。
上述部分数据样本,是根据获取得到用户反馈数据构建生成的。
再例如贝叶斯优化,可通过初始观测集合(最优超参数子区间),由高斯过 程生成先验概率模型,用混沌粒子群方法搜索下一个评估点,对新的评估点进 行评估获取新评估点对应的观测值,通过更新观测集合来更新高斯过程概率代 理模型,通过多次迭代更新,获取最优超参数组合。
以上仅为几个实现超参数组合优化的例子,其他方式可参考现有技术,在 此不再一一列举。
在前述机器学习模型超参数的学习方法的基础上,本发明实施例还提供了 一种智能推荐的方法,参照图4所示,包括:
S41、确定待推荐的至少两个候选对象;
S42、获取推荐模型当前最优超参数组合;
S43、通过推荐模型以及当前最优超参数组合,对至少两个候选对象进行评 分;
S44、基于至少两个候选对象的评分值,向用户推荐候选对象;
上述最优超参数组合可采用前述实施例中机器学习模型超参数的学习方法 得到。
本发明实施例中,候选对象可根据不同的推荐系统所适用的场景而不同, 例如待推荐的商品、待推荐的搜索关键词、待推荐的服务、待推荐的好友(社 交网络中)、等等。推荐模型所适用场景如前述例如可以是商品、服务、多媒体、 好友等等多种可能的场景,在此不再一一列举。
拿社交网络中好友的推荐模型举例来说,可以根据实际应用场景,先确定 待推荐的多个类型的候选推荐好友,该候选推荐好友例如可从用户的通讯录、 关联列表等处得到,然后获取按照前述方法得到的最优超参数组合输入至好友 推荐模型,利用用户反馈数据,例如用户的地理位置信息、用户对商品或服务 的购买、使用等行为信息(即行为反馈数据),对候选推荐好友与该用户相似度 进行评分,选取评分较高的几位候选推荐好友作为最终要推荐的好友,并推送 相关好友信息。
推荐模型也可能是多种机器学习模型中的一种或多种,例如:线性回归模 型、深度学习模型、各类神经网络模型、图学习模型等等。本发明实施例对此 不做限定。
上述步骤S42中,获取推荐模型当前最优超参数组合中的最优超参数组合, 可参照前述机器学习模型超参数学习方法得到的超参数,也就是根据推荐模型 (也即机器学习模型)的用户反馈数据,先确定推荐模型所在的最优超参数子 区间,再在最优超参数子区间中,选取出该推荐模型的最优超参数组合,具体 实施方式可参照前述实施例的说明。
在一个实施例中,上述步骤S41中,确定待推荐的至少两个候选对象,可 以有多种方式,比如下述任一种或多种的组合:
1、根据用户的地理位置信息,从候选数据库中确定出与地理位置信息匹配 的至少两个候选对象:
例如根据用户的地理区域,判断当前用户位于北京,则将候选数据中同属 于发布于北京这个地理区域的对象作为候选对象。
2、根据用户的属性信息,从候选数据库中确定出与属性信息匹配的至少两 个候选对象;
例如根据用户的属性信息中的性别、年龄等,从候选数据库中确定与其性 别和年龄等相匹配的对象。
3、根据用户的偏好信息,从候选数据库中确定出与偏好信息相匹配的至少 两个候选对象;
例如使用用户预先设置的偏好信息,或者预先通过学习得到的用户的偏好, 从数据库中选取与其偏好相匹配的对象。
4、根据用户的关联用户的偏好信息,从候选数据库中确定出与偏好信息相 匹配的至少两个候选对象。
用户的关联用户,例如社交网络中用户关注的其他用户,用户的好友等等。
上述选取候选对象的方法,仅为示例,本发明实施例并不限定如何选取候 选对象的具体实施方式。
本发明实施例中,还可以周期性地收集所述推荐模型对应的用户反馈行为 数据;利用这些用户反馈行为数据,对候选对象的特征进行更新,并将用户反 馈行为数据作为训练样本数据输入推荐模型以重新训练推荐模型。
用户的偏好和兴趣可能会发生变化,所以有必要实时更新推荐模型的权重, 所以需要周期性地采集用户反馈行为数据,利用这些用户反馈行为数据,对候 选对象的特征进行更新,同时也利用用户反馈行为数据对推荐模型进行重新训 练。
重新训练推荐模型,本质上是更新的是模型中各特征的权重。因为用户兴 趣是会发生变化的,所以需要实时更新模型中的权重。举个例子,比如之前用 户喜欢红色类型相关的商品,那么在推荐模型中与红色相关的特征的权重就会 很高,若用户兴趣发生了变化,改为喜欢蓝色相关的商品,那么相应的蓝色特 征的权重应该升高,本发明实施例可通过重新训练模型来实现实时追踪用户兴 趣的变化,以保持推荐的精准性。
候选对象特征的更新通常是指由于候选对象的某些属性发现了变化而进行 的更新,例如商品的发布时长、商品的价格、商品所属类别等等,候选对象特 征的更新不是为了追踪用户偏好或兴趣的变化,而是为了实时刻画候选对象的 属性。
在一个实施例中,若最优超参数组合中包含影响推荐模型结构的超参数, 则还可以根据该超参数,重新训练推荐模型,具体来说,根据所述影响所述推 荐模型结构的超参数,更新推荐模型的结构;将反馈行为数据作为训练样本数 据输入更新后的推荐模型以重新训练所述更新后的推荐模型。
例如深度神经网络模型的层数为9527层,这个9527层就是会影响该推荐 模型的结构的超参数,若这个最优超参数组合中包含了此类参数,那么可以根 据该超参数对推荐模型进行更新并重新训练该推荐模型。
本发明实施例还提供了一种搜索关键词的推荐方法,参照图5A所示的流 程图,该方法包括如下步骤:
S51、确定待推荐的至少两个候选搜索关键词;
例如用户在点击搜索框时,推荐系统会为该用户推荐部分搜索关键词 (query词)。在推荐系统处理时,需要预先确定出一系列的待推荐的候选搜索 关键词,这些关键词的选取,可以根据用户所在的地理信息、用户查看或购买 的历史行为数据、用户设置的偏好信息等等中的一项或多项得到。
S52、获取关键词推荐模型的当前最优超参数组合;
获取关键词推荐模型的当前最优超参数组合的方法参考前述实施例的说 明。
在一个实施例中,在电子商务交易系统场景下,其推荐系统可使用前述方 法得到商品候选搜索关键词模型当前所需的最优超参数组合,该超参数组合的 一个例子中,包含下述参数中的至少两个:用于限制同一类目下召回商品数量 的杰卡德距离和编辑距离、用于过滤相似商品的相似距离、展示商品不同类目 的数量类目数。
当然,上述超参数的组合仅为示例,本发明实施例对于最优超参数组合中 包含何种具体的超参数并不做限定,可以根据系统的需要预先设置。
S53、通过所述关键词推荐模型和所述最优超参数组合,对至少两个候选搜 索关键词进行评分;
S54、按照评分的高低顺序,选择从最高评分开始预设数量的候选搜索词作 为推荐的搜索关键词,并返回所述推荐的搜索关键词;
上述步骤S52中的最优超参数组合采用前述机器学习模型超参数的学习方 法得到。
在另外的实施例中,本发明实施例还提供了一种多媒体的推荐方法,参照 图5B所示的流程图,该方法包括如下步骤:
S51′、确定待推荐的至少两个候选多媒体类型;
S52′、获取多媒体推荐模型的当前最优超参数组合;
S53′、通过多媒体关键词推荐模型和最优超参数组合,对候选多媒体类型 的用户偏好指数进行评分;
S54′、按照偏好指数的评分的高低,选择从最高评分值开始预设数量的多 媒体类型作为推荐的多媒体类型;
S55′从推荐的多媒体类型对应的多媒体库中,选择至少一个多媒体推送给 用户;
类似地,上述最优超参数组合也可采用前述机器学习模型超参数的学习方 法得到。
上述方法中的多媒体类型,可以是多媒体的主题类型,或者多媒体的格式 类型、或者多媒体的风格类型等等。
以前述视频素材图的推荐场景举例来说,系统可根据素材图推荐模型和最 优超参数组合,对视频素材库中的各素材图片的用户偏好指数进行评分,选取 其中评分最高的素材图片,作为待推荐的视频的素材图片推送给用户。
为了更好地说明本发明实施例提供的上述超参数的学习方法、智能推荐的 方法和搜索关键词的推荐方法,下面结合推荐系统的两个具体的实施例进行详 细说明。
实施例一:
在实施例一中,该推荐系统的架构参照图6所示,在该系统中,包括:推 荐模型模块、候选池模块、反馈收集模块、在线学习模块和超参数优化模块。
上述架构中,候选池模块和/或反馈收集模块可集成于同一模块中,超参数 优化模块也可以集成于在线学习模块中,上述架构图仅为多种可能实现方式的 一种,能够实现本发明实施例的各项方法即可,不局限于上述架构图中的形式。
在推荐系统的架构中,各模块的功能简述如下:
推荐模型模块:用于以用户反馈行为数据作为样本对推荐模型进行训练, 并从候选池模块中选取出至少两个候选对象,并通过推荐模型以及推荐模型的 超参数组合,对候选对象进行评分,根据评分结果返回推荐结果。
在线学习模块:用于根据反馈收集模块收集的用户反馈行为数据,从预设 的超参数连续区间中,确定所述机器学习模型的超参数组合所在的最优超参数 子区间;以及将推荐模型的超参数组合输出给推荐模型模块
例如,该模块从反馈收集模块获取用户的实时的反馈行为数据,并通过 Bandit算法对超参数组合所在的子区间进行探索与利用,同时利用超参数优化 模块探索出其中包含的最优超参数组合,使得整个推荐系统能够更快速地找到 最优超参数组合。
超参数优化模块:用于在所述最优超参数子区间中,选取出最优超参数组 合作为所述推荐模型的超参数组合,并返回至所述在线学习模块。
超参数优化模块具有超参数优化的能力,该超参数优化能力能够从最优超 参数子区间中选取一个最优点(即一个具体的超参数组合),然后由在线学习模 块返回给推荐模型进行使用。
反馈收集模块:用于收集推荐模型的用户反馈行为数据;
反馈收集模块收集到用户的行为反馈数据后,可对行为反馈数据进行必要 的处理,解析成推荐模型和在线学习模块能够支持的数据格式等,以便推荐模 型训练以及在线学习模块使用。处理过程包括:数据清洗(去掉错误或者重复 的数据)、数据归一化(例如不同平台产生的用户行为日志数据可能不一样,需 要做归一化处理)等等。
侯选池模块:用于存储待推荐的候选对象的数据;
在具体实施时,侯选池模块可以是用于存储推荐候选对象的数据库。可支 持一些简单的条件查询功能,从而使得推荐模型能召回特定的候选对象集合, 而非全部数据集,进而降低对待推荐对象进行打分排序的压力,提升推荐系统 的整体性能。
下面分别对上述几个模块的工作流程进行简单说明。
推荐模型模块的功能包括:根据用户行为数据训练模型,并以在线学习模 块输出的超参数组合作为推荐模型的超参数,对每一个候选对象进行打分。同 时,该模块会根据最新的用户反馈行为数据,对候选对象的特征进行更新以及 重新训练推荐模型,从而使得推荐系统能够实时捕获用户兴趣的变化。推荐模 型模块的工作流程图参照图7所示。
图7所示的步骤包括:
1)训练模型;先利用历史数据预先训练一个推荐模型M,在本发明实施例 中,对模型类型的选择没有限制,可以是任意机器学习模型,比如:决策树、 逻辑回归、深度神经网络等等。
2)给候选对象打分:在当前时刻t下,针对每一个候选对象a,推荐模型 M会对其预测一个分数Sa
3)判断是否有用户反馈行为数据:如果有反馈行为数据,则继续执行,否 则直接结束本流程。
4)收集用户反馈行为数据;本模块会以反馈收集模块的输出作为输入,每 隔一段时间后,会对推荐模型候选对象的特征进行更新并重新训练推荐模型。
推荐模型模块能够充分利用历史数据训练推荐模型,并且对模型的类型没 有限制,可支持任意机器学习或深度学习模型,具有很高的普适性。同时,推 荐模型的使用也能大幅度提升系统的推荐精准度。
另外,利用最新的用户反馈数据对特征进行更新,并且重新训练推荐模型, 使得推荐模型能够实时捕获用户兴趣的变化。
在线学习模块的功能包括:以反馈收集模块输出的用户实时反馈数据作为 输入,并利用连续区间bandit算法探索得到当前状态下一个最优超参数子区间, 然后再利用超参数优化模块从最优超参数子区间里计算得到一个最优值,并将 该值最为最优超参数返回给推荐模型,供模型预测打分使用。详细流程参照图 8所示,包括下述具体步骤:
1)获取用户反馈行为数据。从反馈收集模块获取得到当前实时用户反馈行 为数据,并对数据进行处理,转化成数值类型,记作Y。
2)更新子区间数据。超参数连续区间自身及子区间按照树结构进行存储, 孩子节点所对应的区间为父亲节点所对应区间的子区间。对于子区间(sn,en)到树 结构根节点的路径上的所有节点n,按照如下公式进行更新:
Tn←Tn+1
Figure BDA0002712221710000151
并对树结构所有节点n,按照置信区间上界方法进行更新:
Figure BDA0002712221710000152
上述
Figure BDA0002712221710000153
表示该子区间的收益均值;
上述Un是该子区间收益的置信区间上界,即该子区间可能到达的最高收益 值;
上述Bn是该子区间的收益预估值,通过第6步中的公式进行计算,在Un的 基础上考虑更多的全局信息计算得到的;
上述t是当前总的实验轮数,h是节点n在树结构中的深度,Tn表示节点n对 应的子区间被选中的次数。
3)评估预测。即按照如下规则遍历整个树结构,找到当前最优的最小子区 间(对应树结构的叶子节点):从树的根节点开始(当前节点n指向根节点), 如果Bn|left>Bn|right,那么节点n指向节点n|left(其中,n|left和n|right分别表示节点 n的左孩子和右孩子),如果Bn|left<Bn|right,那么节点n指向节点n|right,如果 Bn|left=Bn|right,则按照等概率随机选择一个孩子节点。重复上述过程,直到当前 节点n指向一个叶子节点nt,则这个叶子节点nt对应的子区间为当前最优超参数 子区间(sn,en)。
具体的遍历路径的示意图参照图9所示,从最上端的根节点开始逐层向下 遍历,第二层中根据两个节点对应子区间的收益预估值的大小,选择了收益预 估值较大的右节点(图9中标注Bh,i的节点),从该节点往下继续遍历第三层, 再次比较左节点和右节点对应子区间的收益预估值即Bh+1,2i-1和Bh+1,2i的大小, 选择了收益预估值较大的左节点(图9中标注Bh+1,2i-1的节点),以此类推,最 终到达了叶子节点,该节点对应的子区间为(Hn,In),最终从该(Hn,In)中 选出最优点Xn即最优超参数组合。
Xn是高维空间的点,代表着一组超参数组合(包含多个超参数),在具体 实施时,这个高维空间的点,可以采用矩阵的方式来表示,举例来说,假设一 个最优超参数组合中包含三个超参数,比如采用矩阵{[0.0,0.5,1.5]}和矩阵 {[1.0,2.0,3.0]}来表示该超参数组合,则0表示该最优超参数组合中第一个超参 数对应区间的起点,1.0表示第一超参数对应区间的结束点;0.5表示该最优超 参数组合中第二个超参数对应区间的起点,2.0表示第二个超参数对应区间的结 束点,以此类推,1.5表示第三个超参数对应区间的起点,3.0表示第三个超参 数对应区间的结束点。
4)将最优超参数子区间输出到超参数优化模块。即将评估预测步骤选择出 来的最优超参数子区间以及之前累积的用户行为数据输出到超参数优化模块。
5)从超参数优化模块获取最优值。超参数优化模块利用超参数优化方法, 从最优超参数子区间中选取得到最优的数据值X,并返回给在线学习模块。
6)更新推荐模型内部状态:对当前选择的叶子节点nt进行分裂,在其下一 层增加两个孩子节点nt|left和nt|right,分别对应区间(sn,X)和(X,en)。并且
Figure BDA0002712221710000161
并且从叶子节点开始回溯遍历整个树结构,并按照如 下公式更新Bn
Bn←min{Un,max{Bn|left,Bn|right}}
在在线学习模块中,采用树结构对连续区间进行划分,孩子节点是父亲节 点的子区间,同时在统计数据更新过程中,叶子节点的统计数据会用于更新它 的所以祖先节点(父节点,父节点的上层节点等等)。这种树结构的优势在于父 亲节点共享所有孩子节点的统计数据,这就大大加速了节点统计数据的收敛速 度。
并且,树结构的构建是动态的,随着系统在线上运行时间的推移,先前的 叶子节点会不断分裂,分裂成更小的子区间,进而也使得树结构的深度越来越 深,当前叶子节点对应的子区间会越来越小。这种动态分裂的优势在于随着系 统在线上不断运行,最优超参数的探索区间会逐步缩小,从而最终收敛到最优 的超参数值。
本在线学习模块采用置信区间上界方法对树结构里每个节点进行评估。该 方法是bandit算法中常见的价值评估方法,该方法的优势是能够很好的平衡探 索和利用,使得系统对于未知情况能保持探索的能力,但又能很好的利用之前 探索的结果,从而使得系统累积收益最高。本实施例采用了Bandit算法,使得 推荐系统具有了在线学习能力,并且能对未知状态进行探索,从而使得推荐系 统能够更加多元化的探索用户兴趣并且实时捕获用户兴趣的变化。
在线学习模块可以直接输出超参数组合,供推荐模型使用。例如在超参数 组合中包含:para_jaccard_distance(杰卡德距离,用于限制同一类目下召回商 品数量)、para_common_distance(编辑距离,和杰卡德距离一样,也是用于限 制同一类目下召回商品数量)、cate_distinct_cnt(相似距离,用于过滤相似商品, 增加展示商品多样性)、para_edit_distance(类目数,展示商品不同类目的数量, 用于控制展示商品多样性)这四个超参数。
超参数优化模块的功能包括:超参数优化模块以数据区间[Xs,Xe]和部分数 据样本{(x0,y0),...,(xn,yn)}作为输入,其中数据样本满足f(x)=y,函数f是未知函 数。超参数优化模块通过预设的超参数优化算法,利用数据样本对未知函数f进 行拟合,从而在区间[Xs,Xe]里找到函数f的极值点
Figure BDA0002712221710000171
详细流 程如图10所示,包括下述步骤:
1)获取数据区间:从在线学习模块获取得到当前最优超参数子区间。
2)获取数据样本:从在线学习模块获取得到用户反馈数据,并构建生成部 分数据样本。
3)计算最优值:根据黑盒优化算法,计算得到当前区间里的极值点。
上述流程能够支持任意的黑盒优化算法,具有较高的普适性,可以结合具 体问题,使用相应的优化算法,从而使得系统性能达到最优。另一方面,仅在 在线学习模块给出的最优超参数子区间内寻找极值点,相比于在整个区间上进 行优化,也大大降低了性能开销。
反馈收集模块的功能包括:收集用户反馈的行为数据,并对数据进行相应 的格式解析以供在线学习模块和推荐模型使用。具体流程参照图11所示,包括 下述步骤:
1)收集用户反馈:从前端交互页面获取得到用户反馈行为数据;
2)判断用户是否有反馈:如果用户有反馈行为则继续执行,否则直接结束;
3)处理反馈行为数据:对用户反馈的行为数据进行处理,解析成下游模块 (推荐模型和在线学习模块)可以支持的数据格式。
上述流程能够实时收集用户的反馈行为,并且对数据进行预处理。实时处 理数据的优势在于能够及时捕获用户兴趣点的变化,从而提升推荐系统整体性 能。
侯选池模块中包含侯选池,侯选池即支持条件查询的数据库。比如,以电 子商务交易系统的场景为例,如果用户所在地理位置是北京,那么可以从侯选 池中获取在北京这个地理区域发布的商品。具体流程参照图12所示,包括下述 步骤:
1)查询条件解析;
2)从数据库获取符合条件的数据。
侯选池模块能够支持条件查询,推荐模型可以通过一些组合条件查询得到 特定的候选数据集,这样大大降低了推荐模型打分排序的压力,提升了系统的 整体性能。
实施例二:
在实施例二中,一种针对购物网站提供搜索关键词的推荐系统,用户点击 该购物网站网页或者APP时,参照图13所示的界面示意图中“搜索发现”栏, 推荐系统会为该用户推荐部分搜索关键词,为用户推荐搜索关键词的目的可挖 掘出用户潜在的购买需求,增加用户的使用粘性并提高总体的商品成交数量, 同时也节约用户浏览的时间,方便用户快速找到自身感兴趣和真正需要的商品。
推荐系统的架构示意图参照图14所示,该系统包括:反馈收集模块、模型 训练模块、推荐模型、候选池、最优超参数组合学习模块(相当于集成了在线 学习模块和在线学习模块)。其中:
模型训练模块,用于训练推荐模型。
推荐模型,用于根据训练好的模型对用户的需求进行实时预测并推荐具有 较佳效果的推荐对象即Query词给用户。
最优超参数组合学习模块,用于使用连续区间Bandit算法探索得到最优超 参数子区间,然后再使用贝叶斯优化方法在最优超参数子区间中找出最优超参 数组合,并输出给推荐模型;
反馈收集模块,例如可作为基于可视化、组件化的实时数据处理平台,用 于对用户反馈行为数据进行实时处理,供模型训练模块和最优超参数组合学习 模块使用。
候选池,提供数据存储和数据查询功能,可支持多种存储方式,例如可采 用图存储的方式。
采用本发明实施例提供的超参数的学习、智能推荐、关键词推荐方法,可 使得系统的推荐效果得到较好的提升,例如在搜索关键词这个场景下,相对于 现有技术而言,访客数(UV)参数可提升5.68%,商品浏览量(PV)参数可提 升5.53%,在UV使用率、引导笔数、引导金额等参数上会有两位数的提升。
基于同一发明构思,本发明实施例还提供了一种机器学习模型超参数的学 习装置、智能推荐装置、搜索关键词的推荐装置、多媒体的推荐装置、推荐系 统和信息处理设备,由于这些装置和客户端所解决问题的原理与前述超参数的 学习方法、智能推荐方法、搜索关键词的推荐方法和多媒体的推荐方法相似, 因此该装置、系统和设备的实施可以参见前述方法的实施,重复之处不再赘述。
本发明实施例提供的一种机器学习模型超参数的学习装置,参照图15所 示,包括:
获取模块151,用于获取推荐模型的用户反馈行为数据;
区间确定模块152,用于根据所述用户行为反馈数据,从预设的超参数连 续区间中,确定所述机器学习模型的超参数组合所在的最优超参数子区间;
超参数选取模块153,用于在所述最优超参数子区间中,选取出最优超参 数组合作为所述机器学习模型的超参数。
本发明实施例提供的一种智能推荐装置,参照图16所示,包括:
确定模块161,用于确定待推荐的至少两个候选对象;
超参数组合获取模块162,用于获取推荐模型当前最优超参数组合;
评分模块163,用于通过所述推荐模型以及所述当前最优超参数组合,对 所述至少两个候选对象进行评分;
推荐模块164,用于基于所述至少两个候选对象的评分值,向用户推荐所 述候选对象;
所述最优超参数组合采用前述机器学习模型超参数的学习方法得到。
本发明实施例提供一种搜索关键词的推荐装置,参照图17所示,包括:
候选关键词确定模块171,用于确定待推荐的至少两个候选搜索关键词;
第一获取模块172,用于获取关键词推荐模型的当前最优超参数组合;
第一评分模块173,用于通过所述关键词推荐模型和所述最优超参数组合, 对至少两个候选搜索关键词进行评分;
搜索关键词推荐模块174,用于按照评分的高低顺序,选择从最高评分开 始预设数量的候选搜索词作为推荐的搜索关键词,并返回所述推荐的搜索关键 词;
上述最优超参数组合采用前述机器学习模型超参数的学习方法得到。
本发明实施例提供的一种多媒体的推荐装置,参照图18所示,包括:
确定模块181,用于确定待推荐的至少两个候选多媒体主题类型;
第二获取模块182,用于获取多媒体推荐模型的当前最优超参数组合;
第二评分模块183,用于通过所述关键词推荐模型和所述最优超参数组合, 对所述候选多媒体主题类型的用户偏好指数进行评分;
选择模块184,用于按照所述偏好指数的评分的高低,选择从最高评分值 开始预设数量的多媒体主题类型作为推荐的多媒体主题类型;
推荐模块185,用于从所述推荐的多媒体主题类型对应的多媒体库中,选 择至少一个多媒体推送给用户;
上述最优超参数组合,同样可采用前述机器学习模型超参数的学习方法得 到。
本发明实施例提供的一种推荐系统,参照图19所示,包括:
反馈收集模块191,用于收集推荐模型的用户反馈行为数据;
推荐模型模块192,用于以用户反馈行为数据作为样本对推荐模型进行训 练,并从候选池中选取出至少两个候选对象,并通过所述推荐模型以及推荐模 型的超参数组合,对所述候选对象进行评分,根据评分结果返回推荐结果;
候选池193,用于存储待推荐的候选对象的数据;
在线学习模块194,用于根据反馈收集模块191收集的用户反馈行为数据, 从预设的超参数连续区间中,确定所述机器学习模型的超参数组合所在的最优 超参数子区间;以及将推荐模型的超参数组合输出给推荐模型模块192;
超参数优化模块195,用于在所述最优超参数子区间中,选取出最优超参 数组合作为所述推荐模型的超参数组合,并返回至所述在线学习模块194。
本发明实施例提供的一种信息处理设备,包括:存储器和处理器;其中, 所述存储器存储有计算机程序,所述程序被处理器执行时能够实现前述机器学 习模型超参数的学习方法,或实现前述智能推荐的方法,或实现如前述搜索关 键词的推荐方法。
本发明实施例提供的一种计算机可读存储介质,其上存储有计算机指令, 该指令被处理器执行时能够实现前述机器学习模型超参数的学习方法,或实现 如前述的智能推荐的方法,或实现如前述的搜索关键词的推荐方法。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计 算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结 合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包 含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和 光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品 的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/ 或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或 方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式 处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机 或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流 程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备 以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的 指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流 程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使 得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处 理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个 流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。 显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的 精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等 同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (18)

1.一种机器学习模型超参数的学习方法,其特征在于,包括:
获取机器学习模型的用户反馈行为数据;
根据所述用户行为反馈数据,从预设的超参数连续区间中,确定所述机器学习模型的超参数组合所在的最优超参数子区间;
在所述最优超参数子区间中,选取出最优超参数组合作为所述机器学习模型的超参数组合。
2.如权利要求1所述的方法,其特征在于,根据所述用户反馈行为数据,确定超参数组合所在的最优超参数子区间,包括:
将用户反馈行为数据输入所述机器学习模型;
利用所述用户反馈行为数据,遍历预设的所述连续区间中范围逐步缩小的子区间,直至确定出所述机器学习模型的超参数组合所在的最优超参数子区间。
3.如权利要求2所述的方法,其特征在于,预设的超参数连续区间采用树结构;所述树结构的根节点为所述连续区间,且孩子节点为父节点对应区间的子区间;
利用所述用户反馈行为数据,遍历预设的所述连续区间中范围逐步缩小的子区间,直至确定出所述机器学习模型的超参数组合所在的最优超参数子区间,具体包括:
对于树结构中的各个节点,从根节点开始,利用所述用户反馈行为数据,对同层的每个节点的收益预估值进行评估,并根据评估结果,选择将遍历的下一个节点,重复上述步骤,直至到达叶子节点;
将所述叶子节点作为所述机器学习模型的超参数组合所在的最优超参数子区间。
4.如权利要求3所述的方法,其特征在于,在所述最优超参数子区间中,选取出最优超参数组合之后,还包括:
在所述树结构中,根据所述叶子节点对应子区间的开始端和结束端以及所述最优超参数组合,将所述叶子节点分裂为至少两个子节点;
从分裂后得到的子节点开始,回溯遍历整个树结构,更新每个节点对应的子区间的收益预估值。
5.如权利要求1-4任一项所述的方法,其特征在于,在所述最优超参数子区间中,选取出最优超参数组合,具体包括:
使用黑盒优化算法、网格搜索优化、贝叶斯优化、随机搜索优化和基于梯度优化中的一种或多种,从所述最优超参数子区间中,选择出其中包含的最优超参数组合。
6.如权利要求1-4任一项所述的方法,其特征在于,预设的超参数连续区间通过下述方式得到:
接收用户输入的超参数初始范围,所述超参数初始范围为超参数连续区间;
在选取出最优超参数组合后,所述方法还包括:
输出所述最优超参数组合,并判断是否接收到对所述最优超参数组合的调整指令;
若收到所述调整指令,根据所述调整指令调整所述最优超参数组合后再次输出。
7.一种智能推荐的方法,其特征在于,包括:
确定待推荐的至少两个候选对象;
获取推荐模型当前最优超参数组合;
通过所述推荐模型以及所述当前最优超参数组合,对所述至少两个候选对象进行评分;
基于所述至少两个候选对象的评分值,向用户推荐所述候选对象;
所述最优超参数组合采用如权利要求1-6任一项所述的机器学习模型超参数的学习方法得到。
8.如权利要求7所述的方法,其特征在于,所述确定待推荐的至少两个候选对象,包括下述一种或多种的组合:
根据所述用户的地理位置信息,从候选数据库中确定出与所述地理位置信息匹配的至少两个候选对象:
根据所述用户的属性信息,从候选数据库中确定出与所述属性信息匹配的至少两个候选对象;
根据用户的偏好信息,从候选数据库中确定出与所述偏好信息相匹配的至少两个候选对象;
根据用户的关联用户的偏好信息,从候选数据库中确定出与所述偏好信息相匹配的至少两个候选对象。
9.一种搜索关键词的推荐方法,其特征在于,包括:
确定待推荐的至少两个候选搜索关键词;
获取关键词推荐模型的当前最优超参数组合;
通过所述关键词推荐模型和所述最优超参数组合,对至少两个候选搜索关键词进行评分;
按照评分值的高低顺序,选择从最高评分值开始预设数量的候选搜索词作为推荐的搜索关键词,并返回所述推荐的搜索关键词;
所述最优超参数组合采用如权利要求1-6任一项所述的机器学习模型超参数的学习方法得到。
10.如权利要求9所述的方法,其特征在于,所述最优超参数组合包括下述参数中的至少两个:用于限制同一类目下召回商品数量的杰卡德距离和编辑距离、用于过滤相似商品的相似距离、展示商品不同类目的数量类目数。
11.一种多媒体的推荐方法,其特征在于,包括:
确定待推荐的至少两个候选多媒体类型;
获取多媒体推荐模型的当前最优超参数组合;
通过所述关键词推荐模型和所述最优超参数组合,对所述候选多媒体类型的用户偏好指数进行评分;
按照所述偏好指数的评分的高低,选择从最高评分值开始预设数量的多媒体类型作为推荐的多媒体类型;
从所述推荐的多媒体类型对应的多媒体库中,选择至少一个多媒体推送给用户;
所述最优超参数组合采用如权利要求1-6任一项所述的机器学习模型超参数的学习方法得到。
12.一种机器学习模型超参数的学习装置,其特征在于,包括:
获取模块,用于获取推荐模型的用户反馈行为数据;
区间确定模块,用于根据所述用户行为反馈数据,从预设的超参数连续区间中,确定所述机器学习模型的超参数组合所在的最优超参数子区间;
超参数选取模块,用于在所述最优超参数子区间中,选取出最优超参数组合作为所述机器学习模型的超参数。
13.一种智能推荐装置,其特征在于,包括:
确定模块,用于确定待推荐的至少两个候选对象;
超参数组合获取模块,用于获取推荐模型当前最优超参数组合;
评分模块,用于通过所述推荐模型以及所述当前最优超参数组合,对所述至少两个候选对象进行评分;
推荐模块,用于基于所述至少两个候选对象的评分值,向用户推荐所述候选对象;
所述最优超参数组合采用如权利要求1-6任一项所述的机器学习模型超参数的学习方法得到。
14.一种搜索关键词的推荐装置,其特征在于,包括:
候选关键词确定模块,用于确定待推荐的至少两个候选搜索关键词;
第一获取模块,用于获取关键词推荐模型的当前最优超参数组合;
第一评分模块,用于通过所述关键词推荐模型和所述最优超参数组合,对至少两个候选搜索关键词进行评分;
搜索关键词推荐模块,用于按照评分的高低顺序,选择从最高评分开始预设数量的候选搜索词作为推荐的搜索关键词,并返回所述推荐的搜索关键词;
所述最优超参数组合采用如权利要求1-6任一项所述的机器学习模型超参数的学习方法得到。
15.一种多媒体的推荐装置,其特征在于,包括:
确定模块,用于确定待推荐的至少两个候选多媒体主题类型;
第二获取模块,用于获取多媒体推荐模型的当前最优超参数组合;
第二评分模块,用于通过所述关键词推荐模型和所述最优超参数组合,对所述候选多媒体主题类型的用户偏好指数进行评分;
选择模块,用于按照所述偏好指数的评分的高低,选择从最高评分值开始预设数量的多媒体主题类型作为推荐的多媒体主题类型;
推荐模块,用于从所述推荐的多媒体主题类型对应的多媒体库中,选择至少一个多媒体推送给用户;
所述最优超参数组合采用如权利要求1-6任一项所述的机器学习模型超参数的学习方法得到。
16.一种推荐系统,其特征在于,包括:
反馈收集模块,用于收集推荐模型的用户反馈行为数据;
推荐模型模块,用于以用户反馈行为数据作为样本对推荐模型进行训练,并从候选池中选取出至少两个候选对象,并通过所述推荐模型以及推荐模型的超参数组合,对所述候选对象进行评分,根据评分结果返回推荐结果;
候选池模块,用于存储待推荐的候选对象的数据;
在线学习模块,用于根据反馈收集模块收集的用户反馈行为数据,从预设的超参数连续区间中,确定所述机器学习模型的超参数组合所在的最优超参数子区间;以及将推荐模型的超参数组合输出给推荐模型模块;
超参数优化模块,用于在所述最优超参数子区间中,选取出最优超参数组合作为所述推荐模型的超参数组合,并返回至所述在线学习模块。
17.一种信息处理设备,其特征在于,包括:存储器和处理器;其中,所述存储器存储有计算机程序,所述程序被处理器执行时能够实现如权利要求1-6任一项所述的机器学习模型超参数的学习方法,或实现如权利要求7或8所述的智能推荐的方法,或实现如权利要求9或10所述的搜索关键词的推荐方法,或实现如权利要求11所述的多媒体的推荐方法。
18.一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时能够实现如权利要求1-6任一项所述的机器学习模型超参数的学习方法,或实现如权利要求7或8所述的智能推荐的方法,或实现如权利要求9或10所述的搜索关键词的推荐方法,或实现如权利要求11所述的多媒体的推荐方法。
CN202011060539.8A 2020-09-30 2020-09-30 超参数学习、智能推荐、关键词和多媒体推荐方法及装置 Pending CN114329167A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011060539.8A CN114329167A (zh) 2020-09-30 2020-09-30 超参数学习、智能推荐、关键词和多媒体推荐方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011060539.8A CN114329167A (zh) 2020-09-30 2020-09-30 超参数学习、智能推荐、关键词和多媒体推荐方法及装置

Publications (1)

Publication Number Publication Date
CN114329167A true CN114329167A (zh) 2022-04-12

Family

ID=81011252

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011060539.8A Pending CN114329167A (zh) 2020-09-30 2020-09-30 超参数学习、智能推荐、关键词和多媒体推荐方法及装置

Country Status (1)

Country Link
CN (1) CN114329167A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116628346A (zh) * 2023-07-19 2023-08-22 深圳须弥云图空间科技有限公司 搜索词推荐模型的训练方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116628346A (zh) * 2023-07-19 2023-08-22 深圳须弥云图空间科技有限公司 搜索词推荐模型的训练方法及装置
CN116628346B (zh) * 2023-07-19 2024-01-05 深圳须弥云图空间科技有限公司 搜索词推荐模型的训练方法及装置

Similar Documents

Publication Publication Date Title
CN111797321B (zh) 一种面向不同场景的个性化知识推荐方法及系统
CN107220365B (zh) 基于协同过滤与关联规则并行处理的精准推荐系统及方法
CN110717098B (zh) 基于元路径的上下文感知用户建模方法、序列推荐方法
CN111444394B (zh) 获取实体间关系表达的方法、系统和设备、广告召回系统
CN112749330B (zh) 信息推送方法、装置、计算机设备和存储介质
CN109684548B (zh) 一种基于用户图谱的数据推荐方法
Chaturvedi et al. Recommender system for news articles using supervised learning
CN110795613A (zh) 商品搜索方法、装置、系统及电子设备
CN111209469A (zh) 一种个性化推荐方法、装置、计算机设备及存储介质
CN110083766B (zh) 一种基于元路径引导嵌入的查询推荐方法及装置
CN115618101A (zh) 基于负反馈的流媒体内容推荐方法、装置及电子设备
Berlanga et al. Quality indicators for social business intelligence
CN113051468B (zh) 一种基于知识图谱和强化学习的电影推荐方法及系统
CN112464106B (zh) 对象推荐方法及装置
Chen et al. Poverty/investment slow distribution effect analysis based on Hopfield neural network
CN114329167A (zh) 超参数学习、智能推荐、关键词和多媒体推荐方法及装置
CN115408618B (zh) 一种基于社交关系融合位置动态流行度和地理特征的兴趣点推荐方法
CN109299368B (zh) 一种用于环境信息资源ai智能个性化推荐的方法及系统
Gao et al. Construction of digital marketing recommendation model based on random forest algorithm
Agagu et al. Context-aware recommendation methods
CN114022233A (zh) 一种新型的商品推荐方法
Guerraoui et al. Sequences, items and latent links: Recommendation with consumed item packs
Sridhar et al. Extending Deep Neural Categorisation Models for Recommendations by Applying Gradient Based Learning
Qin et al. Recommender resources based on acquiring user's requirement and exploring user's preference with Word2Vec model in web service
Yu et al. Recommendation Ranking Method Combining Graph Convolutional Network and Factorization Machine

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination