CN114329167A

CN114329167A - 超参数学习、智能推荐、关键词和多媒体推荐方法及装置

Info

Publication number: CN114329167A
Application number: CN202011060539.8A
Authority: CN
Inventors: 刘家豪; 彭艺; 谢淼; 肖非
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2020-09-30
Filing date: 2020-09-30
Publication date: 2022-04-12

Abstract

本发明公开了一种超参数的学习、智能推荐、关键词推荐方法及装置。所述机器学习模型超参数的学习方法包括：获取机器学习模型的用户反馈行为数据；根据所述用户行为反馈数据，从预设的超参数连续区间中，确定所述机器学习模型的超参数组合所在的最优超参数子区间；在所述最优超参数子区间中，选取出最优超参数组合作为所述机器学习模型的超参数组合。本发明实现了对推荐系统的超参数组合的自主学习，使得推荐系统能够实时地追踪用户的需求和兴趣，从而保证了推荐系统具有较好的推荐效果。

Description

超参数学习、智能推荐、关键词和多媒体推荐方法及装置

技术领域

本发明涉及机器学习技术领域，特别涉及一种超参数的学习、智能推荐、关键词和多媒体推荐方法及装置。

背景技术

随着互联网的飞速发展，尤其是移动互联网的发展，基于各种场景下的推荐系统发挥着越来越重要的作用。

近年来，推荐系统的核心所要解决的问题在于，如何实时准确地捕获用户个性化兴趣从而实现精准的推荐服务，例如基于用户的偏好，向用户推荐他/她可能感兴趣的商品、多媒体、广告和产品功能等等。

为了解决个性化推荐的问题，推荐系统往往会采用机器学习算法来刻画用户的兴趣爱好，例如各种线性回归模型、神经网络模型等等。而刻画这些模型本身属性的超参数，往往在学习过程之前由系统构建者人为指定，这种方式会加大模型构建者的工作量，更重要的是，仅仅依靠人为自行设定模型超参数的方式，如果这种超参数设置不合理，会导致推荐模型本身的不合理，推荐系统自然也就无法达到较优的推荐效果。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种超参数的学习、智能推荐、关键词推荐方法及装置。

第一方面，本发明实施例提供一种机器学习模型超参数的学习方法，包括：

获取机器学习模型的用户反馈行为数据；

根据所述用户行为反馈数据，从预设的超参数连续区间中，确定所述机器学习模型的超参数组合所在的最优超参数子区间；

在所述最优超参数子区间中，选取出最优超参数组合作为所述机器学习模型的超参数组合。

在一个实施例中，根据所述用户反馈行为数据，确定超参数组合所在的最优超参数子区间，包括：

将用户反馈行为数据输入所述机器学习模型；

利用所述用户反馈行为数据，遍历预设的所述连续区间中范围逐步缩小的子区间，直至确定出所述机器学习模型的超参数组合所在的最优超参数子区间。

在一个实施例中，预设的超参数连续区间采用树结构；所述树结构的根节点为所述连续区间，且孩子节点为父节点对应区间的子区间；

利用所述用户反馈行为数据，遍历预设的所述连续区间中范围逐步缩小的子区间，直至确定出所述机器学习模型的超参数组合所在的最优超参数子区间，具体包括：

对于树结构中的各个节点，从根节点开始，利用所述用户反馈行为数据，对同层的每个节点的收益预估值进行评估，并根据评估结果，选择将遍历的下一个节点，重复上述步骤，直至到达叶子节点；

将所述叶子节点作为所述机器学习模型的超参数组合所在的最优超参数子区间。

在一个实施例中，在所述最优超参数子区间中，选取出最优超参数组合之后，还包括：

在所述树结构中，根据所述叶子节点对应子区间的开始端和结束端以及所述最优超参数组合，将所述叶子节点分裂为至少两个子节点；

从分裂后得到的子节点开始，回溯遍历整个树结构，更新每个节点对应的子区间的收益预估值。

在一个实施例中，在所述最优超参数子区间中，选取出最优超参数组合，具体包括：

使用黑盒优化算法、网格搜索优化、贝叶斯优化、随机搜索优化和基于梯度优化中的一种或多种，从所述最优超参数子区间中，选择出其中包含的最优超参数组合。

在一个实施例中，预设的超参数连续区间通过下述方式得到：

接收用户输入的超参数初始范围，所述超参数初始范围为超参数连续区间；

在选取出最优超参数组合后，所述方法还包括：

输出所述最优超参数组合，并判断是否接收到对所述最优超参数组合的调整指令；

若收到所述调整指令，根据所述调整指令调整所述最优超参数组合后再次输出。

第二方面，本发明实施例提供一种智能推荐的方法，包括：

确定待推荐的至少两个候选对象；

获取推荐模型当前最优超参数组合；

通过所述推荐模型以及所述当前最优超参数组合，对所述至少两个候选对象进行评分；

基于所述至少两个候选对象的评分值，向用户推荐所述候选对象；

所述最优超参数组合采用如前述的机器学习模型超参数的学习方法得到。

在一个实施例中，上述智能推荐的方法，还包括：

周期性地收集所述推荐模型对应的用户反馈行为数据；

利用所述反馈行为数据，对候选对象的特征进行更新，并将所述反馈行为数据作为训练样本数据输入所述推荐模型以重新训练所述推荐模型。

在一个实施例中，若所述最优超参数组合中包含影响所述推荐模型结构的超参数，则所述重新训练所述推荐模型，具体包括：

根据所述影响所述推荐模型结构的超参数，更新所述推荐模型的结构；

将所述反馈行为数据作为训练样本数据输入更新后的推荐模型以重新训练所述更新后的推荐模型。

在一个实施例中，所述确定待推荐的至少两个候选对象，包括下述一种或多种的组合：

根据所述用户的地理位置信息，从候选数据库中确定出与所述地理位置信息匹配的至少两个候选对象：

根据所述用户的属性信息，从候选数据库中确定出与所述属性信息匹配的至少两个候选对象；

根据用户的偏好信息，从候选数据库中确定出与所述偏好信息相匹配的至少两个候选对象；

根据用户的关联用户的偏好信息，从候选数据库中确定出与所述偏好信息相匹配的至少两个候选对象。

第三方面，本发明实施例提供一种搜索关键词的推荐方法，包括：

确定待推荐的至少两个候选搜索关键词；

获取关键词推荐模型的当前最优超参数组合；

通过所述关键词推荐模型和所述最优超参数组合，对至少两个候选搜索关键词进行评分；

按照评分值的高低顺序，选择从最高评分值开始预设数量的候选搜索词作为推荐的搜索关键词，并返回所述推荐的搜索关键词；

在一个实施例中，所述最优超参数组合包括下述参数中的至少两个：用于限制同一类目下召回商品数量的杰卡德距离和编辑距离、用于过滤相似商品的相似距离、展示商品不同类目的数量类目数。

第四方面，本发明实施例提供一种多媒体的推荐方法，包括：

确定待推荐的至少两个候选多媒体类型；

获取多媒体推荐模型的当前最优超参数组合；

通过所述关键词推荐模型和所述最优超参数组合，对所述候选多媒体类型的用户偏好指数进行评分；

按照所述偏好指数的评分的高低，选择从最高评分值开始预设数量的多媒体类型作为推荐的多媒体类型；

从所述推荐的多媒体类型对应的多媒体库中，选择至少一个多媒体推送给用户；

第五方面，本发明实施例提供一种机器学习模型超参数的学习装置，包括：

获取模块，用于获取推荐模型的用户反馈行为数据；

区间确定模块，用于根据所述用户行为反馈数据，从预设的超参数连续区间中，确定所述机器学习模型的超参数组合所在的最优超参数子区间；

超参数选取模块，用于在所述最优超参数子区间中，选取出最优超参数组合作为所述机器学习模型的超参数。

第六方面，本发明实施例提供一种智能推荐装置，包括：

确定模块，用于确定待推荐的至少两个候选对象；

超参数组合获取模块，用于获取推荐模型当前最优超参数组合；

评分模块，用于通过所述推荐模型以及所述当前最优超参数组合，对所述至少两个候选对象进行评分；

推荐模块，用于基于所述至少两个候选对象的评分值，向用户推荐所述候选对象；

第七方面，本发明实施例提供一种搜索关键词的推荐装置，包括：

候选关键词确定模块，用于确定待推荐的至少两个候选搜索关键词；

第一获取模块，用于获取关键词推荐模型的当前最优超参数组合；

第一评分模块，用于通过所述关键词推荐模型和所述最优超参数组合，对至少两个候选搜索关键词进行评分；

搜索关键词推荐模块，用于按照评分值的高低顺序，选择从最高评分值开始预设数量的候选搜索词作为推荐的搜索关键词，并返回所述推荐的搜索关键词；

第八方面，本发明实施例提供一种多媒体的推荐装置，包括：

确定模块，用于确定待推荐的至少两个候选多媒体主题类型；

第二获取模块，用于获取多媒体推荐模型的当前最优超参数组合；

第二评分模块，用于通过所述关键词推荐模型和所述最优超参数组合，对所述候选多媒体主题类型的用户偏好指数进行评分；

选择模块，用于按照所述偏好指数的评分的高低，选择从最高评分值开始预设数量的多媒体主题类型作为推荐的多媒体主题类型；

推荐模块，用于从所述推荐的多媒体主题类型对应的多媒体库中，选择至少一个多媒体推送给用户；

上述最优超参数组合采用前述机器学习模型超参数的学习方法得到。

第九方面，本发明实施例提供一种推荐系统，包括：

反馈收集模块，用于收集推荐模型的用户反馈行为数据；

推荐模型模块，用于以用户反馈行为数据作为样本对推荐模型进行训练，并从候选池中选取出至少两个候选对象，并通过所述推荐模型以及推荐模型的超参数组合，对所述候选对象进行评分，根据评分结果返回推荐结果；

候选池，用于存储待推荐的候选对象的数据；

在线学习模块，用于根据反馈收集模块收集的用户反馈行为数据，从预设的超参数连续区间中，确定所述机器学习模型的超参数组合所在的最优超参数子区间；以及将推荐模型的超参数组合输出给推荐模型模块；

超参数优化模块，用于在所述最优超参数子区间中，选取出最优超参数组合作为所述推荐模型的超参数组合，并返回至所述在线学习模块。

第十方面，本发明实施例提供的信息处理设备，包括：存储器和处理器；其中，所述存储器存储有计算机程序，所述程序被处理器执行时能够实现如前述的机器学习模型超参数的学习方法，或实现如前述的智能推荐的方法，或实现如前述的搜索关键词的推荐方法，或实现如前述的多媒体的推荐方法。

第九方面，本发明实施例提供的计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时能够实现如前述的机器学习模型超参数的学习方法，或实现如前述的智能推荐的方法，或实现如前述的搜索关键词的推荐方法，或实现如前述的多媒体的推荐方法。

本发明实施例提供的上述技术方案的有益效果至少包括：

本发明实施例提供的超参数的学习、智能推荐、关键词和多媒体推荐方法及装置，通过探索得到最优超参数子区间，再在最优超参数子区间中确定推荐模型的最优超参数组合，实现了对推荐系统的超参数组合的自主学习，使得推荐系统能够实时地追踪用户的需求和兴趣，从而保证了推荐系统具有较好的推荐效果，并且，采用超参数自学习的方式，也能大大减少模型构建者的工作量。

进一步地，在本发明实施例中，将bandit算法与超参数优化方法相结合，先利用bandit算法找到超参数最优超参数子区间，再利用超参数优化方法在该子区间内选择出极值点，确定为最优超参数组合，不仅降低了超参数优化算法搜索的区间大小，降低了系统开销，同时还提升了最优超参数组合的精准度，整体效率较高。而bandit算法能够很好地平衡探索和利用，对于未知情况能够保持较好的探索能力，同时又能很好地利用之前探索的结果，选择累积收益最高的候选对象为最终推荐的对象，从而达到较好的推荐效果。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例提供的机器学习模型超参数学习方法的流程图；

图2为本发明实施例提供的连续区间的树结构的示意图；

图3为本发明实施例提供的树结构的另一示意图；

图4为本发明实施例提供的智能推荐的方法的流程图；

图5A为本发明实施例提供的搜索关键词的推荐方法的流程图；

图5B为本发明实施例提供的多媒体的推荐方法的流程图；

图6为本发明实施例一提供的推荐系统的架构示意图；

图7为本发明实施例一提供的推荐模型模块的工作流程图；

图8为本发明实施例一提供的在线学习模块的工作流程图；

图9为本发明实施例一提供的遍历路径的示意图；

图10为本发明实施例一提供的超参数优化模块的工作流程图；

图11为本发明实施例一提供的反馈收集模块的工作流程图；

图12为本发明实施例一提供的侯选池模块的工作流程图；

图13为本发明实施例二提供的搜索界面的示意图；

图14为本发明实施例二提供的推荐系统的架构示意图；

图15为本发明实施例提供的机器学习模型超参数的学习装置的结构示意图；

图16为本发明实施例提供的智能推荐装置的结构示意图；

图17为本发明实施例提供的搜索关键词的推荐装置的结构示意图；

图18为本发明实施例提供的多媒体的推荐装置的结构示意图；

图19为本发明实施例提供的推荐系统的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

为了解决个性化推荐的问题，推荐系统往往会采用机器学习算法来刻画用户的兴趣爱好，比如线性回归模型、深度学习模型等等。无论采用什么类型的机器学习算法，都会存在两种类型的参数即模型参数和超参数，模型参数用来刻画训练数据和标签之间的关系，而超参数则是用来刻画模型本身属性的。由于超参数是用于刻画模型的，现有技术中常由模型设计者来预先设定。

机器学习模型本质是机器通过某种算法学习数据的计算过程，通过学习得到的模型本质是一系列的数字，比如树模型每个节点上判断属于左右子数的数，或者逻辑回归模型中的一维数组，这些参数称之为模型参数，而超参数是那些定义模型属性或者定义训练过程的参数。

以深度学习模型为例，模型参数包含每个神经元对应的参数，这些神经元对应的数值刻画了输入样本到输出标签之间的关系，而超参数则包含：例如有多少层神经网络、每层神经网络包含多少个神经元这些参数。显然，超参数的选择对模型最终的效果有极大的影响。对于一整套推荐系统而言，往往会涉及到很多个机器学习模型，而且每个模型又会包含多个超参数，如果这些超参数全部需要系统构建者来指定的话，极大的增加了构建者的工作量。而且，超参数的设定对模型最终效果影响是极大的，如果仅依靠推荐系统构建者来自行预设定模型的超参数，推荐系统很难达到较优效果。

针对现有技术中推荐系统的模型超参数的设定方式导致的推荐系统难以达到较优效果的这一问题，本发明实施例提出了一种机器学习模型超参数学习方法、智能推荐的方法、搜索关键词的推荐方法及装置和推荐系统，该机器学习模型超参数学习方法可通过自学习的方式探索得到一组最优超参数组合，从而大大提升推荐系统的效果。

下面结合附图，对本发明实施例提供的机器学习模型超参数学习方法、智能推荐的方法、搜索关键词的推荐方法及装置和推荐系统的具体实施方式进行详细的说明。

本发明实施例提供的机器学习模型超参数学习方法，参照图1所示，包括下述步骤：

S11、获取机器学习模型的用户反馈行为数据；

S12、根据用户行为反馈数据，从预设的超参数连续区间中，确定机器学习模型的超参数组合所在的最优超参数子区间；

S13、在最优超参数子区间中，选取出最优超参数组合作为机器学习模型的超参数组合。

本发明实施例提供的机器学习模型，可以适用于多种场景下的机器学习模型，例如：线性回归模型、深度学习模型、各类神经网络模型、图学习模型等等，本发明实施例并不限于推荐系统所使用的机器学习模型。

机器学习模型在输出结果后，以推荐模型为例，在输出推荐结果之后，可以接收用户对推荐结果的反馈数据，这些数据可以反映推荐对象与用户偏好或喜好之间的隐性关系，用以进一步修正推荐模型的准确性。这些用户反馈行为数据，与具体的应用场景相关。

以推荐系统为例，这些机器学习模型，可以适用的推荐场景包括但不限于下述场景：

1)商品的推荐：

在电子商务领域，商家会在网站或者APP上发布很多商品，而每一个用户又有着自己独特的偏好，因而推荐系统需要考虑用户的兴趣，从商家发布的大量商品中选择一个适合该用户的商品推荐给用户，从而满足用户的兴趣爱好，从而提升商品的成交转化率。

在商品的推荐场景下，用户反馈行为数据例如可以是行为日志数据，例如浏览某商品、点击某商品、购买某商品、收藏某商品等等行为的相关日志数据等等。

比如用户点击了一个商品，会产生如下格式的行为日志数据：

2019-08-16 15:03:10\t u222\t 7b93ba75-4fdc-4116-8e3e-5a0e81ce42e6\ti1111\t click

日志数据包含多部分，不同部分之间用\t进行分割，第一部分表示行为发生时间，第二部分是该用户的ID，第三部分是该日志的唯一标识符，第四部分是用户点击的商品ID，第五部分是行为类型(“click”表示用户点击了该商品)。

2)视频素材图的推荐：

随着移动互联网的发展，用户越来越多利用零碎的时间通过移动终端观看视频。例如对于视频APP来说，会有很多热门的电视剧或者电影等，这些视频内容往往都有很多推荐图片，这些图片可能是设计师设计也有可能来自于视频内容本身的截图。对于同一个视频，究竟选哪张图片作为封面图，可能针对不同用户就有不同的答案，所以，推荐系统需要为不同用户推荐他最喜好的图片作为封面图。

在视频素材库的推荐场景下，用户反馈数据，也可以来自用户行为日志数据，例如可以是用户观看某视频或某类视频的时长、频率、观看次数等等数据。

3)功能与服务的推荐：

以移动终端上网的数据服务接入为例，数据接入方式通常有很多，比如3G、 4G、Wifi等等，在同一时间，通常有很多种上网方式可以进行数据传输，不同的用户可能有不同的喜好，不同的使用环境，那么也需要个性化的进行推荐。

类似地，在功能与服务的推荐场景下，用户反馈数据，例如可以是用户对使用某一功能和/或服务的时长、频率、次数，或功能和/或服务切换的时间、次数、频率等数据等等。

上述步骤S12中，根据所述用户反馈行为数据，确定超参数组合所在的最优超参数子区间，在具体实施时，例如可以通过下述方式实现：

将用户反馈行为数据输入所述机器学习模型；利用用户反馈行为数据，遍历预设的超参数连续区间中范围逐步缩小的子区间，直至确定出机器学习模型的超参数组合所在的最优超参数子区间。

具体来说，上述预设的超参数连续区间采用树结构存储，树结构的根节点为连续区间本身，不同层级间孩子节点为父节点对应区间的子区间；

例如超参数连续区间假设为(s，e)，s和e分别为该连续区间的上限和下限，则根节点对应的区间为(s，e)，根节点的下一级子节点对应的子区间分别为(s，y)和(y，e)。以下层级的节点的区间以此类推。

将用户反馈行为数据输入机器学习模型，对于树结构中的各个节点，从根节点开始，利用用户反馈行为数据，对同层的每个节点的收益预估值进行评估 (例如采用置信区间上界方法等)，并根据评估结果，选择将遍历的下一个节点，重复上述步骤，直至到达叶子节点；

将叶子节点作为所述机器学习模型的超参数组合所在的最优超参数子区间。

从上述过程可以看出，确定最优超参数子区间的过程，可视作在整个连续区间内不断缩小范围的过程，在此过程中，每一次缩小范围的步骤，即在两个子区间中按照收益预估值最优的原则，来选择两者中收益预估值较优的一个子区间作为下一个到达的子区间的过程，因此，只需要将遍历的下一级子节点，比较不同子节点的收益优劣，最终可选择出最优的超参数子区间。重复过程的停止条件可以有多种，例如预设的时间达到，或者达到置信区间稳定(收敛，例如上述达到叶子节点)，本发明实施例对此不做限定。

在本发明实施例中，收益预估值是指，由选择子区间所带来的收益的期望，也就是对推荐效果的量化，对于不同的应用场景来说，收益的含义与推荐模型自身的推荐目的有关，例如对于搜索引擎来说，推荐成功与否的衡量标准是推荐了用户最想得到的内容，因此“收益”的含义即为关键词所带来的点击收益(点击次数等)，又例如，在商品推荐场景下，“收益”的具体含义可能包含例如商品浏览量、访客购买数量、金额等等。在此不再一一列举。

在本发明实施例中，将实时反馈的用户反馈行为数据输入机器学习模型，并利用连续区间MAB(Multi-armed bandit)算法，MAB算法通过平衡探索与利用实现累积收益最大化。

超参数连续区间，为一个预设的超参数的初始查找区间，可以是机器学习模型的构建者预先设置，或者由构建者预先设置后通过其他优化方式初步处理得来。超参数的连续区间是模型构建者为了选出最优超参数组合而预先设置的超参数的区间，该区间是个连续的数值区间。最优超参数子区间，是超参数的连续区间中的一个子区间，通过例如价值评估方法在前述超参数连续区间中探索得到的。

超参数的连续区间采用树形结构的方式存储，一个连续区间的树结构的示意图参照图2所示，每个父节点包含两个孩子节点，且两个孩子节点(以下称为子节点)分别所对应的两个区间之和为父亲节点(以下简称父节点)所对应区间的子区间。

在遍历整个树结构时，从根节点开始，比较其左子节点和右子节点的收益预估值，哪个子节点的收益预估值较大，则继续遍历至较大的收益预估值的那个子节点，如果两子节点的收益预估值相等，那么按照等概率随机选择任一个字节点，重复上述过程，直至达到整个树结构的叶子节点，那么这个叶子节点对应的子区间为当前最优超参数子区间。

在一个实施例中，在上述步骤S13即在最优超参数子区间中，选取出最优超参数组合之后，上述方法还可以执行下述步骤：

在所述连续区间的树结构中，根据叶子节点对应子区间的开始端和结束端以及所述最优超参数组合，将叶子节点分裂为至少两个子节点；

在原有的树结构中，叶子节点已经是最深的一级节点(距离根节点最远的一级节点)，经过本次选择出最优超参数组合之后，会在原有的结构基础上增加一层，树形结构会动态变化，随着机器学习系统的运行，不断实时选取出最优超参数组合后，也使得整个树结构的深度越来越深，当前叶子节点对应的子区间会越来越小，从而越来越趋近或者收敛至最优的超参数组合，其过程可参照图3所示。

图3所示的例子中，树结构存储的超参数连续区间的节点自下往上分裂延伸，该树结构的根节点(即图3中最下方的节点)为该超参数连续区间本身，第二层结构中，该根节点分裂为两个节点，该节点为根节点子节点，对应的区间分别为根节点的子区间，第三层结构中，第二层的每个节点继续按照1个节点分裂出2个节点的方式进行分裂，以此类推，每次选出最优超参数后，树形结构就会更深入一层，产生新的叶子节点，以备下一次的最优超参数子区间的查找过程使用，使得叶子节点对应的区间不断地缩小。

这种通过树结构逐步缩小连续区间直至得到最优超参数子区间的方法，不仅降低超参数组合的搜索的区间范围，同时还提升了找到的最优超参数组合的精准度，从而提升机器学习模型的整体性能。

在上述本发明实施例中，采用树结构对连续区间进行划分，孩子节点是父亲节点的子区间，同时在统计数据更新过程中，叶子节点的统计数据会用于更新它的所有祖先节点。这种树结构的优势在于父亲节点共享所有孩子节点的统计数据，可大大加速节点统计数据的收敛速度。

在上述本发明实施例中，例如可采用置信区间上界(UCB，Upper ConfidenceBound)方法对树结构里每个节点对应子区间的收益预估值进行评估，该方法是bandit算法中常见的价值评估方法，以收益(bonus)均值的置信区间上限代表对该节点对应收益的预估值，公式为：

其中μ_i是收益的期望，n为总的尝试次数(实验轮数)，n_i是尝试次数，从公式可以看到对i的尝试次数越多，其预估值与置信上界的差值就越小，也就是越有置信度。UCB方法遍历树结构存储的超参数连续区间时，需要把每层两个节点的置信上界计算出来作为收益预估值，然后选取出来其中收益预估值较大的那个节点。

该方法的优势是能够很好的平衡探索和利用，对于未知情况能保持探索的能力，但又能很好的利用之前探索的结果，从而使得探索得到的区间的累积收益最高。本发明实施例采用了这一bandit算法，可实现超参数组合的自学习，对于推荐模型这种机器学习模型来说，学习过程中能自动智能地能对未知状态进行探索，从而使学习得到的超参数组合能够保证推荐模型能够更加多元化的探索用户兴趣并且实时捕获用户兴趣的变化，从而使推荐效果更好。

还可以使用例如Epsilon-Greedy算法、Thompson Sampling算法等其他现有算法来进行收益预估值的评估，具体实施方式可参照现有技术，在此不再详述。

在上述步骤S13中，在所述最优超参数子区间中，选取出最优超参数组合，在具体实施时，可使用黑盒优化算法、网格搜索优化、贝叶斯优化、随机搜索优化和基于梯度优化等等中的一种或多种，从最优超参数子区间中，选择出其中包含的最优超参数组合。

以黑盒优化算法为例，以前述步骤得到的最优超参数子区间[X_s,X_e]和部分数据样本{(x₀,y₀),...,(x_n,y_n)}作为算法输入，其中数据样本满足f(x)＝y，但函数f 是未知的。通过黑盒优化算法利用数据样本对未知函数f进行拟合，从而在区间[X_s,X_e]里找到函数f的极值点

该极值点即为最优超参数组合。

黑盒优化算法适应范围广泛，具有较高的普适性。并且，在前述已确定出的最优超参数子区间内寻找极值点，相比于在整个区间上进行优化，大大降低了性能开销。并且，对于推荐模型来说，最优超参数子区间内的超参数组合相比较而言都已具有较好的推荐效果，因此在此区间内寻找极值点则推荐效果更优。

需要说明的是，由多个超参数组成的超参数组合，为高维空间中的一个点，本发明实施例前述的区间和子区间等也是高维空间的，因此确定了该极值点，即找到了对应的超参数组合。

上述部分数据样本，是根据获取得到用户反馈数据构建生成的。

再例如贝叶斯优化，可通过初始观测集合(最优超参数子区间)，由高斯过程生成先验概率模型，用混沌粒子群方法搜索下一个评估点，对新的评估点进行评估获取新评估点对应的观测值，通过更新观测集合来更新高斯过程概率代理模型，通过多次迭代更新，获取最优超参数组合。

以上仅为几个实现超参数组合优化的例子，其他方式可参考现有技术，在此不再一一列举。

在前述机器学习模型超参数的学习方法的基础上，本发明实施例还提供了一种智能推荐的方法，参照图4所示，包括：

S41、确定待推荐的至少两个候选对象；

S42、获取推荐模型当前最优超参数组合；

S43、通过推荐模型以及当前最优超参数组合，对至少两个候选对象进行评分；

S44、基于至少两个候选对象的评分值，向用户推荐候选对象；

上述最优超参数组合可采用前述实施例中机器学习模型超参数的学习方法得到。

本发明实施例中，候选对象可根据不同的推荐系统所适用的场景而不同，例如待推荐的商品、待推荐的搜索关键词、待推荐的服务、待推荐的好友(社交网络中)、等等。推荐模型所适用场景如前述例如可以是商品、服务、多媒体、好友等等多种可能的场景，在此不再一一列举。

拿社交网络中好友的推荐模型举例来说，可以根据实际应用场景，先确定待推荐的多个类型的候选推荐好友，该候选推荐好友例如可从用户的通讯录、关联列表等处得到，然后获取按照前述方法得到的最优超参数组合输入至好友推荐模型，利用用户反馈数据，例如用户的地理位置信息、用户对商品或服务的购买、使用等行为信息(即行为反馈数据)，对候选推荐好友与该用户相似度进行评分，选取评分较高的几位候选推荐好友作为最终要推荐的好友，并推送相关好友信息。

推荐模型也可能是多种机器学习模型中的一种或多种，例如：线性回归模型、深度学习模型、各类神经网络模型、图学习模型等等。本发明实施例对此不做限定。

上述步骤S42中，获取推荐模型当前最优超参数组合中的最优超参数组合，可参照前述机器学习模型超参数学习方法得到的超参数，也就是根据推荐模型 (也即机器学习模型)的用户反馈数据，先确定推荐模型所在的最优超参数子区间，再在最优超参数子区间中，选取出该推荐模型的最优超参数组合，具体实施方式可参照前述实施例的说明。

在一个实施例中，上述步骤S41中，确定待推荐的至少两个候选对象，可以有多种方式，比如下述任一种或多种的组合：

1、根据用户的地理位置信息，从候选数据库中确定出与地理位置信息匹配的至少两个候选对象：

例如根据用户的地理区域，判断当前用户位于北京，则将候选数据中同属于发布于北京这个地理区域的对象作为候选对象。

2、根据用户的属性信息，从候选数据库中确定出与属性信息匹配的至少两个候选对象；

例如根据用户的属性信息中的性别、年龄等，从候选数据库中确定与其性别和年龄等相匹配的对象。

3、根据用户的偏好信息，从候选数据库中确定出与偏好信息相匹配的至少两个候选对象；

例如使用用户预先设置的偏好信息，或者预先通过学习得到的用户的偏好，从数据库中选取与其偏好相匹配的对象。

4、根据用户的关联用户的偏好信息，从候选数据库中确定出与偏好信息相匹配的至少两个候选对象。

用户的关联用户，例如社交网络中用户关注的其他用户，用户的好友等等。

上述选取候选对象的方法，仅为示例，本发明实施例并不限定如何选取候选对象的具体实施方式。

本发明实施例中，还可以周期性地收集所述推荐模型对应的用户反馈行为数据；利用这些用户反馈行为数据，对候选对象的特征进行更新，并将用户反馈行为数据作为训练样本数据输入推荐模型以重新训练推荐模型。

用户的偏好和兴趣可能会发生变化，所以有必要实时更新推荐模型的权重，所以需要周期性地采集用户反馈行为数据，利用这些用户反馈行为数据，对候选对象的特征进行更新，同时也利用用户反馈行为数据对推荐模型进行重新训练。

重新训练推荐模型，本质上是更新的是模型中各特征的权重。因为用户兴趣是会发生变化的，所以需要实时更新模型中的权重。举个例子，比如之前用户喜欢红色类型相关的商品，那么在推荐模型中与红色相关的特征的权重就会很高，若用户兴趣发生了变化，改为喜欢蓝色相关的商品，那么相应的蓝色特征的权重应该升高，本发明实施例可通过重新训练模型来实现实时追踪用户兴趣的变化，以保持推荐的精准性。

候选对象特征的更新通常是指由于候选对象的某些属性发现了变化而进行的更新，例如商品的发布时长、商品的价格、商品所属类别等等，候选对象特征的更新不是为了追踪用户偏好或兴趣的变化，而是为了实时刻画候选对象的属性。

在一个实施例中，若最优超参数组合中包含影响推荐模型结构的超参数，则还可以根据该超参数，重新训练推荐模型，具体来说，根据所述影响所述推荐模型结构的超参数，更新推荐模型的结构；将反馈行为数据作为训练样本数据输入更新后的推荐模型以重新训练所述更新后的推荐模型。

例如深度神经网络模型的层数为9527层，这个9527层就是会影响该推荐模型的结构的超参数，若这个最优超参数组合中包含了此类参数，那么可以根据该超参数对推荐模型进行更新并重新训练该推荐模型。

本发明实施例还提供了一种搜索关键词的推荐方法，参照图5A所示的流程图，该方法包括如下步骤：

S51、确定待推荐的至少两个候选搜索关键词；

例如用户在点击搜索框时，推荐系统会为该用户推荐部分搜索关键词 (query词)。在推荐系统处理时，需要预先确定出一系列的待推荐的候选搜索关键词，这些关键词的选取，可以根据用户所在的地理信息、用户查看或购买的历史行为数据、用户设置的偏好信息等等中的一项或多项得到。

S52、获取关键词推荐模型的当前最优超参数组合；

获取关键词推荐模型的当前最优超参数组合的方法参考前述实施例的说明。

在一个实施例中，在电子商务交易系统场景下，其推荐系统可使用前述方法得到商品候选搜索关键词模型当前所需的最优超参数组合，该超参数组合的一个例子中，包含下述参数中的至少两个：用于限制同一类目下召回商品数量的杰卡德距离和编辑距离、用于过滤相似商品的相似距离、展示商品不同类目的数量类目数。

当然，上述超参数的组合仅为示例，本发明实施例对于最优超参数组合中包含何种具体的超参数并不做限定，可以根据系统的需要预先设置。

S53、通过所述关键词推荐模型和所述最优超参数组合，对至少两个候选搜索关键词进行评分；

S54、按照评分的高低顺序，选择从最高评分开始预设数量的候选搜索词作为推荐的搜索关键词，并返回所述推荐的搜索关键词；

上述步骤S52中的最优超参数组合采用前述机器学习模型超参数的学习方法得到。

在另外的实施例中，本发明实施例还提供了一种多媒体的推荐方法，参照图5B所示的流程图，该方法包括如下步骤：

S51′、确定待推荐的至少两个候选多媒体类型；

S52′、获取多媒体推荐模型的当前最优超参数组合；

S53′、通过多媒体关键词推荐模型和最优超参数组合，对候选多媒体类型的用户偏好指数进行评分；

S54′、按照偏好指数的评分的高低，选择从最高评分值开始预设数量的多媒体类型作为推荐的多媒体类型；

S55′从推荐的多媒体类型对应的多媒体库中，选择至少一个多媒体推送给用户；

类似地，上述最优超参数组合也可采用前述机器学习模型超参数的学习方法得到。

上述方法中的多媒体类型，可以是多媒体的主题类型，或者多媒体的格式类型、或者多媒体的风格类型等等。

以前述视频素材图的推荐场景举例来说，系统可根据素材图推荐模型和最优超参数组合，对视频素材库中的各素材图片的用户偏好指数进行评分，选取其中评分最高的素材图片，作为待推荐的视频的素材图片推送给用户。

为了更好地说明本发明实施例提供的上述超参数的学习方法、智能推荐的方法和搜索关键词的推荐方法，下面结合推荐系统的两个具体的实施例进行详细说明。

实施例一：

在实施例一中，该推荐系统的架构参照图6所示，在该系统中，包括：推荐模型模块、候选池模块、反馈收集模块、在线学习模块和超参数优化模块。

上述架构中，候选池模块和/或反馈收集模块可集成于同一模块中，超参数优化模块也可以集成于在线学习模块中，上述架构图仅为多种可能实现方式的一种，能够实现本发明实施例的各项方法即可，不局限于上述架构图中的形式。

在推荐系统的架构中，各模块的功能简述如下：

推荐模型模块：用于以用户反馈行为数据作为样本对推荐模型进行训练，并从候选池模块中选取出至少两个候选对象，并通过推荐模型以及推荐模型的超参数组合，对候选对象进行评分，根据评分结果返回推荐结果。

在线学习模块：用于根据反馈收集模块收集的用户反馈行为数据，从预设的超参数连续区间中，确定所述机器学习模型的超参数组合所在的最优超参数子区间；以及将推荐模型的超参数组合输出给推荐模型模块

例如，该模块从反馈收集模块获取用户的实时的反馈行为数据，并通过 Bandit算法对超参数组合所在的子区间进行探索与利用，同时利用超参数优化模块探索出其中包含的最优超参数组合，使得整个推荐系统能够更快速地找到最优超参数组合。

超参数优化模块：用于在所述最优超参数子区间中，选取出最优超参数组合作为所述推荐模型的超参数组合，并返回至所述在线学习模块。

超参数优化模块具有超参数优化的能力，该超参数优化能力能够从最优超参数子区间中选取一个最优点(即一个具体的超参数组合)，然后由在线学习模块返回给推荐模型进行使用。

反馈收集模块：用于收集推荐模型的用户反馈行为数据；

反馈收集模块收集到用户的行为反馈数据后，可对行为反馈数据进行必要的处理，解析成推荐模型和在线学习模块能够支持的数据格式等，以便推荐模型训练以及在线学习模块使用。处理过程包括：数据清洗(去掉错误或者重复的数据)、数据归一化(例如不同平台产生的用户行为日志数据可能不一样，需要做归一化处理)等等。

侯选池模块：用于存储待推荐的候选对象的数据；

在具体实施时，侯选池模块可以是用于存储推荐候选对象的数据库。可支持一些简单的条件查询功能，从而使得推荐模型能召回特定的候选对象集合，而非全部数据集，进而降低对待推荐对象进行打分排序的压力，提升推荐系统的整体性能。

下面分别对上述几个模块的工作流程进行简单说明。

推荐模型模块的功能包括：根据用户行为数据训练模型，并以在线学习模块输出的超参数组合作为推荐模型的超参数，对每一个候选对象进行打分。同时，该模块会根据最新的用户反馈行为数据，对候选对象的特征进行更新以及重新训练推荐模型，从而使得推荐系统能够实时捕获用户兴趣的变化。推荐模型模块的工作流程图参照图7所示。

图7所示的步骤包括：

1)训练模型；先利用历史数据预先训练一个推荐模型M，在本发明实施例中，对模型类型的选择没有限制，可以是任意机器学习模型，比如：决策树、逻辑回归、深度神经网络等等。

2)给候选对象打分：在当前时刻t下，针对每一个候选对象a，推荐模型 M会对其预测一个分数S_a。

3)判断是否有用户反馈行为数据：如果有反馈行为数据，则继续执行，否则直接结束本流程。

4)收集用户反馈行为数据；本模块会以反馈收集模块的输出作为输入，每隔一段时间后，会对推荐模型候选对象的特征进行更新并重新训练推荐模型。

推荐模型模块能够充分利用历史数据训练推荐模型，并且对模型的类型没有限制，可支持任意机器学习或深度学习模型，具有很高的普适性。同时，推荐模型的使用也能大幅度提升系统的推荐精准度。

另外，利用最新的用户反馈数据对特征进行更新，并且重新训练推荐模型，使得推荐模型能够实时捕获用户兴趣的变化。

在线学习模块的功能包括：以反馈收集模块输出的用户实时反馈数据作为输入，并利用连续区间bandit算法探索得到当前状态下一个最优超参数子区间，然后再利用超参数优化模块从最优超参数子区间里计算得到一个最优值，并将该值最为最优超参数返回给推荐模型，供模型预测打分使用。详细流程参照图 8所示，包括下述具体步骤：

1)获取用户反馈行为数据。从反馈收集模块获取得到当前实时用户反馈行为数据，并对数据进行处理，转化成数值类型，记作Y。

2)更新子区间数据。超参数连续区间自身及子区间按照树结构进行存储，孩子节点所对应的区间为父亲节点所对应区间的子区间。对于子区间(s_n,e_n)到树结构根节点的路径上的所有节点n，按照如下公式进行更新：

T_n←T_n+1

并对树结构所有节点n，按照置信区间上界方法进行更新：

上述

表示该子区间的收益均值；

上述U_n是该子区间收益的置信区间上界，即该子区间可能到达的最高收益值；

上述B_n是该子区间的收益预估值，通过第6步中的公式进行计算，在U_n的基础上考虑更多的全局信息计算得到的；

上述t是当前总的实验轮数，h是节点n在树结构中的深度，T_n表示节点n对应的子区间被选中的次数。

具体的遍历路径的示意图参照图9所示，从最上端的根节点开始逐层向下遍历，第二层中根据两个节点对应子区间的收益预估值的大小，选择了收益预估值较大的右节点(图9中标注B_h,i的节点)，从该节点往下继续遍历第三层，再次比较左节点和右节点对应子区间的收益预估值即B_h+1，2i-1和B_h+1，2i的大小，选择了收益预估值较大的左节点(图9中标注B_h+1，2i-1的节点)，以此类推，最终到达了叶子节点，该节点对应的子区间为(H_n，I_n)，最终从该(H_n，I_n)中选出最优点X_n即最优超参数组合。

X_n是高维空间的点，代表着一组超参数组合(包含多个超参数)，在具体实施时，这个高维空间的点，可以采用矩阵的方式来表示，举例来说，假设一个最优超参数组合中包含三个超参数，比如采用矩阵{[0.0,0.5,1.5]}和矩阵 {[1.0,2.0,3.0]}来表示该超参数组合，则0表示该最优超参数组合中第一个超参数对应区间的起点，1.0表示第一超参数对应区间的结束点；0.5表示该最优超参数组合中第二个超参数对应区间的起点，2.0表示第二个超参数对应区间的结束点，以此类推，1.5表示第三个超参数对应区间的起点，3.0表示第三个超参数对应区间的结束点。

4)将最优超参数子区间输出到超参数优化模块。即将评估预测步骤选择出来的最优超参数子区间以及之前累积的用户行为数据输出到超参数优化模块。

5)从超参数优化模块获取最优值。超参数优化模块利用超参数优化方法，从最优超参数子区间中选取得到最优的数据值X，并返回给在线学习模块。

6)更新推荐模型内部状态：对当前选择的叶子节点n_t进行分裂，在其下一层增加两个孩子节点n_t|left和n_t|right，分别对应区间(s_n,X)和(X,e_n)。并且

并且从叶子节点开始回溯遍历整个树结构，并按照如下公式更新B_n：

B_n←min{U_n,max{B_n|left,B_n|right}}

在在线学习模块中，采用树结构对连续区间进行划分，孩子节点是父亲节点的子区间，同时在统计数据更新过程中，叶子节点的统计数据会用于更新它的所以祖先节点(父节点，父节点的上层节点等等)。这种树结构的优势在于父亲节点共享所有孩子节点的统计数据，这就大大加速了节点统计数据的收敛速度。

并且，树结构的构建是动态的，随着系统在线上运行时间的推移，先前的叶子节点会不断分裂，分裂成更小的子区间，进而也使得树结构的深度越来越深，当前叶子节点对应的子区间会越来越小。这种动态分裂的优势在于随着系统在线上不断运行，最优超参数的探索区间会逐步缩小，从而最终收敛到最优的超参数值。

本在线学习模块采用置信区间上界方法对树结构里每个节点进行评估。该方法是bandit算法中常见的价值评估方法，该方法的优势是能够很好的平衡探索和利用，使得系统对于未知情况能保持探索的能力，但又能很好的利用之前探索的结果，从而使得系统累积收益最高。本实施例采用了Bandit算法，使得推荐系统具有了在线学习能力，并且能对未知状态进行探索，从而使得推荐系统能够更加多元化的探索用户兴趣并且实时捕获用户兴趣的变化。

在线学习模块可以直接输出超参数组合，供推荐模型使用。例如在超参数组合中包含：para_jaccard_distance(杰卡德距离，用于限制同一类目下召回商品数量)、para_common_distance(编辑距离，和杰卡德距离一样，也是用于限制同一类目下召回商品数量)、cate_distinct_cnt(相似距离，用于过滤相似商品，增加展示商品多样性)、para_edit_distance(类目数，展示商品不同类目的数量，用于控制展示商品多样性)这四个超参数。

超参数优化模块的功能包括：超参数优化模块以数据区间[X_s,X_e]和部分数据样本{(x₀,y₀),...,(x_n,y_n)}作为输入，其中数据样本满足f(x)＝y，函数f是未知函数。超参数优化模块通过预设的超参数优化算法，利用数据样本对未知函数f进行拟合，从而在区间[X_s,X_e]里找到函数f的极值点

详细流程如图10所示，包括下述步骤：

1)获取数据区间：从在线学习模块获取得到当前最优超参数子区间。

2)获取数据样本：从在线学习模块获取得到用户反馈数据，并构建生成部分数据样本。

3)计算最优值：根据黑盒优化算法，计算得到当前区间里的极值点。

上述流程能够支持任意的黑盒优化算法，具有较高的普适性，可以结合具体问题，使用相应的优化算法，从而使得系统性能达到最优。另一方面，仅在在线学习模块给出的最优超参数子区间内寻找极值点，相比于在整个区间上进行优化，也大大降低了性能开销。

反馈收集模块的功能包括：收集用户反馈的行为数据，并对数据进行相应的格式解析以供在线学习模块和推荐模型使用。具体流程参照图11所示，包括下述步骤：

1)收集用户反馈：从前端交互页面获取得到用户反馈行为数据；

2)判断用户是否有反馈：如果用户有反馈行为则继续执行，否则直接结束；

3)处理反馈行为数据：对用户反馈的行为数据进行处理，解析成下游模块 (推荐模型和在线学习模块)可以支持的数据格式。

上述流程能够实时收集用户的反馈行为，并且对数据进行预处理。实时处理数据的优势在于能够及时捕获用户兴趣点的变化，从而提升推荐系统整体性能。

侯选池模块中包含侯选池，侯选池即支持条件查询的数据库。比如，以电子商务交易系统的场景为例，如果用户所在地理位置是北京，那么可以从侯选池中获取在北京这个地理区域发布的商品。具体流程参照图12所示，包括下述步骤：

1)查询条件解析；

2)从数据库获取符合条件的数据。

侯选池模块能够支持条件查询，推荐模型可以通过一些组合条件查询得到特定的候选数据集，这样大大降低了推荐模型打分排序的压力，提升了系统的整体性能。

实施例二：

在实施例二中，一种针对购物网站提供搜索关键词的推荐系统，用户点击该购物网站网页或者APP时，参照图13所示的界面示意图中“搜索发现”栏，推荐系统会为该用户推荐部分搜索关键词，为用户推荐搜索关键词的目的可挖掘出用户潜在的购买需求，增加用户的使用粘性并提高总体的商品成交数量，同时也节约用户浏览的时间，方便用户快速找到自身感兴趣和真正需要的商品。

推荐系统的架构示意图参照图14所示，该系统包括：反馈收集模块、模型训练模块、推荐模型、候选池、最优超参数组合学习模块(相当于集成了在线学习模块和在线学习模块)。其中：

模型训练模块，用于训练推荐模型。

推荐模型，用于根据训练好的模型对用户的需求进行实时预测并推荐具有较佳效果的推荐对象即Query词给用户。

最优超参数组合学习模块，用于使用连续区间Bandit算法探索得到最优超参数子区间，然后再使用贝叶斯优化方法在最优超参数子区间中找出最优超参数组合，并输出给推荐模型；

反馈收集模块，例如可作为基于可视化、组件化的实时数据处理平台，用于对用户反馈行为数据进行实时处理，供模型训练模块和最优超参数组合学习模块使用。

候选池，提供数据存储和数据查询功能，可支持多种存储方式，例如可采用图存储的方式。

采用本发明实施例提供的超参数的学习、智能推荐、关键词推荐方法，可使得系统的推荐效果得到较好的提升，例如在搜索关键词这个场景下，相对于现有技术而言，访客数(UV)参数可提升5.68％，商品浏览量(PV)参数可提升5.53％，在UV使用率、引导笔数、引导金额等参数上会有两位数的提升。

基于同一发明构思，本发明实施例还提供了一种机器学习模型超参数的学习装置、智能推荐装置、搜索关键词的推荐装置、多媒体的推荐装置、推荐系统和信息处理设备，由于这些装置和客户端所解决问题的原理与前述超参数的学习方法、智能推荐方法、搜索关键词的推荐方法和多媒体的推荐方法相似，因此该装置、系统和设备的实施可以参见前述方法的实施，重复之处不再赘述。

本发明实施例提供的一种机器学习模型超参数的学习装置，参照图15所示，包括：

获取模块151，用于获取推荐模型的用户反馈行为数据；

区间确定模块152，用于根据所述用户行为反馈数据，从预设的超参数连续区间中，确定所述机器学习模型的超参数组合所在的最优超参数子区间；

超参数选取模块153，用于在所述最优超参数子区间中，选取出最优超参数组合作为所述机器学习模型的超参数。

本发明实施例提供的一种智能推荐装置，参照图16所示，包括：

确定模块161，用于确定待推荐的至少两个候选对象；

超参数组合获取模块162，用于获取推荐模型当前最优超参数组合；

评分模块163，用于通过所述推荐模型以及所述当前最优超参数组合，对所述至少两个候选对象进行评分；

推荐模块164，用于基于所述至少两个候选对象的评分值，向用户推荐所述候选对象；

所述最优超参数组合采用前述机器学习模型超参数的学习方法得到。

本发明实施例提供一种搜索关键词的推荐装置，参照图17所示，包括：

候选关键词确定模块171，用于确定待推荐的至少两个候选搜索关键词；

第一获取模块172，用于获取关键词推荐模型的当前最优超参数组合；

第一评分模块173，用于通过所述关键词推荐模型和所述最优超参数组合，对至少两个候选搜索关键词进行评分；

搜索关键词推荐模块174，用于按照评分的高低顺序，选择从最高评分开始预设数量的候选搜索词作为推荐的搜索关键词，并返回所述推荐的搜索关键词；

本发明实施例提供的一种多媒体的推荐装置，参照图18所示，包括：

确定模块181，用于确定待推荐的至少两个候选多媒体主题类型；

第二获取模块182，用于获取多媒体推荐模型的当前最优超参数组合；

第二评分模块183，用于通过所述关键词推荐模型和所述最优超参数组合，对所述候选多媒体主题类型的用户偏好指数进行评分；

选择模块184，用于按照所述偏好指数的评分的高低，选择从最高评分值开始预设数量的多媒体主题类型作为推荐的多媒体主题类型；

推荐模块185，用于从所述推荐的多媒体主题类型对应的多媒体库中，选择至少一个多媒体推送给用户；

上述最优超参数组合，同样可采用前述机器学习模型超参数的学习方法得到。

本发明实施例提供的一种推荐系统，参照图19所示，包括：

反馈收集模块191，用于收集推荐模型的用户反馈行为数据；

推荐模型模块192，用于以用户反馈行为数据作为样本对推荐模型进行训练，并从候选池中选取出至少两个候选对象，并通过所述推荐模型以及推荐模型的超参数组合，对所述候选对象进行评分，根据评分结果返回推荐结果；

候选池193，用于存储待推荐的候选对象的数据；

在线学习模块194，用于根据反馈收集模块191收集的用户反馈行为数据，从预设的超参数连续区间中，确定所述机器学习模型的超参数组合所在的最优超参数子区间；以及将推荐模型的超参数组合输出给推荐模型模块192；

超参数优化模块195，用于在所述最优超参数子区间中，选取出最优超参数组合作为所述推荐模型的超参数组合，并返回至所述在线学习模块194。

本发明实施例提供的一种信息处理设备，包括：存储器和处理器；其中，所述存储器存储有计算机程序，所述程序被处理器执行时能够实现前述机器学习模型超参数的学习方法，或实现前述智能推荐的方法，或实现如前述搜索关键词的推荐方法。

本发明实施例提供的一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时能够实现前述机器学习模型超参数的学习方法，或实现如前述的智能推荐的方法，或实现如前述的搜索关键词的推荐方法。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/ 或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种机器学习模型超参数的学习方法，其特征在于，包括：

获取机器学习模型的用户反馈行为数据；

2.如权利要求1所述的方法，其特征在于，根据所述用户反馈行为数据，确定超参数组合所在的最优超参数子区间，包括：

将用户反馈行为数据输入所述机器学习模型；

3.如权利要求2所述的方法，其特征在于，预设的超参数连续区间采用树结构；所述树结构的根节点为所述连续区间，且孩子节点为父节点对应区间的子区间；

4.如权利要求3所述的方法，其特征在于，在所述最优超参数子区间中，选取出最优超参数组合之后，还包括：

5.如权利要求1-4任一项所述的方法，其特征在于，在所述最优超参数子区间中，选取出最优超参数组合，具体包括：

6.如权利要求1-4任一项所述的方法，其特征在于，预设的超参数连续区间通过下述方式得到：

在选取出最优超参数组合后，所述方法还包括：

7.一种智能推荐的方法，其特征在于，包括：

确定待推荐的至少两个候选对象；

获取推荐模型当前最优超参数组合；

所述最优超参数组合采用如权利要求1-6任一项所述的机器学习模型超参数的学习方法得到。

8.如权利要求7所述的方法，其特征在于，所述确定待推荐的至少两个候选对象，包括下述一种或多种的组合：

9.一种搜索关键词的推荐方法，其特征在于，包括：

确定待推荐的至少两个候选搜索关键词；

获取关键词推荐模型的当前最优超参数组合；

10.如权利要求9所述的方法，其特征在于，所述最优超参数组合包括下述参数中的至少两个：用于限制同一类目下召回商品数量的杰卡德距离和编辑距离、用于过滤相似商品的相似距离、展示商品不同类目的数量类目数。

11.一种多媒体的推荐方法，其特征在于，包括：

确定待推荐的至少两个候选多媒体类型；

获取多媒体推荐模型的当前最优超参数组合；

12.一种机器学习模型超参数的学习装置，其特征在于，包括：

获取模块，用于获取推荐模型的用户反馈行为数据；

13.一种智能推荐装置，其特征在于，包括：

确定模块，用于确定待推荐的至少两个候选对象；

14.一种搜索关键词的推荐装置，其特征在于，包括：

搜索关键词推荐模块，用于按照评分的高低顺序，选择从最高评分开始预设数量的候选搜索词作为推荐的搜索关键词，并返回所述推荐的搜索关键词；

15.一种多媒体的推荐装置，其特征在于，包括：

16.一种推荐系统，其特征在于，包括：

反馈收集模块，用于收集推荐模型的用户反馈行为数据；

候选池模块，用于存储待推荐的候选对象的数据；

17.一种信息处理设备，其特征在于，包括：存储器和处理器；其中，所述存储器存储有计算机程序，所述程序被处理器执行时能够实现如权利要求1-6任一项所述的机器学习模型超参数的学习方法，或实现如权利要求7或8所述的智能推荐的方法，或实现如权利要求9或10所述的搜索关键词的推荐方法，或实现如权利要求11所述的多媒体的推荐方法。

18.一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时能够实现如权利要求1-6任一项所述的机器学习模型超参数的学习方法，或实现如权利要求7或8所述的智能推荐的方法，或实现如权利要求9或10所述的搜索关键词的推荐方法，或实现如权利要求11所述的多媒体的推荐方法。