CN104331459A

CN104331459A - 一种基于在线学习的网络资源推荐方法及装置

Info

Publication number: CN104331459A
Application number: CN201410602477.7A
Authority: CN
Inventors: 王凡; �田�浩; 徐倩; 陈立; 信贤卫; 吴泽衡; 周方圆; 郑德荣
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2014-10-31
Filing date: 2014-10-31
Publication date: 2015-02-04
Anticipated expiration: 2034-10-31
Also published as: CN104331459B

Abstract

本发明实施例公开了一种基于在线学习的网络资源推荐方法及装置，该方法包括：根据用户针对展示的网络资源的反馈日志，对用于推荐网络资源的数据模型进行训练；基于所述数据模型对需要推荐的网络资源按照E&E算法进行打分和推荐；对推荐的网络资源进行展示。本发明实施例以用户的反馈来训练数据模型，实现对数据模型进行快速反复的迭代，能提高推荐策略的反应速度和推荐的准确率。

Description

一种基于在线学习的网络资源推荐方法及装置

技术领域

本发明涉及互联网技术领域，具体涉及一种基于在线学习的网络资源推荐方法及装置。

背景技术

在视频，搜索，影视资源网站，互联网搜索引擎，以及推荐引擎(包括新闻推荐，商品推荐，广告推荐等)等领域，通常遇到的问题是互联网资源较多，但是资源竞争问题决定仅仅只有有限的互联网资源能够得以展现给用户，因此如何选择合适的互联网资源推荐给用户是比较重要的问题。

现有技术中，网络设备向用户推荐互联网资源时，往往是对资源按照用户行为等信息进行权重计算，再根据权重排名选择推荐信息，但是，这种现有的互联网资源推荐过程中，发明人发现存在以下问题：推荐的信息趋于集中和固定，某些新的或冷门的互联网资源因为参照的结果信息的缺失而得不到推荐。

发明内容

有鉴于此，本发明实施例提供一种基于在线学习的网络资源推荐方法及装置，以提高推荐策略的反应速度和推荐的准确率。

第一方面，本发明实施例提供了一种基于在线学习的网络资源推荐方法，包括：

根据用户针对展示的网络资源的反馈日志，对用于推荐网络资源的数据模型进行训练；

基于所述数据模型对需要推荐的网络资源按照E&E算法进行打分和推荐；

对推荐的网络资源进行展示。

第二方面，本发明实施例还提供了一种基于在线学习的网络资源推荐装置，包括：

模型训练单元，用于根据用户针对展示的网络资源的反馈日志，对用于推荐网络资源的数据模型进行训练；

资源推荐单元，用于基于所述数据模型对需要推荐的网络资源按照E&E算法进行打分和推荐；

资源展示单元，用于对推荐的网络资源进行展示。

本发明实施例的技术方案根据用户针对展示的网络资源的反馈日志对数据模型进行训练，基于所述数据模型对需要推荐的网络资源按照E&E算法进行打分、推荐和展示，再根据用户针对展示的网络资源的反馈日志又对数据模型进行训练，依此循环，不断迭代，以用户的反馈来训练数据模型，实现对数据模型进行快速反复的迭代，能提高推荐策略的反应速度和推荐的准确率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对本发明实施例描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据本发明实施例的内容和这些附图获得其他的附图。

图1是本发明实施例一所述的基于在线学习的网络资源推荐方法流程图；

图2是本发明实施例二所述的基于在线学习的网络资源推荐方法流程图；

图3是本发明实施例三所述的基于在线学习的网络资源推荐装置的结构框图。

具体实施方式

为使本发明解决的技术问题、采用的技术方案和达到的技术效果更加清楚，下面将结合附图对本发明实施例的技术方案作进一步的详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。

实施例一

图1是本发明实施例一提供的基于在线学习的网络资源推荐方法流程图，本实施例可适用于对网络资源进行在线推荐的情况，包括但不限于提供网络资源浏览和/或下载的内容提供网站进行网络资源推荐，例如影视推荐、应用程序APP推荐等。该方法可以由配置在服务器中的基于在线学习的网络资源推荐装置来执行，如图1所示，本实施例所述的基于在线学习的网络资源推荐方法包括：

S101、根据用户针对展示的网络资源的反馈日志，对用于推荐网络资源的数据模型进行训练。

本实施例所称的网络资源包括多种类型的在线资源，例如媒体文件(如视频、音乐、图片等)、文档、APP、网站、网上商城的商家或商品和统一资源定位符URL资源、以及婚恋网站或求职网站的会员等。可根据本实施例的技术方案所应用的具体功能和场景进行界定。例如用于影视推荐，则此处网络资源即为该网站的影视资源，用于APP网上商城，则此处网络资源即为APP。

用户反馈日志中包括用户的反馈，具体可包括对网络资源的点击、下载、浏览、在线安装、收藏、评价(例如评论、评分、点赞等)等用户行为信息。需要说明的是，上述示例仅出于示例目的，根据本发明实施例不限于此。

为了进行有针对的用户个性化推荐，作为优选，所述反馈日志还需要包括用户信息，具体地，用户信息可包括用户ID、用户兴趣点以及该兴趣点的权重等信息。

所述反馈日志的获取，可以是通过实时的方式获取，也可按照周期获取或按预设条件获取。

本实施例中所述的数据模型可以包括表格或者<键-值>形式的资源-历史记录、回归/排序模型等。

其中回归/排序模型可包括但不限于线性回归模型、非线性回归模型、Learning To Rank模型、和马尔柯夫决策规则MDP模型等。

需要说明的是，所述数据模型通过增量的方式进行训练，包括实时训练和分批训练。

S102、基于所述数据模型对需要推荐的网络资源按照E&E算法进行打分和推荐。

本实施例所称的E&E算法为Exploration & Exploitaion族算法，包括但不限于ε-greedy算法、置信度上界UCB算法、抽样方法算法、Ranked Bandits算法、Contextual Bandits算法、和Reinforcement Learning算法等诸多算法中的一种算法、或两种以上算法相结合。

本实施例中，基于所述数据模型对需要推荐的网络资源按照E&E算法进行打分和推荐，可以是基于所述数据模型对网络资源采用上述E&E算法中的一种、两种或以上进行打分和推荐，或基于所述数据模型对网络资源采用上述E&E算法中的一种、两种或以上，同其他的非E&E算法相结合进行打分和推荐。

与非E&E算法相比，E&E算法无需事先积累大量数据，能处理冷启动的情况，而且克服了直接由用户收益/展现实现权重计算，或直接根据收益值计算权重而产生的马太效应严重的问题，无法体现资源真实质量，以致多数网络资源没有展示机会。

S103、对推荐的网络资源进行展示，返回S101。

例如对打分最高的网络资源进行展示，或根据打分从高到低排序，对排序靠前的预设数目的网络资源进行展示等。

本操作之后，又可收集用户针对本操作所展示的网络资源的反馈日志，根据该日志对用于推荐网络资源的数据模型进行训练，依此循环，不断迭代和根据迭代后的数据模型进行打分和推荐。

本实施例的技术方案根据用户针对展示的网络资源的反馈日志对数据模型进行训练，基于所述数据模型对需要推荐的网络资源按照E&E算法进行打分、推荐和展示，再根据用户针对展示的网络资源的反馈日志又对数据模型进行训练，依此循环，不断迭代，以用户的反馈来训练数据模型，实现对数据模型进行快速反复的迭代，能提高推荐策略的反应速度和推荐的准确率。

实施例二

图2是本发明实施例二所述的基于在线学习的网络资源推荐方法流程图，如图2所示，本实施例所述的基于在线学习的网络资源推荐方法包括：

S201、获取用户对展示的网络资源的反馈日志。

其中所述反馈日志包括用户行为信息。

获取用户对展示的网络资源的反馈日志可采用多种方式。例如通过实时获取，即当用户对展示的网络资源有预设的操作，包括用户对展示的网络资源进行点击、下载、浏览、在线安装、收藏、评价(例如评论、评分、点赞等)等一种或一种以上预设行为时，实时进行记录。又如按照周期获取，即对前述用户行为的日志进行周期性的提取。

S202、将所述反馈日志进行预处理形成结构化的数据样本。

具体地，本操作可包括：

从所述反馈日志中查询用户的静态属性和当前的动态属性。

其中，所述静态属性可包括用户ID、用户兴趣点以及该兴趣点的权重等信息。动态属性可包括用户对展示的网络资源进行点击、下载、浏览、在线安装、收藏、评价(例如评论、评分、点赞等)等。

计算所述展示的网络资源的预设维度的权值。

例如，预设结构化的数据样本包括点击率维度和下载率维度这两个维度，可用点击次数与展示次数的比值信息作为点击率的权值，可用下载次数与展示次数的比值信息作为下载率的权值。

将用户的静态属性和当前的动态属性，以及所述展示的网络资源在各预设维度的权值，拟合成结构化的收益/损失数据(例如点击/展示，下载/展示等)，作为数据样本。

以点击率维度为例简单说明，例如将用户对展示的网络资源的点击日志根据用户的静态属性分组后，根据组内的点击日志获取各需要推荐的网络资源的点击次数与展示次数的比值，将该比值直接作为收益/损失数据。

当然，该示例是将点击次数与展示次数的比值，直接作为收益/损失数据来进行简单拟合。还可能存在一些复杂的情况，例如需要将点击/展示和下载/展示拟合到一个维度的情况，将下载/展示维度的权重为70％，点击/展示维度的权重为30％，则需要将各维度的权值进行加权拟合成收益/损失数据。

S203、根据所述数据样本对用于推荐网络资源的数据模型进行训练。

所述数据模型通过增量的方式进行训练，包括实时训练和分批训练。

具体的如何根据数据样本对数据模型进行训练，为了描述简单，下面可以收益/损失数据表作为对用于推荐网络资源的数据模型来说明，怎样以增量的方式进行训练。

策略展现	用户点击	网络资源A	网络资源B	网络资源C
					A	0	0:1	0:0	0:0
B	0	0:1	0:1	0:0
					C	0	0:1	0:1	1:1
C	0	0:1	0:1	1:2
					C	0	0:1	0:1	1:3
B	0	0:1	0:2	1:3
					A	1	1:2	0:2	1:3
A	0	1:3	0:2	1:3
					A	1	2:4	0:2	1:3
A	0	2:5	0:2	1:3
					C	0	2:5	0:2	1:4
A	1	3:6	0:2	1:4
					A	0	3:7	0:2	1:4

表一

例如按照上面表一所述，表一中根据网络资源的展现次数和用户对各展现的网络资源的点击次数的比值作为该网络资源的收益/损失数据，网络资源展现时，将“收益/损失”数据中“损失”部分加一，若用户对本次展现的网络资源有点击行为，则同时将“收益/损失”数据中“收益”部分加一，否则“收益/损失”数据中“收益”部分不变。依此进行，不断地对该收益/损失数据表进行增量更新。

当然，上述示例是以收益/损失数据表作为数据模型，采用朴素E&E算法对模型中的网络资源进行推荐的示例，是为了描述方便，具体的数据模型和训练方式不限于此，原理相似。例如。还有一些需要更复杂模型的情况。例如根据用户的历史行为，进行有针对的用户个性化推荐，例如三个或三类用户对各类电影的点击数与展示数的比值如下表表二所示，则需要基于用户特征的回归模型进行训练和推荐(如下表表二所示)。

用户\电影	A	B	C
				第一用户	75％	10％	20％
第二用户	25％	0％	30％
				第三用户	30％	5％	25％

表二

S204、基于所述数据模型对需要推荐的网络资源按照E&E算法进行打分和推荐。

本操作与实施例一的S102相同，为了简单说明问题，下面以朴素的E&E算法来举例说明本步骤的操作。

为了方便描述，下面还是以收益/损失数据表作为数据模型，来说明基于所述数据模型对需要推荐的网络资源按照E&E算法进行打分和推荐的方法。例如，现有新的网络资源A,B,C，具体的展示策略如表三所示，其中，进行数据模型训练参考的是用户对展示的网络资源的点击，表中比值为点击次数与展示次数的比值。

策略展现	用户点击	网络资源A	网络资源B	网络资源C
					A	0	0:1	0:0	0:0

B	0	0:1	0:1	0:0
					C	0	0:1	0:1	1:1
C	0	0:1	0:1	1:2
					C	0	0:1	0:1	1:3
B	0	0:1	0:2	1:3
					A	1	1:2	0:2	1:3
A	0	1:3	0:2	1:3
					A	1	2:4	0:2	1:3
A	0	2:5	0:2	1:3
					C	0	2:5	0:2	1:4
A	1	3:6	0:2	1:4
					A	0	3:7	0:2	1:4

表三

两部电影B,C，已经有一定次数展现，新电影A上市，具体的展示策略如表四所示，其中，进行数据模型训练参考的是用户对展示的网络资源的点击，表中比值为点击次数与展示次数的比值。

表四

两部电影A,B，已经有一定次数展现后，新电影C上市，具体的展示策略如表五所示，其中，进行数据模型训练参考的是用户对展示的网络资源的点击，表中比值为点击次数与展示次数的比值。

表五

由表三可知，对于新的网络资源A,B,C，E&E算法会首先给以相同的展示概率，首先对这些新的网络资源依次展示，经过三次展示以后，根据点击次数与展示次数的比值，以及置信度和/或随机因子等进行打分后，可知网络资源C的打分最高，此后对C继续进行一定次数的展示和打分后，B的打分高于C，对B进行展示，再进行打分，使A得以展示。

表三中新电影A,B,C同时推荐时实际点击率分别为：50％，5％，25％。由上表可知，通过E&E算法进行打分和推荐后，经过如表三所示的13次展示后的结果趋近于该实际点击率，数据收敛比较快。

若采用的是贪心算法进行打分和推荐，经过第一轮对这些新的网络资源依次展示(如表三中前三行)后，由于网络资源A在第一次展示没被点击，其后网络资源C由于第一次展示即被点击，因此按照贪心算法网络资源C的评分一直较网络资源A高，产生马太效应严重，致使网络资源A没有合理的展现机会。

同样，由表四和表五可知，采用E&E算法进行打分和推荐，使得新电影能有合理的机会展示(例如表四中的新电影A和表五中的新电影C)，同时，E&E算法根据用户对推荐的电影的反馈及时调整推荐策略，具有良好的时效性。

综上，由上述表三、表四、表五可知，由于本实施例采取的E&E算法进行打分和推荐，无需事先积累大量数据，能处理冷启动的情况(例如表三中由无原始数据开始进行推荐)，而且克服了直接由用户收益/展现实现权重计算(例如表四中给予新电影A一定机会的推荐，表五中给予新电影C一定机会的推荐)，避免了直接收收益值计算权重而产生的马太效应严重的问题，避免了无法体现资源真实质量，以致多数网络资源没有展示机会，由于E&E算法能对当前的决策的试探内容进行快速反应，因此能更快地收敛(例如表三中新电影A,B,C同时推荐时实际点击率分别为：50％，5％，25％，而基于E&E算法进行的上述展示策略，经过很少的次数的展示就接近该比例了)，从而推荐策略的反应速度和推荐的准确率较高。

又如，反馈日志中或网络资源中有如下可用特征：知道电影C和电影A风格比较接近、知道电影B的偏好人群和电影A的偏好人群不同、有电影的泛化特征等，则优选为基于图模型或预估模型进行训练和推荐。

再如，网络资源存在时序性：例如看完电影B的用户很有可能会去看电影C，看完电影A的用户很大可能直接离开等，则优选为基于马尔柯夫决策规则MDP模型进行训练和推荐。

需要说明的是，上述示例仅出于示例目的，根据本发明实施例不限于此。

S205、对推荐的网络资源进行展示，返回S201。

本操作与实施例一的S103相同，在此不作赘述。

本实施例在实施例一的基础之上，进一步具体公开了根据用户的反馈日志对数据模型进行训练的一种实施方式，并以示例形式通过表格展现基于所述数据模型对需要推荐的网络资源按照E&E算法进行打分、推荐和反复迭代的效果，本实施例的技术方案能提高推荐策略的反应速度和推荐的准确率。

实施例三

图3是本发明实施例三所述的基于在线学习的网络资源推荐装置的结构框图，如图3所示，本实施例所述的基于在线学习的网络资源推荐装置包括：

模型训练单元301，用于根据用户针对展示的网络资源的反馈日志，对用于推荐网络资源的数据模型进行训练；

资源推荐单元302，用于基于所述数据模型对需要推荐的网络资源按照E&E算法进行打分和推荐；

资源展示单元303，用于对推荐的网络资源进行展示。

进一步地，所述资源推荐单元302中按照E&E算法进行打分和推荐具体包括：按照ε-greedy算法、置信度上界UCB算法、抽样装置算法、Ranked Bandits算法、Contextual Bandits算法、和Reinforcement Learning算法中的一种算法、或两种以上算法相结合，进行打分和推荐。

进一步地，所述模型训练单元301具体包括：

反馈日志获取子单元3011，用于获取用户对展示的网络资源的反馈日志，其中所述反馈日志包括用户行为信息；

反馈日志预处理子单元3012，用于将所述反馈日志进行预处理形成结构化的数据样本；

样本训练子单元3013，用于根据所述数据样本对用于推荐网络资源的数据模型进行训练。

进一步地，所述反馈日志获取子单元3011具体用于：

通过实时的方式或按照周期获取用户对推荐的网络资源的反馈日志。

进一步地，所述反馈日志预处理子单元3012具体用于：

从所述反馈日志中查询用户的静态属性和当前的动态属性；

计算所述展示的网络资源的预设维度的权值；

将用户的静态属性和当前的动态属性，以及所述展示的网络资源在各预设维度的权值，拟合成结构化的收益/损失数据，作为数据样本。

进一步地，所述用户行为信息包括对网络资源的点击、下载和/或浏览。

进一步地，所述反馈日志还包括用户信息。

进一步地，所述用户信息包括用户ID、用户兴趣点以及该兴趣点的权重。

进一步地，所述数据模型为线性回归模型、非线性回归模型、Learning ToRank模型、或马尔柯夫决策规则MDP模型。

本实施例提供的基于在线学习的网络资源推荐装置可执行本发明实施例一和实施例二所提供的基于在线学习的网络资源推荐方法，具备执行方法相应的功能模块和有益效果。

以上实施例提供的技术方案中的全部或部分内容可以通过软件编程实现，其软件程序存储在可读取的存储介质中，存储介质例如：计算机中的硬盘、光盘或软盘。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种基于在线学习的网络资源推荐方法，其特征在于，包括：

对推荐的网络资源进行展示。

2.根据权利要求1所述的方法，其特征在于，按照E&E算法进行打分和推荐的操作具体包括：按照ε-greedy算法、置信度上界UCB算法、抽样方法算法、Ranked Bandits算法、Contextual Bandits算法、和Reinforcement Learning算法中的一种算法、或两种以上算法相结合，进行打分和推荐。

3.根据权利要求1或2所述的方法，其特征在于，根据用户针对展示的网络资源的反馈日志，对用于推荐网络资源的数据模型进行训练的操作具体包括：

获取用户对展示的网络资源的反馈日志，其中所述反馈日志包括用户行为信息；

将所述反馈日志进行预处理形成结构化的数据样本；

根据所述数据样本对用于推荐网络资源的数据模型进行训练。

4.根据权利要求3所述的方法，其特征在于，获取用户对推荐的网络资源的反馈日志的操作具体包括：

5.根据权利要求3所述的方法，其特征在于，将所述反馈日志进行预处理形成结构化的数据样本的操作具体包括：

从所述反馈日志中查询用户的静态属性和当前的动态属性；

计算所述展示的网络资源的预设维度的权值；

6.根据权利要求3所述的方法，其特征在于，所述用户行为信息包括对网络资源的点击、下载和/或浏览。

7.根据权利要求3所述的方法，其特征在于，所述反馈日志还包括用户信息。

8.根据权利要求7所述的方法，其特征在于，所述用户信息包括用户ID、用户兴趣点以及该兴趣点的权重。

9.根据权利要求1或2所述的方法，其特征在于，所述数据模型为线性回归模型、非线性回归模型、Learning To Rank模型、或马尔柯夫决策规则MDP模型。

10.一种基于在线学习的网络资源推荐装置，其特征在于，包括：

资源展示单元，用于对推荐的网络资源进行展示。

11.根据权利要求10所述的装置，其特征在于，所述资源推荐单元中按照E&E算法进行打分和推荐具体包括：按照ε-greedy算法、置信度上界UCB算法、抽样装置算法、Ranked Bandits算法、Contextual Bandits算法、和Reinforcement Learning算法中的一种算法、或两种以上算法相结合，进行打分和推荐。

12.根据权利要求11或12所述的装置，其特征在于，所述模型训练单元具体包括：

反馈日志获取子单元，用于获取用户对展示的网络资源的反馈日志，其中所述反馈日志包括用户行为信息；

反馈日志预处理子单元，用于将所述反馈日志进行预处理形成结构化的数据样本；

样本训练子单元，用于根据所述数据样本对用于推荐网络资源的数据模型进行训练。

13.根据权利要求12所述的装置，其特征在于，所述反馈日志获取子单元具体用于：

14.根据权利要求12所述的装置，其特征在于，所述反馈日志预处理子单元具体用于：

从所述反馈日志中查询用户的静态属性和当前的动态属性；

计算所述展示的网络资源的预设维度的权值；