CN112765339A

CN112765339A - 一种基于强化学习的个性化图书推荐方法及系统

Info

Publication number: CN112765339A
Application number: CN202110083463.9A
Authority: CN
Inventors: 王新华; 王雨辰; 郭磊; 姜浩然; 徐长棣; 刘方爱
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2021-01-21
Filing date: 2021-01-21
Publication date: 2021-05-07
Anticipated expiration: 2041-01-21
Also published as: CN112765339B

Abstract

本公开提供了一种基于强化学习的个性化图书推荐方法及系统，所述方案将分层强化学习模型引入数字图书馆的图书推荐任务中，在该任务中，首先对基本推荐模型进行了预训练，然后设计了一个序列修改模块，以过滤掉可能导致该书推荐错误的噪声；同时，为了减少稀疏性问题的影响，通过基于聚类的策略进一步增强了分层强化学习模型，在预训练网络和分层增强网络之间添加了聚类，以便分层增强网络可以更好地分析数据。

Description

一种基于强化学习的个性化图书推荐方法及系统

技术领域

本公开属于智能数字图书馆技术领域，尤其涉及一种基于强化学习的个性化图书推荐方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

数字图书馆作为帮助用户获得专业知识和提高其专业水平的最重要方法之一，在许多大学中都受到了广泛的关注。许多大学已经建立了自己的数字图书馆，其数字资源少则上万，多则上百万。虽然数字图书馆比传统图书馆更易于使用和管理。但从如此庞大的馆藏中找到所需的资源(例如书籍，报告和期刊)对用户来说是一个巨大的挑战。为了应对这一挑战，我们使用了推荐系统解决这个挑战，该系统可以利用用户的历史记录来帮助他们快速发现有趣且高质量的信息。

数字图书馆中的图书推荐任务是在时间t+1处向一组用户提供图书，这些用户的历史图书借阅记录在时间t之前给出。用户在数字图书馆中的借阅记录为我们提供了一种学习其个人兴趣的有效方法。例如，如果用户借了很多与数学有关的书，我们可以推断出他正在学习数学，因此，我们可以向他推荐与数学有关的书籍。

发明人发现，当前有关此任务的研究的工作集中在开发推荐算法，这些算法可以以个性化的方式推荐书籍。但他们忽略了校园图书推荐中的重要因素，即噪声数据可能会误导推荐算法。例如，学习计算机科学和技术的用户可能从图书馆借了很少的心理学书籍用于公共选修课或其他用户。向他/她推荐书籍时，我们应主要侧重于推荐与计算机科学相关的书籍，而忽略这些心理书籍的影响。而且，上述所有方法都忽略了用户借阅记录是非常稀疏的，即用户在大学期间只能借少量的图书，这导致学习到的用户兴趣模型不可靠。

发明内容

本公开为了解决上述问题，提供了一种基于强化学习的个性化图书推荐方法及系统，所述方案将分层强化学习框架引入到图书推荐任务中，同时提出一种基于聚类的方法来增强层强化学习框架处理用户交互稀疏性的能力，有效提高了图书推荐的合理性。

根据本公开实施例的第一个方面，提供了一种基于强化学习的个性化图书推荐方法，包括：

获取用户历史图书借阅数据，构建用户借书序列；

构建基于聚类的分层强化学习网络模型，将所述用户借书序列输入预训练的网络模型中，输出推荐图书的预测结果；

其中，所述基于聚类的分层强化学习网络模型的训练过程包括：利用所述用户借书序列对基础推荐模型进行训练，利用聚类模型对获得的图书特征进行聚类；基于聚类后的图书特征，利用分层强化学习模型修改用户借书序列；将修改后的用户借书序列输入到基本推荐模型中，并获得预测结果；迭代上述步骤，直至满足迭代终止条件。

进一步的，所述基于聚类的分层强化学习网络模型包括基础推荐模型、序列修改模型和聚类模型。

进一步的，所述基础推荐模型通过基于注意力的神经网络对用户和图书的偏好进行建模，在表示用户的借书序列时通过引入注意力机制，对用户借书序列中的每个元素添加一个关注因子，来表明用户对每本书的兴趣。

进一步的，所述序列修改模型基于分层强化学习网络实现，通过分层强化学习网络过滤掉用户借书序列中存在误导推荐的噪声。

进一步的，利用所述分层强化学习网络，将修改用户借书记录的过程描述为层次马尔可夫决策过程，分为两个步骤：高级任务和低级任务；其中，高级任务确定是否需要修改整个序列；如果需要修改，则转入低级任务，低级任务确定是否应删除序列中的各个元素。

进一步的，所述确定是否修改整个序列，是根据序列中每个借用记录的特征向量和目标书的特征向量之间的平均余弦相似度和平均逐元素积来进行判断；所述确定是否应删除序列中的各个元素，是根据当前借用序列与目标书的特征向量之间的余弦相似度进行判断。

进一步的，所述聚类模型采用mini-batch K-means算法对图书特征进行聚类，在进行特征聚类后，通过对基本推荐模型训练的特征和聚类模型聚类后的特征进行映射，实现基本推荐模型中的特征在分层强化学习模型修改为聚类后的特征。

根据本公开实施例的第二个方面，提供了一种基于强化学习的个性化图书推荐系统，包括：

数据获取单元，其用于获取用户历史图书借阅数据，构建用户借书序列；

图书推荐单元，其用于构建基于聚类的分层强化学习网络模型，将所述用户借书序列输入预训练的网络模型中，输出推荐图书的预测结果；

其中，所述基于聚类的分层强化学习网络模型的训练过程包括：利用所述用户借书序列对基础推荐模型进行训练，利用聚类模型对获得的图书特征进行聚类；基于聚类后的图书特征，利用序列修改模型修改用户借书序列；将修改后的用户借书序列输入到基本推荐模型中，并获得预测结果；迭代上述步骤，直至满足迭代终止条件。

根据本公开实施例的第三个方面，提供了一种电子设备，包括存储器、处理器及存储在存储器上运行的计算机程序，所述处理器执行所述程序时实现所述的一种基于强化学习的个性化图书推荐方法。

根据本公开实施例的第四个方面，提供了一种非暂态计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现所述的一种基于强化学习的个性化图书推荐方法。

与现有技术相比，本公开的有益效果是：

(1)本公开所述方案将HRL-NAIS模型引入数字图书馆的图书推荐任务中，在该任务中，首先对基本推荐模型进行了预训练，然后设计了一个序列修改模块，以过滤掉可能导致该书推荐错误的噪声；

(2)为了减少稀疏性问题的影响，本公开所述方案通过基于聚类的策略进一步增强了HRL-NAIS模型，在预训练网络和分层增强网络之间添加了聚类，以便分层增强网络可以更好地分析数据；

本公开附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本公开的实践了解到。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1为本公开实施例一中所述的基于强化学习的个性化图书推荐模型的基本架构；

图2为本公开实施例一中所述的基于强化学习的个性化图书推荐模型的工作流程图；

图3为本公开实施例一中所述的聚类过程示意图。

具体实施方式

下面结合附图与实施例对本公开做进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。实施例一：

本实施例的目的是提供一种基于强化学习的个性化图书推荐方法。

一种基于强化学习的个性化图书推荐方法，包括：

获取用户历史图书借阅数据，构建用户借书序列；

进一步的，为了便于理解，以下对本申请所述方案进行详细说明：

(一)问题定义

令U＝{u₁，u₂，...，u_m}为用户的集合，B＝{b₁，b₂，...，b_n}为图书的集合，其中m为用户的数量，n为图书的数量，对于每个用户u，给出他在图书馆中的借书序列

其中t表示借书的时间，然后，我们可以将图书推荐任务表述为预测用户最感兴趣的下一本书

为了解决现有技术中存在的数据噪声和数据稀疏性挑战，本公开提出了一种基于聚类的分层强化学习网络(CHRL)来解决图书个性化推荐的问题，其主要思想是利用基于聚类的强化学习技术的功能来滤除噪声可能误导推荐算法的互动。如图1所示，展示了所述基于聚类的分层强化学习网络模型的基本架构，该架构由三个组件组成，即基础推荐模型，序列修改模型和聚类模型。更具体地说，基础推荐模型旨在提供书籍推荐的基础模型，该模型通过基于注意力的神经网络对用户和项目的偏好进行建模。序列修改模型旨在进一步过滤掉可能误导基本推荐者的噪声。模型中使用了分层强化学习的方法来完成这个目标。聚类模型通过对所有书籍的嵌入进行聚类以减少数据稀疏性，通过把基础模型学习到的书本特征进行聚类，减少数据稀疏性对分层强化学习模型的影响。

本公开所述的CHRL模型的工作流程如图2所示。首先，预训练过程训练所有用户的借书序列。在预训练之后，聚类模型对将在HRL组件中使用的学习书籍的特征进行聚类。在下一步中，HRL将确定每个用户的借书序列中是否存在噪声并删除相应的噪声。最后，在HRL修改了所有用户序列后，它将重新发送用户借书序列到预训练模型中。预训练模型和HRL将联合训练数据以获得最终推荐结果。我们的模型使用HRL来减少序列中的噪声，并在HRL的基础上添加聚类以解决数据稀疏性问题，从而可以解决学校数字图书馆中的图书推荐问题。

(二)模型构建

(1)基础推荐模型

所述方案中需要根据用户的借书序列E^u来表征其偏好，所以将每本用户借过的书表示为实值低维特征向量

主要表示图书的内容、主题、专业类别等特征，于是每个用户的借书序列就可以表示为

我们将目标图书bⁱ的特征表示为p_i，如果将用户的借书记录表示为q_u，那么就可以将向用户推荐图书的概率计算为：

与HRL-NAIS一样，我们同样使用了Neural attentive item similarity model(NAIS)作为我们的基础模型，并且在表示序列q_u的特征时，我们使用了注意力机制。我们在q_u序列中为每个元素p_t ^u添加了一个关注因子，它可以更清楚地表明用户对每本书的兴趣。

(2)聚类模型

由于书籍数据稀疏，因此如果我们直接在分层强化学习模型中使用每本书的特征，分层强化学习模型将倾向于修改所有序列并删除每个序列中的所有元素。因此，在基础模型训练之后，我们需要对书籍的特征进行聚类，以使强化学习模型更加稳定。图书的数量非常多，如果我们使用普通的聚类算法进行聚类，会非常困难。所以我们使用了mini-batchK-means算法对书籍数据进行聚类。使用mini-batch K-means算法可以尝试减少计算时间，同时保持数据的准确性。

如果图书馆中有n本书，则在对基本模型进行训练之后，我们可以得到n本书的特征p。但是，由于图书馆中有大量书籍，即n太大，分层强化学习无法很好地处理稀疏数据，因此我们使用了mini-batch K-means算法对将n的书放入k个特征中，其中k比n小得多，如图3所示。在对特征进行聚类之后，对经过基本模型训练的特征和对聚类之后的特征进行映射，然后基本模型中的特征将在分层强化学习模型被修改为聚类后的特征。

(3)分层强化学习模型

本公开所述方案中将修改用户借书记录的过程描述为层次马尔可夫决策过程，分为两个步骤：高级任务和低级任务。高级任务确定是否需要修改整个序列。如果需要修改，则转入低级任务。低级任务确定是否应删除序列中的各个元素。修改序列后，代理将根据环境和修改的顺序给予延迟奖励。环境由基本推荐模型给出。

对于强化学习，最重要的元素是环境、状态、动作、决策和奖励。接下来，我们将从这些方面描述分层强化学习的工作原理。

环境：图书的数据集和经过训练的基本推荐模型视为环境。

状态：在高级任务中，高级任务确定是否需要修改整个借阅序列，而低级任务确定是否需要删除序列中的每个借阅记录。低级任务的状态定义为当前借用序列与目标书的特征向量之间的余弦相似度。高级任务的状态定义为借用序列中每个借用记录的特征向量和目标书的特征向量之间的平均余弦相似度和平均逐元素积。此外，基本推荐模型根据借阅顺序的概率值推荐目标书，以反映目标书的可信度。如果可信度较低，则应修改借阅顺序。

动作与决策：在高级任务中，我们将动作a^h定义为布尔值a^h∈{0，1}，表示是否进入低级任务并修改借书记录，低级任务的动作是一组布尔值

表示是否删除每个序列元素。决策的主要目的是判断代理应该使用哪个动作，将使用概率判断应使用哪个动作。我们根据策略执行以下低级动作：

其中

是要学习的参数，

是状态特征的数量，

是隐藏层的维数，

是输入状态的特征向量，我们将要学习的参数表示为

σ是sigmoid函数，它将输入转换为概率。对于高级任务，策略功能类似于低级任务，只需将参数更改为

奖励：奖励表示所执行的动作是否合理。对于低级任务，假定低级任务流程中的每个动作对流程中的最后一个动作都有延迟的奖励，则奖励可以根据修改后的序列与修改前的序列的准确度差异来表示。定义为：

其中p(E^u，c_i)是p(y＝1|E^u，c_i)的缩写，

是修改后的序列。

在执行低级任务的过程中，代理可能删除序列中的所有元素。此时，模型从序列中随机选择一个元素作为修改后的序列。在执行高级任务时，如果高级任务选择修改此序列，则高级任务的奖励与相应低级任务的奖励相同，并且如果选择不进行修改，奖励是零。此外，该模型在低级任务中定义了内部奖励G，其目的是使代理倾向于选择与目标课程最相关的课程。

我们的目标是找到策略函数的最佳参数以最大化奖励：

其中Θ表示Θ^h或Θ^l，τ是采样操作和过渡状态的序列P_Θ(τ；Θ)表示相应的采样概率，R(τ)是对采样序列τ的奖励，采样序列可以是低级任务中的

或者高级任务中的{s^h，a^h}。

(4)联合训练

在分层强化学习中，我们得到了修改后的用户借书记录。我们的目标是通过分层强化学习模型来修改用户的借书记录，以使基本推荐模型的预测更加准确。因此，我们需要将修改后的用户借书记录放回基本推荐模型中，并获得预测结果，然后根据该结果训练强化学习模型。这个过程是基本推荐模型和分层强化学习模型的联合训练。算法的伪代码如算法1所示。

进一步的，为了证明本公开所述方案的有效性，此处将本公开所述方案和一些现有方法进行了比较：

CF(collaborative filtering)：协作过滤算法是一种使用一组相似兴趣和共同经验的偏好来推荐用户感兴趣的信息的算法。

FISM(factored item similarity models)：是一个逐项协作过滤算法，但是没有使用注意力机制来区分历史数据的权重。

NAIS(Neural attentive item similarity model)：是一个逐项协作过滤算法，它使用注意力机制来区分历史数据的权重。在本文中用作基本推荐模型。

light-GCN(simplifying and powering graph convolution network)：该算法通过在用户-项目交互图上线性传播用户和项目的特征向量来学习用户和项目的特征向量，并使用在所有层上学习的特征向量的加权和作为最终值的特征向量。

HRL-NAIS(hierarchical reinforcement learning for courserecommendation)：是一种使用基本推荐模型和分层强化学习模型进行联合训练的算法。

我们使用的评估指标是前K个项目的命中率(HR@K)和前K个项目的归一化贴现累积增益(NDCG@K)。其中，HR@K是基于召回率的指标，用于衡量在top-K中成功推荐的实例的百分比，而NDCG@K是基于准确性的索引，它表示实例的预测位置。在本文中，我们将K设置为5和10，计算包括1个阳性实例和99个阴性实例的所有指标，并获得所有用户序列的平均得分。表2中展示了我们使用真实校园借书数据实验的实验结果。表3展示了我们使用另一个数字图书馆中的借书数据的实验结果。

表2真实校园借书数据对比实验结果

表3数字图书馆借书数据对比实验结果

从表2和表3可以看出，在预测性能方面，我们的模型比基准方法更好，并且我们的算法使用特征向量对书籍进行分类，从而可以更好地预测用户喜欢哪种书，并向用户推荐这些书。

在这项工作中，我们的目的是解决数字图书馆环境中图书推荐中的数据稀疏和噪声问题，因此我们针对图书推荐任务提出了一种基于分层强化学习的方法，以解决遇到的数据噪声和数据稀疏性挑战。更具体地说，我们使用聚类对数据进行分类，并有效地解决了图书馆环境中数据稀疏的问题。

实施例二：

本实施例的目的是一种基于强化学习的个性化图书推荐系统。

一种基于强化学习的个性化图书推荐系统，包括：

实施例三：

本实施例的目的是提供一种电子设备。

一种电子设备，包括存储器、处理器及存储在存储器上运行的计算机程序，所述处理器执行所述程序时实现所述的一种基于强化学习的个性化图书推荐方法，包括：

获取用户历史图书借阅数据，构建用户借书序列；

实施例四：

本实施例的目的是提供一种非暂态计算机可读存储介质。

一种非暂态计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现所述的一种基于强化学习的个性化图书推荐方法，包括：

获取用户历史图书借阅数据，构建用户借书序列；

上述实施例提供的一种基于强化学习的个性化图书推荐方法及系统可以实现，具有广阔的应用前景。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

上述虽然结合附图对本公开的具体实施方式进行了描述，但并非对本公开保护范围的限制，所属领域技术人员应该明白，在本公开的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims

1.一种基于强化学习的个性化图书推荐方法，其特征在于，包括：

获取用户历史图书借阅数据，构建用户借书序列；

2.如权利要求1所述的一种基于强化学习的个性化图书推荐方法，其特征在于，所述基于聚类的分层强化学习网络模型包括基础推荐模型、序列修改模型和聚类模型。

3.如权利要求1所述的一种基于强化学习的个性化图书推荐方法，其特征在于，所述基础推荐模型通过基于注意力的神经网络对用户和图书的偏好进行建模，在表示用户的借书序列时通过引入注意力机制，对用户借书序列中的每个元素添加一个关注因子，来表明用户对每本书的兴趣。

4.如权利要求1所述的一种基于强化学习的个性化图书推荐方法，其特征在于，所述序列修改模型基于分层强化学习网络实现，通过分层强化学习网络过滤掉用户借书序列中存在误导推荐的噪声。

5.如权利要求4所述的一种基于强化学习的个性化图书推荐方法，其特征在于，所述序列修改模型利用所述分层强化学习网络，将修改用户借书记录的过程描述为层次马尔可夫决策过程，分为两个步骤：高级任务和低级任务；其中，高级任务确定是否需要修改整个序列；如果需要修改，则转入低级任务，低级任务确定是否应删除序列中的各个元素。

6.如权利要求5所述的一种基于强化学习的个性化图书推荐方法，其特征在于，所述确定是否修改整个序列，是根据序列中每个借用记录的特征向量和目标书的特征向量之间的平均余弦相似度和平均逐元素积来进行判断；所述确定是否应删除序列中的各个元素，是根据当前借用序列与目标书的特征向量之间的余弦相似度进行判断。

7.如权利要求1所述的一种基于强化学习的个性化图书推荐方法，其特征在于，所述聚类模型采用mini-batch K-means算法对图书特征进行聚类，在进行特征聚类后，通过对基本推荐模型训练的特征和聚类模型聚类后的特征进行映射，实现基本推荐模型中的特征在分层强化学习模型修改为聚类后的特征。

8.一种基于强化学习的个性化图书推荐系统，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在存储器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7任一项所述的一种基于强化学习的个性化图书推荐方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7任一项所述的一种基于强化学习的个性化图书推荐方法。