CN112765339A - 一种基于强化学习的个性化图书推荐方法及系统 - Google Patents

一种基于强化学习的个性化图书推荐方法及系统 Download PDF

Info

Publication number
CN112765339A
CN112765339A CN202110083463.9A CN202110083463A CN112765339A CN 112765339 A CN112765339 A CN 112765339A CN 202110083463 A CN202110083463 A CN 202110083463A CN 112765339 A CN112765339 A CN 112765339A
Authority
CN
China
Prior art keywords
book
sequence
model
user
reinforcement learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110083463.9A
Other languages
English (en)
Other versions
CN112765339B (zh
Inventor
王新华
王雨辰
郭磊
姜浩然
徐长棣
刘方爱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Normal University
Original Assignee
Shandong Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Normal University filed Critical Shandong Normal University
Priority to CN202110083463.9A priority Critical patent/CN112765339B/zh
Publication of CN112765339A publication Critical patent/CN112765339A/zh
Application granted granted Critical
Publication of CN112765339B publication Critical patent/CN112765339B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种基于强化学习的个性化图书推荐方法及系统,所述方案将分层强化学习模型引入数字图书馆的图书推荐任务中,在该任务中,首先对基本推荐模型进行了预训练,然后设计了一个序列修改模块,以过滤掉可能导致该书推荐错误的噪声;同时,为了减少稀疏性问题的影响,通过基于聚类的策略进一步增强了分层强化学习模型,在预训练网络和分层增强网络之间添加了聚类,以便分层增强网络可以更好地分析数据。

Description

一种基于强化学习的个性化图书推荐方法及系统
技术领域
本公开属于智能数字图书馆技术领域,尤其涉及一种基于强化学习的个性化图书推荐方法及系统。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。
数字图书馆作为帮助用户获得专业知识和提高其专业水平的最重要方法之一,在许多大学中都受到了广泛的关注。许多大学已经建立了自己的数字图书馆,其数字资源少则上万,多则上百万。虽然数字图书馆比传统图书馆更易于使用和管理。但从如此庞大的馆藏中找到所需的资源(例如书籍,报告和期刊)对用户来说是一个巨大的挑战。为了应对这一挑战,我们使用了推荐系统解决这个挑战,该系统可以利用用户的历史记录来帮助他们快速发现有趣且高质量的信息。
数字图书馆中的图书推荐任务是在时间t+1处向一组用户提供图书,这些用户的历史图书借阅记录在时间t之前给出。用户在数字图书馆中的借阅记录为我们提供了一种学习其个人兴趣的有效方法。例如,如果用户借了很多与数学有关的书,我们可以推断出他正在学习数学,因此,我们可以向他推荐与数学有关的书籍。
发明人发现,当前有关此任务的研究的工作集中在开发推荐算法,这些算法可以以个性化的方式推荐书籍。但他们忽略了校园图书推荐中的重要因素,即噪声数据可能会误导推荐算法。例如,学习计算机科学和技术的用户可能从图书馆借了很少的心理学书籍用于公共选修课或其他用户。向他/她推荐书籍时,我们应主要侧重于推荐与计算机科学相关的书籍,而忽略这些心理书籍的影响。而且,上述所有方法都忽略了用户借阅记录是非常稀疏的,即用户在大学期间只能借少量的图书,这导致学习到的用户兴趣模型不可靠。
发明内容
本公开为了解决上述问题,提供了一种基于强化学习的个性化图书推荐方法及系统,所述方案将分层强化学习框架引入到图书推荐任务中,同时提出一种基于聚类的方法来增强层强化学习框架处理用户交互稀疏性的能力,有效提高了图书推荐的合理性。
根据本公开实施例的第一个方面,提供了一种基于强化学习的个性化图书推荐方法,包括:
获取用户历史图书借阅数据,构建用户借书序列;
构建基于聚类的分层强化学习网络模型,将所述用户借书序列输入预训练的网络模型中,输出推荐图书的预测结果;
其中,所述基于聚类的分层强化学习网络模型的训练过程包括:利用所述用户借书序列对基础推荐模型进行训练,利用聚类模型对获得的图书特征进行聚类;基于聚类后的图书特征,利用分层强化学习模型修改用户借书序列;将修改后的用户借书序列输入到基本推荐模型中,并获得预测结果;迭代上述步骤,直至满足迭代终止条件。
进一步的,所述基于聚类的分层强化学习网络模型包括基础推荐模型、序列修改模型和聚类模型。
进一步的,所述基础推荐模型通过基于注意力的神经网络对用户和图书的偏好进行建模,在表示用户的借书序列时通过引入注意力机制,对用户借书序列中的每个元素添加一个关注因子,来表明用户对每本书的兴趣。
进一步的,所述序列修改模型基于分层强化学习网络实现,通过分层强化学习网络过滤掉用户借书序列中存在误导推荐的噪声。
进一步的,利用所述分层强化学习网络,将修改用户借书记录的过程描述为层次马尔可夫决策过程,分为两个步骤:高级任务和低级任务;其中,高级任务确定是否需要修改整个序列;如果需要修改,则转入低级任务,低级任务确定是否应删除序列中的各个元素。
进一步的,所述确定是否修改整个序列,是根据序列中每个借用记录的特征向量和目标书的特征向量之间的平均余弦相似度和平均逐元素积来进行判断;所述确定是否应删除序列中的各个元素,是根据当前借用序列与目标书的特征向量之间的余弦相似度进行判断。
进一步的,所述聚类模型采用mini-batch K-means算法对图书特征进行聚类,在进行特征聚类后,通过对基本推荐模型训练的特征和聚类模型聚类后的特征进行映射,实现基本推荐模型中的特征在分层强化学习模型修改为聚类后的特征。
根据本公开实施例的第二个方面,提供了一种基于强化学习的个性化图书推荐系统,包括:
数据获取单元,其用于获取用户历史图书借阅数据,构建用户借书序列;
图书推荐单元,其用于构建基于聚类的分层强化学习网络模型,将所述用户借书序列输入预训练的网络模型中,输出推荐图书的预测结果;
其中,所述基于聚类的分层强化学习网络模型的训练过程包括:利用所述用户借书序列对基础推荐模型进行训练,利用聚类模型对获得的图书特征进行聚类;基于聚类后的图书特征,利用序列修改模型修改用户借书序列;将修改后的用户借书序列输入到基本推荐模型中,并获得预测结果;迭代上述步骤,直至满足迭代终止条件。
根据本公开实施例的第三个方面,提供了一种电子设备,包括存储器、处理器及存储在存储器上运行的计算机程序,所述处理器执行所述程序时实现所述的一种基于强化学习的个性化图书推荐方法。
根据本公开实施例的第四个方面,提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述的一种基于强化学习的个性化图书推荐方法。
与现有技术相比,本公开的有益效果是:
(1)本公开所述方案将HRL-NAIS模型引入数字图书馆的图书推荐任务中,在该任务中,首先对基本推荐模型进行了预训练,然后设计了一个序列修改模块,以过滤掉可能导致该书推荐错误的噪声;
(2)为了减少稀疏性问题的影响,本公开所述方案通过基于聚类的策略进一步增强了HRL-NAIS模型,在预训练网络和分层增强网络之间添加了聚类,以便分层增强网络可以更好地分析数据;
本公开附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本公开的实践了解到。
附图说明
构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。
图1为本公开实施例一中所述的基于强化学习的个性化图书推荐模型的基本架构;
图2为本公开实施例一中所述的基于强化学习的个性化图书推荐模型的工作流程图;
图3为本公开实施例一中所述的聚类过程示意图。
具体实施方式
下面结合附图与实施例对本公开做进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。实施例一:
本实施例的目的是提供一种基于强化学习的个性化图书推荐方法。
一种基于强化学习的个性化图书推荐方法,包括:
获取用户历史图书借阅数据,构建用户借书序列;
构建基于聚类的分层强化学习网络模型,将所述用户借书序列输入预训练的网络模型中,输出推荐图书的预测结果;
其中,所述基于聚类的分层强化学习网络模型的训练过程包括:利用所述用户借书序列对基础推荐模型进行训练,利用聚类模型对获得的图书特征进行聚类;基于聚类后的图书特征,利用序列修改模型修改用户借书序列;将修改后的用户借书序列输入到基本推荐模型中,并获得预测结果;迭代上述步骤,直至满足迭代终止条件。
进一步的,为了便于理解,以下对本申请所述方案进行详细说明:
(一)问题定义
令U={u1,u2,...,um}为用户的集合,B={b1,b2,...,bn}为图书的集合,其中m为用户的数量,n为图书的数量,对于每个用户u,给出他在图书馆中的借书序列
Figure BDA0002909970080000051
其中t表示借书的时间,然后,我们可以将图书推荐任务表述为预测用户最感兴趣的下一本书
Figure BDA0002909970080000052
为了解决现有技术中存在的数据噪声和数据稀疏性挑战,本公开提出了一种基于聚类的分层强化学习网络(CHRL)来解决图书个性化推荐的问题,其主要思想是利用基于聚类的强化学习技术的功能来滤除噪声可能误导推荐算法的互动。如图1所示,展示了所述基于聚类的分层强化学习网络模型的基本架构,该架构由三个组件组成,即基础推荐模型,序列修改模型和聚类模型。更具体地说,基础推荐模型旨在提供书籍推荐的基础模型,该模型通过基于注意力的神经网络对用户和项目的偏好进行建模。序列修改模型旨在进一步过滤掉可能误导基本推荐者的噪声。模型中使用了分层强化学习的方法来完成这个目标。聚类模型通过对所有书籍的嵌入进行聚类以减少数据稀疏性,通过把基础模型学习到的书本特征进行聚类,减少数据稀疏性对分层强化学习模型的影响。
本公开所述的CHRL模型的工作流程如图2所示。首先,预训练过程训练所有用户的借书序列。在预训练之后,聚类模型对将在HRL组件中使用的学习书籍的特征进行聚类。在下一步中,HRL将确定每个用户的借书序列中是否存在噪声并删除相应的噪声。最后,在HRL修改了所有用户序列后,它将重新发送用户借书序列到预训练模型中。预训练模型和HRL将联合训练数据以获得最终推荐结果。我们的模型使用HRL来减少序列中的噪声,并在HRL的基础上添加聚类以解决数据稀疏性问题,从而可以解决学校数字图书馆中的图书推荐问题。
(二)模型构建
(1)基础推荐模型
所述方案中需要根据用户的借书序列Eu来表征其偏好,所以将每本用户借过的书表示为实值低维特征向量
Figure BDA0002909970080000061
主要表示图书的内容、主题、专业类别等特征,于是每个用户的借书序列就可以表示为
Figure BDA0002909970080000062
我们将目标图书bi的特征表示为pi,如果将用户的借书记录表示为qu,那么就可以将向用户推荐图书的概率计算为:
Figure BDA0002909970080000063
与HRL-NAIS一样,我们同样使用了Neural attentive item similarity model(NAIS)作为我们的基础模型,并且在表示序列qu的特征时,我们使用了注意力机制。我们在qu序列中为每个元素pt u添加了一个关注因子,它可以更清楚地表明用户对每本书的兴趣。
(2)聚类模型
由于书籍数据稀疏,因此如果我们直接在分层强化学习模型中使用每本书的特征,分层强化学习模型将倾向于修改所有序列并删除每个序列中的所有元素。因此,在基础模型训练之后,我们需要对书籍的特征进行聚类,以使强化学习模型更加稳定。图书的数量非常多,如果我们使用普通的聚类算法进行聚类,会非常困难。所以我们使用了mini-batchK-means算法对书籍数据进行聚类。使用mini-batch K-means算法可以尝试减少计算时间,同时保持数据的准确性。
如果图书馆中有n本书,则在对基本模型进行训练之后,我们可以得到n本书的特征p。但是,由于图书馆中有大量书籍,即n太大,分层强化学习无法很好地处理稀疏数据,因此我们使用了mini-batch K-means算法对将n的书放入k个特征中,其中k比n小得多,如图3所示。在对特征进行聚类之后,对经过基本模型训练的特征和对聚类之后的特征进行映射,然后基本模型中的特征将在分层强化学习模型被修改为聚类后的特征。
(3)分层强化学习模型
本公开所述方案中将修改用户借书记录的过程描述为层次马尔可夫决策过程,分为两个步骤:高级任务和低级任务。高级任务确定是否需要修改整个序列。如果需要修改,则转入低级任务。低级任务确定是否应删除序列中的各个元素。修改序列后,代理将根据环境和修改的顺序给予延迟奖励。环境由基本推荐模型给出。
对于强化学习,最重要的元素是环境、状态、动作、决策和奖励。接下来,我们将从这些方面描述分层强化学习的工作原理。
环境:图书的数据集和经过训练的基本推荐模型视为环境。
状态:在高级任务中,高级任务确定是否需要修改整个借阅序列,而低级任务确定是否需要删除序列中的每个借阅记录。低级任务的状态定义为当前借用序列与目标书的特征向量之间的余弦相似度。高级任务的状态定义为借用序列中每个借用记录的特征向量和目标书的特征向量之间的平均余弦相似度和平均逐元素积。此外,基本推荐模型根据借阅顺序的概率值推荐目标书,以反映目标书的可信度。如果可信度较低,则应修改借阅顺序。
动作与决策:在高级任务中,我们将动作ah定义为布尔值ah∈{0,1},表示是否进入低级任务并修改借书记录,低级任务的动作是一组布尔值
Figure BDA0002909970080000081
表示是否删除每个序列元素。决策的主要目的是判断代理应该使用哪个动作,将使用概率判断应使用哪个动作。我们根据策略执行以下低级动作:
Figure BDA0002909970080000082
Figure BDA0002909970080000083
其中
Figure BDA0002909970080000084
是要学习的参数,
Figure BDA0002909970080000085
是状态特征的数量,
Figure BDA0002909970080000086
是隐藏层的维数,
Figure BDA0002909970080000087
是输入状态的特征向量,我们将要学习的参数表示为
Figure BDA0002909970080000088
σ是sigmoid函数,它将输入转换为概率。对于高级任务,策略功能类似于低级任务,只需将参数更改为
Figure BDA0002909970080000089
奖励:奖励表示所执行的动作是否合理。对于低级任务,假定低级任务流程中的每个动作对流程中的最后一个动作都有延迟的奖励,则奖励可以根据修改后的序列与修改前的序列的准确度差异来表示。定义为:
Figure BDA00029099700800000810
其中p(Eu,ci)是p(y=1|Eu,ci)的缩写,
Figure BDA00029099700800000811
是修改后的序列。
在执行低级任务的过程中,代理可能删除序列中的所有元素。此时,模型从序列中随机选择一个元素作为修改后的序列。在执行高级任务时,如果高级任务选择修改此序列,则高级任务的奖励与相应低级任务的奖励相同,并且如果选择不进行修改,奖励是零。此外,该模型在低级任务中定义了内部奖励G,其目的是使代理倾向于选择与目标课程最相关的课程。
我们的目标是找到策略函数的最佳参数以最大化奖励:
Figure BDA00029099700800000812
其中Θ表示Θh或Θl,τ是采样操作和过渡状态的序列PΘ(τ;Θ)表示相应的采样概率,R(τ)是对采样序列τ的奖励,采样序列可以是低级任务中的
Figure BDA0002909970080000091
或者高级任务中的{sh,ah}。
(4)联合训练
在分层强化学习中,我们得到了修改后的用户借书记录。我们的目标是通过分层强化学习模型来修改用户的借书记录,以使基本推荐模型的预测更加准确。因此,我们需要将修改后的用户借书记录放回基本推荐模型中,并获得预测结果,然后根据该结果训练强化学习模型。这个过程是基本推荐模型和分层强化学习模型的联合训练。算法的伪代码如算法1所示。
Figure BDA0002909970080000092
Figure BDA0002909970080000101
进一步的,为了证明本公开所述方案的有效性,此处将本公开所述方案和一些现有方法进行了比较:
CF(collaborative filtering):协作过滤算法是一种使用一组相似兴趣和共同经验的偏好来推荐用户感兴趣的信息的算法。
FISM(factored item similarity models):是一个逐项协作过滤算法,但是没有使用注意力机制来区分历史数据的权重。
NAIS(Neural attentive item similarity model):是一个逐项协作过滤算法,它使用注意力机制来区分历史数据的权重。在本文中用作基本推荐模型。
light-GCN(simplifying and powering graph convolution network):该算法通过在用户-项目交互图上线性传播用户和项目的特征向量来学习用户和项目的特征向量,并使用在所有层上学习的特征向量的加权和作为最终值的特征向量。
HRL-NAIS(hierarchical reinforcement learning for courserecommendation):是一种使用基本推荐模型和分层强化学习模型进行联合训练的算法。
我们使用的评估指标是前K个项目的命中率(HR@K)和前K个项目的归一化贴现累积增益(NDCG@K)。其中,HR@K是基于召回率的指标,用于衡量在top-K中成功推荐的实例的百分比,而NDCG@K是基于准确性的索引,它表示实例的预测位置。在本文中,我们将K设置为5和10,计算包括1个阳性实例和99个阴性实例的所有指标,并获得所有用户序列的平均得分。表2中展示了我们使用真实校园借书数据实验的实验结果。表3展示了我们使用另一个数字图书馆中的借书数据的实验结果。
表2真实校园借书数据对比实验结果
Figure BDA0002909970080000111
表3数字图书馆借书数据对比实验结果
Figure BDA0002909970080000112
从表2和表3可以看出,在预测性能方面,我们的模型比基准方法更好,并且我们的算法使用特征向量对书籍进行分类,从而可以更好地预测用户喜欢哪种书,并向用户推荐这些书。
在这项工作中,我们的目的是解决数字图书馆环境中图书推荐中的数据稀疏和噪声问题,因此我们针对图书推荐任务提出了一种基于分层强化学习的方法,以解决遇到的数据噪声和数据稀疏性挑战。更具体地说,我们使用聚类对数据进行分类,并有效地解决了图书馆环境中数据稀疏的问题。
实施例二:
本实施例的目的是一种基于强化学习的个性化图书推荐系统。
一种基于强化学习的个性化图书推荐系统,包括:
数据获取单元,其用于获取用户历史图书借阅数据,构建用户借书序列;
图书推荐单元,其用于构建基于聚类的分层强化学习网络模型,将所述用户借书序列输入预训练的网络模型中,输出推荐图书的预测结果;
其中,所述基于聚类的分层强化学习网络模型的训练过程包括:利用所述用户借书序列对基础推荐模型进行训练,利用聚类模型对获得的图书特征进行聚类;基于聚类后的图书特征,利用序列修改模型修改用户借书序列;将修改后的用户借书序列输入到基本推荐模型中,并获得预测结果;迭代上述步骤,直至满足迭代终止条件。
实施例三:
本实施例的目的是提供一种电子设备。
一种电子设备,包括存储器、处理器及存储在存储器上运行的计算机程序,所述处理器执行所述程序时实现所述的一种基于强化学习的个性化图书推荐方法,包括:
获取用户历史图书借阅数据,构建用户借书序列;
构建基于聚类的分层强化学习网络模型,将所述用户借书序列输入预训练的网络模型中,输出推荐图书的预测结果;
其中,所述基于聚类的分层强化学习网络模型的训练过程包括:利用所述用户借书序列对基础推荐模型进行训练,利用聚类模型对获得的图书特征进行聚类;基于聚类后的图书特征,利用序列修改模型修改用户借书序列;将修改后的用户借书序列输入到基本推荐模型中,并获得预测结果;迭代上述步骤,直至满足迭代终止条件。
实施例四:
本实施例的目的是提供一种非暂态计算机可读存储介质。
一种非暂态计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述的一种基于强化学习的个性化图书推荐方法,包括:
获取用户历史图书借阅数据,构建用户借书序列;
构建基于聚类的分层强化学习网络模型,将所述用户借书序列输入预训练的网络模型中,输出推荐图书的预测结果;
其中,所述基于聚类的分层强化学习网络模型的训练过程包括:利用所述用户借书序列对基础推荐模型进行训练,利用聚类模型对获得的图书特征进行聚类;基于聚类后的图书特征,利用序列修改模型修改用户借书序列;将修改后的用户借书序列输入到基本推荐模型中,并获得预测结果;迭代上述步骤,直至满足迭代终止条件。
上述实施例提供的一种基于强化学习的个性化图书推荐方法及系统可以实现,具有广阔的应用前景。
以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
上述虽然结合附图对本公开的具体实施方式进行了描述,但并非对本公开保护范围的限制,所属领域技术人员应该明白,在本公开的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims (10)

1.一种基于强化学习的个性化图书推荐方法,其特征在于,包括:
获取用户历史图书借阅数据,构建用户借书序列;
构建基于聚类的分层强化学习网络模型,将所述用户借书序列输入预训练的网络模型中,输出推荐图书的预测结果;
其中,所述基于聚类的分层强化学习网络模型的训练过程包括:利用所述用户借书序列对基础推荐模型进行训练,利用聚类模型对获得的图书特征进行聚类;基于聚类后的图书特征,利用序列修改模型修改用户借书序列;将修改后的用户借书序列输入到基本推荐模型中,并获得预测结果;迭代上述步骤,直至满足迭代终止条件。
2.如权利要求1所述的一种基于强化学习的个性化图书推荐方法,其特征在于,所述基于聚类的分层强化学习网络模型包括基础推荐模型、序列修改模型和聚类模型。
3.如权利要求1所述的一种基于强化学习的个性化图书推荐方法,其特征在于,所述基础推荐模型通过基于注意力的神经网络对用户和图书的偏好进行建模,在表示用户的借书序列时通过引入注意力机制,对用户借书序列中的每个元素添加一个关注因子,来表明用户对每本书的兴趣。
4.如权利要求1所述的一种基于强化学习的个性化图书推荐方法,其特征在于,所述序列修改模型基于分层强化学习网络实现,通过分层强化学习网络过滤掉用户借书序列中存在误导推荐的噪声。
5.如权利要求4所述的一种基于强化学习的个性化图书推荐方法,其特征在于,所述序列修改模型利用所述分层强化学习网络,将修改用户借书记录的过程描述为层次马尔可夫决策过程,分为两个步骤:高级任务和低级任务;其中,高级任务确定是否需要修改整个序列;如果需要修改,则转入低级任务,低级任务确定是否应删除序列中的各个元素。
6.如权利要求5所述的一种基于强化学习的个性化图书推荐方法,其特征在于,所述确定是否修改整个序列,是根据序列中每个借用记录的特征向量和目标书的特征向量之间的平均余弦相似度和平均逐元素积来进行判断;所述确定是否应删除序列中的各个元素,是根据当前借用序列与目标书的特征向量之间的余弦相似度进行判断。
7.如权利要求1所述的一种基于强化学习的个性化图书推荐方法,其特征在于,所述聚类模型采用mini-batch K-means算法对图书特征进行聚类,在进行特征聚类后,通过对基本推荐模型训练的特征和聚类模型聚类后的特征进行映射,实现基本推荐模型中的特征在分层强化学习模型修改为聚类后的特征。
8.一种基于强化学习的个性化图书推荐系统,其特征在于,包括:
数据获取单元,其用于获取用户历史图书借阅数据,构建用户借书序列;
图书推荐单元,其用于构建基于聚类的分层强化学习网络模型,将所述用户借书序列输入预训练的网络模型中,输出推荐图书的预测结果;
其中,所述基于聚类的分层强化学习网络模型的训练过程包括:利用所述用户借书序列对基础推荐模型进行训练,利用聚类模型对获得的图书特征进行聚类;基于聚类后的图书特征,利用序列修改模型修改用户借书序列;将修改后的用户借书序列输入到基本推荐模型中,并获得预测结果;迭代上述步骤,直至满足迭代终止条件。
9.一种电子设备,包括存储器、处理器及存储在存储器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7任一项所述的一种基于强化学习的个性化图书推荐方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7任一项所述的一种基于强化学习的个性化图书推荐方法。
CN202110083463.9A 2021-01-21 2021-01-21 一种基于强化学习的个性化图书推荐方法及系统 Expired - Fee Related CN112765339B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110083463.9A CN112765339B (zh) 2021-01-21 2021-01-21 一种基于强化学习的个性化图书推荐方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110083463.9A CN112765339B (zh) 2021-01-21 2021-01-21 一种基于强化学习的个性化图书推荐方法及系统

Publications (2)

Publication Number Publication Date
CN112765339A true CN112765339A (zh) 2021-05-07
CN112765339B CN112765339B (zh) 2022-10-04

Family

ID=75703615

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110083463.9A Expired - Fee Related CN112765339B (zh) 2021-01-21 2021-01-21 一种基于强化学习的个性化图书推荐方法及系统

Country Status (1)

Country Link
CN (1) CN112765339B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113590970A (zh) * 2021-08-11 2021-11-02 东北林业大学 一种基于读者偏好的个性化数字图书推荐系统、方法、计算机及存储介质
CN113590945A (zh) * 2021-07-26 2021-11-02 西安工程大学 一种基于用户借阅行为-兴趣预测的图书推荐方法和装置

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102521202A (zh) * 2011-11-18 2012-06-27 东南大学 面向复杂系统中的maxq任务图结构的自动发现方法
CN102708377A (zh) * 2012-04-25 2012-10-03 中国科学院计算技术研究所 虚拟人组合任务规划方法
CN105930868A (zh) * 2016-04-20 2016-09-07 北京航空航天大学 一种基于层次化增强学习的低分辨率机场目标检测方法
CN108287904A (zh) * 2018-05-09 2018-07-17 重庆邮电大学 一种基于社会化卷积矩阵分解的文档上下文感知推荐方法
CN108345661A (zh) * 2018-01-31 2018-07-31 华南理工大学 一种基于大规模Embedding技术的Wi-Fi聚类方法及系统
CN109492227A (zh) * 2018-11-16 2019-03-19 大连理工大学 一种基于多头注意力机制和动态迭代的机器阅读理解方法
CN109871976A (zh) * 2018-12-20 2019-06-11 浙江工业大学 一种基于聚类及神经网络的含分布式电源配电网电能质量预测方法
EP3543918A1 (en) * 2018-03-20 2019-09-25 Flink AI GmbH Reinforcement learning method
CN110377686A (zh) * 2019-07-04 2019-10-25 浙江大学 一种基于深度神经网络模型的地址信息特征抽取方法
US20200134696A1 (en) * 2018-10-31 2020-04-30 Amadeus S.A.S. Recommender systems and methods using cascaded machine learning models
CN111582509A (zh) * 2020-05-07 2020-08-25 南京邮电大学 一种基于知识图谱表示学习和神经网络的协同推荐方法
WO2020186484A1 (zh) * 2019-03-20 2020-09-24 深圳大学 图片自动生成描述的方法、系统、电子装置及存储介质
CN112085158A (zh) * 2020-07-21 2020-12-15 西安工程大学 一种基于堆栈降噪自编码器的图书推荐方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102521202A (zh) * 2011-11-18 2012-06-27 东南大学 面向复杂系统中的maxq任务图结构的自动发现方法
CN102708377A (zh) * 2012-04-25 2012-10-03 中国科学院计算技术研究所 虚拟人组合任务规划方法
CN105930868A (zh) * 2016-04-20 2016-09-07 北京航空航天大学 一种基于层次化增强学习的低分辨率机场目标检测方法
CN108345661A (zh) * 2018-01-31 2018-07-31 华南理工大学 一种基于大规模Embedding技术的Wi-Fi聚类方法及系统
EP3543918A1 (en) * 2018-03-20 2019-09-25 Flink AI GmbH Reinforcement learning method
CN108287904A (zh) * 2018-05-09 2018-07-17 重庆邮电大学 一种基于社会化卷积矩阵分解的文档上下文感知推荐方法
US20200134696A1 (en) * 2018-10-31 2020-04-30 Amadeus S.A.S. Recommender systems and methods using cascaded machine learning models
CN109492227A (zh) * 2018-11-16 2019-03-19 大连理工大学 一种基于多头注意力机制和动态迭代的机器阅读理解方法
CN109871976A (zh) * 2018-12-20 2019-06-11 浙江工业大学 一种基于聚类及神经网络的含分布式电源配电网电能质量预测方法
WO2020186484A1 (zh) * 2019-03-20 2020-09-24 深圳大学 图片自动生成描述的方法、系统、电子装置及存储介质
CN110377686A (zh) * 2019-07-04 2019-10-25 浙江大学 一种基于深度神经网络模型的地址信息特征抽取方法
CN111582509A (zh) * 2020-05-07 2020-08-25 南京邮电大学 一种基于知识图谱表示学习和神经网络的协同推荐方法
CN112085158A (zh) * 2020-07-21 2020-12-15 西安工程大学 一种基于堆栈降噪自编码器的图书推荐方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ARUN TRIPATHI等: "Recommending Restaurants: A Collaborative Filtering Approach", 《2020 8TH INTERNATIONAL CONFERENCE ON RELIABILITY, INFOCOM TECHNOLOGIES AND OPTIMIZATION (TRENDS AND FUTURE DIRECTIONS) (ICRITO)》, 15 September 2020 (2020-09-15) *
孙娜: "基于学生行为数据和借阅数据的图书借阅量分析", 《中国教育信息化》, 31 December 2017 (2017-12-31) *
王新华: "读者网上荐购——军校图书馆资源建设的有效途径", 《河南图书馆学刊》, 15 March 2017 (2017-03-15) *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113590945A (zh) * 2021-07-26 2021-11-02 西安工程大学 一种基于用户借阅行为-兴趣预测的图书推荐方法和装置
CN113590945B (zh) * 2021-07-26 2023-07-28 西安工程大学 一种基于用户借阅行为-兴趣预测的图书推荐方法和装置
CN113590970A (zh) * 2021-08-11 2021-11-02 东北林业大学 一种基于读者偏好的个性化数字图书推荐系统、方法、计算机及存储介质
CN113590970B (zh) * 2021-08-11 2022-03-22 东北林业大学 一种基于读者偏好的个性化数字图书推荐系统、方法、计算机及存储介质

Also Published As

Publication number Publication date
CN112765339B (zh) 2022-10-04

Similar Documents

Publication Publication Date Title
CN111931062B (zh) 一种信息推荐模型的训练方法和相关装置
CN110619081B (zh) 一种基于交互图神经网络的新闻推送方法
Wu et al. Learning of multimodal representations with random walks on the click graph
CN112765339B (zh) 一种基于强化学习的个性化图书推荐方法及系统
Shahaf et al. Connecting two (or less) dots: Discovering structure in news articles
Meng et al. Jointly learning representations of nodes and attributes for attributed networks
Yu et al. Simple and effective stochastic neural networks
KR20200046189A (ko) 생성적 적대 신경망에 기반한 협업 필터링을 위한 방법 및 시스템
CN114169869B (zh) 一种基于注意力机制的岗位推荐方法及装置
Wang et al. POI recommendation method using LSTM-attention in LBSN considering privacy protection
CN113609337A (zh) 图神经网络的预训练方法、训练方法、装置、设备及介质
CN113326384A (zh) 一种基于知识图谱的可解释推荐模型的构建方法
Yin et al. Reinforcement-learning-based parameter adaptation method for particle swarm optimization
CN115982467A (zh) 一种去偏化用户多兴趣推荐方法、装置及存储介质
CN110781405B (zh) 基于联合卷积矩阵分解的文档上下文感知推荐方法及系统
CN112749737A (zh) 图像分类方法及装置、电子设备、存储介质
Pocock Feature selection via joint likelihood
CN110851705A (zh) 一种基于项目的协作存储推荐方法及其推荐装置
Xiao et al. HMNet: hybrid matching network for few-shot link prediction
CN116186301A (zh) 基于多模态分层图的多媒体推荐方法、电子设备及存储介质
Nikolaou Cost-sensitive boosting: A unified approach
CN114329199A (zh) 一种物料召回的方法及装置
Cuevas et al. An improved evolutionary algorithm for reducing the number of function evaluations
Lazarova Text Content Features for Hybrid Recommendations: Pre-trained Language Models for Better Recommendations
Gao et al. Improving Image Similarity Learning by Adding External Memory

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20221004