CN114398556A

CN114398556A - 学习内容的推荐方法、装置、设备及存储介质

Info

Publication number: CN114398556A
Application number: CN202210055320.1A
Authority: CN
Inventors: 张罗; 曾毅; 朱群
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-01-18
Filing date: 2022-01-18
Publication date: 2022-04-26

Abstract

本申请涉及云技术领域，特别涉及云教育领域，提供了一种学习内容的推荐方法、装置、设备及存储介质。该方法包括：将反映了各知识点间的总关联关系的知识结构图，与动态反映了目标对象在设定时间范围内学习知识点时的学习状态变化情况的学习状态示意图相结合，从中提取出表达能力更强、更为抽象的目标学习能力特征，并基于获得的目标对象在各时间阶段的目标学习能力特征，确定目标对象对知识体系的掌握程度和目标对象的学习能力，向目标对象推荐符合目标对象当前学习能力的目标学习内容，大大提高了推荐准确率。

Description

学习内容的推荐方法、装置、设备及存储介质

技术领域

本申请涉及云技术领域，特别涉及云教育领域，提供了一种学习内容的推荐方法、装置、设备及存储介质。

背景技术

随着互联网技术的不断发展，网络逐渐成为大众提供了获取知识的主要渠道之一，因此，在线教育也逐步成为教育行业发展的新趋势。

在在线教育领域中，通常使用以下方法，向目标对象推荐合适的学习内容：

采集目标对象在第一时间段内针对当前知识点的目标对象行为数据，通过分析目标对象行为数据，确定目标对象对当前知识点的掌握程度，生成并推送针对当前知识点的学习内容。

然而，粗略地分析目标对象在第一时间段内的峰值表现情况、终止表现情况和稳定性情况，只能确定目标对象对当前知识点的掌握程度，不能确定出当前知识点对其他关联知识点的影响程度，进而无法确定目标对象对整个知识体系的掌握程度，这样，在目标对象学习逻辑缜密、知识关联性强的内容时，若继续采用上述方法向目标对象推送学习内容，会降低推荐准确率，影响目标对象的学习体验。

发明内容

本申请实施例提供了一种学习内容的推荐方法、装置、设备及存储介质，以解决不能确定目标对象对知识体系的掌握程度，导致推荐准确率低的问题。

第一方面，本申请实施例提供了一种学习内容的推荐方法，包括：

获取表征各知识点之间的总关联关系的知识结构图，以及表征目标对象在设定时间范围内，针对所述知识结构图中部分知识点的学习状态示意图；

基于所述知识结构图和所述学习状态示意图进行第一特征提取，获得所述目标对象在所述设定时间范围内各时间阶段的目标学习能力特征；

基于获得的各目标学习能力特征，为所述目标对象推荐相应的目标学习内容。

第二方面，本申请实施例还提供了一种学习内容的推荐装置，包括：

处理单元，用于获取表征各知识点之间的总关联关系的知识结构图，以及表征目标对象在设定时间范围内，针对所述知识结构图中部分知识点的学习状态示意图；

推荐单元，用于基于获得的各目标学习能力特征，为所述目标对象推荐相应的目标学习内容。

可选的，所述装置还包括模型训练单元，所述模型训练单元通过执行以下操作，训练所述策略模型：

获取多个样本数据，每个样本数据包含样本对象在设定时间范围内的状态变化信息；

采用循环迭代的方式，依次读取各样本数据，直至满足迭代停止条件为止，输出训练完毕的策略模型与价值模型；其中，每读取一个样本数据，执行以下操作：

基于所述一个样本数据的状态变化信息，确定预设的价值模型的梯度，并基于所述价值模型的梯度调整相应的模型参数；以及，

基于所述一个样本数据的状态变化信息和所述价值模型的梯度，确定所述策略模型的梯度，并基于所述策略模型的梯度调整相应的模型参数。

可选的，所述模型训练单元通过执行以下操作获得一个样本数据：

将样本对象的当前学习状态信息输入所述策略模型中，获得对应的当前学习内容；

通过学习所述当前学习内容，获得相应的策略评估值，及学习完所述当前学习内容之后的下一学习状态信息；

将所述样本对象的当前学习状态信息、对应的当前学习内容和策略评估值，以及所述样本对象的下一学习状态信息，确定为一个样本数据。

第三方面，本申请实施例还提供了一种计算机设备，包括处理器和存储器，其中，所述存储器存储有程序代码，当所述程序代码被所述处理器执行时，使得所述处理器执行上述任意一种学习内容的推荐方法的步骤。

第四方面，本申请实施例还提供了一种计算机可读存储介质，其包括程序代码，当程序产品在计算机设备上运行时，所述程序代码用于使所述计算机设备执行上述任意一种学习内容的推荐方法的步骤。

第五方面，本申请实施例还提供了一种计算机程序产品，包括计算机指令，所述计算机指令被处理器执行时实现上述任意一种学习内容的推荐方法的步骤。

本申请有益效果如下：

本申请实施例提供了一种学习内容的推荐方法、装置、设备及存储介质，该方法包括：获取表征各知识点之间的总关联关系的知识结构图，以及表征目标对象在设定时间范围内，针对知识结构图中部分知识点的学习状态示意图；基于知识结构图和学习状态示意图进行第一特征提取，获得目标对象在设定时间范围内各时间阶段的目标学习能力特征，再基于获得的各目标学习能力特征，为目标对象推荐相应的目标学习内容。

知识结构图反映了各知识点间的总关联关系，学习状态示意图则动态反映了目标对象在设定时间范围内学习知识点时的学习状态变化情况，动静态图相结合，有利于从中提取出表达能力更强、更为抽象的目标学习能力特征，以确定目标对象对知识体系的掌握程度和目标对象的学习能力，并从众多学习内容中筛选出符合目标对象当前学习能力的目标学习内容，从而提高推荐准确率。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例中一种应用场景的一个可选的示意图；

图2a为本申请实施例提供的在线学习系统的架构示意图；

图2b为本申请实施例提供的向目标对象推荐学习内容的流程示意图；

图2c为本申请实施例提供的知识结构图的示意图；

图2d为本申请实施例提供的学习状态示意图；

图2e为本申请实施例提供的训练学习内容推荐模型的流程示意图；

图2f为本申请实施例提供的训练学习内容推荐模型的逻辑示意图；

图3a为本申请实施例提供的在在线教育领域中应用上述方法，向用户推荐学习内容的逻辑示意图；

图3b为本申请实施例提供的在在线教育领域中应用上述方法，向用户推荐学习内容的流程示意图；

图3c为本申请实施例提供的向初一学生推荐合适的数学课程的逻辑示意图；

图4为本申请实施例提供的一种学习内容的推荐装置的结构示意图；

图5为本申请实施例中提供的一种计算机设备的组成结构示意图；

图6为本申请实施例中的一个计算装置的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请技术方案的一部分实施例，而不是全部的实施例。基于本申请文件中记载的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请技术方案保护的范围。

以下对本申请实施例中的部分用语进行解释说明，以便于本领域技术人员理解。

1、云技术(Cloud technology)：

本申请涉及云技术领域，云技术指的是在广域网或局域网内，将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。

具体地，云技术是应用云计算(Cloud computing)商业模式的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，使用云技术组成的资源池，可按需所用，更加地灵活便利。

云计算技术将成为云技术的重要支撑，主要解决了云技术网络系统的后台服务中需要大量的计算、存储资源的问题，云技术网络系统包括但不限于视频网站、图片类网站和更多的门户网站。随着互联网行业的高度发展和应用，在未来每个物品都有可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，且不同级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾作为技术支撑，而这只能通过云计算来实现。

2、云教育(Cloud Computing Education，CCEDU)：

云教育，是指基于云计算商业模式应用的教育平台服务。在云平台上，所有的教育机构、培训机构、招生服务机构、宣传机构、行业协会、管理机构、行业媒体、法律结构等都集中云整合成资源池，各个资源相互展示和互动，按需交流，达成意向，从而降低教育成本，提高效率。

3、深度强化学习：

深度学习具有较强的感知能力，但是缺乏一定的决策能力，而强化学习具有决策能力，对感知问题束手无策。因此，深度强化学习将深度学习的感知能力和强化学习的决策能力相结合，优势互补，为复杂系统的感知决策问题提供了解决思路。深度强化学习可以直接根据输入的图像进行控制，是一种更接近人类思维方式的人工智能方法。

4、强化学习：

强化学习又称再励学习、评价学习或增强学习，属于机器学习的一个分支领域，被认为是与监督学习和非监督学习并列的三种机器学习范式之一。它注重的是智能体在一个环境中应该如何进行行动从而达到最大化累积奖励的想法。

强化学习与监督学习的不同之处在于，不需要标记输入/输出对，并且不需要明确校正次优动作。相反，强化学习的重点是在探索(未知领域)和利用(当前知识)之间找到平衡。

环境通常被表示为一个马尔可夫决策过程(Markov Decision Process,MDP)，所以在这种情况下许多强化学习算法使用动态规划技术。经典动态规划方法和强化学习算法的主要区别的是，后者不需要假定知道马尔可夫决策过程的精确的数学模型，而且针对的是无法找到确切方法的大规模马尔可夫决策过程。

5、马尔可夫决策过程：

马尔可夫决策过程是基于马尔可夫过程理论的随机动态系统的最优决策过程。马尔可夫决策过程是序贯决策的主要研究领域。它是马尔可夫过程与确定性的动态规划相结合的产物，故又称马尔可夫型随机动态规划，属于运筹学中数学规划的一个分支。

马尔可夫决策过程是指决策者周期地或连续地观察具有马尔可夫性的随机动态系统，序贯地作出决策。即根据每个时刻观察到的状态，从可用的行动集合中选用一个行动作出决策，系统下一步(未来)的状态是随机的，并且其状态转移概率具有马尔可夫性。决策者根据新观察到的状态，再作新的决策，依此反复地进行。

6、图神经网络：

图神经网络的研究与图嵌入或网络嵌入密切相关。图嵌入旨在通过保留图的网络拓扑结构和节点内容信息，将图中顶点表示为低维向量，以便使用简单的机器学习算法(例如，支持向量机分类)进行处理。图嵌入算法通常是无监督的算法，大致可以分为三个类别，即矩阵分解、随机游走和深度学习方法。同时，图嵌入的深度学习方法也属于图神经网络，包括基于图自动编码器的算法和无监督训练的图卷积神经网络。

下面对本申请实施例的设计思想进行简要介绍：

有鉴于此，本申请实施例提供了一种学习内容的推荐方法。该方法包括：获取表征各知识点之间的总关联关系的知识结构图，以及表征目标对象在设定时间范围内，针对知识结构图中部分知识点的学习状态示意图；基于知识结构图和学习状态示意图进行第一特征提取，获得目标对象在设定时间范围内各时间阶段的目标学习能力特征，再基于获得的各目标学习能力特征，为目标对象推荐相应的目标学习内容。

以下结合说明书附图对本申请的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本申请，并不用于限定本申请，并且在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本申请实施例可应用于各种场景，包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。图1示出了其中一种应用场景的示意图，该应用场景包括两个物理终端设备110和一台服务器130，物理终端设备110与服务器130之间使用有线或无线通信方式建立通信连接。

本申请实施例中的物理终端设备110为用户使用的计算机设备，计算机设备可以是个人计算机、手机、平板电脑、笔记本、电子书阅读器、智能家居等具备一定计算能力的计算机设备。

本申请实施例中的服务器130，可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器，本申请在此不做限制。

目标对象通过物理终端设备110的在线学习界面120在线学习知识，同时，物理终端设备会将目标对象在设定时间范围内的学习状态信息上传至服务器130中；

服务器130根据获得的学习状态信息，生成相应的学习状态示意图，再将预先生成的知识结构与学习状态示意图输入到循环神经网络，获得目标对象在设定时间范围内各时间阶段的目标学习能力特征，之后服务器130基于获得的各目标学习能力特征，为目标对象推荐相应的目标学习内容，目标对象通过物理终端设备110查看该目标学习内容。

图2a示出了在线学习系统的架构示意图，该系统包括图神经网络、循环神经网络和学习内容推荐模型。其中，图神经网络包括用于生成知识结构图的静态图神经子网络，和用于生成学习状态示意图的动态图神经子网络，循环神经网络用于从知识结构图和学习状态示意图中，提取出表达能力更强、更为抽象的目标学习能力特征，以帮助学习内容推荐模型确定目标对象对知识体系的掌握程度和该对象的学习能力，并从众多学习内容中筛选出符合目标对象当前学习能力的目标学习内容，从而提高目标对象的知识水平。

在了解了在线学习系统的整体架构之后，参阅图2b示出的流程示意图，详细介绍使用该系统向目标对象推荐学习内容的过程。

S201：获取表征各知识点之间的总关联关系的知识结构图，以及表征目标对象在设定时间范围内，针对知识结构图中部分知识点的学习状态示意图。

将目标对象所学内容的知识体系输入静态图神经子网络中，获得如图2c所示，以知识点为节点、以知识点间的总关联关系为边的知识结构图，而知识结构图的数学表示式为h_v＝f(x_v，x_co[v])，h_v是构造的矩阵，表示知识结构图，x_v表示知识点，x_co[v]表示知识点间的总关联关系。

如表1所示，本申请实施例中的总关联关系包括但不限于以下几种关系：

表1

将目标对象在设定时间范围内，学习知识结构图中部分知识点时的学习状态信息输入动态图神经子网络中，获得如图2d所示的学习状态示意图。其中，学习状态示意图的节点为知识点，边为目标对象在第ti个时间阶段时各知识点之间的子关联关系，每点击其中一个知识点，可获得目标对象在学习该知识点时的学习状态信息。

可以理解的是，在本申请的具体实施方式中，涉及到目标对象的学习状态信息等相关数据，当本申请实施例运用到具体产品或者技术中时，需要获得目标对象的许可或者同意，且相关数据的采集、使用和处理，需要遵守相关国家和地区的相关法律法规和标准。

如表2所示，本申请实施例中的学习状态信息包括以下几种：

表2

目标对象在周期T内的学习状态示意图的数学表达式为h_T＝(h_t0，h_t1，……，h_ti)。其中，h_ti是构造的目标对象在第ti个时间阶段的矩阵，而h_ti的数学表达式为h_ti＝f(x_ti，x_co[ti])，h_ti表示目标对象在第ti个时间阶段的学习状态信息，x_ti表示目标对象在第ti个时间阶段的动态值，x_co[ti]表示第ti个时间阶段时各知识点之间的子关联关系。

S202：基于知识结构图和学习状态示意图进行第一特征提取，获得目标对象在设定时间范围内各时间阶段的目标学习能力特征。

在目标对象学习知识点的过程中，目标对象的学习状态是时刻变化的，且知识点间存在学习先后顺序，先学习的知识点会影响后面知识点学习的学习效果，因此，本申请实施例引入循环神经网络，静态的知识结构图结合学习状态示意图中的长短周期的学习状态变化情况，提取出表达能力更强、更为抽象的目标学习能力特征，方便后续确定目标对象对知识体系的掌握程度和目标对象的学习能力，并为其个性化推荐相应的目标学习内容。

因此，循环神经网络的数学表达式为o＝F(y，θ)，y＝(y_πt0，y_πt1，……，y_πti)，θ表示循环神经网络的网络参数，y表示目标对象在设定时间范围T内各时间阶段的目标学习能力特征，y_πti表示目标对象在第ti个时间阶段的目标学习能力特征。其中，y_πti＝f_ti(S_πti-1，h_πti)，S_πti-1＝g_ti(S_πti-2，h_πti-1)，h_πti＝(h_vti，h_ti)，h_πti表示第ti个时间阶段的学习状态信息和子关联信息，h_vti表示第ti个时间阶段的知识结构图，S_πti-1表示循环神经网络的中间状态，即目标对象在上一个时间阶段的目标学习能力特征。

具体地，针对各时间阶段，分别执行以下操作：

分别从学习状态示意图与知识结构图中，获取目标对象在一个时间阶段ti的学习状态信息，与相应知识点的子关联关系，子关联关系既体现了知识点间的学习先后顺序，也体现了知识点间的包含关系、因果关系等；

若时间阶段ti为首个时间阶段，通过对学习状态信息和子关联关系进行第一特征提取，获得目标对象在时间阶段ti的目标学习能力特征；

若时间阶段ti为非首个时间阶段，通过对学习状态信息、子关联关系，以及目标对象在上一个时间阶段的目标学习能力特征进行第一特征提取，获得相应的目标学习能力特征。

其中，通过循环神经网络，先对学习状态信息和子关联关系进行第一特征提取，获得目标对象在时间阶段ti的候选学习能力特征，再考虑先学习的知识点对后面知识点学习的影响程度，通过循环神经网络融合目标对象在上一个时间阶段的目标学习能力特征与时间阶段ti的候选学习能力特征，获得目标对象在时间阶段ti的目标学习能力特征。

S203：基于获得的各目标学习能力特征，为目标对象推荐相应的目标学习内容。

通过学习内容推荐模型，对获得的各目标学习能力特征的第二特征提取，确定向目标对象推荐的目标学习内容。其中，学习内容推荐模型可以是基于强化学习、深度强化学习、注意力机制等任意一种神经网络构建的模型，本申请实施例在此不作限制。

以基于强化学习构建的学习内容推荐模型为例，先介绍下该模型的训练过程。

学习内容推荐模型包括策略模型和价值模型，先使用策略模型，获得在样本对象的当前学习状态信息下，策略效果较好的当前学习内容，再使用价值模型评估策略模型选择该学习内容是否为一步好策略，这样，经过价值模型的多轮辅助训练，不断调整策略模型的模型参数，从而获得策略精度准确的策略模型。

参阅图2e示出的流程示意图和图2f示出的逻辑示意图，详细介绍学习内容推荐模型的训练过程：

S2031：获取多个样本数据，每个样本数据包含样本对象在设定时间范围内的状态变化信息。

将样本对象的当前状态信息S_t(包括目标对象数据集合、实时学习信息、知识点学习进度及相应的考核分数)输入策略模型中，获得对应的当前学习内容a_t(需要学习的知识点、训练试题、考核试卷等)，再通过学习当前学习内容，获得相应的策略评估值r_t(包括学习时长R₁、联系结果R_t、考试结果R_r等，R＝α1R₁+α2R_t+α3R_r+…+αNR_N，α(1～N)为奖励参数组合),及学习完当前学习内容之后的下一学习状态信息S_t+1，最后，将样本对象的当前学习状态信息、对应的学习内容和策略评估值，及样本对象的下一学习状态信息，确定为样本数据m，其对应的数学表达式为(S_t，a_t，r_t，S_t+1)。

S2032：读取一个样本数据m。

S2033：基于样本数据m的状态变化信息，确定预设的价值模型的梯度，并基于价值模型的梯度调整相应的模型参数。

先使用公式1～2获得价值模型的损失值(Loss)，再基于获得的损失值计算相应的梯度，并使用公式3更新价值模型的模型参数。

y_t＝r_i+γQ′(S_t+1,u′(S_t+1|θ^μ’)|θ^Q) 公式1；

θ^μ′←τθ^μ+(1-τ)θ^μ 公式3；

其中，y_t表示标签值，(u′(S_t+1|θ^μ’)表示线上策略模型的动作预测值，Q′(S_t+1,u′(S_t+1|θ^μ’)|θ^Q表示线上价值模型的策略评估值，γ表示用于衡量未来回报的折扣系数。在训练过程中，策略评估值既包括当前的短期奖励，还包括得到最终结果的长期奖励，因此，本申请实施例还规定，当γ＝0，只考虑学习当前学习内容时获得的奖励；当γ＝1，要考虑将未来所有奖励全部计入当前行动的情况。

Q(s_t,a_t|θ^Q)表示待训练价值模型的策略评估值，θ^μ表示待训练策略模型的模型参数，θ^μ′表示线上策略模型的模型参数，τ表示网络模型参数的融合系数。

S2034：基于样本数据m的状态变化信息和价值模型的梯度，确定策略模型的梯度，并基于策略模型的梯度调整相应的模型参数。

先使用公式4确定策略模型的梯度，再使用公式5更新策略模型的模型参数。

θ^Q′←τθ^Q+(1-τ)θ^Q 公式5；

其中，

表示策略模型的梯度，

表示待训练价值模型的梯度，

表示待训练策略模型的梯度，a＝μ(s_t)表示待训练策略模型的预测值，θ^Q表示待训练价值模型的模型参数，θ^Q′表示线上价值模型的模型参数。

S2035：判断是否满足迭代停止条件，若是，输出训练完毕的策略模型和价值模型；否则，返回步骤2032。

可将以下任意一种条件，设置为迭代停止条件：所有样本数据是否均读取完毕，是否达到设定轮次，策略模型和价值模型的损失值是否均低于设定门限值。

接下来，再使用训练完毕的策略模型对获得的各目标学习能力特征进行第二特征提取，分别获得目标对象在学习各候选学习内容时的预测奖励值，将预测奖励值超过设定阈值的候选学习内容，确定为向目标对象推荐的目标学习内容。

其中，目标学习内容包括但不限于音视频资料、文本资料，针对已学习知识点或待学习知识点制定的练习题，针对已学习知识点或待学习知识点制定的考试题。无论是练习题还是考试题，均可为以下部分或全部形式的题目：选择、填空、简答、上传语音等多种形式的题目。

参阅图3a示出的逻辑示意图和图3b示出的流程示意图，介绍在在线教育领域中应用上述方法，向用户推荐学习内容的过程。

S301：获取表征各知识点之间的总关联关系的知识结构图，以及表征用户在一周内针对知识结构图中部分知识点的学习状态示意图，学习状态示意图上的每个节点包含了用户在学习该知识点时的数据集合、实时学习信息、知识点学习进度及考核分数信息；

S302：将知识结构图和学习状态示意图输入循环神经网络中，通过内部的多个卷积层对周一至周日各时间阶段的学习状态信息和子关联关系进行第一特征提取，获得各时间阶段的目标学习能力特征；

S303：将获得的各目标学习能力特征输入基于强化学习构建的学习内容推荐模型中，从知识学习库、训练题库和考核题库中，获取符合该用户学习能力的目标学习内容，该学习内容推荐模型是基于多个样本数据训练得到的，每个样本数据包括样本对象的当前学习状态信息、对应的学习内容和策略评估值，及样本对象的下一学习状态信息；

S304：将获得目标学习内容，推送到前端进行展示。

参阅图3c示出的逻辑示意图，用户为初中一年级的学生，收集该用户在在线学习系统上一周内的学习记录，学习记录包括该用户的数据集合(具体包括选择的在线学习时间、学习偏好)、用户每天所学习的知识点、学习知识点时执行的倍速、回放、退出、记录错题等行为，以及相应的考核分数。

将该学习记录上传至动态图神经子网络中，获得该用户一周内的学习状态示意图，以及基于静态图神经子网络，获得初一数学的知识结构图；再将初一数学的知识结构图与该用户一周内的学习状态示意图输入循环神经网络中，获得该用户自周一至周日的目标学习能力特征，最后，基于训练完毕的学习内容推荐模型对各目标学习能力特征进行特征提取，分析结果为该用户不擅长解答应用题，针对该用户对知识结构的掌握程度和学习能力，在线学习系统向该用户推荐应用题相关的网络课程，及简答题、填空题和选择题等练习题目，以帮助用户了解解题原理，捋清解题思路，尽快攻克该知识难点。

与上述方法实施例基于同一发明构思，本申请实施例还提供了一种学习内容的推荐装置。参阅图4示出的结构示意图，学习内容的推荐装置400可以包括：

处理单元401，用于获取表征各知识点之间的总关联关系的知识结构图，以及表征目标对象在设定时间范围内，针对知识结构图中部分知识点的学习状态示意图；

基于知识结构图和学习状态示意图进行第一特征提取，获得目标对象在设定时间范围内各时间阶段的目标学习能力特征；

推荐单元402，用于基于获得的各目标学习能力特征，为目标对象推荐相应的目标学习内容。

可选的，处理单元401用于：

针对各时间阶段，分别执行以下操作：

分别从学习状态示意图与知识结构图中，获取目标对象在一个时间阶段的学习状态信息，与相应知识点的子关联关系；

若一个时间阶段为首个时间阶段，通过对学习状态信息和子关联关系进行第一特征提取，获得目标对象在一个时间阶段的目标学习能力特征；

若一个时间阶段为非首个时间阶段，通过对学习状态信息、子关联关系，以及目标对象在上一个时间阶段的目标学习能力特征进行第一特征提取，获得相应的目标学习能力特征。

可选的，处理单元401用于：

通过对学习状态信息和子关联关系进行第一特征提取，获得目标对象在一个时间阶段的候选学习能力特征；

融合目标对象在上一个时间阶段的目标学习能力特征与一个时间阶段的候选目标学习能力，获得目标对象在一个时间阶段的目标学习能力特征。

可选的，学习状态信息包括：目标对象数据集合，目标对象的知识点学习进度及相应的考核分数信息，目标对象的实时学习信息。

可选的，推荐单元402用于：

通过预设的策略模型对获得的各目标学习能力特征进行第二特征提取，分别获得目标对象在学习各候选学习内容时的预测奖励值；

将预测奖励值超过设定阈值的候选学习内容，确定为向目标对象推荐的目标学习内容。

可选的，装置400还包括模型训练单元403，模型训练单元403通过执行以下操作，训练策略模型：

基于一个样本数据的状态变化信息，确定预设的价值模型的梯度，并基于价值模型的梯度调整相应的模型参数；以及，

基于一个样本数据的状态变化信息和价值模型的梯度，确定策略模型的梯度，并基于策略模型的梯度调整相应的模型参数。

可选的，模型训练单元403通过执行以下操作获得一个样本数据：

将样本对象的当前学习状态信息输入策略模型中，获得对应的当前学习内容；

通过学习当前学习内容，获得相应的策略评估值，及学习完当前学习内容之后的下一学习状态信息；

将样本对象的当前学习状态信息、对应的当前学习内容和策略评估值，以及样本对象的下一学习状态信息，确定为一个样本数据。

为了描述的方便，以上各部分按照功能划分为各模块(或单元)分别描述。当然，在实施本申请时可以把各模块(或单元)的功能在同一个或多个软件或硬件中实现。

在介绍了本申请示例性实施方式的服务平台的访问方法和装置之后，接下来，介绍根据本申请的另一示例性实施方式的计算机设备。

所属技术领域的技术人员能够理解，本申请的各个方面可以实现为系统、方法或程序产品。因此，本申请的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

与上述方法实施例基于同一发明构思，本申请实施例中还提供了一种计算机设备，参阅图5所示，计算机设备500可以至少包括处理器501、以及存储器502。其中，存储器502存储有程序代码，当程序代码被处理器501执行时，使得处理器501执行上述任意一种学习内容的推荐方法的步骤。

在一些可能的实施方式中，根据本申请的计算装置可以至少包括至少一个处理器、以及至少一个存储器。其中，存储器存储有程序代码，当程序代码被处理器执行时，使得处理器执行本说明书上述描述的根据本申请各种示例性实施方式的学习内容的推荐方法中的步骤。例如，处理器可以执行如图2b中所示的步骤。

下面参照图6来描述根据本申请的这种实施方式的计算装置600。图6的计算装置600仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图6所示，计算装置600以通用计算装置的形式表现。计算装置600的组件可以包括但不限于：上述至少一个处理单元601、上述至少一个存储单元602、连接不同系统组件(包括存储单元602和处理单元601)的总线603。

总线603表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。

存储单元602可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)6021和/或高速缓存存储单元6022，还可以进一步包括只读存储器(ROM)6023。

存储单元602还可以包括具有一组(至少一个)程序模块6024的程序/实用工具6025，这样的程序模块6024包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

计算装置600也可以与一个或多个外部设备604(例如键盘、指向设备等)通信，还可与一个或者多个使得用户能与计算装置600交互的设备通信，和/或与使得该计算装置600能与一个或多个其它计算装置进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口605进行。并且，计算装置600还可以通过网络适配器606与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器606通过总线603与用于计算装置600的其它模块通信。应当理解，尽管图中未示出，可以结合计算装置600使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

与上述方法实施例基于同一发明构思，本申请提供的服务平台的访问方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序代码在计算机设备上运行时，程序代码用于使计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的学习内容的推荐方法中的步骤，例如，计算机设备可以执行如图2b中所示的步骤。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种学习内容的推荐方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述基于所述知识结构图和所述学习状态示意图进行第一特征提取，获得所述目标对象在所述设定时间范围内各时间阶段的目标学习能力特征，包括：

针对所述各时间阶段，分别执行以下操作：

分别从所述学习状态示意图与所述知识结构图中，获取所述目标对象在一个时间阶段的学习状态信息，与相应知识点的子关联关系；

若所述一个时间阶段为首个时间阶段，通过对所述学习状态信息和所述子关联关系进行第一特征提取，获得所述目标对象在所述一个时间阶段的目标学习能力特征；

若所述一个时间阶段为非首个时间阶段，通过对所述学习状态信息、所述子关联关系，以及所述目标对象在上一个时间阶段的目标学习能力特征进行第一特征提取，获得相应的目标学习能力特征。

3.如权利要求2所述的方法，其特征在于，所述通过对所述学习状态信息、所述子关联关系，以及所述目标对象在上一个时间阶段的目标学习能力特征进行第一特征提取，获得相应的目标学习能力特征，包括：

通过对所述学习状态信息和所述子关联关系进行第一特征提取，获得所述目标对象在所述一个时间阶段的候选学习能力特征；

融合所述目标对象在上一个时间阶段的目标学习能力特征与所述一个时间阶段的候选目标学习能力，获得所述目标对象在所述一个时间阶段的目标学习能力特征。

4.如权利要求2或3所述的方法，其特征在于，所述学习状态信息包括：目标对象数据集合，所述目标对象的知识点学习进度及相应的考核分数信息，所述目标对象的实时学习信息。

5.如权利要求1所述的方法，其特征在于，所述基于获得的各目标学习能力特征，为所述目标对象推荐相应的目标学习内容，包括：

通过预设的策略模型对获得的各目标学习能力特征进行第二特征提取，分别获得所述目标对象在学习各候选学习内容时的预测奖励值；

将预测奖励值超过设定阈值的候选学习内容，确定为向所述目标对象推荐的目标学习内容。

6.如权利要求5所述的方法，其特征在于，通过执行以下操作，训练所述策略模型：

7.如权利要求6所述的方法，其特征在于，通过执行以下操作获得一个样本数据：

8.一种学习内容的推荐装置，其特征在于，包括：

9.如权利要求8所述的装置，其特征在于，所述处理单元用于：

针对所述各时间阶段，分别执行以下操作：

10.如权利要求9所述的装置，其特征在于，所述处理单元用于：

11.如权利要求9或10所述的装置，其特征在于，所述学习状态信息包括：目标对象数据集合，所述目标对象的知识点学习进度及相应的考核分数信息，所述目标对象的实时学习信息。

12.如权利要求8所述的装置，其特征在于，所述推荐单元用于：

13.一种计算机设备，其特征在于，其包括处理器和存储器，其中，所述存储器存储有程序代码，当所述程序代码被所述处理器执行时，使得所述处理器执行权利要求1～7中任一项所述方法的步骤。

14.一种计算机可读存储介质，其特征在于，其包括程序代码，当所述程序代码在计算机设备上运行时，所述程序代码用于使所述计算机设备执行权利要求1～7中任一项所述方法的步骤。

15.一种计算机程序产品，其特征在于，包括计算机指令，所述计算机指令被处理器执行时实现权利要求1～7中任一项所述方法的步骤。