CN113190761A

CN113190761A - 基于深度强化学习的个性化学习系统及方法

Info

Publication number: CN113190761A
Application number: CN202110574396.0A
Authority: CN
Inventors: 袁琳琳; 代亮亮; 陈春艳
Original assignee: Guizhou Cloud Science And Education Service Co ltd; Guizhou Weiyu Technology Co ltd; Guizhou Radio & Tv University (guizhou Vocational Technology Institute)
Current assignee: Guizhou Cloud Science And Education Service Co ltd; Guizhou Weiyu Technology Co ltd; Guizhou Radio & Tv University (guizhou Vocational Technology Institute)
Priority date: 2021-05-25
Filing date: 2021-05-25
Publication date: 2021-07-30

Abstract

本发明涉及学习系统技术领域，公开了基于深度强化学习的个性化学习系统及方法，包括个性化学习终端、个性化数据分析处理端以及个性化学习服务端，所述个性化学习终端还包括电子教材交互模块、作业与考试模块、个人学习档案管理模块、疑难问题互动交流模块与资源查询模块，所述个性化数据分析处理端包括个性化学情数据预处理模块、学习内容个性化推荐模块和学习结果智能测评模型构建模块，优点在于：通过整合了学习交互活动终端、个性化模型分析端、个性化学习服务端等多环节的系统资源，支撑学习者依据学习目标，应用个性化学习服务中心提供的服务，快速获取合适的学习资源和学习策略，完成学习目标并进行自我评价，实现自我导向学习。

Description

基于深度强化学习的个性化学习系统及方法

技术领域

本发明涉及学习系统技术领域，具体为基于深度强化学习的个性化学习系统及方法。

背景技术

如今，教育信息化已步入“2.0时代”，人工智能、大数据等技术在精准教学、个性化学习领域发挥的作用进一步凸显。通过信息技术与学科教学的深度融合，力求助推教育质量大幅提升，已成为业界的共识。随着互联网技术的普及和发展，越来越多的学习者通过网络获取学习资源。与此同时，多元化、个性化的知识定制服务也成了学习者需求的新热点。目前，对个性化教育的追求和教育资源分布不均衡，一直是教育行业的两大核心痛点，人工智能技术带来了解决问题的新的可能性。

基于人工智能技术的学习辅助工具，虽然能为学生的学习带来很好的服务体验，然而存在以下问题：

(1)、这些人工智能学习辅助工具更多是为了满足某个专门领域的学习需求，目的是为了促进学习者获得特定的知识和技能，而且这些系统常常作为学习教育的补充，未能深入影响学生的日常学习和生活，难以处理学习内容需求的动态变化。这种动态变化体现在两个方面，首先学习内容具有一定的时效性，其次是学习者对于学习内容的需求是不断变化的；

(2)、现有的学习内容推荐工具，无法建模学习者的兴趣及需求内容的动态变化，学习资源内容推荐不能确保实时有效性；

(3)、现有的学习辅助工具，只是涉及学习者学习活动某个独立的视角，并没有深入结合学习科学研究理论，和优化学习路径，因此没法实现学习者自主学习。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了基于深度强化学习的个性化学习系统及方法，解决了如何充分结合学习科学研究成果与人工智能技术的进步，使学习系统能够与学习者之间以更自然的方式进行交互，通过人工智能技术为学习者提供个性化学习等亟待解决的问题。

(二)技术方案

为实现上述目的，本发明提供如下技术方案：基于深度强化学习的个性化学习系统，包括个性化学习终端、个性化数据分析处理端以及个性化学习服务端，其特征在于，所述个性化学习终端还包括电子教材交互模块、作业与考试模块、个人学习档案管理模块、疑难问题互动交流模块与资源查询模块，所述个性化数据分析处理端包括个性化学情数据预处理模块、学习内容个性化推荐模块和学习结果智能测评模块。

优选的，所述个性化学习终端通过构建好的资源推荐模型根据学习者的动态访问交互日志为学习者推送与之能力相匹配的学习资源，所述个性化学习终端还通过学习结果智能测评模型根据学习者的学情数据智能诊断反馈学习者的课程完成情况与知识的薄弱，所述个性化学习终端还覆盖多个学习活动场景，这样有助于学习者获知自身不足，实现自主引导学习。

优选的，所述电子教材交互模块用于学习者对电子教材的绑定、下载、保存和对教材的学习交互记录，所述作业与考试模块用于课后作业的参与完成、批阅和展示的整套课后作业交互流程，所述资源查询模块包括学习资源库，通过获取学习者的考试、学习等交互信息，可以有效得知学习者的真实状况，以便于分析处理。

优选的，所述个性化学习终端通过融合多个学习活动场景产生的交互数据，提取学习者的个性化学习数据，采用深度强化学习算法对个性化学习进行内容推荐建模、且对学习结果进行个性化评价分析。

本发明要解决的另一技术问题是提供基于深度强化学习的个性化学习方法，包括以下步骤：

1)、个性化学习终端采集学情数据，学情数据包含静态学情数据和动态学情数据；

2)、学习者使用个性化学习终端的账号登录终端，获取学习资源，并绑定课程，跟进课程的开设进度参与学习、参与课程疑难问题答疑，并完成相关作业及考试测验；

3)、学习者在学习终端进行各种学习活动，通过学习播放课程视频、点击资源等实现与平台的个性化资源内容推荐系统的多轮交互，在该过程中推荐系统能够感知用户的实时行为，从而更加理解学习者的偏好和需求；

4)、个性化分析模型处理端将静态学情数据进行处理，提取离线的个性化特征数据；

5)、个性化分析模型处理端对动态学情数据进行处理，提取实时的个性化特征数据。实时的个性化特征数据包含学习者对学习资源的交互行为及学习任务的完成结果情况；

6)、个性化模型分析处理端，提取完学习者用户的离线特征，包含用户过去的历史反馈数据和实时特征，基于离线特征和实时特征采用深度强化学习构建个性化的学习内容分层推荐模型。

优选的，所述步骤1)中静态学情数据的采集包括以下方式：

A1、学习者在学生终端注册账号，填写档案信息，这些数据可在注册账号时以基本信息登记的形式采集，这些信息可通过学习者在学习终端的用户中心修改而更新；

A2、学习者通过账号在过去一个星期、一个月访问参与选定的课程视频学习、加入过的最新的相关课程，包含课程视频的直播和录播回放。对学习者在过去一个星期、一个月的学习行为数据进行采集存储，过去一个星期、一个月的学习行为数据如访问课程次数、有访问课程行为的天数、已完成的章节数、相关作业、测验考试考评情况等数据；

A3、学习者在过去一个星期、一个月对学习资源的历史查询和浏览行为数据。

优选的，所述步骤1)中动态学情数据的采集包括以下内容：

B1、采集学习者在课程学习参与中与教师互动的活跃度；

B2、采集学习者对学习资源内容搜索的关键字，及对搜索结果资源的点击、在线对学习资源的交互情况。

B3、动态学情数据实时采集上传到个性化学习模型处理分析端，进行分析预处理，实时计算学习者个性化的动态交互特征。

优选的，所述步骤4)中离线的个性化特征数据包括离线的特征数据包含学习者的性别、年龄、学历、爱好等，并将类别特征变量转换为虚拟数字变量，这样可以将特征信息转变为数字信息，以便于后续的模型构建。

(三)有益效果

与现有技术相比，本发明提供了基于深度强化学习的个性化学习系统及方法，具备以下有益效果：

1、该基于深度强化学习的个性化学习系统及方法，通过整合了学习交互活动终端、个性化模型分析端、个性化学习服务端等多环节的系统资源，支撑学习者依据学习目标，通过应用个性化学习服务中心提供的服务，快速获取合适的学习资源和学习策略，完成学习目标并进行自我评价，实现自我导向学习。

2、该基于深度强化学习的个性化学习系统及方法，通过个性化教育平台的终端设备，可实时采集学习者学习活动中的多维动态信息，这些信息通过后台进行分析处理，就可以发布到个性化学习的应用平台，实时服务于智能教育领域，通过深度强化学习，不仅基于学习者的静态个性化特征，还基于学习者的动态学习行为特征，不仅避免了推荐场景中的冷启动问题，同时确保了推荐结果的精准和多样性。

3、该基于深度强化学习的个性化学习系统及方法，通过个性化学习教育平台，能联合学习者和教育者等多个视角，不仅能实现个性化学习，还能实现个性化辅助教育，通过对特征分层融合分析设计、模型离线训练、以及支持增量更新的数据格式存储，可实现智能推荐模型的快速更新，快速服务于学习者的学习活动中，而且通过双DQN网络模型，充分利用了探索的策略，降低了推荐模型对已感知样本量的依赖，能更有效的服务于线上资源的推荐。

附图说明

图1为基于深度强化学习的个性化学习系统的系统构成结构示意图；

图2为基于深度强化学习的个性化学习方法的实施流程示意图；

图3为本发明学情分析预处理的流程示意图；

图4为本发明学习资源推荐的流程示意图。

具体实施方式

下面将结合本发明的实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一：

如图1所示，基于深度强化学习的个性化学习系统，包括个性化学习终端、个性化数据分析处理端以及个性化学习服务端，其特征在于，个性化学习终端还包括电子教材交互模块、作业与考试模块、个人学习档案管理模块、疑难问题互动交流模块与资源查询模块，个性化数据分析处理端包括个性化学情数据预处理模块、学习内容个性化推荐模块和学习结果智能测评模型构建模块。

作为本发明的一种优选技术方案，为了引导学生实现自我学习，将个性化学习终端通过构建好的资源推荐模型根据学习者的动态访问交互日志为学习者推送与之能力相匹配的学习资源，个性化学习终端还通过学习结果智能测评模型根据学习者的学情数据智能诊断反馈学习者的课程完成情况与知识的薄弱，个性化学习终端还覆盖多个学习活动场景，依据个性化模型分析端提供的分析结果，从学习内容、学习评价和学习路径三个方面为学习者提供个性化学习内容推送、个性化学习评价反馈以及个性化学习路径生成等学习服务。学习者通过应用个性化学习服务中心提供的服务，通过个性化评价结果快速了解自身学习的不足之处，进而产生深层次的学习需求和学习目标，实现自我导向学习。

作为本发明的一种优选技术方案，为了确保个性化学习终端覆盖多个学习活动场景，将对电子教材交互模块用于学习者对电子教材的绑定、下载、保存和对教材的学习交互记录，作业与考试模块用于课后作业的参与完成、批阅和展示的整套课后作业交互流程，而且资源查询模块包括学习资源库，习资源库包含：1)教师在教师终端注册账号，所开设的课程、下放所设课程的电子教材及相关作业和测试习题；2)个性化学习终端用户分享和上传的免费学习资源；3)领域从业者所设的专栏及特定知识讲义。

作为本发明的一种优选技术方案，通过融合个性化学习终端里面多个学习活动场景产生的交互数据，提取学习者的个性化学习数据，采用深度强化学习算法对个性化学习进行内容推荐建模、且对学习结果进行个性化评价分析，实现学习者自主智能导向学习。

如图2所示，基于深度强化学习的个性化学习方法，包括以下步骤：

4)、个性化分析模型处理端将静态学情数据进行处理，如图3所示，提取离线的个性化特征数据；

5)、如图3所示，个性化分析模型处理端对动态学情数据进行处理，提取实时的个性化特征数据。实时的个性化特征数据包含学习者对学习资源的交互行为及学习任务的完成结果情况；

6)、个性化模型分析处理端，提取完学习者用户的离线特征，包含用户过去的历史反馈数据和实时特征，基于离线特征和实时特征采用深度强化学习构建个性化的学习内容分层推荐模型，该个性化推荐决策能充分基于用户过往的反馈数据，另一方面能优化学习者交互过程之中的全局收益；

为了进一步提高推荐模型的可行性，我们设计了基于深度强化学习的个性化内容推荐模型构建步骤，步骤如下：

S1、特征设计：模型输入包含的离线特征和实时特征可进一步精细划分为：资源特征、学习者特征、学习者和资源的交互特征、上下文特征。资源特征包括资源类型(视频、教程PPT、文本讲义等)、资源提供者、资源访问量等等；学习者特征包括学习者在一个星期，一个月参与学习的资源特征；学习者和资源的交互特征包含(访问次数、访问频率)；上下文特征包含上下文信息，如资源交互时间、资源的新颖程度等；

S2、状态建模：个性化分析模型处理端融合学习者的多组个性化特征，融合后的学习者特征和上下文特征被定义为个性化推荐模型的状态空间，即在学习资源推荐场景下用户的意图和所处的场景。状态建模采用CNN的网络结构来提取状态的隐式表达。网络主要把学习者实时行为序列的样本作为输入，使用CNN学习学习者实时意图的表达，从而挖掘学习者所处的时间、地点、场景、以及一定周期内学习者的个性化学习行为。

S3、动作设计：将学习资源特征和交互特征用于表示当前的一个action，模型可以根据当前状态state采取当前这个action预测一个Q值，Q值包含立即获得的奖励和未来获得奖励的折扣，公式如下：

y_s,a＝Q(s,a)＝r_immediate+γr_future

S4、设计奖惩函数，系统根据当前的state，采取相应的action即推荐K个教育资源给用户之后，根据用户对推荐列表的反馈(点击、浏览或收藏资源)来得到当前state-action的即时奖励reward。立即获得的奖励可包含多部分，如学习者对资源的浏览访问奖励和学习者对资源活跃度贡献(收藏，购买，浏览时长，回放次数)奖励。

S5、模型的构建包含离线预训练和在线更新两个阶段。如本发明说明书附图的图4所示，模型的离线训练采用step1～step3生成的state-action训练样本数据进行训练，为了确保模型在线上的预测效果，减少对历史反馈样本量的依赖，本发明实时过程中采用具有有效exploration策略的改进DQN模型进行训练。当整个训练流程中的数据量和训练指标，符合上线要求时，可将预训练的模型同步上线。

S6、模型的在线更新。模型的更新分为短时间的次要更新和较长时间的主要更新。短时间的更新，是在固定的一些时刻，学习者发送资源搜索请求时，推荐模块根据当前的state产生K个学习资源给学习者用户，通过学习者对推荐资源的访问浏览交互行为得到反馈结果。通过对反馈结果和两个推荐的资源列表进行比较，可在每个时间点，评估基准网络和探索网络的表现，如果基准网络效果更好，则模型不更新。如果探索网络的表现更好，基准网络的参数将会向探索网络方向进行更新。

S7、在一段时间过后，根据DQN的经验池中存放的历史经验，对基准网络模型参数进行更新。

作为本发明的一种优选技术方案，为了详尽的获取用户静态学情数据，在步骤1)中静态学情数据的采集包括了以下方式：

A3、学习者在过去一个星期、一个月对学习资源的历史查询和浏览行为数据；

通过静态数据的采集，我们可以为用户构建档案，静态学情数据存储在学生档案信息数据库，该数据一旦采集存储，更新频率会很低。

作为本发明的一种优选技术方案，为了详尽的获取用户动态的学情数据，在步骤1)中动态学情数据的采集包括了以下内容：

B1、采集学习者在课程学习参与中与教师互动的活跃度；

B3、动态学情数据实时采集上传到个性化学习模型处理分析端，进行分析预处理，实时计算学习者个性化的动态交互特征；

通过上述态学情数据的采集，我们可以有效获知用户在实际的学习中与本平台的学习交互情况，为系统的判断提供了有利的数据支持。

作为本发明的一种优选技术方案，为了获知用户数据中的变量，并通过变量获取特征数据，我们在步骤4)中离线的个性化特征数据包括离线的特征数据包含了学习者的性别、年龄、学历、爱好等，并将类别特征变量转换为虚拟数字变量，为了构建模型，可以将类别特征变量转换为虚拟数字变量如one-hot编码，针对连续特征尺度相差很大的变量，可进行0～1的归一化处理，再进入模型的构建。

本发明的有益效果是：通过整合了学习交互活动终端、个性化模型分析端、个性化学习服务端等多环节的系统资源，支撑学习者依据学习目标，通过应用个性化学习服务中心提供的服务，快速获取合适的学习资源和学习策略，完成学习目标并进行自我评价，实现自我导向学习，通过个性化教育平台的终端设备，可实时采集学习者学习活动中的多维动态信息，这些信息通过后台进行分析处理，就可以发布到个性化学习的应用平台，实时服务于智能教育领域，通过深度强化学习，不仅基于学习者的静态个性化特征，还基于学习者的动态学习行为特征，不仅避免了推荐场景中的冷启动问题，同时确保了推荐结果的精准和多样性，再通过个性化学习教育平台，能联合学习者和教育者等多个视角，不仅能实现个性化学习，还能实现个性化辅助教育，通过对特征分层融合分析设计、模型离线训练、以及支持增量更新的数据格式存储，可实现智能推荐模型的快速更新，快速服务于学习者的学习活动中，而且通过双DQN网络模型，充分利用了探索的策略，降低了推荐模型对已感知样本量的依赖，能更有效的服务于线上资源的推荐。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.基于深度强化学习的个性化学习系统，包括个性化学习终端、个性化数据分析处理端以及个性化学习服务端，其特征在于，所述个性化学习终端还包括电子教材交互模块、作业与考试模块、个人学习档案管理模块、疑难问题互动交流模块与资源查询模块，所述个性化数据分析处理端包括个性化学情数据预处理模块、学习内容个性化推荐模块和学习结果智能测评模型构建模块。

2.根据权利要求1所述的基于深度强化学习的个性化学习系统，其特征在于，所述个性化学习终端通过构建好的资源推荐模型根据学习者的动态访问交互日志为学习者推送与之能力相匹配的学习资源，所述个性化学习终端还通过学习结果智能测评模型根据学习者的学情数据智能诊断反馈学习者的课程完成情况与知识的薄弱，所述个性化学习终端还覆盖多个学习活动场景。

3.根据权利要求1所述的基于深度强化学习的个性化学习系统及方法，其特征在于，所述电子教材交互模块用于学习者对电子教材的绑定、下载、保存和对教材的学习交互记录，所述作业与考试模块用于课后作业的参与完成、批阅和展示的整套课后作业交互流程，所述资源查询模块包括学习资源库。

4.根据权利要求1所述的基于深度强化学习的个性化学习系统及方法，其特征在于，所述个性化学习终端通过融合多个学习活动场景产生的交互数据，提取学习者的个性化学习数据，采用深度强化学习算法对个性化学习进行内容推荐建模、且对学习结果进行个性化评价分析。

5.基于深度强化学习的个性化学习方法，使用上述权利要求1-4种任意一项，其特征在于，包括以下步骤：

6.根据权利要求1所述的基于深度强化学习的个性化学习方法，其特征在于，所述步骤1)中静态学情数据的采集包括以下方式：

7.根据权利要求1所述的基于深度强化学习的个性化学习方法，其特征在于，所述步骤1)中动态学情数据的采集包括以下内容：

B1、采集学习者在课程学习参与中与教师互动的活跃度；

8.根据权利要求1所述的基于深度强化学习的个性化学习方法，其特征在于，所述步骤4)中离线的个性化特征数据包括离线的特征数据包含学习者的性别、年龄、学历、爱好等，并将类别特征变量转换为虚拟数字变量。