CN114154839A - 一种基于在线教育平台数据的课程推荐方法 - Google Patents
一种基于在线教育平台数据的课程推荐方法 Download PDFInfo
- Publication number
- CN114154839A CN114154839A CN202111433160.1A CN202111433160A CN114154839A CN 114154839 A CN114154839 A CN 114154839A CN 202111433160 A CN202111433160 A CN 202111433160A CN 114154839 A CN114154839 A CN 114154839A
- Authority
- CN
- China
- Prior art keywords
- data
- student
- students
- course
- embedding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 16
- 230000003993 interaction Effects 0.000 claims description 24
- 239000013598 vector Substances 0.000 claims description 21
- 239000011159 matrix material Substances 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 4
- 230000002452 interceptive effect Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000006399 behavior Effects 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000009933 burial Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
- G06Q10/06316—Sequencing of tasks or work
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0631—Item recommendations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
- G06Q50/205—Education administration or guidance
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Educational Administration (AREA)
- Marketing (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Educational Technology (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明属于教育信息化领域,提供一种基于在线教育平台数据的课程推荐方法,利用embedding技术以及图神经网络模型,基于学生基础信息以及学生在学习过程中产生的历史数据,考虑了不同学生之间的交互数据的影响,全面发挥数据的价值,利用前沿的图神经网络GNN算法模型,深度挖掘了学生与学生之间的关系,同时也考虑了课程与课程之间的相似度、学生与课程的历史交互数据,从而实现更加可靠的推荐方式。
Description
技术领域
本发明属于教育信息化领域,具体涉及一种基于在线教育平台数据的课程推荐方法,涉及学生基础属性以及学生社交关系的在线课程推荐方法。
背景技术
随着信息技术的飞速发展,信息资源以几何增长的形式存储在互联网平台,人们需要花费越来越多的时间来查找自己所需要的信息资源。近些年来,推荐算法在越来越多的平台开始使用,比如在电影推荐、书籍推荐等方面取得了不错的成效,为人们的日常生活节约了宝贵的时间。在互联网在线教育平台,无数的学子们在使用过程中产生了大量的学习行为数据,利用这些历史行为数据,可以对学生进行个性化课程推荐,使学生更加快速的获取自己想要的课程,从而达到更好的学习效果。
自从2013年在人工智能领域研究人员正式提出了词向量技术,即embedding技术。在此之后embedding技术在人工智能各个领域迅速推广,如自然语言处理领域以及智能推荐算法领域。现今在推荐算法领域,越来越多的人将各种不同的物品转换成向量,通过embedding技术,数字向量可以代表一种事物,这是一种数字化的表达方式,如此,推荐算法在计算事物之间的相似度更加准确。在图神经网络中,将物品或者人构造节点,通过人与人、人与物之间的关系,构造出图神经网络中节点与节点之间形成的边的关系。图神经网络使得人与人、人与物品之间形成了一个整体,不再是彼此之间相互独立的关系,通过图神经网络得到的向量在代表人或事物的时候更加准确有效。
发明内容
本发明的目的就是为了克服现有技术中的不足之处,利用embedding技术以及图神经网络模型,提供一种基于在线教育平台数据的课程推荐方法,该方法以学生为中心,考虑了不同学生之间的交互数据的影响,全面发挥数据的价值,利用前沿的图神经网络GNN算法模型,深度挖掘了学生与学生之间的关系,同时也考虑了课程与课程之间的相似度、学生与课程的历史交互数据,从而实现更加可靠的推荐方式。
本发明的目的是通过如下技术措施来实现的。
一种基于在线教育平台数据的课程推荐方法,该课程推荐方法是基于学生基础信息以及学生在学习过程中产生的历史数据,包括以下步骤:
(1)从在线教育平台数据库中获取学生与课程的相关数据D0;
(2)从数据D0中得到学生的相关数据,包括基础信息数据D1、学生与课程之间的历史交互数据D2、学生与学生之间的历史交互数据D3;
(3)根据基础信息数据D1建立学生基础属性数据矩阵X;
(4)根据学生与课程之间的历史交互数据D2建立学生参加过的课程序列,获取每一门课程的向量表达方式,即course_embedding_dict,其数据样式为{“course id”:“course embedding”};
(5)再次根据学生与课程之间的历史交互数据D2获取每一个学生对参加过的课程的评分,并建立一个评分矩阵R,其数据样式为{“student id”,“course id”,“coursegrade”};
(6)根据学生与学生之间的历史交互数据D3,建立学生与学生之间的邻接矩阵A,矩阵A存储的值为0或1,0代表学生之间产生的交互,1代表学生之间并未产生交互;
(7)通过矩阵X与矩阵A以及GAE算法模型建立一个字典student_embedding_dict,其数据样式为{“student id”:“student embedding”},其中student embedding是一种向量,其维度大小与course embedding维度大小保持一致;
(8)通过字典course_embedding_dict、student_embedding_dict以及评分矩阵R计算每一个学生对于未参加过的课程的预估评分。
(9)根据预估评分得到针对每一个学生的待推荐课程列表,从待推荐课程列表中按照预估评分的降序排列方式选取Top N作为实际推荐课程推送给相关学生。
本发明基于在线教育平台数据的课程推荐方法与现有课程推荐方式相比,具有如下优势:
本发明在数据利用方面更加全面,考虑到学生与学生之间交互的影响:如果学生之间产生了交互行为,如关注、点赞,那么其中一位学生更有可能需要学习其关注或点赞对象所学习过的课程。另外,本发明利用embedding技术使得在推荐流程中学生与课程以更准确的数据化方式表达出来。
附图说明
图1是本发明基于在线教育平台数据的课程推荐方法流程图。
具体实施方式
下面将结合附图及实施例,对本发明中的技术方案进行具体描述。显然所描述的实施例是本发明部分实施例,而不是全部实施例。基于本发明的实施例,本领域普通技术人员在没有付出创造性劳动的前提下所获得的所有其他实施例,都属于本发明的保护范围。
下面结合图1,具体介绍本发明的实现步骤。
S1,如图1所示,以数据埋点或者数据日志的方式获取学生与课程的相关数据,并将这些数据存储在本地服务器中的数据库得到相关数据D0。
S2,首先从在线教育平台的数据库下载学生的基础信息数据D1,学生与课程进行历史交互数据D2,学生与学生之间的历史互动数据D3,对于D1、D2以及D3数据中有缺失的部分,如果缺失比例大于20%,利用众数填补缺失数据,如果缺失比例小于20%,直接删除该条数据。
S3,根据基础信息数据D1,获取学生的总人数n,遍历每一个学生的基础数据,建立一个关于学生的属性数据矩阵Xn*p,其中p代表的是学生的基础属性维度大小。学生的基础属性维度包括但不限定为年龄、性别、专业等。Xn*p的数据样式为{“Student ID”,“age”,“Highest Degree”,“Post Count”,“Reply Count”“Is Student”,“Learn Long TimeCount”…}。
S4,根据学生与课程进行历史交互数据D2遍历每一个学生与课程的交互数据,建立学生参加过的课程序列,该序列按照学生与课程交互的时间顺序排列,将所有学生的课程序列组合起来形成一个列表course_embedding_dict,其数据样式为{“Student ID”,[“Math ID”,“English ID”,“Physics ID”…]},将该数据输入到genism算法库中从而得到一个字典,其数据样式为{“course id”:“course embedding”},其中course embedding一种向量,其维度大小是设为d。genism是一个python开源库,可以运行在Linux,Windows以及MacOS不同平台,只要将语料库作为输入并设置向量大小即可得到事物的向量表达方式,学生的课程序列即可作为语料库输入到genism库当中,最终得到课程向量的表达结果。
S5,根据学生与课程进行历史交互数据D2,遍历每一个学生与课程的交互数据,建立一个关于学生与课程交互信息的矩阵Sm*3,其中m代表的是学生与课程之间交互形成数据量,一个学生可以对应多门课程,Sm*3的数据样式为{“Student ID”,“Course ID”,“Grade”},任意一名学生i对一门课程j的真实评分Grade记作rateij。
S6,根据学生与学生之间的历史互动数据D3,先获取学生总的人数n,然后建立一个邻接矩阵An*n。对于矩阵An*n里面第i行、第j列元素的值aij,代表的是第i个学生与第j个学生的互动情况,对于i≠j的情况,第i个学生与第j个学生之间存在任意互动行为,则记aij=1,否则aij=0,对于i=j的情况,直接令aij=1。
S7,将获取的学生的属性数据矩阵Xn*p以及上一步骤获取的邻接矩阵An*n这两个矩阵输入到GAE算法模型当中,得到所有每一个学生的向量表示,实例化数据样式为{“Student ID”,“Student Embedding”},并设定“Student Embedding”的维度大小为d。GAE是一种基于GCN实现的GNN算法,该算法基于图的数据结构计算图中每一个节点embedding向量,利用PyG开源库可以实现该算法,其实现所需的基本步骤为设置两层GCN卷积层,再设置其激活函数为ReLU,ReLU函数是一种分段线性函数,把所有的负值都变为0,而正值不变。在算法训练时,设置相对熵函数为其损失函数,相对熵损失函数的数学表达形式为最后以随机梯度的训练方式得到学生的向量表达结果。
S8,假设以上数据中每一个学生i的embedding向量为ui,每一门课程j的embedding向量为ci,从步骤S5中获取的每一个学生i对每一个课程的真实评分为rateij,利用以下公式计算学生i对于课程j的预估得分为:
对此公式的解释如下:
N(j)表示上过课程j的其他学生的集合,|N(j)|表示上过该课程j的所有的学生人数,Product(ui,up)表示学生i与学生p的向量点积,ratepj表示学生p对课程j的真实评分,S(i)表示学生i上过的其他课程的集合,|S(j)|表示学生i上过的其他课程总的数量,Product(cq,cj)表示课程q与课程j的向量点积。
S9,对步骤8中计算出的每一个学生对课程的预估评分进行降序排列,筛选并排除掉学生已经上过的所有的课程,最后得到针对每一个学生的待推荐课程列表,其数据样式为{“student ID”,[“Math ID”,“English ID”,“Physics ID”…]}。
S10,从每位学生所有的待推荐课程中选取前N门课程推荐,N值大小一般取10。
本说明书未作详细描述的内容,属于本专业技术人员公知的现有技术。
应当说明的是,以上包含的本发明实例内容说明,是为了详解释本发明的技术特征。在不脱离本发明的前提下,所做出的若干改进和修饰也受本发明的保护,因此本发明的保护范围应当以本申请的权利要求所界定的内容为标准。
Claims (2)
1.一种基于在线教育平台数据的课程推荐方法,其特征在于该课程推荐方法是基于学生基础信息以及学生在学习过程中产生的历史数据,包括以下步骤:
(1)从在线教育平台数据库中获取学生与课程的相关数据D0;
(2)从数据D0中得到学生的相关数据,包括基础信息数据D1、学生与课程之间的历史交互数据D2、学生与学生之间的历史交互数据D3;
(3)根据基础信息数据D1建立学生基础属性数据矩阵X;
(4)根据学生与课程之间的历史交互数据D2建立学生参加过的课程序列,获取每一门课程的向量表达方式,即courseembedding;
(5)再次根据学生与课程之间的历史交互数据D2获取每一个学生对参加过的课程的评分,并建立一个评分矩阵R,其数据样式为{“student id”,“course id”,“course grade”};
(6)根据学生与学生之间的历史交互数据D3,建立学生与学生之间的邻接矩阵A,矩阵A存储的值为0或1,0代表学生之间产生的交互,1代表学生之间并未产生交互;
(7)通过矩阵X与矩阵A以及GAE算法模型建立一个字典student_embedding_dict,其数据样式为{“student id”:“student embedding”},其中student embedding是一种向量,其维度大小与course embedding维度大小保持一致;
(8)通过字典course_embedding_dict、student_embedding_dict以及评分矩阵R计算每一个学生对于未参加过的课程的预估评分;
(9)根据预估评分得到针对每一个学生的待推荐课程列表,从待推荐课程列表中按照预估评分的降序排列方式选取Top N作为实际推荐课程推送给相关学生。
2.根据权利要求1所述的基于在线教育平台数据的课程推荐方法,其特征在于步骤(9)中N值取10。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111433160.1A CN114154839A (zh) | 2021-11-29 | 2021-11-29 | 一种基于在线教育平台数据的课程推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111433160.1A CN114154839A (zh) | 2021-11-29 | 2021-11-29 | 一种基于在线教育平台数据的课程推荐方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114154839A true CN114154839A (zh) | 2022-03-08 |
Family
ID=80784354
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111433160.1A Pending CN114154839A (zh) | 2021-11-29 | 2021-11-29 | 一种基于在线教育平台数据的课程推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114154839A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115423546A (zh) * | 2022-07-25 | 2022-12-02 | 华中师范大学 | 一种基于多图神经网络的课程推荐方法 |
CN117236722A (zh) * | 2023-11-13 | 2023-12-15 | 光合新知(北京)科技有限公司 | 一种在线教学辅助方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106528656A (zh) * | 2016-10-20 | 2017-03-22 | 杨瀛 | 一种基于学员历史和实时学习状态参量实现课程推荐的方法和系统 |
CN109919810A (zh) * | 2019-01-22 | 2019-06-21 | 山东科技大学 | 在线学习系统中的学生建模与个性化课程推荐方法 |
CN112015783A (zh) * | 2020-08-30 | 2020-12-01 | 上海松鼠课堂人工智能科技有限公司 | 可交互学习流程生成方法和系统 |
-
2021
- 2021-11-29 CN CN202111433160.1A patent/CN114154839A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106528656A (zh) * | 2016-10-20 | 2017-03-22 | 杨瀛 | 一种基于学员历史和实时学习状态参量实现课程推荐的方法和系统 |
CN109919810A (zh) * | 2019-01-22 | 2019-06-21 | 山东科技大学 | 在线学习系统中的学生建模与个性化课程推荐方法 |
CN112015783A (zh) * | 2020-08-30 | 2020-12-01 | 上海松鼠课堂人工智能科技有限公司 | 可交互学习流程生成方法和系统 |
Non-Patent Citations (1)
Title |
---|
李艳红;樊同科;: "基于在线教育数据挖掘的个性化学习策略研究", 微型电脑应用, no. 08, 20 August 2020 (2020-08-20) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115423546A (zh) * | 2022-07-25 | 2022-12-02 | 华中师范大学 | 一种基于多图神经网络的课程推荐方法 |
CN117236722A (zh) * | 2023-11-13 | 2023-12-15 | 光合新知(北京)科技有限公司 | 一种在线教学辅助方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107766447B (zh) | 一种使用多层注意力网络机制解决视频问答的方法 | |
CN110148318B (zh) | 一种数字助教系统、信息交互方法和信息处理方法 | |
Sonkar et al. | qdkt: Question-centric deep knowledge tracing | |
Bourkoukou et al. | A personalized e-learning based on recommender system | |
CN108920544A (zh) | 一种基于知识图谱的个性化职位推荐方法 | |
CN110175251A (zh) | 基于语义对抗网络的零样本草图检索方法 | |
CN110059716B (zh) | 一种cnn-lstm-svm网络模型的构建及mooc辍学预测方法 | |
CN114154839A (zh) | 一种基于在线教育平台数据的课程推荐方法 | |
CN108829756A (zh) | 一种利用分层注意力上下文网络解决多轮视频问答的方法 | |
CN109086837A (zh) | 基于卷积神经网络的用户属性分类方法、存储介质、装置及电子设备 | |
CN114201684A (zh) | 一种基于知识图谱的自适应学习资源推荐方法及系统 | |
CN114297399A (zh) | 知识图谱生成方法、系统、存储介质及电子设备 | |
CN110321421A (zh) | 用于网站知识社区系统的专家推荐方法及计算机存储介质 | |
CN113934846B (zh) | 一种联合行为-情感-时序的在线论坛主题建模方法 | |
Jiang et al. | Evaluating Sources of Course Information and Models of Representation on a Variety of Institutional Prediction Tasks. | |
CN113657380A (zh) | 融合多模态注意力机制的图像美学质量评价方法 | |
Duan | Automatic generation and evolution of personalized curriculum based on genetic algorithm | |
Sokkhey et al. | Development and optimization of deep belief networks applied for academic performance prediction with larger datasets | |
CN109086463A (zh) | 一种基于区域卷积神经网络的问答社区标签推荐方法 | |
CN113283488B (zh) | 一种基于学习行为的认知诊断方法及系统 | |
CN112132075B (zh) | 图文内容处理方法及介质 | |
Fri et al. | Machine learning and deep learning applications in e-learning systems: A literature survey using topic modeling approach | |
Bechtel et al. | Beyond the exclusively propositional era | |
Hutzler et al. | Learning methods for rating the difficulty of reading comprehension questions | |
CN116361541A (zh) | 基于知识追踪与相似度分析的试题推荐方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |