CN112749805B

CN112749805B - 一种基于多种实体关系的在线课程推荐方法

Info

Publication number: CN112749805B
Application number: CN202110053692.6A
Authority: CN
Inventors: 郝鹏翼; 叶炳龙; 毛盛宇; 李雅丽; 白琮
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2021-01-15
Filing date: 2021-01-15
Publication date: 2024-02-13
Anticipated expiration: 2041-01-15
Also published as: CN112749805A

Abstract

本发明公开了一种基于多种实体关系的在线课程推荐方法，获取在线课程平台中各实体的数据，从各实体的数据中提取各实体关系，采用标准化来预处理各实体关系得到各实体关系权重，从各实体的数据中获得用户实体和课程概念实体的内容特征，得到不同元路径下的实体表示，最后结合用户实体表示和课程概念实体表示，最终输出用户对每个课程的评分矩阵，然后根据评分矩阵，从大到小排序，向用户推荐课程。本发明有效利用了不同实体关系之间丰富的信息，降低了数据稀疏性的问题，提高了预测的准确率。

Description

一种基于多种实体关系的在线课程推荐方法

技术领域

本发明属于教育课程推荐领域，尤其涉及了一种基于不同实体关系的在线课程推荐方法。

背景技术

自2008年以来，大规模在线开放课程(Massive Open Online Courses，简称MOOCs)在学生中大受欢迎，并通过面向全球开放在线资源提供新的教育机会，从而彻底改变了整个教育领域。《纽约时报》杂志宣布2012 年为“MOOC年”，原因是MOOC从教育理念转变为全球教育变革。数百所大学在不同的平台上提供数千门课程，如流行的Cousera、edX、Udacity、FutureLearn和XeutangX；还有以西班牙语提供MOOCs的MirindaX等。特别地，在疫情严重的2020年，在线课程教育在教育领域起到关键作用，几乎所有的中国高校以及大部分海外高校都采用了线上教育的方式，因此可以预测在接下来几年时间，MOOCs对各个领域的学习将具有重要的意义。

虽然MOOCs的规模不断增大，学生人数在不断增加，但MOOCs仍然存在一些困境。一、MOOCs上的课程数量和种类繁多，学生不能够很好的选择他感兴趣课程。二、MOOCs的课程视频中，往往存在大量的需要先修课程的知识概念，学生听不懂，却又不知道学习哪些先修课程。三、 MOOCs上同一种类的课程存在内容侧重点不同的问题，比如高等数学，有些课程侧重几何方面，有些课程侧重微积分方面。这对一个学生来选择是比较困难的。

这些种种的问题，无法吸引学生在平台上持续高效的学习，平台上整体的课程完成率低于5％，因此MOOCs需要更好的理解和捕捉学生的兴趣，推荐更合适学生的课程，而课程推荐的研究也显得尤为重要。

公开号为CN111639485A的专利申请记载了基于文本相似性的课程推荐装置、计算机装置及存储介质。该方法根据内容特征构建课程内容语料库，分别调用TF-IDF模型，主题模型，word2vec模型识别语料库得到一、二、三向量，确定三个向量对应的最优权值，根据这三个最优权值构建课程的最终向量，根据最终向量计算任意两个课程的相似度由此得到相似度矩阵。最后根据历史观看课程，调用相似度矩阵，向用户推荐课程列表。

然而现技术无法克服数据的稀疏性问题，只用了单一的实体关系，忽略了不同实体关系之间的丰富信息，存在推荐准确性不够等问题。

发明内容

本申请的目的是提出一种基于多种实体关系的在线课程推荐方法，用于克服数据的稀疏性问题，有效利用了不同实体之间丰富的关系，避免了上述信息浪费的情况，提高了课程推荐的准确性。

为了实现上述目的，本申请技术方案如下：

一种基于多种实体关系的在线课程推荐方法，包括：

步骤1、获取在线课程平台中各实体的数据，所述各实体包括课程、用户、课程视频、教师、课程概念，从各实体的数据中提取各实体关系，采用标准化来预处理各实体关系得到各实体关系权重；

步骤2、将各实体及各实体关系权重构成一个实体关系图，根据预设的元路径来得到实体关系图的子图，将子图的邻接矩阵作为元路径邻接矩阵；

步骤3、从各实体的数据中获得用户实体和课程概念实体的内容特征；

步骤4、将所述用户实体和课程概念实体的内容特征和相应的元路径邻接矩阵，分别输入到所构建的基于社区结构的图卷积神经网络中学习潜在的实体表示，得到不同元路径下的实体表示；

步骤5、将用户和课程概念在不同元路径下的实体表示，分别输入到所构建的特征融合函数，然后得到用户和课程概念最终实体表示；

步骤6、结合用户最终实体表示和课程概念最终实体表示，最终输出用户对每个课程的评分矩阵，然后根据评分矩阵，从大到小排序，向用户推荐课程。

进一步的，所述从各实体的数据中获得用户实体和课程概念实体的内容特征，包括：

将不同的课程概念组成一个语料库，语料库的大小为n₁，用one-hot编码的形式构建二维矩阵，每一行代表一个课程概念，每列的数值为0或1，课程概念语料库所构成的二维矩阵大小为n₁×n₁，n₁表示语料库中课程概念的数量，再通过维度为n₁×d₁的神经网络进行降维操作，d₁表示降维的维度，d₁<n₁，得到课程概念的内容特征

同理对用户实体进行上述操作，得到用户实体的内容特征 n₂表示用户的个数，d₂表示降维的维度，d₂<n₂。

进一步的，所述将各实体及各实体关系权重构成一个实体关系图，根据预设的元路径来得到实体关系图的子图，将子图的邻接矩阵作为元路径邻接矩阵，包括：

步骤2.1、将各实体及各实体关系权重构成一个实体关系图，所述实体关系图表示为G＝{V，E}，其中V是各实体的集合，E是各实体关系权重的集合，其中/>为用户与课程的关系，/>为用户与课程视频的关系，/>为用户与教师的关系，/>为用户与课程概念的关系；

步骤2.2、从实体关系图中设计所需要的元路径，得到元路径的集合 MP＝{MP₁，MP₂，MP₃......，MP_l}，l表示元路径的个数；

步骤2.3、根据所得到的元路径，在实体关系图上连接所有相关的实体，得到子图，根据子图形成元路径的邻接矩阵，矩阵中的值为两个实体之间边对应的实体关系权重，重复进行上述操作，直到得到所有元路径所对应的邻接矩阵

进一步的，所述将所述用户实体和课程概念实体的内容特征和相应的元路径邻接矩阵，分别输入到所构建的基于社区结构的图卷积神经网络中学习潜在的实体表示，得到不同元路径下的实体表示，包括：

步骤3.1、所构建的基于社区结构的图卷积神经网络的结构如下：

其中，是第m个元路径的邻接矩阵，F_eneity是实体entity的内容特征，经过三层图卷积层后得到实体entity在第m个元路径下的实体表示 />其中h¹,h²,h³为每一层图卷积的输出；

通过损失函数优化参数W⁰，W¹，W²，所述损失函数如下：

其中B为模块化矩阵，其公式为：

其中k_i、k_j表示第i、j个实体的边的个数；

步骤3.2、将元路径集合MP中的第一个元路径所构成的邻接矩阵和用户实体的内容特征F_n输入至图卷积神经网络中，/>表示元路径所构成的邻接矩阵，W^l表示第l层上的权重矩阵，σ(·)表示激活函数，在这里使用ReLU(·)函数，其中ReLU(·)为ReLU(a)＝max{0，a}，将内容特征和邻接矩阵输入至图卷积网络中，经过三层：

其中

其中，C₁,C₂,C₃用于控制每一层图卷积的输出h¹,h²,h³的维度，经过三层图卷积层后得到用户实体在第一个元路径下的实体表示通过损失函数优化参数W⁰，W¹，W²，损失函数如下：

其中B为模块化矩阵，其公式为：

其中k_ik_j表示第i、j个实体的边的个数；

重复上述过程，依次使用元路径集合MP中剩余的元路径，最终得到用户实体所有元路径下的实体表示

步骤3.3、对课程概念实体进行步骤3.2的操作，可以得到课程概念实体所有元路径下的实体表示

进一步的，所述将用户和课程概念在不同元路径下的实体表示，分别输入到所构建的特征融合函数，然后得到用户和课程概念最终实体表示，包括：

步骤4.1、通过特征融合函数学习不同元路径下实体所占的权重，并得到用户实体最终的实体表示，公式如下：

E^u指用户实体最终的实体表示，是相应元路径下的实体表示，其中/>表示权重函数，它的值也就是不同元路径下实体所占的权重，/>等于如下：

其中为相应元路径下的实体表示，/>表示可训练的参数。最终/>可以表示为：

步骤4.2、重复上述过程，得到课程概念最终实体表示E^k。

进一步的，所述结合用户最终实体表示和课程概念最终实体表示，最终输出用户对每个课程的评分矩阵，然后根据评分矩阵，从大到小排序，向用户推荐课程，包括：

步骤5.1、从各实体的数据中，把用户点击课程概念的次数当作评分矩阵，根据矩阵分解的方法，将评分矩阵分解为两个低阶矩阵，即用户和课程概念低维特征的潜在因子与/>其中D为潜在因子 x_u和y_k的维度，D<n₁，且D<n₂；

表示的就是评分矩阵，即每个用户在每个课程概念上的得分；

步骤5.2、将用户实体E^u和课程概念实体E^k投入预测评分矩阵的函数中，得到如下预测评分矩阵函数；

其中可训练的参数t^k，t^u被用来确保E^u，E^k在相同的维度空间， β_u，β_k是调优参数；

步骤5.3、最小化矩阵分解的优化函数来调整用户和课程概念低维特征的潜在因子x_u与y_k，最终得到评分矩阵优化函数为：

步骤5.4、根据评分矩阵，对每个用户的课程概念进行从大到小排序，向用户推荐排在前面的N个课程。

本申请提出的一种基于多种实体关系的在线课程推荐方法，不同于传统的图卷积神经网络只能捕捉单一实体关系之间的信息，该方法利用了元路径作为指引，帮助图卷积神经网络捕捉不同实体关系之间丰富的信息。此外考虑到传统的图卷积神经网络忽略了社区结构这一图的重要特征，该方法把社区结构纳入图卷积神经网络中，让实体的表示更加全面和完善。此外，考虑到不同的学生可能有不同的兴趣，该方法进一步提出了一个注意机制，以适应多个元路径在最终实体表示下所占的权重。最后，通过扩展矩阵分解对所建模型的参数进行优化，得到最终的推荐列表。有效利用了不同实体关系之间丰富的信息，降低了数据稀疏性的问题，提高了预测的准确率。

附图说明

图1是本申请基于多种实体关系的在线课程推荐方法流程图；

图2是本申请基于社区结构的图卷积神经网络结构示意图；

图3是本申请特征融合函数结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，一种基于多种实体关系的在线课程推荐方法，包括：

步骤1、获取在线课程平台中各实体的数据，所述各实体包括课程、用户、课程视频、教师、课程概念，从各实体的数据中提取各实体关系，采用标准化来预处理各实体关系得到各实体关系权重。

在线课程平台中存在各种实体，例如课程、用户、课程视频、教师、课程概念等。课程概念是如“C++”,“二叉树”，“冒泡排序”等这些本身包含丰富语义信息的课程关键词。

本申请获取在线课程平台中不同实体的数据Data＝{C(course)，U(user)， V(video)，T(teacher)，K(course concept)}，从Data中提取各实体关系权重其中/>为用户与课程的关系，/>为用户与课程视频的关系，/>为用户与教师的关系，/>为用户与课程概念的关系。

对用户和课程概念的关系，采用min-max标准化来处理它们的关系权重，公式为其中r_uk表示用户u与课程概念k之间的权重， r_{uk_min}和r_{uk_max}表示用户u与所有课程概念的关系权重中最小权重和最大权重，对每一行的每个值进行上述标准化，最后得到二维权重矩阵 />n₁，n₂分别表示为课程概念的数量和用户的数量。

对于用户与课程的关系，采用min-max标准化来处理它们的关系权重，公式为其中r_uc表示用户u与课程c之间的权重，r_{uc_min}和 r_{uc_max}表示用户u与所有课程的关系权重中最小权重和最大权重，对每一行的每个值进行上述标准化，最后得到二维权重矩阵 />n₃，n₂分别表示为课程的数量和用户的数量。。

对于用户与视频的关系，采用min-max标准化来处理它们的关系权重，公式为其中r_uv表示用户u与视频v之间的权重，r_{uv_min}和 r_{uv_max}表示用户u与所有视频的关系权重中最小权重和最大权重，对每一行的每个值进行上述标准化，最后得到二维权重矩阵 />n₄，n₂分别表示为视频的数量和用户的数量。

对于用户与教师的关系，采用min-max标准化来处理它们的关系权重，公式为其中r_ut表示用户u与教师t之间的权重，r_{ut_min}和 r_{ut_max}表示用户u与所有教师的关系权重中最小权重和最大权重，对每一行的每个值进行上述标准化，最后得到二维权重矩阵 />n₅，n₂分别表示为教师的数量和用户的数量。

需要说明的是，本申请的预处理操作也可以是使用z-score标准化，这里不再赘述。

步骤2、将各实体及各实体关系权重构成一个实体关系图，根据预设的元路径来得到实体关系图的子图，将子图的邻接矩阵作为元路径邻接矩阵。

具体的，包括：

步骤2.2、从实体关系图中设计所需要的元路径，得到元路径的集合 MP＝{MP₁，MP₂，MP₃……，MP_l}，l表示元路径的个数；

本申请R中的多种实体关系构成一个图(Graph)，并设计多个元路径 (meta-path)MP＝{MP₁，MP₂，MP₃......，MP_l}，其中l表示元路径的个数，然后根据元路径得到对应的邻接矩阵

本申请所述将实体关系权重R中的多种实体关系构成一个图(Graph)，并设计多个元路径(meta-path)MP＝{MP₁，MP₂，MP₃……，MP_l}，其中 l表示元路径的个数，然后根据元路径得到对应的邻接矩阵

如用户与课程概念的元路径R₄表示R中的第四个关系，其语义信息为：两个不同的用户通过点击相同的知识概念关联。如用户，课程和教师的元路径为/>其语义信息为：两个用户通过包含同一教师讲授的不同课程的路径关联。以此得到元路径的集合MP＝{MP₁，MP₂，MP₃......，MP_l}，l表示元路径的个数。

在图上连接所有相关的实体，得到子图，根据子图形成子图的邻接矩阵，矩阵中的值为两个实体之间边的权重。重复进行上述操作，直到得到所有元路径所对应的邻接矩阵

如表1所示，本申请所设计的元路径及其语义信息。在其他实施例中，元路径可以自由设计和组合。

表1

本申请利用了元路径作为指引，有助于接下来的图卷积神经网络捕捉不同实体关系之间丰富的信息。

步骤3、步骤3、从各实体的数据中获得用户实体和课程概念实体的内容特征。

本申请将不同的课程概念组成一个语料库，语料库的大小为n₁，用 one-hot编码的形式构建二维矩阵，每一行代表一个课程概念，每列的数值为0或1，课程概念语料库所构成的二维矩阵大小为n₁×n₁，n₁表示语料库中课程概念的数量，再通过维度为n₁×d₁的神经网络进行降维操作， d₁表示降维的维度，d₁<n₁，得到课程概念的内容特征

例如，本实施例二维矩阵每一行代表一个课程概念，每列的数值为0 或1，如三个课程概念(C++，JAVA，Python)那么one-hot编码的形式所构成二维矩阵为所以课程概念语料库所构成的二维矩阵大小为n₁×n₁，再通过维度为n₁×d₁的神经网络(d₁<n₁)进行降维操作，得到课程概念的内容特征/>

同理对用户实体进行上述操作，得到用户实体的内容特征此外内容特征也可以是用户与课程的内容特征。

步骤4、将所述用户实体和课程概念实体的内容特征和相应的元路径邻接矩阵，分别输入到所构建的基于社区结构的图卷积神经网络中学习潜在的实体表示，得到不同元路径下的实体表示。

将用户实体和课程概念实体的内容特征F_u、F_k和相应的元路径MP，分别输入到所构建的基于社区结构的图卷积神经网络中学习潜在的实体表示，得到不同元路径下的实体表示和 />

具体包括：

通过损失函数优化参数W⁰，W¹，W²，所述损失函数如下：

其中B为模块化矩阵，其公式为：

其中k_i、k_j表示第i、j个实体的边的个数；

步骤3.2、将元路径集合MP中的第一个元路径所构成的邻接矩阵和用户实体的内容特征F_u输入至图卷积神经网络中，/>表示元路径所构成的邻接矩阵，W^l表示第l层上的权重矩阵，σ(·)表示激活函数，在这里使用ReLU(·)函数，其中ReLU(·)为ReLU(a)＝max{0，a}，将内容特征和邻接矩阵输入至图卷积网络中，经过三层：

其中

其中B为模块化矩阵，其公式为：

其中k_ik_j表示第i、j个实体的边的个数；

如图2所示，本申请基于社区结构的图卷积神经网络如图所示，首先图卷积层对输入进行运算，然后进入ReLU激活层处理，连续经过三个图卷积层，最后得到输出。

需要说明的是，图卷积层可以不止三个，根据需要可以设置为1，2，4 个图卷积层。

步骤5、将用户和课程概念在不同元路径下的实体表示，分别输入到所构建的特征融合函数，然后得到用户和课程概念最终实体表示。

本申请所述将用户和课程概念在不同元路径下的实体表示和/>分别输入到所构建的特征融合函数，然后得到用户和课程概念最终实体表示E^u，E^k，包括：

步骤4.2、重复上述过程，得到课程概念最终实体表示E^k。

如图3所示，本申请特征融合函数结构包括，多元路径下的实体表示，权重函数，特征融合，最后得到一个由多条元路径融合下的最终实体表示。

本申请对于结合用户实体表示E^u和课程概念实体表示E^k，最终输出用户对每个课程的评分矩阵。然后根据评分矩阵，从大到小排序，向用户推荐Top-N课程，包括：

本申请通过矩阵分解，生成用户和课程概念的低维潜在因子，解决评分矩阵稀疏性的问题，加入信息融合后的用户实体和课程概念实体，输出的评分矩阵能够加准确。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于多种实体关系的在线课程推荐方法，其特征在于，所述基于不同实体关系的在线课程推荐方法系统，包括：

步骤6、结合用户最终实体表示和课程概念最终实体表示，最终输出用户对每个课程的评分矩阵，然后根据评分矩阵，从大到小排序，向用户推荐课程；

其中，所述将所述用户实体和课程概念实体的内容特征和相应的元路径邻接矩阵，分别输入到所构建的基于社区结构的图卷积神经网络中学习潜在的实体表示，得到不同元路径下的实体表示，包括：

其中，是第m个元路径的邻接矩阵，F_eneity是实体entity的内容特征，经过三层图卷积层后得到实体entity在第m个元路径下的实体表示/>其中h¹,h²,h³为每一层图卷积的输出；

通过损失函数优化参数W⁰，W¹，W²，所述损失函数如下：

其中B为模块化矩阵，其公式为：

其中k_i、k_j表示第i、j个实体的边的个数；

其中

其中B为模块化矩阵，其公式为：

其中k_ik_j表示第i、j个实体的边的个数；

2.根据权利要求1所述的基于多种实体关系的在线课程推荐方法，其特征在于，所述从各实体的数据中获得用户实体和课程概念实体的内容特征，包括：

同理对用户实体进行上述操作，得到用户实体的内容特征n₂表示用户的个数，d₂表示降维的维度，d₂<n₂。

3.根据权利要求1所述的基于多种实体关系的在线课程推荐方法，其特征在于，所述将各实体及各实体关系权重构成一个实体关系图，根据预设的元路径来得到实体关系图的子图，将子图的邻接矩阵作为元路径邻接矩阵，包括：

步骤2.2、从实体关系图中设计所需要的元路径，得到元路径的集合MP＝{MP₁，MP₂，MP₃......，MP_l}，l表示元路径的个数；

4.根据权利要求1所述的基于多种实体关系的在线课程推荐方法，其特征在于，所述将用户和课程概念在不同元路径下的实体表示，分别输入到所构建的特征融合函数，然后得到用户和课程概念最终实体表示，包括：

其中为相应元路径下的实体表示，/>表示可训练的参数，最终/>可以表示为：

步骤4.2、重复上述过程，得到课程概念最终实体表示E^k。

5.根据权利要求1所述的基于多种实体关系的在线课程推荐方法，其特征在于，所述结合用户最终实体表示和课程概念最终实体表示，最终输出用户对每个课程的评分矩阵，然后根据评分矩阵，从大到小排序，向用户推荐课程，包括：

步骤5.1、从各实体的数据中，把用户点击课程概念的次数当作评分矩阵，根据矩阵分解的方法，将评分矩阵分解为两个低阶矩阵，即用户和课程概念低维特征的潜在因子与/>其中D为潜在因子x_u和y_k的维度，D<n₁，且D<n₂；

其中可训练的参数t^k，t^u被用来确保E^u，E^k在相同的维度空间，β_u，β_k是调优参数；