CN105868317B

CN105868317B - 一种数字教育资源推荐方法及系统

Info

Publication number: CN105868317B
Application number: CN201610179836.1A
Authority: CN
Inventors: 刘海; 杨宗凯; 刘三女牙; 张昭理; 舒江波
Original assignee: Huazhong Normal University
Current assignee: Huazhong Normal University
Priority date: 2016-03-25
Filing date: 2016-03-25
Publication date: 2017-04-12
Anticipated expiration: 2036-03-25
Also published as: CN105868317A

Abstract

本发明公开了一种数字教育资源推荐方法，其特征在于，包括以下步骤：(1)提取教育资源的文本信息；(2)将文本信息数字化处理，得到文本数字矩阵；(3)将文本数字矩阵输入预训练得到的资源特征识别器，资源特征识别器输出教育资源特征向量；(4)将教育资源特征向量与用户特征向量相乘，得到学生对教育资源的兴趣度。本发明从资源文本信息中提取教育资源特征，并结合学生特征判定学生对资源的兴趣度，任何只要有部分文字说明的资源均可适用该方法，适用面广，推荐满意度高。

Description

一种数字教育资源推荐方法及系统

技术领域

本发明涉及教育信息化领域，尤其涉及一种数字教育资源推荐方法及系统。

背景技术

近十年来，互联网规模和覆盖面的迅速增长带来了信息超载的问题，为了解决这个问题推荐系统变得流行起来。推荐系统被用于很多场景，例如：电影、音乐、新闻、研究论文等。在基于教育云的在线教育领域也采取了推荐系统去使得学生提升学习效率和体验度，并为学生提供个性化的学习服务。

目前，实现推荐系统的方法有很多，这些方法主要可分为两大类：协同过滤方法和基于内容的推荐方法。协同过滤的基本思想是：找到与当前用户相似(比如兴趣和口味相似)的其他用户，并结合相似用户的评价记录进行推荐，在日常生活中，我们往往会利用好朋友的推荐来进行一些选择。协同过滤正是把这一思想运用到推荐系统中来。但是协同过滤容易陷入“冷启动”问题，在面对新资源或者冷门资源时不能正常工作。基于内容的推荐是指根据用户选择的对象，推荐其他类似属性的对象作为推荐。这一推荐策略首先提取推荐对象的内容特征，和用户模型中的用户兴趣偏好匹配，匹配度较高的推荐对象就可作为推荐结果推荐给用户，但是构建资源的内容特征往往需要大量的人工参与，并且很难得到合适的特征。

发明内容

针对现有技术中的缺陷，本发明的技术目的在于提供一种数字教育资源推荐方法及系统，从资源文本信息中提取教育资源特征，并结合学生特征判定学生对资源的兴趣度，任何只要有部分文字说明的资源均可适用该方法，适用面广，推荐满意度高。

一种数字教育资源推荐方法，包括以下步骤：

(1)提取教育资源的文本信息；

(2)将文本信息数字化处理，得到文本数字矩阵；

(3)将文本数字矩阵输入预训练得到的资源特征识别器，资源特征识别器输出教育资源特征向量；

(4)将教育资源特征向量与用户特征向量相乘，得到学生对教育资源的兴趣度。

进一步地，所述步骤(4)中的用户特征向量按照如下方式确定：

初始化用户特征矩阵U，用户特征矩阵U中的行表示用户，列表示影响用户兴趣度的隐含因子，记表示用户特征矩阵U的第i行用户特征向量；

初始化资源特征矩阵V，资源特征矩阵V中的行表示教育资源，列表示影响用户兴趣度的隐含因子，记表示特征资源矩阵V的第j行资源特征向量；

确定用户-资源矩阵，用户-资源矩阵中的元素r_ij表示用户i对资源j的兴趣度分值；

以为目标函数，计算确定用户特征向量和特征资源向量其中上标T表示转置。

进一步地，所述步骤(2)将文本信息数字化处理得到文本信息矩阵的具体实现过程为：对文本信息进行分词处理，将所得的每一个词采用向量表示，各词向量组成为文本数字矩阵。

进一步地，采用选择话题模型或分布式表达模型作为语言模型，将所得的每一个词采用向量表示。

进一步地，所述资源特征识别器采用卷积神经网络、时间递归神经网络、循环神经网络中的任意一种训练得到。

一种数字教育资源推荐系统，包括以下模块：

第一模块，用于提取教育资源的文本信息；

第二模块，用于将文本信息数字化处理，得到文本数字矩阵；

第三模块，用于将文本数字矩阵输入预训练得到的资源特征识别器，资源特征识别器输出教育资源特征向量；

第四模块，用于将教育资源特征向量与用户特征向量相乘，得到学生对教育资源的兴趣度。

进一步地，所述第四模块包括：

第四一子模块，用于初始化用户特征矩阵U，用户特征矩阵U中的行表示用户，列表示影响用户兴趣度的隐含因子，记表示用户特征矩阵U的第i行用户特征向量；

第四二子模块，用于初始化资源特征矩阵V，资源特征矩阵V中的行表示教育资源，列表示影响用户兴趣度的隐含因子，记表示特征资源矩阵V的第j行资源特征向量；

第四三子模块，用于确定用户-资源矩阵，用户-资源矩阵中的元素r_ij表示用户i对资源j的兴趣度分值；

第四四子模块，用于以为目标函数，计算确定用户特征向量和特征资源向量其中上标T表示转置。

本发明的技术效果体现在：

在云教育环境下，产生了大量的学习资源，使得学生难以在其环境中找到合适的、有帮助的学习资源，陷入“资源迷航”的困境中，而本发明教育资源推荐方法则是破除这一困境的有效方法。相对于传统的推荐方法，本发明能够直接利用资源文本信息，预估其特征值，结合学生特征直接做出推荐。高效地利用了资源文本信息，任何只要有部分文字说明的资源均可适用该方法，适用面广。试验表明，推荐结果用户满意度高，克服了传统推荐方法中的“冷启动”问题。

附图说明

图1是本发明方法流程图；

图2是卷积神经网络的构造；

图3是卷积神经网络训练示意图；

图4是训练隐含因子模型的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

请参考图1，本发明提供了一种数字教育资源推荐方法，包括以下步骤：

步骤1，提取教育资源的文本信息。

所述教育资源可以是譬如Word、Text的文本、网页、音频、视频、PPT等各种类型。如果是文本资源，可以直接提取文本全文内容或部分资源文字简介，如果是文本以外的资源，则提取资源文字简介。

步骤2，文本信息数字化。

将提取的文本信息进行分词处理，按照分词前的次序，形成一个有序的词序列。使用语言模型将每个词用对应的向量表示，结合之前生成的词序列，形成一个矩阵来表示原文本信息。

分词处理采用的语言模型要单独训练，训练资源推荐为大规模语料库。可以采取词语的话题模型或者分布式表达模型作为语言模型。

如果选择话题模型，则将一个词表示成为多个话题上的从属概率(向量)，训练方法为LDA(见文献：D.M.Blei,A.Y.Ng,and M.I.Jordan,"Latent dirichlet allocation,"the Journal of machine Learning research,vol.3,pp.993-1022,2003.)。

如果选择分布式表达模型，则将一个词语表示成为一个向量，训练方法为CBOW或者Skip-Gram(见文献：T.Mikolov,I.Sutskever,K.Chen,G.S.Corrado,and J.Dean,"Distributed representations of words and phrases and their compositionality,"in Advances in neural information processing systems,2013,pp.3111-3119.)。

步骤3，将文本数字矩阵输入预训练得到的资源特征识别器，资源特征识别器输出教育资源特征向量。

所述资源特征识别器采用卷积神经网络、时间递归(LSTM)神经网络、循环神经网络或其他深度学习模型中的任意一种训练得到。下面以卷积神经网络为例详细说明训练过程。

卷积神经网络作为近期在人工智能领域取得巨大成功的模型，本发明将其引入作为推荐模型，其示意图请见图2。其作用方法为：将文本数字数据作为输入，结合训练的卷积神经网络模型，通过神经网络的正向传播，得到对应的学习资源特征向量

其中神经网络的训练过程包括：将系统搜集到的教育资源文本信息数字化之后作为卷积神经网络输入，再将对应的教育资源特征作为输出。

卷积神经网络通常由三种模块构成：卷积层、降采样层、全连接层。其中卷积层、全连接层由参数权重矩阵、偏置项与非线性映射函数构成。

训练卷积神经网络。其目标函数为均方误差(MSE)：

其中，w，b代表了卷积神经网络中的全部参数，即要优化的目标。y_i’表示训练库中第i个学习资源的特征向量，y_i表示卷积神经网络的输出值。

其训练方法为小批度随机梯度下降，选取一定数量的样本作为一次梯度下降的样本，结合神经网络的前向后向传导进行梯度下降。具体训练过程见图3。

步骤4，将教育资源特征向量与用户特征向量相乘，得到学生对教育资源的兴趣度。

本发明使用向量来表示用户以及资源的特征，将教育资源特征向量与学生特征向量进行相乘，得到对应的兴趣度预估值再根据设定的兴趣度阈值决定是否要进行推荐操作。

其中，学生特征向量按照如下方式确定：

初始化用户特征矩阵U，用户特征矩阵U中的行表示用户，列表示影响用户兴趣度的隐含因子，记表示用户特征矩阵U的第i行学生特征向量。

以为目标函数，计算确定用户特征向量和特征资源向量其中上标T表示转置。上述计算过程可以采用梯度下降的方法进行求解，具体的求解过程请见图4。

用户特征矩阵U的列数与初始化资源特征矩阵V的行数相等，具体大小可根据训练样本数确定，训练样本数越多则列数和行数越多，反之越小，可根据推荐结果调整。

实例：

计算学生甲对学习资源《数据挖掘导论》之间的兴趣度，其过程为：首先获取《数据挖掘导论》的文本信息，将其转化为数字化信息，得到《数据挖掘导论》的文本信息M，将M作为训练完成的卷积神经网络的输入，通过卷积神经网络的正向转播得到预测的《数据挖掘导论》的特征向量N，再从学生特征库中取出学生甲的特征向量S，将向量N与S相乘，得到生甲对学习资源《数据挖掘导论》的兴趣度预估值a，若a大于系统预设的阈值，则对其进行推荐操作，反之则不进行推荐。

实例中，用户-资源矩阵如表1所示

其中空缺的值表示该用户对对应书籍未做出评价,在计算过程中对空缺值不进行计算。通过目标函数计算得到的用户特征矩阵U和资源特征矩阵V如表2和3所示：

本例中潜在因子选取为20个。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种数字教育资源推荐方法，其特征在于，包括以下步骤：

(1)提取教育资源的文本信息；

(2)将文本信息数字化处理，得到文本数字矩阵；

(4)将教育资源特征向量与用户特征向量相乘，得到学生对教育资源的兴趣度；所述步骤(4)中的用户特征向量按照如下方式确定：

2.根据权利要求1所述的数字教育资源推荐方法，其特征在于，所述步骤(2)将文本信息数字化处理得到文本信息矩阵的具体实现过程为：对文本信息进行分词处理，将所得的每一个词采用向量表示，各词向量组成为文本数字矩阵。

3.根据权利要求2所述的数字教育资源推荐方法，其特征在于，采用选择话题模型或分布式表达模型作为语言模型，将所得的每一个词采用向量表示。

4.根据权利要求1或2或3所述的数字教育资源推荐方法，其特征在于，所述资源特征识别器采用卷积神经网络、时间递归神经网络、循环神经网络中的任意一种训练得到。

5.一种数字教育资源推荐系统，其特征在于，包括以下模块：

第一模块，用于提取教育资源的文本信息；

第四模块，用于将教育资源特征向量与用户特征向量相乘，得到学生对教育资源的兴趣度；所述第四模块包括：