CN105868317B - 一种数字教育资源推荐方法及系统 - Google Patents
一种数字教育资源推荐方法及系统 Download PDFInfo
- Publication number
- CN105868317B CN105868317B CN201610179836.1A CN201610179836A CN105868317B CN 105868317 B CN105868317 B CN 105868317B CN 201610179836 A CN201610179836 A CN 201610179836A CN 105868317 B CN105868317 B CN 105868317B
- Authority
- CN
- China
- Prior art keywords
- resource
- matrix
- user
- vector
- characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种数字教育资源推荐方法,其特征在于,包括以下步骤:(1)提取教育资源的文本信息;(2)将文本信息数字化处理,得到文本数字矩阵;(3)将文本数字矩阵输入预训练得到的资源特征识别器,资源特征识别器输出教育资源特征向量;(4)将教育资源特征向量与用户特征向量相乘,得到学生对教育资源的兴趣度。本发明从资源文本信息中提取教育资源特征,并结合学生特征判定学生对资源的兴趣度,任何只要有部分文字说明的资源均可适用该方法,适用面广,推荐满意度高。
Description
技术领域
本发明涉及教育信息化领域,尤其涉及一种数字教育资源推荐方法及系统。
背景技术
近十年来,互联网规模和覆盖面的迅速增长带来了信息超载的问题,为了解决这个问题推荐系统变得流行起来。推荐系统被用于很多场景,例如:电影、音乐、新闻、研究论文等。在基于教育云的在线教育领域也采取了推荐系统去使得学生提升学习效率和体验度,并为学生提供个性化的学习服务。
目前,实现推荐系统的方法有很多,这些方法主要可分为两大类:协同过滤方法和基于内容的推荐方法。协同过滤的基本思想是:找到与当前用户相似(比如兴趣和口味相似)的其他用户,并结合相似用户的评价记录进行推荐,在日常生活中,我们往往会利用好朋友的推荐来进行一些选择。协同过滤正是把这一思想运用到推荐系统中来。但是协同过滤容易陷入“冷启动”问题,在面对新资源或者冷门资源时不能正常工作。基于内容的推荐是指根据用户选择的对象,推荐其他类似属性的对象作为推荐。这一推荐策略首先提取推荐对象的内容特征,和用户模型中的用户兴趣偏好匹配,匹配度较高的推荐对象就可作为推荐结果推荐给用户,但是构建资源的内容特征往往需要大量的人工参与,并且很难得到合适的特征。
发明内容
针对现有技术中的缺陷,本发明的技术目的在于提供一种数字教育资源推荐方法及系统,从资源文本信息中提取教育资源特征,并结合学生特征判定学生对资源的兴趣度,任何只要有部分文字说明的资源均可适用该方法,适用面广,推荐满意度高。
一种数字教育资源推荐方法,包括以下步骤:
(1)提取教育资源的文本信息;
(2)将文本信息数字化处理,得到文本数字矩阵;
(3)将文本数字矩阵输入预训练得到的资源特征识别器,资源特征识别器输出教育资源特征向量;
(4)将教育资源特征向量与用户特征向量相乘,得到学生对教育资源的兴趣度。
进一步地,所述步骤(4)中的用户特征向量按照如下方式确定:
初始化用户特征矩阵U,用户特征矩阵U中的行表示用户,列表示影响用户兴趣度的隐含因子,记表示用户特征矩阵U的第i行用户特征向量;
初始化资源特征矩阵V,资源特征矩阵V中的行表示教育资源,列表示影响用户兴趣度的隐含因子,记表示特征资源矩阵V的第j行资源特征向量;
确定用户-资源矩阵,用户-资源矩阵中的元素rij表示用户i对资源j的兴趣度分值;
以为目标函数,计算确定用户特征向量和特征资源向量其中上标T表示转置。
进一步地,所述步骤(2)将文本信息数字化处理得到文本信息矩阵的具体实现过程为:对文本信息进行分词处理,将所得的每一个词采用向量表示,各词向量组成为文本数字矩阵。
进一步地,采用选择话题模型或分布式表达模型作为语言模型,将所得的每一个词采用向量表示。
进一步地,所述资源特征识别器采用卷积神经网络、时间递归神经网络、循环神经网络中的任意一种训练得到。
一种数字教育资源推荐系统,包括以下模块:
第一模块,用于提取教育资源的文本信息;
第二模块,用于将文本信息数字化处理,得到文本数字矩阵;
第三模块,用于将文本数字矩阵输入预训练得到的资源特征识别器,资源特征识别器输出教育资源特征向量;
第四模块,用于将教育资源特征向量与用户特征向量相乘,得到学生对教育资源的兴趣度。
进一步地,所述第四模块包括:
第四一子模块,用于初始化用户特征矩阵U,用户特征矩阵U中的行表示用户,列表示影响用户兴趣度的隐含因子,记表示用户特征矩阵U的第i行用户特征向量;
第四二子模块,用于初始化资源特征矩阵V,资源特征矩阵V中的行表示教育资源,列表示影响用户兴趣度的隐含因子,记表示特征资源矩阵V的第j行资源特征向量;
第四三子模块,用于确定用户-资源矩阵,用户-资源矩阵中的元素rij表示用户i对资源j的兴趣度分值;
第四四子模块,用于以为目标函数,计算确定用户特征向量和特征资源向量其中上标T表示转置。
本发明的技术效果体现在:
在云教育环境下,产生了大量的学习资源,使得学生难以在其环境中找到合适的、有帮助的学习资源,陷入“资源迷航”的困境中,而本发明教育资源推荐方法则是破除这一困境的有效方法。相对于传统的推荐方法,本发明能够直接利用资源文本信息,预估其特征值,结合学生特征直接做出推荐。高效地利用了资源文本信息,任何只要有部分文字说明的资源均可适用该方法,适用面广。试验表明,推荐结果用户满意度高,克服了传统推荐方法中的“冷启动”问题。
附图说明
图1是本发明方法流程图;
图2是卷积神经网络的构造;
图3是卷积神经网络训练示意图;
图4是训练隐含因子模型的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
请参考图1,本发明提供了一种数字教育资源推荐方法,包括以下步骤:
步骤1,提取教育资源的文本信息。
所述教育资源可以是譬如Word、Text的文本、网页、音频、视频、PPT等各种类型。如果是文本资源,可以直接提取文本全文内容或部分资源文字简介,如果是文本以外的资源,则提取资源文字简介。
步骤2,文本信息数字化。
将提取的文本信息进行分词处理,按照分词前的次序,形成一个有序的词序列。使用语言模型将每个词用对应的向量表示,结合之前生成的词序列,形成一个矩阵来表示原文本信息。
分词处理采用的语言模型要单独训练,训练资源推荐为大规模语料库。可以采取词语的话题模型或者分布式表达模型作为语言模型。
如果选择话题模型,则将一个词表示成为多个话题上的从属概率(向量),训练方法为LDA(见文献:D.M.Blei,A.Y.Ng,and M.I.Jordan,"Latent dirichlet allocation,"the Journal of machine Learning research,vol.3,pp.993-1022,2003.)。
如果选择分布式表达模型,则将一个词语表示成为一个向量,训练方法为CBOW或者Skip-Gram(见文献:T.Mikolov,I.Sutskever,K.Chen,G.S.Corrado,and J.Dean,"Distributed representations of words and phrases and their compositionality,"in Advances in neural information processing systems,2013,pp.3111-3119.)。
步骤3,将文本数字矩阵输入预训练得到的资源特征识别器,资源特征识别器输出教育资源特征向量。
所述资源特征识别器采用卷积神经网络、时间递归(LSTM)神经网络、循环神经网络或其他深度学习模型中的任意一种训练得到。下面以卷积神经网络为例详细说明训练过程。
卷积神经网络作为近期在人工智能领域取得巨大成功的模型,本发明将其引入作为推荐模型,其示意图请见图2。其作用方法为:将文本数字数据作为输入,结合训练的卷积神经网络模型,通过神经网络的正向传播,得到对应的学习资源特征向量
其中神经网络的训练过程包括:将系统搜集到的教育资源文本信息数字化之后作为卷积神经网络输入,再将对应的教育资源特征作为输出。
卷积神经网络通常由三种模块构成:卷积层、降采样层、全连接层。其中卷积层、全连接层由参数权重矩阵、偏置项与非线性映射函数构成。
训练卷积神经网络。其目标函数为均方误差(MSE):
其中,w,b代表了卷积神经网络中的全部参数,即要优化的目标。yi’表示训练库中第i个学习资源的特征向量,yi表示卷积神经网络的输出值。
其训练方法为小批度随机梯度下降,选取一定数量的样本作为一次梯度下降的样本,结合神经网络的前向后向传导进行梯度下降。具体训练过程见图3。
步骤4,将教育资源特征向量与用户特征向量相乘,得到学生对教育资源的兴趣度。
本发明使用向量来表示用户以及资源的特征,将教育资源特征向量与学生特征向量进行相乘,得到对应的兴趣度预估值再根据设定的兴趣度阈值决定是否要进行推荐操作。
其中,学生特征向量按照如下方式确定:
初始化用户特征矩阵U,用户特征矩阵U中的行表示用户,列表示影响用户兴趣度的隐含因子,记表示用户特征矩阵U的第i行学生特征向量。
初始化用户特征矩阵U,用户特征矩阵U中的行表示用户,列表示影响用户兴趣度的隐含因子,记表示用户特征矩阵U的第i行学生特征向量。
初始化资源特征矩阵V,资源特征矩阵V中的行表示教育资源,列表示影响用户兴趣度的隐含因子,记表示特征资源矩阵V的第j行资源特征向量;
确定用户-资源矩阵,用户-资源矩阵中的元素rij表示用户i对资源j的兴趣度分值;
以为目标函数,计算确定用户特征向量和特征资源向量其中上标T表示转置。上述计算过程可以采用梯度下降的方法进行求解,具体的求解过程请见图4。
用户特征矩阵U的列数与初始化资源特征矩阵V的行数相等,具体大小可根据训练样本数确定,训练样本数越多则列数和行数越多,反之越小,可根据推荐结果调整。
实例:
计算学生甲对学习资源《数据挖掘导论》之间的兴趣度,其过程为:首先获取《数据挖掘导论》的文本信息,将其转化为数字化信息,得到《数据挖掘导论》的文本信息M,将M作为训练完成的卷积神经网络的输入,通过卷积神经网络的正向转播得到预测的《数据挖掘导论》的特征向量N,再从学生特征库中取出学生甲的特征向量S,将向量N与S相乘,得到生甲对学习资源《数据挖掘导论》的兴趣度预估值a,若a大于系统预设的阈值,则对其进行推荐操作,反之则不进行推荐。
实例中,用户-资源矩阵如表1所示
其中空缺的值表示该用户对对应书籍未做出评价,在计算过程中对空缺值不进行计算。通过目标函数计算得到的用户特征矩阵U和资源特征矩阵V如表2和3所示:
本例中潜在因子选取为20个。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种数字教育资源推荐方法,其特征在于,包括以下步骤:
(1)提取教育资源的文本信息;
(2)将文本信息数字化处理,得到文本数字矩阵;
(3)将文本数字矩阵输入预训练得到的资源特征识别器,资源特征识别器输出教育资源特征向量;
(4)将教育资源特征向量与用户特征向量相乘,得到学生对教育资源的兴趣度;所述步骤(4)中的用户特征向量按照如下方式确定:
初始化用户特征矩阵U,用户特征矩阵U中的行表示用户,列表示影响用户兴趣度的隐含因子,记表示用户特征矩阵U的第i行用户特征向量;
初始化资源特征矩阵V,资源特征矩阵V中的行表示教育资源,列表示影响用户兴趣度的隐含因子,记表示特征资源矩阵V的第j行资源特征向量;
确定用户-资源矩阵,用户-资源矩阵中的元素rij表示用户i对资源j的兴趣度分值;
以为目标函数,计算确定用户特征向量和特征资源向量其中上标T表示转置。
2.根据权利要求1所述的数字教育资源推荐方法,其特征在于,所述步骤(2)将文本信息数字化处理得到文本信息矩阵的具体实现过程为:对文本信息进行分词处理,将所得的每一个词采用向量表示,各词向量组成为文本数字矩阵。
3.根据权利要求2所述的数字教育资源推荐方法,其特征在于,采用选择话题模型或分布式表达模型作为语言模型,将所得的每一个词采用向量表示。
4.根据权利要求1或2或3所述的数字教育资源推荐方法,其特征在于,所述资源特征识别器采用卷积神经网络、时间递归神经网络、循环神经网络中的任意一种训练得到。
5.一种数字教育资源推荐系统,其特征在于,包括以下模块:
第一模块,用于提取教育资源的文本信息;
第二模块,用于将文本信息数字化处理,得到文本数字矩阵;
第三模块,用于将文本数字矩阵输入预训练得到的资源特征识别器,资源特征识别器输出教育资源特征向量;
第四模块,用于将教育资源特征向量与用户特征向量相乘,得到学生对教育资源的兴趣度;所述第四模块包括:
第四一子模块,用于初始化用户特征矩阵U,用户特征矩阵U中的行表示用户,列表示影响用户兴趣度的隐含因子,记表示用户特征矩阵U的第i行用户特征向量;
第四二子模块,用于初始化资源特征矩阵V,资源特征矩阵V中的行表示教育资源,列表示影响用户兴趣度的隐含因子,记表示特征资源矩阵V的第j行资源特征向量;
第四三子模块,用于确定用户-资源矩阵,用户-资源矩阵中的元素rij表示用户i对资源j的兴趣度分值;
第四四子模块,用于以为目标函数,计算确定用户特征向量和特征资源向量其中上标T表示转置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610179836.1A CN105868317B (zh) | 2016-03-25 | 2016-03-25 | 一种数字教育资源推荐方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610179836.1A CN105868317B (zh) | 2016-03-25 | 2016-03-25 | 一种数字教育资源推荐方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105868317A CN105868317A (zh) | 2016-08-17 |
CN105868317B true CN105868317B (zh) | 2017-04-12 |
Family
ID=56624984
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610179836.1A Active CN105868317B (zh) | 2016-03-25 | 2016-03-25 | 一种数字教育资源推荐方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105868317B (zh) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106296312A (zh) * | 2016-08-30 | 2017-01-04 | 江苏名通信息科技有限公司 | 基于社交媒体的在线教育资源推荐系统 |
CN106407971A (zh) * | 2016-09-14 | 2017-02-15 | 北京小米移动软件有限公司 | 文字识别方法及装置 |
CN107153642A (zh) * | 2017-05-16 | 2017-09-12 | 华北电力大学 | 一种基于神经网络识别文本评论情感倾向的分析方法 |
CN107403398A (zh) * | 2017-07-18 | 2017-11-28 | 广州市沃迩德文化教育咨询服务有限公司 | 一种英语教育互联网平台及其使用方法 |
CN107665254A (zh) * | 2017-09-30 | 2018-02-06 | 济南浪潮高新科技投资发展有限公司 | 一种基于深度学习的菜谱推荐方法 |
CN108765076B (zh) * | 2018-05-24 | 2021-08-03 | 蜜芽宝贝(北京)网络科技有限公司 | 母婴内容推荐方法、装置及可读存储介质 |
CN109241424B (zh) * | 2018-08-29 | 2019-08-27 | 陕西师范大学 | 一种推荐方法 |
CN109614479A (zh) * | 2018-10-29 | 2019-04-12 | 山东大学 | 一种基于距离向量的裁判文书推荐方法 |
CN109543841A (zh) * | 2018-11-09 | 2019-03-29 | 北京泊远网络科技有限公司 | 深度学习方法、装置、电子设备及计算机可读介质 |
CN109582875B (zh) * | 2018-12-17 | 2021-02-02 | 武汉泰乐奇信息科技有限公司 | 一种在线医疗教育资源的个性化推荐方法及系统 |
CN110060538A (zh) * | 2019-04-08 | 2019-07-26 | 上海云之驾科技股份有限公司 | 基于历史数据建模的个性化人工智能驾培训练系统及方法 |
CN112000819B (zh) * | 2019-05-27 | 2023-07-11 | 北京达佳互联信息技术有限公司 | 多媒体资源推荐方法、装置、电子设备及存储介质 |
CN110609960B (zh) * | 2019-09-25 | 2022-02-22 | 华中师范大学 | 学习资源推荐方法、装置、数据处理设备及存储介质 |
CN111816276B (zh) * | 2020-07-08 | 2022-07-15 | 平安科技(深圳)有限公司 | 患教教程推荐方法、装置、计算机设备和存储介质 |
CN112989207B (zh) * | 2021-04-27 | 2021-08-27 | 武汉卓尔数字传媒科技有限公司 | 一种信息推荐方法及装置、电子设备、存储介质 |
CN113704610B (zh) * | 2021-08-27 | 2024-03-05 | 华中师范大学 | 一种基于学习成长数据的学习风格画像生成方法及系统 |
CN114723591B (zh) * | 2022-04-13 | 2023-10-20 | 北京邮电大学 | 基于增量式张量Tucker分解的教育推荐方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103440335A (zh) * | 2013-09-06 | 2013-12-11 | 北京奇虎科技有限公司 | 视频推荐方法及装置 |
CN104899195A (zh) * | 2014-01-26 | 2015-09-09 | 武汉联影医疗科技有限公司 | 一种个性化教育资源的推荐方法和装置 |
CN105095442A (zh) * | 2015-07-23 | 2015-11-25 | 海信集团有限公司 | 一种多媒体数据的推荐方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101026802B (zh) * | 2007-03-16 | 2012-10-17 | 华为技术有限公司 | 一种信息推送方法与装置 |
-
2016
- 2016-03-25 CN CN201610179836.1A patent/CN105868317B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103440335A (zh) * | 2013-09-06 | 2013-12-11 | 北京奇虎科技有限公司 | 视频推荐方法及装置 |
CN104899195A (zh) * | 2014-01-26 | 2015-09-09 | 武汉联影医疗科技有限公司 | 一种个性化教育资源的推荐方法和装置 |
CN105095442A (zh) * | 2015-07-23 | 2015-11-25 | 海信集团有限公司 | 一种多媒体数据的推荐方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN105868317A (zh) | 2016-08-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105868317B (zh) | 一种数字教育资源推荐方法及系统 | |
US11631147B2 (en) | Social recommendation method based on multi-feature heterogeneous graph neural networks | |
Jurgens et al. | Incorporating dialectal variability for socially equitable language identification | |
Farnadi et al. | Computational personality recognition in social media | |
CN107330130B (zh) | 一种向人工客服推荐回复内容的对话机器人的实现方法 | |
CN106569998A (zh) | 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法 | |
CN111026842A (zh) | 自然语言处理方法、自然语言处理装置及智能问答系统 | |
Hitesh et al. | Real-time sentiment analysis of 2019 election tweets using word2vec and random forest model | |
CN110222163A (zh) | 一种融合cnn与双向lstm的智能问答方法及系统 | |
CN103577989B (zh) | 一种基于产品识别的信息分类方法及信息分类系统 | |
CN111160452A (zh) | 一种基于预训练语言模型的多模态网络谣言检测方法 | |
CN111581966A (zh) | 一种融合上下文特征方面级情感分类方法和装置 | |
CN112307351A (zh) | 用户行为的模型训练、推荐方法、装置和设备 | |
CN108845986A (zh) | 一种情感分析方法、设备及系统、计算机可读存储介质 | |
CN109992781B (zh) | 文本特征的处理方法、装置和存储介质 | |
CN110413769A (zh) | 场景分类方法、装置、存储介质及其电子设备 | |
CN105740382A (zh) | 一种对短评论文本进行方面分类方法 | |
CN109815485A (zh) | 一种微博短文本情感极性识别的方法、装置及存储介质 | |
CN107392392A (zh) | 基于深度学习的微博转发预测方法 | |
CN109325124A (zh) | 一种情感分类方法、装置、服务器和存储介质 | |
CN109033294A (zh) | 一种融入内容信息的混合推荐方法 | |
Kozachenko | “Re-Imagining” the Homeland? Languages and National Belonging in Ukrainian Diasporas since the Euromaidan | |
RamyaSri et al. | Sentiment Analysis of Patients' Opinions in Healthcare using Lexicon-based Method | |
CN110895656A (zh) | 一种文本相似度计算方法、装置、电子设备及存储介质 | |
Desai et al. | A hybrid classification algorithm to classify engineering students' problems and perks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |