CN104572918A - 一种在线课程的搜索方法 - Google Patents

一种在线课程的搜索方法 Download PDF

Info

Publication number
CN104572918A
CN104572918A CN201410834625.8A CN201410834625A CN104572918A CN 104572918 A CN104572918 A CN 104572918A CN 201410834625 A CN201410834625 A CN 201410834625A CN 104572918 A CN104572918 A CN 104572918A
Authority
CN
China
Prior art keywords
course
general introduction
introduction document
unit
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410834625.8A
Other languages
English (en)
Other versions
CN104572918B (zh
Inventor
薛宇飞
陈翱
孙茂松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201410834625.8A priority Critical patent/CN104572918B/zh
Publication of CN104572918A publication Critical patent/CN104572918A/zh
Application granted granted Critical
Publication of CN104572918B publication Critical patent/CN104572918B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种在线课程的搜索方法,属于网络信息智能处理领域,该方法包括:依照课程结构遍历课程内容,提取出每个课程内容单元的概述文档;对不同类型节点的概述文档分别建立索引文件,并将索引文件分类存储;根据用户查询的类型,选择索引文件进行检索,检索出相关的概述文档;根据中检索出的概述文档的相关度和类型,对课程进行评分;根据计算出的课程得分对课程进行排序,根据排序先后依次生成课程搜索结果。本发明可针对在线课程中包含不同类型的内容优化搜索效果与效率,满足不同用户针对具体类型内容搜索的需求。

Description

一种在线课程的搜索方法
技术领域
本发明属于网络信息智能处理领域,特别是涉及一种对在线课程的搜索及排序的方法及装置。
背景技术
随着互联网技术的发展,在线课程这种教学形式受到日益广泛的关注。在线课程以互联网网站或软件为平台,以授课视频为主要媒介,向互联网用户提供与传统课堂类似的教学内容。经过多年的发展,在线课程的的内容已经囊括了中小学教育、高等教育、职业能力教育、考试辅导等许多方面,课程种类丰富,数量繁多,一家在线课程网站就可能提供几百甚至上千门在线课程。由于课程数量极多,选择合适的课程成为学习者面对在线课程时所面临的第一个问题。
学习者可以接触到的在线课程内容一般包含以下几部分:
1)课程名:课程的名称,能够概括课程的内容;
2)授课教师:课程的讲授者及其背景信息;
3)课程介绍:向学习者简要介绍课程内容的文字;
4)授课内容:在线课程的主体部分,一般通过在线视频的方式呈现给学习者。
5)辅助材料:课程习题、讲义、幻灯片、参考资料等辅助在线学习的材料
在学习者选择在线课程时,以上内容都有助于帮助学习者判断该门在线课程的内容是否符合其需要。但学习者在了解和选择课程时,很难详细地了解课程内容。而提供一种在线课程搜索的方法,对学习者选择合适的具有十分重要的意义。
搜索引擎是通过关键词查询为使用者提供搜索服务的系统。用户向搜索引擎提交反映自己查询需求的关键词,搜索引擎检索到与查询词相关的搜索结果列表,将搜索结果按照与关键词的相关程度进行排序,并返回给用户。
搜索引擎可分为通用搜索引擎和垂直搜索引擎两类。两者的搜索目标不同:通用搜索引擎的搜索目标是互联网上的所有资源;垂直搜索引擎的搜索目标则是某一类特定的信息或资源。
传统搜索引擎技术对文本文档进行处理,建立索引,在用户进行查询时,查找索引,返回相似度较高的文本文档,按照相似度进行排序。在文档类型不是文本文档时,通常会将文档转化为文本文档,然后建立索引。
在线课程的搜索方法是一种应用于面向在线课程的垂直搜索引擎的技术。在大规模在线教育课程中,课程内容类型更为多样,用户搜索方式更加多样,例如搜索章节内部、搜索某种类型等,同时搜索结果中课程的相关程度不能简单按照文档相似度进行计算。现有的在线课程的搜索方法中,一般只对课程的名称、主讲人、课程简介等最基本的信息进行索引,并在这部分内容范围内进行检索,用户无法搜索到课程内容中的相关信息。
发明内容
本发明的目的旨在克服已有技术的不足之处,提出一个在线课程的搜索方法,本发明可针对在线课程中包含不同类型的内容优化搜索效果与效率,满足不同用户针对具体类型内容搜索的需求。
本发明提出的一种在线课程的搜索方法,应用在大规模在线教育课程平台上,其特征在于,该方法包括以下步骤:
1)依照课程结构遍历课程内容,提取出每个课程内容单元的概述文档;
具体为:将课程按内容划分成多个单元,每个单元中包含单一类型的内容,如习题、字幕、讲义等,根据课程内容单元的组织结构,依一定次序不重复地遍历每一个课程单元,读取每一个课程单元的内容;将每个课程单元的内容去除格式等信息,仅保留文字内容,生成该单元的概述文档,得到具有相同结构的概述文档;
2)对不同类型节点的概述文档分别建立索引文件,并将索引文件分类存储;
具体为:将概述文档中需要供用户检索的内容生成用于检索的索引文件,并在索引文件中记录概述文档对应的单元在课程中的位置信息,将索引文件按照相应节点的类型分类存储;
3)根据用户查询的类型,选择索引文件进行检索,检索出相关的概述文档;
具体为:用户在提交查询时,指定查询的内容类型和查询的范围,根据用户的查询选择对应类型及范围的索引文件进行检索,并返回对应的概述文档及概述文档与用户查询的相关度;若用户查询的范围是一门课程或一门课程的一部分,则转步骤6),否则继续步骤4)
4)根据步骤3)中检索出的概述文档的相关度和类型,对课程进行评分;
具体为:定义一门课程C的得分为:
score ( C ) = Σ i ∈ C F ( g i , r i , q )
其中,i是课程C中的一个单元的概述文档,q是用户提交的查询词,gi表示概述文档i在课程中的重要程度,ri,q表示概述文档i与查询词q的相关程度;gi通过i对应的节点在课程结构中的位置、节点内容类型、节点被用户查看的次数计算;
5)根据计算出的课程得分对课程进行排序,根据排序先后依次生成课程搜索结果;
具体为:根据计算出的课程得分,由高到低对课程进行排序;对于每一门课,根据从该门课程中检索出的概述文档复现课程搜索结果摘要,将搜索到的课程及课程中相关的单元展示给用户;
6)对检索到的概述文档排序并生成搜索结果;
具体为:将检索到的概述文档进行排序,按该顺序将检索到的概述文档对应的课程单元展示给用户。
本方法的特点:本方法提供一种易于扩展的结构,可以对包含课程名称、主讲人、课程介绍、授课内容、课程作业等在内的各种内容分别生成概述文档并建立索引;用户搜索时,可以检索到更全面的信息,该方法还将针对在不同索引中的检索情况综合评估,以对搜索到的课程进行排序。
本发明与现有的在线课程搜索引擎对比,主要有以下四个方面的改进:
1.提出了一种可以索引包括课程内容等全方面信息在内的课程搜索引擎,且课程内容类型易于扩展。
2.对搜索结果排序时,综合考虑不同类型内容的权重,决定课程顺序;
3.展示搜索结果时,可以呈现课程内容中具体的相关内容摘要;
4.满足不同用户针对具体类型内容搜索的需求;
5.提高针对具体类型内容搜索的搜索效率。
附图说明
图1为本发明的在线课程的搜索方法总体流程框图。
图2为本发明的方法的提取概述文档的具体流程框图。
具体实施方式
本发明提出的一种在线课程的搜索方法结合附图及实施方式详细说明如下:
本发明提出的一种在线课程的搜索方法,可应用在大规模在线教育课程平台上,该方法流程如图1所示,包括以下步骤:
1)依照课程结构遍历课程内容,提取出每个课程内容单元的概述文档;
具体实施方式如图2所示,具体为:将课程按内容划分成多个单元,每个单元中包含单一类型的内容,如习题、字幕、讲义等,根据课程内容单元的组织结构(例如树状结构、线性结构等),依一定次序不重复地遍历每一个课程单元,读取每一个课程单元的内容;将每个课程单元的内容去除格式等信息,仅保留文字内容,生成该单元的概述文档(对不同类型的课程单元,使用类似的方法生成概述文档),得到具有相同结构的概述文档,例如“单元标题/文本内容/单元在课程中的位置/单元类型”;
2)对不同类型节点的概述文档分别建立索引文件,并将索引文件分类存储;
具体实施方式为:将概述文档中需要供用户检索的内容生成用于检索的索引文件,并在索引文件中记录概述文档对应的单元在课程中的位置信息(位置信息的格式例如“课程ID/章ID/节ID/习题ID”),将索引文件按照相应节点的类型分类存储;
3)根据用户查询的类型,选择索引文件进行检索,检索出相关的概述文档;
具体实施方式:用户在提交查询时,指定查询的内容类型(如只搜索习题类型的节点)和查询的范围(例如:全部课程、某门课程、某具体章节),根据用户的查询选择对应类型及范围的索引文件进行检索,并返回对应的概述文档及概述文档与用户查询的相关度;若用户查询的范围是一门课程或一门课程的一部分,则转步骤6),否则继续步骤4)
4)根据步骤3)中检索出的概述文档的相关度和类型,对课程进行评分;
具体实施方式为:定义一门课程C的得分为:
score ( C ) = Σ i ∈ C F ( g i , r i , q )
其中,i是课程C中的一个单元的概述文档,q是用户提交的查询词,gi表示概述文档i在课程中的重要程度,ri,q表示概述文档i与查询词q的相关程度;ri,q的计算可采用通用的方法,gi可通过i对应的节点在课程结构中的位置、节点内容类型、节点被用户查看的次数等因素计算;
5)根据计算出的课程得分对课程进行排序,根据排序先后依次生成课程搜索结果;
具体实施方式为:根据计算出的课程得分,由高到低对课程进行排序;对于每一门课,根据从该门课程中检索出的概述文档复现课程搜索结果摘要,将搜索到的课程及课程中相关的单元展示给用户;
6)对检索到的概述文档排序并生成搜索结果;
具体实施方式为:将检索到的概述文档按照一定的规则进行排序(例如:按照概述文档的相关度排序,或按照对应的单元在课程中出现的顺序),按此顺序将检索到的概述文档对应的课程单元展示给用户。

Claims (1)

1.一种在线课程的搜索方法,应用在大规模在线教育课程平台上,其特征在于,该方法包括以下步骤:
1)依照课程结构遍历课程内容,提取出每个课程内容单元的概述文档;
具体为:将课程按内容划分成多个单元,每个单元中包含单一类型的内容,如习题、字幕、讲义等,根据课程内容单元的组织结构,依一定次序不重复地遍历每一个课程单元,读取每一个课程单元的内容;将每个课程单元的内容去除格式等信息,仅保留文字内容,生成该单元的概述文档,得到具有相同结构的概述文档;
2)对不同类型节点的概述文档分别建立索引文件,并将索引文件分类存储;
具体为:将概述文档中需要供用户检索的内容生成用于检索的索引文件,并在索引文件中记录概述文档对应的单元在课程中的位置信息,将索引文件按照相应节点的类型分类存储;
3)根据用户查询的类型,选择索引文件进行检索,检索出相关的概述文档;
具体为:用户在提交查询时,指定查询的内容类型和查询的范围,根据用户的查询选择对应类型及范围的索引文件进行检索,并返回对应的概述文档及概述文档与用户查询的相关度;若用户查询的范围是一门课程或一门课程的一部分,则转步骤6),否则继续步骤4)
4)根据步骤3)中检索出的概述文档的相关度和类型,对课程进行评分;
具体为:定义一门课程C的得分为:
score ( C ) = Σ i ∈ C F ( g i , r i , q )
其中,i是课程C中的一个单元的概述文档,q是用户提交的查询词,gi表示概述文档i在课程中的重要程度,ri,q表示概述文档i与查询词q的相关程度;gi通过i对应的节点在课程结构中的位置、节点内容类型、节点被用户查看的次数计算;
5)根据计算出的课程得分对课程进行排序,根据排序先后依次生成课程搜索结果;
具体为:根据计算出的课程得分,由高到低对课程进行排序;对于每一门课,根据从该门课程中检索出的概述文档复现课程搜索结果摘要,将搜索到的课程及课程中相关的单元展示给用户;
6)对检索到的概述文档排序并生成搜索结果;
具体为:将检索到的概述文档进行排序,按该顺序将检索到的概述文档对应的课程单元展示给用户。
CN201410834625.8A 2014-12-26 2014-12-26 一种在线课程的搜索方法 Active CN104572918B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410834625.8A CN104572918B (zh) 2014-12-26 2014-12-26 一种在线课程的搜索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410834625.8A CN104572918B (zh) 2014-12-26 2014-12-26 一种在线课程的搜索方法

Publications (2)

Publication Number Publication Date
CN104572918A true CN104572918A (zh) 2015-04-29
CN104572918B CN104572918B (zh) 2017-10-03

Family

ID=53088980

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410834625.8A Active CN104572918B (zh) 2014-12-26 2014-12-26 一种在线课程的搜索方法

Country Status (1)

Country Link
CN (1) CN104572918B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294487A (zh) * 2015-06-08 2017-01-04 腾讯科技(深圳)有限公司 基于互联网的自适应搜索方法、设备和系统
CN106776878A (zh) * 2016-11-29 2017-05-31 西安交通大学 一种基于ElasticSearch对MOOC课程进行分面检索的方法
CN108255830A (zh) * 2016-12-28 2018-07-06 中国移动通信集团公司 一种在线资源管理方法及装置
CN108734370A (zh) * 2017-12-27 2018-11-02 上海储翔信息科技有限公司 一种基于机器学习、大数据挖掘的智能课程评分系统
CN110188178A (zh) * 2019-05-30 2019-08-30 深圳龙图腾创新设计有限公司 一种跨文档信息查找方法、装置、计算机设备和存储介质
CN112380416A (zh) * 2020-11-25 2021-02-19 北京慕华信息科技有限公司 一种更新课程索引的方法、课程搜索方法和装置
CN114490526A (zh) * 2022-04-02 2022-05-13 北京新唐思创教育科技有限公司 选课索引文件更新方法、课程搜索方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050114322A1 (en) * 1998-09-27 2005-05-26 Infobit, Ltd. Apparatus and Method fopr Search and Retrieval of Documents
US20090234825A1 (en) * 2008-02-28 2009-09-17 Fujitsu Limited Information distribution system and information distribution method
CN102509249A (zh) * 2011-10-14 2012-06-20 郭华 基于知识点与位置的微课系统及其构建方法
CN103116657A (zh) * 2013-03-11 2013-05-22 中国科学院自动化研究所 一种网络教学资源的个性化搜索方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050114322A1 (en) * 1998-09-27 2005-05-26 Infobit, Ltd. Apparatus and Method fopr Search and Retrieval of Documents
US20090234825A1 (en) * 2008-02-28 2009-09-17 Fujitsu Limited Information distribution system and information distribution method
CN102509249A (zh) * 2011-10-14 2012-06-20 郭华 基于知识点与位置的微课系统及其构建方法
CN103116657A (zh) * 2013-03-11 2013-05-22 中国科学院自动化研究所 一种网络教学资源的个性化搜索方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李倩倩: "基于个性化知识搜索的E-learning系统的研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294487A (zh) * 2015-06-08 2017-01-04 腾讯科技(深圳)有限公司 基于互联网的自适应搜索方法、设备和系统
CN106294487B (zh) * 2015-06-08 2019-10-08 腾讯科技(深圳)有限公司 基于互联网的自适应搜索方法、设备和系统
CN106776878A (zh) * 2016-11-29 2017-05-31 西安交通大学 一种基于ElasticSearch对MOOC课程进行分面检索的方法
CN108255830A (zh) * 2016-12-28 2018-07-06 中国移动通信集团公司 一种在线资源管理方法及装置
CN108734370A (zh) * 2017-12-27 2018-11-02 上海储翔信息科技有限公司 一种基于机器学习、大数据挖掘的智能课程评分系统
CN110188178A (zh) * 2019-05-30 2019-08-30 深圳龙图腾创新设计有限公司 一种跨文档信息查找方法、装置、计算机设备和存储介质
CN112380416A (zh) * 2020-11-25 2021-02-19 北京慕华信息科技有限公司 一种更新课程索引的方法、课程搜索方法和装置
CN114490526A (zh) * 2022-04-02 2022-05-13 北京新唐思创教育科技有限公司 选课索引文件更新方法、课程搜索方法及装置

Also Published As

Publication number Publication date
CN104572918B (zh) 2017-10-03

Similar Documents

Publication Publication Date Title
CN104572918B (zh) 一种在线课程的搜索方法
Ekenna et al. Information retrieval skills and use of library electronic resources by university undergraduates in Nigeria
CN109002499B (zh) 学科相关性知识点库构建方法及其系统
Dai et al. Course Content Analysis: An Initiative Step toward Learning Object Recommendation Systems for MOOC Learners.
CN116595188A (zh) 一种基于人工智能和大数据的教育知识图谱系统
Xun et al. Text-mining approach for verifying alignment of information systems curriculum with industry skills
Frisch et al. Case study: Between the raw and the cooked in oral history: Notes from the kitchen
Bethard et al. Identifying science concepts and student misconceptions in an interactive essay writing tutor
CN111813919B (zh) 一种基于句法分析与关键词检测的mooc课程评价方法
Dicheva et al. Finding open educational resources in computing
Conde et al. How can wikipedia be used to support the process of automatically building multilingual domain modules? a case study.
Nagataki et al. A visual learning tool for database operation
Estivill-Castro et al. Towards the Ranking of Web-pages for Educational Purposes.
Lebedeva et al. Question Answering Systems in Education and their Classifications
Talikka et al. Does IL education have an impact on undergraduate engineering students' research skills
Sekiya et al. A Proposal for a Hybrid Syllabus Search Tool that Combines Keyword Search and Content Based Classification
Ganesan et al. SQLearn: Automated SQL Statement Assessment using Structure-based Analysis
Shih et al. Folksonomy-based indexing for retrieving tutoring resources
Cho et al. A social tagging system for online learning objects
Bârsan Information Retrieval by using Electronic Databases
Shu et al. Ontology-based indexing technologies in information retrieval: Building a topic map (iso 13250) for a mathematics education database
Li et al. Research on the Knowledge Graph Construction for Flipped Classroom
Lehnen et al. Survey of modern language research guides: A window on disciplinary information literacy
Sajjanhar Focused Web Crawling for E-Learning Content
CN114510628A (zh) 一种中小学学科学习资源的推送方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant