CN104484328A - 一种教育资源语义标注方法 - Google Patents
一种教育资源语义标注方法 Download PDFInfo
- Publication number
- CN104484328A CN104484328A CN201410571072.1A CN201410571072A CN104484328A CN 104484328 A CN104484328 A CN 104484328A CN 201410571072 A CN201410571072 A CN 201410571072A CN 104484328 A CN104484328 A CN 104484328A
- Authority
- CN
- China
- Prior art keywords
- resource
- mark
- label
- markup information
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/80—Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
- G06F16/84—Mapping; Conversion
- G06F16/86—Mapping to a database
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种教育资源语义标注方法,对于不同学习资源,进行资源信息抽取构建学习资源库,然后通过映射方式完成学习资源库与标签库中的标签进行映射,并抽取对应的标注信息存储于标注信息库中,从而实现学习资源的多标签标注。本发明综合考虑了教师经验及学生评分,将资源与标签进行一对多的标注,使资源增加了相应的语义信息,用户可以更加准确地搜索到所需资源。
Description
技术领域
本发明涉及语义资源标注方法领域,具体是一种教育资源语义标注方法。
背景技术
目前基于语义的资源标注方法都只能针对某一特定类型的资源,不能完成跨媒体资源标注。常用的语义资源标注方法只是给某一资源进行简单的贴上一个标签,而没有考虑与该资源有关标签可能不止一个,比如资源《名师解读立体几何问题》不仅仅是讲解立体几何问题,该资源还关联到坐标与图形运动的问题。现存的标注方法只是给予资源某个标签,仅仅完成定性分析,而没有对资源与标签的关联度进行定量研究。
对于海量增长的数字资源,现有的搜索方法大都没有考虑语义信息和用户的个性化特征,而主要是基于关键字匹配来查找并返回大量的信息,不能为用户提供准确、个性化的学习资源,造成了学习资源和人力的严重浪费。
发明内容
本发明的目的是提供一种教育资源语义标注方法,以解决现有技术语义标注方法存在的问题。
为了达到上述目的,本发明所采用的技术方案为:
一种教育资源语义标注方法,其特征在于:将文档、视频、图片学习资源进行资源信息抽取,以构建学习资源库;
基于《主题分类词表》构建的领域本体,采用本体构建工具Protégé4.2,并采用OWL DL语言来构建标签库;
通过映射方式完成学习资源库与标签库中的标签进行映射,并抽取对应的标注信息构建标注信息库;标注信息库中,标注信息即资源标注的结果,标注信息定义为一个三元组IA={R,L,β},其中R代表学习资源,实际上是资源的抽取信息;L代表标注标签,即是由领域本体抽取出的元知识点;β代表标签L与学习资源R的关联程度;
最后采用多标签资源标注方法,利用多个知识点作为标签去标注同一个资源,从而达到准确完整的描述资源信息,在对某一资源完成标注之后,即在标注信息库中构造了该资源的标注信息组{{R1,L1,β11},{R1,L2,β12},…}。
所述的一种教育资源语义标注方法,其特征在于:多标签资源标注分为三个阶段完成,分别是初始关联值确定、初始关联值处理和关联值更新;初始关联值确定完成资源的初始标注,由学科老师根据以往的教学经验分析教学资源并给出与教学资源相关的知识点以及相应的关联程度程度;初始关联值处理采用层次分析法进行;关联值更新阶段根据学生评分及教师经验自动完成关联程度值的更新,最终完成资源标注。
为解决学习资源的定量标注问题提出了基于层次分析法的多标签学习资源标注方法,对于文档、视频或图片等不同的学习资源,进行资源信息抽取构建学习资源库,然后通过某种映射方式完成学习资源库与标签库中的标签进行映射,并抽取对应的标注信息存储于标注信息库中,从而实现学习资源的多标签标注。具体示意图如图1。
参数的二次修正主要是对关联值的二次更新。每当学生完成某个资源的学习后,根据自己的理解给予该资源关于关联知识点的关联程度评定,假设m个学生对第j个资源与第i个知识点的关联程度评定为α1,α2,…,αm,根据用户的历史成绩,学习能力等因素通过层次分析法计算出每个学生的评价权值
ω=(ω1,ω2,…,ωm)
由此可得出学生对资源与知识点的关联程度值的判定
综合在此考虑到学生与老师在知识深度、理解能力以及系统用户对象等方面的因素,通过模糊层次分析法获得老师与学生对关联程度赋值的权重系数
η=(ηs,ηt)
故最终的关联程度值的计算公式为
βij=(β′ij,β″ij)*ηT
为了消除恶意评分对关联程度值准确性的影响,在对关联程度值更新前进行判定,若某个学生对j个资源与第i个知识点的关联程度值评定为θ,则更新条件为
|θ-βij|<σ
若满足更新条件则完成关联程度值更新,否则舍弃该评价值。
本发明利用了层次分析法及参数二次修正。综合考虑了教师经验及学生评分,将资源与标签进行一对多的标注,使资源增加了相应的语义信息,用户可以更加准确地搜索到所需资源。
附图说明
图1为本发明学习资源标注示意图。
图2为资源标注流程图。
具体实施方式
如图1、图2所示,一种教育资源语义标注方法,将文档、视频、图片学习资源进行资源信息抽取,以构建学习资源库;
基于《主题分类词表》构建的领域本体,采用本体构建工具Protégé4.2,并采用OWL DL语言来构建标签库;
通过映射方式完成学习资源库与标签库中的标签进行映射,并抽取对应的标注信息构建标注信息库;标注信息库中,标注信息即资源标注的结果,标注信息定义为一个三元组IA={R,L,β},其中R代表学习资源,实际上是资源的抽取信息;L代表标注标签,即是由领域本体抽取出的元知识点;β代表标签L与学习资源R的关联程度;
最后采用多标签资源标注方法,利用多个知识点作为标签去标注同一个资源,从而达到准确完整的描述资源信息,在对某一资源完成标注之后,即在标注信息库中构造了该资源的标注信息组{{R1,L1,β11},{R1,L2,β12},…}。
多标签资源标注分为三个阶段完成,分别是初始关联值确定、初始关联值处理和关联值更新;初始关联值确定完成资源的初始标注,由学科老师根据以往的教学经验分析教学资源并给出与教学资源相关的知识点以及相应的关联程度程度;初始关联值处理采用层次分析法进行;关联值更新阶段根据学生评分及教师经验自动完成关联程度值的更新,最终完成资源标注。
本发明为解决学习资源的定量标注问题提出了基于层次分析法的多标签学习资源标注方法。对于文档、视频或图片等不同学习资源,进行资源信息抽取构建学习资源库,然后通过某种映射方式完成学习资源库与标签库中的标签进行映射,并抽取对应的标注信息存储于标注信息库中,从而实现学习资源的多标签标注,具体示意图如图1所示。
由图示可以看出,本专利提出的标注方法主要包括三个方面的内容,分别是标签库构建、标注信息表示以及资源标注。
标签库的构建是基于《主题分类词表》构建的领域本体。由斯坦福大学医学信息化研究小组开发的本体构建工具Protégé是基于Java语言开发的开源本体编辑和知识获取软件,可以免费下载,并且具有良好的扩展性,它扩展的OWL插件是功能很强大的知识建模工具,更为可贵的是它支持中文的输入,因此我们选用Protégé4.2作为本体开发工具。采用OWL DL语言来构建领域知识本体。
标注信息即资源标注的结果,标注信息表示方法是决定资源标注成功与否的关键因素。在本专利中将其定义为一个三元组,IA={R,L,β}。其中,R代表学习资源,实际上是资源的抽取信息;L代表标注标签,即是由领域本体抽取出的元知识点;β代表标签L与该资源R的关联程度。
多标签资源标注方法就是利用多个知识点作为标签去标注同一个资源,从而达到尽可能准确完整的描述资源信息。在对某一资源完成标注之后,即在标注信息库中构造了该资源的标注信息组{{R1,L1,β11},{R1,L2,β12},…}。
在本发明中,资源标注主要分为三个阶段完成,分别是初始关联值确定、初始关联值处理和关联值更新。初始关联值确定主要是为了完成资源的初始标注,该阶段主要由学科老师根据以往的教学经验分析教学资源并给出与教学资源相关的知识点以及相应的关联程度程度。本发明采用层次分析法进行关联值处理。关联值更新阶段是系统根据学生评分及教师经验自动完成关联程度值的更新,最终完成资源标注。
Claims (2)
1.一种教育资源语义标注方法,其特征在于:将文档、视频、图片学习资源进行资源信息抽取,以构建学习资源库;
基于《主题分类词表》构建的领域本体,采用本体构建工具Protégé 4.2,并采用OWL DL语言来构建标签库;
通过映射方式完成学习资源库与标签库中的标签进行映射,并抽取对应的标注信息构建标注信息库;标注信息库中,标注信息即资源标注的结果,标注信息定义为一个三元组IA = {R, L, β},其中R代表学习资源,实际上是资源的抽取信息;L代表标注标签,即是由领域本体抽取出的元知识点;β代表标签L与学习资源R的关联程度;
最后采用多标签资源标注方法,利用多个知识点作为标签去标注同一个资源,从而达到准确完整的描述资源信息,在对某一资源完成标注之后,即在标注信息库中构造了该资源的标注信息组{{R1,L1,β11},{R1,L2,β12},… }。
2.根据权利要求1所述的一种教育资源语义标注方法,其特征在于:多标签资源标注分为三个阶段完成,分别是初始关联值确定、初始关联值处理和关联值更新;初始关联值确定完成资源的初始标注,由学科老师根据以往的教学经验分析教学资源并给出与教学资源相关的知识点以及相应的关联程度程度;初始关联值处理采用层次分析法进行;关联值更新阶段根据学生评分及教师经验自动完成关联程度值的更新,最终完成资源标注。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410571072.1A CN104484328A (zh) | 2014-10-23 | 2014-10-23 | 一种教育资源语义标注方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410571072.1A CN104484328A (zh) | 2014-10-23 | 2014-10-23 | 一种教育资源语义标注方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104484328A true CN104484328A (zh) | 2015-04-01 |
Family
ID=52758869
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410571072.1A Pending CN104484328A (zh) | 2014-10-23 | 2014-10-23 | 一种教育资源语义标注方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104484328A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107392811A (zh) * | 2017-09-01 | 2017-11-24 | 安徽教育网络出版有限公司 | 一种面向教育出版领域的本体构建方法 |
CN107590229A (zh) * | 2017-09-06 | 2018-01-16 | 安徽教育网络出版有限公司 | 一种构建学习资源多标签标注模型的方法 |
CN109062890A (zh) * | 2018-06-27 | 2018-12-21 | 北京明略软件系统有限公司 | 一种标签切换方法和装置、计算机可读存储介质 |
CN109087223A (zh) * | 2018-08-03 | 2018-12-25 | 广州大学 | 一种基于本体的教育资源模型构建方法 |
CN109815481A (zh) * | 2018-12-17 | 2019-05-28 | 北京百度网讯科技有限公司 | 对文本进行事件抽取的方法、装置、设备和计算机存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070238520A1 (en) * | 2006-02-10 | 2007-10-11 | Microsoft Corporation | Semantic annotations for virtual objects |
CN102982076A (zh) * | 2012-10-30 | 2013-03-20 | 新华通讯社 | 基于语义标签库的多维度内容标注方法 |
-
2014
- 2014-10-23 CN CN201410571072.1A patent/CN104484328A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070238520A1 (en) * | 2006-02-10 | 2007-10-11 | Microsoft Corporation | Semantic annotations for virtual objects |
CN102982076A (zh) * | 2012-10-30 | 2013-03-20 | 新华通讯社 | 基于语义标签库的多维度内容标注方法 |
Non-Patent Citations (2)
Title |
---|
张沪寅,张铭洋,李鑫: "基于领域本体的电子学习资源库模型", 《计算机应用》 * |
郭向勇, 傅国强, 周玉芬: "基于层次分析法的网络课程学习评价模型", 《电化教育研究》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107392811A (zh) * | 2017-09-01 | 2017-11-24 | 安徽教育网络出版有限公司 | 一种面向教育出版领域的本体构建方法 |
CN107590229A (zh) * | 2017-09-06 | 2018-01-16 | 安徽教育网络出版有限公司 | 一种构建学习资源多标签标注模型的方法 |
CN109062890A (zh) * | 2018-06-27 | 2018-12-21 | 北京明略软件系统有限公司 | 一种标签切换方法和装置、计算机可读存储介质 |
CN109087223A (zh) * | 2018-08-03 | 2018-12-25 | 广州大学 | 一种基于本体的教育资源模型构建方法 |
CN109815481A (zh) * | 2018-12-17 | 2019-05-28 | 北京百度网讯科技有限公司 | 对文本进行事件抽取的方法、装置、设备和计算机存储介质 |
CN109815481B (zh) * | 2018-12-17 | 2023-05-26 | 北京百度网讯科技有限公司 | 对文本进行事件抽取的方法、装置、设备和计算机存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104484328A (zh) | 一种教育资源语义标注方法 | |
CN104090955A (zh) | 一种音视频标签自动标注方法及系统 | |
JP2022532451A (ja) | 百科知識ベースと単語の埋め込みに基づく中国語地名語義の曖昧性解消方法 | |
CN113704499A (zh) | 一种准确而高效的智能化教育知识图谱构建方法 | |
CN107301164A (zh) | 数学公式的语义解析方法及装置 | |
Vachharajani et al. | A proposed architecture for automated assessment of use case diagrams | |
CN109299281A (zh) | 知识点标签的标注方法 | |
Kim | Analysis of standard vocabulary use of the open government data: the case of the public data portal of Korea | |
CN116595188A (zh) | 一种基于人工智能和大数据的教育知识图谱系统 | |
Bogdanović et al. | Methodology for geospatial data source discovery in ontology-driven geo-information integration architectures | |
Lacasta et al. | Design and evaluation of a semantic enrichment process for bibliographic databases | |
Li et al. | Aligning open educational resources to new taxonomies: How AI technologies can help and in which scenarios | |
CN110765241A (zh) | 推荐题的超纲检测方法、装置、电子设备和存储介质 | |
Chevelu et al. | ROOTS: a toolkit for easy, fast and consistent processing of large sequential annotated data collections. | |
CN112733515A (zh) | 文本生成方法、装置、电子设备及可读存储介质 | |
Felicetti et al. | Nlp tools for knowledge extraction from italian archaeological free text | |
CN111062216A (zh) | 命名实体识别方法、装置、终端及可读介质 | |
Tharmaseelan et al. | Revisit of automated marking techniques for programming assignments | |
Agosti et al. | A digital library of grammatical resources for european dialects | |
CN115757720A (zh) | 基于知识图谱的项目信息搜索方法、装置、设备和介质 | |
JP2011503730A5 (zh) | ||
CN114661900A (zh) | 一种文本标注推荐方法、装置、设备及存储介质 | |
Gaona-García et al. | Issues of Visual Search Methods in Digital Repositories. | |
CN117573891B (zh) | 基于文本理解模型的知识点生成方法及系统 | |
Arhar Holdt et al. | Corpus-based resources for L1 teaching: The case of Slovene |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20150401 |