CN107274077B

CN107274077B - 课程先后序计算方法和设备

Info

Publication number: CN107274077B
Application number: CN201710398841.6A
Authority: CN
Inventors: 李涓子; 李成江; 潘亮铭; 唐杰; 张鹏
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2017-05-31
Filing date: 2017-05-31
Publication date: 2020-07-31
Anticipated expiration: 2037-05-31
Also published as: CN107274077A

Abstract

本发明提供一种课程先后序计算方法和设备，用于解决确定大型网络课程中安排课程的学习顺序问题。其中方法包括：S101、根据辅助语料，获得第一语料中的概念实体的向量表示；S102、计算概念实体对之间的复杂程度距离特征；以及计算以下6种特征中的至少5种：语义关系特征、视频引用距离特征、通用句子引用距离特征、辅助文本引用距离、平均位置距离特征、分布不对称特征；S103、根据获得的概念实体对之间的复杂程度距离特征，以及根据在步骤S102中获得5种特征，采用随机森林方法训练获得概念的先后序关系；S104、通过概念实体的先后顺序，获得课程的先后顺序。本发明对网络上大型开放网络课程提供了一个有效的先后序确认方法。

Description

课程先后序计算方法和设备

技术领域

本发明涉及计算机技术，具体涉及课程先后序计算方法和设备。

背景技术

掌握学习(Mastery learning)由本杰明·布卢姆(Benjamin Bloom)于1968年首先正式提出，表明学生必须在基础知识上达到一定程度的掌握(例如，基础知识的90％)，然后才能继续学习后续的知识概念。从此，知识概念之间的先后序关系成为学校和大学设计课程的基石。先后序关系本质上可以看作是知识概念间的依赖。对人们学习、组织、应用和产生知识至关重要。运用概念间先后序关系来组织知识结构可以改进对课程的规划，自动生成阅读列表和提高教育质量等任务。以往，是由老师或助教提供知识概念间的先后序关系。

然而，在大型开放式网络课程(Massive Open Online Courses)时代，需要面对拥有成千上万种学习背景的学生，由老师或则助教安排课程的学习顺序变得并不可行。同时，大型开放式网络课程的快速发展提供了数千门课程，学生可以自由选择其中的课程来学习，而学生的兴趣各不相同，这也使得由老师或助教安排课程的学习顺序变得不可行。因此，需要从大型课程空间中自动挖掘知识概念之间先后序关系的方法，使来自不同背景的学生可以轻松探索知识空间，更好地设计个性化学习时间表。

发明内容

鉴于上述问题，本发明提出了克服上述问题或者至少部分地解决上述问题的课程先后序计算方法和设备。

为此目的，第一方面，本发明提出一种课程先后序计算方法，其特征在于，包括步骤：

S201、根据辅助语料，获得第一语料中的概念实体的向量表示；

S202、至少计算概念实体对之间的语义关系特征、平均位置距离特征、分布不对称特征和复杂程度距离特征；

S203、至少根据获得的概念实体对之间的语义关系特征、平均位置距离特征、分布不对称特征和复杂程度距离特征，采用随机森林方法训练获得概念的先后序关系；

S204、通过概念实体的先后顺序，获得课程的先后顺序；

或课程先后序计算方法包括步骤：

S101、根据辅助语料，获得第一语料中的概念实体的向量表示；

S102、计算概念实体对之间的复杂程度距离特征；以及计算以下6种特征中的至少5种：语义关系特征、视频引用距离特征、通用句子引用距离特征、辅助文本引用距离、平均位置距离特征、分布不对称特征；

S103、根据获得的概念实体对之间的复杂程度距离特征，以及根据在步骤S102中获得5种特征，采用随机森林方法训练获得概念的先后序关系；

S104、通过概念实体的先后顺序，获得课程的先后顺序。

可选的，对于有序概念实体向量<a，b>之间的复杂程度距离特征通过下述方式计算获得：

Cld(a，b)＝avc(a)·ast(a)-avc(b)·ast(b)；

其中，max(I(C，a))和min(I(C，a))分别指a在课程C中最后一次和第一次出现的视频序号；包含概念实体a的课程为C(a)，|C(a)|的值等于第一语料中包含概念实体a的课程的个数，|C|的值等于第一语料中课程的个数，Cld(a，b)即复杂程度距离特征。

可选的，对于有序概念实体向量<a，b>之间的语义关系特征通过下述方式计算获得：

其中，v_a、v_b分别为a、b的词向量嵌入表示，ω(a，b)即a和b之间的语义关系特征。

可选的，有序概念实体向量<a，b>之间的视频引用距离特征通过下述方式获得：

Vrd(a，b)＝Vrw(b，a)-Vrw(a，b)；

其中，D表示输入的第一语料中的所有课程，C表示第一语料中的某一课程，V表示是课程C的某一视频字幕；f(x，V)表示概念实体x在视频V中的频数；r(V，x)表示概念实体x是否出现在视频V中出现，函数值为1，否则为0；Vrd(a，b)即视频引用距离特征。

可选的，有序概念实体向量<a，b>之间的通用句子引用距离特征通过下述方法获得：

GSrd(a，b)＝GSrw(b，a)-GSrw(a，b)；

Srd(a，b)＝Srw(b，a)-Srw(a，b)；

其中，D表示输入的第一语料中的所有课程，C表示第一语料中的某一课程，V表示是课程C的某一视频字幕，s表示字幕V中的一个句子；r(s，x)∈{0，1}表示概念实体x是否出现在句子s中，出现则r(s，x)的值为1，否则为0；a_i∈e₁～e_M，e₁～e_M是在辅助语料上与概念实体a语义关系最为接近的M个实体；M为预设值；v_a、v_b分别为a、b的词向量嵌入表示，GSrd(a，b)即通用句子引用距离特征。

可选的，有序概念实体向量<a，b>之间的辅助文本引用距离通过下述方法获得：

Wrd(a，b)＝Wrw(b，a)-Wrw(a，b)；

其中v_a、v_b分别为a、b的词向量嵌入表示，Erw(e，a)表征辅助语料的文章e是否被R_a中任一概念所引用，被引用，值为1，否则为0；R_a＝<e₁，…，e_M>，e₁～e_M是在辅助语料上与概念实体a语义关系最为接近的M个实体；M为预设值，Wrd(a，b)即辅助文本引用距离。

可选的，有序概念实体向量<a，b>之间的平均位置距离特征：

的情况，即a、b不存在共现视频，定义Apd(a，b)＝0；Apd(a，b)即平均位置距离特征。

可选的，有序概念实体向量<a，b>之间的分布不对称特征；

其中，max(I(C，a))和min(I(C，a))分别指a在课程C中最后一次和第一次出现的视频序号；包含概念实体x的课程为C(x)，|C(x)|的值等于第一语料中包含概念实体x的课程的个数，|C(a)∩C(b)|即含有共现视频的课程数；|C|的值等于第一语料中课程的个数，集合S(C)＝{(i，j)|i∈I(C，a)，j∈I(C，b)，i＜j}，对于

的情况，定义Dad(a，b)＝0，Dad(a，b)即分布不对称特征。

第二方面，本发明提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上一所述方法的步骤。

第三方面，本发明提供一种计算机设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上执行的计算机程序所述处理器执行所述程序时实现如上任一所述方法的步骤。

由上述技术方案可知，在本发明中，在计算课程概念先后序时，将课程结构方面的复杂程度特征与其他特征结合，并通过随机森林方法根据上述特征计算课程概念之间的先后序，提高了课程概念先后序识别的准确性，从而对网络上大型开放网络课程提供了一个有效的先后序确认方法。

前面是提供对本发明一些方面的理解的简要发明内容。这个部分既不是本发明及其各种实施例的详尽表述也不是穷举的表述。它既不用于识别本发明的重要或关键特征也不限定本发明的范围，而是以一种简化形式给出本发明的所选原理，作为对下面给出的更具体的描述的简介。应当理解，单独地或者组合地利用上面阐述或下面具体描述的一个或多个特征，本发明的其它实施例也是可能的。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的一个是实施例中采用的数据集对应的相关统计信息表；

图2为本发明的一个实施例的结果分析表；

图3为本发明的另一个实施例的结果分析表；

图4为本发明的一个实施例的方法流程示意图。

具体实施方式

下面将结合示例性的通信系统描述本发明。

为了便于理解本发明的技术方案和原理，现对于本文中出现的一些术语进行介绍和解释：

语料：大规模的语言实例，例如由人民日报中的2000年之后的报道构成的语料，或由维基百科中的条目和对应条目的网页内容构成语料。语料的组成由语料收集者根据语料的用途决定。

语料库通常是指由经过分词和对分词进行词性标注后的语料构成。

实体(Entity)：通常是名词，例如“频率”“概率”，“单层神经元网络”，其是知识图谱的顶点；

概念实体：是一种特殊的实体，该实体是一种课程中概念。

元素：本文为了区别概念1(实体)和概念2(组成实体的实体)，因此将组成实体的实体称为元素，即由元素组成实体；例如“单层”“神经元”“网络”构成了实体“单层神经元网络”；有时元素也被称为词；根据语料的某一种或多种统计特征，将语料中的元素映射到向量空间，获得元素的向量表示，元素的向量表示也称为词向量。

实体的向量表示，也称为实体的嵌入表示或实体向量，其是根据语料的某一种或多种统计特征，将语料中的实体映射到向量空间。实体的向量表示与元素的向量表示具有相同的维度。

以下仅以通过课程视频字幕和百科文本的例子说明本发明是如何计算课程的先后序的。百科文本指的是维基百科中，与需要计算先后序课程相关的网页内容。

本领域技术人员应当知道，ppt文本、作业等都可代替本发明中课程视频字幕，或作为本发明课程视频字幕的补充，而教科书、ppt文本等可替代百科文本，或作为百科文本的补充，用于计算课程的先后序。

在本发明的一个实施例中，第一语料W包括各课程的视频字幕，辅助语料F包括百科文本。

通过分词和标注获得第一语料W中的概念实体；根据辅助语料F计算概念实体集合D’中的概念实体的向量表示。由第一语料W中概念实体的向量表示构成的集合标记为W’。第一语料W中的概念实体的向量表示的集合记为W’＝<w’₁…，w’_i…，w’_p>。

上述根据辅助语料W计算概念实体集合D’中的概念实体的向量表示，包括：根据Skip-gramWord2Vec处理辅助语料W，获得辅助语料中k个元素的向量表示<x₁，...x_i，...x_k>；若元素x等于实体w，则实体w的向量表示等于元素x的向量表示；若实体w不等于辅助语料W的k个元素中的任意一个，且w可以表示为w＝e1+...en，则实体w的向量表示等于各个元素的向量表示之和，其中e1，…en∈{x₁，...x_i，...x_k}。

即通过获得辅助语料中元素的向量表示获得第一语料W中概念实体的向量表示：

其中，v_w表示实体w的向量表示，v_e是元素e的向量表示，e、e1，…en∈{x₁，…x_i，...x_k}。例如对于处理辅助语料获得“概率”这一概念实体的向量表示v_e，则第一语料中的“概率”这一概念实体的向量表示等于v_e；若辅助语料中不具有“随机森林分类器”这一概念实体，而仅具有概念实体“随机森林”“分类器”这两个概念实体，则第一语料中“随机森林分类器”这一实体概念的向量表示等于“随机森林”和“分类器”的向量表示之和，若辅助语料中不具“随机森林”“分类器”这两个概念实体的向量表示，则第一语料的概念实体的向量表示的集合W’＝<w’₁…，w’_i…，w’_p>中不包含“随机森林分类器”这一概念实体的向量表示。因此，若辅语料中未出现第一语料中的概念实体w，则可通过其他实体的向量表示构造出w的向量表示，从而解决现有技术中若辅助语料中没有对应的概念实体时，无法求解第一语料中概念实体的先后序的问题。

在本发明的一个实施例中，根据上述计算获得的p个概念实体的向量表示W’＝<w’₁…，w’_i…，w’_p>(为了书写方便，将v_w写为w’)，至少计算概念实体对之间的课程上下文方面的特征和课程结构方面的特征，课程上下文方面的特征包括视频引用距离特征，通用句子引用距离特征和辅助文本引用距离特征；课程结构方面的特征包括平均位置距离特征、分布不对称特征和复杂程度距离特征，至少根据获得的概念实体对之间的视频引用距离特征，通用句子引用距离特征、辅助文本引用距离、平均位置距离特征、分布不对称特征和复杂程度距离特征，采用随机森林方法训练获得概念的先后序关系。

在本发明的另一实施例中，根据上述计算获得的p个概念实体的向量表示W’＝<w’₁…，w’_i…，w’_p>，至少计算概念实体对之间的概念语义方面的特征和课程结构方面的特征；课程概念语义方面的特征包括语义关系特征，课程结构方面的特征包括平均位置距离特征、分布不对称特征和复杂程度距离特征，至少根据获得的概念实体对之间的概念语义关系特征、平均位置距离特征、分布不对称特征和复杂程度距离特征，采用随机森林方法训练获得概念的先后序关系。

在本发明的另一实施例中，根据上述计算获得的p个概念实体的向量表示W’＝<w’₁…，w’_i…，w’_p>，至少计算概念实体对之间的概念视频引用距离特征、通用句子引用距离特征、辅助文本引用距离、平均位置距离特征、分布不对称特征和复杂程度距离特征，至少根据获得的概念语义关系特征、视频引用距离特征，通用句子引用距离特征、辅助文本引用距离、平均位置距离特征、分布不对称特征和复杂程度距离特征，采用随机森林方法训练获得概念的先后序关系。

在本发明的另一实施例中，根据上述计算获得的p个概念实体的向量表示W’＝<w’₁…，w’_i…，w’_p>，至少计算概念实体对之间的概念语义关系特征、通用句子引用距离特征、辅助文本引用距离、平均位置距离特征、分布不对称特征和复杂程度距离特征，至少根据获得的概念语义关系特征、通用句子引用距离特征、辅助文本引用距离、平均位置距离特征、分布不对称特征和复杂程度距离特征，采用随机森林方法训练获得概念的先后序关系。

在本发明的另一实施例中，根据上述计算获得的p个概念实体的向量表示W’＝<w’₁…，w’_i…，w’_p>，至少计算概念实体对之间的概念语义关系特征、视频引用距离特征辅助文本引用距离、平均位置距离特征、分布不对称特征和复杂程度距离特征，至少根据获得的概念语义关系特征、视频引用距离特征，辅助文本引用距离、平均位置距离特征、分布不对称特征和复杂程度距离特征，采用随机森林方法训练获得概念的先后序关系。

在本发明的另一实施例中，根据上述计算获得的p个概念实体的向量表示W’＝<w’₁…，w’_i…，w’_p>，至少计算概念实体对之间的概念语义关系特征、视频引用距离特征、通用句子引用距离特征、平均位置距离特征、分布不对称特征和复杂程度距离特征，至少根据获得的概念语义关系特征、视频引用距离特征、通用句子引用距离特征、平均位置距离特征、分布不对称特征和复杂程度距离特征，采用随机森林方法训练获得概念的先后序关系。

在本发明的另一实施例中，根据上述计算获得的p个概念实体的向量表示W’＝<w’₁…，w’_i…，w’_p>，至少计算概念实体对之间的概念语义关系特征、视频引用距离特征，通用句子引用距离特征、辅助文本引用距离、分布不对称特征和复杂程度距离特征，至少根据获得的概念语义关系特征、视频引用距离特征，通用句子引用距离特征、辅助文本引用距离、分布不对称特征和复杂程度距离特征，采用随机森林方法训练获得概念的先后序关系。

在本发明的另一实施例中，根据上述计算获得的p个概念实体的向量表示W’＝<w’₁…，w’_i…，w’_p>，至少计算概念实体对之间的概念语义关系特征、视频引用距离特征、通用句子引用距离特征、辅助文本引用距离、平均位置距离特征和复杂程度距离特征，至少根据获得的概念语义关系特征、视频引用距离特征、通用句子引用距离特征、辅助文本引用距离、平均位置距离特和复杂程度距离特征，采用随机森林方法训练获得概念的先后序关系。

以上实施例只是为了示例说明本发明的实施方案，并不是本发明的全部实施例，本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。

在本发明中，在计算课程概念先后序时，将课程结构方面的复杂程度特征与其他特征结合，并通过随机森林方法根据上述特征计算课程概念之间的先后序，提高了课程概念先后序识别的准确性，从而对网络上大型开放网络课程提供了一个有效的先后序确认方法。

在本文的一个实施例中，通过下述方法计算概念实体对<a，b>之间的概念语义关系特征：对于概念对<a，b>，表示a是b的先序概念，b是a的后续概念。a和b之间的语义关系(Semantic relatedness，Sr)特征记为ω(a，b)，

其中，v_a、v_b分别为a、b的词向量嵌入表示。

在本文的一个实施例中，通过下述方法计算概念实体对<a，b>之间的视频引用距离特征，视频引用距离特征也称为通用视频引用距离特征，对于一个概念对<a，b>，a和b之间的视频引用权重(Video reference weight，Vrw)定义为：

其中，一个领域的课程D包括n个课程分别标记为C₁～C_n，记为D＝{C₁，…，C_i，…，C_n}，课程C_x有m个视频序列C_x＝(V₁，...，V_i，...V_m)组成，V_i代表课程C_i的第i个视频的字幕；而字幕V_x由r个句子构成，即V_x＝(s₁，…s_i，…s_r)，s_i是V_x的第i个句子。f(a，V)表示概念a在视频V中的频数，反映了a对视频的重要程度。r(V，b)表示概念b是否出现在视频V中，出现，函数值为1，否则为0。直观上，如果b出现在很多包含a的视频中，b是a的先续概念可能性很大，此时Vrw(a，b)会是一个较大的数值。因此，两个概念间的视频引用距离(Video referencedistance，Vrd)定义为：

Vrd(a，b)＝Vrw(b，a)-Vrw(a，b)

在本文的一个实施例中，通过下述方法计算概念实体对<a，b>之间的通用句子引用距离：

可以定义a和b之间的句子引用权重(Sentence reference weight，Srw)和句子引用距离(Sentence reference distance，Srd)：

Srd(a，b)＝Srw(b，a)-Srw(a，b)

其中r(s，a)∈{0，1}表示概念实体a是否出现在句子s中，出现则r(s，a)的值为1，否则为0。Srw(a，b)可以计算出包含a的句子中出现概念实体b的比率。

考虑概念间语义关系，定义通用句子引用权重(Generalized Sentencereference weight，GSrw)与通用句子引用距离(Generalized Sentence referencedistance，GSrd)特征：

GSrd(a，b)＝GSrw(b，a)-GSrw(a，b)

在本文的一个实施例中，通过下述方法计算概念实体对<a，b>之间的辅助文本引用距离：

辅助文本中也可能蕴含概念间先后序关系信息，因此，给定课程概念实体a，考虑与a在辅助语料上语义关系最为接近的M个实体，形式化为R_a＝<e₁，…，e_M>，其中e₁，…，e_M属于辅助语料中的实体标注E，定义辅助语料引用权重(Wikipedia reference weight，Wrw)：

其中Erw(e，a)表征辅助语料的文章e是否被R_a中任一概念所引用，被引用，值为1；否则为0。Wrw(a，b)度量了与a相关的辅助语料实体被与b相关的辅助语料实体引用的频率。

定义辅助文本引用距离(Wikipedia reference distance，Wrd)特征为：

Wrd(a，b)＝Wrw(b，a)-Wrw(a，b)

在本文的一个实施例中，通过下述方法计算概念实体对<a，b>之间平均位置距离特征；

形式化定义包含概念实体a的课程为C(a)，即C(a)＝{C_i|C_i∈D，a∈W′}。形式化定义a在课程C中的索引为I(C，a)。如，a出现在C课程中的第1和第4个视频中，I(C，a)＝{1，4}。

给定一个概念b，其先续概念实体a通常在b之前被介绍，但a、b可能会被多次提及，所以考虑各自出现位置的平均值，通常存在a的平均距离小于b的平均距离的分布。因此，对于同现于一个视频的两个概念，即

定义平均位置距离(Averageposition distance，Apd)特征：

对于

的情况，即a、b不存在共现视频，定义Apd(a，b)＝0。

在本文的一个实施例中，通过下述方法计算概念实体对<a，b>之间的分布不对称特征；

给定一个概念b，为其先序概念a；给定一个包含a的视频V_a，包含b的视频V_b，其中V_a在序号上先于V_b。通常存在f(b，V_a)＜f(a，V_b)，f(b，V_a)表示V_a中b的个数。形式化定义视频序号对集合S(C)＝{(i，j)|i∈I(C，a)，j∈I(C，b)，i＜j}，进一步定义分布不对称(Distributional asymmetry distance，Dad)特征为：

对于

的情况，定义Dad(a，b)＝0。

在本文的一个实施例中，通过下述方法计算概念实体对<a，b>之间的复杂程度距离特征；定义概念的平均视频覆盖率(average video coverage，avc)、平均覆盖长度(average survival time，avt)为：

其中max/min(I(C，a))指a在C中最后一次/第一次出现的视频序号。

两个概念间的复杂程度距离(Complexity level distance，Cld)特征定义为：

Cld(a，b)＝avc(a)·ast(a)-avc(b)·ast(b)；

给定一个领域的在线课程集合D和其中的课程概念实体向量表示的集合W’＝<w’₁…，w’_i…，w’_p>，目标是通过随机森林学习获得一个由W′²空间到{0，1}空间的映射函数P，使得一个概念对<a，b>，其中a，b∈W′，被映射到二分类0和1中，分别表征a不是b的先序概念和a是b的先序概念两种情况。最终得到两个概念是否存在先后序关系的判定结果。

本文中所指的随机森林(Random Forest，简称RF)是通过集成学习的思想将多棵树集成的一种算法，它的基本单元是决策树，而它的本质属于机器学习的一大分支——集成学习(Ensemble Learning)方法。在本发明的一些是实例中，可以利用Python的两个模块，分别为pandas和scikit-learn来实现随机森林。

在本文的一个实施例中，采用3个不同领域的大型开放式网络课程数据集：机器学习(Machine Learning，ML)，数据结构与算法(Data Structure and Algorithms，DSA)和微积分(Calculus，CAL)。由于当前并没有用于先后序关系计算的开放数据集，所以本实验使用开源工具coursera-dl自动下载了著名在大型开放式网络课程网站Coursera.org上对应三个领域的所有课程，人工标注出每门课程中的概念(即概念实体)。记概念总数为n，概念间两两构成的非重复概念对数量为n(n-1)/2，为标注二者是否存在先后序关系需要大量人工标注，所以本实验随机采样了概念对总数的25％用于实验，三个具备所选领域知识的人员对每对概念是否存在先后序关系进行标注。例如，对于一个概念对<a，b>，若a是b的先序概念，标注为“+”，否则为“-”。仅三人均认为存在先后序关系的概念对被保留，并使用成对统计的平均值κ作为标记一致性判定。三人均标记一致的概念对构成概念对集合，用于对本算法的计算获得的有序概念对的正确性进行验证。数据集的相关信息如图1所示。

辅助文本语料采用2015年8月的维基百科词条描述文本，共包括4,919,463篇文档。实体标注仅以维基百科中已标注的超链接作为候选，若维基百科所标注链接和给定在线课程中概念的名称相同，则标注为实体，否则不予标注。

对于每一个数据集，使用5折交叉验证的方法，即将数据集平均分为5份，其中4份用于本发明的模型训练，1份用于对发明方法效果的验证。因为数据集中正负例数量差异较大，实验中使用过采样的方法平衡了二者的数量。概念间上下文关系方面的特征需确定关联实体的数量M，本实验设置M＝10进行实验。二分类方法使用随机森林(Random Forest，RF)进行实验。问题已被形式化为一个二分类任务，所以实验评测使用信息检索领域的常用的一个评价标准：准确率(Precision，P)，召回率(Recall，R)和F1值(F score，F1)。易知，更高的F1值体现了更优秀的概念间先后序关系计算方法。

采用以上数据集和实验设置，同当前概念先后序关系计算主流方法上下位匹配方法(HPM)、引用距离(RD)和监督关系识别(仅使用教科书特征T-SRI和使用原方法所有特征F-SRI)进行对比。除了本发明公布的基本数据集，我们还从数据集中筛选出包含于维基百科的概念对集合用于与引用距离和监督关系识别方法进行更具说服力的对比实验，分别记为W-ML、W-DSA和W-CAL。使用ML数据集，依次移除某一特征、某一组特征进行实验，用于对本发明所提出的特征计算方法贡献度进行衡量。

如图2所示，不同方法在不同数据集上测评的结果(“MOOC”指本发明的方法)。对比F1值可以看出在6个数据集上本发明的方法在计算在线课程概念先后序时都体现出比其他方法更为有效的结果。例如，在ML数据集中，F1值分别高于T-SRI和HPM方法10.5％和43.6％。在仅包含维基中存在概念的W-ML、W-DSA和W-CAL数据集上，本发明的方法效果也高于其他方法至少5.7％。

对维基不包含的概念计算效果显著原因分析。HPM和T-SRI都是不依赖于课程概念必须存在于维基百科中的概念先后序计算方法，但实验结果中本发明的方法效果都远高于二者(F1值比HPM高43.6％，比T-SRI高10.5％)。首先，HPM在计算时能达到一个较高的准确率，但召回率很低。这是因为，当匹配到A“is a”B时，通常蕴含B是A的先序概念的意思，但显然反过来并不是这样的意思，HPM是基于连接词匹配，并不能处理反过来的搭配。其次，T-SRI确实体现出了较高的计算效果(F1值稳定在62.1％-65.2％之间)。然而，T-SRI只考虑了一些简单的特征，比如课程的序列性和概念间的共现。对在线课程进行更充分考虑、拥有更多设计精巧的特征的本实验方法自然效果更为显著。另外，SRI在增加了基于维基百科的特征后(F-SRI)，效果较T-SRI仅提高了0.93％。因此，其实基于维基百科的特征并不是提高概念先后序关系的最主要因素。

如图3所示，特征贡献测评的结果。通过对比移除特征之后分类结果在F1值上体现的变化情况，可以直观的看出：单个特征中，基于课程结构方面的复杂程度距离特征对本发明方法的负面效果影响最大(移除后F1值下降7.4％)，与之相反，影响最小的是基于概念语义方面的语义关系特征(移除后F1值下降1.4％)；一组特征中，移除课程结构方面的3个特征对本发明方法的负面效果影响最大(移除后F1值下降9.2％)，影响最小的是概念语义方面的特征(移除后F1值下降1.4％)。

本文中使用的“至少一个”、“一个或多个”以及“和/或”是开放式的表述，在使用时可以是联合的和分离的。例如，“A、B和C中的至少一个”，“A、B或C中的至少一个”，“A、B和C中的一个或多个”以及“A、B或C中的一个或多个”指仅有A、仅有B、仅有C、A和B一起、A和C一起、B和C一起或A、B和C一起。

术语“一个”实体是指一个或多个所述实体。由此术语“一个”、“一个或多个”和“至少一个”在本文中是可以互换使用的。还应注意到术语“包括”、“包含”和“具有”也是可以互换使用的。

本文中使用的术语“自动的”及其变型是指在执行处理或操作时没有实质的人为输入的情况下完成的任何处理或操作。然而，即使在执行处理或操作时使用了执行所述处理或操作前接收到的实质的或非实质的人为输入，所述处理或操作也可以是自动的。如果输入影响所述处理或操作将怎样进行，则视该人为输入是实质的。不影响所述处理或操作进行的人为输入不视为是实质的。

本文中使用的术语“计算机可读介质”是指参与将指令提供给处理器执行的任何有形存储设备和/或传输介质。计算机可读介质可以是在IP网络上的网络传输(如SOAP)中编码的串行指令集。这样的介质可以采取很多形式，包括但不限于非易失性介质、易失性介质和传输介质。非易失性介质包括例如NVRAM或者磁或光盘。易失性介质包括诸如主存储器的动态存储器(如RAM)。计算机可读介质的常见形式包括例如软盘、柔性盘、硬盘、磁带或任何其它磁介质、磁光介质、CD-ROM、任何其它光介质、穿孔卡、纸带、任何其它具有孔形图案的物理介质、RAM、PROM、EPROM、FLASH-EPROM、诸如存储卡的固态介质、任何其它存储芯片或磁带盒、后面描述的载波、或计算机可以读取的任何其它介质。电子邮件的数字文件附件或其它自含信息档案或档案集被认为是相当于有形存储介质的分发介质。当计算机可读介质被配置为数据库时，应该理解该数据库可以是任何类型的数据库，例如关系数据库、层级数据库、面向对象的数据库等等。相应地，认为本发明包括有形存储介质或分发介质和现有技术公知的等同物以及未来开发的介质，在这些介质中存储本发明的软件实施。

本文中使用的术语“确定”、“运算”和“计算”及其变型可以互换使用，并且包括任何类型的方法、处理、数学运算或技术。更具体地，这样的术语可以包括诸如BPEL的解释规则或规则语言，其中逻辑不是硬编码的而是在可以被读、解释、编译和执行的规则文件中表示。

本文中使用的术语“模块”或“工具”是指任何已知的或以后发展的硬件、软件、固件、人工智能、模糊逻辑或能够执行与该元件相关的功能的硬件和软件的组合。另外，虽然用示例性实施方式来描述本发明，但应当理解本发明的各方面可以单独要求保护。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括……”或“包含……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的要素。此外，在本文中，“大于”、“小于”、“超过”等理解为不包括本数；“以上”、“以下”、“以内”等理解为包括本数。

尽管已经对上述各实施例进行了描述，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改，所以以上所述仅为本发明的实施例，并非因此限制本发明的专利保护范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围之内。

Claims

1.一种课程先后序计算方法，其特征在于，包括步骤：

S202、计算概念实体对之间的语义关系特征、平均位置距离特征、分布不对称特征和复杂程度距离特征；

S203、根据获得的概念实体对之间的语义关系特征、平均位置距离特征、分布不对称特征和复杂程度距离特征，采用随机森林方法训练获得概念的先后序关系；

S204、通过概念实体的先后顺序，获得课程的先后顺序；

或课程先后序计算方法包括步骤：

S104、通过概念实体的先后顺序，获得课程的先后顺序；

其中，有序概念实体向量<a，b>之间的通用句子引用距离特征通过下述方法获得：GSrd(a，b)＝GSrw(b，a)-GSrw(a，b)；

Srd(a，b)＝Srw(b，a)-Srw(a，b)；

其中，D表示输入的第一语料中的所有课程，C表示第一语料中的某一课程，V表示是课程C的某一视频字幕，s表示字幕V中的一个句子；r(s，x)∈{0，1}表示概念实体x是否出现在句子s中，出现则r(s，x)的值为1，否则为0；a_i∈e₁～e_M，e₁～e_M是在辅助语料上与概念实体a语义关系最为接近的M个实体；M为预设值；v_a、v_b分别为a、b的词向量嵌入表示，ω(a，b)即a和b之间的语义关系特征；GSrd(a，b)即通用句子引用距离特征，GSrw(a，b)即通用句子引用权重，Srw(a，b)即a和b之间的句子引用权重，Srd(a，b)即a和b之间的句子引用距离。

2.根据权利要求1所述的方法，其特征在于，对于有序概念实体向量<a，b>之间的复杂程度距离特征通过下述方式计算获得：

Cld(a，b)＝avc(a)·ast(a)-avc(b)·ast(b)；

其中，max(I(C，a))和min(I(C，a))分别指a在课程C中最后一次和第一次出现的视频序号；包含概念实体a的课程为C(a)，|C(a)|的值等于第一语料中包含概念实体a的课程的个数，|C|的值等于第一语料中课程的个数，Cld(a，b)即复杂程度距离特征，avc(a)和avc(b)分别指a和b的平均视频覆盖率，ast(a)和ast(b)分别指a和b的平均覆盖长度，I(C，a、)指a在课程C中的索引。

3.根据权利要求1所述的方法，其特征在于，对于有序概念实体向量<a，b>之间的语义关系特征通过下述方式计算获得：

4.根据权利要求1所述的方法，其特征在于，有序概念实体向量<a，b>之间的视频引用距离特征通过下述方式获得：

Vrd(a，b)＝Vrw(b，a)-Vrw(a，b)；

其中，D表示输入的第一语料中的所有课程，C表示第一语料中的某一课程，V表示是课程C的某一视频字幕；f(x，V)表示概念实体x在视频V中的频数；r(V，x)表示概念实体x是否出现在视频V中出现，函数值为1，否则为0；Vrd(a，b)即视频引用距离特征，Vrw(a，b)即a和b之间的视频引用权重。

5.根据权利要求1所述的方法，其特征在于，有序概念实体向量<a，b>之间的辅助文本引用距离通过下述方法获得：

Wrd(a，b)＝Wrw(b，a)-Wrw(a，b)；

其中v_a、v_b分别为a、b的词向量嵌入表示，ω(a，b)即a和b之间的语义关系特征；Erw(e，a)表征辅助语料的文章e是否被R_a中任一概念所引用，被引用，值为1，否则为0；R_a＝<e₁，…，e_M>，e₁～e_M是在辅助语料上与概念实体a语义关系最为接近的M个实体；M为预设值，Wrd(a，b)即辅助文本引用距离，Wrw(a，b)即辅助语料引用权重。

6.根据权利要求1所述的方法，其特征在于，有序概念实体向量<a，b>之间的平均位置距离特征：

的情况，即a、b不存在共现视频时，Apd(a，b)＝0；Apd(a，b)即平均位置距离特征。

7.根据权利要求1所述的方法，其特征在于，有序概念实体向量<a，b>之间的分布不对称特征；

其中，I(C，x)指概念实体x在课程C中出现的视频序号的集合，max(I(C，a))和min(I(C，a))分别指a在课程C中最后一次和第一次出现的视频序号；包含概念实体x的课程为C(x)，|C(x)|的值等于第一语料中包含概念实体x的课程的个数，|C(a)∩C(b)|即含有共现视频的课程数；|C|的值等于第一语料中课程的个数，集合S(C)＝{(i，j)|i∈I(C，a)，j∈I(C，b)，i＜j}，对于

时，Dad(a，b)＝0；Dad(a，b)即分布不对称特征；avc(a)指a的平均视频覆盖率，ast(a)指a的平均覆盖长度，I(C，a)指a在课程C中的索引；

即V_i中a的个数，

即V_i中b的个数。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至7任一所述方法的步骤。

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上执行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一所述方法的步骤。