CN109636696B

CN109636696B - 一种基于回归分析的在线课程视频吸引力评估方法

Info

Publication number: CN109636696B
Application number: CN201910013128.4A
Authority: CN
Inventors: 罗永�; 刘绪琮; 刘春林
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2019-01-07
Filing date: 2019-01-07
Publication date: 2022-12-09
Anticipated expiration: 2039-01-07
Also published as: CN109636696A

Abstract

本发明属于教育信息化领域，具体涉及一种基于回归分析的在线课程视频吸引力评估方法。包括以下步骤：S1计算吸引力因子和logit(p)；S2建立回归方程；S3过滤异常数据；S4计算用于预测吸引力因子的回归系数；S5利用回归方程预测视频吸引力。本发明有以下有益效果：(1)建立了视频吸引力和视频长度以及视频编号之间的函数关系；(2)能够利用已有的观看视频行为数据准确预测同类课程视频的吸引力；(3)异常数据过滤方法能够大幅度的提高预测的精度；(4)预测的吸引力能够帮助视频设计者优化视频的分割方案。

Description

一种基于回归分析的在线课程视频吸引力评估方法

技术领域

本发明属于教育信息化领域，具体涉及一种基于回归分析的在线课程视频吸引力评估方法。

背景技术

MOOC(大规模开放在线课程)发展迅速，Coursera，Udacity和edX目前是全球三大MOOC供应商。中国大学MOOC是中国重要的在线开放课程运营商，它承担了国家教育部开放课程发布的任务。

大量的在线开放课程使全球学习者能够访问教育资源，分享学习经验并获得认证。尽管MOOC发展迅速，但也存在高辍学率，低资源利用率以及缺乏有效的盈利模式等问题，而视频使用率低下的情形尤为严重。以中国大学MOOC《高等数学》为例，在2017年，有学习行为的学生人数为4317人，而观看超过50％视频的学生人数仅为18人。因此，如何使MOOC视频更具吸引力是一项非常重要的工作。

视频吸引力与课程内容相关，在不考虑教师表现的情况下，视频的时长和视频的数量会影响学习者的学习兴趣。如果能够找到视频时长和数量影响视频吸引力的机制，就能帮助我们设计出更吸引学习者的视频。

MOOOC学习平台采集的观看视频行为数据中就包含了这些规律。因此，通过分析MOOC学习行为数据来分析和预测视频的吸引力是一项非常有意义的研究工作。如果MOOC视频设计人员能够预先了解视频的吸引力，则可以帮助他们改进视频设计方案。同时，也可以帮助MOOC运营商评价课程视频的质量，淘汰劣质课程。

发明内容

本发明的目的就是为了填补MOOC视频吸引力评估和预测方法的空白，提出一种基于Logistics回归分析的在线课程视频吸引力评估方法。为了消除课程内容对于吸引力的影响，本发明利用采集的观看视频行为数据，计算每一类课程的回归系数。再根据视频的时长和视频的数量，预测出同类课程的每一个视频的吸引力。预测的吸引力能够帮助在线开放课程的运营商评估视频的质量，帮助视频设计者优化视频设计方案，从而提高视频的吸引力。

本发明的目的是通过以下技术实现的：一种基于回归分析的在线课程视频吸引力评估方法，该方法包括以下步骤：

S1：计算学习者完整观看课程中每一段视频的概率，设学习者完整观看第i个视频的概率为p_i，p_i的Logistic变换为logit(p_i)：

为了描述视频的吸引力，将观看视频行为分为完整观看视频和非完整观看视频两类，分别用事件A和事件B表示：当观看视频时间大于视频长度时，事件A发生，表示学习者已完整观看了视频；当观看视频时间小于视频长度时，事件B发生，表示学习者没有完整观看视频；

设事件A发生的概率为p，则事件B发生的概率是1-p；统计每一个完整观看第i个视频的学习者的人数a_i和所有观看了第i个视频的学习者人数b_i，计算概率

设课程有n个视频，则i的取值范围为{1,2,…,n}；

计算p_i的优势比，定义为

为了分析p_i与视频长度和发布时间之间的关系，引入Logistic变换，定义为

满足logit(p_i)∈(-∞,+∞)；

S2：建立Logistics线性回归方程

设logit(p_i)为因变量，视频时长t_i和课程的视频编号k_i为自变量，建立回归方程logit(p_i)＝β₀+β₁t_i+β₂k_i+e_i，在等式中β₀，β₁和β₂是回归系数；e_i是回归分析的残差，残差为回归方程预测数值与正式数值的误差；在本发明中将两次使用回归方程：第一次回归分析用于过滤异常数据，其回归系数记为β₀₁、β₁₁和β₂₁，第一次回归分析的残差记为

第二次回归分析用于计算预测视频吸引力的参数，其回归系数记为β₀₂，β₁₂和β₂₂，第二次回归分析的残差记为

S3：过滤异常数据(第一次回归分析)

异常数据会影响回归系数，因此需要设计一个方法去除它们。根据Durbin-Watson测试理论，残差不属于区间(u-3σ,u+3σ)的点将被过滤掉，其中u是残差的平均值，σ是残差的标准方差，Logistics回归方程为

该过程可分为以下步骤：

S3.1计算视频时长t_i和课程的视频编号k_i关于logit(p_i)的用于过滤异常数据的线性回归系数β₀₁，β₁₁，β₂₁；

S3.2计算残差

统计残差的平均值u和标准方差σ；

S3.3判断残差

是否包含在区间(u-3σ,u+3σ)中，不包含在区间中的残差记为

为异常的残差，这里Q为异常数据的数量，i_q∈{1,2,3,...,n}，{i_q|q＝1,2,...,Q}表示从n个残差数据中选出的Q个异常的数据对应的视频编号；

满足

或者

以{i_q|q＝1,2,...,Q}为编号的

和

为异常数据；

S3.4从{logit(p_i)|i＝1,2,...,n}、{t_i|i＝1,2,...,n}和{k_i|i＝1,2,...,n}中移除异常数据

和

将移除异常数据以后的集合表示为

和

S4：计算用于预测吸引力因子的回归系数(第二次回归分析)

对消除了异常数据以后的集合

和

做第二次回归分析，

重新计算用于预测视频吸引力的回归系数β₀₂，β₁₂和β₂₂；

S5：计算用于预测视频的吸引力因子

为了消除课程内容对于视频吸引力的影响，可以计算同类课程观看视频行为数据的Logistics回归系数，用于预测课程的每一个视频的吸引力，第i个视频的吸引力记为

由

的定义

和回归方程

预测的

的公式为：

这里t_i为第i个视频的时长，k_i为视频的编号，k_i＝i。

当需要比较课程视频的整体吸引力时，可以计算预测的视频吸引力的平均值

公式为：

本发明提供的技术方案与现有技术相比有以下有益效果：

(1)建立了视频吸引力和视频长度以及视频编号之间的函数关系；

(2)能够利用已有的观看视频行为数据准确预测同类课程视频的吸引力；

(3)异常数据过滤方法能够大幅度的提高预测的精度；

(4)预测的吸引力能够帮助视频设计者优化视频的分割方案。

附图说明

图1.视频吸引力预测流程；

图2.视频长度和logit(p)的散点图；

图3.视频编号和logit(p)的散点图；

图4.残差P-P图；

图5.两个视频分割方案。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步说明。

图1为本发明所述方法的总流程图；如图1所示，本发明所述基于Logistics线性回归的在线开放课程视频吸引力评估方法包括以下步骤：

S1计算吸引力因子和logit(p)；

S2建立回归方程；

S3过滤异常数据；

S4计算用于预测吸引力因子的回归系数；

S5利用回归方程预测视频吸引力。

使用回归方程必须要建立在数据存在显著的线性关系的前提下才是准确性。因此我们分析了logit(p)和视频长度，logit(p)和视频编号之间的关系。以中国大学MOOC平台的两门课程《Advanced Mathematics》和《Chinese Tea Ceremony》为例，说明数据之间的相关性。

图2是2门课程的视频长度和logit(p)的散点图。两门课程都有一个共同的特点，这就是视频长度和logit(p)之间存在负线性相关性。为了严格分析相关性，我们计算它们之间的相关系数。

表1视频长度和logit(p)相关系数

课程	相关系数
		Advanced Mathematics	-0.765
Chinese tea ceremony	-0.768

相关系数的数值表示相关性的强弱，表1列出了2门课程中logit(p)和视频时长之间的相关系数，在显著水平0.001的条件下，两门课程的视频时长与logit(p)存在显著的负线性相关。当视频长度增加时，logit(p)减少。相应的概率p也变得越来越小，表明视频的吸引力在下降。

图3是2个课程的视频编号和logit(p)的散点图。可以看出，它们之间存在显著的负线性关系。

表2视频编号和logit(p)相关系数

课程	相关系数
		Advanced Mathematics	-0.526
Chinese tea ceremony	-0.476

表2列出了2门课程的logit(p)与视频编号之间的相关系数。相关性测试结果显示，在显著水平0.001的条件下，logit(p)与视频编号存在显著的负线性相关。图2和图3以及相关系数表1和表2说明Logistics回归分析是合理的。

另一方面，为了说明本发明回归分析的逼近精度，我们对残差e做P-P图来检验。当P-P图接近一条直线时，说明模型对于数据有非常好的近似，图4说明了本发明能够准确的反映视频吸引力与视频时长和视频编号之间的关系。同样也说明预测的视频吸引力是可靠的。

我们做了一个评估视频吸引力，并用于比较视频分割方案的实例。

课程所有视频的总时长是60000秒，图5显示了两个视频分割方案。在总时长相同的情况下，方案1包含70个视频，方案2包含80个视频。方案1的视频数量少，但是视频的平均时长较大，而方案2的视频数量多，视频的平均时长较短。当视频时长较长时，视频吸引力较低，而视频数量较多时，视频吸引力也会下降。因此很难判断出哪个方案更能吸引学习者。由于课程还没有在线发布，无法获得学习者的数据，但是可以根据已经发布的相同课程的回归系数来评估这两个视频分割方案。应用本发明预测出方案1的视频平均吸引力为0.5199，方案2的视频平均吸引力为0.5427，因此方案2优于方案1。从而说明本发明可以帮助视频设计者优化视频的设计，提高视频的吸引力。

Claims

1.一种基于回归分析的在线课程视频吸引力评估方法，其特征在于，该方法包括以下步骤：

设课程有n个视频，则i的取值范围为{1,2,…,n}；

计算p_i的优势比，定义为

满足logit(p_i)∈(-∞,+∞)；

S2：建立Logistics线性回归方程

设logit(p_i)为因变量，视频时长t_i和课程的视频编号k_i为自变量，建立回归方程logit(p_i)＝β₀+β₁t_i+β₂k_i+e_i，在等式中β₀，β₁和β₂是回归系数；e_i是回归分析的残差，残差为回归方程预测数值与正式数值的误差；两次使用回归方程：第一次回归分析用于过滤异常数据，其回归系数记为β₀₁、β₁₁和β₂₁，第一次回归分析的残差记为