CN110245133B - 基于集体注意力流网络的在线学习课程分析方法 - Google Patents
基于集体注意力流网络的在线学习课程分析方法 Download PDFInfo
- Publication number
- CN110245133B CN110245133B CN201910515609.5A CN201910515609A CN110245133B CN 110245133 B CN110245133 B CN 110245133B CN 201910515609 A CN201910515609 A CN 201910515609A CN 110245133 B CN110245133 B CN 110245133B
- Authority
- CN
- China
- Prior art keywords
- attention
- node
- flow
- network
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 11
- 238000000034 method Methods 0.000 claims description 21
- 238000004364 calculation method Methods 0.000 claims description 11
- 239000011159 matrix material Substances 0.000 claims description 11
- 230000001186 cumulative effect Effects 0.000 claims description 7
- 230000003993 interaction Effects 0.000 claims description 7
- 230000002159 abnormal effect Effects 0.000 claims description 4
- 230000001427 coherent effect Effects 0.000 claims description 4
- 230000002269 spontaneous effect Effects 0.000 claims description 4
- 238000004140 cleaning Methods 0.000 claims description 3
- 238000013461 design Methods 0.000 claims description 3
- 238000005295 random walk Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 238000002372 labelling Methods 0.000 claims 1
- 230000007246 mechanism Effects 0.000 abstract description 6
- 238000005259 measurement Methods 0.000 abstract description 4
- 230000006399 behavior Effects 0.000 description 19
- 238000011160 research Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 239000000969 carrier Substances 0.000 description 2
- 230000001149 cognitive effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 235000008694 Humulus lupulus Nutrition 0.000 description 1
- 238000012300 Sequence Analysis Methods 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000005587 bubbling Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000008278 dynamic mechanism Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 208000013409 limited attention Diseases 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011172 small scale experimental method Methods 0.000 description 1
- 230000002459 sustained effect Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
- G06Q50/205—Education administration or guidance
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Educational Administration (AREA)
- Tourism & Hospitality (AREA)
- General Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Educational Technology (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Animal Behavior & Ethology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- Quality & Reliability (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了基于集体注意力流网络的在线学习课程分析方法,运用开放网络集体注意力流理论,利用点击流数据构建集体注意力流网络,结合流网络中的流距离度量,比较在线学习平台中不同课程、不同成绩类别学习者的差异,在此基础上构建注意力球模型,探求在线学习平台网络中异速生长律的适用性和可能存在的其他机制。和传统的学习分析方法相比,本发明运用了开放流网络的模型,模拟了在线学习系统的开放性,有效利用了网络结构中数据信息的分析价值,使人们进一步理解注意力如何在在线教育平台流动。本发明对于在线学习、社交平台的用户注意力与平台内容分析中都有极大的用处。
Description
技术领域
本发明涉及系统科学领域,具体属于复杂网络领域,应用目标为研究分析在线学习中用户的点击学习行为,主要致力于发现集体注意力如何在在线教育平台丰富的知识中流动,试图寻找可能存在的规律或机制,具体涉及集体注意力流网络、流距离计算、注意力球构建以及注意力球中的异速生长律。
背景技术
互联网时代下,在线教育兴起。以慕课(大规模开放在线课程)为例的在线教育模式,为互联网学习者提供了大量开放的学习课程。尽管这种新型教育模式的出现能够为大众提供更多的学习资源,学习形式也更为开放、灵活,但正如诺贝尔经济学奖得主Simon所说,“信息的富足就会导致注意力的贫瘠”,在信息泛滥的在线教育平台中,学习者的注意力更显稀缺,如果不考虑注意力分配成本,在线教育平台的价值可能会大打折扣。通常情况下,由于其开放性和灵活性,在线教育被认为能够使学习者以多样的方式、更低的学习成本获取精英高校的优质教育资源,但这已遭到了教育研究者的质疑。为了研究在线教育课程设计者如何安排更好的在线教育课程形式,如何降低学习者的注意力成本以合理利用注意力从丰富的在线教育资源中有效学习,探索和理解集体注意力如何在在线教育平台丰富的知识中流动,是问题的关键。
学习分析技术的兴起,为理解在线教育中大规模的人类集体行为提供了可能。以往的学习分析研究利用各种技术来理解点击流数据,例如通过聚类算法对学习者进行分类,使用对数序列分析来预测学习者表现等。这些对点击流的研究往往将点击流数据视为一个有关人类行为的大型数据库,将其输入到复杂算法中,用于对学习者聚类或者预测未来,轻概念而过度方法化,远远低估了点击流数据的价值。有学者提出用生态系统的观点来探索在线教育,从开放和平衡的系统视角来解释学习者在在线教育中的高退学率和不平等的参与模式。这种观点考虑了在在线学习中表现良好或不佳的学习者以及辍学者,强调了在集体层面上表征学习行为动态的重要性。
注意力对人类的重要性不言而喻,许多领域和学科中都对注意力有大量研究。早期对注意力心理学的研究主要集中在个体或小群体层面的人类知觉和认知加工上,多年来已经逐渐过度到了认知、社会和文化的角度。此外,也有模拟注意力的心理学研究。在神经科学领域,对人体神经区域的研究使得有关注意力如何调节人脑中信息处理的争论持续了几十年,例如早期的瓶颈模型和衰减模型。经过这场学术争论,学者们普遍形成了注意力的容量是有限的以及选择性概念的认识。在给定时间内,人们能够处理的刺激是有限的,因此我们会选择性地参与环境中与当前处理事件相关的刺激,而忽略其他无关的刺激。也就是说,注意力有限的容量使得选择成为必要。
正如Simon所言,信息丰富的时代中,“大量的信息造成了注意力的匮乏,人们需要有效地分配注意力以免其被过多的信息消耗”。这一观点使得研究者对注意力在神经网络中的选择性机制的关注,转移到了如何在信息丰富的世界里分配有限的注意力上。互联网作为现代人日益依赖的新型空间,传统的经济学理论已不再适用。Goldhaber认为,“最重要的东西,就是现在最缺乏的东西”,他提出了“注意力经济”的概念,以便能够重新定义和解释财富、阶级划分和资产等工业经济学的概念。在此基础上,有学者将注意力视为稀缺资源,并探索了如何在信息丰富的世界中有效地分配注意力,进一步巩固了Goldhaber的观点。至此,注意力经济学作为一种用于重新定义经济学领域的竞争和平衡结构的概念模型,已经被学者广泛接受。随后,为了进一步规范化地解释互联网用户分配注意力的机制,“意愿经济”的概念被提出。
作为科学研究的第四种范式,数据密集型研究激发了研究者将以前在实验室中的小规模实验转移到了自然和非实验室环境下的点击流研究。由于在线行为被证明与人类注意力有着相似的机制,例如短期性、选择性、流动性和耗散性,为了强调用大规模行为数据来衡量注意力总体水平的重要性,有学者提出了“集体注意力”这一术语,并试图创建一个新模型来解释集体注意力的动力学,将集体注意力与信息和知识的普及和创新结合起来,并且证明了集体注意力会根据拉伸指数法而衰退。进而,集体注意力的概念也有助于我们更好地模拟随着时间演变的在线行为的动力学。从这个意义而言,集体注意力与心理学研究中常用的注意力类型有着本质的不同。在数字时代,它具有广泛的含义。例如,它可以与在线新闻阅读行为,知识的创造,股票波动,选举中的人类行为,以及极端事件的预测有关,也可能与群体中的集体利益、时间以及地区和文化有关。假设人们的行为受到社区中其他人的影响,例如朋友、同学和同事等,则这些研究很大程度上依赖于社交网络模型来解释人与人之间的互动。尽管社交网络模型是检查参与者关系网的有效工具,但是当用于模拟与环境交换能量或资源的开放系统时,它就具有了一定的局限性。
为了更好地理解开放系统中人类行为的动力学,一些学者不断开始创建新模型,以期能够解释在自然和非实验室环境中所收集的点击流数据。这些研究最早可以追溯到对万维网的研究。随后不同领域对此的早期研究,也都倾向于选择一大块资源,识别或过滤某些类别的重要行为,以强调在给定顺序的一系列行为过程中的关键步骤。尽管有关互联网是否是传统经济理论不再适用的新型空间的理论仍存在争议,但极少有实证研究将在线网络空间视作开放的生态系统,而开放性是从整体上理解集体行为至关重要的一环。近年来,研究者们才逐渐意识到将在线网络视作与线下环境有交互的开放系统以更好地理解在线集体行为的重要性。例如,一些学者用开放系统模拟点击流来研究在线活动,一些学者以开放网络的视角,将网络论坛视为以点击流为代价生长的虚拟生物,一些学者提出用开放流网络来衡量用户在资源中转移的行为,包括在线下环境中的转移。在此基础上,有学者基于中美两国的互联网网站创建了新的集体注意力几何表示,为集体注意力随着时间在信息和资源中的积聚、循环和流动提供了更加系统的解释。在线网络本身的开放性和灵活性使得它与离线环境中获取信息的形式不同,而集体注意力开放流网络恰好考虑了这个性质,因此,它尤其适用于在线学习,并能够通过该模型更好地解释在线教育中学习者之间大不相同的学习模式,这是在以前的相关研究中被忽视的。
发明内容
本发明针对大规模在线学习课程,以“学堂在线”的四门不同类型的热门课程为例,运用开放网络集体注意力流的理论,将点击流数据作为连续注意力流的体现,以“学堂在线”网站中用户学习的点击记录为载体,将用户按成绩分组,分别构建集体注意力流网络,从开放系统的角度研究行为灵活的个体用户的学习路径。结合注意力流网络中的流距离度量,比较在线学习平台中不同课程、不同成绩类别学习者的差异,在此基础上构建注意力球模型,探求在线学习平台网络中异速生长律的适用性和可能存在的其他机制。
利用大规模开放在线学习平台的课程点击数据,将点击记录作为注意力的载体,将将页面视为节点,用户在页面之间的跳转视为有向连边,将每个用户在每门课程中的所有点击轨迹视为一个连贯的点击序列,统计所有用户的点击记录,得到两两节点之间有向连边的权重,由此构建集体注意力开放流网络。在此基础上,添加源和汇两个节点,分别表示用户进入和离开该学习空间,以表示网络与离线环境的交互。该开放流网络模型,既能够反映用户的集体行为,也体现了在线学习平台开放的性质,进而能够有效地模拟在线学习系统。
在构建了集体注意力流网络之后,我们通过流距离度量来反映从环境外进入课程的某一环节所需要跳转的步数,由此体现用户在该在线学习空间中学习的先后顺序;并且,我们还提出用肯德尔秩相关系数计算的方法,衡量用户自发学习与课程安排顺序的差异,为评价课程安排的合理性提供一些参考。
将流距离作为半径,源作为球心,构建注意力球。在该注意力球中,注意力流从球心出发,沿半径向外转移,箭头所指方向为注意力流动方向,到达球的最大半径,即汇时,注意力耗散。通过探讨是否存在进入或离开该学习空间的用户数与用户在该学习空间点击总次数之间的异速生长律,来比较不同群体或不同课程所构成的拟合参数的差异,联系实际意义,可试图比较课程对学习用户的吸引力。
本发明可以得到某群体在某课程中所有页面的平均点击顺序序列,该群体自发学习与课程安排顺序差异的一致程度系数以及可能用于衡量不同课程对不同群体吸引力的幂指数。此外,本发明的思路及模型略加改动即可用于其他的领域,如比较某社交平台中不同内容对用户的吸引程度等。
步骤1.清洗原始数据,统计权重构成集体注意力流网络模型
1-1)收集课程中存在注册信息的所有用户在该课程内的点击数据,去除点击页面链接和标题为乱码的点击信息,通过点击记录的标题,生成节点,通过划分文本等规范操作将点击记录标题整理为只包含该课程内有特征区别信息的描述,去掉如“学堂在线”、空格、制表符等字符串,进行节点的归并;
1-2)将1-1)中得到的所有节点信息(含简体中文、繁体中文、英语),对照“学堂在线”相应课程页面中的标记,进行统一标注(如将“课件”、“課件”、“Courseware”等节点全部统一为“课件”)。这部分必须辅以人工协助,以获得绝对准确可靠的数据;
1-3)在1-2)中得到的节点信息基础上,将每个用户在每门课程中的所有点击轨迹视为一个连贯的点击序列(考虑到在线学习平台的点击具有较长的时间跨度),统计所有用户的点击记录,得到两两节点之间有向连边的权重;
1-4)得到以上网络后,添加源和汇两个节点,以表示与环境的互动。在假设节点流入流出注意力量守恒和网络整体流量守恒的基础上,计算各个节点到源和汇的连边权重,以使网络达到平衡,最后得到平衡后的集体注意力流网络;
步骤2.计算集体注意力流网络中所有节点的流距离
2-1)用矩阵形式表示1-4)中得到网络的连边权重信息,wij代表从节点j流入节点i的权重。对该矩阵中所有元素以每一行之和进行归一化,用矩阵M表示,则矩阵中的每个元素mij代表一个随机游走者从节点j走到节点i的概率;
2-2)考虑从源到每个节点所有可能的路径,得到来自源和来自其他节点的到每个节点的平均步数为mi,0以及
2-3)结合两种情况,将流距离计算为,
得到流距离计算公式
2-4)在实证分析中,流网络的节点数或连边数往往较大,采用上式来进行迭代计算。具体而言,假设所有节点的初始流距离Li=1,重复迭代所有有连边关系的节点流距离,直到收敛。
步骤3.计算用户自发学习与课程安排的肯德尔秩相关系数,比较学习顺序一致性
3-1)对于2-4)中得到的流距离计算结果,按照从小到大的顺序对节点进行排序,同时提取按照原始的课程编排顺序的节点序列;
3-2)基于3-1)中得到的两列序列,计算每对序列的肯德尔秩相关系数,以体现用户学习顺序与课程本身设计顺序的符合程度。设有n个统计对象,即节点位置,每个位置有两个属性,一是按照课程编排原始顺序排序的节点,二是按照流距离从小到大排序的节点。将所有统计对象按属性一取值排列,不失一般性,此时属性二取值的排序是乱序的。设P为两个属性值排列大小关系一致的统计对象对数,则肯德尔秩相关系数可用公式表示为:
3-3)根据秩相关系数结果,比较不同类别课程、不同类别学生的点击学习顺序情况;
步骤4.构建注意力球,拟合异速生长律
4-1)根据2-4)中的流距离计算结果,将节点分布在注意力球上,节点所在半径表示该节点的流距离,节点的颜色深浅表示课程章节的排序,节点的大小表示点击该节点的总次数,节点角度随机,观察注意力的流动方向;
4-2)计算注意力球中随着流距离(半径)变化的范围内所有节点的累积耗散量和累积经过量/>得到流距离小于注意力球最大半径R的无数对/>和/>
4-3)利用4-2)中得到的两个变量的数据,分别取双对数后使用最小二乘法进行线性拟合,对于每一个注意力球,得到两个参数的拟合值。
有益效果
1、采用开放流网络的模型模拟了在线学习系统的开放性,有效地利用了学习空间与离线环境互动的信息。
2、相较于直接统计所有用户的点击数据进行相似性计算、聚类等方式,本方法保留了页面节点之间的互动关系,使网络结构中的数据信息产生有效的分析价值。
3、相较于以往用粘性来比较社交网络平台吸引力的方法,本方法基于注意力球中随流距离变化的变量的大量数据进行拟合,仅需要一个时间刻度上即可进行拟合,并不需要统计在多个时间段或在不同用户数目下网络的变量情况,极大地提高了通过参数拟合来比较课程的效率。
4、本方法的泛化能力较强,易于扩展到其他在线学习或社交平台。例如,本方法只需要将训练数据改为其他社交网络,就可以用于计算该网络中不同内容对用户的吸引程度。
附图说明
图1为本发明方法的基本流程;
图2为构建集体注意力流网络示意图;
图3为一个流网络示意图;
图4为注意力球模型示意图。
具体实施方式
下面结合附图对本发明的技术方案进行详细说明:
本发明的思路是将在线教育平台视作开放的生态系统,从集体注意力流网络理论出发,以在线学习平台中课程用户的点击流数据为载体,构建开放流网络模型通过计算流网络中的流距离度量,分析注意力在学习空间中的流动方向,通过计算肯德尔秩相关系数,比较用户自由学习与课程安排的顺序一致性,在流距离计算结果的基础上,构建注意力球模型,试图拟合该注意力球模型中注意力的累积存储量和累积耗散量是否满足异速生长律,在肯定的结论情况下,比较由不同成绩类别学习者在不同课程中构成的注意力球中异速生长律的拟合参数,反映不同在线学习空间对用户的吸引程度,以及不同用户在学习空间中的滞留程度,由此进一步理解学习者的注意力在知识资源中流动的动态机制,为在线学习课程制定者和学习者提供一些可能的参考价值。
本发明方法的基本流程如图1所示,具体包括以下步骤:
步骤1.清洗原始数据,统计权重构成集体注意力流网络模型
获取在线学习平台中课程用户的学习轨迹点击数据信息,部分原始数据样例如表1所示。
表1用户点击记录数据样例
uid | p_open_time | p_close_time | p_title |
1096 | 2015/10/14 1:06 | 2015/10/14 1:39 | (d2)有序向量:二分查找|30240184X课件 |
1096 | 2015/10/14 1:39 | 2015/10/14 2:05 | (d3)有序向量:Fibonacci查找|30240184X课件 |
1096 | 2015/10/14 1:47 | 2015/10/14 1:48 | 30240184X课程信息 |
1096 | 2015/10/14 1:48 | 2015/10/14 1:50 | 30240184X课程进展 |
1096 | 2015/10/14 2:05 | 2015/10/14 2:38 | (d4)有序向量:二分查找(改进)|30240184X课件 |
1096 | 2015/10/14 2:06 | 2015/10/14 2:27 | 30240184X课程进展 |
1096 | 2015/10/14 2:38 | 2015/10/14 3:11 | (d5)有序向量:插值查找|30240184X课件 |
1096 | 2015/10/14 3:11 | 2015/10/14 7:01 | (e)起泡排序|30240184X课件 |
1096 | 2015/10/14 3:11 | 2015/10/14 3:12 | 30240184X课程进展 |
1096 | 2015/10/14 7:01 | 2015/10/14 8:10 | (f)归并排序|30240184X课件 |
1096 | 2015/10/14 7:01 | 2015/10/14 8:10 | (f)归并排序|30240184X课件 |
1096 | 2015/10/14 7:45 | 2015/10/14 7:45 | 考核方式|30240184X课件 |
1096 | 2015/10/14 8:10 | 2015/10/14 8:24 | 本章测验|30240184X课件 |
1096 | 2015/10/14 8:24 | 2015/10/14 8:24 | 30240184X课程进展 |
1096 | 2015/10/14 8:24 | 2015/10/14 8:29 | 30240184X课件 |
1096 | 2015/10/14 8:29 | 2015/10/14 12:56 | (a)接口与实现|30240184X课件 |
1096 | 2015/10/15 6:50 | 2015/10/15 6:51 | 30240184X课程信息 |
用节点表示信息资源,连边表示用户在资源中的跳转,一个简单的例子如图2所示。具体而言,在本研究中,用一个网络表示一门课程,节点代表课程中的章节及功能性链接,以《数据结构》为例,既包括“1.1(a)计算”、“10.(b1)完全二叉堆:结构”等课程内容,称之为“章节节点”,也包括“课件”、“课程讨论”、“本章测验”等辅助工具,称之为“功能节点”。由于原始点击数据仅包含以个体用户为单位的点击记录,因此需要汇总所有用户数据以获取两两节点(i,j)组合连边的权重wij。
在社交网络的注意力流网络模型中,往往以30分钟至1小时为时间段划分用户的点击流,将该时段内的点击记录视为连续的点击,并在此基础上统计权重。考虑到学习者在在线教育平台中点击记录的连贯性与用户在社交网络上点击连贯性的不同,例如,在社交软件中超过30分钟或1小时的跳转停滞就被视作用户已经离开了该资源空间,而在在线学习平台中,学习者在第1天学习第1章节的行为与第2天学习第2章节的行为本质上是连贯的,尽管中间经过了较长的时间跨度。因此我们认为学习者只有在不再在该课程内点击任何链接时才算离开该学习空间,而不以时间跨度作区分,我们将一个用户在一门课程的所有点击都视作连贯的点击序列,不设置时间窗口来划分点击流。
由于在数据清洗过程中,一些无法识别的链接被删除,导致所构建网络的入流和出流不再完全平衡,因此在构建注意力流网络之后,我们通过添加两个人工节点,“源”(source)和“汇”(sink)来平衡网络,源和汇表示的在线学习空间的环境,即其他在线社区或线下环境,这种对环境的考虑也有助于我们研究完整的用户点击学习路径。对于每一个节点,若该节点的加权入流小于该节点的加权出流,我们就添加一条从源到该节点的连边,权重即为入流与出流之差,若该节点的加权入流大于该节点的加权出流,则添加一条从该节点到汇的连边,权重为出流与入流之差。通过人工平衡网络,我们可以获得在线学习空间与环境交互中的缺失信息,用户来自环境(源),进入学习空间点击一系列课程章节或功能页面后,离开学习空间回到环境(汇)。平衡后的注意力流网络满足了“流量守恒”原则和“点击流守恒”原则,即(1)进入学习空间的用户数等于离开的用户数;(2)每个节点的入流都等于出流;(3)整个学习空间中所有节点构成的点击入流等于出流。
步骤2.计算集体注意力流网络中所有节点的流距离
一个简单的流网络示例图如图3所示。
用矩阵形式表示网络的连边权重信息,wij代表从节点j流入节点i的权重,可得,
对该矩阵中所有元素以每一行之和进行归一化,用矩阵M表示,
通过流距离公式计算的7个节点(包括源和汇)流距离结果为, 其中从源到汇的流距离L_i=63/16≈4,这意味着一个随机游走者从进入该在线空间系统到离开平均需要4步。
步骤3.计算用户自发学习与课程安排的肯德尔秩相关系数,比较学习顺序一致性;
如表2、3所示为根据四门课程用户整体的点击情况计算出的流距离排序的课程章节顺序,以及原始的课程编排顺序。
表2《生活英语听说》、《心理学概论》按课程安排和流距离排序的部分章节节点序列
表3《心理学概论》、《数据结构》按课程安排和流距离排序的部分章节节点序列
计算每对序列的肯德尔秩相关系数,便可以比较不同用户在不同课程中学习顺序与课程本身设计顺序的符合程度。
步骤4.构建注意力球,拟合异速生长律
构建如图4所示的注意力球,注意力流从源(中心位置)出发,沿着半径向外转移,箭头所指方向为注意力流动方向,到达注意力球的最大半径时,注意力耗散,并从该网络空间中消失。
将流网络节点按照流距离Li由小到大排序,计算半径r=Li内的累积经过流Ti,以及累积耗散流Di,探讨随着流网络生长(即沿着流距离增大方向)的总存储量B和总耗散量I是否存在异速生长律:
当Li<max(Li)=R时,计算无数对和/>来拟合参数μ。若该异速生长律拟合效果较好,由于在线平台网络中注意力的存储量/>代表半径Li(即用户点击步数平均值为Li)内用户学习点击的总次数,而耗散量/>代表半径Li(即用户点击步数平均值为Li)内的掉线用户总数,因此,在该注意力流网络中,参数μ可以衡量一个学习空间的扩大对用户的吸引程度影响。当μ>1时,注意力存储量/>增长的速度大于注意力耗散量/>增长的速度,即用户在学习空间中所学内容越多,越不容易耗散,不容易离开该学习空间,且μ越大,耗散的速度越慢;当μ<1时,注意力存储量/>增长的速度小于注意力耗散量/>增长的速度,即用户在学习空间中所学内容越多,越容易耗散,且μ越小,耗散的速度越快。对不同用户、不同课程所构成的注意力球,拟合上述参数,便可进行比较不同课程对不同用户的吸引力程度。
Claims (1)
1.基于集体注意力流网络的在线学习课程分析方法,其特征在于,包括如下步骤:
步骤1.清洗原始数据,统计权重构成集体注意力流网络模型:
1-1)收集课程中存在注册信息的所有用户在该课程内的点击数据,去除点击页面链接和标题为乱码的点击信息,通过点击记录的标题,生成节点,通过划分文本规范操作将点击记录标题整理为只包含该课程内有特征区别信息的描述,去掉“学堂在线”、空格、制表符字符串,进行节点的归并;
1-2)将1-1)中得到的所有节点信息包括简体中文、繁体中文、英语,对照“学堂在线”相应课程页面中的标记,进行统一标注,须辅以人工协助,以获得绝对准确可靠的数据;
1-3)在1-2)中得到的节点信息基础上,将每个用户在每门课程中的所有点击轨迹视为一个连贯的点击序列,统计所有用户的点击记录,得到两两节点之间有向连边的权重;
1-4)得到以上网络后,添加源和汇两个节点,以表示与环境的互动;在假设节点流入流出注意力量守恒和网络整体流量守恒的基础上,计算各个节点到源和汇的连边权重,以使网络达到平衡,最后得到平衡后的集体注意力流网络;
步骤2.计算集体注意力流网络中所有节点的流距离:
2-1)用矩阵形式表示1-4)中得到网络的连边权重信息,wij代表从节点j流入节点i的权重;对该矩阵中所有元素以每一行之和进行归一化,用矩阵M表示,则矩阵中的每个元素mij代表一个随机游走者从节点j走到节点i的概率;
2-2)一个随机游走者从源节点走到节点i的概率表示为mi,0,源节点到节点j所需的平均步数为流距离Lj;来自其他节点j到达节点i的平均步数表示为
2-3)结合两种情况,计算节点i流距离为,
得到流距离计算公式
2-4)采用上式来进行迭代计算;假设所有节点的初始流距离Li=1,重复迭代所有有连边关系的节点流距离,直到收敛;
步骤3.计算用户自发学习与课程安排的肯德尔秩相关系数,比较学习顺序一致性:
3-1)对于2-4)中得到的流距离计算结果,按照从小到大的顺序对节点进行排序,同时提取按照原始的课程编排顺序的节点序列;
3-2)基于3-1)中得到的两列序列,计算每对序列的肯德尔秩相关系数,以体现用户学习顺序与课程本身设计顺序的符合程度;设有n个统计对象,即节点位置,每个位置有两个属性,一是按照课程编排原始顺序排序的节点,二是按照流距离从小到大排序的节点;将所有统计对象按属性一取值排列,不失一般性,此时属性二取值的排序是乱序的;设P为两个属性值排列大小关系一致的统计对象对数,则肯德尔秩相关系数用公式表示为:
3-3)根据秩相关系数结果,比较不同类别课程、不同类别学生的点击学习顺序情况;
步骤4.构建注意力球,拟合异速生长律:
4-1)根据2-4)中的流距离计算结果,将节点分布在注意力球上,节点所在半径表示该节点的流距离,节点的颜色深浅表示课程章节的排序,节点的大小表示点击该节点的总次数,节点角度随机,观察注意力的流动方向;
4-2)计算注意力球中随着流距离即半径变化的范围内所有节点的累积耗散量和累积经过量/>得到流距离小于注意力球最大半径R的无数对/>和/>具体包括:
将流网络节点按照流距离Li由小到大排序,计算半径r=Li内的累积经过流Ti,以及累积耗散流Di,探讨随着流网络生长即沿着流距离增大方向的总存储量和总耗散量是否存在异速生长律:
当Li<max(Li)=R时,得到若干对和/>
4-3)利用4-2)中得到的两个变量的数据,分别取双对数后使用最小二乘法进行线性拟合,对于不同用户、不同课程构成的注意力球,得到两个参数c和μ的拟合值;用于比较不同课程对不同用户的吸引力程度,当μ>1时,用户在学习空间中所学内容越多,注意力越不容易耗散,不容易离开该学习空间;当μ<1时,用户在学习空间中所学内容越多,注意力越容易耗散。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910515609.5A CN110245133B (zh) | 2019-06-14 | 2019-06-14 | 基于集体注意力流网络的在线学习课程分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910515609.5A CN110245133B (zh) | 2019-06-14 | 2019-06-14 | 基于集体注意力流网络的在线学习课程分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110245133A CN110245133A (zh) | 2019-09-17 |
CN110245133B true CN110245133B (zh) | 2023-08-29 |
Family
ID=67887111
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910515609.5A Active CN110245133B (zh) | 2019-06-14 | 2019-06-14 | 基于集体注意力流网络的在线学习课程分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110245133B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112057088B (zh) * | 2020-08-18 | 2024-01-05 | 天津大学 | 基于探照灯的涉及视听模态情感语音处理的脑区定位方法 |
CN112380465B (zh) * | 2020-11-13 | 2022-11-11 | 兰州七度数聚技术有限公司 | 基于注意力流网络模型的互联网站点影响力的定量评估方法 |
CN115100042B (zh) * | 2022-07-20 | 2024-05-03 | 北京工商大学 | 一种基于通道注意力滞留网络的病理图像超分辨率方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108985993A (zh) * | 2018-08-21 | 2018-12-11 | 北京航空航天大学 | 一种在线学习的网络自适应控制系统及控制方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070265870A1 (en) * | 2006-04-19 | 2007-11-15 | Nec Laboratories America, Inc. | Methods and systems for utilizing a time factor and/or asymmetric user behavior patterns for data analysis |
-
2019
- 2019-06-14 CN CN201910515609.5A patent/CN110245133B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108985993A (zh) * | 2018-08-21 | 2018-12-11 | 北京航空航天大学 | 一种在线学习的网络自适应控制系统及控制方法 |
Non-Patent Citations (1)
Title |
---|
J. Zhang等.Modeling collective attention in online and flexible learning environments.Distance Education.2019,全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN110245133A (zh) | 2019-09-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hmedna et al. | A predictive model for the identification of learning styles in MOOC environments | |
Campigotto et al. | Personalized and situation-aware multimodal route recommendations: the FAVOUR algorithm | |
Gibbon | Anthropological archaeology | |
Kiray et al. | Identifying the factors affecting science and mathematics achievement using data mining methods | |
Batty | On planning processes | |
Sukhija et al. | The recent state of educational data mining: A survey and future visions | |
CN110245133B (zh) | 基于集体注意力流网络的在线学习课程分析方法 | |
Morrison | Genealogies: pedigrees and phylogenies are reticulating networks not just divergent trees | |
Baggio et al. | Modelling and simulations for tourism and hospitality: An introduction | |
Ovaskainen et al. | Quantitative ecology and evolutionary biology: integrating models with data | |
CN113344053A (zh) | 一种基于试题异构图表征与学习者嵌入的知识追踪方法 | |
Li et al. | MOOC-FRS: A new fusion recommender system for MOOCs | |
Shirey et al. | Occupancy–detection models with museum specimen data: Promise and pitfalls | |
Huang et al. | Social group modeling with probabilistic soft logic | |
Cam et al. | Discovery of Course Success Using Unsupervised Machine Learning Algorithms. | |
Chaudhary et al. | Student future prediction using machine learning | |
Abraham et al. | Adaptive e-learning environment using learning style recognition | |
Flamia Azevedo et al. | Evaluating student behaviour on the mathe platform-clustering algorithms approaches | |
Alaimo | Open issues in composite indicators construction | |
Kadiyala et al. | Analyzing the student’s academic performance by using clustering methods in data mining | |
Pavlekovic et al. | Comparison of intelligent systems in detecting a child’s mathematical gift | |
Abdalla et al. | Towards emotional and opinion-based layers in city GIS | |
Wang et al. | A Survey of Models for Cognitive Diagnosis: New Developments and Future Directions | |
Biggs et al. | How to use this handbook | |
Sharma et al. | Exploratory agent-based model to understand migration scenarios: a study from the Indian Himalayan Region, Uttarakhand |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |