CN115203469B

CN115203469B - 基于多标签预测的习题讲解视频知识点标注方法及系统

Info

Publication number: CN115203469B
Application number: CN202210816494.5A
Authority: CN
Inventors: 刘刚; 丁璟; 刘兆峰; 刘全; 郭晓丹; 李战军
Original assignee: Qingruan Innovation Technology Group Co ltd
Current assignee: Qingruan Innovation Technology Group Co ltd
Priority date: 2022-07-12
Filing date: 2022-07-12
Publication date: 2023-05-23
Anticipated expiration: 2042-07-12
Also published as: CN115203469A

Abstract

本发明提供了一种基于多标签预测的习题讲解视频知识点标注方法及系统，涉及教育数据标注领域，利用获取知识点讲解授课视频模块中的知识点讲解授课视频子片段中各知识点标签，形成知识点标签集合，确定至少包含一个关键词文本的习题讲解关键句集，将习题讲解关键句集和分类树输入到基于位置的标签相关性分类编码器中，将所述标签相关性分类编码模型的输出至基于多层标签相关性预测模型进行训练，从一个习题讲解视频子片段预测出多个标签，此外，在所述习题讲解讲学视频结束前预设时长内，在OSD层插入所述标注出的知识点，关联到知识点讲解授课视频模块中的知识点讲解授课视频子片段，使得学员在知识点讲解授课模块和习题讲解教学模块之间无缝切换。

Description

基于多标签预测的习题讲解视频知识点标注方法及系统

技术领域

本发明涉及教育数据标注领域，具体而言，涉及一种基于多标签预测的习题讲解视频知识点标注方法。

背景技术

随着互联网技术和多媒体技术的高速发展，在线学习平台数量如雨后春笋般在短短几年激增。为提高服务质量，满足学员足不出户就可以获得海量的教育资源的需求，网络授课技术也在不断优化。很多在线学习平台将授课内容进行直播播放，直播授课具有高实时性，互动性强等优点，但是无法重复观看，不利于用户多次会看和学习。基于此，在直播播放的同时，在线学习平台会对老师的授课过程进行录制，包括教师人体视频，和屏幕展示视频，在将这两个视频进行汇编，形成录播视频，供学生会看。

由于录播视频时长一般都很长，有的学员可能仅仅是想回看其中一部分录播内容，如果是一个完整的视频且没有增加任何的标注的话，学生无法快速搜索定位到自己想学习的部分，因此，很多在线教学平台将录播视频片段化，按照所学科目知识点或者所学科目章节进行分割和标注。使得学生通过搜索录播课程中的知识点标签，就可以找与只之向对应的录播内容。

目前，大多是在线学习平台提供在在知识点讲解课程模块之余，会单独的提供了如习题库模块或者真题库模块等，一方面方便学员对多个知识点的掌握做一个全面的测试，另一方面，按照模拟考试形式练习使得学员可以快速适应考场。这些在线学习平台将还对应的为这些习题集配有习题讲解视频。

为了让学员快速的了解每一个习题的考点，还需对习题讲解视频进行考点标注。不难理解，在习题库中对应考点也都出自知识点讲解课程的知识点。

传统的知识点标注方法大多针对知识点授课视频进行，很少有针对习题讲解视频的。如果就按照与知识点授课视频相类似的方法，一般包括人工标注和单标签标注模型。单纯地依赖于依赖人工进行标注，导致效率低下，不适合具有大量习题的习题库；或者依赖于单标签模型的分类技术进行知识点标注，导致标注标签较为单一。如果是多知识点交叉习题，无法进行多标签标注，忽略了多标签之间的关系，学生难以就某一知识点做针对性的全面的互动，大大降低了搜索效率和用户粘性。除此之外，习题讲解视频无法与知识点授课视频形成无障碍跳转，导致习题讲解视频无法根据标签内容调转到知识点讲解视频观看，使得知识点授课模块和习题库模块可以相互流转。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题，为达上述目的，本发明提供一种基于多标签预测的习题讲解视频知识点标注方法。

本发明第一方面提供一种基于多标签预测的习题讲解视频知识点标注方法，用于在线学习平台，所述在线学习平台包括知识点讲解授课模块和习题讲解教学模块，包括：

获取知识点讲解授课视频子片段中各知识点标签，形成知识点标签集合，其中，所述每个知识点标签对应知识点讲解授课视频中的一个片段；

将所述知识点标签集合输入至分类树模型，根据相关度图谱重构所述知识点标签，得到包含三级标签的分类树；

构建习题讲解视频数据库，按照所述习题讲解视频中对应的习题编号排序，将所述习题讲解视频分割为习题讲解视频子片段；

提取习题讲解视频帧中视频图层的习题页面中的习题内容以及视频帧中的字幕图层的字幕文本，确定包含有至少一个关键词文本的习题讲解关键句集；其中，习题内容包括习题文本和习题图片，字幕文本与教师讲解过程中的音频数据相对应；

将习题讲解关键句集和所述分类树输入到基于位置的标签相关性分类编码器中，捕捉所述习题讲解关键句和所述知识点标签中所有标签的位置，并通过所述标签与分类树的根的相对位置进行表示；

将所述标签相关性分类编码模型的输出至基于多层标签相关性预测模型进行训练，输出针对习题讲解视频子片段的多标签预测结果，并进行知识点标注；其中，所述多层标签相关性预测模型包括基于上下文标签相关性预测子模型和基于分类树的标签相关性预测子模型；

在所述习题讲解讲学视频结束前预设时长内，将预测到的所述知识点标签以与所述知识点标签对应知识点讲解授课视频模块中的知识点讲解授课视频子片段的URL下发到第二智能终端，以供所述第二智能终端在所述习题讲解讲学视频结束前预设时长内，在OSD层插入所述标注出的知识点标签控件。

可选的，将所述知识点标签集合输入至分类树模型，根据相关度图谱重构所述知识点标签，得到包含三级标签的分类树，具体包括：

将所述知识点讲解授课视频子片段中各知识点标签进行重复数据删除，以使得每一个标签在所述知识点标签集合中只出现一次；

查找预设数据库得到所述知识点标签中每一个标签对应的词向量，所述预设数据库用于存储知识点标签之间的知识图谱，根据所述知识点标签中距离确定所述知识点标签的相关性；

根据所述知识点标签的相关性的强度确定包含三级标签的分类树。

可选的，所述将习题讲解关键句集和所述分类树输入到基于位置的标签相关性分类编码模型中，具体包括：

在所述习题讲解关键句集中的每一个习题讲解关键句的起始端插入[cls]符号标记，结束端插入[sep]符号标记。

可选的，所述基于位置的标签相关性分类编码器具体包括字符编码和位置编码；其中所述字符编码用于对所述习题讲解关键句集和所述分类树中的标签进行编码，所述位置编码用于捕捉捉习题讲解关键句和标签中所有标签的位置；

所述习题讲解关键句和标签通过基于位置的标签相关性分类编码器后，表示为：

V,R＝GPT([u(h_i),u(l_j)]),

其中，u＝u_cha+u_loc，u表示表示向量，u_cha表示字符编码对应的向量，u_loc表示位置编码对应的向量，V＝{v₁,v₂,…,v_m}，表示习题讲解关键词聚集，R＝{r₁,r₂,…,r_m}，表示分类树中的所有知识点标签的集合，GPT为预训练模型。

可选的，将所述标签相关性分类编码模型的输出至基于多层标签相关性预测模型进行训练，输出针对习题讲解视频子片段的多标签预测结果，并进行知识点标注；其中，所述多层标签相关性预测模型包括基于上下文标签相关性预测子模型和基于分类树的标签相关性预测子模型，具体包括：

基于上下文标签相关性预测子模型构建各个习题讲解关键句之间的转移关系，以在所述一个习题讲解视频子片段中的各个习题讲解关键句之间捕获标签关系：

其中，l_j和l_j，定义了第j和第j′个标签，H和H′是两个随机初始化的n*n矩阵；

基于多层标签相关性预测模型捕捉标签与标签之间的关系：

其中，

表示通过标签的表示学习到的基于分类树的标签相关性矩阵，

d表示余弦相似度计算得到的关系方程，r表示通过位置编码的标签的表示；V′_j,j′＝d(c_j,c_j,),c表示关键句所述标签的词向量。

可选的，所述多层标签相关性预测模型，还可以表示为：

其中，Z为正则函数，α(y|x)是预测分布,x_i和y_i表示标签的概率，ψ特征函数。

上述基于多标签预测的习题讲解视频知识点标注方法的有益效果是：利用获取知识点讲解授课视频模块中的知识点讲解授课视频子片段中各知识点标签，形成知识点标签集合，该知识点标签集合也就是习题讲解视频数据中的标签的出处；此外，由于习题讲解视频中，教师讲解的话中并不是每一句都包含关键词，因此，对习题讲解视频数据库中的习题讲解视频子片段提取视频图层的习题内容和视频图层的字幕文本，确定至少包含一个关键词文本的习题讲解关键句集，得以有效去噪；将所述知识点标签集合输入至分类树模型，根据相关度图谱重构所述知识点标签，得到包含三级标签的分类树；再将习题讲解关键句集和所述分类树输入到基于位置的标签相关性分类编码器中，将所述标签相关性分类编码模型的输出至基于多层标签相关性预测模型进行训练，最终可从一个习题讲解视频子片段预测出多个标签，并进行标注，实现了多知识点标注，此外，在所述习题讲解讲学视频结束前预设时长内，在OSD层插入所述标注出的知识点，并关联到知识点讲解授课视频模块中的知识点讲解授课视频子片段，可以使得学员在知识点讲解授课模块和习题讲解教学模块之间无缝切换。

附图说明

图1为本发明实施例的一种基于多标签预测的习题讲解视频知识点标注方法的流程示意图；

图2为本发明实施例的一种基于多标签预测的习题讲解视频知识点标注系统的架构示意图。

具体实施方式

下面将参照附图详细描述本发明的实施例，描述涉及附图时，除非另有表示，不同附图中的相同附图标定表示相同或相似的要素。要说明的是，以下示例性实施例中所描述的实施方式并不代表本发明的所有实施方式。它们仅是与如权利要求书中所详述的、本发明公开的一些方面相一致的装置和方法的例子，本发明的范围并不局限于此。在不矛盾的前提下，本发明各个实施例中的特征可以相互组合。

此外，术语“第一”、“第二”仅用以描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“众多”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

本申请主要涉及一种在线学习平台，所述在线学习平台包括知识点讲解授课模块和习题讲解教学模块，知识点讲解授课模块主要包括正课授课，以章节和知识点的展开方式进行。习题讲解教学模块主要以习题为主，有可能一套习题就包括多个考点，而为了测试学员的掌握情况，这些各个习题之间的考点并未太大关联。

需要注意的是，习题讲解教学模块中的考点，实际上就源于知识点讲解授课模块的知识点，因此，知识点标签可以作为两个模块之间共同的关键词使用。这些关键词也可以作为习题讲解教学模块和知识点讲解授课模块之间的无缝跳转的桥梁，起到关键的作用。

如图1所示，一种基于多标签预测的习题讲解视频知识点标注方法，用于在线学习平台，具体流程如下：

S1,获取知识点讲解授课视频模块中的知识点讲解授课视频子片段中各知识点标签，形成知识点标签集合，其中，所述每个知识点标签对应知识点讲解授课视频中的一个片段。

本申请涉及的知识点讲解授课模块中的视频已经根据知识点进行标注和分割，也就是说每一个知识点讲解授课视频可以包含多个知识点讲解授课视频的子片段，而这些子片段已经根据知识点进行标注。

S2,将所述知识点标签集合输入至分类树模型，根据相关度图谱重构所述知识点标签，得到包含三级标签的分类树。

具体的，根据知识点讲解授课视频的子片段提取出的标签形成知识点标签集合，由于多个子片段可能会出现相同的知识点标签，因此，将所述知识点讲解授课视频子片段中各知识点标签进行重复数据删除，以使得每一个标签在所述知识点标签集合中只出现一次。

其次，查找预设数据库得到所述知识点标签中每一个标签对应的词向量，所述预设数据库用于存储知识点标签之间的知识图谱，根据所述知识点标签中距离确定所述知识点标签的相关性；

最后，根据所述知识点标签的相关性的强度确定包含三级标签的分类树。

在一些实施例中，根据标签之间的词向量距离确定知识点标签的相关性具体包括：根据预设算法模型和标签库中的标签的预设初向量，获取所述标签的第一中间量，在根据该标签的第一中间量和上下文标签的预设出向量确定第二中间量，根据第二中间量和第一中间量进行算术平均模型计算，最终获取得到多个标签对应的词向量。

根据上述基于标签相关性计算，在一个标签以及其上下文之间标签输入至预设算法模型得到第一中间量和第二中间量，再将第一中间量和第二中间量经过算术平均模型计算，减少了预设算法模型单独运算引入的误差，还提高了标签之间的相关性系数，得到的标签对应的词向量可以更加准确的预测其和其他标签之间的关系，便于构建分类树。

S3,构建习题讲解视频数据库，按照所述习题讲解视频中对应的习题编号排序，将所述习题讲解视频分割为习题讲解视频子片段。

本申请以习题编号为单位，仅针对单道习题进行预测，如果是一套试卷中包含多道习题的情况，可通过视频中图像检测，识别习题号，将所述习题讲解视频分割为习题讲解视频子片段，并按照对应的习题编号排序。

S4,提取习题讲解视频帧中视频图层的习题页面中的习题内容以及视频帧中的字幕图层的字幕文本，确定包含有至少一个关键词文本的习题讲解关键句集；其中，习题内容包括习题文本和习题图片，字幕文本与教师讲解过程中的音频数据相对应。

习题讲解视频帧包括视频图层数据和字幕图层数据，视频图层由视频播放器解码后输出并渲染到显示屏幕上；字幕图层则浮于视频图层展示，有字幕轨道解码后输出并渲染到显示屏幕上。本申请从习题讲解视频帧中获取原始数据，根据一帧画面包含视频图层数据和字幕图层数据，可以直接将两个轨道中的资源同时获取，而且不会出现时间上的延时。

S5,将习题讲解关键句集和所述分类树输入到基于位置的标签相关性分类编码器中，捕捉所述习题讲解关键句和所述知识点标签中所有标签的位置，并通过所述标签与分类树的根的相对位置进行表示。

在一些实施例中，将习题讲解关键句集合以及标签相关的分类树输入到训练模型之前，先进行语句与标签的编码。

首先，在相邻的习题讲解关键句之间增加分隔符号，以进行区分。优选的，在所述习题讲解关键句集中的每一个习题讲解关键句的起始端插入[cls]符号标记，结束端插入[sep]符号标记。

其次，,将处理好的习题讲解关键句集和所述分类树输入到基于位置的标签相关性分类编码器中进行编码。

在一些实施例中，基于位置的标签相关性分类编码器具体包括字符编码和位置编码。字符编码用于对所述习题讲解关键句集和所述分类树中的标签进行编码，位置编码用于捕捉捉习题讲解关键句和标签中所有标签的位置。

习题讲解关键句和标签通过预训练模型后，表示为：

V,R＝GPT([u(h_i),u(l_j)]), (1)

其中，其中，u＝u_cha+u_loc，u表示表示向量，u_cha表示字符编码对应的向量，u_loc表示位置编码对应的向量，V＝{v₁,v₂,…,v_m}，表示通过字符编码的习题讲解关键句集，R＝{r₁,r₂,…,r_m}，表示通过位置编码的分类树中的所有知识点标签的集合，GPT为预训练模型，h_i为第i个关键句，l_j为第j个标签。

S6,将所述标签相关性分类编码模型的输出至基于多层标签相关性预测模型进行训练，输出针对习题讲解视频子片段的多标签预测结果，并进行知识点标注；其中，所述多层标签相关性预测模型包括基于上下文标签相关性预测子模型和基于分类树的标签相关性预测子模型。

在一些实施例中，使用基于分类树的标签相关性预测子模型的编码模块可以通过分类树捕捉标签之间的关系，这一模块的输入是分类树，输出是标签的位置，这一模块被用于增强基于位置的标签相关性分类编码器的u_loc。

其中，l_j和l_j，定义了第j和第j′个标签，H和H′是两个随机初始化的n*n关系矩阵。

基于上下文标签相关性预测子模型通过学习关系矩阵H^n×n捕捉标签之间的关系，关系矩阵中的每一个元素如下公式表示两个标签之间的关系：

其中，

表示通过标签的表示学习到的基于分类树的标签相关性矩阵，H′表示随机初始化矩阵,/>

d表示余弦相似度计算得到的关系方程，r表示通过位置编码的标签的表示；H′_j,j′＝d(a_j,aj′),a表示关键句所述标签的词向量。

在一些实施例中，多层标签相关性预测模型，还可以表示为：

其中，Z为正则函数，α(y|x)是预测分布,h_i和j_i表示第i个语句和标签的，ψ为特征函数。

而特征函数ψ(h_i,j_i)的输入为基于上下文标签相关性预测子模型的输出，也就是说，在预测分布时候，考虑到如公式(2)所示的各个习题讲解关键句之间的转移关系。

根据上述预测方法，本申请实施例中，可以将一些包含多知识点标签的习题的考点预测出来。如高考数学考题可能出现的三角函数与向量双考点交叉等等。

S7,在所述习题讲解讲学视频结束前预设时长内，将预测到的所述知识点标签以与所述知识点标签对应知识点讲解授课视频模块中的知识点讲解授课视频子片段的URL下发到第二智能终端，以供所述第二智能终端在所述习题讲解讲学视频结束前预设时长内，在OSD层插入所述标注出的知识点标签控件。

在一些实施例中，本申请将预测出的考点标签也就是知识点讲解授课模块中的知识点标注在视频中，并关联到知识点讲解授课视频模块中的知识点讲解授课视频子片段，以供在学员在习题讲解讲学视频结束前预设时长内，根据标记出的知识点跳转到知识点讲解授课视频模块，进入与该标签对应的章节进行学习或复习。

具体的，在在所述习题讲解讲学视频结束前预设时长内，在OSD层插入与预测出的标签相同个数的控件，这些控件标有经过多标签预测模型输出的对应知识点标签。再根据该知识点标签查找知识点讲解授课视频模块中的知识点讲解授课视频的URL(uniformresource locator,统一资源定位系统)。最终将该控件与对应的知识点讲解授课视频的URL进行关联。

本申请中，利用获取知识点讲解授课视频模块中的知识点讲解授课视频子片段中各知识点标签，形成知识点标签集合，该知识点标签集合也就是习题讲解视频数据中的标签的出处；此外，由于习题讲解视频中，教师讲解的话中并不是每一句都包含关键词，因此，对习题讲解视频数据库中的习题讲解视频子片段提取视频图层的习题内容和视频图层的字幕文本，确定至少包含一个关键词文本的习题讲解关键句集，得以有效去噪；再将习题讲解关键句集和所述分类树输入到基于位置的标签相关性分类编码器中，将所述标签相关性分类编码模型的输出至基于多层标签相关性预测模型进行训练，最终可从一个习题讲解视频子片段预测出多个标签，并进行标注，实现了多知识点标注，此外，在所述习题讲解讲学视频结束前预设时长内，在OSD层插入所述标注出的知识点，并关联到知识点讲解授课视频模块中的知识点讲解授课视频子片段，可以使得学员在知识点讲解授课模块和习题讲解教学模块之间无缝切换。

参见图2，本发明另一实施例的一种基于多标签预测的习题讲解教学系统，用于在线学习平台。包括各自联网的服务器、第一智能终端和众多第二智能终端，其中，第一智能终端和任一第二智能终端分别可以为智能手机、便携式电脑、PC电脑、智能电视和车载显示端等中的任一种。一般情况下，第一智能终端主要为教师机，教师机将本段录制的视频发送到服务器，有服务器进行知识点标注。第二智能终端主要为学生机。服务器分别通过与第一智能终端和众多第二智能终端交互，具体实现如上任一实施例提及的基于多标签预测的习题讲解视频知识点标注方法。上述系统具有与上述基于多标签预测的习题讲解视频知识点标注方法相同的有益效果，在此不再赘述。

一般来说，用以实现本发明方法的计算机指令的可以采用一个或众多计算机可读的存储介质的任意组合来承载。非临时性计算机可读存储介质可以包括任何计算机可读介质，除了临时性地传播中的信号本身。

计算机可读存储介质例如可以是，但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或众多导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可以以一种或多种程序设计语言或其组合来编写用以执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言，特别是可以使用适于神经网络计算的Python语言和基于TensorFlow、PyTorch等平台框架。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算机，或，连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

尽管上面已经示出和描述了本发明的实施例，应当理解的是，上述实施例是示例性的，不能解释为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。