CN116016978B

CN116016978B - 在线课堂的画面导播方法、装置、电子设备及存储介质

Info

Publication number: CN116016978B
Application number: CN202310011753.1A
Authority: CN
Inventors: 黄锐; 胡攀文
Original assignee: Chinese University of Hong Kong Shenzhen
Current assignee: Chinese University of Hong Kong Shenzhen
Priority date: 2023-01-05
Filing date: 2023-01-05
Publication date: 2024-05-24
Anticipated expiration: 2043-01-05
Also published as: CN116016978A

Abstract

本申请公开了一种在线课堂的画面导播方法、装置、电子设备及存储介质，所属的技术领域为网络通信技术。所述在线课堂的画面导播方法包括：确定在线课堂中多个视角的视频数据以及每一视角的所述视频数据的指示向量，拼接同一时刻对应的所有所述指示向量得到语义向量；根据所述在线课堂的预设剪辑规则生成规则向量；对所述语义向量和所述规则向量进行加权计算，得到每一视角切换路径的激励值；根据所有所述视角切换路径的激励值确定当前时刻对应的目标视角，并利用所述目标视角的视频数据生成所述在线课堂在当前时刻的直播画面。本申请能够提高在线课堂的直播画面质量，提供更全面的教学信息。

Description

在线课堂的画面导播方法、装置、电子设备及存储介质

技术领域

本申请涉及网络通信技术领域，特别涉及一种在线课堂的画面导播方法、装置、电子设备及存储介质。

背景技术

随着互联网技术的不断发展，在线课堂越来越受到人们的青睐。在线课堂可以使得师资匮乏地区的学生能够享受到发达地区的课堂模式，同时在线课堂也极大降低了学习成本，提高了教学的便捷性和安全性。

相关技术中，在线课堂通常使用一路特写云台摄像头拍摄课堂，基于教师视觉跟踪技术调整摄像头的角度，从而使线上学生可以观察到教师的教学活动。但是上述方案容易造成目标丢失，尤其是教师在走动较快时，而且镜头的移动会导致画面变得模糊，需重新对焦。此外，始终观看同一路特写镜头容易导致线上同学视觉疲劳，影响学生注意力。

因此，如何提高在线课堂的直播画面质量，提供更全面的教学信息是本领域技术人员目前需要解决的技术问题。

发明内容

本申请的目的是提供一种在线课堂的画面导播方法、一种在线课堂的画面导播装置、一种电子设备及一种存储介质，能够提高在线课堂的直播画面质量，提供更全面的教学信息。

为解决上述技术问题，本申请提供一种在线课堂的画面导播方法，该在线课堂的画面导播方法包括：

确定在线课堂中多个视角的视频数据以及每一视角的所述视频数据的指示向量，拼接同一时刻对应的所有所述指示向量得到语义向量；其中，所述指示向量通过对所述视频数据进行语义特征提取得到；

根据所述在线课堂的预设剪辑规则生成规则向量；其中，所述规则向量用于描述视角切换的得分；

对所述语义向量和所述规则向量进行加权计算，得到每一视角切换路径的激励值；其中，所述视角切换路径用于描述直播画面对应的视角从上一时刻至当前时刻的切换路径；

根据所有所述视角切换路径的激励值确定当前时刻对应的目标视角，并利用所述目标视角的视频数据生成所述在线课堂在当前时刻的直播画面。

可选的，在确定在线课堂中多个视角的视频数据以及每一视角的所述视频数据的指示向量之前，还包括：

确定所述在线课堂中的预设视角；其中，所述预设视角包括黑板特写视角、教师全景视角、教室全景视角、学生全景视角和演示文稿视角中的至少两种视角；

利用所述预设视角对应的镜头采集所述视频数据。

可选的，若所述预设视角包括所述黑板特写视角，则在利用所述预设视角对应的镜头采集所述视频数据之后，还包括：

利用姿态估计算法从所述黑板特写视角对应的视频数据中提取关节点位置信息和关节点运动信息；

使用图卷积神经网络对所述关节点位置信息和所述关节点运动信息进行特征提取得到教师骨架姿态特征；

根据所述教师骨架姿态特征确定板书动作识别结果，生成所述板书动作识别结果对应的指示向量。

可选的，若所述预设视角包括所述教师全景视角，则在利用所述预设视角对应的镜头采集所述视频数据之后，还包括：

利用人物检测器检测所述教师全景视角对应的视频数据中的人物数量；

根据所述人物数量确定当前教学事件，生成所述当前教学事件对应的指示向量。

可选的，若所述预设视角包括所述教室全景视角，则在利用所述预设视角对应的镜头采集所述视频数据之后，还包括：

对所述教室全景视角对应的视频数据进行人物跟踪得到教师位置，生成所述教师位置对应的指示向量。

可选的，若所述预设视角包括学生全景视角，则在利用所述预设视角对应的镜头采集所述视频数据之后，还包括：

对所述学生全景视角对应的视频数据进行光流提取，根据光流提取结果计算多个时间点的运动熵；

对所述运动熵进行异常检测，生成异常检测结果对应的指示向量。

可选的，若所述预设视角包括所述演示文稿视角，则在利用所述预设视角对应的镜头采集所述视频数据之后，还包括：

计算所述演示文稿视角对应的视频数据中相邻帧图像的实际梯度差；

根据所述实际梯度差与自回归预测的梯度差的差值确定演示文稿画面检测结果；

生成所述演示文稿画面检测结果对应的指示向量。

可选的，若所述预设视角包括所述演示文稿视角，则利用所述预设视角对应的镜头采集所述视频数据，包括：

利用视频编码器从播放演示文稿的投影仪中获取演示文稿视角对应的视频数据。

可选的，根据所述在线课堂的预设剪辑规则生成规则向量，包括：

根据用户参数确定所述在线课堂的预设剪辑规则，并将所述预设剪辑规则转化为所述规则向量；其中，所述预设剪辑规则包括每一视角的最小持续时长和/或最大持续时长。

可选的，根据所有所述视角切换路径的激励值确定当前时刻对应的目标视角，包括：

若导播模式为实时导播模式，则将激励值最大的视角切换路径在当前时刻的视角设置为所述目标视角。

若导播模式为半实时导播模式，则确定所述半实时导播模式对应的延迟时长L；

采用动态规划算法求解从上一时刻T₀至预期时刻T₀+L的目标视角切换总路径；其中，所述目标视角切换总路径为激励值总和最大的视角切换总路径，所述视角切换总路径包括从上一时刻T₀至预期时刻T₀+L的所有视角切换路径；

根据所述目标视角切换总路径确定当前时刻对应的所述目标视角。

本申请还提供了一种在线课堂的画面导播装置，该装置包括：

数据确定模块，用于确定在线课堂中多个视角的视频数据以及每一视角的所述视频数据的指示向量，拼接同一时刻对应的所有所述指示向量得到语义向量；其中，所述指示向量通过对所述视频数据进行语义特征提取得到；

向量确定模块，用于根据所述在线课堂的预设剪辑规则生成规则向量；其中，所述规则向量用于描述视角切换的得分；

激励值计算模块，用于对所述语义向量和所述规则向量进行加权计算，得到每一视角切换路径的激励值；其中，所述视角切换路径用于描述直播画面对应的视角从上一时刻至当前时刻的切换路径；

画面确定模块，用于根据所有所述视角切换路径的激励值确定当前时刻对应的目标视角，并利用所述目标视角的视频数据生成所述在线课堂在当前时刻的直播画面。

本申请还提供了一种存储介质，其上存储有计算机程序，所述计算机程序执行时实现上述在线课堂的画面导播方法执行的步骤。

本申请还提供了一种电子设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器调用所述存储器中的计算机程序时实现上述在线课堂的画面导播方法执行的步骤。

本申请提供了一种在线课堂的画面导播方法，包括：确定在线课堂中多个视角的视频数据以及每一视角的所述视频数据的指示向量，拼接同一时刻对应的所有所述指示向量得到语义向量；其中，所述指示向量通过对所述视频数据进行语义特征提取得到；根据所述在线课堂的预设剪辑规则生成规则向量；其中，所述规则向量用于描述视角切换的得分；对所述语义向量和所述规则向量进行加权计算，得到每一视角切换路径的激励值；其中，所述视角切换路径用于描述直播画面对应的视角从上一时刻至当前时刻的切换路径；根据所有所述视角切换路径的激励值确定当前时刻对应的目标视角，并利用所述目标视角的视频数据生成所述在线课堂在当前时刻的直播画面。

本申请获取在线课堂的多路视频数据以及每一路视频数据的指示向量，上述指示向量通过对视频数据进行语义特征提取得到，即指示向量为包含视频数据的语义特征的可计算变量。拼接所有指示向量得到的语义向量中包含有同一时刻所有视角采集的视频数据的语义特征。本申请还根据所述在线课堂的预设剪辑规则生成规则向量，规则向量用于描述视角切换的得分。本申请结合语义向量和规则向量计算每一视角切换路径的激励值，进而结合激励值确定在线课堂在当前时刻的直播画面。上述方案通过多个视角的视频数据记录教学内容，并结合每一视角切换路径的激励值大小进行当前直播画面的自动导播，因此本申请能够提高在线课堂的直播画面质量，提供更全面的教学信息。本申请同时还提供了一种在线课堂的画面导播装置、一种存储介质和一种电子设备，具有上述有益效果，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例，下面将对实施例中所需要使用的附图做简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例所提供的一种在线课堂的画面导播方法的流程图；

图2为本申请实施例所提供的一种黑板特写视角对应视频数据的语义分析原理示意图；

图3为本申请实施例所提供的一种教师全景视角对应视频数据的语义分析原理示意图；

图4为本申请实施例所提供的一种教室全景视角对应视频数据的语义分析原理示意图；

图5为本申请实施例所提供的一种学生全景视角对应视频数据的语义分析原理示意图；

图6为本申请实施例所提供的一种演示文稿视角对应视频数据的语义分析原理示意图；

图7为本申请实施例所提供的一种在线课堂直播系统的结构示意图；

图8为本申请实施例所提供的一种在线直播画面的导播方法的原理示意图；

图9为本申请实施例所提供的一种激励值计算原理示意图；

图10为本申请实施例所提供的一种在线课堂的画面导播装置的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

下面请参见图1，图1为本申请实施例所提供的一种在线课堂的画面导播方法的流程图。

具体步骤可以包括：

S101：确定在线课堂中多个视角的视频数据以及每一视角的所述视频数据的指示向量，拼接同一时刻对应的所有所述指示向量得到语义向量；

其中，本实施例可以应用于课堂直播云平台的智能导播模块，在本步骤中可以接收在线课堂中多个视角的镜头采集的视频数据以及每一视频数据的指示向量。上述在线课堂可以为教学的直播间，在线课堂中可以存在多个视角的镜头，每一镜头采集一路视频数据。在采集到视频数据后，可以对每一视频数据进行语义特征提取，得到指示向量。具体的，本实施例可以确定每一视频数据在每一时间点的指示向量。

S102：根据所述在线课堂的预设剪辑规则生成规则向量；

其中，本步骤可以获取预设剪辑规则，将所述预设剪辑规则转化为所述规则向量；上述预设剪辑规则包括每一视频数据对应的拍摄视角的最小持续时长和/或最大持续时长，还包括切换路径黑名单和/或切换路径白名单。切换路径黑名单包括不可以先后相邻切换的一对视角，例如当前时刻的直播画面为视角A的视频数据，下一时刻不能切换为视角B的视频数据；切换路径白名单包括可以先后相邻切换的一对视角，例如当前时刻的直播画面为视角A的视频数据，下一时刻可以切换为视角C、D、E的视频数据。

上述规则向量用于描述视角切换的得分，上述视角切换的得分与视角切换路径的激励值相关，得分越高激励值越大，激励值越大越有可能作为直播画面。

具体的，本实施例可以根据用户参数确定所述在线课堂的预设剪辑规则，并将所述预设剪辑规则转化为所述规则向量；其中，所述预设剪辑规则包括每一视角的最小持续时长和/或最大持续时长。

为了保证学生全景视角对应的视频数据作为当前直播画面的完整性，可以设置学生全景视角对应的视频数据作为当前直播画面的持续时长在大于5秒(最小持续时长)且小于30秒(最大持续时长)；为了保证教师全景视角对应的视频数据作为当前直播画面的连贯性，可以设置教师全景视角对应的视频数据作为当前直播画面的持续时长在大于15秒(最小持续时长)；为了避免演示文稿视角对应的视频数据作为当前直播画面的时间过长，则可以设置演示文稿视角对应的视频数据作为当前直播画面的持续时长在小于10秒(最大持续时长)。

上述规则向量用于描述当前直播画面从当前视角切换至其他视角获得的得分(即，视角切换的得分)。例如从学生全景视角对应的视角切换至教师全景视角对应的视角切换的得分为30，学生全景视角对应的视角切换至演示文稿视角对应的视角切换的得分为10，以使在当前直播画面为学生全景视角采集的视频数据时优先切换至教师全景视角。

S103：对所述语义向量和所述规则向量进行加权计算，得到每一视角切换路径的激励值；

在得到语义向量和规则向量之后，本申请可以对所述语义向量和所述规则向量进行加权计算，得到每一视角切换路径的激励值。上述视角切换路径包括统一视角的切换，具体的，若存在n个视角，本步骤可以计算上一时刻直播画面对应的视角在下一时刻切换至每一视角的n条视角切换路径的激励值。

具体的，上述视角切换路径用于描述直播画面对应的视角从上一时刻T₀至当前时刻T₁的切换路径。若不存在上一时刻的直播画面，则可以根据语义向量确定当前时刻的直播画面。T₁为T₀的下一时刻，任意两个相邻时刻的时间差可以为固定值(如0.05秒)。

本实施例还可以从用户参数中确定语义向量S的权重参数w_s和规则向量R的权重参数w_r，进而按照预设公式F＝w_s*S+w_r*R行加权计算，得到视角切换路径的激励值F。权重参数w_s用于描述通过语义特征提取得到的指示向量在计算激励值时的权重，权重参数w_s用于描述剪辑规则向量在计算激励值时的权重。

S104：根据所有所述视角切换路径的激励值确定当前时刻对应的目标视角，并利用所述目标视角的视频数据生成所述在线课堂在当前时刻的直播画面。

其中，本实施例可以根据各个视角切换路径的激励值确定当前时刻对应的目标视角，进而利用目标视角的视频数据生成所述在线课堂在当前时刻的直播画面。

具体的，本实施例可以根据当前的导播模式确定当前时刻对应的目标视角，方式如下：

若导播模式为实时导播模式，则将激励值最大的视角切换路径在当前时刻的视角设置为所述目标视角。在实时导播模式下，可以选取当前时刻中激励值最大的视角切换路径对应的视角生成直播画面。上述操作可以按照激励值的高低对所有的视频数据进行排序，进而根据同一时间点所述激励值最高的视频数据生成所述在线课堂的当前直播画面，以便为在线课堂的观看者提供激励值最高的视频数据对应的画面。

若导播模式为半实时导播模式，则确定所述半实时导播模式对应的延迟时长L(如5秒)；采用动态规划算法求解从上一时刻T₀(即，第T₀时刻)至预期时刻T₀+L(即，第T₀+L时刻)的目标视角切换总路径；其中，所述目标视角切换总路径为激励值总和最大的视角切换总路径，所述视角切换总路径包括从上一时刻T₀至预期时刻T₀+L的所有视角切换路径；根据所述目标视角切换总路径确定当前时刻对应的所述目标视角。在半实时导播模式下，可以选取一段时间内视角切换路径的激励值总和最大的多个视角切换路径作为目标视角切换总路径，进而在延迟时长L内按照目标视角切换总路径切换直播画面对应的视角，进而为用户提供一段时间内(即，L)激励值总和最高的视频数据对应的画面。

本实施例获取在线课堂的多路视频数据以及每一路视频数据的指示向量，上述指示向量通过对视频数据进行语义特征提取得到，即指示向量为包含视频数据的语义特征的可计算变量。拼接所有指示向量得到的语义向量中包含有同一时刻所有视角采集的视频数据的语义特征。本实施例还根据所述在线课堂的预设剪辑规则生成规则向量，规则向量用于描述视角切换的得分。本实施例结合语义向量和规则向量计算每一视角切换路径的激励值，进而结合激励值确定在线课堂在当前时刻的直播画面。上述方案通过多个视角的视频数据记录教学内容，并结合每一视角切换路径的激励值大小进行当前直播画面的自动导播，因此本实施例能够提高在线课堂的直播画面质量，提供更全面的教学信息。

作为对于图1对应实施例的进一步介绍，在确定在线课堂中多个视角的视频数据以及每一视角的所述视频数据的指示向量之前，还可以通过以下方式采集视频数据：确定所述在线课堂中的预设视角；其中，所述预设视角包括黑板特写视角、教师全景视角、教室全景视角、学生全景视角和演示文稿视角中的至少两种视角；利用所述预设视角对应的镜头采集所述视频数据。本实施例不限定上述黑板特写视角、教师全景视角、教室全景视角、学生全景视角和演示文稿视角中每一视角对应的镜头数量。

作为一种可行的实施方式，若上述选中的预设视角包括所述黑板特写视角，则在利用所述预设视角对应的镜头采集所述视频数据之后，可以通过以下方式确定指示向量：利用姿态估计算法从所述黑板特写视角对应的视频数据中提取关节点位置信息和关节点运动信息；使用图卷积神经网络对所述关节点位置信息和所述关节点运动信息进行特征提取得到教师骨架姿态特征；根据所述教师骨架姿态特征确定板书动作识别结果，生成所述板书动作识别结果对应的指示向量。上述板书动作识别结果可以为检测到教师正在写板书，也可以为未检测到教师正在写板书。上述黑板特写视角为用于拍摄在线课堂内黑板图像的视角。

具体的，本实施例可以在板书动作识别结果为检测到教师正在写板书时，生成元素为1的指示向量；本实施例可以在板书动作识别结果为未检测到教师正在写板书时，生成元素为0的指示向量。

请参见图2，图2为本申请实施例所提供的一种黑板特写视角对应视频数据的语义分析原理示意图。不同于传统直播系统基于低级别的视觉语义信息进行规则导播，本实施例为每一路视频提出了一种高级语义算法，这种体系架构使得直播系统的灵活性和准确度大大提升。具体地，黑板特写视角主要负责拍摄教室板书的内容，当教师在板书时，学生的注意力往往会聚焦在黑板上。因此，教师板书识别对是否选择该路十分关键。本实施例提出了一个基于教师骨架姿态的图神经网络板书识别算法。如图2所示，板书识别算法包括3个部分：关节信息提取、双流交叉图卷积神经网络特征提取、以及特征分类。关节信息提取模块首先从图片序列中利用现有的姿态估计算法Openpose提取教师上半身的关节点位置信息，同时考虑时间维度计算出关节点运动信息。双流交叉图卷积神经网络对位置信息和运动信息进行特征提取；最后使用一个全连接层神经网络对所提取特征进行分类识别，进而将识别结果转化成可计算的指示向量进行传输。

作为一种可行的实施方式，若上述选中的预设视角包括所述教师全景视角，则在利用所述预设视角对应的镜头采集所述视频数据之后，可以通过以下方式确定指示向量：利用人物检测器检测所述教师全景视角对应的视频数据中的人物数量；根据所述人物数量确定当前教学事件，生成所述当前教学事件对应的指示向量。

具体的，教师全景视角为在线课堂内用于拍摄教师所处区域(如讲台)图像的视角。人物检测器用于检测教师全景视角中的人物数量，不同的人物数量对应不同的教学事件；例如，当教师全景视角中的人物数量为1时，当前教学事件为教师处于讲课状态；当教师全景视角中的人物数量不为1时，当前教学事件为教师处于非讲课状态(如休息状态、课堂巡视状态等特殊事件)。进一步的，教师处于讲课状态的教学事件对应元素为0的指示向量，教师处于非讲课状态的教学事件对应元素为1的指示向量。

请参见图3，图3为本申请实施例所提供的一种教师全景视角对应视频数据的语义分析原理示意图。教师全景视角主要用于记录教师与同学的讨论或者同学辅助教师进行教学活动演示。通常情况下教师全景视角中仅包含教师一个人，因此若该视角存在多个人，则表明该视角有特殊事件发生。如图3所示，教师全景视角语义分析过程包括：利用人物检测器对教师全景视角对应的视频数据的图片序列进行人物检测得到人物数量，根据人物数量进行特殊事件检测得到检测结果。检测结果为0表示人物数量为1，不存在特殊事件；检测结果为1表示人物数量不为1，存在特殊事件。上述过程能够有效的检测出每个时刻该视角是否有特殊事件发生，进而转化成指示向量进行传输。

作为一种可行的实施方式，若上述选中的预设视角包括所述教室全景视角，则在利用所述预设视角对应的镜头采集所述视频数据之后，可以通过以下方式确定指示向量：对所述教室全景视角对应的视频数据进行人物跟踪得到教师位置，生成所述教师位置对应的指示向量。

具体的，教室全景视角为在线课堂内用于拍摄教室内全部内容的视角，在线课堂内可以设置有多个教师全景摄像头以便全方位地采集视频数据。本实施例可以基于人物跟踪技术从教室全景视角对应的视频数据中确定教师的位置(即教师教室内的位置)，本实施例可以将教室划分为多个区域，根据教师位置所在的区域确定对应的指示向量。具体的，若教师位置所在的区域为使得教师其他镜头中消失的位置，则可以生成元素为1的指示向量；反之，则生成元素为0的指示向量。

请参见图4，图4为本申请实施例所提供的一种教室全景视角对应视频数据的语义分析原理示意图。教室全景视角用于记录课堂目前的概况。上课过程中，教师可能会大范围走动与学生互动，或者其他一些教学行为。在此过程中，教师会在教师全景镜头或者黑板特写镜头中消失，此时播放教室全景视角更能符合学生的关注点。如图4所示，教室全景语义分析的过程包括：对教室全景视角采集的视频数据的图片序列进行教师跟踪得到教师位置，根据教师位置进行阈值判别，得到判别结果。判别结果为1表示教师在其他视角的镜头中消失，判别结果为0表示教师未在其他视角的镜头中消失。上述过程采用跟踪教师位置的方式，以判断教师是否消失于其他视角。若教师的位置靠左、靠右、靠前超过某一个阈值，则说明教师在其他视角之外活动。此时，该时间点则视为特殊时间，转化成指示向量转发。

作为一种可行的实施方式，若上述选中的预设视角包括学生全景视角，则在利用所述预设视角对应的镜头采集所述视频数据之后，可以通过以下方式确定指示向量：对所述学生全景视角对应的视频数据进行光流提取，根据光流提取结果计算多个时间点的运动熵；对所述运动熵进行异常检测，生成异常检测结果对应的指示向量。

具体的，学生全景视角为用于拍摄在线课堂中学生的图像的视角，本实施例通过对学生全景视角对应的视频数据进行光流提取得到每一时间点的光流图，基于光流图计算每一时间点的运动熵，计算每一时间点运动熵与前一时间点运动熵的运动熵差值，若运动熵差值大于预设差值则生成检测到异常事件的异常检测结果，并生成元素为1的指示向量。若运动熵差值小于或等于预设差值则生成未检测到异常事件的异常检测结果，并生成元素为0的指示向量。

请参见图5，图5为本申请实施例所提供的一种学生全景视角对应视频数据的语义分析原理示意图。学生全景视角被关注往往是因为一些特殊事件发生，例如集体性举手与教师互动，集体性运动开展教学活动等。而通常情况下，学生全景视角拍摄的学生会安静听教师讲课，并伴随着一些头部、手部等局部运动。为了区分特殊事件的运动与学生的轻微肢体运动，本实施例提出一种基于运动熵的异常检测算法。当特殊事件发生时，该算法将该时刻识别成异常事件发生点。如图5所示，学生视角语义分析的算法主要由三部分组成：光流提取、运动熵计算、异常检测器。光流提取模块首先利用现有的光流模型flownet对图片序列中横向和纵向的光流进行提取；运动熵计算模块计算光流图每一个像素的梯度，并将其梯度值投影成直方图，用softmax函数对直方图进行规范化；最后异常检测器将结合每一个时间点近期历史的运动熵信息，判断当前点的运动熵是否有异常，从而得到判断是否有特殊事件发生的异常检测结果，本实施例还可以将异常检测结果转化成指示向量进行传输。异常检测结果为0表示不存在学生举手或学生起立等异常事件，异常检测结果为1表示存在学生举手或学生起立等异常事件。

作为一种可行的实施方式，若上述选中的预设视角包括所述演示文稿视角，则在利用所述预设视角对应的镜头采集所述视频数据之后，可以通过以下方式确定指示向量：计算所述演示文稿视角对应的视频数据中相邻帧图像的实际梯度差；根据所述实际梯度差与自回归预测的梯度差的差值确定演示文稿画面检测结果；生成所述演示文稿画面检测结果对应的指示向量。

具体的，演示文稿视角又称PPT视角，用于采集在线课堂内教师使用的演示文稿的画面。具体的，本实施例可以利用视频编码器从播放演示文稿的投影仪中获取所述演示文稿视角对应的视频数据。本实施例可以计算演示文稿视角对应的视频数据中相邻帧图像的实际梯度差，还可以根据历史帧图像进行自回归预测得到梯度差，计算实际梯度差与自回归预测的梯度差的差值，若差值大于预设梯度差差值则生成检测到异常的演示文稿画面检测结果，此时说明演示文稿发生变化，可以生成元素为1的指示向量；若差值小于或等于于预设梯度差差值则生成未检测到异常的演示文稿画面检测结果，此时说演示文稿未发生变化，可以生成元素为0的指示向量。

请参见图6，图6为本申请实施例所提供的一种演示文稿视角对应视频数据的语义分析原理示意图。在线课堂中，学生的注意力也往往会在PPT发生变化时集中到该视角，因此检测演示文稿视角采集画面的变化至关重要。传统的基于帧差的方法容易受到噪声干扰，微小的变化，如教师在PPT上注释的笔画，很难检测出来。本实施例提出了一种基于梯度差的异常检测算法。如图6所示，PPT变化检测算法由两部分组成：梯度差计算和异常检测器。梯度差计算图像序列中RGB三个通道的梯度，接着对相邻两帧的梯度图计算平均梯度差。异常检测器可以为基于自回归预测的异常检测器，计算当前的梯度差与自回归预测的梯度差是否存在较大的差距，从而判断文稿镜头是否发生了变化得到检测结果，进而将检测结果转化成指示向量转发。若检测结果为0则表示演示文稿未发生变化，若检测结果为1则表示演示文稿发生变化。

下面通过在实际应用中的实施例说明上述实施例描述的流程。

多机位智能导播在线课堂受到越来越多的关注，然而目前的多机位自动导播方法要么过度依赖硬件传感器而限制了教师的活动范围，要么使用的视觉分析方法过于初级而容易产生歧义。例如教师抬手检测，该动作可能存在于教师写板书，也可能存在于教师与学生互动的肢体动作，又或是讲解动作中。这些歧义会导致传统基于规则的导播算法生成错误的指令而切换到不合适的视角，造成线上学生漏失重要信息。另一方面，传统的导播方法通常采用基于规则的方式，然而这种方式很难应对课堂里每一类动态事件，在不同的场景下部署时拓展性和灵活性较差，导播风格单一。

针对上述相关技术中存在的问题，本实施例提供了一个基于多课堂语义的自动导播方案。本方案中共包含5种视角(实际部署时，摄像头数量可根据场地决定)：黑板特写视角、教师全景视角、教室全景视角、学生全景视角、演示文稿视角。每一种镜头都有其特定的信息，本实施例为每一种视角对应的镜头嵌入了特定的高级视觉语义分析模块。例如，为黑板特写镜头提供了基于教师骨架姿态的手写事件识别模块。这种高级别的语义分析可以有效避免低级别信息如抬手等带来的歧义。另外针对现有导播算法拓展性、灵活性差，且导播风格单一的问题，本实施例提供了可计算式的导播算法。本实施例将每个镜头语义分析的结果转换成可计算变量，导播算法将综合这些语义变量、导播规则变量和用户参数计算出最佳的切换视角。当部署所发明的系统到不同环境时，用户仅需确定摄像头数量即可进行拓展部署，用户还可以通过设置风格参数以调整导播视频的风格。

请参见图7，图7为本申请实施例所提供的一种在线课堂直播系统的结构示意图，在线课堂直播系统包括：课堂视频源模块、高级语义分析模块组、本地推流模块、课堂直播云平台和远程交互模块。课堂视频源模块可以通过摄像头和视频编码器将采集的视频数据上传至高级语义分析模块组，高级语义分析模块组对n路视频数据进行语义分析(即，图中语义分析1、语义分析2、语义分析3、……、语义分析n)得到指示向量，通过本地推流模块将视频数据和指示向量上传至课堂直播云平台，课堂直播云平台中的智能导播模块选取当前播放画面，并将当前播放画面发送至各个终端设备的远程交互模块。远程交互模块可以进行视频播放和参数设置。

课堂视频源模块主要用于获取5个视角的视频源：黑板特写视角对应的镜头、教师全景视角对应的镜头、教室全景视角对应的镜头、学生全景视角对应的镜头、演示文稿视角对应的镜头。其中，为了保证演示文稿视频的质量，且不受现场教室环境的干扰，该路视频源直接从投影仪经过一个视频编码器获取。高级语义分析模块组则是由每个视角的特定的语义分析模块组成，每路视频流会首先输入到其特定的语义分析模块进行语义提取。高级语义信息连同视频流一同由本地推流服务器推送到部署在云端的课堂直播云平台。该平台中的智能导播模块则对结合语义信息、用户在设置的参数等信息进行视频自动导播。用户通过网页或者手机应用远程交互式地观看课堂直播。

请参见图8，图8为本申请实施例所提供的一种在线直播画面的导播方法的原理示意图，智能导播模块包括视频与语义接收模块、剪辑规则计算模块和参数接收模块，视频与语义接收模块接收本地视频流(即上文的视频数据)和语义数据(指示向量)，参数接收模块用于接收远程用户参数，视频流切换模块用于从多路视频数据中选取当前直播画面并输出相应的视频流。

如图8所示，本实施例的智能导播模块采用可计算的方式生成最优的导播路径。该方式大大提高了系统的扩展性和灵活性，同时允许用户远程设置参数使得智能导播风格符合用户的偏好。具体地，该智能导播模块包含4个部分：视频与语义信息接收模块、剪辑规则计算模块、参数接收模块、视频流切换模块。视频与语义信息接收模块主要接受和处理从本地推流模块转发的视频和语义信息数据，将所有摄像头的语义指示向量拼接成统一的语义向量。参数接收模块负责接受从用户端输入的用户参数，用户参数包括剪辑艺术经验规则(即，预设剪辑规则)、语义向量的权重参数和规则向量的权重参数，最终当用户不指定参数时则使用默认的用户参数。剪辑规则计算模块将剪辑艺术经验规则，如期望视角最小、最大持续时长等，转化成规则向量。视频流切换模块输入语义向量和规则向量，采用动态规划算法计算出激励值最高的一路视频的索引，该索引则用于指示当前直播画面需要切换到的视频流。

视频导播过程可以视为在每一时刻选择恰当的视频流，这一过程在智能导播模块的视频流切换模块完成。本实施例用图模型对这一过程进行建模，图9为本申请实施例所提供的一种激励值计算原理示意图，图9展示了本发明的动态规划算法求解从t时刻到t+l时刻最佳视频流序列的过程。即假设当前时刻t的直播视频流1，求解未来L时间所直播的视频流。L是一个用户可设置的参数，当L＝1时，则为实时导播；当L>1时，则是半实时导播，即利用未来l时间的信息求解下一时刻的所直播的视频流。

具体地，图9的每一矩形为图模型的一个节点v，表示某一视频流在某一时间单元的视频帧，即v_1,t表示视频流1在t时间单元的帧。图模型的边e的权重则表示从某一节点(节点即一路视频数据在t时刻的视频流)切换到下一节点所获得的激励值，例如e_ij,t表示t时刻从视频流i(即视角i对应的视频数据)切换到视频流j(即视角j对应的视频数据)所获得的激励值，e_11,t表示t时刻从视频流1切换到视频流1所获得的激励值。每一条边的激励值由语义信息、剪辑规则、用户参数计算所得。例如，在t+1时刻，视频与语义信息接收模块主要接收和处理从本地推流模块转发的t+1时刻的视频帧和语义信息数据，将所有摄像头对应的指示向量拼接成统一的语义向量S_t+1，一个C(C为摄像头数目)维的向量，表示在t+1时刻选择C路视频流分别获得的激励值。剪辑规则计算模块将剪辑艺术经验规则，如期望的最小视角持续时长、期望的最大视角持续时长等，根据部分用户参数转化成规则向量R，即从某一视角出发切换到其他视角的激励值。例如，R_1,t,一个C维的向量，表示t时刻从视频流1出发，切换到C路视频流分别获得的规则激励值(即，得分)。参数接收模块负责接收从用户端输入的参数，其中即包括用于计算R的参数，也包括语义激励和规则激励的权重参数w_s和w_r。因此，边e_11,t对应的激励值为w_s*S_t+1[1]+w_r*R_1,t[1]。

利用同样的方式计算所有的边的权重后，动态规划算法则求解出从t时刻的节点v_1,t到t+L时刻某一节点累积激励值最大的一条路径，路径上的节点则为未来L时刻所直播的视频流。

本实施例提供了多种高级视觉课堂语义分析方法：传统的系统采用的基于传感器数据的方式极大地限制了教师的活动范围；而传统的视觉分析方法仅提取简单初级特征，容易造成歧义，从而产生错误导播信号。本实施例提供了可计算的智能导播算法：传统的导播采用规则的方式，建立事件与视角一一对应的关系。然而这种方式限制了其扩展性和灵活性，使得部署时需要重新设计导播规则。当事件变多时，规则设计也将变得十分繁琐。这种基于规则的导播方式无法便捷调整其风格，这会导致与用户的偏好产生冲突。本实施例提供了一种基于独立视觉语义的云课堂直播系统架构：传统的系统通常设计一个中心模块，利用传感器信息识别课堂语义，从而指导视频切换。这种架构的拓展性较差，并且局限了教师的活动范围。得益于上述两个发明点，本系统架构采用独立的视觉语义分析方式，即每一路视频流有单独的分析算法，且导播的决策是有智能导播模块计算得出。在拓展该系统时，仅需明确摄像头用途即对应的分析算法即可部署，而不需要重新修改中心模块的导播规则。

请参见图10，图10为本申请实施例所提供的一种在线课堂的画面导播装置的结构示意图，该装置可以包括：

进一步的，还包括：

数据采集模块，用于在确定在线课堂中多个视角的视频数据以及每一视角的所述视频数据的指示向量之前，确定所述在线课堂中的预设视角；其中，所述预设视角包括黑板特写视角、教师全景视角、教室全景视角、学生全景视角和演示文稿视角中的至少两种视角；还用于利用所述预设视角对应的镜头采集所述视频数据。

进一步的，预设视角包括所述黑板特写视角，所述画面导播装置还包括：

第一指示向量生成模块，用于利用姿态估计算法从所述黑板特写视角对应的视频数据中提取关节点位置信息和关节点运动信息；还用于使用图卷积神经网络对所述关节点位置信息和所述关节点运动信息进行特征提取得到教师骨架姿态特征；还用于根据所述教师骨架姿态特征确定板书动作识别结果，生成所述板书动作识别结果对应的指示向量。

进一步的，预设视角包括所述教师全景视角，所述画面导播装置还包括：

第二指示向量生成模块，用于利用人物检测器检测所述教师全景视角对应的视频数据中的人物数量；还用于根据所述人物数量确定当前教学事件，生成所述当前教学事件对应的指示向量。

进一步的，预设视角包括所述教室全景视角，所述画面导播装置还包括：

第三指示向量生成模块，用于对所述教室全景视角对应的视频数据进行人物跟踪得到教师位置，生成所述教师位置对应的指示向量。

进一步的，预设视角包括学生全景视角，所述画面导播装置还包括：

第四指示向量生成模块，用于对所述学生全景视角对应的视频数据进行光流提取，根据光流提取结果计算多个时间点的运动熵；还用于对所述运动熵进行异常检测，生成异常检测结果对应的指示向量。

进一步的，预设视角包括所述演示文稿视角，所述画面导播装置还包括：

第五指示向量生成模块，用于计算所述演示文稿视角对应的视频数据中相邻帧图像的实际梯度差；还用于根据所述实际梯度差与自回归预测的梯度差的差值确定演示文稿画面检测结果；还用于生成所述演示文稿画面检测结果对应的指示向量。

进一步的，所述预设视角包括所述演示文稿视角，则数据采集模块利用所述预设视角对应的镜头采集所述视频数据的过程包括：利用视频编码器从播放演示文稿的投影仪中获取演示文稿视角对应的视频数据。

进一步的，向量确定模块根据所述在线课堂的预设剪辑规则生成规则向量的过程包括：根据用户参数确定所述在线课堂的预设剪辑规则，并将所述预设剪辑规则转化为所述规则向量；其中，所述预设剪辑规则包括每一视角的最小持续时长和/或最大持续时长。

进一步的，画面确定模块根据所有所述视角切换路径的激励值确定当前时刻对应的目标视角的过程包括：若导播模式为实时导播模式，则将激励值最大的视角切换路径在当前时刻的视角设置为所述目标视角。

进一步的，画面确定模块根据所有所述视角切换路径的激励值确定当前时刻对应的目标视角的过程包括：若导播模式为半实时导播模式，则确定所述半实时导播模式对应的延迟时长L；采用动态规划算法求解从上一时刻T₀至预期时刻T₀+L的目标视角切换总路径；其中，所述目标视角切换总路径为激励值总和最大的视角切换总路径，所述视角切换总路径包括从上一时刻T₀至预期时刻T₀+L的所有视角切换路径；根据所述目标视角切换总路径确定当前时刻对应的所述目标视角。

由于装置部分的实施例与方法部分的实施例相互对应，因此装置部分的实施例请参见方法部分的实施例的描述，这里暂不赘述。

本申请还提供了一种存储介质，其上存有计算机程序，该计算机程序被执行时可以实现上述实施例所提供的步骤。该存储介质可以包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本申请还提供了一种电子设备，可以包括存储器和处理器，所述存储器中存有计算机程序，所述处理器调用所述存储器中的计算机程序时，可以实现上述实施例所提供的步骤。当然所述电子设备还可以包括各种网络接口，电源等组件。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的状况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种在线课堂的画面导播方法，其特征在于，包括：

2.根据权利要求1所述在线课堂的画面导播方法，其特征在于，在确定在线课堂中多个视角的视频数据以及每一视角的所述视频数据的指示向量之前，还包括：

利用所述预设视角对应的镜头采集所述视频数据。

3.根据权利要求2所述在线课堂的画面导播方法，其特征在于，若所述预设视角包括所述黑板特写视角，则在利用所述预设视角对应的镜头采集所述视频数据之后，还包括：

4.根据权利要求2所述在线课堂的画面导播方法，其特征在于，若所述预设视角包括所述教师全景视角，则在利用所述预设视角对应的镜头采集所述视频数据之后，还包括：

5.根据权利要求2所述在线课堂的画面导播方法，其特征在于，若所述预设视角包括所述教室全景视角，则在利用所述预设视角对应的镜头采集所述视频数据之后，还包括：

6.根据权利要求2所述在线课堂的画面导播方法，其特征在于，若所述预设视角包括学生全景视角，则在利用所述预设视角对应的镜头采集所述视频数据之后，还包括：

7.根据权利要求2所述在线课堂的画面导播方法，其特征在于，若所述预设视角包括所述演示文稿视角，则在利用所述预设视角对应的镜头采集所述视频数据之后，还包括：

生成所述演示文稿画面检测结果对应的指示向量。

8.根据权利要求2所述在线课堂的画面导播方法，其特征在于，若所述预设视角包括所述演示文稿视角，则利用所述预设视角对应的镜头采集所述视频数据，包括：

9.根据权利要求1所述在线课堂的画面导播方法，其特征在于，根据所述在线课堂的预设剪辑规则生成规则向量，包括：

10.根据权利要求1至9任一项所述在线课堂的画面导播方法，其特征在于，根据所有所述视角切换路径的激励值确定当前时刻对应的目标视角，包括：

11.根据权利要求1至9任一项所述在线课堂的画面导播方法，其特征在于，根据所有所述视角切换路径的激励值确定当前时刻对应的目标视角，包括：

12.一种在线课堂的画面导播装置，其特征在于，包括：

13.一种电子设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器调用所述存储器中的计算机程序时实现如权利要求1至11任一项所述在线课堂的画面导播方法的步骤。

14.一种存储介质，其特征在于，所述存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器加载并执行时，实现如上权利要求1至11任一项所述在线课堂的画面导播方法的步骤。