CN114972716A

CN114972716A - 上课内容记录方法、相关装置和介质

Info

Publication number: CN114972716A
Application number: CN202210555323.1A
Authority: CN
Inventors: 赵兴龙; 周宇虹; 黄玉麟; 涂长伟
Original assignee: Beijing Eswin Computing Technology Co Ltd
Current assignee: Beijing Eswin Computing Technology Co Ltd
Priority date: 2022-05-20
Filing date: 2022-05-20
Publication date: 2022-08-30

Abstract

本公开提供了一种上课内容记录方法、相关装置和介质，该方法包括：从板书视频中识别出书写内容记录文本；从音频文件中识别出语音内容记录文本，所述板书视频和所述音频文件为在教师讲课时同步采集；对所述书写内容记录文本与所述语音内容记录文本进行内容整合并整理相关知识点，形成上课内容记录文本。本公开能够精准定位相关授课内容，降低了查找相关授课内容的耗时。

Description

上课内容记录方法、相关装置和介质

技术领域

本公开涉及智慧教育技术领域，具体涉及一种上课内容记录方法、相关装置和介质。

背景技术

随着网络课堂的流行与普及，教学视频成为一种不可或缺的教育资源。教学视频是通过摄像头、录播主机和拾音麦克风等方式拍摄教学场景而得到的视频。教学场景中，教师通过在写字板上书写内容并且讲解该内容来进行教学，这样，授课内容以视频方式进行记录和保存。然而，如果想要复盘授课内容，需要以回看视频录像的方式进行翻看，不能精准定位相关授课内容，增加了查找相关授课内容的耗时。

发明内容

为了解决上述技术问题，本公开提供了一种上课内容记录方法、相关装置和介质，能够精准定位相关授课内容，降低了查找相关授课内容的耗时。

根据本公开第一方面，提供了一种上课内容记录方法，包括：

从板书视频中识别出书写内容记录文本；

从音频文件中识别出语音内容记录文本，所述板书视频和所述音频文件为在教师讲课时同步采集；

对所述书写内容记录文本与所述语音内容记录文本进行内容整合并整理相关知识点，形成上课内容记录文本。

可选地，所述从板书视频中识别出书写内容记录文本包括：

从所述板书视频中获取教学场景下的板书图像；

基于图像识别技术，识别所述板书图像上的板书内容并将其记为第一文本，其中，所述第一文本内容中添加了第一时间戳。

可选地，所述从音频文件中识别出语音内容记录文本包括：

从所述音频文件中获取教学场景下的音频内容；

基于语音识别技术，识别所述音频内容中的音频信息并将其记为第二文本，其中，所述第二文本内容与所述音频内容的语音时间轴相对应。

可选地，所述从音频文件中识别出语音内容记录文本还包括：

基于声纹识别技术，识别讲述所述音频内容的所述教师的身份。

基于所述教师的历史讲课记录，利用自然语言处理技术，对所述第二文本进行语义解析；

基于语义解析结果，对所述第二文本进行校准，得到第三文本。

可选地，所述对所述书写内容记录文本与所述语音内容记录文本进行内容整合并整理相关知识点，形成上课内容记录文本包括：

基于所述音频内容的语音时间轴和所述第一时间戳，对所述第一文本和所述第三文本进行同步；

对所述第一文本和所述第三文本进行内容整合，得到初始上课内容记录文本；

将所述初始上课内容记录文本与预设知识库进行比对，将匹配的知识点添加到所述初始上课内容记录文本；

基于预设的内容记录格式，调整所述初始上课内容记录文本的记录格式以得到所述上课内容记录文本。

根据本公开第二方面，提供了一种上课内容记录装置，包括：

书写内容记录文本识别单元，用于从板书视频中识别出书写内容记录文本；

语音内容记录文本识别单元，用于从音频文件中识别出语音内容记录文本，所述板书视频和所述音频文件为在教师讲课时同步采集；

上课内容记录文本生成单元，用于对所述书写内容记录文本与所述语音内容记录文本进行内容整合并整理相关知识点，形成上课内容记录文本。

根据本公开第三方面，提供了一种摄像头，包括：

图像采集模块，用于获取板书视频；

音频采集模块，用于获取音频文件；

处理模块，电性连接所述图像采集模块和所述音频采集模块，所述处理模块用于执行上述任一项所述的方法。

根据本公开第四方面，提供了一种教学系统，包括：

摄像设备，用于获取板书视频；

录音设备，用于获取音频文件；

处理设备，电性连接所述摄像设备和所述录音设备，所述处理设备用于执行如上所述的方法。

根据本公开第五方面，提供了一种电子设备，包括：处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序，所述程序被所述处理器执行时实现如上所述的方法的步骤。

根据本公开第六方面，提供了一种存储介质，所述存储介质上存储有计算机程序或指令，所述计算机程序或指令被处理器执行时实现如上所述的方法的步骤。

根据本公开的实施例，从板书视频中识别出书写内容记录文本，从音频文件中识别出语音内容记录文本，利用板书视频和音频文件为在教师讲课时同步采集的这一特点，对书写内容记录文本与语音内容记录文本进行内容整合并将相关知识点添加到整合后的文本，形成上课内容记录文本，这样，可以通过关键词检索、目录查询等的方式，从上课内容记录文本中精准定位相关授课内容，降低了查找相关授课内容的耗时。同时，还可以在上课内容记录文本查阅相关授课内容的知识点，从上课内容记录文本中精准定位相关知识点，节省了查找相关知识点的耗时。

应当说明的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

图1示出根据本公开实施例提供的上课内容记录方法的流程示意图；

图2示出根据本公开实施例提供的上课内容记录文本的预设内容记录格式；

图3示出根据本公开实施例提供的上课内容记录方法的流程示意图；

图4示出根据本公开实施例提供的上课内容记录装置的结构示意图；

图5示出根据本公开实施例提供的教学系统的示意图；

图6示出根据本公开实施例提供的电子设备的结构示意图。

具体实施方式

为了便于理解本公开，下面将参照相关附图对本公开进行更全面的描述。附图中给出了本公开的较佳实施例。但是，本公开可以通过不同的形式来实现，并不限于本文所描述的实施例。相反的，提供这些实施例的目的是使对本公开的公开内容的理解更加透彻全面。

在本文中使用以下概念：

写字板：教学或会议等诸多场景下供书写内容的板子，包括但不限于黑板、绿板、蓝板以及白板。本公开所涉及到的写字板包括但不局限于黑板、绿板、蓝板以及白板，甚至是电子板，这里为方便后文描述简洁，将这些板书介质统称为写字板。

板书内容：教学场景中，教师通过在写字板上书写内容并同时对该内容详细讲解来进行教学。板书内容和语音内容是教学信息的载体，是教师完成教学任务的主要工具。板书内容是书写在写字板上的内容，包括但不限于以文字、符号以及图表等形式体现，本公开将板书内容的体现形式统称为字符。语音内容是在教学过程中对板书内容的详细讲解，以及教师和学生进行交流等教学相关内容。板书图像是摄像头拍摄写字板表面而得到的图像，是写字板表面呈现的图像。

图1示出根据本公开实施例提供的上课内容记录方法的流程示意图。参考图1，本公开实施例提供的上课内容记录方法包括步骤S110至步骤S130。

在步骤S110中，从板书视频中识别出书写内容记录文本。

在一些实施例中，可通过向如摄像机等常用摄像设备发送采集指令的方式控制摄像设备对一个已经搭建好的教育场景如教室、网络课堂等中的教学信息进行采集。在一些实施例中，在一个教育场景内，其包含有写字板、书写笔、背景幕布等基本要素。其中，关键的要素是写字板，其是教师向各终端设备如学生使用的电脑、移动设备等展示重要教学内容的书写平台。可以通过摄像设备采集板书视频，板书视频中记录着在教学场景中，教师在写字板上的书写内容。在一个示例中，可以采用黑板等非透明的可书写的板子作为写字板，教师在写字板的正面进行板书内容书写，摄像设备可以位于写字板的正前方，从而通过采集指令控制摄像设备在写字板的正前方采集获得板书视频(包括书写好的板书内容、教师的书写操作和擦除操作等信息)。在一个示例中，可以采用透明玻璃板等可书写的透明板作为写字板，并定义写字板的正面为教师利用书写笔例如为五彩马克笔进行书写的一面，定义写字板的背面为采用摄像设备来采集板书视频的一面。进而，教师在透明玻璃板的正面进行板书内容书写，而通过采集指令控制摄像设备在透明玻璃板的背面采集获得板书视频(包括书写好的板书内容、教育工作者的书写操作和擦除操作等信息)。

在一些实施例中，步骤S110进一步可以包括：可以从所述板书视频中获取教学场景下的板书图像；基于图像识别技术，识别所述板书图像上的板书内容并将其记为第一文本，其中，所述第一文本内容中添加了第一时间戳。

在一些实施例中，从板书视频中逐帧取出连续帧中的板书图像，每一帧板书图像具有第一时间戳，也即是摄像设备生成每一帧板书图像的时间点。基于图像识别技术，对板书图像进行图像识别处理，提取得到板书图像中的板书内容(例如，文字、公式、图片、标签等)，并以文本的形式存储，形成第一文本(也可称为书写内容记录文本)。其中，可以将摄像设备生成每一帧板书图像的时间点(也即是第一时间戳)添加到该帧板书图像对应的板书内容。这样，在图像识别过程中为第一文本内容添加了第一时间戳，第一时间戳表示第一文本中板书内容所对应的板书图像的生成时间点。这样，后续，可以根据第一时间戳查询根据本公开实施例生成的上课内容记录文本。在一些实施例中，还可以利用自然语言处理技术，对第一文本进行语义理解，基于语义理解结果，对第一文本的基于自然语言理解的意思表达进行校对。由于图像识别技术和自然语言处理技术为现有技术，故这里不再赘述。

在步骤S120中，从音频文件中识别出语音内容记录文本，所述板书视频和所述音频文件为在教师讲课时同步采集。

在一些实施例中，可通过向如录音麦克风等常用录音设备发送采集指令的方式控制录音设备对一个已经搭建好的教育场景如教室、网络课堂等中的教学信息进行采集。在一些实施例中，在一个教育场景内，教师通过在写字板上书写内容并同时对该内容详细讲解来进行教学。可以通过录音设备采集教师讲解写字板上书写内容的音频文件。音频文件是在时间轴上连续或不连续的语音信息，例如具有特定语义的字、词语或句子。需要说明的是，板书视频和音频文件可以是在教师讲课时同步采集的。语音时间轴和第一时间戳是基于设备的系统时间确认的。

在一些实施例中，步骤S120进一步可以包括：从所述音频文件中获取教学场景下的音频内容；基于语音识别技术，识别所述音频内容中的音频信息并将其记为第二文本，其中，所述第二文本内容与所述音频内容的语音时间轴相对应。

在一些实施例中，可以从音频文件中获取教学场景下的音频内容。可以通过语音活动监测(voice activity detection)从音频文件中识别和消除长时间的静音期，以达到在不降低语音识别准确度的情况下节省计算资源的作用。在一些实施例中，可以基于语音识别技术，对音频内容进行语音识别处理，提取到音频内容中的音频信息(例如，具有特定语义的字、词语或句子)，并以文本的形式存储，形成第二文本。其中，第二文本内容与音频的语音时间轴相对应。例如，可以利用隐马尔可夫模型或矢量量化等技术来对音频内容进行语音识别处理。由于语音识别技术为现有技术，故这里不再赘述。

在一些实施例中，步骤S120进一步还可以包括：基于声纹识别技术，识别讲述所述音频内容的所述教师的身份。

声纹(Voiceprint)是用电声学仪器显示的携带语音信息的声波频谱。声纹识别(Voiceprint Recognition,VPR)是生物识别技术的一种，也称为说话人识别(SpeakerRecognition)，是根据从说话人所发语音中提取出的信息判断说话人身份的过程，它与指纹识别、人脸识别、虹膜识别等同属于生物识别的范畴。在一些实施例中，可以基于声纹识别技术，对音频内容进行声纹识别处理，从而识别出讲述该音频内容的教师的身份。由于声纹识别技术为现有技术，故这里不再赘述。

在一些实施例中，步骤S120进一步还可以包括：基于所述教师的历史讲课记录，利用自然语言处理技术，对所述第二文本进行语义解析；基于语义解析结果，对所述第二文本进行校准，得到第三文本。

在一些实施例中，可以利用自然语言处理模型，对第二文本进行语义解析。自然语言处理，即实现人机间自然语言通信，或实现自然语言理解和自然语言生成是十分困难的。造成困难的根本原因是自然语言文本和对话的各个层次上广泛存在的各种各样的歧义性或多义性。一个中文文本从形式上看是由汉字(包括标点符号等)组成的一个字符串。由字可组成词，由词可组成词组，由词组可组成句子，进而由一些句子组成段、节、章、篇。无论在上述的各种层次：字(符)、词、词组、句子、段等，还是在下一层次向上一层次转变中都存在着歧义和多义现象，即形式上一样的一段字符串，在不同的场景或不同的语境下，可以理解成不同的词串、词组串等，并有不同的意义。基于此，由于不同的教师可能具有不同的讲课风格和惯用的话语话术，可以使用声纹识别所确定的教师的历史讲课记录作为训练样本来训练自然语言处理模型，这样可以使用训练好的自然语言处理模型，对第二文本进行语义解析，从而可以提高对第二文本的语义理解的准确性。接着，可以基于语义解析结果，对第二文本的基于自然语言理解的意思表达进行校准，得到第三文本(也可称为语音内容记录文本)。

在步骤S130中，对所述书写内容记录文本与所述语音内容记录文本进行内容整合并整理相关知识点，形成上课内容记录文本。

在一些实施例中，基于音频内容的语音时间轴和第一时间戳，将具有相同语音时间轴和第一时间戳的第一文本与第三文本进行内容整合，从而将书写内容记录文本与语音内容记录文本的内容整合为同一文本。可以将与书写内容记录文本和语音内容记录文本相关的知识点，添加到内容整合后的文本中，从而形成上课内容记录文本。

在一些实施例中，步骤S130进一步可以包括：基于所述音频内容的语音时间轴和所述第一时间戳，对所述第一文本和所述第三文本进行同步；对所述第一文本和所述第三文本进行内容整合，得到初始上课内容记录文本；将所述初始上课内容记录文本与预设知识库进行比对，将匹配的知识点添加到所述初始上课内容记录文本；基于预设的内容记录格式，调整所述初始上课内容记录文本的记录格式以得到所述上课内容记录文本。

在一些实施例中，书写内容记录文本中，按照第一时间戳记录着第一时间戳和第一文本内容之间的对应关系。语音内容记录文本按照音频内容的语音时间轴记录着语音时间轴和第三文本内容之间的对应关系。可以基于相同的语音时间轴和第一时间戳所对应的第一文本内容和第三文本内容之间的对应关系，对第一文本和第三文本进行同步。接着，对第一文本和第三文本进行叠加文字检测和去重，从而将书写内容记录文本与语音内容记录文本的内容整合为同一文本。在一些实施例中，可以通过将内容整合后的文本与预设知识库进行比对，将匹配的知识点添加到内容整合后的文本中，形成初始上课内容记录文本。在一些实施例中，基于预设的内容记录格式，按照语音时间轴和第一时间戳调整初始上课内容记录文本的记录格式以得到上课内容记录文本。图2示出了根据本公开实施例的上课内容记录文本的预设内容记录格式。如图2所示，在预设内容记录格式中，以列表的形式，将相同的语音时间轴和第一时间戳所对应的第一文本内容和第三文本内容，以及第一文本内容和第三文本内容的相关知识点作为一个列表条目，从而建立相同的语音时间轴和第一时间戳所对应的第一文本内容和第三文本内容，以及第一文本内容和第三文本内容的相关知识点之间的对应关系，可以通过关键词检索、目录查询等的方式，精准定位相关授课内容和知识点，节省了查找相关授课内容和知识点的耗时。应当理解，图2所示的预设内容记录格式仅仅是一个示例，本公开实施例的预设内容记录格式不应以此为限。

进一步地，获得上课内容记录文本之后可以对上课内容记录文本进行存储。通过对上课内容记录文本的存储操作，使得学生在课后能够随时的对老师所讲的内容进行复习和巩固，有助于增强学生的学习效果。教师可以对上课内容进行复盘和纠偏。

图3示出根据本公开实施例提供的上课内容记录方法的流程示意图。参考图3，本公开实施例提供的上课内容记录方法包括步骤S310至步骤S390。

在步骤S310中，从所述板书视频中获取教学场景下的板书图像。

在步骤S320中，基于图像识别技术，识别所述板书图像上的板书内容并将其记为第一文本，其中，所述第一文本内容中添加了第一时间戳。

在步骤S330中，从所述音频文件中获取教学场景下的音频内容。

在步骤S340中，基于语音识别技术，识别所述音频内容中的音频信息并将其记为第二文本，其中，所述第二文本内容与所述音频内容的语音时间轴相对应。

在步骤S350中，基于声纹识别技术，识别讲述所述音频内容的所述教师的身份。

在步骤S360中，基于所述教师的历史讲课记录，利用自然语言处理技术，对所述第二文本进行语义解析；基于语义解析结果，对所述第二文本进行校准，得到第三文本。

在步骤S370中，基于所述音频内容的语音时间轴和所述第一时间戳，对所述第一文本和所述第三文本进行同步；对所述第一文本和所述第三文本进行内容整合，得到初始上课内容记录文本。

在步骤S380中，将所述初始上课内容记录文本与预设知识库进行比对，将匹配的知识点添加到所述初始上课内容记录文本。

在步骤S390中，基于预设的内容记录格式，调整所述初始上课内容记录文本的记录格式以得到所述上课内容记录文本。

由于上课内容记录方法的具体实现步骤已在上文中详细描述，故这里不再赘述。

进一步地，本公开实施例还公开了一种上课内容记录装置，用于实现前述的上课内容记录方法。参考图4，本公开实施例所公开的上课内容记录装置400包括：书写内容记录文本识别单元410、语音内容记录文本识别单元420和上课内容记录文本生成单元430。

其中，书写内容记录文本识别单元410，用于从板书视频中识别出书写内容记录文本。语音内容记录文本识别单元420，用于从音频文件中识别出语音内容记录文本，所述板书视频和所述音频文件为在教师讲课时同步采集。上课内容记录文本生成单元430，用于对所述书写内容记录文本与所述语音内容记录文本进行内容整合并整理相关知识点，形成上课内容记录文本。

具体实施时，上课内容记录装置中的各个模块/单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现。同时，以上描述的板书信息处理装置中的各个模块/单元的具体实施可参见前述的上课内容记录方法实施例，在此不再赘述。

本公开实施例还提供了一种教学系统，图5是本公开实施例提供的教学系统的示意图。该教学系统包括：摄像设备501、录音设备502、处理设备503。

摄像设备501，用于获取板书视频。录音设备502，用于获取音频文件。处理设备503，电性连接摄像设备501和录音设备502，所述处理设备503用于执行上述的上课内容记录方法实施例。可以理解，一方面，该教学系统可以集成为一个电子产品，该电子产品包括摄像头、录音麦克风以及处理器等部件，另一方面，该教学系统也可经由网络(例如局域网)通信的多个设备实现。

本公开实施例还提供了一种摄像头，该摄像头中可以集成有图像采集模块、音频采集模块和处理模块，其中图像采集模块，用于获取板书视频；音频采集模块，用于获取音频文件；处理模块，电性连接所述图像采集模块和所述音频采集模块，所述处理模块用于执行前述的上课内容记录方法实施例。

本公开实施例还提供了一种电子设备，如图6所示，包括存储器620、处理器610及存储在存储器620上并可在处理器610上运行的程序，该程序被处理器610执行时可实现上述上课内容记录方法中各实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读的存储介质中，并由处理器进行加载和执行。为此，本公开实施例还提供了一种存储介质，该存储介质上存储有计算机程序或指令，该计算机程序或指令被处理器执行时可实现上述上课内容记录方法中各实施例的各个过程。其中，存储介质，如U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

由于该存储介质中所存储的指令，可以执行本公开实施例所提供的上课内容记录方法中的步骤，因此，可以实现本公开实施例所提供的上课内容记录方法所能实现的有益效果，详见前面的实施例，在此不再赘述。以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

综上，本公开从板书视频中识别出书写内容记录文本，从音频文件中识别出语音内容记录文本，利用板书视频和音频文件为在教师讲课时同步采集的这一特点，对书写内容记录文本与语音内容记录文本进行内容整合并将相关知识点添加到整合后的文本，形成上课内容记录文本，这样，可以通过关键词检索、目录查询等的方式，从上课内容记录文本中精准定位相关授课内容，降低了查找相关授课内容的耗时。同时，还可以在上课内容记录文本查阅相关授课内容的知识点，从上课内容记录文本中精准定位相关知识点，节省了查找相关知识点的耗时。

最后应说明的是：显然，上述实施例仅仅是为清楚地说明本公开所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本公开的保护范围之中。

Claims

1.一种上课内容记录方法，其特征在于，包括：

从板书视频中识别出书写内容记录文本；

2.根据权利要求1所述的上课内容记录方法，其特征在于，所述从板书视频中识别出书写内容记录文本包括：

从所述板书视频中获取教学场景下的板书图像；

3.根据权利要求2所述的上课内容记录方法，其特征在于，所述从音频文件中识别出语音内容记录文本包括：

从所述音频文件中获取教学场景下的音频内容；

4.根据权利要求3所述的上课内容记录方法，其特征在于，所述从音频文件中识别出语音内容记录文本还包括：

5.根据权利要求4所述的上课内容记录方法，其特征在于，所述从音频文件中识别出语音内容记录文本还包括：

6.根据权利要求5所述的上课内容记录方法，其特征在于，所述对所述书写内容记录文本与所述语音内容记录文本进行内容整合并整理相关知识点，形成上课内容记录文本包括：

7.一种上课内容记录装置，其特征在于，包括：

8.一种摄像头，其特征在于，包括：

图像采集模块，用于获取板书视频；

音频采集模块，用于获取音频文件；

处理模块，电性连接所述图像采集模块和所述音频采集模块，所述处理模块用于执行权利要求1至6中任一项所述的方法。

9.一种教学系统，其特征在于，包括：

摄像设备，用于获取板书视频；

录音设备，用于获取音频文件；

处理设备，电性连接所述摄像设备和所述录音设备，所述处理设备用于执行权利要求1至6中任一项所述的方法。

10.一种电子设备，其特征在于，包括：处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序，所述程序被所述处理器执行时实现如权利要求1至6中任一项所述的方法的步骤。

11.一种存储介质，其特征在于，所述存储介质上存储有计算机程序或指令，所述计算机程序或指令被处理器执行时实现如权利要求1至6中任一项所述的方法的步骤。