CN109657096B

CN109657096B - 一种基于低学龄教学音视频的辅助统计报告生成方法

Info

Publication number: CN109657096B
Application number: CN201910026930.7A
Authority: CN
Inventors: 刘复昌; 汪林; 袁浩
Original assignee: Hangzhou Normal University
Current assignee: Hangzhou Normal University
Priority date: 2019-01-11
Filing date: 2019-01-11
Publication date: 2021-06-08
Anticipated expiration: 2039-01-11
Also published as: CN109657096A

Abstract

本发明公开了一种基于低学龄教学音视频的辅助统计报告生成方法。其中的音视频的辅助统计报告来自于对现阶段特级教师的教学视频资源的提取和处理，通过对大量的优秀教师的教学影像分离出音频数据和视频数据，音频数据利用基于LSTM的网络模型将音频数据转换成文本数据，通过汉语分词将文本数据进行分词生成简要教案；视频数据则先通过场景分类，然后通过基于深度学习的目标检测算法统计视频中出现的教学辅助工具的类别以及时间，生成可视化统计图。最后融合音频数据和视频数据中提取到的信息，生成一个教学辅助统计报告，用于低学龄学生的辅助教学；该教学辅助统计报告生成系统可提供一个实时的在线教学辅助统计报告，减少教师备课的时间。

Description

一种基于低学龄教学音视频的辅助统计报告生成方法

技术领域

本发明涉及教学辅助领域，视频和音频上主要涉及计算机视觉领域及自然语言处理领域。

背景技术

在一般的教学活动中，当授课老师在面对低学龄的学生时，很多讲解抽象知识都需要形象化、具体化才能更易于学生的理解，所以在授课老师备课时除了要准备好自己的教案，还要同时准备好上课时辅助的道具，如此一来，授课老师需要准备更全面的资料去应对讲课，通过观看大量的特级教师网络视频课程资源就是一个好的准备方式，但是如果要观看大量的授课视频务必要耗费大量的备课时间，所以，节约备课时间提高效率是关键，提出教学辅助报告，主要为授课老师呈现一份特级教师上课内容图文结合的报告，图文中包括特级教师对该课程提出的一些目标和课程要求，以及上课过程中用到了哪些教学辅助道具，减轻授课老师在面对低学龄学生时的备课工作量，提升工作效率。

综上所述，我们给授课老师呈现一份特级教师上课内容图文结合的书面报告，以此可供授课老师参考在面对低学龄的学生时教学过程中需要注意些什么，大大的缩短备课时间，但是在现有的技术中还没有生成这样的教学辅助报告的形式和手段。

发明内容

为了减少授课老师在面对低学龄学生的备课时间以及提升备课效率，本发明的目的在于提供一种基于低学龄教学音视频的辅助统计报告生成方法。

为了实现上述目的，本发明的技术方案为一种基于低学龄教学音视频的辅助统计报告生成系统，具体技术方案包括以下步骤：

步骤1给定单个特级教师网络视频课程进行视频与音频的分离，通过基于FFmpeg的视音频分离器模块进行分离后得到原视频和原音频两个文件；

步骤2对分离后的原视频进行处理：

2-1.利用基于边缘检测的镜头分割算法做镜头分割，提取原视频中的关键帧图像，从关键帧处做视频分段，通过基于OCR文本检测算法来检测文字区域占有比例，且定义低于预设定阈值比例的镜头画面的图像帧为负样本，其余图像帧均为正样本，提取正样本的视频数据，完成视频数据的场景分类；

2-2.对数据集MS-COCO进行人工筛选出室内场景的目标物体送入yolo-v3中进行训练；

2-3.对步骤2-1中保留正样本的视频数据用步骤3训练好的yolo-v3模型做目标检测；

2-4.统计步骤2-3中正样本视频数据中检测到的目标，统计目标的类别以及对应的时长，生成可视化统计图；

步骤3对步骤2中得到的原音频数据进行处理，通过调用基于LSTM的训练好的模型将音频数据转换成文本数据；并将获取的文本数据送到NLPIR汉语分词模块中，做自动摘要与关键词提取，生成新的文本信息；

步骤4通过Python脚本语言整合步骤5中的可视化统计图和步骤3中新的文本信息生成对应课程的教学辅助统计报告；

所述的步骤2所述的对分离后的原视频进行处理包括以下模块：

模块1：模型训练和测试模块；

模块2：场景分类模块，该模块中包括关键帧图像提取、关键帧图像的分类以及视频分段，获得正样本视频数据；

模块3：对正样本视频数据进行目标物体的检测，生成可视化统计图。

模块1具体实现如下：

选用YOLO-V3来对人工筛选后的MS-COCO数据集进行训练，训练与测试比例为1:1；

模块1.1调整输入图像的大小为448*448；

模块1.2将预处理后的图像送入darknet53中进行处理，用于提取特征；其中53表示53个卷积层的网络；

模块1.3 YOLO-V3使用维度聚类作为anchor boxes来预测边界框，网络为每个边界框预测四个坐标，分别为t_x、t_y、t_w、t_h；如果单元格从图像的左上角偏移(c_x,c_y)；并且之前的边界框具有宽度和高度p_w、p_h，则预测对应的四个边界框的坐标为：

b_x＝δ(t_x)+c_x

b_y＝δ(t_y)+c_y

模块1.4通过每个网格预测B个边界框以及每个边界框的置信度confidence；

其中，P_r(Object)表示网格存在物体为1，不存在物体为0；

每个边界框有5个预测值：x、y、w、h、confidence，(x,y)代表预测边界框的中心点坐标，w，h是边界框的宽度和高度，confidence是预测边界框和真实边界框的IOU；

模块1.5通过每个网格预测C个条件类别概率P_r(Class_i|Object)，这是网格中含有物体的条件下属于某个类别的概率，即条件类别概率；

模块1.6通过条件类别概率和confidence相乘，可以得到每个边界框在各个类别的得分值，这些得分值代表该类别物体出现在框中的概率和边界框与物体的拟合程度；

模块1.7在训练数据集上对网络进行135个epochs的训练，训练中的batch size为64，momentum为0.9，decay为0.0005；在第一个epoch中将learning rate慢慢的从0.001提高到0.01，防止不稳定的梯度会导致网络发散；以0.01训练75个epochs，再以0.001训练30个epochs，以0.0001训练30个epochs；

模块1.8完成训练以后并进行测试，完成网络模型建立。

模块2具体实现如下：

模块2.1通过调用基于边缘检测的镜头分割算法的开源代码shotdetect对s1中得到视频进行镜头分割，通过镜头边缘检测函数可以获得第n个镜头下的最后一帧图像以及第n+1个镜头下的第一帧图像，保证每个镜头下都有两张关键帧图像，得到的每张关键帧图像以视频中的时间节点命名，同时通过python脚本按照关键帧图像的时间节点名称来做视频分段，保证每一段视频只有一个镜头；

模块2.2利用基于OCR文本检测算法的开源代码Text-Detection中的textDetection模块来检测模块2.1中得到的每一帧关键帧图像中的占有率tp；

其中，s为关键帧图像的大小，width为检测到的文字识别框的宽度，height为检测到的文字识别框的高度；设tp的预设阈值为0.5，当tp≥0.5时，即认为该关键帧图像为无任何目标物体图像，记为负样本图片，否则记为正样本图片；

模块2.3依据模块2.2中得到负样本图片，剔除负样本图片时间段内的视频数据，保留正样本视频数据。

模块3具体实现如下：

通过模块2的场景分类模块得到需要目标检测的正样本视频数据，将正样本视频数据送入模块1训练好的网络模型中，具体的模块3中描述如下：

模块3.1通过训练好的模型对每一段正样本视频数据做每一帧图像目标检测，记每一类目标物体在第一段视频数据中出现时间为Δt₁，第二段视频数据中出现时间为Δt₂，第n段视频数据中出现时间为Δt_n，则每一类目标物体在视频数据中出现的时间T＝Δt₁+Δt₂+…+Δt_n；

模块3.2通过模块3.1可以得到视频数据中出现的物体的类别，以及每一类物体出现的时长T，用python中matplotlib画出每一类目标物体出现时长的可视化统计图。

所述的步骤3包括以下步骤：

3-1.通过调用基于LSTM的开源代码DeepSpeech，将步骤1中得到的音频数据上传，并创建转写任务；

3-2.通过调用训练好DeepSpeech的模型将音频数据转换成文本数据，并存储音频数据转换后的文本数据；

3-3.利用NLPIR汉语分词模块读取步骤3-2中获取的文本数据，首先依据空格以及标点符号对文本数据进行断句，进而做原子分词，并对每个原子单位进行词性标注；nPOS＝1表示是开始标记，nPOS＝4表示结束标记，nPOS＝0表示未识别词，nPOS为标志位,；

3-4.通过步骤3-3，源字符串成了一个个独立的最小语素单位，通过两个循环把原子之间所有可能的组合都找出来并存储，存储的数据结构中的Row和Col用二维表表示其链表存储结构，数学方法描述如下：

有一个原子序列：A(n)，其中0≤n<m，m为原子序列A(n)的长度；当I＝n时，判断A_nA_n+1+1…A_p是否为一个词组，其中n<p<m，输入为原子，输出为词组，存储结构为链表结构；

3-5.通过步骤3-4中的链表结构进一步生成邻接表，邻接表表示出了每个词组之间的耦合关系，每一个节点都表示分词图表中的一条边，它的行值代表边的起点(前驱)，它的列值代表边的终点(后继)，通过N最短路径分词算法保留前N个最优路径，得到初次分词的结果；

3-6.对步骤3-5中得到分词结果做优化处理，保留处理最后的文本数据，得到简要版教案。

本发明提供的技术方案的有益效果为：

本发明首次提出一种基于低学龄教学音视频的辅助统计报告生成系统，首先通过基于FFmpeg的视音频分离器模块对输入的单个特级教师网络视频课程进行视频与音频的分离，分别得到视频数据和音频数据，然后视频数据上，用目标检测算法对公用数据集(常用教学工具)进行训练，之后提取视频中关键帧图像，对关键帧图像做文字识别，设定文字区域占有比例的阈值，通过判定阈值区分正负样本数据来做场景分类，最后对剩下的视频数据的每一帧数据做目标检测，对于检测到的工具做统计(类别、时长)，生成可视化统计图；之后音频数据上，先通过音频转换模块将音频数据转换成文本数据，再用NLPIR汉语分词模块做分词，生成简要版教案；最后融合视频数据和音频数据中得到的结果生成对应课程的教学辅助报告。

综上所述，本发明基于低学龄教学音视频的辅助统计报告生成系统，可提供一个实时的在线教学辅助统计报告，减少授课老师在面对低学龄学生的备课时间以及提升备课效率，具有很强的实用性。

附图说明

图1是本发明的整体流程图。

图2是视频处理模块流程图。

图3是音频处理模块流程图。

图4是初次分词后的数据结构图。

具体实施方式

为了使本发明的技术方案更加清楚明白，以下参考附图，对本发明的各实施例予以进一步的详尽阐述。

如附图1所示一种基于低学龄教学音视频的辅助统计报告生成系统，包括以下顺序步骤：

s1.通过基于FFmpeg的视音频分离器模块将网络视频课程分离为视频数据和音频数据。

s2.视频数据通过目标物体的检测模块生成可视化统计图，如附图2所示。

s3.音频数据通过音频转换模块生成简要版教案，如附图3所示。

s4.整合s2和s3中的可视化统计图和简要版教案，生成对应课程的教学辅助统计报告。

所述的步骤s2中包括以下模块：

模块1：模型训练和测试模块。

模块2：场景分类模块，该模块中包括关键帧图像提取、关键帧图像的分类以及视频分段，获得正样本视频数据。

具体的描述模块1中的步骤：

在本实施例中，选用YOLO-V3来对人工筛选后的MS-COCO数据集进行训练，训练与测试比例为1:1。

模块1.1调整输入图像的大小为448*448。

模块1.2将预处理后的图像送入darknet53(其中53表示53个卷积层的网络)中进行处理，用于提取特征。

b_x＝δ(t_x)+c_x

b_y＝δ(t_y)+c_y

模块1.4通过每个网格预测B个边界框以及每个边界框的confidence(置信度)。

其中，P_r(Object)表示网格存在物体为1，不存在物体为0。

每个边界框有5个预测值：x、y、w、h、confidence，(x,y)代表预测边界框的中心点坐标，w，h是边界框的宽度和高度，confidence是预测边界框和真实边界框的IOU。

模块1.6通过条件类别概率和confidence相乘，可以得到每个边界框在各个类别的得分值，这些得分值代表该类别物体出现在框中的概率和边界框与物体的拟合程度。

模块1.7在训练数据集上对网络进行135个epochs的训练，训练中的batch size为64，momentum为0.9，decay为0.0005；在第一个epoch中将learning rate慢慢的从0.001提高到0.01，防止不稳定的梯度会导致网络发散。以0.01训练75个epochs，再以0.001训练30个epochs，以0.0001训练30个epochs。

模块1.8完成训练以后并进行测试，完成网络模型建立。

通过建立好的网络模型，下面可以进入场景分类模块，具体的描述模块2中的步骤：

模块2.1通过调用基于边缘检测的镜头分割算法的开源代码shotdetect对s1中得到视频进行镜头分割，通过镜头边缘检测函数可以获得第n个镜头下的最后一帧图像以及第n+1个镜头下的第一帧图像，保证每个镜头下都有两张关键帧图像，得到的每张关键帧图像以视频中的时间节点命名，同时通过python脚本按照关键帧图像的名称(时间节点)来做视频分段，保证每一段视频只有一个镜头。

模块2.2利用基于OCR文本检测算法的开源代码Text-Detection中的textDetection模块来检测模块2.1中得到的每一帧关键帧图像中的占有率tp。

其中，s为关键帧图像的大小，width为检测到的文字识别框的宽度，height为检测到的文字识别框的高度。设tp的预设阈值为0.5，当tp≥0.5时，即认为该关键帧图像为无任何目标物体图像，记为负样本图片，否则记为正样本图片。

以上通过模块2的场景分类模块得到需要目标检测的正样本视频数据，将正样本视频数据送入模块1训练好的网络模型中，具体的描述模块3中的步骤：

模块3.1通过训练好的模型对每一段正样本视频数据做每一帧图像目标检测，记每一类目标物体在第一段视频数据中出现时间为Δt₁，第二段视频数据中出现时间为Δt₂，第n段视频数据中出现时间为Δt_n，则每一类目标物体在视频数据中出现的时间T＝Δt₁+Δt₂+…+Δt_n。

所述的步骤s3中包括以下步骤，具体描述如下：

t1.通过调用基于LSTM的开源代码DeepSpeech，将步骤s1中得到的音频数据上传，并创建转写任务。

t2.通过调用训练好DeepSpeech的模型将音频数据转换成文本数据，并存储音频数据转换后的文本数据。

t3.利用NLPIR汉语分词模块读取t2中获取的文本数据，首先依据空格以及标点符号对文本数据进行断句，进而做原子分词，并对每个原子单位进行词性标注。nPOS＝1表示是开始标记，nPOS＝4表示结束标记，nPOS＝0表示未识别词(nPOS为标志位)。

t4.通过步骤t3，源字符串成了一个个独立的最小语素单位，通过两个循环把原子之间所有可能的组合都找出来，按照附图4中的数据结构存储，依据附图4中的数据结构中的Row和Col用二维表表示其链表存储结构，数学方法描述如下：

有一个原子序列：A(n)，其中0≤n<m，m为原子序列A(n)的长度。当I＝n时，判断A_nA_n+1+1…A_p是否为一个词组，其中n<p<m，输入为原子，输出为词组，存储结构为链表结构。

外循环体：将每一个原子赋值到字符串S中；

内循环体：将外循环体中的相邻原子也赋值到字符串S的后面，组成一个新的字符串S_new；

内循环体判断：如果S_new是一个词组，把S_new加入到初次切分的列表中，记录该词组的词性，同时记录该词组所在表中的坐标位置及其它信息；否则跳出内循环体；

退出并结束该过程，以链表的形式存储输出的词组。

具体的伪代码实现如下：

t5.通过t4中的链表结构进一步生成邻接表，邻接表表示出了每个词组之间的耦合关系，每一个节点都表示分词图表中的一条边，它的行值代表边的起点(前驱)，它的列值代表边的终点(后继)，通过N最短路径分词算法保留前N个最优路径，得到初次分词的结果。

t6.对t5中得到分词结果做优化处理，例如叠词之类不用拆分，保留处理最后的文本数据，得到简要版教案。

以上完成了步骤s2和步骤s3的所有步骤，步骤s4中将通过python脚本语言整合模块3.2中的可视化统计图以及t6中简要版教案，生成教学辅助统计报告。

本发明所要求保护的方案节约备课时间提高效率是关键，提出一种基于低学龄教学音视频的辅助统计报告生成系统，主要为授课老师呈现一份特级教师上课内容图文结合的报告，可提供一个实时的在线教学辅助统计报告，图文中包括特级教师对该课程提出的一些目标和课程要求，以及上课过程中用到了哪些教学辅助道具，减轻授课老师在面对低学龄学生时的备课工作量，提升工作效率。

以上所述仅为本发明的较好实施例，并不用以限制本发明的条件，在不脱离本发明的基本前提下，可以做若干修改，这些改进也应视为本发明的保护范围内。

Claims

1.一种基于低学龄教学音视频的辅助统计报告生成方法，其特征在于包括如下步骤：

步骤2对分离后的原视频进行处理：

2-3.对步骤2-1中保留正样本的视频数据用训练好的yolo-v3模型做目标检测；

步骤3对步骤1中得到的原音频数据进行处理，通过调用基于LSTM的训练好的模型将音频数据转换成文本数据；并将获取的文本数据送到NLPIR汉语分词模块中，做自动摘要与关键词提取，生成新的文本信息；

步骤4通过Python脚本语言整合可视化统计图和新的文本信息生成对应课程的教学辅助统计报告。

2.根据权利要求1所述的一种基于低学龄教学音视频的辅助统计报告生成方法，其特征在于

模块1：模型训练和测试模块；

3.根据权利要求2所述的一种基于低学龄教学音视频的辅助统计报告生成方法，其特征在于模块1具体实现如下：

选用YOLO-V3来对人工筛选后的MS-COCO数据集进行训练，训练与测试比例为1∶1；

模块1.1调整输入图像的大小为448*448；

模块1.3YOLO-V3使用维度聚类作为anchor boxes来预测边界框，网络为每个边界框预测四个坐标，分别为t_x、t_y、t_w、t_h；如果单元格从图像的左上角偏移(c_x，c_y)；并且之前的边界框具有宽度和高度p_w、p_h，则预测对应的四个边界框的坐标为：

b_x＝δ(t_x)+c_x

b_y＝δ(t_y)+c_y

其中，P_r(Object)表示网格存在物体为1，不存在物体为0；

每个边界框有5个预测值：x、y、w、h、confidence，(x，y)代表预测边界框的中心点坐标，w，h是边界框的宽度和高度，confidence是预测边界框和真实边界框的IOU；

模块1.8完成训练以后并进行测试，完成网络模型建立。

4.根据权利要求3所述的一种基于低学龄教学音视频的辅助统计报告生成方法，其特征在于模块2具体实现如下：

模块2.1通过调用基于边缘检测的镜头分割算法的开源代码shotdetect对步骤1中得到视频进行镜头分割，通过镜头边缘检测函数可以获得第n个镜头下的最后一帧图像以及第n+1个镜头下的第一帧图像，保证每个镜头下都有两张关键帧图像，得到的每张关键帧图像以视频中的时间节点命名，同时通过python脚本按照关键帧图像的时间节点名称来做视频分段，保证每一段视频只有一个镜头；

5.根据权利要求4所述的一种基于低学龄教学音视频的辅助统计报告生成方法，其特征在于模块3具体实现如下：

6.根据权利要求5所述的一种基于低学龄教学音视频的辅助统计报告生成方法，其特征在于所述的步骤3包括以下步骤：

3-3.利用NLPIR汉语分词模块读取步骤3-2中获取的文本数据，首先依据空格以及标点符号对文本数据进行断句，进而做原子分词，并对每个原子单位进行词性标注；nPOS＝1表示是开始标记，nPOS＝4表示结束标记，nPOS＝0表示未识别词，nPOS为标志位；

3-5.通过步骤3-4中的链表结构进一步生成邻接表，邻接表表示出了每个词组之间的耦合关系，每一个节点都表示分词图表中的一条边，它的行值代表边的起点，它的列值代表边的终点，通过N最短路径分词算法保留前N个最优路径，得到初次分词的结果；