CN109657096B - 一种基于低学龄教学音视频的辅助统计报告生成方法 - Google Patents
一种基于低学龄教学音视频的辅助统计报告生成方法 Download PDFInfo
- Publication number
- CN109657096B CN109657096B CN201910026930.7A CN201910026930A CN109657096B CN 109657096 B CN109657096 B CN 109657096B CN 201910026930 A CN201910026930 A CN 201910026930A CN 109657096 B CN109657096 B CN 109657096B
- Authority
- CN
- China
- Prior art keywords
- module
- video
- data
- teaching
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 12
- 230000011218 segmentation Effects 0.000 claims abstract description 41
- 238000001514 detection method Methods 0.000 claims abstract description 18
- 238000012545 processing Methods 0.000 claims abstract description 16
- 230000000007 visual effect Effects 0.000 claims abstract description 16
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 15
- 238000000605 extraction Methods 0.000 claims abstract description 7
- 238000012549 training Methods 0.000 claims description 21
- 238000003708 edge detection Methods 0.000 claims description 8
- 238000012360 testing method Methods 0.000 claims description 8
- 238000012015 optical character recognition Methods 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 230000008878 coupling Effects 0.000 claims description 3
- 238000010168 coupling process Methods 0.000 claims description 3
- 238000005859 coupling reaction Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 238000012067 mathematical method Methods 0.000 claims description 3
- 238000013518 transcription Methods 0.000 claims description 3
- 230000035897 transcription Effects 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 2
- 238000012216 screening Methods 0.000 claims description 2
- 238000002360 preparation method Methods 0.000 abstract description 10
- 238000013135 deep learning Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于低学龄教学音视频的辅助统计报告生成方法。其中的音视频的辅助统计报告来自于对现阶段特级教师的教学视频资源的提取和处理,通过对大量的优秀教师的教学影像分离出音频数据和视频数据,音频数据利用基于LSTM的网络模型将音频数据转换成文本数据,通过汉语分词将文本数据进行分词生成简要教案;视频数据则先通过场景分类,然后通过基于深度学习的目标检测算法统计视频中出现的教学辅助工具的类别以及时间,生成可视化统计图。最后融合音频数据和视频数据中提取到的信息,生成一个教学辅助统计报告,用于低学龄学生的辅助教学;该教学辅助统计报告生成系统可提供一个实时的在线教学辅助统计报告,减少教师备课的时间。
Description
技术领域
本发明涉及教学辅助领域,视频和音频上主要涉及计算机视觉领域及自然语言处理领域。
背景技术
在一般的教学活动中,当授课老师在面对低学龄的学生时,很多讲解抽象知识都需要形象化、具体化才能更易于学生的理解,所以在授课老师备课时除了要准备好自己的教案,还要同时准备好上课时辅助的道具,如此一来,授课老师需要准备更全面的资料去应对讲课,通过观看大量的特级教师网络视频课程资源就是一个好的准备方式,但是如果要观看大量的授课视频务必要耗费大量的备课时间,所以,节约备课时间提高效率是关键,提出教学辅助报告,主要为授课老师呈现一份特级教师上课内容图文结合的报告,图文中包括特级教师对该课程提出的一些目标和课程要求,以及上课过程中用到了哪些教学辅助道具,减轻授课老师在面对低学龄学生时的备课工作量,提升工作效率。
综上所述,我们给授课老师呈现一份特级教师上课内容图文结合的书面报告,以此可供授课老师参考在面对低学龄的学生时教学过程中需要注意些什么,大大的缩短备课时间,但是在现有的技术中还没有生成这样的教学辅助报告的形式和手段。
发明内容
为了减少授课老师在面对低学龄学生的备课时间以及提升备课效率,本发明的目的在于提供一种基于低学龄教学音视频的辅助统计报告生成方法。
为了实现上述目的,本发明的技术方案为一种基于低学龄教学音视频的辅助统计报告生成系统,具体技术方案包括以下步骤:
步骤1给定单个特级教师网络视频课程进行视频与音频的分离,通过基于FFmpeg的视音频分离器模块进行分离后得到原视频和原音频两个文件;
步骤2对分离后的原视频进行处理:
2-1.利用基于边缘检测的镜头分割算法做镜头分割,提取原视频中的关键帧图像,从关键帧处做视频分段,通过基于OCR文本检测算法来检测文字区域占有比例,且定义低于预设定阈值比例的镜头画面的图像帧为负样本,其余图像帧均为正样本,提取正样本的视频数据,完成视频数据的场景分类;
2-2.对数据集MS-COCO进行人工筛选出室内场景的目标物体送入yolo-v3中进行训练;
2-3.对步骤2-1中保留正样本的视频数据用步骤3训练好的yolo-v3模型做目标检测;
2-4.统计步骤2-3中正样本视频数据中检测到的目标,统计目标的类别以及对应的时长,生成可视化统计图;
步骤3对步骤2中得到的原音频数据进行处理,通过调用基于LSTM的训练好的模型将音频数据转换成文本数据;并将获取的文本数据送到NLPIR汉语分词模块中,做自动摘要与关键词提取,生成新的文本信息;
步骤4通过Python脚本语言整合步骤5中的可视化统计图和步骤3中新的文本信息生成对应课程的教学辅助统计报告;
所述的步骤2所述的对分离后的原视频进行处理包括以下模块:
模块1:模型训练和测试模块;
模块2:场景分类模块,该模块中包括关键帧图像提取、关键帧图像的分类以及视频分段,获得正样本视频数据;
模块3:对正样本视频数据进行目标物体的检测,生成可视化统计图。
模块1具体实现如下:
选用YOLO-V3来对人工筛选后的MS-COCO数据集进行训练,训练与测试比例为1:1;
模块1.1调整输入图像的大小为448*448;
模块1.2将预处理后的图像送入darknet53中进行处理,用于提取特征;其中53表示53个卷积层的网络;
模块1.3 YOLO-V3使用维度聚类作为anchor boxes来预测边界框,网络为每个边界框预测四个坐标,分别为tx、ty、tw、th;如果单元格从图像的左上角偏移(cx,cy);并且之前的边界框具有宽度和高度pw、ph,则预测对应的四个边界框的坐标为:
bx=δ(tx)+cx
by=δ(ty)+cy
模块1.4通过每个网格预测B个边界框以及每个边界框的置信度confidence;
其中,Pr(Object)表示网格存在物体为1,不存在物体为0;
每个边界框有5个预测值:x、y、w、h、confidence,(x,y)代表预测边界框的中心点坐标,w,h是边界框的宽度和高度,confidence是预测边界框和真实边界框的IOU;
模块1.5通过每个网格预测C个条件类别概率Pr(Classi|Object),这是网格中含有物体的条件下属于某个类别的概率,即条件类别概率;
模块1.6通过条件类别概率和confidence相乘,可以得到每个边界框在各个类别的得分值,这些得分值代表该类别物体出现在框中的概率和边界框与物体的拟合程度;
模块1.7在训练数据集上对网络进行135个epochs的训练,训练中的batch size为64,momentum为0.9,decay为0.0005;在第一个epoch中将learning rate慢慢的从0.001提高到0.01,防止不稳定的梯度会导致网络发散;以0.01训练75个epochs,再以0.001训练30个epochs,以0.0001训练30个epochs;
模块1.8完成训练以后并进行测试,完成网络模型建立。
模块2具体实现如下:
模块2.1通过调用基于边缘检测的镜头分割算法的开源代码shotdetect对s1中得到视频进行镜头分割,通过镜头边缘检测函数可以获得第n个镜头下的最后一帧图像以及第n+1个镜头下的第一帧图像,保证每个镜头下都有两张关键帧图像,得到的每张关键帧图像以视频中的时间节点命名,同时通过python脚本按照关键帧图像的时间节点名称来做视频分段,保证每一段视频只有一个镜头;
模块2.2利用基于OCR文本检测算法的开源代码Text-Detection中的textDetection模块来检测模块2.1中得到的每一帧关键帧图像中的占有率tp;
其中,s为关键帧图像的大小,width为检测到的文字识别框的宽度,height为检测到的文字识别框的高度;设tp的预设阈值为0.5,当tp≥0.5时,即认为该关键帧图像为无任何目标物体图像,记为负样本图片,否则记为正样本图片;
模块2.3依据模块2.2中得到负样本图片,剔除负样本图片时间段内的视频数据,保留正样本视频数据。
模块3具体实现如下:
通过模块2的场景分类模块得到需要目标检测的正样本视频数据,将正样本视频数据送入模块1训练好的网络模型中,具体的模块3中描述如下:
模块3.1通过训练好的模型对每一段正样本视频数据做每一帧图像目标检测,记每一类目标物体在第一段视频数据中出现时间为Δt1,第二段视频数据中出现时间为Δt2,第n段视频数据中出现时间为Δtn,则每一类目标物体在视频数据中出现的时间T=Δt1+Δt2+…+Δtn;
模块3.2通过模块3.1可以得到视频数据中出现的物体的类别,以及每一类物体出现的时长T,用python中matplotlib画出每一类目标物体出现时长的可视化统计图。
所述的步骤3包括以下步骤:
3-1.通过调用基于LSTM的开源代码DeepSpeech,将步骤1中得到的音频数据上传,并创建转写任务;
3-2.通过调用训练好DeepSpeech的模型将音频数据转换成文本数据,并存储音频数据转换后的文本数据;
3-3.利用NLPIR汉语分词模块读取步骤3-2中获取的文本数据,首先依据空格以及标点符号对文本数据进行断句,进而做原子分词,并对每个原子单位进行词性标注;nPOS=1表示是开始标记,nPOS=4表示结束标记,nPOS=0表示未识别词,nPOS为标志位,;
3-4.通过步骤3-3,源字符串成了一个个独立的最小语素单位,通过两个循环把原子之间所有可能的组合都找出来并存储,存储的数据结构中的Row和Col用二维表表示其链表存储结构,数学方法描述如下:
有一个原子序列:A(n),其中0≤n<m,m为原子序列A(n)的长度;当I=n时,判断AnAn+1+1…Ap是否为一个词组,其中n<p<m,输入为原子,输出为词组,存储结构为链表结构;
3-5.通过步骤3-4中的链表结构进一步生成邻接表,邻接表表示出了每个词组之间的耦合关系,每一个节点都表示分词图表中的一条边,它的行值代表边的起点(前驱),它的列值代表边的终点(后继),通过N最短路径分词算法保留前N个最优路径,得到初次分词的结果;
3-6.对步骤3-5中得到分词结果做优化处理,保留处理最后的文本数据,得到简要版教案。
本发明提供的技术方案的有益效果为:
本发明首次提出一种基于低学龄教学音视频的辅助统计报告生成系统,首先通过基于FFmpeg的视音频分离器模块对输入的单个特级教师网络视频课程进行视频与音频的分离,分别得到视频数据和音频数据,然后视频数据上,用目标检测算法对公用数据集(常用教学工具)进行训练,之后提取视频中关键帧图像,对关键帧图像做文字识别,设定文字区域占有比例的阈值,通过判定阈值区分正负样本数据来做场景分类,最后对剩下的视频数据的每一帧数据做目标检测,对于检测到的工具做统计(类别、时长),生成可视化统计图;之后音频数据上,先通过音频转换模块将音频数据转换成文本数据,再用NLPIR汉语分词模块做分词,生成简要版教案;最后融合视频数据和音频数据中得到的结果生成对应课程的教学辅助报告。
综上所述,本发明基于低学龄教学音视频的辅助统计报告生成系统,可提供一个实时的在线教学辅助统计报告,减少授课老师在面对低学龄学生的备课时间以及提升备课效率,具有很强的实用性。
附图说明
图1是本发明的整体流程图。
图2是视频处理模块流程图。
图3是音频处理模块流程图。
图4是初次分词后的数据结构图。
具体实施方式
为了使本发明的技术方案更加清楚明白,以下参考附图,对本发明的各实施例予以进一步的详尽阐述。
如附图1所示一种基于低学龄教学音视频的辅助统计报告生成系统,包括以下顺序步骤:
s1.通过基于FFmpeg的视音频分离器模块将网络视频课程分离为视频数据和音频数据。
s2.视频数据通过目标物体的检测模块生成可视化统计图,如附图2所示。
s3.音频数据通过音频转换模块生成简要版教案,如附图3所示。
s4.整合s2和s3中的可视化统计图和简要版教案,生成对应课程的教学辅助统计报告。
所述的步骤s2中包括以下模块:
模块1:模型训练和测试模块。
模块2:场景分类模块,该模块中包括关键帧图像提取、关键帧图像的分类以及视频分段,获得正样本视频数据。
模块3:对正样本视频数据进行目标物体的检测,生成可视化统计图。
具体的描述模块1中的步骤:
在本实施例中,选用YOLO-V3来对人工筛选后的MS-COCO数据集进行训练,训练与测试比例为1:1。
模块1.1调整输入图像的大小为448*448。
模块1.2将预处理后的图像送入darknet53(其中53表示53个卷积层的网络)中进行处理,用于提取特征。
模块1.3 YOLO-V3使用维度聚类作为anchor boxes来预测边界框,网络为每个边界框预测四个坐标,分别为tx、ty、tw、th;如果单元格从图像的左上角偏移(cx,cy);并且之前的边界框具有宽度和高度pw、ph,则预测对应的四个边界框的坐标为:
bx=δ(tx)+cx
by=δ(ty)+cy
模块1.4通过每个网格预测B个边界框以及每个边界框的confidence(置信度)。
其中,Pr(Object)表示网格存在物体为1,不存在物体为0。
每个边界框有5个预测值:x、y、w、h、confidence,(x,y)代表预测边界框的中心点坐标,w,h是边界框的宽度和高度,confidence是预测边界框和真实边界框的IOU。
模块1.5通过每个网格预测C个条件类别概率Pr(Classi|Object),这是网格中含有物体的条件下属于某个类别的概率,即条件类别概率;
模块1.6通过条件类别概率和confidence相乘,可以得到每个边界框在各个类别的得分值,这些得分值代表该类别物体出现在框中的概率和边界框与物体的拟合程度。
模块1.7在训练数据集上对网络进行135个epochs的训练,训练中的batch size为64,momentum为0.9,decay为0.0005;在第一个epoch中将learning rate慢慢的从0.001提高到0.01,防止不稳定的梯度会导致网络发散。以0.01训练75个epochs,再以0.001训练30个epochs,以0.0001训练30个epochs。
模块1.8完成训练以后并进行测试,完成网络模型建立。
通过建立好的网络模型,下面可以进入场景分类模块,具体的描述模块2中的步骤:
模块2.1通过调用基于边缘检测的镜头分割算法的开源代码shotdetect对s1中得到视频进行镜头分割,通过镜头边缘检测函数可以获得第n个镜头下的最后一帧图像以及第n+1个镜头下的第一帧图像,保证每个镜头下都有两张关键帧图像,得到的每张关键帧图像以视频中的时间节点命名,同时通过python脚本按照关键帧图像的名称(时间节点)来做视频分段,保证每一段视频只有一个镜头。
模块2.2利用基于OCR文本检测算法的开源代码Text-Detection中的textDetection模块来检测模块2.1中得到的每一帧关键帧图像中的占有率tp。
其中,s为关键帧图像的大小,width为检测到的文字识别框的宽度,height为检测到的文字识别框的高度。设tp的预设阈值为0.5,当tp≥0.5时,即认为该关键帧图像为无任何目标物体图像,记为负样本图片,否则记为正样本图片。
模块2.3依据模块2.2中得到负样本图片,剔除负样本图片时间段内的视频数据,保留正样本视频数据。
以上通过模块2的场景分类模块得到需要目标检测的正样本视频数据,将正样本视频数据送入模块1训练好的网络模型中,具体的描述模块3中的步骤:
模块3.1通过训练好的模型对每一段正样本视频数据做每一帧图像目标检测,记每一类目标物体在第一段视频数据中出现时间为Δt1,第二段视频数据中出现时间为Δt2,第n段视频数据中出现时间为Δtn,则每一类目标物体在视频数据中出现的时间T=Δt1+Δt2+…+Δtn。
模块3.2通过模块3.1可以得到视频数据中出现的物体的类别,以及每一类物体出现的时长T,用python中matplotlib画出每一类目标物体出现时长的可视化统计图。
所述的步骤s3中包括以下步骤,具体描述如下:
t1.通过调用基于LSTM的开源代码DeepSpeech,将步骤s1中得到的音频数据上传,并创建转写任务。
t2.通过调用训练好DeepSpeech的模型将音频数据转换成文本数据,并存储音频数据转换后的文本数据。
t3.利用NLPIR汉语分词模块读取t2中获取的文本数据,首先依据空格以及标点符号对文本数据进行断句,进而做原子分词,并对每个原子单位进行词性标注。nPOS=1表示是开始标记,nPOS=4表示结束标记,nPOS=0表示未识别词(nPOS为标志位)。
t4.通过步骤t3,源字符串成了一个个独立的最小语素单位,通过两个循环把原子之间所有可能的组合都找出来,按照附图4中的数据结构存储,依据附图4中的数据结构中的Row和Col用二维表表示其链表存储结构,数学方法描述如下:
有一个原子序列:A(n),其中0≤n<m,m为原子序列A(n)的长度。当I=n时,判断AnAn+1+1…Ap是否为一个词组,其中n<p<m,输入为原子,输出为词组,存储结构为链表结构。
外循环体:将每一个原子赋值到字符串S中;
内循环体:将外循环体中的相邻原子也赋值到字符串S的后面,组成一个新的字符串Snew;
内循环体判断:如果Snew是一个词组,把Snew加入到初次切分的列表中,记录该词组的词性,同时记录该词组所在表中的坐标位置及其它信息;否则跳出内循环体;
退出并结束该过程,以链表的形式存储输出的词组。
具体的伪代码实现如下:
t5.通过t4中的链表结构进一步生成邻接表,邻接表表示出了每个词组之间的耦合关系,每一个节点都表示分词图表中的一条边,它的行值代表边的起点(前驱),它的列值代表边的终点(后继),通过N最短路径分词算法保留前N个最优路径,得到初次分词的结果。
t6.对t5中得到分词结果做优化处理,例如叠词之类不用拆分,保留处理最后的文本数据,得到简要版教案。
以上完成了步骤s2和步骤s3的所有步骤,步骤s4中将通过python脚本语言整合模块3.2中的可视化统计图以及t6中简要版教案,生成教学辅助统计报告。
本发明所要求保护的方案节约备课时间提高效率是关键,提出一种基于低学龄教学音视频的辅助统计报告生成系统,主要为授课老师呈现一份特级教师上课内容图文结合的报告,可提供一个实时的在线教学辅助统计报告,图文中包括特级教师对该课程提出的一些目标和课程要求,以及上课过程中用到了哪些教学辅助道具,减轻授课老师在面对低学龄学生时的备课工作量,提升工作效率。
以上所述仅为本发明的较好实施例,并不用以限制本发明的条件,在不脱离本发明的基本前提下,可以做若干修改,这些改进也应视为本发明的保护范围内。
Claims (6)
1.一种基于低学龄教学音视频的辅助统计报告生成方法,其特征在于包括如下步骤:
步骤1给定单个特级教师网络视频课程进行视频与音频的分离,通过基于FFmpeg的视音频分离器模块进行分离后得到原视频和原音频两个文件;
步骤2对分离后的原视频进行处理:
2-1.利用基于边缘检测的镜头分割算法做镜头分割,提取原视频中的关键帧图像,从关键帧处做视频分段,通过基于OCR文本检测算法来检测文字区域占有比例,且定义低于预设定阈值比例的镜头画面的图像帧为负样本,其余图像帧均为正样本,提取正样本的视频数据,完成视频数据的场景分类;
2-2.对数据集MS-COCO进行人工筛选出室内场景的目标物体送入yolo-v3中进行训练;
2-3.对步骤2-1中保留正样本的视频数据用训练好的yolo-v3模型做目标检测;
2-4.统计步骤2-3中正样本视频数据中检测到的目标,统计目标的类别以及对应的时长,生成可视化统计图;
步骤3对步骤1中得到的原音频数据进行处理,通过调用基于LSTM的训练好的模型将音频数据转换成文本数据;并将获取的文本数据送到NLPIR汉语分词模块中,做自动摘要与关键词提取,生成新的文本信息;
步骤4通过Python脚本语言整合可视化统计图和新的文本信息生成对应课程的教学辅助统计报告。
2.根据权利要求1所述的一种基于低学龄教学音视频的辅助统计报告生成方法,其特征在于
所述的步骤2所述的对分离后的原视频进行处理包括以下模块:
模块1:模型训练和测试模块;
模块2:场景分类模块,该模块中包括关键帧图像提取、关键帧图像的分类以及视频分段,获得正样本视频数据;
模块3:对正样本视频数据进行目标物体的检测,生成可视化统计图。
3.根据权利要求2所述的一种基于低学龄教学音视频的辅助统计报告生成方法,其特征在于模块1具体实现如下:
选用YOLO-V3来对人工筛选后的MS-COCO数据集进行训练,训练与测试比例为1∶1;
模块1.1调整输入图像的大小为448*448;
模块1.2将预处理后的图像送入darknet53中进行处理,用于提取特征;其中53表示53个卷积层的网络;
模块1.3YOLO-V3使用维度聚类作为anchor boxes来预测边界框,网络为每个边界框预测四个坐标,分别为tx、ty、tw、th;如果单元格从图像的左上角偏移(cx,cy);并且之前的边界框具有宽度和高度pw、ph,则预测对应的四个边界框的坐标为:
bx=δ(tx)+cx
by=δ(ty)+cy
模块1.4通过每个网格预测B个边界框以及每个边界框的置信度confidence;
其中,Pr(Object)表示网格存在物体为1,不存在物体为0;
每个边界框有5个预测值:x、y、w、h、confidence,(x,y)代表预测边界框的中心点坐标,w,h是边界框的宽度和高度,confidence是预测边界框和真实边界框的IOU;
模块1.5通过每个网格预测C个条件类别概率Pr(Classi|Object),这是网格中含有物体的条件下属于某个类别的概率,即条件类别概率;
模块1.6通过条件类别概率和confidence相乘,可以得到每个边界框在各个类别的得分值,这些得分值代表该类别物体出现在框中的概率和边界框与物体的拟合程度;
模块1.7在训练数据集上对网络进行135个epochs的训练,训练中的batch size为64,momentum为0.9,decay为0.0005;在第一个epoch中将learning rate慢慢的从0.001提高到0.01,防止不稳定的梯度会导致网络发散;以0.01训练75个epochs,再以0.001训练30个epochs,以0.0001训练30个epochs;
模块1.8完成训练以后并进行测试,完成网络模型建立。
4.根据权利要求3所述的一种基于低学龄教学音视频的辅助统计报告生成方法,其特征在于模块2具体实现如下:
模块2.1通过调用基于边缘检测的镜头分割算法的开源代码shotdetect对步骤1中得到视频进行镜头分割,通过镜头边缘检测函数可以获得第n个镜头下的最后一帧图像以及第n+1个镜头下的第一帧图像,保证每个镜头下都有两张关键帧图像,得到的每张关键帧图像以视频中的时间节点命名,同时通过python脚本按照关键帧图像的时间节点名称来做视频分段,保证每一段视频只有一个镜头;
模块2.2利用基于OCR文本检测算法的开源代码Text-Detection中的textDetection模块来检测模块2.1中得到的每一帧关键帧图像中的占有率tp;
其中,s为关键帧图像的大小,width为检测到的文字识别框的宽度,height为检测到的文字识别框的高度;设tp的预设阈值为0.5,当tp≥0.5时,即认为该关键帧图像为无任何目标物体图像,记为负样本图片,否则记为正样本图片;
模块2.3依据模块2.2中得到负样本图片,剔除负样本图片时间段内的视频数据,保留正样本视频数据。
5.根据权利要求4所述的一种基于低学龄教学音视频的辅助统计报告生成方法,其特征在于模块3具体实现如下:
通过模块2的场景分类模块得到需要目标检测的正样本视频数据,将正样本视频数据送入模块1训练好的网络模型中,具体的模块3中描述如下:
模块3.1通过训练好的模型对每一段正样本视频数据做每一帧图像目标检测,记每一类目标物体在第一段视频数据中出现时间为Δt1,第二段视频数据中出现时间为Δt2,第n段视频数据中出现时间为Δtn,则每一类目标物体在视频数据中出现的时间T=Δt1+Δt2+…+Δtn;
模块3.2通过模块3.1可以得到视频数据中出现的物体的类别,以及每一类物体出现的时长T,用python中matplotlib画出每一类目标物体出现时长的可视化统计图。
6.根据权利要求5所述的一种基于低学龄教学音视频的辅助统计报告生成方法,其特征在于所述的步骤3包括以下步骤:
3-1.通过调用基于LSTM的开源代码DeepSpeech,将步骤1中得到的音频数据上传,并创建转写任务;
3-2.通过调用训练好DeepSpeech的模型将音频数据转换成文本数据,并存储音频数据转换后的文本数据;
3-3.利用NLPIR汉语分词模块读取步骤3-2中获取的文本数据,首先依据空格以及标点符号对文本数据进行断句,进而做原子分词,并对每个原子单位进行词性标注;nPOS=1表示是开始标记,nPOS=4表示结束标记,nPOS=0表示未识别词,nPOS为标志位;
3-4.通过步骤3-3,源字符串成了一个个独立的最小语素单位,通过两个循环把原子之间所有可能的组合都找出来并存储,存储的数据结构中的Row和Col用二维表表示其链表存储结构,数学方法描述如下:
有一个原子序列:A(n),其中0≤n<m,m为原子序列A(n)的长度;当I=n时,判断AnAn+1+1…Ap是否为一个词组,其中n<p<m,输入为原子,输出为词组,存储结构为链表结构;
3-5.通过步骤3-4中的链表结构进一步生成邻接表,邻接表表示出了每个词组之间的耦合关系,每一个节点都表示分词图表中的一条边,它的行值代表边的起点,它的列值代表边的终点,通过N最短路径分词算法保留前N个最优路径,得到初次分词的结果;
3-6.对步骤3-5中得到分词结果做优化处理,保留处理最后的文本数据,得到简要版教案。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910026930.7A CN109657096B (zh) | 2019-01-11 | 2019-01-11 | 一种基于低学龄教学音视频的辅助统计报告生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910026930.7A CN109657096B (zh) | 2019-01-11 | 2019-01-11 | 一种基于低学龄教学音视频的辅助统计报告生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109657096A CN109657096A (zh) | 2019-04-19 |
CN109657096B true CN109657096B (zh) | 2021-06-08 |
Family
ID=66119189
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910026930.7A Active CN109657096B (zh) | 2019-01-11 | 2019-01-11 | 一种基于低学龄教学音视频的辅助统计报告生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109657096B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110516651A (zh) * | 2019-09-02 | 2019-11-29 | 卓尔智联(武汉)研究院有限公司 | 一种视频数据处理方法、装置及存储介质 |
CN110941984B (zh) * | 2019-09-25 | 2022-04-05 | 西南科技大学 | 基于深度学习的自习室座位状态检测方法与座位管理系统 |
CN112765397B (zh) * | 2021-01-29 | 2023-04-21 | 抖音视界有限公司 | 一种音频转换方法、音频播放方法及装置 |
CN113095239B (zh) * | 2021-04-15 | 2024-07-23 | 湖南鸭梨数字科技有限公司 | 一种关键帧提取方法、终端及计算机可读存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102508991A (zh) * | 2011-09-30 | 2012-06-20 | 北京航空航天大学 | 一种基于图像素材的虚拟实验教学场景的构建方法 |
CN103854014A (zh) * | 2014-02-25 | 2014-06-11 | 中国科学院自动化研究所 | 一种基于上下文稀疏表示的恐怖视频识别方法及装置 |
CN104700410A (zh) * | 2015-03-14 | 2015-06-10 | 西安电子科技大学 | 基于协同过滤的教学视频标注方法 |
CN105405325A (zh) * | 2015-12-22 | 2016-03-16 | 深圳市时尚德源文化传播有限公司 | 一种网络教学方法及系统 |
JP2017112448A (ja) * | 2015-12-15 | 2017-06-22 | 日本放送協会 | 映像シーン分割装置及び映像シーン分割プログラム |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2016392618A1 (en) * | 2016-02-13 | 2018-10-04 | Devender Dutt KALIA | Educational toy simulator |
-
2019
- 2019-01-11 CN CN201910026930.7A patent/CN109657096B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102508991A (zh) * | 2011-09-30 | 2012-06-20 | 北京航空航天大学 | 一种基于图像素材的虚拟实验教学场景的构建方法 |
CN103854014A (zh) * | 2014-02-25 | 2014-06-11 | 中国科学院自动化研究所 | 一种基于上下文稀疏表示的恐怖视频识别方法及装置 |
CN104700410A (zh) * | 2015-03-14 | 2015-06-10 | 西安电子科技大学 | 基于协同过滤的教学视频标注方法 |
JP2017112448A (ja) * | 2015-12-15 | 2017-06-22 | 日本放送協会 | 映像シーン分割装置及び映像シーン分割プログラム |
CN105405325A (zh) * | 2015-12-22 | 2016-03-16 | 深圳市时尚德源文化传播有限公司 | 一种网络教学方法及系统 |
Non-Patent Citations (1)
Title |
---|
基于网络公共空间的辅助教学平台的构建;李海宝;《中国远程教育》;20140406;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN109657096A (zh) | 2019-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109657096B (zh) | 一种基于低学龄教学音视频的辅助统计报告生成方法 | |
US11663268B2 (en) | Method and system for retrieving video temporal segments | |
Nagrani et al. | Speech2action: Cross-modal supervision for action recognition | |
JP5510167B2 (ja) | ビデオ検索システムおよびそのためのコンピュータプログラム | |
CN107818085B (zh) | 阅读机器人进行阅读理解的答案选择方法及系统 | |
CN114465737B (zh) | 一种数据处理方法、装置、计算机设备及存储介质 | |
US10127824B2 (en) | System and methods to create multi-faceted index instructional videos | |
CN107748744B (zh) | 一种勾勒框知识库的建立方法及装置 | |
CN112800177B (zh) | 基于复杂数据类型的faq知识库自动生成方法和装置 | |
CN109983473A (zh) | 灵活的集成识别和语义处理 | |
CN111681678B (zh) | 自动生成音效并匹配视频的方法、系统、装置及存储介质 | |
CN115391588B (zh) | 视觉语言预训练模型的微调方法和图文检索方法 | |
CN114218379A (zh) | 一种面向智能问答系统的无法回答问题的归因方法 | |
Hassani et al. | LVTIA: A new method for keyphrase extraction from scientific video lectures | |
CN114357206A (zh) | 基于语义分析的教育类视频彩色字幕生成方法及系统 | |
CN115129934A (zh) | 一种多模态视频理解方法 | |
EP4273737A1 (en) | Language labeling method and apparatus, and computer device and storage medium | |
CN115272533A (zh) | 一种基于视频结构化数据的智能图文转视频的方法及系统 | |
CN117975942A (zh) | 语音识别模型的训练方法、语音识别方法及相关装置 | |
CN115438223A (zh) | 视频处理方法、装置、电子设备及存储介质 | |
CN111681680B (zh) | 视频识别物体获取音频方法、系统、装置及可读存储介质 | |
Gandhi et al. | Topic Transition in Educational Videos Using Visually Salient Words. | |
KR20230080849A (ko) | 실시간 온라인 전문 강의용 주제 친화적 자막 생성 방법 및 시스템 | |
Gupta et al. | C2vnet: A deep learning framework towards comic strip to audio-visual scene synthesis | |
Wangchen et al. | EDUZONE–A Educational Video Summarizer and Digital Human Assistant for Effective Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |