CN112528883A

CN112528883A - 一种基于反思网络的教学场景视频描述生成方法

Info

Publication number: CN112528883A
Application number: CN202011483140.0A
Authority: CN
Inventors: 于长斌; 段晨瑞; 朱铭健; 孙晓彤; 靳伟; 于凤敏
Original assignee: Nanjing Zhongzhi Future Artificial Intelligence Research Institute Co ltd; Hangzhou Yishun Technology Co ltd
Current assignee: Nanjing Zhongzhi Future Artificial Intelligence Research Institute Co ltd; Hangzhou Yishun Technology Co ltd
Priority date: 2020-12-15
Filing date: 2020-12-15
Publication date: 2021-03-19

Abstract

本发明公开了一种基于反思网络的教学场景视频描述生成方法，包括如下步骤：步骤1)视频图像预处理阶段；步骤2)图像特征抽取阶段；步骤3)数据集标注预处理阶段；步骤4)图像特征编码阶段；步骤5)文本解码阶段。本发明具有的有益效果是：是能够很好地针对常见教学视频生成高质量、精细化的描述性句子。提出将反思网络应用于教学场景的视频描述任务,使得网络通过一个两阶段解码器的反思过程,就可在序列解码过程中同时检查前后的内容，从而可以利用全局信息生成描述。

Description

一种基于反思网络的教学场景视频描述生成方法

技术领域

本发明涉及计算机视觉与人工智能技术领域，尤其涉及一种基于反思网络的教学场景视频描述生成方法。

背景技术

近年来,教学问题获得大量学校师生及家长的关注,三方共同致力于探索如何有效提高教育教学各个环节的实施步骤,从而更有助于学生个人成长的问题.众多高校研究者提出,要合理利用现代化教学手段,通过多媒体和网络促进师生交流，提高师生间的互动,引导师生之间启发式、互动式的课堂教学氛围.而如何监管师生上课过程,更好地把师生的互动过程反馈给教师,使其能够及时掌握学情,改订后续教学任务,更大程度地提高教育教学成果,也成为了众多高校教师期待解决的问题之一.

随着网络监管的日益完善,很自然的想到,可以通过观看师生上课视频来达到实时了解课堂互动效果,提高课堂效率的目的.但是,这样的监管太过耗费人力物力,并且如若直接把教学视频上传网络供家校双方查看,会耗费大量的数据传输和存储空间,并且也会导致一定的隐私安全问题.为解决这些问题,我们可以将拍摄的视频输入到视频描述模型中,生成以自然语言描述的师生互动的教学情况,以此来代替前期的数据传输和后期的纯人力的查看工作.而视频描述任务能够捕捉到视频中的语义信息，并在视频理解的结果中引入更多的细节和推理，可以更直观地记录课堂师生互动行为,分析评级师生互动质量,也符合人们对于视频理解辅助指导教育教学领域进一步发展的设想和期望。

视频描述生成技术在现实生活中有极大的应用价值。例如,在体育解说领域,更细粒度地描述个体运动员动作和团队之间互动协作场景.在辅助残障人士方面,视频描述生成技术结合文本转语音技术,可帮助盲人理解电影内容。但是,在教育教学领域,视频描述生成的应用场景目前还未有相关工作进行探索开发。

发明内容

本发明的目的是针对现有技术的不足，提供一种基于反思网络技术的教学场景视频描述生成方法。

本发明的技术方案如下：

一种基于反思网络的教学场景视频描述生成方法，其特征在于，包括如下步骤：

步骤1)视频图像预处理阶段：利用已有的视频抽帧技术对视频抽取指定个数的图像帧，并对图像做颜色、尺寸变换的预处理；

步骤2)图像特征抽取阶段：使用预训练卷积神经网络抽取图像帧特征并保存；

步骤3)数据集标注预处理阶段：提出一个包含教学场景视频的新数据集,每个视频对应一条手工标注的语句,用来描述师生课堂的互动情况.根据已标注的所有文本建立词汇表；最后将所有由人类语言标注的句子根据词汇表中的对应关系转成数字序号序列；

步骤4)图像特征编码阶段：使用门控循环单元网络(GRU)，对于步骤2)中已保存的图像帧特征进行编码，得到视觉表征序列；

步骤5)文本解码阶段：使用两阶段反思解码器，第一阶段解码器用于解码生成原始语句序列，第二阶段解码器通过反思的过程打磨和润色原始语句.两个解码器将步骤4)得到的视觉表征序列解码为数字序号序列；然后根据词汇表中单词与数字的对应关系将数字序号序列转为文本句子。

所述基于反思网络的教学场景视频描述生成方法，其特征在于，所述步骤1)中一个视频等间隔抽取的帧数为10帧。每一帧经过尺寸变化后，转变为通道数为3,高、宽均为224像素的图片；再把每一帧的RGB三个通道分别减去0.485,0.456,0.406然后分别除以0.229,0.224,0.225以完成颜色变换；每次抽一个视频的图像帧进行上述处理后保存到电脑内存中，然后执行步骤2)；当下一个视频到来时，再次执行步骤1)和步骤2)。

所述基于反思网络的教学场景视频描述生成方法，其特征在于，所述步骤2)中所采用的预训练卷积神经网络(CNN)模型可采用AlexNet,VGG或ResNet模型对步骤1)中已抽取的图像帧进行特征抽取，然后以张量的形式存储到硬盘中，其形式为(视频个数，每个视频抽取的帧数，每个视频的特征),然后将生成的特征向量输入到步骤4)中作为编码器的输入部分。

所述基于反思网络的教学场景视频描述生成方法，其特征在于，所述步骤3)中将视频数据集划分为训练集，验证集和测试集，其个数比例为4:1:1；使用NLTK工具将标注的文本进行单词划分，然后略去出现次数小于3的单词，并将每一个单词标好序，加入词汇表中；将每一个视频对应的标注句子根据词汇表中的对应关系转换为序号序列；如果句子长度超过10词，那么截取前10词；如果长度少于10词，那么就用<pad>补充；在训练阶段,为识别处理不同长度的句子,在句子开头加入<BOS>,句子最后加入<EOS>符号作为结束标志.在测试阶段,在解码器解码的第一个时间步时,输入<BOS>作为起始信号,不断生成下一个单词,直至遇到<EOS>结束标志。

所述基于反思网络的教学场景视频描述生成方法，其特征在于，所述步骤4)中采用门控循环单元网络(GRU)对步骤2)中已抽取的视觉特征进行编码；在每个时间步输入视觉特征并生成表达；门控循环单元网络的隐状态表达长度为1024；在训练阶段初始学习率为3e-4，采用Adam优化器进行训练。

所述基于反思网络的教学场景视频描述生成方法，其特征在于，所述步骤5)中采用门控循环单元网络(GRU)对步骤4)中已编码的视觉特征进行文本解码；此解码器分为两个阶段，其中第一阶段解码器用于解码生成原始语句序列，第二阶段解码器通过反思的过程对第一阶段生成的原始语句进行打磨和润色。由于第二阶段反思解码器具有第一阶段解码器生成的语句这一全局信息，因此它能通过从第一阶段的原始语句中观察未来的单词而产生描述更加精细化的序列。

本发明与现有技术相比，具有的有益效果是能够很好地针对常见教学视频生成高质量、精细化的描述性句子；提出将反思网络应用于教学场景的视频描述任务,使得网络通过一个两阶段解码器的反思过程,就可在序列解码过程中同时检查前后的内容，从而可以利用全局信息生成描述。

附图说明

图1为本发明专利的总体流程示意图；

图2为本发明专利的特征抽取视频图像预处理及特征抽取流程示意图；

图3为本发明专利的模型框架示意图；

图4为本发明专利的效果图。

具体实施方式

以下结合附图进一步说明本发明的具体实施方法。

参见图1，本发明的总体步骤如下：

采用我们建立的教学场景下的视频描述生成数据集进行训练和测试。训练阶段，将训练集中的视频及对应人工标注的句子标签送入模型进行训练。测试阶段，只将视频输入模型，然后模型将生成描述视频的句子。训练阶段和测试阶段对于下述步骤1)至步骤4)都是一样的。

1)视频帧抽取：对数据集中每一个视频，首先将所有图像帧都抽取出来，然后等间隔选择10帧进入下一步。

2)图像特征抽取及保存：采用预训练好的卷积神经网络模型抽取图像特征并保存到硬盘。

3)文本标注预处理：使用NLTK自然语言处理工具包将人工标注的句子进行单词的划分。然后略去出现次数小于3的词，并用剩余的词构建词典。构建词典的方法是将剩余的词按照从0到词数减一进行标号。

4)图像特征编码：门控循环单元网络(GRU)常常用于编码序列。对于一个GRU单元(CELL)，输入为上一个隐状态(hidden state)，上一个单元格状态(cell state)和当前帧特征，输出为当前隐状态(hidden state)，当前单元格状态(cell state)和当前帧特征；由于之前步骤将一个视频抽取了10帧，并对这10帧抽取保留了特征，此处将这些帧按照时间步输入GRU单元进行计算并保存生成的每一个隐状态。

5)训练阶段：模型的训练是按批(batch)输入的，批大小为32；对训练中一个批中所有的视频，损失函数是用交叉熵损失函数对生成的句子与标注的句子差异进行计算。

6)测试阶段：对所有视频，采用第二阶段解码器生成的文本作为最终生成的语句描述。

参见图2，进行特征抽取视频图像预处理及特征抽取。

首先对图像进行尺寸变换，将其变为高和宽分别为224的图像。然后一个帧的RGB三个通道分别减去0.485,0.456,0.406然后分别除以0.229,0.224,0.225以完成颜色变换。采用在Imagenet数据集上训练好的卷积神经网络如ResNet,VGG,Google Inception Net抽取每一个图像帧的特征并保存。

参见图3，反思网络包含三个组件：编码器和两个解码器构成。视频特征首先由编码器处理，将输入的视频特征编码为隐状态(hidden state),再输入到第一阶段解码器中生成原始语句.在第一阶段解码器生成句子之后，句子和视频特征都送入第二阶段解码器以生成利用全局信息、描述更加精细化的句子。两种解码器都采用门控循环单元网络(GRU)进行解码。GRU的输入为前一个隐状态和当前帧特征，输出为当前隐状态。每一个隐状态都可通过线性变换方式，给出词汇表中每个词的概率。选择词汇表中概率最大的词作为当前时间步所预测的词。

参见图3，为本发明专利的模型框架示意图，图中的草案解码器和反思解码器分别对应文中提到的第一阶段解码器、第二阶段解码器。

图4为本发明在我们新建的教学场景视频描述生成数据集上的实际效果，其中图4中每个视频对应的第一条语句为人工标注的句子,第二条语句为我们的反思模型生成的句子。

相比于之前的视频描述生成方法，本方法提出反思网络，并有以下三点创新：1)在解码阶段提出了两阶段解码器，第一阶段解码器生成一个原始序列，然后再使用一个第二阶段解码器来润色这个原始序列,生成最终结果。2)首次将视频描述任务应用到教育教学领域,观测课堂教学的活跃度和互动度,引导师生之间启发式、互动式的课堂教学氛围,从而更大程度地提高教育教学成果.3)我们创建了一个用于教学场景视频描述的数据集,每个片段手工标注一个句子,用来描述师生课堂的互动情况。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的包含范围之内。

Claims

1.一种基于反思网络的教学场景视频描述生成方法，其特征在于，包括如下步骤：

步骤1)视频图像预处理阶段：对视频抽取指定个数的图像帧，并对图像做颜色、尺寸变换的预处理；

步骤3)数据集标注预处理阶段：提出一个包含教学场景视频的新数据集,每个视频对应一条手工标注的语句,用来描述师生课堂的互动情况；根据已标注的所有文本建立词汇表；最后将所有由人类语言标注的句子根据词汇表中的对应关系转成数字序号序列；

步骤5)文本解码阶段：使用两阶段反思解码器，第一阶段解码器用于解码生成原始语句序列，第二阶段解码器通过反思的过程打磨和润色原始语句；两个解码器将步骤4)得到的视觉表征序列解码为数字序号序列；然后根据词汇表中单词与数字的对应关系将数字序号序列转为文本句子。

2.根据权利要求1所述的一种基于反思网络的教学场景视频描述生成方法，其特征在于，所述步骤1)中一个视频等间隔抽取的帧数为10帧，每一帧经过尺寸变化后，转变为通道数为3,高、宽均为224像素的图片；再把每一帧的RGB三个通道分别减去0.485,0.456,0.406然后分别除以0.229,0.224,0.225以完成颜色变换；每次抽一个视频的图像帧进行上述处理后保存到电脑内存中，然后执行步骤2)；当下一个视频到来时，再次执行步骤1)和步骤2)。

3.根据权利要求1所述的一种基于反思网络的教学场景视频描述生成方法，其特征在于，所述步骤2)中所采用的预训练卷积神经网络CNN模型可采用AlexNet，VGG或ResNet模型对步骤1)中已抽取的图像帧进行特征抽取，然后以张量的形式存储到硬盘中，其形式为(视频个数，每个视频抽取的帧数，每个视频的特征),然后将生成的特征向量输入到步骤4)中作为编码器的输入部分。

4.根据权利要求1所述的一种基于反思网络的教学场景视频描述生成方法，其特征在于，所述步骤3)中将视频数据集划分为训练集，验证集和测试集，其个数比例为4:1:1；使用NLTK工具将标注的文本进行单词划分，然后略去出现次数小于3的单词，并将每一个单词标好序，加入词汇表中；将每一个视频对应的标注句子根据词汇表中的对应关系转换为序号序列；如果句子长度超过10词，那么截取前10词；如果长度少于10词，那么就用<pad>补充；在训练阶段,为识别处理不同长度的句子,在句子开头加入<BOS>,句子最后加入<EOS>符号作为结束标志；在测试阶段,在解码器解码的第一个时间步时,输入<BOS>作为起始信号,不断生成下一个单词,直至遇到<EOS>结束标志。

5.根据权利要求1所述的一种基于反思网络的教学场景视频描述生成方法，其特征在于，所述步骤4)中采用门控循环单元网络GRU对步骤2)中已抽取的视觉特征进行编码；在每个时间步输入视觉特征并生成表达；门控循环单元网络的隐状态表达长度为1024；在训练阶段初始学习率为3e-4，采用Adam优化器进行训练。

6.根据权利要求1所述的一种基于反思网络的教学场景视频描述生成方法，其特征在于，所述步骤5)中采用门控循环单元网络GRU对步骤4)中已编码的视觉特征进行文本解码；此解码器分为两个阶段，其中第一阶段解码器用于解码生成原始语句序列，第二阶段解码器通过反思的过程对第一阶段生成的原始语句进行打磨和润色；由于第二阶段反思解码器具有第一阶段解码器生成的语句这一全局信息，因此它能通过从第一阶段的原始语句中观察未来的单词而产生描述更加精细化的序列。