CN114821399A

CN114821399A - 一种面向智慧课堂的板书自动提取方法

Info

Publication number: CN114821399A
Application number: CN202210358735.6A
Authority: CN
Inventors: 龙飞; 黄健明; 苏劲松; 王仕琪; 林晖; 王君
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2022-04-07
Filing date: 2022-04-07
Publication date: 2022-07-29

Abstract

本发明涉及视频教学领域，具体是一种面向智慧课堂的板书自动提取方法，包括S1：以视频流输入的第一帧作为初始化背景进行缓存；S2：从视频第二帧开始，将每个输入帧输入已训练好的人物分割网络，以获取人物遮罩的输出；S3：根据输出的人物遮罩，分别对视频输入帧和背景缓存进行抠像处理，分离出前景、后景图像；S4：将得到的视频输入帧的背景图像与背景缓存的前景图像进行叠加，并将叠加后的图像作为背景缓存，对背景缓存进行逐帧更新；S5：将视频输入帧的前景图像与背景缓存进行线性结合，以获得手写内容强化后的输出图像。

Description

一种面向智慧课堂的板书自动提取方法

技术领域

本发明涉及视频教学领域，具体是一种面向智慧课堂的板书自动提取方法。

背景技术

在网络教学视频中，讲课老师会对黑板的板书区域进行遮挡，造成板书内容无法看到。现有的板书提取方法大都基于深度神经网络对手写内容或区域进行直接识别，对GPU运算要求很大，在普通设备上难以实现实时处理。

发明内容

为解决上述问题，本发明提供一种面向智慧课堂的板书自动提取方法，以使其在GPU性能低下甚至仅提供CPU运算的情况下仍能实现实时识别和提取。

本发明过以下技术方案予以实现：

一种面向智慧课堂的板书自动提取方法，包括：

S1：以视频流输入的第一帧作为初始化背景进行缓存；

S2：从视频第二帧开始，将每个输入帧输入已训练好的人物分割网络，以获取人物遮罩的输出；

S3：根据输出的人物遮罩，分别对视频输入帧和背景缓存进行抠像处理，分离出前景、后景图像；

S4：将得到的视频输入帧的背景图像与背景缓存的前景图像进行叠加，并将叠加后的图像作为背景缓存，对背景缓存进行逐帧更新；

S5：将视频输入帧的前景图像与背景缓存进行线性结合，以获得手写内容强化后的输出图像。

作为一种较优的选择实施方式，优选的，所述人物分割网络由轻量级卷积神经网络MobileNet训练而成；该网络以单帧图片为输入，输出为热量场图。

作为一种较优的选择实施方式，优选的，所述热量场图通过二值化处理转化为人物遮罩。

作为一种较优的选择实施方式，优选的，所述人物遮罩为二值化图片，仅图像中人物区域为白色。

作为一种较优的选择实施方式，优选的，S3中所述视频输入帧根据S2中输出的人物遮罩分离出前景、背景图像；所述背景缓存应用同一S2中输出的人物遮罩提取出前景、背景图片。

作为一种较优的选择实施方式，优选的，通过以下公式更新背景缓存：

Y′＝X_b+Y_f

其中，Y′为更新后的背景缓存图像矩阵；X_b为视频输入帧分离出的背景图像矩阵；Y_f为在背景缓存上应用与视频输入帧相同的人物遮罩所提取的前景图片矩阵。

作为一种较优的选择实施方式，优选的，通过以下公式对视频输入帧的前景图像及背景缓存进行线性结合：

X′＝αX_f+(1-α)Y_f+X_b

其中，X′为输出图像矩阵；α为透明度系数；X_f为视频输入帧分离出的前景图像矩阵；Y_f为在背景缓存上应用与视频输入帧相同的人物遮罩所提取的前景图片矩阵；X_b为视频输入帧分离出的背景图像矩阵。

作为一种较优的选择实施方式，优选的，所述透明度系数α∈[0,1]。

基于上述方案，本发明还提供一种计算机可读的存储介质，所述的存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述的至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行实现上述面向智慧课堂的板书自动提取方法。

本发明的有益效果是：

1)本发明使用轻量级分割网络实现模型的轻量化以适应运算能力有限的应用场景。

2)本发明使用背景缓存更新的方式保存板书历史信息，建立前后帧联系，使得仅使用以单帧为输入的轻量级深度学习网络便可构建具有前后帧联系的处理系统。

附图说明

为了更清楚地说明本发明实施方式的技术方案，下面将对实施方式中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

附图1为本发明提供的板书提取方法的流程示意图。

具体实施方式

为使本发明实施方式的目的、技术方案和优点更加清楚，下面将结合本发明实施方式中的附图，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。因此，以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

参照附图1所示，一种面向智慧课堂的板书自动提取方法，包括：

S1：以视频流输入的第一帧作为初始化背景进行缓存；其中第一帧视频优选为无人物背景图。

S2：从视频第二帧开始，将每个输入帧输入已训练好的人物分割网络，以获取人物遮罩的输出；其中，本发明使用轻量级卷积神经网络MobileNet训练一个人物分割网络，该网络以单帧图片为输入，输出为可以通过二值化处理转化为人物遮罩的热量场图。人物遮罩为二值化图片，仅图像中人物区域为白色。

S3：根据输出的人物遮罩，分别对视频输入帧和背景缓存进行抠像处理，分离出前景、背景图像；以X_f,X_b∈R^N×M分别表示分离后的视频输入帧的前景、背景图像矩阵，Y_f,Y_b∈R^N×M分别表示对背景缓存应用与视频输入帧相同的人物遮罩所提取的前景、背景图片矩阵，其中，N,M分别表示图片的高度和宽度。

S4：将得到的视频输入帧的背景图像与背景缓存的前景图像进行叠加，并将叠加后的图像作为背景缓存，对背景缓存进行逐帧更新。具体通过以下公式更新背景缓存：

Y′＝X_b+Y_f

S5：将视频输入帧的前景图像与背景缓存进行线性结合，以获得手写内容强化后的输出图像。具体通过以下公式对视频输入帧的前景图像及背景缓存进行线性结合：

X′＝αX_f+(1-α)Y_f+X_b

其中，X′为输出图像矩阵；α为透明度系数；X_f为分离后的视频输入帧的前景图像矩阵，Y_f为在背景缓存上应用与视频输入帧相同的人物遮罩所提取的前景图片矩阵；X_b为视频输入帧分离出的背景图像矩阵。透明度系数α∈[0,1]。

本发明提供的板书自动提取方法可使其在GPU性能低下甚至仅提供CPU运算的情况下仍能实现实时识别和提取。由于本发明并非直接的手写识别方法，而是基于人物分割及前景背景分离。本发明使用轻量级卷积神经网络MobileNet训练一个人物分割网络，该网络以单帧图片为输入，输出为可以通过二值化处理转化为人物遮罩的热量场图。人物分割网络的训练过程为以图片及对应的语义分割标注作为输入，对网络进行训练，直至人物分割网络收敛。

本发明提供的板书自动提取方法以在线课堂的视频流为输入，以手写内容强化后的图片为输出(直观表现为根据参数可调整讲课老师的透明度，以使得老师遮住黑板部分的板书也可见)。其中，为了保存历史板书信息，该方法同时维护一个背景缓存(可理解为仅有板书内容的背景图片)，且该背景缓存会逐帧更新。

另外，在本发明各个实施方式中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的优选实施方式而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种面向智慧课堂的板书自动提取方法，其特征在于，包括：

S1：以视频流输入的第一帧作为初始化背景进行缓存；

2.根据权利要求1所述的一种面向智慧课堂的板书自动提取方法，其特征在于，所述人物分割网络由轻量级卷积神经网络MobileNet训练而成；该网络以单帧图片为输入，输出为热量场图。

3.根据权利要求2所述的一种面向智慧课堂的板书自动提取方法，其特征在于，所述热量场图通过二值化处理转化为人物遮罩。

4.根据权利要求1或3所述的一种面向智慧课堂的板书自动提取方法，其特征在于，所述人物遮罩为二值化图片，仅图像中人物区域为白色。

5.根据权利要求1所述的一种面向智慧课堂的板书自动提取方法，其特征在于，S3中所述视频输入帧根据S2中输出的人物遮罩分离出前景、背景图像；所述背景缓存应用同一S2中输出的人物遮罩提取出前景、背景图片。

6.根据权利要求5所述的一种面向智慧课堂的板书自动提取方法，其特征在于，通过以下公式更新背景缓存：

Y′＝X_b+Y_f

7.根据权利要求6所述的一种面向智慧课堂的板书自动提取方法，其特征在于，通过以下公式对视频输入帧的前景图像及背景缓存进行线性结合：

X′＝αX_f+(1-α)Y_f+X_b

8.根据权利要求7所述的一种面向智慧课堂的板书自动提取方法，其特征在于，所述透明度系数α∈[0,1]。

9.一种计算机可读的存储介质，其特征在于：所述的存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述的至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行实现如权利要求1至8之一所述的面向智慧课堂的板书自动提取方法。