CN114821399A - 一种面向智慧课堂的板书自动提取方法 - Google Patents
一种面向智慧课堂的板书自动提取方法 Download PDFInfo
- Publication number
- CN114821399A CN114821399A CN202210358735.6A CN202210358735A CN114821399A CN 114821399 A CN114821399 A CN 114821399A CN 202210358735 A CN202210358735 A CN 202210358735A CN 114821399 A CN114821399 A CN 114821399A
- Authority
- CN
- China
- Prior art keywords
- background
- frame
- image
- video input
- cache
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 18
- 230000011218 segmentation Effects 0.000 claims abstract description 13
- 239000011159 matrix material Substances 0.000 claims description 21
- 238000000034 method Methods 0.000 claims description 11
- 238000013527 convolutional neural network Methods 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Facsimiles In General (AREA)
- Drawing Aids And Blackboards (AREA)
Abstract
本发明涉及视频教学领域,具体是一种面向智慧课堂的板书自动提取方法,包括S1:以视频流输入的第一帧作为初始化背景进行缓存;S2:从视频第二帧开始,将每个输入帧输入已训练好的人物分割网络,以获取人物遮罩的输出;S3:根据输出的人物遮罩,分别对视频输入帧和背景缓存进行抠像处理,分离出前景、后景图像;S4:将得到的视频输入帧的背景图像与背景缓存的前景图像进行叠加,并将叠加后的图像作为背景缓存,对背景缓存进行逐帧更新;S5:将视频输入帧的前景图像与背景缓存进行线性结合,以获得手写内容强化后的输出图像。
Description
技术领域
本发明涉及视频教学领域,具体是一种面向智慧课堂的板书自动提取方法。
背景技术
在网络教学视频中,讲课老师会对黑板的板书区域进行遮挡,造成板书内容无法看到。现有的板书提取方法大都基于深度神经网络对手写内容或区域进行直接识别,对GPU运算要求很大,在普通设备上难以实现实时处理。
发明内容
为解决上述问题,本发明提供一种面向智慧课堂的板书自动提取方法,以使其在GPU性能低下甚至仅提供CPU运算的情况下仍能实现实时识别和提取。
本发明过以下技术方案予以实现:
一种面向智慧课堂的板书自动提取方法,包括:
S1:以视频流输入的第一帧作为初始化背景进行缓存;
S2:从视频第二帧开始,将每个输入帧输入已训练好的人物分割网络,以获取人物遮罩的输出;
S3:根据输出的人物遮罩,分别对视频输入帧和背景缓存进行抠像处理,分离出前景、后景图像;
S4:将得到的视频输入帧的背景图像与背景缓存的前景图像进行叠加,并将叠加后的图像作为背景缓存,对背景缓存进行逐帧更新;
S5:将视频输入帧的前景图像与背景缓存进行线性结合,以获得手写内容强化后的输出图像。
作为一种较优的选择实施方式,优选的,所述人物分割网络由轻量级卷积神经网络MobileNet训练而成;该网络以单帧图片为输入,输出为热量场图。
作为一种较优的选择实施方式,优选的,所述热量场图通过二值化处理转化为人物遮罩。
作为一种较优的选择实施方式,优选的,所述人物遮罩为二值化图片,仅图像中人物区域为白色。
作为一种较优的选择实施方式,优选的,S3中所述视频输入帧根据S2中输出的人物遮罩分离出前景、背景图像;所述背景缓存应用同一S2中输出的人物遮罩提取出前景、背景图片。
作为一种较优的选择实施方式,优选的,通过以下公式更新背景缓存:
Y′=Xb+Yf
其中,Y′为更新后的背景缓存图像矩阵;Xb为视频输入帧分离出的背景图像矩阵;Yf为在背景缓存上应用与视频输入帧相同的人物遮罩所提取的前景图片矩阵。
作为一种较优的选择实施方式,优选的,通过以下公式对视频输入帧的前景图像及背景缓存进行线性结合:
X′=αXf+(1-α)Yf+Xb
其中,X′为输出图像矩阵;α为透明度系数;Xf为视频输入帧分离出的前景图像矩阵;Yf为在背景缓存上应用与视频输入帧相同的人物遮罩所提取的前景图片矩阵;Xb为视频输入帧分离出的背景图像矩阵。
作为一种较优的选择实施方式,优选的,所述透明度系数α∈[0,1]。
基于上述方案,本发明还提供一种计算机可读的存储介质,所述的存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述的至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行实现上述面向智慧课堂的板书自动提取方法。
本发明的有益效果是:
1)本发明使用轻量级分割网络实现模型的轻量化以适应运算能力有限的应用场景。
2)本发明使用背景缓存更新的方式保存板书历史信息,建立前后帧联系,使得仅使用以单帧为输入的轻量级深度学习网络便可构建具有前后帧联系的处理系统。
附图说明
为了更清楚地说明本发明实施方式的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
附图1为本发明提供的板书提取方法的流程示意图。
具体实施方式
为使本发明实施方式的目的、技术方案和优点更加清楚,下面将结合本发明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。因此,以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
参照附图1所示,一种面向智慧课堂的板书自动提取方法,包括:
S1:以视频流输入的第一帧作为初始化背景进行缓存;其中第一帧视频优选为无人物背景图。
S2:从视频第二帧开始,将每个输入帧输入已训练好的人物分割网络,以获取人物遮罩的输出;其中,本发明使用轻量级卷积神经网络MobileNet训练一个人物分割网络,该网络以单帧图片为输入,输出为可以通过二值化处理转化为人物遮罩的热量场图。人物遮罩为二值化图片,仅图像中人物区域为白色。
S3:根据输出的人物遮罩,分别对视频输入帧和背景缓存进行抠像处理,分离出前景、背景图像;以Xf,Xb∈RN×M分别表示分离后的视频输入帧的前景、背景图像矩阵,Yf,Yb∈RN×M分别表示对背景缓存应用与视频输入帧相同的人物遮罩所提取的前景、背景图片矩阵,其中,N,M分别表示图片的高度和宽度。
S4:将得到的视频输入帧的背景图像与背景缓存的前景图像进行叠加,并将叠加后的图像作为背景缓存,对背景缓存进行逐帧更新。具体通过以下公式更新背景缓存:
Y′=Xb+Yf
其中,Y′为更新后的背景缓存图像矩阵;Xb为视频输入帧分离出的背景图像矩阵;Yf为在背景缓存上应用与视频输入帧相同的人物遮罩所提取的前景图片矩阵。
S5:将视频输入帧的前景图像与背景缓存进行线性结合,以获得手写内容强化后的输出图像。具体通过以下公式对视频输入帧的前景图像及背景缓存进行线性结合:
X′=αXf+(1-α)Yf+Xb
其中,X′为输出图像矩阵;α为透明度系数;Xf为分离后的视频输入帧的前景图像矩阵,Yf为在背景缓存上应用与视频输入帧相同的人物遮罩所提取的前景图片矩阵;Xb为视频输入帧分离出的背景图像矩阵。透明度系数α∈[0,1]。
本发明提供的板书自动提取方法可使其在GPU性能低下甚至仅提供CPU运算的情况下仍能实现实时识别和提取。由于本发明并非直接的手写识别方法,而是基于人物分割及前景背景分离。本发明使用轻量级卷积神经网络MobileNet训练一个人物分割网络,该网络以单帧图片为输入,输出为可以通过二值化处理转化为人物遮罩的热量场图。人物分割网络的训练过程为以图片及对应的语义分割标注作为输入,对网络进行训练,直至人物分割网络收敛。
本发明提供的板书自动提取方法以在线课堂的视频流为输入,以手写内容强化后的图片为输出(直观表现为根据参数可调整讲课老师的透明度,以使得老师遮住黑板部分的板书也可见)。其中,为了保存历史板书信息,该方法同时维护一个背景缓存(可理解为仅有板书内容的背景图片),且该背景缓存会逐帧更新。
另外,在本发明各个实施方式中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的优选实施方式而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种面向智慧课堂的板书自动提取方法,其特征在于,包括:
S1:以视频流输入的第一帧作为初始化背景进行缓存;
S2:从视频第二帧开始,将每个输入帧输入已训练好的人物分割网络,以获取人物遮罩的输出;
S3:根据输出的人物遮罩,分别对视频输入帧和背景缓存进行抠像处理,分离出前景、后景图像;
S4:将得到的视频输入帧的背景图像与背景缓存的前景图像进行叠加,并将叠加后的图像作为背景缓存,对背景缓存进行逐帧更新;
S5:将视频输入帧的前景图像与背景缓存进行线性结合,以获得手写内容强化后的输出图像。
2.根据权利要求1所述的一种面向智慧课堂的板书自动提取方法,其特征在于,所述人物分割网络由轻量级卷积神经网络MobileNet训练而成;该网络以单帧图片为输入,输出为热量场图。
3.根据权利要求2所述的一种面向智慧课堂的板书自动提取方法,其特征在于,所述热量场图通过二值化处理转化为人物遮罩。
4.根据权利要求1或3所述的一种面向智慧课堂的板书自动提取方法,其特征在于,所述人物遮罩为二值化图片,仅图像中人物区域为白色。
5.根据权利要求1所述的一种面向智慧课堂的板书自动提取方法,其特征在于,S3中所述视频输入帧根据S2中输出的人物遮罩分离出前景、背景图像;所述背景缓存应用同一S2中输出的人物遮罩提取出前景、背景图片。
6.根据权利要求5所述的一种面向智慧课堂的板书自动提取方法,其特征在于,通过以下公式更新背景缓存:
Y′=Xb+Yf
其中,Y′为更新后的背景缓存图像矩阵;Xb为视频输入帧分离出的背景图像矩阵;Yf为在背景缓存上应用与视频输入帧相同的人物遮罩所提取的前景图片矩阵。
7.根据权利要求6所述的一种面向智慧课堂的板书自动提取方法,其特征在于,通过以下公式对视频输入帧的前景图像及背景缓存进行线性结合:
X′=αXf+(1-α)Yf+Xb
其中,X′为输出图像矩阵;α为透明度系数;Xf为视频输入帧分离出的前景图像矩阵;Yf为在背景缓存上应用与视频输入帧相同的人物遮罩所提取的前景图片矩阵;Xb为视频输入帧分离出的背景图像矩阵。
8.根据权利要求7所述的一种面向智慧课堂的板书自动提取方法,其特征在于,所述透明度系数α∈[0,1]。
9.一种计算机可读的存储介质,其特征在于:所述的存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述的至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行实现如权利要求1至8之一所述的面向智慧课堂的板书自动提取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210358735.6A CN114821399A (zh) | 2022-04-07 | 2022-04-07 | 一种面向智慧课堂的板书自动提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210358735.6A CN114821399A (zh) | 2022-04-07 | 2022-04-07 | 一种面向智慧课堂的板书自动提取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114821399A true CN114821399A (zh) | 2022-07-29 |
Family
ID=82533836
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210358735.6A Pending CN114821399A (zh) | 2022-04-07 | 2022-04-07 | 一种面向智慧课堂的板书自动提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114821399A (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105631410A (zh) * | 2015-12-18 | 2016-06-01 | 华南理工大学 | 一种基于智能视频处理技术的课堂检测方法 |
CN111428623A (zh) * | 2020-03-20 | 2020-07-17 | 郑州工程技术学院 | 基于大数据和计算机视觉的中文板书风格分析系统 |
US20200273176A1 (en) * | 2019-02-21 | 2020-08-27 | Sony Corporation | Multiple neural networks-based object segmentation in a sequence of color image frames |
US20200364461A1 (en) * | 2019-05-17 | 2020-11-19 | Shanghai Bilibili Technology Co., Ltd. | Method of obtaining mask frame data, computing device, and readable storage medium |
CN112258525A (zh) * | 2020-10-30 | 2021-01-22 | 西安费斯达自动化工程有限公司 | 一种基于鸟类高帧频序列图像丰度统计和种群识别算法 |
CN112601029A (zh) * | 2020-11-25 | 2021-04-02 | 上海卫莎网络科技有限公司 | 一种已知背景先验信息的视频分割方法、终端和存储介质 |
CN112752038A (zh) * | 2020-12-28 | 2021-05-04 | 广州虎牙科技有限公司 | 背景替换方法、装置、电子设备及计算机可读存储介质 |
CN112884776A (zh) * | 2021-01-22 | 2021-06-01 | 浙江大学 | 一种基于合成数据集增广的深度学习抠图方法 |
CN114037710A (zh) * | 2021-10-13 | 2022-02-11 | 北京百度网讯科技有限公司 | 图像分割方法、装置、电子设备和存储介质 |
-
2022
- 2022-04-07 CN CN202210358735.6A patent/CN114821399A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105631410A (zh) * | 2015-12-18 | 2016-06-01 | 华南理工大学 | 一种基于智能视频处理技术的课堂检测方法 |
US20200273176A1 (en) * | 2019-02-21 | 2020-08-27 | Sony Corporation | Multiple neural networks-based object segmentation in a sequence of color image frames |
US20200364461A1 (en) * | 2019-05-17 | 2020-11-19 | Shanghai Bilibili Technology Co., Ltd. | Method of obtaining mask frame data, computing device, and readable storage medium |
CN111428623A (zh) * | 2020-03-20 | 2020-07-17 | 郑州工程技术学院 | 基于大数据和计算机视觉的中文板书风格分析系统 |
CN112258525A (zh) * | 2020-10-30 | 2021-01-22 | 西安费斯达自动化工程有限公司 | 一种基于鸟类高帧频序列图像丰度统计和种群识别算法 |
CN112601029A (zh) * | 2020-11-25 | 2021-04-02 | 上海卫莎网络科技有限公司 | 一种已知背景先验信息的视频分割方法、终端和存储介质 |
CN112752038A (zh) * | 2020-12-28 | 2021-05-04 | 广州虎牙科技有限公司 | 背景替换方法、装置、电子设备及计算机可读存储介质 |
CN112884776A (zh) * | 2021-01-22 | 2021-06-01 | 浙江大学 | 一种基于合成数据集增广的深度学习抠图方法 |
CN114037710A (zh) * | 2021-10-13 | 2022-02-11 | 北京百度网讯科技有限公司 | 图像分割方法、装置、电子设备和存储介质 |
Non-Patent Citations (2)
Title |
---|
李磊;孙佳伟;: "神经网络与边缘检测相结合的人体前景分割算法", 计算机与数字工程, no. 04, 20 April 2020 (2020-04-20) * |
杨敬钰;师雯;李坤;宋晓林;岳焕景;: "基于时空感知级联神经网络的视频前背景分离", 天津大学学报(自然科学与工程技术版), no. 06, 27 April 2020 (2020-04-27) * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liu et al. | Recurrent multimodal interaction for referring image segmentation | |
CN107239801A (zh) | 视频属性表示学习方法及视频文字描述自动生成方法 | |
CN104142995B (zh) | 基于视觉属性的社会事件识别方法 | |
WO2021139557A1 (zh) | 肖像简笔画生成方法、系统及绘画机器人 | |
US20210271872A1 (en) | Machine Learned Structured Data Extraction From Document Image | |
WO2022089170A1 (zh) | 字幕区域识别方法、装置、设备及存储介质 | |
CN111626126A (zh) | 一种人脸情绪识别的方法、装置、介质及电子设备 | |
CN104778224A (zh) | 一种基于视频语义的目标对象社交关系识别方法 | |
CN110969681A (zh) | 一种基于gan网络的手写体书法文字生成方法 | |
CN110210484A (zh) | 基于深度学习的视图像不良文本检测识别的系统与方法 | |
CN114596566A (zh) | 文本识别方法及相关装置 | |
CN111488732A (zh) | 一种变形关键词检测方法、系统及相关设备 | |
WO2021127916A1 (zh) | 脸部情感识别方法、智能装置和计算机可读存储介质 | |
CN113688839A (zh) | 视频处理方法及装置、电子设备、计算机可读存储介质 | |
CN111881900B (zh) | 语料生成、翻译模型训练、翻译方法、装置、设备及介质 | |
CN113570615A (zh) | 一种基于深度学习的图像处理方法、电子设备及存储介质 | |
CN114821399A (zh) | 一种面向智慧课堂的板书自动提取方法 | |
CN110309510B (zh) | 一种基于c-s和gru的看画题诗方法 | |
CN115937852A (zh) | 一种基于文本驱动的高效弱监督语义分割方法及装置 | |
CN115331236A (zh) | 一种手写整行样本的生成方法和装置 | |
CN112836467B (zh) | 一种图像处理方法及装置 | |
Cho et al. | Design of image generation system for DCGAN-based kids' book text | |
CN113590918A (zh) | 基于课程式学习的社交媒体舆情热度监测的框架构建方法 | |
CN113822521A (zh) | 题库题目的质量检测方法、装置及存储介质 | |
CN113537186A (zh) | 文本图像的识别方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |