基于大数据和OCR的网络课堂中文板书结构化分享系统
技术领域
本发明涉及深度学习、大数据技术领域,具体涉及一种基于大数据和OCR的网络课堂中文板书结构化分享系统。
背景技术
目前,网络课堂是一种广泛应用在高校公开课、企业培训、职业培训、中小幼教育等线上课堂的广泛形式,具体是讲师使用PPT和实时板书内容来进行课件讲解。网络课堂具有广泛的前景。从泛IT教育机构举例来说3节课在线教育培训,与BAT、TMD等互联网公司展开合作,与企业共建评估标准,为企业和个人提供培训服务。Pluralsight美国在线培训公司,2018年5月登陆美国NASDAQ,截止2018年底市值达32.6亿美元。其市值之大,是因为线上教育的便利已经触及到每个领域,忽略重播的课程,仅每日产生的在线课堂板书数据已十分可观,但网络课堂的数据量十分庞大,每日产生的板书数据和课件数据尚未被用于分析。
另一方面,教师的教育质量提升是离不开课堂反馈的,线下教育的质量能够有较好的把控的原因是教师在板书书写后能够根据课堂反馈把握较好的板书内容详尽程度,来把握较好的节奏。而目前,网络课堂讲师依赖的反馈主要限制在课后量化评分上,因为反馈不足,教师很难发现板书存在的问题。在这种反馈不足的情况下,教师需要通过相似板书来自主发现问题。而目前暂时没有自动化分析板书内容的系统,即教师难以发现与自己教授内容相似的板书推荐分享,也无法知道其他用户对自己板书的关注情况。
因此,现有网络课堂教育领域存在缺少板书分享、教师无法自主发现板书缺陷的问题。
发明内容
本发明提供了一种基于大数据和OCR的网络课堂中文板书结构化分享系统,实现了网络课堂板书结构化分享,能够帮助教师自主发现板书缺陷。
一种基于大数据和OCR的网络课堂中文板书结构化分享系统,该系统包括:
图像获取单元,用于基于网络课堂的应用程序接口获取课件图像以及板书图像;
课件排版特征提取单元,用于将课件图像输入课件排版风格编码器、课件排版风格解码器构成的神经网络,进行前向传播,得到第一张量;
板书书写特征提取单元,用于将板书图像输入板书书写风格编码器、板书书写风格解码器构成的神经网络,进行前向传播,得到第二张量;
张量融合单元,用于将尺寸相同的第一张量、第二张量按通道维度进行拼接合并操作,得到通道数更高的第三张量;
混合特征提取单元,用于将第三张量输入混合特征编码器进行编码处理,并将编码结果输入全连接网络,得到高维特征向量;
文字识别单元,用于基于OCR模块对板书图像进行文字识别,得到中文字符数量;
板书分享单元,用于根据高维特征向量以及中文字符数量计算板书之间的相似度,并根据相似度向用户进行双向分享。
图像获取单元还包括预处理模块,预处理模块用于对获得的板书图像进行底色添加、反色处理,从而得到符合网络常规设计参数的板书图像。
课件排版风格编码器、课件排版风格解码器是沙漏组合结构,采用卷积神经网络模块;板书书写风格编码器、板书书写风格解码器是沙漏组合结构,采用卷积神经网络模块。
全连接网络的推荐配置是4096、4096、1024、256、512。
OCR模块的识别结果是一组字符串,对字符串的字符进行过滤,统计中文字符数量。
根据高维特征向量以及中文字符数量计算板书之间的相似度包括根据以下计算模型计算相似度:
S1=D(V1,V2)*(W2-X)
S2=D(V1,V2)*1
其中,V1表示根据本地用户的课件图像以及板书图像数据经过神经网络分析得到的高维特征向量,V2表示待匹配的课件图像以及板书图像数据经过神经网络分析得到的高维特征向量,D(V1,V2)表示两个高维特征向量之间的相似度,W1表示本地板书的字数,W2表示待匹配的目标板书的字数,X为补偿值,S1是忽略本地板书字数,考虑目标板书字数的相似度计算模型;S2是忽略本地及目标板书字数,考虑全局风格特征的相似度计算模型;在使用S2对板书进行粗筛选之后可以使用S1对结果进行细化。
本发明的有益效果在于:
1、本发明基于深度神经网络技术对现有课件以及板书内容进行分析,实现了板书分享,帮助教师自主发现板书缺陷,有助于提高网络课堂教学质量。
2、本发明根据板书图像的透明底色特性,对板书图像进行了底色添加、反色处理,保证输入的特征符合常规网络设计参数,有助于提高神经网络的精度。
3、本发明在课件排版风格编码器以及板书书写风格编码器之后又利用课件排版风格解码器以及板书书写风格解码器对编码结果进行通道数降低、提高特征图的空域精度,相比于传统的一直使用编码器进行特征提取,更有助于提取到更加精准的特征向量。
4、本发明基于通道融合技术得到的高维特征向量综合了课件排版风格特征、板书书写风格特征,使板书分享结果更加贴合板书主题,提高了板书分享结果的有效性。
5、本发明利用OCR技术对板书字数进行识别,并将识别字数纳入板书相似度计算,是基于现有的认为字数多的板书分享更为有效的理念,因此,将识别字数纳入板书相似度计算进一步提高了板书分享结果的有效性。
附图说明
图1为本发明系统框架图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图以及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种基于大数据和OCR的网络课堂中文板书结构化分享系统,系统框架图如图1所示。下面通过具体实施例来进行说明。
实施例一:
基于大数据和OCR的网络课堂中文板书结构化分享系统,该系统包括:
图像获取单元,用于基于网络课堂的应用程序接口获取课件图像以及板书图像。
在利用网络课堂教学过程中,通常是结合电子课件与电子板书的形式进行教学。例如,教师上传课件后,在教学过程中,直接在课件上进行板书标注;或者,教书上传课件后,另外在电子白板上进行板书标注。由此可见,板书内容与课件内容息息相关。因此,在板书分享及推荐时,课件特征是非常重要的特征。
首先,为了访问板书内容,需要使用网络课堂对应的应用程序接口API,并得到原始课件图像和板书图像。其中,板书图像一般是以RGBA的格式存储,从而实现网络课堂中的图层叠加,进而实时渲染。RGBA是代表Red(红色)Green(绿色)Blue(蓝色)和Alpha的色彩空间,Alpha通道一般用作不透明度参数。如果一个像素的alpha通道数值为0%,那它就是完全透明的(也就是看不见的),而数值为100%则意味着一个完全不透明的像素(传统的数字图像)。因此,IMG2需要设置底色,对于一般的张量而言,无特征部分应是黑色底色或中灰度底色最佳,而板书的特性导致白色才能显现黑色纹理,因此,将白色底色与具有透明图层的板书图像进行叠加,得到叠加后的白底板书图像。
在将白底板书图像输入板书书写编码器EncB之前,需要对白底板书图像进行底色反转的反色处理,从而保证输入的特征符合常规网络设计参数,因为有些网络的卷积没有偏置项,如果是白色,则会导致背景值过大,可能出现网络精度较低的情况。
事先说明的是,特征图像和二维张量为一种数据类型的两种不同称呼,高维特征和一维张量为同一种数据类型的两种不同称呼,它们表示的都是张量形状。
对于课件图像,则无需预处理即可输入课件排版风格编码器EncA。
课件排版特征提取单元,用于将课件图像输入课件排版风格编码器、课件排版风格解码器构成的神经网络,进行前向传播,得到第一张量;板书书写特征提取单元,用于将板书图像输入板书书写风格编码器、板书书写风格解码器构成的神经网络,进行前向传播,得到第二张量。
首先说明的是,课件排版风格编码器EncA、课件排版风格解码器DecB构成了课件风格特征提取神经网络,板书书写风格解码器DecA、板书书写风格解码器DecB构成了板书书写风格神经网络,两个神经网络构成两个并行的通路,即两个通路可以并行计算,但需要异步等待,即需要都计算完成后才能执行混合特征编码器EncC。
实施者应知道,编码器、解码器具体采用哪种网络内部结构,是多样的且众所周知的,经典的编码器有VGG、ResNet等结构,解码器有普通地将编码器按曾倒排的配置,也有多尺度感知的ASPP配置。实施者应结合硬件的计算能力和精度做出权衡,从而采用合适的网络内部结构。
一种是实施例是,编码器和解码器均采用卷积神经网络模块,CNN编码器和解码器的特点在于,编码器对特征图的通道扩增,而图像大小减少,即降低了空域的精度而提升了特征强度的类型数,反之,解码器降低通道数并提高特征图的空域精度。
对于EncA,DecA的沙漏组合结构而言,其计算得到的信息属于不可解释的,但保留了用于表述课件相似度的二维特征。
对于EncB,DecB的沙漏组合结构而言,其计算得到的信息属于不可解释的,但保留了用于表述板书内容分布位置相似度的二维特征。
不难理解,对于特征编码器EncA、EncB,特征解码器DecA、DecB,其结构为沙漏结构,即参考了VAE的思想,可以认为其提取抽象信息T1、T2,其中,T1是DecA得到的抽象信息,T2是DecB得到的抽象信息,这样能够隔离更多的无关信息。T1、T2均为张量,分别称为第一张量、第二张量。
张量融合单元,用于将尺寸相同的第一张量、第二张量按通道维度进行拼接合并操作,得到通道数更高的第三张量。
在将T1、T2输入混合特征编码器之前,对于T1和T2需要进行张量按通道维度的拼接得到T3。此拼接操作在神经网络中成为concatenate。进行concatenate必须满足的一个要求是张量的宽、高是一样的。举例来说,假设实施者设计的网络输出了:[N*64*H*W]的二维张量T1,[N*32*H*W]的二维张量T2,则得到[N*(64+32)*H*W]的二维张量T3,其中,H,W两个参数是一致的,即要完成该操作,则必须确定二维张量的宽、高一致。
混合特征提取单元,用于将第三张量输入混合特征编码器进行编码处理,并将编码结果输入全连接网络,得到高维特征向量。
将张量T1、T2进行拼接操作后,得到张量T3。二维张量T3经过混合特征编码器EncC,通过maxpooling,flatten的机制转化为一维张量,并输入全连接网络FC1。
其中,实施者应当知道EncC的输出向一维张量转换的时候对应的操作时多样且公知的,实施者可以参考普通的ReID网络、图像分类网络来进行实践,在此推荐的做法是EncC的输出大小为[N*256*4*4],采用flatten操作,得到[N*4096*1]的张量,也成为高维向量。
全连接网络FC1结构较为简单,具体采用何种形式不作为约束,但在此推荐的配置为:[4096,4096,1024,256,512],其中每个数字代表了FC自第一层至最后一层的每层神经元配置。
最终,全连接网络FC1输出512维的高维向量V。
为了训练上述网络,在此简单表述训练的机制和原理。与ReID类似,本网络旨在表示板书文字和课件排版风格的特征,并以特征进行与其它板书数据的相似度度量。其核心思想是:选取同一板书数据,进行基于仿射变换的样本增强,并将源数据的推断结果—高维特征向量V1和仿射变换后的推理结果—高维特征向量V2进行基于余弦距离的相似度计算,最终的两者相似度S与最大相似度1的L1距离作为损失函数。
同时,为了判别不同的数据,实施者应当建立合适大小的数据集,保证板书之间的风格是截然不同的,具体板书内容的实例应当不小于50种,即50种两两风格不同的数据。实施者应当知道,对于泛IT教育、中小幼教育而言,有非在线课堂的数据可以利用,且容易总结板书风格,从而大量降低分类工作量。
由于样本增强的机制,网络可以克服仿射变换之间的变种,即排版有些许不同的仍能够当作同一种板书,大大适应线上课堂的特点。
在此推荐实施者使用TripletLoss等孪生网络的训练机制,此类方法适用于差异较小的小样本。
无论损失函数如何变化,其训练采用的损失函数和样本挑取原理与孪生网络的训练机制类似。以相似度举例:相似度度量的方法建议为余弦距离,而非其它没有归一化的度量方法,具体原因是,余弦距离的值域位于0至1,是一种归一化的数据,方便数据查询模型使用,总之,实施者应保证相似度是一种归一化的值。
值得注意的是,本发明中,实施者应当对同一种板书数据做适当的缩放、旋转、平移的样本增强操作,从而使网络最终提取的特征不考虑尺度变化。具体使用何种样本增强方法,实施者可以自行改进。
当进行神经网络推断时,与此同时,OCR模块对白底板书图像进行文字识别,由于板书的特性,OCR会出现不工作,识别乱码等情况。一方面,在本发明中,课件排版风格特征已经为匹配板书提供了一些限定条件,另一方面,教师在查询相似板书的时候,通常认为文字字数多的是值得参考的。因此,结合上述两方面原因,为了克服OCR识别乱码的问题,在此设计忽略文字内容,考虑中文文字字数特征的相似度匹配机制:首先,OCR识别结果是一组字符串,对字符串的非中文字符进行过滤,最终得到字数W;其次,考虑高维向量之间的相似度信息,结合板书文字字数,设计以下不同模式的相似度度量模型,在此使用余弦距离作为相似度度量的计算函数:
S1=D(V1,V2)*(W2-X)
S2=D(V1,V2)*1
其中,V1表示根据本地用户的课件图像以及板书图像数据经过神经网络分析得到的高维特征向量,V2表示待匹配的课件图像以及板书图像数据经过神经网络分析得到的高维特征向量,D(V1,V2)表示两个高维特征向量之间的相似度,W1表示本地板书的字数,W2表示待匹配的目标板书的字数,X为补偿值。
S1是忽略本地板书字数,考虑目标板书字数的模型,适合小范围检索,即已经限定了若干条件,否则,W2会极大地影响匹配可用性。其中,X为补偿值,其值可正可负,方便细化检索结果使用。
S2是忽略本地及目标板书字数,考虑全局风格(特征)相似的模型,适合大范围检索,即初次使用检索系统时,为了只考虑课件、板书的粗略风格而得到粗略的查询结果,在此之后适合尝试使用S1作为细化检索结果的相似度匹配函数。在使用S1进行相似度计算时,可以根据具体实施情况设置相似度阈值,从而过滤出相似的数据。
实施者应当知道本系统包括存储课件、板书数据的数据中心,数据中心的数据量非常庞大,基于大数据技术进行数据组织。当用户有板书分享需求时,根据用户的板书数据与数据中心中的数据进行相似度匹配计算,从而检索出符合要求的板书数据。
对于用户选用的检索结果,系统视为一个对匹配对,对用户进行双向分享,即用户A检索到用户B的板书数据后,A得到了B的数据,同时B也会收到A的板书数据推送。
至此,本发明内容完成。
本发明基于深度神经网络技术对现有课件以及板书内容进行分析,实现了板书分享,帮助教师自主发现板书缺陷,有助于提高网络课堂教学质量。本发明根据板书图像的透明底色特性,对板书图像进行了底色添加、反色处理,保证输入的特征符合常规网络设计参数,有助于提高神经网络的精度。本发明在课件排版风格编码器以及板书书写风格编码器之后又利用课件排版风格解码器以及板书书写风格解码器对编码结果进行通道数降低、提高特征图的空域精度,相比于传统的一直使用编码器进行特征提取,更有助于提取到更加精准的特征向量。本发明基于通道融合技术得到的高维特征向量综合了课件排版风格特征、板书书写风格特征,使板书分享结果更加贴合板书主题,提高了板书分享结果的有效性。本发明利用OCR技术对板书字数进行识别,并将识别字数纳入板书相似度计算,是基于现有的认为字数多的板书分享更为有效的理念,因此,将识别字数纳入板书相似度计算进一步提高了板书分享结果的有效性。
以上实施例仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。