CN112528963A

CN112528963A - 基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题智能批阅系统

Info

Publication number: CN112528963A
Application number: CN202110026927.2A
Authority: CN
Inventors: 刘天亮; 梁聪聪; 桂冠; 戴修斌
Original assignee: Jiangsu Tuoyou Information Intelligent Technology Research Institute Co ltd
Current assignee: Jiangsu Tuoyou Information Intelligent Technology Research Institute Co ltd
Priority date: 2021-01-09
Filing date: 2021-01-09
Publication date: 2021-03-19
Also published as: WO2022147965A1; LU502472B1

Abstract

本发明公开了一种基于MixNet‑YOLOv3和卷积递归神经网络CRNN(Convolutional Recurrent Neural Network)的算术题智能批阅系统，能够自动地识别试卷中每道算术题的含义并做出判断，以减轻传统手工批阅试卷带来的人力和时间成本，从而提高教学效率。智能批阅系统主要分为检测和识别两大模块。鉴于算术题分布密集、字体多变的特点和网络轻量化的需求，检测模块采用多尺度语义和定位特征融合的MixNet‑YOLOv3网络来实现算术题的边框信息提取；而在识别模块，前一模块抽取的算术题将通过基于联结时序分类CTC(Connectionist Temporal Classification)解码机制的卷积递归神经网络CRNN网络，得到算术题目的语义信息；最后通过算术逻辑运算来判断每道算术题目的正确与否。本发明创建的系统能够胜任移动设备端的算术题批阅任务。

Description

基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题智能批阅系统

技术领域

本发明涉及一种基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题智能批阅系统，属于计算机视觉及自然语言处理交叉的文本检测和识别领域。

背景技术

随着科技水平的进步和教育产业的变革，传统阅卷过程中的效率低、质量和公平无法保证的问题日益凸显，一定程度阻碍了整体教学水平的提高。与此同时，数字图像处理以及计算机视觉技术的飞速发展，让人们将目光逐渐投向智能阅卷，智能阅卷能够极大地提高阅卷的效率，降低教师的工作负担，节省家长的时间，优化教育资源的配置。

以中小学生的算术题为例，考虑到算术题一般是由印刷体跟手写体构成，出版商的印刷体样式、学生的手写体风格层出不穷，还存在一定程度的涂改，基于图像处理和机器学习的传统的光学字符识别OCR(Optical Character Recognition) 技术无法满足复杂场景的检测任务。

典型的 OCR 技术路线包括以下三个部分：图像预处理、文本检测和文本识别，其中影响识别准确率的技术瓶颈是文本检测和文本识别，而这两部分也是 OCR 技术的重中之重。在传统 OCR 技术中，图像预处理通常是针对图像的成像问题进行修正，常见的预处理过程包括：几何变换、畸变校正、去除模糊、图像增强和光线校正等。文本检测即检测文本的所在位置和范围及其布局，通常也包括版面分析和文字行检测等，文字检测主要解决的问题是哪里有文字，文字的范围有多大。文本识别是在文本检测的基础上，对文本内容进行识别，将图像中的文本信息转化为文本信息，文字识别主要解决的问题是每个文字是什么。

发明内容

发明目的：为了解决上述问题，本发明提出一个端到端的算术题批阅系统，系统主要涵盖检测跟识别两个分支，首先采用YOLOv3算法检测每道题目的边界，通过权重分配使网络更容易学习水平的边界，并在不损失精度的前提下将提取网络替换为更为轻量化的MixNet网络；在识别部分，采用精度跟效率结合的卷积递归神经网络CRNN网络，通过卷积神经网络CNN(Convolutional Neural Networks)和长短期记忆网络LSTM(Long Short-TermMemory)的组合使网络准确的学习到题目的语义信息，最后通过算术逻辑判断对错和返回正确答案。

技术方案：本发明技术方案实现包括如下几个步骤：

（1）对原始检测数据集进行预处理，通过数据增强手段扩展样本的泛化性，同时利用K均值聚类算法生成适应该场景的先验框，用于检测网络的训练；

（2）将整张图像输入到轻量级MixNet网络模型中，进行图像定位和语义特征的提取，得到表示图像全局信息的多尺度特征；

（3）利用特征金字塔网络FPN(Feature Pyramid Networks)特征融合技术，融合不同尺度的特征，分别输送到对应的YOLOv3预测模块中，并根据两组先验框分别对产生的特征图进行计算，基于最佳的先验框来预测，并根据预测出的坐标、置信度、类别信息与标签信息进行损失函数的计算，通过迭代训练得到更为精确的检测模型；

（4）根据检测网络输出的算术题边框，将抽取的算术题和标注的文本信息组合起来，构成识别模块的数据集；

（5）将抽取的算术题图像转成灰度图送入卷积递归神经网络CRNN网络，需要先经过卷积神经网络CNN提取特征得到特征图，再转换成序列送入双向长短期记忆网络LSTM获取序列特征，最后经过联结时序分类CTC机制转录得到最终的语义信息；

（6）根据识别模块得到的语义信息，进行算术逻辑的运算，从而判断出每道题目的正确与否，对于做错的题目会给出正确答案。

作为优选，所述的步骤（1）首先通过LabelImg标注软件生成图片的标注框，然后利用平移、旋转、裁剪等数据增强手段扩充原始的数据集，增强数据的泛化性和鲁棒性。针对数据集中的边框信息，通过K均值聚类分析算法得到2个尺度共4个先验框，用于检测网络的训练。

作为优选，所述的步骤（2）采用MixNet网络提取图像多尺度特征。通过不同卷积核的混合深度卷积结构代替深度可分离卷积结构，在极大的减少网络参数量的同时，增强了网络融合多尺度语义和定位特征的能力，从而提取到更为系统全面的特征。MixNet网络由混合深度可分离卷积模块(MDConv)组成，旨在将不同的卷积核尺寸融合到一个单独的卷积操作，使其可以易于获取具有多个分辨率的不同模式。其中MDConv卷积操作具有多个设计选择：

（2.1）组大小 g ：决定了用于一个单独输入张量的不同类型卷积核的个数。在g=1的极端情况，MDConv等同于普通深度卷积。对于MobileNets， g=4 时MDConv可以提高模型的准确性和效率。

（2.2）每个组的卷积核尺寸：理论上，每个组可以有任意尺寸的卷积核。但是，如果两个组有同样尺寸的卷积核，那等同于将两个组合并为一个单独的组，因此必须限制每个组必须拥有不同尺寸的卷积核。进一步，因为小尺寸的卷积核通常拥有更少的参数和FLOPS，限制卷积核尺寸通常从 3x3 开始，每组单调增加2。换言之， i 组的卷积核尺寸通常为 2i+1 。例如，一个4组的MDConv通常使用的卷积核尺寸为 {3x3,5x5,7x7,9x9} 。在此限制下，每个组的卷积核尺寸相对于其组大小 g 已经预定义好了，因而简化了设计过程。

（2.3）每个组的通道大小：在此主要考虑两种通道划分方法：(a) 等分：每组通道的数目一致；(b) 指数划分：第 i 组通道数占总通道数的

。例如，一个4组MDConv共有 32个通道，等分将通道划分为 (8,8,8,8) ，而指数划分将通道划分为 (16,8,4,4)。

作为优选，所述的步骤（3）通过特征金字塔网络FPN(Feature Pyramid Networks) 融合不同尺度的特征，采用上采样和通道拼接的方式将定位信息和语义信息有机结合，输出8倍和16倍下采样的特征图，送入到YOLOv3的预测模块。预测模块会将边框的相对位置

通过如下公式转换成绝对位置

，便于比较预测框和先验框的交并比，基于最佳的先验框来预测。

预测模块的输入特征图通道数是 (B x (5+C)) ，其中B代表每个单元可以预测的边界框数量（这里取2），每个边界框都有5+C个属性，分别描述每个边界框的坐标尺寸、置信度和 C 类概率。如果对象的中心位于单元格的感受野（感受野是输入图像对于单元格可见的区域），则由该单元格负责预测对象。预测模块的损失函数主要由坐标损失、置信度损失和分类损失构成，公式如下：

其中，S^2表示每个尺度的网格数，B表示每个尺度预测的边框数（取2），

表示第 i 个网格的第 j 个box是否负责检测这个object。前两项表示坐标损失，采用均方误差函数，

和

用于控制中心回归和宽高回归的权重，一般设置为1，2；三、四项表示置信度损失，采用交叉熵函数，由于不负责检测的边框比重较高，通过设置

=2来加速置信度的收敛；最后一项表示类别损失，采用交叉熵函数，每一个负责检测的网格计算类别概率。

作为优选，所述的步骤（4）根据检测模块预测的边框坐标提取出每道算术题，标注的文本信息作为标签，用于识别模块的训练。

作为优选，所述的步骤（5）利用CRNN模型对算术题语义信息进行提取。CRNN模型常用于端到端不定长文本序列识别，不用先对单个文字进行分割，而是将文本识别转换成时序依赖的序列学习问题。其工作流程是给定输入的单通道灰度图，先经过卷积神经网络CNN提取特征得到特征图，再转换成序列送入双向长短期记忆网络LSTM获取序列特征，最后经过联结时序分类CTC转录得到最终的标签序列。其中卷积神经网络CNN中的最后两个池化层由2x2改为1x2，考虑到检测模块输出的文本多数是高较小而宽较长，使用1x2的池化窗口可以尽量保证不丢失宽度方向的信息。

将循环神经网络RNN(Recurrent Neural Network) 输出的序列翻译成最终结果的过程中会出现很多冗余信息，比如一个字母被连续识别两次，这时需要利用blank空白机制来解决RNN网络输出中存在的冗余信息，通过在重复的字符之间插入一个“-”（代表blank空白），对于相同字符进行合并（用blank空白字符隔开的除外），即可解决重复字符的问题。

对于RNN给定输入概率分布矩阵

，T是序列长度，最后映射为标签文本

的概率为：

其中

表示从序列到序列的映射函数B变换后是

的所有路径集合，而π则是其中的一条路径，每条路径的概率为各个时间步中对应字符分布概率的乘积。通过训练网络使这个概率值最大化，而损失函数定义为概率的负最大似然函数，而在测试阶段，只需将每个时间步概率最大的字符进行拼接，再根据上述的blank空白机制即可得到最终的预测结果。

作为优选，所述的步骤（6）根据识别模块预测的语义信息，通过算术逻辑运算判别每道算术题的正确与否，对于做错的题目将给出正确答案。

有益效果：本发明所提出的基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题批阅系统，能够在极短的时间内自动识别试卷中每道算术题的含义并做出判断，减轻了传统手工批阅试卷带来的人力和时间成本，提高了教学效率。

附图说明

图1是基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题批阅系统流程图。

图2是MixNet-YOLOv3的网络结构图。

图3是卷积递归神经网络CRNN的网络结构图。

具体实施方式

下面结合附图对本发明的技术方案进行详细说明：

如图1所示，本发明公开了一种基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题批阅系统，系统主要由检测和识别两大模块组成。检测模块采用多尺度语义和定位特征融合的MixNet-YOLOv3网络，用于提取算术题的边框信息，抽取的算术题将送入识别模块；识别模块采用基于联结时序分类CTC解码机制的卷积递归神经网络CRNN，用于得到题目的语义信息，最后通过算术逻辑即可判断每道题目正确与否。下面结合具体实施，进一步阐述本发明，主要包括如下步骤：

步骤A，对原始检测数据集进行预处理，首先通过LabelImg标注软件生成图片的标注框，然后利用平移、旋转、裁剪等数据增强手段扩充原始的数据集，增强数据的泛化性和鲁棒性。针对数据集中的边框信息，通过K均值聚类分析算法得到2个尺度共4个先验框，用于检测网络的训练。

步骤B，将整张图像输入到MixNet网络模型中，进行图像定位和语义特征的提取，得到表示图像全局信息的多尺度特征。MixNet网络通过不同卷积核的混合深度卷积结构代替深度可分离卷积结构，在极大的减少网络参数量的同时，增强了网络融合多尺度语义和定位特征的能力，从而提取到更为系统全面的特征。如图2所示，MixNet网络由混合深度可分离卷积模块(MDConv)组成，旨在将不同的卷积核尺寸融合到一个单独的卷积操作，使其可以易于获取具有多个分辨率的不同模式。

步骤C，利用特征金字塔网络FPN特征融合技术，融合不同尺度的特征，分别输送到对应的YOLOv3预测模块中，并根据两组先验框分别对产生的特征图进行计算，基于最佳的先验框来预测，并根据预测出的坐标、置信度、类别信息与标签信息进行损失函数的计算，通过迭代训练得到更为精确的检测模型。特征金字塔网络FPN网络融合不同尺度的特征，采用上采样和通道拼接的方式将定位信息和语义信息有机结合，输出8倍和16倍下采样的特征图，送入到YOLOv3的预测模块。预测模块会将边框的相对位置

通过如下公式转换成绝对位置

其中，

表示每个尺度的网格数，B表示每个尺度预测的边框数（取2），

表示第 i 个网格的第 j 个box是否负责检测这个object目标。前两项表示坐标损失，采用均方误差函数，

和

=2 来加速置信度的收敛；最后一项表示类别损失，采用交叉熵函数，每一个负责检测的网格计算类别概率。

步骤D，根据检测网络输出的算术题边框，将抽取的算术题和标注的文本信息组合起来，构成识别模块的数据集。然后将抽取的算术题图像转成灰度图送入卷积递归神经网络CRNN网络，先经过CNN提取特征得到特征图，再转换成序列送入双向长短期记忆网络LSTM获取序列特征，最后经过联结时序分类CTC转录得到最终的语义信息。其中卷积神经网络CNN中的最后两个池化层由2x2改为1x2,考虑到检测模块输出的文本多数是高较小而宽较长，使用1x2的池化窗口可以尽量保证不丢失宽度方向的信息。

将循环神经网络RNN输出的序列翻译成最终结果的过程中会出现很多冗余信息，比如一个字母被连续识别两次，这时需要利用blank机制来解决RNN输出中存在的冗余信息，通过在重复的字符之间插入一个“-”（代表blank），对于相同字符进行合并（用blank字符隔开的除外），即可解决重复字符的问题。对于RNN给定输入概率分布矩阵

，T是序列长度，最后映射为标签文本

的概率为：

其中

表示从序列到序列的映射函数B变换后是

的所有路径集合，而π则是其中的一条路径，每条路径的概率为各个时间步中对应字符分布概率的乘积。通过训练使这个概率值最大化，而损失函数定义为概率的负最大似然函数，而在测试阶段，只需将每个时间步概率最大的字符进行拼接，再根据上述的blank机制即可得到最终的预测结果。

步骤F，根据识别模块得到的语义信息，进行算术逻辑的运算，从而判断出每道题目的正确与否，对于做错的题目会给出正确答案。

以上实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。

Claims

1.基于MixNet-YOLOv3和卷积递归神经网络CRNN(Convolutional Recurrent NeuralNetwork)的算术题智能批阅系统，其特征在于，包括如下步骤：

（1）对原始检测数据集进行预处理，通过数据增强手段增强样本的泛化性，同时利用K均值聚类算法生成适应该场景的两组先验框，用于检测网络的训练；

（2）将整张图像输入到轻量级的MixNet网络模型中，进行图像定位和语义特征的提取，得到表示图像全局信息的多尺度特征；

（3）利用特征金字塔网络FPN(Feature Pyramid Networks) 特征融合技术，融合不同尺度的特征，分别输送到对应的YOLOv3预测模块中，并根据两组先验框分别对产生的特征图进行计算，基于最佳的先验框来预测，并根据预测出的坐标、置信度、类别信息与标签信息进行损失函数的计算，通过迭代训练得到更为精确的检测模型；

（5）将抽取的算术题图像转成灰度图送入卷积递归神经网络CRNN网络，首先经过卷积神经网络CNN(Convolutional Neural Networks) 提取特征得到特征图，再转换成序列送入双向长短期记忆网络LSTM(Long Short-Term Memory) 获取序列特征，最后经过联结时序分类CTC(Connectionist Temporal Classification) 算法转录得到最终的语义信息；

（6）根据识别模块得到的即得语义信息，进行算术逻辑的运算操作，从而判断出每道算术题目的正确与否，对于做错的题目会给出正确答案。

2.根据权利要求1所述的基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题批阅系统，其特征在于，所述的步骤（1）首先通过LabelImg标注软件生成图片的标注框，然后利用平移、旋转、裁剪等数据增强手段扩充原始的数据集，增强数据的泛化性和鲁棒性，针对数据集中的边框信息，通过K均值聚类算法得到2个尺度共4个先验框，用于检测网络的训练。

3.根据权利要求1所述的基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题批阅系统，其特征在于，所述的步骤（2）采用轻量级MixNet网络提取图像多尺度特征,通过不同卷积核的混合深度卷积结构代替深度可分离卷积结构，在极大的减少网络参数量的同时，增强了网络融合多尺度语义和定位特征的能力，从而提取到更为系统全面的特征，混合深度可分离卷积模块MDConv (Mixed Depthwise Convolutional Kernel)旨在将不同的卷积核尺寸融合到一个单独的卷积操作，使其可以易于获取具有多个分辨率的不同模式，其中MDConv卷积操作具有多个设计选择：

（2.1）组大小g：决定了用于一个单独输入张量的不同类型卷积核的个数，在

的极端情况，MDConv等同于普通深度卷积，在

时，MDConv可以提高模型的准确性和效率；

（2.2）每个组的卷积核尺寸：限制卷积核尺寸通常从

开始，每组单调增加2，

的卷积核尺寸通常为

；例如，一个4组的MDConv通常使用的卷积核尺寸为

，在此限制下，每个组的卷积核尺寸相对于其组大小

已经预定义，因而简化了设计过程；

（2.3）每个组的通道大小：采用两种通道划分方法：(a) 等分：每组通道的数目一致；(b) 指数划分：第

通道数占总通道数的

，例如，一个4组MDConv共有32个通道，等分将通道划分为

，而指数划分将通道划分为

。

4.根据权利要求1所述的基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题批阅系统，其特征在于，所述的步骤（3）通过特征金字塔FPN(Feature Pyramid Networks) 网络融合不同尺度的特征，采用上采样和通道拼接的方式将定位信息和语义信息有机结合，输出8倍和16倍下采样的特征图，送入到YOLOv3的预测模块，预测模块将边框的相对位置

通过如下公式转换成绝对位置

，便于比较预测框和先验框的交并比，基于最佳的先验框来预测：

预测模块的输入特征图通道数是

，其中B代表每个单元可以预测的边界框数量（这里取2），每个边界框都有5+C个属性，分别描述每个边界框的坐标尺寸、置信度和C 类概率，如果对象的中心位于单元格的感受野（感受野是输入图像对于单元格可见的区域），则由该单元格负责预测对象，预测模块的损失函数主要由坐标损失、置信度损失和分类损失构成，公式如下：

其中,

表示每个尺度的网格数，

表示每个尺度预测的边框数（取2），

表示第

个网格的第

是否负责检测这个对象，前两项表示坐标损失，采用均方误差函数，

来加速置信度的收敛；最后一项表示类别损失，采用交叉熵函数，每一个负责检测的网格计算类别概率。

5.根据权利要求1所述的基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题批阅系统，其特征在于，所述的步骤（4）根据检测模块预测的边框坐标提取出每道算术题，标注的文本信息作为标签，用于识别模块的训练。

6.根据权利要求1所述的基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题批阅系统，其特征在于，所述的步骤（5）利用卷积递归神经网络CRNN模型对算术题语义信息进行提取,卷积递归神经网络CRNN模型常用于端到端不定长文本序列识别，不用先对单个文字进行分割，而是将文本识别转换成时序依赖的序列学习问题，其工作流程是给定输入的单通道灰度图，先经过卷积神经网络CNN(Convolutional Neural Networks) 提取特征得到特征图，再转换成序列送入双向长短期记忆网络LSTM (Long Short-Term Memory) 获取序列特征，最后经过联结时序分类CTC(Connectionist Temporal Classification) 机制转录得到最终的标签序列，其中CNN的最后两个池化窗口为1x2；由于检测模块输出的文本多数是高较小而宽较长，使用1x2的池化窗口尽量保证不丢失宽度方向的信息；将循环神经网络RNN(Recurrent Neural Network) 输出的序列翻译成最终的识别结果的过程中会出现很多冗余信息，比如一个字母被连续识别两次，这时需要利用blank空白机制来解决RNN输出中存在的冗余信息，通过在重复的字符之间插入一个“-”（代表blank空白），对于相同字符进行合并（用blank空白字符隔开的除外），即可解决重复字符的问题，对于RNN给定输入概率分布矩阵

，T是序列长度，最后映射为标签文本

的概率为：

其中

表示从序列到序列的映射函数B变换后是的所有路径集合，而

则是其中的一条路径，每条路径的概率为各个时间步中对应字符分布概率的乘积,通过训练网络使这个概率值最大化，而损失函数定义为概率的负最大似然函数，而在测试阶段，只需将每个时间步概率最大的字符进行拼接，再根据上述的blank空白机制即可得到最终的预测结果。

7.根据权利要求1所述的基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题批阅系统，其特征在于，所述的步骤（6）根据识别模块预测的语义信息，通过算术逻辑运算判别每道算术题的正确与否，对于做错的题目将给出正确答案。