CN112528963A - 基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题智能批阅系统 - Google Patents
基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题智能批阅系统 Download PDFInfo
- Publication number
- CN112528963A CN112528963A CN202110026927.2A CN202110026927A CN112528963A CN 112528963 A CN112528963 A CN 112528963A CN 202110026927 A CN202110026927 A CN 202110026927A CN 112528963 A CN112528963 A CN 112528963A
- Authority
- CN
- China
- Prior art keywords
- arithmetic
- network
- neural network
- convolution
- yolov3
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
- Seasonings (AREA)
Abstract
本发明公开了一种基于MixNet‑YOLOv3和卷积递归神经网络CRNN(Convolutional Recurrent Neural Network)的算术题智能批阅系统,能够自动地识别试卷中每道算术题的含义并做出判断,以减轻传统手工批阅试卷带来的人力和时间成本,从而提高教学效率。智能批阅系统主要分为检测和识别两大模块。鉴于算术题分布密集、字体多变的特点和网络轻量化的需求,检测模块采用多尺度语义和定位特征融合的MixNet‑YOLOv3网络来实现算术题的边框信息提取;而在识别模块,前一模块抽取的算术题将通过基于联结时序分类CTC(Connectionist Temporal Classification)解码机制的卷积递归神经网络CRNN网络,得到算术题目的语义信息;最后通过算术逻辑运算来判断每道算术题目的正确与否。本发明创建的系统能够胜任移动设备端的算术题批阅任务。
Description
技术领域
本发明涉及一种基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题智能批阅系统,属于计算机视觉及自然语言处理交叉的文本检测和识别领域。
背景技术
随着科技水平的进步和教育产业的变革,传统阅卷过程中的效率低、质量和公平无法保证的问题日益凸显,一定程度阻碍了整体教学水平的提高。与此同时,数字图像处理以及计算机视觉技术的飞速发展,让人们将目光逐渐投向智能阅卷,智能阅卷能够极大地提高阅卷的效率,降低教师的工作负担,节省家长的时间,优化教育资源的配置。
以中小学生的算术题为例,考虑到算术题一般是由印刷体跟手写体构成,出版商的印刷体样式、学生的手写体风格层出不穷,还存在一定程度的涂改,基于图像处理和机器学习的传统的光学字符识别OCR(Optical Character Recognition) 技术无法满足复杂场景的检测任务。
典型的 OCR 技术路线包括以下三个部分:图像预处理、文本检测和文本识别,其中影响识别准确率的技术瓶颈是文本检测和文本识别,而这两部分也是 OCR 技术的重中之重。在传统 OCR 技术中,图像预处理通常是针对图像的成像问题进行修正,常见的预处理过程包括:几何变换、畸变校正、去除模糊、图像增强和光线校正等。文本检测即检测文本的所在位置和范围及其布局,通常也包括版面分析和文字行检测等,文字检测主要解决的问题是哪里有文字,文字的范围有多大。文本识别是在文本检测的基础上,对文本内容进行识别,将图像中的文本信息转化为文本信息,文字识别主要解决的问题是每个文字是什么。
发明内容
发明目的:为了解决上述问题,本发明提出一个端到端的算术题批阅系统,系统主要涵盖检测跟识别两个分支,首先采用YOLOv3算法检测每道题目的边界,通过权重分配使网络更容易学习水平的边界,并在不损失精度的前提下将提取网络替换为更为轻量化的MixNet网络;在识别部分,采用精度跟效率结合的卷积递归神经网络CRNN网络,通过卷积神经网络CNN(Convolutional Neural Networks)和长短期记忆网络LSTM(Long Short-TermMemory)的组合使网络准确的学习到题目的语义信息,最后通过算术逻辑判断对错和返回正确答案。
技术方案:本发明技术方案实现包括如下几个步骤:
(1)对原始检测数据集进行预处理,通过数据增强手段扩展样本的泛化性,同时利用K均值聚类算法生成适应该场景的先验框,用于检测网络的训练;
(2)将整张图像输入到轻量级MixNet网络模型中,进行图像定位和语义特征的提取,得到表示图像全局信息的多尺度特征;
(3)利用特征金字塔网络FPN(Feature Pyramid Networks)特征融合技术,融合不同尺度的特征,分别输送到对应的YOLOv3预测模块中,并根据两组先验框分别对产生的特征图进行计算,基于最佳的先验框来预测,并根据预测出的坐标、置信度、类别信息与标签信息进行损失函数的计算,通过迭代训练得到更为精确的检测模型;
(4)根据检测网络输出的算术题边框,将抽取的算术题和标注的文本信息组合起来,构成识别模块的数据集;
(5)将抽取的算术题图像转成灰度图送入卷积递归神经网络CRNN网络,需要先经过卷积神经网络CNN提取特征得到特征图,再转换成序列送入双向长短期记忆网络LSTM获取序列特征,最后经过联结时序分类CTC机制转录得到最终的语义信息;
(6)根据识别模块得到的语义信息,进行算术逻辑的运算,从而判断出每道题目的正确与否,对于做错的题目会给出正确答案。
作为优选,所述的步骤(1)首先通过LabelImg标注软件生成图片的标注框,然后利用平移、旋转、裁剪等数据增强手段扩充原始的数据集,增强数据的泛化性和鲁棒性。针对数据集中的边框信息,通过K均值聚类分析算法得到2个尺度共4个先验框,用于检测网络的训练。
作为优选,所述的步骤(2)采用MixNet网络提取图像多尺度特征。通过不同卷积核的混合深度卷积结构代替深度可分离卷积结构,在极大的减少网络参数量的同时,增强了网络融合多尺度语义和定位特征的能力,从而提取到更为系统全面的特征。MixNet网络由混合深度可分离卷积模块(MDConv)组成,旨在将不同的卷积核尺寸融合到一个单独的卷积操作,使其可以易于获取具有多个分辨率的不同模式。其中MDConv卷积操作具有多个设计选择:
(2.1)组大小 g :决定了用于一个单独输入张量的不同类型卷积核的个数。在g=1的极端情况,MDConv等同于普通深度卷积。对于MobileNets, g=4 时MDConv可以提高模型的准确性和效率。
(2.2)每个组的卷积核尺寸:理论上,每个组可以有任意尺寸的卷积核。但是,如果两个组有同样尺寸的卷积核,那等同于将两个组合并为一个单独的组,因此必须限制每个组必须拥有不同尺寸的卷积核。进一步,因为小尺寸的卷积核通常拥有更少的参数和FLOPS,限制卷积核尺寸通常从 3x3 开始,每组单调增加2。换言之, i 组的卷积核尺寸通常为 2i+1 。例如,一个4组的MDConv通常使用的卷积核尺寸为 {3x3,5x5,7x7,9x9} 。在此限制下,每个组的卷积核尺寸相对于其组大小 g 已经预定义好了,因而简化了设计过程。
(2.3)每个组的通道大小:在此主要考虑两种通道划分方法:(a) 等分:每组通道
的数目一致;(b) 指数划分:第 i 组通道数占总通道数的 。例如,一个4组MDConv共有
32个通道,等分将通道划分为 (8,8,8,8) ,而指数划分将通道划分为 (16,8,4,4)。
作为优选,所述的步骤(3)通过特征金字塔网络FPN(Feature Pyramid Networks)
融合不同尺度的特征,采用上采样和通道拼接的方式将定位信息和语义信息有机结合,输
出8倍和16倍下采样的特征图,送入到YOLOv3的预测模块。预测模块会将边框的相对位置通过如下公式转换成绝对位置,便于比较预测框和
先验框的交并比,基于最佳的先验框来预测。
预测模块的输入特征图通道数是 (B x (5+C)) ,其中B代表每个单元可以预测的边界框数量(这里取2),每个边界框都有5+C个属性,分别描述每个边界框的坐标尺寸、置信度和 C 类概率。如果对象的中心位于单元格的感受野(感受野是输入图像对于单元格可见的区域),则由该单元格负责预测对象。预测模块的损失函数主要由坐标损失、置信度损失和分类损失构成,公式如下:
其中,S^2表示每个尺度的网格数,B表示每个尺度预测的边框数(取2),表示第
i 个网格的第 j 个box是否负责检测这个object。前两项表示坐标损失,采用均方误差函
数,和用于控制中心回归和宽高回归的权重,一般设置为1,2;三、四项表示置
信度损失,采用交叉熵函数,由于不负责检测的边框比重较高,通过设置=2来加速置
信度的收敛;最后一项表示类别损失,采用交叉熵函数,每一个负责检测的网格计算类别概
率。
作为优选,所述的步骤(4)根据检测模块预测的边框坐标提取出每道算术题,标注的文本信息作为标签,用于识别模块的训练。
作为优选,所述的步骤(5)利用CRNN模型对算术题语义信息进行提取。CRNN模型常用于端到端不定长文本序列识别,不用先对单个文字进行分割,而是将文本识别转换成时序依赖的序列学习问题。其工作流程是给定输入的单通道灰度图,先经过卷积神经网络CNN提取特征得到特征图,再转换成序列送入双向长短期记忆网络LSTM获取序列特征,最后经过联结时序分类CTC转录得到最终的标签序列。其中卷积神经网络CNN中的最后两个池化层由2x2改为1x2,考虑到检测模块输出的文本多数是高较小而宽较长,使用1x2的池化窗口可以尽量保证不丢失宽度方向的信息。
将循环神经网络RNN(Recurrent Neural Network) 输出的序列翻译成最终结果的过程中会出现很多冗余信息,比如一个字母被连续识别两次,这时需要利用blank空白机制来解决RNN网络输出中存在的冗余信息,通过在重复的字符之间插入一个“-”(代表blank空白),对于相同字符进行合并(用blank空白字符隔开的除外),即可解决重复字符的问题。
其中表示从序列到序列的映射函数B变换后是的所有路径集合,而π则是
其中的一条路径,每条路径的概率为各个时间步中对应字符分布概率的乘积。通过训练网
络使这个概率值最大化,而损失函数定义为概率的负最大似然函数,而在测试阶段,只需将
每个时间步概率最大的字符进行拼接,再根据上述的blank空白机制即可得到最终的预测
结果。
作为优选,所述的步骤(6)根据识别模块预测的语义信息,通过算术逻辑运算判别每道算术题的正确与否,对于做错的题目将给出正确答案。
有益效果: 本发明所提出的基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题批阅系统,能够在极短的时间内自动识别试卷中每道算术题的含义并做出判断,减轻了传统手工批阅试卷带来的人力和时间成本,提高了教学效率。
附图说明
图1是基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题批阅系统流程图。
图2是MixNet-YOLOv3的网络结构图。
图3是卷积递归神经网络CRNN的网络结构图。
具体实施方式
下面结合附图对本发明的技术方案进行详细说明:
如图1所示,本发明公开了一种基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题批阅系统,系统主要由检测和识别两大模块组成。检测模块采用多尺度语义和定位特征融合的MixNet-YOLOv3网络,用于提取算术题的边框信息,抽取的算术题将送入识别模块;识别模块采用基于联结时序分类CTC解码机制的卷积递归神经网络CRNN,用于得到题目的语义信息,最后通过算术逻辑即可判断每道题目正确与否。下面结合具体实施,进一步阐述本发明,主要包括如下步骤:
步骤A,对原始检测数据集进行预处理,首先通过LabelImg标注软件生成图片的标注框,然后利用平移、旋转、裁剪等数据增强手段扩充原始的数据集,增强数据的泛化性和鲁棒性。针对数据集中的边框信息,通过K均值聚类分析算法得到2个尺度共4个先验框,用于检测网络的训练。
步骤B,将整张图像输入到MixNet网络模型中,进行图像定位和语义特征的提取,得到表示图像全局信息的多尺度特征。MixNet网络通过不同卷积核的混合深度卷积结构代替深度可分离卷积结构,在极大的减少网络参数量的同时,增强了网络融合多尺度语义和定位特征的能力,从而提取到更为系统全面的特征。如图2所示,MixNet网络由混合深度可分离卷积模块(MDConv)组成,旨在将不同的卷积核尺寸融合到一个单独的卷积操作,使其可以易于获取具有多个分辨率的不同模式。
步骤C,利用特征金字塔网络FPN特征融合技术,融合不同尺度的特征,分别输送到
对应的YOLOv3预测模块中,并根据两组先验框分别对产生的特征图进行计算,基于最佳的
先验框来预测,并根据预测出的坐标、置信度、类别信息与标签信息进行损失函数的计算,
通过迭代训练得到更为精确的检测模型。特征金字塔网络FPN网络融合不同尺度的特征,采
用上采样和通道拼接的方式将定位信息和语义信息有机结合,输出8倍和16倍下采样的特
征图,送入到YOLOv3的预测模块。预测模块会将边框的相对位置通过如
下公式转换成绝对位置,便于比较预测框和先验框的交并比,基于最佳
的先验框来预测。
预测模块的输入特征图通道数是 (B x (5+C)) ,其中B代表每个单元可以预测的边界框数量(这里取2),每个边界框都有5+C个属性,分别描述每个边界框的坐标尺寸、置信度和 C 类概率。如果对象的中心位于单元格的感受野(感受野是输入图像对于单元格可见的区域),则由该单元格负责预测对象。预测模块的损失函数主要由坐标损失、置信度损失和分类损失构成,公式如下:
其中,表示每个尺度的网格数,B表示每个尺度预测的边框数(取2),表示第
i 个网格的第 j 个box是否负责检测这个object目标。前两项表示坐标损失,采用均方误
差函数,和用于控制中心回归和宽高回归的权重,一般设置为1,2;三、四项表
示置信度损失,采用交叉熵函数,由于不负责检测的边框比重较高,通过设置=2 来
加速置信度的收敛;最后一项表示类别损失,采用交叉熵函数,每一个负责检测的网格计算
类别概率。
步骤D,根据检测网络输出的算术题边框,将抽取的算术题和标注的文本信息组合起来,构成识别模块的数据集。然后将抽取的算术题图像转成灰度图送入卷积递归神经网络CRNN网络,先经过CNN提取特征得到特征图,再转换成序列送入双向长短期记忆网络LSTM获取序列特征,最后经过联结时序分类CTC转录得到最终的语义信息。其中卷积神经网络CNN中的最后两个池化层由2x2改为1x2,考虑到检测模块输出的文本多数是高较小而宽较长,使用1x2的池化窗口可以尽量保证不丢失宽度方向的信息。
将循环神经网络RNN输出的序列翻译成最终结果的过程中会出现很多冗余信息,
比如一个字母被连续识别两次,这时需要利用blank机制来解决RNN输出中存在的冗余信
息,通过在重复的字符之间插入一个“-”(代表blank),对于相同字符进行合并(用blank字
符隔开的除外),即可解决重复字符的问题。对于RNN给定输入概率分布矩阵,T是序列长度,最后映射为标签文本 的概率为:
其中表示从序列到序列的映射函数B变换后是的所有路径集合,而π则是
其中的一条路径,每条路径的概率为各个时间步中对应字符分布概率的乘积。通过训练使
这个概率值最大化,而损失函数定义为概率的负最大似然函数,而在测试阶段,只需将每个
时间步概率最大的字符进行拼接,再根据上述的blank机制即可得到最终的预测结果。
步骤F,根据识别模块得到的语义信息,进行算术逻辑的运算,从而判断出每道题目的正确与否,对于做错的题目会给出正确答案。
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。
Claims (7)
1.基于MixNet-YOLOv3和卷积递归神经网络CRNN(Convolutional Recurrent NeuralNetwork)的算术题智能批阅系统,其特征在于,包括如下步骤:
(1)对原始检测数据集进行预处理,通过数据增强手段增强样本的泛化性,同时利用K均值聚类算法生成适应该场景的两组先验框,用于检测网络的训练;
(2)将整张图像输入到轻量级的MixNet网络模型中,进行图像定位和语义特征的提取,得到表示图像全局信息的多尺度特征;
(3)利用特征金字塔网络FPN(Feature Pyramid Networks) 特征融合技术,融合不同尺度的特征,分别输送到对应的YOLOv3预测模块中,并根据两组先验框分别对产生的特征图进行计算,基于最佳的先验框来预测,并根据预测出的坐标、置信度、类别信息与标签信息进行损失函数的计算,通过迭代训练得到更为精确的检测模型;
(4)根据检测网络输出的算术题边框,将抽取的算术题和标注的文本信息组合起来,构成识别模块的数据集;
(5)将抽取的算术题图像转成灰度图送入卷积递归神经网络CRNN网络,首先经过卷积神经网络CNN(Convolutional Neural Networks) 提取特征得到特征图,再转换成序列送入双向长短期记忆网络LSTM(Long Short-Term Memory) 获取序列特征,最后经过联结时序分类CTC(Connectionist Temporal Classification) 算法转录得到最终的语义信息;
(6)根据识别模块得到的即得语义信息,进行算术逻辑的运算操作,从而判断出每道算术题目的正确与否,对于做错的题目会给出正确答案。
2.根据权利要求1所述的基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题批阅系统,其特征在于,所述的步骤(1)首先通过LabelImg标注软件生成图片的标注框,然后利用平移、旋转、裁剪等数据增强手段扩充原始的数据集,增强数据的泛化性和鲁棒性,针对数据集中的边框信息,通过K均值聚类算法得到2个尺度共4个先验框,用于检测网络的训练。
3.根据权利要求1所述的基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题批阅系统,其特征在于,所述的步骤(2)采用轻量级MixNet网络提取图像多尺度特征,通过不同卷积核的混合深度卷积结构代替深度可分离卷积结构,在极大的减少网络参数量的同时,增强了网络融合多尺度语义和定位特征的能力,从而提取到更为系统全面的特征,混合深度可分离卷积模块MDConv (Mixed Depthwise Convolutional Kernel)旨在将不同的卷积核尺寸融合到一个单独的卷积操作,使其可以易于获取具有多个分辨率的不同模式,其中MDConv卷积操作具有多个设计选择:
(2.2)每个组的卷积核尺寸:限制卷积核尺寸通常从开始,每组单调增加2,的卷积核尺寸通常为;例如,一个4组的MDConv通常使用的卷积核尺寸为,在此限制下,每个组的卷积核尺寸相对于其组大小已经预定义,因而简化了设计过程;
4.根据权利要求1所述的基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题批阅系统,其特征在于,所述的步骤(3)通过特征金字塔FPN(Feature Pyramid Networks) 网络融合不同尺度的特征,采用上采样和通道拼接的方式将定位信息和语义信息有机结合,输出8倍和16倍下采样的特征图,送入到YOLOv3的预测模块,预测模块将边框的相对位置通过如下公式转换成绝对位置,便于比较预测框和先验框的交并比,基于最佳的先验框来预测:
预测模块的输入特征图通道数是,其中B代表每个单元可以预测的边界框数量(这里取2),每个边界框都有5+C个属性,分别描述每个边界框的坐标尺寸、置信度和C 类概率,如果对象的中心位于单元格的感受野(感受野是输入图像对于单元格可见的区域),则由该单元格负责预测对象,预测模块的损失函数主要由坐标损失、置信度损失和分类损失构成,公式如下:
5.根据权利要求1所述的基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题批阅系统,其特征在于,所述的步骤(4)根据检测模块预测的边框坐标提取出每道算术题,标注的文本信息作为标签,用于识别模块的训练。
6.根据权利要求1所述的基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题批阅系统,其特征在于,所述的步骤(5)利用卷积递归神经网络CRNN模型对算术题语义信息进行提取,卷积递归神经网络CRNN模型常用于端到端不定长文本序列识别,不用先对单个文字进行分割,而是将文本识别转换成时序依赖的序列学习问题,其工作流程是给定输入的单通道灰度图,先经过卷积神经网络CNN(Convolutional Neural Networks) 提取特征得到特征图,再转换成序列送入双向长短期记忆网络LSTM (Long Short-Term Memory) 获取序列特征,最后经过联结时序分类CTC(Connectionist Temporal Classification) 机制转录得到最终的标签序列,其中CNN的最后两个池化窗口为1x2;由于检测模块输出的文本多数是高较小而宽较长,使用1x2的池化窗口尽量保证不丢失宽度方向的信息;将循环神经网络RNN(Recurrent Neural Network) 输出的序列翻译成最终的识别结果的过程中会出现很多冗余信息,比如一个字母被连续识别两次,这时需要利用blank空白机制来解决RNN输出中存在的冗余信息,通过在重复的字符之间插入一个“-”(代表blank空白),对于相同字符进行合并(用blank空白字符隔开的除外),即可解决重复字符的问题,对于RNN给定输入概率分布矩阵,T是序列长度,最后映射为标签文本的概率为:
7.根据权利要求1所述的基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题批阅系统,其特征在于,所述的步骤(6)根据识别模块预测的语义信息,通过算术逻辑运算判别每道算术题的正确与否,对于做错的题目将给出正确答案。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110026927.2A CN112528963A (zh) | 2021-01-09 | 2021-01-09 | 基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题智能批阅系统 |
PCT/CN2021/099935 WO2022147965A1 (zh) | 2021-01-09 | 2021-06-15 | 基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题批阅系统 |
LU502472A LU502472B1 (en) | 2021-01-09 | 2021-06-15 | intelligentes Bewertungssystem für Rechenaufgaben auf der Grundlage von MixNet-YOLOv3 und dem faltungsrekursiven neuronalen Netzwerk (CRNN) |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110026927.2A CN112528963A (zh) | 2021-01-09 | 2021-01-09 | 基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题智能批阅系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112528963A true CN112528963A (zh) | 2021-03-19 |
Family
ID=74977418
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110026927.2A Pending CN112528963A (zh) | 2021-01-09 | 2021-01-09 | 基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题智能批阅系统 |
Country Status (3)
Country | Link |
---|---|
CN (1) | CN112528963A (zh) |
LU (1) | LU502472B1 (zh) |
WO (1) | WO2022147965A1 (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113344145A (zh) * | 2021-08-02 | 2021-09-03 | 智道网联科技(北京)有限公司 | 字符识别方法、装置、电子设备和存储介质 |
CN113435441A (zh) * | 2021-07-22 | 2021-09-24 | 广州华腾教育科技股份有限公司 | 基于Bi-LSTM机制的四则运算算式图像智能批改方法 |
CN113469147A (zh) * | 2021-09-02 | 2021-10-01 | 北京世纪好未来教育科技有限公司 | 答题卡识别方法、装置、电子设备以及存储介质 |
CN113837157A (zh) * | 2021-11-26 | 2021-12-24 | 北京世纪好未来教育科技有限公司 | 题目类型识别方法、系统和存储介质 |
CN113901879A (zh) * | 2021-09-13 | 2022-01-07 | 昆明理工大学 | 融合多尺度语义特征图的缅甸语图像文本识别方法及装置 |
CN114694133A (zh) * | 2022-05-30 | 2022-07-01 | 南京华苏科技有限公司 | 一种基于图像处理与深度学习相结合的文本识别方法 |
WO2022147965A1 (zh) * | 2021-01-09 | 2022-07-14 | 江苏拓邮信息智能技术研究院有限公司 | 基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题批阅系统 |
CN115147642A (zh) * | 2022-06-02 | 2022-10-04 | 盛视科技股份有限公司 | 基于视觉的渣土车检测方法、装置、计算机及存储介质 |
CN116128458A (zh) * | 2023-04-12 | 2023-05-16 | 华中科技大学同济医学院附属同济医院 | 用于医院经费卡报账的智能自动审核系统 |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115170883B (zh) * | 2022-07-19 | 2023-03-14 | 哈尔滨市科佳通用机电股份有限公司 | 一种制动缸活塞推杆开口销丢失故障检测方法 |
CN115578719B (zh) * | 2022-10-13 | 2024-05-17 | 中国矿业大学 | 一种基于ym_ssh的轻量级目标检测的疲劳状态检测方法 |
CN115830302B (zh) * | 2023-02-24 | 2023-07-04 | 国网江西省电力有限公司电力科学研究院 | 一种多尺度特征提取融合配电网设备定位识别方法 |
CN116630755B (zh) * | 2023-04-10 | 2024-04-02 | 雄安创新研究院 | 一种检测场景图像中的文本位置的方法、系统和存储介质 |
CN116704487B (zh) * | 2023-06-12 | 2024-06-11 | 三峡大学 | 一种基于Yolov5s网络和CRNN的车牌检测与识别方法 |
CN116978052B (zh) * | 2023-07-21 | 2024-04-09 | 安徽省交通规划设计研究总院股份有限公司 | 基于改进YOLOv5的桥梁设计图的子图布局识别方法 |
CN116626166B (zh) * | 2023-07-26 | 2023-10-31 | 中兴海陆工程有限公司 | 一种基于改进YOLOv5金属焊缝缺陷检测方法 |
CN116958713B (zh) * | 2023-09-20 | 2023-12-15 | 中航西安飞机工业集团股份有限公司 | 一种航空零部件表面紧固件快速识别与统计方法及系统 |
CN117058493B (zh) * | 2023-10-13 | 2024-02-13 | 之江实验室 | 一种图像识别的安全防御方法、装置和计算机设备 |
CN117523428B (zh) * | 2023-11-08 | 2024-03-29 | 中国人民解放军军事科学院系统工程研究院 | 基于飞行器平台的地面目标检测方法和装置 |
CN117313791B (zh) * | 2023-11-30 | 2024-03-22 | 青岛科技大学 | 基于GCL-Peephole的车联网智能无线感知算法 |
CN117523205B (zh) * | 2024-01-03 | 2024-03-29 | 广州锟元方青医疗科技有限公司 | 少样本ki67多类别细胞核的分割识别方法 |
CN117809318B (zh) * | 2024-03-01 | 2024-05-28 | 微山同在电子信息科技有限公司 | 基于机器视觉的甲骨文识别方法及其系统 |
CN117830788B (zh) * | 2024-03-06 | 2024-05-10 | 潍坊科技学院 | 一种多源信息融合的图像目标检测方法 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110969052A (zh) * | 2018-09-29 | 2020-04-07 | 杭州萤石软件有限公司 | 一种作业批改方法和设备 |
CN110147807A (zh) * | 2019-01-04 | 2019-08-20 | 上海海事大学 | 一种船舶智能识别跟踪方法 |
CN109858414A (zh) * | 2019-01-21 | 2019-06-07 | 南京邮电大学 | 一种发票分块检测方法 |
CN110399845A (zh) * | 2019-07-29 | 2019-11-01 | 上海海事大学 | 一种图像中连续成段文本检测与识别方法 |
CN111046886B (zh) * | 2019-12-12 | 2023-05-12 | 吉林大学 | 号码牌自动识别方法、装置、设备及计算机可读存储介质 |
CN111368828A (zh) * | 2020-02-27 | 2020-07-03 | 大象慧云信息技术有限公司 | 一种多票据的识别方法及装置 |
CN111310861B (zh) * | 2020-03-27 | 2023-05-23 | 西安电子科技大学 | 一种基于深度神经网络的车牌识别和定位方法 |
CN111310773B (zh) * | 2020-03-27 | 2023-03-24 | 西安电子科技大学 | 一种高效的卷积神经网络的车牌定位方法 |
CN111553201B (zh) * | 2020-04-08 | 2024-03-29 | 东南大学 | 一种基于YOLOv3优化算法的交通灯检测方法 |
CN111401371B (zh) * | 2020-06-03 | 2020-09-08 | 中邮消费金融有限公司 | 一种文本检测识别方法、系统及计算机设备 |
CN111898699B (zh) * | 2020-08-11 | 2024-05-10 | 海之韵(苏州)科技有限公司 | 一种船体目标自动检测识别方法 |
CN112101433B (zh) * | 2020-09-04 | 2024-04-30 | 东南大学 | 一种基于YOLO V4和DeepSORT的分车道车辆自动计数方法 |
CN112528963A (zh) * | 2021-01-09 | 2021-03-19 | 江苏拓邮信息智能技术研究院有限公司 | 基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题智能批阅系统 |
-
2021
- 2021-01-09 CN CN202110026927.2A patent/CN112528963A/zh active Pending
- 2021-06-15 WO PCT/CN2021/099935 patent/WO2022147965A1/zh active Application Filing
- 2021-06-15 LU LU502472A patent/LU502472B1/en active IP Right Grant
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022147965A1 (zh) * | 2021-01-09 | 2022-07-14 | 江苏拓邮信息智能技术研究院有限公司 | 基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题批阅系统 |
CN113435441A (zh) * | 2021-07-22 | 2021-09-24 | 广州华腾教育科技股份有限公司 | 基于Bi-LSTM机制的四则运算算式图像智能批改方法 |
CN113344145A (zh) * | 2021-08-02 | 2021-09-03 | 智道网联科技(北京)有限公司 | 字符识别方法、装置、电子设备和存储介质 |
CN113469147A (zh) * | 2021-09-02 | 2021-10-01 | 北京世纪好未来教育科技有限公司 | 答题卡识别方法、装置、电子设备以及存储介质 |
CN113469147B (zh) * | 2021-09-02 | 2021-12-17 | 北京世纪好未来教育科技有限公司 | 答题卡识别方法、装置、电子设备以及存储介质 |
CN113901879A (zh) * | 2021-09-13 | 2022-01-07 | 昆明理工大学 | 融合多尺度语义特征图的缅甸语图像文本识别方法及装置 |
CN113837157A (zh) * | 2021-11-26 | 2021-12-24 | 北京世纪好未来教育科技有限公司 | 题目类型识别方法、系统和存储介质 |
CN114694133A (zh) * | 2022-05-30 | 2022-07-01 | 南京华苏科技有限公司 | 一种基于图像处理与深度学习相结合的文本识别方法 |
CN115147642A (zh) * | 2022-06-02 | 2022-10-04 | 盛视科技股份有限公司 | 基于视觉的渣土车检测方法、装置、计算机及存储介质 |
CN116128458A (zh) * | 2023-04-12 | 2023-05-16 | 华中科技大学同济医学院附属同济医院 | 用于医院经费卡报账的智能自动审核系统 |
CN116128458B (zh) * | 2023-04-12 | 2024-02-20 | 华中科技大学同济医学院附属同济医院 | 用于医院经费卡报账的智能自动审核系统 |
Also Published As
Publication number | Publication date |
---|---|
WO2022147965A1 (zh) | 2022-07-14 |
LU502472B1 (en) | 2022-11-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112528963A (zh) | 基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题智能批阅系统 | |
CN111401410B (zh) | 一种基于改进级联神经网络的交通标志检测方法 | |
CN111259897B (zh) | 知识感知的文本识别方法和系统 | |
CN107169485A (zh) | 一种数学公式识别方法和装置 | |
CN112597773B (zh) | 文档结构化方法、系统、终端及介质 | |
CN111881262A (zh) | 基于多通道神经网络的文本情感分析方法 | |
CN113378815B (zh) | 一种场景文本定位识别的系统及其训练和识别的方法 | |
CN110929746A (zh) | 一种基于深度神经网络的电子卷宗标题定位提取与分类方法 | |
CN113762269A (zh) | 基于神经网络的中文字符ocr识别方法、系统、介质及应用 | |
CN115034200A (zh) | 图纸信息提取方法、装置、电子设备及存储介质 | |
CN114330247A (zh) | 一种基于图像识别的自动化保险条款解析方法 | |
CN113312918A (zh) | 融合部首向量的分词和胶囊网络法律命名实体识别方法 | |
CN116258931B (zh) | 基于ViT和滑窗注意力融合的视觉指代表达理解方法和系统 | |
CN116704508A (zh) | 信息处理方法及装置 | |
Murali et al. | Remote sensing image captioning via multilevel attention-based visual question answering | |
CN110929013A (zh) | 一种基于bottom-up attention和定位信息融合的图片问答实现方法 | |
CN116912872A (zh) | 图纸识别方法、装置、设备及可读存储介质 | |
CN115546815A (zh) | 一种表格识别方法、装置、设备及存储介质 | |
CN113111869B (zh) | 提取文字图片及其描述的方法和系统 | |
CN115410185A (zh) | 一种多模态数据中特定人名及单位名属性的提取方法 | |
CN114550197A (zh) | 一种端子排图像检测信息匹配方法 | |
CN114299510A (zh) | 一种手写英文行识别系统 | |
CN114154572A (zh) | 一种基于异构平台的异构数据集中接入分析方法 | |
CN112668628A (zh) | 一种空调外机质量检测与可视化方法 | |
CN112329389A (zh) | 一种基于语义分割与禁忌搜索的汉字笔画自动提取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |