CN112528963A - 基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题智能批阅系统 - Google Patents

基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题智能批阅系统 Download PDF

Info

Publication number
CN112528963A
CN112528963A CN202110026927.2A CN202110026927A CN112528963A CN 112528963 A CN112528963 A CN 112528963A CN 202110026927 A CN202110026927 A CN 202110026927A CN 112528963 A CN112528963 A CN 112528963A
Authority
CN
China
Prior art keywords
arithmetic
network
neural network
convolution
yolov3
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110026927.2A
Other languages
English (en)
Inventor
刘天亮
梁聪聪
桂冠
戴修斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Tuoyou Information Intelligent Technology Research Institute Co ltd
Original Assignee
Jiangsu Tuoyou Information Intelligent Technology Research Institute Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Tuoyou Information Intelligent Technology Research Institute Co ltd filed Critical Jiangsu Tuoyou Information Intelligent Technology Research Institute Co ltd
Priority to CN202110026927.2A priority Critical patent/CN112528963A/zh
Publication of CN112528963A publication Critical patent/CN112528963A/zh
Priority to PCT/CN2021/099935 priority patent/WO2022147965A1/zh
Priority to LU502472A priority patent/LU502472B1/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)
  • Seasonings (AREA)

Abstract

本发明公开了一种基于MixNet‑YOLOv3和卷积递归神经网络CRNN(Convolutional Recurrent Neural Network)的算术题智能批阅系统,能够自动地识别试卷中每道算术题的含义并做出判断,以减轻传统手工批阅试卷带来的人力和时间成本,从而提高教学效率。智能批阅系统主要分为检测和识别两大模块。鉴于算术题分布密集、字体多变的特点和网络轻量化的需求,检测模块采用多尺度语义和定位特征融合的MixNet‑YOLOv3网络来实现算术题的边框信息提取;而在识别模块,前一模块抽取的算术题将通过基于联结时序分类CTC(Connectionist Temporal Classification)解码机制的卷积递归神经网络CRNN网络,得到算术题目的语义信息;最后通过算术逻辑运算来判断每道算术题目的正确与否。本发明创建的系统能够胜任移动设备端的算术题批阅任务。

Description

基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题智能 批阅系统
技术领域
本发明涉及一种基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题智能批阅系统,属于计算机视觉及自然语言处理交叉的文本检测和识别领域。
背景技术
随着科技水平的进步和教育产业的变革,传统阅卷过程中的效率低、质量和公平无法保证的问题日益凸显,一定程度阻碍了整体教学水平的提高。与此同时,数字图像处理以及计算机视觉技术的飞速发展,让人们将目光逐渐投向智能阅卷,智能阅卷能够极大地提高阅卷的效率,降低教师的工作负担,节省家长的时间,优化教育资源的配置。
以中小学生的算术题为例,考虑到算术题一般是由印刷体跟手写体构成,出版商的印刷体样式、学生的手写体风格层出不穷,还存在一定程度的涂改,基于图像处理和机器学习的传统的光学字符识别OCR(Optical Character Recognition) 技术无法满足复杂场景的检测任务。
典型的 OCR 技术路线包括以下三个部分:图像预处理、文本检测和文本识别,其中影响识别准确率的技术瓶颈是文本检测和文本识别,而这两部分也是 OCR 技术的重中之重。在传统 OCR 技术中,图像预处理通常是针对图像的成像问题进行修正,常见的预处理过程包括:几何变换、畸变校正、去除模糊、图像增强和光线校正等。文本检测即检测文本的所在位置和范围及其布局,通常也包括版面分析和文字行检测等,文字检测主要解决的问题是哪里有文字,文字的范围有多大。文本识别是在文本检测的基础上,对文本内容进行识别,将图像中的文本信息转化为文本信息,文字识别主要解决的问题是每个文字是什么。
发明内容
发明目的:为了解决上述问题,本发明提出一个端到端的算术题批阅系统,系统主要涵盖检测跟识别两个分支,首先采用YOLOv3算法检测每道题目的边界,通过权重分配使网络更容易学习水平的边界,并在不损失精度的前提下将提取网络替换为更为轻量化的MixNet网络;在识别部分,采用精度跟效率结合的卷积递归神经网络CRNN网络,通过卷积神经网络CNN(Convolutional Neural Networks)和长短期记忆网络LSTM(Long Short-TermMemory)的组合使网络准确的学习到题目的语义信息,最后通过算术逻辑判断对错和返回正确答案。
技术方案:本发明技术方案实现包括如下几个步骤:
(1)对原始检测数据集进行预处理,通过数据增强手段扩展样本的泛化性,同时利用K均值聚类算法生成适应该场景的先验框,用于检测网络的训练;
(2)将整张图像输入到轻量级MixNet网络模型中,进行图像定位和语义特征的提取,得到表示图像全局信息的多尺度特征;
(3)利用特征金字塔网络FPN(Feature Pyramid Networks)特征融合技术,融合不同尺度的特征,分别输送到对应的YOLOv3预测模块中,并根据两组先验框分别对产生的特征图进行计算,基于最佳的先验框来预测,并根据预测出的坐标、置信度、类别信息与标签信息进行损失函数的计算,通过迭代训练得到更为精确的检测模型;
(4)根据检测网络输出的算术题边框,将抽取的算术题和标注的文本信息组合起来,构成识别模块的数据集;
(5)将抽取的算术题图像转成灰度图送入卷积递归神经网络CRNN网络,需要先经过卷积神经网络CNN提取特征得到特征图,再转换成序列送入双向长短期记忆网络LSTM获取序列特征,最后经过联结时序分类CTC机制转录得到最终的语义信息;
(6)根据识别模块得到的语义信息,进行算术逻辑的运算,从而判断出每道题目的正确与否,对于做错的题目会给出正确答案。
作为优选,所述的步骤(1)首先通过LabelImg标注软件生成图片的标注框,然后利用平移、旋转、裁剪等数据增强手段扩充原始的数据集,增强数据的泛化性和鲁棒性。针对数据集中的边框信息,通过K均值聚类分析算法得到2个尺度共4个先验框,用于检测网络的训练。
作为优选,所述的步骤(2)采用MixNet网络提取图像多尺度特征。通过不同卷积核的混合深度卷积结构代替深度可分离卷积结构,在极大的减少网络参数量的同时,增强了网络融合多尺度语义和定位特征的能力,从而提取到更为系统全面的特征。MixNet网络由混合深度可分离卷积模块(MDConv)组成,旨在将不同的卷积核尺寸融合到一个单独的卷积操作,使其可以易于获取具有多个分辨率的不同模式。其中MDConv卷积操作具有多个设计选择:
(2.1)组大小 g :决定了用于一个单独输入张量的不同类型卷积核的个数。在g=1的极端情况,MDConv等同于普通深度卷积。对于MobileNets, g=4 时MDConv可以提高模型的准确性和效率。
(2.2)每个组的卷积核尺寸:理论上,每个组可以有任意尺寸的卷积核。但是,如果两个组有同样尺寸的卷积核,那等同于将两个组合并为一个单独的组,因此必须限制每个组必须拥有不同尺寸的卷积核。进一步,因为小尺寸的卷积核通常拥有更少的参数和FLOPS,限制卷积核尺寸通常从 3x3 开始,每组单调增加2。换言之, i 组的卷积核尺寸通常为 2i+1 。例如,一个4组的MDConv通常使用的卷积核尺寸为 {3x3,5x5,7x7,9x9} 。在此限制下,每个组的卷积核尺寸相对于其组大小 g 已经预定义好了,因而简化了设计过程。
(2.3)每个组的通道大小:在此主要考虑两种通道划分方法:(a) 等分:每组通道 的数目一致;(b) 指数划分:第 i 组通道数占总通道数的
Figure DEST_PATH_IMAGE001
。例如,一个4组MDConv共有 32个通道,等分将通道划分为 (8,8,8,8) ,而指数划分将通道划分为 (16,8,4,4)。
作为优选,所述的步骤(3)通过特征金字塔网络FPN(Feature Pyramid Networks) 融合不同尺度的特征,采用上采样和通道拼接的方式将定位信息和语义信息有机结合,输 出8倍和16倍下采样的特征图,送入到YOLOv3的预测模块。预测模块会将边框的相对位置
Figure DEST_PATH_IMAGE002
通过如下公式转换成绝对位置
Figure DEST_PATH_IMAGE003
,便于比较预测框和 先验框的交并比,基于最佳的先验框来预测。
Figure DEST_PATH_IMAGE004
预测模块的输入特征图通道数是 (B x (5+C)) ,其中B代表每个单元可以预测的边界框数量(这里取2),每个边界框都有5+C个属性,分别描述每个边界框的坐标尺寸、置信度和 C 类概率。如果对象的中心位于单元格的感受野(感受野是输入图像对于单元格可见的区域),则由该单元格负责预测对象。预测模块的损失函数主要由坐标损失、置信度损失和分类损失构成,公式如下:
Figure DEST_PATH_IMAGE005
其中,S^2表示每个尺度的网格数,B表示每个尺度预测的边框数(取2),
Figure DEST_PATH_IMAGE006
表示第 i 个网格的第 j 个box是否负责检测这个object。前两项表示坐标损失,采用均方误差函 数,
Figure DEST_PATH_IMAGE007
Figure DEST_PATH_IMAGE008
用于控制中心回归和宽高回归的权重,一般设置为1,2;三、四项表示置 信度损失,采用交叉熵函数,由于不负责检测的边框比重较高,通过设置
Figure DEST_PATH_IMAGE009
=2来加速置 信度的收敛;最后一项表示类别损失,采用交叉熵函数,每一个负责检测的网格计算类别概 率。
作为优选,所述的步骤(4)根据检测模块预测的边框坐标提取出每道算术题,标注的文本信息作为标签,用于识别模块的训练。
作为优选,所述的步骤(5)利用CRNN模型对算术题语义信息进行提取。CRNN模型常用于端到端不定长文本序列识别,不用先对单个文字进行分割,而是将文本识别转换成时序依赖的序列学习问题。其工作流程是给定输入的单通道灰度图,先经过卷积神经网络CNN提取特征得到特征图,再转换成序列送入双向长短期记忆网络LSTM获取序列特征,最后经过联结时序分类CTC转录得到最终的标签序列。其中卷积神经网络CNN中的最后两个池化层由2x2改为1x2,考虑到检测模块输出的文本多数是高较小而宽较长,使用1x2的池化窗口可以尽量保证不丢失宽度方向的信息。
将循环神经网络RNN(Recurrent Neural Network) 输出的序列翻译成最终结果的过程中会出现很多冗余信息,比如一个字母被连续识别两次,这时需要利用blank空白机制来解决RNN网络输出中存在的冗余信息,通过在重复的字符之间插入一个“-”(代表blank空白),对于相同字符进行合并(用blank空白字符隔开的除外),即可解决重复字符的问题。
对于RNN给定输入概率分布矩阵
Figure DEST_PATH_IMAGE010
,T是序列长度,最后映射为 标签文本
Figure DEST_PATH_IMAGE011
的概率为:
Figure DEST_PATH_IMAGE012
其中
Figure DEST_PATH_IMAGE013
表示从序列到序列的映射函数B变换后是
Figure 255184DEST_PATH_IMAGE011
的所有路径集合,而π则是 其中的一条路径,每条路径的概率为各个时间步中对应字符分布概率的乘积。通过训练网 络使这个概率值最大化,而损失函数定义为概率的负最大似然函数,而在测试阶段,只需将 每个时间步概率最大的字符进行拼接,再根据上述的blank空白机制即可得到最终的预测 结果。
作为优选,所述的步骤(6)根据识别模块预测的语义信息,通过算术逻辑运算判别每道算术题的正确与否,对于做错的题目将给出正确答案。
有益效果: 本发明所提出的基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题批阅系统,能够在极短的时间内自动识别试卷中每道算术题的含义并做出判断,减轻了传统手工批阅试卷带来的人力和时间成本,提高了教学效率。
附图说明
图1是基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题批阅系统流程图。
图2是MixNet-YOLOv3的网络结构图。
图3是卷积递归神经网络CRNN的网络结构图。
具体实施方式
下面结合附图对本发明的技术方案进行详细说明:
如图1所示,本发明公开了一种基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题批阅系统,系统主要由检测和识别两大模块组成。检测模块采用多尺度语义和定位特征融合的MixNet-YOLOv3网络,用于提取算术题的边框信息,抽取的算术题将送入识别模块;识别模块采用基于联结时序分类CTC解码机制的卷积递归神经网络CRNN,用于得到题目的语义信息,最后通过算术逻辑即可判断每道题目正确与否。下面结合具体实施,进一步阐述本发明,主要包括如下步骤:
步骤A,对原始检测数据集进行预处理,首先通过LabelImg标注软件生成图片的标注框,然后利用平移、旋转、裁剪等数据增强手段扩充原始的数据集,增强数据的泛化性和鲁棒性。针对数据集中的边框信息,通过K均值聚类分析算法得到2个尺度共4个先验框,用于检测网络的训练。
步骤B,将整张图像输入到MixNet网络模型中,进行图像定位和语义特征的提取,得到表示图像全局信息的多尺度特征。MixNet网络通过不同卷积核的混合深度卷积结构代替深度可分离卷积结构,在极大的减少网络参数量的同时,增强了网络融合多尺度语义和定位特征的能力,从而提取到更为系统全面的特征。如图2所示,MixNet网络由混合深度可分离卷积模块(MDConv)组成,旨在将不同的卷积核尺寸融合到一个单独的卷积操作,使其可以易于获取具有多个分辨率的不同模式。
步骤C,利用特征金字塔网络FPN特征融合技术,融合不同尺度的特征,分别输送到 对应的YOLOv3预测模块中,并根据两组先验框分别对产生的特征图进行计算,基于最佳的 先验框来预测,并根据预测出的坐标、置信度、类别信息与标签信息进行损失函数的计算, 通过迭代训练得到更为精确的检测模型。特征金字塔网络FPN网络融合不同尺度的特征,采 用上采样和通道拼接的方式将定位信息和语义信息有机结合,输出8倍和16倍下采样的特 征图,送入到YOLOv3的预测模块。预测模块会将边框的相对位置
Figure DEST_PATH_IMAGE014
通过如 下公式转换成绝对位置
Figure DEST_PATH_IMAGE015
,便于比较预测框和先验框的交并比,基于最佳 的先验框来预测。
Figure DEST_PATH_IMAGE016
预测模块的输入特征图通道数是 (B x (5+C)) ,其中B代表每个单元可以预测的边界框数量(这里取2),每个边界框都有5+C个属性,分别描述每个边界框的坐标尺寸、置信度和 C 类概率。如果对象的中心位于单元格的感受野(感受野是输入图像对于单元格可见的区域),则由该单元格负责预测对象。预测模块的损失函数主要由坐标损失、置信度损失和分类损失构成,公式如下:
Figure DEST_PATH_IMAGE017
其中,
Figure DEST_PATH_IMAGE018
表示每个尺度的网格数,B表示每个尺度预测的边框数(取2),
Figure DEST_PATH_IMAGE019
表示第 i 个网格的第 j 个box是否负责检测这个object目标。前两项表示坐标损失,采用均方误 差函数,
Figure DEST_PATH_IMAGE020
Figure DEST_PATH_IMAGE021
用于控制中心回归和宽高回归的权重,一般设置为1,2;三、四项表 示置信度损失,采用交叉熵函数,由于不负责检测的边框比重较高,通过设置
Figure DEST_PATH_IMAGE022
=2 来 加速置信度的收敛;最后一项表示类别损失,采用交叉熵函数,每一个负责检测的网格计算 类别概率。
步骤D,根据检测网络输出的算术题边框,将抽取的算术题和标注的文本信息组合起来,构成识别模块的数据集。然后将抽取的算术题图像转成灰度图送入卷积递归神经网络CRNN网络,先经过CNN提取特征得到特征图,再转换成序列送入双向长短期记忆网络LSTM获取序列特征,最后经过联结时序分类CTC转录得到最终的语义信息。其中卷积神经网络CNN中的最后两个池化层由2x2改为1x2,考虑到检测模块输出的文本多数是高较小而宽较长,使用1x2的池化窗口可以尽量保证不丢失宽度方向的信息。
将循环神经网络RNN输出的序列翻译成最终结果的过程中会出现很多冗余信息, 比如一个字母被连续识别两次,这时需要利用blank机制来解决RNN输出中存在的冗余信 息,通过在重复的字符之间插入一个“-”(代表blank),对于相同字符进行合并(用blank字 符隔开的除外),即可解决重复字符的问题。对于RNN给定输入概率分布矩阵
Figure DEST_PATH_IMAGE023
,T是序列长度,最后映射为标签文本
Figure DEST_PATH_IMAGE024
的概率为:
Figure DEST_PATH_IMAGE025
其中
Figure DEST_PATH_IMAGE026
表示从序列到序列的映射函数B变换后是
Figure 421592DEST_PATH_IMAGE024
的所有路径集合,而π则是 其中的一条路径,每条路径的概率为各个时间步中对应字符分布概率的乘积。通过训练使 这个概率值最大化,而损失函数定义为概率的负最大似然函数,而在测试阶段,只需将每个 时间步概率最大的字符进行拼接,再根据上述的blank机制即可得到最终的预测结果。
步骤F,根据识别模块得到的语义信息,进行算术逻辑的运算,从而判断出每道题目的正确与否,对于做错的题目会给出正确答案。
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。

Claims (7)

1.基于MixNet-YOLOv3和卷积递归神经网络CRNN(Convolutional Recurrent NeuralNetwork)的算术题智能批阅系统,其特征在于,包括如下步骤:
(1)对原始检测数据集进行预处理,通过数据增强手段增强样本的泛化性,同时利用K均值聚类算法生成适应该场景的两组先验框,用于检测网络的训练;
(2)将整张图像输入到轻量级的MixNet网络模型中,进行图像定位和语义特征的提取,得到表示图像全局信息的多尺度特征;
(3)利用特征金字塔网络FPN(Feature Pyramid Networks) 特征融合技术,融合不同尺度的特征,分别输送到对应的YOLOv3预测模块中,并根据两组先验框分别对产生的特征图进行计算,基于最佳的先验框来预测,并根据预测出的坐标、置信度、类别信息与标签信息进行损失函数的计算,通过迭代训练得到更为精确的检测模型;
(4)根据检测网络输出的算术题边框,将抽取的算术题和标注的文本信息组合起来,构成识别模块的数据集;
(5)将抽取的算术题图像转成灰度图送入卷积递归神经网络CRNN网络,首先经过卷积神经网络CNN(Convolutional Neural Networks) 提取特征得到特征图,再转换成序列送入双向长短期记忆网络LSTM(Long Short-Term Memory) 获取序列特征,最后经过联结时序分类CTC(Connectionist Temporal Classification) 算法转录得到最终的语义信息;
(6)根据识别模块得到的即得语义信息,进行算术逻辑的运算操作,从而判断出每道算术题目的正确与否,对于做错的题目会给出正确答案。
2.根据权利要求1所述的基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题批阅系统,其特征在于,所述的步骤(1)首先通过LabelImg标注软件生成图片的标注框,然后利用平移、旋转、裁剪等数据增强手段扩充原始的数据集,增强数据的泛化性和鲁棒性,针对数据集中的边框信息,通过K均值聚类算法得到2个尺度共4个先验框,用于检测网络的训练。
3.根据权利要求1所述的基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题批阅系统,其特征在于,所述的步骤(2)采用轻量级MixNet网络提取图像多尺度特征,通过不同卷积核的混合深度卷积结构代替深度可分离卷积结构,在极大的减少网络参数量的同时,增强了网络融合多尺度语义和定位特征的能力,从而提取到更为系统全面的特征,混合深度可分离卷积模块MDConv (Mixed Depthwise Convolutional Kernel)旨在将不同的卷积核尺寸融合到一个单独的卷积操作,使其可以易于获取具有多个分辨率的不同模式,其中MDConv卷积操作具有多个设计选择:
(2.1)组大小g:决定了用于一个单独输入张量的不同类型卷积核的个数,在
Figure RE-DEST_PATH_IMAGE001
的极端情况,MDConv等同于普通深度卷积,在
Figure RE-DEST_PATH_IMAGE002
时,MDConv可以提高模型的准确性和效率;
(2.2)每个组的卷积核尺寸:限制卷积核尺寸通常从
Figure RE-DEST_PATH_IMAGE003
开始,每组单调增加2,
Figure RE-DEST_PATH_IMAGE004
的卷积核尺寸通常为
Figure RE-DEST_PATH_IMAGE005
;例如,一个4组的MDConv通常使用的卷积核尺寸为
Figure RE-DEST_PATH_IMAGE006
,在此限制下,每个组的卷积核尺寸相对于其组大小
Figure RE-DEST_PATH_IMAGE007
已经预定义,因而简化了设计过程;
(2.3)每个组的通道大小:采用两种通道划分方法:(a) 等分:每组通道的数目一致;(b) 指数划分:第
Figure RE-DEST_PATH_IMAGE008
通道数占总通道数的
Figure RE-DEST_PATH_IMAGE009
,例如,一个4组MDConv共有32个通道,等分将通道划分为
Figure RE-DEST_PATH_IMAGE010
,而指数划分将通道划分为
Figure RE-DEST_PATH_IMAGE011
4.根据权利要求1所述的基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题批阅系统,其特征在于,所述的步骤(3)通过特征金字塔FPN(Feature Pyramid Networks) 网络融合不同尺度的特征,采用上采样和通道拼接的方式将定位信息和语义信息有机结合,输出8倍和16倍下采样的特征图,送入到YOLOv3的预测模块,预测模块将边框的相对位置
Figure RE-RE-DEST_PATH_IMAGE012
通过如下公式转换成绝对位置
Figure RE-RE-DEST_PATH_IMAGE013
,便于比较预测框和先验框的交并比,基于最佳的先验框来预测:
Figure RE-RE-DEST_PATH_IMAGE014
预测模块的输入特征图通道数是
Figure RE-RE-DEST_PATH_IMAGE015
,其中B代表每个单元可以预测的边界框数量(这里取2),每个边界框都有5+C个属性,分别描述每个边界框的坐标尺寸、置信度和C 类概率,如果对象的中心位于单元格的感受野(感受野是输入图像对于单元格可见的区域),则由该单元格负责预测对象,预测模块的损失函数主要由坐标损失、置信度损失和分类损失构成,公式如下:
Figure RE-RE-DEST_PATH_IMAGE016
其中,
Figure RE-RE-DEST_PATH_IMAGE017
表示每个尺度的网格数,
Figure RE-RE-DEST_PATH_IMAGE018
表示每个尺度预测的边框数(取2),
Figure RE-RE-DEST_PATH_IMAGE019
表示第
Figure RE-RE-DEST_PATH_IMAGE020
个网格的第
Figure RE-RE-DEST_PATH_IMAGE021
是否负责检测这个对象,前两项表示坐标损失,采用均方误差函数,
Figure RE-RE-DEST_PATH_IMAGE022
用于控制中心回归和宽高回归的权重,一般设置为1,2;三、四项表示置信度损失,采用交叉熵函数,由于不负责检测的边框比重较高,通过设置
Figure RE-RE-DEST_PATH_IMAGE023
来加速置信度的收敛;最后一项表示类别损失,采用交叉熵函数,每一个负责检测的网格计算类别概率。
5.根据权利要求1所述的基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题批阅系统,其特征在于,所述的步骤(4)根据检测模块预测的边框坐标提取出每道算术题,标注的文本信息作为标签,用于识别模块的训练。
6.根据权利要求1所述的基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题批阅系统,其特征在于,所述的步骤(5)利用卷积递归神经网络CRNN模型对算术题语义信息进行提取,卷积递归神经网络CRNN模型常用于端到端不定长文本序列识别,不用先对单个文字进行分割,而是将文本识别转换成时序依赖的序列学习问题,其工作流程是给定输入的单通道灰度图,先经过卷积神经网络CNN(Convolutional Neural Networks) 提取特征得到特征图,再转换成序列送入双向长短期记忆网络LSTM (Long Short-Term Memory) 获取序列特征,最后经过联结时序分类CTC(Connectionist Temporal Classification) 机制转录得到最终的标签序列,其中CNN的最后两个池化窗口为1x2;由于检测模块输出的文本多数是高较小而宽较长,使用1x2的池化窗口尽量保证不丢失宽度方向的信息;将循环神经网络RNN(Recurrent Neural Network) 输出的序列翻译成最终的识别结果的过程中会出现很多冗余信息,比如一个字母被连续识别两次,这时需要利用blank空白机制来解决RNN输出中存在的冗余信息,通过在重复的字符之间插入一个“-”(代表blank空白),对于相同字符进行合并(用blank空白字符隔开的除外),即可解决重复字符的问题,对于RNN给定输入概率分布矩阵
Figure RE-DEST_PATH_IMAGE024
,T是序列长度,最后映射为标签文本
Figure RE-DEST_PATH_IMAGE025
的概率为:
Figure RE-DEST_PATH_IMAGE026
其中
Figure RE-DEST_PATH_IMAGE027
表示从序列到序列的映射函数B变换后是的所有路径集合,而
Figure RE-DEST_PATH_IMAGE028
则是其中的一条路径,每条路径的概率为各个时间步中对应字符分布概率的乘积,通过训练网络使这个概率值最大化,而损失函数定义为概率的负最大似然函数,而在测试阶段,只需将每个时间步概率最大的字符进行拼接,再根据上述的blank空白机制即可得到最终的预测结果。
7.根据权利要求1所述的基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题批阅系统,其特征在于,所述的步骤(6)根据识别模块预测的语义信息,通过算术逻辑运算判别每道算术题的正确与否,对于做错的题目将给出正确答案。
CN202110026927.2A 2021-01-09 2021-01-09 基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题智能批阅系统 Pending CN112528963A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202110026927.2A CN112528963A (zh) 2021-01-09 2021-01-09 基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题智能批阅系统
PCT/CN2021/099935 WO2022147965A1 (zh) 2021-01-09 2021-06-15 基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题批阅系统
LU502472A LU502472B1 (en) 2021-01-09 2021-06-15 intelligentes Bewertungssystem für Rechenaufgaben auf der Grundlage von MixNet-YOLOv3 und dem faltungsrekursiven neuronalen Netzwerk (CRNN)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110026927.2A CN112528963A (zh) 2021-01-09 2021-01-09 基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题智能批阅系统

Publications (1)

Publication Number Publication Date
CN112528963A true CN112528963A (zh) 2021-03-19

Family

ID=74977418

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110026927.2A Pending CN112528963A (zh) 2021-01-09 2021-01-09 基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题智能批阅系统

Country Status (3)

Country Link
CN (1) CN112528963A (zh)
LU (1) LU502472B1 (zh)
WO (1) WO2022147965A1 (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113344145A (zh) * 2021-08-02 2021-09-03 智道网联科技(北京)有限公司 字符识别方法、装置、电子设备和存储介质
CN113435441A (zh) * 2021-07-22 2021-09-24 广州华腾教育科技股份有限公司 基于Bi-LSTM机制的四则运算算式图像智能批改方法
CN113469147A (zh) * 2021-09-02 2021-10-01 北京世纪好未来教育科技有限公司 答题卡识别方法、装置、电子设备以及存储介质
CN113837157A (zh) * 2021-11-26 2021-12-24 北京世纪好未来教育科技有限公司 题目类型识别方法、系统和存储介质
CN113901879A (zh) * 2021-09-13 2022-01-07 昆明理工大学 融合多尺度语义特征图的缅甸语图像文本识别方法及装置
CN114694133A (zh) * 2022-05-30 2022-07-01 南京华苏科技有限公司 一种基于图像处理与深度学习相结合的文本识别方法
WO2022147965A1 (zh) * 2021-01-09 2022-07-14 江苏拓邮信息智能技术研究院有限公司 基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题批阅系统
CN115147642A (zh) * 2022-06-02 2022-10-04 盛视科技股份有限公司 基于视觉的渣土车检测方法、装置、计算机及存储介质
CN116128458A (zh) * 2023-04-12 2023-05-16 华中科技大学同济医学院附属同济医院 用于医院经费卡报账的智能自动审核系统

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115170883B (zh) * 2022-07-19 2023-03-14 哈尔滨市科佳通用机电股份有限公司 一种制动缸活塞推杆开口销丢失故障检测方法
CN115578719B (zh) * 2022-10-13 2024-05-17 中国矿业大学 一种基于ym_ssh的轻量级目标检测的疲劳状态检测方法
CN115830302B (zh) * 2023-02-24 2023-07-04 国网江西省电力有限公司电力科学研究院 一种多尺度特征提取融合配电网设备定位识别方法
CN116630755B (zh) * 2023-04-10 2024-04-02 雄安创新研究院 一种检测场景图像中的文本位置的方法、系统和存储介质
CN116704487B (zh) * 2023-06-12 2024-06-11 三峡大学 一种基于Yolov5s网络和CRNN的车牌检测与识别方法
CN116978052B (zh) * 2023-07-21 2024-04-09 安徽省交通规划设计研究总院股份有限公司 基于改进YOLOv5的桥梁设计图的子图布局识别方法
CN116626166B (zh) * 2023-07-26 2023-10-31 中兴海陆工程有限公司 一种基于改进YOLOv5金属焊缝缺陷检测方法
CN116958713B (zh) * 2023-09-20 2023-12-15 中航西安飞机工业集团股份有限公司 一种航空零部件表面紧固件快速识别与统计方法及系统
CN117058493B (zh) * 2023-10-13 2024-02-13 之江实验室 一种图像识别的安全防御方法、装置和计算机设备
CN117523428B (zh) * 2023-11-08 2024-03-29 中国人民解放军军事科学院系统工程研究院 基于飞行器平台的地面目标检测方法和装置
CN117313791B (zh) * 2023-11-30 2024-03-22 青岛科技大学 基于GCL-Peephole的车联网智能无线感知算法
CN117523205B (zh) * 2024-01-03 2024-03-29 广州锟元方青医疗科技有限公司 少样本ki67多类别细胞核的分割识别方法
CN117809318B (zh) * 2024-03-01 2024-05-28 微山同在电子信息科技有限公司 基于机器视觉的甲骨文识别方法及其系统
CN117830788B (zh) * 2024-03-06 2024-05-10 潍坊科技学院 一种多源信息融合的图像目标检测方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110969052A (zh) * 2018-09-29 2020-04-07 杭州萤石软件有限公司 一种作业批改方法和设备
CN110147807A (zh) * 2019-01-04 2019-08-20 上海海事大学 一种船舶智能识别跟踪方法
CN109858414A (zh) * 2019-01-21 2019-06-07 南京邮电大学 一种发票分块检测方法
CN110399845A (zh) * 2019-07-29 2019-11-01 上海海事大学 一种图像中连续成段文本检测与识别方法
CN111046886B (zh) * 2019-12-12 2023-05-12 吉林大学 号码牌自动识别方法、装置、设备及计算机可读存储介质
CN111368828A (zh) * 2020-02-27 2020-07-03 大象慧云信息技术有限公司 一种多票据的识别方法及装置
CN111310861B (zh) * 2020-03-27 2023-05-23 西安电子科技大学 一种基于深度神经网络的车牌识别和定位方法
CN111310773B (zh) * 2020-03-27 2023-03-24 西安电子科技大学 一种高效的卷积神经网络的车牌定位方法
CN111553201B (zh) * 2020-04-08 2024-03-29 东南大学 一种基于YOLOv3优化算法的交通灯检测方法
CN111401371B (zh) * 2020-06-03 2020-09-08 中邮消费金融有限公司 一种文本检测识别方法、系统及计算机设备
CN111898699B (zh) * 2020-08-11 2024-05-10 海之韵(苏州)科技有限公司 一种船体目标自动检测识别方法
CN112101433B (zh) * 2020-09-04 2024-04-30 东南大学 一种基于YOLO V4和DeepSORT的分车道车辆自动计数方法
CN112528963A (zh) * 2021-01-09 2021-03-19 江苏拓邮信息智能技术研究院有限公司 基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题智能批阅系统

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022147965A1 (zh) * 2021-01-09 2022-07-14 江苏拓邮信息智能技术研究院有限公司 基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题批阅系统
CN113435441A (zh) * 2021-07-22 2021-09-24 广州华腾教育科技股份有限公司 基于Bi-LSTM机制的四则运算算式图像智能批改方法
CN113344145A (zh) * 2021-08-02 2021-09-03 智道网联科技(北京)有限公司 字符识别方法、装置、电子设备和存储介质
CN113469147A (zh) * 2021-09-02 2021-10-01 北京世纪好未来教育科技有限公司 答题卡识别方法、装置、电子设备以及存储介质
CN113469147B (zh) * 2021-09-02 2021-12-17 北京世纪好未来教育科技有限公司 答题卡识别方法、装置、电子设备以及存储介质
CN113901879A (zh) * 2021-09-13 2022-01-07 昆明理工大学 融合多尺度语义特征图的缅甸语图像文本识别方法及装置
CN113837157A (zh) * 2021-11-26 2021-12-24 北京世纪好未来教育科技有限公司 题目类型识别方法、系统和存储介质
CN114694133A (zh) * 2022-05-30 2022-07-01 南京华苏科技有限公司 一种基于图像处理与深度学习相结合的文本识别方法
CN115147642A (zh) * 2022-06-02 2022-10-04 盛视科技股份有限公司 基于视觉的渣土车检测方法、装置、计算机及存储介质
CN116128458A (zh) * 2023-04-12 2023-05-16 华中科技大学同济医学院附属同济医院 用于医院经费卡报账的智能自动审核系统
CN116128458B (zh) * 2023-04-12 2024-02-20 华中科技大学同济医学院附属同济医院 用于医院经费卡报账的智能自动审核系统

Also Published As

Publication number Publication date
WO2022147965A1 (zh) 2022-07-14
LU502472B1 (en) 2022-11-18

Similar Documents

Publication Publication Date Title
CN112528963A (zh) 基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题智能批阅系统
CN111401410B (zh) 一种基于改进级联神经网络的交通标志检测方法
CN111259897B (zh) 知识感知的文本识别方法和系统
CN107169485A (zh) 一种数学公式识别方法和装置
CN112597773B (zh) 文档结构化方法、系统、终端及介质
CN111881262A (zh) 基于多通道神经网络的文本情感分析方法
CN113378815B (zh) 一种场景文本定位识别的系统及其训练和识别的方法
CN110929746A (zh) 一种基于深度神经网络的电子卷宗标题定位提取与分类方法
CN113762269A (zh) 基于神经网络的中文字符ocr识别方法、系统、介质及应用
CN115034200A (zh) 图纸信息提取方法、装置、电子设备及存储介质
CN114330247A (zh) 一种基于图像识别的自动化保险条款解析方法
CN113312918A (zh) 融合部首向量的分词和胶囊网络法律命名实体识别方法
CN116258931B (zh) 基于ViT和滑窗注意力融合的视觉指代表达理解方法和系统
CN116704508A (zh) 信息处理方法及装置
Murali et al. Remote sensing image captioning via multilevel attention-based visual question answering
CN110929013A (zh) 一种基于bottom-up attention和定位信息融合的图片问答实现方法
CN116912872A (zh) 图纸识别方法、装置、设备及可读存储介质
CN115546815A (zh) 一种表格识别方法、装置、设备及存储介质
CN113111869B (zh) 提取文字图片及其描述的方法和系统
CN115410185A (zh) 一种多模态数据中特定人名及单位名属性的提取方法
CN114550197A (zh) 一种端子排图像检测信息匹配方法
CN114299510A (zh) 一种手写英文行识别系统
CN114154572A (zh) 一种基于异构平台的异构数据集中接入分析方法
CN112668628A (zh) 一种空调外机质量检测与可视化方法
CN112329389A (zh) 一种基于语义分割与禁忌搜索的汉字笔画自动提取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination