CN107886065A - 一种混合字体的数字序列识别方法 - Google Patents
一种混合字体的数字序列识别方法 Download PDFInfo
- Publication number
- CN107886065A CN107886065A CN201711079179.4A CN201711079179A CN107886065A CN 107886065 A CN107886065 A CN 107886065A CN 201711079179 A CN201711079179 A CN 201711079179A CN 107886065 A CN107886065 A CN 107886065A
- Authority
- CN
- China
- Prior art keywords
- serial
- target region
- candidate target
- recognition methods
- mixing script
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/24—Aligning, centring, orientation detection or correction of the image
- G06V10/243—Aligning, centring, orientation detection or correction of the image by compensating for image skew or non-uniform image deformations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/32—Digital ink
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Image Analysis (AREA)
Abstract
本发明为一种混合字体的数字序列识别方法,是在卷积神经网络应用的基础上,设计的一个网络结构,使用滑动窗口,建立同一个图像的不同分辨率的金字塔结构,使用NMS非极大值抑制去除重复的检测。待识别图像中包含印刷字体和手写字体的数字序列,用神经网络分类器进行数字检测,再进行数字识别,得到识别结果。步骤包括输入图像、得到候选目标区域、滑动窗口对候选目标区域进行特征提取、用机器学习的方法判断候选目标区域是否是目标、对候选目标区域进行定位校正。本发明能检测出混合字体的数字序列,识别准确率非常高,适用于所有的视觉系统,在人工智能的发展道路上有极大的意义。
Description
技术领域
本发明属于图像识别领域,具体涉及一种混合字体的数字序列识别方法。
背景技术
手写数字识别是光学字符识别技术的一个分支,是光学字符识别技术领域的重要研究方向,它要实现的功能是,如何利用电子计算机自动辨认人手写在纸张上的阿拉伯数字。手写数字识别在现实生活中有着广泛的应用。由于手写数字随意性大,研究的难度大,所以近年来对于手写数字的研究也是热门的话题。
混合字体的数字序列识别技术属于图像识别技术,目的是为了智能的识别混合数字尤其是人类手写的数字,能提高机器设备的智能性。尽管人们对手写数字的研究已从事了很长的时间,并已经取得了很多成果,但到目前为止,机器的识别本领还是无法与人的认知能力相比。如今,对于单个手写数字的识别,研究效果已经非常成熟,但是对于混合字体的数字序列的识别,在字符领域中,还是一项具有挑战性的课题,对于识别的准确度和速度都具有相当的难度。所以,一个可靠、精准、快速的数字识别系统具有重要的意义。
在人工智能领域的发展中,机器学习的地位可谓是举足轻重,它的发展历程大致经历了浅层学习和深度学习两个研究阶段,机器学习借助模型通过算法,使机器能够从海量的训练数据集中学习数据的统计规律,从而可以对新的未知的数据做识别,对未知的事件做预测。随着深度学习在近年的兴起,基于深度学习的各种研究成了新的突破口。针对数字的识别,使用传统方法,每次识别都需要进行特征提取,速度较慢,准确率还有提升的空间,并且识别的算法是固定不变的,适应性差。而利用深度学习的方法训练模型,特征提取的工作将由模型来完成,并且速度更快,准确率更高,模型是可以不断迭代更新、学习新的特征的,因此具有较强的适应能力。因此对于手写数字识别采取深度学习的方法具有很高的现实意义。
发明内容
针对目前现有技术中存在的不足,本发明旨在提供一种利用卷积神经网络训练神经网络分类器、对待识别图像进行数字检测的混合字体的数字序列识别方法。
本发明的目的是这样实现的:
本发明为一种混合字体的数字序列识别方法,包括待识别图像、图像采集装置、卷积神经网络、神经网络分类器、检测系统;其特征是:所述的检测系统使用滑动窗口,建立同一个图像的不同分辨率的金字塔结构,使用NMS非极大值抑制去除重复的检测;所述的方法分为以下几个步骤:
1利用卷积神经网络训练神经网络分类器;
2神经网络分类器对待识别图像进行数字检测。
所述的待识别图像为印刷字体和手写字体的混合字体数字序列。
所述的卷积神经网络使用LeNet5。
所述的图像采集装置使用PC机上的摄像头。
所述的步骤1具体为:
1.1定义一个网络结构,输入大小32×32,caffemodel大小约2.2M,测试集分类准确率97.2%;
1.2使用全卷积网络方法改造网络结构,使之只包含卷积层。
所述的步骤2具体为:
2.1输入待识别图像,得到候选目标区域:候选目标区域采用滑动窗口,建立同一幅图不同分辨率的图像金字塔;采用非极大值抑制方法去除重复的检测,非极大值抑制采用两个参数,分别为该候选区域的分数,和两个区域的重叠率;
2.2卷积神经网络对候选目标区域进行特征选取:用卷积的方法从原始像素中提取特征,使用反向传播算法修正卷积核参数;
2.3神经网络分类器判断这个区域是否是目标;
2.4对检测的候选目标区域进行定位校正。
本发明与现有技术相比,有益效果在于:
一种混合字体的数字序列识别方法能检测出混合字体的数字序列,识别准确率非常高,适用于所有的视觉系统。
附图说明
图1为本发明的检测系统的结构框图。
图2为本发明的大小为2×2步长为1的滑动窗口的移动过程。
图3为本发明的卷积计算举例。
图4为本发明的deploy文件中最后一层改造前和改造后的对比。
图5为本发明的deploy文件中倒数第三层改造前和改造后的对比。
具体实施方式
下面结合附图对本发明做更详细地描述:
一种混合字体的数字序列识别方法是在原卷积神经网络LeNet5应用的基础上,设计出一个网络结构,从而实现印刷字体和手写字体混合在一起的数字序列识别的目的。
利用深度卷积神经网络训练一个神经网络分类器,使神经网络分类器可以检测出数字。考虑到准确率以及时间花费,定义一个网络结构-滑窗网络,输入大小32×32,caffemodel大小约2.2M,测试集分类准确率97.2%,接近NIN_Cifar10网络的表现。
设计检测系统的最简单直接的方法就是滑动窗口。但是,假如待检测图片大小为640×480,当以16的步长去滑动32×32的窗口时,那么将产生39×29=1131个窗口,如果把这些窗口一个一个去送到神经网络中做分类,那么可想而知效率会有多低。为了加快这个滑窗检测的过程,改造出下面的一种“全卷积”网络的方法:
图3为卷积计算举例。卷积整个图像的过程和滑窗有点类似,从这个角度出发,去改造已有的网络使之只包含卷积层,从而使得网络可以接受任意尺寸大小的图片输入,并自动完成“滑窗”的过程。
以ImageNet为例,作出了具体改造,将全连接层改为卷积层。
在deploy文件中将最后2层重写为卷积核大小为1,卷积步长为1的卷积层。以最后一层的改造为例,如图4所示,左边是改造之前,右图是改造之后的结果。
如图5所示,倒数第3层fc6稍微有点不同,为了和上一个卷积层的输出个数256对齐,因此需要将9216拆解成6×6的卷积核(256×6×6=9216)。
实际使用的时候,需要修改deploy文件然后重新读取caffemodel。
在此基础上,又作如下的改动:只要出现卷积核的地方,卷积步长一定等于卷积核大小。对于整体结构,参考NIN的设计思想,多次使用卷积核为大小1的卷积层。
最终,将一张大小为451×451的图片输入到神经网络当中,得到一个8×8×2的输出。其中8=(451-224)/32+1。改造之后的网络相当于以滑动步长32的进行窗口大小为224×224的滑动。(其中滑动步长等于网络中所有卷积步长的乘积)。
目标的检测由四个部分组成,包括候选框选择、特征选取部分、机器学习部分、定位校正部分检测。检测系统基本的处理流程如图1:输入图像,得到候选目标区域,将候选目标区域送到卷积神经网络中进行特征提取、用机器学习的方法判断检测的候选目标区域是否是目标、对检测的候选目标区域进行定位校正。
本发明设计的检测系统的基本思想是使用滑动窗口实现检测,建立同一个图像的不同分辨率的金字塔结构应对多尺度问题,使用NMS非极大值抑制去除重复的检测。
候选区域采用滑动窗口,需要建立图像金字塔,会产生同一区域重叠检测框,需要采用非极大值抑制的策略进行候选框去重。在这个过程中,滑动窗口解决多尺度问题:由于训练时采用的窗口大小是固定的,为了与训练时的数据相匹配,需要通过缩小的手段,将其变成与训练时一致的窗口大小。即建立同一幅图不同分辨率的图像金字塔。由于建立图像金字塔解决多尺度问题时,会有很多相似位置重复的计算,故要采用非极大值抑制的方式优化检测效果。该方法采用两个参数,其中一个参数是该候选区域的分数,另一个参数是两个区域的重叠率。阈值的选择也比较重要,当两个目标比较相近的时候,较小的阈值会将两者合并为一个目标。
如图2所示,(a)(b)(c)(d)分别表示在图像大小为3×3,滑动窗口大小为2×2,跨度为1,滑动窗口依次走过的路径。
使用卷积神经网络做自动特征选取。特征直接从原始像素进行卷积得到,通过损失函数反向传播影响卷积层的卷积核参数,影响着原始图像的表征。用卷积的方法从原始像素中提取特征。这种特征提取的过程不再需要手动设计特征,只需设计好网络结构,使用反向传播算法修正卷积核参数,便可以自动的提取图像的特征。这是深度学习区别于浅层学习的地方。浅层学习不会影响到图像的表征。卷积神经网络,卷积层可通过卷积核来提取图像特征,根据loss的反向传播来动态的修正卷积核内的参数,该模型依靠带标签的样本来进行训练。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为发明的保护范围并不局限于这样的特别陈述和实施例。凡是根据上述描述做出各种可能的等同替换或改变,均被认为属于本发明的权利要求的保护范围。
Claims (6)
1.一种混合字体的数字序列识别方法,包括待识别图像、图像采集装置、卷积神经网络、神经网络分类器、检测系统;其特征是:所述的检测系统使用滑动窗口,建立同一个图像的不同分辨率的金字塔结构,使用NMS非极大值抑制去除重复的检测;所述的方法分为以下几个步骤:
(1)利用卷积神经网络训练神经网络分类器;
(2)神经网络分类器对待识别图像进行数字检测。
2.根据权利要求1所述的一种混合字体的数字序列识别方法,其特征在于:所述的待识别图像为印刷字体和手写字体的混合字体数字序列。
3.根据权利要求1所述的一种混合字体的数字序列识别方法,其特征在于:所述的卷积神经网络使用LeNet5。
4.根据权利要求1所述的一种混合字体的数字序列识别方法,其特征在于:所述的图像采集装置使用PC机上的摄像头。
5.根据权利要求1所述的一种混合字体的数字序列识别方法,其特征在于:所述的步骤(1)具体为:
(1.1)定义一个网络结构,输入大小32×32,caffe model大小约2.2M,测试集分类准确率97.2%;
(1.2)使用全卷积网络方法改造网络结构,使之只包含卷积层。
6.根据权利要求1所述的一种混合字体的数字序列识别方法,其特征在于:所述的步骤(2)具体为:
(2.1)输入待识别图像,得到候选目标区域:候选目标区域采用滑动窗口,建立同一幅图不同分辨率的图像金字塔;采用非极大值抑制方法去除重复的检测,非极大值抑制采用两个参数,分别为该候选区域的分数,和两个区域的重叠率;
(2.2)卷积神经网络对候选目标区域进行特征选取:用卷积的方法从原始像素中提取特征,使用反向传播算法修正卷积核参数;
(2.3)神经网络分类器判断候选目标区域是否是目标;
(2.4)对检测的候选目标区域进行定位校正。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711079179.4A CN107886065A (zh) | 2017-11-06 | 2017-11-06 | 一种混合字体的数字序列识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711079179.4A CN107886065A (zh) | 2017-11-06 | 2017-11-06 | 一种混合字体的数字序列识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107886065A true CN107886065A (zh) | 2018-04-06 |
Family
ID=61778967
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711079179.4A Pending CN107886065A (zh) | 2017-11-06 | 2017-11-06 | 一种混合字体的数字序列识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107886065A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109308475A (zh) * | 2018-07-26 | 2019-02-05 | 北京百悟科技有限公司 | 一种字体识别方法及装置 |
CN111582273A (zh) * | 2020-05-09 | 2020-08-25 | 中国工商银行股份有限公司 | 图像文本识别方法及装置 |
CN111626284A (zh) * | 2020-05-26 | 2020-09-04 | 广东小天才科技有限公司 | 一种手写字体去除的方法、装置、电子设备和存储介质 |
CN112308058A (zh) * | 2020-10-25 | 2021-02-02 | 北京信息科技大学 | 一种手写字符的识别方法 |
CN114782400A (zh) * | 2022-05-17 | 2022-07-22 | 东风本田发动机有限公司 | 金属物料渣点检测方法、装置、设备、介质和程序产品 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103942550A (zh) * | 2014-05-04 | 2014-07-23 | 厦门大学 | 一种基于稀疏编码特征的场景文本识别方法 |
CN105184292A (zh) * | 2015-08-26 | 2015-12-23 | 北京云江科技有限公司 | 自然场景图像中手写体数学公式结构分析与识别方法 |
CN105184312A (zh) * | 2015-08-24 | 2015-12-23 | 中国科学院自动化研究所 | 一种基于深度学习的文字检测方法及装置 |
CN106778902A (zh) * | 2017-01-03 | 2017-05-31 | 河北工业大学 | 基于深度卷积神经网络的奶牛个体识别方法 |
CN107133616A (zh) * | 2017-04-02 | 2017-09-05 | 南京汇川图像视觉技术有限公司 | 一种基于深度学习的无分割字符定位与识别方法 |
CN107316016A (zh) * | 2017-06-19 | 2017-11-03 | 桂林电子科技大学 | 一种基于Hadoop和监控视频流的车辆轨迹统计方法 |
US10650508B2 (en) * | 2014-12-03 | 2020-05-12 | Kla-Tencor Corporation | Automatic defect classification without sampling and feature selection |
-
2017
- 2017-11-06 CN CN201711079179.4A patent/CN107886065A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103942550A (zh) * | 2014-05-04 | 2014-07-23 | 厦门大学 | 一种基于稀疏编码特征的场景文本识别方法 |
US10650508B2 (en) * | 2014-12-03 | 2020-05-12 | Kla-Tencor Corporation | Automatic defect classification without sampling and feature selection |
CN105184312A (zh) * | 2015-08-24 | 2015-12-23 | 中国科学院自动化研究所 | 一种基于深度学习的文字检测方法及装置 |
CN105184292A (zh) * | 2015-08-26 | 2015-12-23 | 北京云江科技有限公司 | 自然场景图像中手写体数学公式结构分析与识别方法 |
CN106778902A (zh) * | 2017-01-03 | 2017-05-31 | 河北工业大学 | 基于深度卷积神经网络的奶牛个体识别方法 |
CN107133616A (zh) * | 2017-04-02 | 2017-09-05 | 南京汇川图像视觉技术有限公司 | 一种基于深度学习的无分割字符定位与识别方法 |
CN107316016A (zh) * | 2017-06-19 | 2017-11-03 | 桂林电子科技大学 | 一种基于Hadoop和监控视频流的车辆轨迹统计方法 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109308475A (zh) * | 2018-07-26 | 2019-02-05 | 北京百悟科技有限公司 | 一种字体识别方法及装置 |
CN111582273A (zh) * | 2020-05-09 | 2020-08-25 | 中国工商银行股份有限公司 | 图像文本识别方法及装置 |
CN111582273B (zh) * | 2020-05-09 | 2023-10-10 | 中国工商银行股份有限公司 | 图像文本识别方法及装置 |
CN111626284A (zh) * | 2020-05-26 | 2020-09-04 | 广东小天才科技有限公司 | 一种手写字体去除的方法、装置、电子设备和存储介质 |
CN111626284B (zh) * | 2020-05-26 | 2023-10-03 | 广东小天才科技有限公司 | 一种手写字体去除的方法、装置、电子设备和存储介质 |
CN112308058A (zh) * | 2020-10-25 | 2021-02-02 | 北京信息科技大学 | 一种手写字符的识别方法 |
CN112308058B (zh) * | 2020-10-25 | 2023-10-24 | 北京信息科技大学 | 一种手写字符的识别方法 |
CN114782400A (zh) * | 2022-05-17 | 2022-07-22 | 东风本田发动机有限公司 | 金属物料渣点检测方法、装置、设备、介质和程序产品 |
CN114782400B (zh) * | 2022-05-17 | 2023-06-20 | 东风本田发动机有限公司 | 金属物料渣点检测方法、装置、设备、介质和程序产品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109299274B (zh) | 一种基于全卷积神经网络的自然场景文本检测方法 | |
CN107886065A (zh) | 一种混合字体的数字序列识别方法 | |
Wang et al. | Road damage detection and classification with faster R-CNN | |
CN106845408B (zh) | 一种复杂环境下的街道垃圾识别方法 | |
CN109190752B (zh) | 基于深度学习的全局特征和局部特征的图像语义分割方法 | |
CN108876780B (zh) | 一种复杂背景下桥梁裂缝图像裂缝检测方法 | |
CN104809443B (zh) | 基于卷积神经网络的车牌检测方法及系统 | |
CN104050471B (zh) | 一种自然场景文字检测方法及系统 | |
CN109543606A (zh) | 一种加入注意力机制的人脸识别方法 | |
EP3261017A1 (en) | Image processing system to detect objects of interest | |
CN104299006A (zh) | 一种基于深度神经网络的车牌识别方法 | |
CN108492291B (zh) | 一种基于cnn分割的太阳能光伏硅片瑕疵检测系统及方法 | |
CN111862143B (zh) | 一种河堤坍塌自动监测方法 | |
CN103810503A (zh) | 一种基于深度学习的自然图像中显著区域的检测方法 | |
CN111445459A (zh) | 一种基于深度孪生网络的图像缺陷检测方法及系统 | |
CN106548169A (zh) | 基于深度神经网络的模糊文字增强方法及装置 | |
CN107220643A (zh) | 基于紧凑型神经网络的深度学习模型的交通标志识别系统 | |
CN111597932A (zh) | 基于卷积神经网络的道路裂缝图像识别方法、装置及系统 | |
CN107545571A (zh) | 一种图像检测方法及装置 | |
CN109426773A (zh) | 一种道路识别方法和装置 | |
CN108710893A (zh) | 一种基于特征融合的数字图像相机源模型分类方法 | |
CN114743102A (zh) | 一种面向家具板材的瑕疵检测方法、系统及装置 | |
Yusof et al. | Automated asphalt pavement crack detection and classification using deep convolution neural network | |
CN112417931A (zh) | 一种基于视觉显著性的水面物体检测和分类的方法 | |
CN107704797A (zh) | 基于安防视频中行人和车辆的实时检测方法和系统及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180406 |