CN107886065A - 一种混合字体的数字序列识别方法 - Google Patents

一种混合字体的数字序列识别方法 Download PDF

Info

Publication number
CN107886065A
CN107886065A CN201711079179.4A CN201711079179A CN107886065A CN 107886065 A CN107886065 A CN 107886065A CN 201711079179 A CN201711079179 A CN 201711079179A CN 107886065 A CN107886065 A CN 107886065A
Authority
CN
China
Prior art keywords
serial
target region
candidate target
recognition methods
mixing script
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711079179.4A
Other languages
English (en)
Inventor
马忠丽
李倩倩
佘静
李帅阳
何江达
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN201711079179.4A priority Critical patent/CN107886065A/zh
Publication of CN107886065A publication Critical patent/CN107886065A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/243Aligning, centring, orientation detection or correction of the image by compensating for image skew or non-uniform image deformations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/32Digital ink

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明为一种混合字体的数字序列识别方法,是在卷积神经网络应用的基础上,设计的一个网络结构,使用滑动窗口,建立同一个图像的不同分辨率的金字塔结构,使用NMS非极大值抑制去除重复的检测。待识别图像中包含印刷字体和手写字体的数字序列,用神经网络分类器进行数字检测,再进行数字识别,得到识别结果。步骤包括输入图像、得到候选目标区域、滑动窗口对候选目标区域进行特征提取、用机器学习的方法判断候选目标区域是否是目标、对候选目标区域进行定位校正。本发明能检测出混合字体的数字序列,识别准确率非常高,适用于所有的视觉系统,在人工智能的发展道路上有极大的意义。

Description

一种混合字体的数字序列识别方法
技术领域
本发明属于图像识别领域,具体涉及一种混合字体的数字序列识别方法。
背景技术
手写数字识别是光学字符识别技术的一个分支,是光学字符识别技术领域的重要研究方向,它要实现的功能是,如何利用电子计算机自动辨认人手写在纸张上的阿拉伯数字。手写数字识别在现实生活中有着广泛的应用。由于手写数字随意性大,研究的难度大,所以近年来对于手写数字的研究也是热门的话题。
混合字体的数字序列识别技术属于图像识别技术,目的是为了智能的识别混合数字尤其是人类手写的数字,能提高机器设备的智能性。尽管人们对手写数字的研究已从事了很长的时间,并已经取得了很多成果,但到目前为止,机器的识别本领还是无法与人的认知能力相比。如今,对于单个手写数字的识别,研究效果已经非常成熟,但是对于混合字体的数字序列的识别,在字符领域中,还是一项具有挑战性的课题,对于识别的准确度和速度都具有相当的难度。所以,一个可靠、精准、快速的数字识别系统具有重要的意义。
在人工智能领域的发展中,机器学习的地位可谓是举足轻重,它的发展历程大致经历了浅层学习和深度学习两个研究阶段,机器学习借助模型通过算法,使机器能够从海量的训练数据集中学习数据的统计规律,从而可以对新的未知的数据做识别,对未知的事件做预测。随着深度学习在近年的兴起,基于深度学习的各种研究成了新的突破口。针对数字的识别,使用传统方法,每次识别都需要进行特征提取,速度较慢,准确率还有提升的空间,并且识别的算法是固定不变的,适应性差。而利用深度学习的方法训练模型,特征提取的工作将由模型来完成,并且速度更快,准确率更高,模型是可以不断迭代更新、学习新的特征的,因此具有较强的适应能力。因此对于手写数字识别采取深度学习的方法具有很高的现实意义。
发明内容
针对目前现有技术中存在的不足,本发明旨在提供一种利用卷积神经网络训练神经网络分类器、对待识别图像进行数字检测的混合字体的数字序列识别方法。
本发明的目的是这样实现的:
本发明为一种混合字体的数字序列识别方法,包括待识别图像、图像采集装置、卷积神经网络、神经网络分类器、检测系统;其特征是:所述的检测系统使用滑动窗口,建立同一个图像的不同分辨率的金字塔结构,使用NMS非极大值抑制去除重复的检测;所述的方法分为以下几个步骤:
1利用卷积神经网络训练神经网络分类器;
2神经网络分类器对待识别图像进行数字检测。
所述的待识别图像为印刷字体和手写字体的混合字体数字序列。
所述的卷积神经网络使用LeNet5。
所述的图像采集装置使用PC机上的摄像头。
所述的步骤1具体为:
1.1定义一个网络结构,输入大小32×32,caffemodel大小约2.2M,测试集分类准确率97.2%;
1.2使用全卷积网络方法改造网络结构,使之只包含卷积层。
所述的步骤2具体为:
2.1输入待识别图像,得到候选目标区域:候选目标区域采用滑动窗口,建立同一幅图不同分辨率的图像金字塔;采用非极大值抑制方法去除重复的检测,非极大值抑制采用两个参数,分别为该候选区域的分数,和两个区域的重叠率;
2.2卷积神经网络对候选目标区域进行特征选取:用卷积的方法从原始像素中提取特征,使用反向传播算法修正卷积核参数;
2.3神经网络分类器判断这个区域是否是目标;
2.4对检测的候选目标区域进行定位校正。
本发明与现有技术相比,有益效果在于:
一种混合字体的数字序列识别方法能检测出混合字体的数字序列,识别准确率非常高,适用于所有的视觉系统。
附图说明
图1为本发明的检测系统的结构框图。
图2为本发明的大小为2×2步长为1的滑动窗口的移动过程。
图3为本发明的卷积计算举例。
图4为本发明的deploy文件中最后一层改造前和改造后的对比。
图5为本发明的deploy文件中倒数第三层改造前和改造后的对比。
具体实施方式
下面结合附图对本发明做更详细地描述:
一种混合字体的数字序列识别方法是在原卷积神经网络LeNet5应用的基础上,设计出一个网络结构,从而实现印刷字体和手写字体混合在一起的数字序列识别的目的。
利用深度卷积神经网络训练一个神经网络分类器,使神经网络分类器可以检测出数字。考虑到准确率以及时间花费,定义一个网络结构-滑窗网络,输入大小32×32,caffemodel大小约2.2M,测试集分类准确率97.2%,接近NIN_Cifar10网络的表现。
设计检测系统的最简单直接的方法就是滑动窗口。但是,假如待检测图片大小为640×480,当以16的步长去滑动32×32的窗口时,那么将产生39×29=1131个窗口,如果把这些窗口一个一个去送到神经网络中做分类,那么可想而知效率会有多低。为了加快这个滑窗检测的过程,改造出下面的一种“全卷积”网络的方法:
图3为卷积计算举例。卷积整个图像的过程和滑窗有点类似,从这个角度出发,去改造已有的网络使之只包含卷积层,从而使得网络可以接受任意尺寸大小的图片输入,并自动完成“滑窗”的过程。
以ImageNet为例,作出了具体改造,将全连接层改为卷积层。
在deploy文件中将最后2层重写为卷积核大小为1,卷积步长为1的卷积层。以最后一层的改造为例,如图4所示,左边是改造之前,右图是改造之后的结果。
如图5所示,倒数第3层fc6稍微有点不同,为了和上一个卷积层的输出个数256对齐,因此需要将9216拆解成6×6的卷积核(256×6×6=9216)。
实际使用的时候,需要修改deploy文件然后重新读取caffemodel。
在此基础上,又作如下的改动:只要出现卷积核的地方,卷积步长一定等于卷积核大小。对于整体结构,参考NIN的设计思想,多次使用卷积核为大小1的卷积层。
最终,将一张大小为451×451的图片输入到神经网络当中,得到一个8×8×2的输出。其中8=(451-224)/32+1。改造之后的网络相当于以滑动步长32的进行窗口大小为224×224的滑动。(其中滑动步长等于网络中所有卷积步长的乘积)。
目标的检测由四个部分组成,包括候选框选择、特征选取部分、机器学习部分、定位校正部分检测。检测系统基本的处理流程如图1:输入图像,得到候选目标区域,将候选目标区域送到卷积神经网络中进行特征提取、用机器学习的方法判断检测的候选目标区域是否是目标、对检测的候选目标区域进行定位校正。
本发明设计的检测系统的基本思想是使用滑动窗口实现检测,建立同一个图像的不同分辨率的金字塔结构应对多尺度问题,使用NMS非极大值抑制去除重复的检测。
候选区域采用滑动窗口,需要建立图像金字塔,会产生同一区域重叠检测框,需要采用非极大值抑制的策略进行候选框去重。在这个过程中,滑动窗口解决多尺度问题:由于训练时采用的窗口大小是固定的,为了与训练时的数据相匹配,需要通过缩小的手段,将其变成与训练时一致的窗口大小。即建立同一幅图不同分辨率的图像金字塔。由于建立图像金字塔解决多尺度问题时,会有很多相似位置重复的计算,故要采用非极大值抑制的方式优化检测效果。该方法采用两个参数,其中一个参数是该候选区域的分数,另一个参数是两个区域的重叠率。阈值的选择也比较重要,当两个目标比较相近的时候,较小的阈值会将两者合并为一个目标。
如图2所示,(a)(b)(c)(d)分别表示在图像大小为3×3,滑动窗口大小为2×2,跨度为1,滑动窗口依次走过的路径。
使用卷积神经网络做自动特征选取。特征直接从原始像素进行卷积得到,通过损失函数反向传播影响卷积层的卷积核参数,影响着原始图像的表征。用卷积的方法从原始像素中提取特征。这种特征提取的过程不再需要手动设计特征,只需设计好网络结构,使用反向传播算法修正卷积核参数,便可以自动的提取图像的特征。这是深度学习区别于浅层学习的地方。浅层学习不会影响到图像的表征。卷积神经网络,卷积层可通过卷积核来提取图像特征,根据loss的反向传播来动态的修正卷积核内的参数,该模型依靠带标签的样本来进行训练。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为发明的保护范围并不局限于这样的特别陈述和实施例。凡是根据上述描述做出各种可能的等同替换或改变,均被认为属于本发明的权利要求的保护范围。

Claims (6)

1.一种混合字体的数字序列识别方法,包括待识别图像、图像采集装置、卷积神经网络、神经网络分类器、检测系统;其特征是:所述的检测系统使用滑动窗口,建立同一个图像的不同分辨率的金字塔结构,使用NMS非极大值抑制去除重复的检测;所述的方法分为以下几个步骤:
(1)利用卷积神经网络训练神经网络分类器;
(2)神经网络分类器对待识别图像进行数字检测。
2.根据权利要求1所述的一种混合字体的数字序列识别方法,其特征在于:所述的待识别图像为印刷字体和手写字体的混合字体数字序列。
3.根据权利要求1所述的一种混合字体的数字序列识别方法,其特征在于:所述的卷积神经网络使用LeNet5。
4.根据权利要求1所述的一种混合字体的数字序列识别方法,其特征在于:所述的图像采集装置使用PC机上的摄像头。
5.根据权利要求1所述的一种混合字体的数字序列识别方法,其特征在于:所述的步骤(1)具体为:
(1.1)定义一个网络结构,输入大小32×32,caffe model大小约2.2M,测试集分类准确率97.2%;
(1.2)使用全卷积网络方法改造网络结构,使之只包含卷积层。
6.根据权利要求1所述的一种混合字体的数字序列识别方法,其特征在于:所述的步骤(2)具体为:
(2.1)输入待识别图像,得到候选目标区域:候选目标区域采用滑动窗口,建立同一幅图不同分辨率的图像金字塔;采用非极大值抑制方法去除重复的检测,非极大值抑制采用两个参数,分别为该候选区域的分数,和两个区域的重叠率;
(2.2)卷积神经网络对候选目标区域进行特征选取:用卷积的方法从原始像素中提取特征,使用反向传播算法修正卷积核参数;
(2.3)神经网络分类器判断候选目标区域是否是目标;
(2.4)对检测的候选目标区域进行定位校正。
CN201711079179.4A 2017-11-06 2017-11-06 一种混合字体的数字序列识别方法 Pending CN107886065A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711079179.4A CN107886065A (zh) 2017-11-06 2017-11-06 一种混合字体的数字序列识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711079179.4A CN107886065A (zh) 2017-11-06 2017-11-06 一种混合字体的数字序列识别方法

Publications (1)

Publication Number Publication Date
CN107886065A true CN107886065A (zh) 2018-04-06

Family

ID=61778967

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711079179.4A Pending CN107886065A (zh) 2017-11-06 2017-11-06 一种混合字体的数字序列识别方法

Country Status (1)

Country Link
CN (1) CN107886065A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109308475A (zh) * 2018-07-26 2019-02-05 北京百悟科技有限公司 一种字体识别方法及装置
CN111582273A (zh) * 2020-05-09 2020-08-25 中国工商银行股份有限公司 图像文本识别方法及装置
CN111626284A (zh) * 2020-05-26 2020-09-04 广东小天才科技有限公司 一种手写字体去除的方法、装置、电子设备和存储介质
CN112308058A (zh) * 2020-10-25 2021-02-02 北京信息科技大学 一种手写字符的识别方法
CN114782400A (zh) * 2022-05-17 2022-07-22 东风本田发动机有限公司 金属物料渣点检测方法、装置、设备、介质和程序产品

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103942550A (zh) * 2014-05-04 2014-07-23 厦门大学 一种基于稀疏编码特征的场景文本识别方法
CN105184292A (zh) * 2015-08-26 2015-12-23 北京云江科技有限公司 自然场景图像中手写体数学公式结构分析与识别方法
CN105184312A (zh) * 2015-08-24 2015-12-23 中国科学院自动化研究所 一种基于深度学习的文字检测方法及装置
CN106778902A (zh) * 2017-01-03 2017-05-31 河北工业大学 基于深度卷积神经网络的奶牛个体识别方法
CN107133616A (zh) * 2017-04-02 2017-09-05 南京汇川图像视觉技术有限公司 一种基于深度学习的无分割字符定位与识别方法
CN107316016A (zh) * 2017-06-19 2017-11-03 桂林电子科技大学 一种基于Hadoop和监控视频流的车辆轨迹统计方法
US10650508B2 (en) * 2014-12-03 2020-05-12 Kla-Tencor Corporation Automatic defect classification without sampling and feature selection

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103942550A (zh) * 2014-05-04 2014-07-23 厦门大学 一种基于稀疏编码特征的场景文本识别方法
US10650508B2 (en) * 2014-12-03 2020-05-12 Kla-Tencor Corporation Automatic defect classification without sampling and feature selection
CN105184312A (zh) * 2015-08-24 2015-12-23 中国科学院自动化研究所 一种基于深度学习的文字检测方法及装置
CN105184292A (zh) * 2015-08-26 2015-12-23 北京云江科技有限公司 自然场景图像中手写体数学公式结构分析与识别方法
CN106778902A (zh) * 2017-01-03 2017-05-31 河北工业大学 基于深度卷积神经网络的奶牛个体识别方法
CN107133616A (zh) * 2017-04-02 2017-09-05 南京汇川图像视觉技术有限公司 一种基于深度学习的无分割字符定位与识别方法
CN107316016A (zh) * 2017-06-19 2017-11-03 桂林电子科技大学 一种基于Hadoop和监控视频流的车辆轨迹统计方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109308475A (zh) * 2018-07-26 2019-02-05 北京百悟科技有限公司 一种字体识别方法及装置
CN111582273A (zh) * 2020-05-09 2020-08-25 中国工商银行股份有限公司 图像文本识别方法及装置
CN111582273B (zh) * 2020-05-09 2023-10-10 中国工商银行股份有限公司 图像文本识别方法及装置
CN111626284A (zh) * 2020-05-26 2020-09-04 广东小天才科技有限公司 一种手写字体去除的方法、装置、电子设备和存储介质
CN111626284B (zh) * 2020-05-26 2023-10-03 广东小天才科技有限公司 一种手写字体去除的方法、装置、电子设备和存储介质
CN112308058A (zh) * 2020-10-25 2021-02-02 北京信息科技大学 一种手写字符的识别方法
CN112308058B (zh) * 2020-10-25 2023-10-24 北京信息科技大学 一种手写字符的识别方法
CN114782400A (zh) * 2022-05-17 2022-07-22 东风本田发动机有限公司 金属物料渣点检测方法、装置、设备、介质和程序产品
CN114782400B (zh) * 2022-05-17 2023-06-20 东风本田发动机有限公司 金属物料渣点检测方法、装置、设备、介质和程序产品

Similar Documents

Publication Publication Date Title
CN109299274B (zh) 一种基于全卷积神经网络的自然场景文本检测方法
CN107886065A (zh) 一种混合字体的数字序列识别方法
Wang et al. Road damage detection and classification with faster R-CNN
CN106845408B (zh) 一种复杂环境下的街道垃圾识别方法
CN109190752B (zh) 基于深度学习的全局特征和局部特征的图像语义分割方法
CN108876780B (zh) 一种复杂背景下桥梁裂缝图像裂缝检测方法
CN104809443B (zh) 基于卷积神经网络的车牌检测方法及系统
CN104050471B (zh) 一种自然场景文字检测方法及系统
CN109543606A (zh) 一种加入注意力机制的人脸识别方法
EP3261017A1 (en) Image processing system to detect objects of interest
CN104299006A (zh) 一种基于深度神经网络的车牌识别方法
CN108492291B (zh) 一种基于cnn分割的太阳能光伏硅片瑕疵检测系统及方法
CN111862143B (zh) 一种河堤坍塌自动监测方法
CN103810503A (zh) 一种基于深度学习的自然图像中显著区域的检测方法
CN111445459A (zh) 一种基于深度孪生网络的图像缺陷检测方法及系统
CN106548169A (zh) 基于深度神经网络的模糊文字增强方法及装置
CN107220643A (zh) 基于紧凑型神经网络的深度学习模型的交通标志识别系统
CN111597932A (zh) 基于卷积神经网络的道路裂缝图像识别方法、装置及系统
CN107545571A (zh) 一种图像检测方法及装置
CN109426773A (zh) 一种道路识别方法和装置
CN108710893A (zh) 一种基于特征融合的数字图像相机源模型分类方法
CN114743102A (zh) 一种面向家具板材的瑕疵检测方法、系统及装置
Yusof et al. Automated asphalt pavement crack detection and classification using deep convolution neural network
CN112417931A (zh) 一种基于视觉显著性的水面物体检测和分类的方法
CN107704797A (zh) 基于安防视频中行人和车辆的实时检测方法和系统及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180406