CN106650721B - 一种基于卷积神经网络的工业字符识别方法 - Google Patents
一种基于卷积神经网络的工业字符识别方法 Download PDFInfo
- Publication number
- CN106650721B CN106650721B CN201611235492.8A CN201611235492A CN106650721B CN 106650721 B CN106650721 B CN 106650721B CN 201611235492 A CN201611235492 A CN 201611235492A CN 106650721 B CN106650721 B CN 106650721B
- Authority
- CN
- China
- Prior art keywords
- character
- training
- data set
- net
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 73
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 56
- 238000012549 training Methods 0.000 claims abstract description 100
- 238000012360 testing method Methods 0.000 claims abstract description 11
- 238000004519 manufacturing process Methods 0.000 claims abstract description 8
- 238000000605 extraction Methods 0.000 claims description 20
- 238000005070 sampling Methods 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 17
- 238000007781 pre-processing Methods 0.000 claims description 11
- 230000009466 transformation Effects 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 8
- 230000004927 fusion Effects 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 4
- 230000000877 morphologic effect Effects 0.000 claims description 3
- 239000013598 vector Substances 0.000 claims description 3
- 238000003709 image segmentation Methods 0.000 claims 1
- 230000011218 segmentation Effects 0.000 abstract description 5
- 238000013480 data collection Methods 0.000 abstract 3
- 230000002708 enhancing effect Effects 0.000 abstract 1
- 239000010410 layer Substances 0.000 description 43
- 230000006870 function Effects 0.000 description 26
- 230000000694 effects Effects 0.000 description 13
- 238000004422 calculation algorithm Methods 0.000 description 12
- 238000013528 artificial neural network Methods 0.000 description 11
- 238000009776 industrial production Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 239000002184 metal Substances 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 230000004913 activation Effects 0.000 description 5
- 238000011176 pooling Methods 0.000 description 5
- 238000013519 translation Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000005286 illumination Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000002441 reversible effect Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000011478 gradient descent method Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 239000002985 plastic film Substances 0.000 description 2
- 229920006255 plastic film Polymers 0.000 description 2
- 238000007639 printing Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 241001292396 Cirrhitidae Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 239000011229 interlayer Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000005507 spraying Methods 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000011179 visual inspection Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Character Discrimination (AREA)
Abstract
本发明提出了一种基于卷积神经网络的工业字符识别方法,包括建立字符数据集,对字符数据集进行数据增强及预处理,建立CNN集成模型,所述模型包含3个不同的个体分类器,然后,利用模型进行训练,训练分为两步完成,第一步为离线训练,获取离线训练模型,第二步为在线训练,将离线训练模型用作初始化,进行特定生产线字符数据集的训练,获取在线训练模型;以及对目标图形进行预处理、字符定位和单个字符图像分割;将分割好的字符图像送入已训练好的在线训练模型中,得到CNN集成模型中三个分类器将单个目标图像分类为每个类别的概率值;采用投票的方式进行最终决策,得到测试数据的类别结果。本发明能够对不同生产线上的字符进行快速、高效的识别。
Description
技术领域
本发明涉及图像识别技术领域,尤其涉及一种工业字符识别方法。
背景技术
现有的字符识别技术一般采用基于模版匹配或基于结构统计的算法。以字符图像灰度作为匹配信息,通过计算字符模板图像与目标图像子区域的灰度相关系数来度量匹配度;或利用字符本身的形态结构,如边缘、拐点、连通域等特征进行识别。还有一类是在建立字符图像的特征后,通过有监督的方式学习特征与目标类别之间的关系,建立从输入到预测输出的函数关系。
专利文献1(中国专利公开号CN101436249A)公开了一种获得字符粗分类及细分类匹配模版的方法,用于手写字符识别系统。专利文献2(中国专利公开号CN103049750A)公开了一种采用边缘特征建立字符匹配模版的方法。专利文献3(中国专利公开号CN104820827A)公开了一种通过二值化、预处理、区域粗提取和分割等各个操作获取字符的单独图像与设定的模版进行相似性度量的匹配算法,用于电线电缆表面的点状字符识别。专利文献4(中国专利公开号CN105761351A)公开了一种基于结构特征的字符识别方法。专利文献5(中国专利公开号CN104871180A)公开了一种使用相同文本的多个图像改善文本辨识的方法用于改善文字识别效果。专利文献6(中国专利公开号CN105608453A)公开了一种能够对包括不同种类字符的复式记录的票据进行高精度识别的字符识别系统及字符识别方法。专利文献7(中国专利公开号CN103902956A)公开了一种基于神经网络的车牌照字符识别方法,以字符图像在X轴和Y轴上的投影为基本,对其做Fourier变换得到的K个变换系数中选出有代表性的M个特征作为神经网络的输入,采用有监督的方式训练得到特征和输出类别间的关系。专利文献8(中国专利公开号CN101408933A)公开了一种基于粗网格特征提取和BP神经网络的车牌字符识别方法。专利文献9(中国专利公开号CN103927534A)公开了针对易拉罐底喷码字符的在线视觉检测方法,包括离线状态下对图像中的字符进行分割,并归类构建字符库,采用卷积神经网络算法进行训练,形成字符分类器,在在线检测时用同样的过程对输入图像进行识别。专利文献10(中国专利公开号CN104463209A)公开了一种识别PCB板上数字代码的方法,采用频域法得到增强了特征值的图像,归一化特征值输入BP神经网络完成训练和预测。专利文献11(中国专利公开号CN104331688 A)公开了一种雷管外壳点阵字符的识别方法,利用连通域对单个字符区域进行切分,将字符边界到区域边界的距离作为待识别的特征值,利用最小距离分类器和多级识别法获得最终的识别结果。专利文献12(中国专利公开号CN105678293A)、专利文献13(中国专利公开号CN105678292A)公开了一种基于卷积及递归神经网络的文字序列识别系统,采用CNN提取图像文字序列特征并输出到RNN中,依次实现汉字前、后部分、数字、字母、标点符号或者空白的识别。王有旺等提出了基于深度学习的字符识别算法,分别应用于手写体汉字识别和自然场景英文文字识别(王有旺,深度学习及其在手写汉字识别中的应用研究,华南理工大学,硕士学位论文,2014;廖威敏,面向自然场景的端对端英文文字识别研究,厦门大学,硕士学位论文,2014)。周凤香提出了一种基于字符混合特征的工业生产线标签识别系统,通过提取字符的孔洞特征、统计特征、结构特征和基于Gabor变换的纹理特征等构建字符的混合特征,设计三层分类器进行递进的识别分类(周凤香,工业生产线标签字符识别系统的设计与实现,电子科技大学,硕士学位论文,2013)。刘萌萌提出了一种基于神经网络的压印字符识别系统,其中研究了模版匹配定位算法和基于Ostu法的字符分割方法,然后结合BP神经网络和字符的结构特征构建了完整的字符识别方案(刘萌萌,基于神经网络的压印字符识别系统研究,天津大学,硕士学位论文,2013)。国外的机器视觉软件例如美国康耐视的VisionPro、日本Keyence、德国MVtec的Halcon等都具有字符识别算法,一方面这些方法都是基于传统的技术实现,另一方面我们需要开发具有自主知识产权的核心技术,随着“中国制造2025”计划的实施,亟需掌握高性能的机器视觉核心算法。
基于灰度相关的模板匹配算法以字符图像灰度信息直接进行相似度计算,如专利文献1和专利文献3中的方法,实现比较简单,整体计算量相对较小,识别速度较快,但对字符图像的预处理效果依赖较高,如光照不均匀划痕等影响造成的字符粘连、断裂等问题会使得到的字符图像噪声较大,影响到最终的识别效果;部分基于边缘或孔洞特征的方法处理速度慢,需要根据字符本身结构不同特点设计适用性不强,精度也不够高。专利文献7、专利文献8、专利文献10等利用字符图像中的结构或统计信息,采用人工设计特征并提取特征的方式对神经网络的输入进行构建,同样面临建立和筛选合适的特征的问题,技术的通用性较差,且专利文献8按照自主划分的粗网格提取字符点阵的像素级特征坑干扰能力较差,在训练神经网络时还需要划分汉字网络、字母网络、数字网络等不同的网络进行单独训练,计算量大幅增加。专利文献11公开的方法将字符边界到区域边界的距离作为识别特征值,识别精度较差,算法仅适用于其设定的雷管外壳点阵这种特定类型的字符。专利文献5公开的方法重点在于改善文本辨识质量,通过同一文本区域多个版本的图像按照属性限制值提供给OCR装置提升识别效果。专利文献12、专利文献13等方法研究重点在于解决文字序列的识别问题,滑动采样模块对待识别文本进行滑动采样,CNN模块进行特征提取,RNN模块进行序列识别,该方法主要针对序列采样可能产生的问题进行了分析,解决了序列识别问题,但没有对字符识别的准确性进行考虑。王有旺等提出的采用深度学习进行手写字符识别的方法虽然适用性较强,但其处理的手写字符问题都在干净的背景下进行,对于具有复杂背景的工业字符精度不高,且训练不够高效。本发明提出了采用卷积神经网络算法进行通用的工业字符识别,以及多种改善算法性能的方法和策略,使本发明的技术能够达到实际工业应用的要求。
发明内容
本发明的目的在于克服现有技术中的缺陷,提出了一种基于卷积神经网络的工业字符识别方法。
为达上述目的,本发明通过以下技术方案实现:
一种基于卷积神经网络的工业字符识别方法,包括以下步骤:
建立字符数据集,所述字符数据集包括混合场景字符数据集和单一场景字符数据集;
对所述字符数据集进行数据增强及预处理,其中,所述数据增强包括对字符图像进行一系列的变换和加干扰操作来进一步扩大数据集;
建立CNN集成模型的核心思想是训练具有准确性和多样性的个体学习器,其中,个体学习器采用卷积神经网络,所述CNN集成模型共包含三个CNN结构:Net-1、Net-2、Net-3,Net-1包含3个由卷积层和下采样层重复堆叠的特征提取阶段和2个全连接层,采用Softmax层作为特征分类器,采用了多级特征融合的方式,将每一个特征提取层或特定若干个特征提取层的输出进行融合,共同输入全连接层,这样得到的集成特征向量传入分类器作为最终的特征提取结果;Net-2也同样包含3个特征提取阶段,同样采用了多级特征融合,在Net-2中所有的卷积层都采用3×3的卷积核;Net-3的结构与Net-2较为相似,但没有将多级特征共同输入全链接层;
在建立了三个网络结构作为个体学习器后,对CNN集成模型进行训练,训练步骤如下:(1)从原始数据集中随机采样,产生三个随机样本空间,确保这些采样空间与所涉及的原始数据集有微小差异;(2)轮流训练三个网络模型;采用上一步得到的三个样本空间分别训练Net-1,Net-2,Net-3,这样就得到了三个有差异的分类器;(3)一轮训练结束,返回步骤(1)继续执行随机采样操作及训练操作,直到达到预设的迭代次数或三个结构的误差分别收敛到一定值,然后保存权重,得到三个个体分类器;
其中,训练分为两步完成,第一步为离线训练,获取离线训练模型,第二步为在线训练,将离线训练模型用作初始化,进行特定生产线字符数据集的训练,获取在线训练模型;以及
对目标图形进行预处理、字符定位和单个字符图像分割;
将分割好的字符图像送入已训练好的在线训练模型中,得到CNN集成模型中三个分类器将单个目标图像分类为每个类别的概率值;
采用投票的方式进行最终决策,得到测试数据的类别结果。
本发明的有益效果是:本发明提出了一种基于卷积神经网络的工业字符识别方法,集成多场景、多类型的工业字符识别技术,采用统一的网络模型对不同生产线上的字符进行快速、高效的识别。针对字符图像本身及背景中出现的运动模糊、照明不足、物理损伤、划痕等干扰都能实现快速、稳定、高精度的识别。本发明可以应用于需要通过机器视觉进行字符识别的场合:如识别小型电子元器件、电路板、各类零件表面的字符喷码和标签,通过喷码和标签来辨认追踪产品信息等等。
附图说明
图1是本发明的模型训练系统流程图;
图2是本发明的CNN集成模型分类器训练流程图;
图3是本发明的在线识别系统流程图;
图4是数据增强效果示意图;
图5是Net-1,Net-2,Net-3的CNN结构模型示意图;
图6是类别决策流程示意图;
图7(a)是金属表面刻印字符示意图;
图7(b)是金属表面刻印字符带明暗变化示意图;
图7(c)是LCD屏表面液晶字符示意图;
图7(d)是橡胶表面压印字符示意图;
图7(e)是塑料膜表面不连续的点印字符示意图;
图7(f)是金属表面凸起字符示意图;
图7(g)是电缆表面字符示意图;
图7(h)是易拉罐底点印字符示意图。
具体实施方案
下面通过具体实施方式结合附图对本发明作进一步详细说明。
相比于自然场景下的字符,工业生产线的场景更加复杂,例如存在低对比度的背景,较强的光照变化,失焦问题的影响,运动模糊,工件表面的物理损伤,划痕等问题。特别是在某些金属类零件的表面经常会出现光照不均匀导致明暗变化掩盖了字符轮廓的情况。本发明的CNN集成模型能够采用统一的网络对不同类型的字符进行识别。用混合场景字符数据集对CNN集成模型进行了训练,得到了一个适用于多种场景的识别器,同时也显示了CNN集成模型具有较高的识别精度和对不同复杂背景下的工业场景字符图像识别的稳定性。
工业场景字符数据集
本发明的字符数据集主要由可共享的自然场景字符集和从工业生产线图片截取的字符两部分建立,自然场景字符集的主要来源为ICDAR2003数据集,另外一部分工业生产线数据集的采集,除了从工业生产线直接获取的字符图像外,还需采用工业相机拍摄字符图像来模拟真实的工业生产场景,从而建立字符数据集。数据集对于深度神经网络是非常重要的一个组成部分,本发明建立了两种数据集:混合场景字符数据集①和单一场景字符数据集②。混合场景字符数据集包含从ICDAR-2003集合中获取的数据和自主拍摄的多种工业字符数据集,数据集分为两部分:训练子集(包含18120张字符图像)和测试子集(包含1768张字符图像),这些字符图像有不同的字体、颜色并呈现不用的变形程度。单一场景字符数据集指从单一生产线图像中获得的一系列的字符图像,它们有相似的外观和背景条件。每个单一场景字符数据集也分为训练子集和测试子集两部分。在在线识别过程中,仅采用某一目标类型的字符数据完成训练以满足特定生产线的识别要求。
数据增强及预处理
由于人工收集拍摄的数据量有限,需要对字符图像进行一系列的变化操作来进一步扩大数据集,也称为数据增强。数据增强操作同时还有利于提高学习算法的泛化能力。步骤③和步骤④的采用的数据增强操作:首先,利用灰度反相变换处理字符图像,将数据扩大为原来的2倍;然后进行旋转变换,左右各旋转3°,将数据继续扩大为原来的6倍;然后再进行平移变换,上下左右分别平移1个像素,至此已将数据扩大为原来的24倍;最后,采用随机添加高斯模糊、高斯噪声和模拟工业划痕的方法进一步扩大数据集。灰度反相、旋转、平移变换均为简单的像素级处理方法,为基础变换,即流程中的步骤⑤,其中旋转和平移变换不改变字符结构,缺失边缘以原图像对应位置像素值填充;添加模糊、噪声和模拟划痕为字符图像添加了干扰,即流程中的步骤⑥。处理后的字符图像如附图4所示,添加的变化从左到右分别为原图、反相、旋转、平移、模糊、噪声和划痕。
步骤⑦和步骤⑧为数据预处理操作,主要包含两步,第一步,将全部图像归一化为32×32的灰度图像;第二步,计算得到训练集中所有图像的均值,并对训练集中的所有图像进行按位置减去对应像素位置的均值的处理,计算公式如下:
其中,I为字符灰度图像,n为训练集全部图像数量。进行减去图像均值的处理可以使字符图像间的灰度差异更小,对白底黑字和黑底白字间的对比度过度更平缓。
CNN集成模型结构及训练方法
步骤⑨和所采用的CNN集成模型训练流程由附图2给出,附图2中步骤的目标数据集对应步骤①,步骤②的混合场景字符数据集和单一场景字符数据集。本发明提出的CNN集成模型的核心思想是训练具有准确性和多样性的个体学习器,其中个体学习器采用卷积神经网络,准确性通过网络结构改进加强实现,多样性通过和集成学习方法相结合实现。
个体学习器的卷积神经网络分为前向传播和反向传播两个阶段。CNN的前向传播过程首先将预处理后的二维字符图像放入输入层,通过卷积核对输入层进行卷积运算,增加偏置,这部分计算过程可以表示为:
xl=f(wlxl-1+bl) (2)
其中,l为当前层(卷积层),l层神经元的输入为l-1层(输入层)的输出xl-1,对应的连接权值为wl,偏置为bl,这里以Sigmoid函数作为卷积神经网络的激活函数为例进行说明,Sigmoid函数表示为f(x)=(1+exp(-x))-1。得到卷积层的特征图后,对每个特征图进行下采样,即分别对每个特征图中2×2的领域采用最大池化或者平均池化等方法进行处理(此处选择最大池化表示),这部分计算过程可表示为:
xl=f(βlg(xl-1)+bl) (3)
其中,g(x)在此处选择最大池化,最大池化函数表示为g(x)=max(x)。
CNN中的卷积核,也就是连接层与层之间的权值矩阵,是通过反向传播算法训练得到的。针对本发明62类分类问题的卷积神经网络模型,使用平方误差代价函数来衡量误差,设N为训练样本个数,则误差EN为:
其中,代表第n个样本的目标输出的第k维,代表第n个样本对应的实际输出的第k维。全部训练样本的误差即为每个训练样本误差累加和,这里先只考虑只有一个样本的情况,则第n个样本的误差可以表示为:
通过调整层间连接的权值,使误差最小化,更新权值的过程一般采用梯度下降法。通过公式(6)不断沿着梯度反方向迭代更新,使误差逐渐下降,同时使卷积神经网络模型逐渐逼近目标函数。
式中,学习率η的取值一般随迭代次数而减小,为误差函数关于权值的偏导数,这种误差可以逐层传递。公式(2)计算过程也可表述为xl=f(ul),ul=wlxl-1+bl,则未知项可通过如下计算推导得到:
又有称δ为基的灵敏度,用于代表反向传播回来的误差,因为所以可得:
将式(8)代入公式(6),可求得了权值更新的迭代公式。
通过以上的公式推导,对CNN前向传播和反向传播的权值更新有了较为清晰的了解。在得到最终的类别前,需要训练一个分类器用于将字符特征分类为最终的类别标签。由于在本发明中要进行62类分类,而Softmax分类器由传统的Logistic Regression分类器扩展而来,区别于Logistic Regression分类器仅能做二分类,Softmax分类器能够完成多分类,并得到分类为每个类别的概率值,所以这里采用Softmax分类器进行多分类。CNN集成模型的每个网络结构中都采用Softmax层作为特征分类器。Softmax函数的系统方程为:
其中,x(i)代表输入的样本,y(i)代表样本x(i)对应的类别,共62类因此i=1...62,θ为函数参数。求解出方程中的参数,由Softmax的系统方程就可以求得每个样本分类到每一类的概率值,表示为p(y=k|x;θ),即函数输出为最终所求概率。参数θ求解可以通过梯度下降法,首先需要求出损失函数的偏导函数,进而通过参数迭代更新求解。Softmax损失函数方程下所示:
其中,1{}是指示性函数,表示当大括号中的值为真时,函数结果为1,否则结果为0。进而求出损失函数的偏导数为:
可以通过权值更新进行参数的求解,如式(12)所示:
其中,表示损失函数对第j个类别的第l个参数的偏导数。
网络模型中每个卷积层后采用ReLU函数作为激活函数,用于增加网络模型的非线性,ReLU函数表示为f(x)=max(0,x),其相比于一般的Sigmoid函数,ReLU函数作为激活函数收敛速度更快,且其只需要一个阈值就可以得到激活值,不用去进行过多复杂的运算。
CNN集成模型共包含三个CNN结构:Net-1、Net-2、Net-3,具体实现细节如图5所示。
Net-1对应图5中的第一个CNN结构。Net-1包含3个由卷积层和下采样层重复堆叠的特征提取阶段和2个全连接层,采用Softmax层作为特征分类器。传统的卷积神经网络通常是严格按照前向传播的过程组织构建的,也就是说每一层的输入仅接受它上一层的输出值,这种特征提取的方式是相对比较简单的。而本发明采用了多级特征融合的方式,将每一个特征提取层或特定若干个特征提取层的输出进行融合,共同输入全连接层,这样得到的集成特征向量传入分类器作为最终的特征提取结果。如图5所示,在Net-1中提取conv1层特征输入一个由两个卷积层构成的简单线性结构,选择卷积层作为降低特征图分辨率的方式,并且忽略每层之间的激活函数处理。由于Max-pooling函数仅传递当前层的最强响应,使用卷积层代替下采样层这一操作可以避免信息的丢失,同时提取和保留局部图像更多的细节。另外,卷积层的应用同样可以达到降低分辨率的作用,改变特征图的尺寸以使所提取的conv1的特征图与conv3的特征图都具有相同的大小。多级特征相比单个特征能够为分类器提供更为丰富的特征表达,和不同尺度的感受野大小,对工业字符的识别效果有很好的提升。
Net-2也同样包含3个特征提取阶段,同样采用了多级特征融合,如图5中给出了具体的结构细节。在Net-2中所有的卷积层都采用3×3的卷积核,这是能够捕捉图像左右、上下、中心信息的最小的感受野大小。另外卷积层步长设置为1个像素值,padding操作(特征图的周围补零操作)参数设置为1个像素值,用于保持卷积后图像的空间分辨率。
Net-3的结构与Net-2较为相似,但没有将多级特征共同输入全链接层。考虑到Net-3有一个更深的网络结构,它可以提取更高层次特征并建立更为复杂的特征表达,若进行多级特征融合训练时的时间开销将更大。通过增加更多的卷积层加深了Net-3的网络结构,具体实现如图5中第三个结构所示。
在建立了三个网络结构作为个体学习器后,将采用图2所示的训练流程对CNN(Convolution Neural Network)集成模型进行训练,步骤所述的数据集为网络的输入,步骤至步骤为具体的网络训练过程。首先,按照步骤所述的有放回抽样生成步骤中的三个有微小差异的样本空间。给定一个包含m个样本的基础数据集D,对其进行采样产生数据集D':每次随机从D中挑选一个样本,将其拷贝放入D',然后再将该样本放回初始数据集D中,使得该样本在下次采样时仍有可能被采到;这个过程重复执行m次后,就得到了包含m个样本的数据集D'。这样生成样本空间的方式对于后续的训练有很大好处,既解决了样本空间的多样性,又保证了样本空间的差异性。
用同样的方式抽取三个有差异的采样空间后,将其作为上述构建的网络的数据输入,基于每个采样空间分别训练一个分类器,最后结合多个学习器得到一个相对于单一网络模型更为准确的结果,即步骤和步骤设置在训练集上的迭代次数为30000次,参数Batch-size设置为64,学习率设置为0.001,decay设置为0.0005。CNN集成模型的训练步骤如下:
(1)采用上述方式从原始数据集中随机采样,产生三个随机样本空间,确保这些采样空间与所涉及的原始数据集有微小差异。
(2)轮流训练三个网络模型。采用上一步得到的三个样本空间分别训练Net-1,Net-2,Net-3。这样就得到了三个有差异的分类器。
(3)一轮训练结束,返回步骤(1)继续执行随机采样操作及训练操作,直到达到预设的迭代次数或三个结构的误差分别收敛到一定值。然后保存权重,得到三个个体分类器。
CNN集成模型通过降低个体分类器的方差来提升分类器的泛化能力。由于神经网络并不是一种稳定的学习算法,而模型依赖于个体分类器的稳定性,通过上述方式建立的CNN集成模型,即步骤有助于减少训练数据中随机误差的干扰。
离线训练与在线训练相结合
传统的CNN训练方式是采用随机初始化网络权值,输入训练数据进行权值的迭代更新。这样的训练方式未加入任何先验信息,在实际工业生产线的应用中,每次都需要在随机值的基础上更新网络模型参数,迭代次数要求较高耗时较长。针对这一问题,本发明提出了一种训练方式的改进方法,分为两步完成,第一步为离线训练,获取离线训练模型,即步骤⑩,第二步为在线训练,将离线训练模型用作初始化,进行特定生产线字符数据集的训练,获取在线训练模型,即步骤具体的训练流程如图2所示。采用在线训练、离线训练相结合的方式,通过引入一个更大更丰富的数据集缩短特定生产线上特定数据集的收敛时间,减少迭代次数。
在线识别流程
步骤至步骤为工业生产线在线识别流程,通过上述的离线训练与在线训练相结合的方式训练CNN集成模型,得到在线训练模型用于后续工业生产线上的字符识别工作,即步骤至下面主要介绍在已获得分类器后,针对工业生产线拍摄的实际字符图像进行识别的各个步骤的具体实现。
步骤的目标图像预处理工作主要目的是对图像上的字符进行定位,由于所采用的CNN集成模型的个体分类器为卷积神经网络,在特征提取方面具有旋转、平移、尺度不变性,对不精确的定位分割有一定的容错能力,抗干扰能力较强,因此本发明在前期的定位分割部分采用传统的图像处理方法进行实现:
(1)实时获取工业零件表面的字符图像,调整好相机镜头光圈、焦距等机械参数,在工业零件或工业产品上方安放光源,拍摄图片,实时获取待检测产品表面图像。
(2)对于获取的图像首先采用直方图均衡化进行对比度和灰度色调的调整,使图像更加清晰;然后利用Ostu二值化和形态学处理等操作凸显字符区域,进行字符定位。
(3)将上述二值化后的字符区域按照竖直方向投影分割成单个字符。
(4)将分割好的字符归一化为32×32大小的字符图像,送入已训练好的CNN集成模型(在线训练模型)中,得到CNN集成模型中三个分类器将单个目标图像分类为每个类别的概率值。
下面将说明进行最终类别决策的方式,即步骤假设训练得到的分类器为Ti(x),i=1,2,...,n,通过输入数据x(指输入的字符图像)即可得到对应的类别标签。对于个体分类器Ti(x)假设输入x通过由随机样本空间训练得到的分类器,能够获得输入对应的最可能类别的概率值Pi(x),那么R(x)就是输入x对应的最终类别标签:
其中MajorityVote{}表示“多少投票”,其对应的具体测试过程如附图6所示,得到各个分类器对每一类的概率值后,采用投票的方式进行最终决策,即步骤,得到测试数据的类别结果。至此,完成了从训练到最终决策的整个过程。
结合下面的具体字符图像上的识别结果进一步阐述本发明的效果。附图7(a)展示了在不同背景条件下金属表面刻印字符的识别效果,分别有深色背景、浅色背景两种;附图7(b)给出了金属表面有明暗对比变化的字符图像识别效果;附图7(c)为LCD屏上显示的液晶字符;附图7(d)为橡胶制品表面压印的浮凸字符;附图7(e)展示了塑料膜表面不连续的点印字符;附图7(f)显示了另一种金属表面凸起字符识别效果;附图7(g)为电缆表面字符;附图7(h)为易拉罐底点印字符识别效果。(注意:上述实验中的不同材质表面的不同字符识别都采用同一网络模型和参数。)
训练测试时间是进行在线工业字符识别的另一个重要因素,然而高识别率通常意味着更长的训练时间。本发明中引入一个更大的混合场景字符数据集,对单一特定场景下使用的网络模型进行预训练即离线训练,初始化网络模型权值,以加快网络的训练误差收敛速度,从而缩短训练时间。表1中列出了CNN集成模型中各个基学习器在单一场景字符数据集上的训练的时间以及整体测试时间。所有的实验的硬件条件为GTX970。在不同数据集上的识别准确率统计如表2所示。
表1训练及测试时间
类别 | 测试识别准确率 |
Net-1训练时间(分) | 26.25 |
Net-2训练时间(分) | 26.00 |
Net-3训练时间(分) | 20.12 |
平均测试时间(毫秒) | 5.78 |
识别准确率 | 99.07% |
表2不同数据集识别准确率
数据集 | Net-1 | Net-2 | Net-3 | CNN集成模型 |
MD | 91.06% | 90.29% | 91.23% | 93.46% |
SD-1 | 97.18% | 98.12% | 97.20% | 99.07% |
SD-2 | 97.71% | 98.12% | 98.00% | 98.72% |
SD-3 | 94.51% | 93.59% | 93.60% | 96.33% |
本发明公开了一种在工业环境中字符识别方法,其特点在于采用同一个网络实现了在多材质表面、多种不同类型字符的稳定高效识别,具有如下的特点:
1.稳定可靠——由于选取的个体分类器在提取特征阶段具有很好的抗干扰性,且采用了多种数据增强的方法对训练数据进行变换,使模型在训练过程中见过更多有差异的数据,因此本发明公开的方法具有良好的鲁棒性。
2.训练速度快——采用了离线训练和在线训练相结合的叠加训练方式,加快了误差的收敛速度,从而提高了在线训练测试的速度。
3.高精度——通过训练多个个体学习器进行共同决策,避免了单一模型的不稳定性,同时增强了网络决策的置信度,提高了识别准确率。引入了一个更大的数据集为基础,不仅提升了在线识别的效果,而且提升了网络模型的泛化能力。最终得到了在多种混合场景工业字符数据集上93%以上和单一场景工业字符数据集上99%以上的准确率。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (5)
1.一种基于卷积神经网络的工业字符识别方法,其特征在于:所述方法包括:
建立字符数据集,所述字符数据集包括混合场景字符数据集和单一场景字符数据集;
对所述字符数据集进行数据增强及预处理,其中,所述数据增强包括对字符图像进行一系列的变换和加干扰操作来进一步扩大数据集;
建立CNN集成模型的核心思想是训练具有准确性和多样性的个体学习器,其中,个体学习器采用卷积神经网络,所述CNN集成模型共包含三个CNN结构:Net-1、Net-2、Net-3,Net-1包含3个由卷积层和下采样层重复堆叠的特征提取阶段和2个全连接层,采用Softmax层作为特征分类器,采用了多级特征融合的方式,将每一个特征提取层或特定若干个特征提取层的输出进行融合,共同输入全连接层,这样得到的集成特征向量传入分类器作为最终的特征提取结果;Net-2也同样包含3个特征提取阶段,同样采用了多级特征融合,在Net-2中所有的卷积层都采用3×3的卷积核;Net-3的结构与Net-2较为相似,但没有将多级特征共同输入全链接层;
在建立了三个网络结构作为个体学习器后,对CNN集成模型进行训练,训练步骤如下:(1)从原始数据集中随机采样,产生三个随机样本空间,确保这些采样空间与所涉及的原始数据集有微小差异;(2)轮流训练三个网络模型;采用上一步得到的三个样本空间分别训练Net-1,Net-2,Net-3,这样就得到了三个有差异的分类器;(3)一轮训练结束,返回步骤(1)继续执行随机采样操作及训练操作,直到达到预设的迭代次数或三个结构的误差分别收敛到一定值,然后保存权重,得到三个个体分类器;
其中,训练分为两步完成,第一步为离线训练,获取离线训练模型,第二步为在线训练,将离线训练模型用作初始化,进行特定生产线字符数据集的训练,获取在线训练模型;以及
对目标图形进行预处理、字符定位和单个字符图像分割;
将分割好的字符图像送入已训练好的在线训练模型中,得到CNN集成模型中三个分类器将单个目标图像分类为每个类别的概率值;
采用投票的方式进行最终决策,得到测试数据的类别结果。
2.根据权利要求1所述的方法,其特征在于:所述数据预处理具体为:第一步,将全部图像归一化为32X32的灰度图像;第二步,计算得到训练集中所有图像的均值,并对训练集中的所有图像进行按位置减去对应像素位置的均值的处理,计算公式如下:
其中,I为字符灰度图像,n为训练集全部图像数量。
3.根据权利要求1所述的方法,其特征在于:对目标图形进行预处理、字符定位和单个字符图像分割具体为:
(1)实时获取工业零件表面的字符图像,调整好相机镜头光圈、焦距,在工业零件上方安放光源,拍摄图片,实时获取待检测产品表面图像;
(2)对于获取的图像首先采用直方图均衡化进行对比度和灰度色调的调整,使图像更加清晰;然后利用Ostu二值化和形态学处理操作凸显字符区域,进行字符定位;
(3)将上述二值化后的字符区域按照竖直方向投影分割成单个字符。
4.根据权利要求1所述的方法,其特征在于:从原始数据集中随机采样,产生三个随机样本空间具体为:给定一个包含m个样本的基础数据集D,对其进行采样产生数据集D':每次随机从D中挑选一个样本,将其拷贝放入D',然后再将该样本放回初始数据集D中,使得该样本在下次采样时仍有可能被采到;这个过程重复执行m次后,就得到了包含m个样本的数据集D'。
5.根据权利要求1所述的方法,其特征在于:将分割好的字符图像送入已训练好的在线训练模型中,得到CNN集成模型中三个分类器将单个目标图像分类为每个类别的概率值具体为:假设训练得到的分类器为Ti(x),i=1,2,...,n,通过输入字符图像数据x即可得到对应的类别标签;对于个体分类器Ti(x)假设输入x通过由随机样本空间训练得到的分类器,能够获得输入对应的最可能类别的概率值Pi(x),那么R(x)就是输入x对应的最终类别标签:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611235492.8A CN106650721B (zh) | 2016-12-28 | 2016-12-28 | 一种基于卷积神经网络的工业字符识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611235492.8A CN106650721B (zh) | 2016-12-28 | 2016-12-28 | 一种基于卷积神经网络的工业字符识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106650721A CN106650721A (zh) | 2017-05-10 |
CN106650721B true CN106650721B (zh) | 2019-08-13 |
Family
ID=58832974
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611235492.8A Active CN106650721B (zh) | 2016-12-28 | 2016-12-28 | 一种基于卷积神经网络的工业字符识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106650721B (zh) |
Families Citing this family (81)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108229271B (zh) * | 2017-01-23 | 2020-10-13 | 北京市商汤科技开发有限公司 | 解译遥感图像的方法、装置和电子设备 |
CN107229968B (zh) * | 2017-05-24 | 2021-06-29 | 北京小米移动软件有限公司 | 梯度参数确定方法、装置及计算机可读存储介质 |
CN107292875A (zh) * | 2017-06-29 | 2017-10-24 | 西安建筑科技大学 | 一种基于全局‑局部特征融合的显著性检测方法 |
CN107437248B (zh) * | 2017-08-04 | 2018-04-10 | 胡侠 | 一种智能现场检测纺织产品质量的方法 |
CN107563386A (zh) * | 2017-09-04 | 2018-01-09 | 广州视源电子科技股份有限公司 | 元器件验证方法、装置、设备与计算机可读存储介质 |
CN107610111B (zh) * | 2017-09-12 | 2019-12-10 | 武汉大学 | 一种基于深度学习的焊点图像检测方法 |
CN109726808B (zh) * | 2017-10-27 | 2022-12-09 | 腾讯科技(深圳)有限公司 | 神经网络训练方法和装置、存储介质及电子装置 |
US10535138B2 (en) * | 2017-11-21 | 2020-01-14 | Zoox, Inc. | Sensor data segmentation |
CN107798356A (zh) * | 2017-11-24 | 2018-03-13 | 郑州大学西亚斯国际学院 | 基于深度卷积神经网络的作物叶片病害识别方法 |
CN107679528A (zh) * | 2017-11-24 | 2018-02-09 | 广西师范大学 | 一种基于AdaBoost‑SVM集成学习算法的行人检测方法 |
CN109871843B (zh) * | 2017-12-01 | 2022-04-08 | 北京搜狗科技发展有限公司 | 字符识别方法和装置、用于字符识别的装置 |
CN109961296A (zh) * | 2017-12-25 | 2019-07-02 | 腾讯科技(深圳)有限公司 | 商户类型识别方法及装置 |
CN109002752A (zh) * | 2018-01-08 | 2018-12-14 | 北京图示科技发展有限公司 | 一种基于深度学习的复杂公共场景快速行人检测方法 |
CN108256493A (zh) * | 2018-01-26 | 2018-07-06 | 中国电子科技集团公司第三十八研究所 | 一种基于车载视频的交通场景文字识别系统及识别方法 |
CN108229463A (zh) * | 2018-02-07 | 2018-06-29 | 众安信息技术服务有限公司 | 基于图像的文字识别方法 |
CN108460772B (zh) * | 2018-02-13 | 2022-05-17 | 国家计算机网络与信息安全管理中心 | 基于卷积神经网络的广告骚扰传真图像检测系统及方法 |
CN108537115B (zh) * | 2018-03-02 | 2022-01-25 | 创新先进技术有限公司 | 图像识别方法、装置及电子设备 |
CN108595497B (zh) * | 2018-03-16 | 2019-09-27 | 北京达佳互联信息技术有限公司 | 数据筛选方法、装置及终端 |
CN108345911B (zh) * | 2018-04-16 | 2021-06-29 | 东北大学 | 基于卷积神经网络多级特征的钢板表面缺陷检测方法 |
CN108615002A (zh) * | 2018-04-22 | 2018-10-02 | 广州麦仑信息科技有限公司 | 一种基于卷积神经网络的手掌静脉认证方法 |
CN108875746B (zh) * | 2018-05-17 | 2023-02-17 | 北京旷视科技有限公司 | 一种车牌识别方法、装置、系统及存储介质 |
CN108982508B (zh) * | 2018-05-23 | 2020-11-24 | 江苏农林职业技术学院 | 一种基于特征模板匹配和深度学习的塑封体ic芯片缺陷检测方法 |
CN108898059A (zh) * | 2018-05-30 | 2018-11-27 | 上海应用技术大学 | 花卉识别方法及其设备 |
CN108818537B (zh) * | 2018-07-13 | 2023-04-14 | 南京工程学院 | 一种基于云端深度学习的机器人工业分拣方法 |
CN109190695B (zh) * | 2018-08-28 | 2021-08-03 | 中国海洋大学 | 一种基于深度卷积神经网络的鱼类图像分类方法 |
CN109271989A (zh) * | 2018-09-03 | 2019-01-25 | 广东电网有限责任公司东莞供电局 | 一种基于cnn和rnn模型的手写试验数据自动识别方法 |
CN109446885B (zh) * | 2018-09-07 | 2022-03-15 | 广州算易软件科技有限公司 | 一种基于文本的元器件识别方法、系统、装置和存储介质 |
CN109299717B (zh) * | 2018-09-13 | 2021-08-17 | 网易(杭州)网络有限公司 | 文字识别模型建立及文字识别方法、装置、介质及设备 |
CN109344883A (zh) * | 2018-09-13 | 2019-02-15 | 西京学院 | 一种基于空洞卷积的复杂背景下果树病虫害识别方法 |
CN109190712A (zh) * | 2018-09-21 | 2019-01-11 | 福州大学 | 一种基于深度学习的航拍巡线影像自动分类系统 |
CN109409359A (zh) * | 2018-09-25 | 2019-03-01 | 天津大学 | 一种基于深度学习的视频字幕提取方法 |
CN111104826B (zh) * | 2018-10-26 | 2024-04-26 | 浙江宇视科技有限公司 | 一种车牌字符识别方法、装置及电子设备 |
CN109754014B (zh) * | 2018-12-29 | 2021-04-27 | 北京航天数据股份有限公司 | 工业模型训练方法、装置、设备及介质 |
CN109685070B (zh) * | 2019-01-11 | 2023-01-24 | 上海大学(浙江·嘉兴)新兴产业研究院 | 一种图像预处理方法 |
CN109858542B (zh) * | 2019-01-25 | 2021-03-19 | 广州云测信息技术有限公司 | 一种字符识别方法和装置 |
CN109871904A (zh) * | 2019-03-11 | 2019-06-11 | 广东工业大学 | 甲骨文字识别模型及训练方法、系统、设备、计算机介质 |
CN111783756B (zh) * | 2019-04-03 | 2024-04-16 | 北京市商汤科技开发有限公司 | 文本识别方法及装置、电子设备和存储介质 |
CN110738201B (zh) * | 2019-04-25 | 2024-04-19 | 上海海事大学 | 基于融合形态特征的自适应多卷积神经网络文字识别方法 |
CN110097130B (zh) * | 2019-05-07 | 2022-12-13 | 深圳市腾讯计算机系统有限公司 | 分类任务模型的训练方法、装置、设备及存储介质 |
GB2585633B (en) * | 2019-05-14 | 2021-09-22 | Wheelright Ltd | Tyre sidewall imaging method |
CN110197181B (zh) * | 2019-05-31 | 2021-04-30 | 烽火通信科技股份有限公司 | 一种基于ocr的线缆字符检测方法及系统 |
CN110378346B (zh) * | 2019-06-14 | 2021-12-24 | 北京百度网讯科技有限公司 | 建立文字识别模型的方法、装置、设备和计算机存储介质 |
CN110390326A (zh) * | 2019-06-14 | 2019-10-29 | 华南理工大学 | 一种基于集聚交叉熵损失函数的序列识别方法 |
CN110363231B (zh) * | 2019-06-27 | 2023-01-06 | 平安科技(深圳)有限公司 | 基于半监督深度学习的异常识别方法、装置及存储介质 |
CN110399913A (zh) * | 2019-07-12 | 2019-11-01 | 杭州依图医疗技术有限公司 | 一种医学图像中拍摄部位的分类方法及装置 |
CN110490193B (zh) * | 2019-07-24 | 2022-11-08 | 西安网算数据科技有限公司 | 单个字符区域检测方法及票据内容识别方法 |
CN110472632B (zh) * | 2019-07-31 | 2022-09-30 | 上海海事大学 | 基于字符特征的字符分割方法、装置及计算机存储介质 |
CN111144191B (zh) * | 2019-08-14 | 2024-03-22 | 广东小天才科技有限公司 | 字体识别方法、装置、电子设备及存储介质 |
CN110728307A (zh) * | 2019-09-20 | 2020-01-24 | 天津大学 | 自生成数据集与标签实现x光影像图小样本字符识别方法 |
CN110866530A (zh) * | 2019-11-13 | 2020-03-06 | 云南大学 | 一种字符图像识别方法、装置及电子设备 |
CN111062264A (zh) * | 2019-11-27 | 2020-04-24 | 重庆邮电大学 | 一种基于双通路混合卷积网络的文档对象分类方法 |
CN111178405A (zh) * | 2019-12-18 | 2020-05-19 | 浙江工业大学 | 一种融合多种神经网络的相似物体识别方法 |
CN111126396B (zh) * | 2019-12-25 | 2023-08-22 | 北京科技大学 | 图像识别方法、装置、计算机设备以及存储介质 |
CN111160352B (zh) * | 2019-12-27 | 2023-04-07 | 创新奇智(北京)科技有限公司 | 一种基于图像分割的工件金属表面文字识别方法及系统 |
CN111401139B (zh) * | 2020-02-25 | 2024-03-29 | 云南昆钢电子信息科技有限公司 | 基于字符图像智能识别获得矿山井下设备位置的方法 |
CN111611985A (zh) * | 2020-04-23 | 2020-09-01 | 中南大学 | 一种基于模型融合的ocr识别方法 |
CN111639636A (zh) * | 2020-05-29 | 2020-09-08 | 北京奇艺世纪科技有限公司 | 一种字符识别方法及装置 |
CN111815529B (zh) * | 2020-06-30 | 2023-02-07 | 上海电力大学 | 一种基于模型融合和数据增强的低质图像分类增强方法 |
CN111832561B (zh) * | 2020-07-03 | 2021-06-08 | 深圳思谋信息科技有限公司 | 基于计算机视觉的字符序列识别方法、装置、设备和介质 |
CN112001393B (zh) * | 2020-07-06 | 2024-02-02 | 西安电子科技大学 | 一种特定字符识别fpga实现方法、系统、存储介质及应用 |
CN112200177A (zh) * | 2020-07-21 | 2021-01-08 | 山东文多网络科技有限公司 | 一种基于提单扫描件大数据的单号识别方法及装置 |
CN111738367B (zh) * | 2020-08-17 | 2020-11-13 | 成都中轨轨道设备有限公司 | 一种基于图像识别的零件分类方法 |
CN112101336A (zh) * | 2020-09-09 | 2020-12-18 | 杭州测质成科技有限公司 | 一种基于计算机视觉的智能数据采集方式 |
CN112487811B (zh) * | 2020-10-21 | 2021-07-06 | 上海旻浦科技有限公司 | 基于强化学习的级联信息提取系统及方法 |
CN112308058B (zh) * | 2020-10-25 | 2023-10-24 | 北京信息科技大学 | 一种手写字符的识别方法 |
CN112381127A (zh) * | 2020-11-03 | 2021-02-19 | 浙江工业大学 | 一种基于人的分歧介入的珍珠分拣方法 |
CN112418297A (zh) * | 2020-11-19 | 2021-02-26 | 北京云从科技有限公司 | 基于图像扩展的ocr模型训练方法、系统及装置 |
CN112580643B (zh) * | 2020-12-09 | 2024-07-16 | 浙江智慧视频安防创新中心有限公司 | 一种基于深度学习的车牌识别方法、装置及存储介质 |
CN112465840B (zh) * | 2020-12-10 | 2023-02-17 | 重庆紫光华山智安科技有限公司 | 语义分割模型训练方法、语义分割方法及相关装置 |
CN112580650B (zh) * | 2020-12-22 | 2023-04-07 | 合肥高维数据技术有限公司 | 字体分类预测方法及系统 |
CN112580580A (zh) * | 2020-12-28 | 2021-03-30 | 厦门理工学院 | 一种基于数据增强与模型融合的病理性近视识别方法 |
CN113076840A (zh) * | 2021-03-25 | 2021-07-06 | 高新兴科技集团股份有限公司 | 一种车辆后拍图像品牌训练方法 |
CN112966779A (zh) * | 2021-03-29 | 2021-06-15 | 安徽大学 | 一种PolSAR影像半监督分类方法 |
CN113159150B (zh) * | 2021-04-12 | 2024-07-19 | 浙江工业大学 | 一种基于多算法集成的分歧介入珍珠分拣方法 |
CN113221867A (zh) * | 2021-05-11 | 2021-08-06 | 北京邮电大学 | 一种基于深度学习的pcb图像字符检测方法 |
CN113065533B (zh) * | 2021-06-01 | 2021-11-02 | 北京达佳互联信息技术有限公司 | 一种特征提取模型生成方法、装置、电子设备和存储介质 |
CN113469279A (zh) * | 2021-07-22 | 2021-10-01 | 凌云光技术股份有限公司 | 一种字符样本集的扩增方法、系统及装置 |
CN113902975B (zh) * | 2021-10-08 | 2023-05-05 | 电子科技大学 | 一种用于sar舰船检测的场景感知数据增强方法 |
CN113989814B (zh) * | 2021-11-23 | 2024-08-20 | 腾讯科技(深圳)有限公司 | 图像生成方法、装置、计算机设备及存储介质 |
CN115243250B (zh) * | 2022-07-25 | 2024-05-28 | 每日互动股份有限公司 | 一种获取wifi画像的方法、系统及存储介质 |
CN115497106B (zh) * | 2022-11-14 | 2023-01-24 | 合肥中科类脑智能技术有限公司 | 基于数据增强和多任务模型的电池激光喷码识别方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101408933A (zh) * | 2008-05-21 | 2009-04-15 | 浙江师范大学 | 基于粗网格特征提取和bp神经网络的车牌字符识别方法 |
CN102156871A (zh) * | 2010-02-12 | 2011-08-17 | 中国科学院自动化研究所 | 基于类别相关的码本和分类器投票策略的图像分类方法 |
CN103927534A (zh) * | 2014-04-26 | 2014-07-16 | 无锡信捷电气股份有限公司 | 一种基于卷积神经网络的喷码字符在线视觉检测方法 |
CN104299006A (zh) * | 2014-07-23 | 2015-01-21 | 中国传媒大学 | 一种基于深度神经网络的车牌识别方法 |
CN105184312A (zh) * | 2015-08-24 | 2015-12-23 | 中国科学院自动化研究所 | 一种基于深度学习的文字检测方法及装置 |
CN106096602A (zh) * | 2016-06-21 | 2016-11-09 | 苏州大学 | 一种基于卷积神经网络的中文车牌识别方法 |
CN106250939A (zh) * | 2016-07-30 | 2016-12-21 | 复旦大学 | 基于fpga+arm多层卷积神经网络的手写体字符识别方法 |
-
2016
- 2016-12-28 CN CN201611235492.8A patent/CN106650721B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101408933A (zh) * | 2008-05-21 | 2009-04-15 | 浙江师范大学 | 基于粗网格特征提取和bp神经网络的车牌字符识别方法 |
CN102156871A (zh) * | 2010-02-12 | 2011-08-17 | 中国科学院自动化研究所 | 基于类别相关的码本和分类器投票策略的图像分类方法 |
CN103927534A (zh) * | 2014-04-26 | 2014-07-16 | 无锡信捷电气股份有限公司 | 一种基于卷积神经网络的喷码字符在线视觉检测方法 |
CN104299006A (zh) * | 2014-07-23 | 2015-01-21 | 中国传媒大学 | 一种基于深度神经网络的车牌识别方法 |
CN105184312A (zh) * | 2015-08-24 | 2015-12-23 | 中国科学院自动化研究所 | 一种基于深度学习的文字检测方法及装置 |
CN106096602A (zh) * | 2016-06-21 | 2016-11-09 | 苏州大学 | 一种基于卷积神经网络的中文车牌识别方法 |
CN106250939A (zh) * | 2016-07-30 | 2016-12-21 | 复旦大学 | 基于fpga+arm多层卷积神经网络的手写体字符识别方法 |
Non-Patent Citations (3)
Title |
---|
《An efficient multiclassifier system based on convolutional neural network for offline handwritten Telugu character recognition》;Soumya T Soman等;《2013 National Conference on Communications (NCC)》;20031231;第1-5页 |
《基于MATLAB神经网络的工业现场数字字符识别》;张亮等;《微计算机信息》;20071231;第23卷(第4-3期);第299-301页 |
《工业器件上的字符提取及识别》;梁志贞等;《计算机工程》;20050531;第31卷(第9期);第41-43页 |
Also Published As
Publication number | Publication date |
---|---|
CN106650721A (zh) | 2017-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106650721B (zh) | 一种基于卷积神经网络的工业字符识别方法 | |
CN109584248B (zh) | 基于特征融合和稠密连接网络的红外面目标实例分割方法 | |
CN109299274B (zh) | 一种基于全卷积神经网络的自然场景文本检测方法 | |
CN108960245B (zh) | 轮胎模具字符的检测与识别方法、装置、设备及存储介质 | |
CN111325203B (zh) | 一种基于图像校正的美式车牌识别方法及系统 | |
CN108548820B (zh) | 化妆品纸质标签缺陷检测方法 | |
CN111160352B (zh) | 一种基于图像分割的工件金属表面文字识别方法及系统 | |
CN108154102B (zh) | 一种道路交通标志识别方法 | |
CN110033473B (zh) | 基于模板匹配和深度分类网络的运动目标跟踪方法 | |
CN111753828B (zh) | 一种基于深度卷积神经网络的自然场景水平文字检测方法 | |
Kadam et al. | Detection and localization of multiple image splicing using MobileNet V1 | |
CN110348319A (zh) | 一种基于人脸深度信息和边缘图像融合的人脸防伪方法 | |
CN110610509B (zh) | 可指定类别的优化抠图方法及系统 | |
CN111126127B (zh) | 一种多级空间上下文特征指导的高分辨率遥感影像分类方法 | |
CN106022273A (zh) | 基于动态样本选择策略的bp神经网络手写体识别系统 | |
CN111191583A (zh) | 基于卷积神经网络的空间目标识别系统及方法 | |
CN110766020A (zh) | 一种面向多语种自然场景文本检测与识别的系统及方法 | |
CN113592911B (zh) | 表观增强深度目标跟踪方法 | |
CN105205449A (zh) | 基于深度学习的手语识别方法 | |
CN111127417B (zh) | 一种基于sift特征匹配和改进ssd算法的印刷缺陷检测方法 | |
CN111738237B (zh) | 一种基于异构卷积的多核迭代rpn的目标检测方法 | |
CN108416270A (zh) | 一种基于多属性联合特征的交通标志识别方法 | |
Ravi et al. | Sign language recognition with multi feature fusion and ANN classifier | |
CN110490915A (zh) | 一种基于卷积受限玻尔兹曼机的点云配准方法 | |
CN115527072A (zh) | 一种基于稀疏空间感知与元学习的芯片表面缺陷检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |