CN108021914A - 基于卷积神经网络的印刷品字符区域提取方法 - Google Patents
基于卷积神经网络的印刷品字符区域提取方法 Download PDFInfo
- Publication number
- CN108021914A CN108021914A CN201711449254.1A CN201711449254A CN108021914A CN 108021914 A CN108021914 A CN 108021914A CN 201711449254 A CN201711449254 A CN 201711449254A CN 108021914 A CN108021914 A CN 108021914A
- Authority
- CN
- China
- Prior art keywords
- image
- character
- stage
- convolutional neural
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 42
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000001514 detection method Methods 0.000 claims abstract description 13
- 230000006870 function Effects 0.000 claims description 28
- 238000000605 extraction Methods 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 9
- 230000004927 fusion Effects 0.000 claims description 6
- 230000008447 perception Effects 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 6
- 230000000694 effects Effects 0.000 claims description 5
- 238000011478 gradient descent method Methods 0.000 claims description 5
- 230000005764 inhibitory process Effects 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 230000010287 polarization Effects 0.000 claims description 3
- 230000000007 visual effect Effects 0.000 abstract description 12
- 238000007796 conventional method Methods 0.000 abstract 1
- 230000007547 defect Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 238000012360 testing method Methods 0.000 description 5
- 238000007689 inspection Methods 0.000 description 4
- 238000004806 packaging method and process Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 229940079593 drug Drugs 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000002035 prolonged effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000002620 method output Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于卷积神经网络的印刷品字符区域提取方法,包括:通过卷积神经网络从整个图像角度对字符区域进行探测,获取字符区域全局感知的字符候选图像;通过笔画探测器探测图像局部细节;将字符候选图像和图像局部细节进行融合,以提取出印刷品字符区域。该方法可以避免传统方法对于人工确定的阈值的依赖,实现用轮廓勾画出印刷品图像中的字符区域,并且画出的轮廓具有很好的视觉舒适度,有效提高泛化性能。
Description
技术领域
本发明涉及计算机视觉、图像处理技术领域,特别涉及一种基于卷积神经网络的印刷品字符区域提取方法。
背景技术
视觉技术代替人眼的劳动力成为工业信息化与自动化中重要的一环,80%的工业视觉系统主要应用在检测任务中,通过采集产品数据、监测产品质量来提高生产效率,不仅可以代替人工视觉进行大量重复性的劳动,还可以在一些不适合人力作业的危险环境中以及长期工作会对人身造成伤害的环境中代替人工视觉。
目前,工业视觉检测任务按照检测功能可以分为定位、缺陷检测、尺寸测量、OCR、计数/遗漏检测、特征有无等领域。其中定位、尺寸测量、计数、特征有无等确定性较高的任务算法相对简单;而外观缺陷检测主要包括关键区域定位,识别与分类三个部分,目前缺陷识别方面通过匹配比对等方式已经得到了较好的解决,而关键区域定位由于产品多样性较大,复杂度较高,传统的阈值化的检测方法处理效果不佳,近年来由于消费升级,印刷品市场日益火爆,印刷品包装缺陷准确识别成为了一个亟待解决的问题。
印刷品是产品包装的主要形式,具有外观精美、成本低廉、清洁卫生等优点,在食品、药品、日化品等众多行业得到了广泛的应用。印刷品质量检测是印刷品包装生产后投入市场前的重要步骤,印刷生产过程中可能存在各种各样的缺陷,例如墨点、异物、文字残缺、漏印等。这些缺陷一旦出现在产品包装上,会严重影响产品的视觉观感,甚至影响产品品牌以及客户对产品的认知。通常情况下,由于产品中的字符区域具有很多重要的信息,如果字符区域出现缺陷可能造成严重的后果,尤其是对于药品、化工产品等的印刷品包装,因此对于字符区域的缺陷检测往往会比其他区域更加严格。目前,对于划分好的区域利用图像灰度比对进行颜色、刀丝、套印、散点等一系列检测方法已经比较成熟,因此如何对印刷品的字符区域进行自动提取成为了印刷品表面缺陷自动检测的一个关键技术问题。
相关技术中,印刷品字符区域自动提取方法主要通过图像特征、连通区域、纹理、笔画宽度等人工提取的特征进行识别。传统的方法提取特征难以适应印刷品表面复杂的背景和字符样式,通过人工确定的阈值往往只能适应一部分图像,泛化性能较差,并且本身往往专注于局部细节特征,难以从整体上定位出符合人眼视觉的字符轮廓。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种基于卷积神经网络的印刷品字符区域提取方法,该方法可以画出的轮廓具有很好的视觉舒适度,有效提高泛化性能。
本发明的另一个目的在于提出一种基于卷积神经网络的印刷品字符区域提取装置。
为达到上述目的,本发明一方面实施例提出了一种基于卷积神经网络的印刷品字符区域提取方法,包括以下步骤:通过卷积神经网络从整个图像角度对字符区域进行探测,获取字符区域全局感知的字符候选图像;通过笔画探测器探测图像局部细节;将所述字符候选图像和所述图像局部细节进行融合,以提取出印刷品字符区域。
本发明实施例的基于卷积神经网络的印刷品字符区域提取方法,可以避免传统方法对于人工确定的阈值的依赖,实现用轮廓勾画出印刷品图像中的字符区域,并且画出的轮廓具有很好的视觉舒适度,有效提高泛化性能,提高单张图像的平均处理时间。
另外,根据本发明上述实施例的基于卷积神经网络的印刷品字符区域提取方法还可以具有以下附加的技术特征:
进一步地,所述卷积神经网络包括五级特征提取器,第一级特征提取器和第二级特征提取器每级分别包含两个卷积ReLU层,第三级特征提取器、第四级特征提取器和第五级特征提取器每级分别包含三个卷积ReLU层,且除了第五级外每级网络后连接一个2*2的最大池化层。
进一步地,在第一个卷积层加入一个35的pad,以将图像宽高均增加70个像素,使得所述第五级特征提取器输出图像满足预设条件,且在每级特征提取器的最后一个ReLU层后连接一个解卷积层,以作为侧边输出,以及随后连接一个裁剪层保证消除padding的影响,且保证侧边输出图像大小和标注图片大小相同。
进一步地,在训练阶段,各个侧边输出以及最后的输出与标注图片计算损失,将各级输出按照可学习的参数比例进行融合输出与标注图片计算损失,两种损失的和为整个网络需要优化的损失函数,且通过随机梯度下降法对所述神经网络进行优化。
进一步地,所述损失函数为:
L=Ls(W,Φ)+Lf(W,Φ,α),
其中,L为总的损失函数,Ls为网络每一级侧边输出的损失函数,W为卷积网络中的参数,Φ为每一级侧边输出分类器的参数,Lf为各级输出融合后的损失函数,α为权重系数。
进一步地,通过以下公式输出结果:
其中,Yfuse为融合后的输出结果,i为第i级侧边输出,M为共有M级网络,αi为第i级融合时候的权重,为第i级侧边输出的结果,W为卷积网络的参数,Φ(i)为第i级侧边输出分类器的参数。
进一步地,所述通过笔画探测器探测图像局部细节,进一步包括:获取输入图像,得到灰度图;根据所述灰度图遍历图像得到特征点,且对所述人特征点进行特征点非极化抑制,以输出多个特征点。
进一步地,所述将所述字符候选图像和所述图像局部细节进行融合,进一步包括:对所述字符候选图像二值化;提取包含字符区域的多个轮廓,并根据轮廓区域面积对所述多个轮廓进行降序排列;将笔画特征点根据位置与轮廓进行匹配,并排除面积小于预设阈值且没有特征点的轮廓;对近似矩形的轮廓进行矩形优化处理,并对轮廓进行轻微膨胀操作;通过红线提取出最终字符区域。
进一步地,所述预设阈值为80。
为达到上述目的,本发明另一方面实施例提出了一种基于卷积神经网络的印刷品字符区域提取装置,包括:获取模块,用于通过卷积神经网络从整个图像角度对字符区域进行探测,获取字符区域全局感知的字符候选图像;探测模块,用于通过笔画探测器探测图像局部细节;提取模块,用于将所述字符候选图像和所述图像局部细节进行融合,以提取出印刷品字符区域。
本发明实施例的基于卷积神经网络的印刷品字符区域提取装置,可以避免传统方法对于人工确定的阈值的依赖,实现用轮廓勾画出印刷品图像中的字符区域,并且画出的轮廓具有很好的视觉舒适度,有效提高泛化性能,提高单张图像的平均处理时间。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明实施例的基于卷积神经网络的印刷品字符区域提取方法的流程图;
图2为根据本发明一个实施例的笔画特征点实现的流程图;
图3为根据本发明一个实施例的图像的笔画特征点示意图;
图4为根据本发明一个实施例的网络输出与笔画特征点融合的流程图;
图5为根据本发明一个具体实施例的基于卷积神经网络的印刷品字符区域提取示意图;
图6为根据本发明实施例的基于卷积神经网络的印刷品字符区域提取装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参照附图描述根据本发明实施例提出的基于卷积神经网络的印刷品字符区域提取方法及装置,首先将参照附图描述根据本发明实施例提出的基于卷积神经网络的印刷品字符区域提取方法。
图1是本发明实施例的基于卷积神经网络的印刷品字符区域提取方法的流程图。
如图1所示,该基于卷积神经网络的印刷品字符区域提取方法包括以下步骤:
在步骤S101中,通过卷积神经网络从整个图像角度对字符区域进行探测,获取字符区域全局感知的字符候选图像。
其中,卷积神经网络包括五级特征提取器,第一级特征提取器和第二级特征提取器每级分别包含两个卷积ReLU层,第三级特征提取器、第四级特征提取器和第五级特征提取器每级分别包含三个卷积ReLU层,且除了第五级外每级网络后连接一个2*2的最大池化层。
可以理解的是,本发明实施例的卷积神经网络从整个图像角度对字符区域进行探测。其中,网络共有5级特征提取器,前两级特征提取器每级分别包含两个卷积ReLU层,后三级特征提取器每级分别包含3个卷积ReLU层,除了最后一级外每级网络后连接一个2*2的最大池化层,每级特征提取器中各卷积层的卷积核数目分别为64,128,,256,512,512。
进一步地,在第一个卷积层加入一个35的pad,以将图像宽高均增加70个像素,使得第五级特征提取器输出图像满足预设条件,且在每级特征提取器的最后一个ReLU层后连接一个解卷积层,以作为侧边输出,以及随后连接一个裁剪层保证消除padding的影响,且保证侧边输出图像大小和标注图片大小相同。
可以理解的是,本发明实施例为了保证最后一级特征提取器输出图像不至于过小,在第一个卷积层加入一个35的pad,即先将图像宽高均增加70个像素;以后的卷积层加入的pad仅保证图像卷积操作前后图像大小不变;在每级特征提取器的最后一个ReLU层后连接一个解卷积层(1*1卷积加上采样操作,其中,上采样采用双线性插值的方法)作为侧边输出,随后连接一个裁剪层保证将padding的影响消除,保证侧边输出图像大小和标注图片大小相同。
进一步地,在训练阶段,各个侧边输出以及最后的输出与标注图片计算损失,将各级输出按照可学习的参数比例进行融合输出与标注图片计算损失,两种损失的和为整个网络需要优化的损失函数,且通过随机梯度下降法对神经网络进行优化。
可以理解的是,在训练阶段,各个侧边输出以及最后的输出与标注图片计算损失,将各级输出按照一个可学习的参数比例进行融合输出与标注图片计算损失,两种损失的和为整个网络需要优化的损失函数;通过随机梯度下降法对上述网络进行优化;在测试阶段网络各级融合后的输出图片即为对于字符区域全局感知的字符候选区域。
其中,损失函数为:
L=Ls(W,Φ)+Lf(W,Φ,α),
其中,L为总的损失函数,Ls为网络每一级侧边输出的损失函数,W为卷积网络中的参数,Φ为每一级侧边输出分类器的参数,Lf为各级输出融合后的损失函数,α为权重系数。
进一步地,通过以下公式输出结果:
其中,Yfuse为融合后的输出结果,i为第i级侧边输出,M为共有M级网络,αi为第i级融合时候的权重,为第i级侧边输出的结果,W为卷积网络的参数,Φ(i)为第i级侧边输出分类器的参数。
具体地,假定训练集的图片为S={(Xn,Yn),n=1,...,N},其中Xn={xi,i=1,...,|X|}为原始彩色图片,Yn={yi,i=1,...,|X|}为标注出文字区域的二值图片,其中图像中像素取值为yi∈{0,1}。1表示该像素为字符区域,0表示该像素为非字符区域。由于后续说明对于每个图像均相同,因此为了简便后续公式省略图像数目维度n,则对于网络的每个侧边输出有损失函数如下:
其中,为第i个侧边输出的损失函数,W和Φ分别为卷积网络中的参数和侧边输出分类器中的参数;βk=CNT(Y==k)/|Y|,k={0,1}为类别平衡的系数,CNT(·)函数为计算Y中值为k的像素的数目,以避免由于非字符区域相对较多造成类别不平衡损失偏向于非字符区域的问题,为第i个侧边输出分类器的预测结果。公式(1)整体表示了预测结果与真实标注值之间的交叉熵损失函数,对于每个预测函数内部有
其中,为第i个侧边输出结果图中第j个像素值,为经过公式(2)中sigmoid函数处理为(0,1)区间内的值。由于字符区域提取问题实际是对于图像中每个像素的二分类问题,因此采用sigmoid交叉熵损失函数,可以避免反向传播求导时可能出现的梯度爆炸情况。如设则
一般图像中非字符区域占大部分,因此β0一般大于0.8,上式梯度比较简单,有利于后续求解,综上侧边输出的损失目标函数可以表示为
其中,M为侧边输出个数,对于本文来说M取5;另一方面,令表示每个侧边输出分类预测值,将各级输出按照一个可以学习的权重组合得到融合的损失函数:
最终损失函数为:
L=Ls(W,Φ)+Lf(W,Φ,α), (7)
训练时采用随机梯度下降法求取网络中的参数以及融合权重,测试阶段利用上述参数和权重输入待测试图片,经过网络正向传播得到输出结果。本发明实施例利用融合后的输出结果作为最终的输出结果,公式如下:
在步骤S102中,通过笔画探测器探测图像局部细节。
进一步地,通过笔画探测器探测图像局部细节,进一步包括:获取输入图像,得到灰度图;根据灰度图遍历图像得到特征点,且对人特征点进行特征点非极化抑制,以输出多个特征点。
可以理解的是,如图2所示,角点探测在跟踪、定位、图像匹配和识别等许多视觉任务中经常作为第一步处理,因此,角点探测器近年来发展非常迅速。角点是二维图像的一类“点”特征,类似现实生活中转角一样,通常出现在几何上不连续区域以及梯度变化比较明显的小块纹理中。角点探测器种类有很多,例如,灰度微分探测器、边缘角点探测器、灰度匹配探测器等等。然而传统的角点探测器对于图像纹理梯度变化明显的区域过于敏感,并不是专门针对笔画特点设计,因此会误识别印刷品图像中的复杂背景区域,对局部笔画信息的探测作用也十分有限。因此,本发明实施例采用一种定制化笔画角点探测器来针对笔画特点提取对应的特征点。本发明实施例融合了角点特征与笔画特征,对笔画细节有很强的识别能力,可以很好的从局部笔画信息角度对字符区域进行探测。
笔画探测器可以根据笔画的特点主要探测两类特征点,一类是传统的角点探测器关注的字符笔画的起点、终点,例如通过探测出字母L,Z的起始终止点特征识别出L、Z两个字符位置,这类特征点称为起止点特征点,另一类则是字符笔画较平滑的“拐点”,例如通过探测出字符O,8的拐弯区域来识别上述两个字符的位置,这类特征点称为拐点特征点。上述两种特征点可以包含英文字符、大部分汉字以及部分其他外文的笔画局部特点。
起止点特征点和拐点特征点定义如下,对于灰度图像中的任意像素,检查以它(图中绿色1像素点)为中心的5*5矩形外圈上除了四个顶点的12个像素点(图中黄色2像素点,类似一个圆周),并根据以下规则将圆周点分为暗点(dark)、亮点(bright)和相似点(similar),其中,I(·)为取该点的像素值,m为像素阈值参数,这里m取值可以为13,如图3所示。
对上述12个点分类后,根据分类结果判断特征点类型以及非两类特征点。
起止点特征点:满足圆周点中至少有连续9个点为暗点或者亮点,并且剩下的点均为相似点,图中数字表示该点像素,计算中心绿色1点的圆周点,图中红色标记为相似点,黄色2标记为亮点,圆周点存在10个连续亮点,满足起止点特征点的定义。因此,可以看出起止点特征点寻找从中心点开始,相似点位置出去或者从相似点位置进入,中心点附近截止的笔画信息。
拐点特征点:满足圆周上的像素可以分为4个连续区域,Ps,P's,Pd,P'd或者Ps,P's,Pb,P'b,并且相似区域连续点数在1~3之间,其中一个亮点(暗点)连续区域像素点数大于等于6个,则可以看出拐点特征点寻找从一个相似点区域进入,经过中心点附近拐弯,从另一个相似点出去的笔画信息。
由上述定义求取图像中的笔画特征点,最后对于上述特征点进行一个5*5的极大化抑制,对于像素p,计算响应值VP,VP为中心点与圆周点像素绝对值偏差的和。
在步骤S103中,将字符候选图像和图像局部细节进行融合,以提取出印刷品字符区域。
进一步地,将字符候选图像和图像局部细节进行融合,进一步包括:对字符候选图像二值化;提取包含字符区域的多个轮廓,并根据轮廓区域面积对多个轮廓进行降序排列;将笔画特征点根据位置与轮廓进行匹配,并排除面积小于预设阈值且没有特征点的轮廓;对近似矩形的轮廓进行矩形优化处理,并对轮廓进行轻微膨胀操作;通过红线提取出最终字符区域。
可选地,预设阈值可以为80。
可以理解的是,如图4所示,本发明实施例首先将字符候选图像以0.7为阈值转化为二值图像,找到包含每块文本区的外轮廓,将各个轮廓区域按照轮廓包含区域面积大小进行降序排列并定义序号,记为{Si,i=1,...,N};然后对于每个特征点ki,循环判断是否在各个轮廓区域内(轮廓已经由大到小排序,减少循环过程的计算消耗),若在某一轮廓区域内,将该特征点标记上轮廓的序号循环跳出并继续判断下一个特征点。否则判断下一个轮廓直到不在任何一个轮廓内,将该特征点抛弃;对于轮廓进行判断,去除没有包含特征点并且轮廓覆盖的区域面积小于T像素的区域,即满足去除的是局部噪声造成的小块非字符区域,这里T取值为80;最后对每个轮廓区域进行判断,若区域占包含该轮廓最小外接矩形面积比大于0.8,则用外接矩形代替轮廓;对所有的轮廓求取包含的区域,并进行轻微的膨胀操作后反求轮廓区域,为了直观显示字符区域提取效果,这里在输入图像中用红色线条将轮廓描绘出来得到最终的效果图。
举例而言,在本发明的一个具体实施例中,如图5所示,本发明实施例通过输入为一张或者多张220万像素以内的任意大小印刷品彩色图像,输出为对应勾画出轮廓区域的彩色图像,包括如下步骤:
1)为了读取数据方便,将输入图像路径存储在test.lst文件中,网络会自动读取响应的图像进行运算。
2)根据test.lst中输入路径读取测试图像,网络载入训练好的模型自动进行前向运算得到输出图像,
3)同时读入上述图像计算图像中的笔画特征点,输出特征点对应的坐标集合
4)将网络输出图像进行二值化后得到初步轮廓,融合笔画特征点信息得到最终的勾画出字符区域的输出图像。
根据本发明实施例提出的基于卷积神经网络的印刷品字符区域提取方法,可以避免传统方法对于人工确定的阈值的依赖,实现用轮廓勾画出印刷品图像中的字符区域,并且画出的轮廓具有很好的视觉舒适度,有效提高泛化性能,提高单张图像的平均处理时间。
其次参照附图描述根据本发明实施例提出的基于卷积神经网络的印刷品字符区域提取装置。
图6是本发明实施例的基于卷积神经网络的印刷品字符区域提取装置的结构示意图。
如图6所示,该基于卷积神经网络的印刷品字符区域提取装置10包括:获取模块100、探测模块200和提取模块300。
其中,获取模块100用于通过卷积神经网络从整个图像角度对字符区域进行探测,获取字符区域全局感知的字符候选图像。探测模块200用于通过笔画探测器探测图像局部细节。提取模块300用于将字符候选图像和图像局部细节进行融合,以提取出印刷品字符区域。本发明实施例的装置10可以避免传统方法对于人工确定的阈值的依赖,实现用轮廓勾画出印刷品图像中的字符区域,并且画出的轮廓具有很好的视觉舒适度,有效提高泛化性能。
需要说明的是,前述对方法实施例的解释说明也适用于该实施例的装置,此处不再赘述。
根据本发明实施例提出的基于卷积神经网络的印刷品字符区域提取装置,可以避免传统方法对于人工确定的阈值的依赖,实现用轮廓勾画出印刷品图像中的字符区域,并且画出的轮廓具有很好的视觉舒适度,有效提高泛化性能,提高单张图像的平均处理时间。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种基于卷积神经网络的印刷品字符区域提取方法,其特征在于,包括以下步骤:
通过卷积神经网络从整个图像角度对字符区域进行探测,获取字符区域全局感知的字符候选图像;
通过笔画探测器探测图像局部细节;以及
将所述字符候选图像和所述图像局部细节进行融合,以提取出印刷品字符区域。
2.根据权利要求1所述的基于卷积神经网络的印刷品字符区域提取方法,其特征在于,所述卷积神经网络包括五级特征提取器,第一级特征提取器和第二级特征提取器每级分别包含两个卷积ReLU层,第三级特征提取器、第四级特征提取器和第五级特征提取器每级分别包含三个卷积ReLU层,且除了第五级外每级网络后连接一个2*2的最大池化层。
3.根据权利要求2所述的基于卷积神经网络的印刷品字符区域提取方法,其特征在于,在第一个卷积层加入一个35的pad,以将图像宽高均增加70个像素,使得所述第五级特征提取器输出图像满足预设条件,且在每级特征提取器的最后一个ReLU层后连接一个解卷积层,以作为侧边输出,以及随后连接一个裁剪层保证消除padding的影响,且保证侧边输出图像大小和标注图片大小相同。
4.根据权利要求1所述的基于卷积神经网络的印刷品字符区域提取方法,其特征在于,在训练阶段,各个侧边输出以及最后的输出与标注图片计算损失,将各级输出按照可学习的参数比例进行融合输出与标注图片计算损失,两种损失的和为整个网络需要优化的损失函数,且通过随机梯度下降法对所述神经网络进行优化。
5.根据权利要求4所述的基于卷积神经网络的印刷品字符区域提取方法,其特征在于,所述损失函数为:
L=Ls(W,Φ)+Lf(W,Φ,α),
其中,L为总的损失函数,Ls为网络每一级侧边输出的损失函数,W为卷积网络中的参数,Φ为每一级侧边输出分类器的参数,Lf为各级输出融合后的损失函数,α为权重系数。
6.根据权利要求5所述的基于卷积神经网络的印刷品字符区域提取方法,其特征在于,通过以下公式输出结果:
<mrow>
<msub>
<mi>Y</mi>
<mrow>
<mi>f</mi>
<mi>u</mi>
<mi>s</mi>
<mi>e</mi>
</mrow>
</msub>
<mo>=</mo>
<munderover>
<mi>&Sigma;</mi>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>M</mi>
</munderover>
<msub>
<mi>&alpha;</mi>
<mi>i</mi>
</msub>
<msubsup>
<mi>Y</mi>
<mi>s</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>)</mo>
</mrow>
</msubsup>
<mrow>
<mo>(</mo>
<mi>W</mi>
<mo>,</mo>
<msup>
<mi>&Phi;</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>)</mo>
</mrow>
</msup>
<mo>)</mo>
</mrow>
<mo>,</mo>
</mrow>
其中,Yfuse为融合后的输出结果,i为第i级侧边输出,M为共有M级网络,αi为第i级融合时候的权重,Ys (i)为第i级侧边输出的结果,W为卷积网络的参数,Φ(i)为第i级侧边输出分类器的参数。
7.根据权利要求1所述的基于卷积神经网络的印刷品字符区域提取方法,其特征在于,所述通过笔画探测器探测图像局部细节,进一步包括:
获取输入图像,得到灰度图;
根据所述灰度图遍历图像得到特征点,且对所述人特征点进行特征点非极化抑制,以输出多个特征点。
8.根据权利要求1所述的基于卷积神经网络的印刷品字符区域提取方法,其特征在于,所述将所述字符候选图像和所述图像局部细节进行融合,进一步包括:
对所述字符候选图像二值化;
提取包含字符区域的多个轮廓,并根据轮廓区域面积对所述多个轮廓进行降序排列;
将笔画特征点根据位置与轮廓进行匹配,并排除面积小于预设阈值且没有特征点的轮廓;
对近似矩形的轮廓进行矩形优化处理,并对轮廓进行轻微膨胀操作;
通过红线提取出最终字符区域。
9.根据权利要求8所述的基于卷积神经网络的印刷品字符区域提取方法,其特征在于,所述预设阈值为80。
10.一种基于卷积神经网络的印刷品字符区域提取装置,其特征在于,包括:
获取模块,用于通过卷积神经网络从整个图像角度对字符区域进行探测,获取字符区域全局感知的字符候选图像;
探测模块,用于通过笔画探测器探测图像局部细节;以及
提取模块,用于将所述字符候选图像和所述图像局部细节进行融合,以提取出印刷品字符区域。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711449254.1A CN108021914B (zh) | 2017-12-27 | 2017-12-27 | 基于卷积神经网络的印刷品字符区域提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711449254.1A CN108021914B (zh) | 2017-12-27 | 2017-12-27 | 基于卷积神经网络的印刷品字符区域提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108021914A true CN108021914A (zh) | 2018-05-11 |
CN108021914B CN108021914B (zh) | 2020-07-28 |
Family
ID=62071756
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711449254.1A Active CN108021914B (zh) | 2017-12-27 | 2017-12-27 | 基于卷积神经网络的印刷品字符区域提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108021914B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109598312A (zh) * | 2018-11-30 | 2019-04-09 | 深圳市共进电子股份有限公司 | 一种透明体或半透明体覆盖的文本识别方法及系统 |
CN111861990A (zh) * | 2020-06-10 | 2020-10-30 | 宜通世纪物联网研究院(广州)有限公司 | 一种产品不良外观检测的方法、系统及存储介质 |
CN111931710A (zh) * | 2020-09-17 | 2020-11-13 | 开立生物医疗科技(武汉)有限公司 | 一种联机手写文字识别方法、装置、电子设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105354572A (zh) * | 2015-12-10 | 2016-02-24 | 苏州大学 | 一种基于简化卷积神经网络的车牌自动识别系统 |
CN106127204A (zh) * | 2016-06-30 | 2016-11-16 | 华南理工大学 | 一种全卷积神经网络的多方向水表读数区域检测算法 |
CN106250812A (zh) * | 2016-07-15 | 2016-12-21 | 汤平 | 一种基于快速r‑cnn深度神经网络的车型识别方法 |
CN106682664A (zh) * | 2016-12-07 | 2017-05-17 | 华南理工大学 | 基于全卷积递归神经网络的水表圆盘区域检测方法 |
CN106875381A (zh) * | 2017-01-17 | 2017-06-20 | 同济大学 | 一种基于深度学习的手机外壳缺陷检测方法 |
CN107133616A (zh) * | 2017-04-02 | 2017-09-05 | 南京汇川图像视觉技术有限公司 | 一种基于深度学习的无分割字符定位与识别方法 |
CN107392201A (zh) * | 2017-06-09 | 2017-11-24 | 中国科学院自动化研究所 | 接触网支柱的支柱号识别方法、存储介质、处理设备 |
-
2017
- 2017-12-27 CN CN201711449254.1A patent/CN108021914B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105354572A (zh) * | 2015-12-10 | 2016-02-24 | 苏州大学 | 一种基于简化卷积神经网络的车牌自动识别系统 |
CN106127204A (zh) * | 2016-06-30 | 2016-11-16 | 华南理工大学 | 一种全卷积神经网络的多方向水表读数区域检测算法 |
CN106250812A (zh) * | 2016-07-15 | 2016-12-21 | 汤平 | 一种基于快速r‑cnn深度神经网络的车型识别方法 |
CN106682664A (zh) * | 2016-12-07 | 2017-05-17 | 华南理工大学 | 基于全卷积递归神经网络的水表圆盘区域检测方法 |
CN106875381A (zh) * | 2017-01-17 | 2017-06-20 | 同济大学 | 一种基于深度学习的手机外壳缺陷检测方法 |
CN107133616A (zh) * | 2017-04-02 | 2017-09-05 | 南京汇川图像视觉技术有限公司 | 一种基于深度学习的无分割字符定位与识别方法 |
CN107392201A (zh) * | 2017-06-09 | 2017-11-24 | 中国科学院自动化研究所 | 接触网支柱的支柱号识别方法、存储介质、处理设备 |
Non-Patent Citations (1)
Title |
---|
CHENGGANG YAN 等: ""Effective Uyghur Language Text Detection in Complex Background Images for Traffic Prompt Identification"", 《IEEE TRANSACTIONS ON INTELLIGENT TRANSPORTATION SYSTEMS》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109598312A (zh) * | 2018-11-30 | 2019-04-09 | 深圳市共进电子股份有限公司 | 一种透明体或半透明体覆盖的文本识别方法及系统 |
CN111861990A (zh) * | 2020-06-10 | 2020-10-30 | 宜通世纪物联网研究院(广州)有限公司 | 一种产品不良外观检测的方法、系统及存储介质 |
CN111861990B (zh) * | 2020-06-10 | 2024-02-13 | 广东宜通联云智能信息有限公司 | 一种产品不良外观检测的方法、系统及存储介质 |
CN111931710A (zh) * | 2020-09-17 | 2020-11-13 | 开立生物医疗科技(武汉)有限公司 | 一种联机手写文字识别方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN108021914B (zh) | 2020-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109829914B (zh) | 检测产品缺陷的方法和装置 | |
EP3379491B1 (en) | Surface defect detection | |
CN108562589B (zh) | 一种对磁路材料表面缺陷进行检测的方法 | |
CN109816644B (zh) | 一种基于多角度光源影像的轴承缺陷自动检测系统 | |
CN111582294B (zh) | 一种构建用于表面缺陷检测的卷积神经网络模型的方法及其利用 | |
CN107133622B (zh) | 一种单词的分割方法和装置 | |
Chen et al. | A machine vision apparatus and method for can-end inspection | |
CN111915704A (zh) | 一种基于深度学习的苹果分级识别方法 | |
CN105389581B (zh) | 一种胚芽米胚芽完整度智能识别系统及其识别方法 | |
US20060029257A1 (en) | Apparatus for determining a surface condition of an object | |
CN108021914B (zh) | 基于卷积神经网络的印刷品字符区域提取方法 | |
CN112132196B (zh) | 一种结合深度学习和图像处理的烟盒缺陷识别方法 | |
CN106355579A (zh) | 烟条表面褶皱的缺陷检测方法 | |
CN113034488B (zh) | 一种喷墨印刷品的视觉检测方法 | |
CN103439348A (zh) | 基于差影法的遥控器按键缺陷检测方法 | |
CN103793717A (zh) | 判断图像主体显著性及训练其分类器的方法和系统 | |
CN111965197A (zh) | 一种基于多特征融合的缺陷分类方法 | |
CN114419029A (zh) | 表面缺陷检测模型的训练方法、表面缺陷检测方法及装置 | |
CN111241966A (zh) | 一种发票目标区域的定位方法、装置、设备及介质 | |
CN109472257B (zh) | 一种字符版面确定方法及装置 | |
CN115082776A (zh) | 一种基于图像识别的电能表自动检测系统及方法 | |
CN115546207A (zh) | 杂质的快速检测方法、计算设备和存储介质 | |
CN116580006A (zh) | 一种基于机器视觉的瓶装产品贴标质量检测方法 | |
CN113822869B (zh) | 一种基于机器视觉的透明软性包装袋静态检测方法及系统 | |
CN115861259A (zh) | 一种基于模板匹配的引线框架表面缺陷检测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |