CN109636815B

CN109636815B - 一种基于计算机视觉的金属板带产品标签信息识别方法

Info

Publication number: CN109636815B
Application number: CN201811558237.6A
Authority: CN
Inventors: 刘士新; 郭文瑞; 陈大力
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2018-12-19
Filing date: 2018-12-19
Publication date: 2021-05-25
Anticipated expiration: 2038-12-19
Also published as: CN109636815A

Abstract

本发明公开了一种基于计算机视觉的金属板带产品标签信息识别方法，通过轻量级网络的分割获取产品标签区域的位置，经过图像处理手段获取产品标签的坐标信息，实现透视变换的矫正，利用VGG16进行旋转文本的识别，利用方差方法进行文字旋转小角度的配准，有效地提升了文本位置的检测以及文本识别的精度，采用了YOLOv3以及ENet使得文本的矫正与位置获取更快更准，有效地较小计算机的损耗以及对于计算机性能的要求，利用CRNN中LSTM的特点实现不定长文本的检测，有效地提升检测的性能，在光照不均匀、复杂背景、多语言混合、文本复杂版式、产品标签图片旋转、仿射扭曲以及透视扭曲等自然场景下均有良好的识别性能，为金属板带产品标签信息的录入提供便利。

Description

一种基于计算机视觉的金属板带产品标签信息识别方法

技术领域

本发明涉及图像处理技术领域，尤其涉及一种集“传统图像处理、目标分割、目标检测和文本识别”于一体的金属板带产品标签文字信息识别方法。

背景技术

钢铁企业中将订购产品的相关订购信息录入到企业系统是完成入库操作的一个重要环节，且人工录入信息非常耗时耗力，当存在大量入库产品时，难以在短时间内完成，严重影响了生产效率，因此，利用现有的图像处理技术来帮助企业提高产品标签信息的录入效率是急需解决的问题。传统的文本识别方法首先进行文本定位，接着进行倾斜文本矫正，之后分割出单字后，并对单字识别，最后基于统计模型(如隐马尔科夫链，HMM)进行语义纠错，在面对自然场景下拍摄的产品标签图片所具有的复杂背景、艺术字体、低分辨率、非均匀光照、图像退化、字符形变、多语言混合、文本复杂版式等情况时，失去了文本识别的能力。现有先进的基于深度学习的文本识别方法在自然场景的文本识别中表现出了很大的优越性，但是在产品标签图片存在仿射变形、透视变形以及旋转变换等严重扭曲的情况下同样不能够准确识别文本信息，文本召回率低下。现有的文本识别技术在钢铁行业中还未得到普及和有效应用，对于钢铁企业产品标签信息还没有有效的识别技术。

发明内容

根据上述提出的技术问题，而提供一种基于计算机视觉的金属板带产品标签信息识别方法。本发明采用的技术手段如下：

一种基于计算机视觉的金属板带产品标签信息识别方法，具有如下步骤：

S1：对现场随机拍摄的金属板带产品标签图片进行分割处理：

利用轻量级ENet网络对现场随机拍摄的金属板带产品标签图片中的产品标签区域进行分割，将产品标签区域和其他背景区域分离；

进行不同颜色的标记：在产品标签区域和其他背景区域分别生成不同的掩码以示区分；

S2：将步骤S1中得到的带有分割掩码的图片进行灰度化处理，保留最佳连通区域作为产品标签区域，同时删除剩余的所有连通区域；

S3：将步骤S2得到的图片进行图像的腐蚀和膨胀处理，利用Douglas-Peucker算法将联通区域的轮廓形状近似为由4个点组成的轮廓形状，钢铁企业的产品标签轮廓是一个标准的矩形，在实际的拍摄中存在旋转、偏移和透视等情况导致产品标签图片中产品标签的轮廓发生扭曲成为不规则的矩形，利用轮廓近似实现对产品标签区域的拟合；

S4：以像素为单位确定步骤S3得到的拟合轮廓的坐标信息；

S5：根据步骤S4得到的坐标信息，利用透视变换对现场随机拍摄的金属板带产品标签图片中的产品标签区域进行校正，消除拍摄中透视变换的影响；

S6：将步骤S5中得到的校正图片输入到VGG16网络中进行产品标签区域旋转角度angle的识别：主要识别的产品标签区域旋转方向为0,90,180,270四个角度；

S7：计算步骤S5中得到的校正图片的方差信息，估计产品标签区域中的文字角度angletext；

S8：根据步骤S6和步骤S7得到的产品标签区域旋转角度angle和文字角度angletext对步骤S5得到的校正图片进行二次校正，输入到YOLOv3网络进行文本位置的检测；

S9：将步骤S8中得到的带有文本信息区域的图片进行合并和筛选，将最后切割的含有文本信息区域的图片逐个输入到CRNN网络中进行文本的识别；

S10：针对企业产品标签中的重点字段的特点建立数据字典信息，利用最短编辑距离(Levenshtein距离)方法和正则匹配对步骤S9识别的文本信息进行校准。

步骤S1的具体步骤如下：

S11：利用双线性插值的方法将现场随机拍摄的金属板带产品标签图片的尺寸大小调整为480×360；

S12：利用轻量级ENet网络对现场随机拍摄的金属板带产品标签图片中的产品标签区域进行分割，将产品标签区域和其他背景区域分离，分割的类别设置为2；

S13：将分割掩码的RGB颜色设为：分割的产品标签区域(128,0,0)，分割的背景区域(128,128,128)，分割得到的结果分别利用该颜色进行标记，作为最终的分割结果。

步骤S2的具体步骤如下：

S21：获取现场原始拍摄的金属板带产品标签图片的尺寸大小(width,height)，将步骤S13得到的尺寸为480×360的带有分割掩码的图片利用双线性插值方法调整为(width,height)并进而灰度化处理；

S22：对步骤S21得到的灰度图片进行逐像素标记，采用8邻接方式判断两个像素是否相邻，若两个像素点相邻且值相同，则认为这两个像素点在一个相互连通的区域内，且同一连通区域的所有像素点，用同一个数值来进行标记；

S23：判断连通区域的数量并计算各联通区域的大小：area₀,area₁…area_n；

S24：当联通区域的个数为1时，对该图片不进行任何操作而直接保存该图片，否则直接删除第一个连通区域area₀，依次遍历剩余的连通区域，从中选出最大的连通区域后，删除其他n-1个连通区域，其中删除的各区域变为背景，选出的最大的连通区域为最佳连通区域，也就是产品标签区域。

步骤S3的具体步骤如下：

S31：将步骤S24得到的图片进行二值化处理，二值化的最小灰度阈值设为127，最大灰度阈值设为255；

S32：利用大小为(width/100,height/100)大小的腐蚀卷积核对步骤S31得到的图片进行腐蚀，减去不规则的边缘；

S33：利用与腐蚀卷积核相同大小的膨胀卷积核对步骤S32得到的图片进行膨胀操作，将丢失的边缘信息进行恢复；

S34：查找轮廓信息，遍历每个轮廓，计算每个轮廓所形成的区域包含的像素的总数carea₀,carea₁…carea_m；

S35：计算现场随机拍摄的金属板带产品标签图片的像素总数carea,从满足carea_i/carea≥0.2的轮廓中选出具有最大像素数的轮廓；

S36：利用Douglas-Peucker算法将联通区域的轮廓形状近似为由4个点组成的轮廓形状，获取该轮廓的周长length，则算法中两个轮廓点可以连为直线的最大阈值threshold应满足：

threshold≤0.05×length。

步骤S4的具体步骤如下：

以步骤S36得到的拟合轮廓的左上角为原点，步骤S36得到的拟合轮廓的宽和高为横坐标和纵坐标，对坐标点按照左上坐标(u₀,v₀)、右上坐标(u₁,v₁)、左下坐标(u₂,v₂)和右下坐标(u₃,v₃)的顺序排列；

若抓取不到步骤S36得到的拟合轮廓的坐标信息或无法根据坐标信息对其

排列的情况下则返回坐标：左上坐标(0,0)、右上坐标(width,0)、左下坐标(0,height)和右下坐标(width,height)。

步骤S5的具体步骤如下：

S51：经透视变换将现场随机拍摄的金属板带产品标签图片投影到一个新的视平面时，现场随机拍摄的金属板带产品标签图片的图像坐标(u,v,w)和透视变换后的图像坐标(x,y,z)应满足如下关系：

x＝x′/h

y＝y′/h

其中：h是辅助坐标，不是常量，A是透视矩阵，[a₁₃,a₂₃]^T产生透视变换，[b₁,b₂]用于平移，

表示平移、旋转、缩放和偏移等线性变换，因此，透视变换后的图像坐标可表示为：

步骤S6的具体步骤如下：

S61：对步骤S51校正后图片的尺寸等比例缩放为224×224，交换图像第1个通道和最后一个通道的顺序得到BGR颜色通道的图片，且对图片image中的每个颜色通道进行去均值化处理：

meanvalue＝[Bmean,Gmean,Rmean]

image＝image-meanvalue

其中：Bmean＝103.939，Gmean＝116.779，Rmean＝123.68，分别为B、G和R三通道的均值。

S62：将步骤S61处理后的图片输入到VGG16网络中进行产品标签区域旋转角度angle的识别。

步骤S7的具体步骤如下：

S71：将步骤S51校正后图片在按照水平轴比例因子f_x和垂直轴比例因子f_y进行缩放：

f＝scale/min(mwidth,mheight)

f′＝scale/max(mwidth,mheight)

其中：scale是人工设置的期望尺度，max_scale是人工设置的最大期望尺度，mwidth和mheight是输入的图片的像素宽度和高度；

S72：使用最近插值方法对步骤S71得到的图片尺度缩小2倍，进行两次百分位滤波后将图片放大2倍恢复到原尺度大小；

S73：对步骤S72得到的图片进行二值化处理得到二值图片image′，依次遍历-45°～+45°范围的旋转角度，遍历的角度间隔为1°，对于-45°～+45°中的任一角度ang_i，将image′旋转ang_i得到图片image′_i，计算image′_i每行的均值向量，得到图片的方差信息；

S74：确定具有最大方差的旋转角度ang_i为文字角度angletext。

步骤S8的具体步骤如下：

S81：根据S62得到的产品标签区域旋转角度angle，将步骤S51校正后图片旋转角度angle；

S82：根据步骤S74得到的文字角度angletext，将S81中得到的图片再旋转角度angletext；

S83：对步骤S82得到的图片的尺寸等比例缩放为1024×1024，交换图像第1个通道和最后一个通道的顺序，并归一化到0-1之间；

S84：将步骤S83得到的图片输入到YOLOv3网络,实现快速地文本位置检测。

步骤S9的具体步骤如下：

S91：保留步骤S84中得到的带有文本信息区域的图片中置信度高于0.7的检测区域为文本区域，利用非极大值抑制过滤掉文本区域重叠度大于0.3的检测区域，抑制冗余的检测框；

S92：过滤检测区域长度和宽度小于期望阈值的检测区域；

S93：合并检测区域纵向重叠度大于等于0.6的检测区域为同一区域；

S94：合并检测区域横向间隔小于等于期望像素宽度的检测区域为同一区域；

S95：根据步骤S94得到的文本区域的坐标信息对文本区域进行切割得到含有文本的图片集合IM＝{IM₀,IM₁,IM₂,…,IM_t}；

S96：依次遍历图片集合IM，将图片集合中的每张图片IM_i转换为灰度图后逐个输入到CRNN网络中进行文本的识别，得到文本集合TX＝{TX₀,TX₁,TX₂,…,TX_t}；

S97：返回识别的文本信息，文本的位置信息，文本的旋转角度等，在步骤S82得到的图片中标注YOLOv3检测框，返回可视化视图；

步骤S10的具体步骤如下：

S101：分别建立钢厂、产品名称、收货单位以及订货单位的数据字典信息；

S102：遍历识别的文本信息，计算各文本信息与数据字典信息中各钢厂的最短编辑距离并进行求和得D_i，对于每一个文本TX_i，确定具有最小D_i值对应的识别文本为钢厂，并返回D_i求和元素中的前TOPK个钢厂为参考匹配钢厂；

S103：按照步骤S102的方式依次对产品名称、收货单位以及订货单位进行匹配；

S104:对于日期、规格、钢卷号和重量等信息，分别按照各自的特点，利用正则匹配方法进行重点字段的过滤，得到相应的结果。

由于采用了上述技术方案，本发明提供的一种基于计算机视觉的金属板带产品标签信息识别方法，通过轻量级网络的分割获取产品标签区域的位置，从而经过经典的图像处理手段获取产品标签的坐标信息(以像素为单位)，从而实现透视变换的矫正，利用了VGG16进行了旋转文本的识别，利用方差方法进行文字旋转小角度的配准，有效地提升了文本位置的检测以及文本识别的精度，本发明中采用了YOLOv3以及ENet等网络使得文本的矫正与位置获取更快更准，有效地较小计算机的损耗以及对于计算机性能的要求，利用CRNN中LSTM的特点实现不定长文本的检测，有效地提升了检测的性能，在光照不均匀、复杂背景、多语言混合、文本复杂版式、产品标签图片旋转、仿射扭曲以及透视扭曲等自然场景下均有良好的识别性能，为金属板带产品标签信息的录入提供便利。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的具体实施方式中基于计算机视觉的金属板带产品标签信息识别方法的流程图；

图2为本发明的具体实施方式中现场随机拍摄的金属板带产品标签图片灰度示意图；

图3为本发明的具体实施方式中经ENet分割处理后的分割结果灰度示意图；

图4为本发明的具体实施方式中经图像处理后保留的最佳连通区域灰度示意图；

图5为本发明的具体实施方式中腐蚀处理后灰度示意图；

图6为本发明的具体实施方式中膨胀处理后灰度示意图；

图7为本发明的具体实施方式中拟合轮廓灰度示意图；

图8为本发明的具体实施方式中现场随机拍摄的金属板带产品标签图片映射结果灰度示意图；

图9为本发明的具体实施方式中现场随机拍摄的金属板带产品标签图片的产品标签区域透视校正结果灰度示意图；

图10为本发明的具体实施方式中旋转校正和文字倾斜角度校正后的产品标签区域灰度示意图；

图11为本发明的具体实施方式中产品标签图像文字信息识别结果灰度示意图；

图12为本发明的具体实施方式中YOLOv3检测的产品标签图像中文本位置结果灰度示意图；

图13为本发明的具体实施方式中信息的匹配结果示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1-图13所示，一种基于计算机视觉的金属板带产品标签信息识别方法，其特征在于具有如下步骤：

步骤S1的具体步骤如下：

步骤S2的具体步骤如下：

S24：当联通区域的个数为1时，对该图片不进行任何操作而直接保存该图片，否则直接删除第一个连通区域area₀，依次遍历剩余的连通区域，从中选出最大的连通区域后，删除其他n-1个连通区域，其中删除的各区域变为背景，选出的最大的连通区域该步骤选出的连通区域为最佳连通区域，也就是产品标签区域。如图4所示，其中黑色为背景区域，白色为产品标签区域。

S3：将步骤S2得到的图片进行图像的腐蚀和膨胀处理，利用Douglas-Peucker算法将联通区域的轮廓形状近似为由4个点组成的轮廓形状，利用轮廓近似实现对产品标签区域的拟合；

步骤S3的具体步骤如下：

threshold≤0.05×length。

如图8所示，图中对于产品标签区域轮廓的近似标记有3条不同灰度值的线条，其中有一条是轮廓线条，另外一条是轮廓的保守近似，而只含有四个角点或者顶点的线条是最终确定的近似轮廓线。

S4：以像素为单位确定步骤S3得到的拟合轮廓的坐标信息；

步骤S4的具体步骤如下：

若抓取不到步骤S36得到的拟合轮廓的坐标信息或无法根据坐标信息对其排列的情况下则返回坐标：左上坐标(0,0)、右上坐标(width,0)、左下坐标(0,height)和右下坐标(width,height)。

步骤S5的具体步骤如下：

x＝x′/h

y＝y′/h

如图9所示，实现了产品标签区域的单独抽取和矫正，将背景直接删除，在透视矫正后的图片中不予显示。

步骤S6的具体步骤如下：

meanvalue＝[Bmean,Gmean,Rmean]

image＝image-meanvalue

步骤S7的具体步骤如下：

f＝scale/min(mwidth,mheight)

f′＝scale/max(mwidth,mheight)

S74：确定具有最大方差的旋转角度ang_i为文字角度angletext。

步骤S8的具体步骤如下：

步骤S9的具体步骤如下：

S92：过滤检测区域长度和宽度小于期望阈值的检测区域；

如图11所示，识别的内容包括每条文本的文本内容、宽度、高度、在产品标签区域中的坐标以及文字的方向等信息，如图12所示，图中每条文本四周的灰色细线条即为标注的文本框。

S10：针对企业产品标签中的重点字段的特点建立数据字典信息，利用最短编辑距离方法和正则匹配对步骤S9识别的文本信息进行校准。

步骤S10的具体步骤如下：

如图13所示，其中对于钢厂和产品名称的匹配结果展示了与原文本差异性最小的前五个字典数据，对于时间、标准、规格、钢卷号以及重量的匹配分别使用了对应的文本的位置信息以及正则匹配方式进行重点字段的匹配和校正；如图13所示，对于钢厂和产品名称的匹配返回了字典中与原文本相似度最高的前5个字典数据，对于重量、时间等信息均采用了正则匹配的方法。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于计算机视觉的金属板带产品标签信息识别方法，其特征在于具有如下步骤：

S3：将步骤S2得到的图片进行图像的腐蚀和膨胀处理，利用Douglas-Peucker算法将连通区域的轮廓形状近似为由4个点组成的轮廓形状，利用轮廓近似实现对产品标签区域的拟合；

S4：以像素为单位确定步骤S3得到的拟合轮廓的坐标信息；

S6：将步骤S5中得到的校正图片输入到VGG16网络中进行产品标签区域旋转角度angle的识别：主要识别的产品标签区域旋转角度为0°,90°,180°,270°；

S9：将步骤S8中得到的带有文本信息的区域进行合并和筛选，将最后切割的含有文本信息的区域逐个输入到CRNN网络中进行文本的识别；

S10：针对企业产品标签中的重点字段的特点建立数据字典信息，利用最短编辑距离方法和正则匹配对步骤S9识别的文本信息进行校准；

步骤S5的具体步骤如下：

x＝x′/h

y＝y′/h

表示平移、旋转、缩放和偏移线性变换，因此，透视变换后的图像坐标可表示为：

步骤S1的具体步骤如下：

S13：将分割掩码的RGB颜色设为：分割的产品标签区域(128,0,0)，分割的背景区域(128,128,128)，分割得到的结果分别利用相应的颜色进行标记，作为最终的分割结果；

步骤S2的具体步骤如下：

S21：获取现场拍摄的金属板带产品标签图片的尺寸大小(width,height)，将步骤S13得到的尺寸为480×360的带有分割掩码的图片利用双线性插值方法调整为(width,height)并进而灰度化处理；

S23：判断连通区域的数量并计算各连通区域的大小：area₀,area₁…area_n；

S24：当连通区域的个数为1时，对该灰度图片不进行任何操作而直接保存该图片，否则直接删除第一个连通区域area₀，依次遍历剩余的连通区域，从中选出最大的连通区域后，删除其他n-1个连通区域，其中删除的各区域变为背景，选出的最大的连通区域为最佳连通区域，也就是产品标签区域，n代表连通区域的数量；

步骤S3的具体步骤如下：

S32：利用大小为(width/100,height/100)的腐蚀卷积核对步骤S31得到的图片进行腐蚀，减去不规则的边缘；

S34：查找轮廓信息，遍历每个轮廓，计算每个轮廓所形成的区域包含的像素的总数carea₀,carea₁…carea_m，m代表像素的个数

S35：计算现场拍摄的金属板带产品标签图片的像素总数carea,从满足carea_i/carea≥0.2的轮廓中选出具有最大像素数的轮廓；

S36：利用Douglas-Peucker算法将连通区域的轮廓形状近似为由4个点组成的轮廓形状，获取具有最大像素数的轮廓的周长length，则算法中两个轮廓点可以连为直线的最大阈值threshold应满足：

threshold≤0.05×length；

步骤S4的具体步骤如下：

若抓取不到步骤S36得到的拟合轮廓的坐标信息或无法根据坐标信息对其排列的情况下则返回坐标：左上坐标(0,0)、右上坐标(width,0)、左下坐标(0,height)和右下坐标(width,height)；

步骤S6的具体步骤如下：

meanvalue＝[Bmean,Gmean,Rmean]

image＝image-meanvalue

其中：Bmean＝103.939，Gmean＝116.779，Rmean＝123.68，分别为B、G和R三通道的均值；

S62：将步骤S61处理后的图片输入到VGG16网络中进行产品标签区域旋转角度angle的识别；

步骤S7的具体步骤如下：

f＝scale/min(mwidth,mheight)

f′＝scale/max(mwidth,mheight)

S73：对步骤S72得到的图片进行二值化处理得到二值图片image′，依次遍历-45°～+45°范围的旋转角度，遍历的角度间隔为1°，对于-45°～+45°中的任一角度ang_i，都可以将image′旋转ang_i得到图片image′_i，计算image′_i每行的均值向量，得到图片的方差信息；

S74：确定具有最大方差的旋转角度ang_i为文字角度angletext；

步骤S8的具体步骤如下：

S84：将步骤S83得到的图片输入到YOLOv3网络,实现快速地文本位置检测；

步骤S9的具体步骤如下：

S92：过滤检测区域长度和宽度小于期望阈值的检测区域；

S95：根据步骤S94得到的文本区域的坐标信息对文本区域进行切割得到含有文本的图片集合IM＝{IM₀,IM₁,IM₂,…,IM_t}，t代表文本的个数

S97：返回识别的文本信息，文本的位置信息，文本的旋转角度以及标注有YOLOv3检测框的可视化视图；

步骤S10的具体步骤如下：

S104:对于日期、规格、钢卷号和重量信息，分别按照各自的特点，利用正则匹配方法进行重点字段的过滤，得到相应的结果。