CN109636815B - 一种基于计算机视觉的金属板带产品标签信息识别方法 - Google Patents

一种基于计算机视觉的金属板带产品标签信息识别方法 Download PDF

Info

Publication number
CN109636815B
CN109636815B CN201811558237.6A CN201811558237A CN109636815B CN 109636815 B CN109636815 B CN 109636815B CN 201811558237 A CN201811558237 A CN 201811558237A CN 109636815 B CN109636815 B CN 109636815B
Authority
CN
China
Prior art keywords
picture
text
area
product label
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811558237.6A
Other languages
English (en)
Other versions
CN109636815A (zh
Inventor
刘士新
郭文瑞
陈大力
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeastern University China
Original Assignee
Northeastern University China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeastern University China filed Critical Northeastern University China
Priority to CN201811558237.6A priority Critical patent/CN109636815B/zh
Publication of CN109636815A publication Critical patent/CN109636815A/zh
Application granted granted Critical
Publication of CN109636815B publication Critical patent/CN109636815B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/187Segmentation; Edge detection involving region growing; involving region merging; involving connected component labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/242Aligning, centring, orientation detection or correction of the image by image rotation, e.g. by 90 degrees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/243Aligning, centring, orientation detection or correction of the image by compensating for image skew or non-uniform image deformations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于计算机视觉的金属板带产品标签信息识别方法,通过轻量级网络的分割获取产品标签区域的位置,经过图像处理手段获取产品标签的坐标信息,实现透视变换的矫正,利用VGG16进行旋转文本的识别,利用方差方法进行文字旋转小角度的配准,有效地提升了文本位置的检测以及文本识别的精度,采用了YOLOv3以及ENet使得文本的矫正与位置获取更快更准,有效地较小计算机的损耗以及对于计算机性能的要求,利用CRNN中LSTM的特点实现不定长文本的检测,有效地提升检测的性能,在光照不均匀、复杂背景、多语言混合、文本复杂版式、产品标签图片旋转、仿射扭曲以及透视扭曲等自然场景下均有良好的识别性能,为金属板带产品标签信息的录入提供便利。

Description

一种基于计算机视觉的金属板带产品标签信息识别方法
技术领域
本发明涉及图像处理技术领域,尤其涉及一种集“传统图像处理、目标分割、目标检测和文本识别”于一体的金属板带产品标签文字信息识别方法。
背景技术
钢铁企业中将订购产品的相关订购信息录入到企业系统是完成入库操作的一个重要环节,且人工录入信息非常耗时耗力,当存在大量入库产品时,难以在短时间内完成,严重影响了生产效率,因此,利用现有的图像处理技术来帮助企业提高产品标签信息的录入效率是急需解决的问题。传统的文本识别方法首先进行文本定位,接着进行倾斜文本矫正,之后分割出单字后,并对单字识别,最后基于统计模型(如隐马尔科夫链,HMM)进行语义纠错,在面对自然场景下拍摄的产品标签图片所具有的复杂背景、艺术字体、低分辨率、非均匀光照、图像退化、字符形变、多语言混合、文本复杂版式等情况时,失去了文本识别的能力。现有先进的基于深度学习的文本识别方法在自然场景的文本识别中表现出了很大的优越性,但是在产品标签图片存在仿射变形、透视变形以及旋转变换等严重扭曲的情况下同样不能够准确识别文本信息,文本召回率低下。现有的文本识别技术在钢铁行业中还未得到普及和有效应用,对于钢铁企业产品标签信息还没有有效的识别技术。
发明内容
根据上述提出的技术问题,而提供一种基于计算机视觉的金属板带产品标签信息识别方法。本发明采用的技术手段如下:
一种基于计算机视觉的金属板带产品标签信息识别方法,具有如下步骤:
S1:对现场随机拍摄的金属板带产品标签图片进行分割处理:
利用轻量级ENet网络对现场随机拍摄的金属板带产品标签图片中的产品标签区域进行分割,将产品标签区域和其他背景区域分离;
进行不同颜色的标记:在产品标签区域和其他背景区域分别生成不同的掩码以示区分;
S2:将步骤S1中得到的带有分割掩码的图片进行灰度化处理,保留最佳连通区域作为产品标签区域,同时删除剩余的所有连通区域;
S3:将步骤S2得到的图片进行图像的腐蚀和膨胀处理,利用Douglas-Peucker算法将联通区域的轮廓形状近似为由4个点组成的轮廓形状,钢铁企业的产品标签轮廓是一个标准的矩形,在实际的拍摄中存在旋转、偏移和透视等情况导致产品标签图片中产品标签的轮廓发生扭曲成为不规则的矩形,利用轮廓近似实现对产品标签区域的拟合;
S4:以像素为单位确定步骤S3得到的拟合轮廓的坐标信息;
S5:根据步骤S4得到的坐标信息,利用透视变换对现场随机拍摄的金属板带产品标签图片中的产品标签区域进行校正,消除拍摄中透视变换的影响;
S6:将步骤S5中得到的校正图片输入到VGG16网络中进行产品标签区域旋转角度angle的识别:主要识别的产品标签区域旋转方向为0,90,180,270四个角度;
S7:计算步骤S5中得到的校正图片的方差信息,估计产品标签区域中的文字角度angletext;
S8:根据步骤S6和步骤S7得到的产品标签区域旋转角度angle和文字角度angletext对步骤S5得到的校正图片进行二次校正,输入到YOLOv3网络进行文本位置的检测;
S9:将步骤S8中得到的带有文本信息区域的图片进行合并和筛选,将最后切割的含有文本信息区域的图片逐个输入到CRNN网络中进行文本的识别;
S10:针对企业产品标签中的重点字段的特点建立数据字典信息,利用最短编辑距离(Levenshtein距离)方法和正则匹配对步骤S9识别的文本信息进行校准。
步骤S1的具体步骤如下:
S11:利用双线性插值的方法将现场随机拍摄的金属板带产品标签图片的尺寸大小调整为480×360;
S12:利用轻量级ENet网络对现场随机拍摄的金属板带产品标签图片中的产品标签区域进行分割,将产品标签区域和其他背景区域分离,分割的类别设置为2;
S13:将分割掩码的RGB颜色设为:分割的产品标签区域(128,0,0),分割的背景区域(128,128,128),分割得到的结果分别利用该颜色进行标记,作为最终的分割结果。
步骤S2的具体步骤如下:
S21:获取现场原始拍摄的金属板带产品标签图片的尺寸大小(width,height),将步骤S13得到的尺寸为480×360的带有分割掩码的图片利用双线性插值方法调整为(width,height)并进而灰度化处理;
S22:对步骤S21得到的灰度图片进行逐像素标记,采用8邻接方式判断两个像素是否相邻,若两个像素点相邻且值相同,则认为这两个像素点在一个相互连通的区域内,且同一连通区域的所有像素点,用同一个数值来进行标记;
S23:判断连通区域的数量并计算各联通区域的大小:area0,area1…arean
S24:当联通区域的个数为1时,对该图片不进行任何操作而直接保存该图片,否则直接删除第一个连通区域area0,依次遍历剩余的连通区域,从中选出最大的连通区域后,删除其他n-1个连通区域,其中删除的各区域变为背景,选出的最大的连通区域为最佳连通区域,也就是产品标签区域。
步骤S3的具体步骤如下:
S31:将步骤S24得到的图片进行二值化处理,二值化的最小灰度阈值设为127,最大灰度阈值设为255;
S32:利用大小为(width/100,height/100)大小的腐蚀卷积核对步骤S31得到的图片进行腐蚀,减去不规则的边缘;
S33:利用与腐蚀卷积核相同大小的膨胀卷积核对步骤S32得到的图片进行膨胀操作,将丢失的边缘信息进行恢复;
S34:查找轮廓信息,遍历每个轮廓,计算每个轮廓所形成的区域包含的像素的总数carea0,carea1…caream
S35:计算现场随机拍摄的金属板带产品标签图片的像素总数carea,从满足careai/carea≥0.2的轮廓中选出具有最大像素数的轮廓;
S36:利用Douglas-Peucker算法将联通区域的轮廓形状近似为由4个点组成的轮廓形状,获取该轮廓的周长length,则算法中两个轮廓点可以连为直线的最大阈值threshold应满足:
threshold≤0.05×length。
步骤S4的具体步骤如下:
以步骤S36得到的拟合轮廓的左上角为原点,步骤S36得到的拟合轮廓的宽和高为横坐标和纵坐标,对坐标点按照左上坐标(u0,v0)、右上坐标(u1,v1)、左下坐标(u2,v2)和右下坐标(u3,v3)的顺序排列;
若抓取不到步骤S36得到的拟合轮廓的坐标信息或无法根据坐标信息对其
排列的情况下则返回坐标:左上坐标(0,0)、右上坐标(width,0)、左下坐标(0,height)和右下坐标(width,height)。
步骤S5的具体步骤如下:
S51:经透视变换将现场随机拍摄的金属板带产品标签图片投影到一个新的视平面时,现场随机拍摄的金属板带产品标签图片的图像坐标(u,v,w)和透视变换后的图像坐标(x,y,z)应满足如下关系:
Figure BDA0001912557230000041
x=x′/h
y=y′/h
其中:h是辅助坐标,不是常量,A是透视矩阵,[a13,a23]T产生透视变换,[b1,b2]用于平移,
Figure BDA0001912557230000042
表示平移、旋转、缩放和偏移等线性变换,因此,透视变换后的图像坐标可表示为:
Figure BDA0001912557230000043
Figure BDA0001912557230000044
步骤S6的具体步骤如下:
S61:对步骤S51校正后图片的尺寸等比例缩放为224×224,交换图像第1个通道和最后一个通道的顺序得到BGR颜色通道的图片,且对图片image中的每个颜色通道进行去均值化处理:
meanvalue=[Bmean,Gmean,Rmean]
image=image-meanvalue
其中:Bmean=103.939,Gmean=116.779,Rmean=123.68,分别为B、G和R三通道的均值。
S62:将步骤S61处理后的图片输入到VGG16网络中进行产品标签区域旋转角度angle的识别。
步骤S7的具体步骤如下:
S71:将步骤S51校正后图片在按照水平轴比例因子fx和垂直轴比例因子fy进行缩放:
f=scale/min(mwidth,mheight)
f′=scale/max(mwidth,mheight)
Figure BDA0001912557230000051
其中:scale是人工设置的期望尺度,max_scale是人工设置的最大期望尺度,mwidth和mheight是输入的图片的像素宽度和高度;
S72:使用最近插值方法对步骤S71得到的图片尺度缩小2倍,进行两次百分位滤波后将图片放大2倍恢复到原尺度大小;
S73:对步骤S72得到的图片进行二值化处理得到二值图片image′,依次遍历-45°~+45°范围的旋转角度,遍历的角度间隔为1°,对于-45°~+45°中的任一角度angi,将image′旋转angi得到图片image′i,计算image′i每行的均值向量,得到图片的方差信息;
S74:确定具有最大方差的旋转角度angi为文字角度angletext。
步骤S8的具体步骤如下:
S81:根据S62得到的产品标签区域旋转角度angle,将步骤S51校正后图片旋转角度angle;
S82:根据步骤S74得到的文字角度angletext,将S81中得到的图片再旋转角度angletext;
S83:对步骤S82得到的图片的尺寸等比例缩放为1024×1024,交换图像第1个通道和最后一个通道的顺序,并归一化到0-1之间;
S84:将步骤S83得到的图片输入到YOLOv3网络,实现快速地文本位置检测。
步骤S9的具体步骤如下:
S91:保留步骤S84中得到的带有文本信息区域的图片中置信度高于0.7的检测区域为文本区域,利用非极大值抑制过滤掉文本区域重叠度大于0.3的检测区域,抑制冗余的检测框;
S92:过滤检测区域长度和宽度小于期望阈值的检测区域;
S93:合并检测区域纵向重叠度大于等于0.6的检测区域为同一区域;
S94:合并检测区域横向间隔小于等于期望像素宽度的检测区域为同一区域;
S95:根据步骤S94得到的文本区域的坐标信息对文本区域进行切割得到含有文本的图片集合IM={IM0,IM1,IM2,…,IMt};
S96:依次遍历图片集合IM,将图片集合中的每张图片IMi转换为灰度图后逐个输入到CRNN网络中进行文本的识别,得到文本集合TX={TX0,TX1,TX2,…,TXt};
S97:返回识别的文本信息,文本的位置信息,文本的旋转角度等,在步骤S82得到的图片中标注YOLOv3检测框,返回可视化视图;
步骤S10的具体步骤如下:
S101:分别建立钢厂、产品名称、收货单位以及订货单位的数据字典信息;
S102:遍历识别的文本信息,计算各文本信息与数据字典信息中各钢厂的最短编辑距离并进行求和得Di,对于每一个文本TXi,确定具有最小Di值对应的识别文本为钢厂,并返回Di求和元素中的前TOPK个钢厂为参考匹配钢厂;
S103:按照步骤S102的方式依次对产品名称、收货单位以及订货单位进行匹配;
S104:对于日期、规格、钢卷号和重量等信息,分别按照各自的特点,利用正则匹配方法进行重点字段的过滤,得到相应的结果。
由于采用了上述技术方案,本发明提供的一种基于计算机视觉的金属板带产品标签信息识别方法,通过轻量级网络的分割获取产品标签区域的位置,从而经过经典的图像处理手段获取产品标签的坐标信息(以像素为单位),从而实现透视变换的矫正,利用了VGG16进行了旋转文本的识别,利用方差方法进行文字旋转小角度的配准,有效地提升了文本位置的检测以及文本识别的精度,本发明中采用了YOLOv3以及ENet等网络使得文本的矫正与位置获取更快更准,有效地较小计算机的损耗以及对于计算机性能的要求,利用CRNN中LSTM的特点实现不定长文本的检测,有效地提升了检测的性能,在光照不均匀、复杂背景、多语言混合、文本复杂版式、产品标签图片旋转、仿射扭曲以及透视扭曲等自然场景下均有良好的识别性能,为金属板带产品标签信息的录入提供便利。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的具体实施方式中基于计算机视觉的金属板带产品标签信息识别方法的流程图;
图2为本发明的具体实施方式中现场随机拍摄的金属板带产品标签图片灰度示意图;
图3为本发明的具体实施方式中经ENet分割处理后的分割结果灰度示意图;
图4为本发明的具体实施方式中经图像处理后保留的最佳连通区域灰度示意图;
图5为本发明的具体实施方式中腐蚀处理后灰度示意图;
图6为本发明的具体实施方式中膨胀处理后灰度示意图;
图7为本发明的具体实施方式中拟合轮廓灰度示意图;
图8为本发明的具体实施方式中现场随机拍摄的金属板带产品标签图片映射结果灰度示意图;
图9为本发明的具体实施方式中现场随机拍摄的金属板带产品标签图片的产品标签区域透视校正结果灰度示意图;
图10为本发明的具体实施方式中旋转校正和文字倾斜角度校正后的产品标签区域灰度示意图;
图11为本发明的具体实施方式中产品标签图像文字信息识别结果灰度示意图;
图12为本发明的具体实施方式中YOLOv3检测的产品标签图像中文本位置结果灰度示意图;
图13为本发明的具体实施方式中信息的匹配结果示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1-图13所示,一种基于计算机视觉的金属板带产品标签信息识别方法,其特征在于具有如下步骤:
S1:对现场随机拍摄的金属板带产品标签图片进行分割处理:
利用轻量级ENet网络对现场随机拍摄的金属板带产品标签图片中的产品标签区域进行分割,将产品标签区域和其他背景区域分离;
进行不同颜色的标记:在产品标签区域和其他背景区域分别生成不同的掩码以示区分;
步骤S1的具体步骤如下:
S11:利用双线性插值的方法将现场随机拍摄的金属板带产品标签图片的尺寸大小调整为480×360;
S12:利用轻量级ENet网络对现场随机拍摄的金属板带产品标签图片中的产品标签区域进行分割,将产品标签区域和其他背景区域分离,分割的类别设置为2;
S13:将分割掩码的RGB颜色设为:分割的产品标签区域(128,0,0),分割的背景区域(128,128,128),分割得到的结果分别利用该颜色进行标记,作为最终的分割结果。
S2:将步骤S1中得到的带有分割掩码的图片进行灰度化处理,保留最佳连通区域作为产品标签区域,同时删除剩余的所有连通区域;
步骤S2的具体步骤如下:
S21:获取现场原始拍摄的金属板带产品标签图片的尺寸大小(width,height),将步骤S13得到的尺寸为480×360的带有分割掩码的图片利用双线性插值方法调整为(width,height)并进而灰度化处理;
S22:对步骤S21得到的灰度图片进行逐像素标记,采用8邻接方式判断两个像素是否相邻,若两个像素点相邻且值相同,则认为这两个像素点在一个相互连通的区域内,且同一连通区域的所有像素点,用同一个数值来进行标记;
S23:判断连通区域的数量并计算各联通区域的大小:area0,area1…arean
S24:当联通区域的个数为1时,对该图片不进行任何操作而直接保存该图片,否则直接删除第一个连通区域area0,依次遍历剩余的连通区域,从中选出最大的连通区域后,删除其他n-1个连通区域,其中删除的各区域变为背景,选出的最大的连通区域该步骤选出的连通区域为最佳连通区域,也就是产品标签区域。如图4所示,其中黑色为背景区域,白色为产品标签区域。
S3:将步骤S2得到的图片进行图像的腐蚀和膨胀处理,利用Douglas-Peucker算法将联通区域的轮廓形状近似为由4个点组成的轮廓形状,利用轮廓近似实现对产品标签区域的拟合;
步骤S3的具体步骤如下:
S31:将步骤S24得到的图片进行二值化处理,二值化的最小灰度阈值设为127,最大灰度阈值设为255;
S32:利用大小为(width/100,height/100)大小的腐蚀卷积核对步骤S31得到的图片进行腐蚀,减去不规则的边缘;
S33:利用与腐蚀卷积核相同大小的膨胀卷积核对步骤S32得到的图片进行膨胀操作,将丢失的边缘信息进行恢复;
S34:查找轮廓信息,遍历每个轮廓,计算每个轮廓所形成的区域包含的像素的总数carea0,carea1…caream
S35:计算现场随机拍摄的金属板带产品标签图片的像素总数carea,从满足careai/carea≥0.2的轮廓中选出具有最大像素数的轮廓;
S36:利用Douglas-Peucker算法将联通区域的轮廓形状近似为由4个点组成的轮廓形状,获取该轮廓的周长length,则算法中两个轮廓点可以连为直线的最大阈值threshold应满足:
threshold≤0.05×length。
如图8所示,图中对于产品标签区域轮廓的近似标记有3条不同灰度值的线条,其中有一条是轮廓线条,另外一条是轮廓的保守近似,而只含有四个角点或者顶点的线条是最终确定的近似轮廓线。
S4:以像素为单位确定步骤S3得到的拟合轮廓的坐标信息;
步骤S4的具体步骤如下:
以步骤S36得到的拟合轮廓的左上角为原点,步骤S36得到的拟合轮廓的宽和高为横坐标和纵坐标,对坐标点按照左上坐标(u0,v0)、右上坐标(u1,v1)、左下坐标(u2,v2)和右下坐标(u3,v3)的顺序排列;
若抓取不到步骤S36得到的拟合轮廓的坐标信息或无法根据坐标信息对其排列的情况下则返回坐标:左上坐标(0,0)、右上坐标(width,0)、左下坐标(0,height)和右下坐标(width,height)。
S5:根据步骤S4得到的坐标信息,利用透视变换对现场随机拍摄的金属板带产品标签图片中的产品标签区域进行校正,消除拍摄中透视变换的影响;
步骤S5的具体步骤如下:
S51:经透视变换将现场随机拍摄的金属板带产品标签图片投影到一个新的视平面时,现场随机拍摄的金属板带产品标签图片的图像坐标(u,v,w)和透视变换后的图像坐标(x,y,z)应满足如下关系:
Figure BDA0001912557230000101
x=x′/h
y=y′/h
其中:h是辅助坐标,不是常量,A是透视矩阵,[a13,a23]T产生透视变换,[b1,b2]用于平移,
Figure BDA0001912557230000102
表示平移、旋转、缩放和偏移等线性变换,因此,透视变换后的图像坐标可表示为:
Figure BDA0001912557230000103
Figure BDA0001912557230000104
如图9所示,实现了产品标签区域的单独抽取和矫正,将背景直接删除,在透视矫正后的图片中不予显示。
S6:将步骤S5中得到的校正图片输入到VGG16网络中进行产品标签区域旋转角度angle的识别:主要识别的产品标签区域旋转方向为0,90,180,270四个角度;
步骤S6的具体步骤如下:
S61:对步骤S51校正后图片的尺寸等比例缩放为224×224,交换图像第1个通道和最后一个通道的顺序得到BGR颜色通道的图片,且对图片image中的每个颜色通道进行去均值化处理:
meanvalue=[Bmean,Gmean,Rmean]
image=image-meanvalue
其中:Bmean=103.939,Gmean=116.779,Rmean=123.68,分别为B、G和R三通道的均值。
S62:将步骤S61处理后的图片输入到VGG16网络中进行产品标签区域旋转角度angle的识别。
S7:计算步骤S5中得到的校正图片的方差信息,估计产品标签区域中的文字角度angletext;
步骤S7的具体步骤如下:
S71:将步骤S51校正后图片在按照水平轴比例因子fx和垂直轴比例因子fy进行缩放:
f=scale/min(mwidth,mheight)
f′=scale/max(mwidth,mheight)
Figure BDA0001912557230000111
其中:scale是人工设置的期望尺度,max_scale是人工设置的最大期望尺度,mwidth和mheight是输入的图片的像素宽度和高度;
S72:使用最近插值方法对步骤S71得到的图片尺度缩小2倍,进行两次百分位滤波后将图片放大2倍恢复到原尺度大小;
S73:对步骤S72得到的图片进行二值化处理得到二值图片image′,依次遍历-45°~+45°范围的旋转角度,遍历的角度间隔为1°,对于-45°~+45°中的任一角度angi,将image′旋转angi得到图片image′i,计算image′i每行的均值向量,得到图片的方差信息;
S74:确定具有最大方差的旋转角度angi为文字角度angletext。
S8:根据步骤S6和步骤S7得到的产品标签区域旋转角度angle和文字角度angletext对步骤S5得到的校正图片进行二次校正,输入到YOLOv3网络进行文本位置的检测;
步骤S8的具体步骤如下:
S81:根据S62得到的产品标签区域旋转角度angle,将步骤S51校正后图片旋转角度angle;
S82:根据步骤S74得到的文字角度angletext,将S81中得到的图片再旋转角度angletext;
S83:对步骤S82得到的图片的尺寸等比例缩放为1024×1024,交换图像第1个通道和最后一个通道的顺序,并归一化到0-1之间;
S84:将步骤S83得到的图片输入到YOLOv3网络,实现快速地文本位置检测。
S9:将步骤S8中得到的带有文本信息区域的图片进行合并和筛选,将最后切割的含有文本信息区域的图片逐个输入到CRNN网络中进行文本的识别;
步骤S9的具体步骤如下:
S91:保留步骤S84中得到的带有文本信息区域的图片中置信度高于0.7的检测区域为文本区域,利用非极大值抑制过滤掉文本区域重叠度大于0.3的检测区域,抑制冗余的检测框;
S92:过滤检测区域长度和宽度小于期望阈值的检测区域;
S93:合并检测区域纵向重叠度大于等于0.6的检测区域为同一区域;
S94:合并检测区域横向间隔小于等于期望像素宽度的检测区域为同一区域;
S95:根据步骤S94得到的文本区域的坐标信息对文本区域进行切割得到含有文本的图片集合IM={IM0,IM1,IM2,…,IMt};
S96:依次遍历图片集合IM,将图片集合中的每张图片IMi转换为灰度图后逐个输入到CRNN网络中进行文本的识别,得到文本集合TX={TX0,TX1,TX2,…,TXt};
S97:返回识别的文本信息,文本的位置信息,文本的旋转角度等,在步骤S82得到的图片中标注YOLOv3检测框,返回可视化视图;
如图11所示,识别的内容包括每条文本的文本内容、宽度、高度、在产品标签区域中的坐标以及文字的方向等信息,如图12所示,图中每条文本四周的灰色细线条即为标注的文本框。
S10:针对企业产品标签中的重点字段的特点建立数据字典信息,利用最短编辑距离方法和正则匹配对步骤S9识别的文本信息进行校准。
步骤S10的具体步骤如下:
S101:分别建立钢厂、产品名称、收货单位以及订货单位的数据字典信息;
S102:遍历识别的文本信息,计算各文本信息与数据字典信息中各钢厂的最短编辑距离并进行求和得Di,对于每一个文本TXi,确定具有最小Di值对应的识别文本为钢厂,并返回Di求和元素中的前TOPK个钢厂为参考匹配钢厂;
S103:按照步骤S102的方式依次对产品名称、收货单位以及订货单位进行匹配;
S104:对于日期、规格、钢卷号和重量等信息,分别按照各自的特点,利用正则匹配方法进行重点字段的过滤,得到相应的结果。
如图13所示,其中对于钢厂和产品名称的匹配结果展示了与原文本差异性最小的前五个字典数据,对于时间、标准、规格、钢卷号以及重量的匹配分别使用了对应的文本的位置信息以及正则匹配方式进行重点字段的匹配和校正;如图13所示,对于钢厂和产品名称的匹配返回了字典中与原文本相似度最高的前5个字典数据,对于重量、时间等信息均采用了正则匹配的方法。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (1)

1.一种基于计算机视觉的金属板带产品标签信息识别方法,其特征在于具有如下步骤:
S1:对现场随机拍摄的金属板带产品标签图片进行分割处理:
利用轻量级ENet网络对现场随机拍摄的金属板带产品标签图片中的产品标签区域进行分割,将产品标签区域和其他背景区域分离;
进行不同颜色的标记:在产品标签区域和其他背景区域分别生成不同的掩码以示区分;
S2:将步骤S1中得到的带有分割掩码的图片进行灰度化处理,保留最佳连通区域作为产品标签区域,同时删除剩余的所有连通区域;
S3:将步骤S2得到的图片进行图像的腐蚀和膨胀处理,利用Douglas-Peucker算法将连通区域的轮廓形状近似为由4个点组成的轮廓形状,利用轮廓近似实现对产品标签区域的拟合;
S4:以像素为单位确定步骤S3得到的拟合轮廓的坐标信息;
S5:根据步骤S4得到的坐标信息,利用透视变换对现场随机拍摄的金属板带产品标签图片中的产品标签区域进行校正,消除拍摄中透视变换的影响;
S6:将步骤S5中得到的校正图片输入到VGG16网络中进行产品标签区域旋转角度angle的识别:主要识别的产品标签区域旋转角度为0°,90°,180°,270°;
S7:计算步骤S5中得到的校正图片的方差信息,估计产品标签区域中的文字角度angletext;
S8:根据步骤S6和步骤S7得到的产品标签区域旋转角度angle和文字角度angletext对步骤S5得到的校正图片进行二次校正,输入到YOLOv3网络进行文本位置的检测;
S9:将步骤S8中得到的带有文本信息的区域进行合并和筛选,将最后切割的含有文本信息的区域逐个输入到CRNN网络中进行文本的识别;
S10:针对企业产品标签中的重点字段的特点建立数据字典信息,利用最短编辑距离方法和正则匹配对步骤S9识别的文本信息进行校准;
步骤S5的具体步骤如下:
S51:经透视变换将现场随机拍摄的金属板带产品标签图片投影到一个新的视平面时,现场随机拍摄的金属板带产品标签图片的图像坐标(u,v,w)和透视变换后的图像坐标(x,y,z)应满足如下关系:
Figure FDA0002962046060000021
x=x′/h
y=y′/h
其中:h是辅助坐标,不是常量,A是透视矩阵,[a13,a23]T产生透视变换,[b1,b2]用于平移,
Figure FDA0002962046060000022
表示平移、旋转、缩放和偏移线性变换,因此,透视变换后的图像坐标可表示为:
Figure FDA0002962046060000023
Figure FDA0002962046060000024
步骤S1的具体步骤如下:
S11:利用双线性插值的方法将现场随机拍摄的金属板带产品标签图片的尺寸大小调整为480×360;
S12:利用轻量级ENet网络对现场随机拍摄的金属板带产品标签图片中的产品标签区域进行分割,将产品标签区域和其他背景区域分离,分割的类别设置为2;
S13:将分割掩码的RGB颜色设为:分割的产品标签区域(128,0,0),分割的背景区域(128,128,128),分割得到的结果分别利用相应的颜色进行标记,作为最终的分割结果;
步骤S2的具体步骤如下:
S21:获取现场拍摄的金属板带产品标签图片的尺寸大小(width,height),将步骤S13得到的尺寸为480×360的带有分割掩码的图片利用双线性插值方法调整为(width,height)并进而灰度化处理;
S22:对步骤S21得到的灰度图片进行逐像素标记,采用8邻接方式判断两个像素是否相邻,若两个像素点相邻且值相同,则认为这两个像素点在一个相互连通的区域内,且同一连通区域的所有像素点,用同一个数值来进行标记;
S23:判断连通区域的数量并计算各连通区域的大小:area0,area1…arean
S24:当连通区域的个数为1时,对该灰度图片不进行任何操作而直接保存该图片,否则直接删除第一个连通区域area0,依次遍历剩余的连通区域,从中选出最大的连通区域后,删除其他n-1个连通区域,其中删除的各区域变为背景,选出的最大的连通区域为最佳连通区域,也就是产品标签区域,n代表连通区域的数量;
步骤S3的具体步骤如下:
S31:将步骤S24得到的图片进行二值化处理,二值化的最小灰度阈值设为127,最大灰度阈值设为255;
S32:利用大小为(width/100,height/100)的腐蚀卷积核对步骤S31得到的图片进行腐蚀,减去不规则的边缘;
S33:利用与腐蚀卷积核相同大小的膨胀卷积核对步骤S32得到的图片进行膨胀操作,将丢失的边缘信息进行恢复;
S34:查找轮廓信息,遍历每个轮廓,计算每个轮廓所形成的区域包含的像素的总数carea0,carea1…caream,m代表像素的个数
S35:计算现场拍摄的金属板带产品标签图片的像素总数carea,从满足careai/carea≥0.2的轮廓中选出具有最大像素数的轮廓;
S36:利用Douglas-Peucker算法将连通区域的轮廓形状近似为由4个点组成的轮廓形状,获取具有最大像素数的轮廓的周长length,则算法中两个轮廓点可以连为直线的最大阈值threshold应满足:
threshold≤0.05×length;
步骤S4的具体步骤如下:
以步骤S36得到的拟合轮廓的左上角为原点,步骤S36得到的拟合轮廓的宽和高为横坐标和纵坐标,对坐标点按照左上坐标(u0,v0)、右上坐标(u1,v1)、左下坐标(u2,v2)和右下坐标(u3,v3)的顺序排列;
若抓取不到步骤S36得到的拟合轮廓的坐标信息或无法根据坐标信息对其排列的情况下则返回坐标:左上坐标(0,0)、右上坐标(width,0)、左下坐标(0,height)和右下坐标(width,height);
步骤S6的具体步骤如下:
S61:对步骤S51校正后图片的尺寸等比例缩放为224×224,交换图像第1个通道和最后一个通道的顺序得到BGR颜色通道的图片,且对图片image中的每个颜色通道进行去均值化处理:
meanvalue=[Bmean,Gmean,Rmean]
image=image-meanvalue
其中:Bmean=103.939,Gmean=116.779,Rmean=123.68,分别为B、G和R三通道的均值;
S62:将步骤S61处理后的图片输入到VGG16网络中进行产品标签区域旋转角度angle的识别;
步骤S7的具体步骤如下:
S71:将步骤S51校正后图片在按照水平轴比例因子fx和垂直轴比例因子fy进行缩放:
f=scale/min(mwidth,mheight)
f′=scale/max(mwidth,mheight)
Figure FDA0002962046060000041
其中:scale是人工设置的期望尺度,max_scale是人工设置的最大期望尺度,mwidth和mheight是输入的图片的像素宽度和高度;
S72:使用最近插值方法对步骤S71得到的图片尺度缩小2倍,进行两次百分位滤波后将图片放大2倍恢复到原尺度大小;
S73:对步骤S72得到的图片进行二值化处理得到二值图片image′,依次遍历-45°~+45°范围的旋转角度,遍历的角度间隔为1°,对于-45°~+45°中的任一角度angi,都可以将image′旋转angi得到图片image′i,计算image′i每行的均值向量,得到图片的方差信息;
S74:确定具有最大方差的旋转角度angi为文字角度angletext;
步骤S8的具体步骤如下:
S81:根据S62得到的产品标签区域旋转角度angle,将步骤S51校正后图片旋转角度angle;
S82:根据步骤S74得到的文字角度angletext,将S81中得到的图片再旋转角度angletext;
S83:对步骤S82得到的图片的尺寸等比例缩放为1024×1024,交换图像第1个通道和最后一个通道的顺序,并归一化到0-1之间;
S84:将步骤S83得到的图片输入到YOLOv3网络,实现快速地文本位置检测;
步骤S9的具体步骤如下:
S91:保留步骤S84中得到的带有文本信息区域的图片中置信度高于0.7的检测区域为文本区域,利用非极大值抑制过滤掉文本区域重叠度大于0.3的检测区域,抑制冗余的检测框;
S92:过滤检测区域长度和宽度小于期望阈值的检测区域;
S93:合并检测区域纵向重叠度大于等于0.6的检测区域为同一区域;
S94:合并检测区域横向间隔小于等于期望像素宽度的检测区域为同一区域;
S95:根据步骤S94得到的文本区域的坐标信息对文本区域进行切割得到含有文本的图片集合IM={IM0,IM1,IM2,…,IMt},t代表文本的个数
S96:依次遍历图片集合IM,将图片集合中的每张图片IMi转换为灰度图后逐个输入到CRNN网络中进行文本的识别,得到文本集合TX={TX0,TX1,TX2,…,TXt};
S97:返回识别的文本信息,文本的位置信息,文本的旋转角度以及标注有YOLOv3检测框的可视化视图;
步骤S10的具体步骤如下:
S101:分别建立钢厂、产品名称、收货单位以及订货单位的数据字典信息;
S102:遍历识别的文本信息,计算各文本信息与数据字典信息中各钢厂的最短编辑距离并进行求和得Di,对于每一个文本TXi,确定具有最小Di值对应的识别文本为钢厂,并返回Di求和元素中的前TOPK个钢厂为参考匹配钢厂;
S103:按照步骤S102的方式依次对产品名称、收货单位以及订货单位进行匹配;
S104:对于日期、规格、钢卷号和重量信息,分别按照各自的特点,利用正则匹配方法进行重点字段的过滤,得到相应的结果。
CN201811558237.6A 2018-12-19 2018-12-19 一种基于计算机视觉的金属板带产品标签信息识别方法 Active CN109636815B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811558237.6A CN109636815B (zh) 2018-12-19 2018-12-19 一种基于计算机视觉的金属板带产品标签信息识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811558237.6A CN109636815B (zh) 2018-12-19 2018-12-19 一种基于计算机视觉的金属板带产品标签信息识别方法

Publications (2)

Publication Number Publication Date
CN109636815A CN109636815A (zh) 2019-04-16
CN109636815B true CN109636815B (zh) 2021-05-25

Family

ID=66075624

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811558237.6A Active CN109636815B (zh) 2018-12-19 2018-12-19 一种基于计算机视觉的金属板带产品标签信息识别方法

Country Status (1)

Country Link
CN (1) CN109636815B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020223859A1 (zh) * 2019-05-05 2020-11-12 华为技术有限公司 一种检测倾斜文字的方法、装置及设备
CN110458168A (zh) * 2019-08-29 2019-11-15 上海眼控科技股份有限公司 车辆检测报告的处理方法、装置、计算机设备和存储介质
CN110688999B (zh) * 2019-10-08 2020-08-28 合肥海诺恒信息科技有限公司 马赫带效应模拟的点光源金属钢印文字检测方法
CN110767292A (zh) * 2019-10-12 2020-02-07 腾讯科技(深圳)有限公司 病理编号识别方法、信息识别方法、装置及信息识别系统
CN111079749B (zh) * 2019-12-12 2023-12-22 创新奇智(重庆)科技有限公司 一种带姿态校正的端到端商品价签文字识别方法和系统
CN111223065B (zh) * 2020-01-13 2023-08-01 中国科学院重庆绿色智能技术研究院 图像矫正方法、不规则文本识别方法、装置、存储介质和设备
CN111369554A (zh) * 2020-03-18 2020-07-03 山西安数智能科技有限公司 低亮度多角度环境下皮带损伤样本的优化和预处理方法
CN111797827A (zh) * 2020-05-18 2020-10-20 冠群信息技术(南京)有限公司 一种文字方向混排的自动化ocr识别方法
CN111639566B (zh) * 2020-05-19 2024-08-09 浙江大华技术股份有限公司 一种提取表单信息的方法及装置
CN112818970B (zh) * 2021-01-28 2023-07-21 北京科技大学设计研究院有限公司 一种钢卷喷码识别通用检测方法
CN113128492A (zh) * 2021-05-17 2021-07-16 中国银行股份有限公司 一种票据文本定位方法和装置
CN113095338B (zh) * 2021-06-10 2021-11-09 季华实验室 工业品图像的自动标注方法、装置、电子设备和存储介质
CN114283431B (zh) * 2022-03-04 2022-06-28 南京安元科技有限公司 一种基于可微分二值化的文本检测方法
CN117894004B (zh) * 2023-12-27 2024-06-25 武汉科技大学 一种基于深度学习的热铸坯号识别方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120038820A1 (en) * 2010-08-16 2012-02-16 Gangaswamy Kempahonnaiah Rapid Test Quantitative Reader
CN107491730A (zh) * 2017-07-14 2017-12-19 浙江大学 一种基于图像处理的化验单识别方法
CN108548820B (zh) * 2018-03-28 2023-08-15 浙江理工大学 化妆品纸质标签缺陷检测方法

Also Published As

Publication number Publication date
CN109636815A (zh) 2019-04-16

Similar Documents

Publication Publication Date Title
CN109636815B (zh) 一种基于计算机视觉的金属板带产品标签信息识别方法
EP3309703B1 (en) Method and system for decoding qr code based on weighted average grey method
CN109145915B (zh) 一种复杂场景下车牌快速畸变矫正方法
CN110647795B (zh) 一种表格识别方法
CN102790841B (zh) 书籍的书脊区域中数字图像的检测和校正方法
CN108985305B (zh) 一种激光蚀刻工业雷管编码图像定位及校正方法
CN108133216B (zh) 基于机器视觉的可实现小数点读取的数码管读数识别方法
US20030068083A1 (en) Face detecting method depending on image
CN111680690A (zh) 一种文字识别方法及装置
CN110400278A (zh) 一种图像颜色和几何畸变的全自动校正方法、装置及设备
CN109727279B (zh) 一种矢量数据与遥感影像的自动配准方法
CN111353961A (zh) 一种文档曲面校正方法及装置
JP6188052B2 (ja) 情報システム及びサーバー
CN112613506A (zh) 图像中的文本识别方法、装置、计算机设备和存储介质
CN115170525A (zh) 一种图像差异检测方法及装置
CN112699867A (zh) 一种固定版式目标图像要素信息提取方法及其系统
CN109003257B (zh) 一种光学字符验证方法
CN112184533B (zh) 一种基于sift特征点匹配的水印同步方法
CN113840135A (zh) 色偏检测方法、装置、设备及存储介质
CN117496518A (zh) 基于文本检测和表格检测的电子卷宗图像智能矫正方法
CN112132054A (zh) 一种基于深度学习的文档定位和分割方法
CN110866902A (zh) 一种烟标翘曲变形的检测方法
CN116994269A (zh) 一种图像文档中印章相似度比对方法及对比系统
CN112541943A (zh) 一种基于视觉路标的机器人定位方法
CN116030472A (zh) 文字坐标确定方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant