CN102289683A - 一种基于多分类支持向量机的集装箱箱号识别方法 - Google Patents

一种基于多分类支持向量机的集装箱箱号识别方法 Download PDF

Info

Publication number
CN102289683A
CN102289683A CN 201110168797 CN201110168797A CN102289683A CN 102289683 A CN102289683 A CN 102289683A CN 201110168797 CN201110168797 CN 201110168797 CN 201110168797 A CN201110168797 A CN 201110168797A CN 102289683 A CN102289683 A CN 102289683A
Authority
CN
China
Prior art keywords
container
container number
train
image
identified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 201110168797
Other languages
English (en)
Inventor
马争
王伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN 201110168797 priority Critical patent/CN102289683A/zh
Publication of CN102289683A publication Critical patent/CN102289683A/zh
Pending legal-status Critical Current

Links

Abstract

一种基于多分类支持向量机的集装箱箱号识别方法,属于计算机图像处理技术领域。首先采集集装箱箱号字符图像,经二值化和归一化处理后分成字母图像集和数字图像集;然后构建两个多分类支持向量机,分别采用字母图像集和数字图像集的特征向量矩阵进行训练,训练过程中采用Adaboost算法,得到两个多分类支持向量机分类器SVC和SVN;箱号识别过程中,将待识别集装箱箱号分割成11个字符图像,经二值化和归一化处理后,将第1至第4个特征向量输入到SVC进行识别,第5至第11个特征向量输入到SVN进行识别。本发明创新性地将支持向量机和Adaboost算法结合起来应用于集装箱箱号字符识别,相比于其他同领域的技术方案具有更高的识别率和较小的计算量。

Description

一种基于多分类支持向量机的集装箱箱号识别方法
技术领域
本发明属于计算机图像处理技术领域,涉及集装箱箱号自动识别技术。 
背景技术
集装箱是一种综合性的大型周转货箱,集装箱号指装运出口货物的集装箱箱号,全球所有的集装箱都具有一个唯一的箱号与之对应。 
标准箱号构成基本概念:采用ISO6346标准: 
1.第一部分由4位英文字母组成。前三位代码主要说明箱主、经营人,第四位代码说明集装箱类型。例如CBHU开头的标准装箱是表明箱主和经营人为中远集运。 
2.第二部分由6位数字组成。是箱体注册码,用于一个集装箱箱体特有的唯一标识。 
3.第三部分为校验码由前四位字母和6位数字经过校验规则运算得到,用于识别在校验时是否发生错误。即第11位数字。 
本发明中集装箱箱号识别是一种视频光学字符自动识别,利用计算机视觉技术来完成对集装箱箱号的识别。集装箱箱号识别系统一般要求能实时识别通过港口的集装箱箱号并通过计算机检索系统查询集装箱的信息。典型的集装箱箱号识别方法可以分为四个过程:箱号采集、箱号定位、箱号字符分割和字符识别,而如何进行精确的字符识别是影响集装箱箱号识别系统识别率高低的一个关键问题。 
虽然集装箱箱号识别可以借鉴现有的一些通用的计算机字符识别方法,但很难达到理想的效果,究其原因,是因为集装箱箱号字符识别具有自身的特点,而一般通用的字符识别方法都没有将这些特点考虑进去,识别的效果不好也在情理之中,其特点为:字符集小(数字和字母)、箱号字体没有统一的印刷标准(箱号字体的印刷因集装箱所属公司而有所不同)、干扰和几何变形较多(如集装箱背面还存在着很多非箱号的其他字符)、甚至出现箱号破损的情况。而且集装箱箱号字符识别要求更高的识别率,上下文字符也没有语义和概率上的相关性。 
现有的计算机字符识别主要有以下几种方法: 
1.模板匹配的方法,利用字符轮廓、骨干、网络或者投影等特征,与标准字符比对分类。 但是,由于实际应用集装箱字符中存在的干扰和变形,因此常常没有得到理想的效果。 
2.按字符特征分类的方法,找出能够区别字符集中字符的特征集,如:字符像素比例、孔洞数、字形结构、笔画特征等。由于特征算法实现起来比较困难,而且同样由于噪声干扰的问题,这一方法的识别率不高。 
3.神经网络的方法是目前比较成功的方法。但是要求输入数据较多和网络结构设计复杂等问题。 
发明内容
本发明提供一种基于多分类支持向量机的集装箱箱号识别方法,该方法基于多分类支持向量机,利用其良好的分类能力,直接对提取出来的集装箱箱号字符进行自动分类识别,具有更高的识别率。 
本发明技术方案如下: 
一种基于多分类支持向量机的集装箱箱号识别方法,如图1所示,包括多分类支持向量机的训练过程和使用多分类支持向量机进行集装箱箱号的识别过程: 
一、多分类支持向量机的训练过程,包括如下步骤: 
步骤1:字符图像的二值化和归一化处理。采集足够多的集装箱箱号字符图像;然后对采集的所有集装箱箱号字符图像进行二值化处理、并归一化成宽度为M个像素、高度为N个像素大小的尺寸。归一化后的二值化集装箱箱号字符图像集记为图像集Train。 
二值化阈值的取值范围可取为[90,130],归一化后的二值化集装箱箱号字符图像宽度M最好为16像素,高度N最好为32像素。 
步骤2:将步骤1所得的图像集Train分成个字母图像集Train_C_I和数字图像集Train_N_I,其中字母图像集Train_C_I包括A~Z共计26个子集,数字图像集Train_N_I包括0~9共计10个子集。 
步骤3:计算步骤2所得各个子集中所有图像的特征向量,得到字母特征向量集Train_C_V和数字特征向量集Train_N_V,其中字母特征向量集Train_C_V包括26个子集,数字特征向量集Train_N_V包括10个子集。所述特征向量为一个M×N+1维的行向量,其中前M×N维由每幅二值图像的像素值按行首尾相接依次排列而成,第M×N+1维是区别36个子集的标签。 
步骤4:将字母特征向量集Train_C_V中所有特征向量组合成字母特征向量矩阵Train_C_V_M,同时将数字特征向量集Train_N_V中所有特征向量组合成数字特征向量矩阵Train_N_V_M。 
步骤5:建立两个多分类支持向量机分类器SVC和SVN。 
构建两个多分类支持向量机,分别采用字母特征向量矩阵Train_C_V_M和数字特征向量矩阵Train_N_V_M进行训练,训练过程中采用Adaboost算法,得到两个多分类支持向量机分类器SVC和SVN。 
二、使用多分类支持支持向量机进行集装箱箱号识别的过程,具体包括以下步骤: 
步骤6:采集待识别集装箱箱号图像,经定位、分割处理后得到11个的待识别的集装箱箱号字符图像;再对11个待识别的集装箱箱号字符图像进行步骤1所述的二值化和归一化处理。 
步骤7:计算11个归一化后的二值化待识别集装箱箱号字符图像的特征向量,并将11个特征向量按待识别集装箱箱号字符图像在待识别集装箱箱号中的位置顺序依次定义为X1、X2、L、X11。所述特征向量由每幅图像的灰度值按行依次排列成。 
步骤8:对11个特征向量进行分类识别。 
由于集装箱箱号由11个字符组成,11个字符中,前4个字符为英文字母,后7个字符为阿拉伯数字;所以对X1~X4这4个特征向量,采用多分类支持向量机分类器SVC进行识别,得到待识别集装箱箱号第1至第4个的标签,进而得到待识别集装箱箱号第1至第4个字符识别结果;对X5~X11这7个特征向量,采用多分类支持向量机分类器SVN进行识别,得到待识别集装箱箱号第5至第11个的标签,进而得到待识别集装箱箱号第5至第11个字符识别结果。 
需要说明的是: 
1、步骤1中,采集集装箱箱号字符图像时,应当在各种光照条件下采集,且保证每种字符的采集数量在20个以上。 
2、本发明所述的多分类支持向量机,对于内核函数并没有特别的限定,但若采用径向基核函数,会使得最终的识别准确率更高。 
3、考虑到多分类支持向量机的特性,本发明在多分类向量机的训练过程中,采集集装箱箱号字符图像时,所采集的各种字符图像的数量应基本一致,以保证各字符平等地参与训练,从而减少由于训练次数差异带来的识别偏差。 
本发明的有益效果是: 
本发明创新性地将多分类支持向量机和Adaboost算法应用于集装箱箱号识别,利用其良好的分类能力,直接对提取出来的字符分类,相比于其他同领域的方案具有更高的识别率。本发明区别对待集装箱箱号字符的前4位和后7位字符,将字符二值化图像特征向量分成两个集合,分别构造两个多分类支持向量机,并在识别过程中采用不同的支持向量机对需要识别的集装箱箱号字符进行逐一识别,大大减少了计算量。 
具体实施方式
一种基于多分类支持向量机的集装箱箱号识别方法,如图1所示,包括多分类支持向量机的训练过程和使用多分类支持向量机进行集装箱箱号的识别过程: 
一、多分类支持向量机的训练过程,包括如下步骤: 
步骤1:字符图像的二值化和归一化处理。采集足够多的集装箱箱号字符图像;然后对采集的所有集装箱箱号字符图像进行二值化处理、并归一化成宽度为M个像素、高度为N个像素大小的尺寸。归一化后的二值化集装箱箱号字符图像集记为图像集Train。 
二值化阈值的取值范围可取为[90,130],归一化后的二值化集装箱箱号字符图像宽度M最好为16像素,高度N最好为32像素。 
步骤2:将步骤1所得的图像集Train分成个字母图像集Train_C_I和数字图像集Train_N_I,其中字母图像集Train_C_I包括A~Z共计26个子集,数字图像集Train_N_I包括0~9共计10个子集。 
步骤3:计算步骤2所得各个子集中所有图像的特征向量,得到字母特征向量集Train_C_V和数字特征向量集Train_N_V,其中字母特征向量集Train_C_V包括26个子集,数字特征向量集Train_N_V包括10个子集。所述特征向量为一个M×N+1维的行向量,其中前M×N维由每幅二值图像的像素值按行首尾相接依次排列而成,第M×N+1维是区别36个子集的标签。 
步骤4:将字母特征向量集Train_C_V中所有特征向量组合成字母特征向量矩阵Train_C_V_M,同时将数字特征向量集Train_N_V中所有特征向量组合成数字特征向量矩阵 Train_N_V_M。 
步骤5:建立两个多分类支持向量机分类器SVC和SVN。 
构建两个多分类支持向量机,分别采用字母特征向量矩阵Train_C_V_M和数字特征向量矩阵Train_N_V_M进行训练,训练过程中采用Adaboost算法,得到两个多分类支持向量机分类器SVC和SVN。 
二、使用多分类支持支持向量机进行集装箱箱号识别的过程,具体包括以下步骤: 
步骤6:采集待识别集装箱箱号图像,经定位、分割处理后得到11个的待识别的集装箱箱号字符图像;再对11个待识别的集装箱箱号字符图像进行步骤1所述的二值化和归一化处理。 
步骤7:计算11个归一化后的二值化待识别集装箱箱号字符图像的特征向量,并将11个特征向量按待识别集装箱箱号字符图像在待识别集装箱箱号中的位置顺序依次定义为X1、X2、L、X11。所述特征向量由每幅图像的灰度值按行依次排列成。 
步骤8:对11个特征向量进行分类识别。 
由于集装箱箱号由11个字符组成,11个字符中,前4个字符为英文字母,后7个字符为阿拉伯数字;所以对X1~X4这4个特征向量,采用多分类支持向量机分类器SVC进行识别,得到待识别集装箱箱号第1至第4个的标签,进而得到待识别集装箱箱号第1至第4个字符识别结果;对X5~X11这7个特征向量,采用多分类支持向量机分类器SVN进行识别,得到待识别集装箱箱号第5至第11个的标签,进而得到待识别集装箱箱号第5至第11个字符识别结果。 

Claims (6)

1.一种基于多分类支持向量机的集装箱箱号识别方法,包括多分类支持向量机的训练过程和使用多分类支持向量机进行集装箱箱号的识别过程:
一、多分类支持向量机的训练过程,包括如下步骤:
步骤1:字符图像的二值化和归一化处理;采集足够多的集装箱箱号字符图像;然后对采集的所有集装箱箱号字符图像进行二值化处理、并归一化成宽度为M个像素、高度为N个像素大小的尺寸;归一化后的二值化集装箱箱号字符图像集记为图像集Train;
步骤2:将步骤1所得的图像集Train分成个字母图像集Train_C_I和数字图像集Train_N_I,其中字母图像集Train_C_I包括A~Z共计26个子集,数字图像集Train_N_I包括0~9共计10个子集;
步骤3:计算步骤2所得各个子集中所有图像的特征向量,得到字母特征向量集Train_C_V和数字特征向量集Train_N_V,其中字母特征向量集Train_C_V包括26个子集,数字特征向量集Train_N_V包括10个子集;所述特征向量为一个M×N+1维的行向量,其中前M×N维由每幅二值图像的像素值按行首尾相接依次排列而成,第M×N+1维是区别36个子集的标签;
步骤4:将字母特征向量集Train_C_V中所有特征向量组合成字母特征向量矩阵Train_C_V_M,同时将数字特征向量集Train_N_V中所有特征向量组合成数字特征向量矩阵Train_N_V_M;
步骤5:建立两个多分类支持向量机分类器SVC和SVN
构建两个多分类支持向量机,分别采用字母特征向量矩阵Train_C_V_M和数字特征向量矩阵Train_N_V_M进行训练,训练过程中采用Adaboost算法,得到两个多分类支持向量机分类器SVC和SVN
二、使用多分类支持支持向量机进行集装箱箱号识别的过程,具体包括以下步骤:
步骤6:采集待识别集装箱箱号图像,经定位、分割处理后得到11个的待识别的集装箱箱号字符图像;再对11个待识别的集装箱箱号字符图像进行步骤1所述的二值化和归一化处理;
步骤7:计算11个归一化后的二值化待识别集装箱箱号字符图像的特征向量,并将11个特征向量按待识别集装箱箱号字符图像在待识别集装箱箱号中的位置顺序依次定义为X1、X2、L、X11。所述特征向量由每幅图像的灰度值按行依次排列成;
步骤8:对11个特征向量进行分类识别;
由于集装箱箱号由11个字符组成,11个字符中,前4个字符为英文字母,后7个字符为阿拉伯数字;所以对X1~X4这4个特征向量,采用多分类支持向量机分类器SVC进行识别,得到待识别集装箱箱号第1至第4个的标签,进而得到待识别集装箱箱号第1至第4个字符识别结果;对X5~X11这7个特征向量,采用多分类支持向量机分类器SVN进行识别,得到待识别集装箱箱号第5至第11个的标签,进而得到待识别集装箱箱号第5至第11个字符识别结果。
2.根据权利要求1所述的基于多分类SVM-Adaboost的集装箱箱号识别方法,其特征在于,步骤1对采集的所有集装箱箱号字符图像进行二值化处理时,二值化阈值的取值范围为[90,130]。
3.根据权利要求1所述的基于多分类SVM-Adaboost的集装箱箱号识别方法,其特征在于,步骤1中归一化后的二值化集装箱箱号字符图像宽度M为16像素,高度N为32像素。
4.根据权利要求1所述的基于多分类SVM-Adaboost的集装箱箱号识别方法,其特征在于,步骤1采集集装箱箱号字符图像时,应当在各种光照条件下采集,且保证每种字符的采集数量在20个以上。
5.根据权利要求1所述的基于多分类SVM-Adaboost的集装箱箱号识别方法,其特征在于,所述多分类支持向量机的内核函数采用径向基核函数。
6.根据权利要求1所述的基于多分类SVM-Adaboost的集装箱箱号识别方法,其特征在于,在多分类向量机的训练过程中,采集集装箱箱号字符图像时,所采集的各种字符图像的数量一致。
CN 201110168797 2011-06-22 2011-06-22 一种基于多分类支持向量机的集装箱箱号识别方法 Pending CN102289683A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110168797 CN102289683A (zh) 2011-06-22 2011-06-22 一种基于多分类支持向量机的集装箱箱号识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110168797 CN102289683A (zh) 2011-06-22 2011-06-22 一种基于多分类支持向量机的集装箱箱号识别方法

Publications (1)

Publication Number Publication Date
CN102289683A true CN102289683A (zh) 2011-12-21

Family

ID=45336089

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110168797 Pending CN102289683A (zh) 2011-06-22 2011-06-22 一种基于多分类支持向量机的集装箱箱号识别方法

Country Status (1)

Country Link
CN (1) CN102289683A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101604381A (zh) * 2009-05-20 2009-12-16 电子科技大学 基于多分类支持向量机的车牌字符识别方法
CN101894277A (zh) * 2010-06-13 2010-11-24 电子科技大学 基于多分类支持向量机的集装箱箱号识别方法
CN101937508A (zh) * 2010-09-30 2011-01-05 湖南大学 一种基于高清图像的车牌定位与识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101604381A (zh) * 2009-05-20 2009-12-16 电子科技大学 基于多分类支持向量机的车牌字符识别方法
CN101894277A (zh) * 2010-06-13 2010-11-24 电子科技大学 基于多分类支持向量机的集装箱箱号识别方法
CN101937508A (zh) * 2010-09-30 2011-01-05 湖南大学 一种基于高清图像的车牌定位与识别方法

Similar Documents

Publication Publication Date Title
Shi et al. Automatic license plate recognition system based on color image processing
Yu et al. A generic system for form dropout
Blumenstein et al. A novel feature extraction technique for the recognition of segmented handwritten characters
Karthick et al. Steps involved in text recognition and recent research in OCR; a study
CN110619274A (zh) 基于印章和签名的身份验证方法、装置和计算机设备
CN102663378B (zh) 连笔手写字符的识别方法
CN103914680A (zh) 一种喷印字符图像识别与校验系统及方法
CN105426890A (zh) 一种字符扭曲粘连的图形验证码识别方法
Chaabouni et al. Multi-fractal modeling for on-line text-independent writer identification
Bijalwan et al. Automatic text recognition in natural scene and its translation into user defined language
Garlapati et al. A system for handwritten and printed text classification
CN104834891A (zh) 一种中文图像型垃圾邮件过滤方法及系统
Liu et al. Wagon number recognition based on the YOLOv3 detector
CN101894277A (zh) 基于多分类支持向量机的集装箱箱号识别方法
CN111414917B (zh) 一种低像素密度文本的识别方法
Aravinda et al. Template matching method for Kannada handwritten recognition based on correlation analysis
CN110046618B (zh) 基于机器学习和最大极值稳定区域的车牌识别方法
Alaei et al. A comparative study of persian/arabic handwritten character recognition
Kavitha et al. A robust script identification system for historical Indian document images
Xu et al. Low resolution handwritten digit string recognition based on object detection network
Elagouni et al. Text recognition in videos using a recurrent connectionist approach
CN102289683A (zh) 一种基于多分类支持向量机的集装箱箱号识别方法
CN105469095A (zh) 一种基于车型图像的模式集直方图的车型识别方法
Rajithkumar et al. Template matching method for recognition of stone inscripted Kannada characters of different time frames based on correlation analysis
Agrawal et al. Coarse classification of handwritten Hindi characters

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20111221