基于最小错误率贝叶斯分类器的车牌数字及字母识别方法
技术领域
本发明涉及一种基于最小错误率贝叶斯分类器的车牌数字及字母识别方法,其目的在于对车牌后六位数字及字母字符进行分类和识别,属于交通监控技术领域。
背景技术
随着经济的不断发展和城市化进程的快速进行,我国机动车保有数量急剧增加,交通管理的问题越来越突出。在很多情况下,为了更好地进行交通管理往往需要对车辆进行识别。车牌识别系统利用图像处理、模式识别等技术自动定位和识别车牌,能够大大地提高车辆识别的效率。它可以用于停车场管理、交通信息采集、交警稽查、海关物流监控等领域,具有广泛的应用范围。
字符识别是车牌识别系统的核心模块,其性能对整个车牌识别系统具有很大的影响。最常用的字符识别方法是神经网络法,这种方法总的来说具有较好的识别准确性,但是对相近字符的识别依然具有一定的错误率,且其训练和识别需要较多的时间。本发明提供一种基于最小错误率贝叶斯分类器的车牌数字及字母识别方法,能够快速、准确地对车牌的数字及字母进行识别,且提高了对相近字符的识别率。
发明内容
技术问题
本发明提供一种基于最小错误率贝叶斯分类器的车牌数字及字母识别方法,该方法具有识别精度高、识别速度快等优点。
技术方案
一种基于最小错误率贝叶斯分类器的车牌数字及字母识别方法,其特征在于:
步骤1建立各类别字符的识别样本库
根据中华人民共和国机动车号牌标准(GA36-2007),车牌中用到所有的数字字符及除I和O之外的所有字母字符,总共34类字符,针对第j类字符Lj建立样本数量为Nj的字符样本库Sj,得到样本总数量为N的总样本库S,
S={Sj},j=1,2,...34,
Sj={Wjk},k=1,2,...Nj,
式中,Wjk是大小被归一化为80×40像素的二值化字符图像,表示第j类字符的样本库Sj中第k个样本,字符样本库S1~S10按顺序对应于数字0~9,字符样本库S11~S18按顺序对应于字母A~H,字符样本库S19~S23按顺序对应于字母J~N,字符样本库S24~S34按顺序对应于字母P~Z,步骤2最小错误率贝叶斯分类器的设计
步骤2.1:对第j类字符而言,计算其字符样本库S
j中所有样本W
jk的粗网格特征
i1=1,2,...32,
其中,
是粗网格特征
的第i
1个分量,m
1和n
1分别是
所对应的块的横、纵坐标,W
jk(x
1,y
1)是字符图像W
jk中坐标为(x
1,y
1)的像素的值,若为1则表示该像素属于字符,若为0则表示该像素属于背景,mod(i
1,4)为i
1除以4之后的余数,
步骤2.2:计算字符样本库S
j中所有样本W
jk的粗网格特征均值
i1=1,2,...32,
式中,
是第j类字符L
j的粗网格特征均值
的第i
1个分量,
是字符样本库S
j中第k个样本W
jk的粗网格特征
的第i
1个分量,
步骤2.3:计算字符样本库Sj中所有样本的粗网格特征的协方差矩阵Cj,
a,b=1,2,...32,
式中,
是协方差矩阵C
j中行、列坐标分别为a、b的元素的数值,
是字符样本库S
j中第k个样本W
jk的粗网格特征
的第a个分量,
是字符样本库S
j中第k个样本W
jk的粗网格特征
的第b个分量,
步骤2.4:计算在总样本库中第j类字符Lj的先验概率Pj,
j=1,2,...34,
步骤2.5:定义与第j类字符Lj相对应的判别函数Hj(W),得到最小错误率贝叶斯分类器H(W),H(W)={Hj(W)},j=1,2,...34,
式中,W是任意的大小被归一化为80×40像素的二值字符图像,FW是二值字符图像W的粗网格特征,Cj -1是协方差矩阵Cj的逆矩阵,|Cj|是协方差矩阵Cj的行列式,
步骤3基于最小错误率贝叶斯分类器的第一级分类
步骤3.1:对需要进行识别的大小被归一化为80×40像素的二值字符图像W而言,计算其粗网格特征FW,
i2=1,2,...32,
其中,
Fw(i2)是粗网格特征Fw的第i2个分量,m2和n2分别是Fw(i2)所对应的块的横、纵坐标,W(x2,y2)是字符图像W中坐标为(x2,y2)的像素的值,若为1则表示该像素属于字符,若为0则表示该像素属于背景,mod(i2,4)为i2除以4之后的余数,
步骤3.2:计算最小错误率贝叶斯分类器H(W)中所有判别函数Hj(W)的值,取最大的判别函数值HM(W)所对应的字符类别作为该二值字符图像W的类别,
HM(W)=max(Hj(W)),j=1,2,...34,
数值M与34种字符类别的对应关系为:M分别为1~10时按顺序对应于数字0~9,M分别为11~18时按顺序对应于字母A~H,M分别为19~23时按顺序对应于字母J~N,M分别为24~34时按顺序对应于字母P~Z,
如果与数值M所对应的字符类别是集合{D,0,Q,8,B,2,Z,5,S,4,A}中的一种,则表明第一级分类得到的字符类别属于相似字符,可能存在一定的错误,转到步骤4进行第二级分类,否则表明第一级分类得到的字符类别不属于相似字符,以之作为该字符的最终分类结果,结束分类,步骤4相似字符的第二级分类
以第一级分类结果为基础,对易混淆的5组字符提取局部特征进行第二级分类,
(1)“D”、“0”和“Q”
如果第一级分类得到的字符类别为“D”、“0”和“Q”,则计算字符图像W的局部特征T1和T2,
利用局部特征T1和T2对字符图像W进行第二级分类:
如果T1≥195,则识别字符图像W为字母“Q”,如果T1<195且T2<73则识别字符图像W为数字“0”,如果T1<195且T2≥73则识别字符图像W为字母“D”,
(2)“8”和“B”
如果第一级分类得到的字符类别为“8”和“B”,则计算字符图像W的局部特征T3、T4和T5,
利用局部特征T3、T4和T5对字符图像W进行第二级分类:
如果T3<24、T4<20且T5<20,则识别字符图像W为数字“8”,否则识别字符图像W为字母“B”,
(3)“2”和“Z”
如果第一级分类得到的字符类别为“2”和“Z”,则计算字符图像W的局部特征T6和T7,
利用局部特征T6和T7对字符图像W进行第二级分类:
如果T6≤260且T7≥15,则识别字符图像W为数字“2”,否则识别字符图像W为字母“Z”,
(4)“5”和“S”
如果第一级分类得到的字符类别为“5”和“S”,则计算字符图像W的局部特征T8和T9,
利用局部特征T8和T9对字符图像W进行第二级分类:
如果T7≥290且T9≥270,则识别字符图像W为数字“5”,否则识别字符图像W为字母“S”,
(5)“4”和“A”
如果第一级分类得到的字符类别为“4”和“A”,则计算字符图像W的局部特征T10,
利用局部特征T10对字符图像W进行第二级分类:
如果T10<180,则识别字符图像W为数字“4”,否则识别字符图像W为字母“A”。
有益效果
1.识别速度快。直接根据识别样本计算判别函数的参数,并设计最小错误率贝叶斯分类器,无需像神经网络训练一样进行复杂、重复的参数调整,而且分类器所用的判别函数简单,能够节省很多的计算时间。
2.识别准确性高。首先利用基于最小错误率的贝叶斯分类器进行第一级分类,然后在第一级分类的基础上,针对可能出现的相近字符分别利用局部特征进行第二级分类,提高了相相近字符的识别准确性。
附图说明
图1是基于最小错误率贝叶斯分类器的车牌数字及字母识别方法流程图。
图2是需要进行字符识别的车牌P。
图3是车牌的第二个字符W2。
图4是车牌的第三个字符W3。
图5是车牌的第四个字符W4。
图6是车牌的第五个字符W5。
图7是车牌的第六个字符W6。
图8是车牌的第七个字符W7。
具体实施方式
本发明的具体实例结合图5-16说明如下:
需要进行字符识别的车牌图像P如图2所示,对车牌图像P进行二值化、字符分割及字符大小归一化,得到车牌的第2-7个二值字符图像为W2-W7,分别如图3-8所示,
步骤1建立各类别字符的识别样本库
根据中华人民共和国机动车号牌标准(GA36-2007),车牌中用到所有的数字字符及除I和O之外的所有字母字符,总共34类字符,针对第j类字符Lj建立样本数量为Nj的字符样本库Sj,得到样本总数量为N的总样本库S,
S={Sj},j=1,2,...34,
Sj={Wjk},k=1,2,...Nj,
式中,Wjk是大小被归一化为80×40像素的二值化字符图像,表示第j类字符的样本库Sj中第k个样本,字符样本库S1~S10按顺序对应于数字0~9,字符样本库S11~S18按顺序对应于字母A~H,字符样本库S19~S23按顺序对应于字母J~N,字符样本库S24~S34按顺序对应于字母P~Z,Nj=50,N=1700,
步骤2最小错误率贝叶斯分类器的设计
步骤2.1:对第j类字符而言,计算其字符样本库S
j中所有样本W
jk的粗网格特征
i1=1,2,...32,
其中,
是粗网格特征
的第i
1个分量,m
1和n
1分别是
所对应的块的横、纵坐标,W
jk(x
1,y
1)是字符图像W
jk中坐标为(x
1,y
1)的像素的值,若为1则表示该像素属于字符,若为0则表示该像素属于背景,mod(i
1,4)为i
1除以4之后的余数,
步骤2.2:计算字符样本库S
j中所有样本W
jk的粗网格特征均值
i1=1,2,...32,
式中,
是第j类字符L
j的粗网格特征均值
的第i
1个分量,
是字符样本库S
j中第k个样本W
jk的粗网格特征
的第i
1个分量,
步骤2.3:计算字符样本库Sj中所有样本的粗网格特征的协方差矩阵Cj,
a,b=1,2,...32,
式中,
是协方差矩阵C
j中行、列坐标分别为a、b的元素的数值,
是字符样本库S
j中第k个样本W
jk的粗网格特征
的第a个分量,
是字符样本库S
j中第k个样本W
jk的粗网格特征
的第b个分量,
步骤2.4:计算在总样本库中第j类字符Lj的先验概率Pj,
j=1,2,...34,
步骤2.5:定义与第j类字符Lj相对应的判别函数Hj(W),得到最小错误率贝叶斯分类器H(W),H(W)={Hj(W)},j=1,2,...34,
式中,W是任意的大小被归一化为80×40像素的二值字符图像,FW是二值字符图像W的粗网格特征,Cj -1是协方差矩阵Cj的逆矩阵,|Cj|是协方差矩阵Cj的行列式,
步骤3基于最小错误率贝叶斯分类器的第一级分类
步骤3.1第二个字符W2的第一级分类
首先,计算第二个字符W
2(如图3所示)的粗网格特征
i2=1,2,...32,
其中,
是粗网格特征
的第i
2个分量,m
2和n
2分别是
所对应的块的横、纵坐标,W
2(x
2,y
2)是字符图像W
2中坐标为(x
2,y
2)的像素的值,若为1则表示该像素属于字符,若为0则表示该像素属于背景,mod(i
2,4)为i
2除以4之后的余数,
然后,利用粗网格特征
计算所有判别函数H
j(W
2)的值,得到最大的判别函数值为H
7(W
2),
H7(W2)=max(Hj(W2)),j=1,2,...34,
判别函数H7(W)所对应的字符为“8”,即第二个字符W2在第一级分类中被识别为“8”,
步骤3.2第三个字符W3的第一级分类
首先,计算第三个字符W
3(如图4所示)的粗网格特征
i2=1,2,...32,
其中,
是粗网格特征
的第i
2个分量,m
2和n
2分别是
所对应的块的横、纵坐标,W
3(x
2,y
2)是字符图像W
3中坐标为(x
2,y
2)的像素的值,若为1则表示该像素属于字符,若为0则表示该像素属于背景,mod(i
2,4)为i
2除以4之后的余数,
然后,利用粗网格特征
计算所有判别函数H
j(W
3)的值,得到最大的判别函数值为H
15(W
3),
H15(W3)=max(Hj(W3)),j=1,2,...34,
判别函数H15(W)所对应的字符为“E”,即第三个字符W3在第一级分类中被识别为“E”,
步骤3.3第四个字符W4的第一级分类
首先,计算第四个字符W
4(如图5所示)的粗网格特征
i2=1,2,...32,
其中,
是粗网格特征
的第i
2个分量,m
2和n
2分别是
所对应的块的横、纵坐标,W
4(x
2,y
2)是字符图像W
4中坐标为(x
2,y
2)的像素的值,若为1则表示该像素属于字符,若为0则表示该像素属于背景,mod(i
2,4)为i
2除以4之后的余数,
然后,利用粗网格特征
计算所有判别函数H
j(W
4)的值,得到最大的判别函数值为H
3(W
4),
H3(W4)=max(Hj(W4)),j=1,2,...34,
判别函数H3(W)所对应的字符为“4”,即第四个字符W4在第一级分类中被识别为“4”,
步骤3.4第五个字符W5的第一级分类
首先,计算第五个字符W
5(如图6所示)的粗网格特征
i2=1,2,...32,
其中,
是粗网格特征
的第i
2个分量,m
2和n
2分别是
所对应的块的横、纵坐标,W
5(x
2,y
2)是字符图像W
5中坐标为(x
2,y
2)的像素的值,若为1则表示该像素属于字符,若为0则表示该像素属于背景,mod(i
2,4)为i
2除以4之后的余数,
然后,利用粗网格特征
计算所有判别函数H
j(W
5)的值,得到最大的判别函数值为H
4(W
5),
H4(W5)=max(Hj(W5)),j=1,2,...34,
判别函数H4(W5)所对应的字符为“5”,即第五个字符W5在第一级分类中被识别为“5”,
步骤3.5第六个字符W6的第一级分类
首先,计算第六个字符W
6(如图7所示)的粗网格特征
i2=1,2,...32,
其中,
是粗网格特征
的第i
2个分量,m
2和n
2分别是
所对应的块的横、纵坐标,W
6(x
2,y
2)是字符图像W
6中坐标为(x
2,y
2)的像素的值,若为1则表示该像素属于字符,若为0则表示该像素属于背景,mod(i
2,4)为i
2除以4之后的余数,
然后,利用粗网格特征计算所有判别函数Hj(W6)的值,得到最大的判别函数值为H5(W6),
H5(W6)=max(Hj(W6)),j=1,2,...34,
判别函数H5(W)所对应的字符为“6”,即第六个字符W2在第一级分类中被识别为“6”,
步骤3.6第七个字符W7的第一级分类
首先,计算第七个字符W
7(如图8所示)的粗网格特征
i2=1,2,...32,
其中,
是粗网格特征
的第i
2个分量,m
2和n
2分别是
所对应的块的横、纵坐标,W
7(x
2,y
2)是字符图像W
7中坐标为(x
2,y
2)的像素的值,若为1则表示该像素属于字符,若为0则表示该像素属于背景,mod(i
2,4)为i
2除以4之后的余数,
然后,利用粗网格特征
计算所有判别函数H
j(W
7)的值,得到最大的判别函数值为H
8(W
7),
H8(W7)=max(Hj(W7)),j=1,2,...34,
判别函数H8(W)所对应的字符为“9”,即第七个字符W7在第一级分类中被识别为“9”,
经过上述步骤3.1-3.6完成了对车牌后六位字符的第一级分类,其中第二位字符W2和第四位字符W4所对应的字符类别属于集合{D,0,Q,8,B,2,Z,5,S,4,A},需要转到步骤4进行第二级分类,其他四位字符的类别不属于集合{D,0,Q,8,B,2,Z,5,S,4,A},不需进行第二级分类,以该四个类别作为该四个字符的最终分类结果,结束其分类,
步骤4相似字符的第二级分类
以第一级分类结果为基础,对第二位字符W2和第四位字符W4提取局部特征进行第二级分类,
步骤4.1对第二位字符W2进行第二级分类
第二位字符W2在第一级分类中被分类为字符“8”,字符“8”和字符“B”属于一组相近字符,这两个字符的区别主要在字符的左边缘,字符“8”的左边缘为弧线,而“B”的左边缘为直线,针对这个特点,定义字符图像W的左上角局部特征T3、左中部局部特征T4和左下角局部特征T5,
经过对大量车牌字符的统计实验,取分类临界线为T3=24,T4=20,T5=20,
按上式计算第二位字符图像W2的局部特征T3、T4和T5,得到T3=27、T4=25和T5=21,由于T3≥24、T4≥20且T5≥20,识别第二位字符W2为字母“B”,
步骤4.2对第四位字符W4进行第二级分类
第四位字符W4在第一级分类中被分类为字符“4”,字符“4”和字符“A”属于一组相近字符,这两个字符的区别主要在字符的左下角,字符“4”左下角没有白色像素,而字符“A”左下角的白色像素较多,针对这个特点,定义字符图像W的左下角局部特征T10,
经过对大量车牌字符的统计实验,取分类临界线为T10=180,
按上式计算第四位字符图像W4的局部特征T10,得到T10=136,由于T10<180,则识别第四位字符W4为数字“4”,
最终的识别结果为:第二位字符W2被设别为“B”,第三位字符W3被设别为“E”,第四位字符W4被设别为“4”,第五位字符W5被设别为“5”,第六位字符W6被设别为“6”,第七位字符W7被设别为“9”,从图3-8可见,识别结果完全正确。