CN102184412B

CN102184412B - 基于最小错误率贝叶斯分类器的车牌数字及字母识别方法

Info

Publication number: CN102184412B
Application number: CN 201110120361
Authority: CN
Inventors: 路小波; 朱周; 杨军飞; 熊阳
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2011-05-09
Filing date: 2011-05-09
Publication date: 2013-05-01
Anticipated expiration: 2031-05-09
Also published as: CN102184412A

Abstract

本发明提供一种基于最小错误率贝叶斯分类器的车牌数字及字母识别方法，该方法为：以粗网格特征作为字符识别的特征，针对34类数字及字母字符，建立各自的字符样本库，根据样本库计算各类字符粗网格特征的均值、协方差矩阵及字符的先验概率，进而得到各类字符的判别函数，完成最小错误率贝叶斯分类器的设计，之后提取待识别字符图像的粗网格特征，利用最小错误率贝叶斯分类器对该字符图像进行第一级分类，如果第一级分类得到的类别属于相近字符的类别，则分5种情况分别提取该字符图像不同位置的局部特征，进行相近字符的第二次分类。本发明中最小错误率贝叶斯分类器所用的判别函数简单且对字符进行二级分类，具有识别速度快、识别准确性高的优点。

Description

基于最小错误率贝叶斯分类器的车牌数字及字母识别方法

技术领域

本发明涉及一种基于最小错误率贝叶斯分类器的车牌数字及字母识别方法，其目的在于对车牌后六位数字及字母字符进行分类和识别，属于交通监控技术领域。

背景技术

随着经济的不断发展和城市化进程的快速进行，我国机动车保有数量急剧增加，交通管理的问题越来越突出。在很多情况下，为了更好地进行交通管理往往需要对车辆进行识别。车牌识别系统利用图像处理、模式识别等技术自动定位和识别车牌，能够大大地提高车辆识别的效率。它可以用于停车场管理、交通信息采集、交警稽查、海关物流监控等领域，具有广泛的应用范围。

字符识别是车牌识别系统的核心模块，其性能对整个车牌识别系统具有很大的影响。最常用的字符识别方法是神经网络法，这种方法总的来说具有较好的识别准确性，但是对相近字符的识别依然具有一定的错误率，且其训练和识别需要较多的时间。本发明提供一种基于最小错误率贝叶斯分类器的车牌数字及字母识别方法，能够快速、准确地对车牌的数字及字母进行识别，且提高了对相近字符的识别率。

发明内容

技术问题

本发明提供一种基于最小错误率贝叶斯分类器的车牌数字及字母识别方法，该方法具有识别精度高、识别速度快等优点。

技术方案

一种基于最小错误率贝叶斯分类器的车牌数字及字母识别方法，其特征在于：

步骤1建立各类别字符的识别样本库

根据中华人民共和国机动车号牌标准(GA36-2007)，车牌中用到所有的数字字符及除I和O之外的所有字母字符，总共34类字符，针对第j类字符L_j建立样本数量为N_j的字符样本库S_j，得到样本总数量为N的总样本库S，

S＝{S_j}，j＝1，2，...34，

S_j＝{W_jk}，k＝1，2，...N_j，

N = Σ_{j = 1}^{34} N_{j},

式中，W_jk是大小被归一化为80×40像素的二值化字符图像，表示第j类字符的样本库S_j中第k个样本，字符样本库S₁～S₁₀按顺序对应于数字0～9，字符样本库S₁₁～S₁₈按顺序对应于字母A～H，字符样本库S₁₉～S₂₃按顺序对应于字母J～N，字符样本库S₂₄～S₃₄按顺序对应于字母P～Z，步骤2最小错误率贝叶斯分类器的设计

步骤2.1：对第j类字符而言，计算其字符样本库S_j中所有样本W_jk的粗网格特征

F_{W_{jk}} (i_{1}) = Σ_{x_{1} = (m_{1} - 1) \times 10 + 1}^{m_{1} \times 10} Σ_{y_{1} = (n_{1} - 1) \times 10 + 1}^{n_{1} \times 10} W_{jk} (x_{1}, y_{1}),

i₁＝1，2，...32，

其中，

m_{1} = \frac{i_{1} - n_{1}}{4} + 1,

是粗网格特征

的第i₁个分量，m₁和n₁分别是

所对应的块的横、纵坐标，W_jk(x₁，y₁)是字符图像W_jk中坐标为(x₁，y₁)的像素的值，若为1则表示该像素属于字符，若为0则表示该像素属于背景，mod(i₁，4)为i₁除以4之后的余数，

步骤2.2：计算字符样本库S_j中所有样本W_jk的粗网格特征均值

\overset{&OverBar;}{F_{j}} (i_{1}) = \frac{Σ_{k = 1}^{N_{j}} F_{W_{jk}} (i_{1})}{N_{j}},

i₁＝1，2，...32，

式中，

是第j类字符L_j的粗网格特征均值

的第i₁个分量，是字符样本库S_j中第k个样本W_jk的粗网格特征

的第i₁个分量，

步骤2.3：计算字符样本库S_j中所有样本的粗网格特征的协方差矩阵C_j，

{C_{j}}_{ab} = \frac{1}{N_{j} - 1} Σ_{k = 1}^{N_{j}} (F_{W_{jk}} (a) - \overset{&OverBar;}{F_{j}} (a)) (F_{W_{jk}} (b) - \overset{&OverBar;}{F_{j}} (b)),

a，b＝1，2，...32，

式中，

是协方差矩阵C_j中行、列坐标分别为a、b的元素的数值，

是字符样本库S_j中第k个样本W_jk的粗网格特征

的第a个分量，是字符样本库S_j中第k个样本W_jk的粗网格特征的第b个分量，

步骤2.4：计算在总样本库中第j类字符L_j的先验概率P_j，

P_{j} = \frac{N_{j}}{N},

j＝1，2，...34，

步骤2.5：定义与第j类字符L_j相对应的判别函数H_j(W)，得到最小错误率贝叶斯分类器H(W)，H(W)＝{H_j(W)}，j＝1，2，...34，

H_{j} (w) = - \frac{1}{2} {(F_{W} - \overset{&OverBar;}{F_{j}})}^{T} {C_{j}}^{- 1} (F_{W} - \overset{&OverBar;}{F_{j}}) + \ln P (j) - \frac{1}{2} j \ln | C_{j} |,

式中，W是任意的大小被归一化为80×40像素的二值字符图像，F_W是二值字符图像W的粗网格特征，C_j ^-1是协方差矩阵C_j的逆矩阵，|C_j|是协方差矩阵C_j的行列式，

步骤3基于最小错误率贝叶斯分类器的第一级分类

步骤3.1：对需要进行识别的大小被归一化为80×40像素的二值字符图像W而言，计算其粗网格特征F_W，

F_{W} (i_{2}) = Σ_{x_{2} = (m_{2} - 1) \times 10 + 1}^{m_{2} \times 10} Σ_{y_{2} = (n_{2} - 1) \times 10 + 1}^{n_{2} \times 10} W (x_{2}, y_{2}),

i₂＝1，2，...32，

其中，

m_{2} = \frac{i_{2} - n_{2}}{4} + 1,

F_w(i₂)是粗网格特征F_w的第i₂个分量，m₂和n₂分别是F_w(i₂)所对应的块的横、纵坐标，W(x₂，y₂)是字符图像W中坐标为(x₂，y₂)的像素的值，若为1则表示该像素属于字符，若为0则表示该像素属于背景，mod(i₂，4)为i₂除以4之后的余数，

步骤3.2：计算最小错误率贝叶斯分类器H(W)中所有判别函数H_j(W)的值，取最大的判别函数值H_M(W)所对应的字符类别作为该二值字符图像W的类别，

H_M(W)＝max(H_j(W))，j＝1，2，...34，

数值M与34种字符类别的对应关系为：M分别为1～10时按顺序对应于数字0～9，M分别为11～18时按顺序对应于字母A～H，M分别为19～23时按顺序对应于字母J～N，M分别为24～34时按顺序对应于字母P～Z，

如果与数值M所对应的字符类别是集合{D，0，Q，8，B，2，Z，5，S，4，A}中的一种，则表明第一级分类得到的字符类别属于相似字符，可能存在一定的错误，转到步骤4进行第二级分类，否则表明第一级分类得到的字符类别不属于相似字符，以之作为该字符的最终分类结果，结束分类，步骤4相似字符的第二级分类

以第一级分类结果为基础，对易混淆的5组字符提取局部特征进行第二级分类，

(1)“D”、“0”和“Q”

如果第一级分类得到的字符类别为“D”、“0”和“Q”，则计算字符图像W的局部特征T₁和T₂，

T_{1} = Σ_{x = 60}^{80} Σ_{y = 20}^{30} W (x, y),

T_{2} = Σ_{x = 1}^{12} Σ_{y = 2}^{8} W (x, y) + Σ_{x = 73}^{80} Σ_{y = 2}^{8} W (x, y),

利用局部特征T₁和T₂对字符图像W进行第二级分类：

如果T₁≥195，则识别字符图像W为字母“Q”，如果T₁＜195且T₂＜73则识别字符图像W为数字“0”，如果T₁＜195且T₂≥73则识别字符图像W为字母“D”，

(2)“8”和“B”

如果第一级分类得到的字符类别为“8”和“B”，则计算字符图像W的局部特征T₃、T₄和T₅，

T_{3} = Σ_{x = 75}^{80} Σ_{y = 2}^{8} W (x, y),

T_{4} = Σ_{x = 1}^{5} Σ_{y = 2}^{8} W (x, y),

T_{5} = Σ_{x = 38}^{42} Σ_{y = 1}^{5} W (x, y),

利用局部特征T₃、T₄和T₅对字符图像W进行第二级分类：

如果T₃＜24、T₄＜20且T₅＜20，则识别字符图像W为数字“8”，否则识别字符图像W为字母“B”，

(3)“2”和“Z”

如果第一级分类得到的字符类别为“2”和“Z”，则计算字符图像W的局部特征T₆和T₇，

T_{6} = Σ_{x = 1}^{8} Σ_{y = 1}^{40} W (x, y),

T_{7} = Σ_{x = 15}^{25} Σ_{y = 1}^{10} W (x, y),

利用局部特征T₆和T₇对字符图像W进行第二级分类：

如果T₆≤260且T₇≥15，则识别字符图像W为数字“2”，否则识别字符图像W为字母“Z”，

(4)“5”和“S”

如果第一级分类得到的字符类别为“5”和“S”，则计算字符图像W的局部特征T₈和T₉，

T_{8} = Σ_{x = 1}^{10} Σ_{y = 1}^{40} W (x, y),

T_{9} = Σ_{x = 1}^{40} Σ_{y = 1}^{10} W (x, y),

利用局部特征T₈和T₉对字符图像W进行第二级分类：

如果T₇≥290且T₉≥270，则识别字符图像W为数字“5”，否则识别字符图像W为字母“S”，

(5)“4”和“A”

如果第一级分类得到的字符类别为“4”和“A”，则计算字符图像W的局部特征T₁₀，

T_{10} = Σ_{x = 70}^{80} Σ_{y = 1}^{15} W (x, y),

利用局部特征T₁₀对字符图像W进行第二级分类：

如果T₁₀＜180，则识别字符图像W为数字“4”，否则识别字符图像W为字母“A”。

有益效果

1.识别速度快。直接根据识别样本计算判别函数的参数，并设计最小错误率贝叶斯分类器，无需像神经网络训练一样进行复杂、重复的参数调整，而且分类器所用的判别函数简单，能够节省很多的计算时间。

2.识别准确性高。首先利用基于最小错误率的贝叶斯分类器进行第一级分类，然后在第一级分类的基础上，针对可能出现的相近字符分别利用局部特征进行第二级分类，提高了相相近字符的识别准确性。

附图说明

图1是基于最小错误率贝叶斯分类器的车牌数字及字母识别方法流程图。

图2是需要进行字符识别的车牌P。

图3是车牌的第二个字符W₂。

图4是车牌的第三个字符W₃。

图5是车牌的第四个字符W₄。

图6是车牌的第五个字符W₅。

图7是车牌的第六个字符W₆。

图8是车牌的第七个字符W₇。

具体实施方式

本发明的具体实例结合图5-16说明如下：

需要进行字符识别的车牌图像P如图2所示，对车牌图像P进行二值化、字符分割及字符大小归一化，得到车牌的第2-7个二值字符图像为W₂-W₇，分别如图3-8所示，

步骤1建立各类别字符的识别样本库

S＝{S_j}，j＝1，2，...34，

S_j＝{W_jk}，k＝1，2，...N_j，

N = Σ_{j = 1}^{34} N_{j},

式中，W_jk是大小被归一化为80×40像素的二值化字符图像，表示第j类字符的样本库S_j中第k个样本，字符样本库S₁～S₁₀按顺序对应于数字0～9，字符样本库S₁₁～S₁₈按顺序对应于字母A～H，字符样本库S₁₉～S₂₃按顺序对应于字母J～N，字符样本库S₂₄～S₃₄按顺序对应于字母P～Z，N_j＝50，N＝1700，

步骤2最小错误率贝叶斯分类器的设计

F_{W_{jk}} (i_{1}) = Σ_{x_{1} = (m_{1} - 1) \times 10 + 1}^{m_{1} \times 10} Σ_{y_{1} = (n_{1} - 1) \times 10 + 1}^{n_{1} \times 10} W_{jk} (x_{1}, y_{1}),

i₁＝1，2，...32，

其中，

m_{1} = \frac{i_{1} - n_{1}}{4} + 1,

是粗网格特征

的第i₁个分量，m₁和n₁分别是

步骤2.2：计算字符样本库S_j中所有样本W_jk的粗网格特征均值

\overset{&OverBar;}{F_{j}} (i_{1}) = \frac{Σ_{k = 1}^{N_{j}} F_{W_{jk} (i_{1})}}{N_{j}},

i₁＝1，2，...32，

式中，

是第j类字符L_j的粗网格特征均值

的第i₁个分量，

是字符样本库S_j中第k个样本W_jk的粗网格特征

的第i₁个分量，

C_{j_{ab}} = \frac{1}{N_{j} - 1} Σ_{N_{j} - 1}^{N_{1}} (F_{W_{jk}} (a) - \overset{&OverBar;}{F_{j}} (a)) (F_{W_{jk}} (b) - \overset{&OverBar;}{F_{j}} (b)),

a，b＝1，2，...32，

式中，

是协方差矩阵C_j中行、列坐标分别为a、b的元素的数值，

是字符样本库S_j中第k个样本W_jk的粗网格特征

的第a个分量，

是字符样本库S_j中第k个样本W_jk的粗网格特征

的第b个分量，

步骤2.4：计算在总样本库中第j类字符L_j的先验概率P_j，

P_{j} = \frac{N_{j}}{N},

j＝1，2，...34，

H_{j} (W) = - \frac{1}{2} {(F_{W} - \overset{&OverBar;}{F_{j}})}^{T} {C_{j}}^{- 1} (F_{W} - \overset{&OverBar;}{F_{j}}) + \ln P (j) - \frac{1}{2} j \ln | C_{j} |,

步骤3基于最小错误率贝叶斯分类器的第一级分类

步骤3.1第二个字符W₂的第一级分类

首先，计算第二个字符W₂(如图3所示)的粗网格特征

F_{w_{2}} (i_{2}) = Σ_{x_{2} = (m_{2} - 1) \times 10 + 1}^{m_{2} \times 10} Σ_{y_{2} = (n_{2} - 1) \times 10 + 1}^{n_{2} \times 10} W_{2} (x_{2}, y_{2}),

i₂＝1，2，...32，

其中，

m_{2} = \frac{i_{2} - n_{2}}{4} + 1,

是粗网格特征的第i₂个分量，m₂和n₂分别是

所对应的块的横、纵坐标，W₂(x₂，y₂)是字符图像W₂中坐标为(x₂，y₂)的像素的值，若为1则表示该像素属于字符，若为0则表示该像素属于背景，mod(i₂，4)为i₂除以4之后的余数，

然后，利用粗网格特征计算所有判别函数H_j(W₂)的值，得到最大的判别函数值为H₇(W₂)，

H₇(W₂)＝max(H_j(W₂))，j＝1，2，...34，

判别函数H₇(W)所对应的字符为“8”，即第二个字符W₂在第一级分类中被识别为“8”，

步骤3.2第三个字符W₃的第一级分类

首先，计算第三个字符W₃(如图4所示)的粗网格特征

F_{W_{3}} (i_{2}) = Σ_{x_{2} = (m_{2} - 1) \times 10 + 1}^{m_{2} \times 10} Σ_{y_{2} = (n_{2} - 1) \times 10 + 1}^{n_{2} \times 10} W_{3} (x_{2}, y_{2}),

i₂＝1，2，...32，

其中，

m_{2} = \frac{i_{2} - n_{2}}{4} + 1,

是粗网格特征

的第i₂个分量，m₂和n₂分别是

所对应的块的横、纵坐标，W₃(x₂，y₂)是字符图像W₃中坐标为(x₂，y₂)的像素的值，若为1则表示该像素属于字符，若为0则表示该像素属于背景，mod(i₂，4)为i₂除以4之后的余数，

然后，利用粗网格特征

计算所有判别函数H_j(W₃)的值，得到最大的判别函数值为H₁₅(W₃)，

H₁₅(W₃)＝max(H_j(W₃))，j＝1，2，...34，

判别函数H₁₅(W)所对应的字符为“E”，即第三个字符W₃在第一级分类中被识别为“E”，

步骤3.3第四个字符W₄的第一级分类

首先，计算第四个字符W₄(如图5所示)的粗网格特征

F_{W_{4}} (i_{2}) = Σ_{x_{2} = (m_{2} - 1) \times 10 + 1}^{m_{2} \times 10} Σ_{y_{2} = (n_{2} - 1) \times 10 + 1}^{n_{2} \times 10} W_{4} (x_{2}, y_{2}),

i₂＝1，2，...32，

其中，

m_{2} = \frac{i_{2} - n_{2}}{4} + 1,

是粗网格特征

的第i₂个分量，m₂和n₂分别是

所对应的块的横、纵坐标，W₄(x₂，y₂)是字符图像W₄中坐标为(x₂，y₂)的像素的值，若为1则表示该像素属于字符，若为0则表示该像素属于背景，mod(i₂，4)为i₂除以4之后的余数，

然后，利用粗网格特征计算所有判别函数H_j(W₄)的值，得到最大的判别函数值为H₃(W₄)，

H₃(W₄)＝max(H_j(W₄))，j＝1，2，...34，

判别函数H₃(W)所对应的字符为“4”，即第四个字符W₄在第一级分类中被识别为“4”，

步骤3.4第五个字符W₅的第一级分类

首先，计算第五个字符W₅(如图6所示)的粗网格特征

F_{W_{5}} (i_{2}) = Σ_{x_{2} = (m_{2} - 1) \times 10 + 1}^{m_{2} \times 10} Σ_{y_{2} = (n_{2} - 1) \times 10 + 1}^{n_{2} \times 10} W_{5} (x_{2}, y_{2}),

i₂＝1，2，...32，

其中，

m_{2} = \frac{i_{2} - n_{2}}{4} + 1,

是粗网格特征

的第i₂个分量，m₂和n₂分别是

所对应的块的横、纵坐标，W₅(x₂，y₂)是字符图像W₅中坐标为(x₂，y₂)的像素的值，若为1则表示该像素属于字符，若为0则表示该像素属于背景，mod(i₂，4)为i₂除以4之后的余数，

然后，利用粗网格特征

计算所有判别函数H_j(W₅)的值，得到最大的判别函数值为H₄(W₅)，

H₄(W₅)＝max(H_j(W₅))，j＝1，2，...34，

判别函数H₄(W₅)所对应的字符为“5”，即第五个字符W₅在第一级分类中被识别为“5”，

步骤3.5第六个字符W₆的第一级分类

首先，计算第六个字符W₆(如图7所示)的粗网格特征

F_{W_{6}} (i_{2}) = Σ_{x_{2} = (m_{2} - 1) \times 10 + 1}^{m_{2} \times 10} Σ_{y_{2} = (n_{2} - 1) \times 10 + 1}^{n_{2} \times 10} W_{6} (x_{2}, y_{2}),

i₂＝1，2，...32，

其中，

m_{2} = \frac{i_{2} - n_{2}}{4} + 1,

是粗网格特征

的第i₂个分量，m₂和n₂分别是

所对应的块的横、纵坐标，W₆(x₂，y₂)是字符图像W₆中坐标为(x₂，y₂)的像素的值，若为1则表示该像素属于字符，若为0则表示该像素属于背景，mod(i₂，4)为i₂除以4之后的余数，

然后，利用粗网格特征

计算所有判别函数H_j(W₆)的值，得到最大的判别函数值为H₅(W₆)，

H₅(W₆)＝max(H_j(W₆))，j＝1，2，...34，

判别函数H₅(W)所对应的字符为“6”，即第六个字符W₂在第一级分类中被识别为“6”，

步骤3.6第七个字符W₇的第一级分类

首先，计算第七个字符W₇(如图8所示)的粗网格特征

F_{W_{7}} (i_{2}) = Σ_{x_{2} = (m_{2} - 1) \times 10 + 1}^{m_{2} \times 10} Σ_{y_{2} = (n_{2} - 1) \times 10 + 1}^{n_{2} \times 10} W_{7} (x_{2}, y_{2}),

i₂＝1，2，...32，

其中，

m_{2} = \frac{i_{2} - n_{2}}{4} + 1,

是粗网格特征

的第i₂个分量，m₂和n₂分别是

所对应的块的横、纵坐标，W₇(x₂，y₂)是字符图像W₇中坐标为(x₂，y₂)的像素的值，若为1则表示该像素属于字符，若为0则表示该像素属于背景，mod(i₂，4)为i₂除以4之后的余数，

然后，利用粗网格特征计算所有判别函数H_j(W₇)的值，得到最大的判别函数值为H₈(W₇)，

H₈(W₇)＝max(H_j(W₇))，j＝1，2，...34，

判别函数H₈(W)所对应的字符为“9”，即第七个字符W₇在第一级分类中被识别为“9”，

经过上述步骤3.1-3.6完成了对车牌后六位字符的第一级分类，其中第二位字符W₂和第四位字符W₄所对应的字符类别属于集合{D，0，Q，8，B，2，Z，5，S，4，A}，需要转到步骤4进行第二级分类，其他四位字符的类别不属于集合{D，0，Q，8，B，2，Z，5，S，4，A}，不需进行第二级分类，以该四个类别作为该四个字符的最终分类结果，结束其分类，

步骤4相似字符的第二级分类

以第一级分类结果为基础，对第二位字符W₂和第四位字符W₄提取局部特征进行第二级分类，

步骤4.1对第二位字符W₂进行第二级分类

第二位字符W₂在第一级分类中被分类为字符“8”，字符“8”和字符“B”属于一组相近字符，这两个字符的区别主要在字符的左边缘，字符“8”的左边缘为弧线，而“B”的左边缘为直线，针对这个特点，定义字符图像W的左上角局部特征T₃、左中部局部特征T₄和左下角局部特征T₅，

T_{3} = Σ_{x = 75}^{80} Σ_{y = 2}^{8} W (x, y),

T_{4} = Σ_{x = 1}^{5} Σ_{y = 2}^{8} W (x, y),

T_{5} = Σ_{x = 38}^{42} Σ_{y = 1}^{5} W (x, y),

经过对大量车牌字符的统计实验，取分类临界线为T₃＝24，T₄＝20，T₅＝20，

按上式计算第二位字符图像W₂的局部特征T₃、T₄和T₅，得到T₃＝27、T₄＝25和T₅＝21，由于T₃≥24、T₄≥20且T₅≥20，识别第二位字符W₂为字母“B”，

步骤4.2对第四位字符W₄进行第二级分类

第四位字符W₄在第一级分类中被分类为字符“4”，字符“4”和字符“A”属于一组相近字符，这两个字符的区别主要在字符的左下角，字符“4”左下角没有白色像素，而字符“A”左下角的白色像素较多，针对这个特点，定义字符图像W的左下角局部特征T₁₀，

T_{10} = Σ_{x = 70}^{80} Σ_{y = 1}^{15} W (x, y),

经过对大量车牌字符的统计实验，取分类临界线为T₁₀＝180，

按上式计算第四位字符图像W₄的局部特征T₁₀，得到T₁₀＝136，由于T₁₀＜180，则识别第四位字符W₄为数字“4”，

最终的识别结果为：第二位字符W₂被设别为“B”，第三位字符W₃被设别为“E”，第四位字符W₄被设别为“4”，第五位字符W₅被设别为“5”，第六位字符W₆被设别为“6”，第七位字符W₇被设别为“9”，从图3-8可见，识别结果完全正确。

Claims

1.一种基于最小错误率贝叶斯分类器的车牌数字及字母识别方法，其特征在于：

步骤1建立各类别字符的识别样本库

根据中华人民共和国机动车号牌标准GA36-2007，车牌中用到所有的数字字符及除I和O之外的所有字母字符，总共34类字符，针对第j类字符L_j建立样本数量为N_j的字符样本库S_j，得到样本总数量为N的总样本库S，

S={S_j}，j=1,2，...34，

S_j={W_jk}，k=1,2，...N_j，

N = Σ_{j = 1}^{34} N_{j},

式中，W_jk是大小被归一化为80×40像素的二值化字符图像，表示第j类字符的样本库S_j中第k个样本，字符样本库S₁～S₁₀按顺序对应于数字0～9，字符样本库S₁₁～S₁₈按顺序对应于字母A～H，字符样本库S₁₉～S₂₃按顺序对应于字母J～N，字符样本库S₂₄～S₃₄按顺序对应于字母P～Z，

步骤2最小错误率贝叶斯分类器的设计

F_{w_{jk}} (i_{1}) = Σ_{x_{1} = (m_{1} - 1) \times 10 + 1}^{m_{1} \times 10} Σ_{y_{1} = (n_{1} - 1) \times 10 + 1}^{n_{1} \times 10} W_{jk} (x_{1}, y_{1}), i_{1} = 1,2, . . . 32,

其中，

m_{1} = \frac{i_{1} - n_{1}}{4} + 1,

是粗网格特征

的第i₁个分量，m₁和n₁分别是

所对应的块的横、纵坐标，W_jk(x₁,y₁)是字符图像W_jk中坐标为（x₁,y₁）的像素的值，若为1则表示该像素属于字符，若为0则表示该像素属于背景，mod(i₁,4)为i₁除以4之后的余数，

步骤2.2：计算字符样本库S_j中所有样本W_jk的粗网格特征均值

\overset{&OverBar;}{F_{j}} (i_{1}) = \frac{Σ_{k = 1}^{N_{j}} F_{w_{jk}} (i_{1})}{N_{j}}, i_{1} = 1,2, . . . 32,

式中，

是第j类字符L_j的粗网格特征均值的第i₁个分量，

是字符样本库S_j中第k个样本W_jk的粗网格特征的第i₁个分量，

C_{j_{ab}} = \frac{1}{N_{j} - 1} Σ_{k = 1}^{N_{j}} (F_{w_{jk}} (a) - \overset{&OverBar;}{F_{j}} (a)) (F_{w_{jk}} (b) - \overset{&OverBar;}{F_{j}} (b)), a, b = 1,2, . . . 32,

式中，

是协方差矩阵C_j中行、列坐标分别为a、b的元素的数值，

是字符样本库S_j中第k个样本W_jk的粗网格特征的第a个分量，

是字符样本库S_j中第k个样本W_jk的粗网格特征的第b个分量，

步骤2.4：计算在总样本库中第j类字符L_j的先验概率P_j，

P_{j} = \frac{N_{j}}{N}, j = 1,2, . . . 34,

步骤2.5：定义与第j类字符L_j相对应的判别函数H_j(W)，得到最小错误率贝叶斯分类器H(W)，

H(W)={H_j(W)}，j=1,2，...34，

H_{j} (W) = - \frac{1}{2} {(F_{W} - \overset{&OverBar;}{F_{j}})}^{T} {C_{j}}^{- 1} (F_{W} - \overset{&OverBar;}{F_{j}}) + \ln P (j) - \frac{1}{2} j \ln | C_{j} |,

步骤3基于最小错误率贝叶斯分类器的第一级分类

F_{w} (i_{2}) = Σ_{x_{2} = (m_{2} - 1) \times 10 + 1}^{m_{2} \times 10} Σ_{y_{2} = (n_{2} - 1) \times 10 + 1}^{n_{2} \times 10} W (x_{2}, y_{2}), i_{2} = 1,2, . . . 32,

其中，

m_{2} = \frac{i_{2} - n_{2}}{4} + 1,

F_w(i₂)是粗网格特征F_w的第i₂个分量，m₂和n₂分别是F_w(i₂)所对应的块的横、纵坐标，W(x₂,y₂)是字符图像W中坐标为（x₂,y₂）的像素的值，若为1则表示该像素属于字符，若为0则表示该像素属于背景，mod(i₂,4)为i₂除以4之后的余数，

H_M(W)=max(H_j(W))，j=1，2,...34，

如果与数值M所对应的字符类别是集合{D，0，Q，8，B，2，Z，5，S，4，A}中的一种，则表明第一级分类得到的字符类别属于相似字符，可能存在错误，转到步骤4进行第二级分类，否则表明第一级分类得到的字符类别不属于相似字符，以之作为该字符的最终分类结果，结束分类，

步骤4相似字符的第二级分类

(1)“D”、“0”和“Q”

T_{1} = Σ_{x = 60}^{80} Σ_{y = 20}^{30} W (x, y),

T_{2} = Σ_{x = 1}^{12} Σ_{y = 2}^{8} W (x, y) + Σ_{x = 73}^{80} Σ_{y = 2}^{8} W (x, y) .

利用局部特征T₁和T₂对字符图像W进行第二级分类：

如果T₁≥195，则识别字符图像W为字母“Q”，如果T₁<195且T₂<73则识别字符图像W为数字“0”，如果T₁<195且T₂≥73则识别字符图像W为字母“D”，

(2)“8”和“B”

T_{3} = Σ_{x = 75}^{80} Σ_{y = 2}^{8} W (x, y),

T_{4} = Σ_{x = 1}^{5} Σ_{y = 2}^{8} W (x, y),

T_{5} = Σ_{x = 38}^{42} Σ_{y = 1}^{5} W (x, y),

利用局部特征T₃、T₄和T₅对字符图像W进行第二级分类：

如果T₃<24、T₄<20且T₅<20，则识别字符图像W为数字“8”，否则识别字符图像W为字母“B”，

(3)“2”和“Z”

T_{6} = Σ_{x = 1}^{8} Σ_{y = 1}^{40} W (x, y),

T_{7} = Σ_{x = 15}^{25} Σ_{y = 1}^{10} W (x, y),

利用局部特征T₆和T₇对字符图像W进行第二级分类：

(4)“5”和“S”

T_{8} = Σ_{x = 1}^{10} Σ_{y = 1}^{40} W (x, y),

T_{9} = Σ_{x = 1}^{40} Σ_{y = 1}^{10} W (x, y),

利用局部特征T₈和T₉对字符图像W进行第二级分类：

(5)“4”和“A”

T_{10} = Σ_{x = 70}^{80} Σ_{y = 1}^{15} W (x, y),

利用局部特征T₁₀对字符图像W进行第二级分类：

如果T₁₀<180，则识别字符图像W为数字“4”，否则识别字符图像W为字母“A”。