CN103310217A

CN103310217A - 基于图像协方差特征的手写体数字识别方法及装置

Info

Publication number: CN103310217A
Application number: CN2013102467339A
Authority: CN
Inventors: 张莉; 张海飞; 周伟达; 何书萍; 王邦军; 李凡长; 杨季文
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2013-06-20
Filing date: 2013-06-20
Publication date: 2013-09-18
Anticipated expiration: 2033-06-20
Also published as: CN103310217B

Abstract

本发明公开了一种基于图像协方差特征的手写体数字识别方法及装置，包括：提取N个手写体数字训练图像的协方差矩阵，作为训练样本；其中，N为自然数；利用支持向量机对训练样本进行训练，得到分类器模型系数；其中，支持向量机所采用的核函数为计算协方差矩阵之间相似性的矩阵核函数；利用分类器模型系数、矩阵核函数和训练样本构建分类器模型；利用分类器模型对需识别手写体数字图像进行识别。采用本发明矩阵核函数的支持向量机可以对图像的协方差特征进行处理，从而使得所产生的分类器模型的系数更加准确，进而提高了手写体数字的识别率。

Description

基于图像协方差特征的手写体数字识别方法及装置

技术领域

本发明涉及图像识别技术领域，特别涉及一种基于图像协方差特征的手写体数字识别方法及装置。

背景技术

近年来随着计算机技术和数字图像处理技术的飞速发展，手写体数字识别技术在大规模数据统计、邮件分拣、财物和税务等行业得到了广泛的应用。与此同时，支持向量机以其独有的优势在手写体数字识别领域得到了广泛的应用。

科研人员发现，将图像的协方差矩阵作为图像的识别特征，将会提高对图像的识别率。但在现有技术中，支持向量机只能对图像的矢量特征进行处理进而识别图像，并不能根据图像的协方差特征识别图像，因此亟需一种基于图像协方差特征的手写体数字识别方法及装置，以提高手写体数字的识别率。

发明内容

有鉴于此，本发明的目的在于提供基于图像协方差特征的手写体数字识别方法及装置，以提高手写体数字的识别率。

为实现上述目的，本发明提供如下技术方案：

一种基于图像协方差特征的手写体数字识别方法，包括：

提取N个手写体数字训练图像的协方差矩阵，作为训练样本；其中，所述N为自然数；

利用支持向量机对所述训练样本进行训练，得到分类器模型系数；其中，所述支持向量机所采用的核函数为计算协方差矩阵之间相似性的矩阵核函数；

利用所述分类器模型系数、所述矩阵核函数和所述训练样本构建分类器模型；

利用所述分类器模型对需识别手写体数字图像进行识别。

优选的，所述提取N个手写体数字训练图像的协方差矩阵的过程，包括：

针对任一手写体数字训练图像，获得所述手写体数字训练图像的像素矩阵I，并提取所述I的像素特征φ(I,x,y)；其中，所述I为g行h列的矩阵，所述g表示所述I的行数值，所述h表示所述I的列数值，且所述g和h均为自然数；

所述

φ (I, x, y) = {(x, y, I (x, y), | \frac{&PartialD;}{&PartialD; x} I (x, y) |, | \frac{&PartialD;}{&PartialD; y} I (x, y) |, \sqrt{{| \frac{&PartialD;}{&PartialD; x} I (x, y) |}^{2} + {| \frac{&PartialD;}{&PartialD; y} I (x, y) |}^{2}})}^{T};

其中所述

表示所述I(x,y)在x处的一阶偏导数，所述

表示所述I(x,y)在y处的一阶偏导数，1≤x≤g，1≤y≤h;

根据所提取的像素特征φ(I,x,y)，获得所述I的协方差矩阵C；

所述

C = \frac{1}{gh} Σ_{x = 1}^{g} Σ_{y = 1}^{h} (φ (I, x, y) - \overset{&OverBar;}{φ} (I)) {(φ (I, x, y) - \overset{&OverBar;}{φ} (I))}^{T},

其中所述

表示所述I的像素特征的均值，并且所述

\overset{&OverBar;}{φ} (I) = \frac{1}{gh} Σ_{x = 1}^{g} Σ_{y = 1}^{h} φ (I, x, y) .

优选的，所述利用所述分类器模型系数、所述矩阵核函数和所述训练样本构建分类器模型的过程，包括：

将所述训练样本按照类别标签分为d类训练子样本，其中所述d为自然数，所述类别标签为所述手写体数字训练图像的实际数字值；

从所述d类训练子样本中任取2类进行组合，获得d(d-1)/2个训练组合样本；

利用所述d(d-1)/2个训练组合样本、所述分类器模型系数和所述矩阵核函数构建d(d-1)/2个分类器模型。

优选的，所述分类器模型为：

f_{ab} (C) = sgn (Σ_{ρ = 1}^{N_{ab}} β_{ρ}^{ab} y_{ρ}^{ab} k (C, C_{ρ}^{ab}) + b_{ab}),

其中，所述a表示第a类训练子样本，所述b表示第b类训练子样本，1≤a≤d，1≤b≤d，且所述a不等于b；所述

表示用于区分所述a类训练子样本和所述b类训练子样本的标签，所述

的取值为1或-1；所述ρ表示第a类训练子样本和第b类训练子样本所组成的训练组合样本内的第ρ个手写体数字训练图像；所述N_ab表示第a类训练子样本与第b类训练子样本内的样本总数；所述

和b_ab均为所述分类器模型系数；sgn()表示符号函数；所述f_ab(C)表示所述分类器模型的分类值；所述矩阵核函数

所述C表示需识别手写体数字图像的协方差矩阵，所述

表示第a类训练子样本和第b类训练子样本所组成的训练组合样本内的第ρ个手写体数字训练图像的协方差矩阵，所述λ_p表示所述C和所述

的广义特征值，所述γ表示核参数，且取值大于0；所述p表示广义特征值的维数索引，1≤p≤n,所述n的取值为6。

优选的，所述利用所述分类器模型对需识别手写体数字图像进行识别的过程，包括：

获取需识别的手写体数字图像的协方差矩阵C；

将所述C分别输入到d(d-1)/2个分类器模型内，获得d(d-1)/2个分类值；

将所述d(d-1)/2个分类值分别代入公式

中，计算出需识别手写体数字图像的数字值f(C)，将所述f(C)作为所述手写体数字图像的识别结果。

一种基于图像协方差特征的手写体数字识别装置，包括:

提取模块用于，提取N个手写体数字训练图像的协方差矩阵，作为训练样本；其中，所述N为自然数；

训练模块用于，利用支持向量机对所述训练样本进行训练，得到分类器模型系数；其中，所述支持向量机所采用的核函数为计算协方差矩阵之间相似性的矩阵核函数；

构建模块用于，利用所述分类器模型系数、所述矩阵核函数和所述训练样本构建分类器模型；

识别模块用于，利用所述分类器模型对需识别手写体数字图像进行识别。

优选的，所述提取模块包括：

像素特征提取单元用于，获取所述手写体数字训练图像的像素矩阵I，并提取所述I的像素特征φ(I,x,y)；其中，所述I为g行h列的矩阵，所述g表示所述I的行数值，所述h表示所述I的列数值，且所述g和h均为自然数；所述

φ (I, x, y) = {(x, y, I (x, y), | \frac{&PartialD;}{&PartialD; x} I (x, y) |, | \frac{&PartialD;}{&PartialD; y} I (x, y) |, \sqrt{{| \frac{&PartialD;}{&PartialD; x} I (x, y) |}^{2} + {| \frac{&PartialD;}{&PartialD; y} I (x, y) |}^{2}})}^{T},

其中，所述

表示所述I(x,y)在x处的一阶偏导数，所述

表示所述I(x,y)在y处的一阶偏导数，1≤x≤g，1≤y≤h;

第一协方差矩阵获取单元用于，根据所提取的像素特征φ(I,x,y)，获取所述I的协方差矩阵C；所述

C = \frac{1}{gh} Σ_{x = 1}^{g} Σ_{y = 1}^{h} (φ (I, x, y) - \overset{&OverBar;}{φ} (I)) {(φ (I, x, y) - \overset{&OverBar;}{φ} (I))}^{T},

其中所述

表示所述I的像素特征的均值，并且所述

优选的，所述构建模块包括：

分类单元用于，将所述训练样本按照类别标签分为d类训练子样本，其中所述d为自然数，所述类别标签为所述手写体数字训练图像的实际数字值；

组合单元用于，从所述d类训练子样本中任取2类进行组合，获得d(d-1)/2个训练组合样本；

分类器构建单元用于，利用所述d(d-1)/2个训练组合样本、所述分类器模型系数和所述矩阵核函数构建d(d-1)/2个分类器模型。

优选的，所述分类器模型为：

f_{ab} (C) = sgn (Σ_{ρ = 1}^{N_{ab}} β_{ρ}^{ab} y_{ρ}^{ab} k (C, C_{ρ}^{ab}) + b_{ab}),

的的取值为1或-1；所述ρ表示第a类训练子样本和第b类训练子样本所组成的训练组合样本内的第ρ个手写体数字训练图像；所述N_ab表示第a类训练子样本与第b类训练子样本内的样本总数；所述

所述C表示需识别手写体数字图像的协方差矩阵，所述

的广义特征值，所述γ表示核参数，且取值大于0，所述p表示广义特征值的维数索引，1≤p≤n，所述n的取值为6。

优选的，所述识别模块包括：

第二协方差矩阵获取单元用于，获取需识别的手写体数字图像的协方差矩阵C;

分类值计算单元用于，将所述C分别输入到d(d-1)/2个分类器模型内，获得d(d-1)/2个分类值；

识别单元用于，将所述d(d-1)/2个分类值代入公式

中，计算需识别手写体数字图像的数字值f(C)，将所述f(C)作为所述手写体数字图像的识别结果。

由上述的技术方案可以看出，在本发明实施例中，首先提取N个手写体数字训练图像的协方差矩阵，作用训练样本；然后利用支持向量机对训练样本进行训练，得到分类器模型系数，其中，支持向量机所采用的核函数为计算协方差矩阵之间相似性的矩阵核函数；再然后利用分类器模型系数、矩阵核函数和训练样本构建分类器模型，最后利用分类器模型对需识别的手写体数字图像进行识别。由于本发明中的矩阵核函数可以将协方差矩阵之间的相似性转换为具体的数据（支持向量机可以对数据进行处理，现有技术为将两个图像的矢量的相似性转换为具体的数据，然后支持向量机再对转换后的数据进行处理）。因此，采用本发明矩阵核函数的支持向量机可以对图像的协方差特征进行处理，从而使得所产生的分类器模型的系数更加准确，进而提高了手写体数字的识别率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例所提供的基于图像协方差特征的手写体数字识别方法的流程图；

图2为本发明实施例所提供的提取图像的协方差特征的流程图；

图3为本发明实施例所提供的构建分类器模型的流程图；

图4为识别手写体数字图像的流程图；

图5为本发明实施例所提供的基于图像协方差特征的手写体数字识别装置的模块图；

图6为本发明实施例所提供的测试结果。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明公开了一种基于图像协方差特征的手写体数字识别方法，如图1所示，该方法至少包括以下步骤：

S11：提取N个手写体数字训练图像的协方差矩阵，作为训练样本；其中，N为自然数；

具体的，针对任一手写体数字训练图像，获得其协方差矩阵的过程，如图2所示，具体包括如下步骤：

S21：获得手写体数字训练图像的像素矩阵I，并提取I的像素特征φ(I,x,y)；其中I为g行h列的矩阵，g表示I的行数值，h表示I的列数值，且g和h均为自然数；

更具体的，

φ (I, x, y) = {(x, y, I (x, y), | \frac{&PartialD;}{&PartialD; x} I (x, y) |, | \frac{&PartialD;}{&PartialD; y} I (x, y) |, \sqrt{{| \frac{&PartialD;}{&PartialD; x} I (x, y) |}^{2} + {| \frac{&PartialD;}{&PartialD; y} I (x, y) |}^{2}})}^{T};

其中

表示I(x,y)在x处的一阶偏导数，

表示I(x,y)在y处的一阶偏导数，1≤x≤g，1≤y≤h。

S22：根据所提取的像素特征φ(I,x,y)，获得I的协方差矩阵C；

更具体的，

C = \frac{1}{gh} Σ_{x = 1}^{g} Σ_{y = 1}^{h} (φ (I, x, y) - \overset{&OverBar;}{φ} (I)) {(φ (I, x, y) - \overset{&OverBar;}{φ} (I))}^{T};

其中

表示I的像素特征的均值，并且

\overset{&OverBar;}{φ} (I) = \frac{1}{gh} Σ_{x = 1}^{g} Σ_{y = 1}^{h} φ (I, x, y) .

S12：利用支持向量机对训练样本进行训练，得到分类器模型系数；其中，支持向量机所采用的核函数为计算协方差矩阵之间相似性的矩阵核函数；

具体的，支持向量机对训练样本进行训练的过程，就是求解一个二次凸规划问题的过程。其支持向量机对训练样本进行训练的过程和现有技术中的训练过程相同，在此不再赘述。

S13：利用分类器模型系数、矩阵核函数和训练样本构建分类器模型；

具体的，构建分类器模型的过程，如图3所示，至少包括以下步骤：

S31：将训练样本按照类别标签分为d类训练子样本，其中d为自然数，类别标签为手写体数字训练图像的实际数字值；

S32：从d类训练子样本中任取2类进行组合，获得d(d-1)/2个训练组合样本；

S33：利用d(d-1)/2个训练组合样本、分类器模型系数和矩阵核函数构建d(d-1)/2个分类器模型。

更具体的，分类器模型为：

f_{ab} (C) = sgn (Σ_{ρ = 1}^{N_{ab}} β_{ρ}^{ab} y_{ρ}^{ab} k (C, C_{ρ}^{ab}) + b_{ab}),

其中a表示第a类训练子样本，b表示第b类训练子样本，1≤a≤d，1≤b≤d，且a不等于b；

表示用于区分a类训练子样本和b类训练子样本的标签，

的取值为1或-1，；ρ表示第a类训练子样本和第b类训练子样本所组成的训练组合样本内的第ρ个手写体数字训练图像；N_ab表示第a类训练子样本与第b类训练子样本内的样本总数；

和b_ab均为所述分类器模型系数；sgn()表示符号函数；f_ab(C)表示所述分类器模型的分类值；

其中，矩阵核函数C表示需识别手写体数字图像的协方差矩阵，

表示第a类训练子样本和第b类训练子样本所组成的训练组合样本内的第ρ个手写体数字训练图像的协方差矩阵，λ_p表示C和

的广义特征值，γ表示核参数，且取值大于0；所述p表示广义特征值的维数索引，1≤p≤n,n的取值为6。

具体的，可以设定，当

中的第ρ个手写体数字训练图像来自a类训练子样本时，

的取值为1；而当

中的第ρ个手写体数字训练图像来自b类训练子样本时，

的取值则为-1。

S14：利用分类器模型对需识别手写体数字图像进行识别。

具体的，识别的过程，如图4所示，可包括如下步骤：

S41：获取需识别的手写体数字图像的协方差矩阵C；

具体的，获取的过程，也参见如下步骤：

A：获得需识别的手写体数字图像的像素矩阵I₂，并提取I₂的像素特征φ(I₂,x,y)；其中I₂为g行h列的矩阵，g表示I₂的行数值，h表示I₂的列数值，且g和h均为自然数；

上述

φ (I_{2}, x, y) = {(x, y, I_{2} (x, y), | \frac{&PartialD;}{&PartialD; x} I_{2} (x, y) |, | \frac{&PartialD;}{&PartialD; y} I_{2} (x, y) |, \sqrt{{| \frac{&PartialD;}{&PartialD; x} I_{2} (x, y) |}^{2} + {| \frac{&PartialD;}{&PartialD; y} I_{2} (x, y) |}^{2}})}^{T};

其中，

表示I₂(x,y)在x处的一阶偏导数，表示I₂(x,y)在y处的一阶偏导数，1≤x≤g，1≤y≤h;

B：根据所提取的像素特征φ(I₂,x,y)，获得I₂的协方差距阵C₂;

其中

C_{2} = \frac{1}{gh} Σ_{x = 1}^{g} Σ_{y = 1}^{h} (φ (I_{2}, x, y) - \overset{&OverBar;}{φ} (I_{2})) {(φ (I_{2}, x, y) - \overset{&OverBar;}{φ} (I_{2}))}^{T},

其中

表示I₂的像素特征的均值，并且

\overset{&OverBar;}{φ} (I_{2}) = \frac{1}{gh} Σ_{x = 1}^{g} Σ_{y = 1}^{h} φ (I_{2}, x, y) .

S42：将C分别输入到d(d-1)/2个分类器模型内，获得d(d-1)/2个分类值；

S43：将d(d-1)/2个分类值代入公式

中，计算出需识别手写体数字图像的数字值f(C)，将f(C)作为手写体数字图像的识别结果。

由上可见，在本发明实施例中，首先提取N个手写体数字训练图像的协方差矩阵，作用训练样本；然后利用支持向量机对训练样本进行训练，得到分类器模型系数，其中，支持向量机所采用的核函数为计算协方差矩阵之间相似性的矩阵核函数；再然后利用分类器模型系数、矩阵核函数和训练样本构建分类器模型，最后利用分类器模型对需识别的手写体数字图像进行识别。由于本发明中的矩阵核函数可以将协方差矩阵之间的相似性转换为具体的数据（支持向量机可以对数据进行处理，现有技术为将两个图像的矢量的相似性转换为具体的数据，然后支持向量机再对转换后的数据进行处理）。因此，采用本发明矩阵核函数的支持向量机可以对图像的协方差特征进行处理，从而使得所产生的分类器模型的系数更加准确，进而提高了手写体数字的识别率。

可利用本发明中的上述方法，对手写体数据库MNIST中的手写数字进行测试。在MNIST中具有60000个训练样本和10000个测试样本（与上述需识别的手写体数字图像相对应），并且可根据类别标签的不同，将训练样本和测试样本均分为10类（即手写体数字的数值为1的为第1类，手写体数字的数值为2的为第2类，依次类推，手写体数字为10的为第10类。）

在此次测试中，可以从每类训练样本和测试样本中各取200个手写体数字图像，即每类具有200个训练样本和测试样本。利用上述方法和每类中的训练样本，依次对测试样本进行识别，可得到对每类手写体数字图像的误码率，以及对10类手写体数字图像的平均误码率（在此处测试中，支持向量机的正则因子的取值为1，即r的取值为1）。

同时，可以利用现有技术中的李群均值分类器、李群Fisher分类器和采用矩阵高斯核函数支持向量机方法，对上述测试样本进行测试。

其测试结果，可参见图6所示的表格，与上述李群均值分类器、李群Fisher分类器和采用矩阵高斯核函数支持向量机方法相比，本发明的方法对每类手写体数字图像的误识率和平均误识率真均为最低，即提高了对手写体数字的识别率。

本发明还公开了一种与上述方法相对应的基于图像协方差特征的手写体数字识别装置，如图5所示，包括：

提取模块51用于，提取N个手写体数字训练图像的协方差矩阵，作为训练样本；其中，N为自然数；

具体的，提取模块51可包括：

像素特征提取单元用于，获取手写体数字训练图像的像素矩阵I，并提取I的像素特征φ(I,x,y)；其中，I为g行h列的矩阵，g表示I的行数值，h表示I的列数值，且g和h均为自然数；

φ (I, x, y) = {(x, y, I (x, y), | \frac{&PartialD;}{&PartialD; x} I (x, y) |, | \frac{&PartialD;}{&PartialD; y} I (x, y) |, \sqrt{{| \frac{&PartialD;}{&PartialD; x} I (x, y) |}^{2} + {| \frac{&PartialD;}{&PartialD; y} I (x, y) |}^{2}})}^{T},

其中表示I(x,y)在x处的一阶偏导数，表示I(x,y)在y处的一阶偏导数，1≤x≤g，1≤y≤h；

第一协方差矩阵获取单元用于，根据所提取的像素特征φ(I,x,y)，获取I的协方差矩阵C；

C = \frac{1}{gh} Σ_{x = 1}^{g} Σ_{y = 1}^{h} (φ (I, x, y) - \overset{&OverBar;}{φ} (I)) {(φ (I, x, y) - \overset{&OverBar;}{φ} (I))}^{T},

其中

表示I的像素特征的均值，并且

\overset{&OverBar;}{φ} (I) = \frac{1}{gh} Σ_{x = 1}^{g} Σ_{y = 1}^{h} φ (I, x, y) .

训练模块52用于，利用支持向量机对训练样本进行训练，得到分类器模型系数；其中，支持向量机所采用的核函数为计算协方差矩阵之间相似性的矩阵核函数；

构建模块53用于，利用分类器模型系数、矩阵核函数和训练样本构建分类器模型；

具体的，构建模块53可包括：

分类单元用于，将训练样本按照类别标签分为d类训练子样本，其中d为自然数，类别标签为手写体数字训练图像的实际数字值；

组合单元用于，从d类训练子样本中任取2类进行组合，获得d(d-1)/2个训练组合样本；

分类器构建单元用于，利用d(d-1)/2个训练组合样本、分类器模型系数和矩阵核函数构建d(d-1)/2个分类器模型。

更具体的，分类器模型为：

f_{ab} (C) = sgn (Σ_{ρ = 1}^{N_{ab}} β_{ρ}^{ab} y_{ρ}^{ab} k (C, C_{ρ}^{ab}) + b_{ab}),

其中，a表示第a类训练子样本，b表示第b类训练子样本，1≤a≤d，1≤b≤d，且a不等于b；

表示用于区分a类训练子样本和b类训练子样本的标签，

的取值为1或-1；ρ表示第a类训练子样本和第b类训练子样本所组成的训练给合样本内的第ρ个手写体数字训练图像；N_ab表示第a类训练子样本与b类训练子样本内的样本总数；

和b_ab均为分类器模型系数；sgn()表示符号函数；f_ab(C)表示分类器模型的分类值；

矩阵核函数

,C表示需识别手写体数字图像的协方差矩阵，

的广义特征值，γ表示核参数，且取值大于0，所述p表示广义特征值的维数索引，1≤p≤n，n的取值为6。

识别模块54用于，利用分类器模型对需识别手写体数字图像进行识别。

具体的，识别模块54可包括：

第二协方差矩阵获取单元用于，获取需识别的手写体数字图像的协方差矩阵C；

分类值计算单元用于，将C分别输入到d(d-1)/2个分类器模型内，获得d(d-1)/2个分类值；

识别单元用于，将d(d-1)/2个分类值代入公式

中，计算需识别手写体数字图像的数字值f(C)，将f(C)作为所述手写体数字图像的识别结果。

由上可见，在本发明实施例中，首先提取模块51提取N个手写体数字训练图像的协方差矩阵，作为训练样本；然后训练模块52利用支持向量机对训练样本进行训练，得到分类器模型系数，其中支持向量机所采用的核函数为计算协方差矩阵之间相似性的矩阵核函数；再然后构建模块53利用分类器模型系数、矩阵核函数和训练样本构建分类器模型，最后识别模块54利用分类器模型对需识别的手写体数字图像进行识别。由于本发明中的矩阵核函数可以将协方差矩阵之间的相似性转换为具体的数据（支持向量机可以对数据进行处理，现有技术为将两个图像的矢量的相似性转换为具体的数据，然后支持向量机再对转换后的数据进行处理）。因此，采用本发明矩阵核函数的支持向量机可以对图像的协方差特征进行处理，从而使得所产生的分类器模型的系数更加准确，进而提高了手写体数字的识别率。

对于提取模块51、训练模块52、构建模块53和识别模块54的各细化功能可参见上述方法的记载，在此不再赘述。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。