CN101373519B - 字符识别装置和方法 - Google Patents
字符识别装置和方法 Download PDFInfo
- Publication number
- CN101373519B CN101373519B CN200710146535XA CN200710146535A CN101373519B CN 101373519 B CN101373519 B CN 101373519B CN 200710146535X A CN200710146535X A CN 200710146535XA CN 200710146535 A CN200710146535 A CN 200710146535A CN 101373519 B CN101373519 B CN 101373519B
- Authority
- CN
- China
- Prior art keywords
- training
- support vector
- character
- vector machine
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Character Discrimination (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种字符识别装置和方法。本发明的字符识别装置具有:特征向量提取单元,其从训练字符图像或待识别字符图像中提取该字符图像的特征向量;训练单元,其根据由所述特征向量提取单元输出的所述训练字符图像的特征向量构成的训练样本集进行学习,得到多个稀疏支持向量机分类器;存储单元,用于存储所述训练单元的训练结果;以及识别单元,其计算各个所述稀疏支持向量机分类器对于所述特征向量提取单元输出的所述待识别字符图像的特征向量的输出,从而确定与所述待识别字符图像对应的字符,其中,所述训练单元通过在所述稀疏支持向量机分类器的目标函数中引入0范数正则项,减少所述稀疏支持向量机分类器的决策函数中的支持向量的数量。
Description
技术领域
本发明涉及光学字符识别(Optical Character Recognition,OCR)技术,特别地,涉及快速、高精度地针对小类别的字符集(如“手写体数字识别”,仅含10个数字‘0’,‘1’,...,‘9’;或“印刷体英文字符识别”,仅含52个字母‘a’,...,‘z’,‘A’,...,‘Z’)进行识别的装置和方法。
背景技术
在各种领域中广泛地运用到光学字符识别。所谓光学字符识别,是指通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品的文字转化为图像信息,再利用字符识别技术将图像信息转化为计算机可以使用的数据信息。
在字符识别中,需要预先准备识别用的字典,然后通过模式识别确定图像与字典中的哪个模式最为匹配,从而识别为相应的字符。
以往,在字符识别领域中已经提出了多种模式识别方法,如模板匹配法、弹性模板匹配法、k-近邻法、混合高斯模型法、神经元网络法和支持向量机等。其中,支持向量机(Support Vector Machine,SVM)是一种基于统计学习的方法(参见文献1),被认为是目前用来识别字符的最好方法之一(参见文献2)。
支持向量机有三个主要的特点。第一,它能够处理非线性分类问题。支持向量机可以采用不同的核函数,如采用线性核时,得到线性分类器;采用二次多项式核时,得到二次分类器;采用高斯核时,得到径向基分类器。第二,它能够处理小样本下的高维数据。在字符识别中,可以用归一化的灰度或二值图像作为输入向量。第三,它具有很好的推广性能。支持向量机同时最小化训练误差并最大化分类间隔,使得分类器在保持分类错误较小的前提下,分界面的复杂度尽可能小,泛化能力更强。
然而,与传统的方法相比,如k-近邻法和神经元网络法,支持向量机分类器的识别速度要慢得多。支持向量机分类器的处理时间与支持向量的数目成正比,而支持向量的数目通常都很大,尤其是当字符的训练样本数目很大,而有些字符类别的分布之间存在一些重叠的时候。
对于实时性要求很强的应用,如文档扫描识别,光学字符识别不仅要求很高的识别精度,同时也要求很高的识别速度。为了提高应用了支持向量机分类器的光学字符识别装置的识别速度,提出了通过简化集(训练样本集的一个子集)上的核函数项的线形组合式,来近似支持向量机决策函数的方法(参照文献3和文献4)。然而,该方法是对支持向量机训练结果的后处理,是对决策函数的一种近似,其代价是牺牲了支持向量机分类器的部分分类性能。
文献1:V.Vapnik,The Nature of Statistical Learning Theory,SpringerVerlag,1995;
文献2:C.Cortes,V.Vapnik.Support vector networks.MachineLearning,20(1995)273-297;
文献3:C.J.C.Burges,Simplified Support Vector Decision Rules.International Conference on Machine Learning,ICML,Bari,Italy,1996,71-77;
文献4:B.S.Mika,et al.,Input Space Versus Feature Spacein Kernel Based Methods.IEEE Trans.on Neural Networks,10(1999)1000-1017。
发明内容
本发明是针对上述现有技术的缺陷而提出的,其目的在于提供一种快速、高精度的光学字符识别装置和方法。
根据本发明,提供了以下的技术方案。
发明1.一种模式识别方法,包括以下步骤:
特征向量提取步骤,从训练样本或待识别样本中提取该样本的特征向量;
训练步骤,根据由所述特征向量提取步骤中得到的所述训练样本的特征向量构成的训练样本集进行学习,得到多个稀疏支持向量机分类器;
识别步骤,计算各个所述稀疏支持向量机分类器对于所述特征向量提取步骤中得到的所述待识别样本的特征向量的输出,从而确定与所述待识别样本对应的模式,
其中,在所述训练步骤中,通过在所述稀疏支持向量机分类器的目标函数中引入0范数正则项,减少所述稀疏支持向量机分类器的支持向量的数量。
发明2.发明1的模式识别方法,其中
所述的稀疏支持向量机分类器是两类的稀疏支持向量机分类器,
所述训练步骤进一步包括由多类的训练样本集构造两类的训练样本集。
发明3.发明1的模式识别方法,其中
所述训练步骤进一步包括对于每个所述稀疏支持向量机分类器拟合Sigmoid函数;
所述识别步骤进一步包括通过所述Sigmoid函数,根据所述稀疏支持向量机分类器的输出计算两类的识别后验概率;
所述识别步骤进一步包括根据所述两类的识别后验概率计算多类的识别后验概率;
所述识别步骤根据所述多类的识别后验概率,确定与所述待识别样本对应的模式。
发明4.发明2的模式识别方法,其中
在所述训练步骤中,把所述稀疏支持向量机分类器的决策函数设定为训练样本的核项和偏差项的线性组合式,把展开系数设定为实数。
发明5.发明4的模式识别方法,其中
在所述训练步骤中,通过迭代地执行以下处理来进行所述两类稀疏支持向量机分类器的优化:
初始化迭代步数,系数向量和解向量;
搜索系数向量中的所有非零元素,计算对角矩阵;
重新计算正则化后的核矩阵;
求解与所述稀疏支持向量机对应的二次规划问题,由解向量计算系数向量;
判断是否满足终止状态,若不满足,则返回所述搜索非零元素的处理,若满足,则计算决策函数中的偏差项,输出决策函数。
发明6.一种字符识别装置,其包括:
特征向量提取单元,其从训练字符图像或待识别字符图像中提取该字符图像的特征向量;
训练单元,其根据由所述特征向量提取单元输出的所述训练字符图像的特征向量构成的训练样本集进行学习,得到多个稀疏支持向量机分类器;
存储单元,用于存储所述训练单元的训练结果;以及
识别单元,其计算各个所述稀疏支持向量机分类器对于所述特征向量提取单元输出的所述待识别字符图像的特征向量的输出,从而确定与所述待识别字符图像对应的字符,
其中,所述训练单元通过在所述稀疏支持向量机分类器的目标函数中引入0范数正则项,减少所述稀疏支持向量机分类器的决策函数中的支持向量的数量。
发明7.发明6的字符识别装置,其中
所述的稀疏支持向量机分类器是两类的稀疏支持向量机分类器,
所述训练单元进一步包括样本集生成单元,该样本集生成单元用于由多类的训练样本集构造两类的训练样本集。
发明8.发明6的字符识别装置,其中
所述训练单元进一步对于每个所述稀疏支持向量机分类器拟合Sigmoid函数;
所述识别单元进一步通过所述Sigmoid函数,根据所述稀疏支持向量机分类器的输出计算两类的识别后验概率;
所述识别单元进一步包括置信度单元,该置信度单元根据所述两类的识别后验概率计算多类的识别后验概率;
所述识别单元根据所述多类的识别后验概率,确定与所述待识别字符图像对应的字符。
发明9.发明7的字符识别装置,其中
所述训练单元把所述稀疏支持向量机分类器的决策函数设定为训练样本的核项和偏差项的线性组合式,把展开系数设定为实数。
发明10.发明9的字符识别装置,其中
所述训练单元通过迭代地执行以下处理来进行所述稀疏支持向量机分类器的优化:
初始化迭代步数,系数向量和解向量;
搜索系数向量中的所有非零元素,计算对角矩阵;
重新计算正则化后的核矩阵;
求解与所述稀疏支持向量机对应的二次规划问题,由解向量计算系数向量;
判断是否满足终止状态,若不满足,则返回所述搜索非零元素的处理,若满足,则计算决策函数中的偏差项,输出决策函数。
发明11.一种字符识别方法,该方法包括以下步骤:
特征向量提取步骤,从训练字符图像或待识别字符图像中提取该字符图像的特征向量;
训练步骤,根据由所述特征向量提取步骤中得到的所述训练字符图像的特征向量构成的训练样本集进行学习,得到多个稀疏支持向量机分类器;
识别步骤,计算各个所述稀疏支持向量机分类器对于所述特征向量提取步骤中得到的所述待识别字符图像的特征向量的输出,从而确定与所述待识别字符图像对应的字符,
其中,在所述训练步骤中,通过在所述稀疏支持向量机分类器的目标函数中引入0范数正则项,减少所述稀疏支持向量机分类器的支持向量的数量。
发明12.发明11的字符识别方法,其中
所述的稀疏支持向量机分类器是两类的稀疏支持向量机分类器,
所述训练步骤进一步包括由多类的训练样本集构造两类的训练样本集。
发明13.发明11的字符识别方法,其中
所述训练步骤进一步包括对于每个所述稀疏支持向量机分类器拟合Sigmoid函数;
所述识别步骤进一步包括通过所述Sigmoid函数,根据所述稀疏支持向量机分类器的输出计算两类的识别后验概率;
所述识别步骤进一步包括根据所述两类的识别后验概率计算多类的识别后验概率;
所述识别步骤根据所述多类的识别后验概率,确定与所述待识别字符图像对应的字符。
发明14.发明12的字符识别方法,其中
在所述训练步骤中,把所述稀疏支持向量机分类器的决策函数设定为训练样本的核项和偏差项的线性组合式,把展开系数设定为实数。
发明15.发明14的字符识别方法,其中
在所述训练步骤中,通过迭代地执行以下处理来进行所述两类稀疏支持向量机分类器的优化:
初始化迭代步数,系数向量和解向量;
搜索系数向量中的所有非零元素,计算对角矩阵;
重新计算正则化后的核矩阵;
求解与所述稀疏支持向量机对应的二次规划问题,由解向量计算系数向量;
判断是否满足终止状态,若不满足,则返回所述搜索非零元素的处理,若满足,则计算决策函数中的偏差项,输出决策函数。
发明16.一种存储了使计算机执行以下字符识别方法的程序的存储介质,该字符识别方法包括以下步骤:
特征向量提取步骤,从训练字符图像或待识别字符图像中提取该字符图像的特征向量;
训练步骤,根据由所述特征向量提取步骤中得到的所述训练字符图像的特征向量构成的训练样本集进行学习,得到多个稀疏支持向量机分类器;
识别步骤,计算各个所述稀疏支持向量机分类器对于所述特征向量提取步骤中得到的所述待识别字符图像的特征向量的输出,从而确定与所述待识别字符图像对应的字符,
其中,在所述训练步骤中,通过在所述稀疏支持向量机分类器的目标函数中引入0范数正则项,减少所述稀疏支持向量机分类器的支持向量的数量。
发明17.发明16的存储介质,其中
所述的稀疏支持向量机分类器是两类的稀疏支持向量机分类器,
所述训练步骤进一步包括由多类的训练样本集构造两类的训练样本集。
发明18.发明17的存储介质,其中
所述训练步骤进一步包括对于每个所述稀疏支持向量机分类器拟合Sigmoid函数;
所述识别步骤进一步包括通过所述Sigmoid函数,根据所述稀疏支持向量机分类器的输出计算两类的识别后验概率;
所述识别步骤进一步包括根据所述两类的识别后验概率计算多类的识别后验概率;
所述识别步骤根据所述多类的识别后验概率,确定与所述待识别字符图像对应的字符。
发明19.发明17的存储介质,其中
在所述训练步骤中,把所述稀疏支持向量机分类器的决策函数设定为训练样本的核项和偏差项的线性组合式,把展开系数设定为实数。
发明20.发明19的存储介质,其中
在所述训练步骤中,通过迭代地执行以下处理来进行所述两类稀疏支持向量机分类器的优化:
初始化迭代步数,系数向量和解向量;
搜索系数向量中的所有非零元素,计算对角矩阵;
重新计算正则化后的核矩阵;
求解与所述稀疏支持向量机对应的二次规划问题,由解向量计算系数向量;
判断是否满足终止状态,若不满足,则返回所述搜索非零元素的处理,若满足,则计算决策函数中的偏差项,输出决策函数。
根据本发明,提出了在识别中应用稀疏支持向量机,通过在支持向量机的目标函数中引入0范数正则项,减少判决函数中的支持向量的数量。
稀疏支持向量机是支持向量机方法的改进。稀疏支持向量机仍然采用最大间隔分类,因此分界面函数的复杂度较低,分类器具有良好的推广性能;稀疏支持向量机的支持向量是从整个训练集中通过学习自动选取,且支持向量没有冗余性,故其数目非常的稀少;由于支持向量数目稀少,稀疏支持向量机的决策函数计算复杂度很低,故其识别速度大大快于传统的支持向量机的识别速度。
另外,在本发明中可以通过Sigmoid函数将稀疏支持向量机的输出转化为两类的类别后验概率,进而通过多个两类的类别后验概率,求取多类的类别后验概率并输出。这不仅能够很好地融合多个两类分类器的输出,提高识别的精度,而且能够提供各类别的置信度,为进一步的处理措施提供依据。
通过以下结合附图进行的详细说明,可以更好地理解本发明的特征和优点。
附图说明
通过以下的详细说明,结合附图,可以更清楚地理解本发明的特征和优点。其中,在一个图中示出的要素和特征可以与其他图中示出的要素和特征进行组合。另外,在所有的图中,相同或相似的标号指示相同或相似的要素。
图1为本发明第一实施例的字符识别装置的示意框图;
图2示出了第一实施例的字符识别装置所执行的处理的概要流程;
图3示出了第一实施例的字符识别装置中的训练单元所执行的处理的概要流程;
图4为本发明的字符识别装置所执行的稀疏支持向量机EM学习方法的示意流程图;
图5为M步骤采用的MSMO优化方法的流程图;
图6示出了本发明的字符识别装置的识别示例;
图7为本发明第二实施例的字符识别装置的示意框图;
图8示出了第二实施例的字符识别装置所执行的处理的概要流程。
具体实施方式
以下参考附图对本发明的具体实施例进行说明。
【第一实施例】
图1为本发明的第一实施例的字符识别装置10的示意性结构框图。如图1所示,本发明第一实施例的字符识别装置10与输入装置20和输出装置30连接。输入装置20向字符识别装置10输入作为训练样本的字符图像或待识别的字符图像,可以是扫描仪等的图像读取装置、手写板等的手写输入装置、或者磁盘等图像记录介质的驱动器接口。字符识别装置10基于通过输入装置20输入的训练样本字符图像进行学习,得到多个稀疏支持向量机分类器,并且基于这多个稀疏支持向量机分类器,对通过输入装置20输入的待识别字符图像进行识别,确定与待识别字符图像对应的字符。字符识别装置10的识别结果通过输出装置30输出给用户,例如,输出装置30可以是显示器、存储介质的驱动器接口,也可以构成为手写输入装置的接口等。
字符识别装置10包括:特征向量提取单元11、训练单元12、存储单元13和识别单元14。其中,特征向量提取单元11对所输入的字符图像进行归一化处理并对归一化后的字符图像进行特征提取。训练单元12根据训练样本集学习出多个稀疏支持向量机(sparse support vectormachine,SSVM)分类器。存储单元13用于存储每个SSVM的决策函数 即核函数k(x,x′)、支持向量xi、对应系数αi和偏差项b。识别单元14用于根据存储单元13中存储的训练结果,给出待识别字符图像在每个SSVM决策函数上的输出值,根据该输出值确定待识别字符图像的字符。
下面以0~9的10个数字的识别为例,结合图2对字符识别装置10的各个单元所进行的处理进行详细的说明。
图2示出了第一实施例的字符识别装置10所进行的处理的概要流程图。在图2中,左半边示出的是训练过程,右半边示出的是识别过程。其中,对于训练过程和识别过程,字符图像归一化和特征提取的处理是一样的。
首先对训练过程进行说明。
首先,如图2所示,在步骤201中,特征向量提取单元11对字符图像进行归一化。具体地,特征向量提取单元11搜索包含字符图像的最小矩形边框,在保持长宽比例的条件下,通过双线性插值,将边框内的字符图像归一化到固定的尺寸,如n×n,然后把归一化后的字符图像放置到(n+2)×(n+2)的空白图像的中心。
接着,在步骤202中,特征向量提取单元11对归一化后的字符图像提取字符特征,具体包括以下步骤:将图像笔画像素在竖直方向上投影,得到水平直方图;把水平直方图等分成m个列;将图像笔画像素在水平方向上投影,得到竖直直方图;把竖直直方图等分成m个行,这样得到m×m个不同大小的格子;获取整个字符笔画的链码,求各链码点处的方向,为所有8种可能方向之一;在每一格子内,统计8种方向上的链码点数;最后得到了一个8×m×m维的字符特征向量。
对于每个训练字符图像,预先设定一个类别标签(0,1,...,9中之一),设提取的特征向量为x,设定的标签为y,则该字符图像对应了一个输入输出对“(x,y)”。通过多个训练字符图像的输入输出对,组成了一个训练集合{(x1,y1),(x2,y2),...,(xl,yl)},即多类样本训练集{(xk,yk)k=1 l,其中xk∈Rd为特征向量,yk∈{0,1,...,9}为类别标号,l为总的训练样本数。
在步骤203中,训练单元12由多类样本训练集构造出两类样本训练集。在采用“一对一”规则的情况下,步骤203中要分别考虑 种可能情形((‘0’,‘1’),...,(‘0’,‘9’),(‘1’,‘2’),...,(‘8’,‘9’))的两类样本训练集,先提取子集{(xk,yk)|yk=i或j,i<j},其中i=0,...,8,j=1,...,9,共45个子集,然后将所有子集中的类别标号yk=i都改为yk=+1,类别标号yk=j都改为yk=-1。在采用“一对多”规则的情况下,在步骤203中要分别考虑10种可能情形((‘0’,非‘0’),(‘1’,非‘1’),...,(‘9’,非‘9’))的两类样本训练集,即将{(xk,yk)k=1 l中类别标号为i的改为+1,其它的改为-1,其中i=0,...,9。
接着在步骤204中,训练单元12对于每一种情形,由两类样本训练集学习出一个稀疏支持向量机(SSVM)分类器。在步骤205中,判断是否所有情形都已考虑,若是,则训练完成,在步骤206中将训练结果输出至存储单元13进行保存,若否,则转回步骤203,考虑下一种情形。
接下来概要地说明字符识别的过程。
在步骤207和208中,通过特征向量提取单元11对待识别字符图像进行归一化后提取特征向量。步骤207和208的处理与步骤201和202完全相同,因此不再详细说明。在步骤209中,识别单元14计算该特征向量在所有SSVM分类器上的输出值,据此确定与待识别字符图像最匹配的字符。
具体而言,在采用“一对一”规则的情况下,采用“投票法”。此时SSVM分类器的数目较多,根据每个两类分类器的输出,为对应的字符投上一票,统计每个字符的得票数,把得票数最多的字符确定为该待识别字符图像的字符。
在采用“一对多”规则的情况下,采用“最大输出法”。此时SSVM分类器的数目等于字符集中的字符数。识别单元14判断哪一个SSVM分类器的输出是最大的,把与输出值最大的SSVM分类器对应的字符确定与该待识别字符图像的字符。
在本发明的字符识别中,采用稀疏支持向量机SSVM分类器,使决策函数采用极少的支持向量,从而缩短决策函数的计算时间,实现了快速高精度的字符识别。下面详细介绍稀疏支持向量机SSVM以及训练单元12所采用的相应EM学习算法。
我们知道,给定两类样本训练集{(xi,yi)i=1 l,传统的支持向量机SVM的决策函数形式为 其中核函数项k(x,xi)前的系数αi≥0,偏差项b∈R。由于系数αi都是拉格朗日乘子,因此最终解向量α中的元素大部分为零。所有非零系数αi>0对应的训练样本xi都被称为支持向量,决策函数可仅由支持向量的核函数项展开式表示,即 其-中ISV={i|αi>0}表示支持向量的下标记索引集。由此可见,决策函数的计算时间与支持向量的数目成正比。为了使决策函数采用极少的支持向量,本发明的SSVM的决策函数具有如下形式:
其中核函数项k(x,xi)前的系数αi∈R,偏差项b∈R。由于系数αi不再是拉格朗日乘子,因此最终解向量α中的元素都不为零。为了迫使最终解向量α中绝大部分的系数精确地等于零,即使得解向量α非常稀疏,在本发明中,在SSVM的目标优化问题中引入了解向量α的零范数正则化项。SSVM优化如下的原始问题
其中,最小化二范数项 可以获得最大间隔的分类器(两类类间的间隔大小为);最小化零范数项 等价于最小化非零系数的总数目,即支持向量的总数目;最小化松弛因子项 可以使训练错误尽可能的小。两个常数Cξ和Cα分别是训练误差项和支持向量数目项前的惩罚因子。
SSVM的原始优化问题含有示性函数,使得目标函数不连续,无法通过通常的优化算法求解。然而,它可以通过期望最大化EM(ExpectationMaximization)算法以渐进的方式实现。在EM算法的第t次迭代时,SSVM优化如下的原始问题
其中对角矩阵 通过推导,得到此优化问题的对偶问题
图3示出了第一实施例的字符识别装置10中的训练单元12所执行的处理的概要流程。如图3所示,训练单元12反复地执行:样本集生成(步骤121)、参数设置(步骤122)、EM学习(步骤123)和结果输出(步骤1234)。其中,步骤121中生成两类的训练样本集;步骤122中选择核函数、设置核函数的参数,例如选择高斯核 并设置参数σ,以及设置SSVM的两个训练常数Cξ和Cα,其中常数Cξ越大,训练误差越小,常数Cα越大,决策函数越稀疏,即支持向量数目越少;步骤123中训练稀疏支持向量机SSVM;步骤124中输出该两类训练样本集下的学习结果,即SSVM决策函数。
在EM学习步骤123中,反复地进行E步骤和M步骤。其中,E步骤用于更新SSVM对应的二次规划问题,即重新计算正则化后的核矩阵M步骤用于采用改进的顺序最小最优化MSMO算法,求解更新后的二次规划问题,即求解SSVM的上述对偶问题。
图5示出了本发明的稀疏支持向量机EM学习方法的流程图。
如图5所示,在步骤121和122中设定的两类训练样本集、核函数、训练常数Cξ和Cα的基础上,在步骤1231中,初始化迭代步数t=0,系数向量α(0)=(1,...,l)T∈R1和解向量;在步骤1232中,搜索系数向量中的所有非零元素,由它们的下标组成集合I(t)={i||αi,(t)|>ε},其中ε为小的正常数,例如可取值0.0001;在步骤1233中,由当前系数向量α(t),计算对角矩阵D(t)=diag({|αi,(t)||i∈I(t)});步骤1234为E步骤,由对角矩阵D(t),重新计算正则化后的核矩阵该计算公式与 等价,但是避免了数值计算上的问题(求零元素的倒数),而且减小了求逆矩阵的计算规模(从l×l的降为m(t)×m(t),m(t)为当前系数向量α(t)中非零元素的数目,即当前支持向量的数目);步骤1235为M步骤,由改进的顺序最小最优化MSMO算法求解SSVM对应的二次规划问题;在步骤1236中,采用如下更新公式α(t+1)=D(t)(D(t)K(t)D(t)+CαI)-1D(t)Kβ(t+1),由新的解向量β(t+1)计算新的系数向量α(t+1);在步骤1237中,判断当前状态是否满足终止条件,此处终止条件是指迭代次数达到预设最大值t<T,或者系数向量不再变化max|αi,(t+1)-αi,(t)|≤ε,当满足终止条件时,结束EM迭代循环步骤1232至步骤2137,进入步骤1238,否则转回步骤1232,开始新一轮迭代;在步骤1238中,采用计算公式 计算决策函数中的偏差项,其中下标记集Iβ={i|0<βi<Cξ},ki为核矩阵 的第i个列向量;最后,输出为SSVM的决策面函数
由于决策函数中的支持向量数目(即下标记集ISV中的元素数目)非常稀少,决策函数计算简单,因而分类器的识别速度很快。
图6详细地示出了M步骤中采用的MSMO优化算法的流程图。如图6所示,对于在步骤1234中确定的待优化二次规划问题
在步骤12351中,初始化迭代步数t=0,解向量β(0),梯度向量g(0)=Hβ(0)-1,其中解向量β(0)可用上一次M步骤1235得到的解向量初始化;在步骤12352中,搜索两个待优化的拉格朗日乘子和,使得目标函数在可行解方向上下降梯度最快,它们的下标记通过如下方法得到
如果下标记搜索失败了,或者目标函数对变量和的梯度向量足够小,即 其中ε可取0.0001,则目标函数已达到最小值稳定点,当前解β已为最优解。在步骤12353中,当搜索成功时,进入步骤12354优化选定的两个变量和,否则,跳出循环,输出最优解β。在步骤12354中,优化两个选定的变量和,而其它变量不变,得到新的解向量β(t+1),具体优化方法是公知的,例如可以采用SMO算法“J.C.Platt.Sequential Minimal Optimization:A Fast Algorithm for TrainingSupport Vector Machines,Microsoft Research,Technical ReportMSR-TR-98-14,1998”。在步骤12355中,由变量的变化量 更新梯度向量,具体如下计算 其中和分别是矩阵H的第i1列和第i2列。在步骤12356中,判断迭代步数是否小于预设最大值t<T,若是,则转回步骤12352,开始新一轮迭代,否则,循环结束,直接输出当前的解向量。
根据上述本发明第一实施例的字符识别装置10,由于采用稀疏支持向量机分类器,大大地提高了识别速度。
图6(a)和图6(b)分别示出了传统的基于支持向量机(SVM)的字符识别装置以及本发明的基于稀疏支持向量机(SSVM)的字符识别装置对于可分的字符样本的识别分类结果示例。
如图6(a)和图6(b)所示,2D两类数据的训练样本点分别用“+”标记和“△”标记表示,可以看出两类分布是可分的。在图6(a)的SVM和SSVM都采用了高斯核,设定了相同的参数Cξ,在本发明中,SSVM还有一个SVM没有的参数Cα。图上有三条线,中间的那条代表它们的分界决策面f(x)=0,而两边的两条线分别代表支撑平面f(x)=±1。“○”标记表示支持向量,图6(a)中SVM需要7个支持向量,图6(b)中SSVM需要4个支持向量。SVM的支持向量位于支撑平面之上,而SSVM的支持向量位置不受限制。
图6(c)和图6(d)分别示出了传统的基于支持向量机(SVM)的字符识别装置以及本发明的基于稀疏支持向量机(SSVM)的字符识别装置对于不可分的字符样本的识别分类结果示例。
如图6(c)和图6(d)所示,两类数据分布是不可分,它们具有较多的重叠区域。SVM和SSVM取高斯核,参数Cξ相同。图中给出了它们的分界面、支撑面和支持向量。SVM需要108个支持向量,而SSVM仅需要4个支持向量,它们的分界面位置却几乎相同。SVM的支持向量必定是位于两支撑平面以内(包括两支撑平面)和两支撑面以外且被错分的样本,而SSVM的支持向量位置不受限制。这个例子说明了,当两类不可分时,SVM的支持向量中存在大量的冗余性,而这种冗余性正是SSVM需要克服的。SSVM仅从训练样本集中选择了4个样本作为支持向量来构造分界面,去除了冗余性。
在第一实施例中,通过应用稀疏支持向量机,具有与以往的基于支持向量机的字符识别基本等同的分类性能,但由于利用极少的支持向量,使得决策函数简单,大大提高了识别速度。
【第二实施例】
下面对本发明的另一个实施例进行说明。
在第二实施例中,进一步对各个稀疏支持向量机的分类结果求出类别后验概率,根据类别后验概率来确定最终的识别结果。在下面的说明中,重点对第二实施例与第一实施例之间的不同之处进行说明,对于相同或相应的部分,在附图中赋予相同或相应的标号,并省略重复的说明。
图7示出了第二实施例的字符识别装置10′的示意框图。与第一实施例一样,第二实施例的字符识别装置10′与输入装置20和输出装置30连接。输入装置20向字符识别装置10输入作为训练样本的字符图像或待识别的字符图像,字符识别装置10′基于通过输入装置20输入的训练样本字符图像进行学习,得到与目标字符相应的多个稀疏支持向量机分类器,并且基于这多个稀疏支持向量机分类器,对通过输入装置20输入的待识别字符图像进行识别,确定与待识别字符图像对应的字符。字符识别装置10′的识别结果通过输出装置30输出给用户。
字符识别装置10′包括:特征向量提取单元11′、训练单元12′、存储单元13′、识别单元14′和置信度单元15′。其中,特征向量提取单元11′与第一实施例的特征向量提取单元11完全相同,在此不再进行说明。训练单元12′根据训练样本集学习出多个两类的稀疏支持向量机分类器,然后通过最大似然法,为每个SSVM的决策函数拟合出一个Sigmoid函数。存储单元13′存储每个SSVM的决策函数 即核函数k(x,x′)、支持向量xi、对应系数αi和偏差项b,并存储Sigmoid函数 即常数A和B。识别单元14′根据存储单元13′中存储的训练结果,给出待识别字符图像在每个SSVM决策函数上的输出值和对应Sigmoid函数上的输出值。置信度单元15′由多个两类的类别后验概率值计算多类的类别后验概率值,确定最终识别结果,即待识别字符图像的字符类别及其后验概率值。
下面同样以0~9的10个数字的识别为例,结合图8对字符识别装置10′的各个单元所进行的处理进行详细的说明。
图8示出了第二实施例的字符识别装置10′所进行的处理的概要流程图。
第二实施例的字符识别装置10′所进行的处理与第一实施例基本上相同,不同之处在于,训练单元12′在步骤204之后,根据SSVM决策函数在两类样本训练集上的输出,通过最大似然法估计Sigmoid函数,用来给出两类的后验概率(步骤210);识别单元14′在步骤209之后计算所有情形下Sigmoid函数的输出值(步骤211);置信度单元15′在步骤211之后,由多个两类的后验概率,计算多类的后验概率,输出与最大的后验概率对应的字符(步骤212)。下面,仅对步骤210、步骤211和步骤212进行详细的说明。步骤201~209与第一实施例完全相同。
首先说明步骤210。设两类样本训练集为{(xi,yi)i=1 l,定义新的训练集{(f(xi),ti)},其中 通过最大似然估计得到参数A和B
其中
Sigmoid函数的拟合方法是公知的,例如可以采用“H.T.Lin,C.J.Lin,R.C.Weng.A Note on Platt’s Probabilistic Outputs for Support VectorMachines.National Taiwan University,2003,http://www.csie.ntu.edu.tw/~cjlin/libsvmtools”中叙述的方法。
在步骤211中,根据稀疏支持向量机的输出,通过Sigmoid函数计算两类的类别后验概率。在步骤212中,由多个两类的类别后验概率计算多类的类别后验概率,具体说明如下。
设共有k个字符类别,pi表示类别i的后验概率。
当采用“一对一”规则时,需要 个两类分类器,记Sigmoid函数的输出为rij=p(y=1|fij(x)),其中SSVM分类器fij(x)用于把字符类别i和字符类别j分开。上述两类的类别后验概率rij同多类的类别后验概率,存在如下近似关系 从而rjipi≈rijpj,其中rji=1-rij。为求得满足上述若干关系的一组最佳解,优化如下问题
可以证明该问题等价于 从而可进一步化简为求解简单的线性系统。该处理是公知的,例如可以采用“T.F.Wu,C.J.Lin,R.C.Weng.Probability Estimates for Multi-classClassification by Pairwise Coupling.Journal of Machine Learning Research 5(2004)975-1005”中叙述的方法。
当采用“一对多”规则时,需要 个两类分类器,两类的类别后验概率ri=p(y=1|fi(x))同多类的类别后验概率pi,存在如下近似关系pi≈ri。为求得满足上述若干关系的一组最佳解,优化如下问题
这是一个简单的二次规划问题,可以通过公知的方法容易地求解。
根据本发明的第二实施例,通过Sigmoid函数将稀疏支持向量机的输出转化为两类的类别后验概率,进而通过多个两类的类别后验概率,求取多类的类别后验概率并输出。这不仅能够很好地融合多个两类分类器的输出(比投票法效果要好),而且能够提供各类别的置信度,为进一步的拒识或后处理措施提供了依据。
以上对本发明的一个具体实施例进行了详细说明,但是应该理解,上述的细节不构成对本发明的限制。在权利要求所限定的范围内,可以对上述实施例进行各种变更、改进,或者对上述的各个要素进行组合。
在上述的说明中,基于字符识别装置对本发明进行了说明,但是,本发明不仅可以实施为字符识别装置,还可以实施为字符识别装置所执行的上述的字符识别方法。另外,还可以实施为实现上述字符识别方法的计算机程序,以及存储了上述计算机程序的存储介质。
另外,上面针对字符识别对本发明进行了说明,但是本发明的原理还可以广泛地应用于模式识别、样本分类等的领域。
Claims (10)
1.一种字符识别装置,其包括:
特征向量提取单元,其从训练字符图像或待识别字符图像中提取该字符图像的特征向量;
训练单元,其根据由所述特征向量提取单元输出的所述训练字符图像的特征向量构成的训练样本集进行学习,得到多个两类的稀疏支持向量机分类器;
存储单元,用于存储所述训练单元的训练结果;以及
识别单元,其计算各个所述稀疏支持向量机分类器对于所述特征向量提取单元输出的所述待识别字符图像的特征向量的输出,从而确定与所述待识别字符图像对应的字符,
其中,所述训练单元通过在所述稀疏支持向量机分类器的目标函数中引入0范数正则项,减少所述稀疏支持向量机分类器的决策函数中的支持向量的数量。
2.根据权利要求1所述的字符识别装置,其中
所述训练单元进一步包括样本集生成单元,该样本集生成单元用于由多类的训练样本集构造两类的训练样本集。
3.根据权利要求1所述的字符识别装置,其中
所述训练单元进一步对于每个所述稀疏支持向量机分类器拟合Sigmoid函数;
所述识别单元进一步通过所述Sigmoid函数,根据所述稀疏支持向量机分类器的输出计算两类的识别后验概率;
所述识别单元进一步包括置信度单元,该置信度单元根据所述两类的识别后验概率计算多类的识别后验概率;
所述识别单元根据所述多类的识别后验概率,确定与所述待识别字符图像对应的字符。
4.根据权利要求2所述的字符识别装置,其中
所述训练单元把所述稀疏支持向量机分类器的决策函数设定为训练样本的核函数项和偏差项的线性组合式,把核函数项的系数设定为实数。
5.根据权利要求4所述的字符识别装置,其中
所述训练单元通过迭代地执行以下处理来进行所述稀疏支持向量机分类器的优化:
初始化迭代步数、系数向量和解向量;
搜索系数向量中的所有非零元素,计算对角矩阵;
重新计算正则化后的核矩阵;
求解与所述稀疏支持向量机对应的二次规划问题,由解向量计算系数向量;
判断是否满足终止状态,若不满足,则返回所述搜索非零元素的处理,若满足,则计算决策函数中的偏差项,输出决策函数。
6.一种字符识别方法,该方法包括以下步骤:
特征向量提取步骤,从训练字符图像或待识别字符图像中提取该字符图像的特征向量;
训练步骤,根据由所述特征向量提取步骤中得到的所述训练字符图像的特征向量构成的训练样本集进行学习,得到多个两类的稀疏支持向量机分类器;
识别步骤,计算各个所述稀疏支持向量机分类器对于所述特征向量提取步骤中得到的所述待识别字符图像的特征向量的输出,从而确定与所述待识别字符图像对应的字符,
其中,在所述训练步骤中,通过在所述稀疏支持向量机分类器的目标函数中引入0范数正则项,减少所述稀疏支持向量机分类器的支持向量的数量。
7.根据权利要求6所述的字符识别方法,其中
所述训练步骤进一步包括由多类的训练样本集构造两类的训练样本集。
8.根据权利要求6所述的字符识别方法,其中
所述训练步骤进一步包括对于每个所述稀疏支持向量机分类器拟合Sigmoid函数;
所述识别步骤进一步包括通过所述Sigmoid函数,根据所述稀疏支持向量机分类器的输出计算两类的识别后验概率;
所述识别步骤进一步包括根据所述两类的识别后验概率计算多类的识别后验概率;
所述识别步骤根据所述多类的识别后验概率,确定与所述待识别字符图像对应的字符。
9.根据权利要求7所述的字符识别方法,其中
在所述训练步骤中,把所述稀疏支持向量机分类器的决策函数设定为训练样本的核函数项和偏差项的线性组合式,把核函数项的系数设定为实数。
10.根据权利要求9所述的字符识别方法,其中
在所述训练步骤中,通过迭代地执行以下处理来进行所述两类稀疏支持向量机分类器的优化:
初始化迭代步数、系数向量和解向量;
搜索系数向量中的所有非零元素,计算对角矩阵;
重新计算正则化后的核矩阵;
求解与所述稀疏支持向量机对应的二次规划问题,由解向量计算系数向量;
判断是否满足终止状态,若不满足,则返回所述搜索非零元素的处理,若满足,则计算决策函数中的偏差项,输出决策函数。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200710146535XA CN101373519B (zh) | 2007-08-20 | 2007-08-20 | 字符识别装置和方法 |
JP2008211058A JP5176773B2 (ja) | 2007-08-20 | 2008-08-19 | 文字認識方法および文字認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200710146535XA CN101373519B (zh) | 2007-08-20 | 2007-08-20 | 字符识别装置和方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101373519A CN101373519A (zh) | 2009-02-25 |
CN101373519B true CN101373519B (zh) | 2011-01-19 |
Family
ID=40447673
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200710146535XA Expired - Fee Related CN101373519B (zh) | 2007-08-20 | 2007-08-20 | 字符识别装置和方法 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP5176773B2 (zh) |
CN (1) | CN101373519B (zh) |
Families Citing this family (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101833671A (zh) * | 2010-03-30 | 2010-09-15 | 西安理工大学 | 一种基于支持向量机的表面肌电信号多类别模式识别方法 |
CN101872502B (zh) * | 2010-05-21 | 2012-01-25 | 杭州电子科技大学 | 基于稀疏表示的硬币图像识别方法 |
CN102024152B (zh) * | 2010-12-14 | 2013-01-30 | 浙江大学 | 一种基于稀疏表达和字典学习进行交通标志识别的方法 |
CN102855498B (zh) * | 2011-07-01 | 2016-08-31 | 富士通株式会社 | 字符识别方法和装置 |
CN102722736A (zh) * | 2012-06-13 | 2012-10-10 | 合肥工业大学 | 复杂干扰下字符串的分割与识别方法 |
CN104217203B (zh) * | 2013-06-03 | 2019-08-23 | 支付宝(中国)网络技术有限公司 | 复杂背景卡面信息识别方法及系统 |
US9336770B2 (en) * | 2013-08-13 | 2016-05-10 | Mitsubishi Electric Corporation | Pattern recognition apparatus for creating multiple systems and combining the multiple systems to improve recognition performance and pattern recognition method |
CN103761531B (zh) * | 2014-01-20 | 2016-04-06 | 西安理工大学 | 基于形状轮廓特征的稀疏编码车牌字符识别方法 |
CN103824093B (zh) * | 2014-03-19 | 2017-10-13 | 北京航空航天大学 | 一种基于kfda及svm的sar图像目标特征提取与识别方法 |
CN104408454B (zh) * | 2014-06-30 | 2017-10-17 | 电子科技大学 | 基于弹性模板匹配算法的车牌字符分割方法 |
CN104239878B (zh) * | 2014-08-30 | 2017-05-10 | 电子科技大学 | 一种基于概率极值搜索的车牌字符识别方法 |
CN104463252A (zh) * | 2014-12-18 | 2015-03-25 | 南京信息工程大学 | 一种基于自适应极限学习机的地基云分类方法 |
CN105139036B (zh) * | 2015-06-19 | 2018-10-19 | 四川大学 | 一种基于稀疏编码的手写体数字识别方法 |
CN107239786B (zh) | 2016-03-29 | 2022-01-11 | 阿里巴巴集团控股有限公司 | 一种字符识别方法和装置 |
CN109478229B (zh) * | 2016-08-31 | 2021-08-10 | 富士通株式会社 | 用于字符识别的分类网络的训练装置、字符识别装置及方法 |
JP6545740B2 (ja) * | 2017-03-08 | 2019-07-17 | 株式会社東芝 | 生成装置、プログラム、認識システムおよび生成方法 |
CN107169531B (zh) * | 2017-06-14 | 2018-08-17 | 中国石油大学(华东) | 一种基于拉普拉斯嵌入的图像分类词典学习方法和装置 |
CN107396248A (zh) * | 2017-09-18 | 2017-11-24 | 刘圣银 | 一种基于互联网的数字声控骨传导耳机系统 |
CN109871848B (zh) * | 2017-12-01 | 2022-01-25 | 北京搜狗科技发展有限公司 | 一种移动终端的文字识别方法及装置 |
US11779205B2 (en) | 2018-03-02 | 2023-10-10 | Kowa Company, Ltd. | Image classification method, device, and program |
CN108510000B (zh) * | 2018-03-30 | 2021-06-15 | 北京工商大学 | 复杂场景下行人细粒度属性的检测与识别方法 |
CN108985151B (zh) * | 2018-06-04 | 2023-04-07 | 平安科技(深圳)有限公司 | 手写模型训练方法、手写字识别方法、装置、设备及介质 |
CN109241904B (zh) * | 2018-08-31 | 2023-10-20 | 平安科技(深圳)有限公司 | 文字识别模型训练、文字识别方法、装置、设备及介质 |
CN110110864B (zh) * | 2019-05-16 | 2022-09-27 | 河南师范大学 | 基于最小二乘支持向量机算法的在线预测码头疏港作业货车数量的方法 |
CN110930399A (zh) * | 2019-12-10 | 2020-03-27 | 南京医科大学 | 基于支持向量机的tka术前临床分期智能评估方法 |
CN111259784B (zh) * | 2020-01-14 | 2023-02-07 | 西安理工大学 | 基于迁移学习和主动学习的sar图像变化检测方法 |
CN111414819B (zh) * | 2020-03-10 | 2023-06-06 | 北京空间飞行器总体设计部 | 基于非平衡数据分类框架的火点智能检测和分类方法 |
CN111310864B (zh) * | 2020-03-30 | 2023-04-18 | 安徽工业大学 | 一种基于分组稀疏的多核学习图像分类方法 |
CN111553336B (zh) * | 2020-04-27 | 2023-03-24 | 西安电子科技大学 | 基于连体段的印刷体维吾尔文文档图像识别系统及方法 |
CN112699686B (zh) * | 2021-01-05 | 2024-03-08 | 浙江诺诺网络科技有限公司 | 基于任务型对话系统的语义理解方法、装置、设备及介质 |
CN112906666A (zh) * | 2021-04-07 | 2021-06-04 | 中国农业大学 | 一种农业种植结构的遥感识别方法 |
CN114897035B (zh) * | 2021-10-09 | 2024-07-30 | 国网浙江省电力有限公司电力科学研究院 | 一种用于10kV电缆状态评估的多源数据特征融合方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101004793A (zh) * | 2007-01-08 | 2007-07-25 | 中国民航大学 | 基于高维空间凸锥构造的手写体文字识别方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002251592A (ja) * | 2001-02-22 | 2002-09-06 | Toshiba Corp | パターン認識辞書学習方法 |
US7783082B2 (en) * | 2003-06-30 | 2010-08-24 | Honda Motor Co., Ltd. | System and method for face recognition |
US7646913B2 (en) * | 2005-12-19 | 2010-01-12 | Microsoft Corporation | Allograph based writer adaptation for handwritten character recognition |
-
2007
- 2007-08-20 CN CN200710146535XA patent/CN101373519B/zh not_active Expired - Fee Related
-
2008
- 2008-08-19 JP JP2008211058A patent/JP5176773B2/ja not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101004793A (zh) * | 2007-01-08 | 2007-07-25 | 中国民航大学 | 基于高维空间凸锥构造的手写体文字识别方法 |
Non-Patent Citations (1)
Title |
---|
左森等.基于支持向量机的实时路面检测算法.《计算机工程》.2007,第33卷(第4期),225-227. * |
Also Published As
Publication number | Publication date |
---|---|
CN101373519A (zh) | 2009-02-25 |
JP2009048641A (ja) | 2009-03-05 |
JP5176773B2 (ja) | 2013-04-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101373519B (zh) | 字符识别装置和方法 | |
Borisyuk et al. | Rosetta: Large scale system for text detection and recognition in images | |
Yao et al. | Dual vision transformer | |
Grauman et al. | Approximate correspondences in high dimensions | |
Zhang et al. | Accelerated training for matrix-norm regularization: A boosting approach | |
JPH06176202A (ja) | 文字認識用の管理されたトレーニング増加多項式法および装置 | |
CN104205126A (zh) | 对手写字符的无旋转识别 | |
JP2000512046A (ja) | 統計に基づくパターン識別のための方法及び装置 | |
Zhang et al. | Large-scale aerial image categorization using a multitask topological codebook | |
CN112163114B (zh) | 一种基于特征融合的图像检索方法 | |
Wei et al. | Compact MQDF classifiers using sparse coding for handwritten Chinese character recognition | |
Tan et al. | Multi-feature selection of handwriting for gender identification using mutual information | |
Zaeemzadeh et al. | Iterative projection and matching: Finding structure-preserving representatives and its application to computer vision | |
CN114693923A (zh) | 一种基于上下文和注意力的三维点云语义分割方法 | |
CN110956177A (zh) | 一种混合型验证码的识别方法及系统 | |
Jubair et al. | A simplified method for handwritten character recognition from document image | |
Zhang et al. | Spectral error correcting output codes for efficient multiclass recognition | |
US11816909B2 (en) | Document clusterization using neural networks | |
Li et al. | Face recognition using improved pairwise coupling support vector machines | |
Snášel et al. | Bars problem solving-new neural network method and comparison | |
Sharma | Handwritten digit recognition using support vector machine | |
Babić et al. | Writer Identification From Historical Documents Using Ensemble Deep Learning Transfer Models | |
He et al. | Transformer-Based Deep Hashing Method for Multi-Scale Feature Fusion | |
Yang et al. | A novel self-taught learning framework using spatial pyramid matching for scene classification | |
Akshat et al. | A Comparative Analysis of Various Machine Learning Algorithms for Handwritten Digit Recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20110119 Termination date: 20180820 |