CN102982349B - 一种图像识别方法及装置 - Google Patents
一种图像识别方法及装置 Download PDFInfo
- Publication number
- CN102982349B CN102982349B CN201210447395.0A CN201210447395A CN102982349B CN 102982349 B CN102982349 B CN 102982349B CN 201210447395 A CN201210447395 A CN 201210447395A CN 102982349 B CN102982349 B CN 102982349B
- Authority
- CN
- China
- Prior art keywords
- image
- identified
- training sample
- class
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Abstract
本发明实施例公开了图像识别方法及装置,应用于图像信息处理技术领域。在本发明实施例的图像识别方法中,结合了两种图像识别的方法,这样可以采用识别速度较高的第一图像识别方法对待识别图像进行粗分类,利用第一图像识别方法,在已知类别的训练样本中选出与待识别图像最相近的前s类训练样本;然后采用准确度较高的第二图像识别方法对待识别图像进行精确分类时可以提高图像识别准确度,将待识别图像在所述最终识别模型中进行识别,而由于在精确分类时是将待识别图像与粗分类后确定的几种类别的训练样本进行比较,而不是与全部类别的训练样本进行比较,这样可以提高精确分类的速度,这样可以在提高识别速度的同时提高了识别准确度。
Description
技术领域
本发明涉及图像信息处理技术领域,特别涉及图像识别方法及装置。
背景技术
现在的图像识别系统越来越广泛的应用,比如人脸识别、指纹识别,静脉识别,手写字体识别,印刷字体识别和车辆字符识别系统等,这些图像识别系统主要是将待识别图像通过一定的识别运算后,得到一定的信息比如图像中所表示的字符等。
例如,车辆牌照识别系统在交通系统中有着不可替代的作用,主要是把摄像头采集到车牌图像输入到车辆牌照识别系统后,该车辆牌照识别系统可以通过图像处理和分析,分割出车牌字符,最后对分割出来的字符进行模式识别,得到该车牌图像所表示的车牌号码,比如“粤B12345”,这样给交通系统的自动管理提供了极大的方便。车辆牌照识别系统包括车牌检测,歪斜校正,边界确定,字符切分和字符识别等功能,其中,车牌字符识别是识别车牌号码过程中的重要部分。
目前,图像识别方法主要包括:模板匹配,神经网络(Artificial NeuralNetwork,ANN),隐马尔可夫模型(Hidden Markov Model,HMM),支持向量机(SupportVector Machine,SVM)和降维等方法,其中有些方法可以提高识别速度但是损失了识别准确度,有些方法提高了识别准确度但是损失了识别速度。
发明内容
本发明实施例提供图像识别方法及装置,在提高识别速度的同时提高了识别准确度。
本发明实施例提供一种图像识别方法,包括:
用第一图像识别方法在已知类别的训练样本中选出与待识别图像最相近的前s类训练样本,所述s为大于1的自然数;
用第二图像识别方法对所述已知类别的训练样本进行训练得到最终识别模型;
根据所述选出的前s类训练样本,将所述待识别图像在所述最终识别模型中进行识别运算,得到所述待识别图像所包含的信息。
本发明实施例提供一种图像识别装置,包括:
样本选取单元,用于利用第一图像识别方法,在已知类别的训练样本中选出与待识别图像最相近的前s类训练样本,所述s为大于1的自然数;
模型确定单元,用于用第二图像识别方法对所述已知类别的训练样本进行训练得到最终识别模型;
识别单元,用于根据所述选出的前s类训练样本,将所述待识别图像在所述最终识别模型中进行识别运算,得到所述待识别图像所包含的信息。
在本发明实施例的图像识别方法中,图像识别系统对待识别图像进行粗分类,即利用第一图像识别方法,在已知类别的训练样本中选出与待识别图像最相近的前s类训练样本;然后再根据粗分类结果进行精确分类,即用第二图像识别方法对已知类别的训练样本进行训练得到最终识别模型,并根据选出的前s类训练样本,将待识别图像在所述最终识别模型中进行识别运算,得到待识别图像所包含的信息。本发明实施例中结合了两种图像识别的方法,这样可以采用识别速度较高的第一图像识别方法对待识别图像进行粗分类,然后采用准确度较高的第二图像识别方法对待识别图像进行精确分类时可以提高图像识别准确度,而由于在精确分类时是将待识别图像与粗分类后确定的几种类别的训练样本进行比较,而不是与全部类别的训练样本进行比较,这样可以提高精确分类的速度。可见,本发明实施例的方法可以在提高识别速度的同时提高了识别准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种图像识别方法的流程图;
图2是本发明实施例中在已知类别的训练样本中选出与待识别图像最相近的前s类训练样本的方法流程图;
图3是本发明具体的实施例提供的车辆牌照识别系统中两种机器学习方法的流程图;
图4是本发明具体的实施例提供的车牌字符识别方法的流程图;
图5是本发明实施例提供的一种图像识别装置的结构示意图;
图6是本发明实施例提供的另一种图像识别装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种图像识别方法,主要是图像识别系统将待识别图像经过一定的识别运算得到待识别图像中的一些信息比如字符等信息的方法,对于车辆牌照识别系统来说主要是从车牌图像中识别出车牌字符等,流程图如图1所示,包括:
步骤101,用第一图像识别方法在已知类别的训练样本中选出与待识别图像最相近的前s类训练样本,这里s为大于1的自然数,这里第一图像识别方法可以是降维的图像识别方法等。
本发明实施例中对于图像的识别是先通过降维的图像识别方法对待识别图像进行粗分类,具体地,可以通过大量前期收集的试验样本作为训练样本集,在训练样本集中可以包括多种类别的训练样本,先经过训练得到训练样本的协方差矩阵的特征值矩阵和特征向量矩阵,其中协方差矩阵可以表示训练样本的不同维度之间的协方差即两个随机变量关系的统计量,协方差越大,说明两个变量关系越大,且协方差矩阵的特征值越大,说明对应的元素区分度越大;然后将特征值较大的特征向量组成的特征向量矩阵作为投影矩阵;最后将训练样本和待识别图像通过投影矩阵分别投影到最佳投影空间,即可将训练样本和待识别图像分别降到低维空间,从而可以在低维空间中比较训练样本与待识别图像,得到本步骤中最相近的前s类训练样本。
具体参见图2所示,可以通过如下的步骤来实现:
A:利用降维方法对已知类别的训练样本进行训练得到表示元素区分度的矩阵,这里已知类别的训练样本是指每个类别的字符对应的图像样本,例如对于汉字来说,共有31个类别,而字母有24个类别,数字0-9和字母A-Z(除I和O)共有34个类别等,其中每个类别都可以有多种图像样本,用来与待识别图像进行比较。
在得到表示元素区分度的矩阵时,图像识别系统具体可以采用线性降维和/或非线性降维相结合的方法,其中线性降维方法包括:主成分分析(Principal ComponentAnalysis,PCA)法、线性鉴别分析(Linear Discriminant Analysis,LDA)法、独立成分分析(Independent Component Analysis,ICA)法、二维主成分分析(2DPCA)法和二维线性鉴别分析(2DLDA)法等,而非线性降维方法包括:核主成分分析(KPCA)法、核线性鉴别分析(KLDA)法和核独立成分分析(KICA)法等。
且图像识别系统在对已知类型的训练样本进行训练时,具体是对已知类型的训练样本进行特征提取,其中上述PCA法主要是提取出训练样本中最主要的元素和结构,去除噪音和冗余后,将原有的复杂数据降维,而2DPCA法与PCA法类似,不同的是2DPCA法不需要将训练样本的图像数据展开成一维向量,直接利用图像的二维信息产生协方差矩阵,大大节约了训练过程;
LDA法主要针对线性可分的情况,具体地确定一个线性转换矩阵即一组投影方向,使训练样本在该投影方向投影的类内散布矩阵最小(即每一类的训练样本尽可能多的聚在一起),而类间散布矩阵最大(即不同类别的训练样本最大程度分开),2DLDA法与LDA法的关系类似于2DPCA法与PCA法的关系,这里不在赘述;ICA法主要是将训练样本进行某种线性分解,使其分解成统计独立的成分,这样各个成分之间是相互独立的;
KPCA法,KLDA法,KICA法是三种基于核的方法,主要是通过核函数将线性不可分的训练样本映射到线性可分的高维空间中,这样,训练样本在高维空间中是线性可分的;然后再利用相应的PCA法、LDA法、ICA法等方法在高维线性空间的训练样本进行特征提取。
B:基于上述步骤A中得到的表示元素区分度的矩阵,选择特征值大于预置特征值所对应的特征向量组成投影矩阵,这里的特征值是步骤A中得到的表示元素区分度的矩阵的特征值,且每个特征值对应一个特征向量,本发明实施例中,需要在上述元素区分度的矩阵对应的所有特征值中选择部分特征值。
C:将待识别图像和已知类型的训练样本分别根据上述投影矩阵投影到最佳投影空间(即一个低维空间),分别得到待识别图像在最佳投影空间的特征向量及各类别样本的最佳分类特征矩阵,这里投影过程具体是将待识别图像对应的向量与投影矩阵相乘得到待识别图像在最佳投影空间的特征向量,且将已知的各个类别的训练样本分别与投影矩阵相乘得到相应类别样本在最佳投影空间的特征向量即最佳分类特征矩阵。
D:计算待识别图像在最佳投影空间的特征向量分别与各类别样本的最佳分类特征矩阵的欧式距离,欧式距离越小,则说明待识别图像与已知类别的训练样本越相近,在各类别样本分别对应的欧式距离中选取较小的前s个欧式距离所对应的训练样本的类别,即为与待识别图像最相近的前s类训练样本。
步骤102,用第二图像识别方法对已知类别的训练样本进行训练得到最终识别模型,即对已知类别的训练样本进行特征提取得到这里第二图像识别方法是与第一图像识别方法不同的方法,可以包括SVM法,HM法或ANN等方法,从而可以分别得到的最终识别模型为SVM模型,HMM模型或ANN模型。这里最终识别模型中可以包括训练样本中图像特征的信息,比如支撑向量和特征个数等各种数据。
其中,对于SVM方法来说,进行SVM训练的过程即为对训练样本进行特征提取,并寻找最佳分类线或最佳分类面的过程,对于两类线性可分的图像,SVM训练即为寻找最佳分类线的过程,使得通过该最佳分类线不仅可以将两类分开,而且使得分类间隔较大,可以实现最佳的分类效果;对于两类线性不可分的图像,可以找到一种满足Mercer条件核函数,该核函数即对应某一变换空间中的内积,则对已知的低维特征空间中的训练样本可以通过核函数进行内积,变换到高维的线性空间,使得训练样本在高维的线性空间中线性可分,此时最佳分类线对应最佳分类面,因此SVM训练的过程即为找到最佳分类面的过程。对于HM法或ANN法的训练过程在此不进行赘述。
步骤103,根据步骤101中选出的前s类训练样本,将待识别图像在最终识别模型中进行识别运算,得到所述待识别图像所包含的信息,即利用最终识别模型将待识别图像与上述前s类训练样本进行逐一对比,而得到与待识别图像最接近的一个训练样本,而不用与全部类别的训练样本进行对比,提高识别速度。具体地,可以将待识别图像相应地在SVM模型,HMM模型或ANN模型中识别运算。
在通过步骤101的粗分类之后,图像识别系统就可以确定与待识别图像最相近的几个类别的训练样本,然后通过本步骤进行精确分类,即可精确地识别出该待识别图像中所包含的信息。
需要说明的是,上述步骤101与步骤102之间没有绝对的顺序关系,可以同时执行也可以顺序执行,图1中所示的只是其中一种具体的实现方案。其上述第一图像识别方法和第二图像识别方法也可以有其它的组合方式,可以是用户根据实际需要选择的,一般情况下,在粗分类时可以选取识别速度较快的图像识别方法,而在精确分类时可以采用识别准确度较高的图像识别方法,这样就可以兼顾到识别准确度和识别速度。
可见,在本发明实施例的图像识别方法中,图像识别系统对待识别图像进行粗分类,即利用第一图像识别方法,在已知类别的训练样本中选出与待识别图像最相近的前s类训练样本;然后再根据粗分类结果进行精确分类,即用第二图像识别方法对已知类别的训练样本进行训练得到最终识别模型,并根据选出的前s类训练样本,将待识别图像在所述最终识别模型中进行识别运算,得到待识别图像所包含的信息。本发明实施例中结合了两种图像识别的方法,这样可以采用识别速度较高的第一图像识别方法对待识别图像进行粗分类,然后采用准确度较高的第二图像识别方法对待识别图像进行精确分类时可以提高图像识别准确度,而由于在精确分类时是将待识别图像与粗分类后确定的几种类别的训练样本进行比较,而不是与全部类别的训练样本进行比较,这样可以提高精确分类的速度。可见,本发明实施例的方法可以在提高识别速度的同时提高了识别准确度。
需要说明的是,上述步骤101到103是采用一种已知类别的训练样本对待识别图像进行识别,而在实际应用过程中,有些实际获取的图像往往包含多种信息,比如汉字、数字或字母等字符,这就需要分别采用不同的已知类别的训练样本来识别。比如对于包含汉字的图像部分,需要采用汉字的31类训练样本来识别,而对于包含数字的图像部分,需要采用数字的10类训练样本来识别。为了更进一步地提高识别速度且提高识别准确度,图像识别系统可以在执行上述步骤101之前,可以先获取图像,并对获取的图像进行分割,分割成多个待识别图像,每个待识别图像中可以包含不同种类的信息,比如包含汉字、数字或字母等;然后对多个识别图像采用不同和/或相同的已知类型的训练样本,进行上述步骤101到103,即选出前s类型训练样本,得到最终识别模型及在最终识别模型中进行识别运算的步骤。
具体地,对于车牌字符的识别来说,由于每个车牌的第一个字符是汉字表示省份,第二个字符是英文字母表示发牌机关,第三到第七个字符是由字符和数字组成。这样可以先将获取的车牌图像分割成七个待识别图像,第一个待识别图像采用汉字的31类训练样本来识别,第二个待识别图像采用字母的24类训练样本来识别,第三到第七个待识别图像分别都采用数字0-9和字母A-Z(除I和O)的34类训练样本来识别。
上述对实际图像需要进行分割后才进行识别的方法只是适用于某些图像识别系统中,比如车辆牌照识别系统,手写字体识别系统和印刷字体识别系统,而对于有些识别系统比如人脸识别或指纹识别系统中,获取的图像是一个整体的不能分割,则不需要对获取的图像进行分割而直接将该获取的图像作为待识别图像进行识别。
在具体实际应用例中,对于一个类别的一个训练样本来说,可以表示为m×n的二维图像矩阵,且通过各行的首尾相连将其转换成一维向量,长度为D=m×n;用N1,N2,......,NL分别表示每个类别的训练样本的数目,其中N为训练样本的总数,L表示类别的数量,而第c类别的训练样本集合表示为则所有类别的训练样本集可表示为X={X1,X2…,XL}T。
所有类别的训练样本集对应的均值样本集记为U={u1 u2…uL}T,其中,第c类的样本均值为c∈[1 L],所有类别的训练样本的均值为:
(1)如果图像识别系统在上述步骤101时,采用PCA法可以通过如下的过程来实现:
将所有均值样本零均值化得到:则计算协方差矩阵即表示元素区分度的矩阵求协方差矩阵C的特征值{λ1}和对应的特征向量{vi},将特征值按降序排列λ1≥λ2≥…≥λD,对应的特征向量相应调整位置按列排列;取前m(m≤D)个特征值对应的特征向量组成一个投影矩阵W={v1,v2,…,vm};将待识别图像与训练样本集分别投影到最佳投影空间中,得到待识别图像在最佳投影空间的特征向量即ytest=xW,及各类别样本的最佳分类特征矩阵即ytrain=UW;并计算ytest与多个类别的ytrain的欧式距离,并选取前s个较小的欧式距离对应的训练样本的类别,即为与待识别图像最相近的前s类训练样本。
例如:假设数字和字母有共34个类别即L=34,每一类别的训练样本为100个即Ni=100(i大于0,且小于或等于L),则总的训练样本共3400个即N=3400,其中每个训练样本的大小都是32*16,每类训练样本变成一个一维向量,该一维向量的长度D=512。求每一类别的100个训练样本的均值向量uc,多个类别的训练样本的均值向量可以组成一个训练样本集即为34*512的矩阵U,然后再求矩阵U的均值向量得到所有类别的训练样本集的均值u,将均值矩阵U进行零均值化则通过PCA法确定的协方差矩阵维数为512*512,则协方差矩阵的特征值矩阵为Vd(1*512)和特征向量矩阵为Vv(512*512),每个特征值对应Vv中的一列向量;将特征值按照从大到小排列,选取能量和占99%的前d(d≤512)个特征值,则该d个特征值在特征向量矩阵中对应的特征向量组成投影矩阵W,为512*d的矩阵。
将进行归一化后的已知类别的训练样本通过投影矩阵W投影到最佳投影空间上,具体地,是将已知类别的训练样本的均值矩阵与投影矩阵W相乘即T=U*W,维数为34*d,即需要前面d个最主要的特征才能分开,这样就可以把每一类别的训练样本即1*512的向量降维成了一个1*d的向量;将32*16的待识别图像x变成维数为1*512的一维向量,然后根据投影矩阵W投影到最佳投影空间上,即y=x*W,y为一个1*d的一维向量;分别计算y与T中34个一维向量的欧式距离,得到一个欧式距离集合。每个欧式距离对应一个类别的训练样本,欧式距离越小说明越相近,选择前s个最小的欧式距离对应的训练样本的类别序号进行保存。
(2)如果图像识别系统在上述步骤101时,采用LDA法可以通过如下的过程来实现:
将所有训练样本类间离散度矩阵记为所有训练样本的类内离散度矩阵记为 则最佳映射矩阵记为
其中P(c)是指c类训练样本的先验概率,矩阵(uc-u)T(uc-u)的实际意义是一个协方差矩阵即上述表示元素区分度的矩阵,该协方差矩阵可以表示该c类训练样本与训练样本总体之间的关系,其中该协方差矩阵对角线上的函数所代表的是该c类相对训练样本总体的方差(即分散度),而非对角线上的元素所代表是该c类训练样本总体均值的协方差(即该类和总体样本的相关联度或称冗余度)。因此,上述Sb是根据所有训练样本各个训练样本所属的类计算出的各个训练样本与总体协方差矩阵的总和而上述Sw为各个训练样本和所属类之间的协方差矩阵之和。
当上述Sw为非奇异时,最佳投影空间对应的投影矩阵W的列向量为广义特征方程对应的d个最大特征值所对应的特征向量(矩阵的特征向量),且最优投影轴(即最佳分类面)的个数d≤L-1;将待识别图像与训练样本集分别投影到最佳投影空间中,得到待识别图像在最佳投影空间的特征向量即ytest=xW,及各类别样本的最佳分类特征矩阵即开计算ytest与多个类别的ytrain的欧式距离,并选取前s个较小的欧式距离对应的训练样本的类别,即为与待识别图像最相近的前s类训练样本。
在一个具体的实施例中,如果图像识别系统为车辆牌照识别系统,则车辆牌照识别系统具体可以通过如下的步骤来实现车牌字符的识别,且选取第一图像识别方法为降维法,第二图像识别法为SVM法,具体地,参见图3所示的车辆牌照识别系统中两种机器学习方法(即两种训练方法)的流程图:
(1)选定已知类别的训练样本集S={S1 S2 S3},其中,31类汉字作为一个训练样本集S1={h1 h2…h30 h31},其中hn为第n类汉字样本的均值向量(n为1到31之间的任意正整数);24类字母作为另一个训练样本集S2={c1 c2…c23 c24},其中cn为第n类数字样本的均值向量(n为1到24之间的任意正整数);34类数字和字母作为另一个训练样本集S3={nc1nc2…nc33 nc34},其中ncn为第n类数字和字母样本的均值向量(n为1到34之间的任意正整数)。上述均值向量是训练样本进行归一化之后的值,该步骤是将每个训练样本归一化为统一大小的灰度图像。
(2)机器学习方法1
对已知类别的训练样本集S1进行SVM训练,得到SVM模型M1;对已知类别的训练样本集S2进行SVM训练,得到SVM模型M2;对已知类别的训练样本集S3进行SVM训练,得到SVM模型M3。
(3)机器学习方法2
对已知类别的训练样本集S1采用线性或者非线性降维方法进行训练(即特征提取),得到一个表示元素区分度的矩阵V1,并选取最大的几个特征值对应的特征向量组成一个投影矩阵W1,同理分别得到已知类别的训练样本集S2和S3的投影矩阵W2和W3。
参见图4所示的车辆牌照识别系统在车牌字符识别过程中的流程图:
(1)粗分类
将已知类别的训练样本集S1根据投影矩阵W1投影到最佳投影空间W1’,得到各个类别样本的最佳分类特征矩阵T1;将已知类别的训练样本集S2根据投影矩阵W2投影到最佳投影空间W2’,得到各个类别样本的最佳分类特征矩阵T2;将已知类别的训练样本集S3根据投影矩阵W3投影到最佳投影空间W3’,得到各个类别样本的最佳分类特征矩阵T3。
通过照相等方法获取车牌图像,将车牌图像分割为7个待识别图像,如果待识别图像是车牌第一个位置的图像,说明是汉字,则把待识别图像投影到最佳投影空间W1’,得到待识别图像在最佳投影空间W1’的特征向量y1;如果待识别图像是车牌第二个位置的图像,说明是发牌机关代号的字母,则把待识别图像投影到最佳投影空间W2’,得到待识别图像在最佳投影空间W2’的特征向量y2;如果待识别图像是车牌的第三到第七个位置的图像,则可能是数字也可能是字母,把待识别图像投影到最佳投影空间W3’,得到待识别图像在最佳投影空间W3’的特征向量y3。
分别计算待识别图像在最佳投影空间的特征向量与对应的各个类别样本的最佳分类特征矩阵的欧式距离得到欧式距离集合,即y1与T1的第一欧式距离集合,y2与T2的第二欧式距离集合,y3与T3的第三欧式距离集合。
对于汉字,取最小的前s个欧式距离对应的类别序号得到类别序号集合D1;对于字母,取最小的前s个欧式距离对应的类别序号得到类别序号集合D2;对于数字和字母,取最小的前s个欧式距离对应的类别序号得到类别序号集合D3,这样即可得到与待识别图像最相近的几类类别序号。
(2)精确分类
如果是汉字,根据粗分类得到的类别序号D1,将待识别的汉字图像在SVM模型M1中进行SVM识别运算,得到该待识别图像所表示的汉字;如果是字母,根据粗分类得到的类别序号D2,将待识别的字母图像在SVM模型M2中进行SVM识别运算,得到该待识别图像所表示的字母;如果是字母或数字,根据粗分类得到的类别序号D3,将待识别的字母或数字图像在SVM模型M3中进行SVM识别运算,得到该待识别图像所表示的字母或数字。
本发明实施例还提供一种图像识别装置,比如车辆牌照识别装置等,结构示意图如图5所示,包括:
样本选取单元10,用于利用第一图像识别方法,在已知类别的训练样本中选出与待识别图像最相近的前s类训练样本,所述s为大于1的自然数;
模型确定单元11,用于用第二图像识别方法对所述已知类别的训练样本进行训练得到最终识别模型;
识别单元12,用于根据所述样本选取单元10选出的前s类训练样本,将所述待识别图像在所述模型确定单元11得到的最终识别模型中进行识别运算,得到所述待识别图像所包含的信息。
可见,在本发明实施例的图像识别装置中,样本选取单元10对待识别图像进行粗分类,即利用第一图像识别方法,在已知类别的训练样本中选出与待识别图像最相近的前s类训练样本;然后再根据粗分类结果进行精确分类,即模型确定单元11用第二图像识别方法对已知类别的训练样本进行训练得到最终识别模型,并由识别单元12根据选出的前s类训练样本,将待识别图像在所述最终识别模型中进行识别运算,得到待识别图像所包含的信息。图像识别装置结合了两种图像识别的方法,这样可以采用识别速度较高的第一图像识别方法对待识别图像进行粗分类,然后采用准确度较高的第二图像识别方法对待识别图像进行精确分类时可以提高图像识别准确度,而由于在精确分类时是将待识别图像与粗分类后确定的几种类别的训练样本进行比较,而不是与全部类别的训练样本进行比较,这样可以提高精确分类的速度,从而可以在提高识别速度的同时提高了识别准确度。
参见图6所示,在一个具体的实施例中,图像识别装置除了可以包括如图5所示的结构外,图像识别装置还可以包括图像分割单元13,且其中的样本选取单元10可以通过训练单元110、投影矩阵确定单元120、投影单元130和计算选取单元140来实现,具体地:
训练单元110,用于利用降维方法对所述已知类别的训练样本进行训练得到表示元素区分度的矩阵;
投影矩阵确定单元120,用于基于所述训练单元110得到的表示元素区分度的矩阵,选择特征值大于预置特征值所对应的特征向量组成投影矩阵;
投影单元130,用于将所述待识别图像和已知类型的训练样本通过所述投影矩阵确定单元120组成的投影矩阵分别投影到所述最佳投影空间,并分别得到待识别图像在所述最佳投影空间的特征向量及各类别样本的最佳分类特征矩阵;
计算选取单元140,用于计算所述投影单元130得到的待识别图像在所述最佳投影空间的特征向量分别与各个类别样本的最佳分类特征矩阵的欧式距离,并选取较小的前s个欧式距离所对应的训练样本的类别。
图像分割单元13,用于获取图像,将获取的图像进行分割成多个待识别图像。
本发明实施例的图像识别装置中,样本选取单元10中的训练单元110会对已知类别的训练样本进行训练得到表示元素区分度的矩阵,投影矩阵确定单元120会根据该表示元素区分度的矩阵所对应的特征向量组成投影矩阵,然后由投影单元130进行投影,最后由计算选取单元140来计算欧式距离,并通过计算的欧式距离来确定与待识别图像最相近的几类训练样本;然后识别单元12会根据计算选取单元140选取的几类训练样本,在模型确定单元11确定的最终识别模型中进行识别运算得到待识别图像所包含的信息。
本实施例的图像识别装置还可以通过图像分割单元13来分割获取的图像,这样在图像识别装置中可以包括多个由样本选取单元10,模型确定单元11和识别单元12组成的子模块,然后不同的子模块中的样本选取单元10,模型确定单元11和识别单元12,分别对图像分割单元13分割的多个待识别图像采用不同和/或相同的已知类型的训练样本,进行所述选出前s类型训练样本,得到最终识别模型及在最终识别模型中进行识别运算的步骤,图5所示的只画出了图像分割单元13与一个子模块之间的连接关系,图像分割单元13与其他子模块之间的连接关系类似,在此不进行赘述。
另一种具体的实现方式中,在图像识别装置中可以包括一个由样本选取单元10,模型确定单元11和识别单元12组成的子模块,然后由样本选取单元10,模型确定单元11和识别单元12对图像分割单元13分割的多个待识别图像进行顺序处理,且对这多个待识别图像的处理过程中采用的已知类型的训练样本是不同和/或相同,即可以对每个待识别图像的处理都采用相同或不同的训练样本,也可以对有些待识别图像的处理采用相同的训练样本,而对另一些待识别图像的处理采用不同的训练样本。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM)、随机存取存储器(RAM)、磁盘或光盘等。
以上对本发明实施例所提供的图像识别方法和装置进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (6)
1.一种图像识别方法,其特征在于,包括:
用第一图像识别方法在已知类别的训练样本中选出与待识别图像最相近的前s类训练样本,所述s为大于1的自然数;其中,所述已知类别的训练样本是指每个类别的字符对应的图像样本;
用第二图像识别方法对所述已知类别的训练样本进行训练得到最终识别模型;
根据所述选出的前s类训练样本,将所述待识别图像在所述最终识别模型中进行识别运算,得到所述待识别图像所包含的信息;
其中,所述用第一图像识别方法在已知类别的训练样本中选出与待识别图像最相近的前s类训练样本,具体包括:
利用降维方法对所述已知类别的训练样本进行训练得到表示元素区分度的矩阵;
基于所述表示元素区分度的矩阵,选择特征值大于预置特征值所对应的特征向量组成投影矩阵;
将所述待识别图像和已知类型的训练样本通过所述投影矩阵分别投影到最佳投影空间,并分别得到待识别图像在所述最佳投影空间的特征向量及各类别样本的最佳分类特征矩阵;
计算所述待识别图像在所述最佳投影空间的特征向量分别与各个类别样本的最佳分类特征矩阵的欧式距离,并选取较小的前s个欧式距离所对应的训练样本的类别。
2.如权利要求1所述的方法,其特征在于,所述降维方法包括线性降维法和/或非线性降维法的结合;
所述线性降维法包括:主成分分析PCA法、线性鉴别分析LDA法、独立成分分析ICA法、二维主成分分析2DPCA法或二维线性鉴别分析2DLDA法;所述非线性降维法包括:核主成分分析KPCA法、核线性鉴别分析KLDA法或核独立成分分析KICA法。
3.如权利要求1至2任一项所述的方法,其特征在于,
所述用第二图像识别方法对所述已知类别的训练样本进行训练得到最终识别模型具体包括:对所述已知类别的训练样本进行支持向量机SVM的训练得到SVM模型;根据所述选出的前s类训练样本,将所述待识别图像在所述最终识别模型中进行识别运算具体包括:将所述待识别图像在所述SVM模型中按照所述前s类训练样本进行识别运算;或,
所述用第二图像识别方法对所述已知类别的训练样本进行训练得到最终识别模型具体包括:对所述已知类别的训练样本进行隐马尔科夫模型HMM的训练得到HMM模型;根据所述选出的前s类训练样本,将所述待识别图像在所述最终识别模型中进行识别运算具体包括:将所述待识别图像在所述HMM模型中按照所述前s类训练样本进行识别运算;或,
所述用第二图像识别方法对所述已知类别的训练样本进行训练得到最终识别模型具体包括:对所述已知类别的训练样本进行神经网络ANN的训练得到ANN模型;根据所述选出的前s类训练样本,将所述待识别图像在所述最终识别模型中进行识别运算具体包括:将所述待识别图像在所述ANN模型中按照所述前s类训练样本进行识别运算。
4.如权利要求1至2任一项所述方法,其特征在于,所述在已知类别的训练样本中选出与待识别图像最相近的前s类训练样本之前还包括:
获取图像,并将获取的图像进行分割成多个待识别图像,并对所述多个待识别图像采用不同和/或相同的已知类型的训练样本,进行上述选出前s类训练样本,得到最终识别模型及在最终识别模型中进行识别运算的步骤。
5.一种图像识别装置,其特征在于,包括:
样本选取单元,用于利用第一图像识别方法,在已知类别的训练样本中选出与待识别图像最相近的前s类训练样本,所述s为大于1的自然数;其中,所述已知类别的训练样本是指每个类别的字符对应的图像样本;
模型确定单元,用于用第二图像识别方法对所述已知类别的训练样本进行训练得到最终识别模型;
识别单元,用于根据所述选出的前s类训练样本,将所述待识别图像在所述最终识别模型中进行识别运算,得到所述待识别图像所包含的信息;
其中,所述样本选取单元具体包括:
训练单元,用于利用降维方法对所述已知类别的训练样本进行训练得到表示元素区分度的矩阵;
投影矩阵确定单元,用于基于所述表示元素区分度的矩阵,选择特征值大于预置特征值所对应的特征向量组成投影矩阵;
投影单元,用于将所述待识别图像和已知类型的训练样本通过所述投影矩阵分别投影到最佳投影空间,并分别得到待识别图像在所述最佳投影空间的特征向量及各类别样本的最佳分类特征矩阵;
计算选取单元,用于计算所述待识别图像在所述最佳投影空间的特征向量分别与各个类别样本的最佳分类特征矩阵的欧式距离,并选取较小的前s个欧式距离所对应的训练样本的类别。
6.如权利要求5所述的装置,其特征在于,还包括:
图像分割单元,用于获取图像,并将获取的图像进行分割成多个待识别图像;
所述样本选取单元,模型确定单元和识别单元,分别用于对所述多个待识别图像采用不同和/或相同的已知类型的训练样本,进行所述选出前s类型训练样本,得到最终识别模型及在最终识别模型中进行识别运算的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210447395.0A CN102982349B (zh) | 2012-11-09 | 2012-11-09 | 一种图像识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210447395.0A CN102982349B (zh) | 2012-11-09 | 2012-11-09 | 一种图像识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102982349A CN102982349A (zh) | 2013-03-20 |
CN102982349B true CN102982349B (zh) | 2016-12-07 |
Family
ID=47856331
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210447395.0A Active CN102982349B (zh) | 2012-11-09 | 2012-11-09 | 一种图像识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102982349B (zh) |
Families Citing this family (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103164697B (zh) * | 2013-03-29 | 2016-06-01 | 苏州皓泰视频技术有限公司 | 一种处理时间与识别精度自适应的车牌识别方法 |
CN103440292B (zh) * | 2013-08-16 | 2016-12-28 | 新浪网技术(中国)有限公司 | 基于比特向量的多媒体信息检索方法和系统 |
CN103761533A (zh) * | 2014-01-21 | 2014-04-30 | 南京信息工程大学 | 基于核鉴别线性表示的分类方法 |
CN103778440A (zh) * | 2014-01-27 | 2014-05-07 | 山西协康云享科技有限公司 | 基于大数据平台的图像匹配方法、应用服务器及用户设备 |
CN106156784B (zh) * | 2015-03-30 | 2019-10-29 | 联想(北京)有限公司 | 一种特征识别方法及电子设备 |
KR101648701B1 (ko) * | 2015-06-26 | 2016-08-17 | 렉스젠(주) | 차량 번호 판독 장치 및 그 방법 |
US10083378B2 (en) * | 2015-12-28 | 2018-09-25 | Qualcomm Incorporated | Automatic detection of objects in video images |
CN107292225B (zh) * | 2016-08-18 | 2020-11-20 | 北京师范大学珠海分校 | 一种人脸识别方法 |
CN106529590A (zh) * | 2016-10-28 | 2017-03-22 | 中国水产科学研究院渔业机械仪器研究所 | 一种基于改进pca和svm算法的运动虾苗识别方法 |
CN106887059A (zh) * | 2017-01-18 | 2017-06-23 | 华南农业大学 | 一种基于面部识别的智能电子门锁系统 |
CN107122768A (zh) * | 2017-05-31 | 2017-09-01 | 吉林大学 | 一种三维笔式识别预处理方法 |
CN109327421A (zh) * | 2017-08-01 | 2019-02-12 | 阿里巴巴集团控股有限公司 | 数据加密、机器学习模型训练方法、装置及电子设备 |
CN107392257B (zh) * | 2017-08-03 | 2020-05-12 | 网易(杭州)网络有限公司 | 操作序列的获取方法、装置、存储介质、处理器和服务端 |
CN109426861A (zh) * | 2017-08-16 | 2019-03-05 | 阿里巴巴集团控股有限公司 | 数据加密、机器学习模型训练方法、装置及电子设备 |
CN107729363B (zh) * | 2017-09-06 | 2021-08-17 | 上海交通大学 | 基于GoogLeNet网络模型鸟类种群识别分析方法 |
CN107894564B (zh) * | 2017-11-09 | 2020-02-18 | 合肥工业大学 | 一种基于交叉小波特征的模拟电路故障诊断方法 |
CN107944478A (zh) * | 2017-11-14 | 2018-04-20 | 深圳码隆科技有限公司 | 图像识别方法、系统以及电子设备 |
CN108236784B (zh) * | 2018-01-22 | 2021-09-24 | 腾讯科技(深圳)有限公司 | 模型的训练方法和装置、存储介质、电子装置 |
CN108197663B (zh) * | 2018-01-23 | 2022-03-25 | 南京大学 | 基于对偶集合多标记学习的书法作品图像分类方法 |
CN108304882B (zh) * | 2018-02-07 | 2022-03-04 | 腾讯科技(深圳)有限公司 | 一种图像分类方法、装置及服务器、用户终端、存储介质 |
CN108461091A (zh) * | 2018-03-14 | 2018-08-28 | 南京邮电大学 | 面向家居环境的智能哭声检测方法 |
CN108596180A (zh) * | 2018-04-09 | 2018-09-28 | 深圳市腾讯网络信息技术有限公司 | 图像中的参数识别、参数识别模型的训练方法及装置 |
CN109241903B (zh) * | 2018-08-30 | 2023-08-29 | 平安科技(深圳)有限公司 | 样本数据清洗方法、装置、计算机设备及存储介质 |
TW202018596A (zh) * | 2018-11-09 | 2020-05-16 | 財團法人資訊工業策進會 | 分散式網路運算系統、分散式網路運算方法以及非暫態電腦可讀取記錄媒體 |
CN110245714B (zh) * | 2019-06-20 | 2021-08-20 | 厦门美图之家科技有限公司 | 图像识别方法、装置及电子设备 |
CN110399890B (zh) * | 2019-07-29 | 2021-08-20 | 厦门美图之家科技有限公司 | 图像识别方法、装置、电子设备及可读存储介质 |
CN111046944A (zh) * | 2019-12-10 | 2020-04-21 | 北京奇艺世纪科技有限公司 | 一种确定对象类别的方法、装置、电子设备及存储介质 |
CN112182265A (zh) * | 2020-09-17 | 2021-01-05 | 国家电网有限公司 | 广谱集成多算法的图像识别方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101038622A (zh) * | 2007-04-19 | 2007-09-19 | 上海交通大学 | 基于几何保存的人脸子空间识别方法 |
CN101604381A (zh) * | 2009-05-20 | 2009-12-16 | 电子科技大学 | 基于多分类支持向量机的车牌字符识别方法 |
CN102346847A (zh) * | 2011-09-26 | 2012-02-08 | 青岛海信网络科技股份有限公司 | 一种支持向量机的车牌字符识别方法 |
-
2012
- 2012-11-09 CN CN201210447395.0A patent/CN102982349B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101038622A (zh) * | 2007-04-19 | 2007-09-19 | 上海交通大学 | 基于几何保存的人脸子空间识别方法 |
CN101604381A (zh) * | 2009-05-20 | 2009-12-16 | 电子科技大学 | 基于多分类支持向量机的车牌字符识别方法 |
CN102346847A (zh) * | 2011-09-26 | 2012-02-08 | 青岛海信网络科技股份有限公司 | 一种支持向量机的车牌字符识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN102982349A (zh) | 2013-03-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102982349B (zh) | 一种图像识别方法及装置 | |
US10176391B1 (en) | Discrete hidden markov model basis for arabic handwriting recognition | |
Opelt et al. | Incremental learning of object detectors using a visual shape alphabet | |
US20170124409A1 (en) | Cascaded neural network with scale dependent pooling for object detection | |
CN102147858B (zh) | 车牌字符识别方法 | |
CN106570521B (zh) | 多语言场景字符识别方法及识别系统 | |
Chherawala et al. | Feature design for offline Arabic handwriting recognition: handcrafted vs automated? | |
CN106156766A (zh) | 文本行分类器的生成方法及装置 | |
CN105894050A (zh) | 一种基于多任务学习的人脸图像种族和性别识别方法 | |
CN107292225B (zh) | 一种人脸识别方法 | |
CN104951791B (zh) | 数据分类方法和装置 | |
CN101099675A (zh) | 带有弱分类器的组合系数的人脸检测方法 | |
CN110598603A (zh) | 人脸识别模型获取方法、装置、设备和介质 | |
Simon et al. | Fine-grained classification of identity document types with only one example | |
Wei et al. | Visual descriptors for scene categorization: experimental evaluation | |
Wang et al. | Multi-order co-occurrence activations encoded with Fisher Vector for scene character recognition | |
Feng et al. | Robust shared feature learning for script and handwritten/machine-printed identification | |
CN104318224A (zh) | 一种人脸识别方法及监控设备 | |
CN101216878A (zh) | 基于广义非线性判别分析的人脸识别方法 | |
Alaei et al. | Gender detection based on spatial pyramid matching | |
Jubair et al. | A simplified method for handwritten character recognition from document image | |
Bashir et al. | Script identification: a review | |
CN114005002A (zh) | 基于核操作的核全连接神经网络的图像识别方法 | |
Kumar et al. | Image classification in python using Keras | |
Gabriel et al. | Analysis of the discriminative generalized Hough transform for pedestrian detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |