CN106709490B - 一种字符识别方法和装置 - Google Patents

一种字符识别方法和装置 Download PDF

Info

Publication number
CN106709490B
CN106709490B CN201510467750.4A CN201510467750A CN106709490B CN 106709490 B CN106709490 B CN 106709490B CN 201510467750 A CN201510467750 A CN 201510467750A CN 106709490 B CN106709490 B CN 106709490B
Authority
CN
China
Prior art keywords
character
features
image
character image
scales
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510467750.4A
Other languages
English (en)
Other versions
CN106709490A (zh
Inventor
王红法
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201510467750.4A priority Critical patent/CN106709490B/zh
Publication of CN106709490A publication Critical patent/CN106709490A/zh
Application granted granted Critical
Publication of CN106709490B publication Critical patent/CN106709490B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种字符的识别方法和装置,用于提高字符识别的准确率,以及保证字符识别的稳定性,本发明实施例提供的方法包括:对第一字符图像按照至少两个尺度分别进行缩放处理,得到至少两个尺度的第二字符图像;对于每一种尺度的第二字符图像都提取到至少两种不同类型的特征,得到各种尺度的第二字符图像对应的至少两种不同类型的第一字符特征;对所述各种尺度的第二字符图像对应的至少两种不同类型的第一字符特征进行融合处理以及降维处理,得到各种尺度的第二字符图像对应的第二字符特征;将所述第二字符特征输入分类器,识别出与所述第一字符图像对应的字符结果。

Description

一种字符识别方法和装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种字符识别方法和装置。
背景技术
光学字符识别(英文全称:Optical Character Recognition,英文简称:OCR)是指电子设备(例如扫描仪或数码相机)检查纸上打印出来的字符图像,通过检测暗、亮的模式确定字符图像的特征,然后用字符识别方法将字符的特征翻译成计算机文字的过程,在OCR中,需要对文本资料进行扫描,得到图像文件,然后对图像文件进行分析处理,从而获取到文字及版面信息。
在OCR的处理过程中,特征是识别字符的关键信息,每个不同的字符都需要通过对应的特征来和其他字符进行区分,字符的特征描述也是OCR的最重要的关键因素之一,目前常见的字符特征有如下三种:
1、字符模板,即将样本字符图像存档,用测试字符图像直接与其进行比对。
2、字符轮廓,即将字符的轮廓信息提取出来,以此作为比对的依据。
3、纹理描述,通过采用一定的纹理描述方法,将字符图像转化为纹理特征,依次进行比对识别。
本发明的发明人在实现本发明的过程中发现,上述现有技术存至少存在如下技术问题:
1、识别准确率低,尤其对于中文等大字符集合,往往识别效率会降低。
2、鲁棒性偏低,测试字符往往有各种复杂的背景、光照、大小等干扰因素,现有技术很难有稳定的高效的识别效果。
发明内容
本发明实施例提供了一种字符的识别方法和装置,用于提高字符识别的准确率,以及保证字符识别的稳定性。
为解决上述技术问题,本发明实施例提供以下技术方案:
第一方面,本发明实施例提供一种字符的识别方法,包括:
对第一字符图像按照至少两个尺度分别进行缩放处理,得到至少两个尺度的第二字符图像;
对于每一种尺度的第二字符图像都提取到至少两种不同类型的特征,得到各种尺度的第二字符图像对应的至少两种不同类型的第一字符特征;
对所述各种尺度的第二字符图像对应的至少两种不同类型的第一字符特征进行融合处理以及降维处理,得到各种尺度的第二字符图像对应的第二字符特征;
将所述第二字符特征输入分类器,识别出与所述第一字符图像对应的字符结果。
第二方面,本发明实施例还提供一种字符的识别装置,包括:
图像缩放模块,用于对第一字符图像按照至少两个尺度分别进行缩放处理,得到至少两个尺度的第二字符图像;
多类型特征提取模块,用于对于每一种尺度的第二字符图像都提取到至少两种不同类型的特征,得到各种尺度的第二字符图像对应的至少两种不同类型的第一字符特征;
字符特征处理模块,用于对所述各种尺度的第二字符图像对应的至少两种不同类型的第一字符特征进行融合处理以及降维处理,得到各种尺度的第二字符图像对应的第二字符特征;
字符识别模块,用于将所述第二字符特征输入分类器,识别出与所述第一字符图像对应的字符结果。
从以上技术方案可以看出,本发明实施例具有以下优点:
在本发明实施例中,首先对第一字符图像按照至少两个尺度分别进行缩放处理,得到至少两个尺度的第二字符图像,然后对于每一种尺度的第二字符图像都提取到至少两种不同类型的特征,得到各种尺度的第二字符图像对应的至少两种不同类型的第一字符特征,接下来对各种尺度的第二字符图像对应的至少两种不同类型的第一字符特征进行融合处理以及降维处理,得到第二字符特征,最后将第二字符特征输入分类器,识别出与第一字符图像对应的字符结果。本发明实施例中,第一字符图像作为需要进行字符识别的图像,被缩放为多种尺度的第二字符图像,每一种尺度的第二字符图像都提取到了多种不同类型的特征,得到至少两种不同类型的第一字符特征,由于进行特征提取的不再是唯一的一种尺度的字符图像,而是多种尺度的字符图像,因此可以解决被测试的字符图像在尺度不一致时存在鲁棒性偏低的问题,保证字符识别的稳定性。另外多种不同类型的第一字符特征经过融合处理和降维处理后得到第二字符特征,该第二字符特征是第一字符特征经过融合处理和降维处理,因此在第二字符特征经过特征融合和降维后的字符特征更为准确,将该第二字符特征输入分类器时可以提高识别速度以及分类器的准确率,从而可以提高字符识别的准确率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种字符识别方法的流程方框示意图;
图2为本发明实施例提供的字符识别方法的一种应用场景示意图;
图3-a为本发明实施例提供的一种字符识别装置的组成结构示意图;
图3-b为本发明实施例提供的一种字符识别装置的组成结构示意图;
图3-c为本发明实施例提供的一种图像中心化处理模块的组成结构示意图;
图3-d为本发明实施例提供的一种字符识别模块的组成结构示意图;
图4为本发明实施例提供的字符识别方法应用于服务器的组成结构示意图。
具体实施方式
本发明实施例提供了一种字符的识别方法和装置,用于提高字符识别的准确率,以及保证字符识别的稳定性。
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域的技术人员所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。
以下分别进行详细说明。
本发明字符识别方法的一个实施例,具体可以应用于对字符进行识别处理的OCR技术中,本发明提供的字符识别方法是一种多尺度、多特征融合的字符特征描述方法,可以较好的解决了现有的字符特征描述算法的不足,在实际测试中,本发明提供的字符识别方法在识别准确率以及鲁棒性都有极大的提升。接下来对本发明提供的方法进行详细说明,请参阅图1所示,本发明一个实施例提供的字符识别方法,可以包括如下步骤:
101、对第一字符图像按照至少两个尺度分别进行缩放处理,得到至少两个尺度的第二字符图像。
在本发明实施例中,首先获取到第一字符图像,该第一字符图像可以是扫描后得到文字资料,该文字资料扫描后为第一字符图像,该第一字符图像作为需要进行字符识别的图像进行多尺度的缩放处理,可以得到多个尺度的第二字符图像,在这种话实现方式中,第一字符图像为原始字符图像。例如一个第一字符图像可以被缩放为三种尺度的第二字符图像,三种尺度的第二字符图像可以分别为16×16,32×32,48×48,64×64等。
在本发明的一些实施例中,步骤101对第一字符图像按照至少两个尺度分别进行缩放处理之前,本发明实施例提供的字符识别方法,还可以包括如下步骤:
A1、对第一字符图像进行中心化处理,得到字符块居中的第一字符图像。
在如上步骤A1中,图像缩放之前,先对第一字符图像进行中心化处理,其中中心化处理指的是调整第一字符图像的中心,调整第一字符图像的字符框的尺度,使第一字符图像中的字符块处于第一字符图像的居中位置。对第一字符图像的中心化处理可以使进行多尺度缩放处理的第一字符图像中字符块始终处于图像的居中位置,使字符的识别更准确。
进一步的,在本发明的一些实施例中,步骤A1对第一字符图像进行中心化处理,具体可以包括如下步骤:
A11、计算第一字符图像在水平方向和垂直方向上的灰度分布的重心位置以及第一字符图像的方差;
A12、根据第一字符图像在水平方向和垂直方向上的灰度分布的重心位置以及第一字符图像的方差调整第一字符图像,使第一字符图像中的字符块在调整后的第一字符图像上处于居中的位置。
其中,步骤A11中,对于输入的单个第一字符图像,分别计算水平方向和垂直方向上的光线灰度分布的重心位置以及第一字符图像的方差,第一字符图像的方差可以有效的表达第一字符图像的灰度变化信息,根据获取到重心位置和方差依次来调整字符中心以及字符框的尺度,使第一字符图像中的字符块在调整后的第一字符图像上处于居中的位置,进一步的,在本发明实施例中,还可以按照预置的方差将第一字符图像的灰度值调整到预置的一个数值,例如将灰度值调整到统一水平,可以取平均灰度为128,其中,第一字符图像的方差可以为64等。
102、对于每一种尺度的第二字符图像都提取到至少两种不同类型的特征,得到各种尺度的第二字符图像对应的至少两种不同类型的第一字符特征。
在本发明实施例中,得到至少两个尺度的第二字符图像之后,对于不同尺度下的第二字符图像,按照至少两种字符类型提取到至少两种不同类型的特征,则对于不同尺度的第二字符图像都对应有至少两种不同类型的第一字符特征,举例说明,第二字符图像共有4种尺度,则对于每种尺度的第二字符图像按照3种两种字符类型进行特征提取,则每种尺度的第二字符图像都可以提取到3种不同类型的第一字符特征。本发明实施例中对于每一种尺度的第二字符图像都需要提取到多种类型的第一字符特征,按照不同的字符类型提取方式提取得到的多种字符特征都可以用于描述字符图像的特征,多种字符特征可以描述出字符图像在不同字符类型下表现出的特征,这与现有技术中只按照一种字符类型提取字符图像的特征是完全不同的,多种类型的字符特征可以用于更准确的字符识别。
在本发明的一些实施例中,步骤102对于每一种尺度的第二字符图像都提取到至少两种不同类型的特征,具体可以包括如下步骤:
B1、对每一种尺度的第二字符图像都提取到预置的多种类型中的至少两种类型的特征,预置的多种类型包括:梯度投影特征、梯度方向直方图(英文全称:Histogram ofOriented Gradients,英文简称:HOG)特征、灰度模板特征、Gabor特征、局部二值模式(英文全称:Local Binary Pattern,英文简称:LBP)特征、小波变换特征。
其中,在上述实现方式中,首先设置使用哪些种字符类型对第二字符图像进行特征提取,在本发明实施例中,采用的多种字符类型可以是如下类型中的两种或者更多种:梯度投影特征、HOG特征、灰度模板特征、Gabor特征、LBP特征、小波变换特征。按照上述的类型提取方式,都可以从第二字符图像中提取到一种第一字符特征,则各种尺度的第二字符图像对应的至少两种不同类型的第一字符特征。需要说明的是,使用不同类型的特征提取方式提取第二字符图像的特征可以参阅现有技术。
103、对各种尺度的第二字符图像对应的至少两种不同类型的第一字符特征进行融合处理以及降维处理,得到各种尺度的第二字符图像对应的第二字符特征。
在本发明实施例中,在获取到各种尺度的第二字符图像对应的至少两种不同类型的第一字符特征之后,对于上述的第一字符特征再进行融合处理以及降维处理,则每一种尺度的第二字符图像对应的多个类型的第一字符特征都可以生成一个第二字符特征。由于每一种尺度的第二字符图像都提取到了多种类型的第一字符特征,因此通过前述步骤可知,得到的第一字符特征有很多个,举例说明如下,第二字符图像共有4种尺度,则对于每种尺度的第二字符图像按照3种两种字符类型进行特征提取,则每种尺度的第二字符图像都可以提取到3种不同类型的第一字符特征,因此对于不同尺度下的3个不同类型的第一字符特征,都可以获取到一个第二字符特征,因此可以得到4种尺度下的4个第二字符特征。对于获取到的多个第一字符特征,在输入分类器之前,还需要对多个第一字符特征进行融合处理以及降维处理,以此可获取到第二字符特征。由于第二字符特征是对获取到的多个第一字符特征进行融合处理以及降维处理后得到的结果,因此第二字符特征可以更准确的描述出原始字符图像中的字符块特征,通过分类器进行识别后,能够获取到更准确的字符识别结果。
在本发明的一些实施例中,步骤103对各种尺度的第二字符图像对应的至少两种不同类型的第一字符特征进行融合处理以及降维处理,具体可包括如下步骤:
C1、对各种尺度的第二字符图像对应的至少两种不同类型的第一字符特征先进行融合处理,然后对融合后的结果再进行降维处理;
或,C2、对各种尺度的第二字符图像对应的至少两种不同类型的第一字符特征先进行降维处理,然后对降维后的结果再进行融合处理。
具体的,对于步骤103,在具体实现时可以有多种实现方式,在C1中对多个的第一字符特征先进行融合处理再进行降维处理,与C1不同的是,也可以采用C2中对多个第一字符特征先进行降维处理再进行融合处理的方式。其中,本发明实施例中,对第一字符特征进行融合处理指的是将提取到的多种特征连接成一个向量特征,再对该向量特征进行降维处理,对第一字符特征进行降维处理指的是由于提取的特征维度较高,为了提高识别速度以及分类器的准确率而对第一字符特征进行的特征降维。C1中由于需要先融合处理,因此得到融合后的结果数据量很大,因此再进行降维处理时需要消耗更多的时间,而C2中多个的第一字符特征先逐个降维,或同时降维,这比C1的方式会消耗较少的时间。在具体实现时可以结合场景的需要来确定融合处理和降维处理的先后顺序。需要说明的是,在本发明实施例中,对第一字符特征进行降维处理可以采用如下的降维算法:主元分析(英文全称:Principal components Analysis,英文简称:PLA),线性鉴别分析(英文全称:LinearDiscriminant Analysis,英文简称:LDA)以及神经网络等。
104、将第二字符特征输入分类器,识别出与第一字符图像对应的字符结果。
在本发明实施例中,对于多个第一字符特征进行融合处理以及降维处理之后,可以获取到第二字符特征,将该第二字符特征输入到分类器中,从而可以识别出字符结果,该字符结果是第一字符图像作为原始输入图像进行字符识别后得到的字符。本发明实施例中采用的分类器具体可以为向量机(英文全称:Support Vector Machine,英文简称:SVM)分类器,也可以采用几何分类器、神经网络分类器等。由于第二字符特征是对获取到的多个第一字符特征进行融合处理以及降维处理后得到的结果,因此第二字符特征可以更准确的描述出原始字符图像中的字符块特征,通过分类器对第二字符特征进行特征识别后,能够获取到更准确的字符识别结果。
在本发明的一些实施例中,步骤104将第二字符特征输入分类器,识别出与第一字符图像对应的字符结果,具体可以包括如下步骤:
D1、计算第二字符特征与样本特征均值的余弦相似度;
D2、选择余弦相似度最高的样本特征对应的字符作为与第一字符图像对应的字符结果。
具体的,在本发明的上述实现方式中,可以直接采用余弦距离作为分类器的分类依据,即计算输入字符图像的第二字符特征与样本特征均值的余弦相似度,相似度最高的那个样板特征对应的字符就可以作为最终的识别结果。不限制的是,在前述举例说明中采用余弦距离作为分类器的分类依据,在本发明实施例中还可以采用欧氏距离或者杰卡德距离作为分类器的分类依据,此处不做限定。
通过上述实施例对本发明的描述可知,首先对第一字符图像按照至少两个尺度分别进行缩放处理,得到至少两个尺度的第二字符图像,然后对于每一种尺度的第二字符图像都提取到至少两种不同类型的特征,得到各种尺度的第二字符图像对应的至少两种不同类型的第一字符特征,接下来对各种尺度的第二字符图像对应的至少两种不同类型的第一字符特征进行融合处理以及降维处理,得到第二字符特征,最后将第二字符特征输入分类器,识别出与第一字符图像对应的字符结果。本发明实施例中,第一字符图像作为需要进行字符识别的图像,被缩放为多种尺度的第二字符图像,每一种尺度的第二字符图像都提取到了多种不同类型的特征,得到至少两种不同类型的第一字符特征,由于进行特征提取的不再是唯一的一种尺度的字符图像,而是多种尺度的字符图像,因此可以解决被测试的字符图像在尺度不一致时存在鲁棒性偏低的问题,保证字符识别的稳定性。另外多种不同类型的第一字符特征经过融合处理和降维处理后得到第二字符特征,该第二字符特征是第一字符特征经过融合处理和降维处理,因此在第二字符特征经过特征融合和降维后的字符特征更为准确,将该第二字符特征输入分类器时可以提高识别速度以及分类器的准确率,从而可以提高字符识别的准确率。
为便于更好的理解和实施本发明实施例的上述方案,下面举例相应的应用场景来进行具体说明。接下来以本发明提供的字符识别方法应用于OCR为例进行说明,OCR作为模式识别的一个领域的一个分支,其整体过程也就是模式识别的过程,可以概括为以下几个步骤:
1、预处理:对包含文字的字符图像进行处理以便后续进行特征提取、学习。这个过程的主要目的是减少字符图像中的无用信息,以便方便后面的处理。
2、多个特征的提取、融合、降维:特征是用来识别文字的关键信息,每个不同的文字都需要通过对应的特征来和其他文字进行区分。对于汉字等结构较为复杂的字符,通常只提取一个特征是不能够准确的描述出字符,因此本发明实施例中,需要提取到多个类型的特征,并且通常提取的特征维度较高,为了提高识别速度以及分类器的准确率,通常需要进行融合处理以及特征降维处理。
3、分类器设计:对于给定的字符,通过第2步提取其特征,分类器根据特征来识别出到底该字符是哪个文字。
4、后续处理:对于分类器识别的结果,还可以做一定的优化处理。例如:加入语言模型,同形字替换等。
接下里对上述第2个步骤中多个特征的提取、融合、降维的具体实现方式进行详细说明。请参阅如图2所示,为本发明实施例提供的字符识别方法的一种应用场景示意图,图2中以实际样例“数”这个字符图像的识别为例子,详细说明本发明提供的字符识别方法。
对于给定的字符图像,首先做中心化处理,然后将中心化之后的图像进行多尺度缩放,对于每一个尺度下的字符图像,提取多种特征(梯度投影、HOG、灰度模板)融合并进行降维处理,最终得到该字符的特征表达,输入相应的分类器即可得到最终的识别结果。
S1对第一字符图像进行中心化处理
图2中,第一字符图像为扫描得到的原始字符图像,第一字符图像中的字符块可能没有处于图像的居中位置,需要先进行中心化处理,对于输入的单个字符图像,分别计算水平和垂直方向的灰度分布的重心位置以及字符图像的方差,并依次来调整字符中心以及字符框的尺度,同时将字符灰度值调整到统一水平,例如平均灰度128,方差64等。
S2、对第一字符图像进行多尺度分解
为了更好的描述字符特征,将中心化处理之后的单个字符进行不同的尺度缩放,如按照16×16、32×32、48×48、64×64进行缩放处理,如图2中所示,对于第一字符图像进行多尺度分解后,得到4个第二字符图像。
S3、得到4个第二字符图像,对多尺度的第二字符图像独立提取多维的特征。
图2中以分别提取梯度投影特征、HoG特征、灰度模板特征为例,每个尺度的第二字符图像都提取到如下的3种不同类型的第一字符特征:
梯度投影特征:X=(x1,x2,…,xm);
HoG特征:Y=(y1,y2,…,yn);
灰度模板特征:Z=(z1,z2,…,zk);
其中,m、n、k根据具体的特征提取方式来取值。
S4、特征融合
如图2所示,在每个尺度的第二字符图像都提取到梯度投影特征、HoG特征、灰度模板特征之后,采用如下方式进行特征融合:
F=X+Y+Z=(x1,x2,…,xm,y1,y2,…,yn,z1,z2,…,zk)。
其中,F表示特征融合后得到的字符特征,将提取的多种特征连接成一个向量特征F。每种尺度的第二字符图像都可以按照如上表达式表示将3种不同类型的第一字符特征融合在一起,得到融合后的3种不同类型的第一字符特征。
S5、特征降维
如图2所示,对于每种尺度下的融合后的第一字符特征进行降维处理,得到每种尺度下的第二字符特征,得到降维结果可以通过如下方式:
F=(f1,f2,…,fs);
其中,s的取值可以根据采用的具体降维方法来确定。
S6、输入分类器
如图2所示,将降维后得到的第二字符特征输入到分类器,得到最终的字符识别结果:“数”。例如,在每种尺度下的第二字符特征输入到分类器中进行识别后,都可以输出字符识别结果,再通过多种尺度下得到的字符识别结果进行赋值,最后可输出最终的字符识别结果。
需要说明的是,在前述实施例中,对于多尺度分解,可以采用不同分解方法和不同的等级,图2的示例将第一字符图像分解为4个不同尺度的第二字符图像。另外图2中以先执行步骤S4再执行步骤S5为例,但是在本发明的一些实施例中,可以先将各特征融合后再做降维,也可以先将各特征降维后再做融合,后者在降维过程中所消耗的时间会比前者更少一些。
通过前述对本发明的举例说明可知,通过多尺度分解,可以较好的解决了测试字符尺度不一致导致的算法识别鲁棒性偏低的问题,通过多特征融合和降维,这对于OCR提升识别准确度有较大的提升。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
为便于更好的实施本发明实施例的上述方案,下面还提供用于实施上述方案的相关装置。
请参阅图3-a所示,本发明实施例提供的一种字符识别装置300,可以包括:图像缩放模块301、多类型特征提取模块302、字符特征处理模块303、字符识别模块304,其中,
图像缩放模块301,用于对第一字符图像按照至少两个尺度分别进行缩放处理,得到至少两个尺度的第二字符图像;
多类型特征提取模块302,用于对于每一种尺度的第二字符图像都提取到至少两种不同类型的特征,得到各种尺度的第二字符图像对应的至少两种不同类型的第一字符特征;
字符特征处理模块303,用于对所述各种尺度的第二字符图像对应的至少两种不同类型的第一字符特征进行融合处理以及降维处理,得到各种尺度的第二字符图像第二字符特征;
字符识别模块304,用于将所述第二字符特征输入分类器,识别出与所述第一字符图像对应的字符结果。
在本发明的一些实施例中,请参阅如图3-b所示,所述字符识别装置300还包括:
图像中心化处理模块305,用于所述图像缩放模301对第一字符图像按照至少两个尺度分别进行缩放处理之前,对所述第一字符图像进行中心化处理,得到字符块居中的第一字符图像。
在本发明的一些实施例中,请参阅如图3-c示,所述图像中心化处理模块305,包括:
第一计算单元3051,用于计算所述第一字符图像在水平方向和垂直方向上的灰度分布的重心位置以及所述第一字符图像的方差;
图像调整单元3052,用于根据所述第一字符图像在水平方向和垂直方向上的灰度分布的重心位置以及所述第一字符图像的方差调整所述第一字符图像,使所述第一字符图像中的字符块在调整后的第一字符图像上处于居中的位置。
在本发明的一些实施例中,所述多类型特征提取模块302,具体用于对每一种尺度的第二字符图像都提取到预置的多种类型中的至少两种类型的特征,所述预置的多种类型包括:梯度投影特征、梯度方向直方图HOG特征、灰度模板特征、Gabor特征、局部二值模式LBP特征、小波变换特征。
在本发明的一些实施例中,所述字符特征处理模块303,具体用于对所述各种尺度的第二字符图像对应的至少两种不同类型的第一字符特征先进行融合处理,然后对融合后的结果再进行降维处理;或,对所述各种尺度的第二字符图像对应的至少两种不同类型的第一字符特征先进行降维处理,然后对降维后的结果再进行融合处理。
在本发明的一些实施例中,请参阅如图3-d示,所述字符识别模块304,包括:
第二计算单元3041,用于计算所述第二字符特征与样本特征均值的余弦相似度;
字符选择单元3042,用于选择余弦相似度最高的样本特征对应的字符作为与所述第一字符图像对应的字符结果。
通过以上对本发明实施例的描述可知,首先对第一字符图像按照至少两个尺度分别进行缩放处理,得到至少两个尺度的第二字符图像,然后对于每一种尺度的第二字符图像都提取到至少两种不同类型的特征,得到各种尺度的第二字符图像对应的至少两种不同类型的第一字符特征,接下来对各种尺度的第二字符图像对应的至少两种不同类型的第一字符特征进行融合处理以及降维处理,得到第二字符特征,最后将第二字符特征输入分类器,识别出与第一字符图像对应的字符结果。本发明实施例中,第一字符图像作为需要进行字符识别的图像,被缩放为多种尺度的第二字符图像,每一种尺度的第二字符图像都提取到了多种不同类型的特征,得到至少两种不同类型的第一字符特征,由于进行特征提取的不再是唯一的一种尺度的字符图像,而是多种尺度的字符图像,因此可以解决被测试的字符图像在尺度不一致时存在鲁棒性偏低的问题,保证字符识别的稳定性。另外多种不同类型的第一字符特征经过融合处理和降维处理后得到第二字符特征,该第二字符特征是第一字符特征经过融合处理和降维处理,因此在第二字符特征经过特征融合和降维后的字符特征更为准确,将该第二字符特征输入分类器时可以提高识别速度以及分类器的准确率,从而可以提高字符识别的准确率。
图4是本发明实施例提供的一种服务器结构示意图,该服务器400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processingunits,CPU)422(例如,一个或一个以上处理器)和存储器432,一个或一个以上存储应用程序442或数据444的存储介质430(例如一个或一个以上海量存储设备)。其中,存储器432和存储介质430可以是短暂存储或持久存储。存储在存储介质430的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器422可以设置为与存储介质430通信,在服务器400上执行存储介质430中的一系列指令操作。
服务器400还可以包括一个或一个以上电源426,一个或一个以上有线或无线网络接口450,一个或一个以上输入输出接口458,和/或,一个或一个以上操作系统441,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由服务器所执行的步骤可以基于该图3所示的字符识别装置的结构。
通过以上对本发明实施例的描述可知,首先对第一字符图像按照至少两个尺度分别进行缩放处理,得到至少两个尺度的第二字符图像,然后对于每一种尺度的第二字符图像都提取到至少两种不同类型的特征,得到各种尺度的第二字符图像对应的至少两种不同类型的第一字符特征,接下来对各种尺度的第二字符图像对应的至少两种不同类型的第一字符特征进行融合处理以及降维处理,得到第二字符特征,最后将第二字符特征输入分类器,识别出与第一字符图像对应的字符结果。本发明实施例中,第一字符图像作为需要进行字符识别的图像,被缩放为多种尺度的第二字符图像,每一种尺度的第二字符图像都提取到了多种不同类型的特征,得到至少两种不同类型的第一字符特征,由于进行特征提取的不再是唯一的一种尺度的字符图像,而是多种尺度的字符图像,因此可以解决被测试的字符图像在尺度不一致时存在鲁棒性偏低的问题,保证字符识别的稳定性。另外多种不同类型的第一字符特征经过融合处理和降维处理后得到第二字符特征,该第二字符特征是第一字符特征经过融合处理和降维处理,因此在第二字符特征经过特征融合和降维后的字符特征更为准确,将该第二字符特征输入分类器时可以提高识别速度以及分类器的准确率,从而可以提高字符识别的准确率。
另外需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现,当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下,凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现,而且,用来实现同一功能的具体硬件结构也可以是多种多样的,例如模拟电路、数字电路或专用电路等。但是,对本发明而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在可读取的存储介质中,如计算机的软盘,U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
综上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照上述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对上述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (14)

1.一种字符识别方法,其特征在于,包括:
对第一字符图像按照至少两个尺度分别进行缩放处理,得到至少两个尺度的第二字符图像;所述第二字符图像与所述第一字符图像的图像内容相同;
对于每一种尺度的第二字符图像都提取到至少两种不同类型的特征,得到各种尺度的第二字符图像对应的至少两种不同类型的第一字符特征;
对所述各种尺度的第二字符图像对应的至少两种不同类型的第一字符特征进行融合处理以及降维处理,得到各种尺度的第二字符图像对应的第二字符特征;
将所述第二字符特征输入分类器,识别出与所述第一字符图像对应的字符结果。
2.根据权利要求1所述的方法,其特征在于,所述对第一字符图像按照至少两个尺度分别进行缩放处理之前,所述方法还包括:
对所述第一字符图像进行中心化处理,得到字符块居中的第一字符图像。
3.根据权利要求2所述的方法,其特征在于,所述对所述第一字符图像进行中心化处理,包括:
计算所述第一字符图像在水平方向和垂直方向上的灰度分布的重心位置以及所述第一字符图像的方差;
根据所述第一字符图像在水平方向和垂直方向上的灰度分布的重心位置以及所述第一字符图像的方差调整所述第一字符图像,使所述第一字符图像中的字符块在调整后的第一字符图像上处于居中的位置。
4.根据权利要求1所述的方法,其特征在于,所述对于每一种尺度的第二字符图像都提取到至少两种不同类型的特征,包括:
对每一种尺度的第二字符图像都提取到预置的多种类型中的至少两种类型的特征,所述预置的多种类型包括:梯度投影特征、梯度方向直方图HOG特征、灰度模板特征、Gabor特征、局部二值模式LBP特征、小波变换特征。
5.根据权利要求1所述的方法,其特征在于,所述对所述各种尺度的第二字符图像对应的至少两种不同类型的第一字符特征进行融合处理以及降维处理,包括:
对所述各种尺度的第二字符图像对应的至少两种不同类型的第一字符特征先进行融合处理,然后对融合后的结果再进行降维处理;
或,对所述各种尺度的第二字符图像对应的至少两种不同类型的第一字符特征先进行降维处理,然后对降维后的结果再进行融合处理。
6.根据权利要求1所述的方法,其特征在于,所述将所述第二字符特征输入分类器,识别出与所述第一字符图像对应的字符结果,包括:
计算所述第二字符特征与样本特征均值的余弦相似度;
选择余弦相似度最高的样本特征对应的字符作为与所述第一字符图像对应的字符结果。
7.一种字符识别装置,其特征在于,包括:
图像缩放模块,用于对第一字符图像按照至少两个尺度分别进行缩放处理,得到至少两个尺度的第二字符图像;所述第二字符图像与所述第一字符图像的图像内容相同;
多类型特征提取模块,用于对于每一种尺度的第二字符图像都提取到至少两种不同类型的特征,得到各种尺度的第二字符图像对应的至少两种不同类型的第一字符特征;
字符特征处理模块,用于对所述各种尺度的第二字符图像对应的至少两种不同类型的第一字符特征进行融合处理以及降维处理,得到各种尺度的第二字符图像对应的第二字符特征;
字符识别模块,用于将所述第二字符特征输入分类器,识别出与所述第一字符图像对应的字符结果。
8.根据权利要求7所述的装置,其特征在于,所述字符识别装置还包括:
图像中心化处理模块,用于所述图像缩放模块对第一字符图像按照至少两个尺度分别进行缩放处理之前,对所述第一字符图像进行中心化处理,得到字符块居中的第一字符图像。
9.根据权利要求8所述的装置,其特征在于,所述图像中心化处理模块,包括:
第一计算单元,用于计算所述第一字符图像在水平方向和垂直方向上的灰度分布的重心位置以及所述第一字符图像的方差;
图像调整单元,用于根据所述第一字符图像在水平方向和垂直方向上的灰度分布的重心位置以及所述第一字符图像的方差调整所述第一字符图像,使所述第一字符图像中的字符块在调整后的第一字符图像上处于居中的位置。
10.根据权利要求7所述的装置,其特征在于,所述多类型特征提取模块,具体用于对每一种尺度的第二字符图像都提取到预置的多种类型中的至少两种类型的特征,所述预置的多种类型包括:梯度投影特征、梯度方向直方图HOG特征、灰度模板特征、Gabor特征、局部二值模式LBP特征、小波变换特征。
11.根据权利要求7所述的装置,其特征在于,所述字符特征处理模块,具体用于对所述各种尺度的第二字符图像对应的至少两种不同类型的第一字符特征先进行融合处理,然后对融合后的结果再进行降维处理;或,对所述各种尺度的第二字符图像对应的至少两种不同类型的第一字符特征先进行降维处理,然后对降维后的结果再进行融合处理。
12.根据权利要求7所述的装置,其特征在于,所述字符识别模块,包括:
第二计算单元,用于计算所述第二字符特征与样本特征均值的余弦相似度;
字符选择单元,用于选择余弦相似度最高的样本特征对应的字符作为与所述第一字符图像对应的字符结果。
13.一种服务器,其特征在于,包括:存储器和中央处理器;
所述存储器用于存储计算机操作指令;
所述中央处理器用于执行所述存储器中存储的计算机操作指令;
所述计算机操作指令用于执行权利要求1-6任一项所述的字符识别方法。
14.一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机操作指令,所述计算机操作指令用于执行权利要求1-6任一项所述的字符识别方法。
CN201510467750.4A 2015-07-31 2015-07-31 一种字符识别方法和装置 Active CN106709490B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510467750.4A CN106709490B (zh) 2015-07-31 2015-07-31 一种字符识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510467750.4A CN106709490B (zh) 2015-07-31 2015-07-31 一种字符识别方法和装置

Publications (2)

Publication Number Publication Date
CN106709490A CN106709490A (zh) 2017-05-24
CN106709490B true CN106709490B (zh) 2020-02-07

Family

ID=58923582

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510467750.4A Active CN106709490B (zh) 2015-07-31 2015-07-31 一种字符识别方法和装置

Country Status (1)

Country Link
CN (1) CN106709490B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107563386A (zh) * 2017-09-04 2018-01-09 广州视源电子科技股份有限公司 元器件验证方法、装置、设备与计算机可读存储介质
CN110135413B (zh) * 2019-05-08 2021-08-17 达闼机器人有限公司 一种字符识别图像的生成方法、电子设备和可读存储介质
CN110377914B (zh) * 2019-07-25 2023-01-06 腾讯科技(深圳)有限公司 字符识别方法、装置及存储介质
CN111027550B (zh) * 2019-12-17 2023-09-08 新方正控股发展有限责任公司 字库视觉重心调整的方法和装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7724957B2 (en) * 2006-07-31 2010-05-25 Microsoft Corporation Two tiered text recognition
CN101329734B (zh) * 2008-07-31 2010-08-25 重庆大学 基于k-l变换和ls-svm的车牌字符识别方法
CN101576956B (zh) * 2009-05-11 2011-08-31 天津普达软件技术有限公司 基于机器视觉的在线字符检测方法和系统
CN102081731B (zh) * 2009-11-26 2013-01-23 中国移动通信集团广东有限公司 一种从图像中提取文本的方法和装置
CN101859382B (zh) * 2010-06-03 2013-07-31 复旦大学 一种基于最大稳定极值区域的车牌检测与识别的方法
CN102063619B (zh) * 2010-11-30 2013-03-13 汉王科技股份有限公司 文字行提取方法和装置
CN102542303A (zh) * 2010-12-24 2012-07-04 富士通株式会社 生成用于检测图像中的特定对象的分类器的装置和方法
CN103020647A (zh) * 2013-01-08 2013-04-03 西安电子科技大学 基于级联的sift特征和稀疏编码的图像分类方法
CN103544504B (zh) * 2013-11-18 2017-02-15 康江科技(北京)有限责任公司 一种基于多尺度图匹配核的场景字符识别方法
CN103971097B (zh) * 2014-05-15 2015-05-13 武汉睿智视讯科技有限公司 一种基于多尺度笔画模型的车牌识别方法与系统
CN104778470B (zh) * 2015-03-12 2018-07-17 浙江大学 基于组件树和霍夫森林的文字检测和识别方法

Also Published As

Publication number Publication date
CN106709490A (zh) 2017-05-24

Similar Documents

Publication Publication Date Title
CN107944020B (zh) 人脸图像查找方法及装置、计算机装置和存储介质
CN110020592B (zh) 物体检测模型训练方法、装置、计算机设备及存储介质
WO2018108129A1 (zh) 用于识别物体类别的方法及装置、电子设备
Ye et al. Real-time no-reference image quality assessment based on filter learning
WO2016138838A1 (zh) 基于投影极速学习机的唇语识别方法和装置
Türkyılmaz et al. License plate recognition system using artificial neural networks
CN110598019B (zh) 重复图像识别方法及装置
CN107967461B (zh) Svm差分模型训练及人脸验证方法、装置、终端及存储介质
CN106709490B (zh) 一种字符识别方法和装置
CN114155244B (zh) 缺陷检测方法、装置、设备及存储介质
WO2022247005A1 (zh) 图像中目标物识别方法、装置、电子设备及存储介质
CN110751069A (zh) 一种人脸活体检测方法及装置
CN112132812A (zh) 证件校验方法、装置、电子设备及介质
CN116168351A (zh) 电力设备巡检方法及装置
JP7320570B2 (ja) 画像を処理するための方法、装置、機器、媒体およびプログラム
CN112200789A (zh) 一种图像识别的方法及装置、电子设备和存储介质
CN116935368A (zh) 深度学习模型训练方法、文本行检测方法、装置及设备
JP6405603B2 (ja) 情報処理装置、情報処理システム及びプログラム
CN113177602B (zh) 图像分类方法、装置、电子设备和存储介质
CN113505716B (zh) 静脉识别模型的训练方法、静脉图像的识别方法及装置
CN113111879B (zh) 一种细胞检测的方法和系统
CN115374517A (zh) 布线软件的测试方法、装置、电子设备及存储介质
CN114783042A (zh) 基于多移动目标的人脸识别方法、装置、设备及存储介质
CN114187487A (zh) 一种大规模点云数据的处理方法、装置、设备及介质
CN114358279A (zh) 图像识别网络模型剪枝方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant