CN105335689A

CN105335689A - 字符识别方法和装置

Info

Publication number: CN105335689A
Application number: CN201410384373.3A
Authority: CN
Inventors: 张宇
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2014-08-06
Filing date: 2014-08-06
Publication date: 2016-02-17

Abstract

本申请公开了一种字符识别方法和装置，其中，字符识别方法包括：获得所有字符的训练样本，对每个训练样本进行滤波处理，获得每个训练样本的特征信息；以及获得待识别的字符，并将字符与特征信息进行匹配，以完成对字符的识别。本申请实施例的字符识别方法和装置，通过对所有字符的训练样本进行滤波处理，获得每个训练样本的特征信息，然后将待识别字符与特征信息进行匹配，完成对字符的识别，可以显著提升字符识别的准确率。

Description

字符识别方法和装置

技术领域

本申请涉及文字识别技术领域，尤其涉及一种字符识别方法和装置。

背景技术

OCR(OpticalCharacterRecognition，光学字符识别)是指电子设备(例如：扫描仪)检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成文字的过程。

目前的字符识别系统大多基于二值化的图片提取特征进行识别。其中，对汉字进行识别的方法可包括结构模式识别方法、统计模式识别方法以及两者结合的方法。

结构模式识别是早期汉字识别研究的主要方法，直接从字符的轮廓或骨架上提取的字符像素分布特征，如笔画、圈、端点、节点、弧、突起、凹陷等多个基元组合，再用结构方法描述基元组合所代表的结构和关系，通常提取笔段或基本笔画作为基元，由基元组合及其相互关系描述汉字，最后利用形式语言及自动机理论进行识别。

统计模式识别方法是用概率统计模型提取待识别汉字的特征向量，然后根据决策函数进行分类，判断待识别汉字的特征向量属于的类别。具体地，统计模式识别的主流特征可包括汉字外围及网格特征、方向线素特征、梯度直方图特征等。

但是，在实现本申请的过程中发明人发现现有技术至少存在以下问题：结构模式识别方法抗干扰能力差，受噪点、断裂、扭曲的干扰影响严重，导致识别准确率低。统计模式识别方法对于相似字的区分能力差，需要结合多种特征进行识别，且无法保证字符切割的准确度，导致识别准确率低。

发明内容

本申请旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本申请的第一个目的在于提出一种字符识别方法，该方法可以显著提升字符识别的准确率。

本申请的第二个目的在于提出一种字符识别装置。

为了实现上述目的，本申请第一方面实施例的字符识别方法，包括：获得所有字符的训练样本，对每个训练样本进行滤波处理，获得每个训练样本的特征信息；以及获得待识别的字符，并将所述字符与所述特征信息进行匹配，以完成对所述字符的识别。

本申请实施例的字符识别方法，通过对所有字符的训练样本进行滤波处理，获得每个训练样本的特征信息，然后将待识别字符与特征信息进行匹配，完成对字符的识别，可以显著提升字符识别的准确率。

为了实现上述目的，本申请第二方面实施例的字符识别装置，包括：处理模块，用于获得所有字符的训练样本，对每个训练样本进行滤波处理，获得每个训练样本的特征信息；以及识别模块，用于获得待识别的字符，并将所述字符与所述特征信息进行匹配，以完成对所述字符的识别。

本申请实施例的字符识别装置，通过对所有字符的训练样本进行滤波处理，获得每个训练样本的特征信息，然后将待识别字符与特征信息进行匹配，完成对字符的识别，可以显著提升字符识别的准确率。

附图说明

图1是根据本申请一个实施例的字符识别方法的流程图。

图2是根据本申请一个实施例的获得训练样本的特征信息的流程示意图。

图3是根据本申请一个实施例的字符识别装置的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

下面参考附图描述本申请实施例的字符识别方法和装置。

图1是根据本申请一个实施例的字符识别方法的流程图。

如图1所示，字符识别方法包括：

S101，获得所有字符的训练样本，对每个训练样本进行滤波处理，获得每个训练样本的特征信息。

在本申请的实施例中，首先可获得所有字符的训练样本。其中，字符可包括文字、字母、数字和各种符号等。由于字符的数量巨大，尤其是汉字(6000多个)，且汉字还有不同的字体如：宋体、楷体等，对每个字符需要生成至少几百个训练样本，工作量大，人工成本高。因此，可通过模拟的方式生成训练样本，可有效地减少工作量，降低人工成本。具体地，可生成每个文字每种字体的二值化模板，对二值化模板进行变换(如：旋转变换等)，并将变换后的文字和获得的背景图片进行融合，以模拟出所有字符的训练样本。

在获得所有字符的训练样本后，可对每个训练样本进行滤波处理。具体地，如图2所示，可针对每个训练样本，使用至少一个滤波器对当前训练样本进行滤波，并对滤波结果进行正负区分。例如，图2中使用四个滤波器，且具有不同的滤波器参数。其中，滤波器可包括Gabor滤波器或其他滤波器。Gabor变换属于加窗傅立叶变换，Gabor滤波器可以在频域不同尺度、不同方向上提取相关的特征。

Gabor滤波器的冲激响应函数可采用如下公式所示：

其中，R₁＝xcosφ+ysinφ，R₂＝-xsinφ+ycosφ，λ为波长，为滤波器的方向，σ为高斯函数的标准差，σ_x和σ_y分别表示x和y方向的标准差，x和y为横纵坐标。滤波器的另一个参数为滤波器的尺寸也就是确定x和y范围，根据这些参数可以确定出一个特定的滤波器系数矩阵h。

对于每个训练样本与每一组滤波器系数进行Gabor滤波，滤波结果只需要选取实数部分，然后对于实数部分的滤波结果进行正负区分，即每个滤波结果矩阵最终得到两个矩阵，一个只包含正数部分，相应的负数位置用零填充，另一个则只包含负数部分，其余位置用零填充。应当理解的是，矩阵即区分后的数据。如果不采用正负区分的方法，则可能导致正数部分与负数部分相互抵消，导致识别的准确率降低。因此，采用正负区分的方法可有效地提高识别的准确率。

在对滤波结果进行正负区分之后，还可分别对区分后的数据进行模糊滤波、采样、归一化处理等。此处可以只进行模糊滤波，也可以只进行采样，同样可以只进行归一化处理，当然也可以结合上述多种方式对区分后的数据进行处理。具体地，可分别对正负两个矩阵进行模糊滤波，此处可看作一个低通滤波器，由于滤波后的每个像素位置结果是综合原始矩阵相应位置及其周边位置的信息，因此可有效地减少偏移、噪声等干扰。模糊滤波后，可获得两个与原始图片大小一样的矩阵。然后通过采样的方式，去掉模糊滤波产生的冗余的相邻位置信息，降低维数。其中，采样的间隔可通过实验获得。采样后，可对每个采样结果进行归一化处理。归一化处理可使正负信息以及不同参数的滤波器滤波结果融合保持尺度统一。

在对区分后的数据进行模糊滤波、采样和归一化处理之后，可获得正矩阵对应的第一结果和负矩阵对应的第二结果，并将获得的与滤波器对应的第一结果和第二结果进行拼接，生成当前训练样本的特征信息。例如，假设使用一个滤波器时，获得的滤波结果可为1*2k的数组；则使用四个滤波器滤波后，可将获得的滤波结果拼接为1*8k的数组。通过上述方法，可有效地降低计算量和计算复杂度。如果生成的特征信息的维数依然很高，信息存在冗余，则可进一步进行降维。例如采用无监督的PCA(PrincipalComponentAnalysis，主成分分析)或有监督的LDA(LinearDiscriminantAnalysis，线性判别式分析)，降低维度，可有效地降低计算量。

目前，现有的基于训练样本的特征信息的字符识别方法，其重点通常在于对特征信息的参数进行优化，却忽略了获取训练样本的特征信息的过程。因此，在实际应用中，对字符进行切割的准确度低，需要对训练样本进行滤波、正负区分、归一化处理等，增强鲁棒性，提升实际应用中识别的准确率。

S102，获得待识别的字符，并将字符与特征信息进行匹配，以完成对字符的识别。

在获得每个训练样本的特征信息之后，可获得待识别的字符。具体地，可获得待识别的图片，对识别的图片进行分割处理，获得待识别的字符。例如：可通过扫描获得票据“麦当劳餐厅消费三十元”的待识别的图片，对该图片进行分割处理，获得待识别的字符。

然后获得待识别字符的特征信息，基于分类模型对待识别字符的特征信息进行分类处理，初步获得待识别字符所属的类别。

在此之前，可基于预设标准从所有字符的所有训练样本中选择部分训练样本，例如可以采用K均值或K中心点等聚类算法对选择出的训练样本进行聚类处理，获得分类模型，例如：形近字模型，其中，“大、天、犬、太”即为通过形近字模型划分出的一个类别，此处称为类别1。

在获得分类模型之后，可基于分类模型对待识别字符的特征信息进行分类处理，初步获得待识别字符所属的类别。假设，待识别字符为“太”，可初步获得“太”所属的类别为类别1。最后，将字符的特征信息与初步获得的类别中包含的样本的特征信息进行比对，以获得字符最终所属的类别。其中，字符所属的类别中包含的样本的特征信息是基于预设标准，如欧式距离、余弦距离等获得的，可保证字符所属类别的正确性。

例如：将待识别字符“太”的特征信息与类1中的代表样本“犬”、“天”等的特征信息进行比对，最终完成对“太”字的识别。

以上通过对同一特征信息完成由粗到细的分类的方法，可有效提高识别的效率。

为了实现上述实施例，本申请还提出一种字符识别装置。

图3是根据本申请一个实施例的字符识别装置的结构示意图。

如图3所示，字符识别装置包括：处理模块110和识别模块120。

处理模块110用于获得所有字符的训练样本，对每个训练样本进行滤波处理，获得每个训练样本的特征信息。

在本申请的实施例中，处理模块110可获得所有字符的训练样本。其中，字符可包括文字、字母、数字和各种符号等。由于字符的数量巨大，尤其是汉字(6000多个)，且汉字还有不同的字体如：宋体、楷体等，对每个字符需要生成至少几百个训练样本，工作量大，人工成本高。因此，可通过模拟的方式生成训练样本，可有效地减少工作量，降低人工成本。具体地，处理模块110可生成每个文字每种字体的二值化模板，对二值化模板进行变换(如：旋转变换等)，并将变换后的文字和获得的背景图片进行融合，以模拟出所有字符的训练样本。

在获得所有字符的训练样本后，处理模块110可对每个训练样本进行滤波处理。具体地，如图2所示，处理模块110可针对每个训练样本，使用至少一个滤波器对当前训练样本进行滤波，并对滤波结果进行正负区分。例如，图2中使用四个滤波器，且具有不同的滤波器参数。其中，滤波器可包括Gabor滤波器或其他滤波器。Gabor变换属于加窗傅立叶变换，Gabor滤波器可以在频域不同尺度、不同方向上提取相关的特征。

Gabor滤波器的冲激响应函数可采用如下公式所示：

h (x, y, λ, φ, σ_{x}, σ_{y}) = \exp {- \frac{1}{2} [\frac{R_{1}^{2}}{σ_{x}^{2}} + \frac{R_{2}^{2}}{σ_{y}^{2}}]} \cdot \exp [i \cdot \frac{2 π R_{1}}{λ}]

在对滤波结果进行正负区分之后，处理模块110还可分别对区分后的数据进行模糊滤波、采样、归一化处理等。此处可以只进行模糊滤波，也可以只进行采样，同样可以只进行归一化处理，当然也可以结合上述多种方式对区分后的数据进行处理。具体地，处理模块110可分别对正负两个矩阵进行模糊滤波，此处可看作一个低通滤波器，由于滤波后的每个像素位置结果是综合原始矩阵相应位置及其周边位置的信息，因此可有效地减少偏移、噪声等干扰。模糊滤波后，可获得两个与原始图片大小一样的矩阵。然后通过采样的方式，去掉模糊滤波产生的冗余的相邻位置信息，降低维数。其中，采样的间隔可通过实验获得。采样后，可对每个采样结果进行归一化处理。归一化处理可使正负信息以及不同参数的滤波器滤波结果融合保持尺度统一。

在对区分后的数据进行模糊滤波、采样和归一化处理之后，处理模块110可获得正矩阵对应的第一结果和负矩阵对应的第二结果，并将获得的与滤波器对应的第一结果和第二结果进行拼接，生成当前训练样本的特征信息。例如，假设使用一个滤波器时，获得的滤波结果可为1*2k的数组；则使用四个滤波器滤波后，可将获得的滤波结果拼接为1*8k的数组。通过上述方法，可有效地降低计算量和计算复杂度。如果生成的特征信息的维数依然很高，信息存在冗余，则可进一步进行降维。例如采用无监督的PCA(PrincipalComponentAnalysis，主成分分析)或有监督的LDA(LinearDiscriminantAnalysis，线性判别式分析)，降低维度，可有效地降低计算量。

识别模块120用于获得待识别的字符，并将字符与特征信息进行匹配，以完成对字符的识别。

在处理模块110获得每个训练样本的特征信息之后，识别模块120可获得待识别的字符。具体地，识别模块120可获得待识别的图片，对识别的图片进行分割处理，获得待识别的字符。例如：可通过扫描获得票据“麦当劳餐厅消费三十元”的待识别的图片，对该图片进行分割处理，获得待识别的字符。

然后，识别模块120获得待识别字符的特征信息，基于分类模型对待识别字符的特征信息进行分类处理，初步获得待识别字符所属的类别。

在此之前，识别模块120可基于预设标准从所有字符的所有训练样本中选择部分训练样本，例如可以采用K均值或K中心点等聚类算法对选择出的训练样本进行聚类处理，获得分类模型，例如：形近字模型，其中，“大、天、犬、太”即为通过形近字模型划分出的一个类别，此处称为类别1。

在获得分类模型之后，识别模块120可基于分类模型对待识别字符的特征信息进行分类处理，初步获得待识别字符所属的类别。假设待识别字符为“太”，可初步获得“太”所属的类别为类别1。

最后，识别模块120可将字符的特征信息与初步获得的类别中包含的样本的特征信息进行比对，以获得字符最终所属的类别。其中，字符所属的类别中包含的样本的特征信息是基于预设标准，如欧式距离、余弦距离等获得的，可保证字符所属类别的正确性。

例如：将待识别字符“太”的特征信息与类1中的代表样本“犬”、“天”等的特征信息进行比对，最终完成对“太”字的识别。本申请实施例的字符识别装置，通过对所有字符的训练样本进行滤波处理，获得每个训练样本的特征信息，以此确定出所有字符对应的类别，然后将待识别字符与所有字符的训练样本对应的类别进行匹配，完成对字符的识别，可以显著提升字符识别的准确率。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种字符识别方法，其特征在于，包括：

获得所有字符的训练样本，对每个训练样本进行滤波处理，获得每个训练样本的特征信息；以及

获得待识别的字符，并将所述字符与所述特征信息进行匹配，以完成对所述字符的识别。

2.根据权利要求1所述的方法，其特征在于，所述对每个训练样本进行滤波处理，获得每个训练样本的特征信息，包括：

针对每个训练样本，使用至少一个滤波器对当前训练样本进行滤波，并对滤波结果进行正负区分，获得第一结果和第二结果，并将获得的与所述滤波器对应的所述第一结果和所述第二结果进行拼接，生成当前训练样本的特征信息；其中，所述滤波器包括Gabor滤波器。

3.根据权利要求2所述的方法，其特征在于，在所述对滤波结果进行正负区分之后，所述获得第一结果和第二结果之前，还包括：

分别对区分后的数据进行模糊滤波、采样和归一化处理。

4.根据权利要求1-3任一权利要求所述的方法，其特征在于，所述将所述字符与所述特征信息进行匹配，包括：

基于预设标准从所有字符的所有训练样本中选择部分训练样本，采用聚类算法对选择出的训练样本进行聚类处理，获得分类模型；

获得所述字符的特征信息，基于所述分类模型对所述字符的特征信息进行分类处理，初步获得所述字符所属的类别；以及

将所述字符的特征信息与初步获得的类别中包含的样本的特征信息进行比对，以获得所述字符最终所属的类别。

5.根据权利要求4所述的方法，其特征在于，所述预设标准包括距离度量标准；所述聚类算法包括K均值聚类算法或K中心点聚类算法。

6.根据权利要求1所述的方法，其特征在于，所述获得所有字符的训练样本，包括：

生成每个文字每种字体的二值化模板，对所述二值化模板进行变换，并将变换后的文字和获得的背景图片进行融合，以模拟出所有字符的训练样本。

7.根据权利要求1所述的方法，其特征在于，所述获得待识别的字符，包括：

获得待识别的图片，对所述识别的图片进行分割处理，获得所述待识别的字符。

8.一种字符识别装置，其特征在于，包括：

处理模块，用于获得所有字符的训练样本，对每个训练样本进行滤波处理，获得每个训练样本的特征信息；以及

识别模块，用于获得待识别的字符，并将所述字符与所述特征信息进行匹配，以完成对所述字符的识别。

9.根据权利要求8所述的装置，其特征在于，所述处理模块，具体用于：

10.根据权利要求9所述的装置，其特征在于，所述处理模块，还用于：

在所述对滤波结果进行正负区分之后，所述获得第一结果和第二结果之前，分别对区分后的数据进行模糊滤波、采样和归一化处理。

11.根据权利要求8-10任一权利要求所述的装置，其特征在于，所述识别模块，具体用于：

12.根据权利要求11所述的装置，其特征在于，所述预设标准包括距离度量标准；所述聚类算法包括K均值聚类算法或K中心点聚类算法。

13.根据权利要求8所述的装置，其特征在于，所述处理模块，具体用于：

14.根据权利要求8所述的装置，其特征在于，所述识别模块，具体用于：