CN105512657A

CN105512657A - 字符识别方法和设备

Info

Publication number: CN105512657A
Application number: CN201510516216.8A
Authority: CN
Inventors: 姚聪; 周舒畅; 周昕宇; 吴育昕; 印奇
Original assignee: Beijing Megvii Technology Co Ltd; Beijing Aperture Science and Technology Ltd
Current assignee: Beijing Megvii Technology Co Ltd; Beijing Aperture Science and Technology Ltd
Priority date: 2015-08-20
Filing date: 2015-08-20
Publication date: 2016-04-20
Anticipated expiration: 2035-08-20
Also published as: CN105512657B

Abstract

本发明公开了一种字符识别方法和设备。该字符识别方法包括：利用回归模型确定待识别图像的待识别字符区域；以及在待识别字符区域中进行字符识别。回归模型根据第一样本图像的字符区域获得。第一样本图像包括与待识别图像J相同类型的图像。根据本发明提供的字符识别方法和设备，由于利用根据样本图像获得的回归模型来确定待识别字符区域，因此对字符的定位具有精确度高、适应性强的特点，可以极大提高字符识别的精度和可靠性。

Description

字符识别方法和设备

技术领域

本发明涉及模式识别领域，具体涉及一种字符识别方法和设备。

背景技术

在许多领域，均需要进行字符识别。下面以银行卡卡号识别为例进行说明。在金融、财务、保险和电商等行业的业务中，经常涉及到银行卡(包括借记卡、信用卡等)信息，而银行卡卡号是其中最关键的信息。大多数情况下，当使用银行卡卡号时，需要用户人工识别该银行卡卡号并将其输入相关设备，这一过程费时且容易出错。目前，出现了一些可以从银行卡图像中自动识别银行卡卡号的系统。这些系统可以通过智能手机、平板电脑等设备上的摄像头获取银行卡图像，并自动定位和识别银行卡卡号。参见图1a至1d，在其中示出了银行卡图像的示例。类似上述自动识别银行卡卡号的系统的字符识别系统在识别精度和适应性两方面存在不足之处。

发明内容

鉴于上述问题，提出了本发明以便提供一种至少部分地解决上述问题的字符识别方法和设备。

根据本发明一个方面，提供了一种字符识别方法。该字符识别方法包括以下步骤。利用回归模型确定待识别图像的待识别字符区域。在待识别字符区域中进行字符识别。回归模型根据第一样本图像的字符区域获得。第一样本图像包括与待识别图像相同类型的图像。

根据本发明另一个方面，提供了一种字符识别设备。该字符识别设备包括区域确定装置和字符识别装置。区域确定装置用于利用回归模型确定待识别图像的待识别字符区域。字符识别装置用于在待识别字符区域中进行字符识别。回归模型根据第一样本图像的字符区域获得。第一样本图像包括与待识别图像相同类型的图像。

根据本发明提供的字符识别方法和设备，由于利用根据样本图像获得的回归模型来确定待识别字符区域，因此对字符的定位具有精确度高、适应性强的特点，从而可以极大提高字符识别的精度和可靠性。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1a至1d示出银行卡图像的示例；

图2示出根据本发明一个实施例的字符识别方法的流程图；

图3示出银行卡图像的另一示例；

图4示出银行卡的字符区域的示例；

图5示出根据本发明一个实施例的回归模型的训练方法的流程图；

图6示出根据本发明一个实施例的确定待识别图像的待识别字符区域的步骤的流程图；

图7示出根据本发明一个实施例的在待识别字符区域中进行字符识别的步骤的流程图；

图8示出根据本发明一个实施例的提取子图像的示意图；

图9示出银行卡图像的又一示例；

图10示出根据本发明一个实施例的对待识别字符区域进行水平校正的示意图；以及

图11示出根据本发明一个实施例的字符识别设备的示意性框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

根据本发明实施例的字符识别方法和设备可以应用于多种字符识别领域，例如可以对银行卡上的银行卡号、身份证上的身份证号、工作证上的工号、营业执照上的注册号等各种号码进行识别。作为示例，下文以银行卡卡号识别为例对本发明提供的字符识别方法和设备进行描述，这不应构成对本发明的限制。

为了有效识别图像中的字符，本发明提供了一种字符识别方法。图2示出了根据本发明一个实施例的字符识别方法200的流程图。如图2所示，该字符识别方法200包括步骤S210和步骤S220。

在步骤S210，利用回归模型确定待识别图像J的待识别字符区域。该回归模型根据第一样本图像的字符区域获得。字符区域是指目标字符存在的区域。目标字符是期望识别的字符，例如银行卡的卡号。待识别字符区域是指待识别图像J中的待识别字符区域。参见图3，示出了银行卡图像的另一示例。在图3所示的银行卡图像中，由方框301包围的区域为待识别字符区域，也就是银行卡图像中的卡号区域。第一样本图像包括与待识别图像J相同类型的图像。相同类型的图像是指两图像来源于包括位置相似度满足预定条件的字符区域的对象。

下文以第一对象和第二对象来帮助阐述所述预定条件，第一对象和第二对象仅用于区分目的，其并不代表顺序。例如，假设第一对象的字符区域在第一对象中的位置用其字符区域的四个顶点坐标来表示，第二对象的字符区域在第二对象中的位置用其字符区域的四个顶点坐标来表示。所述预定条件可以是第一对象和第二对象的高度(用H表示)和宽度(用W表示)均相同，第一对象的四个顶点的横坐标和第二对象的四个顶点的横坐标均在1/12W-11/12W的范围内，第一对象的四个顶点的纵坐标和第二对象的四个顶点的纵坐标均在1/3H-2/3H的范围内，并且第一对象的字符区域的顶点的横坐标与第二对象的字符区域的对应顶点的横坐标之间的差值不超过1/6W，第一对象的字符区域的顶点的纵坐标与第二对象的字符区域的对应顶点的纵坐标之间的差值不超过1/3H。如图4所示，以银行卡400为例，假设银行卡的高度为H，宽度为W。银行卡卡号通常出现在银行卡上的区域401内。区域401在银行卡中占据1/3H*10/12W的面积，如果某个对象的字符区域超出这个范围则说明该对象不是银行卡。换言之，相同类型的图像采集于相同类型的拍摄对象，例如均为银行卡。这样，该两张银行卡的待识别字符区域是大小、位置大致相同的，位置相似度满足预定条件。虽然采集其图像时，银行卡可能会歪斜等，但是银行卡图像的待识别字符区域的位置是大致相同的。对于任意两张身份证来说，虽然局部会有不同，例如，持卡人姓名处，但是，绝大多数区域是完全相同的。因此，两个银行卡的图像属于相同类型的图像，而一个银行卡图像与一个身份证图像属于不同类型的图像。

可以通过图像采集装置来获得待识别图像J，例如银行卡图像。图像采集装置可以是例如智能手机、平板电脑等移动终端上的摄像头，也可以是数码相机等单独的摄像装置。上述图像采集装置的示例仅用于说明目的，并不构成对本发明的限制。图像采集装置可以是其他任何合适的、能够采集待识别图像J的装置。这些图像采集装置采集待识别图像J之后，可以将该待识别图像J以有线或无线的方式传送到字符识别设备中，以通过字符识别方法200来识别该待识别图像J上的字符，例如银行卡图像上的银行卡卡号。

回归模型是根据第一样本图像的字符区域获得的。第一样本图像可以是大量的、字符区域已知的图像。回归模型可以是例如能够描述图像的字符区域与该图像的特征之间的相关性的模型。由于回归模型是预先已知的，因此通过回归模型可以推算出待识别图像J的待识别字符区域，也就是说，对待识别字符区域进行定位。之后就可以进一步识别该待识别字符区域内包含的图像内容。

在步骤S220，在该待识别字符区域中进行字符识别。字符识别是指将字符区域的图像内容转化为字符串(例如，银行卡卡号)的过程。字符识别可以通过多种识别方法来实现，例如可以通过二值化操作结合模板匹配或模式分类的方式等。后文将对字符识别的方式进行详细描述，在此不再赘述。

根据本发明提供的字符识别方法，由于利用根据样本图像获得的回归模型来确定待识别字符区域，因此对字符的定位比较高效准确，适应性强，因此该方法可以极大提高字符识别的精度和可靠性。

可选地，回归模型经训练而获得。对字符区域进行定位的目的在于估计字符在图像中的位置(可以由字符区域的四个顶点的坐标表示)。根据本发明的实施例，可以采用回归方法来估计字符的位置。回归方法可以包括训练阶段，其目的是通过标注好的样本训练回归模型。

图5示出根据本发明一个实施例的回归模型的训练方法500的流程图。如图5所示，回归模型的训练包括以下步骤。在步骤S510，将第一样本图像的字符区域的绝对顶点坐标归一化。

下面以第一样本图像为银行卡图像为例描述回归模型的训练方法。根据本发明实施例的字符识别方法是一种自学习的方法，因此可以事先准备训练数据，即上文所述的第一样本图像。第一样本图像的数目越大、包含的银行卡种类越多并且干扰因素(例如银行卡的放置角度倾斜、银行卡图像中存在噪声或阴影等)越多样化，则获得的回归模型考虑到的银行卡状况越丰富，最终获得的银行卡卡号识别结果可以越准确。具体而言，可以收集一大批现实场景中出现的银行卡的图片(参见图1a至1d和图3)。由于需要识别的对象是银行卡上面的卡号，因此可以通过人工标注的方式，指明第一样本图像中银行卡卡号所在的位置，即指明卡号区域(参见图3中的301)。其中，卡号区域上包括四个顶点，如图3所示的302。卡号区域的绝对顶点坐标是指卡号区域的四个顶点302的绝对坐标，即这四个顶点302在原始的第一样本图像中的坐标。在训练阶段，可以指明这四个顶点302的绝对坐标。这样，可以用四个顶点302的绝对坐标来表征卡号区域301。当然，可以理解的是，卡号区域还可以用卡号区域内的其他点处的坐标或用其他位置标注方式来表示，本发明不对此进行限制。

例如，可以给定训练集S＝{(I_i,P_i)},i＝1,2,...,N。其中，I表示第一样本图像。i为图像的下标，表示第i幅图像，N为训练集S中的第一样本图像的数目。P为卡号区域在第一样本图像中的位置，其由卡号区域的四个顶点的绝对坐标组成，即P＝{(x₁,y₁),(x₂,y₂),(x₃,y₃),(x₄,y₄)}。

对于所有的第一样本图像，对卡号区域的位置P执行坐标归一化操作，将绝对坐标转换为相对坐标。归一化操作过程如下：假设第一样本图像的宽度和高度分别为W和H，分别针对该第一样本图像的卡号区域的四个顶点的绝对坐标(x_j,y_j),j＝1,2,3,4，计算：

x_{j}^{'} = \frac{x_{j}}{W}

y_{j}^{'} = \frac{y_{j}}{H}

其中，x′_j和y′_j分别为x_j和y_j经过坐标归一化之后的坐标值。由此可以获得卡号区域的归一化的顶点坐标P'＝{(x'₁,y'₁),(x'₂,y'₂),(x'₃,y'₃),(x'₄,y'₄)}。对于所有的归一化的顶点坐标(x'_j,y'_j),j＝1,2,3,4来说，x'_j和y'_j都位于区间[0,1]内。

接下来，在步骤S520，将第一样本图像缩放，以获得具有标准尺寸的第一样本图像。

由于训练集S中的各第一样本图像可能大小不一致，因此为了进一步的分析，可以将训练集S中的所有第一样本图像缩放到标准尺寸。该标准尺寸可以是任何合适的标准尺寸，例如，标准宽度为100像素，标准高度为64像素。应当理解，上述标准尺寸的示例仅是示意性的而非限制性的。假设I'为第一样本图像I经过缩放后的结果，即具有标准尺寸的第一样本图像，则训练集S可以表达为S＝{(I'_i,P_i')},i＝1,2,...,N。

在步骤S530，根据预设的特征计算方法计算具有标准尺寸的第一样本图像的特征。

对于训练集S中的每一幅第一样本图像，计算其特征。可选地，第一样本图像的特征可以包括梯度特征和/或纹理特征。相应地，预设的特征计算方法可以包括梯度特征计算方法和/或纹理特征计算方法。

梯度特征可以采用方向梯度直方图(HOG,HistogramofOrientedGradients)特征表示。HOG特征是图像梯度分布的统计值。HOG特征的参数可以设定为：横向(x坐标轴方向)划分为10个单元，纵向(y坐标轴方向)划分为8个单元，梯度方向取值为0-180度，且梯度方向划分为9个通道。由于梯度特征是在图像的局部方格单元上操作，而图像的几何形变和光学形变主要出现在更大的空间领域上，所以梯度特征可以对图像的几何形变和光学形变保持很好的不变性。

纹理特征可以采用词袋模型(BagofWords)表示。词袋模型是纹理特征的一种统计表达，可以有效描述图像的整体和局部特性。利用词袋模型计算纹理特征包括两个主要步骤：(1)建立码本：从训练集S中随机提取大量的图像描述符，例如尺度不变特征变换(SIFT)等，每个图像描述符都是一个向量，采用K均值(K-means)聚类算法对这些图像描述符进行聚类，得到K个类别(K为可以调节的参数，典型值为1024,2048,10000等)。聚类中心被称为“词”，聚类得到的所有类别组成一个“码本”；(2)图像描述：对于一幅第一样本图像，以稠密的方式提取特征描述符(如SIFT，HOG等)；对于每一个描述符，在码本中搜索最相似的聚类中心(也即词)。统计不同词在该图像中出现的频度，形成一个直方图。对该直方图作L1归一化，得到最后的基于词袋模型的纹理特征。纹理特征通常具有旋转不变性，并且对于图像噪声有较强的抵抗能力。

可以理解，上述梯度特征和纹理特征既可以独立使用，也可以结合起来作为组合特征使用。例如，可以将用于表达梯度特征和纹理特征的数组串联在一起形成组合特征。

在步骤S540，利用回归算法，根据第一样本图像的字符区域的、归一化的顶点坐标以及具有标准尺寸的第一样本图像的特征计算回归模型。

假设具有标准尺寸的第一样本图像I'对应的特征为f'，则训练集S可进一步表示为S＝{(f_i',P_i')},i＝1,2,...,N。对于训练集S，可以利用脊回归(ridgeregression)算法求取回归模型。该回归模型由一个系数矩阵Π表示。

求取回归模型的过程如下：

将所有归一化的顶点坐标P_i',i＝1,2,...,N中的数值按顺序纵向层叠成矩阵的形式，得到矩阵Ψ。Ψ为N×8的矩阵。

将所有特征f_i',i＝1,2,...,N中的数值按顺序纵向层叠成矩阵的形式，得到矩阵Χ。Χ为L×N的矩阵，其中L为特征f'的长度(维数)。

计算系数矩阵Π＝(X^TX+λH)^-1X^TΨ，其中H为单位矩阵，X^T为矩阵X的转置，λ为参数(典型值为0.01)。系数矩阵Π即为回归模型，Π为L×8的矩阵。

下面以银行卡卡号识别系统为例说明已有的字符识别系统。已有的银行卡卡号识别系统大多假设银行卡正对智能手机、平板电脑等设备上的摄像头，且光照条件比较理想。因此，当银行卡的放置角度出现倾斜(参见图1c)或图像中存在阴影(参见图1d)等干扰因素时，这些系统可能产生错误的识别结果，甚至可能完全无法识别银行卡卡号。通过上述训练方法500获得的回归模型Π综合考虑了若干已知的第一样本图像中的字符区域的位置与第一样本图像的特征之间的相关性，因此回归模型Π可以较好地抵抗干扰因素对字符识别的影响，从而可以减小字符识别误差。

可选地，可以利用训练好的回归模型对待识别图像进行字符区域识别，即在待识别图像中估计字符所在的位置。图6示出根据本发明一个实施例的步骤S210的流程图。如图6所示，步骤S210可以包括以下步骤。

在步骤S211，将待识别图像J缩放，以获得具有标准尺寸的待识别图像J’。对于待识别图像J，将其缩放到标准尺寸。该标准尺寸与上文所述的第一样本图像缩放后的标准尺寸相同。例如，标准尺寸可以是宽度为100像素，高度为64像素。

在步骤S212，根据预设的特征计算方法计算具有标准尺寸的待识别图像J’的特征f(J')。可以理解，计算特征f(J')所使用的特征计算方法与上文所述的计算具有标准尺寸的第一样本图像的特征f'所使用的特征计算方法相同。例如，如果计算特征f'所使用的是梯度特征计算方法，则也使用梯度特征计算方法来计算特征f(J')。在这种情况下，特征f'和特征f(J')都是梯度特征。本领域技术人员通过阅读以上对特征f'的计算方法的描述可以理解特征f(J')的计算方法，在此不再赘述。

在步骤S213，将特征f(J')输入回归模型Π，以获得待识别字符区域的、归一化的顶点坐标P(J')。通过以下公式将特征f(J')输入到训练好的回归模型Π：P(J')＝f^T(J')·Π，其中f^T(J')为f(J')的转置。将P(J')中的元素(根据上文描述，可知元素个数为8个)依次取出，则通过回归模型Π估计的待识别字符区域的坐标可以表示为{(x₁(J'),y₁(J')),(x₂(J'),y₂(J')),(x₃(J'),y₃(J')),(x₄(J'),y₄(J'))}；应当注意，通过这种方式求得的坐标(x_j(J'),y_j(J')),j＝1,2,3,4均为相对坐标。这个相对坐标就是待识别字符区域的、归一化的顶点坐标，其代表的是待识别字符区域的四个顶点的坐标。

在步骤S214，基于归一化的顶点坐标P(J')计算待识别字符区域的绝对顶点坐标P(J)。

可以通过以下公式计算在待识别图像J中待识别字符区域的绝对顶点坐标：

x_j(J)＝x_j(J')*W(J)

y_j(J)＝y_j(J')*H(J),j＝1,2,3,4

其中，W(J)和H(J)分别为待识别图像J的宽度和高度。

可选地，步骤S220可以包括以下步骤。对待识别字符区域进行二值化操作。基于二值化操作的结果，利用字符模板来进行字符识别。这种字符识别方式是一种光学字符识别(OpticalCharacterRecognition,OCR)方式，即先利用二值化操作分割出待识别字符区域内的每个字符，然后利用模板匹配的方式识别出所有的字符(对于银行卡卡号来说，字符包括阿拉伯数字)。字符模板是已知的字符模板。这种通过二值化操作和模板匹配进行字符识别的方法简单易行，节约时间。另外，也可以在二值化操作之后，利用模式分类的方式来识别出所有的字符。

可选地，步骤S220中的字符识别可以利用多类分类器实现。可选地，上述多类分类器可以经训练而获得。多类分类器的训练可以包括以下步骤。计算第二样本图像中的字符子图像的特征。第二样本图像包括与待识别图像J相同类型的图像。每个字符子图像中包括且仅包括一个字符。之后，根据字符子图像的特征和对应的字符训练多类分类器。其中，第二样本图像可以与上文所述的第一样本图像相同，也就是说，可以直接用第一样本图像来训练多类分类器。当然，第二样本图像也可以采用与上文所述的第一样本图像不同的图像。

训练的目的在于利用标注的字符样本训练多类分类器。首先，提供已知的第二样本图像(例如银行卡图像)的字符区域并指明字符区域中每个字符的位置以及内容，参见图9，示出了银行卡图像的又一示例。在图9中，已标注了字符区域内的每个字符的位置和内容。

利用标注的字符样本构建训练集T＝{(G_k,γ_k)},k＝1,2,...,M，其中，G为字符子图像，γ为其类别标记，M为字符子图像的数目，k为下标。对于银行卡卡号识别来说，字符集至少包括十个阿拉伯数字，也即γ∈{0,1,2,3,4,5,6,7,8,9,*}。此处的*代表辅助类，用于处理十个阿拉伯数字之外的类别(如背景成分等)。辅助类*对应的字符子图像可以通过从银行卡图像中的、不包含银行卡卡号字符的图像部分随机采集获得。

计算每个字符子图像的HOG特征，其计算方法和参数设置与上文的第一样本图像和待识别图像的HOG特征的计算方法类似，在此不再赘述。字符子图像的HOG特征的参数设置为：横向(x坐标轴方向)划分为5个单元，纵向(y坐标轴方向)划分为8个单元，梯度方向取值为0-180度，且梯度方向划分为9个通道。将字符子图像的HOG特征记为h，则训练集变为：T＝{(h_k,γ_k)},k＝1,2,...,M。之后，在T上训练多类分类器，分类算法可以采用支持向量机(SVM)算法，可以得到多类分类模型C。

图7示出根据本发明一个实施例的步骤S220的流程图。如图7所示，步骤S220可以包括以下步骤。

在步骤S221，提取待识别字符区域中的相同宽度的子图像直至遍历整个待识别字符区域。两个相邻子图像之间可以具有重叠部分，并且子图像的宽度大于或等于最大字符宽度并且小于或等于最小字符宽度与字符间隔之和。

参考图8，示出了根据本发明一个实施例的提取子图像的示意图。如图8所示，在待识别字符区域801中从左到右进行水平扫描，以提取具有固定宽度和高度的子图像。这可以视作存在一个在待识别字符区域801中从左到右移动从而遍历待识别字符区域801的滑动窗802。该滑动窗802具有固定的宽度和高度，例如其宽度可以为40像素，高度可以为64像素。该滑动窗802所包围在内的图像部分即为要提取的子图像。滑动窗802可以每次移动固定的距离，使得所提取的两个相邻子图像之间存在重叠部分。该每次移动的固定距离可以是任何合适的大小，例如为2像素。

可以理解，子图像的宽度(即滑动窗802的宽度)需要满足一定的条件，以较好地分辨出子图像内包含的内容。上述条件可以是子图像的宽度大于或等于最大字符宽度并且小于或等于最小字符宽度与字符间隔之和。字符宽度是指常规的某一类别图像(例如银行卡图像)中的字符的宽度，其可以根据经验值预先设定。如图8所示，在银行卡图像上可以按照字符分割出一个个的图像块803，图像块界定出字符与周围的背景的界限。因此，字符宽度也可以说是图像块的宽度。不同字符相对应的图像块的宽度可能相同，也可能不同。例如数字“1”相对应的图像块的宽度可能比数字“8”相对应的图像块的宽度小。因此，在与数字“0”,“1”,“2”……“9”相对应的图像块中，可能存在最大字符宽度和最小字符宽度。可以理解的是，当所有字符相对应的图像块的宽度相同时，最大字符宽度等于最小字符宽度。字符间隔是指两个图像块之间的间隔，如图8所示的字符间隔804。

在步骤S222，计算子图像的特征。可以计算子图像的HOG特征。子图像的HOG特征的计算方法与上文所述的字符子图像的HOG特征的计算方法和参数设置一致，本领域技术人员根据上文的描述可以理解子图像的HOG特征的计算方法，在此不再赘述。

在步骤S223，利用多类分类器，基于子图像的特征进行字符识别。多类分类器可以用多类分类模型C表示。将子图像的HOG特征输入到多类分类模型C中，可以得到一系列窗口以及对应的类别标记。窗口与子图像在待识别字符区域中占据的位置相对应。类别标记属于十个阿拉伯数字之一或*。对得到的窗口进行过滤，去除标记为*以及分类得分小于阈值Γ(典型值为0.35)的窗口。对余下的窗口执行非最大抑制(NMS,Non-MaximumSuppression)操作，去除重叠率超过50％的窗口。

重叠率的计算方法如下：

对于窗口R1和R2，二者的重叠率定义为：其中A(R1∩R2)代表R1和R2重叠部分的面积，A(R1∪R2)代表所有同时包含R1和R2的窗口中面积最小的窗口的面积。

将余下窗口对应的类别标记按照从左到右的顺序串联起来，得到一个字符串Ζ。将Ζ作为字符识别的结果输出，即可获得需要的字符，例如银行卡卡号。

利用子图像的特征和多类分类器进行字符识别的方法可以直接从子图像中定位和识别字符，不依赖于二值化分割的结果。因此，该方法可以避免由于模糊、噪声以及阴影等因素的干扰而造成的识别出的字符断裂或粘连等问题，避免字符识别结果出现错误，从而可以进一步提高字符识别精度。

可选地，在计算第二样本图像中的字符子图像的特征之前，多类分类器的训练还可以包括：将字符子图像缩放为具有标准高度，并保持字符子图像的宽高比不变。在提取待识别字符区域中的相同宽度的子图像之前，在待识别字符区域中进行字符识别还可以包括：将待识别字符区域缩放为具有标准高度，并保持待识别字符区域的宽高比不变。

在多类分类器的训练过程中，可以将训练集T中的所有字符子图像缩放到标准高度。标准高度的字符可以根据需要而定。例如，标准高度可以为64像素。字符子图像的宽度也可以缩放为标准宽度，例如40像素。可以理解，字符子图像的缩放后的高度和宽度的示例仅是示意性的而非限制性的。

相应地，可以将待识别字符区域Q缩放到标准高度(例如，64像素)，并保持其宽高比不变，得到具有标准高度的待识别字符区域Q′。随后从待识别字符区域Q′中提取相同宽度的子图像。

当待识别字符区域不具有规则尺寸时，可以事先将待识别字符区域统一为标准高度，这样可以有利于后续对子图像的图像内容进行识别，可以进一步提高字符识别精度。

可选地，在步骤S220之前，字符识别方法200可以进一步包括：对待识别字符区域进行水平校正。

在实际应用中，诸如银行卡图像的待识别图像可能存在一定的倾斜角度。因此，可以在识别字符之前，对字符所在的区域进行校正，将其转换为水平平齐的状态(参见图10)。由于在步骤S210中，已经确定了待识别字符区域的位置，例如已获得了待识别字符区域的四个顶点的坐标，因此对待识别字符区域进行校正的过程非常简单，例如只需提取四个顶点所限定的图像区域并将其旋转到水平方向即可。

根据本发明另一方面，提供一种字符识别设备。图11示出根据本发明一个实施例的字符识别设备1100的示意性框图。字符识别设备1100包括区域确定装置1110和字符识别装置1120。

区域确定装置1110用于利用回归模型确定待识别图像J的待识别字符区域。其中，回归模型根据第一样本图像的字符区域获得，第一样本图像包括与待识别图像J相同类型的图像。字符识别装置1120用于在待识别字符区域中进行字符识别。

如上文所述的，可以通过图像采集装置来获得待识别图像J。图像采集装置可以是例如智能手机、平板电脑等移动终端上的摄像头，也可以是数码相机等单独的摄像装置。这些图像采集装置采集待识别图像J之后，可以将该待识别图像J以有线或无线的方式传送到字符识别设备1100中，以由字符识别设备1100来识别该待识别图像J上的字符，例如银行卡图像上的银行卡卡号。可以理解，字符识别设备1100可以在图像采集装置的本地实现，例如图像采集装置是移动终端的摄像头，字符识别设备1100可以实现为该移动终端的处理器。图像采集装置也可以是单独的摄像装置，字符识别设备1100可以实现为远程主机。摄像装置可以利用诸如wifi的无线传输方式将待识别图像J传输到远程主机。

可选地，字符识别设备1100可以进一步包括第一训练装置(未示出)，用于训练回归模型。第一训练装置可以包括归一化模块、第一缩放模块、第一特征计算模块和回归模块。归一化模块用于将第一样本图像的字符区域的绝对顶点坐标归一化。第一缩放模块用于将第一样本图像缩放，以获得具有标准尺寸的第一样本图像。第一特征计算模块用于根据预设的特征计算方法计算具有标准尺寸的第一样本图像的特征。回归模块用于利用回归算法，根据第一样本图像的字符区域的、归一化的顶点坐标以及具有标准尺寸的第一样本图像的特征计算回归模型。第一训练装置在计算回归模型的过程中综合考虑了第一样本图像的字符区域的位置以及第一样本图像的特征之间的相关性，因此获得的回归模型可以较好地抵抗干扰因素对字符识别的影响。第一训练装置可以与区域确定装置相连，其将训练好的回归模型传送给区域确定装置1110，以由区域确定装置1110在确定待识别字符区域时使用。

可选地，区域确定装置1110可以包括第二缩放模块、第二特征计算模块、坐标计算模块和反归一化模块(未示出)。第二缩放模块用于将待识别图像J缩放，以获得具有标准尺寸的待识别图像J’。第二特征计算模块用于根据预设的特征计算方法计算具有标准尺寸的待识别图像J’的特征f(J')。坐标计算模块用于将特征f(J')输入回归模型，以获得待识别字符区域的、归一化的顶点坐标P(J')。反归一化模块，用于基于归一化的顶点坐标P(J')计算待识别字符区域的绝对顶点坐标P(J)。上述的区域确定装置1110中的四个功能模块相互协作，可以高效准确地确定待识别字符区域。

可选地，上述预设的特征计算方法可以包括梯度特征计算方法和/或纹理特征计算方法。上文已经对梯度特征计算方法和纹理特征计算方法进行了描述，在此不再赘述。

可选地，字符识别装置1120可以包括二值化模块和模板识别模块(未示出)。二值化模块用于对待识别字符区域进行二值化操作。模板识别模块用于基于二值化操作的结果，利用字符模板来进行字符识别。二值化模块可以分割出待识别字符区域内的每个字符。模板识别模块可以将二值化模块输出的每个字符与字符模板相匹配，以识别出字符。

可选地，字符识别装置1120在待识别字符区域中进行字符识别是利用多类分类器。字符识别设备1100可以进一步包括第二训练装置(未示出)，用于训练多类分类器。第二训练装置可以包括第三特征计算模块和训练模块。第三特征计算模块用于计算第二样本图像中的字符子图像的特征。第二样本图像包括与待识别图像J相同类型的图像。训练模块用于根据字符子图像的特征和对应的字符训练多类分类器。

可选地，字符识别装置1120可以包括提取模块、第四特征计算模块和字符识别模块(未示出)。提取模块用于提取待识别字符区域中的相同宽度的子图像直至遍历整个待识别字符区域。第四特征计算模块用于计算子图像的特征。字符识别模块用于利用多类分类器，基于子图像的特征进行字符识别。其中，两个相邻子图像之间具有重叠部分，并且其中子图像的宽度大于或等于最大字符宽度并且小于或等于最小字符宽度与字符间隔之和。提取模块、第四特征计算模块和字符识别模块可以相互协作以利用多类分类器进行字符识别，这样可以提高字符识别精度。

可选地，第二训练装置还可以包括第三缩放模块(未示出)，用于将字符子图像缩放为具有标准高度，并保持字符子图像的宽高比不变。字符识别装置1120还可以包括第四缩放模块(未示出)，用于将待识别字符区域缩放为具有标准高度，并保持待识别字符区域的宽高比不变。第三缩放模块和第四缩放模块可以分别将字符子图像和待识别字符区域缩放为标准高度，因此，可以进一步提高字符识别精度。

可选地，字符识别设备1100可以进一步包括校正装置(未示出)，用于对待识别字符区域进行水平校正。校正装置可以调整待识别字符区域的方向和/或位置，例如旋转待识别字符区域，使得待识别字符区域最终处于水平平齐状态。对待识别字符区域进行水平校正也可以提高字符识别精度。

字符识别设备1100可以实现在移动终端或计算机等各种计算设备中，或者以单独的硬件、软件、固件或其任意组合来实现。

本领域普通技术人员通过阅读上文关于字符识别方法的详细描述，能够理解上述字符识别设备的结构、运行方式以及优点，因此这里不再赘述。

在此提供的方法和装置不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者装置的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的字符识别设备中的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种字符识别方法，包括：

利用回归模型确定待识别图像J的待识别字符区域；以及

在所述待识别字符区域中进行字符识别；

其中，所述回归模型根据第一样本图像的字符区域获得，所述第一样本图像包括与所述待识别图像J相同类型的图像。

2.如权利要求1所述的字符识别方法，其中，所述回归模型经训练而获得，所述回归模型的训练包括以下步骤：

将所述第一样本图像的字符区域的绝对顶点坐标归一化；

将所述第一样本图像缩放，以获得具有标准尺寸的第一样本图像；

根据预设的特征计算方法计算所述具有标准尺寸的第一样本图像的特征；以及

利用回归算法，根据所述第一样本图像的字符区域的、归一化的顶点坐标以及所述具有标准尺寸的第一样本图像的特征计算所述回归模型。

3.如权利要求2所述的字符识别方法，其中，所述确定待识别图像J的待识别字符区域包括：

将所述待识别图像J缩放，以获得具有所述标准尺寸的待识别图像J’；

根据所述预设的特征计算方法计算所述具有所述标准尺寸的待识别图像J’的特征f(J')；

将所述特征f(J')输入所述回归模型，以获得所述待识别字符区域的、归一化的顶点坐标P(J')；以及

基于所述归一化的顶点坐标P(J')计算所述待识别字符区域的绝对顶点坐标P(J)。

4.如权利要求2所述的字符识别方法，其中，所述预设的特征计算方法包括梯度特征计算方法和/或纹理特征计算方法。

5.如权利要求1至4任一项所述的字符识别方法，其中，所述在所述待识别字符区域中进行字符识别包括：

对所述待识别字符区域进行二值化操作；以及

基于所述二值化操作的结果，利用字符模板来进行字符识别。

6.如权利要求1至4任一项所述的字符识别方法，其中，所述在所述待识别字符区域中进行字符识别是利用多类分类器进行，所述多类分类器经训练而获得，所述多类分类器的训练包括以下步骤：

计算第二样本图像中的字符子图像的特征，所述第二样本图像包括与所述待识别图像J相同类型的图像；以及

根据所述字符子图像的特征和对应的字符训练所述多类分类器。

7.如权利要求6所述的字符识别方法，其中，所述在所述待识别字符区域中进行字符识别包括：

提取所述待识别字符区域中的相同宽度的子图像直至遍历整个待识别字符区域；

计算所述子图像的特征；以及

利用多类分类器，基于所述子图像的特征进行字符识别；

其中两个相邻子图像之间具有重叠部分，并且其中所述子图像的宽度大于或等于最大字符宽度并且小于或等于最小字符宽度与字符间隔之和。

8.如权利要求7所述的字符识别方法，其中，

在所述计算第二样本图像中的字符子图像的特征之前，所述多类分类器的训练还包括：将所述字符子图像缩放为具有标准高度，并保持所述字符子图像的宽高比不变；并且

在所述提取所述待识别字符区域中的相同宽度的子图像之前，所述在所述待识别字符区域中进行字符识别还包括：将所述待识别字符区域缩放为具有所述标准高度，并保持所述待识别字符区域的宽高比不变。

9.如权利要求1至4任一项所述的字符识别方法，其中，在在所述待识别字符区域中进行字符识别之前，所述字符识别方法进一步包括：

对所述待识别字符区域进行水平校正。

10.一种字符识别设备，包括：

区域确定装置，用于利用回归模型确定待识别图像J的待识别字符区域；以及

字符识别装置，用于在所述待识别字符区域中进行字符识别；

11.如权利要求10所述的字符识别设备，其中，所述字符识别设备进一步包括第一训练装置，用于训练所述回归模型，

所述第一训练装置包括：

归一化模块，用于将所述第一样本图像的字符区域的绝对顶点坐标归一化；

第一缩放模块，用于将所述第一样本图像缩放，以获得具有标准尺寸的第一样本图像；

第一特征计算模块，用于根据预设的特征计算方法计算所述具有标准尺寸的第一样本图像的特征；以及

回归模块，用于利用回归算法，根据所述第一样本图像的字符区域的、归一化的顶点坐标以及所述具有标准尺寸的第一样本图像的特征计算所述回归模型。

12.如权利要求11所述的字符识别设备，其中，所述区域确定装置包括：

第二缩放模块，用于将所述待识别图像J缩放，以获得具有所述标准尺寸的待识别图像J’；

第二特征计算模块，用于根据所述预设的特征计算方法计算所述具有所述标准尺寸的待识别图像J’的特征f(J')；

坐标计算模块，用于将所述特征f(J')输入所述回归模型，以获得所述待识别字符区域的、归一化的顶点坐标P(J')；以及

反归一化模块，用于基于所述归一化的顶点坐标P(J')计算所述待识别字符区域的绝对顶点坐标P(J)。

13.如权利要求10至12任一项所述的字符识别设备，其中，所述字符识别装置在所述待识别字符区域中进行字符识别是利用多类分类器，所述银行字符识别设备进一步包括第二训练装置，用于训练所述多类分类器，

所述第二训练装置包括：

第三特征计算模块，用于计算第二样本图像中的字符子图像的特征，所述第二样本图像包括与所述待识别图像J相同类型的图像；以及

训练模块，用于根据所述字符子图像的特征和对应的字符训练所述多类分类器。

14.如权利要求13所述的字符识别设备，其中，所述字符识别装置包括：

提取模块，用于提取所述待识别字符区域中的相同宽度的子图像直至遍历整个待识别字符区域；

第四特征计算模块，用于计算所述子图像的特征；以及

字符识别模块，用于利用多类分类器，基于所述子图像的特征进行字符识别；

15.如权利要求14所述的字符识别设备，其中，

所述第二训练装置还包括第三缩放模块，用于将所述字符子图像缩放为具有标准高度，并保持所述字符子图像的宽高比不变；并且

所述字符识别装置还包括第四缩放模块，用于将所述待识别字符区域缩放为具有所述标准高度，并保持所述待识别字符区域的宽高比不变。

16.如权利要求10至12任一项所述的字符识别设备，其中，所述字符识别设备进一步包括：

校正装置，用于对所述待识别字符区域进行水平校正。