CN103544504A

CN103544504A - 一种基于多尺度图匹配核的场景字符识别方法

Info

Publication number: CN103544504A
Application number: CN201310576213.4A
Authority: CN
Inventors: 不公告发明人
Original assignee: KANJON SCIENCE & TECHNOLOGY(BEIJING)CO Ltd
Current assignee: KANJON SCIENCE & TECHNOLOGY(BEIJING)CO Ltd
Priority date: 2013-11-18
Filing date: 2013-11-18
Publication date: 2014-01-29
Anticipated expiration: 2033-11-18
Also published as: CN103544504B

Abstract

本发明的各实施方式提供了一种基于多尺度图匹配核的场景字符识别方法包括如下步骤：步骤S1：将所有训练图片进行不同尺度的网格划分,并将每幅图片表示为基于这些网格划分的无向图；步骤S2：在每个所述不同尺度的网格划分下，得到所有训练图片两两之间的一个相似度矩阵,将所述相似度矩阵作为支持向量机SVM的核矩阵；步骤S3：进行多核融合,将融合后的核作为所述支持向量机SVM的最终核；步骤S4：获得所述测试图片与所有训练图片之间的相似度核矩阵；以及步骤S5：将每个所述不同尺度下分别得到的相似度核矩阵进行多核融合，将融合后的核作为所述SVM分类器的输入，用所述SVM分类器得到最终的识别结果。

Description

一种基于多尺度图匹配核的场景字符识别方法

技术领域

本发明涉及模式识别与机器视觉领域中的自然场景中场景字符识别领域，具体的涉及一种基于多尺度图匹配核的场景字符识别方法。

背景技术

文字是人们进行交流的主要媒介，真正智能的计算机，需要有识别和理解我们人类语言和文字的能力，光学字符识别（OCR）的概念在计算机时代之前就已经产生了，经过约半个世纪的发展，现阶段扫描文档的识别已经成功地应用于各行各业，为文档的保存及快速检索提供了便利。近年来，智能手机迅速覆盖市场，智能手机一般都装配摄像头，让手机自动理解用户拍摄的图片及视频的高层语义信息无疑具有巨大的应用需求，因此，这也成为近年来的计算机视觉及模式识别领域的研究热点。图片和视频等多媒体文档中大都含有文本信息，与颜色、纹理、边缘、亮度、形状等底层信息相比，图片和视频中的文字直接承载了语义信息，因而文字成为理解图片内容的重要线索。基于识别出的文字信息，可以促成诸如自动翻译、交通监控、安全监察等多种多样的应用。然而，由于真实场景中字符本身的光照、分辨率、形变等各种退化，以及字符背景的不可预见性，即使直接利用传统的OCR识别效果较差，因此真实场景中文字识别方法具有很强的研究必要。

现有的文本块识别方法大致分为两类：传统的基于二值化、分割再识别的方法，以及基于目标识别的方法。传统的方法基于成熟的OCR识别引擎，由于OCR识别引擎需要二值输入，因此需要对场景中文本块二值化。然而，由于场景文字的颜色、分辨率、光照的多变性，以及场景中各种背景的干扰，传统的二值化方法很多都会失效。如果二值化效果不好，后续的分割及识别效果将很差，而且由二值化带来的识别错误是不能通过后续处理纠正的。

基于目标识别的方法无需二值化，但此类方法假设文字是一种类内差距较大的目标，采用目标识别的方法来对其进行识别，大部分方法直接在原始图片上提取相应的特征，用各种分类器来进行识别。

发明内容

鉴于以上现状，本发明的一个目的在于克服上述已有文本块识别方法中的至少一个缺陷。本申请的发明人意识到文字是由人类设计的，每个文字均有其特有的结构，因此在识别时应该尽量用到文字的结构信息，在识别框架中利用文字的结构不变性的约束，从而提高识别效果。由此，本发明的基本构思是将文字表示为基于不同尺度划分的无向图，通过图匹配得到两幅图片之间的相似度，以此相似度作为SVM的核来对其进行分类识别。

因此，根据本发明的又一个目的在于提供了一种基于多尺度图匹配核的场景字符识别方法，其特征在于，包括训练步骤和测试步骤，其中所述训练步骤包括：

步骤S1：将所有训练图片进行不同尺度的网格划分,并将每幅图片表示为基于这些网格划分的无向图,其中网格中的每一块表示为图的节点,相邻的节点之间通过边相连；

步骤S2：在每个所述不同尺度的网格划分下，对所有的训练图片进行两两之间的图匹配,用所述图匹配的能量值作为衡量两幅图片的相似度值,得到所有训练图片两两之间的一个相似度矩阵,将所述相似度矩阵作为支持向量机SVM的核矩阵；以及

步骤S3：将所述不同尺度下分别得到的核矩阵进行多核融合,将融合后的核作为所述支持向量机SVM的最终核,用所述最终核来训练SVM分类器；

所述测试步骤包括：

步骤S4：将待识别图片按照步骤S1所述的方法表示为基于所述不同尺度下网格划分的无向图；在每个所述不同尺度的网格划分下，将所述测试图片的无向图与所有训练图片的无向图进行图匹配,进而得到所述测试图片与所有训练图片之间的相似度核矩阵；以及

步骤S5：将所述不同尺度下分别得到的相似度核矩阵进行多核融合，将融合后的核作为所述SVM分类器的输入，用所述SVM分类器得到最终的识别结果。

根据本发明进一步的实施例，其中，所述不同尺度的网格划分包括将图片均匀划分为4′3、10′8、5′4或8′6的网格。

根据本发明进一步的实施例，其中，所述图匹配指代任意两幅图片中的一个无向图G匹配另一个无向图G’的同时，保持图的邻域的空间一致性约束。

根据本发明进一步的实施例，其中，进行所述图匹配包括最大化所述图匹配的能量函数，具体如下：

假定图G中的某个节点n，在图G’中找到其匹配节点n’，

其中将节点n的匹配节点n’的位置记为

，则找到节点n的最好匹配节点等同于最大化（Max）如下的能量函数：

，

其中，V是图G在所述网格划分下所有节点的集合，

是图G所有节点对应的所述边的集合，d是V中所有节点匹配位置的一个集合，U_n是一元势能函数，（m，n）表示相邻两节点之间的所述边，B_m，n是二元势能函数。

根据本发明进一步的实施例，进一步包括，分别计算出从G匹配到G’的最大化能量，以及从图G’匹配到G的最大化能量，则通过以下公式来定义这两个图片之间的相似度值：

其中，

表示图与图

之间匹配的能量函数，

表示图

与

图之间匹配的能量函数。

根据本发明进一步的实施例，其中，步骤S3中的所述多核融合采用平均核的方法；

其中，所述平均核的方法包括，给定每个尺度下的核矩阵，最终的核矩阵为各个尺度下核矩阵的对应元素求取平均值，具体定义如下：

是核的总个数，其中

为第个核矩阵，

为最终的平均核。

根据本发明进一步的实施例，其中，训练所述SVM分类器包括用SVM工具包LibSVM进行训练。

根据本发明进一步的实施例，步骤S4还包括将所述测试图片的无向图与所有训练图片的无向图两两之间进行图匹配所得到匹配的能量值作为两幅图片之间的相似度，进而得到所述测试图片和所有训练图片之间的相似度核矩阵。

根据本发明进一步的实施例，其中，步骤S5中的所述多核融合包括采用平均核的方法进行融合。

本发明的有益效果在于本发明突破传统的完全依赖于从图片中提取统计特征来代表文字，另辟蹊径，利用文字的结构不变性约束对文字进行表示，将每类字符表示为基于不同尺度划分网格的无向图，其中网格的每一部分是无向图的节点，各个节点之间以邻域例如四邻域相连。训练时，计算所有训练图片两两之间的图匹配能量值，并以此值作为SVM的核，同时，考虑不同尺度之间的互补性，将各个尺度下得到的核矩阵进行多核融合，用融合后的核训练一个SVM分类器；测试时，计算测试图片与训练样本之间的图匹配相似度，建立相似度核矩阵，输入SVM分类器得到最终的识别结果。本方法对真实场景中的字符可以具有较好的识别效果。

附图说明

当结合附图阅读下文对示范性实施方式的详细描述时，这些以及其他目的、特征和优点将变得显而易见，在附图中：

图1是本发明优选实施例的基于多尺度图匹配核的场景字符识别方法的简化流程图；以及

图2是本发明优选实施例的字符以不同尺度网格划分的示意图。

具体实施方式

附图中的流程图和框图，图示了按照本发明各种实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

图1示出了根据本发明优选实施例的一个实例流程图，图1描述了如何用本发明训练分类器并利用此分类器识别字符图片。其中图1的上图表示了本发明优选实施例的训练过程。

如图1的上图所示，从左到右，首先从训练样本集中选择任意的两幅训练图片，例如图片A和图片B，然后对图片A和图片B分别进行不同尺度的网格划分，其中图图1中A-1、图1中图B-1表示为基于第一尺度网格划分下的无向图；图1中图A-n、图1中图B-n表示基于第n尺度网格划分下的无向图；

接着，在每个尺度的网格划分下,将所有的训练图片进行两两之间的图匹配,用图匹配的能量值作为衡量两幅图片的相似度值,得到所有训练图片两两之间的一个相似度矩阵，将此相似度矩阵作为支持向量机(SVM)的核（即图1中的kernel-1，…，kernel-n），

最后，将不同尺度下得到的核矩阵进行多核融合,将融合后的核作为SVM的最终核,用此核来训练SVM分类器。

图1的下图则表示了本发明优选实施例的字符图片的测试过程。如图1的下图所示，测试时，首先将待识别图片表示为基于不同尺度下网格划分的无向图；

然后，同样在每个尺度的网格划分下,将测试图片的无向图与所有训练图片的无向图进行图匹配,进而得到测试图片与所有训练图片之间的相似度核矩阵（即相似度的kernel），将不同尺度下得到的核矩阵进行多核融合，将融合后的核作为SVM分类器的输入，用SVM分类器得到最终的识别结果。

为了更加清楚地描述上述步骤的实施过程，下面针对每个步骤进行更加详细地描述。本领域技术人员将理解，下面的描述不应解释为对本申请具体实施步骤的限制。

具体地，根据本发明的一种基于多尺度图匹配核的场景字符识别方法例如优选地包括训练步骤和测试步骤，其中所述训练步骤包括：：

步骤S1，将所有训练图片进行不同尺度的网格划分,并将每幅图片表示为基于这些网格划分的无向图,其中网格的每一块为图的节点,相邻的节点之间通过边相连；

其中，将所有训练图片进行不同尺度的网格划分，例如可以优选4*3,10*8,5*4及8*6四个尺度，即将原始图片划分为4行3列，10行8列，5行4列及8行6列。

图2是本发明中字符以不同尺度网格划分的示意图。如图所示，将原始字符图片划分为4*3块，10*8块，5*4块和8*6块，其中每块表示为图的一个节点，相邻的节点之间通过边相连。更具体地参见图2的左图，其中实心圆点在某一网格块的中心，表示图的节点，节点与节点之间存在邻域连线（虚线），该连线可以称之为所述边。

根据本发明的各实施例，该邻域连线可以为四邻域连线、八邻域连线等，对此本发明并不加以限定。优选地，本发明的邻域连线可以为四邻域连线。图2的左图示出了这种四邻域连线。

步骤S2，在每个不同尺度的网格划分下,将所有的训练图片进行两两之间的图匹配,用图匹配的能量值作为衡量两幅图片的相似度值,得到所有训练图片两两之间的一个相似度矩阵,将此相似度矩阵作为支持向量机(SVM)的核；

所述所有图片进行两两之间的图匹配，此处的图匹配是指，将一个无向图G匹配另一个无向图G’的同时也保持了G图的邻域的空间一致性约束。

具体地，给定图G中的某个节点n，在图G’中找到其匹配节点n’，n点的匹配点n’的位置记为，则找到

点的最好匹配点等同于最大化（Max）如下的能量函数：

， (1)

其中V是图G所有节点的集合，

是图G中所有边的集合，d是V中所有节点匹配位置的一个集合，

是一元势能函数，（m，n）表示相邻两节点m,n之间的所述边，B_m，n是二元势能函数。

本领域技术人员将理解，公式(1)中的能量函数实际是多标签的马尔可夫随机场（MRF），其中每个节点的标签对应于其对应的位置安排。

一元势能定义为图中某个节点

与其在图

中所匹配的节点

的相似度。例如，这里在每个节点所在的方格内提取梯度直方图特征（HOG）来代表该节点，图

中节点所提取特征向量表示为

，图

中

所提取特征向量表示为

，则

可以定义为：

, (2)

其中距离采用

距离。

二元势能

用来约束各个节点之间的空间一致性，表示对节点位置的弹性约束，可定义为：

(3)

是弹性约束系数，

是节点m匹配后的位置，

是节点n匹配后的位置，这里采用

距离。

如前所述，需要用图匹配的能量值作为衡量两幅图片的相似度值，具体地，为了计算出图

与图

之间的相似度值，需要分别计算出从图图G匹配到G’所得到的最大化（最优）能量，以及从图G’匹配到G所得到的最大化（最优）能量，则两个图片之间的相似度可定义为：

(4)

其中

表示图

与图

之间匹配的能量函数，

表示图

与

图之间匹配的能量函数。

根据本发明的实施例，这里可以使用两步曲线扩张算法来优化能量函数。

步骤S3，将不同尺度下得到的核矩阵进行多核融合,将融合后的核作为SVM的最终核,用此核来训练SVM分类器；

根据本发明的优选实施例，可以采用平均核的方法进行多核融合，具体地，给定每个尺度下的核矩阵，最终的核矩阵为各个尺度下核矩阵的对应元素求取平均值，具体定义如下：

(5)

其中F是核的总个数，

为第

个核矩阵，

为最终的平均核。

根据本发明的优选实施例，可以用一个现有的SVM工具包libSVM进行训练，直接使用工具包提供的多类SVM进行训练，输入表示训练图片两两之间的相似度的核矩阵，训练后得到多类的SVM分类器。由此，训练结束。

下面将执行对待测试图片的测试步骤，具体过程例如可以参见图1中下图。具体地，该步骤将包括

步骤S4，将待识别图片按照S1所述的方法表示为基于不同尺度下网格划分的无向图,在每个不同尺度的网格划分下,将测试图片的无向图与所有训练图片的无向图进行图匹配,进而得到测试图片与所有训练图片之间的相似度矩阵；

类似地，得到所述相似度核矩阵，同样需要将测试图片与所有训练图片两两之间进行图匹配，需要将匹配的最大化（最优）能量值作为两幅图片之间的相似度，进而得到该测试图片的相似度核矩阵。

步骤S5，将不同尺度下得到的核矩阵进行多核融合，将融合后的核作为SVM分类器的输入，用SVM分类器得到最终的识别结果。

类似地，此处也可以采用平均的核的方法进行融合，将测试图片在不同尺度下的核矩阵的对应元素求取平均值。

最后，测试步骤结束。

通过本发明提供的方法，可以完全依赖于从图片中提取统计特征来代表文字，从而另辟蹊径地实现对真实场景中的字符具有较好的识别效果。

以上所述，仅为本发明中的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换或替换，都应涵盖在本发明的包含范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

已经出于示出和描述的目的给出了本发明的说明书，但是其并不意在是穷举的或者限制于所公开形式的发明。本领域技术人员可以想到很多修改和变体。本领域技术人员应当理解，本发明实施方式中的方法和装置可以以软件、硬件、固件或其组合实现。

因此，实施方式是为了更好地说明本发明的原理、实际应用以及使本领域技术人员中的其他人员能够理解以下内容而选择和描述的，即，在不脱离本发明精神的前提下，做出的所有修改和替换都将落入所附权利要求定义的本发明保护范围内。

Claims

1.一种基于多尺度图匹配核的场景字符识别方法，其特征在于，包括训练步骤和测试步骤，其中所述训练步骤包括：

步骤S3：将每个所述不同尺度下分别得到的核矩阵进行多核融合,将融合后的核作为所述支持向量机SVM的最终核,用所述最终核来训练SVM分类器；

所述测试步骤包括：

步骤S5：将每个所述不同尺度下分别得到的相似度核矩阵进行多核融合，将融合后的核作为所述SVM分类器的输入，用所述SVM分类器得到最终的识别结果。

2.根据权利要求1所述的场景字符识别方法，其中，所述不同尺度的网格划分包括将图片均匀划分为4′3、10′8、5′4或8′6的网格。

3.根据权利要求1所述的场景字符识别方法，其中，所述图匹配表示任意两幅图片中的一个无向图G匹配另一个无向图G’的同时，保持图的邻域的空间一致性约束。

4.根据权利要求3所述的场景字符识别方法，其中，进行所述图匹配包括最大化所述图匹配的能量函数，具体如下：

假定图G中的某个节点n，在图G’中找到其匹配节点n’，

其中将节点n的匹配节点n’的位置记为

，

其中，V是图G在所述网格划分下所有节点的集合，

是图G所有节点对应的所述边的集合，d是V中所有节点匹配位置的一个集合，U_n是一元势能函数，（m，n）表示相邻两节点m,n之间的所述边，B_m，n是二元势能函数。

5.根据权利要求4所述的场景字符识别方法，进一步包括，分别计算出从G匹配到G’的最大化能量，以及从图G’匹配到G的最大化能量，通过以下公式来定义这两个图片之间的相似度值：

其中，表示图与图

之间匹配的能量函数，

表示图

与

图之间匹配的能量函数。

6.根据权利要求1所述的所述的场景字符识别方法，其中，步骤S3中的所述多核融合采用平均核的方法；

其中，所述平均核的方法包括，给定每个尺度下的核矩阵，最终的核矩阵表示为各个尺度下核矩阵的对应元素求平均值，具体定义如下：

是核的总个数，其中为第

个核矩阵，

为最终的平均核。

7.根据权利要求1所述的所述的场景字符识别方法，其中，训练所述SVM分类器包括用SVM工具包LibSVM进行训练。

8.根据权利要求1所述的所述的场景字符识别方法，步骤S4还包括将所述测试图片的无向图与所有训练图片的无向图两两之间进行图匹配，将所述图匹配的能量值作为两幅图片之间的相似度，进而得到所述测试图片和所有训练图片之间的相似度核矩阵。

9.根据权利要求1所述的所述的场景字符识别方法，其中，步骤S5中的所述多核融合包括采用平均核的方法进行融合。