CN103544504A - 一种基于多尺度图匹配核的场景字符识别方法 - Google Patents

一种基于多尺度图匹配核的场景字符识别方法 Download PDF

Info

Publication number
CN103544504A
CN103544504A CN201310576213.4A CN201310576213A CN103544504A CN 103544504 A CN103544504 A CN 103544504A CN 201310576213 A CN201310576213 A CN 201310576213A CN 103544504 A CN103544504 A CN 103544504A
Authority
CN
China
Prior art keywords
core
similarity
node
grid
pictures
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310576213.4A
Other languages
English (en)
Other versions
CN103544504B (zh
Inventor
不公告发明人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KANJON SCIENCE & TECHNOLOGY(BEIJING)CO Ltd
Original Assignee
KANJON SCIENCE & TECHNOLOGY(BEIJING)CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KANJON SCIENCE & TECHNOLOGY(BEIJING)CO Ltd filed Critical KANJON SCIENCE & TECHNOLOGY(BEIJING)CO Ltd
Priority to CN201310576213.4A priority Critical patent/CN103544504B/zh
Publication of CN103544504A publication Critical patent/CN103544504A/zh
Application granted granted Critical
Publication of CN103544504B publication Critical patent/CN103544504B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明的各实施方式提供了一种基于多尺度图匹配核的场景字符识别方法包括如下步骤:步骤S1:将所有训练图片进行不同尺度的网格划分,并将每幅图片表示为基于这些网格划分的无向图;步骤S2:在每个所述不同尺度的网格划分下,得到所有训练图片两两之间的一个相似度矩阵,将所述相似度矩阵作为支持向量机SVM的核矩阵;步骤S3:进行多核融合,将融合后的核作为所述支持向量机SVM的最终核;步骤S4:获得所述测试图片与所有训练图片之间的相似度核矩阵;以及步骤S5:将每个所述不同尺度下分别得到的相似度核矩阵进行多核融合,将融合后的核作为所述SVM分类器的输入,用所述SVM分类器得到最终的识别结果。

Description

一种基于多尺度图匹配核的场景字符识别方法
技术领域
     本发明涉及模式识别与机器视觉领域中的自然场景中场景字符识别领域,具体的涉及一种基于多尺度图匹配核的场景字符识别方法。       
背景技术
      文字是人们进行交流的主要媒介,真正智能的计算机,需要有识别和理解我们人类语言和文字的能力,光学字符识别(OCR)的概念在计算机时代之前就已经产生了,经过约半个世纪的发展,现阶段扫描文档的识别已经成功地应用于各行各业,为文档的保存及快速检索提供了便利。近年来,智能手机迅速覆盖市场,智能手机一般都装配摄像头,让手机自动理解用户拍摄的图片及视频的高层语义信息无疑具有巨大的应用需求,因此,这也成为近年来的计算机视觉及模式识别领域的研究热点。图片和视频等多媒体文档中大都含有文本信息,与颜色、纹理、边缘、亮度、形状等底层信息相比,图片和视频中的文字直接承载了语义信息,因而文字成为理解图片内容的重要线索。基于识别出的文字信息,可以促成诸如自动翻译、交通监控、安全监察等多种多样的应用。然而,由于真实场景中字符本身的光照、分辨率、形变等各种退化,以及字符背景的不可预见性,即使直接利用传统的OCR识别效果较差,因此真实场景中文字识别方法具有很强的研究必要。 
      现有的文本块识别方法大致分为两类:传统的基于二值化、分割再识别的方法,以及基于目标识别的方法。传统的方法基于成熟的OCR识别引擎,由于OCR识别引擎需要二值输入,因此需要对场景中文本块二值化。然而,由于场景文字的颜色、分辨率、光照的多变性,以及场景中各种背景的干扰,传统的二值化方法很多都会失效。如果二值化效果不好,后续的分割及识别效果将很差,而且由二值化带来的识别错误是不能通过后续处理纠正的。 
    基于目标识别的方法无需二值化,但此类方法假设文字是一种类内差距较大的目标,采用目标识别的方法来对其进行识别,大部分方法直接在原始图片上提取相应的特征,用各种分类器来进行识别。 
发明内容
鉴于以上现状,本发明的一个目的在于克服上述已有文本块识别方法中的至少一个缺陷。本申请的发明人意识到文字是由人类设计的,每个文字均有其特有的结构,因此在识别时应该尽量用到文字的结构信息,在识别框架中利用文字的结构不变性的约束,从而提高识别效果。由此,本发明的基本构思是将文字表示为基于不同尺度划分的无向图,通过图匹配得到两幅图片之间的相似度,以此相似度作为SVM的核来对其进行分类识别。 
     因此,根据本发明的又一个目的在于提供了一种基于多尺度图匹配核的场景字符识别方法,其特征在于,包括训练步骤和测试步骤,其中所述训练步骤包括: 
    步骤S1:将所有训练图片进行不同尺度的网格划分,并将每幅图片表示为基于这些网格划分的无向图,其中网格中的每一块表示为图的节点,相邻的节点之间通过边相连;
     步骤S2:在每个所述不同尺度的网格划分下,对所有的训练图片进行两两之间的图匹配,用所述图匹配的能量值作为衡量两幅图片的相似度值,得到所有训练图片两两之间的一个相似度矩阵,将所述相似度矩阵作为支持向量机SVM的核矩阵;以及
     步骤S3:将所述不同尺度下分别得到的核矩阵进行多核融合,将融合后的核作为所述支持向量机SVM的最终核,用所述最终核来训练SVM分类器;
     所述测试步骤包括:
    步骤S4:将待识别图片按照步骤S1所述的方法表示为基于所述不同尺度下网格划分的无向图;在每个所述不同尺度的网格划分下,将所述测试图片的无向图与所有训练图片的无向图进行图匹配,进而得到所述测试图片与所有训练图片之间的相似度核矩阵;以及
步骤S5:将所述不同尺度下分别得到的相似度核矩阵进行多核融合,将融合后的核作为所述SVM分类器的输入,用所述SVM分类器得到最终的识别结果。
根据本发明进一步的实施例,其中,所述不同尺度的网格划分包括将图片均匀划分为4′3、10′8、5′4或8′6的网格。 
根据本发明进一步的实施例,其中,所述图匹配指代任意两幅图片中的一个无向图G匹配另一个无向图G’的同时,保持图的邻域的空间一致性约束。 
根据本发明进一步的实施例,其中,进行所述图匹配包括最大化所述图匹配的能量函数,具体如下: 
假定图G中的某个节点n,在图G’中找到其匹配节点n’,
其中将节点n的匹配节点n’的位置记为 
Figure 345313DEST_PATH_IMAGE001
,则找到节点n的最好匹配节点等同于最大化(Max)如下的能量函数:
Figure 479622DEST_PATH_IMAGE002
 ,            
其中,V是图G在所述网格划分下所有节点的集合,
Figure 843738DEST_PATH_IMAGE003
是图G所有节点对应的所述边的集合,d是V中所有节点匹配位置的一个集合,Un是一元势能函数,(m,n)表示相邻两节点之间的所述边,Bm,n是二元势能函数。
根据本发明进一步的实施例,进一步包括,分别计算出从G匹配到G’的最大化能量,以及从图G’匹配到G的最大化能量,则通过以下公式来定义这两个图片之间的相似度值: 
Figure 193467DEST_PATH_IMAGE004
                 
     其中,
Figure 592218DEST_PATH_IMAGE005
表示图 与图
Figure 748841DEST_PATH_IMAGE007
之间匹配的能量函数,
Figure 883019DEST_PATH_IMAGE008
表示图
Figure 398927DEST_PATH_IMAGE007
Figure 343880DEST_PATH_IMAGE006
图之间匹配的能量函数。
根据本发明进一步的实施例,其中,步骤S3中的所述多核融合采用平均核的方法; 
其中,所述平均核的方法包括,给定每个尺度下的核矩阵,最终的核矩阵为各个尺度下核矩阵的对应元素求取平均值,具体定义如下:
Figure 948168DEST_PATH_IMAGE009
                               
Figure 167928DEST_PATH_IMAGE010
是核的总个数,其中
Figure 266903DEST_PATH_IMAGE011
为第个核矩阵,
Figure 287391DEST_PATH_IMAGE013
为最终的平均核。
根据本发明进一步的实施例,其中,训练所述SVM分类器包括用SVM工具包LibSVM进行训练。 
根据本发明进一步的实施例,步骤S4还包括将所述测试图片的无向图与所有训练图片的无向图两两之间进行图匹配所得到匹配的能量值作为两幅图片之间的相似度,进而得到所述测试图片和所有训练图片之间的相似度核矩阵。 
根据本发明进一步的实施例,其中,步骤S5中的所述多核融合包括采用平均核的方法进行融合。 
本发明的有益效果在于本发明突破传统的完全依赖于从图片中提取统计特征来代表文字,另辟蹊径,利用文字的结构不变性约束对文字进行表示,将每类字符表示为基于不同尺度划分网格的无向图,其中网格的每一部分是无向图的节点,各个节点之间以邻域例如四邻域相连。训练时,计算所有训练图片两两之间的图匹配能量值,并以此值作为SVM的核,同时,考虑不同尺度之间的互补性,将各个尺度下得到的核矩阵进行多核融合,用融合后的核训练一个SVM分类器;测试时,计算测试图片与训练样本之间的图匹配相似度,建立相似度核矩阵,输入SVM分类器得到最终的识别结果。本方法对真实场景中的字符可以具有较好的识别效果。 
附图说明
    当结合附图阅读下文对示范性实施方式的详细描述时,这些以及其他目的、特征和优点将变得显而易见,在附图中: 
       图1是本发明优选实施例的基于多尺度图匹配核的场景字符识别方法的简化流程图;以及
      图2是本发明优选实施例的字符以不同尺度网格划分的示意图。
具体实施方式
   附图中的流程图和框图,图示了按照本发明各种实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。 
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。 
图1示出了根据本发明优选实施例的一个实例流程图,图1描述了如何用本发明训练分类器并利用此分类器识别字符图片。其中图1的上图表示了本发明优选实施例的训练过程。 
如图1的上图所示,从左到右,首先从训练样本集中选择任意的两幅训练图片,例如图片A和图片B,然后对图片A和图片B分别进行不同尺度的网格划分,其中图图1中A-1、图1中图B-1表示为基于第一尺度网格划分下的无向图;图1中图A-n、图1中图B-n表示基于第n尺度网格划分下的无向图; 
接着,在每个尺度的网格划分下,将所有的训练图片进行两两之间的图匹配,用图匹配的能量值作为衡量两幅图片的相似度值,得到所有训练图片两两之间的一个相似度矩阵,将此相似度矩阵作为支持向量机(SVM)的核(即图1中的kernel-1,…,kernel-n),
最后,将不同尺度下得到的核矩阵进行多核融合,将融合后的核作为SVM的最终核,用此核来训练SVM分类器。
图1的下图则表示了本发明优选实施例的字符图片的测试过程。如图1的下图所示,测试时,首先将待识别图片表示为基于不同尺度下网格划分的无向图; 
然后,同样在每个尺度的网格划分下,将测试图片的无向图与所有训练图片的无向图进行图匹配,进而得到测试图片与所有训练图片之间的相似度核矩阵(即相似度的kernel),将不同尺度下得到的核矩阵进行多核融合,将融合后的核作为SVM分类器的输入,用SVM分类器得到最终的识别结果。
为了更加清楚地描述上述步骤的实施过程,下面针对每个步骤进行更加详细地描述。本领域技术人员将理解,下面的描述不应解释为对本申请具体实施步骤的限制。 
具体地,根据本发明的一种基于多尺度图匹配核的场景字符识别方法例如优选地包括训练步骤和测试步骤,其中所述训练步骤包括:: 
步骤S1,将所有训练图片进行不同尺度的网格划分,并将每幅图片表示为基于这些网格划分的无向图,其中网格的每一块为图的节点,相邻的节点之间通过边相连;
其中,将所有训练图片进行不同尺度的网格划分,例如可以优选4*3,10*8,5*4及8*6四个尺度,即将原始图片划分为4行3列,10行8列,5行4列及8行6列。
图2是本发明中字符以不同尺度网格划分的示意图。如图所示,将原始字符图片划分为4*3块,10*8块,5*4块和8*6块,其中每块表示为图的一个节点,相邻的节点之间通过边相连。更具体地参见图2的左图,其中实心圆点在某一网格块的中心,表示图的节点,节点与节点之间存在邻域连线(虚线),该连线可以称之为所述边。 
根据本发明的各实施例,该邻域连线可以为四邻域连线、八邻域连线等,对此本发明并不加以限定。优选地,本发明的邻域连线可以为四邻域连线。图2的左图示出了这种四邻域连线。 
步骤S2,在每个不同尺度的网格划分下,将所有的训练图片进行两两之间的图匹配,用图匹配的能量值作为衡量两幅图片的相似度值,得到所有训练图片两两之间的一个相似度矩阵,将此相似度矩阵作为支持向量机(SVM)的核; 
所述所有图片进行两两之间的图匹配,此处的图匹配是指,将一个无向图G匹配另一个无向图G’的同时也保持了G图的邻域的空间一致性约束。
具体地,给定图G中的某个节点n,在图G’中找到其匹配节点n’,n点的匹配点n’的位置记为,则找到
Figure 66921DEST_PATH_IMAGE014
点的最好匹配点等同于最大化(Max)如下的能量函数: 
Figure 697885DEST_PATH_IMAGE002
 ,               (1)
其中V是图G所有节点的集合,
Figure 14115DEST_PATH_IMAGE003
是图G中所有边的集合,d是V中所有节点匹配位置的一个集合,
Figure 575678DEST_PATH_IMAGE015
是一元势能函数,(m,n)表示相邻两节点m,n之间的所述边,Bm,n是二元势能函数。
本领域技术人员将理解,公式(1)中的能量函数实际是多标签的马尔可夫随机场(MRF),其中每个节点的标签对应于其对应的位置安排。 
一元势能定义为图中某个节点
Figure 975676DEST_PATH_IMAGE014
与其在图
Figure 340929DEST_PATH_IMAGE007
中所匹配的节点
Figure 543371DEST_PATH_IMAGE017
的相似度。例如,这里在每个节点所在的方格内提取梯度直方图特征(HOG)来代表该节点,图
Figure 968668DEST_PATH_IMAGE006
节点所提取特征向量表示为
Figure 440153DEST_PATH_IMAGE018
,图
Figure 231523DEST_PATH_IMAGE007
Figure 30983DEST_PATH_IMAGE017
所提取特征向量表示为
Figure 68821DEST_PATH_IMAGE019
,则
Figure 775877DEST_PATH_IMAGE016
可以定义为: 
Figure 218491DEST_PATH_IMAGE020
,                                  (2)
其中距离采用
Figure 188852DEST_PATH_IMAGE021
距离。
二元势能
Figure 454267DEST_PATH_IMAGE022
用来约束各个节点之间的空间一致性,表示对节点位置的弹性约束,可定义为: 
Figure 965014DEST_PATH_IMAGE023
                                    (3)
Figure 465397DEST_PATH_IMAGE024
 是弹性约束系数,
Figure 137818DEST_PATH_IMAGE025
是节点m匹配后的位置,
Figure 353511DEST_PATH_IMAGE001
是节点n匹配后的位置,这里采用
Figure 480998DEST_PATH_IMAGE026
距离。
如前所述,需要用图匹配的能量值作为衡量两幅图片的相似度值,具体地,为了计算出图 
Figure 367046DEST_PATH_IMAGE006
与图
Figure 201579DEST_PATH_IMAGE007
之间的相似度值,需要分别计算出从图图G匹配到G’所得到的最大化(最优)能量,以及从图G’匹配到G所得到的最大化(最优)能量,则两个图片之间的相似度可定义为: 
                    (4)
     其中
Figure 228889DEST_PATH_IMAGE005
表示图 
Figure 953131DEST_PATH_IMAGE006
与图
Figure 980737DEST_PATH_IMAGE007
之间匹配的能量函数,
Figure 705110DEST_PATH_IMAGE008
表示图
Figure 830192DEST_PATH_IMAGE007
Figure 956411DEST_PATH_IMAGE006
图之间匹配的能量函数。
根据本发明的实施例,这里可以使用两步曲线扩张算法来优化能量函数。 
步骤S3,将不同尺度下得到的核矩阵进行多核融合,将融合后的核作为SVM的最终核,用此核来训练SVM分类器; 
根据本发明的优选实施例,可以采用平均核的方法进行多核融合,具体地,给定每个尺度下的核矩阵,最终的核矩阵为各个尺度下核矩阵的对应元素求取平均值,具体定义如下:
Figure 144466DEST_PATH_IMAGE009
                                (5)
其中F是核的总个数,
Figure 824977DEST_PATH_IMAGE011
为第
Figure 488170DEST_PATH_IMAGE012
个核矩阵,
Figure 203317DEST_PATH_IMAGE013
为最终的平均核。
根据本发明的优选实施例,可以用一个现有的SVM工具包libSVM进行训练,直接使用工具包提供的多类SVM进行训练,输入表示训练图片两两之间的相似度的核矩阵,训练后得到多类的SVM分类器。由此,训练结束。 
下面将执行对待测试图片的测试步骤,具体过程例如可以参见图1中下图。具体地,该步骤将包括 
步骤S4,将待识别图片按照S1所述的方法表示为基于不同尺度下网格划分的无向图,在每个不同尺度的网格划分下,将测试图片的无向图与所有训练图片的无向图进行图匹配,进而得到测试图片与所有训练图片之间的相似度矩阵;
类似地,得到所述相似度核矩阵,同样需要将测试图片与所有训练图片两两之间进行图匹配,需要将匹配的最大化(最优)能量值作为两幅图片之间的相似度,进而得到该测试图片的相似度核矩阵。
步骤S5,将不同尺度下得到的核矩阵进行多核融合,将融合后的核作为SVM分类器的输入,用SVM分类器得到最终的识别结果。 
类似地,此处也可以采用平均的核的方法进行融合,将测试图片在不同尺度下的核矩阵的对应元素求取平均值。 
最后,测试步骤结束。 
通过本发明提供的方法,可以完全依赖于从图片中提取统计特征来代表文字,从而另辟蹊径地实现对真实场景中的字符具有较好的识别效果。 
以上所述,仅为本发明中的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可理解想到的变换或替换,都应涵盖在本发明的包含范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。 
已经出于示出和描述的目的给出了本发明的说明书,但是其并不意在是穷举的或者限制于所公开形式的发明。本领域技术人员可以想到很多修改和变体。本领域技术人员应当理解,本发明实施方式中的方法和装置可以以软件、硬件、固件或其组合实现。 
因此,实施方式是为了更好地说明本发明的原理、实际应用以及使本领域技术人员中的其他人员能够理解以下内容而选择和描述的,即,在不脱离本发明精神的前提下,做出的所有修改和替换都将落入所附权利要求定义的本发明保护范围内。 

Claims (9)

1.一种基于多尺度图匹配核的场景字符识别方法,其特征在于,包括训练步骤和测试步骤,其中所述训练步骤包括:
步骤S1:将所有训练图片进行不同尺度的网格划分,并将每幅图片表示为基于这些网格划分的无向图,其中网格中的每一块表示为图的节点,相邻的节点之间通过边相连;
步骤S2:在每个所述不同尺度的网格划分下,对所有的训练图片进行两两之间的图匹配,用所述图匹配的能量值作为衡量两幅图片的相似度值,得到所有训练图片两两之间的一个相似度矩阵,将所述相似度矩阵作为支持向量机SVM的核矩阵;以及
步骤S3:将每个所述不同尺度下分别得到的核矩阵进行多核融合,将融合后的核作为所述支持向量机SVM的最终核,用所述最终核来训练SVM分类器;
所述测试步骤包括:
步骤S4:将待识别图片按照步骤S1所述的方法表示为基于所述不同尺度下网格划分的无向图;在每个所述不同尺度的网格划分下,将所述测试图片的无向图与所有训练图片的无向图进行图匹配,进而得到所述测试图片与所有训练图片之间的相似度核矩阵;以及
步骤S5:将每个所述不同尺度下分别得到的相似度核矩阵进行多核融合,将融合后的核作为所述SVM分类器的输入,用所述SVM分类器得到最终的识别结果。
2.根据权利要求1所述的场景字符识别方法,其中,所述不同尺度的网格划分包括将图片均匀划分为4′3、10′8、5′4或8′6的网格。
3.根据权利要求1所述的场景字符识别方法,其中,所述图匹配表示任意两幅图片中的一个无向图G匹配另一个无向图G’的同时,保持图的邻域的空间一致性约束。
4.根据权利要求3所述的场景字符识别方法,其中,进行所述图匹配包括最大化所述图匹配的能量函数,具体如下:
假定图G中的某个节点n,在图G’中找到其匹配节点n’,
其中将节点n的匹配节点n’的位置记为                                                
Figure 674714DEST_PATH_IMAGE001
,则找到节点n的最好匹配节点等同于最大化(Max)如下的能量函数:
 ,            
其中,V是图G在所述网格划分下所有节点的集合,
Figure 840565DEST_PATH_IMAGE003
是图G所有节点对应的所述边的集合,d是V中所有节点匹配位置的一个集合,Un是一元势能函数,(m,n)表示相邻两节点m,n之间的所述边,Bm,n是二元势能函数。
5.根据权利要求4所述的场景字符识别方法,进一步包括,分别计算出从G匹配到G’的最大化能量,以及从图G’匹配到G的最大化能量,通过以下公式来定义这两个图片之间的相似度值:
Figure 678726DEST_PATH_IMAGE004
                 
     其中,表示图 与图
Figure 675873DEST_PATH_IMAGE007
之间匹配的能量函数,
Figure 834453DEST_PATH_IMAGE008
表示图
Figure 797861DEST_PATH_IMAGE007
Figure 940260DEST_PATH_IMAGE006
图之间匹配的能量函数。
6.根据权利要求1所述的所述的场景字符识别方法,其中,步骤S3中的所述多核融合采用平均核的方法;
其中,所述平均核的方法包括,给定每个尺度下的核矩阵,最终的核矩阵表示为各个尺度下核矩阵的对应元素求平均值,具体定义如下:
                               
Figure 573420DEST_PATH_IMAGE010
是核的总个数,其中为第
Figure 603004DEST_PATH_IMAGE012
个核矩阵,
Figure 212453DEST_PATH_IMAGE013
为最终的平均核。
7.根据权利要求1所述的所述的场景字符识别方法,其中,训练所述SVM分类器包括用SVM工具包LibSVM进行训练。
8.根据权利要求1所述的所述的场景字符识别方法,步骤S4还包括将所述测试图片的无向图与所有训练图片的无向图两两之间进行图匹配,将所述图匹配的能量值作为两幅图片之间的相似度,进而得到所述测试图片和所有训练图片之间的相似度核矩阵。
9.根据权利要求1所述的所述的场景字符识别方法,其中,步骤S5中的所述多核融合包括采用平均核的方法进行融合。
CN201310576213.4A 2013-11-18 2013-11-18 一种基于多尺度图匹配核的场景字符识别方法 Expired - Fee Related CN103544504B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310576213.4A CN103544504B (zh) 2013-11-18 2013-11-18 一种基于多尺度图匹配核的场景字符识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310576213.4A CN103544504B (zh) 2013-11-18 2013-11-18 一种基于多尺度图匹配核的场景字符识别方法

Publications (2)

Publication Number Publication Date
CN103544504A true CN103544504A (zh) 2014-01-29
CN103544504B CN103544504B (zh) 2017-02-15

Family

ID=49967939

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310576213.4A Expired - Fee Related CN103544504B (zh) 2013-11-18 2013-11-18 一种基于多尺度图匹配核的场景字符识别方法

Country Status (1)

Country Link
CN (1) CN103544504B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103927530A (zh) * 2014-05-05 2014-07-16 苏州大学 一种最终分类器的获得方法及应用方法、系统
CN103927529A (zh) * 2014-05-05 2014-07-16 苏州大学 一种最终分类器的获得方法及应用方法、系统
CN104766101A (zh) * 2015-04-22 2015-07-08 福州大学 一种基于寻找特征值的k近邻手写识别系统算法
CN106709490A (zh) * 2015-07-31 2017-05-24 腾讯科技(深圳)有限公司 一种字符识别方法和装置
CN108563767A (zh) * 2018-04-19 2018-09-21 深圳市商汤科技有限公司 图像检索方法及装置
CN109902658A (zh) * 2019-03-15 2019-06-18 百度在线网络技术(北京)有限公司 行人特征识别方法、装置、计算机设备和存储介质
CN112016563A (zh) * 2020-10-17 2020-12-01 深圳神目信息技术有限公司 一种圆形印章的真伪识别方法
CN112819495A (zh) * 2019-11-18 2021-05-18 南京财经大学 一种基于随机多项式核的用户购物意图预测方法
CN113903035A (zh) * 2021-12-06 2022-01-07 北京惠朗时代科技有限公司 一种基于超分辨率多尺度重建的文字识别方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100080469A1 (en) * 2008-10-01 2010-04-01 Fuji Xerox Co., Ltd. Novel descriptor for image corresponding point matching
CN102054178A (zh) * 2011-01-20 2011-05-11 北京联合大学 一种基于局部语义概念的国画图像识别方法
CN102750556A (zh) * 2012-06-01 2012-10-24 山东大学 一种脱机手写体汉字识别方法
CN103294983A (zh) * 2012-02-24 2013-09-11 北京明日时尚信息技术有限公司 一种基于分块Gabor特征的静态图片中场景识别的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100080469A1 (en) * 2008-10-01 2010-04-01 Fuji Xerox Co., Ltd. Novel descriptor for image corresponding point matching
CN102054178A (zh) * 2011-01-20 2011-05-11 北京联合大学 一种基于局部语义概念的国画图像识别方法
CN103294983A (zh) * 2012-02-24 2013-09-11 北京明日时尚信息技术有限公司 一种基于分块Gabor特征的静态图片中场景识别的方法
CN102750556A (zh) * 2012-06-01 2012-10-24 山东大学 一种脱机手写体汉字识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ANDREW J.NEWELL等: "Multiscale histogram of Oriented Gradient Descriptors for Robust Character Recognition", 《DOCUMENT ANALYSIS AND RECOGNITION (ICDAR), 2011 INTERNATIONAL CONFERENCE ON》 *
OLIVIER DUCHENNE等: "A Graph-Matching Kernel for Object Categorization", 《COMPUTER VISION (ICCV), 2011 IEEE INTERNATIONAL CONFERENCE ON》 *
杜振龙等: "基于多尺度Harris角点的图像文字检测", 《计算机工程与设计》 *
黄剑华: "自然场景中文本信息提取方法", 《中国博士学位论文全文数据库(电子期刊)》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103927529A (zh) * 2014-05-05 2014-07-16 苏州大学 一种最终分类器的获得方法及应用方法、系统
CN103927530A (zh) * 2014-05-05 2014-07-16 苏州大学 一种最终分类器的获得方法及应用方法、系统
CN103927530B (zh) * 2014-05-05 2017-06-16 苏州大学 一种最终分类器的获得方法及应用方法、系统
CN103927529B (zh) * 2014-05-05 2017-06-16 苏州大学 一种最终分类器的获得方法及应用方法、系统
CN104766101B (zh) * 2015-04-22 2018-02-06 福州大学 一种基于寻找特征值的k近邻手写识别系统算法
CN104766101A (zh) * 2015-04-22 2015-07-08 福州大学 一种基于寻找特征值的k近邻手写识别系统算法
CN106709490A (zh) * 2015-07-31 2017-05-24 腾讯科技(深圳)有限公司 一种字符识别方法和装置
CN108563767A (zh) * 2018-04-19 2018-09-21 深圳市商汤科技有限公司 图像检索方法及装置
CN108563767B (zh) * 2018-04-19 2020-11-27 深圳市商汤科技有限公司 图像检索方法及装置
CN109902658A (zh) * 2019-03-15 2019-06-18 百度在线网络技术(北京)有限公司 行人特征识别方法、装置、计算机设备和存储介质
CN112819495A (zh) * 2019-11-18 2021-05-18 南京财经大学 一种基于随机多项式核的用户购物意图预测方法
CN112016563A (zh) * 2020-10-17 2020-12-01 深圳神目信息技术有限公司 一种圆形印章的真伪识别方法
CN113903035A (zh) * 2021-12-06 2022-01-07 北京惠朗时代科技有限公司 一种基于超分辨率多尺度重建的文字识别方法及系统

Also Published As

Publication number Publication date
CN103544504B (zh) 2017-02-15

Similar Documents

Publication Publication Date Title
CN103544504A (zh) 一种基于多尺度图匹配核的场景字符识别方法
CN108764074B (zh) 基于深度学习的主观题智能阅卷方法、系统及存储介质
US10817741B2 (en) Word segmentation system, method and device
He et al. Multi-scale FCN with cascaded instance aware segmentation for arbitrary oriented word spotting in the wild
Pan et al. A robust system to detect and localize texts in natural scene images
CN106096602A (zh) 一种基于卷积神经网络的中文车牌识别方法
CN104680127A (zh) 手势识别方法及系统
CN103136504A (zh) 人脸识别方法及装置
CN104809481A (zh) 一种基于自适应色彩聚类的自然场景文本检测的方法
Kobchaisawat et al. Thai text localization in natural scene images using convolutional neural network
CN110751069A (zh) 一种人脸活体检测方法及装置
Bijalwan et al. Automatic text recognition in natural scene and its translation into user defined language
CN109086772A (zh) 一种扭曲粘连字符图片验证码的识别方法及系统
CN103065126A (zh) 不同场景对人体图像再识别的方法
CN104966109A (zh) 医疗化验单图像分类方法及装置
CN109741351A (zh) 一种基于深度学习的类别敏感型边缘检测方法
Xue Optical character recognition
CN111242114B (zh) 文字识别方法及装置
CN105956563A (zh) 基于多示例学习进行新闻图像中人脸标注的方法
CN103258187A (zh) 一种基于hog特征的电视台标识别方法
Qin et al. Robust and accurate text stroke segmentation
CN110334703B (zh) 一种昼夜图像中的船舶检测和识别方法
Hurtik et al. Automatic license plate recognition in difficult conditions—Technical report
Calefati et al. Reading meter numbers in the wild
CN111753618A (zh) 图像识别方法、装置、计算机设备及计算机可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170215

Termination date: 20171118