CN102129562B - 图标识别方法和装置 - Google Patents

图标识别方法和装置 Download PDF

Info

Publication number
CN102129562B
CN102129562B CN201010004433.6A CN201010004433A CN102129562B CN 102129562 B CN102129562 B CN 102129562B CN 201010004433 A CN201010004433 A CN 201010004433A CN 102129562 B CN102129562 B CN 102129562B
Authority
CN
China
Prior art keywords
image
identified
feature
foreground
icon
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201010004433.6A
Other languages
English (en)
Other versions
CN102129562A (zh
Inventor
朱远平
孙俊
皆川明洋
堀田悦伸
直井聪
于浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CN201010004433.6A priority Critical patent/CN102129562B/zh
Publication of CN102129562A publication Critical patent/CN102129562A/zh
Application granted granted Critical
Publication of CN102129562B publication Critical patent/CN102129562B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Character Input (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种图标识别方法和装置。该方法包括:获取待识别图像的前景边缘密度特征;以及分类步骤,根据所述前景边缘密度特征对所述待识别图像是否为图标进行分类。获取待识别图像的前景边缘密度特征的步骤包括下述两步骤:获取整个待识别图像的前景边缘密度作为第一前景边缘密度特征;和获取待识别图像的前景边缘密度的离散程度作为第二前景边缘密度特征。分类步骤被配置为根据所述第一前景边缘密度特征和所述第二前景边缘密度特征对所述待识别图像是否为图标进行分类。相应的图标识别装置能够实现该方法。

Description

图标识别方法和装置
技术领域
本发明总体上涉及信息处理领域,尤其涉及一种用于识别图标(Logo)的方法和装置。
背景技术
在当前的信息时代,越来越多的信息需要以电子信息的方式来储存和处理,因而需要具有高准确率的文字识别技术。然而在图文混合情况下,要进行高准确率的文字识别是困难的,因为其中所包含的图标会干扰识别结果。目前还没有一种有效的识别图标的方法。
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
本发明旨在实现自动识别文档中的图标,从而在进行文字识别之前能够排除图标的影响,以提高文字识别的准确率。当然,识别出图标本身也是有意义的。
为此,本发明的一个目的是提供一种用于识别图标的方法和装置,借助该方法和装置可以确定文档中的图标。
本发明的另一个目的是提供在被计算设备执行时使计算设备能够执行上述方法的处理过程的计算机程序代码,以及其上存储有该计算机程序代码的计算机可读存储介质及计算机程序产品。
为了实现上述目的,根据本发明的一个方面,提供了一种图标识别方法,包括:获取待识别图像的前景边缘密度特征;以及分类步骤,根据所述前景边缘密度特征对所述待识别图像是否为图标进行分类。其中,获取待识别图像的前景边缘密度特征的步骤包括下述两步骤:获取整个待识别图像的前景边缘密度作为第一前景边缘密度特征;以及获取待识别图像的前景边缘密度的离散程度作为第二前景边缘密度特征;其中,所述分类步骤被配置为根据所述第一前景边缘密度特征和所述第二前景边缘密度特征对所述待识别图像是否为图标进行分类。
根据本发明的另一个方面,还提供了一种图标识别装置,包括:前景边缘密度特征获取装置,其被配置为获取待识别图像的前景边缘密度特征;以及分类装置,其被配置为根据所述前景边缘密度特征对所述待识别图像是否为图标进行分类。其中,前景边缘密度特征获取装置包括第一前景边缘密度特征获取装置和第二前景边缘密度特征获取装置,其中:第一前景边缘密度特征获取装置被配置为获取整个待识别图像的前景边缘密度作为第一前景边缘密度特征;和第二前景边缘密度特征获取装置被配置为获取待识别图像的前景边缘密度的离散程度作为第二前景边缘密度特征;其中,所述分类装置被配置为根据所述第一前景边缘密度特征和所述第二前景边缘密度特征对所述待识别图像是否为图标进行分类。
依据本发明的其它方面,还提供了相应的计算机程序代码、计算机可读存储介质和计算机程序产品。
本发明的优点在于,可以实现自动识别文档中的图标。
通过以下结合附图对本发明的最佳实施例的详细说明,本发明的这些以及其他优点将更加明显。
附图说明
本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。在附图中:
图1示出了根据本发明的一个实施例的图标识别方法的流程图。
图2示出了根据本发明的另一实施例的图标识别方法的流程图。
图3示出了根据本发明的另一实施例的图标识别方法的流程图。
图4示出了根据本发明的另一实施例的图标识别方法的流程图。
图5示出了选取合适的边缘投影特征的流程图。
图6示出了根据本发明的另一实施例的图标识别方法的流程图。
图7示出了根据本发明的另一实施例的图标识别方法的流程图。
图8示出了根据本发明的一个实施例的图标识别装置的方框图。
图9示出了根据本发明的另一实施例的图标识别装置的方框图。
图10示出了根据本发明的另一实施例的图标识别装置的方框图。
图11示出了根据本发明的另一实施例的图标识别装置的方框图。
图12示出了根据本发明的另一实施例的图标识别装置的方框图。
图13示出了根据本发明的另一实施例的图标识别装置的方框图。
图14是示出了在其中可以实现根据本发明实施例的方法和/或装置的通用个人计算机的示例性结构的方框图。
具体实施方式
在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
需要说明的是,在本申请中的“图标”具有广泛的含义,其包括例如名片中的公司标志、菜单中的图片等等不同于文字的内容。本发明所要解决的问题是利用图标不同于文字的特征来识别这些图标。
发明人注意到,文字往往具有较为简单的有规律的结构,而图标通常较为复杂。通过研究文字和图标的这种内在区别,可以在识别中加以利用从而进行有效的识别。
第一实施方式
发明人研究发现,文字通常由线条组成,而图标可能包括各种几何形状,例如可能包含实心的圆形、矩形或者各种形状的实心块等等。对于线条而言,其边缘点的像素数目占整个线条的像素数目的比例较大,而对于实心块而言,其边缘点的像素数目占该实心块的像素数目的比例较小。也就是说,文字图像和图标图像通常具有不同的前景边缘密度特征。因此,可以利用文字图像和图标图像的这一区别来识别图标图像。
例如,图1示出了根据本发明的一个实施例的图标识别方法的流程图。该方法包括:获取待识别图像的前景边缘密度特征;以及分类步骤,其中根据所述前景边缘密度特征对待识别图像是否为图标进行分类。对这些步骤的具体说明如下。
S102:获取待识别图像的前景边缘密度特征。
为了获取前景边缘密度,需要确定待识别图像中前景图像的边缘。本领域技术人员知道可以有多种方法来确定前景图像的边缘,例如可以通过二值化方法或者通过对待识别图像中的像素求梯度来确定前景图像的边缘。下面以二值化方法为例来进行说明。对于其他确定边缘的方法,本领域技术人员根据本发明所公开的内容容易得到相应的实施方式。
在获得输入的待识别图像之后,对该图像进行预处理,例如进行二值化处理以将模拟图像、彩色数字图像、灰度级图像等转换为二值图像。该二值化处理是本领域技术人员熟知的技术,在此不再详述。
将该二值化处理后的待识别图像记为B(x,y),其中x、y表示该图像中各个像素的坐标。对于该图像中的前景像素,设定B(x,y)=1,而对于该图像中的背景像素,设定B(x,y)=0。对于前景图像边缘的像素使用E(x,y)=1表示,而非前景图像边缘的像素用E(x,y)=0表示。在此基础上,对于待识别图像可以通过前景图像边缘的像素数目与前景图像的像素数目的比值来计算其前景边缘密度特征。
为了获取前景边缘密度,可以将边缘像素数目与前景像素数目对比。例如,前景边缘密度De可以通过下式来计算:
D e = Σ x , y E ( x , y ) / Σ x , y B ( x , y ) - - - ( 1 )
由此可以获取待识别图像的前景边缘密度特征。需要说明的是,前景边缘密度特征并非局限于通过上述公式来获取。本领域技术人员容易想到,任何计算方式,只要能够反映边缘像素数目与前景像素数目之间的对比,即能够作为前景边缘密度特征。
分类步骤S108:其中根据所述前景边缘密度特征对待识别图像是否为图标进行分类。
由前面的分析可知,在对前景像素、背景像素和边缘像素的上述赋值情况下,De越大,则说明前景图像边缘的像素占前景图像像素的比例越大,因此该待识别图像越可能为文字图像,De越小,则该待识别图像越可能为图标图像。
需要说明的是,上述对前景像素和背景像素的赋值可以是任意的,例如可以将前景像素设为B(x,y)=0而将背景像素设为B(x,y)=1,这并不影响本发明的本质。
第二实施方式
在第一实施方式的基础上,发明人进一步研究发现,对于前景边缘密度特征可以进行进一步细分。例如可以对整个待识别图像的前景边缘密度特征进行根据第一实施方式的分析,也可以将待识别图像首先划分为多个部分,并针对每个部分来进行根据第一实施方式的分析。对于整个待识别图像的前景边缘密度特征(在本发明中也称为第一前景边缘密度特征),可以简单地利用第一实施方式中所说明的方式来进行分析。下面针对将待识别图像划分为多个部分并进行分析的方法进行详细说明。
发明人研究发现,文字通常由线条组成,并且在文字的形成过程中,出于美学的考虑,通常追求文字整体上一致的线性特征。换而言之,对于文字图像,各部分的线性特征往往具有较好的空间一致性,而图标图像通常没有这种特征。因此,可以利用文字和图标的这种区别来识别图标。
如前面的第一实施方式中已经提及的那样,本领域技术人员知道可以有多种方法来确定前景图像的边缘,例如可以通过二值化方法或者通过对待识别图像求梯度来确定前景图像的边缘。下面仍然以二值化方法为例来进行说明。对于其他确定边缘的方法,本领域技术人员根据本发明所公开的内容容易得到相应的实施方式。
在获得输入的待识别图像之后,对该图像进行预处理,例如进行二值化处理以将模拟图像、彩色数字图像、灰度级图像等转换为二值图像。该二值化处理是本领域技术人员熟知的技术,在此不再详述。
在获得待识别图像的二值图像的基础上,可以进行如下处理和分析。
首先,将待识别图像划分为多个部分。例如,可以将该二值图像划分为Mg×Ng的格子,其中Mg表示在水平方向的格子数目,而Ng表示在竖直方向的格子数目,Mg、Ng都为自然数。
随后,获取各部分的前景边缘密度。例如对于每个划分的格子,利用上述公式(1)计算前景边缘密度,假设每个格子的前景边缘密度为Li,j,其中i、j分别表示该格子在Mg×Ng的矩阵中所在的行和列,1≤i≤Mg,1≤j≤Ng。关于前景边缘密度Li,j的计算,同样可以利用第一实施方式中的对前景像素、背景像素和边缘像素的赋值和计算方法,在此不再赘述。
接下来,获取各部分的前景边缘密度的离散程度作为第二前景边缘密度特征。例如在计算出每个格子的前景边缘密度Li,j之后,为了分析各格子之间的前景边缘密度是否具有大的离散程度,可以计算前景边缘密度Li,j的方差VL来分析待识别图像的空间一致性:
V L = 1 Mg × Ng Σ i , j Mg , Ng ( L i , j - L ‾ ) 2 - - - ( 2 )
其中表示前景边缘密度Li,j的平均值,可以通过下式来计算:
V L = 1 Mg × Ng Σ i , j Mg , Ng L i , j - - - ( 3 )
需要说明的是,该第二前景边缘密度特征并非局限于通过上述公式来获取。本领域技术人员容易想到,任何计算方式,只要能够反映前景边缘密度的离散程度,就能够用来获取第二前景边缘密度特征。
由以上分析可知,前景边缘密度Li,j的方差VL越大,则说明待处理图像的离散程度越大,即空间一致性越差,因而不符合文字的具有一致的线性特征的规律,所以该待处理图像越可能是图标图像,否则该待处理图像越可能是文字图像。
相应地,图2示出了根据本发明的该实施例的图标识别方法的流程图。与根据图1所示的方法相对比可以看出,在根据图2的图标识别方法中,获取待识别图像的前景边缘密度特征的步骤包括:S1020,获取整个待识别图像的前景边缘密度作为第一前景边缘密度特征;以及S1022,获取待识别图像的前景边缘密度的离散程度作为第二前景边缘密度特征。需要说明的是,在该图标识别方法中并非必须同时包括这两个步骤,而是可以择一地或者结合地实施这两个步骤,也就是说,在分类步骤108中可以根据所述第一前景边缘密度特征和所述第二前景边缘密度特征中的至少一个对所述待识别图像是否为图标进行分类。
第三实施方式
发明人研究发现,文字图像和图标图像在纹理特征方面具有明显不同。因此,可以利用这种纹理特征来识别图标。
纹理特征可以分为二值纹理特征、灰度纹理特征和彩色纹理特征。下面分别针对这些纹理特征进行说明。
二值纹理特征
发明人研究发现,文字图像和图标图像往往具有不同的纹理复杂度。因此,可以利用文字和图标的这种区别来识别图标。
发明人进一步研究发现,纹理的一个方面是各种边缘。因此,为了区分纹理是否复杂,可以利用待识别图像的边缘投影特征来进行识别。下面对此进行详细说明。
为了获取边缘投影特征,需要先获取前景图像的边缘像素。如前面的实施例中已经提及的那样,本领域技术人员知道可以有多种方法来确定前景图像的边缘,例如可以通过二值化方法或者通过对待识别图像求梯度来确定前景图像的边缘。该边缘像素获取方法是本领域技术人员所熟知的技术,这里不再详细阐述。
在获取待识别图像的前景图像的边缘像素之后,可以将边缘像素进行投影。为了便于计算投影值,可以将像素二值化。如第一实施方式中所定义的那样,对于前景图像边缘的像素使用E(x,y)=1表示,而非前景图像边缘的像素用E(x,y)=0表示。随后进行边缘像素的投影。
边缘像素投影可以分为水平投影和竖直投影。用H(y)表示水平投影,V(x)表示竖直投影,则得到如下表示:
H ( y ) = Σ x M E ( x , y ) V ( x ) = Σ y N E ( x , y ) - - - ( 4 )
其中M表示待识别图像的水平方向的像素数目,N表示待识别图像的竖直方向的像素数目,M、N都为自然数。
在计算出投影值之后,可以进一步计算边缘投影特征。例如可以计算
图像的纹理复杂度较高,所以平均边缘投影值较大。通过这种方式,可以识别出待识别图像为文字图像还是图标图像。
发明人注意到,虽然图标图像的纹理复杂度要高于文字图像的纹理复投影值的最大值,并利用边缘投影值的最大值与平均边缘投影值相结合来进行判断。
例如,可以计算水平投影的最大值Hmax和竖直投影的最大值Vmax
H max = max y H ( y ) V max = max x V ( x ) - - - ( 6 )
由于图标图像的边缘投影值的最大值通常也大于文字图像的边缘投影的最大值,所以通过利用计算边缘投影的最大值与边缘投影值的乘积来比较,可以进一步扩大图标图像和文字图像的差别,从而更为准确地进行判断。
优选的是,针对宽度和高度的比值设置阈值来判断待识别图像为水平图像还是竖直图像,如果该比值大于第一阈值(例如大于2),则认为待识别图像为水平图像,使用Pv来进行判断,如果该比值小于第二阈值(例如小于1/2),则认为待识别图像为竖直图像,使用Ph来进行判断。
如果高度和宽度的比值处于第一阈值和第二阈值之间,则认为待识别图像没有明显的取向特征,此时可以任意地使用Pv或Ph来进行判断,然而优选的是计算混合边缘投影特征,例如可以选择中的较大值与Hmax和Vmax中的较大值结合(例如相乘)来进行判断。
为了清楚起见,图5示出了利用边缘投影特征来分析待识别图像的流程图。
在步骤S500中,判断待识别图像为水平图像还是竖直图像。如上所述,可以利用宽度和高度的比值来判断。
如果待识别图像为水平图像,则在步骤S502中利用竖直边缘投影特征Pv来判断待识别图像是否为图标图像。
如果待识别图像为竖直图像,则在步骤S504中利用水平边缘投影特征Ph来判断待识别图像是否为图标图像。
如果无法识别待识别图像的取向,则在步骤S506中利用混合边缘投影特征来判断待识别图像是否为图标图像。
在边缘投影中,水平投影的目的在于统计竖直笔划或线条的投影特征,竖直投影的目的在于统计水平笔划和线条的投影特征。发明人注意到,水平笔划或线条会在水平投影中产生较大值,竖直笔划会在竖直投影中产生较大值,而这在表示纹理复杂度时有不利影响。因此为了避免这种不利影响优选的是,可以针对边缘投影的最大值与相应的平均边缘投影值的比值设置第三阈值(例如,该第三阈值可以设置为3),如果边缘投影的最大值与相应的平均边缘投影值的比值大于该阈值,则认为该最大值不应考虑用于判断,因此将其去除并重新计算剩余的点的最大值和相应的平均边缘投影值用于进行判断。
需要说明的是,本发明也并不局限于使用上面提及的平均边缘投影值例如反映边缘在图像中的分布情况,就能够作为该二值纹理特征。
灰度纹理特征
发明人注意到,对于文字图像和图标图像,其灰度纹理特征往往不相同。例如,文字图像的前景灰度和背景灰度的差别较大,在前景或者背景中灰度值的变化较小,与此相反,图标图像的前景灰度和背景灰度的差别通常并不明显,在前景或者背景中灰度值也可以具有较大的变化。因此,可以利用文字图像和图标图像的这种灰度纹理特征来识别图标。下面给出了利用这种区别来识别图标图像的一个例子。
例如,可以获取前景和背景的平均灰度来识别图像是否为图标图像。为了获取平均灰度,可以有多种方法,下面给出了一种利用二值化掩模来计算的方法作为例子。例如,可以通过下式来获取前景和背景的平均灰度:
G b = 1 A Σ x , y M , N I ( x , y ) × ( 1 - B ( x , y ) ) G f = 1 A Σ x , y M , N I ( x , y ) × B ( x , y ) - - - ( 8 )
其中A为待识别图像的面积,I(x,y)为待识别图像的灰度值。如上面已经阐述的那样,B(x,y)为二值化处理后的待识别图像,其中对于该二值化图像中的前景像素,设定B(x,y)=1,而对于该图像中的背景像素,设定B(x,y)=0。由此,Gb表示待识别图像中的背景像素的平均灰度值,Gf表示待识别图像中的前景像素的平均灰度值。如上所述,由于文字图像的前景灰度和背景灰度的差别较大,而图标图像的前景灰度和背景灰度的差别通常并不明显,所以可以将Gb和Gf相结合来判断待识别图像是否为图标图像。例如可以利用Gb-Gf来判断,该差值越小,说明前景与背景的灰度差别越小,因此待识别图像越可能为图标图像,否则越可能为文字图像。
此外,可以通过获取背景灰度和前景灰度的离散程度来进行判断。例如可以通过下式计算背景灰度的方差Δb和前景灰度的方差Δf用于衡量灰度的变化情况:
Δb = 1 A Σ x , y M , N ( I ( x , y ) × ( 1 - B ( x , y ) ) - G b ) 2 Δf = 1 A Σ x , y M , N ( I ( x , y ) × B ( x , y ) - G f ) 2 - - - ( 9 )
其中A、I(x,y)、B(x,y)、M、N和Gb以及Gf具有如上所述相同的定义,在此不再赘述。
如上面所讨论的那样,对于文字图像,在前景或者背景中灰度值的变化较小,与此相反,图标图像在前景或者背景中灰度值通常具有较大的变化。因此,可以根据背景灰度的方差Δb和前景灰度的方差Δf来判断待识别图像是否为图标图像。例如可以利用Δb+Δf来进行判断。该值越大,则说明待识别图像的前景和背景中灰度值的变化较大,因此越可能是图标图像,否则越可能是文字图像。
优选的是,将Gb、Gf、Δb和Δf结合考虑来判断待识别图像。例如,可以计算如下的灰度纹理特征:
C gray = Δb + Δf G b - G f - - - ( 10 )
同样根据上述讨论可知,Cgray越大,则说明灰度纹理复杂度越高,因此待识别图像越可能为图标图像,否则越可能为文字图像。
当然,本领域技术人员也容易想到根据上述公开内容使用其他方式来判断待识别图像,例如可以对背景灰度的方差Δb和前景灰度的方差Δf分别设置某个权重,然后相加来进行判断等等,这同样利用了本发明的利用灰度纹理特征的思想。总之,任何计算方法,只要能够反映前景、背景灰度的反差,或者前景、背景灰度离散程度的反差,或者反映这二者的结合,即可用于计算灰度纹理特征。
{
彩色纹理特征
发明人注意到,在待识别图像为彩色图像的情况下,对于文字图像和图标图像,其彩色纹理特征往往不相同。例如,文字图像在前景或者背景中色彩强度值的变化较小,即具有较小的离散程度。与此相反,图标图像在前景或者背景中色彩强度值可以具有较大的变化,即具有较大的离散程
假设待识别图像为YUV格式,如本领域技术人员所熟知的那样,其中Y表示明亮度,又称灰度,U和V分别代表色度和饱和度。在本实施方式中,使用U、V中的较大值作为像素的色彩强度C(x,y),即C(x,y)=max(U(x,y),V(x,y))。于是,可以针对待处理图像通过下式计算背景色彩强度的平均值Gb和前景色彩强度的平均值Gf:
G b = 1 A Σ x , y M , N C ( x , y ) × ( 1 - B ( x , y ) ) G f = 1 A Σ x , y M , N C ( x , y ) × B ( x , y ) - - - ( 11 )
然后可以基于上述平均值来计算背景色彩强度和前景色彩强度的离散程度。例如可以通过下式计算背景色彩强度的方差Δb和前景色彩强度的方差Δf用于衡量色彩强度的变化情况:
Δb = 1 A Σ x , y M , N ( C ( x , y ) × ( 1 - B ( x , y ) ) - G b ) 2 Δf = 1 A Σ x , y M , N ( C ( x , y ) × B ( x , y ) - G f ) 2 - - - ( 12 )
其中A、B(x,y)、M和N具有如其他实施形式中所述相同的定义,在此不再赘述。
对于彩色的待处理图像而言,无论是文字图像还是图标图像其前景和背景的色彩强度的差别可能并不大,因此优选的是,仅仅考虑背景色彩强度的方差Δb和前景色彩强度的方差Δf用于判断待识别图像是否为图标图像。对此,例如可以根据需要分别对背景色彩强度的方差Δb和前景色彩强度的方差Δf设置权重来计算色彩纹理特征:
Ccolor=(β×Δb+α×Δf)             (13)
Ccolor越大,则说明待识别图像的色彩纹理越复杂,因此越可能为图标图像,否则越可能为文字图像。
本领域技术人员容易知道,任何计算方式,只要能够反映待识别图像的色度、饱和度等彩色特征的分布,就能够作为该彩色纹理特征。
对于其他格式的彩色图像,本领域技术人员容易想到可以根据上述公开内容以相应的方式来技术色彩纹理特征,以进行判断。例如对于RGB格式的图像,可以将其转换为YUV格式来计算,也可能取对于人眼较敏感的分量的色彩来进行计算,这些方案都没有超出本发明所公开的范围。
在获得待识别图像的上述纹理特征之后,可以单独利用纹理特征来识别图标,也可以与第一实施形式中的前景边缘密度特征相结合来识别图标。图3示出了根据本发明的一个实施例的图标识别方法的流程图,其中包括:
S102:获取待识别图像的前景边缘密度特征;
S104:获取待识别图像的纹理特征;以及
S108:根据前景边缘密度特征以及所述纹理特征中的至少之一对所述待识别图像是否为图标进行分类。
这里需要明确指出的是,在图3中的步骤S102和S104可以是并行的,也可以先后执行或者反之,也可能只是仅仅执行步骤S102或者S104。
图4在图3的基础上示出了根据本发明的一个实施例的图标识别方法的流程图。在根据图4的图标识别方法中,获取待识别图像的纹理特征的步骤包括:S1042,获取待识别图像的二值纹理特征;S1044,获取待识别图像的灰度纹理特征;以及S1046,获取待识别图像的彩色纹理特征。需要说明的是,在该图标识别方法中并非必须同时包括上述三个步骤,而是也可以择一地或者两两结合地实施这些步骤,也就是说,在分类步骤108中可以根据所述二值纹理特征、灰度纹理特征以及彩色纹理特征中的至少一个对所述待识别图像是否为图标进行分类。
另外,上述二值纹理特征、灰度纹理特征、彩色纹理特征是分别针对灰度图像和彩色图像进行说明的。但需要明白的是,事实上对于任何类型的图像(二值、灰度、彩色)都可以计算二值纹理特征、灰度纹理特征和彩色纹理特征中的一个或者多个,并没有任何限制。
第四实施方式
发明人研究发现,文字通常由线条组成,即具有线性特征,而图标可能包括各种几何形状,例如可能包含实心的圆形、矩形或者各种形状的实心块等等。对于线条,前景像素占整个图像的比例较小,也即具有较小的前景像素密度,而由于图标可能包含各种实心的几何形状,因此前景像素占整个图像的比例较大,也即具有较大的前景像素密度。因此,可以利用文字和图标的这种区别来识别图标。下面给出了利用这种区别来识别图标图像的一个例子。
由上面的讨论可知,对于文字图像,由于其基本上由线条组成,因此具有较强的线性特征,也就是说,在待识别图像的整个区域中,前景像素所占的比例通常较小。而与此相反,由于图标图像可能包含各种形状的实心块,或者可能包含例如粗线条的部分,所以在待识别图像的整个区域中,前景像素所占的比例通常较大。利用文字图像和图标图像的这种区别,通过计算前景像素占待识别图像的整个区域的比例,可以识别出图标图像。
为了利用上述特征,需要确定前景图像中的像素并将其与整个待识别图像的像素比较,从而获得前景像素占待识别图像的整个区域的比例。本领域技术人员知道可以有多种方法来确定前景图像中的像素,下面仍然以二值化方法为例来进行说明。对于其他确定前景图像中的像素的方法,本领域技术人员根据本发明所公开的内容容易得到相应的实施方式。
例如,为了获取前景像素占待识别图像的整个区域的比例,可以计算待识别图像的前景像素密度特征。
将该二值化处理后的待识别图像记为B(x,y),其中x、y表示该图像中各个像素的坐标。对于该图像中的前景像素,设定B(x,y)=1,而对于该图像中的背景像素,设定B(x,y)=0。
对于待识别图像I(x,y),假设其面积为A(即待识别图像中的像素数目),则例如可以通过下式来计算前景像素密度Dp:
D p = 1 A Σ x , y B ( x , y ) - - - ( 14 )
由以上分析可知,前景像素密度Dp越大,则待识别图像越可能为图标图像,否则越可能为文字图像。
需要说明的是,上述对前景像素和背景像素的赋值可以是任意的,例如可以将前景像素设为B(x,y)=0而将背景像素设为B(x,y)=1,这并不影响本发明的本质。
在获得待识别图像的上述前景像素密度特征之后,可以单独利用该特征来识别图标,也可以与前面实施形式中所提出的前景边缘密度特征、纹理特征进行任意组合来识别图标。图6示出了根据本发明的一个实施例的图标识别方法的流程图,其中包括:
S102:获取待识别图像的前景边缘密度特征;
S104:获取待识别图像的纹理特征;
S106:获取待识别图像的前景像素密度特征;以及
S108:根据前景边缘密度特征、纹理特征以及前景像素密度特征的至少之一对所述待识别图像是否为图标进行分类。
同样,这里需要明确指出的是,在图6中的步骤S102、S104和S106可以是并行的,也可以先后执行或者反之,也可能只是仅仅执行步骤S102、S104和S106中的一个或两个步骤。
第五实施方式
发明人注意到,在某些情况下,可以使用先验知识来帮助判断待识别图像是否为图标图像。例如对于名片而言,图标的位置通常位于名片的四个角上,图标的大小通常大于文字大小,图标的颜色通常为彩色的,并且有些图标包括方框。因此,可以利用这些先验知识结合上面实施方式描述的方法来进行判断。即也将上述特征(例如待识别图像的位置、与其它待识别图像的相对大小、颜色等)或者由之衍生的特征作为分类装置的输入。
当然,也可以单独利用所述先验知识来判断待识别图像是否为图标图像,然而这种方法通常误差较大。因此优选的是,将先验知识与上面的其他实施方式所提出的特征的一部分或者全部相结合来判断待识别图像是否为图标图像。
图7示出了根据本发明的一个实施例的图标识别方法的流程图,其中包括:
S100:获取待识别图像的先验知识;
S102:获取待识别图像的前景边缘密度特征;
S104:获取待识别图像的纹理特征;以及
S108:根据所述先验知识、前景边缘密度特征以及纹理特征的至少之一对所述待识别图像是否为图标进行分类。
同样,这里需要明确指出的是,在图7中的步骤S100、S102和S104可以是并行的,也可以先后执行或者反之,而且也可能只是仅仅执行步骤S100、S102和S104中的一个或两个步骤。
对于第一至第五实施形式中提出的各个特征,如果分别单独地使用,则可以针对各个特征基于经验设置阈值,用阈值法对待识别图像进行分类。例如对于前景边缘密度De设置阈值,如果超过该阈值,则认为待识别图像为文字图像,否则为图标图像。对于其他特征也可以类似地设置阈值并使用第一至第五实施方式中已经阐述过的原理来进行判断。当然,也可以对分类装置进行训练,从而利用训练后的分类装置基于上述各个特征对待识别图像进行分类,给出待识别图像为图标的概率。例如,可以采用最近邻(Nearest Neighbor)分类器、SVM分类器等等。分类装置的训练是本领域所公知的,在此不再赘述。无论是阈值法分类装置还是经训练的分类装置,在训练和/或分类时都可以将其他因素考虑进来,例如可以考虑本公开未提及的其他已知的或者将来提出的其他特征等。对于将上述各特征组合来判断的情况,分类装置同样可以针对各个特征设置阈值,并且对这些特征设置优先级以逐层筛选,或者对于各个特征的利用阈值的判断结果使用“与”、“或”等逻辑运算来获取结果。同样也可以对分类装置进行训练,从而利用训练后的分类装置基于上述各个特征对待识别图像进行分类,给出待识别图像为图标的概率。
此外需要说明的是,前面所有“获取”特征的步骤,除了用本公开所述的方法获得之外,也包括用其他替代方式,包括现有的方式和未来的方式获得。此外,这些“获取”步骤的另一种实施方式是,可以从外部直接获取相关特征,然后由分类装置分类。也就是说,获取特征的处理的全部或者部分(例如各实施方式中的所谓预处理,例如二值化处理)可以在本发明的各实施方式的外部进行。
第六实施方式
在上面所说明的第一至第五实施方式中分别描述了前景边缘密度特征、纹理特征、前景像素密度特征以及先验知识,其中前景边缘密度特征又包括第一前景边缘密度特征和第二前景边缘密度特征,而纹理特征包括二值纹理特征、灰度纹理特征以及彩色纹理特征。针对不同类型的待识别图像,可以使用这些特征的不同子集来对所述待识别图像是否为图标进行分类,并且也可能根据需要针对不同的特征设置相应的权重,以便达到更好的效果。
发明人注意到,在图文混合的文档中,图标图像的出现包括两种情况:一种情况是图标图像独立于其他文字图像,例如在名片中可能公司的标志在名片的单独位置;另一种情况是图标图像嵌入在文本行中。对于独立的待识别图像,由于图像通常较大,因此更可能在其中具有例如实心的几何形状这些特征,因此优选的是使用第一前景边缘密度特征和第二前景边缘密度特征中的至少一个对所述待识别图像是否为图标进行分类;而对于嵌入式待识别图像,可能图标图像的大小会与文字图像大小类似,需要附加地使用纹理特征,因此优选使用笫一前景边缘密度特征和第二前景边缘密度特征中的至少一个和/或所述二值纹理特征、灰度纹理特征以及彩色纹理特征中的至少一个,对所述待识别图像是否为图标进行分类。对于每一种情况,还可以分别纳入前景像素密度特征和先验知识中的一个或者多个。为了判断待识别图像是独立于其他文字图像还是嵌入在文本行中,例如可以由外部输入的信息来确定,或者可以自动识别,例如可以通过自动版面分析来确定。该判断方法属于本领域技术人员容易想到的方法,在此不再详细阐述。
因此,本发明的图标识别方法例如可以包括控制步骤,该控制步骤可以根据外部输入确定待识别图像的种类或者自动识别待识别图像的种类(例如上述独立图像还是嵌入式图像),从而控制执行前述各获取步骤获取相应的特征,或者从前述各种特征中选择合适的特征,并且可以针对不同的特征设置相应的权重,以便在分类步骤中进行随后的分类。
本领域技术人员根据本发明所公开的内容通过实验可以确定针对各种情况将上述各种特征相应地组合以达到最佳效果,这里不再进一步详述。
通过上面提出的根据本发明的方法,可以实现自动识别文档中的图标。本发明的方法可以应用于图像(图标)本身的提取,也可以应用于文字识别的预处理,例如在进行文字识别之前排除图标的影响,以提高文字识别的准确率。
第七实施方式
如在第一实施方式中所阐述的那样,发明人研究发现,文字通常由线条组成,而图标可能包括各种几何形状,例如可能包含实心的圆形、矩形或者各种形状的实心块等等。对于线条而言,其边缘点的像素数目占整个线条的像素数目的比例较大,而对于实心块而言,其边缘点的像素数目占该实心块的像素数目的比例较小。也就是说,文字图像和图标图像通常具有不同的前景边缘密度特征。因此,可以利用文字图像和图标图像的这一区别来识别图标图像。
因此,对应于图1所示的方法,在图8中示出了根据本发明的一个实施例的图标识别装置20的方框图,其包括:前景边缘密度特征获取装置202,其被配置为获取待识别图像的前景边缘密度特征;以及分类装置208,其被配置为根据所述前景边缘密度特征对所述待识别图像是否为图标进行分类。
前景边缘密度特征获取装置202可以如在第一实施形式中所详细描述的那样通过前景图像边缘的像素数目与前景图像的像素数目的比值来获取待识别图像的前景边缘密度特征,而分类装置208同样可以根据第一实施形式中所描述的方法来根据前景边缘密度特征对待识别图像是否为图标进行分类,因此这里不再赘述。
第八实施方式
如在第二实施方式中所阐述的那样,发明人进一步研究发现,对于前景边缘密度特征可以进行进一步细分。例如可以对整个待识别图像的前景边缘密度特征进行分析,也可以将待识别图像首先划分为多个部分,并针对每个部分来进行分析。
发明人研究发现,文字通常由线条组成,并且文字的线性特征在空间上往往具有一致性。换而言之,对于文字图像,各部分的线性特征往往具有较好的空间一致性,而图标图像通常没有这种特征。因此,可以利用文字和图标的这种区别来识别图标。
因此,对应于图2所示的图标识别方法,在图9中示出了根据本发明的一个实施例的图标识别装置20的方框图。与图8所示的图标识别装置相对比可以看出,在根据图9的图标识别装置中,前景边缘密度特征获取装置202包括第一前景边缘密度特征获取装置2020和第二前景边缘密度特征获取装置2022。其中:第一前景边缘密度特征获取装置2020被配置为获取整个待识别图像的前景边缘密度作为第一前景边缘密度特征;第二前景边缘密度特征获取装置2022被配置为获取待识别图像的前景边缘密度的离散程度作为第二前景边缘密度特征。关于如何获取第一前景边缘密度特征和第二前景边缘密度特征在第二实施例中已经进行了详细说明,在此不再赘述。
与方法相对应地需要说明的是,在前景边缘密度特征获取装置202中并非必须同时包括前景边缘密度特征获取装置2020和第二前景边缘密度特征获取装置2022,而是也可能仅仅包括其中之一。
其中,分类装置208被配置为根据所述第一前景边缘密度特征和所述第二前景边缘密度特征中的至少一个对所述待识别图像是否为图标进行分类。
第九实施方式
如在第三实施方式中所阐述的那样,发明人研究发现,文字图像和图标图像在纹理特征方面具有明显不同。因此,可以利用这种纹理特征来识别图标。
在获得待识别图像的纹理特征之后,可以单独利用该纹理特征来识别图标,也可以与前景边缘密度特征相结合来识别图标。因此,对应于图3所示的图标识别方法,在图10中示出了根据本发明的一个实施例的图标识别装置20的方框图。与图8所示的图标识别装置相比,根据图10的图标识别装置还包括:纹理特征获取装置204,其被配置为获取待识别图像的纹理特征。当然,图10中所示的前景边缘密度特征获取装置202同样可以包括第一前景边缘密度特征获取装置2020和第二前景边缘密度特征获取装置2022。于是,在根据图10所示的图标识别装置中,分类装置208被配置为,根据所述第一前景边缘密度特征和所述第二前景边缘密度特征中的至少一个以及所述纹理特征对待识别图像是否为图标进行分类。
如在第三实施方式中所详细描述的那样,纹理特征可以分为二值纹理特征、灰度纹理特征和彩色纹理特征。因此相应地,在图11中示出了相应的图标识别装置。其中可以看到,纹理特征获取装置204包括:二值纹理特征获取装置2042、灰度纹理特征获取装置2044和彩色纹理特征获取装置2046,其中:
二值纹理特征获取装置2042被配置为获取边缘投影特征,将该边缘投影特征作为二值纹理特征;
灰度纹理特征获取装置2044被配置为利用前景的平均灰度和背景的平均灰度来获取灰度纹理特征,或者利用前景灰度的离散程度和背景灰度的离散程度来获取灰度纹理特征,或者利用前景的平均灰度、背景的平均灰度、前景灰度的离散程度和背景灰度的离散程度来获取灰度纹理特征;以及
彩色纹理特征获取装置2046被配置为利用前景色彩强度的离散程度和背景色彩强度的离散程度来获取彩色纹理特征。
关于如何获取二值纹理特征、灰度纹理特征和彩色纹理特征,在第三实施方式中进行了详细描述,因此这里不再重复。
与方法相对应地要说明的是,纹理特征获取装置204并非必须同时包括二值纹理特征获取装置2042、灰度纹理特征获取装置2044和彩色纹理特征获取装置2046,而是也可能仅仅包括其中之一或者其中的两个。
其中,分类装置208被配置为,根据所述第一前景边缘密度特征和所述第二前景边缘密度特征中的至少一个,和/或所述二值纹理特征、灰度纹理特征以及彩色纹理特征中的至少一个,对待识别图像是否为图标进行分类。
第十实施方式
如在第四实施方式中所阐述的那样,发明人研究发现,文字通常由线条组成,即具有线性特征,而图标可能包括各种几何形状,例如可能包含实心的圆形、矩形或者各种形状的实心块等等。对于线条,前景像素占整个图像的比例较小,也即具有较小的前景像素密度,而由于图标可能包含各种实心的几何形状,因此前景像素占整个图像的比例较大,也即具有较大的前景像素密度。因此,可以利用文字和图标的这种区别来识别图标。
于是,对应于图6所示的方法,在图12中示出了根据本发明的一个实施例的图标识别装置。从图12中可以看到,该图标识别装置包括前景像素密度特征获取装置206,其被配置为获取待识别图像的前景像素密度特征。关于如何获取待识别图像的前景像素密度特征,在第四实施方式中进行了详细说明,这里不再赘述。
与方法相对应地要说明的是,该图标识别装置并非必须同时包括前景边缘密度特征获取装置202、纹理特征获取装置204和前景像素密度特征获取装置206,而是也可能仅仅包括其中之一或者其中的两个。
相应地,分类装置208可以被配置为在分类时还考虑前景像素密度特征。
第十一实施方式
如在第五实施方式中所阐述的那样,发明人注意到,在某些情况下,可以使用先验知识来帮助判断待识别图像是否为图标图像。例如对于名片而言,图标的位置通常位于名片的四个角上,图标的大小通常大于文字大小,图标的颜色通常为彩色的,并且有些图标包括方框。因此,可以利用这些先验知识结合上面实施方式描述的方法来进行判断。
当然,也可以单独利用该先验知识来判断待识别图像是否为图标图像,然而这种方法通常误差较大。因此优选的是,将先验知识与上面的其他实施方式所提出的特征相结合来判断待识别图像是否为图标图像。
于是,对应于图7所示的方法,在图13中示出了根据本发明的一个实施例的图标识别装置。从图13中可以看出,该图标识别装置还包括先验知识获取装置200,其被配置为获取关于待识别图像的先验知识。
与方法相对应地要说明的是,该图标识别装置并非必须同时包括前景边缘密度特征获取装置202、纹理特征获取装置204和先验知识获取装置200,而是也可能仅仅包括其中之一或者其中的两个。
于是相应地,分类装置208可以被配置为在分类时还考虑该先验知识。
对于第七至第十一实施形式中提出的各个分类装置,可以针对各个特征基于经验设置阈值,用阈值法对待识别图像进行分类。例如对于前景边缘密度De,如果超过该阈值,则认为待识别图像为文字图像,否则为图标图像。对于其他特征也可以类似地设置阈值并使用第一至第五实施方式中已经阐述过的原理来进行判断。当然,也可以对分类装置进行训练,从而利用训练后的分类装置基于上述各个特征对待识别图像进行分类,给出待识别图像为图标的概率。例如,可以采用最近邻(Nearest Neighbor)分类器、SVM分类器等等。分类装置的训练是本领域所公知的,在此不再赘述。无论是阈值法分类装置还是经训练的分类装置,在训练和/或分类时都可以将其他因素考虑进来,例如可以考虑本公开未提及的其他已知的或者将来提出的其他特征等。对于将上述各特征组合来判断的情况,分类装置同样可以针对各个特征设置阈值,并且对这些特征设置优先级以逐层筛选,或者对于各个特征的利用阈值的判断结果使用“与”、“或”等逻辑运算来获取结果。同样也可以对分类装置进行训练,从而利用训练后的分类装置基于上述各个特征对待识别图像进行分类,给出待识别图像为图标的概率。
此外需要说明的是,前面所有的“获取装置”,除了用本公开所述的方法来进行获取之外,也包括用其他替代方式,包括现有的方式和未来的方式来进行获取。此外,这些“获取装置”的另一种实施方式是,可以从外部直接获取相关特征,然后由分类装置分类。也就是说,获取特征的处理的全部或者部分(例如各实施方式中的所谓预处理,例如二值化处理)可以在本发明的各实施方式的外部进行。因此,这种获取装置甚至例如可以仅仅是输入装置。
第十二实施方式
在上面所说明的第七至第十一实施方式中分别描述了前景边缘密度特征获取装置202、纹理特征获取装置204、前景像素密度特征获取装置206以及先验知识获取装置200,其中前景边缘密度特征获取装置202又可以包括第一前景边缘密度特征获取装置2020和第二前景边缘密度特征获取装置2022,而纹理特征获取装置204可以包括二值纹理特征获取装置2042、灰度纹理特征获取装置2044以及彩色纹理特征获取装置2046。针对不同类型的待识别图像,可以将这些装置进行各种组合,从而使用这些特征的不同子集来对所述待识别图像是否为图标进行分类,并且也可能根据需要针对不同的特征设置相应的权重,以便达到更好的效果。
发明人注意到,在图文混合的文档中,图标图像的出现包括两种情况:一种情况是图标图像独立于其他文字图像,例如在名片中可能公司的标志在名片的单独位置;另一种情况是图标图像嵌入在文本行中。对于独立的待识别图像,由于图像通常较大,因此更可能在其中具有例如实心的几何形状这些特征,因此优选的是使用第一前景边缘密度特征和第二前景边缘密度特征中的至少一个对所述待识别图像是否为图标进行分类;而对于嵌入式待识别图像,可能图标图像的大小会与文字图像大小类似,需要附加地使用纹理特征,因此优选使用第一前景边缘密度特征和第二前景边缘密度特征中的至少一个和/或所述二值纹理特征、灰度纹理特征以及彩色纹理特征中的至少一个,对所述待识别图像是否为图标进行分类。对于每一种情况,还可以分别纳入前景像素密度特征和先验知识中的一个或者多个。为了判断待识别图像是独立于其他文字图像还是嵌入在文本行中,例如可以由外部输入的信息来确定,或者可以自动识别,例如可以通过自动版面分析来确定。该判断方法属于本领域技术人员容易想到的方法,在此不再详细阐述。
因此,本发明的图标识别装置例如可以包括控制装置,该控制装置可以根据外部输入确定待识别图像的种类或者自动识别待识别图像的种类(例如上述独立图像还是嵌入式图像),从而控制前述各获取装置获取相应的特征,或者从前述各获取装置获取的各种特征中选择合适的特征,并且可以针对不同的特征设置相应的权重,并输入给分类装置进行随后的分类。
本领域技术人员根据本发明所公开的内容通过实验可以确定针对各种情况将上述各种特征相应地组合以达到最佳效果,这里不再进一步详述。
通过上面提出的根据本发明的图标识别装置20,可以实现自动识别文档中的图标。本发明的方法可以应用于图像(图标)本身的提取,也可以应用于文字识别的预处理,例如在进行文字识别之前排除图标的影响,以提高文字识别的准确率。
另外,应理解,本文所述的各种示例和实施例均是示例性的,本发明不限于此。在本说明书中,“第一”、“第二”等表述仅仅是为了将所描述的特征在文字上区分开,以清楚地描述本发明。因此,不应将其视为具有任何限定性的含义。
上述装置中各个组成模块、单元可通过软件、固件、硬件或其组合的方式进行配置。配置可使用的具体手段或方式为本领域技术人员所熟知,在此不再赘述。在通过软件或固件实现的情况下,从存储介质或网络向具有专用硬件结构的计算机(例如图14所示的通用计算机1400)安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等。
在图14中,中央处理单元(CPU)1401根据只读存储器(ROM)1402中存储的程序或从存储部分1408加载到随机存取存储器(RAM)1403的程序执行各种处理。在RAM1403中,也根据需要存储当CPU1401执行各种处理等等时所需的数据。CPU1401、ROM1402和RAM1403经由总线1404彼此连接。输入/输出接口1405也连接到总线1404。
下述部件连接到输入/输出接口1405:输入部分1406(包括键盘、鼠标等等)、输出部分1407(包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分1408(包括硬盘等)、通信部分1409(包括网络接口卡比如LAN卡、调制解调器等)。通信部分1409经由网络比如因特网执行通信处理。根据需要,驱动器1410也可连接到输入/输出接口1405。可拆卸介质1411比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器1410上,使得从中读出的计算机程序根据需要被安装到存储部分1408中。
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质1411安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图14所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质1411。可拆卸介质1411的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM1402、存储部分1408中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
本发明还提出一种存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时,可执行上述根据本发明实施例的方法。
相应地,用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。
最后,还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。此外,在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上虽然结合附图详细描述了本发明的实施例,但是应当明白,上面所描述的实施方式只是用于说明本发明,而并不构成对本发明的限制。对于本领域的技术人员来说,可以对上述实施方式作出各种修改和变更而没有背离本发明的实质和范围。因此,本发明的范围仅由所附的权利要求及其等效含义来限定。
通过以上的描述不难看出,根据本发明的实施例,提供了如下的方案:
附记1.一种图标识别方法,包括:
-获取待识别图像的前景边缘密度特征;以及
-分类步骤,根据所述前景边缘密度特征对所述待识别图像是否为图标进行分类。
附记2.根据附记1所述的图标识别方法,其中,获取待识别图像的前景边缘密度特征的步骤包括下述两步骤中的至少一个:
-获取整个待识别图像的前景边缘密度作为第一前景边缘密度特征;和
-获取待识别图像的前景边缘密度的离散程度作为第二前景边缘密度特征;
其中,所述分类步骤被配置为根据所述第一前景边缘密度特征和所述第二前景边缘密度特征中的至少一个对所述待识别图像是否为图标进行分类。
附记3.根据附记2所述的图标识别方法,其中将前景图像边缘的像素数目与前景图像的像素数目的比值作为前景边缘密度。
附记4.根据附记2所述的图标识别方法,进一步包括:
获取待识别图像的纹理特征;
其中,所述分类步骤被配置为,根据所述第一前景边缘密度特征和所述第二前景边缘密度特征中的至少一个以及所述纹理特征对所述待识别图像是否为图标进行分类。
附记5.如附记4所述的图标识别方法,其中,获取待识别图像的纹理特征的步骤包括以下步骤中的至少一个:
获取边缘投影特征,将该边缘投影特征作为二值纹理特征;
利用前景的平均灰度和背景的平均灰度来获取灰度纹理特征,或者利用前景灰度的离散程度和背景灰度的离散程度来获取灰度纹理特征,或者利用前景的平均灰度、背景的平均灰度、前景灰度的离散程度和背景灰度的离散程度来获取灰度纹理特征;以及
利用前景色彩强度的离散程度和背景色彩强度的离散程度来获取彩色纹理特征;
其中,所述分类步骤被配置为,根据所述第一前景边缘密度特征和所述第二前景边缘密度特征中的至少一个,和/或所述二值纹理特征、灰度纹理特征以及彩色纹理特征中的至少一个,对所述待识别图像是否为图标进行分类。
附记6.根据附记5所述的图标识别方法,其中,所述分类步骤被进一步配置为:针对不同类型的待识别图像,使用各种特征的不同子集来对所述待识别图像是否为图标进行分类。
附记7.根据附记6所述的图标识别方法,其中,所述分类步骤被进一步配置为:
对于独立的待识别图像,使用第一前景边缘密度特征和第二前景边缘密度特征中的至少一个对所述待识别图像是否为图标进行分类;
对于嵌入式待识别图像,使用第一前景边缘密度特征和第二前景边缘密度特征中的至少一个和/或所述二值纹理特征、灰度纹理特征以及彩色纹理特征中的至少一个,对所述待识别图像是否为图标进行分类。
附记8.根据附记5到7之一所述的图标识别方法,其中获取边缘投影特征的步骤包括:
基于边缘投影平均值来获取边缘投影特征,或者
基于边缘投影平均值与边缘投影值的最大值来获取边缘投影特征。
附记9.根据附记1至7中的任一项所述的图标识别方法,进一步包括:
获取待识别图像的前景像素密度特征;
其中,所述分类步骤被进一步配置为在分类时还考虑所述前景像素密度特征。
附记10.根据附记1至7中的任一项所述的图标识别方法,进一步包括:
获取关于待识别图像的先验知识;
其中,所述分类步骤被进一步配置为在分类时还考虑所述先验知识。
附记11.一种图标识别装置,包括:
前景边缘密度特征获取装置,其被配置为获取待识别图像的前景边缘密度特征;以及
分类装置,其被配置为根据所述前景边缘密度特征对所述待识别图像是否为图标进行分类。
附记12.根据附记11所述的图标识别装置,其中,前景边缘密度特征获取装置包括第一前景边缘密度特征获取装置和第二前景边缘密度特征获取装置中的至少一个,其中:
第一前景边缘密度特征获取装置被配置为获取整个待识别图像的前景边缘密度作为第一前景边缘密度特征;和
第二前景边缘密度特征获取装置被配置为获取待识别图像的前景边缘密度的离散程度作为第二前景边缘密度特征;
其中,所述分类装置被配置为根据所述第一前景边缘密度特征和所述第二前景边缘密度特征中的至少一个对所述待识别图像是否为图标进行分类。
附记13.根据附记12所述的图标识别装置,其中前景边缘密度特征获取装置被配置为:将前景图像边缘的像素数目与前景图像的像素数目的比值作为前景边缘密度。
附记14.根据附记12所述的图标识别装置,进一步包括:
纹理特征获取装置,其被配置为获取待识别图像的纹理特征;
其中,所述分类装置被配置为,根据所述第一前景边缘密度特征和所述第二前景边缘密度特征中的至少一个以及所述纹理特征对所述待识别图像是否为图标进行分类。
附记15.如附记14所述的图标识别装置,其中,纹理特征获取装置包括二值纹理特征获取装置、灰度纹理特征获取装置和彩色纹理特征获取装置中的至少一个:
其中二值纹理特征获取装置被配置为获取边缘投影特征,将该边缘投影特征作为二值纹理特征;
灰度纹理特征获取装置被配置为利用前景的平均灰度和背景的平均灰度来获取灰度纹理特征,或者利用前景灰度的离散程度和背景灰度的离散程度来获取灰度纹理特征,或者利用前景的平均灰度、背景的平均灰度、前景灰度的离散程度和背景灰度的离散程度来获取灰度纹理特征;以及
彩色纹理特征获取装置被配置为利用前景色彩强度的离散程度和背景色彩强度的离散程度来获取彩色纹理特征;
其中,所述分类装置被配置为,根据所述第一前景边缘密度特征和所述第二前景边缘密度特征中的至少一个,和/或所述二值纹理特征、灰度纹理特征以及彩色纹理特征中的至少一个,对所述待识别图像是否为图标进行分类。
附记16.根据附记15所述的图标识别装置,其中该图标识别装置被进一步配置为针对不同类型的待识别图像,使用各种特征的不同子集来对所述待识别图像是否为图标进行分类。
附记17.根据附记16所述的图标识别装置,其中该图标识别装置被进一步配置为:
对于独立的待识别图像,使用第一前景边缘密度特征和第二前景边缘密度特征中的至少一个对所述待识别图像是否为图标进行分类;
对于嵌入式待识别图像,使用第一前景边缘密度特征和第二前景边缘密度特征中的至少一个,和/或所述二值纹理特征、灰度纹理特征以及彩色纹理特征中的至少一个,对所述待识别图像是否为图标进行分类。
附记18.根据附记15到17之一所述的图标识别装置,其中二值纹理特征获取装置被配置为:
基于边缘投影平均值来获取边缘投影特征,或者
基于边缘投影平均值与边缘投影值的最大值来获取边缘投影特征。
附记19.根据附记11至17中的任一项所述的图标识别装置,进一步包括:
前景像素密度特征获取装置,其被配置为获取待识别图像的前景像素密度特征;
其中,所述分类装置被进一步配置为在分类时还考虑所述前景像素密度特征。
附记20.根据附记11至17中的任一项所述的图标识别装置,进一步包括:
先验知识获取装置,其被配置为获取关于待识别图像的先验知识;
其中,所述分类装置被进一步配置为在分类时还考虑所述先验知识。

Claims (9)

1.一种图标识别方法,包括:
-获取待识别图像的前景边缘密度特征;以及
-分类步骤,根据所述前景边缘密度特征对所述待识别图像是否为图标进行分类,
其中,获取待识别图像的前景边缘密度特征的步骤包括下述两步骤:
-获取整个待识别图像的前景边缘密度作为第一前景边缘密度特征;和
-获取待识别图像的前景边缘密度的离散程度作为第二前景边缘密度特征;
其中,所述分类步骤被配置为根据所述第一前景边缘密度特征和所述第二前景边缘密度特征对所述待识别图像是否为图标进行分类。
2.一种图标识别装置,包括:
前景边缘密度特征获取装置,其被配置为获取待识别图像的前景边缘密度特征;以及
分类装置,其被配置为根据所述前景边缘密度特征对所述待识别图像是否为图标进行分类,
其中,前景边缘密度特征获取装置包括第一前景边缘密度特征获取装置和第二前景边缘密度特征获取装置,其中:
第一前景边缘密度特征获取装置被配置为获取整个待识别图像的前景边缘密度作为第一前景边缘密度特征;和
第二前景边缘密度特征获取装置被配置为获取待识别图像的前景边缘密度的离散程度作为第二前景边缘密度特征;
其中,所述分类装置被配置为根据所述第一前景边缘密度特征和所述第二前景边缘密度特征对所述待识别图像是否为图标进行分类。
3.根据权利要求2所述的图标识别装置,其中前景边缘密度特征获取装置被配置为:将前景图像边缘的像素数目与前景图像的像素数目的比值作为前景边缘密度。
4.根据权利要求2所述的图标识别装置,进一步包括:
纹理特征获取装置,其被配置为获取待识别图像的纹理特征;
其中,所述分类装置被配置为,根据所述第一前景边缘密度特征和所述第二前景边缘密度特征以及所述纹理特征对所述待识别图像是否为图标进行分类。
5.如权利要求4所述的图标识别装置,其中,纹理特征获取装置包括二值纹理特征获取装置、灰度纹理特征获取装置和彩色纹理特征获取装置中的至少一个:
其中二值纹理特征获取装置被配置为获取边缘投影特征,将该边缘投影特征作为二值纹理特征;
灰度纹理特征获取装置被配置为利用前景的平均灰度和背景的平均灰度来获取灰度纹理特征,或者利用前景灰度的离散程度和背景灰度的离散程度来获取灰度纹理特征,或者利用前景的平均灰度、背景的平均灰度、前景灰度的离散程度和背景灰度的离散程度来获取灰度纹理特征;以及
彩色纹理特征获取装置被配置为利用前景色彩强度的离散程度和背景色彩强度的离散程度来获取彩色纹理特征;
其中,所述分类装置被配置为,根据所述第一前景边缘密度特征和所述第二前景边缘密度特征,和/或所述二值纹理特征、灰度纹理特征以及彩色纹理特征中的至少一个,对所述待识别图像是否为图标进行分类。
6.根据权利要求5所述的图标识别装置,其中该图标识别装置被进一步配置为针对不同类型的待识别图像,使用各种特征的不同子集来对所述待识别图像是否为图标进行分类。
7.根据权利要求6所述的图标识别装置,其中该图标识别装置被进一步配置为:
对于独立的待识别图像,使用第一前景边缘密度特征和第二前景边缘密度特征对所述待识别图像是否为图标进行分类;
对于嵌入式待识别图像,使用第一前景边缘密度特征和第二前景边缘密度特征,和/或所述二值纹理特征、灰度纹理特征以及彩色纹理特征中的至少一个,对所述待识别图像是否为图标进行分类。
8.根据权利要求5到7之一所述的图标识别装置,其中二值纹理特征获取装置被配置为:
基于边缘投影平均值来获取边缘投影特征,或者
基于边缘投影平均值与边缘投影值的最大值来获取边缘投影特征。
9.根据权利要求2至7中的任一项所述的图标识别装置,进一步包括:
前景像素密度特征获取装置,其被配置为获取待识别图像的前景像素密度特征;
其中,所述分类装置被进一步配置为在分类时还考虑所述前景像素密度特征。
CN201010004433.6A 2010-01-15 2010-01-15 图标识别方法和装置 Expired - Fee Related CN102129562B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201010004433.6A CN102129562B (zh) 2010-01-15 2010-01-15 图标识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010004433.6A CN102129562B (zh) 2010-01-15 2010-01-15 图标识别方法和装置

Publications (2)

Publication Number Publication Date
CN102129562A CN102129562A (zh) 2011-07-20
CN102129562B true CN102129562B (zh) 2014-07-09

Family

ID=44267642

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010004433.6A Expired - Fee Related CN102129562B (zh) 2010-01-15 2010-01-15 图标识别方法和装置

Country Status (1)

Country Link
CN (1) CN102129562B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831624A (zh) * 2012-09-03 2012-12-19 北京千橡网景科技发展有限公司 图像压缩方法及装置
CN103634653B (zh) * 2013-11-06 2017-03-01 小米科技有限责任公司 台标识别方法、装置和电视机
CN103745197B (zh) * 2013-12-27 2017-08-29 深圳市捷顺科技实业股份有限公司 一种车牌检测方法及装置
CN104091326A (zh) * 2014-06-16 2014-10-08 小米科技有限责任公司 图标分割方法和装置
CN104050004B (zh) * 2014-06-30 2018-01-09 宇龙计算机通信科技(深圳)有限公司 界面图标色彩设置方法、装置及终端
CN104463176B (zh) * 2014-12-24 2017-09-22 北京奇虎科技有限公司 图形标志图片检测方法和装置
CN106997428A (zh) * 2017-04-08 2017-08-01 上海中医药大学附属曙光医院 目诊系统
CN108764206B (zh) * 2018-06-07 2020-07-28 广州杰赛科技股份有限公司 目标图像识别方法和系统、计算机设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1790377A (zh) * 2004-12-17 2006-06-21 佳能株式会社 反白字符识别、快速准确的块分类方法和文本行生成方法
CN101593277A (zh) * 2008-05-30 2009-12-02 电子科技大学 一种复杂彩色图像中文本区域自动定位方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1790377A (zh) * 2004-12-17 2006-06-21 佳能株式会社 反白字符识别、快速准确的块分类方法和文本行生成方法
CN101593277A (zh) * 2008-05-30 2009-12-02 电子科技大学 一种复杂彩色图像中文本区域自动定位方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
吴桂兰.基于边缘信息的文本区域提取算法的研究.《万方学位论文》.2007,第10页.
基于边缘信息的文本区域提取算法的研究;吴桂兰;《万方学位论文》;20071125;第10页 *
数字视频中字幕检测及提取的研究和实现;蔡波 等;《计算机辅助设计与图形学学报》;20030731;第15卷(第7期);第898-903页 *
蔡波 等.数字视频中字幕检测及提取的研究和实现.《计算机辅助设计与图形学学报》.2003,第15卷(第7期),第898-903页.

Also Published As

Publication number Publication date
CN102129562A (zh) 2011-07-20

Similar Documents

Publication Publication Date Title
CN102129562B (zh) 图标识别方法和装置
EP2461290B1 (en) Image processing device, image processing method, and program
Fan et al. A modified valley-emphasis method for automatic thresholding
US6608942B1 (en) Method for smoothing jagged edges in digital images
CN103048329B (zh) 一种基于主动轮廓模型的路面裂缝检测方法
CN101710387B (zh) 一种高分辨率遥感图像智能分类方法
CN103455806B (zh) 文档处理装置、文档处理方法以及扫描仪
CN102750535B (zh) 自动提取图像前景的方法和系统
CN104809461B (zh) 结合序列图像超分辨率重建的车牌识别方法及系统
CN103971361B (zh) 图像处理装置和方法
GB2565401A (en) Form structure extraction network
CN102054271B (zh) 文本行检测方法和装置
CN106056155A (zh) 基于边界信息融合的超像素分割方法
CN103268481A (zh) 一种复杂背景图像中的文本提取方法
CN106096610A (zh) 一种基于支持向量机的文档图像二值化方法
CN104282008B (zh) 对图像进行纹理分割的方法和装置
CN103295021A (zh) 一种静态图片中车辆特征检测及识别的方法及系统
CN105096347A (zh) 图像处理装置和方法
CN103377462A (zh) 对扫描图像进行处理的方法和装置
CN110533023A (zh) 一种用于检测识别铁路货车异物的方法及装置
CN110516584A (zh) 一种显微镜用的基于动态学习的细胞自动计数方法
Bora et al. A new efficient color image segmentation approach based on combination of histogram equalization with watershed algorithm
CN104217440A (zh) 一种从遥感图像中提取建成区的方法
CN103514595A (zh) 图像显著区域检测方法
Wang et al. Local defect detection and print quality assessment

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20140709

Termination date: 20180115

CF01 Termination of patent right due to non-payment of annual fee