CN103679188A - 图像分类器生成方法和装置及图像分类方法和装置 - Google Patents
图像分类器生成方法和装置及图像分类方法和装置 Download PDFInfo
- Publication number
- CN103679188A CN103679188A CN201210337846.5A CN201210337846A CN103679188A CN 103679188 A CN103679188 A CN 103679188A CN 201210337846 A CN201210337846 A CN 201210337846A CN 103679188 A CN103679188 A CN 103679188A
- Authority
- CN
- China
- Prior art keywords
- image
- subregion
- feature
- local
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种图像分类器生成方法和装置及图像分类方法和装置。生成用于表单分拣设备的图像分类器的方法,包括:从多个样本图像中的每个样本图像中提取多个局部特征;将多个样本图像中的每个样本图像划分为多个子区域;将从多个样本图像中提取的多个局部特征中的至少与多个子区域中的同一子区域相关联的局部特征分为同一组;以及根据同一组中的局部特征生成与同一子区域对应的搜索树作为图像分类器。
Description
技术领域
本申请总体上涉及图像处理的领域,更具体而言,涉及一种图像分类器生成方法和装置及图像分类方法和装置。
背景技术
图像分类是图像处理领域中的一个重要方面。在图像处理领域,很多图像处理需要根据图像分类的结果来进行。因此,图像分类的有效性和准确度对图像处理领域中的很多图像处理起着至关重要的作用。
文档图像是各种图像类型中的一种图像类型。文档图像一般具有固定的版面格式,其具体示例包括表单图像、执照图像、证书图像、收据图像、发票图像等等。文档图像一般包括预打印的内容和后打印的内容,其中,预打印的内容通常对应于文档的模板本身,例如空白表单等等;后打印的内容涉及机打或手工填写的内容,例如签字、图章等等。文档图像分类通常在文档的自动分发、归档、标引和提取等方面起到至关重要的作用。
目前,对图像进行分类的技术主要是像素级别的模板图像匹配。这种技术的缺点在于难以避免繁琐的制定模板、书写规则和确认系统的过程。另外,某些技术使用字符识别的结果,但是如果图像质量劣化,则识别结果变得不可靠,从而导致分类的结果变差。另外,现有技术中还存在一种基于机器学习对图像进行分类的技术,但是该技术需要大量的手工标注的样本作为训练集。然而,在实际应用中由于版权保护和信息安全等原因,通常不容易获得真实的训练样本,这使得基于机器学习对图像进行分类的技术难以应用于实际。另外,现有技术中还存在一种基于图形匹配进行图像分类的技术,虽然该技术不需要大量的训练数据,但是其适用范围往往局限于某种特定的版式(例如曼哈顿板块等),或者是假设可以获得完美的图像分割。因此,基于图形匹配进行图像分类的技术同样难以应用于实际。
因此,为了克服对图像进行分类的现有技术的上述缺点,本申请提出了一种新颖的和独创的对图像进行分类的技术,可获得如下技术益处中的至少之一:其适用范围广泛,需要的训练数据少,受图像格式、尺寸或质量的影响小,以及提高了图像分类的健壮性、准确性和有效性。
发明内容
在下文中将给出关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
根据本申请的实施例,提供了一种生成用于表单分拣设备的图像分类器的方法,包括:从多个样本图像中的每个样本图像中提取多个局部特征;将多个样本图像中的每个样本图像划分为多个子区域;将从多个样本图像中提取的多个局部特征中的至少与多个子区域中的同一子区域相关联的局部特征分为同一组;以及根据同一组中的局部特征生成与同一子区域对应的搜索树作为图像分类器。
根据上述方法,其中,子区域彼此交叠。
根据上述方法,其中,子区域为通过划分样本图像得到的网格、或通过对划分样本图像得到的网格按照方向进行划分而得到的分区。
根据本发明的另一实施例,提供了一种生成用于表单分拣设备的图像分类器的装置,包括:提取单元,用于从多个样本图像中的每个样本图像中提取多个局部特征;划分单元,用于将多个样本图像中的每个样本图像划分为多个子区域;分组单元,用于将从多个样本图像中提取的多个局部特征中的至少与多个子区域中的同一子区域相关联的局部特征分为同一组;以及生成单元,用于根据同一组中的局部特征生成与同一子区域对应的搜索树作为图像分类器。
根据上述装置,其中,子区域彼此交叠。
根据上述装置,其中,子区域为通过划分样本图像得到的网格、或通过对划分样本图像得到的网格按照方向进行划分而得到的分区。
根据本发明的又一实施例,提供了一种在表单分拣设备中对图像进行分类的方法,包括:从待分类的至少一个图像中的每个图像中提取多个局部特征;将待分类的至少一个图像中的每个图像划分为多个子区域;针对从待分类的至少一个图像中的每个图像中提取的多个局部特征中的每个局部特征,通过与多个子区域中的关联于该局部特征的子区域对应的搜索树,得到与该局部特征最相似的最近邻特征,以及根据与最近邻特征对应的图像类别得到每个图像的初级分类结果;以及根据多个初级分类结果进行投票,以得到每个图像的最终分类结果。
根据上述方法,还包括:根据与从待分类的图像中提取的多个局部特征中的每个局部特征最相似的最近邻特征,将待分类的图像与图像类别中的模板图像进行对准。
根据本发明的再一实施例,提供了一种在表单分拣设备中对图像进行分类的装置,包括:提取部分,用于从待分类的至少一个图像中的每个图像中提取多个局部特征;划分部分,用于将待分类的至少一个图像中的每个图像划分为多个子区域;初级分类部分,用于针对从待分类的至少一个图像中的每个图像中提取的多个局部特征中的每个局部特征,通过与多个子区域中的关联于每个局部特征的子区域对应的搜索树,得到与该局部特征最相似的最近邻特征,以及根据与最近邻特征对应的图像类别得到每个图像的初级分类结果;以及投票部分,用于根据多个初级分类结果进行投票,以得到每个图像的最终分类结果。
根据上述装置,还包括:对准部分,用于根据与从待分类的图像中提取的多个局部特征中的每个局部特征最相似的最近邻特征,将待分类的图像与图像类别中的模板图像进行对准。
本申请的对图像进行分类的方法和装置可获得如下技术益处中的至少之一:其适用范围广泛,需要的训练数据少,受图像格式、尺寸或质量的影响小,因此可以提高图像分类的健壮性、准确性和有效性。
附图说明
本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。在附图中:
图1是示出根据本发明的一个实施例的生成图像分类器的方法的示意性流程图;
图2是示出根据本发明的一个实施例的生成图像分类器的示意图;
图3是示出根据本发明的一个实施例的生成图像分类器的装置的示意性框图;
图4是示出根据本发明的一个实施例的对图像进行分类的方法的示意性流程图;
图5是示出根据本发明的一个实施例的对图像进行分类的示意图;
图6是示出根据本发明的一个实施例的对图像进行对准的处理的示意性流程图;
图7是示出对图像进行对准的示意图;
图8是示出对准后的图像的示意图;
图9是示出根据本发明的一个实施例的对图像进行分类的装置的示意性框图;
图10是示出根据本发明的另一个实施例的对图像进行分类的装置的示意性框图;
图11是示出可用于作为实施根据本发明的实施例的信息处理设备的示意性框图。
具体实施方式
在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施方式的过程中可以做出很多特定于实施方式的决定,以便实现开发人员的具体目标,并且这些决定可能会随着实施方式的不同而有所改变。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的装置结构,而省略了与本发明关系不大的其他细节。
下面结合图1和图2来描述根据本发明的一个实施例的生成图像分类器的方法。图1是示出根据本发明的一个实施例的生成图像分类器的方法的示意性流程图。图2是示出根据本发明的一个实施例的生成图像分类器的示意图。
在借助根据本发明的实施例的生成图像分类器的方法来生成图像分类器时,如图1所示,该方法在S100开始。在S100之后,该方法前进到S102。
在S102处,从多个样本图像中的每个样本图像中提取多个局部特征。
如图2中的202所示,为了便于从输入的多个样本图像201中的每个样本图像中提取多个局部特征,可以对输入的多个样本图像中的每个样本图像进行图像预处理。输入的多个样本图像201一般为彩色图像,其包含的信息量较大,导致运算量也较大。为了减小后续的运算量,可以将作为彩色图像的多个样本图像201转化为灰度图像。本领域技术人员应该理解,可以采用将彩色图像转化为灰度图像的各种具体技术,其具体细节在此不再赘述。另外,为了减少所提取的特征的数量以减少运算量,还可以对输入的多个样本图像201或其转化后的灰度图像进行下采样。例如,当输入的多个样本图像201或其转化后的灰度图像的宽和高的像素值的最大值max_wh大于1000时,可以以系数K=2n进行下采样,从而使下采样后的图像的宽和高的像素值的最大值max_wh’减小到1000以下。本领域技术人员应该理解,可以采用对图像进行下采样的各种具体技术,其具体细节在此不再赘述。
本领域技术人员应当理解,上述对多个样本图像中的每个样本图像进行图像预处理是可选的。即,也可以不对多个样本图像中的每个样本图像进行图像预处理,而是直接从多个样本图像中的每个样本图像中提取多个局部特征。
如图2中的203所示,可以直接从多个样本图像中的每个样本图像中提取多个局部特征,或者可以从经过图像预处理之后的多个样本图像中的每个样本图像中提取多个局部特征。本领域技术人员应当理解,可以采用本领域中的各种提取图像局部特征的方法来从多个样本图像中的每个样本图像中提取多个局部特征,例如可以采用SIFT(Scale Invariant FeatureTransform,尺度不变特征变换)方法、SURF(Speeded Up Robust Feature,加速稳健特征)方法、BRISK方法或FREAK方法等等。本文中采用SIFT方法作为示例从多个样本图像中的每个样本图像中提取多个局部特征。具体地,可以采用SIFT方法从多个样本图像201中的第i个样本图像中提取多个特征描述子,每个描述子包括:长度M等于128维的特征向量Di=[di1,di2,……,diM],其记录了与该局部特征相关联的特征区域的强度;长度为4维的向量Fi=[Xi,Yi],其分别记录了该局部特征的X轴和Y轴的位置;尺度Si;以及主方向Ri等。有关SIFT方法的具体描述,可以参考“Distinctive Image Features from Scale-Invariant Keypoints”,D.Lowe,InIntl.Journal of Computer Vision,vol.60,no.2,第91-110页,2004年。
回到图1,在S104处,将多个样本图像中的每个样本图像划分为多个子区域。
如图2所示,假设当前处理的样本图像201为通过扫描得到的“营业执照”的文档图像,则可以如图2中的204所示,将该“营业执照”的文档图像划分为多个子区域。本领域技术人员应当理解,可以采用各种方法按照一定的模式将文档图像划分为多个子区域,以及划分得到的多个子区域的形状、大小等可以相同,也可以不相同,只要可以将整个文档图像划分为多个面积比整个文档图像的面积更小的子区域即可。换言之,本发明对划分得到的子区域的形状和大小不做具体的限定。
具体地,根据本发明的一个实施例,子区域可以为通过划分样本图像得到的网格。例如,如图2所示,可以将“营业执照”的文档图像划分为m×n个网格,其中,m和n均为自然数,并且m和n可以相等但不同时等于1。网格的形状可以为矩形或正方形等。本领域技术人员应当理解,网格的形状也可以为其它形状,例如圆形或椭圆形等。另外,划分得到的m×n个网格中的各个网格之间的大小可以相同,也可以不同。换言之,本发明对划分得到的网格的形状和大小不做具体的限定。
根据本发明的另一个实施例,子区域可以为通过对划分样本图像得到的网格按照方向进行划分而得到的分区。例如,如图2中的206所示,针对将“营业执照”的文档图像划分得到的m×n个网格中的每个网格,按照方向将每个网格均匀划分为r个分区作为子区域,例如按照[0,π/4]、[π/4,π/2]、[π/2,3π/4]、[3π/4,π]、[π,5π/4]、[5π/4,3π/2]、[3π/2,7π/4]和[7π/4,2π/]共8个方向将每个网格划分为8个分区作为8个子区域。分别对m×n个网格中的每个网格执行分区的划分,由此可以得到m×n×r个分区作为m×n×r个子区域。
本领域技术人员应当理解,子区域还可以是其它形状或大小等,只要所有子区域的集合可以覆盖整个文档图像即可。
另外,为了进一步改善子区域边界附近的特征标记的不确定性可能引起的不足,在将样本图像划分为多个子区域时,可以使多个子区域彼此交叠。换言之,在将样本图像划分为多个子区域时,可以使相邻的一个子区域与另一个子区域存在部分重叠的区域。
具体地,在子区域是通过划分样本图像得到的网格的情况下,如图2中的205所示,由虚线框表示的相邻的两个网格彼此交叠,即由虚线框表示的相邻的两个网格存在部分重叠。另外,在子区域是通过对划分样本图像得到的网格按照方向进行划分而得到的分区的情况下,也可以对方向采用类似的方式,使得相邻的两个分区也彼此交叠。
再次回到图1,在S106,将从多个样本图像中提取的多个局部特征中的至少与多个子区域中的同一子区域相关联的局部特征分为同一组。
如上所述,可以从每个样本图像中提取多个局部特征。另外,如上所述可以将每个样本图像划分为多个子区域。因此,可以根据所提取的局部特征中所包含的X坐标和Y坐标的位置信息,来确定该局部特征是从样本图像中的哪个子区域中提取的,即确定与该局部特征相关联的子区域。
假设存在N个样本图像{IMG1,IMG2,……,IMGp,……,IMGN},其中p和N均为自然数并且1≤p≤N。另外,假设N个样本图像中的每个样本图像可被划分为W个子区域{SR1,SR2,……,SRq,……,SRW},其中q和W均为自然数并且1≤q≤W。另外,可以用Fp,q表示从第p个样本图像的第q个子区域中提取的局部特征。因此,可以将分别从N个样本图像的第1个子区域中提取的局部特征{F1,1,F2,1,……,Fp,1,……,FN,1}划分为同一组作为与第1个子区域相关联的所有局部特征。类似地,可以将分别从N个样本图像的第2个子区域中提取的局部特征{F1,2,F2,2,……,Fp,2,……,FN,2}划分为同一组作为与第2个子区域相关联的所有局部特征,直至可以将分别从N个样本图像的第W个子区域中提取的局部特征{F1,W,F2,W,……,Fp,W,……,FN,W}划分为同一组作为与第W个子区域相关联的所有局部特征为止。
具体地,在子区域是通过划分样本图像得到的m×n个网格的情况下,可以根据所提取的局部特征中所包含的X坐标和Y坐标的位置信息,来确定该局部特征是从样本图像的m×n个网格中的哪个网格中提取的,即确定与该局部特征相关联的网格,从而可以将从多个样本图像中提取的多个局部特征中的至少与m×n个网格中的同一网格相关联的局部特征分为同一组。
另外,在子区域是通过对划分样本图像得到的m×n个网格按照方向进行划分而得到的m×n×r分区的情况下,可以根据所提取的局部特征中所包含的X坐标和Y坐标的位置信息,来确定该局部特征是从样本图像的m×n×r个分区中的哪个分区中提取的,即确定与该局部特征相关联的分区,从而可以将从多个样本图像中提取的多个局部特征中的至少与m×n×r个分区中的同一分区相关联的局部特征分为同一组。
在S106之后,该方法前进到S108。在S108处,根据同一组中的局部特征生成与同一子区域对应的搜索树作为图像分类器。
如上所述,通过步骤S106可以将从多个样本图像中提取的多个局部特征中的至少与多个子区域中的同一子区域相关联的局部特征分为同一组。在从多个样本图像中获得与同一子区域相关联的所有局部特征作为同一组之后,可以利用该同一组中的所有局部特征生成与该同一子区域对应的搜索树作为图像分类器,其中该搜索树的每个叶子节点表示该同一组中的所有局部特征之一。例如,可以利用该同一组中的所有局部特征生成与该同一子区域对应的KD树作为图像分类器,其中该KD树的每个叶子节点表示该同一组中的所有局部特征之一。本领域技术人员应当理解,除了KD树之外,还可以采用其它的存储方式作为上述搜索树,只要所生成的搜索树能够方便地实现对该同一组中的所有局部特征的最近邻搜索即可。
接着上述的示例,可以根据从N个样本图像的第1个子区域中提取的所有局部特征{F1,1,F2,1,……,Fp,1,……,FN,1},来生成与第1个子区域对应的搜索树TR1,其中该搜索树TR1的每个叶子节点表示该同一组中的所有局部特征{F1,1,F2,1,……,Fp,1,……,FN,1}之一。类似地,可以根据从N个样本图像的第2个子区域中提取的所有局部特征{F1,2,F2,2,……,Fp,2,……,FN,2},来生成与第2个子区域对应的搜索树TR2,其中该搜索树TR2的每个叶子节点表示该同一组中的所有局部特征{F1,2,F2,2,……,Fp,2,……,FN,2}之一,直至可以根据从N个样本图像的第W个子区域中提取的所有局部特征{F1,W,F2,W,……,Fp,W,……,FN,W},来生成与第W个子区域对应的搜索树TRW为止,其中该搜索树TRW的每个叶子节点表示该同一组中的所有局部特征{F1,W,F2,W,……,Fp,W,……,FN,W}之一。
具体地,在子区域是通过划分样本图像得到的m×n个网格的情况下,可以根据与m×n个网格中的同一网格相关联的所有局部特征生成与该同一网格对应的搜索树,从而可以总共生成分别与m×n个网格对应的m×n个搜索树。
另外,在子区域是通过对划分样本图像得到的m×n个网格按照方向进行划分而得到的m×n×r分区的情况下,可以根据与m×n×r个分区中的同一分区相关联的所有局部特征生成与该同一分区对应的搜索树,从而可以总共生成分别与m×n×r分区对应的m×n×r个搜索树。
最后,该方法在S110处结束。另外,本领域技术人员应当理解,上述S102和S104的顺序可以是任意的,即S102和S104可以同时执行,也可以先执行S102再执行S104,或者先执行S104在执行S102。
根据上述方法生成的图像分类器可获得如下技术益处中的至少之一:其适用范围广泛,需要的训练数据少,受图像格式、尺寸或质量的影响小,因此采用该图像分类器进行图像分类可以提高图像分类的健壮性、准确性和有效性。
下面结合图3来详细说明根据本发明的一个实施例的生成图像分类器的装置的配置。图3是示出根据本发明的一个实施例的生成图像分类器的装置的示意性框图。
如图3所示,生成图像分类器的装置300包括:提取单元302,用于从多个样本图像中的每个样本图像中提取多个局部特征;划分单元304,用于将多个样本图像中的每个样本图像划分为多个子区域;分组单元306,用于将从多个样本图像中提取的多个局部特征中的至少与多个子区域中的同一子区域相关联的局部特征分为同一组;以及生成单元308,用于根据同一组中的局部特征生成与同一子区域对应的搜索树作为图像分类器。
需要指出的是,在与装置有关的实施例中所涉及的相关术语或表述与以上对根据本发明的实施例的方法的实施例阐述中所使用的术语或表述对应,在此不再赘述。
上述图3中的装置例如可以被配置成按照相应方法中的相应步骤的工作方式来操作。细节参见上述针对根据本申请的实施例的方法所阐述的实施例。在此不再赘述。
本领域技术人员理解,在上面描述的根据本发明各实施例的生成图像分类器的方法中的各步骤或者生成图像分类器的装置中的各功能单元,可以根据实际需要进行任意的组合,即,一个生成图像分类器的方法实施例中的处理步骤可以与其它生成图像分类器的方法实施例中的处理步骤进行组合;或者,一个生成图像分类器的装置实施例中的功能单元可以与其它生成图像分类器的装置实施例中的功能单元进行组合,以便实现所期望的技术目的。
此外,本申请的实施例还提出了一种用于表单分拣设备的信息处理设备,其包括上述根据本发明的实施例的生成图像分类器的装置及其改进方案。
此外,本申请的实施例还提出了一种程序产品,该程序产品承载机器可执行的指令,当在信息处理设备上执行所述指令时,所述指令使得所述信息处理设备执行如根据上述本发明的实施例的生成图像分类器的方法。
此外,本申请的实施例还提出了一种存储介质,该存储介质包括机器可读的程序代码,当在信息处理设备上执行所述程序代码时,所述程序代码使得所述信息处理设备执行如根据上述本发明的实施例的生成图像分类器的方法。
相应地,用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。
下面结合图4和图5来描述根据本发明的一个实施例的对图像进行分类的方法。图4是示出根据本发明的一个实施例的对图像进行分类的方法的示意性流程图。图5是示出根据本发明的一个实施例的对图像进行分类的示意图。
在借助根据本发明的实施例的对图像进行分类的方法对图像进行分类时,如图4所示,该方法在S400开始。在S400之后,该方法前进到S402。
在S402处,从待分类的至少一个图像中的每个图像中提取多个局部特征。
如图5中的502所示,为了便于从输入的待分类图像501中提取多个局部特征,可以对输入的待分类图像进行图像预处理。输入的待分类图像501一般为彩色图像,其包含的信息量较大,导致运算量也较大。为了减小后续的运算量,可以将作为彩色图像的待分类图像201转化为灰度图像。本领域技术人员应该理解,可以采用将彩色图像转化为灰度图像的各种具体技术,其具体细节在此不再赘述。另外,为了减少所提取的特征的数量以减少运算量,还可以对输入的待分类图像501或其转化后的灰度图像进行下采样。例如,当输入的待分类图像501或其转化后的灰度图像的宽和高的像素值的最大值max_wh大于1000时,可以以系数K=2n进行下采样,从而使下采样后的图像的宽和高的像素值的最大值max_wh’减小到1000以下。本领域技术人员应该理解,可以采用对图像进行下采样的各种具体技术,其具体细节在此不再赘述。
本领域技术人员应当理解,上述对待分类图像进行图像预处理是可选的。即,也可以不对待分类图像进行图像预处理,而是直接从待分类图像中提取多个局部特征。
如图5中的503所示,可以直接从待分类图像中提取多个局部特征,或者可以从经过图像预处理之后的待分类图像中提取多个局部特征。本领域技术人员应当理解,可以采用本领域中的各种提取图像局部特征的方法来从待分类图像中提取多个局部特征,例如可以采用SIFT(ScaleInvariant Feature Transform,尺度不变特征变换)方法、SURF(SpeededUp Robust Feature,加速稳健特征)方法、BRISK方法或FREAK方法等等。本文中采用SIFT方法作为示例从待分类图像中提取多个局部特征。具体地,可以采用SIFT方法从待分类图像501中提取多个特征描述子,每个描述子包括:长度M等于128维的特征向量D=[d1,d2,……,dM],其记录了与该局部特征相关联的特征区域的强度;长度为4维的向量F=[X,Y],其分别记录了该局部特征的X轴和Y轴的位置;尺度S;以及主方向R等。有关SIFT方法的具体描述,可以参考“Distinctive Image Featuresfrom Scale-Invariant Keypoints”,D.Lowe,In Intl.Journal of ComputerVision,vol.60,no.2,第91-110页,2004年。
回到图4,在S402之后,该方法前进到S404。在S404处,将待分类的至少一个图像中的每个图像划分为多个子区域。
如图5所示,假设当前处理的待分类图像501为通过扫描得到的“营业执照”的文档图像,则可以如图5中的504所示,将该“营业执照”的文档图像划分为多个子区域。本领域技术人员应当理解,可以采用各种方法按照一定的模式将文档图像划分为多个子区域,以及划分得到的多个子区域的形状、大小等可以相同,也可以不相同,只要可以将整个文档图像划分为多个面积比整个文档图像的面积更小的子区域即可。换言之,本发明对划分得到的子区域的形状和大小不做具体的限定。
具体地,根据本发明的一个实施例,子区域可以为通过划分样本图像得到的网格。例如,如图5所示,可以将“营业执照”的文档图像划分为m×n个网格,其中,m和n均为自然数,并且m和n可以相等但不同时等于1。网格的形状可以为矩形或正方形等。本领域技术人员应当理解,网格的形状也可以为其它形状,例如圆形或椭圆形等。另外,划分得到的m×n个网格中的各个网格之间的大小可以相同,也可以不同。换言之,本发明对划分得到的网格的形状和大小不做具体的限定。
根据本发明的另一个实施例,子区域可以为通过对划分样本图像得到的网格按照方向进行划分而得到的分区。例如,如图5中的506所示,针对将“营业执照”的文档图像划分得到的m×n个网格中的每个网格,按照方向将每个网格均匀划分为r个分区作为子区域,例如按照[0,π/4]、[π/4,π/2]、[π/2,3π/4]、[3π/4,π]、[π,5π/4]、[5π/4,3π/2]、[3π/2,7π/4]和[7π/4,2π/]共8个方向将每个网格划分为8个分区作为8个子区域。分别对m×n个网格中的每个网格执行分区的划分,由此可以得到m×n×r个分区作为m×n×r个子区域。
本领域技术人员应当理解,子区域还可以是其它形状或大小等,只要所有子区域的集合可以覆盖整个文档图像即可。
另外,为了进一步改善子区域边界附近的特征标记的不确定性可能引起的不足,在将待分类图像划分为多个子区域时,可以使多个子区域彼此交叠。换言之,在将待分类图像划分为多个子区域时,可以使相邻的一个子区域与另一个子区域存在部分重叠的区域。
具体地,在子区域是通过划分待分类图像得到的网格的情况下,如图5中的505所示,由虚线框表示的相邻的两个网格彼此交叠,即由虚线框表示的相邻的两个网格存在部分重叠。另外,在子区域是通过对划分待分类图像得到的网格按照方向进行划分而得到的分区的情况下,也可以对方向采用类似的方式,使得相邻的两个分区也彼此交叠。
再次回到图4,在S404之后,该方法前进到S406处。在S406处,针对从待分类的至少一个图像中的每个图像中提取的多个局部特征中的每个局部特征,通过与多个子区域中的关联于该局部特征的子区域对应的搜索树,得到与该局部特征最相似的最近邻特征,以及根据与最近邻特征对应的图像类别得到每个图像的初级分类结果。
如上所述,可以从待分类图像中提取多个局部特征。另外,如上所述可以将待分类图像划分为多个子区域。因此,可以根据所提取的局部特征中所包含的X坐标和Y坐标的位置信息,来确定该局部特征是从待分类图像中的哪个子区域中提取的,即确定与该局部特征相关联的子区域。
假设待分类图像可被划分为W个子区域{SR1,SR2,……,SRq,……,SRW},其中q和W均为自然数并且1≤q≤W。另外,可以用Fq表示从待分类图像的第q个子区域中提取的局部特征。因此,可以将从待分类图像的第1个子区域中提取的局部特征F1作为与第1个子区域相关联的局部特征。类似地,可以将从待分类图像的第2个子区域中提取的局部特征F2作为与第2个子区域相关联的局部特征,直至可以将从待分类图像的第W个子区域中提取的局部特征FW作为与第W个子区域相关联的局部特征为止。
具体地,在子区域是通过划分样本图像得到的m×n个网格的情况下,可以根据所提取的局部特征中所包含的X坐标和Y坐标的位置信息,来确定该局部特征是从待分类图像的m×n个网格中的哪个网格中提取的,即确定与该局部特征相关联的网格。
另外,在子区域是通过对划分待分类图像得到的m×n个网格按照方向进行划分而得到的m×n×r分区的情况下,可以根据所提取的局部特征中所包含的X坐标和Y坐标的位置信息,来确定该局部特征是从待分类图像的m×n×r个分区中的哪个分区中提取的,即确定与该局部特征相关联的分区。
在确定了与从待分类图像中提取的局部特征相关联的子区域之后,可以通过与该子区域对应的搜索树,得到待分类图像的初级分类结果。具体地,可以利用从待分类图像中提取的局部特征,在与该局部特征相关联的子区域所对应的搜索树中搜索与该局部特征最相似的最近邻特征,以及根据最近邻特征中包含的与该最近邻特征对应的图像类别,得到待分类图像属于哪个图像类别的初级分类结果。例如,搜索树可以是KD树。本领域技术人员应当理解,除了KD树之外,还可以采用其它的存储方式作为上述搜索树,只要搜索树能够方便地实现对局部特征的最近邻搜索即可。另外,本领域技术人员还应当理解,搜索树可以是预先设定的,也可以是通过本发明中之前描述的用于生成图像分类器的方法而生成的。
接着上面的示例,假设从待分类图像中提取了W个局部特征{F1,F2,……,Fq,……,FW},其中局部特征F1是从待分类图像的第1个子区域中提取的,局部特征F2是从待分类图像的第2个子区域中提取的,Fq是从待分类图像的第q个子区域中提取的,而FW是从待分类图像的第W个子区域中提取的。另外,假设与待分类图像中的第1至第W个子区域对应的搜索树分别为TR1,TR2,……,TRq,……,TRW。可以利用局部特征F1,在与第1个子区域对应的搜索树TR1中搜索与局部特征F1最相似的最近邻特征T1。如上所述,最近邻特征中包含与该最近邻特征对应的图像类别。假设存在如下3个图像类别A、B和C,并且假设与最近邻特征T1对应的图像类别为A,则根据与最近邻特征T1对应的图像类别A,判断待分类图像的图像类别为A(即初级分类结果);类似地,可以利用局部特征F2,在与第2个子区域对应的搜索树TR2中搜索与局部特征F2最相似的最近邻特征T2。假设与最近邻特征T2对应的图像类别为B,则根据与最近邻特征T2对应的图像类别B,判断待分类图像的图像类别为B(即初级分类结果);……;类似地,可以利用局部特征FW,在与第W个子区域对应的搜索树TRW中搜索与局部特征FW最相似的最近邻特征TW。假设与最近邻特征TW对应的图像类别为C,则根据与最近邻特征TW对应的图像类别C,判断待分类图像的图像类别为C(即初级分类结果)。因此,根据从待分类图像中提取的W个局部特征,可以分别通过与关联于W个局部特征的W个子区域对应的W个搜索树,得到该待分类图像属于哪个图像类别的W个初级分类结果。
在S406之后,该方法前进到S408。在S408处,根据多个所述初级分类结果进行投票,以得到每个图像的最终分类结果。
接着上面的示例,根据得到的W个初级分类结果进行投票,以统计W个初级分类结果中有多少个将待分类图像的图像类别判断为A、W个初级分类结果中有多少个将待分类图像的图像类别判断为B以及W个初级分类结果中有多少个将待分类图像的图像类别判断为C,并且将得票最高的图像类别作为待分类图像的最终分类结果。该投票过程可以用下面的公式表示:
其中,xj表示从待分类的图像中提取的局部特征,S表示从待分类的图像中提取的局部特征的数量,L(xj)表示与xj的最近邻特征对应的图像类别。
一般情况下,通过上述步骤就可以获得待分类图像的图像类别。另外,如果在上述投票步骤中得票数排名前两位的图像类别的得票数之间的差小于预定阈值,则表示存在相似的图像类别。例如,电汇凭证的“借方凭证”、“汇款依据”、“付出凭证”与“收入凭证”之间的差别往往仅在于标题不同。在这种情况下,可以通过其它方法对这些相似的图像类别进行细分类,例如可以根据颜色将相似的图像类别区分开。另外,也可以在得票数排名前两位的图像类别的得票数之间的差小于预定阈值的情况下向用户给出相应的提示,以及由用户从这些相似的图像类别中选择与待分类的图像最相似的图像类别。本领域技术人员应当理解,上述预定阈值可以预先设定或者根据试验来确定。另外,本领域技术人员应该理解,上述处理仅是优选的,而非必须的。
最后,该方法在S410处结束。另外,本领域技术人员应当理解,上述S102和S104的顺序可以是任意的,即S102和S104可以同时执行,也可以先执行S102再执行S104,或者先执行S104在执行S102。
上述对图像进行分类的方法可获得如下技术益处中的至少之一:其适用范围广泛,受图像格式、尺寸或质量的影响小,因此可以提高图像分类的健壮性、准确性和有效性。
下面结合图6、图7和图8来描述根据本发明的一个实施例的对图像进行对准的方法。图6是示出根据本发明的一个实施例的对图像进行对准的处理的示意性流程图。图7是示出对图像进行对准的示意图。图8是示出对准后的图像的示意图。对图像进行对准具有重要意义。例如,通过对图像进行对准可以得到待分类的图像相对于模板图像的几何变换的信息,例如旋转、平移、放大或透视等等。另外,将待分类的图像与模板图像对准之后,可以根据预定的模板从待分类的图像的感兴趣区域中提取关键数据,以及可以将提取的关键数据用于后续的数据分析与挖掘等等。
在借助根据本发明的实施例的对图像进行对准的方法对图像进行对准时,如图6所示,该方法在S600开始。在S600之后,该方法前进到S602。
在S602处,根据与从待分类的图像中提取的多个局部特征中的每个局部特征最相似的最近邻特征,将待分类的图像与图像类别中的模板图像进行对准。
如上所述,通过上述S406可以获得与从待分类图像中提取的多个局部特征中的每个局部特征最相似的最近邻特征,这些最近邻特征属于图像类别中的模板图像。由此,可以根据所得到的最近邻特征,将待分类的图像与图像类别中的模板图像进行对准。也就是说,在对图像进行分类的过程中,还可以利用对图像进行分类的中间结果(即与从待分类图像中提取的多个局部特征中的每个局部特征最相似的最近邻特征),将待分类的图像与模板图像进行对准。然而,现有的对图像进行对准的方法主要是通过对图像的特定区域进行匹配,例如表格线、基准点或特定的字符图像(例如标题)等。现有的对图像进行对准的方法必须预先将图像调整为规定的尺寸,同时对图像质量要求较高。相反,本申请利用对图像进行分类的中间结果来实现待分类的图像与模板图像的对准,从而可以获得以下益处中的至少之一:无需将图像调整为规定的尺寸,或对图像质量要求较低。下面结合图7和图8详细描述将待分类的图像与图像类别中的模板图像进行对准的处理。
首先,获得待分类的图像与图像类别中的模板图像之间所有最近邻的匹配特征对。所有的匹配特征对组成匹配特征对集合TS。匹配特征对集合TS中的每个匹配特征对包括两个特征T1和T2,其中T1来自于待分类的图像,而T2来自于模板图像。匹配特征对集合TS是所有满足如下条件的匹配对的集合:1)通过上述S406获得的与特征T1最相似的最近邻特征是特征T2;2)特征T2属于图像类别中的用于对准的模板图像。
接着,利用两个匹配特征对得到用于对图像进行对准的非反射性的几何变换(仿射变换的一种)函数。非反射性的几何变换是一种只包括缩放、旋转和平移的线性变换,这类变换可以用下面的公式来表示:
其中,p=[x1,y1]是待分类的图像上的任意点,而p’=[x1’,y1’]是与p=[x1,y1]对应的模板图像上的点。 是要求解的目标矩阵,其中sc和ss是由缩放尺度scale和旋转角度angle确定的两个量:sc=scale×cos(angle),ss=scale×sin(angle);以及tx和ty是待分类的图像上的点在X轴和Y轴上的偏移量。
为了求解目标矩阵A,需要两个匹配特征对,记为V=A×U,其中
匹配特征对集合TS中通常存在不正确的匹配特征对,因此可以采用RANSAC(Random Sample Consensus,随机抽样一致)方法挑选一对可靠的匹配特征对和与之对应的A的解best_A。本领域技术人员应当理解,除了RANSAC方法以外,还可以采用本领域已知的其它方法来挑选一对可靠的匹配特征对和与之对应的A的解best_A。
在求解得到非反射性的几何变换函数之后,可以利用所得到的非反射性的几何变换函数对待分类的图像进行几何变换,从而将待分类的图像与图像类别中的图像对准。另外,由于待分类的图像是二维平面上离散的点阵,因此可选的是,在利用所得到的非反射性的几何变换函数对待分类的图像进行几何变换之前,可以对待分类的图像进行插值以得到转换后的离散的点阵。例如,可用的插值方法包括但不限于最近邻插值、双线性插值、双立方插值等等。
图7是示出对图像进行对准的示意图。如图7所示,图7上方的表单对应的是待分类的图像,而图7下方的表单对应的是与之匹配的模板图像。图7中用实线连接的两个点表示匹配特征对集合TS中的匹配特征对。图7中用虚线连接的两个点表示用RANSAC方法淘汰的不可靠的匹配特征对。
图8是示出对准后的图像的示意图。如图8所示,可以将图7中上方所示的待分类的图像与图7中下方所示的模板图像对准,并且可以将两者叠加在一起。如图8所示,待分类的图像与模板图像完全重叠在一起,从而很好地实现了对准。将待分类的图像与模板图像对准之后,可以根据预定的模板从待分类的图像的感兴趣区域中提取关键数据,以及可以将提取的关键数据用于后续的数据分析与挖掘等等。
最后,该方法在S604处结束。
上述对图像进行对准的方法可获得如下技术益处中的至少之一:其适用范围广泛,受图像格式、尺寸或质量的影响小,因此可以提高图像对准的健壮性、准确性和有效性。
下面结合图9来详细说明根据本发明的一个实施例的对图像进行分类的装置的配置。图9是示出根据本发明的一个实施例的对图像进行分类的装置的示意性框图。
如图9所示,对图像进行分类的装置900包括:提取部分902,用于从待分类的至少一个图像中的每个图像中提取多个局部特征;划分部分904,用于将待分类的至少一个图像中的每个图像划分为多个子区域;初级分类部分906,用于针对从待分类的至少一个图像中的每个图像中提取的多个局部特征中的每个局部特征,通过与多个子区域中的关联于每个局部特征的子区域对应的搜索树,得到与该局部特征最相似的最近邻特征,以及根据与最近邻特征对应的图像类别得到每个图像的初级分类结果;以及投票部分908,用于根据多个初级分类结果进行投票,以得到每个图像的最终分类结果。
下面结合图10来详细说明根据本发明的另一个实施例的对图像进行分类的装置的配置。图9是示出根据本发明的另一个实施例的对图像进行分类的装置的示意性框图。
如图10所示,对图像进行分类的装置1000包括:提取部分902,用于从待分类的至少一个图像中的每个图像中提取多个局部特征;划分部分904,用于将待分类的至少一个图像中的每个图像划分为多个子区域;初级分类部分906,用于针对从待分类的至少一个图像中的每个图像中提取的多个局部特征中的每个局部特征,通过与多个子区域中的关联于每个局部特征的子区域对应的搜索树,得到与该局部特征最相似的最近邻特征,以及根据与最近邻特征对应的图像类别得到每个图像的初级分类结果;投票部分908,用于根据多个初级分类结果进行投票,以得到每个图像的最终分类结果;以及对准部分1002,用于根据与从待分类的图像中提取的多个局部特征中的每个局部特征最相似的最近邻特征,将待分类的图像与图像类别中的模板图像进行对准。
需要指出的是,在与装置有关的实施例中所涉及的相关术语或表述与以上对根据本发明的实施例的方法的实施例阐述中所使用的术语或表述对应,在此不再赘述。
上述图9和图10中的装置例如可以被配置成按照图4和图6所示的方法中的相应步骤的工作方式来操作。细节参见上述针对根据本申请的实施例的方法所阐述的实施例。在此不再赘述。
本领域技术人员理解,在上面描述的根据本发明各实施例的对图像进行分类的方法中的各步骤或者对图像进行分类的装置中的各功能单元,可以根据实际需要进行任意的组合,即,一个对图像进行分类的方法实施例中的处理步骤可以与其它对图像进行分类的方法实施例中的处理步骤进行组合;或者,一个对图像进行分类的装置实施例中的功能单元可以与其它对图像进行分类的装置实施例中的功能单元进行组合,以便实现所期望的技术目的。
此外,本申请的实施例还提出了一种在表单分拣设备中对图像进行分类的信息处理设备,其包括上述根据本发明的实施例的对图像进行分类的装置及其改进方案。
此外,本申请的实施例还提出了一种程序产品,该程序产品承载机器可执行的指令,当在信息处理设备上执行所述指令时,所述指令使得所述信息处理设备执行如根据上述本发明的实施例的对图像进行分类的方法。
此外,本申请的实施例还提出了一种存储介质,该存储介质包括机器可读的程序代码,当在信息处理设备上执行所述程序代码时,所述程序代码使得所述信息处理设备执行如根据上述本发明的实施例的对图像进行分类的方法。
相应地,用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。
根据本发明的实施例的生成图像分类器的装置和对图像进行分类的装置及其组成部件可通过软件、固件、硬件或其组合的方式进行配置。配置可使用的具体手段或方式为本领域技术人员所熟知,在此不再赘述。在通过软件或固件实现的情况下,从存储介质或网络向具有专用硬件结构的信息处理设备(例如图11所示的通用计算机1100)安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等。
在图11中,中央处理单元(CPU)1101根据只读存储器(ROM)1102中存储的程序或从存储部分1108加载到随机存取存储器(RAM)1103的程序执行各种处理。在RAM 1103中,也根据需要存储当CPU 1101执行各种处理等等时所需的数据。CPU 1101、ROM 1102和RAM 1103经由总线1104彼此连接。输入/输出接口1105也连接到总线1104。
下述部件连接到输入/输出接口1105:输入部分1106(包括键盘、鼠标等等)、输出部分1107(包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分1108(包括硬盘等)、通信部分1109(包括网络接口卡比如LAN卡、调制解调器等)。通信部分1109经由网络比如因特网执行通信处理。根据需要,驱动器1110也可连接到输入/输出接口1105。可拆卸介质1111比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器1110上,使得从中读出的计算机程序根据需要被安装到存储部分1108中。
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质1111安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图11所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质1111。可拆卸介质1111的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 1102、存储部分1108中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
所述指令代码由机器读取并执行时,可执行上述根据本发明实施例的方法。
最后,还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。此外,在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。再者,由措辞“第一”,“第二”,“第三”等等限定的技术特征或者参数,并不因为这些措辞的使用而具有特定的顺序或者优先级或者重要性程度。换句话说,这些措辞的使用只是为了区分或识别这些技术特征或者参数而没有任何其他的限定含义。
通过以上的描述不难看出,本发明的实施例提供的技术方案包括但不限于:
附记1、一种生成用于表单分拣设备的图像分类器的方法,包括:
从多个样本图像中的每个样本图像中提取多个局部特征;
将所述多个样本图像中的每个样本图像划分为多个子区域;
将从所述多个样本图像中提取的所述多个局部特征中的至少与所述多个子区域中的同一子区域相关联的局部特征分为同一组;以及
根据所述同一组中的局部特征生成与所述同一子区域对应的搜索树作为所述图像分类器。
附记2、根据附记1所述的方法,其中,所述子区域彼此交叠。
附记3、根据附记1或2所述的方法,其中,所述子区域为通过划分所述样本图像得到的网格、或通过对划分所述样本图像得到的网格按照方向进行划分而得到的分区。
附记4、一种生成用于表单分拣设备的图像分类器的装置,包括:
提取单元,用于从多个样本图像中的每个样本图像中提取多个局部特征;
划分单元,用于将所述多个样本图像中的每个样本图像划分为多个子区域;
分组单元,用于将从所述多个样本图像中提取的所述多个局部特征中的至少与所述多个子区域中的同一子区域相关联的局部特征分为同一组;以及
生成单元,用于根据所述同一组中的局部特征生成与所述同一子区域对应的搜索树作为所述图像分类器。
附记5、根据附记4所述的装置,其中,所述子区域彼此交叠。
附记6、根据附记4或5所述的装置,其中,所述子区域为通过划分所述样本图像得到的网格、或通过对划分所述样本图像得到的网格按照方向进行划分而得到的分区。
附记7、一种在表单分拣设备中对图像进行分类的方法,包括:
从待分类的至少一个图像中的每个图像中提取多个局部特征;
将所述待分类的至少一个图像中的每个图像划分为多个子区域;
针对从所述待分类的至少一个图像中的每个图像中提取的所述多个局部特征中的每个局部特征,通过与所述多个子区域中的关联于该局部特征的子区域对应的搜索树,得到与该局部特征最相似的最近邻特征,以及根据与所述最近邻特征对应的图像类别得到所述每个图像的初级分类结果;以及
根据多个所述初级分类结果进行投票,以得到所述每个图像的最终分类结果。
附记8、根据附记7所述的方法,还包括:
根据与从待分类的图像中提取的所述多个局部特征中的每个局部特征最相似的所述最近邻特征,将待分类的图像与图像类别中的模板图像进行对准。
附记9、根据附记7或8所述的方法,其中,所述子区域彼此交叠。
附记10、根据附记7或8所述的装置,其中,所述子区域为通过划分所述样本图像得到的网格、或通过对划分所述样本图像得到的网格按照方向进行划分而得到的分区。
附记11、一种在表单分拣设备中对图像进行分类的装置,包括:
提取部分,用于从待分类的至少一个图像中的每个图像中提取多个局部特征;
划分部分,用于将所述待分类的至少一个图像中的每个图像划分为多个子区域;
初级分类部分,用于针对从所述待分类的至少一个图像中的每个图像中提取的所述多个局部特征中的每个局部特征,通过与所述多个子区域中的关联于该局部特征的子区域对应的搜索树,得到与该局部特征最相似的最近邻特征,以及根据与所述最近邻特征对应的图像类别得到所述每个图像的初级分类结果;以及
投票部分,用于根据多个所述初级分类结果进行投票,以得到所述每个图像的最终分类结果。
附记12、根据附记11所述的装置,还包括:
对准部分,用于根据与从待分类的图像中提取的所述多个局部特征中的每个局部特征最相似的所述最近邻特征,将待分类的图像与图像类别中的模板图像进行对准。
附记13、根据附记11或12所述的装置,其中,所述子区域彼此交叠。
附记14、根据附记11或12所述的装置,其中,所述子区域为通过划分所述样本图像得到的网格、或通过对划分所述样本图像得到的网格按照方向进行划分而得到的分区。
附记15、一种程序产品,该程序产品承载机器可执行的指令,当在信息处理设备上执行所述指令时,所述指令使得所述信息处理设备执行如附记1-3中任一项所述的生成用于表单分拣设备的图像分类器的方法。
附记16、一种存储介质,该存储介质包括机器可读的程序代码,当在信息处理设备上执行所述程序代码时,所述程序代码使得所述信息处理设备执行如附记1-3中任一项所述的生成用于表单分拣设备的图像分类器的方法。
附记17、一种程序产品,该程序产品承载机器可执行的指令,当在信息处理设备上执行所述指令时,所述指令使得所述信息处理设备执行如附记7-10中任一项所述的在表单分拣设备中对图像进行分类的方法。
附记18、一种存储介质,该存储介质包括机器可读的程序代码,当在信息处理设备上执行所述程序代码时,所述程序代码使得所述信息处理设备执行如附记7-10中任一项所述的在表单分拣设备中对图像进行分类的方法。
以上虽然结合附图详细描述了本发明的实施例,但是应当明白,上面所描述的实施方式只是用于说明本发明,而并不构成对本发明的限制。对于本领域的技术人员来说,可以对上述实施方式作出各种修改和变更而没有背离本发明的实质和范围。因此,本发明的范围仅由所附的权利要求及其等同含义来限定。
Claims (10)
1.一种生成用于表单分拣设备的图像分类器的方法,包括:
从多个样本图像中的每个样本图像中提取多个局部特征;
将所述多个样本图像中的每个样本图像划分为多个子区域;
将从所述多个样本图像中提取的所述多个局部特征中的至少与所述多个子区域中的同一子区域相关联的局部特征分为同一组;以及
根据所述同一组中的局部特征生成与所述同一子区域对应的搜索树作为所述图像分类器。
2.根据权利要求1所述的方法,其中,所述子区域彼此交叠。
3.根据权利要求1或2所述的方法,其中,所述子区域为通过划分所述样本图像得到的网格、或通过对划分所述样本图像得到的网格按照方向进行划分而得到的分区。
4.一种生成用于表单分拣设备的图像分类器的装置,包括:
提取单元,用于从多个样本图像中的每个样本图像中提取多个局部特征;
划分单元,用于将所述多个样本图像中的每个样本图像划分为多个子区域;
分组单元,用于将从所述多个样本图像中提取的所述多个局部特征中的至少与所述多个子区域中的同一子区域相关联的局部特征分为同一组;以及
生成单元,用于根据所述同一组中的局部特征生成与所述同一子区域对应的搜索树作为所述图像分类器。
5.根据权利要求4所述的装置,其中,所述子区域彼此交叠。
6.根据权利要求4或5所述的装置,其中,所述子区域为通过划分所述样本图像得到的网格、或通过对划分所述样本图像得到的网格按照方向进行划分而得到的分区。
7.一种在表单分拣设备中对图像进行分类的方法,包括:
从待分类的至少一个图像中的每个图像中提取多个局部特征;
将所述待分类的至少一个图像中的每个图像划分为多个子区域;
针对从所述待分类的至少一个图像中的每个图像中提取的所述多个局部特征中的每个局部特征,通过与所述多个子区域中的关联于该局部特征的子区域对应的搜索树,得到与该局部特征最相似的最近邻特征,以及根据与所述最近邻特征对应的图像类别得到所述每个图像的初级分类结果;以及
根据多个所述初级分类结果进行投票,以得到所述每个图像的最终分类结果。
8.根据权利要求7所述的方法,还包括:
根据与从待分类的图像中提取的所述多个局部特征中的每个局部特征最相似的所述最近邻特征,将待分类的图像与图像类别中的模板图像进行对准。
9.一种在表单分拣设备中对图像进行分类的装置,包括:
提取部分,用于从待分类的至少一个图像中的每个图像中提取多个局部特征;
划分部分,用于将所述待分类的至少一个图像中的每个图像划分为多个子区域;
初级分类部分,用于针对从所述待分类的至少一个图像中的每个图像中提取的所述多个局部特征中的每个局部特征,通过与所述多个子区域中的关联于该局部特征的子区域对应的搜索树,得到与该局部特征最相似的最近邻特征,以及根据与所述最近邻特征对应的图像类别得到所述每个图像的初级分类结果;以及
投票部分,用于根据多个所述初级分类结果进行投票,以得到所述每个图像的最终分类结果。
10.根据权利要求9所述的装置,还包括:
根据与从待分类的图像中提取的所述多个局部特征中的每个局部特征最相似的所述最近邻特征,将待分类的图像与图像类别中的模板图像进行对准。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210337846.5A CN103679188A (zh) | 2012-09-12 | 2012-09-12 | 图像分类器生成方法和装置及图像分类方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210337846.5A CN103679188A (zh) | 2012-09-12 | 2012-09-12 | 图像分类器生成方法和装置及图像分类方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103679188A true CN103679188A (zh) | 2014-03-26 |
Family
ID=50316677
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210337846.5A Pending CN103679188A (zh) | 2012-09-12 | 2012-09-12 | 图像分类器生成方法和装置及图像分类方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103679188A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104899551A (zh) * | 2015-04-30 | 2015-09-09 | 北京大学 | 一种表单图像分类方法 |
CN105389594A (zh) * | 2015-11-19 | 2016-03-09 | 联想(北京)有限公司 | 信息处理方法及电子设备 |
CN106980658A (zh) * | 2017-03-15 | 2017-07-25 | 北京旷视科技有限公司 | 视频标注方法及装置 |
WO2017132933A1 (zh) * | 2016-02-04 | 2017-08-10 | 华为技术有限公司 | 一种图像处理方法以及相关装置 |
CN107766373A (zh) * | 2016-08-19 | 2018-03-06 | 阿里巴巴集团控股有限公司 | 图片所属类目的确定方法及其系统 |
CN108140133A (zh) * | 2015-10-22 | 2018-06-08 | 富士通株式会社 | 程序生成装置、程序生成方法及生成程序 |
CN109344904A (zh) * | 2018-10-16 | 2019-02-15 | 杭州睿琪软件有限公司 | 生成训练样本的方法、系统及存储介质 |
CN113033290A (zh) * | 2021-02-01 | 2021-06-25 | 广州朗国电子科技有限公司 | 一种图像子区域的识别方法、设备、存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1908960A (zh) * | 2005-08-02 | 2007-02-07 | 中国科学院计算技术研究所 | 一种基于特征分组的多分类器组合人脸识别方法 |
CN101178773A (zh) * | 2007-12-13 | 2008-05-14 | 北京中星微电子有限公司 | 基于特征提取和分类器的图像识别系统及方法 |
JP4155497B2 (ja) * | 2002-04-25 | 2008-09-24 | 大日本スクリーン製造株式会社 | 欠陥分類方法、プログラムおよび欠陥分類装置 |
CN101719222A (zh) * | 2009-11-27 | 2010-06-02 | 北京中星微电子有限公司 | 分类器训练方法和装置以及人脸认证方法和装置 |
CN101923653A (zh) * | 2010-08-17 | 2010-12-22 | 北京大学 | 一种基于多层次内容描述的图像分类方法 |
CN101996308A (zh) * | 2009-08-19 | 2011-03-30 | 北京中星微电子有限公司 | 人脸认证方法及系统、人脸模型训练方法及系统 |
CN102156871A (zh) * | 2010-02-12 | 2011-08-17 | 中国科学院自动化研究所 | 基于类别相关的码本和分类器投票策略的图像分类方法 |
-
2012
- 2012-09-12 CN CN201210337846.5A patent/CN103679188A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4155497B2 (ja) * | 2002-04-25 | 2008-09-24 | 大日本スクリーン製造株式会社 | 欠陥分類方法、プログラムおよび欠陥分類装置 |
CN1908960A (zh) * | 2005-08-02 | 2007-02-07 | 中国科学院计算技术研究所 | 一种基于特征分组的多分类器组合人脸识别方法 |
CN101178773A (zh) * | 2007-12-13 | 2008-05-14 | 北京中星微电子有限公司 | 基于特征提取和分类器的图像识别系统及方法 |
CN101996308A (zh) * | 2009-08-19 | 2011-03-30 | 北京中星微电子有限公司 | 人脸认证方法及系统、人脸模型训练方法及系统 |
CN101719222A (zh) * | 2009-11-27 | 2010-06-02 | 北京中星微电子有限公司 | 分类器训练方法和装置以及人脸认证方法和装置 |
CN102156871A (zh) * | 2010-02-12 | 2011-08-17 | 中国科学院自动化研究所 | 基于类别相关的码本和分类器投票策略的图像分类方法 |
CN101923653A (zh) * | 2010-08-17 | 2010-12-22 | 北京大学 | 一种基于多层次内容描述的图像分类方法 |
Non-Patent Citations (2)
Title |
---|
王黎: ""基于融合决策的多分类器系统研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
苏煜: ""融合全局和局部特征的人脸识别"", 《中国博士学位论文全文数据库 信息科技辑》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104899551A (zh) * | 2015-04-30 | 2015-09-09 | 北京大学 | 一种表单图像分类方法 |
CN104899551B (zh) * | 2015-04-30 | 2018-08-14 | 北京大学 | 一种表单图像分类方法 |
CN108140133A (zh) * | 2015-10-22 | 2018-06-08 | 富士通株式会社 | 程序生成装置、程序生成方法及生成程序 |
CN108140133B (zh) * | 2015-10-22 | 2022-03-22 | 富士通株式会社 | 程序生成装置、程序生成方法及记录介质 |
CN105389594B (zh) * | 2015-11-19 | 2020-10-27 | 联想(北京)有限公司 | 信息处理方法及电子设备 |
CN105389594A (zh) * | 2015-11-19 | 2016-03-09 | 联想(北京)有限公司 | 信息处理方法及电子设备 |
CN107735800A (zh) * | 2016-02-04 | 2018-02-23 | 华为技术有限公司 | 一种图像处理方法以及相关装置 |
WO2017132933A1 (zh) * | 2016-02-04 | 2017-08-10 | 华为技术有限公司 | 一种图像处理方法以及相关装置 |
CN107766373A (zh) * | 2016-08-19 | 2018-03-06 | 阿里巴巴集团控股有限公司 | 图片所属类目的确定方法及其系统 |
CN106980658A (zh) * | 2017-03-15 | 2017-07-25 | 北京旷视科技有限公司 | 视频标注方法及装置 |
CN109344904A (zh) * | 2018-10-16 | 2019-02-15 | 杭州睿琪软件有限公司 | 生成训练样本的方法、系统及存储介质 |
CN109344904B (zh) * | 2018-10-16 | 2020-10-30 | 杭州睿琪软件有限公司 | 生成训练样本的方法、系统及存储介质 |
CN113033290A (zh) * | 2021-02-01 | 2021-06-25 | 广州朗国电子科技有限公司 | 一种图像子区域的识别方法、设备、存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103679188A (zh) | 图像分类器生成方法和装置及图像分类方法和装置 | |
CN108960223B (zh) | 基于票据智能识别自动生成凭证的方法 | |
CN101297319B (zh) | 在电子文档中嵌入热点 | |
CN101447017B (zh) | 一种基于版面分析的选票快速识别统计方法及系统 | |
Dalla Mura et al. | Classification of hyperspectral images by using extended morphological attribute profiles and independent component analysis | |
CN103390156B (zh) | 一种车牌识别方法及装置 | |
CN101894262B (zh) | 对图像进行分类的方法和设备 | |
CN109948549B (zh) | Ocr数据生成方法、装置、计算机设备及存储介质 | |
US8849032B2 (en) | Shape parameterisation for editable document generation | |
CN101807258B (zh) | 基于核标度切维数约简的合成孔径雷达图像目标识别方法 | |
CN103186790A (zh) | 对象检测系统和方法 | |
CN104361313A (zh) | 一种基于多核学习异构特征融合的手势识别方法 | |
CN103679191A (zh) | 基于静态图片的自动套牌车检测方法 | |
CN102663401A (zh) | 一种图像特征提取和描述方法 | |
CN102298767B (zh) | 用于生成基于结构的ascii图片的方法和设备 | |
EP2884425B1 (en) | Method and system of extracting structured data from a document | |
JP3809305B2 (ja) | 画像検索装置及び画像検索方法及びコンピュータ読み取り可能な記憶媒体 | |
CN101261638A (zh) | 图像搜索的方法、装置及程序 | |
Saund | Scientific challenges underlying production document processing | |
CN111126367A (zh) | 一种图像分类方法及系统 | |
CN113158895A (zh) | 票据识别方法、装置、电子设备及存储介质 | |
US20240203147A1 (en) | Systems and methods for digitized document image text contouring | |
CN103295026B (zh) | 基于空间局部聚合描述向量的图像分类方法 | |
CN103413153B (zh) | 基于svm学习的人脸图像磨皮取证方法 | |
CN104899551A (zh) | 一种表单图像分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20140326 |