CN105095889B - 特征提取、字符识别、引擎生成、信息确定方法及装置 - Google Patents

特征提取、字符识别、引擎生成、信息确定方法及装置 Download PDF

Info

Publication number
CN105095889B
CN105095889B CN201410162714.2A CN201410162714A CN105095889B CN 105095889 B CN105095889 B CN 105095889B CN 201410162714 A CN201410162714 A CN 201410162714A CN 105095889 B CN105095889 B CN 105095889B
Authority
CN
China
Prior art keywords
location information
image
information
grayscale
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410162714.2A
Other languages
English (en)
Other versions
CN105095889A (zh
Inventor
杜志军
张宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201410162714.2A priority Critical patent/CN105095889B/zh
Publication of CN105095889A publication Critical patent/CN105095889A/zh
Application granted granted Critical
Publication of CN105095889B publication Critical patent/CN105095889B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)
  • Character Input (AREA)

Abstract

本申请公开了一种字符描述特征提取方法,以适用于对于灰度图像的字符描述特征提取。方法包括:获得图像;确定第一灰度信息和第二灰度信息;其中,第一灰度信息表示所述图像的基准区域内的像素的灰度等级;第二灰度信息表示所述图像的比较区域内的像素的灰度等级;根据第一灰度信息和第二灰度信息,确定字符描述特征。本申请还公开一种字符描述特征提取装置、一种字符识别方法和相应的装置、一种字符识别引擎生成方法和相应的装置以及一种信息确定方法和相应的装置。

Description

特征提取、字符识别、引擎生成、信息确定方法及装置
技术领域
本申请涉及计算机技术领域,尤其涉及一种字符描述特征提取方法、字符识别方法、字符识别引擎生成方法、信息确定方法及装置。
背景技术
字符识别是众多视觉创新应用的基础技术,目前,比较成熟的字符识别技术有光学字符识别(Optical Character Recognition,OCR)。OCR在名片识别、证件识别和文档识别等领域都有着广泛的应用。
一般来说,字符识别技术主要包括两部分内容:一部分是对样本的离线训练,另一部分是在线字符识别。
其中,对于样本的离线训练的目的是建立字符识别引擎。字符识别引擎是指根据一定的策略、运用特定的计算机程序对图像进行处理,并对从图像中识别出的字符的信息进行展示的系统。一般地,建立字符识别引擎的流程如图1所示,依次包括对作为训练样本的图像的二值化处理、归一化处理、提取图像中的字符描述特征和分类器设计。其中,对作为训练样本的图像的二值化处理,是指将图像所包含的各像素的灰度值转化为特定的两个灰度值中的一个,比如转化为0或255。
而在线字符识别的主要目的在于利用字符识别引擎,从输入字符识别引擎的图像中识别出字符。对应于字符识别引擎的建立方法,利用字符识别引擎进行在线字符识别的流程如图2所示,依次包括对图像的二值化处理、归一化处理、提取图像中的字符描述特征,以及利用分类器确定提取到的字符描述特征所描述字符的所属类别。
由图1可以看出,现有的字符识别引擎的建立基础之一是对图像的二值化处理。之所以对图像进行二值化处理,是因为现有的字符描述特征提取方法往往都是基于二值化图像实现的,当该些方法应用在灰度图像上时,有可能不能提取到合适的字符描述特征,从而会影响字符识别引擎对于字符的识别准确性。
发明内容
本申请实施例提供一种字符描述特征提取方法,以适用于对于灰度图像的字符描述特征提取。
本申请实施例还提供一种字符描述特征提取装置,以适用于对于灰度图像的字符描述特征提取。
本申请实施例还提供一种字符识别方法和相应的装置。
本申请实施例还提供一种字符识别引擎生成方法和相应的装置。
本申请实施例还提供一种信息确定方法及装置。
本申请实施例采用下述技术方案:
一种字符描述特征提取方法,包括:获得图像;确定第一灰度信息和第二灰度信息;其中,第一灰度信息表示所述图像的基准区域内的像素的灰度等级;第二灰度信息表示所述图像的比较区域内的像素的灰度等级;根据第一灰度信息和第二灰度信息,确定字符描述特征。
一种字符识别方法,包括:获得图像;确定第一灰度信息和第二灰度信息;其中,第一灰度信息表示所述图像的基准区域内的像素的灰度等级;第二灰度信息表示所述图像的比较区域内的像素的灰度等级;根据第一灰度信息和第二灰度信息,确定字符描述特征;根据所述字符描述特征确定字符。
一种字符识别引擎生成方法,包括:获得图像集合;分别确定所述图像集合包含的各图像的第一灰度信息和第二灰度信息;其中,第一灰度信息表示基准区域内的像素的灰度等级;第二灰度信息表示比较区域内的像素的灰度等级;根据确定出的各第一灰度信息和各第二灰度信息,确定字符描述特征;根据所述字符描述特征,生成分类器。
一种信息确定方法,包括:获得图像;确定第一灰度信息和第二灰度信息;其中,第一灰度信息表示所述图像的基准区域内的像素的灰度等级;第二灰度信息表示所述图像的比较区域内的像素的灰度等级。
一种字符描述特征提取装置,包括:图像获得单元,用于获得图像;信息确定单元,用于确定第一灰度信息和第二灰度信息;其中,第一灰度信息表示图像获得单元获得的所述图像的基准区域内的像素的灰度等级;第二灰度信息表示所述图像的比较区域内的像素的灰度等级;特征确定单元,用于根据信息确定单元确定的第一灰度信息和第二灰度信息,确定字符描述特征。
一种字符识别装置,包括:图像获得单元,用于获得图像;信息确定单元,用于确定第一灰度信息和第二灰度信息;其中,第一灰度信息表示图像获得单元获得的所述图像的基准区域内的像素的灰度等级;第二灰度信息表示所述图像的比较区域内的像素的灰度等级;特征确定单元,用于根据信息确定单元确定的第一灰度信息和第二灰度信息,确定字符描述特征;字符确定单元,用于根据特征确定单元确定的所述字符描述特征确定字符。
一种字符识别引擎生成装置,包括:图像获得单元,用于获得图像集合;信息确定单元,用于分别确定图像获得单元获得的所述图像集合包含的各图像的第一灰度信息和第二灰度信息;其中,第一灰度信息表示基准区域内的像素的灰度等级;第二灰度信息表示比较区域内的像素的灰度等级;特征确定单元,用于根据信息确定单元确定出的各第一灰度信息和各第二灰度信息,确定字符描述特征;分类器生成单元,用于根据特征确定单元确定的所述字符描述特征,生成分类器。
一种信息确定装置,包括:图像获得单元,用于获得图像;信息确定单元,用于确定第一灰度信息和第二灰度信息;其中,第一灰度信息表示所述图像的基准区域内的像素的灰度等级;第二灰度信息表示所述图像的比较区域内的像素的灰度等级。
本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:
方案可以根据表示灰度等级的灰度信息来确定字符描述特征,而无论是从二值化图像还是灰度图像中,都可以获取到这样的灰度信息,从而该方案可以适用于对于灰度图像的字符描述特征提取。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为现有技术中建立字符识别引擎的流程示意图;
图2为现有技术中利用字符识别引擎进行在线字符识别的流程示意图;
图3为本申请实施例1提供的一种字符描述特征提取方法的实现流程示意图;
图4a为包含字符的灰度图像的示意图;
图4b为由坐标轴x和坐标轴y构成的图像坐标系的示意图;
图4c为基准区域和比较区域的大小以及在图像坐标系中所在位置的示意图;
图4d为基准区域、比较区域与图像的位置关系的示意图;
图4e为基准区域、比较区域与字符“一”的位置关系的示意图;
图4f为本申请实施例1中可使用的一种基准区域和比较区域的示意图;
图4g为本申请实施例1中可使用的另一种基准区域和比较区域的示意图;
图5为本申请实施例2提供的一种字符识别方法的具体流程示意图;
图6为本申请实施例3提供的一种字符识别引擎生成方法的具体流程示意图;
图7a为本申请实施例4提供的一种利用对票据进行扫描而得到的样本图像进行分类器训练,并利用分类器对待识别图像进行字符识别的方法的具体流程示意图;
图7b为本申请实施例4中的决策树的结构示意图;
图8a为实施例5提供一种新的字符识别方法的流程示意图;
图8b为样本图像的示意图;
图8c为按照定位信息集合j确定出的基准区域和比较区域与图8b所示的样本图像的位置关系示意图;
图8d为本申请实施例5中生成的决策树的示意图;
图9为本申请实施例6提供的第一种字符描述特征提取装置的具体结构示意图;
图10为本申请实施例6提供的第二种字符描述特征提取装置的具体结构示意图;
图11为本申请实施例7提供的第一种字符识别装置的具体结构示意图;
图12为本申请实施例8提供的第一种字符识别引擎生成装置的具体结构示意图;
图13为本申请实施例9提供的第一种信息确定装置的具体结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
以下结合附图,详细说明本申请各实施例提供的技术方案。
实施例1
实施例1提供一种字符描述特征提取方法,该方法的实现流程示意图如图3所示,包括下述步骤:
步骤31,获得图像。
这里的图像比如可以是包含字符的灰度图像,如图4a所示。
步骤32,确定第一灰度信息和第二灰度信息。
其中,第一灰度信息表示图像的基准区域内的像素的灰度等级;第二灰度信息表示图像的比较区域内的像素的灰度等级。
这里所说的“基准区域”和“比较区域”是指具备两个特定属性的区域。这两个特定属性分别为“大小”和“位置”。本申请实施例中,同时表示这两个属性的信息或者表示这两个属性之一的信息均可以称为“定位信息”。
以基准区域为例,根据其定位信息可以确定出基准区域所在位置和大小,进而可以确定基准区域与图像的位置关系。比如,基于如图4b所示的由坐标轴x和坐标轴y构成的图像坐标系,若基准区域的定位信息包括“大小为50×50”以及“区域的第一顶点的坐标为(20,20),区域的第二顶点的坐标为(70,20)”,则可以确定出基准区域的大小和在该图像坐标系中所在位置;类似地,也可以根据比较区域的定位信息,确定出比较区域的大小和在图像坐标系中所在位置,如图4c所示。图4c中,比较区域中的数字1、2、3表示比较区域的编号。基于图4b和图4c,可以确定出基准区域和比较区域与图像的位置关系,如图4d所示。一般说来,同一图像中的比较区域和基准区域至少有部分不重叠,甚至完全不重叠。此外,单个比较区域与基准区域的大小一般是相同的,但也可以允许存在差异。
在确定出基准区域与图像的位置关系,以及比较区域与图像的位置关系后,就可以对图像中分别处于基准区域和比较区域内的像素的灰度等级进行统计,从而得到第一灰度信息和第二灰度信息。
需要说明的是,本申请实施例中,在确定第一灰度信息和第二灰度信息之前,可以对基准区域和比较区域的定位信息进行设置。比如,可以对不同的字符在包含单个字符的图像中所处位置进行统计,并根据统计结果来分别确定基准区域和比较区域的定位信息。
针对基准区域和比较区域所处位置而言,由于在包含单个字符的图像中,字符往往处于图像中央位置而非边缘位置,因此,可以按照“将基准区域定位在图像边缘位置,将比较区域定位在图像中央位置;反之亦可”的方式,确定基准区域和比较区域的位置;又比如,针对上下结构的汉字字符,构成字符的笔划往往集中于图像中央位置的上部和下部,因此,可以按照“将基准区域定位在图像左侧(或右侧),将比较区域定位在图像中央位置的上部(或下部);反之亦可”的方式,确定基准区域和比较区域的位置;等等。
针对基准区域和比较区域的面积而言,当基准区域被定位在图像边缘位置时,可以根据字符在包含单个字符的图像中所占据的最小区域的大小,确定基准区域的面积。比如该面积可以被要求满足“使得该最小区域的水平宽度与基准区域的水平宽度之和不大于图像的水平宽度”这一条件。或者,该面积也可以被要求满足其他条件。本申请实施例中,单个比较区域的面积可以与基准区域相同或不同。
实施例1中,在设置基准区域和比较区域的定位信息时,还可以采用上文介绍的方式先确定出基准区域的位置和面积。然后,可以根据单个比较区域定位信息确定规则、基准区域的位置和基准区域的面积,确定比较区域的位置和面积。其中,这里所说的“单个比较区域定位信息确定规则”比如可以是“比较区域的面积与基准区域的面积相同;比较区域中心点与基准区域中心点之间的水平间隔为100个像素”。或者,该规则还可以是“比较区域的面积小于基准区域的面积;且比较区域的面积与基准区域的面积之差等于面积差异阈值;比较区域中心点与基准区域中心点之间的垂直间隔为90个像素”。等等。
实施例1中,当图像的单个基准区域的面积与图像的单个比较区域的面积的大小差异不大于规定的面积差异阈值甚至大小相同时,确定出的第一灰度信息的数目可以与图像中的基准区域的总数目相同,且单个第一灰度信息可以是图像的单个基准区域内所有像素的灰度值的平均值,或者可以是图像的单个基准区域内所有像素的灰度值中的中值,或者可以是图像的单个基准区域内所有像素的灰度值之和,等等;类似地,确定出的第二灰度信息的数目可以与图像中的比较区域的总数目相同,且单个第二灰度信息可以是图像的单个比较区域内所有像素的灰度值的平均值,或者可以是图像的单个比较区域内所有像素的灰度值中的中值,或者可以是图像的单个比较区域内所有像素的灰度值之和,等等。
当图像的各比较区域的面积之和与单个基准区域的面积的大小差异不大于规定的面积差异阈值时,第一灰度信息的数目可以与图像的基准区域的总数目相同,且单个第一灰度信息可以是图像的单个基准区域内所有像素的灰度值的平均值,或者可以是图像的单个基准区域内所有像素的灰度值中的中值,或者可以是图像的单个基准区域内所有像素的灰度值之和,等等;而第二灰度信息的数目可以是1,且该第二灰度信息可以是图像的所有比较区域内所有像素的灰度值的平均值,或者可以是图像的所有比较区域内所有像素的灰度值中的中值,或者可以是图像的所有比较区域内所有像素的灰度值之和,等等。
反之,当图像的各基准区域的面积之和与单个比较区域的面积的大小差异不大于规定的面积差异阈值时,第一灰度信息的数目可以是1,且该第一灰度信息可以是图像的所有基准区域内所有像素的灰度值的平均值,或者可以是图像的所有基准区域内所有像素的灰度值中的中值,或者可以是图像的所有基准区域内所有像素的灰度值之和,等等;而第二灰度信息的数目可以是图像中的比较区域的总数目,且单个第二灰度信息可以是图像的单个比较区域内所有像素的灰度值的平均值,或者可以是图像的单个比较区域内所有像素的灰度值中的中值,或者可以是图像的单个比较区域内所有像素的灰度值之和,等等。
步骤33,根据第一灰度信息和第二灰度信息,确定字符描述特征。
以图4d为例,假设:第一灰度信息为基准区域内所有像素的灰度值的平均值a;第二灰度信息有三个,分别为编号为1的比较区域内所有像素的灰度值的平均值b、编号为2的比较区域内所有像素的灰度值的平均值c、编号为3的比较区域内所有像素的灰度值的平均值d。那么,由图4d可知,存在a<b,a<c,以及a<d。
由于一般说来,包含字符的图像会有这样的特点:构成字符(图像中的前景)的像素的灰度值与构成图像背景的像素的灰度值会存在差异。从而当基准区域、图像背景和字符的重叠关系(为便于描述,后文简称为第一重叠关系)不同于比较区域、图像背景和字符的重叠关系(为便于描述,后文简称为第二重叠关系)时,针对图像获得的第一灰度信息与第二灰度信息会存在差异。
此外,当不同图像所包含的字符不同时,即便利用相同的区域集合(即由基准区域和比较区域构成的集合)来确定不同图像的第一灰度信息和第二灰度信息之间的大小关系,也会由于不同图像的第一重叠关系不同,以及第二重叠关系不同,从而使得针对不同图像获得的第一灰度信息与第二灰度信息的大小关系会存在差异。
基于上述分析,发明人认为,可以利用第一灰度信息与第二灰度信息的大小关系的差异,作为区分不同字符的依据。从而实施例1中可以根据第一灰度信息和第二灰度信息之间的大小关系来确定字符描述特征。
比如,可以采用将“第一灰度信息<第二灰度信息”这一特征编码为数值“1”,且将“第二灰度信息≤第一灰度信息”这一特征编码为数值“0”的编码方式,得到作为字符描述特征的编码结果。
具体地,以前文所述的a<b,a<c,以及a<d的情况为例,当采用上述编码方式对a<b,a<c,以及a<d进行编码,并按照比较区域的编号由小至大的顺序,对编码得到的相应数值进行排列时,可以得到编码结果“111”,即利用如图4c所示的区域集合对“文”字进行字符描述特征提取,可以得到字符描述特征“111”。按照类似的方法,对如图4e所示的“一”字进行字符描述特征提取,可以得到字符描述特征“000”。本申请实施例中,也可以按照其他排列方式对编码得到的数值进行排列,本申请实施例对此不作限定。
以下进一步地介绍步骤32和步骤33的可选实现方式。
步骤32的一种具体实现方式可以包括下述子步骤:
子步骤一:获得至少一个定位信息集合。
其中,单个定位信息集合包含基准区域的定位信息和比较区域的定位信息。
子步骤二:根据获得的各定位信息集合中包含的各基准区域的定位信息和各比较区域,分别确定图像的各基准区域和各比较区域。
以图4a所示的图像为例,其基准区域和比较区域除了可以如图4d所示外,还可以如图4f和图4g所示,等等。
子步骤三:确定分别表示图像的各基准区域内的像素的灰度等级的各第一灰度信息,以及确定分别表示图像的各比较区域的像素的灰度等级的各第二灰度信息。
若将利用同一定位信息集合确定出的第一灰度信息和第二灰度信息视为构成一个灰度信息集合,那么,通过执行上述子步骤一~子步骤三,可以确定出至少一个灰度信息集合。
由于仅采用一个定位信息集合来确定不同图像的灰度信息集合时,有可能出现针对不同图像得到相同的灰度信息集合的情况,即可能出现确定出的灰度信息集合不能唯一代表某个字符的情况。因此,为了避免上述情况,子步骤一中获得的所述至少一个定位信息集合的数目可以大于等于二。在这样的情况下,确定出的灰度信息集合的数目也大于等于二。
当采用上述方式确定出至少两个灰度信息集合时,步骤33的一种具体实现方式可以包括:利用根据同一定位信息集合中的各基准区域的定位信息和各比较区域的定位信息分别确定出的第一灰度信息和第二灰度信息,确定字符描述子特征;根据确定出的各字符描述子特征,确定字符描述特征。
针对字符描述子特征的确定方式而言,实施例1中可以利用编码算法,以及根据同一定位信息集合中的各基准区域的定位信息和各比较区域的定位信息分别确定出的第一灰度信息和第二灰度信息,确定字符描述子特征。
比如,可以采用前文描述的编码方式,对各灰度信息集合分别进行编码,得到作为字符描述子特征的编码结果;然后,可以将对各灰度信息集合分别进行编码而得到的编码结果进行组合,得到的组合结果即为字符描述特征。例如,若进行下述假设:
1、根据定位信息集合1所确定出的基准区域和比较区域如图4c所示;
2、根据定位信息集合2所确定出的基准区域和比较区域如图4f所示;
3、根据如图4c所示的基准区域和比较区域从图4a确定出的编码结果为“111”;
4、根据如图4f所示的基准区域和比较区域从图4a确定出的编码结果为“110”。
则“111”和“110”均可以视作“字符描述子特征”。对这两个字符描述子特征进行组合,就可以得到字符描述特征“111110”。本申请实施例对组合字符描述子特征时所采用的组合方式不进行限制。
采用将多个字符描述子特征组合为字符描述特征的方式,可以使确定出的字符描述特征唯一代表某个字符的概率增大。尤其在获得的所述至少一个定位信息集合的数目比较大,比如成千甚至上万,从而确定出的字符描述子特征的数目也多至成千乃至上万时,将这样大数目的字符描述子特征进行组合,可以使得字符描述特征可以以较大的概率唯一代表某个字符。
通过实施例1提供的方法,由于可以根据表示灰度等级的灰度信息来确定字符描述特征,而无论是从二值化图像还是灰度图像中,都可以获取到这样的灰度信息,从而该方法可以适用于对于灰度图像的字符描述特征提取。
当然,实施例1提供的该方法也可以应用于二值化图像等可以利用灰度等级区分前景和图像背景的图像,或其他类型的图像中。
需要说明的是,实施例1所提供方法的各步骤的执行主体均可以是同一终端,或者,该方法也由不同终端作为执行主体。比如,步骤31和步骤32的执行主体可以为终端1,步骤33的执行主体可以为终端2;又比如,步骤31的执行主体可以为终端1,步骤32和步骤33的执行主体可以为终端2;等等。
实施例2
实施例2提供一种字符识别方法,该方法的实现流程示意图如图5所示,包括下述步骤:
步骤51,获得图像。
步骤52,确定第一灰度信息和第二灰度信息。
其中,第一灰度信息表示图像的基准区域内的像素的灰度等级;第二灰度信息表示图像的比较区域内的像素的灰度等级。
步骤53,根据第一灰度信息和第二灰度信息,确定字符描述特征。
步骤53的具体实现方式除了可以与实施例1中的步骤33的具体实现方式类似外,还可以采用下述方式:
确定第一灰度信息所表示的灰度等级所处的灰度等级范围(以下简称第一灰度等级范围),并确定第二灰度信息所表示的灰度等级所处的灰度等级范围(以下简称第二灰度等级范围)。
上述第一灰度等级范围和第二灰度等级范围可以作为字符描述特征。
步骤54,根据字符描述特征确定字符。
实施例2提供的该方法可以是由字符识别引擎来实现的。特别地,步骤52~步骤54可以是由字符识别引擎中的分类器来实现的。该分类器可以但不限于是贝叶斯(Bayes)分类器、反溯(Back Propagation,BP)网络神经网络分类器、决策树、随机森林或支持向量机((Support Vector Machine,SVM)分类器等。
实施例2提供的该方法的前三个步骤的实现方式与图3所示的三个步骤的实现方式类似,在此不再赘述。
实施例2提供的该方法可以根据表示灰度等级的灰度信息来确定字符描述特征,并根据确定出的字符描述特征识别字符。而无论是从二值化图像还是灰度图像中,都可以获取到这样的灰度信息,从而该方法可以适用于识别灰度图像中的字符。
需要说明的是,实施例2所提供方法的各步骤的执行主体均可以是同一终端,或者,该方法也由不同终端作为执行主体。比如,步骤51和步骤52的执行主体可以为终端X,步骤53和步骤54的执行主体可以为终端Y;又比如,步骤51的执行主体可以为终端X,步骤52、步骤53和步骤54的执行主体可以为终端Y;等等。
实施例3
实施例3提供一种字符识别引擎生成方法,该方法的具体流程示意图如图6所示,包括下述步骤:
步骤61,获得图像集合;
这里说的图像集合往往是由样本图像构成的集合。其中,样本图像可以为图4a所示的灰度图像。该灰度图像可以是根据特定的图像宽度值和高度值进行了归一化的图像。
图像集合理论上可以包含至少一个图像。但在实际应用中,为了保证生成的分类器对于字符识别的准确性,该图像集合往往由上万的样本图像构成。一般地,图像集合可以包括多个图像子集合,单个图像子集合中的图像可以包含同一字符,比如都包含字符“人”,或都包含字符“R”等等。
本申请实施例中,单个图像子集合中的不同图像分别包含的字符往往具备不同外形,比如字体不同,或者构成字符的线条粗细不同,等等。
步骤62,分别确定获得的图像集合包含的各图像的第一灰度信息和第二灰度信息。
其中,第一灰度信息表示基准区域内的像素的灰度等级;第二灰度信息表示比较区域内的像素的灰度等级。
实施例3中,步骤62的一种具体实现过程可以包括如下子步骤:
子步骤Ⅰ:获得至少一个定位信息集合。
其中,单个定位信息集合包含基准区域的定位信息和比较区域的定位信息。
子步骤Ⅱ:根据所述至少一个定位信息集合中包含的各基准区域的定位信息,确定图像集合中各图像的各基准区域;并根据所述至少一个定位信息集合中包含的各比较区域的定位信息,确定图像集合中各图像的各比较区域。
子步骤Ⅲ:确定分别表示图像集合中各图像的各基准区域内的像素的灰度等级的各第一灰度信息;并确定分别表示图像集合中各图像的各比较区域的像素的灰度等级的各第二灰度信息。
步骤63,根据确定出的各第一灰度信息和各第二灰度信息,确定字符描述特征。
可选的,当通过执行步骤61而获得的所述至少一个定位信息集合的数目大于等于二时,步骤63中所述的字符描述特征可以是由至少两个字符描述子特征组合得到的。具体而言,步骤63的一种具体实现方式可以包括:利用根据同一定位信息集合分别确定出的图像集合中各图像的各第一灰度信息和各第二灰度信息,确定图像集合中各图像的字符描述子特征;根据图像集合中各图像的各字符描述子特征,确定图像集合中各图像的字符描述特征。
针对字符描述子特征的确定方式而言,比如可以利用编码算法,以及根据同一定位信息集合分别确定出的图像集合中各图像的各第一灰度信息和各第二灰度信息,确定分别作为图像集合中各图像的字符描述子特征的各编码结果。
或者,步骤63中,也可以直接利用编码算法,以及根据同一定位信息集合分别确定出的图像集合中各图像的各第一灰度信息和各第二灰度信息,确定分别作为图像集合中各图像的字符描述特征的各编码结果。
步骤64,根据字符描述特征,生成分类器。
实施例3中,当通过执行步骤61而获得的图像集合至少包含两个图像子集合,且获得的所述至少一个定位信息集合的数目大于等于二时,步骤64的一种具体实现方式可以包括下述子步骤:
子步骤ⅰ:根据字符描述特征,确定根据各定位信息集合分别对各单个图像子集合中的图像进行正确分类的概率值。
具体地,以前文所述的定位信息集合1为例,假设根据该定位信息集合1所确定出的基准区域和比较区域如图4c所示。那么,若根据该些基准区域和比较区域,确定出某图像子集合中的10000个图像(这10000个图像包含外形不同的同一字符)的字符描述特征满足:9000个字符描述特征为“111”,500个字符描述特征为“110”,400个字符描述特征为“011”,100个字符描述特征为“001”,则可以计算利用该定位信息集合1对该图像子集合中的图像进行正确分类的概率值为“相同的字符描述特征的最大数目/图像子集合中图像的总数目”=9000/10000=0.9。
采用类似于上述方法的方式,可以分别确定根据各定位信息集合分别对各单个图像子集合中的图像进行正确分类的概率值。
子步骤ⅱ:根据确定出的概率值,从获得的所述至少一个定位信息集合中选取定位信息集合。
比如,若通过执行步骤61而获得的图像集合包含10个图像子集合,且同一图像集合中的图像均包含同一字符,那么,以前文所述的定位信息集合1为例,通过执行子步骤ⅰ,可以确定出根据定位信息集合1分别对各单个图像子集合中的图像进行正确分类的各概率值。由于共有10个图像子集合,从而共确定出10个概率值。实施例3中,可以将这10个概率值的平均值、中值或最大值,作为最终得到的根据定位信息集合1对单个图像子集合中的图像进行正确分类的概率值。为与前述概率值进行区分,最终得到的该概率值可以称为估计概率值。
若还存在其他9个定位信息集合,分别为定位信息集合2~定位信息集合10,那么类似地,也可以按照上述方式分别确定根据各定位信息集合对单个图像子集合中的图像进行正确分类的估计概率值。
基于针对定位信息集合1~定位信息集合10分别确定出的估计概率值,可以按照估计概率值由大至小的顺序,对相应的定位信息集合进行排序,进而选取排列在前的特定数目(比如5个)的定位信息集合;或者,也可以不对定位信息集合进行排序,而是直接选取大于估计概率阈值的估计概率值所对应的定位信息集合;或者,也可以根据分类器的预定层数来选取定位信息集合,以保证选取的定位信息集合的数目能够满足生成预定层数的分类器;等等。
子步骤ⅲ:利用选取的定位信息集合,生成分类器。
实施例3中根据字符描述特征所生成的分类器可以但不限于是贝叶斯分类器、BP网络神经网络分类器、决策树、随机森林或SVM分类器等。后文将在实施例5中以决策树为例,说明如何根据字符描述特征生成分类器,在此不再赘述。
通过实施例3提供的上述方法,由于可以根据表示灰度等级的灰度信息来确定字符描述特征进而生成分类器,而无论是从二值化图像还是灰度图像中,都可以获取到这样的灰度信息,从而由该方法生成的分类器可以适用于对于灰度图像的字符识别。
需要说明的是,实施例3所提供方法的各步骤的执行主体均可以是同一终端,或者,该方法也由不同终端作为执行主体。比如,步骤61和步骤62的执行主体可以为终端x,步骤63和步骤64的执行主体可以为终端y;又比如,步骤61的执行主体可以为终端x,步骤62、步骤63和步骤64的执行主体可以为终端y;等等。
实施例4
实施例4提供一种利用对票据进行扫描而得到的样本图像进行分类器训练,并利用分类器对待识别图像进行字符识别的方法。该方法的具体流程示意图如图7a所示,包括下述步骤:
步骤71,用户利用自己手机中安装的“字符识别”应用,从服务器的票据图像数据库中下载票据图像集合,并从服务器的定位信息数据库中下载定位信息集合。
其中,实施例4中所述的“票据图像”可以是指:对纸质票据进行扫描,并对扫描得到的原始电子图像进行划分后得到的、包含单个字符的归一化灰度图像。
实施例4中,假设下载的该票据图像集合包含10万个票据图像子集合,且每个票据图像子集合中包含一万个相同尺寸的票据图像;同时,还假设同一票据图像子集合中的各票据图像均包含同一字符,但同一票据图像子集合中的不同票据图像分别包含的字符具备不同外形。
此外,实施例4中还假设下载的不同定位信息集合共有一万个。
步骤72,手机利用下载到本地的一万个定位信息集合,对下载到本地的10万个票据图像子集合进行训练,得到决策树。
其中,决策树是一种分类器。决策树中,除叶节点外的其他节点分别表示某个对象,每个分叉路径则代表的某个可能的属性值,而每个叶节点则对应从根节点到该叶节点所经历的路径所表示的对象的值。
具体地,手机利用上述一万个定位信息集合中的各定位信息集合,可以分别确定10万个票据图像子集合中各票据图像的第一灰度信息(第一灰度信息表示基准区域内的像素的灰度等级),以及各票据图像的第二灰度信息(第二灰度信息表示比较区域内的像素的灰度等级)。
然后,手机可以利用根据同一定位信息集合确定出的各票据图像的第一灰度信息和第二灰度信息,确定各票据图像的字符描述特征。进一步地,基于确定出的各票据图像的字符描述特征,手机可以确定根据各定位信息集合分别对单个票据图像子集合中的票据图像进行正确分类的各概率值;并确定根据同一定位信息集合分别对各单个票据图像子集合中的票据图像进行正确分类的所有概率值的平均值(即确定前文所述的估计概率值)。由于定位信息集合有一万个,从而可以得到一万个平均值。
进一步地,手机可以按照一万个平均值由大至小的顺序,依次对相应的定位信息集合进行排列;并按照定位信息集合的排列位置由前至后的顺序,依次选取定位信息集合生成决策树,使得生成的决策树的最大层数与规定层数相同。
或者,手机在按照定位信息集合的排列位置由前至后的顺序依次选取定位信息集合生成决策树的过程中,可以在决策树的每层节点确定完毕后,判断该层的节点的数目是否不大于预设数目阈值,若判断结果为是,则可以判定该决策树已收敛,从而结束决策树的生成流程,而若判断结果为否,则可以继续选取定位信息集合作为决策树的节点,直至生成的决策树的最大层数与规定层数相同或决策树收敛。
在生成决策树后,手机可以利用该决策树对下载到本地的票据图像集合进行识别,从而确定出该决策树上的每个叶节点与单个票据图像子集合中的票据图像所包含字符的匹配概率值。比如,针对包含一万个票据图像的某票据图像子集合而言,利用决策树对这一万个票据图像分别进行识别,则需要分别针对这一万个票据图像分别确定一次叶节点,即总共确定一万次叶节点。若决策树共有4个叶节点,分别为叶节点1~叶节点4,且这一万次中,有8000次确定出的是叶节点1,1000次确定出的是叶节点2,600次确定出的是叶节点3,400次确定出的是叶节点4,那么,可以得到:叶节点1与这一万个票据图像所包含的字符的匹配概率值为8000/10000=0.8,叶节点2与该字符的匹配概率值为1000/10000=0.1,叶节点3与该字符的匹配概率值为0.06,叶节点4与该字符的匹配概率值为0.04。
依照上述方式,可以确定出每个叶节点与各单个票据图像子集合中的票据图像所包含字符的匹配概率值。可选的,可以在每个叶节点存储特定数目的匹配概率值。以叶节点1为例,可以按照该叶节点1与各单个票据图像子集合中的票据图像所包含的字符的匹配概率值由大至小的顺序,依次选取3个匹配概率值,并对这3个匹配概率值和相应的票据图像所包含的字符进行对应存储。比如,若这三个匹配概率值分别为0.9、0.83和0.8,相应的字符为“文”、“大”和“元”,则节点1可以按照下表1的结构,对该些信息进行存储。
表1:
匹配概率值 字符
0.9
0.83
0.8
步骤73,用户利用自己手机中安装的“字符识别”应用,对纸质票据进行扫描,得到相应的原始灰度图像;
步骤74,手机对得到的原始灰度图像进行分割,得到分别包含单个字符的待识别灰度图像;
实施例4中,可以采用任何的可实现对图像进行精确分割的现有分割方法,对原始灰度图像进行分割,从而得到如图4a所示的包含单个字符的待识别灰度图像。
步骤75,手机利用通过执行步骤72而生成的决策树,分别对各待识别灰度图像中的字符进行识别,并将识别出的各字符的信息显示在手机屏幕上。
比如,若进行如下假设:
决策树的结构示意图如图7b所示,且根据作为决策树的根节点的定位信息集合确定出的基准区域和比较区域如图4g所示;
图4g所示的包含“文”字的待识别灰度图像的第一灰度信息为p,第二灰度信息为q;
p>q所对应的编码结果为0,p≤q所对应的编码结果为1。
那么,基于上述假设,并结合附图4g,可以得到作为上述待识别灰度图像中的字符描述特征的编码结果“1”。若假设根节点的下一层节点中,节点1对应编码结果“0”,节点2对应编码结果“1”,则可以确定,接下来需要根据作为节点2的定位信息集合,来确定该待识别灰度图像的另一字符描述特征,并进一步地根据该字符描述特征,从节点2的下一层节点中确定节点。以此类推,直至根据某字符描述特征确定出的节点为叶节点。
在确定出叶节点后,手机可以根据叶节点处存储的匹配概率值和字符的对应关系,确定最大的匹配概率值所对应的字符为从待识别灰度图像中识别出的字符,从而在显示屏上显示该字符。
实施例4提供的该方法,可以支持用户用手机识别灰度图像中的字符并对字符进行显示。
实施例5
目前,打印的小票或其他印刷品常常存在打印字不清晰,或印墨不均匀的情况,对于对这样的印刷品进行扫描而得到的图像而言,若采用如图2所示的现有方式进行字符识别,则对图像进行二值化时,有可能会导致一些图像中的一些细节特征丢失,从而影响识别结果的准确性。
为解决上述问题,实施例5提供一种新的字符识别方法,该方法可以直接利用灰度图像进行字符识别引擎的训练和在线的字符识别,从而避免对图像进行二值化处理而导致识别结果的准确性降低的问题。同时,由于该方法减少了前期预处理的工作量,从而降低了对输入字符识别引擎的图像的要求。
首先介绍实施例5提供的该方法中的字符识别引擎的训练过程,该过程包括如图8a所示的步骤81~步骤86:
步骤81,服务器根据待生成的随机森林所包含的决策树的数目“10”,获取10个样本图像集合。
其中,获得的每个样本图像集合分别包含一万个样本图像子集合;每个样本图像子集合分别包含一万个样本图像;单个样本图像子集合中的样本图像包含外形不同的同一字符。
实施例5中,“随机森林”是指包含多个决策树的分类器。
步骤82,服务器获得由1万个不同的定位信息集合。
其中,这1万个不同的定位信息集合可以是随机生成的,也可以是根据对于字符的识别经验而统计出的。
步骤83,服务器分别利用各定位信息集合确定各样本图像的第一灰度信息和第二灰度信息,并根据各样本图像的第一灰度信息和第二灰度信息,确定各样本图像的字符描述特征。
比如,以图8b所示的各样本图像为例,若按照定位信息集合j确定出的基准区域和比较区域与图8b所示的样本图像的位置关系如图8c所示,则可以采用下述公式[1]和公式[2],计算图8b所示的各样本图像中的字符描述特征Aij
其中,i为单个样本图像集合中的样本图像的编号,i∈[1,样本图像集合包含的样本图像的总数目],以图8b为例,可以假设分别包含“文”、“山”、“人”、“工”字的样本图像的编号依次为1、2、3、4;j为定位信息集合的编号,j∈[1,获得的定位信息集合的总数目],以图8c为例,可以假设用于确定图8c中的基准区域和比较区域的定位信息集合的编号可以为5;Sij为利用编号为j的定位信息集合确定出的编号为i的样本图像的第一灰度信息,Sijw为利用编号为j的定位信息集合中的编号为w的比较区域,而确定出的编号为i的样本图像的第二灰度信息,以图8c为例,三个比较区域的编号可以分别为1、2、3,从而此时w的取值范围为[1,3]。此外,公式[2]中的x代表函数P(x)的变量。
基于上述公式可知,利用定位信息集合5对如图8b所示的各样本图像的字符描述特征进行确定,可以得到A15=7,将其转换为三位的二进制数,可以得到二进制数“111”;A25=4,将其转换为三位的二进制数,可以得到二进制数“100”;A35=6,将其转换为三位的二进制数,可以得到二进制数“110”;A45=4,将其转换为三位的二进制数,可以得到二进制数“100”。
步骤84,服务器根据各单个样本图像子集合中各样本图像的字符描述特征,确定各定位信息集合分别对各单个样本图像子集合的样本图像进行正确分类的概率值,并根据该些概率值选取定位信息集合生成一个决策树。其中,该决策树的层数可以是预先规定的。
步骤84的具体实现方式可以参考实施例4的步骤72的实现方式,此处不再赘述。
由于服务器共获得了10个样本图像集合,从而最终可以生成10个决策树,这10个决策树的示意图如图8d所示。
步骤85,服务器利用生成的随机森林,对获得的10个样本图像集合中的各样本图像进行识别,以确定各决策树的叶节点与字符的匹配概率值。
步骤86,服务器将各叶节点与不同字符的匹配概率值,以及相应的字符,对应存储在叶节点中。比如,按照类似于表1的格式,在叶节点1处存储:叶节点1与字符“文”的匹配概率值,以及字符“文”;叶节点1与字符“山”的匹配概率值,以及字符“山”;依此类推。
为了节省叶节点的存储空间,也可以只对大于匹配概率阈值的匹配概率值和相应的字符进行存储。
通过执行步骤86,服务器可以实现在生成的10个决策树的各叶节点处存储匹配概率值和相应的字符。
以下进一步介绍实施例5提供的方法中的在线的字符识别过程,该过程包括如图8a所示的下述步骤87~步骤810:
步骤87,服务器获得用户终端发送来的待识别图像。
步骤88,服务器调用生成的决策森林,对该待识别图像中的字符进行识别,从而得到各决策树分别输出的候选分类结果。
若该待识别图像为如图8b所示的包含单个字符的图像,则步骤88中,服务器可以直接利用决策森林对该待识别图像中的字符进行识别;而若该待识别图像为包含多个字符的图像,则可以对该待识别图像进行分割后,再利用决策森林对分割得到的仅包含单个字符的待识别子图像中的字符进行识别。实施例5中,可以假设用户终端发来的该待识别图像就是包含单个字符的图像。
步骤88的具体实现方式可以参考实施例4中利用决策树对图像中的字符进行识别的方式,此处不再赘述。
步骤89,服务器根据各决策树分别输出的候选分类结果,确定待识别图像中的字符。
由于每个决策树都会输出一个候选分类结果,因此,实施例5中的服务器可以获得10个候选分类结果。
实施例5中,每个候选分类结果均可以包含一个字符的信息,从而服务器可以将10个候选分类结果中出现得最多的字符的信息所表示的字符,作为从待识别图像中识别出的字符。
步骤810,服务器将确定出的字符发送给用户终端,流程结束。
实施例6
实施例6提供两种字符描述特征提取装置,用以支持从灰度图像中提取字符描述特征。第一种字符描述特征提取装置的具体结构示意图如图9所示,包括如下功能单元:
图像获得单元91,用于获得图像;
信息确定单元92,用于确定第一灰度信息和第二灰度信息;其中,第一灰度信息表示图像获得单元91获得的图像的基准区域内的像素的灰度等级;第二灰度信息表示图像获得单元91获得的图像的比较区域内的像素的灰度等级;
特征确定单元93,用于根据信息确定单元92确定的第一灰度信息和第二灰度信息,确定字符描述特征。
对应于信息确定单元92功能的一种实现方式,可以将信息确定单元92划分为以下子单元,包括:
集合获得子单元,用于获得至少一个定位信息集合;其中,单个定位信息集合包含基准区域的定位信息和比较区域的定位信息;
区域确定子单元,用于根据集合获得子单元获得的所述至少一个定位信息集合中包含的各基准区域的定位信息,确定图像的各基准区域;并根据所述至少一个定位信息集合中包含的各比较区域的定位信息,确定图像的各比较区域;
灰度信息确定子单元,用于确定分别表示图像的各基准区域内的像素的灰度等级的各第一灰度信息;以及确定分别表示图像的各比较区域内的像素的灰度等级的各第二灰度信息。
当获得的所述至少一个定位信息集合的数目大于等于二时,特征确定单元93可以划分为下述子单元:
子特征确定子单元,用于利用根据同一定位信息集合中的各基准区域的定位信息和各比较区域的定位信息分别确定出的第一灰度信息和第二灰度信息,确定字符描述子特征;
特征确定子单元,用于根据子特征确定子单元确定出的各字符描述子特征,确定字符描述子特征。
其中,子特征确定子单元具体可以用于:利用编码算法,以及根据同一定位信息集合中的各基准区域的定位信息和各比较区域的定位信息分别确定出的第一灰度信息和第二灰度信息,确定字符描述子特征。
实施例6提供的第二种字符描述特征提取装置的具体结构示意图如图10所示,包括功能实体:图像获取器101和处理器102。各功能实体的具体介绍如下:
图像获取器101,用于获得图像。比如,图像获取器101可以是摄像机。
处理器102,用于确定第一灰度信息和第二灰度信息;根据第一灰度信息和第二灰度信息,确定字符描述特征。其中,第一灰度信息表示图像获取器101获取的图像的基准区域内的像素的灰度等级;第二灰度信息表示该图像的比较区域内的像素的灰度等级。
可选的,处理器102确定第一灰度信息和第二灰度信息的方式可以包括下述步骤:
获得至少一个定位信息集合;
根据所述至少一个定位信息集合中包含的各基准区域的定位信息,确定图像的各基准区域;
根据所述至少一个定位信息集合中包含的各比较区域的定位信息,确定图像的各比较区域;
确定分别表示图像的各基准区域内的像素的灰度等级的各第一灰度信息,以及分别表示图像的各比较区域内的像素的灰度等级的各第二灰度信息。
其中,单个定位信息集合包含基准区域的定位信息和比较区域的定位信息。
可选的,当获得的所述至少一个定位信息集合的数目大于等于二时,处理器102根据第一灰度信息和第二灰度信息确定字符描述特征的方式可以包括:利用根据同一定位信息集合中的各基准区域的定位信息和各比较区域的定位信息分别确定出的第一灰度信息和第二灰度信息,确定字符描述子特征;根据确定出的各字符描述子特征,确定字符描述子特征。
其中,处理器102具体可以利用编码算法,以及根据同一定位信息集合中的各基准区域的定位信息和各比较区域的定位信息分别确定出的第一灰度信息和第二灰度信息,确定字符描述子特征。
由于实施例6提供的每个字符描述特征提取装置均可以根据表示灰度等级的灰度信息来确定字符描述特征,而无论是从二值化图像还是灰度图像中,都可以获取到这样的灰度信息,从而实施例6提供的每个字符描述特征提取装置均可以适用于对于灰度图像的字符描述特征提取。
实施例7
实施例7提供两种字符识别装置。其中,第一种字符识别装置的具体结构示意图如图11所示,包括下述功能单元:
图像获得单元111,用于获得图像;
信息确定单元112,用于确定第一灰度信息和第二灰度信息;其中,第一灰度信息表示图像获得单元111获得的图像的基准区域内的像素的灰度等级;第二灰度信息表示图像获得单元111获得的图像的比较区域内的像素的灰度等级;
特征确定单元113,用于根据信息确定单元112确定的第一灰度信息和第二灰度信息,确定字符描述特征;
字符确定单元114,用于根据特征确定单元113确定的字符描述特征确定字符。
可选的,信息确定单元112可以划分为以下功能单元:
集合获得子单元,用于获得至少一个定位信息集合;其中,单个定位信息集合包含基准区域的定位信息和比较区域的定位信息;
区域确定子单元,用于根据集合获得子单元获得的所述至少一个定位信息集合中包含的各基准区域的定位信息,确定图像的各基准区域;并根据所述至少一个定位信息集合中包含的各比较区域的定位信息,确定图像的各比较区域;
灰度信息确定子单元,用于确定分别表示图像的各基准区域内的像素的灰度等级的各第一灰度信息;以及确定分别表示图像的各比较区域内的像素的灰度等级的各第二灰度信息。
可选的,当获得的所述至少一个定位信息集合的数目大于等于二时,特征确定单元113可以包括:
子特征确定子单元,用于利用根据同一定位信息集合中的各基准区域的定位信息和各比较区域的定位信息分别确定出的第一灰度信息和第二灰度信息,确定字符描述子特征;
特征确定子单元,用于根据子特征确定子单元确定出的各字符描述子特征,确定字符描述子特征。
其中,子特征确定子单元具体可以用于:利用编码算法,以及所述根据同一定位信息集合中的各基准区域的定位信息和各比较区域的定位信息分别确定出的第一灰度信息和第二灰度信息,确定字符描述子特征。
实施例7提供的第二种字符识别装置的具体结构示意图与图10类似,也是包含图像获取器和处理器。其中,该字符识别装置中的图像获取器的功能与实施例6中的图像获取器101的功能类似,此处不再赘述。该字符识别装置中的处理器的功能与实施例6中的处理器102的功能基本相同,仅有一个不同之处在于,实施例7中的该处理器还具备根据确定出的字符描述特征确定字符的功能。
实施例7提供的每个字符识别装置均可以根据表示灰度等级的灰度信息来确定字符描述特征进而识别字符,而无论是从二值化图像还是灰度图像中,都可以获取到这样的灰度信息,从而实施例7提供的每个字符识别装置均可以适用于识别灰度图像中的字符。
实施例8
实施例8提供两种字符识别引擎生成装置。其中,第一种字符识别引擎生成装置的具体结构示意图如图12所示,包括下述功能单元:
图像获得单元121,用于获得图像集合;
信息确定单元122,用于分别确定图像获得单元121获得的图像集合包含的各图像的第一灰度信息和第二灰度信息;其中,第一灰度信息表示基准区域内的像素的灰度等级;第二灰度信息表示比较区域内的像素的灰度等级;
特征确定单元123,用于根据信息确定单元122确定出的各第一灰度信息和各第二灰度信息,确定字符描述特征;
分类器生成单元124,用于根据特征确定单元123确定的字符描述特征生成分类器。
实施例8中的信息确定单元122的具体结构与实施例7中的信息确定单元102的具体结构类似,在此不再赘述。
当获得的所述至少一个定位信息集合的数目大于等于二时,特征确定单元123的具体结构与实施例7中的信息确定单元103的具体结构类似,在此也不再赘述。
可选的,当获得的图像集合至少包含两个图像子集合;获得的所述至少一个定位信息集合的数目大于等于二时,分类器生成单元124具体可以划分为以下功能单元:
概率值确定子单元,用于根据字符描述特征,确定根据各定位信息集合分别对各单个图像子集合中的图像进行正确分类的概率值;
集合选取子单元,用于根据概率值确定子单元确定出的概率值,从获得的所述至少一个定位信息集合中选取定位信息集合;
分类器生成子单元,用于利用集合选取子单元选取的定位信息集合,生成分类器。
实施例8提供的第二种字符识别引擎生成装置的具体结构示意图与图10类似,也是包含图像获取器和处理器。其中,该字符识别引擎生成装置中的图像获取器的功能与实施例6中的图像获取器101的功能类似,此处不再赘述。该字符识别引擎生成装置中的处理器的功能与实施例6中的处理器102的功能基本相同,仅有一个不同之处在于,实施例8中的该处理器还具备根据确定出的字符描述特征生成分类器的功能。
实施例8提供的装置可以根据表示灰度等级的灰度信息来确定字符描述特征进而生成分类器,而无论是从二值化图像还是灰度图像中,都可以获取到这样的灰度信息,从而该方案可以适用于提取灰度图像的字符描述特征提取进而生成分类器。
实施例9
实施例9提供两种信息确定装置和一种信息确定方法。其中,第一种信息确定装置的具体结构示意图如图13所示,包括下述功能单元:
图像获得单元131,用于获得图像;
信息确定单元132,用于确定第一灰度信息和第二灰度信息;其中,第一灰度信息表示图像获得单元131获得的图像的基准区域内的像素的灰度等级;第二灰度信息表示图像获得单元131获得的图像的比较区域内的像素的灰度等级。
可选的,信息确定单元132具体可以用于:获得至少一个定位信息集合;其中,单个定位信息集合包含基准区域的定位信息和比较区域的定位信息;根据所述至少一个定位信息集合中包含的各基准区域的定位信息,确定所述图像的各基准区域;根据所述至少一个定位信息集合中包含的各比较区域的定位信息,确定所述图像的各比较区域;确定分别表示所述图像的各基准区域内的像素的灰度等级的各第一灰度信息;确定分别表示所述图像的各比较区域内的像素的灰度等级的各第二灰度信息。
实施例9提供的第二种信息确定装置的具体结构示意图与图10类似,也是包含图像获取器和处理器。其中,该信息确定装置中的图像获取器的功能与实施例6中的图像获取器101的功能类似,此处不再赘述。该信息确定装置装置中的处理器的功能则可以包括:确定第一灰度信息和第二灰度信息。其中,第一灰度信息表示该信息确定装置中的图像获取器获得的图像的基准区域内的像素的灰度等级;第二灰度信息表示该图像的比较区域内的像素的灰度等级。
实施例9还提供一种信息确定方法,该方法包括下述两个步骤:
步骤一:获得图像;
步骤二:确定第一灰度信息和第二灰度信息。其中,第一灰度信息表示通过执行步骤一而获得的图像的基准区域内的像素的灰度等级;第二灰度信息表示该图像的比较区域内的像素的灰度等级。
可选的,步骤二的具体实现方式可以包括下述步骤:
获得至少一个定位信息集合;其中,单个定位信息集合包含基准区域的定位信息和比较区域的定位信息;
根据所述至少一个定位信息集合中包含的各基准区域的定位信息,确定图像的各基准区域,并根据所述至少一个定位信息集合中包含的各比较区域的定位信息,确定图像的各比较区域;
确定分别表示图像的各基准区域内的像素的灰度等级的各第一灰度信息,以及分别表示图像的各比较区域内的像素的灰度等级的各第二灰度信息。
实施例9中,确定出的第一灰度信息和第二灰度信息的用途可以是用来确定字符特征信息,或者,也可以有别的用途,本申请实施例对此不做限定。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (28)

1.一种字符描述特征提取方法,其特征在于,包括:
获得图像;
获得至少一个定位信息集合;其中,单个定位信息集合包含基准区域的定位信息和比较区域的定位信息;
根据所述至少一个定位信息集合,确定第一灰度信息和第二灰度信息;其中,第一灰度信息表示所述图像的基准区域内的像素的灰度等级;第二灰度信息表示所述图像的比较区域内的像素的灰度等级;
根据第一灰度信息和第二灰度信息,确定字符描述特征。
2.如权利要求1所述的方法,其特征在于,根据所述至少一个定位信息集合,确定第一灰度信息和第二灰度信息,包括:
根据所述至少一个定位信息集合中包含的各基准区域的定位信息,确定所述图像的各基准区域;
根据所述至少一个定位信息集合中包含的各比较区域的定位信息,确定所述图像的各比较区域;
确定分别表示所述图像的各基准区域内的像素的灰度等级的各第一灰度信息;
确定分别表示所述图像的各比较区域内的像素的灰度等级的各第二灰度信息。
3.如权利要求2所述的方法,其特征在于,当获得的所述至少一个定位信息集合的数目大于等于二时,根据第一灰度信息和第二灰度信息,确定字符描述特征,包括:
利用根据同一定位信息集合中的各基准区域的定位信息和各比较区域的定位信息分别确定出的第一灰度信息和第二灰度信息,确定字符描述子特征;
根据确定出的各字符描述子特征,确定字符描述子特征。
4.如权利要求3所述的方法,其特征在于,利用根据同一定位信息集合中的各基准区域的定位信息和各比较区域的定位信息分别确定出的第一灰度信息和第二灰度信息,确定字符描述子特征,包括:
利用编码算法,以及所述根据同一定位信息集合中的各基准区域的定位信息和各比较区域的定位信息分别确定出的第一灰度信息和第二灰度信息,确定字符描述子特征。
5.如权利要求1所述的方法,其特征在于,所述基准区域与所述比较区域不重叠。
6.如权利要求1或5所述的方法,其特征在于,单个所述基准区域的面积与单个所述比较区域的面积相同。
7.一种字符识别方法,其特征在于,包括:
获得图像;
获得至少一个定位信息集合;其中,单个定位信息集合包含基准区域的定位信息和比较区域的定位信息;
根据所述至少一个定位信息集合,确定第一灰度信息和第二灰度信息;其中,第一灰度信息表示所述图像的基准区域内的像素的灰度等级;第二灰度信息表示所述图像的比较区域内的像素的灰度等级;
根据第一灰度信息和第二灰度信息,确定字符描述特征;
根据所述字符描述特征确定字符。
8.如权利要求7所述的方法,其特征在于,根据所述至少一个定位信息集合,确定第一灰度信息和第二灰度信息,包括:
根据所述至少一个定位信息集合中包含的各基准区域的定位信息,确定所述图像的各基准区域;
根据所述至少一个定位信息集合中包含的各比较区域的定位信息,确定所述图像的各比较区域;
确定分别表示所述图像的各基准区域内的像素的灰度等级的各第一灰度信息;
确定分别表示所述图像的各比较区域内的像素的灰度等级的各第二灰度信息。
9.如权利要求8所述的方法,其特征在于,当获得的所述至少一个定位信息集合的数目大于等于二时,根据第一灰度信息和第二灰度信息,确定字符描述特征,包括:
利用根据同一定位信息集合中的各基准区域的定位信息和各比较区域的定位信息分别确定出的第一灰度信息和第二灰度信息,确定字符描述子特征;
根据确定出的各字符描述子特征,确定字符描述子特征。
10.如权利要求9所述的方法,其特征在于,利用根据同一定位信息集合中的各基准区域的定位信息和各定位区域的定位信息分别确定出的第一灰度信息和第二灰度信息,确定字符描述子特征,包括:
利用编码算法,以及所述根据同一定位信息集合中的各基准区域的定位信息和各比较区域的定位信息分别确定出的第一灰度信息和第二灰度信息,确定字符描述子特征。
11.如权利要求7所述的方法,其特征在于,所述基准区域与所述比较区域不重叠。
12.如权利要求7或11所述的方法,其特征在于,单个所述基准区域的面积与单个所述比较区域的面积相同。
13.一种字符识别引擎生成方法,其特征在于,包括:
获得图像集合;
获得至少一个定位信息集合;其中,单个定位信息集合包含基准区域的定位信息和比较区域的定位信息;
根据所述至少一个定位信息集合,分别确定所述图像集合包含的各图像的第一灰度信息和第二灰度信息;其中,第一灰度信息表示基准区域内的像素的灰度等级;第二灰度信息表示比较区域内的像素的灰度等级;
根据确定出的各第一灰度信息和各第二灰度信息,确定字符描述特征;
根据所述字符描述特征,生成分类器。
14.如权利要求13所述的方法,其特征在于,根据所述至少一个定位信息集合,分别确定所述图像集合包含的各图像的第一灰度信息和第二灰度信息,包括:
根据所述至少一个定位信息集合中包含的各基准区域的定位信息,确定所述各图像的各基准区域;
根据所述至少一个定位信息集合中包含的各比较区域的定位信息,确定所述各图像的各比较区域;
确定分别表示所述各图像的各基准区域内的像素的灰度等级的各第一灰度信息;
确定分别表示所述各图像的各比较区域内的像素的灰度等级的各第二灰度信息。
15.如权利要求14所述的方法,其特征在于,当获得的所述至少一个定位信息集合的数目大于等于二时,根据确定出的各第一灰度信息和各第二灰度信息,确定字符描述特征,包括:
利用根据同一定位信息集合分别确定出的所述各图像的各第一灰度信息和各第二灰度信息,确定所述各图像的字符描述子特征;
根据所述各图像的各字符描述子特征,确定所述各图像的字符描述特征。
16.如权利要求15所述的方法,其特征在于,利用根据同一定位信息集合分别确定出的所述各图像的各第一灰度信息和各第二灰度信息,确定所述各图像分别包含的字符描述子特征,包括:
利用编码算法,以及所述根据同一定位信息集合分别确定出的所述各图像的各第一灰度信息和各第二灰度信息,确定所述各图像的字符描述子特征。
17.如权利要求13或14所述的方法,其特征在于:所述图像集合至少包含两个图像子集合;获得的所述至少一个定位信息集合的数目大于等于二;则根据所述字符描述特征,生成分类器,包括:
根据所述字符描述特征,确定根据各定位信息集合分别对各单个图像子集合中的图像进行正确分类的概率值;
根据所述概率值,从获得的所述至少一个定位信息集合中选取定位信息集合;
利用选取的定位信息集合,生成分类器。
18.如权利要求13所述的方法,其特征在于,所述基准区域与所述比较区域不重叠。
19.如权利要求13或18所述的方法,其特征在于,单个所述基准区域的面积与单个所述比较区域的面积相同。
20.一种信息确定方法,其特征在于,包括:
获得图像;
获得至少一个定位信息集合;其中,单个定位信息集合包含基准区域的定位信息和比较区域的定位信息;
根据所述至少一个定位信息集合,确定第一灰度信息和第二灰度信息;
其中,第一灰度信息表示所述图像的基准区域内的像素的灰度等级;第二灰度信息表示所述图像的比较区域内的像素的灰度等级。
21.如权利要求20所述的方法,其特征在于,根据所述至少一个定位信息集合,确定第一灰度信息和第二灰度信息,包括:
根据所述至少一个定位信息集合中包含的各基准区域的定位信息,确定所述图像的各基准区域;
根据所述至少一个定位信息集合中包含的各比较区域的定位信息,确定所述图像的各比较区域;
确定分别表示所述图像的各基准区域内的像素的灰度等级的各第一灰度信息;
确定分别表示所述图像的各比较区域内的像素的灰度等级的各第二灰度信息。
22.一种字符描述特征提取装置,其特征在于,包括:
图像获得单元,用于获得图像;
信息确定单元,用于获得至少一个定位信息集合,并根据所述至少一个定位信息集合,确定第一灰度信息和第二灰度信息;其中,第一灰度信息表示图像获得单元获得的所述图像的基准区域内的像素的灰度等级;第二灰度信息表示所述图像的比较区域内的像素的灰度等级,单个定位信息集合包含基准区域的定位信息和比较区域的定位信息;
特征确定单元,用于根据信息确定单元确定的第一灰度信息和第二灰度信息,确定字符描述特征。
23.如权利要求22所述的装置,其特征在于,所述信息确定单元包括:
区域确定子单元,用于根据所述至少一个定位信息集合中包含的各基准区域的定位信息,确定所述图像的各基准区域;并根据所述至少一个定位信息集合中包含的各比较区域的定位信息,确定所述图像的各比较区域;
灰度信息确定子单元,用于确定分别表示所述图像的各基准区域内的像素的灰度等级的各第一灰度信息;以及确定分别表示所述图像的各比较区域内的像素的灰度等级的各第二灰度信息。
24.如权利要求23所述的装置,其特征在于,当获得的所述至少一个定位信息集合的数目大于等于二时,所述特征确定单元包括:
子特征确定子单元,用于利用根据同一定位信息集合中的各基准区域的定位信息和各比较区域的定位信息分别确定出的第一灰度信息和第二灰度信息,确定字符描述子特征;
特征确定子单元,用于根据子特征确定子单元确定出的各字符描述子特征,确定字符描述子特征。
25.如权利要求24所述的装置,其特征在于,所述子特征确定子单元具体用于:利用编码算法,以及所述根据同一定位信息集合中的各基准区域的定位信息和各比较区域的定位信息分别确定出的第一灰度信息和第二灰度信息,确定字符描述子特征。
26.一种字符识别装置,其特征在于,包括:
图像获得单元,用于获得图像;
信息确定单元,用于获得至少一个定位信息集合,并根据所述至少一个定位信息集合,确定第一灰度信息和第二灰度信息;其中,第一灰度信息表示图像获得单元获得的所述图像的基准区域内的像素的灰度等级;第二灰度信息表示所述图像的比较区域内的像素的灰度等级,单个定位信息集合包含基准区域的定位信息和比较区域的定位信息;
特征确定单元,用于根据信息确定单元确定的第一灰度信息和第二灰度信息,确定字符描述特征;
字符确定单元,用于根据特征确定单元确定的所述字符描述特征确定字符。
27.一种字符识别引擎生成装置,其特征在于,包括:
图像获得单元,用于获得图像集合;
信息确定单元,用于获得至少一个定位信息集合,并根据所述至少一个定位信息集合,分别确定图像获得单元获得的所述图像集合包含的各图像的第一灰度信息和第二灰度信息;其中,第一灰度信息表示基准区域内的像素的灰度等级;第二灰度信息表示比较区域内的像素的灰度等级,单个定位信息集合包含基准区域的定位信息和比较区域的定位信息;
特征确定单元,用于根据信息确定单元确定出的各第一灰度信息和各第二灰度信息,确定字符描述特征;
分类器生成单元,用于根据特征确定单元确定的所述字符描述特征,生成分类器。
28.一种信息确定装置,其特征在于,包括:
图像获得单元,用于获得图像;
信息确定单元,用于获得至少一个定位信息集合,并根据所述至少一个定位信息集合,确定第一灰度信息和第二灰度信息;其中,第一灰度信息表示所述图像的基准区域内的像素的灰度等级;第二灰度信息表示所述图像的比较区域内的像素的灰度等级,单个定位信息集合包含基准区域的定位信息和比较区域的定位信息。
CN201410162714.2A 2014-04-22 2014-04-22 特征提取、字符识别、引擎生成、信息确定方法及装置 Active CN105095889B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410162714.2A CN105095889B (zh) 2014-04-22 2014-04-22 特征提取、字符识别、引擎生成、信息确定方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410162714.2A CN105095889B (zh) 2014-04-22 2014-04-22 特征提取、字符识别、引擎生成、信息确定方法及装置

Publications (2)

Publication Number Publication Date
CN105095889A CN105095889A (zh) 2015-11-25
CN105095889B true CN105095889B (zh) 2018-12-07

Family

ID=54576277

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410162714.2A Active CN105095889B (zh) 2014-04-22 2014-04-22 特征提取、字符识别、引擎生成、信息确定方法及装置

Country Status (1)

Country Link
CN (1) CN105095889B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107239786B (zh) 2016-03-29 2022-01-11 阿里巴巴集团控股有限公司 一种字符识别方法和装置
CN107451583A (zh) * 2017-08-03 2017-12-08 四川长虹电器股份有限公司 票据图像特征提取的方法
CN107958531B (zh) * 2017-12-06 2020-08-18 深圳怡化电脑股份有限公司 纸币识别方法和装置以及设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102368299A (zh) * 2011-03-28 2012-03-07 卡巴斯基实验室封闭式股份公司 用于识别光栅化图像中电子垃圾的系统及方法
CN102629322B (zh) * 2012-03-12 2014-03-26 华中科技大学 一种基于边界点笔画形状的字符特征提取方法及应用

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008282327A (ja) * 2007-05-14 2008-11-20 Sharp Corp 文字対称性判定方法及び文字対称性判定装置
JP4821869B2 (ja) * 2009-03-18 2011-11-24 富士ゼロックス株式会社 文字認識装置、画像読取装置、およびプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102368299A (zh) * 2011-03-28 2012-03-07 卡巴斯基实验室封闭式股份公司 用于识别光栅化图像中电子垃圾的系统及方法
CN102629322B (zh) * 2012-03-12 2014-03-26 华中科技大学 一种基于边界点笔画形状的字符特征提取方法及应用

Also Published As

Publication number Publication date
CN105095889A (zh) 2015-11-25

Similar Documents

Publication Publication Date Title
US10896349B2 (en) Text detection method and apparatus, and storage medium
CN109934293A (zh) 图像识别方法、装置、介质及混淆感知卷积神经网络
CN110780873B (zh) 界面颜色适配方法、装置、计算机设备及存储介质
CN109241861B (zh) 一种数学公式识别方法、装置、设备及存储介质
CN112669515B (zh) 票据图像识别方法、装置、电子设备和存储介质
CN107133571A (zh) 一种将纸质发票自动生成财务报表的系统及方法
CN110097616B (zh) 一种联合绘画方法、装置、终端设备及可读存储介质
CN106339719A (zh) 一种图像识别方法及装置
CN111144215B (zh) 图像处理方法、装置、电子设备及存储介质
WO2022246989A1 (zh) 一种数据识别方法、装置、设备及可读存储介质
CN109784368A (zh) 一种应用程序分类的确定方法和装置
CN105095889B (zh) 特征提取、字符识别、引擎生成、信息确定方法及装置
CN110866457A (zh) 一种电子保单的获得方法、装置、计算机设备和存储介质
CN112686243A (zh) 智能识别图片文字的方法、装置、计算机设备及存储介质
CN111222585A (zh) 数据处理方法、装置、设备及介质
CN110399760A (zh) 一种批量二维码定位方法、装置、电子设备及存储介质
CN111462388A (zh) 一种票据检验方法、装置、终端设备及存储介质
CN113673528A (zh) 文本处理方法、装置、电子设备和可读存储介质
CN104899551B (zh) 一种表单图像分类方法
CN113902671A (zh) 一种基于随机纹理的图像隐写方法和系统
CN106056575B (zh) 一种基于似物性推荐算法的图像匹配方法
CN112613367A (zh) 票据信息文本框获取方法、系统、设备及存储介质
CN111062262B (zh) 发票识别方法以及发票识别装置
CN116246294B (zh) 图像信息识别方法、装置、存储介质和电子设备
CN113591657B (zh) Ocr版面识别的方法、装置、电子设备及介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20191204

Address after: P.O. Box 31119, grand exhibition hall, hibiscus street, 802 West Bay Road, Grand Cayman, Cayman Islands

Patentee after: Innovative advanced technology Co., Ltd

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Patentee before: Alibaba Group Holding Co., Ltd.

TR01 Transfer of patent right