CN105528610A - 文字识别方法和装置 - Google Patents

文字识别方法和装置 Download PDF

Info

Publication number
CN105528610A
CN105528610A CN201410519982.5A CN201410519982A CN105528610A CN 105528610 A CN105528610 A CN 105528610A CN 201410519982 A CN201410519982 A CN 201410519982A CN 105528610 A CN105528610 A CN 105528610A
Authority
CN
China
Prior art keywords
image
pixel
feature operator
proper vector
identified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410519982.5A
Other languages
English (en)
Other versions
CN105528610B (zh
Inventor
杜志军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201410519982.5A priority Critical patent/CN105528610B/zh
Publication of CN105528610A publication Critical patent/CN105528610A/zh
Application granted granted Critical
Publication of CN105528610B publication Critical patent/CN105528610B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

本申请提出一种文字识别方法和装置,该文字识别方法包括:根据预设的特征算子,获取待识别的图像的特征向量,所述特征算子用于根据当前处理的像素点的不同方向上的相邻的局部像素点进行运算;将所述待识别的图像的特征向量与预先获取的文字样本的特征向量进行比对,获取所述待识别的图像的文字识别结果,其中,所述文字样本的特征向量是根据所述特征算子对所述文字样本进行运算后得到的。该方法能够提高识别的准确率,并提高识别速度。

Description

文字识别方法和装置
技术领域
本申请涉及数据处理技术领域,尤其涉及一种文字识别方法和装置。
背景技术
文字识别领域中,文字的描述特征在很大程度上决定了识别的准确率和识别速度。一般的文字识别中,基于二值图像的文字识别方法受前期预处理的影响较大,适合拍照质量很好的应用场合。但对于打印的小票或其他印刷品,常常存在打印字不清晰,或印墨不均匀的情况,适合采用灰度图像的识别方法。
基于灰度图像的识别方法中,主流的Hog特征法适用于数字的识别,Gabor特征法适用于中文的识别。Gabor特征识别法是通过不同尺度和方向的Gabor核对图像进行卷积运算,然后抽取卷积图像后的像素点作为文字的描述特征。该方法具有较高的识别率,但运算量比较大,对识别速度有较大的影响。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请的一个目的在于提出一种文字识别方法,该方法可以准确高效地识别图像中的文字。
本申请的另一个目的在于提出一种文字识别装置。
为达到上述目的,本申请实施例提出的文字识别方法,包括:根据预设的特征算子,获取待识别的图像的特征向量,所述特征算子用于根据当前处理的像素点的不同方向上的相邻的局部像素点进行运算;将所述待识别的图像的特征向量与预先获取的文字样本的特征向量进行比对,获取所述待识别的图像的文字识别结果,其中,所述文字样本的特征向量是根据所述特征算子对所述文字样本进行运算后得到的。
本申请实施例提出的文字识别方法,通过根据预设的特征算子,获取待识别的图像的特征向量并与预先获取的文字样本的特征向量进行比对,获取待识别的图像的文字识别结果,由于特征向量是根据预设的特征算子对当前处理的像素点的不同方向上的相邻的局部像素点进行运算得到的,对文字的特征表述更加准确,提高了识别准确率,且计算简单,提高了识别速度。
为达到上述目的,本申请实施例提出的文字识别装置,包括:获取模块,用于根据预设的特征算子,获取待识别的图像的特征向量,所述特征算子用于根据当前处理的像素点的不同方向上的相邻的局部像素点进行运算;识别模块,用于将所述待识别的图像的特征向量与预先获取的文字样本的特征向量进行比对,获取所述待识别的图像的文字识别结果,其中,所述文字样本的特征向量是根据所述特征算子对所述文字样本进行运算后得到的。
本申请实施例提出的文字识别装置,通过根据预设的特征算子,获取待识别的图像的特征向量并与预先获取的文字样本的特征向量进行比对,获取待识别的图像的文字识别结果,由于特征向量是根据预设的特征算子对当前处理的像素点的不同方向上的相邻的局部像素点进行运算得到的,对文字的特征表述更加准确,提高了识别准确率,且计算简单,提高了识别速度。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本申请一个实施例提出的文字识别方法的流程示意图;
图2是本申请一个实施例中的特征算子的示意图;
图3是本申请一个实施例中的分别采用每种特征算子,对所述待识别的图像进行运算,得到与所述特征算子数量相同的至少一组的特征向量的流程示意图;
图4是本申请一个实施例中采用特征算子a对待识别的图像进行运算,得到第一图像和第二图像的示意图;
图5是本申请一个实施例中根据所述第一图像得到第一组一维向量并根据所述第二图像得到第二组一维向量的示意图;
图6是本申请另一实施例提出的文字识别方法的流程示意图;
图7是本申请另一实施例的文字识别装置的结构示意图;
图8是本申请另一实施例的文字识别装置的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能理解为对本申请的限制。相反,本申请的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
下面参考附图描述根据本申请实施例的文字识别方法和装置。
图1是本申请一实施例提出的文字识别方法的流程示意图,该方法包括:
S101:根据预设的特征算子,获取待识别的图像的特征向量,所述特征算子用于根据当前处理的像素点的不同方向上的相邻的局部像素点进行运算。
其中,预设的特征算子包括至少一种。在本申请的一个实施例中,如图2所示,特征算子可以是如下算子中的至少一项:
第一种特征算子(图2中的算子a),所述第一种特征算子用于根据当前处理的像素点的相邻行的局部像素点进行运算;
第二种特征算子(图2中的算子b),所述第二种特征算子用于根据当前处理的像素点的相邻列的局部像素点进行运算;
第三种特征算子(图2中的算子c),所述第三种特征算子用于根据当前处理的像素点的一种相邻对角线的局部像素点进行运算;
第四种特征算子(图2中的算子d),所述第四种特征算子用于根据当前处理的像素点的另一种相邻对角线的局部像素点进行运算。
具体地,可以分别采用每种特征算子,对所述待识别的图像进行运算,得到与所述特征算子数量相同的至少一组的特征向量,对所述至少一组的特征向量进行组合,获取待识别的图像的特征向量。
进一步地,参见图3,分别采用每种特征算子,对所述待识别的图像进行运算,得到与所述特征算子数量相同的至少一组的特征向量,可以通过以下步骤实现:
S301:分别采用每种特征算子,对待识别的图像进行运算,得到第一图像和第二图像。
下面将以算子a为例对至少一组的特征向量的计算方法进行说明。
具体地,参见图4,对于输入的待识别的图像Img,其经过算子a进行局部运算后会得到两张同样大小的图像Img0和Img1。对图中的每个非边缘像素点p0,可以采用如下方式确定所述像素点对应的第一图像和第二图像中的像素点的值:
获取所述每种特征算子描述的方向上与所述像素点相邻的第一组像素点的灰度值和第二组像素点的灰度值;获取所述第一组像素点的灰度值之和与所述第二组像素点的灰度值之和之间的差值。具体地,在利用算子a进行计算时,则为计算p0上下相邻行局部像素点的灰度值之和的差值v:v=(p1+p2+p3)-(p4+p5+p6);其中,局部像素点是指左右和/或上下相邻的像素点。这一步骤与现有的边缘计算算子的方法相近,但在本方案中,为了去除因光照或打印不均匀造成的局部差值波动较大、便于向量归一化,还需要根据预先设置的阈值和比较方向,对所述差值v进行二值化处理,得到第一图像中的像素点的值,以及第二图像中的像素点的值:
p 0 &prime; = 1 , v > &delta; 0 , v &le; &delta; , p 0 &prime; &prime; = 1 , v < - &delta; 0 , v &GreaterEqual; &delta; ;
其中,p0′是第一图像中的像素点的值,p0″是第二图像中的像素点的值,v是差值,δ是预先设置的阈值。
经过二值化处理后,p0’和p0”的输出值变得比较稳定,受光照打印质量的影响很小。δ的取值,在具体实施例中可以取3*10,即默认像素间最小有10个灰度级的差别。
上式中第一图像与第二图像中的差值v的比较方向不同,是由于图像中的字,局部存在从黑到白、从白到黑的跳变,通过这两种不同的比较可以判断跳变的方式,或者是平坦的区域,从而达到对局部像素纹理较准确的表示。
S302:根据所述第一图像得到第一组一维向量,根据所述第二图像得到第二组一维向量。
通常在文字识别中,图像大小为64*64或40*40,如果利用算子a计算后直接将图像Img0、Img1中的像素点的值排成一维向量,则特征向量的维数将很大(2*64*64或2*40*40)。
为解决这一问题,本实施例可采取下采样方式来降低特征向量的维数。
具体地,参见图5,可以对所述第一图像进行下采样,得到下采样后的第一图像SubImg0,以及,对所述第二图像进行下采样,得到下采样后的第二图像SubImg1。然后将下采样后的第一图像转换为第一组一维向量[fea0],将下采样后的第二图像转换为第二组一维向量[fea1]。
在下采样后,点p0’、p0”的值分别为图像SubImg0、SubImg1中对应点的局部高斯加权和。其中,高斯加权的方式可以减少因下采样导致的信息损失,同时可以较好地处理文字的局部变形和平移变换。
S303:将所述第一组一维向量和所述第二组一维向量组合后,得到与所述特征算子对应的一组特征向量。
最终,算子a对应的特征向量为第一组一维向量[fea0]与第二组一维向量[fea1]排成一维向量后的结果[fea0,fea1]。在本实施例中,SubImg0和SubImg1大小为7*7,因此算子a得到的特征向量长度为2*7*7。
类似的,可以通过图3所述的方法计算其他三种算子对应的特征向量。
需要理解的是,由于上述的四种算子的设计思想在于描述文字的四种方向,因此在采用不同的算子进行运算时,局部计算方式可能存在一定程度的区别。
最后,对所述至少一组的特征向量进行组合,获取待识别的图像的特征向量。例如,若使用四种算子,则图像的特征向量由上述四种算子对应的四组特征向量的组合构成;或者使用a、b两种算子,则图像的特征向量由算子a和算子b对应的两组特征向量的组合构成,具体的组合方式可以有多种,在此不再一一列举。
S102:将待识别的图像的特征向量与预先获取的文字样本的特征向量进行比对,获取待识别的图像的文字识别结果,其中,所述文字样本的特征向量是根据所述特征算子对所述文字样本进行运算后得到的。
具体地,可以预先收集每个文字的大量样本,根据所述特征算子通过与图3所示的方法得到每个样本的特征向量,再利用聚类的方法从大量样本中找出预设个数的具有代表性的聚类中心,从而每个文字都可以由预设个数的文字样本的特征向量来表示。当需要识别图像中的文字时,可将待识别的图像的特征向量与预先获取的文字样本的特征向量进行比对,计算所述待识别的图像的特征向量与每个所述文字样本的特征向量之间的相似度数值,将相似度数值最大的文字样本确定为所述待识别的图像的文字识别结果。
本实施例通过根据预设的特征算子,获取待识别的图像的特征向量并与预先获取的文字样本的特征向量进行比对,获取待识别的图像的文字识别结果,由于特征向量是根据预设的特征算子对当前处理的像素点的不同方向上的相邻的局部像素点进行运算得到的,对文字的特征表述更加准确,提高了识别准确率,且计算简单,提高了识别速度。
图6是根据本申请另一实施例提出的文字识别方法的流程示意图,该方法包括:
S601:收集每个文字的大于预设数量的样本,并根据特征算子得到每个样本的特征向量。
具体地,每个文字都存在多种样本,例如同一个字在不同的字体、不同的语种中或不同的角度下都可能对应不同的形状,因此,可以收集每个文字的大量样本,并根据特征算子通过图3中的方法计算每个样本对应的特征向量。
S602:对每个样本的特征向量进行聚类处理,得到预设个数的聚类中心。
具体地,可以对每个样本的特征向量进行聚类处理,从大量样本中找出预设个数的具有代表性的聚类中心。
其中,聚类方法可以有多种,例如kmeans聚类方法等,在此不再一一列举。预设个数可以根据每个文字对应的样本的具体情况进行设定。
S603:将预设个数的聚类中心对应的特征向量作为所述文字的文字样本的特征向量。
从而每个文字都可以由预设个数的文字样本的特征向量来表示。
S604:根据预设的特征算子,获取待识别的图像的特征向量。
具体与步骤S101相同,在此不再赘述。
S605:计算所述待识别的图像的特征向量与每个所述文字样本的特征向量之间的相似度数值。
具体的,可通过数学方法,依次计算所述待识别的图像的特征向量与每个所述文字样本的特征向量之间的相似度数值,也可以在已知的文字样本的特征向量中查找与所述待识别的图像的特征向量相同的特征向量。
S606:将相似度数值最大的文字样本确定为所述待识别的图像的文字识别结果。
本实施例通过根据预设的特征算子,获取待识别的图像的特征向量并与预先获取的文字样本的特征向量进行比对,获取待识别的图像的文字识别结果,由于特征向量是根据预设的特征算子对当前处理的像素点的不同方向上的相邻的局部像素点进行运算得到的,对文字的特征表述更加准确,且提高了识别的准确率,且计算简单,提高了识别速度。另外,预先获取的每个文字都对应预设个数的文字样本的特征向量,可识别不同形态的文字,提高了识别率。
为了实现上述实施例,本申请还提出一种文字识别装置。
图7是本申请另一实施例的文字识别装置的结构示意图。如图7所示,该文字识别装置包括:获取模块100和识别模块200。
具体地,获取模块100用于根据预设的特征算子,获取待识别的图像的特征向量,所述特征算子用于根据当前处理的像素点的不同方向上的相邻的局部像素点进行运算。其中,预设的特征算子包括至少一种。在本申请的一个实施例中,如图2所示,特征算子可以是如下算子中的至少一项:
第一种特征算子(图2中的算子a),所述第一种特征算子用于根据当前处理的像素点的相邻行的局部像素点进行运算;
第二种特征算子(图2中的算子b),所述第二种特征算子用于根据当前处理的像素点的相邻列的局部像素点进行运算;
第三种特征算子(图2中的算子c),所述第三种特征算子用于根据当前处理的像素点的一种相邻对角线的局部像素点进行运算;
第四种特征算子(图2中的算子d),所述第四种特征算子用于根据当前处理的像素点的另一种相邻对角线的局部像素点进行运算。
更具体地,获取模块100可以分别采用每种特征算子,对所述待识别的图像进行运算,得到与所述特征算子数量相同的至少一组的特征向量,对所述至少一组的特征向量进行组合,获取待识别的图像的特征向量。
识别模块200用于将所述待识别的图像的特征向量与预先获取的文字样本的特征向量进行比对,获取所述待识别的图像的文字识别结果,其中,所述文字样本的特征向量是根据所述特征算子对所述文字样本进行运算后得到的。更具体地,识别模块200可以预先收集每个文字的大量样本,根据所述特征算子得到每个样本的特征向量,再利用聚类的方法从大量样本中找出预设个数的具有代表性的聚类中心,从而每个文字都可以由预设个数的文字样本的特征向量来表示。当需要识别图像中的文字时,可将待识别的图像的特征向量与预先获取的文字样本的特征向量进行比对,计算所述待识别的图像的特征向量与每个所述文字样本的特征向量之间的相似度数值,将相似度数值最大的文字样本确定为所述待识别的图像的文字识别结果。
本实施例通过根据预设的特征算子,获取待识别的图像的特征向量并与预先获取的文字样本的特征向量进行比对,获取待识别的图像的文字识别结果,由于特征向量是根据预设的特征算子对当前处理的像素点的不同方向上的相邻的局部像素点进行运算得到的,对文字的特征表述更加准确,提高了识别准确率,且计算简单,提高了识别速度。
图8是本申请另一实施例的文字识别装置的结构示意图。如图8所示,该文字识别装置包括:获取模块100、运算子模块110、运算单元111、生成单元112、组合单元113、组合子模块120、识别模块200、计算子模块210、确定子模块220、收集模块300、聚类模块400和关联模块500。其中,获取模块100包括运算子模块110和组合子模块120;运算子模块110包括运算单元111、生成单元112和组合单元113;识别模块200包括计算子模块210和确定子模块220。
运算子模块110用于分别采用每种特征算子,对所述待识别的图像进行运算,得到与所述特征算子数量相同的至少一组的特征向量。
其中,运算单元111用于分别采用每种特征算子,对所述待识别的图像进行运算,得到第一图像和第二图像。
具体地,以算子a为例,参见图4,对于输入的待识别的图像Img,其经过算子a进行局部运算后会得到两张同样大小的图像Img0和Img1。对图中的每个非边缘像素点p0,运算单元111可以采用如下方式确定所述像素点对应的第一图像和第二图像中的像素点的值:
获取所述每种特征算子描述的方向上与所述像素点相邻的第一组像素点的灰度值和第二组像素点的灰度值,并获取所述第一组像素点的灰度值之和与所述第二组像素点的灰度值之和之间的差值。更具体地,在利用算子a进行计算时,则为计算p0上下相邻行局部像素点的灰度值之和的差值v:v=(p1+p2+p3)-(p4+p5+p6);其中,局部像素点是指左右和/或上下相邻的像素点。这与现有的边缘计算算子的方法相近,但在本方案中,为了去除因光照或打印不均匀造成的局部差值波动较大、便于向量归一化,还需要根据预先设置的阈值和比较方向,对所述差值v进行二值化处理,得到第一图像中的像素点的值,以及第二图像中的像素点的值:
p 0 &prime; = 1 , v > &delta; 0 , v &le; &delta; , p 0 &prime; &prime; = 1 , v < - &delta; 0 , v &GreaterEqual; - &delta; ;
其中,p0′是第一图像中的像素点的值,p0″是第二图像中的像素点的值,v是差值,δ是预先设置的阈值。
经过二值化处理后,p0’和p0”的输出值变得比较稳定,受光照打印质量的影响很小。δ的取值,在具体实施例中可以取3*10,即默认像素间最小有10个灰度级的差别。
上式中第一图像与第二图像中的差值v的比较方向不同,是由于图像中的字,局部存在从黑到白、从白到黑的跳变,通过这两种不同的比较可以判断跳变的方式,或者是平坦的区域,从而达到对局部像素纹理较准确的表示。
生成单元112用于根据所述第一图像得到第一组一维向量,根据所述第二图像得到第二组一维向量。通常在文字识别中,图像大小为64*64或40*40,如果利用算子a计算后直接将图像Img0、Img1中的像素点的值排成一维向量,则特征向量的维数将很大(2*64*64或2*40*40)。
为解决这一问题,参见图5,生成单元112还可以用于对所述第一图像进行下采样,得到下采样后的第一图像SubImg0,以及,对所述第二图像进行下采样,得到下采样后的第二图像SubImg1;以及将下采样后的第一图像转换为第一组一维向量[fea0],将下采样后的第二图像转换为第二组一维向量[fea1],从而降低特征向量的维数。
在下采样后,点p0’、p0”的值分别为图像SubImg0、SubImg1中对应点的局部高斯加权和。其中,高斯加权的方式可以减少因下采样导致的信息损失,同时可以较好地处理文字的局部变形和平移变换。
组合单元113用于将所述第一组一维向量和所述第二组一维向量组合后,得到与所述特征算子对应的一组特征向量。最终算子a对应的特征向量为第一组一维向量[fea0]与第二组一维向量[fea1]排成一维向量后的结果[fea0,fea1]。在本实施例中,SubImg0和SubImg1大小为7*7,因此算子a得到的特征向量长度为2*7*7。
类似的,可以通过图3中的方法计算其他三种算子对应的特征向量。
需要理解的是,由于上述的四种算子的设计思想在于描述文字的四种方向,因此在采用不同的算子进行运算时,局部计算方式可能存在一定程度的区别。
然户,组合子模块120对所述至少一组的特征向量进行组合,获取待识别的图像的特征向量。例如,若使用四种算子,则图像的特征向量由上述四种算子对应的四组特征向量的组合构成;或者使用a、b两种算子,则图像的特征向量由算子a和算子b对应的两组特征向量的组合构成,具体的组合方式可以有多种,在此不再一一列举。
在本申请的一个实施例中,进行识别之前,需要预先获取大量文字样本的特征向量。
收集模块300用于收集每个文字的大于预设数量的样本,并根据所述特征算子得到每个样本的特征向量。具体地,每个文字都存在多种样本,例如同一个字在不同的字体、不同的语种中或不同的角度下都可能对应不同的形状,因此,收集模块300可以收集每个文字的大量样本,并根据特征算子通过图3中的方法计算每个样本对应的特征向量。
聚类模块400用于对所述每个样本的特征向量进行聚类处理,得到预设个数的聚类中心。具体地,聚类模块400可以对每个样本的特征向量进行聚类处理,从大量样本中找出预设个数的具有代表性的聚类中心。其中,聚类方法可以有多种,例如kmeans聚类方法等,在此不再一一列举。预设个数可以根据每个文字对应的样本的具体情况进行设定。
关联模块500用于将所述预设个数的聚类中心对应的特征向量作为所述文字的文字样本的特征向量。从而每个文字都可以由预设个数的文字样本的特征向量来表示。
之后,在需要进行文字识别时,计算子模块210用于计算所述待识别的图像的特征向量与每个所述文字样本的特征向量之间的相似度数值。具体的,计算子模块210可通过数学方法,依次计算所述待识别的图像的特征向量与每个所述文字样本的特征向量之间的相似度数值,也可以在已知的文字样本的特征向量中查找与所述待识别的图像的特征向量相同的特征向量。然后确定子模块220将相似度数值最大的文字样本确定为所述待识别的图像的文字识别结果。
本实施例通过根据预设的特征算子,获取待识别的图像的特征向量并与预先获取的文字样本的特征向量进行比对,获取待识别的图像的文字识别结果,由于特征向量是根据预设的特征算子对当前处理的像素点的不同方向上的相邻的局部像素点进行运算得到的,对文字的特征表述更加准确,且提高了识别的准确率,且计算简单,提高了识别速度。另外,预先获取的每个文字都对应预设个数的文字样本的特征向量,可识别不同形态的文字,提高了识别率。
需要说明的是,在本申请的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本申请的描述中,除非另有说明,“多个”的含义是两个或两个以上。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (18)

1.一种文字识别方法,其特征在于,包括:
根据预设的特征算子,获取待识别的图像的特征向量,所述特征算子用于根据当前处理的像素点的不同方向上的相邻的局部像素点进行运算;
将所述待识别的图像的特征向量与预先获取的文字样本的特征向量进行比对,获取所述待识别的图像的文字识别结果,其中,所述文字样本的特征向量是根据所述特征算子对所述文字样本进行运算后得到的。
2.根据权利要求1所述的方法,其特征在于,所述特征算子包括至少一种,所述根据预设的特征算子,获取待识别的图像的特征向量,包括:
分别采用每种特征算子,对所述待识别的图像进行运算,得到与所述特征算子数量相同的至少一组的特征向量;
对所述至少一组的特征向量进行组合,获取待识别的图像的特征向量。
3.根据权利要求2所述的方法,其特征在于,所述特征算子包括如下项中的至少一项:
第一种特征算子,所述第一种特征算子用于根据当前处理的像素点的相邻行的局部像素点进行运算;
第二种特征算子,所述第二种特征算子用于根据当前处理的像素点的相邻列的局部像素点进行运算;
第三种特征算子,所述第三种特征算子用于根据当前处理的像素点的一种相邻对角线的局部像素点进行运算;
第四种特征算子,所述第四种特征算子用于根据当前处理的像素点的另一种相邻对角线的局部像素点进行运算。
4.根据权利要求2所述的方法,其特征在于,所述分别采用每种特征算子,对所述待识别的图像进行运算,得到与所述特征算子数量相同的至少一组的特征向量,包括:
分别采用每种特征算子,对所述待识别的图像进行运算,得到第一图像和第二图像;
根据所述第一图像得到第一组一维向量,根据所述第二图像得到第二组一维向量;
将所述第一组一维向量和所述第二组一维向量组合后,得到与所述特征算子对应的一组特征向量。
5.根据权利要求4所述的方法,其特征在于,所述分别采用每种特征算子,对所述待识别的图像进行运算,得到第一图像和第二图像,包括:
对所述待识别的图像中的每个非边缘像素点,采用如下方式确定所述像素点对应的第一图像和第二图像中的像素点的值:
获取所述每种特征算子描述的方向上与所述像素点相邻的第一组像素点的灰度值和第二组像素点的灰度值;
获取所述第一组像素点的灰度值之和与所述第二组像素点的灰度值之和之间的差值;
根据预先设置的阈值和比较方向,对所述差值进行二值化,得到第一图像中的像素点的值,以及第二图像中的像素点的值。
6.根据权利要求5所述的方法,其特征在于,所述根据预先设置的阈值和比较方向,对所述差值进行二值化,得到第一图像中的像素点的值,以及第二图像中的像素点的值,包括:
p 0 &prime; = 1 , v > &delta; 0 , v &le; &delta; , p 0 &prime; &prime; = 1 , v < - &delta; 0 , v &GreaterEqual; - &delta; ;
其中,p0′是第一图像中的像素点的值,p0″是第二图像中的像素点的值,v是差值,δ是预先设置的阈值。
7.根据权利要求4所述的方法,其特征在于,所述根据所述第一图像得到第一组一维向量,根据所述第二图像得到第二组第一向量,包括:
对所述第一图像进行下采样,得到下采样后的第一图像,以及,对所述第二图像进行下采样,得到下采样后的第二图像;
将下采样后的第一图像转换为第一组一维向量,将下采样后的第二图像转换为第二组一维向量。
8.根据权利要求1所述的方法,其特征在于,还包括:
收集每个文字的大于预设数量的样本,并根据所述特征算子得到每个样本的特征向量;
对所述每个样本的特征向量进行聚类处理,得到预设个数的聚类中心;
将所述预设个数的聚类中心对应的特征向量作为所述文字的文字样本的特征向量。
9.根据权利要求1所述的方法,其特征在于,所述将所述待识别的图像的特征向量与预先获取的文字样本的特征向量进行比对,获取所述待识别的图像的文字识别结果,包括:
计算所述待识别的图像的特征向量与每个所述文字样本的特征向量之间的相似度数值;
将相似度数值最大的文字样本确定为所述待识别的图像的文字识别结果。
10.一种文字识别装置,其特征在于,包括:
获取模块,用于根据预设的特征算子,获取待识别的图像的特征向量,所述特征算子用于根据当前处理的像素点的不同方向上的相邻的局部像素点进行运算;
识别模块,用于将所述待识别的图像的特征向量与预先获取的文字样本的特征向量进行比对,获取所述待识别的图像的文字识别结果,其中,所述文字样本的特征向量是根据所述特征算子对所述文字样本进行运算后得到的。
11.根据权利要求10所述的装置,其特征在于,所述特征算子包括至少一种,所述获取模块,包括:
运算子模块,用于分别采用每种特征算子,对所述待识别的图像进行运算,得到与所述特征算子数量相同的至少一组的特征向量;
组合子模块,用于对所述至少一组的特征向量进行组合,获取待识别的图像的特征向量。
12.根据权利要求11所述的装置,其特征在于,所述特征算子包括如下项中的至少一项:
第一种特征算子,所述第一种特征算子用于根据当前处理的像素点的相邻行的局部像素点进行运算;
第二种特征算子,所述第二种特征算子用于根据当前处理的像素点的相邻列的局部像素点进行运算;
第三种特征算子,所述第三种特征算子用于根据当前处理的像素点的一种相邻对角线的局部像素点进行运算;
第四种特征算子,所述第四种特征算子用于根据当前处理的像素点的另一种相邻对角线的局部像素点进行运算。
13.根据权利要求11所述的装置,其特征在于,所述运算子模块,包括:
运算单元,用于分别采用每种特征算子,对所述待识别的图像进行运算,得到第一图像和第二图像;
生成单元,用于根据所述第一图像得到第一组一维向量,根据所述第二图像得到第二组一维向量;
组合单元,用于将所述第一组一维向量和所述第二组一维向量组合后,得到与所述特征算子对应的一组特征向量。
14.根据权利要求13所述的装置,其特征在于,所述运算单元还用于对所述待识别的图像中的每个非边缘像素点,采用如下方式确定所述像素点对应的第一图像和第二图像中的像素点的值:
获取所述每种特征算子描述的方向上与所述像素点相邻的第一组像素点的灰度值和第二组像素点的灰度值;
获取所述第一组像素点的灰度值之和与所述第二组像素点的灰度值之和之间的差值;
根据预先设置的阈值和比较方向,对所述差值进行二值化,得到第一图像中的像素点的值,以及第二图像中的像素点的值。
15.根据权利要求14所述的装置,其特征在于,所述运算单元还用于通过下式得到第一图像中的像素点的值,以及第二图像中的像素点的值:
p 0 &prime; = 1 , v > &delta; 0 , v &le; &delta; , p 0 &prime; &prime; = 1 , v < - &delta; 0 , v &GreaterEqual; - &delta; ;
其中,p0′是第一图像中的像素点的值,p0″是第二图像中的像素点的值,v是差值,δ是预先设置的阈值。
16.根据权利要求13所述的装置,其特征在于,所述生成单元还用于对所述第一图像进行下采样,得到下采样后的第一图像,以及,对所述第二图像进行下采样,得到下采样后的第二图像;以及将下采样后的第一图像转换为第一组一维向量,将下采样后的第二图像转换为第二组一维向量。
17.根据权利要求10所述的装置,其特征在于,还包括:
收集模块,用于收集每个文字的大于预设数量的样本,并根据所述特征算子得到每个样本的特征向量;
聚类模块,用于对所述每个样本的特征向量进行聚类处理,得到预设个数的聚类中心;
关联模块,用于将所述预设个数的聚类中心对应的特征向量作为所述文字的文字样本的特征向量。
18.根据权利要求10所述的装置,其特征在于,所述识别模块,包括:
计算子模块,用于计算所述待识别的图像的特征向量与每个所述文字样本的特征向量之间的相似度数值;
确定子模块,用于将相似度数值最大的文字样本确定为所述待识别的图像的文字识别结果。
CN201410519982.5A 2014-09-30 2014-09-30 文字识别方法和装置 Active CN105528610B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410519982.5A CN105528610B (zh) 2014-09-30 2014-09-30 文字识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410519982.5A CN105528610B (zh) 2014-09-30 2014-09-30 文字识别方法和装置

Publications (2)

Publication Number Publication Date
CN105528610A true CN105528610A (zh) 2016-04-27
CN105528610B CN105528610B (zh) 2019-05-07

Family

ID=55770824

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410519982.5A Active CN105528610B (zh) 2014-09-30 2014-09-30 文字识别方法和装置

Country Status (1)

Country Link
CN (1) CN105528610B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106067019A (zh) * 2016-05-27 2016-11-02 北京旷视科技有限公司 针对图像进行文字识别的方法及装置
CN106778783A (zh) * 2016-12-15 2017-05-31 高格(天津)信息科技发展有限公司 基于模板匹配的文字识别装置
CN110170081A (zh) * 2019-05-14 2019-08-27 广州医软智能科技有限公司 一种icu仪器报警处理方法及系统
CN110378318A (zh) * 2019-07-30 2019-10-25 腾讯科技(深圳)有限公司 文字识别方法、装置、计算机设备及存储介质
CN111104945A (zh) * 2019-12-17 2020-05-05 上海博泰悦臻电子设备制造有限公司 物体识别方法及相关产品
CN113449760A (zh) * 2020-03-27 2021-09-28 北京沃东天骏信息技术有限公司 一种字符识别方法和装置
CN113723410A (zh) * 2020-05-21 2021-11-30 安徽小眯当家信息技术有限公司 一种数码管数字识别方法及装置
WO2022105197A1 (en) * 2020-11-17 2022-05-27 Zhejiang Dahua Technology Co., Ltd. Systems and methods for image detection

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002207965A (ja) * 2001-01-12 2002-07-26 Nippon Digital Kenkyusho:Kk 帳票又は原稿の文字相等性判定方法、記入者同一性判定方法、文字認識装置及び文字相等性判定プログラム
JP2003296661A (ja) * 2002-03-29 2003-10-17 Sanyo Electric Co Ltd 文字認識装置、文字認識方法、その実行プログラムおよびそれを記録した記録媒体
CN101561866A (zh) * 2009-05-27 2009-10-21 上海交通大学 基于sift特征与灰度差值直方图特征的文字识别方法
CN101673412A (zh) * 2009-09-29 2010-03-17 浙江工业大学 结构光三维视觉系统的光模板匹配方法
CN101807257A (zh) * 2010-05-12 2010-08-18 上海交通大学 图像标签信息识别方法
CN103065143A (zh) * 2012-12-30 2013-04-24 信帧电子技术(北京)有限公司 车标识别方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002207965A (ja) * 2001-01-12 2002-07-26 Nippon Digital Kenkyusho:Kk 帳票又は原稿の文字相等性判定方法、記入者同一性判定方法、文字認識装置及び文字相等性判定プログラム
JP2003296661A (ja) * 2002-03-29 2003-10-17 Sanyo Electric Co Ltd 文字認識装置、文字認識方法、その実行プログラムおよびそれを記録した記録媒体
CN101561866A (zh) * 2009-05-27 2009-10-21 上海交通大学 基于sift特征与灰度差值直方图特征的文字识别方法
CN101673412A (zh) * 2009-09-29 2010-03-17 浙江工业大学 结构光三维视觉系统的光模板匹配方法
CN101807257A (zh) * 2010-05-12 2010-08-18 上海交通大学 图像标签信息识别方法
CN103065143A (zh) * 2012-12-30 2013-04-24 信帧电子技术(北京)有限公司 车标识别方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
高学 等: ""基于笔划的手写体汉字方向分解特征提取方法"", 《华南理工大学校学报(自然科学版本)》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106067019A (zh) * 2016-05-27 2016-11-02 北京旷视科技有限公司 针对图像进行文字识别的方法及装置
CN106778783A (zh) * 2016-12-15 2017-05-31 高格(天津)信息科技发展有限公司 基于模板匹配的文字识别装置
CN110170081A (zh) * 2019-05-14 2019-08-27 广州医软智能科技有限公司 一种icu仪器报警处理方法及系统
CN110378318A (zh) * 2019-07-30 2019-10-25 腾讯科技(深圳)有限公司 文字识别方法、装置、计算机设备及存储介质
CN111104945A (zh) * 2019-12-17 2020-05-05 上海博泰悦臻电子设备制造有限公司 物体识别方法及相关产品
CN111104945B (zh) * 2019-12-17 2024-08-02 博泰车联网科技(上海)股份有限公司 物体识别方法及相关产品
CN113449760A (zh) * 2020-03-27 2021-09-28 北京沃东天骏信息技术有限公司 一种字符识别方法和装置
CN113723410A (zh) * 2020-05-21 2021-11-30 安徽小眯当家信息技术有限公司 一种数码管数字识别方法及装置
CN113723410B (zh) * 2020-05-21 2024-06-07 广东艾力森数码电器有限公司 一种数码管数字识别方法及装置
WO2022105197A1 (en) * 2020-11-17 2022-05-27 Zhejiang Dahua Technology Co., Ltd. Systems and methods for image detection

Also Published As

Publication number Publication date
CN105528610B (zh) 2019-05-07

Similar Documents

Publication Publication Date Title
CN105528610A (zh) 文字识别方法和装置
Rani et al. Object detection and recognition using contour based edge detection and fast R-CNN
Madani et al. Traffic sign recognition based on color, shape, and pictogram classification using support vector machines
CN111325766B (zh) 三维边缘检测方法、装置、存储介质和计算机设备
Boi et al. A support vector machines network for traffic sign recognition
US10373022B1 (en) Text image processing using stroke-aware max-min pooling for OCR system employing artificial neural network
CN109740553B (zh) 一种基于识别的图像语义分割数据筛选方法及系统
CN110378911B (zh) 基于候选区域和邻域分类器的弱监督图像语义分割方法
US20220327816A1 (en) System for training machine learning model which recognizes characters of text images
CN112819840B (zh) 一种融合深度学习与传统处理的高精度图像实例分割方法
Michalak et al. Fast Binarization of Unevenly Illuminated Document Images Based on Background Estimation for Optical Character Recognition Purposes.
US20220270341A1 (en) Method and device of inputting annotation of object boundary information
CN111507337A (zh) 基于混合神经网络的车牌识别方法
CN111782804A (zh) 基于TextCNN同分布文本数据选择方法、系统及存储介质
Zou et al. A deep semantic segmentation model for image-based table structure recognition
Farulla et al. A fuzzy approach to segment touching characters
CN113989501A (zh) 一种图像分割模型的训练方法及相关装置
CN112884046A (zh) 基于不完全监督学习的图像分类方法、装置及相关设备
CN117152438A (zh) 一种基于改进DeepLabV3+网络的轻量级街景图像语义分割方法
CN104778666A (zh) 一种基于谱聚类和混合模型聚类的图像分割方法
Stalder et al. What you see is what you classify: Black box attributions
CN112614134A (zh) 图像分割方法、装置、电子设备及存储介质
Li et al. Active learning with sampling by joint global-local uncertainty for salient object detection
CN111652256B (zh) 一种获取多维数据的方法和系统
Vinokurov Tabular information recognition using convolutional neural networks

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20201010

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Patentee after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Patentee before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20201010

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Patentee after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Patentee before: Alibaba Group Holding Ltd.

TR01 Transfer of patent right