CN1737824A - 建立劣化字典的方法和装置 - Google Patents
建立劣化字典的方法和装置 Download PDFInfo
- Publication number
- CN1737824A CN1737824A CN200410058588.2A CN200410058588A CN1737824A CN 1737824 A CN1737824 A CN 1737824A CN 200410058588 A CN200410058588 A CN 200410058588A CN 1737824 A CN1737824 A CN 1737824A
- Authority
- CN
- China
- Prior art keywords
- deterioration
- dictionary
- test sample
- sample book
- convergent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/28—Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Character Discrimination (AREA)
- Image Processing (AREA)
Abstract
本发明提供了一种自动建立劣化字典的装置和方法。其中,劣化模式生成模块根据不同的劣化参数,由原始字符图像生成多个劣化模式;劣化字典生成模块在这多个劣化模式的基础上建立与多个劣化参数对应的多个劣化字典;最后字典匹配模块根据测试样本组合,确定与该测试样本组合的劣化水平最为匹配的字典作为最终的劣化字典。在本发明中,通过简单的缩放处理和模糊处理来生成不同的劣化模式,由此建立劣化字典。因此,本发明可以简单容易地实现。本发明的方法和装置不仅可以用于字符识别领域,也可以用于语音识别和面容识别等其它领域。
Description
技术领域
本发明涉及自动建立劣化字典的方法和装置,更具体地讲,涉及自动建立用于光学字符识别的劣化字典的方法和装置。
背景技术
劣化模式和字典的生成在光学字符识别(OCR)中用处非常大。现有的光学字符识别工具在识别高质量字符时,性能很高,但是识别劣化字符时,性能还很低。字符发生劣化的原因非常复杂,扫描、传真、视频图像等等都会导致字符模式发生不同类型的劣化。由于大多数光学字符识别工具都只限于识别高质量的字符样本,所以对劣化字符模式的识别率现在还很低。
为了提高识别劣化字符的识别效果,同时提高光学字符识别引擎的鲁棒性,需要大量的劣化模式来扩大训练数据,改进光学字符识别字典。但是,人工收集大量真实的劣化模式非常耗资耗时,所以就非常需要自动的模式生成方法。
劣化模式生成的方法,已经有许多论文和专利。例如:
P.Sarkar,G.Nagy,J.Y.Zhou,et al.“Spatial Sampling of PrintedPatterns,”IEEE transaction on Pattern Analysis and Machine Intelligence1998,v20,n3 pp344-351
T.Kanungo,R.M.Haralick,I.Phillips.“Global and Local DocumentDegradation Models,”Proceedings of IAPR 2nd International Conference onDocument Analysis and Recognition,Tsukuba,Japan,1993pp.730-734
H.S.Baird,“Generation and use of defective images in image analysis”.美国专利No.5,796,410。
这些方法通过建立不同类型的物理劣化模型,能够生成多种类型的劣化字符模式。由这些合成劣化模式构成的字典叫做劣化字典。
另外,由于在劣化模型中有大量的参数,不同的参数值就会生成不同劣化水平的劣化字典。一般来说,与真实劣化样本的劣化水平相同的字典才能有效提高识别效果。所以,在真实的光学字符识别应用中,怎样测量出合成劣化模式与真实劣化模式之间的相似程度是个相当重要的问题。这也可以看作是字典的选择问题:也即如何才能从一组字典中选出与特定测试样本组合的劣化水平最为匹配的字典。
字典选择方法可以应用于多个方面。首先,它可用于提高对光学字符的识别性能。识别大量劣化字符时,如果这些字符的劣化水平都类似,那么只用少量测试样本组合就可以选择出最合适的劣化字典,然后再用此字典来识别其余的文件。由于不同的字体可以看作是不同水平的劣化,所以这种方法还可以应用于识别字体类型。如果每一种字体都有其相应的字典,那么字典选择方法将选出字体与测试样本字体相匹配的字典。
除此之外,如果测试样本组合中包含了多种字体,许多字体识别方法就不适用了。所以,在真实的应用当中,怎样有效检测出多种字体的环境仍然相当重要。
发明内容
针对现有技术中的不足之处而提出了本发明。本发明的目的是提供一种简单有效地建立劣化字典的方法和装置。
根据本发明的一个方面,提供了一种建立劣化字典的方法,包括以下步骤:根据不同的劣化参数,由原始字符图像生成多个劣化模式;从劣化模式中提取出特征,从而建立与这多个劣化参数对应的多个劣化字典;以及,根据测试样本组合,选择出与该测试样本组合的劣化水平最为匹配的字典作为最终的劣化字典。
优选地,对原始字符图像进行缩放处理,并对缩放后的字符图像进行模糊化处理,然后对模糊化之后的图像进行二值化处理,从而可以简单地生成劣化模式。
在本发明中,可以进行多次的缩放和模糊化处理。
优选地,在选择劣化字典的步骤中,根据测试样本组合的特征,计算出每一套劣化字典与测试样本组合之间的平均识别差距,并选择与该测试样本组合之间的平均识别差距最小的字典作为最终的劣化字典。
在本发明中,还可以根据所选择的最终劣化字典的劣化水平,确定测试样本组合的劣化水平。
优选地,在本发明的方法中,确定测试样本组合是否是单一字体环境,并且利用单一字体环境的测试样本组合来确定最终的劣化字典。
优选地,计算测试样本组合与预先准备的多个字体字典中每一个字典之间的平均识别差距;并计算经过正确识别的测试样本与该多个字体字典中每一个字典之间的平均识别差距;从而根据上述两个平均识别差距确定测试样本组合是否只包含一种字体。
根据本发明的另一个方面,提供了一种用于建立劣化字典的装置,包括:劣化模式生成模块,其根据不同的劣化参数,生成多个劣化模式;劣化字典生成模块,其在多个劣化模式的基础上建立与多个劣化参数对应的多个劣化字典;以及字典匹配模块,其根据测试样本组合,选择出与测试样本组合的劣化水平最为匹配的字典作为最终的劣化字典。
优选地,所述劣化模式生成模块包括:缩放处理模块,其对字符图像进行缩放处理,并对缩放后的字符图像进行模糊化处理;以及二值化处理单元,其对缩放和模糊化之后的图像进行二值化处理。
所述缩放处理模块可以对字符图像进行多次缩放处理,并且相应地对缩放后的字符图像进行多次模糊化处理。
在本发明的装置中,可以进一步包括一个特征提取模块,其从输入的字符模式中提取出特征。
在本发明的装置中,可以进一步包括一个平均识别差距计算模块,其根据特征提取模块提取出的测试样本的特征,计算所述多个劣化字典中每一套劣化字典与所述测试样本组合之间的平均识别差距。
字典匹配模块选择与测试样本组合之间的平均识别差距最小的字典作为最终的劣化字典。
在本发明的装置中,还可以根据所选择的最终劣化字典的劣化水平,确定测试样本组合的劣化水平。
本发明的装置还可以根据测试样本组合与预先准备的多个字体字典中每一个字典之间的平均识别差距,以及经过正确识别的测试样本与这多个字体字典中每一个字典之间的平均识别差距,确定测试样本是否只包含一种字体。
优选地,所述字典匹配模块利用单一字体环境的测试样本组合来确定最终的劣化字典。
本发明的方法和装置不仅可以用于字符识别领域,也可以用于其他识别任务,比如语音识别和面容识别。并且具有容易实现的优点。
附图说明
图1是本发明的劣化字典建立装置的示意框图。
图2是劣化模式生成模块的处理流程图。
图3是压缩劣化单元的处理流程图。
图4是放大劣化单元的处理流程图。
图5是线性插值法的图例。
图6是三次插值法的图例。
图7是一个原始模式的样本以及利用了不同劣化参数值生成的相应劣化模式。
图8是字典匹配模块的示意图。
图9是字典匹配处理的详细流程图。
图10是平均识别差距计算单元的处理流程图。
图11是识别差距计算处理的流程图。
图12是劣化水平评估处理的流程图。
图13是字体识别处理的流程图。
图14是单一字体环境检测处理的流程图。
具体实施方式
下面结合附图对本发明的方法和装置的实施例进行详细的说明。
图1是根据本发明的用于建立劣化字典的装置的示意图。如图1所示,本发明第一实施例的劣化字典建立装置包括:劣化模式生成模块100,其根据不同的劣化参数,由原始字符图像生成多个劣化模式;劣化字典生成模块200,其根据所述多个劣化模式建立与所述多个劣化参数对应的多个劣化字典;以及字典匹配模块300,其根据测试样本组合,确定与所述测试样本组合的劣化水平最为匹配的字典作为最终的劣化字典。
本发明的劣化字典建立装置的上述各个模块和以下所述的各个模块都可以由恰当编程的处理器和相关的存储器构成。根据本发明,本领域普通技术人员可以容易地构造出本发明的劣化字典建立装置。因此,为清楚起见,不再对本发明的劣化字典建立装置的各个模块的结构进行更多说明。
在本发明中,可以通过任何方法生成原始字符图像的劣化模式。下面以示例的方式对劣化模式生成模块100的操作进行说明。
图2示意地显示了劣化模式生成模块100的结构。如图2所示,劣化模式生成模块100包括缩放处理单元110,其对原始字符图像进行缩放处理,并对缩放后的字符图像进行模糊化处理;以及二值化处理单元120,其对经过缩放处理和模糊化处理得到的灰度字符图像进行二值化处理,从而得到劣化模式。
在本发明中,缩放处理单元110又包括压缩劣化单元111和放大劣化单元112。压缩劣化单元111将图像缩小,在此项处理中会丢失一些信息。放大劣化单元112把图像扩大,在此项处理中会增加一些信息。这两项处理都会使原始图像发生变形,导致图像产生劣化。摄像镜头的散焦是引起模糊的主要原因,也会导致图像发生劣化。
压缩劣化单元111模拟真实的情况,对视频成像进行压缩处理和模糊处理,其中可以包括一系列(m项)压缩和模糊处理。每一项压缩和模糊处理都会首先根据目标大小将输入的图像进行压缩,然后使用平滑滤波器在经过压缩的图像上加入模糊效果。压缩劣化的参数有压缩和模糊处理的水平、各项压缩处理的目标大小、各项模糊处理的模糊参数等。
图3示意了图2中压缩劣化单元111和模糊处理单元120所执行的处理的流程图,其中包括m次压缩和模糊处理。首先,原始字符图像经过第一次压缩处理(S301)和第一次模糊处理(S302),然后是第二次压缩处理(S303)和第二次模糊处理(S304)。处理程序不断重复,直到最后一个第m次压缩处理(S305)和第m次模糊处理(S306)完成。压缩劣化单元111的输出是压缩劣化字符图像。
放大劣化单元112模拟真实的情况,对视频成像进行放大处理和模糊处理,其中可以包括一系列(n项)放大和模糊处理。每一项放大和模糊处理都会首先根据目标大小将输入的图像进行放大,然后使用平滑滤波器在经过放大的图像上加入模糊效果。放大劣化的参数有放大和模糊处理的水平、各项放大处理的目标大小、各项模糊处理的模糊参数等。
图4示意了图2中放大劣化单元112和模糊处理单元120所执行的处理的流程图,其中包括n次放大和模糊处理。放大劣化单元112的输入是压缩劣化字符图像。首先,经过第一次放大处理(S401)和第一次模糊处理(S402),然后是第二次放大处理(S403)和第二次模糊处理(S404)。处理程序不断重复,直到最后一个第n次放大处理(S405)和第n次模糊处理(S406)完成。放大劣化单元112的输出是放大劣化字符图像。
最后所得到的模糊图像是灰度图像,因此需要经过二值化处理才能形成最终的二值图像。因此,通过二值化处理单元120对经过缩放和模糊处理的字符图像进行二值化。二值化处理单元120的输出是像素值为0或225的图像。二值化处理的参数是二值化处理中使用的阈值。
下面对本发明的缩放处理进行更加详细的说明。
压缩处理是将大型图像转换为小型图像的过程。在本发明中可以运用四种压缩方法:最近邻插值法、线性插值法、三次插值法和超级采样法。在本说明书中,将用到如下符号:
(xD,yD)-目的图像的像素坐标(整数值)
(xS,yS)-源图像中某个定点的计算坐标,该点被精确地映射于(xD,yD)
S(x,y)-源图像的像素值(强度)
D(x,y)-目标图像的像素值(强度)
在最近邻插值法中,目标图像的像素值就是与该点最近的源图像像素值。(xS,yS):D(xD,yD)=S(round(xS),round(yS))。
线性插值法使用源图像中与(xS,yS)最近的四个像素的源图像强度,这四个像素是
(xS0,yS0),(xS1,yS0),(xS0,yS1),(xS1,yS1):
xS0=int(xS),xS1=xS0+1,yS0=int(yS),yS1=yS0+1。
如图5所示,强度值沿x轴插入,得出两个中间结果I0和I1:
I0=S(xS,yS0)=S(xS0,yS0)*(xS1-xS)+S(xS1,yS0)*(xS-xS0)
I1=S(xS,yS1)=S(xS0,yS1)*(xS1-xS)+S(xS1,yS1)*(xS-xS0)。
然后,再在y轴上插入这两个中间值I0和I1,就可计算出目标强度D(xD,yD):
D(xD,yD)=I0*(yS1-yS)+I1*(yS-yS0)。
如图6所示,三次插值法使用源图像中与(xS,yS)相近的十六个像素的源图像强度:
xS0=int(xS)-1xS1=xS0+1xS2=xS0+2xS3=xS0+3
yS0=int(yS)-1yS1=yS0+1yS2=yS0+2yS3=yS0+3。
首先,本算法对每一个ySk,都有四个三次多项式:F0(x),F1(x),F2(x),和F3(x):
Fk(x)=akx3+bkx2+ckx+dk0≤k≤3,
所以,k(xS0)=S(xS0,ySk),Fk(xS1)=S(xS1,ySk),Fk(xS2)=S(xS2,ySk),Fk(xS3)=S(xS3,ySk)。
在图6中,以上多项式都用立体曲线图表示出来,然后运算出一个三次多项式Fy(y)。即:
Fy(yS0)=F0(xS),Fy(yS1)=F1(xS),Fy(yS2)=F2(xS),Fy(yS3)=F3(xS)。
在图6中,用虚线表示多项式Fy(y)。最后,Fy(yS)的值就是目标强度D(xD,yD)。
超级采样法的算法如下:
(1)将源图像的矩形兴趣区域ROI(如没有兴趣区域,就是整幅图像)分割成多个相等的矩形,每个矩形分别与目的图像的一些像素相对应。请注意,每一格源像素都用1×1的正方形表示。
(2)计算出每一个矩形内包含的像素,或者与此矩形形成一个非零交集的像素的源像素值的加权总和。如果源像素占满了矩形,那么该像素值的权重就是1。如果矩形与表示源像素的正方形的交集面积a<1,那么像素值的权重就是a。每一个与矩形相交的源像素都要如此计算。
(3)用第二步计算出的加权总和除以矩形的面积,计算出目的图像的像素值。
放大的过程正好与压缩过程完全相反,它将小图像转换为大图像。在本发明中可以使用如下三种放大方法:最近邻插值法、线性插值法和三次插值法。请注意,在本发明中,经过放大的图像其最终大小应该与原始清晰字符图像的大小一致。
在压缩劣化单元中,模糊处理在经过压缩的图像上加上模糊效果。在放大劣化单元中,模糊处理在经过放大的图像上加上模糊效果。可以使用高斯滤波来对这些经过缩放的字符加入模糊效果。高斯滤波的连续形式为:
G(x,y)=exp((x2+y2)/2/σ2)
滤波经过数字化,成为一个7*7大小的掩码区域,覆盖在经过缩放的图像上,从而将图像模糊化。
图7是一个生成劣化模式的例子。上面的图像是原始的二值模式,下面的图像是生成的劣化字符图像。通过第一级别的压缩处理和第二级别的放大处理,生成这个劣化模式。原始字符图像和生成的劣化图像的大小都是64*64。从左上到右下,压缩处理的压缩尺寸从20增加到64。被压缩后的尺寸越小,图像的劣化幅度越大。
如上所述,在本发明中,缩放处理单元110包括压缩劣化单元111和放大劣化单元112。但可以理解,缩放处理单元110可以只包括压缩劣化单元111或者只包括放大劣化单元112。另外,进行压缩劣化和放大劣化的次数并没有限制。特别的,可以仅进行一次压缩劣化和/或放大劣化。
在经过缩放处理和模糊化处理之后,对所生成的劣化模式进行特征提取,以生成劣化字典。在根据本发明的劣化字典建立装置中,还包括一个特征提取模块400,用于从所输入的字符模式中提取特征。特征提取模块400可以实施任何现有的特征提取方法。例如,可以采用下面参考文献中的方法,在此不再进行详细的描述。
″Modified Quadratic Discriminant Functions and the Application toChinese Character Recognition″,FUMITAKA KIMURA,KENJITAKASHINA,SHINJI TSURUOKA,and YASUJI MIYAKE,IEEE,PAMIvol.PAMI-9,No.1,January 1987
“Character recognition:a review”,Pattern Recognition,Govindan,V.K.and Shivaprasad,A.P.,Vol.23,No.7,pp.671-683,1990。
由此,通过变换各个劣化参数,可以生成大量的劣化模式,从而可以生成与不同劣化参数相对应的多个劣化字典。
在本发明中,在生成了与不同劣化参数对应的多个劣化字典后,要通过与劣化字典的实际应用场合相应的测试样本组合来确定最合适的劣化字典。
如图8所示,首先,根据劣化字典的实际应用场合,确定一个测试样本组合。利用特征提取模块400提取出各个测试样本的特征。如图所示,字典匹配模块300具有一个平均识别差距计算单元310,用于计算测试样本组合与每一个劣化字典之间的平均识别差距,从而可以根据这个平均识别差距的计算结果来确定最为匹配的劣化字典。
图9是图8所示字典匹配模块300所执行的处理的流程图。其中,平均识别差距计算单元310计算测试样本组合(Ftest)与第1套劣化字典(Dict(1))之间的平均识别差距(MRD)(S901)。算出来的结果保存为最小平均识别差距(MRDmin)。从第二套劣化字典(Dict(2))(S902)开始,继续计算MRD(S903)。如果算出来的值小于原最小值MRDmin(S904),那么这个值就更新为MRD的最小值,并记录下该字典的索引位置(S905,S906)。本程序将一直重复进行,直到计算并比较完所有的字典(S907,S908)。字典匹配模块300的最终输出是平均识别差距最小的字典的索引位置。
测试样本组合与某一套字典之间的平均识别差距是这样计算的:
首先,测试样本组合(i)和某一套字典(j)之间的差距通过方程式(1)进行计算:
Dj(i)=min(Dist(i,k))k=1,2,...,m. (1)
其中,i是测试样本的索引号,j是字典的索引号。Dist()是计算出的两个样本之间的差距值,k是字典中包括的样本的索引号,m是字典中包括的样本的数量。
然后,通过方程式(2)来计算测试组合中的每一个样本与某一套字典j之间识别差距的平均值,就可以得出测试样本组合与该字典之间的平均识别差距:
Dj=∑Dj(i)/m (2)
图10是平均识别差距计算单元310所执行的处理的流程图。对于一组测试样本组合,从第一个测试样本开始(S1001),计算该样本与第j套字典之间的识别差距(S1002)。然后将所得的结果汇总(S1003)。本程序将一直重复进行,直到所有样本的识别差距都计算完毕并经过汇总(S1004,S1005)。该特定测试样本组合与第j套字典之间的平均识别差距就是所有测试样本的平均识别差距(S1006)。
图11是识别差距计算处理的流程图。首先计算出测试样本与字典中第一个样本之间的差距,保存为Dmin(S1101)。然后从该字典的第二个样本(S1102)开始往后,计算出该字典样本与测试样本之间的差距(S1103)。如果算出小于Dmin的值(S1104),则将这个值更新为Dmin(S1105)。本程序将一直重复到所有字典样本都经过计算(S1106,S1107)。最后的输出是最小差距值Dmin(S1108)。
从而,根据与劣化字典的实际应用场合相应的测试样本组合,确定了最合适的劣化字典。
另外,在本发明中,还可以通过字典匹配模块300来确定测试样本的劣化水平。
在实际应用中,根据不同的劣化水平,或者不同的劣化参数,形成大量的不同劣化字典。一套劣化字典中的所有样本具有相同的劣化参数值。对于某一特定测试样本组合,字典匹配模块300选择出一套最合适的劣化字典。相匹配的劣化字典的劣化水平与测试样本组合的劣化水平是相同的。据此,可以通过字典匹配模块300来确定测试样本的劣化水平。
图12是确定测试样本劣化水平的流程图。首先准备好一组(N套)劣化字典。然后,针对某一个测试字符样本组合,字典匹配模块300从这N套劣化字典中选择出最为匹配的一套。选出的匹配劣化字典的劣化水平就是该测试样本组合的劣化水平。
另外,在本发明中,还可以通过字典匹配模块300来确定测试样本的字体类型。
在实际应用中识别字体时,样本的字体类型不同,就会形成不同的字典。一套字典中所有样本具有相同的字体类型。对某一特定测试样本组合,字典匹配模块将挑选出一套最合适的匹配字典。相匹配字典的字体类型与测试样本组合的字体类型相同。
图13示出了本发明的确定测试样本组合的字体类型的流程图。首先准备好不同字体的一组(N套)字体字典(1201)。针对某一个测试字符样本组合(1202),字典匹配模块将从这N套字体字典中选择出最为匹配的一套(1203)。选出的相匹配字典的字体类型就是该测试样本组合的字体类型(1204)。
在实际应用中,由于不同的字体也可以看作是不同水平的劣化,如果测试样本组合中包含了多种字体,则字典匹配模块300可能会出现错误。因此,需要保证测试样本组合中包含的所有样本都属于同一种字体。
对此,在本发明中提供了检测测试样本组合的字体环境的功能。针对某一特定测试样本组合,可以检测出该样本是仅使用了一种字体类型(单一字体环境)还是包含多种字体类型。
图14示出了字体环境检测的处理流程图。如图所示,首先,预先准备好不同字体的N套字体字典,对于其中的每一个字典,利用所有测试样本(1402)计算出平均识别差距。然后运用光学字符识别方法对所有测试样本组合进行识别,挑选出正确识别的字符样本(1403)。然后,利用正确识别出的字符对N套字体字典中的每一套进行第二次平均识别差距的计算(1404)。然后再计算出这两个识别差距的差值(1405),如果该差值大于预先确定的阈值(1406),那么测试样本组合中就包含了不止一种字体(1408);反之,测试样本组合中就只包含了一种字体,即单一字体环境(1407)。
从而,字典匹配模块300可以使用仅包含了一种字体的测试样本组合来确定最为匹配的字典。
以上通过本发明的一个优选实施例对本发明进行了说明。但是可以理解,本发明并不限于上述的具体细节。在权利要求所限定的范围之内,可以对本发明的劣化字典建立装置和方法进行各种形式和细节上的变化。
Claims (12)
1.一种建立劣化字典的方法,该方法包括以下步骤:
根据不同的劣化参数,由原始字符图像生成多个劣化模式;
从劣化模式中提取出特征,从而建立与所述多个劣化参数对应的多个劣化字典;以及
根据测试样本组合,确定与所述测试样本组合的劣化水平最为匹配的字典作为最终的劣化字典。
2.根据权利要求1所述的方法,其中所述生成劣化模式的步骤包括:
对原始字符图像进行缩放处理;
对缩放后的字符图像进行模糊化处理;以及
对模糊化之后的图像进行二值化处理。
3.根据权利要求2所述的方法,其中进行多次的所述缩放和模糊化处理。
4.根据权利要求1所述的方法,其中所述选择劣化字典的步骤包括:
提取所述测试样本的特征;
根据所提取的特征,计算每一个劣化字典与所述测试样本组合之间的平均识别差距;以及
选择与所述测试样本组合之间的平均识别差距最小的字典作为最终的劣化字典。
5.根据权利要求4所述的方法,还包括以下步骤:
根据所选择的最终劣化字典的劣化水平,确定所述测试样本组合的劣化水平。
6.根据权利要求1所述的方法,还包括确定所述测试样本组合是否只包含一种字体的步骤,并且
根据只包含一种字体的测试样本组合来确定最终的劣化字典。
7.根据权利要求6所述的方法,进一步包括以下步骤:
准备不同字体的多个字体字典;
计算所述测试样本组合与所述多个字体字典中每一个字典之间的平均识别差距;
选择出所述测试样本组合中经过正确识别的样本;
计算所述正确识别的样本与所述多个字体字典中每一个字典之间的平均识别差距;以及
根据上述两个平均识别差距,确定所述测试样本是否只包含一种字体。
8.一种用于建立劣化字典的装置,包括:
劣化模式生成模块,其根据不同的劣化参数,由原始字符图像生成多个劣化模式;
劣化字典生成模块,其根据所述多个劣化模式建立与所述多个劣化参数对应的多个劣化字典;以及
字典匹配模块,其根据测试样本组合,确定与所述测试样本组合的劣化水平最为匹配的字典作为最终的劣化字典。
9.根据权利要求8所述的装置,其中所述劣化模式生成模块进一步包括:
缩放处理模块,其对原始字符图像进行缩放处理,并对缩放后的字符图像进行模糊化处理;以及
二值化处理单元,其对缩放和模糊化之后的图像进行二值化处理。
10.根据权利要求9所述的装置,其中所述缩放处理模块对原始字符图像进行多次缩放处理,并且相应地对缩放后的字符图像进行多次模糊化处理。
11.根据权利要求8所述的装置,还包括特征提取模块,其从输入的字符模式中提取出特征,并且
所述劣化字典生成模块根据该特征提取模块提取的特征建立所述的多个劣化字典。
12.根据权利要求8所述的装置,进一步包括:
平均识别差距计算模块,用于计算测试样本组合与字典之间的平均识别差距,
其中,所述平均识别差距计算模块根据所述特征提取模块提取出的所述测试样本的特征,计算所述多个劣化字典中每一个劣化字典与所述测试样本组合之间的平均识别差距,并且
所述字典匹配模块选择与所述测试样本组合之间的平均识别差距最小的字典作为最终的劣化字典。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2004100585882A CN100373399C (zh) | 2004-08-18 | 2004-08-18 | 建立劣化字典的方法和装置 |
US11/200,194 US7480408B2 (en) | 2004-08-18 | 2005-08-10 | Degraded dictionary generation method and apparatus |
JP2005234860A JP4806230B2 (ja) | 2004-08-18 | 2005-08-12 | 劣化辞書生成プログラム、方法および装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2004100585882A CN100373399C (zh) | 2004-08-18 | 2004-08-18 | 建立劣化字典的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1737824A true CN1737824A (zh) | 2006-02-22 |
CN100373399C CN100373399C (zh) | 2008-03-05 |
Family
ID=36033999
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB2004100585882A Expired - Fee Related CN100373399C (zh) | 2004-08-18 | 2004-08-18 | 建立劣化字典的方法和装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US7480408B2 (zh) |
JP (1) | JP4806230B2 (zh) |
CN (1) | CN100373399C (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104392015A (zh) * | 2014-08-07 | 2015-03-04 | 贵阳朗玛信息技术股份有限公司 | 一种图像处理方法及装置 |
Families Citing this family (43)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8176054B2 (en) | 2007-07-12 | 2012-05-08 | Ricoh Co. Ltd | Retrieving electronic documents by converting them to synthetic text |
US8856108B2 (en) | 2006-07-31 | 2014-10-07 | Ricoh Co., Ltd. | Combining results of image retrieval processes |
US8156116B2 (en) | 2006-07-31 | 2012-04-10 | Ricoh Co., Ltd | Dynamic presentation of targeted information in a mixed media reality recognition system |
US8156427B2 (en) * | 2005-08-23 | 2012-04-10 | Ricoh Co. Ltd. | User interface for mixed media reality |
US9373029B2 (en) * | 2007-07-11 | 2016-06-21 | Ricoh Co., Ltd. | Invisible junction feature recognition for document security or annotation |
US9171202B2 (en) | 2005-08-23 | 2015-10-27 | Ricoh Co., Ltd. | Data organization and access for mixed media document system |
US8332401B2 (en) | 2004-10-01 | 2012-12-11 | Ricoh Co., Ltd | Method and system for position-based image matching in a mixed media environment |
US8276088B2 (en) | 2007-07-11 | 2012-09-25 | Ricoh Co., Ltd. | User interface for three-dimensional navigation |
US8600989B2 (en) | 2004-10-01 | 2013-12-03 | Ricoh Co., Ltd. | Method and system for image matching in a mixed media environment |
US8335789B2 (en) | 2004-10-01 | 2012-12-18 | Ricoh Co., Ltd. | Method and system for document fingerprint matching in a mixed media environment |
US8838591B2 (en) | 2005-08-23 | 2014-09-16 | Ricoh Co., Ltd. | Embedding hot spots in electronic documents |
US9384619B2 (en) | 2006-07-31 | 2016-07-05 | Ricoh Co., Ltd. | Searching media content for objects specified using identifiers |
US7702673B2 (en) | 2004-10-01 | 2010-04-20 | Ricoh Co., Ltd. | System and methods for creation and use of a mixed media environment |
US10192279B1 (en) | 2007-07-11 | 2019-01-29 | Ricoh Co., Ltd. | Indexed document modification sharing with mixed media reality |
US8144921B2 (en) | 2007-07-11 | 2012-03-27 | Ricoh Co., Ltd. | Information retrieval using invisible junctions and geometric constraints |
US9405751B2 (en) | 2005-08-23 | 2016-08-02 | Ricoh Co., Ltd. | Database for mixed media document system |
US9530050B1 (en) | 2007-07-11 | 2016-12-27 | Ricoh Co., Ltd. | Document annotation sharing |
US8949287B2 (en) | 2005-08-23 | 2015-02-03 | Ricoh Co., Ltd. | Embedding hot spots in imaged documents |
US8184155B2 (en) | 2007-07-11 | 2012-05-22 | Ricoh Co. Ltd. | Recognition and tracking using invisible junctions |
US8369655B2 (en) | 2006-07-31 | 2013-02-05 | Ricoh Co., Ltd. | Mixed media reality recognition using multiple specialized indexes |
US8385589B2 (en) | 2008-05-15 | 2013-02-26 | Berna Erol | Web-based content detection in images, extraction and recognition |
US8521737B2 (en) | 2004-10-01 | 2013-08-27 | Ricoh Co., Ltd. | Method and system for multi-tier image matching in a mixed media environment |
US7970171B2 (en) | 2007-01-18 | 2011-06-28 | Ricoh Co., Ltd. | Synthetic image and video generation from ground truth data |
US8825682B2 (en) * | 2006-07-31 | 2014-09-02 | Ricoh Co., Ltd. | Architecture for mixed media reality retrieval of locations and registration of images |
US8195659B2 (en) | 2005-08-23 | 2012-06-05 | Ricoh Co. Ltd. | Integration and use of mixed media documents |
US8510283B2 (en) | 2006-07-31 | 2013-08-13 | Ricoh Co., Ltd. | Automatic adaption of an image recognition system to image capture devices |
US8868555B2 (en) | 2006-07-31 | 2014-10-21 | Ricoh Co., Ltd. | Computation of a recongnizability score (quality predictor) for image retrieval |
US9020966B2 (en) | 2006-07-31 | 2015-04-28 | Ricoh Co., Ltd. | Client device for interacting with a mixed media reality recognition system |
US8676810B2 (en) | 2006-07-31 | 2014-03-18 | Ricoh Co., Ltd. | Multiple index mixed media reality recognition using unequal priority indexes |
US8489987B2 (en) | 2006-07-31 | 2013-07-16 | Ricoh Co., Ltd. | Monitoring and analyzing creation and usage of visual content using image and hotspot interaction |
US8201076B2 (en) * | 2006-07-31 | 2012-06-12 | Ricoh Co., Ltd. | Capturing symbolic information from documents upon printing |
US9063952B2 (en) | 2006-07-31 | 2015-06-23 | Ricoh Co., Ltd. | Mixed media reality recognition with image tracking |
US9176984B2 (en) | 2006-07-31 | 2015-11-03 | Ricoh Co., Ltd | Mixed media reality retrieval of differentially-weighted links |
WO2009070032A1 (en) * | 2007-11-28 | 2009-06-04 | Lumex A/S | A method for processing optical character recognition (ocr) data, wherein the output comprises visually impaired character images |
US8385660B2 (en) | 2009-06-24 | 2013-02-26 | Ricoh Co., Ltd. | Mixed media reality indexing and retrieval for repeated content |
US20120134595A1 (en) * | 2009-08-11 | 2012-05-31 | Koninklijke Philips Electronics N.V. | Method and apparatus for providing an image for display |
JP5505007B2 (ja) * | 2010-03-18 | 2014-05-28 | 富士通株式会社 | 画像処理装置、画像処理方法及び画像処理用コンピュータプログラム |
US8792748B2 (en) * | 2010-10-12 | 2014-07-29 | International Business Machines Corporation | Deconvolution of digital images |
EP2619697A1 (en) | 2011-01-31 | 2013-07-31 | Walter Rosenbaum | Method and system for information recognition |
US9058331B2 (en) | 2011-07-27 | 2015-06-16 | Ricoh Co., Ltd. | Generating a conversation in a social network based on visual search results |
JP6341059B2 (ja) * | 2014-10-31 | 2018-06-13 | オムロン株式会社 | 文字認識装置、文字認識方法、およびプログラム |
CN106156766B (zh) * | 2015-03-25 | 2020-02-18 | 阿里巴巴集团控股有限公司 | 文本行分类器的生成方法及装置 |
EP3343432B1 (en) | 2016-12-29 | 2024-03-20 | Elektrobit Automotive GmbH | Generating training images for machine learning-based object recognition systems |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS60138688A (ja) * | 1983-12-26 | 1985-07-23 | Ricoh Co Ltd | 文字認識方法 |
JPS62282385A (ja) * | 1986-05-31 | 1987-12-08 | Fujitsu Ltd | 文字識別装置 |
US5796410A (en) * | 1990-06-12 | 1998-08-18 | Lucent Technologies Inc. | Generation and use of defective images in image analysis |
US5588072A (en) * | 1993-12-22 | 1996-12-24 | Canon Kabushiki Kaisha | Method and apparatus for selecting blocks of image data from image data having both horizontally- and vertically-oriented blocks |
US6389163B1 (en) * | 1994-11-18 | 2002-05-14 | Xerox Corporation | Method and apparatus for automatic image segmentation using template matching filters |
JPH08241378A (ja) * | 1995-03-03 | 1996-09-17 | Fuji Electric Co Ltd | 低品質文字の認識方法 |
JPH096922A (ja) * | 1995-06-20 | 1997-01-10 | Sony Corp | 手書き文字認識装置 |
JP3716519B2 (ja) * | 1996-11-15 | 2005-11-16 | オムロン株式会社 | カメラおよび外部装置ならびに画像処理装置 |
US6453069B1 (en) * | 1996-11-20 | 2002-09-17 | Canon Kabushiki Kaisha | Method of extracting image from input image using reference image |
US6671404B1 (en) * | 1997-02-14 | 2003-12-30 | Hewlett-Packard Development Company, L.P. | Method and apparatus for recognizing patterns |
JPH10240869A (ja) * | 1997-03-03 | 1998-09-11 | Nippon Steel Corp | 文字認識辞書作成装置及び文字認識辞書作成方法 |
JP3574562B2 (ja) * | 1998-03-19 | 2004-10-06 | 日本電信電話株式会社 | 画像内の一連パターンの認識および変形検出方法及びそのプログラムを記録した記録媒体 |
JP3868637B2 (ja) * | 1998-07-01 | 2007-01-17 | 株式会社リコー | 文字認識装置および辞書作成方法および記録媒体 |
US6782129B1 (en) * | 1998-09-23 | 2004-08-24 | Xerox Corporation | Image segmentation apparatus and method |
US6493463B1 (en) * | 1999-09-09 | 2002-12-10 | Xerox Corporation | Segmentation tag cleanup using neighborhood tags |
JP2001331766A (ja) * | 2000-05-23 | 2001-11-30 | Oki Electric Ind Co Ltd | パタン認識辞書の作成方法、コンピュータ読取可能な記録媒体、パタン認識辞書作成装置および文字認識装置 |
US6735337B2 (en) * | 2001-02-02 | 2004-05-11 | Shih-Jong J. Lee | Robust method for automatic reading of skewed, rotated or partially obscured characters |
US6778700B2 (en) * | 2001-03-14 | 2004-08-17 | Electronics For Imaging, Inc. | Method and apparatus for text detection |
JP4421134B2 (ja) * | 2001-04-18 | 2010-02-24 | 富士通株式会社 | 文書画像検索装置 |
JP2003242445A (ja) * | 2002-02-19 | 2003-08-29 | Fujitsu Ltd | ナンバープレート読取装置 |
JP3933496B2 (ja) * | 2002-02-28 | 2007-06-20 | 日本電信電話株式会社 | 文字パターン認識方法及びその認識装置、並びに文字パターン認識プログラム及びそのプログラムを記録した記録媒体 |
US7079686B2 (en) * | 2002-08-20 | 2006-07-18 | Lexmark International, Inc. | Systems and methods for content-based document image enhancement |
-
2004
- 2004-08-18 CN CNB2004100585882A patent/CN100373399C/zh not_active Expired - Fee Related
-
2005
- 2005-08-10 US US11/200,194 patent/US7480408B2/en not_active Expired - Fee Related
- 2005-08-12 JP JP2005234860A patent/JP4806230B2/ja not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104392015A (zh) * | 2014-08-07 | 2015-03-04 | 贵阳朗玛信息技术股份有限公司 | 一种图像处理方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
JP4806230B2 (ja) | 2011-11-02 |
US20060056696A1 (en) | 2006-03-16 |
CN100373399C (zh) | 2008-03-05 |
JP2006059351A (ja) | 2006-03-02 |
US7480408B2 (en) | 2009-01-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1737824A (zh) | 建立劣化字典的方法和装置 | |
CN1240024C (zh) | 图像处理装置、图像处理方法 | |
CN1139039C (zh) | 图象中图形的提取和识别以及异常判定的方法和装置 | |
CN1218274C (zh) | 在线手写文字模式识别编辑装置及方法 | |
CN1459761A (zh) | 基于Gabor滤波器组的字符识别技术 | |
CN101061502A (zh) | 2-维图像的放大和收缩 | |
CN112614136B (zh) | 一种红外小目标实时实例分割方法及装置 | |
CN1637775A (zh) | 位置编码的文档图像分析和标签 | |
CN101030258A (zh) | 基于bp神经网络的数显仪表动态显示字符识别方法 | |
CN112712273B (zh) | 一种基于骨架相似度的手写体汉字美观度评判方法 | |
CN101038626A (zh) | 试卷卷面分数识别方法和装置 | |
JP2005196678A (ja) | テンプレートマッチング方法および対象画像領域抽出装置 | |
CN112036259A (zh) | 一种基于图像处理与深度学习相结合的表格矫正与识别的方法 | |
CN1367460A (zh) | 字符串识别装置、字符串识别方法及其存储介质 | |
CN113065396A (zh) | 基于深度学习的扫描档案图像的自动化归档处理系统及方法 | |
CN113705673A (zh) | 一种文字检测方法、装置、设备及存储介质 | |
CN111091122B (zh) | 一种多尺度特征卷积神经网络的训练和检测方法、装置 | |
CN111027637A (zh) | 一种文字检测方法及计算机可读存储介质 | |
CN1207673C (zh) | 半色调点消除方法及其系统 | |
CN1497494A (zh) | 用于低景深图像分割的方法和装置 | |
CN1275191C (zh) | 用于扩展在图象中的字符区域的设备及方法 | |
CN115439850B (zh) | 基于审单的图文字符识别方法、装置、设备及存储介质 | |
CN117058232A (zh) | 一种改进YOLOv8模型的养殖鱼群中鱼类目标个体的位置检测方法 | |
CN115578741A (zh) | 一种基于Mask R-cnn算法和类型分割的扫描文件版面分析方法 | |
CN111241365B (zh) | 表格图片解析方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20080305 Termination date: 20180818 |