CN1438604A - 基于贝叶斯分类器的文字字体判断设备及其方法 - Google Patents

基于贝叶斯分类器的文字字体判断设备及其方法 Download PDF

Info

Publication number
CN1438604A
CN1438604A CN 02157957 CN02157957A CN1438604A CN 1438604 A CN1438604 A CN 1438604A CN 02157957 CN02157957 CN 02157957 CN 02157957 A CN02157957 A CN 02157957A CN 1438604 A CN1438604 A CN 1438604A
Authority
CN
China
Prior art keywords
feature
pca
character
font
swimming
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 02157957
Other languages
English (en)
Other versions
CN1234094C (zh
Inventor
徐蔚然
刘刚
郭军
张洪刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN 02157957 priority Critical patent/CN1234094C/zh
Publication of CN1438604A publication Critical patent/CN1438604A/zh
Application granted granted Critical
Publication of CN1234094C publication Critical patent/CN1234094C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Abstract

本发明公开了一种基于贝叶斯分类器的文字字体判断设备及其方法。所述的设备包括:文字图像输入装置与前端处理装置、特征提取器、训练样本存储器、PCA分析器,PCA变换器、分类器参数估计器、贝叶斯分类器、可信度估计装置、判断结果输出装置和控制处理器。根据训练样本,利用统计处理方法自动学习知识,从而准确判断文字字体的设备。该设备结构化好,操作简单,判别精度高,并且对于被印章和底纹严重污染的文字,同样可以获得高精度,只需4~5个汉字即可准确判断字体,而且人工设定参数少,不依赖人的经验,回避了复杂而且容易出错的文字切分步骤,不需要对图像进行二值化。该设备适用于对识别精度要求严格的文字识别系统中,如银行支票识别系统、信函地址识别系统、表格识别系统等。

Description

基于贝叶斯分类器的文字字体判断设备及其方法
技术领域
本发明涉及汉字自动识别技术领域,特别涉及待识别文字污染严重的情况下,手写体和印刷体汉字判别的设备和方法。该设备适用于对识别精度要求严格的文字识别系统中,如银行支票识别系统、信函地址识别系统、表格识别系统等。
背景技术
字体判断是文字识别领域的基本问题,其重要性至少体现在两个方面:1.把多字体文字识别转化为单一字体识别,从而大幅度提高文字识别精度;2.保留原始文档字体信息,实现自动文档处理系统(ADP)打印出原始文档字体的功能。“手写体与印刷体文字字体判别技术”属于一种字体判别技术,该技术是自动文字识别系统(例如银行票据大写金额自动识别系统)得以实现的关键技术。银行里,手工填写和打印填写的支票是混在一起的。而手写体文字和印刷体文字的识别理论和识别方法完全不同,一种分类器不能同时高精度识别这两种文字。另外,银行支票的大写金额文字受印章和支票底纹的污染非常严重,需要文字识别系统具备去除污染的功能。但是,由于手写字和印刷字是由不同方式“写”出来的,因而印章和支票底纹对两类文字的干扰方式和影响程度也不相同,所以必须应用不同的去污染方法处理两类文字。再考虑到银行支票识别系统对精度的严格要求,准确判断待识别文字的字体是实现自动文字识别的关键技术。
由于字体判断的重要性,目前国内外已经开展了多年的研究,也提出了许多方法:①基于聚类的模板匹配方法(J.Hochberg,P.Kelly,T.Thomas,L.Kerms,1997-IEEE PAMI,Automatic Script Identification From Document Images UsingCluster-Based Templates);②基于旋转不变性纹理特征的字体判别(T.N.Tan,1998-IEEE PAMI,Rotation Invariant Texture Features and Their Use inAutomatic Script Identification);③基于文字印刷特征的字体识别方法(A.Zramdini,R.Ingold,1998-IEEE PAMI,Optical Font Recognition UsingTypographical Features);④基于全局纹理分析的字体判别(Y.Zhu,T.N.Tan,Y.H.Wang,2001-IEEE PAMI,Font Recognition Based on Global TextureAnalysis);⑤基于梯度矢量、灰度直方图和神经网络的日文手写体和印刷体字体判断(S.Imade,S.Tatsuta,1993-Proc.2nd Intl.Conf,Segmentation andclassification for mixed text/image documents using neural network);⑥基于方向特征、对称特征和神经网络的英文手写体和印刷体字体判断(K.Kuhnke,1995-Int.Conf.Document Analysis and Recognition2,A system for machine-written andhand-written character distinction),⑦基于文字块版面方差空间特征的繁体汉字手写体和印刷体字体判断(K.C.Fan,L.S.Wang,Y.T.Tu,1997-Pattern Recognition,Classification of of machine-printed and handwritten texts using character block layoutvariance)。
虽然以上这些方法都用于字体判别,但它们也有所不同。①~④方法主要用于判别印刷体文字的不同字体;⑤~⑦虽然专门用于手写体和印刷体字体判断,但它们针对的语言文字分别为日文、英文和繁体汉字。目前还未发现针对简体汉字的手写体和印刷体字体判断的文章和专利。另外,虽然上述方法都各有特色,但是它们也存在如下的共同缺点:  都是针对无污染的干净文字图像的处理方法,都需要很多文字,如一段文字,来判别字体,需要较多的人工设定参数和依赖人的经验。
发明内容
本发明的目的是为了更好地解决文字识别中手写体和印刷体文字的字体判断的上述问题,从混合的文档图像中把手写体和印刷体文字区分开。本发明提出了一种基于贝叶斯分类器的文字字体判断设备及其方法。本发明的设备是通过如下的技术方案实现的,所述的设备包括:
文字图像输入装置与前端处理装置,用于从外界输入图像,以及在图像中确定待识别文字的位置;
特征提取器,用于从文字图像输入装置与前端处理装置的测试窗中提取用于判别文字字体的特征;
训练样本存储器,用于把所有学习训练样本的特征保存在一起,以利于贝叶斯分类器的自动学习;
PCA分析器,用于对训练样本存储器所保存的全部训练样本的特征进行主成分分析(Principal Component Analysis),从而得到PCA变换器;
PCA变换器,用于根据PCA分析器确定的参数对样本的特征进行PCA变换;
分类器参数估计器,用于根据PCA变换器提供的所有学习训练样本来自动估计贝叶斯分类器的全部参数;
贝叶斯分类器,用于根据由分类器参数估计器确定的参数判别字体;
可信度估计装置,用于评估贝叶斯分类器输出结果的可信程度;
判断结果输出装置,用于把本装置的分析结果输出给其它设备;
控制处理器,用于控制上述的各个装置,以便协调不同装置,实现所述装置的自动学习和自动字体判断。
所述的文字图像输入装置与前端处理装置包括文字图像输入装置和测试窗定位器。
所述的特征提取器包括排字特征提取器、形态特征提取器、灰度梯度分布特征提取器和纹理特征提取器。
所述的排字特征提取器用于提取文字的排列方式上的特征,这些特征包括:文字高度特征、平均字宽特征、字宽绝对差特征、平均字间距特征和最大字间距特征。
所述的形态特征提取器用于提取文字笔划形态上的特征,它包括:纵向投影值特征、垂直平均游程特征、水平平均游程特征、长游程优势特征和长游程的均值特征。
所述的灰度梯度分布特征提取器用于提取测试窗的灰度-梯度二维直方图中的特征,它包括第一二维直方图特征和第二二维直方图特征两个特征。
纹理特征提取器,用于提取图像中的纹理特征。
所述的输出结果包括:分析的图像序号,字体判断结果和字体判断的可信程度。
所述的基于贝叶斯分类器的文字字体判断方法,在设备的控制处理器的控制下,该方法包括步骤:
从外界输入图像,以及在图像中确定待识别文字的位置;
从文字图像输入装置与前端处理装置的测试窗中提取用于判别文字字体的特征;
把所有学习训练样本的特征保存在一起,以便于贝叶斯分类器的自动学习;
对训练样本存储器所保存的全部训练样本的特征进行主成分分析,从而得到PCA变换;
根据PCA分析器确定的参数对样本的特征进行PCA变换;
根据PCA变换器提供的所有学习训练样本来自动估计贝叶斯分类器的全部参数;
根据分类器参数估计器确定的参数判别字体;
评估贝叶斯分类器输出结果的可信程度;
将判断分析结果输出给其它设备。
所述的提取用于判别文字字体的特征包括排字特征、形态特征、灰度梯度分布特征和纹理特征。
所述的排字特征表示文字的排列方式上的特征,包括:文字高度特征、平均字宽特征、字宽绝对差特征、平均字间距特征和最大字间距特征,它们的计算公式分别为:
Figure A0215795700083
其中待识别文字共有N个字,Wi是第i个字的字宽,W0是印刷体文字的标准宽度,Si是得到的第i个字间距。
所述的形态特征表示文字笔划形态上的特征,包括:纵向投影值特征、垂直平均游程特征、水平平均游程特征、长游程优势特征和长游程的均值特征。它们的计算公式分别为:
Figure A0215795700087
Figure A0215795700091
其中P(i)表示测试窗第i列的纵向投影值,T是阈值,ml和mg表示游程长度为l和g的游程数目,Nl和Ng分别表示水平和垂直方向游程的最大长度。Nt是由经验取定的阈值。
所述的灰度梯度分布特征表示测试窗的灰度-梯度二维直方图中的特征,包括第一二维直方图特征和第二二维直方图特征两个特征。
这两个特征的计算公式分别为:
Figure A0215795700092
hist(x,y)表示二维直方图在点(x,y)的取值。
纹理特征表示图像中的纹理特征。
所述的输出结果包括:分析的图像序号,字体判断结果和字体判断的可信程度。
根据训练样本,利用统计处理方法自动学习知识,从而准确判断文字字体的设备。该设备结构化好,操作简单,判别精度高,并且对于被印章和底纹严重污染的文字,同样可以获得高精度;只需4~5个汉字即可准确判断字体,而且人工设定参数少,不依赖人的经验;回避了复杂而且容易出错的文字切分步骤;不需要对图像进行二值化。该设备适用于对识别精度要求严格的文字识别系统中,如银行支票识别系统、信函地址识别系统、表格识别系统等。
下面结合附图的详细描述,可以更好地理解本发明技术方案的实质内容,附图中相同的标记表示相同的装置。
附图说明
图1是基于贝叶斯分类器的文字字体判断装置框图;
图2是文字图像输入装置与前端处理装置的示意图;
图3是印刷体和手写体文字的图像的示意图,图3(a)和(b)为印刷体文字,图3(c)和(d)为手写体文字;
图4是图3的文字图像对应的灰度梯度分布图,图4(a)对应印刷体文字,图4(b)对应手写体文字;
图5是每一类纹理特征的模板,图5(a)是纹理特征1的模板,图5(b)是纹理特征2的模板,图5(c)是纹理特征3的模板;
图6是本装置的自动训练学习工作模式流程图;
图7是本装置的自动字体判断工作模式流程图。
具体实施方式
本发明提出的一种基于贝叶斯分类器的文字字体判断设备及其方法是通过如下的技术方案实现的。
图1是基于贝叶斯分类器的文字字体判断设备框图。如图1所示,所述的设备包括:
文字图像输入装置与前端处理装置1,用于从外界输入图像,以及在图像中确定待识别文字的位置。所述的文字图像输入装置的前端接外部设备,外部设备可以是扫描仪或类似功能的图象输入设备。如图2所示,文字图像输入装置与前端处理装置1由文字图像输入装置11和测试窗定位器12两个基本装置组成。文字图像输入装置11把从外部设备输入的任何格式的图像文件转变成以矩阵形式表示的256级灰度图像。从文字图像输入装置与前端处理装置1输出的灰度图像矩阵既包括待识别的文字,又包括大量的无用图形。测试窗定位器12为测试窗定位器,它的功能就是确定测试窗的位置,使得待识别的文字被包括在测试窗当中。
特征提取器2,用于从文字图像输入装置与前端处理装置1的测试窗中提取用于判别文字字体的特征。提取和选择充分且有效的特征非常重要,本装置所提取的特征和提取特征的方法是其具有高精度判别能力的关键。特征提取器2使用4个子装置用以提取4大类,共15种特征。这4个子装置分别是排字特征提取器、形态特征提取器、灰度梯度分布特征提取器和纹理特征提取器。排字特征提取器用于提取文字的排列方式上的特征,这些特征包括:文字高度特征、平均字宽特征、字宽绝对差特征、平均字间距特征和最大字间距特征。
它们的计算公式为:
Figure A0215795700103
其中待识别文字共有N个字,Wi是第i个字的字宽,W0是印刷体文字的标准宽度,Si是得到的第i个字间距。形态特征提取器用于提取文字笔划形态上的特征,包括:纵向投影值特征、垂直平均游程特征、水平平均游程特征、长游程优势特征和长游程的均值特征。它们的计算公式为:
Figure A0215795700111
Figure A0215795700112
Figure A0215795700113
Figure A0215795700114
其中P(i)表示测试窗第i列的纵向投影值,T是阈值,ml和mg表示游程长度为l和g的游程数目,Nl和Ng分别表示水平和垂直方向游程的最大长度。Nt是由经验取定的阈值。灰度梯度分布特征提取器提取测试窗的灰度-梯度二维直方图中的特征,包括第一二维直方图特征和第二二维直方图特征两个特征。
图3中是印刷体和手写体文字的图像。图中的黑框标出了测试窗。图4是图3的文字图像对应的灰度梯度分布图。图4中的区域1和区域2用于提取第一二维直方图特征和第二二维直方图特征2,这两个特征的计算公式为:
Figure A0215795700118
hist(x,y)表示二维直方图在点(x,y)的取值,即图4所示图像。纹理特征提取器用于提取图像中的纹理特征,包括纹理特征1至特征3。纹理特征的值就是测试窗中包含每一类纹理特征模板的数量。每一类纹理特征的模板见图5。
训练样本存储器3,用于把所有学习训练样本的特征保存在一起,以利于贝叶斯分类器7的自动学习;
PCA分析器4,用于对训练样本存储器3所保存的全部训练样本的特征进行主成分分析(Principal Component Analysis),从而得到PCA变换;
PCA变换器5,用于根据PCA分析器4确定的参数对样本的特征进行PCA变换;
分类器参数估计器6,用于根据PCA变换器5提供的所有学习训练样本来自动估计贝叶斯分类器7的全部参数;
贝叶斯分类器7,用于根据由分类器参数估计器6确定的参数判别字体;
可信度估计装置9,用于评估贝叶斯分类器7输出结果的可信程度;
判断结果输出装置10,用于把本装置的分析结果输出给其它设备;
控制处理器8,用于控制上述的各个装置,以便协调不同装置,实现所述装置的自动学习和自动字体判断。
所述的输出结果包括:分析的图像序号,字体判断结果和字体判断的可信程度。
本发明的基于贝叶斯分类器的文字字体判断设备和方法,通过如下的描述可以更为清楚地理解。基于贝叶斯分类器的文字字体判断设备由上述12个基本装置组成,该设备有两个工作模式:自动训练学习模式和自动字体判断模式。
自动训练学习工作模式需要完成的功能是:对根据学习训练样本进行分析,从而确定PCA变换器的全部参数;根据学习训练样本,估计出贝叶斯分类器的全部参数。在该模式下,参与工作的装置主要有装置1至装置8。
图6是自动训练学习工作模式的流程图。其具体步骤如下:
步骤61从输入装置读入一个学习训练图像,输入装置可以由扫描仪或类似功能的图象输入设备组成,图像可以为彩色、灰度或黑白图像,图像的格式可以是BMP,TIF,JPG,GIF等国际标准格式;
步骤62把输入图像的格式转换成256级灰度的矩阵形式表示,以便于对其进行处理;
步骤63准确确定测试窗口的位置,用以判定字体的全部信息都从测试窗口提取;
步骤64从测试窗口提取4类,共15种特征;
步骤65把该学习训练训练样本的特征存储到训练样本存储器中;
步骤61~步骤65完成从一个训练样本中提取特征,并保存到训练样本存储器中的功能;
步骤66判断是否还有新的训练样本,如果判断结果是“是”,则转到步骤61;如果判断结果是“否”,则转到步骤67;步骤61~步骤66不断的重复,直到所有训练样本的特征都保存到训练样本存储器中;
步骤67对训练样本存储器中的所有训练样本的特征进行主成分分析,从而得到PCA变换器;
步骤68根据训练样本存储器中的所有训练样本,同时利用分类器参数估计器,从而得到贝叶斯分类器,最终完成学习训练过程。
自动字体判断工作模式完成的功能是:根据自动样本学习训练模式所获取的知识,利用贝叶斯分类器判定输入文字图像的字体。在该模式下,参与工作的装置主要有文字图像输入装置与前端处理装置1、特征提取器2、PCA变换器5、贝叶斯分类器7、控制处理器8、可信度估计装置9和判断结果输出装置10构成。由于分类器参数估计器6并不参与工作,所以PCA变换器5的输出直接传到贝叶斯分类器7,作为贝叶斯分类器7的输入。
图7是自动字体判断工作模式的流程图。其具体步骤如下:
步骤71从输入装置读入一个文字图像,输入装置可以由扫描仪或类似功能的图象输入设备组成,图像可以为彩色、灰度或黑白图像,格式可以是BMP,TIF,JPG等;
步骤72把输入图像的格式转换成256级灰度的矩阵形式表示,以便于对其进行处理;
步骤73准确确定测试窗口的位置,用以判定字体的全部信息都从测试窗口提取;
步骤74从测试窗口提取4类,共15种特征;
步骤75对该文字图像的特征进行PCA变换,得到彼此统计独立的新特征;
步骤76利用贝叶斯分类器判断该文字图像的字体,并估计该结果的可信程度;
步骤77输出该文字图像的序号、字体判断结果和结果的可信程度,完成对该文字图像的字体判断。
基于贝叶斯分类器的文字字体判断装置可以在任何的操作系统平台下,利用任何一种编程语言,利用软件方式来实现,也可以采用合适的硬件来实现,具有良好的可实现性,并可以灵活的集成到其他的文字识别系统中。
以上描述仅仅借助于实施例提供本发明的实现方法。对于本领域的技术人员是显而易见的,本发明不限于上面提供的实施细节,可以在不脱离本发明特征的情况下以另外的实施例实现,实施例中的一些部件进行分解、合并或使用微处理器实现。因此,提供的实施例应当被认为是说明性的,而不是限制性的。因此,实现和使用本发明的可能性是由所附的权利要求限定。因而,由权利要求确定的实现本发明的各种选择包括等效实施例也属于本发明的范围。

Claims (14)

1、一种基于贝叶斯分类器的文字字体判断设备,其特征在于:所述的设备包括:
文字图像输入装置与前端处理装置(1),用于从外界输入图像,以及在图像中确定待识别文字的位置;
特征提取器(2),用于从文字图像输入装置与前端处理装置(1)的测试窗中提取用于判别文字字体的特征;
训练样本存储器(3),用于把所有学习训练样本的特征保存在一起,以利于贝叶斯分类器的自动学习;
PCA分析器(4),用于对训练样本存储器所保存的全部训练样本的特征进行主成分分析,从而得到PCA变换;
PCA变换器(5),用于根据PCA分析器(4)确定的参数对样本的特征进行PCA变换;
分类器参数估计器(6),用于根据PCA变换器(5)提供的所有学习训练样本来自动估计贝叶斯分类器(6)的全部参数;
贝叶斯分类器(7),用于根据由分类器参数估计器(6)确定的参数判别字体;
可信度估计装置(9),用于评估贝叶斯分类器(7)输出结果的可信程度;
判断结果输出装置(10),用于把本装置的分析结果输出给其它设备;
控制处理器(8),用于控制上述的各个装置,以便协调不同装置,实现所述装置的自动学习和自动字体判断。
2、根据权利要求1的设备,其特征在于:  所述的文字图像输入装置与前端处理装置(1)包括文字图像输入装置(11)和测试窗定位器(12)。
3、根据权利要求2的设备,其特征在于:所述的特征提取器包括排字特征提取器、形态特征提取器、灰度梯度分布特征提取器和纹理特征提取器。
4、根据权利要求3的设备,其特征在于:所述的排字特征提取器用于提取文字的排列方式上的特征,这些特征包括:文字高度特征、平均字宽特征、字宽绝对差特征、平均字间距特征和最大字间距特征。
5、根据权利要求4的设备,其特征在于:所述的形态特征提取器用于提取文字笔划形态上的特征,它包括:纵向投影值特征、垂直平均游程特征、水平平均游程特征、长游程优势特征和长游程的均值特征。
6、根据权利要求5的设备,其特征在于:  所述的灰度梯度分布特征提取器用于提取测试窗的灰度-梯度二维直方图中的特征,它包括第一二维直方图特征和第二二维直方图特征两个特征。
7、根据权利要求6的设备,其特征在于:所述的纹理特征提取器,用于提取图像中的纹理特征。
8、根据权利要求1或6的设备,其特征在于:  所述的输出结果包括:分析的图像序号,字体判断结果和字体判断的可信程度。
9、一种基于贝叶斯分类器的文字字体判断方法,其特征在于:在设备的控制处理器的控制下,该方法包括步骤:
从外界输入图像,以及在图像中确定待识别文字的位置;
从文字图像输入装置与前端处理装置的测试窗提取用于判别文字字体的特征;
把所有学习训练样本的特征保存在一起,以便于贝叶斯分类器的自动学习;
对训练样本存储器所保存的全部训练样本的特征进行主成分分析,从而得到PCA变换;
根据PCA分析器确定的参数对样本的特征进行PCA变换;
根据PCA变换器提供的所有学习训练样本来自动估计贝叶斯分类器全部参数;
根据分类器参数估计器确定的参数判别字体;
评估贝叶斯分类器输出结果的可信程度;
将判断分析结果输出给其它设备。
10、根据权利要求9的方法,其特征在于:所述的提取用于判别文字字体的特征包括排字特征、形态特征、灰度梯度分布特征和纹理特征。
11、根据权利要求10的方法,其特征在于:所述的排字特征表示文字的排列方式上的特征,包括:文字高度特征、平均字宽特征、字宽绝对差特征、平均字间距特征和最大字间距特征,它们的计算公式分别为:
Figure A0215795700031
Figure A0215795700033
Figure A0215795700041
其中待识别文字共有N个字,Wi是第i个字的字宽,W0是印刷体文字的标准宽度,Si是得到的第i个字间距。
12、根据权利要求11的方法,其特征在于:所述的形态特征表示文字笔划形态上的特征,包括:纵向投影值特征、垂直平均游程特征、水平平均游程特征、长游程优势特征和长游程的均值特征。它们的计算公式分别为:
Figure A0215795700046
Figure A0215795700047
其中P(i)表示测试窗第i列的纵向投影值,T是阈值,ml和mg表示游程长度为l和g的游程数目,Nl和Ng分别表示水平和垂直方向游程的最大长度。Nt是由经验取定的阈值。
13、根据权利要求12的方法,其特征在于:所述的灰度梯度分布特征表示测试窗的灰度-梯度二维直方图中的特征,包括第一二维直方图特征和第二二维直方图特征两个特征。
这两个特征的计算公式分别为:
Figure A0215795700048
Figure A0215795700049
hist(x,y)表示二维直方图在点(x,y)的取值。
14、根据权利要求9或13的方法,其特征在于:所述的输出结果包括:分析的图像序号,字体判断结果和字体判断的可信程度。
CN 02157957 2002-12-23 2002-12-23 基于贝叶斯分类器的文字字体判断设备及其方法 Expired - Fee Related CN1234094C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 02157957 CN1234094C (zh) 2002-12-23 2002-12-23 基于贝叶斯分类器的文字字体判断设备及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 02157957 CN1234094C (zh) 2002-12-23 2002-12-23 基于贝叶斯分类器的文字字体判断设备及其方法

Publications (2)

Publication Number Publication Date
CN1438604A true CN1438604A (zh) 2003-08-27
CN1234094C CN1234094C (zh) 2005-12-28

Family

ID=27672213

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 02157957 Expired - Fee Related CN1234094C (zh) 2002-12-23 2002-12-23 基于贝叶斯分类器的文字字体判断设备及其方法

Country Status (1)

Country Link
CN (1) CN1234094C (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100356393C (zh) * 2005-08-18 2007-12-19 北大方正集团有限公司 一种基于字体预测的字符识别方法
WO2008148343A1 (fr) * 2007-06-01 2008-12-11 Tsinghua University Dispositif de détection d'objet photographié spécial et dispositif d'apprentissage et procédé associé
CN101350069B (zh) * 2007-06-15 2010-11-17 三菱电机株式会社 从训练数据构建分类器并使用分类器检测在测试数据中的移动对象的计算机实现方法
CN102521516A (zh) * 2011-12-20 2012-06-27 北京商纳科技有限公司 一种自动生成错题本的方法及系统
CN101819632B (zh) * 2005-08-25 2012-07-11 普驰有限责任公司 用于内容识别的系统和方法
CN103824373A (zh) * 2014-01-27 2014-05-28 辰通智能设备(深圳)有限公司 一种票据图像金额分类方法及系统
CN103914680A (zh) * 2013-01-07 2014-07-09 上海宝信软件股份有限公司 一种喷印字符图像识别与校验系统及方法
CN107220655A (zh) * 2016-03-22 2017-09-29 华南理工大学 一种基于深度学习的手写、印刷文本的分类方法
CN107945807A (zh) * 2016-10-12 2018-04-20 厦门雅迅网络股份有限公司 基于静音游程的语音识别方法及其系统
CN108009472A (zh) * 2017-10-25 2018-05-08 五邑大学 一种基于卷积神经网络和贝叶斯分类器的指背关节纹识别方法
CN111027345A (zh) * 2018-10-09 2020-04-17 北京金山办公软件股份有限公司 一种字体识别方法及装置

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100356393C (zh) * 2005-08-18 2007-12-19 北大方正集团有限公司 一种基于字体预测的字符识别方法
CN101819632B (zh) * 2005-08-25 2012-07-11 普驰有限责任公司 用于内容识别的系统和方法
WO2008148343A1 (fr) * 2007-06-01 2008-12-11 Tsinghua University Dispositif de détection d'objet photographié spécial et dispositif d'apprentissage et procédé associé
CN101315670B (zh) * 2007-06-01 2010-08-11 清华大学 特定被摄体检测装置及其学习装置和学习方法
US8457391B2 (en) 2007-06-01 2013-06-04 Tsinghua University Detecting device for specific subjects and learning device and learning method thereof
CN101350069B (zh) * 2007-06-15 2010-11-17 三菱电机株式会社 从训练数据构建分类器并使用分类器检测在测试数据中的移动对象的计算机实现方法
CN102521516A (zh) * 2011-12-20 2012-06-27 北京商纳科技有限公司 一种自动生成错题本的方法及系统
CN103914680A (zh) * 2013-01-07 2014-07-09 上海宝信软件股份有限公司 一种喷印字符图像识别与校验系统及方法
CN103914680B (zh) * 2013-01-07 2018-03-23 上海宝信软件股份有限公司 一种喷印字符图像识别与校验系统及方法
CN103824373A (zh) * 2014-01-27 2014-05-28 辰通智能设备(深圳)有限公司 一种票据图像金额分类方法及系统
CN103824373B (zh) * 2014-01-27 2016-06-08 深圳辰通智能股份有限公司 一种票据图像金额分类方法及系统
CN107220655A (zh) * 2016-03-22 2017-09-29 华南理工大学 一种基于深度学习的手写、印刷文本的分类方法
CN107945807A (zh) * 2016-10-12 2018-04-20 厦门雅迅网络股份有限公司 基于静音游程的语音识别方法及其系统
CN108009472A (zh) * 2017-10-25 2018-05-08 五邑大学 一种基于卷积神经网络和贝叶斯分类器的指背关节纹识别方法
CN108009472B (zh) * 2017-10-25 2020-07-21 五邑大学 一种基于卷积神经网络和贝叶斯分类器的指背关节纹识别方法
CN111027345A (zh) * 2018-10-09 2020-04-17 北京金山办公软件股份有限公司 一种字体识别方法及装置

Also Published As

Publication number Publication date
CN1234094C (zh) 2005-12-28

Similar Documents

Publication Publication Date Title
Guo et al. Separating handwritten material from machine printed text using hidden markov models
JP5379085B2 (ja) スキャンされた文書画像内の前景画素群の連結グループをマーキング種類に基づき分類する方法及びシステム
CN102332096B (zh) 一种视频字幕文本提取和识别的方法
Hangarge et al. Offline handwritten script identification in document images
CN101719142B (zh) 基于分类字典的稀疏表示图片文字检测方法
CN101038686A (zh) 一种基于信息融合的机读旅行证件识别方法
CN103455806A (zh) 文档处理装置、文档处理方法以及扫描仪
US6532302B2 (en) Multiple size reductions for image segmentation
CN1234094C (zh) 基于贝叶斯分类器的文字字体判断设备及其方法
CN112508011A (zh) 一种基于神经网络的ocr识别方法及设备
CN105184329A (zh) 一种基于云平台的脱机手写识别方法
CN100350421C (zh) 一种通过多个图象光识别邮件的方法
Lam et al. Reading newspaper text
Nadeem et al. Character recognition using template matching
Rashid et al. Discriminative learning for script recognition
Tomaschek Evaluation of off-the-shelf OCR technologies
Thilagavathy et al. Recognition of distorted character using edge detection algorithm
Bozkurt et al. Classifying fonts and calligraphy styles using complex wavelet transform
Dhandra et al. Morphological reconstruction for word level script identification
Gao et al. A vision-based fast chinese postal envelope identification system
CN111553336B (zh) 基于连体段的印刷体维吾尔文文档图像识别系统及方法
Bagoriya et al. Font type identification of hindi printed document
Shaikh et al. Handwritten Text Recognition of Document Form Using Machine Learning
Deokate et al. Devnagari script categorization by utilizing CNN and KNN
JPH08272902A (ja) 異字体異品質文字の認識方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20051228

Termination date: 20100125