CN101582118B - 字符字典创建装置、字符识别装置及字符识别方法 - Google Patents
字符字典创建装置、字符识别装置及字符识别方法 Download PDFInfo
- Publication number
- CN101582118B CN101582118B CN2009101384192A CN200910138419A CN101582118B CN 101582118 B CN101582118 B CN 101582118B CN 2009101384192 A CN2009101384192 A CN 2009101384192A CN 200910138419 A CN200910138419 A CN 200910138419A CN 101582118 B CN101582118 B CN 101582118B
- Authority
- CN
- China
- Prior art keywords
- character
- distribution profile
- unit
- dictionary
- class
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/28—Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
Abstract
本发明涉及字典创建装置、识别装置及识别方法。所述字典创建装置将分别包括平均向量及协方差矩阵的概率分布登记在字典中。所述字典创建装置将具有相似的特征向量的字符类别的多个分布轮廓组织成一个典型分布轮廓,并将该典型分布轮廓与被组织的字符类别彼此关联地登记在字典中,而不将所有的字符类别的本征值及本征向量彼此关联地登记在字典中。
Description
技术领域
这里所讨论的实施例旨在提出一种字典创建装置、识别装置及识别方法。
背景技术
近来,随着装有摄像头的移动终端(下文中的“拍照电话”)的广泛使用,对由摄像头所拍摄的图像中的字符或字母进行识别或翻译、或者基于字符识别的输入结果来对信息进行检索的需求增加。
为了满足这种需求,拍照电话中通常装有光学字符读取器(OCR)。
同时,重要的是,带有OCR的移动终端应当具有便携性。因此,与诸如个人计算机(PC)的固定终端不同的是,必须减小存储器的印刷电路板及中央处理单元(CPU)的尺寸以减小移动终端的尺寸。相应的是,在安装OCR时,硬件性能受到限制。
因为这种限制,在用于移动终端的OCR中使用简单的字符识别系统。通常,在示例性字符识别系统中,存储每个字符的平均向量,并计算作为识别对象的所输入的字符的特征向量与存储在字符识别字典中的、每个字符的平均向量之间的距离。然后,将其平均向量与所输入的字符的特征向量的距离最小的字符视为识别结果(例如,参见日本特开平第05-46812号公报)。
然而,日本特开平第05-46812号公报中的字符识别系统固有的字符识别准确度有限。
即,作为识别对象的所输入的字符的字体不一定是固定类型的字体之一。尽管能够以一定的准确度对预先学习过的字体进行识别,但是在输入未经学习的字体时,不能达到令人满意的字符识别准确度。
为了实现高准确度的字符识别,除了字符的平均向量之外,还可以使用由协方差矩阵所定义的本征值及本征向量来进行字符识别。在这种情况下,需要其中存储有每个字符的本征值及本征向量的字符识别字典。该字 典的量变得非常大,因此该字典难以安装在移动终端中。
尤其是,在字符为汉字时,要被登记在字典中的字符的总数约为4000,因而将这么多字符的本征值及本征向量登记在用于移动终端的OCR的字典中是不可行的。
由于这个原因,在移动终端中装有字符识别装置时,如何在实现高准确度的字符识别能力的同时减小字典的量成为问题。对于进行使用类别概率分布的模式识别(例如,人脸图像识别)的情况以及进行作为模式识别的字符识别的情况,这个问题是很普遍的。
发明内容
本发明的目的是至少部分地解决传统技术中的问题。
根据实施例的一方面,字典创建装置包括:特征量计算单元,其基于用于创建模式识别字典的训练数据来计算作为识别项的、每个类别的特征量;分布轮廓计算单元,其基于由所述特征量计算单元所计算出的、每个类别的所述特征量来计算每个类别的所述特征量的组的分布轮廓;距离计算单元,其基于由所述分布轮廓计算单元所计算出的、每个类别的所述特征量的所述组的所述分布轮廓来计算各自的类别的所述分布轮廓之间的距离;聚类对象确定单元,其基于由所述距离计算单元所计算出的、各自的类别的所述分布轮廓之间的所述距离来确定作为聚类对象的分布轮廓;典型分布轮廓确定单元,其确定代表由所述聚类对象确定单元所确定的所述聚类对象的所述分布轮廓的典型分布轮廓;聚类单元,其将被所述聚类对象确定单元确定为所述聚类对象的所述分布轮廓聚类;关联单元,其将由所述典型分布轮廓确定单元所确定的所述典型分布轮廓与在所述聚类单元所进行的所述聚类之后作为元素被包含在所述典型分布轮廓中的类别相关联;以及字典登记单元,其将被所述关联单元彼此关联起来的所述典型分布轮廓及所述类别登记在预定字典存储单元中。
将通过在权利请求书中具体地指出的元素及组合来实现并获得本发明的目的及优点。
应当理解,上文的概括说明及下文的详细说明都是示例性和解释性的,而并非对所要求保护的本发明的限制。
附图说明
图1是用于解释由根据本发明第一实施例的字典创建装置所进行的聚类的概念的示意图;
图2是根据第一实施例的字典创建装置及字符识别装置的结构的功能框图;
图3是根据第一实施例的字典创建处理过程的流程图;
图4是用于解释关联单元的处理内容的示意图;
图5是根据第一实施例的字符识别处理过程的流程图;
图6是根据本发明第二实施例的字典创建装置及字符识别装置的结构的功能框图;
图7是用于解释与读取错误具有对应关系的字符类别的示意图;
图8是存储在读取错误对应存储单元中的信息的结构示例;以及
图9是根据本发明第三实施例的、执行字符识别程序的计算机的结构的功能框图。
具体实施方式
下面将参照附图来详细地解释根据本发明的字典创建装置、识别装置、识别方法及识别程序的示例性实施例。在下列实施例中,将对创建字符识别字典作为模式字典并使用所创建的字符识别字典来进行字符识别的情况进行解释。
下面解释根据本发明第一实施例的字典创建装置的概要。字典创建装置10(参见图2)创建用于模式识别的字符识别字典。具体地说,字典创建装置10通过识别出在拍照电话(带有摄像头的移动终端)中装有字符识别字典的事实来创建该字典。
在创建字符识别字典时,根据第一实施例的字典创建装置10通过仅将其特征向量具有相似的分布轮廓的多个字符类别的典型分布轮廓登记在字典中来进行聚类。
即,优选的是,除了平均向量之外,还使用分布轮廓(本征值及本征向量)来进行字符识别,以实现与作为识别对象的所输入的字符的字体无关的、稳定的字符识别能力。然而,如果将每个类别的本征值及本征向量 登记在字典中,则字典的量会变得很大,因此字典变得不适合装在移动终端中。
相应的是,为了确保高水平的字符识别准确度,字典创建装置10将包括平均向量及协方差矩阵的概率分布登记在字典中。然而,字典创建装置10并不将所有的字符类别的本征值及本征向量彼此关联地登记在字典中。字符类别是指由相同的字符构成的类别,而与字体的类型无关。协方差矩阵是指示特征向量的扩展的度量。
即,字典创建装置10关注以下事实:认为许多字符类别中的一些字符类别的、由协方差矩阵所定义的分布轮廓相似。字典创建装置10将其特征向量具有相似的分布轮廓的字符类别的多个分布轮廓组织成一个典型分布轮廓。然后,字典创建装置10将该典型分布轮廓与被组织的字符类别相关联,并将关联起来的典型分布轮廓及字符类别登记到字典中。
结果,尽管在传统技术中将与字符类别的数量相对应的、分布轮廓的信息登记在字典中,但是在第一实施例中,仅将典型分布轮廓登记在字典中。因此,能够减少要被存储在字典中的分布轮廓的绝对数量。
下面将参照图1来解释该聚类过程。图1是用于解释由字典创建装置10所进行的聚类的概念的示意图。图1是其中字符类别A至字符类别E具有分布轮廓A至分布轮廓E、并通过将分布A至分布E中的每个分布视为一个聚类来进行聚类的示例。
如图1中所描绘的,字典创建装置10仅需关注字符类别A至字符类别E的分布轮廓,因此,将这些分布的中心位置对准,而不考虑其平均向量(参见图1中的(1))。
然后,字典创建装置10针对所有的聚类中的每一对聚类( 对)来计算分布之间的距离。字典创建装置10将分布轮廓之间的距离最短的聚类合并,以确定代表这些聚类的分布轮廓的典型分布轮廓(参见图1中的(2))。字典创建装置10用典型分布轮廓来替代被合并的聚类的分布轮廓(参见图1中的(3))。
在图1中所描绘的示例中,分布A与分布C的对、分布C与分布E的对以及分布E与分布A的对的分布轮廓之间的距离较短(这些对的相似度较高)。因此,将分布A、分布C及分布E的聚类合并,并且例如选择分布A作为这三个被合并的聚类的典型分布轮廓。然后,包括字符类别A、字符类别C及字符类别E的、被合并的聚类的分布轮廓被典型分 布轮廓A替代。
以这种方式,根据第一实施例,尽管除了平均向量之外还将特征向量的分布轮廓登记在字典中,但是仅将关于其特征向量的分布轮廓相似的多个字符类别的典型分布轮廓登记在字典中。因此,能够在达到与使用概率分布的字符识别的字符识别能力相当的字符识别能力的同时减小字典的量。
在图1中所描绘的示例中,解释了二维分布轮廓。然而,所公开的字典创建装置10不仅适用于二维分布轮廓,而且能够对诸如三维或更多维的任意数量的维度进行聚类。
下面解释字典创建装置10的结构。图2是根据第一实施例的字典创建装置10及字符识别装置的结构的功能框图。
如图2中所描绘的,字典创建装置10包括平均向量计算单元11、分布轮廓计算单元12、聚类单元13、典型分布轮廓确定单元14、关联单元15及字典登记单元16。
平均向量计算单元11计算每个字符类别的平均向量。更具体地说,平均向量计算单元11基于从存储设备或外部设备(未示出)输入的训练样本的字符数据来计算每个字符类别的特征向量,并根据计算出的特征向量来计算每个字符类别的平均向量。
分布轮廓计算单元12计算每个字符类别的分布轮廓。参照图3来解释其细节,而概要如下。分布轮廓计算单元12基于由平均向量计算单元11针对每个字符类别而计算出的特征向量及平均向量来计算协方差矩阵。然后,分布轮廓计算单元12基于针对每个字符类别而计算出的协方差矩阵来计算本征值及本征向量。例如,使用在“Handwritten Kanji andHiragana Recognition by Weighted Direction Index Histogram Method”(Journal D of IEICE,Vol.J70-D,No.7,第1390-1397页,1987年7月)中所描述的加权方向指数直方图特征作为字符的特征向量。
聚类单元13对聚类(分布轮廓或典型分布轮廓)进行合并。例如,将所有的分布轮廓视为分别具有一个元素的聚类,聚类单元13使用Kullback-Leibler距离作为聚类之间的距离的度量,针对所有的聚类中的每一对聚类(在图1中所描绘的示例中为 对)来计算分布轮廓之间的距离。聚类单元13将所有的聚类对中的、其之间的距离最短的聚类合并。重复地进行对聚类的合并,直到所获得的聚类的数量收敛到基于目标 字符识别准确度而预先设定的值为止。例如,应用分层聚类作为聚类方法。在分层聚类中,聚类的最终数量由用户(以实验的方式或以经验为依据)来限定,并且进行聚类直到聚类的数量达到所限定的数量为止。
典型分布轮廓确定单元14确定被聚类单元13合并的聚类的典型分布轮廓。在图1中所描绘的示例中,在字符类别A及字符类别C的聚类被合并时,典型分布轮廓确定单元14可以选择分布A及分布C中的一个分布作为典型分布轮廓,或将分布A与分布C的平均(例如,通过几何平均或加权平均)确定作为典型分布轮廓。优选的是,应用以下准则来进行分布选择或平均:识别频次(检查频次)高的字符类别的分布优先。
关联单元15将由典型分布轮廓确定单元14所确定的典型分布轮廓与作为元素被包含在该典型分布轮廓中的字符类别相关联。更具体地说,关联单元15将这些字符类别中的每个字符类别与分布号及平均向量相关联,同时将分布号与典型分布轮廓相关联(参见图4)。因此,关联单元15通过分布号来将字符类别与典型分布轮廓(本征值及本征向量)彼此关联。
字典登记单元16将被关联单元15彼此关联起来的、每个字符类别的平均向量及典型分布轮廓登记在字典中。更具体地说,字典登记单元16将每个字符类别的平均向量及典型分布轮廓登记在安装在移动终端中的字符识别装置30的字典存储单元31中。字典创建装置10与字符识别装置30可以通过任一类型的网络、以有线或无线的方式连接起来。此外,字典创建装置10及字符识别装置30可以安装在同一设备中。
下面将详细地解释由字典创建装置10所进行的处理的流程。图3是根据第一实施例的字典创建处理过程的流程图。
如图3中所描绘的,平均向量计算单元11基于从存储单元或外部设备输入的训练样本的字符数据来计算字符类别的特征向量,并基于计算出的特征向量来计算字符类别的平均向量(步骤S301)。
然后,分布轮廓计算单元12基于由平均向量计算单元11所计算出的特征向量及平均向量来计算协方差矩阵(步骤S302)。例如,在训练数据为X1、X2、...、Xn且平均向量为μ时,协方差矩阵由式(1)给出。
X1,X2,...,Xn:学习数据
μ:平均向量
分布轮廓计算单元12还基于在步骤S302中计算出的协方差矩阵来计算本征值及本征向量(步骤S303)。
其后,在计算出所有的字符类别的本征值及本征向量(步骤S304中的“是”)时,聚类单元13针对所有的聚类对来计算各自的类别的分布轮廓之间的距离(步骤S305)。
例如,在使用Kullback-Leibler距离作为聚类之间的距离的度量、并假设两个类别的分布f(x)及g(x)都是正态分布时,这两个类别分布之间的距离由式(2)来表示。
f(x),g(x):类别分布
在f(x)的平均值为μ1且其协方差矩阵为∑1、g(x)的平均值为μ2且其协方差矩阵为∑2时,Kullback-Leibler距离由式(3)给出。
μ1:f(x)的平均值
μ2:g(x)的平均值
∑1:f(x)的协方差矩阵
∑2:g(x)的协方差矩阵
在仅关注分布轮廓时,可以假设μ1=μ2,于是得到式(4)。
I:单位矩阵
按照这种方式,仅利用协方差矩阵来表示两个类别分布轮廓之间的距离。在式(4)中,I表示单位矩阵。
返回到参照图3的解释,在计算分布轮廓之间的距离时,聚类单元 13将所有的聚类对中的、其之间的距离最短的聚类合并(步骤S306)。典型分布轮廓确定单元14确定被聚类单元13合并的聚类的典型分布轮廓(步骤S307)。
关联单元15将由典型分布轮廓确定单元14所确定的典型分布轮廓与作为元素被包含在该典型分布轮廓中的字符类别相关联(步骤S308)。
例如,在图4中所描绘的示例中,关联单元15使用分布号“1”来将字符类别“A”、字符类别“C”及字符类别“E”与各自的维度的本征值“λa1至λan”及本征向量“ψa1至ψan”彼此关联。
在作为聚类单元13的合并结果的聚类的数量不等于预定值(基于目标字符识别准确度而预先设定的聚类的数量)(步骤S309中的“否”)时,重复地进行从步骤S306至步骤S308的处理。
在聚类的数量变成等于预定值(步骤S309中的“是”)时,字典登记单元16将被关联单元15彼此关联起来的、每个字符类别的平均向量及典型分布轮廓登记在字符识别装置30的字典存储单元31中(步骤S310),然后终止处理。
如上所述,字典创建装置10根据用于创建模式识别字典的训练数据来计算作为识别项的、每个类别的特征量。然后,字典创建装置10基于针对每个类别而计算出的特征量来计算每个类别的特征量的组的分布轮廓。然后,字典创建装置10基于针对每个类别而计算出的、特征量的组的分布轮廓来计算各自的类别的分布轮廓之间的距离。然后,字典创建装置10基于各自的类别的分布轮廓之间的距离来确定聚类对象分布轮廓,并确定代表被确定的聚类对象分布轮廓的典型分布轮廓。然后,字典创建装置10将被确定为聚类对象的分布轮廓聚类,并将所确定的典型分布轮廓与作为元素被包含在该典型分布轮廓中的被聚类的类别相关联。然后,字典创建装置10将被关联起来的典型分布轮廓及类别登记在字典存储单元31中。因此,能够在达到与使用概率分布所提供的字符识别的字符识别能力相当的字符识别能力的同时减小字典的量。
下面将具体地解释字典的量的减小。约有4000个日文字符类别,在进行统计字符识别时,每个类别具有平均向量、本征值及本征向量。每个类别最多可以具有与特征维数一样多的本征值及本征向量。然而,在很多情况下,实际上在字典中登记影响识别率的约20个本征值及本征向量。
在特征向量为浮点型(=4字节)、本征值为浮点型(=4字节)、特征 维数为300、且本征值或本征向量的数量为20时,字典的量被计算为:(300维*4字节+(4字节+300维*4字节)*20)*4000类别=101.12兆字节。
在假设4000个类别的分布轮廓可以由100个分布轮廓来代表时,这种情况下的字典的量变成:300维*4字节*4000类别+(4字节+300维*4字节)*20*100=7.2兆字节。
即,字典创建装置10在上述条件下创建字典时,能够将字典的量减小到以传统方式得到的字典的约7%。
下面对根据第一实施例的字符识别装置30进行解释。字符识别装置30具有字符识别字典,该字符识别字典是要装在移动终端中的OCR并由字典创建装置10来登记。
如图2中所描绘的,字符识别装置30包括字典存储单元31、特征提取单元32及字符识别单元33。
字典存储单元31是诸如非易失性存储器的存储设备,在其中存储每个字符类别的平均向量及典型分布轮廓。例如,如图4中所描绘的,字典存储单元31包括包含每个字符类别的分布号及平均向量的表以及包含每个分布号的典型分布轮廓的表。分开地设置包含分布号的表及包含典型分布轮廓的表的原因是,多个字符类别的分布轮廓由某些分布轮廓来代表,并通过使用分布号作为指针来管理,以减小字典的量。
特征提取单元32从所输入的字符数据中提取特征向量。可以通过图像扫描仪等来输入字符数据,或者可以经由网络从外部设备获得字符数据。
字符识别单元33基于统计分布来进行字符识别。稍后将参照图5来对其细节进行解释,而其概要如下。字符识别单元33使用存储在字典存储单元31中的、字符类别的分布轮廓来计算所输入的字符的特征向量与字符类别的平均向量之间的基于统计分布的距离。然后,字符识别单元33将其之间的距离最短的字符类别确定为所输入的字符的字符类别。
下面将解释由字符识别装置30所进行的处理的流程。图5是根据第一实施例的字符识别处理过程的流程图。
如图5中所描绘的,特征提取单元32从通过图像扫描仪等而输入的输入字符数据中提取字符类别的特征向量(步骤S501)。
然后,字符识别单元33参照字典存储单元31来读取作为当前计算对 象的字符类别的平均向量及分布号,并基于分布号来调用典型分布轮廓,从而计算所输入的字符的特征向量与字符类别的平均向量之间的基于统计分布的距离(步骤S502)。
例如,假设使用Mahalanobis距离作为基于统计分布的距离的度量。在所输入的字符的特征向量为x、字符类别的平均向量为μ、且其协方差矩阵为∑1时,Mahalanobis距离由式(5)给出。
x:所输入的字符的特征向量
μ:平均向量
∑1:协方差矩阵
在特征向量的维数为n、协方差矩阵的第k个本征值为λk、且与λk相对应的本征向量为ψk时,式(5)被表示为(6)。
n:特征向量的维数
λk:协方差矩阵的第k个本征值
根据式(6)来计算所输入的字符的特征向量与字符类别的平均向量之间的Mahalanobis距离。
在计算出所有的字符类别的Mahalanobis距离(步骤S503中的“是”)时,字符识别单元33将其之间的距离最短的字符类别确定为所输入的字符的字符类别(步骤S504),然后终止处理。
如上所述,字符识别装置30将分布号与典型分布轮廓彼此关联地存储起来,并将每个字符类别的平均向量与分布号彼此关联地存储起来。然后,字符识别装置30从作为识别对象的所输入的字符数据中提取特征向量,并提取与作为距离计算对象的字符类别相对应的平均向量及分布号。然后,字符识别装置30提取与分布号相对应的典型分布轮廓,并针对每个字符类别,使用所提取的、该字符类别的典型分布轮廓来计算从所输入的数据中提取的特征向量与该字符类别的平均向量之间的距离。然后,字符识别装置30采用计算出的距离最短的字符类别作为识别结果。因此, 可以通过使用其中多个字符类别的分布轮廓被组织成一个典型分布轮廓的模式字典来进行统计字符识别。因此,能够在达到与使用概率分布来进行的字符识别的字符识别能力相当的字符识别能力的同时减小字典的量。
在第一实施例中,解释了在无约束的情况下对分布轮廓进行聚类的情况。然而,对于某些类别,无论分布轮廓之间的距离如何,不进行聚类更好。
即,在字符识别中,字形相似的字符(例如,“玉”和“王”)可能被误读。在要识别这种字形相似的字符时,字符类别之间的、分布轮廓的细微的差异通常对识别起作用。因此,在对字形相似的字符的分布轮廓进行聚类时,字符识别率可能会降低。
下面对作为本发明第二实施例的另一字典创建装置进行解释。该字典创建装置在从聚类对象中去除具有高误读率的字符的分布轮廓之后对分布轮廓进行聚类。该字典创建装置能够将有可能被误读的字符的原始分布轮廓登记在字典中,而不是通过聚类用其他分布轮廓来替代。
图6是根据第二实施例的字典创建装置及字符识别装置的结构的功能框图。如图6中所描绘的,字典创建装置50与根据第一实施例的字典创建装置10的不同之处在于,另外还包括了字符识别单元51、读取错误组合提取单元52及读取错误对应存储单元53。将省略对具有与第一实施例中的组成元素的功能相同的功能的组成元素的解释。
字符识别单元51基于由分布轮廓计算单元12所计算出的、每个字符类别的本征值及本征向量、以及测试样本的字符数据来进行字符识别。例如,子空间方法用作字符识别方法。不一定必须使用由分布轮廓计算单元12所计算出的本征值及本征向量。因为其中存储有每个字符类别的本征值及本征向量的字典是公知的,所以字符识别单元51可以使用这种字典。
读取错误组合提取单元52从字符识别单元51的识别结果中提取识别错误率高于阈值的字符类别的组合。例如,假设在字符已被彼此错误地识别达五次时,将这些字符从聚类对象中去除,图7中描绘了由字符识别单元51所进行的识别的结果。在输入字符类别A时,它被错误地识别为字符类别D达十次,在输入字符类别D时,它被错误地识别为字符类别A达八次。因而,这两个字符之间的彼此识别错误的次数超过作为预先确定的阈值的五次,因此,读取错误组合提取单元52提取字符类别A及字符类别D作为读取错误组合。
读取错误对应存储单元53是诸如非易失性存储器的存储设备,在其中存储由读取错误组合提取单元52所提取的读取错误组合。例如,如图8中所描绘的,读取错误对应存储单元53在其中存储由读取错误组合提取单元52所提取的字符类别对作为读取错误组合。
在以这种方式将由读取错误组合提取单元52所提取的读取错误组合存储在读取错误对应存储单元53中时,聚类单元54能够在聚类之前将被存储作为读取错误组合的字符类别的聚类去除。
因而,根据第二实施例的字典创建装置50基于针对每个字符类别而计算出的特征向量的分布轮廓以及测试样本数据来进行字符识别。字典创建装置50从识别结果中提取彼此的识别错误率高于预定阈值的字符类别的组合。然后,字典创建装置50将所提取的、字符类别的组合去除,从而确定聚类对象的分布轮廓。因此,能够防止字形相似的字符的分布轮廓被聚类,从而减小识别错误的概率。作为结果,能够抑制字符识别准确度的降低。
在第一实施例及第二实施例中,已对创建字符识别字典作为模式字典并使用所创建的字符识别字典来进行字符识别的情况进行了解释。然而,可以按类似的方式将第一实施例及第二实施例应用于以下情况:通常进行使用类别的概率分布的模式识别(例如,面部图像识别)。
尽管在第一实施例中解释了字符识别装置,但是可以通过利用软件来实现字符识别装置的组件,从而提供具有相同的功能的字符识别程序。将在本发明的第三实施例中对执行这种字符识别程序的计算机进行解释。
图9是根据第三实施例的、执行字符识别程序的计算机的结构的功能框图。如图9中所描绘的,计算机300包括RAM(随机存取存储器)310、CPU 320、HDD(硬盘驱动器)330、LAN(局域网)接口340及输入/输出接口350。
RAM 310在其中存储程序、程序的执行中间结果等。CPU 320是从RAM 310中读取程序并执行该程序的中央处理单元。HDD 330在其中存储程序及数据。LAN接口340用于经由无线LAN或LAN线缆而将计算机300连接到另一计算机。输入/输出接口350用于将诸如显示器的输入/输出设备连接到计算机300。
计算机300执行的字符识别程序311存储在通过LAN接口340而连接的另一计算机系统的数据库等中,从该数据库中读取字符识别程序311 以将其安装在计算机300中。已安装的字符识别程序311存储在HDD 330中,RAM 310从HDD 330中读取该字符识别程序311,并由CPU 320来执行该程序。
将由字符识别程序311所获得的输出结果(字符识别结果)输出为有形的结果,例如,在显示器上显示、利用打印机来打印、作为数据存储在存储器中、或经由网络而发送到另一计算机。
不一定将字符识别程序311存储在作为计算机可读存储介质的HDD330中。例如,可以将字符识别程序311存储在能够插入到计算机300中的“便携式物理介质”中,“便携式物理介质”诸如软盘(FD)、光盘只读存储器(CD-ROM)、数字多用途盘(DVD)、磁光盘及集成电路(IC)卡。计算机300可以从便携式物理介质中读取每个计算机程序,并由CPU320来执行它。
根据所公开的装置,能够在达到与通过使用概率分布而提供的字符识别的识别能力相当的识别能力的同时减小字典的量。
这里表述的所有的示例及条件用语是出于教示的目的,以帮助读者理解本发明以及本发明人对推进技术做出贡献的概念,而不应将其解释为对这些具体地表述的示例及条件的限制,本说明书中对这些示例的组织也不涉及对本发明的优势及劣势的展示。尽管详细地描述了本发明的实施例,但是应当理解,可以在不背离本发明的精神及范围的情况下对其做出各种改变、替代及更改。
Claims (4)
1.一种字符字典创建装置,包括:
特征量计算单元,其基于用于创建模式识别字典的字符训练数据来计算作为识别项的、每个字符类别的字符特征量;
分布轮廓计算单元,其基于由所述特征量计算单元所计算出的、每个字符类别的所述字符特征量来计算每个字符类别的所述字符特征量的组的分布轮廓;
距离计算单元,其基于由所述分布轮廓计算单元所计算出的、每个字符类别的所述字符特征量的所述组的所述分布轮廓来计算各自的字符类别的所述分布轮廓之间的距离;
聚类对象确定单元,其基于由所述距离计算单元所计算出的、各自的字符类别的所述分布轮廓之间的所述距离来确定作为聚类对象的分布轮廓;
典型分布轮廓确定单元,其确定代表由所述聚类对象确定单元所确定的所述聚类对象的所述分布轮廓的典型分布轮廓;
聚类单元,其将被所述聚类对象确定单元确定为所述聚类对象的所述分布轮廓聚类;
关联单元,其将由所述典型分布轮廓确定单元所确定的所述典型分布轮廓与在所述聚类单元所进行的所述聚类之后作为元素被包含在所述典型分布轮廓中的字符类别相关联;以及
字典登记单元,其将被所述关联单元彼此关联起来的所述典型分布轮廓及所述字符类别登记在预定字典存储单元中。
2.根据权利请求1所述的字符字典创建装置,该字符字典创建装置还包括:
识别单元,其基于由所述分布轮廓计算单元所计算出的、每个字符类别的所述字符特征量的所述组的所述分布轮廓以及测试样本数据来进行识别;以及
组合提取单元,其从由所述识别单元所进行的所述识别的结果中提取彼此之间的识别错误率高于预定阈值的字符类别组合,其中,
所述聚类对象确定单元在将由所述组合提取单元所提取的所述字符类别组合去除的情况下,确定作为所述聚类对象的所述分布轮廓。
3.一种字符识别装置,包括:
第一字典存储单元,其在其中存储作为模式识别的识别项的、每个字符类别的平均字符特征量及分布号,所述平均字符特征量与所述分布号彼此关联;
第二字典存储单元,其将分别代表所述字符类别的所述平均字符特征量的组的至少一个分布轮廓的典型分布轮廓与相对应的分布号相关联地存储在其中;
特征量提取单元,其从作为识别对象的所输入的字符数据中提取字符特征量;
提取单元,其从所述第一字典存储单元中提取与作为距离计算对象的字符类别相对应的所述平均字符特征量及所述分布号,并从所述第二字典存储单元中提取与所述分布号中的每个分布号相对应的所述典型分布轮廓;
距离计算单元,其使用由所述提取单元所提取的、所述字符类别中的每个字符类别的所述典型分布轮廓来计算由所述特征量提取单元从所输入的字符数据中提取的所述字符特征量与所述字符类别中的每个字符类别的所述平均字符特征量之间的距离;以及
识别单元,其采用由所述距离计算单元所计算出的距离最短的字符类别作为识别结果。
4.一种字符识别方法,包括:
从作为识别对象的所输入的字符数据中提取字符特征量;
从第一字典存储单元中提取与作为距离计算对象的字符类别相对应的平均字符特征量及分布号,所述第一字典存储单元将作为模式识别的识别项的、每个字符类别的所述平均字符特征量及所述分布号彼此关联地存储在其中;
从第二字典存储单元中提取与所述分布号中的每个分布号相对应的典型分布轮廓,所述第二字典存储单元将分别代表所述字符类别的所述平均字符特征量的组的至少一个分布轮廓的所述典型分布轮廓与相对应的分布号相关联地存储在其中;
使用在提取所述典型分布轮廓时所提取的、所述字符类别中的每个字符类别的所述典型分布轮廓,来计算在提取所述字符特征量时从所输入的字符数据中提取的所述字符特征量与所述字符类别中的每个字符类别的所述平均字符特征量之间的距离;以及
采用在计算所述距离时所计算出的距离最短的字符类别作为识别结果。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008126405A JP5365065B2 (ja) | 2008-05-13 | 2008-05-13 | 辞書作成装置 |
JP2008126405 | 2008-05-13 | ||
JP2008-126405 | 2008-05-13 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101582118A CN101582118A (zh) | 2009-11-18 |
CN101582118B true CN101582118B (zh) | 2012-09-26 |
Family
ID=41316238
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2009101384192A Expired - Fee Related CN101582118B (zh) | 2008-05-13 | 2009-05-11 | 字符字典创建装置、字符识别装置及字符识别方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US8379983B2 (zh) |
JP (1) | JP5365065B2 (zh) |
CN (1) | CN101582118B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9361517B2 (en) * | 2009-07-01 | 2016-06-07 | Nec Corporation | System and method for extracting representative feature |
KR101782978B1 (ko) | 2010-11-12 | 2017-09-29 | 삼성전자주식회사 | 참조 데이터의 가용성에 기초하여 영상 데이터를 복호화하는 장치 및 방법 |
CN103559504B (zh) * | 2013-11-04 | 2016-08-31 | 北京京东尚科信息技术有限公司 | 图像目标类别识别方法及装置 |
CN111459395A (zh) * | 2020-03-30 | 2020-07-28 | 北京集创北方科技股份有限公司 | 手势识别方法、系统、存储介质、人机交互设备 |
CN111783126B (zh) * | 2020-07-21 | 2022-04-29 | 支付宝(杭州)信息技术有限公司 | 一种隐私数据识别方法、装置、设备和可读介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4308523A (en) * | 1980-02-04 | 1981-12-29 | Compuscan, Incorporated | Apparatus and method for character recognition |
US5142593A (en) * | 1986-06-16 | 1992-08-25 | Kabushiki Kaisha Toshiba | Apparatus and method for classifying feature data at a high speed |
CN1586079A (zh) * | 2001-11-13 | 2005-02-23 | 皇家飞利浦电子股份有限公司 | 使用基于项的聚类来为推荐感兴趣的项产生定型简表的方法和装置 |
CN101017572A (zh) * | 2006-02-09 | 2007-08-15 | 三菱电机株式会社 | 用于在帧序列中跟踪物体的计算机化的方法 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4658429A (en) * | 1983-12-29 | 1987-04-14 | Hitachi, Ltd. | System and method for preparing a recognition dictionary |
JPH04316183A (ja) * | 1991-04-16 | 1992-11-06 | Seiko Epson Corp | 文字認識装置 |
JPH0546812A (ja) | 1991-08-20 | 1993-02-26 | Ricoh Co Ltd | 文字の大分類認識方法 |
JPH08137997A (ja) * | 1994-11-09 | 1996-05-31 | Seiko Epson Corp | 文字認識方法および文字認識装置 |
US5715367A (en) * | 1995-01-23 | 1998-02-03 | Dragon Systems, Inc. | Apparatuses and methods for developing and using models for speech recognition |
US6345119B1 (en) * | 1996-02-19 | 2002-02-05 | Fujitsu Limited | Handwritten character recognition apparatus and method using a clustering algorithm |
JPH11203413A (ja) * | 1998-01-19 | 1999-07-30 | Fuji Xerox Co Ltd | 類似カテゴリ識別辞書作成装置および方法 |
JPH11345337A (ja) * | 1998-05-29 | 1999-12-14 | Ricoh Co Ltd | パターン辞書作成装置およびパターン辞書作成方法,並びにパターン辞書作成方法をコンピュータに記録した機械読み取り可能な記録媒体 |
JPH11345338A (ja) * | 1998-05-29 | 1999-12-14 | Ricoh Co Ltd | パターン辞書作成装置およびパターン辞書作成方法,並びにパターン辞書作成方法をコンピュータに記録した機械読み取り可能な記録媒体 |
CN1145872C (zh) * | 1999-01-13 | 2004-04-14 | 国际商业机器公司 | 手写汉字自动分割和识别方法以及使用该方法的系统 |
JP2002099723A (ja) * | 2000-09-21 | 2002-04-05 | Casio Comput Co Ltd | 割引利得の自動積立システム、自動積立方法、および記憶媒体 |
JP4316183B2 (ja) | 2002-03-29 | 2009-08-19 | 京セラキンセキ株式会社 | 単結晶の育成方法 |
WO2008073962A2 (en) * | 2006-12-12 | 2008-06-19 | Rutgers, The State University Of New Jersey | System and method for detecting and tracking features in images |
-
2008
- 2008-05-13 JP JP2008126405A patent/JP5365065B2/ja not_active Expired - Fee Related
-
2009
- 2009-04-24 US US12/385,970 patent/US8379983B2/en not_active Expired - Fee Related
- 2009-05-11 CN CN2009101384192A patent/CN101582118B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4308523A (en) * | 1980-02-04 | 1981-12-29 | Compuscan, Incorporated | Apparatus and method for character recognition |
US5142593A (en) * | 1986-06-16 | 1992-08-25 | Kabushiki Kaisha Toshiba | Apparatus and method for classifying feature data at a high speed |
CN1586079A (zh) * | 2001-11-13 | 2005-02-23 | 皇家飞利浦电子股份有限公司 | 使用基于项的聚类来为推荐感兴趣的项产生定型简表的方法和装置 |
CN101017572A (zh) * | 2006-02-09 | 2007-08-15 | 三菱电机株式会社 | 用于在帧序列中跟踪物体的计算机化的方法 |
EP1818870A2 (en) * | 2006-02-09 | 2007-08-15 | Mitsubishi Electric Corporation | Computerized method for tracking object in sequence of frames |
Also Published As
Publication number | Publication date |
---|---|
JP5365065B2 (ja) | 2013-12-11 |
CN101582118A (zh) | 2009-11-18 |
US8379983B2 (en) | 2013-02-19 |
JP2009276937A (ja) | 2009-11-26 |
US20090285490A1 (en) | 2009-11-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ye et al. | Text detection and recognition in imagery: A survey | |
CN107085585B (zh) | 用于图像搜索的准确的标签相关性预测 | |
US8422793B2 (en) | Pattern recognition apparatus | |
Yi et al. | Scene text recognition in mobile applications by character descriptor and structure configuration | |
Park et al. | Automatic detection and recognition of Korean text in outdoor signboard images | |
US20060050962A1 (en) | System, process and software arrangement for recognizing handwritten characters | |
US8208737B1 (en) | Methods and systems for identifying captions in media material | |
CN101133429A (zh) | 文档和/或图像检索方法及其程序、文档和/或图像存储设备和检索设备 | |
CN101582118B (zh) | 字符字典创建装置、字符识别装置及字符识别方法 | |
Elms et al. | The advantage of using an HMM-based approach for faxed word recognition | |
CN112861842A (zh) | 基于ocr的案件文本识别方法及电子设备 | |
Mandal et al. | Bag-of-visual-words for signature-based multi-script document retrieval | |
Sun et al. | Precise selection of candidates for handwritten character recognition using feature regions | |
Weinman | Typographical features for scene text recognition | |
Verma et al. | Script identification in natural scene images: a dataset and texture-feature based performance evaluation | |
JP3917349B2 (ja) | 文字認識結果を利用して情報を検索する検索装置および方法 | |
JP2004178569A (ja) | データ分類装置、物体認識装置、データ分類方法及び物体認識方法 | |
JPS5991582A (ja) | 文字読取装置 | |
Kumar et al. | Line based robust script identification for indianlanguages | |
Kacem et al. | A texture-based approach for word script and nature identification | |
CN114299509A (zh) | 一种获取信息的方法、装置、设备及介质 | |
CN113255674A (zh) | 字符识别方法、装置、电子设备及计算机可读存储介质 | |
CN115311649A (zh) | 一种卡证类别识别方法、装置、电子设备及存储介质 | |
Singh et al. | A Case Study on Handwritten Indic Script Classification: Benchmarking of the Results at Page, Block, Text-line, and Word Levels | |
Konstantakis et al. | A writer identification system of greek historical documents using matlab |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20120926 Termination date: 20180511 |