CN101789073B - 字符识别装置及其字符识别方法 - Google Patents

字符识别装置及其字符识别方法 Download PDF

Info

Publication number
CN101789073B
CN101789073B CN 200910006036 CN200910006036A CN101789073B CN 101789073 B CN101789073 B CN 101789073B CN 200910006036 CN200910006036 CN 200910006036 CN 200910006036 A CN200910006036 A CN 200910006036A CN 101789073 B CN101789073 B CN 101789073B
Authority
CN
China
Prior art keywords
candidate characters
phonetic notation
mark
character
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN 200910006036
Other languages
English (en)
Other versions
CN101789073A (zh
Inventor
孙俊
郑大念
于浩
直井聪
皆川明洋
堀田悦伸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CN 200910006036 priority Critical patent/CN101789073B/zh
Publication of CN101789073A publication Critical patent/CN101789073A/zh
Application granted granted Critical
Publication of CN101789073B publication Critical patent/CN101789073B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种字符识别装置及其字符识别方法。根据本发明的字符识别装置包括:字符识别单元,配置为用于识别字符图像并输出一个或者更多个候选字符和对应的识别置信度分数;注音搜索单元,配置为用于从字典中搜索每个候选字符的注音;注音校验单元,配置为用于通过将每个候选字符的注音与所述字符图像的注音图像相比较计算每个候选字符的类似度分数;一致性评估单元,配置为用于通过组合每个候选字符的识别置信度分数和对应的类似度分数评估每个候选字符的识别分数;以及输出单元,配置为用于根据每个候选字符的评估的识别分数输出识别结果。

Description

字符识别装置及其字符识别方法
技术领域
本发明涉及字符识别处理,更具体地说,本发明涉及一种字符识别装置及其字符识别方法,其能够更加准确地识别手写连笔字符及其相应的注音符号。
背景技术
在字符识别处理方面,手写字符尤其是手写中文字符的识别非常困难,这是因为中文的手写字符往往会出现连笔的情况。但是,在许多重要的中文表格例如信用卡申请表格中,对于一些重要的区域比如签名的区域,通常需要用户签署中文字符及其相应的中文拼音(下文中有时称作注音或注音符号),如图1所示。由于这两种类型的手写体针对同一内容,因此为将手写字符的识别和相应的注音符号的识别相结合,从而进一步提高手写字符的准确度提供了可能性。
日本专利申请特开平02-23490、特开平04-328692、特开平08-305802等公开了一种识别日本汉字和假名(与中文拼音类似的注音符号)的方法和装置。但是,由于日文尤其是假名的书写形式非常规范,很少会出现如图1所示的拼音连笔的情况。由此这些专利申请也根本没有考虑到如何识别手写连笔字符及其相应的注音符号的情形。
发明内容
鉴于上述情况,本发明提出一种字符识别装置及其字符识别方法,其能够更加准确地识别手写连笔字符及其相应的注音符号。
根据本发明的一个方面,提供一种字符识别装置,包括:字符识别单元,配置为用于识别字符图像并输出一个或者更多个候选字符;注音搜索单元,配置为用于从字典中搜索每个候选字符的注音;注音校验单元,配置为用于通过将每个候选字符的注音与所述字符图像的注音图像相比较来计算每个候选字符的类似度分数;以及输出单元,配置为用于根据每个候选字符的类似度分数输出识别结果。
根据本发明的一个实施例,所述注音校验单元包括:切分单元,配置为用于将所述字符图像的注音图像切分为一个或者更多个候选字母切分块;切分块识别单元,配置为用于对每个候选字母切分块进行单个字母识别并输出一个或者更多个识别候选字母和对应的置信度分数,以形成识别树;以及组合单元,配置为用于对每个候选字符的注音检测是否存在通过所述识别树的有效路径,以计算每个候选字符的类似度分数。
优选地,每个候选字符的类似度分数为所述有效路径中的每个候选字母的置信度分数的组合,以及如果不能在识别树中找到针对候选字符的有效路径,则将对应的类似度分数设置为0。
根据本发明的另一个实施例,所述注音校验单元包括:所述注音校验单元包括:归一化单元,配置为用于将字符图像的注音图像归一化;特征提取单元,配置为用于提取归一化的注音图像的特征;特征合成单元,配置为用于根据每个候选字符的注音中的各单个字母的特征的组合产生针对每个候选字符的合成的注音特征;以及匹配单元,配置为用于通过将所提取的归一化的注音图像的特征与每个候选字符的合成的注音特征相比较计算每个候选字符的类似度分数。
根据本发明的再一个实施例,所述字符识别单元还计算每个候选字符的识别置信度分数;所述字符识别装置还包括一致性评估单元,所述一致性评估单元用于通过组合每个候选字符的识别置信度分数和对应的类似度分数评估每个候选字符的识别分数;以及所述输出单元根据每个候选字符的评估的识别分数输出识别结果。
优选地,所述一致性评估单元通过计算每个候选字符的识别置信度分数与对应的类似度分数的平均值评估每个候选字符的识别分数。
根据本发明的另一个方面,提供一种字符识别装置,包括:字符识别单元,配置为用于识别字符图像并输出一个或者更多个候选字符和对应的识别置信度分数;注音搜索单元,配置为用于从字典中搜索每个候选字符的注音;注音校验单元,配置为用于通过将每个候选字符的注音与所述字符图像的注音图像相比较计算每个候选字符的类似度分数;一致性评估单元,配置为用于通过组合每个候选字符的识别置信度分数和对应的类似度分数评估每个候选字符的识别分数;以及输出单元,配置为用于根据每个候选字符的评估的识别分数输出识别结果。
根据本发明的再一个方面,提供一种字符识别方法,包括:识别字符图像以输出一个或者更多个候选字符;从字典中搜索每个候选字符的注音;通过将每个候选字符的注音与所述字符图像的注音图像相比较计算每个候选字符的类似度分数;以及根据每个候选字符的类似度分数输出识别结果。
根据本发明的一个实施例,计算每个候选字符的类似度分数包括:将所述字符图像的注音图像切分为一个或者更多个候选字母切分块;对每个候选字母切分块进行单个字母识别并输出一个或者更多个识别候选字母和对应的置信度分数,以形成识别树;以及对每个候选字符的注音检测是否存在通过所述识别树的有效路径,以计算每个候选字符的类似度分数。
优选地,每个候选字符的类似度分数为所述有效路径中的每个候选字母的置信度分数的组合,以及如果不能在识别树中找到针对候选字符的有效路径,则将对应的类似度分数设置为0。
根据本发明的另一个实施例,计算每个候选字符的类似度分数包括:归一化字符图像的注音图像;提取归一化的注音图像的特征;根据每个候选字符的注音中的各单个字母的特征的组合,产生针对每个候选字符的合成的注音特征;以及通过将所提取的归一化的注音图像的特征与每个候选字符的合成的注音特征相比较计算每个候选字符的类似度分数。
根据本发明的再一个实施例的字符识别方法,还包括:计算每个候选字符的识别置信度分数;通过组合每个候选字符的识别置信度分数和对应的类似度分数,评估每个候选字符的识别分数;以及根据每个候选字符的评估的识别分数输出识别结果。
优选地,评估每个候选字符的识别分数是通过计算每个候选字符的识别置信度分数与对应的类似度分数的平均值进行的。
根据本发明的又一个方面,提供一种字符识别方法,包括:识别字符图像以输出一个或者更多个候选字符和对应的识别置信度分数;从字典中搜索每个候选字符的注音;通过将每个候选字符的注音与所述字符图像的注音图像相比较计算每个候选字符的类似度分数;通过组合每个候选字符的识别置信度分数和对应的类似度分数评估每个候选字符的识别分数;以及根据每个候选字符的评估的识别分数输出识别结果。
另外,本发明还提供用于实现上述字符识别方法的计算机程序。
此外,本发明也提供至少计算机可读介质形式的计算机程序产品,其上记录有用于实现上述字符识别方法的计算机程序代码。
附图说明
参照下面结合附图对本发明实施例的说明,会更加容易地理解本发明的以上和其它目的、特点和优点。在附图中,相同的或对应的技术特征或部件将采用相同或对应的附图标记来表示。附图中:
图1示出手写连笔字符及其相应的注音符号的示例;
图2示出根据本发明第一实施例的字符识别装置的示例方块图;
图3示出根据本发明实施例的注音校验单元的第一示例方块图;
图4示出由本发明第一示例注音校验单元所得到的切分结果和识别结果;
图5示出根据本发明实施例的注音校验单元的第二示例方块图;
图6示出根据本发明第二实施例的字符识别装置的示例方块图;
图7示出根据本发明第三实施例的字符识别方法的示例流程图;
图8示出根据本发明实施例的注音校验处理过程的第一示例流程图;
图9示出根据本发明实施例的注音校验处理过程的第二示例流程图;
图10示出根据本发明第四实施例的字符识别方法的示例流程图;以及
图11示出用于实施根据本发明的字符识别方法的信息处理设备的结构方块图。
具体实施方式
下面参照附图来说明本发明的实施例。应当注意,为了清楚的目的,附图和说明中省略了与本发明无关的、本领域普通技术人员已知的部件和处理的表示和描述。
现在参考附图,特别是图2至图10,描述根据本发明实施例的字符识别装置识别例如图1所示的手写连笔字符及其相应的注音符号的一般工作原理、以及相应的字符识别方法的示例处理流程。
首先参照图2至图5说明根据本发明第一实施例的字符识别装置。如图2所示,根据本发明第一实施例的字符识别装置包括字符识别单元201、注音搜索单元203、注音校验单元205以及输出单元209。
字符识别单元201对输入的手写字符图像进行字符识别,并且输出一个或者更多个识别候选字符。输出多个识别候选字符的原因是,由于连笔可能会导致针对同一个手写字符图像而识别出多个不同的结果。如图2中所示,对于输入的手写字符“装”,可能会识别出“第”、“筋”、“筛”、“装”等多个结果,在此将这些识别结果称为识别候选字符。
注音搜索单元203针对字符识别单元201所识别出的多个候选字符,从字典中逐一搜索每一个候选字符的注音,例如搜索每一个候选字符的汉语拼音,并输出到注音校验单元205。如图2中所示,针对字符识别单元201所识别出的多个候选字符“第”、“筋”、“筛”、“装”,分别从字典中查出其相应的汉语拼音“di”、“jin”、“shai”、“zhuang”。
然后,注音校验单元205将注音搜索单元203输出的每一个候选字符的汉语拼音与字符识别单元201所识别的手写字符图像的相应注音图像进行比较,从而给出每一个候选字符的类似度分数。如图2中所示,将注音搜索单元203所输出的各个候选字符“第”、“筋”、“筛”、“装”的相应汉语拼音“di”、“jin”、“shai”、“zhuang”与字符识别单元201所识别的手写字符图像的相应注音图像“zhuang”进行比较,并一一给出0~1之间的类似度分数。如图2中所示,针对各个汉语拼音“di”、“jin”、“shai”、“zhuang”,分别给出“0.0”、“0.0”、“0.0”、“0.9”的类似度分数。关于注音校验单元205所进行的类似度分数计算,下文中将给出更进一步的详细描述。
最后,输出单元209根据注音校验单元205所给出的每一个候选字符的类似度分数,输出最终的识别结果。如图2中所示,由于汉语拼音“zhuang”的类似度分数为最高的“0.9”,而其他的汉语拼音的类似度分数均为“0.0”,因此可以得出最终的识别结果应当为“zhuang”所对应的汉字字符“装”。
根据本发明不同的具体应用场景,注音校验单元205所进行的类似度分数计算可以以多种方式实现,下面给出两种简单实例。
图3示出根据本发明实施例的注音校验单元205的第一示例方块图,图4示出由本发明的第一示例注音校验单元205所得到的切分结果和识别结果的示意图。
如图3所示,根据该实施例的注音校验单元205包括切分单元301、切分块识别单元303、以及组合单元305。
切分单元301对字符识别单元201所识别的手写字符图像的相应注音图像进行处理,输出一系列候选切分点,如图4的上部所示的此外,切分单元301还根据所检测到的切分点和单个字母的最大宽度,将注音图像切分为一个或者更多个候选字母切分块,如图4的中间部分和下部中的字母或字母线段所示的
Figure G200910006036XD00062
接着,切分块识别单元303对每一个候选字母切分块进行单个字母识别,输出一个或者更多个识别候选字母并给出对应的置信度分数,从而形成识别树。
例如,就图4中所示的实例来说,对于候选字母切分块
Figure G200910006036XD00064
给出了两个识别结果“n”和“r”,并分别给出了“0.19”和“0.05”的置信度分数;对于候选字母切分块
Figure G200910006036XD00065
给出了两个识别结果“c”和“u”,并分别给出了“0.32”和“0.04”的置信度分数;对于候选字母切分块
Figure G200910006036XD00066
给出了两个识别结果“I”和“p”,并分别给出了“0.45”和“0.12”的置信度分数;对于候选字母切分块
Figure G200910006036XD00067
给出了两个识别结果“u”和“c”,并分别给出了“0.28”和“0.18”的置信度分数;对于候选字母切分块给出了两个识别结果“u”和“c”,并分别给出了“0.45”和“0.12”的置信度分数;而对于候选字母切分块“し”给出了两个识别结果“I”和“c”,并分别给出了“0.57”和“0.32”的置信度分数。至此,形成了针对这几个候选字母切分块
Figure G200910006036XD00069
Figure G200910006036XD000610
的识别树的第一层。
但是可以看出,这几个候选字母切分块
Figure G200910006036XD000611
Figure G200910006036XD000612
Figure G200910006036XD000613
的识别结果并不理想,而且将他们与其前后相邻的候选字母切分块合可能不会超出一个字母的最大宽度,因此对其进行合并并进一步进行识别。例如,将候选字母切分块
Figure G200910006036XD000614
Figure G200910006036XD000615
合并,得到候选字母切分块
Figure G200910006036XD000616
并再次进行识别,给出两个识别结果“z”和“e”和相应的“0.85”和“0.08”的置信度分数;将候选字母切分块
Figure G200910006036XD000617
Figure G200910006036XD000618
合并,得到候选字母切分块
Figure G200910006036XD000619
并再次进行识别,给出两个识别结果“h”和“I”和相应的“0.90”和“0.06”的置信度分数;以及将候选字母切分块
Figure G200910006036XD000620
Figure G200910006036XD000621
合并,得到候选字母切分块
Figure G200910006036XD000622
并再次进行识别,给出两个识别结果“u”和“n”和相应的“0.82”和“0.21”的置信度分数。由此,形成了识别树的第二层。
另外,对于识别树第一层中的候选字母切分块
Figure G200910006036XD00071
给出了两个识别结果“a”和“u”,并分别给出了“0.64”和“0.36”的置信度分数;对于候选字母切分块
Figure G200910006036XD00072
给出了两个识别结果“u”和“n”,并分别给出了“0.56”和“0.45”的置信度分数;而对于候选字母切分块
Figure G200910006036XD00073
给出了两个识别结果“g”和“j”,并分别给出了“0.92”和“0.18”的置信度分数。可以看出,就这几个候选字母切分块
Figure G200910006036XD00074
Figure G200910006036XD00075
而言,均识别出了具有相对较高的置信度分数的结果,而且如果将其与前后相邻的候选字母切分块合并,宽度将大大超过一个字母的最大宽度,也难以再进行识别,因此针对这几个候选字母切分块的识别到此结束,不再进行下一层的合并和识别。
由此,形成了满足条件的完整的识别树。当然,识别树不仅限于针对本实例所示出的两层,而是根据需要可以进一步合并和识别,直至形成满足条件的识别树为止。另外,也有可能切分单元301所切分出的切分块非常好,使得识别树仅包括一层就能达到理想的识别效果。
最后,组合单元305针对注音搜索单元203输出的每一个候选字符的拼音,检测在切分块识别单元303所构建的识别树中是否存在通过该识别树的有效路径,从而计算每一个候选字符的类似度分数。
对于每一个候选字符的类似度分数,如果存在通过识别树的有效路径,则可以将其计算为该有效路径中的每一个候选字母的置信度分数的组合。另一方面,如果不能在识别树中找到针对候选字符的有效路径,则将与该候选字符相对应的类似度分数设置为0。
接下来将结合图5描述根据本发明实施例的注音校验单元205的第二示例。如图5所示,根据该第二示例的注音校验单元205包括归一化单元501、特征提取单元503、匹配单元505、注音特征字典507、以及特征合成单元509。
归一化单元501对与字符识别单元201所识别的字符图像相对应的输入注音图像进行归一化,特征提取单元503提取归一化单元501归一化后的注音图像的特征。
另一方面,特征合成单元509根据存储于注音特征字典507中的注音特征,对注音搜索单元203输出的每一个候选字符的注音中的各单个字母的特征进行组合,由此产生针对每一个候选字符的合成的注音特征。
然后,匹配单元505将特征提取单元503所提取的归一化的注音图像的特征与特征合成单元509所合成的每一个候选字符的注音特征相比较,从而为每一个候选字符的计算类似度分数。
以上描述了根据本发明第一实施例的字符识别装置。根据该实施例的字符识别装置,通过将要识别的输入字符图像与相应的注音图像联合起来进行识别,能够有效提高手写字符的识别准确度。
下面将结合图6描述根据本发明第二实施例的字符识别装置。如图6所示,根据本发明第二实施例的字符识别装置包括字符识别单元601、注音搜索单元603、注音校验单元605、一致性评估单元607、以及输出单元609。
与图2所示的第一实施例的字符识别装置中的字符识别单元201不同,根据该实施例的字符识别装置中的字符识别单元601不仅识别字符图像并输出一个或者更多个候选字符,而且还针对输出的一个或者更多个候选字符给出对应的识别置信度分数。如图6中所示,对于输入的手写字符“装”,不仅给出了可能的多个识别结果如“第”、“筋”、“筛”、“装”等识别候选字符,而且还分别给出了“0.8”、“0.7”、“0.6”、“0.5”等识别置信度分数。
注音搜索单元603针对字符识别单元601所识别出的多个候选字符,从字典中逐一搜索每一个候选字符的注音,例如搜索每一个候选字符的汉语拼音,并输出到注音校验单元605。如图6中所示,针对字符识别单元601所识别出的多个候选字符“第”、“筋”、“筛”、“装”,分别从字典中查出其相应的汉语拼音“di”、“jin”、“shai”、“zhuang”。
然后,注音校验单元605将注音搜索单元603输出的每一个候选字符的汉语拼音与字符识别单元601所识别的手写字符图像的相应注音图像进行比较,从而给出每一个候选字符的类似度分数。如图6中所示,将注音搜索单元203所输出的各个候选字符“第”、“筋”、“筛”、“装”的相应汉语拼音“di”、“jin”、“shai”、“zhuang”与字符识别单元201所识别的手写字符图像的相应注音图像“zhuang”进行比较,并一一给出01之间的类似度分数。如图6中所示,针对各个汉语拼音“di”、“jin”、“shai”、“zhuang”,分别给出“0.0”、“0.0”、“0.0”、“0.9”的类似度分数。
注音搜索单元603和注音校验单元605的结构与工作原理分别与图2所示的字符识别装置中的搜索单元203和注音校验单元205类似。其中,注音校验单元605也可以按照为图3和图5所示的两种具体实施方式进行类似度分数的计算,在此不再对其进行详细描述。
字符识别单元601将识别出的候选字符和相应的识别置信度分数输入到一致性评估单元607,注音校验单元605也将与各个候选字符相对应的注音符号及其类似度分数输入到一致性评估单元607。一致性评估单元607则组合每个候选字符的识别置信度分数和对应的类似度分数,从而评估每个候选字符的最终识别分数。
对于每个候选字符的最终识别分数,一致性评估单元607可以通过计算每个候选字符的识别置信度分数与对应的类似度分数的平均值来进行评估。例如,如图6所示,将候选字符“第”、“筋”、“筛”、“装”的识别置信度分数“0.8”、“0.7”、“0.6”、“0.5”分别与相应的汉语拼音“di”、“jin”、“shai”、“zhuang”的类似度分数“0.0”、“0.0”、“0.0”、“0.9”相加,然后取平均,最后得出每个候选字符“第”、“筋”、“筛”、“装”的最终识别分数“0.40”、“0.35”、“0.30”、“0.70”。
应该指出的是,一致性评估单元607对每个候选字符的识别置信度分数和对应的类似度分数的组合不一定必须采用取平均值的方式,而是可以采用各种算法。例如,可以根据字符识别单元601和注音校验单元605的识别精度而对它们各自的输出结果给予不同的权重,然后进行加权平均,从而得出最终的识别分数。
最后,输出单元609根据每个候选字符的评估的识别分数输出识别结果。如图6中所示,由于候选字符“装”的识别分数“0.70”最高,因此将其作为字符识别的最终结果输出。
以上描述了根据本发明第二实施例的字符识别装置,由于增加了一致性评估单元用于对字符识别单元输出的候选字符的识别置信度分数和注音校验单元输出的与候选字符相对应的注音符号的类似度分数进行组合和评估,从而能够更为准确地给出识别结果。
下面将结合附图7至附图10描述根据本发明实施例的由上述字符识别装置执行的字符识别方法。
图7示出根据本发明第三实施例的字符识别方法的示例流程图。如图7所示,首先在步骤S71进行字符识别,对字符图像进行识别以输出一个或者更多个候选字符。然后在步骤S73进行注音搜索,从字典中搜索在步骤S71中识别出的每一个候选字符的注音。接着在步骤S75进行注音校验,通过将在步骤S73中搜索得到的每一个候选字符的注音与所述字符图像的注音图像相比较,计算每个候选字符的类似度分数。最后,在步骤S77输出识别结果,根据在步骤S75中得到的每一个候选字符的类似度分数,输出最终的识别结果,比如将具有最高类似度分数的候选字符作为最终识别结果输出。
上述各个步骤S71、S73、S75和S77中执行的步骤分别与结合图2描述的字符识别单元201、注音搜索单元203、注音校验单元205和输出单元209中进行的处理类似,因此在这里省略其详细描述。
与根据图3描述的注音校验单元205的第一示例类似,在注音校验步骤S75中也可以执行类似的处理。图8示出了根据本发明实施例的注音校验处理过程的第一示例流程图。
如图8所示,根据本发明的一个实施例,计算每个候选字符的类似度分数的处理可以包括切分步骤S81、切分块识别步骤S83和组合输出步骤S85。
在切分步骤S81中,将字符图像的注音图像切分为一个或者更多个候选字母切分块。然后在切分块识别步骤S83中,对每个候选字母切分块进行单个字母识别并输出一个或者更多个识别候选字母和对应的置信度分数,以形成识别树。最后,在组合输出步骤S85中,对每个候选字符的注音检测是否存在通过所述识别树的有效路径,以计算每个候选字符的类似度分数。每个候选字符的类似度分数可以为所述有效路径中的每个候选字母的置信度分数的组合,如果不能在识别树中找到针对候选字符的有效路径,则将对应的类似度分数设置为0。
在切分步骤S81、切分块识别步骤S83和组合输出步骤S85中所执行的处理分别与参照图3和图4描述的切分单元301、切分块识别单元303和组合单元305中进行的处理类似,因此在此略去其详细描述。
另外,与根据图5描述的注音校验单元205的第二示例类似,图9示出了根据本发明实施例的注音校验处理过程的第二示例流程图。
如图9所示,在根据本发明的另一个实施例的注音校验处理中,首先在步骤S91中归一化输入的字符图像的注音图像,并且在步骤S93中提取归一化的注音图像的特征。
另一方面,在步骤S95中根据每个候选字符的注音中的各单个字母的特征的组合,产生针对每个候选字符的合成的注音特征。
之后,在步骤S97中,通过将所提取的归一化的注音图像的特征与每个候选字符的合成的注音特征相比较,由此计算得出每一个候选字符的类似度分数。
同样,上述各个步骤S91、S93、S95和S97中执行的步骤分别与参照图5描述的归一化单元501、特征提取单元503、特征合成单元509和匹配单元505中进行的处理类似,因此在这里省略其详细描述。
与根据本发明第一实施例的字符识别装置一样,根据本发明第三实施例的字符识别方法,通过将要识别的输入字符图像与相应的注音图像联合起来进行识别,从而能够有效提高手写字符的识别准确度。
接下来将结合图10描述根据本发明第四实施例的字符识别方法。如图10所示,首先在步骤S1010中进行字符识别,对字符图像进行识别以输出一个或者更多个候选字符和对应的识别置信度分数。然后在步骤S1030中执行注音搜索,从字典中搜索在步骤S1010中识别出的每个候选字符的注音。接着在步骤S1050中进行注音校验,通过将与步骤S1030中检索出的每个候选字符的注音与在步骤S1010中识别的字符图像的注音图像相比较,计算每个候选字符的类似度分数。
之后,在步骤S1070中进行一致性评估,通过组合在步骤S1010输出的每个候选字符的识别置信度分数和在步骤S1050输出的每一个候选字符的类似度分数,评估每个候选字符的识别分数。评估每个候选字符的识别分数可以通过计算每个候选字符的识别置信度分数与对应的类似度分数的平均值进行的。当然,评估方法不仅限于取平均值,而是可以采用各种算法。例如,至少可以通过对识别置信度分数与类似度分数进行加权平均来估计每个候选字符的识别分数。
最后,在步骤S1090输出识别结果,根据在步骤S1070得到的每个候选字符的评估的识别分数,将具有最高识别分数的候选字符作为最终识别结果输出。
上述各个步骤S1010、S1030、S1050、S1070和S1090中执行的步骤分别与结合图6描述的字符识别单元601、注音搜索单元603、注音校验单元605、一致性评估单元607和输出单元609中进行的处理类似,因此在这里省略其详细描述。
以上描述了根据本发明第四实施例的字符识别方法,与根据本发明第二实施例的字符识别装置类似,由于增加了一致性评估步骤用于对字符识别步骤输出的候选字符的识别置信度分数和注音校验步骤输出的与候选字符相对应的注音符号的类似度分数进行组合和评估,从而能够更为准确地给出识别结果。
从以上描述中可以看出,根据本发明的字符识别装置及其字符识别方法,能够有效地解决手写字符及其注音符号出现连笔的情况,从而提高了字符识别的准确度。
以上结合具体实施例描述了本发明的基本原理,但是,需要指出的是,对本领域的普通技术人员而言,能够理解本发明的方法和装置的全部或者任何步骤或者部件,可以在任何计算装置(包括处理器、存储介质等)或者计算装置的网络中,以硬件、固件、软件或者它们的组合加以实现,这是本领域普通技术人员在阅读了本发明的说明的情况下运用他们的基本编程技能就能实现的。
因此,本发明的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。所述计算装置可以是公知的通用装置。因此,本发明的目的也可以仅仅通过提供包含实现所述方法或者装置的程序代码的程序产品来实现。也就是说,这样的程序产品也构成本发明,并且存储有这样的程序产品的存储介质也构成本发明。显然,所述存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质。
在通过软件和/或固件实现本发明的实施例的情况下,从存储介质或网络向具有专用硬件结构的计算机,例如图11所示的通用个人计算机700安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等等。
在图11中,中央处理单元(CPU)701根据只读存储器(ROM)702中存储的程序或从存储部分708加载到随机存取存储器(RAM)703的程序执行各种处理。在RAM 703中,也根据需要存储当CPU 701执行各种处理等等时所需的数据。
CPU 701、ROM 702和RAM 703经由总线704彼此连接。输入/输出接口705也连接到总线704。
下述部件连接到输入/输出接口705:输入部分706,包括键盘、鼠标等等;输出部分707,包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等等,和扬声器等等;存储部分708,包括硬盘等等;和通信部分709,包括网络接口卡比如LAN卡、调制解调器等等。通信部分709经由网络比如因特网执行通信处理。
根据需要,驱动器710也连接到输入/输出接口705。可拆卸介质711比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器710上,使得从中读出的计算机程序根据需要被安装到存储部分708中。
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质711安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图11所示的其中存储有程序、与装置相分离地分发以向用户提供程序的可拆卸介质711。可拆卸介质711的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 702、存储部分708中包含的硬盘等等,其中存有程序,并且与包含它们的装置一起被分发给用户。
还需要指出的是,在本发明的装置和方法中,显然,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。并且,执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行,但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。
虽然已经详细说明了本发明及其优点,但是应当理解在不脱离由所附的权利要求所限定的本发明的精神和范围的情况下可以进行各种改变、替代和变换。而且,本申请的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括所述要素的过程、方法、物品或者装置中还存在另外的相同要素。

Claims (22)

1.一种字符识别装置,包括:
输入单元,用于输入字符图像和与该字符图像相应的注音图像;
字符识别单元,配置为用于识别字符图像并输出一个或者更多个候选字符;
注音搜索单元,配置为用于从字典中搜索每个候选字符的注音;
注音校验单元,配置为用于通过将每个候选字符的注音与所述字符图像的注音图像相比较来计算每个候选字符的类似度分数;以及
输出单元,配置为用于根据每个候选字符的类似度分数输出识别结果。
2.根据权利要求1所述的字符识别装置,其中所述注音校验单元包括:
切分单元,配置为用于将所述字符图像的注音图像切分为一个或者更多个候选字母切分块;
切分块识别单元,配置为用于对每个候选字母切分块进行单个字母识别并输出一个或者更多个识别候选字母和对应的置信度分数,以形成识别树;以及
组合单元,配置为用于对每个候选字符的注音检测是否存在通过所述识别树的有效路径,以计算每个候选字符的类似度分数。
3.根据权利要求2所述的字符识别装置,其中每个候选字符的类似度分数为所述有效路径中的每个候选字母的置信度分数的组合,以及如果不能在识别树中找到针对候选字符的有效路径,则将对应的类似度分数设置为0。
4.根据权利要求1所述的字符识别装置,其中所述注音校验单元包括:
归一化单元,配置为用于将字符图像的注音图像归一化;
特征提取单元,配置为用于提取归一化的注音图像的特征;
特征合成单元,配置为用于根据每个候选字符的注音中的各单个字母的特征的组合产生针对每个候选字符的合成的注音特征;以及
匹配单元,配置为用于通过将所提取的归一化的注音图像的特征与每个候选字符的合成的注音特征相比较计算每个候选字符的类似度分数。
5.根据权利要求1至4之任意一项所述的字符识别装置,其中
所述字符识别单元还计算每个候选字符的识别置信度分数;
所述字符识别装置还包括一致性评估单元,所述一致性评估单元用于通过组合每个候选字符的识别置信度分数和对应的类似度分数评估每个候选字符的识别分数;以及
所述输出单元根据每个候选字符的评估的识别分数输出识别结果。
6.根据权利要求5所述的字符识别装置,其中所述一致性评估单元通过计算每个候选字符的识别置信度分数与对应的类似度分数的平均值评估每个候选字符的识别分数。
7.一种字符识别装置,包括:
输入单元,用于输入字符图像和与该字符图像相应的注音图像;
字符识别单元,配置为用于识别字符图像并输出一个或者更多个候选字符和对应于每个候选字符的识别置信度分数;
注音搜索单元,配置为用于从字典中搜索每个候选字符的注音;
注音校验单元,配置为用于通过将每个候选字符的注音与所述字符图像的注音图像相比较计算每个候选字符的类似度分数;
一致性评估单元,配置为用于通过组合每个候选字符的识别置信度分数和对应的类似度分数评估每个候选字符的识别分数;以及
输出单元,配置为用于根据每个候选字符的评估的识别分数输出识别结果。
8.根据权利要求7所述的字符识别装置,其中所述一致性评估单元通过计算每个候选字符的识别置信度分数与对应的类似度分数的平均值评估每个候选字符的识别分数。
9.根据权利要求7或者8所述的字符识别装置,其中所述注音校验单元包括:
切分单元,配置为用于将所述字符图像的注音图像切分为一个或者更多个候选字母切分块;
切分块识别单元,配置为用于对每个候选字母切分块进行单个字母识别并输出一个或者更多个识别候选字母和对应的置信度分数,以形成识别树;以及
组合单元,配置为用于对每个候选字符的注音检测是否存在通过所述识别树的有效路径,以计算每个候选字符的类似度分数。
10.根据权利要求9所述的字符识别装置,其中每个候选字符的类似度分数为所述有效路径中的每个候选字母的置信度分数的组合,以及如果不能在识别树中找到针对候选字符的有效路径,则将对应的类似度分数设置为0。
11.根据权利要求7或者8所述的字符识别装置,其中所述注音校验单元包括:
归一化单元,配置为用于将字符图像的注音图像归一化;
特征提取单元,配置为用于提取归一化的注音图像的特征;
特征合成单元,配置为用于根据每个候选字符的注音中的各单个字母的特征的组合产生针对每个候选字符的合成的注音特征;以及
匹配单元,配置为用于通过将所提取的归一化的注音图像的特征与每个候选字符的合成的注音特征相比较计算每个候选字符的类似度分数。
12.一种字符识别方法,包括:
输入字符图像和与该字符图像相应的注音图像;
识别字符图像以输出一个或者更多个候选字符;
从字典中搜索每个候选字符的注音;
通过将每个候选字符的注音与所述字符图像的注音图像相比较计算每个候选字符的类似度分数;以及
根据每个候选字符的类似度分数输出识别结果。
13.根据权利要求12所述的字符识别方法,其中计算每个候选字符的类似度分数包括:
将所述字符图像的注音图像切分为一个或者更多个候选字母切分块;
对每个候选字母切分块进行单个字母识别并输出一个或者更多个识别候选字母和对应的置信度分数,以形成识别树;以及
对每个候选字符的注音检测是否存在通过所述识别树的有效路径,以计算每个候选字符的类似度分数。
14.根据权利要求13所述的字符识别方法,其中每个候选字符的类似度分数为所述有效路径中的每个候选字母的置信度分数的组合,以及如果不能在识别树中找到针对候选字符的有效路径,则将对应的类似度分数设置为0。
15.根据权利要求12所述的字符识别方法,其中计算每个候选字符的类似度分数包括:
归一化字符图像的注音图像;
提取归一化的注音图像的特征;
根据每个候选字符的注音中的各单个字母的特征的组合,产生针对每个候选字符的合成的注音特征;以及
通过将所提取的归一化的注音图像的特征与每个候选字符的合成的注音特征相比较计算每个候选字符的类似度分数。
16.根据权利要求12至15之任意一项所述的字符识别方法,还包括:
计算每个候选字符的识别置信度分数;
通过组合每个候选字符的识别置信度分数和对应的类似度分数,评估每个候选字符的识别分数;以及
根据每个候选字符的评估的识别分数输出识别结果。
17.根据权利要求16所述的字符识别方法,其中评估每个候选字符的识别分数是通过计算每个候选字符的识别置信度分数与对应的类似度分数的平均值进行的。
18.一种字符识别方法,包括:
输入字符图像和与该字符图像相应的注音图像;
识别字符图像以输出一个或者更多个候选字符和对应于每个候选字符的识别置信度分数;
从字典中搜索每个候选字符的注音;
通过将每个候选字符的注音与所述字符图像的注音图像相比较计算每个候选字符的类似度分数;
通过组合每个候选字符的识别置信度分数和对应的类似度分数评估每个候选字符的识别分数;以及
根据每个候选字符的评估的识别分数输出识别结果。
19.根据权利要求16所述的字符识别方法,其中评估每个候选字符的识别分数是通过计算每个候选字符的识别置信度分数与对应的类似度分数的平均值进行的。
20.根据权利要求18或19所述的字符识别方法,其中计算每个候选字符的类似度分数包括:
将所述字符图像的注音图像切分为一个或者更多个候选字母切分块;
对每个候选字母切分块进行单个字母识别并输出一个或者更多个识别候选字母和对应的置信度分数,以形成识别树;以及
对每个候选字符的注音检测是否存在通过所述识别树的有效路径,以计算每个候选字符的类似度分数。
21.根据权利要求20所述的字符识别方法,其中每个候选字符的类似度分数为所述有效路径中的每个候选字母的置信度分数的组合,以及如果不能在识别树中找到针对候选字符的有效路径,则将对应的类似度分数设置为0。
22.根据权利要求18或19所述的字符识别方法,其中计算每个候选字符的类似度分数包括:
归一化字符图像的注音图像;
提取归一化的注音图像的特征;
根据每个候选字符的注音中的各单个字母的特征的组合,产生针对每个候选字符的合成的注音特征;以及
通过将所提取的归一化的注音图像的特征与每个候选字符的合成的注音特征相比较计算每个候选字符的类似度分数。
CN 200910006036 2009-01-22 2009-01-22 字符识别装置及其字符识别方法 Expired - Fee Related CN101789073B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200910006036 CN101789073B (zh) 2009-01-22 2009-01-22 字符识别装置及其字符识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200910006036 CN101789073B (zh) 2009-01-22 2009-01-22 字符识别装置及其字符识别方法

Publications (2)

Publication Number Publication Date
CN101789073A CN101789073A (zh) 2010-07-28
CN101789073B true CN101789073B (zh) 2013-06-26

Family

ID=42532279

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200910006036 Expired - Fee Related CN101789073B (zh) 2009-01-22 2009-01-22 字符识别装置及其字符识别方法

Country Status (1)

Country Link
CN (1) CN101789073B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101819625B (zh) * 2009-02-27 2014-11-12 富士通株式会社 识别设备和识别方法
KR20140111341A (ko) * 2012-01-09 2014-09-18 퀄컴 인코포레이티드 Ocr 캐시 업데이트
CN103559515A (zh) * 2013-10-24 2014-02-05 江苏玖宇实业有限公司 智能改卷笔
CN108960233A (zh) * 2018-06-13 2018-12-07 北京小米移动软件有限公司 识别身份证有效期的方法及装置
CN111325177B (zh) * 2020-03-04 2023-05-12 南京红松信息技术有限公司 基于权重自定义的目标检测分式识别方法
CN113052179A (zh) * 2021-03-09 2021-06-29 安徽淘云科技股份有限公司 多音字处理方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1471078A (zh) * 2002-07-03 2004-01-28 日本先锋公司 字识别设备、字识别方法和字识别程序
CN101082836A (zh) * 2007-06-29 2007-12-05 华中科技大学 一种整合语音输入和手写输入功能的汉字输入系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1471078A (zh) * 2002-07-03 2004-01-28 日本先锋公司 字识别设备、字识别方法和字识别程序
CN101082836A (zh) * 2007-06-29 2007-12-05 华中科技大学 一种整合语音输入和手写输入功能的汉字输入系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JP特开2004-178297A 2004.06.24

Also Published As

Publication number Publication date
CN101789073A (zh) 2010-07-28

Similar Documents

Publication Publication Date Title
US11514698B2 (en) Intelligent extraction of information from a document
TWI321294B (en) Method and device for determining at least one recognition candidate for a handwritten pattern
JP2750057B2 (ja) 自動手書き文字認識に対する統計的混合手法
US10963685B2 (en) Generating variations of a known shred
CN101789073B (zh) 字符识别装置及其字符识别方法
US20220012231A1 (en) Automatic content-based append detection
JP2001325564A (ja) 部首モデルに基づく草書体漢字の手書き注釈の検索
CN112380349A (zh) 商品性别分类方法、装置及电子设备
WO2021072876A1 (zh) 证件图像分类方法、装置、计算机设备及可读存储介质
CN110059156A (zh) 基于关联词的协同检索方法、装置、设备及可读存储介质
EP4150480A1 (en) Descriptive insight generation and presentation system
Roy et al. Word retrieval in historical document using character-primitives
Ghiasi et al. An efficient method for offline text independent writer identification
CN112270204A (zh) 目标识别方法及装置、存储介质及电子设备
Nicolaou et al. Local binary patterns for arabic optical font recognition
Kumar et al. A novel framework for writer identification based on pre-segmented Gurmukhi characters
WO2013145249A1 (ja) 生体認証装置、生体認証方法、および生体認証プログラム
Shayegan et al. A new dataset size reduction approach for PCA-based classification in OCR application
KR102152260B1 (ko) 키-밸류 관계인식장치 및 키-밸류 관계인식방법
Zimmermann et al. Lexicon reduction using key characters in cursive handwritten words
Tehsin et al. A caption text detection method from images/videos for efficient indexing and retrieval of multimedia data
US9454706B1 (en) Arabic like online alphanumeric character recognition system and method using automatic fuzzy modeling
CN112766139A (zh) 目标识别方法及装置、存储介质及电子设备
Bennour Clonal selection classification algorithm applied to arabic writer identification
Ning et al. Scene text detection based on component-level fusion and region-level verification

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130626

Termination date: 20190122

CF01 Termination of patent right due to non-payment of annual fee