CN101819625B - 识别设备和识别方法 - Google Patents

识别设备和识别方法 Download PDF

Info

Publication number
CN101819625B
CN101819625B CN200910004694.5A CN200910004694A CN101819625B CN 101819625 B CN101819625 B CN 101819625B CN 200910004694 A CN200910004694 A CN 200910004694A CN 101819625 B CN101819625 B CN 101819625B
Authority
CN
China
Prior art keywords
phonetic notation
candidate
image
similarity
phonetic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN200910004694.5A
Other languages
English (en)
Other versions
CN101819625A (zh
Inventor
孙俊
郑大念
于浩
直井聪
皆川明洋
堀田悦伸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CN200910004694.5A priority Critical patent/CN101819625B/zh
Publication of CN101819625A publication Critical patent/CN101819625A/zh
Application granted granted Critical
Publication of CN101819625B publication Critical patent/CN101819625B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

本发明公开了一种识别设备和识别方法。该识别设备包括第一识别装置,被配置为对第一图像进行识别,以得到第一图像识别结果;第二识别结果预选装置,被配置为根据第一图像识别结果确定候选第二图像识别结果;和第二识别装置,被配置为基于候选第二图像识别结果对第二图像进行识别,以得到第二图像识别结果,其中,第一图像与第二图像具有对应关系。可选地,第二图像是字符图像,第一图像是该字符图像对应的注音图像。本发明可以提高识别的准确度。

Description

识别设备和识别方法
技术领域
本发明涉及识别处理,更具体地说,本发明涉及一种识别设备和识别方法,其能够更加准确地进行识别处理。 
背景技术
在识别图像时,尤其是识别例如手写汉字图像时,因为手写的汉字往往会出现连笔的情况,识别非常困难。因此有必要提高识别的准确度。 
发明内容
鉴于上述情况,本发明提出一种识别设备及其识别方法,其能够更加准确地进行识别处理。 
根据本发明的一个方面,提供一种识别设备,该识别设备包括:第一识别装置,被配置为对第一图像进行识别,以得到第一图像识别结果;第二识别结果预选装置,被配置为根据所述第一图像识别结果确定一个或多个候选第二图像,作为第二图像识别范围;和第二识别装置,被配置为通过计算候选第二图像中的图像相对于第二图像的相似度,来基于第二图像识别范围对第二图像进行识别,以得到第二图像识别结果。上述第一图像与所述第二图像具有对应关系。 
可选地,第二图像是字符图像,第一图像是该字符图像对应的注音图像,并且注音图像包括一个或多个注音元素图像,第一识别装置被配置为对注音图像进行识别以得到一个或多个候选注音,第二识别结果预选装置被配置为基于候选注音确定一个或多个候选字符,作为所述一个或多个候选第二图像,并且第二识别装置被配置为基于候选字符对字符图像进行识别。 
可选地,上述第一识别装置包括:注音元素识别单元,被配置为基于注音元素集对注音图像中的每个注音元素图像进行识别,以得到针对每个注音元素图像的一个或多个候选注音元素;注音元素组合单元,被配置为针对每个注音元素图像选取任一个候选注音元素进行组合以得到一个或多个注音元素组合;和候选注音确定单元,被配置为从注音元素组合中选择合法的注 音作为候选注音。 
可选地,注音元素识别单元被配置为计算注音元素集中的每个注音元素相对于注音元素图像的相似度,并从注音元素集中选取所有的相似度高于或等于预定阈值的注音元素作为候选注音元素,或者从注音元素集中选取预定数目的注音元素作为候选注音元素,该预定数目的注音元素的相似度高于或等于注音元素集中的其他注音元素的相似度。 
可选地,注音元素识别单元还被配置为根据注音元素图像在注音图像中的位置而在识别该注音元素图像时从注音元素集中去除不合法的注音元素。 
可选地,候选注音确定单元还被配置为将合法的注音所对应的容错注音作为候选注音。 
可选地,第二识别装置被配置为计算每个候选字符相对于字符图像的相似度。 
可选地,第二识别装置还被配置为从候选字符中选取所有的相似度高于或等于预定阈值的候选字符作为字符图像的识别结果,或者从候选字符中选取预定数目的候选字符作为字符图像的识别结果,该预定数目的候选字符的相似度高于或等于其他候选字符的相似度。 
可选地,第二识别装置还被配置为将候选注音的每个注音元素的相似度进行结合以得到候选注音的相似度,将候选注音的相似度与对应的候选字符的相似度相结合以得到候选字符的结合相似度,并且选取所有的结合相似度高于或等于预定阈值的候选字符作为字符图像的识别结果,或者选取预定数目的候选字符作为字符图像的识别结果,该预定数目的候选字符的结合相似度高于或等于其他候选字符的结合相似度。 
可选地,候选注音确定单元被配置为将合法的注音中的每个注音元素的相似度相结合以得到合法的注音的相似度,并选取所有的相似度高于或等于预定阈值的合法的注音作为候选注音,或者选取预定数目的合法的注音作为候选注音,该预定数目的合法的注音的相似度高于或等于其他合法的注音的相似度。 
可选地,第二识别装置被配置为将由第一识别装置的候选注音确定单元所得到的候选注音的相似度与对应的候选字符的相似度相结合以得到候选字符的结合相似度,并且选取所有的结合相似度高于或等于预定阈值的候选字符作为字符图像的识别结果,或者选取预定数目的候选字符作为字符图像的识别结果,该预定数目的候选字符的结合相似度高于或等于其他候选字符的结合相似度。 
可选地,第一识别装置和第二识别装置是同一装置。 
根据本发明的另一个方面,提供了一种识别方法,该方法包括:对第一图像进行识别,以得到第一图像识别结果;根据第一图像识别结果确定一个或多个候选第二图像,作为第二图像识别范围;和通过计算候选第二图像中的图像相对于第二图像的相似度,来基于第二图像识别范围对第二图像进行识别,以得到第二图像识别结果;其中,第一图像与第二图像具有对应关系。 
可选地,第二图像是字符图像,第一图像是该字符图像对应的注音图像,并且注音图像包括一个或多个注音元素图像,对第一图像进行识别的步骤包括对注音图像进行识别以得到一个或多个候选注音,确定候选第二图像识别结果的步骤包括基于候选注音确定一个或多个候选字符,作为所述一个或多个候选第二图像,并且对第二图像进行识别的步骤包括基于候选字符对字符图像进行识别。 
可选地,对第一图像进行识别的步骤包括:基于注音元素集对注音图像中的每个注音元素图像进行识别,以得到针对每个注音元素图像的一个或多个候选注音元素;针对每个注音元素图像选取任一个候选注音元素进行组合以得到一个或多个注音元素组合;以及从注音元素组合中选择合法的注音作为候选注音。 
可选地,对注音元素图像进行识别的步骤包括:计算注音元素集中的每个注音元素相对于注音元素图像的相似度;以及从注音元素集中选取所有的相似度高于或等于预定阈值的注音元素作为候选注音元素,或者从注音元素集中选取预定数目的注音元素作为候选注音元素,该预定数目的注音元素的相似度高于或等于注音元素集中的其他注音元素的相似度。 
可选地,对注音元素图像进行识别的步骤还包括为根据注音元素图像在注音图像中的位置而在识别该注音元素图像时从注音元素集中去除不合法的注音元素。 
可选地,选择合法的注音作为候选注音的步骤还包括将合法的注音所对应的容错注音作为候选注音。 
可选地,对第二图像进行识别的步骤包括计算每个候选字符相对于字符图像的相似度。 
可选地,对第二图像进行识别的步骤还包括选取所有的相似度高于或等于预定阈值的候选字符作为字符图像的识别结果,或者选取预定数目的候选字符作为字符图像的识别结果,该预定数目的候选字符的相似度高于或等于其他候选字符的相似度。 
可选地,对第二图像进行识别的步骤包括:将候选注音的每个注音元素的相似度进行结合以得到候选注音的相似度;将候选注音的相似度与对应的候选字符的相似度相结合以得到候选字符的结合相似度;以及选取所有的结合相似度高于或等于预定阈值的候选字符作为字符图像的识别结果,或者选取预定数目的候选字符作为字符图像的识别结果,该预定数目的候选字符的结合相似度高于或等于其他候选字符的结合相似度。 
可选地,选择合法的注音作为候选注音的步骤包括:将合法的注音中的每个注音元素的相似度相结合以得到合法的注音的相似度;以及选取所有的相似度高于或等于预定阈值的合法的注音作为候选注音,或者选取预定数目的合法的注音作为候选注音,该预定数目的合法注音的相似度高于或等于其他合法的注音的相似度。 
可选地,对第二图像进行识别的步骤包括:将在选择合法的注音作为候选注音的步骤中所得到的候选注音的相似度与对应的候选字符的相似度相结合以得到候选字符的结合相似度;以及选取所有的结合相似度高于或等于预定阈值的候选字符作为字符图像的识别结果,或者选取预定数目的候选字符作为字符图像的识别结果,该预定数目的候选字符的结合相似度高于或等于其他候选字符的结合相似度。 
另外,本发明还提供用于实现上述识别方法的计算机程序。 
此外,本发明也提供至少计算机可读介质形式的计算机程序产品,其上记录有用于实现上述识别方法的计算机程序代码。 
本发明的实施例可以提高识别的准确度。 
附图说明
参照下面结合附图对本发明实施例的说明,会更加容易地理解本发明的以上和其它目的、特点和优点。在附图中,相同的或对应的技术特征或部件将采用相同或对应的附图标记来表示。附图中: 
图1示出手写字符及其对应的注音的示例; 
图2示出可用于实现本发明的实施例的数据处理系统; 
图3示出根据本发明的实施例的识别设备的框图; 
图4示出根据本发明的实施例的识别设备的第一识别装置的框图; 
图5示出了根据本发明的实施例的识别方法; 
图6示出了根据本发明的一个实施例的识别方法中对第一图像进行识别的处理过程; 
图7示出了根据本发明的一个实施例的识别方法中选取候选注音元素的处理过程; 
图8示出了根据本发明的一个实施例的识别方法中选取候选注音元素的处理过程; 
图9示出了根据本发明的一个实施例的识别方法中基于候选字符识别字符图像的处理过程;以及 
图10示出了根据本发明的一个实施例的识别方法中基于候选字符识别字符图像的处理过程。 
具体实施方式
下面参照附图来说明本发明的实施例。应当注意,为了清楚的目的,附图和说明中省略了与本发明无关的、本领域普通技术人员已知的部件和处理的表示和描述。 
在识别处理领域,经常会涉及对具有对应关系的两个图像进行识别的情况。例如,在许多重要的中文表格例如信用卡申请表格中,对于一些重要的区域比如签名的区域,通常需要用户签署中文字符及其相应的中文拼音(下文中有时称作注音),如图1所示。 
单独识别手写字符尤其是手写中文字符非常困难,这是因为中文的手写字符往往会出现连笔的情况。由于这两种类型的手写体针对同一内容,因此为将手写字符的识别和对应的注音的识别相结合,从而进一步提高手写字符的准确度提供了可能性。 
现在参考图2,举例说明可用于实现本发明的实施例的数据处理系统的框图。数据处理系统250使用外围组件互联(PCI)本地总线结构。虽然所描述的例子使用PCI总线,其他总线结构,如微通道和ISA,也可被使用。处理器252和主内存254通过PCI桥258被连接到PCI本地总线256。对于处理器252,PCI桥258也可包括集成的内存控制器和高速缓存器。对PCI本地总线256的另外的连接可通过组件互联或通过内插板来接通。 
在所描述的例子中,局域网(LAN)适配器260、SCSI主机总线适配器 262以及扩展总线接口264通过组件连接被连接到PCI本地总线256。相比之下,音频适配器266、图形适配器268以及音频/视频适配器(A/V)269通过插入扩展槽的内插板,被连接到PCI本地总线256。扩展总线接口264为键盘和鼠标适配器270、调制解调器272以及另外的内存274提供连接。在所描述的例子中,SCSI主机总线适配器262为硬盘276、磁带278、CD-ROM 280以及DVD 282提供连接。典型的PCI本地总线实现将支持三个或四个PCI扩展槽或内插连接器。 
图3示出了根据本发明的实施例的识别设备300的框图。识别设备300包括第一识别装置302,被配置为对第一图像进行识别,以得到第一图像识别结果;第二识别结果预选装置304,被配置为根据第一图像识别结果确定候选第二图像识别结果;和第二识别装置306,被配置为基于候选第二图像识别结果对第二图像进行识别,以得到第二图像识别结果。上述第一图像与第二图像具有对应关系。 
在一个实施例中,第二图像是字符图像,例如图1所示的 ,第一图像是该字符图像对应的注音图像,例如图1所示的 。该注音图像包括一个或多个注音元素图像,例如图1中的注音图像包括四个注音元素图像: 和 。第一识别装置302被配置为对注音图像进行识别以得到一个或多个候选注音。第二识别结果预选装置304被配置为基于候选注音确定一个或多个候选字符。第二识别装置306被配置为基于候选字符对字符图像进行识别。例如,第一识别装置302可以对图1所示的注音图像进行识别,得到“feng”、“ying”和“xing”等候选注音。第二识别结果预选装置304根据候选注音确定出“feng”所对应的“风”、“锋”等,“ying”所对应的“应”、“英”等,“xing”所对应的“行”、“兴”等作为候选字符。第二识别装置306可以基于上述候选字符对字符图像进行识别,最终得到“应”作为识别结果。 
在本发明的一个实施例中,第一识别装置302对注音图像的识别可以采用整体识别的方法,也就是说把注音图像作为一个整体与拼音集中的每个合 法的拼音进行对比、分类,以得出识别结果。 
在本发明的另一个实施例中,第一识别装置302可以对注音图像中的每个注音元素图像分别进行识别,然后再进行组合,这在如图1所示注音图像已经被明显地区分为多个注音元素图像的情况下尤其适用。在注音图像没有被明确地区分为多个注音元素图像的情况下,可以参照发明名称为“字符识别装置及其字符识别方法”的专利申请CN 200910006036.X中记载的方法对各个注音元素图像进行识别。例如,可以先确定一系列候选切分点,根据候选切分点,将注音图像切分为一个或多个候选注音元素切分块。接着对每一个候选注音元素切分块进行单个注音元素识别,输出一个或多个候选注音元素并给出对应的相似度,从而形成识别树的第一层。如果识别结果不理想,即相似度较低,而且将候选注音元素切分块与其前后相邻的候选注音元素切分块合并可能不会超出一个注音元素的最大宽度,则对其进行合并以得到新的候选注音元素切分块,并再次进行识别,得到新的相似度。由此形成识别树的第二层。上述过程可以重复进行,直到达到理想的识别结果,从而可以得出一个或多个候选注音元素及其相似度。 
下面详细地介绍第一识别装置302在对注音图像中的每个注音元素图像分别进行识别的情况下的结构和操作。在该实施例中,如图4所示,第一识别装置302包括注音元素识别单元3022、注音元素组合单元3024和候选注音确定单元3026。注音元素识别单元3022被配置为基于注音元素集对注音图像中的每个注音元素图像进行识别,以得到针对每个注音元素图像的一个或多个候选注音元素。例如,注音元素识别单元3022对图1中的注音图像的第一注音元素图像进行识别,可以得到“Y”、“X”等候选注音元素,对第二注音元素图像进行识别,可以得到“I”、“Z”等候选注音,对第三注音元素图像进行识别,可以得到“N”、“U”等候选注音,对第四注音元素图像进行识别,可以得到“G”、“E”等候选注音。注音元素组合单元3024被配置为针对每个注音元素图像选取任一个候选注音元素进行组合以得到一个或多个注音元素组合。例如,注音元素组合单元3024针对每个注音元素图像选取任一个候选注音进行组合,可以得到“YING”、“YINE”、“XING”等注音元素组合。候选注音确定单元3026被配置为从注音元素组合中选择合法的注音作为候选注音。例如,候选注音确定单元3026从上述注音组合中选择出“YING”和“XING”等作为候选注音。 
在注音元素识别单元3022对注音元素进行识别时,还可以利用相关的规律排除一些不可能的注音元素,从而提高识别准确度,并减少识别处理的 计算量。在一个实施例中,在对注音图像的第一个注音元素图像进行识别的时候,可以根据注音元素图像在注音图像中的位置而在识别该注音元素图像时从注音元素集中去除不合法的注音元素。例如,在汉语拼音的情况下,在对注音图像的第一个注音元素图像进行识别时,可以从注音元素集中将“v”等不可能出现的注音元素去除。 
人们经常会把一些拼音混淆,例如把“feng”与“fen”混淆,把“zhang”与“zhan”混淆等。考虑到这种情况,在本发明的一个实施例中,候选注音确定单元3026在选择合法的注音作为候选注音后,还把可能与候选注音混淆的其他注音(这里将其称为该合法的注音所对应的容错注音)也作为候选注音。这可以防止在书写的拼音不准确的情况造成的汉字识别错误。 
在本发明的一个实施例中,第一识别装置302可以对识别出的候选注音的数量进行限制。例如,可以计算注音集中的每个注音相对于注音图像的相似度,并从注音集中选取所有的相似度高于或等于预定阈值的注音作为候选注音。或者,可以从注音集中选取预定数目的注音作为候选注音,该预定数目的注音的相似度高于或等于注音集中的其他注音的相似度。 
相似度可以是概率(即将图像识别为某结果的概率),置信度(即将图像识别为某结果的置信度)。另外,在图像识别领域,也用到“距离”这个概念。在对图像进行识别时,可以用距离来表示相似度,距离越大,相似度越小。在实践中,也可以取距离的倒数来表示相似度。另外,也可以用排序来表示相似度,也就是说,在计算出概率或置信度等之后,对概率或相似度进行排序,以序号来表示相似度,序号越大,相似度越小。在实践中,也可以取序号的倒数来表示相似度。对于上述相似度的具体计算方法可以采用本领域公知的方法来进行,这里不再详细描述。 
在第一识别装置302对注音图像进行整体识别的情况下,注音相对于注音图像的相似度可以根据上面的描述容易地确定。 
在第一识别装置302对注音图像中的每个注音元素图像分别进行识别,然后再进行组合的情况下,注音相对于注音图像的相似度可以是该注音的各个注音元素相对于注音元素图像的相似度的组合。例如,注音的相似度可以是该注音的各个注音元素的相似度的和、加权和、平均值或者乘积等。具体地,在注音元素识别单元3022对注音元素进行识别时可以获得每个候选注音元素相对于注音元素图像的相似度。候选注音确定单元3026可以在选择出合法的注音后,通过上述方法计算每个合法的注音的相似度。 
另外,注音元素识别单元3022也可以对识别出的候选注音元素的数量进行限制。例如,注音元素识别单元3022可以计算注音元素集中的每个注音元素相对于注音元素图像的相似度,并从注音元素集中选取所有的相似度高于或等于预定阈值的注音元素作为候选注音元素,或者从注音元素集中选取预定数目的注音元素作为候选注音元素,该预定数目的注音元素的相似度高于或等于注音元素集中的其他注音元素的相似度。 
在本发明的一个实施例中,第二识别装置306被配置为计算每个候选字符相对于字符图像的相似度。例如,第二识别装置306可以对“feng”所对应的“风”、“锋”等,“ying”所对应的“应”、“英”等,“xing”所对应的“行”、“兴”等候选字符分别计算其相对于字符图像的相似度。然后第二识别装置306可以从候选字符中选取所有的相似度高于或等于预定阈值的候选字符作为字符图像的识别结果,或者从候选字符中选取预定数目的候选字符作为字符图像的识别结果,该预定数目的候选字符的相似度高于或等于其他候选字符的相似度。这里所称的候选字符的相似度,与上文所述类似,可以使用概率、置信度、距离、序号等来表示。作为选择,第二识别装置可以在给出候选字符的同时给出相似度,或者将候选字符按照相似度排序显示。 
在本发明的另一个实施例中,第二识别装置306不是直接利用候选字符的相似度来进行字符识别,而是利用候选字符的相似度以及其所对应的注音的相似度相结合来进行字符识别。也就是说,第二识别装置306可以被配置为将候选注音的相似度与对应的候选字符的相似度相结合以得到候选字符的结合相似度,并且选取所有的结合相似度高于或等于预定阈值的候选字符作为字符图像的识别结果,或者选取预定数目的候选字符作为字符图像的识别结果,该预定数目的候选字符的结合相似度高于或等于其他候选字符的结合相似度。这里所称的结合相似度可以是候选注音的相似度与对应的候选字符的相似度的和、加权和、平均值或者乘积等。应注意,如果采用距离或序号来表示候选注音的相似度及候选字符的相似度,则二者结合后所得的值越大,其所表示的结合相似度越小。在计算候选字符的结合相似度的过程中所用到的候选注音的相似度可以是第二识别装置306直接计算的,也可以是第一识别装置302计算的。例如,在第一识别装置302采用整体识别的方法对注音图像进行识别的情况下,一般要涉及对注音的相似度的计算。另外,在第一识别装置302对注音图像中的每个注音元素图像分别进行识别,然后再进行组合的情况下,如果要对识别出的候选注音的数量进行限制,第一识别装置302中的候选注音确定单元3026也会获取候选注音的相似度。在以上两种情况下,第二识别装置306都可以直接利用第一识别装置302的计算结 果,而不必重复计算候选注音的相似度。 
在本发明的实施例中,第一识别装置302和第二识别装置306本质上都是对字符进行识别的装置,因此他们可以是类似或者同样的装置,甚至是同一装置。尤其是,在对拼音进行整体识别的情况下,第一识别装置302和第二识别装置306可以是同一装置。在首先单独识别注音元素的情况下,注音元素识别单元可以与第一识别装置类似、相同或者同一。 
下面结合图5至图10描述根据本发明的实施例的识别方法。 
图5示出了根据本发明的实施例的识别方法。在步骤502中,对第一图像进行识别,以得到第一图像识别结果。在步骤504中,根据第一图像识别结果确定候选第二图像识别结果。在步骤506中,基于候选第二图像识别结果对第二图像进行识别,以得到第二图像识别结果。上述第一图像与第二图像具有对应关系。 
在本发明的一个实施例中,第二图像可以是字符图像,第一图像可以是该字符图像对应的注音图像。该注音图像包括一个或多个注音元素图像。步骤502包括对注音图像进行识别以得到一个或多个候选注音。步骤504包括基于候选注音确定一个或多个候选字符。步骤506包括基于候选字符对字符图像进行识别。 
在步骤502、步骤504和步骤506中所执行的处理分别与参照图3描述的第一识别装置302、第二识别结果预选装置304和第二识别装置306中进行的处理类似,因此在此略去其详细描述。 
图6示出了根据本发明的一个实施例的识别方法中对第一图像进行识别的处理过程。在步骤602中,基于注音元素集对注音图像中的每个注音元素图像进行识别,以得到针对每个注音元素图像的一个或多个候选注音元素。在步骤604中,针对每个注音元素图像选取任一个候选注音元素进行组合以得到一个或多个注音元素组合。在步骤606中,从注音元素组合中选择合法的注音作为候选注音。在一个示例中,在步骤606中,还可以将合法的注音所对应的容错注音也作为候选注音。在步骤602、步骤604和步骤606中所执行的处理分别与参照图4描述的注音元素识别单元3022、注音元素组合单元3024和候选注音确定单元3026进行的处理类似,因此在此略去其详细描述。 
图7示出了根据本发明的一个实施例的识别方法中选取候选注音元素的处理过程。在步骤702中,计算注音元素集中的每个注音元素相对于注音元 素图像的相似度。在步骤704中,从注音元素集中选取所有的相似度高于或等于预定阈值的注音元素作为候选注音元素,或者从注音元素集中选取预定数目的注音元素作为候选注音元素,该预定数目的注音元素的相似度高于或等于注音元素集中的其他注音元素的相似度。在步骤702、步骤704中所执行的处理与参照图4描述的注音元素识别单元3022进行的处理类似,因此在此略去其详细描述。 
图8示出了根据本发明的一个实施例的识别方法中选取候选注音元素的处理过程。在步骤802中,根据注音元素在注音图像中的位置而从注音元素集中去除不合法的注音元素。在步骤804中,计算已经去除了不合法的注音元素的注音元素集中的每个注音元素相对于注音元素图像的相似度。在步骤806中,从已经去除了不合法的注音元素的注音元素集中选取所有的相似度高于或等于预定阈值的注音元素作为候选注音元素,或者从已经去除了不合法的注音元素的注音元素集中选取预定数目的注音元素作为候选注音元素,该预定数目的注音元素的相似度高于或等于注音元素集中的其他注音元素的相似度。步骤802、步骤804、步骤806中所执行的处理与参照图4描述的注音元素识别单元3022进行的处理类似,因此在此略去其详细描述。 
图9示出了根据本发明的一个实施例的识别方法中基于候选字符识别字符图像的处理过程。在步骤902中,计算每个候选字符相对于字符图像的相似度。在步骤904中,选取所有的相似度高于或等于预定阈值的候选字符作为字符图像的识别结果,或者选取预定数目的候选字符作为字符图像的识别结果,该预定数目的候选字符的相似度高于或等于其他候选字符的相似度。步骤902、步骤904中所执行的处理与参照图3描述的第二识别装置306进行的处理类似,因此在此略去其详细描述。 
图10示出了根据本发明的一个实施例的识别方法中基于候选字符识别字符图像的处理过程。在步骤1002中,计算每个候选字符相对于字符图像的相似度。在步骤1004中,将候选注音的每个注音元素的相似度进行结合以得到候选注音的相似度。在步骤1006中,将候选注音的相似度与对应的候选字符的相似度相结合以得到候选字符的结合相似度。在步骤1008中,选取所有的结合相似度高于或等于预定阈值的候选字符作为字符图像的识别结果,或者选取预定数目的候选字符作为字符图像的识别结果,该预定数目的候选字符的结合相似度高于或等于其他候选字符的结合相似度。步骤1002、步骤1004、步骤1006、步骤1008中所执行的处理与参照图3描述的第二识别装置306进行的处理类似,因此在此略去其详细描述。 
下面以对图1中的图像进行识别为例结合具体的计算结果对本发明的实施例进行说明。首先,对注音图像中的每个注音元素图像进行识别。计算注音元素集中的每个注音元素的相似度(这里采用概率),并且选取前10个相似度高的注音元素作为候选注音元素。结果如下(注音元素后的数字为概率): 
第一注音元素图像 
Y 0.932325  V 0.021750  T 0.020985  X 0.011169  F 0.005957  P 0.002840  J 0.002106 
N 0.000984  W 0.000745  I 0.000377 
第二注音元素图像 
I 0.814618  Z 0.138768  J 0.017321  E 0.014568  L 0.007601  S 0.002312  X 0.001982 
F 0.000565  T 0.000500  D 0.000473 
第三注音元素图像 
N 0.335248  V 0.265071  U 0.248211  W 0.051623  O 0.028040  D 0.024599  H 0.018230 
Q 0.006844  M 0.006726  Y 0.003370 
第四注音元素图像 
G 0.890855  E 0.033782  C 0.029569  Q 0.019166  S 0.008134  B 0.005179  L 0.004168 
O 0.002517  A 0.001815  U 0.001562 
对以上候选注音元素进行组合后可以得到11个候选注音:FENG、JING、NENG、NING、PENG、PING、TENG、TING、WENG、XING、YING。对每个候选注音,将其注音元素的相似度取平均值得到候选注音的相似度。并且,对候选注音对应的每个汉字计算其相对于字符图像的相似度。下面以FENG和YING为例列出候选注音的相似度计算结果以及候选注音对应的汉字的计算结果(注音后的数字为注音的相似度,汉字后的数字为汉字的相似度)。 
FENG 0.311657 
风0.117357  锋0.000023  烽0.000016  枫0.001678  蜂0.000054  沣0.000437 
疯0.026599  丰0.006637  峰0.000371  封0.002521  冯0.000625  逢0.000697 
缝0.001039  讽0.000749  凤0.042763  奉0.001017  俸0.000018 
YING  0.743261 
璎0.000182  樱0.000002  缨0.000051  莺0.000233  膺0.001110  应0.293743 
鹰0.001562  婴0.000305  瑛0.000269  英0.010325  楹0.000018  莹0.000219 
萤0.000070  营0.000029  荧0.002770  蝇0.000054  迎0.000272  盈0.000248 
瀛0.036341  赢0.031832  赢0.013215  颍0.000845  郢0.000242  影0.025796 
颖0.001680  映0.000073  硬0.000470 
将候选注音的相似度与对应的候选汉字的相似度相加得到候选汉字的结合相似度。最终可以得出“应”的结合相似度最高,从而将“应”作为识别结果。 
在上面的示例中,如果采用现有技术的直接基于汉字集对字符图像进行识别,则识别的结果是“丸”,而“应”的相似度只排在38位。可见本发明的实施例提高了字符识别的准确度。另外,本发明的实施例有效地利用了注音的识别结果,可以将6000多个汉字的汉字集缩小为100多个汉字的候选字符集,大大减少了计算量。 
本发明不仅可以用于对汉字和对应的汉字的注音进行识别,也可以应用于例如对日文汉字和对应的假名进行识别,以及其他任何类似于中文、日文具有书写字符和注音两套系统的文字。此外,在某些特定应用中,尤其是表格填写中,还可能存在其他对应关系,即不是文字和注音的对应关系,而是文字和文字的对应关系,例如一个字段中的文字缩小了另一个字段中的文字的选择范围。对于这种情况,同样可以应用本发明。在这种情况下,如前文已经讨论的,第一识别装置和第二识别装置可以完全是相同的识别装置。 
以上结合具体实施例描述了本发明的基本原理,但是,需要指出的是,对本领域的普通技术人员而言,能够理解本发明的方法和装置的全部或者任何步骤或者部件,可以在任何计算装置(包括处理器、存储介质等)或者计算装置的网络中,以硬件、固件、软件或者它们的组合加以实现,这是本领域普通技术人员在阅读了本发明的说明的情况下运用他们的基本编程技能就能实现的。 
因此,本发明的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。所述计算装置可以是公知的通用装置。因此,本发明的目的也可以仅仅通过提供包含实现所述方法或者装置的程序代码的程序产品来实现。也就是说,这样的程序产品也构成本发明,并且存储有这样的程序产品的存储介质也构成本发明。显然,所述存储介质可以是任何公知的存储介 质或者将来所开发出来的任何存储介质。 
在通过软件和/或固件实现本发明的实施例的情况下,从存储介质或网络向具有专用硬件结构的计算机安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等等。 
还需要指出的是,在本发明的装置和方法中,显然,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。并且,执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行,但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。 
虽然已经详细说明了本发明及其优点,但是应当理解在不脱离由所附的权利要求所限定的本发明的精神和范围的情况下可以进行各种改变、替代和变换。而且,本申请的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括所述要素的过程、方法、物品或者装置中还存在另外的相同要素。 

Claims (21)

1.一种识别设备,包括:
第一识别装置,被配置为对第一图像进行识别,以得到第一图像识别结果;
第二识别结果预选装置,被配置为根据所述第一图像识别结果确定一个或多个候选第二图像,作为第二图像识别范围;和
第二识别装置,被配置为通过计算候选第二图像中的图像相对于第二图像的相似度,来基于所述第二图像识别范围对第二图像进行识别,以得到第二图像识别结果,
其中,所述第一图像与所述第二图像具有对应关系,第二图像是字符图像,第一图像是该字符图像对应的注音图像。
2.如权利要求1所述的识别设备,其中所述注音图像包括一个或多个注音元素图像,第一识别装置被配置为对所述注音图像进行识别以得到一个或多个候选注音,第二识别结果预选装置被配置为基于所述候选注音确定一个或多个候选字符,作为所述一个或多个候选第二图像,并且所述第二识别装置被配置为基于所述候选字符对所述字符图像进行识别。
3.如权利要求2所述的识别设备,其中所述第一识别装置包括:
注音元素识别单元,被配置为基于注音元素集对所述注音图像中的每个注音元素图像进行识别,以得到针对每个注音元素图像的一个或多个候选注音元素;
注音元素组合单元,被配置为针对所述每个注音元素图像选取任一个候选注音元素进行组合以得到一个或多个注音元素组合;和
候选注音确定单元,被配置为从所述注音元素组合中选择合法的注音作为候选注音。
4.如权利要求3所述的识别设备,其中所述注音元素识别单元被配置为计算所述注音元素集中的每个注音元素相对于所述注音元素图像的相似度,并从注音元素集中选取所有的相似度高于或等于预定阈值的注音元素作为候选注音元素,或者从注音元素集中选取预定数目的注音元素作为候选注音元素,该预定数目的注音元素的相似度高于或等于所述注音元素集中的其他注音元素的相似度。
5.如权利要求4所述的识别设备,其中所述注音元素识别单元还被配置为根据注音元素图像在注音图像中的位置而在识别该注音元素图像时从所述注音元素集中去除不合法的注音元素。
6.如权利要求4所述的识别设备,其中所述候选注音确定单元还被配置为将合法的注音所对应的容错注音作为候选注音。
7.如权利要求4-6中任一个所述的识别设备,其中所述第二识别装置还被配置为从候选字符中选取所有的相似度高于或等于预定阈值的候选字符作为字符图像的识别结果,或者从候选字符中选取预定数目的候选字符作为字符图像的识别结果,该预定数目的候选字符的相似度高于或等于其他候选字符的相似度。
8.如权利要求4-6中任一个所述的识别设备,其中所述第二识别装置还被配置为将候选注音的每个注音元素的相似度进行结合以得到候选注音的相似度,将候选注音的相似度与对应的候选字符的相似度相结合以得到候选字符的结合相似度,并且选取所有的结合相似度高于或等于预定阈值的候选字符作为字符图像的识别结果,或者选取预定数目的候选字符作为字符图像的识别结果,该预定数目的候选字符的结合相似度高于或等于其他候选字符的结合相似度。
9.如权利要求4-6中任一个所述的识别设备,其中所述候选注音确定单元被配置为将合法的注音中的每个注音元素的相似度相结合以得到合法的注音的相似度,并选取所有的相似度高于或等于预定阈值的合法的注音作为候选注音,或者选取预定数目的合法的注音作为候选注音,该预定数目的合法的注音的相似度高于或等于其他合法的注音的相似度。
10.如权利要求9所述的识别设备,其中所述第二识别装置被配置为将由所述第一识别装置的候选注音确定单元所得到的候选注音的相似度与对应的候选字符的相似度相结合以得到候选字符的结合相似度,并且选取所有的结合相似度高于或等于预定阈值的候选字符作为字符图像的识别结果,或者选取预定数目的候选字符作为字符图像的识别结果,该预定数目的候选字符的结合相似度高于或等于其他候选字符的结合相似度。
11.如权利要求1或2所述的识别设备,其中所述第一识别装置和第二识别装置是同一装置。
12.一种识别方法,包括:
对第一图像进行识别,以得到第一图像识别结果;
根据所述第一图像识别结果确定一个或多个候选第二图像,作为第二图像识别范围;以及
通过计算候选第二图像中的图像相对于第二图像的相似度,来基于所述第二图像识别范围对第二图像进行识别,以得到第二图像识别结果,
其中,所述第一图像与所述第二图像具有对应关系,第二图像是字符图像,第一图像是该字符图像对应的注音图像。
13.如权利要求12所述的识别方法,其中所述注音图像包括一个或多个注音元素图像,所述对第一图像进行识别的步骤包括对所述注音图像进行识别以得到一个或多个候选注音,所述确定第二图像识别范围的步骤包括基于所述候选注音确定一个或多个候选字符,作为所述一个或多个候选第二图像,并且对第二图像进行识别的步骤包括基于所述候选字符对所述字符图像进行识别。
14.如权利要求13所述的识别方法,其中所述对第一图像进行识别的步骤包括:
基于注音元素集对所述注音图像中的每个注音元素图像进行识别,以得到针对每个注音元素图像的一个或多个候选注音元素;
针对所述每个注音元素图像选取任一个候选注音元素进行组合以得到一个或多个注音元素组合;以及
从所述注音元素组合中选择合法的注音作为候选注音。
15.如权利要求14所述的识别方法,其中所述对注音元素图像进行识别的步骤包括:
计算所述注音元素集中的每个注音元素相对于所述注音元素图像的相似度;以及
从注音元素集中选取所有的相似度高于或等于预定阈值的注音元素作为候选注音元素,或者从注音元素集中选取预定数目的注音元素作为候选注音元素,该预定数目的注音元素的相似度高于或等于所述注音元素集中的其他注音元素的相似度。
16.如权利要求15所述的识别方法,其中所述对注音元素图像进行识别的步骤还包括为根据注音元素图像在注音图像中的位置而在识别该注音元素图像时从所述注音元素集中去除不合法的注音元素。
17.如权利要求15所述的识别方法,其中所述选择合法的注音作为候选注音的步骤还包括将合法的注音所对应的容错注音作为候选注音。
18.如权利要求15-17中任一个所述的识别方法,其中所述对第二图像进行识别的步骤还包括选取所有的相似度高于或等于预定阈值的候选字符作为字符图像的识别结果,或者选取预定数目的候选字符作为字符图像的识别结果,该预定数目的候选字符的相似度高于或等于其他候选字符的相似度。
19.如权利要求15-17中任一个所述的识别方法,其中所述对第二图像进行识别的步骤包括:
将候选注音的每个注音元素的相似度进行结合以得到候选注音的相似度;
将候选注音的相似度与对应的候选字符的相似度相结合以得到候选字符的结合相似度;以及
选取所有的结合相似度高于或等于预定阈值的候选字符作为字符图像的识别结果,或者选取预定数目的候选字符作为字符图像的识别结果,该预定数目的候选字符的结合相似度高于或等于其他候选字符的结合相似度。
20.如权利要求15-17中任一个所述的识别方法,其中所述选择合法的注音作为候选注音的步骤包括:
将合法的注音中的每个注音元素的相似度相结合以得到合法的注音的相似度;以及
选取所有的相似度高于或等于预定阈值的合法的注音作为候选注音,或者选取预定数目的合法的注音作为候选注音,该预定数目的合法注音的相似度高于或等于其他合法的注音的相似度。
21.如权利要求20所述的识别方法,其中所述对第二图像进行识别的步骤包括:
将在所述选择合法的注音作为候选注音的步骤中所得到的候选注音的相似度与对应的候选字符的相似度相结合以得到候选字符的结合相似度;以及
选取所有的结合相似度高于或等于预定阈值的候选字符作为字符图像的识别结果,或者选取预定数目的候选字符作为字符图像的识别结果,该预定数目的候选字符的结合相似度高于或等于其他候选字符的结合相似度。
CN200910004694.5A 2009-02-27 2009-02-27 识别设备和识别方法 Expired - Fee Related CN101819625B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200910004694.5A CN101819625B (zh) 2009-02-27 2009-02-27 识别设备和识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200910004694.5A CN101819625B (zh) 2009-02-27 2009-02-27 识别设备和识别方法

Publications (2)

Publication Number Publication Date
CN101819625A CN101819625A (zh) 2010-09-01
CN101819625B true CN101819625B (zh) 2014-11-12

Family

ID=42654722

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200910004694.5A Expired - Fee Related CN101819625B (zh) 2009-02-27 2009-02-27 识别设备和识别方法

Country Status (1)

Country Link
CN (1) CN101819625B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9262699B2 (en) * 2012-07-19 2016-02-16 Qualcomm Incorporated Method of handling complex variants of words through prefix-tree based decoding for Devanagiri OCR
CN105157742B (zh) * 2014-04-29 2021-03-23 杭州美盛红外光电技术有限公司 识别装置和识别方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1164901A (zh) * 1995-06-07 1997-11-12 E-系统公司 成像中约束点自主确定的方法
US5745183A (en) * 1995-08-25 1998-04-28 Thomson Consumer Electronics, Inc. Image motion estimation system which derives candidate block from interpolated motion vectors
CN1625206A (zh) * 2003-11-20 2005-06-08 佳能株式会社 图像处理装置及其控制方法
EP1719258A1 (en) * 2003-09-02 2006-11-08 Telefonaktiebolaget L M Ericsson (publ) Method and apparatus for finger placement in a rake receiver
CN101228551A (zh) * 2005-07-22 2008-07-23 卡尔斯特里姆保健公司 医学图像中的异常检测
CN101789073A (zh) * 2009-01-22 2010-07-28 富士通株式会社 字符识别装置及其字符识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1164901A (zh) * 1995-06-07 1997-11-12 E-系统公司 成像中约束点自主确定的方法
US5745183A (en) * 1995-08-25 1998-04-28 Thomson Consumer Electronics, Inc. Image motion estimation system which derives candidate block from interpolated motion vectors
EP1719258A1 (en) * 2003-09-02 2006-11-08 Telefonaktiebolaget L M Ericsson (publ) Method and apparatus for finger placement in a rake receiver
CN1625206A (zh) * 2003-11-20 2005-06-08 佳能株式会社 图像处理装置及其控制方法
CN101228551A (zh) * 2005-07-22 2008-07-23 卡尔斯特里姆保健公司 医学图像中的异常检测
CN101789073A (zh) * 2009-01-22 2010-07-28 富士通株式会社 字符识别装置及其字符识别方法

Also Published As

Publication number Publication date
CN101819625A (zh) 2010-09-01

Similar Documents

Publication Publication Date Title
US11080306B2 (en) Method and apparatus and electronic device for clustering
CN107193973B (zh) 语义解析信息的领域识别方法及装置、设备及可读介质
WO2019184217A1 (zh) 热点事件分类方法、装置及存储介质
AU2012261715B2 (en) Method, apparatus and system for generating a feature vector
WO2019218473A1 (zh) 一种字段匹配方法、装置、终端设备及介质
JP5211334B2 (ja) 手書き記号の認識方法及び装置
KR101279676B1 (ko) 언어 모델을 생성하기 위한 방법, 가나-간지 변환 방법 및그 장치
US20150095769A1 (en) Layout Analysis Method And System
US11475588B2 (en) Image processing method and device for processing image, server and storage medium
US8494278B2 (en) Handwritten character recognition based on frequency variations in characters
US20220207889A1 (en) Method for recognizing vehicle license plate, electronic device and computer readable storage medium
US20150213333A1 (en) Method and device for realizing chinese character input based on uncertainty information
CN110032734B (zh) 近义词扩展及生成对抗网络模型训练方法和装置
CN109815481B (zh) 对文本进行事件抽取的方法、装置、设备和计算机存储介质
CN112149680B (zh) 错字检测识别方法、装置、电子设备及存储介质
CN104978577A (zh) 信息处理方法、装置及电子设备
US8571262B2 (en) Methods of object search and recognition
CN101819625B (zh) 识别设备和识别方法
JP2007188512A (ja) 文字認識方法、文字認識プログラム及び文字認識プログラムを記録したコンピュータ読み取り可能な記録媒体
US10032071B2 (en) Candidate handwriting words using optical character recognition and spell check
CN101582118B (zh) 字符字典创建装置、字符识别装置及字符识别方法
CN111476090B (zh) 水印识别方法和装置
US9008428B2 (en) Efficient verification or disambiguation of character recognition results
US20150073778A1 (en) Techniques for automatically generating test data
CN113177479B (zh) 图像分类方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20141112

Termination date: 20180227

CF01 Termination of patent right due to non-payment of annual fee