CN102388392B

CN102388392B - 模式识别设备

Info

Publication number: CN102388392B
Application number: CN2010800161588A
Authority: CN
Inventors: 岩村雅一; 黄濑浩一
Original assignee: Osaka Prefecture University PUC
Current assignee: Osaka Prefecture University PUC
Priority date: 2009-02-10
Filing date: 2010-02-09
Publication date: 2013-09-11
Anticipated expiration: 2030-02-09
Also published as: WO2010092952A1; JPWO2010092952A1; CN102388392A; JP5522408B2; US8422793B2; US20120230592A1

Abstract

一种模式识别装置，按照如下进行配置：从已经过几何变换的查询图像提取模式元素，获取模式元素中由模式元素的三个特征点所表示且相对于几何变换保持不变的特征作为查询特征，将分别表示参考模式的特征的多个参考特征与查询特征进行比较，并将利用上述比较所指定的参考模式确定为识别结果，其中，使用根据规则从各参考模式确定出的特征点来表示各参考特征，第一特征点的位置是在位于模式元素中且相对于几何变换保持不变的点处所指定的，第二特征点的位置是使用与模式元素的形状有关且相对于几何变换保持不变的性质所指定的，并且第三特征点的位置是根据相对于几何变换保持不变的指定量以及所确定出的第一特征点和第二特征点的位置所指定的。

Description

模式识别设备

技术领域

本发明涉及模式识别设备，尤其涉及可以实时识别照相机拍摄到的字符或象形图的设备。

背景技术

基于照相机的模式识别由于各种可能的应用而受到相当多的关注。令人信服的应用之一是作为与照相机和字符识别设备集成在一起的翻译装置的“翻译照相机”(参见非专利文献1和2)。另一可能的应用是识别照相机拍摄到的字符并且将识别出的字符转换成语音从而将这些语音告知视觉障碍者。还考虑了以下情况：识别照相机拍摄到的所有模式，并且在这些模式中，仅将预先已登记的且为用户所需的信息提供给该用户。该应用对于视觉障碍者而言是有用的。在视觉障碍者中，存在难以找到字符的人。因此，可被称为“机器视觉”的应用极其有用。

为了实现以上应用，需要实用的基于照相机的字符识别技术，其中该字符识别技术(1)可以进行实时处理、(2)对几何失真具有鲁棒性并且(3)不受布局约束。

首先，为了不使用户的便利性劣化，实时处理是不可缺少的。对于几何失真，当对象局限于字符时，已实现了一些已知的技术(例如，参见非专利文献3和4)。特别地，非专利文献4已说明了实时进行工作的技术。在这些技术中，从利用照相机拍摄到的图像中提取文本行，对作为对具有最高的失真自由度的射影失真(projective distortion)的近似的仿射失真(affinedistortion)进行校正，并且最终识别出所提取的字符。然而，在非专利文献4的技术中，例如，基于文本行来校正射影失真，从而使得无法识别没有形成文本行的字符。该技术不能应对旋转的字符。因此，无法识别图1所示的对象，这意味着该技术不满足上述要求(3)。具体地，该技术不能满足上述能够识别各种布局的模式的要求。

另一方面，作为满足上述要求(2)和(3)的技术，Kusachi等人或Li等人已提出了逐一识别字符的技术(例如，参见非专利文献5和6)。由于非专利文献5和6所述的技术逐一识别字符，因此不会引起涉及文本行的问题，但需要大量时间来进行处理，从而导致该技术无法被认为实现了上述要求(1)的实时处理。已期望同时满足要求(1)～(3)的技术。

现有技术文献

非专利文献

非专利文献1：Y.Watanabe，Y.Okada，Y.-B.Kim and T.Takeda，“Translation camera，”Proc.ICPR 1998，pp.613-617，1998。

非专利文献2：H.Fujisawa，H.Sako，Y.Okada and S.-W.Lee，“Information capturing camera and developmental issues，”proc.ICDAR1999，pp.205-208，Sept.1999。

非专利文献3：X.Chen，J.Yang and A.Waibel，“Automaticdetection and recognition of signs from natural scenes，”IEEETrans.Image Processing，vol.13，no.1，pp.87-99，Jan.2004。

非专利文献4：G.K.Myers，R.C.Bolles，Q.-T.Luong，J.A.Herson and H.B.Aradhye，“Rectification and recognition of textin 3-d scene，”IJDAR，vol.7，no.2-3，pp.147-158，2004。

非专利文献5：Y.Kusachi，A.Suzuki，N.Ito and K.Arakawa，“Kanji recognition in scene images without detection of textfields-robust against variation of viewpoint，contrast，andbackground texture-，”Proc.ICPR2004，2004。

非专利文献6：L.Li and C.L.Tan，“Character recognitionunder severe perspective distortion，”Proc.ICPR2008，2008。

非专利文献7：Kazuto Noguchi，Koichi Kise，and MasakazuIwamura，“Experimental evaluation of balancing the recognitionrate，processing time，and memory requirement for large-scalerecognition of specific objects”，IEICE trans.D，vol.J92-D，pp.1135-1143，Aug.2009。

发明内容

发明要解决的问题

考虑到以上情形，本发明提供一种基于简单但高效的技术的模式识别设备，其可以实现诸如字符和象形图等的模式的实时识别，从而实现了满足上述要求的模式识别技术。

用于解决问题的方案

本发明提供一种模式识别设备，包括：提取部，用于从包括至少一个模式成分且预先经过几何变换的查询图像中提取模式成分；特征获取部，用于获取所述模式成分的相对于所述几何变换保持不变的特征作为查询特征，其中，所述查询特征由包括各自位于所述模式成分上并且基于预定的规则从所述模式成分中检索到的第一特征点、第二特征点和第三特征点的至少三个特征点来表示；比较部，用于将所述查询特征与多个参考特征进行比较，其中，所述参考特征各自表示被准备作为模式识别的候选的不同的参考模式；以及模式确定部，用于基于进行比较的特征之间的类似度来确定所述候选中的特定参考模式作为识别结果，其中，各参考特征是使用基于与所述查询特征的规则相同的规则从各参考模式检索到的特征点来表示的，以及基于所述规则，所述第一特征点的位置是在位于所述模式成分上且相对于所述几何变换保持不变的点中指定的，所述第二特征点的位置是使用与所述模式成分的形状有关的、相对于所述几何变换保持不变的特性所指定的，并且所述第三特征点的位置是根据相对于所述几何变换保持不变的预定值以及所指定的所述第一特征点和所述第二特征点的位置所指定的。

发明的效果

在根据本发明的模式识别设备中，第一特征点的位置是在位于模式成分上且相对于几何变换保持不变的点中指定的，第二特征点的位置是使用与模式成分的形状有关且相对于几何变换保持不变的特性指定的，并且第三特征点的位置是根据相对于几何变换保持不变的预定值以及所指定的第一特征点和第二特征点的位置指定的。因此，不变坐标系的组数局限于将满足预定标准的像素之一确定为第一特征点的组合的数量。因此，与已知的几何哈希法相比，根据本发明的方法可以大幅缩短处理时间。具体地，根据本发明，当确定了第一特征点时，唯一地确定出与该第一特征点相对应的第二特征点和第三特征点。已知的几何哈希法需要与不变坐标系有关的_pP_n次处理，其中_pP_n次处理被排列成从构成模式区域的所有特征点的p个特征点中选择预定数量的n个特征点，而本发明仅进行与不变坐标系有关的用于选择第一点的_pP₁次处理。因此，可以根据利用几何变换所获取到的图像来实现模式的实时识别。首先确定第一特征点和第二特征点中的哪一个是任选的。

在本发明中，查询图像是包含要识别的模式的图像。该模式包括一个或多个或者一块连接成分。一块连接成分表示要识别的模式在区域上相连接从而形成块的成分。例如，诸如“I”和“J”等的字符是包括一个区域连接成分的识别对象的例子。另一方面，存在诸如“i”或“j”等的作为包括多个连接成分的一个字符的分离字符或分离模式。

在本发明中，前提是：查询图像是在经过几何变换之后获取到的。例如，当利用图像扫描器读取用作识别对象的字符时，读取中存在诸如缩放或旋转等的几何失真。在这种情况下，查询图像存在由相似变换而产生的失真。当利用照相机拍摄包含要识别的字符的图像时，由此产生的图像存在由于偏离正确位置而产生的射影失真。如果偏离量小，则可以近似该图像，其中，该失真被当作未伴随有深度方向上的倍率变化的仿射失真。

将各模式的图像特征与表示该特征的矢量相关联地存储在图像数据库中。图像特征的例子包括形状特征、浓度分布特征、色度特征以及它们的组合。图像数据库中的各矢量是在利用哈希表进行系统化的状态下初步登记的，这使得能够进行快速矢量比较。

可以通过利用计算机执行预定程序来实现提取部、特征获取部和比较部的功能。可选地，例如，可以利用安装在半导体芯片上的硬件来实现这些功能的全部或部分处理。在后面所述的实施例中，利用个人计算机的硬件和软件来实现各个部的功能。

在本发明中使用自适应二值化和轮廓提取来提取模式。将几何哈希法进行改进以用于本发明的模式识别。考虑到仿射变换的几何哈希法的计算量为O(P⁴)，其中P是特征点的数量。而在本发明中，通过利用不变量的计算原理，计算量可以缩减为O(P²)。借助于利用投票系统的方法，即使在具有网络照相机的笔记本个人计算机上，本发明也良好地实时工作。

附图说明

图1是示出作为根据本发明的识别对象的图像的一个示例的说明图。

图2是示出已知的几何哈希法中用于确定不变坐标系的方法的第一说明图。

图3是示出已知的几何哈希法中用于确定不变坐标系的方法的第二说明图。

图4是示出作为根据本发明的一种几何变换的仿射变换的不变量的一个示例的说明图。

图5是示出根据本发明的模式区域的形状示例的说明图。

图6是示出根据本发明实施例的用于根据模式区域的重心和作为仿射不变量的预定面积比来确定第三特征点的第一技术的说明图。

图7是示出根据本发明实施例的用于根据模式区域的重心和作为仿射不变量的预定面积比来确定第三特征点的第二技术的说明图。

图8是示出根据本发明实施例的、在不指定重心作为特征点的情况下根据作为仿射不变量的预定面积比来确定第二特征点的技术的说明图。

图9是示出包括在根据本发明的数据库中的哈希表的结构的说明图。

图10是示出根据本发明的分离字符的描述方法的说明图。

图11是示出根据本发明的模式识别设备所执行的处理的流程的说明图。

图12是示出根据本发明的特征矢量的计算方法的一个示例的说明图。

图13是示出根据本发明的实施例中姿势估计方法的过程的一个示例的说明图。

图14是示出根据本发明的实验所使用的字体和象形图的一个示例的说明图。

图15是示出根据本发明的实验例1和2所使用的识别对象的纸张的一个示例的说明图。

图16是示出根据本发明的实验例1的第一结果的图，其中，示出相对于多种字体的累积识别率。

图17是示出根据本发明的实验例1的第二结果的图，其中，示出当特征矢量的大小改变时象形图的识别率和处理时间之间的关系。

图18是示出在存在几何变换的情况下拍摄图1中的作为根据本发明的识别对象的图像的状态的说明图。

图19是示出根据本发明的实验例2的第一结果的图，其中，示出相对于多种字体的识别率、拒绝率和错误率。

图20是示出根据本发明的实验例2的第二结果的图，其中，示出相对于图14的象形图的识别率、拒绝率和错误率。

图21是示出作为根据本发明的实验例2的识别对象的图像的一个示例的说明图。

图22是示出在相对于纸张的角度分别为0度、30度和45度的情况下拍摄到的图21中的图像的说明图。

图23是示出通过查询特征矢量的位反转来创建新的查询特征矢量的说明图。

图24是示出根据本发明的实验例3中用作识别对象的图像的说明图。

图25是示出根据本发明的实验例3中进行识别所使用的100种字体的一部分和实验例4中进行识别所使用的10种字体的说明图。

图26是示出根据本发明的实验例3和4中连接成分的分组处理的示例的说明图。

图27是示出根据本发明的实验例3中相对于登记字体数的识别率的图。

图28是示出根据本发明的实验例3中针对每字符的平均处理时间的图。

图29是示出根据本发明的实验例3中相对于登记字体数的组数的图。

图30是示出根据本发明的实验例3中相对于登记字体数的存储量的图。

图31是示出根据本发明的实验例4所使用的演示系统的概述的说明图。

图32是示出根据本发明的实验例4所使用的演示系统中用以确定字符的流程的说明图。

图33是示出根据本发明的实验例4中不具有文本行但可识别的文本的一个示例的说明图。

图34是示出根据本发明的实验例4所使用的演示系统中用于获取单词区域的方法的说明图。

图35是示出根据本发明的实验例4所使用的演示系统中按估计出的排列顺序的图34的单词区域2中的各个字符的候选的图。

图36是用于说明根据本发明的实验例4所使用的演示系统中沿着涉及“从左向右读取单词”规则的上方向的临时过程的说明图。

图37是示出根据本发明的实验例4中用作识别对象的文本的说明图。

图38是示出根据本发明的实验例4中针对每单词的处理时间的图。

图39是示出根据本发明的实验例4中单词识别的结果的图。

图40是示出根据本发明的实验例4中单词识别和字符识别的失败示例的说明图。

图41是示出根据本发明的实验例4中基于字符的识别的识别率的图。

图42是示出根据本发明的实验例4中在读取数据库时的存储量的图。

具体实施方式

在以不同的方式表现用以解决前述问题的本发明时，本发明涉及一种模式识别设备，包括：提取处理部(所述提取部)，用于根据以一个或多个模式预先进行了几何变换的方式获取到的查询图像，从构成所述模式的多个像素中提取一块连接成分(所述模式成分)作为模式区域；特征矢量生成部(所述特征获取部)，用于针对基于预定规则从一个模式区域确定了三个以上的特征点的各组合，根据以各自连接获取到的三个特征点中的两个特征点的两个线性独立矢量为底边并且相对于所述几何变换保持不变的不变坐标系来生成表示所述模式区域的图像特征的特征矢量作为查询特征矢量；索引计算部，用于通过将预定哈希函数应用于所生成的查询特征矢量来计算索引值；比较部，用于针对作为识别结果的候选的多个参考模式，利用所述索引来参考将表示各参考模式的形状的特征的参考特征矢量与相应的参考模式相关联并且预先进行存储且分类到多个区间中的哈希表，从而对计算出索引的查询特征矢量与存储在参考目的地的区间中的一个或多个参考特征矢量进行比较；以及模式确定部，用于基于比较来确定应当被指定为识别结果的参考模式，其中：针对用于从通过与所述查询特征矢量的过程相同的过程确定出的特征点中选择三个特征点的各组合生成所述参考特征矢量，所述特征矢量生成部基于确定特征点所应用的规则来将与所述模式区域有关的像素中满足预定标准的像素之一确定为第一特征点，将使用与所述模式区域的形状有关的、相对于所述几何变换保持不变的特性所确定出的一个点确定为第二特征点，并且将基于相对于所述几何变换保持不变的预定值以及所述第一特征点和所述第二特征点所确定出的一个点确定为第三特征点。

在上述模式识别设备中，基于确定特征点所应用的规则，所述特征矢量生成部将与所述模式区域有关的像素中满足预定标准的像素之一确定为第一特征点，将使用与所述模式区域的形状有关的特性所确定出的一个点确定为第二特征点，其中，所述特性相对于所述几何变换保持不变，并且将基于相对于所述几何变换保持不变的预定值以及所述第一特征点和所述第二特征点所确定出的一个点确定为第三特征点。因此，不变坐标系的组数局限于将满足预定标准的像素之一确定为第一特征点的组合的数量。因此，与已知的几何哈希法相比较，可以大幅缩短处理时间。

以下将说明本发明的优选实施例。

所述第一特征点的位置可以在位于所述模式成分的轮廓上的像素中指定。据此，提取出模式区域的轮廓，并且可以确定地将第一特征点确定为轮廓上的一个点。

所述特性可以是重心相对于作为所述几何变换的一种的仿射变换保持不变的特性，以及可以使用所述特性将所述模式成分的重心指定为所述第二特征点的位置。重心是相对于仿射变换的不变量。据此，可以将第二特征点唯一确定为对象模式区域的重心。

所述特性可以是面积比相对于作为所述几何变换的一种的仿射变换保持不变的特性，以及所述第三特征点的位置可以根据所述模式成分的轮廓并且使用所述特性基于以下面积比的预定值所指定的，其中，所述面积比是所述模式成分的面积相对于由与所述第一特征点、所述第二特征点和所述第三特征点相对应的顶点所定义的三角形的面积之比。该面积比是相对于仿射变换的不变量。据此，可以根据预定的不变量以及第一特征点和第二特征点来唯一确定第三特征点。

所述特征获取部可以使用以分别连接获取到的三个特征点中的两个特征点的两个线性独立矢量为底边且相对于所述几何变换保持不变的坐标系来获取相对于所述几何变换保持不变的特征。

所述比较部可以将所述查询特征和与相应的参考模式有关且存储在哈希表中的参考特征进行比较，其中，所述哈希表可以具有多个区间；各参考特征可以预先被分类并存储到通过根据该参考特征计算预定哈希函数所确定出的区间之一中；并且所述比较部可以使用通过根据获取到的查询特征计算所述哈希函数所获得的索引来参考适当的区间，以进行所述比较。据此，可以利用所述哈希表来比较与查询特征矢量相对应的参考特征矢量，以使得可以在短的时间段内进行查询特征矢量和参考特征矢量之间的比较。

所述模式确定部可以基于所述特征矢量生成部针对所述查询图像的模式区域所确定出的特征点的坐标与存储在所述哈希表中的特征点的坐标之间的对应关系来估计所述模式区域的姿势，从而通过对各次估计进行多数决定原则来估计所述查询图像的姿势。据此，可以基于特征点的坐标的对应关系来估计获取到的查询图像的姿势，由此可以校正查询图像的几何失真，并且与没有进行该校正的情况相比，可以以较高的精度进行匹配。

所述模式确定部可以具有存储至少一个离散模式组的离散模式表，其中，各离散模式与所述参考模式之一相对应并且各离散模式组提供一个识别结果；所述模式确定部可以参考所述离散模式表来判断所述候选中确定出的特定参考模式与离散模式组中的一个离散模式之间是否存在对应关系；以及当存在所述对应关系，并且之前已确定与该离散模式组中的其它离散模式的对应关系存在时，所述模式确定部可以将由与确定出的特定参考模式相对应的离散模式所属的离散模式组所提供的识别结果确定为识别结果。据此，可以针对离散模式确定识别结果。

所述离散模式表可以存储该离散模式组中一个离散模式相对于另一离散模式的相对位置，并且当另一确定出的特定参考模式位于由所存储的、相对于与一个确定出的特定参考模式相对应的离散模式的相对位置所指定的位置时，所述模式确定部可以确定识别结果。据此，考虑到离散模式和与其组合有关的另一模式之间的位置关系，可以以较高的精度确定识别结果。

在所述模式识别设备中，所述查询图像可以包括包含多个字符的单词模式，并且所述模式识别设备还可以包括：单词候选确定部，用于获得对所述模式确定部识别出的各字符追踪一次的最短的路径，并且确定所获得的路径的顺序和逆序作为所述单词的候选；旋转角确定部，用于获得各字符相对于所述查询图像的预定方向的旋转角；以及读取顺序确定部，其中，将按所述路径的顺序或逆序彼此相邻的两个字符之间的旋转角之差指定为第一评价指标，基于朝着与位于各候选的任一端的第一字符相邻的第二字符的方向以及与读取方向有关的预定规则来估计所述第一字符应当具有的旋转角，并且将估计出的旋转角与所述旋转角确定部所确定出的所述第一字符的旋转角之差指定为第二评价指标，选择使所述第一评价指标和所述第二评价指标最小的候选，从而确定构成单词的字符的读取顺序。据此，可以进行单词识别，其中，该单词识别适用于以下的语言：如英语那样在特定单词与其它单词之间以空格进行分离，并且根据预定读取方向、例如根据从左向右书写单词的规则来读取单词。

这里例示的各种优选实施例可以进行相互组合。

将说明本发明和以下所述的实施例之间的对应关系。

在本发明中，查询图像与如后面所述的图1所示的包含多个字符或标记的薄片相对应。模式成分是与连接成分相对应的词语。在本发明中，查询特征是表示查询图像的各模式成分的特性的矢量值。

在本发明中，参考模式与表示字符识别时的各字符的连接成分相对应。例如，参考模式与后面所述的图14(a)中的各字符、图14(b)中的各象形图以及图10的分离字符表第1列(并非第2列)上的各模式相对应。参考特征表示各参考模式的特征，并且与查询特征进行比较(匹配)。离散模式表与后面所述的图10中的分离字符表相对应。在图10的例子中，离散模式表包括构成字符(j)的组和构成字符(i)的组。在本发明中，离散模式例如与图10的分离字符表中第1列(并非第2列)上的各模式相对应。

将参考附图更详细地说明本发明。以下说明的所有方面都应当被看作为示例性的并且不限制本发明。

1.本发明的前提

在详细说明本发明之前，首先将说明本发明的前提。根据该技术领域内的传统研究，为了简化而假定在白色纸张上书写黑色字符。“黑色”仅是示例性的，并且根据本发明，可以指定具有能够与背景区分开的预定颜色和/或浓度的像素块以及具有在预定范围内的颜色和/或浓度的像素块作为模式区域。为了方便，将构成模式区域的像素称为“黑色像素”。由于利用照相机来拍摄字符图像，因此这些字符图像可能存在射影失真并且可能因散焦和低分辨率而劣化。然而，假定利用简单的处理可以提取字符的连接成分、即形成图像中黑色像素彼此相邻的块的成分。还假定该图像中的所有字符都存在于同一平面上。

在本发明中，要解决的问题有三个：(i)快速识别所提取出的连接成分，(ii)提高识别的鲁棒性，(iii)识别诸如“i”和“j”等的包括多于一个的连接成分的分离字符。

对于(i)快速识别，在以下第2节中将说明如下的快速识别方法，在该快速识别方法中，将几何哈希法适用于连接成分的匹配，并且利用了几何不变量计算原理。对于(ii)提高识别的鲁棒性，在以下第4节中将说明考虑到连接成分的姿势的识别方法。对于(iii)识别分离字符，以下第3节所述的技术解决了该问题。

2.允许将几何哈希法适用于本发明以实现高速度的改进

2.1 几何哈希法

几何哈希法是通过使用不变量坐标系来描述和检索存在一定几何失真的图像的强有力的方法。为了说明本发明提出的几何哈希法的改进方法，将简要说明几何哈希法。如需详细说明请参见以下所述的文献：Y.Lamdan and H.J.Wolfson，“Geometric hashing：a general and efficient model-basedrecognition scheme.”Proc.ICCV1988，pp.238-249，1988。

2.1.1 存储处理

存储参考图像。假设具有从参考图像中提取出的特征点。随机选择这些特征点中的三个特征点，并且如图2(a)所示，考虑到所选择的特征点的顺序来定义两个底边(base)。然后，通过使用这两个底边如图2(b)所示来创建新的坐标系，并且将这些特征点投影到该新的坐标系上。由于即使图像经过了仿射变换也可以以相同的方式创建该坐标系，因此该坐标系是仿射不变坐标系。当如图2(b)所示将该仿射不变坐标系分成多个子区域时，各子区域与二维哈希表的区间(bin)相对应。将图像ID和底边组ID存储在各特征点所存在的各区间中。对所有可能的底边执行该处理，由此完成一个参考图像的存储。在存储了所有的参考图像之后该存储处理完成。创建仿射不变坐标系需要O(P³)的计算量，并且投影特征点需要O(P)的计算量，由此使得存储一个参考图像的计算量为O(P⁴)。

这里，O(P)或O(P³)是用于解决问题的粗略计算量的描述方法，其中，在P确定时，O(P)表示计算量落入P的一次方的量级内，即该计算量不大于aP+b，而O(P³)表示计算量落入P的三次方的量级内，即不大于aP³+bP²+cP+d。

这里，a、b、c和d为常数。这同样适用于O(P⁴)和其它情况。

2.1.2 检索处理

检索处理的初始阶段与存储处理的初始阶段几乎相同。假设具有从查询图像提取出的特征点。选择这些特征点中的三个特征点，并且如图2(a)所示，考虑到所选择的特征点的顺序来定义两个底边。然后，通过使用这两个底边来创建仿射不变坐标系。该仿射不变坐标系在存储处理期间被分成多个子区域，其中各子区域与二维哈希表的区间相对应。从各特征点所存在的各区间中提取所存储的图像ID和底边组ID，并且对图像ID和底边组ID进行投票(投票表为二维形式)。针对所有底边组执行以上过程，从而确定得票数最高的图像ID和底边组ID。输出该对的图像ID作为检索结果。如果对所有底边组执行该过程之前输出图像是显而易见的，则可以退出该处理。创建仿射不变坐标系需要O(P³)的计算量，并且投影特征点需要O(P)的计算量，由此使得总计算量为O(P⁴)。

2.2 所提出的几何哈希法的改进

2.2.1 问题定义的差异

本发明涉及几何哈希法的改进。在说明本发明之前，将说明几何哈希法和本发明之间在问题定义方面的差异。几何哈希法解决的问题是：当给出特征点时，仅利用这些特征点的配置来识别对象。具体地，几何哈希法不考虑特征点是从何处提取的。相反，在本发明中，当给出图形时，通过使用从该图形中获取到的特征点的配置和该图形的特征这两者来识别该图形。具体地，通过对模式区域应用预定规则来确定该图形。因此，可以使用诸如从图形获取到的边角或拐点等的、即使经过了几何变换也不改变的点作为特征点，但在本发明中，原则上指定位于图形的轮廓上的像素作为特征点。后面将说明利用该处理的该方法与几何哈希法有何不同。

2.2.2 计算量的缩减

几何哈希法的缺点是计算量巨大。对于数量为P的检索处理，几何哈希法的仿射不变版本需要的计算量为O(P⁴)。如果有100个点，则所需的计算量为O(100,000,000)。这意味着几何哈希法从未应用于实时应用。另一方面，如果使用所提出的方法，则在考虑计算量最小的仿射变换的情况下，可以将计算量缩减为O(P²)。

以下将说明几何哈希法所需的计算量非常大的原因(参见M.Iwamura，T.Nakai and K.Kise，“Improvement of retrievalspeed and required amount of memory for geometric hashing bycombining local invariants，Proc.BMVC2997，”Vol.2.pp.1010-1019，Sept.2007)。在几何哈希法中，为了实现成功的检索，存储处理所使用的底边的组必须在检索处理中经过计算。然而，在该计算完成之前无法确定存储处理期间的底边的组与检索处理期间的底边的组是否一致，由此几何哈希法必须通过检查所有的(或许多的)底边的组来搜索对应关系。如果可以在存储处理和检索处理中选择同一底边，则可以缩减计算量。考虑到该情况，在所提出的几何哈希法的改进中，在存储处理和检索处理中选择相同的特征点，以便缩减计算相同的底边组所需的计算量。

将说明本发明中用于选择特征点以缩减计算量的方法。首先将说明仿射变换中选择三个点的方法作为一个例子。在仿射变换中，存储图形的重心，以指定该重心作为第一特征点(无法保证重心存在于轮廓上，但这不是问题)。与几何哈希法相同，适当选择第二点。

根据以前获取到的两个点和以下所述的不变量的特性自动确定第三点。首先，将利用作为最简单例子的图4的例子来说明不变量的特性。当如图4所示在一条直线上给出三个点A、B和C时，AB/AC是针对仿射变换不存在变化的不变量。通常根据点的坐标来计算不变量的值。另一方面，在本发明中，利用不变量的值以及A和B的坐标来确定C的坐标。假定A、B和C位于同一直线上，其中C可以位于A的左侧或B的右侧。如果预先定义了诸如“以A、B和C按该顺序位于同一直线上的方式来确定C”等的用于确定C的方法，则可以唯一地确定C的位置。该原理的一般形式是“如果已知不变量的值和n个点的坐标中n-1个点的坐标，则可以确定剩余的点(第n点)”。

这种唯一地确定用于创建底边的特征点的位置有助于缩减计算量。由于唯一确定了两个点，因此该过程使计算量从O(P⁴)缩减为O(P²)。

然而，以上过程确定了三个点存在于同一直线上，从而导致不能利用第三点来创建相对于在第一点和第二点处所创建的底边线性独立的底边(要注意，可以向后面所述的特征矢量添加第三点，以用于计算后面所述的哈希索引)。

以下将说明用以确定图5所示的面积为S₀的图形的第三点的另一方法。根据该方法，可以创建相对于在第一点和第二点处所创建的底边线性独立的底边。表1示出仿射变换中所存储的特性。

表1

仿射变换中所存储的特性

特性1	将直线存储为直线。
		特性2	存储图形的重心。
特性3	存储由同一直线上的三个点所创建的线段比。
		特性4	存储两个区域的面积比。

选择特征点的方法1

假设如图6所示给出三个特征点。假设穿过第一点和第二点的半直线以及穿过第一点和第三点的半直线，其中将从该图形提取出的面积指定为S₁。在这种情况下，根据表1的特性4，S₁/S₀变为仿射不变量的值。因此，可以以使S₁/S₀等于预定值的方式来确定第三点。为了唯一确定第三点，可以使用顺时针顺序或逆时针顺序。

选择特征点的方法2

与方法1相同，假设如图7所示给出三个特征点。当将由三个特征点所形成的三角形的面积指定为S₁时，根据表1的特性4，S₁/S₀变为仿射不变量的值。因此，可以以使S₁/S₀等于预定值的方式来确定第三点。S₁/S₀不总是局限于预定值，还可以是最大值或最小值。为了唯一确定第三点，可以使用顺时针顺序或逆时针顺序。当考虑以S₁恒定的方式确定第三点时，如图7所示，第三点的轨迹是与通过第一点和第二点的直线平行的直线。因此，可以容易地将第三点确定为该直线和外部轮廓的交点，这意味着可以容易地计算出第三点。如果存在多个交点，则例如还可以将更靠近第二点的点作为第三点。

可以通过与上述方法不同的方法来确定最初的两个点。具体地，与几何哈希法相同，从P个点中适当选择第一点，并且利用面积比来确定第二点。当如图8所示给出两个特征点时，面积比S₁/S₀变为仿射不变量的值。因此，可以以使S₁/S₀等于预定值的方式来确定第二点。

2.2.3 图形的特征的使用

在几何哈希法中，将图像ID和底边组ID存储在数据库中。另一方面，在本发明中，代替底边组ID，存储根据图像计算出的特征矢量和用于创建底边的特征点的坐标(参见图9)。

使用根据图像计算出的特征矢量的原因是：图像的特征的表现力更高。在几何哈希法的问题定义中，仅给出了从检索对象提取出的特征点的坐标。然而，在本实施例的问题中，给出了作为检索对象的图形本身。因此，可以使用从图形提取出的特征矢量。存储用于创建底边的特征矢量的坐标的原因是：可以通过在后面所述的投票处理期间使用这些坐标来提高姿势的估计精度和识别精度。

为了专门描述根据本发明的模式识别的代表例子的字符识别，以下将“图像ID”称为“字符ID”。将“检索”称为“识别”。将“模式识别设备”称为“字符识别设备”。

3.分离字符的识别

在前一节中，已说明了用于高速识别包括单个连接成分的字符的方法。在本节中，将说明诸如“i”和“j”等的包括多于一个的连接成分的分离字符的识别方法。

图10是示出根据本发明的分离字符的描述方法的说明图。图10(a)示出利用构成分离字符的各连接成分的面积和表示这些成分的相对位置的矢量来说明分离字符。图10(b)示出用于描述分离字符的分离字符表的一个例子。为了处理分离字符，在参考图像的存储处理中，对图像内的连接成分的数量进行计数。对于包含两个以上的连接成分的参考图像，将各连接成分作为不同的字符进行处理，单独存储各连接成分，并且将各连接成分登记到图10(b)的分离字符表中。

该表存储有字符的连接成分之间的相对位置和大小以识别分离字符，其中，可以通过在识别期间检查预定连接成分是否存在于预定位置处来识别分离字符。图10(b)的分离字符表包括5个元素，其中这5个元素从左端起顺次被编号为第一元素～第五元素。第一元素表示连接成分的形状和/或连接成分的数量。第二元素表示包含连接成分的分离字符。第三元素是表示连接成分的相对位置的矢量。第四元素表示连接成分的面积。第五元素表示应当成组的连接成分的面积。

在Arial字体的情况下，“i”的下部连接成分具有“I(大写ai)”和“l(小写el)”的相同形状，并且这两者难以区分。因而，为了正确地识别“i”，必须检查诸如“I”和“l”等的相同形状的各连接成分是否是“i”的一部分。如果“i”的上部连接成分以正确的位置和大小存在，则将该组连接部分识别为“i”，否则将其识别为“I”或“l”。

为了实现以上处理，相同形状的所有连接成分被存储为具有相同的连接成分ID。即，逐一进行参考图像的存储，并且针对各图像检查是否已登记相同形状的连接成分。更详细地，在存储参考图像之前，使用创建过程中的数据库进行识别，并且如果找到了相同形状的连接成分，则分配相同的连接成分ID。理想地，“i”、“I”和“l”的下部连接成分具有相同的连接成分ID。然而，该方法与以下所述的生成型学习法的相关性变差，并且一部分连接成分不具有相同的连接成分ID。因此，在本实施例中，根据表2所示的类似字符列表来手动设置连接成分ID。

4.考虑到连接成分的姿势的模式识别

图11示出根据本发明的模式识别设备的概述。该设备大致包括图像存储部11和图像识别部13。根据本发明的字符识别设备包括至少可访问数据库15的图像识别部13。以下将说明各个部。

4.1 图像存储部

在图像存储部11中，将参考图像存储在数据库15中。假定参考图像是二值图像。

4.1.1 劣化图像的生成

为了应对由散焦和低分辨率所引起的劣化，采用对参考图像应用高斯(Gaussian)模糊的生成型学习法(参见H.Ishida，S.Yanadume，T.Takahasi，I.Ide，Y.Mekada and H.Murase，“Recognition of low-resolution characters by a generativelearning method，”Proc.CBDAR2005，pp.45-51，2005)。将原始图像的位置(x，y)处的像素的亮度定义为I₀(x，y)，通过以下的数学式给出所生成的劣化图像的位置(x，y)处的亮度Ig(x，y)。

数学式1

I_{g} (x, y) = \frac{Σ_{x^{'} = 0}^{W - 1} Σ_{y^{'} = 0}^{H - 1} [\exp {- \frac{{(x - x^{'})}^{2} + {(y - y^{'})}^{2}}{2 σ^{2}}} I_{0} (x^{'}, y^{'})]}{Σ_{x^{'} = 0}^{W - 1} Σ_{y^{'} = 0}^{H - 1} \exp {- \frac{{(x - x^{'})}^{2} + {(y - y^{'})}^{2}}{2 σ^{2}}}} - - - (5)

在该数学式中，W和H分别是图像的宽度和高度。利用卷积正态分布的标准偏差σ来调节散焦程度。将所生成的劣化图像再次进行二值化，并且作为附加参考图像来处理。

4.1.2 特征矢量计算

通过根据第2节所述的方法选择三个特征点并且创建不变坐标系来创建特征矢量。以下将说明根据获取到的三个点来计算特征矢量的方法。如果存在两个特征点，则可以确定穿过这两个点的一条直线，从而通过以下数学式2，可以根据这三个点总共计算出三条直线。

数学式2

(\begin{matrix} 3 \\ 2 \end{matrix}) = 3

当选择了三条直线中的两条直线时，可以设置图12所示的k个均匀子区域。这里，k＝l×l的数学式成立。如上所述设置子区域等效于图2(b)的几何哈希法中在由两个底边所确定出的不变坐标系中设置格子。对各子区域内的特征点的数量进行计数，并且以总数为1的方式对图形进行正规化，由此可以计算出k维特征矢量。对于计算各子区域中的值，不仅可以使用轮廓上的像素，还可以使用图形内的所有像素。考虑到顺序，从三条直线中选择两条直线共有三种组合，从而可以计算出三个k维特征矢量。可以通过简单连接三个k维特征矢量来计算(3k)维特征矢量。

4.1.3 存储至数据库

数据库15具体包括哈希表。

将说明存储至数据库15的存储方法。将字符ID、特征矢量和三个特征点的坐标作为一个组存储在哈希表中。根据以下的数学式来计算哈希索引H_index。

数学式3

H_{index} = (Σ_{i = 1}^{3 k} D^{i - 1} r_{i}) \mod H_{size} - - - (6)

在该数学式中，H_size是哈希表的大小，并且r_i是特征矢量的第i个元素的值，并且D表示将特征矢量的第i个元素量化成D个等级。在发生冲突的情况下，使用图9所示的列表结构来存储实体。

4.2 图像识别部

4.2.1 图像获取

利用数字照相机或网络照相机来拍摄图像作为静止图像或动画。将动画分解成多个帧图像，并且作为多个静止图像进行处理。将获取到的图像称为查询图像，并且用于以下所述的处理。

4.2.2 字符图像的分割

从获取到的图像中提取字符图像。将该图像自适应地进行二值化得到二值图像。自适应二值化技术是以下的方法：根据对象像素的亮度相对于相邻区域的平均亮度是明还是暗来判断该对象像素的亮度是白色(亮度1)还是黑色(亮度0)。当将原始图像的位置(x，y)处的像素的亮度定义为I₀(x，y)并且将相邻区域的窗大小定义为n×n个像素时，通过以下的数学式来表示通过应用自适应二值化所获取到的二值化图像的亮度I_b(x，y)。

数学式4

接着，提取连接成分。连接成分意味着图像中包括彼此相邻的黑色像素的块。获取到的连接成分是以被当作模式区域的候选的矩形形式而提取出的，并且被指定为以下所述的识别对象。当获取到的连接成分的面积不大于阈值时，将该连接成分当作噪声，并且从识别对象中排除。

4.2.3 特征矢量计算

根据获取到的连接成分来计算特征矢量。该处理与第2节所述的处理几乎相同。唯一的不同之处在于：将特征矢量的数量限制为预先确定的S，而无需针对所有可能的组合创建不变坐标系。

4.2.4 使用投票过程进行的参数估计和识别(实施例1)

通过使用投票过程来执行参数的识别和估计。这里将说明仿射变换的情况。

首先，从哈希表获取S个包括字符ID、特征矢量和三个特征点的坐标的组。然后，对字符ID进行使用由数学式5所表示的权重的加权投票。

数学式5

V = \frac{1}{\sqrt{P}}

对投票进行加权的原因是：特征点的数量P(轮廓的长度)在各个字符中不同，并且特征点的数量大的字符成分可能不公平地得到大量投票。设M是通过加权投票获取到的最高得票数。基于该值，根据加权投票来指定两个组。这两个组中的一个组是得票数大于0.9M的字符的组，并且将该组称为“估计组”。另一组是得票数大于0.8M的字符的组，并且将该组称为“候选组”。

根据从查询图像获取到的三个坐标和数据库中的三个坐标之间的对应关系来计算一个仿射变换矩阵(要注意，仿射变换矩阵中不考虑位置偏离)。由于从查询图像获取到S个包括三个坐标的组，因此总共可以获取到S个仿射变换矩阵。与以下所述的数学式相同，各仿射变换矩阵T被分解成缩放率β、旋转角θ、剪切变形度(shear)φ和独立缩放率(independent scaling)α这四个参数。

数学式6

在该数学式中，

数学式7

α = &PlusMinus; \sqrt{\frac{a^{2} + c^{2}}{ad - bc}} - - - (10)

θ {= \cos}^{- 1} \frac{&PlusMinus; a}{\sqrt{a^{2} + c^{2}}} - - - (12)

β &PlusMinus; \sqrt{ad - bc} - - - (13)

在本实施例中，假定查询图像中的所有字符都存在于同一平面上。在这种情况下，参数剪切变形度φ和独立缩放率α在所有的字符中必须相等。通过利用φ和α的二维空间中的最密集的点估计来确定这两者的最佳参数。这里，在上述的二维空间内标绘了属于“估计组”的字符的仿射变换矩阵。从这些标绘点中选择密度最高的相邻点。以将参数φ和α各自分成5等分并且将二维空间分成25等分的方式来执行该处理。对在25个子区域各自和相邻的8个区域、即总共9个区域中所包括的点进行计数，并且将所计数的点数指定为该区域的得分数。在计算了所有区域的得分数之后，选择得分数最高的区域。如果该区域所包括的点超过30，则将该区域再次分成25等分，并且重复相同的处理，直到点数不大于30为止。当包括在得分数最高的区域中的特征点的数量不大于30时，将该区域的中心的值指定为φ和α的估计值，并且分别进行如下定义。

数学式8

最后，针对各个连接成分确定识别结果。在φ和α的二维空间中，从以下数学式选择属于“候选组”的字符的仿射变换矩阵中的最近点，并且将给出仿射变换矩阵的字符定义为识别结果(第一候选)。

数学式9

如果需要两个识别结果，则除了第一候选以外，从以下数学式中选择最近点，并且将所选择的最近点指定为第二候选。

数学式10

随后重复相同的处理。

4.2.5 不同的姿势估计和识别(实施例2)

将说明与前一节所述的姿势估计不同的姿势估计。通过使用第4.2.3节所述的特征矢量，可以从图9所示的哈希表中获取连接成分ID和三个特征点的坐标。如上所述获取到的信息是临时识别结果，并且包括许多错误。与M.Iwamura，R.Niwa，A.Horimatsu，K.Kise，S.Uchida and S.Omachi，“Layout-freedewarping of planar document images，Proc.DRR XVI，”7247-36，Jan.2009的文献所述的相同，通过使用多数决定原则(majority rule)的几个步骤来将该信息校正为适当的识别结果。具体地，如图13所示，首先进行纸张的姿势估计，然后进行各连接成分的识别和姿势估计。

首先，根据查询图像中的特征点和参考图像中的特征点之间的对应关系，计算出查询图像中的连接成分的姿势作为仿射变换矩阵。由于这些仿射变换矩阵包括与另一连接成分相关联地获取到的错误矩阵，因此如图13(a)所示针对各连接成分通过对连接成分ID进行加权投票来对仿射变换矩阵进行过滤，从而选择可靠的仿射变换矩阵。对投票进行加权的原因是：具有许多特征点的连接成分不公平地得到大量得票。设Ni是第i个连接成分的特征点的数量(外部轮廓的长度)，对各投票应用

的权重。

基于通过加权投票获取到的最高得票数(M)来指定两个组。这两个组中的一个组是参考图像中得票数大于0.9M的连接成分的组，并且将该组称为“估计组”。另一组是得票数大于0.8M的连接成分的组，并且将该组称为“候选组”。

针对查询图像的各个连接成分确定这些组。

接着，估计纸张的姿势。在本发明中，假定所有的字符存在于同一平面(纸张)上。在这种情况下，在根据仿射变换矩阵计算出的四个仿射变换参数中，期望所有的连接成分共享剪切变形度和独立缩放率这两个参数。因而，与上述文献相同，通过使用如图13(b)所示的二维空间的密度估计来估计一组可信的参数。即，在二维空间内标绘估计组的仿射变换矩阵。

从标绘点中选择最密集的点(图13(b)中由红色星形标记来表示)。为了提高估计的可靠性，仅使用满足T_area≤R/β²≤1/T_area的连接成分来进行估计，其中，R是查询图像的连接成分与参考图像的相应连接成分的面积比，并且β是根据仿射变换矩阵计算出的缩放率参数。如果连接成分的临时识别结果正确，则数学式R/β²＝1成立，从而不接近1的值表示该结果不可靠。在本实施例中，使用T_area＝0.7。

最后，确定各连接成分的识别结果。如图13(c)所示，通过使用二维空间的密度估计来估计包括可信的旋转角和连接成分ID的组。使用候选组的仿射变换矩阵来进行估计。与图13(b)的不同之处在于：尽管旋转角是连续值，但由于连接成分ID是离散值，因而在一维空间内执行密度估计。根据上述过程，可以估计出连接成分的类型(连接成分ID)以及姿势(剪切变形度、独立缩放率和旋转角)。

5.实验例1(不使用分离字符的识别方法的实施例1)

在σ改变的情况下，针对一个参考图像生成了四个劣化图像。这里使用的σ的值为σ＝0、2、4和6。自适应二值化的参数n为101，并且被当作噪声消除的阈值为32。哈希大小为H_size＝2¹⁹-1。

为了缩减计算量，在图像的存储处理期间从参考图像提取连接成分，并且对提取出的图像进行正规化以使得图像的宽度和高度的最大尺寸为100个像素。在图像识别处理期间，对图像进行正规化以使得从查询图像提取出的连接成分的宽度和高度的最大尺寸为500个像素。

对于计算各区域的值以创建特征矢量，不仅使用轮廓上的像素还使用图形内的所有像素。

在以下所述的实验中，使用CPU为皓龙2.4GHz且存储器为128GB的计算机。

5.1 各种字体的性能评价

为了确认本发明的有效性，识别各种字体的字符。采用了数字和字母总共60种字符：10种数字、除“i”和“j”以外的24种小写字母以及26种大写字母。由于一些字符受仿射失真影响而难以区分，因此在所有实验中将表2的各个单元格内的字符当作属于同一类。例如，即使0(零)被误识别为O(ou)，这种情况也未被当作误识别。

表2

0 O o	6 9	C c	I l	S s	u n
						W w	X x	N Z z	p d	q b	7 L V v

使用图14(a)所示的Arial、Century、Gigi和Impact这四种字体来进行该实验。准备图15所示的测试模式作为识别对象。该测试模式包括作为三种不同的大小(72pt、48pt、32pt)和三种不同的旋转角度(0度、30度和45度)的组合的九种条件下的字符。该测试模式针对各条件包括12个字符，从而该测试模式总共包含108个字符。针对60个字符准备60个测试模式。利用数字照相机以三个不同的角度(0度、30度和45度)来拍摄各个打印测试模式。该照相机的分辨率为1024×768。使用S＝200和k＝25作为该实验的参数。

图16和表3分别示出累积识别率和平均处理时间。Arial、Century和Gigi的累积识别率随着序号排名的增加而增大，并且累积识别率从排名第6处开始变得饱和。另一方面，Impact的排名第一处的识别率非常差，并且在排名第20之前一直增大。

表3

识别字符所需的平均处理时间

字体	Arial	Century	Gigi	Impact
					平均处理时间(ms)	32.4	24.7	24.0	81.0

5.2 针对象形图的性能评价

以与第3.1节相同的方式来拍摄图14(b)所示的10种象形图，并且使用S＝200来进行识别。

图17示出识别率和处理时间。在区间数为16的情况下实现最高识别率。除了区间数为4的处理时间极大增大的情况以外，处理时间几乎不会随着区间数的改变而改变。识别率在区间数为4的情况下最低。这是因为：由于特征矢量的判别能力不足，因而在进行哈希时发生许多冲突。

5.3 对图1的文本的性能评价

最后，识别图1所示的文本。在数字照相机相对于纸张的倾斜角度为0度、30度和45度的情况下拍摄该文本，并且仅提取纸张部分而使背景不存在。提取出的角度为0度、30度和45度的图像的大小分别为2054×1464、1714×1326和1516×1322。图18示出获取到的图像。从图1的字符中获取到148个连接成分，其中这148个连接成分中的18个连接成分是“i”和“j”的一部分。由于“i”和“j”包含两个以上的连接成分，因而参考图像不包含这两者。因此不能识别这两个字符。因而，使用148-18＝130个字符来计算识别率。使用K＝25。表4示出识别率和处理时间。S＝200的情况与S＝20的情况相比实现了较高的识别率。尽管S＝20的情况和S＝200的情况的识别率的差别不大，但S＝20的情况的处理时间与S＝200的情况相比快了约7倍。S＝20的结果证实了本发明能够提供高速且具有鲁棒性的识别。

表4

针对图1的文本的识别率和合计处理时间

6.实验例2(使用分离字符的识别方法的实施例2)

6.2 针对各种字体的性能评价

为了确认使用分离字符的识别方法的实施例2中的方法的有效性，识别图14所示的Arial、Century、Gigi和Impact这四种字体的(62种)数字和(62种)字母。由于如第3节所述，一些字符受仿射失真影响而难以区分，因此在所有实验中将表2的各单元格内的字符视为属于同一类。在第4.2节所述的识别处理中，如果最高得票数为0，则该连接成分被拒绝。

准备图15所示的测试模式作为识别对象。该测试模式包括作为三种不同的大小(72pt、48pt、32pt)和三种不同的旋转角度(0度、30度和45度)的组合的九种条件下的字符。该测试模式针对各条件包括12个字符，从而该测试模式总共包括108个字符。针对62个字符准备62个测试模式。利用数字照相机以三个不同的角度(0度、30度和45度)来拍摄各个打印测试模式。从正面(以0度)拍摄到的72pt的Arial的“A”的平均尺寸为40.7×44.8个像素，并且以45度拍摄到的32pt的Arial的“A”的平均尺寸为10.0×18.6个像素。在该实验中，作为参考图像，仅存储作为识别对象的字体。第4.2.3节所述的参数S为20。将哈希大小设置为H_size＝2¹⁹-1。

首先，表5示出每字符的平均处理时间。由于一个字符所需的处理时间约为4ms，因此通过简单的计算得出识别率约为每秒200～250个字符。

表5

识别字符(象形图)的平均处理时间。Picto表示象形图。

字体	Arial	Century	Gigi	Impact	Picto
						处理时间(ms)	3.9	3.6	3.7	5.2	4.2

其次，图19示出识别结果。图19示出识别率随着字符的大小的减小或拍摄角度的增大而降低，并且识别率的降低不是由于拍摄角度的变化而是由于字符大小的减小所引起的。以下将说明该识别结果的详情。

对于除Impact以外的字体，随着识别率的降低，拒绝率增大了该降低程度，但错误率没有增大如此多。这是由于特征矢量的量化参数D较大所引起的。更具体地，由于D较大，因此要计算的哈希索引因图像的微小波动而改变，由此无法获取到可靠的临时结果。当D从2变为3时，在32pt和45度的情况下的Arial的最低识别率从21.45％增大至52.73％。然而，错误率也从7.57％增大至36.31％。根据应用确定要选择哪一个。通常认为较低的错误率是重要特性，因此在本实施例中采用D＝3。

对于Impact，随着识别率的降低，错误率增大了该降低程度，但拒绝率没有增大如此多。原因在于：由于Impact的字符的线条粗，因此任何连接成分的特征矢量均相似，并且判别能力下降。表5中的平均处理时间示出了Impact与其它的字体相比较需要更多时间。这暗示了多数的哈希冲突是由于特征矢量的判别能力低而发生的。可以通过引入现有的正规化方法和特征来改善该情况。

6.2 针对象形图的性能评价

最后，为了调查针对除字符以外的图形的识别能力，不仅识别上述的4种字体，还以相同的方式识别图14(b)所示的10种象形图。如图20和表5所示，识别结果与除Impact以外的字体的识别结果相同。

根据以上，可以确认出本发明能够高速工作，并且除对一部分字体以外实现了低的错误率。

6.3 针对图21的文本的性能评价

识别图21所示的文本。在数字照相机相对于纸张的倾斜角度为0度、30度和45度的情况下拍摄该文本，并且仅提取纸张部分而使背景不存在。提取出的角度为0度、30度和45度的图像的大小分别为2470×1746、2278×1746和2038×1844。图22示出获取到的图像。图21的文本包含236个字符(除逗号以外)：Arial字体格式的168个字符、Arial Black Italic字体格式的27个字符以及MIRU标识附近(未知字体格式)的41个字符。在存储了Arial和这些未知字体之后识别出这些字符。

表6示出在S＝200和S＝20的情况下的处理时间和识别结果。大多数错误是由于以下原因所引起的：“i”的误识别(“i”、“I”和“l”的混淆)；“U”、“u”和“n”的混淆；以及“E”和“m”的混淆。根据S＝200和S＝20的比较，与S＝20的情况相比，S＝200的情况实现了较高的识别率，但S＝20比S＝200快了约6倍。因而，可以确认出当S较小时可以进行快速识别，并且尽管处理时间略微增加，但根据需要增大S可以实现鲁棒性更强的识别。

表6

对图21的文本进行识别的处理时间和识别结果

7.相关研究

以下将说明本发明的除几何哈希法以外的相关研究。

Nakai等人提出了LLAH(Locally Likely ArrangementHashing，局部可能配置哈希)方法(参见Tomohiro Nakai，KoichiKise，and Masakazu Iwamura，“Fast Camera-Based DocumentImage Retrieval Using Local Arrangements of Feature Points”，IEICE trans.D，vol.J89-D，no.9，pp.2045-2054，Sept.2006，orPamphlet of International Publication No.WO2006/092957)。该方法关注通过简单图像处理获取到的特征点的局部配置，其中利用几何不变量和哈希从数据库高速检索相应的特征点。将LLAH和几何哈希法进行比较，在LLAH中，计算量和要使用的存储量缩减为传统方法的计算量和存储量的几亿分之一，并维持了检索的鲁棒性。可以提高性能的因素包括：由于特征点的选择方法有限而引起的计算量的减少；以及由于高阶特征矢量的创建而引起的判别能力的提高。

前一因素与本发明的理念类似，但由于LLAH假定了离散特征点，因此该理念无法应用于如本发明那样特征点为连续的情况。后一因素可以应用于本发明，并且预期在本发明中可以进一步提高性能。为了说明该方法，首先将说明LLAH如何创建高阶特征矢量。假定仿射变换作为一个例子，在四个点存在于同一平面上的情况下，可以计算出一个不变量。在LLAH中，计算各自与从m＞4个点中选择出的4个点相对应的具有以下数学式11所示个数的不变量，

数学式11

(\begin{matrix} m \\ 4 \end{matrix})

数学式12

(\begin{matrix} m \\ 4 \end{matrix})

生成以上数学式12所示阶次的矢量以创建高阶特征矢量，由此提高判别能力。在本发明中可以执行与LLAH的处理相同的处理。具体地，在仿射变换的情况下，获得个数超过3的多个点，并且计算出多个特征矢量。组合所有这些特征矢量以形成高阶矢量。因此，可以计算出判别能力较高的特征矢量。由于可以唯一选择出要追加确定的特征点，因此认为计算量几乎不会增加。

与在本发明和LLHA中相同，存在对选择特征的方法进行限制从而减少计算量的其它方法。在Rothwell等人提出的方法中，提取所连接的五条线段或两条圆锥曲线，从而计算射影变换的不变量(参见C.A.Rothwell，A.Zisserman，D.A.Forsyth andJ.L.Mundy，“Using projective invariants for constant timelibrary indexing in model based vision，”Proc.British MachineVision Conference，1991)。由于提取出的线段彼此相邻，因此可以容易地对这些线段排序，并且由于用于计算不变量的顺序的组合有限，因此可以高速进行该处理。然而，无法总是从具有任意形状的图形中提取作为本发明的对象的线段或圆锥，因此难以应用该方法。

如果对象局限于经过了仿射变换的图形，则存在在对经过了仿射变换的图形进行正规化之后比较该图形的方法。Leu等人提出了如下方法：根据构成图形的像素的坐标获得协方差矩阵，并且通过利用所获得的矩阵的逆矩阵进行缩放和剪切来对该图形进行正规化(参见J.-G.Leu，“Shape normalizationthrough compacting，”Pattern Recognition Letters，vol.10，no.4，pp.243-250，1989.)。然而，在该方法中，由于旋转存在任意性，因此一些方法需要考虑到图形的旋转的匹配。对于该问题，Horimatsu等人论述了用于使旋转方向的匹配高速化的方法。然而，很难说充分实现了高速(参见A.Horimatsu，R.Niwa，M.Iwamura，K.Kise，S.Uchida and S.Omachi，“Affine invariantrecognition of characters by progressive pruning，”Proceedingsof the 8^th IAPR International Workshop on Document AnalysisSystems(DAS2008)，pp.237-244，Sept.2008.)。

对于该问题，如果使用根据本发明的仿射变换，或者以相似变换水平使用本发明，则在这两种情况下用于进行匹配的计算量都可能为O(P²)。在相似变换中，用于创建相似不变坐标系的计算量为O(P)，并且用于投影特征点的计算量为O(P)。在相似变换的具体方法中，以与仿射变换相同的方式获得第一点和第二点。所考虑的用于获得第三点的方法包括如下两种方法：由于在相似变换中存储了预定角度，因此利用该角度来确定第三点；以及由于存储了长度，因此确定相对于第一点和第二点具有预定距离的第三点。

除上述实施例以外，在本发明中可以进行各种变形例。这些变形例应当被认为属于本发明的范围。本发明应当包括权利要求书的等价物和本发明的范围内的所有变形例。

8.改进

在该节中，通过将非专利文献7所述的三个策略引入前一节所述的实施例，提出了改进方法。

8.1 改进

第一个策略是距离计算。如第4.2.5节所述，从哈希表中获取到的信息包含错误。应当从上述信息中选择正确的信息。在图13(a)所示的实施例中，利用投票方法来提取相对于字体的可靠信息。相反，在本实施例中，代替上述方法，计算查询特征矢量和从哈希表获取到的特征矢量之间的欧几里德距离，并且选择距离小于阈值的特征矢量。

在非专利文献7所述的方法中，仅选择距离最小的特征矢量，这与本实施例略有不同。在比较这两种方法的预备实验中，使用阈值的本实施例的方法的性能更好。该阈值是根据连接成分的横纵比而确定出的。具体地，当将连接成分的外接矩形的长边和短边之比定义为r∶l，并将t定义为常数时，将该阈值确定为tr。这是考虑到通过图像处理所生成的特征矢量的误差而确定的。

在图3(b)所示的用于计算特征矢量的图像的正规化中，如果正规化之前的图像长而窄，则在正规化时对该图像进行(用于放大像素的)大变形，由此像素值改变了，这使得在特征矢量中产生了误差。因此，存在上述距离增大的趋势。为了应对该问题，根据连接成分的横纵比来设置阈值。在本实施例中，在存储期间使用t＝0.08，并且识别期间使用t＝0.032。存储和识别之间在阈值方面存在差异的原因之一是正规化时连接成分在大小方面存在差异，将在下一节对此进行说明。该策略非常强有力，并且确认出当将100种字体存储在数据库中时，无论拍摄角度如何，识别率都增加了约7％，并且处理时间都缩短了最多10ms。

在第二策略中，如图23所示，通过查询特征矢量的位反转来创建新的查询特征矢量。根据预备实验确认出以下情况：如果同时使用第一策略和第二策略，则无论拍摄角度如何，识别率都增加了约7％，并且处理时间依赖于拍摄角度的不同减小了约0.3～0.4％。在本实施例中，针对48维的特征矢量，使用e＝0.002和b＝8。

第三策略涉及哈希值的冲突。在实验例2中，在哈希表的一些区间中产生了大量冲突。哈希处理时间与冲突数成比例。因此，当发生大量冲突时，处理时间可能大大缩短。在该改进中，在冲突数量超过c的区间中，将这些区间内的元素间隔剔除为c个。具体地，在发生大量冲突的区间中，删除过多的元素而仅剩余c个元素。利用该处理，可以大幅缩减存储量和处理时间。

在非专利文献7所述的方法中，当发生的冲突多于阈值时，删除存储在相应的区间中的所有信息，这与本发明的方法略有不同。当照原样执行非专利文献7的方法时，无法选择性地仅识别诸如“O”等的圆形字符。对此，考虑到的原因在于：针对圆形字符，几乎所有的特征矢量都存储在同一区间中，并且如果由于大量冲突而全部删除该区间中的信息，则根本无法识别该字符。

通过预备实验确认出以下情况：当仅执行该策略时，识别率依赖于拍摄角度的不同而减小了约12～17％，并且无论拍摄角度如何处理时间都快了3倍。在本实施例中，使用c＝20。

8.2 实验例3

为了确认上述实施例的有效性，准备了存储多达100种字体的数据库，并且识别照相机所拍摄的各种字体的字符图像。

8.2.1 实验的准备

使用包括大写字母、小写字母和数字总共62种字符来进行该实验。为了针对一个参考图像创建8种劣化图像，在具有100种字体的数据库中总共登记了55800个参考图像。准备图24所示的识别对象，从而针对所有字体，在字符排列在曲线上的相同布局内包含每个字符两次(总共124个字符)。这些字符被打印在A4纸张上并且利用数字照相机以0度、30度和45度的角度进行拍摄，并且将手动提取出的图像指定为识别对象。图24示出Century格式的识别对象的图像。这些图像的大小分别为1549×2197、1397×2185和1265×2201。

从Microsoft Windows 7(注册商标)所安装的字体中选择100种字体。在选择时，由于笔画细的字体的连接成分因分辨率劣化的影响而易被分解成两个以上的成分，因此排除笔画细的字体。图25示出所选择的字体中的10种字体。

在该实验中，存储在数据库中的字体的数量从1逐渐增加至100，并且观察识别率和处理时间。所登记的字体数量以递增1种字体的方式从1种字体增加至10种字体，并且在第11种字体之后，以递增5种字体的方式增加。由于仅准备了75种字体的识别对象，因此针对登记字体的数量为1～75的识别对象和登记字体的数量为80～100的识别对象，实验的方法略有不同。直到75种字体之前，识别出字体与登记字体相同的识别对象。具体地，当字体的数量为1时，仅将Arial字体存储在数据库中，并且使用Arial字体的字符图像作为识别对象。当该数量增加至2时，登记Arial字体和Century字体，并且识别出Arial和Century格式的字符图像。当字体的数量大于80时，无论登记字体的数量如何，都识别出所有的75种字体的识别对象。

在存储处理期间对连接成分自动分组。由于处理分离字符，因此在存储处理期间检查构成该字符的连接成分的数量。如果存在两个以上的连接成分，则在图10所示的分离字符表中描述两个连接成分的相对位置和大小之间的关系。在识别处理期间，参考该分离字符表，并且如果存在满足该条件的连接成分，则将这些连接成分组合并且识别为一个字符。

在Arial字体的情况下，“i”的下部连接成分在经过仿射变换时具有与“I(大写ai)”和“l(小写el)”相同的形状，并且这两者难以区分。因而，为了正确地识别“i”，必须检查诸如“I”和“l”等的相同形状的所有连接成分是否是“i”的一部分。为了实现该处理，对由于仿射变换而具有相同形状的所有连接成分进行分组。即，在参考图像的存储处理期间，通过使用当前创建的数据库来逐一检查各个参考连接成分，并且如果已存储了形状相同或形状十分相似的连接成分，则将这些连接成分分配至同一组。应当注意，可能存在不同字符的连接成分由于分组处理而被分配至同一组的情况。在图26所示的例子中，劣化的“c”属于与针对“0”的组相同的组1，这使得无法判断在识别处理期间被识别为组1的连接成分是“0”还是“c”。在后面所述的单词识别处理中进行对同一组内的字符的判别。

在分组处理中，不采用本实施例所述的作为用于通过查询特征矢量的位反转创建新的查询特征矢量的策略的第二策略。作为分组的例子，表7示出对Arial字体的62个字符的分组结果。

表7

0 O o

6 9

7 L

C c

E m

I 1

N Z z

S s

V v

W w

b q

d p

n u

表7仅示出55个组中包含两个以上的字符的组。

在该实验中，使用CPU为皓龙2.8GHz且存储器为32GB的计算机。为了缩减图像的存储和识别所需的计算量，对提取出的图像进行正规化，以使得连接成分的宽度和高度的最大尺寸在参考图像中为100个像素并且在查询图像中为50个像素。对本实验例(第8节)没有说明的参数进行设置，以使得I＝4(即，k＝16)、H_size＝2¹⁹-1、D＝2并且S＝10。由于在后面所述的实验例2中也使用这些参数，因此尽管采用了相同的方法，但该例子的结果与前一节所述的结果不完全相等。

8.2.2 实验结果

图27和28示出识别率和每字符的平均处理时间。图中的“实验例2”表示实验例2所使用的方法。当在实验例2的方法中登记了多种字体时，识别率减小，而无论所登记的字体数量如何，所提出的方法的识别率几乎恒定地保持为高水平。在实验例3(本实施例)的方法和实验例2的方法这两者中，处理时间都随着所登记的字体数量的增加而增大，其中，在所提出的方法中该增大的斜率缓和。

检查由特定数值所表示的本实施例的识别结果。针对从正面拍摄到的图像的识别率为98.4％(相对于实验例2的识别率增加了20％)，并且针对从45度拍摄到的图像的识别率为97.9％(相对于实验例2的识别率增加了15.7％)。处理时间为7.2ms(与实验例2的处理时间相比快了3倍)，这意味着1秒内可以识别出约140个字符。因此，确认出本实施例所引入的三个策略都非常有效。

图29和30示出本发明的组数和存储量。在所登记的字体数量为1的情况下，存在55个组，在所登记的字体数量为10的情况下，存在397个组，并且在所登记的字体数量为100的情况下，存在1672个组。组数随着所登记的字体数量的增加而单调递增，但增加率逐渐减小。这被认为新登记的字体中的一部分被分配至与已存储的参考图像的组相同的组。另一方面，存储量与所登记的字体数量大致成比例地增加。这是因为：无论组数的增加如何，存储在哈希表中的信息都几乎不变。对于100种字体，存储量约为4GB，并且认为存储量可以根据安装设计而显著减少。

9.单词识别

上述实施例以一个字符为单位进行识别。因此，可以获知将哪个字符写入文本的哪一部分中，但无法获知所写入的单词和语句在文本中是什么含义。考虑到信息搜索的关键字大多数是单词，因此单词识别是不可缺少的。

根据本实施例，执行单词识别以应对以下的单词：该单词以形成在单词之间的空格与其它单词区分开，诸如英语，并且该单词与预定读取方向的规则相一致，例如从左向右书写单词的规则。前提条件是在字符识别期间将独立缩放失真和剪切变形失真从文本图像中去除。

9.1 具有单词识别功能的设备的概述

在本实施例中，将说明具有本发明人所创建的单词识别功能的模式识别设备(以下称为演示系统)，以验证利用实时字符/单词识别技术的信息获取应用程序的可行性和有效性。

诸如杂志中的文章或街道上的标识牌等的环境中的任何场所均存在字符，并且这些字符传达诸如到达目的地的路线或商品广告等具有特定含义的信息。如果利用照相机拍摄环境中的字符，并且利用计算机执行实时识别，则可期待各种服务。使用场景中的字符的模式识别设备无需特殊准备，以使得可以有利地容易使用该模式识别设备。由于现实世界中的单词链接至各种服务，因此将该模式识别设备的该功能称为“使用环境中的字符串作为链接锚(link anchor)”。

将说明演示系统的概述。图31示出该演示系统的概要。该演示系统利用可商业应用的笔记本个人计算机和紧凑型照相机进行工作，并且可以以便携方式使用该演示系统。对象文本包括打印在白色纸张上的黑色字符，其中布局是任意的。当照相机拍摄纸张时，利用实时方式以帧为单位进行以下所述的处理和输出。首先，从所拍摄图像(图31的圈A，以下同样适用)提取字符区域，由此识别出字符。将提取出的字符以绿色显示在画面上，并且将识别结果以一个字符为单位叠加在区域的中心上(图31中的圈B)。由于字符识别对于射影失真具有鲁棒性，因此可以识别出倾斜拍摄的字符，其中在字符识别期间对拍摄期间所产生的字符失真的参数进行估计，并且将该失真反映到结果图像上。例如，在与正面进行拍摄的情况相比被拍摄为更加细长的字符上叠加细长程度相同的结果图像。然后，根据本发明来提取单词区域，由此获取到包含在所拍摄图像中的单词。将该单词区域以紫色显示在画面上。利用该处理所获得的单词是信息搜索的关键字、即“链接锚”，并且可以进行链接各种信息的访问。

作为针对用户的服务的例子，演示系统安装有诸如翻译、图像显示和语音导航等三种服务。根据翻译功能，将英语单词发送至英语词典服务器，并且将翻译后的单词显示在控制台上(图31中的圈C)。在图像显示时，将国旗和旅游景点的图像链接至国家名称的单词，并且当用户利用照相机拍摄该场景时打开图像窗口(图31中的圈D)。同样，在语音导航时，将动物的声音链接至该动物的单词。

即使单词相同但字体不同，也可以进行不同的链接。在该演示系统中，当拍摄到动物的单词时，仅在Arial字体的情况下，代替动物的声音而呈现照片。考虑到的例子是利用字体来提供服务的应用例子，包括当存在强调字符时令用户知晓的功能。

可以呈现包含在所拍摄画面中的所有链接锚的信息，但由于用户根据情况的不同不得不接收随机信息，因此带来不便。考虑到该情况，在演示系统中，为了使用户能够仅取出有用信息而准备了可以选择任意单词所利用的模式。由于光标显示在所拍摄画面的中央处(图31中的圈E)，因此用户将该光标放置于任意的单词区域上以进行选择。用颜色来强调所选择的单词区域，或者将该区域的字符串显示在另一窗口上(图31中的圈F)。用户可以点击该区域以进行对服务的访问，或者可以在将光标放置于单词上时进行自动访问。

9.2 字符识别方法的概述

演示系统所采用的基于照相机的字符识别使用第2.3节所述的方法作为基础，并且还使用第8节所述的改进。在针对各连接成分的识别中，无法判别诸如“N”、“Z”和“z”等的存在仿射变换关系的字符，因此如图32所示，这些字符的组被分配至同一组中，并且在识别期间，输出属于该组的多个字符作为候选。在基于字符的识别时仅进行以组为单位的识别，但在下一节所述的单词识别时进行一个字符级别的识别。然而，存在仿射变换关系的字符的组合根据字体而改变，因此随着要登记的字体类型的增加，难以进行手动分组。因此，在该方法中，在存储字符期间进行自动分组。当将新的字符图像存储在数据库中时，将该字符图像与已存在于该数据库中的字符图像进行比较。当找到相似的字符图像时，将该新存储的字符分配至该相似字符的组。

可以使用如上所述创建的数据库通过以组为单位进行识别来判别连接成分。在这种情况下，可以获取到文本的纸张和字符的姿势作为仿射变换参数。这些仿射变换参数被估计并分类成独立缩放、剪切变形、旋转和缩放。当假定将所有的字符都写在同一平面纸张上时，剪切变形度和独立缩放率这两个参数在该纸张的所有连接成分中必须相等。通过利用此，可以消除纸张的失真。可以针对各字符获取旋转参数，并且利用这些旋转参数进行单词识别处理。针对各字符获取缩放率参数，但这些缩放率参数不用于进行该演示系统的单词识别。存储诸如“i”或“j”等的包括多个连接成分的字符，从而记录这些连接成分的组和位置关系，并且在识别期间识别出组之后组合这些连接成分以恢复为一个字符。

根据上述处理可以发现各字符的组和姿势。然而，在演示系统中，在下一节所述的接下来的单词识别中执行用于估计具有可信的姿势的字符并根据包含多个字符的组来确定作为最终结果的一个字符的处理。

9.2 单词识别

9.2.1 问题

在演示系统中，对如下的单词执行单词识别：该单词以形成在单词之间的空格与其它单词区分开，诸如英语，并且该单词与预定读取方向的规则相一致，例如从左向右书写单词的规则。前提条件为：在字符识别期间将独立缩放失真和剪切变形失真从文本图像去除。提出了通过利用文本中字符的方向来连接这些字符以获取可信的单词的方法。“字符的方向”表示在第9.1节的字符识别期间所获得的旋转参数。非专利文献4中用于通过利用文本行来估计字符的排列的方法仅可以识别具有作为平行直线的文本行的文本，但本发明可以应用于诸如图1、21和33所示的文本等的不具有文本行的文本。

9.2.2 单词识别方法

首先估计一个单词在图像中的哪个区域。当图34所示的文本经过特定模糊化以进行二值化时，组合相邻的字符，并且仅分离出以空格隔开的部分。因此，可以通过提取模糊图像的连接成分来估计单词区域。适当的模糊程度根据所拍摄图像中的字符的间距和粗度而改变。在该演示系统中，计算字符之间的距离和各字符的面积，并且顺次确定与该计算结果成比例的模糊程度。以获得所拍摄图像中的特定字符和最靠近该字符的字符之间的欧几里德距离的方式来计算字符之间的距离，并且对所获得的距离进行平均。面积表示连接成分的像素数，并且使用平均值。利用高斯滤波器来进行模糊，以使得当将平均字符间距离定义为d并将平均面积定义为a时，作为高斯滤波器的标准偏差的σ满足数学式σ＝200×d/a。使用Open CV的自适应二值化来进行模糊图像的二值化处理。

对原始文本图像的坐标和模糊图像的坐标进行比较，从而检查各字符包含于哪个单词区域内，由此确定构成各单词的字符。参考图34，从单词区域2提取出的字符是字符编号为1～5的字符。该阶段的“字符”已进行了前一字符识别处理中以组为单位的判别，由此各字符仍具有多个字符候选。在该说明中，字符编号为1的组包含“M”和“W”这两个字符，而字符编号为3的组包含“d”和“p”这两个字符。其它组各自仅包含一个字符。

接着，针对各单词估计字符的排列和字符类型。场景中的字符串包括被设计成由人们阅读并且引导人们的各种布局。可以假定字符的排列或方向不会快速改变。在演示系统中，基于该假设来估计单词内字符的排列和字符类型。

将说明对单词内字符的排列顺序的估计。按字符编号“4，5，1，2，3”的顺序读取图34的单词区域2中的单词、即突然读取远处的字符的情况并不适用于该假设。在演示系统中，作为用于获取可信的排列的方法，选择对包含在单词内的字符各追踪一次的最短的路径，即通过Dijkstra算法来求解最短路径问题。该路径是通过利用直线链接文本图像上的各字符所形成的，并且该路径的大小表示字符之间的欧几里德距离。结果，获得顺序“1，2，3，4，5”或逆序“5，4，3，2，1”作为最短路径。

接着，按所确定的顺序组合各字符的字符类型以示出单词的候选。图35是按估计的排列顺序示出单词区域2的各字符的候选的图。后面将说明图中的数值和“假定上方向”。当按从字符编号1起的顺序或从字符编号5起的逆序组合字符类型时，根据该图，考虑单词“Media”、“Wepia”和“aideM”等。如果意图将单词区域2的单词读取为“Wepia”，则使“W ”和“p”与其它字符相比较旋转180度，并且考虑到上述假设，不认为该情况是适当的配置。尽管字符的方向相同，但“aideM”必须是从右向左读取得到的，因此这是不适当的。在演示系统中，形成与字符的方向有关的两种罚分(负评价指标)，以获得可信的单词候选。利用在字符识别时获得的字符的旋转角度来计算罚分。对旋转角度进行设置，以使得在将拍摄画面的上方向定义为0度的情况下将向右的旋转定义为正旋转。图35的各个字符下方所示的数值表示方向。

基于“字符的方向不会快速改变”的假设，在追踪字符的节点期间添加第一罚分。由于字符和该字符之前的字符之间的旋转角度的差较小，因此可以认为字符的方向相同。因此，将角度差定义为罚分。角度差的域为0°～180°。例如，当先追踪“e”再追踪“d”时，在图35中两个字符的方向为3°，因此添加3作为罚分。在路径中出现添加了大罚分的几种组合。在该情况下，退出计算，并且从候选中排除这些组合，由此缩短处理时间。

第二罚分与“从左向右读取单词”的规则有关。以单词区域2中的单词作为例子，将参考图36来说明该概念。当假定从字符编号1开始读取诸如“Media”等的单词时，如图36(a)所示，可以将从第一字符到第二字符的方向假定为右方向。因此，可以将上方向假定为与该方向垂直的方向。由于上方向与第一字符的候选的角度之间的差较小，因此可以认为该候选是可信的字符。因此，可以将差值定义为罚分。在图35中，计算“假定上方向(1)”和下一节点之间的罚分，并且当上方向为-35°时，针对字符编号1为“M”的情况罚分为5，并且针对字符编号1为“W”的情况罚分为175。当假定如同“aideM”那样从字符编号5开始读取单词时，如图36(b)那样假定上方向，从而确定出图35中的“假定上方向(2)”。

如上所述，在针对字符候选的各组合获得了所有罚分之后，按升序对这些罚分进行排序，由此可以估计出文本中的可信的单词。在用作为例子的单词区域2的情况下，“Media”具有最小罚分17。通过基于字符的识别无法判别的诸如“d”和“p”等的处于同一组中的字符类型可以在单词识别时以字符级别进行区分。然而，诸如“O”和“0”等的具有缩放关系和类似方向的字符类型的罚分大致相等，由此导致难以判断可信的字符类型。为此，罚分小的多个候选全部用作信息搜索用的关键字，并且如果存在建立了链接的候选，则将该候选当作可信的单词，由此确定出字符类型，并且进行对链接目的地的访问。还将针对包含误识别字符的单词进行可以利用模糊搜索来实现访问的功能的研究。

在第9.1节中介绍了利用字体来呈现信息的功能。在演示系统中，通过简单的方法来估计单词的字体。当利用计算出的罚分搜索字符时，各节点除字符类型和旋转角度以外还保持字体信息，并且每次追踪字符时对字体的直方图进行投票。在一直追踪到最后一个字符并且生成单词的一个候选之后，将出现频率最高的字体估计为单词的字体。将来，创建与字体有关的罚分，并且通过检查字符的字体是否等于相邻字符的字体来进行字体的估计，从而提高字体判别的精度。

9.3 实验例4

为了确认本实施例的有效性，执行用于识别照相机拍摄到的文本中的单词的实验。在以下的实验中，使用CPU为皓龙2.8GHz且存储器为16GB的计算机。在该实验中，当存储在数据库中的字体的类型增加时，检查识别精度和处理时间如何改变。

选择图25所示的10种字体，并且准备各自存储有1～10种字体的数据库以进行识别。当字体的数量为1时，仅使用Arial字体，并且当字体的数量为2时，按降序选择Arial和Century并且用于数据库创建和识别。针对各字体存储包括大写字母、小写字母和数字总计62种字符。

为了应对由散焦和低分辨率所引起的劣化，使用上述的生成型学习法。在该实验中，应用3个级别的高斯模糊，并且应用3个级别的分辨率劣化(包括无模糊级别和分辨率不变级别)，即总共应用9个级别的劣化。因此，针对10种字体存储了与5580张字符图像相对应的数据。

识别对象是图37所示的文本，其中该对象包括了存在于曲线上的144个字符和30个单词的英文语句。包含在文本中的冠词“a”不必进行单词识别处理，因此该冠词“a”不包括在单词数中。以与数据库中的字体相同的字体将该文本打印在10张A4纸上。照相机以相对于正面成0度、30度和45度来拍摄这些纸张。图37(a)～37(c)示出Arial情况下所拍摄的图像。当以0度拍摄Arial的文本时，图像大小为1633×2333个像素，并且每字符的平均大小为58.2×48.0个像素。

各字符经过了基于组的识别，然后示出单词的候选，并且按升序排列第4.2节中所述的罚分。针对各单词检查具有最小罚分的一个单词是否是候选，或者正确的单词是否包含在前10个候选单词中，从而获得单词识别率。如上所述，在本实施例中难以判别大写字母和小写字母具有缩放关系的字符类型。因此，与大小字母还是小写字母无关地判断出字符“C”、“O”、“S”、“V”、“W”、“X”和“Z”是正确的。字体的估计不是性能评价的对象，并且仅字符类型的比较才是对象。当在预备实验中比较字体时，针对以0度拍摄到的10种字体的文本的单词识别率在仅考虑最小罚分的情况下为60.0％，并且在考虑前10个单词的情况下为72.0％。

图38示出每单词的处理时间。处理时间是单词识别所需的时间，并且字符识别所需的时间不包括在该处理时间中。得出以下结论：处理时间根据存储在数据库中的字体的数量而大幅改变，并且处理时间根据字体的类型而改变。在10种字体和0度的情况下，处理时间为6.14毫秒。处理时间增加的原因是：每组的字符类型的数量由于存储图像的增加而增加，因此针对罚分的计算量增加。在存储Arial时同一组的字符组如第8.2节的表7所示。

图39示出单词识别的结果。该图以各个拍摄角度示出按罚分的升序考虑第一个单词时的识别率和考虑前10个单词时的识别率。识别率随着要处理的字体的数量的增加而减小，其中通过检查前10个单词，识别率与仅检查第一个单词的情况相比平均增加了9.7％。在10种字体和0度的情况下实现了92.3％的识别率。仅通过检查第一个单词不能涵盖正确单词的原因在于：同一组中具有类似方向的不正确字符得到较小的罚分。当检查前20个单词时，与检查前10个单词相比较，识别率平均增加了0.4％，这意味着通过检查前20个以上的单词的误识别是由于除罚分的逆转以外的原因而引起的识别失败。单词识别的失败例子包括：用户无法以字符为单位对组进行细化的情况，以及用户未能获取到单词区域的情况。图40(a)示出获取单词区域时失败的例子。围绕字符串的框边线表示估计出的单词区域的轮廓，其中“estimate”中的“e”与其它字符彼此分离。这确认了：如果为了识别该单词而更加强烈地进行图像的模糊，则多个单词可能越过空格与另一文本图像相组合。因此，今后的课题是改变确定模糊强度的方法，或者利用除使图像模糊的方法以外的方法来获取单词区域。

图41示出验证用的以字符为单位的识别率。进行基于组的识别，并且将获取到的组包括正确的字符类型的情况当作成功识别。字符识别的失败例子包括：由于数据库的数据数量的增加而引起的误识别，以及组合诸如图40(b)的“t”和“u”等的相邻字符和连接成分使得无法进行基于字符的识别的情况。如果基于字符的识别失败一次，则即使对其它字符的识别成功，也无法进行对一个单词的识别。因此，基于字符的识别的精度与基于单词的识别的精度极其相关。对于提高单词识别率而言，字符识别技术的改进、使用词典校正字符识别的错误以及对正确单词的估计都很重要。

最后，将说明与应用的便利性有关的其它性能。单词识别处理所需的时间如图38所示。在10种字体和0度的情况下，字符识别处理所需的时间为每字符3.44毫秒。当要识别具有5个字符的单词的文本时，包括5次字符识别和单词识别的处理时间为23.34毫秒，这意味着在1秒内可以处理约42个单词。因而，可以将实时工作界面安装至商业可用的笔记本个人计算机和照相机。图42示出读取数据库时的存储量。处理10种字体的字母和数字所需的存储量约为397MB。

产业上的可利用性

如上所述，提供了用于实时识别诸如字符或象形图等的模式的简单但高效的方法。具体地，本发明提供可以同时满足以下三种要求的模式识别方法：(1)可以进行实时处理，(2)对射影失真具有鲁棒性，(3)不受布局约束。尽管本说明书没有例示具体数值，但基于该模式识别方法的模式识别设备可以在连接至网络计算机的笔记本个人计算机上实现，并且可以实时工作。

在本实施例的第8节中，采用高速且具有鲁棒性的最近邻搜索法。因而，在数据库中存储了100种字体(存储图像的总数为55800个)并且用作识别对象的字符图像存在劣化(射影失真、分辨力下降、模糊)的条件下，1秒内可以识别出约140个字符。

创建并操作使用环境中的字符串作为链接锚的演示系统。在该演示系统中，提出了考虑到便利性的单词识别方法，并且通过实验示出该单词识别方法的有效性。

附图标记说明

11 图像存储部

12 图像识别部

15 数据库

Claims

1.一种模式识别设备，包括：

提取部，用于从包括至少一个模式成分且预先经过几何变换的查询图像中提取模式成分；

特征获取部，用于获取所述模式成分的相对于所述几何变换保持不变的特征作为查询特征，其中，所述查询特征由包括各自位于所述模式成分上并且基于预定的规则从所述模式成分中检索到的第一特征点、第二特征点和第三特征点的至少三个特征点来表示；

比较部，用于将所述查询特征与多个参考特征进行比较，其中，所述参考特征各自表示被准备作为模式识别的候选的不同的参考模式；以及

模式确定部，用于基于进行比较的特征之间的类似度来确定所述候选中的特定参考模式作为识别结果，其中，

各参考特征是使用基于与所述查询特征的规则相同的规则从各参考模式检索到的特征点来表示的，以及

基于所述规则，在位于所述模式成分上且相对于所述几何变换保持不变的点中指定所述第一特征点的位置，使用与所述模式成分的形状有关且相对于所述几何变换保持不变的特性来指定所述第二特征点的位置，并且根据相对于所述几何变换保持不变的预定值以及所指定的所述第一特征点和所述第二特征点的位置来指定所述第三特征点的位置。

2.根据权利要求1所述的模式识别设备，其特征在于，

在位于所述模式成分的轮廓上的像素中指定所述第一特征点的位置。

3.根据权利要求1或2所述的模式识别设备，其特征在于，

所述特性是重心相对于作为一种所述几何变换的仿射变换保持不变的特性，以及

使用所述特性将所述模式成分的重心指定为所述第二特征点的位置。

4.根据权利要求1或2所述的模式识别设备，其特征在于，

所述特性是面积比相对于作为一种所述几何变换的仿射变换保持不变的特性，以及

根据所述模式成分的轮廓并且使用所述特性基于以下面积比的预定值来指定所述第三特征点的位置，其中，所述面积比是所述模式成分的面积相对于由与所述第一特征点、所述第二特征点和所述第三特征点相对应的顶点所定义的三角形的面积之比。

5.根据权利要求1或2所述的模式识别设备，其特征在于，

所述特征获取部使用以分别连接获取到的三个特征点中的两个特征点的两个线性独立矢量为底边且相对于所述几何变换保持不变的坐标系来获取相对于所述几何变换保持不变的特征。

6.根据权利要求1或2所述的模式识别设备，其特征在于，

所述比较部将所述查询特征和与相应的参考模式有关且存储在哈希表中的参考特征进行比较，其中，

所述哈希表具有多个区间；

各参考特征预先被分类并存储到通过根据参考特征计算预定的哈希函数所确定出的区间之一中；以及

针对每次比较，所述比较部使用通过根据获取到的查询特征计算所述哈希函数所获得的索引来参考适当的区间。

7.根据权利要求6所述的模式识别设备，其特征在于，

各参考特征存储在与获取到的三个特征点的坐标数据有关且与对应于所述参考特征的参考模式的识别符有关的区间中；以及

所述模式确定部基于与所述查询特征有关的各坐标数据相对于与存储在所参考的区间中的各参考特征有关的各坐标数据的匹配，并且基于所述匹配的多数决定原则，来估计所述查询图像的姿势。

8.根据权利要求1、2以及7中任一项所述的模式识别设备，其特征在于，

所述模式确定部具有存储有至少一个离散模式组的离散模式表，其中，各离散模式与所述参考模式之一相对应并且各离散模式组提供一个识别结果；

所述模式确定部参考所述离散模式表，以判断从所述候选中确定出的特定参考模式与离散模式组中的一个离散模式之间是否存在对应关系；并且

当存在所述对应关系且之前已确定与该离散模式组的其它离散模式的对应关系存在时，所述模式确定部将由与确定出的特定参考模式相对应的离散模式所属的离散模式组所提供的识别结果确定为识别结果。

9.根据权利要求8所述的模式识别设备，其特征在于，

所述离散模式表存储离散模式组中一个离散模式相对于另一离散模式的相对位置，以及

当另一确定出的特定参考模式位于由所存储的、相对于与一个确定出的特定参考模式相对应的离散模式的相对位置所指定的位置时，所述模式确定部确定识别结果。

10.根据权利要求1、2、7以及9中任一项所述的模式识别设备，其特征在于：

所述查询图像包括包含多个字符的单词模式，以及

所述模式识别设备还包括：

单词候选确定部，用于获得对所述模式确定部识别出的各字符追踪一次的最短的路径，并且确定所获得的路径的顺序和逆序作为单词的候选；

旋转角确定部，用于获得各字符相对于所述查询图像的预定方向的旋转角；以及

读取顺序确定部，其中，将按所述路径的顺序或逆序彼此相邻的两个字符之间的旋转角之差指定为第一评价指标，基于朝着与位于各候选的任一端的第一字符相邻的第二字符的方向以及与读取方向有关的预定规则来估计所述第一字符应当具有的旋转角，并且将估计出的旋转角与所述旋转角确定部所确定出的所述第一字符的旋转角之差指定为第二评价指标，选择使所述第一评价指标和所述第二评价指标最小的候选，从而确定构成单词的字符的读取顺序。