CN105389578A

CN105389578A - 信息处理装置、信息处理系统以及信息处理方法

Info

Publication number: CN105389578A
Application number: CN201510531717.3A
Authority: CN
Inventors: 铃木薰; 登内洋次郎; 柴田智行; 三原功雄
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2014-08-26
Filing date: 2015-08-26
Publication date: 2016-03-09
Anticipated expiration: 2035-08-26
Also published as: US20160063340A1; US9679217B2; JP2016045877A; CN105389578B; JP6208094B2

Abstract

一种信息处理装置、信息处理系统以及信息处理方法。本发明的实施形态涉及信息处理装置、信息处理系统以及信息处理方法。根据实施形态，信息处理装置基于所述取得的仰角值，确定被输入的图像内的文字的表观形状如何变形。又，信息处理装置对与多种多样地变形的文字的表观形状相对应的多个文字检测辞典进行存储。进一步地，信息处理装置在确定了被输入的图像内的文字的表观形状如何变形后，选择与该确定的文字的表观形状相对应的文字检测辞典。信息处理装置使用选择的文字检测辞典，对被输入的图像执行文字检测处理，检测出该图像中文字存在的区域。

Description

信息处理装置、信息处理系统以及信息处理方法

本申请以日本专利申请2014-171848(申请日：2014年8月26日)为基础，根据该申请享受优先的权益。本申请通过参照该申请，包含该申请的全部内容。

技术领域

本发明的实施形态涉及信息处理装置、信息处理系统以及信息处理方法。

背景技术

一般地，在从用照相机拍摄的图像中检测出招牌或标识、纸面等上记载的文字的情况下，根据记载有文字的文字表面和照相机的视点位置的不同，图像内的文字的表观形状会多种多样地变形(例如，由于受到投影变形)，因此存在难以从图像中稳定并且稳健地检测出文字这样的不良情况。

因此，为了稳定并且稳健地从图像内检测出文字，存在这样的文字检测方法：检测记载有文字的框，并生成将检测到的框的形状修正成了没有变形的状态的图像，从生成的修正后的图像中检测出没有变形的状态的文字。

然而，采用上述的文字检测方法的话，存在以下这样的不良情况：需要文字被记载在已知的框内，在文字被记载在未知的形状的框内的情况下，就无法从图像中稳定并且稳健地检测出文字。

发明内容

本发明的一个形态的目的在于，提供一种能够从图像中稳定并且稳健地检测文字的信息处理装置、信息处理系统以及信息处理方法。

根据实施形态，信息处理装置具有：图像输入单元、仰角取得单元、文字变形确定单元、文字检测辞典存储单元、文字检测辞典选择单元以及文字检测单元。图像输入单元接收通过拍摄记载有文字的文字表面而得到的图像的输入。仰角取得单元对于拍摄所述被输入的图像的拍摄装置，取得拍摄该图像时的该拍摄装置的仰角值。文字变形确定单元基于所述取得的仰角值，确定所述被输入的图像内的文字的表观形状如何变形。文字检测辞典存储单元存储与多种多样地变形的文字的表观形状相对应的多个文字检测辞典。文字检测辞典选择单元在通过所述文字变形确定单元确定了所述被输入的图像内的文字的表观形状如何变形后，从所述文字检测辞典存储单元中选择与该确定的文字的表观形状相对应的文字检测辞典。文字检测单元使用所述选择的文字检测辞典对所述被输入的图像执行文字检测处理，检测出该图像中文字存在的区域。

根据上述结构的信息处理装置，能够从图像中稳定并且稳健地检测出文字。

附图说明

图1是用于对根据看的角度的不同而变形的文字的表观形状的多样性进行说明的图。

图2是示意性地示出照相机的三维旋转的图。

图3是示出一个实施形态所涉及的信息处理装置的构成例的图。

图4是用于对计算仰角值的方法进行说明的图。

图5是用于对计算仰角值的方法进行说明的另一个图。

图6是示出同一实施形态所涉及的仰角区域与文字变形假设的关系的图。

图7是用于对同一实施形态所涉及的文字检测辞典存储部进行说明的图。

图8是用于对同一实施形态所涉及的通过文字检测部执行的缩小处理进行说明的图。

图9是用于对同一实施形态所涉及的检测结果信息进行说明的图。

图10是示出同一实施形态所涉及的信息处理装置的动作的一例的流程图。

图11是示出同一实施形态所涉及的信息处理系统的构成例的图。

图12是示出同一实施形态所涉及的信息处理装置的硬件结构的图。

图13是用于对计算摇摆旋转角度的值的方法进行说明的图。

图14是用于对同一实施形态所涉及的信息处理装置的变形例进行说明的图。

图15是用于对同一实施形态所涉及的信息处理装置的变形例进行说明的另一个图。

图16是用于对同一实施形态所涉及的信息处理装置的变形例进行说明的又一个图。

(符号说明)

10：信息处理装置，11：图像输入部，12：仰角取得部，13：文字变形假设确定部，14：文字检测辞典存储部，15：文字检测辞典选择部，16：文字检测部，17：应用部，18：输出部。

具体实施方式

以下，参照附图对实施形态进行说明。

首先，对从拍摄招牌或标识、纸面(例如，西餐馆的菜单等)而得到的图像(情景图像)中检测招牌或标识、纸面等上记载的文字的情况下产生的问题点进行说明。作为从用照相机拍摄的图像中检测招牌或标识、纸面等上记载的文字的情况下的问题点，根据记载有文字的文字表面和拍摄该文字表面的照相机的视点的位置关系的不同，该文字的表观形状会多种多样地变形，因此存在无法从图像中稳定并且稳健地检测出文字这样的问题点。文字的表观形状例如如图1所示那样多种多样地变形。

图1是用于对根据看的角度而变形的文字的表观形状的多样性进行说明的图。表观形状A1示出从右斜下方拍摄记载有文字“TEXT”的文字表面的情况下的文字的表观形状。又，表观形状A5示出从正前方拍摄记载有文字“TEXT”的文字表面的情况下的文字的表观形状。进一步地，表观形状A9示出从左斜上方拍摄记载有文字“TEXT”的文字表面的情况下的文字的表观形状。在此，取表观形状A1，A5、A9为例进行了说明，但其他的表观形状A2～A4、A6～A8也示出了从各种方向拍摄记载有文字“TEXT”的文字表面的情况下的表观形状。

如图1所示，即使是相同的文字“TEXT”，根据记载有该文字的文字表面和拍摄该文字表面的照相机的视点的位置关系的不同，文字的表观形状也会多种多样地变形。因此，如上所述那样，会产生无法从图像中稳定并且稳健地检测文字这样的问题。

于是，为了从图像中稳定并且稳健地检测文字，提出了各种各样的文字检测方法。

例如，存在以下这样的文字检测方法：从图像中检测记载有文字的文字表面的框，生成将该框的形状修正成了没有变形的状态的图像，从修正后的图像中检测出没有变形的文字。具体来说，提出了：在从图像中检测记载在长方形的板上的文字的情况下，将由水平边缘和垂直边缘以2组平行线包围的四边形作为上述板的框检测出，生成根据该四边形的4顶点的坐标值对该框的变形进行了修正的图像，从修正后的图像中检测出没有变形的文字的文字检测方法。

又，作为其他的文字检测方法，提出有以下这样的文字检测方法：通过基于颜色的区域分割和合并，从图像中提取记载有文字的规定的区域作为框，生成基于该规定的区域的轮廓直线修正了该框的变形的图像，从修正后的图像中检测出没有变形的文字。

然而，采用上述的文字检测方法的话，存在以下这样的不妥：前提是文字被记载在已知形状的框内，无法从图像中稳定并且稳健地检测出被记载在未知的形状的框内的文字或被记载在不具有框的文字表面上的文字。

因此，存在以下这样的文字检测方法：使用能够指导具有各种各样的背景、各种各样地变形了的文字的万能辞典，从没有修正的图像中不检测框地检测出文字。

然而，该文字检测方法存在以下不妥之处：由于使用能够指导具有各种各样的背景、各种各样地变形了的文字的万能辞典，因此能够指导的文字的数量多，对照精度反而下降，容易产生错误检测。

因此，存在不准备万能辞典，而是对文字的表观形状的每种变形的类型准备词典，对于输入图像与全部的辞典进行对照，由此检测出文字的检测方法。然而，由于与全部的辞典进行对照，因此存在直到文字检测处理结束为止所经过的时间会超时这样的不妥。

如以上所说明的那样，在从图像中检测文字的一般的文字检测方法中，无法全部解决框的限制、辞典的对照精度的下降、对照时间的超时之类的问题。因此，在本实施形态中，提出一种信息处理装置，能够解决上述的各问题，执行能够从图像中稳定并且稳健地检测出文字的文字检测处理。

下面，对一种实施方式所涉及的信息处理装置10的结构进行说明，但在这之前，对信息处理装置10执行检测图像内的文字的文字检测处理时考虑的、与照相机姿势有关的前提条件进行说明。

具有照相机功能的终端装置(以下仅记为“照相机”)一般能够由使用者(拍摄者、用户)使其三维旋转。总之，使用者既可以在三维空间中将照相机朝向上下左右方向，也可以向斜向方向倾斜。图2是示意性地示出上述的照相机的三维旋转的图。图2的101表示照相机的视点位置。图2的102表示照相机的拍摄面。拍摄面102的中心是图像中心103。通过照相机的视点位置101、相对于地面在水平方向上延伸的坐标轴为X轴104。又，通过照相机的视点位置101、相对于地面在垂直方向上延伸的坐标轴为Y轴105。进一步地，设置与X轴104和Y轴105正交的Z轴107的话，则Z轴107也是相对于地面在水平方向上延伸的坐标轴。即，通过X轴104和Z轴107扩展开的X-Z平面相对于地面为水平，通过Y轴105和Z轴107扩展开的Y-Z平面相对于地面为垂直。

在此，从照相机的视点位置101延伸到拍摄面102的法线方向(换言之，连结照相机的视点位置101和图像中心103的线段延伸的方向)的轴为示出照相机的朝向的光轴106。此时，光轴106始终位于Y-Z平面内。照相机姿势是指拍摄面102的三维姿势，能够用以照相机的视点位置101为中心的按照Y轴105、X轴104、光轴106的顺序进行的绕各轴的旋转的角度值来表示。

绕Y轴旋转的旋转角由于与改变照相机的水平面内的朝向的横摇旋转(PAN旋转)有关而被称为，“横摇旋转角”。通过PAN旋转，X轴104和Z轴107、换言之X-Z平面为水平旋转的平面。随着X-Z平面的旋转，包含光轴106的Y-Z平面也水平旋转。即，通过PAN旋转，光轴106(换言之，拍摄面102)的水平朝向变化。

另一方面，绕X轴旋转的旋转角由于与改变照相机的垂直面内的朝向的俯仰旋转(TILT旋转)有关而被称为，“俯仰旋转角”。通过TILT旋转，光轴106在Y-Z平面内旋转。即，通过TILT旋转，光轴106(换言之，拍摄面102)的垂直朝向变化。此时，将位于Y-Z平面内的光轴106与Z轴107构成的角定义为仰角，光轴106与Z轴107一致时仰角值为0，光轴106朝向Z轴107上方的话，仰角值为正，朝向下方的话，仰角值为负。

进一步地，绕光轴106旋转的旋转角由于与使拍摄面102以图像中心103为中心旋转的摇摆旋转(SWING旋转)有关而被称为“摇摆旋转角”。即，照相机姿势(拍摄面102的姿势)通过横摇旋转角、俯仰旋转角以及摇摆旋转角来表示。并且，其中的俯仰旋转角为仰角。

在本实施形态中，假定存在与上述的照相机姿势有关的(与使用者的拍摄行为有关)两个前提条件。

(前提条件1)使用者向着拍摄对象摆放照相机，因此假定在照相机朝向斜上方或斜下方、或者朝向正面方向(换言之，俯仰旋转角(仰角)例如为-80°～+80°)的情况下，照相机就拍摄招牌或标识等、相对于地面大致垂直的文字表面。同样地，假定在照相机朝向正上方方向或正下方方向(换言之，俯仰旋转角(仰角)例如为+80～+90°，-90°～-80°)的情况下，照相机就拍摄天花板或桌上放置的纸面等、相对于地面大致水平的文字表面。

(前提条件2)假定使用者仅控制俯仰旋转和横摇旋转地(换言之，仅改变俯仰旋转角和横摇旋转角)摆放照相机。也就是说，假定使用者基本不进行摇摆旋转，例如，对着拍摄对象地向倾斜方向倾斜照相机的行为。

本实施形态所涉及的信息处理装置10在考虑了上述的两个前提条件的基础上执行文字检测处理。

图3是示出一个实施形态所涉及的信息处理装置的构成例的图。如图3所示，信息处理装置10具有：图像输入部11、仰角取得部12、文字变形假设确定部13、文字检测辞典存储部14、文字检测辞典选择部15、文字检测部16、应用部17以及输出部18。下面，除了参照图3以外，还一边参照图4～图9，一边对各部11～18进行详细的说明。

图像输入部11具有在接收通过照相机拍摄的图像的输入后，将该接收了输入的图像(输入图像)输出给文字检测部16的功能。仰角取得部12具有取得对被输入到图像输入部11的输入图像进行拍摄时的照相机的仰角值，将该取得的仰角值输出给文字变形假设确定部13的功能。

在此，一边参照图4以及图5，一边对针对照相机计算上述的仰角值的方法进行详细的说明。

图4是定义了具有照相机功能的终端装置固有的坐标系和基于此示出该终端装置的姿势的旋转角的图。在图4的终端装置201中，如图中左边的俯视图所示，预先定义以终端右方为正的俯仰(Pitch)轴x和与其正交的以终端上方为正的偏转(Yaw)轴y。又，如图中右边的侧视图所示，预先定义以终端纵深方向为正的滚转(Roll)轴z。此时，滚转轴z与俯仰轴x和偏转轴y正交，通过俯仰轴x、偏转轴y以及滚转轴z，对终端装置201固有地定义xyz三维坐标。

这样，定义了坐标系xyz时，就能够以绕各轴旋转的旋转角来表示终端装置201的姿势。绕俯仰轴x旋转的旋转角被称为“俯仰角”，以“θ(Theta)”表示。又，绕偏转轴y旋转的旋转角被称为“偏转角”，以“φ(Pai)”表示。进一步地，绕滚转轴z旋转的旋转角被称为“滚转角”，以“ψ(Psi)”表示。即，通过该俯仰角θ、偏转角φ、滚转角ψ能够唯一地表示终端装置201的姿势。

另外，终端装置201在滚转轴z正方向的面上具有摄影部202，该光轴203被调整成与滚转轴z大致平行。也就是说，计算滚转轴z的自水平面的上下角度的话，就能够近似地计算出光轴203的仰角。

又，终端装置201除了具有上述的摄影部202，还具有三轴的加速度传感器204。该加速度传感器204输出俯仰轴x、偏转轴y、滚转轴z各自的方向的加速度值A(x)、A(y)、A(z)。

在使用者摆放好上述的终端装置201，使摄影部202向着拍摄对象静止并进行拍摄的情况下，作用于加速度传感器204的加速度仅为重力。即，以该状态观测到的加速度传感器的输出值A(x)、A(y)、A(z)可以分别看成对重力加速度G进行矢量分解后的x轴成分、y轴成分、z轴成分。

图5是终端装置201的侧视图。图中的仰角β在滚转轴z水平时为0，向上时为正值，向下时为负值。又，表示重力加速度G的z轴成分的加速度值A(z)在滚转轴z水平时为0，向上时为负值，向下时为正值。也就是说，在终端装置201静止的状态下的话，基于下面的(1)式，能够根据重力加速度G的大小和加速度值A(z)计算出仰角β。

β＝sin-1(-A(z)/G)···(1)

仰角取得部12取得如上所述计算出的仰角(仰角值)，输出给文字变形假设确定部13。

再次回到图3的说明，文字变形假设确定部13确定从仰角取得部12输出的仰角值被包含于后述的哪个仰角区域。通过确定仰角区域，文字变形假设确定部13通过考虑上述的前提条件1、2，能够确定图像拍摄时拍摄对象位于哪个方向。又，文字变形假设确定部13通过确定拍摄对象位于哪个方向，能够预测记载在作为拍摄对象的文字表面上的文字的表观形状如何变形。在本实施形态中，将上述预测的结果称为“文字变形假设”。文字变形假设确定部13预测文字的表观形状如何变形后，即，导出文字变形假设后，将该导出的文字变形假设输出给文字检测辞典选择部15。

在此，一边参照图6，一边对上述的仰角区域进行详细的说明。

图6是示出仰角区域与文字变形假设的关系的图。仰角区域用于确定从照相机来看作为拍摄对象的文字表面位于哪个方向，确定作为拍摄对象的文字表面是相对于地面大致水平的文字表面还是大致垂直的文字表面。在图6中示出了定义了5个仰角区域A～E的情况。

例如，仰角区域A是与仰角值β为“+80°＜β≦+90°”的情况对应的区域。也就是说，在从仰角取得部12输出的仰角值β被包含于仰角区域A的情况下，文字变形假设确定部13能够确定作为拍摄对象的文字表面位于照相机的正上方方向，该文字表面是相对于地面大致水平的文字表面301。同样地，仰角区域B是与仰角值β为“+30°＜β≦+80°”的情况对应的区域。也就是说，在从仰角取得部12输出的仰角值β被包含于仰角区域B的情况下，文字变形假设确定部13能够确定作为拍摄对象的文字表面位于照相机的斜上方方向，该文字表面是相对于地面大致垂直的文字表面302。进一步地，仰角区域C是与仰角值β为“-30°＜β≦+30°”的情况对应的区域。也就是说，在从仰角取得部12输出的仰角值β被包含于仰角区域C的情况下，文字变形假设确定部13能够确定作为拍摄对象的文字表面位于照相机的正面方向，该文字表面是相对于地面大致垂直的文字表面303。又，仰角区域D是与仰角值β为“-80°＜β≦-30°”的情况对应的区域。也就是说，在从仰角取得部12输出的仰角值β被包含于仰角区域D的情况下，文字变形假设确定部13能够确定作为拍摄对象的文字表面位于照相机的斜下方方向，该文字表面是相对于地面大致垂直的文字表面304。进一步地，仰角区域E是与仰角值β为“-90°＜β≦-80°”的情况对应的区域。也就是说，在从仰角取得部12输出的仰角值β被包含于仰角区域E的情况下，文字变形假设确定部13能够确定作为拍摄对象的文字表面位于照相机的正下方方向，该文字表面是相对于地面大致水平的文字表面305。

如图6所示，各仰角区域A～E分别对应于文字变形假设401～405。即，文字变形假设确定部13在确定仰角值被包含于哪个仰角区域后，能够确定作为拍摄对象的文字表面上记载的文字的表观形状如何变形(文字变形假设)。

例如，在仰角值β被包含于仰角区域A或者仰角区域E的情况下，由于拍摄者(使用者)能够从大致正面观看作为拍摄对象的文字表面301、305，因此文字变形假设确定部13能够确定，文字的表观形状成为通过图6的文字变形假设401、405示出的形状。另外，在本实施形态中，作为拍摄对象的文字表面上记载有文字“TEXT”。

又，在仰角值β被包含于仰角区域B的情况下，由于拍摄者能够从斜下方方向以向其左右活动了视点的状态观看作为拍摄对象的文字表面，因此文字变形假设确定部13能够确定，文字的表观形状成为通过图6的文字变形假设402示出的形状(变形)。进一步地，在仰角值β被包含于仰角区域C的情况下，由于拍摄者能够从正面以向其左右活动了试点的状态观看作为拍摄对象的文字表面，因此文字变形假设确定部13能够确定，文字的表观形状成为通过图6的文字变形假设403示出的形状。又，在仰角值β被包含于仰角区域D的情况下，由于拍摄者能够从斜上方方向以向其左右活动了试点的状态观看作为拍摄对象的文字表面，因此文字变形假设确定部13能够确定，文字的表观形状成为通过图6的文字变形假设404示出的形状。

再次回到图3的说明，文字检测辞典存储部14是将文字检测部16所使用的多个辞典(文字检测辞典)与文字变形假设相对应地进行存储的存储装置。具体来说，如图7所示，在文字检测辞典存储部14中存储有数量与文字变形假设的种类的数量相应的辞典。在图7中，由于文字变形假设401、405表示相同的表观形状，因此示出4个辞典501～504被存储于文字检测辞典存储部14中的情况。辞典被用于评价在文字检测处理时使用的局部图像是文字还是非文字。

文字检测辞典选择部15具有从文字检测辞典存储部14中选择(取得)与通过文字变形假设确定部13确定的文字变形假设相对应的辞典的功能。被选择的辞典被输出给文字检测部16。

文字检测部16对从图像输入部11输出的输入图像执行缩小处理，并生成所谓的分辨率金字塔，在该分辨率金字塔上探索·检测文字。

在此，一边参照图8，一边对上述的缩小处理进行详细的说明。

图8是用于对通过文字检测部16执行的缩小处理进行说明的图。如图8所示，文字检测部16以一定比率r(其中，0＜r＜1)依次缩小输入图像601，生成1个以上的调整图像602、603。生成的调整图像的数量，换言之，上述的缩小处理被执行的次数，取决于规格上的应检测的文字的最小尺寸和最大尺寸。与分辨率最高的输入图像601上应检测的文字的大小相符地决定图8中示出的检测窗口605的大小。即，该检测窗口605的大小成为规格上的应检测的文字的最小尺寸。在被乘以一定比率r而缩小了的调整图像602、603上，相同大小的检测窗口605所覆盖的输入图像601上的范围变宽，被检测出的文字的大小也随之变大。文字检测部16生成调整图像，直到该文字的大小超出规格上的应检测的文字的最大尺寸为止。这样，文字检测部16生成1个以上的调整图像后，如图8所示，将输入图像601和调整图像602、603合起来生成分辨率金字塔图像604。

文字检测部16生成分辨率金字塔图像后，在被包含于所生成的分辨率金字塔图像的各图像上扫描规定尺寸的检测窗口605，截取各位置处的检测窗口605内的图像，生成多个局部图像。又，文字检测部16根据生成的多个局部图像和由文字检测辞典选择部15选择的辞典，执行文字检测处理。具体来说，文字检测部16将上述的各局部图像和上述选择的辞典对照，分别计算出表示文字相似性的分数，分别判定这些各分数是否超过了规定的阈值。由此，能够判定(评价)各局部图像是否是包含文字的图像。根据上述判定结果，文字检测部16对被判定为包含文字的图像的局部图像赋予表示是文字的第一代码，对被判定为不包含文字的图像(换言之，包含非文字的图像)的局部图像赋予表示非文字的第二代码。由此，文字检测部16能够将被赋予了第一代码的局部图像所存在的区域(换言之，截取被赋予了第一代码的局部图像的检测窗口所位于的区域)作为文字存在的区域检测出。示出输入图像上文字存在的区域的检测结果信息被输出给应用部17。检测结果信息是指，例如如图9的(a)以及图9的(b)所示，是用矩形的框示出输入图像上文字存在的区域的信息。

另外，作为对于上述检测窗口内的局部图像评价文字相似性的分数计算方法，可以利用局部空间法或支持向量机等公知的图案识别方法实现，因此在本实施形态中省略其详细说明。并且，在上述检测结果信息中，对各检测窗口赋予了上述分数。

应用部17使用从文字检测部16输出的检测结果信息，执行预先安装的应用固有的处理。例如，在预先安装有能够执行文字确认处理的应用(例如，具有OCR功能的应用等)的情况下，应用部17利用由检测结果信息示出的文字所存在的区域，提取出字符串的图像图案，对被提取的字符串的图像图案执行文字确认处理，取得与该区域内的文字相对应的文字代码列。

作为从被定为文字存在的、大小不同的多个检测窗口的信息提取字符串的图像图案的方法，例如有非专利文献“AHybridApproachtoDetectandLocalizeTextsinNaturalSceneImages”中揭示的方法。在该方法中，根据从“TextRegionDetector”得到的检测窗口的位置和分数，生成“textconfidencemap”和“textscalemap”，以后者决定“Niblack的三值化”的阈值，将图像分解为连接成分。又，对使用前者和其他特征构成文字的连接成分进行分类，解析其邻接关系以得到字符串和构成该字符串的图像图案。在本发明中，作为该文献中记载的“TextRegionDetector”的输出，可以利用由检测窗口和分数的组构成的所述检测结果信息。

或者，预先将图像适应性地二值化·标记以得到连接成分，更单纯地将上述检测结果信息的文字存在的区域作为遮罩(マスク)，仅提取该遮罩内包含的连接成分，同样也能解析其邻接关系，得到字符串和构成该字符串的图像图案。

另外，在以OCR确认图像中的文字的情况下，应用部17也能检索与取得的文字代码列有关的信息。具体来说，能够根据商品名称检索其价格或规格等信息，根据地名或名胜的名称等获得到该处的地图信息，将某种语言翻译成另一语言。示出通过应用部17执行的处理的结果的处理结果信息被输出给输出部18。

输出部18具有通过信息处理装置10的未图示的显示器等将从应用部17输出的处理结果信息向用户提示的功能。另外，上述的应用部17以及输出部18是为了利用上述的文字检测处理的结果而设置的功能部，也可以作为与信息处理装置10不同的装置的功能部而设置。

接下来，参照图10的流程图，对信息处理装置10的动作的一例进行简单的说明。

首先，图像输入部11接收通过照相机拍摄的图像的输入后，将该接收了输入的图像输出给文字检测部16(步骤S1)。接着，仰角取得部12取得被输入到图像输入部11的图像被拍摄时的照相机的仰角值，将该取得的仰角值输出给文字变形假设确定部13(步骤S2)。

接着，文字变形假设确定部13确定由仰角取得部12取得的仰角值被包含于哪个仰角区域，且确定与该确定的仰角区域相对应的文字变形假设(步骤S3)。

接着，文字检测辞典选择部15从文字检测辞典存储部14中选择与通过文字变形假设确定部13确定的文字变形假设相对应的辞典(步骤S4)。然后，文字检测部16使用从图像输入部11输出的图像和通过文字检测辞典选择部15选择的辞典，执行文字检测处理(步骤S5)。

接着，应用部17使用通过文字检测部16执行的文字检测处理的结果，执行各种应用固有的处理(步骤S6)。此后，输出部18对用户提示通过应用部17执行的处理的结果(步骤S7)，结束在信息处理装置10的处理。

接着，参照图11，对信息处理系统的构成例进行说明。

图11是示出将上述的信息处理装置10所具有的各种功能分开安装于客户端装置和服务器装置的信息处理系统的构成例的图。图11的信息处理系统20具有客户端装置30以及服务器装置40。客户端装置30如图11所示，除了具有上述的图像输入部11、仰角取得部12以及输出部18，还具有通信部31。服务器装置40如图11所示，除了具有上述的文字变形假设确定部13、文字检测辞典存储部14、文字检测辞典选择部15、文字检测部16以及应用部17，还具有通信部41。

客户端装置30通过通信部31执行以下处理：将输入到图像输入部11的输入图像和通过仰角取得部12取得的仰角值输出给服务器装置40。又，客户端装置30在通过通信部31接收到通过服务器装置40内的应用部17执行的各种应用固有的处理的结果后，执行通过输出部18将该结果向用户提示的处理。

服务器装置40通过通信部41接收到从客户端装置30输出的输入图像和仰角值的输入后，使用该输入图像和该仰角值执行文字检测处理。又，服务器装置40执行以下处理：使用作为上述的文字检测处理的结果得到的信息，执行各种应用固有的处理，通过通信部41将作为该处理的结果得到的信息输出给客户端装置30。

接着，参照图12，对信息处理装置10的硬件构成例进行说明。

图12是示出信息处理装置的硬件结构例的图。图12的信息处理装置10具有：CPU51、RAM52、ROM53、HDD54、LAN55、输入设备56、显示器57、外部接口58、外部存储设备59、照相机60以及姿势传感器61。

CPU51是控制信息处理装置10内的构件的处理器。CPU51执行从HDD54下载到RAM52的文字检测程序。CPU51通过执行该文字检测程序，能够作为构成为执行上述的文字检测处理的处理部而发挥作用。另外，CPU51也能够从外部存储设备59(例如USB设备等)将文字检测程序下载到RAM52中，并执行该文字检测程序。从外部存储设备59不只能下载文字检测程序，还能下载文字检测处理执行时使用的图像或示出仰角值的信息。

输入设备56是键盘、鼠标、触摸板、其他各种输入设备。显示器57是能够显示通过信息处理装置10执行的各种处理的结果的设备。照相机60是能对能够成为文字检测处理的对象的图像进行拍摄的设备。姿势传感器61是能够取得照相机60的仰角值的设备。

以上说明的一种实施方式中，假定存在与上述的照相机姿势有关的两个前提条件1、2，但是前提条件2也可以替换为下面示出的前提条件2’。

(前提条件2’)假定使用者不仅控制俯仰旋转和横摇旋转，还控制摇摆旋转地摆放照相机，以使文字在图像内尽量不旋转。也就是说，被拍摄的图像内的文字成为大致水平。

即使将前提条件2替换为前提条件2’，需要将文字变形假设的一部分替换为示出字符串为水平的文字的表观形状的文字变形假设，但是信息处理装置10也能执行与上述的文字检测处理相同的文字检测处理。

又，在本实施形态中，信息处理装置10仅使用仰角值执行文字检测处理，但信息处理装置10也可以进一步使用摇摆旋转角的值执行文字检测处理。通过这样做，能够判定摇摆旋转角的绝对值越大，图像内的字符串越倾斜(不水平)，因此能够更细致地确定文字变形假设，进而能够减少文字检测处理所使用的辞典的数量，因此能够缩短文字检测处理所需要的时间。

下面，一边参照图13，一边对计算照相机的上述的摇摆旋转角的值的方法进行补充说明。在以下的说明中，图4以及图5共同的部分采用相同的符号，省略其详细说明。

一般来说，各旋转角θ、φ、ψ的原点和朝向可以任意定义。在此，关于俯仰角θ和偏转角φ，在将终端装置201被放置为水平时、即滚转轴z变为铅垂向下时分别假定为0(原点)，将拿起终端装置201上边的方向(在俯仰轴x方向看向右旋转)假定为俯仰角θ的正方向，将拿起终端装置201右边的方向(在偏转轴y方向看向左旋转)假定为偏转角φ的正方向。又，对于滚转角ψ，将仰角为0、即滚转轴z为水平，并且俯仰轴x为水平(换言之，偏转轴y为垂直)时假定为0(原点)，将在滚转轴z方向看向左旋转的方向假定为偏转角的正方向。

又，假定摄影部202的拍摄面的横轴和纵轴均大致平行于俯仰轴x和偏转轴y也就是说，通过计算滚转角ψ，能够近似计算出摇摆旋转角度。

绕滚转轴z的旋转是在终端装置201的xy平面内的旋转。即，如图13所示，能够根据加速度值A(x)、A(y)近似计算出终端装置201的滚转角ψ，简而言之，能够近似计算出拍摄面的摇摆旋转角。另外，只要滚转轴z不与重力加速度G平行，观测重力加速度G得到的x轴成分A(x)和y轴成分A(y)就不会同时为0。因此，以以下的(2)式计算出的A(x)和A(y)的合成矢量的长度G_xy也不会变为0。

G_{x y} = \sqrt{A {(x)}^{2} + A {(y)}^{2}} ... (2)

此时，滚转角ψ能够以以下示出的(3)式计算。另外，G_xy为0时，为方便起见，令滚转角ψ为0。

根据以上说明的一种实施方式，由于具有根据照相机的仰角值确定预先定义的文字变形假设，使用与该确定的文字变形假设相对应的辞典执行文字检测处理的结构，因此能够解决上述的框的限制、辞典的对照精度的下降、对照时间的超时之类的问题，稳定(高效率地)并且稳健(高精度)地检测出图像内的文字。

以下，对变形例进行说明。

(变形例1)

在上述的实施形态中，对定义了分别与仰角区域A～E对应的5个文字变形假设401～405作为文字变形假设的情况进行了说明，但被定义的文字变形假设的数量也可以不是各仰角区域各一个。如图6所示，由于文字的表观形状从正上方方向、正下方方向、正前方方向看到的文字的表观形状是相同的，因此能够分类为9类。因此，也可以将这9类文字的表观形状分别定义为文字变形假设。

在这种情况下，如图14所示，仰角区域A对应一个文字变形假设415，仰角区域B对应三个文字变形假设411～413，仰角区域C对应三个文字变形假设414～416，仰角区域D对应三个文字变形假设417～419，仰角区域E对应一个文字变形假设415。又，由于文字检测辞典存储部14中存储有数量与文字变形假设的种类个数相应的被区分情况的辞典，因此如图14所示，存储有分别对应于文字变形假设411～419的辞典511～519。

(变形例2)

在上述的实施形态中，对定义了5个仰角区域A～E作为与通过仰角取得部12取得的仰角值相对应的仰角区域的情况进行了说明，但是被定义的仰角区域的数量也可以不是5个。例如，也可以在各仰角区域A～E的边界部定义4个新的仰角区域。

具体来说，如图15所示，可以在仰角区域A和仰角区域B之间定义新的仰角区域AB，在仰角区域B和仰角区域C之间定义新的仰角区域BC，在仰角区域C和仰角区域D之间定义新的仰角区域CD，在仰角区域D和仰角区域E之间定义新的仰角区域DE。如图15所示，在定义了9个仰角区域的情况下，各仰角区域与仰角值的对应关系例如变为以下所述。仰角区域A成为与仰角值β为“+85°＜β≦+90°”的情况对应的区域。仰角区域AB成为与仰角值β为“+60°＜β≦+85°”的情况对应的区域。仰角区域B成为与仰角值β为“+40°＜β≦+60°”的情况对应的区域。仰角区域BC成为与仰角值β为“+10°＜β≦+40°”的情况对应的区域。仰角区域C成为与仰角值β为“-10°＜β≦+10°”的情况对应的区域。仰角区域CD成为与仰角值β为“-40°＜β≦-10°”的情况对应的区域。仰角区域D成为与仰角值β为“-60°＜β≦-40°”的情况对应的区域。仰角区域DE成为与仰角值β为“-85°＜β≦-60°”的情况对应的区域。仰角区域E成为与仰角值β为“-90°＜β≦-85°”的情况对应的区域。

另外，在由仰角取得部12取得的仰角值被包含于新定义的边界部的仰角区域的情况下，文字变形假设确定部13确定多个文字变形假设。例如，假设如上所述定义了9个仰角区域，并且如上述的变形例1所示的那样定义了9个文字变形假设的情况。在该假设下，在仰角值被包含于仰角区域AB的情况下，文字变形假设确定部13将分别对应于仰角区域A、B的文字变形假设411～413、415确定为文字变形假设。同样地，在仰角值被包含于仰角区域BC的情况下，文字变形假设确定部13将分别对应于仰角区域B、C的文字变形假设411～416确定为文字变形假设。又，在仰角值被包含于仰角区域CD的情况下，文字变形假设确定部13将分别对应于仰角区域C、D的文字变形假设414～419确定为文字变形假设。进一步地，在仰角值被包含于仰角区域DE的情况下，文字变形假设确定部13将分别对应于仰角区域D、E的文字变形假设415、417～419确定为文字变形假设。

由此，文字检测辞典选择部15在仰角值被包含于仰角区域AB的情况下，如图16所示，能够选择分别对应于仰角区域A、B的文字变形假设411～413、415所对应的辞典511～513、515。同样地，在仰角值被包含于仰角区域BC的情况下，文字检测辞典选择部15能够选择分别对应于仰角区域B、C的文字变形假设411～416所对应的辞典511～516。又，在仰角值被包含于仰角区域CD的情况下，文字检测辞典选择部15能够选择分别对应于仰角区域C、D的文字变形假设414～419所对应的辞典514～519。进一步地，在仰角值被包含于仰角区域DE的情况下，文字检测辞典选择部15能够选择分别对应于仰角区域D、E的文字变形假设415、417～419所对应的辞典515、517～519。

通过这样做，信息处理装置10能够对文字变形假设进行更精密地假设，因此能够提高文字检测精度。

另外，本实施形态的处理能够通过计算机程序实现，因此只要通过存储该计算机程序的能够用计算机读取的存储介质将该计算机程序安装于计算机并执行，就能够容易地实现和本实施形态相同的效果。

另外，虽对本发明的几个实施形态进行了说明，但这些实施形态是作为实例来提出，并没有限定发明的范围的意图。这些新的实施方式能够以其他各种各样的方式来实施，能够在不脱离发明的要点的范围内，进行种种省略、置换、变更。这些实施形态或其变形被包含于发明的范围或要点，且被包含于权利要求书记载的发明及其相等的范围。

本实施形态包含以下特征。

[附记1]

一种信息处理装置，其特征在于，具有：

图像输入单元，其接收通过拍摄记载有文字的文字表面而得到的图像的输入；

仰角取得单元，其对于拍摄所述被输入的图像的拍摄装置，取得拍摄该图像时的该拍摄装置的仰角值；

文字变形确定单元，其根据所述取得的仰角值，确定所述被输入的图像内的文字的表观形状如何变形；

文字检测辞典存储单元，其对与多种多样地变形的文字的表观形状相对应的多个文字检测辞典进行存储；

文字检测辞典选择单元，其在由所述文字变形确定单元确定了所述被输入的图像内的文字的表观形状如何变形后，从所述文字检测辞典存储单元选择与该确定的文字的表观形状相对应的文字检测辞典；以及

文字检测单元，其使用所述被选择的文字检测辞典，对所述被输入的图像执行文字检测处理，检测出该图像中文字存在的区域。

[附记2]

在附记2中，所述文字变形确定单元通过确定所述取得的仰角值包含于预先定义的多个仰角区域中的哪个，来确定所述被输入的图像内的文字的表观形状如何变形。

[附记3]

在附记3中，所述各仰角区域是，与位于所述拍摄装置的正上方方向的文字表面相对应的第一仰角区域、与位于所述拍摄装置的斜上方方向的文字表面相对应的第二仰角区域、与位于所述拍摄装置的正面方向的文字表面相对应的第三仰角区域、与位于所述拍摄装置的斜下方方向的文字表面相对应的第四仰角区域、以及与位于所述拍摄装置的正下方方向的文字表面相对应的第五仰角区域中的任意一个。

[附记4]

一种具有客户端装置以及服务器装置的信息处理系统，所述信息处理系统的特征在于，

所述服务器装置具有：

仰角取得单元，其对于拍摄所述被输入的图像的客户端装置，取得拍摄该图像时的该客户端装置的仰角值；

[附记5]

一种信息处理方法，其是通过具有文字检测辞典存储部的信息处理装置执行的信息处理方法，所述文字检测辞典存储部对与多种多样地变形的文字的表观形状相对应的多个文字检测辞典进行存储，所述信息处理方法的特征在于，具有：

图像输入步骤，接收通过拍摄记载有文字的文字表面而得到的图像的输入；

仰角取得步骤，对于拍摄所述被输入的图像的拍摄装置，取得拍摄该图像时的该拍摄装置的仰角值；

文字变形确定步骤，根据所述取得的仰角值，确定所述被输入的图像内的文字的表观形状如何变形；

文字检测辞典选择步骤，在由所述文字变形确定步骤确定了所述被输入的图像内的文字的表观形状如何变形后，从所述文字检测辞典存储部选择与该确定的文字的表观形状相对应的文字检测辞典；以及

文字检测步骤，使用所述被选择的文字检测辞典，对所述被输入的图像执行文字检测处理，检测出该图像中文字存在的区域。

[附记6]

一种通过计算机执行的程序，所述程序的特征在于，所述程序使所述计算机作为以下单元动作：

文字检测辞典选择单元，其在由所述文字变形确定单元确定了所述被输入的图像内的文字的表观形状如何变形后，从对与多种多样地变形的文字的表观形状相对应多个文字检测辞典进行存储的文字检测辞典存储部选择与该确定的文字的表观形状相对应的文字检测辞典；以及

Claims

1.一种信息处理装置，其特征在于，具有：

仰角取得单元，其对于拍摄被输入的图像的拍摄装置，取得拍摄该图像时的该拍摄装置的仰角值；

文字变形确定单元，其根据取得的仰角值，确定所述被输入的图像内的文字的表观形状如何变形；

文字检测辞典存储单元，其对与多种多样地变形了的文字的表观形状相对应的多个文字检测辞典进行存储；

文字检测单元，其使用被选择的文字检测辞典，对所述被输入的图像执行文字检测处理，检测出该图像中文字存在的区域。

2.如权利要求1所记载的信息处理装置，其特征在于，

所述文字变形确定单元通过确定所述取得的仰角值包含于预先定义的多个仰角区域中的哪个，来确定所述被输入的图像内的文字的表观形状如何变形。

3.如权利要求2所记载的信息处理装置，其特征在于，

各仰角区域是，与位于所述拍摄装置的正上方方向的文字表面相对应的第一仰角区域、与位于所述拍摄装置的斜上方方向的文字表面相对应的第二仰角区域、与位于所述拍摄装置的正面方向的文字表面相对应的第三仰角区域、与位于所述拍摄装置的斜下方方向的文字表面相对应的第四仰角区域、以及与位于所述拍摄装置的正下方方向的文字表面相对应的第五仰角区域中的任意一个。

4.一种具有客户端装置以及服务器装置的信息处理系统，所述信息处理系统的特征在于，

所述服务器装置具有：

仰角取得单元，其对于拍摄被输入的图像的客户端装置，取得拍摄该图像时的该客户端装置的仰角值；

5.一种信息处理方法，其是通过具有文字检测辞典存储部的信息处理装置执行的信息处理方法，所述文字检测辞典存储部对与多种多样地变形了的文字的表观形状相对应的多个文字检测辞典进行存储，所述信息处理方法的特征在于，具有：

仰角取得步骤，对于拍摄被输入的图像的拍摄装置，取得拍摄该图像时的该拍摄装置的仰角值；

文字变形确定步骤，根据取得的仰角值，确定所述被输入的图像内的文字的表观形状如何变形；

文字检测步骤，使用被选择的文字检测辞典，对所述被输入的图像执行文字检测处理，检测出该图像中文字存在的区域。