CN1595944B - 信息处理装置、信息处理方法及软件产品 - Google Patents
信息处理装置、信息处理方法及软件产品 Download PDFInfo
- Publication number
- CN1595944B CN1595944B CN2004100771937A CN200410077193A CN1595944B CN 1595944 B CN1595944 B CN 1595944B CN 2004100771937 A CN2004100771937 A CN 2004100771937A CN 200410077193 A CN200410077193 A CN 200410077193A CN 1595944 B CN1595944 B CN 1595944B
- Authority
- CN
- China
- Prior art keywords
- camera
- display
- dictionary
- user
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/142—Image acquisition using hand-held instruments; Constructional details of the instruments
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Telephone Function (AREA)
- Image Processing (AREA)
- Character Discrimination (AREA)
- Editing Of Facsimile Originals (AREA)
- Telephone Set Structure (AREA)
- Image Input (AREA)
- User Interface Of Digital Computer (AREA)
- Studio Devices (AREA)
Abstract
本发明提出一种信息处理装置,其包括:一个输出对象的图片信息的照相机,一个显示器和一个输入单元。在一个实例中,用户可以使用输入单元从普通图像拍摄模式和字符识别模式中选择一种模式。照相机所处的位置使得对象的显示图像和用户看到的对象视图基本一致。在另一个实例中,可以通过输入单元选择信息类型。CPU提取所选择的信息类型对应的字符串。此外,当用户请求与识别出的字符串相关的信息时,经由网络发送所识别字符串中包含的标识信息。
Description
本申请要求享有2003年9月9日提交的日本申请2003-316179号的优先权,其公开的内容也全部结合在此作为参考。
发明领域
本发明涉及一种信息处理装置,如移动蜂窝电话、PHS(个人手持电话系统)、PDA(个人数字助理)、便携式电脑或手持个人电脑以及该装置所采用的信息处理方法和该装置所使用的软件。
背景技术
公开号为2002-252691的日本专利公开了一种能够使用OCR(光字符识别)功能输入地址、电话号码和URL(统一资源定位器)等打印信息的移动电话终端。
纸张上写的字符的实际位置和在显示器上所显示的该字符的位置往往存在一定的差异,所以,让用户指定识别区域有时会是一件很困难的事。
因此,有必要提供一种改进的信息处理方法和信息处理装置。
发明内容
为满足上述需求,本发明提出了一种信息处理装置,该信息处理装置包括:照相机,其输出对象的图片信息;显示器,其根据该照相机输出的图片信息显示图像;输入单元,其可以使用户从该照相机的多种模式中选择一种模式,所述的多种模式包括作为普通照相机功能拍摄图片的普通图像拍摄模式和识别由该照相机输出的图片信息中包含的字符的识别模式。该照相机所处的位置使得对象的显示图像与用户看到的对象基本上一致。
为了使用户指出识别区域的操作更容易,本发明提出一种信息处理装置,包括:图片接口,其将图片信息输入该信息处理装置;输入单元,其输入信息类型选择。该信息处理装置还包括CPU,如果由该图片接口输入的图片信息中包含对应于由该输入单元输入的信息类型的一个或多个字符的字符串,则该CPU响应于用户的字符识别请求,提取该字符串。
为了方便地获取与已识别的字符串相关的信息,本发明提出一种信息处理方法,包括如下步骤:接收图片信息,并从该图片信息中识别一个或多个字符的字符串;当用户请求与该已识别的字符相关的信息时,则经由网络,发送该识别的字符串中包含的标识信息;接收与该标识信息相关的信息,并显示所接收的信息。
附图简述
图1是一个信息处理装置的结构框图;
图2(包括2(a)至2(c))是一个蜂窝电话的外观图;
图3(包括3(a)至3(c))是一个蜂窝电话的外观图;
图4(包括4(a)至4(b))是一个蜂窝电话的外观图;
图5(包括5(a)至5(c))是一个可旋转型蜂窝电话的外观图;
图6(包括6(a)至6(c))是一个蜂窝电话的外观图;
图7是一次OCR操作中用户眼睛、照相机和显示器之间的位置关系的说明图;
图8(包括8(a)至8(d))是一个蜂窝电话的显示屏幕输出的实例;
图9(包括9(a)至9(b))是角度校正部件和旋转驱动部件的示意图;
图10(包括10(a)至10(c))是一个蜂窝电话的外观图;
图11(包括11(a)至11(b))是一个蜂窝电话的外观图;
图12是该信息处理装置的操作流程图;
图13是该信息处理装置的字符识别操作的流程图;
图14(包括14(a)至14(c))是在该信息处理装置中选择识别对象的类型的显示屏幕实例;
图15(包括15(a)至15(d))是监视一张商务卡时的显示屏幕实例;
图16(包括16(a)至16(c))是该信息处理装置的显示屏幕实例;
图17是该信息处理装置的处理流程图;
图18(包括18(a)至18(b))是该信息处理装置的显示屏幕实例;
图19是查找单词定义的系统的一个例子的示意图;
图20是ISBN词典ID对照表的内容实例;
图21是ISBN专用词典的词典ID登记过程的流程图;
图22是显示单词意思/翻译的过程的流程图;
图23(包括23(a)至23(f))是信息处理装置的显示屏幕实例;
图24(包括24(a)至24(f))是显示单词意思/翻译数据的显示屏幕实例。
发明详述
在此公开的各种实例涉及一种具有照相机的信息处理装置,该照相机被置于能够使对象的显示图像与用户看到的对象一致的地方,在此还将介绍提高对象的显示图像与用户看到的对象之间的一致性的方法和软件产品。在这些实例中,对识别过程也进行了介绍。以下结合附图描述这些实例。在所有附图中,相同的标号表示相同的部件。
图1是一个信息处理装置的结构框图。
输入单元101包括:一个具有多个按键(包括一个快门按钮、一个开关按钮和多个数字按键)的键盘。用户可以使用该输入单元101输入信息,如电话号码、电子邮件地址、电源开/关命令以及请求照相机103拍摄照片的图像拍摄命令等。输入单元101还可以包括一个触摸敏感的面板,其使得用户能够用笔或他/她的手指触摸显示器,从而输入信息或指令。此外,输入单元101也可以包括一个语音识别单元,从而执行基于语音识别的输入方法。
CPU(中央处理单元)102通过执行存储器104中存储的程序,来控制该信息处理装置的各个部件,并响应于来自输入单元101的输入来控制其他部件。
照相机103将人、风景、字符或其他主题的图像转化为图片信息。通过图片接口108将该图片信息输入到CPU102。图像可以被转化为任意格式的图片信息,只要CPU102能够处理该图片信息即可。在本实例中,照相机103置于该信息处理装置之内。但本发明不仅仅限于该实例,照相机也可以通过图片接口108挂接在信息处理装置之外。
CPU控制图片信息在显示器107上的显示。用户通过监视显示器107上输出的图片信息,来选择他/她所要拍摄的图像。此时,显示器107的作用是取景器。用户发出拍摄照片的指示,如,按下一个作为快门按键的操作键(下文称为“快门按键”)。在放开快门按键的时候,照相机103输出的图片信息被保存到存储器104中。存储器104可以是ROM(只读存储器)或RAM(随机存取存储器)。为了执行各种操作,存储器104中还可存储视频与/或音频数据及由CPU102执行的软件。
图片识别存储器105中存储了用于CPU102执行OCR(光字符识别)功能的软件程序。OCR功能可以识别图片内包含的字符,如字母、符号、标记、标志、数字、标识信息及其他。
标识信息的例子可以是一个主页地址、一个电子邮件地址、一个邮政地址、一个电话号码、地图信息以及包含出版号和ISBN(国际标准书号)号的数据编号等。当然,标识信息的范围不限于上述实例,它可以是用于标识一个人、地点、物品等的任何信息。
字符串的识别包括如下步骤:从照相机103拍摄的图片中标识出包含字符串的位置;将包含字符串的部分的图像数据分割成预定数量的部分;将这些部分中的各数据转换成一个参数值;根据该参数值,确定各个部分中包含的信息。
以识别一张图片中包含的字符串“abc”为例进行说明。首先,识别出图片中包含字符“abc”的区域;然后,将包含字符“abc”的部分的图像数据分割成包含“a”、“b”、“c”的部分;再将包含“a”、“b”、“c”的部分的数据转换成相应的参数值。字符的白色部分用“0”表示;字符的黑色部分用“1”表示。对于每一个部分,从字符模式数据中选择与其参数值最相似的字符。该字符模式数据是将每个参数值与一个字符相关的数据,如,对应于该参数值的一个希腊字符。该字符模式数据可以预先存储在存储器104中,也可以由用户下载或安装。
在本实例中,图片识别存储器105是专用于存储图片识别软件的存储器。也可以选择将图片处理软件嵌入到CPU102或存储器104中,从而为CPU102提供OCR功能。通过将图片处理软件嵌入到CPU102或存储器104中,可以减少部件的数目,也可以降低制造成本或其他类似成本。
在本实例中,为了减小电路规模,OCR功能由CPU102执行。但是,本发明的配置并不限于此例,例如,也可以使用专用处理器实现OCR功能。
在进行识别之前,首先需要指定将要识别的区域。例如,用户将出现在显示器107中间的一个标记(如“+”、“?”、“?”或其他类似标记)置于字符串处。将开始于该标记附近的一个间隔信息(spaceinformation)和结束于下一个间隔信息的区域指定为识别区域。
用户也可以操纵输入单元101,以移动显示器107上的光标去指定识别区域。当有两种或多种方法去确定识别对象时,也可以配置为同时选择多种方法。如果在重现一张动态图片期间执行区域选择处理,重现模式就会被切换到帧馈入模式,从在帧馈入模式下显示的静态图片中选择出识别区域。
如果在判定识别对象之前的“临时判决”中发现对象正确,就会在临时判定对象之后,进行“正式判决”。采用这种结构,可以在临时判决阶段的指定识别对象过程中发现误差时,很方便地改变识别对象。
显示器107可以由LCD(液晶显示器)、有机EL(电发光显示器)等构成。显示器107用于显示照相机103输出的图像及识别结果。此外,显示器107也可以显示其他信息,如电源状态、电场强度、电池剩余量、服务器连接状态、未读的电子邮件、输入的电话号码、邮件地址、传输的电子邮件文本、动态图片和静态图片、接收呼叫时主叫方的电话号码、接收的邮件文本和从互联网上接收到的数据等等。
通信接口106经由网络与信息提供商的一台服务器或主机计算机或其他设备进行通信。图1中只使用一个通信接口,但也可以使用多个通信接口。在这种情况下,用户可以使用多种通信方法,如CDMA、EV-DO、无线局域网等。
以下描述了具有两种图像拍摄模式的情况,即:一种是拍摄欲识别图片的识别模式,另一种是作为普通照相机功能,拍摄人和景物的普通图像拍摄模式。但是,本发明的范围不限于这两种模式。通过应用一个模式判断标志,CPU102判断该装置工作于普通图像拍摄模式还是识别模式。将该模式判断标志处理为存储在存储器104中的软件程序中的一个变量。用于识别模式的模式判断标志的值不同于用于普通图像拍摄模式的值。
图2(a)是蜂窝电话的前视图,图2(b)是蜂窝电话的侧视图,图2(c)是蜂窝电话的后视图。该蜂窝电话包括:包含显示器107和照相机103的机体110,包含输入单元101的机体120。这两个机体通过铰链130连接在一起,这种结构是可折叠的。
照相机103位于与显示器107所处的表面(下文中称为“前表面”)相对的背面(下文中称为“背面”)。照相机103位于与该显示器107的中心相对应的点附近,下文将该点称为“背面中心对应点”。显示器107中心亦即显示器107的视觉中心。
例如,如果显示器107为矩形,则在不考虑质量分布偏差的情况下,对角线交点就是该中心,因而就是显示器107的“视觉中心”。
该中心未必是显示器的精确中心。例如,用眼睛观看纸面和照相机103获取的纸面的图片信息之间的位置差异所产生的不一致性很小或没有时,几毫米范围内的误差是可以容忍的。
通过将照相机103置于背部中心对应点,纸面上的字符出现在显示器107上,并且显示器107上显示的字符看起来就好像用户直接在几乎相同位置处所看到的那样,从而提高了对象的显示图像和用户看到的对象之间的一致性。所以,用户能够在字符识别的同时方便地选择其欲识别的字符串,并且,该系统也便于操作和使用。
优选为,照相机103的构造不应从背面突出。因为用户通常会以折叠状态携带蜂窝电话,并且该照相机有可能会与其他物体(如行李或桌子)碰撞而受损。
图2中所示的蜂窝电话只有主显示器107,但本发明不限于此例。该装置也可以具有在机体110的背面上的一个子显示器,用于显示各种项目,这将是非常方便的,因为可以在该设备折叠起来时看到电子邮件的接收和到达、时间及其它项目。
图3(a)给出了子显示器301位于照相机103上方的实例,亦即处于从照相机103来看的铰链130的另一侧。显然,也可以将子显示器301置于照相机103的下方,亦即处于照相机103和铰链130之间的间隔中。
图3(b)给出了一个子显示器301位于照相机103上方而另一个子显示器302位于照相机103下方的配置。考虑到照相机103位于如前所述的背面中心对应点附近时,子显示器301的面积受到了一定限制的问题,采取了这种结构。因此,可以在背面安置多个子显示器,从而,即使在蜂窝电话处于折叠状态时,也照样有可以看到各种数据的足够的显示面积。此外,如果指定各显示器的显示内容,可以给用户带来更多的方便。
例如,在该蜂窝电话折叠起来收听MP3、MIDI文件和其他格式的音乐文件时,如果一个子显示器被分配的功能为显示艺术家名字而另一个子显示器显示歌词及其它信息,对于用户来说,操作将变得更加容易。在这种情况下,如果该蜂窝电话安装了扬声器或其他音频数据输出部件(未在图中显示)用于听音乐,其便利性就更不必赘述。
此外,优选采用的构造为:让用户通过操纵输入单元101选择欲使用的子显示器。这种情况下,当用户发出指示选择欲使用的子显示器时,一个子显示器选择信号就输入到CPU102中。CPU102根据该子显示器选择信号,确定向哪个子显示器供电。
这样,如果存在多个子显示器,用户可以只选择欲使用的子显示器。因此,不必向全部子显示器供电。这种配置节省了电量,提高了装置的可操作性。
显示器301和显示器302也可以位于照相机103的左侧和右侧,并且,子显示器的数量可以是两个或多个。也可以使子显示器303环绕照相机103,如图3(c)所示。图4(a)是蜂窝电话的前视图,图4(b)是蜂窝电话的后视图。OCR屏幕402用于显示识别模式下照相机103输出的图像。根据存储器104中存储的OCR屏幕区域数据,OCR屏幕402显示于显示器107上。OCR屏幕区域数据指示在显示器107中应该显示OCR屏幕402的位置。当用户选择识别模式时,CPU102在显示器107上显示OCR屏幕402。通过在OCR屏幕402的周围设置一个方框及其它类似物,将OCR屏幕402和屏幕401的其他部分在显示器107上区分开来。CPU102在OCR屏幕402中显示照相机103输出的图片信息。
在本实例中,照相机103位于从OCR屏幕402的中心向与OCR屏幕402相反的背面引出的法线与该背面的交点附近。这里,OCR专用屏幕402位于显示区域401的下方,如图4(a)所示,照相机103位于该屏幕下方的背面,亦即,靠近铰链处。所以,与图3(a)中的实例相比,在背面提供给子显示器403的空间要大一些。
因此,不仅可以通过提高对象的显示图像和用户看到的对象之间的一致性,从而更容易地识别字符,还可以增加子显示器的面积。所以,当电话叠合时,用户可以更方便地操作该蜂窝电话。
在图4中,OCR屏幕402和照相机103位于机体110的下方,本发明不限于此例,也可以将这两个部件置于机体110的上方。
也可以在显示屏幕401中的OCR屏幕402之外的屏幕上显示与其他功能相关的信息。
例如,当OCR屏幕402上显示商务卡中包含的电子邮件地址时,存储器104中存储的地址本出现在显示屏幕401中的OCR屏幕402之外的区域上。可以配置为通过给定的操作,将该电子邮件地址存储到地址本中。
这样,用户不必给出该事项的任何具体指令,就可以把电子邮件地址迅速登记到地址本中,从而使得整个系统更易于操作。除此之外,当识别对象是URL信息时,也可以在显示屏幕401中的OCR屏幕402之外的区域内显示该URL的内容。
在本实例中,蜂窝电话是可折叠的,该发明也适用于其他形式的信息处理装置。例如,如图5所示,包含主显示器的机体510和包含主要操作部件的机体520通过连接部件(linkage part)530在大致水平的方向上可旋转地连接。后面,我们将装置的这种类型称为旋转型。
图5(a)显示的是旋转型蜂窝电话的叠合状态,图5(b)显示的是其翻开状态,而图5(c)显示的是图5(b)的背面。
如图5(c)所示,在机体510上,照相机501位于显示屏幕504中心的对应点附近。而在机体520上,照相机502位于图5(a)所示的显示屏幕504中心的对应点附近。这样可以提高对象的显示图像和用户看到的对象之间的一致性。只要用户能方便地选择他或她希望识别的字符,一些位置误差是可以容忍的。利用这种设置,当用户识别字符时,不管该旋转型蜂窝电话处于叠合状态还是翻开状态,由于对象的显示图像和用户看到的对象之间的基本一致性,他/她都可以很方便地选择字符。所以,该手机的操作是很容易和方便的。
即使蜂窝电话处于图5(a)中的叠合状态,也可以使用输入键503操作该蜂窝电话,从而进一步增加便利度。
图6(a)、6(b)和6(c)给出了蜂窝电话的另一个实例。在图6(a)中,照相机103和子显示器601集成在一起,并且即使在照相机103移动的时候,二者之间的相对距离也几乎保持不变。通常情况下,子显示器601位于如图6(b)所示的背面的中心附近。在识别模式下,照相机103被移到与显示器107的中心对应的位置处,如图6(c)所示。
这种情况下,可以在机体110的背面设置一个移动槽602,使得用户可以移动照相机103。
该蜂窝电话还包括一个电路和一个开关,该电路用于将OCR功能激活信号输入到机体110中心附近的CPU102,该开关位于照相机103附近。当用户将照相机103移至机体110中心附近的位置时,如图6(c)所示,该开关与该电路接触。当此开关与电路接触时,CPU102启动识别模式,主显示器107上显示照相机103输出的图片信息。
在本实例中,子显示器601位于机体110的背面中心附近的位置,所以,用户可以很方便地看到子显示器601。此外,由于照相机103的拉动会自动导致启动识别模式,所以,可以节省一些必要的操作。
上面描述了照相机103和子显示器601的集成结构。但是,二者也不一定要集成在一起。照相机103和子显示器601也可以独立移动。
图2至6中所示的蜂窝移动电话都是信息处理装置的实例。当然,本发明的概念的应用不限于蜂窝电话。这些概念不仅可以应用于蜂窝电话,也可以应用于其他信息处理装置,如PHS、PDA、便携式电脑或手持个人电脑。信息处理装置的其他实例包括一些额外部件,如扬声器、麦克风、编码器和解码器。
下面描述用于提高对象的显示图像和用户看到的对象之间一致性的第二种方法。在上述结构中,照相机103位于背面中心对应点附近的位置的结构将由于显示器107和照相机103的存在,使机体110变厚,从而导致整个手机不容易携带,从美学角度看也缺乏美感。并且,照相机103的位置也使得子显示器的尺寸受限,这是另一个问题。
因此,下面将描述一种情况,其中,将照相机103设置在与原来的背部中心对应点偏移的位置,如置于机体110背部的铰链130附近的位置,这样,它就不会与显示器107重叠。在此实例中,我们将描述提高了对象的显示图像和用户看到的对象之间的一致性的可让用户选择识别对象的结构。
图7所示为在一次OCR操作中,用户的眼睛、照相机103和蜂窝电话的显示器107,以及商务卡、杂志或其他类似物的表面701之间的位置关系。在本实例中,信息处理装置包括子显示器705。但是,本发明不限于此例,蜂窝移动电话也可以没有子显示器705。
为了使得识别时纸张表面的字符串的位置和显示器107上的字符串的位置保持一致,照相机103将被倾斜放置,从而使其可以面对显示器107的法线和纸张表面701的交点的中心附近的位置。换句话说,照相机103的倾斜角度为θ702,该倾斜角度θ702由距离D703和距离d404确定。显示器107中心引出的法线穿过纸张表面701的交点为点A,从照相机103的中心附近与前述法线平行地引出的一条直线穿过纸张表面701的交点为点B,点A和点B之间的距离为距离D703。照相机103中心附近的一个点和纸张表面701之间的距离为距离d704。根据距离D703和距离d704的值,计算出倾斜角度θ702。在设计时可以根据照相机103的焦距,将距离d704和距离D703设定为合适的值,例如,距离d704在2-4厘米范围内,距离D703也在2-4厘米范围内。优选为将这些适当的值告知用户。
同时,优选为通过考虑用户应该与能够很容易地识别字符的纸张表面所分开的距离以及进行实际字符识别的其他方面的因素,来设置距离d704的缺省值。距离D703的缺省值由照相机103和显示器的尺寸确定。
图8(a)是识别情形的解释说明图。图8(b)是在照相机103倾斜之前显示的图像信息的实例。这里,当照相机103位于下方(在轴旁)时,只显示出一张名片的下半部。
图8(c)是照相机103从图8(b)所示状态调整后的倾斜状态的显示屏幕的实例。显示器107的下方所显示的字符较大,而上方显示的字符较小,并且字符被倾斜地显示。由于纸张上的字符在被倾斜地成像,所以显示器107上显示的字符也被倾斜地失真了,从而导致显示屏幕很难识别。如果无法改变这种情形,用户很难选择他或她希望识别的字符。
所以,CPU102必须校正倾斜显示的图像,使其水平地显示。例如,对于该校正,可以采用梯形失真校正方法,将一个倾斜的图像校正为一个水平的图像,但也可以采用其他方法。
校正后的屏幕实例如图8(d)所示,对照相机103与机体表面的倾斜所导致的失真进行校正之后,纸张表面上出现的字符和显示器107上显示的字符在位置和大小方面看起来几乎相同。这样,就可以在进行字符识别时很方便地选择欲识别的字符,并提高了整个系统的可操作性。
在如上所述照相机103被倾斜放置的蜂窝电话中,这在字符识别时很有效。但是,在普通的图像拍摄模式下,由于照相机107的倾斜角度θ702,在用户观察目标点所看到的图像对象与显示器107上显示的图像对象之间可能存在很大不同。例如,当用户希望拍摄一个人的面部时,显示器上显示的可能是人的腿部。这种情况下,获取人的面部图像就会变得很困难。
因此,下面说明使照相机103的倾斜角度可变的情况。在本实例中,根据图像拍摄模式,角度θ702是可变的。
除照相机103之外,该蜂窝电话还包含一个角度校正部件,用于校正照相机的倾斜角度。下面结合图9对此进行说明。
如图9(a)所示,角度校正部件901有一个旋转驱动部件902,当该旋转驱动部件902的旋转被传送到照相机103的时候,照相机103旋转。需要注意的是,这里的模块型照相机103包括图像镜头903和图像获取电路904,旋转驱动部件902与该图像获取电路904连接在一起。但是,本发明并不限于这种结构。
现在描述校正照相机103倾斜角度的操作。当用户使用输入单元101选择一种图像拍摄模式时,CPU判断所选择的模式是识别模式还是普通图像拍摄模式。
在识别模式下,CPU102将原先存储在存储器104中的角度校正信号传送到角度校正部件901。接收到角度校正信号之后,角度校正部件901根据对应于该角度校正信号的转数进行旋转。这样,照相机103就可以旋转给定的角度。
当识别模式结束的时候,CPU102又将一个角度校正信号发送给角度校正部件901,从而使旋转过的照相机恢复到原来的倾斜角度。这里,欲发送的角度校正信号中包含指示对先前发送的角度校正信号进行逆旋转的数据以及将照相机恢复到初始倾斜角度的必须数据。响应于该角度校正信号,接收到该角度校正信号的角度校正部件901将照相机103旋转到初始倾斜角度,。
另一方面,当用户选择普通图像拍摄模式时,照相机103的倾斜角度不发生改变。
通过使照相机103只在上述的识别模式期间可变,在普通图像拍摄模式期间可防止照相机103发生不必要的旋转。这样,就解决了在普通图像拍摄模式下用户观察目标点获取的图像对象和显示器107上显示的图像对象之间存在明显差别的问题。
这种将照相机103自动恢复到初始倾斜角度的技术使得用户不必再手工将照相机103恢复到初始状态,从而提高了该装置的可操作性。此外,照相机倾斜时,照相机103的一部分有时会从机体表面突出。通过将照相机103自动恢复到初始位置,可以防止照相机由于突出而可能受到的损坏。
此外,只有在判定当前模式为普通图像拍摄模式时,照相机103的倾斜角度不能改变,并显示当前模式为普通图像拍摄模式的通知,采用这样的系统,用户就可以很容易理解为何照相机103是不可变的(因为当前模式不是“识别模式”)。
本实例考虑了只有在识别模式下才能改变照相机103倾斜角度的情况。但是,照相机103的倾斜角度在普通图像拍摄模式下也可以是变化的。这种情况下,当普通图像拍摄模式去除激活时,照相机103就会恢复到初始状态。角度校正部件901包括与照相机103相连的致动器905,如图9(b)所示。这里考虑的是四个致动器905与照相机103相连的情况,在这种情况下,通过四个致动器中每一个致动器的移动,可以改变照相机103的倾斜角度。使用这样的结构,照相机103可以在各个方向倾斜,从而使用户做出更精细的微调,从而改善了整个装置的可操作性。
此外,可以提供上行按钮1001、下行按钮1002或其他专门用于改变照相机103倾斜角度的按键,如图10所示。上行按钮1001用于增加照相机103的倾斜角度,当用户按动该按钮时,通过CPU102将一个角度增大指示信号输出到角度校正部件901,响应于该角度校正指示信号,接收到该信号的角度校正部件校正照相机103的倾斜角度。当用户按动下行按钮1002时,会做出类似的校正。
因为用户本人可以通过这种方式校正照相机103的倾斜角度,所以用户能将照相机103调整到他或她最容易进行观察的方向,从而提高了整个装置的可操作性。
也可以采用一种调节控制盘系统(如角度校正调节控制盘1003)取代上行按钮1001和下行按钮1002(见图10(b)和10(c))。通过采用这样的系统,可以更精细地校正倾斜角度。
同时,倾斜方向不限于绕着铰链轴(铰链部件的中心轴),也可以在其他方向进行倾斜。这种情况下,可以使用一个能进行360度旋转的操作键(如游戏杆)。通过采用这种配置,可以在保持手持的蜂窝电话不移动的同时搜索纸张上选作识别对象的单词。从而,整个系统更容易使用,用户友好度也得到了提高。
图11(a)是蜂窝电话的外视图,距离传感器1101测量传感器1101及其前面的对象之间的距离。通过测量光发射部件1102发出的红外线传输到该传感器前面的对象并返回到传感器1101的光接收部件1103所需的时间,距离传感器1101就测出了该距离。这里使用的是红外线距离传感器1101,但也可以采用基于超声波或其他方式的任何距离传感器。该传感器不必测量精确距离,只要能确定距离该传感器一定范围内是否存在对象即可。
优选为将距离传感器1101设置在照相机103附近,这是因为,如果距离传感器1101距离照相机103很远,照相机与纸张表面间的距离和距离传感器与纸张表面间的距离就会存在太大差异,从而导致照相机和纸张表面间的距离d704变得不准确。
图7-11中所示的蜂窝电话是信息处理装置的实例。本发明不限于蜂窝电话,所述技术不仅可用于蜂窝电话,也适用于其他信息处理装置。
图12是信息处理装置执行倾斜操作的流程图。这里将说明在识别对象的监视期间校正照相机103的倾斜角度的情况。“监视期间”指的是:照相机激活照相机功能后没有发出获取图像的指示,也没有指定识别对象。
步骤S1201是信息处理装置在等待状态中等待键输入或接收信号或其他的情况。当CPU102检测到启动照相机功能的键输入时(步骤S1202),初始化存储器104中存储的与照相机功能相关的变量,并执行启动照相机功能的其他操作(步骤S1203)。然后,CPU102判断图像获取模式为识别模式还是普通图像拍摄模式。
接着,距离传感器1101测量纸张表面和照相机103之间的距离(步骤S1204),并将测量结果存储在存储器104中。CPU102读取104中存储的测量结果,并根据该测量结果计算倾斜角度θ(步骤S1205)。然后,CPU102向角度校正部件901发送一个角度校正信号,请求将照相机103的方向校正为倾斜角度θ,响应于该角度校正信号,接收到该角度校正信号的角度校正部件901将照相机103的倾斜角度校正到θ(步骤S1206)。
然后,照相机103获取一幅图像并将其暂存在存储器104中(步骤S1207)。CPU102读取图像并校正失真的图像信息,图像信息的失真是由于采用距离传感器测量的照相机103和纸张表面之间的距离而倾斜地拍摄产生的,然后,CPU102将校正的图像信息存储到存储器104中(步骤S1208)。这里,可以使用“梯形校正方法”校正失真。
CPU102读取图像,并将其显示在显示器107上(步骤S1209)。
然后,CPU102判断快门按钮是否被按下(步骤S1210)。如果检测到快门按钮没有被按下,则返回步骤S1204,重复相同的过程。
如果在步骤S1210中检测到快门按键的输入时,照相机拍摄对象的图像(步骤S1211),并且CPU102根据该图像进行字符识别(步骤S1212),并在屏幕107上显示结果(步骤S1213)。
照相机103倾斜角度的这种自动校正功能使得纸张上的字符与显示器107上显示的字符看起来如同位于相同的位置,并且,用户还能更方便地将字符串选择为字符识别的对象,从而使整个系统易于操作和提高用户友好度。
优选为用户选择一种禁止模式,该禁止模式禁止照相机103发生倾斜。当用户选择该模式时,图12中的操作过程在执行步骤S1203之后直接跳转到步骤S1209。
在图11(a)中示出了照相机103旁边只有一个距离传感器的情况,但是,也可以在机体110的背面上方设置另一个距离传感器。在图11(b)中示出了蜂窝电话具有另一个距离传感器1104的情况,该距离传感器包括光发射部件1105和光接收部件1106。这种情况下,可以使用两个距离传感器的测量结果和机体110的设计值(纵向长度),计算显示器107和出现欲识别的字符的纸张表面所形成的角度。即使显示器107与纸张表面不平行,也可以使用该角度对显示器107上显示的图像进行校正。此外,必要情况下,还可以在该信息处理装置上安装任何数量的距离传感器。
此外,该信息处理装置还可以有一个加速度传感器,用于测量作用在该装置上的加速度。使用测量到的加速度计算照相机103的倾斜角度。加速度传感器包括一个加热器,用于加热一部分气体,如一定空间内的氮或二氧化碳,以及一个温度计,用于测量气体的温度等。当在该加速度传感器上施加一个加速度时,由于加热器加热而升温的一部分气体和其他没有升温的气体交换位置,从而改变了温度分布。该温度分布由温度计测量。应用这种方式,可以测量出施加在该传感器上的加速度。通过测量的加速度,就可以计算出加速度传感器在垂直方向的倾斜角度。
一般情况下,加速度传感器要小于距离传感器。使用加速传感器可以让信息处理装置更紧凑。
图13是字符识别操作过程的流程图,其中,步骤S1305-S1311是图12中步骤S1212的详细过程。
当照相机103输出某对象的图像数据时(步骤S1211),CPU102获取该图像数据(步骤S1305)。CPU102提取出图像数据中包含一个或多个字符串的区域(步骤S1306)。当该图像数据中一个黑色像素集合与另一个黑色像素集合的间距等于或大于一个给定的值时,CPU102确定这样的集合是间距分开的字符串。将这样提取的字符串区域的坐标存储到存储器104中。当CPU无法提取出字符串的区域时(步骤S1307),执行步骤S1210。在这种情况下,优选为将识别区域的提取失败通知用户。
当提取出字符串区域时,CPU102识别提取出的区域中的一个或多个字符的字符串(步骤S1308)。
然后,CPU102确定所识别的字符串的类型(步骤S1309)。所识别的字符串的类型包括:电子邮件地址、电话号码、URL、英语单词或日语单词等。识别字符串的类型的方法如下:如果字符串中包含“@”,则为电子邮件地址;如果包含“http:”,则为URL;如果字符串由数字和“-”组成,则为电话号码;如果由字母组成,则为英语单词。此外,当字符串中包含“电话:”、“传真:”、“电子邮件:”等词时,也可用于进行类型区分。
尽管图13中未示出输入类型的步骤,但是用户可在步骤S1210之前选择字符串的类型,如电子邮件地址、电话号码或其他。CPU102判断用户预先设定的识别对象类型与实际识别出的字符串的类型是否一致(步骤S1310)。如果一致,显示器107显示环绕提取区域的框(步骤S1311)。当用户操纵输入单元101时,显示识别结果(步骤S1312)。在这种情况下,如果使用了未经输入单元101的任何特定操作就在显示器107上自动显示识别结果的配置,用户就不必输入任何信息,从而提高了整个系统的可操作性。
当在步骤S1310中,设置的识别对象的类型和识别出的字符串的类型不一致时,CPU102改变图像中提取字符串区域的起点(步骤S1313),并重新执行提取处理(步骤S1306)。
这里,从上一行到下一行连续执行字符串区域的提取处理时,在步骤S1313中,CPU102将提取的起点下移一给定量。预测到一行中有多个电子邮件地址或电话号码时,如果有空格,在前的字符串和随后的字符串将被视为不同的字符串进行处理。
这种情况下,对空格左侧的字符串进行步骤S1308至S1310所述的处理之后,再对空格右侧的字符串执行类似的处理。
此外,也可以对该图像中包含的所有字符执行字符行的提取处理,然后再执行字符识别处理之后的处理。这样,就可以将字符提取的结果(如图像中提取字符的左上方的坐标和右下方的坐标)存储在存储器104中,然后,针对各个字符串,连续执行步骤S1308至S1312所描述的处理。
让用户使用输入单元101指定识别对象的正确位置可能是很困难的。在本实例中,当识别结果与识别对象的类型不一致时,CPU再次执行提取过程。所以,用户不必操纵输入单元101去指定识别对象位置。
图14所示为用于选择识别对象的类型的屏幕实例。图14(a)表示的是照相机启动之后的屏幕,在此状态下按下“子菜单”键时,与照相机和字符识别相关的菜单就显示出来,如图14(b)所示。当在该状态下选择“(2)识别对象设置”时,则显示用于选择识别对象的类型的屏幕(图14(c))。例如,在这种状态下选择“(3)电话号码”,就会显示用于通知用户识别对象类型已被设置为电话号码的屏幕。
图15(a)是通过执行上述操作将“电话号码”设置为识别对象类型之后,监视一张名片时的屏幕实例。CPU102识别屏幕上显示的字符中方框1504圈定的电话号码“045-000-1234”,并且在识别结果显示区1505显示该识别结果。图15(a)中显示的图标1501通知用户“电话号码”被设置为识别对象的类型。发现这个图标之后,用户可以确认现在的识别对象的类型为“电话号码”。
图15(b)是将“邮件地址”设置为识别对象类型之后监视名片1503时的屏幕实例。此时,CPU102识别方框1506所圈定的邮件地址“yamada@denki.OO.co.jp”,并如1507所示显示该识别结果。图标1502被显示出来,以通知用户识别对象的类型为“邮件地址”。
如前所述,当被监视的屏幕中包含预先选定的识别对象的类型时,如“邮件地址”,就会将其自动提取出来,并进行显示。利用这种配置,用户在进行字符识别时,就不必再校正位置以指定识别对象,从而改善整个系统的可操作性。
当在一个屏幕中多个字符串被选为识别对象时,例如当显示两个邮件地址时,两个邮件地址都会被识别并显示相应的识别结果。图15(c)所示为这种情况下的显示屏幕的实例。
如图15(c)所示,被选择为识别对象的邮件地址用“(1)”和“(2)”等进行编号,如1508和1509所示。通过将对应于“1”的邮件地址的识别结果标为“(1)”和将对应于“2”的邮件地址的识别结果标为“(2)”,就可以更清楚地理解选作识别对象的邮件地址和识别结果之间的对应关系,从而提高整个系统的可操作性。
此外,当存在多个邮件地址并且无法显示所有识别结果时,可以通过按下与(1)和(2)对应的数字键,显示与该数字对应的邮件地址的识别结果。例如,按下键“1”时,识别结果显示区中显示的是“yamada@denki.OO.co.jp”;按下键“2”时,显示“taro@xxx.ne.jp”。应用这种配置,即使蜂窝电话上的屏幕很小,也可以很方便地显示多个识别结果,从而增强该装置的可操作性。
如图15(d)所示,其提供了一个首字母输入区1512。当用户通过按下输入单元101向首字母输入区1512中输入字母时,CPU102会提取一个以该字母开头的邮件地址,然后通过在提取出的邮件地址上显示一个方框,来将邮件地址的识别结果显示在识别结果显示区中。在图15(d)中,从多个邮件地址中选择一个以用户输入的“y”开头的邮件地址“yama@xxx.OOO.co.jp”作为识别对象。
这样,用户就可以从多个识别对象中方便快速地选择欲作为识别结果显示的一个或多个邮件地址,从而提高整个系统的可操作性,给用户带来更多的便利。
当然,也可以把图15(c)和图15(d)中的功能结合到一起。
当有多个候选识别对象时,可以使用输入单元101中的一个十字键或其他部件进行选择。采用这种配置,在选择识别对象的类型之后即使如上所述存在多个识别对象,也可以很容易地指定识别对象,进一步增加系统的用户友好度。此外,如果在如上所述的字符搜索模式中存在多个以“y”开头的邮件地址,则先根据首字母搜索大致选择出识别对象,然后使用十字键可以很容易地选择用户欲搜索的邮件地址,从而提高整个系统的可操作性和用户友好度。
可以将识别结果存储到存储器104中的一个地址本中,应用这种配置,用户就可以在不输入数据的情况下,记录一张商务卡或其他类似物中所包含的邮件地址和其他个人信息,从而提高整个系统的可操作性和用户友好度。
与图15(d)中所示类似的功能可作为识别对象的字符搜索功能使用。例如,假设用户已经知道一份英语报纸中包含一篇关于专利的文章,但他/她不知道这篇文章出现在报纸的哪一部分。这种情况下,搜索单词“专利”就足够了,但是,在一份包含几十或者数千单词的英语报纸中搜索一个单词是非常繁琐的。下面介绍用户输入他或她希望搜索的部分或全部关键词(下文称为“搜索对象单词”),并搜索使用的关键词在报纸、书或其他类似物中的位置的情况。
当输入部分或全部搜索对象单词时,用于指定欲搜索单词的搜索单词指定数据被输入到CPU102。CPU102接收到搜索单词指定数据之后,根据该搜索单词指定数据,从照相机103获取的图像信息所包含的单词中搜索被指定为搜索对象的单词。当照相机103获取的图像信息中存在包含搜索单词指定数据的单词数据,CPU102通知用户搜索对象单词已经被搜索到。
至于通知方式,例如,可以将被选择为搜索对象的单词加框的方式显示出来。当照相机103获取的图像信息中不存在包含搜索单词指定数据的单词数据时,CPU102将该信息通知用户,例如,显示“没有找到被选择为搜索对象的单词”。
可以对该搜索做出时间限定,采用这种方式,当搜索时间太长时,就可以终止搜索,从而节省时间。
图16是显示屏幕的图像实例,其示出了将单词“parameter”加框的图像实例。
图16(a)是通过在首字母输入区1601中输入首字母“p”,来监视一段英语文本的显示屏幕的实例。通过多次按动输入单元101,用户可以输入首字母。在该屏幕上,以首字母“p”开头的英语单词,如“portion”、“parameter”和“pattern”分别被加框。
图16(b)所示为当在首字母输入区输入“para”时监视一段英文文本的屏幕显示的实例。在该屏幕中,只有单词“parameter”被加框,用户可以很容易地确定单词“parameter”的打印位置及其数量。这种情况下,也可以指示报纸上出现的“parameter”的数目。
在这种情况下,当该信息处理装置向右边移动时,在英语文本右侧打印的单词“parameter”被加框(16(c))。
通过这种方式移动蜂窝电话的简单的操作,就可以确定选择用于识别的单词(“parameter”)的位置。从而,可以在包含大量字符信息的印刷品中很方便地搜索字符,因此,可省去专门搜索具体字符的麻烦。整个系统操作非常容易和便利。
此外,还可以显示与搜索的单词相关的信息,如单词的意思和翻译。
图17是该信息处理装置的处理流程图。在该实例中,词典数据109存储在存储器104中。步骤S1305和S1701至S1709是图12中步骤S1212的详细过程。例如,显示在最靠近显示器107中心的“+”标记的一个或多个字符的字符串被提取出来,并且该字符串被选择作为识别对象单词(步骤S1701)。CPU102将被指定为识别对象单词的字符串用方框圈定,并告知用户当前指定为识别对象的字符串(步骤S1702)。
然后,CPU102执行字符识别处理(步骤S1703),提取出用于字符识别的图像数据中包含的单词,并将识别结果存储在存储器104中(步骤S1704)。
CPU102从存储器104中读取识别结果,并从词典数据109中搜索与该识别结果匹配的单词(步骤S1705)。
作为搜索的方法,优选为先寻找与字符串完全匹配的单词,如果没有完全匹配的单词,再寻找只有一个字符不同而其他字符相同的单词。这样,即便CPU102在进行字符识别时发生小错误,也能找到与该字符串最接近的单词,这样可以消除重复执行字符识别的麻烦,从而使整个系统操作更方便。
当没有找到包含一个不同字符的单词时,再搜索包含两个不同字符的单词,再搜索具有三个不同字符的单词,依次搜索增加数量的不同字符的单词。这种情况下,即使识别率比较低,也可以找到合适的单词。
当通过搜索在词典数据109中找到了匹配的单词时,CPU102从词典数据109中读取与该单词的对应的信息,如单词的定义(步骤S1707)。不需任何输入操作,识别结果和从词典数据109中读取的信息就会自动显示在显示器107上(步骤S1213)。另一方面,当在词典数据109中没有找到匹配的单词时,显示器107上将显示“未找到对应单词”(步骤S1709)。
在该实例中,字符识别和搜索在用户操作输入单元101(如快门按钮)之后执行。但是,本发明并不限于此例,也可以如图18所示,在用户每次移动该信息处理装置时,都执行字符识别和搜索。
图18(a)所示为单词“length”的定义显示在显示器107上的显示屏幕的实例。
图18(b)所示为该信息处理装置向右移动,并且单词“width”的定义显示在显示器107上的显示屏幕的实例。
因此,用户不必按动任何按钮,就可以通过移动该装置查找与选作识别对象的单词相关的信息。
在该实例中,由于处理能力的原因,选作识别对象的单词的加框和对应信息的显示之间会出现一个时间滞后。当识别对象从一个单词改变为另一个单词时,改变后的识别对象被加框,但相应的定义仍然保持为改变前识别对象的定义。这对用户也是一个尴尬的情况。为了解决这个问题,需要设计一种能够使CPU圈定选作识别对象的单词并同时显示相应定义的系统。这种情况下,例如,由于显示定义通常要比对单词加框需要更多的时间,CPU102应该将信息显示的时间和加框的时间统一起来。利用这种配置,选作识别对象的单词的加框时间和定义的显示时间就一致了,所以,用户可以同时看到现在选择作为识别对象的单词及其相应的定义,从而使整个系统易于应用和方便。
接下来我们描述搜索图书、杂志或其他类似物中的单词的定义的示例性的系统。在故事中,经常会出现普通词典中没有列出的专有名词,而词典中列出的单词在一些故事中往往具有特别的意思。碰到这些单词时,读者无法通过查词典获得这些单词的意思,他们只好从头认真阅读整个故事,或者询问那些很熟悉该故事的朋友。
为了解决这个问题,本发明提出了一种用于查找单词定义的系统。在该实例中,使用的是图书或类似书籍上打印的标识信息,如ISBN(国际标准书号)。ISBN用于标识全球范围内发行的书籍中的一本书。在下面的例子中,ISBN用于查找单词的定义。但本发明不限于使用ISBN,也可以使用其他标识信息查找与所识别的字符串相关的信息。
图19是用于查找单词定义的系统实例的简图。
词典数据109中包含英语词典数据和其他外语词典。
服务器1950包括的组成部件如图19所示。响应于来自SV通信接口1906的信号,SV-CPU1902根据存储在SV存储器1904中的程序执行操作,并控制各个部件。SV存储器1904存储从通信接口接收到的数据和服务器1950处理的其他数据。
ISBN词典数据1905是包含只用在ISBN标识的图书中的专有名词和单词的词典数据,它们在这些书中的意思与其通常的意思不同。ISBN词典数据1905中每个单词都有一个词典ID,该词典ID管理ISBN词典数据1905。
ISBN-词典ID对照表1903表明了ISBN和与具有该ISBN的图书相关连的ISBN词典的词典ID之间的对应关系。
图20是ISBN-词典ID对照表1903的一个实例。ISBN-词典ID对照表1903包括:例如,ISBN2001,书名、出版商和其他图书信息2002,以及词典ID2003。可以通过ISBN检索书名和出版商。这里,图书信息是与图书相关的信息,并不限于以上所述信息。
SV通信接口1906经由网络与信息处理装置或其他设备通信。SV输入单元1901可以是键盘、鼠标,和用于存储和更新SV存储器1904中的ISBN-词典ID对照表1903和ISBN词典数据1905的其他输入装置。
SV显示器1907是用于显示SV存储器1904中存储的数据的输出装置。
下面结合图21描述登记与ISBN对应的词典并使其可用所需的处理。
信息处理装置100中的CPU102执行字符识别处理(步骤S2100),将识别结果数据存储在存储器104中,并在显示器107上显示该识别结果。
CPU102从存储器104中读取识别结果数据,判断是否为ISBN(步骤2101),并将判断结果存储在存储器104中。当字符串由数字字符和连字符组成(连字符插入在与电话号码不同的位置处)时,或者字符串以“ISBN.”开头时,CPU102判断该字符串为ISBN。
当在步骤2101中判断识别结果不是ISBN时,CPU102显示为各种识别对象分配的显示屏幕(步骤2102)。例如,当所识别的字符串的类型为邮件地址时,CPU102显示与邮件相关的显示屏幕;当所识别的字符串的类型为URL时,显示与URL相关的显示屏幕。
当在步骤2101中判断识别结果为ISBN时,CPU102显示识别对象为ISBN的专用屏幕。
如果判定识别结果为ISBN,CPU102通过通信接口将ISBN数据发送到服务器1950(步骤2103)。
服务器的SV通信接口1906接收到ISBN数据(步骤2104)后,将数据暂时存储在SV存储器1904中。SV-CPU1902读取该ISBN数据,并搜索对照表1903中是否包含ISBN(步骤2105)。
当在对照表1903中没有找到接收的ISBN时,SV-CPU1902向装置100发送一条出错消息,表明服务器中不存在接收的ISBN所对应的词典ID(步骤2110)。
另一方面,当在对照表1903中找到了接收的ISBN时,SV-CPU1902从对照表1903中读取与该ISBN对应的词典ID2003。词典ID2003经由SV通信接口传送到装置100(步骤2106)。
装置100将词典ID2003存储到存储器104中(步骤2107),并显示该服务器中包含的与识别的ISBN对应的词典(步骤2108)。
经过以上处理,信息处理装置100的用户就可以通过词典ID2003,利用与服务器中包含的ISBN对应的词典,从而减少存储容量,同时,也使整个系统易于应用和方便。
在该实例中,词典ID2003是下载的,而非与ISBN本身对应的词典。但是,也可以采用将与ISBN本身对应的词典下载以存储的处理。这样,如果将词典存储到装置100中,就可以节省查找词典时与服务器1950进行通信的时间。
可以在与ISBN对应的词典的词典ID下载时,也同时下载与ISBN对应的图书相关的信息,如书名。
从服务器1950接收的词典ID和图书信息互相关联并存储在存储器104中。例如,在使用词典ID查找ISBN词典数据前、后或同时,显示与该词典ID对应的图书信息。
通过采用上述过程,用户可以确认在查找词典前、后或同时,与ISBN对应的词典与哪些图书相关。所以,如果一个用户使用的词典与预期的不同,其就能很容易地发现这个事实,从而使整个系统易于应用。在连接过程中,如果采用了用户能选择其喜欢的另一个词典的系统,将更方便和易于使用。
下面结合图22中的流程图描述使用词典查找单词的意思的实例。这里,包含普通单词意思的词典数据109预先存储在装置100中。我们描述查找那些与没有包含在词典数据1908中的专有单词相关的ISBN所对应的词典。
首先,如上所述,CPU102对选作识别对象的单词执行字符识别处理,将识别结果数据存储在存储器104中,并在显示器107上显示该识别结果(步骤S2201)。CPU102从词典数据109包含的单词中搜索匹配的单词(步骤S2202)。
如果搜索结果显示找到了合适的单词,则从词典数据109中读取与该单词相关的意思数据或翻译数据(后面称之为意思/翻译数据),并将其显示在显示器上(步骤S2211)。
如果搜索结果显示没有找到合适的单词,CPU102读取存储器104中存储的词典ID2003。CPU102经由通信接口106,将识别结果数据和词典ID2003发送到服务器1950(步骤S2204)。
服务器1950接收到识别结果数据和词典ID2003时(步骤S2205),SV-CPU1902访问与词典ID2003关联的ISBN词典数据1905(步骤S2206)。并且SV-CPU1902从ISBN词典数据1905中搜索与识别结果数据匹配的单词(步骤S2207)。
此时,SV-CPU1902判断ISBN词典数据1905中是否包含与识别结果数据匹配的单词(步骤S2208)。如果ISBN词典数据1905中没有与识别结果数据匹配的单词,SV-CPU1902经由通信接口1906向装置100发送一条出错消息(步骤S2212)。
另一方面,当在步骤S2208中发现查找到合适的单词时,SV-CPU1902读取SV存储器1904中存储的意思/翻译数据。SV-CPU1902通过SV通信接口1906将意思/翻译数据发送到装置100(步骤S2209)。信息处理装置100经由通信接口106接收意思/翻译数据(步骤S2210),并在显示器107上显示该意思/翻译数据(步骤S2211)。
图23是该信息处理装置的一些屏幕显示实例。图23(a)所示为ISBN数据作为识别结果被显示出来的屏幕显示的实例。
如图23(a)所示,当按动显示屏幕右下方所显示的“子菜单”对应的操作键时,就会显示与字符识别相关的子菜单(图23(b))。
然后当选择“(3)获取图书信息”时,将识别的ISBN数据和请求与该ISBN对应的词典数据或词典ID的一条请求信号发送给服务器1950。于是,如图23(c)所示,显示与服务器1950的连接状态。
图23(d)所示为当从服务器1950接收到与该ISBN对应的具体词典的词典ID以及与该ISBN对应的图书信息时显示屏幕的实例。这里,图书信息包括书名、出版商和作者,还可以包括与该书对应的词典的可用性。
根据该信息,用户就可以很容易地得知该服务器中是否包含与该ISBN对应的图书信息和与该ISBN对应的词典。
在这种情况下,当选择“(4)词典可用”时,就会出现一个屏幕,要求用户选择他或她是否希望将从服务器接收到的词典ID登记为存储器104中的辅助词典(图23(e))。其中,“辅助词典”一词指的是作为主用词典数据109补充使用的词典。
在这种情况下,当选择“1.是”时,词典ID将会被登记为辅助词典。其中,登记过程为:将存储器104中存储的表示辅助词典的变量替换为从服务器接收到的词典ID值。然后显示一条消息,告诉用户该词典已被登记到辅助词典中(图23(f))。
上面描述了图23(d)的情况,其中,当选择“(4)词典可用”时,就登记与该ISBN对应的词典的词典ID。也可以如前所述,接收与该ISBN对应的词典本身并将其存储到存储器104中。
也可以通过存储卡或其他存储媒介接收词典ID或词典本身。
通过上述方法,可以节省通信成本和用于连接服务器的时间。
图24所示为使用与ISBN对应的词典查找到的单词意思的显示屏幕的实例。
图24(a)所示为显示识别结果的显示屏幕的实例。其中,显示屏幕表明已经识别出选作识别对象的单词“Zakky”。此外,还提供了一项在使用词典数据109(下文称之为“主词典”)或使用与ISBN对应的词典数据(下文称之为“辅助词典”)(2401、2402)之间进行选择以检查单词“Zakky”的意思的功能。
应用该功能,如果主词典中明显没有该单词,就可以从一开始就选择辅助词典。另一方面,如果一个单词很可能包含在主词典中,一开始时就选择主词典而非辅助词典来查找是否包含该单词的意思。通过提供这样的功能,用户可以在每个场合选择主词典或辅助词典,从而提高系统的可操作性和用户友好度。
在图24(b)所示为用户试图使用主词典查找该单词的意思,但结果发现,主词典不包含识别对象的单词(“Zakky”)。其中,CPU102通过将显示识别结果的区域上移,给出一个弹出屏幕,表明在主词典中未找到该单词。这样,显示屏幕可以被有效使用。
图24(c)所示为在主词典不包含选作识别对象的单词的情况下,选择使用辅助词典(2402)的显示屏幕的实例。其中,辅助词典包含单词“Zakky”,于是CPU102处理并显示单词“Zakky”的意思。
图24(d)所示为主词典和辅助词典中都不包含单词“Zakky”的显示屏幕的实例。这里,屏幕显示该结果。
图24(e)所示为当主词典和辅助词典中都不包含选作识别对象的单词“Zakky”时,选择不同的词典的显示屏幕的实例。当在图24(d)中的显示屏幕中选择“词典2403”时,屏幕切换为图24(e)所示的屏幕,其中,存储器104中事先存储了多个词典ID的数据或词典本身。根据该功能,可以对主词典或辅助词典进行设置。
例如,应用该功能,当用户希望使用一个与包含选作识别对象的单词的词典不同的词典时,可以重新选择词典,从而提高获取正确意思的概率。
此外,设置主词典和辅助词典的功能并不限于此例,也可以只设置一个词典。例如,可以将主词典设为固定词典,只有辅助词典可变或自由设置。通过采用这种词典可以随机改变的配置,可以避免由于频繁改变词典,导致用户自己都不知道哪部词典是主词典的不必要的麻烦。
图24(f)所示为向用户提供什么是当前设置的辅助词典的信息的显示屏幕的实例。这里,在用于选择辅助词典的图标上方显示当前设置的辅助词典(Hello!Zakky:2404)。
通过该功能,用户可以很直观方便地确认当前设置的辅助词典及其他项,从而提高用户友好度。
需要指出的是,通知方式并不限于上述实例。如,可以使用表示辅助词典的数字或图标。采用这种方法,在蜂窝电话显示屏幕比较小的情况下,可以高效地利用显示区域。
上面描述了如何设置辅助词典。但是,很明显也可以提供一种通知用户当前所设定的主词典的功能。
此外,可以将上述各种功能以软件程序的形式实现,并且用户可以经由网络通过机读媒介从信息供应商的服务器或从其他设备中接收软件程序。机读媒介一般包括软盘、柔性盘、硬盘、磁盘、磁带及其它磁体媒介、CD-ROM、DVD及其它光媒介、RAM、PROM、EPROM、FLASH-EPROM及其他存储芯片或磁头,以及传输数据或指令的载波。用这种方式,就可以只加载必须的功能,以后根据用户的需要,不断增加、删除或更新各种功能。
此外,很明显,可以结合上述各种实现模式,组成新的实现模式。
本发明不限于所述的实现模式,这里所公开的原理和新的特征包含一个很宽的技术范围。
Claims (3)
1.一种手持信息处理装置,包括:
可倾斜的照相机,其输出对象的图片信息;
显示器,其应用该照相机输出的图片信息显示图像;
输入单元,其可以使用户从该照相机的多种模式中选择一种模式,所述多种模式包括:作为普通照相机功能拍摄图片的普通图像拍摄模式,和识别由该照相机输出的图片信息中包含的字符的识别模式;
距离传感器,其测量与由该照相机拍摄的图片的对象的距离;
角度校正部件,其改变该照相机的倾斜角度;以及
CPU,如果通过该输入单元的操作选择了该识别模式,则该CPU根据由该距离传感器测量的距离来计算该照相机的倾斜角度,控制所述角度校正部件根据CPU所计算的倾斜角度来改变该照相机的倾斜角度以使得该照相机要拍摄的对象与该显示器上显示的对象看起来如同位于相同的位置,处理由该照相机输出的图片信息以使得该图片信息的显示位置或显示角度的至少一部分被修改,以及控制该显示器以使得呈现处理过的图片信息。
2.如权利要求1所述的手持信息处理装置,其中该距离传感器位于该照相机附近。
3.如权利要求1所述的手持信息处理装置,其中该CPU通过使用梯形校正方法来处理该照相机输出的图片信息。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003-316179 | 2003-09-09 | ||
JP2003316179A JP4036168B2 (ja) | 2003-09-09 | 2003-09-09 | 携帯電話 |
JP2003316179 | 2003-09-09 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1595944A CN1595944A (zh) | 2005-03-16 |
CN1595944B true CN1595944B (zh) | 2010-08-18 |
Family
ID=34225223
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2004100771937A Expired - Fee Related CN1595944B (zh) | 2003-09-09 | 2004-09-08 | 信息处理装置、信息处理方法及软件产品 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20050052558A1 (zh) |
JP (1) | JP4036168B2 (zh) |
CN (1) | CN1595944B (zh) |
Families Citing this family (45)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20060050746A (ko) * | 2004-08-31 | 2006-05-19 | 엘지전자 주식회사 | 카메라로 촬영된 문서 영상 처리 방법 |
KR20060050729A (ko) * | 2004-08-31 | 2006-05-19 | 엘지전자 주식회사 | 카메라로 촬영된 문서 영상 처리 방법과 장치 |
JP2006129033A (ja) * | 2004-10-28 | 2006-05-18 | Kyocera Corp | 電子機器および撮影方法 |
JP2006303651A (ja) * | 2005-04-15 | 2006-11-02 | Nokia Corp | 電子装置 |
JP4566825B2 (ja) | 2005-06-03 | 2010-10-20 | レノボ・シンガポール・プライベート・リミテッド | 携帯端末装置のアンテナの制御方法及び当該携帯端末装置 |
KR100678910B1 (ko) * | 2005-07-21 | 2007-02-05 | 삼성전자주식회사 | 입력 장치들과 복수의 설정 정보 항목을 표시하는디스플레이를 갖는 통합 디지털 장치 |
TWI265715B (en) * | 2005-07-21 | 2006-11-01 | Inventec Appliances Corp | Method for collecting business card data in mobile communication apparatus |
KR100628101B1 (ko) * | 2005-07-25 | 2006-09-26 | 엘지전자 주식회사 | 문자 입력 기능을 갖는 이동통신단말기 및 이를 이용한방법 |
US20070044334A1 (en) * | 2005-08-24 | 2007-03-01 | Motorola, Inc. | Wireless device with integrated level |
US8023746B2 (en) * | 2005-10-14 | 2011-09-20 | Disney Enterprises, Inc. | Systems and methods for decoding an image to determine a digital identifier |
US7801359B2 (en) | 2005-10-14 | 2010-09-21 | Disney Enterprise, Inc. | Systems and methods for obtaining information associated with an image |
US7480422B2 (en) * | 2005-10-14 | 2009-01-20 | Disney Enterprises, Inc. | Systems and methods for information content delivery relating to an object |
US7697827B2 (en) | 2005-10-17 | 2010-04-13 | Konicek Jeffrey C | User-friendlier interfaces for a camera |
US8527887B2 (en) * | 2006-07-19 | 2013-09-03 | Research In Motion Limited | Device and method for improving efficiency of entering a password using a key-limited keyboard |
KR100821519B1 (ko) * | 2007-04-20 | 2008-04-14 | 유니챌(주) | 단어정보 제공 시스템 |
US8594387B2 (en) * | 2007-04-23 | 2013-11-26 | Intel-Ge Care Innovations Llc | Text capture and presentation device |
EP2420913B1 (en) * | 2007-12-03 | 2017-09-06 | Semiconductor Energy Laboratory Co. Ltd. | Mobile phone |
JP5315891B2 (ja) | 2008-09-24 | 2013-10-16 | 富士通株式会社 | 距離測定装置、距離測定方法及び距離測定プログラム |
WO2010122429A2 (en) * | 2009-04-20 | 2010-10-28 | Master Wave International Co., Ltd. | Image-based data management method and system |
CN101609365B (zh) | 2009-07-21 | 2012-10-31 | 上海合合信息科技发展有限公司 | 字符输入方法及系统、电子设备及其键盘 |
JP4668345B1 (ja) * | 2009-11-25 | 2011-04-13 | シャープ株式会社 | 情報処理装置、および情報処理装置の制御方法 |
US8687070B2 (en) * | 2009-12-22 | 2014-04-01 | Apple Inc. | Image capture device having tilt and/or perspective correction |
JP4851604B2 (ja) * | 2010-01-27 | 2012-01-11 | 京セラ株式会社 | 携帯電子機器および携帯電子機器の制御方法 |
EP2383970B1 (en) * | 2010-04-30 | 2013-07-10 | beyo GmbH | Camera based method for text input and keyword detection |
JP5793975B2 (ja) * | 2010-08-03 | 2015-10-14 | 株式会社リコー | 画像処理装置、画像処理方法、プログラム、記録媒体 |
US20120040717A1 (en) * | 2010-08-16 | 2012-02-16 | Veechi Corp | Mobile Data Gathering System and Method |
KR101748180B1 (ko) * | 2010-12-31 | 2017-06-16 | 주식회사 케이티 | 영상으로부터 피사체의 크기를 측정하기 위한 방법 및 장치 |
EP2637128B1 (en) * | 2012-03-06 | 2018-01-17 | beyo GmbH | Multimodal text input by a keyboard/camera text input module replacing a conventional keyboard text input module on a mobile device |
CN103324924A (zh) * | 2012-03-19 | 2013-09-25 | 宇龙计算机通信科技(深圳)有限公司 | 一种字符定位的方法、装置及终端 |
US9916514B2 (en) * | 2012-06-11 | 2018-03-13 | Amazon Technologies, Inc. | Text recognition driven functionality |
JP5931639B2 (ja) * | 2012-08-01 | 2016-06-08 | シャープ株式会社 | 携帯端末装置、その制御方法およびその制御プログラム |
US9726895B2 (en) * | 2012-08-07 | 2017-08-08 | Industry-University Cooperation Foundation Hanyang University | Wearable display device having a sliding structure |
CN102855482A (zh) * | 2012-08-16 | 2013-01-02 | 东莞宇龙通信科技有限公司 | 图片处理方法及装置 |
JP2014078823A (ja) * | 2012-10-10 | 2014-05-01 | Nec Saitama Ltd | 携帯電子機器、その制御方法及びプログラム |
KR101992194B1 (ko) * | 2012-12-31 | 2019-06-25 | 엘지전자 주식회사 | 이동단말기 및 그 제어 방법 |
KR102625606B1 (ko) | 2013-05-21 | 2024-01-17 | 가부시키가이샤 한도오따이 에네루기 켄큐쇼 | 전자 기기 및 카메라 |
CN103713807A (zh) * | 2014-01-13 | 2014-04-09 | 联想(北京)有限公司 | 一种信息处理方法和装置 |
US9582851B2 (en) * | 2014-02-21 | 2017-02-28 | Microsoft Technology Licensing, Llc | Using proximity sensing to adjust information provided on a mobile device |
CN103970452B (zh) * | 2014-03-31 | 2017-09-22 | 联想(北京)有限公司 | 一种信息处理方法及装置 |
CN105631393A (zh) | 2014-11-06 | 2016-06-01 | 阿里巴巴集团控股有限公司 | 信息识别方法及装置 |
CN104820553A (zh) * | 2015-04-29 | 2015-08-05 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
CN105389779A (zh) * | 2015-10-15 | 2016-03-09 | 广东欧珀移动通信有限公司 | 一种图像校正方法、装置及移动终端 |
CN106815584A (zh) * | 2017-01-19 | 2017-06-09 | 安徽声讯信息技术有限公司 | 一种基于ocr技术的相机手动取景图片转化系统 |
CN109597267B (zh) * | 2017-09-30 | 2020-06-23 | 昆山国显光电有限公司 | 显示装置及显示屏模组 |
CN116275587B (zh) * | 2023-04-17 | 2023-10-27 | 霖鼎光学(江苏)有限公司 | 一种激光切割工件的控制系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6177950B1 (en) * | 1996-01-17 | 2001-01-23 | Avt Audio Visual | Multifunctional portable telephone |
US6449004B1 (en) * | 1996-04-23 | 2002-09-10 | Minolta Co., Ltd. | Electronic camera with oblique view correction |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6532035B1 (en) * | 2000-06-29 | 2003-03-11 | Nokia Mobile Phones Ltd. | Method and apparatus for implementation of close-up imaging capability in a mobile imaging system |
JP4240859B2 (ja) * | 2001-09-05 | 2009-03-18 | 株式会社日立製作所 | 携帯端末装置及び通信システム |
US7343049B2 (en) * | 2002-03-07 | 2008-03-11 | Marvell International Technology Ltd. | Method and apparatus for performing optical character recognition (OCR) and text stitching |
DE60330484D1 (de) * | 2002-08-07 | 2010-01-21 | Panasonic Corp | Zeichenerkennungsverarbeitungseinrichtung, zeichenerkennungsverarbeitungsverfahren und mobilendgerät |
-
2003
- 2003-09-09 JP JP2003316179A patent/JP4036168B2/ja not_active Expired - Lifetime
-
2004
- 2004-08-20 US US10/922,080 patent/US20050052558A1/en not_active Abandoned
- 2004-09-08 CN CN2004100771937A patent/CN1595944B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6177950B1 (en) * | 1996-01-17 | 2001-01-23 | Avt Audio Visual | Multifunctional portable telephone |
US6449004B1 (en) * | 1996-04-23 | 2002-09-10 | Minolta Co., Ltd. | Electronic camera with oblique view correction |
Non-Patent Citations (1)
Title |
---|
JP特开2000-23012A 2000.01.21 |
Also Published As
Publication number | Publication date |
---|---|
US20050052558A1 (en) | 2005-03-10 |
JP4036168B2 (ja) | 2008-01-23 |
CN1595944A (zh) | 2005-03-16 |
JP2005084951A (ja) | 2005-03-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1595944B (zh) | 信息处理装置、信息处理方法及软件产品 | |
US8111408B2 (en) | Mobile phone for interacting with underlying substrate | |
CN1245823C (zh) | 允许从背面输入手写字符的蜂窝电话 | |
US7739118B2 (en) | Information transmission system and information transmission method | |
US8036895B2 (en) | Cooperative processing for portable reading machine | |
CN1201621C (zh) | 移动终端设备和功率控制方法及记录其程序的存储媒介 | |
EP2447857A1 (en) | Communication device and electronic device | |
WO2001061449A2 (en) | Specially formatted paper based applications of a mobile phone | |
US20050007444A1 (en) | Information processing apparatus, information processing method, and software product | |
US20110006986A1 (en) | Input device | |
EP1256091B1 (en) | Method and system for configuring and unlocking an electronic reading device | |
US20090046320A1 (en) | Method and apparatus for forwarding media... | |
US20110187665A1 (en) | Mobile terminal, data control program, and data control method | |
EP1426855A1 (en) | Information processing system, i/o device, portable information terminal appliance and display device | |
KR20010017203A (ko) | 휴대폰의 동작인식장치 및 방법 | |
JP4966628B2 (ja) | 電子機器およびプログラム | |
US20080042990A1 (en) | Apparatus and method for changing input mode in portable terminal | |
JP2000048215A (ja) | データ処理装置及びその制御プログラムを記憶した媒体 | |
US8509749B2 (en) | Mobile communication apparatus and operating method thereof | |
JP2011186994A (ja) | 文字入力装置および文字入力方法 | |
JP4851604B2 (ja) | 携帯電子機器および携帯電子機器の制御方法 | |
WO2009104193A1 (en) | Provisioning of media objects associated with printed documents | |
JP5254892B2 (ja) | 携帯通信機器及び通信機器 | |
WO2021084761A1 (ja) | 画像読取装置 | |
TW507138B (en) | Character input method and character input device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20100818 Termination date: 20120908 |