CN102346859B - 文字识别装置 - Google Patents
文字识别装置 Download PDFInfo
- Publication number
- CN102346859B CN102346859B CN2011102086925A CN201110208692A CN102346859B CN 102346859 B CN102346859 B CN 102346859B CN 2011102086925 A CN2011102086925 A CN 2011102086925A CN 201110208692 A CN201110208692 A CN 201110208692A CN 102346859 B CN102346859 B CN 102346859B
- Authority
- CN
- China
- Prior art keywords
- literal
- acceleration
- data
- component
- point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/03—Arrangements for converting the position or the displacement of a member into a coded form
- G06F3/033—Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/16—Constructional details or arrangements
- G06F1/1613—Constructional details or arrangements for portable computers
- G06F1/1633—Constructional details or arrangements of portable computers not specific to the type of enclosures covered by groups G06F1/1615 - G06F1/1626
- G06F1/1684—Constructional details or arrangements related to integrated I/O peripherals not covered by groups G06F1/1635 - G06F1/1675
- G06F1/1694—Constructional details or arrangements related to integrated I/O peripherals not covered by groups G06F1/1635 - G06F1/1675 the I/O peripheral being a single or a set of motion sensors for pointer control or gesture input obtained by sensing movements of the portable computer
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/02—Input arrangements using manually operated switches, e.g. using keyboards or dials
- G06F3/023—Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
- G06F3/0233—Character input methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/03—Arrangements for converting the position or the displacement of a member into a coded form
- G06F3/033—Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
- G06F3/0346—Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor with detection of the device orientation or free movement in a 3D space, e.g. 3D mice, 6-DOF [six degrees of freedom] pointers using gyroscopes, accelerometers or tilt-sensors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/03—Arrangements for converting the position or the displacement of a member into a coded form
- G06F3/033—Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
- G06F3/0354—Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor with detection of 2D relative movements between the device, or an operating part thereof, and a plane or surface, e.g. 2D mice, trackballs, pens or pucks
- G06F3/03545—Pens or stylus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/22—Character recognition characterised by the type of writing
- G06V30/228—Character recognition characterised by the type of writing of three-dimensional handwriting, e.g. writing in the air
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/32—Digital ink
- G06V30/333—Preprocessing; Feature extraction
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Computer Hardware Design (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Character Discrimination (AREA)
Abstract
基于加速度传感器的测量结果,能顺利且可靠地对在平面内所书写的文字进行文字识别。为此,控制部(1)在基于加速度传感器(7)的测量结果来识别在空间平面内移动内置有加速度传感器(7)的框体的同时所进行的书写文字的动作的情况下,在将基于与加速度传感器(7)的各轴对应的分量的加速度数据而判别的从1文字的开始书写起到结束书写为止的期间的每个分量的加速度数据作为包含笔画和笔画之间的加速度的、从文字的第1笔画起到最后1笔画为止时间上连续的一系列的加速度数据取得后,按每个分量分别确定存在于该一系列的加速度数据中的多个特征点,并将包含该多个特征点的每个分量的特征点数据作为输入文字数据生成,然后与基本文字数据对照。
Description
技术领域
本发明涉及一种文字识别装置以及存储介质,其基于加速度传感器的测量结果,识别在平面内移动内置有加速度传感器的框体的同时所进行的书写文字的动作。
背景技术
作为通过惯性传感器来测量人书写文字的动作并读入到计算机中的现有技术,提出了多种技术。例如,如日本特开2009-099041号公报所述,提出了一种技术,通过在笔尖收纳加速度传感器,来提取该加速度传感器的测量结果作为笔尖的移动轨迹。另外,如日本特开2008-070920号公报所述,提出了一种技术,在便携电话装置中,基于与加速度传感器的检测结果对应的装置主体的移动信息,识别通过手写动作而确定的输入信息。
然而,尽管使用加速度传感器来进行文字识别的大多数技术是对加速度传感器的测量结果进行二次积分,由此根据加速度计算速度,并根据该速度计算位置,然后将该位置的移动轨迹利用于文字识别,但在这种方法中,存在积分初始状态(开始书写位置)不明的问题或积分误差的问题。进而,为了从测量数据中去除重力这种强干扰,需要在重力方向的变化的追踪中对角速度传感器的输出进行积分,而在该积分中也存在上述的积分初始状态不明的问题或积分误差的问题,因此实现可靠的文字识别极其困难。
发明内容
本发明的课题在于,基于加速度传感器的测量结果,能顺利且可靠地对在平面内所书写的文字进行文字识别。
为了解决上述课题,本发明的第1观点涉及的文字识别装置具备:至少2轴的加速度传感器;获取单元,其获取所述加速度传感器的测量结果作为与各轴对应的分量的加速度数据,所述加速度传感器的测量结果与在平面内移动该文字识别装置的框体的同时所进行的书写文字的动作对应;判别单元,其基于由所述获取单元获取的每个分量的加速度数据,来判别1文字的开始书写和结束书写;确定单元,其将在从所述判别单元判别为1文字的开始书写起到判别为结束书写为止的期间由所述获取单元依次获取的每个分量的加速度数据作为包含笔画和笔画之间的加速度的、从文字的第1笔画起到最后1笔画为止时间上连续的一系列的加速度数据,并按每个分量来分别确定存在于该一系列的加速度数据之中的多个特征点;生成单元,其将包含由所述确定单元确定的多个特征点的每个分量的特征点数据作为输入文字数据生成;和文字识别单元,其通过将基本文字数据和由所述生成单元生成的输入文字数据进行对照来进行文字识别,所述基本文字数据作为文字识别用而预先准备,且按所述每个分量包含多个特征点。
本发明的第2观点涉及的文字识别装置具备:3轴的加速度传感器;获取单元,其获取来自所述加速度传感器的测量结果作为1文字份的时间序列的加速度矢量,该测量结果与在移动该文字识别装置的框体的同时所进行的书写文字的动作对应;选择单元,其在由所述获取单元获取的1文字份的加速度矢量序列之中,选择矢量的大小为大的值、且彼此大致正交的多个加速度矢量;平面确定单元,其确定由所述选择单元选择的多个加速度矢量决定的平面;第1变换单元,其将由所述获取单元获取的所述1文字份的加速度矢量序列变换成由所述平面确定单元确定的平面内的正交的2分量的加速度矢量序列;和文字识别单元,其将由所述第1变换单元变换后的平面内的2分量的加速度矢量序列作为输入文字数据,并将该输入文字数据和预先准备的文字识别用的基本文字数据进行对照,由此来进行文字识别。
本发明的第3观点的记录介质,存储用于使计算机实现以下功能的程序:在基于加速度传感器的测量结果来识别在平面内移动内置有至少2轴的加速度传感器的框体的同时所进行的书写文字的动作的情况下,获取所述加速度传感器的测量结果作为与各轴对应的分量的加速度数据的功能,其中,所述测量结果与在平面内移动所述框体的同时所进行的书写文字的动作对应;基于获取的所述每个分量的加速度数据,来判别1文字的开始书写和结束书写的功能;将在从判别为1文字的开始书写起到判别为结束书写为止的期间依次获取的所述每个分量的加速度数据作为包含笔画和笔画之间的加速度的、从文字的第1笔画起到最后1笔画为止时间上连续的一系列的加速度数据,并按每个分量来分别确定存在于该一系列的加速度数据之中的多个特征点的功能;将包含所确定的所述多个特征点的每个分量的特征点数据作为输入文字数据生成的功能;和通过将基本文字数据和所生成的所述输入文字数据进行对照来进行文字识别的功能,其中,所述基本文字数据作为文字识别用而预先准备,且按所述每个分量包含多个特征点。
本发明的第4观点的记录介质,存储用于使计算机实现以下功能的程序:在基于加速度传感器的测量结果来识别在平面内移动内置有3轴的加速度传感器的框体的同时所进行的书写文字的动作的情况下,获取来自所述加速度传感器的测量结果作为1文字份的时间序列的加速度矢量的功能,其中,所述测量结果与在移动所述框体的同时所进行的书写文字的动作对应;在所获取的所述1文字份的加速度矢量序列之中,选择矢量的大小为大的值、且彼此大致正交的多个矢量的功能;确定由所选择的所述多个矢量决定的平面的功能;将由所获取的所述1文字份的加速度矢量序列变换成所确定的所述平面内的正交的2分量的加速度矢量序列的功能;和将所变换后的所述平面内的2分量的加速度矢量序列作为输入文字数据,并将该输入文字数据和预先准备的文字识别用的基本文字数据进行对照,由此来进行文字识别的功能。
根据本发明,能基于加速度传感器的测量结果对在平面内所书写的文字进行顺利且可靠的文字识别,从而富于实用性。
本发明的上述和进一步所述的对象以及的新的特征将在下面详细的描述中伴随附图体现出来,应该明确理解的是,附图的目的仅是为了说明的需要,而不应理解为是对发明的限制。
附图文字
图1是表示应用为文字识别装置的带文字识别功能的摄像装置(数码相机)的基本构成要素的框图。
图2是用于说明从包含多个特征点的每个分量的加速度数据的每一个中所确定的特征点,并说明表示与其他轴之间的相关特征的时间的比率的图。
图3是用于说明从包含多个特征点的每个分量的加速度数据的每一个中所确定的特征点,并说明表示与其他轴之间的相关特征的等级(level)的比率的图。
图4是用于说明识别字典存储器DM内的基本文字数据的图。
图5是用于说明用户在手写输入文字时的操作步骤或操作方法的流程图。
图6是表示在数码相机的整体动作之中作为本实施方式的特征部分的动作概要的、在启动文字识别功能从而开始文字识别的情况下的概要动作的流程图。
图7是用于详述文字判别处理(图6的步骤B9)的流程图。
图8(1)~(10)是例示作为文字识别用而存储的基本文字数据和输入文字数据之间的对照过程的图。
图9是为了说明第2实施方式而表示某文字的加速度数据的波形图,(1)是表示将平面内的各轴分别朝相同方向旋转45°前的波形的图,(2)是表示将上述各轴分别朝相同方向旋转45°后的波形例的图。
图10是用于说明在第2实施方式中的识别字典存储器DM内的各基本文字数据的图。
图11是用于详述在第2实施方式中的文字判别处理(图6的步骤B9)的流程图。
图12是表示在第2实施方式中,为了变换成在将平面内的各轴旋转后的旋转坐标系上的加速度数据而使用“旋转矩阵”的旋转变换式的图。
图13作为第1、2实施方式的变形例,是用于说明极点的深度的图。
图14作为第1、2实施方式的变形例,(1)、(2)是表示输入文字数据内的某分量的特征点的数目、和某基本文字数据的相同分量的特征点的数目的图。
图15作为第1、2实施方式的变形例,是表示识别字典存储器DM内的基本文字数据的结构的图。
图16(1)、(2)作为第1、2实施方式的变形例,是用于说明基本文字数据的图。
图17作为第1、2实施方式的变形例,是用于说明基本文字数据的图。
图18是表示应用为第3实施方式中的文字识别装置的带文字识别功能的摄像装置(数码相机)的基本的构成要素的框图。
图19是用于说明第3实施方式中的识别字典存储器DM2内的基本文字数据的图。
图20是用于说明第3实施方式中的、用户在手写输入文字时的操作步骤或操作方法的流程图。
图21是表示第3实施方式中的、在数码相机的整体动作之中作为本实施方式的特征部分的动作概要的、在开启文字识别功能从而开始文字识别的情况下的概要动作的流程图。
图22是用于详述第3实施方式中的、文字平面检测·文字方向检测·文字判别处理(图21的步骤F9)的流程图。
具体实施方式
下面,参照附图说明本发明的实施方式。
(第1实施方式)
以下,参照图1~图8,说明本发明的第1实施方式。
本实施方式例示了在应用为文字识别装置的带文字识别功能的摄像装置(数码相机)中进行应用的情况,图1是表示带文字识别功能的数码相机的基本的构成要素的框图。
数码相机是构成便携式的紧凑型相机的相机,除了摄像功能、计时功能等基本功能以外,还具有识别在空间平面内所书写的文字的文字识别功能,并以控制部1为核心进行动作。控制部1通过来自具备二次电池的电源部2的电力供给进行动作,并按照存储部3内的各种程序来控制该数码相机的整体动作,在该控制部1中设置有未图示的CPU(中央运算处理装置)或存储器等。
存储部3在ROM、RAM等内部存储器中具有未图示的程序区域和数据区域,并在该存储部3内的程序区域中,存储有用于按照后述的图6以及图7所示的动作步骤来实现本实施方式的程序。另外,在存储部3内的数据区域中,除了对文字识别用的基本文字数据进行存储的识别字典存储器DM、对所摄影的图像进行存储保存的图像存储器FM以外,还存储有各种标志信息、数码相机的动作所需的各种信息。此外,存储部3可以是包括诸如SD卡、IC卡等装卸自由的可移动式存储器(记录介质)的结构,或者可以是在未图示的规定的外部服务器上具有存储部3的结构。
操作部4进行文字输入、命令输入等,虽未图示,但在该操作部4中设置有使相机功能开启/关闭的开启/关闭键、快门键等。控制部1进行诸如相机开启/关闭处理、摄影处理等各种处理作为与来自操作部4的操作信号对应的处理。显示部5使用例如高清液晶或者有机EL,除了显示诸如日期时间信息、保存图像等以外,在相机功能的使用时,成为显示实时取景图像(监测图像)的取景器(finder)画面。
摄像部6是构成数码相机功能的构成要素,除了静止图像摄影以外还能进行动画摄影,具有相机镜头部、摄像元件(例如,CCD或者CMOS)、图像信号处理部、模拟处理部、压缩扩展部、各种传感器部(测距传感器、光传感器等)等,对光学变焦进行调整控制,或对自动对焦时的驱动控制、快门驱动控制、曝光、白平衡等进行控制,或对快门速度(曝光时间)进行测定。另外,摄像部6具备能根据被摄体而进行望远/广角的切换的2焦点式镜头或变焦镜头,使让焦点距离可变的视角变更机构工作,来进行望远/广角或变焦摄影。
尽管加速度传感器7是内置于数码相机主体(框体)的至少2轴的加速度传感器(在本实施方式中,为3轴型的加速度传感器),是构成文字识别功能的要素之一,但还可以例如将构成计步器的加速度传感器兼用于文字识别功能。控制部1在文字识别功能的工作中,基于加速度传感器7的测量结果来进行文字识别。即,控制部1基于加速度传感器7的测量结果,也就是彼此正交的3轴方向(X·Y·Z方向)的加速度分量,来确定相对于重力方向平行的二维平面(垂直面),并基于分离成在该平面内正交的2轴的分量的加速度数据,即基于第1轴(第1分量)的加速度数据和第2轴(第2分量)的加速度数据来进行文字识别。
在此,控制部1基于在相对于重力方向平行的二维平面内所分离的正交的2轴的分量的加速度数据,判别1文字的开始书写和结束书写。然后,控制部1在从文字的开始书写起到结束书写为止的期间,将依次取得的各分量的加速度数据作为包含笔画和笔画之间的加速度的从文字的第1笔画起到最后1笔画为止时间上连续的一系列的加速度数据,并按每个分量来分别确定存在于该一系列的加速度数据之中的多个特征点。将包含如此确定的多个特征点的每个分量的特征点数据作为输入文字数据生成,并将该输入文字数据与识别字典存储器DM内的各基本文字数据对照,由此来进行文字识别。
即,输入文字数据是针对在二维平面内所分离的正交的2轴的分量的每一个而包含多个特征点的特征点数据,各特征点在后面详述,在此示出了局部的最大点即极大点和局部的最小点即极小点。而且,各特征点由其“每个极点的种类”、“极点时刻(时间上的位置)”、“极点等级(extremum level)(加速度的大小)”、“与其他轴之间的相关特征(比率)”的数据构成。同样,在识别字典存储器DM内的各基本文字数据中,每个特征点也是由“每个极点的种类”、“极点时刻(时间上的位置)”、“极点等级(加速度的大小)”、“与其他轴之间的相关特征(比率)”的数据构成。然后,按每个特征点将该输入文字数据与全部的基本文字数据进行对照,由此来进行文字识别。
图2以及图3是用于说明从包含多个特征点的每个分量的加速度数据的每一个中所确定的特征点的图,是表示各分量的加速度数据的变化状态的波形图。
图中,纵轴表示从加速度传感器7的测量结果中减去重力份后得到的加速度,横轴表示时刻。而且,实线的波形表示在二维平面内所分离的正交的2轴的分量之中,其任意一个分量(第1分量)的加速度数据,另外,虚线的波形表示其他分量(第2分量)的加速度数据。在此,控制部1在各分量的加速度数据的每一个中,将局部的最大点即极大点和局部的最小点即极小点确定为特征点,并按每个该特征点将表示是极大点还是极小点的值作为“极点的种类”求取,且将该极点的加速度的值作为“极点等级”求取。另外,在按每个特征点将文字的开始书写位置作为原点(时间“0”,加速度“0”)的情况下,将到达各极点(极大点和极小点)的时刻作为“极点时刻”求取。
按其中一轴的加速度数据内的每个特征点,将表示和与另一轴对应的加速度数据内的特征点之间的相对关系的数据作为“与其他轴之间的相关特征(比率)”求取。在此,其他轴是指,若求取相关特征的极点是第1分量的极点,则第2分量的轴是其他轴,反之,若是第2分量的极点,则第1分量的轴是其他轴。另外,“与其他轴之间的相关特征”是指,在将从其他轴的极大点到极小点、或者从极小点到极大点的极点间范围作为基准时,表示相对处于怎样的位置的时间上的比率(时间的比率)、等级上的比率(等级的比率),并按全部极点的每一个来进行求取。按这种方式求取“与其他轴之间的相关特征(比率)”是由于,在对文字快速书写时、慢速书写时、部分变快进行书写时,后述的文字识别将变难,具体而言,比较与对照对象的基本文字的极点之间的类似度的处理将变难,因此,通过以与其他轴之间的相对关系为指标,就不易被书写1文字的速度或速度的变化影响。
进而,图2是用于说明作为与其他轴之间的相关特征的、时间的比率的图,该时间的比率是按其中一轴的每个特征点,以其他轴的极点间范围为基准,表示相对处于怎样的位置的时间上的比率。即,在图示的例子中,第1分量的第0个极点以及第1个极点的、与其他轴之间的相关特征(时间的比率)示出了,在以从第2分量的极大点到极小点、或者从极小点到极大点的极点间范围为基准(时间尺度比)时,第1分量的第0个极点的时间的比率为“-0.7246”,第1分量的第1个极点的时间比率为“-0.3832”。另外,第2分量的第0个极点的、与其他轴之间的相关特征(时间的比率)示出了,在以从第1分量的极大点到极小点、或者从极小点到极大点的极点间范围为基准(时间尺度比)时,第2分量的第0个极点的时间的比率为“0.4706”。
此外,在图2中,若某分量的第0个极点是极大点,则便利地将该分量的文字的开始书写决定为极小点,反之,若第0个极点是极小点,则便利地将文字的开始书写决定为极大点。同样,针对文字的结束书写的点,若近前的极点是极大点,则便利地决定为极小点,若近前是极小点,则便利地决定为极大点。另外,在计算比率的情况下,若其他轴的加速度是逐渐减小的过程,则例如将极大点设为-1,极小点设为0,将本极点的位置作为负数的值的比率进行计算,另外,在其他轴的加速度逐渐增加的过程中,例如将极大点设为1,极小点设为0,将本极点的位置作为正数的值的比率进行计算。这在后述的图3的情况下也相同。
进而,图3是用于说明表示与其他轴之间的相关特征的、等级的比率的图,该等级的比率是按其中一轴的每个特征点,以其他轴的极点间范围为基准,表示相对处于怎样的大小的等级上的比率。在图示的例子中,第1分量的第0个极点以及第1个极点的、与其他轴之间的相关特征(等级的比率)示出了,在以从第2分量的极大点到极小点、或者从极小点到极大点的极点间范围为基准(等级尺度比)时,第1分量的第0个极点的等级的比率为“-0.4579”,第1分量的第1个极点的等级比率为“-0.1495”。另外,第2分量的第0个极点的、与其他轴之间的相关特征(等级的比率)示出了,在以从第1分量的极大点到极小点、或者从极小点到极大点的极点间范围为基准(等级尺度比)时,第2分量的第0个极点的等级的比率为“0.5856”。
图4是用于说明识别字典存储器DM内的基本文字数据的图。
识别字典存储器DM存储作为文字识别用而预先准备的基本文字数据,基本文字数据是仅集中于一旦书写文字则必然出现的特征点(极点)的结构,是与正交的2轴的分量对应具有多个特征点(极点)的特征点数据。该特征点数据是按各分量的每个特征点包含“K(j、k)”、“R(j、k)”、“L(j、k)”、“T(j、k)”的项目的数据,项目数据“K(j、k)”表示第j分量的加速度的第k个极点的种类(极大点或者极小点)。项目数据“R(j、k)”表示上述极点的与其他轴之间的相关特征(时间的比率或者等级的比率)。项目数据“L(j、k)”表示上述极点的极点等级。项目数据“T(j、k)”表示上述极点的极点时刻。
图示的例子,示出了在第1分量的加速度中的极点的个数为M个的情况,在第1分量中,与第0个极点对应,具有“K(1、0)”、“R(1、0)”、“L(1、0)”、“T(1、0)”的项目,与第1个极点对应,具有“K(1、1)”、“R(1、1)”、“L(1、1)”、“T(1、1)”的项目,…,与第M个极点对应,具有“K(1、M-1)”、“R(1、M-1)”、“L(1、M-1)”、“T(1、M-1)”的项目。另外,图示的例子,示出了在第2分量的加速度中的极点的个数为N个的情况,与第0个极点对应,具有“K(2、0)”、“R(2、0)”、“L(2、0)”、“T(2、0)”的项目,与第1个极点对应,具有“K(2、1)”、“R(2、1)”、“L(2、1)”、“T(2、1)”的项目,…,与第N个极点对应,具有“K(2、N-1)”、“R(2、N-1)”、“L(2、N-1)”、“T(2、N-1)”的项目。此外,M、N的值不限于相同,还有不同的情况。
接下来,参照图6以及图7所示的流程图来说明第1实施方式中的数码相机的动作概念。在此,将在这些流程图中所描述的各功能以可读取的程序代码的形态进行存储,并依次执行依照这些程序代码的动作。另外,还能对依照经由互联网等传输介质传输而来的上述程序代码的动作依次执行。这在后述的其他实施方式中也相同,除了记录介质以外,还能利用经由传输介质从外部供给的程序/数据来执行本实施方式特有的动作。
在此,在说明图6以及图7所示的流程图之前,参照图5说明用户在手写输入文字时的操作步骤或操作方法。
首先,用户在使文字识别功能开启后,手持数码相机主体(框体)使其在空间平面内移动的同时书写文字。即,手持框体使其在空间平面内移动的同时书写文字,但在开始书写1文字前要使框体大致静止(图5的步骤A1),其后,使框体缓慢平滑地移动到文字的开始书写位置(步骤A2)。
然后,在相对于重力方向平行的二维平面内书写文字。此时,尽管在1文字的输入中使框体的姿势不发生大的变化,且按每1笔画(stroke)使框体移动,但在这种情况下,使在1文字输入中不停止书写的动作而一笔连续平滑地书写,还平滑地进行从1笔画的终点到下一笔画的起点的移动(步骤A3)。然后,在结束书写1文字的时间点再次使框体大致静止(步骤A4)。其后,在使框体缓慢平滑地移动到下一文字的开始书写位置后(步骤A5),开始书写下一文字。以下,直到使文字输入结束为止(在步骤A6中的否),都回到上述的步骤A3重复手写输入操作,由此依次手写输入多个文字。
图6作为数码相机的整体动作之中的本实施方式的特征部分的动作概要,是表示在开启了文字识别功能从而开始文字识别的情况下的概要动作的流程图。此外,在从该图6的流程脱离时,回到整体动作的主流程(省略图示)。
首先,控制部1进行用于从加速度传感器7的测量结果中消去重力份的处理(图6的步骤B1)。即,例如,由于在垂直方向的测量结果(加速度分量)中含有作为重力加速度的向上的1G,因此在每次测量加速度时,作为从其测量结果中减去向上的1G的准备,在开始书写文字之前,测量与框体的姿势(大致相同的姿势)对应的重力加速度,并临时存储在存储部3内的RAM中。
然后,基于2分量的加速度合成矢量的大小是否在规定的阈值以上且是否连续规定时间(规定次数)以上,来调查是否已开始书写文字(步骤B2)。在此,用户使框体缓慢平滑地移动到文字的开始书写位置使得2个加速度合成矢量的大小在规定的阈值以上而不连续规定时间以上,也就是说,规定的阈值以上的加速度合成矢量不连续规定时间(规定次数)以上,其后,开始书写文字。由此,检测出规定阈值以上的加速度合成矢量连续了规定时间(规定次数)以上(在步骤B2中为是)。
若这样检测出文字的开始书写,则使用于对1文字的输入时间进行计时的1文字输入定时器(省略图示)的测量动作开始(步骤B3)。然后,移动到对1文字输入中的加速度数据进行存储的处理(步骤B4),通过从加速度传感器7的测量结果中减去重力加速度,来将消去了重力份的2分量的加速度作为开始书写的测量结果存储于存储部3内的RAM中,其后,基于是否检测出小于规定阈值的加速度合成矢量连续了规定时间(规定次数)以上,来调查是否已结束书写1文字(步骤B5),在这种情况下,用户保持框体的姿势,到结束书写1文字为止都在使框体连续移动的同时不停止书写文字的手而一笔书写地进行书写,从1笔画的终点起到下1笔画的起点描画平滑的轨迹,按照这种方式使框体移动,若结束书写1文字,则停止框体的移动,因此,在结束书写1文字时,检测出小于规定阈值的加速度合成矢量连续了规定时间(规定次数)以上(在步骤B5中为是)。
相反,在1文字输入中,检测出规定阈值以上的加速度合成矢量连续了规定时间(规定次数)以上(在步骤B5中为否),因此,下面回到上述的步骤B4,重复将1文字输入中的加速度数据存储在存储部3内的RAM中的处理。将像这样存储加速度传感器7的测量结果的动作例如1秒间进行100次左右。这样,在存储部3内的RAM中,从1文字的开始书写起到结束书写为止的期间依次取得的各分量的加速度数据作为包含笔画和笔画之间的加速度的从文字的第1笔画起到最后1笔画为止时间上连续的一系列的加速度数据被依次存储。
若检测出已结束书写1文字(在步骤B5中为是),则在使上述1文字输入定时器的测量动作停止后(步骤B6),调查其测量时间(1文字的输入时间)是否为规定的阈值以上的长度(例如,像汉语数字的“一”那样简单的文字输入所需的时间以上)(步骤B7)。然后,若是小于阈值的长度(在步骤B7中为否),则在为了使本次的加速度传感器7中的测量结果无效而消去存储于存储部3内的RAM中的本次的一系列的加速度数据后(步骤B8),回到检测文字的开始书写的步骤B2。现在,若1文字的输入时间为规定的阈值以上的长度(在步骤B7中为是),则基于存储于存储部3内的RAM中的1文字份的一系列的加速度数据,执行用于进行文字识别的文字判别处理(步骤B9)。
图7是用于详述文字判别处理(图6的步骤B9)的流程图。
首先,控制部1对在手写输入1文字的期间的加速度传感器7的测量结果(2分量的加速度)执行滤波处理(步骤C1)。即,为了从自开始书写起到结束为止的1文字份的加速度数据之中去除因加速度传感器7自身的噪声或轻微的手的抖动而引起的加速度的高频分量,对2分量的加速度施加低频滤波。其次,对1文字份的加速度数据进行等级的归一化(normalization)(步骤C2)。即,一般而言,在根据加速度的变化来进行文字识别的装置中,即使是同样大小的文字,在缓慢书写时和快速书写时,加速度的大小也会变化。为了避免对后面的文字识别处理造成影响,在将框体静止时的加速度的2分量均设为“0”时,搜索1文字份中的2分量的加速度数据之中绝对值最大的加速度,并按照对2分量的加速度一律乘以相同的系数的方式进行等级的归一化,使得其值在任何文字中都相同。
接下来,从1文字份的加速度数据之中按每个分量来确定各特征点,并确定其种类(步骤C3)。在这种情况下,在2分量的加速度数据的每一个中,搜索局部的最大点(极大点)和局部的最小点(极小点),将该极大点、极小点确定为特征点,并确定其种类(极大点或极小点)。然后,按每个特征点求取在该点的归一化后的加速度等级(极点等级)(步骤C4),并且在将1文字的开始书写设为时刻“0”时,求取到达此极点的时刻(极点时刻)(步骤C5)。进而,按每个特征点来求取与其他轴之间的相关特征(步骤C6)。在这种情况下,如图2所示,按其中一轴的每个特征点,以与其他轴的极点间范围为基准,求取表示相对处于怎样的位置的时间的比率。另外,如图3所示,按其中一轴的每个特征点,以其他轴的极点间范围为基准,求取表示相对处于怎样的大小的等级的比率。
这样按每个分量从1文字份的加速度数据之中确定各特征点,且将按每个特征点包含“每个极点的种类”、“极点等级”、“极点时刻”、“与其他轴之间的相关特征(比率)”的特征点数据作为输入文字数据生成(步骤C7)。然后,将存储于识别字典存储器DM中的各基本文字中的、排头的基本文字指定为对照对象(步骤C8),并一边将指定的基本文字数据和输入文字数据进行对照一边计算它们的类似度(步骤C9)。
图8是例示将基本文字数据和输入文字数据进行对照的过程的图,在图示的例子中,示出了某基本文字的某分量的极点是从第0个极点起到第k个(第2个)极点为止的3个,另外,输入文字的某分量的极点是从第0个极点起到第k个(第4个)极点为止的5个的情况。另外,图中,“基本F(j、k)”示出了作为如图4所示的基本文字数据的“每个极点的种类”、“与其他轴之间的相关特征(比率)”、“极点等级”、“极点时刻”的“K(j、k)”、“R(j、k)”、“L(j、k)”、“T(j、k)”。另外,“输入F(j、k)”示出了输入文字数据的“每个极点的种类”、“与其他轴之间的相关特征(比率)”、“极点等级”、“极点时刻”。
此外,像上述那样,输入文字的极点数多于基本文字的极点数的情况是由于手抖动等造成的影响。在这种情况下,尽管不颠倒极点顺序地进行对照,但作为其组合,仍考虑图8(1)~(10)的10种对照类型。然后,在不改变该极点的顺序的10种对照类型之中,以极点的种类相同为条件,在基本文字和输入文字的“与其他轴之间的相关特征(比率)”之间进行比较,并在“极点等级”之间进行比较,同时计算其差的平均值,且从图8(1)~(10)之中选择差最小的对照类型。在按每个分量进行这样的对照后,再次根据各分量的每个特征点的差来计算其平均值,并将其平均值作为对于其基本文字的类似度(类似度距离)进行求取。
在求得1文字份的类似度(类似度距离)后,调查是否已结束指定识别字典存储器DM内的全部基本文字(步骤C10),且直到已结束指定全部文字为止(在步骤C10中为否),都在指定下一基本文字的同时(步骤C11),重复一边对照指定的基本文字数据和输入文字数据一边计算它们的类似度的处理(步骤C9)。像这样在与全部的基本文字对应求取其类似度距离后(在步骤C10中为是),将平均值最小的文字(类似度距离最短的文字)决定为识别文字(输入候选)(步骤C12)。
若这样的文字判别处理结束(图6的步骤B9),则使通过该文字判别处理决定的识别文字作为输入候选显示在显示部5中(步骤B10)。在该状态下,调查是否进行指示下一候选的操作(步骤B11),并调查是否已关闭文字识别功能,即是否已通过用户操作指示了文字输入的结束(步骤B12)。然后,在已进行下一候选操作时(在步骤B11中为是),读取下一候选(步骤B13),并作为输入候选显示在显示部5中(步骤B10)。另外,若未指示文字输入的结束(在步骤B12中为否),则回到上述的步骤B2,以下,尽管通过重复上述的动作来进行针对下一手写文字的文字识别,但在已指示文字输入的结束时(步骤B12),在该时间点图6的流程将结束。
如上所述,在第1实施方式中,控制部1在基于加速度传感器7的测量结果识别在空间平面内移动内置有加速度传感器7的框体的同时所进行的书写文字的动作的情况下,基于与加速度传感器7的各轴对应的分量的加速度数据,判别1文字的开始书写和结束书写,并在将其间的每个分量的加速度数据作为包含笔画和笔画之间的加速度的、从文字的第1笔画起到最后1笔画为止时间上连续的一系列的加速度数据取得后,按每个分量分别确定存在于该一系列的加速度数据之中的多个特征点,且将包含此多个特征点的每个分量的特征点数据作为输入文字数据生成,然后与基本文字数据对照,因此能基于加速度传感器7的测量结果顺利且可靠地对在平面内所书写的文字进行文字识别,从而富于实用性。
即,尽管因使用加速度数据从而摆脱不了重力的影响,但由于与对加速度进行积分来导出轨迹的方法不同,是将加速度直接使用于文字识别,因此能应对在文字输入过程中因框体的姿势变化而引起的重力方向的些许的变化或抖动,除了具有文字识别的鲁棒性以外,还不需要陀螺仪等除加速度传感器以外的传感器。另外,由于并非需要构成文字的要素(笔画)分离的文字识别的方法,因此在空中书写文字这样的状况下,不需要相当于抬笔(pen-up)或落笔(pen-down)这样麻烦且困难的操作或移动,从而能实现自然、流畅且快速的文字输入,进而由于基本文字与输入文字相同,是由多个特征点构成,因此,字典的容量可以做得较小,从而富于实用性。
由于从一系列的加速度数据中排除从1文字的结束书写起到下一文字的开始书写为止的期间的加速度数据,因此能容易地确定1文字份的加速度数据。
由于基于在平面内分离加速度传感器7的测量结果后的正交的各分量的加速度的合成矢量的大小是否在规定的阈值以上且连续规定时间以上,来判别1文字的开始书写和结束书写,因此,对用户而言,在开始书写1文字前使框体大致静止,然后使框体缓慢平滑地移动到文字的开始书写位置即可,另外,在结束书写1文字的时间点,再次使框体大致静止即可,通过极其自然的动作便能判别1文字的开始书写和结束书写。
由于在各分量的加速度数据的每一个中,将局部的最大点即极大点和局部的最小点即极小点确定为特征点,并按每个特征点将极点等级和极点的种类一起求取,来生成输入文字数据,因此即使利用少的数据量也能得到合理表现框体的移动轨迹的输入文字数据。
由于将从文字的开始书写起的到达其极点为止的时刻作为极点时刻求取,并生成将极点的时刻以及极点等级与该极点时刻一起包含的输入文字数据,因此,在将输入文字数据和基本文字数据进行对照时,能基于极点时刻来确定各特征点,从而能进行可靠的对照。
由于按与其中一轴对应的加速度数据内的每个特征点,将表示与其他轴对应的加速度数据内的特征点之间的相对关系的数据作为与其他轴之间的相关特征进行求取,并生成将极点的种类以及极点等级和该与其他轴之间的相关特征一起包含的输入文字数据,因此能较强适应在1文字输入中的速度变化,从而能实现更可靠的文字识别。
由于与其他轴之间的相关特征是在以从与其他轴对应的加速度数据内的极大点到极小点、或者从极小点到极大点的极点间范围为基准时表示相对处于怎样的位置的时间的比率、和表示处于怎样的值的等级的比率的两者中的一者的比率,因此作为与其他轴之间的相关特征是恰当的。
(第2实施方式)
以下,参照图9~图12说明本发明的第2实施方式。
此外,尽管在上述第1实施方式中,按每分量从在平面内正交的2轴的分量的加速度数据中确定各特征点,并且按每特征点将包含“每个极点的种类”、“极点等级”、“极点时刻”、“与其他轴之间的相关特征(比率)”的项目的特征数据作为输入文字数据求取,但在本第2实施方式中,进一步地,通过将在平面内正交的2轴分别朝着相同的方向旋转规定的角度(45°),来将从加速度传感器7获取的各分量的加速度数据变换成旋转后的平面坐标系上的加速度数据,并从该旋转后的加速度数据中得到上述特征点数据。此外,尽管在旋转后的特征点数据中包含“每个极点的种类”、“极点等级”、“极点时刻”、“与其他轴之间的相关特征(比率)”的项目,但可以省略“每个极点的种类”。
然后,在第2实施方式中,将包含从旋转前的加速度数据中确定的多个特征点(本来的特征点)以及从旋转后的加速度数据中确定的多个特征点(旋转后的特征点)的特征点数据作为输入文字数据生成,进而,将基本文字数据也设为与输入文字数据相同,是包含本来的特征点和旋转后的特征点的数据结构。此外,在两实施方式中,对基本上或名称上相同的部分赋予相同的符号表示,并省略其说明,而且,下面以第2实施方式的特征部分为中心进行说明。
图9是为了说明第2实施方式而表示某文字的加速度数据的波形图,(1)表示将平面内的各轴分别朝着相同的方向旋转45°前的波形,(2)表示将各轴分别朝着相同的方向旋转45°后的波形例。
如图9(1)所示,作为某文字的加速度数据,有振幅变化少的情况,如图示的例子所示,该文字的第1分量的加速度数据的振幅几乎不发生变化,第2分量的加速度数据成为变化少的简单的波形(无特征的波形)。在这种情况下,与其他轴之间的相关特征(比率)变得不明确,无法进行比率的对照,而如图9(2)所示,若将各轴分别朝相同方向旋转45°,则第1以及第2分量的加速度数据变得富于变化,从而与其他轴之间的相关特征(比率)变得明确。
图10是用于说明第2实施方式中的识别字典存储器DM内的各基本文字数据的图。
识别字典存储器DM是作为文字识别用而按每个文字存储基本文字数据的存储器,基本文字数据是仅集中于一旦书写文字则必然出现的特征点的结构,是与正交的2轴的分量对应,具有多个特征点、以及使其2轴旋转45°后的多个特征点的特征点数据。该特征点数据是按各分量的每个特征点具有“K(i、j、k)”、“R(i、j、k)”、“L(i、j、k)”、“T(i、j、k)”的项目数据的结构,项目数据“K(i、j、k)”表示将轴旋转i次后的旋转坐标系上的第j分量的加速度的第k个极点的种类(极大点或者极小点)。
在此,项目数据“R(i、j、k)”表示上述极点的与其他轴之间的相关特征(时间的比率或者等级的比率)。项目数据“L(i、j、k)”表示上述极点的极点等级。项目数据“T(i、j、k)”表示上述极点的极点时刻。这样,第2实施方式的基本文字数据若将旋转前的2轴的分量作为第1分量、第2分量,且将旋转后的2轴的分量作为第3分量、第4分量,则总共持有4分量的数据。
此外,图示的例子,示出了在第1分量的加速度中的极点的个数为M个的情况,在第1分量中,与第0个极点对应,具有“K(0、1、0)”、“R(0、1、0)”、“L(0、1、0)”、“T(0、1、0)”的项目,…,与第M个极点对应,具有“K(0、1、M-1)”、“R(0、1、M-1)”、“L(0、1、M-1)”、“T(0、1、M-1)”的项目。另外,图示的例子示出了在第2分量的加速度中的极点的个数为N个的情况,与第0个极点对应,具有“K(0、2、0)”、“R(0、2、0)”、“L(0、2、0)”、“T(0、2、0)”的项目,…,与第N个极点对应,具有“K(0、2、N-1)”、“R(0、2、N-1)”、“L(0、2、N-1)”、“T(0、2、N-1)”的项目。
另外,图示的例子示出了在旋转45°后的第1分量的加速度中的极点的个数为P个的情况,在第1分量中,与第0个极点对应,具有“K(45、1、0)”、“R(45、1、0)”、“L(45、1、0)”、“T(45、1、0)”的项目,…,与第P个极点对应,具有“K(45、1、P-1)”、“R(45、1、P-1)”、“L(45、1、P-1)”、“T(45、1、P-1)”的项目。另外,图示的例子示出了在旋转45°后的第2分量的加速度中的极点的个数为Q个的情况,与第0个极点对应,具有“K(45、2、0)”、“R(45、2、0)”、“L(45、2、0)”、“T(45、2、0)”的项目,…,与第Q个极点对应,具有“K(45、2、Q-1)”、“R(45、2、Q-1)”、“L(45、2、Q-1)”、“T(45、2、Q-1)”的项目。此外,极点数M、N、P、Q彼此没有关联性,根据文字而各不相同。
图11是用于详述第2实施方式中的文字判别处理(图6的步骤B9)的流程图。
首先,与上述第1实施方式相同,作为与图7的步骤C1~C6对应的处理,在对在手写输入1文字的期间的加速度传感器7的测量结果执行滤波处理(步骤D1)后,对1文字份的加速度数据进行等级的归一化(步骤D2)。然后,在2分量的加速度数据的每一个中,搜索局部的最大点(极大点)和局部的最小点(极小点),将该极大点、极小点确定为特征点,并求取其种类(极大点或极小点)(步骤D3),并按每个特征点求取极点等级(步骤D4),并且,求取极点时刻(步骤D5),还求取与其他轴之间的相关特征(步骤D6)。
在这样按每个分量从1文字份的加速度数据之中确定各特征点,且按每个特征点将“每个极点的种类”、“极点等级”、“极点时刻”、“与其他轴之间的相关特征(比率)”作为输入文字数据求取后,在上述的步骤D1中执行滤波处理,并通过将平面内的正交的2轴分别朝相同的方向旋转规定的角度(45°),来将在上述的步骤D2中进行归一化后的1文字份的加速度数据变换成其旋转坐标系上的加速度数据(步骤D7)。
图12是表示为了变换成旋转坐标系上的加速度数据而使用了“旋转矩阵”的旋转变换式的图。在这种情况下,求取使原始平面坐标系上的第1轴(第1分量)的加速度旋转45°时的旋转坐标系上的第1分量的加速度,并且,求取使原始平面坐标系上的第2轴(第2分量)的加速度朝着相同方向旋转45°时的旋转坐标系上的第2分量的加速度。
然后,按每分量从45°旋转后的1文字份的加速度数据之中确定各特征点,并求取其种类(步骤D8)。然后,按每个特征点求取在此点的归一化后的加速度等级(极点等级)(步骤D9),并在将1文字的开始书写作为时刻“0”时,求取到达该极点的时刻(极点时刻)(步骤D10)。进而,按每个特征点求取与其他轴之间的相关特征(步骤D11)。这样,将包含从旋转前的加速度数据中确定的多个特征点(本来的特征点)和从旋转后的加速度数据中确定的多个特征点(旋转后的特征点)的特征点数据作为输入文字数据生成(步骤D12)。然后,将存储于识别字典存储器DM中的各基本文字之中的排头的基本文字指定为对照对象(步骤D13),并在将指定的基本文字数据和输入文字数据进行对照的同时计算他们的类似度,来进行文字识别(步骤D14~D17)。
如上所述,在第2实施方式中,控制部1通过将各轴分别朝相同的方向旋转规定的角度,来使来自加速度传感器7的每个分量的加速度数据变换成与在其旋转坐标系上的各轴对应的每个分量的加速度,并将包含存在于从加速度传感器7取得的加速度数据之中的多个特征点(本来的特征点)、和存在于旋转变换后的加速度数据之中的多个特征点(旋转后的特征点)的每个分量的特征点数据作为输入文字数据生成,并与基本文字数据对照,因此,无论怎样的文字,都能恰当地进行文字识别。即,即使是例如1文字输入中的加速度数据变化少的简单波形(无特征的波形),也能通过规定角度(45°)的旋转而成为富于变化的波形,得到与其他轴之间的相关特征(比率)明确的加速度数据,从而能恰当地进行文字识别。
此外,尽管在第2实施方式中,例示了将各轴分别朝相同方向旋转45°的情况,但也可以针对进行了30度旋转以及60度旋转后的旋转坐标系来确定特征点。在这种情况下,上述第2实施方式的基本文字数据若将旋转前的2轴的分量作为第1分量、第2分量,且将旋转后的2轴的分量作为第3分量、第4分量,则将成为总共4分量的数据,但也可以通过30度旋转以及60度旋转而成为总共持有6分量的数据。
另外,尽管在上述第1实施方式中,在将基本文字数据和输入文字数据进行对照的过程中,例如,在图8(1)~(10)所示的情况下,是在与10种对照类型进行对照的同时选择差最少的对照类型来求取与基本文字之间的类似度,但也可以省略与不需要的对照类型之间的对照。在这种情况下,可以按输入文字数据内的每个特征点,根据其与两端的特征点之间的关系来求取其重要度,并参照该每个特征点的重要度来进行文字识别。
例如,在图8(1)~(10)的组合中计算出图8(1)的类型的差最少的情况下,在基本文字数据的特征点中不含有“输入F(j、3)”和“输入F(j、4)”,但若该“输入F(j、3)”和“输入F(j、4)”作为构成其文字的要素是必要特征,则在文字识别上选择该图8(1)的类型为差最少的对照类型不是优选方案。在这种情况下,针对输入的文字的全部特征点,为了评价各个特征点的重要度是何种程度,如图13所示,定义极点的深度。在图示的例子中,若将极点的深度定义为与其两端的极点之间的等级差的和,则图中,第n+1个极点的深度为a+b,第n+2个极点的深度为b+c,另外,第n+3个极点的深度为c+d。
在此,尽管极点的深度越大,越是重要的特征点,但若将上述那样定义的极点的深度大于预先规定的阈值的极点设为重要的特征点,则如图14(1)所示,在输入文字数据的某分量的重要的特征点的个数(4个)多于某基本文字数据的相同分量的特征点的个数(3个)的情况下,无需计算与其基本文字之间的类似度距离,就能判断该输入文字不是该基本文字。
这样,若按输入文字数据内的每个特征点,根据其与两端的特征点之间的关系来求取其重要度,并参照该每个特征点的重要度来进行文字识别,则能高效且可靠地进行文字识别。
在这种情况下,计算基本文字数据和输入文字数据之间的类似度,并将类似度最高的基本文字作为识别文字,此时,在输入文字数据内的某分量的重要度高的特征点的个数多于基本文字数据的相同分量的特征点的个数的情况下,不计算与其基本文字之间的类似度而能判断该基本文字不是识别文字,因此能进一步高效且可靠地进行文字识别。
另外,不限于基于特征点的重要度来进行文字识别的情况,还可以仅比较输入文字数据和基本文字数据的特征点的个数来判断不是识别文字。例如,如图14(2)所示,像输入文字的特征点的个数是“4个”,基本文字的特征点的个数是“6个”的情况,输入文字数据内的某分量的特征点的个数少于某基本文字数据的相同分量的特征点的个数,在这种情况下,若使得不计算与基本文字之间的类似度而判断为该基本文字不是识别文字,则能在不求取重要度的前提下高效且可靠地进行文字识别。
尽管在上述第1、2实施方式中,将基本文字数据的结构设为“每个极点的种类”、“极点时刻(时间上的位置)”、“极点等级(加速度的大小)”、“与其他轴之间的相关特征(比率)”,但不限于此,还可以具有其他项目,例如,作为其他项目,可以使每个特征点具有在根据基本文字数据的特征点和输入文字数据的特征点之间的差来计算类似度时所使用的系数(类似度距离系数)。另外,作为其他项目,还可以使构成基本文字数据的每个特征点具有对照标志,该对照标志表示是否进行基本文字数据内的规定的项目和输入文字数据内的规定的项目之间的对照。
图15是表示与第2实施方式相同地与识别字典存储器DM内的45°旋转对应的基本文字数据的结构的图。在图示的例子中,例示了使每个特征点具有作为“与其他轴之间的相关特征(比率)”的“R(i、J、k)”对应的类似度距离系数的“Rd(i、J、k)”,且具有与作为“极点等级”的“L(i、j、k)”对应的类似度距离系数的“Ld(i、J、k)”的情况。另外,还例示了具有作为与“其他轴之间的相关特征(比率)”的“R(i、J、k)”对应的对照标志的“Rf(i、J、k)”,且具有作为与“极点等级”的“L(i、j、k)”对应的对照标志的“Lf(i、J、k)”的情况。
若像这样使得在基本文字数据内具有类似度距离系数“Rd(i、J、k)”、“Ld(i、J、k)”,则能更细微对基本文字的特征点数据进行调整,从而能提高识别率。即,在计算类似度的情况下,通过不仅求取差的平均值,还具有不同的类似度距离系数Rd或者Ld,对于差易出现的特征点使用低的系数,而对于差难以出现的特征点使用高的系数来进行计算,从而能更恰当地求取类似度。
另外,若使得构成基本文字数据的每个特征点具有表示是否进行基本文字数据内的规定的项目和输入文字数据内的规定的项目之间的对照的对照标志,例如,针对在文字的特性上,“与其他轴之间的相关特征(比率)”、“极点等级”显著变化的特征点,由于承认在类似度距离的计算中可以不使用其文字的基本文字的相应特征点的情况,因此若按基本文字的每个特征点设置标志,则能更正确地计算类似度距离。
另外,基本文字数据的类似度距离系数Rd有2种,可以在如图16(1)所示,输入文字的某分量(第2分量)的第n个极点的“与其他轴之间的相关特征(时间的比率或者等级的比率)R”比基准特征点的比率R即基本文字的相同分量的第n个极点的“与其他轴之间的相关特征(时间的比率或者等级的比率)R”更偏后的情况下,或者在如图16(2)所示,更偏前的情况下,分别使用不同的类似度距离系数Rd。另外,类似度距离比率Ld也同样有2种,可以在输入文字的极点等级L低于和高于基准特征点的比率L的情况下使用不同的类似度距离比率Ld。
另外,基本文字数据内所含的表示“与其他轴之间的相关特征”的比率用表示范围的数据持有,在将基本文字数据内的表示与其他轴之间的相关特征的比率和输入文字数据内的表示“与其他轴之间的相关特征”的比率进行对照时,可以判别输入文字的比率是否位于基本文字侧的比率的范围内。即,基本特征点的比率R不是点,而是如图17所示,具有比率R1和比率R2所夹持的范围,在输入文字的某分量(第2分量)的第n个极点的“与其他轴之间的相关特征(时间的比率或者等级的比率)R”位于该范围内的情况下,将类似度距离设为“0”,在偏离该范围的情况下,可以设为超过“0”的类似度距离。这样,通过使基本特征点的比率R具有范围,能更恰当地得到类似度距离。
(第3实施方式)
以下,参照图18~图22说明本发明的第3实施方式。
该实施方式例示了在应用为文字识别装置的带文字识别功能的摄像装置(数码相机)的情况,图18是表示带文字识别功能的数码相机的基本的构成要素的框图。
数码相机是构成便携式的紧凑型相机的相机,除了摄像功能、计时功能等基本功能以外,还具有识别在空间平面内所书写的文字的文字识别功能,并以控制部11为核心进行动作。控制部11通过来自具备二次电池的电源部12的电力供给进行动作,并按照存储部13内的各种程序来控制该数码相机的整体动作,在该控制部11中设置有未图示的CPU(中央运算处理装置)或存储器等。
存储部13在ROM、RAM等内部存储器中具有未图示的程序区域和数据区域,并在该存储部13内的程序区域中,存储有用于按照后述的图21以及图22所示的动作步骤来实现本实施方式的程序。另外,在存储部13内的数据区域中,除了对文字识别用的基本文字数据进行存储的识别字典存储器DM2、对所摄影的图像进行存储保存的图像存储器FM2以外,还存储有各种标志信息、数码相机的动作所需的各种信息。此外,存储部13可以是包括诸如SD卡、IC卡等装卸自由的可移动式存储器(记录介质)的构成,或者可以是在未图示的规定的外部服务器上具有存储部13的构成。
操作部14进行文字输入、命令输入等,虽未图示,但在该操作部14中设置有使相机功能开启/关闭的开启/关闭键、快门键等。控制部11进行诸如相机开启/关闭处理、摄影处理等各种处理作为与来自操作部14的操作信号对应的处理。显示部15使用例如高清液晶或者有机EL,除了显示诸如日期时间信息、保存图像等以外,在相机功能的使用时,成为显示实时取景图像(监测图像)的取景器画面。
摄像部16是构成数码相机功能的构成要素,除了静止图像摄影以外还能进行动画摄影,具有相机镜头部、摄像元件(例如,CCD或者CMOS)、图像信号处理部、模拟处理部、压缩扩展部、各种传感器部(测距传感器、光传感器等)等,对光学变焦进行调整控制,或对自动对焦时的驱动控制、快门驱动控制、曝光、白平衡等进行控制,或对快门速度(曝光时间)进行测定。另外,摄像部16具备能根据被摄体而进行望远/广角的切换的2焦点式镜头或变焦镜头,使让焦点距离可变的视角变更机构工作,来进行望远/广角或变焦摄影。
尽管加速度传感器17是内置于数码相机主体(框体)的3轴的加速度传感器,是构成文字识别功能的要素之一,但还可以例如将构成计步器的加速度传感器兼用于文字识别功能。控制部11在文字识别功能的工作中,基于加速度传感器17的测量结果来进行文字识别。即,控制部11基于加速度传感器17的测量结果,也就是彼此正交的3轴方向(X·Y·Z方向)的加速度分量,来确定相对于重力方向平行的二维平面(垂直面),并基于分离成在该平面内正交的2轴的分量的加速度数据,即基于第1轴(第1分量)的加速度数据和第2轴(第2分量)的加速度数据来进行文字识别。
在此,控制部11基于在相对于重力方向平行的二维平面内所分离的正交的2轴的分量的加速度数据,判别1文字的开始书写和结束书写。然后,控制部11在从1文字的开始书写起到结束书写为止的期间,获取加速度传感器17的测量结果作为1文字份的时间序列的加速度矢量,并在此1文字份的加速度矢量序列之中,选择矢量的大小为大的值且彼此大致正交(正交或者接近正交的状态)的多个(例如,2个)加速度矢量。即,对于作为加速度传感器17的测量结果的1文字份的时间序列的加速度矢量,为了减小加速度传感器17自身的微小的噪声或细微的手抖动、在1文字输入中的框体的姿势的“偏差”等影响,在选择多个加速度矢量时,选择矢量的大小为大的值且彼此大致正交的加速度矢量。
基于这样选择的多个加速度矢量,确定由该多个加速度矢量决定的平面。在这种情况下,根据选择怎样的加速度矢量,所确定的平面多少有些区别,因此,在本实施方式中,进一步将加速度矢量的大小为大的值、且彼此大致正交的多个(例如,2个)矢量选择多组,并按每组分别确定文字平面,其后,从该每组的平面之中确定一个平面作为书写了文字的文字平面。
然后,控制部11检测按上述方式确定的文字平面相对于重力方向的斜度,在对该文字平面内的正交的2分量的加速度矢量序列进行变换使得Z轴的重力加速度成为“0”,即确定的文字平面与“Z轴=0”的面一致后,将变换后的2分量的加速度矢量序列作为输入文字数据,并将该输入文字数据和识别字典存储器DM2内的全部的基本文字数据进行对照,由此按每个基本文字计算与输入文字之间的类似度,从而进行文字识别。
图19是用于说明识别字典存储器DM2内的基本文字数据的图。
识别字典存储器DM2是作为文字识别用而预先准备的存储基本文字数据的存储器,是存储S文字份的基本文字数据的结构。在此,基本文字(0)、基本文字(1)、…、基本文字(S)是第0个文字的基本文字数据、第1个文字的基本文字数据、…、第S个文字的基本文字数据,由与正交的2轴的分量对应的二维加速度数据构成。而且,在该基本文字之中,存储有表示该文字的开始书写的笔画方向(在开始书写的时间点的矢量方向)的数据。
接下来,参照图21以及图22所示的流程图说明本实施方式中的数码相机的动作概念。在此,将在这些流程图中所描述的各功能以可读取的程序代码的形态进行存储,并依次执行依照这些程序代码的动作。另外,还能对依照经由互联网等传输介质传输而来的上述程序代码的动作依次执行。即,除了记录介质以外,还能利用经由传输介质从外部供给的程序/数据来执行本实施方式特有的动作。
在此,在说明图21以及图22所示的流程图之前,参照图20说明用户在手写输入文字时的操作步骤或操作方法。
首先,用户在使文字识别功能开启后,手持数码相机主体(框体)使其在空间平面内移动的同时书写文字。即,手持框体使其在空间平面内移动的同时书写文字,但在开始书写1文字前要使框体大致静止(图20的步骤E1),其后,使框体缓慢平滑地移动到文字的开始书写位置(步骤E2)。
然后,在相对于重力方向平行的二维平面内书写文字。此时,尽管在1文字的输入中使框体的姿势不发生大的变化,且按每1笔画使框体移动,但在这种情况下,使在1文字输入中不停止书写的动作而一笔连续平滑地书写,还平滑地进行从1笔画的终点到下一笔画的起点的移动(步骤E3)。然后,在结束书写1文字的时间点再次使框体大致静止(步骤E4)。其后,在使框体缓慢平滑地移动到下一文字的开始书写位置后(步骤E5),开始书写下一文字。以下,直到使文字输入结束为止(在步骤E6中的否),都回到上述的步骤E3重复手写输入操作,由此依次手写输入多个文字。
图21是表示作为数码相机的整体动作之中本实施方式的特征部分的动作概要的、在开启了文字识别功能从而开始文字识别的情况下的概要动作的流程图。此外,在从该图21的流程脱离时,回到整体动作的主流程(省略图示)。
首先,控制部11进行用于从加速度传感器17的测量结果中消去重力份的处理(图21的步骤F1)。即,例如,由于在加速度传感器17的垂直方向的测量结果(加速度分量)中含有作为重力加速度的向上的1G,因此在每次测量加速度时,作为从其测量结果中减去向上的1G的准备,在开始书写文字之前,测量与框体的姿势对应的重力加速度,并临时存储在存储部13内的RAM中。
然后,基于2分量的加速度合成矢量的大小是否在规定的阈值以上且是否连续规定时间(规定次数)以上,来调查是否已开始书写文字(步骤F2)。在此,用户在按照在二维平面内分离正交的2个加速度合成矢量的大小在规定的阈值以上且不连续规定时间以上,即规定的阈值以上的加速度合成矢量不连续规定时间(规定次数)以上的方式使框体缓慢平滑地移动到文字的开始书写位置后,开始书写文字。由此,检测出规定阈值以上的加速度合成矢量连续了规定时间(规定次数)以上(在步骤F2中为是)。
若这样检测出文字的开始书写,则使用于对1文字的输入时间进行计时的1文字输入定时器(省略图示)的测量动作开始(步骤F3)。然后,移动到对1文字输入中的加速度数据进行存储的处理(步骤F4),通过从加速度传感器17的测量结果中减去重力加速度来将消去了重力份的2分量的加速度作为开始书写的测量结果存储于存储部13内的RAM中,其后,基于是否检测出小于规定阈值的加速度合成矢量连续了规定时间(规定次数)以上,来调查是否已结束书写1文字(步骤F5)。在这种情况下,用户保持框体的姿势,到结束书写1文字为止都在使框体连续移动的同时不停止书写文字的手而一笔书写地进行书写,从1笔画的终点起到下1笔画的起点描画平滑的轨迹,按照这种方式使框体移动,若结束书写1文字,则停止框体的移动,因此,在结束书写1文字时,检测出小于规定阈值的加速度合成矢量连续了规定时间(规定次数)以上(在步骤F5中为是)。
相反,在1文字输入中,由于检测出规定阈值以上的加速度合成矢量连续了规定时间(规定次数)以上(在步骤F5中为否),因此,下面回到上述的步骤F4,重复将1文字输入中的加速度数据存储在存储部13内的RAM中的处理。将像这样存储加速度传感器17的测量结果的动作例如1秒间进行100次左右。这样,在存储部13内的RAM中,从1文字的开始书写起到结束书写为止的期间依次取得的各分量的加速度数据作为包含笔画和笔画之间的加速度的从文字的第1笔画起到最后1笔画为止时间上连续的一系列的加速度数据被依次存储。即,在从1文字的开始书写起到结束书写为止的期间,获取加速度传感器的测量结果作为1文字份的时间序列的加速度矢量,并依次存储在存储部13内的RAM中。
若检测出已结束书写1文字(在步骤F5中为是),则在使上述1文字输入定时器的测量动作停止后(步骤F6),调查其测量时间(1文字的输入时间)是否为规定阈值以上的长度(例如,像数字的“1”那样简单的文字输入所需的时间以上)(步骤F7)。然后,若是小于阈值的长度(在步骤F7中为否),则在为了使本次的加速度传感器17中的测量结果无效而消去存储于存储部13内的RAM中的本次的一系列的加速度数据后(步骤F8),回到检测文字的开始书写的步骤F2。现在,若1文字的输入时间为规定的阈值以上的长度(在步骤F7中为是),则基于存储于存储部13内的RAM中的1文字份的时间系列的加速度数据,执行后述的文字平面检测·文字方向检测·文字判别处理(步骤F9)。
图22是用于详述文字平面检测·文字方向检测·文字判别处理(图21的步骤F9)的流程图。
首先,控制部11执行文字平面检测处理(步骤G1~G3)。即,控制部11在手写输入1文字的期间的加速度传感器17的测量结果(1文字份的时间序列的加速度矢量)之中,选择矢量的大小为大的值、且彼此大致正交的多个(例如,2个)加速度矢量,从而确定由多个加速度矢量决定的平面(步骤G1)。通过多次重复这样的平面确定处理来确定多个平面(步骤G2)。即,为了确定多个在各个方向的平面,将加速度矢量的大小为大的值、且彼此大致正交的多个(例如,2个)的矢量选择多组,并按每组来分别确定平面。通过最小二乘法或加权平均(加权平均法),从像这样确定的多个平面之中选择(确定)一个平面作为文字平面(步骤G3)。
在像这样确定文字平面后,检测该文字平面相对于重力方向的斜度(步骤G4)。然后,计算出一个使该文字平面旋转的“旋转矩阵”,使得在该文字平面内,其Z轴的重力加速度成为“0”的斜度,也就是说已确定的文字平面与“Z轴=0”的面一致(步骤G5),其后,使用该“旋转矩阵”使1文字份的时间序列的加速度矢量全部旋转(步骤G6)。这样,1文字份的时间序列的加速度矢量将全部被变换成旋转后的平面内的数据。
接下来,转移到文字方向检测处理,在上述步骤G6使旋转后的1文字份的加速度矢量中,从与其X轴对应的分量(x分量)、与Y轴对应的分量(y分量)的合成矢量之中检测(确定)1文字的开始书写的方向,也就是文字的开始书写的笔画方向(在开始书写时间点的矢量方向)(步骤G7)。然后,在指定存储于识别字典存储器DM2中的各基本文字之中的排头的基本文字作为对照对象后(步骤G8),计算用于使在文字平面内旋转的“旋转矩阵”,使得在上述步骤G7中确定的文字方向(在文字的开始书写时间点的矢量方向)与在已指定的基本文字的开始书写时间点的矢量方向一致(步骤G9)。然后,使用该“旋转矩阵”使1文字份的时间序列的加速度矢量全部旋转(步骤G10)。这样,1文字份的时间序列的加速度矢量将被变换成与基本文字的上下(the top and bottom)的方向一致的数据。
然后,将像上述那样旋转变换后的1文字份的加速度矢量序列作为输入文字数据,并一边将该输入文字数据和指定的基本文字数据进行对照一边计算它们的类似度(步骤G11)。其后,计算“旋转矩阵”,该“旋转矩阵”用于使在上述步骤G10旋转变换后的1文字份的加速度矢量序列以其文字的开始书写时间点的矢量方向为轴,按照文字平面翻过来的方式旋转(步骤G12)。然后,利用该“旋转矩阵”使1文字份的时间序列的加速度矢量全部旋转(步骤G13)。这样,1文字份的时间序列的加速度矢量将被变换成其文字的表里关系的数据。其后,将按翻转的方式旋转变换后的1文字份的加速度矢量序列作为输入文字数据,一边将该输入文字数据和指定的基本文字数据进行对照一边计算它们的类似度(步骤G14)。
在对1文字求得2种类似度后,调查是否已结束指定识别字典存储器DM2内的全部基本文字(步骤G15),且直到已结束指定全部文字为止(在步骤G15中为否),都在指定下一基本文字后(步骤G16),回到上述步骤G9,重复一边对照下一基本文字数据一边计算其类似度的处理(步骤G9~G16)。其结果是,在与全部的基本文字对应,求取其类似度后(在步骤G16中为是),将类似度最高的基本文字决定为识别文字(输入候选)(步骤G17)。
若这样的文字判别处理结束(图21的步骤F9),则使通过该文字判别处理决定的识别文字作为输入候选显示在显示部15中(步骤F10)。然后,在该状态下,调查是否进行指示下一候选的操作(步骤F11),并调查是否已关闭文字识别功能,即是否已通过用户操作指示了文字输入的结束(步骤F12)。现在,在已进行下一候选操作的情况下(在步骤F11中为是),读取下一候选(步骤F13),并作为输入候选显示在显示部15中(步骤F10)。另外,若未指示文字输入的结束(在步骤F12中为否),则回到上述的步骤F2,以下,尽管通过重复上述的动作来进行针对下一手写文字的文字识别,但在已指示文字输入的结束时(在步骤F12中为是),在该时间点图21的流程将结束。
如上所述,在本实施方式中,控制部11在平面内移动内置有3轴的加速度传感器17的框体的同时所进行的书写文字的动作的情况下,将在移动框体的同时所进行的书写文字的动作作为1文字份的时间序列的加速度矢量获取,并选择该1文字份的加速度矢量序列中的、矢量的大小为大的值且彼此大致正交的多个加速度矢量,并在确定由多个加速度矢量决定的平面后,通过将1文字份的加速度矢量序列变换成所确定的平面内的正交的2分量的加速度矢量序列而得到的输入文字数据、和预先准备的文字识别用的基本文字数据进行对照,来进行文字识别,因此,可以使框体不总是呈相同的姿势,或使书写文字的平面不总是相同,能在大幅减轻手写输入文字时的用户的负担的同时,基于加速度传感器17的测量结果顺利且可靠地识别文字,从而富于实用性。
即,尽管因使用加速度数据从而摆脱不了重力的影响,但由于与对加速度进行积分来导出轨迹的方法不同,是将加速度直接使用于文字识别,因此能应对在文字输入过程中因框体的姿势变化而引起的重力方向的些许的变化或抖动,除了具有文字识别的鲁棒性以外,还不需要陀螺仪等除加速度传感器以外的传感器,且不论对框体以何种姿势握持,平面是垂直是水平还是倾斜,都能进行文字识别,从而能大幅减轻用户的负担。
由于将1文字份的加速度矢量序列之中的、加速度矢量的大小为大的值且彼此大致正交的多个矢量选择多组,并按每组来从确定的平面中确定一个平面作为书写文字的文字平面,因此能恰当地确定文字平面。
由于变换成为了使确定的文字平面与“Z轴=0”的面一致而使该文字平面旋转的加速度矢量序列,因此,无论对框体以何种姿势握持,书写文字的平面是垂直是水平还是倾斜,都能进行文字识别。
由于对文字平面内的加速度矢量序列进行旋转变换使得从加速度矢量序列中确定的1文字的开始书写的方向与存储于文字识别用的基本文字数据内的该基本文字的开始书写的方向一致,并将变换后的加速度矢量序列作为输入文字数据,且对照基本文字数据,因此,在文字平面内,无论使文字的上下为哪个方向,都能进行文字识别。
进而,由于以文字的开始书写的方向为轴按照使该平面翻转的方式旋转平面内的2分量的加速度矢量序列,因此,即使输入文字和基本文字表里呈相反的关系,也能进行文字识别。
由于基于1文字份的加速度矢量序列来判别1文字的开始书写和结束书写,因此并非需要构成文字的要素(笔画)分离的文字识别的方法,从而在空中书写文字这样的状况下,不需要相当于抬笔或落笔这样麻烦且困难的操作或移动而能判别1文字输入。
由于基于在平面内分离加速度传感器17的测量结果后的正交的各分量的加速度的合成矢量的大小是否在规定的阈值以上且连续规定时间以上,来判别1文字的开始书写和结束书写,因此,对用户而言,在开始书写1文字前使框体大致静止,然后使框体缓慢平滑地移动到文字的开始书写位置即可,另外,在结束书写1文字的时间点,再次使框体大致静止即可,通过极其自然的动作便能判别1文字的开始书写和结束书写。
此外,尽管在上述各实施方式中,变换成为了使确定的文字平面与“Z轴=0”的面一致而使该文字平面旋转的加速度矢量序列,但可以不限于“Z轴=0”,还可以变换成为了与“X轴=0”或者与“Y轴=0”的面一致而使该文字平面旋转的加速度矢量序列。
另外,尽管在上述各实施方式中,是在空间平面内书写文字,但也可以例如在与壁面等接触的同时书写文字,不限于在空间平面内书写文字的情况。
另外,在上述各实施方式中,示出了作为文字识别装置,应用于带文字识别功能的数码相机的情况,但也可以应用于带文字识别功能的便携电话机·台式电子计算机·手表·个人电脑(笔记本电脑)·PDA·音乐播放器等中。
除此以外,在上述各实施方式中所示的“装置”或“机”可以按功能分类而分离成多个框体,不限于单个框体。另外,在上述流程图中描述的各步骤不限于时间序列的处理,可以将多个步骤并行处理,或者单个独立处理。
以上,尽管参照优选实施例(或方式)对本发明进行了描述,但其目的不是为了使本发明受其描述细节的限制,而应理解为,任何落在本发明的权利要求书的保护范围以内的实施例都包含在本发明的范围之内。
Claims (14)
1.一种文字识别装置,其特征在于,
具备:
至少2轴的加速度传感器;
获取单元,其获取所述加速度传感器的测量结果作为与各轴对应的分量的加速度数据,所述测量结果与在平面内移动该文字识别装置的框体的同时所进行的书写文字的动作对应;
判别单元,其基于由所述获取单元获取的每个分量的加速度数据,来判别1文字的开始书写和结束书写;
确定单元,其将在从所述判别单元判别为1文字的开始书写起到判别为结束书写为止的期间由所述获取单元依次获取的每个分量的加速度数据,作为包含笔画和笔画之间的加速度的、从文字的第1笔画起到最后1笔画为止时间上连续的一系列的加速度数据,并按每个分量来分别确定存在于该一系列的加速度数据之中的多个特征点;
生成单元,其将包含由所述确定单元确定的多个特征点的每个分量的特征点数据作为输入文字数据生成;和
文字识别单元,其通过将基本文字数据和由所述生成单元生成的输入文字数据进行对照来进行文字识别,所述基本文字数据作为文字识别用而预先准备,且按所述每个分量包含多个特征点,
所述确定单元在各分量的加速度数据的每一个中,将局部的最大点即极大点和局部的最小点即极小点确定为特征点,
所述生成单元按由所述确定单元确定的每个特征点,决定表示是极大点还是极小点的极点的种类,并求取其极点的加速度的值作为极点等级,且将包含该极点的种类和极点等级的每个分量的特征点数据作为输入文字数据生成,
所述基本文字数据作为与特征点相关的数据,是包含所述极点的种类和极点等级的数据。
2.根据权利要求1所述的文字识别装置,其特征在于,
所述文字识别装置还具备排除单元,该排除单元从所述一系列的加速度数据中排除在从所述判别单元判别为1文字的结束书写起到判别为下一文字的开始书写为止的期间由所述获取单元获取的加速度数据。
3.根据权利要求1所述的文字识别装置,其特征在于,
所述判别单元基于将所述加速度传感器的测量结果在所述平面内分离的正交的各分量的加速度的合成矢量的大小是否在规定阈值以上且是否连续规定时间以上,来判别1文字的开始书写和结束书写。
4.根据权利要求1所述的文字识别装置,其特征在于,
所述生成单元按与所述2轴中的其中一轴对应的加速度数据内的每个特征点,求取表示和与另一轴对应的加速度数据内的特征点之间的相对关系的数据作为与另一轴之间的相关特征,并和与另一轴之间的相关特征一并,将包含所述极点的种类以及所述极点等级的每个分量的特征点数据作为输入文字数据生成,
所述基本文字数据作为与特征点相关的数据,是包含所述与另一轴之间的相关特征、所述极点的种类、所述极点等级的数据。
5.根据权利要求1所述的文字识别装置,其特征在于,
所述文字识别装置还具备旋转变换单元,该旋转变换单元通过将所述各轴分别朝着相同方向旋转规定的角度,来将由所述获取单元获取的与各轴对应的每个分量的加速度数据变换成在其旋转坐标系上与各轴对应的每个分量的加速度,
所述确定单元按每个分量分别确定在由所述获取单元获取的每个分量的加速度数据之中存在的多个特征点作为本来的特征点,并按每个分量分别确定在由所述旋转变换单元变换后的每个分量的加速度数据之中存在的多个特征点作为旋转后的特征点,
所述生成单元将包含由所述确定单元确定的本来的特征点以及旋转后的特征点的、每个分量的特征点数据作为输入文字数据生成,
所述文字识别单元通过将基本文字数据和由所述生成单元生成的输入文字数据对照来进行文字识别,所述基本文字数据作为文字识别用的基本文字而预先包含所述本来的特征点以及旋转后的特征点。
6.根据权利要求1所述的文字识别装置,其特征在于,
所述文字识别单元按所述输入文字数据内的每个特征点,根据该每个特征点与两端的特征点之间的关系来求取该每个特征点的重要度,并参照该每个特征点的重要度来进行文字识别。
7.根据权利要求1所述的文字识别装置,其特征在于,
所述文字识别单元计算所述基本文字数据和所述输入文字数据之间的类似度,在将类似度最高的基本文字作为识别文字的情况下,当所述输入文字数据内的某分量的特征点的数目少于某基本文字数据的相同分量的特征点的数目时,不计算与该基本文字之间的类似度而判断为该基本文字不是识别文字。
8.根据权利要求1所述的文字识别装置,其特征在于,
所述基本文字数据按每个特征点具有系数,该系数在由所述文字识别单元根据所述基本文字数据的特征点和所述输入文字数据的特征点之间的差来计算类似度时使用。
9.一种文字识别装置,其特征在于,
具备:
3轴的加速度传感器;
获取单元,其获取来自所述加速度传感器的测量结果作为1文字份的时间序列的加速度矢量,该测量结果与在移动该文字识别装置的框体的同时所进行的书写文字的动作对应;
选择单元,其在由所述获取单元获取的1文字份的加速度矢量序列之中,选择矢量的大小为大的值、且彼此大致正交的多个加速度矢量;
平面确定单元,其确定由所述选择单元选择的多个加速度矢量决定的平面;
第1变换单元,其将由所述获取单元获取的所述1文字份的加速度矢量序列变换成由所述平面确定单元确定的平面内的正交的2分量的加速度矢量序列;
文字识别单元,其将由所述第1变换单元变换后的平面内的2分量的加速度矢量序列作为输入文字数据,并将该输入文字数据和预先准备的文字识别用的基本文字数据进行对照,由此来进行文字识别;
确定单元,其从由所述第1变换单元变换后的2分量的加速度矢量序列之中确定1文字的开始书写的方向;和
第2变换单元,其对由所述平面确定单元确定的平面内的2分量的加速度矢量序列进行旋转变换,使得由所述确定单元确定的1文字的开始书写的方向与存储于所述文字识别用的基本文字数据内的该基本文字的开始书写的方向一致,
所述文字识别单元将由所述第2变换单元变换后的平面内的2分量的加速度矢量序列作为输入文字数据,并将该输入文字数据和所述基本文字数据进行对照。
10.根据权利要求9所述的文字识别装置,其特征在于,
所述选择单元将加速度矢量的大小为大的值、且彼此大致正交的多个矢量选择多组,
所述平面确定单元按由所述选择单元选择的每组来分别确定平面,并从按该每组确定的平面之中确定一个平面来作为书写文字的文字平面。
11.根据权利要求9所述的文字识别装置,其特征在于,
所述第1变换单元将所述1文字份的加速度矢量序列变换成这样的2分量的加速度矢量序列:使由所述平面确定单元确定的平面旋转,使得该平面和与所述3轴的加速度传感器的各轴对应的3个分量之中任意一个分量的重力加速度为零的平面一致。
12.根据权利要求9所述的文字识别装置,其特征在于,
所述文字识别装置还具备判别单元,该判别单元基于由所述获取单元获取的加速度矢量序列来判别1文字的开始书写和结束书写,
所述选择单元在从由所述判别单元判别为1文字的开始书写起到判别为结束书写为止的期间由所述获取单元依次获取的加速度矢量序列之中,选择矢量的大小为大的值、且彼此大致正交的多个矢量。
13.一种文字识别方法,其特征在于,
包括:
获取步骤,获取与在平面内移动内置有至少2轴的加速度传感器的框体的同时所进行的书写文字的动作对应的、所述加速度传感器的测量结果作为与各轴对应的分量的加速度数据;
判别步骤,基于由所述获取步骤获取的每个分量的加速度数据,来判别1文字的开始书写和结束书写;
确定步骤,将在从由所述判别步骤判别为1文字的开始书写起到判别为结束书写为止的期间由所述获取步骤依次获取的每个分量的加速度数据,作为包含笔画和笔画之间的加速度的、从文字的第1笔画起到最后1笔画为止时间上连续的一系列的加速度数据,并按每个分量来分别确定存在于该一系列的加速度数据之中的多个特征点;
生成步骤,将包含由所述确定步骤确定的多个特征点的每个分量的特征点数据作为输入文字数据生成;和
文字识别步骤,通过将基本文字数据和由所述生成步骤生成的输入文字数据进行对照来进行文字识别,所述基本文字数据作为文字识别用而预先准备,且按所述每个分量包含多个特征点,
所述确定步骤中,在各分量的加速度数据的每一个中,将局部的最大点即极大点和局部的最小点即极小点确定为特征点,
所述生成步骤中,按由所述确定步骤确定的每个特征点,决定表示是极大点还是极小点的极点的种类,并求取其极点的加速度的值作为极点等级,且将包含该极点的种类和极点等级的每个分量的特征点数据作为输入文字数据生成,
所述基本文字数据作为与特征点相关的数据,是包含所述极点的种类和极点等级的数据。
14.一种文字识别方法,其特征在于,
包括:
获取步骤,获取与在移动内置有3轴的加速度传感器的框体的同时所进行的书写文字的动作对应的、来自所述加速度传感器的测量结果作为1文字份的时间序列的加速度矢量;
选择步骤,在由所述获取步骤获取的1文字份的加速度矢量序列之中,选择矢量的大小为大的值、且彼此大致正交的多个加速度矢量;
平面确定步骤,确定由所述选择步骤选择的多个加速度矢量决定的平面;
第1变换步骤,将由所述获取步骤获取的所述1文字份的加速度矢量序列变换成由所述平面确定步骤确定的平面内的正交的2分量的加速度矢量序列;
文字识别步骤,将由所述第1变换步骤变换后的平面内的2分量的加速度矢量序列作为输入文字数据,并将该输入文字数据和预先准备的文字识别用的基本文字数据进行对照,由此来进行文字识别;
确定步骤,从由所述第1变换步骤变换后的2分量的加速度矢量序列之中确定1文字的开始书写的方向;和
第2变换步骤,对由所述平面确定步骤确定的平面内的2分量的加速度矢量序列进行旋转变换,使得由所述确定步骤确定的1文字的开始书写的方向与存储于所述文字识别用的基本文字数据内的该基本文字的开始书写的方向一致,
所述文字识别步骤中,将由所述第2变换步骤变换后的平面内的2分量的加速度矢量序列作为输入文字数据,并将该输入文字数据和所述基本文字数据进行对照。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010167143A JP4947501B2 (ja) | 2010-07-26 | 2010-07-26 | 文字認識装置及びプログラム |
JP2010-167143 | 2010-07-26 | ||
JP2010171830A JP4877621B1 (ja) | 2010-07-30 | 2010-07-30 | 文字認識装置及びプログラム |
JP2010-171830 | 2010-07-30 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102346859A CN102346859A (zh) | 2012-02-08 |
CN102346859B true CN102346859B (zh) | 2013-10-09 |
Family
ID=45493659
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2011102086925A Expired - Fee Related CN102346859B (zh) | 2010-07-26 | 2011-07-25 | 文字识别装置 |
Country Status (2)
Country | Link |
---|---|
US (2) | US8571321B2 (zh) |
CN (1) | CN102346859B (zh) |
Families Citing this family (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI409576B (zh) * | 2009-10-30 | 2013-09-21 | Htc Corp | 影像擷取方法與可攜式通訊裝置 |
US9098123B2 (en) * | 2011-08-04 | 2015-08-04 | National Cheng Kung University | Moving trajectory generation method |
US20130093668A1 (en) * | 2011-10-12 | 2013-04-18 | Samsung Electronics Co., Ltd. | Methods and apparatus for transmitting/receiving calligraphed writing message |
CN103425406B (zh) * | 2012-05-16 | 2018-01-19 | 腾讯科技(深圳)有限公司 | 一种移动终端的输入方法及装置 |
US9354725B2 (en) * | 2012-06-01 | 2016-05-31 | New York University | Tracking movement of a writing instrument on a general surface |
KR102040851B1 (ko) * | 2012-08-06 | 2019-11-06 | 삼성전자주식회사 | 휴대단말기의 키 입력 방법 |
JP5284523B1 (ja) * | 2012-09-05 | 2013-09-11 | 株式会社東芝 | 情報処理システム、プログラムおよび情報処理システムの処理方法 |
US20140236529A1 (en) * | 2013-02-18 | 2014-08-21 | Motorola Mobility Llc | Method and Apparatus for Determining Displacement from Acceleration Data |
CN103366616A (zh) * | 2013-08-04 | 2013-10-23 | 无锡同春新能源科技有限公司 | 一种以风力发电为供电源的教学用毛笔 |
KR20150060338A (ko) * | 2013-11-26 | 2015-06-03 | 삼성전자주식회사 | 전자장치 및 전자장치의 문자인식 방법 |
CN104793724B (zh) * | 2014-01-16 | 2018-12-21 | 北京三星通信技术研究有限公司 | 空中书写处理方法及装置 |
US9384403B2 (en) | 2014-04-04 | 2016-07-05 | Myscript | System and method for superimposed handwriting recognition technology |
US9524440B2 (en) | 2014-04-04 | 2016-12-20 | Myscript | System and method for superimposed handwriting recognition technology |
US9996109B2 (en) | 2014-08-16 | 2018-06-12 | Google Llc | Identifying gestures using motion data |
CN104571521B (zh) * | 2015-01-21 | 2018-09-11 | 京东方科技集团股份有限公司 | 手写记录装置和手写记录方法 |
CN105045391B (zh) * | 2015-07-08 | 2019-01-15 | 深圳市Tcl云创科技有限公司 | 智能手表手势输入方法及智能手表 |
TWI566119B (zh) * | 2015-10-28 | 2017-01-11 | 健行學校財團法人健行科技大學 | 軌跡認證裝置及其方法 |
CN105448071A (zh) * | 2015-11-02 | 2016-03-30 | 中国科学技术大学 | 一种数据收发器及数据传输系统 |
US10169670B2 (en) | 2015-11-30 | 2019-01-01 | International Business Machines Corporation | Stroke extraction in free space |
WO2017203774A1 (ja) * | 2016-05-26 | 2017-11-30 | ソニー株式会社 | 情報処理装置、情報処理方法及び記憶媒体 |
CN106125905A (zh) * | 2016-06-13 | 2016-11-16 | 广东小天才科技有限公司 | 一种听写控制方法及设备、系统 |
CN106886282B (zh) * | 2017-01-04 | 2020-12-25 | 奇酷互联网络科技(深圳)有限公司 | 字符输入方法和装置 |
CN110462710B (zh) * | 2017-03-13 | 2022-06-28 | 田谷圭司 | 电子设备以及信息处理方法 |
DE202017105404U1 (de) * | 2017-09-07 | 2018-12-10 | Stabilo International Gmbh | Bestimmung der Schreibrichtung mittels Inertialsensorik |
JP2019211587A (ja) * | 2018-06-04 | 2019-12-12 | コクヨ株式会社 | 筆記行為評価システム |
CN109063709A (zh) * | 2018-07-10 | 2018-12-21 | 青岛真时科技有限公司 | 一种可穿戴设备的文字识别的方法、装置和可穿戴设备 |
US11157099B2 (en) * | 2019-08-05 | 2021-10-26 | Adx Research, Inc. | Electronic writing device and a method for operating the same |
CN111538417B (zh) * | 2020-04-17 | 2024-06-18 | 京东方科技集团股份有限公司 | 字符输入的控制方法、触控笔、显示设备、系统及介质 |
CN111626238B (zh) * | 2020-05-29 | 2023-08-04 | 京东方科技集团股份有限公司 | 文本识别方法、电子设备及存储介质 |
CN112364782A (zh) * | 2020-11-13 | 2021-02-12 | 深圳振科智能科技有限公司 | 凌空书写的识别方法、装置、设备和介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1688826A2 (en) * | 2005-02-05 | 2006-08-09 | Samsung Electronics Co., Ltd. | User interface with gesture-recognition |
CN101576954A (zh) * | 2009-06-10 | 2009-11-11 | 中兴通讯股份有限公司 | 书写笔画识别装置、移动终端及实现空间书写的方法 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2721320B1 (fr) | 1994-06-20 | 1996-08-14 | Atochem Elf Sa | Film imper-respirant. |
JP2940445B2 (ja) | 1995-09-08 | 1999-08-25 | 日本電気株式会社 | ストロークパターン整合装置 |
JPH09114926A (ja) | 1995-10-13 | 1997-05-02 | Seiko Epson Corp | オンライン文字認識における入力文字大分類方法および装置 |
US5902968A (en) * | 1996-02-20 | 1999-05-11 | Ricoh Company, Ltd. | Pen-shaped handwriting input apparatus using accelerometers and gyroscopes and an associated operational device for determining pen movement |
JPH1055409A (ja) | 1996-08-08 | 1998-02-24 | Sharp Corp | 手書き入力情報処理装置 |
JPH10301702A (ja) | 1997-04-30 | 1998-11-13 | Ricoh Co Ltd | ペン型入力装置及びそのパタ−ン認識方法 |
JP2000268130A (ja) | 1999-03-18 | 2000-09-29 | Sanyo Electric Co Ltd | 文字軌跡検出方法、文字軌跡検出装置および記憶媒体 |
JP2001357356A (ja) | 2001-04-13 | 2001-12-26 | Sharp Corp | 手書き認識装置及び手書き認識方法 |
CN100377043C (zh) * | 2002-09-28 | 2008-03-26 | 皇家飞利浦电子股份有限公司 | 三维手写识别的方法及其系统 |
JP2006079221A (ja) | 2004-09-08 | 2006-03-23 | Kddi Corp | 文字入力装置 |
JP2008070920A (ja) | 2006-09-12 | 2008-03-27 | Ntt Docomo Inc | 移動体端末装置及びこれを用いた認証方法 |
JP2008078763A (ja) | 2006-09-19 | 2008-04-03 | Nec Corp | 携帯電話機 |
JP2008310588A (ja) | 2007-06-14 | 2008-12-25 | Mitsubishi Electric Corp | モーション認識装置 |
JP2009099041A (ja) | 2007-10-18 | 2009-05-07 | Smk Corp | ペン型入力装置 |
-
2011
- 2011-07-25 CN CN2011102086925A patent/CN102346859B/zh not_active Expired - Fee Related
- 2011-07-25 US US13/189,744 patent/US8571321B2/en active Active
-
2013
- 2013-02-27 US US13/778,253 patent/US8538156B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1688826A2 (en) * | 2005-02-05 | 2006-08-09 | Samsung Electronics Co., Ltd. | User interface with gesture-recognition |
CN101576954A (zh) * | 2009-06-10 | 2009-11-11 | 中兴通讯股份有限公司 | 书写笔画识别装置、移动终端及实现空间书写的方法 |
Non-Patent Citations (1)
Title |
---|
JP特开2006-79221A 2006.03.23 |
Also Published As
Publication number | Publication date |
---|---|
US8538156B2 (en) | 2013-09-17 |
US20120020566A1 (en) | 2012-01-26 |
US20130169602A1 (en) | 2013-07-04 |
CN102346859A (zh) | 2012-02-08 |
US8571321B2 (en) | 2013-10-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102346859B (zh) | 文字识别装置 | |
US10671842B2 (en) | Methods of determining handedness for virtual controllers | |
CN108596976B (zh) | 相机姿态追踪过程的重定位方法、装置、设备及存储介质 | |
US7952561B2 (en) | Method and apparatus for controlling application using motion of image pickup unit | |
EP2490104B1 (en) | Method and mobile terminal for controlling application in the mobile terminal | |
CN104350509B (zh) | 快速姿势检测器 | |
KR101509472B1 (ko) | 운동파라미터 확정방법, 장치와 운동지원방법 | |
US8269842B2 (en) | Camera gestures for user interface control | |
EP3109797B1 (fr) | Procédé de reconnaissance d'écriture manuscrite sur une surface physique | |
EP2903256B1 (en) | Image processing device, image processing method and program | |
CN104076920A (zh) | 信息处理设备、信息处理方法及存储介质 | |
CN102821243A (zh) | 图像处理装置、控制图像处理装置的方法以及用于使计算机执行该方法的程序 | |
WO2017175434A1 (ja) | 情報処理装置、情報処理方法および情報提供方法 | |
CN111382691A (zh) | 一种屏幕内容翻页的方法及移动终端 | |
CN105426901A (zh) | 用于对摄像头视野中的已知物体进行分类的方法 | |
CN117523659A (zh) | 基于骨架的多特征多流实时动作识别方法、装置和介质 | |
CN114202799A (zh) | 被控对象变化速度确定方法、装置、电子设备及存储介质 | |
JP4947501B2 (ja) | 文字認識装置及びプログラム | |
CN113706606A (zh) | 确定隔空手势位置坐标的方法及装置 | |
KR101900754B1 (ko) | 사용자 동작 정의 방법 및 이를 적용한 동작 인식 장치 | |
JP4877621B1 (ja) | 文字認識装置及びプログラム | |
CN117707746B (zh) | 一种互动全息数据的调度方法和系统 | |
CN116959031A (zh) | 一种互动式视力检测方法、装置、系统、设备及存储介质 | |
CN118230339A (zh) | 一种文本识别方法、装置及电子设备 | |
CN118781662A (zh) | 手部动作检测方法及装置、存储介质与终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20131009 Termination date: 20190725 |