CN109871173A

CN109871173A - 信息处理装置、信息处理系统

Info

Publication number: CN109871173A
Application number: CN201810562525.2A
Authority: CN
Inventors: 柴田博仁; 徐兴亜
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2017-12-01
Filing date: 2018-06-04
Publication date: 2019-06-11
Also published as: JP7006198B2; US11269511B2; US20190171352A1; JP2019101739A

Abstract

一种信息处理装置、信息处理系统，其中信息处理装置具备：接收机构，接收关于基于用户的描绘操作的信息即描绘信息；识别机构，以所述描绘信息为基础识别出描绘操作的最后部分为由用户指定命令的手势；提取机构，自进行了所述手势时起追溯到过去而提取用户描绘出的图形种类；及处理机构，进行基于所提取的所述图形种类的处理。

Description

信息处理装置、信息处理系统

技术领域

本发明涉及一种信息处理装置、信息处理系统。

背景技术

作为以往技术，存在组合语音、笔及鼠标等指示设备等复数个输入机构而由用户进行命令的输入，并进行与该命令对应的处理的信息处理装置。而且，以往，关于各输入机构，以输入的速度、准确度及识别率等的提高作为目标。而且，如今，语音识别及手写识别的精度提高而达到实用级别，从而使用复数个输入机构而进行处理的环境逐渐完备。

专利文献1中记载有一种信息处理装置，其具有麦克风等语音输入机构、笔或鼠标等指示输入机构、执行命令的命令执行机构、与命令对应地变更画面显示的画面显示机构及显示器等进行画面输出的画面输出机构，该信息处理装置具备，设置综合语音输入信息及指示输入信息来进行解释的信息综合机构，对包含用户使用语音输入机构及指示输入机构而进行的画面上的不可见部分的操作及复数个对象物的统一选择操作等非直接操作的操作进行解释的功能。

并且，专利文献2中记载有以下手势处理装置。即，设置液晶显示器等显示装置。将能够通过用输入笔进行描绘而输入影像或对上述显示装置的显示面的所希望的位置进行命令的写字板设置于上述显示面上。具备能够利用上述影像编辑上述显示面中的文字及记号的排列等的图像的手势功能。当启动了上述手势功能时，设定存储表示上述显示面中的图像的图像信息及表示各功能的动作状况的工作标记的画面信息缓冲器。

专利文献1：日本特开08-63319号公报

专利文献2：日本特开2000-47824号公报

发明内容

命令的输入例如通过使用指示设备来进行的情况较多。

然而，在用户进行命令的输入的情况下，当为基于指示设备等的描绘时，需要指定其开始及结束，从而存在工作效率容易下降的问题。

本发明提供一种即使在组合复数个输入机构而进行命令的输入的情况下，也无需在描绘中指定其开始，且工作效率不易下降的信息处理装置等。

方案1中所记载的发明为一种信息处理装置，其具备：接收机构，接收关于基于用户的描绘操作的信息即描绘信息；识别机构，以所述描绘信息为基础识别出描绘操作的最后部分为由用户指定命令的手势；提取机构，自进行了所述手势时起追溯到过去而提取用户描绘出的图形种类；及处理机构，进行基于所提取的所述图形种类的处理。

方案2中所记载的发明为方案1所示的信息处理装置，其特征在于，所述接收机构还接收用户的描绘操作中的语音的信息即语音信息，所述处理机构除了所述图形种类以外，还根据所述语音信息进行所述处理。

方案3中所记载的发明为方案2所示的信息处理装置，其特征在于，所述处理机构根据所述手势前后的语音信息进行所述处理。

方案4中所记载的发明为方案3所示的信息处理装置，其特征在于，所述提取机构利用语音的中断而确定成为用于进行所述处理的对象的语音信息。

方案5中所记载的发明为方案2所示的信息处理装置，其特征在于，所述处理机构进行转换为与所述图形种类对应的对象物的处理。

方案6中所记载的发明为方案5所示的信息处理装置，其特征在于，所述处理机构由所述图形种类与所述语音信息之间的关系决定所述对象物。

方案7中所记载的发明为方案6所示的信息处理装置，其特征在于，所述处理机构作为所述对象物转换为所述语音信息所表示的图标。

方案8中所记载的发明为方案6所示的信息处理装置，其特征在于，所述处理机构作为所述对象物转换为连结2个图标的链接。

方案9中所记载的发明为方案6所示的信息处理装置，其特征在于，所述处理机构作为所述对象物转换为所述语音信息所表示的文本而配设。

方案10中所记载的发明为方案9所示的信息处理装置，其特征在于，所述处理机构作为所述对象物以使所述语音信息所表示的文本进入与所述图形对应的框中的方式进行转换。

方案11中所记载的发明为方案9所示的信息处理装置，其特征在于，当没有所述语音信息时，所述处理机构作为所述对象物转换为与所述图形对应的框，且不加入文本。

方案12中所记载的发明为方案9所示的信息处理装置，其特征在于，所述处理机构作为所述对象物沿描绘所述图形时的描绘操作的描绘方向配设所述文本。

方案13中所记载的发明为方案5所示的信息处理装置，其特征在于，所述处理机构根据所述图形被描绘的位置及大小决定配设所述对象物的位置及大小。

方案14中所记载的发明为方案1所示的信息处理装置，其特征在于，在用户描绘出预先设定的形状时，所述识别机构识别为是所述手势。

方案15中所记载的发明为方案14所示的信息处理装置，其特征在于，所述预先设定的形状为表示密闭空间的形状。

方案16中所记载的发明为方案15所示的信息处理装置，其特征在于，所述识别机构将表示预先设定的大小以下的密闭空间的形状识别为是所述手势。

方案17中所记载的发明为方案1所示的信息处理装置，其特征在于，从描绘操作中进行所述识别机构进行的所述手势的识别及所述提取机构进行的所述图形种类的提取。

方案18中所记载的发明为方案17所示的信息处理装置，其特征在于，从一笔完成的描绘操作中进行所述识别机构进行的所述手势的识别及所述提取机构进行的所述图形种类的提取。

方案19中所记载的发明为方案18所示的信息处理装置，其特征在于，所述提取机构将所述手势的描绘操作以外的部分视为所述图形。

方案20中所记载的发明为一种信息处理系统，其具备：显示装置，以用户的描绘操作为基础显示图像；及信息处理装置，以描绘操作为基础制作出用所述显示装置显示的图像的显示信息，所述信息处理装置具备：接收机构，接收关于基于用户的描绘操作的信息即描绘信息；识别机构，以所述描绘信息为基础识别出描绘操作的最后部分为由用户指定命令的手势；提取机构，自进行了所述手势时起追溯到过去而提取用户描绘出的图形种类；处理机构，进行基于所提取的所述图形种类的处理。

发明效果

根据本发明的第1方案，能够提供一种即使在组合复数个输入机构而进行命令的输入的情况下，也无需在描绘中指定其开始，从而工作效率不易下降的信息处理装置。

根据本发明的第2方案，除了图形种类以外，还能够组合语音信息进行命令的输入。

根据本发明的第3方案，能够提取成为对象的语音信息。

根据本发明的第4方案，能够更轻松地提取成为对象的语音信息。

根据本发明的第5方案，能够将描绘操作转换为对象物。

根据本发明的第6方案，处理机构能够决定用户所希望的对象物。

根据本发明的第7方案，作为对象物能够转换为图标。

根据本发明的第8方案，作为对象物能够表现其他2个对象物的链接。

根据本发明的第9方案，作为对象物能够转换为文本。

根据本发明的第10方案，作为对象物能够转换为带框的文本。

根据本发明的第11方案，作为对象物能够仅转换为不加入文本的框。

根据本发明的第12方案，作为对象物能够沿用户所希望的方向配设文本。

根据本发明的第13方案，能够配设用户所希望的位置及大小的对象物。

根据本发明的第14方案，能够通过描绘操作进行命令的输入。

根据本发明的第15方案，命令的输入会变得更简单。

根据本发明的第16方案，命令的识别率进一步提高。

根据本发明的第17方案，在进行图形的描绘时，还能够组合命令的输入来进行。

根据本发明的第18方案，能够连续进行图形的描绘及手势的描绘。

根据本发明的第19方案，用户描绘出的图形的范围会变得更明确。

根据本发明的第20方案，能够提供一种即使在组合复数个输入机构而进行命令的输入的情况下，也无需在描绘中指定其开始，从而工作效率不易下降的信息处理系统。

附图说明

根据以下附图，对本发明的实施方式进行详细叙述。

图1是表示本实施方式中的信息处理系统的结构例的图。

图2是表示本实施方式中的信息处理装置的功能结构例的框图。

图3(a)～图3(c)是表示作为由用户指定命令的手势描绘出预先设定的形状的例子的图。

图4中(a)～(c)是表示图形提取机构提取关于所提取的图形的图形类型进而决定对象物类型的情况的图。

图5是说明对象物结构数据的图。

图6是表示语音提取机构提取语音信息的方法的图。

图7(a)是表示图标表的图。图7(b)是表示文本结构数据的图。

图8中(a)～(d)是表示对象物转换机构向与图形种类对应的对象物进行转换的处理的图。

图9是对信息处理装置的动作进行说明的流程图。

图10是表示当将用户的描绘操作转换为对象物时显示于显示装置的画面的例子的图。

图11(a)～图11(b)是表示在本实施方式中决定命令模式的开始及结束的方法的图。

符号说明

1-信息处理系统，10-信息处理装置，20-显示装置，20a-显示画面，110-接收机构，120-手势识别机构，130-图形提取机构，140-语音保持机构，150-语音提取机构，160-文本转换机构，170-命令判定机构，180-图标管理机构，190-对象物转换机构。

具体实施方式

以下，参考附图对本发明的实施方式进行详细说明。

＜整个信息处理系统的说明＞

图1是表示本实施方式中的信息处理系统1的结构例的图。

如图所示，本实施方式的信息处理系统1具备：信息处理装置10，以用户的描绘操作为基础制作出用显示装置20显示的图像的显示信息；及显示装置20，接收用户的描绘操作，并且以用户的描绘操作为基础显示图像。

信息处理装置10例如为所谓的通用的个人计算机(PC)。而且，信息处理装置10在基于OS(操作系统(Operating System))的管理下，通过使各种应用软件动作而进行信息的处理等。

信息处理装置10具备运算机构即CPU(中央处理器(Central Processing Unit))、存储机构即主存储器及HDD(硬盘驱动器(Hard Disk Drive))。在此，CPU执行OS(操作系统、基本软件)及应用程序(应用软件)等各种软件。并且，主存储器为存储各种软件及其执行中所使用的数据等的存储区域，HDD为存储对各种软件的输入数据及来自各种软件的输出数据等的存储区域。

而且，信息处理装置10具备用于与外部进行通信的通信接口。

显示装置20在显示画面20a显示图像。显示装置20例如由PC用液晶显示器、液晶电视或投影仪等具备显示图像的功能的装置构成。因此，显示装置20中的显示方式并不限定于液晶方式，例如，也可以是有机EL(电致发光(ElectroLuminescence))方式及等离子显示方式等。

显示画面20a例如为触摸面板，通过该触摸面板进行图像的显示并且输入触摸等用户的命令。因此，显示画面20a具备当以触控笔、人的手指为代表的接触物与显示画面20a接触时检测接触物与触摸面板接触的位置的位置检测部(未图示)。在本实施方式中，用作显示画面20a的触摸面板并无特别限定，可采用电阻膜方式及静电电容方式等各种方式的触摸面板。

信息处理装置10及显示装置20经由DVI(数字视频接口(Digital VisualInterface))连接。另外，代替DVI，也可以经由HDMI(注册商标)(高清晰度多媒体接口(High-Definition Multimedia Interface))、显示端口(DisplayPort)及USB(通用串行总线(Universal Serial Bus))等连接。

并且，并不限定于这种有线连接，也可以是无线LAN(局域网(Local AreaNetwork))及蓝牙(Bluetooth)(注册商标)等无线连接。

在这种信息处理系统1中，首先，用户对显示装置20的显示画面20a通过触控笔等进行描绘操作。该描绘操作在显示画面20a上作为轨迹来显示。该描绘操作的信息作为描绘信息而传送至信息处理装置10。而且，在信息处理装置10中，以该描绘信息为基础提取用户画出的图形并将该图像按照预先设定的规则转换为对象物。而且，在显示画面20a中显示该对象物。即，用户描绘出的轨迹被删除，取而代之显示对象物。并且，在本实施方式中，当信息处理装置10向对象物进行转换时，能够一并使用用户发出的语音的信息即语音信息。即，利用描绘信息及语音信息而决定进行转换的对象物。另外，此时，语音不是必需的，有时也不会使用语音。

另外，本实施方式中的信息处理系统1并不限定于图1的方式。例如，作为信息处理系统1能够例示平板电脑终端。在该情况下，平板电脑终端具备触摸面板，并通过该触摸面板进行图像的显示且输入触摸等用户的命令。并且，向对象物进行转换的处理能够通过内置有平板电脑终端的计算机装置来进行。即，平板电脑终端作为上述的信息处理装置10及显示装置20而发挥功能。并且，从相同的观点考虑，信息处理系统1也可以是智能手机及笔记型PC等。

＜信息处理装置10的说明＞

图2是表示本实施方式中的信息处理装置10的功能结构例的框图。另外，在图2中，选择并图示信息处理装置10所具有的各种功能中与本实施方式相关的功能。

如图所示，本实施方式的信息处理装置10具备接收关于用户的描绘操作的信息即描绘信息及用户的语音的信息即语音信息的接收机构110、识别出由用户指定命令的手势的手势识别机构120、提取用户描绘出的图形种类的图形提取机构130、保持语音信息的语音保持机构140、进行语音信息的提取的语音提取机构150、进行语音识别且将语音信息转换为文本信息的文本转换机构160、判定命令是否有效的命令判定机构170、搜索用于将描绘信息及语音信息转换为对象物的图标的图标管理机构180、以及以描绘信息及语音信息为基础进行向对象物的转换的对象物转换机构190。

接收机构110接收关于基于用户的描绘操作的信息即描绘信息。

“描绘操作”是指用户使用触控笔等而对触摸面板等即显示画面20a进行输入的操作。并且，“描绘信息”为表示用户在显示画面20a上描绘出的线的轨迹的信息。描绘信息例如为在显示画面20a上表示触控笔等接触的位置的二维坐标信息的集合。而且，若用户通过触控笔等进行描绘操作，则在显示画面20a上，触控笔等接触的位置根据时间而发生变化，能够通过该坐标信息的变化来掌握用户描绘了什么。因此，描绘信息作为复数个二维坐标信息的集合(坐标信息组)而构成。

并且，接收机构110还接收用户的描绘操作中的语音的信息即语音信息。

“语音信息”是将通过未图示的麦克风等语音获取机构获取的用户的语音转换为电信号(语音信号)的信息。另外，语音信息也可以是通过运算放大器等放大器放大的信息。

手势识别机构120为识别机构的一例，且以描绘信息为基础识别出描绘操作的最后部分为由用户指定命令的手势。

在此，“命令”是指用户命令将描绘操作及语音转换为对象物。并且，“对象物”是指以用户的描绘操作为基础而转换且显示于显示画面20a的显示对象。详细内容将进行后述，但“对象物”例如为图标、框、文本、链接。而且，“手势”是指由用户进行且明确表示为命令的动作。

此时，当用户描绘出预先设定的形状时，手势识别机构120识别为是由用户指定命令的手势。手势的识别从描绘操作中进行。具体而言，手势识别机构120从用户描绘出的描绘操作中的最后部位切出预先设定的长度量，并根据该部分的形状判断是否为由用户指定命令的手势。

在该情况下，示出了用户描绘出某种图形Z，且在描绘出图形Z之后的最后部位描绘出表示手势的预先设定的形状的情况。该预先设定的形状为表示密闭空间的形状。

其中，图3(a)示出了用户作为图形Z描绘出圆形，且在最后部位以顺时针方向描绘出小的圆形的密闭空间H的例子。

并且，图3(b)示出了用户作为图形Z描绘出方形，且在最后部位描绘出相同的密闭空间H的例子。而且，图3(c)示出了用户作为图形Z描绘出直线，且在最后部位描绘出相同的密闭空间H的例子。

若将预先设定的形状设为表示密闭空间H的形状，则产生用户容易描绘这一效果。

当将该预先设定的形状设为表示密闭空间H的形状时，例如将如图3(a)～图3(c)中例示那样的密闭空间H的尺寸限定在预先设定的大小以下。由此，与作为图形Z描绘大的密闭空间的情况的区分会变得容易。并且，关于该密闭空间H的形状，也可以设为根据用户的嗜好定制的形状。并且，在此，将密闭空间H设为顺时针方向的小的圆形形状，但并不限定于此，可以是逆时针方向，也可以是三角形或方形等其他形状。并且，也可以将它们全部作为密闭空间H来操作。即，在作为图形Z描绘出圆形之后，容易描绘圆形，且在作为图形Z描绘出方形之后，容易描绘方形。因此通过将它们全部包含在内，用户的便利性得以提高。

而且，当用户描绘出用户预先设定的形状时，手势识别机构120作为由用户指定命令的手势来进行了识别，但并不限定于此。例如，也可以利用触控笔等的压力或倾斜度来检测与描绘图形Z时的差异。并且，在上述例子中，手势的识别从描绘操作中进行，但也可以是用户的描绘操作以外。例如，也可以设为在描绘操作的最后，检测用户用与持有触控笔等的手相反的一侧的手来点击、吹气、用户改变语音的音调等动作，并将这些识别为是由用户指定命令的手势。

图形提取机构130为提取图形Z的种类的提取机构的一例，且自进行了手势时起追溯到过去而提取用户描绘出的图形Z的种类。图形Z的种类的提取从描绘操作中进行，更具体而言，从一笔完成的描绘操作中进行。在此，“一笔完成”是指用户1次(1个笔划)完成的描绘操作。即，“一笔完成”为用户不从显示画面20a移开触控笔等而进行的1次(1个笔划)描绘操作。此时，图形提取机构130将手势的描绘操作以外的部分设为图形Z。即，以图3(a)～图3(c)的情况为例子，图形提取机构130将密闭空间H以外的部位视为图形Z。

而且，关于图形Z，图形提取机构130作为图形Z的种类提取图形类型，并决定对象物类型。

在此，“图形类型”是指由图形Z的形状导出的图形种类。在本实施方式中，“图形类型”为“圆”、“方形”及“线”这3种中的任一种。并且，“对象物类型”是指详细内容后述的对象物转换机构190进行转换的对象物的种类。在本实施方式中，“对象物类型”为“图标”、“框”、“文本”及“链接”这4种中的任一种。其中，“图标”表示对象物为图标。并且，“框”表示对象物为方形框。而且，“文本”表示对象物为字符串。此外，“链接”表示对象物为连结其他2个对象物之间的线。

图4中(a)～(c)是表示图形提取机构130提取关于所提取的图形Z的图形类型并决定对象物类型的情况的图。

在此，第1列为用户的描绘操作，并图示了上述的以1个笔划进行的描绘操作。在此，如上所述，描绘操作包括图形Z及密闭空间H。并且，第2列图示了图形类型。而且，第3列图示了对象物类型。

在为图4中(a)的情况下，密闭空间H以外的图形Z为由没有角的曲线状的线构成的大的密闭空间，在该情况下，图形类型为“圆”。而且，在图形类型为“圆”的情况下，对象物类型为“图标”。

并且，在为图4中(b)的情况下，密闭空间H以外的图形Z为由直线状的线及角构成的大的密闭空间，在该情况下，图形类型为“方形”。而且，在图形类型为“方形”的情况下，对象物类型为“框”。

而且，在为图4中(c)的情况下，密闭空间H以外的图形Z由直线状的线构成，在该情况下，图形类型为“线”。而且，在图形类型为“线”的情况下，对象物类型为“链接”及“文本”中的任一个。具体而言，若图形Z的起点及终点为其他2个对象物的位置，则为“链接”，否则为“文本”。

另外，在上述例子中，将密闭空间H以外设为图形Z而提取了图形类型，但也可以包含密闭空间H在内而设为图形Z，并提取这些密闭空间H及图形类型。

而且，图形提取机构130制作出对象物结构数据OD。

图5是说明对象物结构数据OD的图。

所图示的对象物结构数据OD包括图示的属性及值。其中，属性包括对象物类型、矩形的左上位置、矩形的纵横尺寸、笔划开始位置及笔划结束位置。并且，值为与该属性对应的值。在此，表示对象物类型为框，且作为能够覆盖1个笔划的矩形而最小尺寸的矩形的左上位置为(134,335)的像素位置。并且，表示该矩形的纵横尺寸为54dot(像素)×88dot、1个笔划的开始位置即笔划开始位置为(13,45)的像素位置及1个笔划的结束位置即笔划结束位置为(144,523)的像素位置。其中，该属性并不一定全部使用，例如，当对象物类型为框时，不使用笔划开始位置及笔划结束位置。并且，当对象物类型为链接及文本时，不使用矩形的左上位置及矩形的纵横尺寸。

语音保持机构140将语音信息保持预先设定的时间。并且，超过预先设定的时间的语音信息被删除。即，语音保持机构140作为语音信息的缓冲器而发挥功能。

语音提取机构150为提取语音信息的提取机构的一例，且从手势前后的语音信息中提取成为用于通过文本转换机构160转换为文本信息的对象的语音信息。

图6是表示语音提取机构150提取语音信息的方法的图。图6中横向为时间，且以矩形K来表示语音信息存在的部位。

语音提取机构150调查手势前后的语音信息，并检测语音的中断。而且，利用语音的中断来确定成为对象的语音信息。语音提取机构150从保持于语音保持机构140的语音信息中找出预先设定的时间以上不存在语音信息的时刻，在该情况下，视为出现了语音的中断。在所图示的情况下，在作为用户的描绘操作而1个笔划结束的时点，即，在描绘出指定命令的手势即密闭空间H的时点用户已讲话，语音提取机构150检测在其前后检测出的产生语音的中断的部位。而且，将检测出的产生语音的中断的部位作为成为对象的语音信息的开始位置及结束位置来确定。另外，用于检测中断的预先设定的时间可以是可变的。即，根据用户，当为说话快的人时设定为更短，而不是说话快的人时设定为更长。并且，也可以是如下方法，即，当用户说话快时，设定为更短，否则设定为更长。

另外，当没有语音信息时，语音提取机构150视为没有成为对象的语音信息而不进行提取。并且，有时用户连续讲话而无法检测开始位置及结束位置。在该情况下，语音提取机构150例如可以进行语言分析并检测语义性的分段，以提取成为对象的语音信息。并且，语音提取机构150也可以根据用户讲话的语音的腔调来检测分段。

文本转换机构160对通过语音提取机构150提取的语音信息进行语音识别并转换为文本信息而作为语音文本。作为进行语音识别的模块并无特别限定，能够使用一般市售的模块。另外，当没有通过语音提取机构150提取成为对象的语音信息时，文本转换机构160转换为空字符串。

命令判定机构170以通过图形提取机构130决定的对象物类型T及通过文本转换机构160转换的语音文本S为基础判定它们作为命令是否有效。

具体而言，当对象物类型T为“图标”，且存在与语音文本S对应的图标时，命令判定机构170判定为作为命令有效。相反，当不存在与语音文本S对应的图标时，判定为作为命令无效。另外，当语音文本S为空字符串时，命令判定机构170判定为作为命令无效。

并且，当对象物类型T为“框”时，命令判定机构170与语音文本S无关地判定为有效。

而且，若对象物类型T为“文本”且语音文本S不是空字符串，则命令判定机构170判定为作为命令有效。相反，当语音文本S为空字符串时，判定为作为命令无效。

此外，当对象物类型T为“链接”时，命令判定机构170与语音文本S无关地判定为有效。

图标管理机构180管理图标。并且，图标管理机构180搜索用于将描绘信息及语音信息转换为对象物的图标。

图标管理机构180根据图标表进行图标的管理。

图7(a)是表示图标表IT的图。

所图示的图标表IT由第1列的图标ID、第2列的图标路径及第3列的图标名目录构成。图标ID为赋予到图标的ID，在此，图示了图标ID为1及2的情况。并且，图标路径表示存储图标的图像信息的文件的位置。而且，图标名目录为各图标的名称。在此，图标名目录包括复数个单词。

当对象物类型T为“图标”时，命令判定机构170将语音文本S转到图标管理机构180。而且，图标管理机构180搜索在图标名目录中是否存在包含语音文本S的图标名。而且，当存在时，图标管理机构180制作出文本结构数据，并反馈至命令判定机构170。并且，当不存在时，图标管理机构180向命令判定机构170反馈没有对应的图标。

图7(b)是表示文本结构数据TD的图。

所图示的文本结构数据TD包括第1列的属性及第2列的值。第1列的属性包括语音文本及图标ID，作为第2列的值分别示出“笔记型PC”及“1”。即，该文本结构数据TD中，语音文本S为“笔记型PC”，如图7(a)所示，在图标ID为1的图标名目录中，存在与语音文本S相同的“笔记型PC”，因此表示制作出了图标ID为“1”的文本结构数据TD。

另外，有时文本结构数据TD包含复数个图标ID。即，有时存在复数个与语音文本S对应的图标ID。在该情况下，图标管理机构180计算出语音文本S与图标名目录的相似度。而且，将相似度最高时的图标ID反馈至命令判定机构170。相似度的计算并无特别限定，例如，能够由部分字符串的一致数(E)/图标名目录的单词数(L)来计算。并且，也可以对各自图标名目录的单词赋予权重。

对象物转换机构190为处理机构的一例，且进行基于所提取的图形种类的处理。并且，对象物转换机构190除了图形种类以外，还根据语音信息进行处理。

在本实施方式中，通过对象物转换机构190进行的处理为转换为与图形种类对应的对象物的处理。具体而言，对象物转换机构190由图形种类与语音信息之间的关系来决定对象物。

图8中(a)～(d)是表示对象物转换机构190转换为与图形种类对应的对象物的处理的图。在此，在箭头左侧的栏中图示了语音文本及用户的描绘操作。而且，在箭头右侧的栏中图示了对用户的描绘操作进行转换后的对象物。

如上所述，当图形种类即图形类型为“圆”时，对象物类型为“图标”。而且，在该情况下，如图8中(a)所示，对象物转换机构190作为对象物转换为语音信息所表示的图标。即，对象物转换机构190将语音信息转换为与转换成文本信息的语音文本对应的图标。在该情况下，语音文本为“台式PC”，因此用户描绘出的描绘操作转换为台式PC的图标的对象物。

并且，对象物转换机构190有时作为对象物转换为语音信息所表示的文本而配设。

当图形类型为“方形”时，对象物类型成为“框”。而且，在该情况下，如图8中(b)所示，对象物转换机构190作为对象物以使语音信息所表示的文本进入与图形对应的框中的方式进行转换。即，对象物转换机构190以使语音文本进入方形框中的方式进行转换。在该情况下，语音文本为“N事务所”，因此用户描绘出的描绘操作转换为“N事务所”的文本进入到方形框中的对象物。另外，当语音文本为空字符串时，仅显示方形框。即，当没有语音信息时，对象物转换机构190作为对象物转换为与图形对应的框而不加入文本。

而且，当图形类型为“线”，且对象物类型为“文本”时，如图8中(c)所示，对象物转换机构190作为对象物沿描绘图形时的描绘操作的描绘方向配设文本。在该情况下，语音文本为“N事务所”，因此转换为沿用户作为描绘操作画出的线的“N事务所”的文本对象物。

而且，当图形类型为“线”，且对象物类型为“链接”时，如图8中(d)所示，对象物转换机构190作为对象物转换为连结2个图标的链接。在该情况下，沿用户作为描绘操作画出的线而转换为表示链接的箭头的对象物。另外，在此，将表示链接的对象物设为箭头，但也能够设为单纯的直线。

并且，对象物转换机构190利用图形提取机构130制作出的对象物结构数据OD及图标管理机构180制作出的文本结构数据TD而决定进行转换的对象物的位置及大小。

例如，当对象物类型T为“图标”时，对象物转换机构190参考对象物结构数据OD使矩形的纵横尺寸的值的大小的图标位于矩形的左上位置的值的部位。

并且，当对象物类型T为“框”时，对象物转换机构190使矩形的纵横尺寸的值的大小的方形框及进入该框中的语音文本位于矩形的左上位置的值的部位。

而且，当对象物类型T为“文本”时，对象物转换机构190使语音文本配设于连结笔划开始位置与笔划结束位置的直线上。

此外，当对象物类型T为“链接”时，对象物转换机构190配设从位于笔划开始位置的另一对象物连结位于笔划结束位置的又一对象物的箭头。

即，在该情况下，对象物转换机构190根据描绘出的图形的位置及大小而决定配设对象物的位置及大小。另外，也可以设为能够在配设对象物之后改变其位置及大小。在该情况下，用户变得无需正确地描绘图形的大小及位置，从而用户的便利性得以提高。

＜信息处理装置10的动作的说明＞

接着，对信息处理装置10的动作进行说明。

图9是对信息处理装置10的动作进行说明的流程图。

首先，接收机构110接收关于用户的描绘操作的信息即描绘信息及用户的语音的信息即语音信息(步骤101)。所获取的语音信息由语音保持机构140保持预先设定的时间(步骤102)。

接着，手势识别机构120判断是否进行了由用户指定命令的手势(步骤103)。该步骤中，能够在用户的1个笔划的描绘操作结束时判断出最后是否描绘了上述密闭空间H等。

其结果，当没有进行手势时(步骤103中为“否”)，返回到步骤101。

另一方面，当进行了手势时(步骤103中为“是”)，如图4的(a)～(c)所示，图形提取机构130提取用户描绘出的图形类型并决定对象物类型(步骤104)。并且，图形提取机构130制作出图5所示的对象物结构数据OD(步骤105)。

接着，语音提取机构150进行语音信息的提取(步骤106)。该步骤中，如图6所示，从保持于语音保持机构140的语音信息利用语音的中断而确定成为用于转换为文本信息的对象的语音信息。

而且，文本转换机构160对语音提取机构150提取的语音信息进行语音识别，并转换为文本信息即语音文本(步骤107)。

接着，命令判定机构170以通过图形提取机构130决定的对象物类型及通过文本转换机构160转换的语音文本为基础判定它们作为命令是否有效(步骤108)。

其结果，当并非有效(无效)时(步骤108中为“否”)，结束一系列的处理。

另一方面，当有效时(步骤108中为“是”)，命令判定机构170判断对象物类型是否为图标(步骤109)。

其结果，当对象物类型不是图标时(步骤109中为“否”)，转移到步骤113。

相反，当对象物类型为图标时(步骤109中为“是”)，图标管理机构180参考图7(a)所示的图标表而判定图标名目录中是否存在包含语音文本的数据(步骤110)。

而且，当存在时(步骤110中为“是”)，图标管理机构180制作出图7(b)所示的文本结构数据，并反馈至命令判定机构170(步骤111)。

并且，当不存在时(步骤110中为“否”)，图标管理机构180向命令判定机构170反馈没有对应的图标(步骤112)。

而且，如图8中(a)～(d)所示，对象物转换机构190由图形种类与语音信息之间的关系决定对象物(步骤113)。

而且，对象物转换机构190将描绘信息转换为对象物(步骤114)。

而且，对象物转换机构190将对象物的显示信息对显示装置20进行输出(步骤115)。

由此，在显示装置20中，用户的描绘操作被删除，而显示转换后的对象物。

图10是表示当将用户的描绘操作转换为对象物时显示于显示装置20的画面的例子的图。

所图示的例子是表示云服务的图。而且，作为对象物图示了图标I1～I7、框B1、文本Tx1～Tx4及链接R1～R6。

在此，通过店铺的图标I1及“D店”的文本Tx1来表示D店，通过链接R1来表示数据从此处对通过标有“云(Cloud)”的文本Tx2的云图标I2来表示的云进行上传。

另一方面，通过链接R2来表示从通过标有“服务器”的文本Tx3的服务器图标I3来表示的服务器也上传数据。并且，通过链接R3来表示数据从该服务器保存于通过HDD图标I4来表示的HDD中。

而且，通过链接R4来表示数据从通过标有“PC”的文本Tx4的PC图标I5来表示的PC传送至服务器。而且，通过链接R5来表示从该PC对通过打印机图标I6来表示的打印机传送数据。

此外，在该PC中，通过链接R6来表示从通过智能手机的图标I7来表示的智能手机传送数据。而且，该服务器、HDD、PC、打印机及智能手机包含于框B1中，例如表示存在于1个公司内。

＜效果的说明＞

以往，当组合笔及鼠标等指示设备等复数个输入机构而由用户进行命令的输入时，例如，未假定在演示中进行的情况。因此，例如，关于语音，始终为接收命令的状态(命令模式)。但是在演示中，例如，在与对方共享同一显示画面20a，并一边用手指着一边进行议论等情况下，有时用户无意间作出动作(无意间对象物被插入或无意间对象物移动等)，从而导致使用上的不方便。

为了抑制这些，可考虑进行命令模式的指定，但在通过指示设备等指定命令模式的情况下，以往，在进行描绘时，需要指定其开始及结束，从而存在工作效率容易下降的问题。并且，该操作还存在妨碍演示及议论的流畅的进程的问题。而且，在描绘某一物体时，用户始终需要意识是否为命令模式下的描绘及讲话，从而还存在相对于用户的负担大的问题。

在该情况下，在描绘及讲话之前难以进行进入命令模式的操作，但在描绘及讲话之后，进行指定目前为止是命令模式的操作较为容易。并且，关于通过语音来指定这些，在进行演示时，需要进行与这些无关的讲话，从而变得容易妨碍交流。因此，在本实施方式中，设为在描绘操作的最后进行命令模式的指定，并将其用预先设定的手势来进行。而且，自进行了该手势时起，对描绘操作及语音，进行时间性的追溯而进行分析，以识别命令。另外，关于语音不是必需的，有时仅以描绘操作来识别命令。

图11(a)～图11(b)是表示在本实施方式中决定命令模式的开始及结束的方法的图。在此，横向表示时间，表示了在时间T1～时间T2期间执行描绘操作，在时间T3～时间T4期间讲话而存在用户的语音的情况。

其中，图11(a)表示在用户的描绘操作结束的时点，即，在描绘出指定命令的手势即密闭空间H的时点，用户的讲话结束而不存在语音的情况，图11(b)表示在该时点用户的讲话尚未结束而语音正在延续的情况。

任何情况均利用描绘操作的中断(1个笔划前后的不进行描绘的期间)及语音的中断而决定命令模式的开始及结束。即，在图11(a)的情况下，将语音的开始时间即时间T3～描绘操作的结束时间即时间T2的期间视为命令模式的期间。并且，在图11(b)的情况下，将描绘操作的开始时间即时间T1～语音的结束时间即时间T4的期间视为命令模式的期间。

如此，在本实施方式中，若在描绘操作的最后进行命令模式的指定，则以此为基础能够利用描绘操作或语音的中断而决定命令模式的开始及结束。

如以上进行的说明，根据本实施方式，能够提供一种自输入命令时起能够容易地进行输入，不易妨碍交流，而且无需指定其开始，工作效率不易下降的信息处理装置10等。

另外，在以上说明的例子中，对进行演示时使用本实施方式的信息处理装置10的情况进行了说明，但并不限定于此。例如，能够使用于教育用途。

并且，在以上说明的例子中，对作为描绘操作是1个笔划的情况进行了说明，但并不限定于此，也可以将2个笔划以上作为对象，从该对象提取手势及图形种类。

＜程序的说明＞

在此，以上进行说明的本实施方式中的信息处理装置10进行的处理例如作为应用软件等程序来准备。

因此，在本实施方式中，信息处理装置10进行的处理能够作为用于使计算机执行如下功能的程序来理解：接收功能，接收关于基于用户的描绘操作的信息即描绘信息；识别功能，以描绘信息为基础识别出描绘操作的最后部分为由用户指定命令的手势；提取功能，自进行了手势时起追溯到过去而提取用户描绘出的图形种类；及处理功能，进行基于所提取的图形种类的处理。

另外，实现本实施方式的程序当然由通信机构提供，还能够存储于CD-ROM等记录介质中来提供。

以上，对本实施方式进行了说明，但本发明的技术范围并不限定于上述实施方式中所记载的范围。由权利要求书的记载明确可知，对上述实施方式加以各种变更或改良也属于本发明的技术范围内。

上述本发明的实施方式是以例示及说明为目的而提供的。另外，本发明的实施方式并不全面详尽地包括本发明，并且，并不将本发明限定于所公开的方式。很显然，对本发明所属的领域中的技术人员而言，各种变形及变更是自知之明的。本实施方式是为了最容易理解地说明本发明的原理及其应用而选择并说明的。由此，本技术领域中的其他技术人员能够通过对假定为各种实施方式的特定使用最优化的各种变形例来理解本发明。本发明的范围由以上的权利要求书及其等同物来定义。

Claims

1.一种信息处理装置，其具备：

接收机构，接收关于基于用户的描绘操作的信息即描绘信息；

识别机构，以所述描绘信息为基础识别出描绘操作的最后部分为由用户指定命令的手势；

提取机构，自进行了所述手势时起追溯到过去而提取用户描绘出的图形种类；及

处理机构，进行基于所提取的所述图形种类的处理。

2.根据权利要求1所述的信息处理装置，其特征在于，

所述接收机构还接收用户的描绘操作中的语音的信息即语音信息，

所述处理机构除了所述图形种类以外，还根据所述语音信息进行所述处理。

3.根据权利要求2所述的信息处理装置，其特征在于，

所述处理机构根据所述手势前后的语音信息进行所述处理。

4.根据权利要求3所述的信息处理装置，其特征在于，

所述提取机构利用语音的中断而确定成为用于进行所述处理的对象的语音信息。

5.根据权利要求2所述的信息处理装置，其特征在于，

所述处理机构进行转换为与所述图形种类对应的对象物的处理。

6.根据权利要求5所述的信息处理装置，其特征在于，

所述处理机构由所述图形种类与所述语音信息之间的关系决定所述对象物。

7.根据权利要求6所述的信息处理装置，其特征在于，

所述处理机构作为所述对象物转换为所述语音信息所表示的图标。

8.根据权利要求6所述的信息处理装置，其特征在于，

所述处理机构作为所述对象物转换为连结2个图标的链接。

9.根据权利要求6所述的信息处理装置，其特征在于，

所述处理机构作为所述对象物转换为所述语音信息所表示的文本而配设。

10.根据权利要求9所述的信息处理装置，其特征在于，

所述处理机构作为所述对象物以使所述语音信息所表示的文本进入与所述图形对应的框中的方式进行转换。

11.根据权利要求9所述的信息处理装置，其特征在于，

当没有所述语音信息时，所述处理机构作为所述对象物转换为与所述图形对应的框，且不加入文本。

12.根据权利要求9所述的信息处理装置，其特征在于，

所述处理机构作为所述对象物沿描绘所述图形时的描绘操作的描绘方向配设所述文本。

13.根据权利要求5所述的信息处理装置，其特征在于，

所述处理机构根据所述图形被描绘的位置及大小决定配设所述对象物的位置及大小。

14.根据权利要求1所述的信息处理装置，其特征在于，

在用户描绘出预先设定的形状时，所述识别机构识别为是所述手势。

15.根据权利要求14所述的信息处理装置，其特征在于，

所述预先设定的形状为表示密闭空间的形状。

16.根据权利要求15所述的信息处理装置，其特征在于，

所述识别机构将表示预先设定的大小以下的密闭空间的形状识别为是所述手势。

17.根据权利要求1所述的信息处理装置，其特征在于，

从描绘操作中进行所述识别机构进行的所述手势的识别及所述提取机构进行的所述图形种类的提取。

18.根据权利要求17所述的信息处理装置，其特征在于，

从一笔完成的描绘操作中进行所述识别机构进行的所述手势的识别及所述提取机构进行的所述图形种类的提取。

19.根据权利要求18所述的信息处理装置，其特征在于，

所述提取机构将所述手势的描绘操作以外的部分视为所述图形。

20.一种信息处理系统，其具备：

显示装置，以用户的描绘操作为基础显示图像；及

信息处理装置，以描绘操作为基础制作出用所述显示装置显示的图像的显示信息，

所述信息处理装置具备：

提取机构，自进行了所述手势时起追溯到过去而提取用户描绘出的图形种类；

处理机构，进行基于所提取的所述图形种类的处理。