CN107430856B - 信息处理系统和信息处理方法 - Google Patents

信息处理系统和信息处理方法 Download PDF

Info

Publication number
CN107430856B
CN107430856B CN201580077946.0A CN201580077946A CN107430856B CN 107430856 B CN107430856 B CN 107430856B CN 201580077946 A CN201580077946 A CN 201580077946A CN 107430856 B CN107430856 B CN 107430856B
Authority
CN
China
Prior art keywords
voice recognition
section
user
output
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201580077946.0A
Other languages
English (en)
Other versions
CN107430856A (zh
Inventor
河野真一
泷祐平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN107430856A publication Critical patent/CN107430856A/zh
Application granted granted Critical
Publication of CN107430856B publication Critical patent/CN107430856B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/041Digitisers, e.g. for touch screens or touch pads, characterised by the transducing means
    • G06F3/042Digitisers, e.g. for touch screens or touch pads, characterised by the transducing means by opto-electronic means
    • G06F3/0425Digitisers, e.g. for touch screens or touch pads, characterised by the transducing means by opto-electronic means using a single imaging device like a video camera for tracking the absolute position of a single or a plurality of objects with respect to an imaged reference surface, e.g. video camera imaging a display or a projection screen, a table or a wall surface, on which a computer generated image is displayed or projected
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/04817Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance using icons
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

[问题]为了提供使用户容易地指定是否继续对声音信息的语音识别的特征。[解决方案]提供了一种信息处理系统,该信息处理系统配备有:识别控制单元,用于控制语音识别单元使得语音识别单元针对通过声音采集单元输入的声音信息执行语音识别。识别控制单元基于在预定时间点处检测到的来自用户的姿势来控制是否继续语音识别。

Description

信息处理系统和信息处理方法
技术领域
本公开内容涉及信息处理系统和信息处理方法。
背景技术
近年来,已知有用于对通过麦克风采集的声音信息执行语音识别处理以获得语音识别处理的识别结果的技术。语音识别处理的识别结果以用户可以感知的模式输出。在一个示例中,可以通过将由用户输入开始操作的事件设置为触发事件来开始对通过麦克风采集的声音信息的语音识别处理(参见例如专利文献1)。
引用列表
专利文献
专利文献1:JP 2004-094077A
发明内容
技术问题
关于这一点,即使当对通过麦克风采集的声音信息的语音识别处理暂时停止时,也能想象到用户可能希望继续对声音信息进行语音识别处理。因此,需要提供能够使用户容易地提供关于是否继续对声音信息进行语音识别处理的指示的技术。
问题的解决方案
根据本公开内容,提供了一种信息处理系统,该信息处理系统包括:识别控制部,其被配置成控制语音识别部以使得语音识别部对从声音采集部输入的声音信息执行语音识别处理。识别控制部基于在预定时间点处检测到的用户姿势来控制是否继续语音识别处理。
根据本公开内容,提供了一种信息处理方法,该信息处理方法包括:控制语音识别部以使得语音识别部对从声音采集部输入的声音信息执行语音识别处理。该控制包括:通过处理器基于在预定时间点处检测到的用户姿势来控制是否继续语音识别处理。
本发明的有益效果
根据如上所述的本公开内容,提供了能够使用户容易地提供关于是否继续对声音信息的语音识别处理的指示的技术。注意,上述效果不必需是限制性的。连同或替代上述效果,还可以实现在本说明书中描述的效果中的任何一种效果或者从本说明书领会的其他效果。
附图说明
[图1]图1是示出了用于描述典型系统中的语音识别处理的图。
[图2]图2是示出了根据本公开内容的实施方式的信息处理系统的配置示例的图。
[图3]图3是示出了根据本公开内容的实施方式的信息处理系统的功能配置示例的框图。
[图4]图4是示出了从显示初始画面到检测到语音识别处理的激活触发事件的画面转换的示例的图。
[图5]图5是示出了用于描述在用户想要进行语音识别处理的所有话语内容的说出完成之后开始静音状态的情况的图。
[图6]图6是示出了用于描述在用户想要进行语音识别处理的所有话语内容的说出完成之前开始静音状态的情况的图。
[图7]图7是示出了用于描述一致度超过阈值的情况的图。
[图8]图8是示出了用于描述一致度下降到低于阈值的情况的图。
[图9]图9是示出了一致度与阈值之间的关系的输出示例的图。
[图10]图10是示出了根据本公开内容的实施方式的信息处理系统的总体操作过程的流程图。
[图11]图11是示出了信息处理系统的配置的修改示例1的图。
[图12]图12是示出了信息处理系统的配置的修改示例2的图。
[图13]图13是示出了信息处理系统的配置的修改示例2的图。
[图14]图14是示出了信息处理系统的配置的修改示例2的图。
[图15]图15是示出了信息处理系统的配置的修改示例2的图。
[图16]图16是示出了信息处理系统的配置的修改示例3的图。
[图17]图17是示出了信息处理系统的配置的修改示例4的图。
[图18]图18是示出了信息处理系统的配置的修改示例4的图。
[图19]图19是示出了信息处理系统的配置的修改示例4的图。
[图20]图20是示出了信息处理系统的配置的修改示例4的图。
[图21]图21是示出了在三维空间的视场区域中显示运动对象的示例的图。
[图22]图22是示出了要叠加在虚拟图像上显示运动对象的示例的图。
[图23]图23是示出了用于描述在用户想要进行语音识别处理的所有话语内容的说出完成之后开始静音状态的情况的图。
[图24]图24是示出了用于描述在用户想要进行语音识别处理的所有话语内容的说出完成之前开始静音状态的情况的图。
[图25]图25是示出了用于描述在用户想要进行语音识别处理的所有话语内容的说出完成之后开始静音状态的情况的图。
[图26]图26是示出了用于描述在用户想要进行语音识别处理的所有话语内容的说出完成之前开始静音状态的情况的图。
[图27]图27是示出了信息处理系统的硬件配置示例的框图。
具体实施方式
在下文中,将参照附图来详细地描述本公开内容的(一个或更多个)优选实施方式。在本说明书和附图中,使用相同的附图标记来表示基本上具有相同功能和结构的结构元件,并且省略对这些结构元件的重复说明。
注意,在本说明书和附图中,有时使用相同附图标记之后的不同数字来相互区分基本上具有相同功能和结构的结构元件。然而,当不需要特别区分那些基本上具有相同功能和结构的结构元件时,只附上相同的附图标记。
此外,将按照以下顺序进行说明。
0.背景
1.本公开内容的实施方式
1.1.系统配置示例
1.2.功能配置示例
1.3.信息处理系统的功能细节
1.4.系统配置的修改示例
1.5.运动对象的显示模式
1.6.用户姿势的修改示例
1.7.硬件配置示例
2.结论
<0.背景>
现在参照附图来描述本公开内容的实施方式的背景。图1是示出了用于描述典型系统中的语音识别处理的图。本文使用的术语“语音(speech)”(或语音(voice))和“声音”是不同的术语。此外,术语“话语”指示用户正在说话的状态,以及术语“静音”指示采集到具有低于阈值的音量的声音信息的状态。
如图1所示,可能存在用户输入选择用于开始语音识别处理的语音识别开始操作对象G14的操作的情况。在这种情况下,典型系统(以下还简称为“系统”)检测这样的操作作为用于激活语音识别处理的触发事件并且显示声音采集开始画面G91(时间T91)。在显示声音采集开始画面G91时,用户开始说出话语(时间T92),并且系统通过麦克风采集声音并且对采集的声音信息执行语音识别处理(S91)。
当话语部分Ha结束时(时间T93),静音状态开始。然后,可能存在检测部分Ma(以下还称为“静音部分”)的情况,在部分Ma中,通过麦克风采集的声音信息的音量持续下降到低于参考声音音量的持续时间达到预定目标时间(时间T94)。在这种情况下,基于对在话语部分Ha期间采集的声音信息执行的语音识别处理的结果来执行预定的执行操作(S92)。
关于这一点,基于语音识别处理的结果的执行操作不限于特定的操作。基于语音识别处理的结果的执行操作的示例包括:输出与作为语音识别处理的结果的字符串相对应的搜索结果的操作,输出作为语音识别处理的结果的字符串的操作,输出在语音识别处理期间获得的处理结果候选项的操作,以及输出用于对从语音识别处理的结果的字符串中提取的话语内容进行回应的字符串的操作。
关于这一点,从作为语音识别处理的结果的字符串中提取话语内容的技术不限于特定的技术。在一个示例中,从作为语音识别处理的结果的字符串中提取话语内容的技术可以通过对所获得的作为语音识别处理的结果的字符串执行自然语言处理(例如语言分析和语义分析)来提取话语内容。
在执行操作的处理期间,系统显示指示执行操作正在进行的画面G92。然后,当执行操作结束时(时间T95),系统显示示出执行操作的结果的画面G93。在图1所示的示例中,示出执行操作的结果的画面G93包括“eri”、“seri”和“keri”作为与作为语音识别处理的结果的字符串相对应的搜索结果。
如上所述,在典型系统中,检测到静音部分将暂时停止对通过麦克风采集的语音信息进行语音识别处理。因此,在用户在说出话语的同时思考要说出的内容的情况下,当用户停止说话以思考要说出的内容的时间段将被检测为静音部分。因此,仅至用户想要的话语内容的中间最可能为语音识别处理的目标。
此外,用户在说出话语的时候可能会忘记话语内容,并且可能去做另一个不说话的工作(例如可能在驾驶车辆期间陷入紧急情况)。因此,由于这个原因,期间停止话语的时间段将被检测为静音部分,并且因此仅至用户想要的话语内容的中间最可能为语音识别处理的目标。
此外,在语音识别处理暂时停止而基于语音识别处理的结果的执行操作开始的情况下,即使当语音识别处理恢复时开始后续的话语,也很可能无法将后续的话语并入之前开始的执行操作。此外,当用户在观看执行操作的结果的同时等待执行操作的结束以继续后续的话语时,用户很可能忘记后续的话语内容并且很可能忘记用户正在思考的内容,这导致失去机会。
此外,尽管可以想象通过在中断话语之后说出不需要的话语来避免检测到静音部分,但是这将很可能对不需要的话语执行语音识别处理。此外,对不需要的话语执行语音识别处理将导致语音识别处理的结果受到在不需要的话语之后说出的要作为语音识别处理的目标的内容的影响。
如上所述,在典型系统中,当从通过麦克风采集的声音信息中检测到静音部分并且暂时停止对声音信息进行语音识别处理时,可能很难再继续进行语音识别处理。因此,本公开内容提供能够使用户容易地提供关于是否继续对通过麦克风采集的声音信息进行语音识别处理的指示的技术。
以上描述了本公开内容的实施方式的背景。
<1.本公开内容的实施方式>
[1.1.系统配置示例]
接下来,将参照附图来描述根据本公开内容的实施方式的信息处理系统10的配置示例。图2是示出了根据本公开内容的实施方式的信息处理系统10的配置示例的图。如图2所示,根据本公开内容的实施方式的信息处理系统10被配置成包括图像输入部110、操作输入部115、声音采集部120以及输出部130。信息处理系统10能够对用户U(以下还简称为“用户”)说出的语音执行语音识别处理。
图像输入部110具有输入图像的功能。在图2所示的示例中,图像输入部110包括嵌在桌子Tb1中的两个摄像机。然而,包括在图像输入部110中的摄像机的数量不限于特定的数量,只要该数量为一个或更多个即可。在这样的情况下,包括在图像输入部110中的一个或更多个摄像机中的每个摄像机被设置的位置也不限于特定的位置。此外,一个或更多个摄像机可以包括单眼摄像机或立体摄像机。
操作输入部115具有输入用户U的操作的功能。在图2所示的示例中,操作输入部115包括一个从桌子Tb1上方的天花板悬挂的摄像机。然而,包括在操作输入部115中的摄像机被设置的位置不限于特定的位置。此外,摄像机可以包括单眼摄像机或立体摄像机。此外,操作输入部115可以是除摄像机之外的任何事物,只要它具有输入用户U的操作的功能即可,并且可以是例如触摸板或硬件按键。
输出部130具有将画面显示在桌子Tb1上的功能。在图2所示的示例中,输出部130从在桌子Tb1上方的天花板上悬挂下来。然而,输出部130被设置的位置不限于特定的位置。此外,输出部130通常可以是能够将画面投影到桌子Tb1的上表面的投影仪,但是也可以是其他类型的显示器,只要它具有显示画面的功能即可。
此外,尽管本文主要描述的是桌子Tb1的上表面为画面的显示表面的情况,但是画面的显示表面可以不同于桌子Tb1的上表面。画面的显示表面的示例可以包括墙、建筑物、地板表面、地面或天花板。或者,画面的显示表面可以是例如幕布褶皱的非平面表面或可以是在其他位置处的表面。此外,当输出部130具有自己的显示表面时,画面的显示表面可以是输出部130的显示表面。
声音采集部120具有采集声音的功能。在图2所示的示例中,声音采集部120包括总共六个麦克风,即在桌子Tb1上方的三个麦克风以及在桌子Tb1顶部的三个麦克风。然而,包括在声音采集部120中的麦克风的数量不限于特定的数量,只要该数量为一个或更多个即可。在这样的情况下,包括在声音采集部120中的一个或更多个麦克风中的每个麦克风被设置的位置也不限于特定的位置。
然而,包括多个麦克风的声音采集部120使得能够基于通过多个麦克风中的每个麦克风采集的声音信息来估计声音的到达方向。此外,当声音采集部120包括指向性麦克风时,可以基于通过指向性麦克风采集的声音信息来估计声音的到达方向。
以上描述给出了根据本公开内容的实施方式的信息处理系统10的配置示例。
[1.2.功能配置示例]
接下来,描述根据本公开内容的实施方式的信息处理系统10的功能配置示例。图3是示出了根据本公开内容的实施方式的信息处理系统10的功能配置示例的框图。如图3所示,根据本公开内容的实施方式的信息处理系统10被配置成包括图像输入部110、操作输入部115、声音采集部120、输出部130以及信息处理设备140(以下还称为“控制器140”)。
信息处理设备140执行对信息处理系统10的每个部件的控制。在一个示例中,信息处理设备140生成要从输出部130输出的信息。此外,在一个示例中,信息处理设备140将由图像输入部110、操作输入部115和声音采集部120中的每一个输入的信息并入要从输出部130输出的信息中。如图3所示,信息处理设备140被配置成包括输入图像获取部141、声音信息获取部142、操作检测部143、识别控制部144、语音识别部145以及输出控制部146。稍后将描述这些功能块中的每一个功能块的细节。
此外,信息处理设备140可以由例如中央处理单元(CPU)构成。当信息处理设备140由诸如CPU之类的处理设备构成的情况下,该处理设备可以由电子电路构成。
上述说明给出了根据本公开内容的实施方式的信息处理系统10的功能配置示例。
[1.3.信息处理系统的功能细节]
接下来,详细描述根据本公开内容的实施方式的信息处理系统10的功能。在本公开内容的实施方式中,识别控制部144控制语音识别部145以使得语音识别部145对从声音采集部120输入的声音信息执行语音识别处理。识别控制部144基于在预定时间点处检测到的用户姿势来控制是否继续语音识别处理。
这样的配置使得用户可以容易地提供关于是否继续对声音信息进行语音识别处理的指示。用于对是否继续语音识别处理执行控制的参数不限于特定的参数。下面描述识别控制部144基于用户视线来控制是否继续语音识别处理的示例。检测用户视线的技术不限于特定的技术。在一个示例中,操作检测部143可以通过分析由操作输入部115输入的图像来检测用户视线。可以将视点计算为视线与屏幕的交点。
图4是示出了从显示初始画面到检测到语音识别处理的激活触发事件的画面转换的示例的图。参照图4,输出控制部146显示初始画面G10-1。初始画面G10-1包括用于开始语音识别处理的语音识别开始操作对象G14和识别字符串显示区域G11,该识别字符串显示区域G11是通过语音识别处理获得的字符串(还称为“识别字符串”)的显示区域。
此外,初始画面G10-1包括用于删除所有识别字符串的删除所有操作对象G12和用于删除识别字符串的决定操作对象G13。此外,初始画面G10-1包括向后移动操作对象G15、向前移动操作对象G16以及删除操作对象G17。向后移动操作对象G15用于将识别字符串中的光标位置向后返回,向前移动操作对象G16用于将识别字符串中的光标位置向前提前,并且删除操作对象G17用于删除光标位置处的字符或词。
首先,如在初始画面G10-2中示出的那样,当用户通过操作输入部115输入选择语音识别开始操作对象G14的操作时,该操作被操作检测部143检测为语音识别处理的激活触发事件(时间T10)。当检测到语音识别处理的激活触发事件时,输出控制部146激活声音采集部120的声音采集功能。此外,本文中将选择语音识别开始操作对象G14的操作作为语音识别处理的激活触发事件被描述为示例,但是语音识别处理的激活触发事件不限于该示例。
在一个示例中,语音识别处理的激活触发事件可以是按压用于激活语音识别处理的硬件按键的操作。在这种情况下,语音识别处理可以在从按压硬件按键到释放该按压(按压以进行讲话(Pushto Talk))的时段期间开始。替选地,语音识别处理的激活触发事件可以是对语音识别处理开始命令(例如话语,“说话”)的执行。
替选地,语音识别处理的激活触发事件可以是预定语音识别处理的激活姿势(例如向上挥手、向下挥手、脸部的运动(例如点头和将脸部向左倾斜或向右倾斜))。此外,语音识别处理的激活触发事件可以包括如下事件:声音采集部120获取具有超过阈值的语音相似度的声音信息。随后,用户开始向声音采集部120说出话语。现在参照图5来描述在用户想要进行语音识别处理的所有话语内容的说出完成之后开始静音状态的情况。
当声音信息获取部142获取通过声音采集部120采集的声音信息时,输出控制部146使预定对象(以下还称为“显示对象”)Mu如图5所示的那样被显示。显示对象Mu可以是静态的或者可以具有运动。在一个示例中,在显示对象Mu具有运动的情况下,可以取决于从用户说出的语音的声音源到声音采集部120的到达方向来确定显示对象Mu的移动方向De。此外,估计用户说出的语音的到达方向的技术不限于特定的技术。
在一个示例中,识别控制部144可以将与执行选择语音识别开始操作对象G14的操作的用户的手指方向(例如从手指根部到手指尖的方向)相同或相似的一个到达方向估计为用户说出的语音的到达方向。可以预先确定相似度的范围。此外,可以通过分析输入图像来获取手指方向。
替选地,识别控制部144可以将通过声音采集部120输入的声音的到达方向估计为用户说出的语音的到达方向。在存在多个声音到达方向的情况下,可以将多个到达方向中的最早输入的声音的到达方向估计为用户说出的语音的到达方向。替选地,可以将与执行选择语音识别开始操作对象G14的操作的用户的手指方向相同或相似的一个到达方向估计为用户说出的语音的到达方向。
替选地,识别控制部144可以将通过声音采集部120输入的多个到达方向中的具有最大声音音量的声音的到达方向估计为用户说出的语音的到达方向。以这种方法,可以估计用户说出的语音的到达方向。另一方面,识别控制部144可以获取由声音采集部120从除了用户说出的语音的到达方向以外的方向输入的声音作为噪声。因此,噪声还可以包括从信息处理系统10输出的声音。
此外,图5示出了输出控制部146沿用户说出的语音的到达方向(移动方向De)移动显示对象Mu的示例。这使得用户可以直观地了解用户自己说出的语音被声音采集部120采集。然而,显示对象Mu的运动不限于这样的运动。此外,图5示出了显示对象Mu的目的地是语音识别开始操作对象G14的示例。然而,显示对象Mu的目的地不限于该示例。
此外,图5示出了输出控制部146取决于通过声音采集部120进行的声音采集来移动依次出现的圆形显示对象Mu的示例,但是显示对象Mu的显示形式不限于该示例。在一个示例中,输出控制部146可以基于与声音信息相对应的预定信息(例如声音信息的语音相似度和声音音量)来控制显示对象Mu的各种参数。在这种情况下使用的声音信息可以是来自用户说出的语音的到达方向的声音信息。此外,显示对象Mu的参数可以包括显示对象Mu的形状、透明度、颜色、尺寸以及运动中的至少一个。
根据声音信息评估语音相似度的技术不限于特定的技术。在一个示例中,作为根据声音信息评估语音相似度的技术,还可以采用在专利文献(JP2010-038943A)中公开的技术。此外,在一个示例中,作为根据声音信息评估语音相似度的技术,还可以采用在专利文献(JP2007-328228A)中公开的技术。本文将描述输出控制部146评估语音相似度的示例,但是服务器(未示出)可以评估语音相似度。
随后,识别控制部144使语音识别部145开始对通过声音信息获取部142获取的声音信息进行语音识别处理。开始语音识别处理的时间点不限于特定的时间点。在一个示例中,识别控制部144可以在采集到具有超过预定阈值的语音相似度的声音信息之后使语音识别部145开始语音识别处理。替选地,识别控制部144可以在显示对象Mu到达语音识别开始操作对象G14之后使语音识别部145开始对与显示对象Mu相对应的声音信息进行语音识别处理。
在这里,如图5所示,在用户想要进行语音识别处理的所有话语内容的说出完成(时间T11)之后静音状态保持不变的情况下,识别控制部144检测静音部分(时间T12)。然后,当检测到静音部分时,输出控制部146使输出部130输出运动对象(时间T13)。在图5所示的示例中,尽管输出控制部146使具有运动的语音识别开始操作对象G14被输出为运动对象,但是也可以与语音识别开始操作对象G14分离地设置运动对象。
随后,识别控制部144基于用户视点和运动对象G14来控制是否继续进行语音识别处理。更具体地,识别控制部144基于用户视点与运动对象G14之间的一致度来控制是否继续语音识别处理。稍后将详细描述一致度。在这里,用户想要进行语音识别处理的所有话语内容的说出完成,因此用户可以不需要保持观看运动对象G14。
如果用户不保持观看运动对象G14,则运动对象的轨迹K10与用户视点的轨迹K20之间的一致度下降到低于阈值。因此,当二者之间的一致度在预定时间点处下降到低于阈值时,识别控制部144控制语音识别部145使得语音识别部145基于语音识别处理的结果来执行执行操作(时间T15)。预定时间点不限于特定的时间点,只要是在由输出部130输出运动对象G14之后的时间点即可。
随后,语音识别部145在识别控制部144的控制下基于语音识别处理的结果来执行执行操作(时间T16)。在这种情况下,在基于语音识别处理的结果来执行执行操作的同时,输出控制部146可以使用于指示等待语音输入直至执行操作完成的对象G22被输出。当执行操作完成时,输出控制部146可以使执行操作的结果被输出。
随后,参照图6来描述在用户想要进行语音识别处理的所有话语内容的说出完成之前开始静音状态的情况。首先,当声音信息获取部142获取通过声音采集部120采集的声音信息时,输出控制部146使得显示对象Mu如图6所示的那样被显示。以上已描述了显示对象Mu。随后,识别控制部144使语音识别部145开始对通过声音信息获取部142获取的声音信息进行语音识别处理。如上所述,开始语音识别处理的时间点不限于特定时间点。
在这里,如图6所示,当在用户想要进行语音识别处理的所有话语内容的说出完成之前静音状态保持不变时,识别控制部144检测到静音部分(时间T12)。然后,在检测到静音部分的情况下,输出控制部146使输出部130输出运动对象(时间T13)。在如图6所示的示例中,尽管输出控制部146使具有运动的语音识别开始操作对象G14被输出为运动对象,但是也可以与语音识别开始操作对象G14分离地设置运动对象。
随后,识别控制部144基于用户视点和运动对象G14来控制是否继续语音识别处理。更具体地,识别控制部144基于用户视点与运动对象G14之间的一致度来控制是否继续语音识别处理。在这种情况下,用户想要进行语音识别处理的所有话语内容并未完成,因此用户需要保持观看运动对象G14。
当用户保持观看运动对象G14时,运动对象的轨迹K10与用户视点的轨迹K21之间的一致度超过阈值。因此,在二者之间的一致度在预定时间点处超过阈值的情况下,识别控制部144可以控制语音识别部145使得语音识别部145继续语音识别处理(时间T15)。预定时间点不限于特定的时间点,只要是在由输出部130输出运动对象G14之后时间点即可。
随后,语音识别部145在识别控制部144的控制下继续对从声音采集部120输入的声音信息的语音识别处理(时间T16)。这使得能够恢复暂时停止的语音识别处理。此外,当通过声音采集部120采集的声音信息开始被声音信息获取部142再次获取时,输出控制部146可以使显示对象Mu如图6所示的那样被再次显示。
此外,当预定时间点到来时,还可以设想自动开始基于语音识别处理的结果的执行操作。为了处理这样的情况,语音识别部145可以开始进行与先前激活的语音识别处理不同的附加语音识别处理,并且可以将通过各个语音识别处理获得的两个结果合并。替选地,语音识别部145可以缓冲语音识别处理,然后,当可以开始语音识别处理时,语音识别部145可以基于缓冲的声音信息以及从声音采集部120输入的声音信息来执行语音识别处理。
现在参照图7和图8来更详细地描述用户视点与运动对象G14之间的一致度。图7是示出了用于描述一致度超过阈值的情况的图。如图7所示,假定运动对象的轨迹K10对应于确定区R10。在图7所示的示例中,确定区R10是具有基于作为参考的运动对象的轨迹K10的宽度W10的区,但是确定区R10不限于这样的区。
然后,识别控制部144可以计算确定区R10内的用户视点的轨迹K20的长度与用户视点的轨迹K20的总长度的比值作为一致度。在图7所示的示例中,以这种方式计算的一致度超过阈值,因此识别控制部144可以控制语音识别部145使得语音识别部145继续语音识别处理。然而,计算运动对象的轨迹K10与用户视点的轨迹K21之间的一致度的技术不限于该示例。
另一方面,图8是示出了用于描述一致度下降到低于阈值的情况的图。在图8所示的示例中,如上所述计算出的一致度下降到低于阈值,因此识别控制部144控制语音识别部145使得语音识别部145基于语音识别处理的结果来执行执行操作。此外,在一致度等于阈值的情况下,识别控制部144可以控制语音识别部145使得语音识别部145继续进行语音识别处理或基于语音识别处理的结果来执行执行操作。
此外,可以以用户可以感知的形式输出如上所述计算的一致度与阈值之间的关系。图9是示出了一致度与阈值之间的关系的输出的示例的图。如图9所示,在一致度超过阈值的情况下,输出控制部146可以使输出部130输出预定第一通知对象G41。在图9所示的示例中,第一通知对象G41是表示眼睛处于睁开的状态的图标,但是第一通知对象G41不限于这样的示例。
另一方面,如图9所示,当一致度降低到低于阈值时,输出控制部146可以使输出部130输出与第一通知对象G41不同的预定第二通知对象G42。在图9所示的示例中,第二通知对象G42是表示眼睛处于闭合的状态的图标,但是第二通知对象G42不限于这样的示例。此外,当一致度下降到低于阈值的状态持续超过预定时间时,输出控制部146可以停止输出运动对象G14。
随后,参照图10来描述根据本公开内容的实施方式的信息处理系统10的总体操作过程。此外,图10的流程图仅是根据本公开内容的实施方式的信息处理系统10的总体操作过程的示例。因此,根据本公开内容的实施方式的信息处理系统10的总体操作过程不限于图10的流程图中所示的示例。
首先,如图10所示,操作检测部143检测语音识别处理的激活触发事件(S11)。当从输入自声音采集部120的声音信息中检测话语时(S12),识别控制部144使语音识别部145开始对声音信息的语音识别处理(S13)。随后,识别控制部144使语音识别处理继续直至检测到静音部分(S14中为“否”),而当检测到静音部分时(S14中为“是”),识别控制部144暂时停止语音识别处理并且输出控制部146使运动对象被显示(S15)。
然后,识别控制部144获取用户视点的轨迹K20(S16)并且计算运动对象的轨迹K10与用户视点的轨迹K20之间的一致度r(S17)。在要继续的确定的时间点未到来时(S18中为“否”),识别控制部144将操作转移至S15。然而,在要继续的确定的时间点到来的情况下(S18中为“是”),识别控制部144将操作转移至S19。
随后,在一致度r超过阈值r_threshold的情况下(S19中为“是”),识别控制部144使语音识别处理继续(S13)。另一方面,在一致度r未超过阈值r_threshold的情况下(S19中为“否”),识别控制部144将操作转移至基于语音识别处理的结果的执行操作(S20)并且获取执行操作的结果(S21)。
以上描述了根据本公开内容的实施方式的信息处理系统10的功能细节。
[1.4.系统配置的修改示例]
在上文中,描述了输出部130是能够将画面投影到桌子Tb1的上表面的投影仪的示例。然而,信息处理系统10的系统配置不限于该示例。下面描述信息处理系统10的系统配置的修改示例。图11是示出了信息处理系统10的配置的修改示例1的图。如图11所示,在信息处理系统10是移动终端的情况下,输出部130可以被设置在移动终端中。移动终端的类型不限于特定的类型,移动终端的类型可以是平板电脑终端、智能电话或移动电话。
此外,图12至图15是示出了信息处理系统10的配置的修改示例2的图。如图12至图15所示,输出部130是电视机,信息处理设备140是游戏控制台,并且操作输入部115可以是用于操作游戏控制台的控制器。
此外,如图12所示,声音采集部120和输出部130可以连接至操作输入部115。此外,如图13所示,图像输入部110和声音采集部120可以连接至信息处理设备140。此外,如图14所示,可以将操作输入部115、声音采集部120和输出部130设置在连接至信息处理设备140的智能电话中。此外,如图15所示,可以将声音采集部120设置在电视机中。
此外,图16是示出了信息处理系统10的配置的修改示例3的图。如图16所示,信息处理设备140是游戏控制台,并且操作输入部115可以是用于操作游戏控制台的控制器。此外,如图16所示,可以将输出部130、声音采集部120和图像输入部110设置在佩戴于用户头部的可穿戴设备中。
图17至图20是示出了信息处理系统10的配置的修改示例4的图。如图17所示,可以将信息处理系统10安装在可附接至汽车的车载导航系统中,并且可以由驾驶汽车的用户U来使用。此外,如图18所示,可以将信息处理系统10安装在移动终端中,并且可以由驾驶汽车的用户U来使用。如上所述,移动终端的类型不限于特定的类型。
此外,如图19所示,可以将信息处理系统10的操作输入部115设置在移动终端中。可以将信息处理系统10的输出部130、声音采集部120以及图像输入部110设置在佩戴于用户U的身体上的可穿戴设备中。此外,如图20所示,可以将信息处理系统10安装在并入汽车的车载导航系统中,并且可以由驾驶汽车的用户U来使用。
[1.5.运动对象的显示模式]
在上文中,描述了运动对象G14的显示。在这里,运动对象G14的显示模式不限于特定的模式。图21是示出了在三维空间的视场区域中显示运动对象G14的示例的图。在一个示例中,如图21所示,在输出部130是透视头戴式显示器的情况下,输出部130可以在三维空间Re的视场区域Vi中显示运动对象G14。此外,图21示出了运动对象的轨迹K10。可以通过保持观看以该方式显示的运动对象G14来继续语音识别处理。
图22是示出了要叠加在虚拟图像上显示的运动对象G14的示例的图。在一个示例中,如图22所示,在输出部130是电视机的情况下,输出部130可以将运动对象G14叠加在诸如游戏画面之类的虚拟图像上并且显示运动对象G14。此外,图21示出了运动对象的轨迹K10。可以通过保持观看以这种方式显示的运动对象G14来继续语音识别处理。此外,除了电视机,还可以使用佩戴于用户头部的可穿戴设备等。
[1.6.用户姿势的修改示例]
在上文中,描述了识别控制部144基于用户视线来控制是否继续语音识别处理的示例。然而,控制是否继续语音识别处理的示例不限于该示例。在一个示例中,识别控制部144可以基于用户头部的倾斜来控制是否继续语音识别处理。参照图23至图24来描述这样的示例。
此外,在如图23和图24所示的示例中,用户佩戴包括能够检测头部倾斜的传感器(例如加速度传感器)的操作输入部115。此外,用户可以佩戴如图23和图24所示的声音采集部120。现在参照图23来描述在用户想要进行语音识别处理的所有话语内容的说出完成之后开始静音状态的情况。
当检测到语音识别处理的激活触发事件时,输出控制部146激活声音采集部120的声音采集功能。当声音信息获取部142获取通过声音采集部120采集的声音信息时,输出控制部146使显示对象Mu如图23所示的那样被显示。然后,识别控制部144使语音识别部145开始对通过声音信息获取部142获取的声音信息的语音识别处理。
在这里,如图23所示,在用户想要进行语音识别处理的所有话语内容的说出完成(时间T11)并且静音状态保持不变的情况下,识别控制部144检测静音部分(时间T12)。然后,当检测到静音部分时,在头部沿预定方向(例如向上)倾斜的情况下,输出控制部146使输出部130输出指示可以继续语音识别处理的对象(例如语音识别开始操作对象G14)(时间T13)。
随后,识别控制部144基于用户头部的倾斜来控制是否继续语音识别处理。在这种情况下,用户想要进行语音识别处理的所有话语内容的说出完成,因此用户不需要倾斜用户自己的头部。如果用户未倾斜头部,则用户头部的倾斜下降到低于预定参考值。因此,如果用户头部的倾斜在预定时间点处下降到低于参考值,则识别控制部144控制语音识别部145使得语音识别部145基于语音识别处理的结果来执行预定的执行操作。预定时间点不限于特定的时间点,只要检测到静音部分即可。
随后,语音识别部145在识别控制部144的控制下基于语音识别处理的结果来执行执行操作(时间T16)。在这种情况下,在基于语音识别处理的结果来执行执行操作期间,输出控制部146可以使用于指示暂停语音输入直至执行操作完成的对象G22被输出。当执行操作完成时,输出控制部146可以使执行操作的结果被输出。
接下来,参照图24来描述在用户想要进行语音识别处理的所有话语内容的说出完成之前开始静音状态的情况。当声音信息获取部142获取通过声音采集部120采集的声音信息时,输出控制部146使显示对象Mu如图24所示的那样被显示。随后,识别控制部144使语音识别部145开始对通过声音信息获取部142获取的声音信息的语音识别处理。
在这里,如图24所示,在用户想要进行语音识别处理的所有话语内容的说出完成之前开始静音状态的情况下,识别控制部144检测静音部分(时间T12)。然后,当检测到静音部分时,在头部沿预定方向(例如向上)倾斜的情况下,输出控制部146使输出部130输出指示可以继续语音识别处理的对象(例如语音识别开始操作对象G14)(时间T13)。
随后,识别控制部144基于用户头部的倾斜来控制是否继续语音识别处理。在这种情况下,用户想要进行语音识别处理的所有话语内容并未完成,因此用户需要沿预定方向倾斜自己的头部。如果用户倾斜头部,则用户头部的倾斜超过预定参考值。因此,在用户头部的倾斜在预定时间点处超过参考值的情况下,识别控制部144可以控制语音识别部145使得语音识别部145继续语音识别处理。预定时间点不限于特定的时间点,只要检测到静音部分即可。
随后,语音识别部145在识别控制部144的控制下继续对从声音采集部120输入的声音信息的语音识别处理(时间T16)。这使得能够恢复暂时停止的语音识别处理。此外,当通过声音采集部120采集的声音信息开始被声音信息获取部142再次获取时,输出控制部146可以如图24所示那样再次开始显示显示对象Mu。在头部倾斜等于阈值的情况下,识别控制部144可以控制语音识别部145使得语音识别部145继续语音识别处理或基于语音识别处理的结果来执行执行操作。
在上文中,作为基于用户姿势来控制是否继续语音识别处理的示例,描述了基于用户头部的倾斜来控制是否继续语音识别处理的示例。在这里,作为另一示例,识别控制部144可以基于用户头部的运动来控制是否继续语音识别处理。参照图25至图26来描述这样的示例。
在如图25和图26所示的示例中,用户佩戴包括能够检测头部运动的传感器(例如陀螺仪传感器)的操作输入部115。此外,用户可以佩戴如图25和图26所示的声音采集部120。现在参照图25来描述在用户想要进行语音识别处理的所有话语内容的说出完成之后开始静音状态的情况。
当检测到语音识别处理的激活触发事件时,输出控制部146激活声音采集部120的声音采集功能。当声音信息获取部142获取通过声音采集部120采集的声音信息时,输出控制部146使显示对象Mu如图25所示那样被显示。随后,识别控制部144使语音识别部145开始对通过声音信息获取部142获取的声音信息的语音识别处理。
在这里,如图25所示,在用户想要进行语音识别处理的所有话语内容的说出完成(时间T11)之后静音状态保持不变的情况下,识别控制部144检测静音部分(时间T12)。然后,当检测到静音部分时,在用户沿预定方向(例如向右)转动头部的情况下,输出控制部146使输出部130输出指示可以继续语音识别处理的对象(例如语音识别开始操作对象G14)(时间T13)。
随后,识别控制部144基于用户头部的运动来控制是否继续语音识别处理。在这里,用户想要进行语音识别处理的所有话语内容的说出都完成了,因此用户不需要沿预定方向转动头部。如果用户未向右转动头部,则用户头部的运动不会指示预定运动(沿预定方向转动)。因此,在用户头部的运动未指示在预定时间点处的预定运动的情况下,识别控制部144可以控制语音识别部145使得语音识别部145基于语音识别处理的结果来执行预定的执行操作。预定时间点不限于特定的时间点,只要检测到静音部分即可。
随后,语音识别部145在识别控制部144的控制下基于语音识别处理的结果来执行执行操作(时间T16)。在这种情况下,在基于语音识别处理的结果来执行执行操作的期间,输出控制部146可以使用于指示暂停语音输入直至执行操作完成的对象G22被输出。当执行操作完成时,输出控制部146可以使执行操作的结果被输出。
接下来,参照图26来描述在用户想要进行语音识别处理的所有话语内容的说出完成之前开始静音状态的情况。当声音信息获取部142获取通过声音采集部120采集的声音信息时,输出控制部146使得显示对象Mu被如图26所示的那样被显示。随后,识别控制部144使语音识别部145开始对通过声音信息获取部142获取的声音信息的语音识别处理。
在这里,如图26所示,在用户想要进行语音识别处理的所有话语内容的说出完成之前静音状态保持不变的情况下,识别控制部144检测静音部分(时间T12)。然后,当检测到静音部分时,在用户沿预定方向(例如向右)转动头部的情况下,输出控制部146使输出部130输出指示可以继续进行语音识别处理的对象(例如语音识别开始操作对象G14)(时间T13)。
随后,识别控制部144基于用户头部的运动来控制是否继续语音识别处理。在这里,用户想要进行语音识别处理的所有话语内容并未完成,因此用户需要沿预定方向转动自己的头部。如果用户沿预定方向转动头部,则用户头部的运动指示预定运动(沿预定方向转动)。因此,在用户头部的运动指示在预定时间点处的预定运动的情况下,识别控制部144可以控制语音识别部145使得语音识别部145继续语音识别处理。预定时间点不限于特定的时间点,只要检测到静音部分即可。
随后,语音识别部145在识别控制部144的控制下继续对从声音采集部120输入的声音信息的语音识别处理(时间T16)。这使得暂时停止的语音识别处理得到恢复。此外,当通过声音采集部120采集的声音信息开始被声音信息获取部142再次获取时,输出控制部146可以开始再次如图26所示的那样显示显示对象Mu。
在上文中,作为基于用户姿势来控制是否继续语音识别处理的示例,描述了识别控制部144基于用户头部的运动来控制是否继续语音识别处理的示例。
[1.7.硬件配置示例]
随后,参照图27来描述根据本公开内容的实施方式的信息处理系统10的硬件配置。图27是示出根据本公开内容的实施方式的信息处理系统10的硬件配置示例的框图。
如图27所示,信息处理系统10包括中央处理单元(CPU)901、只读存储器(ROM)903以及随机存取存储器(RAM)905。此外,信息处理系统10可以包括主机总线907、网桥909、外部总线911、接口913、输入设备915、输出设备917、存储设备919、驱动器921、连接端口923和通信设备925。如有需要,信息处理系统10还可以包括图像捕获设备933和传感器935。连同CPU 901或替代CPU 901,信息处理系统10可以具有被称为数字信号处理器(DSP)的处理电路或者专用集成电路(ASIC)。
CPU 901用作运算处理单元和控制单元,并且根据存储在ROM 903、RAM905、存储设备919或可移除存储介质927中的各种程序来控制信息处理系统10的总体操作或部分操作。ROM 903存储例如由CPU 901使用的程序和操作参数。RAM 905暂时存储在CPU 901的运行中使用的程序和在运行中适当改变的参数。CPU 901、ROM903和RAM905经由由诸如CPU总线之类的内部总线构成的主机总线907彼此连接。此外,主机总线907经由网桥909连接至诸如外围设备互连/接口(PCI)总线之类的外部总线911。
输入设备915是例如由用户操作的设备如鼠标、键盘、触摸板、按键、开关和操作杆。输入设备915可以包括用于检测用户语音的麦克风。输入设备915可以是例如使用红外线或其他无线电波的远程控制设备,或者可以是符合信息处理系统10的操作的诸如移动电话之类的外部连接设备929。输入设备915包括基于由用户输入的信息来生成输入信号并将该输入信号输出至CPU 901的输入控制电路。用户将各种数据输入至信息处理系统10并且指示信息处理系统10通过操作输入设备915来进行处理操作。此外,稍后将进行描述的图像捕获设备933还可以用作通过捕获用户的手或手指等的运动的输入设备。在这种情况下,可以根据手的运动或手指的朝向来确定指向位置。
输出设备917由能够将获取的信息视觉地或听觉地通知给用户的设备构成。输出设备917可以是诸如液晶显示器(LCD)、等离子显示板(PDP)、有机电致发光(EL)显示器、投影仪和全息显示设备之类的显示设备、诸如扬声器、头戴式耳机之类的音频输出设备以及打印机设备等。输出设备917将通过对信息处理系统10进行处理而获得的结果输出为诸如文本或图像之类的视频或者输出为诸如语音或声音之类的音频。此外,输出设备917可以包括例如用于照亮周围的灯。
存储设备919是被配置为信息处理系统10的存储部的示例的数据存储设备。存储设备919由例如诸如硬盘驱动(HDD)之类的磁性存储设备、半导体存储设备、光学存储设备、和磁光存储设备构成。存储设备919存储有由CPU 901执行的程序、各种数据、从外部获得的各种类型的数据等。
驱动器921是用于诸如磁盘、光盘、磁光盘、和半导体存储器之类的可移除记录介质927的读写器,并且可以并入信息处理系统10中或者从外部附接到信息处理系统10。驱动器921读取记录在加载的可移除存储介质927上的信息,并将该信息输出至RAM905。此外,驱动器921还向加载的可移除存储介质927中写入。
连接端口923是用于将设备直接连接至信息处理系统10的端口。连接端口923可以是例如通用串行总线(USB)端口、IEEE 1394端口、或小型计算机系统接口(SCSI)端口。此外,连接端口923可以是例如RS-232C端口、光学音频终端或高清晰度多媒体接口(HDMI,注册商标)端口。将外部连接设备929连接至连接端口923使得可以在信息处理系统10与外部连接设备929之间交换各种类型的数据。
通信设备925是例如由通信设备等构成的通信接口,其用于连接至通信网络931。通信设备925可以是例如用于有线或无线局域网(LAN)、蓝牙(注册商标)或无线USB(WUSB)的通信卡。此外,通信设备925可以是例如用于光学通信的路由器、用于非对称数字用户线(ADSL)的路由器或用于各种通信的调制解调器。通信设备925例如使用因特网或其他通信设备并使用诸如TCP/IP之类的预定协议来发送和接收信号等。此外,连接至通信设备925的通信网络931是通过有线或无线连接的网络,并且是例如因特网、家庭LAN、红外通信、无线电波通信、卫星通信等。
图像捕获设备933是通过使用诸如电荷耦合器件(CCD)或互补金属氧化物半导体(CMOS)之类的图像传感器以及诸如用于控制对象图像在图像传感器上的成像的镜头之类的各种构件来捕获真实空间并产生捕获图像的设备。图像捕获设备933可以捕获静态图像或运动图像。
传感器935是例如各种传感器如加速度传感器、陀螺仪传感器、地磁传感器、光学传感器和声音传感器。传感器935获取关于信息处理系统10的状态的信息例如信息处理系统10的壳体的姿态并且获取关于信息处理系统10的周围环境的信息例如信息处理系统10周围的亮度或噪声。传感器935还可以包括接收全球定位系统(GPS)信号并且测量设备的纬度、经度和高度的GPS传感器。
以上描述给出了信息处理系统10的硬件配置的示例。可以使用通用构件或者可以使用专用于每个部件的功能的硬件来配置以上所述部件中的每个部件。在实施时可以根据技术水平来适当地改变该配置。
<2.结论>
根据如上所述的本公开内容的实施方式,提供了一种信息处理系统10,该信息处理系统10包括:识别控制部144,其被配置成控制语音识别部145以使得语音识别部145对从声音采集部120输入的声音信息执行语音识别处理。识别控制部144基于在预定时间点检测到的用户姿势来控制是否继续语音识别处理。该配置使得用户可以容易地提供关于是否继续对声音信息的语音识别处理的指示。
此外,在如上所述的典型系统中,当从通过麦克风采集的声音信息中检测到静音部分并且暂时停止对声音信息的语音识别处理时,可能难以再次继续语音识别处理。另一方面,根据本公开内容的实施方式,即使从通过声音采集部120采集的声音信息中检测到静音部分并且暂时停止了对声音信息的语音识别处理时,也可以容易地通过用户姿势再次继续语音识别处理。
以上参照附图描述了本公开内容的(一个或更多个)优选实施方式,同时本公开内容不限于上述示例。本领域技术人员可以在所附权利要求的范围内找到各种改变和修改,并且应当理解,它们将自然地落入本公开内容的技术范围内。
在一个示例中,以上描述了信息处理系统10的系统配置示例和系统配置的修改示例,但是信息处理系统10的系统配置示例不限于这些示例。在一个示例中,除了头戴式显示器之外,输出部130还可以是设置在可穿戴终端(例如表和眼镜)中的显示器。此外,在一个示例中,输出部130可以是在医疗保健领域中使用的显示器。
此外,作为基于用户姿势来控制是否继续语音识别处理的示例,以上描述了基于用户的用户视线、用户头部的倾斜和用户头部的运动来控制是否继续语音识别处理的示例。然而,用户姿势不限于这样的示例。在一个示例中,用户姿势可以是用户的面部表情、用户嘴唇的动作、用户嘴唇的形状或眼睛的睁开和闭合状态。
此外,可以生成用于使并入计算机中的诸如CPU、ROM和RAM之类的硬件执行与如上所述的信息处理设备140的功能等同的功能的程序。此外,还可以提供其上记录有程序的计算机可读记录介质。
此外,输出控制部146生成用于将显示内容显示在输出部130上的显示控制信息并且将生成的显示控制信息输出至输出部130,从而输出控制部147可以控制输出部130使得输出部130显示要显示的内容。根据系统配置可以适当地改变显示控制信息的内容。
具体地,用于实现信息处理设备140的程序可以是例如网页应用。在这样的情况下,可以使用诸如超文本标记语言(HTML)、标准通用标记语言(SGML)和可扩展标记语言(XML)之类的标记语言来生成显示控制信息。
每个部件的位置不限于特定的位置,只要能够进行上述信息处理系统10的操作即可。在一个特定的示例中,可以将图像输入部110、操作输入部115、声音采集部120以及输出部130设置在与设置有信息处理设备140的设备不同的设备中,其经由网络进行连接。在这种情况下,信息处理设备140对应于例如诸如网页服务器或云服务器之类的服务器,而图像输入部110、操作输入部115、声音采集部120以及输出部130可以对应于经由网络连接至服务器的客户端。
此外,信息处理设备140中的所有部件不一定被包括在同一设备中。在一个示例中,可以将输入图像获取部141、声音信息获取部142、操作检测部143、识别控制部144、语音识别部145以及输出控制部146中的一些设置在不同于信息处理设备140的设备中。在一个示例中,可以将语音识别部145设置在不同于包括输入图像获取部141、声音信息采集部142、操作检测部143、识别控制部144以及输出控制部146的信息处理设备140的服务器中。
此外,在本说明书中描述的效果仅是说明性或示例性的效果,而不是限制性的。换言之,连同上述效果或替代上述效果,根据本公开内容的技术可以实现通过本说明书的描述对本领域技术人员而言明显的其他效果。
此外,本技术也可被配置为如下。
(1)
一种信息处理系统,包括:
识别控制部,被配置成控制语音识别部以使得所述语音识别部对从声音采集部输入的声音信息执行语音识别处理,
其中,所述识别控制部基于在预定时间点处检测到的用户的姿势来控制是否继续所述语音识别处理。
(2)
根据(1)所述的信息处理系统,
其中,所述识别控制部基于所述用户的视线来控制是否继续所述语音识别处理。
(3)
根据(2)所述的信息处理系统,
其中,所述识别控制部基于所述用户的视点和运动对象来控制是否继续所述语音识别处理。
(4)
根据(3)所述的信息处理系统,
其中,所述识别控制部基于所述用户的视点与所述运动对象之间的一致度来控制是否继续所述语音识别处理。
(5)
根据(4)所述的信息处理系统,
其中,在所述一致度超过阈值的情况下,所述识别控制部控制所述语音识别部以使得所述语音识别部继续所述语音识别处理。
(6)
根据(5)所述的信息处理系统,
其中,在所述一致度低于所述阈值的情况下,所述识别控制部控制所述语音识别部以使得所述语音识别部基于所述语音识别处理的结果来执行预定执行操作。
(7)
根据(4)至(6)中任一项所述的信息处理系统,还包括:
输出控制部,被配置成使输出部输出所述运动对象。
(8)
根据(7)所述的信息处理系统,
其中,在所述语音识别处理开始之后所述声音信息的音量持续并且低于参考音量的时长到达预定目标时间的情况下,所述输出控制部使所述输出部输出所述运动对象。
(9)
根据(7)或(8)所述的信息处理系统,
其中,所述预定时间点是在所述输出部输出所述运动对象之后的时间点。
(10)
根据(7)至(9)中任一项所述的信息处理系统,
其中,在所述一致度超过阈值的情况下,所述输出控制部使所述输出部输出预定第一通知对象。
(11)
根据(10)所述的信息处理系统,
其中,在所述一致度低于所述阈值的情况下,所述输出控制部使所述输出部输出与所述第一通知对象不同的预定第二通知对象。
(12)
根据(1)所述的信息处理系统,
其中,所述识别控制部基于所述用户的头部的倾斜来控制是否继续所述语音识别处理。
(13)
根据(12)所述的信息处理系统,
其中,在所述用户的头部的倾斜超过预定参考值的情况下,所述识别控制部控制所述语音识别部以使得所述语音识别部继续所述语音识别处理。
(14)
根据(13)所述的信息处理系统,
其中,在所述用户的头部的倾斜低于所述参考值的情况下,所述识别控制部控制所述语音识别部以使得所述语音识别部基于所述语音识别处理的结果来执行预定执行操作。
(15)
根据(1)所述的信息处理系统,
其中,所述识别控制部基于所述用户的头部的运动来控制是否继续所述语音识别处理。
(16)
根据(15)所述的信息处理系统,
其中,在所述用户的头部的运动指示预定运动的情况下,所述识别控制部控制所述语音识别部以使得所述语音识别部继续所述语音识别处理。
(17)
根据(16)所述的信息处理系统,
其中,在所述用户的头部的运动未指示所述预定运动的情况下,所述识别控制部控制所述语音识别部以使得所述语音识别部基于所述语音识别处理的结果来执行预定执行操作。
(18)
根据(1)至(17)中任一项所述的信息处理系统,
其中,在检测到所述语音识别处理的激活触发事件的情况下,所述识别控制部使所述语音识别部开始所述语音识别处理。
(19)
根据(6)所述的信息处理系统,
其中,所述执行操作包括以下操作中的至少一个操作:输出与所述语音识别处理的结果相对应的搜索结果的操作、输出所述语音识别处理的结果的操作、输出在所述语音识别处理期间获得的处理结果候选项的操作以及输出用于对从所述语音识别处理的结果中提取的话语内容进行回应的字符串的操作。
(20)
一种信息处理方法,包括:
控制语音识别部以使得所述语音识别部对从声音采集部输入的声音信息执行语音识别处理,
其中,所述控制包括:通过处理器基于在预定时间点处检测到的用户的姿势来控制是否继续所述语音识别处理。
附图标记列表
10 信息处理系统
110 图像输入部
115 操作输入部
120 声音采集部
130 输出部
140 信息处理设备(控制器)
141 输入图像获取部
142 声音信息获取部
143 操作检测部
144 识别控制部
145 语音识别部
146 输出控制部
G10 初始画面
G11 识别字符串显示区域
G12 删除所有操作对象
G13 决定操作对象
G14 语音识别开始操作对象(运动对象)
G15 向后移动操作对象
G16 向前移动操作对象
G17 删除操作对象
K10 运动对象的轨迹
K20、K21 用户视点的轨迹
G41 第一通知对象
G42 第二通知对象
r 一致度

Claims (16)

1.一种信息处理系统,包括:
识别控制部,被配置成控制语音识别部以使得所述语音识别部对从声音采集部输入的声音信息执行语音识别处理;和
输出控制部,被配置成使输出部输出运动对象,
其中,所述识别控制部基于在预定时间点处检测到的用户的姿势来控制是否继续所述语音识别处理,
其中,在所述语音识别处理开始之后所述声音信息的音量持续并且低于参考音量的时长到达预定目标时间的情况下,所述输出控制部使所述输出部输出所述运动对象,并且
其中,所述识别控制部基于所述用户的视点的轨迹和所述运动对象的轨迹来控制是否继续所述语音识别处理。
2.根据权利要求1所述的信息处理系统,
其中,所述识别控制部基于所述用户的视点与所述运动对象之间的一致度来控制是否继续所述语音识别处理。
3.根据权利要求2所述的信息处理系统,
其中,在所述一致度超过阈值的情况下,所述识别控制部控制所述语音识别部以使得所述语音识别部继续所述语音识别处理。
4.根据权利要求3所述的信息处理系统,
其中,在所述一致度低于所述阈值的情况下,所述识别控制部控制所述语音识别部以使得所述语音识别部基于所述语音识别处理的结果来执行预定执行操作。
5.根据权利要求2所述的信息处理系统,
其中,所述预定时间点是在所述输出部输出所述运动对象之后的时间点。
6.根据权利要求2所述的信息处理系统,
其中,在所述一致度超过阈值的情况下,所述输出控制部使所述输出部输出预定第一通知对象。
7.根据权利要求6所述的信息处理系统,
其中,在所述一致度低于所述阈值的情况下,所述输出控制部使所述输出部输出与所述第一通知对象不同的预定第二通知对象。
8.根据权利要求1所述的信息处理系统,
其中,所述识别控制部基于所述用户的头部的倾斜来控制是否继续所述语音识别处理。
9.根据权利要求8所述的信息处理系统,
其中,在所述用户的头部的倾斜超过预定参考值的情况下,所述识别控制部控制所述语音识别部以使得所述语音识别部继续所述语音识别处理。
10.根据权利要求9所述的信息处理系统,
其中,在所述用户的头部的倾斜低于所述参考值的情况下,所述识别控制部控制所述语音识别部以使得所述语音识别部基于所述语音识别处理的结果来执行预定执行操作。
11.根据权利要求1所述的信息处理系统,
其中,所述识别控制部基于所述用户的头部的运动来控制是否继续所述语音识别处理。
12.根据权利要求11所述的信息处理系统,
其中,在所述用户的头部的运动指示预定运动的情况下,所述识别控制部控制所述语音识别部以使得所述语音识别部继续所述语音识别处理。
13.根据权利要求12所述的信息处理系统,
其中,在所述用户的头部的运动未指示所述预定运动的情况下,所述识别控制部控制所述语音识别部以使得所述语音识别部基于所述语音识别处理的结果来执行预定执行操作。
14.根据权利要求1所述的信息处理系统,
其中,在检测到所述语音识别处理的激活触发事件的情况下,所述识别控制部使所述语音识别部开始所述语音识别处理。
15.根据权利要求4所述的信息处理系统,
其中,所述执行操作包括以下操作中的至少一个操作:输出与所述语音识别处理的结果相对应的搜索结果的操作、输出所述语音识别处理的结果的操作、输出在所述语音识别处理期间获得的处理结果候选项的操作以及输出用于对从所述语音识别处理的结果中提取的话语内容进行回应的字符串的操作。
16.一种信息处理方法,包括:
控制语音识别部以使得所述语音识别部对从声音采集部输入的声音信息执行语音识别处理;和
使输出部输出运动对象,
其中,所述控制包括:通过处理器基于在预定时间点处检测到的用户的姿势来控制是否继续所述语音识别处理,
其中,使输出部输出所述运动对象包括在所述语音识别处理开始之后所述声音信息的音量持续并且低于参考音量的时长到达预定目标时间的情况下使所述输出部输出所述运动对象,并且
其中,所述控制包括:通过所述处理器基于所述用户的视点的轨迹和所述运动对象的轨迹来控制是否继续所述语音识别处理。
CN201580077946.0A 2015-03-23 2015-12-07 信息处理系统和信息处理方法 Expired - Fee Related CN107430856B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2015-059567 2015-03-23
JP2015059567 2015-03-23
PCT/JP2015/084293 WO2016151956A1 (ja) 2015-03-23 2015-12-07 情報処理システムおよび情報処理方法

Publications (2)

Publication Number Publication Date
CN107430856A CN107430856A (zh) 2017-12-01
CN107430856B true CN107430856B (zh) 2021-02-19

Family

ID=56977095

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201580077946.0A Expired - Fee Related CN107430856B (zh) 2015-03-23 2015-12-07 信息处理系统和信息处理方法

Country Status (5)

Country Link
US (1) US10475439B2 (zh)
EP (1) EP3276618A4 (zh)
JP (1) JP6729555B2 (zh)
CN (1) CN107430856B (zh)
WO (1) WO2016151956A1 (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102591413B1 (ko) * 2016-11-16 2023-10-19 엘지전자 주식회사 이동단말기 및 그 제어방법
CN107919130B (zh) * 2017-11-06 2021-12-17 百度在线网络技术(北京)有限公司 基于云端的语音处理方法和装置
US10923122B1 (en) * 2018-12-03 2021-02-16 Amazon Technologies, Inc. Pausing automatic speech recognition
CN113168835A (zh) * 2018-12-19 2021-07-23 索尼集团公司 信息处理设备、信息处理方法和程序
US11151993B2 (en) * 2018-12-28 2021-10-19 Baidu Usa Llc Activating voice commands of a smart display device based on a vision-based mechanism
JP6842489B2 (ja) * 2019-03-28 2021-03-17 Necパーソナルコンピュータ株式会社 電子機器、制御方法およびプログラム
JP7351642B2 (ja) * 2019-06-05 2023-09-27 シャープ株式会社 音声処理システム、会議システム、音声処理方法、及び音声処理プログラム
US11328740B2 (en) 2019-08-07 2022-05-10 Magic Leap, Inc. Voice onset detection
US12033625B2 (en) * 2021-06-16 2024-07-09 Roku, Inc. Voice control device with push-to-talk (PTT) and mute controls

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6243683B1 (en) * 1998-12-29 2001-06-05 Intel Corporation Video control of speech recognition
CN102298442A (zh) * 2010-06-24 2011-12-28 索尼公司 手势识别设备、手势识别方法及程序
CN103778359A (zh) * 2014-01-24 2014-05-07 金硕澳门离岸商业服务有限公司 多媒体信息处理系统及多媒体信息处理方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0944297A (ja) * 1995-07-25 1997-02-14 Canon Inc データ入力方法及びその装置
JP3916861B2 (ja) * 2000-09-13 2007-05-23 アルパイン株式会社 音声認識装置
EP1215658A3 (en) * 2000-12-05 2002-08-14 Hewlett-Packard Company Visual activation of voice controlled apparatus
US6804396B2 (en) * 2001-03-28 2004-10-12 Honda Giken Kogyo Kabushiki Kaisha Gesture recognition system
JP4197271B2 (ja) * 2003-06-17 2008-12-17 シャープ株式会社 通信端末、通信端末の制御方法、音声認識処理装置、音声認識処理装置の制御方法、通信端末制御プログラム、通信端末制御プログラムを記録した記録媒体、音声認識処理装置制御プログラム、および、音声認識処理装置制御プログラムを記録した記録媒体
JP4992218B2 (ja) * 2005-09-29 2012-08-08 ソニー株式会社 情報処理装置および方法、並びにプログラム
US9250703B2 (en) 2006-03-06 2016-02-02 Sony Computer Entertainment Inc. Interface with gaze detection and voice input
JP2010009484A (ja) * 2008-06-30 2010-01-14 Denso It Laboratory Inc 車載機器制御装置および車載機器制御方法
CN103782251A (zh) * 2011-06-24 2014-05-07 汤姆逊许可公司 利用用户的眼球运动可操作的计算机设备和操作该计算机设备的方法
JP5998861B2 (ja) * 2012-11-08 2016-09-28 ソニー株式会社 情報処理装置、情報処理方法及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6243683B1 (en) * 1998-12-29 2001-06-05 Intel Corporation Video control of speech recognition
CN102298442A (zh) * 2010-06-24 2011-12-28 索尼公司 手势识别设备、手势识别方法及程序
CN103778359A (zh) * 2014-01-24 2014-05-07 金硕澳门离岸商业服务有限公司 多媒体信息处理系统及多媒体信息处理方法

Also Published As

Publication number Publication date
WO2016151956A1 (ja) 2016-09-29
EP3276618A1 (en) 2018-01-31
US10475439B2 (en) 2019-11-12
JPWO2016151956A1 (ja) 2018-01-11
US20170330555A1 (en) 2017-11-16
JP6729555B2 (ja) 2020-07-22
EP3276618A4 (en) 2018-11-07
CN107430856A (zh) 2017-12-01

Similar Documents

Publication Publication Date Title
CN107430856B (zh) 信息处理系统和信息处理方法
US10546582B2 (en) Information processing device, method of information processing, and program
US10725733B2 (en) Information processing apparatus, information processing method, and program
US20190019512A1 (en) Information processing device, method of information processing, and program
US11373650B2 (en) Information processing device and information processing method
US10747499B2 (en) Information processing system and information processing method
CN107148614B (zh) 信息处理设备、信息处理方法和程序
US10720154B2 (en) Information processing device and method for determining whether a state of collected sound data is suitable for speech recognition
US10522140B2 (en) Information processing system and information processing method
JP2016109726A (ja) 情報処理装置、情報処理方法およびプログラム
US20180063283A1 (en) Information processing apparatus, information processing method, and program
CN106462251B (zh) 显示控制设备、显示控制方法以及程序
JP2016156877A (ja) 情報処理装置、情報処理方法およびプログラム
JP2016180778A (ja) 情報処理システムおよび情報処理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210219

CF01 Termination of patent right due to non-payment of annual fee