CN107004406A - 信息处理设备、信息处理方法及程序 - Google Patents

信息处理设备、信息处理方法及程序 Download PDF

Info

Publication number
CN107004406A
CN107004406A CN201580064715.6A CN201580064715A CN107004406A CN 107004406 A CN107004406 A CN 107004406A CN 201580064715 A CN201580064715 A CN 201580064715A CN 107004406 A CN107004406 A CN 107004406A
Authority
CN
China
Prior art keywords
processing
processing unit
target
voice
processor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201580064715.6A
Other languages
English (en)
Inventor
河野真
河野真一
泷祐平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN107004406A publication Critical patent/CN107004406A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/02Input arrangements using manually operated switches, e.g. using keyboards or dials
    • G06F3/023Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
    • G06F3/0233Character input methods
    • G06F3/0236Character input methods using selection techniques to select from displayed items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/02Input arrangements using manually operated switches, e.g. using keyboards or dials
    • G06F3/023Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
    • G06F3/0233Character input methods
    • G06F3/0237Character input methods using prediction or retrieval techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/0482Interaction with lists of selectable items, e.g. menus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04842Selection of displayed objects or displayed text elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)

Abstract

为了提供一种能够更有效地对从输入语音中识别出的字符串进行处理的技术。[解决方案]提供了一种信息处理设备,该信息处理设备配备有:处理单元获取部,用于基于噪声水平从通过对第一输入语音进行语音识别而获得的第一识别字符串中获取一个或多个处理单元;以及处理单元,用于当一个或多个处理单元中的任意处理单元被选为了处理目标时,对处理目标进行处理。

Description

信息处理设备、信息处理方法及程序
技术领域
本公开内容涉及信息处理设备、信息处理方法及程序。
背景技术
近来已经开发了用于接受由用户说出的语音作为输入语音并对该输入语音进行语音识别以从输入语音中识别字符串的技术。然而,在语音识别中很可能出现错误。关于这一点,开发了以下技术:生成除了从输入语音识别出的字符串中的一些字符串之外的多个处理单元,将多个处理单元呈现给用户,并且将用户从多个处理单元中选择的处理单元视为要处理的目标(例如,参考专利文献1)。
引用列表
专利文献
专利文献1:JP 2008-209717A
发明内容
技术问题
因此,希望提供能够更有效地对从输入语音中识别出的字符串进行处理的技术。
问题的解决方案
根据本公开内容,提供了一种信息处理设备,包括:处理单元获取部,被配置成基于噪声从通过对第一输入语音进行语音识别而获得的第一识别字符串中获取一个或更多个处理单元;以及处理器,被配置成:当一个或更多个处理单元中的任一个处理单元被选为处理目标时,对处理目标进行处理。
根据本公开内容,提供了一种信息处理方法,该方法包括:基于噪声从通过对第一输入语音进行语音识别而获得的第一识别字符串中获取一个或更多个处理单元;以及当一个或更多个处理单元中的任一个处理单元被选为处理目标时,对处理目标进行处理。
根据本公开内容,提供了一种用于使计算机作用为信息处理设备的程序,该信息处理设备包括:处理单元获取部,被配置成基于噪声从通过对第一输入语音进行语音识别而获得的第一识别字符串中获取一个或更多个处理单元;以及处理器,被配置成当一个或更多个处理单元中的任一个处理单元被选为处理目标时,对处理目标进行处理。
发明的有益效果
根据上述本公开内容,提供了一种能够更有效地对从输入语音中识别出的字符串进行处理的技术。注意,上述效果不一定是限制性的。连同或替代上述效果,还可以实现在本说明书中描述的任何效果或者通过本说明书能够领会的其他效果。
附图说明
图1是示出根据本公开内容的实施方式的信息处理系统的配置示例的图。
图2是示出根据本实施方式的信息处理系统的功能配置示例的框图。
图3A是示出根据本实施方式的信息处理设备的操作的概况的流程图。
图3B是示出根据本实施方式的信息处理设备的操作的概况的流程图。
图4是示出通过显示控制器显示在显示部上的画面的配置示例的图。
图5是示出在用户正在说话的状态下所显示的画面的示例的图。
图6是示出用户想要输入的字符串的示例以及通过语音识别而获得的识别字符串的示例的图。
图7是示出显示有识别字符串的画面的示例的图。
图8是被示出用于描述基于噪声音量从识别字符串中获取一个或更多个处理单元的示例的图。
图9是示出处理单元确定操作的示例的流程图。
图10是示出处理单元确定操作的示例的流程图。
图11是示出预测转换类别数据库的示例的图。
图12是示出短语类别数据库的示例的图。
图13是示出原始形式类别数据库的示例的图。
图14是示出先前校正结果类别数据库的示例的图。
图15是示出相似声音类别数据库的示例的图。
图16是示出相似语义类别数据库的示例的图。
图17是示出转换形式类别数据库的示例的图。
图18是示出针对每个类别显示的校正候选字符串的示例的图。
图19是示出针对每个类别显示的校正候选字符串的另一示例的图。
图20是示出针对每个类别显示的校正候选字符串的另一示例的图。
图21是示出针对每个类别显示的校正候选字符串的另一示例的图。
图22是示出针对每个类别显示的校正候选字符串的另一示例的图。
图23是示出符号类别数据库的示例的图。
图24是示出数字类别数据库的示例的图。
图25是示出字母类别数据库的示例的图。
图26是示出表情符号类别数据库的示例的图。
图27是示出针对每个类别显示的附加候选字符串的另一示例的图。
图28是示出校正候选字符串获取操作的示例的流程图。
图29是示出校正候选字符串获取操作的示例的流程图。
图30是被示出用于描述对处理目标的长度进行控制的示例的图。
图31是示出对处理目标的长度进行控制的操作的示例的流程图。
图32是被示出用于描述对处理单元的数量进行改变的示例的图。
图33是被示出用于描述对处理单元的数量进行改变的另一示例的图。
图34是被示出用于描述处理单元的删除的图。
图35是被示出用于描述插入符号位置的选择的图。
图36是被示出用于描述插入符号位置的选择的图。
图37是被示出用于描述插入符号位置的选择的图。
图38是被示出用于描述在选择了中心区的情况下的操作的图。
图39是被示出用于描述在选择了左侧区的情况下的操作的图。
图40是被示出用于描述在选择了右侧区的情况下的操作的图。
图41是示出当选择处理单元的显示区域时的操作的示例的流程图。
图42是示出当选择处理单元的显示区域时的操作的示例的流程图。
图43是示出显示部的显示形式的修改示例的图。
图44是示出根据本实施方式的信息处理系统的硬件配置示例的框图。
具体实施方式
在下文中,将参照附图来详细地描述本公开内容的优选实施方式。在本说明书和附图中,对具有基本相同功能和结构的结构要素给予相同的附图标记,并且省略对这些结构要素的重复说明。
注意,在本说明书和附图中,对具有基本相同功能和结构的结构要素有时使用相同附图标记之后的不同字母来区分彼此。然而,当不需要对具有基本相同功能和结构的结构要素进行特别区分时,只附上相同的附图标记。
将按照以下顺序进行说明。
1.本公开内容的实施方式
1.1.系统配置示例
1.2.功能配置示例
1.3.操作概况
1.4.画面配置示例
1.5.处理单元的确定
1.6.字符串的呈现
1.7.处理目标的长度的控制
1.8.处理单元的数量的改变
1.9.处理单元的删除
1.10.插入符号位置的选择
1.11.处理单元的显示区域
1.12.显示形式的修改示例
1.13.硬件配置示例
2.结论
<1.本公开内容的实施方式>
[1.1.系统配置示例]
将参照附图来描述根据本公开内容的实施方式的信息处理系统10的配置示例。图1是示出了根据本公开内容的实施方式的信息处理系统10的配置示例的图。如图1所示,根据本公开内容的实施方式的信息处理系统10被配置成包括图像输入部110、操作输入部115、语音输入部120以及显示部130。信息处理系统10能够对用户U(以下还简称为“用户”)说出的语音进行语音识别。
图像输入部110具有输入图像的功能。在如图1所示的示例中,图像输入部110包括嵌入在桌子Tb1中的两个摄像机。然而,图像输入部110中包括的摄像机的数量不限于特定的数量,只要该数量为一个或更多个即可。在这种情况下,图像输入部110中包括的一个或更多个摄像机中的每个摄像机被设置的位置也不限于特定的位置。此外,一个或更多个摄像机可以包括单目摄像机或立体摄像机。
操作输入部115具有输入用户U的操作的功能。在如图1所示的示例中,操作输入部115包括从桌子Tb1上方的天花板悬挂的一个摄像机。然而,操作输入部115中包括的摄像机被设置的位置不限于特定的位置。此外,摄像机可以包括单目摄像机或立体摄像机。此外,操作输入部115可以是除摄像机之外的任何东西,只要它具有输入用户U的操作的功能即可,并且例如可以是触摸板或硬件按键。
显示部130具有在桌子Tb1上显示画面的功能。在如图1所示的示例中,显示部130从桌子Tb1上方的天花板悬挂。然而,显示部130被设置的位置不限于特定的位置。此外,显示部130通常可以是能够将画面投影到桌子Tb1上表面的投影仪,但是也可以是其他类型的显示器,只要它具有显示画面的功能即可。
此外,尽管这里主要描述的是桌子Tb1的上表面为画面的显示表面的情况,但是画面的显示表面可以不同于桌子Tb1的上表面。画面的显示表面的示例可以包括墙、建筑物、地板表面、地面、天花板或其他地方的表面。此外,在显示部130具有自己的显示表面的情况下,画面的显示表面可以是显示部130的显示表面。
语音输入部120具有输入语音的功能。在如图1所示的示例中,语音输入部120包括总共6个麦克风,即桌子Tb1上方的3个麦克风以及存在于桌子Tb1的上表面上的3个麦克风。然而,语音输入部120中包括的麦克风的数量不限于特定的数量,只要该数量为一个或更多个即可。在这种情况下,语音输入部120中包括的一个或更多个麦克风被设置的位置也不限于特定的位置。然而,如果语音输入部120包括多个麦克风,则可以基于输入至多个麦克风中的每个麦克风的语音来估计声源的方向。此外,如果语音输入部120包括具有指向性的麦克风,可以基于输入至指向性麦克风中的语音来估计声源的方向。
针对根据本公开内容的实施方式的信息处理系统10的配置示例给出了上述说明。
[1.2.功能配置示例]
接下来,将描述根据本公开内容的实施方式的信息处理系统10的功能配置示例。图2是示出了根据本公开内容的实施方式的信息处理系统10的功能配置示例的框图。如图2所示,根据本公开内容的实施方式的信息处理系统10被配置成包括图像输入部110、操作输入部115、语音输入部120、显示部130以及信息处理设备140(以下还称为“控制器”140)。
信息处理设备140对信息处理系统10的每个部件进行控制。在一个示例中,信息处理设备140生成要从显示部130输出的信息。此外,在一个示例中,信息处理设备140将图像输入部110、操作输入部115和语音输入部120中的每个输入的信息合并到要从显示部130输出的信息中。如图2所示,信息处理设备140被配置成包括输入图像获取部141、输入语音获取部142、操作检测部143、语音识别部144、处理单元获取部145、处理器146以及显示控制器147。稍后将描述这些功能块的每个的细节。
此外,信息处理设备140可以由例如中央处理单元(CPU)构成。在信息处理设备140由诸如CPU的处理设备构成的情况下,该处理设备可以由电子电路构成。
针对根据本公开内容的实施方式的信息处理系统10的功能配置示例给出了上述说明。
[1.3.操作概况]
接下来,对根据本公开内容的实施方式的信息处理设备140的操作的概况进行描述。图3A和图3B是示出了根据本公开内容的实施方式的信息处理设备140的操作的概况的流程图。如果用户发出声音(S11),则输入语音获取部142获取由声音输入部120输入的语音作为输入语音(S12)。然后,语音识别部144从输入语音中获取噪声音量(S13)。噪声可以对应于输入声音之中除用户说出的语音之外的声音。稍后将对噪声音量的获取的细节进行描述。
接下来,语音识别部144对输入语音进行语音识别(S14)以从输入语音中获得字符串(以下也称为“识别字符串”)(S15)。语音识别部144使用的语音识别技术不限于特定的技术,并且可以使用诸如隐马尔科夫模型的语音识别技术。此外,在本说明书中,字符串可以由一个字符构成。接下来,处理单元获取部145基于噪声音量从识别字符串中获得一个或更多个处理单元(S16)。在一个示例中,在语音识别中出现错误的可能性随着噪声音量的增加而增加,因此处理单元获取部145优选地增加每一部分的处理单元的长度。这可以减少使用户选择处理单元的时间和精力。
另一方面,在一个示例中,在语音识别中出现错误的可能性随着噪声音量的降低而降低,因此处理单元获取部145优选地减少每一部分的处理单元的长度。这可以减少使用户输入语音的时间和精力。在一个示例中,在识别字符串的语言是分开书写的语言例如英语、法语和德语的情况下,处理单元可以是词单元或者多个词的组合。此外,可能存在识别字符串的语言是不分开书写的语言例如日语、中文和韩语。在这种情况下,处理单元是通过对识别字符串进行语义分析而获得的语素单元、独立词和辅助词的组合(短语)单元、根据预定的字符数量而划分的字符串单元、或者甚至是作为语音而被输入的句子单元。
此外,处理单元获取部145还可以基于识别字符串的上下文从识别字符串中获取一个或更多个处理单元。在一个示例中,处理单元获取部145参照提前登记的词典数据,并且计算识别字符串中包括的词与前面的词和后面的词的联系的容易程度。因此,可以将在意思上被确认为一个组的由一个或更多个词构成的组合划分为处理单元。接下来,处理器146获取校正候选字符串(S17)。正如稍后将描述的那样,存在校正候选字符串的类型的各种类别。
接下来,显示控制器147通过使显示部130显示校正候选字符串来将校正候选字符串呈现给用户(S18)。在一种情况下,如果获得了期望的识别字符串(S19中的“是”),则决定该识别字符串(S20)。在另一种情况下,如果没有获得期望的识别字符串并且选择了删除作为处理类型(S19中的“否(删除)”),则处理器146删除处理目标并且返回S18。在该另一种情况下,如果没有获得期望的识别字符串并且选择了校正作为处理类型(S19中的“否(校正)”),则处理器146校正处理目标(S22)。
在校正处理目标时,处理器146进行添加新字符串的处理(S23)或者用字符串来替换处理目标的处理(S24)。关于这一点,在处理器146通过语音对处理目标进行替换(即,用从语音中识别的字符串来进行替换)的情况下,处理器146在替换了处理目标之后重建识别字符串的处理单元。接下来,在处理器146通过语音来进行校正的情况下(S26中的“是”),处理返回S11,但是在处理器146通过不同于语音的方式进行校正(例如,通过从校正候选字符串中选出的校正字符串来进行校正)的情况下(S26中的“否”),处理返回S15。
针对根据本公开内容的实施方式的信息处理设备140的操作的概况给出了上述说明。
[1.4.画面配置示例]
接下来,将描述通过显示控制器147显示在显示部130上的画面的配置示例。图4是示出通过显示控制器147显示在显示部130上的画面的配置示例的图。如图4所示,画面G10包括显示了字符串的字符串显示栏G11、全部字符串删除操作对象G12、字符串决定操作对象G13、基于语音的字符串添加开始操作对象G14。此外,如图4所示,画面G10包括用于将插入符号位置移动至前面位置的操作对象G15、用于将插入符号位置移动至后面位置的操作对象G16、以及用于删除处理目标的操作对象G17。
关于这一点,如图4所示,如果操作检测部143检测到选择基于语音的字符串添加开始操作对象G14的操作并且通过输入语音获取部142获取了输入语音,则语音识别部144开始对输入语音进行语音识别。图5是示出了在用户正在说话的状态下所显示的画面的示例的图。在如图5所示的示例中,基于语音的字符串添加开始操作对象G14变为基于语音的字符串添加结束操作对象G23。
如果由语音识别部144进行的语音识别开始,则语音识别部144基于输入语音确定用户U说出的语音的音量。关于这一点,确定用户语音音量的方式不限于特定的方式。在一个示例中,语音识别部144可以估计用户说出的语音的声源方向Du并且可以将从用户说出的语音的声源方向Du输入的音量确定为用户语音音量。估计用户说出的语音的声源方向Du的方式也不限于特定的方式。
在一个示例中,语音识别部144可以将幅度超过由语音输入部120初设的阈值的音量的声音输入的到达方向估计为由用户说出的语音的声源方向。此外,可能存在多个具有幅度超过阈值的音量的声音输入的到达方向。在这种情况下,语音识别部144可以将多个到达方向之中的一个到达方向估计为由用户说出的语音的声源方向,该一个到达方向与进行选择基于语音的字符串添加开始操作对象G14的操作的用户的手指的方向(例如,从指尖到指根的方向)匹配或相似。可以提前确定相似度的范围。此外,可以通过对输入图像进行分析来获得手指方向。
此外,在一个示例中,语音识别部144可以将语音输入部120的具有最高音量的语音输入的到达方向估计为用户说出的语音的声源方向Du。可替选地,语音识别部144可以将与执行选择字符串添加开始操作对象G14的操作的用户的手指的方向匹配或相似的一个到达方向估计为用户说出的语音的声源方向Du。在这种情况下,语音识别部144可以将从除了用户说出的语音的声源方向之外的方向输入至语音输入部120的语音确定为噪声,并且可以将从除了声源方向Du之外的方向输入至语音输入部120的音量确定为噪声音量。
在用户说出的语音音量超过了能够识别语音的音量(以下也称为“可识别音量”)的情况下,显示控制器147可以使显示部130显示朝着字符串添加结束操作对象G23移动的第一运动对象Mu。这使得用户可以知道说话是否是以能够识别出语音的音量进行的。此外,显示控制器147可以使显示部130基于用户说出的语音的声源方向Du来显示第一运动对象Mu。这使得用户可以可靠地知道用户自己的语音音量是否超过了能够识别出语音的音量。
具体地,显示控制器147可以将第一运动对象Mu在与用户说出的语音的声源方向Du相反的方向上朝着字符串添加结束操作对象G23移动。尽管如图5所示的示例假定在用户附近一个接一个地出现的圆形对象在与用户说出的语音的声源方向Du相反的方向上移动并且在到达字符串添加结束操作对象G23时消失,第一运动对象Mu的移动不限于该示例。此外,第一运动对象Mu的运动目的地可以包括但不限于字符串添加结束操作对象G23、任何所显示的对象。
[1.5.处理单元的确定]
以这种方式,通过对输入语音进行语音识别来获得识别字符串,但是在针对输入语音的语音识别中也可能发生错误。图6是示出了用户想要输入的字符串的示例以及通过语音识别而获得的识别字符串的示例的图。参照图6,显示了“I drive your car toairports”作为用户想要输入的字符串的示例,并且显示了“I drove your car toairports”作为通过语音识别获得的字符串的示例。因此,优选地可以对通过语音识别获得的字符串进行一些处理。
图7是示出显示有识别字符串的画面的示例的图。如图7所示,显示控制器147可以使显示部130显示识别字符串“I drove your car to airports”。在这种情况下,处理单元获取部145从识别字符串“I drove your car to airports”中获取处理单元U1“I drove”、处理单元U2“your car”以及处理单元U3“to airports”。因此,显示控制器147可以使显示部130显示这些处理单元U1至U3。这样一来,处理器146使用户从处理单元U1至处理单元U3中选择一个,并且可以处理用户所选的处理目标。
此外,如图7所示,显示控制器147可以使插入符号位置选择对象B1显示在处理单元U1前面的位置处,并且使插入符号位置选择对象B2显示在处理单元U1与处理单元U2之间。此外,显示控制器147可以使插入符号位置选择对象B3显示在处理单元U2与处理单元U3之间,以及使插入符号位置选择对象B4显示在处理单元U4前面的位置处。然后,显示控制器147可以将插入符号CL布置在插入符号位置选择对象B1至B4中的一个处。
图7示出了通过处理单元获取部145从识别字符串“I drove your car toairports”中得到处理单元U1“I drove”、处理单元U2“your car”以及处理单元U3“toairports”的示例。然而,在针对输入语音的语音识别中出现错误的可能性可能根据噪声而发生变化,所以对从输入语音中识别的字符串进行的处理通过改变处理单元的数量而变得更有效。因此,处理单元获取部145可以基于噪声从识别字符串“I drove your car toairports”中获取一个或多个处理单元。更具体地,处理单元获取部145可以基于噪声音量从识别字符串“I drove your car to airports”中获取一个或多个处理单元。
图8是被示出用于描述基于噪声音量从识别字符串“I drove your car toairports”中获取一个或多个处理单元的示例的图。如上所述,随着噪声音量增加,在语音识别中发生错误的可能性增加,因此处理单元获取部145优选地减少在图8中示为“大噪声音量”的处理单元的数量。这可以减少使用户选择处理单元的时间和精力。另一方面,随着噪声音量降低,在语音识别中发生错误的可能性降低,因此处理单元获取部145优选地增加处理单元的数量,如图8中的“小噪声音量”中所示。这可以减少使用户输入语音的时间和精力。
接下来,将描述对处理单元进行确定的操作。图9和图10是示出处理单元确定操作的示例的流程图。此外,这些流程图仅示出了处理单元确定操作的示例,因此该处理单元确定操作不限于这些流程图中所示的示例。输入语音获取部142获取输入语音(S101)。接着,语音识别部144从输入语音中获取噪声音量(S102)。然后,语音识别部144对输入语音进行语音识别以获取识别字符串(S103)。
接下来,如果噪声音量低于阈值Ta(S104中的“是”),则处理单元获取部145以一个字符为单位划分识别字符串(S105)并且进行至S113。另一方面,如果噪声音量超过阈值Ta(S104中的“否”),则处理单元获取部145进行至S106。接下来,如果噪声音量低于阈值Tb(S106中的“是”),则处理单元获取部145将识别字符串划分成有意义的最小单元(S107)并且进行至S113。另一方面,如果噪声音量超过阈值Tb(S106中为“否”),则处理单元获取部145进行至S108。
接下来,如果噪声音量低于阈值Tc(S108中的“是”),则处理单元获取部145将识别字符串划分成通过合并一个或更多个有意义的最小单元而获得的单元Na(S109),并且进行至S113。另一方面,如果噪声音量超过阈值Tc(S108中的“否”),则处理单元获取部145进行至S110。接下来,如果噪声音量低于阈值Td(S110中的“是”),则处理单元获取部145将识别字符串划分成通过合并一个或更多个单元Na而获得的单元Nb(S111),并且进行至S113。另一方面,如果噪声音量超过阈值Tb(S110中的“否”),则处理单元获取部145将整个识别字符串设置为单元Nc(S112),并且进行至S113。
接下来,如上所述,处理单元获取部145将从识别字符串生成的每个单元确定为处理单元(S113)。此外,在上述说明中,在阈值等于噪声音量的情况下,处理单元获取部145可以将操作移动至处理分支中的任一分支。如上所述,处理单元获取部145基于噪声音量从识别字符串中获取一个或多个处理单元。当将一个或更多个处理单元选为处理目标时,处理器146可以对所选的处理目标进行处理。该配置使得可以更有效地进行对识别字符串的处理。
[1.6.字符串的呈现]
如上所述,显示控制器147使显示部130显示处理单元U1至U3,并且在处理单元U1至U3中的任一个被选为处理目标时,处理器146可以对所选处理目标进行处理。在一个示例中,可能存在操作检测部143检测到选择基于语音的替换操作对象G25的操作(参见图18)并且输入语音获取部142获取到再输入语音的情况。在这种情况下,处理器146可以通过将处理目标替换为通过对再输入语音进行语音识别而获得的识别字符串来校正处理目标。
在这种情况下,随着噪声音量增加,在对再输入语音进行语音识别中出现错误的可能性增加,因此处理单元获取部145优选地增加语音识别的成功率。关于这一点,再输入语音越长,对再输入语音的语音识别成功的可能性越大。因此,优选的是处理单元获取部145随着噪声音量的变大而增加处理单元的长度(优选地随着噪声音量的变大而减少处理单元的数量)。另一方面,再输入语音越长,再输入该语音需要越多时间和精力。因此,优选的是处理单元获取部145随着噪声音量的减小而减小处理单元的长度(优选地随着噪声音量的减小而增加处理单元的数量)。
然而,即使通过使用语音识别来尝试校正在语音识别中发生错误的处理目标,该校正也可能会失败,这取决于用户语音的习惯、用户发出语音的环境、语音识别引擎的性能等。因此,当用户从一个或多个校正候选字符串中选择校正字符串时,处理器146可以通过将处理目标替换为校正字符串来校正处理目标。更具体地,显示控制器147优选地使显示部130针对每个类别来显示一个或多个校正候选字符串。这使得用户可以在每个类别中搜索一个或多个校正候选字符串。
现在描述用于针对每个类别向用户提供校正候选字符串的数据库。图11至图17是示出用于针对每个类别向用户提供校正候选字符串的数据库的示例的图。特别地,图11是示出预测转换类别数据库的示例的图。在一个示例中,基于语素或词而从字典数据等中预测的词语搭配等属于预测转换类别。图12是示出短语类别数据库的示例的图。在一个示例中,在输入的是英语的情况下,通过给输入的词添加介词而获得的字符串、包括输入的词的习语等属于短语类别。此外,在一个示例中,在输入的是日语的情况下,通过形态分析而获得的语素添加了后置词缀的字符串等属于短语类别。
图13是示出原始形式类别数据库的示例的图。在一个示例中,在输入的是英语的情况下,相对于名词复数形式的名词单数形式属于原始形式类别,并且相对于动词过去形式的动词原型属于原始形式类别。此外,在一个示例中,在输入的是日语的情况下,例如与通过形态分析而获得的语素相对应的读音(平假名或片假名)属于原始形式类别。
图14是示出先前校正结果类别数据库的示例的图。在一个示例中,对与输入词相同的词预先进行校正的结果属于先前校正结果类别。图15是示出相似声音类别数据库的示例的图。图16是示出相似语义类别数据库的示例的图。图17是示出转换形式类别数据库的示例的图。在一个示例中,在输入的是英语的情况下,相对于词原型的复数形式、现在进行式、过去式、派生的形容词、派生的副词、比较级、最高级等属于转换形式类别。此外,在一个示例中,在输入的是日语的情况下,其他中文字符候选等属于转换形式类别。
图18是示出针对每个类别显示的校正候选字符串的示例的图。如图18所示,假定用户进行选择处理单元U1至U3中的处理单元U1“I drove”作为处理目标的操作以对处理单元U1“I drove”进行校正以读成“I drive”的情况。在这种情况下,显示控制器147从每个数据库获取与处理单元U1“I drove”相对应的校正候选字符串,并且将校正候选字符串显示在字符串显示栏G18中。在图18中,将属于预测转换类别、短语类别和原始类别中每个类别的校正候选字符串显示在字符串显示栏G18中作为与处理单元U1“I drove”相对应的校正候选字符串。
然后,在输入了选择以该方式显示的校正候选字符串中的任一个校正候选字符串的操作的情况下,处理器146可以将处理目标“I drove”替换为所选校正候选字符串。在一个示例中,在输入了选择在原始形式类别中显示的校正候选字符串“I drive”的操作的情况下,处理器146可以将处理目标“I drove”替换为所选校正候选字符串“I drive”。此外,基于对字符串显示栏G18中校正候选字符串均不符合的类别中的滚动操作对象G19进行选择的操作,显示控制器147可以通过滚动来显示属于该类别的校正候选字符串。
此外,显示控制器147可以基于预定操作通过滚动来显示在字符串显示栏G18中显示的类别。图19是示出针对每个类别而显示的校正候选字符串的另一示例的图。参照图19,滚动在字符串显示栏G18中显示的类别,从而在字符串显示栏G18中显示属于先前校正结果类别的校正候选字符串。在一个示例中,当输入了选择在先前校正结果类别中显示的校正候选字符串“I drive”的操作时,处理器146可以将处理目标“I drove”替换为所选校正候选字符串“I drive”。
在上述说明中,假定了获取识别字符串“I drove your car to airports”的情况。接下来,假定获取识别字符串“I live in Tokyo”的情况。图20是示出针对每个类别而显示的校正候选字符串的另一示例的图。如图20所示,假定处理单元获取部145从识别字符串“I live in Tokyo”中获取处理单元U1“I live”以及处理单元U2“in Tokyo”的情况。在这种情况下,如图20所示,显示控制器147可以使显示部130显示这些处理单元U1和U2。
关于这一点,假定用户进行选择处理单元U1和U2中的处理单元U1“I live”作为处理目标的操作以对处理单元U1“I live”进行校正以读成“I leave”的情况。在这种情况下,显示控制器147从每个数据库中获取与处理单元U1“I live”相对应的校正候选字符串,并且将校正候选字符串显示在字符串显示栏G18中。在图20中,将属于相似声音类别以及其他识别结果类别的每个类别的校正候选字符串显示在字符串显示栏G18中,作为与处理单元U1“I live”相对应的校正候选字符串。
然后,在输入了选择以该方式显示的校正候选字符串中的任一个校正候选字符串的操作的情况下,处理器146可以将处理目标“I live”替换为所选校正候选字符串。在一个示例中,在输入了选择在相似声音类别中显示的校正候选字符串“I leave”的操作的情况下,处理器146可以将处理目标“I live”替换为所选校正候选字符串“I leave”。
上述说明假定了获取识别字符串“I live in Tokyo”的情况。接下来,假定获取识别字符串“I view this as credible”的情况。图21是示出针对每个类别显示的校正候选字符串的另一示例的图。如图21所示,假定处理单元获取部145从识别字符串“I view thisas credible”中获取处理单元U1“I view”、处理单元U2“this”以及处理单元U3“ascredible”的情况。在这种情况下,如图21所示,显示控制器147可以使显示部130显示这些处理单元U1至U3。
关于这一点,假定用户进行选择处理单元U1和U2中的处理单元U1“I view”作为处理目标的操作以对处理单元U1“I view”进行校正的情况。在这种情况下,显示控制器147从每个数据库中获取与处理单元U1“I view”相对应的校正候选字符串,并且将校正候选字符串显示在字符串显示栏G18中。在图21中,将属于相似语义类别的校正候选字符串显示在字符串显示栏G18中,作为与处理单元U1“I view”相对应的校正候选字符串。
然后,在输入了选择以该方式显示的校正候选字符串中的任一个校正候选字符串的操作的情况下,处理器146可以将处理目标“I view”替换为所选校正候选字符串。在一个示例中,在输入了选择在相似语义类别中显示的校正候选字符串“I consider”的操作的情况下,处理器146可以将处理目标“I live”替换为所选校正候选字符串“I consider”。
上述说明假定了获取识别字符串“I view this as credible”的情况。接下来,假定获取识别字符串“Help me”的情况。图22是示出针对每个类别显示的校正候选字符串的另一示例的图。如图22所示,假定处理单元获取部145从识别字符串“Help me”中获取处理单元U1“Help”以及处理单元U2“me”的情况。在这种情况下,如图22所示,显示控制器147可以使显示部130显示这些处理单元U1和U2。
关于这一点,假定用户进行了选择处理单元U1“Help”作为处理目标的操作的情况。在这种情况下,显示控制器147从每个数据库中获取与处理单元U1“Help”相对应的校正候选字符串,并且将校正候选字符串显示在字符串显示栏G18中。在图22中,将属于转换形式类别的校正候选字符串显示在字符串显示栏G18中,作为与处理单元U1“Help”相对应的校正候选字符串。
然后,在输入了选择以该方式显示的校正候选字符串中的任一个校正候选字符串的操作的情况下,处理器146可以将处理目标“Help”替换为所选校正候选字符串。然而,当用户又认为并不特别需要对识别字符串“Help me”进行校正时,用户可以进行选择字符串决定操作对象G13的操作。在检测到选择字符串决定操作对象G13的操作的情况下,处理器146可以决定识别字符串“Help me”。
尽管描述的是校正候选字符串的示例,但可以向用户呈现附加候选字符串。附加候选字符串可以是单个字符例如符号、数字和字母,或者可以是由单个字符的组合形成的表情符号。取决于语音识别引擎的性能,可能无法输入这种符号、数字和字母的字符或者表情符号,或者取决于语音识别引擎的类型,可能难以输入这种符号、数字和字母的字符或者表情符号。因此,将这种符号、数字和字母的字符或者表情符号显示为附加候选字符串对用户是有用的。
作为特定处理,在用户从一个或多个附加候选字符串中选择附加字符串的情况下,处理器146可以将附加字符串添加至识别字符串。可以将附加字符串添加至插入符号CL所在的位置。在这种情况下,显示控制器147可以优选地使显示部130针对每个类别来显示一个或多个附加候选字符串。这使得用户可以在每个类别中搜索一个或多个校正候选字符串。
接下来,将描述用于针对每个类别向用户提供附加候选字符串例如符号、数字和字母字符或者表情符号的数据库。图23至图26是示出用于针对每个类别向用户提供附加候选字符串的数据库的示例的图。特别地,图23是示出符号类别数据库的示例的图。图24是示出数字类别数据库的示例的图。图25是示出字母类别数据库的示例的图。图26是示出表情符号类别数据库的示例的图。
图27是示出针对每个类别显示的附加候选字符串的另一示例的图。如图27所示,示出用户进行将插入符号位置选择对象B4选为附加位置的操作以将表情符号添加至插入符号位置选择对象B4的情况。在这种情况下,显示控制器147从每个数据库获取附加候选字符串,并且将附加候选字符串显示在字符串显示栏G18中。在图27中,将属于数字、字母和表情符号类别中的每个的附加候选字符串显示在字符串显示栏G18中作为附加候选字符串。
然后,在输入了选择以该方式显示的附加候选字符串中的任一个附加候选字符串的操作的情况下,处理器146可以将所选的附加候选字符串添加至插入符号位置选择对象B4的位置。在一个示例中,在输入了用于选择显示在表情符号类别中的附加候选字符串“(-_-)”的操作的情况下,处理器146可以将所选的附加候选字符串“(-_-)”添加至插入符号位置选择对象B4。此外,基于对字符串显示栏G18中附加候选字符串均不符合的类别中的滚动操作对象G19进行选择的操作,显示控制器147可以通过滚动来显示属于该类别的附加候选字符串。
接下来,将描述获取校正候选字符串的操作。图28和图29是示出了获取校正候选字符串的操作的示例的流程图。此外,该流程图仅示出获取校正候选字符串的操作的示例,因此获取校正候选字符串的操作不限于该流程图所示的示例。处理器146获取字符串A(处理单元)(S201),然后从字符串A中获取有意义的最小单元的字符串组B。接下来,处理器146从原始形式类别数据库中获取与字符串A相对应的原始形式字符串C(S203)。
接下来,处理器146通过将补充字符串D添加至属于字符串组B的字符串来获取补充附加字符串E(S204)。在字符串组B是英语的情况下,补充字符串D的示例包括介词。此外,在字符串组B是日语的情况下,补充字符串D的示例包括后置词缀。接下来,处理器146从转换形式类别数据库获取与原始形式字符串C相对应的转换形式字符串F(S205)。接下来,处理器146从预测转换类别数据库获取与字符串A相对应的预测转换形式字符串G(S206)。
接下来,处理器146从相似声音类别数据库获取与字符串组B相对应的相似声音形式信息H(S207)。接下来,处理器146获取除字符串A之外的识别结果作为其他识别结果J(S208)。接下来,处理器146从先前校正结果类别数据库获取与字符串A相对应的先前校正结果K(S209)。接下来,处理器146从相似语义类别数据库获取与字符串A相对应的相似语义字符串L(S210)。
可以将如上所述获取的字符串(例如,原始形式字符串C、补充附加字符串E、转换形式字符串F、预测转换形式字符串G、相似声音形式信息H、先前校正结果K、其他识别结果J、先前校正结果K和相似语义字符串L)显示在显示部130上作为校正候选字符串。此外,获取相应字符串的顺序不限于图28和图29所示的流程图中的顺序。
[1.7.处理目标的长度的控制]
如上所述,通过对再输入语音进行语音识别来校正处理目标。然而,在通过对再输入语音进行语音识别来校正处理目标的情况下,对加长的处理目标进行校正可以提高校正成功率。因此,在决定通过再输入语音来校正处理目标的情况下,处理器146可以对处理目标的长度进行控制。在一个示例中,在决定通过再输入语音来校正处理目标的情况下,处理器146可以使处理目标更长。
图30是被示出用于描述对处理目标的长度进行控制的示例的图。参照图30,处理单元获取部145从识别字符串“I drove your car to airports”中获取处理单元U1“Idrove”、处理单元U2“your car”以及处理单元U3“to airports”,并且显示控制器147使显示部130显示这些处理单元U1至U3。关于这一点,如图30所示,可能存在进行了选择基于语音的替换操作对象G24的操作并且将处理单元U2选为处理目标的情况。在这种情况下,处理器146可以将包括处理单元U2、处理单元U2前面的处理单元U1以及处理单元U2后面的处理单元U3的新处理目标设置为处理目标。
此外,以上描述针对下述示例给出:在决定通过再输入语音来校正处理目标的情况下,通过处理器146将处理目标前面和后面的相邻处理单元包括进来以使该处理目标变长。然而,对处理目标形成多长没有特别的限制。此外,显示控制器147可以对处理目标的长度进行控制,然后可以使显示部130根据被控制的处理目标的长度来显示提示语音输入的消息,从而使用户知道处理目标的长度。在如图30所示的示例中,处理目标被扩展成3个处理单元U1至U3,因此显示控制器147使得显示消息“请说出彼此相连的三个处理单元”。
此外,在针对再输入语音进行的语音识别中出现错误的可能性可能随着噪声音量而变化。因此,在决定通过再输入语音来校正处理目标的情况下,处理器146可以基于噪声音量对处理目标的长度进行控制。更具体地,考虑到在针对再输入语音的语音识别中出现错误的可能性随着噪声音量的增加而增加。因此,在决定通过语音来校正处理目标的情况下,处理器146可以随着噪声音量的增加使处理目标更长。
此外,在决定通过语音来校正处理目标的情况下,处理器146可以在确定是否按照与处理目标的邻近度的顺序来将词包括在处理目标中时,根据语音的一部分来确定是否将词包括在处理目标中。在一个示例中,通常认为要单独地而不是同时地处理多个名词,因此显示控制器147可以允许将直到第二个名词之前的单词包括在处理目标中,但是不将第二个名词包括在处理目标中。
接下来,将描述对处理目标的长度进行控制的操作。图31是示出对处理目标的长度进行控制的操作的示例的流程图。此外,该流程图仅示出对处理目标的长度进行控制的操作的示例,因此对处理目标的长度进行控制的操作不限于该流程图所示的示例。处理器146激活与处理目标的选择相关联的校正交互(S301)。如果未使用噪声音量(S302中为“否”),则处理器146将操作移动至S307。
另一方面,如果使用了噪声音量(S303中的“是”),则语音识别部144从输入语音中获取噪声音量(S303)。如果噪声音量低于阈值Ha(S304中的“是”),则处理器146在不将处理单元添加至所选处理目标的情况下结束操作(S305)。另一方面,如果噪声音量超过阈值Ha(S304中的“否”),则处理器146将操作移动至S306。
接下来,如果噪声音量超过阈值Hb(S306中的“否”),则处理器146将识别字符串中包括的全部处理单元设置为一个新的处理单元(S308)并且结束操作。另一方面,如果噪声音量低于阈值Hb(S306中的“是”),则处理器146将所选处理目标前面和后面的处理目标添加至所选处理目标以产生一个新的处理单元(S307),然后结束操作。
[1.8.处理单元的数量的改变]
针对处理单元的长度随着噪声音量的增加而增加的示例(处理单元的数量随着噪声音量的增加而减少的示例)给出了以上描述。然而,可能存在以下情况:在语音识别中没有错误的字符串超过用户设想地被包括在一个处理单元中。因此,在输入了预定改变操作的情况下,处理单元获取部145可以改变要被包括在一个或多个处理单元中的至少一个中的处理单元的数量。在一个示例中,处理单元获取部145可以确定要划分的处理单元并且基于进行预定改变操作的位置来确定处理单元的划分位置,并且可以在划分位置处对要划分的处理单元进行划分。
图32是被示出用于描述对处理单元的数量进行改变的示例的图。参照图32,示出了通过处理单元获取部145来获取处理单元U0“I drove your car to airports everyday”的示例。在这种情况下,如果用户想将处理单元U0“I drove your car to airportsevery day”划分成“I drove your car”和“to airports every day”,可以如图32所示进行预定改变操作以将其划分成“I drove your car”和“to airports every day”。预定改变操作不限于特定的操作,并且可以是例如双击或长按。
此外,如图32所示,可能存在操作检测部143检测到预定改变操作的情况。在这种情况下,处理单元获取部145可以决定将处理目标U0作为要划分的处理单元,并且可以基于进行预定改变操作的位置来决定划分位置在“I drove your car”和“to airports everyday”之间。然后,处理单元获取部145可以通过在划分位置处对要划分的处理单元U0进行划分来获取处理单元U1“I drove your car”和处理单元U2“to airports every day”。
此外,作为另一示例,处理单元获取部145可以基于进行预定改变操作的位置来决定要划分的处理单元,并且可以将要划分的处理单元划分成预定的划分单元。预定的划分单元可以是有意义的最小单元。对于识别字符串不是被分开书写的语言而言,有意义的最小单元可以是语素单元,对于识别字符串是分开书写的语言而言,有意义的最小单元可以是词单元。
图33是被示出用于描述对处理单元的数量进行改变的另一示例的图。参照图33,示出了处理单元获取部14获取处理单元U0“I drove your car to airports every day”的示例。在这种情况下,如图33所示,当用户想划分处理单元U0“I drove your car toairports every day”时,可以对处理单元U0“I drove your car to airports everyday”进行预定改变操作。预定改变操作不限于特定的操作,并且可以是例如双击或长按。
此外,如图33所示,在操作检测部143检测到预定改变操作的情况下,处理单元获取部145可以基于进行预定改变操作的位置来决定要划分的处理单元。然后,处理单元获取部145可以将要划分的处理单元U0划分成词单元,从而获取处理单元U1“I”、处理单元U2“drove”、处理单元U3“your”、处理单元U4“car”、处理单元U5“to”、处理单元U6“airports”、处理单元U7“every”以及处理单元U8“day”。
[1.9.处理单元的删除]
尽管针对替换处理目标的示例给出了上述说明,然而删除处理目标的能力为用户提供方便。因此,在决定要删除处理目标的情况下,处理器146可以删除处理目标。图34是被示出用于描述处理单元的删除的图。在一个示例中,如图34所示,在处理的单元U3“toairports”被选为处理目标的状态下,如果检测到选择用于删除处理目标的操作对象G17的操作,则处理单元146可以删除处理单元U3“to airports”。
[1.10.插入符号位置的选择]
在上文中,针对将附加字符串添加至插入符号所在的位置的示例给出了说明。在该示例中,在用户想添加附加字符串的情况下,需要指定插入符号的位置。在这种情况下,用户有时通过拖拽操作来尝试指定插入符号。特别地,习惯于需要进行拖动操作以在画面上移动对象的终端(例如,智能电话等)的用户可能会尝试执行拖动操作以指定插入符的位置。
然而,可能存在难以检测拖拽操作的情况。在一个示例中,在通过用户的视线来检测用户的操作的情况下,需要基于用户的视线来检测拖拽操作,这可能会劣化拖拽操作的检测准确度。此外,在一个示例中,在通过分析图像来检测用户的操作的情况下,需要基于图像的分析结果来检测用户的拖拽操作,这可能会劣化拖拽操作的检测准确度。因此,优选地通过选择操作(例如,点击操作)来指定插入符号位置。
具体地,在选择了显示的插入符号位置选择对象的情况下,显示控制器147可以将插入符号位置选择对象所在的位置选为插入符号的位置。图35是被示出用于描述对插入符号位置进行选择的图。在一个示例中,如图35所示,可能存在在处理单元U3被选为处理目标的状态下对插入符号位置选择对象B4进行选择操作的情况。在这种情况下,显示控制器147可以将插入符号位置选择对象B4的位置选为插入符号CL的位置。
图36是被示出用于描述对插入符号位置进行选择的图。在一个示例中,如图36所示,可能存在在处理单元U3被选为处理目标的状态下对插入符号位置选择对象B3进行选择操作的情况。在这种情况下,显示控制器147可以将插入符号位置选择对象B4的位置选为插入符号CL的位置。
图37是被示出用于描述对插入符号位置进行选择的图。如图37所示,可能存在在插入符号CL的位置是位置选择对象B4的位置的状态下对用于将插入符号位置移至前面位置的操作对象G15进行选择操作的情况。在这种情况下,显示控制器147可以将在插入位置选择对象B4前面的插入符号位置选择对象B3的位置选为插入符号CL的位置。
[1.11.处理单元的显示区域]
在上文中,针对通过用户的选择操作而被选择的插入符号位置选择对象的位置被选为插入符号的位置的示例给出了说明。然而,可能存在难以准确地对插入符号位置选择对象进行选择操作的情况。在一个示例中,在通过用户的视线来检测用户的操作的情况下,需要基于用户的视线来检测选择操作,这可能会劣化选择操作的检测准确度。此外,在一个示例中,在通过分析图像来检测用户的操作的情况下,需要基于图像的分析结果来检测用户的选择操作,这可能会劣化选择操作的检测准确度。因此,优选地通过点击操作来指定插入符号位置。
具体地,处理单元的显示区域被设置成包括左侧区、中心区和右侧区。优选地,左侧区是位于处理单元的左侧的插入符号位置选择对象的选择区,中心区是处理单元的选择区,而右侧区是位于处理单元右侧的插入符号位置选择对象的选择区。将陆续描述在选择了中心区、左侧区和右侧区的情况下的操作的示例。
图38是被示出用于描述在选择了中心区R0的情况下的操作的图。如图38所示,处理单元U1的显示区域包括左侧区R1、中心区R0和右侧区R2。关于这一点,如图38所示,在检测到选择中心区R0的操作的情况下,处理器146可以将处理单元U1选为处理目标。此外,左侧区R1、中心区R0和右侧区R2中的每个的长度不限于特定的长度。处理器146可以根据处理单元U1的长度来控制左侧区R1和右侧区R2中的每个的长度。
在一个示例中,在处理单元U1的长度超过阈值的情况下,容易进行对左侧区R1的选择操作,其可以与对左侧区R2的选择操作相当。因此,在处理单元U1的长度超过阈值的情况下,处理器146可以将左侧区R1的尺寸和右侧区R2的尺寸设置成彼此相同。另一方面,在一个示例中,在处理单元U1的长度低于阈值的情况下,可以想到在用户主导臂侧的区容易作为要被选择的区。因此,在处理单元U1的长度低于阈值的情况下,处理器146可以将左侧区R1和右侧区R2中在主导臂相反侧的区设置成比用户主导臂一侧的区更窄。
尽管可以以任何方式来确定用户的主导臂,在一个示例中,处理器146可以根据用户用左手指和右手指中的哪个进行选择基于语音的字符串添加开始操作对象G14的操作来确定主导臂。在一个示例中,处理器146根据图像输入部110输入的输入图像来确定进行选择基于语音的字符串添加开始操作对象G14的操作的用户的手指的形状。然后,处理器146基于手指的形状来确定用户使用的是左手指和右手指中的哪个,从而可以基于确定结果来确定主导臂。
图39是被示出用于描述在选择了左侧区R1的情况下的操作的图。如图39所示,在检测到选择左侧区R1的操作的情况下,处理器146可以将位于处理单元U1左侧的插入符号位置选择对象B1选为插入符号CL的位置。图40是被示出用于描述在选择了右侧区R2的情况下的操作的图。如图40所示,在检测到选择右侧区R2的操作的情况下,处理器146可以将位于处理单元U1右侧的插入符号位置选择对象B2选为插入符号CL的位置。
接下来,将描述在对处理单元的显示区域进行选择的情况下进行的操作。图41和图42是示出在选择的情况下进行的操作的示例的流程图。此外,这些流程图仅示出在对处理单元的显示区域进行选择的情况下进行的操作的示例,因此在对处理单元的显示区域进行选择的情况下进行的操作不限于这些流程图中所示的示例。处理器146将Flg设置为假(false)(S401),并且获取处理单元的长度(S402)。接下来,如果处理单元的长度低于阈值Za(S403中的“否”),处理器146将左侧区R1和右侧区R2设置成相同尺寸(S404),并且将这两个区之间的区设置为中心区R0。另一方面,如果处理单元的长度超过阈值Za(S403中的“是”),则处理器146将左侧区R1设置成比右侧区R2大的尺寸(S405),将这两个区之间的区设置为中心区R0,并且将Flg设置为真(true)(S406)。
接下来,处理器146获取用户交互信息(S407),并且获取交互的左手或右手信息(S408)。如果交互是用用户的右手进行的(S409中的“是”),则处理器146将操作移动至S412。另一方面,如果交互是用用户的左手进行的(S409中的“否”)并且Flg被设置为假(false)(S410中的“否”),则处理器146将操作移动至S412。如果交互是用用户的左手进行的(S409中的“否”)并且Flg被设置为真(true)(S410中的“是”),则处理器146将右侧区R2设置成比左侧区R1更大的尺寸,并且将这两个区之间的区设置为中心区R0(S411)。
接下来,处理器146获取交互位置(S412)。如果交互位置在中心区R0中(S413中的“是”),则处理器146将该处理单元选为处理目标(S414),并且结束操作。另一方面,如果交互位置在左侧区R1中(S413中为“否”,然后S415中为“是”),则显示控制器147将插入符号移动至处理单元的左侧并且结束操作。
如果交互位置在右侧区R2中(S413中为“否”,并且S415中为“否”,然后S417中为“是”),则显示控制部147将插入符号移动至处理单元的右侧,然后结束操作。如果交互位置不在中心区R0、左侧区R1和右侧区R2中的任一个中(S413中为“否”,并且S415中为“否”,然后S417中为“否”),则处理器146结束操作。
[1.12.显示形式的修改示例]
针对显示部130是能够将画面投影到桌子Tb1上表面的投影仪的示例给出了以上描述。然而,显示部130的显示形式不限于该示例。图43是示出了显示部130的显示形式的修改示例的图。如图43所示,在信息处理系统10是移动终端的情况下,显示部130可以被设置在移动终端中。移动终端的类型不限于特定的类型,可以是平板电脑终端、智能电话或蜂窝电话。
[1.13.硬件配置示例]
接着,将参照图44描述根据本公开内容的实施方式的信息处理系统10的硬件配置。图44是示出根据本公开内容的实施方式的信息处理系统10的硬件配置示例的框图。
如图44所示,信息处理系统10包括中央处理单元(CPU)901、只读存储器(ROM)903以及随机存取存储器(RAM)905。此外,信息处理系统10可以包括主机总线907、桥接器909、外部总线911、接口913、输入设备915、输出设备917、存储设备919、驱动器921、连接端口923和通信设备925。在必要时,信息处理系统10还可以包括图像拍摄设备933和传感器935。连同或替代CPU 901,信息处理系统10可以具有被称为数字信号处理器(DSP)或专用集成电路(ASIC)的处理电路。
CPU 901用作运算处理单元和控制设备,并且根据记录在ROM 903、RAM 905、存储设备919或可移除记录介质927中的各种程序来控制信息处理系统10的总体操作或其一部分。ROM 903存储例如由CPU 901使用的程序和操作参数。RAM 905临时存储例如在CPU 901的运行中使用的程序和在执行程序时适当改变的参数。CPU 901、ROM 903和RAM 905经由由诸如CPU总线之类的内部总线构成的主机总线907彼此连接。此外,主机总线907经由桥接器909连接至诸如外围部件互连(PCI)/接口总线之类的外部总线911。
输入设备915是例如由用户操作的设备例如鼠标、键盘、触摸板、按钮、开关和操作杆。输入设备915可以包括用于检测用户声音的麦克风。输入设备915可以是例如使用红外线或其他无线电波的远程控制设备,或者可以是符合信息处理系统10的操作的诸如蜂窝电话之类的外部连接设备929。输入设备915包括基于用户输入的信息来生成输入信号并将该输入信号输出至CPU 901的输入控制电路。用户将各种数据输入至信息处理系统10并且通过操作输入设备915来指示信息处理系统10进行处理操作。此外,稍后将进行描述的图像拍摄设备933通过对用户的手或手指等的移动进行拍摄还可以作用为输入设备。在这种情况下,可以根据手的移动或手指的取向来确定定点位置。
输出设备917由能够视觉地或听觉地将获取的信息通知给用户的设备构成。输出设备917可以是诸如液晶显示器(LCD)、等离子显示板(PDP)、有机电致发光(EL)显示器和投影仪之类的显示设备,全息显示设备,诸如扬声器、头戴式耳机之类的音频输出设备以及打印机设备等。输出设备917将通过信息处理系统10的处理而获得的结果输出为诸如文本或图像之类的视频或者将其输出为诸如语音或声音之类的音频。此外,输出设备917可以包括例如用于照亮周围的灯。
存储设备919是被配置为信息处理系统10的存储部的示例的数据存储设备。例如,存储设备919由诸如硬盘驱动器(HDD)的磁存储设备、半导体存储设备、光学存储设备、和磁光存储设备构成。存储设备919存储由CPU 901执行的程序、各种数据、从外部获得的各种类型的数据等。
驱动器921是用于诸如磁盘、光盘、磁光盘、和半导体存储器之类的可移除记录介质927的读写器,并且合并在信息处理系统10中或者从外部附接到信息处理系统10。驱动器921读取记录在附接的可移除记录介质927中的信息,并将该信息输出至RAM 905。此外,驱动器921还向附接的可移除记录介质927写入。
连接端口923是用于直接将设备连接至信息处理系统10的端口。连接端口923可以是例如通用串行总线(USB)端口、IEEE 1394端口、或小型计算机系统接口(SCSI)端口。此外,连接端口923可以是例如RS-232C端口、光学音频终端或高清晰度多媒体接口(HDMI,注册商标)端口。外部连接设备929连接至连接端口923,从而可以在信息处理系统10与外部连接设备929之间交换各种类型的数据。
通信设备925是例如由通信设备等构成的通信接口,用于连接至通信网络931。通信设备925可以是例如用于有线或无线局域网(LAN)、蓝牙(注册商标)或无线USB(WUSB)的通信卡。此外,通信设备925可以是例如用于光学通信的路由器、用于非对称数字用户线路(ADSL)的路由器或用于各种通信的调制解调器。通信设备925例如使用因特网或其他通信设备使用诸如TCP/IP之类的预定协议来发送和接收信号等。此外,连接至通信设备925的通信网络931是通过有线或无线连接的网络,并且例如是因特网、家庭LAN、红外通信、无线电波通信、卫星通信等。
图像拍摄设备933通过使用诸如电荷耦合器件(CCD)或互补金属氧化物半导体(CMOS)之类的图像传感器以及用于对图像传感器上的对象图像的成像进行控制的诸如透镜之类的各种构件来拍摄真实空间并生成拍摄的图像。图像拍摄设备933可以拍摄静态图像或运动图像。
传感器935是例如各种传感器,例如加速度计、陀螺仪传感器、地磁传感器、光电传感器和声音传感器。传感器935获取有关信息处理系统10本身的状态的信息,例如信息处理系统10的壳体的姿态、以及关于信息处理系统10的周围环境的信息例如信息处理系统10周围的亮度或噪声。传感器935还可以包括接收全球定位系统(GPS)信号并且测量设备的维度、经度和海拔高度的GPS传感器。
针对信息处理系统10的硬件配置的示例给出了以上说明。可以使用通用构件来配置或者可以使用专用于每个部件的功能的硬件来配置上述部件中的每个部件。可以根据实施时的技术水平来适当改变这种配置。
<2.结论>
如上所述,根据本公开内容的实施方式,提供了包括处理单元获取部145和处理器146的信息处理设备140。处理单元获取部145基于噪声音量从通过对第一输入语音进行语音识别而获得的第一识别字符串中获取一个或更多个处理单元。处理器146在一个或更多个处理单元中的任一个处理单元被选为处理目标的情况下对处理目标进行处理。该配置使得可以更有效地处理从输入语音中识别的字符串。
以上参照附图描述了本公开内容的优选实施方式,然而本公开内容不限于上述示例。本领域技术人员可以在所附权利要求的范围内获得各种改变和修改,并且应当理解,它们将自然地落入本公开内容的技术范围内。
针对显示部130的显示形式的修改示例给出了上述说明,但是显示部130的显示形式不限于上述示例。显示部130可以是例如设置在除了头戴式显示器之外的可穿戴终端(例如手表或眼镜)中的显示器。此外,显示部130可以是例如设置在车载导航系统中的显示器。此外,显示部130可以是例如在医疗保健领域使用的显示器。
针对处理单元获取部145基于噪声音量从识别字符串中获取一个或更多个处理单元的示例给出了以上说明。然而,还可以使用其他噪声信息来替代噪声音量。在一个示例中,处理单元获取部145可以基于噪声声压从识别字符串中获得一个或更多个处理单元。在这种情况下,处理单元获取部145可以随着噪声声压的增加而减少处理单元的数量。此外,在一个示例中,处理单元获取部145可以基于噪声的声压级来从识别字符串中获得一个或多个处理单元。在这种情况下,处理单元获取部145可以随着噪声的声压级的增加而减少处理单元的数量。
可替选地,处理单元获取部145可以基于噪声频率从识别字符串中获得一个或多个处理单元。
此外,可以产生用于使合并在计算机中的诸如CPU、ROM和RAM之类的硬件执行与上述信息处理系统10的功能等同的功能的程序。此外,还可以提供记录有该程序的计算机可读记录介质。
此外,显示控制器147生成用于将显示内容显示在显示部130上的显示控制信息并且将生成的显示控制信息输出至显示部130,从而可以控制显示部130使得显示部130对显示内容进行显示。可以根据系统配置适当地改变显示控制信息的内容。
具体地,用于实现信息处理设备140的程序可以是例如网络应用。在这种情况下,可以使用诸如超文本标记语言(HTML)、标准通用标记语言(SGML)和可扩展标记语言(XML)之类的标记语言来生成显示控制信息。
每个部件的位置不限于特定的位置,只要进行上述信息处理系统10的操作即可。在一个特定的示例中,可以将图像输入部110、操作输入部115、语音输入部120、显示部130和信息处理设备140设置在经由网络连接的不同设备中。在这种情况下,信息处理设备140对应于例如诸如网络服务器或云服务器之类的服务器,而图像输入部110、操作输入部115、语音输入部120以及显示部130可以对应于经由网络连接至服务器的客户端。
此外,在本说明书中描述的效果仅是说明性和示例性的效果,不是限制性的。换言之,连同或替代上述效果,根据本公开内容的技术可以实现根据本说明书的描述对本领域技术人员而言明显的其他效果。
此外,本技术也可配置如下。
(1)
一种信息处理设备,包括:
处理单元获取部,被配置成基于噪声从通过对第一输入语音进行语音识别而获得的第一识别字符串中获取一个或更多个处理单元;以及
处理器,被配置成当所述一个或更多个处理单元中的任一个处理单元被选为处理目标时,对所述处理目标进行处理。
(2)
根据(1)所述的信息处理设备,
其中,所述处理单元获取部基于噪声音量从所述第一识别字符串中获取所述一个或更多个处理单元。
(3)
根据(2)所述的信息处理设备,
其中,所述处理单元获取部随着所述噪声音量的增加而减少所述处理单元的数量。
(4)
根据(1)至(3)中任一项所述的信息处理设备,还包括:
显示控制器,被配置成对显示部进行控制使得所述显示部显示所述一个或更多个处理单元。
(5)
根据(4)所述的信息处理设备,
其中,当从一个或更多个校正候选字符串中选择了校正字符串时,所述处理器通过将所述处理目标替换为所述校正字符串来校正所述处理目标。
(6)
根据(5)所述的信息处理设备,
其中,所述显示控制器使所述显示部针对每个类别来显示所述一个或更多个校正候选字符串。
(7)
根据(4)所述的信息处理设备,
其中,当从一个或更多个附加候选字符串中选择了附加字符串时,所述处理器将所述附加字符串添加至插入符号所在的位置。
(8)
根据(7)所述的信息处理设备,
其中,所述显示控制器使所述显示部针对每个类别来显示所述一个或更多个附加候选字符串。
(9)
根据(1)至(8)中任一项所述的信息处理设备,
其中,当输入了预定改变操作时,所述处理单元获取部改变所述一个或更多个处理单元中的至少任一个处理单元中包括的处理单元的数量。
(10)
根据(1)至(9)中任一项所述的信息处理设备,
其中,当输入了第二输入语音时,所述处理器通过将所述处理目标替换为第二识别字符串来校正所述处理目标,其中所述第二识别字符串是通过对所述第二输入语音进行语音识别而获得的。
(11)
根据(4)所述的信息处理设备,
其中,在选择了插入符号位置选择对象时,所述显示控制器将所述插入符号位置选择对象所在的位置选为插入符号的位置。
(12)
根据(11)所述的信息处理设备,
其中,所述处理单元的显示区域包括左侧区、中心区和右侧区,
其中,所述左侧区是用于选择位于所述处理单元左侧的所述插入符号位置选择对象的区,所述中心区是用于选择所述处理单元的区,并且所述右侧区是用于选择位于所述处理单元右侧的所述插入符号位置选择对象的区。
(13)
根据(12)所述的信息处理设备,
其中,所述处理器根据所述处理单元的长度来控制所述左侧区和所述右侧区中的每个的长度。
(14)
根据(1)至(13)中任一项所述的信息处理设备,
其中,当决定要删除所述处理目标时,所述处理器删除所述处理目标。(15)
根据(4)所述的信息处理设备,
其中,当决定要通过语音来校正所述处理目标时,所述处理器控制所述处理目标的长度。
(16)
根据(15)所述的信息处理设备,
其中,当决定要通过语音来校正所述处理目标时,所述处理器基于噪声音量来控制所述处理目标的长度。
(17)
根据(16)所述的信息处理设备,
其中,当决定要通过语音来校正所述处理目标时,所述处理器随着噪声音量的增加而增加所述处理目标的长度。
(18)
根据(16)所述的信息处理设备,
其中,在对所述处理目标的长度进行控制之后,所述显示控制器根据所述处理目标的经控制的长度来使所述显示部显示提示语音输入的消息。(19)
根据(15)所述的信息处理设备,
其中,当决定要通过语音来校正所述处理目标时,所述处理器根据所述处理目标前面和后面的位置中的至少一个位置处存在的词的语音的一部分来确定是否要将所述词包括在所述处理目标中。
(20)
根据(1)所述的信息处理设备,
其中,所述处理单元获取部基于噪声的声压从所述第一识别字符串中获取所述一个或更多个处理单元。
(21)
根据(1)所述的信息处理设备,
其中,所述处理单元获取部基于噪声的声压级从所述第一识别字符串中获取所述一个或更多个处理单元。
(22)
一种信息处理方法,所述方法包括:
基于噪声从通过对第一输入语音进行语音识别而获得的第一识别字符串中获取一个或更多个处理单元;以及
当所述一个或更多个处理单元中的任一个处理单元被选为处理目标时,对所述处理目标进行处理。
(23)
一种用于使计算机作用为信息处理设备的程序,所述信息处理设备包括:
处理单元获取部,被配置成基于噪声从通过对第一输入语音进行语音识别而获得的第一识别字符串中获取一个或更多个处理单元;以及
处理器,被配置成当所述一个或更多个处理单元中的任一个处理单元被选为处理目标时,对所述处理目标进行处理。
附图标记列表
10 信息处理系统
110 图像输入部
115 操作输入部
120 语音输入部
130 显示部
140 信息处理设备(控制器)
141 输入图像获取部
142 输入声音获取部
143 操作检测部
144 语音识别部
145 处理单元获取部
146 处理器
147 显示控制器
B1-B4 插入符号位置选择对象
CL 插入符号
RO 中心区
R1 左侧区
R2 右侧区
U0-U8 处理单元

Claims (23)

1.一种信息处理设备,包括:
处理单元获取部,其被配置成基于噪声从通过对第一输入语音进行语音识别而获得的第一识别字符串中获取一个或更多个处理单元;以及
处理器,其被配置成当所述一个或更多个处理单元中的任一个处理单元被选为处理目标时,对所述处理目标进行处理。
2.根据权利要求1所述的信息处理设备,
其中,所述处理单元获取部基于噪声音量从所述第一识别字符串中获取所述一个或更多个处理单元。
3.根据权利要求2所述的信息处理设备,
其中,所述处理单元获取部随着所述噪声音量的增加而减少所述处理单元的数量。
4.根据权利要求1所述的信息处理设备,还包括:
显示控制器,其被配置成对显示部进行控制使得所述显示部显示所述一个或更多个处理单元。
5.根据权利要求4所述的信息处理设备,
其中,当从一个或更多个校正候选字符串中选择了校正字符串时,所述处理器通过将所述处理目标替换为所述校正字符串来校正所述处理目标。
6.根据权利要求5所述的信息处理设备,
其中,所述显示控制器使所述显示部针对每个类别来显示所述一个或更多个校正候选字符串。
7.根据权利要求4所述的信息处理设备,
其中,当从一个或更多个附加候选字符串中选择了附加字符串时,所述处理器将所述附加字符串添加至插入符号所在的位置。
8.根据权利要求7所述的信息处理设备,
其中,所述显示控制器使所述显示部针对每个类别来显示所述一个或更多个附加候选字符串。
9.根据权利要求1所述的信息处理设备,
其中,当输入了预定改变操作时,所述处理单元获取部改变所述一个或更多个处理单元中的至少任一个处理单元中包括的处理单元的数量。
10.根据权利要求1所述的信息处理设备,
其中,当输入了第二输入语音时,所述处理器通过将所述处理目标替换为第二识别字符串来校正所述处理目标,其中所述第二识别字符串是通过对所述第二输入语音进行语音识别而获得的。
11.根据权利要求4所述的信息处理设备,
其中,在选择了插入符号位置选择对象时,所述显示控制器将所述插入符号位置选择对象所在的位置选为插入符号的位置。
12.根据权利要求11所述的信息处理设备,
其中,所述处理单元的显示区域包括左侧区、中心区和右侧区,
其中,所述左侧区是用于选择位于所述处理单元左侧的所述插入符号位置选择对象的区,所述中心区是用于选择所述处理单元的区,并且所述右侧区是用于选择位于所述处理单元右侧的所述插入符号位置选择对象的区。
13.根据权利要求12所述的信息处理设备,
其中,所述处理器根据所述处理单元的长度来控制所述左侧区和所述右侧区中的每个的长度。
14.根据权利要求1所述的信息处理设备,
其中,当决定要删除所述处理目标时,所述处理器删除所述处理目标。
15.根据权利要求4所述的信息处理设备,
其中,当决定要通过语音来校正所述处理目标时,所述处理器控制所述处理目标的长度。
16.根据权利要求15所述的信息处理设备,
其中,当决定要通过语音来校正所述处理目标时,所述处理器基于噪声音量来控制所述处理目标的长度。
17.根据权利要求16所述的信息处理设备,
其中,当决定要通过语音来校正所述处理目标时,所述处理器随着噪声音量的增加而增加所述处理目标的长度。
18.根据权利要求16所述的信息处理设备,
其中,在对所述处理目标的长度进行控制之后,所述显示控制器根据所述处理目标的经控制的长度来使所述显示部显示提示语音输入的消息。
19.根据权利要求15所述的信息处理设备,
其中,当决定要通过语音来校正所述处理目标时,所述处理器根据所述处理目标前面和后面的位置中的至少一个位置处存在的词的语音的一部分来确定是否要将所述词包括在所述处理目标中。
20.根据权利要求1所述的信息处理设备,
其中,所述处理单元获取部基于噪声的声压从所述第一识别字符串中获取所述一个或更多个处理单元。
21.根据权利要求1所述的信息处理设备,
其中,所述处理单元获取部基于噪声的声压级从所述第一识别字符串中获取所述一个或更多个处理单元。
22.一种信息处理方法,所述方法包括:
基于噪声从通过对第一输入语音进行语音识别而获得的第一识别字符串中获取一个或更多个处理单元;以及
当所述一个或更多个处理单元中的任一个处理单元被选为处理目标时,对所述处理目标进行处理。
23.一种用于使计算机作用为信息处理设备的程序,所述信息处理设备包括:
处理单元获取部,其被配置成基于噪声从通过对第一输入语音进行语音识别而获得的第一识别字符串中获取一个或更多个处理单元;以及
处理器,其被配置成当所述一个或更多个处理单元中的任一个处理单元被选为处理目标时,对所述处理目标进行处理。
CN201580064715.6A 2014-12-02 2015-08-24 信息处理设备、信息处理方法及程序 Pending CN107004406A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2014-243904 2014-12-02
JP2014243904A JP2016109725A (ja) 2014-12-02 2014-12-02 情報処理装置、情報処理方法およびプログラム
PCT/JP2015/073747 WO2016088411A1 (ja) 2014-12-02 2015-08-24 情報処理装置、情報処理方法およびプログラム

Publications (1)

Publication Number Publication Date
CN107004406A true CN107004406A (zh) 2017-08-01

Family

ID=56091369

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201580064715.6A Pending CN107004406A (zh) 2014-12-02 2015-08-24 信息处理设备、信息处理方法及程序

Country Status (5)

Country Link
US (1) US10540968B2 (zh)
EP (1) EP3229231A4 (zh)
JP (1) JP2016109725A (zh)
CN (1) CN107004406A (zh)
WO (1) WO2016088411A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6922920B2 (ja) * 2016-08-26 2021-08-18 ソニーグループ株式会社 情報処理装置及び情報処理方法
JPWO2018043137A1 (ja) * 2016-08-31 2019-06-24 ソニー株式会社 情報処理装置及び情報処理方法
EP3509060A4 (en) * 2016-08-31 2019-08-28 Sony Corporation INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING PROCESS AND PROGRAM
JP6700338B2 (ja) * 2018-06-19 2020-05-27 ソフトバンク株式会社 情報処理装置、情報処理方法、情報処理プログラム
JP7243106B2 (ja) * 2018-09-27 2023-03-22 富士通株式会社 修正候補提示方法、修正候補提示プログラムおよび情報処理装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008009153A (ja) * 2006-06-29 2008-01-17 Xanavi Informatics Corp 音声対話システム
US20090055175A1 (en) * 2007-08-22 2009-02-26 Terrell Ii James Richard Continuous speech transcription performance indication
US20090234647A1 (en) * 2008-03-14 2009-09-17 Microsoft Corporation Speech Recognition Disambiguation on Mobile Devices
CN102629470A (zh) * 2011-02-02 2012-08-08 Jvc建伍株式会社 辅音区间检测装置及辅音区间检测方法
CN102789476A (zh) * 2011-05-18 2012-11-21 索尼公司 信息处理装置、信息处理方法和程序
CN103069480A (zh) * 2010-06-14 2013-04-24 谷歌公司 用于语音识别的语音模型和噪声模型
WO2014041607A1 (ja) * 2012-09-11 2014-03-20 株式会社東芝 情報処理装置、情報処理方法およびプログラム

Family Cites Families (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3002204B2 (ja) * 1989-03-13 2000-01-24 株式会社東芝 時系列信号認識装置
JP3384478B2 (ja) * 1996-01-22 2003-03-10 富士ゼロックス株式会社 画像形成装置における騒音マスキング装置および騒音マスキング方法
US6044341A (en) * 1997-07-16 2000-03-28 Olympus Optical Co., Ltd. Noise suppression apparatus and recording medium recording processing program for performing noise removal from voice
FR2808917B1 (fr) * 2000-05-09 2003-12-12 Thomson Csf Procede et dispositif de reconnaissance vocale dans des environnements a niveau de bruit fluctuant
JP4244514B2 (ja) * 2000-10-23 2009-03-25 セイコーエプソン株式会社 音声認識方法および音声認識装置
JP2002278591A (ja) 2001-03-22 2002-09-27 Sharp Corp 情報処理装置および情報処理方法、並びに、プログラム記録媒体
JP3885002B2 (ja) * 2002-06-28 2007-02-21 キヤノン株式会社 情報処理装置およびその方法
WO2005071663A2 (en) * 2004-01-16 2005-08-04 Scansoft, Inc. Corpus-based speech synthesis based on segment recombination
US7783028B2 (en) * 2004-09-30 2010-08-24 International Business Machines Corporation System and method of using speech recognition at call centers to improve their efficiency and customer satisfaction
KR100657912B1 (ko) * 2004-11-18 2006-12-14 삼성전자주식회사 잡음 제거 방법 및 장치
JP2007057844A (ja) * 2005-08-24 2007-03-08 Fujitsu Ltd 音声認識システムおよび音声処理システム
JP2007264229A (ja) 2006-03-28 2007-10-11 Toshiba Corp 対話装置
US7725316B2 (en) * 2006-07-05 2010-05-25 General Motors Llc Applying speech recognition adaptation in an automated speech recognition system of a telematics-equipped vehicle
JP4854630B2 (ja) * 2007-09-13 2012-01-18 富士通株式会社 音処理装置、利得制御装置、利得制御方法及びコンピュータプログラム
US20090112588A1 (en) * 2007-10-31 2009-04-30 International Business Machines Corporation Method for segmenting communication transcripts using unsupervsed and semi-supervised techniques
KR101616054B1 (ko) * 2009-04-17 2016-04-28 삼성전자주식회사 음성 검출 장치 및 방법
US20110313762A1 (en) * 2010-06-20 2011-12-22 International Business Machines Corporation Speech output with confidence indication
KR101695816B1 (ko) * 2010-07-19 2017-01-13 엘지전자 주식회사 이동 단말기 및 그 제어방법
US9153243B2 (en) * 2011-01-27 2015-10-06 Nikon Corporation Imaging device, program, memory medium, and noise reduction method
JP2013068532A (ja) * 2011-09-22 2013-04-18 Clarion Co Ltd 情報端末、サーバー装置、検索システムおよびその検索方法
JP5845787B2 (ja) * 2011-09-30 2016-01-20 ブラザー工業株式会社 音声処理装置、音声処理方法、および音声処理プログラム
KR101457116B1 (ko) * 2011-11-07 2014-11-04 삼성전자주식회사 음성 인식 및 모션 인식을 이용한 전자 장치 및 그의 제어 방법
US9583108B2 (en) * 2011-12-08 2017-02-28 Forrest S. Baker III Trust Voice detection for automated communication system
US9418674B2 (en) * 2012-01-17 2016-08-16 GM Global Technology Operations LLC Method and system for using vehicle sound information to enhance audio prompting
US9934780B2 (en) * 2012-01-17 2018-04-03 GM Global Technology Operations LLC Method and system for using sound related vehicle information to enhance spoken dialogue by modifying dialogue's prompt pitch
US9070374B2 (en) * 2012-02-20 2015-06-30 JVC Kenwood Corporation Communication apparatus and condition notification method for notifying a used condition of communication apparatus by using a light-emitting device attached to communication apparatus
WO2013132926A1 (ja) * 2012-03-06 2013-09-12 日本電信電話株式会社 雑音推定装置、雑音推定方法、雑音推定プログラム及び記録媒体
US9401140B1 (en) * 2012-08-22 2016-07-26 Amazon Technologies, Inc. Unsupervised acoustic model training
US20140278389A1 (en) * 2013-03-12 2014-09-18 Motorola Mobility Llc Method and Apparatus for Adjusting Trigger Parameters for Voice Recognition Processing Based on Noise Characteristics
US9378737B2 (en) * 2012-11-05 2016-06-28 Mitsubishi Electric Corporation Voice recognition device
KR102023008B1 (ko) * 2012-12-10 2019-09-19 엘지전자 주식회사 음성-텍스트 변환 디스플레이 장치 및 그 방법
JP6263868B2 (ja) * 2013-06-17 2018-01-24 富士通株式会社 音声処理装置、音声処理方法および音声処理プログラム
US9443507B2 (en) * 2013-07-15 2016-09-13 GM Global Technology Operations LLC System and method for controlling a speech recognition system
US9424843B2 (en) * 2013-09-24 2016-08-23 Starkey Laboratories, Inc. Methods and apparatus for signal sharing to improve speech understanding
US9779724B2 (en) * 2013-11-04 2017-10-03 Google Inc. Selecting alternates in speech recognition

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008009153A (ja) * 2006-06-29 2008-01-17 Xanavi Informatics Corp 音声対話システム
US20090055175A1 (en) * 2007-08-22 2009-02-26 Terrell Ii James Richard Continuous speech transcription performance indication
US20090234647A1 (en) * 2008-03-14 2009-09-17 Microsoft Corporation Speech Recognition Disambiguation on Mobile Devices
CN103069480A (zh) * 2010-06-14 2013-04-24 谷歌公司 用于语音识别的语音模型和噪声模型
CN102629470A (zh) * 2011-02-02 2012-08-08 Jvc建伍株式会社 辅音区间检测装置及辅音区间检测方法
CN102789476A (zh) * 2011-05-18 2012-11-21 索尼公司 信息处理装置、信息处理方法和程序
WO2014041607A1 (ja) * 2012-09-11 2014-03-20 株式会社東芝 情報処理装置、情報処理方法およびプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘镜: "置信度的原理及其在语音识别中的应用", 《计算机研究与发展》 *

Also Published As

Publication number Publication date
US10540968B2 (en) 2020-01-21
EP3229231A1 (en) 2017-10-11
JP2016109725A (ja) 2016-06-20
EP3229231A4 (en) 2018-07-25
WO2016088411A1 (ja) 2016-06-09
US20170337920A1 (en) 2017-11-23

Similar Documents

Publication Publication Date Title
US10126936B2 (en) Typing assistance for editing
CN107004406A (zh) 信息处理设备、信息处理方法及程序
US9147275B1 (en) Approaches to text editing
KR20180102148A (ko) 그래픽 키보드 내에서의 도형 심볼 검색
JP2003162527A (ja) コミュニケーション支援装置及びコミュニケーション支援方法
US20190340233A1 (en) Input method, input device and apparatus for input
US10747499B2 (en) Information processing system and information processing method
US20140297276A1 (en) Editing apparatus, editing method, and computer program product
US20190042186A1 (en) Systems and methods for using optical character recognition with voice recognition commands
GB2591710A (en) Interface for input selection using a touch sensitive proximity-sensitive display
CN107112018A (zh) 信息处理装置、信息处理方法和程序
WO2017203764A1 (ja) 情報処理装置および情報処理方法
US11501504B2 (en) Method and apparatus for augmented reality
CN110837734A (zh) 文本信息处理方法、移动终端
JP2019101739A (ja) 情報処理装置、情報処理システムおよびプログラム
CN110969161A (zh) 图像处理方法、电路、视障辅助设备、电子设备和介质
US11048356B2 (en) Microphone on controller with touchpad to take in audio swipe feature data
CN117591804A (zh) 数据处理方法、装置、计算机设备及存储介质
JP2009151630A (ja) 情報処理装置、情報処理方法、及びプログラム
JP6572969B2 (ja) 音声認識装置、音声認識システム、及び、プログラム
JP2022019034A (ja) 情報処理プログラム、情報処理装置及び情報処理方法
JP2005108079A (ja) かな文字入力装置、かな文字入力方法、プログラムおよび記録媒体
CN114780573A (zh) 查询分析方法及系统、计算机可读存储介质及终端
CN116303812A (zh) 模型构建系统、方法、电子设备及存储介质
CN116089569A (zh) 样本构建方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
AD01 Patent right deemed abandoned
AD01 Patent right deemed abandoned

Effective date of abandoning: 20210312