CN109716285A - 信息处理装置和信息处理方法 - Google Patents

信息处理装置和信息处理方法 Download PDF

Info

Publication number
CN109716285A
CN109716285A CN201780057002.6A CN201780057002A CN109716285A CN 109716285 A CN109716285 A CN 109716285A CN 201780057002 A CN201780057002 A CN 201780057002A CN 109716285 A CN109716285 A CN 109716285A
Authority
CN
China
Prior art keywords
response
voice
information
unit
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201780057002.6A
Other languages
English (en)
Inventor
小野淳也
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN109716285A publication Critical patent/CN109716285A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/16Constructional details or arrangements
    • G06F1/1613Constructional details or arrangements for portable computers
    • G06F1/163Wearable computers, e.g. on a belt
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/012Head tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/086Detection of language
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

提供一种信息处理装置和信息处理方法。一种信息处理装置,包括:获取单元,被配置为获取已接受语音的麦克风的位置信息;以及响应控制单元,被配置为基于语音和位置信息控制对语音的响应。

Description

信息处理装置和信息处理方法
技术领域
本公开涉及信息处理装置和信息处理方法。
背景技术
公开这样的一种技术,该技术生成对用户语音的响应并且向发出语音的用户呈现所生成的响应(例如,参见专利文献1)。
引用列表
专利文献
专利文献1:JP 2016-502192T
发明内容
技术问题
为了得到用户期望的响应,例如,可以认为用户发出包含用于控制响应的响应控制信息的语音。然而,如果语音包括响应控制信息,语音句子变得复杂,并且用户的负担可能增加。
因此,本公开提出一种新的改进的信息处理装置和信息处理方法,其使得能在减少用户负担的同时做出用户期望的响应。
问题的解决方案
根据本公开,提供一种信息处理装置,包括:获取单元,被配置为获取已接受语音的麦克风的位置信息;以及响应控制单元,被配置为基于语音和位置信息控制对语音的响应。
根据本公开,提供一种信息处理装置,包括:通信单元,被配置为发送已接受语音的麦克风的位置信息并接收与对语音的响应有关的响应信息,响应信息基于语音和位置信息;以及处理单元,被配置为基于响应信息执行处理。
此外,根据本公开,提供一种信息处理方法,包括:获取已接受语音的麦克风的位置信息;以及由处理器基于语音和位置信息控制对语音的响应。
此外,根据本公开,提供一种信息处理方法,包括:发送已接受语音的麦克风的位置信息并接收与对语音的响应有关的响应信息,响应信息是基于语音和位置信息的;以及由处理器基于响应信息执行处理。
发明的有益效果
如上所述,根据本公开,可以在减少用户负担的同时做出用户期望的响应。
注意,上述效果并非是限制性的。具有或代替上述效果,可以实现本说明书中描述的任何一种效果或者可以从本说明书中理解的其他效果。
附图说明
[图1]图1是用于说明根据本公开的实施方式的信息处理装置1的概述的说明性示图。
[图2]图2是用于说明根据实施方式的信息处理装置1的概述的说明性示图。
[图3]图3是用于说明根据实施方式的信息处理装置1的概述的说明性示图。
[图4]图4是示出根据实施方式的信息处理装置1的配置实例的框图。
[图5]图5是示出根据实施方式的信息处理装置1的处理流程的实例的流程图。
[图6]图6是用于说明应用实例1的说明性示图。
[图7]图7是用于说明应用实例1的说明性示图。
[图8]图8是用于说明应用实例1的说明性示图。
[图9]图9是用于说明应用实例1的说明性示图。
[图10]图10是用于说明应用实例2的说明性示图。
[图11]图11是示出了根据应用实例3的信息处理系统的配置的说明性示图。
[图12]图12是示出了根据应用实例的客户端2的配置实例的框图。
[图13]图13是示出了根据应用实例的服务器3的配置实例的框图。
[图14]图14是示出了根据应用实例的客户端2的发送数据的实例的说明性示图。
[图15]图15是示出了根据应用实例的指示用JSON格式表示的分析模式的信息的实例的说明性示图。
[图16]图16是示出了根据应用实例的声音数据的值的实例的说明性示图。
[图17]图17是示出了根据应用实例的客户端2的接收数据的说明性示图。
[图18]图18是示出了根据应用实例4的客户端2-2的配置实例的框图。
[图19]图19是示出了根据应用实例的服务器3-2的配置实例的框图。
[图20]图20是示出了硬件配置实例的说明性示图。
具体实施方式
在下文中,将参照附图对本公开内容的优选实施方式进行详细说明。注意,在本说明书和附图中,具有基本上相同的功能和结构的结构元件用相同的附图标记表示,并且省略这些结构元件的重复说明。
注意,将按照以下顺序提供描述。
<<1.引言>>
<1-1.背景>
<1-2.概述>
<<2.配置实例>>
<2-1.总体配置>
<2-2.控制单元的细节>
<<3.操作实例>>
<3-1.处理流程>
<3-2.响应控制的具体实例>
<<4.应用实例>>
<4-1.应用实例1>
<4-2.应用实例2>
<4-3.应用实例3>
<4-4.应用实例4>
<<5.硬件配置实例>>
<<6.总结>>
<<1.引言>>
<1-1.背景>
在描述根据本公开的实施方式的信息处理装置之前,首先,将描述根据本公开的实施方式的信息处理装置创建的背景。
近年来,涌现了旨在用户佩带时使用的一种设备,称为所谓的可佩带设备。虽然可佩带设备包括例如各种形式(诸如,眼镜型、腕表型及颈带型)的设备,通常的情况是这种可佩带设备的屏幕小或这种可佩带设备不具有屏幕。因此,在用户向这种可佩带设备执行输入的情况下,假定用户通过对着设备讲话(发出语音)而非直接操纵屏幕执行输入。此外,甚至对于包含除声音输入以外的输入功能的可佩带设备,在用户难以使用他/她的手的情况下(诸如,在驾驶、烹调等期间),通过语音进行输入是有效的。
此外,在使用小屏幕或不具有屏幕的设备做出响应的情况下,例如,可以使用声音做出响应。在使用声音的响应中,由于其需要很长时间呈现例如详细信息,存在期望仅包含概述的响应的情况(取决于用户),还存在即使需要花费较长的时间期望包含详细信息的响应的情况。
以这种方式,为了获得用户期望的响应,人们认为用户发出包含例如用于控制响应的响应控制信息的语音(诸如,“请详细告知明天的天气”)。然而,如果语音中包含响应控制信息,由于语音句子变得复杂,语音识别和语义分析发生错误的可能性会增大,并且用户负担会增大。
因此,考虑到上述情况,本发明已创作了本实施方式。根据本实施方式,可以在不使语音句子复杂的情况下做出用户期望的响应。下面将参照图1至图3描述具有这种效果的本公开的实施方式的概述。
<1-2.概述>
下面将描述根据本公开的实施方式的信息处理装置的概述。应注意,随后将参照图4描述根据本实施方式的信息处理装置的细节。
图1至图3是用于说明根据本实施方式的信息处理装置1的概述的说明性示图。如图1所示,信息处理装置1为例如颈带型可佩带设备,并且可绕用户U1的颈部佩带。此外,信息处理装置1包括从用户U1看设置在右侧上的右麦克风MR1和从用户U1看设置在左侧上的左麦克风ML1,并且收集用户U1的声音以获取语音。
在此,例如,如图2所示,用户U1可向左麦克风ML1发出语音,或者如图3所示,可向右麦克风MR1发出语音。根据本实施方式的信息处理装置1获取已接受如上所述用户U1的语音的麦克风的位置信息,并基于位置信息执行响应控制。
例如,在图2示出的实例和在图3示出的实例中,即使用户U1发出相同的语音,信息处理装置1可以在图2中示出的实例和在图3中示出的实例中输出不同的响应。
例如,信息处理装置1可以执行响应控制,以使得与在图2示出的实例中的响应的信息量相比,在图3示出的实例中的响应包括更多的(更详细的)信息的信息量以向用户呈现。应注意,信息处理装置1的响应控制不限于该实例,并且随后将描述响应控制的各种实例。
此外,虽然图1至图3示出了信息处理装置1是颈带型可佩带设备的实例,但根据本技术的信息处理装置不限于该实例。随后将描述本技术的其他装置实例作为本技术的应用实例。
上面已描述根据本实施方式的信息处理装置1的概述。基于根据本实施方式的信息处理装置1,通过基于已接受语音的麦克风的位置信息控制响应,例如,即使用户发出相同的语音,可以做出各种类型的响应。因此,可以在不使语音句子复杂的情况下做出用户期望的响应。下面将参照图4描述用于实现这种效果的信息处理装置1的详细配置。
<<2.配置实例>>
图4是示出了根据本公开的实施方式的信息处理装置1的配置实例的框图。如图4所示,根据本实施方式的信息处理装置1包括控制单元10、输入单元20、输出单元30、通信单元40和存储单元50。在描述了信息处理装置1的总体配置之后,下面将详细描述控制单元10。
<2-1.总体配置>
控制单元10控制信息处理装置1的每个组件。例如,控制单元10基于来自输入单元20的用户输入的语音控制输出单元30以输出对用户语音的响应。应注意,随后将描述控制单元10的详细配置。
输入单元20接受用户的输入,并且在本实施方式中,设置在信息处理装置1处以接受来自用户的语音。根据本实施方式的输入单元20包括用于收集用户的声音的多个麦克风,并且例如,可以包括图1至图3中示出的右麦克风MR1和左麦克风ML1。此外,输入单元20可以包括三个以上的麦克风,在这样的情况下,可以改进随后将描述的波束形成处理的精确度。
应注意,输入单元20不限于麦克风,并且例如,可以包括相机、深度传感器等。输入单元20将通过用户的输入操作生成的数据发送至控制单元10。
输出单元30根据控制单元10的控制执行输出。在本实施方式中,输出单元30输出对用户的语音的响应。输出单元30可以包括例如输出声音的扬声器,显示文字、图像和其他视觉信息的显示器,输出光的灯,输出振动等的振动装置。
通信单元40与其他装置通信信息。例如,通信单元40可以通过基于控制单元10的控制与其他装置通信信息来获取信息,该信息成为来自其他装置的对用户的语音的响应基础。
存储单元50存储信息处理装置1的每个组件要使用的程序和参数以发挥作用。此外,如图4所示,存储单元50存储一般知识DB 52、用户知识DB 54和语音历史DB 56。一般知识DB 52是包含图形结构的一般知识的数据库。此外,用户知识DB 54是包含有关用户的对用户特定的图形结构的知识的数据库。此外,语音历史DB 56是包含用户的图形结构的语音历史的数据库。一般知识DB 52、用户知识DB 54和语音历史DB 56可以被控制单元10参考并且如下文将描述的可以由控制单元10更新。
<2-2.控制单元的细节>
上面已描述根据本实施方式的信息处理装置1的总体配置实例。随后,将更详细地描述设置在信息处理装置1处的控制单元10的功能配置。
如图4所示,根据本实施方式的控制单元10用作语音检测单元110、扬声器识别单元120、响应控制单元130、语音分析单元140和输出控制单元150。
(语音检测单元)
语音检测单元110检测用户已对输入单元20发出语音。然后,如果语音检测单元110检测用户已发出语音,语音检测单元110将语音的内容转换成文本,并提取语音文本。此外,如果语音检测单元110检测用户已发出语音,则语音检测单元110将语音片段中的声音输出至在语音检测单元110之后的阶段设置的扬声器识别单元120。此外,语音检测单元110向响应控制单元130发送转换为文本(语音文本)的语音的内容。
如图4所示,语音检测单元110包括信号处理单元112和语音识别单元114。
信号处理单元112对从输入单元20发送的声音数据执行信号处理以改善语音识别的准确度。信号处理单元112执行从声音数据去除噪声和回波的信号处理以改进例如远声场中的语音识别的准确度。
语音识别单元114执行接受用户已发出语音的处理,并对在信号处理单元112经受信号处理的声音数据执行语音识别处理以将语音转换为文本。
例如,语音识别单元114接受用户已发出语音并检测用户的语音片段。通过接受用户已发出语音并由此检测用户的语音片段限制语音部分,可以改进语音识别的准确度。通过接受用户已发出语音检测用户的语音片段限制语音部分,可以限制语音识别的处理时段并实现省电。
此外,语音识别单元114对所检测的用户的语音片段执行语音识别处理以将声音(语音)转换为文本。将声音转换为文本的处理不限于特定处理。
(扬声器认识单元)
扬声器识别单元120指定已向输入单元20发出语音的扬声器。此外,根据本实施方式的扬声器识别单元120还用作获取已接受语音的麦克风的位置信息的获取单元。
如图4所示,扬声器识别单元120包括波束形成单元122、麦克风指定单元124和扬声器确定单元126。
波束形成单元122从通过波束形成获得的相位差指定通过设置为输入单元20的多个麦克风发出的语音的方向。
麦克风指定单元124通过从由波束形成单元122指定的已发出语音的方向和声音的体积指定已接受语音的麦克风,获取已接受语音的麦克风的位置信息。
在本实施方式中,如参照图1描述的,信息处理装置1包括从用户处看设置在右侧上的右麦克风MR1和从用户处看设置在左侧上的左麦克风ML1。例如,在已接受语音的麦克风被指定为右麦克风MR1的情况下,麦克风指定单元124可以获取指示右侧的位置信息。此外,在已接受语音的麦克风被指定为左麦克风ML1的情况下,麦克风指定单元124可以获取指示左侧的位置信息。
应注意,由麦克风指定单元124获取的位置信息无须一一对应于设置在信息处理装置1处的麦克风。例如,如在图1中示出的实例中,在用户U1朝向右麦克风MR1与左麦克风ML1之间的中心发出语音的情况下,麦克风指定单元124可以获取指示中心的位置信息。
扬声器确定单元126执行指定已发出语音的人(扬声器)的处理。例如,扬声器确定单元126通过对利用设置为输入单元20的相机捕获的图像进行面部识别处理而在由波束形成单元122指定的发出语音的方向上指定人(扬声器)。此外,扬声器确定单元126可以例如分析语音的声音以基于声音波形指定已发出语音的人。应注意,扬声器确定单元126可以对存储在存储单元50中的用户知识DB 54进行查询以指定已发出语音的人并获取存储在用户知识DB 54处的人的简档信息。此外,扬声器确定单元126可以从用户知识DB 54获取指定已发出语音的人的简档信息并且向响应控制单元130提供简档信息。(响应控制单元)
响应控制单元130基于用户的语音和已接受语音的麦克风的位置信息控制对语音的响应。例如,响应控制单元130通过生成与对语音的响应有关的响应信息控制响应并且向输出控制单元150发送响应信息。此外,响应控制单元130向语音分析单元140发送语音文本和指示随后将描述的语音分析模式的信息。
如图4所示,响应控制单元130包括分析模式控制单元132和响应生成单元134。
分析模式控制单元132基于已接受语音的麦克风的位置信息,控制由随后将描述的语音分析单元140进行的语音分析模式。根据本实施方式的分析模式控制单元132确定是否基于已接受语音的麦克风的位置信息应用分析模式并发送指示要应用于语音分析单元140的语音分析模式的信息。应当注意,虽然随后将描述语音分析模式,例如,分析模式控制单元132确定应用的语音分析模式可以是域补充、时位补充和个性化的应用。
如上所述,由于随后将描述的响应生成单元134生成的响应信息通过基于已接受语音的麦克风的位置信息控制语音分析模式的分析模式控制单元132而有所不同,因此可以控制响应。
响应生成单元134通过基于语音分析单元140对语音的分析结果和麦克风的位置信息生成与对语音的响应有关的响应信息控制响应。此外,响应生成单元134可以通过根据扬声器识别单元120指定的扬声器生成响应信息,来控制响应。应注意,响应生成单元134可以基于例如从存储在存储单元50中的数据库获取的信息、经由通信单元40从未示出的其他装置获取的信息等生成响应信息。
响应信息可以包括例如要通过声音、显示器等向用户呈现的文本信息。此外,响应信息可以包括转换为数据格式以向用户呈现的的信息,诸如声音数据和图像数据。此外,响应信息可以包括随后将描述的输出控制单元150要使用的预定条件的信息以确定输出时序,在这样的情况下,响应生成单元134可以控制响应的输出时序。此外,响应信息可以包括指示响应的模态的信息(用于向用户呈现响应的方法,诸如,读取文本、显示文本,和显示图像)。
应注意,随后将描述由响应控制单元130进行响应控制的实例。
(语音分析单元)
语音分析单元140分析由语音检测单元110检测的语音的内容。语音分析单元140通过语言分析、语义分析等分析由语音检测单元110检测的语音的内容。那么,作为语音分析单元140分析由语音检测单元110检测的语音的内容的结果,如果语音的内容是问题句子,则语音分析单元140在存储在存储单元50中的数据库处进行查询并获取需要的信息。此外,语音分析单元140向响应控制单元130发送语音的分析结果。
如图4所示,语音分析单元140包括语言分析单元142和意图理解单元144。
语言分析单元142分析由语音检测单元110转换的语音文本的结构。语言分析单元142可以例如通过分析语音文本的结构确定用户发出的语音的内容是否是一个问题。
意图理解单元144分析由语音检测单元110转换的语音文本以生成表示域(操作命令)和时位(辅助信息)的语义框架(表结构)。在本实施方式中,域对应于例如信息处理装置1要执行的应用的种类(诸如,天气应用和日程安排应用)。此外,在本实施方式中,时位(slot,时位)对应于要传送给应用的参数。
例如,如在下面的表1中示出了通过分析语音文本“请告知TUL明天的天气”生成的语义框架。在表1中指示的实例中,输入“天气-查看”作为域,输入“明天”作为日期时位,并且输入“TUL”作为地点时位(slot)。
[表1]
表1.标准化之前的语义框架
属性
天气-查看
时位(日期) 明天
时位(地点) TUL
此外,意图理解单元144解释语音检测单元110转换的语音文本中包含的模糊表达以解释用户发出的语音的意图并且使信息标准化。例如,意图理解单元144通过在存储在存储单元50中的数据库处进行查询解释模糊表达。
表2是指示由意图理解单元144使表1中指示的语义框架标准化获得的语义框架的实例的表。由于难以用“明天”的日期表达式执行处理,意图理解单元144可以使时间表达式的表达标准化。此外,由于“TUL”的地点表达是模糊的,意图理解单元144通过在存储在存储单元50中的一般知识DB 52处进行查询使表达标准化为“东京通用陆地”。
[表2]
表2.标准化之后的语义框架
属性
天气-查看
时位(日期) YYYY:MM:DD
时位(地点) 东京通用陆地
此外,意图理解单元144可以根据指示由响应控制单元130提供的分析模式的信息分析语音文本。例如,在提供指示域补充的信息作为指示分析模式的信息的情况下,意图理解单元144可以由先前的语音补充(接管)语义框架中的域。此外,在提供指示时位补充的信息作为指示分析模式的信息的情况下,意图理解单元144可以由先前的语音补充语义框架中的时位。应注意,意图理解单元144可以基于存储在语音历史DB 56(存储在存储单元50中的)中的语音的历史执行上述补充。
通过如上所述由先前语音补充的域或时位,在例如所需信息未一次包含在语音文本中并且以隔开的方式发出语音的情况下,可以补充信息。
此外,在指示个性化的应用的信息提供作为指示分析模式的信息的情况下,意图理解单元144可以执行针对用户(例如,扬声器)优化的分析。例如,在指示个性化的应用的信息被提供作为指示分析模式的信息的情况下,意图理解单元144可以在存储在存储单元50中的用户知识DB 54处进行查询以获取用户的简档信息,并且基于用户的简档信息使语义框架标准化。
根据这种配置,将针对用户优化的分析结果提供给响应控制单元130,使得响应控制单元130可以生成针对用户优化的响应信息。
通过具有上述基于已接受语音的麦克风的位置信息使用分析模式分析语音的功能的信息处理装置1,用户还可以通过选择麦克风向信息处理装置1提供未包括在语音文本中的信息。
(输出控制单元)
输出控制单元150控制输出单元30的输出。例如,输出控制单元150基于从响应控制单元130提供的响应信息使响应被输出。此外,输出控制单元150可以控制响应的输出时序。
此外,输出控制单元150可以控制输出单元30以向用户反馈已接受语音的麦克风的位置信息。例如,可以通过在输出控制单元150的控制下根据已接受语音的麦克风的位置信息从位置输出光、声音、振动等。根据这种配置,用户(扬声器)可以确认已接受语音的麦克风是否被指定为想要的。
如图4所示,输出控制单元150包括触发确定单元152和声音合成单元154。
触发确定单元152确定响应的输出时序。根据本实施方式的信息处理装置1具有两种类型的模式,即,实时输出响应的模式和和在满足预定条件的时间点输出响应的模式。实时输出响应的模式还称为实时模式,在满足预定条件的时间点输出响应的模式还称为书签模式。触发确定单元152使用的预定条件可以为例如输出的内容进入预定状态或者例如到达预定时间。
输出的内容的预定状态可以为例如内容结束的时间,或者在内容是电视节目可以是商业广告节目的时间。内容结束的时间可以包括内容再现直到结束的时间和用户明确地结束内容再现的时间。上述预定时间包括在内容结束时间相对之后出现的时间和与内容结束不相干的时间。应当注意,在到达预定时间的条件下输出响应的情况下,触发确定单元152要使用的预定条件可以包括内容不被输出的条件。
此外,触发确定单元152要使用的预定条件不限于以上所述,并且可以为应用、信息处理装置1或其他装置进入预定状态。例如,预定状态可以为完成预定应用的状态,信息处理装置1进入信息处理装置1断电等的准备状态的状态。此外,在如以后将描述的本技术应用于汽车的情况下,预定状态可以是汽车的发动机关闭的状态,制动踏板被压下而汽车停止的状态,导航完成的状态等。
如上所述,通过控制响应的输出时序,例如,可以在用户更期望的时序输出响应而不会阻止用户当前执行的动作。
在响应信息包括要读取的文本信息的情况下,声音合成单元154将文本信息转换为声音数据。
上面已具体描述根据本实施方式的信息处理装置1的配置。应注意,图4中示出的信息处理装置1的配置是实例,并且本实施方式不限于此。例如,可以在经由通信单元40连接的其他信息处理装置处提供根据本实施方式的控制单元10的每个功能。这种实例随后将描述为应用实例。
<<3.操作实例>>
随后,将描述根据本实施方式的信息处理装置1的操作实例。在以下描述中,首先,将参照图5描述处理流程,并且然后将描述根据本实施方式的响应控制的具体实例。
<3-1.处理流程>
图5是示出根据本实施方式的信息处理装置1的处理流程的实例的流程图。如图5中示出的,首先,语音检测单元110检测语音并提取语音句子(语音文本)(S102)。
随后,波束形成单元122执行波束形成处理并指定已发出语音的方向(S104)。此外,麦克风指定单元124从在步骤S104中指定的发出语音的方向和声音的体积指定已接受语音的麦克风,并获取已接受语音的麦克风的位置信息(S106)。随后,扬声器确定单元126指定已发出语音的人(扬声器)(S108)。
随后,在输出控制单元150的控制下向用户反馈已接受语音的麦克风的位置信息(S110)。
随后,分析模式控制单元132基于已接受语音的麦克风的位置信息确定语言分析中的分析模式(S112)。语音分析单元140使用在步骤S112中确定的分析模式分析语音句子(语音文本)以获取语义框架。
随后,响应生成单元134基于语音(语义框架)的分析结果和已接受语音的麦克风的位置信息生成响应信息(S116)。此外,输出控制单元150基于响应信息执行使响应输出的输出控制(S118)。
<3-2.响应控制的具体实例>
上面已描述了根据本实施方式的信息处理装置1的处理流程的实例。随后,将描述响应控制单元130的上述响应控制的具体实例。在以下描述中,将举例描述已接受语音的麦克风的位置信息(在下文中,还称为语音位置)主要在“左侧”或“右侧”的情况。
(信息量)
响应控制单元130可以基于语音位置控制响应中包含的信息量。例如,响应控制单元130可以生成响应信息,使得与语音位置在“左侧”的情况下相比,语音位置在“右侧”的情况下的响应中包括更多的信息量。此外,为了防止用户摇摆,最好控制响应使得在上述语音位置与所有种类的应用服务中的信息量之间保持一致的关系。
应当注意,尽管取决于文化圈,由于人从左至右感知信息流,与在语音位置在“左侧”的情况相比,语音位置在“右侧”的情况下包括更多的信息量的状态与人的感知匹配。
例如,响应控制单元130可以基于语音位置,控制信息的深度(精细度)。下面将描述天气应用中的实例和新闻应用中的实例。
例如,在用户发出语音“请告知东京明天的天气”的情况下,如果语音位置在“左侧”,则可能生成包含最小信息(诸如,晴天/阴天/雨天)的响应信息,而如果语音位置在“右侧”,可以生成除最小信息之外包含更详细的信息(诸如,最高/最低温度及从夜晚一直为晴)的响应信息。例如,如果语音位置在“左侧”,可以输出诸如“东京明天的天气晴”的响应。然而,如果语音位置在“右侧”,可以输出诸如“明天东京的天气的最高温度为30℃,最低温度为20℃,并且从夜晚一直下雨”的响应。
此外,在用户发出语音“请告知Kei Nishikori的新闻”的情况下,如果语音位置在“左侧”,则可以生成包含少量信息的响应信息,而如果语音位置在“右侧”,可以生成包含更详细的信息的响应信息。例如,如果语音位置在“左侧”,则可以输出诸如“在第四轮比赛中Nishikori会战Karottibi”的响应。而如果语音位置在“右侧”,可以输出诸如“在美国公开网球锦标赛的第六天Nishikori进入第四轮并且会战Karottibi”的响应。
此外,响应控制单元130可以基于语音位置控制信息的范围(长度)。下面将描述音乐应用中的实例。
例如,在用户发出请求音乐再现的语音的情况下,如果语音位置在“左侧”,可以生成类似预览的包含短声音数据(例如,仅音乐的符尾-线部分)的响应信息,而如果语音位置在“右侧”,可以生成包含整个音乐的声音数据的响应信息。应当注意,在音乐再现之前,可以输出有关信息范围的响应(诸如,“仅将再现符尾-线部分”和“将再现完整长度的音乐”)。
(时间方向的协调)
响应控制单元130可以控制响应,使得与响应有关的时间方向对应于语音位置。例如,响应控制单元130可以生成响应信息,使得在语音位置在“左侧”的情况下包括过去的信息,在语音位置在“中央”的情况下包括当前信息,以及在语音位置在“右侧”的情况下包括将来的信息。此外,为了防止用户摇摆,最好控制响应,使得在所有种类的应用服务中在上述语音位置与时间方向之间保持一致的关系。
应当注意,尽管取决于文化圈,由于人从左至右感知信息流,与在语音位置为“左侧”的情况相比,在语音位置为“右侧”的情况下包括在时间上更晚(将来的)的信息的状态与人的感知匹配。
下面将描述日程安排应用中的实例。
此外,在用户发出语音“请向我展示我的孩子的日程安排”的情况下,如果语音位置在“左侧”,则可以生成包含过去的日程安排的响应信息,而如果语音位置在“右侧”,则可以生成包含将来的日程安排的响应信息。应注意,参考时间可以是发出语音的时间(当前时间)。应当注意,在这种实例中,可以在显示器上等显示响应的输出。
此外,在输出过去的信息作为响应的情况下,可以利用在过去的时间点获得的数据(诸如,照片、移动的图像和声音的数据)。因此,例如,在用户发出语音“给我看看我的孩子的运动会”的情况下,如果语音位置在“左侧”,则过去的运动会中的照片数据、移动图像数据等可以包括在响应信息中。此外,如果语音位置在“右侧”,则可以生成包含将来的时间安排的响应信息。在这种实例中,根据语音位置,域(在上述实例中,应用的类型)可以是不同的。
(与空间协调)
响应控制单元130可以控制响应,使得语音位置对应于与响应有关的空间。例如,响应控制单元130可以生成响应信息,使得在语音位置在“左侧”的情况下包括有关空间的左侧的信息,在语音位置在“中央”的情况下包括空间的中央的信息,以及在语音位置在“右侧”的情况下,包括有关空间的右侧的信息。应注意,空间中的方向可以是例如以用户的前侧为起点的方向。
下面将描述地图应用中的实例。
例如,在用户发出语音“搜索附近的便利商店”的情况下,如果语音位置在“左侧”,则可以生成包含左侧的搜索结果的响应信息,而如果语音位置在“右侧”,则可以生成包含左侧的搜索结果的响应信息。
(输出时序)
响应控制单元130可以根据语音位置控制响应的输出时序。例如,可以控制响应的输出时序,使得如果语音位置在“左侧”,则实时输出响应,而如果语音位置在“右侧”,则在满足预定条件的时间点输出响应。在这种情况下,响应控制单元130可以通过生成与输出时序有关的模式(实时模式或书签模式)的信息和包含预定条件的响应信息,控制输出时序。下面将描述提醒应用中的实例和相机应用中的实例。
例如,在用户发出语音“给我爸爸打电话”的情况下,可以控制响应的输出时序,使得如果语音位置在“左侧”,则实时进行电话呼叫,而如果语音位置在“右侧”,将语音内容添加到TODO列表,并且在满足预定条件的时间点提醒用户TODO(输出通知)。应当注意,在这种情况下,可以输出有关响应(诸如,“打电话给Mr.***”和“添加到TODO”)的输出时序的声音。应当注意,在这种实例中,可以在基于存储在用户的爸爸是“***”的用户知识DB 54中的用户的简档信息指定之后进行电话呼叫。
此外,在控制输出时序的情况下,可以基于存储在用户知识DB 54中的用户的简档信息生成包含多个用户在过去的响应的信息的响应信息。
例如,在第一用户在“右侧”的语音位置处发出语音“买牛奶”的情况下,并且作为第一用户的家庭成员的第二用户在“右侧”的语音位置处发出语音“买大米”,则各条语音内容被加到相应TODO列表中。此外,在用户中的一个发出语音“给我看看家庭成员的TODO列表”的情况下,可以基于存储在用户知识DB 54中的用户的简档信息输出“想要买牛奶和大米”的响应。
此外,在用户发出“拍照”的语音的情况下,如果语音位置在“左侧”,则实时进行拍照,而如果语音位置在“右侧”,则在预时序长之后使用自拍装置进行拍照。此外,与语音位置在“左侧”的情况相比,在语音位置在“右侧”的情况下,在更长的预定时长之后使用自拍装置进行拍照。应当注意,在这种情况下,可以输出有关拍照定时(诸如,“将在3秒之后拍照”和“将在10秒之后拍照”)的声音。
(附加信息)
响应控制单元130可以通过根据语音位置确定是否向响应信息添加附加信息来控制响应。下面将描述音乐应用中的实例。
例如,附加信息可以包括与对包含模糊表达的语音的响应有关的原因的信息。例如,在语音位置在“左侧”的情况下,响应控制单元130可以生成不包含响应的原因的响应信息,并且在语音位置在“右侧”的情况下可以生成包含响应的原因的响应信息。
例如,在用户发出请求音乐再现的语音的情况下,该语音包括模糊的表达(诸如,不包含歌曲名称但是包含艺术家的名称的语音),如果语音位置在“左侧”,响应控制单元130可以生成不包括选择音乐的原因的响应信息,并且如果语音位置在“右侧”可以生成包含选择音乐的原因的响应信息。例如,在语音位置在“右侧”的情况下,可以输出诸如“这是再现多次的***”和“这是你喜爱的歌曲”的响应。
此外,要被添加至响应信息的附加信息可以是有关响应的补充信息(累积的知识)。在用户发出请求再现音乐的语音的情况下,例如,在语音位置在“左侧”的情况下,响应控制单元130可以生成不包括累积的知识的响应信息,并且在语音位置在“右侧”的情况下,可以生成包含累积的知识的响应信息。例如,在语音位置在“右侧”的情况下,可以输出诸如“在音乐排名中这首歌排第一”的响应。
(搜索范围)
响应控制单元130可以根据语音位置控制有关响应的搜索范围。下面将描述地图应用中的实例。
例如,在用户发出“搜索餐馆”的语音的情况下,如果语音位置在“左侧”,可以生成包含窄搜索范围内(例如,一公里半径内)的搜索结果的响应信息,而如果语音位置在“右侧”,则可以生成包含宽搜索范围内(例如,在五公里半径内)的搜索结果的响应信息。应当注意,在这种情况下,可以输出有关搜索范围(诸如,“在一公里半径内进行搜索”和“在五公里半径内进行搜索”)的响应。此外,可以基于例如用户的行为状态(诸如,坐汽车和步行)确定搜索范围的大小(与搜索有关的半径的值)。
(预定功能)
响应控制单元130可以根据语音位置基于预定功能控制响应。预定功能可以为例如为每个应用分配的功能或由用户分配的功能。
例如,响应控制单元130可以生成音乐应用中的响应信息,使得如果语音位置在“左侧”,循环再现音乐,而如果语音位置在“右侧”,则以打乱方式再现音乐。通过所分配的各种类型的功能,语音位置的选择可以起到快捷键功能的作用。
(域补充)
响应控制单元130可以确定是否应用域补充作为通过语音分析单元140进行的语音分析模式。例如,在语音位置在“左侧”的情况下,响应控制单元130可以提供指示向语音分析单元140应用域补充作为分析模式的信息。
例如,将描述用户发出语音“请让我知道东京明天的天气”、用户发出语音“请让我知道关于Osaki的情况”之后的情况。在语音位置在“左侧”的情况下,在语音分析中补充域(在该实例中,“天气-查看”),并且例如,输出诸如“Osaki明天的天气晴”的响应。然而,在语音位置在“右侧”的情况下,在语音分析中不补充域,并且域被强制切换至术语的分析,并且例如输出诸如“Osaki是东京的品川区的地理名称并且在Osaki区域内”的响应。
(时位补充)
响应控制单元130可以确定是否应用时位补充作为语音分析单元140的语音分析模式。例如,在语音位置在“左侧”的情况下,响应控制单元130可以提供指示向语音分析单元140应用时位补充作为分析模式的信息。
例如,将描述在用户发出语音“东京明天的天气怎样”、用户发出语音“日程安排是什么”之后的情况。在语音位置在“左侧”的情况下,在语音分析中补充日期时位(在该实例中,“明天”),并且例如,输出诸如“明天的日程安排是***”的响应。同时,在语音位置在“右侧”的情况下,在语音分析中不补充时位,并且例如,由于不清楚有关用户请求何时的日程安排,输出请求日期的信息的响应,诸如“什么时候的日程安排?”。此外,将描述继上述之后用户发出语音“后天的天气如何”的情况。在语音位置在“左侧”的情况下,在语音分析中补充地点时位(在该实例中,“东京”),并且例如输出诸如“东京后天的天气为雨天”的响应。同时,在语音位置在“右侧”的情况下,在语音分析中不补充时位,并且例如,由于不清楚有关用户请求哪里的天气,输出请求地点的信息的响应,诸如“哪里的天气?”。
(个性化)
响应控制单元130可以确定是否应用个性化作为语音分析单元140的语音分析模式。例如,在语音位置在“右侧”的情况下,响应控制单元130可以提供指示向语音分析单元140应用个性化作为分析模式的信息。
例如,在用户发出请求音乐再现的语音的情况下,该语音包含多个艺术家可以对应的艺术家的名称,如果语音位置在“左侧”,例如,可以通过基于一般知识进行分析来再现相应的艺术家中最受欢迎的艺术家的音乐而没有应用个性化。此外,在这种情况下,如果语音位置在“右侧”,例如,可以通过在应用个性化的同时进行分析来再现基于用户(扬声器)的兴趣、再现历史等选择的艺术家的音乐。
上面已具体描述了根据本实施方式的信息处理装置1的响应控制的实例。应注意,上述响应控制是实例,响应控制不限于此,并且根据本实施方式的信息处理装置1可以执行各种类型的响应控制。
<<4.应用实例>>
上面已描述了根据本公开的实施方式的配置实例和操作实例。随后,将描述本公开的实施方式的一些应用实例。
<4-1.应用实例1>
尽管在上述实施方式中已描述了本技术应用于颈带型的可佩带设备的实例,但本技术不限于这样的实例。作为应用实例1,将描述本技术应用于安装在汽车(交通工具的实例)上的车载设备的实例。
图6至图9是用于说明应用实例1的说明性示图。如图6所示,汽车7包括相对于行进方向设置在左侧上的左麦克风ML2和相对于行进方向设置在右侧上的右麦克风MR2,并且用户U2坐在汽车7的驾驶员座椅上,用户U3坐在乘客座椅上。
坐在驾驶员座椅上的用户U2可以如图6所示的向左麦克风ML2发出语音并且可以如图7所示的向右麦克风MR2发出语音。此外,按类似方式,坐在乘客的座椅上的用户U3可如图8所示的向左麦克风ML2发出语音并且可如图9所示的向右麦克风MR2发出语音。
因此,按与上述实施方式类似的方式,根据本应用实例的车载装置可以获取已接受用户U2或U3发出的语音的麦克风的位置信息并且可以基于位置信息执行响应控制。
此外,由于扬声器所位于的座椅和麦克风所固定的位置,通过从麦克风至涉及的每个座椅的方向,根据本应用实例的车载装置可以判断扬声器所位于的座椅是驾驶员的座椅还是乘客的座椅。在这种情况下,车载装置可以根据与扬声器有关的信息(例如,扬声器所在的座椅)控制与响应的输出有关的模态。应注意,模态的信息可以包括在响应信息中。
表3是根据扬声器指示模态的控制实例的表。例如,在扬声器位于的座椅是驾驶员的座椅的情况下,仅可以输出使用声音的响应以防止响应妨碍驾驶。此外,在扬声器所在的座椅为乘客的座椅的情况下,除了使用声音的响应之外,可以添加使用文本的响应。使用文本的响应可以显示在例如车载装置的显示器上或者可以被发送到具有扬声器的信息终端(诸如,智能电话)并显示在信息终端。
[表3]
表3.根据扬声器的模态
<4-2.应用实例2>
此外,本技术可以应用于放在家的家用设备(诸如,内容再现设备和机器人)。在以下描述中,作为应用实例2,将描述本技术应用于家用设备的实例。
图10是用于说明应用实例2的说明性示图。如图10所示,家用设备8包括麦克风M1至M8。此外,在家里的用户U4和用户U5可以在任意方向上以任意距离发出语音。
按与上述实施方式类似的方式,根据本应用实例的家用设备8可以获取已接受用户U2或U3发出的语音的麦克风的位置信息并且可以基于位置信息执行响应控制。
家用设备8可以从麦克风M1至M8中指定已接受语音的麦克风并且可以根据麦克风位于参考位置P的左侧还是右侧获取位置信息。例如,在图10所示的实例中,与用户U4发出的语音有关的信息在“右侧”,并且与用户U5发出的语音有关的信息在“左侧”。应注意,家用设备8可以获取比“左侧”和“右侧”更准确的范围的位置信息,在这样的情况下,可以设置大量参考位置。
<4-3.应用实例3>
此外,尽管在上述实施方式中,已描述了一个装置包括参照图4描述的各个功能的实例,但本技术不限于这样的实例。在以下描述中,作为应用实例3,将描述上述效果由彼此协调的多个装置实现的实例。
图11是示出了根据本应用实例的信息处理系统的配置的说明性示图。如图11所示,根据本应用实例的信息处理系统包括客户终端2、服务器3和通信网络5。
客户终端2可以为例如参照图1至图3描述的颈带型可佩带设备,参照图6至图9描述的车载装置,参照图10描述的家用设备等。
图12是示出了客户终端2的配置实例的框图。如图12所示,根据本应用实例的客户终端2是包含控制单元10-2、输入单元20、输出单元30和通信单元40的信息处理装置。应当注意,在图12所示的组件中,由于为与图4所示的相应组件基本相似的组件分配相同的参考标号,将在提供描述时根据需要适当地省略描述。
图12所示的控制单元10-2控制客户终端2的每个组件。如图12所示,根据本应用实例的控制单元10-2用作语音检测单元110-2、扬声器识别单元120、响应控制单元130-2和输出控制单元150-2。
如图12所示,语音检测单元110-2具有参照图4描述的语音检测单元110的功能中信号处理单元112的功能,并且无须具有语音识别单元114的功能。此外,语音检测单元110-2使在信号处理单元112处经受信号处理的声音数据(语音声音)经由通信单元40发送到服务器3。
尽管响应控制单元130-2以与参照图4描述的响应控制单元130类似的方式,基于用户的语音和已接受语音的麦克风的位置信息控制对语音的响应,但信息的输入/输出目的地部分不同于响应控制单元130中的那些。如图12所示,响应控制单元130-2包括分析模式控制单元136和响应生成单元138。
分析模式控制单元136以与参照图4描述的分析模式控制单元132类似的方式控制语音分析模式。由于在服务器3处执行语音分析,根据本应用实例的分析模式控制单元136可以生成具有能够发送至服务器3的形式、指示分析模式的信息。
响应生成单元138以与参照图4描述的响应生成单元134类似的方式生成响应信息。根据本应用实例的响应生成单元138通过基于经由通信单元40从服务器3获取的语音的分析结果和麦克风的位置信息,生成与对语音的响应有关的响应信息,由此控制响应。应注意,所生成的响应信息被发送至服务器3和输出控制单元150-2。因此,根据本应用实例的响应生成单元138可以生成具有能够被发送到服务器3的形式的响应信息。
输出控制单元150-2以与参照图4描述的输出控制单元150类似的方式控制输出单元30的输出。此外,如图12所示,输出控制单元150-2具有参照图4描述的输出控制单元150的功能中的触发确定单元152的功能,并且无须具有声音合成单元354的功能。
图13是示出了服务器3的配置实施例的框图。如图13所示,根据本应用实例的服务器3是包含控制单元310、通信单元340和存储单元50的信息处理装置。应当注意,在图13所示的组件中,由于为与图4所示的相应组件基本相似的组件分配相同的参考标号,将在提供描述时适当地省略描述。
控制单元310控制服务器3的每个组件。如图13所示,根据本应用实例的控制单元310用作语音分析单元140、语音识别单元314和声音合成单元354。
语音识别单元314对经由通信单元340从客户终端2接收的声音数据(语音声音)执行语音识别处理以将语音转换为文本。
在经由通信单元340从客户终端2接收的响应信息包括要读取的文本信息的情况下,声音合成单元354将文本信息转换为声音数据。应注意,所转换的声音数据经由通信单元340被发送至客户终端2。
通信单元340与其他装置通信信息。
通信网络5是从连接到通信网络5的装置或者系统发送的信息的有线或无线发送路径。例如,通信网络5可以包括诸如互联网、电话网络和卫星通信网路的公用网络、包含以太网(注册商标)各种类型的局域网(LAN)、广域网(WAN)等。此外,通信网络5可以包括私用网络诸如互联网协议-虚拟专用网络(IP-VPN)。
如图11所示,客户终端2和服务器3经由通信网络5彼此连接并且可以彼此进行通信。下面将描述客户终端2与服务器3之间通信的实例。应当注意,在以下实例中,将描述用户在“左侧”的语音位置处发出语音“请给我看看我的孩子的日程安排”的情况。此外,在这种实例中,假定通过响应控制单元130-2确定的分析模式被设定为应用域补充,应用时位补充,并且应用个性化的情况。
首先,将指示分析模式和声音数据(二进制数据)的信息从客户终端2发送至服务器3。图14是示出了发送数据的实例的说明性示图。在图14中,将发送数据用“multipart_boundary”的字符串分开。
应当注意,为了简单描述,虽然在图14所示的通信实例中示出了从语音开始直到语音结束的声音数据一并发送的情况,声音数据可以被依次发送。如果在获取语音的全部声音数据之后发送声音数据,由于声音数据是在用户的语音完成之后被发送,这可能导致延迟,还可以在用户的语音期间分割并发送声音数据并依次执行语音识别作为顺序语音识别。在这种情况下,从语音开始时的声音数据直到语音结束时的声音数据建立从客户终端2至服务器3的会话。
图15是示出了指示用JSON格式表示的分析模式的信息的实例的说明性示图。在图15中,1的域标签的值指示应用域补充,而0指示不应用补充。此外,1的时位标签的值指示应用时位补充,而0指示不应用补充。此外,1的个性化标签的值指示应用个性化,而0指示不应用个性化。
图16是示出了声音数据的值的实例的说明性示图。如图16所示,声音数据可以是十六进制的二进制码。
此外,在由服务器3执行语音识别和语音分析之后,语义框架被发送至客户终端2作为语音分析结果。图17是示出了客户终端2的接收数据的说明性示图。在图17中,用JSON格式表示语义框架。表4是指示图17中的JSON标签的描述的表。
[表4]
表4.接收数据的JSON标签
应注意,图17和表4中人物中的“无”是指语音中不包括人物的信息。此外,图17和表4中的日期值“无”是语音中不包括特定日期信息。
此外,由客户终端2的响应生成单元138基于语音的分析结果生成的响应信息被发送至服务器3并且通过服务器3的声音合成单元354转换为声音数据并返回至客户终端2。
从客户终端2发送至服务器3的响应信息可以用JSON格式表示,例如如下:
{“响应文本”:“Taro的日程安排是XXX”}
此外,根据声音合成的声音格式,由客户终端2从服务器3接收到的声音数据可以是二元数据。
应当注意,在客户终端2包括声音合成单元的情况下,不必传送响应信息和声音数据。
<4-4.应用实例4>
本技术应用于包含多个装置的信息系统的情况下的配置实例不限于上述应用实例3。下面将描述另一配置实例作为应用实例4。由于除了服务器执行响应控制之外,本应用实例与上述实施方式和应用实例3基本相似,因此将主要对不同之处进行描述,且视情况省略基本相似的点的描述。应注意,假定如下所述的客户终端2-3和服务器3-2经由通信网络5彼此连接并且可以与参照图11描述的客户终端2和服务器3类似的方式彼此执行通信。
图18是示出了根据本应用实例的客户端2-2的配置实例的框图。如图18所示,根据本应用实例的客户终端2-2是包含控制单元10-3、输入单元20、输出单元30和通信单元40的信息处理装置。应当注意,在图18所示的组件中,由于为与图4和图12所示的相应组件基本相似的组件分配相同的参考标号,将在提供描述时适当地省略描述。
根据本应用实例的控制单元10-3控制客户终端2-2的每个组件。如图18所示,根据本应用实例的控制单元10-3用作语音检测单元110-2、扬声器识别单元120-2和输出控制单元150-3并且无须具有响应控制单元的功能。
因此,根据本应用实例的扬声器识别单元120-2与图4所示的扬声器识别单元120的不同之处在于,扬声器识别单元120-2使得已接受语音的麦克风的位置信息和扬声器的信息经由通信单元40被发送到服务器3-2。
此外,根据本应用实例的输出控制单元150-3(处理单元的实例)与图4所示的输出控制单元150的不同之处在于,输出控制单元150-3基于经由通信单元40从服务器3-2接收的响应信息执行响应的输出控制处理。
图19是示出了根据本应用实例的服务器3-2的配置实例的框图。如图19所示,根据本应用实例的服务器3-2是包含控制单元310-2、通信单元340和存储单元50的信息处理装置。应当注意,在图19所示的组件中,由于为与图4和图13所示的相应组件基本相似的组件分配相同的参考标号,将在提供描述时适当地省略描述。
控制单元310-2控制服务器3-2的每个组件。如图19所示,根据本应用实例的控制单元310-2具有语音分析单元140、语音识别单元314和响应控制单元330的功能。由于控制单元310-2包括响应控制单元330,控制单元310-2还用作获取单元,获取单元经由通信单元340从客户终端2接收(获取)已接受语音的麦克风的位置信息。
响应控制单元330以与参照图12描述的响应控制单元130-2类似的方式,基于用户的语音和已接受语音的麦克风的位置信息控制对语音的响应。根据本应用实例的响应控制单元330与图12所示的响应控制单元130-2的不同之处在于,响应控制单元330基于从客户终端2接收的、已接受语音的麦克风的位置信息控制响应。此外,根据本应用实例的响应控制单元330与图12所示的响应控制单元130-2的不同之处在于,响应控制单元330使得所生成的响应信息被发送到客户终端2。应当注意,在服务器3-2包括声音合成单元的情况下,从服务器3-2发送至客户终端2-2的响应信息可以是声音数据。
如上所述,即使客户终端2-2不具有响应控制功能,根据本应用实例,可以基于已接受语音的麦克风的位置信息进行响应。
<<5.硬件配置实例>>
至此已经描述了本公开的实施方式。最后,将参照图20描述根据本实施方式的信息处理装置的硬件配置。图20是示出根据本实施方式的信息处理装置的硬件配置的实例的框图。同时,例如,图20所示的信息处理装置900可以实现信息处理装置1,图4、图12、图13、图18、和图19中的每一个所示的客户端2和客户端2-2和服务器3和服务器3-2。根据如下所述的软件与硬件之间的协作实现通过根据本实施方式的信息处理装置1、客户端2和客户端2-2和服务器3和3-2进行的信息处理。
如图20所示,信息处理装置900包括中央处理单元(CPU)901、只读存储器(ROM)902、随机存取存储器(RAM)903、和主机总线904a。此外,信息处理装置900包括网桥904、外部总线904b、接口905、输入装置906、输出装置907、存储装置908、驱动器909、连接端口911、通信装置913、和传感器915。信息处理装置900可以包括处理电路,诸如DSP或ASIC代替CPU901等。
CPU 901用作算术处理装置和控制装置,并且根据各种程序控制信息处理装置900中的整体操作。此外,CPU 901可以是微处理器。ROM 902存储被CPU 901所使用的程序、操作参数等。RAM 903暂时存储CPU 901执行时使用的程序、执行中适当改变的参数等等。例如,CPU 901可以形成控制单元10、10-2、10-3、310、和310-2。
CPU 901、ROM 902、和RAM 903通过包含CPU总线等的主机总线904a相互连接。主机总线904a经由网桥904与外部总线904b(诸如,外围部件互联/接口(PCI)总线)连接。此外,主机总线904a、网桥904、和外部总线904b不必单独配置并且这种功能可以安装在单个总线中。
例如,输入装置906由用户输入信息所经由的装置(诸如,鼠标、键盘、触摸面板、按钮、麦克风、开关、和控制杆)实现。此外,例如,输入装置906可以是使用红外线或者其他电波的遥控装置,或者可以是外接设备,诸如与信息处理装置900的操作相对应的蜂窝电话或PDA。此外,例如,输入装置906可以包括输入控制电路等,其基于用户使用上述输入装置输入的信息生成输入信号并且将输入信号输出至CPU 901。信息处理装置900的用户可以通过操作输入装置906输入各种类型的数据或命令信息处理装置900的处理操作。例如,输入装置906可以形成输入单元20。
输出装置907由可以用视觉或听觉的方式通知用户所获取信息的装置形成。作为这种装置,存在显示装置,诸如CRT显示装置、液晶显示装置、等离子体显示装置、EL显示装置或灯;声音输出装置(诸如,扬声器或头戴式耳机)、打印机装置等等。例如,输出装置907输出通过信息处理装置900执行的各种处理获取的结果。具体地,显示装置以各种形式(诸如,文本、图像、表和曲线图)可视地显示通过由信息处理装置900执行的各种处理获取的结果。另一方面,声音输出装置将包含再现声音数据、音频数据等的音频信号转换为模拟信号并且用听觉的方式输出模拟信号。例如,显示装置907可以形成输出单元30。
存储装置908是用于数据存储的装置,形成为信息处理装置900的存储单元的实例。例如,存储装置908由诸如HDD、半导体存储设备、光学存储设备、磁光存储设备等的磁性存储设备实现。存储装置908可以包括存储介质,用于将数据记录在存储介质上的记录装置,用于从存储介质读取数据的读取装置,用于删除记录在存储介质上的数据的删除装置等等。存储装置908存储CPU 901执行的程序和各种类型的数据、从外部获取的各种类型的数据等。例如,存储装置908可以形成存储单元50。
驱动器909是用于存储介质的读取器/写入器,并且包括在信息处理装置900中或外部附接到信息处理装置。驱动器909读取记录在可移动存储介质(诸如,磁盘、光盘、磁光盘、或安装在其上的半导体存储器)上的信息,并且将信息输出至RAM 903。此外,驱动器909可以在可移动存储介质上写入信息。
例如,连接端口911是与外部设备相连接的接口并且是外部设备的连接器,可以通过通用串行总线(USB)等经由该连接端口发送数据。
例如,通信装置913是由用以连接至网络920的通信装置等形成的通信接口。例如,通信装置913是用于有线或无线局域网(LAN)、长期演进(LTE)、蓝牙(注册商标)、或无线USB(WUSB)的通信卡等。此外,通信装置913可以是用于光通信的路由器、用于非对称数字用户线路(ADSL)的路由器、各种通信调制解调器等。例如,通信装置913可以根据预定协议(诸如,TCP/IP)向互联网和其他通信装置发送信号和从其接收信号等。例如,通信装置913可以形成通信单元40和340。
此外,网络920是从连接到网络920的装置发送的信息的有线或无线传输路径。例如,网络920可以包括诸如互联网的公用电路网络、电话电路网络或卫星通信网路、包含以太网(注册商标)的各种局域网(LAN)、广域网(WAN)等。此外,网络920可以包括专用电路网络诸如互联网协议-虚拟专用网络(IP-VPN)。
在上文中,示出根据该实施方式的能够实现信息处理装置900的功能的硬件配置的实例。相应组件可以使用通用构件实现,或者可以通过相应组件的功能特定的硬件实现。因此,根据执行实施方式时的技术水平,可以适当改变要使用的硬件结构。
此外,用于实现如上所述根据本实施方式的信息处理装置900的功能中的每一个的计算机程序可以建立,并且可以安装在PC或诸如此类中。此外,可以提供其上存储计算机程序的计算机可读记录介质。记录介质是例如磁盘、光盘、磁光盘、闪存等。此外,例如,计算机程序可以通过网络传送而不使用记录介质。
<<6.总结>>
如上所述,根据本公开的实施方式,可以在减少用户负担的同时做出用户期望的响应。
上面已参考附图描述了本公开的优选的实施方式,而本公开不限于上述实例。本领域技术人员可以在所附权利要求的范围内找到各种变化和修改,并且应该理解,这些变化和修改将自然地落入本公开的技术范围内。
例如,在上述实施方式中的步骤不需要总是根据作为流程图描述的顺序依时间次序处理。例如,在上述实施方式中的处理的步骤可以与作为流程图描述的顺序不同的顺序处理,或者可以同时处理。
此外,在本说明书中描述的效果仅仅是说明性或示例性的效果,而不是限制性的。即,利用或代替上述效果,根据本公开的技术可以从本说明书的描述中实现本领域技术人员清楚的其他效果。
此外,本技术还可被配置为如下。
(1)一种信息处理装置,包括:
获取单元,被配置为获取已接受语音的麦克风的位置信息;以及
响应控制单元,被配置为基于语音和位置信息控制对语音的响应。
(2)根据(1)所述的信息处理装置,
其中,响应控制单元基于位置信息控制语音的分析模式并且基于语音的分析结果控制响应。
(3)根据(2)所述的信息处理装置,
其中,响应控制单元通过基于位置信息确定是否应用分析模式控制语音的分析模式。
(4)根据(3)所述的信息处理装置,
其中,分析模式包括域补充、时位补充或个性化中的至少一个。
(5)根据(1)至(4)中的任一项所述的信息处理装置,
其中,所述响应控制单元基于位置信息控制响应中包含的信息量。
(6)根据(1)至(5)中任一项所述的信息处理装置,
其中,响应控制单元控制响应,以使得位置信息对应于与响应有关的时间方向。
(7)根据(6)所述的信息处理装置,
其中,响应控制单元控制响应,使得在位置信息在右侧的情况下响应中包含的信息是晚于在位置信息在左侧的情况下响应中包含的信息的信息。
(8)根据(1)至(7)中任一项所述的信息处理装置,
其中,响应控制单元控制响应,使得位置信息对应于与响应有关的空间。
(9)根据(1)至(8)中任一项所述的信息处理装置,
其中,响应控制单元基于位置信息控制响应的输出时序。
(10)根据(1)至(9)中任一项所述的信息处理装置,
其中,响应控制单元基于位置信息确定是否向响应中添加附加信息。
(11)根据(10)所述的信息处理装置,
其中,附加信息包括与响应有关的原因的信息或者与响应有关的补充信息。
(12)根据(1)至(11)中的任一项所述的信息处理装置,
其中,响应控制单元基于位置信息控制与响应有关的搜索范围。
(13)根据(1)至(12)中的任一项所述的信息处理装置,
其中,响应控制单元根据位置信息基于预定功能控制响应。
(14)根据(1)至(13)中的任一项所述的信息处理装置,
其中,响应控制单元进一步基于与语音的扬声器有关的信息控制响应。
(15)一种信息处理装置,包括:
通信单元,被配置为发送已接受语音的麦克风的位置信息并接收与对语音的响应有关的响应信息,响应信息是基于语音和位置信息的;以及
处理单元,被配置为基于响应信息执行处理。
(16)一种信息处理方法,包括:
获取已接受语音的麦克风的位置信息;以及
由处理器基于语音和位置信息控制对语音的响应。
(17)一种信息处理方法,包括:
发送已接受语音的麦克风的位置信息并接收与对语音的响应有关的响应信息,响应信息是基于语音和位置信息的;以及
由处理器基于响应信息执行处理。
参照符号列表
1信息处理装置
2客户端
3服务器
5通信网络
7汽车
8家用设备
10控制单元
20输入单元
30输出单元
40通信单元
50存储单元
110语音检测单元
112信号处理单元
114语音识别单元
120扬声器识别单元
122波束形成单元
124麦克风指定单元
126扬声器确定单元
130响应控制单元
132分析模式控制单元
134响应生成单元
136分析模式控制单元
138响应生成单元
140语音分析单元
142语言分析单元
144意图理解单元
150输出控制单元
152触发确定单元
154声音合成单元
310控制单元
314语音识别单元
330响应控制单元
340通信单元
354声音合成单元

Claims (17)

1.一种信息处理装置,包括:
获取单元,被配置为获取已接受语音的麦克风的位置信息;以及
响应控制单元,被配置为基于所述语音和所述位置信息控制对所述语音的响应。
2.根据权利要求1所述的信息处理装置,
其中,所述响应控制单元基于所述位置信息控制所述语音的分析模式,并且基于所述语音的分析结果控制所述响应。
3.根据权利要求2所述的信息处理装置,
其中,所述响应控制单元通过基于所述位置信息确定是否应用所述分析模式,来控制所述语音的所述分析模式。
4.根据权利要求3所述的信息处理装置,
其中,所述分析模式包括域补充、时位补充和个性化中的至少一个。
5.根据权利要求1所述的信息处理装置,
其中,所述响应控制单元基于所述位置信息控制所述响应中包含的信息量。
6.根据权利要求1所述的信息处理装置,
其中,所述响应控制单元控制所述响应,以使得所述位置信息对应于与所述响应有关的时间方向。
7.根据权利要求6所述的信息处理装置,
其中,所述响应控制单元控制所述响应,以使得在所述位置信息在右侧的情况下所述响应中包含的信息是晚于在所述位置信息在左侧的情况下所述响应中包含的信息的信息。
8.根据权利要求1所述的信息处理装置,
其中,所述响应控制单元控制所述响应,以使得所述位置信息对应于与所述响应有关的空间。
9.根据权利要求1所述的信息处理装置,
其中,所述响应控制单元基于所述位置信息控制所述响应的输出时序。
10.根据权利要求1所述的信息处理装置,
其中,所述响应控制单元基于所述位置信息确定是否向所述响应中添加附加信息。
11.根据权利要求10所述的信息处理装置,
其中,所述附加信息包括与所述响应有关的原因的信息或者与所述响应有关的补充信息。
12.根据权利要求1所述的信息处理装置,
其中,所述响应控制单元基于所述位置信息控制与所述响应有关的搜索范围。
13.根据权利要求1所述的信息处理装置,
其中,所述响应控制单元根据所述位置信息基于预定功能控制所述响应。
14.根据权利要求1所述的信息处理装置,
其中,所述响应控制单元进一步基于与所述语音的扬声器有关的信息控制所述响应。
15.一种信息处理装置,包括:
通信单元,被配置为发送已接受语音的麦克风的位置信息并接收与对所述语音的响应有关的响应信息,所述响应信息基于所述语音和所述位置信息;以及
处理单元,被配置为基于所述响应信息执行处理。
16.一种信息处理方法,包括
获取已接受语音的麦克风的位置信息;以及
由处理器基于所述语音和所述位置信息控制对所述语音的响应。
17.一种信息处理方法,包括
发送已接受语音的麦克风的位置信息并接收与对所述语音的响应有关的响应信息,所述响应信息基于所述语音和所述位置信息;
以及
由处理器基于所述响应信息执行处理。
CN201780057002.6A 2016-09-23 2017-07-21 信息处理装置和信息处理方法 Pending CN109716285A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2016-186151 2016-09-23
JP2016186151 2016-09-23
PCT/JP2017/026399 WO2018055898A1 (ja) 2016-09-23 2017-07-21 情報処理装置、及び情報処理方法

Publications (1)

Publication Number Publication Date
CN109716285A true CN109716285A (zh) 2019-05-03

Family

ID=61690367

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780057002.6A Pending CN109716285A (zh) 2016-09-23 2017-07-21 信息处理装置和信息处理方法

Country Status (5)

Country Link
US (1) US10976998B2 (zh)
EP (1) EP3518095A4 (zh)
JP (1) JP6904361B2 (zh)
CN (1) CN109716285A (zh)
WO (1) WO2018055898A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110648663A (zh) * 2019-09-26 2020-01-03 科大讯飞(苏州)科技有限公司 车载音频管理方法、装置、设备、汽车及可读存储介质

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021139920A (ja) * 2018-05-31 2021-09-16 ソニーグループ株式会社 音声処理装置および音声処理方法
JP2019212168A (ja) * 2018-06-07 2019-12-12 トヨタ自動車株式会社 音声認識システムおよび情報処理装置
CN111160002B (zh) * 2019-12-27 2022-03-01 北京百度网讯科技有限公司 用于输出口语理解中解析异常信息的方法和装置
JP6786139B1 (ja) * 2020-07-06 2020-11-18 Fairy Devices株式会社 音声入力装置
US20220375466A1 (en) * 2021-05-18 2022-11-24 Apple Inc. Siri integration with guest voices

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050075875A1 (en) * 2003-10-03 2005-04-07 Makoto Shozakai Data process unit and data process unit control program
US20070038444A1 (en) * 2005-02-23 2007-02-15 Markus Buck Automatic control of adjustable elements associated with a vehicle
JP2011035524A (ja) * 2009-07-30 2011-02-17 Oki Electric Industry Co Ltd 情報処理システム、情報処理装置、及び情報処理方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4247002B2 (ja) * 2003-01-22 2009-04-02 富士通株式会社 マイクロホンアレイを用いた話者距離検出装置及び方法並びに当該装置を用いた音声入出力装置
US7464029B2 (en) * 2005-07-22 2008-12-09 Qualcomm Incorporated Robust separation of speech signals in a noisy environment
DE602006007322D1 (de) * 2006-04-25 2009-07-30 Harman Becker Automotive Sys Fahrzeugkommunikationssystem
JP5156260B2 (ja) * 2007-04-27 2013-03-06 ニュアンス コミュニケーションズ,インコーポレイテッド 雑音を除去して目的音を抽出する方法、前処理部、音声認識システムおよびプログラム
US20090055178A1 (en) * 2007-08-23 2009-02-26 Coon Bradley S System and method of controlling personalized settings in a vehicle
JP2010156825A (ja) * 2008-12-26 2010-07-15 Fujitsu Ten Ltd 音声出力装置
KR101750338B1 (ko) * 2010-09-13 2017-06-23 삼성전자주식회사 마이크의 빔포밍 수행 방법 및 장치
US20120259638A1 (en) * 2011-04-08 2012-10-11 Sony Computer Entertainment Inc. Apparatus and method for determining relevance of input speech
JP2013156768A (ja) * 2012-01-27 2013-08-15 Sharp Corp 入力インターフェース装置、電子機器、携帯端末機器、プログラムおよび記録媒体
KR101946364B1 (ko) * 2012-05-01 2019-02-11 엘지전자 주식회사 적어도 하나의 마이크 센서를 갖는 모바일 디바이스 및 그 제어방법
US9271111B2 (en) 2012-12-14 2016-02-23 Amazon Technologies, Inc. Response endpoint selection
US9479867B2 (en) * 2013-07-11 2016-10-25 Texas Instruments Incorporated Method and circuitry for direction of arrival estimation using microphone array with a sharp null
WO2015177856A1 (ja) * 2014-05-20 2015-11-26 三菱電機株式会社 音声操作装置、音声操作方法、および音声操作システム
US10317992B2 (en) 2014-09-25 2019-06-11 Microsoft Technology Licensing, Llc Eye gaze for spoken language understanding in multi-modal conversational interactions

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050075875A1 (en) * 2003-10-03 2005-04-07 Makoto Shozakai Data process unit and data process unit control program
US20070038444A1 (en) * 2005-02-23 2007-02-15 Markus Buck Automatic control of adjustable elements associated with a vehicle
JP2011035524A (ja) * 2009-07-30 2011-02-17 Oki Electric Industry Co Ltd 情報処理システム、情報処理装置、及び情報処理方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110648663A (zh) * 2019-09-26 2020-01-03 科大讯飞(苏州)科技有限公司 车载音频管理方法、装置、设备、汽车及可读存储介质

Also Published As

Publication number Publication date
JPWO2018055898A1 (ja) 2019-07-11
JP6904361B2 (ja) 2021-07-14
EP3518095A1 (en) 2019-07-31
WO2018055898A1 (ja) 2018-03-29
US10976998B2 (en) 2021-04-13
US20190163438A1 (en) 2019-05-30
EP3518095A4 (en) 2019-09-11

Similar Documents

Publication Publication Date Title
CN109716285A (zh) 信息处理装置和信息处理方法
WO2021043053A1 (zh) 一种基于人工智能的动画形象驱动方法和相关装置
CN108847214B (zh) 语音处理方法、客户端、装置、终端、服务器和存储介质
KR101992424B1 (ko) 증강현실용 인공지능 캐릭터의 제작 장치 및 이를 이용한 서비스 시스템
KR20210035319A (ko) 자동 내비게이션을 용이하게 하기 위한 웹 페이지 분석
WO2013054839A1 (ja) 画像認識システムを備えた知識情報処理サーバシステム
KR20180091707A (ko) 패킷화된 오디오 신호의 변조
CN101243437A (zh) 由端点定制的虚拟机器人通信格式
CN103729476A (zh) 一种根据环境状态来关联内容的方法和系统
CN110868635A (zh) 视频处理方法、装置、电子设备及存储介质
CN106205622A (zh) 信息处理方法及电子设备
JP2016143310A (ja) 情報処理装置、画像処理方法及びプログラム
KR20170135598A (ko) 특정인의 합성된 가상 음성을 이용한 음성 대화 시스템 및 방법
CN110910898B (zh) 一种语音信息处理的方法和装置
CN114186045A (zh) 人工智能交互展览系统
CN106372203A (zh) 一种智能终端的信息响应方法、装置和智能终端
CN113205569A (zh) 图像绘制方法及装置、计算机可读介质和电子设备
CN110111795B (zh) 一种语音处理方法及终端设备
CN116737883A (zh) 人机交互方法、装置、设备及存储介质
JP4515892B2 (ja) 連携制御装置、連携制御方法およびサービス連携システム
US20200168222A1 (en) Information processing device, information processing method, and program
WO2018173405A1 (ja) 情報処理装置および情報処理方法
WO2019073668A1 (ja) 情報処理装置、情報処理方法、およびプログラム
WO2021229692A1 (ja) アバター制御プログラム、アバター制御方法および情報処理装置
CN112637692B (zh) 互动方法、装置、设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
AD01 Patent right deemed abandoned

Effective date of abandoning: 20230203

AD01 Patent right deemed abandoned