CN108604447B - 信息处理装置、信息处理方法和程序 - Google Patents

信息处理装置、信息处理方法和程序 Download PDF

Info

Publication number
CN108604447B
CN108604447B CN201680080421.7A CN201680080421A CN108604447B CN 108604447 B CN108604447 B CN 108604447B CN 201680080421 A CN201680080421 A CN 201680080421A CN 108604447 B CN108604447 B CN 108604447B
Authority
CN
China
Prior art keywords
unit
state
user
information processing
peripheral
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201680080421.7A
Other languages
English (en)
Other versions
CN108604447A (zh
Inventor
桐原丽子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN108604447A publication Critical patent/CN108604447A/zh
Application granted granted Critical
Publication of CN108604447B publication Critical patent/CN108604447B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Telephone Function (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

[问题]提供一种信息处理装置、信息处理方法和程序。[解决方案]一种信息处理装置,设置有:状态检测单元,其检测可以是噪音源的其他装置的状态;以及状态控制单元,其基于对其他装置的状态的检测结果和对用户的讲话的预测来控制其他装置的状态。

Description

信息处理装置、信息处理方法和程序
技术领域
本公开涉及信息处理装置、信息处理方法和程序。
背景技术
近年来,已经使用了采用语音识别技术的语音输入系统。当用户通过语音进行输入时,由于用户周围的噪音(在通过语音的输入中的除了语音之外的声音)可能难以识别语音。例如,在用户周围的噪音较大的情况下,除非用户以较大的声音说话,否则用户的语音可能不会被识别。在此,在噪音源是例如电视机或扬声器的可以由用户调节音量的装置的情况下,通过用户操纵装置并降低音量,可以以高准确度执行语音识别。
对于音量调节,存在一种自动调节从与用户的语音所输入到的装置相同的装置输出的声音的音量的技术。例如,在专利文献1中公开了一种电视接收器,其检测用户的语音并执行自动音量调节,使得即使在多个用户正在戴着耳机的情况下也能够平稳地进行会话。
引文列表
专利文献
专利文献1:JP 2008-72558A
发明内容
技术问题
然而,由于执行语音识别的装置和用户周围的声源不必然是同一装置,因此即使在上述与音量调节有关的技术被应用于语音识别技术的情况下,也不太可能获得足够的语音识别准确度。
就此而言,本公开提出了一种新的且改进的并且即使在用户周围存在其他声源的情况下也能够提高语音识别准确度的信息处理装置、信息处理方法和程序。
解决问题的方法
根据本公开,提供了一种信息处理装置,其包括:状态检测单元,被配置为检测可以是噪音源的其他装置的状态;以及状态控制单元,被配置为基于对其他装置的状态的检测结果和用户的讲话预测来控制其他装置的状态。
另外,根据本公开,提供了一种信息处理方法,其包括:检测可以是噪音源的其他装置的状态;以及由处理器基于对其他装置的状态的检测结果和用户的讲话预测来控制其他装置的状态。
另外,根据本公开,提供了一种使计算机实现以下功能的程序:检测可以是噪音源的其他装置的状态的功能;以及基于对其他装置的状态的检测结果和用户的讲话预测来控制其他装置的状态的功能。
发明的有益效果
如上所述,根据本公开,即使在用户周围存在其他声源的情况下,也可以提高语音识别准确度。
注意,上述效果不必然是限制性的。与上述效果一起或代替上述效果,可以实现本说明书中描述的效果中的任何一种效果或可以从本说明书掌握的其他效果。
附图说明
图1是用于描述根据本公开的第一实施方式的语音识别系统的概况的说明图。
图2是示出根据实施方式的语音识别系统的配置示例的说明图。
图3是示出根据实施方式的信息处理装置1的配置示例的说明图。
图4是示出根据实施方式的信息处理装置1的操作示例的流程图。
图5是示出根据修改例的信息处理装置1的操作示例的流程图。
图6是示出根据本公开的第二实施方式的信息处理装置的配置示例的说明图。
图7是示出根据实施方式的信息处理装置2的操作示例的流程图。
图8是示出根据本公开的第三实施方式的信息处理装置的配置示例的说明图。
图9A是示出基于外围装置7的位置和用户位置的外围装置7的提取示例的说明图。
图9B是示出基于外围装置7的位置和用户位置的外围装置7的提取示例的说明图。
图10是示出根据实施方式的信息处理装置3的操作示例的流程图。
图11是示出硬件配置的示例的说明图。
具体实施方式
在下文中,将参照附图详细描述本公开的优选实施方式。注意,在本说明书和附图中,具有基本上相同的功能和结构的结构元件用相同的附图标记表示,并且省略对这些结构元件的重复说明。
注意,在本说明书和附图中,具有基本上相同的功能和结构的结构元件有时在相同的附图标记之后使用不同的字母来彼此区分。然而,当没有特别需要区分具有基本相同的功能和结构的元件时,仅附上相同的附图标记。
此外,将按照以下顺序进行描述。
<<1.第一实施方式>>
<1-1.第一实施方式的概况>
<1-2.第一实施方式的配置示例>
<1-3.第一实施方式的操作示例>
<1-4.第一实施方式的效果>
<1-5.第一实施方式的修改例>
<<2.第二实施方式>>
<2-1.第二实施方式的配置示例>
<2-2.第二实施方式的操作示例>
<2-3.第二实施方式的效果>
<2-4.对第二实施方式的补充>
<<3.第三实施方式>>
<3-1.第三实施方式的配置示例>
<3-2.第三实施方式的操作示例>
<3-3.第三实施方式的效果>
<3-4.对第三实施方式的补充>
<<4.硬件配置示例>>
<<5.结论>>
<<1.第一实施方式>>
<1-1.第一实施方式的概述>
首先,将参照图1来描述本公开的第一实施方式的概述。图1是用于描述根据本公开的第一实施方式的语音识别系统的概况的说明图。图1所示的信息处理装置1具有语音UI代理功能,该语音UI代理功能能够对用户的讲话进行语音识别/语义分析并通过语音或显示给出响应。此外,在图1中,场景T1示出了在用户U1不对信息处理装置1讲话的非讲话状态下的语音识别系统的示例,并且场景T2示出了在用户U1向信息处理装置1讲话的讲话状态下的语音识别系统的示例。
信息处理装置1的外观没有特别限制,并且可以是例如如图1所示的柱状,并且例如,信息处理装置1安装在桌子或房间的地板上。此外,在信息处理装置1中,由诸如发光二极管(LED)的发光元件构成的发光单元18以带的形式安装以沿水平方向环绕侧表面的中心区域。信息处理装置1可以通过使发光单元18的全部或一部分发光来向用户通知信息处理装置1的状态。例如,当信息处理装置1与用户交互时,信息处理装置1可以通过使发光单元18的一部分在用户的方向或扬声器的方向上发光,使其如在图1的场景T2中所示的那样看起来像其视线面向正在交互的用户U1。此外,当信息处理装置1正在生成响应或搜索数据时,信息处理装置1可以通过执行控制使得光通过发光单元18在侧表面上转动来通知用户它正在处理中。此外,信息处理装置1具有如图1的场景T2中所示的那样将图像投影并显示在墙壁80上的功能,并且例如,除了基于语音的响应之外,信息处理装置1还可以输出基于显示的响应。
如图1的场景T1中所示,在用户U1没有正在对信息处理装置1讲话的情况下,例如位于信息处理装置1附近的电视接收器71和音频装置72以大音量输出音乐。
在此,如图1的场景T1中所示,如果用户U1在电视接收器71和音频装置72以大音量输出音乐的状态下讲话,则音乐在语音识别中充当噪音,并且信息处理装置1的语音识别准确度很可能会降低。此外,在本公开中,“噪音”是指例如语音输入或语音识别中的语音以外的声音。
就此而言,在根据本公开的第一实施方式的语音识别系统中,可以通过基于用户的讲话预测控制与语音识别中的噪音输出有关的外围装置的状态来提高语音识别准确度。
具体而言,如图1的场景T2中所示,如果预测到用户U1要对信息处理装置1讲话,则从电视接收器71和音频装置72输出的音乐的音量被控制为小于图1的场景T1中示出的示例的情况下的音量。利用该配置,信息处理装置1的语音识别不易受从电视接收器71和音频装置72输出的噪音(音乐)的影响,并且识别准确度提高。作为结果,信息处理装置1可以正确地识别用户U1的讲话62,并且输出如图1的场景T2中所示的基于语音的响应64或基于显示的响应82。
如上所述,在根据本实施方式的语音识别系统中,例如,如果预测到用户的讲话,则可以通过执行控制使得与噪音的输出有关的装置的音量降低来提高语音识别准确度。
上面已经描述了根据本公开的语音识别系统的概述。此外,信息处理装置1的形状不限于图1所示的圆柱形状并且可以是例如立方体、球体、多面体等。接下来,将依次描述根据本公开的第一实施方式的信息处理系统和信息处理装置1的配置示例。
<1-2.第一实施方式的配置示例>
(语音识别系统的配置示例)
图2是示出根据本公开的第一实施方式的语音识别系统的配置示例的说明图。如图2所示,根据本实施方式的语音识别系统包括信息处理装置1、外围装置7和通信网络9。
如参照图1所述,信息处理装置1具有对用户的讲话进行语音识别/语义分析并通过语音或图像给出响应的功能。此外,如图2所示,信息处理装置1经由通信网络9连接到外围装置7,并且基于用户的讲话预测来控制外围装置7的状态。此外,图2中示出了信息处理装置1经由通信网络9连接到外围装置7的示例,但是信息处理装置1和外围装置7可以直接相互连接。此外,稍后将参照图3来描述信息处理装置1的详细配置。
经由通信网络9连接到信息处理装置1的外围装置7是放置在信息处理装置1附近并输出声音的装置。外围装置7可以包括例如具有输出例如音乐或语音的声音的功能的装置,例如图2所示的电视接收器71或音频装置72(例如,扬声器、微型部件系统等)。此外,外围装置7可以包括输出(生成)与装置的操作相关联的驱动声音(操作声音)的装置,例如空气调节装置73(例如,通风机、空调、空气净化器等)、真空清洁器74或个人计算机(PC)75。此外,根据本技术的外围装置7不限于图2所示的示例,并且可以包括能够输出声音的各种装置。此外,在以下描述中,包括在外围装置7中的至少一个或更多个装置也被称为“外围装置7”。
外围装置7可以经由通信网络9向信息处理装置1发送指示外围装置7可以做什么的能力信息以及指示外围装置7的状态的状态信息。例如,能力信息可以包括如下信息:例如外围装置7可以执行的操作(例如,声音输出、鼓风、通风等)、外围装置7可以进入的状态、或者外围装置7可以发送(或不能发送)的状态信息的类型。此外,状态信息可以包括与当前外围装置7有关的如下信息:例如音量水平、操作模式(例如,待机模式、静音模式或常见模式)或电源开关的状态(接通/关断)或者与其他操作相关的设置值。此外,外围装置7可以在从信息处理装置1接收到对能力信息或状态信息的发送请求时,发送被请求的能力信息或者状态信息。
此外,外围装置7经由通信网络9从信息处理装置1接收状态控制信号,并且控制外围装置7的状态。由信息处理装置1控制的外围装置7的状态可以包括例如音量水平、操作模式、电源接通/关断等。
此外,信息处理装置1与外围装置7之间的距离例如在声音会到达的范围内,并且从外围装置7输出的声音通过信息处理装置1的麦克风被收集,并且可以充当信息处理装置1的语音识别中的噪音。在以下描述中,从外围装置7输出的声音也被称为噪音,而不区分音乐、语音、驱动声音等。此外,外围装置7也被称为可以是噪音源的其他装置或者与噪音输出有关的装置。
通信网络9是从连接到通信网络9的装置或系统发送的信息的有线或无线传输路径。在本实施方式中,由于连接到通信网络9的信息处理装置1和外围装置7之间的距离如上所述的那样在声音会到达的范围内,例如,通信网络9可以是包括以太网(注册商标)的各种局域网(LAN)。此外,通信网络9不限于LAN,并且通信网络9可以包括例如因特网、电话网络或卫星通信网络的公共网络、广域网(WAN)等。此外,通信网络9可以包括专用网络,例如因特网协议-虚拟专用网络(IP-VPN)。
(信息处理装置的配置示例)
上面已经描述了根据本实施方式的语音识别系统的配置。接下来,将参照图3来描述根据本实施方式的语音识别系统中包括的信息处理装置1的配置示例。图3是示出根据本实施方式的信息处理装置1的配置示例的说明图。
如图3所示,信息处理装置1包括控制单元10、通信单元11、声音收集单元12、扬声器13、摄像装置14、距离传感器15、投影单元16、存储单元17以及发光单元18。
控制单元10控制信息处理装置1的部件。此外,如图3所示,根据本实施方式的控制单元10还用作讲话预测单元101、语音识别单元102、语义分析单元103、状态检测单元104、状态控制单元105和输出控制单元106。
讲话预测单元101对用户进行讲话预测(例如,预测用户即将讲话)。此外,在预测到用户的讲话的情况下,讲话预测单元101可以向语音识别单元102、状态检测单元104和状态控制单元105给出指示预测到用户的讲话的通知。由讲话预测单元101对用户进行的讲话预测可以用各种方法执行。
例如,讲话预测单元101可以在后面将描述的语音识别单元102从后面将描述的声音收集单元12收集的用户的语音检测到预定检测到预定开启词(activation word)(例如,“你好代理(Hello Agent)”等)的情况下预测到用户的讲话。此外,讲话预测单元101可以在检测到布置在信息处理装置1中的语音输入按钮(未示出)被用户按压的情况下预测到用户的讲话。此外,讲话预测单元101可以在基于由后面将描述的摄像装置14和距离传感器15获得的数据检测到用户正在挥动她/他的手的情况下预测到用户的讲话。此外,讲话预测单元101可以在基于由后面将描述的摄像装置14或距离传感器15获得的数据或者由声音收集单元12收集的声音检测到用户拍她/他的手的情况下预测到用户的讲话。此外,由讲话预测单元101进行的对用户的讲话预测不限于上述示例,并且可以用各种方法预测用户的讲话。
语音识别单元102识别由后面将描述的声音收集单元12收集的用户的语音,将该语音转换为字符串,并且获取讲话文本。此外,还可以基于语音识别单元102的语音特征来识别正在讲话的人,或者估计语音的来源,即讲话者的方向。
此外,在所获取的讲话文本中包括预定开启词的情况下,语音识别单元102向讲话预测单元101给出指示已检测到开启词的通知。此外,语音识别单元102可以将激活词与其他讲话文本进行比较,并更可靠地相对于噪音检测开启词。
语义分析单元103使用自然语言处理等对由语音识别单元102获取的讲话文本执行语义分析。由语义分析单元103进行的语义分析的结果被提供给输出控制单元106。
状态检测单元104检测可以是噪音源的外围装置7(其他装置)的状态,并将检测结果提供给状态控制单元105。例如,状态检测单元104基于声音收集来检测外围装置7的状态。例如,可以通过指定由声音收集单元12收集的环境声音(在信息处理装置1周围的噪音)的大小(声压水平)来执行基于声音收集的对外围装置7的状态的检测。此外,状态检测单元104可以将指定的环境声音的大小作为检测结果提供给状态控制单元105。
此外,状态检测单元104可以基于通信来检测外围装置7的状态。例如,可以执行基于通信的对外围装置7的状态的检测,使得后面将描述的通信单元11被控制为使得对能力信息和状态信息的发送请求被发送到外围装置7,并且经由通信单元11从外围装置7获取能力信息和状态信息。此外,状态检测单元104可以将能力信息和状态信息作为检测结果提供给状态控制单元105。
状态控制单元105基于状态检测单元104的检测结果和讲话预测单元101对用户的讲话预测来控制外围装置7(其他装置)的状态。例如,在讲话预测单元101预测到用户的讲话并且作为状态检测单元104的检测结果的环境声音的大小大于预定阈值的情况下,状态控制单元105可以控制外围装置7的状态,使得从外围装置7输出的噪音进一步降低。
此外,由状态控制单元105对外围装置7进行的状态控制可以用各种方法执行。此外,状态控制单元105对外围装置7的状态进行控制的方法可以基于经由通信单元11或从存储单元17获取的外围装置7的能力信息来决定。
例如,在基于外围装置7的能力信息确定外围装置7是其音量水平可以通过通信被控制的装置的情况下,状态控制单元105可以控制外围装置7的状态,使得外围装置7的音量水平降低或增加。在这种情况下,例如,状态控制单元105可以生成用于使外围装置7的音量水平降低或增加的控制信号,并控制通信单元11,使得控制信号被发送到外围装置7。
此外,在基于外围装置7的能力信息确定外围装置7是其操作模式可以通过通信被控制的装置的情况下,状态控制单元105可以通过使外围装置7的操作模式改变来控制外围装置7的状态。在这种情况下,例如,状态控制单元105可以生成用于使操作模式改变为其中从外围装置7输出的噪音进一步降低的操作模式的控制信号,并且控制通信单元11使得控制信号被发送到外围装置7。此外,例如,在外围装置7以三种操作模式、即待机模式、静音模式和常见模式中的一种进行操作的情况下,外围装置7输出的噪音可以以待机模式、静音模式和常见模式的顺序增加。
此外,在基于外围装置7的能力信息确定与外围装置7的操作有关的设置值可以通过通信被控制的情况下,状态控制单元105可以通过使与外围装置7的操作有关的设置值改变来控制外围装置7的状态。与外围装置7的操作有关的设置值可以包括例如风量的强度、转数、功耗等。在这种情况下,例如,状态控制单元105可以生成用于使与外围装置7的操作有关的设置值被改变为其中从外围装置7输出的噪音进一步降低的设置值的控制信号,并控制通信单元11使得控制信号被发送到外围装置7。
此外,在基于外围装置7的能力信息确定外围装置7是电源的接通/关断可以通过通信来控制的装置的情况下,状态控制单元105可以生成用于使外围装置7的电源改变为接通或关断的控制信号,并且控制通信单元11使得控制信号被发送到外围装置7。此外,状态控制单元105可以基于外围装置7的能力信息等来确定外围装置7是否断电。例如,在确定外围装置7没有断电的情况下,状态控制单元105可以使用上述其他状态控制方法来对外围装置7进行状态控制。此外,状态控制单元105可以优先使用上述其他状态控制方法而不是电源的控制来对外围装置7进行状态控制。利用该配置,由于仅对外围装置7进行控制而不完全停止操作,所以用户不太可能受到由于外围装置7的停止而引起的不舒适的感觉或不便。
此外,状态控制单元105可以在使从状态检测单元104获取的外围装置的状态信息被存储在存储单元17中之后,控制外围装置7的状态,使得从外围装置7输出的噪音进一步降低。此外,在用户的讲话结束的情况下,状态控制单元105可以基于存储在存储单元17中的外围装置7的状态信息来控制外围装置7的状态,使得外围装置7的状态返回到在外围装置7的状态被存储在存储单元17中的时间点的状态。将在后面参照图4详细描述外围装置的状态控制示例。
输出控制单元106根据从语义分析单元103提供的语义分析结果来控制对用户的讲话的响应或与用户所需的操作有关的输出。例如,在用户的讲话是要获得“明天的天气”的情况下,输出控制单元106从网络上的天气预报服务器获取与“明天的天气”有关的信息,并控制扬声器13、投影单元16或发光单元18使得输出所获取的信息。
通信单元11执行与外部装置的数据接收和发送。例如,通信单元11连接到通信网络9,并执行到外围装置7的发送或从外围装置7的接收。例如,通信单元11将对能力信息和状态信息的发送请求发送到外围装置7。此外,通信单元11从外围装置7接收能力信息和状态信息。通信单元11还将由状态控制单元105生成的控制信号发送到外围装置7。此外,通信单元11经由通信网络9或其他通信网络连接到预定服务器(未示出),并且接收输出控制单元106进行输出控制所需的信息。
声音收集单元12具有收集环境声音并将收集的声音作为音频信号输出到控制单元10的功能。此外,例如,声音收集单元12可以由一个或更多个麦克风来实现。
扬声器13具有在输出控制单元106的控制下将音频信号转换为语音并输出语音的功能。
摄像装置14具有用安装在信息处理装置1中的成像透镜对周围区域进行成像并将捕获的图像输出到控制单元10的功能。此外,摄像装置14可以由例如360度摄像装置、广角摄像装置等来实现。
距离传感器15具有测量信息处理装置1与用户或用户周围的人之间的距离的功能。距离传感器15例如由光学传感器(基于在光发射/接收时刻的相位差信息来测量到对象的距离的传感器)来实现。
投影单元16是显示装置的示例并且具有通过将图像投影(放大)到墙壁或屏幕上来执行显示的功能。
存储单元17存储使信息处理装置1的每个部件运行的程序或参数。此外,存储单元17还存储与外围装置7有关的信息。例如,与外围装置7有关的信息可以包括用于建立与连接到通信网络9的外围装置7的连接的信息、能力信息、状态信息等。
发光单元18由诸如LED的发光元件实现,并且可以进行全部点亮、部分点亮、闪烁、发光位置控制等。例如,发光单元18可以通过根据控制单元10的控制使沿着由语音识别单元102识别的讲话者的方向点亮发光单元18的一部分,来使其看起来像视线面向讲话者的方向。
上面已经具体描述了根据本实施方式的信息处理装置1的配置。此外,图3中所示的信息处理装置1的配置是示例,并且本实施方式不限于此。例如,信息处理装置1还可以包括红外(IR)摄像装置、深度摄像装置、立体摄像装置、人类传感器等,以便获得与周围环境有关的信息。此外,信息处理装置1还可以包括作为用户接口的触摸面板显示器、物理按钮等。此外,安装在信息处理装置1中的声音收集单元12、扬声器13、摄像装置14、发光单元18等的安装位置不受特别限制。此外,根据本实施方式的控制单元10的功能可以通过经由通信单元11连接的其他信息处理装置来执行。
<1-3.第一实施方式的操作示例>
接下来,将参照图4来描述根据本实施方式的信息处理装置1的操作示例。
图4是示出根据本实施方式的信息处理装置1的操作示例的流程图。如图4所示,首先,控制单元10执行确定用户是否即将讲话的讲话预测处理(S110)。重复步骤S110的讲话预测处理,直到预测到用户的讲话。
在预测到用户的讲话的情况下(步骤S110中的“是”),信息处理装置1测量环境声音(S120)。例如,状态检测单元104可以通过基于由声音收集单元12收集的音频信号来指定环境声音的大小,来测量环境声音。
然后,状态控制单元105确定在步骤S120中测量的环境声音是否较大(S130)。例如,状态控制单元105可以通过将在步骤S120中测量的环境声音与预定阈值进行比较来执行步骤S130中的确定。
在确定环境声音较大的情况下(步骤S130中的“是”),状态控制单元105使通过状态检测单元104基于通信从外围装置7获取的外围装置7的状态信息存储在存储单元17中(步骤S140)。
然后,状态控制单元105控制外围装置7的状态(S150)。例如,状态控制单元105可以针对其状态可被控制的所有外围装置7生成用于使将音量水平降低预定值的控制信号,并使通信单元11发送该控制信号。此外,状态控制单元105可以基于在步骤S140中获取的外围装置7的能力信息和状态信息来针对每个外围装置7生成用于降低环境声音(噪音)的控制信号,并且使通信单元11发送该控制信号。
然后,信息处理装置1接收用户的语音输入并执行语音识别处理(S160)。在步骤S170中,例如,在无讲话时间段持续达预定时间(例如,10秒)或更长的情况下,控制单元10确定用户的讲话结束,并且在讲话结束之前继续步骤S160的语音识别处理。
在确定用户的讲话结束的情况下(在S170中的“是”),语义分析单元103基于语音识别单元102的识别结果(讲话文本)执行语义分析处理,并且输出控制单元106根据语义分析结果来控制投影单元16和发光单元18(S180)。
最后,状态控制单元105基于在步骤S140中存储在存储单元17中的外围装置7的状态信息执行状态控制,使得外围装置7的状态返回到在步骤S140的时间点的状态(S190)。例如,状态控制单元105可以针对每个外围装置7生成使得外围装置7的状态改变为在步骤S140的时间点的外围装置7的状态的控制信号,并且使通信单元11发送所生成的控制信号。
例如,每当上述系列处理(S110至S190)结束时,可以重复上述系列处理。
<1-4.第一实施方式的效果>
如上所述,根据本公开的第一实施方式,在预测到用户的讲话的情况下,测量信息处理装置1的环境声音(噪音)的大小,并且在环境声音较大的情况下,控制可以是噪音源的外围装置7的状态,使得环境声音减小。利用该配置,即使在用户周围存在其他声源的情况下,也可以在用户讲话时提高语音识别准确度。此外,在信息处理装置1输出与用户的讲话相对应的基于语音的响应的情况下,减小环境声音,使得用户可以更容易地听到从信息处理装置1输出的基于语音的响应。
<1-5.第一实施方式的修改例>
上面已经描述了本公开的第一实施方式。下面将描述本公开的第一实施方式的几个修改例。此外,将在下面描述的每个修改例可以单独应用于本公开的第一实施方式,或者可以组合地应用于本公开的第一实施方式。此外,可以应用每个修改例来代替本公开的第一实施方式中描述的配置,或者每个修改例可以附加地应用于本公开的第一实施方式中描述的配置。
(第一修改例)
在上述操作示例中,描述了在图4中示出的步骤S150中的用于降低噪音的对外围装置7的状态控制处理仅执行一次的示例,但是本实施方式不限于该示例。作为第一修改例,信息处理装置1可以两次或更多次地控制外围装置7的状态以减小噪音。
图5是示出根据本修改例的信息处理装置1的操作示例的流程图。由于图5中所示的各个步骤的处理类似于图4中所示的具有相同步骤编号的各个步骤的处理,将省略其描述。在图5所示的操作示例中,与图4所示的操作示例不同,在外围装置7的状态控制处理(S150)之后,处理返回到步骤S120,并且执行环境声音测量(S120)和环境声音大小确定(S130)。然后,在再次确定环境声音较大的情况下(S130中的“是”),再次执行外围装置的状态的存储(S140)和外围装置7的状态控制处理(S150)。
通过该操作,可以重复对外围装置的状态控制处理,直到环境声音充分降低,并且因此进一步提高了步骤S160及后续步骤的语音识别处理和语义分析处理的准确度。
此外,为了降低噪音而两次或更多次地控制外围装置7的状态的方法不限于上述示例。例如,为了降低噪音,状态控制单元105可以根据基于用户的讲话的语音识别或语义分析结果来两次或更多次地控制外围装置7的状态。
例如,在步骤S160中,尽管用户正在讲话,但是在语音识别处理失败(不能获取到讲话文本)的情况下,可以再次对外围装置7执行状态控制。此外,例如,可以基于包括在由摄像装置14获取的图像中的用户的嘴部的运动来检测用户的讲话。
此外,在步骤S180中,在从讲话文本的语义分析失败(不能获得语义分析结果)的情况下,可以再次对外围装置7进行状态控制。
(第二修改例)
在上述示例中,状态控制单元105获取外围装置7的状态信息并且使状态信息存储在存储单元17中,但是本实施方式不限于该示例。作为第二修改例,代替外围装置7的状态信息,状态控制单元105可以使与状态控制有关的控制信号中的参数被存储。
例如,在图4的步骤S150中,在状态控制单元105针对外围装置7生成用于使音量水平降低预定值或更多的控制信号的情况下,该参数可以是预定值。此外,在这种情况下,在图4的步骤S190中,状态控制单元105可以生成用于使音量水平增加存储在存储单元17中的预定值(参数)的控制信号,并且使通信单元11发送该控制信号。利用该配置,即使在由于外围装置7的功能限制等而不能经由通信获取外围装置7的状态信息的情况下,外围装置7的状态也可以返回到在图4的步骤S140的时间点的状态。
<<2.第二实施方式>>
因此,已经描述了本公开的第一实施方式和修改例。然后,将描述本公开的第二实施方式。在上述第一实施方式中,基于环境声音的大小将能够由信息处理装置1控制的所有外围装置7设置为控制目标。另一方面,根据第二实施方式的信息处理装置基于经由通信获得的每个外围装置7的状态信息来提取用作控制目标的外围装置7,并且控制所提取的外围装置7的状态。
<2-1.第二实施方式的配置示例>
图6是示出根据本公开的第二实施方式的信息处理装置的配置示例的说明图。如图6所示,根据本实施方式的信息处理装置2与图3的信息处理装置1的不同之处在于:控制单元20的功能配置与图3的控制单元10的功能配置部分地不同。另外,由于图6中所示的部件中的与图3中所示的部件基本上相同的部件用相同的附图标记表示,其描述将被省略。下面将描述根据本实施方式的控制单元20的状态检测单元204和状态控制单元205的功能。
(状态检测单元204)
类似于第一实施方式中描述的状态检测单元104,根据本实施方式的状态检测单元204检测可以是噪音源的外围装置7(其他装置)的状态。例如,类似于状态检测单元104,状态检测单元204基于通信检测外围装置7的状态,并通过通信单元11获取外围装置7的能力信息和状态信息。此外,状态检测单元204可以将能力信息和状态信息作为检测结果提供给状态控制单元205。
此外,根据本实施方式的状态检测单元204可以具有或可以不具有如在第一实施方式中所描述的基于声音收集来检测外围装置7的状态的功能。
(状态控制单元205)
类似于第一实施方式中描述的状态控制单元105,根据本实施方式的状态控制单元205基于状态检测单元204的检测结果和由讲话预测单元101对用户的讲话预测来控制外围装置7(其他装置)的状态。与根据第一实施方式的状态控制单元105不同,根据本实施方式的状态控制单元205具有基于外围装置7的状态从多个外围装置7提取对其状态进行控制的外围装置7的功能。例如,在讲话预测单元101预测到用户的讲话的情况下,根据本实施方式的状态控制单元205提取满足基于外围装置7的状态信息的预定条件的外围装置7,并控制所提取的外围装置7的状态。
例如,基于外围装置7的状态信息的预定条件可以是当前音量水平是预定阈值或更大的条件。此外,基于外围装置7的状态信息的预定条件可以是外围装置7的操作模式是预定操作模式的条件。此外,基于外围装置7的状态信息的预定条件可以是与外围装置7的操作有关的预定设置值的大小是预定阈值或更大的条件。
利用该配置,例如,可以优先地或有效地控制正在输出更大噪音的外围装置7的状态。此外,由于只改变可能正在输出更大噪音的外围装置7的状态,并且不改变可能正在输出更小噪音的外围装置7的状态,因此具有用户不太可能有不舒服的感觉的效果。
此外,根据本实施方式的状态控制单元205可以使如上所述的那样提取的外围装置7的状态信息存储在存储单元17中。
此外,由于根据本实施方式的状态控制单元205的其他功能(外围装置7的状态控制方法和状态控制方法的决定)与在第一实施方式中描述的状态控制单元105的功能相似,省略其描述。
<2-2.第二实施方式的操作示例>
上面已经描述了根据本公开的第二实施方式的信息处理装置2的配置示例。接下来,将参照图7来描述根据本实施方式的信息处理装置2的操作示例。
图7是示出根据本实施方式的信息处理装置2的操作示例的流程图。首先,类似于上面参照图4描述的步骤S110,控制单元20重复讲话预测处理直到预测到用户的讲话(S210)。
在预测到用户的讲话的情况下(步骤S210中的“是”),状态检测单元204将对能力信息和状态信息的发送请求发送到外围装置7,并且从外围装置7接收能力信息和状态信息(S220)。
然后,状态控制单元205在外围装置7中提取满足基于状态信息的条件的外围装置7(S230)。基于状态信息的条件可以是例如上述任何一个条件。此外,状态控制单元205使所提取的外围装置7的状态信息存储在存储单元17中(S240)。
然后,状态控制单元205控制所提取的外围装置7的状态(S250)。例如,状态控制单元205可以基于在步骤S220中接收到的外围装置7的能力信息和状态信息来针对每个所提取的外围装置7生成用于减小环境声音(噪音)的控制信号,并且使通信单元11发送该控制信号。
图7所示的步骤S260至290的后续处理与上面参照图4描述的步骤S160至190的处理类似,因此省略其描述。
<2-3.第二实施方式的效果>
如上所述,根据本公开的第二实施方式,如果预测到用户的讲话,则获取信息处理装置2周围的外围装置7的状态信息,并且执行状态控制以使得从基于状态信息提取的外围装置7输出的噪音减小。利用该配置,即使在用户周围存在其他声源的情况下,也可以在用户讲话时提高语音识别准确度。此外,根据本公开的第二实施方式,提取状态要被改变的外围装置7,并且执行状态控制,因此具有用户不太可能有不舒服的感觉的效果。
<2-4.对第二实施方式的补充>
此外,在上述示例中,已经描述了状态检测单元204可以不具有如在第一实施方式中描述的基于声音收集来检测外围装置7的状态的功能的示例,但是本实施方式不限于该示例。例如,状态检测单元204可以利用基于声音收集的状态检测功能来测量环境声音,并且在确定环境声音较大的情况下,状态控制单元205可以提取状态要被改变的外围装置7并且执行状态控制。
此外,还可以将第一实施方式中描述的每个修改例应用于第二实施方式。
<<3.第三实施方式>>
上面已经描述了本公开的第一实施方式和第二实施方式。接下来,将描述本公开的第三实施方式。根据第三实施方式的信息处理装置还基于外围装置7的位置来控制外围装置7的状态。
<3-1.第三实施方式的配置示例>
图8是示出根据本公开的第三实施方式的信息处理装置的配置示例的说明图。由于图8中所示的部件中的基本上类似于图4和图6所示的部件用相同的附图标记表示,其描述将被省略。下面将描述根据本实施方式的信息处理装置3中包括的控制单元30和存储单元37。
(控制单元30)
根据本实施方式的控制单元30控制信息处理装置3的各个部件。此外,根据本实施方式的控制单元30的用作如图8所示的讲话预测单元301、语音识别单元302、语义分析单元103、状态检测单元204、状态控制单元305和输出控制单元106。这些功能中的语义分析单元103和输出控制单元106的功能类似于根据第一实施方式的语义分析单元103和输出控制单元106的功能,并且状态检测单元204的功能类似于根据第二实施方式的状态检测单元204的功能,因此省略其描述。
类似于第一实施方式中描述的讲话预测单元101,根据本实施方式的讲话预测单元301对用户进行讲话预测。除了讲话预测单元101的功能之外,根据本实施方式的讲话预测单元301还具有以下功能:在预测到用户的讲话的情况下向用户位置获取单元308给出指示预测到用户的讲话的通知。
类似于第一实施方式中描述的语音识别单元102,根据本实施方式的语音识别单元302识别用户的语音,将用户的语音转换为字符串,并获取讲话文本。根据本实施方式的语音识别单元302与第一实施方式中描述的语音识别单元102的不同之处在于:语音识别单元302接收并识别由下面描述的声源分离单元309从由声音收集单元12获取的语音中分离并获取的用户的语音。利用该配置,可以进一步提高语音识别准确度。
类似于第一实施方式中描述的状态控制单元105,状态控制单元305基于状态检测单元204的检测结果和讲话预测单元301对用户的讲话预测来控制外围装置7(其他装置)的状态。根据本实施方式的状态控制单元305除了具有根据第一实施方式的状态控制单元105的功能之外,还具有基于外围装置7的位置来控制外围装置7的状态的功能。例如,与外围装置7有关的位置的信息可以存储在后面将描述的存储单元37中。
例如,在讲话预测单元101预测到用户的讲话的情况下,根据本实施方式的状态控制单元305提取满足基于外围装置7的位置的预定条件的外围装置7,并控制所提取的外围装置7的状态。下面将描述几个示例作为其中状态控制单元305基于外围装置7的位置提取外围装置7并控制所提取的外围装置7的状态的示例。
例如,状态控制单元305可以提取位于基于声音收集指定的噪音发生区域中的外围装置7,并控制提取的外围装置7的状态。噪音发生区域的信息可以从后面将描述的声场分析单元307提供,并且状态控制单元305可以将噪音发生区域的信息与外围装置7的位置信息相关联,并且提取位于噪音发生区域内的外围装置7。
利用该配置,例如,可以优先地或有效地控制正输出更大噪音的外围装置7的状态。此外,由于仅改变正输出更大噪音的外围装置7的状态,并且正输出更小噪音的外围装置7的状态不被改变,因此具有用户不太可能有不舒服的感觉的效果。
此外,状态控制单元305可以基于外围装置7的位置和用户的位置来控制外围装置7的状态。用户的位置可以从后面将描述的用户位置获取单元308提供给状态控制单元305。图9A和图9B是示出基于外围装置7的位置和用户的位置提取外围装置7的示例的说明图。如图9A和图9B所示,在信息处理装置3周围存在外围装置7A至7F和用户U3。
例如,如图9A所示,状态控制单元305可以提取以声音收集单元12的位置为基准而位于与用户的位置基本上相同的方向上的外围装置7,并且控制所提取的外围装置7的状态。状态控制单元305可以将以安装在信息处理装置3中的声音收集单元12(未示出)的位置为中心的包括用户U3的位置的角度范围D1视为以声音收集单元12的位置为基准而位于与用户的位置基本上相同的方向。此外,状态控制单元305可以将位于角度范围D1内的外围装置7B提取作为以声音收集单元12的位置为基准而位于与用户的位置基本上相同的方向上的外围装置7。此外,角度范围D1的大小可以是例如预设的预定大小,或者可以动态地设置,使得包括用户U3的脸部、整个身体等。
利用该配置,可以有效地控制外围装置7的状态,使得以声音收集单元12的位置为基准而位于与用户的位置基本上相同的方向上的外围装置7输出的噪音降低。与在其他方向上传向声音收集单元12的声音相比,难以通过后面将描述的声源分离单元309将沿着与用户的位置的方向基本上相同的方向传向声音收集单元12的声音与用户的语音分离。因此,利用该配置,声源分离准确度得到提高,并且因此语音识别准确度也得到提高。
此外,如图9B所示,状态控制单元305可以提取位于用户的位置附近的外围装置7,并且控制所提取的外围装置7的状态。例如,状态控制单元305可以将图9B中所示的位于与用户U3相距预定距离的范围内的外围装置7C提取作为位于用户U3的位置附近的外围装置7。此外,状态控制单元305可以将图9B中所示的最靠近用户U3而定位的外围装置7C提取作为位于用户U3的位置附近的外围装置7。
利用该配置,可以有效地降低从靠近用户的外围装置7输出的噪音,并且用户可能容易讲话。
此外,状态控制单元305基于外围装置7的位置提取外围装置7的方法不限于上述示例。例如,状态控制单元305可以提取位于声音收集单元12附近的外围装置7,并控制所提取的外围装置7的状态。此外,状态控制单元305可以使用上述提取方法的组合来提取外围装置7。
声场分析单元307基于由声音收集单元12收集的语音来分析信息处理装置3周围的声场(存在声波的空间或区域)。例如,声场分析单元307基于从安装在声音收集单元12中的多个麦克风中的每个麦克风获取的语音来分析声场。可以将声场的分析结果提供给声源分离单元309。此外,声场分析单元307指定相对于声音收集单元12的具有高声压水平的方向,并且将包括在以该方向为中心的预定角度范围内的区域作为噪音发生区域提供给状态控制单元305。
用户位置获取单元308基于从摄像装置14和距离传感器15获取的数据来获取用户的位置。例如,用户位置获取单元308可以使用脸部检测技术、脸部识别技术等从由摄像装置14获取的图像中检测用户,将检测到的用户与从距离传感器15获取的数据相关联,并获取用户的位置。用户位置获取单元将获取的用户位置提供给状态控制单元305和声源分离单元309。
声源分离单元309通过基于声场分析单元307的声场分析结果和用户的位置分离用户的语音来获得用户的语音。例如,声源分离单元309可以基于波束形成方法将用户的语音与噪音分离。由声源分离单元309分离的用户的语音被提供给语音识别单元302。
(存储单元37)
类似于第一实施方式中描述的存储单元17,存储单元37存储使信息处理装置3的各个部件运行的程序或参数。除了存储在存储单元17中的信息之外,存储单元37还存储信息处理装置3周围的区域的地图信息。此外,除了存储在存储单元17中的信息之外,存储单元37还存储外围装置7的位置信息作为与外围装置7有关的信息。此外,例如,存储在存储单元17中的外围装置7的位置信息可以是与相对于信息处理装置的相对位置有关的信息或者在信息处理装置3周围的区域的地图信息中外围装置7的位置的信息。
此外,例如,与信息处理装置3周围的区域有关的地图信息可以由用户输入到信息处理装置3,或者可以由信息处理装置3基于摄像装置14、距离传感器15等的信息来获取。此外,外围装置7的位置信息可以由用户输入到信息处理装置3,或者可以从外围装置7获取。
<3-2.第三实施方式的操作示例>
上面已经描述了根据本公开的第三实施方式的信息处理装置3的配置示例。接下来,将参照图10来描述根据本实施方式的信息处理装置3的操作示例。
图10是示出根据本实施方式的信息处理装置3的操作示例的流程图。首先,控制单元30重复讲话预测处理,直到预测到用户的讲话(S310),类似于参照图4描述的步骤S110。
在预测到用户的讲话的情况下(步骤S310中的“是”),用户位置获取单元308获取用户的位置(S315)。然后,状态检测单元204将对能力信息和状态信息的发送请求发送到外围装置7,并从外围装置7接收能力信息和状态信息(S320)。此外,状态控制单元305从存储单元37获取外围装置7的位置(S325)。
然后,状态控制单元305提取满足基于所获取的外围装置7的位置的条件的外围装置7(S330)。状态控制单元305可以通过上述任何方法基于外围装置7的位置或外围装置7的位置和用户的位置来提取外围装置7。
然后,状态控制单元305使所提取的外围装置7的状态信息存储在存储单元37中(S340)。此外,状态控制单元305控制所提取的外围装置7的状态(S350)。例如,状态控制单元305基于在步骤S320中接收到的外围装置7的能力信息和状态信息来针对所提取的每个外围装置7生成用于减小环境声音(噪音)的控制信号,并使通信单元11发送该控制信号。
由于图10所示的步骤S360至390的后续处理类似于参照图4描述的步骤S160至190的处理,省略其描述。
<3-3.第三实施方式的效果>
如上所述,根据本公开的第三实施方式,如果预测到用户的讲话,则获取信息处理装置3周围的外围装置7的位置和状态信息,并且执行状态控制使得从基于状态信息提取的外围装置7输出的噪音减小。利用该配置,即使在用户周围存在其他声源的情况下,也可以在用户讲话时提高语音识别准确度。此外,根据本公开的第三实施方式,基于外围装置的位置提取状态要被改变的外围装置7,并且执行状态控制,并且因此可以更有效地对外围装置7进行状态控制。
<3-4.对第三实施方式的补充>
此外,在上述示例中,已经描述了基于外围装置7的位置来提取控制目标的示例,但是可以结合第二实施方式中描述的基于外围装置7的状态的对控制目标的提取来提取控制目标。
此外,可以基于外围装置7的位置动态地设置控制量(例如,使音量水平降低的大小)。例如,控制量可以被设置为使得更靠近用户的外围装置7的音量水平减小。可以结合基于外围装置7的位置的对控制目标的提取来执行上述基于外围装置7的位置的控制量设置。
此外,也可以将第一实施方式中描述的每个修改例应用于第三实施方式。
<<4.硬件配置示例>>
以上已经描述了本公开的实施方式。诸如讲话预测处理、状态检测处理、状态控制处理、语音识别处理、语义分析处理等的信息处理通过软件和信息处理装置1至3的协作来实现。信息处理装置1000的硬件配置示例将被描述为作为根据本实施方式的信息处理装置的信息处理装置1至3的硬件配置的示例。
图11是示出信息处理装置1000的硬件配置的示例的说明图。如图11所示,信息处理装置1000包括中央处理单元(CPU)1001、只读存储器(ROM)1002、随机存取存储器(RAM)1003、输入装置1004、输出装置1005、存储装置1006、成像装置1007和通信装置1008。
CPU 1001用作操作处理装置和控制装置,并根据各种种类的程序来控制信息处理装置1000的整体操作。此外,CPU 1001可以是微处理器。ROM 1002存储由CPU 1001使用的程序、操作参数等。RAM 1003暂时存储要在CPU 1001的执行中使用的程序、在其执行中适当改变的参数等。这些部件通过包括CPU总线等的主机总线相互连接。控制单元10、控制单元20和控制单元30的功能主要通过CPU 1001、ROM 1002和RAM 1003以及软件的协作来实现。
输入装置1004包括:用于输入信息的输入装置,诸如鼠标、键盘、触摸面板、按钮、麦克风、开关、操纵杆等;以及用于基于用户的输入生成输入信号并且将输入信号输出到CPU 1001的输入控制电路。通过操作输入装置1004,信息处理装置1000的用户可以将各种种类的数据输入到信息处理装置1000或给出指示以执行处理操作。
输出装置1005包括显示装置,诸如液晶显示器(LCD)装置、OLED装置、透视显示器或灯等。此外,输出装置1005包括诸如扬声器和耳机的音频输出装置。例如,显示装置显示捕获的图像、生成的图像等。另一方面,音频输出装置将语音数据等转换为语音并输出语音。例如,输出装置1005对应于上面参照图3描述的扬声器13、投影单元16和发光单元18。
存储装置1006是用于存储数据的装置。存储装置1006可以包括存储介质、用于在存储介质中记录数据的记录装置、用于从存储介质读取数据的读取装置、用于删除记录在存储介质中的数据的删除装置等。存储装置1006存储由CPU 1001执行的程序和各种种类的数据。存储装置1006对应于上面参照图3描述的存储单元17。
成像装置1007包括:成像光学系统,例如用于收集光的拍摄透镜和变焦透镜;以及信号转换元件,诸如电荷耦合器件(CCD)或互补金属氧化物半导体(CMOS)。成像光学系统收集从对象发出的光并在信号转换单元中形成对象图像,并且信号转换元件将形成的对象图像转换为电图像信号。成像装置1007对应于上面参照图3描述的摄像装置14。
通信装置1008是例如由用于与通信网络建立连接的通信装置等构成的通信接口。此外,通信装置1008可以包括与无线局域网(LAN)兼容的通信装置、与长期演进(LTE)兼容的通信装置、执行有线通信的有线通信装置或蓝牙(注册商标)通信装置。通信装置1008对应于例如上面参照图3描述的通信单元11。
<<5.结论>>
如上所述,根据本公开的实施方式,即使在用户周围存在其他声源的情况下,也可以提高语音识别准确度。
以上已经参照附图描述了本公开的优选实施方式,而本公开不限于上述示例。本领域技术人员可以在所附权利要求的范围内发现各种变化和修改,并且应该理解,它们将自然落入本公开的技术范围内。
例如,上述实施方式中的各个步骤不必然按照流程图描述的顺序按时间顺序处理。例如,上述实施方式的处理中的各个步骤可以按照与流程图描述的顺序不同的顺序处理,或者可以并行处理。例如,在第三实施方式中,描述了其中在检测(获取)外围装置的状态之后提取满足预定条件的外围装置的示例,但是可以在检测外围装置的状态之前提取满足预定条件的外围装置。
此外,根据上述实施方式,还可以提供使诸如CPU 1001、ROM 1002和RAM 1003的硬件执行与上述信息处理装置1至3的功能类似的功能的计算机程序。此外,还提供了其中记录有计算机程序的记录介质。
此外,在本说明书中描述的效果仅仅是说明性或示例性的效果,而不是限制性的。也就是说,与上述效果一起或代替上述效果,根据本公开的技术可以实现根据本说明书的描述对于本领域技术人员而言清楚的其他效果。
另外,本技术也可以配置如下。
(1)一种信息处理装置,包括:
状态检测单元,被配置为检测可以是噪音源的其他装置的状态;
以及
状态控制单元,被配置为基于对所述其他装置的状态的检测结果和对用户的讲话预测来控制所述其他装置的状态。
(2)根据(1)所述的信息处理装置,其中,所述状态检测单元基于声音收集来检测所述其他装置的状态。
(3)根据(1)或(2)所述的信息处理装置,其中,所述状态检测单元基于通信来检测所述其他装置的状态。
(4)根据(1)至(3)中任一项所述的信息处理装置,其中,所述状态控制单元使所述其他装置的音量水平降低。
(5)根据(1)至(4)中任一项所述的信息处理装置,其中,所述状态控制单元使所述其他装置的操作模式被改变。
(6)根据(1)至(5)中任一项所述的信息处理装置,其中,所述状态控制单元控制基于所述其他装置的状态从多个所述其他装置提取的所述其他装置的状态。
(7)根据(1)至(6)中任一项所述的信息处理装置,其中,所述状态控制单元还基于所述其他装置的位置来控制所述其他装置的状态。
(8)根据(7)所述的信息处理装置,其中,所述状态控制单元控制位于基于声音收集指定的噪音发生区域内的其他装置的状态。
(9)根据(7)或(8)所述的信息处理装置,其中,所述状态控制单元还基于所述用户的位置来控制所述其他装置的状态。
(10)根据(9)所述的信息处理装置,其中,所述状态控制单元控制以声音收集单元的位置为基准而位于与所述用户的位置基本上相同的方向上的其他装置的状态。
(11)根据(10)所述的信息处理装置,还包括:
声源分离单元,被配置为通过从由所述声音收集单元获取的语音分离所述用户的语音来获取所述用户的语音。
(12)根据(9)至(11)中任一项所述的信息处理装置,其中,所述状态控制单元控制位于所述用户的位置附近的其他装置的状态。
(13)根据(1)至(12)中任一项所述的信息处理装置,其中,所述状态控制单元还根据基于所述用户的讲话的语音识别结果来控制所述其他装置的状态。
(14)根据(1)至(13)中任一项所述的信息处理装置,其中,所述状态控制单元还根据基于所述用户的讲话的语义分析结果来控制所述其他装置的状态。
(15)一种信息处理方法,包括:
检测可以是噪音源的其他装置的状态;以及
由处理器基于对所述其他装置的状态的检测结果和对用户的讲话预测来控制所述其他装置的状态。
(16)一种使得计算机实现以下功能的程序:
检测可以是噪音源的其他装置的状态的功能;以及
基于对所述其他装置的状态的检测结果和对用户的讲话预测来控制所述其他装置的状态的功能。
附图标记列表
1 信息处理装置
7 外围装置
9 通信网络
10 控制单元
11 通信单元
12 声音收集单元
13 扬声器
14 摄像装置
15 距离传感器
16 投影单元
17 存储单元
18 发光单元
101 讲话预测单元
102 语音识别单元
103 语义分析单元
104 状态检测单元
105 状态控制单元
106 输出控制单元
307 声场分析单元
308 用户位置获取单元
309 声源分离单元

Claims (2)

1.一种信息处理装置,包括:
状态检测单元,被配置为检测可以是噪音源的其他装置的状态;以及
状态控制单元,被配置为基于对所述其他装置的状态的检测结果和用户的讲话预测来控制所述其他装置的状态,
其中,所述状态控制单元还基于所述其他装置的位置来控制所述其他装置的状态;
其中,所述状态控制单元还基于所述用户的位置来控制所述其他装置的状态;以及
其中,所述状态控制单元控制以声音收集单元的位置为基准而位于与所述用户的位置基本上相同的方向上的其他装置的状态,以及其中,以声音收集单元的位置为基准而位于与所述用户的位置基本上相同的方向上的其他装置是指位于以声音收集单元的位置为中心的包括用户的位置的预定角度范围内的其他装置。
2.根据权利要求1所述的信息处理装置,还包括:
声源分离单元,被配置为通过从由所述声音收集单元获取的语音分离所述用户的语音来获取所述用户的语音。
CN201680080421.7A 2016-02-03 2016-12-14 信息处理装置、信息处理方法和程序 Active CN108604447B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2016019193A JP2017138476A (ja) 2016-02-03 2016-02-03 情報処理装置、情報処理方法、及びプログラム
JP2016-019193 2016-02-03
PCT/JP2016/087190 WO2017134935A1 (ja) 2016-02-03 2016-12-14 情報処理装置、情報処理方法、及びプログラム

Publications (2)

Publication Number Publication Date
CN108604447A CN108604447A (zh) 2018-09-28
CN108604447B true CN108604447B (zh) 2019-09-24

Family

ID=59499551

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680080421.7A Active CN108604447B (zh) 2016-02-03 2016-12-14 信息处理装置、信息处理方法和程序

Country Status (6)

Country Link
US (1) US20190019513A1 (zh)
EP (1) EP3413303B1 (zh)
JP (1) JP2017138476A (zh)
CN (1) CN108604447B (zh)
DE (1) DE112016006351T5 (zh)
WO (1) WO2017134935A1 (zh)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017144521A (ja) 2016-02-18 2017-08-24 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
US10930276B2 (en) 2017-07-12 2021-02-23 Universal Electronics Inc. Apparatus, system and method for directing voice input in a controlling device
US11489691B2 (en) 2017-07-12 2022-11-01 Universal Electronics Inc. Apparatus, system and method for directing voice input in a controlling device
US10803872B2 (en) 2017-08-02 2020-10-13 Panasonic Intellectual Property Management Co., Ltd. Information processing apparatus for transmitting speech signals selectively to a plurality of speech recognition servers, speech recognition system including the information processing apparatus, and information processing method
WO2019136065A1 (en) * 2018-01-03 2019-07-11 Universal Electronics Inc. Apparatus, system and method for directing voice input in a controlling device
JP6788620B2 (ja) * 2018-01-22 2020-11-25 ヤフー株式会社 情報処理システム、情報処理方法、およびプログラム
KR102115222B1 (ko) 2018-01-24 2020-05-27 삼성전자주식회사 사운드를 제어하는 전자 장치 및 그 동작 방법
JP6964275B2 (ja) * 2018-02-23 2021-11-10 パナソニックIpマネジメント株式会社 移動ロボット、およびロボットシステム
CN108489001A (zh) * 2018-04-26 2018-09-04 英飞凌(深圳)智慧科技有限公司 提高语音识别率的净化器控制方法及装置
WO2020050882A2 (en) 2018-05-04 2020-03-12 Google Llc Hot-word free adaptation of automated assistant function(s)
EP3982236B1 (en) 2018-05-04 2023-10-11 Google LLC Invoking automated assistant function(s) based on detected gesture and gaze
EP4343499A3 (en) * 2018-05-04 2024-06-05 Google LLC Adapting automated assistant based on detected mouth movement and/or gaze
WO2020129421A1 (ja) 2018-12-19 2020-06-25 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
EP3950236A4 (en) 2019-03-29 2022-07-06 Sony Group Corporation INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING METHOD AND PROGRAM
CN111933130B (zh) * 2019-04-24 2024-10-08 斑马智行网络(香港)有限公司 语音识别方法、装置及系统
KR20210011637A (ko) 2019-07-23 2021-02-02 삼성전자주식회사 컨텐츠를 재생하는 전자 장치 및 그 제어 방법
CN110556101A (zh) * 2019-07-30 2019-12-10 珠海格力电器股份有限公司 语音控制方法、装置、计算机设备和存储介质
JP7505734B2 (ja) * 2019-12-27 2024-06-25 アイリスオーヤマ株式会社 送風機
JP2021117296A (ja) * 2020-01-23 2021-08-10 トヨタ自動車株式会社 エージェントシステム、端末装置およびエージェントプログラム
CN113724701B (zh) * 2020-05-11 2024-10-22 青岛海尔洗衣机有限公司 一种语音识别方法、装置、设备及介质
KR102168812B1 (ko) * 2020-05-20 2020-10-22 삼성전자주식회사 사운드를 제어하는 전자 장치 및 그 동작 방법
WO2021234839A1 (ja) * 2020-05-20 2021-11-25 三菱電機株式会社 対話予兆検知装置、および、対話予兆検知方法
CN112233673A (zh) * 2020-10-10 2021-01-15 广东美的厨房电器制造有限公司 厨房系统的控制方法、厨房系统和计算机可读存储介质
CN113380247A (zh) * 2021-06-08 2021-09-10 阿波罗智联(北京)科技有限公司 多音区语音唤醒、识别方法和装置、设备、存储介质
US12020704B2 (en) 2022-01-19 2024-06-25 Google Llc Dynamic adaptation of parameter set used in hot word free adaptation of automated assistant

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1920946A (zh) * 2005-07-01 2007-02-28 伯斯有限公司 汽车接口
CN101930789A (zh) * 2009-06-26 2010-12-29 英特尔公司 使用环境音频分析来控制音频播放器
CN103198832A (zh) * 2012-01-09 2013-07-10 三星电子株式会社 图像显示设备及控制图像显示设备的方法

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6850252B1 (en) * 1999-10-05 2005-02-01 Steven M. Hoffberg Intelligent electronic appliance system and method
JP2000181500A (ja) * 1998-12-15 2000-06-30 Equos Research Co Ltd 音声認識装置及びエ―ジェント装置
US6606280B1 (en) * 1999-02-22 2003-08-12 Hewlett-Packard Development Company Voice-operated remote control
DE10002321C2 (de) * 2000-01-20 2002-11-14 Micronas Munich Gmbh Sprachgesteuerte Vorrichtung und System mit einer derartigen sprachgesteuerten Vorrichtung
US6728679B1 (en) * 2000-10-30 2004-04-27 Koninklijke Philips Electronics N.V. Self-updating user interface/entertainment device that simulates personal interaction
JP4100309B2 (ja) * 2003-09-17 2008-06-11 株式会社ノーリツ 温水システム
US6926199B2 (en) * 2003-11-25 2005-08-09 Segwave, Inc. Method and apparatus for storing personalized computing device setting information and user session information to enable a user to transport such settings between computing devices
JP4602301B2 (ja) 2006-09-15 2010-12-22 シャープ株式会社 テレビ受像機
JP2012025270A (ja) * 2010-07-23 2012-02-09 Denso Corp 車両用の音量制御装置および音量制御装置用のプログラム
US8655307B1 (en) * 2012-10-26 2014-02-18 Lookout, Inc. System and method for developing, updating, and using user device behavioral context models to modify user, device, and application state, settings and behavior for enhanced user security
US8977555B2 (en) * 2012-12-20 2015-03-10 Amazon Technologies, Inc. Identification of utterance subjects
US9813808B1 (en) * 2013-03-14 2017-11-07 Amazon Technologies, Inc. Adaptive directional audio enhancement and selection
WO2015029362A1 (ja) * 2013-08-29 2015-03-05 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 機器制御方法及び機器制御システム
EP3125134B1 (en) * 2014-03-28 2018-08-15 Panasonic Intellectual Property Management Co., Ltd. Speech retrieval device, speech retrieval method, and display device
US9257120B1 (en) * 2014-07-18 2016-02-09 Google Inc. Speaker verification using co-location information
US9318107B1 (en) * 2014-10-09 2016-04-19 Google Inc. Hotword detection on multiple devices
KR102047500B1 (ko) * 2014-11-27 2019-11-21 삼성전자주식회사 사용자의 할일 목록을 제공하는 시스템 및 방법
US9729118B2 (en) * 2015-07-24 2017-08-08 Sonos, Inc. Loudness matching
US9484030B1 (en) * 2015-12-02 2016-11-01 Amazon Technologies, Inc. Audio triggered commands
US9858927B2 (en) * 2016-02-12 2018-01-02 Amazon Technologies, Inc Processing spoken commands to control distributed audio outputs

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1920946A (zh) * 2005-07-01 2007-02-28 伯斯有限公司 汽车接口
CN101930789A (zh) * 2009-06-26 2010-12-29 英特尔公司 使用环境音频分析来控制音频播放器
CN103198832A (zh) * 2012-01-09 2013-07-10 三星电子株式会社 图像显示设备及控制图像显示设备的方法

Also Published As

Publication number Publication date
EP3413303B1 (en) 2020-07-08
WO2017134935A1 (ja) 2017-08-10
US20190019513A1 (en) 2019-01-17
DE112016006351T5 (de) 2018-10-18
JP2017138476A (ja) 2017-08-10
CN108604447A (zh) 2018-09-28
EP3413303A1 (en) 2018-12-12
EP3413303A4 (en) 2018-12-12

Similar Documents

Publication Publication Date Title
CN108604447B (zh) 信息处理装置、信息处理方法和程序
KR102041063B1 (ko) 정보 처리 장치, 정보 처리 방법 및 프로그램
JP6502249B2 (ja) 音声認識方法及び音声認識装置
JP6534926B2 (ja) 話者識別方法、話者識別装置及び話者識別システム
CN112331193B (zh) 语音交互方法及相关装置
CN108121490A (zh) 用于处理多模式输入的电子装置、方法和服务器
CN102967026B (zh) 智能空调及其控制方法
CN107408027A (zh) 信息处理设备、控制方法及程序
CN110322760B (zh) 语音数据生成方法、装置、终端及存储介质
CN110070863A (zh) 一种语音控制方法及装置
WO2017141530A1 (ja) 情報処理装置、情報処理方法、及びプログラム
CN106067996B (zh) 语音再现方法、语音对话装置
JP2011081541A (ja) 入力装置及びその制御方法
CN111816180B (zh) 基于语音控制电梯的方法、装置、设备、系统及介质
US20200326832A1 (en) Electronic device and server for processing user utterances
CN115831155A (zh) 音频信号的处理方法、装置、电子设备及存储介质
CN108377422A (zh) 一种多媒体内容的播放控制方法、装置及存储介质
CN110992989A (zh) 语音采集方法、装置及计算机可读存储介质
CN109036410A (zh) 语音识别方法、装置、存储介质及终端
CN114822543A (zh) 唇语识别方法、样本标注方法、模型训练方法及装置、设备、存储介质
CN113220590A (zh) 语音交互应用的自动化测试方法、装置、设备及介质
WO2017143951A1 (zh) 一种表情反馈方法及智能机器人
EP2763380A1 (en) Portable electronic device with improved chemical sampling
CN116582382B (zh) 智能设备控制方法、装置、存储介质及电子设备
US11657821B2 (en) Information processing apparatus, information processing system, and information processing method to execute voice response corresponding to a situation of a user

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant