CN110892475A

CN110892475A - 信息处理装置、信息处理方法和程序

Info

Publication number: CN110892475A
Application number: CN201880045866.0A
Authority: CN
Inventors: 中川亚由美; 小俣贵宣; 稻谷壮一郎
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2017-07-19
Filing date: 2018-04-23
Publication date: 2020-03-17
Also published as: EP3657495A1; WO2019017033A1; US11170754B2; US20200160833A1; EP3657495A4

Abstract

[问题]为了使用户清楚地确定声音传递的信息的来源。[解决方案]本发明提供一种信息处理装置，包括输出控制单元，控制使用声音对信息通知的输出。基于识别的外部声源，输出控制单元使信息通知以与外部声源能够产生的外部声音不同的输出模式输出。此外，本发明提供了一种信息处理方法，其中，处理器控制使用声音对信息通知的输出。控制还包括基于识别的外部声源，使信息通知以与外部声源能够产生的外部声音不同的输出模式输出。

Description

信息处理装置、信息处理方法和程序

技术领域

本公开涉及信息处理器、信息处理方法和程序。

背景技术

近年来，使用声音向用户通知信息的各种输出装置已经变得普遍。此外，已经开发了许多用于增强与声音通知信息相关的用户便利性的技术。例如，专利文献1公开了一种机器人，其随着维护检查日期的接近而改变说话时的语音质量。

引用列表

专利文献

专利文献1：JP 2016-90724A

发明内容

技术问题

另一方面，在上述输出装置用于周围存在另一声源的情况下时，假设由另一声源输出的声音可以类似于由输出装置输出的声音。在这种情况下，可能出现用户不能识别感知声音的来源的情况。

因此，本公开提出了一种新型改进的信息处理器、信息处理方法和程序，其允许用户清楚地掌握伴随有声音的信息源。

问题的解决方案

根据本公开，提供了一种信息处理器，包括：输出控制单元，其使用声音控制信息通知的输出，其中，所述输出控制单元基于识别的外部声源，使信息通知以与外部声源能够发出的外部声音不同(不相似，not similar)的输出模式输出。

此外，根据本公开，提供了一种信息处理方法，包括：由处理器使用声音控制信息通知的输出，其中，所述控制还包括基于识别的外部声源，使信息通知以与外部声源能够发出的外部声音不同的输出模式输出。

此外，根据本公开，提供了一种程序，其使计算机用作信息处理器，其包括输出控制单元，输出控制单元使用声音控制信息通知的输出，所述输出控制单元基于识别的外部声源，使信息通知以与外部声源能够发出的外部声音不同的输出模式输出。

发明的有益效果

如上所述，根据本公开，可以允许用户清楚地掌握伴随有声音的信息源。

注意，上述效果不一定是限制性的。与上述效果一起或者代替上述效果，可以产生本说明书中描述的任何效果或者可以从本说明书中掌握的其他效果。

附图说明

图1是用于描述本公开的一个实施方式的概述的示图；

图2是示出根据同一实施方式的信息处理系统的系统配置示例的框图；

图3是示出根据同一实施方式的信息处理终端的功能配置示例的框图；

图4是示出根据同一实施方式的信息处理服务器的功能配置示例的框图；

图5A是用于描述根据同一实施方式的外部声源的变化的示图；

图5B是用于描述根据同一实施方式的外部声源的变化的示图；

图5C是用于描述根据同一实施方式的外部声源的变化的示图；

图5D是用于描述根据同一实施方式的外部声源的变化的示图；

图6是用于描述根据同一实施方式的基于信息通知类别改变输出模式的时间的控制的示图；

图7是用于描述根据同一实施方式的基于信息通知的长度来改变输出模式的时间的控制的示图；

图8是用于描述根据同一实施方式的基于输出模式控制的次数的输出控制的示图；

图9是用于描述根据同一实施方式的基于外部声音的输出趋势的输出模式的控制的示图；

图10是用于描述根据同一实施方式的外部声源的控制的示图；

图11是示出根据同一实施方式的信息处理服务器累积外部声源数据的流程的流程图；

图12是示出根据同一实施方式的信息处理服务器的输出模式控制的流程的流程图；

图13是示出根据本公开的一个实施方式的信息处理终端和信息处理服务器共用的硬件配置示例的示图。

具体实施方式

下面将参考附图详细描述本公开的优选实施方式。注意，在本说明书和附图中，具有基本相同功能配置的部件将由相同的附图标记表示，并且省略冗余的描述。

注意，将按以下顺序给出描述。

1.实施方式

1.1.实施方式概述

1.2.系统配置示例

1.3.信息处理终端10的功能配置示例

1.4.信息处理服务器20的功能配置示例

1.5.输出控制详情

1.6.处理流程

2.硬件配置示例

3.总结

<1.实施方式>

<<1.1.实施方式概述>>

首先，将描述本公开的一个实施方式的概述。如上所述，近年来，使用声音执行信息通知的各种输出装置已经变得普及。如上所述的输出装置具有例如使用语音回答用户问题的功能或者在预定时间用诸如警报等通知声音通知用户的功能。

通过使用如上所述的输出装置，用户可以容易地享受各种信息，而不受注视方向和行为的限制。例如，用户可以在烹饪时与输出装置交互，以接收与食谱等相关的信息的呈现。

因此，如上所述的输出装置可以用于各种情况。然而，在输出装置用于存在另一声源的环境中的情况下，可以假设难以识别声源的情况。

例如，在从输出装置和另一声源同时输出类似声音的情况下，用户难以识别用户已经感知的声源是输出装置还是另一声源。此外，即使在不同时输出声音的情况下，在用户知道输出装置和另一声源输出相似声音的情况下，用户也可能无法识别用户已经感知到的声源。

根据本公开的技术思想是通过关注上述各点而构思的，并且允许用户清楚地掌握伴随有声音的信息源。为此，根据本公开实施方式的信息处理器、信息处理方法和程序的一个特征是基于识别的外部声源，使输出装置以与外部声源能够发出的声音不同的输出模式输出信息通知。

图1是用于描述本公开的实施方式的概述的示图。图1示出了使用声音执行信息通知的信息处理终端10、接收信息处理终端10的信息通知的用户U1、以及对应于上述另一声源的外部声源SS。

此外，图1示出了由信息处理终端10输出的信息通知IN和由外部声源SS发出的外部声音ES。注意，在本公开的附图中，用于信息通知IN和外部声音ES的文本修饰指示声学特征的相似性。即，在信息通知IN和外部声音ES由相同的文本修饰表示的情况下，这表明信息通知IN和外部声音ES具有相似的声学特征。另一方面，在信息通知IN和外部声音ES由不同的文本修饰表示的情况下，这表明信息通知IN和外部声音ES具有不同的声学特征。

此外，根据本实施方式的外部声源SS可以是能够发出与信息处理终端10发出的信息通知相匹敌的声音的声源。在图1所示的示例的情况下，信息处理终端10是使用人工语音向用户U1通知信息的装置，因此外部声源SS被示为不同于用户U1的人。

在此处，如图1的上部所示，在信息处理终端10输出的信息通知IN和外部声源SS发出的外部声音ES具有相似声学特征的情况下，可能出现用户U1难以判断用户U1已经感知的声音是信息处理终端10输出的信息通知IN还是外部声源SS发出的外部声音ES的情况。假设当用户U1正在执行另一动作或者将目光从信息处理终端10或外部声源SS移开时，上述情况尤其可能出现。

为此，在信息处理终端10中预设的输出模式和可由外部声源SS发出的外部声音ES具有相似声学特征的情况下，根据本公开实施方式的信息处理服务器20可使信息处理终端10以与外部声音ES不同的输出模式输出信息通知IN。更具体地，在外部声音ES和为信息通知IN预设的输出模式之间的相似性超过阈值的情况下，信息处理服务器20可以使信息处理终端10以与外部声音ES不同的输出模式输出信息通知IN。

图1的下部示出了根据本实施方式的在由信息处理服务器20控制的输出模式下的信息通知IN。在此处，在图1的下部比较信息通知IN和外部声音ES时，可以看出信息通知IN由与外部声音ES的文本修饰不同的文本修饰来表示。如上所述，在本公开的附图中，文本修饰指示声学特征的相似性。即，图1的下部示出了信息处理服务器20控制信息处理终端10以与外部声音ES不同的输出模式输出信息通知IN。

依照根据本实施方式的信息处理服务器20的上述功能，用户U1可以清楚和不同地感知由信息处理终端10输出的信息通知IN和由外部声源SS发出的外部声音ES，并且可以正确地接收从信息处理终端10和外部声源SS中的每一个发送的信息。下面将详细描述根据本实施方式的信息处理服务器20的上述功能。

<<1.2.系统配置示例>>

接下来，将描述根据本公开实施方式的信息处理系统的系统配置示例。图2是示出根据本实施方式的信息处理系统的系统配置示例的框图。参考图2，根据本实施方式的信息处理系统包括信息处理终端10和信息处理服务器20。此外，信息处理终端10和信息处理服务器20经由网络30连接，使得其能够彼此通信。

(信息处理终端10)

根据本实施方式的信息处理终端10是基于信息处理服务器20的控制使用声音向用户通知信息的装置。注意，根据本实施方式的信息处理终端10可以使用诸如警报等通知声音来执行信息通知，或者可以使用人工语音来执行语音通知。

根据本实施方式的信息处理终端10可以实现为具有声音输出功能的各种装置。根据本实施方式的信息处理终端10可以是例如移动电话、智能手机、平板电脑、可穿戴装置、计算机或固定类型或自主移动类型的专用装置。

(信息处理服务器20)

根据本实施方式的信息处理服务器20是控制信息处理终端10输出信息通知的信息处理器。如上所述，上述信息通知包括使用通知声音、人工语音等的各种通知。此时，根据本实施方式的信息处理服务器20具有基于识别的外部声源控制由信息处理终端10输出的信息通知的输出模式的功能。具体地，根据本实施方式的信息处理服务器20可以使得信息处理终端10以与外部声源发出的外部声音不同的输出模式输出信息通知。

(网络30)

网络30具有连接信息处理终端10和信息处理服务器20的功能。网络30可以包括公共线路网络(例如，互联网)、电话线网络或卫星通信网络、包括以太网(注册商标)的各种局域网(LAN)或广域网(WAN)。此外，网络30可以包括专用线路网络，例如，互联网协议虚拟专用网络(IP-VPN)。此外，网络30可以包括无线通信网络，例如，Wi-Fi(注册商标)或蓝牙(注册商标)。

上面已经描述了根据本实施方式的信息处理系统的系统配置示例。注意，上面参考图2描述的配置仅仅是示例，并且根据本实施方式的信息处理系统的配置不限于这样的示例。例如，根据本实施方式的信息处理终端10和信息处理服务器20的功能可以由单个装置实现。根据本实施方式的信息处理系统的配置可以根据规格和操作灵活地修改。

<<1.3.信息处理终端10的功能配置示例>>

接下来，将描述根据本实施方式的信息处理终端10的功能配置示例。图3是示出根据本实施方式的信息处理终端10的功能配置示例的框图。参考图3，根据本实施方式的信息处理终端10包括显示单元110、音频输出单元120、音频输入单元130、成像单元140、控制单元150和服务器通信单元160。

(显示单元110)

根据本实施方式的显示单元110具有输出诸如图像和文本等视觉信息的功能。例如，根据本实施方式的显示单元110可以基于信息处理服务器20的控制，显示与声音的信息通知相关联的视觉信息。

为此，根据本实施方式的显示单元110包括呈现视觉信息的显示装置。上述显示装置的示例包括液晶显示(LCD)装置、有机发光二极管(OLED)装置和触摸面板。此外，根据本实施方式的显示单元110可以使用投影功能来输出视觉信息。

(音频输出单元120)

根据本实施方式的音频输出单元120具有使用通知声音、人工语音等输出信息通知的功能。例如，基于信息处理服务器20的控制，根据本实施方式的音频输出单元120可以使用语音话语来输出对用户问题的回答。此外，基于预设的用户时间表，音频输出单元120可以在基于时间表的时间输出通知声音等。为此，根据本实施方式的音频输出单元120包括诸如扬声器或放大器等音频输出装置。

(音频输入单元130)

根据本实施方式的音频输入单元130具有收集声音信息(例如，用户的话语和外部声源发出的外部声音)的功能。由音频输入单元130收集的声音信息被信息处理服务器20用于语音识别和外部声源的识别。根据本实施方式的音频输入单元130包括用于收集声音信息的麦克风。

(成像单元140)

根据本实施方式的成像单元140具有捕获包括用户和外部声源的图像的功能。成像单元140捕获的图像被信息处理服务器20用于用户识别和外部声源的识别。根据本实施方式的成像单元140包括能够捕获图像的成像装置。注意，除了静止图像之外，上述图像还包括运动图像。

(控制单元150)

根据本实施方式的控制单元150具有控制信息处理终端10中包括的每个部件的功能。例如，控制单元150控制每个部件的启动和停止。此外，控制单元150可以将信息处理服务器20生成的控制信号输入到显示单元110或音频输出单元120。此外，根据本实施方式的控制单元150可以具有等同于稍后描述的信息处理服务器20的输出控制单元230的功能。

(服务器通信单元160)

根据本实施方式的服务器通信单元160具有经由网络30与信息处理服务器20执行信息通信的功能。具体地，服务器通信单元160向信息处理服务器20发送由音频输入单元130收集的声音信息和由成像单元140捕获的图像信息。此外，服务器通信单元160从信息处理服务器20接收控制信号或与信息通知的输出相关的人工语音。

上面已经描述了根据本实施方式的信息处理终端10的功能配置示例。注意，以上参考图3描述的配置仅仅是示例，并且根据本实施方式的信息处理终端10的功能配置不限于这样的示例。例如，根据本实施方式的信息处理终端10不一定包括图3所示的所有部件。信息处理终端10可以具有不包括显示单元110等的配置。此外，如上所述，根据本实施方式的控制单元150可以具有等同于信息处理服务器20的输出控制单元230的功能。根据本实施方式的信息处理终端10的功能配置可以根据规格和操作灵活地修改。

<<1.4.信息处理服务器20的功能配置示例>>

接下来，将描述根据本实施方式的信息处理服务器20的功能配置示例。图4是示出根据本实施方式的信息处理服务器20的功能配置示例的框图。参考图4，根据本实施方式的信息处理服务器20包括识别单元210、确定单元220、输出控制单元230、音频合成单元240、存储单元250和终端通信单元260。此外，存储单元250包括用户DB 252、外部声源DB 254和输出模式DB 256。

(识别单元210)

根据本实施方式的识别单元210具有识别用户和外部声源的功能。例如，识别单元210可以通过将信息处理终端10收集的用户话语和图像与预先存储在用户DB 252中的用户声音特征和图像进行比较来识别用户。此外，识别单元210可以基于用户的语音和图像来识别用户的凝视方向、面部表情、状态、动作等。

此外，识别单元210可以通过将信息处理终端10收集的声音信息和图像与存储在外部声源DB 254中的外部声源的声学特征和结构特征进行比较来识别外部声源。注意，识别单元210还可以通过经由网络30从外部声源接收识别信息来识别外部声源。

此外，在对应于收集的声音信息和图像的数据没有记录在外部声源DB 254上的情况下，识别单元210基于上述声音信息和图像使得与新的外部声源相关的数据记录在外部声源DB 254上。

此外，识别单元210基于由信息处理终端10收集的用户话语来执行语音识别。

(确定单元220)

根据本实施方式的确定单元220具有确定可由外部声源发出的外部声音和为信息通知预设的输出模式之间的相似性的功能。确定单元220可以基于例如外部声音的频率、韵律、输出强度和语音质量(扬声器模型)等声学特征以及信息通知的声学特征来确定上述相似性。注意，上述韵律包括声音的节奏、强度、长度等。

基于识别单元210对外部声源的识别，确定单元220可以通过从外部声源DB 254获取可以由外部声源发出的外部声音的声学特征来执行上述确定。此外，确定单元220还可以基于与信息处理终端10收集的外部声音相关的声音信息来实时确定相似性。

此外，根据本实施方式的确定单元220基于由识别单元210识别的用户面部表情、状态等来确定用户是否已经识别出信息通知的来源。根据本实施方式的输出控制单元230可以基于确定单元220的上述确定来控制输出模式。

(输出控制单元230)

根据本实施方式的输出控制单元230具有控制信息处理终端10使用声音输出信息通知的功能。此时，根据本实施方式的输出控制单元230的一个特征是基于识别单元210识别的外部声源，使信息处理终端10以与外部声源能够发出的外部声音不同的输出模式输出信息通知。

注意，根据本实施方式的输出模式包括如上所述的频率、韵律、输出强度和语音质量。即，根据本实施方式的输出控制单元230可以改变如上所述的与信息通知相关的声学特征，以防止其类似于外部声音。

例如，在信息处理终端10具有使用语音输出语音通知的功能的情况下，输出控制单元230可以使得信息处理终端10输出语音质量与外部声源能够发出的外部声音不同的语音通知。此时，在外部声源是50多岁男性的情况下，输出控制单元230可以将信息通知的语音质量设置为20多岁女性的语音质量。根据输出控制单元230的上述功能，用户可以容易地区分信息通知和外部声音。

此外，根据本实施方式的输出控制单元230可以改变信息通知的音调，以防止其类似于外部声音。例如，在外部声源是以友好音调说话的人的情况下，输出控制单元230可以以礼貌语言输出信息通知。此外，输出控制单元230可以改变信息通知的语音的结尾等，以将其与外部声音区分开来。

注意，以上描述主要集中于外部声源是人的情况，但是外部声源不限于这样的示例。根据本实施方式的外部声源可以是能够发出与信息通知相匹敌的声音的各种声源。

图5A至图5D是用于描述根据本实施方式的外部声源的变化的示图。图5A示出了外部声源SS是使用语音执行信息通知的装置的示例。图5A所示的外部声源SS可以是例如静止型语音代理。此时，根据本实施方式的输出控制单元230可以使得信息处理终端10以与外部声音ES不同的输出模式输出信息通知IN。在图5A所示的示例中，输出控制单元230控制信息通知IN的语音质量或音调，以防止其类似于外部声音ES。根据输出控制单元230的上述功能，即使在除了信息处理终端10之外，还存在执行语音信息通知的装置的情况下，用户也可以清楚地掌握信息源。

此外，图5B示出了外部声源SS是具有再现视频功能的装置的示例。例如，图5B所示的外部声源SS可以是电视装置。此时，根据本实施方式的输出控制单元230可以使得信息处理终端10以与外部声音ES(例如，包括在视频中的话语)不同的输出模式输出信息通知IN。在图5B所示的示例中，输出控制单元230控制信息通知IN的语音质量等，以防止其类似于外部声音ES。根据输出控制单元230的上述功能，即使在用户正在观看视频的情况下，用户也可以容易地察觉到信息通知IN的来源是信息处理终端10。

此外，图5C示出了外部声源SS是诸如宠物等生物的示例。注意，图5C中的信息处理终端10可以是宠物型代理。此时，根据本实施方式的输出控制单元230可以使得信息处理终端10以与作为外部声源SS的呼叫的外部声音ES不同的输出模式输出信息通知IN。在图5C所示的示例中，输出控制单元230控制信息通知IN的频率、韵律等，以防止其类似于外部声音ES。根据输出控制单元230的上述功能，即使在用户与活体宠物生活在一起的情况下，用户也可以容易地察觉到信息通知IN的来源是作为宠物类型代理的信息处理终端10。

此外，图5D示出了外部声源SS是输出通知声音的装置的示例。例如，图5D所示的外部声源SS可以是家用电器，例如，微波炉。此时，根据本实施方式的输出控制单元230可以使得信息处理终端10以与外部声源SS可以发出的外部声音ES不同的输出模式输出信息通知IN。在图5D所示的示例中，输出控制单元230控制信息通知IN的频率、韵律等，以防止其类似于外部声音ES。根据输出控制单元230的上述功能，即使在发出通知声音的各种装置存在于信息处理终端10周围的情况下，用户也可以容易地识别用户已经感知到的声音的来源。

(音频合成单元240)

根据本实施方式的音频合成单元240具有基于输出控制单元230的控制合成要由信息处理终端10输出的人工语音的功能。

(存储单元250)

根据本实施方式的存储单元250包括用户DB 252、外部声源DB 254和输出模式DB256。

((用户DB 252))

根据本实施方式的用户DB 252存储与用户相关的各种信息。用户DB252存储例如用户的面部图像和语音特征。此外，用户DB 252可以存储诸如用户的性别、年龄、品味和趋势等信息。

((外部声源DB 254))

根据本实施方式的外部声源DB 254存储外部声源的结构特征和可以由外部声源发出的外部声音的声学特征。根据本实施方式的确定单元220可以基于存储在外部声源DB254中的信息来确定上述相似性。

((输出模式DB 256))

根据本实施方式的输出模式DB 256存储为信息通知预设的输出模式。例如，输出模式DB 256可以存储多个输出模式，每个输出模式为对应的信息通知类别设置。

此外，输出模式DB 256还可以存储用于预定外部声源的适当输出模式。输出模式DB 256可以存储例如作为用户家庭成员的外部声源的适当输出模式，即与家庭成员的声音不同的输出模式。在这种情况下，基于对作为用户家庭成员的外部声源的识别，输出控制单元230可以从输出模式DB 256获取适当的输出模式，并且使得以不同于家庭成员的语音质量输出信息通知。

(终端通信单元260)

根据本实施方式的终端通信单元260具有经由网络30与信息处理终端10执行信息通信的功能。具体地，终端通信单元260从信息处理终端10接收声音信息和图像信息，例如，用户的话语和外部声音。此外，终端通信单元260向信息处理终端10发送由输出控制单元230生成的控制信号和由音频合成单元240合成的人工语音。

上面已经描述了根据本实施方式的信息处理服务器20的功能配置示例。注意，以上参考图4描述的功能配置仅仅是示例，并且根据本实施方式的信息处理服务器20的功能配置不限于这样的示例。例如，信息处理服务器20不一定包括图4所示的所有部件。识别单元210、确定单元220、音频合成单元240和存储单元250可以包括在不同于信息处理服务器20的装置中。根据本实施方式的信息处理服务器20的功能配置可以根据规范和运用灵活地修改。

<<1.5.输出控制详情>>

接下来，将详细描述根据本实施方式的输出控制单元230对信息通知的输出控制。

(与改变输出模式的时间相关的控制)

首先，将描述与根据本实施方式的改变输出模式的时间相关的控制。如上所述，根据本实施方式的输出控制单元230可以基于识别单元210识别的外部声源来改变信息处理终端10的信息通知的输出模式。然而，在识别外部声源之后，信息通知的输出模式立即改变的情况下，假设用户可能对突然改变感到不舒服。为此，根据本实施方式的输出控制单元230可以通过基于各种输出上下文控制改变输出模式的时间，有效地降低使用户感到不舒服的可能性。

在此处，上述输出上下文包括例如信息通知类别。当信息通知切换到另一类别时，根据本实施方式的输出控制单元230可以改变信息通知的输出模式。

图6是用于描述根据本实施方式的基于信息通知类别改变输出模式的时间的控制的示图。图6示出了由信息处理终端10的显示单元110显示的视觉信息VI。此外，说话者角色C1和C2显示在视觉信息VI中。在此处，说话者角色C1和C2是与不同信息通知类别相关联的角色。

例如，说话者角色C1可以是与天气预报相关的信息通知相关联的角色。此时，假设在说话者角色C1正在执行与天气预报相关的信息通知IN1的情况下，识别到具有与为说话者角色C1设置的语音和音调相似的声学特征的外部声源的情况。此时，根据本实施方式的输出控制单元230照常完成与天气预报相关的信息通知IN1，而无需改变说话者角色C1的信息通知IN1的输出模式。

接下来，输出控制单元230在输出切换到与不同类别的体育新闻相关的信息通知IN2的时间，显示设置了与说话者角色C1的语音质量或音调不同的语音质量或音调的说话者角色C2，并使得说话者角色C2呈现与体育新闻相关的信息通知IN2。

因此，根据本实施方式的输出控制单元230可以在信息通知切换到另一类别的时间，在与输出模式相关联的多个说话者角色之间切换。依照根据本实施方式的输出控制单元230的上述功能，可以有效地减少用户对输出模式改变的不舒服感。注意，可以基于信息通知的内容、生成信息通知的应用程序等来适当设置上述信息通知类别。

此外，上述的输出上下文包括例如信息通知的长度。根据本实施方式的输出控制单元230可以基于信息通知的长度以逐步的方式改变输出模式。图7是用于描述根据本实施方式的基于信息通知的长度来改变输出模式的时间的控制的示图。图7示出了由信息处理终端10输出的信息通知IN。

在此处，图7所示的信息通知IN包括多个句子，并且需要相对长的输出时间。在这样的情况下，其中，信息通知IN具有足够的长度，根据本实施方式的输出控制单元230可以例如针对包括在信息通知IN中的每个句子以逐步的方式改变输出模式。依照根据本实施方式的输出控制单元230的上述功能，可以避免输出模式的突然改变，并且有效地减少用户的不舒服感。

此外，上述的输出上下文包括例如与信息通知的输出模式相关的控制次数。即使在如上所述基于信息通知的类别和长度执行控制的情况下，在输出模式在短时间内多次改变的情况下，假设用户可能对输出模式的重复改变感到不舒服。为此，根据本实施方式的输出控制单元230可以基于与输出模式相关的控制次数来控制信息通知的输出。更具体地，根据本实施方式的输出控制单元230可以执行控制，使得输出模式在预定时间内的变化次数不超过阈值。

图8是用于描述根据本实施方式的基于输出模式控制次数的输出控制的示图。图8的上部示出了识别的外部声源SS1和输出模式被控制为不类似于外部声源SS1能够发出的外部声音的信息通知IN。

此外，图8的下部示出了在图8的上部的状态下进一步识别外部声源SS2的情况。此时，为了避免信息通知的输出模式在短时间内的多次改变，根据本实施方式的输出控制单元230可以例如使得输出视觉信息V1，来代替如图所示的信息通知。

依照根据本实施方式的输出控制单元230的上述功能，可以防止信息通知输出模式频繁改变，并且有效地减少用户的不舒服感。

(基于外部声音的输出趋势的控制)

接下来，将描述根据本实施方式的基于外部声音的输出趋势的控制。例如，在信息处理终端10安装在家中的情况下，假设周围存在各种外部声源，例如，另一信息终端、家用电器和用户的家庭成员。另一方面，如上所述的外部声源可能不总是发出外部声音。此外，如上所述由外部声源发出的外部声音的输出趋势可以具有规律性。为此，根据本实施方式的输出控制单元230可以基于存在于信息处理终端10周围的外部声源发出的外部声音的输出趋势来控制信息通知的输出模式。

图9是用于描述根据本实施方式的基于外部声音的输出趋势的输出模式的控制的示图。图9的上部示出了18：00时家中的情况。在图9上部所示的示例中，例如，在接近18：00的时区，用户U2正在烹饪，并且作为用户U2的家庭成员的外部声源SS正在操作计算机。

因此，例如，根据时区等，可能存在外部声源SS不发出外部声音的强烈趋势。为此，根据本实施方式的输出控制单元230可以使得信息处理终端10在外部声源SS不可能发出外部声音的时区中以预设输出模式输出信息通知IN。

另一方面，图9的下部示出了20：00时家中的情况。在图9下部示出的示例中，在接近20：00的时区，用户U2和外部声源SS都在用餐中。此外，此时，外部声源SS发出作为与用户U2对话的一部分的外部声音ES。

因此，根据时区，外部声源SS可能具有发出外部声音的强烈趋势。为此，在外部声源SS具有发出外部声音ES的强烈趋势的时区中，根据本实施方式的输出控制单元230可以改变信息通知IN的输出模式，以防止其类似于外部声音ES。

依照根据本实施方式的输出控制单元230的上述功能，只有在可能产生外部声音ES的情况下，才有可能控制信息通知的输出模式，并且可以减少输出模式的改变次数。这能够减少用户的不舒服感并有效降低处理成本。

注意，以上参考图9的描述作为示例描述了输出控制单元230基于作为外部声源的用户的话语趋势来控制信息通知的输出模式的情况，但是根据本实施方式的控制不限于这样的示例。例如，同样在外部声源是家用电器的情况下，假设通知声音的输出倾向于依赖于时区等。在这种情况下，根据本实施方式的输出控制单元230可以根据时区改变通知声音的输出模式。

(外部声源的控制)

接下来，将描述根据本实施方式的外部声源的控制。在以上描述中，已经描述了输出控制单元230控制信息处理终端10的信息通知的输出模式，以防止信息通知类似于外部声音的情况。另一方面，在外部声源是具有输出声音的功能的声音输出装置的情况下，根据本实施方式的输出控制单元230也可以控制由外部声源发出的外部声音的输出。

图10是用于描述根据本实施方式的外部声源的控制的示图。图10的上部示出了作为电视装置的外部声源SS和信息处理终端10。此外，在图10的上部示出的示例示出了由外部声源SS发出的外部声音ES和由信息处理终端10输出的信息通知之间的高度相似的情况。

此时，根据本实施方式的输出控制单元230可以控制由外部声源SS输出的外部声音ES的输出模式，如图10的下部所示。在图10下部所示的示例的情况下，输出控制单元230改变外部声音ES的语音质量等，以防止其类似于信息通知IN。输出控制单元230可以通过使用例如可选的频率滤波器来执行上述控制。此外，输出控制单元230可以使来自外部声源SS的原始外部声音ES的输出静音，并且使得外部声源SS输出由音频合成单元240合成的人工语音。

依照根据本实施方式的输出控制单元230的上述功能，例如，当信息处理终端10正在执行重要信息通知时，可以保持信息通知的输出模式。这可以更有效地减少用户的不舒服感。

<<1.6.处理流程>>

接下来，将详细描述根据本实施方式的信息处理服务器20执行的处理流程。首先，将描述根据本实施方式的信息处理服务器20对外部声源数据的累积。图11是示出根据本实施方式的信息处理服务器20累积外部声源数据的流程的流程图。

参考图11，首先，信息处理服务器20的终端通信单元260从信息处理终端10接收收集的信息(S1101)。在此处，上述收集的信息包括与外部声源发出的外部声音相关的声音信息和包括外部声源的图像信息。

接下来，识别单元210基于在步骤S1101中接收的与外部声源相关的图像信息来分析外部声源的结构特征(S1102)。

随后，识别单元210基于与在步骤S1101中接收的外部声音相关的声音信息来分析外部声音的声学特征(S1103)。

随后，识别单元210将在步骤S1102中分析的外部声源的结构特征与在步骤S1103中分析的外部声音的声学特征相关联，并将其存储在外部声源DB 254中。

接下来，将描述根据本实施方式的信息处理服务器20对输出模式的控制的流程。图12是示出根据本实施方式的信息处理服务器20对输出模式的控制的流程的流程图。

参考图12，首先，信息处理服务器20的终端通信单元260从信息处理终端10接收收集的信息(S1201)。

接下来，识别单元210基于在步骤S1201中接收的收集信息来识别外部声源(S1202)。注意，在步骤S1202中，相应的外部声源数据不存在于外部声源DB 254中的情况下，识别单元210可以将数据添加到外部声源DB 254，作为新的外部声源。

接下来，确定单元220确定在步骤S1202中识别的外部声源的外部声音和为信息通知预设的输出模式之间的相似性是否等于或大于阈值(S1203)。

在此处，在相似性小于阈值的情况下(S1203：否)，信息处理服务器20结束与输出模式的控制相关的处理，并且以预设输出模式输出信息通知。

另一方面，在相似性等于或大于阈值的情况下(S1203：是)，确定单元220随后确定用户是否已经识别了信息通知的来源(S1204)。

在此处，在确定单元220确定用户已经识别了信息通知的来源的情况下(S1204：是)，信息处理服务器20结束与输出模式的控制相关的处理，并且以预设输出模式输出信息通知。

另一方面，在确定单元220确定用户没有识别信息通知的来源的情况下(S1204：否)，输出控制单元230控制信息通知的输出模式，以防止其类似于外部声音(S1205)。此时，输出控制单元230可以基于各种输出上下文来控制改变输出模式的时间。

<2.硬件配置示例>

接下来，将描述根据本公开的一个实施方式的信息处理终端10和信息处理服务器20共用的硬件配置示例。图13是示出根据本公开实施方式的信息处理终端10和信息处理服务器20的硬件配置示例的框图。参考图13，信息处理终端10和信息处理服务器20包括例如CPU 871、ROM 872、RAM 873、主机总线874、桥接器875、外部总线876、接口877、输入装置878、输出装置879、存储器880、驱动器881、连接端口882和通信装置883。注意，此处所示的硬件配置是示例，并且可以省略一些部件。此外，还可以包括除此处示出的部件之外的部件。

(CPU 871)

CPU 871用作例如算术处理器或控制器，并且基于记录在ROM 872、RAM 873、存储器880或可移除记录介质901上的各种程序来控制每个部件的全部或部分操作。

(ROM 872和RAM 873)

ROM 872是用于存储读入CPU 871的程序、用于计算的数据等的装置。RAM 873暂时或永久存储例如读入CPU 871的程序和当程序执行时适当改变的各种参数。

(主机总线874、桥接器875、外部总线876和接口877)

CPU 871、ROM 872和RAM 873经由例如能够高速数据传输的主机总线874相互连接。另一方面，主机总线874通过例如桥接器875连接到具有较低的数据传输速度的外部总线876。此外，外部总线876经由接口877连接到各种部件。

(输入装置878)

作为输入装置878，例如，使用鼠标、键盘、触摸面板、按钮、开关和操纵杆。此外，作为输入装置878，可以使用能够使用红外线或其他无线电波发送控制信号的遥控器(以下称为遥控器)。此外，输入装置878包括语音输入装置，例如，麦克风。

(输出装置879)

输出装置879是能够视觉或听觉地通知用户所获取的信息的装置，例如，诸如阴极射线管(CRT)、LCD或有机EL等显示装置、诸如扬声器或耳机等音频输出装置、打印机、移动电话或传真机。此外，根据本公开的输出装置879包括能够输出触觉刺激的各种振动装置。

(存储器880)

存储器880是用于存储各种数据的装置。作为存储器880，例如，使用磁存储装置(例如，硬盘驱动器(HDD))、半导体存储装置、光存储装置或磁光存储装置。

(驱动器881)

驱动器881例如是读取记录在诸如磁盘、光盘、磁光盘或半导体存储器等可移除记录介质901上的信息或者将信息写入可移除记录介质901上的装置。

(可移除记录介质901)

可移除记录介质901是例如DVD介质、蓝光(注册商标)介质、HD DVD介质或各种半导体存储介质。毋庸置疑，可移除记录介质901可以是例如配备有非接触式IC芯片的IC卡或电子装置。

(连接端口882)

连接端口882例如是用于连接到外部连接装置902的端口，例如，通用串行总线(USB)端口、IEEE 1394端口、小型计算机系统接口(SCSI)、RS-232C端口或光音频终端。

(外部连接装置902)

外部连接装置902例如是打印机、便携式音乐播放器、数码相机、数码摄像机或IC记录器。

(通信装置883)

通信装置883是用于连接到网络的通信装置，例如，用于有线或无线LAN、蓝牙(注册商标)或无线USB(WUB)的通信卡、用于光通信的路由器、用于非对称数字用户线路(ADSL)的路由器或用于各种通信的调制解调器。

<3.概述>

如上所述，根据本公开的一个实施方式的信息处理服务器20具有基于各种识别的外部声源使得信息通知以与外部声源能够发出的外部声音不同的输出模式输出的功能。这种配置允许用户清楚地掌握声音的信息源。

虽然上面已经参考附图详细描述了本公开的优选实施方式，但是本公开的技术范围不限于这些示例。对于本公开领域的技术人员来说，很明显，在权利要求中描述的技术思想的范围内，可以设想各种修改和变更。自然理解，这种修改和变更也属于本公开的技术范围。

此外，本说明书中描述的效果仅仅是说明性的或示例性的，而不是限制性的。即，根据本公开的技术可以产生对本领域技术人员来说从本说明书的描述中显而易见的其他效果，连同或代替上述效果。

此外，本说明书中由信息处理服务器20执行的处理步骤不必按照流程图中描述的顺序按时间顺序进行处理。例如，由信息处理服务器20执行的处理步骤可以以与流程图中描述的顺序不同的顺序执行，或者可以并行处理。

注意，如下所述的配置也属于本公开的技术范围。

(1)一种信息处理器，包括：

输出控制单元，其控制使用声音对信息通知的输出，

所述输出控制单元基于识别的外部声源，使信息通知以与外部声源能够发出的外部声音不同的输出模式输出。

(2)根据(1)所述的信息处理器，其中，

所述信息通知的输出模式包括频率、韵律或输出强度中的至少一个。

(3)根据(1)或(2)所述的信息处理器，其中，

所述信息通知包括语音通知，并且

所述输出控制单元使得语音通知以与外部声源能够发出的外部声音不同的输出模式输出。

(4)根据(3)所述的信息处理器，其中，

所述输出控制单元使语音通知以与外部声源能够发出的外部声音不同的语音质量或音调输出。

(5)根据(3)或(4)所述的信息处理器，其中，

所述外部声源包括人或音频输出装置。

(6)根据(3)至(5)中任一项所述的信息处理器，其中，

所述输出控制单元基于与语音通知相关的输出上下文来控制改变语音通知的输出模式的时间。

(7)根据(6)所述的信息处理器，其中，

所述输出上下文包括语音通知的类别，并且

当语音通知切换到另一类别时，所述输出控制单元改变语音通知的输出模式。

(8)根据(7)所述的信息处理器，其中，

所述输出控制单元通过在与语音通知的输出模式相关联的多个说话者角色之间切换来改变语音通知的输出模式。

(9)根据(7)或(8)所述的信息处理器，其中，

所述输出上下文包括语音通知的长度，并且

所述输出控制单元基于语音通知的长度以逐步的方式改变语音通知的输出模式。

(10)根据(7)至(9)中任一项所述的信息处理器，其中，

所述输出上下文包括与语音通知的输出模式相关的控制次数，并且

所述输出控制单元基于控制次数来控制语音通知的输出模式。

(11)根据(1)至(10)中任一项所述的信息处理器，其中，

所述输出控制单元基于外部声源能够发出的外部声音和为信息通知预设的输出模式之间的相似性来控制信息通知的输出模式。

(12)根据(11)所述的信息处理器，其中，

在相似性等于或大于阈值的情况下，所述输出控制单元使得信息通知以与外部声源能够发出的外部声音不同的输出模式输出。

(13)根据(1)至(12)中任一项所述的信息处理器，其中，

所述输出控制单元基于与源的识别相关的用户状态来控制信息通知的输出模式。

(14)根据(1)至(13)中任一项所述的信息处理器，其中，

所述外部声源是声音输出装置，并且

所述输出控制单元控制声音输出装置对外部声音的输出。

(15)根据(1)至(14)中任一项所述的信息处理器，其中，

所述输出控制单元基于由外部声源发出的外部声音的输出趋势来控制信息通知的输出模式。

(16)根据(1)至(15)中任一项所述的信息处理器，还包括

识别单元，其识别外部声源。

(17)根据(11)或(12)所述的信息处理器，还包括

确定单元，其确定相似性。

(18)根据(1)至(17)中任一项所述的信息处理器，还包括

声音输出单元，其基于输出控制单元的控制输出信息通知。

(19)一种信息处理方法，包括：

由处理器控制使用声音对信息通知的输出，

所述控制还包括：

基于识别的外部声源，使得信息通知以与外部声源能够发出的外部声音不同的输出模式输出。

(20)一种程序，其使计算机用作

信息处理器，包括

输出控制单元，其控制使用声音对信息通知的输出，

所述输出控制单元基于识别的外部声源，使得信息通知以与外部声源能够发出的外部声音不同的输出模式输出。

符号的说明

10信息处理终端

110显示单元

120音频输出单元

130音频输入单元

140成像单元

150控制单元

160服务器通信单元

20信息处理服务器

210识别单元

220确定单元

230输出控制单元

240音频合成单元

250存储单元

252用户DB

254外部声源DB

256输出模式DB

260终端通信单元。

Claims

1.一种信息处理器，包括：

输出控制单元，控制使用声音对信息通知的输出，

所述输出控制单元基于识别的外部声源，使所述信息通知以与所述外部声源能够发出的外部声音不同的输出模式输出。

2.根据权利要求1所述的信息处理器，其中，

所述信息通知的输出模式包括频率、韵律和输出强度中的至少一个。

3.根据权利要求1所述的信息处理器，其中，

所述信息通知包括语音通知，并且

所述输出控制单元使所述语音通知以与所述外部声源能够发出的所述外部声音不同的输出模式输出。

4.根据权利要求3所述的信息处理器，其中，

所述输出控制单元使所述语音通知以与所述外部声源能够发出的所述外部声音不同的语音质量或音调输出。

5.根据权利要求3所述的信息处理器，其中，

所述外部声源包括人或音频输出装置。

6.根据权利要求3所述的信息处理器，其中，

所述输出控制单元基于与所述语音通知相关的输出上下文来控制改变所述语音通知的输出模式的时间。

7.根据权利要求6所述的信息处理器，其中，

所述输出上下文包括所述语音通知的类别，并且

当所述语音通知切换到另一类别时，所述输出控制单元改变所述语音通知的输出模式。

8.根据权利要求7所述的信息处理器，其中，

所述输出控制单元通过在与所述语音通知的输出模式相关联的多个说话者角色之间切换来改变所述语音通知的输出模式。

9.根据权利要求7所述的信息处理器，其中，

所述输出上下文包括所述语音通知的长度，并且

所述输出控制单元基于所述语音通知的长度以逐步的方式改变所述语音通知的输出模式。

10.根据权利要求7所述的信息处理器，其中，

所述输出上下文包括与所述语音通知的输出模式相关的控制次数，并且

所述输出控制单元基于所述控制次数来控制所述语音通知的输出模式。

11.根据权利要求1所述的信息处理器，其中，

所述输出控制单元基于所述外部声源能够发出的所述外部声音和为所述信息通知预设的输出模式之间的相似性来控制所述信息通知的所述输出模式。

12.根据权利要求11所述的信息处理器，其中，

在所述相似性等于或大于阈值的情况下，所述输出控制单元使所述信息通知以与所述外部声源能够发出的所述外部声音不同的输出模式输出。

13.根据权利要求1所述的信息处理器，其中，

所述输出控制单元基于与源的识别相关的用户状态来控制所述信息通知的输出模式。

14.根据权利要求1所述的信息处理器，其中，

所述外部声源是声音输出装置，并且

所述输出控制单元控制所述声音输出装置对所述外部声音的输出。

15.根据权利要求1所述的信息处理器，其中，

所述输出控制单元基于由所述外部声源发出的所述外部声音的输出趋势来控制所述信息通知的输出模式。

16.根据权利要求1所述的信息处理器，还包括：

识别单元，识别所述外部声源。

17.根据权利要求11所述的信息处理器，还包括：

确定单元，确定所述相似性。

18.根据权利要求1所述的信息处理器，还包括：

声音输出单元，基于所述输出控制单元的控制输出所述信息通知。

19.一种信息处理方法，包括

由处理器控制使用声音对信息通知的输出，

所述控制还包括基于识别的外部声源，使所述信息通知以与外部声源能够发出的外部声音不同的输出模式输出。

20.一种程序，使计算机用作信息处理器，所述信息处理器包括：

输出控制单元，控制使用声音对信息通知的输出，