CN110959174A

CN110959174A - 信息处理装置、信息处理方法以及程序

Info

Publication number: CN110959174A
Application number: CN201880049914.3A
Authority: CN
Inventors: 斋藤真里; 稻谷壮一郎
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2017-08-01
Filing date: 2018-05-22
Publication date: 2020-04-03
Also published as: JPWO2019026395A1; WO2019026395A1; EP3664080A4; EP3664080A1; US20200168222A1

Abstract

即使在音频输出包括用于不同目的的信息时，也使用户清楚地意识到信息的区分。提供一种信息处理装置，该信息处理装置包括输出控制单元，该输出控制单元控制用于与用户进行音频对话的音频发声的输出。音频发声包括主要内容和伴随主要内容的次要内容。输出控制单元使次要内容以与主要内容不同的模式被输出。本发明还提供一种信息处理方法，其中，处理器控制用于与用户进行音频对话的音频发声的输出。音频发声包括主要内容和伴随主要内容的次要内容。由处理器执行的控制使次要内容以与主要内容不同的模式被输出。

Description

信息处理装置、信息处理方法以及程序

技术领域

本公开涉及信息处理装置、信息处理方法以及程序。

背景技术

近年来，通过使用音频向用户呈现信息的各种装置已经流行。另外，已经开发了在向用户进行信息呈现时生成与呈现内容相关的附加信息，并且还输出附加信息的技术。例如，专利文献1公开了与对应于来自用户的询问的响应音频一起输出相关广告的技术。

引用列表

专利文献

专利文献1：JP 2014-74813 A

发明内容

技术问题

这里，尽管在专利文献1中公开的技术中通过使用文本、图像等将广告显示为视觉信息，但是可能存在用户希望通过使用音频来输出诸如广告的伴随信息以及原始呈现的信息的情况。然而，在通过使用音频输出原始呈现的信息和伴随信息两者的情况下，存在用户不能区分原始呈现的信息和伴随信息的可能性。

因此，本公开提出了一种新颖的和改进的信息处理装置、信息处理方法以及程序，即使在执行包括用于不同目的的信息的音频的输出的情况下，该信息处理装置、信息处理方法以及程序也允许用户清楚地感知信息的分类。

解决问题的方法

根据本公开，提供了一种信息处理装置，该信息处理装置包括：输出控制单元，控制与用户的音频对话中的音频发声的输出，其中，音频发声包括主要内容，以及伴随主要内容的次要内容，并且输出控制单元使次要内容以与主要内容的输出模式不同的输出模式输出。

此外，根据本公开，提供了一种信息处理方法，该信息处理方法包括：由处理器控制与用户的音频对话中的音频发声的输出，其中，音频发声包括主要内容和伴随主要内容的次要内容，并且控制还包括使次要内容以与主要内容的输出模式不同的输出模式输出。

此外，根据本公开，提供了一种程序，该程序使计算机用作信息处理装置，信息处理装置包括输出控制单元，输出控制单元控制与用户的音频对话中的音频发声的输出，其中，音频发声包括主要内容和伴随主要内容的次要内容，并且输出控制单元使次要内容以与主要内容的输出模式不同的输出模式输出。

发明的有益效果

如上所述，即使在执行包括用于不同目的的信息的音频的输出的情况下，本公开也允许用户清楚地感知信息的分类。

注意，上述效果不必是限制性的。具有或代替以上效果，可以实现本说明书中描述的任何一种效果或可以从本说明书中理解的其他效果。

附图说明

图1是用于描述根据本公开的实施方式的信息处理服务器对音频发声的输出控制的示图。

图2是示出根据实施方式的信息处理系统的配置示例的框图。

图3是示出根据实施方式的信息处理终端的功能配置示例的框图。

图4是示出根据实施方式的信息处理服务器的功能配置示例的框图。

图5A是用于描述根据实施方式的基于次要内容的特性的输出模式的设置的示图。

图5B是用于描述根据实施方式的基于次要内容的特性的输出模式的设置的示图。

图6A是用于描述根据实施方式的基于用户属性的输出模式的设置的示图。

图6B是用于描述根据实施方式的基于用户属性的输出模式的设置的示图。

图7是用于描述根据实施方式的基于用户的状态的输出模式的设置的示图。

图8A是用于描述根据实施方式的基于历史信息的输出模式的设置的示图。

图8B是用于描述根据实施方式的基于历史信息的输出模式的设置的示图。

图9是用于描述根据实施方式的与音频发声链接的显示控制的示图。

图10是描述根据实施方式的信息处理服务器的输出控制的流程的流程图。

图11是示出根据本公开的实施方式的硬件的配置示例的示图。

具体实施方式

在下文中，将参考附图详细描述本公开的优选实施方式。注意，在本说明书和附图中，具有基本相同的功能配置的组件被设置有相同的参考标记，从而省略了这些组件的重复描述。

注意，将按照以下顺序进行描述。

1.实施方式

1.1.实施方式的概要

1.2.系统的配置示例

1.3.信息处理终端10的功能配置示例

1.4.信息处理服务器20的功能配置示例

1.5.输出控制的具体示例

1.6.输出控制的流程

2.硬件的配置示例

3.结论

<1.实施方式>

<<1.1.实施方式的概要>>

首先，将描述本公开的实施方式的概要。如上所述，近年来，通过使用音频向用户呈现信息的各种装置已经流行。如上所述的装置例如可以通过来自用户的话语识别询问，并且通过使用音频输出对应于该询问的回答。

此时，通过使装置除了针对询问的回答之外还输出伴随询问或回答的附加信息，可以向用户或企业经营者提供不同种类的益处。上述附加信息的示例包括与询问或回答相关的有用信息。例如，在用户询问“乘坐出租车去T站花费多少钱？”的情况下，伴随回答“大约花费1500日元。”，装置可以通过使用音频输出有用的信息，该信息是“顺便说一句，从这里步行5分钟有一个公共汽车站。”。在这种情况下，用户可以在获得自己询问的回答的同时接收与另一选项相关的信息。

另外，上述附加信息的示例包括与询问或回答相关的广告信息。例如，在用户询问“乘坐出租车去T站花费多少钱？”的情况下，装置可以连同回答“大约花费1500日元。”通过使用音频输出来自S出租车公司的广告信息“推荐安全且价格合理的S出租车。”。在这种情况下，诸如S出租车公司的企业经营者可以通过向用户呈现点播广告来增强广告效果。

然而，在附加信息是如上所述的广告信息的情况下，用户有时难以确定通过使用音频输出的信息是从哪个发送者提供的。例如，在上述示例的情况下，附加信息“推荐安全且价格合理的S出租车。”可以是装置基于参考互联网等的评论比较多个公司的结果而生成的有用信息，或者可以仅仅是由S出租车公司递送的广告信息。

另外，在广告信息被用户错误地识别为有用信息的情况下，存在该情况导致不公平销售实践的可能性，并且还存在广告缺乏作为要呈现的广告的有效性的担忧。

根据本公开的技术思想是关注以上述要点生成的，并且即使在执行包括用于不同目的的信息的音频的输出的情况下，也允许用户清楚地感知信息的分类。因此，实现根据本公开的实施方式的基于信息处理方法的处理的信息处理装置的一个特征是，当控制包括针对用户的原始呈现的信息和伴随呈现的信息的附加信息的音频发声的输出时，使伴随信息以与上述呈现的信息的输出模式不同的输出模式被输出。

图1是用于描述根据本实施方式的信息处理服务器对音频发声的输出控制的示图。注意，在下面的描述中，针对用户的原始呈现的信息也被称为主要内容，并且伴随该呈现的信息的附加信息也被称为次要内容。

图1示出了用户U1的发声UO1和由信息处理终端10输出的音频发声SO1。在图1所示的示例的情况下，用户U1的发声UO1是关于周末日程的询问，并且信息处理终端10输出对应于该询问的音频发声SO1。

此时，由信息处理终端10输出的音频发声SO1包括主要内容MC，该主要内容MC是对应于发声UO1的回答；和次要内容SC，该次要内容SC是伴随主要内容MC的广告信息。在图1所示的示例的情况下，主要内容MC是与用户U1的孩子将参加的体育比赛的日程相关的音频，并且次要内容SC是与推荐购买运动饮料的广告相关的音频。

此时，根据本实施方式的信息处理服务器使信息处理终端10以与主要内容MC的输出模式不同的输出模式输出次要内容SC。例如，信息处理服务器可以控制信息处理终端10，使得通过使用不同的音质输出主要内容MC和次要内容SC。注意，在本公开的附图中，通过文本修饰的存在或差异指示输出模式的差异。在图1的情况下，通过将与次要内容SC相关的句子斜体化，指示通过使用与主要内容MC的音质不同的音质输出次要内容SC。

以上已经描述了根据本实施方式的信息处理服务器对音频发声的输出控制的概要。如上所述，根据本实施方式的信息处理服务器可以使诸如广告的次要内容以与主要内容的输出模式不同的输出模式被输出。根据本实施方式的信息处理服务器的上述控制允许用户基于包括音质的输出模式的差异识别主要内容和次要内容，同时清楚地彼此区分主要内容和次要内容，并且因此提高了用户的便利性；并且还实现了音频发声而不可能呈现不公平的广告。

<<1.2.系统的配置示例>>

接下来，将描述根据本实施方式的信息处理系统的系统配置示例。图2是示出根据本实施方式的信息处理系统的配置示例的框图。参考图2，根据本实施方式的信息处理系统包括信息处理终端10和信息处理服务器20。另外，信息处理终端10和信息处理服务器20经由网络30连接，以便能够彼此通信。

(信息处理终端10)

根据本实施方式的信息处理终端10是信息处理装置，该信息处理装置具有基于信息处理服务器20的控制输出包括主要内容和次要内容的音频发声的功能。另外，根据本实施方式的信息处理终端10可以具有收集来自用户的发声的功能。

根据本实施方式的信息处理终端10被实现为具有上述功能的各种装置。根据本实施方式的信息处理终端10可以例如是移动电话、智能电话、平板型装置、可穿戴装置、计算机、固定专用装置或自主移动专用装置。

(信息处理服务器20)

根据本实施方式的信息处理服务器20是控制由信息处理终端10输出音频发声的信息处理装置。如上所述，根据本实施方式的信息处理服务器20可以控制包括主要内容和次要内容的音频发声的输出。此时，根据本实施方式的信息处理服务器20可以控制信息处理终端10，使得次要内容以与主要内容的输出模式不同的输出模式被输出。

(网络30)

网络30具有连接信息处理终端10和信息处理服务器20的功能。网络30可以包括诸如互联网、电话网络或卫星通信网络的公共网络；以及包括Ethernet(注册商标)的各种广域网(WAN)和局域网(LAN)。另外，网络30可以包括诸如互联网协议虚拟专用网络(IP-VPN)的专线网络。另外，网络30可以包括诸如Wi-Fi(注册商标)和Bluetooth(注册商标)的无线通信网络。

以上已经描述了根据本实施方式的信息处理系统的系统配置示例。注意，通过使用图2描述的以上配置仅仅是示例，并且根据本实施方式的信息处理系统的配置不限于该示例。例如，包括在根据本实施方式的信息处理终端10和信息处理服务器20中的功能可以通过单个装置来实现。根据本实施方式的信息处理系统的配置可以根据规格或操作灵活地变形。

<<1.3.信息处理终端10的功能配置示例>>

接下来，将描述根据本实施方式的信息处理终端10的功能配置示例。图3是示出根据本实施方式的信息处理终端10的功能配置示例的框图。参考图3，根据本实施方式的信息处理终端10包括音频输出单元110、显示单元120、音频输入单元130、成像单元140、控制单元150以及服务器通信单元160。

(音频输出单元110)

根据本实施方式的音频输出单元110具有输出包括音频发声等的听觉信息的功能。特别地，根据本实施方式的音频输出单元110可以基于信息处理服务器20的控制，通过使用音频输出不同输出目标中的主要内容和次要内容。因此，根据本实施方式的音频输出单元110包括诸如扬声器和放大器的音频输出装置。

(显示单元120)

根据本实施方式的显示单元120具有输出诸如图像、文本等的视觉信息的功能。根据本实施方式的显示单元120可以基于例如信息处理服务器20的控制输出对应于音频发声的视觉信息。因此，根据本实施方式的显示单元120包括呈现视觉信息的显示装置。上述显示装置的示例包括液晶显示(LCD)装置、有机发光二极管(OLED)装置以及触摸面板。

(音频输入单元130)

根据本实施方式的音频输入单元130具有收集诸如来自用户的发声和背景声音的声音信息的功能。由音频输入单元130收集的声音信息用于信息处理服务器20的声音识别或状态识别。根据实施方式的音频输入单元130包括用于收集声音信息的麦克风。

(成像单元140)

根据本实施方式的成像单元140具有捕获包括用户或周围环境的图像的功能。由成像单元140捕获的图像用于信息处理服务器20的用户识别或状态识别。根据本实施方式的成像单元140包括可以捕获图像的成像装置。注意，除了静止图像之外，上述图像还包括运动图像。

(控制单元150)

根据本实施方式的控制单元150具有控制包括在信息处理终端10中的每个配置的功能。控制单元150例如控制每个配置的开始或停止。另外，控制单元150可以将信息处理服务器20生成的控制信号输入到音频输出单元110或显示单元120中。另外，根据本实施方式的控制单元150可以具有与信息处理服务器20中的输出控制单元230的功能等效的功能，输出控制单元230稍后描述。

(服务器通信单元160)

根据本实施方式的服务器通信单元160具有经由网络30与信息处理服务器20通信信息的功能。具体地，服务器通信单元160将由音频输入单元130收集的声音信息或由成像单元140捕获的图像信息传送到信息处理服务器20。另外，服务器通信单元160从信息处理服务器20接收与音频发声等相关的控制信号或人工语音。

以上已经描述了根据本实施方式的信息处理终端10的功能配置示例。注意，通过使用图3描述的以上功能配置仅仅是示例，并且根据本实施方式的信息处理终端10的功能配置不限于该示例。例如，根据本实施方式的信息处理终端10可以不必包括图3所示的所有配置。信息处理终端10还可以具有不包括显示单元120、成像单元140等的配置。另外，如上所述，根据本实施方式的控制单元150可以具有与信息处理服务器20中的输出控制单元230的功能等效的功能。根据本实施方式的信息处理终端10的功能配置可以根据规格或操作灵活地变形。

<<1.4.信息处理服务器20的功能配置示例>>

接下来，将描述根据本实施方式的信息处理服务器20的功能配置示例。图4是示出根据本实施方式的信息处理服务器20的功能配置示例的框图。参考图4，根据本实施方式的信息处理服务器20包括识别单元210、主要内容生成单元220、输出控制单元230、音频合成单元240、存储单元250以及终端通信单元260。另外，存储单元250包括用户DB 252、输出模式DB 254以及次要内容DB 256。

(识别单元210)

根据本实施方式的识别单元210具有基于由信息处理终端10收集的来自用户的发声来执行声音识别的功能。具体地，识别单元210可以将包括在上述发声信息中的音频信号转换为文本信息。

另外，根据本实施方式的识别单元210具有执行与用户相关的各种识别的功能。识别单元210例如可以通过例如将由信息处理终端10收集的来自用户的发声或用户的图像与预先存储在用户DB 252中的用户的语音特征或图像进行比较来识别用户。

另外，识别单元210可以基于由信息处理终端10收集的来自用户的发声或用户的图像来识别用户的状态。上述状态包括与用户的动作或情绪相关的各种状态。例如，基于由信息处理终端10收集的来自用户的发声或用户的图像，识别单元210可以识别例如用户已经采取行动来中断由信息处理终端10输出音频发声，或者用户没有集中精力于音频发声而正在进行另一动作。

另外，识别单元210可以识别例如用户处于放松状态或紧张状态，或者用户表示出对输出音频发声的不喜欢。识别单元210可以通过使用广泛使用的动作识别方法或情绪估计方法执行如上所述的识别。由识别单元210识别的用户的状态用于输出控制单元230对音频发声的输出控制。

(主要内容生成单元220)

根据本实施方式的主要内容生成单元220具有生成包括在由信息处理终端10输出的音频发声中的主要内容的功能。例如，主要内容生成单元220可以基于由识别单元210生成的文本信息分析来自用户的发声的意图，并且生成用于该发声的回答文本作为主要内容。

另外，根据本实施方式的主要内容不限于对来自用户的询问的回答。例如，基于由用户注册的安排信息，主要内容生成单元220可以生成用于日程提醒的文本作为主要内容。另外，例如，主要内容生成单元220可以将接收的电子邮件、消息等作为主要内容。

(输出控制单元230)

根据本实施方式的输出控制单元230具有控制由信息处理终端10输出音频发声的功能。如上所述，上述音频发声包括主要内容和包括在主要内容中的次要内容。根据本实施方式的输出控制单元230可以基于由主要内容生成单元220生成的主要内容，获得与主要内容一起被输出的次要内容。

例如，在图1所示的示例的情况下，输出控制单元230可以通过使用包括在主要内容MC中的术语“棒球比赛”作为关键词搜索次要内容DB获得用于“运动饮料”的广告的次要内容SC。

另外，如上所述，根据本实施方式的输出控制单元230的特征之一是使信息处理终端10以与主要内容的输出模式不同的输出模式输出次要内容。输出控制单元230的上述特征允许用户感知主要内容和次要内容，同时清楚地彼此区分主要内容和次要内容，并且使得能够向用户单独呈现用于不同目的的信息。

注意，在图1所示的示例的情况下，已经描述了输出控制单元230通过使用不同的音质使主要内容和次要内容被输出。然而，根据本实施方式的输出模式的控制不限于该示例。除了音质之外，根据本实施方式的输出模式还包括节奏、语音音调、前缀和后缀、词语结尾、背景声音或效果声音。根据本实施方式的输出控制单元230可以通过将与次要内容的输出相关的上述元件与用于主要内容的元件区分，实现其中次要内容和主要内容被彼此区分的音频发声的输出。

注意，根据本实施方式的输出控制单元230可以基于预设设置来设置次要内容的输出模式。输出控制单元230可以使信息处理终端10通过使用例如由用户预先设置的音质来输出次要内容。

同时，根据本实施方式的输出控制单元230可以基于与次要内容相关的上下文，动态地控制次要内容的输出模式。上述上下文例如包括次要内容的特性或用户的特性。

次要内容的特性的示例包括次要内容的类别和次要内容的发送者。根据本实施方式的输出控制单元230可以根据随附广告的产品的类别，或者根据发送广告的企业经营者来设置一不同的输出模式。包括在输出控制单元230中的上述功能使得能够通过使用音频以每个产品或每个企业经营者的特性输出模式输出次要内容，并且可以实现更高的广告效果。

另外，用户的特性的示例包括用户的状态、用户属性以及与用户相关的历史信息。输出控制单元230可以基于与用户的动作或用户的情绪相关的状态来设置次要内容的输出模式，该状态由识别单元210识别。包括在输出控制单元230中的上述功能使得能够根据每次改变的用户的状态来控制输出模式，并且可以实现次要内容的更灵活的呈现。

另外，根据本实施方式的用户属性指示倾向于长时间保持不变的用户的偏好、倾向、属性等。输出控制单元230可以通过从用户DB 252获得由识别单元210识别的上述用户相关信息，根据个别用户动态地控制输出模式，这将稍后描述。

另外，输出控制单元230可以基于诸如用户过去的购买历史、预订历史或对输出次要内容的反应的历史信息，设置次要内容的输出模式。通过例如学习历史信息，输出控制单元230可以通过使用更具吸引力的输出模式使次要内容被输出。

以上已经描述了包括在根据本实施方式的输出控制单元230中的功能的概要。将通过具体示例分别详细描述根据本实施方式的输出控制单元230对音频发声的输出控制。

(音频合成单元240)

根据本实施方式的音频合成单元240具有基于输出控制单元230的控制来合成信息处理终端10输出的人工语音的功能。此时，音频合成单元240合成对应于由输出控制单元230设置的输出模式的人工语音。

(存储单元250)

根据本实施方式的存储单元250包括用户DB 252、输出模式DB 254以及次要内容DB 256。

((用户DB 252))

根据本实施方式的用户DB 252存储与用户相关的各种信息。用户DB252例如存储用户的面部图像和语音特征。另外，用户DB 252存储与诸如用户的性别、年龄、从属关系、偏好以及倾向的用户属性相关的信息。

((输出模式DB 254))

根据本实施方式的输出模式DB 254存储与次要内容的输出模式相关的各种参数。输出模式DB 254可以存储例如与由用户设置的输出模式相关的参数。另外，输出模式DB254可以存储例如与针对每个发送者或主题产品设置的输出模式相关的参数，其与次要内容相关。

((次要内容DB 256))

根据本实施方式的次要内容DB 256记录诸如广告的次要内容。注意，根据本实施方式的次要内容除了广告之外还包括来自用户的熟人的推荐信息和来自另一内容(例如，书籍，新闻文章等)的引用。注意，根据本实施方式的次要内容不必需要存储在次要内容DB256中。根据本实施方式的输出控制单元230可以例如经由网络30从另一装置获得次要内容。

(终端通信单元260)

根据本实施方式的终端通信单元260具有经由网络30与信息处理终端10通信信息的功能。具体地，终端通信单元260从信息处理终端10接收诸如发声或图像信息的声音信息。另外，终端通信单元260将由输出控制单元230生成的控制信号或由音频合成单元240合成的人工语音传送到信息处理终端10。

以上已经描述了根据本实施方式的信息处理服务器20的功能配置示例。注意，通过使用图4描述的以上功能配置仅仅是示例，并且根据本实施方式的信息处理服务器20的功能配置不限于该示例。例如，信息处理服务器20可以不必包括图4所示的所有配置。识别单元210、主要内容生成单元220、音频合成单元240以及存储单元250可以包括在与信息处理服务器20不同的装置中。根据本实施方式的信息处理服务器20的功能配置可以根据规格或操作灵活地变形。

<<1.5.输出控制的具体示例>>

接下来，将通过具体示例描述根据本实施方式的输出控制单元230对音频发声的输出控制。如上所述，根据本实施方式的输出控制单元230可以基于与次要内容相关的上下文动态地设置次要内容的输出模式。

(基于次要内容的特性的输出模式的设置)

首先，将通过具体示例描述根据本实施方式的输出控制单元230基于次要内容的特性来设置输出模式。图5A和图5B是用于描述基于次要内容的特性的输出模式的设置的示图。注意，图5A和图5B分别指示响应于来自图1所示的用户U1的发声UO1而从信息处理终端10输出的音频发声SO2和SO3。

在图5A所示的示例的情况下，输出控制单元230使信息处理终端10输出与图1中的次要内容SC不同并且用于餐馆的广告的次要内容SC以及类似于图1中的主要内容MC的主要内容MC。此时，根据本实施方式的输出控制单元230可以基于次要内容SC的类别来设置输出模式。图1和图5A之间的比较示出了输出控制单元230基于用作广告主题的类别“运动饮料”或“餐馆”中差异来设置不同的输出模式。

因此，输出控制单元230可以使信息处理终端10输出针对用作广告主题等的产品的每个类别而改变其音频发声、音质等。在主题产品的类别是化妆品的情况下，输出控制单元230可以通过例如女性声音来输出次要内容。如上所述，通过输出控制单元230的控制允许用户感知次要内容的类别中的差异，并且使得能够实现更自然的音频发声。

另外，在图5B所示的示例的情况下，输出控制单元230使信息处理终端10输出与图1中的次要内容SC不同并且是来自用户的朋友B的推荐信息的次要内容SC，以及类似于图1中的主要内容MC的主要内容MC。因此，根据本实施方式的次要内容除了广告之外，还包括来自熟人的推荐信息，或者来自另一句子的引用。

此时，输出控制单元230可以根据用作次要内容SC的发送者的朋友B来设置输出模式。输出控制单元230可以通过使用例如与朋友B的音质类似的音质输出次要内容SC。另外，输出控制单元230可以通过使用与主要内容MC的语音音调不同的语音音调使次要内容SC被输出。在图5B的情况下，相比于主要内容MC的礼貌语音音调，输出控制单元230为次要内容SC设置更非正式的音调。

此外，输出控制单元230可以通过添加前缀或后缀来区分次要内容SC和主要内容MC。在图5B所示的示例的情况下，通过添加前缀“嘿”，输出控制单元230强调次要内容SC的输出已经开始。另外，通过改变次要内容SC的词语结尾，输出控制单元230允许用户感知正在输出的信息是次要内容SC。例如，在日语等的情况下，其中，动词被放置在句子末尾，输出控制单元230可以改变动词的种类或变化。另外，输出控制单元230可以通过例如将句子转换为标签问题来改变词语结尾。

包括在根据本实施方式的输出控制单元230中的上述功能使得能够以例如类似于发送者的输出模式输出次要内容SC、强调次要内容SC，并且期望具有引起用户更多兴趣的效果。

注意，已经以次要内容的发送者是用户的朋友的情况为例描述了图5B。然而，在次要内容是广告的情况下，输出控制单元230可以根据次要内容的发送者，即企业经营者来设置输出模式。输出控制单元230可以通过使用例如由上述企业经营者在电视商业广告或无线电商业广告中使用的背景声音或效果声音来输出次要内容。另外，输出控制单元230还可以通过使用指定给电视商业广告的演员或角色的音质等使次要内容被输出。

(基于用户的特性的输出模式的设置)

接下来，将通过具体示例描述根据本实施方式的输出控制单元230基于用户的特性来设置输出模式。图6A和图6B是用于描述基于用户属性的输出模式的设置的示图。图6A和图6B分别指示音频发声SO4和SO5。每个音频发声包括主要内容MC和次要内容SC，该主要内容MC是由用户输入的日程提醒，该次要内容SC是用于餐馆的广告。

在图6A所示的示例的情况下，输出控制单元230从用户DB 252获得由识别单元210识别的用户U1的用户属性；并确定次要内容SC的输出模式。具体地，输出控制单元230获得用户U1是家庭中的母亲的信息，并且通过使用关注价格的表达“合理”来输出次要内容SC。注意，用户U1倾向于关注价格的事实可以是由用户U1注册的信息。因此，输出控制单元230可以根据诸如用户的性别或年龄的用户属性来改变与次要内容SC相关的修饰字。

另外，输出控制单元230可以根据例如用户的性别来设置次要内容SC的音质。在图6A所示的示例的情况下，输出控制单元230为女性用户U1设置男性扬声器模型M1的音质，并输出次要内容SC。

同时，在图6B所示的示例的情况下，输出控制单元230获得用户U2是孩子的信息，并通过使用关注娱乐的表达“让我们享受”来输出次要内容SC。另外，输出控制单元230为孩子用户U2设置字符扬声器模型M2的音质，并输出次要内容SC。

因此，根据本实施方式的输出控制单元230使得能够灵活地设置对应于倾向于长时间保持不变的用户的特性的输出模式，并且可以进一步增强与次要内容相关的吸引力。另外，根据本实施方式的输出控制单元230可以基于与多个用户相关的用户属性来设置输出模式。在例如一起识别母亲用户U1和孩子用户U2的情况下，输出控制单元230可以基于用户U1和U2共有的用户属性来设置次要内容的输出模式。另外，输出控制单元230可以以诸如包括多个用户的家庭的单位来设置输出模式。

另外，根据本实施方式的输出控制单元230可以基于由识别单元210识别的用户的状态来设置次要内容的输出模式。图7是用于描述基于用户的状态的输出模式的设置的示图。与图6A和图6B一样，图7指示包括主要内容MC和次要内容SC的音频发声SO6，该主要内容MC是日程提醒，该次要内容SC是用于餐馆的广告。

在图7所示的示例的情况下，输出控制单元230基于识别单元210已经识别出用户U1处于放松状态来设置次要内容SC的输出模式。具体地，输出控制单元230通过使用对应于用户的状态的表达“休闲”来输出次要内容SC。另外，输出控制单元230通过使用根据用户的状态的节奏来输出次要内容SC。上述节奏包括音频发声的速度、重音、长度等。

包括在根据本实施方式的输出控制单元230中的上述功能使得能够根据用户的状态灵活地设置输出模式，用户的状态每次都改变。注意，在用户被识别为处于忙碌状态的情况下，输出控制单元230可以执行控制，例如使得次要内容的输出频率降低，或者次要内容的输出被禁用。另外，在用户已经表示出不喜欢次要内容的输出或者已经采取行动来中断次要内容的输出的情况下，输出控制单元230可以停止次要内容的输出。

另外，根据本实施方式的输出控制单元230可以基于与用户相关的历史信息来设置次要内容的输出模式。图8A和图8B是用于描述基于历史信息的输出模式的设置的示图。图8A和图8B分别指示音频发声SO7和SO8。每个音频发声包括主要内容MC和次要内容SC，该主要内容MC是日程提醒，该次要内容SC是用于餐馆的广告。

在图8A所示的示例的情况下，输出控制单元230基于过去用户对输出的次要内容的反应的历史来设置次要内容SC的输出模式。输出控制单元230可以基于例如过去用户U1对使用的修改的表达“合理”没有表现出积极反应的事实，通过采用修改的表达“高级”来输出次要内容SC。因此，通过学习历史信息，根据本实施方式的输出控制单元230可以通过使用更具吸引力的输出模式使次要内容被输出。

另外，在图8B所示的示例的情况下，输出控制单元230基于用户U1过去的预约历史来设置次要内容SC的输出模式。例如，通过使用修改的表达“普通”或改变音质，输出控制单元230允许用户U1感知正在输出的次要内容SC不是第一次输出的信息。输出控制单元230的上述控制允许用户识别例如正在输出的广告与熟悉的产品或服务相关，使得用户可以似听非听次要内容SC，而无需过度集中注意力来收听。同时，通过输出模式的差异，用户还可以识别次要内容SC是第一次输出的信息。在这种情况下，用户可以采取诸如更多地集中注意力于收听次要内容SC的动作。

(与音频发声链接的显示控制)

接下来，将描述根据本实施方式的由输出控制单元230与音频发声链接的显示控制。在以上描述中，主要描述了其中输出控制单元230仅执行音频发声的输出控制的情况。然而，根据本实施方式的输出控制单元230可以执行与音频发声链接的显示控制。

图9是用于描述根据本实施方式的与音频发声链接的显示控制的示图。图9指示由信息处理终端10a输出的音频发声SO9和由信息处理终端10b输出的视觉信息VI1。因此，根据本实施方式的输出控制单元230可以使信息处理终端10显示对应于次要内容SC的内容的视觉信息VI1。此时，如图所示，输出控制单元230可以使多个信息处理终端10a和10b分别输出音频发声SO9和视觉信息VI1；或者在信息处理终端10包括音频输出单元110和显示单元120两者的情况下，可以使单个信息处理终端10输出音频发声SO9和视觉信息VI1。

另外，输出控制单元230可以通过例如在视觉信息VI1中包括到购买站点或到预订站点的链接L1来提高用户的便利性或增强广告效果。

注意，输出控制单元230可以根据条件来控制视觉信息VI1的显示/不显示。例如，仅在用户在次要内容SC的输出期间对次要内容SC表现出兴趣的情况下，输出控制单元230可以使视觉信息VI1被输出。识别单元210可以基于例如用户的表情、来自用户的发声或用户的视线来检测上述兴趣。

另外，输出控制单元230可以使信息处理终端10显示对应于主要内容MC的视觉信息。在这种情况下，输出控制单元230可以设置与信息相关的输出模式，使得用户可以区分被显示为视觉信息的主要内容MC和次要内容SC。输出控制单元230可以设置输出模式，使得例如主要内容MC和次要内容SC之间的文本字体、文本装饰、文本大小、文本颜色、动画、布置等不同。

以上结合具体示例详细描述了根据本实施方式的输出控制单元230的输出控制。如上所述，根据本实施方式的输出控制单元230可以基于与次要内容相关的各种上下文来灵活地设置次要内容的输出模式。注意，通过使用图6至图9描述的输出控制仅仅是示例。根据本实施方式的输出控制单元230可以适当地与上述上下文或输出模式结合使用。

<<1.6.输出控制的流程>>

接下来，将详细描述根据本实施方式的信息处理服务器20的输出控制的流程。图10是描述根据本实施方式的信息处理服务器20的输出控制的流程的流程图。

参考图10，首先，信息处理终端10的识别单元210执行识别处理(S1101)。识别单元210基于来自用户的发声例如执行声音识别、用户识别、用户的状态的识别等。

接下来，主要内容生成单元220基于在步骤S1101中由声音识别生成的文本信息等来生成主要内容(S1102)。如上所述，上述主要内容可以是例如对于来自用户的询问的回答。另外，主要内容可以是例如日程提醒或接收的消息。

接下来，输出控制单元230基于在步骤S1102中生成的主要内容来搜索次要内容(S1103)。此时，输出控制单元230可以基于例如包括在主要内容中的词语来搜索相关的次要内容。

这里，在存在与主要内容相关的次要内容的情况下(S1104：是)，输出控制单元230基于与次要内容相关的上下文来设置次要内容的输出模式(S1105)。此时，输出控制单元230可以基于次要内容的类别或发送者、用户属性、用户的状态、历史信息等来设置次要内容的输出模式。

另外，基于在步骤S1105中设置的输出模式，输出控制单元230处理次要内容中的修改的表达、语音音调、前缀和后缀、词语结尾等(S1106)。

在步骤S1106中的处理完成的情况下，或者在对应的次要内容不存在的情况下(S1104：否)，输出控制单元230使音频合成单元240基于在步骤S1103中生成的主要内容或者基于在步骤S1106中处理的次要内容来执行音频合成(S1107)。

接下来，终端通信单元260将在步骤S1107中合成的人工语音或与在步骤S1105中设置的输出模式相关的控制信号传送到信息处理终端10，并且执行与音频发声或视觉信息的输出相关的输出控制。

<2.硬件的配置示例>

接下来，将描述根据本公开的实施方式的信息处理终端10和信息处理服务器20共有的硬件的配置示例。图11是示出根据本公开的实施方式的信息处理终端10和信息处理服务器20的硬件的配置示例的框图。参考图11，信息处理终端10和信息处理服务器20包括例如CPU 871、ROM872、RAM 873、主机总线874、桥接器875、外部总线876、接口877、输入装置878、输出装置879、存储器880、驱动器881、连接端口882以及通信装置883。注意，这里指示的硬件的配置是示例，并且可以省略一部分组件。另外，可以包括这里指示的组件之外的组件。

(CPU 871)

CPU 871用作例如算术处理装置或控制装置，并且基于记录在ROM872、RAM 873、存储器880或可移动记录介质901中的各种程序来控制每个组件的全部或部分操作。

(ROM 872、RAM 873)

ROM 872是存储要由CPU 871读取的程序、要用于算术的数据等的装置。RAM 873临时或永久地存储例如要由CPU 871读取的程序，或当执行该程序时适当改变的各种参数等。

(主机总线874、桥接器875、外部总线876以及接口877)

CPU 871、ROM 872以及RAM 873经由例如能够进行高速数据传输的主机总线874彼此连接。同时，例如，主机总线874经由桥接器875连接到具有相对低的数据传输速度的外部总线876。另外，外部总线876经由接口877连接到各种组件。

(输入装置878)

作为输入装置878，例如使用鼠标、键盘、触摸面板、按钮、开关或操纵杆。此外，作为输入装置878，有时使用可以通过使用红外光或另一无线电波来传输控制信号的遥控器(下文中称为遥控器)。另外，输入装置878包括诸如麦克风的音频输入装置。

(输出装置879)

输出装置879是可以在视觉上或听觉上将所获得的信息传输到用户的装置，并且输出装置879例如是诸如阴极射线管(CRT)、LCD或有机EL的显示装置；诸如扬声器或耳机的音频输出装置；打印机；移动电话；或传真机。另外，根据本公开的输出装置879包括可以输出触觉刺激的各种振动装置。

(存储器880)

存储器880是用于存储各种数据的装置。作为存储器880，例如，使用诸如硬盘驱动器(HDD)、半导体存储装置、光学存储装置或磁光存储装置的磁存储装置。

(驱动器881)

驱动器881例如是用于读取记录在诸如磁盘、光盘、磁光盘或半导体存储器的可移动记录介质901中的信息；或用于将信息写入可移动记录介质901中的装置。

(可移动记录介质901)

可移动记录介质901例如是DVD介质、Blu-ray(注册商标)介质、HD DVD介质或各种半导体存储介质。不用说，可移动记录介质901可以例如是其上安装有非接触式IC芯片的IC卡或电子设备。

(连接端口882)

连接端口882例如是用于连接外部连接设备902的诸如通用串行总线(USB)端口、IEEE1394端口、小型计算机系统接口(SCSI)、RS-232C端口或光学音频终端的端口。

(外部连接设备902)

外部连接设备902例如是打印机、便携式音乐播放器、数码相机、数字摄像机或IC记录器。

(通信装置883)

通信装置883是连接到网络的通信装置，并且例如是用于有线或无线LAN、Bluetooth(注册商标)或无线USB(WUSB)的通信卡；用于光学通信的路由器、用于非对称数字用户线(ADSL)的路由器或用于各种通信的调制解调器。

<3结论>

如上所述，根据本实施方式的信息处理服务器20控制包括主要内容和次要内容的音频发声的输出。此时，根据本实施方式的信息处理服务器20可以控制信息处理终端10，使得次要内容以与主要内容的输出模式不同的输出模式被输出。利用该配置，即使在执行包括用于不同目的的信息的音频的输出的情况下，也可以允许用户清楚地感知信息的分类。

尽管以上已经参考附图详细描述了本公开的优选实施方式，但是本公开的技术范围不限于该示例。显然，本公开的技术领域中的普通技术人员可以设想在所附权利要求中描述的技术思想的范围内的各种改变或修正，并且应当理解，这种改变或修正将自然地属于本公开的技术范围。即使在执行包括用于不同目的的信息的音频的输出的情况下，也可以允许用户清楚地感知信息的分类。

另外，本说明书中描述的效果仅是说明性或示例性效果，而不是限制性的。即，具有或代替上述效果，根据本公开的技术可以实现对于本领域技术人员而言从本说明书的描述中显而易见的任何其他效果。

另外，与本说明书中的信息处理服务器20的处理相关的每个步骤不必必须根据如流程图所描述的顺序按时间序列执行。例如，与信息处理服务器20的处理相关的每个步骤可以以与如流程图所描述的顺序不同的顺序执行，或者可以并行执行。

注意，以下配置也属于本公开的技术范围。

(1)

一种信息处理装置，所述信息处理装置包括输出控制单元，所述输出控制单元控制与用户的音频对话中的音频发声的输出，

其中，所述音频发声包括主要内容，以及

伴随所述主要内容的次要内容，并且所述输出控制单元使所述次要内容以与所述主要内容的输出模式不同的输出模式输出。

(2)

根据(1)的信息处理装置，

其中，所述输出控制单元基于与所述次要内容相关的上下文设置所述次要内容的所述输出模式。

(3)

根据(2)的信息处理装置，

其中，所述上下文包括所述次要内容的特性，并且

所述输出控制单元基于所述次要内容的所述特性设置所述输出模式。

(4)

根据(2)或(3)的信息处理装置，

其中，所述次要内容的特性包括所述次要内容的类别，并且

所述输出控制单元基于所述次要内容的所述类别设置所述输出模式。

(5)

根据(2)至(4)中任一项的信息处理装置，

其中，所述次要内容的特性包括所述次要内容的发送者，并且

所述次要内容的所述特性基于所述次要内容的所述发送者设置所述输出模式。

(6)

根据(2)至(5)中任一项的信息处理装置，

其中，所述上下文包括所述用户的特性，并且

所述输出控制单元基于所述用户的所述特性设置所述输出模式。

(7)

根据(6)的信息处理装置，

其中，所述用户的所述特性包括用户属性，并且

所述输出控制单元基于所述用户属性设置所述输出模式。

(8)

根据(6)或(7)的信息处理装置，

其中，所述用户的所述特性包括所述用户的状态，并且

所述输出控制单元基于所述用户的所述状态设置所述输出模式。

(9)

根据(6)至(8)中任一项的信息处理装置，

其中，所述用户的所述特性包括与所述用户相关的历史信息，并且

所述输出控制单元基于与所述用户相关的所述历史信息设置所述输出模式。

(10)

根据(1)至(9)中任一项的信息处理装置，

其中，所述输出模式包括音质，并且

所述输出控制单元通过使用与所述主要内容的音质不同音质使所述次要内容输出。

(11)

根据(1)至(10)中任一项的信息处理装置，

其中，所述输出模式包括语音音调，并且

所述输出控制单元通过使用与所述主要内容的语音音调不同的语音音调使所述次要内容输出。

(12)

根据(1)至(11)中任一项的信息处理装置，

其中，所述输出模式包括前缀或后缀，并且

所述输出控制单元使添加了前缀或后缀中的至少一者的所述次要内容输出。

(13)

根据(1)至(12)中任一项的信息处理装置，

其中，所述输出模式包括节奏，并且

所述输出控制单元通过使用与用于所述主要内容的节奏不同的节奏使所述次要内容输出。

(14)

根据(1)至(13)中任一项的信息处理装置，

其中，所述输出模式包括词语结尾的改变，并且

所述输出控制单元通过使用与所述主要内容的词语结尾不同的词语结尾使所述次要内容输出。

(15)

根据(1)至(14)中任一项的信息处理装置，

其中，所述输出模式包括背景声音或效果声音，并且

所述输出控制单元通过使用与所述主要内容的背景声音或效果声音不同的背景声音或效果声音使所述次要内容输出。

(16)

根据(1)至(15)中任一项的信息处理装置，

其中，所述次要内容包括与所述主要内容相关的广告。

(17)

根据(1)至(17)中任一项的信息处理装置，

其中，所述输出控制单元还包括基于所生成的主要内容获得所述次要内容。

(18)

根据(1)至(17)中任一项的信息处理装置，还包括音频输出单元，所述音频输出单元基于所述输出控制单元的控制输出所述音频发声。

(19)

根据(1)至(18)中任一项的信息处理装置，还包括音频合成单元，该音频合成单元基于输出控制单元的控制合成与音频发声相关的人工语音。

(20)

一种信息处理方法，该信息处理方法包括

由处理器控制与用户的音频对话中的音频发声的输出，

其中，所述音频发声包括主要内容和伴随所述主要内容的次要内容，并且

所述控制还包括使所述次要内容以与所述主要内容的输出模式不同的输出模式输出。

(21)

一种程序，该程序用于使计算机用作

信息处理装置，所述信息处理装置包括输出控制单元，所述输出控制单元控制与用户的音频对话中的音频发声的输出，

所述输出控制单元使所述次要内容以与所述主要内容的输出模式不同的输出模式输出。

参考标记列表

10 信息处理终端

110 音频输出单元

120 显示单元

130 音频输入单元

140 成像单元

150 控制单元

160 服务器通信单元

20 信息处理服务器

210 识别单元

220 主要内容生成单元

230 输出控制单元

240 音频合成单元

250 存储单元

252 用户DB

254 输出模式DB

256 次要内容DB

260 终端通信单元。

Claims

1.一种信息处理装置，所述信息处理装置包括输出控制单元，所述输出控制单元控制与用户的音频对话中的音频发声的输出，

其中，所述音频发声包括主要内容，以及

2.根据权利要求1所述的信息处理装置，

3.根据权利要求2所述的信息处理装置，

其中，所述上下文包括所述次要内容的特性，并且

4.根据权利要求2所述的信息处理装置，

其中，所述次要内容的特性包括所述次要内容的类别，并且

5.根据权利要求2所述的信息处理装置，

6.根据权利要求2所述的信息处理装置，

其中，所述上下文包括所述用户的特性，并且

7.根据权利要求6所述的信息处理装置，

其中，所述用户的所述特性包括用户属性，并且

所述输出控制单元基于所述用户属性设置所述输出模式。

8.根据权利要求6所述的信息处理装置，

其中，所述用户的所述特性包括所述用户的状态，并且

9.根据权利要求6所述的信息处理装置，

10.根据权利要求1所述的信息处理装置，

其中，所述输出模式包括音质，并且

11.根据权利要求1所述的信息处理装置，

其中，所述输出模式包括语音音调，并且

12.根据权利要求1所述的信息处理装置，

其中，所述输出模式包括前缀或后缀，并且

13.根据权利要求1所述的信息处理装置，

其中，所述输出模式包括节奏，并且

14.根据权利要求1所述的信息处理装置，

其中，所述输出模式包括词语结尾的改变，并且

15.根据权利要求1所述的信息处理装置，

其中，所述输出模式包括背景声音或效果声音，并且

16.根据权利要求1所述的信息处理装置，

其中，所述次要内容包括与所述主要内容相关的广告。

17.根据权利要求1所述的信息处理装置，

18.根据权利要求1所述的信息处理装置，还包括音频输出单元，所述音频输出单元基于所述输出控制单元的控制输出所述音频发声。

19.一种信息处理方法，所述信息处理方法包括

由处理器控制与用户的音频对话中的音频发声的输出，

20.一种程序，所述程序用于使计算机用作