CN108885594A

CN108885594A - 信息处理装置、信息处理方法和程序

Info

Publication number: CN108885594A
Application number: CN201780022151.9A
Authority: CN
Inventors: 泷祐平; 河野真; 河野真一; 中川佑辅; 泽井邦仁; 加藤亚由美
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2016-04-12
Filing date: 2017-01-24
Publication date: 2018-11-23
Anticipated expiration: 2037-01-24
Also published as: WO2017179262A1; CN108885594B; JP6943237B2; KR20180134339A; US20210193168A1; JPWO2017179262A1; US11100944B2; DE112017001987T5

Abstract

为了提出一种信息处理装置、信息处理方法和程序，从而可以在用户之间交换消息时提高便捷性。一种信息处理装置，其设置有输出控制单元，该输出控制单元基于对使用语音输入的第一用户发出的讲话的检测来控制指示第一用户等待来自使用文本输入的第二用户的响应的状态的信息的输出，其中，在第一用户与第二用户之间交换输入的消息。

Description

信息处理装置、信息处理方法和程序

技术领域

本公开内容涉及信息处理装置、信息处理方法和程序。

背景技术

传统上，已经开发出用于经由网络在用户之间进行通信的各种技术，例如聊天。通过聊天，参与者可以实时交换文本、声音等。

此外，也已经提出了对文本信息和声音信息进行转换的技术。例如，以下列出的专利文献1描述了将一个用户输入的文本转换成声音数据并将转换成的声音数据输出到另一用户使用的耳机的技术。

引用列表

专利文献

专利文献1：JP 2004-129174A

发明内容

技术问题

顺便地，如果假定将专利文献1中描述的技术应用于在用户之间交换消息的情景，则根据专利文献1中描述的技术不向用户通知与对方用户的状态有关的信息。因此，根据专利文献1中描述的技术，例如，用户难以探明对方用户正在等待来自该用户的消息的状态。

因此，本公开内容将提出新颖且经改进的信息处理装置、信息处理方法和程序，其能够使得在用户之间交换消息的情景中的便捷性得以提高。

问题的解决方案

根据本公开内容，提供了一种信息处理装置，包括：输出控制单元，其基于对使用声音输入的第一用户的讲话的检测来控制指示与来自使用文本输入的第二用户的回复有关的第一用户的等待状态的信息的输出。在第一用户与第二用户之间交换输入的消息。

此外，根据本公开内容，提供了一种信息处理方法，包括：由输出控制单元基于对使用声音输入的第一用户的讲话的检测来控制指示与来自使用文本输入的第二用户的答复有关的所述第一用户的等待状态的信息的输出。在第一用户与第二用户之间交换输入的消息。

此外，根据本公开内容，提供了一种程序，其使计算机用作：输出控制单元，其基于对使用声音输入的第一用户的讲话的检测来控制指示与来自使用文本输入的第二用户的回复有关的第一用户的等待状态的信息的输出。在第一用户与第二用户之间交换输入的消息。

发明的有益效果

根据本公开内容，可以如上所述提高在用户之间交换消息的情景中的便捷性。注意，本文所描述的优点并不一定是限制性的，并且可以实现本公开内容中描述的任何优点。

附图说明

图1是示出由各个实施方式共享的信息处理系统的配置示例的说明图。

图2是示出根据第一实施方式的终端20的配置示例的功能框图。

图3是示出根据第一实施方式的消息交换处理的流程的序列图。

图4是示出根据第一实施方式的服务器10的配置示例的功能框图。

图5是示出根据第一实施方式的时限计算DB 124的配置示例的说明图。

图6是示出根据第一实施方式的讲话特性系数表126的配置示例的说明图。

图7是示出根据第一实施方式的感测信息系数表128的配置示例的说明图。

图8是示出根据第一实施方式的指示代词存在/不存在系数表130的配置示例的说明图。

图9是示出根据第一实施方式的时间信息系数表132的配置示例的说明图。

图10是示出根据第一实施方式的指示符的显示示例的说明图。

图11是示出根据第一实施方式的指示符的显示示例的说明图。

图12是示出根据第一实施方式的指示符的显示示例的说明图。

图13是示出根据第一实施方式的操作的整体流程的流程图。

图14是示出根据第一实施方式的指示符显示必要性确定处理的流程的流程图。

图15是示出根据第一实施方式的回复时限计算处理的流程的流程图。

图16是示出根据第一实施方式的指示符停止确定处理的流程的流程图。

图17是示出根据第二实施方式的操作的一部分的序列图。

图18是示出根据第二实施方式的操作的一部分的序列图。

图19是示出根据第三实施方式的操作的序列图。

图20是示出根据第四实施方式的操作的序列图。

图21是示出由各个实施方式共享的服务器10的硬件配置示例的说明图。

具体实施方式

在下文中，将参照附图详细描述本公开内容的(一个或多个)优选实施方式。注意，在本说明书和附图中，使用相同的附图标记来表示具有基本相同的功能和结构的结构元件，并且省略了对这些结构元件的重复说明。

此外，在说明书和附图中，在一些情况下通过向同一附图标记的末尾添加不同的字母来区分具有基本相同的功能配置的多个组件。例如，根据需要将具有基本相同的功能配置的多个组件区分成终端20a和20b。然而，在不特别需要区分具有基本相同的功能配置的多个相应组件的情况下，仅添加相同的附图标记。例如，在不必特别区分终端20a和20b的情况下会将终端20a和20b简称为终端20。

此外，将按以下描述的项目的顺序来描述“具体实施方式”。

1.信息处理系统的配置

2.第一实施方式

3.第二实施方式

4.第三实施方式

5.第四实施方式

6.硬件配置

7.修改示例

<<1.信息处理系统的配置>>

首先，将参照图1描述本公开内容中的由各个实施方式共享的信息处理系统的配置示例。如图1所示，各个实施方式共享的信息处理系统包括服务器10、终端20和通信网络30。

在本公开内容的各个实施方式中，假定例如两个用户2进行聊天的情景。更具体地，一个用户2a通过声音输入进行聊天(声音聊天)而另一用户2b通过文本输入进行聊天(文本聊天)。例如，两个用户在玩同一视频游戏时进行聊天。注意，在文本聊天中，用户可以通过使用诸如键盘(例如在显示画面上显示的软件键盘等)的输入装置来输入文本，或者可以通过声音文本输入来输入文本。

<1-1.终端20>

终端20是用户2用来进行聊天的装置。注意，尽管图1示出了其中终端20是游戏控制器的示例，但是终端20并不限于这样的示例。例如，终端20可以是通用个人计算机(PC)、平板电脑终端、诸如智能电话的移动电话或者诸如头戴式显示器(HMD)或耳机的可穿戴装置。注意，以下将主要描述终端20是游戏控制器的示例。

在此，将参照图2描述每个终端20的功能配置的示例。如图2所示，终端20具有例如控制单元200、声音收集单元220、操作单元222、测量单元224、显示单元226、声音输出单元228和通信单元230。

例如，控制单元200通过使用诸如中央处理单元(CPU)和随机存取存储器(RAM)的硬件来控制终端20的整体操作。

声音收集单元220收集外部的声音。此外，声音收集单元220将收集到的声音传送到控制单元200。

操作单元222接收用户的输入。此外，操作单元222将接收到的内容传送到控制单元200。

测量单元224例如包括各种传感器，例如相机、汗液传感器和温度传感器。测量单元224执行例如与用户状态相关的测量。此外，测量单元224将测量结果传送到控制单元200。

显示单元226是根据本公开内容的输出单元的示例。显示单元226在控制单元200执行的控制下显示显示画面。

声音输出单元228是根据本公开内容的输出单元的示例。声音输出单元228在控制单元200执行的控制下输出声音。

通信单元230例如经由通信网络30向另一装置发送信息以及从另一装置接收信息。例如，通信单元230在控制单元200执行的控制下将声音收集单元220收集的声音发送到服务器10。此外，通信单元230从服务器10接收由另一用户输入的消息等。

注意，终端20的配置不限于前述示例。例如，可以将声音收集单元220、操作单元222、测量单元224、显示单元226和声音输出单元228中的任何一个或更多个设置在终端20之外。

<1-2.服务器10>

服务器10是根据本公开内容的信息处理装置的示例。服务器10控制终端20之间的输入消息的交换。例如，服务器10可以将由声音聊天用户2a输入的声音不做任何改变地传送给文本聊天用户2b使用的终端20b，或者可以将对输入的声音执行声音识别的结果传送给终端20b。此外，服务器10通过使用TextToSpeech(TTS，文本转语音)将由文本聊天用户2b输入的文本转换成声音，然后将其被转换成的声音传送给声音聊天用户2a使用的终端20a。以这种方式，声音聊天用户2a和文本聊天用户2b可以以与该用户使用相同聊天方法的情况下的感觉类似的感觉进行聊天。

{1-2-1.消息交换处理的流程}

在此，将参照图3具体描述声音聊天用户2a与文本聊天用户2b之间的消息交换处理的流程。如图3所示，首先，声音聊天用户2a执行讲话(S11)。然后，声音聊天用户2a使用的终端20a收集该讲话的声音，然后将所收集的声音发送至服务器10(S13)。

此后，服务器10将接收到的声音发送至文本聊天用户2b使用的终端20b(S15)。

此后，终端20b的声音输出单元228b输出接收到的声音(S17)。此后，文本聊天用户2b例如通过使用操作单元222来输入文本(S19)。然后，一旦该输入完成，终端20b将输入的文本发送至服务器10(S21)。

此后，服务器10通过TTS功能将接收到的文本转换成声音(S23)。然后，服务器10将转换成的声音发送至终端20a(S25)。

此后，终端20a的声音输出单元228a输出接收到的声音(S27)。

<1-3.通信网络30>

通信网络30是从连接至通信网络30的装置发送的信息的有线或无线传输路径。例如，通信网络30可以包括公共线路网络(如电话线路网络、因特网和卫星通信网络)、包括以太网(Ethernet，注册商标)的各种局域网(LAN)、广域网(WAN)等。此外，通信网络30可以包括专用线路网络，例如因特网协议-虚拟专用网络(IP-VPN)。

<1-4.对问题的组织>

以上已经描述了由各个实施方式共享的信息处理系统的配置。顺便提及，在文本聊天中输入消息通常会比在声音聊天中花费更长的时间。因此，声音聊天用户等待来自文本聊天用户的回复的时间变长并且在声音聊天用户与文本聊天用户之间进行聊天时会感到不舒服。因此，期望例如文本聊天用户可以知道关于声音聊天用户允许等待来自文本聊天用户的回复的时长的信息。

因此，通过以前述情况作为一个观点进行考虑而创造出了根据第一实施方式的服务器10。根据第一实施方式，服务器10可以基于稍后将描述的对声音聊天用户的讲话的检测来控制指示与来自文本聊天用户的回复有关的声音聊天用户的等待状态的信息(在下文中称为指示声音聊天用户的等待状态的信息)的输出。以这种方式，文本聊天用户可以在输入消息时确知声音聊天用户的等待状态。

<<2.第一实施方式>>

<2-1.配置>

接下来，将描述第一实施方式。首先，将详细描述根据第一实施方式的服务器10的配置。图4是示出根据第一实施方式的服务器10的配置示例的功能框图。如图4所示，服务器10具有控制单元100、通信单元120以及存储单元122。

{2-1-1.控制单元100}

控制单元100通过使用并入到服务器10中并且稍后将描述的硬件如CPU 150和RAM154来控制服务器10的整体操作。此外，如图4所示，控制单元100具有声音分析单元102、感情估计单元104、回复时限计算单元106和输出控制单元108。

{2-1-2.声音分析单元102}

(2-1-2-1.讲话特性分析)

声音分析单元102对从终端20接收的声音进行分析。例如，声音分析单元102对接收到的声音的讲话特性进行分析。这里，讲话特性例如是声音的音量、语速、音高等。

(2-1-2-2.声音识别)

此外，声音分析单元102对接收到的声音执行声音识别和语法分析。例如，声音分析单元102对接收到的声音执行声音识别然后基于识别结果执行对讲话句子的模态分析。这里，模态分析是对句子的语言类型(例如“否定”、“感叹”、“劝诱”、“询问”等)的分析。

此外，声音分析单元102基于模态分析结果确定讲话的句子的模态是否是需要响应的模态。在模态分析分析出的模态类型为例如“条件”、“查询”、“游说”或“劝诱”时，声音分析单元102确定模态是需要响应的模态。此外，在分析出的模态类型不是前述模态之一的情况下，声音分析单元102确定模态是不需要响应的模态。

{2-1-3.感情估计单元104}

感情估计单元104基于从终端20接收的各种感测结果来估计正在使用终端20的用户的感情。例如，感情估计单元104通过基于所捕获的用户的面部图像对面部表情进行分析来估计用户的感情(例如生气、悲伤、开心等)。此外，感情估计单元104还可以通过分析接收到的声音来估计用户的感情。

{2-1-4.回复时限计算单元106}

回复时限计算单元106基于预定的基准来计算与文本聊天用户有关的消息回复时限。这里，回复时限例如与所估计的声音聊天用户允许等待来自文本聊天用户的回复的(或者用户等待时不会感到不舒服的)最大时间对应。此外，预定的基准可以包括检测到的声音聊天用户的讲话特性。此外，预定的基准可以包括由感情估计单元104基于接收到的(声音聊天用户的)声音执行的感情估计的结果。此外，预定的基准可以包括与声音聊天用户的状态有关的感测结果。此外，预定的基准可以包括由声音分析单元102对接收到的(声音聊天用户的)声音执行的声音识别的结果。

例如，回复时限计算单元106基于由声音分析单元102执行的分析的结果、由感情估计单元104执行的估计的结果以及在时限计算DB 124中登记的内容来计算回复时限，这将在稍后进行描述。在一个示例中，回复时限计算单元106首先基于在时限计算DB 124中存储的各个减少系数来计算基准时间的减少率。然后，回复时限计算单元106通过将基准时间乘以计算出的减少率来计算回复时限。这里，可以针对每种类型的终端20以及服务类型(聊天服务等)来预先设定基准时间的长度。然后，回复时限计算单元106通过将与用户正在使用的终端20的类型或用户正在使用的服务的类型相关联的基准时间乘以计算出的减少率来计算回复时限。

(2-1-4-1.时限计算DB 124)

时限计算DB 124是其中存储有用来计算回复时限的减少系数的数据库。例如，时限计算DB 124可以被存储在存储单元122中。图5是示出时限计算DB 124的配置示例的说明图。如图5所示，时限计算DB 124包括讲话特性系数表126、感测信息系数表128、指示代词存在/不存在系数表130以及时间信息系数表132。

图6是示出讲话特性系数表126的配置示例的说明图。如图6所示，例如在讲话特性系数表126中，讲话的音量和语速与减小系数1260彼此相关联。在图6所示的示例中，在讲话的音量为“普通”并且语速为“高于普通”的情况下减小系数为“0.8”。注意，在讲话特性系数表126中，所关联的不限于讲话的音量和语速，并且例如可以附加地或替选地关联讲话的音高、基于讲话的声音来估计感情的结果等。

图7是示出感测信息系数表128的配置示例的说明图。如图7所示，在感测信息系数表128中，例如基于除声音外的感测信息(面部图像等)的感情估计的结果、感测排汗量的结果和减小系数1280彼此关联。在图7所示的示例中，在感情估计的结果为“生气”并且排汗量为“多于普通”的情况下减小系数为“0.5”。注意，所关联的不限于感情估计的结果和排汗量，并且在感测信息系数表128中可以附加地或替选地关联例如检测视线的结果(用户是否正在观看显示单元226等)、由操作单元222执行的检测的结果(用户是否正握住操作单元222、手指是否与操作单元222接触等)、动作识别的结果(玩游戏的状态等)等。

图8是示出指示代词存在/不存在系数表130的配置示例的说明图。如图8所示，在指示代词存在/不存在系数表130中，指示代词的存在/不存在与系数13300相关联。在图8所示的示例中，在对接收到的声音执行声音识别的结果中“存在”指示代词的情况下减小系数为“0.8”。

图9是示出时间信息系数表132的配置示例的说明图。如图9所示，在时间信息系数表132中，由声音识别结果中包括的词指示的点与减小系数1320彼此关联。在图9所示的示例中，在声音的声音识别结果中存在指示“当前”的词的情况下减小系数为“0.8”。注意，图6至图9所示的减小系数的各个值仅是示例，这些值不限于这样的示例而是可以登记任意值。

(2-1-4-2.计算时限的示例)

这里，将描述回复时限计算单元106基于图6至图9所示的各种表来计算消息回复时限的示例。例如，假定基准时间为“30秒”，从讲话特性系数表126确定的减小系数为“0.8”，从感测信息系数表128确定的减小系数为“1.0”，从指示代词存在/不存在系数表130确定的减小系数为“0.8”并且从时间信息系数表132确定的减小系数为“1.0”。在这种情况下，回复时限计算单元106通过将基准时间乘以所有前述减小系数(30(秒)×0.8×1.0×0.8×1.0≈19(秒))来将回复时限计算为“19秒”。

{2-1-5.输出控制单元108}

(2-1-5-1.指示等待状态的信息的输出的开始和结束)

输出控制单元108基于对声音聊天用户的讲话的检测来控制指示声音聊天用户的等待状态的信息的输出。例如，输出控制单元108基于声音分析单元102对检测到的讲话的分析结果来控制指示声音聊天用户的等待状态的信息的输出。在一个示例中，输出控制单元108基于对检测到的讲话的句子是否具有需要响应的模态的确定结果来使指示声音聊天用户的等待状态的信息的输出开始。例如在声音分析单元102确定检测到的讲话的句子具有需要响应的模态的情况下，输出控制单元108使得指示声音聊天用户的等待状态的信息的输出开始。此外，在声音分析单元102确定检测到的讲话的句子具有不需要响应的模态的情况下，输出控制单元108不会使指示声音聊天用户的等待状态的信息的输出开始。

此外，在指示声音聊天用户的等待状态的信息的输出开始之后，输出控制单元108基于预定的条件使指示声音聊天用户的等待状态的信息的输出停止。例如在文本聊天用户已经完成消息输入的情况下，输出控制单元108使得指示声音聊天用户的等待状态的信息的输出结束。此外，当自从指示声音聊天用户的等待状态的信息的输出时刻起经过的时间超过预定的上限时间时，输出控制单元108使指示声音聊天用户的等待状态的信息的输出结束。这里，预定的上限时间可以是预先设定的时间，可以是通过向由回复时限计算单元106计算的回复时限加上预定时间而获得的时间，或者可以是与回复时限相同的时间。

(2-1-5-2.通过GUI呈现)

这里，将更详细地描述指示声音聊天用户的等待状态的信息的输出的示例。例如，输出控制单元108使文本聊天用户侧的显示单元226显示包括由回复时限计算单元106计算的回复时限的指示符作为指示声音聊天用户的等待状态的信息。

图10是示出指示符的显示示例(显示画面40)的说明图。如图10所示，例如输出控制单元108使得文本输入区42和指示符50一起显示在显示画面40中。这里，文本输入区42是文本聊天用户输入文本(消息)的输入区。此外，如图10所示，指示符50包括计量表52。计量表52是指示回复时限与自从指示符50的显示开始起经过的时间之间的差(在下文中，在一些情况下称为剩余时间)的显示。根据该显示示例，文本聊天用户可以知道声音聊天用户允许等待消息的回复的剩余时间。因此，文本聊天用户可以例如在任何时间确定该用户是否必须急于输入回复消息。

此外，图10中的指示符50的右端指示由回复时限计算单元106计算的回复时限的长度。例如，在回复时限的长度为“2分钟”的情况下，指示符50的长度变为回复时限的长度为“1分钟”的情况下的长度的两倍。此外，当指示符50的显示开始时，计量表42的右端和指示符50的右端可以彼此重合。可替选地，无论回复时限的长度如何，指示符50的长度都可以是固定的，并且如稍后将描述的可以使计量表52的长度的变化速度根据回复控制时间来变化。例如，在回复时限的长度为“2分钟”的情况下，输出控制单元108可以以回复时限的长度为“1分钟”的情况下的速度的“两倍”速度来缩短计量表52的长度。

然而，实施方式不限于这样的示例，并且指示符50的右端可以被设定在预定时间处(例如3分钟等)。然后，在这种情况下，在回复时限小于预定时间的情况下，计量表52被显示为使得计量表52比指示符50的显示开始时的指示符50短。

-根据时间流逝的显示控制

此外，输出控制单元108可以使指示符的显示模式根据自从指示符的显示开始起经过的时间而变化。图11是示出根据经过的时间来改变指示符50的显示的示例的说明图。注意，图11示出了当按照(a)、(b)、(c)和(d)的顺序经过较长时间时指示符50的显示示例。如图11所示，输出控制单元108随着自从指示符50的显示开始起经过的时间越长(即剩余时间越短)来缩短计量表52的长度。此外，例如，如图11所示输出控制单元108可以使得计量表52的显示颜色根据剩余时间的长度相对于回复时限的比例而变化。在如图11(b)所示的剩余时间相对于回复时限的比例小于“50％”的情况下，输出控制单元108使计量表52的显示颜色变为指示“注意”的显示颜色。此外，在如图11(c)所示的剩余时间相对于回复时限的比例小于“30％”的情况下，输出控制单元108使计量表52的显示颜色变为指示“警告”的显示颜色。根据这些显示示例，可以以强调的方式向文本聊天用户呈现出到回复时限的剩余时间较短的事实。

注意，图11中的(d)示出了在文本聊天用户发送消息之后指示符50的显示示例。如图11(d)所示，在发送消息之后，例如输出控制单元108使得仅计量表52不被显示或者使得指示符50不被显示。注意，尽管在指示符50和计量表52不同的假设下给出了前述描述，但是指示符50和计量表52不限于这样的示例并且可以是相同的。

-辅助显示

此外，输出控制单元108可以使辅助显示54被显示在指示符50附近(例如，在其旁边的右侧)，如图11所示。这里，辅助显示54是指示声音聊天用户的等待状态的信息的示例。

例如，可以预先在表中以相关联的方式登记剩余时间相对于回复时限的比例和文本(例如“OK”、“快点！”、“他生气了！！！”等)。然后，输出控制单元108可以根据当前剩余时间的比例和表中登记的内容来连续更新显示为辅助显示54的文本的类型。

可替选地，输出控制单元108可以使得由感情估计单元104进行感情估计的结果显示为辅助显示54。在检测到声音聊天用户的讲话时，在感情估计单元104估计声音聊天用户生气了的情况下，例如，输出控制单元108可以使文本“他生气了！！！”显示为辅助显示54(不管经过的时间如何)。此外，在可以实时估计声音聊天用户的感情的情况下，每当进行感情估计的结果改变时输出控制单元108可以连续更新辅助显示43的显示内容。

可替选地，输出控制单元108可以使得与声音聊天用户的状态有关的感测结果(例如用户是否正在观看显示单元226、用户是否正握住操作单元222等)显示为辅助显示54。注意，尽管图11示出了将文本显示为辅助显示54的示例，但是辅助显示54不限于这样的示例，并且例如可以显示诸如图标的图像。

-超出时限时的显示示例

此外，图12是示出自从指示符的显示开始起经过的时间超过回复时限的情况下指示符的显示示例的说明图。如图12中的(a)所示，当经过的时间超过回复时限时，输出控制单元108可以使文本输入区42闪烁。可替选地，如图12中的(b)所示，输出控制单元108可以使得在显示画面中显示屏幕键盘(OSK)60，同时使文本输入区42闪烁。以这种方式，可以强制文本聊天用户输入文本。

(2-1-5-3.通过声音呈现)

可替选地，输出控制单元108还可以使文本聊天用户使用的终端20的声音输出单元228输出指示声音聊天用户的等待状态的声音。当检测到声音聊天用户的讲话时，例如，输出控制单元108可以使声音输出单元228输出读取由回复时限计算单元106计算的回复时限的声音。

可替选地，可以在表中以关联的方式预先登记时间的长度(或剩余时间的比例)和声音类型。然后，当检测到声音聊天用户的讲话时，输出控制单元108可以使声音输出单元228根据由回复时限计算单元106计算的回复时限的长度(或“100％”)和表中登记的内容来输出该声音类型。此外，输出控制单元108可以根据当前剩余时间的长度(或剩余时间的比例)和表中登记的内容来连续更新要输出的声音类型。以这种方式，文本聊天用户可以知道还有多少剩余时间。

可替选地，可以在表中以相关联的方式预先登记时间的长度(或剩余时间的比例)和输出预定声音(例如铃声、嘟嘟声等)的时间间隔的长度。例如，可以执行登记，使得输出声音的时间间隔随着剩余时间的长度(或剩余时间的比例)变短而变短。然后，当检测到声音聊天用户的讲话时，输出控制单元108可以使声音输出单元228以在表中登记的、与由回复时限计算单元106计算的回复时限的长度(或“100％”)相关联的时间间隔输出预定声音。此外，输出控制单元108可以根据当前剩余时间的长度(或剩余时间的比例)和表中登记的内容来连续更新输出声音的时间间隔。以这种方式，文本聊天用户可以知道剩余时间是多少。

注意，当自从指示等待状态的声音输出时起经过的时间超过回复时限时，输出控制单元108例如可以使显示在显示画面中的文本输入区42闪烁，如图12所示。

(2-1-5-4.通过振动呈现)

可替选地，例如，输出控制单元108可以使文本聊天用户使用的终端20的操作单元222输出指示声音聊天用户的等待状态的振动。

例如，可以在表中以相关联的方式预先登记时间长度(或剩余时间的比例)和振动类型。在一个示例中，可以在表中登记已被评估为随着时间的长度(或剩余时间的比例)更长而更舒适的振动模式。然后，当检测到声音聊天用户的讲话时，输出控制单元108可以使操作单元222根据由回复时限计算单元106计算的回复时限的长度(或“100％”)和表中登记的内容来输出振动类型。此外，输出控制单元108可以根据当前剩余时间的长度(或剩余时间的比例)和表中登记的内容来连续更新要输出的振动类型。

可替选地，可以在表中以相关联的方式预先登记时间的长度(或剩余时间的比例)和输出预定类型的振动的时间间隔的长度。例如，可以执行登记，使得输出振动的时间间隔随着剩余时间的长度(或剩余时间的比例)变短而变短。然后，当检测到声音聊天用户的讲话时，输出控制单元108可以使操作单元222以在表中登记的、与由回复时限计算单元106计算的回复时限的长度(或“100％”)相关联的时间间隔输出预定振动。此外，输出控制单元108可以根据当前剩余时间的长度(或剩余时间的比例)和表中登记的内容来连续更新输出振动的时间间隔。

可替选地，可以在表中以相关联的方式预先登记剩余时间的比例(或时间长度)和操作单元222的输出振动的部位。例如，可以执行登记，使得输出振动的部位进一步随着剩余时间的比例变小而增加。然后，输出控制单元108可以连续地使得输出振动的部位根据当前剩余时间的比例(或剩余时间的长度)和表中登记的内容而变化。

注意，当自从输出指示等待状态的振动时起经过的时间超过回复时限时，输出控制单元108例如可以使显示在显示画面中的文本输入区42闪烁，如图12所示。

(2-1-5-5.剩余时间的增加或减少)

注意，输出控制单元108还可以基于预定条件增加或减少(与文本聊天用户的回复有关的)剩余时间。此外，当输出控制单元108增加或减少剩余时间时，输出控制单元108以根据剩余时间增加或减少之后的形式使指示符显示、使声音输出或者使振动输出。

例如，在文本聊天用户发送回复之前，每当检测到声音聊天用户的新讲话时，输出控制单元108可以向当前剩余时间添加预定时间。

可替选地，在文本聊天用户发送回复之前并且当检测到声音聊天用户已经执行了新讲话时，输出控制单元108可以根据该新讲话增加或减少当前剩余时间。当检测到声音聊天用户已经执行了包括催促对方回复消息的关键字如“快点回复我！”的新讲话时，输出控制单元108可以将剩余时间缩短预定时间。

可替选地，在文本聊天用户发送回复之前并且当感情估计单元104进行感情估计的结果已经改变时，输出控制单元108可以根据感情估计的结果的变化来增加或减少剩余时间。例如，当在检测到讲话时进行感情估计的结果是“普通”并且当在文本聊天用户发送回复之前对声音聊天用户进行感情估计的结果已经变为“生气”时，输出控制单元108可以将剩余时间缩短预定时间。此外，当在检测到讲话时进行感情估计的结果是“生气”并且当在文本聊天用户发送回复之前对声音聊天用户进行感情估计的结果已经变为“普通”时，输出控制单元108可以向当前剩余时间添加预定时间。

-修改示例

注意，在修改示例中，在三个或更多个用户之间交换消息的情景下，输出控制单元108可以增加或减少针对任何文本聊天用户的剩余时间。例如，在存在一个声音聊天用户并且存在多个文本聊天用户的情景中，输出控制单元108可以基于预定条件改变与每个文本聊天用户对消息的回复相关的剩余时间的增加量或减少量。

将作为示例描述在声音聊天用户是教师并且文本聊天用户是学生的情景下的应用示例。例如，假定教师在课堂上执行询问“有人知道oo吗？”的讲话，并且多个学生中的一些学生(在下文中称为学生A)向该讲话回复消息。在这种情况下，输出控制单元108可以将学生A的剩余时间设定为“0秒”，并且向与除学生A之外的所有学生相关的当前剩余时间添加预定时间。根据控制示例，例如，可以给予除学生A之外的学生时间来更详细地检查或考虑与该问题有关的问题。此外，可以通过鼓励多个学生回答同一问题来活跃课堂。

此外，将作为另一示例描述在下述情景中的应用示例：远程位置处的教师(声音聊天用户)和多个学生(文本聊天用户)正在参加英语小组课程并且在该教师使用的终端20(PC等)的显示单元上正在显示多个学生的影像。例如，假定例如在显示单元附近安装的相机已检测到教师的视线指向的多个学生的影像，并且该教师已经执行了针对问题的讲话。在这种情况下，输出控制单元108可以使仅与检测到的教师的视线所指向的影像对应的学生的剩余时间增加。可替选地，输出控制单元108可以使得仅检测到的教师的视线所指向的学生正在观看的显示单元显示指示符并且仅允许该学生输入消息作为对该问题的回复。

{2-1-6.通信单元120}

通信单元120向其他装置发送信息以及从其他装置接收信息。例如，通信单元120在由输出控制单元108执行的控制下向文本聊天用户使用的终端20发送指示声音聊天用户的等待状态的信息。此外，通信单元120从终端20接收用户的讲话的声音、输入的文本等。

{2-1-7.存储单元122}

存储单元122存储各种类型的数据和各种类型的软件。例如，存储单元122存储时限计算DB 124等。

<2-2.操作>

以上已经描述了根据第一实施方式的配置。接下来，将参照图13至图16描述根据第一实施方式的操作示例。

{2-2-1.操作的整体流程}

首先，将参照图13描述根据第一实施方式的操作的整体流程。注意，这里将描述在声音聊天用户与文本聊天用户之间开始聊天之后执行的操作的示例。此外，将描述服务器10使得指示符被显示为指示声音聊天用户的等待状态的信息的示例。

如图13所示，首先，声音聊天用户执行讲话。然后，声音聊天用户使用的终端20a收集讲话的声音，然后向服务器10连续发送收集到的声音(S101)。

此后，服务器10执行“指示符显示必要性确定处理”，这将在稍后进行描述(S103)。然后，在确定不需要显示指示符的情况下(S105：否)，再次执行S101中的处理。

同时，在确定需要显示指示符的情况下(S105：是)，服务器10执行“回复时限计算处理”，这将在稍后进行描述(S107)。

然后，服务器10的输出控制单元108根据S107中的处理结果使文本聊天用户使用的终端20b(显示单元226)开始指示符的显示(S109)。

此后，服务器10执行“指示符显示结束确定处理”，这将在稍后进行描述(S111)。然后，在确定不结束指示符的显示的情况下(S113：否)，服务器10等待例如预定时间，然后再次执行S111中的处理。同时，在确定要结束指示符的显示的情况下(S113：是)，操作结束。

{2-2-2.指示符显示必要性确定处理}

这里，将参照图14描述S103中的“指示符显示必要性确定处理”中的详细操作。如图14所示，首先，声音分析单元102执行对在S101中接收的声音的声音识别(S201)。然后，声音分析单元102基于声音识别的结果执行对讲话的句子的模态分析(S203)。然后，在确定模态需要响应的情况下(S205：是)，输出控制单元108确定需要显示指示符(S207)。然后，“指示符显示必要性确定处理”结束。

同时，在确定模态不需要响应的情况下(S205：否)，则输出控制单元108确定在先前检测到的讲话之后是否经过了预定时间(S209)。在前一讲话之后已经过预定时间的情况下(S209：是)，输出控制单元108确定与在S101中接收的声音对应的讲话是新情境中的第一讲话(S211)。然后，输出控制单元108执行前述S207中的处理。

同时，在前一讲话之后尚未经过预定时间的情况下(S209：否)，输出控制单元108确定S201中的声音识别结果是否包括指示会话结束的词(S213)。这里，指示会话结束的词可以例如是“再会”、“再见”、“该睡觉了”、“明天见”等。此外，可以将指示会话结束的词登记在基于聊天历史信息构建的词列表中。注意，例如可以基于在聊天历史信息的基础上从最终讲话收集词来构建词列表。

在声音识别的结果不包括指示会话结束的词的情况下(S213：否)，输出控制单元108执行前述S207中的处理。同时，在声音识别的结果包括指示会话结束的词的情况下(S213：是)，输出控制单元108确定不需要显示指示符(S215)。然后，“指示符显示必要性确定处理”结束。

{2-2-3.回复时限计算处理}

接下来，将参照图15描述S107中的“回复时限计算处理”中的详细操作。如图15所示，首先，回复时限计算单元106获取在S201中分析的声音的讲话特性(S301)。然后，回复时限计算单元106获取与声音文本聊天用户相关的、除声音之外的感测信息，例如面部图像、对视线的检测结果、动作反应的结果等(S303)。注意，感测信息可以与S101中的讲话的声音一起由终端20发送到服务器10，或者可以在S303中由终端20发送到服务器10。

然后，回复时限计算单元106获取对与在S201中分析的讲话的句子有关的指示代词的存在/不存在的分析结果(S305)。

然后，回复时限计算单元106获取对与在S201中分析的讲话的句子有关的时间信息的分析结果(S307)。

然后，回复时限计算单元106基于在S301至S307中获取的信息和在时限计算DB124中登记的内容来计算基准时间的减小率(S309)。

此后，回复时限计算单元106通过将基准时间乘以在S309中计算出的减少率来计算回复时限(S311)。

{2-2-4.指示符显示结束确定处理}

接下来，将参照图16描述S111中的“指示符显示结束确定处理”中的详细操作。如图16所示，首先，输出控制单元108确定文本聊天用户是否已经发送了与S101中检测到的讲话相关的回复(S401)。在文本聊天用户已经发送了回复的情况下(S401：是)，输出控制单元108确定使指示符的显示结束(S403)。然后，“指示符显示结束确定处理”结束。

同时，在文本聊天用户尚未发送回复的情况下(S401：否)，输出控制单元108确定是否已经从声音聊天用户处检测到新讲话(S405)。在已经从声音聊天用户处检测到新讲话的情况下(S405：是)，输出控制单元108例如通过使用已知技术估计检测到的新讲话(在下文中称为“新讲话”)与在S101中检测到的讲话(在下文中称为目标讲话)之间的关系来确定这些句子之间是否存在某种关系(S407)。例如，在估计这些句子之间(即新讲话的句子与目标讲话的句子之间)的关系是“基于事物的同一性的关系”(例如“等同”、“简略”、“详细的”、“说明性的”、“基准”、“补充”等)的情况下，输出控制单元106确定新讲话与目标讲话有关系(即讲话在继续)。

在确定新讲话与目标讲话没有关系的情况下(S407：否)，服务器10执行前述S403中的处理。同时，在确定新讲话与目标讲话有关系的情况下(S407：是)，输出控制单元108确定不会使指示符的显示结束(S409)。此后，“指示符显示结束确定处理”结束。

此外，在S405中未检测到新讲话的情况下(S405：否)，则输出控制单元108确定在S109中开始指示符的显示之后经过的时间是否已超过预定的上限时间(S411)。

在经过的时间已超过上限时间的情况下(S411：是)，服务器10执行前述S403中的处理。同时，在经过的时间还没有超过上限时间的情况下(S411：否)，服务器10执行前述S409中的处理。

{2-2-5.修改示例}

注意，第一实施方式中的操作不限于前述示例。例如，图13所示的S107中的处理可以在S103之前执行。

<2-3.优点>

根据第一实施方式，在如上所述的在声音聊天用户与文本聊天用户之间交换消息的情景中，服务器10基于对声音聊天用户的讲话的检测来控制指示声音聊天用户的等待状态的信息的输出。以这种方式，文本聊天用户可以在输入消息时确知声音聊天用户的等待状态。

例如，服务器10基于对声音聊天用户的讲话的检测来计算回复时限，然后使文本聊天用户侧的显示单元226显示包括所计算的回复时限的指示符。然后，该指示符包括指示回复时限与指示符的显示开始的之后经过的时间之间的差的计量表。以这种方式，文本聊天用户可以在任何时间知道声音聊天用户允许等待消息的回复的剩余时间。因此，例如文本聊天用户可以确定该用户是否应该急于输入作为回复的消息。

<2-4.修改示例>

注意，第一实施方式不限于以上描述。虽然已经描述了例如服务器10仅使文本聊天用户侧的显示单元226b显示指示符的示例，但是实施方式不限于这样的示例，并且服务器10也可以使声音聊天用户侧的显示单元226a显示相同的指示符。以这种方式，声音聊天用户可以确知文本聊天用户正在观看的指示符的内容。

<<3.第二实施方式>>

以上已经描述了第一实施方式。如上所述，在文本聊天中输入消息通常会比在声音聊天中花费更长的时间。因此，在声音聊天用户与文本聊天用户之间进行聊天的情景中期望声音聊天用户还能够检查文本聊天用户的输入状态，以便抑制可用性的劣化。

接下来将描述第二实施方式。根据第二实施方式，如稍后将描述的，服务器10可以基于来自文本聊天用户的文本的输入状态来控制对声音聊天用户的反馈声音(在下文中称为FB声音)的输出。注意，在第二实施方式中将描述在文本聊天用户执行声音文本输入的情景下的应用示例。然而，第二实施方式不限于这样的示例，并且可以基本上类似地应用于文本聊天用户通过使用硬件键盘、软件键盘等执行文本输入的情景。

<3-1.配置>

接下来，将详细描述根据第二实施方式的服务器10的配置。注意，根据第二实施方式的服务器10中包括的组件与根据第一实施方式的组件类似。在下文中，稍后将仅描述与第一实施方式中的内容不同的内容。

{3-1-1.输出控制单元108}

根据第二实施方式的输出控制单元108基于来自文本聊天用户的文本的输入状态使得声音聊天用户使用的终端20的声音输出单元228输出FB声音。例如，在已经达到预先设定的声音FB定时的情况下，输出控制单元108使声音输出单元228输出FB声音。这里，声音FB定时例如是“消息输入开始的时间”、“正在输入消息的时间”、“消息输入结束的时间”、“消息被发送的时间”等。注意，“正在输入消息的时间”是例如在通过语音活动检测(VAD)检测到的(声音文本输入的)讲话时段中讲话的音量已超过预定阈值的定时。

例如，可以在FB声音表(附图中已省略)中以相关联的方式预先登记声音FB定时和声音类型。在一个示例中，可以在FB声音表中与“消息被发送的时间”相关联地登记声音“您获得了来自OO的消息。”。此外，在这种情况下，每当到达任何声音FB定时时，输出控制单元108使声音输出单元228输出在FB声音表中与声音FB定时相关联地存储的FB声音。注意，FB声音表可以被存储在存储单元122中。

<3-2.操作>

以上已经描述了根据第二实施方式的配置。接下来，将参照图17和图18描述根据第二实施方式的操作。如图17所示，首先，文本聊天用户使用的终端20b等待直到文本聊天用户开始声音文本输入(S501)。然后，在文本聊天用户已经开始声音文本输入的情况下(S501：是)，终端20b向服务器10发送已经开始文本输入的通知(S503)。

此后，服务器10的输出控制单元108提取FB声音表中与“消息输入开始的时间”相关联地存储的FB声音。然后，通信单元120在输出控制单元108执行的控制下将所提取的FB声音发送到声音聊天用户使用的终端20a(S505)。此后，终端20a输出接收到的声音(S507)。

此外，在S503之后终端20b确定文本聊天用户是否已经结束了声音文本输入(S509)。当正在执行声音文本输入时(S509：否)，终端20b等待直到文本聊天用户的讲话的音量超过预定阈值(S511)。然后，在讲话的音量已经超过预定阈值的情况下(S511：是)，终端20b向服务器10发送正在输入声音文本的通知(S513)。

此后，服务器10的输出控制单元108提取FB声音表中与“正在输入消息的时间”相关联地存储的FB声音。然后，通信单元120在由输出控制单元108执行的控制下将所提取的FB声音发送到终端20a(S515)。此后，终端20a输出接收到的声音(S517)。

这里，将参照图18描述在S509中已经结束声音文本输入(S509：是)的情况下执行的操作。如图18所示，首先，终端20b向服务器10发送文本输入已结束的通知(S521)。

此后，服务器10的输出控制单元108提取FB声音表中与“消息输入结束的时间”相关联地存储的FB声音。然后，通信单元120在由输出控制单元108执行的控制下将所提取的FB声音发送到终端20a(S523)。此后，终端20a输出接收到的声音(S525)。

此外，在S521之后终端20b将输入的消息发送到服务器10(S527)。然后，服务器10的输出控制单元108提取FB声音表中与“消息被发送的时间”相关联地存储的FB声音。然后，通信单元120在由输出控制单元108执行的控制下将所提取的FB声音发送到终端20a(S529)。此后，终端20a输出接收到的声音(S531)。

注意，图18所示的S533至S537中的处理与图3所示的S23至S27中的处理类似。

<3-3.优点>

如上所述，根据第二实施方式的服务器10基于来自文本聊天用户的文本的输入状态来控制对声音聊天用户的FB声音的输出。因此，当声音聊天用户正在等待来自文本聊天用户的消息时，声音聊天用户可以检查文本聊天用户的输入状态。因此，可以抑制对于声音聊天用户的可用性的劣化。

<<4.第三实施方式>>

以上已经描述了第二实施方式。如上所述，在第一实施方式和第二实施方式中，通过TTS读取将文本聊天用户输入的消息传送给声音聊天用户。顺便提及，由于在TTS读取中文本通常是被平坦地读取的，所以收听所读取的声音的用户易于听不到信息。因此，存在声音聊天用户与文本聊天用户之间的通信的平滑度劣化的情况。

接下来，将描述第三实施方式。根据第三实施方式，如稍后将描述的，服务器10可以使得输出到声音聊天用户的消息的声音的输出形式基于从文本聊天用户输入的消息中的关键字的提取而改变。以这种方式，可以防止声音聊天用户未能听到来自文本聊天用户的消息的重要部分。这里，关键字可以是例如指示日期和时间、位置等的词。

<4-1.配置>

接下来，将详细描述根据第三实施方式的服务器10的配置。注意，根据第三实施方式的服务器10中包括的组件与根据第一实施方式的组件类似。

{4-1-1.输出控制单元108}

根据第三实施方式的输出控制单元108使得输出到声音聊天用户的消息的声音的输出形式基于从文本聊天用户输入的消息中的关键字的提取而改变。

例如，输出控制单元108可以增加从输入消息中提取的关键字的声音被输出的次数。在一个示例中，首先输出控制单元108使声音聊天用户侧的声音输出单元228a输出由文本聊天用户输入的消息的声音，然后输出控制单元108使声音输出单元228a仅输出从该消息中提取的关键字的声音。在一个示例中，假定文本聊天用户输入了消息“好的，明天9点你我在电车室(trolley room)见。”并且“明天”、“9点”和“电车室”被提取为关键字。在这种情况下，输出控制单元108首先使声音输出单元228a输出声音“好的，明天9点你我在电车室见。”然后使声音输出单元228a通过TTS输出仅关键字如“明天、9点、电车室”的声音。

可替选地，输出控制单元108可以通过区分从输入消息中提取的关键字部分的声音来使消息的声音被输出。例如，输出控制单元108通过使得从输入消息中提取的关键字部分的音量高于除关键字之外的部分的音量来使声音输出单元228a通过TTS输出消息的声音。可替选地，输出控制单元108可以通过将从输入消息中提取的关键字部分的一类声音与除关键字之外的部分的一类声音区分开来使声音输出单元228a通过TTS输出消息的声音。

可替选地，输出控制单元108可以通过将从输入消息中提取的关键字部分的声音的速度区分开来使消息的声音被输出。例如，输出控制单元108可以使声音输出单元228a通过TTS输出消息的声音在从输入消息中提取的关键字之前和之后暂时停止输出声音并且例如将关键字部分的声音的速度降低为除关键字以外的部分的声音的速度的0.8倍。

<4-2.操作>

以上已经描述了根据第三实施方式的配置。接下来，将参照图19描述根据第三实施方式的操作。如图19所示，文本聊天用户向终端20b输入消息(S601)。然后，终端20b将输入的消息发送到服务器10(S603)。

此后，服务器10的输出控制单元108从接收到的消息中提取关键字(S605)。然后，输出控制单元108基于所接收的消息和所提取的关键字通过TTS生成与该消息相关的具有被强调的关键字的声音(S607)。

此后，通信单元120在由输出控制单元108执行的控制下将生成的声音发送到终端20a(S609)。此后，终端20a输出接收到的声音(S611)。

<4-3.优点>

如上所述，根据第三实施方式的服务器10使得输出到声音聊天用户的消息的声音的输出形式基于从文本聊天用户输入的消息中的关键字的提取而改变。因此，声音聊天用户可以更可靠地收听消息中包括的关键字。因此，可以实现平滑的通信，并且例如声音聊天用户要求文本聊天用户再次说话的次数减少。

<<5.第四实施方式>>

以上已经描述了第三实施方式。顺便提及，在声音聊天用户与文本聊天用户之间进行聊天的情景中，即使文本聊天用户在声音聊天用户的讲话期间产生声音，该声音通常也不会被传送给声音聊天用户。因此，由于声音聊天用户不能获得指示文本聊天用户正在收听的声音信息例如插入语，因此声音聊天用户可能会感到难以进行自然的通信。

接下来，将描述第四实施方式。根据第四实施方式，如稍后将描述的，服务器10可以基于对声音聊天用户的讲话的检测来控制去往声音聊天用户的通过TTS的插入语的自动声音输出。

<5-1.配置>

接下来，将详细描述根据第四实施方式的服务器10的配置。注意，根据第四实施方式的服务器10中包括的组件与根据第一实施方式的组件类似。

[5-1-1.输出控制单元108]在已检测到声音聊天用户的讲话的情况下，根据第四实施方式的输出控制单元108基于对文本聊天用户是否正在收听的估计结果来控制去往声音聊天用户的通过TTS的插入语的声音输出。例如，在已经检测到声音聊天用户的讲话并且估计文本聊天用户正在收听该声音聊天用户的讲话的情况下，输出控制单元108使得声音聊天用户侧的声音输出单元228通过TTS输出作为插入语的声音。在一个示例中，当在检测到声音聊天用户的讲话之后该声音聊天用户的讲话的音量相对减小时，或者在声音聊天用户的讲话中断之后已经经过了预定时间时，输出控制单元108使声音聊天用户侧的声音输出单元228通过TTS输出作为插入语的声音。

注意，例如，输出控制单元108可以通过下述方法来估计文本聊天用户是否正在收听声音聊天用户的讲话。例如，输出控制单元108可以基于声音聊天用户的讲话是否已经被输出到文本聊天用户侧的声音输出单元228b来确定文本聊天用户是否正在收听该讲话。可替选地，输出控制单元108可以基于对文本聊天用户是否佩戴了入耳耳机或头戴耳机的检测结果来确定该文本聊天用户是否正在收听讲话。可替选地，输出控制单元108可以基于对文本聊天用户的动作识别的结果来确定该文本聊天用户是否正在收听讲话。例如，在声音聊天用户和文本聊天用户正在玩计算机游戏的情况下，输出控制单元108可以基于对文本聊天用户对于该计算机游戏的专注程度的检测结果来确定该文本聊天用户是否正在收听讲话。注意，可以基于例如对在操作单元222b上执行的操作的频率的检测结果、对文本聊天用户的视线的检测结果以及当检测到声音聊天用户的讲话时的游戏状态等来确定对计算机游戏的专注程度。

将作为示例描述下述情景中的应用示例，声音聊天用户执行了讲话“我该怎么办？我现在只有10,000卢比”并且在讲话“我该怎么办？”之后音量立即暂时减小。在这种情况下，输出控制单元108首先使声音输出单元228a在讲话“我该怎么办？”之后立即通过TTS输出作为插入语的声音，例如“嗯”。然后，输出控制单元108可以使声音输出单元228a在讲话“我现在只有10,000卢比”之后立即通过TTS输出作为插入语的声音，例如“我明白了”。

<5-2.操作>

以上已经描述了根据第四实施方式的配置。接下来，将参照图20描述根据第四实施方式的操作。如图20所示，首先，声音聊天用户使用的终端20a等待声音聊天用户的讲话被检测到(S701)。然后，在检测到声音聊天用户的讲话的情况下(S701：是)，终端20a将检测到的讲话的声音连续发送到服务器10(S703)。

此后，服务器10的通信单元120在控制单元100执行的控制下将接收到的声音发送到文本聊天用户使用的终端20b(S705)。此外，通信单元120向终端20b发送提供感测信息的请求(S707)。

此后，终端20b将感测信息(例如由测量单元224执行的测量结果)发送到服务器10(S709)。

此后，服务器10的输出控制单元108基于接收到的感测信息来确定文本聊天用户是否正在收听声音聊天用户的讲话(S711)。在确定文本聊天用户没有在收听声音聊天用户的讲话的情况下(S711：否)，服务器10再次执行S707中的处理。

同时，在确定文本聊天用户正在收听声音聊天用户的讲话的情况下(S711：是)，服务器10等待直到声音聊天用户的讲话的音量减小等于或大于阈值的量或者直到声音聊天用户的讲话中断并且在中断时刻之后经过预定时间(S713)。

然后，在满足S713中的条件的情况下(S713：是)，输出控制单元108通过TTS生成声音作为插入语。然后，通信单元120在由输出控制单元108执行的控制下将生成的声音发送到终端20a(S715)。此后，终端20a输出接收到的声音(S717)。

{5-2-1.修改示例}

注意，根据第四实施方式的操作不限于前述示例。例如，在不执行S707中的处理的情况下，终端20b可以将感测信息自动发送到服务器10。例如，终端20b可以不断地获取感测信息并且以预定的时间间隔将所获取的感测信息发送到服务器10。

<5-3.优点>

如上所述，在检测到声音聊天用户的讲话的情况下，根据第四实施方式的服务器10基于对文本聊天用户是否正在收听进行估计的结果来控制去往声音聊天用户的通过TTS的插入语的声音输出。因此，可以让声音聊天用户直观地知道文本聊天用户正在收听该声音聊天用户的讲话。因此，声音聊天用户可以更自然地进行通信。

<<6.硬件配置>>

接下来，将参照图21描述由各个实施方式共享的服务器10的硬件配置。如图21所示，服务器10包括CPU 150、只读存储器(ROM)152、RAM 154、总线156、接口158、存储装置160以及通信装置162。

CPU 150用作算术处理装置和控制装置，并且根据各种程序控制服务器10中的整体操作。此外，CPU 150实现服务器10中的控制单元100的功能。注意，CPU 150由诸如微处理器的处理器形成。

ROM 152存储控制数据，例如CPU 150使用的程序和算术参数。

RAM 154临时存储例如由CPU 150执行的程序等。

总线156包括CPU总线等。总线156将CPU 150、ROM 152和RAM 154彼此连接。

接口158将存储装置160和通信装置162连接至总线156。

存储装置160是用作存储单元122的数据存储装置。存储装置160包括例如记录介质、将数据记录在记录介质中的记录装置、从记录介质读取数据的读取装置、删除记录介质中记录的数据的删除装置等。

通信装置162是包括例如用于连接到通信网络30等的通信装置等的通信接口。此外，通信装置162可以是兼容无线LAN的通信装置、兼容长期演进(LTE)的通信装置或者执行有线通信的有线通信装置。通信装置162用作通信单元120。

<<7.修改示例>>

以上已经参照附图描述了本公开内容的一个或多个优选实施方式，但是本公开内容不限于以上示例。本领域技术人员可以在所附权利要求书的范围内发现各种变化和修改，并且应当理解的是，这些变化和修改会自然地归入本公开内容的技术范围内。

例如，根据各个实施方式的信息处理系统的配置不限于上述示例。例如，声音聊天用户和文本聊天用户可以相互使用不同类型的终端。在一个示例中，声音聊天用户使用的终端可以不设置显示单元226，而文本聊天用户使用的终端可以设置有显示单元226。

此外，尽管在前述各个实施方式中已经描述了服务器10具有声音分析单元102和感情估计单元104的示例，但是实施方式不限于这样的示例。例如，终端20可以代替服务器10具有声音分析单元102的功能。在这种情况下，终端20还可以对声音文本聊天用户的讲话内容进行分析。此外，终端20可以具有感情估计单元104的部分或全部功能。

此外，根据每个上述实施方式的操作的步骤不一定必须按照所描述的顺序执行。例如，可以适当地改变执行这些步骤的顺序。此外，这些步骤可以部分地并行执行或单独执行，而不是按时间顺序执行。

此外，根据上述每个实施方式，可以提供一种计算机程序，其用于使硬件(例如CPU150、ROM 152和RAM 154)执行与根据上述每个实施方式的服务器10的每个组件的功能相当的功能。此外，还提供了其上记录有该计算机程序的记录介质。

此外，本说明书中描述的效果仅是说明性或示例性效果，而并非限制性的。也就是说，结合或替代以上效果，根据本公开内容的技术可以根据本说明书的描述实现对于本领域技术人员而言清楚的其他效果。

此外，本技术还可以被如下配置。

(1)

一种信息处理装置，包括：

输出控制单元，所述输出控制单元基于对使用声音输入的第一用户的讲话的检测来控制与来自使用文本输入的第二用户的回复有关的指示所述第一用户的等待状态的信息的输出，

其中，在所述第一用户与所述第二用户之间交换输入的消息。

(2)

根据(1)所述的信息处理装置，其中，指示所述第一用户的等待状态的信息包括消息回复时限。

(3)

根据(2)所述的信息处理装置，还包括：

回复时限计算单元，所述回复时限计算单元基于预定基准来计算所述消息回复时限。

(4)

根据(3)所述的信息处理装置，其中，所述预定基准包括检测到的所述第一用户的所述讲话的特性。

(5)

根据(4)所述的信息处理装置，其中，所述讲话的所述特性包括讲话的音量或语速。

(6)

根据(3)至(5)中任一项所述的信息处理装置，其中，所述预定基准包括基于检测到的所述第一用户的讲话的感情估计的结果。

(7)

根据(3)至(6)中任一项所述的信息处理装置，其中，所述预定基准包括与所述第一用户的状态相关的感测结果。

(8)

根据(3)至(7)中任一项所述的信息处理装置，其中，所述预定基准包括对检测到的所述第一用户的讲话的声音识别结果。

(9)

根据(2)至(8)中任一项所述的信息处理装置，

其中，指示所述第一用户的等待状态的信息包括指示符，以及

所述指示符指示所述消息回复时限与自从所述指示符的显示开始起经过的时间之间的差。

(10)

根据(9)所述的信息处理装置，其中，所述输出控制单元使得所述指示符的显示模式随着自从所述指示符的显示开始起经过的时间而变化。

(11)

根据(1)至(10)中任一项所述的信息处理装置，其中，指示所述第一用户的等待状态的信息包括基于检测到的所述第一用户的讲话的感情估计的结果。

(12)

根据(1)至(11)中任一项所述的信息处理装置，其中，所述输出控制单元还基于对检测到的所述第一用户的讲话的声音识别的结果，使得输出单元开始输出指示所述第一用户的等待状态的信息。

(13)

根据(12)所述的信息处理装置，其中，所述输出控制单元还基于对所述声音识别的结果执行的模态分析的结果，使得所述输出单元开始输出指示所述第一用户的等待状态的信息。

(14)

根据(1)至(13)中任一项所述的信息处理装置，其中，所述输出控制单元在指示所述第一用户的等待状态的信息的输出开始之后，基于来自所述第二用户的消息的输入，使得输出单元结束对指示所述第一用户的等待状态的信息的输出。

(15)

根据(1)至(14)中任一项所述的信息处理装置，其中，所述输出控制单元在指示所述第一用户的等待状态的信息的输出开始之后，基于自从指示所述第一用户的等待状态的信息的输出开始起经过的时间，使得输出单元结束对指示所述第一用户的等待状态的信息的输出。

(16)

根据(1)至(15)中任一项所述的信息处理装置，其中，所述输出控制单元还基于在对所述第一用户的讲话检测之后的来自所述第二用户的文本的输入状态来控制对所述第一用户的反馈声音的输出。

(17)

根据(1)至(16)中任一项所述的信息处理装置，其中，所述输出控制单元还使得输出到所述第一用户的消息的声音的输出形式基于从所述第二用户输入的消息中的关键字的提取而改变。

(18)

根据(1)至(17)中任一项所述的信息处理装置，其中，所述输出控制单元还基于对所述第一用户的讲话的检测来控制对所述第一用户的插入语的声音输出。

(19)

一种信息处理方法，包括

基于对使用声音输入的第一用户的讲话的检测，由处理器控制与来自使用文本输入的第二用户的回复有关的指示所述第一用户的等待状态的信息的输出，

(20)

一种程序，所述程序使计算机用作：

附图标记列表

10 服务器

20 终端

30 通信网络

100、200 控制单元

102 声音分析单元

104 感情估计单元

106 回复时限计算单元

108 输出控制单元

120、230 通信单元

122 存储单元

124 时限计算DB

126 讲话特性系数表

128 感测信息系数表

130 指示代词存在/不存在系数表

132 时间信息系数表

220 声音收集单元

222 操作单元

224 测量单元

226 显示单元

228 声音输出单元

Claims

1.一种信息处理装置，包括：

2.根据权利要求1所述的信息处理装置，其中，指示所述第一用户的等待状态的信息包括消息回复时限。

3.根据权利要求2所述的信息处理装置，还包括：

4.根据权利要求3所述的信息处理装置，其中，所述预定基准包括检测到的所述第一用户的讲话的特性。

5.根据权利要求4所述的信息处理装置，其中，所述讲话的特性包括讲话的音量或语速。

6.根据权利要求3所述的信息处理装置，其中，所述预定基准包括基于检测到的所述第一用户的讲话的感情估计的结果。

7.根据权利要求3所述的信息处理装置，其中，所述预定基准包括与所述第一用户的状态相关的感测结果。

8.根据权利要求3所述的信息处理装置，其中，所述预定基准包括对检测到的所述第一用户的讲话的声音识别的结果。

9.根据权利要求2所述的信息处理装置，

10.根据权利要求9所述的信息处理装置，其中，所述输出控制单元使得所述指示符的显示模式随着自从所述指示符的显示开始起经过的时间而变化。

11.根据权利要求1所述的信息处理装置，其中，指示所述第一用户的等待状态的信息包括基于检测到的所述第一用户的讲话的感情估计的结果。

12.根据权利要求1所述的信息处理装置，其中，所述输出控制单元还基于对检测到的所述第一用户的讲话的声音识别的结果，使得输出单元开始输出指示所述第一用户的等待状态的信息。

13.根据权利要求12所述的信息处理装置，其中，所述输出控制单元还基于对所述声音识别的结果执行的模态分析的结果，使得所述输出单元开始输出指示所述第一用户的等待状态的信息。

14.根据权利要求1所述的信息处理装置，其中，所述输出控制单元在指示所述第一用户的等待状态的信息的输出开始之后，基于来自所述第二用户的消息的输入，使得输出单元结束对指示所述第一用户的等待状态的信息的输出。

15.根据权利要求1所述的信息处理装置，其中，所述输出控制单元在指示所述第一用户的等待状态的信息的输出开始之后，基于自从指示所述第一用户的等待状态的信息的输出开始起经过的时间，使得输出单元结束对指示所述第一用户的等待状态的信息的输出。

16.根据权利要求1所述的信息处理装置，其中，所述输出控制单元还基于在对所述第一用户的讲话的检测之后的来自所述第二用户的文本的输入状态来控制对所述第一用户的反馈声音的输出。

17.根据权利要求1所述的信息处理装置，其中，所述输出控制单元还使得输出到所述第一用户的消息的声音的输出形式基于从所述第二用户输入的消息中的关键字的提取而改变。

18.根据权利要求1所述的信息处理装置，其中，所述输出控制单元还基于对所述第一用户的讲话的检测来控制对所述第一用户的插入语的声音输出。

19.一种信息处理方法，包括：

20.一种程序，所述程序使计算机用作：