CN108886599A

CN108886599A - 信息处理装置、信息处理方法和程序

Info

Publication number: CN108886599A
Application number: CN201680070470.2A
Authority: CN
Inventors: 阪井祐介; 泉原厚史; 三木大辅
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2015-12-11
Filing date: 2016-09-20
Publication date: 2018-11-23
Anticipated expiration: 2036-09-20
Also published as: CN108886599B; US10834359B2; JPWO2017098772A1; EP3389260A4; WO2017098772A1; US20200077048A1; US10511807B2; US20180352193A1; EP3389260A1; JP6798502B2

Abstract

为了提供一种信息处理装置、信息处理方法以及程序，该信息处理装置、信息处理方法以及程序能够利用与通信伙伴连接的三维虚拟空间在听觉上呈现所述空间内的距离，并且使得实现更舒适的通信。本发明公开了一种信息处理装置，包括：接收单元，其接收来自通信目的地的数据；以及再现控制单元，其根据布置在虚拟三维空间中的通信源与通信目的地之间的分离距离执行控制，以使得针对不同类型的声源以不同的输出值从通信源的空间中的声音输出单元再现来自通信目的地的空间的声音数据。

Description

信息处理装置、信息处理方法和程序

技术领域

本公开涉及信息处理装置、信息处理方法和程序。

背景技术

近年来，已经提出了一种视频会议系统，其使用通信技术的发展以允许存在多个参与者的两个地方之间的对话。具体地，例如，在每个地方设置显示装置、相机、MIC和扬声器。在其中一个地方分别捕获和拾取的视频和声音数据被从安装在其他地方的显示装置和扬声器实时输出。

关于这样的双向通信技术，例如，下面的专利文献1提出了一种系统，该系统能够防止侵入用户的隐私，并且允许当由内容数据指示的内容被共享并且与通信伙伴执行对话时，选择性地共享内容。

另外，下面的专利文献2提出能够基于用户的状态信息来确定用户与通信伙伴之间的通信请求的程度，并且执行对彼此方便的舒适通信。利用这种安排，能够防止用户接收不方便的呼叫，诸如由丢失状态信息的伙伴进行的呼叫以及由伙伴进行的强制呼叫。

引文列表

专利文献

专利文献1：JP 5707824B

专利文献2：JP 4645355B

发明内容

技术问题

然而，在上述专利文献1中，能够选择性地与通信伙伴分享内容，但是没有考虑空间之间的距离，诸如到通信伙伴的距离或间隔。

另外，上述专利文献2对于连接空间的时机(即呼叫时机)采取了适当的措施，但是也没有提及关于空间之间的距离的任何事情。

然后，本公开提出了一种信息处理装置、控制方法和程序，其能够通过使用用于与通信伙伴的连接的空间在虚拟三维空间中在听觉上产生距离，并且实现更舒适的通信。

问题的解决方案

根据本公开，提出了一种信息处理装置，包括：接收单元，被配置为接收来自通信目的地的数据；以及再现控制单元，被配置为根据布置在虚拟三维空间中的通信源与通信目的地之间的分离距离执行控制，以使得针对每种声源类型以不同的输出值从通信源的空间中的声音输出单元再现通信目的地的空间的声音数据。

根据本公开，提出了一种信息处理方法，包括由处理器：接收来自通信目的地的数据；以及根据布置在虚拟三维空间中的通信源与通信目的地之间的分离距离执行控制，以使得针对每种声源类型以不同的输出值从通信源的空间中的声音输出单元再现通信目的地的空间的声音数据。

根据本公开，提出了一种程序，该程序用于使计算机充当：接收单元，被配置为接收来自通信目的地的数据；以及再现控制单元，被配置为根据布置在虚拟三维空间中的通信源与通信目的地之间的分离距离执行控制，以使得针对每种声源类型以不同的输出值从通信源的空间中的声音输出单元再现通信目的地的空间的声音数据。

发明的有益效果

如上所述，根据本公开，能够通过使用用于与通信伙伴的连接的空间在虚拟三维空间中在听觉上产生距离，并且实现更舒适的通信。

注意，上述效果不一定是限制性的。利用或代替上述效果，可以实现本说明书中描述的效果中的任何一种效果或可以从本说明书掌握的其他效果。

附图说明

图1是示出根据本公开的实施例的远程出席系统的概况的图。

图2是示出根据本实施例的通信控制装置的配置的示例的框图。

图3A是描述根据本实施例的三维空间中的空间之间的距离的图。

图3B是描述根据本实施例的三维空间中的空间之间的距离的图。

图4是示出根据本实施例的用户的连接请求等级的计算公式的示例的图。

图5是示出根据本实施例的最佳连接程度的计算公式的示例的图。

图6是描述根据本实施例的与三维空间中的空间之间的距离相对应的音量控制的图。

图7是用于描述根据本实施例的空间距离为零的显示示例和音频控制的图。

图8是用于描述根据本实施例的空间距离为D1的显示示例和音频控制的图。

图9是用于描述根据本实施例的空间距离为D2的显示示例和音频控制的图。

图10是示出根据本实施例的通信控制处理的序列图。

图11是示出根据本实施例的通信控制处理的序列图。

图12是示出根据本实施例的声源分离处理的流程图。

图13是示出根据本实施例的声源再现处理的流程图。

具体实施方式

在下文中，将参照附图详细描述本公开的优选实施例(一个或多个)。注意，在本说明书和附图中，用相同的附图标记表示具有基本相同的功能和结构的结构元件，并且省略对这些结构元件的重复说明。

另外，将按照以下顺序进行描述。

1.根据本公开的实施例的信息处理装置的概况

2.通信控制装置的配置

3.空间信息的输出示例

4.操作处理

4-1.通信控制处理

4-2.声源分离处理

4-3.声源再现处理

5.结论

《1.根据本公开的实施例的信息处理装置的概况》

将参照图1描述根据本公开的实施例的远程出席系统1的概况。根据本实施例的远程出席系统1通过使用视频/声音/其它信息通道来连接彼此分开的空间，并且使得能够感觉好像地方被连接并且存在伙伴。例如，当父母与孩子分开居住时，根据本实施例的远程出席系统1使得能够使他们的起居室空间似乎经由窗户或门连接。一旦他们的起居室空间被连接，用户就能够过上大致掌握伙伴空间状况(例如孩子的状况或父母的状况)的生活。

这里，一般的视频聊天技术能够切换0和1，诸如当通过视频声音通道进行远程通信时显示/不显示视频或开启/关闭声音(静音)，但不能精细调整连接程度。因此，一般的视频聊天技术不能满足用户的需求，即用户不希望以真实的存在感持续地与伙伴连接，而是希望感受伙伴的状况。另外，用户需要手动切换连接状态。从运营成本的角度来看，也防止使用频率的增加。

另外，作为远程出席通信装置能够逐渐调整连接程度的情况，可以想到的是例如对伙伴的起居室视频执行诸如模糊处理(模糊)或掩模处理(阻挡)的二维平面滤波处理。但是，不可能用音频来表达诸如深度或方向的距离感。

然后，在本实施例中，使用虚拟三维空间来连接空间，并且控制连接空间之间的距离，由此使得能够实现更舒适的通信并且为用户提供令人愉快的连接程度。能够通过再现像三维空间这样的音频空间，来在听觉上产生空间之间的距离。根据本实施例的远程出席系统1针对每种声源类型在虚拟三维空间坐标中布置和再现声音数据，或者再现与空间相关联的声音数据，从而使得在听觉上感觉用户侧的空间和伙伴侧的空间之间的“间隔”(在本文中也被称为“距离”)。例如，在伙伴侧的起居室空间在虚拟三维空间中靠近时，在另一侧的房间中可听到微小的噪音或伙伴用户的嗓音，并且然后能够执行自然的交谈。相反，在伙伴侧的起居室空间越远时，噪音或嗓音的音量就越低。相反，给定声音数据的音量随着用户侧和伙伴侧的起居室空间之间的空间(这里称为“庭院空间”)的环境声音而变得更高。这允许用户感觉到令人愉快的听觉间隔。

另外，还能够使得视觉地感觉到空间之间的距离。例如，显示示出通信目的地的视频(这里是起居室空间的视频)被布置在虚拟三维空间中的图像，从而使得能够使用户感觉好像该伙伴是远离给定的距离。

另外，根据用户状态等自动且持续地最优化空间之间的距离，从而使得能够减少用户操作的负担。

如图1所示，这样的根据本实施例的远程出席系统1包括：通信控制装置10A、10B和10C以及处理服务器30。它们经由网络20彼此连接。

通信控制装置10A、10B和10C均包括输入单元。通信控制装置10A、10B和10C分别获取用户A、用户B和用户C所在的空间的信息，并将该信息发送给另一通信控制装置10或处理服务器30。此外，通信控制装置10A、10B和10C均包括输出单元，并输出从另一通信控制装置10或处理服务器30接收的信息。注意，图1所示的示例示出三个通信控制装置10，但是本实施例不限于此。

处理服务器30执行用于在通信控制装置10A至10C中的任意两个或更多个之间的双向通信的同步处理，或者基于来自两者的连接请求等级执行分离距离的计算/控制等。注意，可以在通信控制装置10A、10B和10C中的每一个中执行同步处理或者分离距离的计算/控制等，并且远程出席系统1可以被配置为省略处理服务器30。

《2.通信控制装置的配置》

接下来，将参照图2描述根据本实施例的通信控制装置10的配置。图2是示出根据本实施例的通信控制装置10的配置的示例的框图。

如图2所示，通信控制装置10包括输入单元101、空间信息处理单元102、状态确定单元103、空间距离控制单元104、操作界面(I/F)105、3D庭院空间生成单元106、通信单元107、空间信息生成单元108、输出单元109、存储单元110、发送信息生成单元111、声源确定DB(数据库)112和声音DB113。

输入单元101具有接收空间信息的功能。例如，输入单元101由相机1011、MIC(麦克风的缩写)1012和传感器1013实现。还可以包括多个相机1011。多个相机1011对空间(例如起居室)的内部进行成像，并获取捕获图像。另外，可以包括多个MIC 1012。多个MIC 1012拾取空间中的声音，以及空间(例如，下一个房间、走廊、房子外部等)周围的环境声音以获取声音数据。另外，传感器1013具有感测空间或空间周围区域内部的各种信息的功能。传感器1013的示例包括温度传感器、湿度传感器、照度传感器、运动传感器、门开关传感器等。

空间信息处理单元102从输入单元101获取各种空间信息。空间信息处理单元102准备数据，使得状态确定单元103能够使用该数据作为用于状态确定的材料，并且输出数据。准备数据是指例如噪声处理、图像分析、物体识别、声音分析等。此外，空间信息处理单元102基于所获取的空间信息来识别用户。为了识别用户，假定识别该空间中的个人用户，或者识别用户的位置(用户在房间中的位置等)、姿态(用户是站着、坐着还是躺着等)、情绪(用户是快乐还是悲伤等)、动作(用户正在做晚饭、看电视、看书等)、忙碌程度(用户是否在忙碌等)。另外，空间信息处理单元102基于所获取的空间信息来识别环境。为了识别环境，假定识别空间的当前时间(早晨、中午、晚上或午夜)、亮度(房间的亮度或来自窗户的光)、温度、音频(在空间中拾取的声音)、区域(空间存在的地方)、有序程度(房间被打扫的程度)等。

将进一步描述由空间信息处理单元102执行的声音分析。根据本实施例的空间信息处理单元102执行用于再现音频空间(声音图像)的声源分离，并且通过生成音频来创建声音数据库。例如，空间信息处理单元102针对每种声源将声音数据和由设置在用户侧空间(例如，起居室空间)内部或外部的MIC 1012(例如，阵列MIC)拾取的声音数据分开。每种声源的声音数据的示例包括每个用户的发出声音数据、脚步数据、每个物体的物体声音数据(移动家具的声音、水龙头的声音、餐具的金属声音等)、环境声音数据(室外环境声音等)等。另外，空间信息处理单元102不仅执行声源分离，而且还分析分离的声音数据的声源位置(进入方向等)。例如，可以基于存储在声源确定DB 112中的声音数据、声音的频率或特性、距离、声音的进入方向或者由相机1011拍摄的捕获图像来进行声源确定。另外，空间信息处理单元102将经过声源分离的声音数据与讲话者或事件相关联地存储在声音DB 113中以创建数据库。存储在声音DB 113中的声音数据不限于实时获取的声音数据，而可以是例如利用音频生成算法等生成的声音数据。另外，在声音DB 113中，由枪MIC拾取的室内特征声音(例如，移动家具的声音、开或关前门的声音、上楼梯或下楼梯的声音、时钟的钟声等)可以被预先登记。

空间信息处理单元102将由MIC 1012拾取的声音数据和经过声源分离的声音数据输出到发送信息生成单元111和状态确定单元103。另外，空间信息处理单元102可以预先用在声音DB 113中登记的声音数据替换由MIC 1012拾取的声音数据，并且将声音数据输出到发送信息生成单元111和状态确定单元103。此外，空间信息处理单元102可以从声音DB113提取与由相机1011、MIC 1012或传感器1013感测到的室内事件(例如，支持IoT的装置的开(ON)/关(OFF)操作或状态改变、上楼梯或下楼梯、开门或关门等)相关联的声音数据或者利用预定的音频生成算法生成声音数据，并将声音数据输出到发送信息生成单元111和状态确定单元103。

状态确定单元103基于由空间信息处理单元102获取并输出的信息来确定空间的状态或用户的状态(即，用作通信源的空间的上下文)。例如，状态确定单元103基于空间信息处理单元102的环境识别结果和用户识别结果来确定空间的状态或用户的状态。注意，用作通信源的空间的上下文可以包括用户的状态、用户所在的真实空间的状态、时间、季节、天气、地方或与伙伴用户的关系。

空间距离控制单元104具有控制三维空间中的连接空间之间的距离(深度分离距离)的功能。在本实施例中，从通信目的地的空间获取的信息被以适当的距离布置在三维空间中以示出连接的深度。这实现了令人愉快的连接状态。这里，参考图3A和3B，将描述根据本实施例的三维空间中的空间之间的距离。在图3A和3B所示的示例中，将描述基于显示在通信源的显示器1091A上的窗框40在三维空间中沿深度方向以预定距离布置伙伴空间图像41的情况。

图3A的上部分示出布置示例400a，其中在三维空间中以与窗框40相距距离为0布置伙伴空间图像41。在这种情况下，伙伴空间图像41被显示为直至窗框40，并且用户能够经由一个窗户感觉伙伴的空间正好在用户前面。图3A的下部分示出布置示例400b，其中以与窗框40相距一定距离布置伙伴空间图像41。在这种情况下，沿深度方向以与窗框40相距一定距离显示伙伴空间图像41。由于伙伴的空间被定位为稍微分开，因此与以距离为零的用户感觉相比，用户感觉更少的心理上的不情愿。接下来，图3B的上部分示出布置示例400c，其中以更多的距离布置伙伴空间图像41。在这种情况下，由于伙伴者的空间被分开定位，因此与以图3A的下部分所示的距离的用户感觉相比，用户感觉更少的心理上的不情愿。接下来，图3B的下部分示出布置示例400d，其中以比图3B的上部分中的布置示例400c更多的距离布置伙伴空间图像41。在这种情况下，由于伙伴的空间被更加分开地定位，因此与以图3B的上部分所示的距离的用户感觉相比，用户感觉更少的心理上的不情愿。

例如，基于用户的连接请求等级和通信目的地用户的连接请求等级来调整到伙伴空间的距离。首先，例如，由空间距离控制单元104基于从状态确定单元103输出的确定结果(通信源的空间的上下文)计算用户的连接请求等级。这里，图4例示了用户的连接请求等级的计算公式的示例。如图4的公式1所示，可以通过将用户元素(用户的状态)乘以环境元素(空间的状态)来计算连接请求等级。例如，在用户是母亲并且状态示出用户正在洗脸并且希望检查通信目的地空间的状况，并且空间状态示出空间内部嘈杂、时间在打扫之前、以及是晴天的情况下，连接请求等级的强度被计算为0到100的数值。注意，在本实施例中也能够计算“间隔”和“清晰度”作为连接请求等级，如图4所示。也就是说，“间隔”是指三维空间中的分离距离。输出“间隔”以保持到所连接的伙伴的适当距离使得能够实现令人愉快的连接状态。“清晰度”是指通信目的地空间的视频可见的程度。在本实施例中，模糊或阻挡使得能够防止伙伴的视频看起来清晰。视频可见的程度被称为“清晰度”。

通信目的地用户的连接请求等级经由通信单元107从用作通信目的地的通信控制装置10发送。

然后，空间距离控制单元104基于所计算的用户的连接请求等级和所接收的通信目的地用户的连接请求等级来计算最佳连接程度。这里，图5例示了最佳连接程度的计算公式的示例。如图5的公式2所示，例如，在计算用户A和用户B的连接程度的情况下，将用户A的连接请求等级乘以用户B的连接请求等级以计算最佳连接程度。在本实施例中，随着最佳连接程度越强，空间之间的距离就越短，并且视频看起来就越清晰。因此，以真实的存在感来进行连接。随着最佳连接程度越低，空间之间的距离就变得越长，并且视频就看起来越不清晰。因此，以不太真实的存在感来进行连接。注意，这里将计算公式描述为“连接程度”被认为包括“间隔”和“清晰度”两者的示例。然而，本实施例不限于此。可以将“连接程度”被认为仅包括“间隔”来进行计算。

操作界面(I/F)105接收来自用户的操作输入，并且将操作输入输出到空间距离控制单元104或3D庭院空间生成单元106。这使得用户能够可选地设置例如“用户的连接请求等级”或设置下面将描述的空间的场景。另外，用户对布置在三维空间中的各种物体的操作输入也是可能的。

3D庭院空间生成单元106参照根据由空间距离控制单元104设置的到通信伙伴的距离而布置在三维空间中的通信目的地的空间的视频与作为通信源用户侧的前景侧之间的3D空间作为“3D庭院空间”，并生成空间。在“3D庭院空间”中，反映了来自通信源或通信目的地的信息。此外，还能够在“3D庭院空间”中布置指定的物体。这使得能够显示似乎通过虚拟庭院连接到通信伙伴的空间的屏幕。另外，在庭院空间中反映通信伙伴的用户状态、伙伴空间的周边信息等使得能够间接地识别伙伴的状态。

发送信息生成单元111能够调整经由通信单元107发送到通信目的地的数据量。在本实施例中，根据三维空间中的通信源和通信目的地之间的距离来控制在通信目的地中再现的声音数据的输出值。因此，例如，避免发送未被在通信目的地中再现的声音数据使得能够降低通信成本，并且保护用户的隐私。具体而言，例如，在由空间距离控制单元104设置的与最佳连接程度对应的距离长，并且在三维空间中通信源远离通信目的地的情况下，显示在通信目的地中的视频小，并且室内声音数据不被再现。因此，发送信息生成单元111生成低分辨率的视频并将该视频输出到通信单元107。发送信息生成单元111停止将声音数据输出到通信单元107。

另外，在通信伙伴侧具有与空间中的事件相对应的声音数据的情况下，发送信息生成单元111还能够仅将指示事件的数据输出到通信单元107并且使通信单元107将数据发送到通信目的地。

通信单元107经由网络20连接到另一通信控制装置10和处理服务器30，并且发送和接收数据。例如，通信单元107将从空间信息处理单元102输出的空间信息、从空间距离控制单元104输出的空间距离以及从3D庭院空间生成单元106输出的3D庭院空间的信息发送到作为通信目的地的通信控制装置10或处理服务器30。另外，通信单元107接收从作为通信目的地的通信控制装置10或处理服务器30接收的空间信息、空间距离、3D庭院空间的信息等。在本实施例中，可以同步在通信源和通信目的地中显示的3D庭院空间和三维空间中的距离。另外，通信单元107还能够接收由处理服务器30从网络上的相关服务服务器获取的信息(天气信息、新闻、日程信息等)，或者直接从网络上的相关服务服务器接收信息。

空间信息生成单元108基于由3D庭院空间生成单元106生成的3D庭院空间和经由通信单元107接收的通信目的地的空间的视频，生成空间信息并将空间信息发送到输出单元109。例如，空间信息生成单元108生成通过组合经由通信单元107接收到的通信目的地的空间的视频和通过3D庭院空间生成单元106生成的3D庭院空间而获得的空间图像信息，并且执行控制以使得空间图像信息被显示在显示器1091上。

另外，空间信息生成单元108生成与空间距离对应的再现音频空间(声音图像)用的空间音频信息，并且执行对通过扬声器1092的再现的控制。例如，空间信息生成单元108根据三维空间中的通信源空间和通信目的地空间之间的距离D设置经由通信单元107接收到的通信目的地的空间中的室内语音和室内噪声以及与由3D庭院空间生成单元106生成的3D庭院空间对应的庭院环境声音的音量。这里，参照图6，将描述根据本实施例的与三维空间中的空间之间的距离相对应的音量控制。

在图6所示的示例中，在空间A和空间B之间的距离为D1的情况下，室内语音和室内噪声的音量高，并且庭院环境声音的音量低。随着距离D越长(越大)，室内语音和室内噪音的音量变低，并且庭院环境声音的音量变高。另外，在距离D越短(越小)的情况下，室内噪声的音量低于室内语音的音量。但是，如图6所示，当距离达到一定值时，室内噪声的音量高于室内语音的音量。图6所示的音量曲线图是示例。然而，在本实施例中，按照这种方式改变根据虚拟空间中的距离再现的声音(音量)作为三维空间类型的音频处理使得能够在听觉上感觉到空间距离并实现令人愉快的连接。

另外，空间信息生成单元108还对每个声源的声音数据执行声像定位处理，从而使得能够更有效地再现三维音频空间。

输出单元109具有将由空间信息生成单元108生成的空间信息呈现给通信源的用户的功能。例如，输出单元109由显示器1091、扬声器1092或指示器1093实现。

这里，将描述根据本实施例的扬声器1092的配置示例。在本实施例中，在再现音频空间时，能够通过虚拟声源定位技术等以单声道、立体声或5.1声道环绕扬声器配置等来呈现声音。另外，使用利用扬声器阵列的波前合成扬声器等使得能够准确地定位伙伴用户的声音或通信伙伴的起居室空间中的噪声的声像，并且还能够利用平面波再现来自整个参考平面(例如，安装有显示器1091的墙壁)的环境声音。

另外，在本实施例中，由立体声扬声器等实现且能够定位声像的扬声器与能够呈现来自整个参考平面的未定位的平面声音的平板型扬声器等的组合可以用作配置。

存储单元110存储经由通信单元107发送和接收的数据。此外，在图2所示的示例中，通信单元107被连接，但是本实施例不限于此。存储单元110可以用作通信控制装置10中包括的每个组件的存储区域。

《3.空间信息的输出示例》

如上所述，在本实施例中，以与基于三维空间中的通信源和通信目的地两者的连接请求等级的连接程度对应的距离(分离距离)布置伙伴空间图像41。声音也根据距离而改变。这里，将参考图7至9描述其中分离距离从分离距离为零的情况开始逐渐增加(图6所示的距离D1和距离D2)的通信源的显示器1091A和扬声器1092的输出示例。

图7是示出根据本实施例的空间距离为零的输出示例的图。如图7所示，窗框40显示在安装在用户A所在的空间的墙壁上的显示器1091A上。伙伴空间图像41被显示为直到窗框40的内侧。伙伴空间图像41例如是伙伴用户B所在的起居室的捕获图像。例如，视频是在伙伴空间中捕获的实时视频。另外，如图7所示，相机1011被安装在显示器1091A的周围。

此外，如图7所示，立体声扬声器1092-1A被安装在显示器1091A的两侧。另外，平板型扬声器1092-2A被安装在安装有显示器1091A的整个墙壁上。在本实施例中，在空间距离为零的情况下，执行声像定位和音量控制，使得通信目的地中的室内语音60和室内噪声61能够经由出现在显示器1091A中的窗框40从正前面听到，并且立体声扬声器1092-1A执行再现。

注意，虽然未示出，但MIC 1012也可以安装在显示器1091A周围。

图8是例示根据本实施例的空间距离为D1的显示示例的图。如图8所示，在与窗框40分离的背后显示伙伴空间图像41使得用户在视觉上感觉到与伙伴的距离，并且在一些情况下提供舒适的连接程度，而不是使用户感觉到正好出现在用户前面。伙伴空间图像41例如与三维空间中的虚拟建筑物51的窗户部分组合。另外，在用户A和伙伴空间图像41之间存在3D庭院空间S1。用户A能够感觉到用户A经由3D庭院空间S1连接到伙伴空间。空间距离和3D庭院空间也在伙伴空间中同步。伙伴侧显示器也以相同的空间距离实时显示此侧的视频，并且类似地显示在中间的3D庭院空间。

另外，在图8所示的示例中，通信目的地中的室内语音62和室内噪声63被定位在与到在显示器1091A中出现的窗框40分开的背后显示的伙伴空间图像41的距离对应的音量和声像位置，并被从立体声扬声器1092-1A再现。此外，由平板型扬声器1092-2A从整个墙壁再现与3D庭院空间S1对应的庭院声音64和庭院声音65。这允许用户在听觉上感觉到与伙伴的距离，并且在某些情况下提供舒适的连接程度，而不是让用户感觉到正好出现在用户前面。

图9是例示根据本实施例的空间距离为D2的显示示例的图。空间距离D2在深度方向上比空间距离D1更长。相应地，如图9所示，伙伴空间图像41与窗框40更分开地显示，并且用户在视觉上更强烈地感觉到与伙伴的距离。另外，对于音频，由平板型扬声器1092-2A以比图8所示的情况更大的音量从整个墙壁再现庭院声音66和庭院声音67。同时，伙伴空间中的室内语音或室内噪音不被再现。因此，用户也能够比在图8所示的情况下在听觉上更强烈地感觉到与伙伴的距离。

在上述的图7至图9中，作为通信伙伴的用户住在森林的相反侧的木屋中的场景也适用。然而，本实施例不限于此。可以应用各种场景。另外，场景可以由通信源用户或通信目的地用户选择，或者由系统侧自动决定。

《4.操作处理》

接下来，将参照图10至13具体描述根据本实施例的操作处理。

<4-1.通信控制处理>

图10和图11是各例示根据本实施例的通信控制处理的序列图。这里，作为示例，将描述通信控制装置10A是通信源(空间A)，通信控制装置10B是通信目的地(空间B)，并且经由处理服务器30发送和接收数据的情况。

如图10所示，首先，通信控制装置10A针对通信控制装置10B对连接目的地进行呼叫(步骤S103)。一旦从通信控制装置10B接收到连接许可(步骤S106)，通信控制装置10A就创建会话(步骤S109)。

接下来，通信控制装置10A通过空间信息处理单元102获取空间信息(步骤S112)，并且通过状态确定单元103确定用户A的状态和空间A的状态(步骤S115)。

接下来，通信控制装置10A将空间信息和状态信息从通信单元107发送到通信控制装置10B(步骤S118)。

同时，类似地，通信控制装置10B侧也获取空间信息(步骤S121)并确定用户B的状态和空间B的状态(步骤S124)。通信控制装置10B侧将各种信息发送给通信控制装置10A(步骤S127)。

接下来，通信控制装置10A通过空间距离控制单元104计算用户A的连接请求等级(步骤S130)，并将连接请求等级发送到处理服务器30(步骤S133)。用户A的连接请求等级可以是由用户A可选地输入的，或者可以基于用户的状态或空间的状态的确定结果来计算。

接下来，通信控制装置10B侧类似地通过空间距离控制单元104计算用户B的连接请求等级(步骤S136)，并将连接请求等级发送到处理服务器30(步骤S139)。

接下来，处理服务器30基于用户A的连接请求等级和用户B的连接请求等级来调整距离(步骤S142)。也就是说，处理服务器30基于用户A的连接请求等级和用户B的连接请求等级来计算最佳连接程度。可以利用上面参照图5描述的公式2来计算连接程度。

接下来，处理服务器30将计算出的距离发送到通信控制装置10A和10B中的每个(步骤S145和S148)。

接下来，通信控制装置10A和10B使用空间距离控制单元104来最佳地控制空间距离(步骤S151和S154)。具体而言，空间距离控制单元104将从处理服务器30发送的距离设置为空间距离。

接下来，处理服务器30将场景信息发送到通信控制装置10A和10B中的每个(步骤S157和S163)。发送的场景信息可以是由用户A或用户B选择的场景的信息，或者由处理服务器30自动决定的场景的信息。

接下来，通信控制装置10A通过3D庭院空间生成单元106使用从处理服务器30发送的场景信息、上面在步骤S127中接收的空间信息、状态确定信息来生成3D庭院空间(步骤S160)。另外，在发送了相关信息(天气信息、伙伴空间的照度、炊具的状态、伙伴用户的日程信息、行动历史等)的情况下(步骤S169)，3D庭院空间生成单元106还在3D庭院空间中反映该相关信息(步骤S172)。

同时，类似地，通信控制装置10B侧也生成3D庭院空间(步骤S166)，并在3D庭院空间中反映接收到的相关信息(步骤S175和S178)。

接下来，通信控制装置10A从输出单元(显示器或扬声器)呈现由空间信息生成单元108生成的3D庭院空间、伙伴空间图像(空间B的视频)以及包括音频信息(空间B中的声音和噪声，以及与3D庭院空间对应的庭院声音)的空间信息(步骤S181)。同时，通信控制装置10B侧从输出单元(显示器或扬声器)类似地呈现3D庭院空间、伙伴空间图像(空间A的视频)和包括音频信息(空间A中的声音和噪声，以及与3D庭院空间对应的庭院声音)的空间信息(步骤S184)。

上述3D庭院空间和每个伙伴空间图像可以由处理服务器30同步，并以相同的距离感在相同的定时显示在每个显示器上。此外，与3D庭院空间对应的庭院声音也可以由每个扬声器以相同的距离感在相同的定时再现。

接下来，在更新一些信息的情况下(步骤S187/是)，通信控制装置10A重复从步骤S112开始的处理。另外，在更新一些信息的情况下(步骤S190/是)，通信控制装置10B也重复从步骤S121开始的处理。

然后，一旦通信控制装置10A被指示完成连接(步骤S193/是)，通信控制装置10A就检查通信控制装置10B是否完成连接(步骤S196)。一旦从通信控制装置10B接收到完成连接的许可(步骤S199)，通信控制装置10A就断开会话(步骤S202)。

以上描述了根据本实施例的通信控制处理。注意，这里，作为示例，由处理服务器30执行同步处理、计算最佳连接程度、发送场景信息等。然而，本实施例不限于此。通信控制装置10也能够执行这些类型的处理。

<4-2.声源分离处理>

接下来，将参照图12描述对由MIC 1012拾取的声音的声源分离处理。图12是例示根据本实施例的声源分离处理的流程图的图。

如图12所示，首先，通信控制装置10的空间信息处理单元102获取在空间中拾取的声音的数据(步骤S203)，并执行声源分离并做出确定(步骤S206)。具体而言，空间信息处理单元102确定经过声源分离的声音数据的进入方向、音量、特性以及声源位置。此时，空间信息处理单元102可以参考声源确定DB 112。

接下来，空间信息处理单元102将声源位置与声音数据相关联，并将声源位置和声音数据登记在声音DB113中(步骤S206)。可以与通信伙伴共享声音DB 113。

接下来，空间信息处理单元102经由通信单元107将经过声源分离的声音数据连同确定结果一起发送到伙伴用户侧(通信目的地)(步骤S212)。

<4-3.声源再现处理>

接下来，将参照图13描述由扬声器1092执行的声源再现处理。图13是示出根据本实施例的声源再现处理的流程图的图。

如图13所示，首先，通信控制装置10的空间信息生成单元108生成空间信息(步骤S303)。空间信息是基于从通信目的地接收的空间信息，以及从与通信目的地用户共享的声音DB113提取的与通信目的地空间中的事件相关联的声音数据生成的。

接下来，空间信息生成单元108指示输出单元109呈现空间信息(步骤S306)。

接下来，输出单元109检查用于再现的声源组的属性(音量、声源位置、效果(诸如方向性的存在或不存在))和对应的扬声器(步骤S309)。

接下来，在对应的扬声器的类型是立体声的情况下(步骤S312/立体声)，输出单元109以与立体声扬声器相对应的预定属性输出声音数据(步骤S318)。同时，在对应的扬声器的类型是平板型的情况下(步骤S312/平板型)，输出单元109以与平板型扬声器相对应的预定属性输出声音数据(步骤S315)。

《5.结论》

如上所述，在根据本公开的实施例的信息处理系统中，能够通过使用用于与通信伙伴连接的空间在虚拟三维空间中在听觉上产生距离，并且实现更舒适的通信。

另外，将安装在通信源的空间中的显示器视为窗户(或门)，并且将布置有通信伙伴的空间的视频的空间图像显示在三维空间中具有预定距离的地方，从而使得能够在视觉上表示与通信伙伴的距离。注意，安装在墙壁上的显示器的宽高比可以根据实际的窗户或门的尺寸来实现。另外，在显示器被视为门的情况下，显示器被布置成使得显示器的下侧位于地板附近，从而使得能够更真实地表示门上方空间的存在。

另外，可以执行控制，使得布置在三维空间中的通信伙伴的空间的视频的显示区域的宽高比与显示器的宽高比相同。

以上参照附图描述了本公开的优选实施例(一个或多个)，而本公开不限于上述示例。本领域技术人员可以在随附权利要求的范围内发现各种变化和修改，并且应该理解，它们自然会落入本公开的技术范围内。

例如，还能够创建用于使上述通信控制装置10或内置在处理服务器30中的诸如中央处理单元(CPU)、只读存储器(ROM)和随机存取存储器(RAM)的硬件执行通信控制装置10或处理服务器30的功能的计算机程序。此外，还提供了一种其中存储有所述计算机程序的计算机可读存储介质。

此外，在本说明书中描述的效果仅仅是说明性或示例性的效果，而不是限制性的。也就是说，具有或代替上述效果，根据本公开的技术可以实现本领域技术人员根据本说明书的描述而清楚的其他效果。

另外，本技术也可以如下配置。

(1)一种信息处理装置，包括：

接收单元，被配置为接收来自通信目的地的数据；以及

再现控制单元，被配置为根据布置在虚拟三维空间中的通信源与通信目的地之间的分离距离执行控制，以使得针对每种声源类型以不同的输出值从通信源的空间中的声音输出单元再现通信目的地的空间的声音数据。

(2)根据(1)所述的信息处理装置，还包括：

距离控制单元，被配置为控制三维空间中的通信目的地与通信源之间的虚拟分离距离，其中，

距离控制单元根据基于来自通信源的连接请求等级和来自通信目的地的连接请求等级而调整的连接程度来控制分离距离。

(3)根据(2)所述的信息处理装置，其中，

根据用户的上下文来计算连接请求等级，所述上下文是基于空间信息确定的。

(4)根据(1)至(3)中任一项所述的信息处理装置，其中，

通信目的地的空间的声音数据是由接收单元从通信目的地接收的声音数据，或者基于由接收单元从通信目的地接收的数据从预定数据库提取的声音数据。

(5)根据(1)至(4)中任一项所述的信息处理装置，其中，

再现控制单元执行控制以使得通信目的地的空间越接近布置在三维空间中的通信源的空间，则通信目的地的空间的发出声音数据和物体声音数据越增加并且通信目的地的空间中的环境声音越减少，并且执行控制以使得通信目的地的空间距离布置在三维空间中的通信源的空间越远，则发出声音数据和物体声音数据越减少并且环境声音越增加。

(6)根据(5)所述的信息处理装置，其中，

再现控制单元执行声像定位控制以使得在对应的声像位置处再现声音数据的物体声音数据和发出声音数据，并且执行控制以使得从通信源的空间的整个基准面再现环境声音。

(7)根据(1)至(6)中任一项所述的信息处理装置，还包括：

声源分离单元，被配置为对从通信源的空间获取的声音数据执行声源分离；以及

发送单元，被配置为将包括经过声源分离的声音数据的数据发送到通信目的地，所述数据是从通信源的空间获取的。

(8)根据(1)至(7)中任一项所述的信息处理装置，还包括：

生成单元，被配置为生成空间图像信息，在所述空间图像信息中，与通信目的地的空间相对应的图像被在三维空间中布置在与分离距离相对应的预定位置处；以及

显示控制单元，被配置为执行控制，以使得所生成的空间图像信息被显示在通信源的空间中的显示单元上。

(9)一种信息处理方法，包括由处理器：

接收来自通信目的地的数据；以及

根据布置在虚拟三维空间中的通信源与通信目的地之间的分离距离执行控制，以使得针对每种声源类型以不同的输出值从通信源的空间中的声音输出单元再现通信目的地的空间的声音数据。

(10)一种程序，使计算机充当：

接收单元，被配置为接收来自通信目的地的数据；以及

附图标记列表

1 远程出席系统

10 (10A至10C)通信控制装置

20 网络

30 处理服务器

40 窗框

41 伙伴空间图像

100 通信控制装置

101 输入单元

1011 相机

1012 MIC

1013 传感器

102 空间信息处理单元

103 状态确定单元

104 空间距离控制单元

105 操作I/F

106 庭院空间生成单元

107 通信单元

108 空间信息生成单元

109 输出单元

1091 显示器

1092 扬声器

1093 指示器

110 存储单元

111 发送信息生成单元

112 声源确定DB

113 声音DB 113

Claims

1.一种信息处理装置，包括：

接收单元，被配置为接收来自通信目的地的数据；以及

2.根据权利要求1所述的信息处理装置，还包括：

3.根据权利要求2所述的信息处理装置，其中，

4.根据权利要求1所述的信息处理装置，其中，

5.根据权利要求1所述的信息处理装置，其中，

6.根据权利要求5所述的信息处理装置，其中，

7.根据权利要求1所述的信息处理装置，还包括：

8.根据权利要求1所述的信息处理装置，还包括：

9.一种信息处理方法，包括由处理器：

接收来自通信目的地的数据；以及

10.一种程序，使计算机充当：

接收单元，被配置为接收来自通信目的地的数据；以及