CN116057928A

CN116057928A - 信息处理装置、信息处理终端、信息处理方法和程序

Info

Publication number: CN116057928A
Application number: CN202180062082.0A
Authority: CN
Inventors: 大西拓人; 大栗一敦; 篠原浩昭; 户村朝子; 佐藤咲月
Original assignee: Sony Interactive Entertainment Inc; Sony Group Corp
Current assignee: Sony Interactive Entertainment Inc; Sony Group Corp
Priority date: 2020-09-10
Filing date: 2021-09-10
Publication date: 2023-05-02
Also published as: JP2023155921A; DE112021004727T5; WO2022054900A1; US20230362571A1

Abstract

根据本技术的一个方面的信息处理装置设置有：存储单元，用于存储与以收听位置为基准的多个位置对应的HRTF数据；以及音像定位处理单元，用于使用与经由网络参与的会话的参与者的发声状况相对应的HRTF数据，对发声者的声音数据执行音像定位处理。本技术可以应用于进行远程会议的计算机。

Description

信息处理装置、信息处理终端、信息处理方法和程序

技术领域

本技术特别涉及一种根据话语情形使话语语音容易听到的信息处理装置、信息处理终端、信息处理方法以及程序。

背景技术

多个远程参与者使用诸如PC的装置召开会议的所谓的远程会议已经变得普遍。通过启动安装在PC中的网页浏览器或专用应用并且访问由为每个会议分配的URL指定的访问目的地，知道该URL的用户可以作为参与者参与会议。

通过麦克风收集的参与者的语音经由服务器发送至由另一参与者使用的装置，以从耳机或扬声器输出。此外，示出由相机成像的参与者的视频经由服务器被发送到由其他参与者使用的装置并被显示在装置的显示器上。

结果，各个参与者可以在看着其他参与者的面部的同时参与对话。

现有技术文献

专利文献

专利文献1：JP 11-331992A

发明内容

技术问题

当多个参与者同时说话时，难以听到语音。

另外，由于只以平面方式输出参与者的语音，因此不可能感觉到音像等，并且难以从语音中获得参与者存在的感觉。

鉴于这种情况做出了本技术，并且本技术的目的是根据话语情况使话语语音容易听到。

问题的解决方案

根据本技术的一个方面的信息处理装置包括：存储单元，存储与以收听位置为基准的多个位置对应的HRTF数据；以及音像定位处理单元，使用通过根据经由网络参与会话的参与者的发声状况的HRTF数据对发声者的声音数据执行音像定位处理。

根据本技术的另一方面的信息处理终端包括：声音接收单元，存储与以收听位置为基准的多个位置对应的HRTF数据；接收通过执行音像定位处理所获得的发声者的声音数据，该声音数据是从信息处理装置发送的，该信息处理装置通过使用根据经由网络参与会话的参与者的发声状况的所述HRTF数据对所述发声者的声音数据执行音像定位处理。

在本技术的一个方面中，存储与以收听位置为基准的多个位置对应的HRTF数据；通过使用根据经由网络参与会话的参与者的发声状况的HRTF数据对发声者的声音数据执行音像定位处理。

在本技术的另一方面中，存储与以收听位置为基准的多个位置对应的HRTF数据；接收通过执行音像定位处理而获得的发声者的声音数据，该声音数据是从信息处理设备发送的，该信息处理设备通过使用根据经由网络参与会话的参与者的发声状况的HRTF数据对发声者的声音数据执行音像定位处理；以及输出发声者的语音。

附图说明

图1是示出根据本技术的实施方式的远距离通信系统的配置实例的示图。

图2是示出声音数据的发送和接收的实例的图。

图3是示出在虚拟空间中用户的位置的实例的平面图。

图4是示出远程会议画面的显示实例的示图。

图5是示出如何听到语音的示例的图。

图6是示出如何听到语音的另一示例的示图。

图7是示出参与会议的用户的状态的图。

图8是示出通信管理服务器的基本处理的流程图。

图9是示出了客户终端的基本处理的流程图。

图10是示出通信管理服务器的硬件构造实例的框图。

图11是示出通信管理服务器的功能构造实例的框图。

图12是示出参与者信息的示例的示图。

图13是示出客户终端的硬件构造实例的框图。

图14是示出了客户终端的功能构造实例的框图。

图15是示出与背景声音设置的调整相关的处理流程的图。

图16是示出了通信管理服务器的控制处理的流程图。

图17是示出关于根据话语情形调整音像定位的处理流程的图。

图18是示出了通信管理服务器的控制处理的流程图。

图19是示出与音像定位处理的动态切换相关的处理流程的示图。

图20是示出了通信管理服务器的控制处理的流程图。

图21是示出了关于音效设置的管理的处理流程的示图。

具体实施方式

在下文中，将描述用于执行本技术的模式。将按照以下顺序给出描述。

1.远程通信系统的配置

2.基本操作

3.各装置的构造

4.音像定位的用例

5.变形例

《远程通信系统的配置》

图1是示出根据本技术的实施方式的远程通信系统的构造实例的示图。

图1中的远程通信系统通过将由会议参与者使用的多个客户终端经由诸如因特网的网络11连接至通信管理服务器1来构造。在图1的示例中，作为PC的客户终端2A至2D被示为作为会议的参与者的用户A至D所使用的客户终端。

其他设备，诸如包括麦克风的声音输入设备和诸如耳机或扬声器的声音输出设备的的智能电话或平板终端，可以用作客终户端。在不需要彼此区分客户终端2A至2D的情况下，客户终端被适当地称为客户终端2。

用户A至D为参与同一会议的用户。注意，参与会议的用户的数量不限于四个。

通信管理服务器1对在线交谈的多个用户所召开的会议进行管理。通信管理服务器1是控制客户终端2之间的语音的发送和接收并且管理所谓的远程会议的信息处理装置。

例如，如图2的上部中的箭头A1所示，通信管理服务器1接收响应于用户A的发声从客户终端2A发送的用户A的声音数据。从客户终端2A发送由设置在客户终端2A的麦克风收集的用户A的声音数据。

如图2中下部的箭头A11至A13所示，通信管理服务器1将用户A的声音数据传输至每个客户终端2B至2D，以输出用户A的语音。在用户A作为发声者发声的情况下，用户B至D成为收听者。在下文中，适当地，将成为发声者的用户称为发声用户，将成为收听者的用户称为收听用户。

类似地，在另一用户发声的情况下，从发声用户使用的客户终端2发送的声音数据经由通信管理服务器1被发送至收听用户使用的客户终端2。

通信管理服务器1管理每个用户在虚拟空间中的位置。虚拟空间例如是虚拟地设定为开会的地点的三维空间。虚拟空间中的位置由三维坐标表示。

图3是示出用户在虚拟空间中的位置的实例的平面图。

在图3的示例中，垂在由矩形框F指示的虚拟空间的大致中央设置了纵向较长的矩形桌T，并且作为桌T周围的位置的位置P1至P4被设置为用户A至D的位置。各用户的正面方向是从各用户的位置朝向桌T的方向。

在会议期间，如图4所示，在每个用户使用的客户终端2的画面上，作为视觉地表示用户的信息的参与者图标与表示召开会议的地点的背景图像重叠显示。其中，参与者图标在画面上的位置即为与虚拟空间中每个用户的位置对应的位置。

在图4的示例中，参与者图标被配置为包括用户面部的圆形图像。参与者图标以与从虚拟空间中设置的基准位置到每个用户的位置的距离对应的尺寸显示。参与者图标I1至I4分别表示用户A至D。

例如，每个用户的位置在用户加入会议时由通信管理服务器1自动设置。虚拟空间中的位置可以由用户自己通过在图4的画面上移动参与者图标等来设置。

通信管理服务器1具有HRTF数据，该HRTF数据是表示在虚拟空间中的每个位置被设置为收听位置时、从多个位置到收听位置的声音传递特性的HRTF(头相关传递函数)的数据。在通信管理服务器1中准备与以虚拟空间中的每个收听位置为基准的多个位置对应的HRTF数据。

通信管理服务器1使用HRTF数据对声音数据执行音像定位处理，使得每个收听用户可以从虚拟空间中的发声用户的位置收听到发声用户的语音，以发送通过执行音像定位处理所获得的声音数据。

如上所述发送到客户终端2的声音数据是通过在通信管理服务器1中执行音像定位处理而获得的声音数据。音像定位处理包括渲染，诸如基于位置信息的基于矢量的振幅平移(VBAP)，以及使用HRTF数据的双耳处理。

即，在通信管理服务器1中处理每个发声用户的语音作为对象音频的声音数据。例如，将由通信管理服务器1中的音像定位处理所生成的L/R双声道的基于声道的音频数据从通信管理服务器1发送至每个客户终端2，并且发声用户的语音从设置在客户终端2中的耳机等输出。

通过根据收听用户的位置与发声用户的位置之间的相对位置关系，使用HRTF数据执行音像定位处理，每个收听用户感觉从发声用户的位置听到发声用户的语音。

图5是示出如何听到语音的示例的图。

聚焦于将位置P1设置为其在虚拟空间中的位置的用户A作为收听，如图5中的箭头所示，通过以位置P2为声源位置，基于位置P2和位置P1之间的HRTF数据执行音像定位处理，从右邻听到用户B的声音。与面向客户终端2A的面部进行对话的用户A的正面是朝向客户终端2A的方向。

并且，通过以位置P3为声源位置，基于位置P3与位置P1之间的HRTF数据进行音像定位处理，从前方听到用户C的声音。通过以位置P4为声源位置，基于位置P4与位置P1之间的HRTF数据执行音像定位处理，从最后方听到用户D的声音。

这同样适用于其他用户是收听用户的情况。例如，如图6所示，用户A的语音被与面部面向客户终端2B进行会话的用户B从近邻听到，但是，用户A的语音被与面部面向客户终端2C进行会话的用户C从正面听到。此外，用户A的语音被其面部面向客户终端2D进行对话的用户D从右后方听到。

如上所述，在通信管理服务器1中，根据每个收听用户的位置与发出用户的位置之间的位置关系生成每个收听用户的声音数据，并且用于输出发声用户的声音。发送给每个收听用户的声音数据是根据每个收听用户的位置与发声用户的位置之间的位置关系而不同地发声的声音数据。

图7是示出参与会议的用户的状态的图。

例如，佩戴耳机参与会议的用户A收听其音像分别位于右邻位置、正面位置和右后位置的用户B至D的语音并且具有对话。如参考图5等描述的，基于用户A的位置，用户B至D的位置分别是右邻位置、正面位置和右后位置。注意，在图7中，用户B至D被着色的事实表示用户B至D不存在于与用户A正在进行会议的空间相同的空间中。

另外，如后所述，诸如鸟鸣音、BGM等背景音也根据由音像定位处理得到的声音数据输出，使音像定位在规定的位置。

要由通信管理服务器1处理的声音不仅包括话语语音，还包括诸如环境声音和背景声音的声音。在下文中，在不需要区分各个声音的类型的情况下，将由通信管理服务器1处理的声音简单地描述为声音。实际上，要由通信管理服务器1处理的声音包括除了语音之外的类型的声音。

由于发声用户的语音是从与虚拟空间中的位置对应的位置听到的，所以即使在存在多个参与者的情况下，收听用户也可容易地区分各个用户的语音。例如，即使在多个用户同时发声的情况下，收听用户也可以区分各个语音。

此外，因为可以立体地感知发声用户的语音，所以收听用户可以从语音获得发声用户存在于音像的位置处的感觉。收听用户可以与另一用户有真实的对话。

《基本操作》

这里，将描述通信管理服务器1和客户终端2的基本操作流程。

<通信管理服务器1的操作>

将参考图8的流程图描述通信管理服务器1的基本处理。

在步骤S1中，通信管理服务器1判断是否已经从客户终端2发送了声音数据，并且等待直到判定已经发送了声音数据为止。

在步骤S1中判定从客户终端2发送了声音数据的情况下，在步骤S2中，通信管理服务器1接收从客户终端2发送的声音数据。

在步骤S3中，通信管理服务器1基于各用户的位置信息进行音像定位处理，为各收听用户生成声音数据。

例如，生成用户A的声音数据，使得当用户A的位置被用作基准时，发声用户的语音的音像被定位在与发声用户的位置相对应的位置。

此外，生成用户B的声音数据，使得当用户B的位置被用作基准时发声用户的语音的音像被定位在与发声用户的位置相对应的位置处。

类似地，以收听用户的位置为基准，利用根据与发声用户的相对位置关系的HRTF数据，生成另一收听用户的声音数据。各收听用户的声音数据是不同的数据。

在步骤S4中，通信管理服务器1向每个收听用户发送声音数据。每次从发声用户所使用的客户终端2发送声音数据时，执行上述处理。

<客户终端2的操作>

将参考图9的流程图描述客户终端2的基本处理。

在步骤S11中，客户终端2判断是否已经输入麦克风声音。麦克风声音是由设置在客户终端2中的麦克风收集的声音。

在步骤S11中判定已经输入麦克风声音的情况下，在步骤S12中，客户终端2将声音数据发送给通信管理服务器1。在步骤S11中判定没有输入麦克风声音的情况下，跳过步骤S12的处理。

在步骤S13中，客户终端2判断是否从通信管理服务器1发送了声音数据。

在步骤S13中判定已发送声音数据的情况下，在步骤S14中，通信管理服务器1接收声音数据以输出发声用户的语音。

在输出发声用户的语音之后，或者在步骤S13中判定未发送声音数据的情况下，处理返回至步骤S11，并且重复执行上述处理。

《每个装置的构造》

<通信管理服务器1的构造>

图10是示出通信管理服务器1的硬件构造实例的框图。

通信管理服务器1包括计算机。通信管理服务器1可包括具有图10中示出的配置的一个计算机或者可包括多个计算机。

CPU 101、ROM 102和RAM 103通过总线104彼此连接。CPU 101执行服务器程序101A来控制通信管理服务器1的整体操作。服务器程序101A是用于实现远程通信系统的程序。

输入/输出接口105进一步连接至总线104。包括键盘、鼠标等的输入单元106和包括显示器、扬声器等的输出单元107连接至输入/输出接口105。

此外，包括硬盘、非易失性存储器等的存储单元108、包括网络接口等的通信单元109、以及驱动可移动介质111的驱动器110被连接到输入/输出接口105。例如，通信单元109经由网络11与由每个用户使用的客户终端2进行通信。

图11是示出通信管理服务器1的功能构造实例的框图。图11所示的至少一些功能单元通过图10中的CPU 101执行服务器程序101A来实现。

在通信管理服务器1中，实现信息处理单元121。信息处理单元121包括声音接收单元131、信号处理单元132、参与者信息管理单元133、音像定位处理单元134、HRTF数据存储单元135、系统声音管理单元136、2-CH混合处理单元137和声音发送单元138。

声音接收单元131使通信单元109接收从发声用户所使用的客户终端2发送的声音数据。由声音接收单元131接收的声音数据被输出到信号处理单元132。

信号处理单元132对从声音接收单元131提供的声音数据适当地执行预定的信号处理，以将通过执行信号处理获得的声音数据输出到音像定位处理单元134。例如，由信号处理单元132执行将发声用户的语音与环境声音分离的处理。除了发出用户的语音之外，麦克风声音还包括环境声音，诸如发出用户所在的空间中的噪声。

参与者信息管理单元133使通信单元109与客户终端2等通信，从而管理作为与会议的参与者有关的信息的参与者信息。

图12是示出参与者信息的示例的示图。

如图12所示，参与者信息包括用户信息、位置信息、设置信息和音量信息。

用户信息是指关于要参与由给定用户建立的会议的用户的信息。例如，用户信息包括用户ID等。例如与用户信息相关联地管理在参与者信息中包括的其他信息。

位置信息是表示在虚拟空间中各用户的位置的信息。

该设置信息是表示与会议相关的设置的内容的信息，例如会议中要使用的背景音的设置。

音量信息是表示在输出每个用户的语音时的音量的信息。

将由参与者信息管理单元133管理的参与者信息提供给音像定位处理单元134。此外，由参与者信息管理部133管理的参与者信息适当提供给系统声音管理部136、2-CH混合处理单元137、声音发送单元138等。如上所述，参与者信息管理单元133用作管理每个用户在虚拟空间中的位置的位置管理单元，并且还用作管理背景音的设置的背景音管理单元。

基于从参与者信息管理部133提供的位置信息，音像定位处理部134从HRTF数据存储部135读出并获得与各用户的位置关系对应的HRTF数据。音像定位处理部134使用从HRTF数据存储单元135读出的HRTF数据，对从信号处理部132提供的声音数据进行音像定位处理，并为各收听用户生成声音数据。

并且，音像定位处理部134使用预定的HRTF数据对从系统声音管理部136提供的系统声音的数据进行音像定位处理。系统声音是由通信管理服务器1生成并且与发声用户的语音一起被收听用户收听到的声音。例如，系统声音包括诸如BGM的背景音和音效。系统声音是与用户语音不同的声音。

即，在通信管理服务器1中，诸如背景音或音效的除了发声用户的语音之外的声音也作为对象音频被处理。另外，还对系统声音的声音数据进行在虚拟空间内的规定位置定位音像的音像定位处理。例如，对背景音的声音数据进行将音像定位在比参与者位置更远的位置的音像定位处理。

音像定位处理单元134将通过执行音像定位处理所获得的声音数据输出到2-CH混合处理单元137。发声用户的声音数据和系统声音的声音数据酌情输出到2-CH混合处理单元137。

HRTF数据存储单元135存储与以虚拟空间中的各个收听位置为基准的多个位置对应的HRTF数据。

系统声音管理单元136管理系统声音。系统声音管理单元136将系统声音的声音数据输出到音像定位处理单元134。

2-CH混合处理单元137对从音像定位处理单元134提供的声音数据执行2-CH混合处理。通过执行2-CH混合处理，生成分别包括发声用户的语音和系统声音的音频信号L和音频信号R的分量的基于声道的音频数据。将通过执行2-CH混合处理获得的声音数据输出到声音发送单元138。

声音发送单元138使通信单元109将从2-CH混合处理单元137提供的声音数据发送到每个收听用户所使用的客户终端2。

<客户终端2的构造>

图13是示出客户终端2的硬件构造实例的框图。

通过将存储器202、声音输入装置203、声音输出设备204、操作单元205、通信单元206、显示器207和传感器单元208连接到控制单元201来构造客户终端2。

控制单元201包括CPU、ROM、RAM等。控制单元201通过执行客户机程序201A来控制客户机终端2的整体操作。客户端程序201A是用于使用由通信管理服务器1管理的远程通信系统的程序。客户端程序201A包括执行发送侧处理的发送侧模块201A-1和执行接收侧处理的接收侧模块201A-2。

存储器202包括闪存等。存储器202存储由控制单元201执行的各种类型的信息，诸如客户端程序201A。

声音输入装置203包括麦克风。由声音输入设备203收集的声音作为麦克风声音输出至控制单元201。

声音输出设备204包括诸如耳机或扬声器的装置。声音输出设备204基于从控制单元201提供的音频信号输出会议参与者的语音等。

在下文中，将酌情基于声音输入设备203是麦克风的假设给出描述。此外，将基于声音输出装置204是耳机的假设给出描述。

操作单元205包括重叠设置在显示器207上的各种按钮和触摸面板。操作单元205向控制单元201输出表示用户操作的内容的信息。

通信单元206是符合诸如5G通信的移动通信系统的无线通信的通信模块、符合无线LAN的通信模块等。通信单元206接收从基站输出的无线电波并且经由网络11与诸如通信管理服务器1的各种装置通信。通信单元206接收从通信管理服务器1发送的信息，以将信息输出到控制单元201。此外，通信单元206将从控制单元201提供的信息发送到通信管理服务器1。

显示器207包括有机EL显示器、LCD等。诸如远程会议画面的各种画面将被显示在显示器207上。

传感器单元208包括诸如RGB相机、深度相机、陀螺仪传感器和加速度传感器的各种传感器。传感器单元208将通过进行测量获得的传感器数据输出至控制单元201。基于由传感器单元208测量的传感器数据适当地识别用户的状况。

图14是示出了客户终端2的功能构造实例的框图。图14所示的至少一些功能单元由图13中的控制单元201执行客户端程序201A来实现。

在客户终端2中实现信息处理单元211。信息处理单元211包括声音处理单元221、设置信息发送单元222、用户状况识别单元223以及显示控制单元224。

信息处理单元211包括声音接收单元231、输出控制单元232、麦克风声音获取单元233和声音发送单元234。

声音接收单元231使通信单元206接收从通信管理服务器1发送来的声音数据。由声音接收单元231接收到的声音数据被提供给输出控制单元232。

输出控制单元232使声音输出设备204输出与从通信管理服务器1发送的声音数据相对应的声音。

麦克风声音获取单元233获取由构成声音输入设备203的麦克风收集的麦克风声音的声音数据。由麦克风声音获取单元233获取的麦克风声音的声音数据被提供给声音发送单元234。

声音发送单元234使通信单元206将从麦克风声音获取单元233提供的麦克风声音的声音数据发送至通信管理服务器1。

设置信息发送单元222根据用户的操作生成表示各种设置的内容的设置信息。设置信息发送单元222使通信单元206将设置信息发送到通信管理服务器1。

用户状况识别单元223基于由传感器单元208测量的传感器数据识别用户的状况。用户状况识别单元223使通信单元206向通信管理服务器1发送表示用户的状况的信息。

显示控制单元224使通信单元206与通信管理服务器1进行通信，并且基于从通信管理服务器1发送的信息，使显示器207显示远程会议画面。

《音像定位的使用实例》

将描述包括会议参与者的发声语音的各种声音的音像定位的用例。

<根据输入声音自动调整背景声音>

在通信管理服务器1中，分析从发声用户使用的客户终端发送的声音数据，并且自动调整要与发声语音合成的背景音的设置。例如，调整背景音的音量的设置、是否合成背景音的设置(背景音合成的开/关)、背景音的种类的设置。

图15是说明与背景音设置的调整相关的处理流程的图。

在由箭头A11和A12表示的从客户终端2发送麦克风声音的情况下，在通信管理服务器1中分析每个麦克风声音，并且根据分析结果动态调整背景音的设置。此外，对发声用户的声音数据和设置已经变更的背景音的声音数据中的每一个使用根据位置关系的HRTF数据执行音像定位处理。

如箭头A13所示，可考虑由从收听用户使用的客户终端2发送的信息表示的收听用户的环境来调整背景音的设置。

由音像定位处理产生的声音数据被发送到每个收听用户所使用的客户终端2并且从客户终端2输出，如箭头A14所示。

背景音的设置例如由系统声音管理单元136(图11)如下地调整。

(A)当所有发声语音的音量小于参考音量达特定时间段或更长时间时，调整设置以增加背景音的音量。这使得可以减轻会议期间的沉默。

(B)当诸如麦克风声音中包含的噪声的环境音的音量大于参考音量达特定时间段或更长时间时，调整设置，使得当背景音的合成处于关闭状态时开启。结果，可以使会议期间的噪声不太明显。

(C)根据参与者的数量调整空间音效的设置。例如，参与者的数目越大，使用更大房间的音效设置。通过将诸如表示房间的尺寸的混响的声音合成为背景音来实现空间音效调整。

(D)在基于发声语音执行对发声用户的情绪和发声内容的分析的情况下，自动选择并合成与发声用户的情绪和发声内容匹配的BGM。例如，根据对话的速度感觉、音量、笑声等来分析兴奋程度，在对话不兴奋的情况下，选择具有快节奏的BGM作为背景音。

不仅背景音的设置，而且背景音的音像的定位也基于输入声音被适当地调整。

例如，在上述(A)的情况下，使用与收听用户的位置与音像的定位位置之间的位置关系对应的HRTF数据执行音像定位处理，使得可以感觉到背景音的音像在附近。

此外，在上述(D)的情况下，当某个发声用户的发声内容是使其他用户高兴的内容时，使用与收听用户的位置与音像的定位位置之间的位置关系对应的HRTF数据执行音像定位处理，使得背景声音的音像感觉在远处位置。

注意，在图15中，使用多个块在最上层所示的麦克风声音#1至#N分别是在不同的客户终端2中检测到的发声用户的语音。此外，在使用一个块的下段示出的声音输出表示由一个收听用户使用的客户终端2的输出。

如图15的左侧所示，例如，由发送侧模块201A-1实现用于发送麦克风声音的由箭头A11和A12指示的功能，并且由接收侧模块201A-2实现识别收听用户的环境并且将识别结果发送到通信管理服务器1的功能。此外，背景音的调整和利用HRTF数据的音像定位处理通过服务器程序101A来实现。

将参考图16的流程图描述与背景音设置的调整相关的通信管理服务器1的控制处理。

在步骤S101中，声音接收单元131接收从发声用户所使用的客户终端2发送来的声音数据。由声音接收单元131接收的声音数据被提供给信号处理单元132。

在步骤S102中，信号处理单元132分析麦克风声音。在上述实例的情况下，分析麦克风声音的音量、诸如麦克风声音中包括的噪声的环境声音的音量、发声用户的感情、以及发声内容。

在步骤S103中，系统声音管理单元136将与麦克风声音的分析结果相对应的背景声音的声音数据输出到音像定位处理单元134，并将该声音数据作为要进行音像定位处理的声音数据相加。添加具有特定音量或更大的背景音的声音数据、消除环境声音的类型的背景音的声音数据、以及与发声用户的感情或发声内容相对应的类型的背景音的声音数据。

在步骤S104中，音像定位处理单元134从HRTF数据存储单元135读出并获取与收听用户的位置和发出用户的位置之间的位置关系对应的HRTF数据、及与收听用户的位置和背景音的位置(背景音的音像被定位的位置)之间的位置关系对应的HRTF数据。

音像定位处理单元134使用发声语音的HRTF数据对发声用户的声音数据执行音像定位处理，并使用背景音的HRTF数据对背景音的声音数据执行音像定位处理。

在步骤S105中，声音发送单元138将通过音像定位处理获得的声音数据发送到收听用户使用的客户终端2。

通过上述处理，在收听用户使用的客户终端2中，发声用户的语音的音像和背景声音的音像定位在预定位置并被感觉到。通信管理服务器1可以使发声语音被容易地听到，并且改变会议的气氛。

<根据话语情况的音像定位的自动调整>

在通信管理服务器1中，分析包括发声用户的状况和发声语音的状况的发声状况，并且自动调整发声语音的音像的定位。例如，调整发声语音的音像定位的位置。

图17是图示与根据发声状况调整音像定位相关的处理流程的图。

在客户终端2中，基于相机拍摄的图像等识别用户(发声用户)的状况。如箭头A21所示，将表示发声用户的状况的识别结果的信息从客户终端2发送至通信管理服务器1。发声用户的状况可由通信管理服务器1基于发声语音来执行。

在麦克风声音从客户终端2发送的情况下，如箭头A22和A23所示，通信管理服务器1基于每个麦克风声音分析发声语音的状况。此外，根据包括发声用户的状况和发声语音的状况的发声状况，自动调整发声语音的定位，并且根据调整后的设置对发声用户的声音数据执行音像定位处理。

由音像定位处理产生的声音数据被发送到每个收听用户所使用的客户终端2并且从客户终端2输出，如箭头A24所示。

发声语音的定位的调整例如由音像定位处理单元134(图11)如下执行。

(A)在每个客户终端2中识别用户的嘴部的开/合状况的情况下，调整音像的定位位置，以使得从嘴部的开/合状况确定正在发声的用户(发声用户)的发声语音的音像感觉在附近。嘴部的开/合状况是发声用户的状况。

在这种情况下，音像定位处理单元134选择收听用户的位置附近的位置作为发声语音的音像的定位位置。音像定位处理单元134根据与收听用户的位置和话语语音的音像的定位位置之间的位置关系对应的HRTF数据执行音像定位处理。

(B)在同时输入多个麦克风声音的情况下，调整音像的定位位置，使得各个发声语音的音像感觉在彼此远离的位置。同时发声的用户的人数是发声用户的状况。

在这种情况下，音像定位处理单元134选择分开预定距离或更远的位置作为同时发声的每个发声用户的发声语音的音像的定位位置。音像定位处理单元134根据收听用户的位置与每个话语语音的音像的定位位置之间的位置关系对应的HRTF数据执行音像定位处理。

以这种方式，可以根据同时说话的发声用户的人数来调整发声语音的音像的定位位置。

(C)在某个发声用户的发声语音的音量小的情况下，调整音像的定位位置，使得发声语音的音像可以感觉到在附近。例如，预先设置基准音量，并且针对音量小于金准音量的发声语音调整音像的定位位置。发声语音的音量是发声语音的状况。

在这种情况下，音像定位处理单元134选择收听用户的位置附近的位置作为发声语音的音像的定位位置。音像定位处理单元134根据与收听用户的位置和发送语音的音像的定位位置之间的位置关系的HRTF数据执行音像定位处理。因此，可以使发声语音容易听到。

以这种方式，可以根据发声语音的音量来调整发声语音的音像的定位位置。

(D)在检测到与所登记的声音相同的声音作为发声语音的情况下，从麦克风声音分离发声语音，并且仅对发声语音的声音数据执行用于将音像定位到预定位置的音像定位处理。每个用户预先在通信管理服务器1中登记他/她的语音。

在这种情况下，音像定位处理单元134从麦克风声音中分离发声语音，并且根据与收听用户的位置和发声语音的音像的定位位置之间的位置关系对应的HRTF数据对发声语音的声音数据执行音像定位处理。因此，可以使发声语音容易听到。

(E)在基于麦克风声音执行发声内容(主题)的分析的情况下，针对具有不同主题的各个发声语音执行分组，以每个组的发声语音单元调整音像的定位位置。发声内容是发声语音的状况。

在这种情况下，音像定位处理单元134选择与具有相同内容的发声语音(相同组的发声语音)的音像的定位位置相同的位置。此外，音像定位处理单元134选择分开预定距离或更远的位置作为每个组的发声语音的音像的定位位置。音像定位处理单元134根据与收听用户的位置和话语语音的音像的定位位置之间的位置关系对应的HRTF数据执行音像定位处理。

由于音像被定位在与每个发声内容分离的位置，所以即使在发声内容被分支的情况下，通信管理服务器1也可容易地在发声内容之间进行区分。

以这种方式，根据发声内容，可以调整发声语音的音像的定位位置。

将参考图18的流程图描述与根据发言情况调整音像定位有关的通信管理服务器1的控制处理。

在步骤S111中，声音接收单元131接收从发声用户所使用的客户终端2发送的声音数据。

在步骤S112中，音像定位处理单元134获取发声状况。换言之，音像定位处理单元134基于从客户终端2发送的识别结果获取发声用户的状况并且基于从信号处理单元132提供的分析结果获取发声语音的状况。发声用户的状况和发声语音的状况中的仅一个可以被获取为发声情况。

在步骤S113中，音像定位处理单元134从HRTF数据存储单元135中读出并获取与收听用户的位置和根据发声状况的音像的定位位置之间的位置关系对应的HRTF数据。音像定位处理单元134对发声用户的声音数据使用HRTF数据执行音像定位处理，使得话语语音的音像被定位到与发声状况相应的位置。

在步骤S114中，声音发送单元138将通过音像定位处理获得的声音数据发送到收听用户使用的客户终端2。

通过上述处理，在收听用户使用的客户终端2中，发声用户的语音的音像定位在与发声状况相对应的位置并被感觉到。通信管理服务器1可以使发声语音容易被听到并且改变会议的气氛。

<音像定位过程的动态切换>

作为包括渲染等的对象音频的处理音像定位处理在通信管理服务器1执行和在客户终端2执行之间动态切换。

在这种情况下，在客户终端2中还设置有与图11中示出的通信管理服务器1的构造中的至少与音像定位处理单元134、HRTF数据存储单元135以及2-CH混合处理单元137的构造相同的构造。例如，通过接收侧模块201A-2实现与音像定位处理单元134、HRTF数据存储单元135以及2-CH混合处理单元137的构造相似的构造。

在会议期间变更用于音像定位处理的参数(诸如收听用户的位置信息)的设置并且实时地将该变更反映在音像定位处理中的情况下，通过客户终端2进行音像定位处理。通过本地进行音像定位处理，能够迅速地响应参数的变化。

另一方面，在参数设置变更不超出一定时间的情况下，由通信管理服务器1进行音像定位处理。通过由服务器进行音像定位处理，可以抑制通信管理服务器1和客户终端2之间的数据通信量。

在由客户终端2执行音像定位处理的情况下，如箭头A101和A102所指示的，从客户终端2发送的麦克风声音如箭头A103所指示被直接发送到客户终端2。用作麦克风声音的发声源的客户终端2是发声用户所使用的客户终端2，并且用作麦克风声音的发声目的地的客户终端2是收听用户所使用的客户终端2。

在如箭头A104所示，收听用户变更与音像的定位相关的参数(例如，收听用户的位置)的设置的情况下，实时反映对设置的变更，并且对从通信管理服务器1发送的麦克风声音执行音像定位处理。

与客户终端2的音像定位处理所产生的声音数据对应的声音如箭头A105所示被输出。

在客户终端2中，保存参数设置的改更内容，并且如箭头A106所示，将表示改更内容的信息发送到通信管理服务器1。

在由通信管理服务器1执行音像定位处理的情况下，如箭头A107和A108所示，通过反映变更参数对从客户终端2发送的麦克风声音执行音像定位处理。

由音像定位处理产生的声音数据被发送到由收听用户使用的客户终端2并从客户终端2输出，如箭头A109所示。

将参考图20的流程图描述与音像定位处理的动态切换有关的通信管理服务器1的控制处理。

在步骤S201中，判断在一定时间段或更长时间内是否没有进行参数设置变更。该判断由参与者信息管理部133例如根据从收听用户使用的客户终端2发送的信息来进行。

在步骤S201中判定存在参数设置变更的情况下，在步骤S202中，声音发送单元138将参与者信息管理单元133接收的发声用户的声音数据照原样发送至收听用户使用的客户终端2。发送的声音数据是对象音频数据。

在客户终端2中，使用变更后的设置执行音像定位处理，并输出声音。此外，向通信管理服务器1发送表示变更后的设置的内容的信息。

在步骤S203中，参与者信息管理单元133接收从客户终端2发送的表示设定变更的内容的信息。在基于从客户终端2发送的信息进行收听用户的位置信息等的更新之后，返回至步骤S201，并且执行后续处理。通信管理服务器1进行的音像定位处理基于更新后的位置信息进行。

另一方面，在步骤S201中判定为不存在参数设置变更的情况下，在步骤S204中，由通信管理服务器1进行音像定位处理。在步骤S204中进行的处理与参考图8描述的处理基本上相似。

上述处理不仅在位置改变的情况下执行，而且在诸如背景音的设置的其他参数改更的情况下执行。

<音效设置的管理>

适用于背景音的音效设置可存储在数据库中，并由通信管理服务器1管理。例如，对于每种类型的背景声音，设置适合作为定位音像的位置的位置，并存储与设置的位置相应的HRTF数据。可存储与诸如混响的其他音效设置相关的参数。

图21是示出与音效设置的管理相关的处理流程的示图。

在背景音与发声用户的语音合成的情况下，在通信管理服务器1中，回放背景音，并且如箭头A121所示，使用适合于背景音的音效设置(例如，HRTF数据)执行音像定位处理。

由音像定位处理产生的声音数据被发送到由收听用户使用的客户终端2，如箭头A122所示并，从客户终端2输出。

《变形例》

虽然已经将由多个用户执行的会话描述为远程会议期间的会话，但是上述技术可以应用于各种类型的会话，诸如进餐期间的会话或讲座期间的会话，只要该会话具有多个在线参与者即可。

·关于程序

上述一系列处理可由硬件或软件执行。在由软件执行一系列处理的情况下，构成软件的程序安装在包含在专用硬件中的计算机、通用个人计算机等中。

要安装的程序记录在图10中示出的可移除介质111中，可移除介质111包括光盘(CD-ROM(致密光盘只读存储器)、DVD(数字通用光盘)等)、半导体存储器等。此外，可经由诸如局域网、互联网或数字广播的有线或无线传输介质来提供程序。程序可以提前安装在ROM102或存储单元108中。

要注意的是，由计算机执行的程序可以是按照在本说明书中描述的顺序按时间序列执行处理的程序，或者可以是并行地或在必要的时间(例如，在进行调用时)执行处理的程序。

注意，在本申请中，系统是指一组多个部件(设备、模块(部件)等)，并且所有部件是否在同一壳体内无关紧要。因此，容纳在各个壳体中并且经由网络连接的多个装置是系统，并且其中多个模块容纳在单个壳体中的单个装置是系统。

在本标识中描述的有益效果仅是示例并且非旨在限制，并且可以存在其他有益效果。

本技术的实施方式不限于上述实施方式，并且在不背离本技术的主旨的情况下，可以进行各种修改。虽然耳机或扬声器用作声音输出装置，但是可以使用其他装置。例如，能够捕捉环境声音的普通耳机(内耳式耳机)或开放型耳机可用作声音输出设备。

此外，例如，该技术可以采用云计算的配置，其中，一个功能经由网络由多个设备协作地共享和处理。

此外，在上述流程图中描述的每个步骤可以由一个装置执行或者可以由多个装置共享并执行。

此外，在一个步骤中包括多个处理的情况下，在一个步骤中包括的多个处理可以由一个装置执行或者可以由多个装置共享并执行。

·配置的组合的实例

本技术还可以具有以下配置。

(1)

一种信息处理装置，包括：

存储单元，存储与以收听位置为基准的多个位置对应的HRTF数据；以及

音像定位处理单元，通过使用根据经由网络参与会话的参与者的发声状况的HRTF数据对发声者的声音数据执行音像定位处理。

(2)

根据(1)的信息处理装置，进一步包括：

发送处理单元，将通过执行音像定位处理所获得的发声者的声音数据发送至每个参与者使用的终端，每个参与者是收听者。

(3)

根据(2)所述的信息处理设备，其中，

音像定位处理单元

使用根据在虚拟空间中所述收听者的位置与所述说话者的位置之间的关系的HRTF数据执行音像定位处理，以及

当基于所述发声状况选择作为所述发声者的语音的发声语音的音像的定位位置时，使用根据所述收听者的位置和所述话语语音的音像的定位位置之间的关系的HRTF数据执行音像定位处理。

(4)

根据(3)所述的信息处理设备，其中，

所述音像定位处理单元根据作为发声状况的同时发声的发声者的数量，选择每个发声语音的音像的定位位置。

(5)

根据(4)所述的信息处理设备，其中，

所述音像定位处理单元选择离开预定距离或更远的位置作为同时发声的每个发声者的发声语音的音像的定位位置。

(6)

根据(3)所述的信息处理设备，其中，

所述音像定位处理单元根据作为发声状况的每个发声语音的音量，选择每个发声语音的音像的定位位置。

(7)

根据(6)所述的信息处理设备，其中，

音像定位处理单元选择接近于收听者的位置的位置作为音量小于基准音量的发声语音的音像的定位位置。

(8)

根据(3)所述的信息处理设备，其中，

当发声状况是语音已登记的所述参与者正在发声的状况时，音像定位处理单元对通过从输入声音分离出环境音而获得的发声者的声音数据执行所述音像定位处理。

(9)

根据(3)所述的信息处理设备，其中，

所述音像定位处理单元作为发声状况的发声内容，选择每个发声语音的音像的定位位置。

(10)

根据(9)所述的信息处理设备，其中，

所述音像定位处理单元选择相同位置作为具有相同内容的发声语音的音像的定位位置。

(11)

一种信息处理方法，包括：

通过信息处理装置，

存储与以收听位置为基准的多个位置对应的HRTF数据；以及

通过使用根据经由网络参与会话的参与者的发声状况的HRTF数据对发声者的声音数据执行音像定位处理。

(12)

一种程序，用于使计算机执行以下处理：

存储与以收听位置为基准的多个位置对应的HRTF数据；以及

(13)

一种信息处理终端，包括：

声音接收单元，存储与以收听位置为基准的多个位置对应的HRTF数据；接收通过执行音像定位处理而获得的发声者的声音数据，该声音数据是从信息处理设备发送的，信息处理设备通过使用根据参与经由网络的会话的参与者的发声状况的HRTF数据对发声者的声音数据执行音像定位处理；以及输出发声者的语音。

(14)

一种信息处理方法，包括：

通过信息处理终端，

存储与以收听位置为基准的多个位置对应的HRTF数据，接收通过执行音像定位处理而获得的发声者的声音数据，声音数据是从信息处理装置发送的，该信息处理装置通过使用根据经由网络参与会话的参与者的发生状况的HRTF数据对发声者的声音数据执行所述音像定位处理，以及

输出发声者的语音。

(15)

一种程序，用于使计算机执行以下处理：

存储与以收听位置为基准的多个位置对应的HRTF数据，接收通过执行音像定位处理而获得的发声者的声音数据，该声音数据是从信息处理装置发送的，该信息处理装置通过使用根据经由网络参与会话的参与者的发声状况的HRTF数据对发声者的声音数据执行音像定位处理；以及

输出发声者的语音。

符号说明

1通信管理服务器

2A至2D客户终端

121 信息处理单元

131 声音接收单元

132 信号处理单元

133 参与者信息管理单元

134 音像定位处理单元

135HRTF数据存储单元

136系统声音管理单元

137 2-CH混合处理单元

138 声音发送单元

201 控制单元

211 信息处理单元

221 声音处理单元

222 设置信息发送单元

223 用户状况识别单元

231 声音接收单元

233 麦克风声音获取单元。

Claims

1.一种信息处理装置，包括：

音像定位处理单元，通过使用根据经由网络参与会话的参与者的发声状况的所述HRTF数据对发声者的声音数据执行音像定位处理。

2.根据权利要求1所述的信息处理装置，进一步包括：

发送处理单元，将通过执行所述音像定位处理所获得的发声者的声音数据发送至每个参与者使用的终端，所述每个参与者是收听者。

3.根据权利要求2所述的信息处理装置，其中，

所述音像定位处理单元

使用根据在虚拟空间中的、所述收听者的位置和所述发声者的位置之间的关系的所述HRTF数据执行所述音像定位处理，以及当基于所述发声状况选择作为所述发声者的语音的发声语音的音像的定位位置时，使用根据所述收听者的位置和所述发声语音的音像的定位位置之间的关系的所述HRTF数据执行所述音像定位处理。

4.根据权利要求3所述的信息处理装置，其中，

所述音像定位处理单元根据作为所述发声状况的同时发声的发声者的数量，选择每个所述发声语音的音像的定位位置。

5.根据权利要求4所述的信息处理装置，其中，

6.根据权利要求3所述的信息处理装置，其中，

所述音像定位处理单元根据作为所述发声状况的每个所述发声语音的音量，选择每个所述发声语音的音像的定位位置。

7.根据权利要求6所述的信息处理装置，其中，

所述音像定位处理单元选择接近所述收听者的位置的位置作为音量小于基准音量的所述发声语音的音像的定位位置。

8.根据权利要求3所述的信息处理装置，其中，

当所述发声状况是语音已登记的参与者正在发声的状况时，所述音像定位处理单元对通过从输入声音分离出环境音而获得的所述发声者的声音数据执行所述音像定位处理。

9.根据权利要求3所述的信息处理装置，其中，

所述音像定位处理单元根据作为所述发声状况的发声内容，选择每个所述发声语音的音像的定位位置。

10.根据权利要求9所述的信息处理装置，其中，

所述音像定位处理单元选择相同位置作为具有相同内容的所述发声语音的音像的定位位置。

11.一种信息处理方法，包括：

通过信息处理装置，

存储与以收听位置为基准的多个位置对应的HRTF数据；以及

通过使用根据经由网络参与会话的参与者的发声状况的所述HRTF数据对发声者的声音数据执行音像定位处理。

12.一种程序，用于使计算机执行以下处理：

存储与以收听位置为基准的多个位置对应的HRTF数据；以及

13.一种信息处理终端，包括：

声音接收单元，存储与以收听位置为基准的多个位置对应的HRTF数据；接收通过执行音像定位处理而获得的发声者的声音数据，所述声音数据是从信息处理装置发送的，所述信息处理装置通过使用根据经由网络参与会话的参与者的发声状况的所述HRTF数据对所述发声者的声音数据执行所述音像定位处理；以及输出所述发声者的语音。

14.一种信息处理方法，包括：

通过信息处理终端，

存储与以收听位置为基准的多个位置对应的HRTF数据；接收通过执行音像定位处理而获得的发声者的声音数据，所述声音数据是从信息处理装置发送的，所述信息处理装置通过使用根据经由网络参与会话的参与者的发声状况的所述HRTF数据对所述发声者的声音数据执行所述音像定位处理；以及

输出所述发声者的语音。

15.一种程序，用于使计算机执行以下处理：

输出所述发声者的语音。