CN113519171A

CN113519171A - 声音处理装置、声音处理方法和声音处理程序

Info

Publication number: CN113519171A
Application number: CN202080017766.4A
Authority: CN
Inventors: 中川亨; 冲本越
Original assignee: Sony Group Corp
Current assignee: Sony Group Corp
Priority date: 2019-03-19
Filing date: 2020-03-03
Publication date: 2021-10-19
Also published as: JPWO2020189263A1; US12108240B2; EP3944638A1; WO2020189263A1; KR20210138006A; US20220312143A1; EP3944638A4; JP7567776B2

Abstract

根据本公开的声音处理装置(1)具有获取单元(41)、存储单元(3)和处理单元(42)。获取单元(41)获取关于收听声音内容的用户观看的位置的位置信息。存储单元(3)存储关于该位置处的声音的声音信息(34)。处理单元(42)通过基于声音信息(34)将声音内容的声音特性转换成对应于该位置的声音特性来执行声场再现。

Description

声音处理装置、声音处理方法和声音处理程序

技术领域

本公开涉及声音处理装置、声音处理方法和声音处理程序。

背景技术

存在声场声音收集生成装置，其利用通过使用波前合成方法从由多个麦克风收集的声场信号生成的驱动信号来驱动扬声器，以便虚拟地再现声音收集位置处的声场(例如，参见专利文献1)。

引文列表

专利文献

专利文献1：日本专利申请公开号2015-171111

发明内容

本发明要解决的问题

然而，在某些情况下，只有声场的再现不能给正在收听声音的收听者足够的真实感。因此，本公开提出了一种能够增强给正在收听声音的收听者的真实感的声音处理装置、声音处理方法和声音处理程序。

问题的解决方案

根据本公开的声音处理装置包括获取单元、存储单元和处理单元。获取单元被配置为获取关于收听声音内容的用户观看的位置的位置信息。存储单元被配置为存储关于该位置处的声音的声音信息。处理单元被配置为基于声音信息将声音内容的声音特性转换成根据位置的声音特性，并且被配置为再生声场。

附图说明

[图1]是示出根据本公开的声音处理装置的声音过程的概述的说明图；

[图2]是示出根据本公开的声音处理装置的配置示例的框图；

[图3]是根据本公开的用于创建VR整体球形视频的方法的说明图；

[图4]是示出根据本公开的声音信息的示例的说明图；

[图5]是根据本公开的HRTF测量方法的说明图；

[图6]是根据本公开的HRTF测量方法的说明图；

[图7]是根据本公开的声音处理装置的操作示例的说明图；

[图8]是根据本公开的声音处理装置的操作示例的说明图；

[图9]是根据本公开的声音处理装置的操作示例的说明图；

[图10]是根据本公开的声音处理装置的操作示例的说明图；

[图11]是示出由根据本公开的声音处理装置的控制器执行的处理的示例的流程图；

[图12]是示出由根据本公开的声音处理装置的控制器执行的处理的示例的流程图；

[图13]是示出由根据本公开的声音处理装置的控制器执行的处理的示例的流程图。

具体实施方式

在下文中，将参考附图详细描述本公开的实施例。应注意，在以下每个实施例中，相同的部分由相同的附图标记表示，因此将省略重复的描述。

(1.声音过程的概述)

图1是示出根据本公开的声音处理装置1的声音处理的概述的说明图。声音处理装置1是将诸如电影、现场音乐表演、音乐作品的宣传视频、电视节目、音乐作品等声音内容的声音特性转换成声音记录位置的声音特性的装置，以便在再现声音记录位置的声场的同时再生声场。

在此处，在某些情况下，声音处理装置1不能仅通过再现声音记录位置的声场来给声音内容的收听者足够的真实感。具体地，在测量声音内容的声音特性的测量位置和声音内容的再生位置相同的情况下，声音处理装置1能够给予收听者好像收听者正停留在该位置的感觉。然而，在其他情况下，真实感减半。

例如，即使在声音处理装置1向在家观看和收听电影的用户提供电影的声音内容的情况下，其中，电影院的混响特性、回声特性等被再现并转换成声音特性，也难以给用户留下呆在电影院的感觉，因为用户的停留位置是用户的家。

因此，声音处理装置1利用例如诸如虚拟现实(以下称为VR：虚拟现实)的技术来再现测量了声音内容的声音信息的测量位置，然后再生已经再现测量位置的声音特性的声音内容的声场。

例如，如图1所示，声音处理装置1预先存储电影的视频内容D1、电影的声音内容D2和电影院的声音信息D3，此外，还存储电影院内的VR整体球形视频D4(步骤S01)。电影院的声音信息D3包括与电影院中的声音特性相关的各种参数。

然后，例如，当声音处理装置1从用户U携带的诸如智能手机的用户终端11获取电影内容的提供请求时，声音处理装置1向用户U的用户终端11发送并提供电影的视频内容D1和电影的声音内容D2。

在这种情况下，声音处理装置1基于电影院的声音信息D3将电影的声音内容D2的声音特性转换成电影院的声音特性，并且向用户终端11提供电影院内的声音特性以及VR整体球形视频D4(步骤S02)。

电影院内的VR整体球形视频D4包括安装在电影院中的屏幕的图像和周围环境的图像，包括电影院的观众座位、墙壁、天花板等。声音处理装置1将指示电影院内的VR整体球形视频D4中的屏幕位置被设置为电影的视频内容D1的显示位置的信息添加到电影的视频内容D1，并且向用户终端11提供电影的视频内容D1。

因此，声音处理装置1能够在例如用户U佩戴的头戴式显示器12上显示电影院内的VR整体球形视频D4，并且在VR整体球形视频D4的屏幕上显示电影的视频内容D1(步骤S03)。

同时，声音处理装置1能够再生视频内容D1的声音内容D2的声场，其中，声音特性已经通过例如用户U佩戴的耳机13被转换成电影院中的声音特性(步骤S04)。

以这种方式，声音处理装置1能够允许用户U收听声音内容D2，同时允许用户U不仅视觉识别投影在屏幕上的电影的视频内容D1，而且视觉识别屏幕的周围环境，例如，电影院的观众座位、墙壁、天花板等。

因此，声音处理装置1能够给在家观看和收听电影视频内容的用户U以逼真的感觉，例如，就好像用户U正在电影院观看电影一样。在此处，在头戴式显示器12上显示电影院内的VR整体球形视频D4。然而，声音处理装置1可以显示再现电影院内部的三维计算机图形(3DCG)视频，而不是电影院内部的VR整体球形视频D4。应注意，已经参考图1描述的声音处理装置1的操作是一个示例。稍后将参照图7至图10描述声音处理装置1的其他操作示例。

(2.声音处理装置的配置)

接下来，将参照图2描述声音处理装置1的配置的示例。图2是示出根据本公开的声音处理装置1的配置示例的框图。如图2所示，声音处理装置1包括通信单元2、存储单元3和控制器4。

通信单元2由例如网络接口卡(NIC)等实现。连接通信单元2，以使得能够通过诸如互联网的通信网络N以有线或无线方式与用户终端11、声音信息创建装置100和创建者终端101进行信息通信。

声音信息创建装置100是创建声音信息34的装置，这将在后面描述。此外，创建者终端101是由创建者使用的终端设备，该创建者创建将由声音处理装置1提供给用户U的声音内容32。

存储单元3例如由诸如随机存取存储器(RAM)或闪存(Flash Memory)等半导体存储元件或诸如硬盘、光盘等存储装置来实现。这样的存储单元3存储视频内容31、声音内容32、VR视频信息33、声音信息34等。

视频内容31表示多个视频数据，例如，电影、现场音乐表演、音乐作品的宣传视频、电视节目等，并且表示由声音处理装置1提供给用户终端11的内容数据。

声音内容32表示多条音频数据，例如，电影、现场音乐表演、音乐作品的宣传视频、电视节目、音乐作品等，并且表示将由声音处理装置1提供给用户终端11的内容数据。

VR视频信息33包括在不同位置捕捉的多个VR整体球形视频。在此处，将参照图3描述用于创建VR整体球形视频的方法的示例。图3是根据本公开的用于创建VR整体球形视频的方法的说明图。

如图3所示，在创建VR整体球形视频的情况下，360度摄像头102安装在再生声音内容32的每个位置，并且360度摄像头102捕捉包括该位置的前、后、上、下、左和右的全向图像，以便捕捉VR整体球形视频Vr。

因此，例如，360度摄像头102安装在电影院中，以捕捉图像，从而能够创建VR整体球形视频Vr，包括图1所示的电影院的屏幕和诸如电影院的观众座位、墙壁、天花板等屏幕的周围环境的图像。

应注意，在图1所示的示例中，已经给出了安装了单个屏幕的电影院，作为示例。然而，在本公开中，可以创建电影院的VR整体球形视频Vr，包括安装在前表面、左表面和右表面以及底面上的四个屏幕。

在这种情况下，声音处理装置1在四个屏幕的正面的单个屏幕上显示视频内容31，并且在其他三个屏幕上显示电影院的周围环境。同样在这种配置中，声音处理装置1能够增强给予用户的真实感。

返回图2，将描述声音信息34。声音信息34包括关于每个位置处的声音的多条信息，其中，再生声音内容32的声场。在此处，将参照图4描述声音信息34的示例。图4是示出根据本公开的声音信息34的示例的说明图。

如图4所示，声音信息34被提供给由声音处理装置1为其提供视频内容31或声音内容32的每个用户。声音信息34表示用户ID、用户头部相关传递函数(以下称为HRTF：头部相关传递函数)、位置、VR视频和声音参数相互关联的信息。

用户ID是用于识别每个用户的识别信息。HRTF是每个用户独有的功能信息，它以数学方式表示声音是如何从声源传到用户耳朵的。在此处，将参照图5和图6描述HRTF测量方法。

图5和图6是根据本公开的HRTF测量方法的说明图。例如，在已经参照图1描述的测量电影院的声音信息D3中包括的HRTF的情况下，要求用户U在电影院Mt的观众座位上佩戴耳麦14，并且从电影院的扬声器SP输出测试信号Ts的声音，如图5所示。

然后，声音信息创建装置100获取已经由附接到用户U的左耳的耳用麦克风14收集的音频信号SL和已经由附接到用户U的右耳的耳用麦克风14收集的音频信号SR。

然后，声音信息创建装置100基于已经获取的两个音频信号SL和SR之间的时间偏差、信号水平(强度)偏差、共振差异等来导出用户U的HRTF。以这种方式，声音信息创建装置100实际上测量用户U听到的测试信号Ts，以便能够导出用户U的精确HRTF。

应注意，HRTF根据用户U收听测试信号Ts的位置(环境)而不同。为此，例如，在存在多个用户希望在收听声音内容32的同时观看视频的位置的情况下，用户有必要来到每个位置，以测量和导出HRTF。这种行为将成为用户的负担。

因此，声音信息创建装置100还能够在多个位置处导出用户U的HRTF，同时减轻用户U的负担。例如，如图6所示，在由附接到用户U的耳朵的耳用麦克风14收集的音频信号中，声波特性在开始的预定周期部分中具有取决于用户U的周期，并且在该周期之后，声波特性具有取决于位置的周期。

因此，例如，要求用户U来到一个位置，并且由耳用麦克风14收集测试信号Ts的声音，使得声音信息创建装置100获取取决于用户U的一部分周期的音频信号波形。随后，都配备有耳用麦克风14的仿真玩偶DM安装在用户U期望的多个位置，使得声音信息创建装置100获取一部分周期的音频信号波形，同时声波特性取决于位置。

然后，声音信息创建装置100合成取决于用户U的那部分周期的音频信号波形和取决于已经通过使用分别安装在多个位置处的仿真玩偶获得的位置的那部分周期的音频信号波形，并且基于合成信号导出用户U在每个位置处的HRTF。

因此，声音信息创建装置100能够在用户U期望的多个位置导出用户U的HRTF，同时减轻用户U的负担，尽管精度略低于实际测量的情况。

此外，声音信息创建装置100例如要求用户U拍摄用户耳朵的照片并发送图像数据，以便能够基于耳朵的图像数据来估计和导出用户U的HRTF。在这种情况下，当输入包括耳朵图像的图像数据时，声音信息创建装置100利用机器学习的学习模型来输出对应于耳朵的HRTF，以导出用户U的HRTF。

因此，声音信息创建装置100能够估计和导出用户的HRTF，而不要求用户来测量HRTF的位置。因此，能够进一步减轻用户U的HRTF测量负担。

返回图3，将连续描述声音信息34。声音信息34中包括的位置是识别信息，用于识别已经预先登记的用户U在收听声音内容32的同时期望观看的位置。VR视频是用于识别对应于包括在声音信息34中的位置的VR整体球形视频的识别信息。

声音参数分别与指示每个位置处的多个音频输出位置中的每一个的混响周期等的混响特性和音频波的反射系数等的回声特性的数值相关联。声音信息创建装置100测量每个位置处的实际声音，并基于已经收集的声音导出声音参数。因此，声音信息创建装置100能够导出对应于实际位置的精确声音参数。应注意，在图4中，每个项目的数据在概念上被表示为“A01”或“B01”。然而，在现实中，对应于每个项目的特定数据存储在每个项目的数据中。

声音信息创建装置100将已经创建的声音信息34发送到声音处理装置1。声音处理装置1将从声音信息创建装置100接收的声音信息34存储在存储单元3中。应注意，此处已经给出了关于声音信息创建装置100创建声音信息34的情况的描述。然而，声音处理装置1可以包括与声音信息创建装置100类似的功能和配置，使得声音处理装置1可以创建要存储在存储单元3中的声音信息34。

返回图2，将描述控制器4。控制器4包括例如微型计算机，该微型计算机包括中央处理单元(CPU)、只读存储器(ROM)、随机存取存储器(RAM)、输入和输出端口以及各种电路。

控制器4包括获取单元41、处理单元42和提供单元43，其通过使用随机存取存储器作为工作区域，由CPU执行存储在ROM中的各种程序(对应于根据实施例的声音处理程序的示例)来起作用。

应注意，控制器4中包括的获取单元41、处理单元42和提供单元43可以部分或全部包括硬件，例如，专用集成电路(ASIC)或现场可编程门阵列(FPGA)。

获取单元41、处理单元42和提供单元43均实现或执行将在下面描述的信息处理的动作。应注意，控制器4的内部配置不限于图2所示的配置，并且可以具有另一种配置，只要该配置执行稍后将描述的信息处理。

获取单元41例如从用户U获取视频内容31和声音内容32的提供请求。此外，在从用户U获取视频内容31和声音内容32的提供请求的情况下，获取单元41从用户终端11获取关于收听声音内容32的用户要观看的位置的信息。

例如，在从用户终端11获取电影的视频内容D1和电影的声音内容D2的提供请求并且从用户终端11获取指示电影院的信息作为位置信息的情况下，获取单元41将已经从用户终端11获取的信息输出到处理单元42。

在从获取单元41输入已经从用户终端11获取的信息的情况下，处理单元42基于声音信息34，将声音内容32的声音特性转换成根据与已经从用户终端11获取的位置信息相对应的位置的声音特性，并将已经经过转换的声音特性输出到提供单元43。

在这种情况下，处理单元42对每个用户U应用用户U的HRTF，以转换声音内容32的声音特性。因此，处理单元42能够转换声音内容32的声音特性，以便为用户U做出最佳声音特性。处理单元42将已经从用户终端11获取的信息与已经经过声音特性转换的声音内容32一起输出到提供单元43。

提供单元43向用户终端11发送从处理单元42输入的声音内容32、对应于位置信息的位置的VR整体球形视频、以及用户已经对其做出提供请求的视频内容31。

因此，例如，如图1所示，声音处理装置1能够允许用户U不仅视觉识别投影在屏幕上的电影的视频内容D1，而且视觉识别屏幕的周围环境，例如，电影院的观众座位、墙壁、天花板等。

然后，与此同时，声音处理装置1能够允许用户收听电影的声音内容D2，其中，声音特性已经被转换成电影院的声音特性。因此，声音处理装置1能够给在家观看和收听电影视频内容的用户U以逼真的感觉，例如，就好像用户U正在电影院观看电影一样。

应注意，迄今为止，已经描述了获取单元41从用户终端11获取视频内容31和声音内容32的提供请求的情况。然而，在一些情况下，获取单元41从用户终端11获取用户U的停留位置的图像以及对声音内容32的提供请求。

在这种情况下，处理单元42根据用户U的停留位置转换声音内容32的声音特性，提供单元43将已经经过转换的声音内容32发送到用户终端11，并且用户终端11再生声音内容32的声场。稍后将参照图7和图8描述声音处理装置1的这种操作示例。

此外，在一些情况下，获取单元41从已经创建了声音内容32的创建者获取对声音内容32的声音信息34和再生声音内容32的声场的位置的VR整体球形视频的提供请求。稍后将参照图10描述这种情况下的声音处理装置1的操作示例。

(3.声音处理装置的操作示例)

接下来，将参照图7至图10描述声音处理装置1的操作示例。图7至图10是根据本公开的声音处理装置1的操作示例的说明图。

如图7所示，在一些情况下，声音处理装置1的获取单元41获取例如图像Pic1和对声音内容32的提供请求，在图像Pic1中，当用户U停留在车辆C内时，用户终端11已经捕捉用户U的停留位置(在此处，车辆C的内部)。

在这种情况下，声音处理装置1从停留位置的图像Pic1预测停留位置的声音特性，将声音内容32的声音特性转换成已经预测的声音特性，并且使得用户终端11再生声场。例如，声音处理装置1的处理单元42进行图像Pic1的图像识别，并且确定用户U的停留位置是车辆C内部的空间。

然后，处理单元42从图像Pic1估计车辆中前后方向的长度L、横向的长度W和高度方向的长度H，以预测车辆内部空间的大小，并且基于车辆内部空间的大小，预测车辆内部空间的声音特性，例如，回声特性、混响特性等。

随后，处理单元42将声音内容32的声音特性转换成已经预测的声音特性，并且例如将虚拟扬声器SpC设置在车辆前侧的中心位置处，并且将虚拟扬声器SpL和SpR设置在分别从中心向左和向右偏离30°的位置处。

然后，处理单元42转换声音内容32的声音特性，使得可以听到声音，就好像它们是从三个虚拟扬声器PcC、SpL和SpR输出的一样，并且将已经经过转换的声音特性输出到提供单元43。处理单元42使提供单元43向用户终端11发送声音内容32。

因此，例如，当用户U用耳机收听声音内容32时，声音处理装置1能够给用户U以逼真的感觉，好像用户U正在用高质量的汽车音频收听声音内容32。

此外，如图8所示，在一些情况下，获取单元41获取当用户U呆在家中的客厅中时用户U已经捕捉到停留位置的图像Pic2以及对视频内容31和声音内容32的提供请求。

此外，在这种情况下，在一些情况下，获取单元41获取指示例如用户U已经从图像Pic2中选择了包括用户U的视野中心的预定区域A(在此处，电视Tv周围的区域)的信息。

在这种情况下，处理单元42将对应于声音内容32的音频输出位置的虚拟扬声器Sp1、Sp2、Sp3、Sp4、Sp5和Sp6设置成围绕预定区域A。然后，处理单元42转换声音内容32的声音特性，并将已经经过转换的声音特性输出到提供单元43，使得可以听到声音，就好像它们是从虚拟扬声器Sp1、Sp2、Sp3、Sp4、Sp5和Sp6输出的一样。

提供单元43向用户终端11发送用户U已经对其做出提供请求的视频内容31和其声音特性已经由处理单元42进行转换的声音内容32，并且使得用户终端11显示视频内容31并再生声音内容32的声场。

因此，在用户U用耳机收听声音内容32的情况下，声音处理装置1能够在电视Tv上显示视频内容31的同时，给予用户U逼真的感觉，就好像用户U正在用高质量的音频装置收听声音内容32一样。

另外，在这种情况下，例如，如图9所示，在某些情况下，用户U正在电视Tv上观看和收听动画产品Vd。在这种情况下，声音处理装置1还能够在头戴式显示器Cb上显示出现在用户周围的产品Vd中的角色的增强现实(AR：增强现实)图像Ca、Cc和Cd。因此，声音处理装置1能够进一步增强给予用户U的真实感。

应注意，在此处，从用户U已经捕捉的图像中预测用户的停留位置。然而，这是一个示例。获取单元41还能够获取例如用户U的位置信息，其位置由包括在用户终端11中的全球定位系统(GPS)测量。

在这种情况下，处理单元42根据已经由获取单元获取的用户的位置信息来预测用户的停留位置，将声音内容32的声音特性转换成已经预测的停留位置的声音特性，并且再生声场。因此，处理单元42能够将声音内容32的声音特性转换成根据已经由GPS测量的精确停留位置的声音特性。

此外，获取单元41还能够获取从用户U过去从用户终端11捕捉的图像中选择的图像或者用户U经由通信网络N观看的图像。

在这种情况下，处理单元42预测已经由获取单元41获取的图像中出现的位置的声音特性，将声音内容的声音特性转换成已经预测的声音特性，并再生声场。因此，声音处理装置1给用户U一种真实的感觉，例如，好像用户U正在用户U过去访问过的存储器的位置或用户U过去观看过的图像中出现的喜爱的位置收听声音内容32。

此外，处理单元42根据从用户U正在停留的图像预测的空间大小，改变要被设置为声音内容32的音频输出位置的虚拟扬声器的数量和虚拟扬声器的音频输出特性。例如，随着要预测的空间的大小变大，处理单元42增加要排列的虚拟扬声器的数量。

此外，在要预测的空间的大小变得更大的情况下，处理单元42设置例如具有音频输出特性的虚拟扬声器，使得可以像环绕扬声器一样从360°方向听到声音内容32。因此，声音处理装置1能够使用户终端11根据用户U的停留位置的大小来再生最佳声场。

此外，在一些情况下，获取单元41从已经创建声音内容32的创建者获取例如对声音内容32的声音信息34和再生声音内容32的声场的位置的VR整体球形视频的提供请求。

在这种情况下，如图10所示，声音处理装置1的处理单元42使得提供单元43将已经为创建者终端101做出了提供请求的声音内容32、声音信息34和VR视频信息33发送到由创建者终端101使用的创建者终端101。

因此，创建者CR能够基于创建者自己的创作意图来改变例如声音信息34，同时观看包括在VR视频信息33中的电影院的VR整体球形视频Vr。例如，在当前状态下，创建者CR能够将可以听到就好像虚拟扬声器Sp设置在电影院的屏幕的两侧的声音信息34改变为可以听到就好像虚拟扬声器Sp设置在远离屏幕的两侧的声音信息34。

此外，创建者CR能够改变例如可以听到的声音信息34，就好像新的虚拟扬声器SpU被设置在屏幕上方并且新的虚拟扬声器SpD被设置在屏幕下方。在这种情况下，创建者CR收听已经应用了创建者自己的HRTF的声音内容32，并改变声音信息34。

然后，创建者CR将已经改变的声音信息34a、声音内容32a和VR视频信息33从创建者终端101发送到声音处理装置1。声音处理装置1使存储单元3存储已经从创建者终端101接收的声音信息34a、声音内容32a和VR视频信息33。

因此，当下次向用户U提供声音内容32a时，声音处理装置1能够利用反映了创建者CR的创作意图的声音特性来再生声音内容32a的声场。在这种情况下，声音处理装置1向用户U提供已经应用了用户U的HRTF的声音内容32a，并且能够再生对用户U具有最佳声音特性的声音内容32a的声场。

(4.由声音处理装置执行的过程)

接下来，将参照图11至图13描述由声音处理装置1的控制器4执行的处理的示例。图11至图13是示出由根据本公开的声音处理装置1的控制器4执行的处理的示例的流程图。

当声音处理装置1的控制器4从用户终端11的用户U获取对包括声音和视频的内容的提供请求时，控制器4执行图11所示的处理。具体地，当控制器4从用户U获取内容的提供请求时，控制器4首先从用户U获取用户U期望的内容和位置信息(步骤S101)。

随后，控制器4根据对应于位置信息的声音特性，将对应于用户期望的内容的声音内容的声音特性转换成声音特性(步骤S102)。然后，控制器4向用户U提供视频内容、声音特性已经转换的声音内容、以及当再生声音内容和视频内容时要由用户U视觉识别的VR整体球形视频，以便再生声场(步骤S103)，并且结束该过程。

此外，当从用户获取对声音内容的提供请求和用户已经捕捉的用户的停留位置的图像时，控制器4执行图12所示的处理。具体地，当控制器4从用户U获取内容和捕捉图像的提供请求时，控制器4首先预测出现在捕捉图像中的空间的声音特性(步骤S201)。

随后，控制器4将对应于用户U期望的内容的声音内容的声音特性转换成在步骤S201中预测的空间的声音特性(步骤S202)。然后，控制器4向用户U提供声音特性已经经历转换的声音内容，再生声场(步骤S203)，并结束处理。

此外，在用户选择在捕捉的图像中的预定区域A的情况下，控制器4执行设置声音内容的音频输出位置，以便包围预定区域A的处理，并且向用户U提供声音内容。

在这种情况下，控制器4根据用户选择的预定区域A的大小来改变要排列的声音内容的音频输出位置的数量和音频输出特性，并向用户U提供声音内容。

应注意，同样当从用户U获取包括声音和视频的内容的提供请求以及用户的停留位置出现在其中的捕捉图像时，控制器4能够预测出现在捕捉图像中的空间的声音特性，并且向用户U提供声音特性已经转换成预测的声音特性的声音内容。

此外，当从声音内容的创建者CR获取例如声音内容的声音信息和位置的提供请求时，控制器4执行图13所示的处理，在该位置中再生声音内容的声场。

具体地，当从创建者CR获取对声音信息和位置的提供请求时，控制器4首先向创建者CR提供声音信息和该位置的VR整体球形视频，其中，再生对应于声音信息的声音内容的声场(步骤S301)。

随后，控制器4确定是否已经从创建者CR获取了改变的声音信息(步骤S302)。然后，当控制器4确定尚未从创建者CR获取声音信息时(步骤S302，否)，控制器4重复步骤S302的确定过程，直到获取声音信息。

然后，当确定已经从创建者CR获取了声音信息时(步骤S302，是)，控制器4存储已经与已经为创建者CR提供的VR整体球形视频相关联地获取的声音特性(步骤S303)，并且结束处理。

应注意，本说明书中描述的效果仅仅是示例而非限制性的，并且可以获得其他效果。

应注意，本技术也可以具有以下配置。

(1)一种声音处理装置，包括：

获取单元，被配置为获取关于收听声音内容的用户观看的位置的位置信息；

存储单元，被配置为存储关于该位置处的声音的声音信息；以及

处理单元，被配置为基于声音信息将声音内容的声音特性转换成根据位置的声音特性，并且被配置为再生声场。

(2)根据上述(1)所述的声音处理装置，

其中，存储单元

存储该位置的虚拟现实整体球形视频，并且

处理单元

使得用户在视觉上识别虚拟现实整体球形视频，同时再生声音内容的声场。

(3)根据上述(2)所述的声音处理装置，

其中，存储单元

存储包括屏幕和屏幕的周围环境的图像的虚拟现实整体球形视频，在屏幕上在该位置处显示对应于声音内容的视频内容，并且

处理单元

在虚拟现实整体球形视频中的屏幕上显示视频内容。

(4)根据上述(2)所述的声音处理装置，

其中，存储单元

存储包括四个屏幕的虚拟现实整体球形视频，在四个屏幕上在该位置处显示对应于所述声音内容的视频内容，并且

处理单元

在虚拟现实整体球形视频的四个屏幕中的一个屏幕上显示视频内容，并在其他三个屏幕上显示该位置的周围环境的图像。

(5)根据上述(1)所述的声音处理装置，

其中，获取单元

获取用户已经捕捉的停留位置的图像，并且

处理单元

从停留位置的图像预测停留位置的声音特性，将声音内容的声音特性转换成已经预测的声音特性，并再生声场。

(6)根据上述(5)所述的声音处理装置，

其中，处理单元

基于要从停留位置的图像预测的停留位置的空间的大小，预测停留位置的空间的声音特性。

(7)根据上述(6)所述的声音处理装置，

其中，处理单元

预测空间中的混响特性和回声特性。

(8)根据上述(6)所述的声音处理装置，

其中，处理单元

根据要从停留位置的图像预测的停留位置的空间的大小，改变要排列的声音内容的音频输出位置的数量和音频输出特性。

(9)根据上述(5)至(8)中任一项所述的声音处理装置，

其中，在用户从停留位置的图像中选择包括用户的视野的中心的预定区域的情况下，处理单元

排列声音内容的音频输出位置，以包围预定区域。

(10)根据上述(1)所述的声音处理装置，

其中，获取单元

获取从用户过去捕捉的图像中选择的图像或者用户经由通信网络观看的图像，并且

处理单元

预测出现在图像中的位置的声音特性，将声音内容的声音特性转换成已经预测的声音特性，并再生声场。

(11)根据上述(1)所述的声音处理装置，

其中，获取单元

获取由全球定位系统(GPS)测量的用户的位置信息，并且

处理单元

从用户的位置信息预测用户的停留位置，将声音内容的声音特性转换成已经预测的停留位置的声音特性，并再生声场。

(12)根据上述(2)所述的声音处理装置，还包括：

提供单元，被配置为向声音内容的创建者提供声音内容以及再生声音内容的声场的位置的虚拟现实整体球形视频和声音信息，

其中，获取单元

获取已经由创建者改变的声音信息，并且

存储单元

将已经被提供给创建者的声音内容和再生声音内容的声场的位置的虚拟现实整体球形视频与已经被所述创建者改变的声音信息相关联地进行存储。

(13)根据上述(1)至(12)中任一项所述的声音处理装置，其中，存储单元

存储已经基于在该位置处测量的声音生成的声音信息。

(14)根据上述(1)至(13)中任一项所述的声音处理装置，其中，存储单元

存储用户的头部相关传递函数，并且

处理单元

为每个用户应用用户的头部相关传递函数，以转换声音内容的声音特性。

(15)根据上述(14)所述的声音处理装置，

其中，存储单元

存储头部相关传递函数，头部相关传递函数是基于已经由用户佩戴的耳用麦克风录制的声音导出的。

(16)根据上述(14)所述的声音处理装置，

其中，存储单元

存储基于由用户佩戴的耳用麦克风录制的、声波特性取决于用户的周期内的声音和由玩偶佩戴的耳用麦克风录制的、声波特性取决于该位置的周期内的声音导出的头部相关传递函数。

(17)根据上述(14)所述的声音处理装置，

其中，存储单元

存储基于用户的耳朵的图像导出的头部相关传递函数。

(18)一种由计算机执行的声音处理方法，该声音处理方法包括：

获取步骤，用于获取关于收听声音内容的用户观看的位置的位置信息；存储步骤，用于存储关于该位置处的声音的声音信息；以及

处理步骤，用于基于声音信息，将声音内容的声音特性转换成根据位置的声音特性，并再生声场。

(19)一种声音处理程序，使计算机执行：

获取过程，用于获取关于收听声音内容的用户观看的位置的位置信息；存储过程，用于存储关于该位置处的声音的声音信息；以及

处理过程，用于基于声音信息，将声音内容的声音特性转换成根据位置的声音特性，并再生声场。

附图标记列表

1 声音处理装置

2 通信单元

3 存储单元

31 视频内容

32 声音内容

33 VR视频信息

34 声音信息

4 控制器

41 获取单元

42 处理单元

43 提供单元。

Claims

1.一种声音处理装置，包括：

获取单元，所述获取单元被配置为获取关于收听声音内容的用户观看的位置的位置信息；

存储单元，所述存储单元被配置为存储关于所述位置处的声音的声音信息；以及

处理单元，所述处理单元被配置为基于所述声音信息将所述声音内容的声音特性转换成根据所述位置的声音特性，并且被配置为再生声场。

2.根据权利要求1所述的声音处理装置，

其中，所述存储单元

存储所述位置的虚拟现实整体球形视频，并且

所述处理单元

使得所述用户在视觉上识别所述虚拟现实整体球形视频，同时再生所述声音内容的所述声场。

3.根据权利要求2所述的声音处理装置，

其中，所述存储单元

存储包括屏幕和所述屏幕的周围环境的图像的所述虚拟现实整体球形视频，在所述屏幕上在所述位置处显示对应于所述声音内容的视频内容，并且

所述处理单元

在所述虚拟现实整体球形视频中的所述屏幕上显示所述视频内容。

4.根据权利要求2所述的声音处理装置，

其中，所述存储单元

存储包括四个屏幕的所述虚拟现实整体球形视频，在所述四个屏幕上在所述位置处显示对应于所述声音内容的视频内容，并且

所述处理单元

在所述虚拟现实整体球形视频的所述四个屏幕中的一个屏幕上显示所述视频内容，并在其他三个屏幕上显示所述位置的周围环境的图像。

5.根据权利要求1所述的声音处理装置，

其中，所述获取单元

获取所述用户已经捕捉的停留位置的图像，并且

所述处理单元

从所述停留位置的所述图像预测所述停留位置的声音特性，将所述声音内容的所述声音特性转换成已经预测的声音特性，并再生所述声场。

6.根据权利要求5所述的声音处理装置，

其中，所述处理单元

基于要从所述停留位置的所述图像预测的所述停留位置的空间的大小，预测所述停留位置的所述空间的声音特性。

7.根据权利要求6所述的声音处理装置，

其中，所述处理单元

预测所述空间中的混响特性和回声特性。

8.根据权利要求6所述的声音处理装置，

其中，所述处理单元

根据要从所述停留位置的所述图像预测的所述停留位置的所述空间的大小，改变要排列的所述声音内容的音频输出位置的数量和音频输出特性。

9.根据权利要求5所述的声音处理装置，

其中，在所述用户从所述停留位置的所述图像中选择包括所述用户的视野的中心的预定区域的情况下，所述处理单元

排列所述声音内容的音频输出位置，以包围所述预定区域。

10.根据权利要求1所述的声音处理装置，

其中，所述获取单元

获取从所述用户过去捕捉的图像中选择的图像或者所述用户经由通信网络观看的图像，并且

所述处理单元

预测出现在所述图像中的位置的声音特性，将所述声音内容的所述声音特性转换成已经预测的声音特性，并再生所述声场。

11.根据权利要求1所述的声音处理装置，

其中，所述获取单元

获取由全球定位系统(GPS)测量的所述用户的所述位置信息，并且

所述处理单元

从所述用户的所述位置信息预测所述用户的停留位置，将所述声音内容的所述声音特性转换成已经预测的所述停留位置的声音特性，并再生所述声场。

12.根据权利要求2所述的声音处理装置，还包括：

提供单元，所述提供单元被配置为向所述声音内容的创建者提供所述声音内容以及再生所述声音内容的所述声场的所述位置的所述虚拟现实整体球形视频和所述声音信息，

其中，所述获取单元

获取已经由所述创建者改变的所述声音信息，并且

所述存储单元

将已经被提供给所述创建者的所述声音内容和再生所述声音内容的所述声场的所述位置的所述虚拟现实整体球形视频与已经被所述创建者改变的所述声音信息相关联地进行存储。

13.根据权利要求1所述的声音处理装置，

其中，所述存储单元

存储已经基于已经在所述位置处测量的所述声音生成的所述声音信息。

14.根据权利要求1所述的声音处理装置，

其中，所述存储单元

存储所述用户的头部相关传递函数，并且

所述处理单元

为每个用户应用所述用户的所述头部相关传递函数，以转换所述声音内容的所述声音特性。

15.根据权利要求14所述的声音处理装置，

其中，所述存储单元

存储所述头部相关传递函数，所述头部相关传递函数是基于已经由所述用户佩戴的耳用麦克风录制的所述声音导出的。

16.根据权利要求14所述的声音处理装置，

其中，所述存储单元

存储基于由所述用户佩戴的耳用麦克风录制的、声波特性取决于所述用户的周期内的声音和由玩偶佩戴的耳用麦克风录制的、声波特性取决于所述位置的周期内的声音导出的所述头部相关传递函数。

17.根据权利要求14所述的声音处理装置，

其中，所述存储单元

存储基于所述用户的耳朵的图像导出的所述头部相关传递函数。

18.一种由计算机执行的声音处理方法，所述声音处理方法包括：

获取步骤，用于获取关于收听声音内容的用户观看的位置的位置信息；

存储步骤，用于存储关于所述位置处的声音的声音信息；以及

处理步骤，用于基于所述声音信息，将所述声音内容的声音特性转换成根据所述位置的声音特性，并再生声场。

19.一种声音处理程序，使计算机执行：

获取过程，用于获取关于收听声音内容的用户观看的位置的位置信息；

存储过程，用于存储关于所述位置处的声音的声音信息；以及

处理过程，用于基于所述声音信息，将所述声音内容的声音特性转换成根据所述位置的声音特性，并再生声场。