CN116210234A

CN116210234A - 信息处理设备、信息处理方法和程序

Info

Publication number: CN116210234A
Application number: CN202180063083.7A
Authority: CN
Inventors: 五十岚刚; 新免真己; 浅田宏平; 黑田善之; 镰田正辉
Original assignee: Sony Group Corp
Current assignee: Sony Group Corp
Priority date: 2020-09-25
Filing date: 2021-08-19
Publication date: 2023-06-02
Also published as: EP4221262A4; WO2022064905A1; US20230336934A1; EP4221262A1; JPWO2022064905A1

Abstract

一种信息处理设备(30)包括声源提取单元(341)和映射处理单元(343)。声源提取单元(341)从音频内容(AC)提取与不同的声源对应的一个或多个音频数据(AD)。映射处理单元(343)针对每个音频数据(AD)从包括声音产生机构的一个或多个可组合显示单元(12)中选择用作音频数据(AD)的映射目的地的一个或多个显示单元(12)。

Description

信息处理设备、信息处理方法和程序

技术领域

本发明涉及信息处理设备、信息处理方法和程序。

背景技术

已知使用多个扬声器将声场和视频连动的技术。例如，专利文献1公开了与显示在显示器上的声源的位置相结合地控制幻象声音图像的位置的系统。

引用列表

专利文献

专利文献1：JP 2011-259298 A

发明内容

技术问题

在幻象声音图像方法中，正确地再现声音图像的观看位置的范围窄。因此，难以获得视频和音频之间的统一感。

因此，本公开提出了使得容易获得视频与音频之间的统一感的信息处理设备、信息处理方法以及程序。

问题的解决方案

根据本公开，提供了一种信息处理设备，包括：声源提取单元，从音频内容中提取与不同的声源对应的一个或多个音频数据；以及映射处理单元，针对每个音频数据，从包括声音产生机构的一个或多个可组合显示单元中选择用作音频数据的映射目的地的一个或多个显示单元。根据本公开，提供了一种信息处理方法和用于使计算机执行信息处理设备的信息处理的程序，在信息处理方法中，通过计算机执行信息处理设备的信息处理。

附图说明

[图1]是示出音频/视频内容输出系统的示意性配置的示图。

[图2]是示出控制系统的配置的示图。

[图3]是示出音频解码器的配置的示图。

[图4]是示出瓦片式显示器的示意性配置的示图。

[图5]是示出显示单元的配置和布置的实例的示图。

[图6]是瓦片式显示器和扬声器单元的再现频率的说明图。

[图7]是示出再现期间显示单元的再现频率与振动幅度之间的关系的示图。

[图8]是用于说明显示单元的逻辑编号的示图。

[图9]是用于说明显示单元的逻辑编号的示图。

[图10]是用于说明显示单元的逻辑编号的示图。

[图11]是示出机柜与控制系统之间的连接形式的实例的示图。

[图12]是示出机柜与控制系统之间的连接形式的实例的示图。

[图13]是示出机柜与显示单元之间的连接形式的实例的示图。

[图14]是示出音频/视频内容输出系统被应用于剧院的实例的示图。

[图15]是示出基于声道的音频的音频数据的映射处理的实例的示图。[图16]是示出基于对象的音频的音频数据的映射处理的实例的示图。[图17]是示出基于对象的音频的音频数据的映射处理的实例的示图。[图18]是示出基于声道的音频数据的映射处理的另一实例的示图。

[图19]是用于说明在深度方向上控制声音图像的方法的示图。

[图20]是用于说明在深度方向上控制声音图像的方法的示图。

[图21]是用于说明在深度方向上控制声音图像的方法的示图。

[图22]是用于说明在深度方向上控制声音图像的方法的示图。

[图23]是示出用于声音图像的定位和增强控制技术的另一实例的示图。[图24]是示出扬声器单元的布置的实例的示图。

[图25]是示出检测显示单元的位置的方法的实例的示图。

[图26]是示出用于检测显示单元的位置的麦克风的设置的示图。

[图27]是示出检测显示单元的物理位置的方法的另一实例的示图。

[图28]是用于说明再现声音的方向性控制的示图。

[图29]是示出为每个观看者分配不同的再现声音的实例的示图；

[图30]是示出由控制系统执行的信息处理方法的实例的流程图。

[图31]是示出音频/视频内容输出系统被应用于剧院的实例的示图。

[图32]是示出音频/视频内容输出系统被应用于剧院的实例的示图。

[图33]是示出扬声器单元的布置的实例的示图。

[图34]是示出扬声器单元的布置的另一实例的示图。

[图35]是示出用于测量空间特性的麦克风的设置的示图。

[图36]是示出音频/视频内容输出系统被应用于远程呈现系统的实例的示图。

[图37]是示出对象声音的声音收集处理和再现处理的一个实例的示图；

[图38]是示出音频/视频内容输出系统应用于数字标牌系统的实例的示图。

具体实施方式

在下文中，将参考附图详细描述本公开的实施方式。在以下的各实施例中，对相同部分标注相同标号并省略重复说明。

注意，将按照以下顺序给出描述。

[1.音频/视频内容输出系统的概述]

[1-1.系统的配置实例]

[1-2.控制系统的配置]

[1-3.显示单元的配置和布置形式]

[1-4.显示单元的逻辑编号]

[1-5.机柜与控制系统之间的连接形式]

[1-6.机柜与显示单元之间的连接形式]

[2.第一实施方式]

[2-1.系统的图像]

[2-2.基于声道的音频数据的映射处理]

[2-3.基于对象的音频的音频数据的映射处理]

[2-4.使用DNN引擎的声源布置]

[2-5.在深度方向上的声音图像的控制]

[2-6.声音图像的定位和增强控制]

[2-6-1.通过频带放大增强声音图像定位能力]

[2-6-2.通过前面的声音效果增强声音图像定位能力][2-7.扬声器单元的布置]

[2-8.检测显示单元的位置的方法]

[2-9.再现声音的方向性控制]

[2-10.信息处理方法]

[2-11.效果]

[3.第二实施方式]

[3-1.系统的图像]

[3-2.扬声器单元的布置]

[3-3.通过内置麦克风的空间特性和混响消除的测量][4.第三实施方式]

[4-1.系统的图像]

[4-2.对象声音的声音收集和再现]

[5.第四实施方式]

[1.音频/视频内容输出系统的概述]

[1-1.系统的配置实例]

图1是示出音频/视频内容输出系统1的示意性配置的示图。

音频/视频内容输出系统1是从内容数据CD再现音频/视频内容并且将音频/视频内容呈现给观看者U的系统。音频/视频内容输出系统1包括瓦片式显示器(tilingdisplay)10、多个扬声器单元20以及控制系统30。

瓦片式显示器10包括以瓦片形式(tile form)布置的多个显示单元12。瓦片式显示器10包括由可以组合成矩阵的一个或多个显示单元12形成的单个大屏幕SCR。显示单元12再现视频和音频两者。瓦片式显示器10输出与来自显示视频的显示单元12的视频相关的声音。在以下描述中，垂直方向被称为瓦片式显示器10的高度方向。垂直于高度方向的显示单元12的排列方向被称为瓦片式显示器10的宽度方向。与高度方向和宽度方向正交的方向被称为瓦片式显示器10的深度方向。

多个扬声器单元20布置在瓦片式显示器10周围。在图1的实例中，第一阵列扬声器21、第二阵列扬声器22和低音炮23被设置为多个扬声器单元20。第一阵列扬声器21和第二阵列扬声器22是其中多个扬声器ASP(见图15)被布置在一行中的行阵列扬声器。第一阵列扬声器21沿瓦片式显示器10的上侧设置。第二阵列扬声器22沿瓦片式显示器10的下侧布置。多个扬声器单元20与瓦片式显示器10一起输出与显示视频相关的声音。

控制系统30是处理从内容数据CD提取的各种类型的信息的信息处理设备。控制系统30从内容数据CD提取对应于不同声源的一个或多个音频数据AD(见图3)。控制系统30获取关于用作再现环境的多个显示单元12和多个扬声器单元20的配置的再现环境信息352(参见图3)。控制系统30基于再现环境信息352执行渲染，并且将每个音频数据AD映射到再现环境。

[1-2.控制系统的配置]

图2是示出控制系统30的配置的示图。

控制系统30包括解复用器31、视频解码器32和音频解码器33。解复用器31从外部设备获取内容数据CD。内容数据CD包括关于视频内容VC的信息和关于音频内容AC的信息。解复用器31独立于内容数据CD生成视频内容VC和音频内容AC。

视频解码器32从视频内容VC生成视频输出信号，并且经由视频输出信号线VL将视频输出信号输出至多个显示单元12。音频解码器33从音频内容AC提取一个或多个音频数据AD。音频解码器33将每个音频数据AD映射到多个显示单元12和多个扬声器单元20。音频解码器33经由音频输出信号线AL将基于映射生成的音频输出信号输出至多个显示单元12和多个扬声器单元20。

控制系统30可以处理各种类型的基于声道的音频、基于对象的音频和基于场景的音频的音频内容AC。控制系统30基于再现环境信息352对音频内容AC执行渲染处理。因此，音频数据AD被映射到用作再现环境的多个显示单元12和多个扬声器单元20。

例如，基于声道的音频的音频内容AC包括针对每个声道生成的一个或多个音频数据AD。控制系统30基于声道的布置从多个显示单元12和多个扬声器ASP中选择除低音炮23以外的声道的音频数据AD的映射目的地。

基于对象的音频的音频内容AC包括针对每个对象生成的一个或多个音频数据(素材声音)和元信息。元信息包括诸如每个对象的位置OB、声音传播和各种效果的信息。控制系统30基于在元信息中定义的对象的位置OB从多个显示单元12和多个扬声器ASP选择音频数据AD的映射目的地。控制系统30根据对象的位置OB的移动改变作为对象的音频数据AD的映射目的地的显示单元12。

基于场景的音频是用于在360°全向空间中记录和再现围绕观看者U的整个空间的物理信息的系统。基于场景的音频的音频内容AC包括与W(非定向分量)、X(前后扩展分量)、Y(左右扩展分量)和Z(上下扩展分量)的声道对应的四个音频数据AD。控制系统30基于记录的物理信息从多个显示单元12和多个扬声器ASP选择音频数据AD的映射目的地。

图3是示出了音频解码器33的配置的示图。

音频解码器33包括计算单元34和存储单元35。计算单元34包括声源提取单元341、频带划分单元342、映射处理单元343、位置检测单元344和声源位置估计单元345。

声源提取单元341从音频内容AC提取一个或多个音频数据AD。例如，针对每个声源生成音频数据AD。例如，从基于声道的音频的音频内容AC提取针对用作声源的每个声道生成的一个或多个音频数据AD。从基于对象的音频的音频内容AC，提取针对用作声源的每个对象生成的一个或多个音频数据AD。

频带划分单元342针对每个频带划分音频数据AD。例如，在音频数据AD的重低音分量被切割之后，执行频带划分处理。频带划分单元342将通过划分音频数据AD而获得的一条或多条波形数据PAD输出至映射处理单元343。对具有除重低音以外的频率分量的音频数据AD执行频带划分处理。仅重低音的音频数据AD经由映射处理单元343从声源提取单元341映射到低音炮23。

映射处理单元343根据频带将从频带划分单元342输出的一条或多条波形数据PAD映射至瓦片式显示器10(显示单元12)和多个扬声器单元20。

映射处理单元343从多个显示单元12和多个扬声器ASP选择针对每个音频数据AD的音频数据AD将被映射到的一个或多个显示单元12或一个或多个扬声器ASP或一个或多个显示单元12和一个或多个扬声器ASP。

例如，在音频数据AD是从基于声道的音频的音频内容AC提取的用于多声道扬声器的音频数据的情况下，映射处理单元343选择一个或多个显示单元12或通过多声道扬声器的布置确定的一个或多个扬声器ASP，或者一个或多个显示单元12和一个或多个扬声器ASP作为映射目的地。

在音频数据AD是从基于对象的音频的音频内容AC提取的对象的音频数据的情况下，映射处理单元343选择与从音频内容AC提取的对象的位置OB对应的一个或多个显示单元12或一个或多个扬声器ASP或一个或多个显示单元12和一个或多个扬声器ASP作为映射目的地。

位置检测单元344检测多个显示单元12的空间布置。基于测量数据MD(诸如从显示单元12输出的声音或视频)执行空间布置的检测。位置检测单元344基于所检测的空间布置来向显示单元12中的每个分配逻辑编号LN。映射处理单元343基于逻辑编号LN指定映射目的地。

声源位置估计单元345针对每个音频数据AD估计显示音频数据AD的声源的位置。声源位置估计单元345用于当没有声源的位置信息的音频数据AD被输入时指定声源在视频中的位置。映射处理单元343选择与声源的显示位置对应的一个或多个显示单元12作为映射目的地。

例如，声源位置估计单元345将由声源提取单元341提取的一个或多个音频数据AD和视频内容AC应用于分析模型351。分析模型351是通过机器学习来学习音频数据AD与视频中的声源的位置之间的关系的深度神经网络(DNN)引擎。声源位置估算部345根据分析模型351的分析结果，估算在显示声源的画面SCR内的位置。

例如，存储单元35存储由计算单元34执行的程序353、分析模型351以及再现环境信息352。程序353是使计算机执行由控制系统30执行的信息处理的程序。计算单元34根据存储在存储单元35中的程序353执行各种处理。存储单元35可以用作用于临时存储计算单元34的处理结果的工作区。例如，存储单元35包括诸如半导体存储介质和磁存储介质的任意非易失性存储介质。存储单元35包括例如光盘、磁光盘或闪存。例如，程序353被存储在非易失性计算机可读存储介质中。

计算单元34是例如包括处理器和存储器的计算机。计算单元34的存储器包括随机存取存储器(RAM)和只读存储器(ROM)。通过执行程序353，计算单元34用作声源提取单元341、频带划分单元342、映射处理单元343、位置检测单元344和声源位置估计单元345。

[1-3.显示单元的配置和布置形式]

图4为示出瓦片式显示器10的示意性配置的示图。

瓦片式显示器10包括以平铺方式组合的多个机柜(cabinet)11。多个显示单元12以被布置为瓦片形状的状态附接到机柜11。在显示单元12的外周部分上没有用作框架的区域。在保持像素间距的同时，跨显示单元12的边界部分连续地布置多个显示单元12的像素。因此，形成包括横跨多个显示单元12的单屏SCR的瓦片式显示器10。

附接至其中一个机柜11的显示单元12的数量和布置是任意的。构成瓦片式显示器10的机柜11的数量和布置也是任意的。例如，在图4的实例中，二维地布置在高度方向上的四行和在宽度方向上的八行的总共32个机柜。在机柜11上安装有高度方向2列和宽度方向3列的共计6个显示单元12。因此，瓦片式显示器10包括总共192个显示单元12，包括在高度方向上的8行和在宽度方向上的24行。

图5是示出显示单元12的配置和布置的实例的示图。

每个显示单元12包括显示面板121、致动器122和控制电路123。显示面板121是不包括背光的自发光薄显示面板。在本实施例中，作为显示面板121，使用其中针对每一像素布置红色、绿色和蓝色的三种类型的微型发光二极管(LEDs)的LED面板。致动器122使显示面板121振动以从显示面板121的表面输出声音。控制电路123包括驱动像素的像素驱动电路和驱动致动器122的致动器驱动电路。致动器122和致动器驱动电路用作用于从显示单元12产生声音的声音产生机构。

每个机柜11包括壳体111、连接板112和机柜板113。连接板112是连接控制电路123和机柜板113的板。连接板112被固定到壳体111。显示面板121通过螺纹连接等固定至连接板112。因而，每个显示单元12由每个机柜11支撑。机柜板113连接至控制系统30。控制系统30经由机柜板113向控制电路123输出视频输出信号和音频输出信号。

图6是瓦片式显示器10和扬声器单元20的再现频率的说明图。图7是示出再现期间的显示单元12的再现频率与振动幅度之间的关系的示图。

通过瓦片式显示器10(显示单元12)和多个扬声器单元20再现与瓦片式显示器10的显示视频相关联的声音。如图6所示，再现频带被分类为高频带HF、中频带MF、低频带LF以及非常低频带VLF(重低频声音)四个频带。高频带HF是高于或等于第一频率FH的频带。中频带MF是高于或等于第二频率FM且低于第一频率FH的频带。低频带LF是高于或等于第三频率FL且低于第二频率FM的频带。非常低频带VLF是低于第三频率FL的频带。例如，第一频率FH为1kHz。第二频率FM为500Hz。

第三频率FL是100Hz。

频带划分单元342将音频数据AD划分为高频带HF、中频带MF和低频带LF的三个波形数据PAD。非常低的频带VLF的波形数据由频带划分单元342划分。映射处理单元343将高频带HF、中频带MF和低频带LF的波形数据PAD映射到显示单元12或扬声器ASP。

用于感测声音图像的位置的声音图像定位能力根据声音的频率而变化。频率越高，声音图像定位能力越高。因此，映射处理单元343将音频数据AD中的具有最高频率的高频带HF的波形数据PAD映射至用作映射目的地的一个或多个显示单元12。通过从显示单元12输出具有高声音图像定位能力的高频带HF的声音，在声源的位置和声音图像的位置之间不太可能发生偏移。

如图7所示，当显示单元12的再现频率减小时，显示单元12的振动量增加。因此，当通过显示单元12再现具有低频率的声音时，观看者U可能识别由于振动引起的视频的晃动。因此，映射处理单元343将中频带MF和低频带LF(中低频)的波形数据PAD映射到第一阵列扬声器21和第二阵列扬声器22。

例如，映射处理单元343从布置在瓦片式显示器10周围的多个扬声器ASP中选择与音频数据AD的声源的位置对应的一个或多个扬声器ASP。映射处理单元343将音频数据AD中具有最低频率的低频带LF的波形数据PAD和高频带HF与低频带LF之间的中频带MF的波形数据PAD映射到所选择的一个或多个扬声器ASP。

显示单元12的振动的幅度根据再现的声音的声压(音量)而变化。当声压大时，振动大，并且当声压小时，振动小。因此，甚至在中间低频的波形数据PAD的情况下，映射处理单元343也可以在声压小时在显示单元12上映射中间低频的波形数据PAD。例如，在中低频带的波形数据PAD中声音图像定位能力大的中频带MF的波形数据PAD的幅度小于或等于预设阈值的情况下，映射处理单元343将中频带MF的波形数据PAD映射至显示单元12。结果，可以在抑制由于显示单元12的振动引起的图像抖动的同时增强声音图像定位能力。

甚至当声压高时，也可以通过增加要振动的显示单元12的数量来减少每片显示单元12的振动幅度。因此，映射处理单元343使中频带MF的波形数据PAD映射到的显示单元12的数量大于高频带HF的波形数据PAD映射到的显示单元12的数量。甚至利用该配置，也可以增强声音图像定位能力，同时抑制由于显示单元12的振动引起的图像抖动。

[1-4.显示单元的逻辑编号]

图8至图10是示出了显示单元12的逻辑编号的示图。

如图8所示，多个机柜11设置有基于每个机柜11的位置的逻辑编号L1。在图8的实例中，设定其中宽度方向是X方向并且高度方向是Y方向的XY坐标。在每个机柜11中，基于每个XY坐标上的位置来设置逻辑编号L1。例如，“CLX1CLY1”的逻辑编号L1被分配给定位在第一行和第一列中的机柜11。将“CLX5CLY2”的逻辑编号L1分配给位于第二列和第五行中的机柜11。

如图9所示，多个显示单元12附接至机柜11中的一个。附接至同一机柜11的多个显示单元12基于机柜11中的相应位置设置有逻辑编号L2。例如，“ULX1ULY1”的逻辑编号L2被分配给定位在机柜11的第一行和第一列中的显示单元12。将“ULX3ULY2”的逻辑编号量L2分配给位于机柜11的第二列和第三行中的显示单元12。

如图10所示，基于显示单元12所属的机柜11的位置以及显示单元12在机柜11中的位置，为每个显示单元12分配逻辑编号LN。例如，“CLX1CLY1-ULX1ULY1”的逻辑编号LN被分配给第一行和第一列的机柜11中的第一行和第一列中的显示单元12。逻辑号LN“CLX1CLY1-ULX2ULY1”被分配给第一行和第一列的机柜11中的第一行和第二列中的显示单元12。

[1-5.机柜与控制系统之间的连接形式]

图11和图12是示出机柜11与控制系统30之间的连接形式的实例的示图。

多个机柜11通过串行、并行或其组合连接到控制系统30。例如，在图11的实例中，多个机柜11串联连接至控制系统30。两个相邻的机柜11之间通过机柜板113的连接而彼此连接。多个机柜11上设置有机柜连接编号CEk(k为1至32的整数)。控制系统30根据机柜连接编号向多个机柜11输出视频输出信号和音频输出信号。

在图12的实例中，多个机柜11通过组合的串行连接和并行连接而连接至控制系统30。多个机柜11包括机柜连接编号CE1，m(l为1至8的整数)。m是从1至4的整数。控制系统30根据机柜连接编号向多个机柜11输出视频输出信号和音频输出信号。

[1-6.机柜与显示单元之间的连接形式]

图13是示出机柜11与显示单元12之间的连接形式的实例的示图。

由同一机柜11支撑的多个显示单元12并联连接到机柜板113。多个显示单元12通过机柜板113与控制系统30电连接。单元连接编号UE1到UE6附接到多个显示单元12。根据单元连接编号，视频输出信号和音频输出信号从机柜板113输出至多个显示单元12。

[2.第一实施方式]

[2-1.系统的图像]

图14是示出了音频/视频内容输出系统1应用于剧院CT1的实例的示图。

在剧院CT1中，使用基于声道的音频的音频内容AC。图14虚拟地示出了左声道LCH、中央声道CCH和右声道RCH的多声道扬声器的位置。

在使用声音屏幕的剧院中，多声道扬声器被布置在声音屏幕的后表面上。声音屏幕设置有大量微小的声音开孔。从多声道扬声器输出的音频经由声音开孔被输出到观看者侧(声音屏幕的前侧)。

然而，多个显示单元12没有任何间隙地铺设在瓦片式显示器10上。因此，在瓦片式显示器10中不能提供诸如声音开孔的孔。还可设想通过围绕瓦片式显示器10布置多声道扬声器来生成幻影声音图像的方法，但是在该方法中，声音图像正确定位的观看位置的范围窄。

因此，在剧院CT1中，左声道LCH、中央声道CCH和右声道RCH的音频数据AD被映射到瓦片式显示器10(显示单元12)。通过在屏幕SCR上直接再现用于多声道扬声器的音频数据AD，实现了像声音屏幕那样的视频和音频之间的统一感。

[2-2.基于声道的音频数据的映射处理]

图15是示出基于声道的音频的音频数据AD的映射处理的实例的示图。

基于声道的音频的音频内容AC被输入到计算单元34。音频内容AC包括针对每个声道生成的一个或多个音频数据AD。声源提取单元341从音频内容AC提取用作声源的每个声道的音频数据AD。在图15的实例中，提取对应于左声道LCH、中央声道CCH、右声道RCH和低声音增强声道LFE的四个音频数据AD。

从高频带HF到低频带LF的频带中的声音被分配给左声道LCH、中央声道CCH和右声道RCH的音频数据AD。将非常低频带VLF的频带中的声音分配给低声音增强声道LFE的音频数据AD。声源提取单元341将左声道LCH、中央声道CCH和右声道RCH的音频数据AD输出到频带划分单元342。声源提取单元341将低声音增强声道LFE的音频数据AD输出到低音炮23。

除了低声音增强声道LFE之外，频带划分单元342针对每个频带划分声道(左声道LCH、中央声道CCH、右声道RCH)的音频数据AD。例如，频带划分单元342将左声道LCH、中央声道CCH和右声道RCH中的每个的音频数据AD划分成高频带HF的波形数据PAD和中低频带的波形数据，并且将划分的数据输出到映射处理单元343。

映射处理单元343将从每个声道的音频数据AD提取的高频带HF的波形数据PAD和中低频带的波形数据PAD映射到由多声道扬声器的位置确定的一个或多个显示单元12和一个或多个扬声器ASP。从再现环境信息352中提取多声道扬声器的位置。在再现环境信息352中，例如，将多声道扬声器的中心部分所在的屏幕SCR上的坐标定义为多声道扬声器的位置。映射处理单元343提取以坐标为中心的屏幕SCR上的预定区域作为声源区域SR。

例如，映射处理单元343从再现环境信息352中提取左声道LCH的声源区域LSR、中央声道CCH的声源区域CSR和右声道RCH的声源区域RSR作为各个声道的声源区域SR。在图15的实例中，提取由暗影线表示的区域(在图15的实例中，在8个显示单元12上延伸的区域)作为声源区域SR。

映射处理单元343将左声道LCH的高频带HF的波形数据PAD映射到布置在左声道LCH的声源区域LSR中的一个或多个显示单元12。映射处理单元343将左声道LCH的中低频带的波形数据PAD映射到与左声道LCH的声源区域LSR布置在X轴上的相同位置处的一个或多个扬声器ASP。

在左声道LCH的高频带HF中的声压大的情况下，如果仅通过布置在声源区域LSR中的显示单元12来实现所设置的声压，则每个显示单元12的振动变大。当显示单元12的振动增加时，存在观看者U识别视频的抖动的可能性。

因此，映射处理单元343围绕声源区域LSR放大映射目的地。映射处理单元343还将波形数据PAD映射至布置在声源区域LSR周围的一个或多个显示单元12(在图15的实例中，由细影线表示的五个显示单元12)。映射处理单元343还根据高频带HF的波形数据PAD的映射目标的扩展，扩展中低频带的波形数据PAD的映射目标。结果，在高频带HF的声音图像和中低频带的声音图像之间不太可能发生偏移。

中央声道CCH和右声道RCH的波形数据PAD也通过相同的方法映射。

也就是说，映射处理单元343将中央声道CCH的高频带HF的波形数据PAD映射到布置在中央声道CCH的声源区域CSR中的一个或多个显示单元12。映射处理单元343将中央声道CCH的中低频带的波形数据PAD映射到布置在X轴上与声源区域CSR相同位置处的一个或多个扬声器ASP。当左声道LCH的高频带HF中的声压高时，映射处理单元343扩大声源区域CSR周围的映射目的地。映射处理单元343还根据高频带HF的波形数据PAD的映射目标的扩展，扩展中低频带的波形数据PAD的映射目标。

映射处理单元343将右声道RCH的高频带HF的波形数据PAD映射到布置在右声道RCH的声源区域RSR的一个或多个显示部12。映射处理单元343将右声道RCH的中低频带的波形数据PAD映射到布置在X轴上与声源区域RSR相同的位置处的一个或多个扬声器ASP。在右声道RCH的高频带HF内的声压大的情况下，映射处理单元343在声源区域RSR的周围扩展映射目的地。映射处理单元343还根据高频带HF的波形数据PAD的映射目标的扩展，扩展中低频带的波形数据PAD的映射目标。

映射处理单元343对映射到每个显示单元12的波形数据PAD执行串行化处理。映射处理单元343将通过串行化处理生成的用于显示单元12的音频输出信号输出至瓦片式显示器10。映射处理单元343基于映射到每个扬声器ASP的波形数据PAD生成用于扬声器ASP的声音输出信号，并且将声音输出信号输出到第一阵列扬声器21和第二阵列扬声器22。

[2-3.基于对象的音频的音频数据的映射处理]

图16和图17是示出基于对象的音频的音频数据AD的映射处理的实例的示图。

如图16所示，基于对象的音频的音频内容AC被输入到计算单元34。音频内容AC包括针对每个对象生成的一个或多个音频数据AD。声源提取单元341从音频内容AC提取用作声源的每个对象的音频数据AD。

在图16的实例中，人物轻弹手指的视频显示在屏幕SCR上。音频内容AC包括弹手指的声音(对象)的音频数据AD和指示弹手指的位置(对象的位置OB)的元数据信息。在图16的实例中，对象的数量为一个，但是对象的数量不限于一个。如图17所示，不同的对象可布置在多个位置OB处。在这种情况下，声源提取单元341从音频内容AC中提取对应于不同对象的多个音频数据AD。

频带划分单元342针对每个频带划分高于或等于低频带LF的音频数据AD的波形数据。例如，频带划分单元342将对象的音频数据AD划分为高频带HF的波形数据PAD和中低频带的波形数据，并将划分数据输出到映射处理单元343。

映射处理单元343将从对象的音频数据AD提取的高频带HF和中低频带的波形数据PAD映射到与对象的位置OB对应的一个或多个显示单元12和一个或多个扬声器ASP。在元信息中将对象的位置OB定义为例如水平角、仰角、以及与预设观看位置的距离的信息。映射处理单元343提取以位置OB为中心的屏幕SCR上的预定区域作为声源区域OSR。在图16的实例中，提取声源区域OSR为具有对应于由暗阴影线指示的一个显示单元12的尺寸的区域。

应注意，图16示出相应声道的声源区域LSR、CSR、以及RSR以及对象的声源区域OSR同时呈现为声源区域SR的状态。

映射处理单元343将对象的高频带HF的波形数据PAD映射到布置在对象的声源区域SR中的一个或多个显示单元12。映射处理单元343将对象的中低频带的波形数据PAD映射到布置在X轴上与对象的声源区域OSR相同的位置处的一个或多个扬声器ASP。

当对象的高频带HF中的声压高时，映射处理单元343在声源区域SR周围扩大映射目的地(在图16的实例中，由细阴影线表示的三个显示单元12)。映射处理单元343还根据高频带HF的波形数据PAD的映射目标的扩展，扩展中低频带的波形数据PAD的映射目标。

映射处理单元343对映射到每个显示单元12的波形数据PAD执行串行化处理。映射处理单元343将通过串行化处理生成的用于显示单元12的音频输出信号输出至瓦片式显示器10。映射处理单元343对映射到每个扬声器ASP的波形数据PAD执行串行化处理。映射处理单元343将通过串行化处理生成的扬声器ASP的音频输出信号输出到第一阵列扬声器21和第二阵列扬声器22。

[2-4.使用DNN引擎的声源布置]

图18是示出基于声道的音频的音频数据AD的映射处理的另一实例的示图。

基于声道的音频的音频内容AC被输入到计算单元34。声源提取单元341使用声源分离技术从音频内容AC提取每个声源SS的音频数据AD。作为声源分离技术，使用诸如盲信号源分离的已知声源分离技术。在图18的实例中，出现在屏幕SCR上的每个人物是声源SS。声源提取单元341提取作为声源SS的人物的语音作为每个声源SS的音频数据AD。要注意的是，在图18的实例中，作为声源SS提取声源SS1、声源SS2以及声源SS3。然而，声源SS的数量N不限于此。声源SS的数量N可以是一个或多个的任意数量。

声源SS的位置由声源位置估计单元345估计。例如，声源位置估计单元345使用DNN引擎将由声源提取单元341提取的一个或多个音频数据AD和视频内容AC应用于分析模型351。基于分析模型351的分析结果，声源提取单元341针对每个声源SS，估计其上显示声源SS的屏幕SCR上的位置作为声源区域SR。

针对每个声源SS，映射处理单元343将声源SS的音频数据AD映射到布置在声源SS的位置处的一个或多个显示单元12。映射处理单元343基于映射结果对每个声源SS的音频数据AD执行串行化处理。映射处理单元343将通过串行化处理获得的音频输出信号输出至瓦片式显示器10。

例如，在图18的实例中，声源SS1的声源区域SR1被估计为在四个显示单元12上延伸的区域。在声源SS1的语音小的情况下，映射处理单元343选择其中布置声源区域SR1的四个显示单元12作为声源SS1的音频数据AD的映射目的地。

声源SS2的声源区域SR2被估计为在两个显示单元12上延伸的区域。在声源SS2的语音较大的情况下，映射处理单元343选择其中布置声源区域SR2的两个显示单元12(具有暗影线的显示单元12)以及围绕两个显示单元布置的五个显示单元12(具有亮影线的显示单元12)作为声源SS2的音频数据AD的映射目的地。

声源SS3的声源区域SR3被估计为在两个显示单元12上延伸的区域。在声源SS3的语音较小的情况下，映射处理单元343选择其中布置声源区域SR3的两个显示单元12作为声源SS3的音频数据AD的映射目的地。

[2-5.在深度方向上的声音图像的控制]

图19至图22是用于说明在深度方向上控制声音图像的方法的示图。

声音图像在深度方向上的位置通过已知的信号处理(诸如单极合成、波场合成(WFS)、频谱分割方法和模式匹配)来控制。

例如，如图20和图21所示，假设多个点声源PS布置在参考面RF上。当适当地控制多个点声源PS的声压和相位时，产生在远离参考面RF的位置处具有焦点FS的声场。声音图像定位在焦点FS处。如图20所示，当焦点FS移动得比参考面RF更深时，生成远离观看者U移动的声音图像。如图21中所示，当焦点FS移动到参考面RF的前面时，生成接近观看者U的声音图像。

点声源PS对应于各个显示单元12或扬声器ASP。参考面RF对应于瓦片式显示器10的屏幕SCR或阵列扬声器(第一阵列扬声器21和第二阵列扬声器22)的音频输出面。

如图19中所示，映射处理单元343使用有限脉冲响应(FIR)滤波器控制从作为映射目的地的显示单元12和扬声器ASP输出的声音的声压和相位。

映射处理与图16中示出的映射处理相似，不同之处在于，使用FIR滤波器的数字滤波器处理应用于波形数据PAD。即，由声源提取单元341提取的音频数据AD由频带划分单元342分为高频带HF的波形数据PAD和中低频带的波形数据PAD。高频带HF的波形数据PAD被映射在对应于对象的位置OB的n(n是2或更大的整数)个显示单元12上。中低频带的波形数据PAD被映射到对应于对象的位置OB的m(m为2或更大的整数)个扬声器ASP上。

映射处理单元343使用FIR滤波器对高频带HF的波形数据PAD执行数字滤波处理。针对每个显示单元12，映射处理单元343通过数字滤波处理调整从高频带HF的波形数据PAD将被映射到的n个显示单元12输出的声音的声压和相位。映射处理单元343针对每个显示单元12通过调整从显示单元12输出的声音的声压和相位来控制声音图像在深度方向上的位置。

映射处理单元343对中低频带的波形数据PAD执行使用FIR滤波器的数字滤波处理。映射处理单元343针对每个扬声器ASP通过数字滤波处理将从将作为中低频带的波形数据PAD的映射目的地的m个扬声器ASP输出的声音的声压和相位进行调整。针对每个扬声器ASP，映射处理单元343通过调整从扬声器ASP输出的声音的声压和相位来控制声音图像在深度方向上的位置。

[2-6.声音图像的定位和增强控制]

[2-6-1.通过频带放大增强声音图像定位能力]

图22是示出用于声音图像的定位和增强控制技术的实例的示图。

图22示出了在高频带HF中具有低声压级的音频数据AD。当音频数据AD受到频带划分时，产生具有低声压的高频带HF的波形数据PAD。声音图像定位能力根据高频带HF的波形数据PAD的声压而改变。因此，映射处理单元343通过使用高频插值技术从高频带HF的声压水平小于阈值TH的音频数据AD中生成其中高频带HF的声压水平高于或等于阈值TH的校正音频数据CAD。映射处理单元343将校正后的音频数据CAD的高频带HF的波形数据PAD映射至用作映射目标的一个或多个显示单元12。

[2-6-2.通过前面的声音效果增强声音图像定位能力]

图23是示出声音图像的定位和增强控制技术的另一实例的示图。

图23示出了音频数据AD的频带与相位之间的关系。相位与声音的输出定时相关。在原始音频数据AD中，同时输出具有低声音图像定位能力的中低频带和非常低频带VLF中的声音和具有高声音图像定位能力的高频带HF中的声音。

因此，映射处理单元343将输出高频带HF的波形数据PAD的定时设置为与输出中低频带和非常低频带VLF的波形数据PAD的定时相同的定时，或者设置为比输出中低频带和非常低频带VLF的波形数据PAD的定时更早。通过首先输出高频带HF的声音，观看者U可以快速地识别声音图像的位置。在输出中低频带和非常低频带VLF的声音的时段期间，观看者U可以将在由高频带HF的声音定位的位置处的声音图像识别为先前的声音。

[2-7.扬声器单元的布置]

图24是示出了扬声器单元20的布置实例的示图。

用于容纳第一阵列扬声器21的壳体附接到瓦片式显示器10的最上面的机柜11。用于容纳第二阵列扬声器22的壳体附接到瓦片式显示器10的最下面的机柜11。壳体设置有用作声音引导部SSG的狭缝。狭缝的宽度比扬声器ASP的直径窄。从扬声器ASP输出的声音经由声音引导部SSG发射到壳体的外部。声音引导部SSG靠近瓦片式显示器10的边缘布置。由于声音从瓦片式显示器10的边缘输出，所以可以获得高声音图像定位能力。

应注意，如放大图所示，扬声器ASP可容纳在机柜11中。在这种情况下，具有内置的具有声音引导部SSG的扬声器的端部专用机柜布置在瓦片式显示器10的最上阶和最下阶。

[2-8.检测显示单元的位置的方法]

图25是示出检测显示单元12的位置的方法的实例的示图。图26是示出用于检测显示单元12的位置的麦克风MC的布置的示图。

如图25所示，具有麦克风的显示单元12M布置在瓦片式显示器10的四个角部处。如图26中所示，麦克风MC附接至具有麦克风的显示单元12M的后表面。将作为声音引导部CSG的切口形成在具有麦克风的显示单元12M的一个角部处。麦克风MC布置在其中形成有切口的具有麦克风的显示单元12M的角部附近。

位置检测单元344基于从显示单元12输出的声音(脉冲)被发送到设置在多个位置处的麦克风MC的时间来检测显示单元12的空间位置。位置检测单元344基于每个显示单元12的空间布置来向每个显示单元12分配逻辑编号LN。

例如，针对每个机柜11，位置检测单元344选择一个显示单元12，并且使所选择的显示单元12输出声音(脉冲)。位置检测单元344从每个麦克风MC获取关于声音传输时间的测量数据MD。位置检测单元344基于从每个麦克风MC获取的测量数据MD来检测机柜11的空间位置。

在再现环境信息352中指定机柜11中的显示单元12的布置。位置检测部344根据再现环境信息352中定义的配置信息来检测机柜11与保持在机柜11中的每个显示部12之间的相对位置。位置检测部344基于机柜11的位置以及每个显示部12相对于机柜11的相对位置来检测每个显示部12的位置。

如果在瓦片式显示器10的前表面上存在反射声音的障碍物，则准确的测量可能是不可能的。在这种情况下，通过将麦克风MC安装在以恒定密度布置的所有显示单元12或多个显示单元12中来提高测量精度。注意，麦克风MC还可以用于从显示单元12输出的声音的声学校正。

图27是示出用于检测显示单元12的位置的方法的另一实例的示图。

在图27的实例中，多个麦克风MC布置在瓦片式显示器10的外部。虽然麦克风MC的位置不同，但是位置检测单元344可以通过与图25中描述的方法类似的方法来检测每个显示单元12的位置。在图27的实例中，没有必要提供用于将声音传输到瓦片式显示器10上的麦克风MC的声音引导部CSG。因此，几乎不会发生由于声音引导部CSG引起的图像质量劣化。

[2-9.再现声音的方向性控制]

图28是用于说明再现声音DS的方向性控制的示图。

再现声音DS的方向性通过配置的多个点声源的波前的干涉来控制。例如，通过在高度方向上排列的多个点状声源的波前的干涉，来控制再现声音DS在高度方向上的方向性。再现声音DS的宽度方向的方向性由沿宽度方向排列的多个点状声源的波前的干涉来控制。点声源对应于各个显示单元12或扬声器ASP。例如，映射处理单元343使用FIR滤波器单独地控制从作为映射目的地的每个显示单元12和扬声器ASP输出的声音的声压和相位。

映射处理与图15中示出的映射处理相似，除了使用FIR滤波器的数字滤波器处理应用于波形数据PAD。即，由声源提取单元341提取的音频数据AD由频带划分单元342分为高频带HF的波形数据PAD和中低频带的波形数据PAD。高频带HF的波形数据PAD被映射到对应于多声道扬声器的位置的n(n是2或更大的整数)个显示单元12上。中低频带的波形数据PAD被映射到对应于多声道扬声器的位置的m(m为2或更大的整数)个扬声器ASP。

映射处理单元343使用FIR滤波器对高频带HF的波形数据PAD执行数字滤波处理。处理针对每个显示单元12，映射处理单元343通过数字滤波调整从高频带HF的波形数据PAD将被映射到的n个显示单元12输出的声音的声压和相位。映射处理单元343通过调整从每个显示单元12的显示单元12输出的声音的声压和相位来控制声学特性，诸如再现声音DS的方向性和观看区域VA中的声压的均匀性。

映射处理单元343对中低频带的波形数据PAD执行使用FIR滤波器的数字滤波处理。映射处理单元343针对每个扬声器ASP通过数字滤波处理对从将作为波形数据PAD的映射目的地的m个扬声器ASP输出的声音的声压和相位进行调整。针对每个扬声器ASP，映射处理单元343通过调整从扬声器ASP输出的声音的声压和相位来控制声学特性，诸如再现声音DS的方向性和观看区域VA中的声压的均匀性。

图29为示出为每个观看者U分配不同的再现声音DS的一个实例的示图。

一个或多个相机CA安装在瓦片式显示器10附近。每个相机CA是能够捕获瓦片式显示器10的前方图像的广角相机。在图29的实例中，为了覆盖瓦片式显示器10的整个观看区域VA，在瓦片式显示器10的宽度方向上的每一侧上安装一个相机CA。

控制系统30基于从每个相机CA获取的图像捕获数据来检测存在于观看区域VA中的观看者U的数量和每个观看者U的位置。在瓦片式显示器10上，在屏幕SCR上的不同位置处显示针对每个观看者U设置的多个声源SS的视频。对于每个声源SS，映射处理单元343选择与声源SS的显示位置对应的多个显示单元12作为声源SS的音频数据AD的映射目的地。映射处理单元343基于每个观看者U的位置信息为每个观看者U生成并输出从声源SS朝向观看者U具有高方向性的再现声音DS。

[2-10.信息处理方法]

图30为示出由控制系统30执行的信息处理方法的实例的流程图。

在步骤S1中，声源提取单元341从音频内容AC提取一个或多个音频数据AD。作为音频内容AC，可使用各种类型的音频内容，诸如基于声道的音频、基于对象的音频和基于场景的音频。例如，声源提取单元341从音频内容AC提取用作声源的针对每个频道或每个对象生成的一个或多个音频数据AD。

在步骤S2中，映射处理单元343为每个音频数据AD选择用作音频数据AD的映射目的地一个或多个显示单元12以及一个或多个扬声器ASP。例如，映射处理单元343在屏幕SCR上检测与多声道扬声器的位置或对象的位置OB对应的声源区域SR。映射处理单元343选择与声源区域SR对应的一个或多个显示单元12和一个或多个扬声器ASP作为映射目的地。映射处理单元343基于音频数据AD的声压、声音图像在深度方向上的位置、再现声音DS的方向性等将映射目的地扩展至声源区域SR的外部。

在步骤S3中，映射处理单元343将音频数据AD输出至用作映射目的地的一个或多个显示单元12和一个或多个扬声器ASP，并且将声音图像定位至与声源相关联的位置(声源区域SR或在深度方向上从声源区域SR偏移的位置)。

[2-11.效果]

控制系统30包括声源提取单元341和映射处理单元343。声源提取单元341从音频内容AC提取对应于不同声源的一个或多个音频数据AD。映射处理单元343从包括声音产生机构的一个或多个可组合显示单元12中选择将作为针对每个音频数据AD的映射目的地的一个或多个显示单元12。在本实施例的信息处理方法中，上述控制系统30的处理由计算机执行。本实施例的程序使计算机实现上述的控制系统30的处理。

根据该配置，音频数据AD通过显示单元12直接再现。因此，容易获得视频和音频之间的统一感。

音频数据AD是从基于声道的音频的音频内容AC提取的用于多声道扬声器的音频数据。映射处理单元343选择通过多声道扬声器的布置而确定的一个或多个显示单元12作为映射目的地。

根据此配置，可获得如同多声道扬声器布置在屏幕SCR前方的强大声音。

音频数据AD是从基于对象的音频的音频内容AC提取的对象的音频数据。映射处理单元343选择与从音频内容AC提取的对象的位置OB对应的一个或多个显示单元12作为映射目的地。

根据此配置，对象的声音图像可定位于对象的位置OB处。

控制系统30包括声源位置估计单元345。声源位置估计单元345针对每个音频数据AD估计显示音频数据AD的声源SS的位置。映射处理单元343选择与显示声源SS的位置相对应的一个或多个显示单元12作为映射目的地。

根据该配置，声源SS的声音图像可位于显示声源SS的位置。

映射处理单元针对每个显示单元12通过调整从用作映射目的地的多个显示单元12输出的声音的声压和相位来控制声音图像在深度方向上的位置。

根据该配置，容易控制声音图像在深度方向上的位置。

控制系统30包括频带划分单元342。频带划分单元342针对每个频带划分音频数据AD。映射处理单元343将音频数据AD中的具有最高频率的高频带HF的波形数据PAD映射至用作映射目的地的一个或多个显示单元12。

根据该配置，从显示单元12输出具有高声音图像定位能力的高频带HF内的声音。因此，在声源的位置和声音图像的位置之间几乎不会发生偏移。

映射处理单元343从布置在多个显示单元12周围的多个扬声器ASP中选择与音频数据AD的声源的位置对应的一个或多个扬声器ASP。映射处理单元343将音频数据AD中具有最低频率的低频带LF的波形数据PAD和高频带HF与低频带LF之间的中频带MF的波形数据PAD映射到所选择的一个或多个扬声器ASP。

根据该配置，从扬声器ASP输出具有比高频带HF低的声像定位能力的中频带MF和低频带LF的声音。因为从显示单元12输出的声音仅是高频带HF的声音，所以当输出声音时显示单元12的振动被最小化。

映射处理单元343从高频带HF的声压级小于阈值的音频数据AD中生成其中高频带HF的声压级高于或等于阈值的校正音频数据CAD。映射处理单元343将校正后的音频数据CAD的高频带HF的波形数据PAD映射至用作映射目标的一个或多个显示单元12。

根据该配置，即使对于在高频带HF中具有低声压级的音频数据AD，也可获得高声音图像定位能力。

映射处理单元343将输出高频带HF的波形数据PAD的定时设置为与输出中频带MF和低频带LF的波形数据PAD的定时相同的定时，或者设置为早于输出中频带MF和低频带LF的波形数据PAD的定时。

根据该配置，具有高声音图像定位能力的高频带HF的波形数据PAD的输出定时被提前。因此，音频数据AD的声音图像定位能力通过上述声音效果增强。

控制系统30包括位置检测单元344。位置检测单元344检测多个显示单元12的空间布置。位置检测单元344基于所检测的空间布置来向显示单元12中的每个分配逻辑编号LN。映射处理单元343基于逻辑编号LN指定映射目的地。

根据该配置，可以自动执行显示单元12的寻址。

位置检测单元344基于从显示单元12输出的声音被发送到设置在多个位置的每个麦克风MC的时间来检测显示单元12的空间布置。

根据该配置，可容易地检测显示单元12的空间布置。

映射处理单元针对每个显示单元12通过调整从作为映射目的地的多个显示单元12输出的声音的声压和相位来控制再现声音DS的方向性。

根据该配置，再现声音DS的方向性由从显示部12输出的波面的干涉来控制。

[3.第二实施方式]

[3-1.系统的图像]

图31和图32是示出了音频/视频内容输出系统1应用于剧院CT2的实例的示图。

如图31所示，剧院CT2是能够显示全天球图像(entire-celestial-spherepicture)的剧院。如图32所示，布置瓦片式显示器10以完全覆盖客人座椅ST的前表面、右表面和左表面、顶表面和底表面。通过安装在所有方向上的大量显示单元12从所有方向再现声音。

[3-2.扬声器单元的布置]

图33是示出扬声器单元20的布置实例的示图。

在剧院CT2中，大量显示单元12在所有方向上无间隙地布置。因此，扬声器单元20的安装空间受到限制。例如，在第一实施例中，用于中低频带的扬声器单元20(第一阵列扬声器21和第二阵列扬声器22)沿着瓦片式显示器10的上侧和下侧安装。然而，在剧院CT2中，由于瓦片式显示器10安装在所有方向上，因此没有用于安装第一阵列扬声器21和第二阵列扬声器22的空间。

因此，在剧院CT2中，针对中低频带低音炮，24安装在客人座椅ST的座椅的肩部上作为扬声器单元20。作为用于非常低频带VLF的扬声器单元20的低音炮23被安装在座位下方。从显示单元12输出具有高声音图像定位能力的高频带HF的声音。通过将扬声器单元20安装在片材上，缩短从扬声器单元20到观看者U的距离。因此，不需要再现不必要的声压。因此，抑制了剧院CT2中的不必要的混响。

图34是示出扬声器单元20的布置的另一实例的示图。

在图34的实例中，开放式耳机EP佩戴在观看者U的耳朵UE上，作为用于中低频带的扬声器单元20。耳机EP在耳孔部分中具有开口部分OP。观看者U可以经由开口部OP听到从显示单元12输出的声音。扬声器单元20不一定是耳机EP，并且可以是能够由观看者U佩戴的可佩戴声音设备(开放式耳机、肩部扬声器等)。而且，在图34的实例中，缩短从扬声器单元20到观看者U的距离。因此，不需要再现不必要的声压，并且抑制不必要的混响。

[3-3.通过内置麦克风的空间特性和混响消除的测量]

图35为示出用于测量空间特性的麦克风MC的布置的示图。

因为瓦片式显示器10覆盖所有方向，所以在彼此面对的屏幕部分之间发生声音反射，并且会降低定位的感觉。因此，控制系统30基于预先测量的剧院CT2的空间特性控制每个显示单元12的声压和相位，并且减少混响。麦克风MC的布置类似于图26中所描述的。在图26的实例中，麦克风MC仅安装在特定显示单元12中，但是在本实施方式中，麦克风MC安装在所有显示单元12中。

使用内置在每个显示单元12中的麦克风MC测量剧院CT2的空间特性。例如，在剧院CT2中，针对每个显示单元12，测量显示单元12相对于所有其他显示单元(麦克风MC)的输出声音的输出特性。通过该测量，测量波前的传输特性(频率和声压为变量的传输特性，以及频率和相位(包括传输时间)为变量的传输特性)。基于透射特性检测剧院CT2的空间特性。剧院CT2的空间特性被存储在存储单元35中作为再现环境信息352。

基于剧院CT2的空间特性，针对每个显示单元12，映射处理单元343调整从将被映射的多个显示单元12输出的声音的声压和相位，并且减少混响。例如，被选择作为映射目的地的显示单元12被设置为映射目的地单元，而未被选择作为映射目的地的显示单元12被设置为非映射目的地单元。当从映射目的地单元输出的声音到达非映射目的地单元并且被反射时，映射处理单元343使非映射目的地单元再现具有与一次反射波前相反的相位的声音。结果，减少了由于非映射目的地单元中的反射引起的混响。

[4.第三实施方式]

[4-1.系统的图像]

图36是示出音频/视频内容输出系统1被应用于远程呈现系统TP的实例的示图。

远程呈现系统TP是通过连接远程位置进行双向视频和音频会议的系统。整个墙壁是显示远程位置的图像的瓦片式显示器10。第一远程位置处的观看者U1的视频和音频从第二远程位置处的瓦片式显示器10B输出至观看者U2。第二远程位置处的观看者U2的视频和音频从第一远程位置处的瓦片式显示器10A输出至观看者U1。

[4-2.对象声音的声音收集和再现]

图37为示出对象声音的声音收集处理和再现处理的实例的示图；

一个或多个相机CA安装在瓦片式显示器10附近。每个相机CA是能够捕获瓦片式显示器10的前方图像的广角相机。在图37的实例中，为了覆盖瓦片式显示器10的整个观看区域VA，在瓦片式显示器10的宽度方向上的每一侧上安装一个相机CA。

在第一远程位置，基于每个相机CA的图像捕获数据来检测存在于观看区域VA中的观看者U1的数量、每个观看者U1的位置、每个观看者U1的嘴的运动等。通过内置在每个显示单元12中的高方向性麦克风收集观看者U1的语音作为输入声音IS。控制系统30A向DNN输入相机CA的声音收集数据和成像数据以执行声源分离，并且使用充当声源的观看者U1的语音作为对象来生成音频内容AC。控制系统30A利用使用相机CA的成像数据的视频内容和利用输入声音IS生成的音频内容AC生成内容数据CD。

第二远程位置处的控制系统30B经由网络NW获取由第一远程位置处的控制系统30A生成的内容数据CD。控制系统30B从内容数据CD将音频内容AC和视频内容VC分离。控制系统30B使用视频内容VC在瓦片式显示器10B上的第一远程位置再现观看者U1的视频。控制系统30B使用音频内容AC通过瓦片式显示器10B和多个扬声器单元20B再现在第一远程位置的观看者U1的音频。音频内容AC的再现处理与图16中所示的相似。

当再现音频内容AC时，控制系统30B基于从每个相机CA获取的图像捕获数据来检测存在于观看区域VA中的观看者U2的数量和每个观看者U2的位置。在瓦片式显示器10B上，在屏幕SCR上显示在该第一远程位置处的观看者U1的视频，该视频是该物体的声源。映射处理单元343选择对应于对象的位置(观看者U1的语音)的多个显示单元12作为对象的音频数据AD的映射目的地。基于每个观看者U2的位置信息，映射处理单元343为每个观看者U2生成并输出再现声音DS，该再现声音DS具有从作为映射目的地的多个显示单元12朝向观看者U2的高方向性。再现声音DS的方向的控制方法与图29所示的方法相同。

[5.第四实施方式]

图38是示出音频/视频内容输出系统1被应用于数字标牌系统DSS的实例的示图。

数字标牌系统DSS是使用数字视频装置而不是传统的招牌或纸质海报来发送信息的系统。建筑物、通道的墙壁等是显示图像的瓦片式显示器10。在数字标牌系统DSS中，为每个观看者U生成数字广告DC。在瓦片式显示器10上，在屏幕SCR上的不同位置处显示针对每个观看者U生成的多个数字广告DC。针对用作生源的每个数字广告DC，映射处理单元343选择与数字广告DC的显示位置对应的多个显示单元12作为数字广告DC的音频数据AD的映射目的地。映射处理单元343基于每个观看者U的位置信息，针对每个观看者U生成并输出具有从数字广告DC的显示位置朝向观众U的高方向性的再现声音。

应注意，在本说明书中描述的效果仅是示例并且不受限制，并且可以提供其他效果。

[补充说明]

应注意，本技术还可具有以下配置。

(1)一种信息处理设备，包括：

声源提取单元，从音频内容中提取与不同的声源对应的一个或多个音频数据；以及

映射处理单元，针对每个音频数据，从包括声音产生机构的一个或多个可组合显示单元中选择用作所述音频数据的映射目的地的一个或多个显示单元。

(2)根据(1)所述的信息处理设备，其中

音频数据包括从基于声道的音频的音频内容中提取的用于多声道扬声器的音频数据，以及

映射处理单元选择由多声道扬声器的布置确定的一个或多个显示单元作为映射目的地。

(3)根据(1)所述的信息处理设备，其中

音频数据包括从基于对象的音频的音频内容提取的对象的音频数据，以及

映射处理单元选择与从音频内容提取的对象的位置对应的一个或多个显示单元作为映射目的地。

(4)根据(1)所述的信息处理设备，进一步包括

声源位置估计单元，针对每个音频数据估计显示音频数据的声源的位置，

其中，映射处理单元选择与显示声源的位置对应的一个或多个显示单元作为映射目的地。

(5)根据(3)或(4)所述的信息处理设备，其中

映射处理单元针对每个显示单元调整从作为映射目的地的多个显示单元输出的声音的声压和相位，以控制声音图像在深度方向上的位置。

(6)根据(1)至(5)中任一项所述的信息处理设备，进一步包括频带划分单元，为每个频带划分音频数据，

其中，映射处理单元将音频数据中的具有最高频率的高频带的波形数据映射至用作映射目的地的一个或多个显示单元。

(7)根据(6)所述的信息处理设备，其中

映射处理单元从布置在多个显示单元周围的多个扬声器中选择与音频数据的声源的位置对应的一个或多个扬声器，并将音频数据中具有最低频率的低频带的波形数据和高频带和低频带之间的中频带的波形数据映射到选择的一个或多个扬声器。

(8)根据(6)或(7)所述的信息处理设备，其中

映射处理单元从高频带中的声压级小于阈值的音频数据生成高频带中的声压级高于或等于阈值的校正音频数据，并且将校正音频数据的高频带的波形数据映射至用作映射目的地的一个或多个显示单元。

(9)根据(7)所述的信息处理设备，

映射处理单元将输出高频带的波形数据的定时设置为与输出中频带和低频带的波形数据的定时相同的定时或者早于输出中频带和低频带的波形数据的定时。

(10)根据(1)至(9)中任一项所述的信息处理设备，进一步包括

位置检测单元，检测多个显示单元的空间布置并且基于空间布置将逻辑号分配给每个显示单元，

其中，映射处理单元基于逻辑编号指定映射目的地。

(11)根据(10)所述的信息处理设备，其中

位置检测单元基于从显示单元输出的声音被传输至设置在多个位置处的每个麦克风的时间检测显示单元的空间布置。

(12)根据(1)至(11)中任一项所述的信息处理设备，其中

映射处理单元针对每个显示单元调整从作为映射目的地的多个显示单元输出的声音的声压和相位以控制再现声音的方向性。

(13)根据(1)至(12)中任一项所述的信息处理设备，其中

映射处理单元针对每个显示单元调整从作为映射目的地的多个显示单元输出的声音的声压和相位以减少混响。

(14)一种由计算机执行的信息处理方法，所述方法包括：

从音频内容中提取对应于不同声源的一个或多个音频数据；以及

对于每个音频数据，从包括声音产生机构的一个或多个可组合显示单元选择用作所述音频数据的映射目的地的一个或多个显示单元。

(15)一种程序，使计算机实现：

对于每个音频数据，从包括声音产生机构的一个或多个可组合显示单元选择用作音频数据的映射目的地的一个或多个显示单元。

参考标号列表

12显示单元

30控制系统(信息处理设备)

341 声源提取单元

342 频带划分单元

343 映射处理单元

344 位置检测单元

345 声源位置估计单元

AC音频内容

AD音频数据。

Claims

1.一种信息处理设备，包括：

2.根据权利要求1所述的信息处理设备，其中

所述音频数据包括从基于声道的音频的音频内容中提取的用于多声道扬声器的音频数据，以及

所述映射处理单元选择由所述多声道扬声器的布置确定的一个或多个显示单元作为所述映射目的地。

3.根据权利要求1所述的信息处理设备，其中

所述音频数据包括从基于对象的音频的音频内容提取的对象的音频数据，以及

所述映射处理单元选择与从音频内容提取的对象的位置对应的一个或多个显示单元作为所述映射目的地。

4.根据权利要求1所述的信息处理设备，进一步包括

声源位置估计单元，针对每个音频数据估计显示所述音频数据的声源的位置，

其中，所述映射处理单元选择与显示声源的位置对应的一个或多个显示单元作为所述映射目的地。

5.根据权利要求3所述的信息处理设备，其中

所述映射处理单元针对每个显示单元调整从作为所述映射目的地的多个显示单元输出的声音的声压和相位，以控制声音图像在深度方向上的位置。

6.根据权利要求1所述的信息处理设备，进一步包括

频带划分单元，为每个频带划分音频数据，

其中，所述映射处理单元将音频数据中的具有最高频率的高频带的波形数据映射至用作映射目的地的一个或多个显示单元。

7.根据权利要求6所述的信息处理设备，其中

所述映射处理单元从布置在多个显示单元周围的多个扬声器中选择与音频数据的声源的位置对应的一个或多个扬声器，并将所述音频数据中具有最低频率的低频带的波形数据和高频带和低频带之间的中频带的波形数据映射到选择的一个或多个扬声器。

8.根据权利要求6所述的信息处理设备，其中

所述映射处理单元从所述高频带中的声压级小于阈值的音频数据生成所述高频带中的声压级高于或等于所述阈值的校正音频数据，并且将所述校正音频数据的高频带的波形数据映射至用作所述映射目的地的一个或多个显示单元。

9.根据权利要求7所述的信息处理设备，

所述映射处理单元将输出所述高频带的波形数据的定时设置为与输出所述中频带和所述低频带的波形数据的定时相同的定时或者早于输出所述中频带和所述低频带的波形数据的定时。

10.根据权利要求1所述的信息处理设备，进一步包括

位置检测单元，检测多个显示单元的空间布置并且基于所述空间布置将逻辑编号分配给每个显示单元，

其中，所述映射处理单元基于逻辑编号指定所述映射目的地。

11.根据权利要求10所述的信息处理设备，其中

所述位置检测单元基于从所述显示单元输出的声音被传输至设置在多个位置处的每个麦克风的时间检测所述显示单元的空间布置。

12.根据权利要求1所述的信息处理设备，其中

所述映射处理单元针对每个显示单元调整从作为所述映射目的地的多个显示单元输出的声音的声压和相位以控制再现声音的方向性。

13.根据权利要求1所述的信息处理设备，其中

所述映射处理单元针对每个显示单元调整从作为所述映射目的地的多个显示单元输出的声音的声压和相位以减少混响。

14.一种由计算机执行的信息处理方法，所述方法包括：

对于每个音频数据，从包括声音产生机构的一个或多个可组合显示单元中选择用作所述音频数据的映射目的地的一个或多个显示单元。

15.一种程序，使计算机实现：