CN114173256A

CN114173256A - 一种还原声场空间及姿态追踪的方法、装置和设备

Info

Publication number: CN114173256A
Application number: CN202111508981.7A
Authority: CN
Inventors: 王薇娜; 张鑫; 崔强; 高峰; 王惠
Original assignee: CHINA FILM SCIENCE AND TECHNOLOGY INST
Current assignee: CHINA FILM SCIENCE AND TECHNOLOGY INST
Priority date: 2021-12-10
Filing date: 2021-12-10
Publication date: 2022-03-11
Anticipated expiration: 2041-12-10
Also published as: CN114173256B

Abstract

本发明公开了一种还原声场空间及姿态追踪的方法、装置和设备。本发明提供的方法为：判断输入音频格式，如果为Ambisonic格式音频则直接进行下一步骤，如果为基于声道的音频，则对音频进行空间声场渲染并转换为Ambisonic格式音频，如果为对象音频，则将音频转换为Ambisonic格式音频；在还音过程中实时获取用户的头部姿态参数，对Ambisonics格式音频进行声源方位还原渲染；最后经过双耳化处理，得到用于耳机播放的全景声音频信号。本发明对于基于声道的音频，在进行声场空间渲染时充分考虑了影院的空间影响，更好地还原声场空间，同时在耳机还音过程中，实现了对声源方位的相应调整，达到实时跟踪声源的目的，使得通过耳机还音时更符合现实中扬声器还音的模式效果。

Description

一种还原声场空间及姿态追踪的方法、装置和设备

技术领域

本申请涉及声音处理技术领域，特别是涉及一种还原声场空间及姿态追踪的方法、装置和设备。

背景技术

传统在影院观影的观影方式十分受大众认可，但因为影院分布不均、建设影厅需要更严格基建硬件环境等限制，观影方式越来越多元化。例如以移动智能设备或耳机作为还音单元的更灵活的“观影放映”方式逐渐崭露头角，这种观影方式也存在着相当多的受众。用耳机作为露天或户外观影还音的优点显而易见：一方面，封闭式的声音输出使得噪音污染几乎为零，更容易向居民区等对噪音敏感的区域推广；另一方面，戴上耳机，能够将开放式环境中的各种声音干扰屏蔽，同时此观影方式不受制于场所环境以及观影位置的限制，使得观影体验更加的自由。

然而，在以耳机作为还音单元观影时，实际的还音效果并不符合现实中通过扬声器还音的模式效果，这在很大程度上影响了全景声播放效果。

发明内容

基于此，本发明实施例为了解决上述以耳机作为还音单元观影时现有技术中存在的技术问题，提供了一种还原声场空间及姿态追踪的方法、装置和设备。

为了达到上述发明目的，本发明实施例采用以下技术方案：

根据本发明实施例的一个方面，提供了一种还原声场空间及姿态追踪的方法，所述方法包括：

步骤一，判断输入音频格式，如果为Ambisonic格式音频则直接进行步骤二；如果为基于声道的音频，则对所述基于声道的音频进行空间声场渲染并转换为Ambisonic格式音频；如果为包含位置信息元数据的对象音频，则将所述对象音频转换为Ambisonic格式音频；

步骤二，实时获取用户的头部姿态参数，对所述Ambisonics格式音频进行声源方位还原渲染；

步骤三，对进行声源方位还原渲染后得到的Ambisonics信号进行双耳化处理，输出用于耳机播放的全景声音频信号。

进一步地，步骤一中所述的空间声场渲染是将实际测量的或模拟生成的相关参数代入镜像声源模型算法，生成空间响应函数并进行卷积渲染。

进一步地，所述相关参数具体包括：

影厅的长、宽、高；

影厅六面的反射系数；

每个声源的位置坐标；

拾音位置坐标。

进一步地，步骤一中所述转换为Ambisonic格式音频，具体包括：

利用公式将输入音频转换为W、X、Y、Z四个通道上的信号：

W为包含所有方位信息的音频信号，X为包含前后方位信息的音频信号，Y为包含左右方位信息的音频信号，Z为包含上下方位信息的音频信号，s_i为单声道音频信号或每个对象音频信号，k为音频的声道个数或对象个数，

θ分别为音频每个声道或对象在空间中的水平角和垂直角；

若输入的音频是单声道音频，则声道位置是正前方，即水平角

为0，代入上述公式(2)、(3)，并结合其他参数将所述单声道信号转换为Ambisonic格式音频；

若输入的音频是多声道音频，所述多声道音频由多个单声道音频信号组成，则将按照标准布局摆放的各个扬声器位置和对应单声道音频信号，代入上述公式(1)-(4)将所述多声道音频转换为Ambisonic格式音频；

若输入的音频是对象音频，则将每个对象位置信息元数据转换为水平角

和垂直角θ，代入上述公式(2)-(4)，并将每个对象位置元数据信息中包含的关于音频对象大小的描述，映射为权重参数q，在计算所述对象音频W通道上的信号时，给每个对象音频信号乘以相应的权重参数q，也就是将上述公式(1)替换为

进一步地，每个对象对应的权重参数q取值范围在0-1之间，并且所有对象的权重参数和为1。

可选地，所述实时获取用户的头部姿态参数是通过陀螺仪来获取的。

进一步地，所述步骤二具体包括：

将实时获取到的用户头部的水平角

和垂直角θ₁，代入上述公式(1)-(4)，实时对Ambisonic格式音频四个通道上的信号进行调整。

根据本发明实施例的另一个方面，提供了一种还原声场空间及姿态追踪的装置，所述装置包括：

音频格式判断模块，用于判断输入音频格式，如果为Ambisonic格式音频则直接将输入音频发送给声源方位还原渲染模块；如果为基于声道的音频，则对所述基于声道的音频进行空间声场渲染并转换为Ambisonic格式音频，将得到的Ambisonic格式音频发送给声源方位还原渲染模块；如果为包含位置信息元数据的对象音频，则将所述对象音频转换为Ambisonic格式音频，并发送给声源方位还原渲染模块；

声源方位还原渲染模块，用于实时获取用户的头部姿态参数，对所述Ambisonics格式音频进行声源方位还原渲染并发送给音频双耳化模块；

音频双耳化模块，用于对进行声源方位还原渲染后得到的Ambisonics信号进行双耳化处理，输出用于耳机播放的全景声音频信号。

根据本发明实施例的又一个方面，提供了一种还原声场空间及姿态追踪的设备，所述设备包括：

含陀螺仪的耳机或VR头戴设备，所述陀螺仪用于实时获得头部姿态参数；

数据处理设备，包括存储器和处理器，用于对所述输入音频进行处理，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述方法的任一项步骤，最终输出用于耳机播放的全景声音频信号。

普通耳机；

外置独立姿态感知模组，包括陀螺仪和数据处理设备，所述陀螺仪用于实时获得头部姿态参数，所述数据处理设备包括存储器和处理器，用于对所述输入音频进行处理，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述方法的任一项步骤，最终输出用于耳机播放的全景声音频信号。

本发明至少具有以下有益效果：

本发明基于对现有技术问题的进一步分析和研究，认识到现有技术中，对于耳机播放的全景声音频，没有考虑到影院的空间影响，在针对对象的音频，没有考虑音频对象大小对空间声场的影响；此外，当观众头部发生偏转时音源并没有进行相应调整，不符合现实中扬声器还音的模式效果，这些都在很大程度上影响了全景声播放效果；本发明提供的方法首先判断输入音频格式，如果为Ambisonic格式音频则直接进行下一步骤，如果为基于声道的音频，则对所述基于声道的音频进行空间声场渲染并转换为Ambisonic格式音频，如果为位置信息元数据的对象音频，则将所述对象音频转换为Ambisonic格式音频；在还音过程中实时获取用户的头部姿态参数，对所述Ambisonics格式音频进行声源方位还原渲染，最后经过双耳化处理，得到用于耳机播放的全景声音频信号；本发明对于用于耳机还音的基于声道的音频，在进行声场空间渲染时充分考虑到了影院的空间影响，能更好地还原声场空间，同时在还音过程中，通过对头部姿态参数的测量，实现了对声源方位的相应调整，达到实时跟踪声源的目的，使得通过耳机还音时更符合现实中扬声器还音的模式效果；并且进行声源方位还原渲染时，对于对象音频，考虑了音频对象大小对空间声场的影响，提升了耳机播放全景声音频的效果。

附图说明

图1为本发明一个实施例提供的一种还原声场空间及姿态追踪的方法流程示意图；

图2为本发明一个实施例提供的一种还原声场空间及姿态追踪的方法整体示意图；

图3为本发明一个实施例提供的一个一阶Ambisonics球坐标系示意图；

图4为本发明一个实施例提供的一个三阶Ambisonics极坐标模式示意图；

图5为本发明一个实施例提供的一种还原声场空间及姿态追踪的装置示意图；

图6为本发明一个实施例提供的还原声场空间及姿态追踪的设备应用模式图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

实施例一：

在本实施例中，如图1和图2所示，提供了一种还原声场空间及姿态追踪的方法，所述方法包括：

步骤S101，判断输入音频格式，如果为Ambisonic格式音频则直接进行步骤二；如果为基于声道的音频，则对所述基于声道的音频进行空间声场渲染并转换为Ambisonic格式音频；如果为包含位置信息元数据的对象音频，则将所述对象音频转换为Ambisonic格式音频。

步骤S102，实时获取用户的头部姿态参数，对所述Ambisonics格式音频进行声源方位还原渲染。

步骤S103，对进行声源方位还原渲染后得到的Ambisonics信号进行双耳化处理，输出用于耳机播放的全景声音频信号。

进一步地，步骤S101中所述的空间声场渲染是将实际测量的或模拟生成的相关参数代入镜像声源模型算法，生成空间响应函数并进行卷积渲染。

具体地，在生成空间响应函数时，是以影厅的长、宽、高作为影厅大小参数L(x,y,z)、影厅六面的反射系数作为参数β、每个扬声器(声源)的位置坐标作为参数s(x,y,z)、麦克风(拾音)位置作为参数r(x,y,z)输入镜像声源模型算法程序，镜像声源模型算法程序涉及的参数还包括提前设定好的声音传播速度c和采样频率fs。

具体来说，在模拟生成相关参数时，为了提高运算效率，根据实际情况，在模拟影厅将空间类型分为大、中、小三类，具体为：巨型影厅设定为6240m³(厅长24m，厅宽20m，厅高14m)；中型影厅设定为1400m³(厅长10m，厅宽14m，厅高10m)；家庭影院式设定为80m³(厅长6.8m，厅宽4.2m，厅高2.8m)。

进一步地，在确定模拟影厅空间大小后，麦克风(拾音)位置是设置在相应影厅的观影皇帝位，也就是设计在

的位置，其中L_x是影厅大小参数L(x,y,z)的x的值，L_y是L(x,y,z)的y的值，1.5表示拾音位置在Z方向上固定为1.5m，将该坐标作为参数r(x,y,z)代入镜像声源模型算法程序。因为影厅大小分为三类，拾音位置也会有三种。

进一步地，在确定模拟影厅空间大小后，模拟扬声器位置时可以根据标准的5.1声道、7.1声道或7.1.4声道布局。以7.1.4声道布局为例，共12组扬声器位置，根据标准布局布置扬声器后，可以获得12个扬声器的位置坐标，将12个扬声器位置坐标分别代入镜像声源模型算法程序，结合其他参数，可以得到相应的12个空间响应函数。通过所述算法程序计算得到空间响应函数后，将其与所述基于声道的音频进行卷积渲染。对应于设定的三种影厅大小，能够得到三种不同的空间响应函数组。

具体来说，Ambisonics是一种拾取和播放声音的技术，专门用来模拟原始三维声场效果的声音系统，它通过拾音“四面体阵列”实现三维度全覆盖的360沉浸式全景环绕声音，与普通环绕声不同，播放效果除了水平环绕声音，还包括拾音位置或者听众上下的声源。

进一步地，图3为一阶Ambisonics(First Order Ambisonic，FOA)球坐标系，其中：

θ分别为音频每个声道或对象在空间中的水平角和垂直角。

步骤S101中所述转换为Ambisonic格式音频，就是利用上述公式(1)-(4)将输入音频转换为W、X、Y、Z四个通道上的信号。

具体来说，若输入的音频是单声道音频，则声道位置默认是正前方，即水平角

为0，并且k＝1，同时根据标准单声道布局得到θ的值，将所有值代入上述公式(1)-(4)，并结合其他参数便可将所述单声道音频转换为Ambisonic格式音频。

若输入的音频是多声道音频，将多声道音频看作由多个单声道音频信号组成，则按照标准布局摆放各个扬声器位置，比如按照经典5.1布局摆放时，会有6组扬声器，也就是会有6组单声道音频信号，即k＝6，将6个扬声器位置与对应单声道音频信号代入上述公式(1)-(4)，便可将所述多声道音频转换为Ambisonic格式音频。

若输入的音频是对象音频，在接收音频时可以获得其对象个数，在笛卡尔坐标系下，将每个对象位置信息元数据转换为水平角

和垂直角θ，并将每个对象音频信号和其对应的水平角

和垂直角θ代入上述公式(2)-(4)。并且由于每个对象位置信息元数据信息还可能有针对音频对象大小(size)或发散度(spread)的描述，这个size参数通常代表音频对象在空间中的大小。比如音频某个对象的size比较大，则表示该对象在感知空间中更多包围环境音成分，因此需要加大权重参数q来提升该对象分量在Ambisonic格式音频全向信息中的比重。也就是在对所述对象音频进行格式转换时，需要将每个对象位置元数据信息中包含的关于音频对象大小的描述，映射为权重参数q，在计算所述对象音频W通道上的信号时，需要给每个对象音频信号乘以相应的权重参数q，也就是在转换对象音频格式时，将上述公式(1)替换为：

进一步地，图4为三阶Ambisonics极坐标模式，对于3D重建音频，声道数目N为：N＝(M+1)²，其中，M为阶数，显然，高阶Ambisonics(Higher Order Ambisonics，HOA)能更好地重建全景声效果。

具体地，所述实时获取用户的头部姿态参数是通过陀螺仪来获取的，陀螺仪通过对偏转、倾斜等动作角速度的测量，能够在观影过程中实时得到头部的水平角

和垂直角θ₁。

进一步地，步骤S102具体包括：

将实时获取到的用户头部的水平角

和垂直角θ₁，代入上述Ambisonics格式音频转换公式(1)-(4)，实时对Ambisonic格式音频四个通道上的信号进行调整，这里的角度

和θ₁，与上述输入音频的角度不同，属于实时检测并计算得到的头部姿态信息。由此在观影过程中，实现了声源方位的相应调整。

本发明技术提供的一种还原声场空间及姿态追踪的方法，结合模拟播放影院的空间参数、播放内容、耳机姿态数据等，对全景声内容自适应进行调整，进而可以有效提升全景声播放效果。

在本发明的实施例中，当输入的音频格式为如果为Ambisonic格式音频则直接进行下一步骤，如果为基于声道的音频，则对所述基于声道的音频进行空间声场渲染并转换为Ambisonic格式音频，如果为位置信息元数据的对象音频，则将所述对象音频转换为Ambisonic格式音频，然后结合获取到的姿态参数对Ambisonics格式音频实时进行声源方位还原渲染，最后经过双耳化处理，得到用于耳机播放的全景声音频信号。本实施例对于用于耳机还音的基于声道的音频，在进行声场空间渲染时充分考虑到了影院的空间影响，能更好地还原声场空间。同时在还音过程中，通过对偏转、倾斜等动作角速度的测量，实时检测并计算得到用户头部姿态参数，实现了对声源方位的相应调整，达到实时跟踪声源的目的，使得通过耳机还音时更符合现实中扬声器还音的模式效果。并且进行声源方位还原渲染时，对于对象音频，考虑了音频对象大小对空间声场的影响，提升了耳机播放全景声音频的效果。

实施例二：

在本实施例中，对应于上述实施例一中的一种还原声场空间及姿态追踪的方法，如图5所示，提供了一种还原声场空间及姿态追踪的装置，所述装置包括：

音频格式判断模块501，用于判断输入音频格式，如果为Ambisonic格式音频则直接将输入音频发送给声源方位还原渲染模块502；如果为基于声道的音频，则对所述基于声道的音频进行空间声场渲染并转换为Ambisonic格式音频，将得到的Ambisonic格式音频发送给声源方位还原渲染模块502；如果为包含位置信息元数据的对象音频，则将所述对象音频转换为Ambisonic格式音频，并发送给声源方位还原渲染模块502。

声源方位还原渲染模块502，用于实时获取用户的头部姿态参数，对所述Ambisonics格式音频进行声源方位还原渲染并发送给音频双耳化模块503。

音频双耳化模块503，用于对进行声源方位还原渲染后得到的Ambisonics信号进行双耳化处理，输出用于耳机播放的全景声音频信号。

进一步地，音频格式判断模块501中所进行的空间声场渲染是将实际测量的或模拟生成的相关参数代入镜像声源模型算法，生成空间响应函数并进行卷积渲染。

θ分别为音频每个声道或对象在空间中的水平角和垂直角。

音频格式判断模块501中所述转换为Ambisonic格式音频，就是利用上述公式(1)-(4)将输入音频转换为W、X、Y、Z四个通道上的信号。

和垂直角θ，并将每个对象音频信号和其对应的水平角

和垂直角θ代入上述公式(2)-(4)。并且由于每个对象位置信息元数据信息还可能有针对音频对象大小(size)或发散度(spread)的描述，这个size参数通常代表音频对象在空间中的大小。比如音频某个对象的size比较大，则表示该对象在感知空间中更多包围环境音成分，因此我们加大权重参数q来提升该对象分量在Ambisonic格式音频中的比重。因此在对所述对象音频进行格式转换时，需要将每个对象位置元数据信息中包含的关于音频对象大小的描述，映射为权重参数q，在计算所述对象音频W通道上的信号时，需要给每个对象音频信号乘以相应的权重参数q，也就是在转换对象音频格式时，将上述公式(1)替换为：

具体地，声源方位还原渲染模块502实时获取用户的头部姿态参数是通过陀螺仪来获取的，陀螺仪通过对偏转、倾斜等动作角速度的测量，能够在观影过程中实时得到头部的水平角

和垂直角θ₁。

进一步地，声源方位还原渲染模块702具体工作为：

将实时获取到的用户头部的水平角

上述一种还原声场空间及姿态追踪的装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

本发明实施例带来的技术效果与实施例一一致，在此不再赘述。

实施例三：

在本实施例中，对应于实施例二中所述的一种还原声场空间及姿态追踪的装置，提供了还原声场空间及姿态追踪的设备的应用模式，如图6所示，所述设备可为含陀螺仪的耳机单元或VR头戴设备，也可拆分为外置独立姿态感知模组，配合普通耳机使用。

本实施例提供的设备，在还音过程中能够结合模拟播放影院的空间参数、播放内容、耳机姿态数据等，对全景声内容自适应进行调整，进而可以有效提升全景声播放效果。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。