CN114173256A - 一种还原声场空间及姿态追踪的方法、装置和设备 - Google Patents

一种还原声场空间及姿态追踪的方法、装置和设备 Download PDF

Info

Publication number
CN114173256A
CN114173256A CN202111508981.7A CN202111508981A CN114173256A CN 114173256 A CN114173256 A CN 114173256A CN 202111508981 A CN202111508981 A CN 202111508981A CN 114173256 A CN114173256 A CN 114173256A
Authority
CN
China
Prior art keywords
audio
sound
format
rendering
restoring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111508981.7A
Other languages
English (en)
Other versions
CN114173256B (zh
Inventor
王薇娜
张鑫
崔强
高峰
王惠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CHINA FILM SCIENCE AND TECHNOLOGY INST
Original Assignee
CHINA FILM SCIENCE AND TECHNOLOGY INST
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CHINA FILM SCIENCE AND TECHNOLOGY INST filed Critical CHINA FILM SCIENCE AND TECHNOLOGY INST
Priority to CN202111508981.7A priority Critical patent/CN114173256B/zh
Publication of CN114173256A publication Critical patent/CN114173256A/zh
Application granted granted Critical
Publication of CN114173256B publication Critical patent/CN114173256B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/403Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers loud-speakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/02Spatial or constructional arrangements of loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Stereophonic System (AREA)

Abstract

本发明公开了一种还原声场空间及姿态追踪的方法、装置和设备。本发明提供的方法为:判断输入音频格式,如果为Ambisonic格式音频则直接进行下一步骤,如果为基于声道的音频,则对音频进行空间声场渲染并转换为Ambisonic格式音频,如果为对象音频,则将音频转换为Ambisonic格式音频;在还音过程中实时获取用户的头部姿态参数,对Ambisonics格式音频进行声源方位还原渲染;最后经过双耳化处理,得到用于耳机播放的全景声音频信号。本发明对于基于声道的音频,在进行声场空间渲染时充分考虑了影院的空间影响,更好地还原声场空间,同时在耳机还音过程中,实现了对声源方位的相应调整,达到实时跟踪声源的目的,使得通过耳机还音时更符合现实中扬声器还音的模式效果。

Description

一种还原声场空间及姿态追踪的方法、装置和设备
技术领域
本申请涉及声音处理技术领域,特别是涉及一种还原声场空间及姿态追踪的方法、装置和设备。
背景技术
传统在影院观影的观影方式十分受大众认可,但因为影院分布不均、建设影厅需要更严格基建硬件环境等限制,观影方式越来越多元化。例如以移动智能设备或耳机作为还音单元的更灵活的“观影放映”方式逐渐崭露头角,这种观影方式也存在着相当多的受众。用耳机作为露天或户外观影还音的优点显而易见:一方面,封闭式的声音输出使得噪音污染几乎为零,更容易向居民区等对噪音敏感的区域推广;另一方面,戴上耳机,能够将开放式环境中的各种声音干扰屏蔽,同时此观影方式不受制于场所环境以及观影位置的限制,使得观影体验更加的自由。
然而,在以耳机作为还音单元观影时,实际的还音效果并不符合现实中通过扬声器还音的模式效果,这在很大程度上影响了全景声播放效果。
发明内容
基于此,本发明实施例为了解决上述以耳机作为还音单元观影时现有技术中存在的技术问题,提供了一种还原声场空间及姿态追踪的方法、装置和设备。
为了达到上述发明目的,本发明实施例采用以下技术方案:
根据本发明实施例的一个方面,提供了一种还原声场空间及姿态追踪的方法,所述方法包括:
步骤一,判断输入音频格式,如果为Ambisonic格式音频则直接进行步骤二;如果为基于声道的音频,则对所述基于声道的音频进行空间声场渲染并转换为Ambisonic格式音频;如果为包含位置信息元数据的对象音频,则将所述对象音频转换为Ambisonic格式音频;
步骤二,实时获取用户的头部姿态参数,对所述Ambisonics格式音频进行声源方位还原渲染;
步骤三,对进行声源方位还原渲染后得到的Ambisonics信号进行双耳化处理,输出用于耳机播放的全景声音频信号。
进一步地,步骤一中所述的空间声场渲染是将实际测量的或模拟生成的相关参数代入镜像声源模型算法,生成空间响应函数并进行卷积渲染。
进一步地,所述相关参数具体包括:
影厅的长、宽、高;
影厅六面的反射系数;
每个声源的位置坐标;
拾音位置坐标。
进一步地,步骤一中所述转换为Ambisonic格式音频,具体包括:
利用公式将输入音频转换为W、X、Y、Z四个通道上的信号:
Figure BDA0003404135990000021
Figure BDA0003404135990000022
Figure BDA0003404135990000023
Figure BDA0003404135990000024
W为包含所有方位信息的音频信号,X为包含前后方位信息的音频信号,Y为包含左右方位信息的音频信号,Z为包含上下方位信息的音频信号,si为单声道音频信号或每个对象音频信号,k为音频的声道个数或对象个数,
Figure BDA0003404135990000025
θ分别为音频每个声道或对象在空间中的水平角和垂直角;
若输入的音频是单声道音频,则声道位置是正前方,即水平角
Figure BDA0003404135990000031
为0,代入上述公式(2)、(3),并结合其他参数将所述单声道信号转换为Ambisonic格式音频;
若输入的音频是多声道音频,所述多声道音频由多个单声道音频信号组成,则将按照标准布局摆放的各个扬声器位置和对应单声道音频信号,代入上述公式(1)-(4)将所述多声道音频转换为Ambisonic格式音频;
若输入的音频是对象音频,则将每个对象位置信息元数据转换为水平角
Figure BDA0003404135990000032
和垂直角θ,代入上述公式(2)-(4),并将每个对象位置元数据信息中包含的关于音频对象大小的描述,映射为权重参数q,在计算所述对象音频W通道上的信号时,给每个对象音频信号乘以相应的权重参数q,也就是将上述公式(1)替换为
Figure BDA0003404135990000033
进一步地,每个对象对应的权重参数q取值范围在0-1之间,并且所有对象的权重参数和为1。
可选地,所述实时获取用户的头部姿态参数是通过陀螺仪来获取的。
进一步地,所述步骤二具体包括:
将实时获取到的用户头部的水平角
Figure BDA0003404135990000034
和垂直角θ1,代入上述公式(1)-(4),实时对Ambisonic格式音频四个通道上的信号进行调整。
根据本发明实施例的另一个方面,提供了一种还原声场空间及姿态追踪的装置,所述装置包括:
音频格式判断模块,用于判断输入音频格式,如果为Ambisonic格式音频则直接将输入音频发送给声源方位还原渲染模块;如果为基于声道的音频,则对所述基于声道的音频进行空间声场渲染并转换为Ambisonic格式音频,将得到的Ambisonic格式音频发送给声源方位还原渲染模块;如果为包含位置信息元数据的对象音频,则将所述对象音频转换为Ambisonic格式音频,并发送给声源方位还原渲染模块;
声源方位还原渲染模块,用于实时获取用户的头部姿态参数,对所述Ambisonics格式音频进行声源方位还原渲染并发送给音频双耳化模块;
音频双耳化模块,用于对进行声源方位还原渲染后得到的Ambisonics信号进行双耳化处理,输出用于耳机播放的全景声音频信号。
根据本发明实施例的又一个方面,提供了一种还原声场空间及姿态追踪的设备,所述设备包括:
含陀螺仪的耳机或VR头戴设备,所述陀螺仪用于实时获得头部姿态参数;
数据处理设备,包括存储器和处理器,用于对所述输入音频进行处理,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的任一项步骤,最终输出用于耳机播放的全景声音频信号。
根据本发明实施例的又一个方面,提供了一种还原声场空间及姿态追踪的设备,所述设备包括:
普通耳机;
外置独立姿态感知模组,包括陀螺仪和数据处理设备,所述陀螺仪用于实时获得头部姿态参数,所述数据处理设备包括存储器和处理器,用于对所述输入音频进行处理,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的任一项步骤,最终输出用于耳机播放的全景声音频信号。
本发明至少具有以下有益效果:
本发明基于对现有技术问题的进一步分析和研究,认识到现有技术中,对于耳机播放的全景声音频,没有考虑到影院的空间影响,在针对对象的音频,没有考虑音频对象大小对空间声场的影响;此外,当观众头部发生偏转时音源并没有进行相应调整,不符合现实中扬声器还音的模式效果,这些都在很大程度上影响了全景声播放效果;本发明提供的方法首先判断输入音频格式,如果为Ambisonic格式音频则直接进行下一步骤,如果为基于声道的音频,则对所述基于声道的音频进行空间声场渲染并转换为Ambisonic格式音频,如果为位置信息元数据的对象音频,则将所述对象音频转换为Ambisonic格式音频;在还音过程中实时获取用户的头部姿态参数,对所述Ambisonics格式音频进行声源方位还原渲染,最后经过双耳化处理,得到用于耳机播放的全景声音频信号;本发明对于用于耳机还音的基于声道的音频,在进行声场空间渲染时充分考虑到了影院的空间影响,能更好地还原声场空间,同时在还音过程中,通过对头部姿态参数的测量,实现了对声源方位的相应调整,达到实时跟踪声源的目的,使得通过耳机还音时更符合现实中扬声器还音的模式效果;并且进行声源方位还原渲染时,对于对象音频,考虑了音频对象大小对空间声场的影响,提升了耳机播放全景声音频的效果。
附图说明
图1为本发明一个实施例提供的一种还原声场空间及姿态追踪的方法流程示意图;
图2为本发明一个实施例提供的一种还原声场空间及姿态追踪的方法整体示意图;
图3为本发明一个实施例提供的一个一阶Ambisonics球坐标系示意图;
图4为本发明一个实施例提供的一个三阶Ambisonics极坐标模式示意图;
图5为本发明一个实施例提供的一种还原声场空间及姿态追踪的装置示意图;
图6为本发明一个实施例提供的还原声场空间及姿态追踪的设备应用模式图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
实施例一:
在本实施例中,如图1和图2所示,提供了一种还原声场空间及姿态追踪的方法,所述方法包括:
步骤S101,判断输入音频格式,如果为Ambisonic格式音频则直接进行步骤二;如果为基于声道的音频,则对所述基于声道的音频进行空间声场渲染并转换为Ambisonic格式音频;如果为包含位置信息元数据的对象音频,则将所述对象音频转换为Ambisonic格式音频。
步骤S102,实时获取用户的头部姿态参数,对所述Ambisonics格式音频进行声源方位还原渲染。
步骤S103,对进行声源方位还原渲染后得到的Ambisonics信号进行双耳化处理,输出用于耳机播放的全景声音频信号。
进一步地,步骤S101中所述的空间声场渲染是将实际测量的或模拟生成的相关参数代入镜像声源模型算法,生成空间响应函数并进行卷积渲染。
具体地,在生成空间响应函数时,是以影厅的长、宽、高作为影厅大小参数L(x,y,z)、影厅六面的反射系数作为参数β、每个扬声器(声源)的位置坐标作为参数s(x,y,z)、麦克风(拾音)位置作为参数r(x,y,z)输入镜像声源模型算法程序,镜像声源模型算法程序涉及的参数还包括提前设定好的声音传播速度c和采样频率fs。
具体来说,在模拟生成相关参数时,为了提高运算效率,根据实际情况,在模拟影厅将空间类型分为大、中、小三类,具体为:巨型影厅设定为6240m3(厅长24m,厅宽20m,厅高14m);中型影厅设定为1400m3(厅长10m,厅宽14m,厅高10m);家庭影院式设定为80m3(厅长6.8m,厅宽4.2m,厅高2.8m)。
进一步地,在确定模拟影厅空间大小后,麦克风(拾音)位置是设置在相应影厅的观影皇帝位,也就是设计在
Figure BDA0003404135990000061
的位置,其中Lx是影厅大小参数L(x,y,z)的x的值,Ly是L(x,y,z)的y的值,1.5表示拾音位置在Z方向上固定为1.5m,将该坐标作为参数r(x,y,z)代入镜像声源模型算法程序。因为影厅大小分为三类,拾音位置也会有三种。
进一步地,在确定模拟影厅空间大小后,模拟扬声器位置时可以根据标准的5.1声道、7.1声道或7.1.4声道布局。以7.1.4声道布局为例,共12组扬声器位置,根据标准布局布置扬声器后,可以获得12个扬声器的位置坐标,将12个扬声器位置坐标分别代入镜像声源模型算法程序,结合其他参数,可以得到相应的12个空间响应函数。通过所述算法程序计算得到空间响应函数后,将其与所述基于声道的音频进行卷积渲染。对应于设定的三种影厅大小,能够得到三种不同的空间响应函数组。
具体来说,Ambisonics是一种拾取和播放声音的技术,专门用来模拟原始三维声场效果的声音系统,它通过拾音“四面体阵列”实现三维度全覆盖的360沉浸式全景环绕声音,与普通环绕声不同,播放效果除了水平环绕声音,还包括拾音位置或者听众上下的声源。
进一步地,图3为一阶Ambisonics(First Order Ambisonic,FOA)球坐标系,其中:
Figure BDA0003404135990000071
Figure BDA0003404135990000072
Figure BDA0003404135990000073
Figure BDA0003404135990000074
W为包含所有方位信息的音频信号,X为包含前后方位信息的音频信号,Y为包含左右方位信息的音频信号,Z为包含上下方位信息的音频信号,si为单声道音频信号或每个对象音频信号,k为音频的声道个数或对象个数,
Figure BDA0003404135990000075
θ分别为音频每个声道或对象在空间中的水平角和垂直角。
步骤S101中所述转换为Ambisonic格式音频,就是利用上述公式(1)-(4)将输入音频转换为W、X、Y、Z四个通道上的信号。
具体来说,若输入的音频是单声道音频,则声道位置默认是正前方,即水平角
Figure BDA0003404135990000081
为0,并且k=1,同时根据标准单声道布局得到θ的值,将所有值代入上述公式(1)-(4),并结合其他参数便可将所述单声道音频转换为Ambisonic格式音频。
若输入的音频是多声道音频,将多声道音频看作由多个单声道音频信号组成,则按照标准布局摆放各个扬声器位置,比如按照经典5.1布局摆放时,会有6组扬声器,也就是会有6组单声道音频信号,即k=6,将6个扬声器位置与对应单声道音频信号代入上述公式(1)-(4),便可将所述多声道音频转换为Ambisonic格式音频。
若输入的音频是对象音频,在接收音频时可以获得其对象个数,在笛卡尔坐标系下,将每个对象位置信息元数据转换为水平角
Figure BDA0003404135990000082
和垂直角θ,并将每个对象音频信号和其对应的水平角
Figure BDA0003404135990000083
和垂直角θ代入上述公式(2)-(4)。并且由于每个对象位置信息元数据信息还可能有针对音频对象大小(size)或发散度(spread)的描述,这个size参数通常代表音频对象在空间中的大小。比如音频某个对象的size比较大,则表示该对象在感知空间中更多包围环境音成分,因此需要加大权重参数q来提升该对象分量在Ambisonic格式音频全向信息中的比重。也就是在对所述对象音频进行格式转换时,需要将每个对象位置元数据信息中包含的关于音频对象大小的描述,映射为权重参数q,在计算所述对象音频W通道上的信号时,需要给每个对象音频信号乘以相应的权重参数q,也就是在转换对象音频格式时,将上述公式(1)替换为:
Figure BDA0003404135990000084
进一步地,每个对象对应的权重参数q取值范围在0-1之间,并且所有对象的权重参数和为1。
进一步地,图4为三阶Ambisonics极坐标模式,对于3D重建音频,声道数目N为:N=(M+1)2,其中,M为阶数,显然,高阶Ambisonics(Higher Order Ambisonics,HOA)能更好地重建全景声效果。
具体地,所述实时获取用户的头部姿态参数是通过陀螺仪来获取的,陀螺仪通过对偏转、倾斜等动作角速度的测量,能够在观影过程中实时得到头部的水平角
Figure BDA0003404135990000091
和垂直角θ1
进一步地,步骤S102具体包括:
将实时获取到的用户头部的水平角
Figure BDA0003404135990000092
和垂直角θ1,代入上述Ambisonics格式音频转换公式(1)-(4),实时对Ambisonic格式音频四个通道上的信号进行调整,这里的角度
Figure BDA0003404135990000093
和θ1,与上述输入音频的角度不同,属于实时检测并计算得到的头部姿态信息。由此在观影过程中,实现了声源方位的相应调整。
本发明技术提供的一种还原声场空间及姿态追踪的方法,结合模拟播放影院的空间参数、播放内容、耳机姿态数据等,对全景声内容自适应进行调整,进而可以有效提升全景声播放效果。
在本发明的实施例中,当输入的音频格式为如果为Ambisonic格式音频则直接进行下一步骤,如果为基于声道的音频,则对所述基于声道的音频进行空间声场渲染并转换为Ambisonic格式音频,如果为位置信息元数据的对象音频,则将所述对象音频转换为Ambisonic格式音频,然后结合获取到的姿态参数对Ambisonics格式音频实时进行声源方位还原渲染,最后经过双耳化处理,得到用于耳机播放的全景声音频信号。本实施例对于用于耳机还音的基于声道的音频,在进行声场空间渲染时充分考虑到了影院的空间影响,能更好地还原声场空间。同时在还音过程中,通过对偏转、倾斜等动作角速度的测量,实时检测并计算得到用户头部姿态参数,实现了对声源方位的相应调整,达到实时跟踪声源的目的,使得通过耳机还音时更符合现实中扬声器还音的模式效果。并且进行声源方位还原渲染时,对于对象音频,考虑了音频对象大小对空间声场的影响,提升了耳机播放全景声音频的效果。
实施例二:
在本实施例中,对应于上述实施例一中的一种还原声场空间及姿态追踪的方法,如图5所示,提供了一种还原声场空间及姿态追踪的装置,所述装置包括:
音频格式判断模块501,用于判断输入音频格式,如果为Ambisonic格式音频则直接将输入音频发送给声源方位还原渲染模块502;如果为基于声道的音频,则对所述基于声道的音频进行空间声场渲染并转换为Ambisonic格式音频,将得到的Ambisonic格式音频发送给声源方位还原渲染模块502;如果为包含位置信息元数据的对象音频,则将所述对象音频转换为Ambisonic格式音频,并发送给声源方位还原渲染模块502。
声源方位还原渲染模块502,用于实时获取用户的头部姿态参数,对所述Ambisonics格式音频进行声源方位还原渲染并发送给音频双耳化模块503。
音频双耳化模块503,用于对进行声源方位还原渲染后得到的Ambisonics信号进行双耳化处理,输出用于耳机播放的全景声音频信号。
进一步地,音频格式判断模块501中所进行的空间声场渲染是将实际测量的或模拟生成的相关参数代入镜像声源模型算法,生成空间响应函数并进行卷积渲染。
具体地,在生成空间响应函数时,是以影厅的长、宽、高作为影厅大小参数L(x,y,z)、影厅六面的反射系数作为参数β、每个扬声器(声源)的位置坐标作为参数s(x,y,z)、麦克风(拾音)位置作为参数r(x,y,z)输入镜像声源模型算法程序,镜像声源模型算法程序涉及的参数还包括提前设定好的声音传播速度c和采样频率fs。
具体来说,在模拟生成相关参数时,为了提高运算效率,根据实际情况,在模拟影厅将空间类型分为大、中、小三类,具体为:巨型影厅设定为6240m3(厅长24m,厅宽20m,厅高14m);中型影厅设定为1400m3(厅长10m,厅宽14m,厅高10m);家庭影院式设定为80m3(厅长6.8m,厅宽4.2m,厅高2.8m)。
进一步地,在确定模拟影厅空间大小后,麦克风(拾音)位置是设置在相应影厅的观影皇帝位,也就是设计在
Figure BDA0003404135990000111
的位置,其中Lx是影厅大小参数L(x,y,z)的x的值,Ly是L(x,y,z)的y的值,1.5表示拾音位置在Z方向上固定为1.5m,将该坐标作为参数r(x,y,z)代入镜像声源模型算法程序。因为影厅大小分为三类,拾音位置也会有三种。
进一步地,在确定模拟影厅空间大小后,模拟扬声器位置时可以根据标准的5.1声道、7.1声道或7.1.4声道布局。以7.1.4声道布局为例,共12组扬声器位置,根据标准布局布置扬声器后,可以获得12个扬声器的位置坐标,将12个扬声器位置坐标分别代入镜像声源模型算法程序,结合其他参数,可以得到相应的12个空间响应函数。通过所述算法程序计算得到空间响应函数后,将其与所述基于声道的音频进行卷积渲染。对应于设定的三种影厅大小,能够得到三种不同的空间响应函数组。
具体来说,Ambisonics是一种拾取和播放声音的技术,专门用来模拟原始三维声场效果的声音系统,它通过拾音“四面体阵列”实现三维度全覆盖的360沉浸式全景环绕声音,与普通环绕声不同,播放效果除了水平环绕声音,还包括拾音位置或者听众上下的声源。
进一步地,图3为一阶Ambisonics(First Order Ambisonic,FOA)球坐标系,其中:
Figure BDA0003404135990000112
Figure BDA0003404135990000113
Figure BDA0003404135990000114
Figure BDA0003404135990000115
W为包含所有方位信息的音频信号,X为包含前后方位信息的音频信号,Y为包含左右方位信息的音频信号,Z为包含上下方位信息的音频信号,si为单声道音频信号或每个对象音频信号,k为音频的声道个数或对象个数,
Figure BDA0003404135990000116
θ分别为音频每个声道或对象在空间中的水平角和垂直角。
音频格式判断模块501中所述转换为Ambisonic格式音频,就是利用上述公式(1)-(4)将输入音频转换为W、X、Y、Z四个通道上的信号。
具体来说,若输入的音频是单声道音频,则声道位置默认是正前方,即水平角
Figure BDA0003404135990000122
为0,并且k=1,同时根据标准单声道布局得到θ的值,将所有值代入上述公式(1)-(4),并结合其他参数便可将所述单声道音频转换为Ambisonic格式音频。
若输入的音频是多声道音频,将多声道音频看作由多个单声道音频信号组成,则按照标准布局摆放各个扬声器位置,比如按照经典5.1布局摆放时,会有6组扬声器,也就是会有6组单声道音频信号,即k=6,将6个扬声器位置与对应单声道音频信号代入上述公式(1)-(4),便可将所述多声道音频转换为Ambisonic格式音频。
若输入的音频是对象音频,在接收音频时可以获得其对象个数,在笛卡尔坐标系下,将每个对象位置信息元数据转换为水平角
Figure BDA0003404135990000123
和垂直角θ,并将每个对象音频信号和其对应的水平角
Figure BDA0003404135990000124
和垂直角θ代入上述公式(2)-(4)。并且由于每个对象位置信息元数据信息还可能有针对音频对象大小(size)或发散度(spread)的描述,这个size参数通常代表音频对象在空间中的大小。比如音频某个对象的size比较大,则表示该对象在感知空间中更多包围环境音成分,因此我们加大权重参数q来提升该对象分量在Ambisonic格式音频中的比重。因此在对所述对象音频进行格式转换时,需要将每个对象位置元数据信息中包含的关于音频对象大小的描述,映射为权重参数q,在计算所述对象音频W通道上的信号时,需要给每个对象音频信号乘以相应的权重参数q,也就是在转换对象音频格式时,将上述公式(1)替换为:
Figure BDA0003404135990000121
进一步地,每个对象对应的权重参数q取值范围在0-1之间,并且所有对象的权重参数和为1。
进一步地,图4为三阶Ambisonics极坐标模式,对于3D重建音频,声道数目N为:N=(M+1)2,其中,M为阶数,显然,高阶Ambisonics(Higher Order Ambisonics,HOA)能更好地重建全景声效果。
具体地,声源方位还原渲染模块502实时获取用户的头部姿态参数是通过陀螺仪来获取的,陀螺仪通过对偏转、倾斜等动作角速度的测量,能够在观影过程中实时得到头部的水平角
Figure BDA0003404135990000131
和垂直角θ1
进一步地,声源方位还原渲染模块702具体工作为:
将实时获取到的用户头部的水平角
Figure BDA0003404135990000132
和垂直角θ1,代入上述Ambisonics格式音频转换公式(1)-(4),实时对Ambisonic格式音频四个通道上的信号进行调整,这里的角度
Figure BDA0003404135990000133
和θ1,与上述输入音频的角度不同,属于实时检测并计算得到的头部姿态信息。由此在观影过程中,实现了声源方位的相应调整。
上述一种还原声场空间及姿态追踪的装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
本发明实施例带来的技术效果与实施例一一致,在此不再赘述。
实施例三:
在本实施例中,对应于实施例二中所述的一种还原声场空间及姿态追踪的装置,提供了还原声场空间及姿态追踪的设备的应用模式,如图6所示,所述设备可为含陀螺仪的耳机单元或VR头戴设备,也可拆分为外置独立姿态感知模组,配合普通耳机使用。
本实施例提供的设备,在还音过程中能够结合模拟播放影院的空间参数、播放内容、耳机姿态数据等,对全景声内容自适应进行调整,进而可以有效提升全景声播放效果。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种还原声场空间及姿态追踪的方法,其特征在于,所述方法包括:
步骤一,判断输入音频格式,如果为Ambisonic格式音频则直接进行步骤二;如果为基于声道的音频,则对所述基于声道的音频进行空间声场渲染并转换为Ambisonic格式音频;如果为包含位置信息元数据的对象音频,则将所述对象音频转换为Ambisonic格式音频;
步骤二,实时获取用户的头部姿态参数,对所述Ambisonics格式音频进行声源方位还原渲染;
步骤三,对进行声源方位还原渲染后得到的Ambisonics信号进行双耳化处理,输出用于耳机播放的全景声音频信号。
2.根据权利要求1所述的方法,其特征在于,步骤一中所述的空间声场渲染是将实际测量的或模拟生成的相关参数代入镜像声源模型算法,生成空间响应函数并进行卷积渲染。
3.根据权利要求2所述的方法,其特征在于,所述相关参数具体包括:
影厅的长、宽、高;
影厅六面的反射系数;
每个声源的位置坐标;
拾音位置坐标。
4.根据权利要求1所述的方法,其特征在于,步骤一中所述转换为Ambisonic格式音频,具体包括:
利用公式将输入音频转换为W、X、Y、Z四个通道上的信号:
Figure FDA0003404135980000011
Figure FDA0003404135980000012
Figure FDA0003404135980000013
Figure FDA0003404135980000014
W为包含所有方位信息的音频信号,X为包含前后方位信息的音频信号,Y为包含左右方位信息的音频信号,Z为包含上下方位信息的音频信号,si为单声道音频信号或每个对象音频信号,k为音频的声道个数或对象个数,
Figure FDA0003404135980000021
θ分别为音频每个声道或对象在空间中的水平角和垂直角;
若输入的音频是单声道音频,则声道位置是正前方,即水平角
Figure FDA0003404135980000022
为0,代入上述公式(2)、(3),并结合其他参数将所述单声道信号转换为Ambisonic格式音频;
若输入的音频是多声道音频,所述多声道音频由多个单声道音频信号组成,则将按照标准布局摆放的各个扬声器位置和对应单声道音频信号,代入上述公式(1)-(4)将所述多声道音频转换为Ambisonic格式音频;
若输入的音频是对象音频,则将每个对象位置信息元数据转换为水平角
Figure FDA0003404135980000023
和垂直角θ,代入上述公式(2)-(4),并将每个对象位置元数据信息中包含的关于音频对象大小的描述,映射为权重参数q,在计算所述对象音频W通道上的信号时,给每个对象音频信号乘以相应的权重参数q,也就是将上述公式(1)替换为
Figure FDA0003404135980000024
5.根据权利要求4所述的方法,其特征在于,每个对象对应的权重参数q取值范围在0-1之间,并且所有对象的权重参数和为1。
6.根据权利要求1所述的方法,其特征在于,所述实时获取用户的头部姿态参数是通过陀螺仪来获取的。
7.根据权利要求6所述的方法,其特征在于,所述步骤二具体包括:
将实时获取到的用户头部的水平角
Figure FDA0003404135980000025
和垂直角θ1,代入上述公式(1)-(4),实时对Ambisonic格式音频四个通道上的信号进行调整。
8.一种还原声场空间及姿态追踪的装置,其特征在于,所述装置包括:
音频格式判断模块,用于判断输入音频格式,如果为Ambisonic格式音频则直接将输入音频发送给声源方位还原渲染模块;如果为基于声道的音频,则对所述基于声道的音频进行空间声场渲染并转换为Ambisonic格式音频,将得到的Ambisonic格式音频发送给声源方位还原渲染模块;如果为包含位置信息元数据的对象音频,则将所述对象音频转换为Ambisonic格式音频,并发送给声源方位还原渲染模块;
声源方位还原渲染模块,用于实时获取用户的头部姿态参数,对所述Ambisonics格式音频进行声源方位还原渲染并发送给音频双耳化模块;
音频双耳化模块,用于对进行声源方位还原渲染后得到的Ambisonics信号进行双耳化处理,输出用于耳机播放的全景声音频信号。
9.一种还原声场空间及姿态追踪的设备,其特征在于,所述设备包括:
含陀螺仪的耳机或VR头戴设备,所述陀螺仪用于实时获得头部姿态参数;
数据处理设备,包括存储器和处理器,用于对输入音频进行处理,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤,最终输出用于耳机播放的全景声音频信号。
10.一种还原声场空间及姿态追踪的设备,其特征在于,所述设备包括:
普通耳机;
外置独立姿态感知模组,包括陀螺仪和数据处理设备,所述陀螺仪用于实时获得头部姿态参数,所述数据处理设备包括存储器和处理器,用于对输入音频进行处理,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤,最终输出用于耳机播放的全景声音频信号。
CN202111508981.7A 2021-12-10 2021-12-10 一种还原声场空间及姿态追踪的方法、装置和设备 Active CN114173256B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111508981.7A CN114173256B (zh) 2021-12-10 2021-12-10 一种还原声场空间及姿态追踪的方法、装置和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111508981.7A CN114173256B (zh) 2021-12-10 2021-12-10 一种还原声场空间及姿态追踪的方法、装置和设备

Publications (2)

Publication Number Publication Date
CN114173256A true CN114173256A (zh) 2022-03-11
CN114173256B CN114173256B (zh) 2024-04-19

Family

ID=80485737

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111508981.7A Active CN114173256B (zh) 2021-12-10 2021-12-10 一种还原声场空间及姿态追踪的方法、装置和设备

Country Status (1)

Country Link
CN (1) CN114173256B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114949856A (zh) * 2022-04-14 2022-08-30 北京字跳网络技术有限公司 游戏音效的处理方法、装置、存储介质及终端设备
CN115604642A (zh) * 2022-12-12 2023-01-13 杭州兆华电子股份有限公司(Cn) 一种空间音效的测试方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010089357A2 (en) * 2009-02-04 2010-08-12 Richard Furse Sound system
CN101884065A (zh) * 2007-10-03 2010-11-10 创新科技有限公司 用于双耳再现和格式转换的空间音频分析和合成
US20160104493A1 (en) * 2014-10-10 2016-04-14 Qualcomm Incorporated Signaling layers for scalable coding of higher order ambisonic audio data
CN106210990A (zh) * 2016-07-13 2016-12-07 北京时代拓灵科技有限公司 一种全景声音频处理方法
CN107465990A (zh) * 2013-03-28 2017-12-12 杜比实验室特许公司 用于创作和渲染音频再现数据的非暂态介质和设备
CN107920303A (zh) * 2017-11-21 2018-04-17 北京时代拓灵科技有限公司 一种音频采集的方法及装置
CN109215669A (zh) * 2017-07-06 2019-01-15 中国电影科学技术研究所 无线音箱多声道同步系统及方法
CN111918177A (zh) * 2020-07-31 2020-11-10 北京全景声信息科技有限公司 音频处理方法、装置、系统以及存储介质
CN112806030A (zh) * 2018-08-24 2021-05-14 诺基亚技术有限公司 空间音频处理
CN113646836A (zh) * 2019-03-27 2021-11-12 诺基亚技术有限公司 声场相关渲染

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101884065A (zh) * 2007-10-03 2010-11-10 创新科技有限公司 用于双耳再现和格式转换的空间音频分析和合成
WO2010089357A2 (en) * 2009-02-04 2010-08-12 Richard Furse Sound system
CN107465990A (zh) * 2013-03-28 2017-12-12 杜比实验室特许公司 用于创作和渲染音频再现数据的非暂态介质和设备
US20160104493A1 (en) * 2014-10-10 2016-04-14 Qualcomm Incorporated Signaling layers for scalable coding of higher order ambisonic audio data
CN106210990A (zh) * 2016-07-13 2016-12-07 北京时代拓灵科技有限公司 一种全景声音频处理方法
CN109215669A (zh) * 2017-07-06 2019-01-15 中国电影科学技术研究所 无线音箱多声道同步系统及方法
CN107920303A (zh) * 2017-11-21 2018-04-17 北京时代拓灵科技有限公司 一种音频采集的方法及装置
CN112806030A (zh) * 2018-08-24 2021-05-14 诺基亚技术有限公司 空间音频处理
CN113646836A (zh) * 2019-03-27 2021-11-12 诺基亚技术有限公司 声场相关渲染
CN111918177A (zh) * 2020-07-31 2020-11-10 北京全景声信息科技有限公司 音频处理方法、装置、系统以及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
T. OKAMOTO: "2.5D higher order ambisonics for a sound field described by angular spectrum coefficients", 2.5D HIGHER ORDER AMBISONICS FOR A SOUND FIELD DESCRIBED BY ANGULAR SPECTRUM COEFFICIENTS, 19 May 2016 (2016-05-19), pages 326 - 330 *
吕键 等: "广播电视工程中数字音频技术的运用", 《电子技术与软件工程》, no. 2021, 1 September 2021 (2021-09-01), pages 129 - 131 *
王钰: "全景声处理软件的设计与实现", 《中国优秀硕士学位论文全文数据库信息科技辑》, no. 2018, 15 December 2018 (2018-12-15) *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114949856A (zh) * 2022-04-14 2022-08-30 北京字跳网络技术有限公司 游戏音效的处理方法、装置、存储介质及终端设备
CN115604642A (zh) * 2022-12-12 2023-01-13 杭州兆华电子股份有限公司(Cn) 一种空间音效的测试方法
CN115604642B (zh) * 2022-12-12 2023-03-31 杭州兆华电子股份有限公司 一种空间音效的测试方法

Also Published As

Publication number Publication date
CN114173256B (zh) 2024-04-19

Similar Documents

Publication Publication Date Title
US11770671B2 (en) Spatial audio for interactive audio environments
US11184727B2 (en) Audio signal processing method and device
US6766028B1 (en) Headtracked processing for headtracked playback of audio signals
EP3197182B1 (en) Method and device for generating and playing back audio signal
KR102507476B1 (ko) 헤드셋을 통한 공간 오디오 렌더링을 위한 룸 특성 수정 시스템 및 방법
CN109906616A (zh) 用于确定一或多个音频源的一或多个音频表示的方法、系统和设备
KR20050083928A (ko) 오디오 데이터를 처리하기 위한 방법 및 이에 따른 사운드수집 장치
KR20170106063A (ko) 오디오 신호 처리 방법 및 장치
CN109996166A (zh) 声音处理装置和方法、以及程序
CN108370487A (zh) 声音处理设备、方法和程序
CN114173256B (zh) 一种还原声场空间及姿态追踪的方法、装置和设备
US11109177B2 (en) Methods and systems for simulating acoustics of an extended reality world
US20210329399A1 (en) Audio signal processing method and apparatus
CN109314832A (zh) 音频信号处理方法和设备
US11221821B2 (en) Audio scene processing
WO2017119320A1 (ja) 音声処理装置および方法、並びにプログラム
WO2017119321A1 (ja) 音声処理装置および方法、並びにプログラム
Li The capture and recreation of 3D auditory scenes
WO2023085186A1 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
CN116193196A (zh) 虚拟环绕声渲染方法、装置、设备及存储介质
CN118301536A (zh) 音频的虚拟环绕处理方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant