CN110168638B - 用于虚拟现实、增强现实及混合现实的音频位差 - Google Patents
用于虚拟现实、增强现实及混合现实的音频位差 Download PDFInfo
- Publication number
- CN110168638B CN110168638B CN201880005983.4A CN201880005983A CN110168638B CN 110168638 B CN110168638 B CN 110168638B CN 201880005983 A CN201880005983 A CN 201880005983A CN 110168638 B CN110168638 B CN 110168638B
- Authority
- CN
- China
- Prior art keywords
- audio
- foreground
- objects
- decoding device
- processing circuit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000003190 augmentative effect Effects 0.000 title claims description 7
- 238000012545 processing Methods 0.000 claims abstract description 190
- 230000005540 biological transmission Effects 0.000 claims abstract description 52
- 238000000034 method Methods 0.000 claims description 170
- 230000008569 process Effects 0.000 claims description 60
- 230000005236 sound signal Effects 0.000 claims description 43
- 230000004044 response Effects 0.000 claims description 19
- 238000004091 panning Methods 0.000 claims description 17
- 230000000007 visual effect Effects 0.000 claims description 7
- 238000009877 rendering Methods 0.000 description 36
- 241000282320 Panthera leo Species 0.000 description 35
- 238000010586 diagram Methods 0.000 description 27
- 230000006870 function Effects 0.000 description 15
- 238000003491 array Methods 0.000 description 14
- 239000013598 vector Substances 0.000 description 14
- 238000004891 communication Methods 0.000 description 13
- 238000004364 calculation method Methods 0.000 description 8
- 230000000873 masking effect Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 6
- 230000033001 locomotion Effects 0.000 description 6
- 230000006835 compression Effects 0.000 description 5
- 238000007906 compression Methods 0.000 description 5
- 230000011664 signaling Effects 0.000 description 5
- 238000013500 data storage Methods 0.000 description 4
- 230000001953 sensory effect Effects 0.000 description 4
- 238000012800 visualization Methods 0.000 description 4
- VBRBNWWNRIMAII-WYMLVPIESA-N 3-[(e)-5-(4-ethylphenoxy)-3-methylpent-3-enyl]-2,2-dimethyloxirane Chemical compound C1=CC(CC)=CC=C1OC\C=C(/C)CCC1C(C)(C)O1 VBRBNWWNRIMAII-WYMLVPIESA-N 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000010304 firing Methods 0.000 description 3
- AZUYLZMQTIKGSC-UHFFFAOYSA-N 1-[6-[4-(5-chloro-6-methyl-1H-indazol-4-yl)-5-methyl-3-(1-methylindazol-5-yl)pyrazol-1-yl]-2-azaspiro[3.3]heptan-2-yl]prop-2-en-1-one Chemical compound ClC=1C(=C2C=NNC2=CC=1C)C=1C(=NN(C=1C)C1CC2(CN(C2)C(C=C)=O)C1)C=1C=C2C=NN(C2=CC=1)C AZUYLZMQTIKGSC-UHFFFAOYSA-N 0.000 description 2
- AWNXKZVIZARMME-UHFFFAOYSA-N 1-[[5-[2-[(2-chloropyridin-4-yl)amino]pyrimidin-4-yl]-4-(cyclopropylmethyl)pyrimidin-2-yl]amino]-2-methylpropan-2-ol Chemical compound N=1C(NCC(C)(O)C)=NC=C(C=2N=C(NC=3C=C(Cl)N=CC=3)N=CC=2)C=1CC1CC1 AWNXKZVIZARMME-UHFFFAOYSA-N 0.000 description 2
- 230000002238 attenuated effect Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- PZASAAIJIFDWSB-CKPDSHCKSA-N 8-[(1S)-1-[8-(trifluoromethyl)-7-[4-(trifluoromethyl)cyclohexyl]oxynaphthalen-2-yl]ethyl]-8-azabicyclo[3.2.1]octane-3-carboxylic acid Chemical compound FC(F)(F)C=1C2=CC([C@@H](N3C4CCC3CC(C4)C(O)=O)C)=CC=C2C=CC=1OC1CCC(C(F)(F)F)CC1 PZASAAIJIFDWSB-CKPDSHCKSA-N 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 235000009508 confectionery Nutrition 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000005669 field effect Effects 0.000 description 1
- 208000013057 hereditary mucoepithelial dysplasia Diseases 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/302—Electronic adaptation of stereophonic sound system to listener position or orientation
- H04S7/303—Tracking of listener position or orientation
- H04S7/304—For headphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R5/00—Stereophonic arrangements
- H04R5/033—Headphones for stereophonic communication
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/01—Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/03—Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/11—Positioning of individual sound objects, e.g. moving airplane, within a sound field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/13—Aspects of volume control, not necessarily automatic, in stereophonic sound systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/01—Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/03—Application of parametric coding in stereophonic audio systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/11—Application of ambisonics in stereophonic audio systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/305—Electronic adaptation of stereophonic audio signals to reverberation of the listening space
- H04S7/306—For headphones
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Stereophonic System (AREA)
Abstract
本公开提供一种实例音频解码装置,其包含处理电路及耦合到所述处理电路的存储器装置。所述处理电路经配置以:在位流中接收三维3D音场的音频对象的经编码表示;接收与所述位流相关联的元数据;从所述所接收元数据获得与所述音频对象中的一或多者相关联的一或多个发射因数;以及将所述发射因数应用于所述一或多个音频对象以获得所述3D音场的经位差调整音频对象。所述存储器装置经配置以存储所述所接收位流的至少一部分、所述所接收元数据或所述3D音场的所述经位差调整音频对象。
Description
本申请案要求2017年1月13日提交的第62/446,324号美国临时申请案的权利,所述美国临时申请案的全部内容以引用的方式并入本文中。
技术领域
本公开涉及音频数据的编码及解码,且更明确地说,涉及用于虚拟现实及增强现实环境的音频数据译码技术。
背景技术
已开发常常经由通过提供计算机产生的环境的装置提供到个人的视觉及声音效果来允许个人感测所述计算机产生的环境并与其交互的各种技术。这些计算机产生的环境有时被称作“虚拟现实”或“VR”环境。举例来说,用户可使用一或多个可穿戴式装置(例如耳机)来获得VR体验。VR耳机可包含各种输出组件,例如提供视觉图像到用户的显示屏,及输出声音的扬声器。在一些实例中,VR耳机可提供额外感官效果,例如借助于运动或振动提供的触觉感觉。在一些实例中,计算机产生的环境可经由扬声器或未必由用户穿戴的其它装置而是在用户位于扬声器的可听范围内的情况下提供音频效果到一或多个用户。类似地,存在允许用户看到在用户前方的真实世界(当透镜为透明的时)并看到作为“增强现实”或“AR”的形式的图形覆迭(例如,来自嵌入于头戴式显示器(HMD)框架中的投影仪)的HMD。类似地,存在允许用户体验作为“混合现实”或“MR”的形式的添加了VR元素的真实世界的系统。
VR、MR及AR系统可并有显现高阶立体混响(HOA)信号的能力,高阶立体混响(HOA)信号常常由多个球谐系数(SHC)或其它阶层元素表示。即,通过VR、MR或AR系统显现的HOA信号可表示三维(3D)音场。HOA或SHC表示可按独立于用以回放从SHC信号显现的多声道音频信号的局部扬声器几何布置的方式来表示3D音场。SHC信号也可促进回溯兼容性,这是因为可将SHC信号显现为熟知且被高度采用的多声道格式(例如,5.1音频声道格式或7.1音频声道格式)。SHC表示因此可实现音场的更好表示,其也适应回溯兼容性。
发明内容
一般来说,描述音频解码装置及音频编码装置可充分利用来自计算机产生的环境的视频馈入的视频数据,以提供与计算机产生的现实体验相关联的3D音场的更准确表示所借以的技术。一般来说,本公开的技术可使得各种系统能够在HOA域中调整音频对象以在显现后产生音频数据的能量及方向分量的更准确表示。作为一个实例,所述技术可使得能够显现3D音场以适应计算机产生的现实系统的六自由度(6-DOR)能力。此外,本公开的技术使得显现装置能够使用HOA域中表示的数据来基于经提供用于计算机产生的现实体验的视频馈入的特性改变音频数据。
举例来说,根据本文中所描述的技术,计算机产生的现实系统的音频显现装置可针对由可使前景音频对象衰减的“静默对象”引起的位差相关变化调整前景音频对象。作为另一实例,本公开的技术可使得计算机产生的现实系统的音频显现装置能够确定用户与特定前景音频对象之间的相对距离。作为另一实例,本公开的技术可使得音频显现装置能够应用发射因数以显现3D音场以提供更准确计算机产生的现实体验给用户。
在一个实例中,本公开涉及一种音频解码装置。所述音频解码装置可包含处理电路及耦合到所述处理电路的存储器装置。所述处理电路经配置以:在位流中接收三维(3D)音场的音频对象的经编码表示;接收与所述位流相关联的元数据;从所述所接收元数据获得与所述音频对象中的一或多者相关联的一或多个发射因数;以及将所述发射因数应用于所述一或多个音频对象以获得所述3D音场的经位差调整音频对象。所述存储器装置经配置以存储所述所接收位流的至少一部分、所述所接收元数据或所述3D音场的所述经位差调整音频对象。
在另一实例中,本公开涉及一种方法,其包含在位流中接收三维(3D)音场的音频对象的经编码表示,及接收与位流相关联的元数据。所述方法可进一步包含从所接收元数据获得与所述音频对象中的一或多者相关联的一或多个发射因数,及将所述发射因数应用于所述一或多个音频对象以获得3D音场的经位差调整音频对象。
在另一实例中,本公开涉及一种音频解码设备。所述音频解码设备可包含用于在位流中接收三维(3D)音场的音频对象的经编码表示的装置,及用于接收与位流相关联的元数据的装置。所述音频解码设备可进一步包含用于从所接收元数据获得与所述音频对象中的一或多者相关联的一或多个发射因数的装置,及用于将发射因数应用于一或多个音频对象以获得3D音场的经位差调整音频对象的装置。
在另一实例中,本公开针对一种编码有指令的非暂时性计算机可读存储媒体。所述指令当执行时致使音频解码装置的处理电路在位流中接收三维(3D)音场的音频对象的经编码表示,并接收与位流相关联的元数据。所述指令当执行时进一步致使音频解码装置的处理电路从所接收元数据获得与所述音频对象中的一或多者相关联的一或多个发射因数,并将所述发射因数应用于一或多个音频对象以获得3D音场的经位差调整音频对象。
在随附图式及以下描述中阐述所述技术的一或多个方面的细节。这些技术的其它特征、目标及优点将从所述描述及所述图式以及权利要求书而显而易见。
附图说明
图1为说明从零阶(n=0)到四阶(n=4)的球谐基底函数的图。
图2A为说明可执行本公开中所描述的技术的各种方面的系统的图。
图2B到2D为说明图2A的实例中展示的系统的不同实例的图。
图3为说明用于AVR及/或AR应用的六自由度(6-DOF)头部运动方案的图。
图4A到4D为说明可在VR场景中呈现的位差问题的实例的图。
图5A及5B为说明可在VR场景中呈现的位差问题的另一实例的图。
图6A到6D为说明本公开的各种编码器侧技术的流程图。
图7为说明根据本公开方面的音频解码装置可执行的解码过程的流程图。
图8为说明根据本公开的方面的音频编码装置可实施以分类静默对象、前景对象及背景对象的对象分类机制的图。
图9A为说明根据本公开的方面的来自多个麦克风及摄影机的音频/视频俘获数据的拼接的实例的图。
图9B为说明根据本公开的方面的包含运用拼接及内插的位差调整的编码器及解码器侧操作的过程的流程图。
图9C为说明在多个位置处的前景对象及背景对象的俘获的图。
图9D说明根据本公开的方面的音频解码装置可执行的内插技术的数学表达。
图9E为说明根据本公开的方面的音频解码装置可实施的基于点云的内插的应用的图。
图10为说明根据本公开的方面的音频解码装置可执行的前景音频对象的衰减的HOA域计算的方面的图。
图11为说明根据本公开的一或多种技术的音频编码装置可执行的发射因数计算的方面的图。
图12为说明根据本公开的方面的可通过集成编码/显现装置执行的过程的图。
图13为说明根据本公开的方面的音频编码装置或集成编码/显现装置可执行的过程的流程图。
图14说明根据本公开的方面的音频解码装置或集成编码/解码/显现装置可执行的实例过程的流程图。
图15为说明根据本公开的方面的音频解码装置或集成编码/解码/显现装置可执行的实例过程的流程图。
图16为说明根据本公开的方面的音频编码装置或集成编码/显现装置可执行的过程的流程图。
图17为说明根据本公开的方面的音频解码装置或集成编码/解码/显现装置可执行的实例过程的流程图。
图18为说明根据本公开的方面的音频解码装置或集成编码/解码/显现装置可执行的实例过程的流程图。
具体实施方式
在一些方面中,本公开描述音频解码装置及音频编码装置可充分利用来自VR、MR或AR视频馈入的视频数据以提供与VR/MR/AR体验相关联的3D音场的更准确表示所借以的技术。举例来说,本公开的技术可使得各种系统能够在HOA域中调整音频对象以在显现后产生音频数据的能量及方向分量的更准确表示。作为一个实例,技术可使得能够显现3D音场以适应VR系统的六自由度(6-DOR)能力。
此外,本公开的技术使得显现装置能够使用HOA域数据来基于经提供用于VR体验的视频馈入的特性改变音频数据。举例来说,根据本文中所描述的技术,VR系统的音频显现装置可针对由可使前景音频对象衰减的“静默对象”引起的位差相关变化来调整前景音频对象。作为另一实例,本公开的技术可使得VR系统的音频显现装置能够确定用户与特定前景音频对象之间的相对距离。
环绕声技术可特别地适合于并入到VR系统中。举例来说,通过环绕声技术提供的浸入式音频体验补充由VR系统的其它方面提供的浸入式视频及感官体验。此外,运用如由立体混响技术所提供的方向特性增强音频对象的能量提供VR环境的更真实的模拟。举例来说,视觉对象的真实放置以及经由环绕声扬声器阵列的音频对象的对应放置的组合可更准确模拟正被复制的环境。
在市场中存在各种基于“环绕声”声道的格式。举例来说,其范围从5.1家庭影院系统(其在使起居室享有立体声方面已获得最大成功)到由日本广播协会或日本广播公司(NHK)开发的22.2系统。内容创建者(例如,好莱坞工作室)将希望一次性产生影片的音轨,而不花费精力来针对每一扬声器配置对其进行重混。运动图片专家组(MPEG)已发布一种标准,所述标准允许音场使用元素(例如,高阶立体混响HOA系数)的阶层集合来表示,对于大多数扬声器配置(包含无论在由各种标准定义的位置中或在不均匀位置中的5.1及22.2配置),所述元素的集合可显现到扬声器馈入。
MPEG发布如MPEG-H 3D音频标准(由ISO/IEC JTC 1/SC 29阐述,具有文件识别符ISO/IEC DIS 23008-3,正式地名为“信息技术-异质环境中的高效率译码及媒体递送-第3部分:3D音频(Information technology-High efficiency coding and media deliveryin heterogeneous environments-Part 3:3D audio)”,且日期为2014年7月25日)的标准。MPEG还发布了3D音频标准的第二版本,由ISO/IEC JTC 1/SC 29阐述,具有文件识别符ISO/IEC 23008-3:201x(E),名为“信息技术-异质环境中的高效率译码及媒体递送-第3部分:3D音频”,且日期为2016年10月12日。在本公开中对“3D音频标准”的参考可指上述标准中的一者或两者。
如上文所提及,元素的阶层集合的一个实例为球谐系数(SHC)的集合。以下表达式表明使用SHC对音场的描述或表示:
表达式展示在时间t处,音场的任一点处的压力pi可由SHC,唯一地表示。此处,c为声音的速度(~343m/s),为参考点(或观测点),jn(·)为n阶的球贝塞尔函数,且为n阶及m子阶的球谐基底函数(其也可被称作球基底函数)。可认识到,方括弧中的项为信号的频域表示(即,),其可通过各种时间-频率变换(例如,离散傅立叶变换(DFT)、离散余弦变换(DCT)或小波变换)来近似得出。阶层集合的其它实例包含数个小波变换系数集合及其它数个多分辨率基底函数系数集合。
图1为说明从零阶(n=0)到四阶(n=4)的球谐基底函数的图。如可见,对于每一阶来说,存在m子阶的扩展,出于易于说明的目的,在图1的实例中展示了所述子阶但未显式地注释。
可由各种麦克风阵列配置物理地获取(例如,记录)SHC或替代地,其可从音场的基于声道或基于对象的描述导出。SHC(其也可被称为高阶立体混响HOA系数)表示基于场景的音频,其中SHC可输入到音频编码器以获得可促进更高效发射或存储的经编码SHC。举例来说,可使用涉及(1+4)2个(25,且因此为四阶)系数的四阶表示。
如上文所提及,可使用麦克风阵列从麦克风记录导出SHC。可如何从麦克风阵列导出SHC的各种实例描述于Poletti,M的“基于球谐函数的三维环绕声系统(Three-Dimensional Surround Sound Systems Based on Spherical Harmonics)”(J.AudioEng.Soc.,第53卷,第11期,2005年11月,第1004-1025页)中。
其中i为为n阶的球面汉克(Hankel)函数(第二种类),且为对象的位置。知晓随频率变化的对象源能量g(ω)(例如,使用时间-频率分析技术,例如,对PCM流执行快速傅立叶变换)允许我们将每一PCM对象及对应位置转换成SHC另外,可展示(由于上式为线性及正交分解):每一对象的系数为相加性的。以此方式,若干PCM对象可由系数(例如,作为个别对象的系数向量的总和)来表示。基本上,所述系数含有关于音场(作为3D坐标的函数的压力)的信息,且上式表示在观测点附近从个别对象到总音场的表示的变换。下文在基于SHC的音频译码的上下文中描述剩余图。
图2A为说明可执行本公开中所描述的技术的各种方面的系统10A的图。如图2A的实例中所展示,系统10A包含内容创建者装置12及内容消费者装置14。虽然在内容创建者装置12及内容消费者装置14的上下文中加以描述,但可在音场的SHC(其也可被称作HOA系数)或任何其它阶层表示经编码以形成表示音频数据的位流的任何上下文中实施所述技术。此外,内容创建者装置12可表示能够实施本公开中所描述的技术的任何形式的计算装置,包含手持机(或蜂窝式电话)、平板计算机、智能手机或桌上型计算机(提供几个实例)。同样,内容消费者装置14可表示能够实施本公开中所描述的技术的任何形式的计算装置,包含手持机(或蜂窝式电话)、平板计算机、智能手机、机顶盒或桌上型计算机(提供几个实例)。
内容创建者装置12可通过电影工作室、游戏程序设计师、VR系统的制造商或可产生多声道音频内容以供内容消费者装置的操作者消费的任何其它实体(例如内容消费者装置14)操作。在一些实例中,内容创建者装置12可由将希望压缩HOA系数11的个别用户操作。常常,内容创建者装置12产生音频内容以及视频内容及/或可经由触觉或触觉输出表达的内容。举例来说,内容创建者装置12可包含产生VR、MR或AR环境数据的系统,可为所述系统或为所述系统的部分。内容消费者装置14可由个体来操作。内容消费者装置14可包含音频回放系统16,其可指能够显现供作为多声道音频内容回放的SHC的任何形式的音频回放系统。
举例来说,内容消费者装置14可包含提供VR、MR或AR环境或体验给用户的系统,可为所述系统或可为所述系统的部分。因而,内容消费者装置14也可包含用于视频数据的输出、用于触觉或触感通信的输出及输入等的组件。为易于仅说明目的,图2A中使用各种音频相关组件说明内容创建者装置12及内容消费者装置14,但应了解,根据VR及AR技术,一个或两个装置也可包含经配置以处理非音频数据(例如其它感官数据)的额外组件。
内容创建者装置12包含音频编辑系统18。内容创建者装置12获得呈各种格式的实时记录7(包含直接作为HOA系数)及音频对象9,内容创建者装置12可使用音频编辑系统18对实时记录7及音频对象9进行编辑。两个或大于两个麦克风或麦克风阵列(下文中,“麦克风5”)可俘获实时记录7。内容创建者装置12可在编辑过程期间显现来自音频对象9的HOA系数11,收听经显现的扬声器馈入以试图识别需要进一步编辑的音场的各种方面。内容创建者装置12可接着编辑HOA系数11(可能经由操纵可供以上文所描述的方式导出源HOA系数的音频对象9中的不同者间接地编辑)。内容创建者装置12可采用音频编辑系统18产生HOA系数11。音频编辑系统18表示能够编辑音频数据且输出所述音频数据作为一或多个源球谐系数的任何系统。
当编辑处理过程完成时,内容创建者装置12可基于HOA系数11产生位流21。即,内容创建者装置12包含音频编码装置20,所述音频编码装置20表示经配置以根据本公开中所描述的技术的各种方面编码或以其它方式压缩HOA系数11以产生位流21的装置。音频编码装置20可产生位流21以供发射,作为一实例,跨越发射信道(其可为有线或无线信道、数据存储装置或其类似者)。位流21可表示HOA系数11的经编码版本,且可包含主要位流及另一旁侧位流(其可称作旁侧信道信息)。如图2A中所示,音频编码装置20也可在发射信道上发射元数据23。在各种实例中,音频编码装置20可产生包含关于经由位流21发射的音频对象的位差调整信息的元数据23。尽管元数据23说明为与位流21分开,但在一些实例中,位流21可包含元数据23。
根据本公开的技术,音频编码装置20可在元数据23中包含方向向量信息、静默对象信息及HOA系数11的发射因数中的一或多者。举例来说,音频编码装置20可包含发射因数,所述发射因数当应用时使经由位流21发射的HOA系数11中的一或多者的能量衰减。根据本公开的各种方面,音频编码装置20可使用对应于由HOA系数11的特定系数表示的音频帧的视频帧中的对象位置导出发射因数。举例来说,音频编码装置20可确定视频数据中表示的静默对象,所述静默对象具有在现实生活情境中将干扰由HOA系数11表示的某些前景音频对象的音量的位置。接着,音频编码装置20可产生发射因数,所述发射因数当由音频解码装置24应用时将使HOA系数11的能量衰减以更准确模拟将由对应视频场景中的听者听到3D音场的方式。
根据本公开的技术,音频编码装置20可将如由HOA系数11表达的音频对象9分类成前景对象及背景对象。举例来说,音频编码装置20可实施本公开的方面以基于对象是在视频数据中表示但不对应于预识别的音频对象的确定而识别静音对象或静默对象。尽管关于执行视频分析的音频编码装置20来描述,但视频编码装置(未展示)或专用视觉分析装置或单元可执行静默对象的分类,出于产生元数据23的目的提供分类及发射因数到音频编码装置20。
在所俘获视频及音频的上下文中,音频编码装置20可在一对象并不装备有传感器的情况下确定所述对象不对应于预识别的音频对象。如本文所使用,术语“装备有传感器”可包含传感器附接(永久地或可拆离地)到音频源,或放置于(但并不附接到)音频源的耳听区内的情形。如果传感器不附接到音频源但定位于耳听区内,则在适用情形中,在传感器的耳听区内的多个音频源被认为“装备”有传感器。在合成VR环境中,音频编码装置20可实施本公开的技术以在对象不映射到预先确定列表中的任一音频对象的情况下确定所述所讨论的对象不对应于预识别的音频对象。在组合记录合成的VR或AR环境中,音频编码装置20可实施本公开的技术以使用上文所描述的技术中的一者或两者确定对象不对应于预识别的音频对象。
此外,音频编码装置20可确定反映听者的位置与由位流21中的HOA系数11表示的前景音频对象的相应位置之间的关系的相对前景位置信息。举例来说,音频编码装置20可确定用于VR体验的视频俘获或视频合成的“第一个人”方面之间的关系,且可确定“第一人”的位置与对应于3D音场的每一相应前景音频对象的相应对象之间的关系。
在一些实例中,音频编码装置20还可使用相对前景位置信息来确定听者位置与使前景对象的能量衰减的静默对象之间的相对位置信息。举例来说,音频编码装置20可将缩放因数应用于相对前景位置信息,以导出听者位置与使前景音频对象的能量衰减的静默对象之间的距离。缩放因数值可在零到一的范围内,其中零值指示静默对象与听者位置共置或实质上共置,且其中值一指示静默对象与前景音频对象共置或实质上共置。
在一些情况下,音频编码装置20可发信相对前景位置信息及/或听者位置到静默对象距离信息到音频编码装置24。在其它实例中,音频编码装置20可发信听者位置信息及前景音频对象位置信息到音频解码装置24,借此使得音频解码装置24能够导出相对前景位置信息及/或从听者位置到使前景音频对象的能量/方向数据衰减的静默对象的距离。虽然元数据23及位流21在图2A中说明为由音频编码装置20独立地发信(作为实例),但应了解,在一些实例中,位流21可包含元数据23的部分或全部。音频编码装置20或音频解码装置24中的一者或两者可符合3D音频标准,例如“信息技术-异质环境中的高效率译码及媒体递送”(ISO/IEC JTC 1/SC 29)或简称为“MPEG-H”标准。
虽然在图2A中展示为直接发射到内容消费者装置14,但内容创建者装置12可将位流21输出到定位于内容创建者装置12与内容消费者装置14之间的中间装置。所述中间装置可存储位流21以供稍后递送到可能请求位流的内容消费者装置14。中间装置可包括文件服务器、网页服务器、桌上型计算机、膝上型计算机、平板计算机、移动电话、智能手机,或能够存储位流21以供音频解码器稍后检索的任何其它装置。中间装置可驻留于能够将位流21(且可能结合发射对应视频数据位流)流式传输到请求位流21的订户(例如,内容消费者装置14)的内容递送网络中。
替代地,内容创建者装置12可将位流21存储到存储媒体,例如紧密光盘、数字影音光盘、高清晰度视频光盘或其它存储媒体,其中的大部分能够由计算机读取且因此可被称作计算机可读存储媒体或非暂时性计算机可读存储媒体。在此上下文中,发射信道可指借以发射存储到所述媒体的内容的信道(且可包含零售商店及其它基于商店的递送机构)。在任何情况下,本公开的技术因此就此来说不应限于图2A的实例。
如图2A的实例中进一步展示,内容消费者装置14包含音频回放系统16。音频回放系统16可表示能够回放多声道音频数据的任何音频回放系统。音频回放系统16可包含若干不同显现器22。显现器22可各自提供不同形式的显现,其中不同形式的显现可包含执行基于向量的振幅水平移动(VBAP)的各种方式中的一或多者及/或执行音场合成的各种方式中的一或多者。如本文所使用,“A及/或B”意谓“A或B”,或“A及B”两者。
音频回放系统16可进一步包含音频解码装置24。音频解码装置24可表示经配置以对来自位流21的HOA系数11'进行解码的装置,其中HOA系数11'可类似于HOA系数11,但归因于经由发射信道的有损操作(例如,量化)及/或发射而与之不同。音频回放系统16可随后解码位流21以获得HOA系数11',且显现HOA系数11'以输出扩音器馈入25。扩音器馈入25可驱动一或多个扩音器(为易于说明的目的,其未在图2A的实例中展示)。
虽然关于扩音器馈入25描述,但音频回放系统16可从扩音器馈入25或直接从HOA系数11'显现头戴式耳机馈入,从而输出头戴式耳机馈入到头戴式耳机扬声器。头戴式耳机馈入可表示双声音频扬声器馈入,音频回放系统16使用双声音频显现器显现双声音频扬声器馈入。
为了选择适当显现器或在一些情况下产生适当显现器,音频回放系统16可获得指示扩音器的数目及/或扬声器的空间几何布置的扩音器信息13。在一些情况下,音频回放系统16可使用参考麦克风且以使得动态地确定扩音器信息13的方式驱动扬声器而获得扩音器信息13。在其它情况下或结合扩音器信息13的动态确定,音频回放系统16可提示用户与音频回放系统16介接且输入扩音器信息13。
音频回放系统16接着可基于扩音器信息13选择音频显现器22中的一者。在一些情况下,当音频显现器22中无一者在与扩音器信息13中所指定的扬声器几何布置处于某一阈值相似度测量(按照扩音器几何布置)内时,音频回放系统16可基于扩音器信息13产生音频显现器22中的一者。在一些情况下,音频回放系统16可基于扩音器信息13产生音频显现器22中的一者,而不会首先试图选择音频显现器22中的现有的一者。一或多个扬声器3可接着回放所显现的扩音器馈入25。
音频解码装置24可实施本公开的各种技术以对于经由位流21接收的音频对象的经编码表示执行基于位差的调整。举例来说,音频解码装置24可将包含于元数据23中的发射因数应用于经输送为位流21中的经编码表示的一或多个音频对象。在各种实例中,音频解码装置24可使能量衰减及/或基于发射因数调整关于前景音频对象的方向信息。在一些实例中,音频解码装置24也可使用元数据23以获得静音对象位置信息及/或使收听者的位置与前景音频对象的相应位置相关的相对前景位置信息。通过使前景音频对象的能量衰减及/或使用发射因数调整前景音频对象的方向信息,音频解码装置24可使得内容消费者装置14能够在扬声器3上显现音频数据,其提供更真实听觉体验作为也提供视频数据以及任选地其它感官数据的VR体验的部分。
在一些实例中,音频解码装置24可使用包含于元数据23中的信息在本地导出相对前景位置信息。举例来说,音频解码装置24可接收元数据23中的听者位置信息及前景音频对象位置。接着,音频解码装置24可例如通过计算听者位置与前景音频位置之间的移位而导出相对前景位置信息。
举例来说,音频解码装置24可使用坐标系统以通过使用听者位置及前景音频位置的坐标作为距离计算函数中的运算元来计算相对前景位置信息。在一些实例中,音频解码装置24也可接收适用于相对前景位置信息的缩放因数作为元数据23的部分。在一些此类实例中,音频解码装置24可将缩放因数应用于相对前景位置信息以计算听者位置与使能量衰减或改变一或多个前景音频对象的方向信息的静音对象之间的距离。虽然元数据23及位流21在图2A中说明为在音频解码装置24处独立地接收(作为实例),但应了解,在一些实例中,位流21可包含元数据23的部分或全部。
除包含麦克风5的汽车460以外,图2B中展示的系统10B类似于图2A中展示的系统10A。因而,可在汽车的上下文中执行本公开中阐述的技术中的一些。
除包含麦克风5的远程地引导及/或自主控制的飞行装置462以外,图2C中展示的系统10C类似于图2A中展示的系统10A。举例来说,飞行装置462可表示四轴飞行器、直升机或任何其它类型的无人驾驶飞机。因而,可在无人驾驶飞机的上下文中执行本公开中阐述的技术。
除包含麦克风5的机器人装置464以外,图2D中展示的系统10D类似于图2A中展示的系统10A。举例来说,机器人装置464可表示使用人工智能操作的装置或其它类型的机器人。在一些实例中,机器人装置464可表示飞行装置,例如无人驾驶飞机。在其它实例中,机器人装置464可表示其它类型的装置,包含不必飞行的那些装置。因而,可在机器人的上下文中执行本公开中阐述的技术。
图3为说明用于AVR及/或AR应用的六自由度(6-DOF)头部运动方案的图。本公开的方面处理在听者接收3D音频内容的情形下及在听者在图3中所说明的6-DOF约束内移动情况下的3D音频内容的显现。在各种实例中,听者可例如在3D音频内容已经记录及/或发射到由听者穿戴的VR耳机或ARHDM的情形下借助于装置接收3D音频内容。在图3的实例中,听者可根据旋转(例如由俯仰轴、横偏轴及横摇轴表达)移动他/她的头。图2A中所说明的音频解码装置24可实施常规HOA显现以处理沿着俯仰轴、横偏轴及横摇轴的头部旋转。
然而,如图3中所示,6-DOF方案包含三条额外运动线。更特定地说,除了上文所论述的旋转轴之外,图3的6-DOF方案也包含用户的头部位置可平移移动或致动所沿着的三条线。三个平移方向为左-右(L/R)、上-下(U/D),及前-后(F/B)。音频编码装置20及/或音频解码装置24可使用本公开的各种技术来实施位差处置,以处理三个平移方向。举例来说,音频解码装置24可应用一或多个发射因数以调整各种前景音频对象的能量及/或方向信息以基于VR/AR用户的运动的6-DOF范围实施位差调整。
图4A到4D为说明可在VR场景30中呈现的位差问题的实例的图。在图4A的VR场景30A的实例中,听者的虚拟位置根据在位置A、B及C处俘获或关于位置A、B及C合成的第一个人帐户移动。在虚拟位置A、B及C中的每一者处,听者可听到与从在图4A的右侧描绘的狮发出的声音相关联的前景音频对象。另外,在虚拟位置A、B及C中的每一者处,听者可听到与从图4A的中间描绘的奔跑的个人发出的声音相关联的前景音频对象。此外,在对应现实生活情形中,在虚拟位置A、B及C中的每一者,听者可归因于不同方向信息及不同遮挡或遮蔽特性听到不同音场。
在图4A的左列中说明在虚拟位置A、B及C中的每一者处的不同遮挡/遮蔽特性。在虚拟位置A处,狮正在奔跑的个人后方及左侧吼叫(例如产生前景音频对象)。音频编码装置20可归因于从奔跑的个人的位置发出的前景音频对象(例如叫喊)对从狮的位置发出的前景音频对象(例如吼叫)的干扰而执行波束成形以编码在虚拟位置A处体验的3D音场的方面。
在虚拟位置B处,狮在奔跑的个人正后方吼叫。即,与狮吼叫相关的前景音频对象通过奔跑的个人所引起的遮挡以及通过奔跑的个人的叫喊所引起的遮蔽而在某一程度上被遮蔽。音频编码装置20可基于听者(在虚拟位置B处)与狮的相对位置以及奔跑的个人与听者(在虚拟位置B处)之间的距离执行遮蔽。
举例来说,奔跑的个人与狮越靠近,音频编码装置20可应用于狮吼叫的前景音频对象的遮蔽越小。奔跑的个人与听者定位所在的虚拟位置B越靠近,音频编码装置20可应用于狮吼叫的前景音频对象的遮蔽越大。音频编码装置20可停止遮蔽以允许关于狮吼叫的前景音频对象的一些预先确定的最小能量。即,本公开的技术使得音频编码装置20能够指派至少一最小能量到狮吼叫的前景音频对象(而不管奔跑的个人与虚拟位置B如何靠近),以适应将在虚拟位置B处听到的某一层级的狮吼叫。
图4B说明从相应源到虚拟位置A的前景音频对象的路径。图4B的虚拟场景30B说明听者在虚拟位置A处听到来自奔跑的个人后方及左侧的狮吼叫。
图4C说明从相应源到虚拟位置C的前景音频对象路径。图4C的虚拟场景30C说明听者在虚拟位置C处听到来自奔跑的个人后方及右侧的狮吼叫。
图4D说明从相应源到虚拟位置B的前景音频对象的路径。图4D的虚拟场景30D说明听者在虚拟位置B处听到来自奔跑的个人正后方的狮吼叫。在图4D中所说明的虚拟场景30D的情况下,音频编码装置20可基于共线的听者的虚拟位置、奔跑的个人的位置及狮的位置的全部三者实施遮蔽。举例来说,音频编码装置可基于三个说明对象的每两者之间的相应距离调整奔跑的个人的叫喊以及狮吼叫的响度。举例来说,狮吼叫可通过奔跑的个人喊叫的声音以及通过奔跑的个人身体的遮挡或物理阻挡而遮蔽。音频编码装置20可基于上文所论述的准则形成各种发射因数,且可在元数据23内发信发射因数到音频解码装置24。
接着,音频解码装置24可在显现与狮吼叫相关联的前景音频对象时应用发射因数,以基于由奔跑的个人所引起的音频遮蔽及物理遮挡使狮吼叫的响度衰减。另外,为考虑遮挡,音频解码装置24可调整狮吼叫的前景音频对象的方向数据。举例来说,音频解码装置24可调整狮吼叫的前景音频对象以模拟在其中从在奔跑的个人的身体的位置上方及其周围以衰减响度听到狮吼叫的虚拟位置B处的体验。
图5A及5B为说明可能在VR场景40中存在的位差问题的另一实例的图。在图5A的VR场景40A的实例中,狮吼叫的前景音频对象是在一些虚拟位置处,另外因墙壁的存在而被遮挡。在图5A的实例中,墙壁的尺寸(例如宽度)防止墙壁在虚拟位置A处遮挡狮吼叫的前景音频对象。然而,墙壁的尺寸引起在虚拟位置B处遮挡狮吼叫的前景音频对象。在图5A的左侧图中,为了说明某一最小能量指派给狮吼叫的前景音频对象,以狮的最小显示说明虚拟位置B处的3D音场效果,这是因为狮吼叫的某一音量归因于声波在墙壁上方及(在一些状况下)围绕墙壁行进而可在虚拟位置B处听到。
在本公开的技术的上下文中,墙壁表示“静默对象”。因而,墙壁的存在并不由麦克风5所俘获的音频对象直接指示。实际上,音频编码装置20可通过充分利用由内容创建者装置12(或耦合到其)的一或多个摄影机俘获的视频数据推断墙壁所引起的遮挡的位置。举例来说,音频编码装置20可平移墙壁的视频场景位置到音频位置数据,以使用HOA系数表示静默对象(“SO”)。使用以此方式导出的SO的位置信息,音频编码装置可形成关于虚拟位置B的关于狮吼叫的前景音频对象的发射因数。
此外,基于奔跑的个人与虚拟位置B及SO的相对定位,音频编码装置20可并不形成关于奔跑的个人的喊叫的前景音频对象的发射因数。如所示,SO不以遮挡关于虚拟位置B的奔跑的个人的前景音频对象的方式而定位。音频编码装置20可在元数据23中发信发射因数(关于狮吼叫的前景音频对象)到音频解码装置24。
接着,音频解码装置24可将在元数据23中接收的发射因数应用于与狮吼叫相关联的关于虚拟位置B处的“甜点”位置的前景音频对象。通过将发射因数应用于虚拟位置B处的狮吼叫的前景音频对象,音频解码装置24可使指派给狮吼叫的前景音频对象的能量衰减,借此模拟SO的存在所引起的遮挡。以此方式,音频解码装置24可实施应用发射因数以显现3D音场的本公开的技术来向内容消费者装置14的用户提供更准确VR体验。
图5B说明具有额外细节的虚拟场景40B,其包含关于关于图5A的虚拟场景40A论述的各种特征。举例来说,图5B的虚拟场景40B包含背景音频对象的源。在图5B中所说明的实例中,音频编码装置20可将音频对象分类成SO、前景(FG)音频对象及背景(BG)音频对象。举例来说,音频编码装置20可将SO识别为在视频场景中表示但不与任一预识别音频对象相关联的对象。
音频编码装置20可将FG对象识别为由音频帧中的音频对象表示且也与预识别音频对象相关联的音频对象。音频编码装置20可将BG对象识别为由音频帧中的音频对象表示但不与任一预识别音频对象相关联的音频对象。如本文所使用,如果音频对象与装备有传感器的对象相关联(在俘获音频/视频的情况下)或映射到预先确定列表中的对象(例如,在合成音频/视频的情况下),则音频对象可与预识别音频对象相关联。BG音频对象可基于听者在虚拟位置A到C之间的移动而不改变或平移。如上文所论述,SO可不产生其自身的音频对象,但由音频编码装置20使用以确定用于使FG对象衰减的发射因数。因而,音频编码装置20可在位流21中独立地表示FG及BG对象。如上文所论述,音频编码装置20可表示从元数据23中的SO导出的发射因数。
图6A到6D为说明本公开的各种编码器侧技术的流程图。图6A说明音频编码装置20可在其中音频编码装置20处理实时记录,且其中音频编码装置20执行压缩及发射功能的情况下执行的编码过程50A。在过程50A的实例中,音频编码装置可处理经由麦克风5俘获的音频数据,且还可充分利用从经由一或多个摄影机俘获的视频数据中提取的数据。接着,音频编码装置20可将由HOA系数11表示的音频对象分类成FG对象、BG对象及SO。接着,音频编码装置20可压缩音频对象(例如,通过从HOA系数11中移除冗余),并发射表示FG对象及BG对象的位流21。音频编码装置20还可发射表示音频编码装置使用SO导出的发射因数的元数据23。
如图6A的图例52中所示,音频编码装置可发射以下数据:
Fi:第i个FG音频信号(个人及狮),其中i=1,…,I
Bj:第j个BG音频信号(来自safari的环境声音),其中j=1,…,J
Sk:第k个SO的位置,其中k=1,…,K
在各种实例中,音频编码装置20可在元数据23中发射V向量计算(与其参数/引数一起)及Sk值中的一或多者。音频编码装置可在位流21中发射Fi及Bj的值。
图6B为说明音频编码装置20可执行的编码过程50B的流程图。如在图6A的过程50A的情况下,过程50B表示其中音频编码装置20使用来自麦克风5及一或多个摄影机的实时俘获数据编码位流21及元数据23的过程。与图6A的过程50A对比,过程50B表示其中音频编码装置20在发射位流21及元数据23之前不执行压缩操作的过程。替代地,过程50B还可表示其中音频编码装置不执行发射而实际上传达位流21及元数据23到也包含音频编码装置20的集成VR装置内的解码组件的实例。
图6C为说明音频编码装置20可执行的编码过程50C的流程图。与图6A及图6B的过程50A及50B对比,过程50c表示其中音频编码装置20使用合成音频及视频数据而非实时俘获数据的过程。
图6D为说明音频编码装置20可执行的编码过程50C的流程图。过程50D表示其中音频编码装置20使用实时俘获及合成音频及视频数据的组合的过程。
图7为说明根据本公开方面的音频解码装置24可执行的解码过程70的流程图。音频解码装置24可从音频编码装置20接收位流21及元数据23。在各种实例中,音频解码装置24可经由发射,或如果音频编码装置20包含于也包含音频解码装置24的集成VR装置内则经由内部通信,接收位流21及元数据23。音频解码装置24可解码位流21及元数据23以重构以下数据,上文关于图6A到6D的图例52描述以下数据:
{F1,…,FI}
{B1,…,BJ}
{S1,…,SK}
接着,音频解码装置24可组合指示用户位置估计的数据与FG对象位置及方向向量计算、FG对象衰减(经由发射因数的应用)及BG对象平移计算。在图7中,公式ρi≡ρi(f,F1,…,FI,B1,…,BJ,S1,…,SK)使用元数据23中接收的发射因数表示第i个FG对象的衰减。接着,音频解码装置24可通过求解以下等式来显现3D音场的音频场景:
如所示,音频解码装置24可计算关于FG对象的一个和,及关于BG对象的第二和。关于FG对象求和,音频解码装置24可将第i个对象的发射因数ρ应用于第i个对象的FG音频信号与第i对象的方向向量计算的乘积。接着,音频解码装置24可执行一系列值i的所得乘积值的求和。
关于BG对象,音频解码装置24可计算第j个BG音频信号与第j个BG音频信号的对应平移因数的乘积。接着,音频解码装置24可对FG对象相关求和值及BG对象相关求和值进行相加以计算H,以用于显现3D音场。
图8为说明根据本公开的方面的音频编码装置20可实施以分类SO、FG对象及BG对象的对象分类机制的图。图8的特定实例涉及其中使用麦克风5及各种摄影机实时检索的视频数据及音频数据的实例。如果对象满足两个条件(即,(i)对象仅出现视频场景(即,不在对应音频场景中表示),及(ii)无传感器附接到对象),则音频编码装置20可将对象分类为SO。在图8中所说明的实例中,墙壁为SO。在图8的实例中,如果对象满足两个条件(即,(i)对象出现在音频场景中,及(ii)传感器附接到对象),则音频编码装置20可将对象分类为FG对象。在图8的实例中,如果对象满足两个条件(即,(i)对象出现在音频场景中,及(ii)无传感器附接到对象),则音频编码装置20可将对象分类为FG对象。
此外,图8的特定实例涉及其中使用关于传感器是否附接到对象的信息识别SO、FG对象及BG对象的情形。即,图8可为在实时俘获用于VR/MR/AR体验的视频数据及音频数据的情况下音频编码装置20可使用的对象分类技术的实例。在其它实例中,例如如果视频及/或音频数据为合成的,则如在VR/MR/AR体验的一些方面中,音频编码装置20可基于音频对象是否映射到列表中的预识别音频对象而分类SO、FG对象及BG对象。
图9A为说明根据本公开的方面的来自多个麦克风及摄影机的音频/视频俘获数据的拼接的实例的图。
图9B为说明根据本公开的方面的包含运用拼接及内插的位差调整的编码器及解码器侧操作的过程90的流程图。过程90通常可对应于图6A的关于音频编码装置20的操作的过程50A与图7的关于音频解码装置24的操作的过程70的组合。然而,如图9B中所示,过程90包含来自多个位置(例如位置L1及L2)的数据。此外,音频编码装置20执行拼接以及联合压缩及发射,且音频解码装置24执行在听者或用户位置处的多个音频/视频场景的内插。举例来说,为执行内插,音频解码装置24可使用点云。在各种实例中,音频解码装置24可使用点云来在多个候选听者位置之间内插听者位置。举例来说,音频解码装置24可在位流21中接收各种听者位置候选项。
图9C为说明在多个位置处的FG对象及BG对象的俘获的图。
图9D说明根据本公开的方面的音频解码装置24可执行的内插技术的数学表达。音频解码装置24可将图9D的内插操作执行为由音频编码装置20执行的拼接操作的互逆操作。举例来说,为执行本公开的拼接操作,音频编码装置20可以如下方式重排3D音场的FG对象:使得如果i=j,则在位置L1处的前景信号Fi及在位置L2处的前景信号Fj两者源自同一FG对象。音频编码装置20可实施一或多个声音识别及/或图像识别演算法以检查或验证每一FG对象的标识。此外,音频编码装置20可不仅关于FG对象而且也关于其它参数执行拼接操作。
如图9D中所示,音频解码装置可根据以下等式来执行本公开的内插操作:
即,上文呈现的等式适用于基于FG及BG对象的计算,例如适用于特定位置i的前景及背景信号。依据在各个位置处的方向向量及静默对象,音频解码装置24可根据以下等式执行本公开的内插操作:
{S1,…,SK}
静默对象内插的方面可通过以下操作而计算,如图9D中所说明:
[(sinθ1)/L1]=[(sinθ2)/L2]=[(sinθ3)/L3]
图9E为说明根据本公开的方面的音频解码装置24可实施的基于点云的内插的应用的图。音频解码装置24可使用点云(通过图9E中的圆环表示)以获得具有音频及视频信号的3D空间的取样(例如密集取样)。举例来说,所接收位流21可表示从多个位置{Lq}q=1,…Q俘获的音频及视频数据,其中音频编码装置20已运用来自用户位置L*的相邻数据拼接并执行联合压缩及内插。在图9E中所说明的实例中,音频解码装置24可使用四个俘获位置(定位于具有圆拐角的矩形内)的数据,以产生或重构在用户位置L*处的虚拟俘获数据。
图10为说明根据本公开的方面的音频解码装置24可执行的前景音频对象的衰减的HOA域计算的方面的图。在图10的实例中,音频解码装置24可使用为四(4)的HOA阶数,借此使用总共二十五(25)个HOA系数。如图10中所说明,音频解码装置24可使用1,280个样本的音频帧大小。
图11为说明根据本公开的一或多种技术的音频编码装置20可执行的发射因数计算的方面的图。
图12为说明根据本公开的方面的可通过集成编码/显现装置执行的过程1200的图。因而,根据过程1200,集成装置可包含音频编码装置20及音频解码装置24两者,及任选地本文所论述的其它组件及/或装置。因而,图12的过程1200不包含压缩或发射步骤,这是因为音频编码装置20可使用集成装置内的内部通信信道(例如集成装置的通信总线架构)传达位流21及元数据23到音频解码装置24。
图13为说明根据本公开的方面的音频编码装置或集成编码/显现装置可执行的过程1300的流程图。过程1300可在一或多个麦克风阵列俘获3D音场的音频对象时开始(1302)。接着,音频编码装置的处理电路可从麦克风阵列获得3D音场的音频对象,其中每一音频对象与由麦克风阵列俘获的音频数据的相应音频场景相关联(1304)。音频编码装置的处理电路可确定包含于第一视频场景中的视频对象不由对应于第一视频场景的第一音频场景中的任一对应音频对象表示(1306)。
音频编码装置的处理电路可确定视频对象不与任一预识别音频对象相关联(1308)。接着,响应于视频对象不由第一音频场景中的任一对应音频对象表示及视频对象不与任一预识别音频对象相关联的确定,音频编码装置的处理电路可将视频对象识别为静默对象(1310)。
因而,在本公开的一些实例中,本公开的音频编码装置包含存储器装置,其经配置以:存储关于三维(3D)音场的从一或多个麦克风阵列获得的音频对象,其中每一获得的音频对象与相应音频场景相关联;以及存储从一或多个视频俘获装置获得的视频数据,所述视频数据包括一或多个视频场景,每一相应视频场景与所获得音频数据的相应音频场景相关联。所述装置进一步包含耦合到存储器装置的处理电路,所述处理电路经配置以:确定包含于第一视频场景中的视频对象不由对应于第一视频场景的第一音频场景中的任一对应音频对象表示;确定视频对象不与任一预识别音频对象相关联;以及响应于视频对象不由第一音频场景中的任一对应对象表示且视频对象不与任一预识别音频对象相关联的确定,将视频对象识别为静默对象。
在一些实例中,处理电路经进一步配置以:确定包含于所获得音频数据中的第一音频对象与预识别音频对象相关联;以及响应于音频对象与预识别音频对象相关联的确定,将第一音频对象识别为前景音频对象。在一些实例中,处理电路经进一步配置以:确定包含于所获得音频数据中的第二音频对象不与任一预识别音频对象相关联;以及响应于第二音频对象不与任一预识别音频对象相关联的确定,将第二音频对象识别为背景音频对象。
在一些实例中,处理电路经配置以通过确定第一音频对象与装备有一或多个传感器的音频源相关联而确定第一音频对象与预识别音频对象相关联。在一些实例中,音频编码装置进一步包含耦合到处理电路的一或多个麦克风阵列,所述一或多个麦克风阵列经配置以俘获与3D音场相关联的音频对象。在一些实例中,音频编码装置进一步包含耦合到处理电路的一或多个视频俘获装置,所述一或多个视频俘获装置经配置以俘获视频数据。视频俘获装置可包含图中所说明及上文关于图所描述的摄影机,可为所述摄影机,或可为所述摄影机的部分。举例来说,视频俘获装置可表示多个(例如,双)摄影机,其经定位以使得摄影机从不同视角俘获场景的视频数据或图像。在一些实例中,前景音频对象包含于对应于第一视频场景的第一音频场景中,且处理电路经进一步配置以确定关于第一视频场景的静默对象的位置信息是否引起前景音频对象衰减。
在一些实例中,处理电路经进一步配置以响应于确定静默对象引起前景音频对象衰减,产生关于前景音频对象的一或多个发射因数,其中所产生发射因数表示关于前景音频对象的调整。在一些实例中,所产生发射因数表示关于前景音频对象的能量的调整。在一些实例中,所产生发射因数表示关于前景音频对象的方向特性的调整。在一些实例中,处理电路经进一步配置以相对于包含前景音频对象的位流在带外发射发射因数。在一些实例中,所产生发射因数表示关于位流的元数据。
图14为说明根据本公开的方面的音频解码装置或集成编码/解码/显现装置可执行的实例过程1400的流程图。过程1400可在音频解码装置的处理电路在位流中接收3D音场的音频对象的经编码表示(1402)时开始。另外,音频解码装置的处理电路可接收与位流相关联的元数据(1404)。应了解,图14中所说明的序列为非限制性实例,且音频解码装置的处理电路可按任何次序或并行或部分并行地接收位流及元数据。
音频解码装置的处理电路可从所接收元数据获得与所述音频对象中的一或多者相关联的一或多个发射因数(1406)。另外,音频解码装置的处理电路可将发射因数应用于一或多个音频对象以获得3D音场的经位差调整音频对象(1408)。音频解码装置可进一步包括耦合到处理电路的存储器。存储器装置可存储所接收位流的至少一部分、所接收元数据或所述3D音场的经位差调整音频对象。音频解码装置的处理电路可将3D音场的经位差调整音频对象显现到一或多个扬声器(1410)。举例来说,音频解码装置的处理电路可将3D音场的经位差调整音频对象显现到驱动一或多个扬声器的一或多个扬声器馈入中。
在本公开的一些实例中,音频解码装置包含处理电路,其经配置以:在位流中接收三维(3D)音场的音频对象的经编码表示;接收与位流相关联的元数据;从所接收元数据获得与所述音频对象中的一或多者相关联的一或多个发射因数;以及将发射因数应用于所述一或多个音频对象以获得3D音场的经位差调整音频对象。所述装置进一步包含耦合到处理电路的存储器装置,所述存储器装置经配置以存储所接收位流的至少一部分、所接收元数据,或3D音场的经位差调整音频对象。在一些实例中,处理电路经进一步配置以:确定听者位置信息;以及除了将发射因数应用于所述一或多个音频对象之外,还将听者位置信息应用于所述一或多个音频对象。在一些实例中,处理电路经进一步配置以应用听者位置信息同与一或多个音频对象的前景音频对象相关联的相应位置之间的相对前景位置信息。在一些实例中,处理电路经进一步配置以应用使用与一或多个音频对象的背景音频对象相关联的相应位置计算的背景平移因数。
在一些实例中,处理电路经进一步配置以将前景衰减因数应用于一或多个音频对象的相应前景音频对象。在一些实例中,处理电路经进一步配置以:确定用于相应前景音频对象的最小发射值;确定将发射因数应用于相应前景音频对象是否产生低于最小发射值的经调整发射值;以及响应于确定低于最小发射值的经调整发射值,使用最小发射值显现相应前景音频对象。在一些实例中,处理电路经进一步配置以调整相应前景音频对象的能量。在一些实例中,处理电路经进一步配置以使相应前景音频对象的相应能量衰减。在一些实例中,处理电路经进一步配置以调整相应前景音频对象的方向特性。在一些实例中,处理电路经进一步配置以调整相应前景音频对象的位差信息。在一些实例中,处理电路经进一步配置以调整位差信息以考虑在与3D音场相关联的视频流中表示的一或多个静默对象表示。在一些实例中,处理电路经进一步配置以接收位流内的元数据。
在一些实例中,处理电路经进一步配置以相对于位流在带外接收元数据。在一些实例中,处理电路经进一步配置以输出与3D音场相关联的视频数据到一或多个显示器。在一些实例中,装置进一步包含一或多个显示器,所述一或多个显示器经配置以从处理电路接收视频数据,并以视觉形式输出所接收视频数据。
图15为说明根据本公开的方面的音频解码装置或集成编码/解码/显现装置可执行的实例过程1500的流程图。过程1500可在音频解码装置的处理电路确定听者位置同与3D音场的一或多个前景音频对象相关联的相应位置之间的相对前景位置信息时开始(1502)。举例来说,音频解码装置的处理电路可与音频解码装置的存储器耦合或以其它方式与其通信。
接着,存储器可经配置以存储听者位置及与3D音场的一或多个前景音频对象相关联的相应位置。与一或多个前景音频对象相关联的相应位置可从与3D音场相关联的视频数据获得。接着,音频解码装置的处理电路可将3D音场显现到一或多个扬声器(1504)。举例来说,音频解码装置的处理电路可将3D音场显现到驱动以通信方式耦合到音频解码装置的一或多个扩音器、头戴式耳机等的一或多个扬声器馈入中。
在本公开的一些实例中,音频解码装置包含经配置以存储听者位置及与三维(3D)音场的一或多个前景音频对象相关联的相应位置的存储器装置,与一或多个前景音频对象相关联的所述相应位置是从与3D音场相关联的视频数据获得,且还包含耦合到存储器装置的处理电路,所述处理电路经配置以确定听者位置同与3D音场的一或多个前景音频对象相关联的相应位置之间的相对前景位置信息。在一些实例中,处理电路经进一步配置以应用坐标系统以确定相对前景位置信息。在一些实例中,处理电路经进一步配置以通过检测一个装置来确定听者位置信息。在一些实例中,所检测装置包含虚拟现实(VR)耳机。在一些实例中,处理电路经进一步配置以通过检测一个人来确定听者位置信息。在一些实例中,处理电路经进一步配置以使用基于点云的内插过程确定听者位置。在一些实例中,处理电路经进一步配置以获得多个听者位置候选项,并在所获得多个听者位置候选项中的至少两个听者位置候选项之间内插听者位置。
图16为说明根据本公开的方面的音频编码装置或集成编码/显现装置可执行的过程1600的流程图。过程1600可在一或多个麦克风阵列俘获3D音场的音频对象时开始(1602)。接着,音频编码装置的处理电路可从麦克风阵列获得由麦克风阵列俘获的3D音场的音频对象(1604)。举例来说,音频编码装置的存储器装置可存储由麦克风阵列俘获的音频对象(例如,其经编码表示)的数据表示,且处理电路可与存储器装置通信。在此实例中,处理电路可从存储器装置检索音频对象的经编码表示。
音频编码装置的处理电路可产生包含3D音场的音频对象的经编码表示的位流(1606)。音频编码装置的处理电路可产生与包含3D音场的音频对象的经编码表示的位流相关联的元数据(1608)。元数据可包含关于音频对象的发射因数、听者位置信息同与音频对象的前景音频对象相关联的相应位置之间的相对前景位置信息,或用于音频对象的一或多个静默对象的位置信息中的一或多者。尽管为易于说明及论述而按特定次序说明过程1600的步骤1606及1608,但应了解,音频编码装置的处理电路可按任何次序产生位流及元数据,次序包含图16中所说明的次序的反向次序,或并行(部分地或完全地)。
音频编码装置的处理电路可发信位流(1610)。音频编码装置的处理电路可发信与位流相关联的元数据(1612)。举例来说,处理电路可使用音频编码装置的通信单元或其它通信接口硬件来发信位流及/或元数据。尽管为易于说明及论述而按特定次序说明过程1600的发信操作(步骤1610及1612),但应了解,音频编码装置的处理电路可按任何次序发信位流及元数据,次序包含图16中所说明的次序的反向次序,或并行(部分地或完全地)。
在本公开的一些实例中,音频编码装置包含经配置以存储三维(3D)音场的音频对象的经编码表示的存储器装置,且进一步包含耦合到存储器装置且经配置以产生与包含3D音场的音频对象的经编码表示的位流相关联的元数据的处理电路,所述元数据包含关于音频对象的发射因数、听者位置信息同与音频对象的前景音频对象相关联的相应位置之间的相对前景位置信息,或用于音频对象的一或多个静默对象的位置信息中的一或多者。在一些实例中,处理电路经配置以基于与静默对象及前景音频对象相关联的衰减信息产生发射因数。
在一些实例中,发射因数表示关于前景音频对象基于静默对象的位置信息的能量衰减信息。在一些实例中,发射因数表示关于前景音频对象基于静默对象的位置信息的方向衰减信息。在一些实例中,处理电路经进一步配置以基于听者位置信息及静默对象的位置信息确定发射因数。在一些实例中,处理电路经进一步配置以基于听者位置信息及前景音频对象的位置信息确定发射因数。在一些实例中,处理电路经进一步配置以产生包含3D音场的音频对象的经编码表示的位流,并发信所述位流。在一些实例中,处理电路经配置以发信位流内的元数据。在一些实例中,处理电路经进一步配置以相对于位流在带外发信元数据。
在本公开的一些实例中,音频解码装置包含经配置以存储三维(3D)音场的一或多个音频对象的存储器装置,且还包含耦合到存储器装置的处理电路。处理电路经配置以:获得包含关于3D音场的一或多个音频对象的发射因数的元数据;以及将发射因数应用于与3D音场的一或多个音频对象相关联的音频信号。在一些实例中,处理电路经进一步配置以使一或多个音频信号的能量信息衰减。在一些实例中,一或多个音频对象包含3D音场的前景音频对象。
图17为说明根据本公开的方面的音频解码装置或集成编码/解码/显现装置可执行的实例过程1700的流程图。过程1700可在音频解码装置的处理电路将发射因数应用于前景音频对象的前景音频信号,以使前景音频信号的一或多个特性衰减时开始(1702)。举例来说,音频解码装置的处理电路可与音频解码装置的存储器耦合或以其它方式与其通信。接着,存储器可经配置以存储前景音频对象(其可为3D音场的部分)。
音频解码装置的处理电路可将前景音频信号显现到一或多个扬声器(1704)。在一些情况下,音频解码装置的处理电路还可将背景音频信号(与3D音场的背景音频对象相关联)显现到一或多个扬声器(1704)。举例来说,音频解码装置的处理电路可将前景音频信号(及任选地,背景音频信号)显现到驱动以通信方式耦合到音频解码装置的一或多个扩音器、头戴式耳机等的一或多个扬声器馈入中。
图18为说明根据本公开的方面的音频解码装置或集成编码/解码/显现装置可执行的实例过程1800的流程图。过程1800可在音频解码装置的处理电路对于多个前景音频对象的每一相应前景音频对象计算发射因数、前景音频信号及方向向量的相应集合的相应乘积时开始(1802)。举例来说,音频解码装置的处理电路可与音频解码装置的存储器耦合或以其它方式与其通信。接着,存储器可经配置以存储多个前景音频对象(其可为3D音场的部分)。音频解码装置的处理电路可计算针对多个前景音频对象的所有前景音频对象而计算的相应乘积的和(1804)。
另外,音频解码装置的处理电路可计算发射因数、背景音频信号及方向向量的相应集合的相应乘积(1806)。存储器可经配置以存储多个背景音频对象(其可为与存储到存储器的多个前景音频对象相同的3D音场的部分)。音频解码装置的处理电路可对于所述多个背景音频对象的所有背景音频对象计算相应乘积的和(1808)。接着,音频解码装置的处理电路可基于两个计算和的总和将3D音场显现到一或多个扬声器(1810)。
即,音频解码装置的处理电路可计算(i)对于所有存储的前景音频对象所计算的相应乘积的计算和与(ii)对于所有存储的背景音频对象所计算的相应乘积的计算和的和。接着,音频解码装置的处理电路可将3D音场显现到驱动以通信方式耦合到音频解码装置的一或多个扩音器、头戴式耳机等的一或多个扬声器馈入中。
在本公开的一些实例中,音频解码装置包含经配置以存储三维(3D)音场的前景音频对象的存储器装置,及耦合到所述存储器装置的处理电路。处理电路经配置以将发射因数应用于前景音频对象的前景音频信号以使前景音频信号的一或多个特性衰减。在一些实例中,处理电路经配置以使前景音频信号的能量衰减。在一些实例中,处理电路经配置以将平移因数应用于背景音频对象。
在本公开的一些实例中,音频解码装置包含经配置以存储三维(3D)音场的多个前景音频对象的存储器装置。所述装置还包含耦合到存储器装置且经配置以执行以下操作的处理电路:对于多个前景音频对象的每一相应前景音频对象,计算发射因数、前景音频信号及方向向量的相应集合的相应乘积;以及计算所述多个前景音频对象的所有前景音频对象的相应乘积的和。在一些实例中,存储器装置经进一步配置以存储多个背景音频对象,且处理电路经进一步配置以:对于多个背景音频对象中的每一相应背景音频对象,计算相应背景音频信号与相应平移因数的相应乘积;以及计算所述多个背景音频对象的所有背景音频对象的相应乘积的和。在一些实例中,处理电路经进一步配置以将前景音频对象的乘积的和相加到背景音频对象的乘积的和。在一些实例中,处理电路经进一步配置以在高阶立体混响(HOA)域中执行所有计算。
在一些情况下,非暂时性计算机可读存储媒体上存储有指令,所述指令当执行时致使一或多个处理器:获得音频对象;获得视频对象;将音频对象与视频对象相关联;比较音频对象与相关联视频对象;以及基于音频对象与相关联视频对象之间的比较显现音频对象。
在本公开中描述的技术的各种方面也可通过产生音频输出信号的装置执行。装置可包括用于基于第一音频对象的数据分量与第一视频对象的数据分量的第一比较识别与第一视频对象对应体相关联的第一音频对象的装置,及用于基于第二音频对象的数据分量与第二视频对象的数据分量的第二比较识别不与第二视频对象对应体相关联的第二音频对象的装置。装置可另外包括用于显现第一区中的第一音频对象的装置、用于显现第二区中的第二音频对象的装置,及用于基于组合第一区中的所显现第一音频对象与第二区中的所显现第二音频对象而产生音频输出信号的装置。本文中所描述的各种装置可包括经配置以执行关于所述装置中的每一者所描述的功能的一或多个处理器。
在一些情况下,第一音频对象的数据分量包括位置及大小中的一者。在一些情况下,第一视频对象数据的数据分量包括位置及大小中的一者。在一些情况下,第二音频对象的数据分量包括位置及大小中的一者。在一些情况下,第二视频对象的数据分量包括位置及大小中的一者。
在一些情况下,第一区及第二区为音频前景内的不同区或音频背景内的不同区。在一些情况下,第一区及第二区为音频前景内的同一区或音频背景内的同一区。在一些情况下,第一区在音频前景内,且第二区在音频背景内。在一些情况下,第一区在音频背景内,且第二区在音频前景内。
在一些情况下,第一音频对象的数据分量、第二音频对象的数据分量、第一视频对象的数据分量及第二视频对象的数据分量各自包括元数据。
在一些情况下,装置进一步包括用于确定第一比较是否在可信度区间外的装置,及用于基于第一比较是否在可信度区间外的确定来加权第一音频对象的数据分量及第一视频对象的数据分量的装置。在一些情况下,用于加权的装置包括用于对第一音频对象数据的数据分量及第一视频对象的数据分量求平均的装置。在一些情况下,装置还可包含用于基于第一比较及第二比较中的一或多者分配不同数目个位的装置。
在一些情况下,所述技术可提供其上存储有指令的非暂时性计算机可读存储媒体,所述指令当执行时致使一或多个处理器:基于第一音频对象的数据分量与第一视频对象的数据分量的第一比较识别与第一视频对象对应体相关联的第一音频对象;基于第二音频对象的数据分量与第二视频对象的数据分量的第二比较识别不与第二视频对象对应体相关联的第二音频对象;显现第一区中的第一音频对象;用于显现第二区中的第二音频对象的装置;以及基于组合第一区中的所显现的第一音频对象与第二区中的所显现的第二音频对象而产生音频输出信号。
下文描述本公开的各种实例。根据下文所描述的实例中的一些,例如音频编码装置的“装置”可包含飞行装置、机器人、装置或汽车中的一或多者,可为飞行装置、机器人、装置或汽车中的一或多者,或可为其一部分。根据下文所描述的实例中的一些,“显现”的操作或致使处理电路“显现”的配置可包含显现到扬声器馈入,或显现于到头戴式耳机扬声器的头戴式耳机馈入(例如通过使用双声音频扬声器馈入)。举例来说,本公开的音频解码装置可通过调用或另外使用双声音频显现器显现双声音频扬声器馈入。
实例1a。一种方法,其包括:从一或多个麦克风阵列获得三维(3D)音场的音频对象,其中每一获得的音频对象与相应音频场景相关联;从一或多个视频俘获装置获得包括一或多个视频场景的视频数据,每一相应视频场景与所获得音频数据的相应音频场景相关联;确定包含于第一视频场景中的视频对象不由对应于第一视频场景的第一音频场景中的任一对应音频对象表示;确定视频对象不与任一预识别音频对象相关联;以及响应于视频对象不由第一音频场景中的任一对应音频对象表示且视频对象并不与任一预识别音频对象相关联的确定,将视频对象识别为静默对象。
实例2a。如实例1a的方法,其进一步包括:确定包含于所获得音频数据中的第一音频对象与预识别音频对象相关联;以及响应于音频对象与预识别音频对象相关联的确定,将第一音频对象识别为前景音频对象。
实例3a。如实例1a或2a中的任一者的方法,其进一步包括:确定包含于所获得音频数据中的第二音频对象不与任一预识别音频对象相关联;以及响应于第二音频对象不与任一预识别音频对象相关联的确定,将第二音频对象识别为背景音频对象。
实例4a。如实例2a或3a中的任一者的方法,其中确定第一音频对象与预识别音频对象相关联包括确定第一音频对象与装备有一或多个传感器的音频源相关联。
实例5a。如实例1a到4a中的任一者的方法,其中前景音频对象包含于对应于第一视频场景的第一音频场景中,所述方法其进一步包括:确定静默对象关于第一视频场景的位置信息是否引起前景音频对象衰减。
实例6a。如实例5a的方法,其进一步包括:响应于确定静默对象引起前景音频对象衰减,产生关于前景音频对象的一或多个发射因数,其中所产生发射因数表示关于前景音频对象的调整。
实例7a。如实例6a的方法,其中所产生发射因数表示关于前景音频对象的能量的调整。
实例8a。如实例6a或7a中的任一者的方法,其中所产生发射因数表示关于前景音频对象的方向特性的调整。
实例9a。如实例6a到8a中的任一者的方法,其进一步包括相对于包含前景音频对象的位流在带外发射所述发射因数。
实例10a。如实例9a的方法,其中所产生的发射因数表示关于位流的元数据。
实例11a。一种音频编码装置,其包括:存储器装置,其经配置以:存储从一或多个麦克风阵列获得的关于三维(3D)音场的音频对象,其中每一所获得音频对象与相应音频场景相关联;以及存储从一或多个视频俘获装置获得的视频数据,视频数据包括一或多个视频场景,每一相应视频场景与所获得音频数据的相应音频场景相关联。音频编码装置进一步包括耦合到存储器装置的处理电路,所述处理电路经配置以:确定包含于第一视频场景中的视频对象不由对应于第一视频场景的第一音频场景中的任一对应音频对象表示;确定视频对象不与任一预识别音频对象相关联;以及响应于视频对象不由第一音频场景中的任一对应对象表示且视频对象不与任一预识别音频对象相关联的确定,将视频对象识别为静默对象。
实例12a。如实例11a的音频编码装置,处理电路经进一步配置以:确定包含于所获得音频数据中的第一音频对象与预识别音频对象相关联;以及响应于音频对象与预识别音频对象相关联的确定,将第一音频对象识别为前景音频对象。
实例13a。如实例11a或12a中的任一者的音频编码装置,处理电路经进一步配置以:确定包含于所获得音频数据中的第二音频对象不与任一预识别音频对象相关联;以及响应于第二音频对象不与任一预识别音频对象相关联的确定,将第二音频对象识别为背景音频对象。
实例14a。如实例12a或13a中的任一者的音频编码装置,处理电路经进一步配置以:通过确定第一音频对象与装备有一或多个传感器的音频源相关联而确定第一音频对象与预识别音频对象相关联。
实例14a(i)。如实例14a的音频编码装置,其进一步包括耦合到处理电路的一或多个麦克风阵列,所述一或多个麦克风阵列经配置以俘获与3D音场相关联的音频对象。
实例14a(ii)。如实例11a到14a(i)中的任一者的音频编码装置,其进一步包括耦合到处理电路的一或多个视频俘获装置,所述一或多个视频俘获装置经配置以俘获视频数据。
实例15a。如实例11a到14a中的任一者的音频编码装置,其中前景音频对象包含于对应于第一视频场景的第一音频场景中,处理电路经进一步配置以:确定关于第一视频场景的静默对象的位置信息是否引起前景音频对象衰减。
实例16a。如实例15a的音频编码装置,处理电路经进一步配置以:响应于确定静默对象引起前景音频对象衰减,产生关于前景音频对象的一或多个发射因数,其中所产生发射因数表示关于前景音频对象的调整。
实例17a。如实例16a的音频编码装置,其中所产生发射因数表示关于前景音频对象的能量的调整。
实例18a。如实例16a或17a中的任一者的音频编码装置,其中所产生发射因数表示关于前景音频对象的方向特性的调整。
实例19a。如实例16a到18a中的任一者的音频编码装置,处理电路经进一步配置以相对于包含前景音频对象的位流在带外发射发射因数。
实例20a。如实例19a的音频编码装置,其中所产生发射因数表示关于位流的元数据。
实例21a。一种音频编码设备,其包括:用于从一或多个麦克风阵列获得三维(3D)音场的音频对象的装置,其中每一获得的音频对象与相应音频场景相关联;用于从一或多个视频俘获装置获得包括一或多个视频场景的视频数据的装置,每一相应视频场景与所获得音频数据的相应音频场景相关联;用于确定包含于第一视频场景中的视频对象不由对应于第一视频场景的第一音频场景中的任一对应音频对象表示的装置;用于确定视频对象不与任一预识别音频对象相关联的装置;以及用于响应于视频对象不由第一音频场景中的任一对应音频对象表示及视频对象不与任一预识别音频对象相关联的确定而将视频对象识别为静默对象的装置。
实例22a。一种编码有指令的非暂时性计算机可读存储媒体,所述指令当执行时致使音频编码装置的处理电路执行以下操作:从一或多个麦克风阵列获得三维(3D)音场的音频对象,其中每一获得的音频对象与相应音频场景相关联;从一或多个视频俘获装置获得包括一或多个视频场景的视频数据,每一相应视频场景与所获得音频数据的相应音频场景相关联;确定包含于第一视频场景中的视频对象不由对应于第一视频场景的第一音频场景中的任一对应音频对象表示;确定视频对象不与任一预识别音频对象相关联;以及响应于视频对象不由第一音频场景中的任一对应音频对象表示及视频对象不与任一预识别音频对象相关联的确定而将视频对象识别为静默对象。
实例1b。一种音频解码装置,其包括:处理电路,其经配置以:在位流中接收三维(3D)音场的音频对象的经编码表示;接收与位流相关联的元数据;从所接收元数据获得与所述音频对象中的一或多者相关联的一或多个发射因数;以及将发射因数应用于所述一或多个音频对象以获得3D音场的经位差调整音频对象;以及存储器装置,且耦合到所述处理电路,所述存储器装置经配置以存储所接收位流的至少一部分、所接收元数据或3D音场的经位差调整音频对象。
实例2b。如实例1b的音频解码装置,处理电路经进一步配置以:确定听者位置信息;除了将发射因数应用于所述一或多个音频对象之外,还将听者位置信息应用于所述一或多个音频对象。
实例3b。如实例2b的音频解码装置,所述处理电路经进一步配置以应用听者位置信息同与一或多个音频对象的前景音频对象相关联的相应位置之间的相对前景位置信息。
实例4b。如实例3b的音频解码装置,所述处理电路经进一步配置以应用坐标系统以确定相对前景位置信息。
实例5b。如实例2b的音频解码装置,所述处理电路经进一步配置以通过检测一个装置而确定所述听者位置信息。
实例6b。根据实例5b的音频解码装置,其中所述所检测装置包括虚拟现实(VR)耳机、混合现实(MR)耳机或增强现实(AR)耳机中的一或多者。
实例7b。如实例2b的音频解码装置,所述处理电路经进一步配置以通过检测一个人而确定听者位置信息。
实例8b。如实例2b的音频解码装置,所述处理电路经进一步配置以使用基于点云的内插过程而确定所述听者位置。
实例9b。如实例7b的音频解码装置,所述处理电路经进一步配置以:获得多个听者位置候选项;以及在所获得多个听者位置候选项中的至少两个听者位置候选项之间内插听者位置。
实例10b。如实例1b的音频解码装置,处理电路经进一步配置以应用使用与一或多个音频对象的背景音频对象相关联的相应位置计算的背景平移因数。
实例11b。如实例1b的音频解码装置,所述处理电路经进一步配置以将前景衰减因数应用于所述一或多个音频对象的相应前景音频对象。
实例12b。如实例1b的音频解码装置,处理电路经进一步配置以:确定用于相应前景音频对象的最小发射值;确定将发射因数应用于相应前景音频对象是否产生低于最小发射值的经调整发射值;以及响应于确定低于最小发射值的经调整发射值,使用最小发射值显现相应前景音频对象。
实例13b。如实例1b的音频解码装置,处理电路经进一步配置以调整相应前景音频对象的能量。
实例14b。如实例12b的音频解码装置,处理电路经进一步配置以使相应前景音频对象的相应能量衰减。
实例15b。如实例12b的音频解码装置,处理电路经进一步配置以调整相应前景音频对象的方向特性。
实例16b。如实例12b的音频解码装置,处理电路经进一步配置以调整相应前景音频对象的位差信息。
实例17b。如实例16b的音频解码装置,处理电路经进一步配置以调整位差信息以考虑在与3D音场相关联的视频流中表示的一或多个静默对象。
实例18b。如实例1b的音频解码装置,处理电路经进一步配置以接收位流内的元数据。
实例19b。如实例1b的音频解码装置,处理电路经进一步配置以相对于位流在带外接收元数据。
实例20b。如实例1b的音频解码装置,处理电路经进一步配置以将与3D音场相关联的视频数据输出到一或多个显示器。
实例21b。如实例20b的音频解码装置,其进一步包括一或多个显示器,所述一或多个显示器经配置以:从处理电路接收视频数据;以及以视觉形式输出所接收视频数据。
实例22b。如实例1b的音频解码装置,处理电路经进一步配置以使一或多个音频对象的前景音频对象的能量衰减。
实例23b。如实例1b的音频解码装置,处理电路经进一步配置以将平移因数应用于背景音频对象。
实例24b。如实例1b的音频解码装置,处理电路经进一步配置以:对于所述一或多个音频对象的多个背景音频对象中的每一相应背景音频对象,计算相应背景音频信号与相应平移因数的相应乘积;以及计算所述多个背景音频对象的所有背景音频对象的相应乘积的和。
实例25b。如实例24b的音频解码装置,处理电路经进一步配置以将前景音频对象的乘积的和相加到背景音频对象的乘积的和。
实例26b。一种方法,其包括:在位流中接收三维(3D)音场的音频对象的经编码表示;接收与所述位流相关联的元数据;从所述所接收元数据获得与所述音频对象中的一或多者相关联的一或多个发射因数;以及将所述发射因数应用于所述一或多个音频对象以获得所述3D音场的经位差调整音频对象。
实例27b。如实例26b的方法,其中应用发射因数包括应用使用与所述一或多个音频对象的背景音频对象相关联的相应位置计算的背景平移因数。
实例28b。如实例26b的方法,其中应用发射因数包括将前景衰减因数应用于所述一或多个音频对象的相应前景音频对象。
实例29b。如实例26b的方法,其进一步包括:确定用于相应前景音频对象的最小发射值;确定将发射因数应用于相应前景音频对象是否产生低于最小发射值的经调整发射值;以及响应于确定低于最小发射值的经调整发射值,使用最小发射值显现相应前景音频对象。
实例30b。如实例26b的方法,其中应用发射因数包括调整相应前景音频对象的能量。
实例31b。根据权利要求30b的方法,其中调整能量包括使相应前景音频对象的相应能量衰减。
实例32b。如实例26b的方法,其中应用发射因数包括调整相应前景音频对象的方向特性。
实例33b。如实例26b的方法,其中应用发射因数包括调整相应前景音频对象的位差信息。
实例34b。根据权利要求33b的方法,其中调整所述位差信息包括调整所述位差信息以考虑在与3D音场相关联的视频流中表示的一或多个静默对象。
实例35b。如实例26b的方法,其中接收元数据包括接收位流内的元数据。
实例36b。如实例26b的方法,其中接收元数据包括相对于位流在带外接收元数据。
实例37b。一种编码有指令的非暂时性计算机可读存储媒体,所述指令当执行时致使音频编码装置的处理电路:在位流中接收三维(3D)音场的音频对象的经编码表示;接收与位流相关联的元数据;从所接收元数据获得与所述音频对象中的一或多者相关联的一或多个发射因数;以及将发射因数应用于一或多个音频对象以获得3D音场的经位差调整音频对象。
实例38b。一种音频解码设备,其包括:用于在位流中接收三维(3D)音场的音频对象的经编码表示的装置;用于接收与位流相关联的元数据的装置;用于从所接收元数据获得与所述音频对象中的一或多者相关联的一或多个发射因数的装置;以及用于将发射因数应用于所述一或多个音频对象以获得3D音场的经位差调整音频对象的装置。
实例1c。一种方法,其包括:确定听者位置同与三维(3D)音场的一或多个前景音频对象相关联的相应位置之间的相对前景位置信息,与所述一或多个前景音频对象相关联的相应位置是从与3D音场相关联的视频数据获得。
实例2c。如实例1c的方法,其进一步包括应用坐标系统来确定相对前景位置信息。
实例3c。如实例1c或2c中任一者的方法,其进一步包括通过检测一个装置来确定听者位置信息。
实例4c。如实例3c的方法,其中所述装置包括虚拟现实(VR)耳机。
实例5c。如实例1c或2c中任一者的方法,其进一步包括通过检测一个人确定听者位置信息。
实例6c。如实例1c或2c中任一者的方法,其进一步包括使用基于点云的内插过程确定听者位置。
实例7c。如实例6c的方法,其中使用基于点云的内插过程包括:获得多个听者位置候选项;以及在所获得多个听者位置候选项中的至少两个听者位置候选项之间内插听者位置。
实例8c。一种音频解码装置,其包括:存储器装置,其经配置以存储听者位置及与三维(3D)音场的一或多个前景音频对象相关联的相应位置,与所述一或多个前景音频对象相关联的相应位置是从与3D音场相关联的视频数据获得;以及处理电路,其耦合到所述存储器装置,所述处理电路经配置以确定听者位置同与3D音场的一或多个前景音频对象相关联的相应位置之间的相对前景位置信息。
实例9c。如实例8c的音频解码装置,所述处理电路经进一步配置以应用坐标系统来确定相对前景位置信息。
实例10c。如实例8c或9c中的任一者的音频解码装置,所述处理电路经进一步配置以来确定听者位置信息。
实例11c。如实例10c的音频解码装置,其中所述所检测装置包括虚拟现实(VR)耳机、混合现实(MR)耳机或增强现实(AR)耳机中的一或多者。
实例12c。如实例8c或9c中的任一者的音频解码装置,所述处理电路经进一步配置以通过检测一个人确定听者位置信息。
实例13c。如实例8c或9c中的任一者的音频解码装置,所述处理电路经进一步配置以使用基于点云的内插过程确定听者位置。
实例14c。如实例13c的音频解码装置,所述处理电路经进一步配置以:获得多个听者位置候选项;以及在所获得多个听者位置候选项中的至少两个听者位置候选项之间内插听者位置。
实例15c。一种音频解码设备,其包括:用于确定听者位置同与三维(3D)音场的一或多个前景音频对象相关联的相应位置之间的相对前景位置信息的装置,与一或多个前景音频对象相关联的相应位置是从与3D音场相关联的视频数据获得。
实例16c。一种编码有指令的非暂时性计算机可读存储媒体,所述指令当执行时致使音频解码装置的处理电路:确定听者位置同与三维(3D)音场的一或多个前景音频对象相关联的相应位置之间的相对前景位置信息,与一或多个前景音频对象相关联的相应位置是从与3D音场相关联的视频数据获得。
实例1d。一种方法,其包括:产生与包含三维(3D)音场的音频对象的经编码表示的位流相关联的元数据,所述元数据包含关于音频对象的发射因数、听者位置信息同与音频对象的前景音频对象相关联的相应位置之间的相对前景位置信息,或用于音频对象的一或多个静默对象的位置信息中的一或多者。
实例2d。如实例1d的方法,其中产生元数据包括基于与静默对象及前景音频对象相关联的衰减信息产生发射因数。
实例3d。如方法项2d,其中发射因数表示关于前景音频对象基于静默对象的位置信息的能量衰减信息。
实例4d。如实例2d或3d中的任一者的方法,其中发射因数表示关于前景音频对象的基于静默对象的位置信息的方向衰减信息。
实例5d。如实例2d到4d中的任一者的方法,其进一步包括基于听者位置信息及静默对象的位置信息而确定发射因数。
实例6d。如实例2d到5d中的任一者的方法,其进一步包括基于听者位置信息及前景音频对象的位置信息而确定发射因数。
实例7d。如实例1d到6d中的任一者的方法,其进一步包括:产生包含3D音场的音频对象的经编码表示的位流;以及发信所述位流。
实例8d。如实例7d的方法,其进一步包括发信位流内的元数据。
实例9d。如实例7d的方法,其进一步包括相对于位流在带外发信元数据。
实例10d。方法包括:获得包含关于三维(3D)音场的一或多个音频对象的发射因数的元数据;以及将发射因数应用于与3D音场的一或多个音频对象相关联的音频信号。
实例11d。如实例10d的方法,其中将发射因数应用于音频信号包括使一或多个音频信号的能量信息衰减。
实例12d。如实例10d或11d中的任一者的方法,其中所述一或多个音频对象包括3D音场的前景音频对象。
实例13d。一种音频编码装置,其包括:存储器装置,其经配置以存储三维(3D)音场的音频对象的经编码表示;以及处理电路,其耦合到存储器装置且经配置以产生与包含3D音场的音频对象的经编码表示的位流相关联的元数据,所述元数据包含关于音频对象的发射因数、听者位置信息同与音频对象的前景音频对象相关联的相应位置之间的相对前景位置信息,或音频对象的一或多个静默对象的位置信息中的一或多者。
实例14d。如实例13d的音频编码装置,处理电路经配置以基于与静默对象及前景音频对象相关联的衰减信息产生发射因数。
实例15d。如实例14d的音频编码装置,其中发射因数表示关于前景音频对象的基于静默对象的位置信息的能量衰减信息。
实例16d。如实例14d或15d中的任一者的音频编码装置,其中发射因数表示关于前景音频对象的基于静默对象的位置信息的方向衰减信息。
实例17d。如实例14d到16d中的任一者的音频编码装置,处理电路经进一步配置以基于听者位置信息及静默对象的位置信息确定发射因数。
实例18d。如实例14d到17d中的任一者的音频编码装置,处理电路经进一步配置以基于听者位置信息及前景音频对象的位置信息确定发射因数。
实例19d。如实例13d到18d中的任一者的音频编码装置,处理电路经进一步配置以:产生包含3D音场的音频对象的经编码表示的位流;以及发信位流。
实例20d。如实例19d的音频编码装置,处理电路经配置以发信位流内的元数据。
实例21d。如实例19d的音频编码装置,处理电路经配置以相对于位流在带外发信元数据。
实例22d。一种音频解码装置,其包括:存储器装置,其经配置以存储三维(3D)音场的一或多个音频对象;以及处理电路,其耦合到存储器装置,且经配置以:获得包含关于3D音场的一或多个音频对象的发射因数的元数据;以及将发射因数应用于与3D音场的一或多个音频对象相关联的音频信号。
实例23d。如实例22d的音频解码装置,处理电路经进一步配置以使一或多个音频信号的能量信息衰减。
实例24d。如实例22d或23d中的任一者的音频解码装置,其中一或多个音频对象包括3D音场的前景音频对象。
实例25d。一种音频编码设备,其包括:用于产生与包含三维(3D)音场的音频对象的经编码表示的位流相关联的元数据的装置,所述元数据包含关于音频对象的发射因数、听者位置信息同与音频对象的前景音频对象相关联的相应位置之间的相对前景位置信息,或用于音频对象的一或多个静默对象的位置信息中的一或多者。
实例26d。一种音频解码设备,其包括:用于获得包含关于三维(3D)音场的一或多个音频对象的发射因数的元数据的装置;以及用于将发射因数应用于与3D音场的一或多个音频对象相关联的音频信号的装置。
实例27d。一种集成装置,其包括:实例13d的音频编码装置;以及实例14d的音频解码装置。
实例1e。一种显现三维(3D)音场的方法,所述方法包括:将发射因数应用于前景音频对象的前景音频信号以使前景音频信号的一或多个特性衰减。
实例2e。如实例1e的方法,其中使前景音频信号的特性衰减包括使前景音频信号的能量衰减。
实例3e。如实例1e或2e中的任一者的方法,其进一步包括将平移因数应用于背景音频对象。
实例4e。一种音频解码装置,其包括:存储器装置,其经配置以存储三维(3D)音场的前景音频对象;以及处理电路,其耦合到存储器装置且经配置以将发射因数应用于前景音频对象的前景音频信号以使前景音频信号的一或多个特性衰减。
实例5e。如实例4e的音频解码装置,处理电路经配置以使前景音频信号的能量衰减。
实例6e。如实例4e或5e中的任一者的音频解码装置,处理电路经进一步配置以将平移因数应用于背景音频对象。
实例7e。一种音频解码设备,其包括:用于将发射因数应用于三维(3d)音场的前景音频对象的前景音频信号以使前景音频信号的一或多个特性衰减的装置。
实例1f。一种显现三维(3D)音场的方法,所述方法包括:对于多个前景音频对象的每一相应前景音频对象,计算发射因数、前景音频信号及方向向量的相应集合的相应乘积;以及计算所述多个前景音频对象的所有前景音频对象的相应乘积的和。
实例2f。如实例1f的方法,其进一步包括:对于多个背景音频对象中的每一相应背景音频对象,计算相应背景音频信号与相应平移因数的相应乘积;以及计算所述多个背景音频对象的所有背景音频对象的相应乘积的和。
实例3f。如实例2f的方法,其进一步包括将前景音频对象的乘积的和相加到背景音频对象的乘积的和。
实例4f。如实例1f到3f中的任一者的方法,其进一步包括在高阶立体混响(HOA)域中执行所有计算。
实例5f。一种音频解码装置,其包括:存储器装置,其经配置以存储三维(3D)音场的多个前景音频对象;以及处理电路,其耦合到存储器装置,且经配置以:对于所述多个前景音频对象的每一相应前景音频对象,计算发射因数、前景音频信号及方向向量的相应集合的相应乘积;以及计算所述多个前景音频对象的所有前景音频对象的相应乘积的和。
实例6f。如实例5f的音频解码装置,存储器装置经进一步配置以存储多个背景音频对象,处理电路经进一步配置以:对于多个背景音频对象中的每一相应背景音频对象,计算相应背景音频信号与相应平移因数的相应乘积;以及计算所述多个背景音频对象的所有背景音频对象的相应乘积的和。
实例7f。如实例6f的音频解码装置,处理电路经进一步配置以将前景音频对象的乘积的和相加到背景音频对象的乘积的和。
实例8f。如实例5f到7f中的任一者的音频解码装置,处理电路经进一步配置以在高阶立体混响(HOA)域中执行所有计算。
实例9f。一种音频解码设备,其包括:用于对于三维(3D)音场的多个前景音频对象的每一相应前景音频对象,计算发射因数、前景音频信号及方向向量的相应者的相应乘积的装置;以及用于计算所述多个前景音频对象的所有前景音频对象的相应乘积的和的装置。
应理解,取决于实例,本文所描述的方法中的任一者的某些动作或事件可以不同序列被执行、可被添加、合并或完全省去(例如,并非所有所描述动作或事件为实践所述技术所必要)。此外,在某些实例中,可例如经由多线程处理、中断处理或多个处理器同时而非顺序地执行动作或事件。另外,尽管出于清晰的目的,本公开的某些方面被描述为由单个模块或单元执行,但应理解,本公开的技术可通过与视频译码器相关联的单元或模块的组合来执行。
在一或多个实例中,所描述功能可以硬件、软件、固件或其任何组合来实施。如果实施于软件中,则所述功能可作为一或多个指令或程序代码而存储于计算机可读媒体上或经由计算机可读媒体进行发射,且由基于硬件的处理单元执行。计算机可读媒体可包含计算机可读存储媒体(其对应于例如数据存储媒体的有形媒体)或通信媒体(其包含(例如)根据通信协议促进计算机程序从一处传送到另一处的任何媒体)。
以此方式,计算机可读媒体通常可对应于(1)非暂时性的有形计算机可读存储媒体,或(2)例如信号或载波的通信媒体。数据存储媒体可为可通过一或多个计算机或一或多个处理器存取以检索指令、程序代码及/或数据结构以用于实施本公开所描述的技术的任何可用媒体。计算机程序产品可包含计算机可读媒体。
通过实例而非限制,这些计算机可读存储媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储器、磁盘存储器或其它磁性存储装置、快闪存储器或可用于存储呈指令或数据结构形式的所要程序代码且可由计算机存取的任何其它媒体。而且,任何连接被恰当地称为计算机可读媒体。举例来说,如果使用同轴缆线、光纤缆线、双绞线、数字订户线(DSL)或例如红外线、无线电及微波的无线技术,从网站、服务器或其它远程源来发射指令,则同轴缆线、光纤缆线、双绞线、DSL或例如红外线、无线电及微波的无线技术包含于媒体的定义中。
然而,应理解,计算机可读存储媒体及数据存储媒体不包含连接、载波、信号或其它暂时性媒体,而是涉及非暂时性有形存储媒体。如本文中所使用的磁盘及光盘包含紧密光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软盘及蓝光光盘,其中磁盘通常以磁性方式再现数据,而光盘用激光以光学方式再现数据。以上各者的组合也应包含于计算机可读媒体的范围内。
可由一或多个处理器执行指令,所述一或多个处理器例如一或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效的集成或离散逻辑电路。因此,如本文中所使用的术语“处理器”可指上述结构或适合于实施本文中所描述的技术的任何其它结构中的任一者。术语“处理器”可形成于一或多个微处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)、处理电路(包含固定功能电路及/或可编程处理电路)或其它等效集成或离散逻辑电路中。此外,在一些方面中,本文所描述的功能性可提供于经配置以供编码及解码或并入于经组合编解码器中的专用硬件及/或软件模块内。此外,所述技术可完全实施于一或多个电路或逻辑元件中。
本公开的技术可实施在多种装置或设备中,包含无线手持机、集成电路(IC)或IC集合(例如芯片组)。在本公开中描述各种组件、模块或单元以强调经配置以执行所公开技术的装置的功能方面,但未必需要通过不同硬件单元来实现。确切地说,如上文所描述,各种单元可与合适的软件及/或固件一起组合于编码解码器硬件单元中或由互操作性硬件单元的集合提供,硬件单元包含如上文所描述的一或多个处理器。
已描述所述技术的各种实施例。这些及其它实施例在所附权利要求书的范围内。
Claims (30)
1.一种音频解码装置,其包括:
处理电路,其经配置以:
在位流中接收三维3D音场的音频对象的经编码表示;
接收与所述位流相关联的元数据;
从所接收元数据获得与所述音频对象中的一或多者相关联的一或多个发射因数;以及
将所述发射因数应用于所述一或多个音频对象以获得所述3D音场的经位差调整音频对象;以及
存储器装置,其耦合到所述处理电路,所述存储器装置经配置以存储所接收位流的至少一部分、所述所接收元数据或所述3D音场的所述经位差调整音频对象。
2.根据权利要求1所述的音频解码装置,所述处理电路经进一步配置以:
确定听者位置信息;
除了将所述发射因数应用于所述一或多个音频对象之外,还将所述听者位置信息应用于所述一或多个音频对象。
3.根据权利要求2所述的音频解码装置,所述处理电路经进一步配置以应用所述听者位置信息同与所述一或多个音频对象的前景音频对象相关联的相应位置之间的相对前景位置信息。
4.根据权利要求3所述的音频解码装置,所述处理电路经进一步配置以应用坐标系统以确定所述相对前景位置信息。
5.根据权利要求2所述的音频解码装置,所述处理电路经进一步配置以通过检测一个装置而确定所述听者位置信息。
6.根据权利要求5所述的音频解码装置,其中所检测装置包括虚拟现实VR耳机、混合现实MR耳机或增强现实AR耳机中的一或多者。
7.根据权利要求2所述的音频解码装置,所述处理电路经进一步配置以通过检测一个人而确定所述听者位置信息。
8.根据权利要求2所述的音频解码装置,所述处理电路经进一步配置以使用基于点云的内插过程而确定所述听者位置。
9.根据权利要求8所述的音频解码装置,所述处理电路经进一步配置以:
获得多个听者位置候选项;以及
在所述获得的多个听者位置候选项中的至少两个听者位置候选项之间内插所述听者位置。
10.根据权利要求1所述的音频解码装置,所述处理电路经进一步配置以应用使用与所述一或多个音频对象的背景音频对象相关联的相应位置计算的背景平移因数。
11.根据权利要求1所述的音频解码装置,所述处理电路经进一步配置以:
确定用于相应前景音频对象的最小发射值;
确定将所述发射因数应用于所述相应前景音频对象是否产生低于所述最小发射值的经调整发射值;以及
响应于确定低于所述最小发射值的所述经调整发射值,使用所述最小发射值显现所述相应前景音频对象。
12.根据权利要求1所述的音频解码装置,所述处理电路经进一步配置以将前景衰减因数应用于所述一或多个音频对象的相应前景音频对象。
13.根据权利要求12所述的音频解码装置,所述处理电路经进一步配置以调整所述相应前景音频对象的能量。
14.根据权利要求12所述的音频解码装置,所述处理电路经进一步配置以使所述相应前景音频对象的相应能量衰减。
15.根据权利要求12所述的音频解码装置,所述处理电路经进一步配置以调整所述相应前景音频对象的方向特性。
16.根据权利要求12所述的音频解码装置,所述处理电路经进一步配置以调整所述相应前景音频对象的位差信息。
17.根据权利要求16所述的音频解码装置,所述处理电路经进一步配置以调整所述位差信息以考虑在与所述3D音场相关联的视频流中表示的一或多个静默对象。
18.根据权利要求1所述的音频解码装置,所述处理电路经进一步配置以接收所述位流内的所述元数据。
19.根据权利要求1所述的音频解码装置,所述处理电路经进一步配置以相对于所述位流在带外接收所述元数据。
20.根据权利要求1所述的音频解码装置,所述处理电路经进一步配置以输出与所述3D音场相关联的视频数据到一或多个显示器。
21.根据权利要求20所述的音频解码装置,其进一步包括所述一或多个显示器,所述一或多个显示器经配置以:
从所述处理电路接收所述视频数据;以及
以视觉形式输出所接收视频数据。
22.根据权利要求1所述的音频解码装置,所述处理电路经进一步配置以使所述一或多个音频对象的前景音频对象的能量衰减。
23.根据权利要求1所述的音频解码装置,所述处理电路经进一步配置以将平移因数应用于背景音频对象。
24.根据权利要求1所述的音频解码装置,所述处理电路经进一步配置以:
对于所述一或多个音频对象的多个背景音频对象中的每一相应背景音频对象,计算相应背景音频信号与相应平移因数的相应乘积;以及
计算所述多个背景音频对象的所有背景音频对象的所述相应乘积的和。
25.根据权利要求24所述的音频解码装置,所述处理电路经进一步配置以将前景音频对象的乘积的和相加到所述背景音频对象的所述乘积的所述和。
26.一种用于音频解码的方法,其包括:
在位流中接收三维3D音场的音频对象的经编码表示;
接收与所述位流相关联的元数据;
从所接收元数据获得与所述音频对象中的一或多者相关联的一或多个发射因数;以及
将所述发射因数应用于所述一或多个音频对象以获得所述3D音场的经位差调整音频对象。
27.根据权利要求26所述的方法,其进一步包括:
确定听者位置信息;以及
除了将所述发射因数应用于所述一或多个音频对象之外,还将所述听者位置信息应用于所述一或多个音频对象。
28.根据权利要求27所述的方法,其中应用所述发射因数及所述听者位置信息包括应用所述听者位置信息同与所述一或多个音频对象的前景音频对象相关联的相应位置之间的相对前景位置信息。
29.一种音频解码设备,其包括:
用于在位流中接收三维3D音场的音频对象的经编码表示的装置;
用于接收与所述位流相关联的元数据的装置;
用于从所接收元数据获得与所述音频对象中的一或多者相关联的一或多个发射因数的装置;以及
用于将所述发射因数应用于所述一或多个音频对象以获得所述3D音场的经位差调整音频对象的装置。
30.一种编码有指令的非暂时性计算机可读存储介质,所述指令当执行时致使音频解码装置的处理电路执行以下操作:
在位流中接收三维3D音场的音频对象的经编码表示;
接收与所述位流相关联的元数据;
从所接收元数据获得与所述音频对象中的一或多者相关联的一或多个发射因数;以及
将所述发射因数应用于所述一或多个音频对象以获得所述3D音场的经位差调整音频对象。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310509268.7A CN116564318A (zh) | 2017-01-13 | 2018-01-12 | 用于虚拟现实、增强现实及混合现实的音频位差 |
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201762446324P | 2017-01-13 | 2017-01-13 | |
US62/446,324 | 2017-01-13 | ||
US15/868,656 US10659906B2 (en) | 2017-01-13 | 2018-01-11 | Audio parallax for virtual reality, augmented reality, and mixed reality |
US15/868,656 | 2018-01-11 | ||
PCT/US2018/013526 WO2018132677A1 (en) | 2017-01-13 | 2018-01-12 | Audio parallax for virtual reality, augmented reality, and mixed reality |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310509268.7A Division CN116564318A (zh) | 2017-01-13 | 2018-01-12 | 用于虚拟现实、增强现实及混合现实的音频位差 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110168638A CN110168638A (zh) | 2019-08-23 |
CN110168638B true CN110168638B (zh) | 2023-05-09 |
Family
ID=61132913
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880005983.4A Active CN110168638B (zh) | 2017-01-13 | 2018-01-12 | 用于虚拟现实、增强现实及混合现实的音频位差 |
CN202310509268.7A Pending CN116564318A (zh) | 2017-01-13 | 2018-01-12 | 用于虚拟现实、增强现实及混合现实的音频位差 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310509268.7A Pending CN116564318A (zh) | 2017-01-13 | 2018-01-12 | 用于虚拟现实、增强现实及混合现实的音频位差 |
Country Status (4)
Country | Link |
---|---|
US (2) | US10659906B2 (zh) |
CN (2) | CN110168638B (zh) |
TW (1) | TW201830380A (zh) |
WO (1) | WO2018132677A1 (zh) |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10659906B2 (en) | 2017-01-13 | 2020-05-19 | Qualcomm Incorporated | Audio parallax for virtual reality, augmented reality, and mixed reality |
US20180284894A1 (en) * | 2017-03-31 | 2018-10-04 | Intel Corporation | Directional haptics for immersive virtual reality |
CA3069772C (en) | 2017-07-14 | 2024-01-02 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Concept for generating an enhanced sound-field description or a modified sound field description using a depth-extended dirac technique or other techniques |
KR102652670B1 (ko) * | 2017-07-14 | 2024-04-01 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 다중-층 묘사를 이용하여 증강된 음장 묘사 또는 수정된 음장 묘사를 생성하기 위한 개념 |
AR112451A1 (es) | 2017-07-14 | 2019-10-30 | Fraunhofer Ges Forschung | Concepto para generar una descripción mejorada de campo de sonido o un campo de sonido modificado utilizando una descripción de campo de sonido multi-punto |
MX2020003450A (es) * | 2017-10-12 | 2020-10-01 | Fraunhofer Ges Forschung | Optimización de difusión de audio para aplicaciones de realidad virtual. |
US10848894B2 (en) * | 2018-04-09 | 2020-11-24 | Nokia Technologies Oy | Controlling audio in multi-viewpoint omnidirectional content |
US20210112287A1 (en) * | 2018-04-11 | 2021-04-15 | Lg Electronics Inc. | Method and apparatus for transmitting or receiving metadata of audio in wireless communication system |
US11435977B2 (en) * | 2018-04-20 | 2022-09-06 | Lg Electronics Inc. | Method for transmitting and receiving audio data related to transition effect and device therefor |
EP3623908A1 (en) * | 2018-09-14 | 2020-03-18 | InterDigital CE Patent Holdings | A system for controlling audio-capable connected devices in mixed reality environments |
US11128976B2 (en) | 2018-10-02 | 2021-09-21 | Qualcomm Incorporated | Representing occlusion when rendering for computer-mediated reality systems |
GB201818959D0 (en) * | 2018-11-21 | 2019-01-09 | Nokia Technologies Oy | Ambience audio representation and associated rendering |
US10728689B2 (en) * | 2018-12-13 | 2020-07-28 | Qualcomm Incorporated | Soundfield modeling for efficient encoding and/or retrieval |
US11937065B2 (en) * | 2019-07-03 | 2024-03-19 | Qualcomm Incorporated | Adjustment of parameter settings for extended reality experiences |
US20210006976A1 (en) * | 2019-07-03 | 2021-01-07 | Qualcomm Incorporated | Privacy restrictions for audio rendering |
US11354085B2 (en) | 2019-07-03 | 2022-06-07 | Qualcomm Incorporated | Privacy zoning and authorization for audio rendering |
US11026037B2 (en) * | 2019-07-18 | 2021-06-01 | International Business Machines Corporation | Spatial-based audio object generation using image information |
US11356793B2 (en) * | 2019-10-01 | 2022-06-07 | Qualcomm Incorporated | Controlling rendering of audio data |
US11356796B2 (en) * | 2019-11-22 | 2022-06-07 | Qualcomm Incorporated | Priority-based soundfield coding for virtual reality audio |
CN111885414B (zh) * | 2020-07-24 | 2023-03-21 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、设备及可读存储介质 |
US11750998B2 (en) | 2020-09-30 | 2023-09-05 | Qualcomm Incorporated | Controlling rendering of audio data |
US11743670B2 (en) | 2020-12-18 | 2023-08-29 | Qualcomm Incorporated | Correlation-based rendering with multiple distributed streams accounting for an occlusion for six degree of freedom applications |
EP4068076A1 (en) * | 2021-03-29 | 2022-10-05 | Nokia Technologies Oy | Processing of audio data |
WO2024081504A1 (en) * | 2022-10-11 | 2024-04-18 | Dolby Laboratories Licensing Corporation | Conversion of scene based audio representations to object based audio representations |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2934025A1 (en) * | 2014-04-15 | 2015-10-21 | Thomson Licensing | Method and device for applying dynamic range compression to a higher order ambisonics signal |
CN105723453A (zh) * | 2013-10-22 | 2016-06-29 | 弗朗霍夫应用科学研究促进协会 | 用于对降混合矩阵进行解码及编码的方法、用于呈现音频内容的方法、用于降混合矩阵的编码器及解码器、音频编码器及音频解码器 |
Family Cites Families (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2374507B (en) | 2001-01-29 | 2004-12-29 | Hewlett Packard Co | Audio user interface with audio cursor |
EP2154911A1 (en) * | 2008-08-13 | 2010-02-17 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | An apparatus for determining a spatial output multi-channel audio signal |
US8964994B2 (en) | 2008-12-15 | 2015-02-24 | Orange | Encoding of multichannel digital audio signals |
ES2524428T3 (es) * | 2009-06-24 | 2014-12-09 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Decodificador de señales de audio, procedimiento para decodificar una señal de audio y programa de computación que utiliza etapas en cascada de procesamiento de objetos de audio |
US8587631B2 (en) | 2010-06-29 | 2013-11-19 | Alcatel Lucent | Facilitating communications using a portable communication device and directed sound output |
US10326978B2 (en) | 2010-06-30 | 2019-06-18 | Warner Bros. Entertainment Inc. | Method and apparatus for generating virtual or augmented reality presentations with 3D audio positioning |
US9122053B2 (en) * | 2010-10-15 | 2015-09-01 | Microsoft Technology Licensing, Llc | Realistic occlusion for a head mounted augmented reality display |
GB201211512D0 (en) | 2012-06-28 | 2012-08-08 | Provost Fellows Foundation Scholars And The Other Members Of Board Of The | Method and apparatus for generating an audio output comprising spartial information |
US9338420B2 (en) | 2013-02-15 | 2016-05-10 | Qualcomm Incorporated | Video analysis assisted generation of multi-channel audio data |
WO2014204330A1 (en) | 2013-06-17 | 2014-12-24 | 3Divi Company | Methods and systems for determining 6dof location and orientation of head-mounted display and associated user movements |
US9451162B2 (en) | 2013-08-21 | 2016-09-20 | Jaunt Inc. | Camera array including camera modules |
GB2523555B (en) | 2014-02-26 | 2020-03-25 | Sony Interactive Entertainment Europe Ltd | Image encoding and display |
US9652124B2 (en) | 2014-10-31 | 2017-05-16 | Microsoft Technology Licensing, Llc | Use of beacons for assistance to users in interacting with their environments |
US9560467B2 (en) * | 2014-11-11 | 2017-01-31 | Google Inc. | 3D immersive spatial audio systems and methods |
US9767618B2 (en) | 2015-01-28 | 2017-09-19 | Samsung Electronics Co., Ltd. | Adaptive ambisonic binaural rendering |
US9712936B2 (en) | 2015-02-03 | 2017-07-18 | Qualcomm Incorporated | Coding higher-order ambisonic audio data with motion stabilization |
US9530426B1 (en) | 2015-06-24 | 2016-12-27 | Microsoft Technology Licensing, Llc | Filtering sounds for conferencing applications |
CN108370487B (zh) | 2015-12-10 | 2021-04-02 | 索尼公司 | 声音处理设备、方法和程序 |
US10034066B2 (en) | 2016-05-02 | 2018-07-24 | Bao Tran | Smart device |
US9955279B2 (en) | 2016-05-11 | 2018-04-24 | Ossic Corporation | Systems and methods of calibrating earphones |
US10089063B2 (en) | 2016-08-10 | 2018-10-02 | Qualcomm Incorporated | Multimedia device for processing spatialized audio based on movement |
WO2018064528A1 (en) * | 2016-09-29 | 2018-04-05 | The Trustees Of Princeton University | Ambisonic navigation of sound fields from an array of microphones |
EP3301951A1 (en) * | 2016-09-30 | 2018-04-04 | Koninklijke KPN N.V. | Audio object processing based on spatial listener information |
US10659906B2 (en) | 2017-01-13 | 2020-05-19 | Qualcomm Incorporated | Audio parallax for virtual reality, augmented reality, and mixed reality |
US10158963B2 (en) | 2017-01-30 | 2018-12-18 | Google Llc | Ambisonic audio with non-head tracked stereo based on head position and time |
US10133544B2 (en) | 2017-03-02 | 2018-11-20 | Starkey Hearing Technologies | Hearing device incorporating user interactive auditory display |
US10242486B2 (en) | 2017-04-17 | 2019-03-26 | Intel Corporation | Augmented reality and virtual reality feedback enhancement system, apparatus and method |
US11164606B2 (en) | 2017-06-30 | 2021-11-02 | Qualcomm Incorporated | Audio-driven viewport selection |
-
2018
- 2018-01-11 US US15/868,656 patent/US10659906B2/en active Active
- 2018-01-12 CN CN201880005983.4A patent/CN110168638B/zh active Active
- 2018-01-12 TW TW107101265A patent/TW201830380A/zh unknown
- 2018-01-12 CN CN202310509268.7A patent/CN116564318A/zh active Pending
- 2018-01-12 WO PCT/US2018/013526 patent/WO2018132677A1/en active Application Filing
-
2020
- 2020-04-30 US US16/863,626 patent/US10952009B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105723453A (zh) * | 2013-10-22 | 2016-06-29 | 弗朗霍夫应用科学研究促进协会 | 用于对降混合矩阵进行解码及编码的方法、用于呈现音频内容的方法、用于降混合矩阵的编码器及解码器、音频编码器及音频解码器 |
EP2934025A1 (en) * | 2014-04-15 | 2015-10-21 | Thomson Licensing | Method and device for applying dynamic range compression to a higher order ambisonics signal |
Also Published As
Publication number | Publication date |
---|---|
US20180206057A1 (en) | 2018-07-19 |
US20200260210A1 (en) | 2020-08-13 |
CN110168638A (zh) | 2019-08-23 |
CN116564318A (zh) | 2023-08-08 |
TW201830380A (zh) | 2018-08-16 |
US10952009B2 (en) | 2021-03-16 |
US10659906B2 (en) | 2020-05-19 |
WO2018132677A1 (en) | 2018-07-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110168638B (zh) | 用于虚拟现实、增强现实及混合现实的音频位差 | |
CN109906616B (zh) | 用于确定一或多个音频源的一或多个音频表示的方法、系统和设备 | |
KR102654507B1 (ko) | 다중-지점 음장 묘사를 이용하여 증강된 음장 묘사 또는 수정된 음장 묘사를 생성하기 위한 개념 | |
CN112771894B (zh) | 针对计算机介导现实系统进行渲染时表示遮挡 | |
KR102540642B1 (ko) | 다중-층 묘사를 이용하여 증강된 음장 묘사 또는 수정된 음장 묘사를 생성하기 위한 개념 | |
US10542368B2 (en) | Audio content modification for playback audio | |
CN111183658B (zh) | 用于计算机介导现实系统的渲染 | |
US10728689B2 (en) | Soundfield modeling for efficient encoding and/or retrieval | |
US11843932B2 (en) | Six degrees of freedom and three degrees of freedom backward compatibility | |
CN114424587A (zh) | 控制音频数据的呈现 | |
CN114747231A (zh) | 基于运动来选择音频流 | |
EP3777248A1 (en) | An apparatus, a method and a computer program for controlling playback of spatial audio | |
US20220386060A1 (en) | Signalling of audio effect metadata in a bitstream | |
US11184731B2 (en) | Rendering metadata to control user movement based audio rendering | |
US20240114310A1 (en) | Method and System For Efficiently Encoding Scene Positions | |
US11967329B2 (en) | Signaling for rendering tools | |
CN114128312A (zh) | 用于低频效果的音频渲染 | |
CN116472725A (zh) | 用于增强现实/虚拟现实音频的智能混合渲染 | |
CN117768832A (zh) | 用于高效编码场景位置的方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |