CN108476366B - 用于参数化双耳输出系统和方法的头部跟踪 - Google Patents

用于参数化双耳输出系统和方法的头部跟踪 Download PDF

Info

Publication number
CN108476366B
CN108476366B CN201680075037.8A CN201680075037A CN108476366B CN 108476366 B CN108476366 B CN 108476366B CN 201680075037 A CN201680075037 A CN 201680075037A CN 108476366 B CN108476366 B CN 108476366B
Authority
CN
China
Prior art keywords
dominant
audio
component
estimate
residual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201680075037.8A
Other languages
English (en)
Other versions
CN108476366A (zh
Inventor
D·J·布瑞巴特
D·M·库珀
M·F·戴维斯
D·S·麦克格拉斯
K·克约尔林
H·默德
R·J·威尔森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby International AB
Dolby Laboratories Licensing Corp
Original Assignee
Dolby International AB
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby International AB, Dolby Laboratories Licensing Corp filed Critical Dolby International AB
Priority to CN202110229741.7A priority Critical patent/CN113038354A/zh
Publication of CN108476366A publication Critical patent/CN108476366A/zh
Application granted granted Critical
Publication of CN108476366B publication Critical patent/CN108476366B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • H04S3/004For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/033Headphones for stereophonic communication
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Golf Clubs (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Massaging Devices (AREA)
  • Stereophonic Arrangements (AREA)

Abstract

一种对基于声道或基于对象的输入音频进行编码以用于回放的方法,该方法包括以下步骤:(a)首先将基于声道或基于对象的输入音频渲染为初始输出表示;(b)从基于声道或基于对象的输入音频确定主导音频分量的估计,并且确定用于将初始输出表示映射到主导音频分量的一系列主导音频分量加权因子;(c)确定主导音频分量方向或位置的估计;并且(d)将初始输出表示、主导音频分量加权因子、主导音频分量方向或位置编码为用于回放的编码信号。

Description

用于参数化双耳输出系统和方法的头部跟踪
技术领域
本发明提供可选地利用头部跟踪时的改进形式的参数化双耳输出 的系统和方法。
参考文献
Gundry,K.,“一种用于环绕声的新型矩阵解码器(A New Matrix Decoder forSurround Sound),”AES 19th International Conf., Schloss Elmau,德国,2001年。
Vinton,M.、McGrath,D.、Robinson,C.、Brown,P.,“新一代环 绕解码和用于消费和专业应用的上混(Next generation surround decoding and up-mixing for consumerand professional applications)”, AES 57th International Conf,Hollywood,CA,USA,2015年。
Wightman,F.L.和Kistler,D.J.(1989年).“自由场收听的耳机模 拟(Headphonesimulation of free-field listening).I.Stimulus synthesis,”J.Acoust.Soc.Am.85,858-867。
ISO/IEC 14496-3:2009-信息技术--视听对象的编码-第3部分: 音频(Information technology--Coding of audio-visual objects--Part 3:Audio),2009年。
Mania,Katerina等人.″在不同程度的场景复杂度下的虚拟环境 中的头部跟踪延迟的感知灵敏度(Perceptual sensitivity to head tracking latency in virtualenvironments with varying degrees of scene complexity).″Proceedings of the1st Symposium on Applied perception in graphics and visualization.ACM,2004年。
Allison,R.S.、Harris,L.R.、Jenkin,M.、Jasiobedzka,U.和Zacher, J.E.(2001,March).虚拟环境中时间延迟的容忍度(Tolerance of temporal delay in virtualenvironments).In Virtual Reality,2001年. Proceedings.IEEE(pp.247-254).IEEE。
Van de Par,Steven和Armin Kohlrausch.″对听觉-视觉不同步 的灵敏度和听觉-视觉定时的抖动(Sensitivity to auditory-visual asynchrony and to jitter inauditory-visual timing).″Electronic Imaging.International Society for Opticsand Photonics,2000年。
背景技术
整个说明书中背景技术的任何讨论绝不应被认为是承认这样的技 术是广泛已知的或者形成本领域中的公知常识的一部分。
音频内容的内容创建、编码、分发和再现传统上是基于声道的。 也就是说,一个特定的目标回放系统是针对整个内容生态系统的内容 设想的。这样的目标回放系统的例子是单声道、立体声、5.1、7.1、7.1.4 等。
如果内容要在不同于预期回放系统的回放系统上再现,则可以应 用下混或上混。例如,5.1内容可以通过采用特定的已知的下混方程来 在立体声回放系统上再现。另一个例子是立体声内容在7.1扬声器设 置上的回放,7.1扬声器设置可以包括所谓的上混处理,该上混处理可 以由存在于立体声信号(比如由所谓的矩阵编码器(比如Dolby Pro Logic)使用的立体声信号)中的信息指引(guide),或者可以不由 该信息指引。为了指引上混处理,可以通过将特定的相位关系包括在 下混方程中、或者换句话说、通过应用复值下混方程来暗含地标示 (signal)关于下混之前的信号的原始位置的信息。用放置在两个维度 上的扬声器对内容使用复值下混系数的这样的下混方法的众所周知的 例子是LtRt(Vinton等人,2015年)。
所得的(立体声)下混信号可以在立体声扩音器系统上再现,或 者可以被上混到具有环绕扬声器和/或高度扬声器的扩音器设置。信号 的预期定位可以由上混器从声道间相位关系导出。例如,在LtRt立体 声表示中,异相的(例如,具有接近于-1的声道间波形规范化互相关 系数的)信号理想上应由一个或多个环绕扬声器再现,而正相关系数 (接近于+1)指示该信号应由收听者前面的扬声器再现。
已经开发了各种上混算法和策略,这些上混算法和策略的不同之 处在于它们从立体声下混重新创建多声道信号的策略。在相对简单的 上混器中,立体声波形信号的规范化互相关系数是根据时间而跟踪的, 而(一个或多个)信号根据规范化互相关系数的值被引导(steer)到 前置扬声器或后置扬声器。该方法对于相对简单的内容效果很好,在 相对简单的内容中,只有一个听觉对象同时存在。较高级的上混器是 基于从特定频率区域导出的统计信息来控制从立体声输入到多声道输 出的信号流(Gundry 2001年、Vinton等人2015年)。具体地说,在 各个时间/频率片(tile)中可以采用基于引导分量或主导分量和立体 声(扩散)残留信号的信号模型。除了估计主导分量和残留信号之外, 还估计方向(以方位角,可能补充有仰角(elevation))角度,随后 将主导分量信号引导到一个或多个扩音器以在回放期间重构(估计的) 位置。
矩阵编码器和解码器/上混器的使用不限于基于声道的内容。音频 行业中的最近发展基于音频对象,而不是声道,在音频对象中,一个 或多个对象包含音频信号和相关联的元数据,该元数据除了其他方面 之外,指示该音频信号的随着时间而变化的预期位置。对于这样的基 于对象的音频内容,如Vinton等人2015年的文献中所概述的,也可 以使用矩阵编码器。在这样的系统中,对象信号被下混为具有依赖于 对象位置元数据的下混系数的立体声信号表示。
矩阵编码的内容的上混和再现不一定限于扩音器上的回放。包含 主导分量信号和(预期)位置的引导分量或主导分量的表示使得可以 借助于与头部相关脉冲响应(HRIR)的卷积在耳机上再现(Wightman 等人,1989年)。图1中示出了实现该方法的系统的简单示意图。矩 阵编码的格式的输入信号2首先被分析3以确定主导分量方向和幅值。 主导分量信号借助于基于主导分量方向从查找表6导出的一对HRIR 被卷积4、5,以计算用于耳机回放7的输出信号,以使得回放信号被 感知为来自由主导分量分析级3确定的方向。该方案可以应用于宽带 信号上以及各个子带上,并且可以补充有残留(或扩散)信号的各种 方式的专用处理。
矩阵编码器的使用非常适合于到AV接收器的分发和AV接收器 上的再现,但是对于要求低传输数据速率和低功耗的移动应用,可能 是有问题的。
不论是使用基于声道的内容、还是使用基于对象的内容,矩阵编 码器和解码器都依赖于从矩阵编码器分发给解码器的信号的相当准确 的声道间相位关系。换句话说,分发格式应当很大程度上是波形保持 的。对于波形保持的这样的依赖性在位速率受约束的条件下可能是有 问题的,在位速率受约束的条件下,音频编解码器采用参数化方法、 而不是波形编码工具来获得较好的音频质量。如MPEG-4音频编解码 器(ISO/IEC 14496-3:2009)中实现的,一般知道的波形不保持的这 样的参数化工具的例子通常被称为频带复制、参数化立体声、空间音 频编码等。
如前一节中所概述的,上混器包含信号的分析和引导(或HRIR 卷积)。对于通电设备,比如AV接收器,这一般不引起问题,但是 对于电池操作的设备,比如移动电话和平板,与这些处理相关联的计 算复杂度和对应的存储器要求通常是不期望的,因为它们对电池寿命 的影响是负面的。
前述分析通常还引入了额外的音频延时。这样的音频延时是不期 望的,因为(1)它需要视频延迟来维持音频-视频边缘(lip)同步, 这需要大量的存储器和处理能力,并且(2)在头部跟踪的情况下,可 能引起头部移动和音频渲染之间的异步/延时。
由于可能存在很强的异相信号分量,矩阵编码的下混在立体声扩 音器或耳机上可能也不是声音最佳的。
发明内容
本发明的一个目的是提供改进形式的参数化双耳输出。
根据本发明的第一方面,提供了一种对基于声道或基于对象的输 入音频进行编码以用于回放的方法,该方法包括以下步骤:(a)首先 将基于声道或基于对象的输入音频渲染为初始输出表示(例如,初始 输出表示);(b)从基于声道或基于对象的输入音频确定主导音频 分量的估计,并且确定用于将初始输出表示映射到主导音频分量的一 系列主导音频分量加权因子;(c)确定主导音频分量方向或位置的估 计;并且(d)将初始输出表示、主导音频分量加权因子、主导音频 分量方向或位置编码为用于回放的编码信号。提供用于将初始输出表 示映射到主导音频分量的一系列主导音频分量加权因子可以使得能够 利用主导音频分量加权因子和初始输出表示来确定主导分量的估计。
在一些实施例中,该方法进一步包括确定残留混音的估计,残留 混音是初始输出表示减去主导音频分量或其估计的渲染。该方法还可 以包括:生成基于声道或基于对象的输入音频的消声双耳混音,并且 确定残留混音的估计,其中,残留混音的估计可以是消声双耳混音减 去主导音频分量或其估计的渲染。此外,该方法可以包括确定用于将 初始输出表示映射到残留混音的估计的一系列残留矩阵系数。
初始输出表示可以包括耳机或扩音器表示。基于声道或基于对象 的输入音频可以按时间和频率分片,并且可以对一系列时间步和一系 列频带重复编码步骤。初始输出表示可以包括立体声扬声器混音。
根据本发明的另外的方面,提供了一种对编码的音频信号进行解 码的方法,编码的音频信号包括:第一(例如,初始)输出表示(例 如,第一/初始输出表示)、主导音频分量方向和主导音频分量加权因 子;该方法包括以下步骤:(a)利用主导音频分量加权因子和初始输 出表示来确定估计的主导分量;(b)通过根据主导音频分量方向在 相对于预期收听者的空间地点处进行双耳化来渲染估计的主导分量以 形成渲染的双耳化的估计的主导分量;(c)从第一(例如,初始)输 出表示重构残留分量估计;并且(d)组合渲染的双耳化的估计的主 导分量和残留分量估计以形成输出的空间化的音频编码信号。
编码的音频信号进一步可以包括表示残留音频信号的一系列残留 矩阵系数,并且步骤(c)进一步可以包括:(c1)将残留矩阵系数应 用于第一(例如,初始)输出表示以重构残留分量估计。
在一些实施例中,可以通过从第一(例如,初始)输出表示减去 渲染的双耳化的估计的主导分量来重构残留分量估计。步骤(b)可 以包括根据指示预期收听者的头部方位的输入头部跟踪信号来进行估 计的主导分量的初始旋转。
根据本发明的进一步的方面,提供了一种用于针对使用耳机的收 听者解码和再现音频流的方法,该方法包括:(a)接收包含第一音频 表示和附加音频变换数据的数据流;(b)接收表示收听者的方位的 头部方位数据;(c)基于第一音频表示和接收的变换数据来创建一个 或多个辅助信号;(d)创建第二音频表示,第二音频表示包含第一 音频表示和(一个或多个)辅助信号的组合,在第二音频表示中,(一 个或多个)辅助信号中的一个或多个已经响应于头部方位数据而被修 改;并且(e)将第二音频表示作为输出音频流输出。
在一些实施例中,可以进一步包括辅助信号的修改包含从声源位 置到收听者的耳朵的声学路径的模拟。变换数据可以包含矩阵化系数 和以下中的至少一个:声源位置或声源方向。变换处理可以根据时间 或频率而应用。辅助信号可以表示至少一个主导分量。声源位置或方 向可以作为变换数据的一部分被接收,并且可以响应于头部方位数据 而被旋转。在一些实施例中,最大旋转量限于在方位角或仰角上小于 360度的值。可以通过在变换域或滤波器组域中进行矩阵化来从第一 表示获得第二表示。变换数据进一步可以包括附加矩阵化系数,并且 步骤(d)进一步可以包括在组合第一音频表示和(一个或多个)辅助音频信号之前响应于附加矩阵化系数对第一音频表示进行修改。
附图说明
现在将仅以举例的方式来参照附图描述本发明的实施例,在附图 中:
图1示意性地示出用于矩阵编码的内容的耳机解码器;
图2示意性地示出根据实施例的编码器;
图3是解码器的示意性框图;
图4是编码器的详细可视化;以及
图5更详细地示出解码器的一种形式。
具体实施方式
实施例提供了一种表示基于对象的或基于声道的音频内容的系统 和方法,该系统和方法(1)与立体声回放兼容,(2)使得可以进行 包括头部跟踪的双耳回放,(3)具有低解码器复杂度,并且(4)不 依赖于矩阵编码,但仍与矩阵编码兼容。
这通过组合一个或多个主导分量(或主导对象或它们的组合)的 编码器端分析来实现,一个或多个主导分量(或主导对象或它们的组 合)包括与附加参数组合的、从下混预测这些主导分量的权重,权重 最小化仅基于引导分量或主导分量的双耳渲染和整个内容的期望的双 耳表示之间的误差。
在实施例中,主导分量(或多个主导分量)的分析是在编码器中、 而不是在解码器/渲染器中提供的。音频流然后补充有指示主导分量的 方向的元数据和关于可以如何从相关联的下混信号获得(一个或多个) 主导分量的信息。
图2示出优选实施例的编码器20的一种形式。基于对象的或基于 声道的内容21被进行分析23以确定(一个或多个)主导分量。该分 析可以根据时间和频率而发生(假定音频内容被分解为时间片和频率 子片)。该处理的结果是一个主导分量信号26(或多个主导分量信号) 以及相关联的(一个或多个)位置或(一个或多个)方向信息25。随 后,权重被估计24并且被输出27以使得可以从发送的下混重构(一 个或多个)主导分量信号。该下混生成器22不一定必须遵守LtRt下 混规则,而可以是使用非负实值下混系数的标准ITU(LoRo)下混。 最后,输出的下混信号29、权重27和位置数据25被音频编码器28 打包,并且准备好分发。
现在转到图3,示出了优选实施例的对应的解码器30。音频解码 器重构下混信号。该信号被输入31,并且被音频解码器32拆包 (unpack)为下混信号、主导分量的方向和权重。随后,使用主导分 量估计权重来重构(34)(一个或多个)引导分量,这些引导分量通 过使用发送的位置或方向数据被渲染36。位置数据可以根据头部旋转 或平移信息38被可选地修改33。另外,可以从下混减去(35)(一 个或多个)重构的主导分量。可选地,在下混路径内存在(一个或多 个)主导分量的减法,但是可替代地,如下所述,该减法也可以在编 码器处发生。
为了改进减法器35中的重构的主导分量的移除或取消,可以在减 法之前首先使用发送的位置或方向数据来渲染主导分量输出。图3中 示出了这个可选的渲染级39。
现在返回到一开始更详细地描述编码器,图4示出了用于对基于 对象的(例如,Dolby Atmos)音频内容进行处理的编码器40的一种 形式。音频对象最初是作为Atmos对象41存储的,并且首先通过使 用混合复值正交镜像滤波器(HCQMF)组42被划分为时间片和频率 片。当我们省略对应的时间索引和频率索引时,输入对象信号可以用 xi[n]表示;当前帧内的对应位置由单位矢量
Figure RE-GDA0002734662170000013
给出,索引i是指对象编 号,索引n是指时间(例如,子带采样索引)。输入对象信号xi[n]是 基于声道或基于对象的输入音频的例子。
使用复值标量Hl,i、Hr,i(例如,单抽头HRTF 48)来创建43消声 子带双耳混音Y(yl,yr),复值标量Hl,i、Hr,i表示对应于位置
Figure RE-GDA0002734662170000014
的HRIR的 子带表示:
Figure RE-GDA0002734662170000011
Figure RE-GDA0002734662170000012
可替代地,可以通过使用头部相关脉冲响应(HRIR)来创建双 耳混音Y(yl,yr)。另外,使用振幅平移增益系数gl,i、gr,i来创建44立体声 下混zl、zr(示例性地实现初始输出表示):
Figure BDA0001702208270000091
Figure BDA0001702208270000092
可以通过以下方式来估计主导分量
Figure BDA0001702208270000093
的方向矢量(示例性地实现 主导音频分量方向或位置):通过首先计算用于每个对象的单位方向 矢量的加权和来计算主导分量45:
Figure BDA0001702208270000094
其中,
Figure BDA0001702208270000095
是信号xi[n]的能量:
Figure BDA0001702208270000096
其中,(.)*是复共轭算子。
主导/引导信号d[n](示例性地实现主导音频分量)随后用以下方 程给出:
Figure BDA0001702208270000097
其中,
Figure BDA0001702208270000098
是产生随着单位矢量
Figure BDA0001702208270000099
之间的距离增大而减小的 增益的函数。例如,为了基于更高阶的球谐函数来创建具有方向性图 案的虚拟麦克风,一种实现将对应于:
Figure BDA00017022082700000910
其中,
Figure BDA00017022082700000911
表示二维或三维坐标系中的单位方向矢量,(.)表示两个矢量的 点积算子,a、b、c表示示例性参数(例如,a=b=0.5;c=1)。
计算46权重或预测系数wl,d、wr,d,并且使用这些权重或预测系数 w1,d、wr,d来计算47估计的引导信号
Figure BDA00017022082700000912
Figure BDA0001702208270000101
其中,权重wl,d、wr,d最小化在下混信号zl、zr给定的情况下d[n]和
Figure BDA0001702208270000102
之 间的均方误差。权重wl,d、wr,d是用于将初始输出表示(例如,zl、zr) 映射到主导音频分量(例如,
Figure BDA0001702208270000103
)的主导音频分量加权因子的例子。 导出这些权重的已知方法是通过应用最小均方误差(MMSE)预测器:
Figure BDA0001702208270000104
其中,Rab是用于信号a和信号b的信号之间的协方差矩阵,∈是正则化 参数。
我们随后可以从消声双耳混音yl、yr减去49主导分量信号
Figure BDA0001702208270000105
的渲 染的估计以便使用与主导分量信号
Figure BDA0001702208270000106
的方向/位置
Figure BDA0001702208270000107
相关联的HRTF (HRIR)Hl,D、Hr,D50来创建残留双耳混音
Figure BDA0001702208270000108
Figure BDA0001702208270000109
Figure BDA00017022082700001010
最后,估计51另一组预测系数或权重wi,j,这些预测系数或权重wi,j使得可以使用最小均方误差估计来从立体声混音zl、zr重构残留双耳混 音
Figure BDA00017022082700001011
Figure BDA00017022082700001012
其中,Rab是用于表示a和表示b的信号之间的协方差矩阵,∈是正则化 参数。预测系数或权重wi,j是用于将初始输出表示(例如,zl、zr)映射 到残留双耳混音
Figure BDA00017022082700001013
的估计的残留矩阵系数的例子。可以对以上表达 式施加附加水平约束来克服任何预测损失。编码器输出以下信息:
立体声混音zl、zr(示例性地实现初始输出表示);
估计主导分量的系数wl,d、wr,d(示例性地实现主导音频分量加权 因子);
主导分量的位置或方向
Figure BDA0001702208270000111
以及可选地,残留权重wi,j(示例性地实现残留矩阵系数)。
尽管以上描述涉及基于单个主导分量的渲染,但是在一些实施例 中,编码器可以适于检测多个主导分量、对所述多个主导分量中的每 个确定权重和方向、渲染所述多个主导分量中的每个并且从消声双耳 混音Y减去所述多个主导分量中的每个、然后确定所述多个主导分量 中的每个已经被从消声双耳混音Y减去之后的残留权重。
解码器/渲染器
图5更详细地示出解码器/渲染器60的一种形式。解码器/渲染器 60应用旨在从未拆包的输入信息zl、zr;wl,d、wr,d
Figure BDA0001702208270000112
wi,j重构双耳混 音yl、yr以用于输出到收听者71的处理。这里,立体声混音zl、zr是第 一音频表示的例子,预测系数或权重wi,j和/或主导分量信号
Figure BDA0001702208270000113
的方向/位 置
Figure BDA0001702208270000114
是附加音频变换数据的例子。
首先,使用合适的滤波器组或变换61(比如HCQMF分析组61) 来将立体声下混划分为时间/频率片。其他变换(比如离散傅立叶变换、 (修正的)余弦或正弦变换、时域滤波器组或小波变换)也可以等同 地被应用。随后,使用预测系数权重wl,d、wr,d来计算63估计的主导分 量信号
Figure BDA0001702208270000115
Figure BDA0001702208270000116
估计的主导分量信号
Figure BDA0001702208270000117
足辅助信号的例子。因此,该步骤可以被说成 是对应于基于所述第一音频表示和接收的变换数据创建一个或多个辅 助信号。
该主导分量信号随后被渲染65并且基于发送的位置/方向数据
Figure BDA0001702208270000118
用HRTF 69被修改68,该发送的位置/方向数据
Figure BDA0001702208270000121
可能基于从头部跟 踪器62获得的信息进行了修改(旋转)。最后,总消声双耳输出包含 与基于预测系数权重wi,j的重构的残差
Figure BDA0001702208270000122
求和66的主导分量信号:
Figure BDA0001702208270000123
Figure BDA0001702208270000124
总消声双耳输出是第二音频表示的例子。因此,该步骤可以被说成是 对应于创建第二音频表示,第二音频表示包含所述第一音频表示和所 述(一个或多个)辅助信号的组合,在第二音频表示中,所述(一个 或多个)辅助信号中的一个或多个已经被响应于所述头部方位数据而 被修改。
应进一步注意到,如果关于多于一个的主导信号的信息被接收到, 则可以渲染每个主导信号并且将该主导信号添加到重构的残留信号。
只要头部旋转或平移没有被应用,输出信号
Figure BDA0001702208270000125
就应该非常接近 于(就均方根误差而言)参考双耳信号yl、yr,只要
Figure BDA0001702208270000126
关键性质
正如从以上方程公式化可以观察到的,从立体声表示构造消声双 耳表示的有效操作包含2x2矩阵70,在该矩阵中,矩阵系数依赖于发 送的信息wl,d、wr,d
Figure BDA0001702208270000127
wi,j以及头部跟踪器旋转和/或平移。这表明处 理的复杂度相对低,因为主导分量的分析是在编码器中而不是在解码 器中应用的。
如果不估计主导分量(例如,wl,d、wr,d=0),则所描述的解决方 案等同于参数化双耳方法。
在期望从头部旋转/头部跟踪排除某些对象的情况下,这些对象可 以从(1)主导分量方向分析和(2)主导分量信号预测排除。结果, 这些对象将通过系数wi,j从立体声转换到双耳,因此不受任何头部旋转 或平移的影响。
在类似的思路中,对象可以被设置为“通过”模式,该模式意味 着在双耳表示中,将对它们进行振幅平移,而不是HRIR卷积。这可 以通过简单地对系数Hv1使用振幅平移增益而不是单抽头HRTF、或者 使用任何其他合适的双耳处理来获得。
扩展
实施例不限于立体声下混的使用,因为其他声道计数也可以被采 用。
参照图5描述的解码器60具有输出信号,该输出信号包含渲染的 主导分量方向、加上用矩阵系数wi,j矩阵化的输入信号。后面的系数可 以以各种方式导出,例如:
1.可以在编码器中借助于信号
Figure BDA0001702208270000131
的参数化重构来确定系数wi,j。 换句话说,在该实现中,系数wi,j旨在忠实地重构双耳信号yl、yr,这些 双耳信号将会是在双耳地渲染原始输入对象/声道时已经获得的;换句 话说,系数wi,j是内容驱动的。
2.可以将系数wi,j从编码器发送到解码器以表示用于固定的空间 位置(例如,方位角为+/-45度处的空间位置)的HRTF。换句话说, 对残留信号进行处理以模拟某些地点处两个虚拟扩音器上的再现。当 表示HRTF的这些系数被从编码器发送到解码器时,虚拟扬声器的地 点可能会随着时间和频率而改变。如果是通过使用静态虚拟扬声器来 采用该方法表示残留信号,则系数wi,j无需从编码器发送到解码器,并 且可以改为被硬连线在解码器中。该方法的变型将包含解码器中可用 的有限的一组静态位置与它们的对应的系数wi,j,并且哪个静态位置用 于对残留信号进行处理的选择从编码器向解码器标示。
信号
Figure BDA0001702208270000132
可以经过所谓的上混器,从而借助于在解码器处对这些 信号进行统计分析、接着对所得上混的信号进行双耳渲染来重构多于 2个的信号。
所描述的方法也可以应用于发送的信号Z是双耳信号的系统中。 在这种特定情况下,图5的解码器60保持原样,而图4中被标记为“生 成立体声(LoRo)混音”的方框44应该被与产生信号对Y的方框相 同的“生成消声双耳混音”43(图4)取代。另外,可以根据要求生成其他形式的混音。
该方法可以扩展到从发送的包含特定的对象或声道子集的立体声 混音重构一个或多个FDN输入信号的方法。
该方法可以扩展到从发送的立体声混音预测多个主导分量并且在 解码器端渲染这些主导分量。基本上不限制对于每个时间/频率片仅预 测一个主导分量。具体地说,主导分量的数量在每个时间/频率片中可 以是不同的。
解释
整个说明书中所称“一个实施例”、“一些实施例”或“实施例” 意味着与实施例结合描述的特定的特征、结构或特性被包括在本发明 的至少一个实施例中。因此,短语“在一个实施例中”、“在一些实 施例中”或“在实施例中”在整个说明书中各个地方的出现不一定全 都指的是同一个实施例,但是可以指同一个实施例。此外,在一个或 多个实施例中,特定的特征、结构或特性可以以本领域的普通技术人 员从本公开将清楚的任何合适的方式组合。
如本文所使用的,除非另有指定,否则序数形容词“第一”、“第 二”、“第三”等描述共同对象的使用仅指示相似对象的不同实例正 被提到,而非意图暗示如此描述的对象必须按时间上、空间上、排名 上的给定顺序或任何其他方式的给定顺序。
在所附权利要求书和本文的描述中,术语“包括”、“其包括” 或“它包括”中的任何一个是意指至少包括后面的元件/特征、但不排 除其他元件/特征的开放性术语。因此,术语“包括”在被用于权利要 求中时不应被解释为是限制其后列出的手段或元件或步骤。例如,表 达“包括A和B的设备”的范围不应限于仅由元件A和B组成的设 备。如本文所使用的术语“包含”或“其包含”或“它包含”中的任何 一个也是也意指至少包括该术语后面的元件/特征、但不排除其他元件 /特征的开放性术语。因此,包括与包含是同义的,并且意指包含。
如本文所使用的,术语“示例性”是以提供例子的意义使用的, 与指示质量相反。也就是说,“示例性实施例”是作为例子提供的实 施例,与一定是示例性质量的实施例相反。
应该意识到,在上面对本发明的示例性实施例的描述中,为了使 本公开精简并且帮助理解各种发明方面中的一个或多个的目的,本发 明的各种特征在单个实施例、附图或其描述中有时被分组在一起。然 而,本公开的方法不应被解释为反映要求保护的发明需要比每个权利 要求中明确记载的特征多的特征的意图。相反,如所附权利要求所反 映的,发明方面在于比单个前述公开实施例的所有特征少的特征。因 此,具体实施方式所附的权利要求特此被明确地并入到该具体实施方 式中,每个权利要求独自作为本发明的单独的实施例。
此外,虽然本文所描述的一些实施例包括一些、但不是其他的包 括在其他实施例中的特征,但是不同实施例的特征的组合意在于本发 明的范围内,并且形成如本领域技术人员将理解的不同实施例。例如, 在所附权利要求中,要求保护的实施例中的任何一个可以被按任何组 合使用。
此外,实施例中的一些在本文中被描述为可以由计算机系统的处 理器、或由实施功能的其他手段实现的方法或方法的元素组合。因此, 具有用于实施这样的方法或方法的元素所需要的指令的处理器形成用 于实施该方法或该方法的元素的手段。此外,装置实施例的本文所描 述的元素是用于实施由用于实施本发明的目的的元素执行的功能的手 段的例子。
在本文提供的描述中,阐述了许多特定细节。然而,理解的是, 可以在没有这些特定细节的情况下实施本发明的实施例。在其他情况 下,为了不模糊该描述的理解,没有对众所周知的方法、结构和技术 进行详细展示。
类似地,要注意的是,术语“耦合的”在被用在权利要求中时不 应被解释为仅限于直接连接。术语“耦合的”和“连接的”、连同它 们的派生词可以被使用。应理解,这些术语并非意图是彼此的同义词。 因此,表达“耦合到设备B的设备A”的范围不应限于其中设备A的输出直接连接到设备B的输入的设备或系统。它意味着,在A的输出 和B的输入之间存在路径,该路径可以是包括其他设备或手段的路径。 “耦合的”可以意味着两个或更多个元件为直接的物理或电接触,或 者两个或更多个元件不彼此直接接触,但是仍彼此合作或交互。
因此,虽然已经描述了本发明的实施例,但是本领域技术人员将 认识到,在不脱离本发明的精神的情况下,可以对本发明做出其他的 和进一步的修改,并且意图要求保护落在本发明的范围内的所有这样 的改变和修改。例如,上面给出的任何公式仅表示可以使用的过程。 可以添加功能性,或者从框图删除功能性,并且可以在功能块之间交 换操作。对于在本发明的范围内描述的方法,可以添加或删除步骤。
本发明的各方面可以从以下枚举的示例实施例(EEES)领会:
EEE 1.一种对基于声道或基于对象的输入音频进行编码以用于 回放的方法,该方法包括以下步骤:
(a)首先将基于声道或基于对象的输入音频渲染为初始输出表 示;
(b)从基于声道或基于对象的输入音频确定主导音频分量的估 计,并且确定用于将初始输出表示映射到主导音频分量的一系列主导 音频分量加权因子;
(c)确定主导音频分量方向或位置的估计;并且
(d)将初始输出表示、主导音频分量加权因子、主导音频分量 方向或位置编码为用于回放的编码信号。
EEE 2.根据EEE 1所述的方法,进一步包括确定残留混音的估 计,残留混音是初始输出表示减去主导音频分量或该主导音频分量的 估计的渲染。
EEE 3.根据EEE 1所述的方法,进一步包括:生成基于声道或 基于对象的输入音频的消声双耳混音,并且确定残留混音的估计,其 中,残留混音的估计是消声双耳混音减去主导音频分量或该主导音频 分量的估计的渲染。
EEE 4.根据EEE 2或3所述的方法,进一步包括确定用于将初 始输出表示映射到残留混音的估计的一系列残留矩阵系数。
EEE 5.根据前述任一个EEE所述的方法,其中,初始输出表示 包括耳机或扩音器表示。
EEE 6.根据前述任一个EEE所述的方法,其中,基于声道或基 于对象的输入音频按时间和频率分片,并且对一系列时间步和一系列 频带重复所述编码步骤。
EEE 7.根据前述任一个EEE所述的方法,其中,初始输出表示 包括立体声扬声器混音。
EEE 8.一种对编码的音频信号进行解码的方法,编码的音频信号 包括:
-第一输出表示;
-主导音频分量方向和主导音频分量加权因子;
该方法包括以下步骤:
(a)利用主导音频分量加权因子和初始输出表示来确定估计的主 导分量;
(b)通过根据主导音频分量方向在相对于预期收听者的空间地 点处进行双耳化来渲染估计的主导分量以形成渲染的双耳化的估计的 主导分量;
(c)从第一输出表示重构残留分量估计;并且
(d)组合渲染的双耳化的估计的主导分量和残留分量估计以形 成输出的空间化的音频编码信号。
EEE 9.根据EEE 8所述的方法,其中,编码的音频信号进一步 包括表示残留音频信号的一系列残留矩阵系数,并且所述步骤(c)进 一步包括:
(c1)将残留矩阵系数应用于第一输出表示以重构残留分量估计。
EEE 10.根据EEE 8所述的方法,其中,通过从第一输出表示减 去渲染的双耳化的估计的主导分量来重构残留分量估计。
EEE 11.根据EEE 8所述的方法,其中,所述步骤(b)包括根 据指示预期收听者的头部方位的输入头部跟踪信号来进行估计的主导 分量的初始旋转。
EEE 12.一种用于针对使用耳机的收听者解码和再现音频流的方 法,该方法包括:
(a)接收包含第一音频表示和附加音频变换数据的数据流;
(b)接收表示收听者的方位的头部方位数据;
(c)基于所述第一音频表示和接收的变换数据来创建一个或多个 辅助信号;
(d)创建第二音频表示,第二音频表示包含所述第一音频表示 和(一个或多个)辅助信号的组合,在第二音频表示中,(一个或多 个)辅助信号中的一个或多个已经响应于所述头部方位数据而被修改; 并且
(e)将第二音频表示作为输出音频流输出。
EEE 13.根据EEE 12所述的方法,其中,辅助信号的修改包含 从声源位置到收听者的耳朵的声学路径的模拟。
EEE 14.根据EEE 12或13所述的方法,其中,所述变换数据包 含矩阵化系数和以下中的至少一个:声源位置或声源方向。
EEE 15.根据EEE 12至14中任一个所述的方法,其中,变换处 理是根据时间或频率应用的。
EEE 16.根据EEE 12至15中任一个所述的方法,其中,辅助信 号表示至少一个主导分量。
EEE 17.根据EEE 12至16中任一个所述的方法,其中,响应于 头部方位数据使作为变换数据的一部分接收的声源位置或方向旋转。
EEE 18.根据EEE 17所述的方法,其中,最大旋转量限于在方 位角或仰角上小于360度的值。
EEE 19.根据EEE 12至18中任一个所述的方法,其中,通过在 变换域或滤波器组域中进行矩阵化来从第一表示获得第二表示。
EEE 20.根据EEE 12至19中任一个所述的方法,其中,变换数 据进一步包括附加矩阵化系数,并且步骤(d)进一步包括在组合第 一音频表示和(一个或多个)辅助音频信号之前响应于附加矩阵化系 数对第一音频表示进行修改。
EEE 21.一种装置,该装置包括被配置为执行根据EEE 1至20 中任一个所述的方法的一个或多个设备。
EEE 22.一种包括指令程序的计算机可读存储介质,该指令程序 当被一个或多个处理器执行时使一个或多个设备执行根据EEE 1至 20中任一个所述的方法。

Claims (18)

1.一种对基于声道或基于对象的输入音频进行编码以用于回放的方法,该方法包括以下步骤:
(a)首先将基于声道或基于对象的输入音频渲染为初始输出表示;
(b)从基于声道或基于对象的输入音频确定主导音频分量的估计,并且确定用于将初始输出表示映射到主导音频分量的一系列主导音频分量加权因子,以便使得能够利用主导音频分量加权因子和初始输出表示来确定主导分量的估计;
(c)确定主导音频分量方向或位置的估计;并且
(d)将初始输出表示、主导音频分量加权因子、主导音频分量方向或位置编码为用于回放的编码信号,
其中,所述初始输出表示包括立体声混音。
2.根据权利要求1所述的方法,进一步包括确定残留混音的估计,该残留混音是初始输出表示减去对主导音频分量或该主导音频分量的估计的渲染。
3.根据权利要求1所述的方法,进一步包括:生成基于声道或基于对象的输入音频的消声双耳混音,并且确定残留混音的估计,其中,残留混音的估计是消声双耳混音减去对主导音频分量或该主导音频分量的估计的渲染。
4.根据权利要求2所述的方法,进一步包括确定用于将初始输出表示映射到残留混音的估计的一系列残留矩阵系数。
5.根据权利要求3所述的方法,进一步包括确定用于将初始输出表示映射到残留混音的估计的一系列残留矩阵系数。
6.根据权利要求1-5中任一项所述的方法,其中,所述初始输出表示包括耳机或扩音器表示。
7.根据权利要求1-5中任一项所述的方法,其中,所述基于声道或基于对象的输入音频被按时间和频率分片,并且对一系列时间步和一系列频带重复所述编码步骤。
8.一种对编码的音频信号进行解码的方法,该编码的音频信号包括:
-初始输出表示,其中所述初始输出表示包括立体声混音;
-主导音频分量方向和主导音频分量加权因子;
该方法包括以下步骤:
(a)利用主导音频分量加权因子和初始输出表示来确定估计的主导分量;
(b)通过根据主导音频分量方向在相对于预期收听者的空间地点处进行双耳化来渲染估计的主导分量以形成渲染的双耳化的估计的主导分量;
(c)从初始输出表示重构残留分量估计;并且
(d)组合渲染的双耳化的估计的主导分量和残留分量估计以形成输出的空间化的音频编码信号。
9.根据权利要求8所述的方法,其中,所述编码的音频信号进一步包括表示残留音频信号的一系列残留矩阵系数,并且所述步骤(c)进一步包括:
(c1)将所述残留矩阵系数应用于初始输出表示以重构残留分量估计。
10.根据权利要求8所述的方法,其中,通过从初始输出表示减去渲染的双耳化的估计的主导分量来重构残留分量估计。
11.根据权利要求8至10中任一项所述的方法,其中,所述步骤(b)包括根据指示预期收听者的头部方位的输入头部跟踪信号来进行对估计的主导分量的初始旋转。
12.一种用于对基于声道或基于对象的输入音频进行编码以用于回放的装置,所述装置包括被配置为执行根据权利要求1至7中任一项所述的方法的一个或多个设备。
13.一种用于对编码的音频信号进行解码的装置,所述装置包括被配置为执行根据权利要求8至11中任一项所述的方法的一个或多个设备。
14.一种存储指令程序的计算机可读存储介质,所述指令程序当被一个或多个处理器执行时使一个或多个处理器执行根据权利要求1至11中任一项所述的方法。
15.一种用于对基于声道或基于对象的输入音频进行编码以用于回放的装置,包括用于执行根据权利要求1至7中任一项所述的方法的部件。
16.一种用于对编码的音频信号进行解码的装置,所述装置包括用于执行根据权利要求8至11中任一项所述的方法的部件。
17.一种用于对基于声道或基于对象的输入音频进行编码以用于回放的设备,包括:
一个或多个处理器,以及
存储指令程序的计算机可读存储介质,所述指令程序当被一个或多个处理器执行时使得该设备执行根据权利要求1至7中任一项所述的方法。
18.一种用于对编码的音频信号进行解码的设备,包括:
一个或多个处理器,以及
存储指令程序的计算机可读存储介质,所述指令程序当被一个或多个处理器执行时使得该设备执行根据权利要求8至11中任一项所述的方法。
CN201680075037.8A 2015-11-17 2016-11-17 用于参数化双耳输出系统和方法的头部跟踪 Active CN108476366B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110229741.7A CN113038354A (zh) 2015-11-17 2016-11-17 用于参数化双耳输出系统和方法的头部跟踪

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201562256462P 2015-11-17 2015-11-17
US62/256,462 2015-11-17
EP15199854.9 2015-12-14
EP15199854 2015-12-14
PCT/US2016/062497 WO2017087650A1 (en) 2015-11-17 2016-11-17 Headtracking for parametric binaural output system and method

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202110229741.7A Division CN113038354A (zh) 2015-11-17 2016-11-17 用于参数化双耳输出系统和方法的头部跟踪

Publications (2)

Publication Number Publication Date
CN108476366A CN108476366A (zh) 2018-08-31
CN108476366B true CN108476366B (zh) 2021-03-26

Family

ID=55027285

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202110229741.7A Pending CN113038354A (zh) 2015-11-17 2016-11-17 用于参数化双耳输出系统和方法的头部跟踪
CN201680075037.8A Active CN108476366B (zh) 2015-11-17 2016-11-17 用于参数化双耳输出系统和方法的头部跟踪

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202110229741.7A Pending CN113038354A (zh) 2015-11-17 2016-11-17 用于参数化双耳输出系统和方法的头部跟踪

Country Status (15)

Country Link
US (2) US10362431B2 (zh)
EP (3) EP4236375A3 (zh)
JP (1) JP6740347B2 (zh)
KR (2) KR20230145232A (zh)
CN (2) CN113038354A (zh)
AU (2) AU2016355673B2 (zh)
BR (2) BR112018010073B1 (zh)
CA (2) CA3005113C (zh)
CL (1) CL2018001287A1 (zh)
ES (1) ES2950001T3 (zh)
IL (1) IL259348B (zh)
MY (1) MY188581A (zh)
SG (1) SG11201803909TA (zh)
UA (1) UA125582C2 (zh)
WO (1) WO2017087650A1 (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2016311335B2 (en) 2015-08-25 2021-02-18 Dolby International Ab Audio encoding and decoding using presentation transform parameters
WO2018152004A1 (en) * 2017-02-15 2018-08-23 Pcms Holdings, Inc. Contextual filtering for immersive audio
US11128977B2 (en) * 2017-09-29 2021-09-21 Apple Inc. Spatial audio downmixing
TWI703557B (zh) * 2017-10-18 2020-09-01 宏達國際電子股份有限公司 聲音播放裝置、方法及非暫態儲存媒體
EP3704875B1 (en) 2017-10-30 2023-05-31 Dolby Laboratories Licensing Corporation Virtual rendering of object based audio over an arbitrary set of loudspeakers
US11032662B2 (en) 2018-05-30 2021-06-08 Qualcomm Incorporated Adjusting audio characteristics for augmented reality
TWI683582B (zh) * 2018-09-06 2020-01-21 宏碁股份有限公司 增益動態調節之音效控制方法及音效輸出裝置
CN111615044B (zh) * 2019-02-25 2021-09-14 宏碁股份有限公司 声音信号的能量分布修正方法及其系统
EP3984249A1 (en) * 2019-06-12 2022-04-20 Google LLC Three-dimensional audio source spatialization
US11076257B1 (en) * 2019-06-14 2021-07-27 EmbodyVR, Inc. Converting ambisonic audio to binaural audio
WO2022046533A1 (en) * 2020-08-27 2022-03-03 Apple Inc. Stereo-based immersive coding (stic)
US11750745B2 (en) * 2020-11-18 2023-09-05 Kelly Properties, Llc Processing and distribution of audio signals in a multi-party conferencing environment
EP4292295A1 (en) 2021-02-11 2023-12-20 Nuance Communications, Inc. Multi-channel speech compression system and method
CN113035209B (zh) * 2021-02-25 2023-07-04 北京达佳互联信息技术有限公司 三维音频获取方法和三维音频获取装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1295778A (zh) * 1998-04-07 2001-05-16 雷·M·杜比 低位率空间编码方法和系统
CN101889307A (zh) * 2007-10-04 2010-11-17 创新科技有限公司 相位-幅度3d立体声编码器和解码器
WO2014191798A1 (en) * 2013-05-31 2014-12-04 Nokia Corporation An audio scene apparatus
CN104854655A (zh) * 2012-12-12 2015-08-19 汤姆逊许可公司 对声场的高阶立体混响表示进行压缩和解压缩的方法和设备

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AUPO316296A0 (en) * 1996-10-23 1996-11-14 Lake Dsp Pty Limited Dithered binaural system
JP4627880B2 (ja) 1997-09-16 2011-02-09 ドルビー ラボラトリーズ ライセンシング コーポレイション リスナーの周囲にある音源の空間的ひろがり感を増強するためのステレオヘッドホンデバイス内でのフィルタ効果の利用
JPH11220797A (ja) * 1998-02-03 1999-08-10 Sony Corp ヘッドホン装置
JP4088725B2 (ja) * 1998-03-30 2008-05-21 ソニー株式会社 オーディオ再生装置
US6839438B1 (en) 1999-08-31 2005-01-04 Creative Technology, Ltd Positional audio rendering
CN100358393C (zh) 1999-09-29 2007-12-26 1...有限公司 定向声音的方法和设备
US7660424B2 (en) 2001-02-07 2010-02-09 Dolby Laboratories Licensing Corporation Audio channel spatial translation
US7076204B2 (en) 2001-10-30 2006-07-11 Unwired Technology Llc Multiple channel wireless communication system
GB0419346D0 (en) * 2004-09-01 2004-09-29 Smyth Stephen M F Method and apparatus for improved headphone virtualisation
JP2006270649A (ja) 2005-03-24 2006-10-05 Ntt Docomo Inc 音声・音響信号処理装置およびその方法
ATE476732T1 (de) 2006-01-09 2010-08-15 Nokia Corp Steuerung der dekodierung binauraler audiosignale
WO2007112756A2 (en) 2006-04-04 2007-10-11 Aalborg Universitet System and method tracking the position of a listener and transmitting binaural audio data to the listener
US8379868B2 (en) 2006-05-17 2013-02-19 Creative Technology Ltd Spatial audio coding based on universal spatial cues
US7876903B2 (en) 2006-07-07 2011-01-25 Harris Corporation Method and apparatus for creating a multi-dimensional communication space for use in a binaural audio system
WO2008039038A1 (en) 2006-09-29 2008-04-03 Electronics And Telecommunications Research Institute Apparatus and method for coding and decoding multi-object audio signal with various channel
CA2874454C (en) 2006-10-16 2017-05-02 Dolby International Ab Enhanced coding and parameter representation of multichannel downmixed object coding
PL2137725T3 (pl) 2007-04-26 2014-06-30 Dolby Int Ab Urządzenie i sposób do syntetyzowania sygnału wyjściowego
KR101567461B1 (ko) 2009-11-16 2015-11-09 삼성전자주식회사 다채널 사운드 신호 생성 장치
US8587631B2 (en) 2010-06-29 2013-11-19 Alcatel Lucent Facilitating communications using a portable communication device and directed sound output
US8767968B2 (en) 2010-10-13 2014-07-01 Microsoft Corporation System and method for high-precision 3-dimensional audio for augmented reality
US9552840B2 (en) 2010-10-25 2017-01-24 Qualcomm Incorporated Three-dimensional sound capturing and reproducing with multi-microphones
EP2665208A1 (en) * 2012-05-14 2013-11-20 Thomson Licensing Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation
US9729993B2 (en) 2012-10-01 2017-08-08 Nokia Technologies Oy Apparatus and method for reproducing recorded audio with correct spatial directionality
EP3063955B1 (en) * 2013-10-31 2019-10-16 Dolby Laboratories Licensing Corporation Binaural rendering for headphones using metadata processing
US9794721B2 (en) * 2015-01-30 2017-10-17 Dts, Inc. System and method for capturing, encoding, distributing, and decoding immersive audio
AU2016311335B2 (en) 2015-08-25 2021-02-18 Dolby International Ab Audio encoding and decoding using presentation transform parameters

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1295778A (zh) * 1998-04-07 2001-05-16 雷·M·杜比 低位率空间编码方法和系统
CN101889307A (zh) * 2007-10-04 2010-11-17 创新科技有限公司 相位-幅度3d立体声编码器和解码器
CN104854655A (zh) * 2012-12-12 2015-08-19 汤姆逊许可公司 对声场的高阶立体混响表示进行压缩和解压缩的方法和设备
WO2014191798A1 (en) * 2013-05-31 2014-12-04 Nokia Corporation An audio scene apparatus

Also Published As

Publication number Publication date
US20180359596A1 (en) 2018-12-13
KR20180082461A (ko) 2018-07-18
CA3005113C (en) 2020-07-21
EP4236375A3 (en) 2023-10-11
EP3716653A1 (en) 2020-09-30
ES2950001T3 (es) 2023-10-04
EP3378239A1 (en) 2018-09-26
AU2016355673A1 (en) 2018-05-31
AU2020200448A1 (en) 2020-02-13
CN113038354A (zh) 2021-06-25
CA3005113A1 (en) 2017-05-26
BR122020025280B1 (pt) 2024-03-05
SG11201803909TA (en) 2018-06-28
AU2016355673B2 (en) 2019-10-24
MY188581A (en) 2021-12-22
EP3378239B1 (en) 2020-02-19
US10893375B2 (en) 2021-01-12
AU2020200448B2 (en) 2021-12-23
EP3716653B1 (en) 2023-06-07
JP2018537710A (ja) 2018-12-20
CL2018001287A1 (es) 2018-07-20
UA125582C2 (uk) 2022-04-27
BR112018010073B1 (pt) 2024-01-23
CA3080981A1 (en) 2017-05-26
CN108476366A (zh) 2018-08-31
CA3080981C (en) 2023-07-11
JP6740347B2 (ja) 2020-08-12
US20190342694A1 (en) 2019-11-07
KR102586089B1 (ko) 2023-10-10
EP4236375A2 (en) 2023-08-30
IL259348A (en) 2018-07-31
KR20230145232A (ko) 2023-10-17
IL259348B (en) 2020-05-31
BR112018010073A2 (pt) 2018-11-13
US10362431B2 (en) 2019-07-23
WO2017087650A1 (en) 2017-05-26

Similar Documents

Publication Publication Date Title
CN108476366B (zh) 用于参数化双耳输出系统和方法的头部跟踪
US8374365B2 (en) Spatial audio analysis and synthesis for binaural reproduction and format conversion
AU2021203143B2 (en) Audio encoding and decoding using presentation transform parameters
EP1927266A1 (en) Audio coding
JP6964703B2 (ja) パラメトリック・バイノーラル出力システムおよび方法のための頭部追跡
RU2818687C2 (ru) Система и способ слежения за движением головы для получения параметрического бинаурального выходного сигнала

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant