CN116982110A - 对音频下混信号的包络信息进行编码 - Google Patents
对音频下混信号的包络信息进行编码 Download PDFInfo
- Publication number
- CN116982110A CN116982110A CN202280021335.4A CN202280021335A CN116982110A CN 116982110 A CN116982110 A CN 116982110A CN 202280021335 A CN202280021335 A CN 202280021335A CN 116982110 A CN116982110 A CN 116982110A
- Authority
- CN
- China
- Prior art keywords
- energy level
- energy
- downmix signal
- bitstream
- encoded
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims abstract description 153
- 230000005236 sound signal Effects 0.000 claims abstract description 64
- 238000012937 correction Methods 0.000 claims description 66
- 238000002156 mixing Methods 0.000 claims description 64
- 239000011159 matrix material Substances 0.000 claims description 58
- 230000004044 response Effects 0.000 claims description 14
- 230000001052 transient effect Effects 0.000 claims description 13
- 230000008569 process Effects 0.000 description 55
- 238000004458 analytical method Methods 0.000 description 22
- 238000012545 processing Methods 0.000 description 18
- 238000010586 diagram Methods 0.000 description 9
- 230000003111 delayed effect Effects 0.000 description 4
- 238000003491 array Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000012856 packing Methods 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
提供了一种用于对包络信息进行编码的方法。在一些实施方式中,该方法涉及确定与下混声道相关联的第一下混信号,该第一下混信号与要被编码的音频信号相关联。在一些实施方式中,该方法涉及确定多个频带上第一下混信号的能量水平。在一些实施方式中,该方法涉及确定是否将指示能量水平的信息编码在比特流中。在一些实施方式中,该方法涉及对所确定的能量水平进行编码。在一些实施方式中,该方法涉及生成指示能量水平被编码的能量控制值。在一些实施方式中,该方法涉及生成比特流,其中,能量控制值和指示能量水平的信息可由解码器使用以调整与第一下混信号相关联的能量水平。
Description
相关申请的交叉引用
本申请要求以下优先申请的优先权:于2021年4月6日提交的美国临时申请63/171,210(参考号:D21029USP1)和于2022年3月1日提交的美国临时申请63/268,715(参考号:D21029USP2),该申请通过援引并入本文。
技术领域
本公开涉及用于对包络信息进行编码的系统、方法和介质。
背景技术
在各种场景下,音频内容可能会以相对较低的比特率进行编码,例如,以最小化带宽。在一些情况下,音频信号可以通过生成与下混声道相关联的下混信号来以相对较低的比特率进行编码,从而有效减少编码音频流中音频声道的数量。虽然从比特率的角度来看这样是高效的,但音频质量可能会受到影响。例如,虽然与音频信号的频带和/或时间窗口的包络相关联的能量信息在下混信号中进行了一定程度的编码,但低比特率编码可能会导致这种能量信息的编码相对不精确,从而会降低音频质量。因此,用于对包络信息进行编码的改进方法是期望的。
符号和术语
贯穿本公开,包括在权利要求书中,术语“扬声器(speaker)”、“扩音器(loudspeaker)”和“音频再现换能器”同义地被用于表示任何发声换能器或一组换能器。一套典型的耳机包括两个扬声器。扬声器可以被实施为包括多个换能器(比如低音扬声器(woofer)和高音扬声器(tweeter)),这些换能器可以由单个公共扬声器馈送或多个扬声器馈送驱动。在一些示例中,(多个)扬声器馈送可以在被耦接到不同换能器的不同电路分支中经历不同处理。
贯穿本公开,包括在权利要求中,在广义上使用“对”信号或数据执行操作的表达(比如对信号或数据进行滤波、缩放、变换或应用增益)来表示直接对信号或数据或对信号或数据的已处理版本执行操作。例如,可以在对其执行操作之前已经历了初步滤波或预处理的信号版本上执行操作。
贯穿本公开,包括在权利要求中,在广义上使用表达“系统”来表示设备、系统或子系统。例如,实施解码器的子系统可以被称为解码器系统,并且包括这样的子系统的系统(例如,响应于多个输入而生成X个输出信号的系统,其中,该子系统生成M个输入,而其他X-M个输入是从外部源接收的)也可以被称为解码器系统。
贯穿本公开,包括在权利要求中,在广义上使用术语“处理器”来表示可编程或以其他方式可配置(比如用软件或固件)为对数据执行操作的系统或设备,该数据可以包括音频或视频或其他图像数据。处理器的示例包括现场可编程门阵列(或其他可配置集成电路或芯片组)、被编程和/或以其他方式被配置成对音频或其他声音数据执行流水线式处理的数字信号处理器、可编程通用处理器或计算机、以及可编程微处理器芯片或芯片组。
发明内容
本公开的至少一些方面可以经由方法来实施。一些方法可以涉及确定与至少一个下混声道相关联的至少一个第一下混信号,该至少一个第一下混信号与要被编码的音频信号的第一帧相关联。一些方法可以涉及确定多个频带上至少一个第一下混信号的能量水平。一些方法可以涉及确定是否将指示能量水平的信息编码在比特流中。一些方法可以涉及响应于确定将指示能量水平的信息编码在比特流中,对所确定的能量水平进行编码。一些方法可以涉及生成指示能量水平被编码在比特流中的能量控制值。一些方法可以涉及生成比特流,比特流包括至少一个第一下混信号的编码版本、能量控制值、指示能量水平的信息、以及可由解码器使用以对第一下混信号进行上混的元数据,其中,能量控制值和指示能量水平的信息可由解码器使用以调整与至少一个第一下混信号相关联的能量水平。
在一些示例中,确定是否将指示能量水平的信息编码在比特流中是至少部分地基于对至少一个第一下混信号进行编码所需的比特数和对可用于对至少一个第一下混信号进行上混的元数据进行传输所需的比特数来确定的。
在一些示例中,确定是否将指示能量水平的信息编码在比特流中是至少部分地基于音频信号的第一帧是否包括瞬变(transient)来确定的。
在一些示例中,能量控制值指示能量水平被编码在比特流中的方式。在一些示例中,能量水平在比特流中被编码的方式包括时间差分编码或频率差分编码中的一种。在一些示例中,响应于确定在先帧包括瞬变,利用频率差分编码对能量水平进行编码。
在一些示例中,一些方法可以进一步涉及在确定针对多个频带的至少一个第一下混信号的能量水平之前应用延迟。在一些示例中,该延迟对应于与核心编码器和核心解码器相关联的延迟,该核心编码器生成至少一个第一下混信号的编码版本,该核心解码器重构该音频信号。
在一些示例中,至少一个第一下混信号的编码版本包括能量数据,该能量数据与比特流中包括的指示能量水平的信息至少部分地冗余。
在一些示例中,一些方法可以进一步涉及:确定是否对指示与音频信号的第二帧相对应的第二下混信号相关联的能量水平的信息进行编码;以及响应于确定不对指示与音频信号的第二帧相关联的能量水平的信息进行编码,生成与第二帧相关联的第二能量控制值,该第二能量控制值表示指示能量水平的信息未被包括在比特流中。在一些示例中,第二能量控制值指示解码器使用与先前帧相关联的能量校正增益来调整与第二帧相对应的第二下混信号相关联的能量水平。在一些示例中,第二能量控制值指示解码器不调整与第二帧相对应的第二下混信号相关联的能量水平。
在一些示例中,至少一个下混信号包括两个或更多个下混信号。
一些方法可以涉及从比特流中获得下混信号、用于对下混信号进行上混的元数据、以及指示能量水平是否被编码在比特流中的能量控制值。一些方法可以涉及基于元数据确定混合矩阵。一些方法可以涉及确定多个频带上下混信号的能量水平。一些方法可以涉及基于所确定的多个频带上的能量水平以及能量控制值,确定要被应用于混合矩阵的校正增益。一些方法可以涉及将校正增益应用于混合矩阵以生成经调整的混合矩阵。一些方法可以涉及使用经调整的混合矩阵对下混信号进行上混,以生成重构音频信号。
在一些示例中,能量控制值指示能量水平被编码在比特流中,并且其中,确定校正增益是基于被编码在比特流中的能量水平的。在一些示例中,能量控制值指示能量水平被编码在比特流中的方式。在一些示例中,能量水平被编码在比特流中的方式包括时间差分编码或频率差分编码中的一种。
在一些示例中,能量控制值指示能量水平未被编码在比特流中并且要使用与先前帧相关联的能量水平,并且其中,确定要被应用于混合矩阵的校正增益包括获得被应用于先前帧的校正增益。
在一些示例中,能量控制值指示能量水平未被编码在比特流中,并且其中,确定被应用于混合矩阵的校正增益包括将应用于先前帧的校正增益朝向统一增益渐变。
在一些示例中,一些方法可以进一步涉及使用适用于先前帧的参数和适用于该帧的参数的线性插值来生成要被应用于整个帧的混合矩阵。
在一些示例中,与比特流相关联的比特率小于约每秒40千比特(kbps)。
在一些示例中,一些方法可以进一步涉及使得经由扩音器或耳机来呈现重构音频信号的表示。
本文描述的一些或所有操作、功能和/或方法可以由一个或多个设备根据被存储在一个或多个非暂态介质上的指令(例如,软件)来执行。这样的非暂态介质可以包括如本文描述的存储器设备等存储器设备,包括但不限于随机存取存储器(RAM)设备、只读存储器(ROM)设备等。因此,本公开中描述的主题的一些创新方面可以经由具有存储在其上的软件的一个或多个非暂态介质来实施。
本公开的至少一些方面可以经由装置来实施。例如,一个或多个设备可以能够至少部分地执行本文公开的方法。在一些实施方式中,装置是或包括具有接口系统和控制系统的音频处理系统。控制系统可以包括一个或多个通用单芯片或多芯片处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑设备、离散门或晶体管逻辑、离散硬件部件或其组合。
在以下附图和说明中阐述了本说明书中所描述的主题的一个或多个实施方式的细节。从说明书、附图和权利要求中,其他特征、方面和优点将变得显而易见。注意,以下附图的相对尺寸可能不是按比例来绘制的。
附图说明
图1是根据一些实施例的用于对包络能量信息进行编码的系统的示意性框图。
图2是根据一些实施例的用于解码和利用包络能量信息的系统的示意性框图。
图3是根据一些实施例的可以由编码器执行以用于实施包络能量信息编码的示例过程的流程图。
图4是根据一些实施例的可以由解码器执行以用于实施包络能量信息解码和利用的示例过程的流程图。
图5是图示了根据一些实施例的在逐帧的基础上对包络能量信息进行编码时音频信号的不同比特率的图。
图6示出了图示能够实施本公开的各个方面的装置的部件的示例的框图。
在各个附图中,相似的附图标记和名称指示相似的元件。
具体实施方式
音频信号可以进行下混和编码,以例如降低所传输音频信号的比特率。在这种情况下,编码下混信号固有地包括包络能量信息,例如,该信息指示与不同的频带和时间窗口相关联的振幅。然而,特别是在低比特率和/或高频率的情况下,这种包络能量信息可能无法被准确编码并传递给解码器设备。在这种实例中,当解码器设备重构下混信号时,重构的音频信号可能无法准确表示包络能量,特别是在较高频率下。这可能会导致重构的音频信号在呈现时受到各种音频质量降级的问题,比如沉闷感、缺乏氛围感和/或声音或声级普遍较弱。
本文公开了用于校正能量水平的技术,这些技术使得重构的音频信号具有校正后的能量水平,从而更准确地表示与原始音频信号相关联的能量水平。特别地,本文所公开的技术涉及对与下混信号相关联的包络能量信息进行编码,并将这种包络能量信息包括在所传输的比特流中。换句话说,由于下混信号固有地包括包络能量信息,因此在一些情况下,比特流可能包括在比特流中单独且明确进行了编码的冗余包络能量信息。然后,解码器设备可以使用包络能量信息来确定在对下混信号进行上混时要应用的校正增益。例如,可以将校正增益确定成使得由解码器接收到的与下混信号相关联的能量水平与比特流中包括的冗余包络能量信息保持一致,从而校正解码器处的能量水平。例如,在解码器执行依赖于正确的时间和频率包络信息的参数空间上混程序的实例中,本文所公开的技术可能具有优势。此外,本文所述的技术在比如低于约每秒50千比特(kbps)、低于约40kbps、低于约32kbps等相对较低的比特率下也可能具有优势。应该注意的是,尽管本文所述的技术一般被描述为对与下混信号相关联的包络能量信息进行编码,但在一些实施方式中,本文所述的技术可以用于对多个下混信号(比如,两个、三个等下混信号)的包络能量信息进行编码。在一个示例中,可以对两个下混信号的包络能量信息进行编码,然后可以将这些信号用于重构例如5.1环绕声声道。
在一些实施方式中,针对音频信号的特定帧,对与音频信号相关联的包络能量水平进行选择性编码。换句话说,编码器可以确定是否将包络能量水平包括在比特流中。这种确定可以基于被分配用于对下混信号进行编码的比特数和/或可用于对下混信号进行上混的元数据。换句话说,编码器可以基于确定是否有足够的比特可用于对能量水平进行编码,来确定是否对包络能量水平进行编码。在一些实施方式中,确定是否对包络能量水平进行编码可以基于当前帧是否包括瞬变来进行。例如,结合包括瞬变的帧,可以不包括包络能量水平,从而防止解码器响应于瞬变而过度校正能量水平。在一些实施方式中,编码器可以确定包络能量水平要被传输的方式,例如,使用时间差分哈夫曼编码或频率差分哈夫曼编码进行传输。在一些实施例中,包络能量水平是否被编码在比特流中以及(如果包络能量水平被编码在比特流中)能量水平被编码的方式可以以被包括在所传输的比特流中的能量控制值来指示。然后,解码器可以使用能量控制值来确定比特流中是否包括能量水平以及(如果包括的话)如何使用能量水平。在一些实施方式中,通过选择性地传输包络能量信息,本文所描述的技术可以在特别是低比特率下提高音频质量,同时保留用于对下混信号和相关联元数据进行编码的比特。
应该注意的是,虽然用于对包络信息进行编码的技术通常是针对编码一阶多声道模拟立体声(FOA)和/或高阶多声道模拟立体声(HOA)信号而描述的,但用于对包络信息进行编码的技术也可以与对任何其他合适的基于声道的音频进行的编码一起结合使用。特别地,这些技术可以对于参数空间编码技术是有用的,其中,声道的子集作为下混声道进行传输,并且其中,整个一组声道可以基于下混声道进行重构。在一些情况下,用于对包络信息进行编码所需的比特率可能会随着下混声道的数量而缩放,而对下混能量进行准确编码的重要性则会随着解码器要重构的声道数量而缩放。除了编码FOA和HOA之外,可以利用的参数空间编解码器的示例包括MPEG参数立体声(HE-AACv2)、MPEG环绕声和AC-4高级耦合。
参考图1,在传统的编码技术中,一阶多声道模拟立体声(FOA)或高阶多声道模拟立体声(HOA)信号是使用滤波器组分析块102进行处理的。滤波器组分析块102可以使用例如快速傅立叶变换(FFT)等来执行频率分析。频率分析可以结合任何合适数量的频带来执行,例如,8个、12个、16个等。基于滤波器组分析块102生成的频率信息,由下混和空间编码器块104确定下混系数。另外,由下混和空间编码器块104可以生成元数据(有时也被称为“边信息”),其中,元数据可由解码器使用以重构音频信号,如下文更详细讨论的。在一些示例中,下混和空间编码器104可以利用空间重构(SPAR)技术。以下文献对SPAR进行了进一步描述:D.McGrath,S.Bruhn,H.Purnhagen,M.Eckert,J.Torres,S.Brown和D.Darcy,Immersive Audio Coding for Virtual Reality Using a Metadata-assistedExtension of the 3GPP EVS Codec[使用3GPP EVS编解码器的元数据辅助扩展实现虚拟现实的沉浸式音频编码],IEEE声学、语音和信号处理国际会议(ICASSP),2019年,第730-734页,该文献以其全文通过援引并入本文。在其他示例中,空间编码块204可以利用能量压缩变换的任何其他合适的线性预测编解码器,比如Karhunen-Loeve变换(KLT)等。原始FOA/HOA信号和下混系数两者均由滤波器组处理块106处理,该滤波器组处理块可以利用与滤波器组分析块102相同的频带。应该注意的是,虽然图1图示了滤波器组处理块106对FOA/HOA信号进行处理以构建本文通常所述的有源下混,但本文所述的用于对包络信息进行编码的技术也可以被应用于无源下混。如本文所使用的,无源下混是指这样的情况:下混系数不通过滤波器组(比如滤波器组处理块106)进行处理,而是可以通过选定的FOA/HOA输入声道进行处理。可以选择的FOA/HOA输入声道的示例是全向W声道。替代性地,在一些实施方式中,无源下混可以由选定输入声道的静态线性组合来生成。滤波器组处理块106的输出是与一个或多个下混声道相对应的一组(多个)下混信号。下混信号被提供给核心编码器108,该核心编码器对(多个)下混信号进行编码。在一些示例中,核心编码器108可以利用增强型语音服务(EVS)编解码器。其他的示例编解码器包括高级音频编码(AAC)、HE-AAC、Opus等。比特打包块110生成比特流,该比特流包括(多个)编码下混信号以及由下混和空间编码器104生成的元数据。编码下混信号可以被视为是波形编码的,而元数据可以被视为是参数编码的。
由于下混系数是使用滤波器组分析块102生成的,并且(多个)下混信号是使用下混系数和进一步的滤波器组处理(其利用频带与滤波器组分析块102使用的相同频带)生成的,因此编码下混信号固有地可以包括一些包络能量信息。然而,特别是在相对较低比特率的情况下,这种包络能量信息可能无法在所产生的比特流中进行精确编码。下混信号编码中固有的编码包络能量信息的不精确性可能会导致音频质量不佳,特别是在比特率相对较低的情况下。
本文公开了用于对包络能量信息进行编码的技术,特别地,以至少与下混信号相关联地进行固有编码的包络能量信息存在至少一定程度的冗余的方式。通过对至少部分冗余的包络能量信息进行编码,解码器设备可以能够利用包络能量信息在对音频信号进行上混之前校正增益,从而即使在低比特率条件下也能允许改善音频质量。此外,如下文将更详细描述的,可以在逐帧的基础上对包络编码信息进行选择性编码,其中,是否对特定帧的包络能量信息进行编码以及包络能量信息的编码方式可以基于各种标准来确定,比如帧中是否包括瞬变、用于对下混信号和/或空间元数据进行编码所需的比特数等。通过对包络能量信息进行选择性编码,包络能量信息可以与包络能量信息对其最有用的帧一起提供,同时保留用于对下混信号进行编码的比特率。换句话说,本文所述的技术允许以最佳的方式对低比特率信号进行编码,从而提高音频质量。
再次参考图1,分图111中示出了对上述用于对包络能量信息进行编码的传统系统的修改。特别地,下混信号可以通过延迟块112进行延迟。应用于下混信号的延迟可以对应于与核心编码器108和解码器设备的核心解码器(例如,核心解码器204,如图2所示并在下文结合该图所描述的)的总延迟相关联的延迟,使得由水平分析块114确定的包络能量信息的波形与由核心编码器108编码并从解码器设备的核心解码器输出的解码下混信号在时间上对齐。换句话说,经编码的水平数据与由解码器设备的核心解码器(例如,图2中的核心解码器204)解码的音频在时间上对齐。通过举例的方式,在核心编码器108利用EVS编解码器的实例中,EVS编解码器可以对每个帧应用12毫秒的延迟。继续该示例,延迟块112可以对由延迟块112接收到的下混信号应用对应的12毫秒的延迟,从而计算与由核心编码器108通过EVS编解码器进行编码并由核心解码器204进行解码的信号在时间上对齐的下混信号的包络能量信息。
然后使用滤波器组分析块102对经延迟的下混信号进行处理。换句话说,将用于生成下混信号的相同频带用于处理经延迟的下混信号。然后将频率信息提供给水平分析块114,该水平分析块基于频率信息生成包络能量信息。应该注意的是,在一些实施方式中,解码器可以利用对应的滤波器频带来重构音频声道。
如上所述,确定是否对包络能量信息进行编码,并且如果对包络能量信息进行编码,则确定包络能量信息要被编码的方式。这种确定可以由控制单元116进行,其将水平分析块114生成的包络能量信息以及比特率信息作为输入。在一些实施例中,控制单元116可以基于比特率信息和/或音频信号的当前帧中是否存在瞬变来确定是否对包络能量信息进行编码。例如,控制单元116可以响应于基于核心编码器108对下混信号进行编码所需的比特数和/或用于对空间编码元数据进行编码所需的比特数而确定没有足够的比特对包络能量信息进行编码,从而确定不对包络能量信息进行编码。作为另一个示例,控制单元116可以响应于确定音频信号的当前帧中存在瞬变而确定不对包络能量信息进行编码。在一些实施例中,控制单元116可以确定,在不对包络能量信息进行编码的实例中,解码器不对解码帧的包络应用任何校正增益,或者替代性地,解码器应用与音频信号的在先帧相关联的校正增益。在一些实施方式中,在要对包络能量信息进行编码的实例中,控制单元116可以确定包络能量信息要被编码的方式。例如,控制单元116可以确定是使用时间差分哈夫曼编码还是频率差分哈夫曼编码。作为更具体的示例,在一些实施方式中,控制单元116可以确定使用频率差分哈夫曼编码对与存在瞬变的帧之后的帧相关联的包络能量信息进行编码,而与其他帧相关联地使用时间差分哈夫曼编码。在一些实施方式中,控制单元116可以从一组候选熵编码方法中选择熵编码方法。在一些实施例中,该熵编码方法可以被选择为利用最少比特数对包络信息进行编码的熵编码方法。应该注意的是,虽然本文中一般描述的是时间差分哈夫曼编码和频率差分哈夫曼编码,但在一些实施方式中,可以使用任何合适的熵编码技术,比如算术编码。
在一些实施方式中,控制单元116可以生成能量控制值,该能量控制值指示包络能量信息是否被包括在比特流中以及(如果包络能量信息被编码的话)包络能量信息的编码方式。举例来说,在一些实施方式中,能量控制值可以是一个2比特的值。作为具体的示例,能量控制值可以如下指示包络能量信息的编码的方式:00=不应用校正增益;01=将应用于在先帧的校正增益应用于本帧;10=时间差分哈夫曼编码;以及11=频率差分哈夫曼编码。
应该注意的是,图1所示的任何块都可以使用图6所示并在下文结合图6所描述的控制系统来实施。例如,滤波器组分析块102、下混和空间编码器104、滤波器组处理块106、核心编码器108、比特打包块110、核心编码器延迟块112、水平分析块114和/或控制单元116中的任一个都可以使用图6所示并在下文结合图6所描述的控制系统的一个或多个实例来实施。
在一些实施方式中,解码器可以接收比特流,该比特流包括编码下混信号、可用于对下混信号进行上混的编码元数据、以及能量控制值,该能量控制值指示包络能量信息是否被编码在比特流中以及(如果被编码的话)包络能量信息被编码的方式。然后,解码器可以基于元数据生成混合矩阵,其中,该混合矩阵被用于对下混信号进行上混。在一些实施方式中,解码器可以确定下混信号的能量水平,随后基于与下混信号相关联的能量水平和比特流中包括的能量控制值来确定要被应用于混合矩阵的校正增益。例如,基于能量控制值,解码器可以确定:校正增益将渐变至均一(unity),在先帧的校正增益将被用于当前帧,和/或基于比特流中包括的包络能量信息值来确定校正增益。然后,解码器可以将校正增益应用于混合矩阵,以生成经调整的混合矩阵。然后,解码器可以使用经调整的混合矩阵对下混信号进行上混,从而将重构音频信号的能量水平调整为与经编码器处理的输入音频信号的能量水平相符。
图2示出了根据一些实施例的可以在解码器设备上实施以用于基于经编码的包络能量信息来校正增益的系统的示例。解码器设备可以接收比特流,并使用比特解包块202对该比特流进行解包。经解包的比特流可以包括与参数编码声道相关联的空间编码元数据、指示包络能量信息是否被包括在比特流中的能量控制值、与包络能量信息(如果包络能量信息被包括在比特流中的话)相关联的水平数据、以及与波形编码声道相对应的编码下混信号。编码下混信号可以被提供给核心解码器204,该核心解码器可以对下混信号进行解码。在一些实施方式中,核心解码器204可以利用EVS编解码器对下混信号进行解码。然后,可以将下混信号提供给去相关器206。去相关器206可以生成下混信号的多个(例如,3个、4个等)去相关版本。
从比特流中解包出来的空间编码元数据可以由混合矩阵计算块208利用以生成混合矩阵。在输入音频信号具有4个声道(比如一阶多声道模拟立体声W声道、X声道、Y声道和Z声道)的实例中,混合矩阵为4×4矩阵。可以在逐频带的基础上确定矩阵。混合矩阵的典型应用方式是使得在考虑到核心编码器延迟、核心解码器延迟和滤波器组处理延迟之后混合与解码音频信号中的匹配时间相对应。因此,使用混合矩阵在当前解码的音频帧内应用先前帧参数与当前帧参数之间的参数交叉渐变,其被用于实现不同参数集之间的平滑转变。典型地,然后将交叉渐变混合矩阵与下混信号和下混信号的去相关版本结合使用,以生成重构FOA信号。
在本文所描述的技术中,混合矩阵可以基于校正增益进行修改。参考图2,在一些实施方式中,由核心解码器204生成的解码下混信号被提供给滤波器组分析块214。滤波器组分析块214可以使用与编码器所使用相同的频带来确定与解码下混信号相关联的频率信息,如图1所示并在上文结合该图所描述的。然后,水平分析块216可以利用该频率信息来确定解码下混信号的包络能量信息。然后将包络能量信息提供给水平调整块218。
应该注意的是,在SPAR系统的传统使用中,来自当前帧和先前帧两者的混合矩阵都被用于对当前帧进行解码。这是因为当前帧和先前帧的混合矩阵与要被处理的当前帧的不同部分有关。然而,在如本文所描述的技术那样使用包络能量信息来应用校正增益时,可以确定当前音频帧的校正增益,但可能无法确定当前混合矩阵也涉及的尚不可用的帧数据的部分的校正增益。因此,要应用能量校正增益,可以使用与上述交叉渐变技术不同的方法。在一些实施例中,与当前解码音频帧相关联的混合矩阵由线性插值块212确定。在一些实施方式中,可以使用先前混合参数与当前混合参数之间的线性插值来确定混合矩阵。然后,可以基于能量校正增益对使用线性插值确定的混合矩阵进行修改。在一些实施方式中,先前混合参数与当前混合参数之间的交叉渐变可以在帧开始时进行。以这种方式,能量校正信息和混合信息与当前帧在时间上对齐。在一些实施例中,所传输的混合参数与所应用的混合参数之间的轻微不匹配是可以接受的。然后,可以将混合矩阵提供给水平调整块218。
水平调整块218可以接收从解包的比特流中获得的水平数据。水平数据可以包括能量控制值,该能量控制值指示包络能量信息是否另外地被包括在比特流中以及(如果被包括的话)包络能量信息被编码的方式。例如,能量控制值可以指示不应用校正增益、或者与在先帧相关联的校正增益要被应用于当前帧并且因此包络能量信息未被包括在比特流中。作为另一个示例,能量控制值可以指示包络能量信息被包括在比特流中并且是使用时间差分哈夫曼编码或频率差分哈夫曼编码确定的。
水平调整块218可以基于水平数据确定校正增益。例如,在能量控制值指示不应用校正增益的实例中,水平调整块218可以使用例如一阶递归低通滤波器来生成渐变至单一增益(例如,1.0)的校正增益。应该注意的是,在确定一个或多个分组已经在从编码器设备传输过程中丢失或被丢弃的实例中,水平调整块218可以利用渐变至单一的增益。作为另一个示例,在能量控制值指示将与在先帧相关联的校正增益应用于当前帧的实例中,水平调整块218可以取得先前使用的校正增益。作为又一个示例,水平调整块218可以基于比特流中包括的包络能量信息和由水平分析块216确定的包络能量信息来确定校正增益。作为更具体的示例,所确定的校正增益可以使由水平分析块216确定的能量与比特流中包括的能量对齐。在一些实施例中,校正增益可以根据任何合适的最大增益和最小增益来确定。在一个示例中,最小校正增益可以约为0、6、0.7、0.8等,并且最大校正增益可以约为1.3、1.4、1.5等。应该注意的是,所确定的校正增益可以被存储在例如内部状态存储器中,以便在处理后续帧时使用。水平调整块218可以将校正增益(无论是否是基于比特流中包括的包络能量信息确定的)应用于混合矩阵,以生成经调整的混合矩阵。
然后,可以将经调整的混合矩阵与下混信号和下混信号的去相关版本相关联地提供给滤波器组处理块210,以用于生成重构音频信号。换句话说,不是使用原始混合矩阵,而是使用基于反映包络能量信息的校正增益而调整的经调整混合矩阵来重构音频信号,从而允许重构的音频信号更忠实地表示能量信息,特别是在高频带。
应该注意的是,图2所示的任何块都可以使用图6所示并在下文结合图6所描述的控制系统来实施。例如,比特解包块202、核心解码器204、去相关器206、混合矩阵计算块208、滤波器组处理块210、分数延迟块212、滤波器组分析块214、水平分析块216和/或水平调整块218中的任一个都可以使用图6所示并在下文结合图6所描述的控制系统的一个或多个实例来实施。
转至图3,示出了根据一些实施方式的用于利用与音频信号相关联的包络能量信息的示例过程300的流程图。在一些实施例中,过程300的框可以由编码器设备和/或与编码器设备相关联的控制系统来执行。图6示出并在下文结合图6描述了这种控制系统的部件。在一些实施方式中,过程300的框可以以与图3所示不同的顺序执行。在一些实施例中,过程300的两个或更多个框可以基本上并行地被执行。在一些实施例中,可以省略过程300的一个或多个框。
过程300可以开始于302,通过确定与下混声道相对应的下混信号,该下混信号与要编码的音频信号的当前帧相关联。如上文结合图1所描述的,过程300可以通过对音频信号执行频率分析来确定下混信号。例如,可以使用与任何合适数量的频带相对应的滤波器组来分析音频信号。继续该示例,可以使用由空间编码器(比如SPAR编码器)生成的下混系数来确定下混信号。注意,除了确定下混信号外,过程300可以另外地确定元数据(比如空间编码元数据),该元数据可以由解码器使用以对下混信号进行上混。
在304处,过程300可以确定多个频带上下混信号的能量水平。例如,如上文结合图1所描述的,过程300可以使用频带与用于生成下混信号的频带相同的滤波器组来确定能量水平。继续该示例,至少可以确定与滤波器组相关联的频带的子集的能量水平。例如,在一些实施例中,频带的子集可以对应于相对较高的频带,比如12个频带中最高的8个频带、16个频带中最高的9个频带、16个频带中最高的12个频带等。应该注意的是,如上文结合图1所述,在确定能量水平之前,下混信号可以延迟一定持续时间,该持续时间对应于与被用于编码下混信号的核心编码器和解码器相关联的延迟。这种延迟可以确保任何传输的包络能量信息都能与由核心编码器编码的下混信号在时间上对齐。
在306处,过程300可以确定是否传输指示能量水平的信息,例如,通过将指示能量水平的信息包括在传输的比特流中。在一些实施方式中,过程300可以基于音频信号的当前帧是否包括瞬变来确定是否传输指示能量水平的信息。在一个示例中,过程300可以响应于确定音频信号的当前帧包括瞬变而确定不传输指示能量水平的信息。在一些实施方式中,过程300可以基于核心编码器对下混信号进行编码所使用的比特数、以及对用于对下混信号进行上混所使用的元数据进行编码所使用的比特数来确定是否传输指示能量水平的信息。例如,在一些实施例中,过程300可以基于比特率来确定可以与当前音频帧结合使用的最大比特数。继续该示例,过程300可以确定对下混信号进行编码所使用的比特数与对元数据进行编码所使用的比特数的总和。再进一步继续该示例,如果对下混信号进行编码所使用的比特数与对元数据进行编码所使用的比特数的总和小于可以与当前音频帧结合使用的最大比特数,则过程300可以确定传输指示能量水平的信息。反之,如果对下混信号进行编码所使用的比特数与对元数据进行编码所使用的比特数的总和超过可以与当前音频帧结合使用的最大比特数,则过程300可以确定不传输指示能量水平的信息。
如果在306处,过程300确定不传输指示能量水平的信息(在306处为“否”),则过程300可以前进至框308,并且可以生成指示能量水平未被包括在比特流中的能量控制值。在一些实施方式中,能量控制值可以指示能量水平未被包括在比特流中并且解码器将不应用校正增益。换句话说,这样的能量控制值可以指示解码器不会调整信号的能量水平。例如,能量控制值可以指示解码器响应于确定音频信号的当前帧包括瞬变而不应用校正增益。作为另一个示例,在一些实施方式中,能量控制值可以指示能量水平信息未被包括在比特流中,并且解码器将使用与在先帧相关联的能量水平来调整当前帧的能量水平。作为更具体的示例,能量控制值可以指示与在先帧相关联的校正增益与当前帧相关联地被使用。如上文结合图1所描述的,能量控制值可以是两比特的值。
在310处,过程300可以生成比特流,该比特流包括下混信号、能量控制值、以及可由解码器使用以对下混信号进行上混的元数据。
反之,如果在306处,过程300确定传输指示能量水平的信息(在306处为“是”),则过程300可以前进至框312并且可以对所确定的能量水平进行编码。在一些实施方式中,过程300可以确定能量水平的编码方式。例如,在一些实施方式中,过程300可以确定是使用时间差分哈夫曼编码还是使用频率差分哈夫曼编码对能量水平进行编码。在一个示例中,过程300可以响应于确定当前帧是紧接在不传输能量水平的帧(例如,由于在先帧包括瞬变)之后的帧而确定使用频率差分哈夫曼编码对能量水平进行编码。在一些示例中,时间差分哈夫曼编码可以被用于其他情况。
应该注意的是,在一些实施方式中,可能只对特定频带的能量水平进行编码。例如,由于编码下混信号可以充分包括相对低频率的足够包络能量信息,因此在一些实施方式中,过程400可能对相对更高频率的能量水平进行编码。在一个示例中,可能对频率高于1200Hz、高于1500Hz、高于2000Hz等的能量水平进行编码。
在314处,过程300可以生成指示能量水平被包括在比特流中以及能量水平已经被编码的方式的能量控制值。例如,能量控制值可以指示在框312处使用的是时间差分哈夫曼编码还是频率差分编码。
如上文结合图1所描述的,能量控制值可以是2比特的数。参考图1和框308,能量控制值的示例值包括:00=不应用校正增益;01=将应用于在先帧的校正增益应用于本帧;10=时间差分哈夫曼编码;以及11=频率差分哈夫曼编码。
在316处,过程300可以生成比特流,该比特流包括下混信号、能量控制值、经编码的能量水平、以及可用于对下混信号进行上混的元数据。应该注意的是,生成的比特流可能受到任何合适比特率的限制,从而使得用于对下混信号、能量控制值、经编码的能量水平和元数据进行编码的总比特满足分配给帧的最大比特数,如上文结合框306所描述的。图5示出了分配给下混信号、能量水平和元数据的比特数在音频信号的不同帧中变化的示例。
转至图4,示出了根据一些实施方式的用于利用与音频信号相关联的包络能量信息的示例过程400的流程图。在一些实施例中,过程400的框可以由解码器设备和/或与解码器设备相关联的控制系统来执行。图6示出并在下文结合图6描述了这种控制系统的部件。在一些实施方式中,过程400的框可以以与图4所示不同的顺序执行。在一些实施例中,过程400的两个或更多个框可以基本上并行地被执行。在一些实施例中,可以省略过程400的一个或多个框。
过程400可以开始于402,通过获得下混信号、用于对下混信号进行上混的元数据、以及指示能量水平是否被编码在比特流中的能量控制值。下混信号、元数据和能量控制值可以从比特流中获得,并且可以被应用于音频信号的当前帧。如图2所示并在上文结合图2所描述的,解码器可以将下混信号、元数据和能量控制值从比特流中解包出来。
在404处,过程400可以基于元数据确定混合矩阵。在一些实施方式中,混合矩阵的尺寸可能取决于由编码器设备编码的原始音频信号中的声道数量。在一个示例中,在原始音频信号中的声道数量为4的实例中,混合矩阵的尺寸可能为4×4。混合矩阵可以使用空间解码器生成,该空间解码器例如使用SPAR技术、线性预测技术等。
在406处,过程400可以基于下混信号确定多个频带上的能量水平。例如,如图2所示并在上文结合图2所描述的,过程400可以将下混信号传递通过滤波器组。在一些实施方式中,滤波器组的频带可以与编码器生成下混信号和/或生成与下混信号相关联的能量水平所使用的频带一致。在一些实施例中,过程400然后可以基于滤波器组输出来确定能量水平。在一些实施方式中,过程400可以确定滤波器组中表示的频带子集上的能量水平。例如,频带子集可以包括滤波器组中表示的相对较高的频带。
在408处,过程400可以基于所确定的每频带的能量水平、能量控制值和经编码的能量水平(如果被包括在比特流中的话)来确定要被应用于混合矩阵的校正增益。例如,如上文结合图2所描述的,在能量控制值指示不应用校正增益的实例中,过程400可以确定实际渐变至单一增益的校正增益,并将渐变至单一的增益应用于混合矩阵。作为另一个示例,在能量控制值指示将应用于在先帧的校正增益应用于当前帧的实例中,过程400可以取得应用于在先帧的校正增益,以用于混合矩阵。作为又一个示例,在能量控制值指示经编码的能量水平是被包括在比特流中、使用时间差分哈夫曼编码实例中,过程400可以通过对时间差分哈夫曼编码进行反转来重构能量水平。继续该示例,过程400可以确定使在框406处确定的能量水平与重构的能量水平对齐的校正增益。作为又另一个示例,在能量控制值指示经编码的能量水平是使用频率差分哈夫曼编码而被包括在比特流中的实例中,过程400可以通过对频率差分哈夫曼编码进行反转来重构能量水平。继续该示例,过程400可以确定使在框406处确定的能量水平与重构的能量水平对齐的校正增益。
应该注意的是,在一些实施方式中,过程400可能仅确定相对较高频率的校正增益。换句话说,由于相对较低频率的包络能量信息可以进行充分编码,因此可能不需要对相对较低的频率应用校正增益。在一些实施例中,可以在逐频带的基础上对约1200Hz、高于1500Hz、约2000Hz等频率应用校正增益。
在410处,过程400可以将校正增益应用于混合矩阵,以生成经调整的混合矩阵。应该注意的是,在一些实施方式中,混合矩阵可以使用线性插值生成。然后,可以将校正增益应用于混合矩阵。
在412处,过程400可以使用经调整的混合矩阵对下混信号进行上混,以生成重构音频信号。例如,在一些实施方式中,过程400可以将经调整的混合矩阵变换到时域。继续该示例,过程400可以使用被应用于下混信号的滤波器组处理、下混信号的去相关版本、以及经调整的混合矩阵的时域版本来生成重构音频信号,如图2所示并在上文结合图2所描述的。
在一些实施方式中,可以对重构音频信号进行渲染。例如,对重构音频信号进行渲染可以包括将重构音频信号的分量分配到一个或多个扩音器或耳机,以便在呈现经渲染的音频信号时创建空间感知。在一些实施方式中,经渲染的音频信号可以例如由一个或多个扩音器、一个或多个耳机等呈现。
在一些实施方式中,使用上述技术对音频信号进行编码可能会使得在音频信号的各帧上,用于对(多个)下混信号中的每个下混信号、对可用于对下混信号进行上混的元数据以及对包络能量信息进行编码的比特率发生变化。然而,总比特率可以固定为恒定比特率。换句话说,分配给(多个)下混信号中的每个下混信号、元数据和包络能量信息的比特数会根据给定帧的固定总比特数而变化,从而允许总比特率保持固定。例如,对于不传输包络能量信息的帧,可以分配额外的比特来对下混信号和/或元数据进行编码。相反,对于传输包络能量信息的帧,可以分配较少的比特来对下混信号和/或元数据进行编码。
图5示出了根据一些实施方式的与示例音频信号相关联的图,该图图示了用于对下混信号和相关联元数据进行编码的变化分配。曲线502描绘了用于对包络能量信息进行编码的比特率,曲线504描绘了用于对元数据进行编码的比特率,并且曲线506描绘了用于对下混信号进行编码的比特率。注意,在图5所示的图中,在12个频带上指示了被用于对包络能量信息进行编码的比特率。如图5所示,在用于对包络能量信息进行编码的比特率相对较低的时间段期间,与编码下混信号相关联的比特率和/或与编码元数据相关联的比特率相对较高。反之,在与编码包络能量水平相关联的比特率相对较高的时间段期间,与编码下混信号相关联的比特率和/或与编码元数据相关联的比特率相对较低。然而,在给定时间段内,总比特率保持恒定。
图6是示出了能够实施本公开的各个方面的装置的部件的示例的框图。与本文提供的其他图一样,图6中示出的元件的类型和数量仅作为示例提供。其他实施方式可以包括更多、更少和/或不同类型和数量的元件。根据一些示例,装置600可以被配置用于执行本文公开的方法中的至少一些方法。在一些实施方式中,装置600可以是或可以包括电视、音频系统的一个或多个部件、移动设备(比如蜂窝电话)、膝上型计算机、平板设备、智能扬声器或另一种类型的设备。
根据一些替代性实施方式,装置600可以是或者可以包括服务器。在一些这样的示例中,装置600可以是或者可以包括编码器。因此,在一些情况下,装置600可以是被配置用于在如家庭音频环境的音频环境内使用的设备,然而在其他情况下,装置600可以是被配置用于在“云”中使用的设备,例如,服务器。
在该示例中,装置600包括接口系统605和控制系统610。在一些实施方式中,接口系统605可以被配置用于与音频环境的一个或多个其他设备进行通信。在一些示例中,音频环境可以是家庭音频环境。在其他示例中,音频环境可以是另一种类型的环境,如办公室环境、汽车环境、火车环境、街道或人行道环境、公园环境等。在一些实施方式中,接口系统605可以被配置用于与音频环境的音频设备交换控制信息和相关联的数据。在一些示例中,控制信息和相关联的数据可以与装置600正执行的一个或多个软件应用程序有关。
在一些实施方式中,接口系统605可以被配置用于接收内容流或用于提供内容流。内容流可以包括音频数据。音频数据可以包括但可以不限于音频信号。在一些情况下,音频数据可以包括如声道数据和/或空间元数据的空间数据。在一些示例中,内容流可以包括视频数据和与视频数据相对应的音频数据。
接口系统605可以包括一个或多个网络接口和/或一个或多个外部设备接口,比如一个或多个通用串行总线(USB)接口。根据一些实施方式,接口系统605可以包括一个或多个无线接口。接口系统605可以包括用于实施用户接口的一个或多个设备,如一个或多个麦克风、一个或多个扬声器、显示系统、触摸传感器系统和/或手势传感器系统。在一些示例中,接口系统605可以包括控制系统610与存储器系统(如图6中示出的可选存储器系统615)之间的一个或多个接口。然而,在一些情况下,控制系统610可以包括存储器系统。在一些实施方式中,接口系统605可以被配置用于从环境中的一个或多个麦克风接收输入。
例如,控制系统610可以包括通用单芯片或多芯片处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑设备、离散门或晶体管逻辑和/或离散硬件部件。
在一些实施方式中,控制系统610可以驻留在超过一个设备中。例如,在一些实施方式中,控制系统610的一部分可以驻留在本文描绘的环境之一内的设备中,并且控制系统610的另一部分可以驻留在环境之外的设备中,如服务器、移动设备(例如,智能电话或平板电脑)等。在其他示例中,控制系统610的一部分可以驻留在一种环境内的设备中,并且控制系统610的另一部分可以驻留在该环境内的一个或多个其他设备中。例如,控制系统610的一部分可以驻留在实施基于云的服务的设备(如服务器)中,并且控制系统610的另一部分可以驻留在实施基于云的服务的另一设备(如另一服务器、存储器设备等)中。在一些示例中,接口系统605还可以驻留在多于一个设备中。
在一些实施方式中,控制系统610可以被配置用于至少部分地执行本文公开的方法。根据一些示例,控制系统610可以被配置用于实施确定能量编码控制值、编码能量信息解码能量信息等的方法。
本文描述的一些或所有方法可以由一个或多个设备根据被存储在一个或多个非暂态介质上的指令(例如,软件)来执行。这种非暂态介质可以包括比如本文所描述的那些存储器设备,包括但不限于随机存取存储器(RAM)设备、只读存储器(ROM)设备等。一个或多个非暂态介质可以例如位于图6中所示的可选存储器系统615和/或控制系统610中。因此,可以在其上存储有软件的一个或多个非暂态介质中实施本公开中所描述的主题的各个创新方面。软件可以例如包括用于能量编码控制值、编码能量信息解码能量信息等的指令。软件可以例如可由控制系统(比如图6的控制系统610)的一个或多个部件来执行。
在一些示例中,装置600可以包括图6中示出的可选麦克风系统620。可选麦克风系统620可以包括一个或多个麦克风。在一些实施方式中,一个或多个麦克风可以是另一个设备(如扬声器系统的扬声器、智能音频设备等)的一部分或与其相关联。在一些示例中,装置600可以不包括麦克风系统620。然而,在一些这样的实施方式中,装置600仍然可以被配置成经由接口系统610接收音频环境中的一个或多个麦克风的麦克风数据。在一些这样的实施方式中,装置600的基于云的实施方式可以被配置成经由接口系统610从音频环境中的一个或多个麦克风接收麦克风数据或至少部分地与麦克风数据相对应的噪声指标。
根据一些实施方式,装置600可以包括图6中示出的可选扩音器系统625。可选扩音器系统625可以包括一个或多个扩音器,该扩音器在本文中也可以被称为“扬声器”,或更通常地被称为“音频再现换能器”。在一些示例(例如,基于云的实施方式)中,装置600可以不包括扩音器系统625。在一些实施方式中,装置600可以包括耳机。耳机可以经由耳机插孔或经由无线连接(例如,蓝牙)被连接或耦接到装置600。
本公开的一些方面包括一种被配置(例如,被编程)成执行所公开方法的一个或多个示例的系统或设备,以及一种存储用于实施所公开方法或其步骤的一个或多个示例的代码的有形计算机可读介质(例如,磁盘)。例如,一些公开的系统可以是或者包括可编程通用处理器、数字信号处理器或微处理器,该可编程通用处理器、数字信号处理器或微处理器用软件或固件编程和/或以其他方式被配置成对数据执行各种操作中的任一个,包括所公开方法或其步骤的实施例。这样的通用处理器可以是或者包括计算机系统,该计算机系统包括输入设备、存储器和处理子系统,其被编程(和/或以其他方式被配置)为响应于向其断言的数据而执行所公开方法(或其步骤)的一个或多个示例。
一些实施例可以被实施为可配置的(例如,可编程的)数字信号处理器(DSP),该数字信号处理器被配置(例如,被编程和以其他方式被配置)为对(多个)音频信号执行需要的处理,包括对所公开方法的一个或多个示例的执行。替代性地,所公开系统(或其元件)的实施例可以被实施为通用处理器(例如,个人计算机(PC)或其他计算机系统或微处理器,其可以包括输入设备和存储器),其用软件或固件编程和/或以其他方式被配置成执行各种操作中的任一个,包括所公开方法的一个或多个示例。替代性地,本发明系统的一些实施例的元件被实施为被配置(例如,被编程)成执行所公开方法的一个或多个示例的通用处理器或DSP,并且该系统还包括其他元件。其他元件可以包括一个或多个扩音器和/或一个或多个麦克风。被配置成执行所公开方法的一个或多个示例的通用处理器可以被耦接到输入设备。输入设备的示例包括例如鼠标和/或键盘。通用处理器可以被耦接到存储器、显示设备等。
本公开的另一方面是一种计算机可读介质(比如磁盘或其他有形存储介质),该计算机可读介质存储用于执行所公开方法或其步骤的一个或多个示例的代码(例如,通过可执行以执行所公开方法或其步骤的一个或多个示例的编码器)。
虽然在本文中已经描述了本公开的具体实施例和本公开的应用,但是对于本领域普通技术人员而言显而易见的是,在不脱离本文描述的并要求保护的本公开的范围的情况下,可以对本文描述的实施例和应用进行许多改变。应当理解,虽然已经示出和描述了本公开的某些形式,但是本公开不限于所描述和示出的具体实施例或所描述的具体方法。
Claims (24)
1.一种用于调整音频信号的能量水平的方法,所述方法包括:
确定与至少一个下混声道相关联的至少一个第一下混信号,所述至少一个第一下混信号与要被编码的音频信号的第一帧相关联;
确定针对多个频带的所述至少一个第一下混信号的能量水平;
确定是否将指示所述能量水平的信息编码在比特流中;
响应于确定将指示所述能量水平的信息编码在所述比特流中,对所确定的能量水平进行编码;
生成指示能量水平被编码在所述比特流中的能量控制值;以及
生成所述比特流,所述比特流包括所述至少一个第一下混信号的经编码的版本、所述能量控制值、指示所述能量水平的所述信息、以及能够由解码器使用以对所述第一下混信号进行上混的元数据,其中,所述能量控制值和指示所述能量水平的所述信息能够由所述解码器使用以调整与所述至少一个第一下混信号相关联的能量水平。
2.如权利要求1所述的方法,其中,确定是否将指示所述能量水平的所述信息编码在所述比特流中是至少部分地基于对所述至少一个第一下混信号进行编码所需的比特数和对能够用于对所述至少一个第一下混信号进行上混的所述元数据进行传输所需的比特数来确定的。
3.如权利要求1或2中任一项所述的方法,其中,确定是否将指示所述能量水平的所述信息编码在所述比特流中是至少部分地基于所述音频信号的所述第一帧是否包括瞬变来确定的。
4.如权利要求1至3中任一项所述的方法,其中,所述能量控制值指示所述能量水平被编码在所述比特流中的方式。
5.如权利要求4所述的方法,其中,所述能量水平被编码在所述比特流中的所述方式包括时间差分编码或频率差分编码中的一种。
6.如权利要求5所述的方法,其中,响应于确定在先帧包括瞬变,利用频率差分编码对能量水平进行编码。
7.如权利要求1至6中任一项所述的方法,进一步包括在确定针对所述多个频带的所述至少一个第一下混信号的所述能量水平之前应用延迟。
8.如权利要求7所述的方法,其中,所述延迟对应于与核心编码器和核心解码器相关联的延迟,所述核心编码器生成所述至少一个第一下混信号的所编码的版本,所述核心解码器重构所述音频信号。
9.如权利要求1至8中任一项所述的方法,其中,所述至少一个第一下混信号的所编码的版本包括能量数据,所述能量数据与所述比特流中包括的指示所述能量水平的所述信息至少部分地冗余。
10.如权利要求1至9中任一项所述的方法,进一步包括:
确定是否对指示与所述音频信号的第二帧相对应的第二下混信号相关联的能量水平的信息进行编码;以及
响应于确定不对指示与所述音频信号的所述第二帧相关联的所述能量水平的信息进行编码,生成与所述第二帧相关联的第二能量控制值,所述第二能量控制值表示指示所述能量水平的所述信息未被包括在所述比特流中。
11.如权利要求10所述的方法,其中,所述第二能量控制值指示所述解码器使用与先前帧相关联的能量校正增益来调整与所述第二帧相对应的所述第二下混信号相关联的能量水平。
12.如权利要求10所述的方法,其中,所述第二能量控制值指示所述解码器不调整与所述第二帧相对应的所述第二下混信号相关联的能量水平。
13.如权利要求1至12中任一项所述的方法,其中,所述至少一个下混信号包括两个或更多个下混信号。
14.一种用于调整音频信号的能量水平的方法,所述方法包括:
从比特流中获得下混信号、用于对所述下混信号进行上混的元数据、以及指示能量水平是否被编码在所述比特流中的能量控制值;
基于所述元数据确定混合矩阵;
确定针对多个频带的所述下混信号的能量水平;
基于所确定的针对所述多个频带的能量水平以及所述能量控制值,确定要被应用于所述混合矩阵的校正增益;
将所述校正增益应用于所述混合矩阵以生成经调整的混合矩阵;以及
使用所述经调整的混合矩阵对所述下混信号进行上混,以生成重构音频信号。
15.如权利要求14所述的方法,其中,所述能量控制值指示所述能量水平被编码在所述比特流中,并且其中,确定所述校正增益是基于被编码在所述比特流中的所述能量水平的。
16.如权利要求15所述的方法,其中,所述能量控制值指示所述能量水平被编码在所述比特流中的方式。
17.如权利要求16所述的方法,其中,所述能量水平被编码在所述比特流中的所述方式包括时间差分编码或频率差分编码中的一种。
18.如权利要求14所述的方法,其中,所述能量控制值指示能量水平未被编码在所述比特流中并且要使用与先前帧相关联的能量水平,并且其中,确定要被应用于所述混合矩阵的所述校正增益包括获得被应用于所述先前帧的校正增益。
19.如权利要求14所述的方法,其中,所述能量控制值指示能量水平未被编码在所述比特流中,并且其中,确定要被应用于所述混合矩阵的所述校正增益包括将被应用于先前帧的校正增益向单一增益渐变。
20.如权利要求14至19中任一项所述的方法,进一步包括使用适用于先前帧的参数和适用于所述帧的参数的线性插值来生成要被应用于整个所述帧的所述混合矩阵。
21.如权利要求14至20中任一项所述的方法,其中,与所述比特流相关联的比特率小于约每秒40千比特(kbps)。
22.如权利要求14至21中任一项所述的方法,进一步包括使得经由扩音器或耳机来呈现所述重构音频信号的表示。
23.一种用于实施如权利要求1至22中任一项所述的方法的装置。
24.一种或多种非暂态介质,所述非暂态介质具有被存储在其上的软件,所述软件包括用于控制一个或多个设备执行如权利要求1至22中任一项所述的方法的指令。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US63/171,210 | 2021-04-06 | ||
US202263268715P | 2022-03-01 | 2022-03-01 | |
US63/268,715 | 2022-03-01 | ||
PCT/EP2022/059005 WO2022214480A1 (en) | 2021-04-06 | 2022-04-05 | Encoding of envelope information of an audio downmix signal |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116982110A true CN116982110A (zh) | 2023-10-31 |
Family
ID=88477158
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202280021335.4A Pending CN116982110A (zh) | 2021-04-06 | 2022-04-05 | 对音频下混信号的包络信息进行编码 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116982110A (zh) |
-
2022
- 2022-04-05 CN CN202280021335.4A patent/CN116982110A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9479886B2 (en) | Scalable downmix design with feedback for object-based surround codec | |
US9741351B2 (en) | Adaptive quantization noise filtering of decoded audio data | |
JP5511136B2 (ja) | マルチチャネルシンセサイザ制御信号を発生するための装置および方法並びにマルチチャネル合成のための装置および方法 | |
RU2639952C2 (ru) | Гибридное усиление речи с кодированием формы сигнала и параметрическим кодированием | |
TWI521502B (zh) | 多聲道音訊的較高頻率和降混低頻率內容的混合編碼 | |
JP2008504578A (ja) | マルチチャネル出力信号を発生するためのマルチチャネルシンセサイザおよび方法 | |
CN107077861B (zh) | 音频编码器和解码器 | |
EP3762923B1 (en) | Audio coding | |
JP2022548038A (ja) | 空間オーディオパラメータ符号化および関連する復号化の決定 | |
KR20070090217A (ko) | 스케일러블 부호화 장치 및 스케일러블 부호화 방법 | |
EP3123746B1 (en) | Method and device for applying dynamic range compression to a higher order ambisonics signal | |
WO2024076810A1 (en) | Methods, apparatus and systems for performing perceptually motivated gain control | |
EP4165629A1 (en) | Methods and devices for encoding and/or decoding spatial background noise within a multi-channel input signal | |
US20240153512A1 (en) | Audio codec with adaptive gain control of downmixed signals | |
CN109859766B (zh) | 音频编解码方法和相关产品 | |
US20240161754A1 (en) | Encoding of envelope information of an audio downmix signal | |
CN116982110A (zh) | 对音频下混信号的包络信息进行编码 | |
US10559315B2 (en) | Extended-range coarse-fine quantization for audio coding | |
US20240304196A1 (en) | Multi-band ducking of audio signals | |
CN116982109A (zh) | 具有下混信号自适应增益控制的音频编解码器 | |
CN116997960A (zh) | 音频信号技术领域的多频带闪避 | |
CN113994425A (zh) | 基于为心理声学音频编解码确定的比特分配对空间分量进行量化 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |