CN108702582B

CN108702582B - 用于双耳对话增强的方法和装置

Info

Publication number: CN108702582B
Application number: CN201780013669.6A
Authority: CN
Inventors: L·J·萨穆埃尔松; D·J·布里巴尔特; D·M·库珀; J·科庞
Original assignee: Dolby International AB; Dolby Laboratories Licensing Corp
Current assignee: Dolby International AB; Dolby Laboratories Licensing Corp
Priority date: 2016-01-29
Filing date: 2017-01-26
Publication date: 2020-11-06
Anticipated expiration: 2037-01-26
Also published as: JP2023166560A; CN112218229A; CN112218229B; US20220060838A1; JP2019508947A; US11641560B2; US20190037331A1; EP3409029A1; US10375496B2; US20200329326A1; WO2017132396A1; JP2022031955A; JP7383685B2; US10701502B2; JP7023848B2; US20190356997A1; CN108702582A; US11950078B2; US20230345192A1; US11115768B2

Abstract

本发明揭示一种用于增强音频内容的对话的方法，其包括：提供音频成分的第一音频信号呈现；提供第二音频信号呈现；接收一组对话估计参数，所述对话估计参数经配置以实现从所述第一音频信号呈现估计对话成分；将所述组对话估计参数应用于所述第一音频信号呈现，以形成所述对话成分的对话呈现；及组合所述对话呈现与所述第二音频信号呈现以形成在第二音频再现系统上再现的对话增强音频信号呈现，其中所述第一音频信号呈现及所述第二音频信号呈现中的至少一者是双耳音频信号呈现。

Description

用于双耳对话增强的方法和装置

相关申请案的交叉参考

本申请案主张2016年1月29日申请的第62/288,590号美国临时专利申请案及2016年1月29日申请的第16153468.0号欧洲专利申请案的优先权，所述两个申请案的全部内容以引用方式并入本文中。

技术领域

本发明涉及音频信号处理的领域，且揭示用于有效地估计尤其是具有空间化成分的音频信号(有时称为沉浸式音频内容)的对话成分的方法及系统。

背景技术

贯穿说明书对背景技术的任何论述决不应被视为承认此项技术是众所周知的或形成所属领域中的公知常识的部分。

传统上，以基于声道的格式(即，为整个内容生态系统中的内容设想一个特定目标回放系统)执行音频的内容创建、编码、分配及再现。此类目标回放系统音频格式的实例是单声道、立体声、5.1、7.1及类似者，并且我们将这些格式称为原始内容的不同呈现。上述呈现通常通过扬声器回放，但明显例外是通常也直接通过耳机回放的立体声呈现。

一个特定呈现是通常针对在耳机上回放的双耳呈现。双耳呈现的独特之处在于其是双声道信号，其中每一信号分别表示在左耳膜及右耳膜处或附近感知的内容。双耳呈现可直接通过扬声器回放，但优选地双耳呈现使用串扰消除技术经转换成适于通过扬声器回放的呈现。

上文已介绍不同音频再现系统，如同呈不同配置(例如立体声、5.1及7.1)的扬声器及耳机。从上述实例可理解，原始内容的呈现具有自然的、指定的、相关联的音频再现系统，但当然可在不同音频再现系统上回放。

如果将在与指定回放系统不同的回放系统上再现内容，那么可应用向下混合或向上混合过程。例如，可通过采用特定向下混合等式而在立体声回放系统上再现5.1内容。另一实例是通过7.1扬声器设置回放立体声编码内容，所述7.1扬声器设置可包括所谓向上混合过程，其可或不可受立体声信号中存在的信息引导。能够向上混合的系统是来自杜比实验室(Dolby Laboratories Inc)的杜比定向逻辑(Dolby Pro Logic)(罗杰斯·杜斯勒(Roger Dressler)，“杜比定向逻辑环绕解码器，操作原理(Dolby Pro Logic SurroundDecoder，Principles of Operation)”,www.Dolby.com)。

替代音频格式系统是音频对象格式，例如由杜比全景声(Dolby Atmos)系统提供的格式。在这种类型的格式中，对象或成分被定义为具有围绕听众的可时变的特定位置。这种格式的音频内容有时称为沉浸式音频内容。应注意，在本申请案的上下文内，音频对象格式不被视为如上文所描述的呈现，而是被视为呈现给编码器中的一或多个呈现的原始内容的格式，此后所述呈现经编码且经传输到解码器。

当如上所述那样将基于多声道及对象的内容转换成双耳呈现时，通过分别在无回声或回声(模拟)环境中模拟从每一扬声器/对象到耳膜的声学路径的头部相关脉冲响应(HRIR)或双耳房间脉冲响应(BRIR)来模拟由特定位置处的扬声器及对象组成的声学场景。特定来说，音频信号可与HRIR或BRIR卷积以复原耳间水平差(ILD)、耳间时间差(ITD)及谱特征，其允许听众确定每一个别扬声器/对象的位置。声学环境(混响)的模拟也有助于实现特定的感知距离。图1说明用于呈现从内容存储区12读出以供4个HRIR(例如14)处理的两个对象或声道信号x_i 10、11的处理流程的示意性概览。接着，对每一声道信号的HRIR输出求和15、16，以便产生耳机扬声器输出以经由耳机18回放给听众。例如在怀特曼(Wightman)、L弗里德里克(Frederic L.)及J桃瑞丝·基斯特勒(Doris J.Kistler)的“声音定位(Soundlocalization)”，《人类心里物理学》(Human psychophysics)，纽约斯普林格出版社(Springer New York),1993年，155-192中解释HRIR的基本原理。

HRIR/BRIR卷积方法具有若干缺点，其中之一是耳机回放需要大量卷积处理。HRIR或BRIR卷积需要单独应用于每个输入对象或声道，且因此复杂度通常随声道或对象的数目线性地增长。由于耳机通常结合电池供电的便携式装置使用，所以高计算复杂度是不合意的，因为其可大大缩短电池寿命。此外，随着基于对象的音频内容(其可包括例如100个以上的同时活动的对象)的引入，HRIR卷积的复杂度可显著高于传统基于声道的内容。

出于此目的，2015年8月25日申请的共同待决且未公布的第62/209,735号美国临时专利申请案描述一种用于可用来有效地传输及解码用于耳机的沉浸式音频的呈现变换的双端方法。通过跨编码器及解码器分割呈现过程而非仅依赖解码器来呈现所有对象来实现编码效率及解码复杂度的降低。

在创建期间与特定空间位置相关联的内容的部分称为音频成分。空间位置可为空间中的点或分布式位置。音频成分可被视为声音艺术家混合(即，在空间上定位)到音轨中的所有个别音频源。通常，将语义含义(例如，对话)被指派给所关注成分使得处理目标(例如，对话增强)得到定义。应注意，在内容创建期间产生的音频成分通常存在于从原始内容到不同呈现的整个处理链中。例如，在对象格式中，可存在具有相关空间位置的对话对象。并且在立体声呈现中，可存在空间上定位在水平平面中的对话成分。

在一些应用中，期望提取音频信号中的对话成分，以便例如增强或放大此类成分。对话增强(DE)的目标可为修改包含语音及背景音频的混合物的一段内容的语音部分，使得语音对于终端用户变得更容易理解及/或更不容易让人感到疲劳。DE的另一用途是减弱例如被终端用户感知为令人烦恼的对话。DE方法存在两种基本类别：编码器侧DE及解码器侧DE。解码器侧DE(称为单端)仅对重构非增强音频的经解码参数及信号进行操作，即，位流中不存在用于DE的专用边信息。在编码器侧DE(称为双端)中，在编码器中计算可用来在解码器中执行DE的专用边信息且在位流中插入所述边信息。

图2展示常规立体声实例中的双端对话增强的实例。在此，在编码器20中计算专用参数21，专用参数21实现从解码器24中经解码的非增强立体声信号23提取对话22。对所提取对话进行级别修改(例如升高)25(提高达受终端用户部分控制的量)且将其添加到非增强输出23以形成最终输出26。专用参数21可从非增强音频27盲提取或在参数计算中利用单独提供的对话信号28。

在US 8,315,396中揭示另一方法。在此，到解码器的位流包含对象向下混合信号(例如立体声呈现)、实现重构音频对象的对象参数、及允许操纵所重构音频对象的基于对象的元数据。如US8,315,396的图10中所指示，操纵可包含放大语音相关对象。因此，这种方法需要在解码器侧上重构原始音频对象，这通常对计算要求苛刻。

一般期望在双耳环境中也有效地提供对话估计。

发明内容

本发明的目标是在双耳背景中(即，当从其提取(若干)对话成分的音频呈现或将所提取对话添加到其的音频呈现中的至少一者是(回声或无回声)双耳表示时)提供有效对话增强。

根据本发明的第一方面，提供一种用于增强具有一或多个音频成分的音频内容的对话的方法，其中每一成分与空间位置相关联，所述方法包括：提供希望在第一音频再现系统上再现的音频成分的第一音频信号呈现；提供希望在第二音频再现系统上再现的所述音频成分的第二音频信号呈现；接收一组对话估计参数，其经配置以实现从所述第一音频信号呈现估计对话成分；将所述组对话估计参数应用于所述第一音频信号呈现，以形成所述对话成分的对话呈现；及组合所述对话呈现与所述第二音频信号呈现以形成在所述第二音频再现系统上再现的对话增强音频信号呈现，其中所述第一音频信号呈现及所述第二音频信号呈现中的至少一者是双耳音频信号呈现。

根据本发明的第二方面，提供一种用于增强具有一或多个音频成分的音频内容的对话的方法，其中每一成分与空间位置相关联，所述方法包括：接收希望在第一音频再现系统上再现的音频成分的第一音频信号呈现；接收一组呈现变换参数，其经配置以实现将所述第一音频信号呈现变换成希望在第二音频再现系统上再现的第二音频信号呈现；接收一组对话估计参数，其经配置以实现从所述第一音频信号呈现估计对话成分；将所述组呈现变换参数应用于所述第一音频信号呈现以形成第二音频信号呈现；将所述组对话估计参数应用于所述第一音频信号呈现以形成所述对话成分的对话呈现；及组合所述对话呈现与所述第二音频信号呈现以形成在所述第二音频再现系统上再现的对话增强音频信号呈现，其中仅所述第一音频信号呈现及所述第二音频信号呈现中的一者是双耳音频信号呈现。

根据本发明的第三方面，提供一种用于增强具有一或多个音频成分的音频内容的对话的方法，其中每一成分与空间位置相关联，所述方法包括：接收希望在第一音频再现系统上再现的音频成分的第一音频信号呈现；接收一组呈现变换参数，其经配置以实现将所述第一音频信号呈现变换成希望在第二音频再现系统上再现的所述第二音频信号呈现；接收一组对话估计参数，其经配置以实现从所述第二音频信号呈现估计对话成分；将所述组呈现变换参数应用于所述第一音频信号呈现以形成第二音频信号呈现；将所述组对话估计参数应用于所述第二音频信号呈现以形成所述对话成分的对话呈现；及对所述对话呈现与所述第二音频信号呈现求和以形成在所述第二音频再现系统上再现的对话增强音频信号呈现，其中仅所述第一音频信号呈现及所述第二音频信号呈现中的一者是双耳音频信号呈现。

根据本发明的第四方面，提供一种用于增强具有一或多个音频成分的音频内容的对话的解码器，其中每一成分与空间位置相关联，所述解码器包括：核心解码器，其用于接收及解码希望在第一音频再现系统上再现的所述音频成分的第一音频信号呈现及经配置以实现从所述第一音频信号呈现估计对话成分的一组对话估计参数；对话估计器，其用于将所述组对话估计参数应用于所述第一音频信号呈现，以形成所述对话成分的对话呈现；及用于组合所述对话呈现与第二音频信号呈现以形成在第二音频再现系统上再现的对话增强音频信号呈现的构件，其中仅所述第一音频信号呈现及所述第二音频信号呈现中的一者是双耳音频信号呈现。

根据本发明的第五方面，提供一种用于增强具有一或多个音频成分的音频内容的对话的解码器，其中每一成分与空间位置相关联，所述解码器包括：核心解码器，其用于接收希望在第一音频再现系统上再现的所述音频成分的第一音频信号呈现、经配置以实现将所述第一音频信号呈现变换成希望在第二音频信号呈现系统上再现的第二音频信号呈现的一组呈现变换参数、及经配置以实现从所述第一音频信号呈现估计对话成分的一组对话估计参数；变换单元，其经配置以将所述组呈现变换参数应用于所述第一音频信号呈现以形成希望在第二音频再现系统上再现的第二音频信号呈现；对话估计器，其用于将所述组对话估计参数应用于所述第一音频信号呈现以形成所述对话成分的对话呈现；及用于组合所述对话呈现与所述第二音频信号呈现以形成在所述第二音频再现系统上再现的对话增强音频信号呈现的构件，其中仅所述第一音频信号呈现及所述第二音频信号呈现中的一者是双耳音频信号呈现。

根据本发明的第六方面，提供一种用于增强具有一或多个音频成分的音频内容的对话的解码器，其中每一成分与空间位置相关联，所述解码器包括：核心解码器，其用于接收希望在第一音频再现系统上再现的所述音频成分的第一音频信号呈现、经配置以实现将所述第一音频信号呈现变换成希望在第二音频信号呈现系统上再现的第二音频信号呈现的一组呈现变换参数、及经配置以实现从所述第一音频信号呈现估计对话成分的一组对话估计参数；变换单元，其经配置以将所述组呈现变换参数应用于所述第一音频信号呈现以形成希望在第二音频再现系统上再现的第二音频信号呈现；对话估计器，其用于将所述组对话估计参数应用于所述第二音频信号呈现以形成所述对话成分的对话呈现；及求和块，其用于对所述对话呈现与所述第二音频信号呈现求和以形成在所述第二音频再现系统上再现的对话增强音频信号呈现，其中仅所述第一音频信号呈现及所述第二音频信号呈现中的一者是双耳音频信号呈现。

本发明是基于下述认识：专用参数集可提供从一个音频信号呈现提取对话呈现的有效方式，接着可组合所述对话呈现与另一音频信号呈现，其中所述呈现中的至少一者是双耳呈现。应注意，根据本发明，无需重构原始音频对象以便增强对话。代替地，将专用参数直接应用于音频对象的呈现，例如，双耳呈现、立体声呈现等。本发明概念实现各自具有具体优点的各种具体实施例。

应注意，本文的表述“对话增强”不限于放大或加强对话成分，且还可与选定对话成分的减弱相关。因此，通常，表述“对话增强”是指音频内容的一或多个对话相关成分的级别修改。级别修改的增益因子G可小于零以便减弱对话，或大于零以便增强对话。

在一些实施例中，第一呈现及第二呈现两者是(回声或无回声)双耳呈现。在仅其中一者是双耳的情况下，另一呈现可为立体声或环绕声音频信号呈现。

在不同呈现的情况下，对话估计参数还可经配置以执行呈现变换，使得对话呈现对应于第二音频信号呈现。

本发明可有利地在特定类型的所谓联播系统中实施，其中经编码位流还包含适于将第一音频信号呈现变换成第二音频信号呈现的一组变换参数。

附图说明

现将仅通过举例、参考附图来描述本发明的实施例，其中：

图1说明用于两个声源或对象的HRIR卷积过程的示意性概览，其中每一声道或对象是由一对HRIR/BRIR来处理。

图2示意性地说明立体声背景中的对话增强。

图3是说明根据本发明的对话增强原理的示意性框图。

图4是根据本发明的实施例的单个呈现对话增强的示意性框图。

图5是根据本发明的进一步实施例的两个呈现对话增强的示意性框图。

图6是根据本发明的进一步实施例的图5中的双耳对话估计器的示意性框图。

图7是根据本发明的实施例的实施对话增强的联播解码器的示意性框图。

图8是根据本发明的另一实施例的实施对话增强的联播解码器的示意性框图。

图9a是根据本发明的又一实施例的实施对话增强的联播解码器的示意性框图。

图9b是根据本发明的又一实施例的实施对话增强的联播解码器的示意性框图。

图10是根据本发明的又一实施例的实施对话增强的联播解码器的示意性框图。

图11是根据本发明的又一实施例的实施对话增强的联播解码器的示意性框图。

图12是展示本发明的又一个实施例的示意性框图。

具体实施方式

可将下文中所揭示系统及方法实施为软件、固件、硬件或其组合。在硬件实施方案中，在下文描述中称为“阶段”的任务的划分未必对应于划分成物理单元；相反，一个物理组件可具有多个功能，且一个任务可由若干物理组件协同地实行。可将某些组件或所有组件实施为由数字信号处理器或微处理器执行的软件，或实现为硬件或专用集成电路。这个软件可经分布在计算机可读媒体上，所述计算机可读媒体可包括计算机存储媒体(或非暂时性媒体)及通信媒体(或暂时性媒体)。如所属领域的技术人员所众所周知，术语计算机存储媒体包含以用于存储信息(例如计算机可读指令、数据结构、程序模块或其它数据)的以任何方法或技术实施的易失性及非易失性媒体、可卸除及不可卸除媒体两者。计算机存储媒体包含但不限于RAM、ROM、EEPROM、快闪存储器或其它存储器技术、CD-ROM、数字通用光盘(DVD)或其它光盘存储装置、磁带盒、磁带、磁盘存储装置或其它磁性存储装置，或可用来存储所期望信息且可由计算机存取的任何其它媒体。此外，所属领域的技术人员众所周知的是，通信媒体通常以调制数据信号(例如载波或其它传送机制)体现计算机可读指令、数据结构、程序模块或其它数据且包含任何信息递送媒体。

将参考图3到6论述实施本发明的实施例的各种方式。所有这些实施例大体上涉及一种用于将对话增强应用于具有一或多个音频成分的输入音频信号的系统及方法，其中每一成分与空间位置相关联。通常在解码器中实施所说明块。

在所提出实施例中，优选地在时间/频率分块中例如通过滤波器组(例如正交镜像滤波器(QMF)组)、离散傅里叶变换(DFT)、离散余弦变换(DCT)或用来将输入信号分成各种频带的任何其它方法来分析输入信号。此变换的结果是由用于时隙(或帧)k及子频带b的子频带信号x_i[b,k]表示用于具有索引i及离散时间索引n的输入的输入信号x_i[n]。考虑例如从立体声呈现估计双耳对话呈现。令x_j[b,k],j＝1,2表示左立体声声道及右立体声声道的子频带信号，且

表示所估计的左双耳对话信号及右双耳对话信号的子频带信号。可如下计算对话估计

其中频率索引(b)及时间索引(k)的B_p,K集合对应于所期望时间/频率分块，p是参数频带索引，且m是卷积抽头索引，且

是属于输入索引j、参数频带B_p、取样范围或时隙K、输出索引i及卷积抽头索引m的矩阵系数。使用上述公式化的表述，通过参数w(相对于立体声信号；在这种情况下立体声信号J＝2)来参数化对话。集合K中的时隙数目可独立于频率且相对于频率恒定，且通常经选择以对应于5ms到40ms的时间间隔。频率索引集合的数目P通常在1到25之间，其中每一集合中的频率索引的数目通常随频率增加而增加以反映听觉的特性(参数化中的较高频率分辨率朝向较低频率)。

可在编码器中计算且使用在2015年8月25日申请的序列号为62/209,735的美国临时专利申请案中揭示的技术编码对话参数w，所述申请案以引用方式并入本文。接着，在位流中传输且在使用上述等式应用之前由解码器解码参数w。归因于估计的线性性质，在其中目标信号(清晰对话或清晰对话的估计)可用的情况下，可使用最小均方误差(MMSE)方法来实施编码器计算。

P的选择及K中时隙数目的选择是质量与位速率之间的权衡。此外，可约束参数w以便通过例如假设当i≠j时

且简单地不传输那些参数来降低位速率(以较低质量为代价)。M的选择也是质量/位速率权衡，参见2015年8月25日申请的美国专利申请案62/209,742，所述申请案以引用方式并入本文。参数w通常是复值，因为信号的双耳化引入ITD(相位差)。然而，可将参数约束为实值以便降低位速率。此外，已熟知人类对高于某一频率(相位/振幅截止频率，约为1.5kHz到2kHz)的左耳信号与右耳信号之间的相位差及时间差不灵敏，因此在高于那个频率的情况下，通常进行双耳处理使得在左双耳信号与右双耳信号之间不引入相位差，且因此参数可经实值化而无质量损失(参见J布瑞巴特(Breebaart,J.)、F内特(Nater,F.)、A科尔劳施(Kohlrausch,A.)(2010)，参数化的基于滤波器组的HRTF处理的频谱及空间参数分辨率要求(Spectral and spatial parameter resolutionrequirements for parametric,filter-bank-based HRTF processing)，《音频工程学会杂志》(J.Audio Eng.Soc.)，58卷第3期，126-140页)。上述质量/位速率权衡可在每一时间/频率分块中独立完成。

通常，提议使用以下形式的估计器

其中

及x中的至少一者是双耳信号，即，I＝2或J＝2或I＝J＝2。为方便记号，在下文中当引用用来估计对话的不同参数集时通常将省略时间/频率分块索引B_p,K以及i、j、m索引。

上述估计器可方便地用矩阵记号表述为(省略时间/频率分块索引以便于记号)

其中X_m＝[x₁(m) … x_J(m)]及

分别在列中包含x_j[b,k-m]及

的向量化版本，且W_m是具有J行及I列的参数矩阵。当仅执行对话提取时或当仅执行呈现变换时以及在其中如下述实施例中详述那样使用单组参数进行提取及呈现变换两者的情况下，可使用上述形式的估计器。

参考图3，已从包含多个空间化音频成分的沉浸式音频信号呈现第一音频信号呈现31。这个第一音频信号呈现经提供给对话估计器32，以便提供一或若干个所提取对话成分的呈现33。对话估计器32具备一组专用对话估计参数34。对话呈现由增益块35进行级别修改(例如，升高)，且接着与音频信号的第二呈现36组合以形成对话增强输出37。如下文将论述，所述组合可为简单求和，但还可涉及在将变换应用于和之前对对话呈现与第一呈现求和，由此形成对话增强第二呈现。

根据本发明，所述呈现中的至少一者是双耳呈现(回声或无回声)。如将在下文中进一步论述，第一呈现及第二呈现可不同，且对话呈现可或可不对应于第二呈现。例如，可希望在第一音频再现系统(例如一组扬声器)上回放第一音频信号呈现，同时可希望在第二音频再现系统(例如耳机)上回放第二音频信号呈现。

单个呈现

在图4中的解码器实施例中，第一呈现41及第二呈现46以及对话呈现43均是(回声或无回声)双耳呈现。(双耳)对话估计器42及-专用参数44-因此经配置以估计双耳对话成分，所述双耳对话成分在块45中进行级别修改且添加到第二音频呈现46以形成输出47。

在图4中的实施例中，参数44未经配置以执行任何呈现变换。尽管如此，为获得最佳质量，双耳对话估计器42在高达相位/振幅截止频率的频带中应是复值。为解释为什么即使在未进行呈现变换时仍需要复值估计器，考虑从作为双耳对话及其它双耳背景内容的混合物的双耳信号估计双耳对话。最优对话提取通常包含例如从左双耳信号减去右双耳信号的部分以抵消背景内容。由于双耳处理本质上引入左信号与右信号之间的时间(相位)差，所以必须在补偿那些相位差之后才能进行任何减法，且此补偿需要复值参数。实际上，当研究参数的MMSE计算结果时，参数通常作为复值出现，前提是不约束为实值。在实践中，复数与实值参数的选择是质量与位速率之间的权衡。如上所述，通过利用对高频下的精细结构波形相位差的不灵敏度，参数可在频率相位/振幅截止频率之上实值化而无任何质量损失。

两个呈现

在图5中的解码器实施例中，第一呈现及第二呈现是不同的。在所说明实例中，第一呈现51是非双耳呈现(例如，立体声2.0或环绕声5.1)，而第二呈现56是双耳呈现。在这种情况下，所述组对话估计参数54经配置以允许双耳对话估计器52从非双耳呈现51估计双耳对话呈现53。应注意，所述呈现可颠倒，在这种情况下双耳对话估计器将例如从双耳音频呈现估计立体声对话呈现。在任一情况下，对话估计器需要提取对话成分且执行呈现变换。双耳对话呈现53是由块55进行级别修改且添加到第二呈现56。

如图5中所指示，双耳对话估计器52接收单组参数54，所述组参数54经配置以执行对话提取及呈现变换的两个操作。然而，如图6中所指示，(回声或无回声)双耳对话估计器62也可能接收两组参数D1、D2；一组(D1)经配置以提取对话(对话提取参数)且一组(D2)经配置以执行对话呈现变换(对话变换参数)。这可有利于其中这些子集D1、D2中的一者或两者在解码器中已可用的实施方案。例如，对话提取参数D1可用于常规对话提取，如图2中所指示。此外，参数变换参数D2可用于联播实施方案，如下文所论述。

在图6中，对话提取(块62a)被指示为在呈现变换(块62b)之前发生，但这个顺序当然也可颠倒。还应注意，出于计算效率的原因，即使参数经提供为两个单独集合D1、D2，在将这个组合变换应用于输入信号61之前，首先将两组参数组合成一个组合矩阵变换可能是有利的。

此外，应注意，对话提取可为一维的，使得所提取对话是单声道表示。接着，变换参数D2是位置元数据，且呈现变换包括使用对应于位置的HRTF、HRIR或BRIR来呈现单声道对话。替代地，如果希望所期望的呈现对话呈现以扬声器回放，那么可使用扬声器呈现技术(例如振幅平移或基于向量的振幅平移(VBAP))来呈现单声道对话。

联播实施方案

图7到11展示在联播系统(即，其中编码一个音频呈现且将其连同一组变换参数一起传输到解码器，所述组变换参数使得解码器能够将所述音频呈现变换成适于指定回放系统的不同呈现(例如如所指示，用于耳机的双耳呈现)的系统)的背景中的本发明的实施例。在2015年8月25日申请的共同待决且未公开的第62/209,735号美国临时专利申请案中详细描述此系统的各个方面，所述申请案以引用方式并入本文中。为简单起见，图7到11仅说明解码器侧。

如图7中所说明，核心解码器71接收经编码位流72，其包含音频成分的初始音频信号呈现。在所说明情况下，这个初始呈现是立体声呈现z，但其也可为任何其它呈现。位流72还包含一组呈现变换参数w(y)，其用作矩阵系数以执行立体声信号z的矩阵变换73以生成所重构无回声双耳信号

已如US 62/209,735中所论述在编码器中确定变换参数w(y)。在所说明情况下，位流72还包含一组参数w(f)，其用作矩阵系数以执行立体声信号z的矩阵变换74以生成用于声学环境模拟(在此是反馈延迟网络(FDN)75)的所重构输入信号

已以与呈现变换参数w(y)类似的方式确定这些参数w(f)。FDN 75接收输入信号

且提供可与无回声双耳信号

组合以提供回声双耳信号的声学环境模拟输出FDN_out。

在图7中的实施例中，位流进一步包含一组对话估计参数w(D)，其用作对话估计器76中的矩阵系数以执行立体声信号z的矩阵变换以生成无回声双耳对话呈现D。对话呈现D在块77中进行级别修改(例如，升高)，且在求和块78中与所重构无回声信号

及声学环境模拟输出FDN_out组合。

图7本质上是在联播背景中的图5中的实施例的实施方案。

在图8中的实施例中，如在图7中那样接收及解码立体声信号z、一组变换参数w(y)及另一组参数w(f)，且元件71、73、74、75及78等效于关于图7所论述的那些元件。此外，在此的位流82还包含一组对话估计参数w(D1)，其由对话估计器86应用于信号z。然而，在这个实施例中，对话估计参数w(D1)未经配置以提供任何呈现变换。因此，来自对话估计器86的对话呈现输出D_stereo对应于初始音频信号呈现，在此是立体声呈现。这个对话呈现D_stereo在块87中进行级别修改，且接着在求和88中添加到信号z。接着，通过所述组变换参数w(y)变换对话增强信号(z+D_stereo)。

图8可被视为图6中的实施例在联播背景中的实施方案，其中w(D1)用作D1且w(y)用作D2。然而，虽然在图6中在对话估计器62中应用两组参数，但在图8中将所提取对话D_stereo添加到信号z且将变换w(y)应用于所组合信号(z+D)。

应注意，所述组参数w(D1)可与用来在联播实施方案中提供立体声信号的对话增强的对话增强参数相同。在图9a中说明这个替代方案，其中对话提取96a被指示为形成核心解码器91的部分。此外，在图9a中，使用参数集w(y)的呈现变换96b在增益之前与信号z的变换分开地执行。因此，这个实施例甚至与图6中所展示的情况更类似，其中对话估计器62包括两个变换96a、96b。

图9b展示图9a中的实施例的修改版本。在这种情况下，不使用参数集w(y)而是使用在专用于双耳对话估计的位流的部分中提供的一组额外参数w(D2)来执行呈现变换。

在一个实施例中，图9b中的前述专用呈现变换w(D2)是实值、单抽头(M＝1)、全频带(P＝1)矩阵。

图10展示图9a到9b中的实施例的修改版本。在这种情况下，对话提取器96a再次提供立体声对话呈现D_stereo，且再次被指示为形成核心解码器91的部分。然而，在此，在块97中进行级别修改之后，将立体声对话呈现D_stereo直接添加到无回声双耳信号

(连同来自FDN的声学环境模拟)。

应注意，组合具有不同呈现的信号(例如，对立体声对话信号与双耳信号(其包含非增强双耳对话成分)求和)自然地导致空间成像伪像，这是因为非增强双耳对话成分被感知为与相同成分的立体声呈现在空间上不同。

进一步应注意，组合具有不同呈现的信号可导致对话成分在某些频带中的相长求和及在其它频带中的相消求和。这种情况的原因是双耳处理引入ITD(相位差)，且对在某些频段中同相及在其它频段中异相的信号求和，从而导致对话成分中的着色伪像(此外着色可在左耳及右耳中有所不同)。在一个实施例中，在双耳处理中避免高于相位/振幅截止频率的相位差以便减少这种类型的伪像。

组合具有不同呈现的信号的情况最后应注意的是，应承认双耳处理通常可降低对话的可理解性。在其中对话增强的目标是最大化可理解性的情况下，提取非双耳对话信号并修改(例如，升高)所述信号的级别可能是有利的。为进一步详细说明，即使希望回放的最终呈现是双耳的，在此情况下提取立体声对话信号并修改(例如，升高)所述信号的级别且组合那个立体声对话信号与双耳呈现(如上文所描述权衡着色伪像及空间成像伪像以增加可理解性)可能是有利的。

在图11中的实施例中，正如图7中那样接收及解码立体声信号z、一组变换参数w(y)及另一组参数w(f)。此外，与图8类似，位流还包含未经配置以提供任何呈现变换的一组对话估计参数w(D1)。然而，在这个实施例中，对话估计参数w(D1)由对话估计器116应用于经重构无回声双耳信号

以提供无回声双耳对话呈现D。这个对话呈现D由块117进行级别修改且在求和118中连同FDN_out添加到信号

图11本质上是图5中的单个呈现实施例在联播背景中的实施方案。然而，其也可被视为其中D1及D2顺序颠倒的图6的实施方案，其中再次w(D1)用作D1且w(y)用作D2。然而，虽然在图6中在对话估计器中应用两组参数，但在图9中已应用变换参数D2以便获得

且对话估计器116仅需要将参数w(D1)应用于信号

以便获得回声双耳对话呈现D。

在一些应用中，可期望取决于对话级别修改因子G的所期望值来应用不同处理。在一个实施例中，基于确定因子G是大于还是小于给定阈值来选择实例性的适当处理。当然，也可能存在一个以上阈值及一个以上替代处理。例如，当G<th1时选择第一处理，当th1<＝G<th2时选择第二处理，且当G>＝th2时选择第三处理，其中th1及th2是两个给定阈值。

在图12中所说明的具体实例中，阈值是零，且当G<0(对话减弱)时应用第一处理，而当G>0(对话增强)时应用第二处理。为了这个目的，图12中的电路包含呈具有两个位置A及B的开关121的形式的选择逻辑。所述开关具备来自块122的增益因子G的值，且经配置以当G<0时占据位置A且当G>0时占据位置B。

当所述开关位于位置A时，电路在此经配置以组合来自矩阵变换86的所估计立体声对话与立体声信号z，接着对所组合信号执行矩阵变换73以生成经重构无回声双耳信号。接着，在78中组合来自反馈延迟网络75的输出与这个信号。应注意，这个处理本质上对应于上文所论述的图8。

当所述开关位于位置B时，电路在此经配置以将变换参数w(D2)应用于来自矩阵变换86的立体声对话以便提供双耳对话估计。接着，将这个估计添加到来自变换73的无回声双耳信号且从反馈延迟网络75输出。应注意，这个处理本质上对应于上文所论述的图9b。

所属领域的技术人员将意识到分别用于位置A及B中的处理的许多其它替代方案。例如，当所述开关位于位置B时的处理可代替地对应于图10中的那个处理。然而，图12中的实施例的主要贡献是引入开关121，其实现取决于增益因子G的值进行替代处理。

解释

贯穿本说明书对“一个实施例”、“一些实施例”或“实施例”的引用意指结合所述实施例描述的特定特征、结构或特性包含在本发明的至少一个实施例中。因此，贯穿本说明书在各个地方出现短语“在一个实施例中”、“在一些实施例中”或“在实施例中”未必均指相同实施例，但可指相同实施例。此外，在一或多个实施例中，可以任何合适方式组合特定特征、结构或特性，如所属领域的一般技术人员将根据本发明明白。

如本文中所使用，除非另有说明，否则使用序数形容词“第一”、“第二”、“第三”等来描述共同对象，仅指示引用类似对象的不同实例且并非希望暗示如此描述的对象必须按给定序列(在时间上、在空间上、在排序中或以任何其它方式)。

在所附权利要求书及本文描述中，术语包括、由…组成或其包括中的任一者是意指至少包含所附元件/特征但不排除其它元件/特征的开放术语。因此，当在权利要求书中使用时，术语包括不应被解释为限于后文所列的构件或元件或步骤。例如，包括A及B的装置的表述范围不应限于仅由元件A及B组成的装置。如本文中所使用的术语包含或其包含(which includes或that includes)中的任一者也是同样意指至少包含术语之后的元件/特征但不排除其它元件/特征的开放术语。因此，包含与包括同义且意指包括。

如本文中所使用，在提供实例的意义上使用术语“示范性”，这与指示质量相反。即，“示范性实施例”是作为实例提供的实施例，这与必然是实例性质量的实施例相反。

应明白，在本发明的示范性实施例的上文描述中，本发明的各种特征有时一起分组在单个实施例、图或其描述中，以便简化本发明且辅助理解各种发明方面中的一或多者。然而，本发明的这种方法不应被解释为反映本发明需要比每一权利要求中明确地列举更多的特征的意图。相反，如所附权利要求书所反映，发明方面在于少于单个前述揭示实施例的所有特征。因此，具体实施方式所附的权利要求书在此明确地并入本具体实施方式中，其中每一权利要求自身作为本发明的单独实施例。

此外，虽然本文中所描述的一些实施例包含一些特征而非其它实施例中包含的其它特征，但不同实施例的特征的组合意图在本发明的范围内，且形成不同实施例，如所属领域的技术人员将理解。例如，在所附权利要求书中，所主张实施例中的任一者可以任何组合方式使用。

此外，本文中将一些实施例描述为可由计算机系统的处理器或由实行功能的其它构件实施的方法或方法元素的组合。因此，具有用于实行此方法或方法元素的必需指令的处理器形成用于实行所述方法或方法元素的构件。此外，本文中所描述的装置实施例的元件是用于实行由所述元件执行以实行本发明的功能的构件的实例。

在本文中所提供的描述中，阐述许多具体细节。然而，应理解，可在无这些具体细节的情况下实践本发明的实施例。在其它实例中，未详细展示众所周知的方法、结构及技术以免模糊对本描述的理解。

类似地，应注意，当在权利要求书中使用时，术语“耦合”不应被解释为仅限于直接连接。可使用术语“耦合”及“连接”连同其衍生词。应理解，并非希望这些术语作为彼此的同义词。因此，装置A耦合到装置B的表述范围不应限于其中装置A的输出直接连接到装置B的输入的装置或系统。这意指在A的输出与B的输入之间存在可为包含其它装置或构件的路径的路径。“耦合”可意指两个或更多个元件直接物理或电接触，或两个或更多个元件彼此不直接接触但仍彼此协作或彼此交互。

因此，虽然已描述本发明的具体实施例，但所属领域的技术人员将认识到，在不脱离本发明的精神的情况下，可对其进行其它及进一步修改，且希望主张所有此类改变及修改落入本发明的范围内。例如，上文所给出的任何公式仅表示可使用的程序。可从框图添加或删除功能，且可在功能块当中互换操作。可在本发明的范围内描述的方法中添加或删除步骤。

Claims

1.一种用于增强具有一或多个音频成分的音频内容的对话的方法，其中每一成分与空间位置相关联，所述方法包括：

提供希望在第一音频再现系统上再现的所述音频成分的第一音频信号呈现；

提供希望在第二音频再现系统上再现的所述音频成分的第二音频信号呈现；

接收一组对话估计参数，所述对话估计参数经配置以实现从所述第一音频信号呈现估计对话成分；

将所述组对话估计参数应用于所述第一音频信号呈现，以形成所述对话成分的对话呈现；及

组合所述对话呈现与所述第二音频信号呈现以形成在所述第二音频再现系统上再现的对话增强音频信号呈现；

其中所述第一音频信号呈现及所述第二音频信号呈现中的至少一者是双耳音频信号呈现。

2.根据权利要求1所述的方法，其中所述第一音频信号呈现及所述第二音频信号呈现两者是双耳音频信号呈现。

3.根据权利要求1所述的方法，其中仅所述第一音频信号呈现及所述第二音频信号呈现中的一者是双耳音频信号呈现。

4.根据权利要求3所述的方法，其中所述第一音频信号呈现及所述第二音频信号呈现中的另一者是立体声或环绕声音频信号呈现。

5.根据权利要求3或4所述的方法，其进一步包括：接收一组对话变换参数且在应用所述组对话估计参数之前或之后应用所述组对话变换参数，以形成对应于所述第二音频信号呈现的经变换对话呈现。

6.根据权利要求3或4所述的方法，其中所述对话估计参数还经配置以执行呈现变换，使得所述对话呈现对应于所述第二音频信号呈现。

7.根据权利要求2所述的方法，其中提供所述第一音频信号呈现包含接收初始音频信号呈现及一组呈现变换参数，且将所述组呈现变换参数应用于所述初始音频信号呈现。

8.根据权利要求1到4及7中任一权利要求所述的方法，其进一步包括：接收一组呈现变换参数，所述呈现变换参数经配置以实现将所述第一音频信号呈现变换成所述第二音频信号呈现；及将所述组呈现变换参数应用于所述第一音频信号呈现以形成所述第二音频信号呈现。

9.根据权利要求8所述的方法，其进一步包括在应用所述组对话估计参数之前或之后应用所述组呈现变换参数，以形成对应于所述第二音频信号呈现的经变换对话呈现。

10.根据权利要求8所述的方法，其中组合所述对话呈现与所述第二音频信号呈现的步骤包含形成所述对话呈现及所述第一音频信号呈现的和且将所述组呈现变换参数应用于所述和。

11.根据权利要求1到4及7中任一权利要求所述的方法，其中提供所述音频成分的所述第一音频信号呈现包括从编码器接收所述第一音频信号呈现。

12.根据权利要求1到4及7中任一权利要求所述的方法，其进一步包括将级别修改因子G应用于所述对话呈现。

13.根据权利要求12所述的方法，其中当G小于给定阈值时应用第一处理，且当G大于所述阈值时应用第二处理。

14.根据权利要求13所述的方法，其中所述阈值等于零，其中G<0表示对话减弱且G>0表示对话增强。

15.根据权利要求13所述的方法，其中所述第一处理包括形成所述对话呈现及所述第一音频信号呈现的和且将一组呈现变换参数应用于所述和。

16.根据权利要求13所述的方法，其中所述第二处理包括在应用所述组对话估计参数之前或之后应用一组呈现变换参数，以形成对应于所述第二音频信号呈现的经变换对话呈现。

17.一种用于增强具有一或多个音频成分的音频内容的对话的方法，其中每一成分与空间位置相关联，所述方法包括：

接收希望在第一音频再现系统上再现的所述音频成分的第一音频信号呈现；

接收一组呈现变换参数，所述呈现变换参数经配置以实现将所述第一音频信号呈现变换成希望在第二音频再现系统上再现的第二音频信号呈现；

接收一组对话估计参数，其经配置以实现从所述第一音频信号呈现估计对话成分；

将所述组呈现变换参数应用于所述第一音频信号呈现以形成第二音频信号呈现；

将所述组对话估计参数应用于所述第一音频信号呈现以形成所述对话成分的对话呈现；及

其中仅所述第一音频信号呈现及所述第二音频信号呈现中的一者是双耳音频信号呈现。

18.根据权利要求17所述的方法，其中组合所述对话呈现与所述第二音频信号呈现的步骤包含形成所述对话呈现及所述第一音频信号呈现的和且将所述组呈现变换参数应用于所述和。

19.根据权利要求17所述的方法，其中所述对话估计参数还经配置以执行呈现变换，使得所述对话呈现对应于所述第二音频信号呈现。

20.根据权利要求17所述的方法，其进一步包括在应用所述组对话估计参数之前或之后应用所述组呈现变换参数，以形成对应于所述第二音频信号呈现的经变换对话呈现。

21.根据权利要求17所述的方法，其中所述对话呈现是单声道呈现，且所述方法进一步包括：

接收与所述对话成分相关的位置数据，

在与所述第二音频信号呈现组合之前使用所述位置数据来渲染所述单声道对话呈现。

22.根据权利要求21所述的方法，其中所述渲染包含：

基于所述位置数据从库选择头部相关传递函数HRTF，及

将选定的所述HRTF应用于所述单声道对话呈现。

23.根据权利要求21所述的方法，其中所述渲染包含振幅平移。

24.一种用于增强具有一或多个音频成分的音频内容的对话的方法，其中每一成分与空间位置相关联，所述方法包括：

接收一组对话估计参数，所述对话估计参数经配置以实现从所述第二音频信号呈现估计对话成分；

将所述组呈现变换参数应用于所述第一音频信号呈现以形成所述第二音频信号呈现；

将所述组对话估计参数应用于所述第二音频信号呈现以形成所述对话成分的对话呈现；及

对所述对话呈现与所述第二音频信号呈现求和以形成在所述第二音频再现系统上再现的对话增强音频信号呈现；

25.一种用于增强具有一或多个音频成分的音频内容的对话的解码器，其中每一成分与空间位置相关联，所述解码器包括：

核心解码器，其用于接收及解码希望在第一音频再现系统上再现的所述音频成分的第一音频信号呈现及经配置以实现从所述第一音频信号呈现估计对话成分的一组对话估计参数；

对话估计器，其用于将所述组对话估计参数应用于所述第一音频信号呈现，以形成所述对话成分的对话呈现；及

用于组合所述对话呈现与第二音频信号呈现以形成在第二音频再现系统上再现的对话增强音频信号呈现的构件；

26.根据权利要求25所述的解码器，其中所述第一音频信号呈现及所述第二音频信号呈现中的一者是立体声或环绕声音频信号呈现。

27.根据权利要求25或26所述的解码器，其中所述核心解码器进一步经配置以接收一组对话变换参数，且其中所述对话估计器进一步经配置以在应用所述组对话估计参数之前或之后应用所述组对话变换参数以形成对应于所述第二音频信号呈现的经变换对话呈现。

28.根据权利要求25或26所述的解码器，其中所述对话估计器还经配置以使用所述组对话估计参数来执行呈现变换，使得所述对话呈现对应于所述第二音频信号呈现。

29.根据权利要求25到26中任一权利要求所述的解码器，其中所述核心解码器进一步经配置以接收一组呈现变换参数，且所述解码器进一步包括：

变换单元，其经配置以将所述组呈现变换参数应用于所述第一音频信号呈现以形成所述第二音频信号呈现。

30.根据权利要求29所述的解码器，其中所述对话估计器经配置以在应用所述组对话估计参数之前或之后应用所述组呈现变换参数，以形成对应于所述第二音频信号呈现的经变换对话呈现。

31.根据权利要求29所述的解码器，其中用于组合所述对话呈现与所述第二音频信号呈现的所述构件包含用于形成所述对话呈现及所述第一音频信号呈现的和的求和块，且其中所述变换单元经配置以将所述组呈现变换参数应用于所述和。

32.根据权利要求25到26中任一权利要求所述的解码器，其进一步包括级别修改块，所述级别修改块经配置以将级别修改因子G应用于所述对话呈现。

33.根据权利要求32所述的解码器，其进一步包括选择逻辑，所述选择逻辑经配置以当G小于给定阈值时选择所述对话估计参数的第一应用，且当G大于所述阈值时应用第二处理。

34.根据权利要求33所述的解码器，其中所述阈值等于零，其中G<0表示对话减弱且G>0表示对话增强。

35.根据权利要求33所述的解码器，其中所述核心解码器进一步经配置以接收一组呈现变换参数，且其中所述第一应用包括形成所述对话呈现及所述第一音频信号呈现的和且将所述组呈现变换参数应用于所述和。

36.根据权利要求33所述的解码器，其中所述核心解码器进一步经配置以接收一组呈现变换参数，且其中第二应用包括在应用所述组对话估计参数之前或之后应用所述组呈现变换参数，以形成对应于所述第二音频信号呈现的经变换对话呈现。

37.一种用于增强具有一或多个音频成分的音频内容的对话的解码器，其中每一成分与空间位置相关联，所述解码器包括：

核心解码器，其用于接收希望在第一音频再现系统上再现的所述音频成分的第一音频信号呈现、经配置以实现将所述第一音频信号呈现变换成希望在第二音频信号呈现系统上再现的第二音频信号呈现的一组呈现变换参数、及经配置以实现从所述第一音频信号呈现估计对话成分的一组对话估计参数；

变换单元，其经配置以将所述组呈现变换参数应用于所述第一音频信号呈现以形成希望在第二音频再现系统上再现的所述第二音频信号呈现；

对话估计器，其用于将所述组对话估计参数应用于所述第一音频信号呈现以形成所述对话成分的对话呈现；及

用于组合所述对话呈现与所述第二音频信号呈现以形成在所述第二音频再现系统上再现的对话增强音频信号呈现的构件；

38.根据权利要求37所述的解码器，其中用于组合所述对话呈现与所述第二音频信号呈现的所述构件包含用于形成所述对话呈现及所述第一音频信号呈现的和的求和块，且其中所述变换单元经配置以将所述组呈现变换参数应用于所述和。

39.根据权利要求37所述的解码器，其中所述对话估计器还经配置以使用所述组对话估计参数来执行呈现变换，使得所述对话呈现对应于所述第二音频信号呈现。

40.根据权利要求37所述的解码器，其中所述对话估计器经配置以在应用所述组对话估计参数之前或之后应用所述组呈现变换参数，以形成对应于所述第二音频信号呈现的经变换对话呈现。

41.根据权利要求37所述的解码器，其中所述对话呈现是单声道呈现，且其中所述核心解码器进一步经配置以接收与所述对话成分相关的位置数据，且其进一步包括：

渲染器，其经配置以在与所述第二音频信号呈现组合之前使用所述位置数据来渲染所述单声道对话呈现。

42.根据权利要求41所述的解码器，其中所述渲染器经配置以：

基于所述位置数据从库选择头部相关传递函数HRTF，及

将选定的所述HRTF应用于所述单声道对话呈现。

43.根据权利要求41所述的解码器，其中所述渲染器经配置以应用振幅平移。

44.一种用于增强具有一或多个音频成分的音频内容的对话的解码器，其中每一成分与空间位置相关联，所述解码器包括：

变换单元，其经配置以将所述组呈现变换参数应用于所述第一音频信号呈现以形成希望在第二音频再现系统上再现的第二音频信号呈现；

对话估计器，其用于将所述组对话估计参数应用于所述第二音频信号呈现以形成所述对话成分的对话呈现；及

求和块，其用于对所述对话呈现与所述第二音频信号呈现求和以形成在所述第二音频再现系统上再现的对话增强音频信号呈现；