CN111630591A

CN111630591A - 支持不同丢失消隐工具的集合的音频解码器

Info

Publication number: CN111630591A
Application number: CN201880086169.XA
Authority: CN
Inventors: 阿德里安·托马塞克; 伊曼纽尔·拉维利; 马库斯·施奈尔; 亚历山大·切卡林斯基; 迈克尔·施纳贝尔; 拉尔夫·斯皮尔施内德
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2017-11-10
Filing date: 2018-11-05
Publication date: 2020-09-04
Anticipated expiration: 2038-11-05
Also published as: CN111630591B; TW202125502A; TWI704554B; PL3707705T3; TW201923749A; WO2019091924A1; EP3707705A1; SG11202004223RA; JP7073492B2; CA3082268C; KR20200077575A; AU2018363136B2; MX2020004791A; KR102424897B1; EP3483878A1; PT3707705T; US20200265846A1; FI3707705T3; AU2018363136A1; US11315580B2

Abstract

如果分配/选择基于下列两个度量来完成，则可以采用导致更令人愉悦的丢失消隐方式，将音频解码器的不同丢失消隐工具的相位集合的一个丢失消隐工具分配给待从数据流解码的音频信号的一部分，所述部分受丢失影响、亦即出自不同丢失消隐工具的集合的选择，所述两个度量为：已确定的第一度量对音频信号的频谱的频谱矩心的频谱位置进行测量、以及已确定的第二度量对音频信号的时间可预测性进行测量。分配或选择的丢失消隐工具可以接着用于恢复音频信号的所述部分。

Description

支持不同丢失消隐工具的集合的音频解码器

说明书

本申请涉及支持不同丢失消隐工具的集合的音频解码器。

封包丢失消隐(PLC)用于音频编解码，以使丢失或损毁的封包在从编码器传输至解码器期间消隐。PLC是在解码器侧处进行，并且通过在变换域中或时域中外推已解码信号来运作。理想情况下，消隐信号应该无伪影，并且应该具有与遗漏信号相同的频谱特性。

如[2]及[4]中所述，误差稳健音频编解码大致具有用于各种信号类型的多种消隐方法，例如：用于单音信号的语音作为示例，用于多音信号或噪声信号的音乐为示例。选择基于信号特征的集合，该组信号特征从比特流传输且解码、或在解码器中估计。

基于音调的PLC技术对于语音及单音信号大致产生良好结果。这些方法假设信号为局部平稳，并且通过使用外推音调周期合成周期信号来恢复丢失信号。这些技术广泛用于基于 CELP的语音编码，诸如ITU-T G.718[2]。它们亦可以用于PCM编码，诸如用于ITU-TG.711 [3]，并且近来它们应用于基于DECT的音频编码，最佳示例为3GPP EVS标准[4]中的TCX 时域消隐、TCX TD-PLC。

音调滞后是用于基于音调的PLC的主要参数。此参数可以在编码器侧处估计，并且被编码在比特流中。在这种状况中，最后良好帧的音调滞后用于消隐目前丢失帧，诸如[2]及[4] 中所述。如果比特流中没有音调滞后，则可以通过对已解码信号运行音调检测算法，在解码器侧处估计音调滞后，诸如[3]中所述。

对于非周期性、非声调、似噪声信号，已发现一种低复杂度技术有效，其称为具有符号加扰的帧重复。该技术基于重复最后帧，并且将频谱系数乘以随机产生的符号，以使丢失帧消隐。可以在3GPP EVS标准[4]中发现具有符号加扰的MDCT帧重复的一个示例。

对于声调多音信号或复杂音乐信号，使用一种基于预测任何检测到的声调分量的频谱系数的相位的方法。此方法显示对平稳声调信号的一致性改善。声调分量由亦存在于先前所接收的(一个或多个)帧中的峰值所组成。属于声调分量的频谱系数的相位从最后所接收的(一个或多个)帧的功率谱确定。可以在3GPP EVS标准[4]中发现声调MDCT消隐的一个示例。

综上所述，已知不同PLC方法，但这些方法特定用于某些情况，亦即用于某些音频特性。也就是说，支持这些PLC方法中的数种方法之一音频编码器应该具有用以在遭遇帧或封包丢失时选择最适合PLC方法之一机制。该最适合PLC方法是用于该丢失信号最不引人注目的替代方法。

本申请的目的是提供一种音频解码概念，其允许包括不同丢失消隐工具的集合的音频解码器实现改良型丢失消隐。

此目的通过本申请的独立权利要求的目标内容来达成。

本发明的想法基于以下发现：如果分配/选择基于下列两个度量来完成，则可以采用导致更令人愉悦的丢失消隐的方式，将音频解码器的不同丢失消隐工具的相位集合中的一个丢失消隐工具分配给待从数据流解码的音频信号的一部分，所述部分受丢失影响、亦即出自不同丢失消隐工具的集合的选择，所述两个度量为：已确定的第一度量对音频信号的频谱的频谱矩心的频谱位置进行测量、以及已确定的第二度量对音频信号的时间可预测性进行测量。分配或选择的丢失消隐工具可以接着用于恢复音频信号的所述部分。

举例来说，基于前述第一度量及第二度量，可以将第一丢失消隐工具及第二丢失消隐工具中的一个丢失消隐工具分配给丢失部分，其中第一丢失消隐工具被配置用以通过使用取决于从数据流得出的音调值的周期性的周期信号所进行的音频信号合成来恢复音频信号，以及第二丢失消隐工具可以被配置用以通过检测音频信号的声调频谱分量、在声调频谱分量处进行相位检测、以及通过在取决于相位检测对信号之间的相互相移进行调整下，组合取决于声调频谱分量的周期性信号所进行的音频信号合成，来恢复音频信号。换句话说，基于第一度量及第二度量，可以将声调频域PLC工具及声调时域PLC工具中的一个分配给丢失部分。

根据实施例，对于丢失部分，分阶段进行分配/选择：确定对音频信号的频谱的声调性进行测量的第三度量，以及将出自该组不同丢失消隐工具的一个或多个丢失消隐工具的第一子集及第二子集中的一个子集分配给丢失部分，并且仅在将一个或多个丢失消隐工具的第一子集分配给丢失部分时，才基于出自此第一子集的第一度量及第二度量，为丢失部分分配一个PLC工具。否则，从第二子集中进行分配/选择。

本申请的有利方面为从属权利要求的主题。下文对照附图提出本申请的优选实施例，在附图中：

图1采用示意性方式示出根据本申请的实施例的音频解码器的框图；

图2示出根据实施例的图1的音频解码器的分配器32的操作模式的流程图；

图3示出图示根据实施例的用于确定图2中PLC分配的第一度量的频谱矩心检测的示意图；

图4示出图示根据实施例的用于确定图2的PLC分配的第二度量的时间可预测性检测的示意图；

图5示出用于图示图2的PLC 1的操作模式的示意图；

图6示出图示根据实施例的PLC 2的操作模式的示意图；

图7示出根据实施例的图2的分配操作的修改版本的流程图，其经延伸以便为封包丢失消隐PLC 1至PLC 3，从PLC工具的集合进行分配；以及

图8示出用于在三个PLC工具之中做决策的决策树，图7的实施例对应于该决策树。

图1示出根据本申请的实施例的音频解码器。如图中所示，音频解码器10被配置用以从数据流14解码音频信号12。可以根据任何适合的音频编解码，诸如基于时域的音频编解码或基于频域的音频编解码，将音频信号12编码在数据流14中。可以分别以帧18的时间部分16为单位，将音频信号12编码在数据流14中。更精确地说，可以在时间上将音频信号12细分成重叠或非重叠时间部分或间隔16，其各对应于将数据流14细分的帧18中的某一个。各帧18编码对应的时间部分16。举例来说，部分18可以含有关于线性预测系数的信息，其描述对应部分16内音频信号的频谱包络。另外，帧18可以具有在其中被编码的频谱系数，频谱系数描述部分16内音频信号12待定形的频谱，该频谱举例来说是由音频解码器10根据该帧中所含有的线性预测系数来定形。重叠相加过程也可能由音频解码器10用于从数据流14重构音频信号12。当然，该可能性也将适用于本文中所呈现的仅为了易于理解而运用的示例。

数据流14可以由音频解码器10以封包形式接收，亦即以封包为单位。将数据流14细分成帧18本身代表一种封包化，亦即帧18代表封包。另外，可以将数据流14包成传输流或媒体文件格式的封包，但这里不再详细检验这种情况。反而，应该足以陈述由音频解码器10对数据流14的接收容易造成数据或信号丢失，下文中称为封包丢失。也就是说，数据流14的某连续部分20可能在传输期间丢失，因此音频解码器10没接收到，致使对应部分遗漏，而且无法用于音频解码器10。结果是，音频解码器10遗漏数据流14中为了将对应于部分20的一部分22重构的信息。换句话说，音频解码器10无法根据例如在音频解码器的音频解码核心24中实施的正常音频解码过程将部分22从数据流14重构，因为数据流14的部分20有遗漏。反而，为了处理此类遗漏部分20，音频解码器10包括PLC工具28的集合 26，以便通过替代信号30恢复或合成部分22内的音频信号12。集合26所包括的PLC工具28的差异在于其对于不同音频信号特性的适合性。也就是说，将某一PLC工具用于恢复音频信号12的某一部分22内的替代信号30时的烦扰程度取决于该部分22处的音频信号特性，并且集合26内的PLC工具28针对音频信号特性的某一集合显示相互不同的烦扰程度。因此，音频解码器10包括分配器32，其将封包丢失消隐工具28的集合26中的一个丢失消隐工具分配给音频信号12受封包丢失影响的部分22，诸如数据流14的丢失部分22。分配器 32尝试将最佳PLC工具28分配给部分22，亦即导致最低烦扰的一个丢失消隐工具。

通过使用分配器32为部分22分配的PLC工具28所取得的替代信号30，一旦分配器32已将某一PLC工具28分配给音频信号12的丢失部分22，音频解码器10便使用分配的 PLC工具28来恢复音频信号的此部分22，藉此替代此部分22内的音频信号12，因为如果对应数据流部分22不会丢失，则会将其从音频数据流14重构。

如上已经指出的，向某一丢失部分22分配特定PLC工具28应该具有信号相依性，以便使丢失消隐尽可能少地造成烦扰。然而，信号相依性受限于数据流14在丢失数据流部分20前的部分，并且根据本文中所述的实施例，分配器32动作如下。

为了更加详细解释这一点，请参照图2。图2示出某一遗漏部分22的整体分配过程可能是由可能存在于音频解码器10中的丢失检测器34所触发。特别的是，如果由丢失检测器 34进行的丢失检测36显露数据流14的某部分20遗漏或丢失，如在38处检查的，则触发以下分配过程。进行确定40，以便确定对音频信号的频谱的频谱矩心的频谱位置进行测量的第一度量42。也就是说，分配器32确定音频信号的频谱的质心的频谱位置，请参照图3。音频解码器先于数据流顺序，从数据流14的丢失部分20前的一部分44，取回音频信号的频谱46。如以上对照图1所述，数据流14无论如何可能具有在频谱域中编码的音频信号12，以使得分配器32不需要频谱分解也能取得频谱46。举例来说，在丢失部分20之前，数据流14的最新接收的帧18或多于一个最新取回的帧18的频谱系数用于取得频谱46。如果使用多于一个帧18，则可以通过取平均来取得由分配器32所使用的频谱46。为了进行确定 40，确定此频谱46的质心，即对频谱46的频谱位置48进行测量的度量42。稍后呈现特定示例。

再者，由丢失检测所触发的分配过程包括音频信号的时间可预测性的确定50，以便取得此时间可预测性的度量52，细节请参照图4。如其中所示，根据实施例，时间可预测性检测50可以依赖于如从数据流14得出直到信号部分22的解码信号或音频信号12，信号部分22由于丢失数据流14的部分20而遗漏。换句话说，时间可预测性检测50可以基于紧接在丢失部分22前的部分50内的音频信号12，其丢失有待消隐，并且其自数据流14的部分44 进行解码。时间可预测性检测50可以采用如下方式完成：度量52用于信号部分50的自相似性或自相关的度量，如图4中54处所示。通过度量52所测量的信号50的自相似性所针对的相互位移s可以由分配器32采用不同方式来确定。举例来说，分配器32可以检验数据流14的丢失部分20前的部分44内一个或多个帧18中输送的对应音调参数。也就是说，可以用以测量自相似性的相互位移s可以对应于音调周期，音调周期具有基于数据流14中的参数(即部分44)所确定的音调。该音调周期位移处的自相似性或相关性56可以用作为第二度量52。

显然，可以分别切换进行确定40及50的顺序，或可以同时进行两检测。基于度量42及52，进行分配60。此分配60选择两个PLC工具28的用于部分22的丢失消隐。接着将此PLC工具，即所分配的一个PLC工具62，用于部分22的丢失消隐。

作为简要说明，应知，PLC工具28(通过分配60在之间进行选择)的数量可以大于2。

然而，根据下文进一步概述的实施例，可以将图2的PLC工具PLC 1描述为1，藉其使用声调时域封包丢失消隐来取得或恢复替代信号30，即部分22内的音频信号估计。换句话说，PLC 1可以是单音部分的音频信号恢复专用的封包丢失消隐。PLC 1可以使用周期性的周期信号来恢复音频信号12的遗漏部分22内的音频信号，周期信号取决于从数据流得出的音调参数或音调值，亦即，从数据流14的部分44(即数据流14的丢失部分20前的部分44) 得出。

第二PLC工具PLC 2可以专用于恢复多音类型的音频信号。此第二PLC工具PLC 2的消隐可以基于声调频域封包丢失消隐。

请参照图5及图6，将简要解释PLC 1及PLC 2的可能实施方式。

图5图示PLC 1。数据流14的丢失部分20前的部分44内帧18中输送的音调参数或音调值66用于设定周期信号70的周期性或周期长度68，接着将其用于形成替代、或用于消隐音频信号12的部分22内的丢失。音调参数或音调值66可以存在于数据流14中，以便由音频解码器10在正常音频解码的状况中，亦即无信号丢失的状况中，用于控制例如谐波滤波工具或类似者。也就是说，参数66无论如何都可以存在于数据流14中。否则，根据图5 进行PLC1的PLC工具28可以通过分析来确定音调周期68，诸如通过分析丢失部分22前面的已解码信号50来确定，或通过分析诸如图3所示频谱46等频谱的最近可存取版本来确定。

图6图示根据实施例的PLC 2。在这里，负责进行PLC 2的PLC工具28举例来说，使用如从数据流14的部分44取得的一个或两个或更多最新取得的频谱，以便检测或确定在其中的声调频谱分量，即频谱46中的峰值72、或分别在某一数量连续频谱或帧18的频谱中该位置或足够类似位置处出现的频谱46中的峰值72。足够类似位置可以是频谱距离低于某一阈值的位置。峰值72的频谱位置代表声调频谱分量，并且在这里，在这些频谱位置处，相位检测例如通过使用、或例如通过评估音频信号的功率谱来进行。接着，在其内有信号丢失待消隐的时间部分22内，形成信号组合，其周期性取决于声调频谱分量，以便产出增补信号30，其中组合信号之间的相互相移取决于相位检测来调整。举例来说，为各声调分量 72确定相位，或仅确定这些声调分量之间的相位差，并且形成信号作为部分22内的替代30，其通过这些声调分量72来合成，并且遵从相位差或相位。该组合可以在频谱域中形成，并且通过逆变换来得出替代信号30，或是在时域中直接通过新增例如适当相互位移的信号来形成，该相互相移反映所确定的相互相移。

如下文更加详述，分配60可以采用以下方式完成：选择PLC 1或将PLC 1分配给更有可能频谱位置48越低且时间可预测性越高的部分22，反之亦然，选择PLC 2或将PLC 2分配给更有可能频谱位置48越高且时间可预测性越低的部分22。更高频谱位置对应于更高频率，并且更低频谱位置对应于更低频率。藉此，依照这种方式，在部分22对应于已丢失语音的状况中更可能选择PLC 1，并且在部分22与多音信号或音乐有关的状况中更可能选择PLC 2。

为了完整起见，图7示出可以延伸图2的分配过程的事实。特别的是，如图2所示，分配60通过将分配60的分配或选择限制在PLC工具28的子集80上来完成。PLC工具28的集合26可以含有一个或多个PLC工具28的再一子集，诸如子集82，并且在受丢失检测36 触发时，声调性检测84可以先由分配器32使用，以便确定部分图22是否有关于声调部分。声调性确定84产出声调性度量或指示符86，并且此声调性度量指示符86可以通过使用数据流14的部分44内的一个或多个参数在84中取得，举例如通过检验部分44内的最新帧 18是否包括某一音调参数来取得，诸如是否包括如图5所述的音调值66。倘若不存在，这可以解读为音频信号目前为非声调信号的指示，并且倘若存在音调参数66，这可以解读为指出音频信号目前为声调信号。接着，此指示为声调性度量86。使用度量86在88处区别音频信号是否是为声调信号，并且如果其为非声调信号，则分配给部分22的PLC 62是分配自子集82。图7图示一个PLC工具28由子集82所包括，并且选择的是这个PLC工具的状况。然而，在这里，甚至可以再从子集82进行再一选择。如果在88处确认声调性，则相对如以上对照图2所述的子集80，进行基于确定40及50的分配60。

PLC 3可以是非声调PLC，诸如通过在有或没有重复修改的情况下使用帧重复来恢复用于部分22的音频信号的PLC，这时重复修改可以如上指出的涉及符号加扰，即最新所接收频谱的频谱系数的随机符号反转，诸如接着受逆变换并用于得出替代信号30的频谱46。

图8根据例如对应于图7的方式，可视化用于在PLC工具28中进行选择的决策树。进行决策A及B以从经设计用于不同信号类型的三种PLC方法PLC 1至PLC 3中，决策将要用于某一遗漏信号部分22的方法，以便获得最佳消隐效能。第一决策为决策A，是基于声调性。如果信号变为非声调性，则将PLC 3用于消隐。如果为声调性，则采用决策B。决策 B以上述对照图2及7的方式，基于度量42及52，检查声调信号特性，并且取决于该特性，选择PLC 1或PLC 2中的一个。如上所解释的，PLC 1可以是用于单音及/或语音信号的声调时域PLC，而PLC 2则可以是用于多音及/或音乐信号的声调频域PLC。

因此，图8的决策树将决策可视化，可以为不同信号类型，在三种PLC方法之间采取这些决策，以获得最佳消隐效能。可以通过检验信号类型分类，亦即通过将其用作为声调性指示符的指示、或通过从其得出该声调性指示符，来完成决策A，其可以对应于图7的检查88。信号类型分类可能存在于各帧18中，并且指出各帧的帧分类。可以在编码器侧对其进行计算，并且在比特流14中将其传输至音频解码器。甚至替代地，可以在解码器侧对其进行计算。然而，帧分类的计算非常复杂，并且可以要求由于帧分类的帧相依性而在每个帧中计算所有特征。因此，对于低复杂度应用，如果使用更简单方法则可以为优选的。如上指出的，有些音调参数66的存在性或不存在性可以用作为指示符86。

基于确定40及52而对应于分配60的决策B在PLC#1与PLC#2之间产出良好选择。在[6]中，此选择已基于频谱包络的稳定性测量而完成，其与信号的短期平稳性相关。然而，信号越平稳，PLC#1及PLC#2两个声调PLC方法的效能便都越好。这意味着平稳性因此不是适用于选择最佳声调消隐方法的准则。平稳性特征非常良好地指出声调性，然而，其无法辨别语音/单音与多音/音乐。

如上讨论的，有可能使用由分配器32所代表的PLC分类器来进行图8的决策树，其可以在逐帧基础上操作而无任何帧间相依性，因此仅需要低复杂度。其仅在帧丢失的状况下才可以计算其分类特征42及52，如38处所检测或检查的，因此不在帧18之中的无误差帧中新增内在复杂度偏移。

决策A可以基于声调性指示符86来完成，其可以是最后良好接收的音频帧中音调值的存在性。决策B可以通过使用在最后良好接收的音频帧上计算的频谱矩心48及长期预测增益56来完成。

决策B可以在最适合单音及类似语音信号的基于音调的时域消隐方法PLC#1与最适合多音或复杂音乐信号的频域方法PLC#2之间切换。决策B的分类的优点导因于以下事实：

·频谱矩心对于语音信号处于非常低频谱位置，而对于音乐信号处于更高频谱位置；

·长期预测增益较高对于如语音信号的单音及平稳信号为高增益，而对于如声调或复杂音乐信号的多音或更不平稳信号为低增益。

因此，特征42及52两者的加权组合可以用于决策B及分配过程60，并且导致语音/单音与多音/复杂音乐信号的可靠区别。同时，可以保持低复杂度。

如果音频解码器接收已损毁帧，或如果帧丢失，亦即遭遇丢失部分20，如38处检测的，则可进行以下操作，其中亦参照图2：

a.在88处，进行决策A，是否将如PLC#2或PLC#1的声调消隐方法用于消隐代表部分20的丢失/损毁的帧、或消隐对应部分22的丢失。决策A基于声调性指示符68，可以对其使用比特流中最后良好帧中音调值66的存在性。

b.对于否定决策A，不使用声调PLC。反而，在那种状况中使用另一PLC方法，即PLC#3。同样可使以用具有符号加扰的帧重复。

c.对于肯定决策A，将两种声调PLC方法PLC#1及PLC#2用于消隐丢失/损毁的帧。两种PLC方法可以是基于时域音调的PLC，诸如[4]的TCX TD-PLC，或可以是频域声调消隐，诸如[4]中的声调MDCT消隐，其中对应说明以参考方式并入本文。

对于肯定决策A，特征42及52可以采用以下方式，基于最后良好帧来计算：

·作为特征或度量52，可以在50中计算长期预测增益xcorr：

其中T_c是最后良好帧的音调值，并且x(k),k＝0…N-1是最后良好帧的最后已解码时间样本，以及

其中N_F可以是有限值，如最大音调值或帧长度(例如：10ms)。

·作为特征或度量42，可以在40中计算频谱矩心sc：

其中N是最后所接收频谱X_{s_lastGood}(k)的长度，并且|X_{s_lastGood}(k)|意味着量谱。

这两个计算的特征是通过以下公式来组合：

class＝w₁·xcorr+w₂·sc+β

其中w₁、w₂及β为权重。在一个实施例中，这些为

w₂＝-1及

替代方案为设定w₁、w₂及β，以使得

及

权重可以在这里正规化为处于[-1:1]范围内。

接着，除此以外，如果60及PLC#2中class>0，诸如频域声调消隐，则可以选择PLC#1，例如基于时域音调的PLC方法。

对照以上说明，应做出一些注记。举例来说，频谱(测量其频谱矩心以取得第一度量42)可以是所谓的加权版本，诸如预加强版本。举例来说，将此类加权用于使量化噪声适应于心理声学掩蔽阈值。换句话说，第一度量42可能测量音频信号的心理声学换算频谱(psychoacoustic scaled spectrum)的频谱矩心的频谱位置48。这在正常音频解码编码的下层音频解码核心24涉及数据流14无论如何具有在频谱域中编码的音频信号12(亦即在加权域中编码)的状况中可能尤其有帮助。另外或替代地，频谱(测量其频谱矩心以取得第一度量42)不一定是以如音频解码核心24中用于转变到时域的频谱分辨率一般高的频谱所代表的频谱。反而，其可更高或更低。甚至另外或替代地，应知，音频信号的频谱亦以比例因子彰显其本身。可能在数据流14中，连同频谱系数，传输此类比例因子，以便一起形成音频信号的频谱的编码表示。对于某一部分22，频谱系数根据比例因子来换算。频谱系数比比例因子更多。举例来说，将各比例因子分配给数个频谱带之一，即所谓的比例因子频谱带，音频信号的带宽划分成比例因子频谱带。因此，相较于数据流14中用以对量化频谱系数进行编码的频谱分辨率，比例因子依据某更低频谱分辨率下的包络为某一部分定义音频信号的频谱。甚而有可能数据流14中用以编码该比例因子的频谱分辨率甚低于解码核心24用以对频谱系数进行反量化的频谱分辨率。举例来说，解码核心24可能使编码中数据流14中的比例因子经受频谱内插，以取得如编码到数据流中的比例因子更高频谱分辨率的内插比例因子，并且将该内插比例因子用于反量化。编码在数据流中的比例因子及内插比例因子中的任一者可能用作为音频信号的频谱，其频谱矩心通过第一度量42来测量。这意味着：在通过使已解码音频信号经受会更进一步增加工作量的额外频谱分解来为矩心测量取得频谱的状况中，相较于以任何更高分辨率进行矩心测量，诸如以用来将频谱系数编码的分辨率、或某其他分辨率进行矩心测量，矩心测量变为待确定相当有运算效率，因为待进行用以确定第一度量的运算操作量低。因此，作为具体示例，可以基于已编码下采样比例因子SNS(频谱噪声整形)将第一度量及第二度量运算如下：

首先，可能将音调值T_c运算作为基础：

其中pitch_present及pitch_int由解码器从最后良好帧得出的比特流参数。可以将 pitch_present解读为声调性指示符。

作为第二度量，可以根据下式来运算长期预测增益xcorr：

其中x(k),k＝0…N-1是最后已解码时间样本，并且N可以是预定长度值，诸如有限值，如最大音调值或帧长度N_F(例如：10ms)，例如

其中pitmin是最小音调值。因此，第二度量将会在最新所接收部分处与其本身运算为已解码音频时间信号的自相似性，以音调相互相移位。

作为第二度量，频谱矩心sc可以运算为：

其中f_s是取样率，以及

并且I_fs是不均匀频带索引，即为各频带而定义下与上频率边界的频带索引，所采用的方式使得相关联的下与上边界之间的差异所定义的频带宽度彼此不同，诸如随着频率增加而增加，但该差异是可选的。可以将该频带索引定义成与音频信号的采样率/频率具有相依性。

再者，

其中scfQ_-1(k)是储存在最后良好帧的比特流中的比例因子向量，以及g_tilt是预定倾斜因子，可以将其设为默认值，并且有可能取决于音频信号的采样频率。应用

项，以将在对数域中编码的比例因子返回线性域中。应用

项以反转编码器侧预加强滤波器，其称为去加重滤波器。

在编码器侧计算并在比特流中传输比例因子向量。比例因子向量确定于MDCT系数每个频带的能量上，其中该频带为不均匀，并且遵循感知相关巴克标度(bark scale)(低频中较小，高频中较大)。将能量修匀、预加强及变换到对数域之后，在编码器侧处，将该能量从64个参数下采样至16个参数，以形成比例因子向量，之后将其编码并在比特流中传输。因此，sc是用于音频信号的频谱46的频谱矩心的频谱位置48的度量，在这里基于其频谱粗略采样版本来确定，亦即基于SNS参数来确定。

接着，可以凭借准则xcorr及sc来完成各种PLC方法之中的决策或选择。如果T_c＝0(其意味着声调性指示符pitch_present＝0)，则可能选择具有符号加扰的帧重复。否则，将class 值计算如下：

如果class>0，则可能选择基于时域音调的PLC方法；否则，选择频域声调消隐。

因此，包括不同丢失消隐工具28的集合26且用于将音频信号12从数据流14解码的音频解码器可以被配置用以通过从数据流的最近非丢失部分中的比例因子得出频谱来确定40 对音频信号的频谱46的频谱矩心的频谱位置48进行测量的第一度量42、确定50对音频信号的时间可预测性进行测量的第二度量52、基于第一度量及第二度量将不同丢失消隐工具 28的集合26中的一个丢失消隐工具62分配32给音频信号12受丢失影响的一部分22、以及使用分配给部分22的一个丢失消隐工具62来恢复音频信号的部分22。如所述，频谱的得出可能涉及使编码在数据流中的比例因子经受频谱内插。另外或替代地，它们可以经受去加重滤波，亦即它们可能乘以去加重滤波器的转移函数。所产生的比例因子可以接着经受频谱矩心测量。接着也可以应用上述所有其他细节。也就是说，为了叙述并非旨在排他的示例：不同丢失消隐工具的集合26可以包括用于单音部分的音频信号恢复的第一丢失消隐工具、及用于多音部分的音频信号恢复的第二丢失消隐工具，并且该音频解码器可以被配置用以在基于第一度量及第二度量将不同丢失消隐工具的集合中的一个丢失消隐工具分配给音频信号的部分时，将第一丢失消隐工具分配给更有可能频谱矩心的频谱位置越低且时间可预测性越高的部分，以及将该第二丢失消隐工具分配给更有可能频谱矩心的频谱位置越高且时间可预测性越低的部分。另外或替代地，该音频解码器可被配置用以在基于第一度量及第二度量将不同丢失消隐工具的集合中的一个丢失消隐工具分配给音频信号受丢失影响的一部分22 时，对第一度量及第二度量42、52进行求和，以便取得标量总和值并且将标量总和值进行阈值处理。

虽然已在装置的上下文中说明一些方面，清楚可知的是，这些方面也代表对应方法的说明，其中框或设备对应于方法步骤或方法步骤的特征。类似的是，在方法步骤的上下文中说明的方面也代表对应设备的对应框或项目或特征的说明。方法步骤中有一些或全部可以通过 (或使用)硬件装置来执行，举例如：微处理器、可编程计算机或电子电路。在一些实施例中，最重要的方法步骤中有一个或多个可以通过此设备来执行。

取决于某些实施方式要求，本发明的实施例可以实施成硬件或软件。此实施方式可以使用数字储存介质来进行，例如软式磁盘、蓝光(Blu-Ray)、CD、ROM、PROM、EPROM、EEPROM或闪存，此数字储存介质上有储存电子可读控制信号，此电子可读控制信号与可编程计算机系统相配合(或能够相配合)而得以进行各方法。因此，数字储存介质可以是计算机可读的。

根据本发明的一些实施例包括具有电子可读控制信号的数据载体，此电子可读控制信号能够与可编程计算机系统相配合而得以进行本文中所述方法之一。

一般而言，本发明的实施例可以实施成具有程序代码的计算机程序产品，当此计算机程序产品在计算机上执行时，此程序代码可运作来进行此方法之一。此程序代码可例如储存在机器可读载体上。

其他实施例包括用于进行本方法所述方法之一、储存在机器可读载体上的计算机程序。

换句话说，本发明的实施例因此是一种计算机程序，此计算机程序具有程序代码，当此计算机程序在计算机上运行时，此程序代码用于进行本文中所述方法之一。

本发明此方法的再一实施例因此是一种数据载体(或数字储存介质、或计算机可读媒体)，其包括、其上有记录用于进行本文中所述方法之一的计算机程序。此数据载体、数字储存介质或经记录介质通常是有形和/或非暂时性。

本方法的再一实施例因此是数据流或信号序列，其代表用于进行本文中所述方法之一的计算机程序。此数据流或信号序列可以例如被配置来经由数据通信连接来传送，例如经由因特网传送。

再一实施例包括例如计算机的处理装置、或可编程逻辑设备，被配置来或适用于进行本文中所述方法之一。

再一实施例包括计算机，此计算机具有安装于其上用于进行本文中所述方法之一的计算机程序。

根据本发明的再一实施例包括设备或系统，其被配置来(例如以电子方式或以光学方式) 将用于本文中所述方法之一的计算机程序传送至接收器。此接收器举例而言，可以是计算机、移动设备、存储器设备或类似物。此装置或系统举例而言，可以包括用于传送此计算机程序至接收器的文件服务器。

在一些实施例中，可编程逻辑器件(例如可现场编程门阵列)可以用于进行本文中所述方法的功能的一些或全部。在一些实施例中，可现场编程门阵列可以与微处理器相配合，以便进行本文中所述方法之一。一般而言，此方法优选是通过任何硬件装置来进行。

本文中所述的装置可以使用硬件装置、或使用计算机、或使用硬件装置与计算机的组合来实施。

本文中所述的装置、或本文中所述装置的任何组件可以至少部分地实施成硬件和/或软件。

本文中所述的方法可以使用硬件装置、或使用计算机、或使用硬件装置与计算机的组合来进行。

本文中所述的方法、或本文中所述装置的任何组件可以至少部分地通过硬件和/或通过软件来进行。

上述实施例对于本发明的原理而言只具有说明性。理解的是，本文中所述布置与细节的修改及变型对于所属技术领域中的其他技术人员将会是显而易见的。因此，意图是仅受限于待决专利权利要求的范围，并且不受限于通过本文中实施例的说明及解释所呈现的特定细节。

[1]3GPP TS 26.445；Codec for Enhanced Voice Services(EVS)；Detailedalgorithmic description。

[2]ITU-T G.718:Frame error robust narrow-band and wideband embeddedvariable bit-rate coding of speech and audio from 8-32kbit/s。

[3]ITU-T G.711Appendix I:A high quality low-complexity algorithm forpacket loss concealment with G.711。

[4]3GPP TS 26.447；Codec for Enhanced Voice Services(EVS)；Errorconcealment of lost packets。

[5]Method and device for efficient frame erasure concealment inspeech codecs； WO2007073604(A1)―2007-07-05

[6]Selecting a Packet Loss Concealment Procedure；EP3111624 A1–2017-01-04。

Claims

1.一种用于从数据流(14)解码音频信号(12)的音频解码器，音频解码器包括不同丢失消隐工具(28)的集合(26)，并且被配置用以

确定(40)对音频信号的频谱(46)的频谱矩心的频谱位置(48)进行测量的第一度量(42)，

确定(50)对音频信号的时间可预测性进行测量的第二度量(52)，

基于第一度量及第二度量，将不同丢失消隐工具(28)的集合(26)中的一个丢失消隐工具(62)分配(32)给音频信号(12)受丢失影响的一部分(22)，以及

使用分配给部分(22)的一个丢失消隐工具(62)来恢复音频信号的部分(22)。

2.如权利要求1所述的音频解码器，其中不同丢失消隐工具(28)的集合(26)包括下列中的一个或多个：

第一丢失消隐工具(PLC#1)，用于通过使用取决于从数据流得出的音调值的周期性(68)的周期信号(70)所进行的音频信号合成来进行音频信号恢复，以及

第二丢失消隐工具(PLC#2)，用于通过检测音频信号的声调频谱分量(72)、在声调频谱分量(72)处进行相位检测、以及通过组合取决于声调频谱分量(72)的周期性的信号与取决于相位检测对信号之间的相互相移进行调整所进行的音频信号合成，来进行音频信号恢复，以及

第三丢失消隐工具(PLC#3)，用于通过在有或没有重复修改的情况下使用帧重复来进行音频信号恢复。

3.如权利要求1或2所述的音频解码器，其中不同丢失消隐工具的集合(26)包括：

第一丢失消隐工具(PLC#1)，用于进行单音部分的音频信号恢复，以及

第二丢失消隐工具(PLC#2)，用于进行多音部分的音频信号恢复。

4.如权利要求1或2所述的音频解码器，其中不同丢失消隐工具的集合(26)包括：

第一丢失消隐工具(PLC#1)，用于使用声调时域封包丢失消隐进行音频信号恢复，以及

第二丢失消隐工具(PLC#2)，用于使用声调频域封包丢失消隐进行音频信号恢复。

5.如权利要求1或2所述的音频解码器，其中不同丢失消隐工具的集合(26)包括：

第一丢失消隐工具(PLC#1)，用于通过使用取决于从数据流得出的音调值的周期性的周期信号的音频信号合成来进行音频信号恢复，以及

第二丢失消隐工具(PLC#2)，用于通过检测音频信号的声调频谱分量、在声调频谱分量处进行相位检测、以及通过组合取决于声调频谱分量的周期性信号与取决于相位检测对信号之间的相互相移进行调整所进行的音频信号合成，来进行音频信号恢复。

6.如权利要求5所述的音频解码器，其中音频解码器被配置用以：

通过使用数据流中输送的最近音调参数作为音调值，从数据流得出音调值(66)。

7.如权利要求5或6所述的音频解码器，其中音频解码器被配置用以：

通过识别从数据流的最近非丢失部分得出的一个或多个连续频谱(46)中的同位峰值，来进行声调频谱分量(72)的检测。

8.如权利要求7所述的音频解码器，其中数据流(14)在频谱域中具有编码在数据流内的最近非丢失部分。

9.如权利要求3-8中任一项所述的音频解码器，

其中音频解码器被配置用以在基于第一度量及第二度量将不同丢失消隐工具的集合中的一个丢失消隐工具分配给音频信号的部分时，将第一丢失消隐工具分配给更有可能频谱矩心的频谱位置越低且时间可预测性越高，以及将该第二丢失消隐工具分配给更有可能频谱矩心的频谱位置越高且时间可预测性越低的部分。

10.如前述权利要求中任一项所述的音频解码器，被配置用以：

进行丢失检测(36)以检测受丢失影响的部分(22)，

响应于检测到受丢失影响的部分(22)的丢失检测，对于部分(22)进行第一度量及第二度量(42；52)的确定，以及禁止对于不受丢失影响的部分进行确定。

11.如权利要求1-10中任一项所述的音频解码器，还被配置用以：

确定(84)声调性指示符(86)，声调性指示符(86)指示音频信号的声调性，

基于声调性指示符(86)，将出自不同丢失消隐工具的集合(26)中的一个或多个丢失消隐工具的第一子集及第二子集(80，82)中的一个子集分配给音频信号的部分(22)，第一子集及第二子集相互不相交，以及

基于第一度量及第二度量进行不同丢失消隐工具的集合中的一个丢失消隐工具向音频信号的所述部分的分配，其中如果将第一子集(80)分配给部分(22)，则通过基于出自一个或多个丢失消隐工具的第一子集(80)的第一度量及第二度量，将不同丢失消隐工具的集合的一个丢失消隐工具(62)分配(60)给音频信号的所述部分，并且使用分配给部分(22)的一个丢失消隐工具(62)进行音频信号的部分(22)的恢复，以及如果将丢失消隐工具的第二子集(82)分配给部分(22)，则使用出自丢失消隐工具的第二子集(82)中的一个丢失消隐工具来进行音频信号的所述部分的恢复。

12.如权利要求11所述的音频解码器，其中音频解码器被配置用以：

使用数据流中输送的参数作为第三度量。

13.如权利要求11或12所述的音频解码器，其中音频解码器被配置用以：

使用数据流的最近非丢失帧中音调参数(66)的存在性或不存在性作为第三度量。

14.如权利要求11-13中任一项所述的音频解码器，其中不同丢失消隐工具的集合(26)包括：

第一丢失消隐工具(PLC#1)，用于通过使用取决于从数据流得出的音调值的周期性的周期信号所进行的音频信号合成来进行音频信号恢复，以及

第二丢失消隐工具(PLC#2)，用于通过检测音频信号的声调频谱分量、在声调频谱分量处进行相位检测、以及通过组合取决于声调频谱分量的周期性的信号与取决于相位检测对信号之间的相互相移进行调整所进行的音频信号合成，来进行音频信号恢复，以及

第三丢失消隐工具(PLC#3)，用于通过在有或没有重复修改的情况下使用帧重复来进行音频信号恢复，

其中第二子集(82)中包括第三丢失消隐工具，并且第一子集(80)中包括第二及第一与第二丢失消隐工具。

15.如前述权利要求中任一项所述的音频解码器，被配置用以通过频谱分量位置值的加权总和来确定第一度量(42)，各加权在各频谱分量位置值处使用音频信号的频谱。

16.如前述权利要求中任一项所述的音频解码器，被配置用以通过对音频信号的自相似性进行测量的相关性度量来确定第二度量(52)。

17.如前述权利要求中任一项所述的音频解码器，被配置用以通过从音频信号得出音调以及将第二度量确定为以取决于所述音调的时间位移对音频信号的自相关进行测量的相关性度量，来确定(50)第二度量(52)。

18.如前述权利要求中任一项所述的音频解码器，被配置用以在基于第一度量及第二度量将不同丢失消隐工具的集合中的一个丢失消隐工具分配给音频信号受丢失影响的一部分(22)时，对第一度量及第二度量(42，52)进行求和，以便取得标量总和值并且将标量总和值进行阈值处理。

19.一种用于在从数据流(14)音频解码音频信号时进行丢失消隐的方法，方法包括

20.一种具有程序代码的计算机程序，用于当程序代码在处理器上运行时执行如权利要求19的方法。