CN101833953B

CN101833953B - 降低多描述编解码冗余度的方法和装置

Info

Publication number: CN101833953B
Application number: CN2009101059995A
Authority: CN
Inventors: 詹五洲; 杨智勇
Original assignee: Huawei Device Co Ltd
Current assignee: Global Innovation Polymerization LLC; Tanous Co
Priority date: 2009-03-12
Filing date: 2009-03-12
Publication date: 2012-04-04
Anticipated expiration: 2029-03-12
Also published as: CN101833953A; WO2010102537A1

Abstract

本发明实施例公开了一种降低多描述编码冗余度的方法，包括：获取当前帧掩蔽门限和上一帧掩蔽门限；根据所述当前帧掩蔽门限与上一帧掩蔽门限预测当前帧掩蔽门限得到预测后的差值信号；对所述当前帧掩蔽门限进行第一描述编码，对所述预测后的差值信号进行第二描述编码。本发明实施例还公开了一种降低多描述编码冗余度的方法及一种降低多描述编码冗余度的装置。本发明实施例可降低多描述编码的码率，解决现有技术中多描述编码冗余度过高的问题。

Description

降低多描述编解码冗余度的方法和装置

技术领域

本发明涉及无线通讯领域，尤其涉及一种降低多描述编解码冗余度的方法和装置。

背景技术

随着现代IP网络和移动网络技术的迅猛发展，实时高质量音频业务向各种现代通信系统融合。然而，以包交换为基础的通信网络，如Internet和3G移动网络等，在实际运营中，由于网络拥塞、信道干扰和噪声等原因，都不可避免的面临丢包和较长迟延的问题，这些问题还远未得到有效解决。

多描述编码(MDC，Multiple Description Coding)是一种在不可靠网络中传输信息的信源编码技术，它可以在不增加迟延的情况下，通过生成多个传输比特流、并在各比特流中引入多余度的方法，提供一种稳健的抗丢包的信源编码算法。多描述编码采用多描述来表征信源信息，每一个描述提供了对原始信源信息的近似，多个描述相互提炼可以产生一个对原始信源信息的几乎由任何单一描述所不能达到的最佳逼近。

然而，发明人在实现本发明的过程中发现，现有的多描述编码中码率冗余度过高。例如采用二描述编码时，和没有多描述的编码器相比，需要增加50％的码率。

发明内容

本发明实施例所要解决的技术问题在于提出一种降低多描述感知音频编解码冗余度的方法，以降低多描述编解码的码率。

本发明实施例提供一种降低多描述感知音频编码冗余度的方法，包括：获取当前帧掩蔽门限和上一帧掩蔽门限；根据该当前帧掩蔽门限与上一帧掩蔽门限预测当前帧掩蔽门限的过程为：通过当前帧掩蔽门限减去上一帧掩蔽门限计算得到预测后的差值信号；对该当前帧掩蔽门限进行第一描述编码，对该预测后的差值信号进行第二描述编码。

本发明实施例还提供一种降低多描述感知音频解码冗余度的方法，包括：获取第一描述比特流并进行第一描述解码得到当前帧掩蔽门限，获取第二描述比特流并进行第二描述解码得到掩蔽门限差值信号；获取上一帧掩蔽门限，根据第一描述解码得到的当前帧掩蔽门限和第二描述解码得到的掩蔽门限差值信号以及该上一帧掩蔽门限重构当前帧掩蔽门限。

本发明实施例还提供一种降低多描述感知音频编码冗余度的装置，包括：

接收模块，用于接收获取当前帧掩蔽门限和上一帧掩蔽门限；

预测模块，用于根据该接收模块接收的当前帧掩蔽门限与上一帧掩蔽门限预测当前帧掩蔽门限，所述预测当前帧掩蔽门限的过程为：通过当前帧掩蔽门限减去上一帧掩蔽门限计算得到预测后的差值信号；

重构模块，用于对该接收模块接收的所述当前帧掩蔽门限进行第一描述编码，对该预测后的差值信号进行第二描述编码。

本发明实施例还提供一种降低多描述感知音频解码冗余度的装置，包括：

获取模块，用于获取第一、第二描述比特流以及上一帧掩蔽门限；

多描述解码模块，用于对该获取模块获取的第一描述比特流进行第一描述解码得到当前帧掩蔽门限，对第二描述比特流进行第二描述解码得到掩蔽门限差值信号；

重构模块，用于获取第一描述解码得到的当前帧掩蔽门限和第二描述解码得到的掩蔽门限差值信号以及所述获取模块获取的上一帧掩蔽门限重构当前帧掩蔽门限。

本发明实施例利用当前帧掩蔽门限和上一帧掩蔽门限计算出差值，以及与上一帧掩蔽门限一起来预测当前帧掩蔽门限的技术手段，解决了现有技术中码率冗余度过高的技术问题，有效地降低掩蔽门限的码率，从而降低多描述编解码的冗余度。

附图说明

图1a是本发明实施例中多描述的感知音频编码过程的逻辑框图。

图1b是本发明实施例中多描述的感知音频解码过程的逻辑框图。

图2是本发明实施例降低多描述编码冗余度的方法流程图。

图3是本发明实施例以二描述为例说明多描述编码过程的实现框图。

图4是本发明实施例降低多描述解码冗余度的方法流程图

图5是本发明实施例本发明实施例以二描述为例说明掩蔽门限的多描述解码实现框图。

图6是重构当前帧掩蔽门限模块重构当前帧掩蔽门限的方法流程图。

图7是本发明实施例降低多描述编码冗余度装置结构示意图。

图8所示为本发明实施例降低多描述解码冗余度装置结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1a是本发明实施例中以二描述为例的多描述的感知音频编码器的逻辑结构图。

经过窗选的原始音频信号分成两路，其中一路送往时频分析模块，利用修正离散余玄变换(MDCT)进行时频分析，得到频域MDCT系数。时频分析过程的功能是对时域音频信号进行变换或滤波，以此去除原始时域音频信号中的相关性所带来的多余度。基于变换的时频分析可以采用修正离散余弦变换(MDCT)、调制重叠变换(MLT)或离散小波变换(DWT)等，基于变换的时频分析得到的是变换域或频域的音频参数；基于滤波的时频分析可以采用类似于MPEG-1和MPEG-2音频编码采用的子带滤波算法，然后在各个子带内进行时频变换如修正离散余弦变换(MDCT)、调制重叠变换(MLT)或离散小波变换(DWT)等，得到的也是变换域或频域的音频参数。

窗选后的原始音频信号另一路送往心理声学模型分析模块，进行心理声学模型分析，并得到与原始音频帧相关的听觉掩蔽门限。在实施例中，该掩蔽门限的作用有三个，一是作为主要的音频信息需要进行编码和传输；二是利用掩蔽门限去除频域MDCT系数中与听觉无关的不相干信息；第三是作为比特分配的控制信息。

心理声学模型分析描述了人耳对音频信号的感知特性，其主要方面是所谓的掩蔽特性；从音频压缩和编码的角度看，心理声学模型分析决定了临界频带内人耳感觉不到的最大量化噪声的能量，或者说是在听觉感知意义上的噪声掩蔽门限。在实施例中，心理声学模型分析模块可以有不同的实现方法，如MPEG-1和MPEG-2的第一、二层音频编码所采用的模型1或第三层即MP3音频编码所采用的模型2，或者是Ogg Vorbis音频编码中采用基底曲线(Floor)，也可以是实现AC3音频编码中的心理声学模型分析或者其它种类的心理声学模型分析的模块。

听觉剩余信号分析模块接收心理声学分析模块生成的听觉掩蔽门限，利用听觉掩蔽门限去除频域MDCT系数中的听觉不相干信息或不相干度，以得到去除了听觉不相干性的剩余信号。去除了听觉不相干性的剩余信号属于在听觉意义上白化的剩余信号，有利于进行多描述解码。

听觉剩余信号分析模块的主要功能是剔除存留在经过时频分析后的频域音频信号中的听觉不相关度。如果这种处理是在线性域进行，听觉剩余信号可以通过音频频域参数除以掩蔽门限得到；如果是在对数域(单位为dB)进行，听觉剩余信号可以通过音频频域参数减去掩蔽门限得到。

多描述编码过程模块接收剩余信号，将表征当前音频信号信息的剩余信号和心理声学模型分析模块生成的掩蔽门限进行多描述编码，得到两个可以用以进行单独或联合处理的多描述解码或描述，即描述1和描述2。该两个描述被送往无失真编码与音频包形成模块，并被进行无失真编码，如Huffman编码或算术编码等，以消除信源多余度，进一步压缩比特率。最后加上比特分配后的描述标识和量化器标识等边信息并进行比特封装，分别形成两个描述的编码比特流送入信道。

在实施例中，比特分配模块接收心理声学模型分析模块生成的掩蔽门限生成边信息。比特分配过程的功能是根据心理声学分析输出结果即掩蔽门限来控制多描述编码的量化器量化精度，同时根据可用比特数对无失真编码和音频包形成进行动态比特分配，用迭代方法反复调整量化精度和比特分配，直到可用比特数用完，或者已达到预设编码质量。本发明实施例中比特分配模块支持固定速率(CBR)、可变速率(VBR)和平均速率(ABR)等编码模式。

无失真编码和音频包形成模块分别对两个描述进行无失真熵编码，可采用Huffman编码、算术编码和游程长度编码等，然后再加上其他边信息形成两个编码描述比特流。所输出的两个描述比特流在重要性方面可以是等同的或不等同的，两个描述的编码所需的比特数可以是相同的或不同的，两个描述比特流的编码速率可以是相同的或不同的。

图1b是本发明实施例中以二描述为例的多描述的感知音频解码器的逻辑结构图。

基于多描述编码的音频包解包与无失真解码模块接收来自信道的多描述编码比特流、并利用二描述三解码器，即如图1b所示的多描述解码模块对其进行解码，得到音频解码所需的掩蔽门限和剩余信号。图1b音频包解包和无失真解码的功能与图1a的无失真编码和音频包形成过程的功能相反，无失真编码和音频包形成过程是音频包解包和无失真解码的逆过程，即对两个描述比特流进行解包和无失真解码，得到两个音频描述信息及边信息。

参数重构模块利用掩蔽门限和剩余信号重构频域音频MDCT参数。图1b解码过程中的参数重构的功能与图1a编码器中听觉剩余信号分析的功能相反，是其逆过程，即用多描述解码得到的剩余信号和掩蔽门限重构音频频域参数。如果是线性域，音频频域参数通过听觉剩余信号与掩蔽门限相乘得到；如果是对数域(单位为dB)，音频频域参数是听觉剩余信与掩蔽门限相加。

时频合成模块对MDCT参数进行反变换得到重构音频输出信号。图1b解码过程中的时频合成模块的功能与图1a编码器中时频分析模块的功能相反，是其逆过程，即用频域音频参数进行反变换，得到重构音频信号。

在实施例中，由于实际信道存在丢包现象，所以音频解码器接收到的可能是完整的两个描述，也可能是两个描述之一；在丢包严重时，可能两个描述都未能收到。因此音频解码器需要对各种不同情况进行不同程度的处理。

在实际中，发明人经过对现有技术中当前帧和上一帧的掩蔽门限对应关系分析得出，语音和音频信号当前帧和上一帧的掩蔽门限具有很大的相似性，因此利用前帧的掩蔽门限来预测当前帧的掩蔽将会大大降低码率。

图2是本发明实施例降低多描述编码冗余度的方法示意图。该实施例包括：

S201：获取当前帧掩蔽门限和上一帧掩蔽门限；

S203：根据所述当前帧掩蔽门限与上一帧掩蔽门限预测当前帧掩蔽门限计算得到预测后的差值信号；

S205：对当前帧掩蔽门限进行第一描述编码，对所述预测后的差值信号进行第二描述编码。

图3所示为本发明实施例在多描述编码过程的实现框图。预测当前帧掩蔽门限模块接收当前帧掩蔽门限和上一帧掩蔽门限，计算得到预测后的差值信号。在实施例中，预测当前帧掩蔽门限可以为通过计算当前帧掩蔽门限减去上一帧掩蔽门限得到差值信号实现。差值信号进行描述二编码得到描述二比特流。同时，当前帧掩蔽门限进行描述一编码得到描述一比特流。本发明实施例利用当前帧掩蔽门限和上一帧掩蔽门限计算出差值，对该差值进行多描述编码，解决了现有技术中码率冗余度过高的技术问题，有效地降低掩蔽门限的码率，从而降低多描述编码的冗余度。

在各种编码器中，实际用于编码的不一定是掩蔽门限，例如在AAC音频编码器中，将整个频带分为若干个区，每个区有一个量化因子，而该量化因子是从掩蔽门限推导出来的；而在G.722.1音频编码器中，也将整个频带分为若干个区，每个区也有一个量化因子，该量化因子是从各个区的能量推导出来的，而从心理声学的原理可知，掩蔽门限可以近似由各个区的能量计算得到。因此不论实际编码用的是量化因子还是分区能量，在本发明中，都在掩蔽门限这个范围之内。

通过本发明实施例提供的编码方法解决了现有技术中码率冗余度过高的技术问题，有效地降低掩蔽门限的码率，从而降低整个冗余度。

图4是本发明实施例降低多描述解码冗余度的方法流程图。该实施例包括：

S401：获取第一描述比特流并进行第一描述解码得到当前帧掩蔽门限，获取第二描述比特流并进行第二描述解码得到掩蔽门限差值信号；

S403：获取上一帧掩蔽门限，根据第一描述解码得到的当前帧掩蔽门限和第二描述解码得到的掩蔽门限差值信号以及该上一帧掩蔽门限重构当前帧掩蔽门限。

本发明实施例对采用本发明实施例降低多描述编码冗余度进行编码的数据流进行解码，解决了现有技术中码率冗余度过高的技术问题，有效地降低掩蔽门限的码率，从而降低多描述解码的冗余度。

图5所示为本发明实施例以二描述为例说明掩蔽门限的多描述解码实现框图，该实施例包括：

描述一解码模块获取接收第一描述比特流并进行第一描述解码得到当前帧掩蔽门限。同时，描述二解码模块获取接收第二描述比特流并进行第二描述解码得到掩蔽门限差值信号。该当前帧掩蔽门限和掩蔽门限差值信号被送到重构当前帧掩蔽门限模块，重构当前帧掩蔽门限模块获取上一帧掩蔽门限，并根据第一描述解码得到的当前帧掩蔽门限和第二描述解码得到的掩蔽门限差值信号以及该上一帧掩蔽门限重构当前帧掩蔽门限。

在实施例中，该重构当前帧掩蔽门限模块重构当前帧掩蔽门限的方法流程图如图6所示。该重构当前帧掩蔽门限模块判断是否接收到当前帧掩蔽门限，如果是，则输出当前帧掩蔽门限，并更新上一帧掩蔽门限，即令上一帧门限等于当前帧掩蔽门限。如果没有接收到当前帧掩蔽门限，则进一步判断是否接收到当前帧掩蔽门限和上一帧的差值，如果没有接收到，则将上一帧掩蔽门限置空，直接输出当前帧掩蔽门限，结束流程。如果接收到当前帧掩蔽门限差值，则进一步判断上一帧掩蔽门限是否为空，如果是则直接输出当前帧掩蔽门限，结束流程。如果上一帧掩蔽门限不为空，则根据接收到的当前帧掩蔽门限和上一帧的差值以及上一帧掩蔽门限，计算出当前帧掩蔽门限，然后输出当前帧掩蔽门限，并更新上一帧掩蔽门限。

图7是本发明实施例降低多描述编码冗余度装置结构示意图。该实施例包括接收模块71和预测模块72。接收模块71接收、获取当前帧掩蔽门限和上一帧掩蔽门限。预测模块72获取接收模块接收的当前帧掩蔽门限和上一帧掩蔽门限，并将当前帧掩蔽门限减去上一帧掩蔽门限，得出差值信号。编码模块73从预测模块72获取差值信号，对当前帧掩蔽门限进行第一描述编码，对所述差值进行第二描述编码。

本发明实施例降低多描述编码冗余度装置利用当前帧掩蔽门限和上一帧掩蔽门限计算出差值，对该差值进行多描述编码，解决了现有技术中码率冗余度过高的技术问题，有效地降低掩蔽门限的码率，从而降低多描述编码的冗余度。

图8所示为本发明实施例降低多描述解码冗余度装置结构示意图。在该实施例中，降低多描述解码冗余度装置包括用于获取第一、第二描述比特流以及上一帧掩蔽门限的获取模块81。多描述解码模块82对获取模块81获取的第一描述比特流进行第一描述解码得到当前帧掩蔽门限，对第二描述比特流进行第二描述解码得到掩蔽门限差值信号。重构模块83获取第一描述解码得到的当前帧掩蔽门限和第二描述解码得到的掩蔽门限差值信号以及获取模块81获取的上一帧掩蔽门限重构当前帧掩蔽门限。重构模块93重构当前帧掩蔽门限的方法流程可参照图7所示。

本发明实施例通过利用当前帧掩蔽门限和上一帧掩蔽门限计算出差值，以及与上一帧掩蔽门限一起来预测当前帧掩蔽门限的技术手段，解决了现有技术中码率冗余度过高的技术问题，有效地降低掩蔽门限的码率，从而降低整个冗余度。

以上公开的仅为本发明的几个具体实施例，但是，本发明并非局限于此，任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims

1.一种降低多描述感知音频编码冗余度的方法，其特征在于，包括：

获取当前帧掩蔽门限和上一帧掩蔽门限；

根据所述当前帧掩蔽门限与上一帧掩蔽门限预测当前帧掩蔽门限的过程为：通过当前帧掩蔽门限减去上一帧掩蔽门限计算得到预测后的差值信号；

对所述当前帧掩蔽门限进行第一描述编码，对所述预测后的差值信号进行第二描述编码。

2.一种降低多描述感知音频解码冗余度的方法，其特征在于，包括：

获取第一描述比特流并进行第一描述解码得到当前帧掩蔽门限，获取第二描述比特流并进行第二描述解码得到掩蔽门限差值信号；

获取上一帧掩蔽门限，根据第一描述解码得到的当前帧掩蔽门限和第二描述解码得到的掩蔽门限差值信号以及该上一帧掩蔽门限重构当前帧掩蔽门限。

3.如权利要求2所述的方法，其特征在于，所述根据第一描述解码得到的当前帧掩蔽门限和第二描述解码得到的掩蔽门限差值信号以及该上一帧掩蔽门限重构当前帧掩蔽门限，包括：

判断是否接收到当前帧掩蔽门限；

当接收到当前帧掩蔽门限，输出当前帧掩蔽门限，并令上一帧掩蔽门限等于当前帧掩蔽门限。

4.如权利要求2所述的方法，其特征在于，还包括：

当没有接收到当前帧掩蔽门限，判断是否接收到当前帧掩蔽门限和上一帧掩蔽门限的差值；

当没有接收到当前帧掩蔽门限和上一帧掩蔽门限的差值，将上一帧掩蔽门限置空。

5.如权利要求4所述的方法，其特征在于，还包括：

当接收到当前帧掩蔽门限和上一帧掩蔽门限的差值，进一步判断上一帧掩蔽门限是否为空，

当上一帧掩蔽门限是为空，直接输出当前帧掩蔽门限；

当上一帧掩蔽门限不为空，根据接收到的所述差值和上一帧掩蔽门限，相加得出当前帧掩蔽门限，并令上一帧掩蔽门限等于当前帧掩蔽门限。

6.一种降低多描述感知音频编码冗余度的装置，其特征在于，包括：

预测模块，用于根据所述接收模块接收的当前帧掩蔽门限与上一帧掩蔽门限预测当前帧掩蔽门限，所述预测当前帧掩蔽门限的过程为：通过当前帧掩蔽门限减去上一帧掩蔽门限计算得到预测后的差值信号；

重构模块，用于对所述接收模块接收的所述当前帧掩蔽门限进行第一描述编码，对所述预测后的差值信号进行第二描述编码。

7.一种降低多描述感知音频解码冗余度的装置，其特征在于，包括：

多描述解码模块，用于对所述获取模块获取的第一描述比特流进行第一描述解码得到当前帧掩蔽门限，对第二描述比特流进行第二描述解码得到掩蔽门限差值信号；

8.如权利要求7所述的装置，其特征在于，所述重构模块还用于：

判断是否接收到当前帧掩蔽门限；

9.如权利要求8所述的装置，其特征在于，所述重构模块进一步用于

10.如权利要求9所述的装置，其特征在于，所述重构模块进一步用于

当接收到当前帧掩蔽门限和上一帧掩蔽门限的差值，判断上一帧掩蔽门限是否为空，

当上一帧掩蔽门限是为空，直接输出当前帧掩蔽门限；