CN103531203A

CN103531203A - 编码和解码语音与音频统合信号的方法

Info

Publication number: CN103531203A
Application number: CN201310487746.5A
Authority: CN
Inventors: 李泰辰; 白承权; 金珉第; 张大永; 徐廷一; 姜京玉; 洪镇佑; 朴浩综; 朴荣喆
Original assignee: Electronics and Telecommunications Research Institute ETRI; Industry Academic Collaboration Foundation of Kwangwoon University
Current assignee: Electronics and Telecommunications Research Institute ETRI; Industry Academic Collaboration Foundation of Kwangwoon University
Priority date: 2008-07-14
Filing date: 2009-07-14
Publication date: 2014-01-22
Anticipated expiration: 2029-07-14
Also published as: CN102150204A; US9818411B2; KR101381513B1; US20110119055A1; US10403293B2; EP2302624B1; JP2011527032A; US20240119948A1; JP6067601B2; EP3493204A1; EP2302624A1; CN103531203B; EP2302624A4; EP3493204B1; CN102150204B; KR20120089222A; WO2010008176A1; US8903720B2; US10714103B2; US11705137B2

Abstract

本发明提供了一种用于统合地编码语音信号和音频信号的编码方法，所述编码方法包括：分析输入信号的特征；当所述输入信号是立体声信号时，将所述输入信号降混频为单声道信号，并从所述输入信号中提取立体声声音图像信息；扩展所述输入信号的频带；针对频带扩展的输出信号来转换采样率；当所述输入信号是语音特征信号时，使用语音编码模块将输入信号进行编码；当所述输入信号是音频特征信号时，使用音频编码模块将输入信号进行编码；和使用语音信号编码的输出信号和音频信号编码的输出信号，来生成比特流。

Description

编码和解码语音与音频统合信号的方法

本专利申请是下列专利申请的分案申请：

申请号：200980135678.8

申请日：2009年07月14日

发明名称：编码和解码语音与音频统合信号的设备

技术领域

本发明涉及一种用于统合地编码和解码语音信号与音频信号的设备，更特别是，涉及一种方法和设备，其可包括针对语音信号和音频信号以不同的结构操作的编码模块和解码模块，并可根据输入信号的特征有效地选择内部模块，从而有效地编码语音信号和音频信号。

背景技术

语音信号和音频信号有不同的特征。因此，以往使用语音信号和音频信号的独特特征来独立研究语音信号的语音编解码器和音频信号的音频编解码器。近来广泛使用中的语音编解码器，如自适应多速率宽带加AMR-WB+(Adaptive Multi-Rate Wideband Plus)编解码器，具有代码激励线性预测CELP(Code Excitation Linear Prediction)结构，并可根据语音的语音模型基于线性预测编码LPC(Linear Predictive Code)提取和量化语音参数。广泛使用中的音频编解码器，如高效高级编码版本2HE-AAC V2(High-EfficiencyAdvanced Coding version2)编解码器，可考虑人类在频域的声学特征在心理声学方面最佳量化频率系数。

因此，需要一种编解码器，其可统合音频信号编码器和语音信号的编码器，并可根据信号特征和比特率选择合适的编码体系，从而更有效地执行编码和解码。

发明内容

技术目的

本发明的一个方面，提供一种用于统合地编码和解码语音信号与音频信号的设备与方法，其可根据输入信号的特征有效地选择内部模块，从而在不同的比特率针对语音信号和音频信号提供完美的声音质量。

本发明的另一个方面，还提供一种统合地编码和解码语音信号和音频信号的设备和方法，其可在转换采样率之前扩展频带，从而将频带扩展为更宽的带。

技术方案

跟据本发明的一个方面，提供了一种用于统合地编码语音信号和音频信号的编码设备，所述编码设备包括：输入信号分析器，其分析输入信号的特征；立体声编码器，当所述输入信号是立体声信号时，其将所述输入信号降混频(down mix降混频)为单声道信号(mono单声道signal)，并从所述输入信号中提取立体声声音图像信息；频带扩展器，其扩展所述输入信号的频带；采样率转换器，其针对频带扩展器的输出信号来转换采样率；语音信号编码器，当所述输入信号是语音特征信号时，其使用语音编码模块将输入信号进行编码；音频信号编码器，当所述输入信号是音频特征信号时，其使用音频编码模块将输入信号进行编码；比特流生成器，其使用语音信号编码器的输出信号和音频信号编码器的输出信号，来生成比特流。

在这种情况下，所述输入信号分析器，可使用输入信号的过零率ZCR(Zero Crossing Rate)、相关性、帧单位的能量中的至少一个来分析输入信号。

此外，所述立体声声音图像信息可包括：左声道和右声道间的相关性与左声道和右声道间的级别差异中的至少一个。

此外，所述频带扩展器，可在采样率的转换之前将输入信号扩展至高频带信号。

此外，所述采样率转换器，可将输入信号的采样率转换为语音信号编码器或音频信号编码器所要求的采样率。

此外，所述采样率转换器可包括：第一降采样器(down sampler)，其将输入信号降采样(down sample)1/2；和第二降采样器，其将第一降采样器的输出信号降采样1/2。

此外，当输入信号在语音特征信号和音频特征信号之间变化时，比特流生成器可在比特流中存储与用于帧单位改变的补偿相关的信息。

此外，所述与用于帧单位改变的补偿相关的信息可包括：时间/频率转换体系与时间/频率转换大小中的至少一个。

根据本发明的另一个方面，提供了一种用于统合地解码语音信号和音频信号的解码设备，所述解码设备包括：比特流分析器，其分析输入比特流信号；语音信号解码器，当所述比特流信号与语音特征信号相关时，其使用语音解码模块将比特流信号进行解码；音频信号解码器，当所述比特流信号与音频特征信号相关时，其使用音频解码模块将比特流信号进行解码；信号补偿单元，当语音特征信号与音频特征信号之间的转换被执行时，其补偿输入比特流信号；采样率转换器，其转换比特流信号的采样率；频带扩展器，其使用解码的低频带信号生成高频带信号；立体声解码器，其使用立体声扩展参数生成立体声信号。

具体来讲，按照本发明一个方面，提供了一种用于统合地编码语音信号和音频信号的编码方法，所述编码方法包括：分析输入信号的特征；当所述输入信号是立体声信号时，将所述输入信号降混频为单声道信号，并从所述输入信号中提取立体声声音图像信息；扩展所述输入信号的频带；针对频带扩展的输出信号来转换采样率；当所述输入信号是语音特征信号时，使用语音编码模块将输入信号进行编码；当所述输入信号是音频特征信号时，使用音频编码模块将输入信号进行编码；和使用语音信号编码的输出信号和音频信号编码的输出信号，来生成比特流。

按照本发明另一方面，提供了一种用于统合地解码语音信号和音频信号的解码方法，所述解码方法包括：分析输入比特流信号；当所述比特流信号与语音特征信号相关时，使用语音解码模块将比特流信号进行解码；当所述比特流信号与音频特征信号相关时，使用音频解码模块将比特流信号进行解码；当语音特征信号与音频特征信号之间的转换被执行时，补偿输入比特流信号；转换比特流信号的采样率；使用解码的低频带信号生成高频带信号；和使用立体声扩展参数生成立体声信号。

技术效果

根据示例性实施例，提供一种用于统合地编码和解码语音信号与音频信号的设备与方法，其可根据输入信号的特征有效地选择内部模块，从而在不同的比特率针对语音信号和音频信号提供完美的声音质量。

根据示例性实施例，提供一种统合地编码和解码语音信号和音频信号的设备和方法，其可在转换采样率之前扩展频带，从而将频带扩展为更宽的带。

附图说明

图1是示出根据本发明一个实施例的用于统合地编码语音信号和音频信号的编码设备的框图；

图2是示出图1的采样率转换器的一个例子的示图；

图3是示出根据本发明一个实施例的频带扩展器的开始频带(startfrequency band)和结束频带(end frequency band)的表；

图4是示出根据本发明一个实施例的基于比特率的每个模块的操作的表；

图5是示出根据本发明一个实施例的用于统合地解码语音信号和音频信号的解码设备的框图。

具体实施方式

现在将参照附图对本发明的实施例进行详细描述，所述实施例的示例在附图中被示出，其中相同的参考数字始终表示相同的元素。下面将参照数字描述实施例以对本发明进行说明。

图1是示出根据本发明一个实施例的用于统合地编码语音信号和音频信号的编码设备100的框图。

参照图1，编码设备100可包括输入信号分析器110、立体声编码器120、频带扩展器130、采样率转换器140、语音信号编码器150、音频信号编码器160、和比特流生成器170。

输入信号分析器110可分析输入信号的特征。具体来说，输入信号分析器110可分析输入信号的特征来把输入信号分离成语音特征信号和音频特征信号。在这种情况下，输入信号分析器110可使用输入信号的过零率ZCR(ZeroCrossing Rate)、相关性、帧单位的能量中的至少一个来分析输入信号。

立体声编码器120可将所述输入信号降混频(down mix降混频)为单声道信号(mono单声道signal)，并从所述输入信号中提取立体声声音图像信息。所述立体声声音图像信息可包括：左声道与右声道间的相关性和左声道与右声道间的级别差异中的至少一个。

频带扩展器130可扩展所述输入信号的频带。所述频带扩展器130，可在采样率的转换之前将输入信号扩展至高频带信号。下文中，将参照图3的细节进一步描述频带扩展器130的操作。

图3是示出根据本发明一个实施例的频带扩展器130的开始频带和结束频带的表300。

参照表300，当单声道降混频的信号是音频特征信号时，频带扩展器130可根据比特率来提取信息以生成高频带信号。例如，当输入音频信号的采样率是48kHz时，语音特征信号的开始频带可固定在6kHz，并可将与音频特征信号的停止频带相同的值用于语音特征信号的停止频带。在这里，语音特征信号的开始频带，可根据在语音特征信号编码模块中使用的编码模块的设置具有各种值。此外，在频带扩展器中使用的停止频带可根据输入信号或设置比特率的采样率被设置为各种值。频带扩展器130可使用音调、块单位的能量值等信息。此外，与频带扩展相关的信息，随特征信号是用于语音还是用于音频而不同。当执行语音特征信号和音频特征信号之间的转换时，与频带扩展相关的信息可存储在比特流中。

再次参照图1，采样率转换器140可转换输入信号的采样率。所述过程可对应编码输入信号之前将输入信号预处理的过程。因此，要根据输入比特率改变核心频带(core band)的频带，采样率转换器140可将输入音频信号的采样率转换。在这种情况下，采样率转换可在扩展频带之后执行。通过这一点，频带可进一步被扩展到更宽的频带中，而不是被固定在在核心频带中使用的采样率。

下文中，将参照图2的细节进一步对采样率转换器140进行说明。

图2是示出图1的采样率转换器140的一个例子的示图。

第一降采样器210可将输入信号降采样(down sample)1/2。例如，当音频编码模块是基于高级音频编码AAC(advanced audio coding(AAC)-based)的编码模块时，所述第一降采样器210执行1/2降采样。

第二降采样器220可将第一降采样器210的输出信号降采样1/2。例如，当语音编码模块是基于自适应多速率宽带加AMR-WB+(Adaptive Multi-RateWideband Plus)的编码模块时，所述第二降采样器220执行所述第一降采样器210的输出信号的1/2降采样。

因此，当音频信号编码器160使用基于AAC的编码模块时，采样率转换器140可生成被1/2降采样的信号。当语音信号编码器150使用基于MR-WB+的编码模块时，采样率转换器140可执行1/4降采样。因此，采样率转换器140可在语音信号编码器150和音频信号编码器160之前被提供。通过这样，当语音信号编码模块处理的采样率不同于音频信号编码模块处理的采样率时，采样率可被采样率转换器140初步处理，随后被输入进语音信号编码模块或音频信号编码模块。

此外，采样率转换器140可将输入信号的采样率转换为语音信号编码器150或音频信号编码器160要求的采样率。

再次参照图1，当输入信号为语音特征信号时，语音信号编码器150可使用语音编码模块编码输入信号。当输入信号是语音特征信号时，语音特征信号编码模块可执行频带扩展未被执行的核心频带的编码。语音信号编码器150可使用基于CELP的语音编码模块。

当输入信号是音频特征信号时，音频信号编码器160可使用音频编码模块将输入信号进行编码。当输入信号是音频特征信号时，音频特征信号编码模块可执行频带扩展未被执行的核心频带的编码。

音频信号编码器160可基于时间/频率的音频编码模块。

比特流生成器170可使用语音信号编码器150的输出信号和音频信号编码器160的输出信号来生成比特流。当输入信号在语音特征信号和音频特征信号之间变化时，比特流生成器170在比特流中存储与用于帧单位改变的补偿相关的信息。所述用于帧单位改变的补偿相关的信息可包括：时间/频率转换体系与时间/频率转换大小中的至少一个。此外，解码器可使用与帧单位变化补偿相关的信息，执行语音特征信号的帧和音频特征信号的帧之间的转换。

下文中，将参照图4的细节，对根据目标比特率统合地编码语音信号和音频信号的编码设备100的操作进行描述。

图4是示出根据本发明一个实施例的基于比特率的每个模块的操作的表。

参照该表，当输入信号是单声道信号时，所有的立体声编码模块可被设置为关闭。当比特率被设置为12kbps或16kbps时，音频特征信号编码模块可被设置为关闭。将音频特征信号编码模块设置为关闭的理由在于，使用基于CELP的音频编码模块编码音频特征信号，与使用音频编码模块的编码音频特征信号相比，呈现增强的声音质量。因此，当比特率被设置在12kbps或16kbps时，可在设置音频编码模块、立体声编码模块和输入信号分析模块为关闭之后，只使用编码模块和频带扩展模块将输入单声道信号编码。

当比特率被设置在20kbps、24kbps或32kbps时，语音信号编码模块和音频信号编码模块可根据输入信号是语音特征信号还是音频特征信号被交替使用。具体来说，当作为输入信号分析模块的分析结果，输入信号是语音特征信号时，可使用语音编码模块将输入信号编码。当输入信号是音频特征信号时，输入信号可使用音频编码模块进行编码。

当比特率被设置在64Kbps时，由于足够数量的比特可用，所以基于时间/频率转换的音频编码模块的性能可得到加强。因此，当比特率被设置在64kbps时，可在将语音编码模块和输入信号分析模块设置为关闭之后，同时使用音频编码模块和频带扩展模块来编码输入信号。

当输入信号是立体声信号时，立体声编码模块可被进行操作。当在12kbps、16kbps或20kbps的比特率编码输入信号时，可在把音频编码模块和输入信号分析模块设置为关之后，使用立体声编码模块、频带扩展模块、语音编码模块来编码输入信号。立体声编码模块一般可使用小于4kbps的比特率。因此，当在20Kbps编码立体声输入信号时，需要将被降混频至16kbps的单声道信号进行编码。在该频带中，语音编码模块与音频编码模块相比呈现进一步增强的性能。因此，在把输入信号分析模块设置为关之后，可使用语音编码模块执行所有输入信号的编码。

当在24kbps或32kbps比特率编码输入立体声信号时，可根据输入信号分析模块的分析结果，使用语音编码模块来编码语音特征信号并使用音频编码模块来编码音频特征信号。

当在64kbps的比特率编码立体声信号时，由于大量比特可用，从而可只使用音频特征信号编码模块来编码输入信号。

例如，当使用基于AMR-WB+的语音编码器和基于高效高级编码版本2HE-AAC V2的音频编码器来构建编码设备100时，由于使用AMR-WB+的立体声模块和频带扩展模块的性能不完美，所以可使用HE-AAC V2的参数立体声P（Parametric Stereo）S模块和频带复制SBR（Spectral Band Replication）模块来执行立体声信号和频带扩展的处理。

由于基于CELP的AMR-WB+对12kbps或16kbps的单声道信号性能优良，所以可利用使用AMR-WB+的代数代码激励线性预测ACELP(AlgebraicCode Excited Linear Prediction)/变换编码激励TCX(Transform Coded Excitation)模块来进行核心频带的编码。HE-ACC V2的SBR模块可被利用于频带扩展。

当作为在20kbps，24kbps或32kbps输入信号的分析结果，输入信号是语音特征信号时，可利用使用AMR-WB+的ACEP模块和TCX模块来编码核心频带。当输入信号是音频特征信号时，可利用HE-AAC V2的AAC模式来编码核心频带，并利用HE-AAC V2的SBR执行频带扩展。

当比特率被设置在64kbps时，可仅利用HE-AAC V2的AAC模块来编码核心频带。

可利用HE-AAC V2的PS模块进行立体声编码用于立体声输入。此外，可根据模式，通过选择性地利用ARM-WB+的TCX模块和ACELP模块及HE-AAC V2的AAC模块来编码核心频带。

如上所述，可基于输入信号的特征，通过有效选择内部模块，针对不同比特率的语音信号和音频信号提供完美的声音质量。此外，通过在转换采样率之前扩展频带，频带可被进一步扩展至更宽的频带。

图5是示出根据本发明一个实施例的用于统合地解码语音信号和音频信号的解码设备500的框图。

参照图5，解码器500可包括：比特流分析器510、语音信号解码器520、音频信号解码器530、信号补偿单元540、采样率转换器550、频带扩展器560、立体声解码器570。

比特流分析器510可分析输入比特流信号。

当所述比特流信号与语音特征信号相关时，语音信号解码器520使用语音解码模块将比特流信号进行解码。

当所述比特流信号与音频特征信号相关时，音频信号解码器530使用音频解码模块将比特流信号进行解码。

当语音特征信号与音频特征信号之间的转换被执行时，信号补偿单元540补偿输入比特流信号。具体来说，当语音特征信号与音频特征信号之间的转换被执行时，信号补偿单元540可使用每个特征的转换信息顺利处理转换。

采样率转换器550可转换比特流信号的采样率。由此，采样率转换器550可将在核心频带中被转换并被使用的采样率，重新转换为原始采样率，由此来生成要在频带扩展模块或立体声编码模块中使用的信号。具体来说，采样率转换器550可通过将在核心频带中被使用的采样率重新转换成之前的采样率，来生成要在频带扩展模块或立体声编码模块中使用的信号。

频带扩展器560可使用解码的低频带信号生成高频带信号。

立体声解码器570可使用立体声扩展参数生成立体声信号。

虽然本发明一些实施例已被展示和描述，但是本发明不仅限于所描述的实施例。相反，本技术领域的技术人员应当明白，在不脱离本发明的原则和精神范围内，可对实施例进行改变，其范围由权利要求书及其等同物定义。

Claims

1.一种用于统合地编码语音信号和音频信号的编码方法，所述编码方法包括：

分析输入信号的特征；

当所述输入信号是立体声信号时，将所述输入信号降混频为单声道信号，并从所述输入信号中提取立体声声音图像信息；

扩展所述输入信号的频带；

针对频带扩展的输出信号来转换采样率；

当所述输入信号是语音特征信号时，使用语音编码模块将输入信号进行编码；

当所述输入信号是音频特征信号时，使用音频编码模块将输入信号进行编码；和

使用语音信号编码的输出信号和音频信号编码的输出信号，来生成比特流。

2.如权利要求1所述的编码方法，其中，所述分析输入信号的特征的步骤包括：使用输入信号的过零率ZCR、相关性、帧单位的能量中的至少一个来分析输入信号。

3.如权利要求1所述的编码方法，其中，所述立体声声音图像信息包括：左声道与右声道间的相关性和左声道与右声道间的级别差异中的至少一个。

4.如权利要求1所述的编码方法，其中，所述扩展所述输入信号的频带的步骤包括：在采样率的转换之前将输入信号扩展至高频带信号。

5.如权利要求1所述的编码方法，其中，所述针对频带扩展的输出信号来转换采样率的步骤包括：将输入信号的采样率转换为语音信号编码或音频信号编码所要求的采样率。

6.如权利要求1所述的编码方法，其中，所述针对频带扩展的输出信号来转换采样率的步骤包括：

将输入信号降采样1/2；和

将1/2降采样的输出信号降采样1/2。

7.如权利要求6所述的编码方法，其中，当所述音频编码模块是基于高级音频编码AAC的编码模块时，执行1/2降采样。

8.如权利要求6所述的编码方法，其中，当所述语音编码模块是基于自适应多速率宽带加AMR-WB+的编码模块时，执行1/2降采样的输出信号的1/2降采样。

9.如权利要求1所述的编码方法，其中，所述使用语音编码模块将输入信号进行编码的步骤包括：使用基于代码激励线性预测CELP的语音编码模块将输入信号进行编码。

10.如权利要求1所述的编码方法，其中，所述使用音频编码模块将输入信号进行编码的步骤包括：使用基于时间/频率的音频编码模块将输入信号进行编码。

11.如权利要求1所述的编码方法，其中，所述使用语音信号编码的输出信号和音频信号编码的输出信号，来生成比特流的步骤包括：当输入信号在语音特征信号和音频特征信号之间变化时，在比特流中存储与用于帧单位改变的补偿相关的信息。

12.如权利要求11所述的编码方法，其中，所述用于帧单位改变的补偿相关的信息包括：时间/频率转换体系与时间/频率转换大小中的至少一个。

13.一种用于统合地解码语音信号和音频信号的解码方法，所述解码方法包括：

分析输入比特流信号；

当所述比特流信号与语音特征信号相关时，使用语音解码模块将比特流信号进行解码；

当所述比特流信号与音频特征信号相关时，使用音频解码模块将比特流信号进行解码；

当语音特征信号与音频特征信号之间的转换被执行时，补偿输入比特流信号；

转换比特流信号的采样率；

使用解码的低频带信号生成高频带信号；和

使用立体声扩展参数生成立体声信号。

14.如权利要求13所述的解码方法，其中，所述转换比特流信号的采样率的步骤包括：将在核心频带中被转换并被使用的采样率，重新转换为之前的采样率。