CN104299618B

CN104299618B - 统合地编码语音信号和音频信号的编码方法和解码方法

Info

Publication number: CN104299618B
Application number: CN201410479883.9A
Authority: CN
Inventors: 李泰辰; 白承权; 金珉第; 张大永; 徐廷一; 姜京玉; 洪镇佑; 朴浩综; 朴荣喆
Original assignee: Electronics and Telecommunications Research Institute ETRI; Industry Academic Collaboration Foundation of Kwangwoon University
Current assignee: Electronics and Telecommunications Research Institute ETRI; Industry Academic Collaboration Foundation of Kwangwoon University
Priority date: 2008-07-14
Filing date: 2009-07-14
Publication date: 2019-07-12
Anticipated expiration: 2029-07-14
Also published as: EP2302345A4; KR20100007749A; US11456002B2; US10121482B2; US8990072B2; CN102150024A; US9711159B2; US20110112829A1; US20170345435A1; US20150154974A1; CN104299618A; EP2302345B1; US10777212B2; US20200411022A1; KR20120089221A; EP3249373A1; US20190074022A1; EP2302345A1; CN102150024B; KR101565633B1

Abstract

本发明提供了一种用于统合地编码和解码语音信号(speech signal)和音频信号(audio signal)的设备与方法。所述编码设备(100)可包括：输入信号分析器(110)，其分析输入信号的特征；第一转换编码器(120)，当输入信号是音频特征信号时，其将输入信号转换成频域信号，并将输入信号编码；线性预测编码(LPC：Linear Predictive Coding)编码器(130)，当输入信号是语音特征信号时，其执行输入信号的LPC编码；和比特流生成器(140)，其使用第一转换编码器(120)的输出信号和LPC编码器(130)的输出信号，来生成比特流。

Description

统合地编码语音信号和音频信号的编码方法和解码方法

本申请是申请日为2009年7月14日、申请号为200980135842.5、发明名称为“编码和解码统合的语音与音频信号的设备与方法”的发明专利申请的分案申请。

技术领域

本发明涉及一种用于统合地编码和解码语音信号(speech signal)与音频信号(audio signal)的设备与方法。更特别是，本发明涉及一种方法和设备，其可包括针对语音信号和音频信号以不同的结构操作的编码模块和解码模块，并可根据输入信号的特征有效地选择内部模块，从而有效地编码语音信号和音频信号。

背景技术

语音信号和音频信号有不同的特征。因此，以往使用语音信号和音频信号的独特特征来独立研究语音信号的语音编解码器和音频信号的音频编解码器。近来广泛使用中的语音编解码器，如自适应多速率宽带加AMR-WB+(Adaptive Multi-Rate Wideband Plus)编解码器，具有代码激励线性预测CELP(Code Excitation Linear Prediction)结构，并可根据语音的语音模型基于线性预测编码LPC(Linear Predictive Code)提取和量化语音参数。广泛使用中的音频编解码器，如高效高级编码版本2HE-AAC V2(High-EfficiencyAdvanced Coding version 2)编解码器，可考虑人类在频域的声学特征在心理声学方面最佳量化频率系数。

因此，需要一种技术，其可根据输入信号特征来有效选择内部模块，从而更有效地进行编码和解码。

发明内容

技术目的

如上所述，根据本发明的实施例，可根据输入信号的特征有效地选择内部模块，以在不同的比特率针对语音信号和音频信号提供完美的声音质量。

根据本发明的实施例，本发明的另一个方面，还提供一种统合地编码和解码语音信号和音频信号的设备和方法，其可合适地将语音编码器与音频编码器结合，以在不同的比特率针对语音信号和音频信号提供完美的声音质量。

技术方案

跟据本发明的一个方面，提供了一种用于统合地编码语音信号和音频信号的编码设备，所述编码设备包括：输入信号分析器，其分析输入信号的特征；第一转换编码器，当输入信号是音频特征信号时，其将输入信号转换成频域信号，并将输入信号编码；

线性预测编码(LPC：Linear Predictive Coding)编码器，当输入信号是语音特征信号时，其执行输入信号的LPC编码；和比特流生成器，其使用第一转换编码器的输出信号和LPC编码器的输出信号，来生成比特流。

在这种情况下，所述编码设备可进一步包括：立体声编码器，其将输入信号降混频(down-mix)为单声道信号(mono signal)，并提取立体声声音图像信息；和频带扩展器，其将输入信号扩展为高频带信号。

此外，所述立体声编码器，根据输入信号的特征，控制用于立体声编码的参数值。此外，所述频带扩展器，可根据输入信号的特征，选择性地应用至少一个频带复制(SBR：Spectral Band Replication)标准。

此外，所述编码设备可进一步包括：心理声学单元，其使用人类的声学特征，控制第一转换编码器。

此外，所述LPC编码器可包括：时域编码器，当输入信号是语音特征信号时，其执行输入信号的时域编码；和第二转换编码器，当输入信号是音频特征信号时，其执行输入信号的快速傅立叶变换(FFT：fast Fourier transform)编码。

此外，所述输入信号分析器，可将输入信号分类为音频特征信号、语音特征信号、和低能量信号中的任何一种。

此外，所述语音特征信号可被分类为稳定谐波状态、低稳定谐波状态、稳定噪声状态中的任何一种，且所述音频特征信号可被分类为复杂谐波状态、复杂噪声状态中的任何一种。

跟据本发明的另一个方面，提供了一种用于统合地编码语音信号和音频信号的编码设备，所述编码设备包括：输入信号分析器，其分析输入信号的特征；立体声编码器，其将输入信号降混频为单声道信号，并提取立体声声音图像信息；频带扩展器，其生成用于将输入信号扩展为高频带信号的信息；第一转换编码器，当输入信号是音频特征信号时，其将高频带信号转换成频带，并将高频带信号编码；LPC编码器，当输入信号是语音特征信号时，其执行高频带信号的LPC编码；和比特流生成器，其使用所述立体声声音图像信息、所述用于将输入信号扩展为高频带信号的信息、第一转换编码器的输出信号和LPC编码器的输出信号，来生成比特流。

跟据本发明的另一个方面，提供了一种用于统合地解码语音信号和音频信号的解码设备，所解码设备包括：比特流分析器，其分析输入比特流信号；转换解码器，当比特流信号是音频比特流信号时，其将比特流信号转换为频域信号，并将比特流信号解码；LPC解码器，当比特流信号是语音比特流信号时，其执行比特流信号的LPC解码；频带合成器，其合成比特流信号的频带；和立体声解码器，其将比特流信号解码为立体声信号。

根据本发明的另一个方面，提供了一种用于统合地编码语音信号和音频信号的编码方法，所述编码方法包括：当输入信号具有语音特征时，由第一编码器基于第一编码方案对所述输入信号的核心频带进行编码；当所述输入信号具有音频特征时，由第二编码器基于第二编码方案对所述输入信号的核心频带进行编码；基于所述第一编码器和所述第二编码器的编码结果来生成比特流，其中，所述核心频带包括在所述输入信号的频带中的未被扩展的频带，其中，所述频带扩展的输出根据输入信号的特征被传送到第一编码器或者第二编码器。

根据本发明的另一个方面，提供了一种用于统合地解码语音信号和音频信号的解码方法，所述解码方法包括：分别已编码的输入信号；当已编码的输入信号具有语音特征时，由第一解码器基于第一解码方案对所述已编码的输入信号的核心频带进行解码；当已编码的输入信号具有音频特征时，由第二解码器基于第二解码方案对所述已编码的输入信号的核心频带进行编码；扩展从第一解码器和第二解码器的解码结果输出的已解码输入信号的频带；以及其中，所述核心频带包括在所述已编码的输入信号的频带中的未被扩展的频带。

技术效果

根据实施例，用于统合地编码和解码语音信号与音频信号的设备与方法，可根据输入信号的特征有效地选择内部模块，以在不同的比特率针对语音信号和音频信号提供完美的声音质量。

根据实施例，用于统合地编码和解码语音信号和音频信号的设备和方法，可合适地将语音编码器与音频编码器结合，以在不同的比特率针对语音信号和音频信号提供完美的声音质量。

附图说明

图1是示出根据本发明一个实施例的用于统合地编码语音信号和音频信号的编码设备的框图；

图2是示出根据本发明另一个实施例的用于统合地编码语音信号和音频信号的编码设备的框图；

图3是示出图2的立体声编码器的一个例子的框图；

图4是示出图2的频带扩展器的一个例子的框图；

图5是示出根据本发明一个实施例的用于统合地解码语音信号和音频信号的解码设备的框图。

具体实施方式

现在将参照附图对本发明的实施例进行详细描述，所述实施例的示例在附图中被示出，其中相同的参考数字始终表示相同的元素。下面将参照数字描述实施例以对本发明进行说明。

图1是示出根据本发明一个实施例的用于统合地编码语音信号和音频信号的编码设备100的框图。

参照图1，编码设备100可包括输入信号分析器110、第一转换编码器120、线性预测编码(LPC)编码器130、和比特流生成器140。

输入信号分析器110可分析输入信号的特征。在这种情况下，输入信号分析器110可分析输入信号的特征来把输入信号分离成音频特征信号、语音特征信号、和无音状态信号(silence state signal)中的任何一种。

在这里，所述语音特征信号可被分类为稳定谐波状态(steady-harmonic state)、低稳定谐波状态(low steady-harmonic state)、稳定噪声状态(steady-noise state)中的任何一种。此外，音频特征信号可被分类为复杂谐波状态(complex-harmonic state)、复杂噪声状态(complex-noisy state)中的任何一种。

输入信号的状态可进一步归类如下。第一，稳定谐波(SH：steady-harmonic)状态：SH状态可对应信号明确并稳定出现的谐波状态的信号区间。例如，该信号区间可包括语音区间。单个(singleton)的正弦信号可分至SH状态。

第二，低稳定谐波(LSH：low steady-harmonic)状态：LSH状态可与SH状态类似，但是，其可以有相对较长的谐波频率，并在低频带中呈现出强劲和稳定的特点。特别是，男性语音的语音区间可对应LSH状态。

第三，稳定噪声(SN：steady-noise)状态：白噪声可对应SN状态。例如，无语音区间可被包含在SN状态中。

第四，复杂谐波(CH：complex-harmonic)状态：其多个单独的成分被混合来构建复杂谐波结构的信号区间，可对应CH状态。一般来说，音频的播放区间可被包含在CH状态中。

第五，复杂噪声(CN：complex-noisy)状态：包含不稳定噪声成分的信号可分类至CN状态中。例如，普通周边噪音、音频播放区间中的攻击信号等，可对应CN状态。

第六，无声(Si：silence)的状态：具有低能量的区间可被分类至Si状态中。

输入信号分析器110的输出结果可用于选择一个第一转换编码器120和LPC编码器130。此外，在执行LPC编码时，输入信号分析器110的输出结果可用于选择一个时域编码器131和第二转换编码器。

当输入信号是音频特征信号时，第一转换编码器120可将输入信号的核心频带转换至频域信号，并将输入信号的核心频带编码。此外，当输入信号是语音特征信号时，LPC编码器130可执行输入信号的核心频带的LPC编码。所述LPC编码器130可包括时域编码器131和第二转换编码器132。

当输入信号是话音特征信号时，时域编码器131可进行输入信号的时域编码。当输入信号是音频特征信号时，第二次转换编码器132执行输入信号的快速傅里叶变换(FFT)编码。

比特流生成器140可使用第一转换编码器120的信息和LPC编码器130的信息生成比特流。

编码设备100可进一步包括立体声编码器(未示出)来将输入信号降混频(down-mix)为单声道信号(mono signal)，并提取立体声声音图像信息。立体声编码器可根据输入信号的特征有选择地应用至少一个参数。

此外，编码设备100可进一步包括频带扩展器(未示出)，来将输入信号扩展为高频带信号。频带扩展器可根据输入信号的特征，选择性地应用至少一个频带复制(SBR：Spectral Band Replication)标准。

此外，编码设备100可进一步包括心理声学单元(未示出)，其使用人类的声学特征，控制第一转换编码器120。

图2是示出根据本发明另一个实施例的用于统合地编码语音信号和音频信号的编码设备200的框图。

参考图2，编码设备200可包括输入信号分析器210、第一转换编码器220、LPC编码器230、比特流生成器240、立体声编码器250、频带扩展器260。

输入信号分析器210可分析输入信号的特征。

立体声编码器250可将输入信号降混频(down-mix)为单声道信号(mono signal)，并提取立体声声音图像信息。例如，当输入信号是立体声时，立体声编码器250可将输入信号降混频为单声道信号，并可提取立体声声音图像信息。立体声编码器250的操作将参考图3进一步详细说明。

图3是示出图2的立体声编码器250的一个例子的框图。

参考图3，立体声编码器250可包括：基础处理器351、语音信号处理器352、音频信号处理器353。在这里，立体声编码器250可根据输入信号的特征，利用不同的编码模块。例如，由输入信号分析器210分析的输入信号的信息可被编码器250利用。立体声编码器250中使用的参数，可根据析的输入信号来调整。例如，当输入信号的特征对应复杂的状态，输入信号可具有很强的音频特征。因此，为了更清楚地呈现立体声声音图像，音频信号处理器353可以以高分辨率传送在立体声编码器250中使用的基本参数，还可以传送用于送立体声声音图像的额外信息。例如，当输入信号的特征对应复杂状态，立体声编码器250可使用8级量化将通道间的相关性ICC(Inter-Channel Correlation)的参数扩展为16级参数，由此来传送参数。于此，可提高立体声图像的特征。

当输入信号的特征对应稳定状态，输入信号处理器352可处理语音信号。其它信号可由基础处理器351处理。

频带扩展器260可生成用于将输入信号扩展为高频带信号的信息。频带扩展器260可根据输入信号的特征选择应用至少一种SBR标准。以下将参照图4的细节，对频带扩展器260进行进一步说明。

图4是示出图2的频带扩展器260的一个例子的框图。

参考图4，频带扩展器260可包括：音频信号处理器461、SH处理器462、LSH处理器463。具体来说，输入信号分析器210分析的信息可被频带扩展器260使用。当输入信号的特征对应复杂状态，语音信号处理器461可使用与现有编码体系相同的体系来执行编码。

当输入信号的特征对应复杂噪声状态，它可表明，大量的信息被包含在高频带，由此音频信号处理器461可分配并处理相对大量比特。当输入信号是语音时，大部分高频带信号可能是非嗓音噪声信号。因此在稳定状态的情况下，频带扩展器260可被与复杂状态不同地应用。具体来说，为了较准确地表现白噪声，需要应用频带扩展标准。特别是，由于男性语音的谐波状态显然与女性语的音谐波状态不同，所以男性语音与女性语音相比可能会对高频率信息相对不敏感。因此，SH处理器462可能会针对男性语音削弱白噪声编码，并同时可以设置编码，由此高频域未被预测。LSH处理器463可将输入信号编码为适合女性语音特征的。

当输入信号是音频特征信号时，第一转换编码器220可将高频带信号转换成频域信号，并由此编码高频带信号。当输入信号的特征对应复杂状态时，第一转换编码器220可执行未执行频带扩展的核心频带的编码。例如，第一转换编码器220可使用改进的离散余弦变换MDCT(Modified Discrete Cosine Transform)编码体系。

当输入信号是语音特征信号时，LPC编码器230可执行高频带信号的LPC编码。当输入信号的特点对应稳定状态时，LPC编码器230可执行未执行频带扩展的核心频带的LPC编码。LPC编码器230可包括时域编码器231和第二转换编码器232。

当输入信号是语音特征信号时，时域编码器231可执行输入信号的时域编码。具体来说，根据谐波状态是稳定还是低，例如，根据稳定状态结果，时域编码器231可使用代码激励线性预测CELP体系，针对LPC处理的信号执行时域编码，

当输入信号是音频特征信号时，第二转换编码器232可执行输入信号的FFT编码。具体来说，第二转换编码器232可使用传送输入信号至频域信号的的FFT体系，在频域根据谐波状态执行编码。在这里，第二转换编码器232可基于输入信号的特征构建不同的协议。

比特流生成器240可使用立体声声像信息、用于将输入信号扩展为高频带信号的信息、第一转换编码器信息220的信息和LPC编码器230的信息，生成比特流。

编码器设备200可进一步包括心理声学单元270，其使用人类的声学特征，控制第一转换编码器220。

图5是示出根据本发明一个实施例的用于统合地解码语音信号和音频信号的解码设备500的框图。

参考图5，解码设备500可包括比特流分析器510、第一转换解码器520、LPC解码器530、频带合成器540，和立体声解码器550。

比特流分析器510可分析输入比特流信号。

当比特流信号是音频比特流信号时，第一转换解码器520可将比特流信号转换为频域信号，并将比特流信号解码。

当比特流信号是语音比特流信号时，LPC解码器530可执行比特流信号的LPC解码。

LPC解码器可包括：时域解码器531，用于在时域解码输入比特流；和第二转换解码器532，用于根据输入比特流的特征来在频带解码输入比特流。

频带合成器540，可合成比特流信号的频带。

立体声解码器550可将比特流信号解码为立体声信号

具体来说，解码设备500可执行编码设备100和200的逆运算操作。

如上所述，根据一本发明实施例，通过根据输入信号的特征有效地选择内部模块，可以在不同比特率针对语音信号和音频信号提供极佳的音质。

虽然本发明一些实施例已被展示和描述，但是本发明不仅限于所描述的实施例。相反，本技术领域的技术人员应当明白，在不脱离本发明的原则和精神范围内，可对实施例进行改变，其范围由权利要求书及其等同物定义。

Claims

1.一种用于统合地编码语音信号和音频信号的编码方法，所述编码方法包括：

生成用于将输入信号的频带扩展到高频带的信息；

在生成用于扩展输入信号的频带的信息之后，分析输入信号的特征；

当输入信号具有语音特征时，由用于时域的第一编码器基于代码激励线性预测CELP编码方案对所述输入信号的核心频带进行编码；

当所述输入信号具有音频特征时，由用于频域的第二编码器基于改进的离散余弦变换MDCT编码方案对所述输入信号的核心频带进行编码；

基于所述第一编码器和所述第二编码器的编码结果来生成比特流，

其中，通过所述第一编码器或所述第二编码器进行切换编码所述输入信号，基于分析结果确定所述输入信号为语音特征还是音频特征；

其中，所述核心频带包括在所述输入信号的频带中的未被扩展的频带。

2.一种用于统合地解码语音信号和音频信号的解码方法，所述解码方法包括：

确定已编码的输入信号的特征是音频特征信号还是语音特征信号；

基于已编码的输入信号的特征对该已编码的输入信号进行解码；并且

其中，已编码的输入信号的解码包括：

当已编码的输入信号具有语音特征时，由第一解码器基于代码激励线性预测CELP解码方案对所述已编码的输入信号的核心频带进行解码；

当已编码的输入信号具有音频特征时，由第二解码器基于改进的离散余弦变换MDCT解码方案对所述已编码的输入信号的核心频带进行解码；

扩展从第一解码器和第二解码器的解码结果输出的已解码的输入信号的频带；

其中，所述核心频带包括在所述已编码的输入信号中未被扩展的频带，

其中，通过所述第一解码器或所述第二解码器解码所述输入信号，确定所述输入信号为语音特征还是音频特征。

3.如权利要求2所述的解码方法，还包括：

使用频带的扩展的结果生成立体声信号。