CN102150205B

CN102150205B - 用于编码和解码统合的语音与音频的设备

Info

Publication number: CN102150205B
Application number: CN2009801357117A
Authority: CN
Inventors: 李泰辰; 白承权; 金珉第; 张大永; 姜京玉; 洪镇佑; 朴浩综; 朴荣喆
Original assignee: Electronics and Telecommunications Research Institute ETRI
Current assignee: Electronics and Telecommunications Research Institute ETRI
Priority date: 2008-07-14
Filing date: 2009-07-14
Publication date: 2013-03-27
Anticipated expiration: 2029-07-14
Also published as: JP2011528134A; CN102150205A; WO2010008175A3; EP2302623A2; EP2302623B1; WO2010008175A2; US20110119054A1; US8959015B2; KR20100007738A; EP3706122A1; EP2302623A4

Abstract

本发明提供了一种统合地编码和解码语音信号(speech signal)和音频信号(audio signal)的编码设备，所述用于统合地编码语音信号和音频信号的编码设备可包括：模块选择单元(110)，其分析输入信号的特征并选择用于编码输入信号的第一帧的第一编码模块；语音编码单元(130)，其根据所述模块选择单元(110)的选择来编码输入信号，并生成语音比特流；音频编码单元(140)，其根据所述模块选择单元(110)的选择来编码输入信号，并生成音频比特流；和比特流生成单元(150)，其根据所述模块选择单元(110)的选择，从语音编码单元(130)或音频编码单元(140)生成输出比特流。

Description

用于编码和解码统合的语音与音频的设备

技术领域

本发明涉及一种用于统合地编码和解码语音信号(speech signal)和音频信号(audio signal)的设备和方法。更具体地说，本发明涉及一种设备和方法，其可以解决信号扭曲(distortion)的问题，根据帧的推移改变选择出的模块，从而在不发生扭曲的前提下改变模块，当编解码器包括至少两个编码/解码模块时，其以不同的结构进行操作，并根据每个帧的输入特征，选择和操作所述至少两个编码/解码模块中的一个。

背景技术

语音信号和音频信号有不同的特征。因此，以往使用语音信号和音频信号的独特特征来独立研究用于语音信号的语音编解码器和用于音频信号的音频编解码器，而且，已为语音编解码器和音频编解码器各自开发了标准编解码器。

目前，由于通信服务和广播服务已被整合或融合，有必要使用单一的编解码器来统合地处理具有不同类型特征的语音信号和音频信号。但是，现有的语音编解码器或音频编解码器，无法提供所需的统一编解码器的功能。具体来说，具有最佳性能的音频编解码器无法针对语音信号提供令人满意的功能，而具有最佳性能的语音编解码器也无法针对音频信号提供令人满意的功能。因此，现有编解码器不适用于统一的语音/音频编解码器。

因此，需要一种技术，其可根据输入信号的特征来选择相应的模块，从而最佳地编码和解码相应的信号。

发明内容

技术目的

本发明的一个方面，提供一种用于统合地编码和解码语音信号和音频信号的设备和方法，其可以将语音编解码器模块和音频编解码器模块结合，并根据输入信号的特征有选择地应用编解码器模块，由此提高性能。

本发明的另一个方面，还提供一种用于统合地编码和解码语音信号和音频信号的设备和方法，其可以使用前一个模块的信息，直到随着时间的推移选定的编解码器模块改变，从而解决由于连续的模块操作造成信号扭曲的问题。

本发明的另一个方面，还提供一种用于统合地编码和解码语音信号和音频信号的设备和方法，其可以在要求时域混叠消除(TDAC：time-domainaliasing cancellation)操作的改进离散余弦变换(MDCT：Modified DiscreteCosine Transform)模块中没有提供用于重叠的前一个模块信息时，使用额外的体系，从而使TDAC操作可行并执行正常的基于MDCT的编解码器操作。

技术方案

根据本发明的一个方面，提供一种用于统合地编码语音信号和音频信号的编码设备，所述编码设备包括：模块选择单元，其分析输入信号的特征并选择用于编码输入信号的第一帧的第一编码模块；语音编码单元，其根据所述模块选择单元的选择来编码输入信号，并生成语音比特流；音频编码单元，其根据所述模块选择单元的选择来编码输入信号，并生成音频比特流；和比特流生成单元，其根据所述模块选择单元的选择，从语音编码单元或音频编码单元生成输出比特流。

在这种情况下，所述编码设备可进一步包括：模块缓冲器，其存储选择出的第一编码模块的模块标识符(ID)，并将对应第一帧的前一帧的第二编码模块的信息传输至语音编码单元和音频编码单元；和输入缓冲器，其存储输入信号并输出前一个输入信号，即前一帧的输入信号。所述比特流生成单元，可将选择出的第一编码模块的模块ID及其比特流结合来生成输出比特流。

此外，所述模块选择单元可提取选择出的第一编码模块的模块ID，来将提取出的模块ID传输至模块缓冲器和比特流生成单元。

此外，所述语音编码单元包括：第一语音编码器，当第一编码模块与第二编码模块相同时，其将输入信号编码为代码激励线性预测(CELP：CodeExcitation Linear Prediction)结构；和编码初始化单元，当第一编码模块与第二编码模块不同时，其决定用于第一语音编码器的编码的初始值。

此外，当第一编码模块与第二编码模块相同时，所述第一语音编码器，使用第一语音编码器的内部初始值来编码输入信号。当第一编码模块与第二编码模块不同时，所述第一语音编码器，使用由编码初始化单元决定出的初始值来编码输入信号。

此外，所述编码初始化单元可包括：线性预测编码(LPC：Linear PredictiveCoder)分析器，其对前一个输入信号计算LPC系数；线性谱对(LSP：LinearSpectrum Pair)转换器，其将计算出的LPC系数转换为LSP值；LPC残差信号计算器，其使用前一个输入信号和LPC系数来计算LPC残差信号；编码初始值决定单元，其使用LPC系数、LSP值、LPC残差信号，来决定用于第一语音编码器的编码的初始值。

此外，所述音频编码单元可包括：第一音频编码器，当第一编码模块与第二编码模块相同时，其通过改进离散余弦变换(MDCT)操作来编码输入信号；第二语音编码器，当第一编码模块与第二编码模块不同时，其将输入信号编码为CELP结构；第二音频编码器，当第一编码模块与第二编码模块不同时，其通过MDCT操作来编码输入信号；多路复用器，其选择第一音频编码器的输出、第二语音编码器的输出、和第二音频编码器的输出来生成输出比特流。

此外，当第一编码模块与第二编码模块不同时，所述第二语音编码器，将对应第一帧的前1/2样本的输入信号进行编码。

此外，所述第二音频编码器可包括：零输入响应计算器，在终止第二语音编码器的编码操作之后，其对LPC滤波器计算零输入响应；第一转换器，其将对应第一帧的前1/2样本的输入信号转换为零；和第二转换器，其从对应第一帧的前1/2样本的输入信号中减去零输入响应，其中，第二音频编码器，将第一转换器转换的信号和第二转换器转换的信号进行编码。

根据本发明的另一个方面，提供一种统合地解码语音信号和音频信号的解码设备，所述解码设备包括：模块选择单元，其分析输入比特流的特征并选择用于解码输入比特流的第一帧的第一解码模块；语音解码单元，其根据所述模块选择单元的选择来解码输入比特流，并生成语音信号；音频解码单元，其根据所述模块选择单元的选择来解码输入比特流，并生成音频信号；和输出生成单元，其根据所述模块选择单元的选择，从语音解码单元的语音信号或音频解码单元的音频信号中选择一个，来将输出信号输出。

在这种情况下，所述解码设备可进一步包括：模块缓冲器，其存储选择出的第一解码模块的模块标识符(ID)，并将对应第一帧的前一帧的第二解码模块的信息传输至语音解码单元和音频解码单元；和输出缓冲器，其存储输出信号并输出前一个输出信号，即前一帧的输出信号。

此外，所述音频解码单元可包括：第一音频解码器，当第一解码模块与第二解码模块相同时，其通过反改进离散余弦变换(IMDCT：Inverse ModifiedDiscrete Cosine Transform)操作来解码输入比特流；第二语音解码器，当第一解码模块与第二解码模块不同时，其将输入比特流解码为CELP结构；第二音频解码器，当第一解码模块与第二解码模块不同时，其通过IMDCT操作来解码输入比特流；信号恢复单元，其从第二语音解码器的输出和第二音频解码器的输出计算最终输出；和输出选择器，其从第一音频解码器的输出和信号恢复单元的输出中选择一个输出。

技术效果

根据示例性实施例，提供一种用于统合地编码和解码语音信号和音频信号的设备和方法，其可以将语音编解码器模块和音频编解码器模块结合，并根据输入信号的特征有选择地应用编解码器模块，由此提高性能。

根据示例性实施例，提供一种用于统合地编码和解码语音信号和音频信号的设备和方法，其可以使用前一个模块的信息，直到随着时间的推移选定的编解码器模块改变，从而解决由于连续的模块操作造成信号扭曲的问题。

根据示例性实施例，提供一种用于统合地编码和解码语音信号和音频信号的设备和方法，其可以在要求时域混叠消除(TDAC：time-domain aliasingcancellation)操作的改进离散余弦变换(MDCT)模块中没有提供用于重叠的前一个模块信息时，使用额外的体系，从而使TDAC操作可行并执行正常的基于MDCT的编解码器操作。

附图说明

图1是示出根据本发明一个实施例的用于统合地编码语音信号和音频信号的编码设备的框图；

图2是示出图1的语音编码单元的一个例子的框图；

图3是示出图1的音频编码单元的一个例子的框图；

图4是描述图3的音频编码单元的操作的示图；

图5是示出根据本发明一个实施例的用于统合地解码语音信号和音频信号的解码设备的框图；

图6是示出图5的语音解码单元的一个例子的框图；

图7是示出图5的音频解码单元的一个例子的框图；

图8是描述图7的音频解码单元的操作的示图；

图9是示出根据本发明一个实施例的用于统合地编码语音信号和音频信号的编码方法的流程图；

图10是示出根据本发明一个实施例的用于统合地解码语音信号和音频信号的解码方法的流程图。

具体实施方式

现在将参照附图对本发明的实施例进行详细描述，所述实施例的示例在附图中被示出，其中相同的参考数字始终表示相同的元素。下面将参照数字描述实施例，以对本发明进行说明。

在这里，假设统一编解码器包括两个编码模块和两个解码模块，如代码激励线性预测(CELP：Code Excitation Linear Prediction)结构的语音编码模块和语音解码模块，和执行改进离散余弦变换(MDCT：Modified Discrete CosineTransform)操作的音频编码模块和音频解码模块。

图1是示出根据本发明一个实施例的用于统合地编码语音信号和音频信号的编码设备100的框图。

参考图1，编码设备100可包括模块选择单元110、语音编码单元130、音频编码单元140以及比特流生成单元150。

另外，该编码设备100可进一步包括模块缓冲器120和输入缓冲器160。

模块选择单元110可分析输入信号的特征，以选择用于编码输入信号的第一帧的第一编码模块。此外，模块选择单元110可对输入信号进行分析以确定编码当前帧的模块标识符(ID)，并可将输入信号传输至选择出的第一编码模块并将模块ID输入至比特流生成单元150。

模块缓冲器120可存储选择出的第一编码模块的模块ID，并将对应第一帧的之前一帧的第二编码模块的信息传输至语音编码单元130和音频编码单元140。

输入缓冲器160可存储输入信号并输出前一个输入信号，即前一帧的输入信号。具体来说，输入缓冲器160可存储输出信号并输入当前帧前一帧的前一个输入信号。

语音编码单元130可根据所述模块选择单元110的选择来编码输入信号，以生成语音比特流。以下将参考图2的细节，对语音编码单元130进行说明。

图2是示出图1的语音编码单元130的一个例子的框图。

参考图2，语音编码单元130可包括编码初始化单元210和第一语音编码器220。

当第一编码模块与第二编码模块不同时，编码初始化单元210可决定用于第一语音编码器220的编码的初始值。具体来说，只有在前一帧已经执行了MDCT操作时，编码初始化单元210才可接收前一个模块并决定第一语音编码器220的初始值。在这里，初始化编码单元210可包括线性预测编码(LPC：Linear Predictive Coder)分析器211、线性谱对(LSP：Linear Spectrum Pair)转换器212、LPC残差信号计算器213和编码初始值决定单元214。

LPC分析器211可对前一个输入信号计算LPC系数。具体来说，LPC分析器212可接收前一个输入信号，使用与第一语音编码器220相同的体系来执行LPC分析，从而计算并输出对应前一个输入信号的LPC系数。

LSP转换器212可将计算出的LPC系数转换为LSP值。

LPC残余信号计算器213可使用前一个输入信号和LPC系数来计算LPC残差信号。

编码初始值决定单元214，可使用LPC系数、LSP值、LPC残差信号，来决定用于第一语音编码器的编码的初始值。具体来说，编码初始值决定单元214可使用LPC系数、LSP值、LPC残差信号等，决定并输出表中的第一语音编码器220要求的初始值。

当第一编码模块与第二编码模块相同时，第一语音编码器220可将输入信号编码为CELP结构。在这里，当第一编码模块与第二编码模块相同时，第一语音编码器220可使用第一语音编码器220的内部初始值来编码输入信号。当第一编码模块与第二编码模块不同时，第一语音编码器可使用由编码初始化单元210决定出的初始值来编码输入信号。例如，第一语音编码器220可接收已对当前帧前面的帧即前一帧而执行了编码的前一个模块。当前一帧已经执行了CELP操作时，第一语音编码器220可使用CELP体系来编码对应当前帧的输入信号。在这种情况下，第一语音编码器220可进行连续的CELP操作，从而使用内部提供的前一个信息继续进行编码操作，来生成比特流。当前一帧已执行了MDCT操作时，第一语音编码器220可擦除所有用于CELP编码的前一个信息，并使用编码初始化单元210提供的初始值执行编码操作，生成比特流。

再次参照图1，音频编码单元140可根据模块选择单元110的选择来编码输入信号来生成音频比特流。以下，将参照图3和4的细节进一步对音频编码单元140进行说明。

图3是示出图1的音频编码单元140的一个例子的框图。

参考图3，音频编码单元140可包括第二语音编码器310、第二音频编码器320、第一音频编码器330、多路复用器340。

当第一编码模块与第二编码模块相同时，第一音频编码器330可通过MDCT操作来编码输入信号。具体来说，第一音频编码器可330接收前一个模块。当前一帧已执行了MDCT操作时，第一音频编码器330可使用MDCT操作来编码对应当前帧的输入信号，从而生成比特流。生成的比特流可被输入到多路复用器340中。

参考图4，X表示当前帧412的一个输入信号。x1和x2表示把输入信号X二等分成1/2帧长度所生成的信号。当前帧412的MDCT操作可被应用到包括对应随后帧413的信号Y在内的信号X和Y中。MDCT可在将窗口w1、w2、w3、w4乘以被信号X和Y之后执行。在这里，w1、w2、w3、w4表示将整个窗口以1/2帧的长度划分而生成的窗口块。当前一帧411已经执行了CELP操作时，第一音频编码器330可以不执行任何操作。

当第一编码模块与第二编码模块不同时，第二语音编码器310可将输入信号编码为CELP结构。在这里，第二语音编码器310可接收前一个模块。当前一帧411已经执行了CELP操作时，第二语音信号编码器310可编码信号x1来输出比特流，并可将所述比特流输出至多路复用器340。当前一帧411已经执行了CELP操作时，第二语音信号编码器310可连续地连接到前一帧411，由此执行编码操作而无须进行初始化。当前一帧411已经执行了MDCT操作，第二语音编码310可以不执行任何操作。

当第一编码模块与第二编码模块不同时，第二音频编码器320可通过MDCT操作来编码输入信号。在这里，第二音频编码器320可接收前一个模块。当前一帧411已经执行了CELP操作时，第二音频编码器320可使用下面第一至第三体系中的任何一个来编码输入信号。第一体系可根据现有的MDCT操作编码输入信号。第二体系可将输入信号修改外x1=0，并使用以现有的MDCT操作为根据的体系编码其结果。第三体系可对在第二语音编码器310终止信号x1的编码操作之后获得的LPC滤波器计算零输入响应x3 430，并可根据x2=x2-x3来修改信号x2，并基于x1=0修改输入信号，并根据现有的MDCT操作编码其结果。音频解码模块(未示出)的信号恢复操作，可根据应用第二音频编码器320的体系决定。当前一帧已经执行了MDCT操作时，第二音频编码器320可以不执行任何操作。

对于上面的编码操作，第二音频编码器320可包括：零输入响应计算器(未示出)，在终止第二语音编码器310的编码操作之后，其对LPC滤波器计算零输入响应；第一转换器(未示出)，其将对应第一帧的前1/2样本的输入信号转换为零；和第二转换器(未示出)，其从对应第一帧的后1/2样本的输入信号中减去零输入响应。所述第二音频编码器320，可将第一转换器转换的信号和第二转换器转换的信号进行编码。

多路复用器340可选择选择第一音频编码器330的输出、第二语音编码器310的输出、和第二音频编码器330的输出来生成输出比特流。在这里，多路复用器340可将比特流结合以生成最终比特流。当前一帧执行了MDCT操作时，最终比特流可以与第一音频编码器330的输出比特流相同。

再次参照图1，比特流生成单元150可将选择出的第一编码模块的模块ID及选择出的第一编码模块的比特流结合来生成输出比特流。比特流生成单元150可结合模块ID和对应模块号ID的比特流，来生成最终比特流。

图5是示出根据本发明一个实施例的用于统合地解码语音信号和音频信号的解码设备500的框图。

参考图5，解码设备500可包括模块选择单元510、语音解码单元530，音频解码单元540和输出生成单元550。此外，解码设备500可进一步包括模块缓冲器520和输出缓冲器560。

模块选择单元510可分析输入比特流的特征以选择用于解码输入比特流的第一帧的第一解码模块。具体来说，模块选择单元510可分析从输入比特流传输来的模块，来输出模块ID并将输入比特流传输至相应的解码模块。

语音解码单元530可根据模块选择单元510的选择来解码输入比特流，并生成语音信号。具体来说，语音解码单元530可执行CELP为基础的语音解码操作。以下，将参照图的细节6进一步对语音解码单元530进行说明。

图6是示出图5的语音解码单元530的一个例子的框图。

参考图6，语音解码单元530可包括解码初始化单元610和的第一语音解码器620。

当第一解码模块与第二解码模块不同时，解码初始化单元610可决定用于第一语音解码器620的解码的初始值。具体来说，解码初始化单元610可接收前一个模块。只有在前一帧已经执行了MDCT操作时，解码初始化单元610才可决定要提供给第一语音解码器620的初始值。在这里，初始化解码单元610可包括LPC分析器611、LSP转换器612、LPC残差信号计算器613、和解码初始值决定单元614。

LPC分析器611可对前一个输出信号计算LPC系数。具体来说，LPC分析器611可接收前一个输出信号，并使用与第一语音解码器620相同的体系来执行LPC分析，从而计算并输出对应前一个输出信号的LPC系数。

LSP转换器612可将计算出的LPC系数转换为LSP值。

LPC残差信号计算器613可使用前一个输出信号和LPC系数来计算LPC残差信号。

解码初始值决定单元614可使用LPC系数、LSP值、LPC残差信号，来决定用于第一语音解码器620的解码的初始值。解码初始值决定单元614可使用LPC系数、LSP值、LPC残差信号等，决定并输出表中的第一语音解码器620要求的初始值。

当第一解码模块与第二解码模块相同时，第一语音解码器620将输入比特流解码为CELP结构。在这里，当第一解码模块与第二解码模块相同时，第一语音解码器620可使用第一语音解码器620的内部初始值来解码输入比特流。当第一解码模块与第二解码模块不同时，第一语音解码器620可使用由解码初始化单元610决定出的初始值来解码输入比特流。具体来说，第一语音解码器620可接收已为当前帧前一帧即前一帧执行了解码的前一个模块。当所述前一帧已执行了CELP操作时，第一语音解码器620可使用CELP体系来解码对应当前帧的输入比特流。在这种情况下，第一语音解码器620可进行连续的CELP操作，从而使用内部提供的前一个信息继续进行解码操作，来生成输出信号。当所述前一帧已执行了MDCT操作时，第一语音解码器620可擦除所有用于CELP解码的前一个信息，并使用解码初始化单元610提供的初始值执行解码操作，生成输出信号。

再次参照图5，所述音频解码单元540可根据模块选择单元510的选择来解码输入比特流，并生成音频信号。下文，将参照图7和图8的细节对音频解码单元540进行进一步说明。

图7是示出图5的音频解码单元540的一个例子的框图。

参考图7，音频解码单元540可包括第二语音解码器710、第二音频解码器720、第一音频解码器730、信号恢复单元740和输出选择器750。

当第一解码模块与第二解码模块相同时，第一音频解码器730可通过反改进离散余弦变换(IMDCT：Inverse MDCT)操作来解码输入比特流。具体来说，第一音频解码器730可接收前一个模块。当前一帧已执行了IMDCT操作时，第一音频解码器730可使用IMDCT操作来解码对应当前帧的输入比特流，从而生成输出信号。具体来说，第一音频解码器730可接收当前帧的输入比特流，根据现有技术执行IMDCT操作，应用一个窗口由此来执行时域混叠消除(TDAC：time-domain aliasing cancellation)操作，并输出最终输出信号。当前一帧执行CELP操作时，第一音频解码器730可不执行任何操作。

参考图8，当第一解码模块与第二解码模块不同时，第二语音解码器710可将输入比特流解码为CELP结构。具体来说，在这里，第二语音解码器710可接收前一个模块。当前一帧已经执行了CELP操作时，第二语音信号解码器710可根据现有的语音解码体系来解码输入比特流以生成输出信号。在这里，第二语音解码器710的输出信号可以是x4 820并具有1/2帧的长度。由于前一帧已经执行了CELP操作，第二语音信号解码器710可连续地连接到前一帧，由此执行解码操作而无须进行初始化。

当第一解码模块与第二解码模块不同时，第二音频解码器720可通过IMDCT操作来解码输入比特流。在这里，在IMDCT操作之后，第二音频解码器720可只应用一个窗口并获取输出信号而不执行TDAC操作。此外，在图8中，ab 830可表示第二音频解码器720的输出信号。a和b可被定义为具有1/2帧长度的信号。

信号恢复单元740，可从第二语音解码器710的输出和第二音频解码器720的输出计算最终输出。此外，信号恢复单元710可获取当前帧的最终输出信号，并将该输出信号定义为gh850，如图8所示。在这里，g和h可被定义为具有1/2帧长度的信号。信号恢复单元740可任何时候都定义g=x4并使用下列体系之一根据第二音频解码器的操作来解码信号h。第一体系可根据下列公式1获得h。在这里，假设进行一般的窗口操作。在下面的公式1中，R表示将基于1/2帧的长度时间轴旋转信号。

[公式1]

h = \frac{b + w 2 {w 1}_{R} {x 4}_{R}}{w 2 w 2},

其中，h表示对应第一帧的后1/2样本的输出信号，b表示第二音频解码器720的输出信号，x4表示第二语音解码器710的输出信号，w1和w2表示窗口，w1_R表示对w1基于1/2帧的长度执行时间轴旋转生成的信号，x4_R表示对x4基于1/2帧的长度执行时间轴旋转生成的信号。

第二体系可根据下列公式2获得h：

[公式2]

h = \frac{b}{w 2 w 2},

其中，h表示对应第一帧的后1/2样本的输出信号，b表示第二音频解码器720的输出信号，w2表示窗口。

第二体系可根据下列公式3获得h：

[公式3]

h = \frac{b}{w 2 w 2} + x 5,

其中，h表示对应第一帧的后1/2样本的输出信号，b表示第二音频解码器720的输出信号，w2表示窗口，x5840表示在解码第二语音解码器710的输出信号之后的对LPC滤波器的零输入响应。

当前一帧已执行了MDCT操作时，第二语音解码器710、第二音频解码器720、信号恢复单元740可不执行任何操作。

输出选择器750可从第一音频解码器730的输出和信号恢复单元740的输出中选择一个输出。

再次参照图5，输出生成单元750可跟据模块选择单元510的选择，从语音解码单元530的语音信号或音频解码单元540的音频信号中选择一个，来生成输出信号。具体地说，输出生成单元750可根据模块ID选择输出信号，并将选择出的输出信号作为最终输出信号输出。

模块缓冲器520可存储选择出的第一解码模块的模块ID，并将对应第一帧的前一帧的第二解码模块的信息传输至语音解码单元530和音频解码单元540。具体来说，模块缓冲器520可存储模块ID来输出前一个模块，该前一个模块对应前一个模块ID，即当前帧的前一个帧。

输出缓冲器560，可存储输出信号并输出前一个输出信号，即前一帧的输出信号。

图9是示出根据本发明一个实施例的用于统合地编码语音信号和音频信号的编码方法的流程图。

参考图9，在操作910中，所述编码方法可分析输入信号来决定编码当前帧的编码模块的模块类型，并缓冲输入信号以准备前一个帧输入信号，并可存储当前帧的模块类型来准备前一帧的模块类型。

在操作920中，所述编码方法可判断决定出的模块类型是语音模块还是音频模块。

当在操作920中判断出的模块类型是语音模块时，所述编码方法可在操作930中判断操作模块类型是否发生了改变。

当在操作930中模块类型没有发生改变时，所述编码方法可在操作950中根据现有技术执行CELP编码操作。相反，当在操作930中模块类型发生了改变时，所述编码方法可在操作960中根据编码初始化模块的操作执行初始化来决定初始值，并使用该初始值执行CELP编码操作。

当在操作920中判断的模块类型是音频模块时，所述编码方法可在操作940中判断模类型是否发生了改变。

当在操作940中模块类型发生了改变时，所述编码方法可在操作970中执行额外的编码处理。在该额外的编码处理中，所述编码方法可对对应1/2帧长度的输入信号执行基于CELP的编码，并对整个帧长度执行第二音频编码操作。相反，当在操作940中模块类型没有发生改变时，所述编码方法可在操作980中根据现有技术执行基于MDCT的编码操作。

在操作990中，所述编码方法可根据模块类型和模块类型是否发生变化来选择并输出最终比特流。

参考图10，在操作1001中，所述解码方法可基于输入比特流信息来决定当前帧的解码模块的模块类型，以准备前一帧的输出信号，并存储当前帧的模块类型来准备前一帧的模块类型。

在操作1002中，所述解码方法可判断决定的模块类型是语音模块还是音频模块。

当在操作1002中判断出的模块类型是语音模块时，所述解码方法可在操作1003中判断操作模块类型是否发生了改变。

当在操作1003中模块类型没有发生改变时，所述解码方法可在操作1005中根据现有技术执行CELP解码操作。相反，当在操作1003中模块类型发生了改变时，所述解码方法可在操作1006中根据解码初始化模块的操作执行初始化来获取初始值，并使用该初始值执行CELP解码操作。

当在操作1002中判断的模块类型是音频模块时，所述解码方法可在操作1004中判断模类型是否发生了改变。

当在操作1004中模块类型发生了改变时，所述解码方法可在操作1007中执行额外的解码处理。在该额外的解码处理中，所述解码方法可为输入比特流执行基于CELP的解码，以获取对应1/2帧长度的输出信号，并对输入比特流执行第二次音频解码操作。

相反，当在操作1004中模块类型没有发生改变时，所述解码方法可在操作1008中根据现有技术执行基于MDCT的解码操作。

在操作1009中，所述解码方法可执行信号恢复操作来获取输出信号。在操作1010中，所述解码方法可根据模块类型和模块类型是否发生变化来选择并输出最终比特流。

如上所述，根据本发明的实施例，可提供一种用于统合地编码和解码语音信号和音频信号的设备和方法，其可以将语音编解码器模块和音频编解码器模块统一，并根据输入信号的特征有选择地应用编解码器模块，由此提高性能。

此外，根据本发明的实施例，当选定编解码器模块随着时间的推移发生变化时，可使用与前一个模块相关的信息。通过这一点，能够解决由于连续的模块操作造成信号扭曲的问题。此外，在要求TDAC操作的MDCT模块中没有提供用于重叠的前一个模块信息时，可使用额外的体系。由此，TDAC操作可行，由此可执行正常的基于MDCT的编解码器操作。

虽然本发明一些实施例已被展示和描述，但是本发明不仅限于所描述的实施例。相反，本技术领域的技术人员应当明白，在不脱离本发明的原则和精神范围内，可对实施例进行改变，其范围由权利要求书及其等同物定义。

Claims

1.一种统合地编码语音信号和音频信号的编码设备，所述编码设备包括：

模块选择单元，其分析输入信号的特征并选择用于编码输入信号的第一帧的第一编码模块；

语音编码单元，其根据所述模块选择单元的选择来编码输入信号，并生成语音比特流；

音频编码单元，其根据所述模块选择单元的选择来编码输入信号，并生成音频比特流；

比特流生成单元，其根据所述模块选择单元的选择，从语音编码单元或音频编码单元生成输出比特流；

模块缓冲器，其存储选择出的第一编码模块的模块标识符ID，并将对应第一帧的前一帧的第二编码模块的信息传输至语音编码单元和音频编码单元；和

输入缓冲器，其存储输入信号并输出前一个输入信号，即前一帧的输入信号，

其中，所述比特流生成单元，将选择出的第一编码模块的模块ID及其比特流结合来生成输出比特流。

2.如权利要求1所述的编码设备，其中，所述模块选择单元，提取选择出的第一编码模块的模块ID，来将提取出的模块ID传输至模块缓冲器和比特流生成单元。

3.如权利要求1所述的编码设备，其中，所述语音编码单元包括：

第一语音编码器，当第一编码模块与第二编码模块相同时，其将输入信号编码为代码激励线性预测CELP结构；和

编码初始化单元，当第一编码模块与第二编码模块不同时，其决定用于第一语音编码器的编码的初始值。

4.如权利要求3所述的编码设备，其中：

当第一编码模块与第二编码模块相同时，所述第一语音编码器，使用第一语音编码器的内部初始值来编码输入信号，且

当第一编码模块与第二编码模块不同时，所述第一语音编码器，使用由编码初始化单元决定出的初始值来编码输入信号。

5.如权利要求3所述的编码设备，其中，所述编码初始化单元包括：

线性预测编码LPC分析器，其对前一个输入信号计算LPC系数；

线性谱对LSP转换器，其将计算出的LPC系数转换为LSP值；

LPC残差信号计算器，其使用前一个输入信号和LPC系数来计算LPC残差信号；

编码初始值决定单元，其使用LPC系数、LSP值、LPC残差信号，来决定用于第一语音编码器的编码的初始值。

6.如权利要求1所述的编码设备，其中，所述音频编码单元包括：

第一音频编码器，当第一编码模块与第二编码模块相同时，其通过改进离散余弦变换MDCT操作来编码输入信号；

第二语音编码器，当第一编码模块与第二编码模块不同时，其将输入信号编码为CELP结构；

第二音频编码器，当第一编码模块与第二编码模块不同时，其通过MDCT操作来编码输入信号；

多路复用器，其选择第一音频编码器的输出、第二语音编码器的输出、和第二音频编码器的输出来生成输出比特流。

7.如权利要求6所述的编码设备，其中，当第一编码模块与第二编码模块不同时，所述第二语音编码器，将对应第一帧的前1/2样本的输入信号进行编码。

8.如权利要求6所述的编码设备，其中，所述第二音频编码器包括：

零输入响应计算器，在终止第二语音编码器的编码操作之后，其对LPC滤波器计算零输入响应；

第一转换器，其将对应第一帧的前1/2样本的输入信号转换为零；和

第二转换器，其从对应第一帧的后1/2样本的输入信号中减去零输入响应，

其中，第二音频编码器，将第一转换器转换的信号和第二转换器转换的信号进行编码。

9.一种统合地解码语音信号和音频信号的解码设备，所述解码设备包括：

模块选择单元，其分析输入比特流的特征并选择用于解码输入比特流的第一帧的第一解码模块；

语音解码单元，其根据所述模块选择单元的选择来解码输入比特流，并生成语音信号；

音频解码单元，其根据所述模块选择单元的选择来解码输入比特流，并生成音频信号；

输出生成单元，其根据所述模块选择单元的选择，从语音解码单元的语音信号或音频解码单元的音频信号中选择一个，来将输出信号输出；

模块缓冲器，其存储选择出的第一解码模块的模块标识符ID，并将对应第一帧的前一帧的第二解码模块的信息传输至语音解码单元和音频解码单元；和

输出缓冲器，其存储输出信号并输出前一个输出信号，即前一帧的输出信号。

10.如权利要求9所述的解码设备，其中，所述语音解码单元包括：

第一语音解码器，当第一解码模块与第二解码模块相同时，其将输入比特流解码为CELP结构；和

解码初始化单元，当第一解码模块与第二解码模块不同时，其决定用于第一语音解码器的解码的初始值。

11.如权利要求10所述的解码设备，其中，所述解码初始化单元包括：

LPC分析器，其对前一个输出信号计算LPC系数；

LSP转换器，其将计算出的LPC系数转换为LSP值；

LPC残差信号计算器，其使用前一个输出信号和LPC系数来计算LPC残差信号；

解码初始值决定单元，其使用LPC系数、LSP值、LPC残差信号，来决定用于第一语音解码器的解码的初始值。

12.如权利要求10所述的解码设备，其中：

当第一解码模块与第二解码模块相同时，所述第一语音解码器，使用第一语音解码器的内部初始值来解码输入比特流，且

当第一解码模块与第二解码模块不同时，所述第一语音解码器，使用由解码初始化单元决定出的初始值来解码输入比特流。

13.如权利要求9所述的解码设备，其中，所述音频解码单元包括：

第一音频解码器，当第一解码模块与第二解码模块相同时，其通过反改进离散余弦变换IMDCT操作来解码输入比特流；

第二语音解码器，当第一解码模块与第二解码模块不同时，其将输入比特流解码为CELP结构；

第二音频解码器，当第一解码模块与第二解码模块不同时，其通过IMDCT操作来解码输入比特流；

信号恢复单元，其从第二语音解码器的输出和第二音频解码器的输出计算最终输出；和

输出选择器，其从第一音频解码器的输出和信号恢复单元的输出中选择一个输出。

14.如权利要求13所述的解码设备，其中，当第一解码模块与第二解码模块不同时，所述第二语音解码器，将对应第一帧的前1/2样本的输入比特流进行解码来将输入信号输出。

15.如权利要求13所述的解码设备，其中，所述信号恢复单元，将第二语音解码器的输入，决定为对应第一帧的前1/2的样本的输出信号。

16.如权利要求13所述的解码设备，其中，所述信号恢复单元，根据下列公式1来决定对应第一帧的后1/2样本的输出信号：

[公式1]

其中，h表示对应第一帧的后1/2样本的输出信号，b表示第二音频解码器的输出信号，x4表示第二语音解码器的输出信号，w1和w2表示窗口，w1_R表示对w1基于1/2帧的长度执行时间轴旋转生成的信号，x4_R表示对x4基于1/2帧的长度执行时间轴旋转生成的信号。

17.如权利要求13所述的解码设备，其中，所述信号恢复单元，根据下列公式2来决定对应第一帧的后1/2样本的输出信号：

[公式2]

其中，h表示对应第一帧的后1/2样本的输出信号，b表示第二音频解码器的输出信号，w2表示窗口。

18.如权利要求13所述的解码设备，其中，所述信号恢复单元，根据下列公式3来决定对应第一帧的后1/2样本的输出信号：

[公式3]

其中，h表示对应第一帧的后1/2样本的输出信号，b表示第二音频解码器的输出信号，w2表示窗口，x5表示在解码第二语音解码器的输出信号之后的对LPC滤波器的零输入响应。