CN101167126B

CN101167126B - 语音编码装置和语音编码方法

Info

Publication number: CN101167126B
Application number: CN2006800145767A
Authority: CN
Inventors: 吉田幸司
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: III Holdings 12 LLC
Priority date: 2005-04-28
Filing date: 2006-04-27
Publication date: 2011-09-21
Anticipated expiration: 2026-04-27
Also published as: WO2006118179A1; EP1876586B1; CN101167126A; EP1876586A4; US20090083041A1; EP1876586A1; RU2007139784A; JP4907522B2; DE602006011600D1; JPWO2006118179A1; US8428956B2

Abstract

即使在立体声语音的多个声道之间的相关较小的情况下也能够高效率地对立体声语音进行编码的语音编码装置。在该装置中，单声道信号生成单元(110)使用立体声信号所包含的第1声道信号和第2声道信号生成单声道信号。编码声道选择单元(120)选择第1声道信号或第2声道信号。包含单声道信号编码单元(112)、第1ch编码单元(122)、第2ch编码单元(124)以及开关单元(126)的编码单元，将所生成的单声道信号编码而获得核心层编码数据，同时将所选择的声道信号编码而获得与核心层编码数据对应的增强层编码数据。

Description

语音编码装置和语音编码方法

技术领域

本发明涉及语音编码装置和语音编码方法，特别涉及用于立体声语音的语音编码装置和语音编码方法。

背景技术

随着移动通信或IP通信中的传输频带的宽频化、服务的多样化，在语音通信中，对高质量化、富于临场感化的需求提高。例如，预计今后电视电话服务中的免提(hands free)方式的通话、电视会议中的语音通信、多个通话者在多个地点同时进行会话的多地点语音通信、能够在保持临场感的同时传输周围的声音环境的语音通信等的需要增加。在该情况下，期望实现比单声道信号富有临场感，而且能够识别多个通话者的讲话位置的基于立体声语音的语音通信。为了实现这样的基于立体声语音的语音通信，必须将立体声语音编码。

此外，在IP网络上的语音数据通信中，为了实现网络上的通信量控制和组播通信，期望具有可伸缩(scalable)的结构的语音编码方式。可伸缩的结构是指在接收端即使从一部分的编码数据也能够进行语音数据的解码的结构。具有可伸缩的结构的语音编码方式中的编码处理已被分层化，包含与核心层对应的处理和与增强层对应的处理。因此，通过该编码处理所生成的编码数据也包含核心层的编码数据和增强层的编码数据。

期望具有在将立体声语音编码并传输的情况下也能够在接收端选择立体声信号的解码和使用了一部分的编码数据的单声道信号的解码的、单声道-立体声之间的可伸缩结构(单声道/立体声可伸缩结构)的语音编码方式。

作为基于这样的语音编码方式的语音编码方法，例如有通过声道相互间的音调(pitch)预测来进行声道(以下有时简称为“ch”)之间的信号预测(从第1ch信号预测第2ch信号或从第2ch信号预测第1ch信号)，即利用两个声道之间的相关来进行编码的方法(参照非专利文献1)。

非专利文献1：Ramprashad，S.A.，“tereophonic CELP coding using cross channel prediction”，Proc.IEEE Workshop on Speech Coding，pp.136-138，Sep.2000.

发明内容

发明要解决的问题

但是，在上述现有的语音编码方法中，在双方的声道之间的相关较小的情况下，有时不能获得充分的预测性能(预测增益)，编码效率劣化。

本发明的目的在于，提供即使在双方的声道之间的相关较小的情况下也能够高效率地对立体声语音进行编码的语音编码装置和语音编码方法。

解决该问题的方案

本发明的语音编码装置对包含第1声道信号和第2声道信号的立体声信号进行编码，该语音编码装置采用的结构包括：单声道信号生成单元，使用所述第1声道信号和所述第2声道信号来生成单声道信号；选择单元，选择所述第1声道信号或所述第2声道信号；以及编码单元，将所生成的单声道信号编码而获得核心层编码数据，同时将所选择的声道信号编码而获得与所述核心层编码数据对应的增强层编码数据。

本发明的语音编码方法为对包含第1声道信号和第2声道信号的立体声信号进行编码，在该语音编码方法中，使用所述第1声道信号和所述第2声道信号来生成单声道信号；选择所述第1声道信号或所述第2声道信号；以及将所生成的单声道信号编码而获得核心层编码数据，同时将所选择的声道信号编码而获得与所述核心层编码数据对应的增强层编码数据。

发明的有益效果

根据本发明，即使在立体声信号的多个声道信号之间的相关小的情况下也能够高效率地对立体声语音进行编码。

附图说明

图1是表示本发明实施方式1的语音编码装置的结构的方框图；

图2是表示本发明实施方式1的语音解码装置的结构的方框图；

图3是表示本发明实施方式2的语音编码装置的结构的方框图；

图4是表示本发明实施方式3的语音编码装置的结构的方框图；

图5是表示本发明实施方式3的编码声道选择单元的结构的方框图；

图6是表示本发明实施方式3的第Ach编码单元的结构的方框图；

图7是用于说明本发明实施方式3的第A声道的声道内预测缓存器的一例更新动作的图；

图8是用于说明本发明实施方式3的第B声道的声道内预测缓存器的一例更新动作的的图；

图9是表示本发明实施方式4的语音编码装置的结构的方框图；

图10是表示本发明实施方式4的第AchCELP编码单元的结构的方框图；

图11是表示本发明实施方式4的一例自适应码本更新动作的流程图；

图12是用于说明本发明实施方式4的第Ach自适应码本的一例更新动作的图；以及

图13是用于说明本发明实施方式4的第Bch自适应码本的一例更新动作的图。

具体实施方式

以下，参照附图详细说明与具有单声道/立体声可伸缩结构的语音编码有关的本发明的实施方式。

(实施方式1)

图1是表示本发明的实施方式1的语音编码装置的结构的方框图。图1的语音编码装置100具有作为与可伸缩结构的核心层对应的结构要素的核心层编码单元102和作为与可伸缩结构的增强层对应的结构要素的增强层编码单元104。以下，将各个结构要素以帧为单位进行动作为前提来进行说明。

核心层编码单元102具有单声道信号生成单元110和单声道信号编码单元112。此外，增强层编码单元104具有编码声道选择单元120、第1ch编码单元122、第2ch编码单元124以及开关单元126。

在核心层编码单元102中，单声道信号生成单元110根据式(1)所示的关系，从立体声输入语音信号所包含的第1ch输入语音信号s_ch1(n)和第2ch输入语音信号s_ch2(n)(其中，n＝0-NF-1；NF为帧长度)生成单声道信号s_mono(n)，并输出到单声道信号编码单元112。这里，本实施方式中说明的立体声信号由两个声道的信号，即第1声道的信号和第2声道的信号构成。

s_mono (n) = \frac{s_ch 1 (n) + s_ch 2 (n)}{2}

...式(1)

单声道信号编码单元112对每个帧将单声道信号s_mono(n)编码。编码中可使用任意的编码方式。将对单声道信号s_mono(n)进行编码而获得的编码数据作为核心层编码数据输出。更具体地说，将核心层编码数据与后面叙述的增强层编码数据和编码声道选择信息复用，并将其作为发送编码数据从语音编码装置100输出。

此外，单声道信号编码单元112将单声道信号s_mono(n)解码，并将由此获得的单声道解码语音信号输出到增强层编码单元104的第1ch编码单元122和第2ch编码单元124。

在增强层编码单元104中，编码声道选择单元120使用第1ch输入语音信号s_ch1(n)和第2ch输入语音信号s_ch2(n)，基于预定的选择基准，在第1声道和第2声道中选择最适合的声道作为增强层上的编码对象的声道。对每个帧选择最适合的声道。这里，预定的选择基准为用于能够高效率或高音质(低编码失真)地实现增强层编码的基准。编码声道选择单元120生成表示所选择的声道的编码声道选择信息。所生成的编码声道选择信息被输出到开关单元126，同时将其与所述的核心层编码数据和后面叙述的增强层编码数据复用。

另外，编码声道选择单元120也可以使用在第1ch编码单元122和第2ch编码单元124中的编码的过程中所获得的任意的参数或信号、或者编码的结果(即，后面叙述的第1ch编码数据和第2ch编码数据)，来代替使用第1输入语音信号s_ch1(n)和第2输入语音信号s_ch2(n)。

第1ch编码单元122使用第1ch输入语音信号和单声道解码语音信号，对每个帧将第1ch输入语音信号编码，并将由此获得的第1ch编码数据输出到开关单元126。

此外，第1ch编码单元122将第1ch编码数据解码而获得第1ch解码语音信号。但是，在本实施方式中，关于由第1ch编码单元122获得的第1ch解码语音信号，省略其图示。

第2ch编码单元124使用第2ch输入语音信号和单声道解码语音信号，对每个帧将第2ch输入语音信号编码，并将由此获得的第2ch编码数据输出到开关单元126。

此外，第2ch编码单元124将第2ch编码数据解码而获得第2ch解码语音信号。但是，在本实施方式中，关于由第2ch编码单元124获得的第2ch解码语音信号，省略其图示。

开关单元126根据编码声道选择信息，对于每个帧选择性地输出第1ch编码数据或第2ch编码数据。所输出的编码数据为由编码声道选择单元120选择的声道的编码数据。因此，所选择的声道从第1声道切换到第2声道或从第2声道切换到第1声道时，从开关单元126输出的编码数据也从第1ch编码数据切换到第2编码数据或从第2ch编码数据切换到第1ch编码数据。

这里，上述的单声道信号编码单元112、第1ch编码单元122、第2ch编码单元124以及开关单元126的组合构成编码单元，该编码单元将单声道信号编码而获得核心层编码数据，同时将所选择的声道信号编码而获得与核心层编码数据对应的增强层编码数据。

图2是表示语音解码装置的结构的方框图，该语音解码装置能够接收并解码作为接收编码数据的从语音编码装置100输出的发送编码数据，从而获得单声道解码语音信号和立体声解码语音信号。图2的语音解码装置150具有作为与可伸缩结构的核心层对应的结构要素的核心层解码单元152和作为与可伸缩结构的增强层对应的结构要素的增强层解码单元154。

核心层解码单元152具有单声道信号解码单元160。单声道信号解码单元160将接收到的接收编码数据中所包含的核心层编码数据解码，从而获得单声道解码语音信号sd_mono(n)。单声道解码语音信号sd_mono(n)被输出到后级的语音输出单元(未图示)、第1ch解码单元172、第2ch解码单元174、第1ch解码信号生成单元176以及第2ch解码信号生成单元178。

增强层解码单元154具有开关单元170、第1ch解码单元172、第2ch解码单元174、第1ch解码信号生成单元176、第2ch解码信号生成单元178以及开关单元180和182。

开关单元170参照接收编码数据所包含的编码声道选择信息，将接收编码数据中所包含的增强层编码数据输出到与所选择的声道对应的解码单元。具体而言，在所选择的声道为第1声道时，增强层编码数据被输出到第1ch解码单元172，在所选择的声道为第2声道时，增强层编码数据被输出到第2ch解码单元174。

在从开关单元170输入了增强层编码数据时，第1ch解码单元172使用该增强层编码数据和单声道解码语音信号sd_mono(n)将第1ch解码语音信号sd_ch1(n)解码，并将第1ch解码语音信号sd_ch1(n)输出到开关单元180和第2ch解码信号生成单元178。

在从开关单元170输入了增强层编码数据时，第2ch解码单元174使用该增强层编码数据和单声道解码语音信号sd_mono(n)将第2ch解码语音信号sd_ch2(n)解码，并将第2ch解码语音信号sd_ch2(n)输出到开关单元182和第1ch解码信号生成单元176。

在从第2ch解码单元174输入了第2ch解码语音信号sd_ch2(n)时，第1ch解码信号生成单元176使用从第2ch解码单元174输入的第2ch解码语音信号sd_ch2(n)和单声道解码语音信号sd_mono(n)，基于下面的式(2)所示的关系而生成第1ch解码语音信号sd_ch1(n)。所生成的第1ch解码语音信号sd_ch1(n)被输出到开关单元180。

sd_ch1(n)＝2×sd_mono(n)-sd_ch2(n) ...式(2)

在从第1ch解码单元172输入了第1ch解码语音信号sd_ch1(n)时，第2ch解码信号生成单元178使用从第1ch解码单元172输入的第1ch解码语音信号sd_ch1(n)和单声道解码语音信号sd_mono(n)，基于下面的式(3)所示的关系而生成第2ch解码语音信号sd_ch2(n)。所生成的第2ch解码语音信号sd_ch2(n)被输出到开关单元182。

sd_ch2(n)＝2×sd_mono(n)-sd_ch1(n) ...式(3)

开关单元180根据编码声道选择信息，选择性地输出从第1ch解码单元172输入的第1ch解码语音信号sd_ch1(n)或从第1ch解码信号生成单元176输入的第1ch解码语音信号sd_ch1(n)。具体而言，在所选择的声道是第1声道时，选择并输出从第1ch解码单元172输入的第1ch解码语音信号sd_ch1(n)。另一方面，在所选择的声道是第2声道时，选择并输出从第1ch解码信号生成单元176输入的第1ch解码语音信号sd_ch1(n)。

开关单元182根据编码声道选择信息，选择性地输出从第2ch解码单元174输入的第2ch解码语音信号sd_ch2(n)或从第2ch解码信号生成单元178输入的第2ch解码语音信号sd_ch2(n)。具体而言，在所选择的声道是第1声道时，选择并输出从第2ch解码信号生成单元178输入的第2ch解码语音信号sd_ch2(n)。另一方面，在所选择的声道是第2声道时，选择并输出从第2ch解码单元174输入的第2ch解码语音信号sd_ch2(n)。

从开关单元180输出的第1ch解码语音信号sd_ch1(n)和从开关单元182输出的第2ch解码语音信号sd_ch2(n)作为立体声解码语音信号被输出到后级的语音输出单元(未图示)。

这样，根据本实施方式，将对从第1ch输入语音信号s_ch1(n)和第2ch输入语音信号s_ch2(n)所生成的单声道信号s_mono(n)编码而获得核心层编码数据，同时将对第1声道和第2声道中的所选择的声道的输入语音信号(第1ch输入语音信号s_ch1(n)或第2ch输入语音信号s_ch2(n))编码而获得增强层编码数据，所以能够避免在立体声信号的多个声道之间的相关较小时预测性能(预测增益)不充分的情况，能够将立体声语音高效率地编码。

(实施方式2)

图3是表示本发明的实施方式2的语音编码装置的结构的方框图。

另外，图3的语音编码装置200具有与实施方式1中所说明的语音编码装置100相同的基本结构。因此，对在本实施方式中说明的结构要素中的与实施方式1中所说明的结构要素相同的结构要素赋予相同的参照标号，并省略该结构要素的详细说明。

此外，能够在具有与实施方式1中所说明的语音解码装置150相同的基本结构的语音解码装置中，将从语音编码装置200输出的发送编码数据解码。

语音编码装置200具有核心层编码单元102和增强层编码单元202。增强层编码单元202具有第1ch编码单元122、第2ch编码单元124、开关单元126以及编码声道选择单元210。

编码声道选择单元210具有第2ch解码语音生成单元212、第1ch解码语音生成单元214、第1失真计算单元216、第2失真计算单元218以及编码声道决定单元220。

第2ch解码语音生成单元212使用由单声道信号编码单元112获得的单声道解码语音信号和由第1ch编码单元122获得的第1ch解码语音信号，基于上述的式(3)所示的关系而生成作为第2ch估计信号的第2ch解码语音信号。所生成的第2ch解码语音信号被输出到第1失真计算单元216。

第1ch解码语音生成单元214使用由单声道信号编码单元112获得的单声道解码语音信号和由第2ch编码单元124获得的第2ch解码语音信号，基于上述的式(2)所示的关系而生成作为第1ch估计信号的第1ch解码语音信号。所生成的第1ch解码语音信号被输出到第2失真计算单元218。

上述的第2ch解码语音生成单元212和第1ch解码语音生成单元214的组合构成估计信号生成单元。

第1失真计算单元216使用由第1ch编码单元122获得的第1ch解码语音信号和由第2ch解码语音生成单元212获得的第2ch解码语音信号，计算第1编码失真。第1编码失真相当于在选择第1声道作为增强层中的编码的对象声道时所产生的两个声道的编码失真。所计算出的第1编码失真被输出到编码声道决定单元220。

第2失真计算单元218使用由第2ch编码单元124获得的第2ch解码语音信号和由第1ch解码语音生成单元214获得的第1ch解码语音信号，计算第2编码失真。第2编码失真相当于在选择第2声道作为增强层中的编码的对象声道时所产生的两个声道的编码失真。所计算出的第2编码失真被输出到编码声道决定单元220。

这里，作为计算两个声道的编码失真(第1编码失真或第2编码失真)的方法，例如列举以下两个方法。一个方法是，求误差功率的比(信号与编码失真之比)的两个声道的平均作为两个声道的编码失真，该误差功率的比为各声道的解码语音信号(第1ch解码语音信号或第2ch解码语音信号)的相对于对应的输入语音信号(第1ch输入语音信号或第2ch输入语音信号)的误差功率的比。另一个方法是，求上述的误差功率的两个声道的总和作为两个声道的编码失真。

上述的第1失真计算单元216和第2失真计算单元218的组合构成失真计算单元。此外，该失真计算单元和上述的估计信号生成单元的组合构成计算单元。

编码声道决定单元220对第1编码失真的值和第2编码失真的值进行相互比较，选择第1编码失真和第2编码失真中具有较小值的编码失真的值。编码声道决定单元220选择与所选择的编码失真对应的声道作为增强层中的编码的对象声道(编码声道)，生成用于表示所选择的声道的编码声道选择信息。更具体地说，在第1编码失真小于第2编码失真时，编码声道决定单元220选择第1声道，在第2编码失真小于第1编码失真时，编码声道决定单元220选择第2声道。所生成的编码声道选择信息被输出到开关单元126，同时将其与核心层编码数据和增强层编码数据复用。

这样，根据本实施方式，因为使用编码失真的大小作为编码声道的选择基准，所以能够降低增强层的编码失真，并能够对立体声语音高效率地进行编码。

另外，在本实施方式中，计算对应的输入语音信号的各声道的解码语音信号的误差功率的比或总和，使用该计算结果作为编码失真，但是也可以使用在第1ch编码单元122和第2ch编码单元124中的编码的过程中所获得的编码失真来代替。此外，该编码失真也可以是听觉加权的失真。

(实施方式3)

图4是表示本发明的实施方式3的语音编码装置的结构的方框图。另外，图4的语音编码装置300具有与上述的实施方式中说明了的语音编码装置100和200相同的基本结构。因此，关于本实施方式中说明的结构要素中的与上述的实施方式中所说明了的结构要素相同的结构要素，赋予与上述的实施方式中使用的参照标号相同的参照标号，并省略其详细说明。

此外，能够在具有与实施方式1中说明了的语音解码装置150相同的基本结构的语音解码装置中，解码从语音编码装置300输出的发送编码数据。

语音编码装置300具有核心层编码单元102和增强层编码单元302。增强层编码单元302具有编码声道选择单元310、第1ch编码单元312、第2ch编码单元314以及开关单元126。

如图5所示，编码声道选择单元310具有第1ch声道内相关度计算单元320、第2ch声道内相关度计算单元322以及编码声道决定单元324。

第1ch声道内相关度计算单元320使用对第1ch输入语音信信号的归一化最大自相关系数值来计算第1声道的声道内相关度cor1。

第2ch声道内相关度计算单元322使用对第2ch输入语音信信号的归一化最大自相关系数值来计算第2声道的声道内相关度cor2。

另外，在计算各声道的声道内相关度时，能够使用对各声道的输入语音信号的音调预测增益值，或使用对LPC(Linear Prediction Coding)预测残差信号的归一化最大自相关系数值和音调预测增益值来代替使用对各声道的输入语音信号的归一化最大自相关系数值。

编码声道决定单元324对声道内相关度cor1和cor2进行相互比较，选择它们中具有较高值的声道内相关度。编码声道决定单元324选择与所选择的声道内相关度对应的声道作为增强层中的编码声道，生成表示所选择的声道的编码声道选择信息。更具体地说，在声道内相关度cor1大于声道内相关度 cor2时，编码声道决定单元324选择第1声道，在声道内相关度cor2大于声道内相关度cor1时，编码声道决定单元324选择第2声道。所生成的编码声道选择信息被输出到开关单元126，同时将其与核心层编码数据和增强层编码数据复用。

第1ch编码单元312和第2ch编码单元314具有彼此相同的内部结构。因此，为了简化说明，将第1ch编码单元312或第2ch编码单元314表示为“第Ach编码单元330”，使用图6说明其内部结构。另外，“Ach”中的“A”表示1或2。此外，在图中和以下的说明中所使用的“B”也表示1或2。但是，在“A”为1时“B” 为2，在“A”为2时“B”为1。

第Ach编码单元330具有开关单元332、第Ach信号声道内预测单元334、减法器336和338、第Ach预测残差信号编码单元340以及第Bch估计信号生成单元342。

开关单元332根据编码声道选择信息，将由第Ach预测残差信号编码单元340获得的第Ach解码语音信号或由第Bch编码单元(未图示)获得的第Ach估计信号输出到第Ach信号声道内预测单元334。具体而言，在所选择的声道是第A声道时，第Ach解码语音信号被输出到第Ach信号声道内预测单元334，在所选择的声道是第B声道时，第Ach估计信号被输出到第Ach信号声道内预测单元334。

第Ach信号声道内预测单元334进行第A声道的声道内预测。声道内预测为利用声道内的信号的相关性而从以前帧的信号预测当前帧的信号。作为声道内预测的结果，获得声道内预测信号Sp(n)和声道内预测参数量化代码。例如使用1次的音调预测滤波器时，根据下面的式(4)计算声道内预测信号Sp(n)。

Sp(n)＝gp×Sin(n-T) ...式(4)

其中，Sin(n)为输入到音调预测滤波器的输入信号，T为音调预测滤波器的延迟，gp为音调预测滤波器的音调预测系数。

所述的以前帧的信号被保持在第Ach信号声道内预测单元334的内部所设有的声道内预测缓存器(第Ach声道内预测缓存器)中。此外，为了下一帧的信号的预测，以从开关单元332输入的信号更新第Ach声道内预测缓存器。在后面叙述声道内预测缓存器的更新的细节。

减法器336从第Ach输入语音信号中减去单声道解码语音信号。减法器 338从通过减法器336中的相减所得的信号中减去通过第Ach信号声道内预测单元334中的声道内预测所得的声道内预测信号Sp(n)。通过减法器338中的相减所得的信号即第Ach预测残差信号被输出到第Ach预测残差信号编码单元340。

第Ach预测残差信号编码单元340以任意的编码方式将第Ach预测残差信号编码。通过该编码而获得预测残差编码数据和第Ach解码语音信号。预测残差编码数据与声道内预测参数量化代码一起作为第Ach编码数据被输出。第Ach解码语音信号被输出到第Bch估计信号生成单元342和开关单元332。

第Bch估计信号生成单元342从第Ach解码语音信号和单声道解码语音信号，生成作为第A声道编码时的第Bch解码语音信号的第Bch估计信号。所生成的第Bch估计信号被输出到未图示的第Bch编码单元的开关单元(与开关单元332相同)。

接着，说明声道内预测缓存器的更新动作。这里，以由编码声道选择单元310选择了第A声道的情况为例，使用图7说明第A声道的声道内预测缓存器的更新动作例，使用图8说明第B声道的声道内预测缓存器的更新动作例。

在图7所示的动作例中，使用由第Ach预测残差信号编码单元340获得的第i帧(i为任意自然数)的第Ach解码语音信号，将第Ach信号声道内预测单元334的内部的第Ach声道内预测缓存器351更新(ST101)。然后，更新后的第Ach声道内预测缓存器351被用于下一帧即第i+1帧的声道内预测(ST102)。

在图8所示的动作例中，使用第i帧的第Ach解码语音信号和第i帧的单声道解码语音信号，生成第i帧的第Bch估计信号(ST201)。将所生成的第Bch估计信号从第Ach编码单元330输入到未图示的第Bch编码单元。然后，在第Bch编码单元中，第Bch估计信号通过开关单元(与开关单元332相同)被输出到第Bch信号声道内预测单元(与第Ach信号声道内预测单元334相同)。通过第Bch估计信号，更新第Bch信号声道内预测单元的内部所设有的第Bch声道内预测缓存器352(ST202)。然后，更新后的第Bch声道内预测缓存器352被用于第i+1帧的声道内预测(ST203)。

在某一个帧中，在选择第A声道作为编码声道时，在第Bch编码单元中，为了不被请求进行第Bch声道内预测缓存器352的更新动作以外的动作，能够在该帧中停止第Bch输入语音信号的编码。

这样，根据本实施方式，使用声道内相关度的高低作为编码声道的选择基准，所以能够将声道内相关度高的声道的信号编码，能够提高使用声道内预测的编码效率。

另外，还能够在语音编码装置300的结构中加上执行声道间预测的结构要素。此时，语音编码装置300能够采用的结构为，进行使用单声道解码语音信号来预测第Ach语音信号的声道间预测，并将由此所生成的声道间预测信号输入到减法器336，来代替将单声道解码语音信号输入到减法器336。

(实施方式4)

图9是表示本发明的实施方式4的语音编码装置的结构的方框图。

另外，图9的语音编码装置400具有与上述的实施方式中说明了的语音编码装置100、200以及300相同的基本结构。因此，关于在本实施方式中说明的结构要素中的与上述的实施方式中说明了的结构要素相同的结构要素，赋予与上述的实施方式中使用的参照标号相同的参照标号，并省略其详细说明。

此外，能够在具有与实施方式1中说明了的语音解码装置150相同的基本结构的语音解码装置中，将从语音编码装置400输出的发送编码数据解码。

语音编码装置400具有核心层编码单元402和增强层编码单元404。核心层编码单元402具有单声道信号生成单元110和单声道信号CELP(CodeExcited Linear Prediction)编码单元410。增强层编码单元404具有编码声道选择单元310、第1chCELP编码单元422、第2chCELP编码单元424以及开关单元126。

在核心层编码单元402中，单声道信号CELP编码单元410对由单声道信号生成单元110生成的单声道信号进行CELP编码。通过该编码所得的编码数据作为核心层编码数据输出。此外，通过该编码而获得单声道驱动音源信号。进而，单声道信号CELP编码单元410将单声道信号解码，并将由此获得的单声道解码语音信号输出。将核心层编码数据与增强层编码数据和编码声道选择信息复用。此外，核心层编码数据、单声道驱动音源信号以及单声道解码语音信号被输出到第1chCELP编码单元422和第2chCELP编码单元424。

在增强层编码单元404中，第1chCELP编码单元422和第2chCELP编码单元424具有彼此相同的内部结构。因此，为了简化说明，将第1chCELP编码单元422或第2chCELP编码单元424表示为“第AchCELP编码单元430”，使用图10说明其内部结构。另外，如上所述，“Ach”中的“ A” 表示1或2，在图中和在以下的说明中所使用的“B”也表示1或2，并且“A”为1时“B”为2，“A”为2时“B”为1。

第AchCELP编码单元430包括：第AchLPC(Linear Prediction Coding)分析单元431、乘法器432、433、434、435和436、开关单元437、第Ach自适应码本438、第Ach固定码本439、加法器440、合成滤波器441、听觉加权单元442、失真最小化单元443、第Ach解码单元444、第Bch估计信号生成单元445、第AchLPC分析单元446、第AchLPC预测残差信号生成单元447以及减法器448。

在第AchCELP编码单元430中，第AchLPC分析单元431进行对第Ach输入语音信号的LPC分析，并对由此获得的第AchLPC参数进行量化。第AchLPC分析单元431利用第AchLPC参数与对单声道信号的LPC参数之间的相关一般较高的情况，在对LPC参数进行量化时，从核心层编码数据将单声道信号量化LPC参数解码，并将对相对于所解码的单声道信号量化LPC参数的第AchLPC参数的差分分量量化，从而获得第AchLPC量化代码。第AchLPC量化代码被输出到合成滤波器441。此外，第AchLPC量化代码与后面叙述的第Ach驱动音源编码数据一起，作为第Ach编码数据被输出。通过进行差分分量的量化，能够有效地进行增强层的LPC参数的量化。

在第AchCELP编码单元430中，通过将相对于第Ach驱动音源信号的单声道驱动音源信号的残差分量编码而获得第Ach驱动音源编码数据。该编码通过CELP编码中的音源搜索来实现。

也就是说，在第AchCELP编码单元430中，将自适应音源信号、固定音源信号以及单声道驱动音源信号乘以与它们各自对应的增益，并将乘以增益后的这些音源信号相加。然后，对通过该相加所得的驱动音源信号，进行基于失真最小化的闭环型音源搜索(自适应码本搜索、固定码本搜索以及增益搜索)。然后，自适应码本索引(自适应音源索引)、固定码本索引(固定音源索引)以及对于自适应音源信号、固定音源信号和单声道驱动音源信号的增益代码作为第Ach驱动音源编码数据被输出。相对于对每个帧进行核心层的编码、增强层的编码以及编码声道的选择而言，对通过将帧分割为多个部分而获得的每个子帧进行该音源搜索。以下将更加具体地说明该结构。

合成滤波器441使用从第AchLPC分析单元431输出的第AchLPC量化代码，将从加法器440输出的信号作为驱动音源而进行基于LPC合成滤波器的合成。将通过该合成所得的合成信号输出到减法器448。

减法器448通过从第Ach输入语音信号中减去合成信号来计算误差信号。该误差信号被输出到听觉加权单元442。该误差信号相当于编码失真。

听觉加权单元442对编码失真(即，上述的误差信号)进行听觉上的加权，并将加权后的编码失真输出到失真最小化单元443。

失真最小化单元443决定使编码失真为最小的自适应码本索引和固定码本索引，并将自适应码本索引输出到第Ach自适应码本438，将固定码本索引输出到第Ach固定码本439。此外，失真最小化单元443生成与这些索引对应的增益，具体而言，生成对在后面叙述的自适应向量及在后面叙述的固定向量各自的增益(自适应码本增益和固定码本增益)，并将自适应码本增益输出到乘法器433，将固定码本增益输出到乘法器435。

此外，失真最小化单元443生成用于调整单声道驱动音源信号、乘以增益后的自适应向量以及乘以增益后的固定向量之间的增益的增益(第1调整用增益、第2调整用增益以及第3调整用增益)，并将第1调整用增益输出到乘法器432，将第2调整用增益输出到乘法器434，将第3调整用增益输出到乘法器436。这些调整用增益优选以相互具有关系性的方式生成。例如，在第1ch输入语音信号与第2ch输入语音信号之间的声道间相关较高时，生成三个调整用增益，以使单声道驱动音源信号的贡献部分对于乘以增益后的自适应向量和乘以增益后的固定向量的贡献部分相对地增大。反之，在声道间相关较低时，生成三个调整用增益，以使单声道驱动音源信号的贡献部分对于乘以增益后的自适应向量和乘以增益后的固定向量的贡献部分相对地减小。

此外，失真最小化单元443将自适应码本索引、固定码本索引、自适应码本增益的代码、固定码本增益的代码以及三个增益调整用增益的代码作为第Ach驱动音源编码数据输出。

第Ach自适应码本438将以前所生成的输入到合成滤波器441的驱动音源的音源向量存储在内部缓存器中。此外，第Ach自适应码本438从所存储的音源向量生成相当于1子帧的向量作为自适应向量。基于与从失真最小化单元443输入的自适应码本索引所对应的自适应码本延迟(音调延迟或音调周期)，生成自适应向量。所生成的自适应向量被输出到乘法器433。

通过从开关单元437输出的信号，更新第Ach自适应码本438内部缓存器。在后面叙述该更新动作的细节。

第Ach固定码本439将与失真最小化单元443输出的固定码本索引对应的音源向量作为固定向量输出到乘法器435。

乘法器433将从第Ach自适应码本438输出的自适应向量乘以自适应码本增益，并将乘以增益后的自适应向量输出到乘法器434。

乘法器435将从第Ach自适应码本439输出的固定向量乘以固定码本增益，并将乘以增益后的固定向量输出到乘法器436。

乘法器432将单声道驱动音源信号乘以第1调整用增益，并将乘以增益后的单声道驱动音源信号输出到加法器440。乘法器434将从乘法器433输出的自适应向量乘以第2调整用增益，并将乘以增益后的自适应向量输出到加法器440。乘法器436将从乘法器435输出的固定向量乘以第3调整用增益，并将乘以增益后的固定向量输出到加法器440。

加法器440将从乘法器432输出的单声道驱动音源信号、从乘法器434输出的自适应向量以及从乘法器436输出的固定向量相加，并将相加后的信号输出到开关单元437和合成滤波器441。

开关单元437根据编码声道选择信息，将从加法器440输出的信号或从第AchLPC预测残差信号生成单元447输出的信号输出到第Ach自适应码本438。更具体地说，在所选择的声道是第A声道时，来自加法器440的信号被输出到第Ach自适应码本438，在所选择的声道是第B声道时，来自第AchLPC预测残差信号生成单元447的信号被输出到第Ach自适应码本438。

第Ach解码单元444将第Ach编码数据解码，并将由此所获得的第Ach解码语音信号输出到第Bch估计信号生成单元445。

第Bch估计信号生成单元445使用第Ach解码语音信号和单声道解码语音信号，生成作为第Ach编码时的第Bch解码语音信号的第Bch估计信号。所生成的第Bch估计信号被输出到第BchCELP编码单元(未图示)。

第AchLPC分析单元446对从未图示的第BchCELP编码单元输出的第Ach估计信号进行LPC分析，并将由此获得的第AchLPC参数输出到第AchLPC预测残差信号生成单元447。这里，从第BchCELP编码单元输出的第Ach估计信号相当于在第BchCELP编码单元中将第Bch输入语音信号编码时(第Bch编码时)所生成的第Ach解码语音信号。

第AchLPC预测残差信号生成单元447使用从第AchLPC分析单元446输出的第AchLPC参数，生成对第Ach估计信号的编码LPC预测残差信号。所生成的编码LPC预测残差信号被输出到开关单元437。

接着，说明第AchCELP编码单元430和未图示的第BchCELP编码单元中的自适应码本更新动作。图11是表示由编码声道选择单元310选择了第A声道时的自适应码本更新动作的流程图。

这里所例示的流程分为，第AchCELP编码单元430中的CELP编码处理(ST310)、第AchCELP编码单元430内的自适应码本的更新处理(ST320)以及第BchCELP编码单元内的自适应码本的更新处理(ST330)。此外，步骤ST310包含两个步骤ST311和ST312，步骤ST330包含四个步骤ST331、ST332、ST333以及ST334。

首先，在步骤ST311中，通过第AchCELP编码单元430的第AchLPC分析单元431进行LPC分析和量化。然后，通过主要包含第Ach自适应码本438、第Ach固定码本439、乘法器432、433、434、435和436、加法器440、合成滤波器441、减法器448、听觉加权单元442以及失真最小化单元443的闭环型音源搜索单元，进行音源搜索(自适应码本搜索、固定码本搜索以及增益搜索)(ST312)。

在步骤ST320，通过由上述的音源搜索所获得的第Ach驱动音源信号，更新第Ach自适应码本438的内部缓存器。

在步骤ST331，通过第AchCELP编码单元430的第Bch估计信号生成单元445生成第Bch估计信号。所生成的第Bch估计信号从第AchCELP编码单元430送至第BchCELP编码单元。然后，在步骤ST332，通过第BchCELP编码单元的未图示的第BchLPC分析单元(等同于第AchLPC分析单元446)进行对第Bch估计信号的LPC分析，从而获得第BchLPC参数。

然后，在步骤ST333，通过第BchCELP编码单元的未图示的第BchLPC预测残差信号生成单元(等同于第AchLPC预测残差信号生成单元447)，使用第BchLPC参数，从而生成对第Bch估计信号的编码LPC预测残差信号。该编码LPC预测残差信号通过第BchCELP编码单元的未图示的开关单元(等同于开关单元437)，被输出到未图示的第Bch自适应码本(等同于第Ach自适应码本438)。然后，在步骤ST334，通过对第Bch估计信号的编码LPC预测残差信号，更新第Bch自适应码本的内部缓存器。

接着，具体地说明自适应码本更新动作。这里，以由编码声道选择单元310选择第A声道的情况为例，使用图12说明第Ach自适应码本438的内部缓存器的更新动作例，使用图13说明第Bch自适应码本的内部缓存器的更新动作例。

在图12所示的动作例中，使用由失真最小化单元443获得的第i帧内的第j子帧的第Ach驱动音源信号，更新第Ach自适应码本438的内部缓存器(ST401)。然后，更新后的第Ach自适应码本438被用于下一子帧即第j+1子帧的音源搜索(ST402)。

在图13所示的动作例中，使用第i帧的第Ach解码语音信号和第i帧的单声道解码语音信号，生成第i帧的第Bch估计信号(ST501)。所生成的第Bch估计信号从第AchCELP编码单元430输出到第BchCELP编码单元。然后，在第BchCELP编码单元的第BchLPC预测残差信号生成单元中，生成有关第i帧的第Bch编码LPC预测残差信号(对第Bch估计信号的编码LPC预测残差信号)451(ST502)。第Bch编码LPC预测残差信号451通过第BchCELP编码单元的开关单元被输出到第Bch自适应码本452。通过第Bch编码LPC预测残差信号451，更新第Bch自适应码本452(ST503)。更新后的第Bch自适应码本452被用于下一帧即第i+1帧的音源搜索(ST504)。

在某一个帧中，在选择了第A声道作为编码声道时，在第BchCELP编码单元中，为了不被请求进行第Bch自适应码本452的更新动作以外的动作，能够在该帧中停止第Bch输入语音信号的编码。

这样，根据本实施方式，在基于CELP编码方式进行各层的语音编码时，能够将声道内相关度较高的声道的信号编码，能够提高使用声道内预测的编码效率。

另外，在本实施方式中，说明了以在采用CELP编码方式的语音编码装置中使用实施方式3中说明了的编码声道选择单元310为例的情况，但是也能够使用实施方式1和实施方式2中分别所说明的编码声道选择单元120和编码声道选择单元210来代替编码声道选择单元310，或与编码声道310一起使用。因此，在基于CELP编码方式进行各层的语音编码时，能够实现上述的各实施方式中说明了的效果。

此外，作为增强层的编码声道的选择基准，能够使用上述的选择基准以外的其他选择基准。例如，关于某一个帧，也可以分别进行第AchCELP编码单元430的自适应码本搜索和第BchCELP编码单元的自适应码本搜索，选择作为这些结果而获得的编码失真中具有较小值的编码失真所对应的声道作为编码声道。

此外，能够在语音编码装置400的结构中加上执行声道间预测的结构要素。此时，语音编码装置400能够采用的结构为，进行使用单声道驱动音源信号来预测第Ach解码语音信号的声道间预测，并将对由此所生成的声道间预测信号乘以第1调整用增益，来代替对单声道驱动音源信号直接乘以第1调整用增益。

以上，说明了本发明的各个实施方式。上述实施方式的语音编码装置和语音解码装置能够搭载在移动通信系统中所使用的无线通信移动台装置和无线通信基站装置等无线通信装置上。

再有，在上述实施方式中以硬件构成本发明的情况为例进行了说明，但本发明也能够以软件实现。

再有，上述实施方式的说明中的各功能块可实现为一般作为集成电路的LSI。它们既可以单独地实行单芯片化，也可以包含其中一部分或全部而实行单芯片化。

这里为LSI，而根据集成度的不同，有时也称为IC、系统LSI、超级LSI、超大LSI。

此外，集成电路化的方法不限定于LSI，可以通过专用电路或通用处理器实现。也可以利用能在LSI制造后编程的FPGA(Field Programable GateArray，现场可编程门阵列)，或将LSI内部的电路单元连接或设定重新配置的可重配置处理器。

再者，如果由于半导体技术的进步或派生的其他技术而出现了置换LSI的集成电路化的技术，则当然也可以用该技术来进行功能块的集成化。并且存在着适用生物技术的可能性。

本说明书是基于2005年4月28日申请的日本专利特愿2005-132366。其内容全部包含于此。

工业上的可利用性

本发明能够应用于移动通信系统或使用因特网协议的分组通信系统等中的通信装置的用途。

Claims

1. 一种语音编码装置，其对包含第1声道信号和第2声道信号的立体声信号进行编码，该语音编码装置包括：

单声道信号生成单元，使用所述第1声道信号和所述第2声道信号生成单声道信号；

选择单元，选择所述第1声道信号或所述第2声道信号；以及

编码单元，将所生成的单声道信号编码而获得核心层编码数据，同时将所选择的声道信号编码而获得与所述核心层编码数据对应的增强层编码数据。

2. 如权利要求1所述的语音编码装置，其中，

所述选择单元对每个帧选择所述第1声道信号或所述第2声道信号，

所述编码单元对所述每个帧将所述单声道信号和对所述每个帧所选择出的声道信号进行编码。

3. 如权利要求1所述的语音编码装置，其中，还包括：

计算单元，分别计算在选择了所述第1声道信号时所产生的第1编码失真和在选择了所述第2声道信号时所产生的第2编码失真；以及

所述选择单元在计算出的第1编码失真小于计算出的第2编码失真时选择所述第1声道信号，而在计算出的第2编码失真小于计算出的第1的编码失真时选择所述第2声道信号。

4. 如权利要求3所述的语音编码装置，其中，

所述编码单元将所述第1声道信号和所述第2声道信号编码而分别获得第1编码数据和第2编码数据，并将所述第1编码数据和所述第2编码数据中被选择的声道信号所对应的编码数据作为所述增强层编码数据输出，

该语音编码装置还包括：

估计信号生成单元，使用所述编码单元将所述单声道信号编码时所获得的单声道解码信号和所述编码单元将所述第1声道信号编码时所获得的第1声道解码信号，生成与所述第2声道信号对应的第2声道估计信号，同时使用所述单声道解码信号和所述编码单元将所述第2声道信号编码时所获得的第2声道解码信号，生成与所述第1声道信号对应的第1声道估计信号；以及

失真计算单元，基于相对于所述第1声道信号的所述第1声道解码信号的误差和相对于所述第2声道信号的所述第2声道估计信号的误差，计算所述第1编码失真，同时基于相对于所述第1声道信号的所述第1声道估计信号的误差和相对于所述第2声道信号的所述第2声道解码信号的误差，计算所述第2编码失真。

5. 如权利要求1所述的语音编码装置，其中，

所述选择单元具有分别计算与所述第1声道信号对应的第1声道内相关度和与所述第2声道信号对应的第2声道内相关度的计算单元，

在计算出的第1声道内相关度高于计算出的第2声道内相关度时，选择所述第1声道信号，在计算出的第2声道内相关度高于计算出的第1声道内相关度时，选择所述第2声道信号。

6. 如权利要求1所述的语音编码装置，其中，

所述编码单元在由所述选择单元选择了所述第1声道信号时，使用第1自适应码本进行所述第1声道信号的CELP(Code Excited Linear Prediction)编码，并使用CELP编码结果而获得所述增强层编码数据，同时使用所述CELP编码结果更新所述第1自适应码本。

7. 如权利要求6所述的语音编码装置，其中，

所述编码单元使用所述增强层编码数据和将所述单声道信号编码时所获得的单声道解码信号，生成与所述第2声道信号对应的第2声道估计信号，并使用所述第2声道估计信号的LPC(Linear Prediction Coding)预测残差信号更新在所述第2声道信号的CELP编码中所使用的第2自适应码本。

8. 如权利要求7所述的语音编码装置，其中，

所述选择单元将所述第1声道信号与具有子帧的帧相关联地选择，

所述编码单元对于每个子帧，进行有关所述单声道信号和与所述帧相关联而被选择的所述第1声道信号的音源搜索，同时获得所述帧的所述增强层编码数据。

9. 如权利要求8所述的语音编码装置，其中，

所述编码单元以所述子帧为单位更新所述第1自适应码本，同时以所述帧为单位更新所述第2自适应码本。

10. 一种移动台装置，具有权利要求1所述的语音编码装置。

11. 一种基站装置，具有权利要求1所述的语音编码装置。

12. 一种语音编码方法，用于对包含第1声道信号和第2声道信号的立体声信号进行编码，其中：

使用所述第1声道信号和所述第2声道信号生成单声道信号；

选择所述第1声道信号或所述第2声道信号；以及

将所生成的单声道信号编码而获得核心层编码数据，同时将所选择的声道信号编码而获得与所述核心层编码数据对应的增强层编码数据。