CN1989549B

CN1989549B - 语音编码装置及语音编码方法

Info

Publication number: CN1989549B
Application number: CN200580024433XA
Authority: CN
Inventors: 吉田幸司
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: III Holdings 12 LLC
Priority date: 2004-07-23
Filing date: 2005-06-29
Publication date: 2011-05-18
Anticipated expiration: 2025-06-29
Also published as: EP3276619A1; EP1768106B8; US8670988B2; WO2006008932A1; EP1768106B1; EP3276619B1; JPWO2006008932A1; EP1768106A1; ES2634511T3; CN1989549A; EP1768106A4; US20070299660A1

Abstract

提供一种语音编码装置，能够在解码端自由地选择与伴随语音编码而使用的控制方式所对应的语音解码的模式，同时生成即使解码端未对应该控制方式也能够解码的数据。语音编码装置(100)输出与包含语音分量的语音信号对应的编码数据和与不包含语音分量的语音信号对应的编码数据。语音编码部分(102)以规定区间单位将输入语音信号编码并生成编码数据。有声无声判定部分(106)对每个规定区间判定输入语音信号是否包含语音分量。位嵌入部分(104)仅对由语音编码部分(102)生成的编码数据中通过无声区间的输入语音信号生成的数据进行噪声数据的合成，从而取得包含语音分量的语音信号对应的编码数据和与不包含语音分量的语音信号对应的编码数据。

Description

语音编码装置及语音编码方法

技术领域

本发明涉及语音编码装置以及语音编码方法，特别涉及用于在有声区间和无声区间传输不同格式类型的编码数据的语音编码装置以及语音编码方法。

背景技术

在IP(Internet Protocol，因特网协议)网络上的语音数据通信中，有时在有声区间和无声区间传输不同格式类型的编码数据。有声是指包含语音信号为规定电平以上的语音分量的情况。无声是指不包含语音信号为规定电平以上的语音分量的情况。在语音信号仅包含与语音分量不同的噪声分量的情况下，该语音信号被识别为无声。这样的传输技术之一有被称作DTX控制的技术(例如，参照非专利文献1以及非专利文献2)。

例如图1所示的语音编码装置10通过伴随DTX控制的模式进行语音编码的情况下，有声无声判定部分11对于以规定长度的区间(相当于帧长)单位划分的语音信号对每个该区间进行有声还是无声的判定。然后，在判定为有声的情况下即有声区间的情况下，由语音编码部分12生成的编码数据作为有声帧通过DTX控制部分13输出。此时，有声帧与用于通知有声帧的传输的帧类型信息被一同输出。例如图2(A)所示，有声帧具有由Nv位的信息构成的格式。

另一方面，在判定为无声的情况下即无声区间的情况下，由舒适噪声编码部分14进行无声帧编码。无声帧编码是用于在解码端得到模拟无声区间中的周围噪声的信号的编码，是以少于有声区间的信息量即位数进行的编码。通过无声帧编码生成的编码数据在连续的无声区间中，以一定的周期作为所谓SID(Silence Descriptor，静音描述)帧通过DTX控制部分13输出。此时，SID帧与用于通知SID帧的传输的帧类型信息一同被输出。此外，例如图2(B)所示，SID帧具有由Nuv位(Nuv＜Nv)的信息构成的格式。

此外，在无声区间中，除了传输SID帧不进行编码信息的传输。换言之，省略了无声帧的传输。但是，通过DTX控制部分13仅输出用于通知无声帧的传输的帧类型信息。这样，在DTX控制中，由于实行控制而进行不连续的传输，所以在无声区间中减少了由传输路径传送的信息量或在解码端解码的信息量。

而通过不伴随DTX控制的模式进行语音编码的情况下，语音信号一直作为有声的信号被处理，其结果，一直连续地进行编码数据的传输。从而，在具有DTX控制功能的以往的语音编码装置中，在将语音编码的模式预先设定为伴随DTX控制的模式(有DTX控制)或不伴随DTX控制的模式(无DTX控制)的其中一个之后，进行语音编码。

非专利文献1：”Mandatory speech CODEC speech processing functions；AMRspeech CODEC；General description”，3rd Generation Partnership Project，TS26.071

非专利文献2：”Mandatory speech codec speech processing functions AdaptiveMultiRate(AMR)speech codec；Source controlled rate operation”，3rd GenerationPartnership Project，TS26.093

发明内容

发明需要解决的问题

但是，在上述以往的语音编码装置中，有DTX控制和无DTX控制所输出的编码数据序列会产生不同。例如，通过无DTX控制模式构成编码数据的编码数据的格式为第1类型。而通过有DTX控制模式，实际传输的编码数据的格式为第2类型，但实际存在的格式为第3类型。基于这样的不同，在编码端进行DTX控制的情况下，需要在解码端通过与有DTX控制的语音编码对应的模式进行语音解码；而在编码端不进行DTX控制的情况下，需要通过与无DTX控制的语音编码对应的模式进行语音解码。换言之，在解码端设定的语音解码模式限制于在编码端设定的语音编码的模式，因此解码端不能自由选择语音解码的模式。

即，将通过无DTX控制的模式生成的编码数据传输给对应DTX控制的语音解码装置时，即使某一编码数据的原来的语音信号为无声，在网络上，也不能减少在无声区间解码的信息量，即不能提高传输效率，而且该语音解码装置也不能减轻处理负载。另一方面，将通过有DTX控制的模式生成的编码数据传输给对应DTX控制的语音解码装置时，语音解码装置中的服务(例如，通过将全区间作为有声进行解码而得到的高质量接收模式)的选择的自由度被限制。

此外，将通过有DTX控制的模式得到的编码数据传输给未对应DTX控制的语音解码装置时，该语音解码装置不能对接收到的编码数据进行解码。

从而，例如，语音编码装置在对包含对应DTX控制的和未对应DTX控制的多个语音解码装置进行组播的情况下，无论通过有DTX控制的模式进行语音编码，还是通过无DTX控制的模式进行语音编码，都会产生上述问题之一。

本发明的目的在于，提供一种语音编码装置以及语音编码方法，能够在解码端自由地选择与伴随语音编码而使用的控制方式所对应的语音解码的模式，同时生成即使解码端未对应该控制方式也能够解码的数据。

解决该问题的方案

本发明的语音编码装置，输出与包含语音分量的语音信号对应的第一编码数据和与不包含所述语音分量的语音信号对应的第二编码数据，该语音编码装置具有：编码部件，以规定区间单位将输入语音信号编码并生成编码数据；判定部件，对每个所述规定区间判定所述输入语音信号是否包含所述语音分量；以及位嵌入部件，对通过被判定为不包含所述语音分量的无声区间的所述输入语音信号生成的所述编码数据，嵌入噪声数据。

本发明的可伸缩编码装置具有：下采样部分，将输入语音信号下采样为核心层的频带的信号；本发明的语音编码装置，用通过所述下采样部分进行了下采样处理的输入语音信号生成核心层编码数据以及帧类型信息；局部解码部分，对所述核心层编码数据进行局部解码，得到核心层的解码语音信号；上采样部分，将所述核心层的解码语音信号上采样为增强层的频带的信号；以及增强层编码部分，对具有所述增强层的信号频带的输入语音信号进行增强层的编码，生成增强层编码数据。

本发明的语音解码装置采用以下结构，具有：第一解码部件，接收在语音编码装置中对不包含语音分量的无声区间嵌入了噪声数据的编码数据，并对所述编码数据进行解码而生成第一解码语音信号；提取部件，提取嵌入在所述编码数据中的噪声数据；第二解码部件，对所述噪声数据进行解码而生成第二解码语音信号；帧类型判定部件，根据从所述语音编码装置传输的帧类型信息，判定当前的帧是有声帧、还是无声帧；以及选择部件，在当前的帧是有声帧时，选择所述第一解码语音信号，而在当前的帧是无声帧时，选择所述第二解码语音信号。

本发明的可伸缩解码装置具有：本发明的语音解码装置，通过从语音编码装置传输的核心层编码数据以及帧类型信息生成核心层解码语音信号；上采样部分，将所述核心层解码信号上采样为增强层的频带的信号；以及增强层解码部分，对从所述语音编码装置传输的增强层编码数据进行解码而得到增强层解码信号。

本发明的语音编码方法，输出与包含语音分量的语音信号对应的第一编码数据和与不包含所述语音分量的语音信号对应的第二编码数据，该语音编码方法具有：编码步骤，以规定区间单位将输入语音信号编码并生成编码数据；判定步骤，对每个所述规定区间判定所述输入语音信号是否包含所述语音分量；以及位嵌入步骤，对通过被判定为不包含所述语音分量的无声区间的所述输入语音信号生成的所述编码数据，嵌入噪声数据。

附图说明

本发明的语音解码方法具有：第一解码步骤，接收在语音编码装置中对不包含语音分量的无声区间嵌入了噪声数据的编码数据，并对所述编码数据进行解码而生成第一解码语音信号；提取步骤，提取嵌入在所述编码数据中的噪声数据；第二解码步骤，对所述噪声数据进行解码而生成第二解码语音信号；帧类型判定步骤，根据从所述语音编码装置传输的帧类型信息，判定当前的帧是有声帧、还是无声帧；以及选择步骤，在当前的帧是有声帧时，选择所述第一解码语音信号，而在当前的帧是无声帧时，选择所述第二解码语音信号。

根据本发明，能够在解码端自由地选择与伴随语音编码而使用的控制方式所对应的语音解码的模式，同时生成即使解码端未对应该控制方式也能够解码的数据。

图1是表示以往的语音编码装置的结构的一例的方框图。

图2是表示以往的有声帧的结构的一例以及以往的所谓SID帧的结构的一例的图。

图3是表示本发明的实施方式1的语音编码装置的结构的方框图。

图4A是表示本发明的实施方式1的语音解码装置的结构的一例的方框图。

图4B是表示本发明的实施方式1的语音解码装置的结构的另一例的方框图。

图5是表示本发明的实施方式1的格式类型的例子的图。

图6是表示本发明的实施方式1的格式类型的变化例的图。

图7是表示本发明的实施方式2的语音编码装置的结构的方框图。

图8是表示本发明的实施方式2的语音编码部分的结构的方框图。

图9是表示本发明的实施方式2的第一编码候补生成部分的结构的方框图。

图10是本发明的实施方式2的第一编码候补生成部分的动作说明图。

具体实施方式

图11A是表示本发明的实施方式3的可伸缩(scalable)编码装置的结构的方框图。

图11B是表示本发明的实施方式3的可伸缩解码装置的结构的方框图。

以下，使用附图详细说明本发明的实施方式。

(实施方式1)

图3是表示本发明的实施方式1的语音编码装置的结构的方框图。此外，图4A是表示本发明的实施方式的语音解码装置的结构的一例的方框图。图4B是表示本发明的实施方式的语音解码装置的结构的另一例的方框图。

首先，说明图3所示的语音编码装置100的结构。语音编码装置100具有语音编码部分102、位嵌入部分104、有声无声判定部分106、帧类型判定部分108以及无声参数分析/编码部分110。

语音编码部分102以规定长度的区间(帧)单位对输入语音信号进行编码，生成由多个(例如，Nv)位的编码比特串构成的编码数据。语音编码部分102通过配置在编码时得到的Nv位的编码比特串而生成编码数据，以使生成的编码数据的格式一直相同。此外，编码数据的位数被预先决定。

有声无声判定部分106对每个所述区间判定输入语音信号是否包含语音分量，将表示该判定结果的有声无声判定标记输出到帧类型判定部分108以及无声参数分析/编码部分110。

帧类型判定部分108使用输入的有声无声判定标记将由语音编码部分102生成的编码数据决定为三种帧类型，即(a)有声帧，(b)无声帧(有嵌入)，(c)无声帧(无嵌入)的其中一个。

更具体的说，在有声无声判定标记表示有声的情况下，决定为(a)有声帧。此外，在有声无声判定标记表示无声的情况下，决定为(b)无声帧(有嵌入)或(c)无声帧(无嵌入)。

进而，在表示无声的有声无声判定标记连续的情况下，换言之，无声区间连续的情况下，仅将每一定周期的帧(编码数据)决定为(b)无声帧(有嵌入)，将除此以外决定为(c)无声帧(无嵌入)。或者，在表示无声的有声无声判定标记连续的情况下，仅将输入语音信号的信号特性发生变换时决定为(b)无声帧(有嵌入)，将除此以外决定为(c)无声帧(无嵌入)。这样，能够减轻位嵌入部分104的嵌入处理负载。决定的结果作为帧类型信息被输出。帧类型信息是用于通知给无声参数分析/编码部分110以及位嵌入部分104的信息，并且也是与编码数据一同传输的信息。

在输入语音信号由有声无声判定部分106判定为无声的情况下，即无声区间的情况下，无声参数分析/编码部分110生成作为模拟噪声数据的无声参数编码数据。

更具体地说，将在连续的无声区间中对输入语音信号的信号特性进行平均化而得到的信息作为无声参数。作为无声参数中包含的信息，例如，可以举出通过LPC(Linear Predictive Coding，线性预测编码)分析得到的频谱形状信息、语音信号的能量、LPC频谱合成中的驱动音源信号的增益信息等。无声参数分析/编码部分110以少于有声区间的输入语音信号的位数(例如，Nuv位)编码无声参数而生成无声参数编码数据。换言之，无声参数编码数据的位数少于由语音编码部分102编码的输入语音信号的位数(Nuv＜Nv)。在从帧类型判定部分108输出的帧类型信息表示为无声帧(有嵌入)的情况下，输出生成的无声参数编码数据。

在从帧类型判定部分108输出的帧类型信息表示有声帧或无声帧(无嵌入)的情况下，位嵌入部分104将从语音编码部分102输出的编码帧原封不动地输出。从而，如图5(A)所示，在该情况下输出的编码数据的格式与由语音编码部分102生成的编码数据的格式相同。

另一方面，在从帧类型判定部分108输出的帧类型信息表示无声帧(有嵌入)的情况下，位嵌入部分104在从语音编码部分102输出的编码数据中嵌入从无声参数分析/编码部分110输出的无声参数编码数据。然后，输出嵌入了无声参数编码数据的编码数据。从而，如图5(B)所示，在该情况下输出的编码数据具有在由语音编码部分102生成的编码数据内的规定位置嵌入了无声参数编码数据的格式类型。

这样，由于在编码数据中嵌入无声参数编码数据，不改变编码数据的帧大小就能够进行编码数据的传输。进而，由于在编码数据的规定位置嵌入无声参数编码数据，因此能够简化嵌入无声参数编码数据时的控制处理。

更具体的说，位嵌入部分104用由Nuv位构成的无声参数编码数据置换配置在编码数据的Nv位中规定位置上的Nuv位。这样，可以传输无声参数编码数据来代替通过编码得到的编码数据的一部分位。此外，由于用无声参数编码数据置换由Nv位构成的编码数据的一部分，因此能够传输编码数据的剩余的位以及无声参数编码数据的二者。

或者，位嵌入部分104用由Nuv位构成的无声参数编码数据覆写编码数据的Nv位中配置在规定位置上的Nuv位。这样，删除通过编码而得到的编码数据的一部分位，从而能够传输无声参数编码数据。此外，由于用无声参数编码数据覆写由Nv位构成的编码数据的一部分，因此能够传输编码数据的剩余的位以及无声参数编码数据的二者。

在即使进行位的置换或覆写，也对解码语音信号的质量带来的影响也低的情况下，以及编码时得到的编码比特串中存在重要度低的位的情况下等，该处理格外有效。

此外，在本实施方式中，说明了通过进行在编码时得到的位的置换或覆写来嵌入无声参数编码数据的情况。但是，代替嵌入无声参数编码数据，如图6所示，也可以在编码时得到的Nv位的比特串的后端附加Nuv位的无声参数编码数据。换言之，位嵌入部分104通过进行无声参数编码数据的嵌入或附加，从而合成无声参数编码数据和编码数据。由此，进行帧格式切换控制以取得在进行该合成的情况和不进行的情况下具有不同类型的格式的编码数据。这样，虽然在无声参数编码数据被合成和不被合成为编码数据的情况下，帧格式的类型不同，但基本的帧结构不变，所以能够传输编码数据序列。

此外，在附加无声参数编码数据的情况下，由于编码数据的帧大小发生变化，所以优选的是将有关帧大小的信息与编码数据一同以任意的形式来传输。

此外，在本实施方式中，说明了将无声参数编码数据嵌入编码数据的规定位置的情况。但是，无声参数编码数据的嵌入方法不限定于上述方法。例如，位嵌入部分104也可以在每次进行嵌入时自适应地决定无声参数编码数据被嵌入的位置。在该情况下，可以根据各位的灵敏度或重要度等，自适应地改变成为置换对象的位的位置或成为覆写对象的位的位置。

接着，说明图4A以及图4B所示的语音解码装置150a、150b的结构。语音解码装置150a的结构为不具有对应语音编码装置100的帧格式的切换控制的功能，但语音解码装置150b的结构为具有该功能。

图4A所示的语音解码装置150a具有语音解码部分152。

语音解码部分152接收从语音编码装置100经由传输路径传输的编码数据。此外，对接收编码数据以帧为单位进行解码。更具体的说，通过对构成接收编码数据的编码数据进行解码，从而生成解码语音信号。接收编码数据中含有根据合成无声参数编码数据与否而改变格式的编码数据。但是，由于连续地传输基本的帧结构不发生变化的编码数据，所以未对应帧格式切换功能的语音解码装置150a能够解码从语音编码装置100接收的编码数据。

图4B所示的语音解码装置150b除了具有与语音解码装置150a中设置的相同的语音解码部分152之外，还具有切换器154、无声参数提取部分156、帧类型判定部分158以及无声帧解码部分160。

无声参数提取部分156提取合成于构成接收编码数据的编码数据中作为无声帧(有嵌入)传输的编码数据的无声参数编码数据。

帧类型判定部分158接收从语音编码装置100传输的帧类型信息，判定接收的编码数据相当于三种帧类型中的哪一种。判定结果通知给切换器154以及无声帧解码部分160。

在帧类型信息所示的信息为无声帧的情况下，无声帧解码部分160仅对由无声参数提取部分156提取的无声参数编码数据进行解码。由此，取得无声参数中包含的信息(例如，频谱形状信息或能量等)。然后，使用取得的信息生成包含无声帧(有嵌入)以及无声帧(无嵌入)的所有无声帧中的解码语音信号。

切换器154按照从帧类型判定部分158通知的判定结果，切换语音解码装置150b的输出。例如，在帧类型信息所示的信息为有声帧的情况下，控制连接，以使由语音解码部分152生成的解码语音信号成为语音解码装置150b的输出。换言之，如图4B所示，与语音解码装置150b的输出的连接切换到a端。另一方面，在所示的信息为无声帧的情况下，控制连接，以使由无声帧解码部分160生成的解码语音信号成为语音解码装置150b的输出。换言之，与语音解码装置150b的输出的连接切换到b端。

上述的连接切换控制是为了根据传输的编码数据的帧类型来切换解码对象而进行的。但是，切换器154不进行取决于传输的编码数据的帧类型的控制，而将与语音解码装置150b的输出的连接一直固定于a端也是可以的。语音解码装置150b自己选择进行取决于帧类型的连接切换控制还是进行一直固定的连接。由此，语音解码装置150b能够自由地选择以下方式的一种：在无声参数编码数据被合成的状态下解码编码数据，以及选择性地解码合成了的无声参数。

接着，说明具有上述结构的语音编码装置100中的无声参数编码数据嵌入动作。

在语音编码部分102中，进行输入语音信号的语音编码，生成编码数据。此外，进行输入语音信号的帧类型判定。

然后，根据帧类型判定的结果，在确定编码数据为有声帧的情况下，不进行通过位嵌入部分104的无声参数编码数据嵌入，其结果，取得图5(A) 所示的格式的编码数据。此外，即使在确定编码数据为无声帧(无嵌入)的情况下，也不进行无声参数编码数据嵌入，其结果，取得图5(A)所示的格式的编码数据。另一方面，在确定编码数据为无声帧(有嵌入)的情况下，进行无声参数编码数据嵌入，其结果，取得图5(B)所示的格式的编码数据。

这样，根据本实施方式，仅对编码数据中作为无声帧(有嵌入)的编码数据合成无声参数编码数据，由此能够取得对应包含语音分量的语音信号的编码数据和对应不包含所述语音分量的语音信号的编码数据，即将无声参数编码数据合成于编码数据，对解码端连续地传输具有不同的格式类型而具有同样的帧结构的编码数据。因此，在通过将无声参数编码数据合成于编码数据的模式来生成的编码数据被传输到解码端的情况下，在解码端能够解码在合成了无声参数编码数据的状态下的编码数据。即，在编码端能够生成即使解码端未对应伴随语音编码而使用的控制方式也能够解码的数据。进而，在所述情况下，在解码端能够自由地选择以下方式的一种：在合成了无声参数编码数据的状态下解码编码数据，以及选择性地解码合成的无声参数编码数据。即，在编码端能够使解码端自由选择与伴随语音编码而使用的控制方式所对应的语音解码的模式。

(实施方式2)

图7是表示本发明的实施方式2的语音编码装置的结构的方框图。另外，本实施方式中说明的语音编码装置200具有与实施方式1中说明的语音编码装置100同样的基本结构，因此对同一构成元件赋予同一参照标号，并省略其详细的说明。此外，通过实施方式1中说明的语音解码装置150a、150b能够解码从语音编码装置200传输的编码数据，所以这里省略语音解码装置相关的说明。

语音编码装置200具有以下的结构，即设置语音编码部分202来代替语音编码装置100中设置的语音编码部分102以及位嵌入部分104。

语音编码部分202执行使语音编码部分102的动作以及位嵌入部分104的动作的组合动作。此外，对语音编码部分202应用能够有效率地对输入语音信号进行编码的CELP(Code Excited Linear Prediction，码激励线性预测)编码。

如图8所示，语音编码部分202具有LPC分析部分204、第一编码候补生成部分206、LPC量化部分208、自适应码增益码本210、自适应码本212、乘法器214、加法器216、固定码本218、乘法器220、第二编码候补生成部分222、合成滤波器224、减法器226、加权误差最小化部分228、无声参数编码数据分割部分230以及复用部分232。

LPC分析部分204使用输入语音信号进行线性预测分析，并将其分析结果即LPC系数输出到LPC量化部分208。

LPC量化部分208基于从第一编码候补生成部分206输出的编码候补值以及编码候补码，对从LPC分析部分204输出的LPC系数进行向量量化。然后，将作为向量量化的结果得到的LPC量化码输出到复用部分232。此外，LPC量化部分208通过LPC系数得到解码LPC系数，并将该解码LPC系数输出到合成滤波器224。

如图9所示，第一编码候补生成部分206具有码本242以及搜索范围限制部分244，生成在进行输入语音信号的语音编码时由LPC量化部分208进行的LPC系数的向量量化所使用的编码候补值以及编码候补码，并将它们输出到LPC量化部分208。

码本242预先保有编码语音信号时可能用于LPC量化部分208的编码候补值以及编码候补码的列表。搜索范围限制部分244生成编码输入语音信号时用于LPC量化部分208的编码候补值以及编码候补码。更具体地说，在来自帧类型判定部分108的帧类型信息表示为“有声帧”或“无声帧(无嵌入)”的情况下，搜索范围限制部分244对码本242中预先保有的编码候补值以及编码候补码不进行搜索范围的限制。另一方面，在帧类型信息表示为“无声帧(有嵌入)”的情况下，搜索范围限制部分244对编码候补值以及编码候补码进行搜索范围的限制。基于从无声参数编码数据分割部分230得到的分割参数码的位数来进行屏蔽码的分配，并且按照屏蔽码的分配来嵌入分割参数码，由此决定限制的搜索范围。

合成滤波器224使用从LPC量化部分208输出的解码LPC系数和从加法器216输出的驱动音源进行滤波合成，并将合成信号输出到减法器226。减法器226计算从合成滤波器224输出的合成信号和输入语音信号的误差信号，并将该误差信号输出到加权误差最小化部分228。

加权误差最小化部分228对从减法器226输出的误差信号进行听觉加权，计算听觉加权区域中的输入语音信号和合成信号的失真。然后，决定应由自适应码本212、固定码本218和第二编码候补生成部分222生成的信号，以使该失真成为最小。

更具体地说，加权误差最小化部分228从自适应码本212中选择失真最小的自适应音源滞后。此外，从固定码本218中选择失真最小的固定音源向量。此外，从自适应码增益码本210中选择失真最小的量化自适应音源增益。此外，从第二编码候补生成部分222中选择量化固定音源增益。

自适应码本212具有缓冲器，将过去由加法器216输出的驱动音源存储在该缓冲器中，从通过由加权误差最小化部分228输出的信号所确定的切出(cut-out)位置起，从缓冲器中切出一帧的采样，作为自适应音源向量输出到乘法器214。此外，将表示决定结果的自适应音源滞后码输出到复用部分232。此外，自适应码本212在每次接收到从加法器216输出的驱动音源时，进行存储于缓冲器的驱动音源的更新。

自适应码增益码本210基于从加权误差最小化部分228输出的信号来决定量化自适应音源增益，并将其输出到乘法器214。此外，将表示该决定结果的量化自适应音源增益码输出到复用部分232。

乘法器214将从自适应码增益码本210输出的量化自适应音源增益与从自适应码本212输出的自适应音源向量相乘，将其乘法结果输出到加法器216。

固定码本218将具有通过从加权误差最小化部分228输出的信号所确定的形状的向量决定为固定音源向量，并输出到乘法器220。此外，将表示该决定结果的固定音源向量码输出到复用部分232。

乘法器220将从第二编码候补生成部分222输出的量化固定音源增益与从固定码本218输出的固定音源向量相乘，将其乘法结果输出到加法器216。

加法器216将从乘法器214输出的自适应音源向量和从乘法器220输出的固定音源向量相加，并将作为其加法结果的驱动音源输出到合成滤波器224以及自适应码本212。

无声参数编码数据分割部分230分割从无声参数分析/编码部分110输出的无声参数编码数据。无声参数编码数据按嵌入无声参数编码数据的量化码的每个位数被分割。此外，在本实施方式中，对嵌入对象的量化码指定帧单位的LPC量化码以及子帧单位的量化固定音源增益码。因此，无声参数编码数据分割部分230将无声参数编码数据分割为(1+子帧数)个部分，得到相当于该个数的分割参数码。

第二编码候补生成部分222具有固定码增益码本，生成在进行语音编码时与固定音源向量相乘的量化固定音源增益的候补。更具体地说，在来自帧类型判定部分108的帧类型信息表示为“有声帧”或“无声帧(无嵌入)”的情况下，第二编码候补生成部分222对预先存储在固定码增益码本中的量化固定音源增益候补不进行搜索范围的限制。另一方面，在帧类型信息表示为“无声帧(有嵌入)”的情况下，第二编码候补生成部分222对量化固定音源增益候补进行搜索范围的限制。基于从无声参数编码数据分割部分230得到的分割参数码的位数来进行屏蔽码的分配，并且按照屏蔽码的分配来嵌入分割参数码，由此决定被限制的搜索范围。这样，生成量化固定音源增益候补。然后，将从生成的量化固定音源增益候补中基于来自加权误差最小化部分228的信号确定的增益决定为应与固定音源向量相乘的量化固定音源增益，并将其输出到乘法器220。此外，将表示该决定结果的量化固定音源增益码输出到复用部分232。

复用部分232对来自LPC量化部分208的LPC量化码、来自自适应码增益码本210的量化自适应音源增益码、来自自适应码本212的自适应音源向量码、来自固定码本218的固定音源向量码、来自第二编码候补生成部分222的量化固定音源增益码进行复用。通过该复用得到编码数据。

接着，说明语音编码部分202中的搜索范围限制动作。这里，以第一编码候补生成部分206中的搜索范围限制动作为例进行说明。

如图10所示，在语音编码部分202中，码本242中作为编码候补码以及编码候补值分别存储了16组码索引i和与各码索引i对应的码向量C[i]的组合。

而且，在来自帧类型判定部分108的帧类型信息表示为“有声帧”或“无声帧(无嵌入)”的情况下，搜索范围限制部分244不限制搜索范围而将16组候补的组合输出到LPC量化部分208。

另一方面，在帧类型信息表示为“无声帧(有嵌入)”的情况下，搜索范围限制部分244基于从无声参数编码数据分割部分230得到的分割参数码的位数，对码索引i分配屏蔽码。在本实施方式中，将位灵敏度低于规定电平的规定数的编码位或包含位灵敏度为最低的编码位的规定数的编码位作为置换以及屏蔽的对象。例如，在标量(scalar)值的量化值按升序与码对应的情况下，从LSB(最低位)起分配屏蔽位。通过进行这样的屏蔽位分配来限制搜索范围。即，预先进行以嵌入为前提的码本的限制。因此，能够防止进行嵌入所引起的编码性能的恶化。

然后，在通过屏蔽码分配而屏蔽的位嵌入分割参数码，由此确定属于限制的搜索范围的搜索候补。在这里的例示中，由于对低位的2位分配了屏蔽位，所以搜索范围从原来的16组候补限制为4组候补。然后，这4组的候补的组合输出到LPC量化部分208。

这样，根据本实施方式，进行以无声参数编码数据的嵌入为前提的最佳的量化。即，将构成作为无声帧的编码数据的多个位中具有规定电平以下的灵敏度的规定数的位或包含灵敏度最低的位的规定数的位作为屏蔽位分配以及分割参数码嵌入的对象。因此，能够降低对解码语音的质量带来的影响，并且能够提高进行分割参数码嵌入的情况下的编码性能。

另外，在本实施方式中，说明了对语音编码使用CELP编码的情况，但使用CELP编码不是本发明的必要条件，使用其他的语音编码方式也能够实现与上述同样的技术效果。

此外，也可以使用在无声参数的一部分或所有使用与通常的语音编码参数共同的参数。例如，在无声参数中对频谱形状信息使用了LPC参数的情况下，将该LPC参数的量化码设为用于LPC量化部分208的LPC参数的量化码或与其一部分相同。这样，能够提高进行无声参数编码数据的嵌入(置换或覆写等)时的量化性能。

此外，在本实施方式中，说明了将LPC量化码以及量化固定音源增益码作为嵌入无声参数编码数据的对象的编码数据的情况。但是，嵌入对象的编码数据不仅限定于此，也可以将除此以外的编码数据作为嵌入对象来采用。

(实施方式3)

图11A以及图11B是分别表示本发明的实施方式9的可伸缩编码装置以及可伸缩解码装置的方框图。在本实施方式中，说明对作为可伸缩结构具有频带伸缩功能的语音编码的核心层(core layer)应用了实施方式1(或实施方式2)中说明的各装置的情况。

图11A所示的可伸缩编码装置300具有下采样部分302、语音编码装置100、局部解码部分304、上采样部分306以及增强层编码部分308。

下采样部分302将输入语音信号下采样为核心层的频带的信号。语音编码装置100具有与实施方式1中说明的相同结构，通过经下采样处理的输入语音信号来生成编码数据以及帧类型信息，并将其输出。生成的编码数据被作为核心层编码数据输出。

局部解码部分304对核心层编码数据进行局部解码来得到核心层的解码语音信号。上采样部分306将核心层的解码语音信号上采样为增强层的频带的信号。增强层编码部分308对具有增强层的信号频带的输入语音信号进行增强层的编码，生成增强层编码数据并输出。

图11B所示的可伸缩解码装置350具有语音解码装置150b、上采样部分352以及增强层解码部分354。

语音解码装置150b具有与实施方式1中说明的相同的结构，通过从可伸缩编码装置300传输的核心层编码数据以及帧类型信息来生成解码语音信号并将其作为核心层解码信号输出。

上采样部分352将核心层解码信号上采样为增强层的频带的信号。增强层解码部分354解码从可伸缩编码装置300传输的增强层编码数据解码而得到增强层解码信号。然后，通过将经上采样处理的核心层解码信号复用为增强层解码信号，从而生成核心层+增强层解码信号，并将其输出。

另外，可伸缩编码装置300也可以具有实施方式2中说明的语音编码装置200来代替所述语音编码装置100。

以下，说明具有上述结构的可伸缩解码装置350的动作。假设在核心层中，不进行帧格式切换控制。在该情况下，一直能够得到核心层+增强层解码信号。此外，设定为只解码核心层，并且在核心层中进行帧格式切换控制。在该情况下，可以得到编码效率为最高并且比特速率低的解码信号。此外，对于无声帧，设定为有帧格式的切换控制并且仅解码核心层，对于有声帧，设定为解码核心层+增强层。在该情况下，对于所述两个情况能够实现中间性的语音质量以及传输效率。

这样，根据本实施方式，能够不取决于编码端的控制的设定状态而在解码端(或网络上)自由地选择多个种类的解码语音信号来进行解码。

另外，在上述各实施方式的说明中使用的各功能块典型地通过集成电路的LSI来实现。它们既可以单独地实行单芯片化，也可以包含其中一部分或全部而实行单芯片化。

这里，虽称做LSI，但根据集成度的不同，有时也称作IC、系统LSI、超LSI、极大LSI(ultra LSI)。

此外，集成电路化的方法不限定于LSI，可以通过专用电路或通用处理器实现。也可以利用能在LSI制造后编程的FPGA(Field Programable GateArray，现场可编程门阵列)，或将LSI内部的电路块连接或设定重新配置的可重配置处理器。

进而，如果由半导体技术的进步或派生的其他技术置换为LSI的集成电路化的技术出现，当然使用该技术进行功能块的集成化也可以。也有使用生物技术等的可能性。

本说明书基于2004年7月23日申请的特愿2004-216127。其内容全部包含于此。

产业上的可利用性

本发明的语音编码装置以及语音编码方法用于传输在有声区间和无声区间不同的格式类型的编码数据。

Claims

1.一种语音编码装置，输出与包含语音分量的语音信号对应的第一编码数据和与不包含所述语音分量的语音信号对应的第二编码数据，该语音编码装置具有：

编码部件，以规定区间单位将输入语音信号编码并生成编码数据；

判定部件，对每个所述规定区间判定所述输入语音信号是否包含所述语音分量；以及

位嵌入部件，对通过被判定为不包含所述语音分量的无声区间的所述输入语音信号生成的所述编码数据，嵌入噪声数据。

2.如权利要求1所述的语音编码装置，其中，

所述位嵌入部件在通过所述无声区间的所述输入语音信号生成的所述编码数据中的规定位置嵌入所述噪声数据。

3.如权利要求1所述的语音编码装置，其中，

所述编码部件生成由多个位构成的所述编码数据，

所述位嵌入部件对于构成通过所述无声区间的所述输入语音信号生成的所述编码数据的、所述多个位的一部分，用与该部分的位数相同位数的所述噪声数据置换，从而对所述编码数据嵌入所述噪声数据。

4.如权利要求3所述的语音编码装置，其中，

所述位嵌入部件用所述噪声数据置换构成通过所述无声区间的所述输入语音信号生成的所述编码数据的所述多个位中的、具有规定电平以下的灵敏度的规定数的位，从而对所述编码数据嵌入所述噪声数据。

5.如权利要求3所述的语音编码装置，其中，

所述位嵌入部件用所述噪声数据置换构成通过所述无声区间的所述输入语音信号生成的所述编码数据的所述多个位中的、包含灵敏度最低的位的规定数的位，从而对所述编码数据嵌入所述噪声数据。

6.如权利要求1所述的语音编码装置，其中，

所述语音编码装置还具有存储部件，存储用于语音信号编码的编码候补，

所述编码部件对构成所述编码数据的多个位的其中一个分配屏蔽位，随着所述屏蔽位的分配而限制用于所述输入语音信号的编码的所述编码候补。

7.一种可伸缩编码装置，具有：

下采样部分，将输入语音信号下采样为核心层的频带的信号；

权利要求1所述的语音编码装置，用通过所述下采样部分进行了下采样处理的输入语音信号生成核心层编码数据以及帧类型信息；

局部解码部分，对所述核心层编码数据进行局部解码，得到核心层的解码语音信号；

上采样部分，将所述核心层的解码语音信号上采样为增强层的频带的信号；以及

增强层编码部分，对具有所述增强层的信号频带的输入语音信号进行增强层的编码，生成增强层编码数据。

8.一种语音解码装置，具有：

第一解码部件，接收在语音编码装置中对不包含语音分量的无声区间嵌入了噪声数据的编码数据，并对所述编码数据进行解码而生成第一解码语音信号；

提取部件，提取嵌入在所述编码数据中的噪声数据；

第二解码部件，对所述噪声数据进行解码而生成第二解码语音信号；

帧类型判定部件，根据从所述语音编码装置传输的帧类型信息，判定当前的帧是有声帧、还是无声帧；以及

选择部件，在当前的帧是有声帧时，选择所述第一解码语音信号，而在当前的帧是无声帧时，选择所述第二解码语音信号。

9.一种可伸缩解码装置，具有：

权利要求8所述的语音解码装置，通过从语音编码装置传输的核心层编码数据以及帧类型信息生成核心层解码语音信号；

上采样部分，将所述核心层解码信号上采样为增强层的频带的信号；以及

增强层解码部分，对从所述语音编码装置传输的增强层编码数据进行解码而得到增强层解码信号。

10.一种语音编码方法，输出与包含语音分量的语音信号对应的第一编码数据和与不包含所述语音分量的语音信号对应的第二编码数据，该语音编码方法具有：

编码步骤，以规定区间单位将输入语音信号编码并生成编码数据；

判定步骤，对每个所述规定区间判定所述输入语音信号是否包含所述语音分量；以及

位嵌入步骤，对通过被判定为不包含所述语音分量的无声区间的所述输入语音信号生成的所述编码数据，嵌入噪声数据。

11.一种语音解码方法，具有：

第一解码步骤，接收在语音编码装置中对不包含语音分量的无声区间嵌入了噪声数据的编码数据，并对所述编码数据进行解码而生成第一解码语音信号；

提取步骤，提取嵌入在所述编码数据中的噪声数据；

第二解码步骤，对所述噪声数据进行解码而生成第二解码语音信号；

帧类型判定步骤，根据从所述语音编码装置传输的帧类型信息，判定当前的帧是有声帧、还是无声帧；以及

选择步骤，在当前的帧是有声帧时，选择所述第一解码语音信号，而在当前的帧是无声帧时，选择所述第二解码语音信号。