CN1989546A

CN1989546A - 语音编码装置和语音编码方法

Info

Publication number: CN1989546A
Application number: CNA200580024627XA
Authority: CN
Inventors: 押切正浩
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: III Holdings 12 LLC
Priority date: 2004-07-20
Filing date: 2005-07-14
Publication date: 2007-06-27
Anticipated expiration: 2025-07-14
Also published as: CN1989546B; EP1763017A4; ATE555470T1; EP1763017B1; EP1763017A1; JPWO2006009075A1; US20080071523A1; US7873512B2; JP4937746B2; WO2006009075A1

Abstract

公开了即使将密写技术和预测编码组合应用于语音编码，也能够不产生解码信号的质量恶化的语音编码装置。在该装置中，编码单元(102)将编码代码(I)输出到比特嵌入单元(104)。功能扩展编码单元(103)生成语音编码装置(100)的功能扩展所需的信息的编码代码(J)，并输出到比特嵌入单元(104)。比特嵌入单元(104)将编码代码(J)的信息嵌入在编码代码(I)的一部分的比特中，并输出所获得的编码代码I’。同步信息生成单元(106)基于被嵌入了比特后的编码代码I’生成同步信息，并输出到编码单元(102)。编码单元(102)基于该同步信息更新内部状态等，进行下一个数字语音信号(X)的编码。

Description

语音编码装置和语音编码方法

技术领域

本发明涉及语音编码装置及语音编码方法。

背景技术

用低比特率压缩语音信号或音频信号的语音编码技术，对于有效利用通信系统的传输路径容量来说非常重要。作为语音编码技术的主要应用环境，近年来以VoIP(Voice over IP)网络、移动电话网等为代表的通信系统备受瞩目。VoIP是利用使用了IP(Internet Protocol)的分组通信网，将语音信号的编码代码存储在分组中，并与通信对方进行分组交换的语音通信技术。

但是，为在语音通信系统中和通信对方进行语音通信，必须在本身持有的通信终端装置对通信对方持有的通信终端装置生成的编码代码进行正确的解释和解码处理。因此，一旦决定了语音通信系统的编解码的规格后，要改变该规格并不容易。这是因为如果要改变编解码的规格，就必须改变编码装置和解码装置双方的功能。因此，在考虑使编码装置具有一些新的扩展功能，并将有关该扩展功能的信息一起发送时，因为也必须对语音通信系统的编解码的规格本身进行修改，而导致成本的大幅增加。

专利文献1或非专利文献1公开了利用密写技术(steganographictechnology)将附加信息嵌入编码代码的语音编码方法。例如，从人的听觉上来说，即使编码代码的最低位比特有稍微改变也完全分辨不出来。因此，为在发送装置附加新的信息，在听觉上不会产生问题的语音数据的最低位比特嵌入表示附加信息的比特，并传输该数据。根据该技术，使编码装置具有一些扩展功能，使有关该扩展功能的信息作为扩展码并嵌入原本的编码代码进行传输，在解码装置不会产生不能解码的问题。换言之，不用说对应扩展功能的解码装置，在没有对应扩展功能的解码装置也能够解释该编码代码并生成解码信号。

例如，在上述专利文献1中，作为有关上述扩展功能的信息，嵌入了为适用抑制分组丢失等的音质恶化的补偿技术的信息，而在上述的非专利文献1中，嵌入了用于将窄带信号扩展为宽带信号的信息。

[专利文献1]特开2003-316670号公报

[非专利文献1]青木著「ステガノグラフイを用いた VoIPにおける音声の広带域化に関する一検討」信学技报SP2003-72，pp.49-52

发明内容

发明需要解决的问题

一般说来，在量化像语音信号那样时间上相关的某一信号时，从过去的样本的振幅值预测编码对象的样本的振幅值，使用除去时间冗长后进行编码的预测编码较能实现低比特率化。这里的预测具体是指对过去的样本的振幅值乘以特定的系数来估计编码对象的样本的振幅值。然后，对从编码对象的样本的振幅值减去预测值的残差进行量化的话，与直接对编码对象的样本的振幅值进行量化的情况相比，能够以较少的代码量进行编码，能够实现低比特率化。作为与过去的样本的振幅值相乘的系数，例如有LPC(Liner PredictiveCoding)系数。

然而，例如在上述的专利文献1和非专利文献1的任何一个中，所使用的编解码是ITU-T建议的G.711方案。该G.711方案是直接量化样本的振幅值的编码方式，不进行上述的预测编码。因此，考虑到密写技术和预测编码的组合时，会产生以下的问题。

在语音编码装置中，预测编码是编码处理的一环，在编码单元内部执行。并且，对由编码单元生成的编码代码嵌入扩展码，并从语音编码装置输出。另一方面，在语音解码装置中，对已嵌入扩展码的编码代码进行预测编码，语音信号被解码。换言之，预测编码的对象在语音编码装置中是嵌入扩展码之前的代码，而在语音解码装置中是嵌入扩展码之后的代码。因此，在语音编码装置内的预测单元的内部状态与在语音解码装置内的预测单元的内部状态相背离，对解码信号产生质量恶化。这是在组合密写技术和预测编码时产生的特有的问题。

因此，本发明的目的在于提供一种即使将密写技术和预测编码组合应用，也不会产生解码信号的质量恶化的语音编码装置和语音编码方法。

解决该问题的方案

本发明的语音编码装置采用的结构包括：编码单元，通过预测编码由语音信号生成代码；嵌入单元，在所述代码中嵌入附加信息；预测解码单元，进行与所述编码单元的预测编码对应的解码；以及同步单元，使在所述编码单元的预测编码中所使用的参数与在所述预测解码单元的解码中所使用的参数同步。

发明的有益效果

根据本发明，即使将密写技术和预测编码组合应用于语音编码，也能够防止解码信号的质量恶化。

附图说明

图1是表示实施方式1的分组发送装置的主要结构的方框图。

图2是表示实施方式1的编码单元内部的主要结构的方框图。

图3是表示实施方式1的比特嵌入单元内部的主要结构的方框图。

图4是表示从实施方式1的比特嵌入单元输入/输出的信号的比特结构的一例的图。

图5是表示实施方式1的同步信息生成单元内部的主要结构的方框图。

图6A是表示实施方式1的语音解码装置的结构例的方框图。

图6B是表示实施方式1的语音解码装置的结构例的方框图。

图7是表示实施方式2的编码单元的主要结构的方框图。

图8是表示实施方式2的同步信息生成单元内部的主要结构的方框图。

图9是表示实施方式3的语音编码装置的主要结构的方框图。

图10是表示实施方式3的再编码单元内部的主要结构的方框图。

图11是用于说明实施方式3的量化单元的再决定处理的概要的图。

图12是表示使用CELP方式时的实施方式3的再编码单元的结构方框图。

图13是表示实施方式3的语音编码装置的变化形式的结构的方框图。

具体实施方式

以下，参照附图详细说明本发明的实施方式。

(实施方式1)

图1是表示装载了本发明的实施方式1的语音编码装置100的分组发送装置的主要结构的方框图。

在本实施方式中，以语音编码装置100进行基于ADPCM(AdaptiveDifferential Pulse Code Modulation)方式的语音编码的情况为例进行说明。ADPCM方式通过在预测单元和自适应单元实现使用后方预测的自适应化来提高编码效率。例如，作为ITU-T标准规格的G.726方式虽然是以ADPCM方式为基础的语音编码方法，但能够以16～40kbit/s编码窄带信号，实现比不使用预测的G.711更低的比特率化。此外，G.722方式也同样是以ADPCM方式为基础的编码方式，能够以48～64kbit/s的比特率编码宽带信号。

本实施方式的分组发送装置包括A/D变换单元101、编码单元102、功能扩展编码单元103、比特嵌入单元104、分组单元105、以及同步信息生成单元106，各个单元进行以下的动作。

A/D变换单元101将输入语音信号数字化，将数字语音信号X输出到编码单元102和功能扩展编码单元103。编码单元102决定编码代码I，该编码代码I使数字语音信号X与在解码装置生成的解码信号之间的量化失真成为最小或是使从人的听觉上难以察觉失真，然后输出到比特嵌入单元104。

另一方面，功能扩展编码单元103生成语音编码装置100的功能扩展所需的信息的编码代码J，并输出到比特嵌入单元104。作为功能扩展，例如将频带从窄带(0.3～3.4kHz频带，即一般电话线路所使用的信号频带)扩展为宽带(0.05～7kHz频带，通过使用这个频带，与窄带的情况相比更加自然且明确度变高)，或是在解码装置丢失(lost)当前帧时通过利用下一个帧来进行差错补偿，并生成能够将质量恶化抑制到最小限度的补偿信息。

比特嵌入单元104在从编码单元102获得的编码代码I的一部分的比特中嵌入从功能扩展编码单元103获得的编码代码J的信息，将作为其结果而获得的编码代码I’输出到分组单元105。分组单元105将编码代码I’分组，例如，如果是VoIP的话，将分组通过IP网络发送到通信对方。同步信息生成单元106基于被嵌入比特后的编码代码I’生成后述的同步信息，并输出到编码单元102。编码单元102基于该同步信息更新内部状态等，进行下一个数字语音信号X的编码。

另外，I和I’的比特率相同。假设编码单元102采用G.726方式，将扩展码J嵌入编码代码I的LSB(Least Significant Bit；最低位比特)，则能够以比特率8kbit/s嵌入扩展码J。

将本实施方式的语音编码处理的步骤整理如下。

首先，同步信息生成单元106向编码单元102提供预测单元132的内部状态、预测单元132所使用的预测系数、以及在自适应单元133使用的一样本之前的量化码。然后，在编码单元102进行编码处理，在功能扩展编码单元103进行有关扩展功能的信息的编码。然后，在比特嵌入单元104生成编码代码I’，在将此输出的同时提供给同步信息生成单元106。同步信息生成单元106使用编码代码I’进行预测单元132的内部状态、在预测单元132使用的预测系数、以及在自适应单元133使用的一样本之前的量化码的更新，将该结果提供给编码单元102，编码单元102准备下一个输入数字信号X。

图2是表示编码单元102内部的主要结构的方框图。

更新单元111由图1所示的同步信息生成单元106提供同步信息。更新单元111基于该同步信息更新在预测单元115使用的预测系数、预测单元115的内部状态、以及在自适应单元113使用的一样本之前的量化码。编码单元102的之后的处理是使用经过更新的自适应单元113以及预测单元115进行。

数字语音信号X被提供给编码单元102并被输入到减法单元116。减法单元116从数字语音信号X减去预测单元115的输出，将该误差信号提供给量化单元112。量化单元112以在自适应单元113使用一样本之前的量化码决定的量化步长对误差信号进行量化，在输出该编码代码I的同时提供给自适应单元113以及反量化单元114。反量化单元114基于从自适应单元113提供的量化步长对量化后的误差信号进行解码，将该信号提供给预测单元115。自适应单元113基于表示一样本(sample)之前的量化码的误差信号的振幅值，在振幅值大时扩大量化步长，在振幅值小时缩小量化步长。预测单元115使用量化后的误差信号以及输入信号的预测值基于下式(1)进行预测。

y (n) = u (n) - Σ_{i = 1}^{L} a (i) \cdot y (n - i) - Σ_{i = 1}^{M} b (i) \cdot u (n - i) \cdot \cdot \cdot (1)

其中，y(n)表示第n样本的输入信号的预测值，u(n)表示第n样本样本的量化后的误差信号，a(i)表示AR预测系数，b(i)表示MA预测系数，L和M分别表示AR预测次数和MA预测次数。然后，a(i)和b(i)通过使用后方预测的自适应化被逐次更新。

图3是表示比特嵌入单元104内部的主要结构的方框图。

比特屏蔽单元121将输入的编码代码I的事先决定的比特位置屏蔽，使该位置的比特的值总是为0。嵌入单元122在被屏蔽的编码代码的该比特位置嵌入扩展码J的信息，以扩展码J置换该位置的比特的值，并将嵌入后的编码代码I’输出。

图4是表示从比特嵌入单元104输入/输出的信号的比特结构的一例的图。另外，MSB是Most Significant Bit(最高位比特)的简写。

这里，以对4比特的编码代码(4字符)I嵌入4比特的扩展码J并作为编码代码I’输出的情况为例进行说明。另外，嵌入扩展码的比特位置为LSB。编码代码I在比特屏蔽单元121被施以「Itmp＝I&(OxE)」的处理，成为Itmp。该Itmp在嵌入单元122被施以「I’＝Itmp|J」的处理，成为编码代码I’。另外，在这些处理中，「&」表示逻辑“与”，「|」表示逻辑和。在此例中，8kHz样本数据的处理时，比特率成为32kbit/s，能够嵌入比特率8kbit/s的附加信息。

另外，这里每一样本以4比特编码并将扩展码嵌入LSB的情况为例进行说明，但不限于此。例如，如果每隔一样本嵌入扩展码，能够嵌入比特率4kbit/s的附加信息。并且，如果在低位2比特嵌入扩展码，附加信息用比特率成为16kbit/s。这样，能够以较高的自由度设定附加信息的比特率。此外，也能够根据输入的语音信号的性质使嵌入比特数自适应地改变。此时，将嵌入了若干比特的信息另外通知给解码装置。

图5是表示同步信息生成单元106内部的主要结构的方框图。同步信息生成单元106使用作为比特嵌入单元104的输出的编码代码I’如下地进行解码处理。

首先，使用自适应单元133提供的量化步长信息，在反量化单元131解码量化后的残差信号并将其提供给预测单元132。在预测单元132中，基于上述式(1)，使用量化后的残差信号以及预测单元132的上一次的处理中输出的信号，更新由式(1)表示的内部状态和预测系数。自适应单元133基于误差信号的振幅值，在振幅值大时扩大量化步长，在振幅值小时缩小量化步长。在经过这一连串的处理之后，提取单元134提取预测单元132的内部状态、在预测单元132使用的预测系数、以及在自适应单元133使用的一样本之前的量化码作为同步信息输出。

同步信息生成单元106的基本动作是，使用编码代码I’在语音编码装置100内模拟地进行存在于语音解码装置内的解码单元，即与编码单元102对应的解码单元的处理，使作为其结果而获得的有关预测编码的参数(在预测单元132使用的预测系数、预测单元132的内部状态、以及在自适应单元133使用的一样本之前的量化码)反映在编码单元102的预测编码(自适应单元113和预测单元115的处理)中。换言之，由于同步信息生成单元106对编码单元102内的自适应单元113以及预测单元115通知基于编码代码I’生成的有关预测编码的参数作为同步信息，能够使在语音解码装置内的预测单元使用的预测系数、该预测单元的内部状态、以及在语音解码装置内的自适应单元使用的一样本之前的量化码与在编码单元102内的预测单元115使用的预测系数、预测单元115的内部状态、以及在自适应单元113使用的一样本之前的量化码同步。换言之，在语音编码装置100和与其对应的语音解码装置的双方基于相同的编码代码I’求有关预测编码的参数。通过采用这样的结构，能够防止在语音解码装置获得的解码信号的音质恶化。

这样，根据本实施方式，由于使用嵌入了扩展码的比特之后的代码来更新在编码单元内的预测单元使用的有关预测编码的参数，能够使在语音编码装置内的预测单元使用的参数与在语音解码装置内的预测单元使用的参数同步，从而能够防止解码信号的音质恶化。

另外，在上述的结构中，在使用ADPCM方式的编码方法的情况，比特嵌入单元104在编码代码的LSB中嵌入附加信息的一部分或全部。

另外，在本实施方式中，虽然以在分组发送装置安装语音编码装置100的情况为例进行了说明，但语音编码装置100也可以装载在非分组通信型的移动电话机上。此时，由于使用线路交换型的通信网络来取代分组通信，设置复用单元以取代分组单元105。

另外，与语音编码装置100对应的语音解码装置，即将从语音编码装置100输出的编码分组解码的语音解码装置不必对应功能扩展。

再有，在对编码代码以外的例如通信系统的控制信息进行通信时(发信号时)，通过进一步具有对作为通信对方的通信终端装置传达嵌入附加信息的位置或嵌入量的功能，能够获得下述的效果。

例如，在语音编码装置中，也可以判断通信对方的通信终端装置所处的状况(易于/难于产生传输差错)，在发信号时决定嵌入位置。由此能够改善传输的抗错能力。

此外，例如也可以在自身终端设定扩展功能的编码代码的大小。由此，自身终端的用户能够选择附加功能的程度。例如，能够从7kHz、10kHz、15kHz的任意一个选择扩展频带的带宽。

图6A和图6B是表示与语音编码装置100对应的语音解码装置的结构例的方框图。图6A表示不对应功能扩展的语音解码装置150的例子，图6B表示对应功能扩展的语音解码装置160的例子。另外，对于相同的构成要素赋予相同的标号，并省略其说明。

在语音解码装置150中，分组分离单元151从接收到的分组分离出编码代码I’。解码单元152进行该编码代码I’的解码处理。D/A变换单元153将作为其结果而获得的解码信号X’变换为模拟信号，并输出解码语音信号。另一方面，在语音解码装置160中，比特提取单元161从分组分离单元151输出的编码代码I’提取扩展码的比特J。功能扩展解码单元162解码提取出的比特J并获得有关扩展功能的信息后，输出到解码单元163。解码单元163基于从功能扩展解码单元162输出的信息一面使用扩展功能，一面解码从比特提取单元161输出的编码代码I’(与从分组分离单元151输出的编码代码相同)。这样，输入解码单元152、163的编码代码都是I’，两者的不同在于是对编码代码I’使用扩展功能进行解码，还是不使用扩展功能进行编码。此时，在语音解码装置160获得的语音信号和在语音解码装置150获得的语音信号都是在LSB的信息产生传输路径差错的状态。因此，虽然该LSB的接收错误使解码信号产生音质恶化，但该音质恶化的程度小。

(实施方式2)

本发明的实施方式2的语音编码装置进行使用CELP方式的语音编码。作为CELP的代表例，有G.729和AMR、AMR-WB等。另外，该语音编码装置具有与实施方式1所示的语音编码装置100相同的基本结构，因此省略相同部分的说明。

图7是表示根据本实施方式的语音编码装置内部的编码单元201的主要结构的方框图。

自适应码本219和有关听觉加权合成滤波器215的内部状态的信息被提供给更新单元211。更新单元211基于该信息更新自适应码本219和听觉加权合成滤波器215的内部状态。

输入编码单元201的语音信号在LPC分析单元212求LPC系数。该LPC系数提供给听觉加权滤波器216和听觉加权合成滤波器215用来提高听觉上的质量。并且，LPC系数还提供给LPC量化单元213，LPC量化单元213将LPC系数变换为适合于量化的诸如LSP系数等的参数，再进行量化。由该量化所得的索引被提供给复用单元225和LPC解码单元214。LPC解码单元214根据编码代码计算出量化后的LSP系数，并变换成LPC系数。如此，得到量化后的LPC系数。这个量化后的LPC系数被提供给听觉加权合成滤波器215，并用于自适应码本219和噪声码本220。

听觉加权滤波器216，根据LPC分析单元212所求得的LPC系数对输入语音信号进行加权。这是为了调整频谱的形状，使量化失真的频谱被输入信号的频谱包络所屏蔽。

下面，对自适应向量、自适应向量增益、噪声向量、噪声向量增益的搜索方法给予说明。

自适应码本219，将过去生成的驱动声源信号作为内部状态保持着，能够以所要求的音调周期重复此内部状态而生成自适应向量。音调周期的优选取值范围为60Hz～400Hz之间。另外，噪声码本220将预先保存在存储区域的噪声向量，或像代数(algebraic)结构一样不具有存储区域而是依据规则生成的向量作为噪声向量输出。增益码本223输出将与自适应向量相乘的自适应向量增益以及将与噪声向量相乘的噪声向量增益，乘法器221和222将各个增益乘以各自的向量。

加法器224将被乘以了自适应向量增益的自适应向量和被乘以了噪声向量增益的噪声向量相加而生成驱动声源信号，并提供给听觉加权合成滤波器215。在听觉加权合成滤波器215中，有驱动声源信号通过，并生成听觉加权合成信号，提供给减法器217。减法器217从听觉加权输入信号中减去听觉加权合成信号，并将经过减法运算的信号提供给搜索单元218。搜索单元218有效地搜索出由经过减法运算的信号所定义的失真为最小的自适应向量、自适应向量增益、噪声向量、以及噪声向量增益的组合，将这些编码代码送给复用单元225。

搜索单元218决定以下面的式(2)或式(3)定义的失真为最小的索引i、j、m或是索引i、j、m、n，并将这些送给复用单元225。

E = Σ_{k = 1}^{NL} {(t (k) - β_{m} \cdot p_{i} (k) - γ_{m} e_{j} (k))}^{2} \cdot \cdot \cdot (2)

E = Σ_{k = 1}^{NL} {(t (k) - β_{m} \cdot p_{i} (k) - γ_{n} e_{j} (k))}^{2} \cdot \cdot \cdot (3)

其中，t(k)表示听觉加权输入信号，p_i(k)表示使第i个自适应向量通过听觉加权合成滤波器而获得的信号，e_j(k)表示使第j个噪声向量通过听觉加权合成滤波器而获得的信号，β和γ分别表示自适应向量增益和噪声向量增益。增益码本在式(2)和式(3)的结构不同，在式(2)的情况中，增益码本被表示为具有自适应向量增益β_m和噪声向量增益γ_m作为元素的向量，用于确定向量的索引m被决定。在式(3)的情况中，增益码本分别独立具有自适应向量增益β_m和噪声向量增益γ_n，各自的索引m和n被独立决定。

决定了所有的索引之后，复用单元225将索引复用为一而生成编码代码并输出。

图8是表示本实施方式的同步信息生成单元206内部主要结构的方框图。

同步信息生成单元206的基本动作与在实施方式1所示的同步信息生成单元106相同。换言之，使用编码代码I’在语音编码装置内模拟地进行存在于语音解码装置内的解码单元的处理，将作为其结果而获得的自适应码本和(听觉加权)合成滤波器的内部状态反映在编码单元201内的自适应码本219和听觉加权合成滤波器215。由此能够防止解码信号的质量恶化。

分离单元231从输入的编码代码I’中分离出编码代码，并分别提供给自适应码本233、噪声码本234、增益码本235、以及LPC解码单元232。LPC解码单元232利用被提供的编码代码解码LPC系数，并提供给合成滤波器239。

自适应码本233、噪声码本234、以及增益码本235利用编码代码分别解码自适应向量q(k)、噪声向量c(k)、自适应向量增益β_q、以及噪声向量增益γ_q。乘法器236将自适应向量和自适应向量增益相乘，乘法器237将噪声向量和噪声向量增益相乘，加法器238将乘法运算后的信号相加而生成驱动声源信号。将驱动声源信号表示为ex(k)，可根据下面的式(4)求驱动声源信号ex(k)。

ex(k)＝β_q·q(k)+γ_q·c(k) …(4)

接着，在合成滤波器239利用被解码的LPC系数和驱动声源信号ex(k)，按照下面的式(5)生成合成信号syn(k)。

syn (k) = ex (k) + Σ_{i = 1}^{NP} α_{q} (i) \cdot syn (k - i) \cdot \cdot \cdot (5)

其中，α_q(i)表示解码的LPC系数，NP表示LPC系数的次数。然后，使用驱动声源信号ex(k)更新自适应码本233的内部状态。

在经过这一连串的处理之后，提取单元240提取自适应码本233和合成滤波器239的内部状态并输出。

如上述，根据本实施方式，在使用CELP方式进行语音编码时，将附加信息的一部分或全部嵌入表示CELP的激励声源的代码。由此能够获得与实施方式1相同的效果。

然而，这里虽然以使用自适应码本219和听觉加权合成滤波器215的内部状态的情况进行说明，在其他的处理，例如对LPC解码、噪声码本、增益码本等也使用预测时，对用于上述预测的内部状态和预测系数也进行相同的处理。

(实施方式3)

图9是表示根据本发明的实施方式3的语音编码装置300的主要结构的方框图。此外，该语音编码装置300具有与实施方式1所示的语音编码装置100相同的基本结构。对相同的构成要素赋予相同的标号，并省略其说明。这里，以使用ADPCM方式进行语音编码的情况为例进行说明。

本实施方式的特征在于，在比特嵌入单元104提供的编码代码I’中，直接保持相当于功能扩展编码单元103的扩展码J的信息，并设定不变更该信息的限制，在这种限制下，再编码单元301对编码代码I’再度进行编码处理，决定最终的编码代码I”。

输入数字信号X和作为比特嵌入单元104的输出的编码代码I’被提供给再编码单元301。再编码单元301将比特嵌入单元104提供的编码代码I’再度编码。但对于编码代码I’中相当于扩展码J的信息，将其排除在编码对象之外以防止其改变。然后，将获得的最终的编码代码I”输出。由此，能够保持功能扩展编码单元103的编码代码J的信息，同时生成最适宜的编码代码。再有，通过将此时在预测单元使用的预测系数和预测单元的内部状态以及在自适应单元使用的一样本之前的量化码提供给编码单元102，能够与以编码代码I”进行解码处理的语音解码装置(未图示)的预测单元使用的预测系数和预测单元的内部状态以及在自适应单元使用的一样本之前的量化码取得同步，从而能够防止解码信号的音质恶化。

图10是表示上述再编码单元301内部的主要结构的方框图。此外，除了量化单元311和内部状态提取单元312之外，再编码单元301具有与在实施方式1表示的编码单元102(参照图2)相同的结构，故省略其说明。

将在比特嵌入单元104生成的编码代码I’提供给量化单元311。量化单元311使编码代码I’中的被嵌入的功能扩展编码单元103的编码代码J的信息维持原样，并对其他的编码代码进行再决定。

图11是用于说明量化单元311的再决定处理的概要的图。这里，以下述情况为例进行说明，即，功能扩展编码单元103的编码代码J为{0，1，1，0}，编码代码为4比特，并在其LSB嵌入了编码代码J的情况。

此时，量化单元311变得在LSB被固定在编码代码J的状态下，进行对目标的残差信号失真成为最小的量化值的编码代码的再决定。因此，功能扩展编码单元103的编码代码J为0时，量化单元311可取的量化值的编码代码为0x0，0x2，0x4，0x6，0x8，0xA，0xB，0xC，0xD的8种。并且，在J＝1时，量化单元311可取的量化值的编码代码为0x1，0x3，0x5，0x7，0x9，0xB，0xD，0xF的8种。

如上述，在输出再决定的编码代码I”的同时，通过内部状态提取单元312输出预测单元115的内部状态、在预测单元115使用的预测系数、以及在自适应单元113使用的一样本之前的量化码。将这些信息提供给编码单元102，并为下一个输入X进行准备。

将本实施方式的编码处理的步骤整理如下。

首先在编码单元102进行编码处理，接着在比特嵌入单元104将由功能扩展编码单元103提供的编码代码J嵌入由编码单元102获得的编码代码I，生成编码代码I’。将该编码代码I’提供给再编码单元301。再编码单元301基于保持编码代码J的限制而再决定编码代码，生成编码代码I”。最后，在输出编码代码I”的同时，将在再编码单元301内的预测单元使用的预测系数、该预测单元的内部状态、以及由再编码单元301内的自适应单元所使用的一样本之前的量化码提供给编码单元102，并为下一个输出X进行准备。

这样，根据本实施方式，能够在编码单元的预测单元使用的参数与在解码单元的预测单元使用的参数之间取得同步，防止音质恶化的发生。再有，由于在基于比特嵌入信息的限制的基础上再度决定编码参数，能够将因比特嵌入所引起的恶化抑制到最小限度。

另外，在本实施方式中，虽然以使用ADPCM方式的语音编码的情况为例进行说明，但也可以是CELP方式。

图12是表示使用CELP方式的情况的再编码单元301的结构的方框图。此外，除了噪声码本321和内部状态提取单元322之外，再编码单元301具有与在实施方式2表示的编码单元201(参照图7)相同的结构，故省略其说明。

将在比特嵌入单元104生成的编码代码I’提供给噪声码本321。噪声码本321使编码代码I’中的被嵌入的编码代码J的信息维持原样，并对其他的编码代码进行再决定。假设以8比特表示噪声码本321的索引，扩展功能编码单元102的信息{0}被嵌入该LSB时，在以偶数表示索引的候选{2n；n＝0～127}中进行噪声码本321的搜索。噪声码本321通过搜索决定其中使失真最小的候选并输出该索引。同样地，以8比特表示噪声码本321的索引，扩展功能编码单元102的信息{1}被嵌入该LSB时，在以奇数表示索引的候选{2n+1；n＝0～127}中进行噪声码本321的搜索。

再编码单元301输出以上述方式再度决定的编码代码I”，同时通过内部状态提取单元322输出自适应码本219、听觉加权滤波器216、以及听觉加权合成滤波器215的内部状态。将这些信息提供给编码单元102。

上述说明是将扩展功能的信息嵌入在噪声码本321的一部分索引中的情况的说明。此时，再编码单元301不需要进行LPC系数的计算以及编码、自适应码本的搜索。其理由是，需要再编码的是噪声码本，在其前级处理的部分与在编码单元102的结果相同。因此，只要直接利用在编码单元102获得的结果即可。

另外，这里虽然说明了有关将扩展功能的信息嵌入噪声向量的索引的一部分的情况，但不限于此，也能够将扩展功能的信息嵌入在例如LPC系数、自适应码本、增益码本的索引中。此时的动作原理与对上述噪声码本321的说明相同，其特征在于，在保持扩展功能的信息的限制之下再度决定使失真变得最小时的索引。

图13是表示语音编码装置300的变化的结构的方框图。

图9所示的语音编码装置300的结构是，功能扩展编码单元103的处理结果依赖于编码单元102的处理结果而改变。这里，使结构为：能够与编码单元102的处理结果独立地进行功能扩展编码单元103的处理。

上述结构例如可适用于下述情况：将输入语音信号频带分割为两个频带(例如0-4kHz和4-8kHz)，独立地在编码单元102编码0-4kHz频带并在功能扩展编码单元103编码4-8kHz频带的情况。此时，功能扩展编码单元103的编码处理可不依赖于编码单元102的处理结果加以实施。

编码处理的步骤说明如下：首先在功能扩展编码单元103进行编码处理，生成扩展码J。将该扩展码J提供给编码处理限制单元331。以嵌入扩展码J为前提，将不改变有关该代码J的信息的限制信息提供给编码处理限制单元331。因此，编码单元102在此限制下进行编码处理，决定最终的编码代码I’。根据这个结构，变得不需要再编码单元301，能够以较少的运算量实现实施方式3的语音编码。

以上，对本发明的各个实施方式进行了说明。

本发明的语音编码装置不限于上述实施方式1～3，可进行各种变更加以实施。

本发明的语音编码装置可以装载在移动通信系统中的通信终端装置或基站装置中。据此，可以提供具有上述作用和效果的通信终端装置和基站装置。

再有，这里以用硬件构成本发明的情况为例进行了说明，但本发明也能够以软件实现。比如，通过编程语言记述本发明的语音编码方法的算法，并在存储器中保存该程序并通过信息处理装置来实行，从而能够实现与本发明的语音编码装置相同的功能。

再有，上述各实施方式的说明中的各功能块可实现为一般作为集成电路的LSI。这些块既可是每个块分别集成到一个芯片，或者可以是部分或所有块集成到一个芯片。

这里，虽然称作LSI，但根据集成度的不同每个功能块也可以称为IC(集成电路)、系统LSI(系统大规模集成电路)、超LSI(超大规模集成电路)、极大LSI(极大规模集成电路)。

另外，实现集成电路化的方法不仅限于LSI，也可使用专用电路或通用处理器来实现。制造LSI后，也可以利用能够编程的FPGA(Field ProgrammableGate Array，现场可编程门阵列)，或可以利用将LSI内部的电路块连接或设定重新配置的可重配置处理器(Reconfigurable Processor)。

再有，如果随着半导体技术的进步或者其他技术的派生，出现了替换LSI集成电路的技术，当然，也可以利用该技术来实现功能块的集成化。并且存在着适用生物技术的可能性。

本说明书基于2004年7月20日申请的日本专利申请特愿第2004-211589号。该全部内容包含于此。

工业实用性

本发明的语音编码装置和语音编码方法适合于VoIP网络、移动电话网等用途。

Claims

1.一种语音编码装置，包括：

编码单元，通过预测编码而由语音信号生成代码；

嵌入单元，将附加信息嵌入在所述代码中；

预测解码单元，使用被嵌入了所述附加信息的代码进行与所述编码单元的预测编码对应的解码；以及

同步单元，使在所述编码单元的预测编码中所使用的参数与在所述预测解码单元的解码中所使用的参数同步。

2.如权利要求1所述的语音编码装置，其中

所述编码单元使用ADPCM(Adaptive Differential Pulse Code Modulation)方式生成所述代码，

所述嵌入单元将所述附加信息嵌入在所述代码的LSB(Least SignificantBit)中。

3.如权利要求1所述语音编码装置，其中

所述编码单元通过CELP方式生成所述代码，

所述嵌入单元将所述附加信息嵌入在所述代码内表示CELP方式的激励声源的代码中。

4.如权利要求1所述的语音编码装置，其中

所述嵌入单元根据所述语音信号的性质使嵌入的所述附加信息的比特数改变，并将该比特数通知给语音解码装置。

5.如权利要求1所述的语音编码装置，其中还包括：

指定单元，从预定的选项中指定所述附加信息的比特数。

6.一种通信终端装置，包括如权利要求1所述的语音编码装置。

7.如权利要求6所述的通信终端装置，其中还包括：

发送单元，信号传输所述嵌入单元嵌入附加信息的位置以及所述附加信息的比特数。

8.如权利要求7所述的通信终端装置，其中

所述嵌入单元根据通信对方的通信终端装置的接收状况来决定用于嵌入所述附加信息的位置。

9.一种基站装置，包括如权利要求1所述的语音编码装置。

10.如权利要求9的基站装置，还包括：

11.如权利要求10所述的基站装置，其中

12.一种语音编码方法，包括：

编码步骤，通过预测编码由语音信号生成代码；

嵌入步骤，将附加信息嵌入在所述代码中；

预测解码步骤，使用被嵌入了所述附加信息的代码，进行与所述编码步骤的预测编码对应的解码；以及

同步步骤，使在所述编码步骤的预测编码中所使用的参数与在所述预测解码步骤的解码中所使用的参数同步。