CN101223580B

CN101223580B - 用于搜索固定码本的方法和设备

Info

Publication number: CN101223580B
Application number: CN200680025725XA
Authority: CN
Inventors: 成昊相; 李康殷; 姜尚远; 托马斯·R.·费什; 全仔镜
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2005-07-13
Filing date: 2006-07-13
Publication date: 2012-04-18
Anticipated expiration: 2026-07-13
Also published as: US8805681B2; CN102568490A; KR100813260B1; CN101223580A; CN102592603A; WO2007027005A1; KR20070008413A; US8560306B2; US20070016410A1; US20140006023A1

Abstract

提供一种用于搜索固定码本的方法和设备，所述方法和设备用于搜索包括对话音信号的预定分量进行建模的脉冲的码本。所述方法包括以下操作：从与分配给至少一个分支的预定脉冲位置集合的脉冲位置相应的路径中，选择与最符合预定分量的预定数量的脉冲位置相应的预定数量的路径，其中，所述分支将预定网格结构的一个状态连接到其它状态，对除了所述一个状态之外的状态中的每一个执行上述路径选择操作，并且从包括选择的路径的路径中，选择与最符合预定分量的脉冲位置相应的路径。因此，减少在码本搜索期间需要的计算量。

Description

用于搜索固定码本的方法和设备

技术领域

本发明涉及一种用于搜索码本的方法和设备，更具体地说，涉及一种用于搜索包括脉冲的码本的方法和设备，其中，所述脉冲对包括在话音信号中的预定分量进行建模。

背景技术

在信息技术的应用领域(诸如，移动和卫星通信、多媒体通信、个人便携式通信和互联网电话)，使用压缩/解压缩技术对语音信号进行编码的语音编码器(vocoder)技术非常重要。存在各种类型的语音编码器。基于分析合成(analysis-by-synthesis)结构的码激励线性预测(CELP)编码在多媒体和无线通信系统中使用得最普遍。在CELP编码中，通过自适应码本和固定码本对声道的剩余信号和声门的特征进行建模。根据码本的结构及其搜索处理，在不同程度的复杂性下实现CELP编码，并且CELP编码提供不同质量的合成声音。因此，已经提出各种CELP编码的实现和它们的变型。

作为CELP的示例，存在代数CELP(ACELP)编码方法，用于使用简单的代数方法来获得代码矢量。ACELP编码方法基于包括每个帧的若干幅度(+1/-1)的脉冲的组合的代数符号结构，并使用码本中有限多种幅度的脉冲。因此，ACELP编码方法应对信道噪声表现得非常强健。使用ACELP编码方法搜索代码矢量的方法称为固定码本搜索。

自适应多速率(AMR)宽带话音编码器被选择作为称为第三代合作伙伴计划(3GPP)的国际协会中的宽带话音编码器标准，其具有9种固定比特率的传输模式，即，23.85kbps、23.05kbps、19.85kbps、18.25kbps、15.85kbps、14.25kbps、12.65kbps、8.85kbps和6.60kbps。固定码本搜索基于代数码本结构，并根据不同的传输模式而按照不同的方式来实现。

图1是示出应用于AMR宽带话音编码器的8.85kbps模式的固定码本搜索方法的流程图。图1的固定码本搜索方法基于代数码本。使目标信号的MES最小化的固定码本c_k与使等式1最大化的固定码本相同：

Q_{k} = \frac{{(x_{2}^{t} {Hc}_{k})}^{2}}{c_{k}^{t} H^{t} {Hc}_{k}} = \frac{{(d^{t} c_{k})}^{2}}{c_{k}^{t} {Φc}_{k}} - - - (1)

其中，d^t指示目标信号与脉冲响应h(n)之间的相关性，Φ指示脉冲响应h(n)的相关性。当每个子帧包括M个样本时，分别通过等式2和等式3来计算d(n)和Φ(i，j)：

d (n) = Σ_{i = n}^{M - 1} x_{2} (i) h (i - n), i = 0, . . ., M - - - (2)

Φ (i, j) = Σ_{n = j}^{M - 1} h (n - i) h (n - j), i = 0, . . ., M, j = i, . . ., M - - - (3)

AMR宽带话音编码器的8.85kbps模式的代数码本具有表1所示的结构。如表1所示，对于总共4个音轨(track)中的每一个，搜索一个脉冲，总共20个比特被分配给找到的脉冲的位置和符号，从而找到的脉冲被编码。

[表1]

音轨	脉冲	脉冲的位置
			T1	i0	0、4、8、12、16、20、24、28、32、36、40、44、48、52、56、60
T2	i1	1、5、9、13、17、21、25、29、33、37、41、45、49、53、57、61
			T3	i2	2、6、10、14、18、22、26、30、34、38、42、46、50、54、58、62
T4	i3	3、7、11、15、19、23、27、31、35、39、43、47、51、55、59、63

现将参照表1来描述图1的固定码本搜索方法。固定码本c_k仅包括四个非0的矢量，从而可进行快速码本搜索。分别在等式4和等式5中表示等式1的分子的相关性及其分母的能量：

C = Σ_{i = 0}^{N_{p} - 1} s_{i} d (m_{i}) - - - (4)

其中，m_i指示第i个脉冲的位置，s_i指示第i个脉冲的符号，N_p指示脉冲的数量。

E = Σ_{i = 0}^{N_{p} - 1} φ^{'} (m_{i}, m_{i}) + 2 Σ_{i = 0}^{N_{p} - 2} Σ_{j = i + 1}^{N_{p} - 1} φ^{'} (m_{i}, m_{j}) - - - (5)

参照图1，在操作11，预先计算等式4和等式5，从而可进行快速码本搜索。此外，通过等式6来计算当选择用于减少计算量的脉冲候选矢量时使用的值b(n)：

b (n) = \sqrt{\frac{E_{d}}{E_{r}}} r_{LTP} (n) + ad (n) - - - (6)

其中，E_d指示相关性d(n)的能量，r_LTP(n)指示基音预测之后产生的剩余信号，E_r指示剩余信号r_LTP(n)的能量。

在操作12，使用先前在操作11计算的值b(n)来选择用于第一和第三音轨的脉冲位置的候选矢量。

在操作13的子操作13a、13b和13c，从使用矢量候选所属的音轨t以及紧接着音轨t的音轨(t+1)的两个重叠的环路搜索使等式1的值最大化的两个脉冲的最佳位置。利用找到的两个固定的脉冲，从使用矢量候选所属的音轨(t+2)以及紧接着音轨(t+2)的音轨(t+3)的两个重叠的环路搜索使等式1的值最大化的另两个脉冲的最佳位置。在操作13的子操作13d到13f中，子操作13a到13c被重复4次，并且从子操作13a到13c的4次执行的结果确定使等式1的值最大化的最后4个最佳脉冲位置和最佳脉冲符号。如上所述，按照如下方式来实现图1的固定码本搜索方法：根据相关值从音轨的脉冲选择若干候选脉冲，然后搜索下一音轨。因此，图1的固定码本搜索方法与同时搜索所有音轨的方法相比，所包括的计算量减少。然而，考虑通过图1的固定码本搜索方法产生的声音的质量，则所包括的计算相当大。

发明内容

技术方案

本发明提供一种与传统的码本搜索方法相比，包括减少计算量并产生改进质量的声音的码本搜索方法，以及执行码本搜索方法的码本搜索设备。

本发明还提供一种记录用于执行码本搜索方法的计算机程序的计算机可读记录介质。

有益效果

根据本发明，使用向每个分支分配预定的脉冲位置集的网格结构来选择与最符合话音信号的预定分量的脉冲位置相应的路径，从而减少在码本搜索期间必需的计算量。此外，通过将网格结构的最后一个状态和初始状态的数量限制到预定数量来进一步减少在码本搜索期间必需的计算量。

此外，网格结构的使用使得能够使用结构比现有代数码本扩展的码本，从而即使不增加计算量也能够实现提供改进质量的声音的码本搜索。具体说来，不同于现有代数码本中的从专有脉冲位置被分配到的每个音轨搜索脉冲，而是按照多个集合(每个集合均具有专有脉冲位置)的并集的形式从每个音轨搜索脉冲，从而可实现提供改进质量的声音的码本搜索。

此外，使用预定脉冲位置集合被分配给每个分支的网格结构，并且对于网格结构的阶(stage)被组合的阶组中的每个选择与脉冲位置的组合相应的路径。因此，在码本搜索期间需要的计算量被减少，由于考虑到脉冲之间的影响可实现提供改进质量的声音的码本搜索。

附图说明

图1是示出应用于AMR宽带话音编码器的8.85kbps模式的固定码本搜索方法的流程图；

图2示出当块约束网格编码量化(BC-TCQ，block constrained Trellis codedquantization)算法应用于4状态网格结构时考虑的网格路径；

图3示出当在图2的4状态网格结构中使用代数网格编码(ATC)算法时的编码处理；

图4是根据本发明实施例的码本搜索设备的框图；

图5是根据本发明实施例的码本解码设备的框图；

图6示出在网格结构的预定阶执行的列表维特比(Viterbi)编码；

图7示出通过使用预定的等式值在网格结构的预定阶执行的路径列表确定；

图8和图9是示出根据本发明实施例的码本搜索方法的流程图；

图10示出当多个阶被成对组合的ATC算法被应用于4状态网格结构时考虑的网格路径；

图11示出在图10的4状态网格结构的预定状态执行的单个维特比编码；

图12示出通过使用预定的等式值在4状态网格结构的预定状态执行的单个维特比编码；以及

图13和图14是示出根据本发明另一实施例的码本搜索方法的流程图。

具体实施方式

最佳方式

根据本发明的一方面，提供一种搜索包括对话音信号的预定分量进行建模的脉冲的码本的方法，所述方法包括以下操作：(a)从与分配给至少一个分支的预定脉冲位置集合的脉冲位置相应的路径，选择与最符合预定分量的预定数量的脉冲位置相应的预定数量的路径中，其中，所述分支将预定网格结构的一个状态连接到其它状态；(b)对除了所述一个状态之外的状态中的每一个执行操作(a)；以及(c)从包括在操作(a)和(b)中选择的路径的路径中，选择与最符合预定分量的脉冲位置相应的路径。

根据本发明的示例性实施例，执行操作(a)和(b)的状态属于网格结构的一个阶。所述方法还包括：操作(d)，对除了所述一个阶之外的阶执行操作(a)和(b)。操作(c)包括：从包括在操作(a)、(b)和(d)中选择的路径的路径中选择与最符合预定分量的脉冲位置相应的路径。

所述预定分量可以是通过使用线性预测编码方法来对话音信号进行过滤并从话音信号去除基音分量而获得的信号。

根据本发明的示例性实施例，操作(d)包括按照从第一阶到最后一阶的顺序对网格结构的阶执行操作(a)和(b)。

根据本发明的示例性实施例，构建网格结构，从而使不同的脉冲位置集合被分配给阶，分配给一个阶的脉冲位置集合被划分成的脉冲位置集合被分配给所述一个阶的分支，分配给另一阶的脉冲位置集合被划分成的脉冲位置集合被分配给所述另一阶的分支。

根据本发明的示例性实施例，分配给阶的脉冲位置集合中的至少一个是多个均具有专有脉冲位置的集合的并集。

根据本发明的示例性实施例，所述方法还包括操作：将网格结构的初始状态的数量限制为第一数量，并将与限制的初始状态相应的最后一个状态的数量限制为第二数量。

根据本发明的示例性实施例，操作(d)包括：在序列中对网格结构的第一阶到第预定编号的阶执行操作(a)和(b)。所述方法还包括以下操作：(e)基于在操作(a)、(b)和(d)中选择的路径，通过跟踪开始于所述第预定编号的阶的状态之一的路径来确定与所述第预定编号的阶的所述状态之一相应的初始状态，并确定从所述第预定编号的阶的所述一个状态到最后一个状态的路径，最后一个状态的数量受限于第二数量；(f)对除了所述第预定编号的阶的所述一个状态之外的所述第预定编号的阶的状态中的每一个执行操作(e)；以及(g)对在操作(e)和(f)确定的路径上的状态执行操作(a)和(b)。操作(c)包括：从包括在操作(a)、(b)、(d)和(g)中选择的路径的路径中选择与最符合预定分量的脉冲位置相应的路径。

根据本发明的示例性实施例，网格结构包括N(＝2^v，其中，v指示整数) 个状态和L个阶，第一数量为2^w(0≤w≤v)，第二数量为2^v-w，并且第预定编号的阶为第L-log₂N阶。

根据本发明的另一方面，提供一种搜索包括对话音信号的预定分量进行建模的脉冲的码本的方法，所述方法包括以下操作：(a)从与分配给多个分支的预定脉冲位置集合的脉冲位置组合相应的路径中，选择与最符合预定分量的脉冲位置组合相应的路径，其中，所述分支将网格结构的阶组之一的最后一阶的一个状态连接到所述一个阶组的第一阶的状态，通过按照预定数量组合网格结构的阶来获得阶组；(b)对除了最后一阶的所述一个状态之外的状态中的每一个执行操作(a)；(c)对除了所述一个阶组之外的阶组执行操作(a)和(b)；以及(d)从包括在操作(a)、(b)和(c)中选择的路径的路径中，选择与最符合预定分量的脉冲位置相应的路径。

根据本发明的示例性实施例，操作(c)包括按照从第一阶组到最后一个阶组的顺序对网格结构的阶组执行操作(a)和(b)。

根据本发明的示例性实施例，所述方法还包括以下操作：将网格结构的初始状态的数量限制到第一数量，并将与限制的初始状态相应的最后一个状态的数量限制到第二数量。

根据本发明的示例性实施例，操作(c)包括：在序列中对网格结构的第一阶组到第预定编号的阶组执行操作(a)和(b)。所述方法还包括以下操作：(e)基于在操作(a)、(b)和(c)中选择的路径，通过后向跟踪开始于所述第预定编号的阶组的最后一阶的状态之一的路径来确定与所述第预定编号的阶组的最后一阶的所述状态之一相应的初始状态，并确定从最后一阶的所述一个状态变动到最后一个状态的路径，最后一个状态的数量受限于第二数量；(f)对除了所述第预定编号的阶组的最后一阶的所述一个状态之外的所述第预定编号的阶组的最后一阶的状态中的每一个执行操作(e)；以及(g)对操作(e)和(f)确定的路径上的状态执行操作(a)和(b)。操作(d)包括：从包括在操作(a)、(b)、(c)和(g)中选择的路径的路径中选择与最符合预定分量的脉冲位置相应的路径。

根据本发明的示例性实施例，网格结构包括N(＝2^v，其中，v指示整数)个状态和L个阶，第一数量为2^w(0≤w≤v)，第二数量为2^v-w，并且第预定编号的阶为第L-log₂N阶。

根据本发明的另一方面，提供一种搜索包括对话音信号的预定分量进行建模的脉冲的码本的设备，所述设备包括：网格结构数据库，存储预定网格结构；选择单元，从与分配给至少一个分支的预定脉冲位置集合的脉冲位置相应的路径中，选择与最符合预定分量的预定数量的脉冲位置相应的预定数量的路径，其中，所述分支将预定网格结构的每一个状态连接到其它状态；存储器单元，存储预定数量的脉冲位置和脉冲；以及输出单元，基于存储在存储器单元中的脉冲位置和路径，输出关于最符合预定分量的脉冲位置的信息以及关于与所述脉冲位置相应的路径的信息。

根据本发明的实施例，构建网格结构，从而使不同的脉冲位置集合被分配给阶，分配给一个阶的脉冲位置集合被划分成的脉冲位置集合被分配给所述一个阶的分支，分配给另一阶的脉冲位置集合被划分成的脉冲位置集合被分配给所述另一阶的分支。

根据本发明的另一方面，提供一种记录码本搜索方法的计算机可读记录介质。

发明实施方式

在详细描述本发明之前，现描述在本发明中使用的块约束网格编码量化(BC-TCQ)算法。

BC-TCQ算法使用N(N等于2^v，其中，v指示分配给每个样本的比特数)网格结构，所述N网格结构基于具有比率为1/2的卷积编码器和没有反馈的编码器结构。作为BC-TCQ算法的先决条件，可选择的网格路径的初始状态的数量被限制为总共N个状态中的2^w(0≤w≤v)个，而在最后一阶上的状态的数量被限制为N个状态中的2^w(0≤w≤v)个，以便符合可选择的网格路径的初始状态。

在使用BC-TCQ算法执行单个维特比编码的处理中，首先，在初始状态先决条件下确定的N个生存路径的初始状态被称为从第一阶到……第L-log₂N阶(其中，L指示阶的总数，N指示网格状态的总数)。然后，在剩余的v阶中，仅考虑允许将根据每个初始状态确定的2^v-w个状态之一选作最后一阶的状态的网格路径。从被考虑的网格路径中选择最佳网格路径，并将其发送。

图2示出当w为1的BC-TCQ算法应用于4状态网格结构时考虑的网格路径。可选择的格状路径的初始状态是4个状态中的00或10。当初始状态是00时，可选择的网格路径的最后一阶的状态被设置为00或01；当初始状态是01时，可选择的网格路径的最后一阶的状态被设置为01或11。参照图2，直到将为“00”的第L-log₂N阶具有初始状态“00”时才确定状态的生存路径(由粗虚线表示)，因此，在剩余的阶上可选择的两个网格路径在最后一阶上具有状态“00”和“01”，并由粗点画线来表示。

如BC-TCQ算法，本发明的代数网格编码(ATC)算法基于N(N等于2^v，其中，v指示分配给每个样本的比特数)网格结构，所述N网格结构基于具有比率为1/2的卷积编码器和没有反馈的编码器结构。因此，如BC-TCQ算法的先决条件，可选择的网格路径的初始状态的数量被限制为总共N个状态中的2^w(0≤w≤v)个，而根据可选择的网格路径的初始状态的受限数量，在最后一阶上的状态的数量被限制为2^v-w(0≤w≤v)个。

现将描述使用w为1的ATC算法的列表维特比编码的简单示例。

首先，对于从第一阶到第L-log₂N阶的有限数量的状态中的每一个执行列表维特比算法。在这一操作中，对于从第一阶到第L-log₂N阶的每个状态存储k个最佳路径。然后，基于存储的k个最佳路径，在第L-log₂N阶的每个状态中确定并排列k个最佳路径。这里，k指示列表维特比路径的数量。k个最佳生存路径被称为生存列表路径。

通过路径回溯来确定第L-log₂N阶中的N×k个生存列表路径的初始状态。通过参考确定的初始阶来考虑最后一阶上具有有限数量的状态的网格列表路径。最后，从自第L-log₂N阶到第L阶考虑的网格列表路径中选择最佳网格列表路径，并且从N个生存列表路径选择最佳网格路径。关于选择的最佳网格路径的信息被发送。

图3示出当在4状态网格结构中使用ATC算法时在列表维特比编码处理中考虑的网格路径。在图3中，可选择的网格路径的初始状态是四个状态00、 01、10和11中的00或01。当初始状态是00时，可选择的网格路径的最后一阶的状态是00或10，当初始状态是01时，可选择的网格路径的最后一阶的状态是01或11。在每个状态上存在按照列表维特比算法排列的列表路径。参照图3，在第L-log₂N阶上具有状态“00”且由粗虚线表示的生存列表路径具有初始阶“00”，因此，剩余阶上可选择的两条网格路径在最后一阶上具有状态“00”和“10”，并由粗点画线来表示。

表2示出根据本发明实施例的扩展码本，其通过扩展AMR宽带话音编码器的8.85kbps模式的固定码本而获得。

[表2]

扩展码本	代数码本
		V1	T1∪T2
V2	T2∪T3
		V3	T3∪T4
V4	T4∪T1

根据本发明的扩展码本包括作为多个集合的并集的扩展音轨，所述集合均具有专有脉冲位置。更具体地说，参照表2，扩展码本的扩展音轨V1到V4中的每一个均通过合并代数码本的两个音轨的脉冲位置集合而获得。表3示出分配给基于表2的扩展码本的网格结构的分支的子码本。

[表3]

子码本	第一阶(V1)	第二阶(V2)
			D0	0、8、16、24、32、40、48、56	1、9、17、25、33、41、49、57
D1	1、9、17、25、33、41、49、57	2、10、18、26、34、42、50、58
			D2	4、12、20、28、36、44、52、60	5、13、21、29、37、45、53、61
D3	5、13、21、29、37、45、53、61	6、14、22、30、38、46、54、62
			子码本	第三阶(V3)	第四阶(V4)
D0	2、10、18、26、34、42、50、58	3、11、19、27、35、43、51、59
			D1	3、11、19、27、35、43、51、59	4、12、20、28、36、44、52、60

D2	6、14、22、30、38、46、54、62	7、15、23、31、39、47、55、63
			D3	7、15、23、31、39、47、55、63	0、8、16、24、32、40、48、56

在表1所示的现有代数码本中，专有脉冲位置被分配给每个音轨。同时，在表3所示的根据本发明实施例的扩展码本中，每个扩展音轨通过对均具有16个脉冲位置的两个音轨取和而具有32个脉冲位置。因此，可能存在于扩展码本中的脉冲位置组合的数量大于可能存在于现有代数码本中的脉冲位置组合的数量，从而理论上可以得出：当使用扩展码本而不使用现有代数码本时，可产生更好质量的声音。

参照表3，通过将扩展码本应用于网格结构，单个扩展音轨被分配给每一阶，并且从每个扩展音轨搜索单个脉冲。因此，将要考虑的用于搜索单个脉冲的脉冲位置的数量为32，这是在现有代数码本中要考虑的脉冲位置的数量的两倍。每个扩展音轨被划分为4个子码本，使用如图3所示的交织方法来划分子码本并将其分配给网格结构的分支。

图4是根据本发明实施例的码本搜索设备400的框图。参照图4，码本搜索设备400包括：网格结构数据库410、计算单元420、选择单元430、存储器单元440和输出单元450。

网格结构数据库410存储预定的网格结构。

在存储在网格结构数据库410中的网格结构中，预定脉冲集合被分配给每个阶，并且预定脉冲集合的子类被分配给每个分支。例如，如表1所示，按照如下方式构建存储在网格结构数据库410中的网格结构：扩展音轨被分配给网格结构的每个阶，并且子码本被分配给网格结构的每个分支。

计算单元420接收包括在话音信号中的预定分量(即，用于码本搜索的目标信号)，通过使用网格结构和分配给网格结构的脉冲位置集合(其存储在网格结构数据库410中)来计算预定等式值，并输出预定等式值。

预定分量可以是通过使用线性预测编码来对话音信号进行过滤并从话音信号去除基音分量而获得的信号。

选择单元430基于由计算单元420输出的等式值，从与分配给至少一个分支(其将网格结构的每个状态连接到其它状态)的预定脉冲位置集合的脉冲位置相应的路径中，选择与最符合目标信号的预定数量的脉冲位置相应的预定数量的路径。

存储器单元440存储预定数量的脉冲位置和路径。可将网格结构数据库410包括在存储器单元440中。

输出单元450基于存储在存储器单元440中的脉冲位置和路径，输出关于最符合目标信号的脉冲位置的信息以及关于与脉冲位置相应的路径的信息。

图5是根据本发明实施例的码本解码设备500的框图。参照图4，码本解码设备500包括：网格结构数据库510、码本解码单元520和输出单元530。

网格结构数据库510存储被存储在码本搜索设备400的网格结构数据库410中的网格结构，以及与关于分配给网格结构的脉冲位置的信息相同的信息。

码本解码单元520通过使用存储在网格结构数据库510中的信息以及通过码本搜索设备400输出的脉冲位置信息和路径信息来恢复包括在话音信号中的预定分量。

输出单元530输出恢复的预定分量。

图6到图9被用于示出根据本发明实施例的码本搜索方法。

图6示出在网格结构的预定阶执行的列表维特比编码。图7示出通过使用预定等式值φ_sj在网格结构的预定阶中执行的路径列表确定。

图8和图9是示出根据本发明实施例的码本搜索方法的流程图。

首先，在图6的第j阶中的列表维特比编码中，与第j阶的状态s相关的脉冲位置信息根据前一阶的状态而变化。脉冲位置信息也根据在前一状态中排列和存储的最佳路径而变化。

参照图8，在操作81，码本搜索设备400针对预定等式的最大值φ₁ ⁰执行初始化，所述最大值用于在第0阶的总共N个状态中的有限数量的初始状态中实现最优脉冲搜索。

然后，在操作82，对于从如图6和图7所示的第一阶到第L-log₂N阶(其中，L指示阶的总数)的状态中的每一个执行列表维特比编码。更具体地说，在操作82的子操作82a，码本搜索设备400使用分配给将前一阶的状态j连接到当前阶的状态s的分支的子码本来计算等式7的值，所述等式7为等式1的变型。可将用于每个分支的等式7表示为等式8和等式9：

A_{q} = \frac{C_{q}^{2}}{E_{q}} = \frac{{(d_{q}^{T} c_{q})}^{2}}{c_{q}^{T} {Φc}_{q}} - - - (7)

其中，c_q指示第q个固定码本矢量，T指示转置矩阵。

A_{i^{'}, s} = \max (\frac{{(d_{i^{'}, s}^{T} c_{i^{'}, s})}^{2}}{c_{i^{'}, s}^{T} Φ c_{i^{'}, s}} | c_{i^{'}, s} &Element; D_{i^{'}, s}^{j}) . . . (8)

A_{i^{''}, s} = \max (\frac{{(d_{i^{''}, s}^{T} c_{i^{''}, s})}^{2}}{c_{i^{''}, s}^{T} Φ c_{i^{''}, s}} | c_{i^{''}, s} &Element; D_{i^{''}, s}^{j}) . . . (9)

在等式8和等式9中，D_i′，s ^j指示分配给第j阶的状态s与第(j-1)阶的状态i’之间的分支的子码本，D_i″，s ^j指示分配给第j阶的状态s与第(j-1)阶的状态i”之间的分支的子码本。d_i′，s ^T指示在分配给状态s与状态i’之间的分支的子码本中目标信号与脉冲响应h(n)之间的相关性。

在操作82的子操作82b，从与分配给至少一个分支(其将网格结构的每个状态连接到其它状态)的预定脉冲位置集合的脉冲位置相应的路径中，选择与最符合预定分量的预定数量的脉冲位置相应的预定数量的路径。

更具体地说，在子操作80b-1，码本搜索设备400通过将等式8和等式9的值分别与等式7的φ_i′ ^j-1和φ_i″ ^j-1(均累加到第(j-1)阶)相加来更新等式11的k个值，并将等式11的k个值存储在从最大值到最小值的序列中。因为相加的值相应于等式7的累加值，所以与较小的相加值相比，较大的相加值相应于更加符合输入码本搜索设备400的目标信号的脉冲位置。

在子操作82b-2中，如等式10，码本搜索设备400存储在连接到第j阶的状态s的2k个网格列表路径中与等式1的值相应的k个路径的列表，还存储最佳脉冲位置以及排列最佳脉冲位置的序列。

ζ_{s}^{j} (k) = {\arg \max}^{(k)} (φ_{i^{'}}^{j - 1} + A_{i^{'}, s}^{j}, φ_{i^{''}}^{j - 1} + A_{i^{''}, s}^{j}) . . . (10)

φ_{s}^{j} (k) = \max^{(k)} (φ_{i^{'}}^{j - 1} + A_{i^{'}, s}^{j}, φ_{i^{''}}^{j - 1} + A_{i^{''}, s}^{j}) . . . (11)

码本搜索设备400从第一阶到第L-log₂N阶(其中，L指示阶的总数)重复操作82。

在操作83，码本搜索设备400通过对在操作82从第一阶到第L-log₂N阶获得的最佳列表路径进行路径回溯来确定N×k个生存列表路径。因为对于N个状态中的每一个确定k个路径，所以获得N×k个生存列表路径。

然后，在图9的操作94，在从第L-log₂N阶之后的阶到第L阶的阶上执行列表维特比编码，并且从确定的生存列表路径选择最佳生存列表路径。

在操作94的子操作94a，码本搜索设备400确定在操作83确定的N×k个生存列表路径的初始状态，并确定以取决于初始状态的最后的第L阶的状态结束的两个网格列表路径。

在操作94b，在所述两个网格列表路径中执行列表维特比编码。在操作94b，n指示与两个确定的网格列表路径中的每一个相应的最后一个状态的数量，即，2。

在操作94b-11，码本搜索设备400在从第(L-log₂N)+1阶变动到最后的第L阶的网格列表路径相应的每个状态中更新等式11的值。换言之，码本搜索设备400对于从第(L-log₂N)+1阶到第(j-1)阶累加的等式7的值φ_i，n ^j-1 以及从第L-log₂N阶到第L阶在两个网格列表路径中的等式7的值A_i，n ^j求和，从求和的结果中选择k个较大的值，对所述k个较大的值进行排列，并将排列的k个较大的值存储在φ_i，n ^j(k)中。从第(L-log₂N)+1阶到第(j-1)阶累加的等式7的值φ_i，n ^j-1等于在状态i下获得的从初始阶到第L-log₂N阶的等式11的值φ_i，n ^L-log2N。

在操作94b-12，码本搜索设备400存储与值φ_i，n ^j(k)相应的k路径列表，还存储关于最佳脉冲位置的信息以及最佳脉冲位置被排列的序列。在操作94b-2和94b-3，码本搜索设备400获得使得在操作94b-11中获得的等式11的总值(overall value)最大化的阶n。

在操作94b-4，码本搜索设备400存储等式11的总值、网格路径信息和脉冲信息。

在操作94d，码本搜索设备400通过使用在操作94b获得的信息，选择在N个生存路径中使得等式11的值最大化的状态i。

在操作94e，码本搜索设备400存储等式11的最佳总值、最佳网格路径信息和最佳脉冲信息。

图10到图14是用于解释根据本发明另一实施例的码本搜索方法的示图。

该实施例中的码本搜索方法基于BC-TCQ算法。该实施例的码本搜索方法的网格结构类似于根据图6到图9所示的实施例的码本搜索方法的网格结构。然而，该实施例的编码方法与第一方法的不同在于：在阶被组合的情况下执行单个维特比编码。

图10示出当多个阶被成对分块的ATC算法被应用于4状态网格结构时考虑的网格路径。图11示出在图10的4状态网格结构的预定阶中执行的单个维特比编码。

图12示出通过使用预定等式值φ_s ^(j-1)j在图10的4状态网格结构的预定阶中执行的单个维特比编码。

根据该实施例的码本搜索方法的简要描述，从第一阶到第L-log₂N阶的网格结构的预定数量的阶被组合为阶组，在阶组的每一个状态中执行单个维特比算法。通过单个维特比算法在每个状态下确定最佳路径。在每个阶组中确定最佳路径，因此，最佳路径被称为最佳组路径。然后，通过路径回溯在第L-log₂N阶中确定N个生存组路径的初始状态。通过参考确定的初始状态来选择以最后一阶的受限数量的状态结束的网格组路径。然后，在最后的log₂N阶组中从网格组路径选择最佳网格组路径。最后，从N个生存组路径中选择最佳网格路径。

参照图10，类似于图3，初始状态为“00”或“01”，并且当初始状态是“00”时，最后一个阶组的状态是“00”或“10”，当初始状态是“01”时，最后一个阶组的状态是“01”或“11”。在组合的第L-log₂4阶上以状态“00”结束的生存组路径(由粗虚线表示)具有初始状态“00”，因此，由粗点画线来表示在剩余阶上可选择的两个网格组路径，其在最后一阶上结束于状态“00”和“10”。

现将参照图11到图14来描述在图10的选择的网格路径下执行的根据本发明另一实施例的ATC编码处理。在该实施例中，组合阶的数量可取决于其相互影响将被考虑的脉冲的数量。该实施例相应于将搜索代数码本的深度优先树的方法应用于网格结构。为了简化描述，将示出组合两个阶的情况。

在图11的(j-1)j阶组中执行的单个维特比编码处理中，与(j-1)j阶组的状态s相关的脉冲位置信息根据前一阶组的状态而变化。这里，(j-1)j阶组指示包括第(j-1)阶和第j阶的阶组。当组合a个阶时，在每个阶组中连接到状态s的分支的数量为2^a。参照图11，组合2个阶，因此，连接到状态s的分支的数量为4。在图11中，粗实线表示4个分支。

现将参照图13和图14来描述根据该实施例的码本搜索方法。

在操作131，码本搜索设备400初始化预定等式的最大值φ_i ⁰，所述最大值用于在第0阶的总共N个状态中的有限数量的初始状态中实现最优脉冲搜索。

然后，在操作132，对于从如图11和图12所示的从第一阶到第L-log₂N阶(其中，L指示阶的总数)的每一对的阶的每个状态执行单个维特比编码。更具体地说，在操作132的子操作132a，码本搜索设备400使用分配给将前一阶组的状态j连接到当前阶组的状态s的分支的子码本来计算等式7的值，并将计算的值存储在最大值度量(

)中。

在操作132b，从与预定脉冲位置集合的脉冲位置组合相应的路径中选择与最符合预定分量的脉冲位置的组合相应的路径，其中，所述预定脉冲位置集合被分配给多个分支，所述分支将阶组中最后一阶的状态之一连接到阶组中第一阶的状态。

更具体地说，在操作132b的子操作132b-1和132b-2中，在使用分配给图12的第(j-1)阶和第j阶的音轨的两个重叠的环路中，码本搜索设备400将在操作132a计算和存储的最大度量与累加到并存储到(j-3)(j-2)阶组的等式7的值φ_i ^(j-3)(j-2)相加，并将等式7的最大值存储在如等式13的当前阶组的累加值φ_s ^(j-1)j。

在子操作132b-3中，码本搜索设备400搜索与值φ_s ^(j-1)j相应的两个脉冲p^j-1和p^j的最佳位置。在操作132b-4，码本搜索设备400存储最佳脉冲位置和与最佳脉冲位置相应的组路径。在等式12中表示存储的组路径：

ζ_{s}^{(j - 1) j} = \arg \max (φ_{i^{1}}^{(j - 3) (j - 2)} + A_{i^{1}, s}^{(j - 1) j}, φ_{i^{2}}^{(j - 3) (j - 2)} + A_{i^{2}, s}^{(j - 1) j}, φ_{i^{3}}^{(j - 3) (j - 2)} + A_{i^{3}, s}^{(j - 1)}, φ_{i^{4}}^{(j - 3) (j - 2)} + A_{i^{4}, s}^{(j - 1) j}) . . . (12)

φ_{s}^{(j - 1) j} = \max (φ_{i^{1}}^{(j - 3) (j - 2)} + A_{i^{1}, s}^{(j - 1) j}, φ_{i^{2}}^{(j - 3) (j - 2)} + A_{i^{2}, s}^{(j - 1) j}, φ_{i^{3}}^{(j - 3) (j - 2)} + A_{i^{3}, s}^{(j - 1)}, φ_{i^{4}}^{(j - 3) (j - 2)} + A_{i^{4}, s}^{(j - 1) j}) . . . (13)

码本搜索设备400从第一阶组到包括第L-log₂N阶的阶组重复执行操作132。

在操作133，码本搜索设备400通过基于在操作132存储的从第一阶到第L-log₂N阶的组路径执行路径回溯来确定N个生存组路径。

在图14的操作144，对根据N个生存组路径的初始状态确定的从第(L-log₂N)+1阶到最后的第L阶的状态的两个网格组路径执行单个维特比编码。

在操作144a，码本搜索设备400使用路径回溯方法确定N个生存组路径的初始状态，并确定用于剩余log₂N阶的两个网格组路径。

在操作144b，码本搜索设备400对两个网格组路径执行单个维特比编码。

在操作144b-11和144b-12，从第(L-log₂N)+2阶到第L阶，在使用分配给第(j-1)阶和第j阶的音轨的两个重叠的环路中，码本搜索设备400将第L-log₂N阶与第L阶之间的两条网格列表路径中等式7的值A_i，n ^(j-1)j与累加到前一(j-3)(j-2)阶组的等式7的值φ_i，n ^(j-3)(j-2)相加，并将相加的结果存储在(j-1)j阶组的累加值φ_i，n ^(j-1)j中。从第(L-log₂N)+2阶到前一(j-3)(j-2)阶组存储的累加值φ_i，n ^(j-3)(j-2)等于从初始阶到第L-log₂N阶在状态i中获得的等式13的值φ_i，n ^L-log2N。

在操作144b-13和144b-14，码本搜索设备400选择与值φ_i，n ^(j-1)j相应的两个脉冲的最佳位置，并存储关于最佳脉冲位置的信息以及与最佳脉冲位置相应的组路径。

在操作144b-2和144b-3，码本搜索设备400选择使在操作144b-13中获得的等式13的总值最大化的状态n。

在操作144b-4，码本搜索设备400存储等式13的总值、网格组路径信息和脉冲信息。

在操作144d，码本搜索设备400通过参考在操作144b获得的信息，在N个生存组路径中选择使等式13的总值最大化的状态i。

在操作144e，码本搜索设备400最终存储网格组路径信息、脉冲位置信息和等式13的总值，并输出网格组路径信息和脉冲位置信息。

<试验>

在表4中示出当使用ATC和列表维特比算法的本发明被应用于自适应多速率(AMR)宽带话音编码器(在称为第三代合作伙伴项目(3GPP)的国际协会中被选择作为宽带话音编码器标准)的8.85k模式的固定码本搜索时的性能，以及当使用AMR宽带话音编码器的现有代数码本时的性能。在表5中示出当本发明被应用于固定码本搜索以及当AMR宽带话音编码器的现有代数码本被使用时的计算量。表4的性能和表5的计算量取决于列表维特比路径的数量，即，k。

通过作为ITU-T标准话音质量测量软件P.826的话音质量的感知估计(PESQ)来测量性能。通过测量编码期间的脉冲搜索的频率来获得计算量。

[表4]

	列表维特比路径的数量，k	PESQ(MOS)
			本发明 (ATC-LVA)	k＝1	3 1653
k＝2	3 1761
			k＝3	3 1788
k＝4	3 1816

	k＝5	3 1843
			现有代数码本	3 1792

[表5]

	列表维特比路径的数量，k	理论计算量
			本发明 (ATC-LVA)	k＝1	192
k＝2	352
			k＝3	512
k＝4	672
			k＝5	832
现有代数码本	768

参照表4和表5，当列表维特比路径的数量是4或更多时，本发明的性能优于当使用AMR宽带话音编码器的现有代数码本时的性能。具体说来，当列表维特比路径的数量是4时，与使用AMR宽带话音编码器的现有代数码本的情况相比，通过本发明产生的话音的质量得到提高，并且与使用AMR宽带话音编码器的现有代数码本的情况相比，本发明的计算量被减少。

可将本发明的实施例编写为计算机程序，并可在使用计算机可读记录介质执行程序的通用数字计算机上实现。可通过各种手段将本发明实施例中使用的数据的结构记录在计算机可读记录介质上。

计算机可读记录介质的示例包括：磁记录介质(例如，ROM、软盘、硬盘等)、光记录介质(例如，CD-ROM或DVD)和诸如载波(例如，通过互联网的传输)的存储介质。

尽管参照本发明的优选实施例具体示出并描述了本发明，但是本领域的技术人员将理解：在不脱离如权利要求限定的本发明的精神和范围的情况下，可对此进行形式和细节上的各种改变。应将优选实施例理解为目的在于说明，而不是限制。因此，本发明的范围不是由本发明的详细描述限定，而是由权利要求限定，所述范围之内的所有差异将被认为是包括在本发明中。

Claims

1.一种搜索包括对话音信号的预定分量进行建模的脉冲的码本的方法，所述方法包括以下操作：

(a)从与分配给至少一个分支的预定脉冲位置集合的脉冲位置相应的路径中，选择与最符合预定分量的预定数量的脉冲位置相应的预定数量的路径，其中，所述分支将预定网格结构的一个状态连接到其它状态；

(b)对除了所述一个状态之外的状态中的每一个执行操作(a)；以及

(c)从包括在操作(a)和(b)中选择的路径的路径中，选择与最符合预定分量的脉冲位置相应的路径，

其中，脉冲位置集合中的至少一个是多个均具有专有脉冲位置的集合的并集。

2.如权利要求1所述的方法，其中：

执行操作(a)和(b)的状态属于所述预定网格结构的一个阶；

所述方法还包括：操作(d)，对除了所述一个阶之外的阶执行操作(a)和(b)；并且

操作(c)包括：从包括在操作(a)、(b)和(d)中选择的路径的路径中选择与最符合预定分量的脉冲位置相应的路径。

3.如权利要求1所述的方法，其中，所述预定分量是通过使用线性预测编码方法来对话音信号进行滤波并从话音信号去除基音分量而获得的信号。

4.如权利要求2所述的方法，其中，操作(d)包括按照从第一阶到最后一阶的顺序对所述预定网格结构的阶执行操作(a)和(b)。

5.如权利要求2所述的方法，其中，所述预定网格结构按以下方式被构建：不同的脉冲位置集合被分配给阶，分配给一个阶的脉冲位置集合被划分，划分成的脉冲位置集合被分配给所述一个阶的分支，分配给另一阶的脉冲位置集合被划分，划分成的脉冲位置集合被分配给所述另一阶的分支。

6.如权利要求5所述的方法，其中，分配给阶的脉冲位置集合中的至少一个是多个均具有专有脉冲位置的集合的并集。

7.如权利要求2所述的方法，还包括以下操作：将所述预定网格结构的初始状态的数量限制为第一数量，并将与限制的初始状态相应的最后一个状态的数量限制为第二数量。

8.如权利要求7所述的方法，其中：

操作(d)包括：在序列中对所述预定网格结构的第一阶到第预定编号的阶执行操作(a)和(b)；

所述方法还包括以下操作：

(e)基于在操作(a)、(b)和(d)中选择的路径，通过跟踪开始于所述第预定编号的阶的状态之一的路径来确定与所述第预定编号的阶的所述状态之一相应的初始状态，并确定从所述第预定编号的阶的所述一个状态到最后一个状态的路径，最后一个状态的数量受限于第二数量；

(f)对除了所述第预定编号的阶的所述一个状态之外的所述第预定编号的阶的状态中的每一个执行操作(e)；以及

(g)对在操作(e)和(f)确定的路径上的状态执行操作(a)和(b)；并且

操作(c)包括：从包括在操作(a)、(b)、(d)和(g)中选择的路径的路径中选择与最符合预定分量的脉冲位置相应的路径。

9.如权利要求8所述的方法，其中：

所述预定网格结构包括N＝2^v个状态和L个阶，其中，v指示整数；

第一数量为2^w，其中，0≤w≤v，第二数量为2^v-w；并且

第预定编号的阶为第L-log₂N阶。

10.一种搜索包括对话音信号的预定分量进行建模的脉冲的码本的方法，所述方法包括以下操作：

(a)从与分配给多个分支的预定脉冲位置集合的脉冲位置组合相应的路径中，选择与最符合预定分量的脉冲位置组合相应的路径，其中，所述分支将网格结构的一个阶组的最后一阶的一个状态连接到所述一个阶组的第一阶的状态，通过按照预定数量组合所述网格结构的阶来获得阶组；

(b)对最后一阶的除了所述一个状态之外的状态中的每一个执行操作(a)；

(c)对除了所述一个阶组之外的阶组执行操作(a)和(b)；以及

(d)从包括在操作(a)、(b)和(c)中选择的路径的路径中，选择与最符合预定分量的脉冲位置相应的路径，

11.如权利要求10所述的方法，其中，所述预定分量是通过使用线性预测编码方法来对话音信号进行滤波并从话音信号去除基音分量而获得的信号。

12.如权利要求10所述的方法，其中，操作(c)包括按照从第一阶组到最后一个阶组的顺序对所述网格结构的阶组执行操作(a)和(b)。

13.如权利要求10所述的方法，其中，所述网格结构按以下方式被构建：不同的脉冲位置集合被分配给阶，分配给一个阶的脉冲位置集合被划分，划分成的脉冲位置集合被分配给所述一个阶的分支，分配给另一阶的脉冲位置集合被划分，划分成的脉冲位置集合被分配给所述另一阶的分支。

14.如权利要求13所述的方法，其中，分配给阶的脉冲位置集合中的至少一个是多个均具有专有脉冲位置的集合的并集。

15.如权利要求10所述的方法，还包括以下操作：将所述网格结构的初始状态的数量限制为第一数量，并将与限制的初始状态相应的最后一个状态的数量限制为第二数量。

16.如权利要求15所述的方法，其中：

操作(c)包括：在序列中对所述网格结构的第一阶组到第预定编号的阶组执行操作(a)和(b)；

所述方法还包括以下操作：

(e)基于在操作(a)、(b)和(c)中选择的路径，通过后向跟踪开始于所述第预定编号的阶组的最后一阶的状态之一的路径来确定与所述第预定编号的阶组的最后一阶的所述状态之一相应的初始状态，并确定从最后一阶的所述一个状态到最后一个状态的路径，最后一个状态的数量受限于第二数量；

(f)对除了所述第预定编号的阶组的最后一阶的所述一个状态之外的所述第预定编号的阶组的最后一阶的状态中的每一个执行操作(e)；以及

(g)对操作(e)和(f)确定的路径上的状态执行操作(a)和(b)；并且

操作(d)包括：从包括在操作(a)、(b)、(c)和(g)中选择的路径的路径中选择与最符合预定分量的脉冲位置相应的路径。

17.如权利要求16所述的方法，其中：

所述网格结构包括N＝2^v个状态和L个阶，其中，v指示整数；

第一数量为2^w，其中，0≤w≤v，第二数量为2^v-w；并且

第预定编号的阶为第L-log₂N阶。

18.一种搜索包括对话音信号的预定分量进行建模的脉冲的码本的设备，所述设备包括：

网格结构数据库，存储预定网格结构；

选择单元，从与分配给至少一个分支的预定脉冲位置集合的脉冲位置相应的路径，选择与最符合预定分量的预定数量的脉冲位置相应的预定数量的路径，其中，所述分支将所述预定网格结构的每一个状态连接到其它状态；

存储器单元，存储预定数量的脉冲位置和脉冲；以及

输出单元，基于存储在存储器单元中的脉冲位置和路径，输出关于最符合预定分量的脉冲位置的信息以及关于与所述脉冲位置相应的路径的信息，

19.如权利要求18所述的设备，其中，所述预定网格结构按以下方式被构建：不同的脉冲位置集合被分配给阶，分配给一个阶的脉冲位置集合被划分，划分成的脉冲位置集合被分配给所述一个阶的分支，分配给另一阶的脉冲位置集合被划分，划分成的脉冲位置集合被分配给所述另一阶的分支。