CN101061533A

CN101061533A - 语音编码装置和语音编码方法

Info

Publication number: CN101061533A
Application number: CNA200580035271XA
Authority: CN
Inventors: 押切正浩
Original assignee: 松下电器产业株式会社
Current assignee: OPTICAL WIRELESS TECHNOLOGY Co Ltd
Priority date: 2004-10-26
Filing date: 2005-10-25
Publication date: 2007-10-24
Anticipated expiration: 2025-10-25
Also published as: WO2006046546A1; EP1793372A4; ATE537536T1; CN101061533B; EP1793372B1; US20080065373A1; KR20070068424A; BRPI0517513A; JPWO2006046546A1; JP5100124B2; EP1793372A1; US8326606B2

Abstract

能够将延迟量抑制为低延迟，并且能够减轻连接失真的语音编码装置。在该装置中，在长分析单元(21)，由窗口乘法单元(211)对分析长度M1的长分析帧信号乘以分析窗口，并将乘以了该分析窗口的信号输出到MDCT单元(212)，由MDCT单元(212)对所输入的信号进行MDCT而获得长分析帧的变换系数，并输出到变换系数编码单元(30)。另一方面，在短分析单元(22)，窗口乘法单元(221)对分析长度M2(M2＜M1)的短分析帧信号乘以分析窗口，并将乘以了该分析窗口的信号输出到MDCT单元(222)，由MDCT单元(222)对所输入的信号进行MDCT而获得短分析帧的变换系数，并输出到变换系数编码单元(30)。变换系数编码单元(30)对这些变换系数进行编码并输出。

Description

语音编码装置和语音编码方法

技术领域

本发明涉及语音编码装置和语音编码方法。

背景技术

在语音编码中，将时间信号变换到频域并对变换系数进行编码的变换编码，能够有效率地去除时间信号所包含的冗余性。另外，在变换编码，通过利用以频带表示的人的听觉特性，即使为低比特率，也能够实现难以感觉到量化失真的编码。

近年来，在变换编码中，多利用被称为重叠正交变换(LOT；LappedOrthogonal Transform)的变换技术。这种技术是基于除了块内的正交性以外还考虑与相邻块之间的正交性的正交基，进行变换的技术，作为其代表的方法，可以举MDCT(Modified Discrete Cosine Transform)。在MDCT，以当前的分析帧和其前后的分析帧重叠的方式配置分析帧而进行分析。这时，变换后的系数中，只将分析长度的一半的系数作为编码对象即可，因此通过利用MDCT能够有效率地进行编码。并且，在合成时将当前帧与相邻的帧重叠相加，因此有以下特点，即，即使在对每个帧发生不同的量化失真的情况下，也难以发生在帧边界的间断。

一般来说，在利用MDCT进行分析/合成时，将作为窗口函数的分析窗口和合成窗口分别与对象信号相乘。这时所使用的分析窗口/合成窗口与相邻帧重叠的位置的部分倾斜(slope)。该重叠区间的长度(即，斜坡长)与输入帧的缓存所需的延迟相当于因MDCT分析/合成而发生的延迟的长度。在双向通信中，如果该延迟变大，使得来自通信对方终端的响应达到本终端为止要费较长时间，无法形成流畅的会话。因此期望延迟尽量短。

下面，说明现有的MDCT。

在MDCT所使用的分析窗口/合成窗口，在满足式(1)所示的条件时，能够实现完全重构(在没有量化失真的前提下，变换造成的失真为0)。

(式1)

w_in(i)·w_out(i)+w_in(i+N/2)·w_out(i+N/2)＝1

(0≤i＜N)

作为满足式(1)的条件的有代表性的窗口，在非专利文献1提出了式(2)所示的正弦窗口。另外，图1是用图表示该正弦窗口的图。在使用这样的正弦窗口时，因为正弦窗口的谱特性能够充分的衰减旁瓣，所以能够以较高的精度分析频谱。(式2)

w (i) = \sin (\frac{iπ}{N})

(0≤i＜N)

另外，在非专利文献2提出了使用式(3)所示的窗口作为满足式(1)的条件的窗口，来进行MDCT分析/合成的方法。其中，N表示分析窗口的长度，L表示重叠区间的长度。另外，图2是用图表示式(3)所示的窗口的图。在使用这种窗口时，因为重叠区间为L，所以由该窗口产生的延迟表示为L。因此，通过将重叠区间L设定得短，能够抑制延迟的发生。

(式3)

w (i) = \{\begin{matrix} 0 & 0 \leq i < \frac{1}{4} N - \frac{1}{2} L \\ \cos (\frac{π \cdot (i - N / 4 - L / 2)}{2 L}) & \frac{1}{4} N - \frac{1}{2} L \leq i < \frac{1}{4} N + \frac{1}{2} L \\ 1 & \frac{1}{4} N + \frac{1}{2} L \leq i < \frac{3}{4} N - \frac{1}{2} L \\ \cos (\frac{π \cdot (i - 3 N / 4 + L / 2)}{2 L}) & \frac{3}{4} N - \frac{1}{2} L \leq i < \frac{3}{4} N + \frac{1}{2} L \\ 0 & \frac{3}{4} N + \frac{1}{2} L \leq i < N \end{matrix}

(非专利文献1)守谷健弘著，“音声符号化”，(社)电子情报通信学会，1998年10月20日，pp.36-38

(非专利文献2)M.Iwadare，et al.，“A 128 kb/s Hi-Fi Audio CODEC Basedon Adaptive Transform Coding with Adaptive Block Size MDCT，”IEEE Journalon Selected Areas in Communications，Vol.10，No.1，pp.138-144，Jan.1992.

发明内容

本发明需要解决的问题

在使用式(2)所示的正弦窗口时，如图1所示，相邻的分析帧的重叠区间为分析帧的1/2的长度。在本例子中，因为分析帧长为N，所以重叠区间为N/2。因此，在合成端，合成位于N/2～N-1的信号时，除非获得下一个分析帧的信息，否则无法合成信号。也就是说，直到获得位于(3N/2)-1的采样值为止，不能在下一个分析帧进行MDCT分析，获得(3N/2)-1的位置的样本后，才能在下一个分析帧进行MDCT分析，能够使用该分析帧的变换系数来合成N/2～N-1的信号。因此，在使用正弦窗口时，发生N/2长度的延迟。

另一方面，在使用式(3)所示的窗口时，由于重叠区间L较短，容易发生帧间的间断。对当前分析帧和下一个分析帧分别进行MDCT分析并量化其变换系数时，因为分别独立进行量化，在当前分析帧和下分析帧分别发生不同的量化失真。将附加了量化失真的变换系数逆变换到时域的话，对该时间信号在整个合成帧附加量化失真。也就是说，无相关地发生当前的合成帧的量化失真和下一个合成帧的量化失真。因此，在重叠区间较短时，在合成帧间的相邻部分，不能充分的吸收起因于量化失真的解码信号的间断性，而会感觉到帧间的连接失真。使重叠区间越短，这种倾向越显著地发生。

本发明的目的为提供能够将延迟量抑制为低延迟，并且能够减轻连接失真的语音编码装置和语音编码方法。

解决问题的方案

本发明的语音编码装置所采用的结构包括：第一分析单元，对时域的语音信号的一帧按较长的分析长度和较短的分析长度两者进行MDCT分析，从而获得频域的两种变换系数；以及编码单元，对所述两种变换系数进行编码。

发明的有益效果

根据本发明，能够将延迟量抑制为低延迟，并且能够减轻连接失真。

附图说明

图1是表示以往的分析窗口的图。

图2是表示以往的分析窗口的图。

图3是表示本发明实施方式1的语音编码装置和语音解码装置的结构的图。

图4是表示本发明实施方式1的语音编码装置的结构的方框图。

图5是本发明实施方式1的语音编码装置的信号状态转移图。

图6是表示本发明实施方式1的分析窗口的图。

图7是表示本发明实施方式1的语音解码装置的结构的方框图。

图8是本发明实施方式1的语音解码装置的信号状态转移图。

图9是本发明实施方式1的语音编码装置的动作说明图。

图10是表示本发明实施方式1的分析窗口的图。

图11是表示本发明实施方式1的分析窗口的图。

图12是表示本发明实施方式2的分析窗口的图。

图13是表示本发明实施方式2的语音编码装置的结构的方框图。

图14是表示本发明实施方式2的语音解码装置的结构的方框图。

具体实施方式

下面，参照附图详细地说明本发明的实施方式。

(实施方式1)

本发明实施方式1的语音编码装置和语音解码装置的结构为如图3所示。如该图所示，语音编码装置包括：帧构成单元10、分析单元20和变换系数编码单元30。另外，语音解码装置包括：变换系数解码单元50、合成单元60和帧连接单元70。

在语音编码装置中，帧构成单元10对所输入的时域的语音信号进行帧化。分析单元20将所帧化的时域的语音信号通过MDCT分析而变换到频域信号。变换系数编码单元30对由分析单元20获得的变换系数进行编码，并输出编码参数。该编码参数通过传输路径被发送到语音解码装置。

在语音解码装置中，变换系数解码单元50对通过传输路径发送来的编码参数进行解码。合成单元60通过MDCT合成，由解码的变换系数生成时域信号。帧连接单元70连接时域信号以在相邻的帧间不产生间断，并输出解码语音信号。

接着，进一步详细地说明语音编码装置。语音编码装置的更详细的结构为如图4所示，信号的状态迁移为如图5所示。其中，图4所示的信号A～G分别与图5所示的信号A～G对应。

语音信号A被输入到帧构成单元10后，由帧构成单元10决定用于长分析的分析帧区间(长分析帧)和用于短分析的分析帧区间(短分析帧)。然后，帧构成单元10将长分析帧信号B输出到长分析单元21的窗口乘法单元211，并将短分析帧信号C输出到短分析单元22的窗口乘法单元221。另外，长分析帧长(长分析窗口长)和短分析帧长(短分析窗口长)是预先决定的，这里假设长分析帧长为M1，短分析帧长为M2(M1＞M2)的情况进行说明。因此，产生的延迟为M2/2。

在长分析单元21，窗口乘法单元211对分析长度(分析窗口长)M1的长分析帧信号B乘以分析窗口，并将乘以该分析窗口的信号D输出到MDCT单元212。作为分析窗口使用如图6所示的长分析窗口。该长分析窗口是基于式(3)，以分析长度为M1、重叠区间为M2/2的条件而设计的分析窗口。

MDCT单元212根据式(4)对信号D施以MDCT。然后，MDCT单元212将通过该MDCT而获得的变换系数F输出到变换系数编码单元30。另外，在式(4)中，{s1(i)；0≤i＜M1}代表长分析帧所包含的时间信号，{X1(k)；0≤k＜M1/2}代表通过长分析而获得的变换系数F。

(式4)

X 1 (k) = \sqrt{\frac{2}{M 1}} Σ_{i = 0}^{M 1 - 1} s 1 (i) \cos (\frac{2 i + 1 + M 1 / 2 (2 k + 1) π}{2 \cdot M 1})

另一方面，在短分析单元22，窗口乘法单元221对分析长度(分析窗口长)M2的短分析帧信号C乘以分析窗口，并将乘以该分析窗口的信号E输出到MDCT单元222。作为分析窗口使用如图6所示的短分析窗口。该短分析窗口是基于式(2)以分析长度为M2(M2＜M1)的条件而设计的分析窗口。

MDCT单元222根据式(5)对信号E进行MDCT。然后，MDCT单元222将通过该MDCT而获得的变换系数G输出到变换系数编码单元30。另外，在式(5)中，{s2(i)；0≤i＜M2}表示短分析帧所包含的时间信号，{X2(k)；0≤k＜M2/2}表示通过短分析而获得的变换系数G。

(式5)

X 2 (k) = \sqrt{\frac{2}{M 2}} Σ_{i = 0}^{M 2 - 1} s 2 (i) \cos (\frac{(2 i + 1 + M 2 / 2) (2 k + 1) π}{2 \cdot M 2})

变换系数编码单元30对变换系数F:{X1(k)}和变换系数G:{X2(k)}进行编码，将各个编码参数时分复用并输出。这时，变换系数编码单元30对变换系数{X2(k)}，进行与变换系数{X1(k)}的编码相比精度更高的(量化误差更小的)编码。例如，变换系数编码单元30将变换系数{X2(k)}的每个变换系数的编码比特数设定得比变换系数{X1(k)}的每个变换系数的编码比特数高，从而对变换系数{X1(k)}和变换系数{X2(k)}进行编码。也就是说，在变换系数编码单元30，以与变换系数{X1(k)}相比使变换系数{X2(k)}的量化失真较小的方式进行编码。另外，作为在变换系数编码单元30的编码方法，还可采用例如特开2003-323166号公报所记载的编码方法等。

接着，更详细地说明语音解码装置。语音解码装置的更详细的结构为如图7所示，信号的状态迁移为如图8所示。其中，图7所示的信号A～I分别与图8所示的信号A～I对应。

编码参数被输入到变换系数解码单元50后，在编码系数解码单元50对解码变换系数(长分析){X1q(k)；0≤k＜M1/2}:A和解码变换系数(短分析){X2q(k)；0≤k＜M2/2}:B进行解码。然后，变换系数解码单元50将解码变换系数{X1q(k)}:A输出到长合成单元61的IMDCT单元611，并将解码变换系数{X2q(k)}:B输出到短合成单元62的IMDCT单元621。

在长合成单元61，IMDCT单元611对解码变换系数{X1q(k)}进行IMDCT(在MDCT单元212进行的MDCT的逆变换)而生成长合成信号C，并将该长合成信号C输出到窗口乘法单元612。

窗口乘法单元612对长合成信号C乘以合成窗口，并将该乘以合成窗口的信号E输出到帧内连接单元71。就合成窗口来说，与语音编码装置的窗口乘法单元211相同地，使用如图6所示的长分析窗口。

另一方面，在短合成单元62，IMDCT单元621对解码变换系数{X2q(k)}进行IMDCT(在MDCT单元222进行的MDCT的逆变换)来生成短合成信号D，并将该短合成信号D输出到窗口乘法单元622。

窗口乘法单元622对短合成信号D乘以合成窗口，并将该乘以合成窗口的信号F输出到帧内连接单元71。就合成窗口来说，与语音编码装置的窗口乘法单元211相同地，使用如图6所示的短分析窗口。

然后，在帧内连接单元71生成第n帧的解码信号G，接着由帧间连接单元73，将第n帧的解码信号G和第n-1帧的解码信号H的对应的区间重叠相加，从而生成解码语音信号。也就是说，在帧内连接单元71，将信号E和信号F的对应的区间重叠相加而生成第n帧的解码信号{sq(i)；0≤i＜M1}:G。并且，在帧间连接单元73，将第n帧的解码信号G和缓存器72所缓存的第n-1帧的解码信号H的对应的区间重叠相加，从而生成解码语音信号I。然后，将第n帧的解码信号G存储于缓存器72，以便用于下一帧(第n+1帧)的处理。

接着，图9表示语音信号的各个帧与分析单元20中的分析位置之间的对应关系。如图9所示，在本实施方式中，一帧区间(生成编码参数的单位)的语音信号的分析，对任何一帧都必需通过长分析和短分析的组合来进行。

这样，在本实施方式，因为以较长的分析长度(长分析)和较短的分析长度(短分析)的组合方式进行MDCT分析，并且，以使通过短分析而获得的变换系数的量化误差较小的方式进行编码处理，所以能够在延迟较短的状态下取较长的分析长度以便高效率地去除冗余性，同时能够使短分析的变换系数的量化失真小。由此，能够将延迟量抑制为M2/2的低延迟，并且能够减轻连接失真。

另外，有关在一帧区间中的长分析窗口和短分析窗口的配置，在图6中，从时间上来说，在长分析窗口的后面配置短分析窗口，但是也可例如图10所示，从时间上来说，在短分析窗口的后面配置长分析窗口。即使进行如图10所示的配置，与如图6所示的配置一样，也能够将延迟量抑制为低延迟，并且能够减轻连接失真。

并且，在本实施方式，基于式(2)来设计短分析窗口，但只要短分析窗口的分析长度M2和长分析窗口的分析长度M1的关系为M2＜M1，也可使用式(3)所示的窗口作为短分析窗口。即，也可将基于式(3)以分析长度为M2的条件来设计的窗口作为短分析窗口使用。图11表示其一例。在这样的分析窗口的结构中，也能够将延迟量抑制为低延迟，并且能够减轻连接失真。

(实施方式2)

在输入到语音编码装置的语音信号是起头部或特性急剧变化的迁移部时，与频率分辨率相比，更需要时间分辨率。对于这样的语音信号，在使用短分析帧分析所有的分析帧时，能够进一步提高语音质量。

因此，在本实施方式，将对各个帧进行的MDCT分析根据输入语音信号的特性切换为(1)由长分析和短分析的组合来进行的模式(长短混合分析模式)和(2)多次重复进行短分析的模式(全短分析模式)。图12表示在全短分析模式时，对各个帧使用的分析/合成窗口的例子。另外，长短混合分析模式的说明为如在实施方式1所述。

图13表示本发明实施方式2的语音编码装置的结构。如本图所示，本实施方式的语音编码装置除了实施方式1的结构(图4)以外，还包括：判定单元15、复用单元35、SW(开关)11和SW12。在图13中，对与图4相同的结构赋予相同的标号，并省略其说明。另外，实际上，如图4所示并行地进行从帧构成单元10到分析单元20的输出和从分析20到变换系数编码单元30的输出，但这里为了图示上的方便，用一条信号线表示。

判定单元15对输入语音信号进行分析而判定信号的特性。在特性判定中，监视语音信号的特征量的时间上的变化，在其变化量低于规定量时，判定为稳定部分，在规定量以上时，判定为非稳定部分。作为语音信号的特征量，例如可以举短区间功率、短区间频谱等。

然后，判定单元15根据判定结果，将MDCT分析的分析模式切换为长短混合分析模式或全部短分析模式。也就是说，判定单元15，在所输入的语音信号为稳定部分时，将SW11和SW12接到分析单元20端，并使用分析单元20以长短混合分析模式进行MDCT分析。另一方面，所输入的语音信号为非稳定部分时，将SW11和SW12接到全部短分析单元25端，使用全短分析单元25以全部短分析模式进行MDCT分析。通过该切换，对于语音信号的帧，在它是稳定部分时如实施方式1所示地由长分析和短分析的组合进行分析，在它是非稳定部分时多次重复进行短分析。

由判定单元15选择全部短分析模式时，全部短分析单元25使用式(2)所示的分析窗口，其中假设分析窗口长为M2，通过式(5)所示的MDCT进行分析。

另外，在判定单元15，对表示是稳定部分还是非稳定部分的判定信息进行编码，并输出到复用单元35。由复用单元35将该判定信息与从变换系数编码单元30输出的编码参数复用并输出。

另一方面，图14表示本发明实施方式2的语音解码装置的结构。如本图所示，本实施方式的语音解码装置除了实施方式1的结构(图7)以外，还包括：分离单元45、判定信息解码单元55、全部短合成单元65、SW21和SW22。在图14中，对与图7相同的结构赋予相同的标号，并省略其说明。另外，实际上，如图7所示并行地进行从变换系数解码单元50到合成单元60的输出和从合成单元60到帧内连接单元71的输出，但这里为了图示上的方便，用一条信号线表示。

分离单元45将输入的编码参数分离为表示判定信息的编码参数和表示变换系数的编码参数，分别输出到判定信息解码单元55和变换系数解码单元50。

判定信息解码单元55对所输入的判定信息进行解码。然后，判定信息解码单元55，在判定信息表示稳定部分时，将SW21和SW22连接到合成单元60端上，并使用合成单元60来生成合成信号。另外，关于使用合成单元60的合成信号的生成，如实施方式1所述。另一方面，判定信息表示非稳定部分时，将SW21和SW22连接到全部短合成单元65端上，并使用全部短合成单元65来生成合成信号。全部短合成单元65对一帧中的多个解码变换系数(短分析)的每一个进行IMDCT处理，从而生成合成信号。

这样，在本实施方式，在一帧中，在输入语音信号为稳定部分而稳定时，对该帧的语音信号以长分析和短分析的组合进行分析，而在输入语音信号为非稳定部分时(在输入语音信号急剧变化时)，对该帧的语音信号都以短分析进行分析以便提高时间分辨率，因此，能够根据输入语音信号的特性能够进行最适合的MDCT分析，即使在输入语音信号的特性变化时，也能够良好地保持语音质量。

另外，在本实施方式，使长短混合分析模式的重叠区间与全短分析模式的重叠区间为同一区间。因此，不需使用例如ISO/IEC IS 13818-7 Informationtechnology--Generic coding of moving pictures and associated audio information--Part 7：Advanced Audio Coding(AAC)所记载的LONG_START_WINDOW或LONG_STOP_WINDOW等转移用的分析帧。

另外，作为判定是长短混合分析模式还是全部短分析模式的另外一个方法，可以列举下述方法，即，根据位于与下一帧的连接部的信号的、相对于原本信号的SNR的大小来判定的方法。通过使用该判定方法，能够根据连接部的SNR决定下一帧的分析模式，因此能够降低分析模式的误判定。

另外，上述各个实施方式可适用于层数为二以上的分层编码的扩展层。

另外，上述各个实施方式的语音编码装置、语音解码装置可装载于在移动通信系统中所使用的无线通信移动装置和无线通信基站装置等无线通信装置。

另外，在上述实施方式中，举例说明由硬件构成本发明的情况，但本发明还可由软件实现。

另外，用于上述实施方式的说明中的各功能块通常被作为集成电路的LSI来实现。这些块既可以被单独地集成为一个芯片，也可以是一部分或全部被集成为一个芯片。虽然此处称为LSI，但根据集成程度，可以被称为IC、系统LSI、超级LSI(Super LSI)、或特大LSI(Ultra LSI)。

另外，实现集成电路化的方法不仅限于LSI，也可使用专用电路或通用处理器来实现。也可以使用在LSI制造后，可编程的FPGA(Field ProgrammableGate Array)，或者可重构LSI内部的电路单元的连接和设定的可重构处理器。

再者，随着半导体的技术进步或随之派生的其它技术的出现，如果能够出现替代LSI集成电路化的新技术，当然可利用新技术进行功能块的集成化。还存在着适用生物技术等的可能性。

本说明书是根据2004年10月26日申请的日本专利申请第2004-311143号。其内容全部包含于此。

工业实用性

本发明可适用于移动通信系统和采用互联网协议的分组通信系统等的通信装置。

Claims

1.一种语音编码装置，包括：

第一分析单元，对时域的语音信号的一帧按较长的分析长度和较短的分析长度两者进行MDCT分析，从而获得频域的两种变换系数；以及

编码单元，对上述两种变换系数进行编码。

2.如权利要求1所述的语音编码装置，其中，

所述编码单元，对第二变换系数进行与对第一变换系数的编码相比精度更高的编码，该第一变换系数由所述较长的分析长度获得，该第二变换系数由所述较短的分析长度获得。

3.如权利要求1所述的语音编码装置，其中，还包括：

判定单元，判定所述语音信号是稳定部分还是非稳定部分；以及

第二分析单元，在所述语音信号是非稳定部分时，对所述一帧按所述较短的分析长度多次重复进行MDCT分析。

4.一种无线通信移动台装置，包括如权利要求1所述的语音编码装置。

5.一种无线通信基站装置，包括如权利要求1所述的语音编码装置。

6.一种语音编码方法，包括：

分析步骤，对时域的语音信号的一帧按较长的分析长度和较短的分析长度两者进行MDCT分析，从而获得频域的两种变换系数；以及

编码步骤，对所述两种变换系数进行编码。