CN101107650B

CN101107650B - 语音切换装置及语音切换方法

Info

Publication number: CN101107650B
Application number: CN200680002420.7A
Authority: CN
Inventors: 河嶋拓也; 江原宏幸
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: III Holdings 12 LLC
Priority date: 2005-01-14
Filing date: 2006-01-12
Publication date: 2012-03-28
Anticipated expiration: 2026-01-12
Also published as: CN102592604A; WO2006075663A1; CN101107650A; US20100036656A1; DE602006009215D1; US8010353B2; EP1814106B1; EP2107557A3; EP2107557A2; JP5046654B2; EP1814106A4; JPWO2006075663A1; EP1814106A1

Abstract

公开了能够提高解码信号的音质的语音切换装置。在该装置中，加权加法单元(114)在切换所输出的语音信号的频带时，输出混合了窄带语音信号和宽带语音信号的混合信号。由扩展层解码语音放大器(122)和加法器(124)构成的混合单元，使窄带语音信号和宽带语音信号的混合比时间性地变化，同时将窄带语音信号和宽带语音信号混合，从而得到混合信号。扩展层解码语音增益控制器(120)可变地设定混合比的时间性变化的程度。

Description

语音切换装置及语音切换方法

技术领域

本发明涉及切换语音信号的频带的语音切换装置及语音切换方法。

背景技术

一般来说，在被称为可扩展性语音编码、分层地对语音信号进行编码的技术中，即使丢失了某一层(layer)的编码数据，也能够从其它层的编码数据而将语音信号解码。在可扩展性编码中，有被称为频带可扩展性语音编码的编码方法。频带可扩展性语音编码，使用对窄带信号进行编码、解码的处理层，和使窄带信号高质量化、宽带化而进行编码、解码的处理层。以下，将前者的处理层称为核心层，后者的处理层称为扩展层。

将频带可扩展性语音编码适用于，例如不保证传送频带、且编码数据会部分消失或延迟的通信网络上的语音数据通信的情况下，接收端有时能够接收核心层及扩展层双方的编码数据(核心层编码数据及扩展层编码数据)，也有时只能够接收核心层编码数据。因此，设置在接收端的语音解码装置，需要对输出的解码语音信号，在仅由核心层编码数据得到的窄带的解码语音信号和由核心层及扩展层双方的编码数据得到的宽带的解码语音信号之间进行切换。

作为平稳地切换窄带解码语音信号和宽带解码语音信号，以防止语音大小的不连续性和频带扩散感(频带感)的不连续性的方法，有例如专利文献1记载的方法。该文献记载的语音切换装置，使两信号(即窄带解码语音信号和宽带解码语音信号)的采样频率、延迟及相位一致后，对两信号进行加权加法。在加权加法中，让两信号的混合比以一定的程度(增加量或减少量)时间性地变化，同时将两信号相加，接着，输出的信号，在从窄带解码语音信号切换到宽带解码语音信号时，或者从宽带解码语音信号切换到窄带解码语音信号时，在窄带解码语音信号的输出和宽带解码语音信号的输出之间，进行加权加法信号的输出。

专利文献1：日本专利公开公报2000-352999号

发明内容

发明需要解决的问题

然而，在上述以往的语音切换装置中，由于两信号的加权加法中所使用的混合比的变化程度是恒定的，因此解码信号的收听者会因为接收状况而产生不协调感或波动感。例如，如果在表示稳定性背景噪音的信号包含于语音信号的区间内频繁地发生语音切换的话，则伴随切换而产生的功率或频带感的变化容易被收听者觉察出来。因此，对提高音质有一定的限度。

所以本发明的目的是，提供能够提高解码语音的音质的语音切换装置及语音切换方法。

解决问题的方案

本发明的语音切换装置，在切换所输出的语音信号的频带时，输出混合了窄带语音信号和宽带语音信号的混合信号，该语音切换装置包括：核心层帧差错检测单元，检测核心层编码数据是否能被解码；扩展层帧差错检测单元，检测扩展层编码数据是否能被解码；核心层解码单元，对所述核心层编码数据进行解码，生成所述窄带语音信号；扩展层解码单元，对所述扩展层编码数据进行解码，生成所述宽带语音信号；容许区间检测单元，对由所述核心层帧差错检测单元得到的核心层帧差错检测结果、由所述核心层解码单元得到的核心层线谱对、经信号调整的所述窄带语音信号、及由所述扩展层解码单元得到的所述宽带语音信号进行分析，并基于分析结果检测容许区间；混合单元，使所述窄带语音信号和所述宽带语音信号的混合比时间性地变化，同时将所述窄带语音信号和所述宽带语音信号混合，从而得到所述混合信号；以及设定单元，基于由所述扩展层帧差错检测单元得到的扩展层帧差错检测结果和由所述容许区间检测单元检测出的容许区间检测结果，可变地设定所述混合比的时间性变化的程度。

本发明的语音切换方法，在切换所输出的语音信号的频带时，输出混合了窄带语音信号和宽带语音信号的混合信号，该语音切换方法包括：核心层帧差错检测步骤，检测核心层编码数据是否能被解码；扩展层帧差错检测步骤，检测扩展层编码数据是否能被解码；核心层解码步骤，对所述核心层编码数据进行解码，生成所述窄带语音信号；扩展层解码步骤，对所述扩展层编码数据进行解码，生成所述宽带语音信号；容许区间检测步骤，对在所述核心层帧差错检测步骤中得到的核心层帧差错检测结果、在所述核心层解码步骤中得到的核心层线谱对、经信号调整的所述窄带语音信号、及在所述扩展层解码步骤中得到的所述宽带语音信号进行分析，并基于分析结果检测容许区间；变更步骤，变更所述窄带语音信号和所述宽带语音信号的混合比的时间性变化的程度；混合步骤，以变更后的程度使所述混合比时间性地变化，同时将所述窄带语音信号和所述宽带语音信号混合，得到所述混合信号；以及设定步骤，基于在所述扩展层帧差错检测步骤中得到的扩展层帧差错检测结果和在所述容许区间检测步骤中检测出的容许区间检测结果，可变地设定所述混合比的时间性变化的程度。

发明的有益效果

根据本发明，能够对窄带解码语音和宽带解码语音信号进行平稳地切换，因而能够提高解码语音的音质。

附图说明

图1是表示本发明的一实施方式的语音解码装置的结构的方框图

图2是表示本发明的一实施方式的加权加法单元的结构的方框图

图3是用于说明本发明的一实施方式的扩展层增益的时间性变化的示例的图

图4是用于说明本发明的一实施方式的扩展层增益的时间性变化的其它示例的图

图5是表示本发明的一实施方式的容许区间检测单元的内部结构的方框图

图6是表示本发明的一实施方式的无声区间检测单元的内部结构的方框图

图7是表示本发明的一实施方式的功率波动区间检测单元的内部结构的方框图

图8是表示本发明的一实施方式的音质变化区间检测单元的内部结构的方框图

图9是表示本发明的一实施方式的扩展层功率微小区间检测单元的内部结构的方框图

具体实施方式

以下，针对本发明的实施方式，参照附图进行详细说明。

图1是表示具有本发明的一实施方式的语音切换装置的语音解码装置的结构的方框图。图1的语音解码装置100包括：核心层解码单元102、核心层帧差错检测单元104、扩展层帧差错检测单元106、扩展层解码单元108、容许区间检测单元110、信号调整单元112、以及加权加法单元114。

核心层帧差错检测单元104检测核心层编码数据是否能解码。具体来说，核心层帧差错检测单元104对核心层帧差错进行检测。接着，在检测出核心层帧差错时，判断为核心层编码数据不能解码。核心层帧差错检测的结果被输出到核心层解码单元102及容许区间检测单元110。

这里，核心层帧差错是指，由核心层编码数据的帧在发送途中受到的差错，或分组通信中的分组丢失(例如，通信路径上的分组丢弃、抖动(jitter)引起的分组未到达等)等理由引起的核心层编码数据的大部分或全部无法用于解码的状态。

核心层帧差错的检测，例如通过核心层帧差错检测单元104实施以下的处理而得以实现。例如，核心层帧差错检测单元104除核心层编码数据以外，另外地接收差错信息。或者，核心层帧差错检测单元104使用在核心层编码数据上附加的CRC(Cyclic Redundancy Check)等差错检测码来进行差错检测。或者，核心层帧差错检测单元104判断出在解码时间之前核心层编码数据未达到。或者，检测分组丢失或未达到。或者，在核心层解码单元102的核心层编码数据的解码过程中，通过在核心层编码数据中所包含的差错检测码等检测出重大的差错时，核心层帧差错检测单元104从核心层解码单元102获取该现象的信息。

核心层解码单元102接收核心层编码数据，并将该核心层编码数据解码。通过该解码而生成的核心层解码语音信号被输出到信号调整单元112。核心层解码语音信号为窄带的信号。另外，该核心层解码语音信号，也可以直接作为最终输出来使用。另外，核心层解码单元102将核心层编码数据的一部分或核心层LSP(Line Spectrum Pair)输出到容许区间检测单元110。核心层LSP为在核心层解码过程中所得到的频谱参数。这里，以核心层解码单元102向容许区间检测单元110输出核心层LSP的情况为例进行说明，不过也可以输出在核心层解码的过程中得到的其它频谱参数，甚至可以输出在核心层解码过程中所得到的非频谱参数的其它参数。

核心层解码单元102，在由核心层帧差错检测单元104通知了核心层帧差错时，或在核心层编码数据的解码过程中，由核心层编码数据内含有的差错检测码等判断出存在重大差错时，使用过去的编码信息等进行线性预测系数及音源的插值等。这样，持续地生成并输出核心层解码语音信号。另外，在核心层编码数据的解码过程中，若由核心层编码数据内含有的差错检测码等判断出存在重大差错时，核心层解码单元102将该事宜的信息通知给核心层帧差错检测单元104。

扩展层帧差错检测单元106检测扩展层编码数据是否能解码。具体来说，扩展层帧差错检测单元106检测扩展层帧差错。接着，检测出扩展层帧差错时，判断扩展层编码数据不能解码。扩展层帧差错检测结果被输出到扩展层解码单元108及加权加法单元114。

这里，扩展层帧差错是指由扩展层编码数据的帧在发送途中受到的差错，或在分组通信过程中分组丢失等理由引起的扩展层编码数据的大部分或全部无法用于解码的状态。

扩展层帧差错的检测，例如通过扩展层帧差错检测单元106实施以下的处理而得以实现。例如，扩展层帧差错检测单元106除扩展层编码数据以外另外地接收差错信息。或者，扩展层帧差错检测单元106使用在扩展层编码数据上附加的CRC等差错检测码来进行差错检测。或者，扩展层帧差错检测单元106，判断出在解码时间之前扩展层编码数据未达到。或者，扩展层帧差错检测单元106检测分组丢失或未达到。或者，在扩展层解码单元108的扩展层编码数据的解码过程中，通过在扩展层编码数据中所包含的差错检测码等检测出重大的差错时，扩展层帧差错检测单元106从扩展层解码单元108获取该事宜的信息。或者，在扩展层的解码中采用不可缺少核心层信息的可扩展性语音编码方式的情况下，检测出核心层帧差错时，扩展层帧差错检测单元106就判断为检测出扩展层帧差错。这种情况下，扩展层帧差错检测单元106从核心层帧差错检测单元104接收核心层帧差错检测结果的输入。

扩展层解码单元108接收扩展层编码数据，并将该扩展层编码数据解码。通过该解码而生成的扩展层解码语音信号被输出到容许区间检测单元110及加权加法单元114。扩展层解码语音信号为宽带的信号。

扩展层解码单元108，在由扩展层帧差错检测单元106通知了扩展层帧差错时，或在扩展层编码数据的解码过程中，由扩展层编码数据内含有的差错检测码判断出存在重大差错时，使用过去的编码信息等进行线性预测系数及音源的插值等。由此，根据需要，生成并输出扩展层解码语音信号。另外，在扩展层编码数据的解码过程中，若通过扩展层编码数据内含有的差错检测码等判断出存在重大差错时，扩展层解码单元108将该事宜的信息通知给扩展层帧差错检测单元106。

信号调整单元112调整从核心层解码单元102输入的核心层解码语音信号。具体来说，信号调整单元112对核心层解码语音信号进行上采样，与扩展层解码语音信号的采样频率匹配。另外，为使延迟及相位与扩展层解码语音信号匹配，信号调整单元112对核心层解码语音信号的延迟及相位进行调整。实施了这些处理的核心层解码语音信号被输出到容许区间检测单元110及加权加法单元114。

容许区间检测单元110，对从核心层帧差错检测单元104输入的核心层帧差错检测结果、从信号调整单元112输入的核心层解码语音信号、从核心层解码单元102输入的核心层LSP、以及从扩展层解码单元108输入的扩展层解码语音信号进行分析，并基于分析结果检测容许区间。容许区间检测结果输出到加权加法单元114。由此，能够将核心层解码语音信号及扩展层解码语音信号的混合比时间性地变化的程度设定得较高的期间，仅限定在容许区间内，能够对变更混合比时间性变化的程度的定时进行控制。

这里，容许区间是指即使输出语音信号的频带发生变化也对听觉上的影响较小的区间，即输出语音信号的频带变化难以被收听者觉察到的区间。相反的，生成核心层解码语音信号及扩展层解码语音信号的期间中，容许区间以外的区间就为输出语音信号的频带变化容易被收听者觉察到的区间。因此，容许区间为容许输出信号的频带骤变的区间。

容许区间检测单元110将无声区间、功率波动区间、音质变化区间、扩展层功率微小区间等作为容许区间来检测，并将检测结果输出到加权加法单元114。对容许区间检测单元110的内部结构及容许区间的检测处理的详细内容将在后面叙述。

作为语音切换装置的加权加法单元114，切换输出语音信号的频带。另外，加权加法单元114，在切换输出语音信号的频带时，将混合了核心层解码语音信号及扩展层解码语音信号的混合信号作为输出语音信号输出。混合信号，通过对从信号调整单元112输入的核心层解码语音信号及从扩展层解码单元108输入的扩展层解码语音信号进行加权加法而生成。也就是说，混合信号为核心层解码语音信号及扩展层解码语音信号的加权和。对于加权加法运算的详细内容将在后面叙述。

图5是表示容许区间检测单元110的内部结构的方框图。容许区间检测单元110包括：核心层解码语音信号功率计算单元501、无声区间检测单元502、功率波动区间检测单元503、音质变化区间检测单元504、扩展层功率微小区间检测单元505、以及容许区间判断单元506。

核心层解码语音信号功率计算单元501，从核心层解码单元102输入核心层解码语音信号，通过下式(1)计算核心层解码语音信号功率Pc(t)。

Pc (t) = Σ_{i = 1}^{L_FRAME} Oc (i) * Oc (i) . . . (1)

其中，t为帧编号，Pc(t)表示帧t中的核心层解码语音信号的功率，L_FRAME表示帧长，i表示样本编号，Oc(i)表示核心层解码语音信号。

核心层解码语音信号功率计算单元501，将计算得到的核心层解码语音信号功率Pc(t)输出到无声区间检测单元502、功率波动区间检测单元503以及扩展层功率微小区间检测单元505。无声区间检测单元502使用从核心层解码语音信号功率计算单元501输入的核心层解码语音信号功率Pc(t)，检测无声区间，并将得到的无声区间检测结果输出到容许区间判断单元506。功率波动区间检测单元503使用从核心层解码语音信号功率计算单元501输入的核心层解码语音信号功率Pc(t)，检测功率波动区间，并将得到的功率波动区间检测结果输出到容许区间判断单元506。音质变化区间检测单元504使用从核心层帧差错检测单元104输入的核心层帧差错检测结果及从核心层解码单元102输入的核心层LSP，检测音质变化区间，并将得到的音质变化区间检测结果输出到容许区间判断单元506。扩展层功率微小区间检测单元505使用从扩展层解码单元108输入的扩展层解码语音信号，检测扩展层功率微小区间，并将得到的扩展层功率微小区间检测结果输出到容许区间判断单元506。容许区间判断单元506根据无声区间检测单元502、功率波动区间检测单元503、音质变化区间检测单元504、扩展层功率微小区间检测单元505的检测结果，判断是否检测出了无声区间、功率波动区间、音质变化区间、或扩展层功率微小区间。也就是说，判断是否检测出了容许区间，并作为判断结果而输出容许区间检测结果。

图6是表示无声区间检测单元502的内部结构的方框图。

无声区间是指核心层解码语音信号的功率非常小的区间。在无声区间中，即使让扩展层解码语音信号的增益(换言之，核心层解码语音信号及扩展层解码语音信号的混合比)急速地变化，也难以觉察到该变化。通过检测出核心层解码语音信号的功率为规定阈值以下，无声区间被检测。进行这种检测的无声区间检测单元502包括：无声判断阈值存储单元521及无声区间判断单元522。

无声判断阈值存储单元521，存储了无声区间的判断所需的阈值ε，并将阈值ε输出到无声区间判断单元522。无声区间判断单元522，将从核心层解码语音信号功率计算单元501输入的核心层解码语音信号功率Pc(t)与阈值ε进行比较，并通过下面的式(2)得出无声区间判断结果d(t)。由于容许区间含有无声区间，因而这里与容许区间检测结果相同地，用d(t)来表示无声区间判断结果。无声区间判断单元522将无声区间判断结果d(t)输出到容许区间判断单元506。

图7是表示功率波动区间检测单元503的内部结构的方框图。

功率波动区间是指核心层解码语音信号(或者扩展层解码语音信号)的功率大幅度波动的区间。功率波动区间中，小幅度的变化(例如，输出语音信号的音色的变化或频带感的变化)在听觉上难以被觉察出来，或者，即使被收听者觉察出来也不会产生不协调的感觉。因此，即使让扩展层解码语音信号的增益(换言之，核心层解码语音信号及扩展层解码语音信号的混合比)急遽地变化，也难以觉察出该变化。通过检测作为核心层解码语音信号(或者扩展层解码语音信号)的短期平滑化功率与长期平滑化功率之间的差或者与规定的阈值比较的结果的差或者比在阈值以上，功率波动区间被检测。进行这种检测的功率波动区间检测单元503包括：短期平滑化系数存储单元531、短期平滑化功率计算单元532、长期平滑化系数存储单元533、长期平滑化功率计算单元534、判断调整系数存储单元535、以及功率波动区间判断单元536。

短期平滑化系数存储单元531存储了短期平滑化系数α，并将短期平滑化系数α输出到短期平滑化功率计算单元532。短期平滑化功率计算单元532使用该短期平滑化系数α和从核心层解码语音信号功率计算单元501输入的核心层解码语音信号功率Pc(t)，通过下面的式(3)计算核心层解码语音信号功率Pc(t)的短期平滑化功率Ps(t)。短期平滑化功率计算单元532将计算出的核心层解码语音信号功率Pc(t)的短期平滑化功率PS(t)输出到功率波动区间判断单元536。

Ps(t)＝α*Ps(t)+(1-α)*Pc(t) ...(3)

长期平滑化系数存储单元533存储了长期平滑化系数β，并将长期平滑化系数β输出到长期平滑化功率计算单元534。长期平滑化功率计算单元534，使用该长期平滑化系数β和从核心层解码语音信号功率计算单元501输入的核心层解码语音信号功率Pc(t)，通过下面的式(4)计算核心层解码语音信号功率Pc(t)的长期平滑化功率Pl(t)。长期平滑化功率计算单元534将计算出的核心层解码语音信号功率Pc(t)的长期平滑化功率Pl(t)输出到功率波动区间判断单元536。上述的短期平滑化系数α和长期平滑化系数β之间的关系为0.0＜α＜β＜1.0。

Pl(t)＝β*Pl(t) +(1-β)*Pc(t) ...(4)

其中，短期平滑化系数α和长期平滑化系数β的关系为0.0＜α＜β＜1.0。

判断调整系数存储单元535存储了用于判断功率波动区间的调整系数γ，并将调整系数γ输出到功率波动区间判断单元536。功率波动区间判断单元536使用该调整系数γ、从短期平滑化功率计算单元532输入的Ps(t)及从长期平滑化功率计算单元534输入的长期平滑化功率Pl(t)，通过下面的式(5)得出功率波动区间判断结果d(t)。由于容许区间含有功率波动区间，因而这里与容许区间检测结果相同地，用d(t)来表示功率波动区间判断结果。功率波动区间判断单元536，将功率波动区间判断结果d(t)输出到容许区间判断单元506。

另外，这里，通过将短期平滑化功率与长期平滑化功率进行比较来检测功率波动区间，也可以通过判断功率的变化量在规定阈值以上来作为比较前后的帧(或者子帧)等的功率的结果，检测功率波动区间。或者，也可以通过判断核心层解码语音信号(或者扩展层解码语音信号)的上升时刻来检测功率波动区间。

图8是表示音质变化区间检测单元504的内部结构的方框图。

音质变化区间是指核心层解码语音信号(或者扩展层解码语音信号)的音质大幅度波动的区间。音质变化区间中，核心层解码语音信号(或者扩展层解码语音信号)本身，已为失去听觉上时间性连续性的状态。这种情况下，即使让扩展层解码语音信号的增益(换言之，核心层解码语音信号及扩展层解码语音信号的混合比)急速地变化，也难以觉察出该变化。通过检测核心层解码语音信号(或者扩展层解码语音信号)中含有的背景噪音信号的种类的骤变，音质变化区间被检测。或者，通过检测出核心层编码数据的频谱参数(例如，LSP)的变化，音质变化区间被检测。例如，为检测LSP的变化，作为将过去的LSP的各要素和当前的LSP的各要素之间的距离的合计与规定的阈值进行比较的结果，检测该距离的合计在阈值以上。进行这种检测的音质变化区间检测单元504包括：LSP要素间距离计算单元541、LSP要素间距离积蓄单元542、LSP要素间距离变化率计算543、音质变化判断阈值存储单元544、核心层差错复原检测单元545、及音质变化区间判断单元546。

LSP要素间距离计算单元541使用从核心层解码单元102输入的核心层LSP，通过下面的式(6)计算LSP要素间距离dlsp(t)。

dlsp (t) = Σ_{m = 2}^{M} {(lsp [m] - lsp [m - 1])}^{2} . . . (6)

LSP要素间距离dlsp(t)被输出到LSP要素间距离积蓄单元542及LSP要素间距离变化率计算单元543。

LSP要素间距离积蓄单元542积蓄从LSP要素间距离计算单元541输入的LSP要素间距离dlsp(t)，并将过去(前1帧)的LSP要素间距离dlsp(t-1)输出到LSP要素间距离变化率计算单元543。LSP要素间距离变化率计算单元543，通过让LSP要素间距离dlsp(t)除以过去的LSP要素间距离dlsp(t-1)，来计算LSP要素间距离变化率。计算出的LSP要素间距离变化率被输出到音质变化区间判断单元546。

音质变化判断阈值存储单元544存储了音质变化区间的判断所需的阈值A，并将阈值A输出到音质变化区间判断单元546。音质变化区间判断单元546使用该阈值A和从LSP要素间距离变化率计算单元543输入的LSP要素间距离变化率，通过下面的式(7)得到音质变化区间判断结果d(t)。

其中，lsp表示核心层的LSP系数，M表示核心层的线性预测系数的分析阶数，m表示LSP的要素编号，dlsp表示相邻要素间的距离。

另外，由于容许区间含有功率波动区间，因而这里与容许区间相同地，用d(t)来表示音质变化区间判断结果。音质变化区间判断单元546将音质变化区间判断结果d(t)输出到容许区间判断单元506。

核心层差错复原检测单元545根据从核心层帧差错检测单元102输入的核心层帧差错检测结果，若检测出已从帧差错复原(正常接收)，则将该事宜通知给音质变化区间判断单元546，音质变化区间判断单元546将复原后的规定数的帧判断为音质变化区间。也就是说，将因为核心层帧差错而对核心层解码语音信号进行过插值处理后的规定数的帧，作为音质变化区间来判断。

图9是表示扩展层功率微小区间检测单元505的内部结构的方框图。

扩展层功率微小区间是指扩展层解码语音信号的功率非常小的区间。在扩展层功率微小区间中，即使让输出语音信号的频带急速地变化，也难以觉察到该变化。因此，即使让扩展层解码语音信号的增益(换言之，核心层解码语音信号及扩展层解码语音信号的混合比)急速地变化，也难以觉察到该变化。通过检测出扩展层解码语音信号的功率为规定阈值以下，扩展层功率微小区间被检测。或者，通过检测扩展层解码语音信号的功率相对核心层解码语音信号的功率的比在规定值以下，扩展层功率微小区间被检测。进行这种检测的扩展层功率微小区间检测单元505包括：扩展层解码语音信号功率计算单元551、扩展层功率比计算单元552、扩展层功率微小判断阈值存储单元553、及扩展层功率微小区间判断单元554。

扩展层解码语音信号功率计算单元551使用从扩展层解码单元108输入的扩展层解码信号，通过下面的式(8)计算扩展层解码语音信号功率Pe(t)。

Pe (t) = Σ_{i = 1}^{L_FRAME} Oe (i) * Oe (i) . . . (8)

其中，Oe(i)表示扩展层解码语音信号，Pe(t)表示扩展层解码语音信号功率。扩展层解码语音信号功率Pe(t)被输出到扩展层功率比计算单元552及扩展层功率微小区间判断单元554。

扩展层功率比计算单元552通过让该扩展层解码语音信号功率Pe(t)除以从核心层解码语音信号计算单元501输入的核心层解码信号功率Pc(t)，计算扩展层功率比。扩展层功率比被输出到扩展层功率微小区间判断单元554。

扩展层功率微小判断阈值存储单元553存储了扩展层功率微小区间的判断所需的阈值B与C，并将阈值B与C输出到扩展层功率微小区间判断单元554。扩展层功率微小区间判断单元554使用从扩展层解码语音信号功率计算单元551输入的扩展层解码语音信号功率Pe(t)、从扩展层功率比计算单元552输入的扩展层功率比、从扩展层功率微小判断阈值存储单元553输入的阈值B与C，通过下面的式(9)得到扩展层功率微小区间判断结果d(t)。由于容许区间含有扩展层功率微小区间，因而这里与容许区间检测结果相同地，用d(t)来表示扩展层功率微小区间判断结果。扩展层功率微小区间判断单元554将扩展层功率微小区间判断结果d(t)输出到容许区间判断单元506。

容许区间检测单元110用上述的方法来检测出容许区间的话，则接下来，加权加法单元114使混合比只在语音信号的频带变化难以觉察的区间比较急剧地变化，同时使混合比在语音信号的频带变化容易觉察的区间较缓慢地变化。因此，能够减小收听者对语音信号产生不协调感或波动感的可能性。

接下来，对加权加法单元114的内部结构及其动作用图2来说明。图2是表示加权加法单元114的内部结构的方框图，加权加法单元114包括：扩展层解码语音增益控制器120、扩展层解码语音放大器122及加法器124。

作为设定部件的扩展层解码语音增益控制器120，根据扩展层帧差错检测结果及容许区间检测结果，控制扩展层解码语音信号的增益(以下称为“扩展层增益”)。在扩展层解码语音信号的增益控制中，扩展层解码语音信号的增益的时间性变化的程度被可变地设定。这样，核心层解码语音信号及扩展层解码语音信号混合时的混合比就被可变地设定。

另外，在扩展层解码语音增益控制器120中，不进行对核心层解码语音信号的增益(以下称为“核心层增益”)的控制，而是与扩展层解码语音信号混合时的核心层解码语音信号的增益被固定为恒定的值。因此，与可变地设定两信号的增益的情况相比，能够容易地对混合比可变地设定。不过，除对扩展层增益以外，也可以对核心层增益进行控制。

扩展层解码语音放大器122将经过扩展层解码语音增益控制器120控制的增益，与从扩展层解码单元108输入的扩展层解码语音信号相乘。乘以了增益的扩展层解码语音信号被输出到加法器124。

加法器124将从扩展层解码语音放大器122输入的扩展层解码语音信号和从信号调整单元112输入的核心层解码语音信号相加。由此，核心层解码语音信号及扩展层解码语音信号被混合，而生成混合信号。生成的混合信号成为语音解码装置100的输出语音信号。也就是说，扩展层解码语音放大器122与加法器124的组合构成混合单元，该混合单元使核心层解码语音信号及扩展层解码语音信号的混合比时间性地变化，同时将核心层解码语音信号与扩展层解码语音信号混合，得到混合信号。

以下，对加权加法单元114中的动作进行说明。

在加权加法单元114的扩展层解码语音增益控制器120中，主要对扩展层增益进行以下的控制，使其在无法接收扩展层编码数据时衰减，而在开始接收扩展层编码数据时上升。另外，扩展层增益，与核心层解码语音信号或扩展层解码语音信号的状态同步地，受到自适应地控制。

在此，对扩展层解码语音增益控制器120中的扩展层增益的可变设定动作的示例进行说明。另外，本实施方式中，由于核心层解码语音信号的增益被固定，因此在扩展层增益及其时间性变化的程度通过扩展层解码语音增益控制器120被变更时，核心层解码语音信号及扩展层解码语音信号的混合比及其时间性变化的程度也被变更。

扩展层解码语音增益控制器120使用从扩展层帧差错检测单元106输入的扩展层帧差错检测结果e(t)和从容许区间检测单元110输入的容许区间检测结果d(t)，确定扩展层增益g(t)。扩展层增益g(t)通过下面的式(10)～(12)而被确定。

g(t)＝1.0，g(t-1)+s(t)＞1.0...(10)的情况 ...(10)

g(t)＝g(t-1)+s(t)，0.0≤g(t-1)+s(t)≤1.0的情况 ...(11)

g(t)＝0.0，g(t-1)+s(t)＜0.0的情况 ...(12)

另外，s(t)表示扩展层增益的增减值。

也就是说，扩展层增益g(t)的最小值为0.0，最大值为1.0。由于核心层增益未被控制，即核心层增益一直为1.0，因此在g(t)＝1.0时，核心层解码语音信号与扩展层解码语音信号以1∶1的混合比而被混合。另一方面，在g(t)＝0.0时，从信号调整单元112输出的核心层解码语音信号就为输出语音信号。

根据扩展层帧差错检测结果e(t)及容许区间检测结果d(t)，增减值s(t)通过下面的式(13)～(16)而被确定。

s(t)＝0.20，e(t)＝1且d(t)＝1的情况 ...(13)

s(t)＝0.02，e(t)＝1且d(t)＝0的情况 ...(14)

s(t)＝-0.40，e(t)＝0且d(t)＝1的情况 ...(15)

s(t)＝-0.20，e(t)＝0且d(t)＝0的情况 ...(16)

另外，扩展层帧差错检测结果e(t)由下面的式(17)～(18)来表示。

e(t)＝1，没有扩展层帧差错的情况 ...(17)

e(t)＝0，有扩展层帧差错的情况 ...(18)

另外，容许区间检测结果d(t)由下面的式(19)～(20)来表示。

d(t)＝1，容许区间的情况 ...(19)

d(t)＝0，容许区间以外的区间的情况 ...(20)

若对式(13)和式(14)进行比较或对式(15)和式(16)进行比较，可知与容许区间以外的区间(d(t)＝0)相比，容许区间(d(t)＝1)中的扩展层增益的增减值s(t)大。因此，与容许区间以外的区间相比，容许区间中的核心层解码语音信号及扩展层解码语音信号的混合比的时间性变化的程度大，且混合比的时间性变化剧烈。接着，与容许区间相比，容许区间以外的区间中的核心层解码语音信号及扩展层解码语音信号的混合比的时间性变化的程度小，且混合比的时间性变化缓慢。

另外，为简化说明，对上述的各函数g(t)、s(t)、d(t)是以帧单位来表述的，不过也可以用样本单位来表述。另外，上述式(10)～(20)所使用的数值只是一个例子，也可以使用其它的数值。在上述的例子中，使用了扩展层增益呈直线性增减的函数，不过也可以使用使扩展层增益单调增加或单调减少的任意函数。另外，在背景噪音信号包含在核心层解码语音信号中的情况下，也可以使用核心层解码语音信号来求语音信号对背景噪音信号比等，根据该比，自适应地控制扩展层增益的增加量、减少量。

接下来，针对经过扩展层解码语音增益控制器120控制的扩展层增益的时间性变化，举两个例子来说明。图3是用于说明扩展层增益的时间性变化的第一个例子的图。图4是用于说明扩展层增益的时间性变化的第二个例子的图。

首先，用图3对第一个例子进行说明。图3B中表示出扩展层编码数据是否能够接收。在从时刻T1到时刻T2为止的区间、从时刻T6到时刻T8为止的区间以及时刻T10以后的区间中，检测出扩展层帧差错，而在其它的区间中，则没有检测出扩展层帧差错。

另外，在图3C中表示出容许区间检测结果。从时刻T3到时刻T5为止的区间以及从时刻T9到时刻T11为止的区间，为检测出来的容许区间。而在其它的区间中，则没有检测出容许区间。

另外，在图3A中表示出扩展层增益。g(t)＝0.0表示扩展层解码语音信号完全衰减并对输出完全没有做出贡献。另一方面，g(t)＝1.0表示全部利用扩展层解码语音信号。

在从时刻T1到时刻T2为止的区间中，由于扩展层帧差错被检测出来，因此扩展层增益逐渐下降。由于到达时刻T2时检测不出扩展层帧差错，因而扩展层增益这次反而上升。在时刻T2以后的扩展层增益上升的期间中，从时刻T2开始到时刻T3为止的区间不是容许区间。因此，扩展层增益的上升程度较小，扩展层增益的上升比较缓慢。另一方面，在时刻T2以后的扩展层增益上升的期间中，从时刻T3到时刻T5为止的区间是容许区间。因此，扩展层增益的上升程度较大，扩展层增益的上升比较快。由此，在从时刻T2到时刻T3为止的区间中，能够防止频带变化被觉察。另外，在从时刻T3到时刻T5为止的区间中，能够保持频带变化难以被觉察的状态的同时加快频带变化，能够对提供宽带感做出贡献，能够提高主观质量。

接着，在从时刻T8到时刻T10为止的区间中，由于扩展层帧差错未被检测出来，因此扩展层增益上升。但是，在从时刻T8到时刻T10为止的区间中，从时刻T8到时刻T9为止的区间不是容许区间。因此，扩展层增益的上升被抑制在比较缓慢的状态。另一方面，在从时刻T8到时刻T10为止的区间中，时刻T9到时刻T10为止的区间是容许区间，因此，扩展层增益的上升比较快。

接着，在时刻T10以后的区间中，扩展层帧差错被检测出来。因此，扩展层增益的变化，从时刻T10开始转变成下降。另外，在时刻T10以后的区间中，从时刻T10到时刻T11为止的区间是容许区间。因此，扩展层增益的下降程度较大，扩展层增益的下降比较快。另一方面，时刻T11以后的区间不是容许区间。因此，扩展层增益下降的程度较小，扩展层增益的下降被抑制在比较缓慢的状态。接着，在时刻T12，扩展层增益变为0.0。由此，在从时刻T10到时刻T11为止的区间中，能够保持频带变化难以被觉察的状态的同时加快频带变化。另外，在从时刻T11到时刻T12为止的区间中，能够防止频带变化被觉察出来。

接下来，用图4对第二个例子进行说明。图4B中表示出扩展层编码数据是否能够接收。在从时刻T21到时刻T22为止的区间、从时刻T24到时刻T27为止的区间、时刻T28到时刻T30为止的区间以及从时刻T31以后的区间中，检测出扩展层帧差错，而在其它的区间中，则没有检测出扩展层帧差错。

另外，图4C中表示容许区间检测结果。从时刻T23到时刻T26为止的区间为检测出来的容许区间。在其它的区间中，容许区间没有被检测出来。

另外，图4A中表示扩展层增益。与第一个例子相比，第二个例子中检测出扩展层帧差错的频度较高。因此，扩展层增益增减的转换频度较高。具体来说，扩展层增益从时刻T22开始上升，时刻T24开始下降，又从时刻T27开始上升，时刻T28开始下降，再从时刻T30开始上升，时刻T31开始下降。在该过程中，容许区间仅为从时刻T23到时刻T26为止的区间。也就是说，在时刻T26以后的区间中，扩展层增益的变化程度被控制得较小，扩展层增益的变化被抑制在比较缓慢的状态。因此，从时刻T27到时刻T28为止的区间以及从时刻T30到时刻T31为止的区间中的扩展层增益的上升比较地缓慢，从时刻T28到时刻T29为止的区间以及从时刻T31到时刻T32为止的区间中的扩展层增益的下降比较地缓慢。由此，能够在频带变化频繁发生时，防止收听者产生波动感。

这样，上述的两个例子，在容许区间中通过快速地进行频带切换，能够使由于核心层解码语音信号的功率等变化以及频带切换而可能产生的综合性解码语音的波动感缓和。另一方面，在容许区间以外的区间中，通过控制使功率或频宽的变化缓慢地进行，能够让频宽的变化不明显。

另外，在上述的二个例子中，随着扩展层增益的时间性变化的程度的变更，混合信号的输出时间也被变更。因此，混合比的时间性变化的程度被变更时，能够防止发生声音大小的不连续性或频带感的不连续性。

如上所述，根据本实施方式，由于在混合核心层解码语音信号即窄带语音信号以及扩展层解码语音信号即宽带语音信号时，对时间性变化的混合比的变化程度进行可变地设定，因此能够减小收听者对语音信号产不协调感或波动感的可能性，能够提高音质。

另外，可以采用的频带可扩展性语音编码方式，并不局限于本实施方式所说明的方式。例如，作为在扩展层使用核心层编码数据以及扩展层编码数据的双方，对宽带解码语音信号进行一次性解码的，而且在发生扩展层帧差错时使用核心层解码语音信号的方式中，也可以适用本实施方式的结构。这种情况下，在切换核心层解码语音及扩展层解码语音时，对核心层解码语音及扩展层解码语音的双方，进行诸如淡入或淡出的重合处理。接着，根据上述的容许空间检测结果来控制淡入或淡出的速度。由此，能够得到抑制了音质恶化的解码语音。

另外，也可以与本实施方式的容许区间检测单元110同样地，将用于检测容许频带变化的区间的结构，设置在适用了频带可扩展性语音编码方式的语音编码装置中。这种情况下，语音编码装置在容许频带变化的区间以外的区间中保留频带切换(即，从窄带向宽带的切换或从宽带向窄带的切换)，仅在容许频带变化的区间中进行频带切换。在对经过该语音编码装置编码的语音，用语音解码装置解码时，即使该语音解码装置为不具有频带切换功能的装置，也能够减小收听者对解码语音产生不协调感或波动感的可能性。

另外，在上述各实施方式的说明中使用的各功能块，最为典型的是通过集成电路LSI来实现，这些可以将各功能个别芯片化，也可以将全部或一部分功能芯片化。

另外，此处所称的LSI，根据集成度的不同也可称作IC、系统LSI、超级LSI、超大LSI等。

另外，集成电路化的方法并不局限于LSI，也可以通过专用电路或通用处理器来实现。也可以在制造LSI后，使用可编程的FPGA(Field Programmable Gate Array)，或LSI内部的电路块的连接或设定可以重新构成的可重构处理器。

再者，根据半导体技术的进步或派生出的其他技术，若有可以替代LSI的集成电路化技术问世的话，当然也可以利用该技术进行功能块的集成化。也有应用生物技术等的可能性。

本发明的第一个方面为语音切换装置，该装置在切换所输出的语音信号的频带时，输出混合了窄带语音信号和宽带语音信号的混合信号，该语音切换装置采用以下结构，包括：混合单元，使所述窄带语音信号和所述宽带语音信号的混合比时间性地变化，同时将所述窄带语音信号和所述宽带语音信号混合，从而得到所述混合信号；以及设定单元，可变地设定所述混合比的时间性变化的程度。

根据该结构，由于在混合窄带语音信号和宽带语音信号时，将时间性变化的混合比的变化程度可变地设定，因此能够降低收听者对语音信号产生不协调感或波动感的可能性，且能够提高音质。

本发明的第二个方面为，在上述结构中还包括检测单元，在可以得到所述窄带语音信号或所述宽带语音信号的期间中，检测特定的区间，其中，所述设定单元采用以下结构：在检测出所述特定的区间时使所述程度增加，在没有检测出所述特定的区间时使所述程度减小。

根据该结构，能够将混合比的时间性变化的程度设定得比较高的期间限定在可以得到语音信号的期间中的特定的区间内，且能够控制将混合比的时间性变化的程度变更的定时。

本发明的第三个方面为，在上述结构种中，所述检测单元将容许所述语音信号的频带的规定电平以上的骤变的区间作为所述特定的区间来检测。

本发明的第四个方面为，在上述结构中，所述检测单元将无声区间作为所述特定的区间来检测。

本发明的第五个方面为，在上述结构中，所述检测单元将所述窄带语音信号的功率在规定电平以下的区间作为所述特定的区间来检测。

本发明的第六个方面为，在上述结构中，所述检测单元将所述宽带语音信号的功率在规定电平以下的区间作为所述特定区间来检测。

本发明的第七个方面为，在上述结构中，所述检测单元将所述宽带语音信号的功率相对于所述窄带语音信号的功率的大小在规定电平以下的区间作为所述特定区间来检测。

本发明的第八个方面为，在上述结构中，所述检测单元将所述窄带语音信号的功率波动在规定电平以上的区间作为所述特定的区间来检测。

本发明的第九个方面为，在上述结构中，所述检测单元将所述窄带语音信号的上升作为所述特定的区间来检测。

本发明的第十个方面为，在上述结构中，所述检测单元将所述宽带语音信号的功率波动在规定电平以上的区间作为所述特定的区间来检测。

本发明的第十一个方面为，在上述结构中，所述检测单元检测所述宽带语音信号的上升。

本发明的第十二个方面为，在上述结构中，所述检测单元将所述窄带语音信号中含有的背景噪音信号的种类发生变化的区间作为所述特定的区间来检测。

本发明的第十三个方面，在上述结果中，所述检测单元将所述宽带语音信号中含有的背景噪音信号的种类发生变化的区间作为所述特定的区间来检测。

本发明的第十四个方面为，在上述结构中，所述检测单元将所述窄带语音信号的频谱参数的变化在规定电平以上的区间作为所述特定的区间来检测。

本发明的第十五个方面为，在上述结构中，所述检测单元将所述宽带语音信号的频谱参数的变化在规定电平以上的区间作为所述特定的区间来检测。

本发明的第十六个方面为，在上述结构中，所述检测单元将对所述窄带语音信号进行了插值处理后的区间作为所述特定的区间来检测。

本发明的第十七个方面，在上述结构中，所述检测单元将对所述宽带语音信号进行了插值处理后的区间作为所述特定的区间来检测。

根据这些结构，仅在语音信号的频带变化难以被觉察的区间中，能够使混合比较快地变化，同时在语音信号地频带变化容易被觉察的区间，能够使混合比较为缓慢地变化，且能够确实地减小收听者对语音信号产生不协调感或波动感的可能性。

本发明的第十八个方面为，在上述结构中，所述设定单元将所述窄带语音信号的增益固定，另一方面可变地设定所述宽带语音信号的增益的时间性变化的程度。

根据该结构，与将两信号的增益的时间性变化的程度可变地设定的情况相比，能够容易将对混合比可变地设定。

本发明的第十九个方面，在上述结构中，所述设定单元变更所述混合信号的输出时间。

根据该结构，在变更两信号的混合比的时间性变化的程度时，能够防止发生声音大小的不连续性或频带感的不连续性。

本发明的第二十个方面为一种通信终端装置，该装置包括上述结构的语音切换装置。

本发明的第二十一个方面为一种语音切换方法，在切换所输出的语音信号的频带时，输出混合了窄带语音信号和宽带语音信号的混合信号，该语音切换方法包括：变更步骤，变更所述窄带语音信号和所述宽带语音信号的混合比的时间性变化的程度；以及混合步骤，以变更后的程度使所述混合比时间性地变化，同时将所述窄带语音信号和所述宽带语音信号混合，得到所述混合信号。

根据该方法，由于在混合窄带语音信号和宽带语音信号时，将时间性变化的混合比的变化程度可变地设定，因此能够减小收听者对语音信号产生不协调感或波动感的可能性，且能够提高音质。

本说明书基于2005年1月14日提出的日本专利申请特愿2005-008084，其内容全部包含于此。

工业上的利用可能性

本发明的语音切换装置及语音切换方法，能够适用于语音信号的频带的切换。

Claims

1.一种语音切换装置，在切换所输出的语音信号的频带时，输出混合了窄带语音信号和宽带语音信号的混合信号，该语音切换装置包括：

核心层帧差错检测单元，检测核心层编码数据是否能被解码；

扩展层帧差错检测单元，检测扩展层编码数据是否能被解码；

核心层解码单元，对所述核心层编码数据进行解码，生成所述窄带语音信号；

扩展层解码单元，对所述扩展层编码数据进行解码，生成所述宽带语音信号；

容许区间检测单元，对由所述核心层帧差错检测单元得到的核心层帧差错检测结果、由所述核心层解码单元得到的核心层线谱对、经信号调整的所述窄带语音信号、及由所述扩展层解码单元得到的所述宽带语音信号进行分析，并基于分析结果检测容许区间；

混合单元，使所述窄带语音信号和所述宽带语音信号的混合比时间性地变化，同时将所述窄带语音信号和所述宽带语音信号混合，从而得到所述混合信号；以及

设定单元，基于由所述扩展层帧差错检测单元得到的扩展层帧差错检测结果和由所述容许区间检测单元检测出的容许区间检测结果，可变地设定所述混合比的时间性变化的程度。

2.根据权利要求1所述的语音切换装置，其中，

所述设定单元在检测出所述容许区间时增加所述程度，在没有检测出所述容许区间时减小所述程度。

3.根据权利要求1所述的语音切换装置，其中，

所述容许区间检测单元将无声区间作为所述容许区间来检测。

4.根据权利要求1所述的语音切换装置，其中，

所述容许区间检测单元将所述窄带语音信号的功率在规定电平以下的区间作为所述容许区间来检测。

5.根据权利要求1所述的语音切换装置，其中，

所述容许区间检测单元将所述窄带语音信号的功率波动在规定电平以上的区间作为所述容许区间来检测。

6.根据权利要求1所述的语音切换装置，其中，

所述容许区间检测单元将所述宽带语音信号的功率波动在规定电平以上的区间作为所述容许区间来检测。

7.根据权利要求1所述的语音切换装置，其中，

所述容许区间检测单元将所述窄带语音信号中含有的背景噪音信号的种类发生变化的区间作为所述容许区间来检测。

8.根据权利要求1所述的语音切换装置，其中，

所述容许区间检测单元将所述窄带语音信号的频谱参数的变化在规定电平以上的区间作为所述容许区间来检测。

9.根据权利要求1所述的语音切换装置，其中，

所述设定单元将所述窄带语音信号的增益固定，另一方面，可变地设定所述宽带语音信号的增益的时间性变化的程度。

10.根据权利要求1所述的语音切换装置，其中，

所述设定单元变更所述混合信号的输出时间。

11.一种通信终端装置，具有权利要求1所述的语音切换装置。

12.一种语音切换方法，在切换所输出的语音信号的频带时，输出混合了窄带语音信号和宽带语音信号的混合信号，该语音切换方法包括：

核心层帧差错检测步骤，检测核心层编码数据是否能被解码；

扩展层帧差错检测步骤，检测扩展层编码数据是否能被解码；

核心层解码步骤，对所述核心层编码数据进行解码，生成所述窄带语音信号；

扩展层解码步骤，对所述扩展层编码数据进行解码，生成所述宽带语音信号；

容许区间检测步骤，对在所述核心层帧差错检测步骤中得到的核心层帧差错检测结果、在所述核心层解码步骤中得到的核心层线谱对、经信号调整的所述窄带语音信号、及在所述扩展层解码步骤中得到的所述宽带语音信号进行分析，并基于分析结果检测容许区间；

变更步骤，变更所述窄带语音信号和所述宽带语音信号的混合比的时间性变化的程度；

混合步骤，以变更后的程度使所述混合比时间性地变化，同时将所述窄带语音信号和所述宽带语音信号混合，得到所述混合信号；以及

设定步骤，基于在所述扩展层帧差错检测步骤中得到的扩展层帧差错检测结果和在所述容许区间检测步骤中检测出的容许区间检测结果，可变地设定所述混合比的时间性变化的程度。