CN1257486C

CN1257486C - 用于将可感知相关信息保留在音频信号中的方法和设备

Info

Publication number: CN1257486C
Application number: CNB998136255A
Authority: CN
Inventors: J·斯维德伯格; E·伊库登; A·乌利登; I·约翰森
Original assignee: Telefonaktiebolaget LM Ericsson AB
Current assignee: Telefonaktiebolaget LM Ericsson AB
Priority date: 1998-11-23
Filing date: 1999-11-12
Publication date: 2006-05-24
Anticipated expiration: 2019-11-12
Also published as: CA2348913A1; BR9915576B1; KR20010078401A; CA2348913C; EP1224659B1; US6424938B1; BR9915576A; CN1419687A; WO2000031720A3; AU1593800A; CN1828722A; JP4025018B2; AR030386A1; MY124630A; HK1097080A1; AU763409B2; KR100667008B1; ZA200103150B; DE69925168D1; CN1828722B

Abstract

通过确认声频信号是否包括非语音信息(122、124、125)可在对声频信号进行编码期间保留可感知相关非语音信息。如果这样，对声频信号的语音/噪音分类进行最优先(43)，从而防止将声频信号误分类为噪音。

Description

用于将可感知相关信息保留在音频信号中的方法和设备

本申请根据35USC119(e)(1)要求申请日为1998年11月23日的US60/109556号未决临时申请的优先权。

技术领域

本发明涉及音频信号压缩，特别涉及在对音频信号进行压缩时语音/噪音的分类。

背景技术

语音编码器和译码器通常分别设置在无线电发射机和无线电接收机中，并且它们可以同时工作，从而可在给定的发射机和接收机之间沿着无线电通信线路进行语音(话音)通信。语音编码器和语音译码器的结合经常称之为语音编码译码器。移动无线电话(如蜂窝式移动电话)就是常规通信设备的一个例子，这种常规通信设备通常包括一个具有一语音编码器的无线电发射机和一个具有一语音译码器的无线电接收机。

在常规的基于信息组的语音编码器中，引入的语音信号被分成若干块并将这种块称为帧。用于普通的4kHz电话带宽范围的帧长通常为20ms或160次采样。可将上述帧进一步分成一些子帧，其长度通常为5ms或40次采样。

在对引入的音频信号进行压缩的过程中，语音编码器通常使用先进的有损压缩技术。通过一个信道如一条无线电通信线路将压缩的(或编码的)信号信息传送给译码器。然后译码器试图从引入的压缩信号信息中复制出输入音频信号。如果引入的音频信号的某些特征是公知的，则在信道中可保持尽可能低的位速率。如果音频信号包含与收听者相关的信息，则该信息会被保留下来。然而如果音频信号仅包含非相关信息(如背景噪音)，则可以通过仅发射有限的关于信号的信息量来节省带宽。对于仅包含非相关信息的许多信号，非常低的位速率经常可达到高性能压缩。在极端的情况中，可在译码器中通过上述信道对输入信号进行合成而不进行任何信息的更新，直到重新确定输入的音频信号包括相关的信息为止。

可以方便地利用非常低的位速率十分精确地复制出的典型信号包括恒定噪音、汽车噪音，在某种程度上还包括一些多路重合噪音。对于更复杂的非语音信号像音乐或语音和音乐的合成，要求通过译码器利用更高的位速率对其进行准确复制。

对于许多通常类型的背景噪音，需要更低的语音位速率，以得到足够好的信号模型。目前的移动系统利用了在背景噪音持续的过程中下调发射的位速率这一事实。例如在使用连续发射技术的常规系统中，可变速率(VR)语音编码器可使用其最低的位速率。

在常规的非连续发射(DTX)方案中，当讲演者停顿时发射机就停止发送编码的语音帧。在规则或不规则间隔内(例如每100ms到500ms)，发射机发送适合于在译码器中产生常规的柔和噪音的语音参数。这些适合产生柔和噪音(CNG)的参数通常被编码成有时称之为静寂描述符(SID)帧的信号。在接收机处，译码器利用在SID帧中接收到的柔和噪音参数并通过常规柔和噪音注入(CNI)算法来合成仿真噪音。

在常规的DTX系统中的译码器内产生柔和噪音时，通常可以感觉到这种噪音变化非常小，并与在有源模式(非DTX)下产生的背景噪音有很大的不同。产生这种感觉的原因是DTX SID帧并没有像正常的语音帧那样经常地向接收机发送。在具有DTX模式的常规线性预测合成分析(LPAS)编码译码器中，常需在数帧范围内对背景噪音的频谱和能量进行估算(例如平均值)，然后将估算的参数在SID帧内量化并将其通过信道传送给译码器。

发送具有较低更新率的SID帧而不发送规则语音帧的好处有两方面。例如由于更低的能量消耗而使移动式无线电收发信机中的电池寿命得以延长，而且由发射机引起的干扰下降从而提高了系统的容量。

如果利用一种相当简单的压缩模式对复合信号如音乐进行压缩，并且相应的位速率也相当低，则在译码器中复制出的信号与使用较好(较高质量)压缩技术而获得的结果有很大的不同。通过对复合信号误分类噪音可使用相当简单的压缩方案。当出现这种误分类时，不仅译码器输出拙劣的复制信号，而且不利的是误分类本身导致从较高质量的压缩方案转换到较低质量的压缩方案。为了修正上述误分类，需要再转回到较高质量方案的。如果在压缩方案之间的这种转换经常发生，则收听者通常能听得见并感到很刺耳。

从前述可知，在适当的情况下，如在演讲者停顿期间对背景噪音进行压缩，仍保持低位速率(高压缩率)时，需要减少主观上相关信号误分类。可利用非常强的压缩技术从而使得收听者不会感到刺耳。在DTX系统中使用如上所述的柔和噪音参数就是强压缩技术的一个例子，就象利用随机激励方法的常规低速率线性预测编码(LPC)那样。利用强压缩技术的编码技术通常只可以精确地复制出可感知的简单噪音类型如稳定的汽车噪音、街道噪音、餐馆噪音(混串音)和其它类似的信号。

用于确定输入音频信号是否包含相关信息的常规分类技术主要基于输入音频信号的较简单的稳态分析。如果确定输入信号为稳定的，则假定其为类似噪音的信号。然而，单单是这种常规稳态分析会引起复合信号，上述复合信号相当稳定，但实际上包含被误分类为噪音的可感知的相关信息。不利的是这种误分类可引起如上所述的问题。

因此需要一种分类技术，这种分类技术能可靠地检测到上述类型的复合信号内的可感知相关信息的存在。

发明内容

本发明提供了复合信号激活检测，其能可靠地检测到复合非语音信号，这些非语音信号包括对收听者感知重要的相关信息。能被可靠地检测到的复合非语音信号的例子包括音乐、曲维持乐〔musie on-hold〕、语音与音乐的组合、背景中的音乐以及其它音调或泛音声音。

根据本发明的一个方面，提供了一种在对音频信号进行编码的期间将可感知相关非语音信息保留在音频信号中的方法，该方法包括：作出关于所述音频信号是否包括语音或噪音信息的第一判断，其特征在于：作出关于音频信号是否包括对收听者可感知相关的非语音信息的第二判断；以及，当该音频信号包括对收听者可感知相关的非语音信息时，响应于第二判断有选择地忽略所述第一判断。

根据本发明的另一个方面，提供了一种将可感知相关信息保留在音频信号中的方法，其包括确定音频信号被分割成的多个帧中的每一帧的标准相关值，作出关于所述音频信号是否包括语音或噪音信号的第一判断，其特征在于：作出关于音频信号是否包括对收听者可感知相关的非语音信息的第二判断；当该音频信号包括对收听者可感知相关的非语音信息时，响应于第二个判断，有选择地忽略所述第一判断；对于音频信号被分割成的多个帧中的每一帧，探测音频信号的高通滤波模型的最高标准相关值；产生所述标准相关值的第一序列；确定代表值的第二序列来分别表示第一序列的标准相关值；将代表值与阈值相比较从而得到音频信号是否包含可感知相关信息的指示。

根据本发明的另一个方面，还提供了一种用于在音频信号编码器中将包含在音频信号内的可感知相关非语音信息进行保留的设备，包括：一个分级器，该分级器用于接收音频信号，并作出所述音频信号是否包括语音或噪音信息的第一判断，其特征在于还包括：一个检测器，该检测器用于接收音频信号并作出音频信号是否包括对收听者可感知相关的非语音信息的第二判断；以及，与所述分级器和所述探测器相耦合的逻辑块，所述逻辑块具有一个能指示音频信号是否包括可感知相关信息的输出，所述逻辑块可选择地在所述输出处提供指示所述第一判断的信息，并当该音频信号包括对收听者可感知相关的非语音信息时，响应于所述第二判断，从而在所述输出处有选择地忽略所述指示第一判断的信息。

附图说明

图1示意性地展示了根据本发明的一个示范性语音编码设备的相关部分；

图2展示了图1中的复合信号激活检测器的示范性实施例；

图3展示了图1中的语音激活检测器的示范性实施例；

图4展示了图1中的释放延迟逻辑块的示范性实施例；

图5展示了图2中的参数发生器的示范性操作流程；

图6展示了图2中的计数器控制器的示范性操作流程；

图7展示了图2中的一个部分的示范性操作流程；

图8展示了图2中的另一部分的示范性操作流程；

图9展示了图3中的一个部分的示范性操作流程；

图10展示了图3中的计数器控制器的示范性操作流程；

图11展示了图3中的另一部分的示范性操作流程；

图12展示了可由图1～11中的实施例完成的示范性操作流程；

图13展示了图2中的复合信号激活检测器的另一个实施例。

具体实施方式

图1为示意性地展示了根据本发明的一个示范性语音编码设备的相关部分。这种语音编码设备例如可以安装在通过无线电通信信道进行音频信息传递的无线电接收机中。这种无线电接收机的一个例子是移动无线电话，如蜂窝式移动电话。

在图1中，将输入音频信号输入到复合信号激活检测器(CAD)以及话音激活检测器(VAD)中。复合信号激活检测器CAD响应音频输入信号并进行相关性分析，从而确定输入信号是否包括收听者感知的相关信息，然后向VAD输出一组信号相关参数。VAD利用这些信号相关参数连同接收到的音频输入信号进行确定输入音频信号是语音还是噪音。VAD作为一个语音/噪音分类器；语音/噪音显示作为输出。CAD接收到语音/噪音显示并作为其输入。CAD响应语音/噪音显示和输入音频信号，产生一组输出到释放延迟逻辑块的复合信号标识，该释放延迟逻辑块也接收由VAD产生的语音/噪音显示作为其输入。

释放延迟逻辑块响应复合信号标识和语音/噪音显示，并产生输出，该输出能指示出输入音频信号是否包括收听者能感觉到的相关信息，收听者将在信道的另一端听到在接收机中的译码设备输出的复制音频信号。例如释放延迟逻辑块的输出可适当地用于控制DTX的操作(在DTX系统中)或位速率(在可变速率VR编码器中)。如果释放延迟逻辑块的输出表明输入音频信号不包含相关的信息，即可产生柔和噪声(在DTX系统中)或者降低位速率(在VR编码器)。

在CAD中通过提取出与特定频带中相关信号的每一帧信息对输入信号(可进行预处理)进行分析。可通过使用一个合适的滤波器进行信号初次滤波来完成上述操作，上述滤波器可以为带通滤波器或高通滤波器。该滤波器对包含分析中感兴趣的最大限度能量的频带进行评估。为了降低如汽车噪音的强低频率含量，通常应滤除低频区。滤波后的信号被送往开环长期预测(LTP)相关分析。LTP分析提供的结果为相关值矢量或归一化增益值；每相关移位的一个值。例如在常规的LTP分析中，移位范围可以为[20，147]。获取所需的相关性检测的另一种方法〔低复杂性〕是在相关计算中使用未滤波的信号以及通过如下详细描述的算法相似“滤波”过程对相关值进行修改。

对于每一个分析帧，选择并缓冲具有最大幅度的标准相关值(增益值)。不使用移位(相应于选择的相关值的LTP滞后)。对该值作进一步分析从而得出信号相关性参数矢量，该信号相关性参数矢量被输送到VAD中用于背景噪音评估过程。对缓冲的相关值进行处理并用来得出最后的结论：信号是否相关(即具有感知重要性)以及VAD的结论是否可靠。产生一组标识：VAD_fail_long和VAD_fail_short并用来指示感知相关信息何时存在时，何时VAD可能要执行严格的误分类，即噪音分类。

在CAD相关性分析中进行计算的信号相关性参数用于提高VAD方案的性能。VAD方案试图确定信号是一个语音信号(可能被环境噪音所降级)还是一个噪音信号。为了辨别出噪音中的语音+噪音信号，VAD通常估计上述噪音。VAD必须更新其背景噪音的评估值从而能在语音+噪音信号分类中得出更好的判断。来自VAD的相关性参数用于确定VAD背景噪音和活动信号评估值更新到何种程度。

如果VAD被认为是可靠的，则释放延迟逻辑块可调整信号的最终判断，该最终判断利用了关于信号和在前VAD结论的相关性的先前信息。释放延迟逻辑块的输出是最终判断，从而能确定信号是相关还是不相关。在不相关的情况下，可使用低位速率来进行编码。在DTX系统中，该相关/非相关信息用来确定当前的帧是应该以正常的方式(相关)进行编码还是用舒适噪音参数(非相关)进行编码。

在一个示范性的实施例中，在语音编码器中设有实现高效低复合性的CAD，该语音编码器使用了线性预测合成分析(LPAS)结构。输入到语音编码器中的信号通过常规的装置(高通滤波的、缩放的等)进行调节。然后通过LPAS编码器使用的常规自适应噪音加权重滤波器对调节的信号s(n)进行滤波。然后将加权语音信号sw(n)传送到开环LTP分析中。LTP分析对在范围[L_min，L_max]内的每一个移位的相关值进行计算并存储，其中该范围的端值例如可以为：L_min＝18，L_max＝147。对于在上述范围内每一个滞后值(移位)L，滞后值1的相关值Rxx(k，l)范围可通过如下公式计算：

Rxx (k = 0,1) = \underset{n = 0}{Σ} sw (n - k) sw (n - l)

方程1

其中k为分析帧的长度。如果将k值设定为0，则上述函数仅仅随滞后值1进行变化：

Rxx (l) = \underset{n = 0}{Σ} sw (n) sw (n - l)

方程2

也可定义为：

Exx(L)＝Rxx(L，L) 方程3

该过程通常作为在LPAS编码器中的自适应编码薄搜索的预搜索，因此没有增加额外的计算成本。

通过将下列方程中的失真D最小化而得到单抽头预测器(singletap predictor)的最佳增益系数g_opt：

D (l) = Σ_{n = 0}^{n = N - 1} {(sw (n) - g \cdot sw (n - l))}^{2}

方程4

通过下列方程得出的最佳增益系数g_opt(实际的标准相关值)是方程4中最小化D的g值：

g_opt = \frac{Rxx (L)}{Exx (L)}

其中L是最小化失真D(方程4)的滞后值，Exx(L)是能量。复合信号检测器计算出加权信号sw的高通滤波模型(high passfiltered version)的最佳增益系数(g_opt)。例如高通滤波器可为一个具有滤波系数[h0，h1]的简单第一级滤波器。在一个实施例中，在相关值计算之前不采用高通滤波加权信号，而采用简化的公式来最小化使用滤波信号sw_f(n)的D值。

利用如下公式来确定高通滤波信号sw_f(n

sw_f(n)＝h0·sw(n)+h1·sw(n-1)方程7

在此情况下，可通过如下公式得到g_max(滤波信号的g_opt)：

g_\max = \frac{Rxx (L) ({h 0}^{2} + {h 1}^{2}) + Rxx (L - 1) h 0 h 1 + Rxx (L + 1) h 0 h 1}{Exx (L) ({h 0}^{2} + {h 1}^{2}) + Rxx (L, L + 1) h 0 h 1 + Rxx (L, L - 1) h 0 h 1}

方程8

这样可根据方程8使用在前已经由未滤波信号sw得到的Rxx和Exx值来计算参数g_max，而不用计算滤波信号sw_f的新的Rxx值。

如果将滤波系数[h0，h1]选择为[1，-1]并且将分母标准滞后值Lden设为0，则g_max计算可简化为：

g_\max = \frac{2 Rxx (L) - (Rxx (L - 1) + Rxx (L + 1))}{2 Exx (Lden) - 2 Rxx (Lden + 1)}

方程9

将方程8中的分母Lden设为(Lmin+1)(非最优值L_opt，即方程4中的最优滞后值)，并将最大值L限制为Lmax-1，在最大搜索中的最小值Lmin限制为(Lmin+1)，可以对上述方程作进一步简化。在此情况下，除了从开环LTP分析中已经得到的Rxx(1)外，不需要额外进行相关性计算。

对于每一帧，存储了具有最大幅度的增益值g-max。根据g-f(i)＝b0·g_max(i)-a1·g_f(i-1)并通过得到每一帧的滤波g_max值，可得到平滑模型g_f(i)。在一些实施例中，滤波系数b0和a1可以是时间变量，也可以为状态和输入相关的以避免状态饱和问题。例如b0和a1可以表达为相应的时间：g_max(i)和g_f(i-1)的函数。即b0＝fb(t，g_max(i)，g_f(i-1))和a1＝fa(t，g_max(i)，g_f(i-1))。

信号g_f(i)是CAD相关性分析的一个初级结果。通过分析g_f(i)的状态和随时间变化的曲线，VAD自适应可配有辅助设备，而释放延迟逻辑块配有操作显示。

图2展示了上面已描述的图1中的复合信号激活检测器CAD的示范性实施例。预处理部分21对输入信号进行预处理，从而产生了前述的加权信号sw(n)。将信号sw(n)输出到一个常规的相关性分析器23中，该相关性分析器23例如可以为开环长期预测(LTP)相关分析器。相关性分析器23的输出22通常作为一个自适应编码薄搜索24的输入。如上所述，根据本发明在常规相关性分析器23中使用的Rxx和Exx值用于计算g_f(i)。

Rxx和Exx值在25处输入到最大归一化增益计算器20中，该计算器20如上所述可计算出g_max值。通过计算器20对每一帧的最大幅度g_max值进行选择并将其存储在缓冲器26中。缓冲后的值输出到如上所述的平滑滤波器27中。平滑滤波器27的输出是g_f(i)。

信号g_f(i)被输入到参数发生器28中。参数发生器28对输入信号g_f(i)进行响应，并产生一对复合_高(complex-high)输出和复合_低(complex-low)输出，上述输出作为信号相关性参数输送给VAD(参看附图1)。参数发生器28还产生一个复合_定时程序(complex-timer)输出，该输出作为控制计数器201的计数器控制器29的输入。计数器201的输出复合_悬搁_计数(complex_hang_count)作为一个信号相关性参数输送给VAD，同时也输送给比较器203，比较器203的输出VAD_失效_长(VAD_fail_long)是输出给释放延迟逻辑块的复合信号标识(参看图1)。信号g_f(i)同时也被输送给另一个比较器205，该比较器205的输出208与“与”门207的输入相耦合。

图2中的复合信号激活检测器也从VAD中接收语音/噪音显示(参看图1)，即信号sp_vad_prim(例如该显示等于0时为噪音，该显示等于1时为语音)。将上述信号输入缓冲器202中，该缓冲器202的输出被耦合到比较器204。比较器204的输出206被耦合到“与”门207的另一输入。“与”门207的输出为一个复合信号标识_VAD_失效_短(VAD_fail_short)，该标识输入给图1中的释放延迟逻辑块。

图13展示了图2中设备的另一示例，其中来自sw(n)的高通滤波模型(filtered version)，即高通滤波器131的输出sw_f(n)通过相关性分析器23计算出方程5的g_opt值。然后每一帧的最大幅度g_opt值取代g_max在图2的缓冲器26中进行缓冲。如图2所示相关性分析器23还接受信号sw_(n)并产生常规输出22。

图3展示了图1中的VAD的示范性实施例的相关部分。如上描述的图2所示，VAD接受了来自CAD的信号相关性参数：复合_高(complex_high)、复合_低(complex_low)、复合_悬搁_计数(complex_hang_count)。复合_高(complex_high)和复合_低(complex_low)被分别输入到相应的缓冲器30和31中，上述缓冲器的输出被分别输入到比较器32和33中。对比较器32和33的输出进行耦合并作为“或”门34的相应输入，该“或”门34向计数器控制器35输出复合_报警(complex_warning)信号。计数器控制器35对复合_报警(complex_warning)信号进行响应，从而可以控制计数器36。

声频输入信号被耦合到噪音评估器38的一个输入上，同时也被耦合到语音/噪音确定器39的一个输入上。如通常所示，语音/噪音确定器39也接受来自噪音评估器38的背景噪音的评估信息303。语音/噪音确定器通常对输入声频信号和噪音评估信息303进行响应，并产生语音/噪音显示sp_vad_prim，该显示输出给图1中的释放延迟逻辑块和CAD。

信号复合_悬搁_计数(complex_hang_count)输入到比较器37中，该比较器37的输出被耦合到噪音评估器38的一个向下(DOWN)输入中。当向下(DOWN)输入被激活时，噪音评估器38仅允许向下更新其评估值或不改变其评估值，即噪音的任何新的评估值必须表明小于或等于在前的评估值。在其它实施例中，激活向下(DOWN)输入可允许噪音评估器向上更新其评估值从而表明具有更强的噪音，但是要求更新的速度(强度)应显著减小。

噪音评估器38还有一个延迟(DELAY)输入，该输入与计数器36产生的一个称为静态_计数(stat_count)的输出信号相耦合。在常规的VAD中噪音评估器接收到一个显示信号表明输入信号例如为非稳定的、或音调或音色信号之后就延迟一段时间。在此延迟时间内，噪音评估值不能被更新为更高的值。这样有助于防止对隐藏在噪音或语音稳定信号内的非噪音信号作出错误反应。当延迟时间结束时，即使暂时显示具有语音信号，噪音评估器也可以向上更新其噪音评估值。如果噪音水平突然增加，将使整个VAD算法不会锁定到激活显示。

根据本发明，当信号显得相当相关而允许噪音评估值“快速”增长时，静态_计数(stat_count)驱动延迟(DELAY)输入，并设定噪音评估器的前述的延迟时间的下限(即需要一段与常规要求相比为较长的延迟时间)。如果CAD检测到在一个相当长的时间内(如2秒)具有非常高的相关性，静态_计数(stat_count)信号可以使噪音评估值的增加延迟相当长的一段时间(如5秒)。在一个实施例中，静态计数(stat_count)信号用于减小噪音评估值更新的速度(强度)，在这种情况下通过CAD显示出较高的相关性。

语音/噪音确定器39具有一个耦合到计数器控制器35的输入的输出301，同时该输出也耦合为噪音评估器38的输入，后者的耦合是通常使用的。当语音/噪音确定器判断出声频输入信号的一个给定帧例如是音调信号或音色信号或非稳定信号时，输出301显示将该信号输出给计数器控制器35，然后依次将计数器36的输出静态_计数(stat_count)设定为一个期望值。如果输出301显示为稳定信号时，控制器35可以使计数器36递减。

图4展示了图1中的释放延迟逻辑块的示范性实施例。在图4中，复合信号标识短_失效_VAD(VAD_fail_short)和VAD_失效_长(VAD_fail_long)被输入到”或”门41中，该“或”门41的输出作为另一个“或”门43的一个输入。来自VAD的语音/噪音显示sp_vad_prim被输入到常规的VAD释放延迟逻辑块45中。VAD释放延迟逻辑块的输出作为“或”门43的第二个输入。如果复合信号标识VAD_失效_短(VAD_fail_short)或VAD_失效_长(VAD_fail_long)之一处于激活状态，则“或”门41的输出可引起“或”门43显示出该输入信号是相关的。

如果复合信号标识都不处于激活状态，则VAD释放延迟逻辑块45的语音/噪音判断，即信号sp_vad，将构成相关/非相关显示。如果sp_vad处于激活状态，则表示为语音，然后“或”门43的输出显示信号是相关的。否则如果sp_vad处于非激活状态，则表明为噪音，然后“或”门43的输出显示信号是非相关的。例如来自“或”门43的相关/非相关显示可以被输出给一个DTX系统的DTX控制部分或者VR系统的位速率控制部分。

图5展示了图2中的参数发生器28的示范性操作流程，该操作流程可产生信号复合_高(complex_high)、复合_低(complex_low)、复合_定时程序(complex_timer)。图5(以及图6～11)中的位标i表示声频输入信号的当前帧(current frame)。如图5所示，如果信号g_f(i)不大于其相应的阈值，即在步骤51和52中对于复合_高(complex_high)信号为TH_h、在步骤54和55中对于复合_低(complex_low)信号为TH_l、在步骤57和58中对于复合_定时程序(complex_timer)信号为TH_t，则前面提及的每一个信号的值都设为零。如果在步骤51中信号g_f(i)大于阈值TH_h，则在步骤53中将信号高_复合(complex_high)设为1；如果在步骤54中信号g_f(i)大于阈值TH_l，则在步骤56中将信号复合_低(complex_low)设为1。如果在步骤57中信号g_f(i)大于阈值TH_t，则在步骤59中将信号复合_时标(complex_timer)的值增加1。在图5中的示范性阈值包括：TH_h＝0.6，TH_l＝0.5，TH_t＝0.7。由图5中可以看到复合_定时程序(complex_timer)代表了连续帧的数目，在上述数目内g_f(i)大于阈值TH_t。

图6展示了图2中的计数器控制器29和计数器201的示范性操作流程。如果在步骤61中复合_定时程序(complex_timer)大于阈值TH_ct，则在步骤62中计数器控制器29将计数器201的输出信号复合_悬搁_计数(complex_hang_count)的值设为H。如果在步骤61中复合_时标(complex_timer)不大于阈值TH_ct，但在步骤63中大于0，则在步骤64中计数器控制器29将计数器201的输出信号复合_悬搁_计数(complex_hang_count)的值减1。图6中的示范性值包括：TH_ct＝100(相应于在一个实施例中的2秒)，H＝250(相应于在一个实施例中的5秒)。

图7展示了图2中的比较器203的示范性操作流程。如果在步骤71中复合_悬搁_计数(complex_hang_count)大于TH_hc，则在步骤72中将VAD_失效_长(VAD_fail_long)设为1。否则在步骤73中将VAD_失效_长(VAD_fail_long)设为0。在一个实施例中TH_hc＝0。

图8展示了图2中的缓冲器202、比较器204和205以及“与”门207的示范性操作流程。如图8所示，如果在步骤81紧接当前的(第i点)的sp_vad_prim值之前的最近的sp_vad_prim的P值都等于0以及如果在步骤82中信号g_f(i)大于阈值TH_rs，则在步骤83中将VAD_失效_短(VAD_fail_short)设为1。否则在步骤84中将VAD_失效_短(VAD_fail_short)设为0。图8中的示范性值包括：TH_fs＝0.55，p＝10。

图9展示了图3中的缓冲器30和31、比较器32和33以及“或”门34的示范性操作流程。如果在步骤91中当前的(第i点)的复合_高(complex_high)值之前的上一次第m点的复合_高(complex_high)值都等于0，或者如果在步骤92中当前的(第i点)的复合_低(complex_low)值之前的上一次第n点的复合_低(complex_low)值都等于0，则在步骤93中将复合_报警(complex_warning)设为1。否则在步骤94中将复合_报警(complex_warning)设为0。在图9中的示范性值包括：m＝8，n＝15。

图10展示了图3中的计数器控制器35和计数器36的示范性操作流程。如果在步骤100中(参看图3中的301)表明声频信号是稳定的，则在步骤104中将静态_计数(stat_count)减小。然后如果在步骤101中复合_报警(complex_warning)＝1以及在步骤102中静态_计数(stat_count)小于值MIN，则在步骤103中将静态_计数(stat_count)的值设为MIN。如果在步骤100中声频信号是非稳定的，则在步骤105中将静态_计数(stat_count)的值设为A。在一个实施例中，MIN和A的示范性值分别是5和20，它们可以分别引起噪音评估器38(图3)的下限延迟值为100ms和400ms。

图11展示了图3中的比较器37和噪音评估器38的示范性操作流程。如果在步骤111中复合_悬搁_计数(complex_hang_count)大于阈值TH_hc，则在步骤112中比较器37激活噪音评估器38的向下输入，这样噪音评估器38仅允许向下更新其噪音评估值(或者不改变噪音评估值)。如果在步骤111中复合_悬搁_计数(complex_hang_count)不大于阈值TH_hcl，则噪音评估器38的向下输入处于非激活状态，这样在步骤113中噪音评估器38允许向下或向上更新其噪音评估值。在一个例子中，TH_hcl＝0。

如前所述，如果CAD确定输入声频信号是一个包括收听者能感觉到的相关信息的复合信号，则由CAD产生的复合信号标识允许通过VAD进行“噪音”分类有选择地超载。当通过VAD被分类为噪音的连续帧的某一预定数之后确定g_f(i)大于某一预定值时，VAD_fail_short标识可在释放延迟逻辑块的输出处触发“相关”显示。

而且在g_f(i)大于连续帧某一预定数的预定值之后，VAD_fail_long标识可在释放延迟逻辑块的输出处激发“相关”显示，并将该显示保持一段较长的保持时间。保持的时间周期可包含一系列分离的连续帧序列，其中g_f(i)大于前述的预定值，但每一个相分离的连续帧序列包括小于前述的帧的预定数。

在一个实施例中，信号相关性参数复合_悬搁_计数(complex_hang_count)可以在与复合信号标识VAD_fail_long相同的条件下使噪音评估器38的向下输入起作用。如果g_f(i)大于连续帧的第一个数的第一预定阈值或大于连续帧的第二个数的第二预定阈值，则信号相关性参数复合_高(complex_high)和复合_低(complex_low)可以这样运作，于是，即使已将多个连续帧确定(通过语音/噪音确定器39)为稳定的，噪音评估器38的延迟输入可以被提升(如需要)到一个下限值。

图12展示了可由图1～11中的语音编码器实施例完成的示范性操作流程。在步骤121中计算当前帧的具有最大幅度的归一化增益。在步骤122中对上述增益进行分析，从而产生相关性参数和复合信号标识。在步骤123中，将上述相关性参数用于在VAD中对背景噪音的评估。在步骤124中，复合信号标识用于在释放延迟逻辑块中得出相关性结论。如果在步骤125中确定声频信号不包含能感知的相关信息，则在步骤126中降低例如VR系统中的位速率或例如在DTX系统中对柔和噪声参数进行编码。

由前述可知，对于本领域的技术人员而言，可通过在常规的语音编码设备上对软件、硬件或者两者的适当修改而很方便地实现图1～13中的实施例。

虽然在前文已对本发明的示范性实施例进行了详细描述，但它并不是对本发明范围的限定，可通过多种方式实现本发明的构思。

Claims

1.一种在对音频信号进行编码的期间将可感知相关非语音信息保留在音频信号中的方法，包括：

作出关于所述音频信号是否包括语音或噪音信息的第一判断，其特征在于：

作出关于音频信号是否包括对收听者可感知相关的非语音信息的第二判断；以及

当该音频信号包括对收听者可感知相关的非语音信息时，响应于第二判断选择性地忽略所述第一判断。

2.如权利要求1所述的方法，其中所述作出第二判断的步骤包括将一个预定值与相关值相比较，该相关值与音频信号被分割成的相应帧相关。

3.如权利要求2所述的方法，其中所述有选择地忽略步骤包括：根据一个相关值大于预定值而忽略所述第一判断。

4.如权利要求2所述的方法，其中所述有选择地忽略步骤包括：根据在给定的时间周期内相关值的预定数大于预定值而忽略所述第一判断。

5.如权利要求4所述的方法，其中所述有选择地忽略步骤包括：根据连续相关值的预定数大于预定值而忽略所述第一判断。

6.如权利要求2所述的方法，包括对于每一帧探测音频信号的高通滤波模型的最高标准相关值，所述最高标准相关值分别相应于所述第一次提及的相关值。

7.如权利要求6所述的方法，其中所述探测步骤包括对于每一帧探测最大幅度标准相关值。

8.如权利要求1所述的方法，其中所述有选择地忽略步骤包括：根据可感知相关非语音信息的第二判断而忽略噪音的第一判断。

9.一种将可感知相关信息保留在音频信号中的方法，包括确定音频信号被分割成的多个帧中的每一帧的标准相关值，作出关于所述音频信号是否包括语音或噪音信号的第一判断，其特征在于：

作出关于音频信号是否包括对收听者可感知相关的非语音信息的第二判断；

当该音频信号包括对收听者可感知相关的非语音信息时，响应于第二判断，选择性地忽略所述第一判断；

对于音频信号被分割成的多个帧中的每一帧，探测音频信号的高通滤波模型的最高标准相关值；

产生所述标准相关值的第一序列；

确定代表值的第二序列来分别表示第一序列的标准相关值；

将代表值与阈值相比较从而得到音频信号是否包含可感知相关信息的指示。

10.如权利要求9所述的方法，其中所述探测步骤包括将相关性分析应用到音频信号中而不产生音频信号的高通滤波模型。

11.如权利要求9所述的方法，其中所述探测步骤包括将音频信号进行高通滤波，然后对高通滤波后的音频信号进行相关性分析。

12.如权利要求9所述的方法，其中所述探测步骤包括对于每一帧探测最大幅度标准相关值。

13.一种用于在音频信号编码器中将包含在音频信号内的可感知相关非语音信息进行保留的设备(10)，包括：一个分级器(16)，该分级器用于接收音频信号(12)，并作出所述音频信号(12)是否包括语音或噪音信息的第一判断，其特征在于还包括：

一个检测器(14)，该检测器用于接收音频信号(12)并作出音频信号(12)是否包括对收听者可感知相关的非语音信息的第二判断；以及

与所述分级器(16)和所述探测器(14)相耦合的逻辑块(18)，所述逻辑块(18)具有一个能指示音频信号(12)是否包括可感知相关信息的输出，所述逻辑块(18)可选择地在所述输出处提供指示所述第一判断的信息，并当该音频信号包括对收听者可感知相关的非语音信息时，响应于所述第二判断，从而在所述输出处选择性地忽略所述指示所述第一判断的信息。

14.如权利要求13所述的设备(10)，其中所述检测器(16)可操作地用于将预定值与一个相关值进行比较，该相关值与音频信号(12)被分割成的相应帧相关。

15.如权利要求14所述的设备(10)，其中所述逻辑块(18)可操作地用于根据相关值大于预定值而忽略所述指示所述第一判断的信息。

16.如权利要求14所述的设备(10)，其中所述逻辑块(18)可操作地用于根据在给定的时间周期内相关值的预定数大于预定值而忽略所述指示所述第一判断的信息。

17.如权利要求16所述的设备(10)，其中所述逻辑块(18)可操作地用于根据连续相关值的预定数大于预定值而忽略所述指示所述第一判断的信息，该连续相关值与时间上连续帧相关。

18.如权利要求14所述的设备，其中所述检测器(16)可操作地用于在每一所述帧内探测音频信号(12)的高通滤波模型的最高标准相关值，上述最高标准相关值分别与所述第一次提到的相关值相对应。

19.如权利要求18所述的设备，其中每一个所述最高标准相关值表示在有关的帧内的最大幅度标准相关值。

20.如权利要求13所述的设备(10)，其中所述逻辑块(18)可操作地用于根据显示可感知的相关非语音信息的所述第二判断而忽略指示噪音判断的信息。