CN101632119B - 用于对稳态背景噪声进行平滑的方法和设备 - Google Patents

用于对稳态背景噪声进行平滑的方法和设备 Download PDF

Info

Publication number
CN101632119B
CN101632119B CN2008800072341A CN200880007234A CN101632119B CN 101632119 B CN101632119 B CN 101632119B CN 2008800072341 A CN2008800072341 A CN 2008800072341A CN 200880007234 A CN200880007234 A CN 200880007234A CN 101632119 B CN101632119 B CN 101632119B
Authority
CN
China
Prior art keywords
signal
pumping signal
lpc
pumping
smooth
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2008800072341A
Other languages
English (en)
Other versions
CN101632119A (zh
Inventor
S·布鲁恩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Telefonaktiebolaget LM Ericsson AB
Original Assignee
Telefonaktiebolaget LM Ericsson AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telefonaktiebolaget LM Ericsson AB filed Critical Telefonaktiebolaget LM Ericsson AB
Publication of CN101632119A publication Critical patent/CN101632119A/zh
Application granted granted Critical
Publication of CN101632119B publication Critical patent/CN101632119B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering

Abstract

在对电信语音会话中的背景噪声进行平滑的方法中,对表示语音会话的信号进行接收和解码S10,所述信号包括语音分量和背景噪声分量这二者。之后,为所接收的信号确定LPC参数S20和激励信号S30。此后,根据所确定的LPC参数和激励信号来合成并输出(S40)输出信号。此外,通过降低激励信号的功率和频谱波动来修改S35所确定的激励信号以提供经平滑的输出信号。

Description

用于对稳态背景噪声进行平滑的方法和设备
技术领域
本发明总体上涉及电信系统中的语音编码,尤其涉及用于平滑(smooth)此类系统中的稳态背景噪声的方法和设备。
背景技术
语音编码是获得话音信号的紧凑(compact)表示以实现在带宽受限的有线和无线信道和/或存储装置上的高效传输的过程。当今,语音编码器已经成为电信和多媒体基础设施中的重要组成部分。依赖于高效语音编码的商用系统包括蜂窝通信、互联网协议语音(VOIP)、视频会议、电子玩具、存档和数字同步语音和数据(DSVD),以及众多的基于PC的游戏和多媒体应用。
作为连续时间信号,可以通过采样和量化过程对语音进行数字表示。通常使用16比特或8比特量化来对语音采样进行量化。类似于许多其他信号,语音信号包含大量冗余信息(信号中的连续采样之间的非零互信息)或者在感知上无关的信息(收听人无法感知的信息)。多数电信编码器是有损耗的,这意味着合成语音在感知上类似于原始语音、但是可能在物理上不一样。
语音编码器将数字化语音信号转换为通常以帧来传送的编码表示。相应地,语音解码器接收经编码的帧并且合成重构的语音。
许多现代语音编码器属于被称作LPC(线性预测编码器)的一大类语音编码器。此类编码器的一些实例为:3GPP FR、EFR、AMR和AMR-WB语音编解码器,3GPP2 EVRC、SMV和EVRC-WB语音编解码器,以及诸如G.728、G723、G.729等之类的各种ITU-T编解码器。
这些编码器都在信号生成过程中采用合成滤波器概念。该滤波器用于对将被再生的信号的短时频谱进行建模,而该滤波器的输入被假设为处理所有其他信号变化。
这些合成滤波器模型的共同特征是:将被再生的信号是通过定义合成滤波器的参数来表示的。术语“线性预测”是指通常用于估算滤波器参数的一类方法。在基于LPC的编码器中,语音信号被看作线性时不变(LTI)系统的输出,该系统的输入是到滤波器的激励信号。因此,将被再生的信号部分由一组滤波器参数来表示并且部分由驱动滤波器的激励信号来表示。此类编码概念的益处源于这样的事实:能够用相对少的比特高效地描述滤波器和其驱动激励信号这二者。
一个特定类别的基于LPC的编解码器是基于所谓的综合分析(AbS)原则。这些编解码器在编码器中包括了解码器的本地复本(local copy),并且通过在一组候选激励信号之中选择使合成的输出信号与原始语音信号的相似性最高的激励信号来寻找合成滤波器的驱动激励信号。
采用此类线性预测编码并且尤其是AbS编码的概念已被证明对于语音信号而言是比较适用的,即使是在例如4-12kbps的低比特率的情况下也是如此。然而,当使用此类编码技术的移动电话的用户沉默并且输入信号包括环境声音(例如噪声)时,目前已知的编码器难以应对该情况,原因是它们是针对语音信号而被优化的。当不能识别所熟悉的声音时(原因是它们已经被编码器“错误处理(mistreat)”了),接收侧的收听者会很容易变得气恼。
所谓的涡流(swirling)引起再生背景声音中最为严重的质量降级。该现象发生于相对稳态的背景噪声声音中,诸如汽车噪声,并且是由经解码信号的频谱和功率的非自然时间波动(temporal fluctuation)引起的。这些波动又是由对合成滤波器系数和其激励信号的估计和量化不足引起的。通常,当编解码器比特率增加时,涡流会变小。
在现有技术中涡流已经被认为是一个问题,并且在文献中已经针对其提出了多种解决方案。美国专利5632004[1]中描述了一种所提出的解决方案。根据该专利,在语音不活动期间,借助于低通滤波或带宽扩展对滤波器参数进行修改以使得所合成背景声音的频谱变化减少。在美国专利5579432[2]中对该方法进行了改进以使得所描述的防涡流技术仅在检测到背景噪声的稳态时才应用。
美国专利5487087[3]中描述了一种解决涡流问题的又一种方法。该方法利用了经修改的信号量化方案,该方案匹配信号本身和其时变这二者。特别地,设想了在不活动语音的时段(period)期间为LPC滤波器参数和信号增益参数使用此类波动降低的量化器。
由合成信号的不期望的功率波动所引起的信号质量降级是由另一组方法来解决的。其中之一在美国专利6275798[4]中被描述,并且也是3GPP TS 26.090[5]中所描述的AMR语音编解码器算法的一部分。根据该公开,依赖于LPC短期频谱的平稳性来自适应地(adaptively)对合成滤波器激励信号、固定码本组成中的至少一个分量的增益进行平滑。该方法已经在专利EP1096476[6]和专利申请EP1688920[7]中得到发展,其中平滑进一步涉及对信号合成中所要使用的增益进行限制。US 5953697[8]中描述了将用于LPC声码器中的相关方法。根据该公开,对合成滤波器的激励信号的增益进行控制以使得经合成语音的最大振幅刚好达到输入语音波形包络。
解决涡流问题的另一类方法作为语音解码器之后的后置处理器而运行。专利EP0665530[9]描述了一种方法,该方法在所检测到的语音不活动期间用经低通滤波的白噪声或舒适噪声信号来代替部分语音解码器输出信号。类似方法在各种出版物中被采用,这些出版物公开了利用滤波噪声代替部分语音解码器输出信号的相关方法。
参见图1,可缩放(scalable)或嵌入式编码是在多层中执行编码的编码范例。基层或核心层以低比特率对信号进行编码,而其他层(一层在另一层之上)相对于编码提供一定增强,这是通过从核心层一直到先前各层的所有层来实现的。每个层添加一定的额外比特率。所生成的比特流被嵌入,这意味着较低层编码的比特流被嵌入到较高层的比特流中。这一特性使得在传输或接收器中的任何地方丢弃属于较高层的比特成为可能。此类经剥离的(stripped)比特流仍能够被解码至保留比特的层。
当今最常见的可缩放语音压缩算法是64kbps G.711A/U律对数算法PCM编解码器。经8kHz采样的G.711编解码器将12比特或13比特线性PCM采样转换为8比特对数采样。对数采样的有序(ordered)比特表示允许偷用G.711比特流中的最低位(LSB),从而使G.711编码器在48、56和64kbps之间实际上是SNR可缩放的。出于带内控制信令的目的,将G.711编解码器的该缩放特性用于电路交换通信网络中。使用该G.711缩放特性的最近实例是3GPP TFO协议,该协议支持在传统64kbps PCM链路上进行宽带语音建立和传输。初始使用原始64kbps G.711流中的8kbps,以在不显著影响窄带服务质量的情况下兼顾宽带语音服务的呼叫建立。在呼叫建立之后,宽带语音将使用64kbps G.711流中的16kbps。其他支持开环可缩放性的较早的语音编码标准是G.727(嵌入式ADPCM)以及一定程度上的G.722(子带ADPCM)。
可缩放语音编码技术的更新的进展是MPEG-4标准,该标准为MPEG4-CELP提供了缩放性扩展。通过传输额外滤波器参数信息和额外创新参数信息,可以增强MPE基层。国际电信联盟标准化委员会ITU-T近期已经结束了新的可缩放编解码器G.729.1(也被称作G.729.EV)的标准化。该可缩放语音编解码器的比特率范围是从8kbps到32kbps。该编解码器的主要使用场合是允许在家中或办公室网关中高效地共享有限的带宽资源,例如在若干VOIP呼叫之间共享xDSL64/128kbps上行链路。
可缩放语音编码的一个最近的趋势是为较高层提供对非语音音频信号(诸如音乐)的编码的支持。在此类编解码器中,例如根据综合分析范例(在该范例中,CELP是突出的实例),较低层仅仅采用传统的语音编码。因为此类编码仅仅非常适合语音而对于诸如音乐之类的非语音音频信号就不那么适合,所以上层根据用于音频编解码器中的编码范例来工作。这里,上层编码通常对下层编码的编码误差有影响。
另一种涉及语音编解码器的相关方法是所谓的频谱倾斜补偿,其是在对经解码的语音的自适应后置滤波(postfiltering)的背景中进行的。其所解决的问题是补偿短期或共振峰(format)后置滤波器所引入的频谱倾斜。此类技术是例如AMR编解码器和SMV编解码器的一部分,并且主要目标是语音期间的编解码器性能而非其背景噪声性能。SMV编解码器在合成滤波前的加权残值域中应用该倾斜补偿,不过并非响应于该残值的LPC分析。
以上所描述的US 5632004、US 5579432和US 5487087的方法所存在的问题在于它们假设LPC合成滤波器激励具有白色(即,平坦的)频谱并且导致涡流问题的所有频谱波动都与LPC合成滤波器频谱的波动有关。然而,情况并不是这样,尤其是仅对激励信号进行粗糙量化的情况下更不如此。在这种情况下,激励信号的频谱波动具有与LPC滤波器波动类似的效果并且由此需要被避免。
解决合成信号的不期望的功率波动的方法所存在的问题在于它们仅解决涡流问题的一部分,而没有提供与频谱波动相关的解决方案。仿真显示即使与所引用的解决频谱波动的方法相结合,仍然不能避免稳态背景声音期间所有与涡流相关的信号质量降级。
作为语音解码器之后的后置处理器而运行的方法所存在的问题在于它们仅用经平滑的噪声信号代替部分经语音解码的输出信号。因此,在源自语音解码器的其余信号部分中并未解决涡流问题,并且由此并未使用与语音解码器输出信号相同的LPC合成滤波器来对最终的输出信号进行整形。这会导致可能出现的声音不连续现象,尤其是在从不活动到活动语音的过渡期间。此外,由于需要相对高的计算复杂度,所以这样的后置处理方法是不利的。
现有方法都没有针对涡流的原因之一在于LPC合成滤波器的激励信号的频谱波动的这一问题提供解决方案。该问题在以过少比特表示激励信号的情况下(这通常是以12kbps或更低的比特率进行操作的语音编解码器的情况)会尤为严重。
因此,需要用于缓解上述由话音不活动时段期间的稳态背景噪声所引起的涡流问题的方法和设备。
发明内容
本发明的目的是在电信系统中提供改进的语音信号质量。
进一步的目的在于在具有稳态背景噪声的语音不活动时段期间提供增强的语音解码器输出信号质量。
本发明公开了对电信语音会话中的背景噪声进行平滑的方法和设备。基本上,根据本发明的方法包括对表示语音会话的信号进行接收和解码S10的步骤,所述信号包括语音分量和背景噪声分量这二者。之后,为所接收的信号确定LPC参数S20和激励信号S30。此后,根据所确定的LPC参数和激励信号来合成并输出(S40)输出信号。此外,在合成步骤之前,通过降低激励信号的功率和频谱波动来修改S35所确定的激励信号以提供经平滑的输出信号。
本发明的优点包括:
实现改进的语音解码器的输出信号;
实现平滑语音解码器的输出信号。
附图说明
通过参考以下结合附图所进行的描述,可以最佳地理解本发明及其进一步的目的和优点,其中:
图1是可缩放语音和音频编解码器的示意性框图;
图2是图示根据本发明的方法的实施例的流程图;
图3是根据本发明的方法的另一实施例的流程图;
图4是图示根据本发明的方法的实施例的框图;
图5是根据本发明的设备的实施例的示图。
缩写
AbS综合分析
ADPCM自适应差分PCM
AMR-WB自适应多速率宽带
EVRC-WB增强型可变速率宽带编解码器
CELP码激励线性预测
ISP导抗谱对
ITU-T国际电信联盟
LPC线性预测编码器
LSF线谱频率
MPEG运动图像专家组
PCM脉冲编码调制
SMV可选择模式声码器
VAD话音活动检测器
具体实施方式
本发明将在一般电信系统中诸如电话呼叫之类的语音会话的背景下进行描述。典型地,所述方法和设备将在适于语音合成的解码器中实施。然而,所述方法和设备同样可以在网络中的中间节点中实施并且之后被传送至目标用户。所述电信系统可以是无线和有线的。
因此,本发明实现了用于缓解上述已知由电话语音会话中语音不活动时段期间的稳态背景噪声所导致的涡流问题的方法和设备。特别地,本发明实现在具有稳态背景噪声的语音不活动时段期间增强语音解码器输出信号的质量。
在该公开中,术语语音会话将被解释为通过电信系统进行的话音信号的任意交换。因此,语音会话信号能够被描述为包括活动部分和背景部分。所述活动部分是会话的实际话音信号。所述背景部分是用户处的环境噪声,也被称作背景噪声。不活动时段被定义为语音会话中没有活动部分仅有背景部分(例如,会话的话音部分不活动)的时间段。
根据基本实施例,本发明通过在检测语音不活动时段期间降低LPC合成滤波器激励信号的功率变化和频谱波动而实现了对语音会话质量的改进。
根据进一步的实施例,通过将激励信号修改与LPC参数平滑操作相结合来进一步改进输出信号。
参见图2的流程图,根据本发明的方法实施例包括对表示语音会话的信号(即,包括活动话音信号形式的语音分量和/或稳态背景噪声分量)进行接收和解码S10。之后,为所接收的信号确定LPC参数集合S20。此外,为所接收的信号确定激励信号S30。根据所确定的LPC参数和所确定的激励信号来合成并输出S40输出信号。根据本发明,通过降低激励信号的功率和频谱波动来对激励信号进行改进或修改S35以提供经平滑的输出信号。
将参考图3的流程图对根据本发明的方法的另一实施例进行描述。相应步骤保留与图2中相同的附图标记。除之前所描述实施例的修改激励信号的步骤之外,所确定的LPC参数集合还经受修改操作S25,例如LPC参数平滑。
参见图4,根据本发明进一步实施例的LPC参数平滑S25包括以如此方式执行LPC参数平滑以使得通过某因子β来控制平滑程度,所述β又是从被称作噪度(noisiness)因子的参数得到的。
在第一步骤中,计算S20经低通滤波的LPC参数集合。优选地,这是通过根据下式的一阶自回归滤波来进行的:
a ~ ( n ) = λ · a ~ ( n - 1 ) + ( 1 - λ ) · a ( n ) - - - ( 1 )
这里,表示对当前帧n所获得的经低通滤波的LPC参数矢量,a(n)是帧n的经解码LPC参数矢量,并且λ为控制平滑程度的权重因子。λ的适当选择为0.9。
在第二步骤S25中,根据:
a ^ ( n ) = ( 1 - β ) · a ~ ( n ) + β · a ( n ) - - - ( 2 )
使用平滑控制因子β来计算经低通滤波的LPC参数矢量
Figure G2008800072341D00083
和经解码的LPC参数矢量a(n)的加权组合。
LPC参数可以为适于滤波和内插的任意表示,并且优选地被表示为线谱频率(LSF)或导抗谱对(ISP)。
典型地,语音解码器可跨子帧对LPC参数进行内插,其中优选地也对经低通滤波的LPC参数进行相应内插。在一个特定实施例中,语音解码器利用20ms长度的帧进行操作,所述帧内为4个均为5ms的子帧。如果语音解码器原本通过在先前帧的结束帧LPC参数矢量a(n-1)、中间帧LPC参数矢量am(n)和当前帧的结束帧LPC参数矢量a(n)之间进行内插来计算4个子帧LPC参数矢量,则如下计算经低通滤波的LPC参数矢量和经解码的LPC参数矢量的加权组合:
a ^ ( n - 1 ) = ( 1 - β ) · a ~ ( n - 1 ) + β · a ( n - 1 ) - - - ( 3 )
a ^ m ( n - 1 ) = ( 1 - β ) · 0.5 · ( a ~ ( n - 1 ) + a ~ ( n ) ) + β · a m ( n - 1 ) - - - ( 4 )
a ^ ( n ) = ( 1 - β ) · a ~ ( n ) + β · a ( n ) - - - ( 5 )
接下来,代替原本解码的LPC参数矢量a(n-1)、am(n)和a(n),这些经平滑的LPC参数矢量被用于逐子帧(subframe-wise)的内插。
如前所述,本发明的要素是在话音不活动时段期间降低LPC滤波器激励信号的功率和频谱波动。根据本发明的优选实施例,进行修改以使得激励信号在频谱倾斜中具有更少的波动并且实质上对现有的频谱倾斜进行补偿。
因此,发明人考虑并认识到许多语音编解码器(尤其是AbS编解码器)未必产生无倾斜(tilt-free)或白激励信号。相反,它们利用目标对激励进行优化以便将原始输入信号与合成信号相匹配,尤其在低速率语音编码器的情况下,这会导致帧与帧之间激励信号的频谱倾斜的明显波动。
能够利用根据下式的倾斜补偿滤波器(或白化滤波器)H(z)进行倾斜补偿:
H ( z ) = 1 - Σ k = 1 P a i · z - i - - - ( 6 )
该滤波器的系数ai被容易地计算为原始激励信号的LPC系数。预测器级P的适当选择为1,在这样的情况下实质上是倾斜补偿而不是执行白化。在这种情况下,系数ai被计算为
a 1 = r e ( 1 ) r e ( 0 ) - - - ( 7 )
其中re(0)和re(1)为原始LPC合成滤波器激励信号的第0个和第1个自相关系数。
优选地,对每个帧或每个子帧至少执行一次所描述的倾斜补偿或白化操作。
根据特定的可替换实施例,还能够通过以白噪声信号代替部分激励信号来降低激励信号的功率和频谱波动。为此,首先生成适当缩放的随机序列。如此执行缩放以使得其功率与激励信号的功率或激励信号的经平滑的功率相等。优选后一种情况并且能够通过对激励信号功率的估计或者从其得到的激励增益因子进行低通滤波来进行平滑。因此,未经平滑的增益因子g(n)被计算为激励信号的功率的平方根。接着,优选地通过根据下式的一阶自回归滤波执行低通滤波:
g ~ ( n ) = κ · g ~ ( n - 1 ) + ( 1 - κ ) · g ( n ) - - - ( 8 )
这里,
Figure G2008800072341D00094
表示为当前帧n所获得的经低通滤波的增益因子,而κ为控制平滑程度的权重因子。对κ适当的选择为0.9。如果原始随机序列具有为1的归一化功率(方差),则在缩放到噪声信号r之后,其功率对应于激励信号的功率或激励信号的经平滑的功率。要注意的是,也可以根据:
log ( g ~ ( n ) ) = κ · log ( g ~ ( n - 1 ) ) + ( 1 - κ ) · log ( g ( n ) ) - - - ( 9 )
在对数域中进行增益因子的平滑操作。
在下一个步骤中,将激励信号与噪声信号进行组合。为此,通过某因子α对激励信号e进行缩放,利用某因子β对噪声信号r进行缩放,并接着将两个经缩放的信号相加:
ê′=α·e+β·r    (10)
因数β可以但不必与用于LPC参数平滑的控制因子β相对应。其同样可以从被称作噪度因子的参数得到。根据优选实施例,因子β被选择为1-α。在这种情况下,α的适当选择为0.5或更大但小于或等于1。除非α等于1,否则就看到信号ê′具有小于激励信号e的功率。该效应进而可能导致不活动和活动语音之间的过渡中合成输出信号的不期望的不连续性。为了解决这一问题,必须要考虑e和r通常为统计上独立的随机序列。因此,所修改的激励信号的功率依赖于因子α以及激励信号e和噪声信号r的功率,如下:
P{ê′}=α2·P{e}+(1-α)2·P{r}(11)
因此,为了确保经修改的激励信号具有适当的功率,则必须进一步通过因子γ对其进行缩放:
ê=γ·ê′(12)
在噪声信号的功率和经修改的激励信号的期望功率等于激励信号的功率P{e}的简化假设之下(忽略以上所描述的噪声信号的功率平滑),发现必须如下选择因子γ:
γ = 1 α 2 + ( 1 - α ) 2 - - - ( 13 )
适当的近似方法是仅利用因子γ对激励信号而不是噪声信号进行缩放:
ê=γ·α·e+(1-α)·r    (14)
优选地,对每个帧进行一次所描述的噪声混合操作,但是也可以对每个子帧进行一次。
在仔细研究的过程中,发现所描述的倾斜补偿(白化)和所描述的激励信号的噪声修改优选地组合进行。在这种情况下,能够在利用倾斜补偿的激励信号而不是语音解码器的原始激励信号来操作噪声修改时获得合成背景噪声信号的最佳质量。
为了使得所述方法更优地运行,有必要确保LPC参数平滑或激励修改都不会对活动语音信号造成影响。根据基本实施例并参考图4,如果响应于指示语音不活动的VAD(S50)而激活平滑操作,则这就成为可能。
本发明的另一优选实施例为其在可缩放语音编解码器中的应用。能够通过以下步骤来实现整体性能的进一步改进:使所描述的稳态背景噪声的平滑操作与对信号进行解码所用的比特率相适应。优选地,仅在低速率的低层的解码中进行平滑,而当以较高比特率进行解码时则关闭(或减少)平滑。原因在于高层通常不那么受涡流的影响并且平滑操作甚至影响解码器以较高比特率再次合成语音信号的保真度。
将参考图5来描述实现根据本发明的方法的解码器中的设备1。
设备1包括用于接收输入信号并从所述设备传送输出信号的通用输出/输入单元I/O 10。优选地,所述单元包括用于对所述设备接收和解码信号的任意必要功能。此外,设备1包括用于对所接收和经解码的信号进行解码并且确定LPC参数的LPC参数单元20以及用于对所接收的输入信号进行解码并且确定激励信号的激励单元30。此外,设备1包括用于通过降低激励信号的功率和频谱波动来修改所确定的激励信号的修改单元35。最后,设备1包括用于至少根据所确定的LPC参数和经修改的所确定激励信号来提供经平滑的合成语音输出信号的LPC合成单元或滤波器40。
根据进一步的实施例,仍然参考图5,所述设备包括用于对来自LPC参数单元20的所确定的LPC参数进行平滑的平滑单元25。此外,LPC合成单元40适于至少根据经平滑的LPC参数和经修改的激励信号来确定合成语音信号。
最后,所述设备能够被提供有用于检测语音会话是否包括活动话音部分(例如,某人实际上正在讲话)或是否仅存在背景噪声(例如,用户之一沉默且移动电话仅提示背景噪声)的检测单元。在这种情况下,所述设备适于仅在存在语音会话的不活动话音部分的情况下执行修改步骤。换句话说,本发明的平滑操作(LPC参数平滑和/或激励信号修改)仅在话音不活动时段期间才得以执行。
本发明的优势包括:
利用本发明,可以改进在语音不活动时段期间稳态背景噪声信号(如汽车噪声)的重构或合成语音信号质量。
本领域技术人员将会理解的是,可以对本发明进行各种修改和改变而不会偏离其由所附权利要求所限定的范围。
参考文献
美国专利5632004
美国专利5579432
美国专利5487087
美国专利6275798 B1
3GPP TS 26.090,AMR Speech Codec;Transcoding functions
EP 1096476
EP 1688920
美国专利5953697
EP 665530 B1

Claims (12)

1.一种对电信语音会话中的背景噪声进行平滑的方法,包括:
对表示语音会话的信号进行接收和解码(S10),所述信号包括语音分量和背景噪声分量这二者;
为所述接收的信号确定(S20)LPC参数;
为所述接收的信号确定(S30)激励信号;
根据所述LPC参数和所述激励信号来合成并输出(S40)输出信号,其特征在于:
通过提供经低通滤波的LPC参数集合来修改(S25)所述确定的LPC参数集合,以及确定所述经低通滤波的LPC参数集合和所述确定的LPC参数集合的加权组合,并且根据所述经修改的LPC参数集合来执行所述合成和输出步骤以提供经平滑的输出信号,
通过降低激励信号的功率和频谱波动来修改(S35)所述确定的激励信号并由此提供经平滑的输出信号。
2.如权利要求1所述的方法,其特征在于通过一阶自回归滤波来执行所述低通滤波。
3.如权利要求1所述的方法,其特征在于修改(S35)所述激励信号的所述步骤包括通过对倾斜进行补偿来修改所述激励信号的频谱。
4.如权利要求1所述的方法,其特征在于修改激励信号的所述步骤进一步包括用白噪声信号来代替至少部分激励信号。
5.如权利要求4所述的方法,其特征在于以下步骤:对所述白噪声信号的功率进行缩放以与所确定的激励信号或者其经平滑的表示的功率相等,以及将所确定的激励信号和经缩放的噪声信号进行线性组合以提供所述经修改的激励信号。
6.如权利要求5所述的方法,其特征在于执行所述线性组合以使得经修改的激励信号的功率等于原始激励信号的功率。
7.如之前任一项权利要求所述的方法,其特征在于另外的步骤(S50):确定所述语音分量是活动还是不活动。
8.如权利要求7所述的方法,其特征在于仅在所述语音分量不活动时才执行对所述确定的激励信号的所述修改步骤(S35)。
9.一种平滑设备,包括:
用于对表示语音会话的信号进行接收和解码的装置(10),所述信号包括语音分量和背景噪声分量这二者;
用于为所述接收的信号确定LPC参数的装置(20);
用于为所述接收的信号确定激励信号的装置(30);
用于根据所述LPC参数和所述激励信号来合成输出信号的装置(40),其特征在于:
用于通过提供经低通滤波的LPC参数集合来修改所述确定的LPC参数集合的装置(25),所述装置(25)适于确定所述经低通滤波的LPC参数集合和所述确定的LPC参数集合的加权组合,并且所述合成装置(40)适于根据所述经修改的LPC参数集合来合成所述输出信号以提供经平滑的输出信号,以及
用于通过降低激励信号的功率和频谱波动来修改所述确定的激励信号并由此提供经平滑的输出信号的装置(35)。
10.如权利要求9所述的设备,其特征在于用于检测所述语音分量的不活动状态的另外装置。
11.如权利要求10所述的设备,其特征在于所述激励信号修改装置(35)适于响应于所检测到的不活动语音分量而执行对所述确定的激励信号的所述修改。
12.电信系统中包括如权利要求9-11中任一项所述的平滑设备的解码器单元。
CN2008800072341A 2007-03-05 2008-02-13 用于对稳态背景噪声进行平滑的方法和设备 Active CN101632119B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US89299407P 2007-03-05 2007-03-05
US60/892,994 2007-03-05
PCT/SE2008/050169 WO2008108719A1 (en) 2007-03-05 2008-02-13 Method and arrangement for smoothing of stationary background noise

Publications (2)

Publication Number Publication Date
CN101632119A CN101632119A (zh) 2010-01-20
CN101632119B true CN101632119B (zh) 2012-08-15

Family

ID=39738501

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008800072341A Active CN101632119B (zh) 2007-03-05 2008-02-13 用于对稳态背景噪声进行平滑的方法和设备

Country Status (10)

Country Link
US (1) US8457953B2 (zh)
EP (3) EP2945158B1 (zh)
JP (1) JP5340965B2 (zh)
KR (1) KR101462293B1 (zh)
CN (1) CN101632119B (zh)
AU (1) AU2008221657B2 (zh)
ES (2) ES2548010T3 (zh)
PL (2) PL2132731T3 (zh)
PT (1) PT2945158T (zh)
WO (1) WO2008108719A1 (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8386266B2 (en) 2010-07-01 2013-02-26 Polycom, Inc. Full-band scalable audio codec
CN102741831B (zh) 2010-11-12 2015-10-07 宝利通公司 多点环境中的可伸缩音频
SI2774145T1 (sl) * 2011-11-03 2020-10-30 Voiceage Evs Llc Izboljšane negovorne vsebine v celp dekoderju z nizko frekvenco
EP3550562B1 (en) * 2013-02-22 2020-10-28 Telefonaktiebolaget LM Ericsson (publ) Methods and apparatuses for dtx hangover in audio coding
CN105761723B (zh) 2013-09-26 2019-01-15 华为技术有限公司 一种高频激励信号预测方法及装置
US9697843B2 (en) * 2014-04-30 2017-07-04 Qualcomm Incorporated High band excitation signal generation
CN105225670B (zh) 2014-06-27 2016-12-28 华为技术有限公司 一种音频编码方法和装置
CN106531175B (zh) * 2016-11-13 2019-09-03 南京汉隆科技有限公司 一种网络话机柔和噪声产生的方法
KR102198598B1 (ko) * 2019-01-11 2021-01-05 네이버 주식회사 합성 음성 신호 생성 방법, 뉴럴 보코더 및 뉴럴 보코더의 훈련 방법

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0665530A1 (en) * 1994-01-28 1995-08-02 AT&T Corp. Voice activity detection driven noise remediator
CN1155139A (zh) * 1995-06-30 1997-07-23 索尼公司 降低语音信号噪声的方法
EP1083548A2 (en) * 1999-09-10 2001-03-14 Nec Corporation Method for gain control of a CELP speech decoder
EP1204092A2 (en) * 2000-11-06 2002-05-08 Nec Corporation Speech decoder capable of decoding background noise signal with high quality
CN1484824A (zh) * 2000-10-18 2004-03-24 ��˹��ŵ�� 用于估算语音调制解调器中的模拟高频段信号的方法和系统

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4667340A (en) * 1983-04-13 1987-05-19 Texas Instruments Incorporated Voice messaging system with pitch-congruent baseband coding
US5233660A (en) * 1991-09-10 1993-08-03 At&T Bell Laboratories Method and apparatus for low-delay celp speech coding and decoding
SE470577B (sv) 1993-01-29 1994-09-19 Ericsson Telefon Ab L M Förfarande och anordning för kodning och/eller avkodning av bakgrundsljud
SE501305C2 (sv) 1993-05-26 1995-01-09 Ericsson Telefon Ab L M Förfarande och anordning för diskriminering mellan stationära och icke stationära signaler
JP2906968B2 (ja) * 1993-12-10 1999-06-21 日本電気株式会社 マルチパルス符号化方法とその装置並びに分析器及び合成器
US5487087A (en) 1994-05-17 1996-01-23 Texas Instruments Incorporated Signal quantizer with reduced output fluctuation
JP3557662B2 (ja) * 1994-08-30 2004-08-25 ソニー株式会社 音声符号化方法及び音声復号化方法、並びに音声符号化装置及び音声復号化装置
US5781880A (en) * 1994-11-21 1998-07-14 Rockwell International Corporation Pitch lag estimation using frequency-domain lowpass filtering of the linear predictive coding (LPC) residual
US5727125A (en) * 1994-12-05 1998-03-10 Motorola, Inc. Method and apparatus for synthesis of speech excitation waveforms
US5774837A (en) * 1995-09-13 1998-06-30 Voxware, Inc. Speech coding system and method using voicing probability determination
US6064962A (en) * 1995-09-14 2000-05-16 Kabushiki Kaisha Toshiba Formant emphasis method and formant emphasis filter device
GB2312360B (en) * 1996-04-12 2001-01-24 Olympus Optical Co Voice signal coding apparatus
JP3607774B2 (ja) * 1996-04-12 2005-01-05 オリンパス株式会社 音声符号化装置
JP3270922B2 (ja) * 1996-09-09 2002-04-02 富士通株式会社 符号化,復号化方法及び符号化,復号化装置
JPH1091194A (ja) * 1996-09-18 1998-04-10 Sony Corp 音声復号化方法及び装置
US6269331B1 (en) * 1996-11-14 2001-07-31 Nokia Mobile Phones Limited Transmission of comfort noise parameters during discontinuous transmission
US5960389A (en) * 1996-11-15 1999-09-28 Nokia Mobile Phones Limited Methods for generating comfort noise during discontinuous transmission
TW326070B (en) 1996-12-19 1998-02-01 Holtek Microelectronics Inc The estimation method of the impulse gain for coding vocoder
US6026356A (en) * 1997-07-03 2000-02-15 Nortel Networks Corporation Methods and devices for noise conditioning signals representative of audio information in compressed and digitized form
JP3223966B2 (ja) * 1997-07-25 2001-10-29 日本電気株式会社 音声符号化/復号化装置
US6163608A (en) * 1998-01-09 2000-12-19 Ericsson Inc. Methods and apparatus for providing comfort noise in communications systems
GB9811019D0 (en) * 1998-05-21 1998-07-22 Univ Surrey Speech coders
US6240386B1 (en) * 1998-08-24 2001-05-29 Conexant Systems, Inc. Speech codec employing noise classification for noise compensation
US6275798B1 (en) 1998-09-16 2001-08-14 Telefonaktiebolaget L M Ericsson Speech coding with improved background noise reproduction
JP3478209B2 (ja) 1999-11-01 2003-12-15 日本電気株式会社 音声信号復号方法及び装置と音声信号符号化復号方法及び装置と記録媒体
JP2001142499A (ja) * 1999-11-10 2001-05-25 Nec Corp 音声符号化装置ならびに音声復号化装置
PL351813A1 (en) * 2000-01-07 2003-06-16 Koninkl Philips Electronics Nv Method of deriving the coefficients to be use in an encoding device prediction filter
US7010480B2 (en) * 2000-09-15 2006-03-07 Mindspeed Technologies, Inc. Controlling a weighting filter based on the spectral content of a speech signal
EP1339041B1 (en) * 2000-11-30 2009-07-01 Panasonic Corporation Audio decoder and audio decoding method
TW564400B (en) * 2001-12-25 2003-12-01 Univ Nat Cheng Kung Speech coding/decoding method and speech coder/decoder

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0665530A1 (en) * 1994-01-28 1995-08-02 AT&T Corp. Voice activity detection driven noise remediator
CN1155139A (zh) * 1995-06-30 1997-07-23 索尼公司 降低语音信号噪声的方法
EP1083548A2 (en) * 1999-09-10 2001-03-14 Nec Corporation Method for gain control of a CELP speech decoder
CN1484824A (zh) * 2000-10-18 2004-03-24 ��˹��ŵ�� 用于估算语音调制解调器中的模拟高频段信号的方法和系统
EP1204092A2 (en) * 2000-11-06 2002-05-08 Nec Corporation Speech decoder capable of decoding background noise signal with high quality

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ATSUSHI MURASHIMA et al..A Post-Processing Technique to Improve Coding Quality of CELP Under Background Noise.《IEEE Workshop on Speech Coding Proceedings, 2000》.2000,102-104. *

Also Published As

Publication number Publication date
KR20090129450A (ko) 2009-12-16
AU2008221657B2 (en) 2010-12-02
EP2132731A1 (en) 2009-12-16
JP5340965B2 (ja) 2013-11-13
PL2945158T3 (pl) 2020-07-13
ES2778076T3 (es) 2020-08-07
JP2010520512A (ja) 2010-06-10
EP2132731A4 (en) 2014-04-16
AU2008221657A1 (en) 2008-09-12
EP3629328A1 (en) 2020-04-01
PT2945158T (pt) 2020-02-18
CN101632119A (zh) 2010-01-20
US8457953B2 (en) 2013-06-04
KR101462293B1 (ko) 2014-11-14
WO2008108719A1 (en) 2008-09-12
EP2945158B1 (en) 2019-12-25
PL2132731T3 (pl) 2015-12-31
ES2548010T3 (es) 2015-10-13
EP2945158A1 (en) 2015-11-18
EP2132731B1 (en) 2015-07-22
US20100114567A1 (en) 2010-05-06

Similar Documents

Publication Publication Date Title
US10984806B2 (en) Method and system for encoding a stereo sound signal using coding parameters of a primary channel to encode a secondary channel
CN101632119B (zh) 用于对稳态背景噪声进行平滑的方法和设备
CN101627426B (zh) 用于控制稳态背景噪声的平滑的方法和设备
JP4390803B2 (ja) 可変ビットレート広帯域通話符号化におけるゲイン量子化方法および装置
CN101395661B (zh) 音频编码和解码的方法和设备
JP2007538283A (ja) オーディオ用コーダ・モード切り替え支援
JP2006525533A5 (zh)
JP2003501675A (ja) 時間同期波形補間によるピッチプロトタイプ波形からの音声を合成するための音声合成方法および音声合成装置
JP2010520504A (ja) レイヤード・コーデックのためのポストフィルタ
Song et al. Harmonic enhancement in low bitrate audio coding using an efficient long-term predictor
Kikuiri et al. Variable bit rate control with trellis diagram approximation.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant