CN101034878B - 增益调整方法和增益调整装置 - Google Patents

增益调整方法和增益调整装置 Download PDF

Info

Publication number
CN101034878B
CN101034878B CN200610101106.6A CN200610101106A CN101034878B CN 101034878 B CN101034878 B CN 101034878B CN 200610101106 A CN200610101106 A CN 200610101106A CN 101034878 B CN101034878 B CN 101034878B
Authority
CN
China
Prior art keywords
spectrum
gain
frequency range
power
voice signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN200610101106.6A
Other languages
English (en)
Other versions
CN101034878A (zh
Inventor
白川美由纪
铃木政直
土永义照
牧内孝志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of CN101034878A publication Critical patent/CN101034878A/zh
Application granted granted Critical
Publication of CN101034878B publication Critical patent/CN101034878B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G5/00Tone control or bandwidth control in amplifiers
    • H03G5/005Tone control or bandwidth control in amplifiers of digital signals
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G5/00Tone control or bandwidth control in amplifiers
    • H03G5/16Automatic control
    • H03G5/165Equalizers; Volume or gain control in limited frequency bands
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Telephone Function (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Control Of Amplification And Gain Control (AREA)

Abstract

公开了一种增益调整方法和增益调整装置,用于调整对输入语音信号进行信号处理而获得的经处理的语音信号的增益。根据该增益调整方法,计算所述经处理的语音信号的掩蔽属性,以及如果有频率根据掩蔽属性而被掩蔽,则对每一个这样的频率调整增益,同时在未被掩蔽的频率,抵消所述经处理的语音信号和所述输入语音信号之间的差。

Description

增益调整方法和增益调整装置
技术领域
本发明总体涉及一种增益调整方法和增益调整装置,尤其涉及一种用于调整对其进行了信号处理的语音信号的增益并用于输出经增益调整的信号的增益调整方法和增益调整装置。
背景技术
包括谈话和音频内容的语音信号常常被压缩编码以减少信息量,从而当将内容存储在记录介质中时可以使用较小的存储容量并且当通过网络(诸如互联网和蜂窝电话系统)发送信号时可以使用较低的传输速度。
此外,IP电话系统和蜂窝电话系统通常使用诸如语音强调法、噪声抵消器法和回声抵消器法的各种信号处理方法,从而增强了语音的清晰度。这些信号处理方法趋向于输出比输入语音信号的功率更大的量的功率。由于此原因,提供增益调整处理以使输出语音信号的增益(电平)得到适当控制。
图1是传统增益调整装置的示例的框图,该装置包括:信号处理单元1,用于执行对输入语音信号的信号处理,所述信号处理包括语音强调法、噪声抵消器法和回声抵消器法;和增益控制单元2,用于控制经信号处理的语音信号的增益(电平)以使输出电平等于输入语音信号电平。
此外,专利参考文献1公开了对音频信号的频率特征进行补偿,其中,将音频信号(电信号)转换为语音并使其可听,从音频信号和语音的监控信号中提取噪声,根据基于该噪声的频谱的掩蔽效应(masking effect)来确定音频信号的增益。
[专利参考文献1]JPA 8-70228
这里,考虑一示例,其中,使用语音强调处理以增加共振峰的功率,共振峰是语音信号的频谱的峰值。即,通过图1的信号处理单元1,共振峰的功率如图2A所示地增加。当将经功率增加的频谱变换到时域时,波幅可能超过限制,导致如图2B所示发生削波(clipping),而削波产生可听到的噪声。
为了防止削波,由图1的增益控制单元2执行增益调整。虽然由过大的波幅产生的噪声可以如图3B所示被抑制,但是由于传统上对整个频谱的功率进行增益调整,所以问题在于语音强调的效果如图3B所示被减弱。
发明内容
本发明提供了一种增益调整方法和增益调整装置,其基本上消除了由现有技术的局限和缺点而导致的一个或更多个问题。
在以下说明中阐述了本发明的实施例的特征,并且这些特征根据说明书和附图将部分地显而易见,或者可以通过根据说明书中提供的教导实践本发明而被了解。通过说明书中具体指出的增益调整方法和增益调整装置将实现和获得本发明的实施例所提供的问题的解决方案,所述说明书完整、清除、简洁并确切,从而使本领域的普通技术人员能够实践本发明。
为了实现这些解决方案并且根据本发明的一方面,如在此实施并广义描述的,本发明的实施例提供了一种能够防止发生削波同时不牺牲信号处理的效果的增益调整方法和增益调整装置。
[解决问题的手段]
本发明的一方面提供了一种增益调整方法,其调整对输入语音信号执行信号处理而获得的经处理的语音信号的增益,所述经处理的语音信号被输出到下一级,所述增益调整方法包括以下步骤:
通过增益调整装置的第一正交变换单元(22a)对所述经处理的语音信号执行正交变换,使其变换为频域中的第一频谱功率,该经处理的语音信号是通过在时域中对所述输入语音信号执行信号处理而获得的;
通过增益调整装置的第一频段划分单元(22b)从所述第一频谱功率中产生第一频谱能量,其中该第一频谱功率被划分为N个频段,每个频段具有预定的带宽,并且所述第一频谱能量表示为所划分的该N个频段的频谱功率之和;
通过增益调整装置的第二正交变换单元(24a)对时域中的所述输入语音信号执行正交变换,使其变换为频域中的第二频谱功率;
通过增益调整装置的第二频段划分单元(24b)从所述第二频谱功率中产生第二频谱能量,其中该第二频谱功率被划分为N个频段,每个频段具有预定的带宽,并且所述第二频谱能量表示为所划分的该N个频段的频谱功率之和;
基于所述第一频谱能量,通过增益调整装置的听觉感知分析单元(26)对每个所述N个频段计算所述经处理的语音信号的掩蔽功率;
通过增益调整装置的频谱选择单元(28a),从所述N个频段中选择其中所述第一频谱能量低于对应的所述经处理的语音信号的掩蔽功率的频段;
通过增益调整装置的调整率确定单元(28b)对每个所述N个频段确定调整率,以使得经增益调整的频谱能量和所述第二频谱能量之间的差变为0,其中所述经增益调整的频谱能量是通过对所选择的多个频段进行所述第一频谱能量的增益调整而获得的;
根据对所述选择的多个频段所确定的调整率,通过增益调整装置的增益调整单元(28c)对所述选择的多个频段调整所述第一频谱能量的各个频谱功率,以产生所述经增益调整的频谱能量;以及
通过增益调整装置的第三正交变换单元(30a),在频域中对所述经增益调整的频谱能量的各个频谱功率执行逆正交变换,使其变换为时域中的输出语音信号,并在时域中输出该输出语音信号。按此方式,输出信号的波幅未被削减,同时信号处理的效果没有降低。
根据本发明的另一方面,提供了一种增益调整方法,其调整对在频域中的输入语音信号执行信号处理而获得的在频域中的经处理的语音信号的增益,所述经处理的语音信号被输出到下一级,所述增益调整方法包括以下步骤:
在增益调整装置的第一输入处提供在频域中的所述经处理的语音信号的第一频谱功率(Y(f)),其中该第一频谱功率被划分为N个频段,每个频段具有预定的带宽,并且第一频谱能量表示为所划分的该N个频段的频谱功率之和;
在增益调整装置的第二输入处提供在频域中的所述输入语音信号的第二频谱功率(X(f)),其中该第二频谱功率被划分为N个频段,每个频段具有预定的带宽,并且第二频谱能量表示为所划分的该N个频段的频谱功率之和;
基于所述第一频谱能量,通过增益调整装置的听觉感知分析单元(46)对每个所述N个频段计算所述经处理的语音信号的掩蔽功率(My(f));
通过增益调整装置的频谱选择单元(48a),从所述N个频段中选择其中所述第一频谱能量低于对应的所述经处理的语音信号的掩蔽功率的频段;
通过增益调整装置的调整率确定单元(48b)对每个所述N个频段确定调整率,以使得经增益调整的频谱能量和所述第二频谱能量之间的差等于0,其中所述经增益调整的频谱能量是通过对所选择的多个频段进行所述第一频谱能量的增益调整而获得的;以及
根据对所述选择的多个频段所确定的调整率,通过增益调整装置的增益调整单元(48c)对所述选择的多个频段调整所述第一频谱能量的各个频谱功率,以产生所述经增益调整的频谱能量的输出语音信号,并在频域中输出该输出语音信号。
根据本发明的另一方面,对每个频段(即逐频段地)执行增益调整。
根据本发明的另一方面,对每个频谱(即逐频谱地)执行增益调整。
本发明的另一方面提供了一种增益调整装置,用于调整对输入信号执行信号处理而获得的经处理的语音信号的增益,所述增益调整装置包括:
第一正交变换单元(22a),其配置为对所述经处理的语音信号执行正交变换,使其变换为频域中的第一频谱功率,该经处理的语音信号是通过在时域中对所述输入语音信号执行信号处理而获得的;
第一频段划分单元(22b),其配置为从所述第一频谱功率中产生第一频谱能量,其中该第一频谱功率被划分为N个频段,每个频段具有预定的带宽,并且所述第一频谱能量表示为所划分的该N个频段的频谱功率之和;
第二正交变换单元(24a),其配置为对时域中的所述输入语音信号执行正交变换,使其变换为频域中的第二频谱功率;
第二频段划分单元(24b),其配置为从所述第二频谱功率中产生第二频谱能量,其中该第二频谱功率被划分为N个频段,每个频段具有预定的带宽,并且所述第二频谱能量表示为所划分的该N个频段的频谱功率之和;
听觉感知分析单元(26),其配置为基于所述第一频谱能量对每个所述N个频段计算所述经处理的语音信号的掩蔽功率;
频谱选择单元(28a),其配置为从所述N个频段中选择其中所述第一频谱能量低于对应的所述经处理的语音信号的掩蔽功率的频段;
调整率确定单元(28b),其配置为对每个所述N个频段确定调整率,以使得经增益调整的频谱能量和所述第二频谱能量之间的差变为0,其中所述经增益调整的频谱能量是通过对所选择的多个频段进行所述第一频谱能量的增益调整而获得的;
增益调整单元(28c),其配置为根据对所述选择的多个频段所确定的调整率,对所述选择的多个频段调整所述第一频谱能量的各个频谱功率,以产生所述经增益调整的频谱能量;以及
第三正交变换单元(30a),其配置为在频域中对所述经增益调整的频谱能量的各个频谱功率执行逆正交变换,使其变换为时域中的输出语音信号,并在时域中输出该输出语音信号。按此方式,输出信号的波幅未被削减,同时信号处理的效果没有降低。
根据本发明的另一方面提供了一种增益调整装置,用于调整对在频域中的输入语音信号执行信号处理而获得的在频域中的经处理的语音信号的增益,所述经处理的语音信号被输出到下一级,
其中,在所述增益调整装置的第一输入处提供在频域中的所述经处理的语音信号的第一频谱功率(Y(f)),该第一频谱功率被划分为N个频段,每个频段具有预定的带宽,并且第一频谱能量表示为所划分的该N个频段的频谱功率之和;
在所述增益调整装置的第二输入处提供在频域中的所述输入语音信号的第二频谱功率(X(f)),该第二频谱功率被划分为N个频段,每个频段具有预定的带宽,并且第二频谱能量表示为所划分的该N个频段的频谱功率之和;
所述增益调整装置包括:
听觉感知分析单元(46),其配置为基于所述第一频谱能量对每个所述N个频段计算所述经处理的语音信号的掩蔽功率(My(f));
频谱选择单元(48a),其配置为从所述N个频段中选择其中所述第一频谱能量低于对应的所述经处理的语音信号的掩蔽功率的频段;
调整率确定单元(48b),其配置为对每个所述N个频段确定调整率,以使得经增益调整的频谱能量和所述第二频谱能量之间的差等于0,其中所述经增益调整的频谱能量是通过对所选择的多个频段进行所述第一频谱能量的增益调整而获得的;以及
增益调整单元(48c),其配置为根据对所述选择的多个频段所确定的调整率,对所述选择的多个频段调整所述第一频谱能量的各个频谱功率,以产生所述经增益调整的频谱能量的输出语音信号,并在频域中输出该输出语音信号。
根据本发明的另一方面,调整单元调整各频段的增益。
根据本发明的另一方面,调整单元调整各频谱的增益。
发明的另一方面提供了一种增益调整装置,其包括:
第一正交变换单元,用于执行正交变换,将时域内的输入语音信号变换为频域内的输入语音信号;
第二正交变换单元,用于对经处理的语音信号执行正交变换,所述经处理的语音信号是对时域内的输入语音信号执行信号处理而获得的,所述正交变换将其变换为频域内的经处理的语音信号;
掩蔽属性计算单元,用于计算频域内的经处理的语音信号的掩蔽属性;
频率选择单元,用于从频域内的经处理的语音信号中选出根据所述掩蔽属性而被掩蔽的频率;
增益确定单元,用于对由频率选择单元选出的频率中的每一个频率的增益进行确定,使得在根据所述掩蔽属性而被掩蔽的频率之外的频率中,经处理的语音信号和输入语音信号之间的差被抵消;
增益调整单元,用于根据由增益确定单元确定的增益对由频率选择单元选择的频率进行增益调整;和
第三正交变换单元,用于对由增益调整单元输出的频域内的语音信号执行正交变换,将其变换为时域内的语音信号,并用于输出该时域内的语音信号。按此方式,输出信号的波幅未被削减,同时信号处理的效果没有降低。
[本发明的效果]
根据本发明,输出信号的波幅未被削减,同时保持了信号处理的效果。
附图说明
图1是传统增益调整装置的一示例的框图;
图2是用于解释传统示例的波形图;
图3是用于解释传统示例的波形图;
图4是示出了根据本发明的实施例1的增益调整装置的原理的框图;
图5是根据本发明的实施例1的增益调整装置的框图;
图6是用于解释本发明的波形图;
图7是用于解释本发明的波形图;
图8是用于解释本发明的波形图;以及
图9是根据本发明的实施例2的增益调整装置的框图。
具体实施方式
下面参照附图描述本发明的实施例。
<本发明的原理>
图4示出了根据本发明的实施例1的增益调整装置的原理。向信号处理单元10提供输入语音信号,信号处理单元10将经处理的语音信号输出到增益调整装置。增益调整装置包括增益调整处理单元20,增益调整处理单元20包括:正交变换单元22和24,用于分别将输入语音信号和经处理的语音信号正交变换为频谱;听觉感知分析单元26,用于计算听觉不可感知的声音的功率(掩蔽功率);和增益控制单元28,用于考虑到该掩蔽功率来调整增益。
听觉感知分析单元26基于作为功率调整的对象的经处理的语音信号来计算掩蔽功率,掩蔽功率是听觉不可感知的声音的功率。增益控制单元28考虑到掩蔽功率,调整经处理的语音信号的听觉不可感知的频段的增益,从而输出语音信号的功率可变得与输入语音信号的功率几乎相同。
<实施例1>
图5是根据本发明的实施例1的增益调整装置的框图。参照图5,将时域内的输入语音信号X(t)提供给信号处理单元10,在信号处理单元10中执行信号处理,例如执行语音强调处理以使共振峰的功率增加,所述共振峰是输入语音信号的频谱的峰值。经如上处理的语音信号称为经处理的语音信号Y(t),并被提供给增益调整处理单元20。
正交变换单元22的FFT(快速傅立叶变换)22a将经处理的语音信号Y(t)变换为频域中的频谱功率Y(f)。此外,正交变换单元24的FFT 24a将输入语音信号X(t)变换为频域中的频谱功率X(f)。
频段划分单元22b将频谱功率Y(f)分为N个频段,每个频段具有微小的带宽,并且获得频谱能量Py(f),其是这N个频段的频谱功率之和,即,Py(f)={Py(1),Py(2),...,Py(N)}。频段划分单元24b将频谱功率X(f)分为N个频段,每个频段具有微小的带宽,并且获得频谱能量Px(f),其是这N个频段的频谱功率之和,即,Px(f)={Px(1),Px(2),...,Px(N)}。
听觉感知分析单元26基于频谱能量Py(f)计算掩蔽功率My(f)={My(1),My(2),...,My(N)},并将掩蔽功率My(f)提供给增益控制单元28。为了计算掩蔽功率My(f),使用由公知的参考文献(ISO/IEC 13818-7:2003and Advanced Audio Coding)指出的心理声学模型。
增益控制单元28包括频谱选择单元28a,通过将频谱能量Py(f)与掩蔽功率My(f)相比较而选择频谱能量Py(f)被掩蔽(即低于掩蔽功率My(f))的频段。选择的频段是用于增益调整的频段。
增益控制单元28还包括调整率确定单元28b,其用于确定对N个频段中的每一个的调整率,即,α(f)={α(1),α(2),...,α(N)}。这里,调整率对应于每个频段的增益。
整个输入语音信号的频谱能量和整个经处理的语音信号的频谱能量分别表示为∑Px(f)=Px(1)+Px(2)+...+Px(N)以及∑Py(f)=Py(1)+Py(2)+...+Py(N)。然后,经处理的语音信号的能量和输入语音信号的能量之间的差E由下面的公式(1)表示。
E=∑Py(f)-∑Px(f)--(1)
此外,在经处理的语音信号的频谱能量Py(f)和调整率α(f)(其等同于增益)之间存在如下面的公式(2)所表示的关系。
&Sigma; &alpha; ( f ) Py ( f ) = &alpha; 1 Py 1 + &alpha; 2 Py 2 + . . . + &alpha; N Py N
= &alpha; 1 &alpha; 2 . . . &alpha; N Py 1 Py 2 . . . Py N . . . ( 2 ) .
E = &Sigma; &alpha; ( f ) Py ( f ) - &Sigma;Px - - - ( f )
= &alpha; 1 &alpha; 2 . . . &alpha; N Py 1 Py 2 . . . Py N - &Sigma;Px ( f ) . . . ( 3 )
输入语音信号和经增益调整的语音信号之间的差E由该公式表示。
这里,确定α(f)={α(1),α(2),...,α(N)}以使输入语音信号Px(f)和经增益调整的语音信号的频谱能量α(f)Py(f)之间的差E变为0,如下面的公式(4)所示。
&alpha; 1 &alpha; 2 . . . &alpha; N Py 1 Py 2 . . . Py N - &Sigma;Px ( f ) = 0 . . . ( 4 )
增益控制单元28包括调整单元28c,用于通过根据由调整率确定单元28b确定的调整率α(f)对每个频段的频谱能量Py(f)进行调整,从而获得频谱能量Pz(f)={Pz(1),Pz(2),...,Pz(N)},如下面的公式(5)所表示的。
Pz(f)=Py(f)×α(f)...(5)
正交变换单元30的频谱划分单元30a将频谱能量Pz(f)转换为频谱功率Z(f),并且正交变换单元30的IFFT(逆FFT)单元30b将频谱功率Z(f)转换为语音信号Z(t),语音信号Z(t)被输出。
<当Y(t)大于X(t)时>
描述第一种情况,其中,经处理的信号Y(t)的功率大于输入信号X(t)的功率,调整Y(t)的增益以使输出信号Z(t)的功率下降到与X(t)的功率相同的电平。
参照图6A,从频谱能量Py(f)获得被显示为阴影区的掩蔽功率My(f)。在Py(f)>My(f)的区域中,不进行增益调整,即α(f)=1。在Py(f)<My(f)的区域中,将调整率α(f)设置为小于1以满足公式(4)。按此方式,调整后输出的频谱能量Pz(f)如图7A所示。结果,时域内的输出语音信号Z(t)不超过最大波幅,并且如图7B所示,输出语音信号的波幅未被削减。
<当Y(t)小于X(t)时>
接下来,描述第二种情况,其中,经处理的信号Y(t)的功率小于输入信号X(t)的功率,调整Y(t)的增益以使输出Z(t)的功率增加到与X(t)的功率相同的电平。
从图8A所示的频谱能量Py(f)中获得被显示为图8A中的阴影区的掩蔽功率My(f)。在Py(f)>My(f)的区域中,不进行调整,即调整率α(f)=1。在Py(f)<My(f)时,将调整率α(f)设置为大于1的值,使该值满足公式(4)并且满足α(f)Py(f)<My(f)。按此方式,调整后输出的频谱能量Pz(f)如图8B所示。结果,时域内的输出语音信号Z(t)不超过最大波幅,并且如图8C所示,输出语音信号的波幅不被削减。
如上所述,根据本发明的实施例1,通过调整听觉不可感知的一部分信号的功率,可以在不降低信号处理的效果和话音质量的情况下调整增益。
这里,虽然上述实施例1使用FFT来将时域内的语音信号变换为频域内的语音信号,但是可以使用MDCT(改进的离散余弦变换)来代替FFT。
<实施例2>
图9是根据本发明的实施例2的增益调整装置的框图。根据实施例2,输入频域内的输入语音信号的频谱功率,即,X(f)={X(1),X(2),...,X(N)}。输出频域内的语音信号的频谱功率Z(f)={Z(1),Z(2),...,Z(N)}。信号处理单元35用于例如使用语音强调处理来处理输入语音信号以增加共振峰的功率,共振峰是输入语音信号的频谱的峰值。将由信号处理单元35输出的经处理的语音信号的频谱功率Y(f)={Y(1),Y(2),...,Y(N)}提供给增益调整处理单元40。
基于频谱功率Y(f),增益调整处理单元40的听觉感知分析单元46为每个频谱计算掩蔽功率My(f)={My(1),My(2),...,My(N)},并将该掩蔽功率提供给增益控制单元48。为了计算掩蔽功率My(f),使用由公知的参考文献(ISO/IEC 13818-7:2003and Advanced Audio Coding)指出的心理声学模型。
增益控制单元48包括频谱选择单元48a,其通过将频谱功率Y(f)与掩蔽功率My(f)相比较选择频谱功率Y(f)被掩蔽(即低于掩蔽功率My(f))的频谱。选择的频谱是增益调整的对象。
增益控制单元48包括调整率确定单元48b,其用于确定与增益相对应的调整率α(f)={α(1),α(2),...,α(N)}。
整个输入语音信号的能量和整个经处理的语音信号的能量可分别被表示为∑X(f)=X(1)+X(2)+...+X(N)以及∑Y(f)=Y(1)+Y(2)+...+Y(N)。然后,经处理的语音信号的能量和输入语音信号的能量之间的差E由下面的公式(6)表示。
E=∑Y(f)-∑X(f)--(6)
此外,在经处理的语音信号的能量Y(f)和与增益相对应的调整率α(f)之间存在如下面的公式(7)所表示的关系。
[等式7]
&Sigma; &alpha; ( f ) Y ( f ) = &alpha; 1 Y 1 + &alpha; 2 Y 2 + . . . + &alpha; N Y N
= &alpha; 1 &alpha; 2 . . . &alpha; N Y 1 Y 2 . . . Y N . . . ( 7 )
E = &Sigma; &alpha; ( f ) Y ( f ) - &Sigma;X ( f )
= &alpha; 1 &alpha; 2 . . . &alpha; N Y 1 Y 2 . . . Y N - &Sigma;X ( f ) . . . ( 8 )
输入语音信号和经增益调整的语音信号之间的差E由公式(8)表示。
确定α(f)={α(1),α(2),...,α(N)}以使经增益调整的语音信号的能量和输入语音信号的能量之间的差E变为0,如下面的公式(9)所示。
&alpha; 1 &alpha; 2 . . . &alpha; N Y 1 Y 2 . . . Y N - &Sigma;X ( f ) = 0 . . . . ( 9 )
增益控制单元48还包括调整单元48c,用于如下面的公式(10)所示地通过根据由调整率确定单元48b确定的相应调整率α(f)对频谱功率Y(f)的每个频谱的增益进行调整,获得频谱功率Z(f)并将其输出。
Z(f)=Y(f)×α(f)...(10)
此外,本发明不限于这些实施例,而是在不脱离本发明的范围的情况下,可进行变型和修改。
本发明基于2006年3月9日在日本专利局提交的第2006-064546号日本在先申请,通过引用将其全部内容并入于此。

Claims (4)

1.一种增益调整方法,其调整对输入语音信号执行信号处理而获得的经处理的语音信号的增益,所述经处理的语音信号被输出到下一级,所述增益调整方法包括以下步骤:
通过增益调整装置的第一正交变换单元(22a)对所述经处理的语音信号执行正交变换,使其变换为频域中的第一频谱功率,该经处理的语音信号是通过在时域中对所述输入语音信号执行信号处理而获得的;
通过增益调整装置的第一频段划分单元(22b)从所述第一频谱功率中产生第一频谱能量,其中该第一频谱功率被划分为N个频段,每个频段具有预定的带宽,并且所述第一频谱能量表示为所划分的该N个频段的频谱功率之和;
通过增益调整装置的第二正交变换单元(24a)对时域中的所述输入语音信号执行正交变换,使其变换为频域中的第二频谱功率;
通过增益调整装置的第二频段划分单元(24b)从所述第二频谱功率中产生第二频谱能量,其中该第二频谱功率被划分为N个频段,每个频段具有预定的带宽,并且所述第二频谱能量表示为所划分的该N个频段的频谱功率之和;
基于所述第一频谱能量,通过增益调整装置的听觉感知分析单元(26)对每个所述N个频段计算所述经处理的语音信号的掩蔽功率;
通过增益调整装置的频谱选择单元(28a),从所述N个频段中选择其中所述第一频谱能量低于对应的所述经处理的语音信号的掩蔽功率的频段;
通过增益调整装置的调整率确定单元(28b)对每个所述N个频段确定调整率,以使得经增益调整的频谱能量和所述第二频谱能量之间的差变为0,其中所述经增益调整的频谱能量是通过对所选择的多个频段进行所述第一频谱能量的增益调整而获得的;
根据对所述选择的多个频段所确定的调整率,通过增益调整装置的增益调整单元(28c)对所述选择的多个频段调整所述第一频谱能量的各个频谱功率,以产生所述经增益调整的频谱能量;以及
通过增益调整装置的第三正交变换单元(30a),在频域中对所述经增益调整的频谱能量的各个频谱功率执行逆正交变换,使其变换为时域中的输出语音信号,并在时域中输出该输出语音信号。
2.一种增益调整方法,其调整对在频域中的输入语音信号执行信号处理而获得的在频域中的经处理的语音信号的增益,所述经处理的语音信号被输出到下一级,所述增益调整方法包括以下步骤:
在增益调整装置的第一输入处提供在频域中的所述经处理的语音信号的第一频谱功率(Y(f)),其中该第一频谱功率被划分为N个频段,每个频段具有预定的带宽,并且第一频谱能量表示为所划分的该N个频段的频谱功率之和;
在增益调整装置的第二输入处提供在频域中的所述输入语音信号的第二频谱功率(X(f)),其中该第二频谱功率被划分为N个频段,每个频段具有预定的带宽,并且第二频谱能量表示为所划分的该N个频段的频谱功率之和;
基于所述第一频谱能量,通过增益调整装置的听觉感知分析单元(46)对每个所述N个频段计算所述经处理的语音信号的掩蔽功率(My(f));
通过增益调整装置的频谱选择单元(48a),从所述N个频段中选择其中所述第一频谱能量低于对应的所述经处理的语音信号的掩蔽功率的频段;
通过增益调整装置的调整率确定单元(48b)对每个所述N个频段确定调整率,以使得经增益调整的频谱能量和所述第二频谱能量之间的差等于0,其中所述经增益调整的频谱能量是通过对所选择的多个频段进行所述第一频谱能量的增益调整而获得的;以及
根据对所述选择的多个频段所确定的调整率,通过增益调整装置的增益调整单元(48c)对所述选择的多个频段调整所述第一频谱能量的各个频谱功率,以产生所述经增益调整的频谱能量的输出语音信号,并在频域中输出该输出语音信号。
3.一种增益调整装置,用于调整对输入语音信号执行信号处理而获得的经处理的语音信号的增益,所述经处理的语音信号被输出到下一级,所述增益调整装置包括:
第一正交变换单元(22a),其配置为对所述经处理的语音信号执行正交变换,使其变换为频域中的第一频谱功率,该经处理的语音信号是通过在时域中对所述输入语音信号执行信号处理而获得的;
第一频段划分单元(22b),其配置为从所述第一频谱功率中产生第一频谱能量,其中该第一频谱功率被划分为N个频段,每个频段具有预定的带宽,并且所述第一频谱能量表示为所划分的该N个频段的频谱功率之和;
第二正交变换单元(24a),其配置为对时域中的所述输入语音信号执行正交变换,使其变换为频域中的第二频谱功率;
第二频段划分单元(24b),其配置为从所述第二频谱功率中产生第二频谱能量,其中该第二频谱功率被划分为N个频段,每个频段具有预定的带宽,并且所述第二频谱能量表示为所划分的该N个频段的频谱功率之和;
听觉感知分析单元(26),其配置为基于所述第一频谱能量对每个所述N个频段计算所述经处理的语音信号的掩蔽功率;
频谱选择单元(28a),其配置为从所述N个频段中选择其中所述第一频谱能量低于对应的所述经处理的语音信号的掩蔽功率的频段;
调整率确定单元(28b),其配置为对每个所述N个频段确定调整率,以使得经增益调整的频谱能量和所述第二频谱能量之间的差变为0,其中所述经增益调整的频谱能量是通过对所选择的多个频段进行所述第一频谱能量的增益调整而获得的;
增益调整单元(28c),其配置为根据对所述选择的多个频段所确定的调整率,对所述选择的多个频段调整所述第一频谱能量的各个频谱功率,以产生所述经增益调整的频谱能量;以及
第三正交变换单元(30a),其配置为在频域中对所述经增益调整的频谱能量的各个频谱功率执行逆正交变换,使其变换为时域中的输出语音信号,并在时域中输出该输出语音信号。
4.一种增益调整装置,用于调整对在频域中的输入语音信号执行信号处理而获得的在频域中的经处理的语音信号的增益,所述经处理的语音信号被输出到下一级,
其中,在所述增益调整装置的第一输入处提供在频域中的所述经处理的语音信号的第一频谱功率(Y(f)),该第一频谱功率被划分为N个频段,每个频段具有预定的带宽,并且第一频谱能量表示为所划分的该N个频段的频谱功率之和;
在所述增益调整装置的第二输入处提供在频域中的所述输入语音信号的第二频谱功率(X(f)),该第二频谱功率被划分为N个频段,每个频段具有预定的带宽,并且第二频谱能量表示为所划分的该N个频段的频谱功率之和;
所述增益调整装置包括:
听觉感知分析单元(46),其配置为基于所述第一频谱能量对每个所述N个频段计算所述经处理的语音信号的掩蔽功率(My(f));
频谱选择单元(48a),其配置为从所述N个频段中选择其中所述第一频谱能量低于对应的所述经处理的语音信号的掩蔽功率的频段;
调整率确定单元(48b),其配置为对每个所述N个频段确定调整率,以使得经增益调整的频谱能量和所述第二频谱能量之间的差等于0,其中所述经增益调整的频谱能量是通过对所选择的多个频段进行所述第一频谱能量的增益调整而获得的;以及
增益调整单元(48c),其配置为根据对所述选择的多个频段所确定的调整率,对所述选择的多个频段调整所述第一频谱能量的各个频谱功率,以产生所述经增益调整的频谱能量的输出语音信号,并在频域中输出该输出语音信号。
CN200610101106.6A 2006-03-09 2006-06-30 增益调整方法和增益调整装置 Expired - Fee Related CN101034878B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2006064546 2006-03-09
JP2006-064546 2006-03-09
JP2006064546A JP4738213B2 (ja) 2006-03-09 2006-03-09 利得調整方法及び利得調整装置

Publications (2)

Publication Number Publication Date
CN101034878A CN101034878A (zh) 2007-09-12
CN101034878B true CN101034878B (zh) 2011-08-10

Family

ID=36608675

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200610101106.6A Expired - Fee Related CN101034878B (zh) 2006-03-09 2006-06-30 增益调整方法和增益调整装置

Country Status (4)

Country Link
US (1) US7916874B2 (zh)
EP (1) EP1833164A1 (zh)
JP (1) JP4738213B2 (zh)
CN (1) CN101034878B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2289065B1 (en) * 2008-06-10 2011-12-07 Dolby Laboratories Licensing Corporation Concealing audio artifacts
US8391212B2 (en) * 2009-05-05 2013-03-05 Huawei Technologies Co., Ltd. System and method for frequency domain audio post-processing based on perceptual masking
TWI459828B (zh) * 2010-03-08 2014-11-01 Dolby Lab Licensing Corp 在多頻道音訊中決定語音相關頻道的音量降低比例的方法及系統
JP5106651B2 (ja) 2011-03-31 2012-12-26 株式会社東芝 信号処理装置及び信号処理方法
WO2014108222A1 (en) * 2013-01-08 2014-07-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Improving speech intelligibility in background noise by sii-dependent amplification and compression
CN104347067B (zh) * 2013-08-06 2017-04-12 华为技术有限公司 一种音频信号分类方法和装置
US9706302B2 (en) * 2014-02-05 2017-07-11 Sennheiser Communications A/S Loudspeaker system comprising equalization dependent on volume control
KR102423753B1 (ko) 2015-08-20 2022-07-21 삼성전자주식회사 스피커 위치 정보에 기초하여, 오디오 신호를 처리하는 방법 및 장치
CN112306448A (zh) * 2020-01-15 2021-02-02 北京字节跳动网络技术有限公司 根据环境噪声调节输出音频的方法、装置、设备和介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1206043A1 (en) * 2000-11-08 2002-05-15 Sony International (Europe) GmbH Noise reduction in a stereo receiver
CN1383314A (zh) * 2001-04-20 2002-12-04 阿尔卡塔尔公司 话音通信中的噪声调制掩蔽和噪声干扰的方法
CN1416564A (zh) * 2000-01-12 2003-05-07 声波创新有限公司 减噪仪器及方法
US6687669B1 (en) * 1996-07-19 2004-02-03 Schroegmeier Peter Method of reducing voice signal interference

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4381488A (en) * 1981-02-18 1983-04-26 Fricke Jobst P Dynamic volume expander varying as a function of ambient noise level
JPS6225800A (ja) * 1985-07-26 1987-02-03 株式会社日立製作所 音声分析合成方式
US4630302A (en) * 1985-08-02 1986-12-16 Acousis Company Hearing aid method and apparatus
JP2563719B2 (ja) * 1992-03-11 1996-12-18 技術研究組合医療福祉機器研究所 音声加工装置と補聴器
JP3306600B2 (ja) * 1992-08-05 2002-07-24 三菱電機株式会社 自動音量調整装置
JPH06208395A (ja) * 1992-10-30 1994-07-26 Gijutsu Kenkyu Kumiai Iryo Fukushi Kiki Kenkyusho ホルマント検出装置及び音声加工装置
GB2272615A (en) * 1992-11-17 1994-05-18 Rudolf Bisping Controlling signal-to-noise ratio in noisy recordings
JPH0870228A (ja) 1994-08-26 1996-03-12 Toshiba Corp オ−ディオ再生装置
JP3522986B2 (ja) * 1995-09-21 2004-04-26 株式会社東芝 ノイズキャンセラおよびこのノイズキャンセラを使用した通信装置
JPH1083193A (ja) * 1996-09-09 1998-03-31 Matsushita Electric Ind Co Ltd 音声合成装置および音声素片作成方法
GB2342829B (en) * 1998-10-13 2003-03-26 Nokia Mobile Phones Ltd Postfilter
EP1312162B1 (en) 2000-08-14 2005-01-12 Clear Audio Ltd. Voice enhancement system
JP4147445B2 (ja) * 2001-02-26 2008-09-10 アドフォクス株式会社 音響信号処理装置
JP4227421B2 (ja) * 2003-01-15 2009-02-18 富士通株式会社 音声強調装置および携帯端末
JP5030250B2 (ja) * 2005-02-04 2012-09-19 キヤノン株式会社 電子機器及びその制御方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6687669B1 (en) * 1996-07-19 2004-02-03 Schroegmeier Peter Method of reducing voice signal interference
CN1416564A (zh) * 2000-01-12 2003-05-07 声波创新有限公司 减噪仪器及方法
EP1206043A1 (en) * 2000-11-08 2002-05-15 Sony International (Europe) GmbH Noise reduction in a stereo receiver
CN1383314A (zh) * 2001-04-20 2002-12-04 阿尔卡塔尔公司 话音通信中的噪声调制掩蔽和噪声干扰的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JP特开2000-22473A 2000.01.21
JP特开平8-70228A 1996.03.12

Also Published As

Publication number Publication date
EP1833164A1 (en) 2007-09-12
CN101034878A (zh) 2007-09-12
JP4738213B2 (ja) 2011-08-03
US7916874B2 (en) 2011-03-29
US20070223716A1 (en) 2007-09-27
JP2007243709A (ja) 2007-09-20

Similar Documents

Publication Publication Date Title
CN101034878B (zh) 增益调整方法和增益调整装置
US6317709B1 (en) Noise suppressor having weighted gain smoothing
DE60108401T2 (de) System zur erhöhung der sprachqualität
DE60034212T2 (de) Verfahren und vorrichtung zur adaptiven rauschunterdrückung
CN101964670B (zh) 回声抑制方法及回声抑制设备
US9357307B2 (en) Multi-channel wind noise suppression system and method
US7242783B1 (en) Audio limiting circuit
US6980665B2 (en) Spectral enhancement using digital frequency warping
US8718290B2 (en) Adaptive noise reduction using level cues
RU2467406C2 (ru) Способ и устройство для поддержки воспринимаемости речи в многоканальном звуковом сопровождении с минимальным влиянием на систему объемного звучания
US9076456B1 (en) System and method for providing voice equalization
US20240079021A1 (en) Voice enhancement method, apparatus and system, and computer-readable storage medium
US20030216907A1 (en) Enhancing the aural perception of speech
EP2372700A1 (en) A speech intelligibility predictor and applications thereof
EP3245795B1 (en) Reverberation suppression using multiple beamformers
CN101901602B (zh) 一种利用受损听力的听阈进行降噪的方法
CN103067821B (zh) 一种基于双麦克的语音混响消减方法和装置
CN104067339A (zh) 噪音抑制装置
US11323806B2 (en) Apparatus and method for modifying a loudspeaker signal for preventing diaphragm over-deflection
US20060089836A1 (en) System and method of signal pre-conditioning with adaptive spectral tilt compensation for audio equalization
CN102097100A (zh) 一种通过加噪音来降低稳态噪音的装置及方法
US20030065509A1 (en) Method for improving noise reduction in speech transmission in communication systems
CN110168640A (zh) 用于增强信号中需要分量的装置和方法
US11361746B2 (en) Audio playback apparatus and method having noise-canceling mechanism
KR100875264B1 (ko) 암묵신호분리를 위한 후처리 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110810

Termination date: 20180630

CF01 Termination of patent right due to non-payment of annual fee