CN106992003A - 语音信号自动增益控制方法 - Google Patents

语音信号自动增益控制方法 Download PDF

Info

Publication number
CN106992003A
CN106992003A CN201710181857.1A CN201710181857A CN106992003A CN 106992003 A CN106992003 A CN 106992003A CN 201710181857 A CN201710181857 A CN 201710181857A CN 106992003 A CN106992003 A CN 106992003A
Authority
CN
China
Prior art keywords
voice
signal
frequency
noise
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710181857.1A
Other languages
English (en)
Inventor
李云飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Beidou Satellite Mdt Infotech Ltd
Original Assignee
Shenzhen Beidou Satellite Mdt Infotech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Beidou Satellite Mdt Infotech Ltd filed Critical Shenzhen Beidou Satellite Mdt Infotech Ltd
Priority to CN201710181857.1A priority Critical patent/CN106992003A/zh
Publication of CN106992003A publication Critical patent/CN106992003A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/20Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

一种语音信号自动增益控制方法,包括获得来自麦克风的语音信号;将语音信号进行时域预处理,以得到第一信号;将第一信号从时域向频域变换,以得到第二信号;从第二信号中提取出描述人声特征的基音、共振峰频点;将前256个频点划分为16个语音频段;根据频点的有效性判断是语音帧还是静音帧,如果有效则认为当前是有人说话的语音帧,如果无效则视为无人说话的静音帧;对于语音帧执行增益的自动调整算法,对于静音帧执行非人声噪声幅度计算算法,以得到第三信号;将第三信号通过快速傅立叶逆变换转回时域以得到第四信号;根据第四信号通过DAC电路输出语音。本发明避免了在增强人声信号的同时,放大了背景噪声的问题。

Description

语音信号自动增益控制方法
技术领域
本发明涉及语音信号处理领域,特别涉及一种语音信号自动增益控制方法。
背景技术
传统的语音自动增益控制(AGC)电路通过识别麦克风采集到的语音信号的强度,自动调整功率放大电路的增益,即当人说话时离麦克风近、人声信号强度大,则降低功放电路增益,而当人说话时离麦克风远、语音强度低,则调高功放增益。这一调整方法存在的弊端是在增强人声信号的同时,也放大了背景噪声,对于需要较高语音品质的网络语音通信类产品、语音识别类产品,强的噪声会造成较大的干扰。
发明内容
本发明提供了一种语音信号自动增益控制方法,以解决现有技术在增强人声信号的同时,也放大了背景噪声,对于需要较高语音品质的网络语音通信类产品、语音识别类产品,强的噪声会造成较大的干扰的问题。
为解决上述问题,作为本发明的一个方面,提供了一种语音信号自动增益控制方法,包括:获得来自麦克风的语音信号;将所述语音信号进行时域预处理,以得到第一信号;将所述第一信号从时域向频域变换,以得到第二信号;从所述第二信号中提取出描述人声特征的基音、共振峰频点;将前256个所述频点划分为16个语音频段;根据所述频点的有效性判断是语音帧还是静音帧,如果有效则认为当前是有人说话的语音帧,如果无效则视为无人说话的静音帧;对于语音帧执行增益的自动调整算法,对于静音帧执行非人声噪声幅度计算算法,以得到第三信号;将所述第三信号通过快速傅立叶逆变换转回时域以得到第四信号;根据所述第四信号通过DAC电路输出语音。
优选地,所述方法还包括:如果在当前语音帧中未找到人声特征信息,则当前语音帧被视为静音帧,此时对非人声噪声幅度进行估算,并依次计算16个语音频段的噪声幅度值并记录。
优选地,对非人声噪声幅度进行估算,并依次计算16个语音频段的噪声幅度值并记录包括:
步骤1,采用下式计算每个语音段的噪声幅度:
其中,Af为噪声幅度;
μ为前一语音帧所有频段噪声幅度值的均值;
σ为当前频段前一帧的、幅度值的、与μ的标准差;
A测量为当前频段处的实测各频点噪声幅度的累加值;
A估计为使用最小二乘算法、拟合当前语音频段噪声参数队列中前16个当前频段处的噪声幅度值,得到的一个当前频点最新噪声估计值;
步骤2,将步骤1计算出的当前语音频段的Af加入语音频段噪声参数队列末尾,队列采用先进先出模式,一直维持最新的16个计算值;
步骤3,当前静音帧所有语音频段的噪声幅度值均计算完后,计算μ、σ值,加入到语音频段噪声参数队列,这一队列中保存的数据将在下一个静音帧到来时运用到步骤1中的计算公式中。
优选地,在语音帧中通过对256个语音频点逐点调整语音的频域幅度值,从而完成语音增益的自动调整。
优选地,所述自动调整算法具体包括:步骤a,设置语音帧噪声比例因子初始值Kn=1;步骤b,依次计算16个语音频段中各频点实测幅度的累加值,并除以该频段语音频段噪声参数队列中最后一个Af值,得到每个语音频段的噪声比例因子Knf;步骤c,遍历16个语音频段的Knf,找出Knf<1.5的值中最大的一个,并将其赋值给Kn,如找不到符合条件的Knf,则保持Kn=1不变;步骤d,执行增益自动调整操作,使用下式逐频点计算调整后的幅度值:
Ag=G(Ar-Kn*Af)
其中,G为增益比例调节因子,由用户通过旋钮进行调整;Ar为当前频点实测的幅度值。
优选地,Af是出现语音帧前,最后一个静音帧的噪声幅度值,从语音频段噪声参数队列末尾取出。
由于采用了上述技术方案,本发明中的方法可依据人的听觉模型,仅对语音信号中包含的有效人声进行信号强度的自动调整,因此避免了在增强人声信号的同时,放大了背景噪声的问题,解决了对于需要较高语音品质的网络语音通信类产品、语音识别类产品,强的噪声会造成较大的干扰的问题。
具体实施方式
以下对本发明的实施例进行详细说明,但是本发明可以由权利要求限定和覆盖的多种不同方式实施。
本发明提供了一种语音信号自动增益控制方法,包括以下步骤:
步骤A,获得来自麦克风的语音信号;其中,该语音信号由麦克风电路接收,经过4000Hz的低通滤波器电路、100Hz的高通滤波器电路、14Bits ADC转换电路,将语音信号送入主控DSP;
步骤B,将所述语音信号进行时域预处理,以得到第一信号;例如,由主控DSP完成语音信号的时域预处理,包括语音信号的8KHz 16bits采样、加海明窗处理;
步骤C,通过DSP将所述第一信号从时域向频域变换,以得到第二信号;例如,使用512点快速傅立叶变换(FFT)算法,获得语音信号的频域512个频点的幅度谱;
步骤D,使用MEL倒谱算法,从所述第二信号中提取出描述人声特征的基音、共振峰频点;
步骤E,将前256个所述频点划分为16个语音频段;
步骤F,根据所述频点的有效性判断是语音帧还是静音帧,如果有效则认为当前是有人说话的语音帧,如果无效则视为无人说话的静音帧;
步骤G,对于语音帧执行增益的自动调整算法,对于静音帧执行非人声噪声幅度计算算法,以得到第三信号;
步骤H,将所述第三信号通过快速傅立叶逆变换转回时域以得到第四信号;
步骤I,根据所述第四信号通过DAC电路输出语音。
由于采用了上述技术方案,本发明中的方法可依据人的听觉模型,仅对语音信号中包含的有效人声进行信号强度的自动调整,因此避免了在增强人声信号的同时,放大了背景噪声的问题,解决了对于需要较高语音品质的网络语音通信类产品、语音识别类产品,强的噪声会造成较大的干扰的问题。
由于流畅的网络语音(VOIP)核心在于以较小的带宽传输尽可能高质量的语音,则语音压缩的核心是只将有效人声进行压缩,而背景或噪声信号尽可能的抛弃,因此尽可能的放大人声、压制背景声、噪声能够明显的降低语音数据流对带宽的要求;语音识别类应用产品,为了提高语音的识别成功率,也需要尽可能纯净的人声信号作为输入,即需要同时放大人声并压制噪声,因此本发明能最大程度的提升前述两类已经广泛应用的技术的品质及效果。
优选地,所述方法还包括:如果在当前语音帧中未找到人声特征信息,则当前语音帧被视为静音帧,此时对非人声噪声幅度进行估算,并依次计算16个语音频段的噪声幅度值并记录。具体地说,通过下述步骤1-3计算静音帧噪声幅度:
步骤1,采用下式计算每个语音段的噪声幅度:
其中,Af为噪声幅度;
μ为前一语音帧所有频段噪声幅度值的均值;
σ为当前频段前一帧的、幅度值的、与μ的标准差;
A测量为当前频段处的实测各频点噪声幅度的累加值;
A估计为使用最小二乘算法、拟合当前语音频段噪声参数队列中前16个当前频段处的噪声幅度值,得到的一个当前频点最新噪声估计值;
步骤2,将步骤1计算出的当前语音频段的Af加入语音频段噪声参数队列末尾,队列采用先进先出模式,一直维持最新的16个计算值;
步骤3,当前静音帧所有语音频段的噪声幅度值均计算完后,计算μ、σ值,加入到语音频段噪声参数队列,这一队列中保存的数据将在下一个静音帧到来时运用到步骤1中的计算公式中。
静音帧噪声估计算法的核心思想是:由于背景噪声在微小(小于1秒)的时间区间内,是不会发生骤变的,因此通过历史(滚动记录的前16帧)信号幅度的拟合曲线能够可靠的估计出当前帧的噪声幅度,但不会发生骤变不代表不会有变化,因此使用当前帧实测噪声幅度与历史帧拟合出的估计噪声幅度进行加权平均(σ/μ即为加权系数),可以有效的虑除估计噪声幅度、实测噪声幅度中包含的计算与测量误差,从而使算法得出的结果始终以5%的浮动率跟随真实噪声水平。
优选地,在语音帧中通过对256个语音频点逐点调整语音的频域幅度值,从而完成语音增益的自动调整。
优选地,所述自动调整算法具体包括以下步骤a-d:
步骤a,设置语音帧噪声比例因子初始值Kn=1;
步骤b,依次计算16个语音频段中各频点实测幅度的累加值,并除以该频段语音频段噪声参数队列中最后一个Af值,得到每个语音频段的噪声比例因子Knf;
步骤c,遍历16个语音频段的Knf,找出Knf<1.5的值中最大的一个,并将其赋值给Kn,如找不到符合条件的Knf,则保持Kn=1不变;
步骤d,执行增益自动调整操作,使用下式逐频点计算调整后的幅度值:
Ag=G(Ar-Kn*Af)
其中,G为增益比例调节因子,由用户通过旋钮进行调整;Ar为当前频点实测的幅度值。
语音帧语音增益自动调整算法的核心思想是:统计上,尽管有可能长时间说话,但在毫秒级的时间分辨率上测量,人声将被切分成持续时间短(1-2秒)的单句模式,而背景噪声在长时间(3-5秒)内维持稳定是客观可靠的,因此语音段中我们使用最后一帧静音段得到的噪声幅度值做为基本的噪音阀值,并通过噪声比例因子来描述在多个语音帧中噪声变化的程度,从而使算法能够始终在语音帧中以5%的浮动率跟随真实噪声水平,从而得到真实的语音幅度水平。
优选地,Af是出现语音帧前,最后一个静音帧的噪声幅度值,从语音频段噪声参数队列末尾取出。之所以直接使用静音帧中的数据,是因为在短时间(一句话的时间)内,环境噪音并不会出现突变,前一帧的噪声阀值依然有效。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种语音信号自动增益控制方法,其特征在于,包括:
获得来自麦克风的语音信号;
将所述语音信号进行时域预处理,以得到第一信号;
将所述第一信号从时域向频域变换,以得到第二信号;
从所述第二信号中提取出描述人声特征的基音、共振峰频点;
将前256个所述频点划分为16个语音频段;
根据所述频点的有效性判断是语音帧还是静音帧,如果有效则认为当前是有人说话的语音帧,如果无效则视为无人说话的静音帧;
对于语音帧执行增益的自动调整算法,对于静音帧执行非人声噪声幅度计算算法,以得到第三信号;
将所述第三信号通过快速傅立叶逆变换转回时域以得到第四信号;
根据所述第四信号通过DAC电路输出语音。
2.根据权利要求1所述的语音信号自动增益控制方法,其特征在于,所述方法还包括:如果在当前语音帧中未找到人声特征信息,则当前语音帧被视为静音帧,此时对非人声噪声幅度进行估算,并依次计算16个语音频段的噪声幅度值并记录。
3.根据权利要求1和2所述的语音信号自动增益控制方法,其特征在于,对非人声噪声幅度进行估算,并依次计算16个语音频段的噪声幅度值并记录包括:
步骤1,采用下式计算每个语音段的噪声幅度:
其中,Af为噪声幅度;
μ为前一语音帧所有频段噪声幅度值的均值;
σ为当前频段前一帧的、幅度值的、与μ的标准差;
A测量为当前频段处的实测各频点噪声幅度的累加值;
A估计为使用最小二乘算法、拟合当前语音频段噪声参数队列中前16个当前频段处的噪声幅度值,得到的一个当前频点最新噪声估计值;
步骤2,将步骤1计算出的当前语音频段的Af加入语音频段噪声参数队列末尾,队列采用先进先出模式,一直维持最新的16个计算值;
步骤3,当前静音帧所有语音频段的噪声幅度值均计算完后,计算μ、σ值,加入到语音频段噪声参数队列,这一队列中保存的数据将在下一个静音帧到来时运用到步骤1中的计算公式中。
4.根据权利要求1所述的语音信号自动增益控制方法,其特征在于,在语音帧中通过对256个语音频点逐点调整语音的频域幅度值,从而完成语音增益的自动调整。
5.根据权利要求3所述的语音信号自动增益控制方法,其特征在于,所述自动调整算法具体包括:
步骤a,设置语音帧噪声比例因子初始值Kn=1;
步骤b,依次计算16个语音频段中各频点实测幅度的累加值,并除以该频段语音频段噪声参数队列中最后一个Af值,得到每个语音频段的噪声比例因子Knf;
步骤c,遍历16个语音频段的Knf,找出Knf<1.5的值中最大的一个,并将其赋值给Kn,如找不到符合条件的Knf,则保持Kn=1不变;
步骤d,执行增益自动调整操作,使用下式逐频点计算调整后的幅度值:
Ag=G(Ar-Kn*Af)
其中,G为增益比例调节因子,由用户通过旋钮进行调整;Ar为当前频点实测的幅度值。
6.根据权利要求5所述的语音信号自动增益控制方法,其特征在于,Af是出现语音帧前,最后一个静音帧的噪声幅度值,从语音频段噪声参数队列末尾取出。
CN201710181857.1A 2017-03-24 2017-03-24 语音信号自动增益控制方法 Pending CN106992003A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710181857.1A CN106992003A (zh) 2017-03-24 2017-03-24 语音信号自动增益控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710181857.1A CN106992003A (zh) 2017-03-24 2017-03-24 语音信号自动增益控制方法

Publications (1)

Publication Number Publication Date
CN106992003A true CN106992003A (zh) 2017-07-28

Family

ID=59413428

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710181857.1A Pending CN106992003A (zh) 2017-03-24 2017-03-24 语音信号自动增益控制方法

Country Status (1)

Country Link
CN (1) CN106992003A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109088611A (zh) * 2018-09-28 2018-12-25 咪付(广西)网络技术有限公司 一种声波通信系统的自动增益控制方法和装置
CN109586740A (zh) * 2018-10-25 2019-04-05 同方电子科技有限公司 数字化接收机内人声信号自动静噪的系统及方法
CN113470691A (zh) * 2021-07-08 2021-10-01 浙江大华技术股份有限公司 一种语音信号的自动增益控制方法及其相关装置

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1397929A (zh) * 2002-07-12 2003-02-19 清华大学 抗噪声语音识别用语音增强-特征加权-对数谱相加方法
US20030055646A1 (en) * 1998-06-15 2003-03-20 Yamaha Corporation Voice converter with extraction and modification of attribute data
US20070055513A1 (en) * 2005-08-24 2007-03-08 Samsung Electronics Co., Ltd. Method, medium, and system masking audio signals using voice formant information
JP2009080298A (ja) * 2007-09-26 2009-04-16 Nippon Hoso Kyokai <Nhk> 補聴装置
JP2010055002A (ja) * 2008-08-29 2010-03-11 Toshiba Corp 信号帯域拡張装置
CN103258543A (zh) * 2013-04-12 2013-08-21 大连理工大学 一种人工语音带宽扩展的方法
CN103413547A (zh) * 2013-07-23 2013-11-27 大连理工大学 一种室内混响消除的方法
CN103812462A (zh) * 2012-11-15 2014-05-21 华为技术有限公司 响度控制方法及装置
CN104409081A (zh) * 2014-11-25 2015-03-11 广州酷狗计算机科技有限公司 语音信号处理方法和装置
CN104637489A (zh) * 2015-01-21 2015-05-20 华为技术有限公司 声音信号处理的方法和装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030055646A1 (en) * 1998-06-15 2003-03-20 Yamaha Corporation Voice converter with extraction and modification of attribute data
CN1397929A (zh) * 2002-07-12 2003-02-19 清华大学 抗噪声语音识别用语音增强-特征加权-对数谱相加方法
US20070055513A1 (en) * 2005-08-24 2007-03-08 Samsung Electronics Co., Ltd. Method, medium, and system masking audio signals using voice formant information
JP2009080298A (ja) * 2007-09-26 2009-04-16 Nippon Hoso Kyokai <Nhk> 補聴装置
JP2010055002A (ja) * 2008-08-29 2010-03-11 Toshiba Corp 信号帯域拡張装置
CN103812462A (zh) * 2012-11-15 2014-05-21 华为技术有限公司 响度控制方法及装置
CN103258543A (zh) * 2013-04-12 2013-08-21 大连理工大学 一种人工语音带宽扩展的方法
CN103413547A (zh) * 2013-07-23 2013-11-27 大连理工大学 一种室内混响消除的方法
CN104409081A (zh) * 2014-11-25 2015-03-11 广州酷狗计算机科技有限公司 语音信号处理方法和装置
CN104637489A (zh) * 2015-01-21 2015-05-20 华为技术有限公司 声音信号处理的方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LEIF ET AL.: "Average loudness level, mean fundamental frequency, and subglottal pressure: comparison between female singers and nonsingers", 《JOURNAL OF VOICE》 *
李季碧: "一种基于修正倒谱平滑技术改进的维纳滤波语音增强算法", 《重庆邮电大学学报(自然科学版)》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109088611A (zh) * 2018-09-28 2018-12-25 咪付(广西)网络技术有限公司 一种声波通信系统的自动增益控制方法和装置
CN109586740A (zh) * 2018-10-25 2019-04-05 同方电子科技有限公司 数字化接收机内人声信号自动静噪的系统及方法
CN113470691A (zh) * 2021-07-08 2021-10-01 浙江大华技术股份有限公司 一种语音信号的自动增益控制方法及其相关装置

Similar Documents

Publication Publication Date Title
WO2020177371A1 (zh) 一种用于数字助听器的环境自适应神经网络降噪方法、系统及存储介质
WO2022160593A1 (zh) 一种语音增强方法、装置、系统及计算机可读存储介质
CN108831499A (zh) 利用语音存在概率的语音增强方法
JP6169849B2 (ja) 音響処理装置
CN101222555B (zh) 改善音频通话质量的系统及方法
US8712074B2 (en) Noise spectrum tracking in noisy acoustical signals
CN108735225A (zh) 一种基于人耳掩蔽效应与贝叶斯估计的改进谱减方法
CN109767782B (zh) 一种提高dnn模型泛化性能的语音增强方法
CN101901602B (zh) 一种利用受损听力的听阈进行降噪的方法
CN113766073B (zh) 会议系统中的啸叫检测
CN105741849A (zh) 数字助听器中融合相位估计与人耳听觉特性的语音增强方法
US20100004927A1 (en) Speech sound enhancement device
CN103544961B (zh) 语音信号处理方法及装置
US9183846B2 (en) Method and device for adaptively adjusting sound effect
CN106992003A (zh) 语音信号自动增益控制方法
CN110310656A (zh) 一种语音增强方法
CN109547655A (zh) 一种网络语音通话的回声消除处理的方法
CN112367600A (zh) 一种语音处理方法及基于移动终端的助听器系统
WO2022240346A1 (en) Voice optimization in noisy environments
CN106328160B (zh) 一种基于双麦克的降噪方法
CN110136734B (zh) 使用非线性增益平滑以降低音乐伪声的方法和音频噪声抑制器
JP6168451B2 (ja) 音量調整装置、音量調整方法及び音量調整システム
Deepa et al. Spectral Subtraction Method of Speech Enhancement using Adaptive Estimation of Noise with PDE method as a preprocessing technique
CN113470678A (zh) 麦克风阵列降噪方法、装置和电子设备
Fan et al. The Improvement and Implementation of Speech Enhancement Based on Mel frequency Wiener Filtering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 518000 Guangdong city of Shenzhen province Baoan District Xixiang Street Silver Road No. 4 HuaFeng Baoan Chi Technology Park D block, floor 309

Applicant after: Shenzhen Beidou Satellite Information Technology Group Co Ltd

Address before: 518000 Guangdong city of Shenzhen province Baoan District Xixiang Street Silver Road No. 4 HuaFeng Baoan Chi Technology Park D block, floor 309

Applicant before: Shenzhen Beidou satellite Mdt InfoTech Ltd

WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170728