CN102779527A - 基于窗函数共振峰增强的语音增强方法 - Google Patents
基于窗函数共振峰增强的语音增强方法 Download PDFInfo
- Publication number
- CN102779527A CN102779527A CN201210278305XA CN201210278305A CN102779527A CN 102779527 A CN102779527 A CN 102779527A CN 201210278305X A CN201210278305X A CN 201210278305XA CN 201210278305 A CN201210278305 A CN 201210278305A CN 102779527 A CN102779527 A CN 102779527A
- Authority
- CN
- China
- Prior art keywords
- resonance peak
- window function
- frame
- mentioned
- formants
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 230000002708 enhancing effect Effects 0.000 claims abstract description 11
- 238000001914 filtration Methods 0.000 claims abstract description 5
- 238000012545 processing Methods 0.000 claims abstract description 5
- 238000004364 calculation method Methods 0.000 claims abstract description 4
- 238000001228 spectrum Methods 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 7
- 239000000284 extract Substances 0.000 claims description 5
- 238000005311 autocorrelation function Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000008901 benefit Effects 0.000 abstract description 3
- 230000003595 spectral effect Effects 0.000 abstract 3
- 238000009432 framing Methods 0.000 abstract 1
- 230000006870 function Effects 0.000 description 16
- 238000004891 communication Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 206010038743 Restlessness Diseases 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开了一种基于窗函数共振峰增强的语音增强方法,包括以下步骤:对语音信号进行预加重;对预加重后的语音信号进行分帧;对分帧后的语音信号进行清浊音判决,提取浊音帧信号;对提取的浊音帧信号,采用线性预测(LPC)方法,计算出浊音帧信号频谱包络;根据计算出的频谱包络,搜索共振峰,并记录下前三个共振峰的中心频率和幅值;根据上述记录下的前三个共振峰的中心频率和幅值,确定提升滤波器的强度系数和待增强的中心频率;根据上述确定的提升滤波器的强度系数和待增强的中心频率,进行共振峰增强;对上述共振峰增强后的共振峰增强谱滤波处理。实现在增强语音的目的的同时计算简单、鲁棒性好的优点。
Description
技术领域
本发明涉及语言处理领域,具体地,涉及一种基于窗函数共振峰增强的语音增强方法。
背景技术
语音编码在通信系统、语音存储回放系统、具有语音功能的消费类产品中有广泛的应用。近些年来国际电信联盟(ITU)、区域组织和一些国家相继制定了一系列语音压缩编码标准,在编码速率为2.4kb/s和16kb/s上达到了令人满意的语音质量。然而,当将几种不同的编码方式级联时,例如将G729和AMR级联时,得出的语音质量特别是可懂度很难达到满意的效果。
语音的可懂度简称语音可懂度,一般涉及语音的理解程度,并且是语音通信有效性的度量。讲话很快或者是讲话含糊不清的人可能很难被理解。但是,如果消息不是完全听得到,或者消息在传送过程中已经失真或能量损失过大,则即使听者的母语流利说出的语音也有可能会被听者误解。
目前国内外的语音可懂度增强技术的研究主要集中在由背景噪声所降低的语音的清晰度,而这些语音的共振峰信息往往保持完好,故增强对话区域的共振峰便能达到提高可懂度的目的。然而现实生活中语音经传输后能量削弱,会导致共振峰信息的丢失甚至是畸变,例如上述所说的G729和AMR级联,由于经过两次级联语音能量特别是高频信息损失严重,导致语音共振峰信息削弱或是丢失。在这种背景下,简单地增强共振峰是很难达到提高可懂度的目的的。
现有的用共振峰增强对话的方法和装置,仅在噪声环境下且语音共振峰保持完好的情况下可以提高语音的清晰度,一旦共振峰信息丢失、畸变或提取不正确,使用这一方法对于提高可懂度效果不理想且有可能同时放大噪声,也就是说可懂度提升的同时会降低语音的音质;二是获取的共振峰可靠性差、计算复杂。
发明内容
本发明的目的在于,针对上述问题,提出一种基于窗函数共振峰增强的语音增强方法,以实现在增强语音的目的的同时计算简单、鲁棒性好的优点。
为实现上述目的,本发明采用的技术方案是:
一种基于窗函数共振峰增强的语音增强方法,包括以下步骤:
使用数字滤波器对语音信号进行了预加重;
对上述预加重后的语音信号的采用重叠分帧的方法,即前后两帧有重叠的部分,保证帧与帧之间平滑过渡,从而保持信号的连续性,对进行分帧 ;
对上述分帧后的语音信号进行清浊音判决,提取浊音帧信号;
对上述提取的浊音帧信号,采用线性预测 (LPC)方法,计算出上述浊音帧信号频谱包络;
根据上述计算出的频谱包络,搜索出共振峰,并记录下前三个共振峰的中心频率和幅值;
根据上述记录下的前三个共振峰的中心频率和幅值,确定提升滤波器的强度系数和待增强的中心频率;
根据上述确定的提升滤波器的强度系数和待增强的中心频率,进行共振峰增强;
根据本发明的优选实施例,所述使用数字滤波器对语音信号进行了预加重采用的数字滤波器如下:
根据本发明的优选实施例,所述采用重叠分帧的方法对该预加重后的语音信号进行分帧具体为:帧长在10ms~40ms之间,帧移在5ms~20ms之间。
根据本发明的优选实施例,所述线性预测 (LPC)方法采用莱文逊-杜宾递推算法,其具体如下:
(2) 令;
(3) 递推从开始;按如下公式进行递推运算:
根据本发明的优选实施例,所述确定提升滤波器的强度系数和待增强的中心频率,其具体如下:
若上述前三个共振峰均存在,则提升滤波器的强度系数设定为上述三个共振峰幅值的均值;
若上述前三个共振峰不全存在,则设定为存在的共振峰幅值的均值。
根据本发明的优选实施例,所述共振峰增强采用窗函数提升的方法,其具体如下:
在保持语音信号原始谱包络轨迹的基础上对信号共振峰做增强处理,即在多个共振峰的带宽范围内使用提升滤波器对共振峰做相同幅度的提升。
根据本发明的优选实施例,所述汉宁窗函数如下: 。
本发明的技术方案,通过数字滤波器对语音信号进行预加重,然后对语音信号进行分帧,对分帧后的语音信号提取浊音帧信号,对提取浊音帧信号进行线性预测方法处理后,对共振峰增强后进行滤波,通过选择性地增强共振峰,从而达到增强语音的目的,提高语音可懂度和音质;同时具有计算简单、鲁棒性好的优点。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明实施例所述的基于窗函数共振峰增强的语音增强方法的流程图;
图2为本发明实施例所述的基于窗函数共振峰增强的语音增强方法的结构框图;
图3为基于窗函数共振峰增强的语音增强方法中共振峰增强的框图;
图4为原始语音的LPC对数谱图;
图5为对图4所示的原始语音经过两级编解码后的LPC对数谱图;
图6为对图5所示的经过经过两级编解码后的LPC对数谱通过本发明所述基于窗函数共振峰增强的语音增强方法处理后的LPC对数谱图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
如图1至图3所示,一种基于窗函数共振峰增强的语音增强方法,包括以下步骤:
使用数字滤波器对语音信号进行了预加重;
采用的数字滤波器如下:
对预加重后的语音信号的采用重叠分帧的方法对该预加重后的语音信号进行分帧 ;帧长在10ms~40ms之间,帧移在5ms~20ms之间;
对分帧后的语音信号进行清浊音判决,提取浊音帧信号;
对提取的浊音帧信号,采用线性预测 (LPC)方法,计算出上述浊音帧信号频谱包络;
线性预测 (LPC)方法采用莱文逊-杜宾递推算法,其具体如下:
根据计算出的频谱包络,搜索出共振峰,并记录下前三个共振峰的中心频率和幅值;
根据记录下的前三个共振峰的中心频率和幅值,确定提升滤波器的强度系数和待增强的中心频率;
根据确定的提升滤波器的强度系数和待增强的中心频率,进行共振峰增强;
其中,确定提升滤波器的强度系数和待增强的中心频率,其具体如下:
若前三个共振峰均存在,则提升滤波器的强度系数设定为三个共振峰幅值的均值;
若前三个共振峰不全存在,则设定为存在的共振峰幅值的均值。
共振峰增强采用窗函数提升的方法,其具体如下:
在保持语音信号原始谱包络轨迹的基础上对信号共振峰做增强处理,即在多个共振峰的带宽范围内使用提升滤波器对共振峰做相同幅度的提升。窗函数提升方法采用双汉宁窗对每一共振峰的带宽做相同幅度的提升,即在每一共振峰中心频率两边采用不同的汉宁窗提升滤波器,根汉宁窗函数如下:
。
通过图4至图6的比较可以明显的看出采用本发明的技术方案处理后的语音信号有了显著的增强。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于窗函数共振峰增强的语音增强方法,其特征在于,包括以下步骤:
使用数字滤波器对语音信号进行了预加重;
对上述预加重后的语音信号采用重叠分帧的方法对该预加重后的语音信号进行分帧 ;
对上述分帧后的语音信号进行清浊音判决,提取浊音帧信号;
对上述提取的浊音帧信号,采用线性预测 (LPC)方法,计算出上述浊音帧信号频谱包络;
根据上述计算出的频谱包络,搜索出共振峰,并记录下前三个共振峰的中心频率和幅值;
根据上述记录下的前三个共振峰的中心频率和幅值,确定提升滤波器的强度系数和待增强的中心频率;
根据上述确定的提升滤波器的强度系数和待增强的中心频率,进行共振峰增强;
2.根据权利要求1所述的基于窗函数共振峰增强的语音增强方法,其特征在于,所述使用数字滤波器对语音信号进行了预加重采用的数字滤波器如下:
。
3.根据权利要求1或2所述的基于窗函数共振峰增强的语音增强方法,其特征在于,所述采用重叠分帧的方法对该预加重后的语音信号进行分帧具体为:帧长在10ms~40ms之间,帧移在5ms~20ms之间。
5.根据权利要求4所述的基于窗函数共振峰增强的语音增强方法,其特征在于,所述确定提升滤波器的强度系数和待增强的中心频率,其具体如下:
若上述前三个共振峰均存在,则提升滤波器的强度系数设定为上述三个共振峰幅值的均值;
若上述前三个共振峰不全存在,则设定为存在的共振峰幅值的均值。
6.根据权利要求5所述的基于窗函数共振峰增强的语音增强方法,其特征在于,所述共振峰增强采用窗函数提升的方法,其具体如下:
在保持语音信号原始谱包络轨迹的基础上对信号共振峰做增强处理,即在多个共振峰的带宽范围内使用提升滤波器对共振峰做相同幅度的提升。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210278305.XA CN102779527B (zh) | 2012-08-07 | 2012-08-07 | 基于窗函数共振峰增强的语音增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210278305.XA CN102779527B (zh) | 2012-08-07 | 2012-08-07 | 基于窗函数共振峰增强的语音增强方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102779527A true CN102779527A (zh) | 2012-11-14 |
CN102779527B CN102779527B (zh) | 2014-05-28 |
Family
ID=47124414
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210278305.XA Expired - Fee Related CN102779527B (zh) | 2012-08-07 | 2012-08-07 | 基于窗函数共振峰增强的语音增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102779527B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014161388A1 (zh) * | 2013-10-23 | 2014-10-09 | 中兴通讯股份有限公司 | 一种提高语音质量的方法及装置 |
CN105741853A (zh) * | 2016-01-25 | 2016-07-06 | 西南交通大学 | 一种基于共振峰频率的数字语音感知哈希方法 |
CN105913854A (zh) * | 2016-04-15 | 2016-08-31 | 腾讯科技(深圳)有限公司 | 语音信号级联处理方法和装置 |
CN106504758A (zh) * | 2016-10-25 | 2017-03-15 | 大连理工大学 | 混音器及混音方法 |
CN109410971A (zh) * | 2018-11-13 | 2019-03-01 | 无锡冰河计算机科技发展有限公司 | 一种美化声音的方法和装置 |
CN110164461A (zh) * | 2019-07-08 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 语音信号处理方法、装置、电子设备及存储介质 |
CN112687277A (zh) * | 2021-03-15 | 2021-04-20 | 北京远鉴信息技术有限公司 | 语音共振峰的确定方法、装置、电子设备及可读存储介质 |
CN113778226A (zh) * | 2021-08-26 | 2021-12-10 | 江西恒必达实业有限公司 | 一种基于语音识别技术控制智能家居的红外ai智能眼镜 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040057586A1 (en) * | 2000-07-27 | 2004-03-25 | Zvi Licht | Voice enhancement system |
CN1619646A (zh) * | 2003-11-21 | 2005-05-25 | 三星电子株式会社 | 使用共振峰增强对话的方法和装置 |
CN1669074A (zh) * | 2002-10-31 | 2005-09-14 | 富士通株式会社 | 话音增强装置 |
US20090125303A1 (en) * | 2007-11-13 | 2009-05-14 | Makoto Tachibana | Audio signal processing apparatus, audio signal processing method, and communication terminal |
CN101599274A (zh) * | 2009-06-26 | 2009-12-09 | 瑞声声学科技(深圳)有限公司 | 语音增强的方法 |
-
2012
- 2012-08-07 CN CN201210278305.XA patent/CN102779527B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040057586A1 (en) * | 2000-07-27 | 2004-03-25 | Zvi Licht | Voice enhancement system |
CN1669074A (zh) * | 2002-10-31 | 2005-09-14 | 富士通株式会社 | 话音增强装置 |
CN1619646A (zh) * | 2003-11-21 | 2005-05-25 | 三星电子株式会社 | 使用共振峰增强对话的方法和装置 |
US20090125303A1 (en) * | 2007-11-13 | 2009-05-14 | Makoto Tachibana | Audio signal processing apparatus, audio signal processing method, and communication terminal |
CN101599274A (zh) * | 2009-06-26 | 2009-12-09 | 瑞声声学科技(深圳)有限公司 | 语音增强的方法 |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014161388A1 (zh) * | 2013-10-23 | 2014-10-09 | 中兴通讯股份有限公司 | 一种提高语音质量的方法及装置 |
CN105741853A (zh) * | 2016-01-25 | 2016-07-06 | 西南交通大学 | 一种基于共振峰频率的数字语音感知哈希方法 |
CN105741853B (zh) * | 2016-01-25 | 2019-03-29 | 西南交通大学 | 一种基于共振峰频率的数字语音感知哈希方法 |
CN105913854A (zh) * | 2016-04-15 | 2016-08-31 | 腾讯科技(深圳)有限公司 | 语音信号级联处理方法和装置 |
WO2017177782A1 (zh) * | 2016-04-15 | 2017-10-19 | 腾讯科技(深圳)有限公司 | 语音信号级联处理方法、终端和计算机可读存储介质 |
CN105913854B (zh) * | 2016-04-15 | 2020-10-23 | 腾讯科技(深圳)有限公司 | 语音信号级联处理方法和装置 |
US10832696B2 (en) | 2016-04-15 | 2020-11-10 | Tencent Technology (Shenzhen) Company Limited | Speech signal cascade processing method, terminal, and computer-readable storage medium |
US11605394B2 (en) | 2016-04-15 | 2023-03-14 | Tencent Technology (Shenzhen) Company Limited | Speech signal cascade processing method, terminal, and computer-readable storage medium |
CN106504758A (zh) * | 2016-10-25 | 2017-03-15 | 大连理工大学 | 混音器及混音方法 |
CN106504758B (zh) * | 2016-10-25 | 2019-07-16 | 大连理工大学 | 混音器及混音方法 |
CN109410971B (zh) * | 2018-11-13 | 2021-08-31 | 无锡冰河计算机科技发展有限公司 | 一种美化声音的方法和装置 |
CN109410971A (zh) * | 2018-11-13 | 2019-03-01 | 无锡冰河计算机科技发展有限公司 | 一种美化声音的方法和装置 |
CN110164461A (zh) * | 2019-07-08 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 语音信号处理方法、装置、电子设备及存储介质 |
CN110164461B (zh) * | 2019-07-08 | 2023-12-15 | 腾讯科技(深圳)有限公司 | 语音信号处理方法、装置、电子设备及存储介质 |
CN112687277B (zh) * | 2021-03-15 | 2021-06-18 | 北京远鉴信息技术有限公司 | 语音共振峰的确定方法、装置、电子设备及可读存储介质 |
CN112687277A (zh) * | 2021-03-15 | 2021-04-20 | 北京远鉴信息技术有限公司 | 语音共振峰的确定方法、装置、电子设备及可读存储介质 |
CN113778226A (zh) * | 2021-08-26 | 2021-12-10 | 江西恒必达实业有限公司 | 一种基于语音识别技术控制智能家居的红外ai智能眼镜 |
Also Published As
Publication number | Publication date |
---|---|
CN102779527B (zh) | 2014-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102779527B (zh) | 基于窗函数共振峰增强的语音增强方法 | |
CN111179954B (zh) | 用于降低时域解码器中的量化噪声的装置和方法 | |
JP6820360B2 (ja) | 信号分類方法および信号分類デバイス、ならびに符号化/復号化方法および符号化/復号化デバイス | |
CN101197130B (zh) | 声音活动检测方法和声音活动检测器 | |
CN103117066B (zh) | 基于时频瞬时能量谱的低信噪比语音端点检测方法 | |
CN102074245B (zh) | 基于双麦克风语音增强装置及语音增强方法 | |
CN103077708B (zh) | 一种语音识别系统中拒识能力提升方法 | |
CN102543073B (zh) | 一种沪语语音识别信息处理方法 | |
CN105006230A (zh) | 一种面向非特定人的语音敏感信息检测和过滤方法 | |
CN103035238A (zh) | 音频数据的编码方法及解码方法 | |
Ghaemmaghami et al. | Noise robust voice activity detection using features extracted from the time-domain autocorrelation function | |
CN103794211B (zh) | 一种语音识别方法及系统 | |
CN102314883B (zh) | 一种判断音乐噪声的方法以及语音消噪方法 | |
CN105575405A (zh) | 一种双麦克风语音激活检测方法及语音采集设备 | |
US20150170659A1 (en) | Method and apparatus for enhancing the modulation index of speech sounds passed through a digital vocoder | |
Ali et al. | A speech enhancement front-end for intent classification in noisy environments | |
US6167371A (en) | Speech filter for digital electronic communications | |
Alku et al. | Linear predictive method for improved spectral modeling of lower frequencies of speech with small prediction orders | |
Kacur et al. | ZCPA features for speech recognition | |
CN111048072A (zh) | 一种应用于电力企业的声纹识别方法 | |
US20220180884A1 (en) | Methods and devices for detecting an attack in a sound signal to be coded and for coding the detected attack | |
Liu et al. | Efficient voice activity detection algorithm based on sub-band temporal envelope and sub-band long-term signal variability | |
CN110600049A (zh) | 一种电子通信设备语音信号处理系统 | |
CN113517001A (zh) | 一种单音信号检测方法 | |
Gupta et al. | Voiced/Unvoiced Decision with a Comparative Study of Two Pitch Detection Techniques |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20210113 Address after: No.2006 Xiyuan Avenue, Chengdu, Sichuan 611731 Patentee after: University of Electronic Science and technology of Sichuan foundation for education development Address before: Room 402, area a, Liye building, science and Technology Park, China sensor network university, Taike Park, Wuxi New District, Wuxi City, Jiangsu Province, 214135 Patentee before: WUXI UESTC TECHNOLOGY DEVELOPMENT Co.,Ltd. |
|
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20140528 |