CN103915103B - 语音质量增强系统 - Google Patents

语音质量增强系统 Download PDF

Info

Publication number
CN103915103B
CN103915103B CN201410149360.8A CN201410149360A CN103915103B CN 103915103 B CN103915103 B CN 103915103B CN 201410149360 A CN201410149360 A CN 201410149360A CN 103915103 B CN103915103 B CN 103915103B
Authority
CN
China
Prior art keywords
energy
noise
signal
gain
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201410149360.8A
Other languages
English (en)
Other versions
CN103915103A (zh
Inventor
刘思远
高尹忠
程德杰
王星
冯文波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CHENGDU LINGTIAN KECHUANG INFORMATION TECHNOLOGY Co Ltd
Original Assignee
CHENGDU LINGTIAN KECHUANG INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CHENGDU LINGTIAN KECHUANG INFORMATION TECHNOLOGY Co Ltd filed Critical CHENGDU LINGTIAN KECHUANG INFORMATION TECHNOLOGY Co Ltd
Priority to CN201410149360.8A priority Critical patent/CN103915103B/zh
Publication of CN103915103A publication Critical patent/CN103915103A/zh
Application granted granted Critical
Publication of CN103915103B publication Critical patent/CN103915103B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了一种语音质量增强系统,其包括语音解码器、时域自适应增益控制模块、目标增益进行实时计算模块、清音频谱调节模块、浊音频谱调节模块、环境噪声采集和估计模块以及音频输出模块,语音解码器、目标增益进行实时计算模块、清音频谱调节模块、浊音频谱调节模块都与时域自适应增益控制模块连接,目标增益进行实时计算模块、浊音频谱调节模块都与环境噪声采集和估计模块连接,清音频谱调节模块、浊音频谱调节模块都与音频输出模块连接。本发明提升不同环境下语音输出设备所输出的语音的舒适度和可懂度。

Description

语音质量增强系统
技术领域
本发明涉及一种增强系统,特别是涉及一种语音质量增强系统。
背景技术
随着手机等移动通信设备的普及,人们有条件实现随时随的语音通信,既可以在安静的环境中,例如卧室或者医院病房,也可以在喧闹嘈杂的环境中。在移动语音通信时,如通过手机打电话时,环境噪声通常起伏不定,噪声特点差异大,例如公交车的噪声、地铁噪声、街道噪声、酒吧音乐噪声等等,声音音量及其频率分布各不相同。随着3G、4G和WIFI等无线IP网络的进一步发展,无线VoIP业务正如火如荼地展开,手机和平板电脑等移动设备上的语音通信软件层出不穷,例如skype、Viber、微信等等。随着无线网络带宽增加,网络资费下降,VoIP的使用者人数飞速增加,通话时间更长,使用地点随时变换,使用环境更加复杂,这就对语音质量,特别是通话语音的可懂度提出了更高的要求。实际上,衡量一款语音通信设备或者语音通信软件优劣的核心指标之一就是通话语音质量和可懂度。
现有声音舒适度控制方案大多是在发送端进行自动增益控制(AGC),例如公开号为CN102446510A的中国专利,其基本思路为:自动增益控制模块G30将增益控制信息反馈到主动噪声抑制模块(ANS),ANS根据反馈信息即时调整噪声抑制比,以使得经过AGC处理后的背景噪声更平稳。该技术致力于解决发送端的背景噪声平稳性问题,不能解决接收端端的声音可懂度问题。
公开号为CN101370056B的中国专利对声音采集设备的输入声音估计瞬时功率,根据该瞬时功率计算是否为背景噪声,同时根据目标信号功率调整输出信号增益,以达到使输出信号更加平衡和谐的目的。该技术主要通过功率估计来解决音频信号能量的平稳问题,没有考虑接收环境噪声对可懂度的影响,对能量的调整主要是在时域进行增益调整,未声明频域的能量调整。
公开号为CN102436821A的中国专利提出一种通过采集接收端环境噪声调节音量的方案,并且当环境噪声音量大于或小于某一个阈值时,进行高音或低音增强处理以提高清晰度。该技术致力于解决接收端语音的可懂度问题,但是采用的方法比较简单。例如,音量调节按照与当前噪声能量和参考噪声能量之差呈正比关系的调节方式。音频频响的调整采用高频或者低频增强滤波的方式。并未考虑其它对可懂度的影响因素,如频域的子带能量调整、时域的辅音与元音能量比、话音活动检测结果等,增强效果有限。
公开号为CN101740036A的中国专利也是提高一种通过采集估计接收端环境噪声进而调节音量的方案,该方案的特点在于假设语音信号具有自相关性并且噪声具有随机性,进而从总的音频能量中估计出语音能量,通过滤除语音能量以达到检测背景噪声能量进而控制通话音量的目的。该技术通过采用不同的背景噪声估计方法希望达到准确估计背景噪声能量的目的。在通话音量调节方面方法更加简单,其音量调整包括将音量变化某一预设音量,或者使通话音量与通话音量和该预设音量之和达到某一预设比值。音量调整方式简单,并未充分从可懂度和质量增强的角度考虑实现方法。噪声估计方式也只能检测随机噪声,未考虑各个频带的能量调整对可懂度的影响。
发明内容
本发明所要解决的技术问题是提供一种语音质量增强系统,其提升不同环境下语音输出设备所输出的语音的舒适度和可懂度。
本发明是通过下述技术方案来解决上述技术问题的:一种语音质量增强系统,其特征在于,其包括语音解码器、时域自适应增益控制模块、目标增益进行实时计算模块、清音频谱调节模块、浊音频谱调节模块、环境噪声采集和估计模块以及音频输出模块,语音解码器、目标增益进行实时计算模块、清音频谱调节模块、浊音频谱调节模块都与时域自适应增益控制模块连接,目标增益进行实时计算模块、浊音频谱调节模块都与环境噪声采集和估计模块连接,清音频谱调节模块、浊音频谱调节模块都与音频输出模块连接。
优选地,所述语音解码器用于对接收端收到的语音码流进行解码操作,得到时域语音样本数据;同时输出话音类型标志,指示当前帧是背景音、清音还是浊音信号。
优选地,所述时域自适应增益控制模块根据输入语音样本幅度、语音样本类型以及目标增益,对输入语音样本幅度进行调整,使得输入语音能量更佳平稳,并对发送端的背景噪声进行抑制;当话音活动检测标志显示接收到的音频信号为背景噪声时,目标增益取较小值,当音频信号为语音时,增益取较大值。
优选地,所述目标增益进行实时计算模块对时域自适应增益控制模块的目标增益进行实时计算,其输入控制参数包括接收端的环境噪声频谱估计,目标增益将在预定增益的基础上随接收端噪声能量的增加而增加。
优选地,所述清音频谱调节模块根据清音浊音标志,确定目前的语音信号帧属于清音信号,并根据环境噪声频谱信息对语音频谱进行增强处理。
优选地,所述浊音频谱调节模块根据清音浊音标志,确定目前的语音信号帧属于浊音信号,并根据环境噪声频谱信息对浊音频谱进行增强处理。
优选地,所述时域自适应增益控制模块包括以下功能:当话音活动检测标志显示当前帧为背景噪声信号时,将前一帧增益值与对应信号类型的预设因子相乘得到当前信号帧增益,并设定所得增益的上下限;当话音活动检测标志显示当前音频信号帧为语音时,计算语音信号的长时平均能量统计值,其计算方式为利用音频样本计算的长时均方根能量统计净值减去一预设背景能量值;根据所计算的当前能量统计值和当前目标增益值来计算当前语音帧增益因子,如果当前信号帧能量超过目标增益则被压缩,反之则被放大;当前信号帧能量与目标增益的差值为正数和负数时,自适应速率不同;相邻帧之间的增益进行平滑处理;幅度调整之后的音频样本进行限幅处理。
优选地,所述目标增益进行实时计算模块包括以下功能:对环境噪声频谱估计参数进行分子带处理,分带方式包括但不限于根据梅尔频率进行划分;选取所关心的子带来计算环境噪声能量以模拟环境噪声响度;对计算的环境噪声能量进行平滑以避免能量过度波动,然后计算噪声响度增益,噪声越大增益越大;计算所述噪声响度增益时需预先减去设定的基底噪声能量,并限制噪声响度增益最大值;将所述环境噪声响度增益映射到自适应增益控制器的目标增益,环境噪声越大,目标增益越大。
优选地,所述清音频谱调节模块包括以下功能:将音频信号变换到频域,并按照与环境噪声频谱估计参数相同的形式划分子带;由大到小选取占该帧总能量超过P%的子带计算清音总能量,P等于10到100;选择环境噪声估计中与上述子带对应的子带,计算所选子带的环境噪声总能量;根据所述清音总能量和环境噪声总能量计算信噪比,并根据目标信噪比调整频谱能量;如果预设目标信噪比小于实际信噪比,则不做处理,如果预设目标信噪比大于实际信噪比,则放大所选子带能量;子带能量不超过某一预设值;相邻帧对应子带的放大因子做指数平滑以消除能量突变造成的失真;频域信号到时域信号进行转换。
优选地,所述浊音频谱调节模块包括以下功能:将音频信号变换到频域,并按照与环境噪声频谱估计相同的形式划分子带,计算所需浊音子带的能量;利用所述浊音子带能量与环境噪声估计中对应的子带能量,计算信噪比;搜索浊音信号共振峰,并根据所计算信噪比调整频谱能量,包括:如果只有一个共振峰,则根据所计算的各个子带的平均信噪比将浊音频段信号能量进行高频增强;最大能量小于某一预设阈值;信噪比越低,增强程度越大,频谱越高,增强程度越大;如果有多于一个共振峰,则优先放大高阶共振峰所在子带的能量;各个子带的增益与相邻子带增益做平滑,以防相邻子带能量波动过大;相邻帧的对应子带做增益因子的平滑,以防时域能量波动过大;将频域信号变换回时域信号。
本发明的积极进步效果在于:本发明以使得语音通讯设备在接收端能根据所处环境噪声更好地自动调节语音音量和频谱,以获得更佳的可懂度和用户体验。包括在接收端实现一个多带自适应增益控制模块,并且将该模块与声码器的语音活动检测参数相结合,既避免了传统方法中需要专门提供一个语音活动检测模块所带来的计算复杂度,又可以更好的与声码器协同工作,进而提供更准确的清音、浊音和静音检测。在语音通讯设备接收端提供一个噪声采集和估计模块,分频带对环境噪声进行估计,估计结果供自适应增益控制模块在频域对接收语音的子带频谱能量进行调整,减小环境噪声对语音共振峰的掩蔽效应,以达到最大限度提升可懂度的目的。同时在时域根据输入音频幅度的大小以及语音活动检测结果对输出样本幅度进行调整,根据[5]的研究成果,在噪声环境下增大辅音与浊音的能量比,减小环境噪声对语音,尤其是低能量辅音的掩蔽效应,进一步提升可懂度。
附图说明
图1为本发明语音质量增强系统的原理图。
具体实施方式
下面结合附图给出本发明较佳实施例,以详细说明本发明的技术方案。
本发明用于在噪声环境下增强语音播放设备所播放语音的舒适度和可懂度。如图1所示,本发明语音质量增强系统包括语音解码器、时域自适应增益控制模块、目标增益进行实时计算模块、清音频谱调节模块、浊音频谱调节模块、环境噪声采集和估计模块以及音频输出模块,语音解码器、目标增益进行实时计算模块、清音频谱调节模块、浊音频谱调节模块都与时域自适应增益控制模块连接,目标增益进行实时计算模块、浊音频谱调节模块都与环境噪声采集和估计模块连接,清音频谱调节模块、浊音频谱调节模块都与音频输出模块连接。
语音解码器对接收端收到的语音码流进行解码操作,得到时域语音样本数据,用于输出到时域自适应增益控制模块;同时解码器内部包含话音类型标志,指示当前帧是背景音、清音还是浊音信号。时域自适应增益控制模块根据输入语音样本幅度、语音样本类型以及目标增益,对输入语音样本幅度进行调整,使得输入语音能量更佳平稳,并对发送端的背景噪声进行抑制。当话音活动检测标志显示接收到的音频信号为背景噪声时,目标增益取较小值,当音频信号为语音时,增益取较大值。目标增益进行实时计算模块对时域自适应增益控制模块的目标增益进行实时计算,其输入控制参数包括接收端的环境噪声频谱估计参数,目标增益将在预定增益的基础上随接收端噪声能量的增加而增加。环境噪声采集和估计模块产生环境噪声频谱估计参数。清音频谱调节模块根据解码器内部的清音浊音标志,确定目前的语音信号帧属于清音信号,并根据环境噪声频谱信息对语音频谱进行增强处理。浊音频谱调节模块根据解码器内部的清音浊音标志,确定目前的语音信号帧属于浊音信号,并根据环境噪声频谱信息对浊音频谱进行增强处理。频谱增强之后的语音信号通过音频输出模块输出到对应设备。
语音解码器输出话音类型检测标志,话音类型检测标志也可以由一个单独的话音类型检测模块产生。清音和浊音的频谱调整可以在频域对子带能量直接调整,也可以由两个自适应滤波器分别完成。
语音解码器用于对接收端收到的语音码流进行解码操作,得到时域语音样本数据;同时输出话音类型标志,指示当前帧是背景音、清音还是浊音信号。
进行自适应语音质量增强时,音频信号分帧进行处理,帧长度为N,N具体可以为1到2000等数值。
时域自适应增益控制模块根据输入语音样本幅度、语音样本类型以及目标增益,对输入语音样本幅度进行调整,使得输入语音能量更佳平稳,并对发送端的背景噪声进行抑制;当话音活动检测标志显示接收到的音频信号为背景噪声时,目标增益取较小值,当音频信号为语音时,增益取较大值。时域自适应增益控制模块包括但不限于以下操作:
当话音活动检测标志显示当前音频信号帧为背景音时,计算当前背景音增益如下式(1):
G=Gprev*FACTORb………………………………………(1)
其中,Gprev为前一帧的音频信号增益,FACTORb为一预定因子,例如0.8。并满足Gb不小于某一预设值Gb_MIN,例如Gb_MIN=0.2;
当话音活动检测标志显示当前音频信号帧为语音时,计算语音信号增益,包括:
一、计算语音信号的当前能量统计值,如下式(2):
Erms=Enet–EBG………………………………………(1)
其中Enet为利用音频样本计算的当前均方根能量统计净值,EBG为一预设背景能量值。
二、根据Erms值和当前目标增益值Etarget来计算当前语音帧增益因子,如果当前信号帧能量超过目标能量则被压缩,反之则被放大,如下式(3):
FACTORs=FACTORs+[FACTORc*(Etarget-Erms)/Etarget]
其中FACTORc为某一预设常数,Erms与Etarget的差值被限制在一个特定范围,当差值为正数或负数时,FACTORc的取值可以不同,以控制自适应速率。
三、计算当前增益,并利用前一帧的增益进行平滑处理,如下式(4):
G=Gprev*FACTORs………………………………………………(4)
最后将所计算出的当前增益应用于当前帧样本并限幅之后得到增益调整之后的音频输出。
时域自适应增益控制模块包括以下功能:当话音活动检测标志显示当前信号帧为背景噪音帧时,将前一帧增益值与对应信号类型的预设因子相乘得到当前信号帧增益,并设定所得增益的上下限;当话音活动检测标志显示当前音频信号帧为语音时,计算语音信号的长时平均能量统计值,其计算方式为利用音频样本计算的长时均方根能量统计净值减去一预设背景能量值;根据所计算的当前能量统计值和当前目标增益值来计算当前语音帧增益因子,如果当前信号帧能量超过目标增益则被压缩,反之则被放大;当前信号帧能量与目标增益的差值为正数和负数时,自适应速率不同;相邻帧之间的增益进行平滑处理;幅度调整之后的音频样本进行限幅处理。
目标增益进行实时计算模块对时域自适应增益控制模块的目标增益进行实时计算,其输入控制参数包括接收端的环境噪声频谱估计,目标增益将在预定增益的基础上随接收端噪声能量的增加而增加。目标增益进行实时计算模块根据接收端环境噪声估计以及话音活动检测结果动态调整时域自适应增益控制模块的目标增益。目标增益进行实时计算模块的操作过程如下:第一步,首先对环境噪声频谱估计参数进行分子带处理,分带方式可以根据梅尔(MEL)频率进行划分以模拟人耳对频带的感知。第二步可以选取其中关心的n个子带来计算环境噪声能量进而模拟环境噪声响度,比如选取对语音可懂度影响较大的子带,如400Hz到2000Hz。第三步首先对计算的环境噪声能量进行平滑以避免能量过度波动,然后计算噪声响度增益,如下式(5):
Genv=(Eenv–EBASE)/EMAX…………………………………(5)
其中Eenv为当前环境噪声响度,EBASE为预设基底响度,EMAX为预设的最大响度。Eenv的值应当被限制在EBASE与EMAX之间。
第四步将环境噪声响度增益映射到自适应增益控制器的目标增益,如下式(6):
Gtarget=GCONST+SCALE*Genv…………………………………(6)
其中GCONST为预先设定好的基本目标增益。SCALE为尺度因子。
目标增益进行实时计算模块包括以下功能:对环境噪声频谱估计参数进行分子带处理,分带方式包括但不限于根据梅尔(MEL)频率进行划分;选取所关心的子带来计算环境噪声能量以模拟环境噪声响度;对计算的环境噪声能量进行平滑以避免能量过度波动,然后计算噪声响度增益,噪声越大增益越大;计算所述噪声响度增益时需预先减去设定的基底噪声能量,并限制噪声响度增益最大值;将所述环境噪声响度增益映射到自适应增益控制器的目标增益,环境噪声越大,目标增益越大。
浊音频谱调节模块根据清音浊音标志,确定目前的语音信号帧属于浊音信号,并根据环境噪声频谱信息对浊音频谱进行增强处理。浊音频谱调节模块的操作过程如下:第一步将音频信号变换到频域,并按照与环境噪声频谱估计相同的形式划分子带。然后由大到小选取占该帧总能量超过P%,例如P=70,的子带。其余(1-P%)能量的子带很有可能是背景音或者对可懂度贡献不大的区域,因此可不做处理。第二步选择环境噪声估计中对应的子带,计算所选子带总能量,用于第三步计算信噪比。第三步利用第一步计算的清音信号能量和第二步计算的环境噪声能量,计算信噪比,并根据目标信噪比调整频谱能量。具体的一种实施方式包括:(1)如果预设目标信噪比小于实际信噪比,则不做处理,放大因子AmpFactor=1。(2)如果预设目标信噪比大于实际信噪比,则放大所选子带能量:Esubbands=Esubbands*AmpFactor.且子带能量不超过某一预设值。放大因子随着帧数递增:AmpFactor=1+AmpStep,AmpStep可以为一固定值,例如0.2。(3)相邻帧的放大因子做指数平滑以消除能量突变造成的失真。第四步将频域信号变换回时域信号。浊音频谱调节模块包括以下功能:将音频信号变换到频域,并按照与环境噪声频谱估计相同的形式划分子带,计算所需浊音子带的能量;利用所述浊音子带能量与环境噪声估计中对应的子带能量,计算信噪比;搜索浊音信号共振峰,并根据所计算信噪比调整频谱能量,包括:如果只有一个共振峰,则根据所计算的各个子带的平均信噪比将浊音频段信号能量进行高频增强;最大能量小于某一预设阈值;信噪比越低,增强程度越大,频谱越高,增强程度越大;如果有多于一个共振峰,则优先放大高阶共振峰所在子带的能量;各个子带的增益与相邻子带增益做平滑,以防相邻子带能量波动过大;相邻帧的对应子带做增益因子的平滑,以防时域能量波动过大;将频域信号变换回时域信号。
清音频谱调节模块根据清音浊音标志,确定目前的语音信号帧属于清音信号,并根据环境噪声频谱信息对语音频谱进行增强处理。清音频谱调节模块的操作过程如下:第一步将音频信号变换到频域,并按照与环境噪声频谱估计相同的形式划分子带,计算所需子带能量,例如从300Hz到3150Hz能量。第二步选择环境噪声估计中对应的子带,计算个信噪比。第三步搜索浊音信号共振峰,并根据所计算信噪比调整频谱能量。具体的一种实施方式包括:(1)如果只有一个共振峰F0,则根据所计算的各个子带的平均信噪比将浊音频段信号能量进行高频增强,例如在频域将各子带能量乘以各自对应的增益因子。最大能量小于某一预设阈值。帧数每增加一帧则增益因子增大VAmpFactor1,信噪比越低,VAmpFactor1的值越大。VAmpFactor1的值对于各个子带可以不同。直到信噪比不小于一预设阈值。(2)如果有多于一个共振峰,例如有F1到F4,则优先放大共振峰F1到F4所在子带的能量,以得到更清晰的共振峰进而提高可懂度。具体实施方式可以为:在频域将各子带能量乘以各自对应的增益因子。最大能量小于某一预设阈值。在与上面一步同等信噪比下,帧数每增加一帧则共振峰所在子带的增益因子增大VAmpFactor2,其余子带的增益因子增大VAmpFactor3,且VAmpFactor2>VAmpFactor1>VAmpFactor3。其余步骤与(1)相同。(3)各个子带的增益与相邻子带增益做平滑,以防相邻子带能量波动过大。(4)相邻帧的对应子带做增益因子的平滑,以防时域能量波动过大。第四步将频域信号变换回时域信号。
清音频谱调节模块包括以下功能:将音频信号变换到频域,并按照与环境噪声频谱估计参数相同的形式划分子带;由大到小选取占该帧总能量超过P%的子带计算清音总能量,P等于10到100;选择环境噪声估计中与上述子带对应的子带,计算所选子带的环境噪声总能量;根据所述清音总能量和环境噪声总能量计算信噪比,并根据目标信噪比调整频谱能量;如果预设目标信噪比小于实际信噪比,则不做处理,如果预设目标信噪比大于实际信噪比,则放大所选子带能量;子带能量不超过某一预设值;相邻帧对应子带的放大因子做指数平滑以消除能量突变造成的失真;频域信号到时域信号进行转换。
本发明在接收端实现一个多带自适应语音增强系统,并且将该模块与声码器的语音活动检测参数相结合,既避免了传统方法中需要专门提供一个语音活动检测模块所带来的计算复杂度,又可以更好的与声码器协同工作,进而提供更准确的清音、浊音和静音检测,缩短接收端算法的自适应时间。在语音通讯设备接收端根据输入音频时域幅度的大小以及语音活动检测结果动态调整自适应增益控制模块的目标增益,对输出样本幅度进行实时调整,提升语音可懂度。同时提供一个噪声采集和估计模块,分频带对环境噪声进行估计,估计结果供请浊音频谱调节模块在频域对接收语音的子带频谱能量进行调整,减小环境噪声对语音共振峰的掩蔽效应,在噪声环境下增大辅音与浊音的能量比,减小环境噪声对语音,尤其是低能量辅音的掩蔽效应,进一步提升可懂度。
本领域的技术人员可以对本发明进行各种改型和改变。因此,本发明覆盖了落入所附的权利要求书及其等同物的范围内的各种改型和改变。

Claims (9)

1.一种语音质量增强系统,其特征在于,其包括语音解码器、时域自适应增益控制模块、目标增益进行实时计算模块、清音频谱调节模块、浊音频谱调节模块、环境噪声采集和估计模块以及音频输出模块,语音解码器、目标增益进行实时计算模块、清音频谱调节模块、浊音频谱调节模块都与时域自适应增益控制模块连接,目标增益进行实时计算模块、浊音频谱调节模块都与环境噪声采集和估计模块连接,清音频谱调节模块、浊音频谱调节模块都与音频输出模块连接;
所述时域自适应增益控制模块包括以下功能:当话音活动检测标志显示当前信号帧为背景噪音帧时,将前一帧增益值与对应信号类型的预设因子相乘得到当前信号帧增益,并设定所得增益的上下限;当话音活动检测标志显示当前音频信号帧为语音时,计算语音信号的长时平均能量统计值,其计算方式为利用音频样本计算的长时均方根能量统计净值减去一预设背景能量值;根据所计算的当前长时平均能量统计值和当前目标增益值来计算当前语音帧增益因子,如果当前信号帧能量超过目标增益则被压缩,反之则被放大;当前信号帧能量与目标增益的差值为正数和负数时,自适应速率不同;相邻帧之间的增益进行平滑处理;幅度调整之后的音频样本进行限幅处理。
2.如权利要求1所述的语音质量增强系统,其特征在于,所述语音解码器用于对接收端收到的语音码流进行解码操作,得到时域语音样本数据;同时输出话音类型标志,指示当前帧是背景音、清音还是浊音信号。
3.如权利要求2所述的语音质量增强系统,其特征在于,所述时域自适应增益控制模块根据输入语音样本幅度、语音样本类型以及目标增益,对输入语音样本幅度进行调整,使得输入语音能量更佳平稳,并对发送端的背景噪声进行抑制;当话音活动检测标志显示接收到的音频信号为背景噪声时,目标增益取较小值,当音频信号为语音时,增益取较大值。
4.如权利要求3所述的语音质量增强系统,其特征在于,所述目标增益进行实时计算模块对时域自适应增益控制模块的目标增益进行实时计算,其输入控制参数包括接收端的环境噪声频谱估计,目标增益将在预定增益的基础上随接收端噪声能量的增加而增加。
5.如权利要求4所述的语音质量增强系统,其特征在于,所述清音频谱调节模块根据清音浊音标志,确定目前的语音信号帧属于清音信号,并根据环境噪声频谱信息对语音频谱进行增强处理。
6.如权利要求5所述的语音质量增强系统,其特征在于,所述浊音频谱调节模块根据清音浊音标志,确定目前的语音信号帧属于浊音信号,并根据环境噪声频谱信息对浊音频谱进行增强处理。
7.如权利要求6所述的语音质量增强系统,其特征在于,所述目标增益进行实时计算模块包括以下功能:对环境噪声频谱估计参数进行分子带处理,分带方式包括但不限于根据梅尔频率进行划分;选取所关心的子带来计算环境噪声能量以模拟环境噪声响度;对计算的环境噪声能量进行平滑以避免能量过度波动,然后计算噪声响度增益,噪声越大增益越大;计算所述噪声响度增益时需预先减去设定的基底噪声能量,并限制噪声响度增益最大值;将所述环境噪声响度增益映射到自适应增益控制器的目标增益,环境噪声越大,目标增益越大。
8.如权利要求7所述的语音质量增强系统,其特征在于,所述清音频谱调节模块包括以下功能:将音频信号变换到频域,并按照与环境噪声频谱估计参数相同的形式划分子带;由大到小选取占该帧总能量超过P%的子带计算清音总能量,P等于10到100;选择环境噪声估计中与上述子带对应的子带,计算所选子带的环境噪声总能量;根据所述清音总能量和环境噪声总能量计算信噪比,并根据目标信噪比调整频谱能量;如果预设目标信噪比小于实际信噪比,则不做处理,如果预设目标信噪比大于实际信噪比,则放大所选子带能量;子带能量不超过某一预设值;相邻帧对应子带的放大因子做指数平滑以消除能量突变造成的失真;频域信号到时域信号进行转换。
9.如权利要求8所述的语音质量增强系统,其特征在于,所述浊音频谱调节模块包括以下功能:将音频信号变换到频域,并按照与环境噪声频谱估计相同的形式划分子带,计算所需浊音子带的能量;利用所述浊音子带能量与环境噪声估计中对应的子带能量,计算信噪比;搜索浊音信号共振峰,并根据所计算信噪比调整频谱能量,包括:如果只有一个共振峰,则根据所计算的各个子带的平均信噪比将浊音频段信号能量进行高频增强;最大能量小于某一预设阈值;信噪比越低,增强程度越大,频谱越高,增强程度越大;如果有多于一个共振峰,则优先放大高阶共振峰所在子带的能量;各个子带的增益与相邻子带增益做平滑,以防相邻子带能量波动过大;邻帧的对应子带做增益因子的平滑,以防时域能量波动过大;将频域信号变换回时域信号。
CN201410149360.8A 2014-04-15 2014-04-15 语音质量增强系统 Expired - Fee Related CN103915103B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410149360.8A CN103915103B (zh) 2014-04-15 2014-04-15 语音质量增强系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410149360.8A CN103915103B (zh) 2014-04-15 2014-04-15 语音质量增强系统

Publications (2)

Publication Number Publication Date
CN103915103A CN103915103A (zh) 2014-07-09
CN103915103B true CN103915103B (zh) 2017-04-19

Family

ID=51040729

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410149360.8A Expired - Fee Related CN103915103B (zh) 2014-04-15 2014-04-15 语音质量增强系统

Country Status (1)

Country Link
CN (1) CN103915103B (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104637489B (zh) * 2015-01-21 2018-08-21 华为技术有限公司 声音信号处理的方法和装置
CN104699447B (zh) * 2015-03-12 2017-10-10 浙江万朋教育科技股份有限公司 一种基于能量统计的语音音量自动调整方法
EP3107097B1 (en) * 2015-06-17 2017-11-15 Nxp B.V. Improved speech intelligilibility
CN104900174A (zh) * 2015-06-17 2015-09-09 无锡市崇安区科技创业服务中心 一种旅游景点自动讲解装置
KR102209689B1 (ko) * 2015-09-10 2021-01-28 삼성전자주식회사 음향 모델 생성 장치 및 방법, 음성 인식 장치 및 방법
CN105513606B (zh) * 2015-11-27 2019-12-06 百度在线网络技术(北京)有限公司 语音信号处理方法、装置和系统
CN105845150B (zh) * 2016-03-21 2019-09-27 福州瑞芯微电子股份有限公司 一种采用倒谱进行修正的语音增强方法及系统
CN106384599B (zh) * 2016-08-31 2018-09-04 广州酷狗计算机科技有限公司 一种破音识别的方法和装置
CN108962275B (zh) * 2018-08-01 2021-06-15 电信科学技术研究院有限公司 一种音乐噪声抑制方法及装置
CN110808064B (zh) * 2018-08-06 2022-06-03 航天信息股份有限公司 一种音频处理方法及装置
CN109087669B (zh) * 2018-10-23 2021-03-02 腾讯科技(深圳)有限公司 音频相似度检测方法、装置、存储介质及计算机设备
CN109767782B (zh) * 2018-12-28 2020-04-14 中国科学院声学研究所 一种提高dnn模型泛化性能的语音增强方法
CN110349595B (zh) * 2019-07-22 2021-08-31 浙江大华技术股份有限公司 一种音频信号自动增益控制方法、控制设备及存储介质
CN110931038B (zh) * 2019-11-25 2022-08-16 西安讯飞超脑信息科技有限公司 一种语音增强方法、装置、设备及存储介质
CN111510559B (zh) * 2020-04-30 2021-07-13 宋彦震 根据环境噪声幅度和来电者声音频率自适应调整来电者声音大小的方法
CN111833900B (zh) * 2020-06-16 2023-10-17 成都市联洲国际技术有限公司 音频增益控制方法、系统、设备和存储介质
CN112000307A (zh) * 2020-08-11 2020-11-27 合肥马道信息科技有限公司 一种语音音量指示系统
CN113473316B (zh) * 2021-06-30 2023-01-31 苏州科达科技股份有限公司 音频信号处理方法、装置及存储介质
WO2024016229A1 (zh) * 2022-07-20 2024-01-25 华为技术有限公司 音频处理方法及电子设备
CN115567864B (zh) * 2022-12-02 2024-03-01 浙江华创视讯科技有限公司 麦克风增益的调整方法和装置、存储介质及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101382151A (zh) * 2007-09-07 2009-03-11 富准精密工业(深圳)有限公司 风扇扇框
CN102016984A (zh) * 2008-05-02 2011-04-13 杜比实验室特许公司 用于动态声音传送的系统和方法
CN102436821A (zh) * 2011-12-02 2012-05-02 海能达通信股份有限公司 一种自适应调节音效的方法和设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101414233B1 (ko) * 2007-01-05 2014-07-02 삼성전자 주식회사 음성 신호의 명료도를 향상시키는 장치 및 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101382151A (zh) * 2007-09-07 2009-03-11 富准精密工业(深圳)有限公司 风扇扇框
CN102016984A (zh) * 2008-05-02 2011-04-13 杜比实验室特许公司 用于动态声音传送的系统和方法
CN102436821A (zh) * 2011-12-02 2012-05-02 海能达通信股份有限公司 一种自适应调节音效的方法和设备

Also Published As

Publication number Publication date
CN103915103A (zh) 2014-07-09

Similar Documents

Publication Publication Date Title
CN103915103B (zh) 语音质量增强系统
EP2517202B1 (en) Method and device for speech bandwidth extension
EP2737479B1 (en) Adaptive voice intelligibility enhancement
US10269368B2 (en) Audio processing device and a method for estimating a signal-to-noise-ratio of a sound signal
CN104200810B (zh) 自动增益控制装置及方法
TW586303B (en) Enhancing the intelligibility of received speech in a noisy environment
KR100860805B1 (ko) 음성 강화 시스템
US8369549B2 (en) Hearing aid system adapted to selectively amplify audio signals
WO2021139327A1 (zh) 一种音频信号处理方法、模型训练方法以及相关装置
US8085941B2 (en) System and method for dynamic sound delivery
US8019603B2 (en) Apparatus and method for enhancing speech intelligibility in a mobile terminal
CN102436821A (zh) 一种自适应调节音效的方法和设备
CN109686378B (zh) 语音处理方法和终端
CN108235181B (zh) 在音频处理装置中降噪的方法
US11128954B2 (en) Method and electronic device for managing loudness of audio signal
CN104409081B (zh) 语音信号处理方法和装置
US20190200143A1 (en) Audio processing device and a method for estimating a signal-to-noise-ratio of a sound signal
CN109416914A (zh) 适于噪声环境的信号处理方法和装置及使用其的终端装置
CN112567317A (zh) 用于生成触觉输出以增强用户体验的系统和方法
CN101458931A (zh) 一种消除语音信号中的环境噪声的方法
CN108133712A (zh) 一种处理音频数据的方法和装置
US11817115B2 (en) Enhanced de-esser for in-car communication systems
EP2660814B1 (en) Adaptive equalization system
US9614486B1 (en) Adaptive gain control
CN109326298A (zh) 一种游戏语音聊天音量自适应调节方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170419

Termination date: 20180415

CF01 Termination of patent right due to non-payment of annual fee