CN105244037A - 语音信号处理方法及装置 - Google Patents
语音信号处理方法及装置 Download PDFInfo
- Publication number
- CN105244037A CN105244037A CN201510541366.4A CN201510541366A CN105244037A CN 105244037 A CN105244037 A CN 105244037A CN 201510541366 A CN201510541366 A CN 201510541366A CN 105244037 A CN105244037 A CN 105244037A
- Authority
- CN
- China
- Prior art keywords
- voice signal
- signal
- frequency band
- threshold
- described voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 16
- 238000000034 method Methods 0.000 claims abstract description 43
- 230000000873 masking effect Effects 0.000 claims abstract description 19
- 230000000694 effects Effects 0.000 claims abstract description 12
- 238000012545 processing Methods 0.000 claims description 22
- 230000008569 process Effects 0.000 claims description 19
- 230000005236 sound signal Effects 0.000 claims description 17
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 238000004891 communication Methods 0.000 abstract description 14
- 230000003321 amplification Effects 0.000 abstract 1
- 210000005069 ears Anatomy 0.000 abstract 1
- 238000003199 nucleic acid amplification method Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 10
- 230000015654 memory Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 230000003287 optical effect Effects 0.000 description 4
- 230000000712 assembly Effects 0.000 description 3
- 238000000429 assembly Methods 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 239000000654 additive Substances 0.000 description 2
- 230000000996 additive effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- KLDZYURQCUYZBL-UHFFFAOYSA-N 2-[3-[(2-hydroxyphenyl)methylideneamino]propyliminomethyl]phenol Chemical compound OC1=CC=CC=C1C=NCCCN=CC1=CC=CC=C1O KLDZYURQCUYZBL-UHFFFAOYSA-N 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 201000001098 delayed sleep phase syndrome Diseases 0.000 description 1
- 208000033921 delayed sleep phase type circadian rhythm sleep disease Diseases 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Abstract
本发明公开了一种语音信号处理方法及装置,属于通讯技术领域。方法包括:获取噪音信号及待处理的语音信号;根据该噪音信号和该语音信号,计算该语音信号的掩蔽阈;根据该掩蔽阈,确定目标信号强度;根据该目标信号强度和语音信号强度,确定该语音信号的增益值;根据该语音信号的增益值,对该语音信号进行增益处理。采取这样的方法,基于该噪音信号对该语音信号的影响,确定该语音信号的增益值,进而保证了在掩蔽效应存在时,能够将语音信号增益到足够人耳识别的强度,提高了语音信号的听感效果。
Description
技术领域
本发明涉及通信技术领域,特别涉及一种语音信号处理方法及装置。
背景技术
随着通信技术的发展,语音通信越来越广泛的应用于人们的生产和生活中,进而如何实现高质量的语音通信成为了本领域的重要技术问题之一。
为了能够适当地调节语音信号的强度以提高听感效果,现有技术提供一种信号处理方法,即AGC(AutomaticGainControl,自动增益控制)。AGC根据输入语音信号的强度,调节对该语音信号的增益,使得强度低的输入语音信号获得较大的增益,而强度高的输入语音信号获得较小的增益,这样保证了输出语音信号的强度稳定在一个的合适的范围。
然而,在实际应用中,语音信号不可避免地混入了一定量的噪音信号,由于人耳的掩蔽效应,使得上述直接根据输入语音信号进行AGC得到的输出语音信号的难以具有良好的听感效果。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种语音信号处理方法及装置。该技术方案如下:
一方面,提供了一种语音信号处理方法,该方法包括:
获取噪音信号及待处理的语音信号;
根据该噪音信号和该语音信号,计算该语音信号的掩蔽阈;
根据该掩蔽阈,确定目标信号强度;
根据该目标信号强度和语音信号强度,确定该语音信号的增益值;
根据该语音信号的增益值,对该语音信号进行增益处理。
另一方面,提供了一种语音信号处理装置,该装置包括:
获取模块,用于获取噪音信号及待处理的语音信号;
计算模块,用于根据该噪音信号和该语音信号,计算该语音信号的掩蔽阈;
目标信号确定模块,用于根据该掩蔽阈,确定目标信号强度;
增益值确定模块,用于根据该目标信号强度和语音信号强度,确定该语音信号的增益值;
处理模块,用于根据该语音信号的增益值,对该语音信号进行增益处理。
本发明实施例提供的技术方案带来的有益效果是:
通过获取噪音信号及待处理的语音信号;根据该噪音信号和该语音信号,计算该语音信号的掩蔽阈;根据该掩蔽阈,确定目标信号强度;根据该目标信号强度和语音信号强度,确定该语音信号的增益值;根据该语音信号的增益值,对该语音信号进行增益处理。采取这样的方法,基于该噪音信号对该语音信号的影响,确定该语音信号的增益值,进而保证了在掩蔽效应存在时,能够将语音信号增益到足够人耳识别的强度,提高了语音信号的听感效果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种语音信号处理方法的流程图;
图2是本发明实施例提供的一种语音信号处理方法的流程图;
图3是本发明实施例提供的一种语音信号处理装置的框图;
图4是根据一示例性实施例示出的一种终端400的框图;
图5是根据一示例性实施例示出的一种服务器500的框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
图1是本发明实施例提供的一种语音信号处理方法的流程图。参见图1,该方法包括:
101、获取噪音信号及待处理的语音信号。
102、根据该噪音信号和该语音信号,计算该语音信号的掩蔽阈。
该掩蔽阈为在所述噪音信号存在时,该语音信号能被识别的最低强度。
103、根据该掩蔽阈,确定目标信号强度。
该目标信号强度为预计输出信号应当具有的强度。
104、根据该目标信号强度和语音信号强度,确定该语音信号的增益值。
105、根据该语音信号的增益值,对该语音信号进行增益处理。
本发明实施例提供的方法基于该噪音信号对该语音信号的影响,确定该语音信号的增益值,进而保证了在掩蔽效应存在时,能够将语音信号增益到足够人耳识别的强度,提高了语音信号的听感效果。
可选地,该方法还包括:确定该语音信号的绝对听阈;相应地,该根据该掩蔽阈,确定目标信号强度包括:根据该掩蔽阈以及绝对听阈,确定该目标信号强度。
该绝对听阈为不存在任何其他信号时,所述语音信号能被识别的最低强度。
可选地,该获取噪音信号及待处理的语音信号包括:通过不同的声音采集设备分别获取该噪音信号及待处理的语音信号。
可选地,该根据该噪音信号和该语音信号,计算该语音信号的掩蔽阈包括:将该噪音信号和该语音信号转化为频带形式;确定该噪音信号的每个频带和该语音信号自身的每个频带共同对该语音信号的每个频带的影响;根据所确定的影响,确定该语音信号的掩蔽阈。
可选地,确定该噪音信号的每个频带和该语音信号自身的每个频带共同对该语音信号的每个频带的影响包括:应用下述公式确定该噪音信号及该语音信号自身的每个频带对该语音信号的每个频带的影响;
其中,Cj表示第j个频带的语音信号受到掩蔽效应作用的影响,Xi表示第i个频带的语音信号,Di表示第i个频带的噪声信号,J表示最后一个频带的序号,SFij由以下公式确定:
其中,i和j表示频带序号,△=|i-j|,dB表示每个频带的带宽。
可选地,该根据所确定的影响,确定该语音信号的掩蔽阈还包括:确定该语音信号的掩蔽阈偏移量;根据该确定的影响及该掩蔽阈偏移量,确定该语音信号的掩蔽阈。
上述所有可选技术方案,可以采用任意结合形成本发明的可选实施例,在此不再一一赘述。
图2是本发明实施例提供的一种语音信号处理方法的流程图。参见图2,该方法包括:
201、获取噪音信号及待处理的语音信号。
在本发明实施例中,噪音信号及待处理的语音信号均可以为适用于网络传输的数字音频信号。
为了确定采集语音信号时环境产生的噪音,可以在采集语音信号的同时,采集环境所产生的噪音信号,进而基于该噪音信号对该语音信号进行处理,在本发明实施例中,通过不同的声音采集设备分别获取该噪音信号及该语音信号。该声音采集设备包括麦克风、拾音器等,例如,在音频聊天时,除了设置在聊天者面前的用于采集语音信号的麦克风,还增设一个放置在室内其他地方的麦克风用于采集该噪音信号。该噪声信号及该语音信号可以是由本地设备获取并保存,以便后续处理,还可以是由通信对端设备通过网络连接发送至本地设备,以便后续处理,本发明实施例对此不作具体限定。
需要说明的是,在实际应用中,还可以采用其他方法获取该噪音信号及该语音信号。例如,通过对原始语音信号进行处理,分离出噪音信号和语音信号,进而进行获取。本发明对获取噪音信号及语音信号的其他方法不作具体限定。
202、将该噪音信号和该语音信号转化为频带形式。
获取到的噪音信号和该语音信号一般是以时域信号的形式存在,将该噪音信号和该语音信号转化为频带形式,以便于进行后续处理,该时域信号是指以时间作为坐标的信号。
具体地,将该噪音信号和该语音信号转化为频带形式包括以下步骤:对该噪音信号和该语音信号进行傅里叶分解,获得该噪音信号和该语音信号的连续频域信号,该频域信号是指以频率作为坐标的信号;根据预设的频带宽度,将该连续频域信号按频带进行划分,进而得到该噪音信号和该语音信号的频带形式。
更具体地,该预设的频带宽度可以为以Bark为单位的频带宽度,即每个频带的频带宽度为1Bark。该Bark单位是根据人耳对声音频率区分的主观感受确定的,例如,对于频率0Hz到500Hz的情况下,1Bark约等于100Hz,进而0Hz到400Hz被划分成频带宽度为100Hz的4个频带,而对于频率大于500Hz的情况下,1Bark约等于9+4log(f/1000),其中f为频带的低端频率,进而频段宽度随频率而增长,依次为110Hz、120Hz、140Hz、150Hz、160Hz、190Hz….。
203、确定该噪音信号的每个频带和该语音信号自身的每个频带共同对该语音信号的每个频带的影响。
由于人耳存在掩蔽效应,对于语音信号来说,当有另一个噪音信号存在时,则需要该语音信号具有更高的强度才能被人耳识别,例如,在存在噪音的环境下听广播,则需要将该广播的声音开得更大才能听清楚。进一步地,对于一个包含多个频带的语音信号来说,该语音信号的每个频带之间都存在掩蔽效应,即一个频带的信号越强,则会使得另一频带的信号越难以被人耳识别。
本发明认识到,对于在具有噪音的环境下采集的语音信号来说,其掩蔽效应存在于两个方面:一方面是语音信号自身每个频带的信号之间相互的影响;另一方面是噪音信号每个频带的信号对该语音信号每个频带的信号的影响。进而,为了保证经过处理后的语音信号具有足够被人耳识别的强度,本发明实施例提供的语音处理方法需要确定这两方面共同对该语音信号的每个频带的影响。
具体地,应用下述公式确定该噪音信号的每个频带和该语音信号自身的每个频带共同对该语音信号的每个频带的影响。
其中,Cj表示第j个频带的语音信号受到掩蔽效应作用的影响,该受到的掩蔽效应来源于上述两个方面,Xi表示第i个频带的语音信号,所以等号右面的第一项表示了该语音信号自身的每个频带对该语音信号的掩蔽效应,Di表示第i个频带的噪声信号,所以等号右面的第二项表示了该噪音信号的每个频带对该语音信号的掩蔽效应,J表示最后一个频带的序号,SFij由以下公式确定:
其中,i和j表示频带序号,△=|i-j|表示了频带的间隔,dB表示每个频带的宽度,对于采用Brak单位的情况来说,该dB表示每个Brak单位的频带带宽。
204、根据所确定的影响,确定该语音信号的掩蔽阈,该掩蔽阈为在该噪音信号存在时,该语音信号能被识别的最低强度。
在本发明实施例中,为了准确地确定掩蔽阈,本步骤还包括:确定该语音信号的掩蔽阈偏移量;根据该确定的影响及该掩蔽阈偏移量,确定该语音信号的掩蔽阈。
具体地,掩蔽阈偏移量由下述公式确定:
Oj=φ(14.5+j)+5.5(1-φ)dB
其中,Oi表示第i个频带的掩蔽阈偏移量,φ表示音调系数。
在确定该掩蔽阈偏移量之后,结合步骤203中确定的影响Cj确定该掩蔽阈,具体可以采用下述公式:
其中,Tj即为该掩蔽阈。
需要说明的是,在实际应用中,当该掩蔽阈偏移量较小时,也可以忽略该掩蔽阈偏移量,直接根据步骤203中确定的影响,确定该语音信号的掩蔽阈。本发明对是否忽略该掩蔽阈偏移量不作具体限定。
以上步骤102至104为本发明实施例中根据该噪音信号和该语音信号,计算该语音信号的掩蔽阈的具体实现过程。需要说明的是,在实际应用中还可以仅考虑语音信号自身每个频带的信号之间相互的影响,或仅考虑噪音信号每个频带的信号对该语音信号每个频带的信号的影响,从而确定该掩蔽阈。本发明对计算该语音信号的掩蔽阈的具体实现过程不作限定。
205、根据该掩蔽阈,确定目标信号强度。
为了保证语音信号具有足够人耳识别的强度,在本发明实施例中,把掩蔽阈所指示的强度与预设强度值相加,将该相加的结果确定为目标信号强度。该预设强度值可以根据实际应用情况进行确定,例如,为5dB,本发明对该预设强度值的具体大小不作限定。
在实际应用中,由于人耳对语音信号的感知能力有限,进而当语音信号强度很小时,有可能会出现语音信号强度虽然超过了该掩蔽阈,但其强度仍不足以被人耳识别的情况,进而本发明实施例提供的语音信号处理方法还包括:
确定该语音信号的绝对听阈,该绝对听阈为不存在任何其他信号时,该语音信号能被识别的最低强度。
具体地,该绝对听阈可以由以下公式确定:
Ta j=3.64f-0.8-6.5exp(f-3.3)2+10-3f4
其中,f为第j个频带的低端频率,Ta j即为该绝对听阈。
相应地,根据该掩蔽阈,确定目标信号强度包括:根据该掩蔽阈以及绝对听阈,确定该目标信号强度。
具体地,比较该掩蔽阈与该绝对听阈的大小,将两者中较大者确定为实际阈,把该实际阈所指示的强度与预设强度值相加,将该相加的结果确定为目标信号强度。
206、根据该目标信号强度和语音信号强度,确定该语音信号的增益值。
在本发明实施例中,通过该目标信号强度除以该音信号强度,将所得的比值确定为该语音信号的增益值。具体地,采用下述公式确定该语音信号的增益值:
k=magc/mx
其中,magc为目标信号强度,mx为该语音信号强度,k即为该语音信号的增益值。
需要说明的是,该语音信号及目标信号的强度可以由能量单位表示,也可以由幅度单位表示,本发明对该强度的单位不作具体限定。
207、根据该语音信号的增益值,对该语音信号进行增益处理。
在本发明实施例中,该语音信号进行增益处理包括:将该语音信号从步骤201中的频带形式还原为时域信号,将转化后的语音信号乘以该增益值。由于该增益值是基于掩蔽阈确定的,所以本发明实施例提供的语音处理方法保证了在掩蔽效应存在时,能够将语音信号增益到足够人耳识别的强度。
在本发明另一实施中,为了减少将语音信号从频带形式还原为时域信号的步骤,进而节省处理资源,本发明提供的方法还可以在该语音信号由时域信号的形式转化为频带形式之前,备份该时域信号形式的语音信号,相应地,在本步骤中,无需将该语音信号从的频带形式还原为时域信号,直接基于该备份的语音信号进行增益处理。本发明对是否具有还原为时域信号的步骤不作具体限定。
本发明实施例提供的方法通过获取噪音信号及待处理的语音信号;根据该噪音信号和该语音信号,计算该语音信号的掩蔽阈,该掩蔽阈为在该噪音信号存在时,该语音信号能被识别的最低强度;根据该掩蔽阈,确定目标信号强度;根据该目标信号强度和语音信号强度,确定该语音信号的增益值;根据该语音信号的增益值,对该语音信号进行增益处理。采取这样的方法,基于该噪音信号对该语音信号的影响,确定该语音信号的增益值,进而保证了在掩蔽效应存在时,能够将语音信号增益到足够人耳识别的强度,提高了语音信号的听感效果。
图3是本发明实施例提供的一种语音信号处理装置的框图。参见图3,该装置包括:
获取模块301,用于获取噪音信号及待处理的语音信号;
计算模块302,用于根据该噪音信号和该语音信号,计算该语音信号的掩蔽阈;
目标信号确定模块303,用于根据该掩蔽阈,确定目标信号强度;
增益值确定模块304,用于根据该目标信号强度和语音信号强度,确定该语音信号的增益值;
处理模块305,用于根据该语音信号的增益值,对该语音信号进行增益处理。
其中,该掩蔽阈为在该噪音信号存在时,该语音信号能被识别的最低强度。
本发明实施例提供的装置通过获取噪音信号及待处理的语音信号;根据该噪音信号和该语音信号,计算该语音信号的掩蔽阈,该掩蔽阈为在该噪音信号存在时,该语音信号能被识别的最低强度;根据该掩蔽阈,确定目标信号强度;根据该目标信号强度和语音信号强度,确定该语音信号的增益值;根据该语音信号的增益值,对该语音信号进行增益处理。采取这样的装置,基于该噪音信号对该语音信号的影响,确定该语音信号的增益值,进而保证了在掩蔽效应存在时,能够将语音信号增益到足够人耳识别的强度,提高了语音信号的听感效果。
可选地,该绝对听阈确定模块,用于确定该语音信号的绝对听阈;
相应地,该目标信号确定模块用于:根据该掩蔽阈以及绝对听阈,确定该目标信号强度。
该绝对听阈为不存在任何其他信号时,该语音信号能被识别的最低强度。
可选地,该获取模块用于通过不同的声音采集设备分别获取该噪音信号及待处理的语音信号。
可选地,该计算模块包括:
转化单元,用于将该噪音信号和该语音信号转化为频带形式;
影响确定单元,用于确定该噪音信号的每个频带和该语音信号自身的每个频带共同对该语音信号的每个频带的影响;
掩蔽阈确定单元,用于根据所确定的影响,确定该语音信号的掩蔽阈。
可选地,该影响确定单元用于应用下述公式确定该噪音信号及该语音信号自身的每个频带对该语音信号的每个频带的影响;
其中,Cj表示第j个频带的语音信号受到掩蔽效应作用的影响,Xi表示第i个频带的语音信号,Di表示第i个频带的噪声信号,J表示最后一个频带的序号,SFij由以下公式确定:
其中,i和j表示频带序号,△=|i-j|,dB表示每个频带的宽度。
可选地,其特征在于,该影响确定单元还用于:确定该语音信号的掩蔽阈偏移量;根据该确定的影响及该掩蔽阈偏移量,确定该语音信号的掩蔽阈。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
图4是根据一示例性实施例示出的一种终端400的框图。例如,终端400可以是移动电话,计算机,数字广播终端,消息收发终端,平板终端,个人数字助理等。
参照图4,终端400可以包括以下一个或多个组件:处理组件402,存储器404,电源组件406,多媒体组件408,音频组件410,输入/输出(I/O)的接口412,传感器组件414,以及通信组件416。
处理组件402通常控制终端400的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件402可以包括一个或多个处理器420来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件402可以包括一个或多个模块,便于处理组件402和其他组件之间的交互。例如,处理组件402可以包括多媒体模块,以方便多媒体组件408和处理组件402之间的交互。
存储器404被配置为存储各种类型的数据以支持在终端400的操作。这些数据的示例包括用于在终端400上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器404可以由任何类型的易失性或非易失性存储终端或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件406为终端400的各种组件提供电力。电源组件406可以包括电源管理系统,一个或多个电源,及其他与为终端400生成、管理和分配电力相关联的组件。
多媒体组件408包括在所述终端400和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件408包括一个前置摄像头和/或后置摄像头。当终端400处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件410被配置为输出和/或输入音频信号。例如,音频组件410包括一个麦克风(MIC),当终端400处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器404或经由通信组件416发送。在一些实施例中,音频组件410还包括一个扬声器,用于输出音频信号。
I/O接口412为处理组件402和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件414包括一个或多个传感器,用于为终端400提供各个方面的状态评估。例如,传感器组件414可以检测到终端400的打开/关闭状态,组件的相对定位,例如所述组件为终端400的显示器和小键盘,传感器组件414还可以检测终端400或终端400一个组件的位置改变,用户与终端400接触的存在或不存在,终端400方位或加速/减速和终端400的温度变化。传感器组件414可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件414还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件414还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件416被配置为便于终端400和其他终端之间有线或无线方式的通信。终端400可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件416经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件416还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,终端400可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理终端(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述图1或图2所示语音信号处理方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器404,上述指令可由终端400的处理器420执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储终端等。
在示例性实施例中,还提供了一种非临时性计算机可读存储介质,当所述存储介质中的指令由终端的处理器执行时,使得终端能够执行上述的语音信号处理方法。
图5是根据一示例性实施例示出的一种服务器500的框图。参照图5,服务器500包括处理组件522,其进一步包括一个或多个处理器,以及由存储器532所代表的存储器资源,用于存储可由处理部件522的执行的指令,例如应用程序。存储器532中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件522被配置为执行指令,以执行上述图1或图2中语音信号处理方法。
服务器500还可以包括一个电源组件525被配置为执行服务器500的电源管理,一个有线或无线网络接口550被配置为将服务器500连接到网络,和一个输入输出(I/O)接口558。服务器500可以操作基于存储在存储器532的操作系统,例如WindowsServerTM,MacOSXTM,UnixTM,LinuxTM,FreeBSDTM或类似。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
Claims (12)
1.一种语音信号处理方法,其特征在于,所述方法包括:
获取噪音信号及待处理的语音信号;
根据所述噪音信号和所述语音信号,计算所述语音信号的掩蔽阈;
根据所述掩蔽阈,确定目标信号强度;
根据所述目标信号强度和语音信号强度,确定所述语音信号的增益值;
根据所述语音信号的增益值,对所述语音信号进行增益处理。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定所述语音信号的绝对听阈;
相应地,所述根据所述掩蔽阈,确定目标信号强度包括:
根据所述掩蔽阈以及绝对听阈,确定所述目标信号强度。
3.根据权利要求1所述的方法,其特征在于,所述获取噪音信号及待处理的语音信号包括:
通过不同的声音采集设备分别获取所述噪音信号及待处理的语音信号。
4.根据权利要求1所述的方法,其特征在于,所述根据所述噪音信号和所述语音信号,计算所述语音信号的掩蔽阈包括:
将所述噪音信号和所述语音信号转化为频带形式;
确定所述噪音信号的每个频带和所述语音信号自身的每个频带共同对所述语音信号的每个频带的影响;
根据所确定的影响,确定所述语音信号的掩蔽阈。
5.根据权利要求4所述的方法,其特征在于,所述确定所述噪音信号的每个频带和所述语音信号自身的每个频带共同对所述语音信号的每个频带的影响包括:
应用下述公式确定所述噪音信号及所述语音信号自身的每个频带对所述语音信号的每个频带的影响;
其中,Cj表示第j个频带的语音信号受到掩蔽效应作用的影响,Xi表示第i个频带的语音信号,Di表示第i个频带的噪声信号,J表示最后一个频带的序号,SFij由以下公式确定:
其中,i和j表示频带序号,△=|i-j|,dB表示每个频带的宽度。
6.根据权利要求4所述的方法,其特征在于,所述根据所确定的影响,确定所述语音信号的掩蔽阈还包括:
确定所述语音信号的掩蔽阈偏移量;
根据所述确定的影响及所述掩蔽阈偏移量,确定所述语音信号的掩蔽阈。
7.一种语音信号处理装置,其特征在于,所述装置包括:
获取模块,用于获取噪音信号及待处理的语音信号;
计算模块,用于根据所述噪音信号和所述语音信号,计算所述语音信号的掩蔽阈;
目标信号确定模块,用于根据所述掩蔽阈,确定目标信号强度;
增益值确定模块,用于根据所述目标信号强度和语音信号强度,确定所述语音信号的增益值;
处理模块,用于根据所述语音信号的增益值,对所述语音信号进行增益处理。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
绝对听阈确定模块,用于确定所述语音信号的绝对听阈;
相应地,所述目标信号确定模块用于:根据所述掩蔽阈以及绝对听阈,确定所述目标信号强度。
9.根据权利要求7所述的装置,其特征在于,所述获取模块用于通过不同的声音采集设备分别获取所述噪音信号及待处理的语音信号。
10.根据权利要求7所述的装置,其特征在于,所述计算模块包括:
转化单元,用于将所述噪音信号和所述语音信号转化为频带形式;
影响确定单元,用于确定所述噪音信号的每个频带和所述语音信号自身的每个频带共同对所述语音信号的每个频带的影响;
掩蔽阈确定单元,用于根据所确定的影响,确定所述语音信号的掩蔽阈。
11.根据权利要求10所述的装置,其特征在于,所述影响确定单元用于应用下述公式确定所述噪音信号及所述语音信号自身的每个频带对所述语音信号的每个频带的影响;
其中,Cj表示第j个频带的语音信号受到掩蔽效应作用的影响,Xi表示第i个频带的语音信号,Di表示第i个频带的噪声信号,J表示最后一个频带的序号,SFij由以下公式确定:
其中,i和j表示频带序号,△=|i-j|,dB表示每个频带的宽度。
12.根据权利要求10所述的装置,其特征在于,所述影响确定单元还用于:确定所述语音信号的掩蔽阈偏移量;根据所述确定的影响及所述掩蔽阈偏移量,确定所述语音信号的掩蔽阈。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510541366.4A CN105244037B (zh) | 2015-08-27 | 2015-08-27 | 语音信号处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510541366.4A CN105244037B (zh) | 2015-08-27 | 2015-08-27 | 语音信号处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105244037A true CN105244037A (zh) | 2016-01-13 |
CN105244037B CN105244037B (zh) | 2019-01-15 |
Family
ID=55041656
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510541366.4A Active CN105244037B (zh) | 2015-08-27 | 2015-08-27 | 语音信号处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105244037B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112151007A (zh) * | 2020-11-24 | 2020-12-29 | 北京世纪好未来教育科技有限公司 | 一种语音合成方法、装置、设备及存储介质 |
CN112306448A (zh) * | 2020-01-15 | 2021-02-02 | 北京字节跳动网络技术有限公司 | 根据环境噪声调节输出音频的方法、装置、设备和介质 |
CN113409803A (zh) * | 2020-11-06 | 2021-09-17 | 腾讯科技(深圳)有限公司 | 语音信号处理方法、装置、存储介质及设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110178800A1 (en) * | 2010-01-19 | 2011-07-21 | Lloyd Watts | Distortion Measurement for Noise Suppression System |
CN102257559A (zh) * | 2008-12-23 | 2011-11-23 | 伯斯有限公司 | 基于掩蔽的增益控制 |
CN103295581A (zh) * | 2012-02-22 | 2013-09-11 | 宏达国际电子股份有限公司 | 增加语音清晰度的方法和装置以及运算装置 |
CN103580631A (zh) * | 2012-08-01 | 2014-02-12 | 哈曼贝克自动系统股份有限公司 | 自动响度控制 |
CN104703093A (zh) * | 2013-12-09 | 2015-06-10 | 中国移动通信集团公司 | 一种音频输出方法及装置 |
-
2015
- 2015-08-27 CN CN201510541366.4A patent/CN105244037B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102257559A (zh) * | 2008-12-23 | 2011-11-23 | 伯斯有限公司 | 基于掩蔽的增益控制 |
US20110178800A1 (en) * | 2010-01-19 | 2011-07-21 | Lloyd Watts | Distortion Measurement for Noise Suppression System |
CN103295581A (zh) * | 2012-02-22 | 2013-09-11 | 宏达国际电子股份有限公司 | 增加语音清晰度的方法和装置以及运算装置 |
CN103580631A (zh) * | 2012-08-01 | 2014-02-12 | 哈曼贝克自动系统股份有限公司 | 自动响度控制 |
CN104703093A (zh) * | 2013-12-09 | 2015-06-10 | 中国移动通信集团公司 | 一种音频输出方法及装置 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112306448A (zh) * | 2020-01-15 | 2021-02-02 | 北京字节跳动网络技术有限公司 | 根据环境噪声调节输出音频的方法、装置、设备和介质 |
CN113409803A (zh) * | 2020-11-06 | 2021-09-17 | 腾讯科技(深圳)有限公司 | 语音信号处理方法、装置、存储介质及设备 |
CN113409803B (zh) * | 2020-11-06 | 2024-01-23 | 腾讯科技(深圳)有限公司 | 语音信号处理方法、装置、存储介质及设备 |
CN112151007A (zh) * | 2020-11-24 | 2020-12-29 | 北京世纪好未来教育科技有限公司 | 一种语音合成方法、装置、设备及存储介质 |
CN112151007B (zh) * | 2020-11-24 | 2021-03-02 | 北京世纪好未来教育科技有限公司 | 一种语音合成方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN105244037B (zh) | 2019-01-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3163748B1 (en) | Method, device and terminal for adjusting volume | |
CN105608861B (zh) | 电子设备控制方法及装置 | |
US20150358768A1 (en) | Intelligent device connection for wireless media in an ad hoc acoustic network | |
JP6314286B2 (ja) | 音声信号の最適化方法及びその装置、プログラム、及び記録媒体 | |
CN104092836A (zh) | 省电的方法和装置 | |
CN108476256A (zh) | 一种音量调节方法及终端 | |
CN105532634A (zh) | 超声波驱蚊方法、装置及系统 | |
WO2017071183A1 (zh) | 一种语音处理方法、装置及拾音电路 | |
CN106161781A (zh) | 音量调整方法及装置 | |
CN105187594A (zh) | 一种消除回声的方法和装置 | |
CN104991754A (zh) | 录音方法及装置 | |
CN113542960B (zh) | 音频信号处理方法、系统、装置、电子设备和存储介质 | |
CN104616652A (zh) | 语音传输方法及装置 | |
CN115482830B (zh) | 语音增强方法及相关设备 | |
CN104636110A (zh) | 控制音量的方法及装置 | |
CN105407368A (zh) | 多媒体播放方法、装置及系统 | |
CN104112459A (zh) | 播放音频数据的方法和装置 | |
CN106453838B (zh) | 音量调节方法及装置 | |
CN105451056A (zh) | 音视频同步方法及装置 | |
CN104506703A (zh) | 语音留言、语音留言播放方法及装置 | |
CN105244037A (zh) | 语音信号处理方法及装置 | |
CN105448300A (zh) | 用于通话的方法及装置 | |
CN104702756A (zh) | 一种通话无声的检测方法及装置 | |
CN109121059A (zh) | 扬声器堵孔检测方法及相关产品 | |
CN117480554A (zh) | 语音增强方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20231012 Address after: 31a, 15 / F, building 30, maple mall, bangrang Road, Brazil, Singapore Patentee after: Baiguoyuan Technology (Singapore) Co.,Ltd. Address before: 511442 25 / F, building B-1, Wanda Plaza North, Wanbo business district, 79 Wanbo 2nd Road, Nancun Town, Panyu District, Guangzhou City, Guangdong Province Patentee before: GUANGZHOU BAIGUOYUAN NETWORK TECHNOLOGY Co.,Ltd. |
|
TR01 | Transfer of patent right |