CN104364845A - 处理装置、处理方法、程序、计算机可读信息记录介质以及处理系统 - Google Patents
处理装置、处理方法、程序、计算机可读信息记录介质以及处理系统 Download PDFInfo
- Publication number
- CN104364845A CN104364845A CN201380030900.4A CN201380030900A CN104364845A CN 104364845 A CN104364845 A CN 104364845A CN 201380030900 A CN201380030900 A CN 201380030900A CN 104364845 A CN104364845 A CN 104364845A
- Authority
- CN
- China
- Prior art keywords
- noise
- amplitude
- spectral
- frame
- treating apparatus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title 1
- 238000001228 spectrum Methods 0.000 claims abstract description 151
- 230000003595 spectral effect Effects 0.000 claims description 116
- 238000001514 detection method Methods 0.000 claims description 72
- 230000006870 function Effects 0.000 claims description 41
- 238000000034 method Methods 0.000 claims description 33
- 230000001052 transient effect Effects 0.000 claims description 3
- 230000001105 regulatory effect Effects 0.000 claims 1
- 230000005236 sound signal Effects 0.000 abstract description 6
- 230000007423 decrease Effects 0.000 description 31
- 238000006243 chemical reaction Methods 0.000 description 26
- 230000008569 process Effects 0.000 description 21
- 238000010586 diagram Methods 0.000 description 18
- 230000005540 biological transmission Effects 0.000 description 11
- 230000003247 decreasing effect Effects 0.000 description 8
- 230000002093 peripheral effect Effects 0.000 description 5
- 230000008676 import Effects 0.000 description 4
- 238000012886 linear function Methods 0.000 description 4
- 239000004065 semiconductor Substances 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000009434 installation Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000004378 air conditioning Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000003292 diminished effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0324—Details of processing therefor
- G10L21/0332—Details of processing therefor involving modification of waveforms
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
Abstract
一种处理装置估计在声音信号中所包括的噪声的噪声振幅谱。处理装置包括振幅谱计算部分,配置来针对将声音信号划分成时间单元而获得的每个帧来计算声音信号的振幅谱;以及噪声振幅谱估计部分,配置来估计从帧中检测到的噪声的噪声振幅谱。噪声振幅谱估计部分包括第一估计部分,配置来基于由振幅谱计算部分所计算的振幅谱与在检测到噪声之前出现的帧的振幅谱之间的差值,来估计噪声振幅谱,以及第二估计部分,配置来基于衰减函数来估计所述噪声振幅谱,所述衰减函数从检测到所述噪声之后出现的帧的噪声振幅谱获得。
Description
技术领域
本发明涉及处理装置、处理方法、程序、计算机可读信息记录介质以及处理系统。
背景技术
例如,存在诸如摄影机、数码相机以及IC记录器等之类的电子装置、以及用于经由网络在装置/设备之间发送/接收声音等的并且进行会议的会议系统,其中的每一个均应用从录制的、发送的和/或接收的声音中减少噪声的技术,从而能够清楚地听到声音。
作为从输入的声音中减少噪声的方法,抑制噪声的装置等是已知的,例如,通过该装置,利用谱减(spectrum subtraction)方法,从作为输入的混有噪声的声音中获得噪声被抑制的声音作为输出(例如,见日本特开专利申请第2011-257643号)。
根据上述谱减方法,例如可以减少持续产生的噪声,例如来自空调的声音。然而,例如,存在难以减少各种类型的突然产生的噪声的情形,例如由敲击个人计算机键盘所产生的声音、由敲击桌子所产生的声音或者由点击圆珠笔笔尖所产生的声音。
发明内容
根据本发明的一个方面,估计在声音信号中所包括的噪声的噪声振幅谱的处理装置具有振幅谱计算部分,配置来针对将所述声音信号划分成时间单元而获得的每个帧来计算所述声音信号的振幅谱;以及噪声振幅谱估计部分,配置来估计从所述帧中检测到的噪声的噪声振幅谱。所述噪声振幅谱估计部分包括第一估计部分和第二估计部分。所述第一估计部分配置来基于由所述振幅谱计算部分所计算的振幅谱与在检测到所述噪声之前出现的帧的振幅谱之间的差值,来估计所述噪声振幅谱。所述第二估计部分配置来基于衰减函数来估计所述噪声振幅谱,所述衰减函数从检测到所述噪声之后出现的帧的噪声振幅谱获得。
结合附图阅读,通过下面的详细描述,本发明的其它目的、特性以及优点将变得更加显著。
附图说明
图1是示出根据第一实施例的处理装置的功能配置的框图;
图2示出了输入至根据第一实施例的处理装置的声音信号;
图3示出了根据第一实施例的处理装置的硬件配置;
图4是示出根据第一实施例的处理装置的噪声振幅谱估计部分的功能配置的框图;
图5示出了在根据第一实施例的处理装置中的噪声振幅谱估计方法;
图6示出了在根据第一实施例的处理装置中估计噪声振幅谱的处理的流程图;
图7是示出在根据第一实施例的处理装置中的噪声振幅谱估计部分的功能配置的另一示例的框图;
图8是示出根据第二实施例的处理系统的功能配置的框图;
图9示出了根据第二实施例的处理系统的硬件配置;
图10是示出根据第三实施例的处理装置的功能配置的框图;
图11示出了根据第三实施例的处理装置的硬件配置;
图12是示出根据第三实施例的处理装置的噪声振幅谱估计部分的功能配置的框图;
图13示出了在根据第三实施例的处理装置中估计噪声振幅谱的处理的流程图;
图14是示出在根据第三实施例的处理装置中的噪声振幅谱估计部分的功能配置的另一示例的框图;
图15是示出根据第四实施例的处理系统的功能配置的框图;以及
图16示出了根据第四实施例处理系统的硬件配置。
具体实施方式
下面,将利用附图描述本发明的实施例。在各个附图中,相同的参考数字/字母用于相同的元件/组件,并且可省略重复的描述。
[第一实施例]
<处理装置的功能配置>
图1是示出根据第一实施例的处理装置100的功能配置的框图。
如图1中所示,处理装置100包括输入端子IN、频率谱转换部分(frequencyspectrum conversion part)101、噪声检测部分A 102、噪声检测部分B 103、噪声振幅谱估计部分104、噪声谱减部分(noise spectrum subtraction part)105、频率谱逆转换部分106以及输出端子OUT。
声音信号输入至处理装置100的输入端子IN。如图2中所示,划分至各个时间单元“u”(例如,每个时间单元“u”是10ms等)的声音信号Sis输入到输入端子IN。注意,在下文中,划分至各个时间单元“u”的声音信号Sis的片段称为“帧”。注意,声音信号Sis是与经由输入设备所输入的声音相对应的信号,所述输入设备例如用于输入声音的麦克风,并且声音信号Sis可以包括除了语音之外的声音。
频率谱转换部分101将输入至输入端子IN的声音信号Sis转换为频率谱,并且输出频率谱Sif。频率谱转换部分101例如利用快速傅里叶变换(FFT)将声音信号转换为频率谱。
噪声检测部分A 102确定所输入的声音信号Sis中是否包括噪声,并且将噪声检测结果输出至噪声振幅谱估计部分104,作为检测信息A IdA。
噪声检测部分B 103确定从频率谱转换部分101输出的频率谱Sif中是否包括噪声,并且将噪声检测结果输出至噪声振幅谱估计部分104,作为检测信息B IdB。
噪声振幅谱估计部分104基于从噪声检测部分A 102输出的检测信息AIdA以及从噪声检测部分B 103输出的检测信息B IdB,对从频率谱转换部分101所输出的频率谱Sif中所包括的噪声的振幅谱Seno(在下文中,称为“噪声振幅谱”)进行估计。
噪声谱减部分105从频率谱转换部分101输出的频率谱Sif中减去从噪声振幅谱估计部分104输出的噪声振幅谱Seno,并且输出其中的噪声已由此得以减少的频率谱Sof。
频率谱逆转换部分106将从噪声谱减部分105输出的、其中噪声已由此得以减少了的频率谱Sof转换为声音信号Sos,并且输出所述声音信号Sos。频率谱逆转换部分106例如利用傅里叶逆变换来将频率谱Sof转换为声音信号Sos。
输出端子OUT输出从频率谱逆转换部分106输出的、其中噪声已得以由此减少了的声音信号Sos。
<处理装置的硬件配置>
图3示出了处理装置100的硬件配置。
如图3中所示,处理装置100包括控制器110、网络I/F 115、记录介质I/F部分116、输入端子IN、以及输出端子OUT。控制器110包括CPU 111、HDD(硬盘驱动器)112、ROM(只读存储器)113以及RAM(随机访问存储器)114。
CPU 111包括算术逻辑单元,将程序和数据从诸如HDD 112或ROM 113之类的储存设备读取至RAM 114中,执行处理,并且由此,实现处理装置100的各个功能。由此,CPU 111起到频率谱转换部分101、噪声检测部分A102、噪声检测部分B 103、噪声振幅谱估计部分104、噪声谱减部分105、频率谱逆转换部分106(图1中所示)等的作用或其中多个部分的作用。
HDD 112为存储程序和数据的非易失性性存储设备。所存储的程序和数据包括OS(操作系统)、应用软件等,所述OS为控制整个处理装置100的基础软件,所述应用软件提供关于OS的各种功能。HDD 112起到振幅谱存储部分45、噪声振幅谱存储部分46(稍后描述)等的作用。
ROM 113为非易失性半导体存储器(存储设备),即使在电力供给切断之后,其仍具有存储程序和数据的能力。ROM 113存储程序和数据,例如当处理装置100启动时将被执行的BIOS(基本输入/输出系统)、OS设置、网络设置等。RAM 114为易失性半导体存储器(存储设备),用于暂时存储程序和数据。
网络I/F部分115是外围设备与处理装置100之间的接口,所述外围设备具有通信功能、经由诸如有线和/或无线电路之类的数据传输路径所构建的网络而连接,所述网络例如LAN(局域网)、WAN(广域网)等。
记录介质I/F部分116针对记录介质的接口。处理装置100利用记录介质I/F部分116具有从记录介质117读取信息和/或向记录介质117写入信息的能力。记录介质117的具体示例包括软盘、CD、DVD(数字多功能盘)、SD存储卡以及USB存储器(通用串行总线存储器)。
<处理装置的声音处理>
接下来,将详细描述由处理装置100的各个部分所进行的声音处理。
《输入的声音信号的噪声检测》
噪声检测部分A 102(见图1)例如基于输入的声音信号Sis的功率波动来确定输入的声音信号Sis是否包括噪声。在该情形中,噪声检测部分A 102针对每一帧计算输入的声音信号Sis的功率,并且计算要被确定是否包括噪声的帧(噪声检测目标帧)的功率与紧邻噪声检测目标帧之前出现的帧的功率之间的差值。
在时间t1与t2之间的帧中输入的声音信号的功率“p”可以从下列方程式(1)获得,其中x(t)表示在时间t输入的声音信号的值:
功率波动可以从下列方程式(2)获得,其中“pk”表示噪声检测目标帧的功率且“pk-1”表示紧邻噪声检测目标帧之前出现的帧的功率:
Δpk=pk-pk-1 …(2)
噪声检测部分A 102例如将从方程式(2)所获得的功率波动Δpk与预确阈值相比较,并且当功率波动Δpk超出该阈值时,确定出在噪声检测目标帧中输入的声音信号Sis中包括噪声,并且当功率波动Δpk没有超出该阈值时,确定出在噪声检测目标帧中输入的声音信号Sis中不包括噪声。噪声检测部分A 102输出指示确定结果的检测信息A IdA。
可选地,噪声检测部分A 102可以例如基于线性预测误差的幅度(magnitude)来确定输入的声音信号中是否包括噪声。在该情形中,噪声检测部分A 102计算检测目标帧的线性预测误差,如下:
例如,输入的声音信号各个帧的值x将表述如下:
...,xk-1,xk,xk+1,...
此时,获得最优线性预测系数an(n=0至N-1),将用于通过下列方程式利用直至紧邻某一帧之前出现的帧为止的帧的值x1至xk来预测该某一帧的声音信号的值xk+1:
x^k+1=a0xk+a1xk-1+a2xk-2+···+aN-1xk-(N-1)
接下来,通过下列方程式,获得线性预测误差ek+1,作为从上述方式由此所获得的预测值x^k+1与实际值xk+1之间的差值:
ek+1=x^k+1-xk+1
所述误差指示预测值与实际测量值之间的误差。因此,噪声检测部分A102将线性预测误差ek+1与预定阈值相比较,并且当线性预测误差ek+1超出该阈值时,确定出在噪声检测目标帧中输入的声音信号Sis中包括噪声,并且当线性预测误差ek+1没有超出该阈值时,确定出在噪声检测目标帧中输入的声音信号Sis中不包括噪声。噪声检测部分A 102输出指示确定结果的检测信息A IdA。
《频率谱的噪声检测》
噪声检测部分B 103确定从频率谱转换部分101输出的频率谱Sif中是否包括噪声。
例如,噪声检测部分B 103基于频率谱Sif的某一频带的功率波动的幅度来确定频率谱Sif中是否包括噪声。在该情形中,噪声检测部分B 103计算检测目标帧的高频带中的谱功率的总和,并且获得由此所得到的检测目标帧的值与紧邻检测目标帧之前出现的帧的相应值之间的差值。
然后,例如,噪声检测部分B 103将由此得到的、检测目标帧与紧邻检测目标帧之前出现的帧之间在高频带中的谱功率总和之间的差值与预定阈值相比较。然后,例如,当高频带中的谱功率总和之间的差值超出阈值时,噪声检测部分B 103确定出在噪声检测目标帧中输入的声音信号Sis中包括噪声,并且当高频带中的谱功率总和之间的差值没有超出阈值时,噪声检测部分B 103确定出在噪声检测目标帧中输入的声音信号Sis中不包括噪声。噪声检测部分B 103输出指示确定结果的检测信息B IdB。
可选地,噪声检测部分B 103可以通过与特征量相比较来确定频率谱中是否包括噪声,其中针对要被检测的噪声的各个频率已对所述特征量进行了统计建模。在该情形中,噪声检测部分B 103可以例如利用MFCC(梅尔频率倒谱系数)以及噪声模型来检测噪声。
MFCC为考虑人类听觉特性的特征量,并且很好地应用于语音识别等。MFCC的计算过程包括,对于由FFT所获得的频率谱而言,(1)获得绝对值;(2)利用在梅尔刻度(根据人类听觉的声音的音高刻度)中具有等间距的滤波器组(filter bank)进行滤波,并且获得各个频带的谱之和;(3)计算对数;(4)进行离散余弦变换(DCT);以及(5)提取低阶分量。
噪声模型是由对噪声的特征建模所获得的一个模型。例如利用高斯混合模型(GMM)等对噪声的特征建模,并且利用从之前所收集的噪声数据库中提取的特征量(例如,MFCC)来估计其参数。在GMM的情形中,将各个多维度高斯分布的权重、平均值、协方差和/或诸如此类用作模型参数。
噪声检测部分B 103提取输入的频率谱Sif的MFCC,并且计算噪声模型的似然性。噪声模型的似然表示所提取的MFCC与噪声模型相对应的似然性。就是说,随着噪声模型的似然变高,输入的声音信号与噪声相对应的似然变高。
在对GMM进行处理的情形中,似然性L可由下列方程式(3)获得
这里,x表示MFCC的矢量,Wk表示第k个分布的权重,并且Nk表示第k个多维度高斯分布。噪声检测部分B 103由方程式(3)获得似然性L。然后,例如,当所获得的似然性L大于预定阈值时,噪声检测部分B 103确定出在检测目标帧中输入的声音信号中包括噪声。另一方面,当所获得的似然性L小于或者等于该预定阈值时,噪声检测部分B 103确定出在检测目标帧中输入的声音信号中不包括噪声。然后,噪声检测部分B 103输出表示确定结果的检测信息B IdB。
注意,根据第一实施例,通过处理装置100,由两个噪声检测部分,即噪声检测部分A 102与噪声检测部分B 103,来进行噪声检测。然而,本发明的实施例并不限定于此。噪声检测可以由其中任一个噪声检测部分进行,或者可以由三个或者更多个噪声检测部分而非两个噪声检测部分进行。
《噪声振幅谱的估计》
接下来,将对噪声振幅谱估计部分104估计噪声振幅谱的方法进行描述。
图4示出了根据第一实施例的噪声振幅谱估计部分104的功能配置。
如图4中所示,噪声振幅谱估计部分104包括振幅谱计算部分41、确定部分42、存储控制部分A 43、存储控制部分B 44、振幅谱存储部分45、噪声振幅谱存储部分46、噪声振幅谱估计部分A 47a以及噪声振幅谱估计部分B 47b。
振幅谱计算部分41根据频率谱Sif计算振幅谱Sa并且输出振幅谱Sa,其中频率谱Sif由频率谱转换部分101对输入的声音信号Sis进行转换而获得。振幅谱计算部分41例如通过下列方程式(4)根据某一频率的频率谱X(复数)来计算振幅谱A:
对于确定部分42,输入来自噪声检测部分A 102的确定信息A IdA以及来自噪声检测部分B 103的检测信息B IdB,并且,基于检测信息A IdA以及检测信息B IdB,确定部分42输出执行信号1Se1至噪声振幅谱估计部分A47a或者输出执行信号2Se2至噪声振幅谱估计部分B 47b。
噪声振幅谱估计部分A 47a或者噪声振幅谱估计部分B 47b,基于由确定部分42输出的执行信号1Se1或者执行信号2Se2,来从由振幅谱计算部分41所计算的振幅谱Sa估计噪声振幅谱Seno。
(噪声振幅谱估计部分A对噪声振幅谱的估计)
当噪声振幅谱估计部分A 47a已经从确定部分42接收到执行信号1Se1时,噪声振幅谱估计部分A 47a进行对噪声振幅谱Seno的估计。
当噪声振幅谱估计部分A 47a已经从确定部分42接收到执行信号1Se1时,噪声振幅谱估计部分A 47a从振幅谱计算部分41获得到当前所处理的帧(在下文中,简称为“当前帧”)的振幅谱Sa以及在振幅谱存储部分45中存储的以前的振幅谱Spa。接下来,噪声振幅谱估计部分A 47a利用当前帧的振幅谱Sa与以前的振幅谱Spa之间的差值来估计噪声振幅谱Seno。
例如,噪声振幅谱估计部分A 47a利用当前帧的振幅谱Sa与紧邻最后一个生成噪声的帧之前出现的帧的振幅谱(Spa)之间的差值,来估计噪声振幅谱Seno。可选地,例如,噪声振幅谱估计部分A 47a可以利用当前帧的振幅谱与紧邻最后一个生成噪声的帧之前的多个帧的平均振幅谱之间的差值,来估计噪声振幅谱Seno。
如将利用图6(流程图)在后续描述的,在从当前帧中检测到噪声的情形中或者在当前帧包括在从最近检测到噪声之后起算的n个帧中的情形中,噪声振幅谱估计部分A 47a估计噪声振幅谱Seno。在从当前帧中检测到噪声的情形中,上述“最后一个生成噪声的帧”对应于当前帧。在当前帧包括在从最近检测到噪声之后起算的n个帧中的情形中,上述“最后一个生成噪声的帧”对应于最近检测到噪声的帧。
为了减少存储区域,振幅谱存储部分45优选仅存储用于由噪声振幅谱估计部分A 47a所进行估计的振幅谱(或多个振幅谱)Sa。
存储控制部分A 43控制要由振幅谱存储部分45所存储的振幅谱(或多个振幅谱)。例如,在存储控制部分A 43中,提供用于存储振幅谱帧(或多个振幅谱)的一个或者多个帧的缓冲器。然后,在从当前帧中检测到噪声的情形中,由于存储控制部分A 43进行控制,使得由缓冲器所存储的振幅谱(或多个振幅谱)以覆写的方式存储在振幅谱存储部分45中,可以减少要由振幅谱存储部分45所使用的存储区域。
(由噪声振幅谱估计部分B对噪声振幅谱的估计)
当噪声振幅谱估计部分B 47b从确定部分42接收到执行信号2Se2时,噪声振幅谱估计部分B 47b基于根据在检测到噪声后所估计的多个噪声振幅谱所获得的衰减函数,来估计噪声振幅谱Seno。
如将利用图6(流程图)在后续描述的,在当前帧中没有检测到噪声并且当前帧不包括在最近检测到噪声之后起算的n个帧中的情形中,噪声振幅谱估计部分B 47b估计噪声振幅谱Seno。
噪声振幅谱估计部分B 47b假设噪声振幅以指数方式衰减,并且获得一函数,该函数近似于紧邻由噪声检测部分A 120或噪声检测部分B 103检测到噪声之后出现的多个帧中所估计的噪声振幅。
图5示出了在检测到噪声之后出现的三个帧的振幅A1、A2以及A3的值绘制在一图表中的示例,在该图表中,横坐标表示时间“t”并且纵坐标表示噪声振幅A的对数。
噪声振幅谱估计部分B 47b首先利用下列方程式(5)获得噪声生成时以及生成后出现的多个帧的振幅A1、A2以及A3的近似线性函数的斜率:
噪声振幅A根据从上述方程式(5)所获得的斜率“a”逐帧衰减。因此,检测到噪声之后的第m个帧的噪声振幅Am可以从下列方程式(6)获得:
Am=exp(log(Am-1)-a)…(6)
因此,噪声振幅谱估计部分B 47b可以基于从检测到噪声后出现的多个帧的多个噪声振幅谱所获得的衰减函数来估计噪声振幅谱Seno。
注意,方程式(6)中所示的衰减函数优选从多个帧的振幅获得,其中所述多个帧为噪声检测部分A 102或噪声检测部分B 103检测到噪声的帧起的最后一帧以及其之后的帧。可以适当确定要被用于获得衰减函数的多个帧的数量。此外,尽管在本实施例中将衰减函数假设为指数函数,但是衰减函数并不限定于此。可选地,衰减函数可被获得作为其它函数,例如线性函数。
此外,优选将在检测到噪声之后且紧邻当前帧之前出现的帧的噪声振幅用作要被用于使用方程式(6)的估计的、当前帧之前出现的帧的噪声振幅。
当噪声振幅谱估计部分B 47b已从确定部分42接收到执行信号2Se2时,噪声振幅谱估计部分B 47b从噪声振幅存储部分46获得在由上述方法获得当前帧的噪声振幅谱所需的经过时间中所估计的多个噪声振幅谱Spn(见图4)。
噪声振幅谱存储部分46存储由噪声振幅谱估计部分A 47a或噪声振幅谱估计部分B 47b所估计的多个噪声振幅谱Seno。为减少存储区域,优选仅将被用于由噪声振幅谱估计部分B 47b估计噪声振幅谱Seno的多个噪声振幅谱存储在噪声振幅谱存储部分46中。如上所述,要被用于由噪声振幅谱估计部分B 47b估计噪声振幅谱Seno的多个噪声振幅谱Spn是在检测到噪声之后出现的多个帧的多个噪声振幅谱(用于获得衰减函数)以及紧邻在当前帧之前出现的帧的噪声振幅谱(用于利用衰减函数来获得当前帧的噪声振幅谱)。
存储控制部分B 44进行控制,使得仅将用于获得衰减函数所需的多个噪声振幅谱以及用于利用该衰减函数来获得当前帧的噪声振幅谱所需的噪声振幅谱,存储在噪声振幅谱存储部分46中。
例如,在噪声振幅谱存储部分46中提供有存储区域,用于存储在检测到噪声之后出现的多个(例如,三个)帧以及紧邻在当前帧之前出现的帧的噪声振幅谱。存储控制部分B 44进行控制,使得根据在检测到噪声之后所经过的时间段,以覆写的方式将由噪声振幅谱估计部分A 47a所估计的多个噪声振幅谱Seno存储在噪声振幅谱存储部分46各个存储区域中。通过这种控制,可以减少由噪声振幅谱存储部分46所使用的存储区域。
如上所述,在噪声振幅谱估计部分104中,噪声振幅谱估计部分A 47a和噪声振幅谱估计部分B 47b中的任一个基于由确定部分42所输出的执行信号1或2(Se1或Se2)来估计噪声振幅谱Seno。
(由噪声振幅谱估计部分来估计噪声振幅谱的处理)
图6示出了由根据第一实施例的噪声振幅谱估计部分104来估计噪声振幅谱Seno的处理的流程图。
当频率谱Sif已从频率谱转换部分101输入至噪声振幅谱估计部分104中时,振幅谱计算部分41在步骤S1中根据频率谱Sif来计算频率谱Sa。接下来,在步骤S2中,确定部分42根据确定信息A IdA和确定信息B IdB来确定噪声部分A 102和噪声确定部分B 103中的任一个是否已根据输入的声音检测到噪声。
当输入的声音信号Sis的帧中包括噪声时(步骤S2的是),在步骤3中,存储控制部分A 43将振幅谱(或多个振幅谱)存储在振幅谱存储部分45中,暂时存储在缓冲器中。
接下来,在步骤S4中,确定部分42输出执行信号1Se1,以及在步骤S5中,噪声振幅谱估计部分A 47a估计振幅谱Seno。接下来,在步骤S6中,存储控制部分B 44以覆写的方式将由噪声振幅谱估计部分A 47a所估计的噪声振幅谱Seno存储在噪声振幅谱存储部分46中的、与从最后一次检测到噪声所经过的时间相对应的存储区域中,然后该处理完成。
在输入的声音信号的帧中不包括噪声的情形中(步骤S2的否),在步骤S7中,确定部分42确定当前被处理的帧是否包括在最后一次检测到噪声之后起算的n个帧中。在当前被处理的帧包括在最后一次检测到噪声之后起算的n个帧中的情形中(步骤S7的是),噪声振幅谱估计部分A 47a在步骤S4至S6中估计噪声振幅谱Seno,然后该处理完成。
在当前被处理的帧不包括在最后检测到噪声之后起算的n个帧中的情形中(步骤S7的否),在步骤S8中,确定部分42输出执行信号Se2。接下来,在步骤S9中,噪声振幅谱估计部分B 47b估计噪声振幅谱Seno。然后,在步骤S6中,存储控制部分B 44将由噪声振幅谱估计部分B 47b所估计的噪声振幅谱Seno存储在噪声振幅谱存储部分46中,然后该处理完成。
因此,噪声振幅谱估计部分104通过噪声振幅谱估计部分A 47a和噪声振幅谱估计部分B 47b中的任一个来估计在输入声音中所包括的噪声的噪声振幅谱Seno,并且两个噪声振幅谱估计部分47a与47b以不同的方法估计噪声振幅谱Seno。通过由此提供以不同的方法估计噪声振幅谱Seno的两个噪声振幅谱估计部分47a和47b,不论噪声的类型和/或其生成的定时(timing)如何,均可以估计在输入的声音中所包括的噪声的噪声振幅谱Seno。
注意,如图7中所示,在噪声振幅谱估计部分104中,可以提供多个噪声振幅谱估计部分A至N(47a至47n),以不同的方法估计噪声振幅谱Seno,并且确定部分42可以基于确定信息A IdA和确定信息B IdB适当地选择多个噪声振幅谱估计部分A至N(47a至47n)中的一个来估计噪声振幅谱Seno。
在图7的情形中,除了图4中所示的噪声振幅谱估计部分A和B(47a与47b)估计噪声振幅谱Seno的方法之外,例如还可以将利用当前帧的振幅谱与在最近检测到噪声之前所获得的多个振幅谱的平均振幅谱之间的差值来估计噪声振幅谱Seno的方法用作估计噪声振幅谱估计部分A至N的噪声振幅谱Seno的不同方法中的一个。可选地或附加地,例如,还可以使用利用作为线性函数等(而非上述指数函数)的衰减函数来获得噪声振幅谱Seno的方法,其中衰减函数从在最近生成噪声时以及生成之后所估计的噪声振幅谱中获得。
在图7的情形中,确定部分42被设置用于根据由噪声检测部分A 102所获得的并包括在检测信息B IdA中的功率波动和/或线性预测误差的幅度、或者根据由噪声检测部分B 103所获得的并包括在检测信息B IdB中的似然性来选择估计噪声振幅谱Seno的适当的方法,并且输出执行信号1至N(Se1至Sen)。
《噪声谱减》
处理装置100的噪声谱减部分105从根据由频率谱转换部分101的转换所获得的频率谱Sif中减去根据由噪声振幅谱估计部分104所估计的噪声振幅谱Seno所获得的噪声的频率谱,并且输出由此已减少了噪声的频率谱Sof。
可以由下列方程式(7)获得声音频率谱S^(减少了噪声的频率谱Sof),其中X表示频率谱(频率谱Sif),并且D^表示估计的噪声的频率谱(由噪声振幅谱Seno获得):
在上述方程式(7)中,“1”表示帧数且“k”表示谱数(spectrum number)。
因此噪声谱减部分105从频率谱Sif中减去噪声频率谱Seno,获得减少了噪声的频率谱Sof,并且将减少了噪声的频率谱Sof输出至频率谱逆转换部分106。
如上所述,在根据第一实施例的处理装置100中,提供了多个部分用于以不同的方法来估计噪声振幅谱Seno(噪声振幅谱估计部分),基于输入的声音的噪声检测结果来从中选择适合的噪声振幅谱估计部分,并且估计噪声振幅谱Seno。因此,无论噪声的类型和/或其生成的定时如何,处理装置100均能够高精度地估计在输入的声音中所包括的噪声的噪声振幅谱Seno,并且输出通过减少输入的声音中的噪声所获得的声音信号。
注意,根据第一实施例的处理装置100可以应用于记录输入声音或将输入声音发送至另一个装置的电子装置等。电子装置等的具体示例包括摄像机、数码相机、IC记录器、移动电话、会议终端(视频会议的终端)等。
[第二实施例]
接下来,将利用附图描述第二实施例。注意,对于与上文所描述的第一实施例的元件/组件相同的元件/组件,使用相同的参考数字/字母,并且将省略重复的描述。
<处理系统的功能配置>
图8是示出根据第二实施例的处理系统300的功能配置的框图。如图8中所示,处理系统300包括经由网络400连接的处理装置100和200。
处理装置100包括频率谱转换部分101、噪声检测部分A 102、噪声检测部分B 103、噪声振幅谱估计部分104、噪声谱减部分105、频率谱逆转换部分106、声音输入/输出部分107以及发送/接收部分108。
声音输入/输出部分107例如收集在处理装置100周围出现的声音(语音和/或类似物)并且生成声音信号,或者基于输入的声音信号来输出声音(语音和/或类似物)。
发送/接收部分108向经由网络400连接的另一个装置发送数据,例如由处理装置100从中减少了噪声的声音信号。此外,发送/接收部分108从经由网络400连接的另一个装置接收诸如声音数据之类的数据。
如上文第一实施例所描述的,在根据第二实施例的在处理装置100中,提供了多个部分用于以不同的方法来估计噪声振幅谱Seno(噪声振幅谱估计部分),基于输入的声音的噪声检测结果来从中选择适合的噪声振幅谱估计部分,并且估计噪声振幅谱Seno。由此,不论噪声的类型和/或其生成的定时如何,处理装置100均能够高精度地估计在输入的声音中所包括的噪声的噪声振幅谱Seno,并且输出通过减少输入的声音中的噪声所获得的声音信号。
此外,经由网络400与处理装置100连接的装置200包括声音输入/输出部分201以及发送/接收部分202。
声音输入/输出部分201例如收集处理装置200周围出现的声音(语音和/或类似物)并且生成声音信号,或者基于输入的声音信号输出声音(语音和/或类似物)。
发送/接收部分202向经由网络400连接的另一个装置发送诸如由声音输入/输出部分201所获取的声音信号之类的数据。此外,发送/接收部分202从经由网络400连接的另一个装置接收诸如声音数据之类的数据。
<处理系统的硬件配置>
图9示出了根据第二实施例的处理系统300的硬件配置。
处理系统300包括控制器110、网络I/F部分115、记录介质I/F部分116以及声音输入/输出设备118。控制器110包括CPU 111、HDD 112、ROM 113以及RAM 114。
声音输入/输出设备118例如包括麦克风、扬声器等,所述麦克风收集处理装置100周围出现的声音(语音和/或类似物)并且生成声音信号,所述扬声器向外输出声音信号。
处理部分200包括CPU 211、HDD 212、ROM 213以及RAM 214、网络I/F部分215、以及声音输入/输出设备216。
CPU 211包括算术逻辑单元,将程序和数据从诸如HDD 212或ROM 213之类的储存设备读取至RAM 214中,执行处理,并且由此,实现处理装置200的各个功能。
HDD 212是存储程序和数据的非易失性存储设备。所存储的程序和数据包括OS(操作系统)、应用软件等,所述OS为控制整个处理装置200的基础软件,所述应用软件提供关于各种OS的各种功能。
ROM 213为非易失性半导体存储器(存储设备),即使在电力供给切断之后,其仍具有存储程序(多个程序)和/或数据的能力。ROM 213存储程序和数据,例如当处理装置200启动时将被执行的BIOS(基本输入/输出系统)、OS设置、网络设置等。RAM 214为易失性半导体存储器(存储设备),用于暂时存储程序(多个程序)和/或数据。
网络I/F部分215是外围设备(多个外围设备)与处理装置200自身之间的接口,所述外围设备具有通信功能、经由诸如有线和/或无线电路之类的数据传输路径所构建的网络而连接,所述网络例如LAN(局域网)、WAN(广域网)等。
声音输入/输出设备216例如包括麦克风、扬声器等,所述麦克风收集处理装置200周围出现的声音(语音和/或类似物)并且生成声音信号,所述扬声器向外输出声音信号。
在处理系统300中,例如,处理装置100能够根据包括由处理装置100的用户发出的声音(语音和/或类似物)的输入的信号来生成其中减少了噪声的声音信号,并且经由发送/接收部分108将生成的声音信号发送至处理装置200。处理装置200经由发送/接收部分202接收从处理装置100发送的、其中由此减少了噪声的声音信号,并且经由声音输入/输出部分201将声音信号向外输出。处理装置200的用户由此从处理装置100接收到其中减少了噪声的声音信号,并且因此能够清晰地捕捉到由处理装置100的用户所发出的声音。
此外,例如,处理装置200能够经由处理装置200的声音输入/输出部分201获得包括由处理装置200的用户所发出的声音(语音)的声音信号,并且经由发送/接收部分202将声音信号发送至处理装置100。在该情形中,处理装置100能够通过对噪声振幅谱进行估计等,来减少经由发送/接收部分108所接收到的声音信号中的噪声,并且经由声音输入/输出部分107输出声音信号。因此,由于处理装置100在减少噪声之后输出所接收到的声音信号,处理装置100的用户能够清晰地捕获由处理装置200的用户所发出的声音。
因此,在根据第二实施例的处理系统300中,可以基于估计的噪声振幅谱,生成根据从被输入至声音输入/输出部分107的声音信号或经由处理装置100的发送/接收部分108所接收到的声音信号中减少噪声所获得的声音信号。由此,可以通过从被减少了噪声而获得的清晰的声音,在经由网络400而连接的处理装置100和处理装置200的用户之间进行通话、录音和/或类似操作。
注意,例如,在处理系统300中所包括的处理装置的数量并不限于第二实施例中的数量。处理系统300可以包括三个或更多个处理装置。此外,根据第二实施例的处理系统300可以应用于这样的系统:在该系统中,例如多个PC、PDA、移动电话、会议终端和/或类似物在其中发送/接收声音等。
[第三实施例]
接下来,将利用附图描述第三实施例。注意,对于与上述第一实施例和第二实施例的元件/组件相同的元件/组件,使用相同的参考数字/字母,并且将省略重复的描述。
<处理装置的功能配置>
图10是示出根据第三实施例的处理装置100的功能配置的框图。
如图10中所示,处理装置100包括输入端子IN、频率谱转换部分101、噪声检测部分A 102、噪声检测部分B 103、噪声振幅谱估计部分104、噪声谱减部分105、频率谱逆转换部分106、减少强度调节部分109以及输出端子OUT。
减少强度调节部分109基于来自用户的输入的信息,通过将减少强度调节信号Srs输出至噪声振幅谱估计部分104,调节从被输入至处理装置100中的输入的声音信号中减少噪声的程度(level)。
<处理装置的硬件配置>
图11示出了处理装置100的硬件配置。
如图11中所示,处理装置100包括控制器110、网络I/F 115、记录介质I/F部分116、操作面板119、输入端子IN、以及输出端OUT。控制器110包括CPU 111、HDD(硬盘驱动器)112、ROM(只读存储器)113以及RAM(随机访问存储器)114。
操作面板119是硬件,包括诸如用于接收用户的操作的按键之类的输入设备、诸如具有触摸面板功能的液晶面板之类的操作屏幕,和/或类似物。在操作面板119上,以用户能够选择多个显示程度中的一个的方式来显示从被输入至处理装置100等的输入的声音信号中减少噪声的程度。减少强度调节部分109基于由用户所输入的信息将减少强度调节信号Srs输出至操作面板119。
<噪声振幅谱估计部分的功能配置>
图12示出了根据第三实施例的噪声振幅谱估计部分104的功能配置。
如图12中所示,噪声振幅谱估计部分104包括振幅谱计算部分41、确定部分42、存储控制部分A 43、存储控制部分B 44、振幅谱存储部分45、噪声振幅谱存储部分46、噪声振幅谱估计部分A 47a、噪声振幅谱估计部分B47b、衰减调节部分48以及振幅调节部分49。
衰减调节部分48是噪声调节部分的一个示例,并且基于减少强度调节部分109所输出的减少强度调节信号Srs将衰减调节信号Saa输出至噪声振幅谱估计部分B 47b。
与第一实施例中相同,噪声振幅谱估计部分B 47b通过上文所述的方程式(5)获得在噪声生成时或生成后出现的多个帧的近似线性函数的斜率“a”。接下来,噪声振幅谱估计部分B 47b通过下列方程式(8)获得检测到噪声之后起算的第m个帧的噪声的振幅Am。
Am=exp(log(Am-1)-g·a)…(8)
方程式(8)中的系数“g”是根据从减少强度调节部分109向衰减调节部分48输入的减少强度调节信号Srs而确定的值。
在从输入的声音信号中减少噪声的情形中,例如将噪声减少强度1至3显示在操作面板119上,在所述噪声减少强度1至3中,减少噪声的程度是不同的,用户从中选择一个,并且减少强度调节部分109将由此所选择的噪声减少强度输出至衰减调节部分48作为减少强度调节信号Srs。衰减调节部分48根据下面所示的表1,例如,根据由减少强度调节部分109输出的减少强度调节信号Srs,确定衰减调节信号Saa,并且将所确定的衰减调节信号Saa发送至噪声振幅谱估计部分B 47b。
表1
减少强度调节信号Srs | 衰减调节信号Saa |
噪声减少强度=1 | g=2.0 |
噪声减少强度=2 | g=1.5 |
噪声减少强度=3 | g=1.0 |
在表1中所示的示例中,随着噪声减少强度变大,系数“g”变小,并且根据方程式(8),由噪声振幅谱估计部分B 47b估计的噪声振幅谱变大。由此,从输入的声音信号中很大程度地减少了噪声。与此相反,随着噪声减少强度变小,系数“g”变大,并且根据方程式(8),由噪声振幅谱估计部分B 47b估计的噪声振幅谱变小。由此,从输入的声音信号中所减少的噪声变小。
此外,振幅调节部分49是噪声调节部分的一个示例,并且基于由减少强度调节部分109所输出的减少强度调节信号Srs,根据下列方程式(9),对由噪声振幅谱估计部分A 47a或者噪声振幅谱估计部分B 47b所获得的噪声振幅谱Am的幅度进行调节:
Am′=G·Am…(9)
方程式(9)中的系数“G”是例如根据由减少强度调节部分109输出的减少强度调节信号Srs、根据下列表2所确定的值:
表2
减少强度调节信号Srs | G |
噪声减少强度=1 | 0.50 |
噪声减少强度=2 | 0.75 |
噪声减少强度=3 | 1.00 |
振幅调节部分49由此根据减少强度调节信号Srs确定“G”的值,并且输出根据方程式(9)所获得的估计的噪声振幅谱Am’(Seno)。在表2中所示的示例中,在噪声减少强度较小的情形中,由于“G”的值较小,所以要被输出的估计的噪声振幅谱Am’(Seno)较小。与此相反,在噪声减少强度较大的情形中,由于“G”的值较大,所以要被输出的估计的噪声振幅谱Am’(Seno)较大。注意,针对所计算的振幅谱Sa的每个频率,可以给出不同的值作为“G”的值。
因此,在根据第三实施例的处理装置100中,噪声振幅谱估计部分104能够根据由减少强度调节部分109所输出的减少强度调节信号Srs来控制所估计的噪声振幅谱Am(Seno)的强度,并且由此,调节从输入的声音信号中减少噪声的程度。
(由噪声振幅谱估计部分估计噪声振幅谱的处理)
图13示出了由根据第三实施例的噪声振幅谱估计部分104来估计噪声振幅谱Seno的处理的流程图。
当已将频率谱Sif从频率谱转换部分101输入至噪声振幅谱估计部分104时,在步骤S11中振幅谱计算部分41根据频率谱Sif计算振幅谱Sa。接下来,在步骤S12中,确定部分42根据确定信息A IdA和确定信息B IdB来确定噪声确定部分A 102和噪声确定部分B 103中的任一个是否已经从输入的声音中检测到噪声。
当输入的声音信号Sis的帧中包括噪声时(步骤S12的是),在步骤S13中,存储控制部分A 43将振幅谱(或多个振幅谱)存储在振幅谱存储部分45中,暂时存储在缓冲器中。
接下来,在步骤S14中,确定部分42输出执行信号1Se1,并且在步骤S 15中噪声振幅谱估计部分A 47a估计振幅谱。之后,在步骤S 16中,振幅调节部分49根据由减少强度调节部分109所输出的减少强度调节信号Srs来计算由方程式(9)所获得的估计的噪声振幅谱Seno。
接下来,在步骤S17中,存储控制部分B 44以覆写的方式将由振幅调节部分49所计算的估计的噪声振幅谱Seno存储在噪声振幅谱存储部分46中的、与从最后一次检测到噪声所经过的时间相对应的存储区域上,然后该处理完成。
在输入的声音信号的帧中不包括噪声的情形中(步骤S12的否),在步骤S18中确定部分42确定当前被处理的帧是否包括在从最后一次检测到噪声起算的n个帧中。在当前被处理的帧包括在从最后一次检测到噪声起算的n个帧中的情形中(步骤S18的是),噪声振幅谱估计部分A 47a在步骤S14和S15中估计噪声振幅谱。
在当前被处理的帧不包括在从最后一次检测到噪声起算的n个帧中的情形中(步骤S18的否),在步骤S19中确定部分42输出执行信号Se2。接下来,在步骤S20中,衰减调节部分48生成衰减调节信号Saa,并且将衰减调节信号Saa输出至噪声振幅谱估计部分B 47b。接下来,在步骤S21中,噪声振幅谱估计部分B 47b估计噪声振幅谱。
之后,在步骤S16中,振幅调节部分49根据由减少强度调节部分109所输出的减少强度调节信号Srs来计算由方程式(9)所获得的估计的噪声振幅谱Seno。在步骤S17中,存储控制部分B 44将由噪声振幅谱估计部分B 47b所估计的噪声振幅谱存储在噪声振幅谱存储部分46中,然后该处理完成。
由此,噪声振幅谱估计部分104由噪声振幅谱估计部分A 47a和噪声振幅谱估计部分B 47b中的任一个来估计在输入的声音中所包括的噪声的噪声振幅谱,两个噪声振幅谱估计部分47a和47b以不同的方法来估计噪声振幅谱。通过具有以不同的方法来估计噪声振幅谱的两个噪声振幅谱估计部分47a和47b,不论噪声的类型和/或其生成的定时如何,噪声振幅谱估计部分14均能够估计在输入的声音中所包括的噪声的噪声振幅谱。
此外,根据第三实施例的处理装置100具有减少强度调节部分109,所述处理装置100能够对将从输入的信号中估计的噪声振幅谱Seno的强度进行调节,并且能够改变从输入的声音信号中减少噪声的程度。由此,用户能够根据情况适当地改变噪声减少程度。即,在希望忠实地再现原始声音的情形中,用户能够进行设置以减少噪声减少程度。同样,在希望尽可能地从原始声音中减少噪声的情形中,用户能够进行另一设置以提高噪声减少程度。
注意,如图14中所示,在噪声振幅谱估计部分104中,可以提供多个噪声振幅谱估计部分A至N(47a至47n),多个噪声振幅谱估计部分A至N(47a至47n)以不同的方法来估计噪声振幅谱,并且同样,可以提供多个衰减调节部分A至N(48a至48n)。在该情形中,由确定部分42通过执行信号Se1至Sen中相应的一个执行信号所选择的噪声振幅谱估计部分A至N(47a至47n)中的一个,根据由衰减调节部分A至N(48a至48n)中相应的一个所输出的衰减调节信号A至N(SaaA至SaaN)中相应的一个,来估计噪声振幅谱。进一步地,在该情形中,振幅调节部分49根据减少强度调节信号Srs,对由从噪声振幅谱估计部分A至N(47a至47n)中所选择的一个所估计的噪声振幅谱进行调节。
[第四实施例]
接下来,将利用附图描述第四实施例。注意,对于与上述实施例的元件/组件相同的元件/组件,使用相同的参考数字/字母,并且将省略重复的描述。
<处理系统的功能配置>
图15是示出根据第四实施例的处理系统300的功能配置的框图。如图15所示,处理系统300包括经由网络400连接的处理装置100和200。
处理装置100包括噪声减少部分120、声音输入部分121、声音输出部分122、发送部分123以及接收部分124。噪声减少部分120包括频率谱转换部分101、噪声检测部分A 102、噪声检测部分B 103、噪声谱估计部分104、噪声谱减部分105、频率谱逆转换部分106以及减少强度调节部分109。
声音输入部分121例如收集在处理装置100周围出现的声音(语音等)生成声音信号并且将声音信号输出至噪声减少部分120。声音输出部分122基于由噪声减少部分120所输入的声音信号来输出声音(语音等)。
发送部分123向经由网络400等连接的另一个装置发送数据,例如其中由噪声减少部分120减少了噪声的声音信号。接收部分124从经由互联网400等连接的另一个装置接收诸如声音数据之类数据。
噪声减少部分120将输入至声音输入部分121的声音信号在去除噪声后输出至发送部分123。此外,噪声减少部分120将由接收部分124所接收的声音信号在去除噪声后输出至声音输出部分122。
在根据第四实施例的处理装置100中,噪声减少部分120包括多个部分(噪声振幅谱估计部分),所述多个部分以不同的方法来估计噪声振幅谱,噪声减少部分120基于输入的声音的噪声检测结果从中选择适合的噪声振幅谱估计部分,并且估计噪声振幅谱Seno。由此,不论噪声的类型和/或其生成的定时,处理装置100均能够高精度地估计在输入的声音中所包括的噪声的噪声振幅谱Seno,并且输出根据从输入的声音中减少噪声而获得的声音信号。
此外,在处理装置100中,可以由噪声减少部分120的减少强度调节部分109对从输入的或接收到的声音信号中减少噪声的程度进行调节。由此,用户能够根据使用状态(情况)设置适当的噪声减少程度并使用该噪声减少程度。
经由网络400与处理装置100连接的处理装置200包括接收部分203、发送部分204、声音输入部分205以及声音输出部分206。
接收部分203接收从经由网络400等连接的另一个装置发送的声音信号,并且将声音信号输出至声音输出部分205。发送部分204将输入至声音输入部分206的声音信号发送至经由网络400等连接的另一装置。
声音输出部分205将由接收部分203所接收的声音信号向外输出。声音输入部分206例如收集处理装置200周围出现的声音(语音等),生成声音信号并将声音信号输出至发送部分204。
<处理系统的硬件配置>
图16示出了根据第四实施例的处理系统300的硬件配置。
处理装置100包括控制器110、网络I/F部分115、记录介质I/F部分116、声音输入/输出设备118以及操作面板119。控制器110包括CPU 111、HDD112、ROM 113以及RAM 114。
操作面板119是硬件,包括诸如用于接收用户的操作的按键之类的输入设备、诸如具有触摸面板功能的液晶面板之类的操作屏幕、和/或类似物。在操作面板119上,以用户能够选择多个显示程度中的一个的方式来显示从被输入至处理装置100等的输入的声音信号中减少噪声的程度。减少强度调节部分109基于由用户所输入的信息将减少强度调节信号Srs输出至操作面板119。
在根据第四实施例的操作系统300中,例如,处理装置100将去除噪声后的输入的声音信号发送至处理装置200。由此,处理装置200的用户能够清晰地捕获从处理装置100输入的声音。此外,处理装置100能够输出从处理装置200发送的、去除噪声后的声音信号。由此,处理装置100的用户能够清晰地捕获从处理装置200发送的声音。由此,可以通过从被减少了噪声而获得的清晰的声音,在经由网络400而连接的处理装置100和处理装置200的用户之间进行通话、录音和/或类似操作。
此外,处理装置100的噪声减少部分120具有减少强度调节部分109并且能够对从输入的声音信号中减少噪声的程度进行调节。要由减少强度调节部分109调节的减少噪声的程度可以由处理装置100的用户经由操作面板119输入或者可以由从处理装置200发送至处理装置100的噪声减少处理信号来控制。由此,处理系统300的用户能够设置从声音信号中减少噪声的适当程度。
注意,例如,在处理系统300中所包括的处理装置的数量不限于第四实施例中的数量。处理系统300可包括三个或者更多个处理装置。此外,根据第四实施例的处理系统300可以应用于这样的系统:在该系统中,例如多个PC、PDA、移动电话、会议终端和/或类似物在其中发送/接收声音等。
由此,已基于实施例描述了处理装置与处理系统。根据每个实施例,处理装置100的功能可以经计算机执行程序而实现,所述程序由适合处理装置100的编程语言对上文所述的每个实施例的各自的处理步骤进行编码而得到。因此,用于根据每个实施例实现处理装置100功能的程序可以存储在计算机可读记录介质117中。
由此,通过将根据每个实施例的程序存储在记录介质117,例如软盘、CD、DVD、USB存储器等中,程序可以由此安装在处理装置100中。此外,由于处理装置100具有网络I/F部分115,所以由于经由诸如因特网之类的通讯电路下载的结果,根据每个实施例的程序可安装在处理装置100中。
根据上文所述的实施例,可以提供一种处理装置,其具有不论噪声的类别以及噪声生成的定时如何,对在输入的声音中所包括的噪声的振幅谱进行估计的能力。
由此,已经由实施例对处理装置进行了描述,每个处理装置均估计在输入的声音信号中所包括的噪声的噪声振幅谱。然而,本发明并不限定于这些实施例,并且变化与修改存在于如下文所示的权利要求中所描述以及所定义的本发明的范围与精神之中。
本申请基于2012年5月1日提交的日本优先权申请第2012-104573号以及2013年2月22日提交的日本优先权申请第2013-032959号,通过援引的方式将其全部内容并入本文。
Claims (12)
1.一种估计在声音信号中所包括的噪声的噪声振幅谱的处理装置,所述处理装置包括:
振幅谱计算部分,配置来针对将所述声音信号划分成时间单元而获得的每个帧来计算所述声音信号的振幅谱;以及
噪声振幅谱估计部分,配置来估计从所述帧中检测到的噪声的噪声振幅谱,其中
所述噪声振幅谱估计部分包括
第一估计部分,配置来基于由所述振幅谱计算部分所计算的振幅谱与在检测到所述噪声之前出现的帧的振幅谱之间的差值,来估计所述噪声振幅谱,以及
第二估计部分,配置来基于衰减函数来估计所述噪声振幅谱,所述衰减函数从检测到所述噪声之后出现的帧的噪声振幅谱获得。
2.根据权利要求1所述的处理装置,还包括:
噪声检测部分,配置来确定所述帧中是否存在所述噪声;以及
执行信号输出部分,配置来基于从所述噪声检测部分检测到所述噪声时起所经过的时间,将执行信号输出至所述第一估计部分或所述第二估计部分,以使所述第一估计部分或所述第二估计部分估计所述噪声振幅谱。
3.根据权利要求2所述的处理装置,还包括:
噪声振幅谱存储部分,配置来存储由所述噪声振幅谱估计部分所估计的所述噪声振幅谱;以及
噪声振幅谱存储控制部分,配置来,在所述噪声检测部分检测到所述噪声之后,根据从所述噪声检测部分检测到所述噪声时起所经过的时间,将由所述噪声振幅谱估计部分所估计的所述噪声振幅谱存储在所述噪声振幅谱存储部分中。
4.根据权利要求1所述的处理装置,其中
由所述第二估计部分所获得的所述衰减函数是指数函数。
5.根据权利要求1所述的处理装置,还包括:
振幅谱存储部分,配置来存储由所述振幅谱计算部分所计算的所述振幅谱;以及
振幅谱存储控制部分,配置来当已检测到所述噪声时,暂时存储由所述振幅谱计算部分所计算的所述振幅谱,并且将暂时所存储的振幅谱存储在所述振幅谱存储部分中。
6.根据权利要求1所述的处理装置,还包括:
噪声调节部分,配置来调节由所述第一估计部分或所述第二估计部分所估计的所述噪声振幅谱的幅度。
7.根据权利要求6所述的处理装置,其中
所述噪声调节部分,配置来通过改变将与由所述第一估计部分或所述第二估计部分所估计的所述噪声振幅谱相乘的系数的值来调节所述噪声振幅谱的幅度。
8.根据权利要求6所述的处理装置,其中
所述噪声调节部分配置来通过改变由所述第二估计部分所获得的所述衰减函数的系数的值来调节所述噪声振幅谱的幅度。
9.一种估计在声音信号中所包括的噪声的噪声振幅谱的处理方法,所述处理方法包括:
针对将所述声音信号划分成时间单元而获得的每个帧来计算所述声音信号的振幅谱;以及
估计从所述帧中检测到的噪声的噪声振幅谱,其中
所述估计包括
基于由所述振幅谱计算部分所计算的振幅谱与在检测到所述噪声之前出现的帧的振幅谱之间的差值,来估计所述噪声振幅谱,以及
基于衰减函数来估计所述噪声振幅谱,所述衰减函数从检测到所述噪声之后出现的帧的噪声振幅谱获得。
10.一种用于使计算机执行权利要求9中所述的处理方法的程序。
11.一种计算机可读信息记录介质,在所述计算机可读信息记录介质中存储有权利要求10中所述的程序。
12.一种包括经由网络连接的多个处理装置的处理系统,所述处理系统包括:
振幅谱计算部分,配置来针对将声音信号划分成时间单元而获得的每个帧来计算所述声音信号的振幅谱;以及
噪声振幅谱估计部分,配置来估计从所述帧中检测到的噪声的噪声振幅谱,其中
所述噪声振幅谱估计部分包括
第一估计部分,配置来基于由所述振幅谱计算部分所计算的振幅谱与在检测到所述噪声之前出现的帧的振幅谱之间的差值,来估计所述噪声振幅谱,以及
第二估计部分,配置来基于衰减函数来估计所述噪声振幅谱,所述衰减函数从检测到所述噪声之后出现的帧的噪声振幅谱获得。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012104573 | 2012-05-01 | ||
JP2012-104573 | 2012-05-01 | ||
JP2013032959A JP6182895B2 (ja) | 2012-05-01 | 2013-02-22 | 処理装置、処理方法、プログラム及び処理システム |
JP2013-032959 | 2013-02-22 | ||
PCT/JP2013/062305 WO2013164981A1 (en) | 2012-05-01 | 2013-04-19 | Processing apparatus, processing method, program, computer readable information recording medium and processing system |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104364845A true CN104364845A (zh) | 2015-02-18 |
CN104364845B CN104364845B (zh) | 2017-03-08 |
Family
ID=49514380
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201380030900.4A Expired - Fee Related CN104364845B (zh) | 2012-05-01 | 2013-04-19 | 处理装置、处理方法、程序、计算机可读信息记录介质以及处理系统 |
Country Status (9)
Country | Link |
---|---|
US (1) | US9754606B2 (zh) |
EP (1) | EP2845190B1 (zh) |
JP (1) | JP6182895B2 (zh) |
CN (1) | CN104364845B (zh) |
BR (1) | BR112014027494B1 (zh) |
CA (1) | CA2869884C (zh) |
RU (1) | RU2597487C2 (zh) |
SG (1) | SG11201406563YA (zh) |
WO (1) | WO2013164981A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104900237A (zh) * | 2015-04-24 | 2015-09-09 | 上海聚力传媒技术有限公司 | 一种用于对音频信息进行降噪处理的方法、装置和系统 |
CN106443071A (zh) * | 2016-09-20 | 2017-02-22 | 中国科学院上海微系统与信息技术研究所 | 噪声可识别的高量程加速度传感器共振频率的提取方法 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6454495B2 (ja) * | 2014-08-19 | 2019-01-16 | ルネサスエレクトロニクス株式会社 | 半導体装置及びその故障検出方法 |
US9557698B2 (en) | 2014-11-20 | 2017-01-31 | Ricoh Company, Limited | Information processing apparatus, information processing method, and computer-readable storage medium for detecting an abnormity from sound data |
JP6586907B2 (ja) * | 2016-03-07 | 2019-10-09 | 株式会社リコー | 情報処理装置、会議システムおよび情報処理装置の制御方法 |
US10015592B2 (en) | 2016-05-20 | 2018-07-03 | Ricoh Company, Ltd. | Acoustic signal processing apparatus, method of processing acoustic signal, and storage medium |
JP6701573B2 (ja) | 2016-08-03 | 2020-05-27 | 株式会社リコー | 音声処理装置、音声映像出力装置、及び遠隔会議システム |
Citations (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000105599A (ja) * | 1998-09-29 | 2000-04-11 | Matsushita Electric Ind Co Ltd | 雑音レベル時間変動率計算方法及び装置と雑音低減方法 及び装置 |
US20050152563A1 (en) * | 2004-01-08 | 2005-07-14 | Kabushiki Kaisha Toshiba | Noise suppression apparatus and method |
US20050256705A1 (en) * | 2004-03-30 | 2005-11-17 | Yamaha Corporation | Noise spectrum estimation method and apparatus |
CN1728237A (zh) * | 2004-07-27 | 2006-02-01 | 三星电子株式会社 | 从记录设备消除噪声的装置和方法 |
CN101015001A (zh) * | 2004-09-07 | 2007-08-08 | 皇家飞利浦电子股份有限公司 | 提高了噪声抑制能力的电话装置 |
CN101027719A (zh) * | 2004-10-28 | 2007-08-29 | 富士通株式会社 | 噪声抑制装置 |
CN101142623A (zh) * | 2003-11-28 | 2008-03-12 | 斯盖沃克斯瑟路申斯公司 | 用于语音编码和语音识别的噪音抑制器 |
CN101256772A (zh) * | 2007-03-02 | 2008-09-03 | 华为技术有限公司 | 确定非噪声音频信号归属类别的方法和装置 |
CN101480007A (zh) * | 2006-04-27 | 2009-07-08 | 住友电气工业株式会社 | 接收机、发射机、传输系统和传输方法 |
CN101647061A (zh) * | 2007-03-19 | 2010-02-10 | 杜比实验室特许公司 | 用于语音增强的噪声方差估计器 |
CN101727912A (zh) * | 2008-10-24 | 2010-06-09 | 雅马哈株式会社 | 噪声抑制装置及噪声抑制方法 |
JP2010160246A (ja) * | 2009-01-07 | 2010-07-22 | Nara Institute Of Science & Technology | 雑音抑圧装置およびプログラム |
CN101859568A (zh) * | 2009-04-10 | 2010-10-13 | 比亚迪股份有限公司 | 一种语音背景噪声的消除方法和装置 |
CN102117618A (zh) * | 2009-12-30 | 2011-07-06 | 华为技术有限公司 | 一种消除音乐噪声的方法、装置及系统 |
JP2011186384A (ja) * | 2010-03-11 | 2011-09-22 | Fujitsu Ltd | 雑音推定装置、雑音低減システム、雑音推定方法、及びプログラム |
CN102348150A (zh) * | 2010-07-22 | 2012-02-08 | 索尼公司 | 音频信号处理装置、音频信号处理方法和程序 |
WO2012038998A1 (ja) * | 2010-09-21 | 2012-03-29 | 三菱電機株式会社 | 雑音抑圧装置 |
CN102411930A (zh) * | 2010-09-21 | 2012-04-11 | 索尼公司 | 生成音频模型的方法、设备和检测场景类别的方法、设备 |
CN102612711A (zh) * | 2009-11-09 | 2012-07-25 | 日本电气株式会社 | 信号处理方法、信息处理装置和用于存储信号处理程序的存储介质 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5212764A (en) | 1989-04-19 | 1993-05-18 | Ricoh Company, Ltd. | Noise eliminating apparatus and speech recognition apparatus using the same |
JP2859634B2 (ja) | 1989-04-19 | 1999-02-17 | 株式会社リコー | 雑音除去装置 |
JP3451146B2 (ja) | 1995-02-17 | 2003-09-29 | 株式会社日立製作所 | スペクトルサブトラクションを用いた雑音除去システムおよび方法 |
CN1258368A (zh) | 1998-03-30 | 2000-06-28 | 三菱电机株式会社 | 噪声衰减设备以及噪声衰减方法 |
JP3484112B2 (ja) | 1999-09-27 | 2004-01-06 | 株式会社東芝 | 雑音成分抑圧処理装置および雑音成分抑圧処理方法 |
US7254170B2 (en) * | 2002-11-06 | 2007-08-07 | Qualcomm Incorporated | Noise and channel estimation using low spreading factors |
ES2294506T3 (es) | 2004-05-14 | 2008-04-01 | Loquendo S.P.A. | Reduccion de ruido para el reconocimiento automatico del habla. |
JP2007027897A (ja) | 2005-07-12 | 2007-02-01 | Matsushita Electric Ind Co Ltd | 雑音抑圧装置 |
JP5791092B2 (ja) | 2007-03-06 | 2015-10-07 | 日本電気株式会社 | 雑音抑圧の方法、装置、及びプログラム |
WO2010052749A1 (ja) | 2008-11-04 | 2010-05-14 | 三菱電機株式会社 | 雑音抑圧装置 |
JP5293817B2 (ja) * | 2009-06-19 | 2013-09-18 | 富士通株式会社 | 音声信号処理装置及び音声信号処理方法 |
JP5588233B2 (ja) | 2010-06-10 | 2014-09-10 | 日本放送協会 | 雑音抑圧装置およびプログラム |
-
2013
- 2013-02-22 JP JP2013032959A patent/JP6182895B2/ja not_active Expired - Fee Related
- 2013-04-19 CN CN201380030900.4A patent/CN104364845B/zh not_active Expired - Fee Related
- 2013-04-19 WO PCT/JP2013/062305 patent/WO2013164981A1/en active Application Filing
- 2013-04-19 BR BR112014027494-0A patent/BR112014027494B1/pt not_active IP Right Cessation
- 2013-04-19 CA CA2869884A patent/CA2869884C/en not_active Expired - Fee Related
- 2013-04-19 RU RU2014143473/08A patent/RU2597487C2/ru active
- 2013-04-19 US US14/391,281 patent/US9754606B2/en active Active
- 2013-04-19 EP EP13784344.7A patent/EP2845190B1/en not_active Not-in-force
- 2013-04-19 SG SG11201406563YA patent/SG11201406563YA/en unknown
Patent Citations (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000105599A (ja) * | 1998-09-29 | 2000-04-11 | Matsushita Electric Ind Co Ltd | 雑音レベル時間変動率計算方法及び装置と雑音低減方法 及び装置 |
CN101142623A (zh) * | 2003-11-28 | 2008-03-12 | 斯盖沃克斯瑟路申斯公司 | 用于语音编码和语音识别的噪音抑制器 |
US20050152563A1 (en) * | 2004-01-08 | 2005-07-14 | Kabushiki Kaisha Toshiba | Noise suppression apparatus and method |
US20050256705A1 (en) * | 2004-03-30 | 2005-11-17 | Yamaha Corporation | Noise spectrum estimation method and apparatus |
CN1728237A (zh) * | 2004-07-27 | 2006-02-01 | 三星电子株式会社 | 从记录设备消除噪声的装置和方法 |
CN101015001A (zh) * | 2004-09-07 | 2007-08-08 | 皇家飞利浦电子股份有限公司 | 提高了噪声抑制能力的电话装置 |
CN101027719A (zh) * | 2004-10-28 | 2007-08-29 | 富士通株式会社 | 噪声抑制装置 |
CN101480007A (zh) * | 2006-04-27 | 2009-07-08 | 住友电气工业株式会社 | 接收机、发射机、传输系统和传输方法 |
CN101256772A (zh) * | 2007-03-02 | 2008-09-03 | 华为技术有限公司 | 确定非噪声音频信号归属类别的方法和装置 |
CN101647061A (zh) * | 2007-03-19 | 2010-02-10 | 杜比实验室特许公司 | 用于语音增强的噪声方差估计器 |
CN101727912A (zh) * | 2008-10-24 | 2010-06-09 | 雅马哈株式会社 | 噪声抑制装置及噪声抑制方法 |
JP2010160246A (ja) * | 2009-01-07 | 2010-07-22 | Nara Institute Of Science & Technology | 雑音抑圧装置およびプログラム |
CN101859568A (zh) * | 2009-04-10 | 2010-10-13 | 比亚迪股份有限公司 | 一种语音背景噪声的消除方法和装置 |
CN102612711A (zh) * | 2009-11-09 | 2012-07-25 | 日本电气株式会社 | 信号处理方法、信息处理装置和用于存储信号处理程序的存储介质 |
CN102117618A (zh) * | 2009-12-30 | 2011-07-06 | 华为技术有限公司 | 一种消除音乐噪声的方法、装置及系统 |
JP2011186384A (ja) * | 2010-03-11 | 2011-09-22 | Fujitsu Ltd | 雑音推定装置、雑音低減システム、雑音推定方法、及びプログラム |
CN102348150A (zh) * | 2010-07-22 | 2012-02-08 | 索尼公司 | 音频信号处理装置、音频信号处理方法和程序 |
WO2012038998A1 (ja) * | 2010-09-21 | 2012-03-29 | 三菱電機株式会社 | 雑音抑圧装置 |
CN102411930A (zh) * | 2010-09-21 | 2012-04-11 | 索尼公司 | 生成音频模型的方法、设备和检测场景类别的方法、设备 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104900237A (zh) * | 2015-04-24 | 2015-09-09 | 上海聚力传媒技术有限公司 | 一种用于对音频信息进行降噪处理的方法、装置和系统 |
CN106443071A (zh) * | 2016-09-20 | 2017-02-22 | 中国科学院上海微系统与信息技术研究所 | 噪声可识别的高量程加速度传感器共振频率的提取方法 |
CN106443071B (zh) * | 2016-09-20 | 2019-09-13 | 中国科学院上海微系统与信息技术研究所 | 噪声可识别的高量程加速度传感器共振频率的提取方法 |
Also Published As
Publication number | Publication date |
---|---|
US20150098587A1 (en) | 2015-04-09 |
RU2597487C2 (ru) | 2016-09-10 |
CA2869884C (en) | 2018-01-02 |
JP6182895B2 (ja) | 2017-08-23 |
JP2013250548A (ja) | 2013-12-12 |
WO2013164981A1 (en) | 2013-11-07 |
CA2869884A1 (en) | 2013-11-07 |
EP2845190A1 (en) | 2015-03-11 |
EP2845190A4 (en) | 2015-04-29 |
EP2845190B1 (en) | 2016-05-18 |
US9754606B2 (en) | 2017-09-05 |
RU2014143473A (ru) | 2016-06-20 |
SG11201406563YA (en) | 2014-11-27 |
BR112014027494B1 (pt) | 2021-02-23 |
BR112014027494A2 (pt) | 2017-06-27 |
CN104364845B (zh) | 2017-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104364845A (zh) | 处理装置、处理方法、程序、计算机可读信息记录介质以及处理系统 | |
CN110265064B (zh) | 音频爆音检测方法、装置和存储介质 | |
CN108766454A (zh) | 一种语音噪声抑制方法及装置 | |
US20060253285A1 (en) | Method and apparatus using spectral addition for speaker recognition | |
CN104538011A (zh) | 一种音调调节方法、装置及终端设备 | |
CN104103278A (zh) | 一种实时语音去噪的方法和设备 | |
CN110111811B (zh) | 音频信号检测方法、装置和存储介质 | |
CN102214464A (zh) | 音频信号的瞬态检测方法以及基于该方法的时长调整方法 | |
EP3847642B1 (en) | Methods and apparatus to fingerprint an audio signal via normalization | |
CN112712816B (zh) | 语音处理模型的训练方法和装置以及语音处理方法和装置 | |
CN116490920A (zh) | 用于针对由自动语音识别系统处理的语音输入检测音频对抗性攻击的方法、对应的设备、计算机程序产品和计算机可读载体介质 | |
CN112309426A (zh) | 语音处理模型训练方法及装置和语音处理方法及装置 | |
CN105224844A (zh) | 验证方法、系统和装置 | |
US8559656B2 (en) | System and method for automatic microphone volume setting | |
CN103295580A (zh) | 一种语音信号噪声抑制方法及装置 | |
JP6891144B2 (ja) | 生成装置、生成方法及び生成プログラム | |
CN104036785A (zh) | 语音信号的处理方法和装置、以及语音信号的分析系统 | |
CN113077812A (zh) | 语音信号生成模型训练方法、回声消除方法和装置及设备 | |
CN116959495A (zh) | 一种语音信号信噪比估计方法、系统 | |
CN106340310A (zh) | 语音检测方法及装置 | |
CN108062959B (zh) | 一种声音降噪方法及装置 | |
Dai et al. | An improved model of masking effects for robust speech recognition system | |
JP6257537B2 (ja) | 顕著度推定方法、顕著度推定装置、プログラム | |
CN105989838B (zh) | 语音识别方法及装置 | |
KR20200026587A (ko) | 음성 구간을 검출하는 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170308 Termination date: 20210419 |