CN105103230A

CN105103230A - 信号处理装置、信号处理方法、信号处理程序

Info

Publication number: CN105103230A
Application number: CN201480020787.6A
Authority: CN
Inventors: 加藤正德; 杉山昭彦
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2013-04-11
Filing date: 2014-03-27
Publication date: 2015-11-25
Anticipated expiration: 2034-03-27
Also published as: WO2014168022A1; JP6439682B2; EP2985762A1; EP2985762A4; JPWO2014168022A1; US10431243B2; US20160071529A1; CN105103230B

Abstract

一种信号处理设备用于增加输入的声音中的语音标识的精确性，该信号处理设备具有：转换装置，该转换装置将输入信号转换成在频域中的振幅分量信号；计算装置，该计算装置计算在频率方向上的振幅分量信号的改变的范数；累加装置，该累加装置对如由计算装置计算出的在频率方向上的振幅分量信号的改变的范数累加；以及分析装置，该分析装置根据如由累加装置计算出的在频率方向上的振幅分量信号的改变的范数的累加值来分析在输入信号中的语音。

Description

信号处理装置、信号处理方法、信号处理程序

技术领域

本发明涉及一种检测输入信号中的人语音的技术。

背景技术

在以上技术领域中，专利文献1公开了一种通过确定输入语音帧的背景噪声电平并且比较输入语音帧的音量与对应于噪声电平的阈值来检测语音的技术。

发明内容

引用列表

专利文献1：日本专利待审公开号2013-005418

非专利文献

非专利文献1：MasakiyoFujimoto,"TheFundamentalsandRecentProgressofVoiceActivityDetection",theInstituteofElectronics,InformationandCommunicationEngineers,IEICETechnicalReportSP2010-23,2010年6月

非专利文献2：TsuneoKato,ShingoKuroiwa,TohruShimizu,andNorioHiguchi,"Tree-BasedClusteringforGaussianMixtureHMMs",IEICETransactionsonFundamentalsofElectronics,CommunicationsandComputerSciencesD-II,Vol.J83-D-II,No.11,第2128-2136页,200011月

非专利文献3：KenHanazawaandRyosukeIsotani,"Gender-IndependentSpeechRecognitionbyLook-AheadModelSelection",ProceedingsoftheAcousticalSocietyofJapan,第197-198页,2004年9月

非专利文献4："SpeakerVerificationUsingAdaptedGaussianMixtureModels",DouglasA.Reynolds,ThomasF.Quatieri,RobertB.Dunn,DigitalSignalProcessing10,19-41(2000)

技术问题

然而，在以上文献中描述的技术中，简单地通过比较音量来确定语音的存在/不存在，并且因此如果噪声大，则根本不能检测语音。即使噪声小，通过按照音量检测语音而获得的检测准确性也并未充分地高。

本发明实现了提供一种解决以上描述的问题的技术。

对问题的解决方案

本发明的一个方面提供了一种信号处理装置，该信号处理装置包括：

变换器，该变换器将输入信号变换成频域中的振幅分量信号；

计算器，该计算器计算在频率方向上的振幅分量信号的改变的范数；

累加器，该累加器累加由计算器计算出的改变的范数；以及

分析器，该分析器根据由累加器计算出的累加值来分析输入信号中的声音。

本发明的另一方面提供了一种信号处理方法，该信号处理方法包括：

将输入信号变换成频域中的振幅分量信号；

计算在频率方向上的振幅分量信号的改变的范数；以及

累加在计算中计算出的改变的范数。

本发明的又一方面提供了一种用于使得计算机执行方法的信号处理程序，该方法包括：

将输入信号变换成频域中的振幅分量信号；

计算在频率方向上的振幅分量信号的改变的范数；以及

累加在计算中计算出的改变的范数。

本发明的有利效果

根据本发明，有可能提高声音确定准确性。

附图说明

图1是示出了根据本发明的第一实施例的信号处理装置的布置的框图；

图2是示出了根据本发明的第二实施例的信号处理装置的布置的框图；

图3是示出了根据本发明的第三实施例的信号处理装置的布置的框图；

图4是示出了根据本发明的第四实施例的信号处理装置的布置的框图；

图5是示出了根据本发明的第五实施例的信号处理装置的布置的示例的框图；

图6是示出了根据本发明的第五实施例的信号处理装置的布置的另一示例的框图；

图7是示出了根据本发明的第五实施例的变换器的布置的框图；

图8是示出了根据本发明的第五实施例的逆变换器的布置的框图；

图9是示出了根据本发明的第五实施例的逆变换器的语音检测器的布置的示例的框图；

图10是用于说明根据本发明的第五实施例的语音检测器的示例的图形；

图11是用于说明根据本发明的第五实施例的语音检测器的示例的图形；

图12是示出了根据本发明的第五实施例的语音检测器的布置的另一示例的框图；

图13是用于说明根据本发明的第五实施例的语音检测器的另一示例的视图；

图14是示出了根据本发明的第五实施例的信号处理装置的信号处理结果的视图；

图15是示出了根据本发明的第六实施例的替换单元的布置的框图；

图16是示出了根据本发明的第七实施例的替换单元的布置的框图；

图17是示出了根据本发明的第八实施例的替换单元的布置的框图；

图18是示出了根据本发明的第九实施例的替换单元的布置的框图；

图19是示出了根据本发明的第十实施例的替换单元的布置的框图；以及

图20是示出了在根据本发明的实施例的信号处理装置由软件实施时的布置的框图。

具体实施方式

现在将参照附图描述本发明的优选实施例。应当注意，在这些实施例中阐述的部件的相对布置、数值表达式和数值除非具体地另有陈述则并未限制本发明的范围。注意，在以下说明中的“语音信号”指示根据语音或者另一声音的影响而出现的直接电改变。语音信号传输语音或者另一声音并且不限于语音。

[第一实施例]

将参照图1描述根据本发明的第一实施例的信号处理装置100。信号处理装置10是用于确定在输入信号中语音的存在的装置。

如图1中所示，信号处理装置100包括变换器101、频率方向差值计算器102、累加器103和分析器104。变换器101将输入信号110变换成频域中的振幅分量信号130。频率方向差值计算器102计算在频率方向上的频率方向差值计算器102的改变的范数。累加器103累加由计算器102计算出的改变的范数。分析器104根据由累加器103计算出的累加值150分析在输入信号110中的语音。

利用以上描述的布置，有可能更正确地确定语音在输入信号中的存在的可能性或者语音的属性。

这一布置关注语音在频率方向上大量地改变而噪声在频率方向上平滑这样的事实。例如，通过使用在频率方向上的改变的范数的累加值，确定语音随着累加值更大而以更高概率存在。可以通过比较累加值与阈值来执行硬判定(0/1)，或者可以通过对累加值本身取整(round)来执行软判定(0至256)。

[第二实施例]

将参照图2描述根据本发明的第二实施例的信号处理装置。图2是用于说明根据这一实施例的信号处理装置的功能布置的框图。

如图2中所示，信号处理装置200包括变换器201、频率方向差值计算器202、累加器203、分析器204和频率方向平滑器205。变换器201将输入信号210变换成频域中的振幅分量信号230。频率方向平滑器205在频率方向上平滑振幅分量信号230。频率方向差值计算器202计算在频率方向上的平滑的振幅分量信号230的改变的范数。累加器203累加由频率方向差值计算器202计算出的改变的范数。分析器204基于由累加器203计算出的累加值250确定女性语音或者儿童语音的存在。注意，分析器204可以确定尖叫的存在。

利用以上描述的布置，女性语音或者儿童语音是否被混合在输入信号210中或者女性语音或者儿童语音被混合在输入信号210中的可能性被确定。这在用户想要确定妇女或者儿童是否存在于目标空间中时有用。例如，通过在用于检测儿童的害怕语音并且生成报警的装置中并入这样的装置，有可能防止生成错误报警并且更正确地生成报警。

这一实施例关注女性和儿童语音比男性语音更逐渐地改变这样的事实。由于男性语音的振幅分量信号在频率方向上改变多次，所以通过在频率方向上执行平滑来获得平滑曲线，从而产生与噪声的波形相似的波形。这使得有可能正确地提取女性语音和儿童语音。尖叫的音调高于通常，因此尖叫具有与女性语音或者儿童语音相似的特征。

[第三实施例]

将参照图3描述根据本发明的第三实施例的信号处理装置。图3是用于说明根据这一实施例的信号处理装置的功能布置的框图。

如图3中所示，信号处理装置300包括变换器301、频率方向差值计算器302、累加器303、分析器304和时间方向平滑器305。变换器301将输入信号310变换成频域中的振幅分量信号330。时间方向平滑器305在时间方向上平滑振幅分量信号330。频率方向差值计算器302计算在频率方向上的平滑的振幅分量信号的改变的范数。累加器303累加由频率方向差值计算器302计算出的改变的范数。分析器304基于由累加器203计算出的累加值350确定男性语音的存在。

利用以上描述的布置，男性语音是否被混合在输入信号310中或者男性语音被混合在输入信号310中的可能性被确定。这在用户想要确定男人是否存在于目标空间中时有用。例如，通过在用于检测男人入侵对男人关闭的位置(比如女人的宿舍)中的装置中并入这样的装置并且生成报警，有可能防止生成错误报警并且更正确地生成报警。

这一实施例关注男性语音比女性和儿童语音在频率方向上改变更多次数这样的事实。由于女性和儿童声音更逐渐地改变，所以通过在时间方向上执行平滑来获得平滑曲线，从而产生与噪声的波形相似的波形。这使得有可能正确地提取男性语音。

[第四实施例]

将参照图4描述根据本发明的第四实施例的信号处理装置。图4是用于说明根据这一实施例的信号处理装置的功能布置的框图。

如图4中所示，信号处理装置400包括变换器401、频率方向差值计算器402和412、累加器403和413、分析器404、频率方向平滑器405以及时间方向平滑器415。变换器401将输入信号410变换成频域中的振幅分量信号430。频率方向平滑器405在频率方向上平滑振幅分量信号430。时间方向平滑器415在时间方向上平滑振幅分量信号430。频率方向差值计算器402和412中的每个频率方向差值计算器计算在频率方向上的平滑的振幅分量信号的改变的范数。累加器403和413中的每个累加器累加由频率方向差值计算器402和412中的对应频率方向差值计算器计算出的改变的范数。分析器404基于由累加器403和413计算出的累加值确定男性语音的存在以及女性语音和儿童语音的存在。

利用以上描述的布置，男性语音是否被混合在输入信号410中、男性语音被混合在输入信号410中的可能性、女性语音和儿童语音是否被混合在输入信号410中或者女性语音和儿童语音被混合在输入信号410中的可能性被确定。这一装置不仅适用于语音检测而且还适用于讲话者标识、语音识别等。通过确定是否与语音识别技术等组合使用用于男性语音的识别词典或者用于女性语音和儿童语音的识别词典，有可能提高识别准确性。

[第五实施例]

接着将描述根据本发明的第五实施例的信号处理装置。根据这一实施例的信号处理装置例如适当地抑制非固定噪声，如风吹噪声。简单地说，在频域中，输入声音中的固定分量被估计，并且输入声音的部分或者全部由估计的固定分量替换。输入声音不限于语音。例如，环境声音(街道上的噪声、火车/汽车的行驶声音、报警/警告声音、拍手声等)、人的语音或者动物的声音(鸟儿的啁啾、狗的吠叫、猫的猫叫、笑声、泪声、欢呼等)、音乐等可以被用作输入声音。注意，语音被例示为在这一实施例中的输入声音的代表示例。

图5是示出了信号处理装置500的总体布置的框图。向输入终端506供应有噪声信号(包括希望的信号和噪声二者的信号)作为一系列采样值。向输入终端506供应的有噪声信号在变换器501中经历变换(比如傅里叶变换)并且被划分成多个频率分量。在频率基础上独立地处理多个频率分量。这里将通过关注特定频率分量来继续描述。在频率分量之中，向固定分量估计器502、替换单元503和语音检测器505供应振幅频谱(振幅分量)|X(k,n)|，并且向逆变换器504供应相位谱(相位分量)520。注意，变换器501在这里向固定分量估计器502、替换单元503和语音检测器505供应有噪声信号振幅谱|X(k,n)|。然而，本发明不限于此，并且可以供应与振幅谱的平方对应的功率谱。

固定分量估计器502估计在从变换器501供应的有噪声信号振幅谱|X(k,n)|中包括的固定分量，并且生成固定分量信号(固定分量谱)N(k,n)。

语音检测器505在频率基础上确定语音是否被包括在有噪声信号振幅谱|X(k,n)|中。替换单元503通过使用固定分量谱N(k,n)在不包括语音的频率替换有噪声信号振幅谱|X(k,n)|。例如，如果语音检测器501的输出是0(不包括语音)，则获得Y(k,n)＝α(k,n)N(k,n)。如果语音检测器501的输出是1(包括语音)，则获得Y(k,n)＝|X(k,n)|。替换单元503向逆变换器504传输增强的信号振幅谱Y(k,n)作为替换结果。

获得用于替换的振幅谱(替换振幅谱)的函数不限于由α(k,n)N(k,n)代表的、N(k,n)的线性映射函数。例如，可以采用线性函数，比如α(k,n)N(k,n)+C(k,n)。在这一情况下，如果C(k,n)>0，则可以整体提高替换振幅谱的电平，从而由此提高在收听时的固定性。如果C(k,n)<0，则可以整体减少替换振幅谱的电平，但是有必要调整C(k,n)因而谱的值变为负的谱的值未出现。此外，可以使用在另一形式中表示的固定分量谱N(k,n)的函数，比如高阶多项式函数或者非线性函数。

逆变换器504通过合成从变换器501供应的有噪声信号相位谱520和从替换单元503供应的增强的信号振幅谱Y(k,n)来执行逆变换，并且向输出终端507供应所得信号作为增强的信号。

根据这一实施例，由于在除了包括语音的频率之外的频率使用固定分量信号N(k,n)来执行替换，所以有可能避免由抑制而引起的语音失真等。

图6是用于说明根据这一实施例的信号处理装置的另一示例的框图。根据这一实施例的信号处理装置600与信号处理装置500不同在于语音检测器605在频率基础上输出语音被包括在有噪声信号振幅谱|X(k,n)|中的概率p(k,n)，其中p(k,n)是实数0(含)至1(含)。替换单元603根据语音存在概率p(k,n)执行替换处理。其余分量和操作与图5中相同。因此，相同标号表示相同分量和操作，并且将省略其具体描述。替换单元603使用语音存在概率p(k,n)和固定分量信号N(k,n)来替换有噪声信号振幅分量|X(k,n)|。例如通过使用范围从0至1的、p(k,n)的函数α(p(k,n))，可以获得输出信号Y(k,n)＝α(p(k,n))N(k,n)+(1-α(p(k,n)))|X(k,n)|。

<<变换器的布置>>

图7是示出了变换器501的布置的框图。如图7中所示，变换器501包括帧划分器711、加窗单元712和傅里叶变换器713。有噪声信号采样被供应到帧划分器711并且基于K/2个采样而被划分成帧，其中K是偶数。划分成帧的有噪声信号采样被供应到加窗单元712并且乘以窗函数w(t)。通过按照w(t)对第n个帧输入信号x(t,n)(t＝0，1，…，K/2-1)加窗而获得的信号由下式给定：

\overset{&OverBar;}{x} (t, n) = w (t) x (t, n) - - - (1)

两个相继帧可以被部分地叠加(重叠)和加窗。假设重叠长度是帧长度的50％。对于t＝0，1，…，K-1，加窗单元712输出下式的左侧：

\overset{&OverBar;}{x} (t, n) = \{\begin{matrix} w (t) x (t, n - 1), & 0 \leq t < K / 2 \\ w (t) x (t, n) & K / 2 \leq t < K \end{matrix} - - - (2)

对称窗函数用于实信号。窗函数被设计为除了在变换器501的输出被直接地供应到逆变换器504时的计算误差之外使输入信号和输出信号相互匹配。这意味着w²(t)+w²(t+K/2)＝1。

以将下假设其中对于重叠50％的两个相继帧执行加窗的示例来继续描述。作为w(t)，加窗单元例如可以使用由下式给定的汉宁窗：

w (t) = \{\begin{matrix} 0.5 + 0.5 \cos (\frac{π (t - K / 2)}{K / 2}), & 0 \leq t < K \\ 0, & o t h e r w i s e \end{matrix} - - - (3)

otherwise：否则()

各种窗函数(比如汉明窗和三角窗)也是已知的。加窗的输出被供应到傅里叶变换器713并且变换成有噪声信号谱|X(k,n)|。有噪声信号谱|X(k,n)|被分离成相位和振幅。有噪声信号相位谱arg|X(k,n)|被供应到逆变换器504，而有噪声信号振幅谱|X(k,n)|被供应到固定分量估计器502和替换单元503。如已经描述的那样，可以使用功率谱取代振幅谱。

<<逆变换器的布置>>

图8是示出了逆变换器504的布置的框图。如图8中所示，逆变换器504包括逆傅里叶变换器811、加窗单元812和帧合成单元813。逆傅里叶变换器811通过将从替换单元503供应的增强的信号振幅谱(|Y(k,n)|)(在图8中由Y代表)与从变换器501供应的有噪声信号相位谱520(arg|X(k,n)|)相乘来获得增强的信号谱(以下等式(4)的左侧)。

Y(k，n)＝|Y(k，n)|·exp(jarcX(k，n))(4)

其中j代表虚单元。

对于获得的增强的信号谱执行逆傅里叶变换。向加窗单元242供应信号作为一系列时域采样值y(t,n)(t＝0，1，…，K-1)，其中一个帧包括K个采样，并且将信号乘以窗函数w(t)。通过按照w(t)对第n个帧增强信号y(t,n)(t＝0，1，…，K-1)加窗而获得的信号由下式的左侧给定：

\overset{&OverBar;}{y} (t, n) = w (t) y (t, n) - - - (5)

帧合成单元813基于K/2个采样从加窗单元812提取两个相邻帧的输出、叠加它们并且按照下式对于t＝0，1，…，K/2-1获得输出信号(等式(6)的左侧)：

\hat{y} (t, n) = \overset{&OverBar;}{y} (t + K / 2, n - 1) + \overset{&OverBar;}{y} (t, n) - - - (6)

从帧合成单元813向输出端子507传输获得的输出信号。

注意，已经将在图7和图8中的变换器501和逆变换器504中的变换描述为傅里叶变换。然而，可以使用任何其它变换(比如哈达马变换、哈尔变换或者小波变换)取代傅里叶变换。哈尔变换无需相乘并且可以减少LSI芯片的面积。小波变换可以根据频率改变时间分辨率并且因此有望提高噪声抑制效果。

固定分量估计器502可以在由变换器501获得的多个频率分量被积分之后估计固定分量。在积分之后的频率分量的数目小于在积分之前的频率分量的数目。更具体地，与通过对频率分量积分而获得的积分频率分量公共的固定分量谱被获得并且共同地用于属于相同积分频率分量的个别频率分量。如以上描述的那样，在对多个频率分量积分之后估计固定分量信号时，待应用的频率分量数目变小，由此减少总计算量。

(固定分量谱的定义)

固定分量谱指示在输入信号振幅谱中包括的固定分量。固定分量的功率随时间的改变小于输入信号的功率随时间的改变。一般地通过差值或者比值计算随时间的改变。如果通过差值计算随时间的改变，则在给定的帧n中相互比较输入信号振幅谱和固定分量谱时，存在满足下式的至少一个频率k：

(|N(k，n-1)|-|N(k，n)|)²＜(|X(k，n-1)|-|X(k，n)|)²(7)

备选地，如果通过比值计算时间改变，则有满足下式的至少一个频率k：

\frac{| N (k, n - 1) |}{| N (k, n) |} < \frac{| x (k, n - 1) |}{| X (k, n) |} - - - (8)

也就是说，如果以上表达式的左侧对于所有帧n和频率k总是大于右侧，则可以定义N(k,n)不是固定分量谱。即使函数是X和N的指数、对数和幂，也可以给定相同定义。

(推导固定分量谱的方法)

各种估计方法(比如在非专利文献1和2中描述的方法)可以用来在固定分量估计器502中估计固定分量谱N(k,n)。

例如，非专利文献1公开了一种获得其中未生成目标声音的帧的有噪声信号振幅谱的平均值作为估计的噪声谱的方法。在这一方法中，有必要检测目标声音的生成。可以通过增强的信号的功率确定其中生成了目标声音的区间。

作为理想操作状态，增强的信号是除了噪声之外的目标信号。此外，目标声音或者噪声的电平未在相邻帧之间大量地改变。出于这些原因，紧接的前帧的增强的信号电平用作指数以确定噪声区间。如果紧接的前帧的增强的信号电平等于或者小于预定值，则当前帧被确定为噪声区间。可以通过对作为噪声区间而确定的帧的有噪声信号振幅谱求平均来估计噪声谱。

非专利文献1也公开了一种获得有噪声信号振幅谱在它们的供应已经开始的早期阶段中的平均值作为估计的噪声谱的方法。在这一情况下，有必要满足未紧接地在开始估计之后包括目标声音这样的条件。如果满足条件，则可以获得在早期估计阶段中的有噪声信号振幅谱作为估计的噪声谱。

非专利文献2公开了一种从有噪声信号振幅谱的最小值(最小统计量)获得估计的噪声谱的方法。在这一方法中，保持有噪声信号振幅谱在预定时间内的最小值，并且从最小值估计噪声谱。有噪声信号振幅谱的最小值与噪声谱的形状相似并且因此可以用作噪声谱形状的估计值。然而，最小值小于原有噪声电平。因此，通过适当地放大最小值而获得的谱用作估计的噪声谱。

此外，可以使用中值滤波器来获得估计的噪声谱。可以通过WiNE(加权噪声估计)获得估计的噪声谱作为通过使用噪声缓慢地改变的特性来跟随改变的噪声的噪声估计方法。

这样获得的估计的噪声谱可以用作固定分量谱。

(语音检测器的示例的布置)

图9是示出了语音检测器505或者605的示例的布置的框图。语音检测器505或者605包括频率方向差值计算器902、累加器903和分析器904。频率方向差值计算器902计算在频率方向上的振幅分量信号的改变的范数。在频率方向上的改变主要地指示在相邻频率分量之间的差值或者比值。例如，如果该改变被定义为差值，则在振幅分量信号由|X(k,n)|代表(其中k代表频率号并且n代表帧号)时，通过D(k,n)＝Lm|(X(k-1,n)|-|X(k,n)|来计算在频率方向上的改变的范数D(k,n)，其中Lm(·)代表Lm范数。m可以是1、2或者无穷大。对于L1范数，D(k,n)可以被计算为差值的绝对值，也就是D(k,n)＝||X(k-1,n)|-|X(k,n)||。

对于L2范数，D(k,n)可以被计算为差值的平方的平方根，也就是D(k,n)＝√(|X(k-1,n)|-|X(k,n)|)²。备选地，对数差值的范数可以通过D(k,n)＝Lm(log10(|X(k-1,n)|)-log10(|X(k,n)|))被计算。

可以出于减少计算量的目的而限制k的范围。在这一情况下，由于语音分量的振幅分量主要存在于低频带中，所以优选地采用小值(也就是属于低频带的值)以用于k。此外，在频率仓的数目大时，可以计算在k-1与k+1之间或者在k-2与k之间的差值而不是在k-1与k之间的差值。

累加器903累加由频率方向差值计算器902计算出的改变的范数。语音检测器505的分析器904通过比较由累加器903计算出的累加值与预先存储的阈值来确定语音在有噪声振幅分量信号|X(k,n)|中存在/不存在(0/1)。在另一方面，语音检测器605的分析器904对由累加器903计算出的累加值950取整以输出在有噪声振幅分量信号|X(k,n)|中的语音存在概率p(k,n)。这时，分析器904可以通过比较累加值与预先存储的并且与特定人的语音关联的累加值来确定特定人的语音的存在。

(语音检测器的示例中的谱形状)

图10和11是各自示出了在给定时间n的有噪声信号振幅谱(输入信号谱)|X(k,n)|的图形。如图10中所示，在相邻频率之间的振幅差值的范数之和小时，噪声被确定。在另一方面，如图11中所示，在相邻频率之间的振幅差值的范数之和大时，语音(希望的语音或者目标语音)被确定。

(语音检测器的另一示例的布置)

图12是示出了语音检测器505或者605的另一示例的布置的框图。在这一示例中，语音检测器505或者605包括频率方向差值计算器1202和1212、累加器1203和1213、分析器1204、频率方向平滑器1205以及时间方向平滑器1215。频率方向平滑器1205平滑在频率方向上的有噪声振幅分量信号|X(k,n)|。

平滑的有代表的示例是移动平均和线性漏积分。如果采用移动平均作为平滑器，则在|X(k,n)|代表振幅分量信号时，通过下式计算平滑的振幅分量信号|X(k,n)|_bar：

| X (k, n) |_{b a r} = \frac{1}{7} Σ_{p = - 3}^{3} | X (k + p, n) |

备选地，如果采用线性漏积分，则通过|X(k,n)|_bar＝0.8|X(k-1,n)|_bar+0.2|X(k,n)|计算|X(k,n)|_bar。此外，低通滤波器、中值滤波器或者ε滤波器可以用于平滑。

时间方向平滑器1215在时间方向上平滑噪声振幅分量信号|X(k,n)|。频率方向差值计算器1202和1212中的每个频率方向差值计算器计算在频率方向上的平滑的振幅分量信号的改变的范数。累加器1203和1213中的每个累加器累加由频率方向差值计算器1202和1212中的对应频率方向差值计算器计算出的改变的范数。分析器1204基于由累加器1203和1213计算出的累加值确定男性语音的存在以及女性语音和儿童语音的存在。也就是说，语音检测器505的分析器1204通过比较由累加器1203计算出的累加值与预先存储的阈值并且比较由累加器1213计算出的累加值与预先存储的另一阈值来确定在有噪声振幅分量信号|X(k,n)|中语音的存在/不存在(0/1)。在另一方面，语音检测器605的分析器1204将由累加器1203计算出的累加值和由累加器1213计算出的累加值相加、对所得值取整并且输出在有噪声振幅分量信号|X(k,n)|中的语音存在概率p(k,n)。这时，分析器1204可以通过比较累加值与预先存储的并且与特定男性语音或者特定女性语音关联的累加值来确定特定人的语音的存在。

(在语音检测器的另一示例中的谱形状)

图13是用于说明根据性别的谱形状差异的视图。如将通过比较图形1301和1302而清楚的那样，女性语音和儿童语音比男性语音更逐渐地改变。由于男性语音的振幅分量信号在频率方向上改变多次，所以通过在频率方向上执行平滑来获得平滑曲线，从而产生与噪声的波形相似的波形。也就是说，有可能通过使用频率方向平滑器1205来正确地提取女性语音和儿童语音。在另一方面，由于女性语音和儿童语音逐渐地改变，所以通过在时间方向上执行平滑来获得平滑曲线，从而产生与噪声的波形相似的波形。也就是说，有可能通过使用时间方向平滑器1215来正确地提取男性语音。

(谱形状)

图14是根据p(k,n)的值示出了输出信号|Y(k,n)|的谱形状的改变的视图。在图14的上部分中的图形示出了其中p(k,n)与1(＝语音)接近并且处理结果Y(k,n)具有与输入信号|X(k,n)|的谱形状更接近的谱形状的情况。在另一方面，在图14的更下部分中的图形示出了其中p(k,n)与0接近(＝非语音)并且处理结果Y(k,n)具有与固定分量信号N(k,n)的谱形状更接近的谱形状的情况。

(系数α)

经验上适合的值被确定为系数α(k,n)，固定分量信号N(k,n)在图5中所示的替换单元503中乘以该系数。例如，如果α(k,n)＝1，则Y(k,n)＝N(k,n)被获得，并且因此固定分量信号N(k,n)直接地用作向逆变换器504的输出信号。这时，如果固定分量信号N(k,n)大，则大噪声不利地保留。为了解决这一问题，可以确定系数α(k,n)以使得将向逆变换器504输出的振幅分量信号的最大值等于或者小于预定值。例如，如果α(k,n)＝0.5，则通过固定分量信号的功率一半的信号来执行替换。如果α(k,n)＝0.1，则声音变小并且具有与固定分量信号N(k,n)的谱形状相同的谱形状。

例如，如果SNR(信噪比)高，则声音小，并且因此可以通过减少α(k,n)来执行强抑制。恰好相反，在SNR高时，噪声小，并且因此可以通过将α(k,n)设置成1而不执行替换。此外，通过考虑声音在增强高频带时的令人不愉快，可以使用在k等于或者大于阈值时使α(k,n)充分地小的函数或者随着k增加而变得更小的k的单调递减函数。

根据这一实施例，有可能根据语音存在可能性来使噪声固定并且抑制非固定噪声(如风吹噪声)而同时有效地避免语音的失真等。注意，替换单元503可以在子频带基础而不是频率基础上替换振幅分量。

[第六实施例]

将参照图15描述根据本发明的第六实施例的信号处理装置。图15是用于说明根据这一实施例的信号处理装置的替换单元503的布置的框图。根据这一实施例的替换单元503与第五实施例不同在于包括比较器1531和更大振幅替换单元1532。其余部件和操作与在第五实施例中相同。因此，相同标号将表示相同部件和操作，并且将省略其具体描述。

比较器1531比较有噪声信号振幅谱|X(k,n)|与通过按照作为第一函数的线性映射函数计算固定分量谱N(k,n)而获得的第一阈值。在这一实施例中，将说明其中利用在线性映射函数之中的有代表性的恒定倍数(也就是倍数α1(k,n))执行比较的情况。更大振幅替换单元1532从语音检测器505接收语音存在/不存在信号(0/1)。如果信号指示非语音并且|X(k,n)|>α1(k,n)N(k,n)，则获得|Y(k,n)|＝α2N(k,n)；否则，获得|Y(k,n)|＝|X(k,n)|。也就是说，如果振幅(功率)分量|X(k,n)|大于在非语音区间中的固定分量信号N(k,n)的倍数α1(k,n)，则更大振幅替换单元1532按照固定分量信号|N(k,n)|的倍数α2执行替换；否则，谱形状直接地用作替换单元503的输出信号|Y(k,n)|。

计算用于与有噪声信号振幅谱|X(k,n)|比较的谱的方法不限于使用固定分量谱N(k,n)的线性映射函数的方法。例如，可以采用线性函数，如α1(k,n)N(k,n)+C(k,n)。在这一情况下，如果C(k,n)<0，则通过固定分量信号执行替换的频带增加，并且因此有可能大量地抑制令人不愉快的非固定噪声。此外，可以使用在另一形式中表示的固定分量谱N(k,n)的函数，比如高阶多项式函数或者非线性函数。

这在输入信号的变化在功率比通过将固定分量信号乘以预定系数而获得的阈值α1(k,n)N(k,n)更大的频率频带中为大时有效。在另一方面，由于有可能在功率比通过将固定分量信号乘以预定系数而获得的阈值α1(k,n)N(k,n)更小的频带中维持自然，所以声音质量提高。

每次都可以根据以下过程(1)→(2)获得α2(k,n)。

(1)例如通过|X_bar(k,n)|＝(|X(k,n-2)|+|X(k,n-1)|+|X(k,n)|+|X(k,n+1)|+|X(k,n+2)|)/5预先计算输入信号的短时间移动平均X_bar(k,n)(k和n分别是与频率和时间对应的指数)。(2)计算在短时间移动平均(|X_bar(k,n)|)与在替换之后的值(α2(k,n)·N(k,n))之间的差值，并且如果差值为大，则改变α2(k,n)的值以减少差值。如果改变的值由α2_hat(k,n)代表，则以下方法可以用作改变方法。(a)均匀地设置α2_hat(k,n)＝0.5·α2_(k,n)(通过预定值执行常数相乘)。(b)设置α2_hat(k,n)＝|(X_bar(k,n)|/|N(k,n)|(使用|X_bar(k,n)|和|N(k,n)|来执行计算)。(c)设置α2_hat(k,n)＝0.8·|X_bar(k,n)|/|N(k,n)|+0.2(同上)。

然而，获得α2(k,n)的方法不限于以上描述的方法。例如，可以预先设置无论时间如何都是恒定值的α2(k,n)。在这一情况下，可以通过实际地听见经处理的信号来确定α2(k,n)的值。也就是说，可以根据麦克风的和麦克风被附着到的设备的特性确定α2(k,n)的值。

条件：|X(k,n)|>α1(k,n)·N(k,n)和α1(k,n)·N(k,n)-|X_bar(k,n)|>δ

条件1：α2(k,n-1)＝|X_bar(k,n)|/N(k,n)

条件2：α2(k,n)＝|X_bar(k,n)|/N(k,n)

条件3：α2(k,n+1)＝|X_bar(k,n)|/N(k,n)

如以上描述的那样，在固定分量信号N(k,n)中，如果有可能防止振幅分量信号在短时间内的“尖峰”，则有可能使用短时间移动平均来执行替换，由此提高声音质量。

[第七实施例]

将参照图16描述根据本发明的第七实施例的信号处理装置。图16是用于说明根据这一实施例的信号处理装置的替换单元503的布置的框图。根据这一实施例的替换单元503与第五实施例不同在于包括比较器1631和更小振幅替换单元1632。其余部件和操作与在第五实施例中相同。因此，相同标号表示相同部件和操作，并且将省略其具体描述。

比较器1631比较有噪声信号振幅谱|X(k,n)|与固定分量信号N(k,n)的倍数β1(k,n)。如果振幅(功率)分量|X(k,n)|小于在非语音区间中的固定分量信号N(k,n)的倍数β1(k,n)，则更小振幅替换单元1632按照固定分量信号N(k,n)的倍数β2执行替换；否则，谱形状直接地用作替换单元503的输出信号Y(k,n)。也就是说，更小振幅替换单元1632从语音检测器505接收语音存在/不存在信号(0/1)。如果信号指示非语音并且|X(k,n)|<β1(k,n)N(k,n)，则获得|Y(k,n)|＝β2(k,n)N(k,n)；否则，获得|Y(k,n)|＝|X(k,n)|。

这在输入信号的变化在非语音频带中的其中功率比通过将固定分量信号乘以预定系数而获得的阈值β1(k,n)N(k,n)更小的频率频带中为大时有效。在另一方面，由于有可能在语音频带或者功率比通过将固定分量信号乘以预定系数而获得的阈值β1(k,n)N(k,n)更大的频带中维持自然，所以声音质量提高。

每次都可以根据以下过程(1)→(2)获得β(k,n)。

(1)例如，通过X_bar(k,n)＝(X(k,n-2)+X(k,n-1)+X(k,n)+X(k,n+1)+X(k,n+2))/5预先计算输入信号的短时间移动平均X_bar(k,n)(k和n分别是与频率和时间对应的指数)。(2)计算在短时间移动平均(X_bar(k,n))与在替换之后的值(β2(k,n)·N(k,n))之间的差值，并且如果差值为大，则改变β2(k,n)的值以减少差值。如果改变的值由β2_hat(k,n)代表，则以下方法可以用作改变方法。(a)均匀地设置β2_hat(k,n)＝0.5·β2(k,n)(通过预定值执行常数相乘)。(b)设置β2_hat(k,n)＝(X_bar(k,n)/N(k,n)(使用X_bar(k,n)和N(k,n)来执行计算)。(c)β2_hat(k,n)＝0.8·X_bar(k,n)/N(k,n)+0.2(同上)。

然而，获得β2(k,n)的方法不限于以上描述的方法。例如，可以预先设置无论时间如何都是恒定值的β2(k,n)。在这一情况下，可以通过实际地听见经处理的信号来确定β2(k,n)的值。也就是说，可以根据麦克风的和麦克风被附着到的设备的特性确定β2(k,n)的值。

条件：|X(k,n)|>β1(k,n)·N(k,n)和β1(k,n)·N(k,n)-|X_bar(k,n)|>δ

条件1：β2(k,n-1)＝X_bar(k,n)/N(k,n)

条件2：β2(k,n)＝X_bar(k,n)/N(k,n)

条件3：β2(k,n+1)＝X_bar(k,n)/N(k,n)

如以上描述的那样，在固定分量信号N(k,n)中，如果有可能防止振幅分量在短时间内的“尖峰”，则有可能使用短时间移动平均来执行替换，由此提高声音质量。

[第八实施例]

将参照图17描述根据本发明的第八实施例的信号处理装置。图17是用于说明根据这一实施例的信号处理装置的替换单元503的布置的框图。根据这一实施例的替换单元503与第六实施例不同在于包括第一比较器1731、第二比较器1733和更小振幅替换单元1734。其余部件和操作与在第五实施例中相同。因此，相同标号表示相同部件和操作，并且将省略其具体描述。

比较器1731比较有噪声信号振幅谱|X(k,n)|与通过按照线性映射函数计算固定分量谱N(k,n)而获得的第一阈值。更大振幅替换单元1532从语音检测器505接收语音存在/不存在信号(0/1)。如果信号指示非语音并且|X(k,n)|>α1(k,n)N(k,n)，则获得|Y(k,n)1|＝α2N(k,n)；否则，获得|Y1(k,n)|＝|X(k,n)|。也就是说，如果振幅(功率)分量|X(k,n)|在非语音区间中大于固定分量信号N(k,n)的倍数α1(k,n)，则更大振幅替换单元1532通过固定分量信号N(k,n)的倍数α2(k,n)执行替换；否则，谱形状直接地用作向第二比较器1733的输出信号Y1(k,n)。

在另一方面，更小振幅替换单元1734从语音检测器505接收语音存在/不存在信号(0/1)。更小振幅替换单元1734仅在来自更大振幅替换单元1532的输出信号Y1(k,n)在非语音区间中比固定分量信号N(k,n)的倍数β1(k,n)更小的频率通过固定分量信号的N(k,n)的倍数β2(k,n)执行替换。在输出信号Y1(k,n)大于倍数β1(k,n)的频率，谱形状直接地用作输出信号|Y2(k,n)|。也就是说，如果|Y1(k,n)|<β1(k,n)N(k,n)，则获得|Y2(k,n)|＝β2(k,n)N(k,n)；否则，获得|Y1(k,n)|＝|Y2(k,n)|。

这在输入信号在功率比通过将固定分量信号乘以预定系数而获得的阈值α1(k,n)N(k,n)更大的频率频带和功率小于阈值β1(k,n)N(k,n)的频率频带中为大时以及在谱形状的特性优选地尽可能保留在语音区间中有效。

[第九实施例]

将参照图18描述根据本发明的第九实施例的信号处理装置。图18是用于说明根据这一实施例的信号处理装置的替换单元503的布置的框图。根据这一实施例的替换单元503与第六实施例不同在于更大振幅替换单元1832使用有噪声振幅信号|X(k,n)|的系数α(k,n)的倍数来执行替换。其余部件和操作与在第六实施例中相同。因此，相同标号表示相同部件和操作，并且将省略其描述。

如果振幅(功率)分量|X(k,n)|大于固定分量信号N(k,n)的倍数α1(k,n)，则更大振幅替换单元1832通过输入振幅分量信号|X(k,n)|的倍数α2执行替换；否则，谱形状直接地用作替换单元503的输出信号|Y(k,n)|。也就是说，如果|X(k,n)|>α1(k,n)N(k,n)，则获得|Y(k,n)|＝α2|X(k,n)|；否则，获得|Y(k,n)|＝|X(k,n)|。

这在输入信号的变化在功率比通过将固定分量信号乘以预定系数而获得的阈值α1(k,n)N(k,n)更大的频率频带中为大时以及在谱形状的特性优选地尽可能保留在输出信号中时有效。例如，这在希望执行语音识别而抑制风照射时有效。在另一方面，由于有可能在功率比通过将固定分量信号乘以预定系数而获得的阈值α1(k,n)N(k,n)更小的频带中维持自然，所以声音质量提高。

[第十实施例]

将参照图19描述根据本发明的第十实施例的信号处理装置。图19是用于说明根据这一实施例的信号处理装置的替换单元503的布置的框图。根据这一实施例的替换单元503与第八实施例不同在于更大振幅替换单元1932与根据第九实施例的更大振幅替换单元1832相似地使用有噪声振幅信号|X(k,n)|的系数α2(k,n)的倍数来执行替换。其余部件和操作与在第八实施例中相同。因此，相同标号表示相同部件和操作，并且将省略其具体描述。

如果振幅(功率)分量|X(k,n)|在非语音区间中大于固定分量信号N(k,n)的倍数α1(k,n)，则更大振幅替换单元1932通过输入振幅分量信号|X(k,n)|的倍数α2(k,n)执行替换；否则，谱形状直接地用作替换单元503的输出信号Y(k,n)。也就是说，如果|X(k,n)|>α1(k,n)N(k,n)，则获得|X(k,n)|＝α2|X(k,n)|；否则，获得|X(k,n)|＝|X(k,n)|。

这在输入信号的变化在功率比通过将固定分量信号乘以预定系数而获得的阈值α1(k,n)N(k,n)更大的频率频带中为大时以及在谱形状的特性优选地尽可能保留在输出信号中时有效。例如在希望识别在语音区间中的语音而抑制在非语音区间中的噪声时，即使确定非语音区间，在功率为大的区间中的谱形状仍然保留。因此，即使语音存在/不存在确定错误，也有可能提高语音识别准确性。

[应用领域]

如在非专利文献1的分节2.2中描述的那样，在第一实施例中说明的语音检测包括以下应用。

(1)有可能通过从输入信号排除在非语音区间中的信号并且仅对语音区间进行编码和传输来减少传送费用。备选地，有可能在编码时通过改变在语音区间与非语音区间之间的比特率来执行更高质量信息通信。

(2)有可能通过在非语音区间与语音区间之间分离噪声处理、去回响处理、声源分离处理和回声取消处理来执行高性能信号处理。

(3)有可能在应用语音识别技术时通过分离语音区间和非语音区间并且仅将语音区间设置为识别目标来减少识别误差。

在另一方面，如在非专利文献2(第4.1.3节“ExperimentalMethod”的第二段)、非专利文献3(图1)、非专利文献4(第26页，图2)等中描述的那样，在第二实施例中描述的语音标识包括以下应用。

(1)语音标识用来提高语音识别性能。学习按性别隔离的识别模型(“依赖于性别的模型”)。

(2)在分析多个人参加的会议的语音数据时确定在具体时间谈话的特定人。

(3)在自动地创建用于TV广播或者电影的字幕时确定在具体时间谈话的特定人。

[其它实施例]

虽然已经参照实施例说明本发明，但是本发明不限于以上描述的实施例。如本领域技术人员将理解的那样，可以不同地修改本发明的布置和细节而未脱离其精神实质和范围。本发明也并入了如下系统或者装置，该系统或者装置在任何形式中组合在实施例中包括的不同特征。

本发明可以应用于包括多个设备或者单个装置的系统。本发明监视在直接地或者从远程地点向系统或者装置供应用于实施这些实施例的功能的信号处理程序时也适用。因此，本发明也并入了在计算机中安装的用于计算机实施本发明的功能的程序、存储程序的介质和使得用户下载程序的WWW(万维网)服务器。特别地，本发明并入如下非瞬态计算机可读介质，该非瞬态计算机可读介质存储用于使计算机执行在以上描述的实施例中包括的处理步骤的信号处理程序。

作为示例，以下将参照图20描述在第一实施例中说明的语音处理由软件实施时由在计算机2000中提供的CPU2002执行的处理过程。

将输入信号变换成频域中的振幅分量信号(S2001)。计算在频率方向上的振幅分量信号的改变的范数(S2003)。累加改变的计算出的范数(S2005)。根据累加值分析在输入信号中的语音(S2007)。

在存储器2004中存储用于执行这些程序的程序模块。在CPU2002依次地执行在存储器2004中存储的程序模块时，有可能获得与在第一实施例中的效果相同的效果。

相似地，关于第二至第十实施例，在CPU2002执行与参照来自存储器2004的框图描述的功能部件对应的程序模块时，有可能获得与在实施例中的效果相同的效果。

[实施例的其它表达]

也可以如在以下补充备注中那样描述以上描述的实施例中的一些或者所有实施例而不限于以下补充备注。

(补充备注1)

提供一种信号处理装置，包括：

累加器，该累加器累加由计算器计算出的改变的范数；以及

分析器，该分析器根据由累加器计算出的累加值分析在输入信号中的声音。

(补充备注2)

提供根据补充备注1的信号处理装置，其中分析器根据累加值来确定在输入信号中声音的存在。

(补充备注3)

提供根据补充备注1或者2的信号处理装置，其特征在于还包括：

频率方向平滑器，该频率方向平滑器在频率方向上平滑振幅分量信号，

其中计算器计算由频率方向平滑器平滑的振幅分量信号中、在频率方向上的改变的范数，

累加器累加由计算器计算出的改变的范数，并且

分析器基于累加值来确定女性语音和儿童语音之一的存在。

(补充备注4)

提供根据补充备注1至3中的任一补充备注的信号处理装置，其特征在于还包括：

时间方向平滑器，该时间方向平滑器在时间方向上平滑振幅分量信号，

其中计算器计算由时间方向平滑器平滑的振幅分量信号中、在频率方向上的改变的范数，

累加器累加由计算器计算出的改变的范数，并且

分析器基于累加值来确定男性声音的存在。

(补充备注5)

提供根据补充备注1或者2的信号处理装置，其特征在于分析器通过比较累加值与预先存储的、并且与特定人的语音关联的累加值，来确定特定人的语音的存在。

(补充备注6)

提供一种信号处理方法，包括：

将输入信号变换成频域中的振幅分量信号；

计算在频率方向上的振幅分量信号的改变的范数；以及

累加在计算中计算出的改变的范数。

(补充备注7)

提供一种用于使计算执行方法的信号处理程序，该方法包括：

将输入信号变换成频域中的振幅分量信号；

计算在频率方向上的振幅分量信号的改变的范数；以及

累加在计算中计算出的改变的范数。

本申请要求对通过引用而完全结合于此、提交于2013年4月11日的第2013-83412号日本专利申请的优先权。

Claims

1.一种信号处理装置，包括：

变换器，所述变换器将输入信号变换成频域中的振幅分量信号；

计算器，所述计算器计算在频率方向上的所述振幅分量信号的改变的范数；

累加器，所述累加器累加由所述计算器计算出的所述改变的所述范数；以及

分析器，所述分析器根据由所述累加器计算出的累加值来分析所述输入信号中的声音。

2.根据权利要求1所述的信号处理装置，其中所述分析器根据所述累加值来确定在所述输入信号中声音的存在。

3.根据权利要求1或者2所述的信号处理装置，还包括：

频率方向平滑器，所述频率方向平滑器在所述频率方向上平滑所述振幅分量信号，

其中所述计算器计算由所述频率方向平滑器平滑的所述振幅分量信号中、在所述频率方向上的改变的范数，

所述累加器累加由所述计算器计算出的所述改变的所述范数，并且

所述分析器基于所述累加值来确定女性语音和儿童语音之一的存在。

4.根据权利要求1至3中的任一权利要求所述的信号处理装置，还包括：

时间方向平滑器，所述时间方向平滑器在时间方向上平滑所述振幅分量信号，

其中所述计算器计算由所述时间方向平滑器平滑的所述振幅分量信号中、在所述频率方向上的改变的范数，

所述分析器基于所述累加值来确定男性语音的存在。

5.根据权利要求1或者2所述的信号处理装置，其中所述分析器通过比较所述累加值与预先存储的、并且与特定人的语音关联的累加值，来确定所述特定人的语音的存在。

6.一种信号处理方法，包括：

将输入信号变换成频域中的振幅分量信号；

计算在频率方向上的所述振幅分量信号的改变的范数；以及

累加在所述计算中计算出的所述改变的所述范数。

7.一种用于使得计算机执行方法的信号处理程序，所述方法包括：

将输入信号变换成频域中的振幅分量信号；

计算在频率方向上的所述振幅分量信号的改变的范数；以及

累加在所述计算中计算出的所述改变的所述范数。