CN1866357A

CN1866357A - 噪声电平推定方法及其装置

Info

Publication number: CN1866357A
Application number: CNA2006100024603A
Authority: CN
Inventors: 本田雄士
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2005-05-20
Filing date: 2006-01-26
Publication date: 2006-11-22
Also published as: JP2006323230A; JP4551817B2; US20060265219A1; KR20060119729A

Abstract

本发明提供一种噪声电平推定方法及其装置，不需要声音检测器，即可简单且容易地输入声音信号的推测噪声电平。在噪声电平推定装置中，使用短时间帧和由该短时间帧的多个集合构成的长时间帧这一概念。用第一计算单元(11～14)，对每个短时间帧分别计算输入声音信号(x1)的短时间功率y1。用第二计算单元(16、17)，在长时间帧中计算上述计算出的多个短时间功率(y1)之中的最小的短时间功率(y2)。用输出单元(18、19)，把上述计算出的最小的短时间功率y2推定为对于输入声音信号(x1)的背景噪声的电平(y3)。

Description

噪声电平推定方法及其装置

技术领域

本发明涉及一种噪声电平推定方法及其装置，被用于进行输入声音信号的传输的电话机、无线设备等的语音通信系统，和语音录音装置、语音识别装置等伴随有声音信号处理的方法及装置等。

背景技术

以往，背景(本底)噪声电平的推测方法及推测装置例如在以下装置(a)～(c)等中非常有用。

(a)电话机、无线设备

在语音通信系统中，通过只传输有声区间的信号、或者在有声区间和无声区间切换编码位分配量，就能够削减传输成本。为了提高有声区间的检测精度，通过依照背景噪声电平自适应地计算出有声检测用的阈值，传输效率和通话质量的提高就成为可能。

另外，通过在由回波抑制装置所使用的非线形处理器(NonLinear Processor：NLP)、和切换有声、无声进行传输的传输器(VoiceOperated Transmitter：VOX)处理所生成的无声区间中加上缓和噪声(comfort noise、舒适噪声)，就能够减轻通话的不自然或不适感。为此，就需要进行与背景噪声电平对应的缓和噪声相加电平的调整。

(b)语音录音装置

在把声音录制到半导体存储器上的装置中，通过无声区间的信号不进行编码按其持续时间进行记录，或者在有声区间和无声区间切换编码位分配量，就能够有效地使用半导体存储器。与语音通信系统同样，通过依照背景噪声电平自适应地计算出有声检测用的阈值，半导体存储器搭载容量的削减就成为可能。

(c)语音识别装置

在语音识别装置中，也是通过依照背景噪声电平自适应地计算出有声检测用的阈值，语音识别率的提高就成为可能。

作为在这种用途中所使用的噪声电平推定装置，例如有以下专利文献中所记载的装置。

【专利文献1】日本专利公开特开平10-91184号公报(图4)

图8是表示专利文献1的图4中记载的以往的噪声电平推定装置的结构图。

该噪声电平推定装置具有从扩音器等输入声音信号in的输入端子1，在该输入端子1上连接着功率(Power)计算器2、阈值计算器3、控制这些计算器2、3的声音检测器4、输出有声/无声判定信号out的输出端子5、以及输出计算出的平均功率P的输出端子6。

在这种噪声电平推定装置中，在功率计算器2中根据输入声音信号in的短时间内的移动平均或平滑值计算出平均功率P，并输出给阈值计算器3。在阈值计算器3中，将在平均功率P加上了一定值后的阈值Pt输出给声音检测器4。在声音检测器4中，比较输入声音信号in的功率和阈值Pt，若输入声音信号in的功率超过阈值Pt则判定为有声，并将作为该判定结果的有声/无声判定信号out输出给输出端子5，停止功率计算器2和阈值计算器3的更新动作。从而，由于从功率计算器2输出的平均功率P只计算被判定为无声的区间的功率，所以该平均功率P就可被推定为表示背景噪声的电平。

但是，在以往的图8所示的噪声推测装置中，由于在功率计算器2中通过使用了过去信息的移动平均和平滑值计算而计算出的平均功率P的值，拖拉着过去信息平缓地推移，所以就有以下问题：例如即便在语句之间存在微小区间的背景噪声电平，也不能使平均功率P的值充分降低到背景噪声电平，而有可能不利于检测出背景噪声电平，或如果无声区间未正确地检测出则背景噪声电平也不能正确的进行推定之类的问题。

另外，为了提高声音检测器4的精度，还提出了高速傅立叶变换(Fast Fourier Transform：FFT)和线性预测分析法(LinearPredictive Coding：LPC)等处理频谱(spectrum)的方法，但如图8的结构那样和将输入声音信号in的功率与阈值Pt进行比较的方法相比，就有电路规模或计算量明显增大之类的问题。

发明内容

本发明的目的就在于解决上述课题并提供一种不需要如以往那样的声音检测器，即可简单且容易地推定噪声电平的噪声电平推定方法及其装置。

为了解决上述课题，在根据本发明技术方案1和3的噪声电平推定方法及其装置中，使用短时间帧和由该短时间帧的多个集合构成的长时间帧，对每个所述短时间帧分别计算输入声音信号的短时间功率，在所述长时间帧中计算所述计算出的多个短时间功率之中的最小的短时间功率，把所述计算出的最小的短时间功率推定为对于所述输入声音信号的噪声电平。

在根据本发明技术方案2和4的噪声电平推定方法及其装置中，若检测出比通过所述发明技术方案所推定的噪声电平小的所述输入声音信号的电平的短时间功率，就用该检测出的短时间功率来更新所述噪声的推定电平。

根据技术方案1、3涉及的发明，由于不需要如以往那样的声音检测器，所以能够进行不依赖于声音检测器的检测结果的高精度的噪声电平推定。以往为了提高声音检测器的精度而提出的各种方法就不再需要，并能够以较小的电路规模、或较少的计算量来进行噪声电平的推定。而且，由于在本发明中，有效地利用了例如即便像超过长时间帧这样的连续的声音被持续输入，通常也在语句之间至少存在短时间帧程度的无声区间这一特征，所以能够把某长时间帧中的最小的短时间功率推定为噪声电平，但由于在在短时间帧关闭短时间功率每次都进行计算，所以即使在具有最小的短时间功率的短时间帧前后的短时间帧中含有声音信号，也不会对推测结果带来影响。由此，就能够检测出存在于语句之间的微小区间的噪声电平。

根据技术方案2、4涉及的发明，基于把某长时间帧中的最小的短时间功率推定为噪声电平这一想法，在检测到低于当前的噪声推测电平的短时间功率的时间点，把该检测结果作为噪声的推定电平加以反映，由此噪声电平推定的跟踪性进一步改善。

附图说明

图1是表示本发明实施例1的噪声电平推定装置的功能方框图。

图2是表示在本发明实施例1中使用的短时间帧和长时间帧之概念的图。

图3是表示图1的噪声电平推定装置内的各单元的输出信号的波形图。

图4是表示图1的噪声电平推定处理的流程图。

图5是表示本发明实施例2中的噪声电平推定装置内的各单元的输出信号的波形图。

图6是表示图5的噪声电平推定处理的流程图。

图7是表示本发明实施例2中的噪声电平推定的一例的、输入声音信号的功率和所推定的噪声电平的波形图。

图8是表示以往的噪声电平推定装置的结构图。

具体实施方式

在电话机、无线设备等的语音通信系统、和语音录音装置、语音识别装置等伴随有声音信号处理的方法及装置中所用的噪声电平的推测方法中，使用短时间帧和由该短时间帧的多个集合构成的长时间帧这一概念。然后，对每个短时间帧分别计算输入声音信号的短时间功率，在长时间帧中计算上述计算出的多个短时间功率之中最小的短时间功率，把该计算出的最小的短时间功率推定为对于上述输入声音信号的噪声电平。

【实施例1】

(实施例1的结构)

图1的噪声电平推定装置是一种推测从扩音器等输入到输入端子10的声音信号x1的噪声(例如，背景噪声)之电平，并从输出端子20输出作为该推测值的输出信号y3的装置，由在电子电路上动作的硬件(独立电路)所构成，或者由在微控制器和数字信号处理器(DigitalSignal Processor：DSP)等上动作的软件所构成。

该噪声电平推定装置具有被连接到输入端子10的绝对值计算单元11，在该绝对值计算单元11上级联连接乘法单元12、两输入一输出的加法单元13、以及初始化单元14，在该初始化单元14的输出端子和加法单元13的输入端子之间反馈连接一取样(Z^-1 ₁)延迟单元15。

绝对值计算单元11用于计算所输入的声音信号x1的绝对值，例如由利用硬件的绝对值计算器、或者利用软件的运算单元所构成。乘法单元12用于对绝对值计算单元11的输出信号乘以规定的值，例如由利用硬件的乘法器、或者利用软件的运算单元所构成。加法单元13用于对乘法单元12的输出信号和一取样延迟单元15的输出信号进行加法运算，例如由利用硬件的加法器、或者利用软件的运算单元所构成。初始化单元14通常把来自加法单元13的输入信号u1原样作为输出信号y1进行输出，对每个规定取样(例如，128取样)输出0，例如由利用硬件的初始化电路、或者利用软件的重置(reset)单元所构成。一取样延迟单元15用于通过使初始化单元14的输出信号y1延迟一取样(Z^-1 ₁)并反馈输入给加法单元13，来保持输出信号y1，例如由利用硬件的一取样延迟存储器等、或者利用软件的延迟单元所构成。

由这样的绝对值计算单元11、乘法单元12、加法单元13、初始化单元14和一取样延迟单元15，而构成计算所输入的声音信号x1的功率(y1)的第一计算单元(例如，功率计算单元)。

在初始化单元14的输出端子上连接着两输入一输出的比较单元16，在该比较单元16的输入输出端子之间连接着一取样(Z^-1 ₂)延迟单元17。由这些比较单元16和一取样延迟单元17构成第二计算单元。比较单元16通常把来自一取样延迟单元17的输入信号u2原样作为输出信号y2进行输出，但按每个规定取样(例如，128取样)，即每当来自初始化单元14的短时间功率的确定值、即输入信号u3被输入，就比较输入信号u2和u3，并将较小一方的值作为输出信号y2进行输出，例如由利用硬件的比较电路、或者利用软件的运算单元所构成。一取样延迟单元17用于通过使比较单元16的输出信号y2延迟一取样(Z^-1 ₂)并反馈输入给该比较单元16，来保持输出信号y2，例如由利用硬件的一取样延迟存储器等、或者利用软件的延迟单元所构成。

在一取样延迟单元17的输出端子上连接着两输入一输出的比较单元18，在该比较单元18的输入输出端子之间连接着一取样(Z^-1 ₃)延迟单元19。由这些比较单元18和一取样延迟单元19构成输出单元。比较单元18通常把来自一取样延迟单元19的输入信号u5原样作为输出信号y3输出给输出端子20，但按规定取样(例如，8192取样)，即每当来自一取样延迟单元17的长时间功率的最初取样、即输入信号u4被输入，就把其作为输出信号y3输出给输出端子20，例如由利用硬件的比较电路、或者利用软件的运算单元所构成。一取样延迟单元19用于通过使比较单元18的输出信号y3延迟一取样(Z^-1 ₃)并反馈输入给该比较单元18，来保持输出信号y3，例如由利用硬件的一取样延迟存储器等、或者利用软件的延迟单元所构成。

在初始化单元14和比较单元16、18的控制端子上连接着取样计数单元21。取样计数单元21对取样周期进行计数(count)，并对初始化单元14和比较单元16、18提供用于通知动作定时的定时信号c，例如由利用硬件的取样计数器、或者利用软件的计数单元所构成。

(实施例1的噪声电平推定方法)

图2是表示在本实施例1中使用的短时间帧和长时间帧之概念的图。

在图2中，作为一例，以把128取样(在取样频率为8kHz的情况下为16ms)定义为短时间帧P1的单位长度、把8192(＝128×64)取样(在取样频率为8kHz的情况下为1024ms)定义为长时间帧P2的单位长度为前提。当然也可以不限定于该定义。作为帧P1、P2的概念，把第m个长时间帧表示为P2[m]，把该长时间帧P2[m]中的第n个短时间帧表示为P1[n，m]。

以下，以这种帧概念为基础，一边参照图3一边说明使用了图1的噪声电平推定装置的噪声电平推定方法。

图3是表示图1的噪声电平推定装置内的各单元的输出信号的波形图，横轴表示时间，纵轴表示信号电平。

例如，把在短时间帧P1[n，m]中从输入端子10输入的声音信号x1中的第i个(i＝1、2、...、128)数字声音信号的取样表示为xi[n，m]。所输入的各取样xi[n，m]用绝对值计算单元11计算绝对值|xi[n，m]|，并利用乘法单元12对该绝对值|xi[n，m]|乘以1/128，该乘法结果被输入后级的加法单元13。另一方面，初始化单元14按照下述式(1)，通常把来自加法单元13的输入信号u1原样作为输出信号y1进行输出，但每128个取样输出0。该输出信号y1被保存在一取样延迟单元15中，在下一取样中被输入到加法单元13。此外，一取样延迟(Z^-1 ₁)的初始值为0。

【算式1】

通过以上的绝对值计算单元11、乘法单元12、加法单元13、初始化单元14和一取样延迟单元15，短时间帧P1[n，m]中的下述式(2)所示的短时间功率的确定值P1(n，m)每128取样作为初始化单元14的输出信号y1被输出。即，初始化单元14如图3所示，在短时间帧P1[n，m]的最后取样中将短时间功率的确定值作为输出信号y1进行输出。

【算式2】

P 1 (n, m) = \frac{1}{128} \underset{x &Element; i | n, m |}{Σ} | x | . . . (2)

比较单元16按照下述算式(3)，通常把来自一延迟取样单元17的输入信号u2原样作为输出信号y2进行输出，但每128取样，即每当从初始化单元14输出的短时间功率的确定值作为输入信号u3被输入，就比较输入信号u2和u3，并将较小一方的值作为输出信号y2进行输出。但是，长时间帧P2[m]的最初取样(P1[1，m])输出与一取样延迟(Z^-1 ₁)的初始值相等的值。此外，一取样延迟(Z^-1 ₂)的初始值是一取样延迟单元17能取的上限值。比较单元16的输出信号y2被保存在一取样延迟单元17中，在下一取样中被输入到比较单元16和比较单元18。即，输出信号y2如图3所示，在长时间帧P2[m]的最初取样(P1[1，m])中被初始化为上限值，若在该长时间帧P2[m]中检测出最小的短时间功率就用该值来进行更新。

【算式3】

比较单元18按照下述算式(4)，通常把来自一延迟取样单元19的输入信号u5原样作为输出信号y3进行输出，但每8192取样(＝128×64)，即每当从一取样延迟单元17输出的长时间帧P2[m](其中，m≥2)的最初取样(P1[1，m])被输入，就把该输入信号u4作为输出信号y3进行输出。此外，由于一取样延迟(Z^-1 ₃)的初始值为0，所以长时间帧P2[1]的区间输出0。输出信号y3被保存在一取样延迟单元19中，在下一取样中被输入到比较单元18。

【算式4】

通过以上的比较单元16、18和一取样延迟单元17、19，如下述式(5)所示，某长时间帧P2[m]的区间中的背景噪声的推测电平P2(m)作为输出信号y3从比较单元18输出给输出端子20。该输出信号y3如图3所示，将之前的长时间帧P2[m-1]中的输出信号y2保持当前的长时间帧P2[m]的区间。

【算式5】

图4是表示图1的噪声电平推定处理的流程图。

以下，一边参照图4一边说明图1的噪声电平推定处理。

当噪声电平推定处理开始时，第i个的值、第n个的值、第m个的值分别被初始设定成1，输出信号y1为0，输出信号y2为该y2能取的上限值y2max，输出信号y3为0(步骤S1)。对输入声音信号x1的短时间帧P1[n，m]中的第i个取样xi[n，m]，由绝对值计算单元11计算绝对值|xi[n，m]|，并通过乘法单元12对该计算结果乘以1/128，由加法单元13对该乘法结果加上输出信号y1，从初始化单元14输出输出信号y1(＝y1+|xi[n，m]|/128)(步骤S2)。由初始化单元14判定是否为i＝128，在i＜128时，通过一取样延迟单元15由加法单元13在i上加1(步骤S4-1)，并反复该加法处理直到i＝128(步骤S2、S3、S4-1)。

若i＝128，则短时间帧P1[n，m]中的短时间功率(y1)确定，输出信号y1＝0从初始化单元14输出。若短时间功率(y1)确定，则短时间帧序号n被更新(n＝n+1)(步骤S4-2)。在短时间帧更新时，通过比较单元16来比较输出信号y1与y2(步骤S5)，如果输出信号y1小，则输出信号y2用y1来更新(步骤S6)。通过比较单元16判定是否为n＞64(步骤S7)，在n≤64时，反复输出信号y2的上述更新处理(S10、S2～S7)。

若n＞64，则通过比较单元18按64个短时间帧来更新长时间帧序号m(步骤S8)。在该长时间帧更新时，通过比较单元18来更新噪声电平推定值(y3)，通过比较单元16将输出信号y2初始化(步骤S9)。进而，在通过初始化单元14将短时间功率(y1)初始化(y＝0)以后(步骤S10)，返回至步骤S2的处理。由此，从输出端子20输出的输出信号y3如图3所示，将之前的长时间帧P2[m-1]中的比较单元16的输出信号y2保持当前的长时间帧P2[m]的区间。

(实施例1的效果)

在本实施例1中具有诸如下述(a)～(c)那样的效果。

(a)由于不需要以往那样的声音检测器，所以能够进行不依赖于声音检测器的检测结果的高精度的噪声电平推定。

(b)以往为了提高声音检测器的精度而提出的各种方法就不再需要，并能够以较小的电路规模、或较少的计算量来进行背景噪声电平的推定。

再者，本实施例1有效地利用了即便像超过长时间帧P2这样的连续的声音被持续输入，通常也在语句之间至少存在短时间帧程度的无声区间这一特征。因而，如本实施例1那样，就能够把某长时间帧P2中的最小的短时间功率推定为背景噪声电平，但由于在短时间帧P1关闭短时间功率(即，重置为0)，每次都进行计算，所以即使在具有最小的短时间功率的短时间帧P1前后的短时间帧P1中含有声音信号x1，也不会对推测结果带来影响。

(c)如前面所述，由于不会对推测结果带来影响，故可以检测出存在于语句之间的微小区间的背景噪声电平。

【实施例2】

(实施例2的结构)

例如，在没有断句地持续发声时等，在跨越长时间帧以上不可能存在背景噪声的电平的情况下(即，有声状态持续不能检测出其间的背景噪声的情况)，就有可能错误地将背景噪声的电平推定得大于实际情况。在实施例1中，在这种情况下，即使在发声中断之后的短时间帧P1中检测到正确的背景噪声电平时，也会有在下一长时间帧P2开始以前不能反映检测结果之类的问题。另外，在由于某种理由，背景噪声的电平减少了的情况下也有同样的问题。

为了解决这样的问题，使噪声电平推定的跟踪性比实施例1还要有所改善，在本实施例2中，在图1的噪声电平推定装置中的比较单元18中追加了以下功能：在短时间帧更新时，对比较单元16的输出信号y2与比较单元18的输出信号y3进行比较，如果y2小则用y2来更新噪声电平推定值(y3)。图1的其他单元11～16的功能与实施例1相同。

(实施例2的噪声电平推定方法)

图5对应于实施例1的图3，是表示本发明实施例2中的噪声电平推定装置内的各单元的输出信号的波形图，横轴表示时间，纵轴表示信号电平。

在本实施例2中，把用式(4)所表示的图1的比较单元18的功能如式(6)那样进行变更。

【算式6】

通过此变更，由于即便在同一长时间帧(例如，P2[m])中每当短时间帧形成输出信号y3就可得以更新，所以若把某短时间帧P1[n，m]的区间中的背景噪声的推测电平表示为P2(n，m)，则式(5)被变更为式(7)。但是，设进行计算直到短时间功率P1(n，m)为止。

【算式7】

在该式(7)中，长时间帧形成时(图5的时刻t1和时刻t2的部位)的噪声推测电平就成为其前面的输出信号y2的电平，这是其前面的长时间帧P2[m-1]的最小的短时间功率，用式(7)中的A来表示。另外，当前的长时间帧P2[m]中的最小的短时间功率用式(7)中的(B)来表示。在本实施例2中，如果在实施例1已作为长时间帧P2[m]区间的噪声推测电平的A小于B，则立即用B来更新噪声推测电平，所以当前的噪声推测电平P2(n，m)能够如式(7)所示那样用min(A，B)来表示。

因此，在本实施例2的噪声电平推定处理中，如图5所示，初始化单元14在短时间帧P1[n，m]的最后取样中把短时间功率的确定值作为输出信号y1进行输出。比较单元16的输出信号y2在长时间帧P2[m]的最初取样(P1[1，m])中被初始化为上限值，若在该长时间帧P2[m]中检测到最小的短时间功率(例如，P1[3，m])，就通过比较单元16用该值来进行更新。比较单元18的输出信号y3，通过该比较单元18和一取样延迟单元19，将其前面的长时间帧P2[m-1]中的输出信号y2保持当前的长时间帧P2[m]的区间，但若检测到低于输出信号y3的短时间功率(例如，P1[3，m])，就通过比较单元18用该值来进行更新。

图6对应于实施例1的图4，是表示图5的噪声电平推定处理的流程图。

在图6的噪声电平推定处理中，在图4的步骤S6和S7之间，新追加了步骤S20。在该步骤S20中，由本实施例2的比较单元18，在短时间帧更新时，对比较单元16的输出信号y2与比较单元18的输出信号y3进行比较(步骤S21)，如果输出信号y2小，则用输出信号y2来更新噪声电平推定值(y3)(步骤S22)。之后，转入实施例1的步骤S7。

(实施例2的效果)

图7是表示本实施例2中的噪声电平推定的一例的、输入声音信号x1的功率和所推定的噪声电平NL的波形图，横轴表示时间，纵轴表示电平。

根据本实施例2，基于把某长时间帧P2[m]中的最小的短时间功率推定为背景噪声电平这一想法，在检测到低于当前的背景噪声的推测电平的短时间功率的时间点(例如，P1[3，m])，把该检测结果作为背景噪声的推测电平加以反映，由此就能够期待噪声电平推定的跟踪性比实施例1还要改善之效果。

在图7所示的噪声电平推定的一例中，在图的中央附近使背景噪声实际增加。由此可知如果适用本实施例2，则即使背景噪声在声音信号x1的输入过程中如此变动也能够正确地进行跟踪，从而能够高精度地推定背景噪声的电平NL。

此外，本发明并不限于上述实施例1、2，例如，可以变更图4、图6的噪声电平推定处理的步骤S1～S10、S20的内容，或者与之相应地变更图1的噪声电平推定装置的结构等，进行各种各样的变更。

Claims

1.一种噪声电平推定方法，其特征在于：

使用短时间帧和由该短时间帧的多个集合构成的长时间帧，

对每个上述短时间帧分别计算输入声音信号的短时间功率，

在上述长时间帧中计算上述计算出的多个短时间功率之中的最小的短时间功率，

把上述计算出的最小的短时间功率推定为对于上述输入声音信号的噪声电平。

2.按照权利要求1所述的噪声电平推定方法，其特征在于：

若检测出比上述被推定的噪声电平小的上述输入声音信号的电平的短时间功率，就用该检测出的短时间功率来更新上述噪声的推定电平。

3.一种噪声电平推定装置，其特征在于，具有：

第一计算单元，使用短时间帧和由该短时间帧的多个集合构成的长时间帧之中的该短时间帧，对每个上述短时间帧分别计算输入声音信号的短时间功率；

第二计算单元，在上述长时间帧中计算上述计算出的多个短时间功率之中的最小的短时间功率；以及

输出单元，把上述计算出的最小的短时间功率推定为对于上述输入声音信号的噪声电平。

4.按照权利要求3所述的噪声电平推定装置，其特征在于：

在上述输出单元中，若检测比上述被推定的噪声电平小的上述输入声音信号的电平的短时间功率，就用该检测出的短时间功率来更新上述噪声的推定电平。