CN1131472A

CN1131472A - 语音检测装置

Info

Publication number: CN1131472A
Application number: CN94193436A
Authority: CN
Inventors: B·K·莱维斯
Original assignee: Language technology laboratory; Matsushita Electric Industrial Co Ltd
Current assignee: Language technology laboratory; Panasonic Holdings Corp
Priority date: 1994-07-18
Filing date: 1994-07-18
Publication date: 1996-09-18
Anticipated expiration: 2014-07-18
Also published as: CN1064159C

Abstract

本发明涉及一种根据输入信号内有限频带能量平滑值的方差和有限频带能量平滑值的先前历程确定信号内语音的开始和结束点的装置。利用这种方差可以在信号信噪比较高的情况下进行检测，并且在音乐、马达声、背景噪声等一系列场合下精确检测出语音。采用现成的硬件连同高速专用数字信号处理器集成电路可以很容易地实现这种装置。

Description

语音检测装置

技术领域

本发明一般涉及检测输入音频信号中语音段的开始和结束之处的装置，在输入音频信号中还夹杂着非语音噪声或背景噪声。背景技术

对于许多装置来说，语音的实时检测是必备的功能部件，这些装置不胜枚举，其中包括声音启动的磁带录音机、应答机器、自动语音识别机和用于从音乐中去除话音的处理器等等。在许多这样的应用场合下，噪声与语音密不可分地混合在一起。语音的检测需要更为高级的语音检测能力，简单的检测能级何时高于或低于预先设定阈值的常规装置提供的检测能力是不够的。

在自动语音识别领域，语音检测部件是极为关键的。在实际应用中，语音检测带来的错误要比谱型匹配带来的错误多，后者通常用来确定语音信号的内容。解决这个问题的一个途径是利用单词捕捉技术(word spotting technique)，在该技术中识别器一直监听着特定的单词。但是如果语音检测没有预先进行单词捕捉，则可能会引起较高的整体错误率。

许多语音检测装置都基于输入信号的某个参数，例如能量、音调和零交汇点(zero crossing)。语音检测器的性能很大程度上取决于那个参数对于背景噪声的强壮度(robustness)。对于实时语音检测，必须能较快地从信号中提取那个参数。发明内容

本发明的其中一个目标是提供一种能够以同步于信号输入的速度(即实时)工作的语音检测装置。

本发明的另一个目标是提供一种可以用普通的数字信号处理电路板来实现的语音检测装置。

本发明的另一个目标是提供一种对于夹杂有各种噪声的语音仍然有效的语音检测装置。

本发明的另一个目标是提供一种用于各种场合的语音检测装置，这些应用场合不胜枚举，其中包括孤立单词自动语音识别机、连续语音识别机(用来检测语句中词组之间的停顿)、声控磁带录音机、应答机器和对混录有背景噪声或音乐的话音进行处理的处理器。

通过提供一种检测输入信号中语音的装置达到了本发明的上述这些和其它目标，该装置包括：确定信号内有限频带能量平滑值(smoothed frequency band limited energy)的装置；确定信号内有限频带能量平滑值方差的装置；根据信号内有限频带能量平滑值的方差和有限频带能量的先前历程确定信号内语音的开始和结束点的装置。

本发明利用有限频带能量平滑值的方差和有限频带能量的先前历程来检测信号内语音的开始和结束点。采用有限频带能量平滑值的方差是基于下述的观察，即对于复杂背景下的前台语音(诸如音乐背景烘托下歌唱家的声音)，其能级在波动幅度相对较低的“噪声平台(noise floor)”上产生显著的波动。即使在背景噪声能级较高的情况，方法仍然有效。方差量化了能量的波动。

按照较佳实施例，装置利用汉明窗和傅利叶变换计算有限频带能量平滑值。方差作为时间的函数从移位寄存器内存储的有限频带能量平滑值计算出来。为了确定语音的开始和结束点，装置将有限频带能量平滑值与预先设定的能量阈值进行比较，将作为时间函数的方差与两个预先确定的阈值(上阈值和下阈值)进行比较，如果有限频带能量平滑值超过能量阈值，装置则初步确定语音已经开始。

但是，如果在经过一段规定的时间后方差值未能上升超过上阈值水平，则取消对语音开始的初步确认。从有限频带能量平滑值超过能量阈值到方差值超过上阈值的这一段时间内，装置将信号表征为处于开始(B)语音状态。一旦方差值超过上阈值水平，装置就将信号表征为处于语音(S)状态。最后，当方差值低于下阈值水平时确定为语音结束之处。

另一种办法是将有限频带能量的最近历程以及作为时间函数的方差输入精心设计的神经网络，神经网络的单值二进制输出确定语音是否继续下去。

采用比较方差上下阈值的方法，最大程度地减少了语音检测中的错误率。利用有限频带能级来初步确定语音开始点，最大程度地缩短了语音实际开始与语音检测装置作出反应之间的延时。通过利用神经网络来确定语音的存在，该装置可以检测出多种噪声中的语音。

比较好的是，装置以集成电路硬件的形式实现，以致于可以实时处理输入信号根据有限频带能量的方差和有限频带能量的先前历程实时确定语音的开始和结束之处。附图的简要说明

从以下结合附图的详细描述将显而易见本发明的精确特性及其目标和优点，这里附图中相同的参数字表示相同的部分，其中：

图1提供了采用按照本发明较佳实施例的语音检测装置的自动语音识别机的框图；

图2为图1的语音检测装置的框图；

图3提供的是流程图，它表示了在图1的语音检测装置中用于确定有限频带能量方差的方法；

图4为图2的语音检测装置的状态转换示意图；

图5为输入信号的例子；以及

图6为第二实施例中图2判断单元的框图，图示了如何利用神经网络来确定语音的开始和结束点。

发明的最佳实施方式

以下的描述使得本领域内的技术人员能够实施和利用发明人经过深思熟虑作出的此发明及其最佳实施例。由于这里已经给出了本发明的基本原理，特别是提供了根据输入信号的有限频带能量的方差来检测语音的开始和结束点的语音检测装置，所以本领域内的技术人员很容易在此基础上对本发明作出各种修改。

图1示出了采用本发明的孤立单词自动语音识别系统的预处理器。来自话筒的模拟输入101经过电压放大并由模拟—数字转换器102以采样频率的速率(典型的为每秒1000次采样)转换成数字信号。最终的数字信号103被保存在存储器区域104内，该区域可以存储长达6.5536秒的语音(超过了一个单词发音的周期)。如果超出了104的容量，则删除旧的数据而保存新的数据。因此，104包含的是最近6.5536秒的输入数据。数字信号103还用作语音检测装置105的输入。输出判断信号106触发门电路107，使由105确定为包含语音的存储器104的一部分内容通向输出108。对于不同的应用场合，可以修改缓冲器104的长度，并且在例如应答机之类的应用中，可以省却缓冲器104而由信号106直接控制磁带驱动装置。此外，缓冲器104还可以仅仅是延迟几个毫秒的延时线路。

图2详细示出了语音检测装置105。图1中的数字输入信号103在图2中表示为输入信号201。信号201进入能保持nf个连续输入样本(例如256个)的延时线路。当信号填满时，频带限制器203开始处理信号。当已经接收了nf/2个(例如128)新的输入样本数据201时，延时线路202将128个样本右移，从而删除了128个保持时间最长的旧样本，并且还将128个新样本填入左半部分。这样，移位寄存器202总是包含256个连续输入的样本并覆盖50％的先前内容。准备128个新样本的时间单位是帧，一帧可以是例如0.0128秒。

有限频带能量在203中计算。在将延时线路的元素乘以汉明窗之后，傅利叶变换205提取出202内容中的频谱。介于250—3500赫兹之间(该频带包含了最重要的语音信息)的频谱成份由206转换为分贝单位，并在207内求和，从而产生有限频带能量，如图2中信号251所示。

另外，除了将频谱转换器部分相加以外，还可以采用其它的方法计算有限频带的能量。例如，输入信号可以通过卷积或递归滤波器进行数字滤波，并且可以用下述方法测量其能量。这样可以替代图2中的202和203的全部。

频带限制也可以借助直接从模拟滤波器获得的能量在模拟域上完成或通过下述方法完成。模拟带宽限制器可以由带通滤波器、低通滤波器或其它频谱整形滤波器组成，或者可以利用放大器或话筒自身的频率限制特性实现，或者可以采用抗混滤波器的形式。能量可以直接取自滤波器或者采用下节所述方法获得。以下将通过这些不同技术获得的信号称之为有限频带信号。

下面将一般随有限频带信号的能量单调变化的量值称为有限频带能量。与图2所述方法不同，有限频带能量也可以由下列方法计算：(a)计算一个短暂时间间隔内有限频带信号的方差；(b)对一个短暂时间间隔内有限频带信号的绝对值、幅值、修正值或其它功率的平方求和；或(c)确定一个短暂时间间隔内有限频带信号的峰值、幅值、修正值或其它功率的平方的峰值。

现回到本发明的较佳实施例，有限频带能量由平滑模块220进行平滑。有限频带能量首先进入延时线路259。在每一帧内，本例中是12.8毫秒之内，延时线路接收一个新样本并右移一个余下的样本。本例中延时线路的长度为10帧，等于0.128秒。缩短延时线路会减少语音检测装置的响应时间；时间长度的增加则使得装置抵御脉冲噪声的能力加强。

平滑计算单位250计算出延时线路259内容的平均值，该数值就是有限频带能量平滑值208。

另外，也可以通过计算延时线路259中数值的中间值或通过计算具有平滑功能或抑制延时线路259内容的短暂脉冲变化的函数来完成平滑计算250。在简并的情况下，延时线路259的长度可以为1，信号251可以直接通向输出208，从而使得有限频带能量平滑值208与有限频带能量251一致。

有限频带能量平滑值进入了延时线路209。由于平滑计算250具有去除延时线路259内容的快速变化的效果，所以用于方差计算的延时线路209能以低于每帧一次的速率接收新的数值。它在新的数值到达时右移一位原来的数值。延时线路长度的增加可以延长语音结束之前发音期间内的停顿；延时线路长度的减少则加快了语音检测器对语音结束的响应时间。延时线路209的长度为nv，本例中是40，相应于0.51秒的停顿：

方差计算单元210计算了延时线路209中数值的方差。有限频带能量平滑值的方差V为：

V＝g(A，B)这里

g (A, B) = \frac{A}{nr} - \frac{B \times B}{nV \times nr}

而

A = Σ_{f = 1}^{f = nv} (BLE (f) \times BLE (f))

B = Σ_{f = 1}^{f = nv} BLE (f)

V是方差计算210的输出211；BLE(f)是位于f＝nv，…，3，2，1处的延时线路209的内容；BLE(1)是保留时间最长的数值，而BLE是有限频带能量平滑值；方差211和有限频带能量平滑值208驱动判断单元212，其操作示于图4和图5中。

图3示出了计算方差V的最快方式，这里省却了方差计算210和延时线路209。这种较快的技术不是每次重新计算量值A和B，而是将其按上式更新：

A’＝A＋[BLE(nv)×BLE(nv)]－[BLE(0)×BLE(0)]

B’＝B＋BLE(nv)－BLE(0)这里A’为A的更新值，用302表示，B’是B的更新值，用303表示，并且BLE(nv)是来自图2的208的最新有限频带能量平滑值301，而BLE(0)是保留时间最长的有限频带能量平滑值304。

BLE的平方在延时线路305中延迟。可以省却延时线路而直接对来自304的数值作平方运算。延时线路305和306应该初始化为零。而且应注意，延时线路306和305的长度比图2的延时线路209长1个单位。

图6表示采用神经网络的判断单元(图2中的212)的框图。取前1.28秒语音期间内的有限频带能量的一些样本和频带能量平滑值的方差作为神经网络620的输入。延时线路603存储过去1秒的有限频带能量602，而寄存器604存储有限频带能量的方差601。神经网络的输出621为一个二进制判断值，确定了当前帧是否包含语音。这对应于图2的214。

另外，判断单元可以采用阈值计算法。图4表示利用方差(图2中的211)和能量(图2中的213)来检测语音存在的判断单元的状态转换示意图。图5表示语音信号的有限频带能量平滑值SBLE有限频带能量平滑值的方差VSBLE和相应的状态的例子，以利于理解状态状态转换示意图。每一帧内，这里是0.0128秒内，状态转换示意图中的状态发生一次转换(transition)。

状态转换示意图中的状态开始处于N—或噪声—状态(502)。只要SBLE小于能量阈值510，就取402转换，并留在状态N上。当SBLE超出能量阈值510时，取403转换并进入状态B(初步确定的语音开始503)。因此该能量用来快速触发装置。当进入状态B时，装置确定语音在前几个毫秒之处已经开始。这段时间z一般等于延时线路259的长度。

状态B要保留一段预先设定的时间即取转换404。如果时间太短，则估计的开始点将过份推后，语音头将被截去；当这段时间较长时，虽然没有不精确，但延缓了语音检测器响应语音开始的时间；如果这段时间长于延时线路209的长度，那么装置将完全丢失语音。在本例中，这段时间为175毫秒。在这段时间的结束点，检测VSBLE以检查其是否超过方差上阈值506并离开状态B。如果VSBLE低于方差上阈值，则取转换406并放弃初步确定的开始点，而装置返回N状态。如果SBLE高于方差上阈值，则取转换405，装置进入S状态504，这意味着语音已经确认并正在输入装置。

只要VSBLE保持在方差下阈值501之上，就维持转换407并留在状态S。当VSBLE跌落到方差下阈值之下，转换408使得装置进入E状态，表示已经检测到语音结束。语音结束点确定为在进入E状态之前SBLE最后一次低于能量阈值的地方。在下一帧处，装置又返回N状态。

如果图1门电路107后面的装置是自动语音识别机，则通过图2线路214上的当前状态连接到图1的106上，从而控制门电路107，就可以实时处理输入的语音。延时仅仅来自语音检测器确定语音开始点所用的时间。如果语音可以在状态B下传送到自动语音识别机，即如果门电路或识别机能够在406转换时取消输入的语音，那么自动语音识别机就可以在一个等于延时线路259长度的延迟时间后立即开始处理语音。

上面描述了用于检测输入信号中是否存在语音的装置。该装置根据信号内的有限频带能量平滑值的方差计算语音的开始和结束之处。通过利用有限频带能量平滑值的方差，有效而实时地检测出了语音的存在。该装置特别适合用于检测包含语音的录音段，从而提取和进一步处理录音段。

在不偏离本发明的范围和精神的前提下，本领域的技术人员可以很容易地对上述较佳实施例作出各种更改和改进。因此本发明由后面所附权利要求所限定而不拘泥于上述具体的描述。

Claims

1.一种用于检测输入信号中语音的装置，其特征在于包含：

用于确定信号内有限频带能量平滑值(smoothed frequencyband limited energy)的装置；

用于确定信号内所述有限频带能量平滑值的方差的装置；以及

用于根据信号内所述有限频带能量平滑值方差和所述有限频带能量平滑值的先前历程确定信号内语音的开始和结束点的装置。

2.如权利要求1所述的装置，其特征在于，所述用于确定信号内有限频带能量平滑值的装置包含：

用于确定与信号相关的频率的装置；

用于选取信号中频率在预定范围内的部分的装置；

用于确定所选取信号部分内总能量值的装置，所述总能量值为频带能量；以及

用于平滑所述有限频带能量的装置，所得数值为有限频带能量平滑值。

3.如权利要求1所述的装置，其特征在于，所述用于确定信号内有限频带能量平滑值数值的装置包含：

将汉明窗滤波器应用于部分信号以产生滤波信号的装置；

将傅利叶变换应用于所述滤波信号以产生变换后信号的装置；

用于对所述变换后信号求和以产生该信号部分总能量值的装置，该信号能量值为有限频带能量；以及

将滤波器应用于所述有限频带能量的装置，所得结果为所述有限频带能量平滑值。

4.如权利要求1所述的装置，其特征在于包含：

接收语音信号的装置；

存储一个连续m秒间隔内的信号部分的装置；以及

当接收到新的信号时更新所存储信号部分的装置。

5.如权利要求4所述的装置，其特征在于m介于0与10秒之间。

6.如权利要求4所述的装置，其特征在于所述存储信号部分的装置包含移位寄存器。

7.如权利要求1所述的装置，其特征在于，所述确定有限频带能量平滑值方差的装置包含：

存储多个有限频带能量平滑值数值的装置，该数值作为时间的函数被存储；

计算方差V的装置，V由V＝g(A，B)给出；这里

BLE(f)表示多个有限频带能量平滑值，nv是数值的编号，f＝nv，...，3，2，1；

而BLE(1)为保留时间最长的BLE数值。

8.如权利要求7所述的装置，其特征在于，所述确定有限频带能量方差值的装置包含：

当接收到新的BLE(nv)数值时计算V＝g(A’，B’)的装置，这里

A’＝A＋[BLE(nv)×BLE(nv)]－[BLE(0)×BLE(0)]；

B’＝B＋BLE(nv)－BLE(0)；

A’为A的更新值，B’为B的更新值，以及

BLE(nv)为最新的BLE数值，而BLE(1)为保留时间最长的BLE数值。

9.如权利要求1所述的装置，其特征在于，所述根据有限频带能量平滑值的方差确定语音信号内语音开始和结束之处的装置包含：

当所述有限频带能量平滑值超过预先设定的能量阈值时确定语音开始(B)的装置；以及

当所述有限频带能量平滑值的方差低于预先确定的方差下阈值时确定语音结束(E)的装置。

10.如权利要求9所述的装置，其特征在于，所述能量阈值和方差下阈值都是预先确定的，并且语音信号的开始(B)之处确定为有限频带能量平滑值首次超过能量阈值水平前的z秒。

11.如权利要求10所述的装置，其特征在于z介于0与100秒之间。

12.如权利要求9所述的装置，其特征在于，所述上阈值和下阈值都是预先确定的，并且语音信号的结束(E)点确定为有限频带能量平滑值的方差低于方差下阈值之前的z秒。

13.如权利要求12所述的装置，其特征在于z介于0与100秒之间。

14.如权利要求9所述的装置，其特征在于，语音信号的结束(E)之处确定为在有限频带能量平滑值的方差低于方差下阈值之前的最后一次有限频带能量平滑值低于能量阈值的地方。

15.如权利要求1所述的装置，其特征在于，所述根据有限频带能量平滑值的方差和有限频带能量平滑值的先前历程确定语音信号内语音开始和结束点的装置包含精心设计的神经网络。

16.如权利要求1所述的装置，其特征在于，如果在有限频带能量平滑值超过能量阈值之后的t秒内，有限频带能量平滑值的方差没有超出方差上阈值，则放弃语音的开始点。

17.如权利要求16所述的装置，其特征在于t介于0与100秒之间。

18.识别输入信号内语音的装置，其特征在于包含接收语音信号的装置、确定信号内语音开始和结束之处的装置以及确定信号内语音开始与结束之间语音内容的装置，确定语音开始和结束点的装置经过改进后包含：

用于确定输入信号内有限频带能量平滑值数值的装置；

用于确定所述有限频带能量平滑值的方差的装置；以及

用于根据所述有限频带能量平滑值的方差和所述有限频带能量平滑值的先前历程确定语音信号内语音的开始和结束点的装置。

19.一种检测输入信号x(t)内语音的装置，其特征在于包含：

用于确定所述输入信号内有限频带能量平滑值的方差的装置；以及

用于根据所述有限频带能量平滑值的方差和有限频带能量平滑值先前历程确定信号内语音的开始和结束点的语音间隔确定装置。

20.如权利要求19所述的装置，其特征在于所述有限频带的能量平滑值来自经过傅利叶变换的输入信号。

21.如权利要求19所述的装置，其特征在于，所述的方差由一段间隔为m秒的连续时间内的有限频带能量平滑值确定。

22.如权利要求21所述的装置，其特征在于m介于0与10秒之间。

23.如权利要求1所述的装置，其特征在于，通过保持m秒内有限频带能量平滑值之和与所述m秒内有限频带能量平滑值的平方之和确定有限频带能量平滑值的方差，为了确定新的方差，通过加上最新的有限频带能量平滑值的平方并减去m秒之前的有限频带能量平滑值的平方更新有限频带能量平滑值的平方和，通过加上最新的有限频带能量平滑值并减去m秒之前的有限频带能量平滑值更新有限频带能量平滑值。

24.如权利要求1所述的装置包含一个信号记录仪，其特征在于，所述信号记录装置包含：

接收信号的装置；

存储最近m秒信号的装置；以及

选取对应于由权利要求1所述的装置确定的开始和结束点的存储信号部分的装置。

25.如权利要求1所述的装置包含信号记录装置，其特征在于所述信号记录装置包含：

接收信号的装置；

存储最近m秒信号的装置；以及

在接收信号的同时选取z秒前信号部分的装置，其中z由权利要求1的装置确定。

26.如权利要求25所述的装置，其特征在于z介于0与100秒之间。

27.如权利要求25所述的装置，其特征在于m大于或等于零秒。

28.如权利要求1所述的装置，其特征在于，所述用于确定信号内有限频带能量平滑值数值的装置包含：

计算有限频带能量的装置；以及

将平滑函数应用于有限频带能量值以产生有限频带能量平滑值的装置。

29.如权利要求28所述的装置，其特征在于，所述用于对有限频带能量值进行平滑的装置包含：

计算有限频带能量值最新中间值的装置。

30.如权利要求28所述的装置，其特征在于，所述用于对有限频带能量值进行平滑的装置包含：

计算有限频带能量值最新平均值的装置。

31.如权利要求28所述的装置，其特征在于，所述用于对有限频带能量值进行平滑的装置包含：

采用抑制有限频带能量值快速变化的滤波器的装置。