CN1805008B

CN1805008B - 语音检测装置、自动图像拾取装置和语音检测方法

Info

Publication number: CN1805008B
Application number: CN2006100036723A
Authority: CN
Inventors: 樱庭洋平
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2005-01-11
Filing date: 2006-01-11
Publication date: 2010-11-24
Anticipated expiration: 2026-01-11
Also published as: CN1805008A; US20060195316A1; JP4729927B2; JP2006194959A

Abstract

一种语音检测装置，包括：第一确定单元，被配置成如果从输入语音信号检测到具有谐波结构的信号分量，则确定人的语音已被输入；第二确定单元，被配置成如果输入语音信号的频率重心在预定频率范围以内，则确定人的语音已被输入；噪声级存储单元，被配置成存储噪声级；第三确定单元，被配置成如果输入语音信号的功率与存储在噪声级存储单元中的噪声级的比大于预定阈值，则确定人的语音已被输入；最终确定单元，被配置成根据第一至第三确定单元的确定结果最终确定是否人的语音已被输入；噪声级更新单元，被配置成如果最终确定单元确定人的语音未被输入，则通过使用当前输入语音信号的功率更新存储在噪声级存储单元中的噪声级。

Description

语音检测装置、自动图像拾取装置和语音检测方法

相关申请的交叉参考

本发明包含这样一种主题，该主题涉及2005年1月11日在日本专利局申请的日本专利申请JP2005-003761号，该申请的整个内容以参照的方式被包含在这里。

技术领域

本发明涉及从输入语音信号检测人的语音是否已被输入的语音检测装置和方法，以及使用语音检测装置的自动图像拾取装置。

背景技术

作为一种响应通过麦克风等输入的语音工作的系统，提出了一种在检测通过话音(speech)输入的语音时自动开始记录的语音记录器；和一种根据人的位置或产生声音的对象切换镜头或指向镜头的系统。这样一种系统特别旨在可靠地检测诸如人的语音之类的特定分量，而不是响应其它的噪声错误地工作。

检测通过话音引起的语音输入的最典型的方法是根据输入语音的功率将人的语音与噪声相区分。例如，在一种公知的方法中，噪声级的值根据输入功率值按需要被更新，使得当前噪声级被存储。然后，根据在存储噪声级和输入语音之间的S/N(信号/噪声)比确定输入语音是人的语音还是噪声。

此外，作为一种以高精确度检测语音输入的方法，使用输入语音信号和LPC(线性预测编码)的自相关值的方法已被公知。例如，美国专利第4920568号(在图2中等)公开了下列语音间隔确定方法。即，自相关系数根据输入语音的采样值被计算并且线性预测系统也被计算以获得倒谱系数。然后，输入语音的元音间隔根据倒谱系数和输入语音信号的功率值被检测。另一方面，美国专利第6031915号(在图7中等)公开了一种语音开始记录装置。在该装置中，通过使用LPC合成滤波器输入语音信号被矢量量化以提取预测波形图案。然后，预测波形图案的残留信号和预定间隔的语音信号被获得以计算在残留信号和语音信号之间的互相关。因此，语音被检测。

发明内容

然而，在根据输入语音的功率按需要更新噪声级的上述检测方法中，高功率噪声的信号被错误地确定为人的语音，此外，由于噪声级一直根据输入功率被更新，所以如果由讲话引起的语音输入持续，则噪声级与输入语音的级相同，因此该语音被错误地确定为噪声。

另一方面，在使用自相关值和LPC的检测方法中，在差的S/N比的环境下不能准确地将语音与噪声相区别。此外，如果具有谐波结构的稳定噪声被输入，则该稳定噪声被错误地确定为语音。

鉴于这些情况产生了本发明，其目的是提供一种能够在更复杂的环境下准确地检测人的语音的输入的语音的语音检测装置。

本发明的目的也是提供一种能够准确地拾取讲话者方向的图像的自动图像拾取装置。

此外，本发明的目的是提供一种能够在更复杂的环境下准确地检测人的语音的输入的语音检测方法。

根据本发明的实施例，提供了一种从输入语音信号检测人的语音是否已被输入的语音检测装置。该语音检测装置包括：第一确定单元，被配置成如果从输入语音信号检测到具有谐波结构的信号分量，则确定人的语音已被输入；第二确定单元，被配置成如果输入语音信号的频率重心在预定频率范围以内，则确定人的语音已被输入；噪声级存储单元，被配置成存储噪声级；第三确定单元，被配置成如果输入语音信号的功率与存储在噪声级存储单元中的噪声级的比大于预定阈值，则确定人的语音已被输入；最终确定单元，被配置成根据第一至第三确定单元的确定结果最终确定是否人的语音已被输入；噪声级更新单元，被配置成如果最终确定单元确定人的语音未被输入，则通过使用当前输入语音信号的功率更新存储在噪声级存储单元中的噪声级。

在该语音检测装置中，最终确定单元根据第一至第三确定单元的确定结果最终确定人的语音是否已被输入。第一确定单元通过使用人的语音具有谐波结构的特性进行确定，第二确定单元通过使用人的语音的频率重心在预定范围内的特性进行确定。第三确定单元根据输入语音信号功率的变化进行确定。如果最终确定单元最终确定人的语音未被输入，则通过使用当前输入语音信号的功率，噪声级更新单元更新用作确定参考的噪声级。因此，提高了噪声级的准确性并且也提高了第三确定单元的确定准确性。

根据本发明的另一实施例，提供了一种从输入语音信号检测人的语音是否已被输入的语音检测方法。该语音检测方法包括以下步骤：第一步骤，如果从输入语音信号检测到具有谐波结构的信号分量，则确定人的语音已被输入；第二步骤，如果输入语音信号的频率重心在预定频率范围内，则确定人的语音已被输入；第三步骤，如果输入语音信号的功率与存储在噪声级存储单元中的噪声级的比大于预定阈值，则确定人的语音已被输入；最终根据在第一至第三确定步骤中所获得的确定结果，确定人的语音是否已被输入；如果最终确定步骤确定人的语音未被输入，则通过使用当前输入语音信号的功率更新存储在噪声级存储单元中的噪声级。

在该语音检测方法中，根据在第一至第三确定步骤中所获得的确定结果，在最终确定步骤中最终确定人的语音是否已被输入。在第一确定步骤中，通过使用人的语音具有谐波结构的特性进行确定。在第二确定步骤中，通过使用人的语音的频率重心在预定范围内的特性进行确定。在第三确定步骤中，根据输入语音信号功率的变化进行确定。如果最终确定步骤最终确定人的语音未被输入，通过使用当前输入语音信号的功率，在噪声级更新步骤中更新用作确定参考的噪声级。因此，提高了噪声级的准确性并且也提高了在第三确定步骤中的确定准确性。

在根据本发明的实施例的语音检测装置中，根据通过使用具有谐波结构的人的语音的特性的第一确定单元和使用人的语音的频率重心在预定范围内的特性的第二确定单元所获得的确定结果，以及根据输入语音信号的功率通过第三确定单元所获得的确定结果，是否已输入人的语音被最终确定。按照该配置，甚至在差的S/N比的环境下也可进行准确的确定。此外，由于第三确定单元根据基于最终确定结果更新的噪声级进行确定，所以可进一步提高确定的准确性。

在根据本发明实施例的检测方法中，根据在使用具有谐波结构的人的语音特性的第一确定步骤和使用人的语音频率重心在预定范围内的特性的第二确定步骤中所获得的确定结果以及根据输入语音信号的功率在第三确定步骤中所获得的确定结果，人的语音是否输入被最终确定。利用该方法，甚至在差的S/N比的环境下也可进行准确的确定。此外，由于第三确定步骤根据基于最终确定结果更新的噪声级进行确定，所以可进一步提高确定的准确性。

附图说明

图1示出了根据本发明的一个实施例的摄像机系统的整个配置的一个示例；

图2示出了方向检测电路的内部配置的一个示例；

图3示出了语音检测电路的内部配置的一个示例；

图4示出了谐波结构检测单元的内部配置的一个示例；

图5示出了在使用谐波结构检测单元和使用公知语音检测方法情况下的检测结果的实际测量的一个示例；

图6是说明在语音检测电路中所执行的处理的流程图；

图7A示出了通过拾取男声所获得的功率谱的一个示例，图7B为说明范围达1500Hz的放大示图；

图8A示出了通过拾取风扇噪声所获得的功率谱的一个示例，图8B为说明范围达1500Hz的放大示图。

具体实施方式

下面参照附图将详细地描述本发明的实施例。本实施例是在假定本发明应用于用于视频会议等的摄像机系统的情况下进行描述的。

图1示出了根据本实施例的摄像机系统的整个配置的一个示例。

图1中所示的摄像机系统为根据从麦克风1a和1b输入的立体声语音信号检测语音产生方向和自动将摄像机(camera)2指向产生语音的人的系统。该摄像机系统包括麦克风1a和1b、摄像机2、输入语音信号的A/D转换电路3、语音检测电路4、方向检测电路5、方向检测上(upper)模块6和摄像机2的驱动机构7。

例如，A/D转换电路3以16kHz的采样频率将从麦克风1a和1b输入的左右语音信号转换成数字信号并将该数字信号输出到语音检测电路4和方向检测电路5。

根据来自A/D转换电路3的语音信号，语音检测电路4确定该输入语音是否为人的语音或噪声，然后，将语音标记F1作为确定结果输出到方向检测上模块6。如果输入语音被确定为人的语音，则语音标记F1被设置为H级(level)。方向检测电路5根据来自A/D转换电路3的立体声语音信号检测语音产生的方向并将语音检测信息作为检测结果输出到方向检测上模块6。

方向检测上模块6根据来自语音检测电路4的语音标记F1和来自方向检测电路5的语音方向信息指定语音产生的方向，然后将摄像机驱动命令输出到确定机构7。更具体地说，如果语音标记F1指示H级仅预定时间段(例如300毫秒)并且如果语音方向信息不在该时间段期间变化，则方向检测上模块6确定该方向(角度)为语音产生的方向并根据该方向输出摄像机驱动命令。驱动机构7包括旋转摄像机2的电机机构和驱动电路，并旋转摄像机2使得摄像机2能够响应摄像机驱动命令拾取该方向的图像。

图2示出了方向检测电路5的内部配置的一个示例。

如图2中所示，方向检测电路5包括FFT(快速傅立叶变换)电路51和52、相位差计算单元53和方向确定单元54。通过使用FFT运算，FFT电路51和52对来自A/D转换电路3的左右输入语音信号执行频率分析并输出功率谱。相位差计算单元53根据左右功率谱计算每一频带的相位差。方向确定单元54将计算的每一频带的相位差变换为角信息以获得该角的直方图，根据直方图确定语音产生的方向，然后输出语音方向信息。

按照上述配置，仅当来自麦克风1a和1b的输入语音为人的语音时，摄像机2才被指向声源，使得讲话者(speaker)的图像可被自动拾取。

下面，将详细地描述检测人的语音的过程。

图3示出了语音检测电路4的内部配置的一个示例。

如图3中所示，语音检测电路4包括FFT电路41、谐波结构(structure)检测单元42、频率重心(CG，center-of-gravity)计算单元43、S/N比检测单元44、语音确定单元45、散布计算(dispersion)单元46和噪声级(level)更新单元47。各块通过CPU(中央处理单元)的软件处理等被实现，但块的一部分或所有块可通过硬件被实现。此外，语音检测电路4包括诸如RAM(随机存取存储器)之类的存储器(未示出)，其存储噪声级Pns和频率CG历史46a。

FFT电路41将来自A/D转换电路3的立体声语音信号变换为单声道信号，然后通过每16毫秒的FFT运算执行频率分析，以输出功率谱。

谐波结构检测单元42计算谐波分量功率对输入语音功率的比。人的语音(特别是元音分量)具有谐波结构。因此，如果谐波分量功率的比高于预定值，则输入语音被确定为人的语音并且确定标记F11被设置为H级。

频率CG计算单元43计算输入语音的频率CG并确定CG是否匹配人的语音的频率CG。与诸如白噪声之类的平稳噪声相比人的语音包括更多低频分量。因此，如果输入语音的频率CG在对应于人的语音的预定范围内，则输入语音被确定为人的语音并且确定标记F12被设置为H级。

S/N比检测单元44将基于来自FFT电路41的功率谱的输入语音的功率值与存储在存储器中的噪声级Pns相比。如果其之间的差等于或大于预定值，则S/N比检测单元44确定输入语音为人的语音并且将确定标记F13设置为H级。

语音确定单元45为最终确定输入语音的块。具体地说，语音确定单元45接收输入的确定标记F11-F13，如果所有的标记均表示H级，则确定输入语音为人的语音，将语音标记F1设置为H级，并且将更新标记F21设置为L级。当确定输入语音为噪声时，语音确定单元45将语音标记F1设置为L级，并将更新标记F21设置为H级。

在过去预定的时间段(例如100毫秒至200毫秒)期间，散布计算单元46一直保持由频率CG计算单元43所计算的频率CG检测值的历史(频率CG历史46a)。此外，当获得由频率CG计算单元43所计算的频率CG的检测值时，散布计算单元46根据检测值和过去预定时间段的频率CG历史46a计算该时间段的频率CG的散布。如果散布值等于或小于预定值，则散布计算单元46确定输入语音为噪声并将更新标记F22设置为L级。

通过使用基于来自FFT电路41的功率谱的输入语音的功率值，噪声级更新单元47更新存储在存储器中的噪声级Pns。当来自语音确定单元45和散布计算单元46的更新标记F21和F22均被设置为H级时，噪声级更新单元47更新噪声级Pns。

在语音检测电路4中，通过使用基于输入语音功率的语音检测方法、使用根据需要更新的噪声级Pns和使用根据除输入语音功率以外的值的检测特征量(即基于通过检测谐波结构和计算频率CG所获得的频率分析结果的特征量)的方法，提高了语音检测的准确性。在基于输入语音规律的语音检测中，如果根据使用上述方法的最终确定结果，输入语音被确定为噪声，则噪声级Pns被更新，因此噪声级Pns的准确性被增强。此外，通过根据在预定时间段内的频率CG的散布确定噪声级Pns是否可被更新，噪声级Pns的准确性可被进一步增强。

下面将详细地描述用于本实施例的每一检测功能。

<1>谐波结构的检测

图4示出了谐波结构检测单元42的内部配置的一个示例。

如图4中所示，谐波结构检测单元42包括多个具有不同基频的梳状滤波器421-1至421-31、功率值选择单元422和功率值比较单元423。

梳状滤波器421-1至421-31为接收来自FFT电路41的功率谱和通过人的语音频带内的预定基频(在这种情况下为100Hz至300Hz)的信号分量和其谐波分量的滤波器。在本示例中，以上述频带内其基频彼此差10Hz的31个梳状滤波器421-1至421-31被设置。

功率值选择单元422从来自梳状滤波器421-1至421-31的输出信号的功率值中选择最大值。功率值比较单元423根据来自FFT电路41的功率谱计算在所选择的最大功率值和输入语音的功率值之间的比(最大功率值/输入功率值)。如果该比大于预定阈值，则功率值比较单元403将确定标记F11设置为H级。如果该比等于或小于阈值，则确定标记F11被设置为L级。

在该谐波结构检测单元42中，如果具有谐波结构的语音(像人的语音的元音)被输入，则梳状滤波器421-1至421-31的输出值中至少一个较大。相反，如果不具有谐波结构的语音(如空调的噪音)被输入，则每一滤波器的输出值相对较小。因此，当滤波器输出的最大功率值与输入功率值的比高于阈值时，则可以较高概率确定输入语音为人的语音并且确定标记被设置为H级。用这种方法，通过使用特定频带的信号分量是否具有谐波结构的标准，与根据输入语音的功率检测人的语音的方法相比，可以较高准确性检测出人的语音。

图5示出了在谐波结构检测单元42被使用情况下和公知的语音检测方法被使用情况下的所获得的检测结果的实际测量的一个示例。

在图5中，房间的男声、女声、白噪声和平稳噪声作为输入语音被应用。在这种情况下，准确地将人的语音与噪声相区别的概率Ra、Rb、Rc和Rd的平均值被示出。此外，使用输入语音的自相关的情况和使用LPC的情况作为公知的方法被示出。如图5中所示，与分别使用自相关和LPC的公知方法相比，通过使用具有梳状滤波器的本实施例的谐波结构检测单元42，可以较高的概率将人的语音与噪声区别。

<2>频率CG的计算

频率CG计算单元43接收来自FFT电路41的功率谱的输入并使用下列方程式(1)计算频率CG“c”。注意，频率“f”的信号分量的功率用“p(f)”表示。

[方程式1]

c = \frac{\underset{j}{Σ} p (f) \times f}{\underset{j}{Σ} p (f)} . . . . . . (1)

在方程式(1)中，如果其中相对较低频率信号分量的功率较大的语音被输入，则频率CG“c”变低。如果其中高频信号分量的功率较大的语音被输入，则频率CG“c”变高。人的语音(元音)的频率CG“c”的值约为300Hz至1200Hz，而风扇、空调等的噪声的值通常为2000Hz或更高，诸如翻报纸声或鼓掌声之类的包括许多相对较高频率分量的噪声的值为3000Hz或更高。

因此，当所计算的频率CG“c”在300Hz至1200Hz范围内时，频率CG计算单元43可以较高概率确定输入语音为人的语音并将确定标记F12设置为H级。因此，与根据输入语音的功率检测人的语音的方法相比，可更准确地将上述的每一种噪声与人的语音相区别。

<3>S/N比的检测和噪声级的更新

当参照存储在存储器中的噪声级Pns的值检测相对较大的输入语音时，S/N比检测单元44检测输入的语音。更具体地说，S/N比检测单元44根据来自FFT电路41的功率谱计算输入语音的功率值Pin以获得S/N比，即功率值Pin和存储器中的噪声级Pns之间的比(Pin/Pns)。如果S/N比高于预定阈值，则S/N比检测单元44将确定标记F13设置为H级。

噪声级更新单元47将噪音级Pns按需要更新。通过使用基于功率谱和系数α(0＜α＜1)的输入语音的功率值Pin和使用方程式：(1-α)×(当前噪声级Pns)+α×(输入语音的功率值Pin)，噪声级更新单元47计算新的噪声级Pns，然后覆写存储器。

如果按照公知的技术噪声级Pns以预定的间隔不断地被更新并且如果人的语音或大于平稳噪声的噪声被输入，则噪声级的值变得特别大，并且检测的准确性被降低。另一方面，在本实施例中，仅当根据由语音确定单元45和散布计算单元46所产生的确定结果，输入语音被确定为噪声时噪声级Pns才被更新。因此，噪声级Pns的准确性被提高，因此在S/N比检测单元44中的检测准确性被提高。

在语音检测刚开始的预定时间段期间，S/N比检测单元44错误地确定输入语音为噪声，而与输入语音的类型无关。然而，在在预定时间段过去之后，噪声级Pns收敛(converge)到平稳噪声级并且S/N比检测单元44的检测准确性变得较高。在本实施例中，仅当噪声确定单元45和散布计算单元46确定输入语音为噪声时，噪声级Pns才被更新，因此，可缩短噪声级Pns收敛所需的时间。

<4>频率CG的散布

一些平稳噪声具有近似人的语音的频带并且也具有谐波结构。因此，当这样的噪声被输入时，即使由谐波结构检测单元42和频率CG计算单元43进行确定，也可错误地将噪声确定为人的语音。散布计算单元46被设置以防止这样的错误的确定。

在典型的人的语音中，许多种的元音和辅音相继出现，使得其频率CG在短时间内变化较大。另一方面，在平稳噪声中，较大功率频带的功率的变化较小，因此频率CG的变化也较小。根据这一原理，通过计算在过去预定时间段(例如100毫秒至200毫秒)期间的频率CG的散布，输入语音可被确定。即当散布相对较小时，输入语音很有可能为平稳噪声。

每次从频率CG计算单元43接收频率CG值，散布计算单元46均更新预定时间段的频率CG历史46a并计算频率CG历史46a的散布值。如果散布值等于或小于预定阈值(例如50Hz)，则散布计算单元46确定输入语音为噪声并且将更新标记F22设置为H级。因此，具有谐波结构的平稳噪声可被准确地确定并且该确定可被反映到S/N比检测单元44中的检测结果上。

现在描述使用上述检测功能的检测语音的整个过程。

图6是说明在语音检测电路4中所执行的处理的流程图。

语音检测电路4以预定间隔(在本实施例中为16毫秒)执行该处理。首先，FFT电路41执行输入信号的频率分析并输出功率谱(步骤S101)。然后，谐波结构检测单元42、频率CG计算单元43和S/N比检测单元44接收功率谱，执行上述检测/计算并根据所产生的结果更新确定标记F11-F13(步骤S102)。此外，散布计算单元46获得由频率CG计算单元43所计算的频率CG值并更新频率CG历史46a。然后，散布计算单元46计算散布值并根据计算结果更新标记F22(步骤S103)。

然后，语音确定单元45根据确定标记F11-F13进行确定(步骤S104)。如果所有的标记均表示H级，则语音确定单元45确定输入语音为人的语音并将语音标记F1设置为H级以及将标记F21更新为L级(步骤S105)。然后，噪声级更新单元47参考更新标记F21和F22(步骤S106)。如果两个标记F21和F22均表示L级，则噪声级更新单元47不更新噪声级Pns并且等待。如果更新标记F22被设置为H级，则噪声级更新单元47更新噪声级Pns的值(步骤S108)。

另一方面，如果确定标记F11-F13中的任何一个表示L级，则语音确定单元45确定输入语音不是人的语音而是噪声，并且将语音标记F1设置为L级以及将标记F21更新为H级(步骤S107)。然后，噪声级更新单元47检测更新标记F21被设置为H级的值并更新噪声级Pns的值(步骤S108)。

在上述处理中，如果所有的确定标记F11-F13均被设置为H级，则语音确定单元45最终确定输入语音为人的语音。如果更新标记F21和F22的其中任何一个被设置为H级，则噪声级Pns被噪声级更新单元47更新。

然后，语音检测电路4确定例如是否用户的输入操作请求结束语音检测处理(步骤S109)。如果请求结束该处理，则该处理结束。如果没有请求结束该处理，则该处理等待结束请求(对应于步骤S109)直到上述预定时间段过去为止，然后在预定时间段过去之后，该处理返回到步骤S101(步骤S101)。因此，FFT电路41再次执行频率分析。

如上所述，在本实施例中，一起使用了(1)通过S/N比检测单元44实现的基于输入语音功率的语音检测方法和(2)通过谐波结构检测单元42和频率CG计算单元43实现的基于频率分析结果检测特征量(谐波结构和频率CG)的方法，并且语音确定单元45根据所有这些确定结果进行最终确定。因此，甚至在有较大噪音的环境下也可以较高的准确性检测语音。

此外，由于当语音确定单元45确定输入语音为噪声时噪声级更新单元47更新噪声级Pns，所以由于基于频率分析结果的特征量的检测所引起的检测准确性的改进效果被反馈到S/N比检测单元44的检测准确性。换句话说，噪声级Pns的准确性高于根据输入语音的功率更新噪声级Pns的准确性。因此，即使平稳噪声被输入或者即使同一个人连续地长时间讲话，S/N比检测单元也不会做出错误的判定，因此，可提高整个检测的准确性。

进一步来说，当散布计算单元46确定输入语音为噪声时噪声级更新单元47也更新噪声级Pns。因此，当具有近似于人的语音频带的频带和具有谐波结构的平稳噪声被输入时，噪声级Pns被更新。因此，S/N比检测单元44的检测准确性被进一步提高并且整个检测准确性也可被提高。即，甚至也可检测谐波结构检测单元42和频率CG计算单元43不能确定的噪声。

因此，可准确地检测出人的语音而与检测噪声的地点、周围噪声源的位置或讲话者的距离无关。此外，由于提高了噪声级Pns的准确性，所以在语音检测刚一开始的早期就可进行准确检测，这提高了可用性。

下面将描述语音检测的具体示例。在下列示例中，谐波结构检测单元42的阈值被设置为0.3，其中频率CG计算单元43确定输入语音为人的语音的频带被设置为300Hz至1200Hz、S/N比检测单元44的阈值被设置为5dB。

图7A和7B示出了当男声被拾取时所获得的功率谱的一个示例。图8A和8B示出了当电扇噪声被拾取时所获得的功率谱的一个示例。图7B和8B为分别说明图7A和8A中频谱在0Hz至1500Hz的范围的放大图。

在图7A和7B所示的示例中，在达1500Hz的频带中，电平较高。在该带宽中，基于160Hz频率的谐波分量被包括，并且在谐波结构检测单元42中对应于该基频的梳状滤波器被选择。此时，由谐波结构检测单元42的功率值比较单元423所计算的值为0.4，由频率CG计算单元43所计算的频率CG为800Hz，由S/N比检测单元44所检测的S/N比为10dB，使得确定标记F11-F13均被设置为H级。因此，输入语音被正确地确定为人的语音。

另一方面，图8A和8B示出了检测为不具有谐波结构的平稳噪声的电扇噪声的一个示例。在该示例中，通过谐波结构检测单元42的功率值比较单元423所计算的值为0.2、频率CG为3000Hz、S/N比为6dB。由于电扇噪声的功率相对较大，所以仅确定标记F13被设置为H级。在这种情况下，如果仅输入语音的功率被用于检测，则出现错误的检测。然而，在本实施例中，根据频率分析结果特征量被检测，使得输入语音被正确地确定为噪声。

下面，将描述在具有谐波结构的平稳噪声被输入情况下的检测示例。在该示例中，通过谐波结构检测单元42的功率值比较单元423所计算的值为0.3、频率CG为1000Hz，并且在刚一输入后，S/N比为5dB。因此，确定标记F11-F13均被设置为H级，因此输入语音被错误地确定为人的语音。然而，由于频率CG没有改变，所以通过散布计算单元46所计算的散布值变得较小。然后，在几百毫秒过去之后，散布值被准确地计算。因此，S/N比被减小到1dB并且确定标记F13被设置为L级，使得输入语音被准确地确定为噪声。

如上所述，根据本实施例的语音检测电路4能够准确地检测人的语音。因此，使用该语音检测电路4的摄像机系统能够自动地将摄像机2指向讲话者并能准确地拾取讲话者的图像。

该摄像机系统可被应用于视频会议系统，其能够通过交互传输/接收由摄像机产生的图像信号和通过通信线路拾取语音信号在远程进行会议。在使用根据本实施例的摄像机系统的视频会议系统中，任何人都可通过通信线路顺利地与对方交谈。此外，根据语音检测电路4的检测结果，仅包括人的语音的语音信号可通过通信线路被传输。换句话说，当仅噪声被输入时语音信号不被传输给对方。在这种情况下，不必要的噪声不会在对方重放的，使得参会者可将注意力集中在会议上。

在上述实施例中，如果所有的确定标记F11-F13均表示H级，则输入语音被确定为人的语音。然而，本发明不限于这种方法，如果确定标记的其中1个或2个表示H级，输入语音仍可被确定为人的语音。也在这种情况下，与公知技术相比，语音检测的准确性可被提高。此外，除了确定标记F11-F13以外，根据更新标记F22，语音确定单元45可进行最终确定。

在上述摄像机系统中，1个摄像机指向讲话者。或者，可放置多个固定摄像机。在这种情况下，来自摄像机的信号根据语音检测电路4的检测结果和方向确定单元54的确定结果被切换。

上述语音检测方法可被适用于诸如安全摄像机系统之类的其它系统。例如在安全摄像机系统中，当在没有任何人的地方发出声音时，该地方的图像通过摄像机被自动拾取。该语音检测方法也可被适用于拾取发出特别大声和特定声(如脚步声以及人的语音)的位置的图像的系统。在后一种情况下，根据要被检测的语音特性，用于语音检测的阈值被改变或用于最终确定的确定标记的组合被改变。

应当理解，在后附权利要求或其等同的范围内，本领域的技术人员可根据设计需要或其它情况对本发明进行各种修改、组合、子组合和变化。

Claims

1.一种语音检测装置，用于根据输入语音信号检测人的语音是否已被输入，所述语音检测装置包括：

第一确定单元，被配置成如果输入语音信号的具有谐波结构的信号分量的功率与该输入语音信号的功率的比大于预定阈值，则确定人的语音已被输入；

第二确定单元，被配置成如果输入语音信号的频率重心在预定频率范围以内，则确定人的语音已被输入；

噪声级存储单元，被配置成存储噪声级；

第三确定单元，被配置成如果输入语音信号的功率与存储在噪声级存储单元中的噪声级的比大于预定阈值，则确定人的语音已被输入；

最终确定单元，被配置成根据第一至第三确定单元的确定结果最终确定是否人的语音已被输入；以及

噪声级更新单元，被配置成如果最终确定单元确定人的语音未被输入，则通过使用当前输入语音信号的功率更新存储在噪声级存储单元中的噪声级。

2.根据权利要求1的语音检测装置，其中该第一确定单元包括：

提取单元，被配置成从该输入语音信号中提取具有谐波结构的信号分量；以及

比较单元，被配置成将提取的信号分量的功率与该输入语音信号的功率相比较，并且如果该信号分量的功率比大于所述预定阈值，则确定人的语音已被输入。

3.根据权利要求2的语音检测装置，其中所述提取单元包括：

多个滤波器，被配置成使基频的信号分量和输入语音信号的谐波分量通过，对各滤波器设置不同的基频；以及

选择单元，被配置成从来自各滤波器的输出信号中选择具有最大功率的输出信号。

4.根据权利要求1的语音检测装置，其中噪声级更新单元通过以预定比将存储在噪声级存储单元中的噪声级与当前输入语音信号的功率结合来更新噪声级。

5.根据权利要求1的语音检测装置，其中如果第一至第三单元均确定人的语音已被输入，则最终确定单元最终确定人的语音已被输入。

6.根据权利要求1的语音检测装置，还包括：

第四确定单元，被配置成计算在从过去到现在的预定时间段内第二确定单元所计算的频率重心的散布，并且如果所计算的散布值等于或小于预定阈值，则确定人的语音未被输入，

其中如果最终确定单元和第四确定单元中的至少一个确定人的语音未被输入，则噪声级更新单元更新存储在噪声级存储单元中的噪声级。

7.一种自动图像拾取装置，用于通过摄像机自动拾取讲话者的方向的图像，所述自动图像拾取装置包括：

多个语音拾取单元；

方向检测单元，被配置成根据来自语音拾取单元的输入语音信号检测讲话者的方向；

语音检测单元，包括：

噪声级存储单元，被配置成存储噪声级；

最终确定单元，被配置成根据第一至第三确定单元的确定结果最终确定是否人的语音已被输入；

噪声级更新单元，被配置成如果最终确定单元确定人的语音未被输入，则通过使用当前输入语音信号的功率更新存储在噪声级存储单元中的噪声级，

驱动单元，被配置成根据方向检测单元和语音检测单元的每一检测结果改变摄像机的拾取方向。

8.一种语音检测方法，用于根据输入语音信号检测人的语音是否已被输入，所述语音检测方法包括以下步骤：

第一确定步骤，如果输入语音信号的具有谐波结构的信号分量的功率与该输入语音信号的功率的比大于预定阈值，则确定人的语音已被输入；

第二确定步骤，如果输入语音信号的频率重心在预定频率范围内，则确定人的语音已被输入；

第三确定步骤，如果输入语音信号的功率与存储在噪声级存储单元中的噪声级的比大于预定阈值，则确定人的语音已被输入；

最终确定步骤，根据在第一至第三确定步骤中所获得的确定结果，最终确定人的语音是否已被输入；

如果最终确定步骤确定人的语音未被输入，则通过使用当前输入语音信号的功率更新存储在噪声级存储单元中的噪声级。