CN1591568A

CN1591568A - 头部安装的多－感觉音频输入系统

Info

Publication number: CN1591568A
Application number: CNA2004100557384A
Authority: CN
Inventors: 黄学东; 刘自成; 张正友; M·J·辛克莱尔; A·阿塞罗
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2003-07-29
Filing date: 2004-07-29
Publication date: 2005-03-09
Anticipated expiration: 2024-07-29
Also published as: JP2005049876A; MY138807A; EP1503368B1; AU2004203357B2; TW200519834A; CN100573664C; BRPI0403027A; ATE471554T1; JP4703142B2; KR101098601B1; RU2004123352A; DE602004027687D1; HK1073010A1; RU2363994C2; EP1503368A1; TWI383377B; MXPA04007313A; CA2473195A1; AU2004203357A1; KR20050013969A

Abstract

本发明将常规的音频话筒与附加的语音传感器组合起来，语音传感器基于输入提供语音传感器信号。语音传感器信号是基于由说话者在讲话期间采取的动作诸如面部运动、骨振动、喉部阻抗变化等而产生的。语音检测器组件从语音传感器接收输入并输出语音检测信号，表示用户是否正在说话。语音检测器基于话筒信号和语音传感器信号产生语音检测信号。

Description

头部安装的多-感觉音频输入系统

技术领域

本发明涉及音频输入系统。更具体地说，本发明涉及在多-感觉变送器输入系统中的语音处理。

背景技术

在许多不同的语音识别应用中，具有清晰和一致的音频输入是非常重要且可以是决定性的，音频输入代表着要提供给自动语音识别系统的语音。倾向于破坏给语音识别系统的音频输入的两类噪声是环境噪声和由背景语音产生的噪声。为了消除来自音频输入的环境噪声，现在已经在开发噪声消除技术方面进行了大量的工作。有些技术已经在音频处理软件中商业化，或者集成到数字话筒诸如通用串行总线(USB)话筒中。

处理与背景语音有关的噪声是一个更难以解决问题。这可以在各种各样不同的噪声环境中发生。例如，当感兴趣的说话者在人群中或者在他人之间说话，常规的话筒经常拾取不同于感兴趣的说话者的说话者语音。实际上，在其它人正在讲话的任何环境中，由感兴趣的说话者产生的音频信号能受其他人讲话的危害。

处理背景语音的一个现有的解决方案是在耳机线上或在听筒上提供开启/关闭开关。开启/关闭开关称为“推按讲话(push-to-talk)”按钮，并要求用户在说话之前推按该按钮。当用户推按按钮时，它产生一个按钮信号。按钮信号向语音识别系统表示，感兴趣的说话者正在说话，或者将要说话。不过，有些可用性研究显示这种类型的系统不令人满意或者不是用户所想要的。

另外，已经在尝试将由话筒拾取的背景说话者与感兴趣的说话者(或前台话说者)分离开来方面进行了工作。这在清楚的办公室环境中工作得相当好，但已证明了在高度嘈杂的环境中不行。

在另外一种现有技术中，将来自标准话筒的信号与来自喉式话筒的信号组合起来。喉式话筒间接地通过测量在说话过程中穿过喉咙的电气阻抗方面的变化来记录喉部的行为。将由喉式话筒产生的信号与常规的话筒组合起来，并生成模拟组合信号的频谱含量的模型。

使用一种算法将嘈杂的、组合标准和喉式话筒信号特征映射成清楚的标准话筒特征。这是使用概率最优滤波器来估计的。然而，虽然喉式话筒彻底不受背景噪声的影响，但喉式话筒的频谱含量是十分有限的。因此，使用它来映射成清楚的估计的特征向量并不很准确。在Frankco等人的、由FL的Orlando的DARPA ROAR工作室出版(2001)的COMBINING HETEROGENEOUS SENSORS WITHSTANDARD MICROPHONES FOR NOISY ROBUST RECOGNITION(将不同种类的传感器与标准话筒结合起来用于噪声的稳固识别)更详细地描述了此技术。另外，戴喉式话筒给用户增加了不便。

发明内容

本发明将常规的音频话筒与提供基于附加输入的语音传感器信号的语音传感器组合起来。语音传感器信号是基于由说话者在讲话过程中采取的动作而产生的，诸如面部运动、骨振动、喉部阻抗变化等等。语音检测器组件从语音传感器接收输入并输出语音检测信号，表示用户是否正在说话。语音检测器基于话筒信号和语音传感器信号产生语音检测信号。

在一个实施例中，将语音检测信号提供给语音识别引擎。语音识别引擎提供识别输出，它基于话筒信号和来自额外的语音传感器的语音检测信号，表示由来自音频话筒的话筒信号代表的语音。

本发明还可以具体化为检测语音的方法。该方法包括产生表示关于音频话筒的音频输入的第一信号，产生表示由面部运动传感器检测到的用户的面部运动的第二信号，以及基于第一和第二信号检测用户是否正在说话。

在一个实施例中，第二信号包括用户的脖子的振动或阻抗变化，或者用户的头骨或鄂部的振动。在另一个实施例中，第二信号包括表示用户嘴部运动的图象。在另一个实施例中，将温度传感器诸如热敏电阻放在呼吸气流中，诸如在挨着话筒的话筒支杆上，并根据温度的变化检测语音。

附图说明

图1是可以在其中使用本发明的一个实施例的方框图。

图2是可以由其使用本发明的语音识别系统的方框图。

图3是按照本发明的一个实施例的语音检测器系统的方框图。

图4和5说明图3所示系统的一部分的两个不同实施例。

图6是信号幅度相对于时间的曲线，对应于话筒信号和红外线传感器信号。

图7例示常规话筒和语音传感器的一个实施例的实物图。

图8示出骨敏感话筒连同常规的音频话筒的实物图。

图9是信号幅度相对于时间的曲线图，分别对应于话筒信号和音频话筒信号。

图10示出喉式话筒连同常规的音频话筒的实物图。

图11示出耳内话筒连同近距离谈话话筒的实物图。

具体实施方式

本发明涉及语音检测。更具体地说，本发明涉及多-感觉变送器输入的捕捉并基于所捕捉的多-感觉输入生成表示用户是否正在说话的输出信号。不过，在更详细地讨论本发明之前，讨论一个可以在其中使用本发明的环境的说明性例子。

图1说明一个在其上可实现本发明的典型操作环境100。计算系统环境100只是适合的计算环境的一个例子，并且不是想要建议有关本发明的使用范围或功能的任何限制。也不应该将这个计算环境解释为具有与在示例性操作系统100中所示的组件的任何一个或组合有关的任何依赖性或要求。

本发明可与众多的其它通用或专用计算系统环境或配置一起运行。众所周知的计算系统、环境和/或配置的例子包括，但不限于，个人计算机、服务器计算机、手持或膝上型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子产品、网络PC、小型计、大型计算机、包括任何上述系统或设备的分布式计算环境等等。

可在由计算机可执行指令诸如由计算机执行的程序模块完成的的一般环境中描述本发明。通常，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等。本发明也可在分布式计算环境中实施，在所述分布式计算环境中由通过通信网络连接的远程处理设备执行任务。在分布式计算环境中，程序模块可位于本地和远程两者的包括存储器设备在内的计算机存储介质中。

参考图1，用于实现本发明的示例性系统包括计算机110形式的通用计算设备。计算机110的组件包括，但不限于，处理单元120，系统存储器130，以及将包括系统存储器在内的各种系统组件连接至处理单元120的系统总线121。系统总线121可能是任何几种类型总线结构包括存储器总线或存储控制器，外设总线，使用任何各种各样总线结构的局部总线。作为例子，但不限于，这样的结构包括工业标准结构(ISA)总线，微通道结构(MCA)，增强ISA(EISA)总线，视频电子标准协会(VESA)局部总线，以及外部部件互连(PCI)总线，也被称为夹层(Mezzanine)总线。

计算机110一般包括各种条样的计算机可读介质。计算机可读介质可以是能由计算机110访问的任何可用介质，并且包括易失性介质和非易失性介质两者，可移动和不可移动的介质。作为例子，但不限于，计算机可读介质可包括计算机存储介质和通信介质。计算机存储介质包括以用于信息存储的任何方法或技术实现的易失性和非易失性两者，可移动和不可移动的介质，诸如计算机可读指令、数据结构、程序模块或其它数据。计算机存储介质包括，但不限于，RAM，ROM，EEPROM，闪存或者其它存储技术，CD-ROM，数字通用盘(DVD)或其它光盘存储器，磁带盒，磁带，磁盘存储器或者其它磁存储设备，或者能用于存储想要的信息以及能由计算机110访问的任何其它介质。通信介质一般包括在调制的数据信号诸如载波或者其它传输机制中的计算机可读指令、数据结构、程序模块或其它数据，并且包括任何信息传递介质。术语″调制的数据信号″指以设置或改变信号的一个或多个特征如此以便在信号中编码信息的信号。作为例子，不是限制，通信介质包括有线的介质诸如有线网络或者直接线的连接，以及无线介质诸如声音、RF、红外线和其它无线介质。任何上述各项的组合也应该包括在计算机可读介质的范围内。

系统存储器130包括易失性/或非易失性存储器形式的计算机存储介质，诸如只读存储器(ROM)131和随机存取存储器(RAM)132。基本输入/输出系统133(BIOS)，包含帮助在计算机110内的部件之间传送信息，诸如在启动时，有时存储在ROM 131中。RAM 132一般包括数据和/或程序模块，可由处理单元120立即访问和/或当即操作。作为例子，但不限于，图1例示操作系统134，应用程序135，其它程序模块136和程序数据137。

计算机110还可包括其它可移动的/不可移动的、易失性的/非易失性的计算机存储介质。只作为例子，图1例示了读写不可移动的、非易失性的磁介质的硬盘驱动器141，读写可移动的、非易失性磁盘152的磁盘驱动器151，以及读写可移动的、非易失性光盘156诸如CD ROM或者其它光介质的光盘驱动器155。能在示例性操作环境中使用的其它可移动的/不可移动的、易失性的/非易失性的计算机存储介质包括，但不限于，磁带盒、闪存卡、数字通用盘、数字视频带、固态RAM、固态ROM等等。硬盘驱动器141一般通过不可移动的存储器接口诸如接口140连接至系统总线121，以及磁盘驱动器151和光盘驱动器155一般通过可移动的存储器接口诸如接口150连接至系统总线121。

上面讨论的并且在图1中所示的驱动器及其相关的计算机存储介质，为计算机110提供计算机可读指令、数据结构、程序模块和其它数据的存储。在图1中，例如，硬盘驱动器141被例示为存储操作系统144、应用程序145、其它程序模块146以及程序数据147。注意，这些组件能够与操作系统134、应用程序135、其它程序模块136和程序数据137或者相同或者不同。在这里为操作系统144，应用程序145，其它程序模块146和程序数据147给出不同的数字用以说明，至少它们是不同的拷贝。

用户可通过输入设备诸如键盘162、话筒163和的定位设备161诸如鼠标、轨迹球或者触摸板，将命令和信息输入到计算机110中。其它输入设备(未示出)可包括操纵杆、游戏板、卫星天线、扫描仪等等。这些和其它输入设备常常通过连接到系统总线的用户输入接口160耦合到处理单元120，但可通过其它接口和总线结构连接，诸如并行口、游戏口或者通用串行总线(USB)。监视器191或者其它类型的显示设备也可通过接口诸如视频接口190连接到系统总线121。除监视器外，计算机还可包括其它输出设备诸如扬声器197和打印机196，它们可通过输出外设与接口195相连接。

计算机110可在使用逻辑连接至一个或多个远程计算机诸如远程计算机180的网络化环境中操作。远程计算机180可能是个人计算机、手持式设备、服务器、路由器、网络PC、对等设备或者其它普通网络节点，并且一般包括许多或者所有上面相对于计算机110所述的部件。在图1中所示的逻辑连接包括局域网(LAN)171和广域网(WAN)173，但还可包括其它网络。这样网络环境在办公室、企业级计算机网络、企业内部互联网和因特网中是很普通的。

当在LAN网络环境中使用时，计算机110通过网络接口或适配器170连接至LAN171。当在WAN网络环境中使用时，计算机110一般包括调制解调器172或者用于在WAN 173诸如因特网上建立通信的其它装置。可能是内置或外置的调制解调器172，可通过用户输入接口160或者其它适当的机制与系统总线121相连接。在网络化环境中，相对于计算机110所述的程序模块或者其部分，可存储在远程存储器设备中。作为例子，不是限制，图1例示远程应用程序185为驻留在存储器设备181上。将意识到，所示的网络连接是示例性的，并且可使用在计算机之间建立通信连接的其它方法。

应该注意，本发明可以在诸如参考图1所述的计算机系统上执行。但是，本发明可以在服务器、专用于消息处理的计算机上或在分布式系统上执行，在所述分布式系统中，本发明的不同部分在分布式计算系统的不同部分上执行。

图2例示了可以使用本发明的示例性语音识别系统的方框图。在图2中，说话者400向着话筒404说话。将由话筒404检测到的音频信号转换成电子信号，提供给模数(A-至-D)转换器406。

A-至-D转换器406将来自话筒400的模拟信号转换成一系列数字值。在若干实施例中，A-至-D转换器406以16kHz取样模拟信号，每个样本16位，从而每秒产生32千字节的语音数据。这些数字值被提供给帧构造器(frameconstructor)407，在一个实施例中，它将值组合成相距10毫秒开始的25毫秒。

由帧构造器407产生的数据帧被提供给特征提取器(featureextractor)408，它从每一帧提取特征。特征提取模块的例子包括这样一些模块，用于执行线性预测编码(Linear Predictive Coding)(LPC)，LPC导出的倒谱(LPC derived cepstrum)，感知线性预测(Perceptive LinearPrediction)(PLP)，听觉模式特征提取和美频倒谱系数(Mel-FrequencyCepstrum Coefficient)(MFCC)特征提取。注意，本发明不限于这些特征提取模块，并可在本发明的环境中使用其它模块。

特征提取模块408产生特征向量的流，每一特征向量与一个语音信号帧相关联。这个特征向量的流被提供给解码器412，它基于这个特征向量的流、词汇(lexicon)414、语言模型416(例如，基于N元语法，上下文无关语法或它们的混合)和声学模型418，识别一个最有可能的词语序列。被用于解码的特定方法对于本发明不是重要的。但是，本发明的诸方面包括对声学模型418的修改及其使用。

假设词语的最有可能的序列可以提供给可选的置信度测量模块420。置信度测量模块420识别哪些词语最有可能由语音识别器不正确地识别。这可以部分地基于第二声学模型(未示出)。置信度测量模块420随后将假设词语的序列连同表示哪些词语可能已经不正确地识别的标识符一起提供给输出模块422。那些本领域熟练技术人员将认识到，置信度测量模块420对于本发明的实施不是必要的。

在训练期间，相应于训练文本426的语音信号连同训练文本426的词汇副本(lexical transcription)一起输入到解码器412。训练器424基于训练输入训练声学模型418。

图3例示了按照本发明的一个实施例的语音检测系统300。语音检测系统300包括语音传感器或变送器301，常规音频话筒303，多-感觉信号捕捉组件302和多-感觉信号处理器304。

捕捉组件302以音频信号的形式捕捉来自常规话筒303的信号。组件302还捕捉来自语音变送器301的输入信号，它表示用户是否正在讲话。由该变送器产生的信号可以由多种多样其它变送器产生。例如，在一个实施例中，变送器是红外线传感器，它一般瞄准用户的脸，尤其是嘴部区域，并产生表示相应于讲话的用户的面部运动的变化的信号。在另一个实施例中，传感器包括多个红外线发射器和瞄准用户脸部的不同部分的传感器。在又另一个实施例中，语音传感器301可以包括喉式话筒，它测量经过用户喉部的阻抗或喉部振动。在又另一个实施例中，传感器是骨振动敏感话筒，它的位置毗邻于用户的面部骨或头骨(诸如颚骨)，并且检测相应于由用户产生的语音的振动。这种类型的传感器还可以放置为与喉部接触，或者毗邻于耳内或在用户的耳内。在另一个实施例中，温度传感器诸如热敏电阻被放置在呼吸气流诸如在保持常规话筒的同一支架上。在用户说话时，呼出的气息引起传感器中温度的变化，并因而检测到语音。这可以通过使小的稳定状态流(small steady statecurrent)经过热敏电阻加热它轻微大于环境温度来增强。呼吸气流随后倾向于冷却热敏电阻，这可以通过经过热敏电阻的电压变化检测到。在任何情况下，变送器301例示性地对于背景语音高度不敏感，但强烈地表示用户是否正在讲话。

在一个实施例中，组件302捕捉来自变送器301和话筒303的信号并将它们转换数字形式，如同步时间系列的信号样本。组件302随后提供一个或多个输出给多-感觉信号处理器304。处理器304处理由组件302捕捉的输入信号并在其输出处提供语音检测信号306，它表示用户是否正在说话。处理器304也可以基于来自各种各样不同变送器，可选地输出附加信号308诸如音频输出信号，它表示用户正在说话的可能性或概率。其它输出308将例示性地基于要完成的任务而变化。不过，在一个实施例中，输出308包括在语音识别系统中使用的增强的音频信号。

图4更详细地说明多-感觉信号处理器304的一个实施例。在图4所示的实施例中，将参考来自变送器301的变送器输入描述处理器304，变送器输入是由位置靠近用户脸的红外线传感器产生的红外线信号。当然，应该意识到，图4的描述相对于来自喉部传感器、振动传感器等的变送器信号是一样容易的。

总之，图4示出处理器304包括基于红外线(IR)的语音检测器310，基于音频的语音检测器312和组合的语音检测器组件314。基于IR的语音检测器310接收由IR发射器发射的并从说话者反射回的IR信号，基于IR信号检测用户是否正在说话。基于音频的语音检测器312接收音频信号并基于音频信号检测用户是否正在说话。来自解码器310和312的输出被提供给组合的语音检测器组件314。组件314接收这些信号并基于这两个输入信号就用户是否正在说话作出一个全面的估计。来自组件314的输出包括语音检测信号306。在一个实施例中，语音检测信号306被提供给背景语音清除组件316。语音检测信号306用于表示在音频信号中什么时候用户实际在说话。

更准确地说，两个独立的检测器310和312，在一个实施例中，每一检测器产生一个概率描述关于用户正在说话的可能性程度。在一个实施例中，基于IR的语音检测器310的输出是根据IR输入信号的用户正在说话的概率。同样，来自基于音频的语音检测器312的输出信号是根据音频输入信号的用户正在说话的概率。在一个例子中，随后在组件314中考虑这两个信号，以作出关于用户是否正在说话的二元判定。

信号306可以用于进一步在组件316中处理以消除背景语音。在一个实施例中，在语音检测信号306表示用户正在说话时，信号306仅用于通过组件316提供语音信号给语音识别引擎。如果语音检测信号306表示用户不是正在说话，那么不将语音信号通过组件316提供给语音识别引擎。

在另一个实施例中，组件314提供语音检测信号306作为概率测量，它表示用户正在说话的概率。在那个实施例中，在组件316中将音频信号乘以包含在语音检测信号306中的概率。因此，当用户正在说话的概率高时，通过组件316提供给语音识别引擎的语音信号也具有大的幅度。然而，当用户正在说话的概率低时，通过组件316提供给语音识别引擎的语音信号具有非常低的幅度。当然，在另一个实施例中，语音检测信号306可以简单地直接提供给语音识别引擎，语音识别引擎本身可以确定用户是否正在说话并根据那个确定来如何处理语音信号。

图5更详细地说明多-感觉信号处理器304的另一个实施例。代替具有用于检测用户是否正在说话的多个检测器，图5所示的实施例例示了由单个合并的语音检测器320构成的处理器304。检测器320接收IR信号和音频信号两者，基于这两个信号，作出用户是否正在说话的判定。在那个实施例中，首先独立地从红外线和音频信号中提取特征，并将那些特征送进检测器320。基于接收到的特征，检测器320检测用户是否正在说话并相应地输出语音检测信号306。

无论使用哪一种类型的系统(图4所示的系统或图5所示的系统)，都可以生成语音检测器并使用训练数据来训练它们，在训练数据中连同IR信号并且还连同手工指示(诸如推按讲话信号)一起提供噪声音频信号，手工指示明确地表示用户正在说话。

为更好地描述这一点，图6示出音频信号400和红外线信号402的曲线图，按照幅度相对于时间。图6还示出语音检测信号404，它表示何时用户正在说话。当在逻辑高状态时，信号404表示由语音检测器的判定：说话者正在说话。当在逻辑低状态时，信号404表示用户不是正在说话。为了基于信号400和402确定用户正在说话并产生信号404，周期性地诸如每100毫秒计算信号400和402的均方差。使用均方差计算作为基线均方差值，相对于这些值作出语音检测判定。可以看到音频信号400和红外线信号402在用户正在说话时具有比用户没有在说话时较大的方差。因此，当进行观测时，诸如每隔5-10毫秒，将在观测过程中信号的均方差(或仅方差)与基线均方差(或仅方差)比较。如果观测值大于基线值，那么确定用户正在说话。如果不大于基线值，那么确定用户没有在说话。在一个例示性实施例中，基于预定的阈值作出语音检测判定。例如，在每个观测过程中，如果红外线信号不是在基线平均的三个标准偏差之内，则认为用户正在说话。对于音频信号可以使用同样的方法。

按照本发明的另一个实施例，检测器310、312、314或320也可以在使用期间适应，诸如以适应环境光条件的变化，或者诸如用户头部位置的变化，这些变化可能引起影响IR信号的照明的轻微变化。例如，基线均方差值可以每隔5-10秒重新估计，或者使用另外的循环时间窗(revolving time window)。这允许更新那些值以反映随着时间过去的变化。而且，在使用滑动窗口(movingwindow)更新基线均方差之前，首先可以确定输入信号是否相应于说话的和不在说话的用户。可以只使用相应于不在说话的用户的信号的一部分来重新计算均方差。

另外，从图6可以看到IR信号一般可领先于音频信号。这是因为用户一般而言可在产生任何声音之前改变嘴部和脸部的位置。因此，这允许系统甚至在语音信号可得到之前检测到语音。

图7是按照本发明的IR传感器和音频话筒的一个实施例的实物图。在图7中，为头戴式耳机420提供了一对耳机422和424，连同吊杆426。吊杆426在其远端有一个常规的音频话筒428，连同红外线收发器430。例示性地，收发器430可以是一个红外光发射二极管(LED)和红外线接收器。用户在讲话过程中正在移动他或她的脸尤其是嘴时，从用户的脸部尤其是嘴部反射回的并在IR传感器信号中代表的光将改变，如在图6中所示。因而，可以基于IR传感器信号确定用户是否正在说话。

应该注意，虽然在图7中的实施例示出单个红外线收发器，但本发明预料到也可使用多个红外线收发器。在那个实施例中，与由每个红外线收发器产生的IR信号相关联的概率可以分别或同时处理。如果分别处理它们，简单的表决逻辑可以用于确定红外线信号是否表示说话者是否正在说话。可供替换地，可以使用概率模型基于多个IR信号来确定用户是否正在说话。

如上所述，附加的变送器301可以采用不同于红外线变送器的许多形式。图8是头戴式耳机450的实物图，包括带有耳机452和454的头部支架(headmount)451，以及常规的音频话筒456，加上骨敏感话筒(bone sensitivemicrophone)458。两个话筒456和458可以以机械方式甚至刚性地与头部支架451相连接。骨敏感话筒458将面骨的振动在通过说话者的头骨传播时转换成电子声音信号。这些类型的话筒是公知的并且以各种各样的形状和尺寸商业化。骨敏感话筒458一般作为接触式话筒构成，被戴在头骨的顶部或耳后(以接触乳突骨(mastoid))。骨传导话筒(bone conductive microphone)对于骨头的振动是敏感的，而对外部的声音源不太敏感。

图9例示了多个信号，包括来自常规的话筒456的信号460，来自骨敏感话筒458的信号462和相应于语音检测器的输出的二元语音检测信号464。当信号464处于逻辑高状态时，它表示检测器已经确定说话者正在说话。当它处于逻辑低状态时，它相应于说话者不在说话的判定。在图9中的信号是从一个环境中捕捉到的，在这个环境中，收集数据同时用户正戴着上面图8所示的话筒系统，在背景音频播放着的情况下。因而，音频信号460示出即使当用户不在说话时的显著活动。不过，骨敏感话筒信号462示出当用户正在实际说话时接受的微不足道的信号活动。因而可以看到，只考虑音频信号460，很难确定用户是否正在实际说话。但是，当使用来自骨敏感话筒的信号时，或者单独地或者结合音频信号，变得很容易确定何时用户正在说话。

图10示出本发明的另一个实施例，在这个实施例中，头戴式耳机500包括头部支架501，连同常规音频话筒504的耳机502和喉式话筒506。两个话筒504和506以机械方式与头部支架501相连接，并且可以刚性地与它相连接。存在可以使用的各种各样不同喉式话筒。例如，目前有单元件和双元件设计。通过检测喉部的振动并将振动转换成话筒信号的两个功能。喉式话筒例示性地戴在脖子周围并由弹力线制成的带子或领圈保持在适当的位置。当检测元件定位在用户的喉头上用户的“金刚石苹果(Adams apple)”的任一侧时，它们良好地完成任务。

图11示出本发明的另一个实施例，在这个实施例中，头戴式耳机550包括耳内话筒(in-ear microphone)552连同常规的音频话筒554。在图11中说明的实施例中，耳内话筒552与耳机554集成起来。不过，应该注意，耳机能构成独立的组件，与耳内话筒552分开。图11还示出，常规的音频话筒554具体化为通过吊杆556与耳内话筒552相连接的近距离谈话话筒(close-talkmicrophone)。吊杆556可以是刚性的或者是柔软的。在头戴式耳机550中，头戴式耳机的头部支架部分包括耳内话筒552和可选的耳机554，它将头戴式耳机550通过与说话者的耳朵内部的摩擦连接安装到说话者的头部。

耳内话筒552检测通过说话者的耳道或者通过围绕说话者的耳道的骨头或通过这两者传输的声音振动。系统以相似的方式对具有图8所示的骨敏感话筒458的头戴式耳机工作。由耳内话筒552检测的声音振动被转换成在下游(down-stream)处理中使用的话筒信号。

虽然已描述了语音传感器或变送器301的多个实施例，但应该意识到，同样可以使用其它语音传感器或变送器。例如，对于IR传感器，可以用相似的方式使用电荷耦合装置(或数字摄像机)。而且，同样可以使用喉部传感器。仅为了示例的缘故描述了上述实施例。

现在描述用于检测语音的、使用音频和/或语音传感器信号的另一种技术。在一个说明性实施例中，在用户规定的时间内(诸如在一分钟之内等)保持最近的帧的所有方差的柱状图。对于之后的每一观测帧，为输入信号计算方差并将方差与柱状图值比较以确定当前帧代表着说话者正在说话还是不在说话。然后更新柱状图。应该注意，如果当前帧只是被插入到柱状图中且去除最旧的帧，则柱状图可能只代表说话帧，在用户在一段长时间中一直说话的情况下。为了处理这种情况，跟踪柱状图中说话帧和非说话帧的数量，并选择性地更新柱状图。如果当前帧被分类为说话，而在柱状图中说话帧的数量大于帧总数的一半，则简单地不将当前帧插入柱状图。当然，同样可以使用其它更新技术，而这只是为了示例的目的而给出的。

可以在多种多样的应用中使用本系统。例如，许多当前的推按讲话系统要求用户推按并保持输入激励器(诸如按钮)，以便与语音模式交互。可用性研究已表示出，用户难以令人满意地操纵这些。同样，用户在按压硬件按钮的同时开始说话，导致在开始发音处的截去。因而，本系统可以只用于语音识别，代替推按讲话系统。

同样，本发明可以用于去除背景语音。背景语音已被识别为一个极其普通的噪声源，仅次于电话振铃和空调。使用如上所述的语音检测信号，可以消除大部分这种背景噪声。

同样，可以改进可变速率语音编码系统。由于本发明提供表示用户是否正在说话的输出，因此可以使用有效得多的语音编码系统。这样一个系统减少电话会议(audio conferencing)时对带宽的要求，因为语音编码只有在用户实际说话时才进行。

同样可以改进实时通信中的发言权控制(floor control)。在常规的电话会议中丢失的一个重要方面是缺少一种机制来用于通知其它人一个电话会议参加者希望说话。这可以导致一个参加者独占一个会议的情况，仅仅因为他或她不知道其它人希望说话。有了本发明，用户只需要激励传感器以表示这个用户希望说话。例如，当使用红外线传感器时，用户只需要以模仿讲话的方式运动他或她的面部肌肉。这将提供表示用户正在说话或者希望说话的语音检测信号。使用喉部或骨话筒，用户可简单地以非常柔和的音调哼哼，这将再次触发喉部或骨话筒来表示用户正在或希望说话。

在又另一个应用中，可以改进用于个人数字助理或小计算设备的功率管理，诸如掌上电脑、笔记本计算机或其它相似类型的计算机。电池寿命是这类便携式设备主要关心的。通过了解用户是否正在说话，分配给完成常规计算功能所要求的数字信号处理的资源和完成语音识别所要求的资源，可以以有效得多的方式来分配。

在又另一个应用中，来自常规的音频话筒的音频信号和来自语音传感器的信号可以用一种智能的方式组合起来，使得可以从音频信号中消除背景语音，甚至当背景说话者在感兴趣的说话者的同时讲话时。完成这类语音增强的能力在某些环境中可能是非常需要的。

虽然已参考特定实施例描述了本发明，但本领域熟练技术工人将认识到，可在不脱离本发明的精神和范围的情况下在形式和细节上作出变化。

Claims

1.一种语音识别系统，其特征在于，包括：

音频话筒，基于检测到音频输入输出话筒信号；

语音传感器，基于由语音动作产生的非音频输入输出传感器信号；以及

语音检测器组件，基于传感器信号输出语音检测信号，表示用户是否正在说话。

2.如权利要求1所述的语音检测系统，其特征在于，语音检测器组件基于传感器信号的第一特性和基于话筒信号输出语音检测信号。

3.如权利要求2所述的语音检测信号，其特征在于，传感器信号的第一特性具有用户正在说话时的第一电平和用户不在说话时的第二电平，其中，语音检测器组件基于传感器信号的第一特性的电平相对于包括特性的第一和第二电平中的预定的一个的第一特性的基线电平，输出语音检测信号。

4.如权利要求3所述的语音检测系统，其特征在于，基线电平是基于经过一段时间的第一特性的电平来计算的。

5.如权利要求4所述的语音检测系统，其特征在于，基线电平是通过平均经过一段时间的第一特性的电平来计算的。

6.如权利要求4所述的语音检测系统，其特征在于，基线电平是间歇地在语音检测系统的操作过程中重新计算的。

7.如权利要求6所述的语音检测系统，其特征在于，基线电平是周期性地重新计算的，以代表经过一个循环的时间窗的第一特性的电平。

8.如权利要求6所述的语音检测系统，其特征在于，语音检测器组件基于传感器信号的第一特性的电平与基线电平的比较，输出语音检测信号，其中，比较是周期性地进行的。

9.如权利要求8所述的语音检测系统，其特征在于，比较是比重新计算基线电平更频繁地进行的。

10.如权利要求1所述的语音检测系统，其特征在于，音频话筒和语音传感器安装在头戴式耳机上。

11.一种语音识别系统，其特征在于，包括：

语音检测系统，包括：

音频话筒，基于检测到音频输入，输出话筒信号；

语音传感器，基于由语音动作产生的非音频输入，输出传感器信号；以及

语音检测器组件，基于话筒信号和传感器信号，输出语音检测信号，表示用户是否正在说话；以及

语音识别引擎，基于话筒信号和语音检测信号，提供识别输出，表示在检测到的音频输入中的语音。

12.如权利要求11所述的语音识别系统，其特征在于，语音检测器组件计算语音检测信号作为语音检测测量，表示用户正在说话的概率。

13.如权利要求12所述的语音识别系统，其特征在于，语音检测器组件将语音检测测量与话筒信号组合起来以产生组合信号。

14.如权利要求13所述的语音识别系统，其特征在于，语音识别引擎基于组合信号产生识别输出。

15.如权利要求14所述的语音识别系统，其特征在于，语音检测测量包括用户正在说话的概率。

16.如权利要求15所述的语音识别系统，其特征在于，组合信号包括概率与话筒信号的乘积。

17.一种检测语音的方法，其特征在于，包括：

用音频话筒产生第一信号，表示音频输入；

产生第二信号，表示用户的面部运动，它是由面部运动传感器检测的；以及

基于第一和第二信号检测用户是否正在说话。

18.如权利要求17所述的方法，其特征在于，产生第二信号包括：

检测用户的颚部和脖子之一的振动。

19.如权利要求17所述的方法，产生第二信号包括：

检测表示用户嘴部的运动的图象。

20.如权利要求17所述的方法，其特征在于，还包括：

基于检测用户是否正在说话，提供语音检测信号。

21.如权利要求20所述的方法，其特征在于，还包括：

基于第一信号和语音检测信号，识别语音。

22.如权利要求21所述的方法，其特征在于，识别语音包括：

如果语音检测信号表示用户正在说话，增加识别语音的可能性；以及

如果语音检测信号表示说话者不在说话，减少识别语音的可能性。

23.一种头戴式耳机，其特征在于，包括：

头部支架；

音频话筒，以机械方式与头部支架相连接；

变送器，配置为基于表示语音的输入产生电子信号，它与头部支架相连接。

24.如权利要求23所述的头戴式耳机，其特征在于，还包括：

至少一个耳机以机械方式与头部支架相连接。

25.如权利要求23所述的头戴式耳机，其特征在于，变送器包括红外线传感器。

26.如权利要求23所述的头戴式耳机，其特征在于，变送器包括喉式话筒。

27.如权利要求23所述的耳机，其特征在于，变送器包括骨话筒。

28.如权利要求23所述的头戴式耳机，其特征在于，变送器包括温度传感器。

29.如权利要求23所述的头戴式耳机，其特征在于，将变送器定位在用户的耳朵内部的位置。

30.如权利要求23所述的头戴式耳机，其特征在于，将变送器定位在与用户的头骨或面骨有效接触的位置。

31.如权利要求23所述的头戴式耳机，其特征在于，将变送器定位在与用户的喉部接触的位置。

32.如权利要求23所述的耳机，其特征在于，变送器刚性地与头部支架相连接。

33.如权利要求32所述的头戴式耳机，其特征在于，音频话筒刚性地与头部支架相连接。

34.一种语音检测系统，其特征在于，包括：

音频话筒，基于音频输入，输出话筒信号；

语音传感器，配置为检测用户脸的运动并且输出表示运动的传感器信号；以及

语音检测器组件，配置为接收传感器信号，并基于传感器信号输出语音检测信号，表示用户是否正在说话。

35.一种检测用户是否正在说话的方法，其特征在于，包括：

提供传感器信号，表示检测到的从用户的脸反射的辐射；以及

基于传感器信号检测用户是否正在说话。

36.一种音频输入系统，其特征在于，包括：

头戴式耳机，包括音频话筒和传感器，传感器被配置为检测用户脸的运动并输出表示运动的传感器信号。

37.一种语音识别系统，其特征在于，包括：

头戴式耳机，包括音频话筒和语音传感器，音频话筒基于音频输入，输出话筒信号，以及语音传感器被配置为检测表示语音的物理特性并输出表示检测到的物理特性的传感器信号；以及

语音识别引擎，基于话筒信号和传感器信号识别语音。

38.一种音频输入系统，其特征在于，包括：

头戴式耳机，包括音频话筒和传感器，传感器被配置为检测表示用户说话或正准备说话的用户物理特性。