CN103295571A

CN103295571A - 使用时间和/或频谱压缩的音频命令的控制

Info

Publication number: CN103295571A
Application number: CN2013101080259A
Authority: CN
Inventors: H·P·拉尔格伊
Original assignee: Nvidia Corp
Current assignee: Nvidia Corp
Priority date: 2012-02-29
Filing date: 2013-02-28
Publication date: 2013-09-11
Also published as: TWI503814B; DE102013002963A1; TW201403587A; US20130226589A1; US10276156B2

Abstract

本发明涉及使用时间和/或频谱压缩的音频命令的控制，具体公开的声音激活的控制系统包括音频接收器和命令鉴别器。该接收器配置用来接收音频波形并从其生成数字音频波形。命令鉴别器配置用来检测数字音频波形内的时间和/或频谱压缩的非语音音频命令并响应于非语音命令控制话音激活的系统。

Description

使用时间和/或频谱压缩的音频命令的控制

技术领域

本申请大体上涉及控制电子设备的操作的设备、系统和方法。

背景技术

各种电子设备可例如由击键序列或口语单词来控制。例如，在一些情况下电子设备可直接由话音命令控制。在其它的情况下，控制系统，例如声话音应答系统(VRS)，可被设计用来响应语音命令或关键词。但是，在某些情况下，由于环境噪声，例如背景谈话，使得控制该设备可能是困难的。

发明内容

一方面提供包括接收器和命令鉴别器的声音激活的控制系统。该接收器配置用来接收音频波形并从音频波形中生成数字音频波形。命令鉴别器配置用来检测数字音频波形内的时间和/或频谱压缩的非语音音频命令且响应于非语音命令控制话音激活的系统。

另一方面提供一种电子设备。该电子设备包括音频接收器和命令翻译器。该音频接收器配置用来由接收到的音频信号生成数字音频波形。该命令翻译器配置用来检测数字音频波形内的时间和/或频谱压缩的非语音音频命令。命令翻译器响应于检测到非语音命令从非语音命令中合成语音命令。

另一实施例提供一种话音激活的控制的方法。该方法包括提供配置用来将接收到的音频波形转换为数字音频波形的模数转换器(ADC)。该ADC耦联至命令鉴别器。该命令鉴别器依次被配置用来检测数字音频波形内的时间和/或频谱压缩的非语音音频命令。该命令鉴别器被进一步配置用来响应于非语音命令控制话音激活的系统。

附图说明

结合附图现做出对以下描述的参考，其中：

图1A和1B分别图解了用在各种实施例中以控制语音激活设备或系统的非发音命令的时域和频域表示；

图2A和2B分别图解了音频信号的时域表示，包括时间压缩的突发和与该时间压缩的突发关联的功率尖峰；

图3A图解了音频信号的频域表示，例如在拥挤的房间内的声音的合成；

图3B图解了如图3A中的频域表示，附加包括如图1B所示的频谱部分；

图4图解了在一实施例中的电子设备，包括用来在接收的音频信号内检测时间和/或频谱压缩的信号的命令鉴别器配置，其中命令鉴别器合成用于有线或无线传输的话音命令；

图5示出了操作电子设备(例如图4的设备)的方法的流程图，以检测非语音命令的发生；

图6示出了电子设备的实施例的诸方面，其中响应于检测的非语音命冷，命令鉴别器提供命令至功能块；

图7示出了在一实施例中的话音应答系统，其中命令鉴别器可将接收到的非语音命令转换为话音应答系统配置用来响应的合成的语音命令；和

图8示出了例如生产根据本公开的各种实施例说明的设备或系统的方法。

具体实施方式

各种实施例涉及时间压缩和/或频谱压缩的非语音音频信号。这里，音频信号可以是时间压缩的、频谱压缩的、或两者。图1A没有限制地示出了代表性的时间压缩的音频信号110，且图1B示出了代表性的频谱压缩的音频信号的频谱120。

首先针对图1A，这里论述和权利要求中使用的时间压缩被定义为，其持续时间近似于或短于口语音素的持续时间。例如，口语单词可分解成许多音素，这些音素在正常说话速率下有大约100-500毫秒的持续时间。一些发声，例如辅音，可有更短的持续时间，例如小于约100毫秒。因此，音频信号110可有大约500毫秒或更短的持续时间AT。

接下来讨论图1B，这里的论述和权利要求中使用的频谱压缩被定义为，其非语音音频信号的声能量的至少50％被集中在一频谱带宽中，该频谱带宽充分小于典型人发声的频谱带宽。本文中的充分小于意思是大约10％或更小于人的话音频谱带宽。例如，人讲话的频谱分量典型地落在约100Hz到约5kHz的范围内。电磁频谱的话音频带，例如从约300Hz到约3kHz，经常被用于通过电话设备传达声音信号。参考图1B，频谱压缩的音频信号可使得至少50％的声能量集中在约十分之一的话音频带的带宽Δf内，例如约500Hz或更小。

这里描述的各种实施例提供了改进与话音激活的系统，例如话音应答系统(VRS)和话音控制电子设备(这里被称为VRD)，通信的设备、系统和方法。尽管这样的系统或设备可能在低环境噪音的状态下工作良好，但当背景噪音的级别变得太大时，设备或系统性能可以因为差的话音命令识别而下降。当背景噪音包含可掩盖或接近于自动系统或设备的用户说出的有意图的语音命令的谈话或其它话语源时，这个问题变得尤其明显。

发明人已认识到上述的话语命令的困难可通过提供在典型被解释为话语的声音组外的音频能量的短突发被充分地减轻。在各种实施例中，不发声的声音，或在用户所说的语言中的普通谈话中很少或根本不被使用的声音，被用来与该系统或设备通信。

如在这里所使用的，术语“非语音命令”被用来包括由人发声产生的非语言声音。相反，“语音命令”指的是人发声产生的大于单个辅音的词语或词语的部分。非发音命令可在一些实施例中被用来暗示接收系统或设备发音命令即将来临，或可增加或替换一些或所有的发音命令以致于发音命令不必须与该系统或设备通信。术语“非发音命令”明确地排除了电子生成的波形。

如在这里所使用的，“语言”明确地排除了依靠吸气辅音的语言，例如俗语被称作“啧啧声”的语言，其中科萨人使用的班图语是一个例子。

在这里，术语“时域”可被简写成“TD”，这样的缩写并不影响本公开的清楚性。相似地，术语“频域”可被缩写为“FD”。

由图1A和1B中的一个或两者表示的非发音命令可被叠加在背景音频信号上。该背景可由，例如几个人同时说话(例如在聚会或会议中)，机器，道路噪音等产生。背景噪音可关于时间、频率或两者相对一致，但是非必需的。非发音命令在频谱和/或时间上截然不同于在背景噪声中的其它声音。因此时间和/或频谱压缩的信号在背景上的叠加可期望被如下描述的鉴别电路检测出。

为了说明这一点，图2A呈现了音频信号的时域波形210，例如来自多个源的声音的混合，例如几个说话者的声音的重叠。该波形210可以是从音频换能器，例如扩音器，得到的电子信号。该波形210有约恒定强度I_o的本底噪声，但是并不这样限制实施例。在一些情况下，背景噪声的强度可以是时变的或者甚至约为零。波形210包括可代表在嘈杂房间内周围的声音的部分220。部分230包括无限制地由时间压缩的音频信号110表示的非发音命令。

图2B示出了波形210的声功率的测量。背景功率P_o在部分220之上大约是不变的，但是实施例并不这样受限。因此，在一些情况下，背景功率可以是时变的，或甚至约为零。功率尖峰240可与波形110时间上相关。功率尖峰240类似于由非语音命令生成的增加量。因此功率尖峰240可用来检测波形210内的时间压缩的音频信号110的发生。功率尖峰240是由VRS或VRD检测的增加音量的测量。

功率尖峰240和频谱120提供可被检测和使用用来确定非语音命令的发生的信号。在一些实施例中，由功率尖峰240例证的功率的时间上局部的增加可被用来不依靠频谱120而确定非语音命令的发生。在其它的实施例中，非语音命令的发生可不求助于功率尖峰240而使用频谱120被确定。在还是其它的实施例中，频谱120和功率尖峰240都被用来确定非语音命令的发生。

图3A-3B示出了在频域观看的频谱压缩的音频命令的诸方面。图3A无限制地示出了代表背景噪声的频谱310，例如在拥挤的房间内多个重叠的谈话。

尽管本发明的实施例可在无这样的背景噪音下实施，但当背景噪音存在时典型地这种实施例的好处被更充分地实现。图3B示出了频谱310和频谱120的结合的合成频谱320。在各种实施例中，频谱120的频率被挑选以致于频谱分量能被容易地区别于背景噪声频谱310的本底噪声。在这种情况下，如所说明的，频谱120的分量在合成频谱320中是可见的。如下面所描述，这些分量的检测，带有或不带有检测功率尖峰240，可被用在各种实施例中用以检测非语音命令的发生。

本公开的各种实施例现在图4、5、6A-6C和7中呈现。这些图可包括各种功能模块，且本论述可包括对这些模块的参考并描述各种模块功能和模块之间的关系。本领域技术人员将认识到这种模块之间的边界仅仅是说明性的且可供选择的实施例可合并模块或施加模块的功能性的替代的分解。例如，这里论述的模块可分解为作为多计算进程，以及可选地，在多个电子设备(例如集成电路上)，执行的子模块。而且，可供选择的实施例可组合特定模块或子模块的多个实例。此外，本领域的技术人员将认识到在示例实施例中描述的功能仅仅用于说明。根据本发明的操作可被组合，或功能的功能性可分布在附加的功能中。

图4是可根据通过音频波形405接收的非语音命令操作的电子设备400的非限制性实施例的结构图。在各种实施例中，设备400可以是有线的或无线的电话听筒，或是移动电话。但是，这些特定实施例的描述并不意图将本公开的范围限制为这些设备。

设备400包括音频接收器401，其包括音频换能器410和模数转换器(ADC)420。音频换能器410被配置用来将音频波形405转换为其模拟电表示，在这里被称为音频信号。ADC420将音频信号转换为音频波形405的数字化表示，在这里被称为数字音频波形。

命令鉴别器430接收数字音频波形并执行如下面进一步描述的各种处理功能。处理功能可根据存储于存储器435的指令被执行。命令鉴别器430的功能可以以任何常规的或非常规的方式实现，包括无限制的商业或专用集成电路、状态机、可编程序逻辑、微控制器或数字信号处理器(DSP)。

在由命令鉴别器430提供的功能中有快速傅里叶变换(FFT)440，频域分析器450和时域分析器460。如本领域技术人员很好理解的，FFT440可确定接收到的音频波形405的频谱445，或更精确地数字音频波形。频谱445的分量可特征化各种类型的发声的和不发声的声音，如上面所描述。频域分析器450可执行频谱模式识别以在频谱445内识别未与正常发声相关联的声音。

时域分析器460也接收数字音频波形。时域分析器460可分析数字音频波形以确定时间压缩的功率尖峰(例如功率尖峰240)的发生。在一些情况下，命令鉴别器430可使用检测的功率尖峰的发生来在时间上本地化数字音频波形中的非语音命令的频谱特征。在其它情况下，命令鉴别器430可使用功率尖峰的特征和频谱445的特征来确定非语音命令的发生。

命令鉴别器430可从典型地在讲话中生成的发声中区别特定的声音。命令鉴别器430可使用频域分析器450、时域分析器460或两者做出这样的确定。命令鉴别器430可，例如，通过时域分析器460确定时间压缩的声音的发生。时间压缩的声音典型地有轮廓，其可被时域特征(例如，强度、持续时间、上升时间、下降时间和响声)特征化。这些特征在一些情况下可以是足够的由此以高置信水平确定时间压缩的声音是音频命令。

命令鉴别器430也可通过频谱特征确定音频命令的发生。来自特定源的声音将典型地具有特定的频谱特征。当检测的频谱特征匹配存储于存储器435中的若干模型特征之一时，命令鉴别器430可确定音频命令的发生。音频命令可以是频谱压缩的，为音频命令存在于接收的音频流中提供高可信度。

在一些实施例中，命令鉴别器430可从频域分析器450和时域分析器460中的一个或另一个确定命令识别的可信度水平，并且如果可信度水平低于预定的阈值，则仅执行其它的分析。这样的方法可在一些情况下降低命令鉴别器430上的总处理负担。

非语音命令典型地将包括允许命令鉴别器430区分非语音命令与正常讲话的时间上的和频谱的特征。在一些情况下，这样的声音可由通常不关联于特定语言中的口语单词的声音的发声而产生。例如，说话者可用吸气音(click)、砰砰声(pop)或单个辅音来生成该频谱120。

一类音频命令包括清楚的发声。例如，通常印欧语系的语言，特别是英语，不包括孤立的“吸气音”。吸气音可定义为列在国际音标(IPA)中的若干辅音中的一个。在非限制性例子中，国际音标包括四个前吸气都释放：层齿槽的摩擦吸气音(fricated click)；用舌尖发音的齿槽突然的吸气音；层后齿槽突然的吸气音；和边齿槽摩擦吸气音。使用时域和频域分析的一个或两者，命令鉴别器430在一些实施例中配置用来辨别在正常的谈话中这样的吸气音的出现，例如作为口语单词的一部分，和孤立的吸气音的出现。这样的配置可包括通用辨别模型，意为应用到许多或多数用户，或可包括由设备400的特别用户的培训。

培训可通过培训模式完成。该培训模式可，例如，向用户提示其期望的合成语音命令，此后用户可生成一个或多个非语音命令，设备400将自此以后转换非语音命令为期望的合成的命令。相关领域的技术人员熟悉各种培训方法。

DSP可附加地或可供选择地被配置用来区别发声的和非发声的声音。非发声的声音可包括敲击或叩击固体表面、口哨或弹响指。在其它情况下，非语音命令可大致人为生成，例如通过电子或机械设备，该电子或机械设备配置用来生成具有期望的时间压缩和/或频谱压缩的特征的声音。

在一些实施例中，命令鉴别器430包括命冷合成器470。命令合成器470可确定由非语音命令指定的命令并形成传送等同的合成语音命令的音频波形。合成命令在这里可涉及语音命令，即使其不是由说话人生成。在一些实施例中，命令合成器470从频域分析器450和时域分析器460中获得输入并从音频波形405的时域和频域特征中确定意图的语音命令。例如，单个发声的吸气音可被翻译为“否”，而两次吸气音(例如，发生在预定时期内的两次吸气音)可被翻译为“是”。当然，其它吸气音的组合，或其它非语音命令，可被翻译为其它合成的语音命令。

当命令鉴别器430确定对应于一个或多个非语音命令的语音命令时，命令鉴别器430可控制多路复用器(MUX)480以选择用于传输到接收系统的合成的语音命令。发射机490接收MUX480的输出并在一些实施例中通过天线495传输比特流。在其它的实施例中，发射机490使输出数据适应于通过电线传输到有线电话网络499(例如，“普通老式电话系统”，或POTS)。因此，在这样的实施例中，非语音命令实际不是由设备400传输的。反而，接收系统，例如VRS，接收与语音命令(例如“是”或“否”)一致的波形。在没有检测到的非语音命令的情况下，命令鉴别器430可控制MUX480传输由ADC420提供的数字音频波形。

接下来参考图5，根据一非限制性实施例，提出一种方法500，用于说明设备400的操作。在步骤510中，命令鉴别器430监控数字音频波形等功率尖峰(例如功率尖峰240)的出现。如果命令鉴别器430没能检测到功率尖峰，方法500返回至步骤510。如果命令鉴别器430检测到功率尖峰的存在，该方法前进到步骤520。

在步骤520中，命令鉴别器430确定数字音频波形的频谱，例如在功率尖峰发生时，计算FFT。相关领域技术人员将意识到这样的确定可包括缓冲数字音频波形数据，以允许在数据中检测到功率尖峰之后，执行频谱分析。这样的缓冲数据可被存储，例如在存储器435中。在步骤520之后，方法500前进至步骤530。

在步骤530中，命令鉴别器430试图匹配在步骤520中确定的频谱与许多模型频谱中的一个，或模型频谱的数学描述。模型频谱或它们的数学描述可被存储，例如在存储器435中。该匹配可包括，例如，描述配合质量的各种指标的确定，和匹配概率。

在步骤540中，命令鉴别器430可确定是否发生了匹配。命令鉴别器430可要求匹配概率超过一预定的概率阈值，以具有资格作为匹配候选，并可报告具有最高概率的匹配候选作为匹配频谱。匹配指示非语音命令的发生。如果命令鉴别器430确定匹配的发生，方法500前进至步骤550。如果没有发现匹配，该方法500返回至步骤510。

在步骤550，命令鉴别器430从语音命令波形库中接收对应于接收到的非语音命令的语音命令波形。该波形，例如，可以是生成对应于非语音命令的合成的语音命令的算法，或者可以是采样波形。

在步骤560中，命令鉴别器430合成语音命令，例如，通过命令合成器470。在步骤570中，命令鉴别器430控制MUX480用合成的语音命令替换数字音频波形以用于输入到发射机490。合成的语音命令然后替代非语音命令被传输。

转向图6，根据本发明的另一实施例的系统600被说明。该系统600可共享设备400的几个特征，例如命令鉴别器430、存储器435、FFT440、频域分析器450和时域分析器460。除非另有描述，否则这些模块如之前描述的那样操作。系统600还包括输入接口610和功能块620。

取决于系统600的预期的应用，输入接口610可采用多个不同的形式。在一些实施例中，系统600包括话音激活的电子设备，例如，全球定位系统(GPS)导航仪、智能电话、数字备忘录记录器或诸如此类。在这样的实施例中，输入接口610可如为接收器401(图4)描述的被配置。因此，输入接口610可包括音频换能器410和ADC420用以接收音频波形并转换该波形至数字音频波形。命令鉴别器430如之前描述的那样可操作数字音频波形以检测非语音命令的出现。

命令鉴别器430可传送非语音命令的出现并和特征至功能块620。功能块620然后可操作以执行与非语音命令一致的设备600的核心功能。

例如，功能块可包括GPS接收器630和映射函数(未显示)。GPS接收器630可被配置用来响应语音话音命令。由于公路噪声或其它机舱背景噪声，如之前描述的，GPS接收器630较难区分背景噪声与一些话音命令。非语音命令可被用来替代或附加给语音命令，以控制GPS接收器630的功能。在一些实施例中，GPS接收器630被配置用来从命令鉴别器430中解释电子信号为等价于各种语音命令。在其它的实施例中，命令鉴别器430包括命令合成器470并响应于非语音命令提供语音命令至GPS接收器630。相似地，功能块620的其它实施例，例如记录器或智能电话，可被配置用来从命令鉴别器430中接收指示非语音命令发生的电子信号，或可接收合成的语音命令，然后操作以执行其核心功能，分别例如记录和通话。

在一些实施例中，命令鉴别器430和/或其相关的功能可被紧密地集成于包括动能块620的设备中。例如，智能电话或GPS单元可包括处理器和存储器，并可配置用来实现FFT440、频域分析器450和时域分析器460。因此，在这样的实施例中，智能电话、GPS或相似的设备，可不包括附加部件以实现命令鉴别器430。

另一个实施例由图7描述，其说明了一系统700，例如VRS的实施例，其可被银行或其它服务提供者使用提示呼叫者提供话音应答以操纵对于呼叫者可用的特征树。系统700包括接收器710、命令鉴别器(CD)720和VRS730。接收器710和VRS730除了必要的修改以外，可以是常规的，该必要的修改用来操作以下描述的附加特征。接收器710可包括从天线740接收无线信号或从POTS745接收有线信号的功能。接收器710可解调所接收的信号并从其提取话音命令。命令鉴别器720可确定接收的话音命令是语音命令并空制MUX750以传送该话音命令至VRS730。

如果替代地，命令鉴别器720如之前描述的那样确定非语音命令的发生，那么命令鉴别器720可控制合成器760合成相应的语音命令，并控制MUX750传送合成的语音命令至VRS730。以这种方式，当呼叫者在嘈杂的环境中时，系统700可提供呼叫者使用非语音命令与VRS730通信的能力。在一些实施例中，命令鉴别器720的功能可与VRS730紧密地结合，以致于命令鉴别器720直接传送所接收的非语音命令至VRS730，而不需要合成该语音命令。在一些实施例中，通过带外信令，非语音命令可被传送至命令鉴别器720，从而绕过话音频带。

在数字信号处理过程领域的技术人员熟悉需要配置这里描述的设备400和/或系统600和/或系统700的必备技术。例如，这样的技术人员熟悉从数字化记录中识别和移除砰砰声和其它类似声音的各种方法。这样的方法如需要的话，可在没有不适当的实验下被应用或适用，以在本公开的范围内实现上述的实施例和其它实施例。

转向图8，呈现一种制造方法800，用于例如形成上述实施例，例如设备400，或系统600和700。方法800的步骤通过参考这里之前描述的元件(例如在图4-6中)被非限制性地描述。方法800的步骤可以不同于说明的顺序的另一顺序被执行，而在一些实施例中可被全部省略。

在步骤810中，接收器，例如接收器401，被配置用来生成接收的音频信号的数字表示，例如数字音频波形。在步骤820中，一命令鉴别器，例如命令鉴别器430，被配置用来检测数字表示内的时间和/或频谱压缩的音频命令，并响应于检测的命令控制话音激活的系统。

方法800的一些以上描述的实施例包括步骤830，其中，合成器，例如命令合成器470，被配置用来从时间和/或频谱压缩的音频命令中合成语音命令。

在方法800的一些以上描述的实施例中，压缩的音频命令是发声的吸气音。在一些实施例中，压缩的音频命令是啪啪声。在一些实施例中，接收器是电话交换系统的一部件。在一些以上描述的实施例中，接收器是话音激活的电子装置的一部件。

这个申请相关的本领域技术人员将意识到可对描述的实施例做出其它的和进一步的增加、删除、替换和修改。

Claims

1.一种声音激活的控制系统，包括：

音频接收器，配置用来接收音频波形并从其生成数字音频波形；

命令鉴别器，配置用来检测在所述数字音频波形内的时间和/或频谱压缩的非语音音频命令，且响应于所述非语音命令控制话音激活的系统。

2.如权利要求1所述的声音激活的控制系统，其中，所述压缩的音频命令是发出的吸气音。

3.如权利要求1所述的声音激活的控制系统，其中，所述压缩的音频命令是啪啪声。

4.如权利要求1所述的声音激活的控制系统，其中，所述接收器是电话交换系统的部件。

5.如权利要求1所述的声音激活的控制系统，其中，所述命令鉴别器包括配置用来从话音响应中辨别所述时间和/或频谱压缩的音频命令的话音激活的命令系统。

6.如权利要求1所述的声音激活的控制系统，其中，所述接收器是语音激活的电子装置的部件。

7.如权利要求1所述的声音激活的控制系统，其中，所述命令鉴别器包括数字信号处理器，配置用来确定所述数字音频波形中所述音频命令的发生。

8.如权利要求7所述的声音激活的控制系统，其中，确定所述发生包括执行所述数字音频波形的峰值功率分析和频谱分析两者。

9.一种电子设备，包括：

命令翻译器，配置用来检测所述数字音频波形内的时间和/或频谱压缩的非语音音频命令，且响应于所述非语音音频命令控制话音激活的系统。

10.一种提供话音激活的控制的方法，包括：

提供配置用来将接收到的音频波形转换为数字音频波形的模数转换器；

将命令鉴别器耦合至所述模数转换器，所述命令鉴别器配置用来：

检测所述数字音频波形内的时间和/或频谱压缩的非语音音频命令；以及

响应于所述非语音命令控制话音激活的系统。