CN102591455A

CN102591455A - 语音数据的选择性传输

Info

Publication number: CN102591455A
Application number: CN2011104251537A
Authority: CN
Inventors: 霍华德·洛克; 达里尔·克罗默; 斯科特·爱德华兹·凯尔索; 亚伦·迈克尔·斯图尔特
Original assignee: Lenovo Singapore Pte Ltd
Current assignee: Lenovo Singapore Pte Ltd
Priority date: 2010-12-23
Filing date: 2011-12-16
Publication date: 2012-07-18
Anticipated expiration: 2031-12-16
Also published as: DE102011054197A1; US9953643B2; DE102011054197B4; CN102591455B; US20120166184A1

Abstract

本发明涉及语音数据的选择性传输。本文描述了为语音命令装置提供的系统和方法，所述语音命令装置接收声音，但除非已经满足特定的语音过滤标准，否则并不将语音数据发送到系统之外。此外，在实施例中，装置支持语音命令操作，同时外部语音数据发送处于静音操作模式下。这样，根据实施例的装置可以响应于语音数据匹配于语音过滤标准而本地处理语音数据。此外，本文中描述的系统和方法涉及的语音命令装置捕获声音、实时逐个单词地对其进行分析、并决定是本地处置语音数据、或将其发送到外部，还是这两者。

Description

语音数据的选择性传输

技术领域

本发明涉及语音数据的选择性传输。

背景技术

语音命令技术通过用户语音指令实现装置的操作。该技术日益流行，作为结果，能够实现语音控制的装置的数量和类型稳步地增加。这一点尤其体现在用户日益需要具有“免提操作”模式的蜂窝电话以及诸如操作无线电和导航系统之类的特定的车辆功能上。用户无需通过按钮或开关来操作装置，就可以越来越安全地在使用支持语音命令的装置的同时执行其他任务。然而，当用户希望使这样的设备静音时或者当多个这样的设备处于用户语音范围内时，使用这样的设备就可能带来一定的冲突。装置选择性地管理命令或语音数据的能力将极大地增加语音命令装置的功能。

发明内容

总体而言，本发明的一个方面提供了一种系统，其包括：一个或多个处理器；系统存储器，可操作地耦接到所述一个或多个处理器；声音接收器，用于接收语音数据；和语音数据分析器，其用于确定所述语音数据是否对应于一个或多个本地语音标准；其中响应于所述语音数据对应于所述一个或多个本地语音标准：本地处置所述语音数据；和不向外部发送所述语音数据。

本发明的另一方面提供了一种方法，其包括：在声音接收器处接收语音数据；和提供语音数据分析器，所述语音数据分析器用于确定所述语音数据是否对应于一个或多个本地语音标准；其中响应于所述语音数据对应于所述一个或多个本地语音标准：本地处置所述语音数据；和不向外部发送所述语音数据。

本发明的另一方面提供了一种计算机程序产品，其包括：其上体现有计算机可读程序代码的计算机可读存储装置，所述计算机可读程序代码包括：用于在声音接收器处接收语音数据的计算机可读程序代码；和用于提供语音数据分析器的计算机可读程序代码，所述语音数据分析器用于确定所述语音数据是否对应于一个或多个本地语音标准；用于其中响应于所述语音数据对应于所述一个或多个本地语音标准实现如下操作的计算机可读程序代码：本地处置所述语音数据；和不向外部发送所述语音数据。

上文是概述，因此可以包括对细节的简化、概括和省略；从而，本领域技术人员将理解的是，该概述仅是示例性的，而并不意在以任何方式限制本发明。

为了更好地理解实施例及其其他和进一步的特征和优势，在下文中结合附图进行说明。

附图说明

图1示出了实施例的流程图；

图2说明了基于语音命令的预定集合的语音数据处理的示例性实施例；

图3说明了基于语音数据的音质的语音数据处理的示例性实施例；以及

图4说明了示例性的计算装置。

具体实施方式

应当理解的是，如在本文中总体描述和在本文附图中说明的实施例的各个部分可被以所描述的实施例之外的各种不同的配置来布置和设计。因此，如在附图中所表示的示例性实施例的以下更为详尽的描述并不意在限制权利要求的范围，而仅是为了表示这些示例性实施例。

在本说明书全文中对“一个实施例”或“实施例”(等)的引用表示与示例性实施例相关联而描述的特定特征、结构或特点被包括在至少一个实施例中。因此，在本说明书中各处出现的词语“在一个实施例中”或“在实施例中”并不一定均是指相同的实施例。

此外，在一个或多个实施例中可以任何适当的方式来组合所描述的特征、结构或特点。在以下的描述中，阐述了大量的具体细节以实现对示例性实施例的透彻理解。但相关领域的技术人员会认识到，无需这些具体细节中的一个或多个，或利用其他的方法、组件、材料等，也可以实践本发明的各方面。在其它情况下，并未具体示出或描述公知的结构、材料或操作，以避免使本发明变得模糊。

通过语音命令来操作装置变得越来越流行，特别是对于具有小键盘或没有键盘的智能电话、和需要免提操作的特定功能的车辆而言更是如此。然而，当由于背景噪音、多方通话的反馈、或在电话会议中使一侧的通话对于其他侧而言保持私密性而需要使装置静音时，可能会出现冲突。此外，根据现有技术的许多装置提供了用户手动关断静音以便使用语音命令的功能。该限制显然挫败了由通过语音命令以“免提”模式使用装置所带来的便利性和安全性。此外，传统的静音会停止装置的所有语音操作，而此时用户可能希望维持本地操作而仅使语音数据的传输静音。因此，人们高度需要一种能够在外界静音的同时将语音数据作为本地活动对待的装置。

实施例提供的语音命令装置接收声音，但除非已经满足特定的语音过滤标准，否则所述语音命令装置并不将语音数据传输到系统之外。此外，实施例提供的装置支持语音命令操作，同时外部语音数据传输处于静音操作模式。这样，根据实施例的装置可以响应于语音数据匹配语音过滤标准来处理本地处理语音数据。根据实施例，语音命令装置捕获声音、实时逐个单词地对其进行分析、并决定是本地处置语音数据、或将其发送到外部，还是这两者。根据实施例，通过装置接收到的语音数据可以被缓存，从而装置可以对其进行分析。此外，在实施例中，任何缓存延迟可以包括毫秒数量级的延迟。因此，可以实时地或仅以类似装置所经历的一般时间段内的延迟来执行语音数据传输或语音激活的命令。

现在参照图1，其中示出了示例性的实施例。语音数据101被通过语音数据控制系统102接收并且被缓存103。语音数据控制系统102分析语音数据101，以确定是本地处置105语音数据101还是将语音数据101发送到外部106。如果语音数据101对应于语音数据标准104，则在装置中本地处置105语音数据。另一方面，如果语音数据101并不对应于语音数据标准104，则将语音数据101发送到外部106。

根据实施例，语音过滤标准可以包括未被发送而仅在本地处理的预定或得知的语音命令的列表。非限制性的示例包括其中诸如电话、文本、和语音命令之类的命令的预定集合激活特定功能并仅被本地处理的蜂窝电话。另一非限制性的示例是具有计算机系统的车辆，所述计算机系统用于通过语音命令处置诸如导航、空调控制、声音系统和电话之类的特征，其中通过本地计算机系统来处理语音命令的预定列表。

参照图2，其中示出了示例性的实施例，在该示例性的实施例中，是否向外部传输语音数据是基于语音数据是否匹配装置命令的预定集合。在其中激活语音命令的“免提”模式下来使用蜂窝电话201。如图2所示，蜂窝电话201参与了其中与另外两个蜂窝电话203、204进行通信的会议电话202。蜂窝电话麦克风205接收包括所说出的短语“打开日历表”206的语音数据。在图2中所示的示例中，用户希望蜂窝电话201检测“打开日历表”短语206，并在蜂窝电话上启动日历表应用207，但不希望通过使其他呼叫者听到所说出的短语而中断会议电话。蜂窝电话201处理语音命令208，并确定其是否是在预定的本地命令列表209中的词语之一。由于“打开日历表”语音命令206位于预定的本地命令列表209中，通过蜂窝电话打开日历表应用207来在本地执行210“打开日历表”语音命令206。此外，并不向外对参与电话呼叫的其他呼叫者203、204发送211语音命令206。

在实施例中，装置基于说话者语音的音质来确定是否仅本地处理语音数据。根据实施例，音质特征可以包括但不限于声音大小、讲话过程中的停顿、说话者说话的速度、特定单词的重读、和讲话频率的变化。此外，在实施例中，可以将装置训练为使用音质标准。这样，在实施例中，针对诸如用户语音的音质之类的用户语音数据进行了训练的系统可以确定语音数据是否应被限制为被本地处理或被向外部发送。

参见图3，其中示出了实施例，在该实施例中，是否本地处理或向外部发送语音数据是基于音质来确定的。膝上型计算机301运行的语音应用302参与和第二计算装置303的语音数据发送。作为非限制性的实施例，语音应用可以是允许用户通过互联网在计算装置之间进行电话呼叫的软件。膝上型计算机301的语音数据控制系统304接收包括所说出的文本“音量减小”306的用户语音数据305，并对其进行分析以确定其是否包括用户以预定音质307说出的话语。语音数据控制系统304确定话语“音量减小”306是以预定音质307说出的。这样，通过膝上型计算机来仅本地处理话语“音量减小”306以降低装置音量308，而并不通过语音应用302来向外部发送311话语“音量减小”306。如图3中所示，语音数据控制系统304还分析包括所说出的话语“我明天会再打电话”310的用户语音数据309。语音话语控制系统确定话语“我明天会再打电话”310并不是以特定的音质307而被说出的。与之形成对比的是，话语“我明天会再打电话”310是以常规的交谈语调而被说出的，并且话语“我明天会再打电话”会被通过语音应用302向外部发送311。

根据实施例，可以基于在经训练的用户语音中的不连续的话语或停顿(包括但不限于，检测与常规交谈讲话相对的讲话中的停顿)来确定是否仅在装置处本地处理语音数据。作为非限制性的示例，GPS导航装置可以具有“去<地点>”命令，用于为GPS导航程序设置<地点>作为用户指定的地点。根据该非限制性的示例，如果用户陈述“{停顿}...去<地点>...{停顿}”，根据实施例的语音数据控制系统可以对讲话进行分析，由于该讲话之前和之后均有停顿，因此将其分类为非常规装置语音命令。这样，语音命令系统将仅本地处置语音数据，并将GPS导航程序的地点设置为<地点>。另一方面，如果用户陈述他“如果我有时间则这周可能去<地点>”，由于其缺乏区别性停顿，因此该装置将辨识短语“去<地点>”处于常规会话中。从而，装置不会将GPS导航程序的地点设置到<地点>，并将允许向外部发送语音数据。

此外，实施例基于涉及特定的多单词短语或单词对的单词过滤标准来确定语音数据是否是本地的。作为非限制性的示例，GPS导航装置不会将孤立的单词“导航”作为禁止向外部发送的语音命令。然而，导航装置可以响应于涉及作为语音命令的诸如“导航开始”或“导航关闭”之类的多单词对的语音命令。这样，将通过装置仅本地处理语音命令，而不会将语音命令向外部发送。

根据实施例，语音过滤标准可以基于对由装置发起的验证请求的用户响应来确定。作为非限制性的示例，膝上型计算机询问是否可以将由装置接收的特定单词或短语发送到本地装置之外。随后，如果装置接收诸如用户说出的、指示出用户希望发送语音数据的话语“是”，则装置将向外部发送语音数据。否则，装置将仅本地处置语音数据。

在实施例中，装置可以基于是否通过非语音方法启用或禁用语音命令模式来确定是否仅本地维持语音数据。这种非语音方法包括但不限于按钮按下、触摸屏手势、脸部识别、与装置之间的实际手势、和通过照相机检测到的实际手势。作为非限制性的示例，当由用户使用蜂窝电话的键盘到达一定时间段(例如，五秒)之后，该蜂窝电话可以处理语音命令。在该示例中，如果键盘被视为非活动的(例如当用户正打电话时)，则可以将语音命令发送到装置之外。根据另一非限制性示例，具有检测用户手势的照相机的计算装置可以基于检测到或未检测到特定用户手势来确定是否本地处理语音命令或将它们向外部发送。

根据实施例，在静音操作期间支持装置的语音命令操作。这样，特定的实施例提供了“声音防火墙”，其中装置的麦克风保持有效，但除非满足特定标准，否则不会将声音发送到装置之外。在实施例中，用户可以激活装置上的静音操作，这样就不会将用户的语音向外部发送，但语音命令保持有效。作为非限制性的示例，参与会话的用户的智能电话用户可以将智能电话置于静音操作，从而其它呼叫者不会听到用户的语音。然而，尽管智能电话处于静音操作中，但是智能电话也仍会接收用户语音来处理语音激活的命令，但并不将用户的语音向外部发送。

根据实施例的装置可以提供涉及语音输入处理的状态的用户反馈，语音输入处理的状态涉及但不限于识别语音是否正在被识别、是否受限于本地环境、是否被发送到装置之外，以及是否已经初始化语音命令。作为非限制性的示例，装置屏幕可以显示指示是否正在接收语音数据的均衡条(equalizer bar)，可以提供动态图标，所述动态图标的颜色和文本取决于语音数据是否被限制到本地处理或语音数据是否被向外部发送。

在实施例中，可以基于在上文中公开的语音过滤标准的组合来确定是否仅本地处理语音数据或向外部发送语音数据。作为非限制性的示例，可以基于在语音数据中包括的话语是否处于预定列表中并以适当的音质被说出来执行这种确定。

图4示出了计算系统和电路的一个示例的框图，但也可以使用其他的电路或电路系统。该系统可以是桌上型计算机系统，例如由位于美国北卡罗来纳州Morrisville的联想(美国)公司出售的

系列个人计算机之一；然而，根据本说明书显而易见的是，客户端装置或其它机器可以包括其它特征或图4中所示出的系统特征中的仅仅一些特征。此外，还可以在其他装置中使用计算机系统和电路，所述其他装置包括但不限于智能电话、个人数字助理(PDA)、或在车辆中嵌入的计算系统。

图4的计算机系统包括所谓的芯片组410(一起工作的集成电路或芯片的集群，芯片组)，所述芯片组410根据制造商(例如，

等)而不同。芯片组410的结构包括核心、存储器控制集群420、和经由直接管理接口(DMI)442或链路控制器444交换信息(例如，数据、信号、命令等)的I/O控制器中心450。在图4中，DMI 442是芯片对芯片接口(有时是指“北桥”和“南桥”之间的链路)。核心和存储器控制集群420包括一个或多个处理器422(例如，单核心或多核心)和经由前端总线(FSB)424交换信息的存储控制器中心426；需要注意的是，集群420的组件可以被集成在取代传统“北桥”风格结构的芯片中。

在图4中，存储控制器中心426连接到存储器440(例如，以提供对可以被称作为“系统存储器”的一种RAM的支持)。存储控制器中心426还包括用于显示装置492(例如，CRT、平板、投影机等)的LVDS接口432。块438包括可以经由LVDS接口432(例如，串行数字视频、HDMI/DVI、显示端口)支持的一些技术。存储控制器中心426还包括支持离散图形436的PCI-express接口(PCI-E)434。

在图4中，I/O中心控制器150包括SATA接口451(例如，HDD、SDD等)、PCI-E接口452(例如，用于无线连接182)、USB接口453(例如，用于诸如数位器、键盘、鼠标、照相机、电话、存储装置之类的输入装置484)、网络接口454(例如，LAN)、GPIO接口455、LPC接口470(用于ASIC 471、TPM 472、超级I/O 473、固件中心474、BIOS支持475、以及诸如ROM 477、闪存478和NVRSM 479之类的各种存储器476)、功率管理接口461、时钟发生器接口462、音频接口463(例如，用于扬声器494)、TCO接口464、系统管理总线接口465、SPI闪存466(其可以包括BIOS 468和引导代码490)。I/O中心控制器450可以包括千兆以太网支持。

一旦上电，系统可以用于执行在SPI闪存466中存储的BIOS 468的引导代码490，并在之后在(例如存储于系统存储器440中的)一个或多个操作系统和应用软件的控制下处理数据。操作系统可以被存储在各个位置的任何一个中，并且例如根据BIOS 468的指令来访问操作系统。如在本文中所述的，装置可以包括比图4的系统中所示的特征更多或更少的特征。

在实施例中，语音命令装置接收声音，但除非已经满足特定的语音过滤标准，否则不会将语音数据发送到系统之外。如上所述，语音命令装置包括能够通过语音命令被控制的装置，包括但不限于蜂窝电话、PDA、计算机和车辆计算机系统。

根据实施例，可以与具有或不具有语音命令功能的其它装置结合地使用语音命令装置。作为非限制性的示例，蜂窝电话何以耦接到车辆计算机系统或膝上型计算机。这样，在实施例中，语音命令系统可以包括其中至少一个处置语音命令的多个装置。根据实施例，一个装置可以用作本地装置，而其它装置可以用作辅助装置。作为涉及与车辆计算机系统耦接的蜂窝电话的非限制性的示例，车辆计算机系统可以用作本地装置，以处置语音数据，而电话用作辅助装置。此外，在该非限制性的示例中，车辆计算机系统能够进行具有特定特征的语音命令“免提”操作，蜂窝电话可以被集成到系统中，并通过由本地车辆计算机系统处置的语音命令来操作。这样，在实施例中，在本地装置处处置语音数据可以涉及传送语音数据以在辅助装置处进行处置。

应当理解的是，在本说明书中描述的实施例的功能特征可以被实现为模块。模块可以包括诸如具有存储器、可编程逻辑、和/或离散组件的一个或多个处理器之类的硬件电路。硬件电路可以执行硬件逻辑功能，执行在非信号存储装置上存储的计算机可读程序，和/或执行编程的功能。计算机可读程序可以结合执行实施例功能的其它元件。

本领域一般技术人员将理解的是，实施例可以采用整个硬件实施例的形式或采用包括硬件和软件元件两者的实施例的形式。以软件实现的实施例可以包括但不限于固件、驻留软件、微代码等。

计算机可读程序可以被存储在任何非信号介质上。非信号介质的示例包括半导体或固态存储器、磁带、可移动计算机盘、随机存取存储器(RAM)、只读存储器(ROM)、硬质磁盘和光盘。光盘的当前示例包括紧凑盘-只读存储器(CD-ROM)和紧凑盘-读/写(CD-R/W)和DVD。

相应地，可以在运行适当软件程序的至少一个电子装置上实现单元。这些单元还可以被实现在至少一个集成电路或至少一个集成电路的一部分上。因此，应当理解的是，可以硬件和软件的组合来实现实施例。另外，计算机/机器可读程序可以与执行实施例功能的电子装置相结合。

出于说明和描述的目的而呈现了本公开，但本公开并不是穷尽的或限制性的。对于本领域一般技术人员而言许多修改和变更均是显而易见的。选择和描述实施例是为了解释主旨和实际应用，并使得本领域一般技术人员能够理解可以对本公开的各个实施例进行各种各样的修改，以适合于所构思的具体应用。

在阐述了示例性实施例的附图和说明书中，尽管使用了特定的词语，但所给出的描述仅以总体和说明性的方式使用术语，其并不是限制性的。

Claims

1.一种系统，包括：

一个或多个处理器；

系统存储器，所述系统存储器被可操作地耦接到所述一个或多个处理器；

其中，响应于执行能够由所述一个或多个处理器访问的计算机可读程序代码，所述一个或多个处理器用于：

接收由声音接收器获得的语音数据；和

对所述语音数据进行分析，以确定所述语音数据是否对应于一个或多个本地语音标准；

其中，响应于所述语音数据对应于所述一个或多个本地语音标准：

本地处置所述语音数据；和

不向外部发送所述语音数据。

2.根据权利要求1所述的系统，其中，响应于所述语音数据并不对应于所述一个或多个本地语音标准，向外部发送所述语音数据。

3.根据权利要求1所述的系统，其中，所述一个或多个本地语音标准包括单词的预定集合。

4.根据权利要求1所述的系统，其中，所述一个或多个本地语音标准包括所述语音数据的音质。

5.根据权利要求1所述的系统，其中，所述一个或多个本地语音标准包括所述语音数据中的一个或多个非说话性的停顿。

6.根据权利要求1所述的系统，还包括语音数据缓存器，所述语音数据缓存器用于在进行分析之前对所接收到的语音数据进行缓存。

7.根据权利要求1所述的系统，还包括一个或多个系统语音命令，所述系统语音命令用于调用系统功能。

8.根据权利要求7所述的系统，其中本地处置所述语音数据包括将所述语音数据作为所述一个或多个系统语音命令进行处理。

9.根据权利要求1所述的系统，还包括：

静音控制，用于启用静音操作模式；

其中，响应于所述静音操作模式被启用：

本地处置所述语音数据；和

不向外部发送所述语音数据。

10.根据权利要求1所述的系统，还包括：

显示屏幕，用于显示与所述语音数据相关的反馈；

其中，从包括如下各项的组中选择反馈：所述声音接收器是否正在接收语音数据，是否本地处置或向外部发送所述语音数据，和是否已经激活一个或多个语音命令。

11.一种方法，包括：

在声音接收器处接收语音数据；和

本地处置所述语音数据；和

不向外部发送所述语音数据。

12.根据权利要求11所述的方法，其中，响应于所述语音数据并不对应于所述一个或多个本地语音标准，向外部发送所述语音数据。

13.根据权利要求11所述的方法，其中，所述一个或多个本地语音标准包括单词的预定集合。

14.根据权利要求11所述的方法，其中，所述一个或多个本地语音标准包括所述语音数据的音质。

15.根据权利要求11所述的方法，其中，所述一个或多个本地语音标准包括所述语音数据中的一个或多个非说话性的停顿。

16.根据权利要求11所述的方法，还包括语音数据缓存器，所述语音数据缓存器用于在进行分析之前对所接收到的语音数据进行缓存。

17.根据权利要求11所述的方法，还包括一个或多个系统语音命令，所述系统语音命令用于调用系统功能。

18.根据权利要求17所述的方法，其中本地处置所述语音数据包括将所述语音数据作为所述一个或多个系统语音命令进行处理。

19.根据权利要求1所述的方法，还包括：

静音控制，用于启用静音操作模式；

其中响应于所述静音操作模式被启用：

本地处置所述语音数据；和

不向外部发送所述语音数据。

20.一种计算机程序产品，包括：

包含计算机可读程序代码的计算机可读存储装置，所述计算机可读程序代码包括：

用于在声音接收器处接收语音数据的计算机可读程序代码；和

用于对所述语音数据进行分析，以确定所述语音数据是否对应于一个或多个本地语音标准的计算机可读程序代码；

用于其中响应于所述语音数据对应于所述一个或多个本地语音标准而实现如下操作的计算机可读程序代码：

本地处置所述语音数据；和

不向外部发送所述语音数据。