CN103824559A

CN103824559A - 插入用于电子会议的语音命令

Info

Publication number: CN103824559A
Application number: CN201310581255.7A
Authority: CN
Inventors: J·A·克拉利; R·J·霍曼; J·奥康纳; M·E·沃利斯; T·L·沃尔夫
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2012-11-19
Filing date: 2013-11-19
Publication date: 2014-05-28
Anticipated expiration: 2033-11-19
Also published as: US9093071B2; US9087516B2; CN103824559B; US20140142951A1; US20140142950A1

Abstract

本公开描述了一种用于识别协作者（collaborator）的方法、计算机程序产品以及系统。与语音命令的递送相关联的命令前驱被接收，所述语音命令与电子会议相关联。包括该语音命令的音频信号被接收。至少部分地基于接收命令前驱，该音频信号的一部分被识别为表示该语音命令。该语音命令被解释。使所述经解释的语音命令被执行。

Description

插入用于电子会议的语音命令

技术领域

本公开涉及使用语音命令。

背景技术

在各种情形中，个人和/或群体可以参与到电子会议中。电子会议可以是通过电子手段所促成的个人之间的交互。例如，通信应用可以促成多个个人之间的允许（enable）话音、文本和/或视频的通信会话。除了话音、文本和/或视频通信之外或者作为其替代，某些电子会议可以包括向会议参与者呈现音视频媒体。例如，某些通信应用可以允许会议参与者观看和/或控制各种幻灯片或其它内容的呈现。在电子通信的环境中，个人有时会采用语音命令以便激活和/或控制各种功能。

发明内容

根据本公开的一个方面，一种计算机实现的方法包括由一个或多个计算设备接收与语音命令的递送相关联的命令前驱，所述语音命令与电子会议相关联。该方法包括由所述一个或多个计算设备接收包括该语音命令的音频信号。该方法包括由所述一个或多个计算设备至少部分地基于接收命令前驱来将该音频信号的一部分识别为表示该语音命令。该方法包括由所述一个或多个计算设备对该语音命令进行解释。该方法包括由所述一个或多个计算设备促使经解释的语音命令的执行。

以下特征的一个或多个可以被包括。该方法可以包括在音频信号被提供至电子会议中的一个或多个参与者之前，由所述一个或多个计算设备从该音频信号去除与该语音命令相关联的音频信息。所接收的命令前驱可以源自于静音的参与者，其中该参与者被非本地静音。该命令前驱可以是音频信号。该命令前驱可以是键盘输入。该命令前驱可以是定制的前驱。语音命令的执行可以包括将跟在该语音命令之后的音频信号的一部分转换为文本。包括该语音命令的音频信号可以源于移动计算设备。

根据本公开的另一个方面，一种计算机程序驻留在计算机可读存储介质上并且具有存储于其上的多个指令。当被处理器执行时，该指令使处理器执行操作，该操作包括接收与语音命令的递送相关联的命令前驱，所述语音命令与电子会议相关联。该操作包括接收包括该语音命令的音频信号。该操作包括至少部分地基于接收命令前驱来将该音频信号的一部分识别为表示该语音命令。该操作包括对该语音命令进行解释。该操作包括促使经解释的语音命令的执行。

以下特征的一个或多个可以被包括。该操作可以包括在音频信号被提供至电子会议中的一个或多个参与者之前，从该音频信号去除与该语音命令相关联的音频信息。所接收的命令前驱可以源自于静音的参与者，其中该参与者被非本地静音。该命令前驱可以是音频信号。该命令前驱可以是键盘输入。该命令前驱可以是定制的前驱。语音命令的执行可以包括将跟在该语音命令之后的音频信号的一部分转换为文本。包括该语音命令的音频信号可以源于移动计算设备。

根据本公开的另一个方面，一种计算机系统包括一个或多个处理器以及与所述一个或多个处理器相耦合的一个或多个存储器架构。所述一个或多个处理器被配置为接收与语音命令的递送相关联的命令前驱，所述语音命令与电子会议相关联。所述一个或多个处理器被配置为接收包括该语音命令的音频信号。所述一个或多个处理器被配置为至少部分地基于接收命令前驱来将该音频信号的一部分识别为表示该语音命令。所述一个或多个处理器被配置为对该语音命令进行解释。所述一个或多个处理器被配置为促使经解释的语音命令的执行。

以下特征的一个或多个可以被包括。所述一个或多个处理器被配置为在音频信号被提供至电子会议中的一个或多个参与者之前，从该音频信号去除与该语音命令相关联的音频信息。所接收的命令前驱可以源自于静音的参与者，其中该参与者被非本地静音。该命令前驱可以是音频信号。该命令前驱可以是键盘输入。该命令前驱可以是定制的前驱。语音命令的执行可以包括将跟在该语音命令之后的音频信号的一部分转换为文本。包括该语音命令的音频信号可以源于移动计算设备。

根据本公开的一个方面，一种计算机实现的方法包括由一个或多个计算设备接收与语音命令的递送相关联的命令前驱，所述语音命令与电子会议相关联，其中该命令前驱是定制的音频信号。该方法包括由所述一个或多个计算设备接收包括该语音命令的音频信号。该方法包括由所述一个或多个计算设备至少部分地基于接收命令前驱来将音频信号的一部分识别为表示该语音命令。该方法包括由所述一个或多个计算设备对该语音命令进行解释。该方法包括由所述一个或多个计算设备促使经解释的语音命令的执行。该方法包括在音频信号被提供至电子会议中的一个或多个参与者之前，由所述一个或多个计算设备从音频信号去除与该语音命令相关联的音频信息。

在以下的附图和描述中阐明了一种或多种实现的细节。其它特征和优点将从描述、附图和权利要求变得显而易见。

附图说明

图1是耦合至分布式计算网络的语音命令处理的图解视图；

图2是由图1的语音命令处理执行的处理的流程图；

图3是图1的语音命令处理的实现的图解视图；

图4是图1的语音命令处理的实现的图解视图；

在各附图中的相同的附图标记指示相同的元素。

具体实施方式

如本领域技术人员将会意识到的，本发明可以被体现为方法、系统或计算机程序产品。相应地，本发明可以采取全硬件实施例、全软件实施例（包括固件、驻留软件、微代码等）或者将软件和硬件方面相结合的实施例的形式，它们在这里通常都可被称之为“电路”、“模块”或“系统”。此外，本发明可以采取计算机可用存储介质上的计算机程序产品的形式，该计算机可用存储介质具有包含在该介质中的计算机可用程序代码。

可以利用任意合适的计算机可用或计算机可读介质。计算机可用介质可以是计算机可读信号介质或计算机可读存储介质。计算机可用或计算机可读存储介质（包括与计算设备或客户端电子设备相关联的存储设备）例如可以是电子、磁、光学、电磁、红外或半导体系统、装置或设备，或者以上的任意合适的组合，但是并不限于此。计算机可读介质的更加具体的示例（非穷尽列举）将包括以下：具有一条或多条线的电连接、便携式计算机磁盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器（CD-ROM）、光学存储设备。在本文的上下文中，计算机可用或计算机可读存储介质可以是能够包含或存储用于由指令执行系统、装置或设备使用或者与其相结合使用的程序的任意有形介质。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、Smalltalk、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络（包括局域网(LAN)或广域网(WAN)）连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。

下面将参照根据本发明实施例的方法、装置（系统）和计算机程序产品的流程图和/或框图描述本发明。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些计算机程序指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。

也可以把这些计算机程序指令存储在计算机可读介质中，这些指令使得计算机或其它可编程数据处理装置以特定方式工作，从而，存储在计算机可读介质中的指令就产生出包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的指令的制造品（article of manufacture）。

计算机程序指令还可以被加载到计算机或其它可编程数据处理装置上以使一系列操作步骤在该计算机或其它可编程装置上被执行以产生计算机可实现的处理，使得在计算机或其它可编程装置上执行的指令提供用于实现在流程图和/或框图的一个或多个方框中规定的功能/动作。

在各种个人、专业或其它环境中，个人或个人群体会发现电子通信（即，参与到电子会议中）是有用的。例如个人可以参与到会议呼叫、在线会议等中。在某些实施例中，个人可以参与到允许视频的通信会话中，在该通信会话中他们可以经由视频显示而观看到其它参与者中的一个或多个和/或其它内容。在某些实施例中，电子会议中的参与者可以观看和/或控制幻灯片和/或其它电子内容的呈现。在某些实施例中，来自电子会议中的参与者的语音数据可以被变换为文本内容（例如，使用各种已知的语音-文本处理）。

作为电子会议的一部分，对于参与者而言，具有通过使用语音命令来控制会议的方面的选择会是有用的。例如，对于参与者而言，能够使用语音命令来使其连接静音（mute）或解除静音（un-mute）、控制多媒体资料（例如，电子幻灯片、视频、音频段等）的呈现、控制语音数据向文本内容的转录（transcription）等均会是有用的。语音命令可以通过使用各种已知技术（诸如，例如交互式语音应答（IVR））来解释和实现。然而，将语音命令与非命令音频和/或与命令相关联的其它内容进行区分可能是困难/或资源密集（resource intensive）的。语音命令（VC）处理例如可以通过基于识别（identify）语音命令前驱（precursor）和/或执行各种其它功能促成语音命令的辨识（recognition）和执行来处理这些和其它问题。

现在参考图1，VC处理可以耦合至计算机或计算机网络。例如，服务器VC处理10可以驻留在可连接至网络14（例如，因特网或局域网）的服务器计算机12上并且由该服务器计算机执行。服务器计算机12的示例可以包括但不限于：个人计算机、服务器计算机、一系列服务器计算机、小型计算机和/或大型计算机。服务器计算机12可以是运行网络操作系统的web服务器（或一系列服务器），该网络操作系统的示例例如可以包括但不限于：Microsoft

Windows ServerNovell

Netware

或Red Hat

Linux

（Microsoft和Windows是Microsoft公司在美国、其它国家或者二者的注册商标；Novell和NetWare是Novell公司在美国、其它国家或者二者的注册商标；Red Hat是Red Hat公司在美国、其它国家或者二者的注册商标；Linux是Linus Torvalds在美国、其它国家或者二者的注册商标。）

可以存储在耦合至服务器计算机12的存储设备16上的服务器VC处理10的指令集和子例程（subroutine）可以由整合到服务器计算机12中的一个或多个处理器（未示出）以及一个或多个存储器架构（未示出）来执行。存储设备16可以包括但不限于：硬盘驱动器、磁带驱动器、光学驱动器、RAID阵列、随机存取存储器（RAM）和只读存储器（ROM）。

服务器计算机12可以执行web服务器应用，其示例可以包括但不限于：MicrosoftIIS、Novell

Web Server^TM或Apache

Web Server，其允许通过使用一种或多种协议（经由网络14）对服务器计算机12进行访问，该协议的示例包括但不限于HTTP（即超文本传输协议）、SIP（即会话发起协议）和Lotus

Sametime

VP协议。（Webserver是Novell公司在美国、其它国家或者二者的商标；Apache是Apache SoftwareFoundation在美国、其它国家或者二者的注册商标；Lotus和Sametime是国际商业机器公司（International Business Machine Corp.）在美国、其它国家或者二者的注册商标。）网络14可以连接至一个或多个二级（secondary）网络（例如，网络18），其示例例如可以包括但不限于:局域网、广域网或内联网（intranet）。

客户端VC处理20、22、24、26可以（分别）驻留在客户端电子设备28、30、32和/或34上并且可以由它们执行，该客户端电子设备的示例例如可以包括但不限于：个人计算机28、膝上型计算机30、允许数据的移动电话32、笔记本计算机34、个人数字助理（未示出）、智能电话（未示出）以及专用网络设备（未示出）。客户端电子设备28、30、32、34均可以耦合至网络14和/或网络18并且均可以执行操作系统，该操作系统的示例可以包括但不限于：MicrosoftWindows

MicrosoftWindows CE

Red Hat

Linux

或定制的（customized）操作系统。

可以（分别）存储在（分别）耦合至客户端电子设备28、30、32、34的存储设备36、38、40、42上的客户端VC处理20、22、24、26的指令集和子例程、可以由（分别）整合到客户端电子设备28、30、32、34中的一个或多个处理器（未示出）和一个或多个存储器架构（未示出）来执行。存储设备36、38、40、42可以包括但不限于：硬盘驱动器、磁带驱动器、光学驱动器、RAID阵列、随机存取存储器（RAM）、只读存储器（ROM）、紧凑式闪存（CF）存储设备、安全数字（SD）存储设备和记忆棒存储设备。

在一个实施例中，VC处理可以是服务器侧处理（例如，其可以经由服务器VC处理10来实现），在该服务器侧处理中VC处理的所有功能均可以在服务器计算机（例如，服务器计算机12）上执行。在一个实施例中，VC处理可以是客户端侧处理（例如，其可以经由客户端VC处理20、22、24、26中的一个或多个来实现），在该客户端侧处理中VC处理的所有功能均可以在客户端计算设备（例如，客户端电子设备28、30、32、34中的一个或多个）上执行。在一个实施例中，VC处理可以是混合的服务器-客户端处理（例如，其可以由服务器VC处理10和客户端VC处理20、22、24、26中的一个或多个来实现），在该混合的服务器-客户端处理中VC处理的至少一部分功能可以经由服务器计算机12来实现，并且VC处理的至少一部分功能可以经由客户端计算设备中的一个或多个（例如，客户端电子设备28、30、32、34中的一个或多个）来实现。

在某些实施例中，VC处理可以是独立的处理。在某些实施例中，VC处理可以作为一个或多个其它处理的一部分进行操作或者与其相结合地进行操作，和/或可以包括一个或多个其它处理。例如，在某些实施例中，VC处理可以被包括在用于会议、通信或其它类型的协作（collaboration）的应用中（或者与其相结合地进行操作）。例如，VC处理可以被包括在诸如电子会议应用的产品中。

电子会议应用（EMA）（或处理）可以在客户端设备上进行操作（例如，在客户端电子设备28上进行操作的客户端EMA44；在客户端电子设备30上进行操作的客户端EMA46；在客户端电子设备32上进行操作的客户端EMA48；或者在客户端电子设备34上进行操作的客户端EMA50）（和/或驻留在该客户端设备上）。客户端VC处理（例如，客户端VC处理20）或服务器VC处理（例如，服务器VC处理10）可以与客户端EMA（例如，客户端EMA44）进行通信或者可以是客户端EMA的一部分。

另外地或可替代地，EMA可在服务器设备上进行操作（例如，在服务器计算机12上进行操作的服务器EMA52，或在另一服务器计算机（未示出）上进行操作的另一服务器EMA（未示出））（和/或驻留在该服务器设备上）。服务器VC处理（例如，服务器VC处理10）或客户端VC处理（例如，客户端VC处理20）可以与服务器EMA（例如，服务器EMA52）进行通信或者可以是服务器EMA的一部分。

EMA（或处理）可以是促成电子会议的应用（或处理）。在某些实施例中，EMA可以包括媒体控制单元（MCU）（未示出）或者可以与其进行交互。MCU例如可以接收音频和与电子会议中的参与者相关联的其它信息，可以混合（mix）和/或以其它方式处理该信息（例如，调节电平，应用非本地静音（non-local muting）等），并且可以将音频流和/或其它信息提供至会议中的参与者。在某些实施例中，MCU可以接收双音多频（DTMF）信号，其可促成MCU提供各种另外的功能（例如，控制会议出席，应用非本地静音等）。

用户54、56、58、60可以以各种方式访问VC处理。例如，这些用户可以通过在其上执行客户端处理（例如，客户端VC处理20、22、24、26）的设备（也就是客户端电子设备28、30、32、34）直接访问服务器VC处理10。用户54、56、58、60可以通过网络14和/或通过二级网络18直接访问VC处理10。另外，如利用虚链接线62所示的，服务器计算机12（即，执行服务器VC处理10的计算机）可以通过二级网络18连接至网络14。用户54、56、58、60还可以以类似的方式访问客户端或服务器EMA。

各种客户端电子设备可以直接或间接耦合至网络14（或网络18）。例如，个人计算机28被示为经由硬线网络连接而直接耦合至网络14。另外，笔记本计算机34被示为经由硬线网络连接而直接耦合至二级网络18。膝上型计算机30被示为经由在膝上型计算机30和无线接入点（WAP）66之间所建立的无线通信信道64而无线地耦合至网络14，这被示为直接耦合至网络14。WAP66例如可以是能够在膝上型计算机30和WAP66之间建立无线通信信道64的IEEE802.11a、802.11b、802.11g、802.11n、Wi-Fi和/或蓝牙设备。允许数据的移动电话32被示为经由在允许数据的移动电话32和蜂窝网络/桥70之间所建立的无线通信信道68而无线地耦合至网络14，这被示为直接耦合至网络14。

如以上所指出的，在某些实施例中，VC处理可以是一个或多个EMA（例如，服务器EMA52、客户端EMA44等）的一部分和/或可以与其进行交互。在某些实施例中，VC处理可以是一个或多个MCU（未示出）的一部分和/或可以与其进行交互。另外，如以上所指出的，在某些实施例中，EMA可以包括MCU和/或可以与其进行互操作，反之亦然。这样，例如在某些实施例中，VC处理可以从MCU接收相关内容流的通知，可以是MCU的一部分，和/或可以用作代理，在将流（例如，由VC处理所改变的）指向MCU（和/或其它系统组件）之前接收并处理内容流。以这种方式，在某些实施例中可以实现VC处理而不需要与特定的计算设备或网络连接相关联的专用硬件。

如本领域中所已知的，所有的IEEE802.11x规范可以使用以太网协议和带有冲突避免的载波侦听多址访问（即CSMA/CA）以进行路径共享（path sharing）。例如，各种802.11x规范可以使用相移键控（即PSK）调制或互补码键控（即CCK）调制。如本领域中所已知的，蓝牙是允许例如移动电话、计算机和个人数字助理通过使用短距离无线连接而互连的电信行业规范。

对于以下的讨论，将出于说明的目的而对客户端VC处理20进行描述。将要理解的是，客户端VC处理20例如可以与服务器VC处理（诸如服务器VC处理10）进行交互和/或通信，和/或可以在允许与其它服务器和/或客户端VC处理进行通信的一个或多个应用内被执行。这并非意在对本公开进行限制，因为其它配置（例如，VC处理20可以包括独立的客户端处理和/或独立的服务器处理）也是可能的。例如，除了客户端VC处理20之外或作为其替代，一些实现可以包括一个或多个客户端VC处理22、24、26或者服务器VC处理10。

现在还参考图2，示出了可以由VC处理（例如客户端VC处理20）所实现的示例处理的图解视图。客户端VC处理可以接收200与语音命令的递送（delivery）相关联的命令前驱，该语音命令与电子会议相关联。命令前驱可以是VC处理20所接收的信号的一部分，其指示语音命令可能在该命令前驱之后被包括在信号中。因此，通过接收200命令前驱，尽管有各种电平的背景噪声，与参与者相关联的各种声调和节奏、各种呼叫配置等，VC处理20也可以确定跟在命令前驱之后的音频信号（或多媒体信号的音频部分）的一部分可能表示语音命令。

当参与到电子会议中时，参与者（和/或其它个人、应用或处理）可以提供要被VC处理20接收200的各种类型的命令前驱。例如，在某些实施例中，命令前驱可以是音频信号202。例如，特定的词（word）、短语（phrase）、声音、语调等均可以指示跟在该词、短语、声音、语调等之后所讲的词可表示语音命令。例如，在某些实施例中，所讲的词“命令”可以指示跟在该词“命令”之后的词（或短语）可表示语音命令。在某些实施例中，可以类似地接收200其它类型的音频信号作为命令前驱。例如，一系列的点击、轻敲、哨声、哼声等均可以单独地或共同地作为命令前驱被接收。

在某些实施例中，接收200的命令前驱可以是键盘输入204。例如，通过使用电话键盘参与者可以向VC处理20提供DTMF信号作为命令前驱。例如，个人可以按压她的电话操作面板（console）上的井号按钮（“#”）（或者其它按钮或按钮的组合）以便向VC处理20传送相应的DTMF信号作为命令前驱，并且从而指示跟在井号按钮信号之后的音频信号可能包括语音命令。

在某些实施例中，接收200的命令前驱可以包括非音频信息。例如，在某些实施例中，选择触摸屏设备上的图标、通过利用鼠标或其它输入设备点击图标、执行手势等均可以使命令前驱信号被发送。

在某些实施例中，接收200的命令前驱可以是定制的前驱206。例如，在某些实施例中，VC处理20可以识别缺省的命令前驱。例如，如以上，缺省的命令前驱可以包括与电话上的井号按钮相关联的DTMF信号，或者可以包括词“命令”。在某些实施例中，另外地/可替代地，对于用户（和/或管理员）而言，设置定制的前驱206会是有用的。例如，如果用户倾向于在对话中频繁地说出“命令”，则该用户可能不希望使用词“命令”作为命令前驱。在这样的情况下，例如，用户可以指定定制的前驱206来替代（或补充）缺省（或其它）的命令前驱。例如，在某些实施例中，用户可以选择名称、音乐曲调、键盘输入204的组合、特定的手势或移动等来用作定制的命令前驱206。

在某些实施例中，命令前驱对于与电子会议相关联的动作可以是隐含（implicit）的。在某些实施例中，VC处理20可以基于上下文分析而将隐含的动作识别为命令前驱。例如，如果参与者被静音或者已以其它方式安静（silent），则该参与者开始说话可隐含地表示命令前驱并且可以这样被VC处理20接收200。在某些实施例中，手势、键盘输入或其它动作可以类似地包括命令前驱。

VC处理20可以接收208包括语音命令的音频信号。在某些实施例中，接收208的音频信号可以包括接收200的命令前驱。例如，参与者可以提供命令前驱（例如，可以说“命令”或者按压井号按钮以产生DTMF信号），其可以作为接收208包括命令前驱和后续命令的更大的音频信号的部分而被VC处理20接收200。例如，继续以上示例，参与者可以说“命令。到幻灯片27”。在某些实施例中，这两个短语可以包括在单个音频信号中，在这种情况下，接收208音频信号可以包括接收200命令前驱。在某些实施例中，VC处理20可以在接收200命令前驱之后（和/或与其分开地）接收208包括与命令前驱相关联的语音命令的音频信号。例如，VC处理20可以接收200包括命令前驱的触摸屏输入，并且可以随后接收208包括与该前驱相关联的命令的音频信号。

VC处理20可以识别210表示语音命令的接收208的音频信号的一部分。例如，由于已经通过接收200命令前驱而被警告（alert）预计有语音命令，所以VC处理20可以对接收208的音频信号进行分析以便识别所辨识（或可辨识）的语音命令。以这种方式，例如，VC处理20可以通过仅根据需要对用于语音命令的音频信号进行分析来促成处理和其它资源的有效使用。例如，VC处理20可以仅在预计有语音命令时（即，仅在接收200命令前驱之后）才促成使用这样的资源。在某些实施例中，为了识别210表示语音命令的音频信号的一部分，VC处理20例如可以对在命令前驱之后立刻接收208的固定量的语音数据进行分析、对跟在命令前驱之后的表示某个时间量的语音数据进行分析、可以对接收200命令前驱之后接收208的所有音频信号进行分析，直至识别出语音命令。如以上所提到的，VC处理20可以通过使用各种已知的技术（例如，使用IVR）来对接收208的音频信号进行分析以识别语音命令。

VC处理20可以对音频信号的识别210的部分中所包括的语音命令进行解释212。例如，通过使用交互式语音应答（IVR）或其它已知技术，VC处理20可以（单独地或与一个或多个其它处理相结合地）将接收208并识别210的语音命令转换（translate）为指示以执行适当的动作。例如，继续以上的示例，参与者可以说“命令。到幻灯片27”。VC处理20可以相应地接收200命令前驱“命令”，可以识别出210该音频信号的剩余部分包括语音命令“到幻灯片27”，并且可以对该语音命令进行解释212，以指示个人希望将与当前的电子会议相关联的呈现前进至幻灯片27。

将要理解的是，解释212的语音命令可以与用于电子会议的各种功能相关联。例如，语音命令可以指示参与者应当静音或者非静音、呈现应当前进至不同的幻灯片、多媒体文件应当开始或停止播放、参与者希望举手评论（comment）或提问、参与者或主持人想要标记（flag）一段内容以便跟进（follow-up）、参与者或主持人想要激活会议的一部分的转录等等。VC处理20可以通过使用包括IVR、上下文和/或语法分析、语音辨识技术等的各种已知技术来识别与语音命令相关联的功能。

VC处理20可以促使214经解释的语音命令的执行。例如，继续以上的示例。VC处理20可以基于接收200、208包括“命令。到幻灯片27”的音频信号来使呈现前进至幻灯片27。在某些实施例中，VC处理20可以直接促使经解释的语音命令的执行。在某些实施例中，VC处理20可以间接促使214经解释的语音命令的执行。例如，在某些实施例中，VC处理20可以使识别210和/或解释212的语音命令被传送至MCU、EMA或其它应用或处理以便执行。

在某些实施例中，VC处理20可以从非本地静音的参与者216接收200命令前驱（和/或接收208音频信号）。在某些实施例中，电子会议中的参与者使其连接静音以使得在静音的参与者附近发生的对话、键入和其它噪声不会打扰会议中的其它参与者会是有用的。在某些实施例中，这样的静音可以非本地发生。例如，在由MCU促成的电子呼叫中，参与者可以选择通过使用MCU的功能来使其线路静音。在这样的情况下，音频信号可以从参与者的电子设备（例如，办公室电话、蜂窝电话、计算机等）传送至MCU但是可能不从该MCU传送至剩余的参与者（即，因为该参与者被非本地静音）。

VC处理20可以利用来自非本地静音的参与者216的音频信号被传送至MCU（和/或其它设备或处理）的事实以便从这样的参与者216接收200命令前驱（包括，例如，音频信号202）。例如，被非本地静音的参与者可能希望使其线路解除静音以便向群体讲话。作为结果，他可以向其（非本地静音的）线路中讲短语“命令。使我解除静音。”。尽管呼叫中的其它参与者不会听到该短语（即，因为讲话的参与者被非本地静音），但是VC处理20仍可以接收200命令前驱“命令”，并且可以相应地接收208、识别210、解释212语音命令“使我解除静音”并促使214该语音命令被执行。

在某些实施例中，接收208的音频信号可以源自于移动计算设备220。例如，在使用移动计算设备的个体想要控制电子会议的各个方面但是由于移动计算设备固有的限制（例如，处理能力、屏幕大小、键盘大小以及内容等等）而不能这样做的情况中，这会是有用的。例如，在某些电子会议中，各种动作（例如，对幻灯片进行评论、前进幻灯片、非本地使线路静音/解除静音等）可以被作为显示屏上与该会议相关联的动作图标（icon）。然而，使用具有大的显示屏的膝上型计算机和台式计算机的参与者可能够轻易地看见并激活这样的动作图标，而使用较小的显示设备（例如，蜂窝电话和/或平板电脑）的参与者则可能无法轻易地看见并激活这样的图标。这样，对于使用移动计算设备220的参与者而言，经由VC处理20提供与会议相关联的语音命令会是有用的。例如，代替使用与特定命令相关联的动作图标（其在移动计算设备上可能难以看见/使用），使用移动计算设备220的参与者可以提供命令前驱和语音命令，它们可通过VC处理20接收200、208，识别210，解释212以及促使214其被执行。以这种方式，例如，对于使用移动计算设备220的参与者而言，控制包括多媒体呈现的会议是可能的，即使该参与者可能无法看见（或以其它方式充分体验）该呈现。

在某些实施例中，促使214经解释的语音命令的执行可以包括将与该语音命令相关联的音频信号的一部分转换222为文本。同样如以上所提到的，某些电子会议可以包括基于文本的通信以及例如音频和/或视频通信。例如，在某些实施例中，用户可以在呈现正在进行中的同时通过使用基于文本的通信来自由地对会议呈现进行评论。类似地，在某些实施例中，EMA（或者其它应用或处理）可以促成准备会议的一部分（例如，几分钟的会议）的转录以用于以后的回顾。因此，在某些实施例中，通过使用已知的语音-文本技术将音频（和/或视频）流的一部分转换为文本会是有用的。这样，例如VC处理20可以对语音命令进行解释212，在促使214其被执行时将音频信号的一部分转换为文本。

在某些实施例中，VC处理可以从接收208的音频信号去除224与语音命令相关联的音频信息。在某些实施例中，接收200的命令前驱和/或识别210的语音命令可能没有包含与电子会议中的其它参与者明确相关的信息（除了指示例如其执行可能涉及到那些参与者的命令之外）。例如，继续以上的示例，非本地静音的参与者218为了使其线路解除静音可以说“命令。使我解除静音”。如以上所描述的，VC处理20可以接收200命令前驱“命令”，可以接收208音频信号“使我解除静音”，可以识别210接收208的音频信号仅包括命令短语“使我解除静音”，可以将该语音命令解释212为非本地使该参与者的线路解除静音的命令，并且可以促使214该参与者的线路被非本地解除静音。在某些实施例中，为了避免因该音频流（其可能例如仅包含命令前驱和/或命令）而打扰其它参与者，VC处理可以在将音频流传送至其它参与者之前从接收208的音频流去除224与语音命令（例如，语音命令、语音命令前驱或二者）相关联的音频信息。继续以上的示例，由于VC处理20可从接收208的信号去除224与命令和命令前驱相关联的音频信息，所以其它参与者可能不会听到短语“命令。使我解除静音”，而仅可以听到跟在识别210的命令之后的音频信号（即，跟在短语“使我解除静音”之后的音频）的部分。在某些实施例中，可以由MCU（和/或其它设备或应用）通过与音频（和其它）信号的接收、处理和传送相关联的滞后时间（lag time）来促成从电子会议信号去除224音频信息。例如，如果VC处理20在滞后时间期间去除224音频信息，则参与者可察觉到所传送的音频中没有间隔（gap），即使某些音频信号已由VC处理20去除。

现在还参考图3，VC处理20的实现的图解视图被呈现。例如，通过使用移动设备300，参与者可以提供包括短语“Hal，使我静音”的音频信号302。VC处理20可以辨识出“Hal”是定制的命令前驱206，并且因此可以接收200命令前驱“Hal”作为接收208音频流302的部分。VC处理20可以基于例如IVR分析识别出210流312的部分304表示定制的命令前驱（即，“Hal”）以及流312的部分306表示语音命令（即，“使我静音”）。这样，例如，基于对该语音命令进行解释212，VC处理20可以向MCU308指示移动设备300应当被非本地静音。此外，VC处理20可以去除224与信号302相关联的音频信息（即，与语音命令部分306和语音命令前驱部分304相关联的音频信息），以使得短语“Hal，使我静音”不被使用设备310、312、314以及316的参与者听到。

现在还参考图4，VC处理20的实现的图解视图被呈现。继续以上的示例，通过使用移动设备300，非本地静音的参与者可以提供包括短语“Hal，使我解除静音。我想我们应该如Pete所建议的那样进行”的音频信号400。VC处理20可以如以上那样辨识出“Hal”是定制的命令前驱206，并且因此可以接收200命令前驱“Hal”作为接收208音频流400的部分。VC处理20可以基于例如IVR分析识别出210流402的部分402表示定制的命令前驱（即，“Hal”）以及流402的部分404表示语音命令（即，“使我解除静音”）。VC处理20可以进一步确定流402的部分406表示应当被呼叫中的其它参与者听到的音频（即，不是命令前驱和/或语音命令的音频）。这样，例如，VC处理20可以向MCU308指示移动设备300应当被非本地解除静音。此外，VC处理20可以去除224与信号400相关联的音频信息（即，与语音命令部分404和语音命令前驱部分402相关联的音频信息），以使得短语“Hal，使我解除静音”不被使用设备310、312、314以及316的参与者听到，但是短语“我想我们应该…进行”则被参与者听到。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

这里所使用的术语仅是出于描述特定实施例的目的，而并非意在限制本公开。如这里所使用的，单数形式“一个”（“a”、“an”和“the”）意在也包括复数形式，除非上下文以其它方式明确指示。将要进一步理解的是，当术语“包含（comprise）”和/或“包含（comprising）”在说明书中被使用时，其指定存在所陈述的特征、完整物（integer）、步骤、操作、元件和/或组件，但并不排除存在或添加一个或多个其它特征、完整物、步骤、操作、元件、组件和/或其群组。

以下权利要求中相应的结构、材料、动作以及所有手段或步骤加功能元件的等同物意在包括用于如具体声称（claim）的那样结合其它声称的元素来执行功能的任意结构、材料或动作。本公开的描述已经出于说明和描述的目的被呈现，但是并非详尽的或者意在将本发明限于以所公开的形式的公开。许多修改和变化在不背离本公开的范围和精神的情况下对于本领域技术人员将是显而易见的。对实施例进行选择和描述以便对本公开和实际应用的原理进行最好解释，并且使得本领域技术人员能够理解具有适于所预期的特定用途的各种修改的各个实施例的公开。

已经对多个实施例和实现进行了描述。然而，将要理解的是，可以进行各种修改。因此，其它实施例和实现在随附权利要求的范围之内。

Claims

1.一种计算机实现的方法，包括：

由一个或多个计算设备接收与语音命令的递送相关联的命令前驱，所述语音命令与电子会议相关联；

由所述一个或多个计算设备接收包括该语音命令的音频信号；

由所述一个或多个计算设备至少部分地基于接收命令前驱来将该音频信号的一部分识别为表示该语音命令；

由所述一个或多个计算设备对该语音命令进行解释；以及

由所述一个或多个计算设备促使经解释的语音命令的执行。

2.根据权利要求1的计算机实现的方法，进一步包括：

在音频信号被提供至电子会议中的一个或多个参与者之前，从该音频信号去除与该语音命令相关联的音频信息。

3.根据权利要求1的计算机实现的方法，其中所接收的命令前驱源自于静音的参与者，其中该参与者被非本地静音。

4.根据权利要求1的计算机实现的方法，其中该命令前驱是音频信号。

5.根据权利要求1的计算机实现的方法，其中该命令前驱是键盘输入。

6.根据权利要求1的计算机实现的方法，其中该命令前驱是定制的前驱。

7.根据权利要求1的计算机实现的方法，其中语音命令的执行包括将跟在该语音命令之后的音频信号的一部分转换为文本。

8.根据权利要求1的计算机实现的方法，其中包括该语音命令的音频信号源于移动计算设备。

9.一种计算机系统，包括：

一个或多个处理器；以及

与所述一个或多个处理器相耦合的一个或多个存储器架构；

其中所述一个或多个处理器被配置为：

接收与语音命令的递送相关联的命令前驱，所述语音命令与电子会议相关联；

接收包括该语音命令的音频信号；

至少部分地基于接收命令前驱来将该音频信号的一部分识别为表示该语音命令；

对该语音命令进行解释；以及

促使经解释的语音命令的执行。

10.根据权利要求9的计算机系统，其中该处理器被进一步配置为：

11.根据权利要求9的计算机系统，其中所接收的命令前驱源自于静音的参与者，其中该参与者被非本地静音。

12.根据权利要求9的计算机系统，其中该命令前驱是音频信号。

13.根据权利要求9的计算机系统，其中该命令前驱是键盘输入。

14.根据权利要求9的计算机系统，其中该命令前驱是定制的前驱。

15.根据权利要求9的计算机系统，其中语音命令的执行包括将跟在该语音命令之后的音频信号的一部分转换为文本。

16.根据权利要求9的计算机系统，其中包括该语音命令的音频信号源于移动计算设备。

17.一种计算机实现的方法，包括：

由一个或多个计算设备接收与语音命令的递送相关联的命令前驱，所述语音命令与电子会议相关联，其中该命令前驱是定制的音频信号；

由所述一个或多个计算设备至少部分地基于接收命令前驱来将音频信号的一部分识别为表示该语音命令；

由所述一个或多个计算设备对该语音命令进行解释；

由所述一个或多个计算设备促使经解释的语音命令的执行；以及

在音频信号被提供至电子会议中的一个或多个参与者之前，由所述一个或多个计算设备从音频信号去除与该语音命令相关联的音频信息。