CN104111814A

CN104111814A - 防止音频信息的非预期分发的方法和系统

Info

Publication number: CN104111814A
Application number: CN201410149115.7A
Authority: CN
Inventors: S·H·巴松; D·卡涅夫斯基; P·K·马尔金; M·N·韦格曼
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2013-04-16
Filing date: 2014-04-15
Publication date: 2014-10-22
Anticipated expiration: 2034-04-15
Also published as: US20140309998A1; US9666209B2; US9607630B2; CN104111814B; US20140309999A1

Abstract

本发明涉及一种防止音频信息的非预期分发的方法和系统。防止音频信息的非预期分发可以包括：分析麦克风所接收的说话者的语音的音频数据；由处理器根据所述分析自动判定是否旨在经由所述麦克风将所述说话者的语音分发给听众；以及响应于判定并未旨在经由所述麦克风将所述说话者的语音分发给所述听众，执行一个或多个操作。

Description

防止音频信息的非预期分发的方法和系统

技术领域

本申请一般地涉及例如与多媒体系统有关的计算机、计算机设备和应用，更具体地说，涉及防止通过麦克风的未知分发。

背景技术

在公共场景中，扬声器设备通常与麦克风连接，以便放大其语音以在一大群人或大的活动场所中传输或分发。麦克风可以手持、放在讲台上，或者佩带在衣领上。具有许多已知的情况，其中说话者忘记他们具有放大其语音的麦克风，并且继续公开进行私下谈话，其中他们的语音继续被放大给更广泛的听众。在其它情况下，使用麦克风的最初说话者不再出现，而不知道放大系统的其它说话者来到麦克风处于活动状态的讲台或场所。他们可能进行“私下”谈话，这些谈话无意中被放大给更多的听众。这导致可能令人尴尬的处境。所有类型的麦克风以及所有类型的会议（演讲或公开演讲）都可以出现这些问题。

许多会议电话系统和扬声器电话具有以下能力：定期通报系统在一段延长时间内处于使用中，并且要求用户通过按下按钮确认他们继续需要使会议电话“公开”。这仅部分有效。第一，它仅在某些时间间隔内发生，并且在中间时间内，房间中可能具有非预期参与者。例如，设置会议电话的人们可能结束会议，但留在会议室而未正式断开会议电话。新的一组人可能进入会议室并且可能讲话而不知道会议电话“开启”，并且他们的“离题内容”被传输或分发给可能仍然继续会议电话的其它人。第二，在某些情况下，呼叫者无法轻松通过按键确认他对继续会议电话感兴趣还是不感兴趣；例如，如果呼叫者双手忙碌（例如驾驶）。第三，在说话者对继续会议电话感兴趣的情况下，询问按下按钮以继续会议电话可以造成打扰和干扰。

现有系统可以提供会议电话处于活动状态的可视指示，例如通过显示绿灯。现有系统还可以同样为麦克风提供可视指示，例如使用指示麦克风“处于活动状态”的红灯。但是，用户忽略的这些信号的频率表明现有解决方案没有成功为说话者提供他们需要的提示。

发明内容

在一个方面，一种防止音频信息的非预期分发的方法可以包括分析麦克风所接收的说话者的语音的音频数据。所述方法还可以包括根据所述分析自动判定是否旨在经由所述麦克风将所述说话者的语音分发给听众。所述方法可以还包括响应于判定并未旨在经由所述麦克风将所述说话者的语音分发给所述听众，执行一个或多个操作。

在一个方面，一种用于防止音频信息的非预期分发的系统可以包括麦克风和处理器，所述处理器可操作以分析所述麦克风所接收的说话者的语音的音频数据。所述处理器还可操作以自动判定是否旨在经由所述麦克风将所述说话者的语音分发给听众，以及响应于判定并未旨在经由所述麦克风将所述说话者的语音分发给所述听众，所述处理器还可操作以执行一个或多个操作。

还可以提供一种存储指令程序的计算机可读存储介质，所述指令程序可由机器执行以便执行在此描述的一个或多个方法。

下面参考附图详细描述不同实施例的进一步特性以及结构和操作。在附图中，相同的参考标号指示相同或功能类似的元素。

附图说明

图1是示出本公开的一个实施例中的系统组件的示意图；

图2示出本公开的一个实施例中的一种用于防止麦克风的非预期使用的方法；

图3示出本公开的一个实施例中的可以实现智能麦克风系统的一个实例计算机或处理系统的示意图。

具体实施方式

在本公开的一个实施例中，可以提供一种系统和方法，其可以防止浑然不知的说话者进行不需要的语音分发或传输。例如，基于例如说话者周围环境中的一个或多个条件，可以使麦克风静音，可以向说话者通知麦克风仍然开启或者说话者的言论被放大。

作为一个实例，说话者可能忘记麦克风开启并且开始进行私下谈话，说话者并未认识到这种私下谈话被分发或传输给非定向听众。在这些情况下，已知系统都不能自动静音或者向说话者提醒这些情况。所述系统和方法可以提供多个方面，用于分析有关说话者语音的质量以便判定说话者有意还是无意对着麦克风讲话。要检测的质量可以包括（1）语音谐波（语音质量），（2）语音内容（话题变化），和/或（3）语音方式（例如，语音中的嗯、哼和嗯啊）。

图1是示出本公开的一个实施例中的系统的组件的示意图。在一个实施例中，可以提供智能麦克风102，其能够处理周围音频和视频信息以便理解说话者的意图以及说话者语音的可能听众，然后提供说话者的更有效反馈以便防止他/她/他们无意中使用麦克风或者对着扬声器电话或会议电话讲话。本公开的智能麦克风102可以包括集成电路或硬件处理器104，其被编程以便执行在此描述的方法以判定语音是否旨在进入麦克风102。智能麦克风102还可以包括存储器106，以便例如存储数据。在另一个方面，智能麦克风102还可以包括摄像机108和/或一个或多个其它传感器110。

在本公开中提供多种方法，以便例如在会议电话设备或其它类似设备上，使用音频和/或其它信息检测说话者并未旨在对着麦克风讲话或者通过麦克风分发。例如，可以检测说话者音量变化，并且将这种变化用作说话者并未旨在分发语音的准则。例如，当说话者旨在使其语音成为私下谈话时，他们可能以较低语音或者甚至耳语讲话。作为另一个实例，可以检测语音谐波变化，并且将这种变化用作说话者并未旨在分发语音的指示。例如，当某个人以“公共”语音与私下方式讲话时，存在语音质量差异。作为另一个实例，可以检测个人的语音内容变化，并且将这种变化用作个人并未旨在分发语音的指示。例如，企业员工谈论公司的策略，并且当他转向某人“私下”讲话时突然改变话题。然而，可以检测讲话方式（例如频率）的变化。例如，某些说话者当众说话时可能不流利，使用诸如“哼”和“嗯”之类的赘词。当说话者更放松并且私下即兴讲话时，这些赘词会消失。当公众说话者可以推敲和排练并且讲话流利时，还可以出现相反的情况。当说话者“脱稿”时，说话者可以具有更多的唤词困难和赘词。可以检测语音中这些赘词的出现，并且在上下文中与其它因素一起使用以便判定是否旨在分发语音。例如，在较安静的语音中出现的赘词可以指示私下谈话；在更正式的语音方式和更响亮的语音中检测的赘词可以指示旨在分发语音。

例如可以使用摄像机（例如，108）提取可视信息以便评估说话者的环境是否改变，以及因此他/她是否可能并未旨在对着更多听众讲话。此类可视信息的实例可以包括但不限于检测说话者和麦克风之间的距离变化（有时，如果说话者打算私下讲话，则他远离麦克风）；检测位置变化（例如，具有衣领麦克风的说话者移动到另一个房间）；检测环境变化，例如听众席中的人们离开，或者新的人们（例如，家庭成员）进入说话者所在的房间；总裁起先在讲台上，现在总裁伏在桌上。

还可以通过一个或多个其它传感器110提取信息。例如，可以使用运动传感器或红外线检测说话者与麦克风的距离或者他们的位置。

例如可以在说话者的麦克风上向说话者提供反馈，例如采用以下方式：可视信号（例如，强），例如闪光灯；触觉信号，例如扬声器振动；音频信号，例如哔哔声；其它音频信号，例如当用户讲话时，扬声器以抚静音频或不同谐波回声，以便他们学习从音频反馈“感觉”他们的麦克风开启（例如，采用某些打字员通过声音了解他们是否点击正确键的方式）；自动使麦克风静音和/或要求说话者确认说话者旨在继续放大其语音。

可以经由语音识别和自然语言理解提供反馈。例如，可以使用语音识别和自然语言理解来理解语音内容。可以通过语音识别转写正在被放大的语音。转写语音的连续显示可以向说话者提示麦克风开启。

其它非语音信息可以提供麦克风或会议电话应该关闭的提示。例如，日历信息可以指示给定语音或会议电话计划在特定时间结束，并且可以是向说话者提示他们是否需要继续分发其语音的信号。

用于检测何时应该关闭麦克风或者是否应该用信号通知用户麦克风/会议电话仍然处于活动状态的所有所述方法可以集成，并且用于增加系统正确解释情况的置信度得分。

图2示出本公开的一个实施例中的一种用于防止音频信息的非预期分发的方法。在202，分析麦克风附近的说话者的语音。例如，在放大和/或分发给听众之前，分析通过麦克风接收的说话者的语音。例如，如果麦克风可以检测到说话者的语音，则说话者的语音可以被视为在麦克风附近。除了分析语音之外，例如使用可以收集可视提示的摄像机，或者使用可以提供有关使用麦克风发出的语音的其它信息的一个或多个传感器，可以在204获得说话者的语音环境的其它信息。

在206，可以使用来自被分析语音的信息以及任何其它额外信息判定说话者是否旨在使语音进入麦克风并被分发。因此，例如可以分析音频数据、视频数据和/或其它传感器数据以便判定是否旨在使语音进入麦克风。音频数据的分析可以包括检测说话者音量、谐波、语音方式的变化和/或话题的突然变化和/或其它提示。可视信息的分析可以包括检测距离变化、位置变化以及周围区域的其它变化。因此，如上所述，例如检测的说话者音量变化、谐波、语音方式的变化和/或话题的突然变化和/或其它提示可以提供并未旨在使语音进入麦克风的判定。

在208，基于并未旨在将语音定向到麦克风（例如，以便通过麦克风分发或传输给听众）的判定，可以触发一个或多个操作。操作的一个实例是向说话者提供反馈。操作的另一个实例是自动使麦克风静音或关闭麦克风。所述反馈可以包括可视提示和/或音频提示。麦克风的一个实例是连接到电话会议系统的麦克风。本公开的方法可以应用于任何其它麦克风。

图3示出本公开的一个实施例中的可以实现智能麦克风系统的一个实例计算机或处理系统的示意图。计算机系统仅是合适的处理系统的一个实例，并且并非旨在对此处描述的方法实施例的使用范围或功能带来任何限制。所示处理系统可以与多种其它通用或专用计算系统环境或配置一起操作。众所周知，可以适合于与图3中所示处理系统一起使用的计算系统、环境和/或配置可以包括但不限于个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子产品、网络PC、小型计算机系统、大型计算机系统和包括上述任意系统或设备的分布式云计算环境等。

所述计算机系统可以在由计算机系统执行的计算机系统可执行指令（诸如程序模块）的一般上下文中描述。通常，程序模块可以包括执行特定的任务或者实现特定的抽象数据类型的例程、程序、目标程序、组件、逻辑、数据结构等。所述计算机系统可以在通过通信网络链接的远程处理设备执行任务的分布式云计算环境中实现。在分布式云计算环境中，程序模块可以位于包括存储设备的本地和远程计算机系统存储介质上。

所述计算机系统的组件可以包括但不限于一个或多个处理器或处理单元12、系统存储器16，以及连接不同系统组件（包括系统存储器16和处理器12）的总线14。处理器12可以包括执行在此描述的方法的智能麦克风模块10。模块10可以编程到处理器12的集成电路，或者从存储器16、存储器件18或网络24加载，或者它们的组合。

总线14表示几类总线结构中的一种或多种，包括存储器总线或存储器控制器、外围总线、图形加速端口，以及使用多种总线结构中的任意总线结构的处理器或局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构（ISA）总线、微通道体系结构（MCA）总线、增强型ISA（EISA）总线、视频电子标准协会（VESA）局域总线以及外围组件互连（PCI）总线。

计算机系统可以包括多种计算机系统可读介质。这些介质可以是能够被计算机系统访问的任意可获得的介质，并且可以包括易失性和非易失性介质、可移动和不可移动的介质。

系统存储器16可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器（RAM）和/或高速缓冲存储器等。计算机系统可以还包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统18可以用于读写不可移动的、非易失性磁介质（例如，“硬盘驱动器”）。尽管图3中未示出，可以提供用于对可移动非易失性磁盘（例如，“软盘”）读写的磁盘驱动器，以及对可移动非易失性光盘（例如CD-ROM、DVD-ROM或其它光介质）读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或多个介质接口与总线14相连。

计算机系统还可以与一个或多个外部设备26（例如键盘、指点设备、显示器28等）通信，还可与一个或多个使得用户能与计算机系统交互的设备通信，和/或与使得计算机系统能与一个或多个其它计算设备进行通信的任何设备（例如、网卡、调制解调器等）通信。这种通信可以通过输入/输出（I/O）接口20进行。

并且，计算机系统可以通过网络适配器22与一个或多个网络24（例如局域网（LAN）、广域网（WAN）和/或公共网络，例如因特网）通信。如图所示，网络适配器22通过总线14与计算机系统的其它组件通信。应当理解，尽管图中未示出，其它硬件和/或软件组件可以与计算机系统结合使用。实例包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

所属技术领域的技术人员知道，本发明的各个方面可以实现为系统、方法或计算机程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式（包括固件、驻留软件、微代码等），或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。此外，本发明的各个方面还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式，该计算机可读介质中包含计算机可读的程序代码。

可以采用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是—但不限于—电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者上述的任意合适的组合。计算机可读存储介质的更具体的例子（非穷举的列表）包括：便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、便携式紧凑盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括例如在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括—但不限于—电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括—但不限于—无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的各个方面的操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言，一种描述性语言如Perl、VBS或类似语言，和/或功能性语言，如Lisp和ML以及逻辑目标语言如Prolog。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网（LAN）或广域网（WAN）—连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。

将参照根据本发明实施例的方法、装置（系统）和计算机程序产品的流程图和/或框图描述本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。

也可以把这些计算机程序指令存储在计算机可读介质中，这些指令使得计算机、其它可编程数据处理装置、或其它设备以特定方式工作，从而，存储在计算机可读介质中的指令就产生出包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的指令的制造品（article ofmanufacture）。

也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机或其它可编程装置上执行的指令提供实现流程图和/或框图中的一个或多个方框中规定的功能/动作的过程。

附图中的流程图和框图显示了根据本发明的不同实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

计算机程序产品可以包括能够实现在此描述的方法的所有相应特性，并且当被加载到计算机系统中时，其能够执行这些方法。当前上下文中的计算机程序、软件程序、程序或软件是指一组指令的以任何语言、代码或符号表示的任何表达，旨在使具有信息处理能力的系统直接执行特定的功能，或者执行以下两者之一或全部后执行特定的功能：（a）转换为另一种语言、代码或符号；和/或（b）以不同的材料形式再现。

在此使用的术语只是为了描述特定的实施例并且并非旨在作为本发明的限制。如在此使用的，单数形式“一”、“一个”和“该”旨在同样包括复数形式，除非上下文明确地另有所指。还将理解，当在此说明书中使用时，术语“包括”和/或“包含”指定了声明的特性、整数、步骤、操作、元素和/或组件的存在，但是并不排除一个或多个其它特性、整数、步骤、操作、元素、组件和/或其组合的存在或增加。

下面权利要求中的对应结构、材料、操作以及所有功能性限定（如果有）的装置或步骤的等同替换，旨在包括任何用于与在权利要求中具体指出的其它元件相组合地执行该功能的结构、材料或操作。出于示例和说明目的给出了对本发明的描述，但所述描述并非旨在是穷举的或是将本发明限于所公开的形式。在不偏离本发明的范围和精神的情况下，对于所属技术领域的普通技术人员来说许多修改和变化都将是显而易见的。实施例的选择和描述是为了最佳地解释本发明的原理和实际应用，并且当适合于所构想的特定使用时，使得所属技术领域的其它普通技术人员能够理解本发明的具有各种修改的各种实施例。

本公开的各个方面可以实现为包含在计算机或机器可用或可读介质中的程序、软件或计算机指令，当在计算机、处理器和/或机器上执行时，这些程序、软件或计算机指令导致计算机或机器执行所述方法步骤。还提供一种程序存储设备，其可由机器读取并且有形地包含可由机器执行的指令程序以便执行本公开中描述的各种功能和方法。

本公开的系统和方法可以在通用计算机或专用计算机系统上实现和运行。可用于本申请的术语“计算机系统”和“计算机网络”可以包括固定和/或便携式计算机硬件、软件、外围设备和存储设备的各种组合。计算机系统可以包括联网或以其它方式链接以协作执行的多个单独组件，或者可以包括一个或多个独立的组件。本申请的计算机系统的硬件和软件组件可以包括并且可以包括在固定和便携式设备（例如台式计算机、膝上型计算机和/或服务器）中。模块可以是实现某种“功能”的设备、软件、程序或系统的组件，其可以实现为软件、硬件、固件、电子电路等。

上面描述的实施例是示例性实例，并且不应该解释为本发明限于这些特定的实施例。因此，所属技术领域的技术人员可以实现各种更改和修改，而不偏离在所附权利要求中限定的本发明的精神或范围。

Claims

1.一种防止音频信息的非预期分发的方法，所述方法包括：

由处理器分析麦克风所接收的说话者的语音的音频数据；

由所述处理器根据所述分析自动判定是否旨在经由所述麦克风将所述说话者的语音分发给听众；以及

响应于判定并未旨在经由所述麦克风将所述说话者的语音分发给所述听众，执行一个或多个操作。

2.根据权利要求1的方法，其中所述分析包括检测发出所述语音的说话者的音量变化、所述语音的谐波变化、所述语音的方式变化、所述语音的话题变化，或者它们的组合。

3.根据权利要求1的方法，还包括收集可视提示，并且还使用所述可视提示来判定是否旨在分发所述说话者的语音。

4.根据权利要求3的方法，其中所述可视提示包括发出所述语音的说话者和所述麦克风之间的距离的变化、所述说话者发出所述语音所在的位置的变化，或者它们的组合。

5.根据权利要求1的方法，还包括收集与发出所述语音的说话者关联的运动数据，并且还使用所述运动数据来判定是否旨在分发所述说话者的语音。

6.根据权利要求1的方法，其中所述一个或多个操作包括向所述说话者提供反馈、使所述麦克风静音、关闭所述麦克风，或者它们的组合。

7.根据权利要求6的方法，其中所述反馈包括以下项中的一个或多个：闪光灯、触觉信号、音频信号、所述语音在显示器上的转写，或者它们的组合。

8.根据权利要求1的方法，还包括分析非语音信息以判定是否旨在分发所述说话者的语音。

9.一种用于防止音频信息的非预期分发的系统，所述系统包括：麦克风；

处理器，其可操作以分析所述麦克风所接收的说话者的语音的音频数据，并且还可操作以自动判定是否旨在经由所述麦克风将所述说话者的语音分发给听众，以及响应于判定并未旨在经由所述麦克风将所述说话者的语音分发给所述听众，所述处理器可操作以执行一个或多个操作。

10.根据权利要求9的系统，其中所述处理器进行分析以便检测发出所述语音的说话者的音量变化、所述语音的谐波变化、所述语音的方式变化、所述语音的话题变化，或者它们的组合。

11.根据权利要求9的系统，还包括摄像机，其可操作以收集可视提示，并且所述处理器还使用所述可视提示来判定是否旨在分发所述说话者的语音，其中所述可视提示包括发出所述语音的说话者和所述麦克风之间的距离的变化、所述说话者发出所述语音所在的位置的变化，或者它们的组合。

12.根据权利要求9的系统，其中所述一个或多个操作包括向所述说话者提供反馈、使所述麦克风静音、关闭所述麦克风，或者它们的组合。