CN102708857A

CN102708857A - 基于运动的语音活动检测

Info

Publication number: CN102708857A
Application number: CN201210051770XA
Authority: CN
Inventors: R·K-S·关
Original assignee: Microsoft Corp
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2011-03-02
Filing date: 2012-03-01
Publication date: 2012-10-03
Also published as: US20120226498A1

Abstract

本发明涉及基于运动的语音活动检测。在常规的系统中，单独地基于诸如零交叉或能级的音频流的特性或特征来计算语音检测系统的输入。本发明涉及基于各种输入来判定接收音频流的系统是否应处于语音或非语音这两种状态之一的判定规则。除音频流以外，判定规则可结合基于运动的流作为判定规则的输入。权利要求书针对接收数据流，确定与数据流相关联的至少一个非音频元素是否指示该数据流包括语音，并且，响应于确定与数据流相关联的至少一个非音频元素指示该数据流包括语音，对与该数据流相关联的至少一个音频元素执行语音到文本转换。

Description

基于运动的语音活动检测

技术领域

本发明涉及语音活动检测，尤其是基于运动的语音活动检测。

背景技术

基于运动的语音活动检测是用于通过结合非声学信息来改进有噪声的环境中的语音活动检测的稳健性的过程。在某些情形中，环境噪声对语音检测系统的性能具有负面的影响。常规的语音编码、语音增强，和语音识别系统通常利用判断音频样本是否包含语音或非语音的语音活动检测组件。例如，非语音或无声检测可用于实现无声压缩和编码效率，以便减少传输语音数据中所使用的带宽。在常规的系统中，语音活动检测依赖于声学信号中的特征或观察。随着背景噪声增加，噪声遮蔽了语音信号，使检测更加困难。

发明内容

可以提供基于运动的语音活动检测。提供本发明内容以便以简化形式介绍将在以下具体实施方式中进一步描述的一些概念。此发明内容既不旨在标识所要求保护的主题的关键特征或必要特征。本发明内容也不旨在用于限制所要求保护的主题的范围。

可以提供基于运动的语音活动检测。可以接收数据流，并且可以作出与数据流相关联的至少一个非音频元素是否指示该数据流包括语音的判断。响应于确定与数据流相关联的至少一个非音频元素指示该数据流包括语音，可对与数据流相关联的至少一个音频元素执行语音到文本转换。

以上概括描述和以下详细描述两者都提供了示例，并且只是说明性的。因此，以上概括描述和以下详细描述不应当被认为是限制性的。此外，除了本文中所阐述的那些特征或变体以外，还可以提供其他特征或变体。例如，实施例可涉及具体实施方式中所描述的各种特征组合和子组合。

附图说明

合并在本公开中并构成其一部分的附图示出本发明的实施例。在附图中：

图1是操作环境的框图；

图2是用于提供语音活动检测的方法的流程图；以及

图3是包括计算设备的系统的框图。

具体实施方式

以下详细描述参考各个附图。只要可能，就在附图和以下描述中使用相同的附图标记来指示相同或相似的元件。尽管可能描述了本发明的实施例，但修改、改编、以及其他实现是可能的。例如，可对附图中所示的元件进行置换、添加、或修改，并且可通过对所公开的方法置换、重新排序、或添加阶段来修改本文中所描述的方法。因此，以下详细描述并不限制本发明。相反，本发明的正确范围由所附权利要求书定义。

可以提供基于运动的语音活动检测。根据本发明各实施例，对非语音的更好检测还可有助于提供可改进语音增强的对背景噪声的更好估计，以及降低语音识别系统中插入误差(错误的语音)的可能。

语音活动检测(VAD)可用于语音处理、语音通信和语音识别系统，以作出语音/非语音判定并提供关于用户何时讲话的信息。这可以允许系统了解它何时应该聚焦在用户和处理语音上。例如，如果音频样本不包括语音，则对语音识别系统中该音频的处理可能导致虚假的识别误差。

VAD的任务可被视为二元分类之一，其中判定规则可基于各种输入来决定系统是否应处于两种状态之一：语音或非语音。在常规的系统中，单独地基于诸如零交叉或能级的音频流的特性或特征来计算这些输入。根据本发明各实施例，诸如基于运动的流的其他输入可与音频流相结合作为判定规则的输入。

一个这种基于运动的流可包括加速计的输出。加速计包括测量设备的加速度的传感器。加速计可提供在三个轴x、y、z中的加速度的测量结果。例如，0，0，1的测量结果可指示静止的设备(电话)。运动中的设备可产生这种测量结果的连续的流。可以测量该数据流的常规样本以提供关于设备的相对运动(向上移动、向下移动等)的信息。通过组合这些样本，可以计算基于运动的流的特征。类似地，另一个基于运动的流可包括邻近传感器的输出，该邻近传感器可提供关于该传感器是否通过被持有靠近面部或其他物体而被遮挡的测量结果。

一旦对输入流计算出特征，它们可被馈送到判定规则。根据本发明各实施例，判定规则可以是可操作的以根据原始加速度值的阈值在语音和非语音之间改变状态。例如，z轴中低于特定阈值的加速度值可表示用户已经提起电话朝向他们的嘴部以便讲话，而相反的可发出听筒被拿远以便查看结果的信号。以此方式，运动可用作改变语音/非语音状态的开关。进一步根据本发明各实施例，轻击和/或其他用户定义的或学习的运动可发出语音开始的信号，而另一个运动可发出语音结束的信号。可以手动地调谐切换状态的阈值，和/或可以使用标准的机器学习技术从用语音/非语音来注释的运动流的受监督的示例中学习判定规则。

进一步根据本发明各实施例，改变状态的判定可基于附加输入和诸如音频特征、和/或来自其他组件和/或与设备相关联的应用的输入的特征。例如，当z轴的加速度值低于特定阈值，并且移动窗口的平均音频能量高于特定阈值时，可以触发判定规则。所使用的其他特征可包括运动样本、音频样本、平均音频能量、设备的当前状态(例如，设备目前是否处于语音检测模式)、当前状态的时间长度、背景音频能量、用户界面输入、设备特征的状态(例如，扬声器电话特征是否是活动的)、和/或背景运动。同样，可以手动地确定阈值，和/或可使用标准的机器学习技术从示例中学习判定规则。可在不需要受监督的示例的情况下，可通过从纯音频VAD系统中引导来学习判定规则。在学习模式中，系统可同时记录音频样本和运动样本。可使用传统的基于音频的VAD来确定流中语音/非语音边界的初始判定。用基于音频的判定来收集的样本随后可用作示例以便学习基于运动的系统的阈值或判定规则。

语音到文本转换(即语音识别)可包括将说出的短语转换成可由计算系统处理的文本短语。可在现代的基于统计数据的语音识别算法中使用声学建模和/或语言建模。在很多常规的系统中广泛地使用隐马尔可夫模型(HMM)。HMM可包括可输出符号或数量的序列的统计数据模型。HMM可用于语音识别，因为语音信号可被视为分段固定信号或短时固定信号。在短时间(例如，10毫秒)中，语音可被近似为固定过程。因此出于很多随机的目的，语音可被认为是马尔可夫模型。

图1是用于提供语音活动检测的操作环境100的框图。操作环境100可包括用户设备110，该用户设备包括多个组件，诸如话筒115、相机120、键盘125、加速计130、邻近传感器135，和/或显示器140。用户设备110可操作地通过网络150与服务器160通信。网络150可包括公共和/或专用IP网络，诸如公司LAN和/或因特网。网络150还可包括无线网络，诸如蜂窝式网络。服务器160可操作地向用户设备110发送和/或从用户设备110接收数据，并可包括语音到文本转换器165。根据本发明各实施例，下面参考图2所描述的方法200的各阶段的某些和/或全部可由用户设备110和/或服务器160来执行(例如，用户设备110可包括其自身的语音到文本转换组件)。

图2是阐明根据本发明用于提供语音活动检测的实施例的方法200中涉及的各一般阶段的流程图。方法200可使用计算设备300来实现，如以下参考图3更详细描述的。在下文中将更详细地描述实现方法200的各步骤的方式。方法200可在开始框205开始并行进至阶段210，其中计算设备300可以学习与用户相关联的指示数据流包括语音的至少一个姿势。例如，用户设备110可在学习模式操作，在该模式期间可以扫描从话筒115接收的全部音频流以得到语音元素。被确定为包括语音元素的音频流可以与来自诸如邻近传感器135和/或加速计130的其他传感器的输入相关联。用户设备110可以标识与加速计130的相关，该加速计检测当音频流的确包括语音时，用户设备110和/或经由邻近传感器135非常接近于用户设备110的物体(例如，用户的头)的向上移动。一旦用户设备110不再运行于学习模式中，用户设备110可将这些输入与音频流中语音元素的存在相关联。

方法200可以从阶段210前进到阶段215，其中计算设备300可从用户接收数据流。例如，话筒115可以记录与用户的当前环境相关联的音频流。

方法200可从阶段215前进至阶段220，其中计算设备300可确定所学习的姿势是否已经被检测为与数据流相关联。例如，音频流可以与来自加速计130的指示用户设备110正在移动的实质上同时的输入相关联。移动可包括指示音频流更有可能包括音频数据的向上移动、或指示音频流不太可能包括音频数据的向下移动的所学习的姿势。

响应于确定尚未检测到所学习的姿势，方法200可前进至阶段225，其中计算设备300可确定与数据流相关联的多个非音频输入是否指示数据流包括语音。例如，多个输入可包括传感器读数(例如，来自加速计130)、用户输入(例如，在键盘125上键入)、设备状态(例如，在扬声器电话模式中操作)、和应用状态(例如，玩游戏和/或激活语音便笺应用)。这种输入可以与用户设备110可用来判定音频流是否有可能包括语音的概率和/或加权相关联。

响应于确定与数据流相关联的多个输入指示了数据流包括语音，或者如果所学习的姿势已被检测到与数据流相关联，则方法200可前进至阶段230，其中计算设备300可对与数据流相关联的至少一个音频元素执行语音到文本转换。例如，用户设备110可对音频流执行隐马尔可夫模型转换，和/或通过网络150将音频流传输到服务器160的STT转换器165以供转换。

方法200可从阶段210前进至阶段220，向用户显示已转换的文本。例如，用户设备110可在显示器140上显示语音到文本转换的结果以供进一步的操作(例如，向搜索引擎提交该文本)。方法200然后可在阶段240结束。

根据本发明的一个实施例可包括用于提供语音活动检测的系统。该系统可包括存储器存储和耦合到该存储器存储的处理单元。处理单元可操作地接收数据流，确定与数据流相关联的至少一个非音频元素是否指示该数据流包括语音，并且响应于确定与数据流相关联的至少一个非音频元素指示了该数据流包括语音，对与该数据流相关联的至少一个音频元素执行语音到文本转换。至少一个非音频元素可包括来自诸如加速计、应用、相机、键盘、和/或邻近传感器等至少一个传感器的输入。可向用户显示所转换的文本。如果与数据流相关联的至少一个非音频元素未指示该数据流包括语音，则可丢弃该数据流无需进一步处理。

加速计输入可包括与用户设备110的方向性移动相关联的移动矢量。确定与数据流相关联的至少一个非音频元素指示该数据流包括语音可包括确定移动矢量包括向上的移动，而与数据流相关联的至少一个非音频元素未指示该数据流包括语音可包括确定移动矢量包括向下的移动。移动矢量可包括用户定义的(例如，特别是由用户标识的)、系统定义的，和/或所学习的姿势。

根据本发明的另一个实施例可包括用于提供语音活动检测的系统。该系统可包括存储器存储和耦合到该存储器存储的处理单元。处理单元可操作地从用户接收数据流，确定与数据流相关联的多个输入是否指示该数据流包括语音，并且若是，则对与数据流相关联的至少一个音频元素执行语音到文本转换并向用户显示所转换的文本。多个输入可包括例如传感器读数、用户输入、设备状态，和应用状态。每个输入可以与可操作用于修改与至少一个第二输入相关联的优先级加权的优先级加权和/或规则相关联。例如，如果扬声器电话状态是活动的，则规则可降低与加速计读数相关联的优先级加权。响应于从用户接收请求(诸如与指示数据流包括语音相关联的所学习的姿势)，可以覆盖这种优先级加权。

与本发明相一致的又一个实施例可包括用于提供语音活动检测的系统。该系统可包括存储器存储和耦合到该存储器存储的处理单元。处理单元可操作地学习与用户相关联的指示数据流包括语音的至少一个姿势，从用户接收数据流，并且确定至少一个所学习的姿势是否已经被检测到与数据流相关联。响应于确定尚未检测到至少一个所学习的姿势，处理单元可操作地确定与数据流相关联的多个非音频输入是否指示数据流包括语音。多个输入可包括，例如，传感器读数、用户输入、设备状态、和应用状态。响应于确定与数据流相关联的多个输入指示数据流包括语音，或者如果至少一个所学习的姿势已被检测到与数据流相关联，则处理单元可操作地对与数据流相关联的至少一个音频元素执行语音到文本转换并向用户显示所转换的文本。

图3是包括计算设备300的系统的框图。根据本发明的一个实施例，上述存储器存储和处理单元可在诸如图3的计算设备300之类的计算设备中实现。可使用硬件、软件或固件的任何合适的组合来实现存储器存储和处理单元。例如，存储器存储和处理单元可用计算设备300或结合计算设备300的其他计算设备318中的任一个来实现。根据本发明的实施例，上述系统、设备和处理器是示例，而其他系统、设备和处理器可包括上述存储器存储和处理单元。此外，计算设备300可包括如上所述的操作环境100。系统100可在其他环境中操作，并且不限于计算设备300。

参考图3，根据本发明的一个实施例的系统可包括计算设备，诸如计算设备300。在基本配置中，计算设备300可包括至少一个处理单元302和系统存储器304。取决于计算设备的配置和类型，系统存储器304可包括，但不限于，易失性存储器(例如，随机存取存储器(RAM))、非易失性存储器(例如，只读存储器(ROM))、闪存、或任何组合。系统存储器304可以包括操作系统305、一个或多个编程模块306，且可以包括传感器处理软件应用320。例如，操作系统305可适用于控制计算设备300的操作。在一个实施例中，编程模块306可包括。此外，本发明的实施例可结合图形库、其他操作系统、或任何其他应用程序来实践，并且不限于任何特定应用或系统。该基本配置在图3中由虚线308内的那些组件示出。

计算设备300可具有附加特征或功能。例如，计算设备300还可包括附加数据存储设备(可移动和/或不可移动)，诸如例如，磁盘、光盘、或磁带。这些附加存储在图3中由可移动存储309和不可移动存储310示出。计算设备300还可包含可允许设备300诸如通过分布式计算环境中的网络(例如，内联网或因特网)来与其他计算设备316进行通信的通信连接318。通信连接316是通信介质的一个示例。

本文所使用的术语计算机可读介质可包括计算机存储介质。计算机存储介质可包括以用于存储诸如计算机可读指令、数据结构、程序模块、或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。系统存储器304、可移动存储309和不可移动存储310都是计算机存储介质(即，存储器存储)的示例。计算机存储介质可包括，但不限于，RAM、ROM、电可擦除只读存储器(EEPROM)、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光存储、磁带盒、磁带、磁盘存储或其他磁性存储设备、或者可用于存储信息且可由计算设备300访问的任何其他介质。任何此类计算机存储介质可以是设备300的一部分。计算设备300还可以具有输入设备312，如键盘、鼠标、笔、声音输入设备、触摸输入设备等。还可包括诸如显示器、扬声器、打印机等输出设备314。上述设备是示例，并且可使用其他设备。

本文所使用的术语计算机可读介质还可包括通信介质。通信媒介可由诸如载波或其他传输机制的已调制数据信号中的计算机可读指令、数据结构、程序模块、或其他数据来体现，并且包括任何信息传递介质。术语“已调制数据信号”可以描述以对该信号中的信息进行编码的方式设定或者改变其一个或多个特征的信号。作为示例而非限制，通信介质包括诸如有线网络或直接线连接等有线介质，以及诸如声学、射频(RF)、红外线和其他无线介质等无线介质。

如上所述，可在系统存储器304中存储包括操作系统305在内的多个程序模块和数据文件。当在处理单元302上执行时，编程模块306(例如，传感器处理软件应用320)可以执行各过程，包括例如，如上所述的一个或多个方法200的阶段。上述过程是一个示例，且处理单元302可执行其他过程。根据本发明的实施例可使用的其他编程模块可包括电子邮件和联系人应用程序、文字处理应用程序、电子表格应用程序、数据库应用程序、幻灯片演示应用程序、绘图或计算机辅助应用程序等。

一般而言，根据本发明的实施例，程序模块可包括可执行特定任务或可实现特定抽象数据类型的例程、程序、组件、数据结构和其他类型的结构。此外，本发明的实施例可用其他计算机系统配置来实践，包括手持式设备、多处理器系统、基于微处理器的系统或可编程消费电子产品、小型机、大型计算机等。本发明的实施例还可在其中任务由通过通信网络链接的远程处理设备执行的分布式计算环境中实践。在分布式计算环境中，程序模块可位于本地和远程存储器存储设备两者中。

此外，本发明的实施例可在包括分立电子元件的电路、包含逻辑门的封装或集成电子芯片、利用微处理器的电路、或在包含电子元件或微处理器的单个芯片上实践。本发明的实施例还可使用能够执行诸如例如，AND(与)、OR(或)和NOT(非)的逻辑运算的其他技术来实践，包括但不限于，机械、光学、流体和量子技术。另外，本发明的实施例可在通用计算机或任何其他电路或系统中实践。

例如，本发明的实施例可被实现为计算机过程(方法)、计算系统、或诸如计算机程序产品或计算机可读介质之类的制品。计算机程序产品可以是计算机系统可读并对用于执行计算机过程的指令的计算机程序编码的计算机存储介质。计算机程序产品还可以是计算系统可读并对用于执行计算机过程的指令的计算机程序编码的载体上的传播信号。因此，本发明可以硬件和/或软件(包括固件、常驻软件、微码等)来体现。换言之，本发明的实施例可采用其上包含有供指令执行系统使用或结合其使用的计算机可使用或计算机可读程序代码的计算机可使用或计算机可读存储介质上的计算机程序产品的形式。计算机可使用或计算机可读介质可以是可包含、存储、通信、传播、或传输程序以供指令执行系统、装置或设备使用或结合其使用的任何介质。

计算机可使用或计算机可读介质例如可以是、但不限于电、磁、光、电磁、红外、或半导体系统、装置、设备或传播介质。更具体的计算机可读介质示例(非穷尽列表)，计算机可读介质可包括以下：具有一条或多条导线的电连接、便携式计算机盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、光纤、以及便携式压缩盘只读存储器(CD-ROM)。注意，计算机可使用或计算机可读介质甚至可以是其上打印有程序的纸张或另一合适的介质，因为程序可经由例如对纸张或其他介质的光学扫描而电子地捕获，随后如有必要被编译、解释、或以其他合适的方式处理，并且随后存储在计算机存储器中。

以上参考例如根据本发明的实施例的方法、系统和计算机程序产品的框图和/或操作示图描述了本发明的实施例。框中所注明的各功能/动作可按不同于任何流程图所示的次序出现。例如，取决于所涉及的功能/动作，连续示出的两个框实际上可基本同时执行，或者这些框有时可按相反的次序执行。

尽管已描述了本发明的特定实施例，但也可能存在其他实施例。此外，虽然本发明的实施例被描述为与存储在存储器和其他存储介质中的数据相关联，但是数据还可被存储在其他类型的计算机可读介质上或从其读取，诸如辅助存储设备(像硬盘、软盘、或CD-ROM)、来自因特网的载波、或其他形式的RAM或ROM。此外，所公开的方法的各步骤可以任何方式修改，包括通过对各步骤重新排序和/或插入或删除步骤，而不背离本发明。

包括此处所包括的代码中的版权在内的所有权利都归属于申请人并且是本申请人的财产。本申请人保持并保留此处所包括的代码中的所有权利，并且授予仅关于所授权专利的再现且未出于其他目的再现该材料的许可。

尽管本说明书包括示例，但本发明的范围由所附权利要求书来指示。此外，尽管用对结构特征和/或方法动作专用的语言描述了本说明书，但权利要求书并不限于以上所描述的特征或动作。相反，以上所描述的特定特征和动作是作为本发明的实施例的示例来公开的。

Claims

1.一种用于提供语音活动检测的方法，所述方法包括：

接收数据流(215)；

确定与所述数据流相关联的至少一个非音频元素是否指示所述数据流包括语音(225)；以及

响应于确定与所述数据流相关联的至少一个非音频元素指示所述数据流包括语音(225)，将与所述数据流相关联的至少一个音频元素作为语音来处理(230)。

2.如权利要求1所述的方法，其特征在于，所述至少一个非音频元素包括来自包括加速计(130)的至少一个传感器的移动矢量输入。

3.如权利要求2所述的方法，其特征在于，所述移动矢量输入与用户定义的姿势相关联。

4.如权利要求1所述的方法，其特征在于，还包括：响应于确定与所述数据流相关联的至少一个非音频元素未指示所述数据流包括语音(225)，丢弃所述数据流。

5.如权利要求1所述的方法，其特征在于，所述至少一个传感器与下面中的至少一个相关联：加速计(130)、键盘(125)、邻近传感器(135)、相机(120)，和应用。

6.一种存储一组指令的计算机可读介质，所述一组指令在被执行时执行一种用于提供语音活动检测的方法，由所述一组指令执行的方法包括：

从用户接收数据流(215)；

确定与所述数据流相关联的多个输入是否指示所述数据流包括语音(225)；

响应于确定与所述数据流相关联的所述多个输入指示所述数据流包括语音(230)，对与所述数据流相关联的至少一个音频元素执行语音到文本转换；以及

向所述用户显示所转换的文本(235)。

7.如权利要求6所述的计算机可读介质，其特征在于，所述多个输入的每个与优先级加权相关联，并且所述多个输入中的至少一个包括下面中的至少一个：传感器读数、用户输入、设备(110)状态、和应用状态。

8.如权利要求7所述的计算机可读介质，其特征在于，所述多个输入的至少一个第一输入与可操作地修改与至少一个第二输入相关联的优先级加权的规则相关联。

9.如权利要求6所述的计算机可读介质，其特征在于，来自用户的请求包括与指示所述数据流包括语音的已学习的姿势相关联。

10.一种用于提供语音活动检测的系统，所述系统包括：

存储器存储；以及

耦合到所述存储器存储的处理单元，其中所述处理单元用于：

学习与用户相关联的指示数据流包括语音的至少一个姿势(210)；

从用户接收数据流(215)；

确定至少一个所学习的姿势是否已经被检测到与所述数据流相关联(220)；

响应于确定尚未检测到至少一个所学习的姿势(220)，确定与所述数据流相关联的多个非音频输入是否指示所述数据流包括语音(225)，其中所述多个输入包括下面中的至少一个：传感器读数、用户输入、设备(110)状态，和应用状态；

响应于确定与所述数据流相关联的所述多个输入指示所述数据流包括语音(225)，对与所述数据流相关联的至少一个音频元素执行语音到文本转换(230)；以及

向所述用户显示所转换的文本(235)。