CN102708855B

CN102708855B - 利用话音识别器反馈来进行语音活动检测

Info

Publication number: CN102708855B
Application number: CN201210044558.0A
Authority: CN
Inventors: A·J·K·泰姆白瑞德南; 朱卫武; F·T·B·西德
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2011-02-25
Filing date: 2012-02-24
Publication date: 2019-07-26
Anticipated expiration: 2032-02-24
Also published as: US20120221330A1; US8650029B2; CN102708855A

Abstract

本文描述了利用话音识别器反馈来进行语音活动检测。语音活动检测(VAD)模块分析诸如音频文件或视频文件之类的媒体文件，以确定该媒体文件的一个或多个帧是否包括话音。话音识别器生成与VAD确定的准确度有关的反馈。VAD模块利用该反馈来改进后继VAD确定。VAD模块还利用与媒体文件相关联的超前窗口来调节先前处理的帧的估计概率或VAD判定。

Description

利用话音识别器反馈来进行语音活动检测

技术领域

本发明涉及利用话音识别器反馈来进行语音活动检测。

背景技术

语音活动检测(VAD)是用在话音处理中的检测人类话音存在或不存在的技术。VAD常常被用在各种不同的系统中，诸如例如包括话音编码、语音增强、话音识别以及回声抵消的系统。通过使用VAD，一旦确定特定内容块或信号的一部分是话音，话音识别技术就可被用来识别话音并将讲出的词语转换成文本。对于诸如在线话音识别之类的各种类型的话音识别，VAD常常是事后补记。因此，被设计成用于非VAD任务的组件常常被或多或少地修改，以执行各种VAD功能。然而，由于这些VAD组件并非是针对这些VAD功能而设计的，因此VAD可能是不准确和/或低效的。

发明内容

本文中描述了用于利用来自话音识别器的反馈来改进语音活动检测(VAD)的技术。在各个实施例中，VAD模块可确定媒体文件的帧包括话音还是非话音。一旦帧被分类为话音帧和/或非话音帧，话音识别器就可将话音帧和非话音帧中包括的词语和非话音分别转换成表示媒体文件的文本转录本。此外，VAD模块可利用由话音识别器提供的反馈来改进尚未被VAD模块处理的帧的VAD。在各个实施例中，VAD模块和话音识别器可异步地处理媒体文件，以使得VAD模块在话音识别器之前处理媒体文件的帧。

在其他实施例中，本文中描述了用于利用超前窗以改进媒体文件的VAD的技术。更具体地，可维护第一帧是包括话音还是非话音的概率。此外，可至少部分地基于与媒体文件中在第一帧之前或之后的一个或多个附加帧相关联的概率来更新先前维护的概率。与第一帧相对应的VAD判定可被延迟，直至下游组件实际需要VAD判定。此时，当前概率可被返回，且当处理附加帧时，可更新此概率。

提供本概述是为了以简化的形式介绍将在以下详细描述中进一步描述的一些概念。本发明内容并不旨在标识出所要求保护的主题的关键特征或必要特征，也不旨在用于限定所要求保护的主题的范围。

附图说明

参考附图来阐明详细描述，附图中，附图标记最左边的数字标识该附图标记首次出现的附图。在相同或不同附图中使用同一附图标记指示相似或相同的项或特征。

图1图解了根据各个实施例的用于利用来自话音识别器的反馈来改进语音活动检测的系统。

图2图解了根据各个实施例的使用超前窗来改进语音活动检测的系统。

图3是根据各实施例的图解可以实现本文描述的语音活动检测方法的代表性计算设备的框图。

图4图解了示出用于利用来自话音识别器的反馈来指导语音活动检测的示例性过程的流程图。

图5图解了示出用于提供与语音活动判定相关联的反馈来指导语音活动检测的示例性过程的流程图。

图6图解了示出用于利用超前窗来更新媒体文件的帧的概率的示例性过程的流程图。

详细描述

本文中所描述的是用于利用来自话音识别器的反馈来改进在线话音识别的语音活动检测(VAD)的系统和/或技术。VAD指的是用于基于在段中是否检测到话音来将音频或视频文件分成一个或多个段的技术。更具体地，VAD模块可确定诸如记录等音频或视频文件的哪些部分包括话音以及文件的哪些部分包括静默和/或其他类型的非话音。一旦作出该确定，VAD模块就可将文件分成包含话音的段和不包含话音的段。包括话音的段或帧可在随后由话音识别器来处理，该话音识别器将口述词语转换成文本。接着，可以对与话音相关联的文本进行索引或不进行索引。如果对与话音相关联的文本进行索引，则文本由此变得可搜索。

给定诸如音频文件或视频文件等记录，可能期望标识该记录中人们正在说话的部分以及该记录中没有话音的那些部分。如果不对文件进行分析来检测文件的哪些部分包括话音，则将话音转换成文本的话音识别器可能创建具有高差错率的转录本。例如，由于话音识别器不知晓话音何时开始和结束，因此结果得到的转录本可能包含在开始和/或结束时切断的词语部分。此类错误可导致转录本难以阅读，且还可能无法准确地表示音频或视频文件中说了些什么，这可能使转录本的读者感到失望。

典型地，对VAD使用低计算信号处理办法。通过使用此办法，使用最小计算资源量，以使得VAD的结果可被嵌入到芯片上。然而，部分地由于正被使用的计算资源的限制，可能会牺牲VAD的质量。通过利用来自话音识别器的反馈来指导VAD，无需牺牲VAD的质量且可利用最小计算资源量。例如，假定诸如移动电话等相对低功率组件被通信地耦合到高功率(例如，增加的计算资源等)话音识别器。在此实施例中，包含VAD模块的低功率组件可识别音频或视频文件中的哪些部分是话音以及哪些是非话音。接着，可将文件的分解段传送给话音识别器。话音识别器可在随后将文件的分段部分转换成文本并将结果反馈给该低功率组件。由于来自话音识别器的结果可表示VAD模块在分析音频或视频文件时的准确度，因此低功率组件的VAD模块可利用此反馈来改进VAD模块的稳健性。换言之，来自话音识别器的反馈可被VAD模块用来增强VAD模块用于检测音频或视频文件中的后继帧里的话音相对非话音的能力。

因此，可替代地利用来自话音识别器的反馈。在各个实施例中，反馈可与在线大词汇量连续话音识别(LVCSR)相关联。替代地利用话音识别器反馈会导致VAD模块保持更简单和紧凑。这在VAD正于诸如移动电话等低资源设备(这些低资源设备由在远程服务器上运行的话音识别器来支持)上运行时可能是重要的。如以下将更详细描述的，可利用至少两种类型的反馈：(1)用反馈指导VAD模型自适应和(2)用反馈指导超前。

以下参照图1-6描述VAD技术的各个示例。

指导VAD模型自适应反馈

图1图解了利用来自话音识别器的反馈来自适应VAD的系统100。具体地，系统100包括VAD模块102和话音识别器104。此外，系统100包括第一线程106和第二线程108。在各个实施例中，第一线程106与VAD模块102相关联，而第二线程108与话音识别器104相关联。此外，VAD模块102可被存储在诸如移动电话等移动设备中，而话音识别器104可在本地或远程服务器上运行。此外，VAD模块102和话音识别器104还可驻留在相同的设备上。第一线程106和第二线程108可表示音频文件或视频文件(在下文中称为“音频文件”或“视频文件”)，其可包括人类话音和各种类型的非话音，诸如静默或其他噪声。在图1中，关于时间110示出第一线程106和第二线程108，其中时间110始于时间t₀。此外，第一线程106和第二线程108可包括媒体文件的一个或多个帧，诸如帧112-120，如图1中所示的。然而，可设想任何数目的帧可被包括在媒体文件中。

如图所示，与第一线程106相对应的VAD模块102以及与第二线程108相对应的话音识别器104可在任何给定时间110正各自处理和/或分析媒体文件的不同点。在一个实施例中，第一线程106和第二线程108可以是异步的，这意味着VAD模块102和话音识别器104可能分别在不同的时间110分析第一线程106和第二线程108的相同帧。例如，帧120可以是由VAD模块102在时间t_p从第一线程106处理的，而相同的帧116可以是由话音识别器104在后继时间t_n从第二线程108处理的。因此，第一线程106的帧120可由VAD模块102在第二线程108的分析之前的时间被分析。如图1中所示的，时间110包括t₀、t_m-1、t_m、t_n-2、t_n-1、t_n和t_p。

如先前所提及的，VAD模块102处理第一线程106。更具体地，VAD模块102可将媒体文件(例如，第一线程106)分成一个或多个帧(例如，帧112-120)并将每个帧分类为话音或非话音。即，VAD模块102可检测每个帧是包括人类话音还是某一形式的非话音(例如，静默、并非是话音的噪声等)。话音识别器104可请求特定帧112-120的VAD信息。假定VAD模块102已处理了帧112-120，则VAD模块102可在随后将所请求的VAD信息提供给话音识别器102。在另一实施例中，话音识别器104可获得特定帧112-120的VAD信息，而无需首先发送请求。例如，VAD模块102可能已对帧114执行了VAD，且已检测到在此帧中包括话音。可在随后由话音识别器104接收与帧114相关联的语音活动判定122。在各个实施例中，语音活动判定112可以指对帧114是包括话音还是非话音的确定的结果。

在以上实施例中，与第二线程108相关联的话音识别器104可在时间t₀请求和/或获得语音活动判定122。然而，如图1中所示的，与第一线程106相关联的VAD模块102可能已处在时间t_m-1。因此，在此实施例中，VAD模块102可能已比话音识别器104处理了更多的媒体文件。因此，由于VAD模块102已处理了媒体文件的附加帧，因此VAD模块102能关于媒体文件作出更稳健的判定。类似于帧114，与第一线程106相关联的VAD模块102还可检测帧116是包括话音还是非话音。一旦作出此确定，可由VAD模块102将与帧116相关联的语音活动判定124传送给与第二线程108相关联的话音识别器104。如同帧114一样，VAD模块102可在比话音识别器104接收与帧116相关联的语音活动判定124(t_n-1)更早的时间(t_n-2)处理帧116。

一旦话音识别器104已接收到语音活动判定124，则话音识别器104可处理帧116。具体地，如果帧116被确定为包括话音，则话音识别器104可将此话音转换成文本。因此，帧116内所包括的话音可被转换成文本转录本。在示例实施例中，与第二线程108相关联的话音识别器104可将指导反馈126传送给VAD模块102。指导反馈126可包括例如以上所提及的本文转录本、对VAD模块102关于帧116的准确度的确定、和/或关于媒体文件的帧116的任何其他信息。由于第一线程106和第二线程108可以是异步的，因此在VAD模块102接收指导反馈126时，VAD模块102可能已处理了附加帧，诸如帧118和/或帧120。

在各个实施例中，一旦接收到指导反馈126，VAD模块就可利用指导反馈126来改进其VAD的准确度。在各个实施例中，VAD模块102可包括用于VAD的一个或多个模型。更具体地，这些模型可用于确定媒体文件的帧是否包括话音和/或非话音。此外，VAD模块102可更新其模型，以使得其可更准确地确定媒体文件的特定帧是包含话音还是非话音。另外，VAD模块102可对媒体文件中尚未被VAD模块102处理的后继帧的VAD使用已更新的模型。更具体地，VAD模块102可使用指导反馈126来更好地确定媒体文件中包括的话音何时开始和/或结束。

VAD模块102可通过关于诸如帧118和/或帧120等后继帧重复以上所描述的过程来改进其对媒体文件中话音相对非话音的识别。例如，一旦VAD模块102处理第一线程106的帧118和/或帧120，话音识别器104就可分别访问语音活动判定128和语音活动判定130。作为响应，话音识别器104可利用语音活动判定128和语音活动判定130来分别将帧118和帧120中包括的话音转换成文本转录本。诸如指导反馈132等指导反馈可在随后被反馈给VAD模块102。在各个实施例中，VAD模块102可利用指导反馈来改进由VAD模块102执行VAD的准确度和稳健性。通过重复接收来自话音识别器104的指导反馈，VAD模块102可利用此反馈，以使得其可持续改进其VAD确定。

因此，来自话音识别器104的反馈可被用来改进在线话音识别的VAD。结果，VAD模块102可开发用于标识媒体文件中的话音、静默和/或其他噪声的更可靠和/或准确的技术。更具体地，可包括由话音识别器104所生成的文本转录本的指导反馈(例如，指导反馈126和/或指导反馈132)可被用于自适应和改进VAD模块102。结果，可改进媒体文件的VAD。

如以上参照图1所述的，媒体文件内的话音可被标识并转换成文本，直至由VAD模块102确定话语结束。出于此讨论的目的起见，话语结束可以指说话者说完单词和/或句子之时。当由话音识别器104创建文本转录本时，可对本文转录本进行置信度计分(例如，通过使用来自识别网格的单词后验分数)且确信帧可作为话音帧被反馈给VAD模块102。在各个实施例中，确信帧可以指媒体文件中话音识别器104确信那些帧包括口述词语的帧。类似地，话音识别器104已确信地将其转录为静默和/或噪声的帧可作为静默和/或噪声帧被反馈。如果媒体文件内的词语和/或帧超预定可靠性阈值，则它们可被视为是确信的。可设想，以上阈值可被设为任何值，且阈值可以是用户定义或由系统100定义的。一旦接收到反馈，与VAD模块102相关联的VAD模型就可被自适应，且识别和VAD可使用新更新的VAD模型来继续进行。更具体地，与话音识别器104相关联的模型可能比由VAD模块102所利用的模型更强大。即，更强大的话音识别模型可比VAD模型包括更多参数，可能更复杂，和/或可能使用多得多的计算。结果，更强大的话音识别模型可能比用在VAD模块102中的模型更擅长对话音/噪声进行分类。因此，由话音识别器104作出的更正确的判定可被反馈给VAD模块102，以帮助确保媒体文件被正确地处理和分类。

在一个实施例中，通过对媒体文件的一个或多个帧进行置信度计分，媒体文件的更可靠地转录的部分可被用于改进VAD模块102以及具体的VAD的稳健性。在各个实施例中，媒体文件的确信部分倾向于更远离话音、静默和/或噪声边界。

指导超前反馈

图2图解了通过使用超前窗来改进VAD的准确度的系统200。更具体地，系统200包括包含媒体文件204的VAD模块202，该媒体文件204可包括一个或多个帧，诸如帧206-214。此外，每个帧206-214可包括相关联的分类概率216-224，以使得帧206-214分别对应于分类概率216-225。媒体文件204还可与时间相关联，以使得帧206与帧208-214之前的时间相关联。类似地，媒体文件204的帧214可于时间上在帧206-212之后被呈现或处理。出于此讨论的目的，媒体文件204可包括任何类型的媒体内容，诸如比如音频内容和/或视频内容。此外，图2中所示的帧206-214可各自被标示为t。

在各个实施例中，假定VAD模块202(诸如参照图1所描述的VAD模块102)通过确定媒体文件204的每个帧206-214是包括话音还是非话音来处理媒体文件204。如果VAD模块102知晓后继帧(例如，帧212和/或214)包括话音或非话音，则VAD模块102能够关于当前帧(例如，帧210)作出更准确的VAD判定。因此，通过向VAD模块102提供超前窗，诸如通过允许VAD模块102使用后继VAD判定和概率来对当前帧作出VAD判定，可使得VAD模块102能作出更准确的VAD判定。

典型地，VAD包括诸如通过确定第一帧是包括话音还是非话音来检查和分析第一帧(例如，帧210)。接着，可在无需重新考虑与第一帧相关联的确定的正确性的情况下关于第二帧(例如，帧212和/或帧214)作出确定。因此，VAD模块102可继续评估后继帧而无需考虑先前确定是否正确。然而，本文中描述了用于在每个帧206-214处指派和维护关于对该帧的分类的概率(例如，分类概率)的技术。在各个实施例中，可指派和维护概率而无需实际上在此时作出分类(VAD)判定。

例如，在VAD模块102处理媒体文件的帧时，对于每个帧，VAD模块102可更新先前帧的概率。在各个实施例中，作为Viterbi解码处理的副效应，VAD模块102可更新这些概率。因此，当话音识别器104请求对特定帧的VAD判定时，可从VAD模块102的当前状态获得对应该帧的当前概率。因此，在话音识别器104请求VAD判定时无需重新计算与每个帧相关联的概率。替代地，对每个帧的重新计算可作为由VAD模块102进行的处理的部分来发生。

在各个实施例中，出于此讨论的目的起见，假定正针对VAD来分析媒体文件204的帧210。此分析可包括指派并维护帧210的概率，该概率表示该帧包括话音的可能性和该帧包括非话音的可能性。即，VAD模块可为任何一个帧(例如，帧206-214)指派和维护该帧包括话音的概率以及该帧包括非话音(例如，静默、其他类型的噪声等)的概率。替换地，VAD模型102可指派并维护帧包括话音的概率，并在随后推断帧包括非话音的概率，且反之亦然。这些概率被标示为分类概率216-224。然而，对特定帧是包括话音还是非话音的确定无需在指派分类概率216-224时作出。例如，对于帧210，VAD模块202可在处理帧210时制止作出肯定性VAD判定，而是替代地，可指派帧210包括话音的概率为0.7，而帧210包括非话音(例如，静默)的概率为0.3。因此，以上概率表示帧210包括话音有70％的可能性相对帧210包括非话音有30％的可能性。

一旦向特定帧(例如，帧210)指派了分类概率，就可为媒体文件中的后继帧(例如，帧212和/或帧214)指派并维护分类概率(例如，分类概率222和/或224)。在各个实施例中，后继帧的分类概率可用于对为先前帧维护的概率进行调节、更新、重新计分。例如，如果正为帧210维护分类概率220，则可基于为在时间上在后的帧(诸如帧212(分类概率222)和/或帧214(分类概率224))指派和维护的分类概率来调节此分类概率220。即，可基于指派给后继帧(例如，帧212和/或帧214)概率来重新分配特定帧(例如，帧210)的概率。因此，特定帧的VAD或概率判定可至少部分地基于可包括在该帧之前的一个或多个帧和/或在该帧之后的一个或多个帧的帧窗口来作出。因此，围绕特定帧的上下文可被用于向该帧指派概率和/或关于该帧作出VAD判定。

具体地，VAD模块102可利用解码搜索空间，这意味者VAD模块102可维护解码假言网络。例如，在任何给定帧，VAD模块102可为该帧的分类维护一个或多个猜测以及相关联概率(即，网络路径)。在VAD模块102处理附加帧时，这些网络路径可被延长，且网络概率可被更新。因此，对于特定帧t，最佳路径可以是路径A。然而，在稍后的时间，最佳路径现在可为路径B，其现在可具比路径A更好的全概率。

在各个实施例中，以上所描述的窗口可被用于基于在时间上领先的帧的概率和/或VAD判定来改变特定帧的分类概率。例如，通过使用以上示例，假定帧210包括话音的分类概率为0.7，而帧210包括非话音的分类概率220为0.3。此外，进一步假定帧208包括话音和非话音的分类概率218分别为0.3和0.7。因此，给定这些概率，看起来更大的可能性是帧208包括非话音而不是话音。由于在前帧(例如，帧208)可能更可能为非话音，因此帧210包括话音的分类概率210可被降级。例如，由于现在帧210为非话音的可能性可能增大，因此先前所指派的帧210为话音的分类概率220可从0.7降级至0.5，且帧210为非话音的分类概率220可从0.3增至0.5。然而，可设想，与帧210相关联的分类概率220可增大和/或减小任何量且可以任何方式来进行。

在其他实施例中，分类概率增大和/或减小的量可以基于先前帧(例如，帧208)的特定分类概率。通过使用以上示例，如果帧208为话音的分类概率218替代地为0.1，且帧208为非话音的分类概率218为0.9，则帧208为非话音的分类概率218相对较高(例如，90％)。因此，由于在前帧208很可能包括非话音，因此更大的可能性是帧210也包括非话音。结果，帧210包括话音的分类概率220甚至可进一步被减小(例如，从0.7至0.3)。类似地，如果帧208为话音的分类概率218为0.9，且帧208为非话音的分类概率218为0.1，则帧210为话音的分类概率220可被增大(例如，从0.7至0.8)。

此外，还可设想，特定帧为话音/非话音的分类概率还可以基于先前帧的VAD判定。例如，如果帧208被确定为包括话音，则帧210为话音的分类概率220可被增大。反之，如果帧208被确定为非话音，则帧210为非话音的分类概率220可被增大。换言之，如果特定帧(例如，帧208)已被指示为话音或非话音，则可能有更大的可能性是后继帧(例如，帧210)相应地为话音或非话音。在各个实施例中，可基于先前帧208与当前帧210之间在时间上的接近度来调节与当前帧210相关联的分类概率220。例如，如果先前帧208被确定为在时间上邻近当前帧210，则可对此概率作出更大调节。

在另一实施例中，可基于与在时间上在后的帧相关联的VAD判定来调节与一个帧相关联的VAD判定。例如，假定帧210先前已被确定为包括话音，但是接下来的一个或多个帧(例如，帧212和/或帧214)被确定为非话音，则系统200可将帧210重新分类为非话音。原因在于：如果接下来n秒的帧(例如，帧212和/或帧214)被分类为话音或非话音，则可能有更大的可能性是先前帧(例如，帧210)也相应地为话音或非话音。因此，如以上所示的，VAD模块202可利用一个或多个帧的VAD判定来确定与先前分类的帧相关联的VAD判定是否应当被调节或重新分类。在各个实施例中，基于后继帧的VAD判定调节特定帧的VAD判定可由可使用Viterbi算法的Viterbi解码器来执行。

如先前所提及的，VAD模块202和话音识别器可异步地处理媒体文件204，这意味着VAD模块202和话音识别器可在不同时间处理媒体文件204。在一个实施例中，VAD模块202可在话音识别器之前处理媒体文件204的帧206-214。例如，VAD模块202可确定媒体文件204的每个帧206-214是话音还是非话音，并作出这样的分类。对于被确定为包括话音的帧206-214中的每一个，话音识别器可在随后将口述词语转换成文本，这可得到媒体文件204的文本转录本。

VAD模块与话音识别器之间较大的异步性可导致VAD模块具有与媒体文件204相关联的更大超前。超前可以指在被话音识别器处理之前VAD模块202已处理的那些帧206-214的数目。替换地，超前可以指对应于VAD模块202与话音识别器处理媒体文件204的相同帧之时的时间差。因此，更大的超前可意味着VAD模块202更可能使用一个或多个帧的概率和/或VAD判定来校正或调节先前不正确或不准确的VAD判定。在各个实施例中，由于VAD模块202可在话音识别器之前处理媒体文件204的帧206-214，因此VAD模块202可在由话音识别器处理与先前VAD判定相关联的帧206-214之前校正这些VAD判定。因此，话音识别器可等待处理媒体文件204的帧206-214的时间越长，则VAD模块202越有可能作出更稳健的VAD判定。如果VAD模块202能校正或调节先前的VAD判定，则话音识别器可处理更准确地表示媒体文件204的VAD判定。结果，由话音识别器生成的转录本可以更准确，包括更少的错误，和/或反映媒体文件204中包括的实际内容。

在各个实施例中，诸如在线大词汇量连续话音识别(LVCSR)系统等系统200可与有限状态变换机(FST)驱动的VAD相组合。出于此讨论的目的起见，FST可以指具有两个存储媒体(例如，磁带)——一个输入存储媒体(例如，输入磁带)和一个输出存储媒体(例如，输出磁带)——的有限状态机。在以上实施例中，对于每个帧206-214，FST的状态可被更新，而无需指派VAD标签或分类。此外，假定系统200包括用于Δ特征计算和短期特征归一化的Δ帧超前，为了解码帧t(其是媒体文件204的前端)，VAD FST可前进至帧t+Δ。当VAD模块202和/或话音识别器请求帧t的特征向量时，还可请求帧t的VAD判定。在此时，可检查VAD FST追溯，且可返回帧t的最佳VAD判定。这可将超前平滑隐式地引入到VAD判定中，因为迟于t的帧会改变最佳追溯路径。在各个实施例中，超前平滑可以指至少部分地基于媒体文件204的后继帧来调节与帧相关联的概率或VAD确定。此外，如果超前窗以某种方式减小，则来自超前平滑的获益可能较少且可不对模型或判定规则作出改变。

在各个实施例中，关于非话音，可包括至少两种类型的静默。话语结束可以指个人已说完单词和/或句子之时，而对话结束可以指个人已完成说话之时。在各个实施例中，VAD模块仅在几个静默帧之后就可断言话语结束，但是在断言对话结束之前可能等待更多帧。不同的原因在于，对话常常包括各种长度的暂停。此外，在断言对话结束之前等待更长的静默时段可改进此类断言的准确度。此外，VAD模块202可能不招致附加滞后就能确认说话者完成说话。另一方面，VAD模块202能够牺牲附加的错误可能性并断言话语结束，以使得可在结果所得的转录本中准确地反映两个人或多个人之间的对话。如果VAD模块202和话音识别器正异步地处理媒体文件204的帧206-214，则可在话音识别器处理帧206-214之前校正最初不正确的话语结束和对话结束。因此，VAD模块202与话音识别器之间在时间上较大的脱节226可允许更稳健的VAD判定，且由此与媒体文件204相关联的更准确的转录本。

实现直接模型自适应和超前反馈

在各个实施例中，本领域中已知的任何VAD算法可用于实现以上所描述的技术。例如，带有话音识别器反馈的基于隐马尔可夫模型(HMM)的VAD可被用于演绎利用来自话音识别器的反馈。

在基于HMM的VAD中，最大似然准则可被用于对照输入话语来对齐多状态全连接HMM。结果所得的状态对齐可给出每个帧的VAD类。VAD类可与对帧是否包括话音和/或非话音的确定有关。在一个实施例中，可使用双状态HMM，对话音和非话音各使用一个状态。在此实施例中，对于y_t——其可对应于所观测的有噪声信号的第t帧(例如，媒体文件204或其一部分)——的VAD判定可由在该时间所占据的状态的标签来给出，且可通过以下假言来管理，如式1和2中所示的：

H₀(不存在话音)：y_t＝n_t (1)

H₁(存在话音)：y_t＝x_t+n_t， (2)

其中n_t和x_t可以分别指噪声和活跃话音。在各个实施例中，HMM状态可通过统计分布分来建模。在一个实施例中，可使用多变量高斯函数，且在独立高斯随机变量的弱假定下有对角协方差矩阵，如式3所示的：

其中μ_k和∑_k可表示话音/非话音状态的参数。此外，可在参考经分段的有噪声数据上训练以上参数的初始值。

在其他实施例中，可使用Viterbi算法来执行在线VAD，以将HMM状态与输入信号对齐。对于话音识别器(例如，LVCSR)，话音识别器的前端特征提取器和后端解码器可并发地操作。对于每个帧t，话音识别器可请求帧t的话音特征向量o_t。为了计算o_t，前端特征提取器可提取o_t+Δ，其中Δ可受例如Δ/加速度计算、短期特征归一化、或应用等待时间的要求的控制。此外，可对帧t+Δ解码VAD，且后端解码器可请求帧t的VAD判定。接着，可提取Viterbi网络中在时间t+Δ的最佳路径，且可追溯该路径以寻找在此时哪个状态是活跃的。此外，可对Viterbi最佳路径判定应用平滑，以移除短的话音/非话音段。该状态的标签还可作为该时间的VAD判定(例如，话音或非话音)被发出。

在各个实施例中，当标识N个连续非话音帧时，可断言话语结束。此外，如果Viterbi最佳路径已改变，则在稍后的时间请求帧t的VAD标签可导致不同的标签。例如，与特定帧相关联的标签可基于与先前帧和/或后继帧相关联的VAD判定和/或概率来改变。

在其他实施例中，在话语结束处，话音识别器可发出话音识别网格。通过使用话音识别网格，话音识别器可使用以下单词后验来计算网格最佳路径上的每个单词的置信度分数，如在式4中所示的：

其中w_i可以指最佳路径上的单词边沿，π可表示话音识别网格中的路径，P_LM(π)可对应于单词序列路径π的语言模型概率，p(Y|π)可以指话语的观测序列Y的声学可能性，而α可表示声学缩放因子。置信度分数可表示话音识别器所转录的词语代表所说的内容的可能性。此外，式4可表示跨边沿w_i的所有路径的总和除以所有网格路径的总和。具有相同单词标签的边沿的置信度可被组合，且随后，最佳路径边沿中具有高于阈值的置信度的每个帧可被选择作为自适应帧。

具体地，对于最佳路径序列B＝[(w_j，p_j，s_j，e_j](可分别对应于单词标签、置信度、开始时间、和结束时间)，可如式5和6中所示地来选择用于自适应的帧。

A(H_o)＝[(s_j，e_j)|p_j＞ρ且w_j为非话音] (5)

A(H₁)＝[(s_j，e_j)|p_j＞ρ且w_j为话音] (6)

最大A后验(MAP)自适应可被用于更新VAD模型参数，对于高斯分布，其是以下加权组合，如式7中所示的：

其中可以是从训练数据估计的原始分布，可以是从自t＝0起看见的所有帧(例如，不仅仅是当前话语的那些)估计的，可对应于新的分布，而τ可对应于MAP自适应权重。经自适应的VAD模型可被接着使用，并且在对话和/或说话者交互结束时，模型可被重置为原始所训练的模型。

在各个实施例中，可对诸如电话话音等话音进行实验，以评估VAD帧分类差错率和话音识别。更具体地，有可通过混合干净的信号与各种类型的真实世界噪声(诸如与车辆(静止)、餐馆(喋喋不休)、道路(非静止)和地铁(周期性噪声)相关联的噪声)来创建噪声记录。可将噪声记录重新采样至预定频率，并在随后将其划分成训练和测试噪声样本。可通过混合经加权的噪声信号和干净的话音信号来人工地创建受噪声损坏的训练和测试集。因此，信噪比(SNR)可被定义为干净信号s(t)的活跃话音能量与来自噪声n(t)的相对应段的能量之比，如式8中所示的。

其中r(t)可对应于来自参考分段的活跃话音掩码。具体地，当干净信号为活跃时，r(t)＝1，否则，r(t)＝0。

给定不同的SNR下与训练噪声(例如，车辆、餐馆等)相混合的源自对话侧的训练话音集，可每侧地计算噪声混合权重，且可从在数据的单词转录本中设置的话音话语边界获得活跃话音掩码r(t)。在各个实施例中，参考分段可能在话音段的开始和结束处不包括非话音帧。可在随后使用如式8中例示的多条件训练过程来训练话音和噪声HMM状态。可在随后对各个对话作出评估，这意味着可使用与用于训练话音相同的过程来创建受噪声损坏的话音，以使得存在每个对话侧的一个干净版本和多个有噪声版本。此外，来自相同对话的侧可被组合成单个经混合的信道，且随后还可创建有噪声版本。此外，话音识别器可对特征归一化和/或超前使用预定时间(例如，0.5秒)的超前窗，且预定置信度值阈值(ρ)可被用于选择用来进行反馈自适应的帧。

鉴于以上所述，可使用平均分类差错率来评估VAD，如式9中所示的。

E＝∑E_k/N_k， (9)

其中N_k和E_k可分别指示测试文件k的总帧数以及被不正确地分类的帧的数目，而K是某一参数。此外，可从评估数据单词转录本的话音分段获得参考帧分类。由于话音识别可能不需要严格的话音/非话音边界，因此可应用VAD判定的平滑。即，可至少部分地基于先前和后继VAD判定对特定帧的VAD判定进行调节或重新计分，如以上所描述的。例如，小于特定阈值(例如，0.05秒)的话音段可被修改为非话音，而小于不同阈值(例如，0.1秒)的非话音段可被修改为话音。

通过使用式9，如以上所描述的，指导模型自适应反馈和/或超前反馈技术，可显著地减小与将帧不正确地分类为话音或非话音相对应的分类差错率。由此，通过利用来自话音识别器的反馈和/或通过利用超前窗，VAD模块和话音识别器可变得更稳健。结果，与正被VAD模块和话音识别器处理的文件相对应的文本转录本会更加准确且代表此文件。

示例计算环境

图3示出根据各实施例的可以实现本文描述的VAD技术的代表性计算设备300。本文描述的技术和机制可以由计算设备300的多个实例以及由任何其他计算设备、系统、和/或环境来实现。图3所示的计算设备300只是计算设备的一个示例，且并非旨在对用于执行上述过程和/或流程的任何计算设备的使用范围或功能提出任何限制。

在至少一种配置中，计算设备300包括至少一个处理器302、VAD模块304、话音识别模块306和系统存储器308。处理器302可执行一个或多个模块和/或过程以使得计算设备300执行各种功能。在某些实施例中，处理器302是CPU、GPU、CPU和GPU两者、或本领域已知的其他处理单元或组件。此外，每个处理器302可拥有其自己的本地存储器，本地存储器也可存储程序模块、程序数据和/或一个或多个操作系统。

VAD模块304可对应于VAD模块102和/或VAD模块202。在各个实施例中，以及如以上参照图1和2所描述的，VAD模块304可确定媒体文件的帧是包括话音还是非话音，以及将这些帧分类为话音帧或非话音帧。此外，VAD模块304可利用由话音识别模块306提供的反馈来改进尚未被VAD模块304处理的帧的VAD。在各个实施例中，VAD模块304和话音识别模块306可异步地处理媒体文件，以使得VAD模块304在话音识别模块306之前处理媒体文件的帧。

在其他实施例中，VAD模块304可利用超前窗以改进媒体文件的VAD。更具体地，VAD模块304可指派并维护媒体文件的第一帧包括话音或非话音的概率(例如，分类概率)。此外，VAD模块304可至少部分地基于与媒体文件中在第一帧之前或之后的一个或多个附加帧相关联的概率来更新先前维护的概率。VAD模块304还可延迟与第一帧相对应的VAD判定，直至与第一帧相对应的概率被更新，这会改进媒体文件的VAD的稳健性。

话音识别模块306可对应于话音识别器104。在一些实施例中，一旦VAD模块将媒体文件的帧转换成话音帧和/或非话音帧，话音识别模块306就可将话音帧和非话音帧中包括的词语和非话音分别转换成表示媒体文件的文本转录本。如以上参照图1和2所述的，话音识别模块306可将反馈传送给VAD模块304，以增加VAD的准确度。在各个实施例中，VAD模块304和话音识别模块306可驻留在相同的计算设备300上或可驻留在分开的设备上。

取决于计算设备300的确切配置和类型，系统存储器308可以是易失性的(诸如RAM)、非易失性的(诸如ROM、闪存、微型硬盘驱动器、存储卡等)或是其某种组合。系统存储器308可以包括操作系统310、一个或多个程序模块312，且可以包括程序数据314。计算设备300具有由虚线316划分的非常基本的配置。

计算设备300可具有附加特征和/或功能。例如，计算设备300还可包括附加数据存储设备(可移动和/或不可移动)，诸如例如磁盘、光盘或磁带。在图3中通过可移动存储318和不可移动存储320示出了这样的附加存储。计算机可读介质可包括至少两种类型的计算机可读介质，即计算机存储介质和通信介质。计算机存储介质可包括以用于存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。系统存储器308、可移动存储318和不可移动存储320都是计算机存储介质的示例。计算机存储介质包括，但不限于，RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁带盒、磁带、磁盘存储或其他磁性存储设备、或能用于存储所需信息且可以由计算设备300访问的任何其他非传输介质。任何这样的计算机存储介质都可以是计算设备300的一部分。此外，计算机可读介质可包括在由处理器302执行时执行此处所描述的各种功能和/或操作的计算机可执行指令。

相反，通信介质可用诸如载波或其他传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其他数据。如本文所限定的，计算机存储介质不包括通信介质。

计算设备300也可包括输入设备322，如键盘、鼠标、笔、语音输入设备、触摸输入设备等等。也可包括输出设备324，如显示器、扬声器、打印机等等。

计算设备300还可包含允许该设备诸如通过网络来与其他计算设备328进行通信的通信连接326。这些网络可包括有线网络以及无线网络。通信连接326是如上所述的通信介质的一些示例。出于此讨论目的起见，其他计算设备328可包括类似于计算设备300的计算设备、服务器和/或本领域中已知的任何其它类型的设备。

可以理解，所示计算设备300只是合适的设备的一个示例，并不旨在对所述各实施方式的使用范围或功能提出任何限制。适用于各实施例的其他公知的计算设备、系统、环境和/或配置包括但不限于，个人计算机、服务器计算机(包括远程服务器)、手持式或膝上型设备、多处理器系统、基于微处理器的系统、机顶盒、游戏控制台、可编程消费者电子产品、网络PC、小型计算机、大型计算机、包括上述系统或设备中的任一个的分布式计算机环境、使用现场可编程门阵列(“FPGA”)和专用集成电路(“ASIC”)的实现等。

示例过程

图4-6描绘了用于利用来自话音识别器的反馈来改进VAD的各个示例过程。这些示例过程在图1-3的环境的上下文中描述，但不限于这些环境。每一示例过程中描述操作的次序并不旨在解释为限制，并且任何数量的所描述的框可以按任何次序和/或并行组合以实现每一个过程。此外，图4-6中的各框可以是可用硬件、软件及其组合来实现的操作。在软件的上下文中，各个框表示在由一个或多个处理器执行时使得一个或多个处理器执行既定操作的计算机可执行指令。一般而言，计算机可执行指令可包括使得执行特定功能或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等。

图4是图解利用来自话音识别器的反馈来指导VAD的过程400的流程图。在示例实施例中，以下与图4相关联的动作可由以上分别参照图1-3描述的VAD模块102、VAD模块202、和/或VAD模块304来执行。

框402例示将媒体文件的帧分类成话音帧和非话音帧。在一个实施例中，媒体文件的帧可对应于帧112-120中的任一个，且媒体文件可对应于可被VAD模块处理的第一线程102。当VAD模块处理媒体文件时，其可确定媒体文件的每个帧包含话音还是诸如静默或其他噪声等非话音。VAD模块可在随后将媒体文件的帧分类成话音帧或非话音帧。

框404例示将话音帧和/或非话音帧发送给话音识别器。话音帧和/或非话音帧可对应于图1中所示的语音活动判定(例如，122、124、128和/或130)。在一个实施例中，一旦VAD模块将帧分类为具有话音或非话音，VAD模块就可将该话音帧和/或非话音帧发送到如以上参照图1和2所描述的话音识别器。替换地，作为传送每个帧的替代，VAD模块可传送一个或多个帧包括话音和/或非话音的指示。在各个实施例中，帧标识符可被用于标识媒体文件的各个帧是否包括话音和/或非话音。此外，话音识别器可从VAD模块请求话音帧和/或非话音帧。在其他实施例中，话音识别器可访问话音和/或非话音帧而无需使用这样的请求。

框406例示接收与话音帧和非话音帧相关联的反馈。在各个实施例中，反馈可对应于指导反馈126或指导反馈132，如图1中所示的。此外，可从话音识别器104和/或话音识别模块306传送反馈，且该反馈可由VAD模块102、VAD模块202和/或VAD模块304接收。一旦接收到来自VAD模块的话音/非话音帧，话音识别器就可将分别与话音帧和非话音帧相对应的词语和静默/噪声转换成文本转录本。因此，文本转录本可表示媒体文件的内容。

还可对由话音识别器创建的文本转录本进行置信度计分，由此包括在文本转录本中的词语的置信度分数可表示文本转录本相对于媒体文件的实际内容的准确度水平。此外，可对文本转录本进行置信度计分，以使得转录本包括媒体文件中超过预定可靠性阈值的经转录部分。在各个实施例中，此阈值可被设为任何值。

框408例示将反馈用于对媒体文件的后继帧的语音活动检测。更具体地，且在各个实施例中，VAD模块可利用由话音识别器提供的文本转录本和/或其他信息/反馈以便改进VAD。例如，来自话音识别器的反馈可被VAD模块用来更新VAD模块的一个或多个模型。已更新的模型可在随后被VAD模块用来改进媒体文件中尚待VAD模块处理的帧的VAD的准确度。

另外，VAD模块和话音识别器可异步地处理媒体文件，这意味着VAD模块可在话音识别器之前处理媒体文件的帧。由于VAD模块可在话音识别器之前处理媒体文件的帧，因此VAD模块可在话音识别器处理这些帧之前改进其VAD的稳健性。结果，由话音识别器生成的文本转录本较不可能包括错误，且因此会是媒体文件中包括的话音的更准确表示。

图5是图解使得能使用反馈来指导VAD的过程500的流程图。在示例实施例中，以下与图5相关联的动作可由如以上参照图1-3描述的话音识别器102和/或话音识别模块306来执行。

框502例示访问与媒体文件的一个或多个帧相对应的语音活动判定。在各个实施例中，语音活动判定可对应于语音活动判定122、语音活动判定124、语音活动判定128、和/或语音活动判定130。此外，媒体文件可对应于可由话音识别器处理器的第二线程104，而帧可对应于帧114-120。在不同的实施例中，语音活动判定可由VAD模块(例如，VAD模块102、VAD模块202和/或VAD模块304)生成，且可以基于对一个或多个帧是包括话音(例如，话音帧)还是非话音(例如，非话音帧)的确定。此外，话音识别器可请求语音活动判定，或以其他方式访问语音活动判定而无需提交请求。

框504例示生成与语音活动判定相关联的反馈。一旦话音识别器已访问语音活动判定，话音识别器就可将包括在话音帧和/或非话音帧内的内容转换成文本转录本。此外，与语音活动判定相关联的反馈可表示语音活动判定的相对准确度。换言之，反馈可指示文本转录本是否是媒体文件中包括的话音和/或非话音的准确表示。

框506例示对反馈进行置信度计分。在各个实施例中，可对文本转录本进行置信度计分，以使得文本转录本包括超过关于可靠性的预定义阈值的词语。可设想，此阈值可被设为任何值。此外，可对文本转录本进行置信度计分，以使得置信度分数可指示文本转录本正确的可能性。

框508例示使得能使用反馈来指导对媒体文件的帧的语音活动检测。在各个实施例中，一旦生成，反馈(例如，文本转录本)就可被从话音识别器传送到VAD模块。反馈还可对应于指导反馈126和/或指导反馈132，如图1中所示的。VAD模块可利用此反馈来更新用于VAD的一个或多个模型。因此，媒体文件中尚未被VAD模块处理的后继帧可使用已更新的模型来处理。在各个实施例中，由话音识别器提供的反馈可指示VAD模块在其将帧分类为话音帧或非话音帧的准确度水平。因此，通过更新其模型，VAD模块可提供对媒体文件的后继文件更准确的VAD确定。此外，VAD模块和话音识别器可异步地处理媒体文件，这意味着VAD模块可在话音识别器之前处理媒体文件的部分。

图6是图解至少部分地基于超前窗改进VAD的过程600的流程图。在示例实施例中，以下与图6相关联的操作可由如以上参照图1-3描述的VAD模块102、VAD模块202、和/或VAD模块304来执行。

框602例示向媒体文件的第一帧指派概率。在各个实施例中，媒体文件可对应于媒体文件204，而第一帧可对应于帧206-214中的任一个。此外，VAD模块可通过确定每一帧的概率(例如，分类概率216-224)来处理媒体文件204。更具体地，VAD模块可向第一帧指派表示第一帧的确包括或的确不包括话音的可能性的概率。例如，VAD模块可指派第一帧包括话音的概率为0.7，这意味着大致70％的可能性是第一帧包括话音，而30％的可能性是第一帧包括非话音(例如，静默、其他噪声等)。

在示例实施例中，VAD模块可向媒体文件的每一个帧指派概率，而无需在此时作出VAD确定。即，VAD判定可被延迟，直至需要作出VAD判定。此外，帧包括话音的概率和帧包括非话音的概率可以是反相关的。例如，假定话音的概率为0.7，则非话音的概率将为0.3。类似地，如果话音的概率被确定为0.8，则非话音的概率将为0.2，依此类推。

框604例示确定媒体文件的帧窗口内的第二帧的概率。更具体地，VAD模块可确定并维护第二帧的概率，其也对应于第二帧包括话音相对非话音的概率。帧窗口还可被称为超前窗，且可表示媒体文件中在第一帧之前(例如，帧206和/或帧208)和/或之后(例如，帧212和/或帧214)的一个或多个帧。因此，VAD模块可确定媒体文件的多个帧的概率。

框606例示更新第一帧的概率。如以上参照图2所描述的，VAD模块可至少部分地基于与第二帧相关联的概率来更新第一帧包括话音/非话音的概率。例如，假定确定第一帧更可能是话音，而第二帧更可能是非话音，则第一帧包括话音的概率可被减小或降级。即，由于在第一帧之前或之后(例如，与之相邻)的帧更可能是非话音，因此可能更大的可能性是第一帧包括非话音。结果，第一帧包括话音的概率可被减小。结果，第一帧包括非话音的概率可被增大。

如以上所述的，第一帧的概率可基于媒体文件的任何其他帧(诸如帧窗口中包括的一个或多个帧)的概率来调节。例如，第二帧可在第一帧之前或之后和/或与第一帧相邻或不相邻。由于为第一帧维护的概率可在最初指派概率之后被调节，因此VAD模块可基于围绕媒体文件的帧的上下文对此概率作出调节。通过使用此附加信息，VAD模块能够关于任何帧是包括话音还是非话音作出更准确的判定。

另外，以及在各个实施例中，VAD模块可延迟向特定帧指派VAD判定，直至与该帧相关联的概率已被更新。因此，为了帮助确保VAD判定正确和/或准确，VAD模块可确定围绕该特定帧的帧的上下文，并相应地作出VAD判定。

框608例示将语音活动判定与第一帧进行关联。在各个实施例中，VAD判定可对应于如图1中所示的语音活动判定122、语音活动判定124、语音活动判定128、和/或语音活动判定130。此外，语音活动判定可表示媒体文件的帧(例如，帧210)是包括话音还是非话音(例如，静默、其他噪声等)。VAD模块还可对媒体文件的一个或多个附加帧(例如，帧206、帧208、帧212和/或帧214)作出语音活动判定。接着，VAD模块可利用与该一个或多个附加帧相关联的语音活动判定来调节或改变与第一帧相关联的语音活动判定。例如，如果第一帧被确定为包括话音，而一个或多个后继帧被确定为包括非话音，则可能更大的可能性是第一帧也包括非话音。因此，VAD模块可将对第一帧的语音活动判定从话音改变为非话音。在一个实施例中，该一个或多个附加帧可在第一帧之前或之后，且可能与第一帧相邻。

由于对特定帧的语音活动判定可在最初被确定之后被调节，因此可能有更大的可能性是VAD模块关于媒体文件的帧包括话音还是非话音作出更准确和稳健的判定。结果，由话音识别器生成的反馈和/或文本转录本可更准确地表示媒体文件中包括的实际内容(例如，对话、话音等)。接着，此反馈可被VAD模块用来对媒体内容中尚未被VAD模块处理的附加帧作出VAD确定。

结论

尽管已经用结构特征和/或方法动作专用的语言描述了本主题，但要理解，所附权利要求书中定义的主题不必限于所描述的具体特征或动作。相反地，这些具体特征和动作是作为实现该权利要求的示例性形式而公开的。

Claims

1.一种用于语音活动检测的方法，包括：

通过语音活动检测模块将媒体文件的多个帧分类为一个或多个话音帧和一个或多个非话音帧(402)；

从话音识别器接收与所述一个或多个话音帧和所述一个或多个非话音帧相关联的反馈(406)，所述反馈包括对所述分类的准确度的确定；以及

将所述反馈用于更新将被用于所述媒体文件中尚待处理的多个帧的语音活动检测的模型(408)，其中所述语音活动检测模块和所述话音识别器模块异步地处理所述媒体文件。

2.如权利要求1所述的方法，其特征在于，还包括在接收到所述反馈之前分类所述多个帧的附加帧。

3.如权利要求1所述的方法，其特征在于，所述反馈包括文本转录本，所述文本转录本表示所述一个或多个话音帧的内容，并且所述文本转录本是至少部分地基于所述分类的准确度来进行置信度计分的，所述经置信度计分的文本转录本包括媒体文件中超过预定可靠性阈值的词语或短语。

4.一种用于语音活动检测的方法，包括：

访问与媒体文件的一个或多个帧相对应的语音活动判定(502)；

生成与语音活动判定相关联的反馈(504)，所述与语音活动判定相关联的反馈表示所述语音活动判定的相对准确度；以及

使得能使用所述反馈来指导对所述媒体文件的一个或多个后继帧的语音活动检测，

其中：

所述语音活动检测是由语音活动检测模块生成的；

所述反馈是由话音识别器生成的；并且

所述语音活动检测模块和所述话音识别器异步地处理所述媒体文件，以使得所述语音活动检测模块在所述话音识别器之前处理所述一个或多个帧的每一个。

5.如权利要求4所述的方法，其特征在于，还包括对与所述媒体文件相对应的转录本进行置信度计分，以使得所述转录本中超过预定阈值的词语或短语被视为是确信的。

6.如权利要求4所述的方法，其特征在于，所述反馈被利用来更新与所述语音活动检测模块相关联的、用于语音活动检测的模型。

7.一种用于语音活动检测的系统，包括：

一个或多个处理器(302)；

通信地耦合至所述一个或多个处理器(302)的存储器(308)，其用于存储：

语音活动检测模块(102)，其被配置成：

向媒体文件的第一帧指派表示所述第一帧包括话音的可能性的概率；

至少部分地基于帧窗口内的一个或多个帧来更新所述第一帧的所述概率；

向所述帧窗口内的第二帧指派一概率，所述指派给第二帧的概率表示所述第二帧包括话音的可能性；以及

至少部分地基于所述第二帧的概率来更新所述第一帧的概率。

8.如权利要求7所述的系统，其特征在于，所述语音活动检测模块还被配置成延迟与所述第一帧相关联的语音活动检测判定，直至所述第一帧的概率被更新。