CN101548313A

CN101548313A - 话音活动检测系统和方法

Info

Publication number: CN101548313A
Application number: CNA2007800414946A
Authority: CN
Inventors: Z·瓦尔桑
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2006-11-16
Filing date: 2007-10-26
Publication date: 2009-09-30
Anticipated expiration: 2027-10-26
Also published as: CA2663568C; CN101548313B; KR20090083367A; ATE463820T1; CA2663568A1; JP4568371B2; US8311813B2; JP2010510534A; US20100057453A1; EP2089877A1; DE602007005833D1; EP2089877B1; US20120330656A1; US8554560B2; KR101054704B1; WO2008058842A1

Abstract

通过以下方式来区分输入信号中的至少两类事件。接收一组包含输入信号的帧，并且针对所述帧中的每个帧确定至少两个不同的特征向量。使用针对所述至少两类事件训练的相应多组预分类器对所述至少两个不同的特征向量进行分类。对于所述帧中的每个帧，根据所述预分类器的输出确定至少一个加权因数的值。通过将所述至少一个加权因数应用于所述至少两个不同的特征向量来计算所述帧中的每个帧的组合特征向量。使用针对所述至少两类事件训练的一组分类器对所述组合特征向量进行分类。

Description

话音活动检测系统和方法

技术领域

本发明一般地涉及话音活动检测。具体地说，但不是独占地，本发明涉及区分诸如语音和噪声之类的事件类型。

背景技术

话音活动检测(VAD)是诸如语音编码、免提电话以及语音识别之类的众多语音处理工作中的一个重要部分。例如，在移动通信中，当移动设备检测到没有语音之时，通过无线接口的传输带宽会显著减少。另一实例是自动语音识别系统(ASR)。由于有关记忆和准确性的限制，VAD在ASR中非常重要。对语音边界的不准确检测会导致严重的问题，例如识别性能降低和语音质量下降。

VAD在语音识别中受到广泛关注。通常，使用两种主要的方法来设计此类系统：阈值比较技术和基于模型的技术。对于阈值比较方法，将从输入信号提取诸如能量、过零、自相关系数之类的各种特征，然后将其与某些阈值进行比较。以下出版物中提供了一些方法：由Li Q.、Zheng J、ZhouQ.以及Lee C.-H所著的“A robust，real-time endpoint detector withenergy normalization for ASR in adverse environments”，Proc.ICASSP，233-236页，2001年；由L.R.Rabiner等人所著的“Application of an LPCDistance Measure to the Voiced-Unvoiced-Silence Detection Problem”，IEEE Trans.On ASSP，vol.ASSP-25、no.4，338-343页，1977年8月。

通常仅根据噪声估计阈值并动态地更新阈值。通过使用自适应阈值或适当的过滤，可以提高其性能。例如，请参阅Martin A.、Charlet D.以及Mauuary L.所著的“Robust Speech/Nonspeech Detection Using LDAapplied to MFCC”，Proc.ICASSP，237-240页，2001年；Monkowski M.的“Automatic Gain Control in a Speech Recognition System”，美国专利US6314396；以及Lie Lu、Hong-Jiang Zhang、H.Jiang所著的“ContentAnalysis for Audio Classification and Segmentation”，IEEE Trans.Speech& Audio Processing，vol.10，No.7，504-516页，2002年10月。

备选地，广泛地引入基于模型的VAD以便可靠地将语音与其他复杂的环境声音区别开。以下出版物中提供了一些方法：由J.Ajmera、I.McCowan所著的“Speech/Music Discrimination Using Entropy andDynamism Features in a HMM Classification Framework”，IDIAP-RR01-26，IDIAP，马蒂尼，瑞士，2001年；以及由T.Hain、S.Johnson、A.Tuerk、P.Woodland、S.Young所著的“Segment Generation andClustering in the HTK Broadcast News Transcription System”，DARPABroadcast News Transcription und Understanding Workshop，133-137页，1998年。通常在此类系统中采用诸如全带能量、子带能量、线性预测残余能量之类的特征或诸如Mel频率倒谱系数(MFCC)的基于频率的特征。

基于阈值自适应和能量特征的VAD技术无法处理在众多现实生活应用中所遇到的复杂声学情况，在所述应用中，信号能量级别通常是高度动态的并且经常伴有诸如音乐和非稳定噪声之类的背景声音。因此，噪声事件经常被识别为单词而导致插入错误，同时受到邻近噪声事件影响的语音事件将导致替代错误。基于模型的VAD技术在噪声环境下较有效，但是它们对单一语言的依赖性(因为它们要编码音素层次信息)显著削弱了其功能。

环境类型对于VAD准确性起很重要的作用。例如，在经常出现高信噪比(SNR)情况的汽车环境中，当汽车停止时，可以进行准确的检测。当SNR非常低并且经常具有汽车引擎发出的高强度半稳定背景噪声以及诸如路途颠簸、雨刷噪声以及关门之类的高瞬态噪声时，话音活动检测仍是一个难题。同样，在其他情况下，当SNR非常低并且存在背景噪声和高瞬态噪声时，话音活动检测也是一个难题。

因此，非常需要开发一种可以在各种环境中很好地执行并且其中着重考虑鲁棒性和准确性的VAD方法/系统。

发明内容

本发明的实施例的目标是解决上述一个或多个问题。

根据本发明的第一方面，提供了一种用于区分至少两类事件的计算机化的方法，所述方法包括以下步骤：

接收一组包含输入信号的帧，

针对所述帧中的每个帧确定至少两个不同的特征向量，

使用针对所述至少两类事件训练的相应多组预分类器对所述至少两个不同的特征向量进行分类，

对于所述帧中的每个帧，根据所述预分类器的输出确定至少一个加权因数的值，

通过将所述至少一个加权因数应用于所述至少两个不同的特征向量来计算所述帧中的每个帧的组合特征向量，以及

使用针对所述至少两类事件训练的一组分类器对所述组合特征向量进行分类。

所述计算机化的方法可以包括确定所述多组预分类器中的每组预分类器的输出之间的至少一个距离，并且根据所述至少一个距离确定所述至少一个加权因数的值。

所述方法还可以包括将所述至少一个距离与至少一个预定阈值相比较，并使用与所述比较相关的公式计算所述至少一个加权因数的值。所述公式可以使用所述至少一个阈值中的至少一个阈值作为输入。

所述至少一个距离可以基于以下项中的至少一项：Kullback-Leibler距离、Mahalanobis距离以及Euclidian距离。

可以确定所述帧中的每个帧的基于能量的特征向量。所述基于能量的特征向量可以基于以下项中的至少一项：不同频带中的能量、对数能量以及语音能量轮廓。

可以确定所述帧中的每个帧的基于模型的特征向量。所述基于模型的技术可以基于以下项中的至少一项：声学模型、神经网络、混合神经网络以及隐马尔可夫模型方案。

在一个特定实施例中，对于所述帧中的每个帧，确定基于不同频带中的能量的第一特征向量以及基于声学模型的第二特征向量。此特定实施例中的所述声学模型可以是以下项中的一项：单语言声学模型和多语言声学模型。

本发明的第二方面提供了一种用于训练话音活动检测系统的计算机化的方法，所述方法包括：

接收一组包含训练信号的帧，

确定所述帧中的每个帧的品质因数，

根据所述训练信号的内容将所述帧标记为至少两类事件，

针对所述帧中的每个帧确定至少两个不同的特征向量，

使用所述至少两类事件训练相应多组预分类器以对所述至少两个不同的特征向量进行分类，

使用一组分类器对所述组合特征向量进行分类以将所述组合特征向量分类为所述至少两类事件。

所述方法可以包括确定所述预分类器的输出之间的距离的阈值以便确定所述至少一个加权因数的值。

本发明的第三方面提供了一种用于区分至少两类事件的话音活动检测系统，所述系统包括：

特征向量单元，其用于针对包含输入信号的一组帧中的每个帧确定至少两个不同的特征向量，

多组预分类器，针对所述至少两类事件训练所述多组预分类器以对所述至少两个不同的特征向量进行分类，

加权因数值计算器，其对于所述帧中的每个帧，根据所述预分类器的输出确定至少一个加权因数的值，

组合特征向量计算器，其用于通过将所述至少一个加权因数应用于所述至少两个不同的特征向量来计算所述帧中的每个帧的组合特征向量的值，以及

一组分类器，针对所述至少两类事件训练所述一组分类器以对所述组合特征向量进行分类。

在所述话音活动检测系统中，所述加权因数值计算器可以包括所述预分类器的输出之间的距离的阈值以便确定所述至少一个加权因数的值。

本发明的其他方面提供了一种包括计算机可用介质和计算机可读程序的计算机程序产品，其中所述计算机可读程序在数据处理系统上执行时，可使所述数据处理系统执行上述的方法步骤。

附图说明

为了更好地理解本发明以及如何实现本发明，现在将仅通过实例的方式参考附图，其中：

图1作为一个实例示意性地示出了根据本发明的实施例的话音活动检测系统；

图2作为一个实例示出了根据本发明的实施例的话音活动检测方法的流程图；

图3示意性地示出了根据本发明的实施例的训练话音活动检测系统的一个实例；以及

图4示意性地示出了根据本发明的实施例的训练话音活动检测系统的其他实例。

具体实施方式

本发明的实施例将基于模型的话音活动检测技术与基于不同频带上的信号能量的话音活动检测技术结合在一起。这种结合为环境变化提供了鲁棒性，因为由不同能量带中的信号能量以及由声学模型提供的信息可以相互补充。从信号能量和声学模型获得的两类特征向量与环境变化一致。此外，此处提供的话音活动检测技术使用动态加权因数，后者可以反映与输入信号关联的环境。通过将两类特征向量与此类动态加权因数结合，话音活动检测技术可以适应环境变化。

尽管将在下文中作为具体实例详细说明基于声学模型和不同频带中的能量的特征向量，但是也可以使用任何其他特征向量，只要特征向量类型彼此不同并且它们提供关于输入信号的补充信息即可。

在高SNR情况下用于语音检测的一个简单而有效的特征是信号能量。任何基于能量的鲁棒机制都必须适应相对信号和噪声级别以及信号的总增益。而且，由于在不同频带中传递的信息根据音素类型(响音、摩擦音、滑音等)的不同而不同，因此使用能带来计算这些特征类型。带有m个分量的特征向量可以写为(En₁，En₂，En₃，...，En_m)，其中m表示带数。基于信号能量的特征向量是根据本发明的实施例的话音活动检测系统中使用的第一类特征向量。其他基于能量的特征向量类型为频谱幅度，例如对数能量和语音能量轮廓。原则上，可以使用任何对噪声敏感的特征向量。

已知诸如Mel频率倒谱系数(MFCC)及其导数、感知线性预测系数(PLP)之类的基于频率的语音特征对于在语音识别系统中获取对噪声的改进的鲁棒性非常有效。不幸地，当在VAD系统中直接使用这些语音特征时，它们并不能有效地将语音与其他环境声音进行区分。因此，在VAD系统中使用这些特征的一种方法是通过声学模型(AM)。

当使用声学模型时，VAD的功能通常仅限于训练AM所用的语言。针对其他语言使用基于特征的VAD可能需要新的AM并以增加的计算成本重新训练整个VAD系统。因此，使用针对通用语音体系训练的能够处理多种语言的AM是有利的。这可以最大程度上减少工作量，代价是稍微降低了准确性。

多语言AM需要基于跨所有语言的通用字母表来转录语音。为了获得通用字母表，用户可以从每种涉及的语言的先前已有的字母表开始，其中的一些语言需要进行简化，然后合并若干种语言中使用的对应于同一IPA符号的音素。在F.Palou Cambra、P.Bravetti、O.Emam、V.Fischer以及E.Janke所著的“Towards a common alphabet for multilingual speechrecognition”(关于口语处理(Spoken language Processing)的第6次国际会议的会刊，北京，2000年)中介绍了这种方法。多语言语音识别的声学建模在很大程度上利用公认的用于(半连续)连续的隐马尔可夫模型训练的方法，但是对于这项工作，也可以考虑将产生每个类别的后验类别概率的神经网络。在V.Fischer、J.Gonzalez、E.Janke、M.Villani以及C.Wasst-Richard所著的“Towards Multilingual Acoustic Modeling for LargeVocabulary Continuous Speech Recognition”(有关多语言语音通信(Multilingual Speech Communications)的IEEE讨论会会刊，京都，日本，2000年)以及S.Kunzmann、V.Fischer、J.Gonzalez、O.Emam、C.Günther以及E.Janke所著的“Multilingual Acoustic Models for SpeechRecognition and Synthesis”(有关声学、语音和信号处理(Acoustics，speech，and Signal Processing)的IEEE国际会议会刊，蒙特利尔，2004年)中介绍了这种方法。

假设语音和噪声观测都可以由高斯混合密度函数的个体分布来表征，则VAD系统也可以从现有的语音识别系统获益，在所述现有语音识别系统中，静态AM被建模为隐马尔可夫模型框架内的高斯模型混合(GMM)。可以在E.Marcheret、K.Visweswariah、G.Potamianos所著的“SpeechActivity Detection fusing Acoustic Phonetic and Energy Features”(ICASLP会刊，2005年)中找到一个实例。每个类别都由GMM(具有选定的混合数)建模。在帧的基础上计算语音/噪声事件的类别后验概率并在本发明中将它们称为(P1，P2)。它们表示第二类FV。

在下面的说明中，多语言声学模型通常被用作提供特征向量的模型的实例。可以理解，可以直接从多语言声学模型导出单语言声学模型。此外，可以使用根据本发明的实施例的语音检测系统中的特定单语言声学模型。将与频带的能量相关的第一特征向量(En₁，En₂，En₃，...，En_m)输入到第一组预分类器。将由声学模型或其他相关模型提供的两类事件的第二特征向量(例如(P1，P2))输入到第二组预分类器。所述预分类器通常为输出高斯混合分布的高斯混合预分类器。对于本发明的实施例中采用的任何高斯混合模型，用户都可以例如使用神经网络来估计每个类别的后验概率。

这些组中的预分类器的数量与话音活动检测系统需要检测的事件类别的数量相对应。通常，存在两种事件类别：语音和非语音(或者换言之，语音和噪声)。但是取决于应用，可能需要更多数量的事件类别。一个很常见的实例是具有以下三种事件类别：语音、噪声和静默。所述预分类器已经针对各个事件类别进行了训练。下文将详细地介绍训练。

在高SNR(纯净环境)下，所述两种类别的分布是完全分开的，并且与基于能量的模型关联的任何预分类器都会提供可靠的输出。还希望与(多语言)声学模型关联的分类模型将提供相当良好的类别分隔。在低SNR(嘈杂环境)下，与能带关联的两种类别的分布大量重叠，使得基于单独与能带关联的预分类器的决策变得不可靠。

根据环境类型(嘈杂或纯净)，一种FV类型似乎比其他类型更有效。但是在实际应用中，环境的改变非常频繁，从而要求存在两种FV类型，以便增加话音活动检测系统对这些改变的鲁棒性。因此，本发明的实施例中将使用其中根据环境类型动态地加权两种FV类型的方案。

还存在定义环境以便确定哪个FV将提供最可靠的决策的问题。推断环境类型的一个简单而有效的方法涉及计算事件类型分布之间的距离，例如，语音/噪声分布之间的距离。相对于未良好区别各分布的特征向量而言，将着重介绍可以提供更好的区分类别并导致分布之间的更大距离的高区分性特征向量。根据预分类器的模型之间的距离来确定加权因数的值。

图1示意性地示出了根据本发明的实施例的话音活动检测系统100。图2示出了话音活动检测方法200的流程图。

可以理解，方法200中的步骤顺序是可以改变的。同时方块的排列可以与图1中示出的顺序不同，只要方块所提供的功能在所述话音检测系统100中存在即可。

话音活动检测系统100接收输入数据101(步骤201)。所述输入数据通常被分为帧，这些帧是相互重叠的连续语音段(输入信号)，其大小在10-30毫秒之间变化。信号能量方块104针对每个帧确定第一特征向量(En₁，En₂，En₃，...，En_m)(步骤202)。前端102通常针对每个帧计算MFCC系数及其导数，或感知线性预测(PLP)系数(步骤204)。这些系数被输入到声学模型AM 103。在图1中，通过实例的方式，所述声学模型示为多语言声学模型。声学模型103针对每个帧提供语音上的声学似然(acoustic likelihood)作为第二特征向量(步骤205)。多语言声学模型确保了至少针对训练所用的任何语言使用与模型相关的VAD。

能带方块104所提供的第一特征向量(En₁，En₂，En₃，...，En_m)被输入第一组预分类器M3、M4 121、122(步骤203)。声学模型103所提供的第二特征向量(P1，P2)被输入第二组预分类器M1、M2 111、112(步骤206)。预分类器M1、M2、M3、M4通常为输出高斯混合分布的高斯混合预分类器。还可以使用神经网络来提供每个类别的后验概率。这些组中的预分类器的数量与话音活动检测系统100需要检测的事件类别的数量相对应。图1示出了事件类别语音/噪声作为实例。但是取决于应用，可能需要更多数量的事件类别。已针对各种事件类别训练了所述预分类器。在图1的实例中，M₁是仅使用(P₁，P₂)训练的语音模型，M₂是仅使用(P₁，P₂)训练的噪声模型，M₃是仅使用(En₁，En₂，En₃，...，En_m)训练的语音模型，而M₄是仅使用(En₁，En₂，En₃，...，En_m)训练的噪声模型。

话音活动检测系统100计算每组中的预分类器所输出的分布之间的距离(步骤207)。换言之，计算预分类器M1和M2的输出之间的距离KL12，同样地，计算预分类器M3和M4的输出之间的距离KL34。如果存在两类以上的事件类型，则可以计算组中的所有预分类器对的输出之间的距离，或备选地仅计算某些预定的预分类器对的输出之间的距离。所述距离可以例如是Kullback-Leibler距离、Mahalanobis距离或Euclidian距离。通常针对两组预分类器使用相同的距离类型。

VAD系统100通过对特征向量应用加权因数k来将特征向量(P₁，P₂)和(En₁，En₂，En₃，...，En_m)组合为组合特征向量(步骤209)。组合特征向量可以例如是以下形式：

(k^＊En₁ k^＊En₂ k^＊En₃...k^＊En_m(1-k)^＊P₁(1-k)^＊P₂)

根据距离KL12和KL34来确定加权因数k的值(步骤208)。下面是所确定的加权因数k的值的一个实例。在训练阶段期间，当可以计算训练信号的SNR时，将形成包含SNR类别标签和相应的KL12和KL34距离的数据结构。表1是此类数据结构的一个实例。

表1 距离/SNR对应查找表

每个帧的SNR类别	SNR值(dB)	KL_12L	KL_12H	KL_34L	KL_34H
每个帧的SNR类别	SNR值(dB)	KL_12L	KL_12H	KL_34L	KL_34H	低	KL_12L-frame-1		KL_34L-frame-1
低		KL_12L-frame-2		KL_34L-frame-2		低	KL_12L-frame-1		KL_34L-frame-1
低		KL_12L-frame-2		KL_34L-frame-2		低	KL_12L-frame-3		KL_34L-frame-3
......	......	......	......	......		低	KL_12L-frame-3		KL_34L-frame-3
......	......	......	......	......		低	KL_12L-frame-n		KL_34L-frame-n
THRESHOLD₁		TH_12L	TH_12H	TH_34L	TH_34H	低	KL_12L-frame-n		KL_34L-frame-n
THRESHOLD₁		TH_12L	TH_12H	TH_34L	TH_34H	高		KL_{12H-frame-n+1}		KL_{34H-frame-n+1}
高			KL_{12H-frame-n+2}		KL_{34H-frame-n+2}	高		KL_{12H-frame-n+1}		KL_{34H-frame-n+1}
高			KL_{12H-frame-n+2}		KL_{34H-frame-n+2}	高		KL_{12H-frame-n+3}		KL_{34H-frame-n+3}
......	......	......	......	......	......	高		KL_{12H-frame-n+3}		KL_{34H-frame-n+3}
......	......	......	......	......	......	高		KL_{12H-frame-n+m}		KL_{34H-frame-n+m}

如表1所示，存在将SNR空间分为多个范围的阈值。在表1中，阈值THRESHOLD₁将SNR空间分为两个范围：低SNR和高SNR。距离值KL12和KL34用于预测当前环境类型并针对每个输入语音帧(例如，10毫秒)计算KL12和KL34。

在表1中，每个SNR类别和距离对都存在一个列。换言之，在此处的特定实例中，有两列(SNR高、SNR低)用于距离KL12，有两列(SRN高、SNR低)用于距离KL34。作为表1的格式的进一步的选项，可以在训练阶段将所有的距离值KL12收集到一个列中并将所有的距离值KL34收集到其他列中。可以通过SNR类别列中的表项区分SNR高/低。

返回参考训练阶段和表1，在帧x处，如果环境嘈杂(低SNR)，则只计算(KL_12L-frame-x和KL_34L-frame-x)对。在下一帧(x+1)处，如果环境仍然嘈杂，则计算(KL_{12L-frame-x+1}和KL_{34L-frame-x+1})对，否则(高SNR)，计算(KL_{12H-frame-x+1}和KL_{34H-frame-x+1})对。在训练阶段针对每个帧计算环境类型并将相应的KL距离收集到查找表(表1)中。在运行时，当丢失关于SNR的信息时，对于每个语音帧，计算距离值KL12和KL34。根据KL12和KL34值与查找表中对应的阈值的比较，用户可以检索有关SNR类型的信息。通过这种方法可以检索环境类型(SNR类别)。

总之，在训练阶段收集表1或类似数据结构中的值，并且在训练阶段确定阈值。在运行时阶段，当执行话音活动检测时，将距离值KL12和KL34与表1(或类似数据结构)中的阈值相比较，然后根据所述比较确定哪个SNR类别描述了当前帧的环境。

确定了当前环境(SNR范围)之后，可以根据环境类型(例如，根据阈值本身)使用下面的关系确定加权因数的值。

1.对于SNR<THRESHOLD₁，k＝min(TH_12-L，TH_34-L)

2.对于SNR>THRESHOLD₁，k＝max(TH_12-H，TH_34-H)

作为在计算加权因数值时使用阈值的备选方案，可以使用距离值KL12和KL34。例如，SNR<THRESHOLD1时，k的值可以为k＝min(KL12，KL34)，而当SNR>THRESHOLD1时，k＝max(KL12，KL34)。通过这种方式，话音活动检测系统在考虑环境改变时甚至可以更加动态。

组合特征向量(加权FV^＊)被输入一组分类器131、132(步骤210)，所述分类器已针对语音和噪声进行了训练。如果存在两种以上的事件类型，则对组合特征向量起作用的分类器组中的预分类器和分类器的数量将与事件类型的数量一致。用于组合特征向量的分类器组通常使用启发式决策规则、高斯混合模型、感知器、支持向量机或其他神经网络。通常在若干个帧上平滑分类器131和132所提供的得分(步骤211)。话音活动检测系统然后根据平滑后的得分确定事件类型(步骤212)。

图3示意性地示出了训练话音活动检测系统100。优选地，话音活动检测系统100的训练通过输入训练信号301并将系统100切换到训练模式而自动发生。出于以下两个原因，将为前端102中的每个帧计算的声学FV输入到声学模型103：将数据标记为语音/噪声，以及产生更有效地区分语音与其他噪声的另一类FV。后一原因也适用于VAD系统的运行时阶段。

可以通过以下方法之一获得每个帧的标签：通过在强制对齐模式(图3中的强制对齐方块302)下手动运行语音识别系统，或使用已有的语音解码器的输出。为了例示，将在下面参考图3更详细地说明标记训练数据的第二方法。

考虑方块303中出现的“音素-类别”映射。通过将所有音素从目录映射到区别性类别来定义所有既有语言的声学语音空间。选择两个类别(语音/噪声)作为示例性实例，但是可以根据话音活动检测工作的环境所施加的要求使用任何事件类别以及任意数量的事件类别。训练数据的语音转录对于此步骤而言是必须的。例如，对于噪声类别选择纯静寂音素、无声摩擦音(unvoice fricative)和爆破音，而针对语音类别选择其余的音素。

接下来考虑多语言声学模型方块103中出现的类别似然生成。根据声学模型103的结果和声学特征(例如，输入多语言AM的MFCC系数)(方块103)，通过将AM的全部高斯输出映射到相应的音素，然后映射到相应的类别，可以导出语音检测类别后验。例如，对于类别噪声，所有属于嘈杂和静寂类别的高斯输出都被映射到噪声；而其余的类别被映射到类别语音。

在强制对齐方块302中发生Viterbi对齐。假定信号转录正确，则所述强制对齐使用与用于语音识别的机制相同的机制来确定每个信号段(帧)的语音信息。这将特征对齐到音位变体(alophone)(来自AM)。音素-类别映射(方块303)然后给出从音位变体到音素，最后到类别的映射。将来自强制对齐的语音/噪声标签视为正确的标签。

然后可以针对已定义的与语言无关的类别训练高斯模型(方块111、112)。

因此，对于每个输入帧，根据MFCC系数，由方块103中的多语言声学模型计算第二特征向量(P1，P2)，并由方块302和303将其对齐到相应的类别。另外，此阶段还计算SNR。方块302将所述第二特征向量与SNR信息一起输出到是预训练的语音/噪声高斯混合的第二组预分类器111、112。

话音活动检测系统100还将训练信号301输入到能带方块104，该方块确定不同频带中的信号的能量。能带方块104将所述第一特征向量输入到先前已针对相关事件类型进行训练的第一组预分类器121、122。

话音活动检测系统100在训练阶段计算预分类器111、112的输出之间的距离KL12以及预分类器121、122的输出之间的距离KL34。与距离KL12和KL34一起传送有关SNR的信息。话音活动检测系统100根据预分类器的输出之间的距离KL12、KL34以及SNR生成数据结构，例如查找表。

所述数据结构通常具有各种环境类型，以及与这些环境类型关联的距离KL12、KL34的值。作为实例，表1包含两种环境类型(SNR低和SNR高)。在训练阶段确定阈值以便将这些环境类型分隔开。在训练阶段，根据与每个KL12、KL34值关联的SNR，距离KL12和KL34被收集到表1的列中。通过这种方式形成列KL12l、KL12h、KL34I以及KL34h。

话音活动检测系统100通过将加权因数应用于上述第一和第二特征向量来确定组合特征向量。所述组合特征向量被输入到一组分类器131、132。

如上所述，可以具有两种以上的SNR类别。同样在这种情况下，在训练阶段确定阈值以便将SNR类别彼此区分开。表2示出了一个实例，其中使用了两个事件类别和三个SNR类别。在该实例中，存在两个SNR阈值(THRESHOLD1、THRESHOLD2)并且距离值有八个阈值。下面是确定该实例中的加权因数的值的公式的实例。

1.对于SNR<THRESHOLD₁，k＝min(TH_12-L，TH_34-L)

2.对于THRESHOLD₁<SNR<THRESHOLD₂

3.对于SNR>THRESHOLD₂，k＝max(TH_12-H，TH_34-H)

表2 距离/SNR对应查找表的其他实例

SNR类别	SNR值(dB)	KL_12低	KL_12中	KL_12高	KL_34低	KL_34中	KL_34高
SNR类别	SNR值(dB)	KL_12低	KL_12中	KL_12高	KL_34低	KL_34中	KL_34高	低......
THRESHOLD₁		TH_{12_L}	TH_{12_LM}		TH_{34_L}	TH_{34_LM}		低......
THRESHOLD₁		TH_{12_L}	TH_{12_LM}		TH_{34_L}	TH_{34_LM}		中......
THRESHOLD₂			TH_{12_MH}	TH_{12_H}		TH_{34_MH}	TH_{34_H}	中......
THRESHOLD₂			TH_{12_MH}	TH_{12_H}		TH_{34_MH}	TH_{34_H}	高......

另外，可以具有两种以上的事件类别。在此情况下，话音活动检测系统中存在更多的预分类器和分类器。例如，对于三种事件类别(语音、噪声、静默)，考虑三种距离：KL(语音、噪声)，KL(语音、静默)以及KL(噪声、静默)。图4作为实例示出了话音活动检测系统的训练阶段，其中存在三种事件类别和两种SNR类别(环境类型)。对于每种特征向量类型具有三个预分类器(即，事件类别的数量)，即模型111、112、113和模型121、122、123。在图4中，对于每个特征向量类型，在训练阶段监视的距离数为6个，例如，对于从声学模型获取的特征向量，距离为KL_12H、KL_12L、KL_13H、KL_13L、KL_23H、KL_23L。FV之间的加权因数取决于SNR和FV的类型。因此，如果已定义的SNR类别的数量和特征向量的数量保持不变，则加权过程也保持不变。如果第三SNR类别为中，则对于能量类型FV推荐最大值为0.5，但是取决于应用，其可能稍有调整。

还可以针对帧具有两个以上的特征向量。最终的加权FV的形式可以为：(k₁ ^＊FV1，k₂ ^＊FV2，k₃ ^＊FV3，..，k_n ^＊FVn)，其中k1+k2+k3+...+kn＝1。使用更多FV时需要考虑它们相对于不同的SNR类别的行为。因此，SNR类别的数量可以影响FV的选择。理想的情况是针对一个类别具有一个FV。但是当前在话音活动检测领域中没有这样细致的分类。

本发明可以采取完全硬件实施例、完全软件实施例或包含硬件和软件元素两者的实施例的形式。在一个优选实施例中，本发明以软件实现，所述软件包括但不限于固件、驻留软件、微代码等。

此外，本发明可以采取可从计算机可用或计算机可读介质访问的计算机程序产品的形式，所述计算机可用或计算机可读介质提供了可以被计算机或任何指令执行系统使用或与计算机或任何指令执行系统结合的程序代码。出于此描述的目的，计算机可用或计算机可读介质可以是任何能够包含、存储、传送、传播或传输由指令执行系统、装置或设备使用或与所述指令执行系统、装置或设备结合的程序的装置

所述介质可以是电、磁、光、电磁、红外线或半导体系统(或装置或设备)或传播介质。计算机可读介质的实例包括半导体或固态存储器、磁带、可移动计算机盘、随机存取存储器(RAM)、只读存储器(ROM)、硬磁盘和光盘。光盘的当前实例包括光盘-只读存储器(CD-ROM)、光盘-读/写(CR-R/W)和DVD。

适合于存储和/或执行程序代码的数据处理系统将包括至少一个通过系统总线直接或间接连接到存储器元件的处理器。所述存储器元件可以包括在程序代码的实际执行期间采用的本地存储器、大容量存储装置以及提供至少某些程序代码的临时存储以减少必须在执行期间从大容量存储装置检索代码的次数的高速缓冲存储器。

输入/输出或I/O设备(包括但不限于键盘、显示器、指点设备等)可以直接或通过中间I/O控制器与系统相连。网络适配器也可以被连接到系统以使所述数据处理系统能够通过中间专用或公共网络变得与其他数据处理系统或远程打印机或存储设备相连。调制解调器、电缆调制解调器和以太网卡只是几种当前可用的网络适配器类型。

可以理解，尽管在假设针对每个帧更新动态加权系数的值的基础上介绍了本发明的实施例，但这不是必须的。可以例如每隔两个帧确定加权因数的值。所附权利要求中的“一组帧”无需一定指严格按照顺序排列的一组帧。可以在不降低类别分隔的准确性的情况下对多个帧进行加权。不非常频繁地更新加权因数值可能会降低话音活动检测的准确性，但是取决于应用，准确性仍可以是足够的。

可以理解，尽管在上述说明中使用了信噪比作为反映与输入信号关联的环境的品质因数，但是还可以另外或备选地使用其他品质因数。

本说明明确地描述了此处所述的各种特征的某些组合。可以理解，对于研究本说明的技术人员而言，各种其他组合也是显而易见的。

在所附权利要求中，计算机化的方法指其步骤由包含一个或多个处理器、记忆装置和存储装置的适当组合的计算系统执行的方法。

虽然上文参考了本发明的特定实施例，但是本领域中的技术人员将理解，可以在不偏离本发明的原理和精神的情况下对这些实施例做出更改，本发明的范围由所附权利要求来限定。

Claims

1.一种用于区分至少两类事件的计算机化的方法，所述方法包括以下步骤：

接收一组包含输入信号的帧，

针对所述帧中的每个帧确定至少两个不同的特征向量，

2.如权利要求1中定义的方法，包括：

确定所述多组预分类器中的每组预分类器的输出之间的至少一个距离，以及

根据所述至少一个距离确定所述至少一个加权因数的值。

3.如权利要求2中定义的方法，包括：

将所述至少一个距离与至少一个预定阈值相比较，以及

使用与所述比较相关的公式计算所述至少一个加权因数的值。

4.如权利要求3中定义的方法，其中所述公式使用所述至少一个阈值中的至少一个阈值作为输入。

5.如权利要求2至4中的任一权利要求中定义的方法，其中所述至少一个距离基于以下项中的至少一项：Kullback-Leibler距离、Mahalanobis距离以及Euclidian距离。

6.如上述任一权利要求中定义的方法，包括：确定所述帧中的每个帧的基于能量的特征向量。

7.如权利要求6中定义的方法，其中所述基于能量的特征向量基于以下项中的至少一项：不同频带中的能量、对数能量以及语音能量轮廓。

8.如上述任一权利要求中定义的方法，包括：确定所述帧中的每个帧的基于模型的特征向量。

9.如权利要求8中定义的方法，其中所述基于模型的技术基于以下项中的至少一项：声学模型、神经网络、混合神经网络以及隐马尔可夫模型方案。

10.如上述任一权利要求中定义的方法，包括：对于所述帧中的每个帧，确定基于不同频带中的能量的第一特征向量以及基于声学模型的第二特征向量。

11.如权利要求10中定义的方法，其中所述声学模型是以下项中的一项：单语言声学模型和多语言声学模型。

12.一种用于训练话音活动检测系统的计算机化的方法，所述方法包括：

接收一组包含训练信号的帧，

确定所述帧中的每个帧的品质因数，

根据所述训练信号的内容将所述帧标记为至少两类事件，

针对所述帧中的每个帧确定至少两个不同的特征向量，

13.如权利要求12中定义的方法，包括：确定所述预分类器的输出之间的距离的阈值以便确定所述至少一个加权因数的值。

14.一种用于区分至少两类事件的话音活动检测系统，所述系统包括：

15.一种用于区分至少两类事件的话音活动检测系统，所述系统包括：

一装置，所述装置用于针对包含输入信号的一组帧中的每个帧确定至少两个不同的特征向量，

一装置，所述装置对于所述帧中的每个帧，根据所述预分类器的输出确定至少一个加权因数的值，

一装置，所述装置用于通过将所述至少一个加权因数应用于所述至少两个不同的特征向量来计算所述帧中的每个帧的组合特征向量的值，以及

16.如权利要求14或15中定义的话音活动检测系统，包括：所述预分类器的输出之间的距离的阈值以便确定所述至少一个加权因数的值。

17.一种包括计算机可用介质和计算机可读程序的计算机程序产品，其中所述计算机可读程序在数据处理系统上执行时，将导致所述数据处理系统执行根据权利要求1至11中的任一权利要求的方法步骤。

18.一种包括计算机可用介质和计算机可读程序的计算机程序产品，其中所述计算机可读程序在数据处理系统上执行时，将导致所述数据处理系统执行根据权利要求12至13中的任一权利要求的方法步骤。