CN1306472C

CN1306472C - 分布式语音识别系统中用于发送语音活动的系统和方法

Info

Publication number: CN1306472C
Application number: CNB028143957A
Authority: CN
Inventors: H·加鲁达德里; M·S·费利普斯
Original assignee: Qualcomm Inc; SpeechWorks International Inc
Current assignee: Qualcomm Inc; SpeechWorks International Inc
Priority date: 2001-05-17
Filing date: 2002-05-17
Publication date: 2007-03-21
Anticipated expiration: 2022-05-17
Also published as: RU2291499C2; JP2004527006A; EP1390944A1; CA2446936A1; RU2003136259A; US20030061036A1; WO2002093555A1; CN1602515A; HK1074276A1; US7941313B2

Abstract

用于在一分布式话音识别系统中发送语音活动的系统和方法。所述分布式话音识别系统包括一在一用户单元中的当地的VR引擎和一在一服务器上的服务器VR引擎。所述当地的VR引擎包括一从一语音信号中抽取特征的特征抽取(FE)模块、以及一检测在一语音信号中的话音活动的话音活动检测模块(VAD)。话音活动的指示在特征之前从用户单元发送给服务器。

Description

分布式语音识别系统中用于发送语音活动的系统和方法

1.技术领域

本发明总的涉及通信领域，尤其涉及分布式话音识别系统中用于发送语音活动的系统和方法。

2.技术背景

话音识别(VR)代表赋于机器以模拟的智能来识别使用者的话音指令并便于人与机器联系的最重要的技术之一。话音识别也代表了对人类语言理解的一种关键技术。利用技术从声音语音信号复原语言信息的系统称之为话音识别器。

话音识别(通常也叫话音识别)由于安全的原因正变得日益重要。例如，话音识别可用于取代在一无线电话键盘上按下按钮时手的工作。当使用者正在开车，又要打电话时，这是特别重要的。在使用没有话音识别的汽车电话时，驾驶者必须腾出一只手离开方向盘并看着电话键盘，并按下各个按钮以拨通电话，这些动作增加了汽车事故的可能性。而一部能识别话音的汽车电话(即，一部设计用于话音识别的电话)则允许驾驶者放着电话，同时连续不断地观察路面。此外，一套不用手操作的汽车电话系统允许驾驶者在打电话时两只手保持在方向盘上。一套不用手操作的汽车电话系统示例性的用语范围包括：10个数字；关键词“呼叫”、“发送”、“拨号”、“取消”、“清除”、“添加”、“删除”、“历史”、“程序”、“是”、“否”；以及预定数目通常呼叫的同事、朋友、或家庭成员的名字。

一话音识别中，即一VR系统包括一声音处理器，也称之为话音识别器的前端，以及一单词译码器，也称之为话音识别器的后端。声音处理器执行特征抽取。声音处理器从进来的原语音提取一系列的为话音识别所必须的信息承载特征(矢量)。单词译码器对这一系列特征(矢量)译码，以产生有意义的和所要求的输出格式，诸如对应于输入言词的一系列语言单词。

在一使用分布式系统结构的话音识别器的实例中，通常要求将单词译码工作放在一子系统上，它能在一网络服务器处恰当吸收计算和存储负载。而声音处理器应设置在尽可能靠近话源，以在用户装置处减少由信号处理和/或信道引起的误差所导致的声码器(用于在传送压缩前的语音)的影响。所以，在一分布式话音识别(DVR)系统中，声音处理器位于用户装置中，而单词译码器位于一网络上。

DVR系统通过访问网络上的话音识别服务器使蜂窝电话、个人通信装置、个人数字助理(PDA)等可通过口述命令从一无线网络，诸如因特网选取信息和服务。

空气界面方法降低了话音识别系统在无线应用中的准确性。这种降低可能通过从诸如用户单元之类的装置上的使用者口令命令中抽取话音识别特征(用户单元也称为用户站、移动站、移动的、远方站、远方终端、访问终端和使用方设备)，并以数据通信方式发送话音识别特征而不是以话音业务方式发送口述命令来缓解。

因而，在DVR系统中，前端持征可在所述装置中抽取并发送给网络。装置可以是移动的或固定的，并且可与一个或多个基站(BS)通信，基站(BS)也称为蜂窝基站、蜂窝单元基站、基站收发系统(BTS)、基站收发器、中央通信中心、访问点、访问节点、节点B、以及调制解调池收发器(MPT)。

复杂的话音识别工作需要有效的计算资源。而要在具有有限CPU、存贮器和电池资源的用户单元上配备这样的系统是不现实的。DVR系统利用了网上可供使用的计算资源。在一典型的DVR系统中，单词译码器具有比话音识别器前端更多的计算和存贮要求。因而，在网络中的基于服务器的话音识别系统是用作话音识别系统的后端的，并执行单词译码。这样做具有利用网上资源执行复杂的话音识别任务的好处。在美国专利5,956,683，题为“分布式话音识别系统”中描述了DVR系统的一些例子，该专利已转让给本发明的受让人，并援引在此供参考。

在用户单元上，除了进行特征抽取外，也可执行一些简单的话音识别任务，在这种情况下，在网络上的话音识别系统不用于简单的话音识别任务。因而，网络通信量得以减少，从而使进行语音业务的成本下降。

尽管用户单元执行了简单的话音识别任务，但网络上信息量的拥挤可导致用户单元从基于服务器的话音识别系统得到较差的服务。而一分布式话音识别系统则使应用复杂的话音识别工作的丰富的用户接口特征成为可能，但要以增加网络业务和有时会延迟为代价。如果在用户单元上的本地VR引擎不能识别使用者的口述命令，则在前端处理后必须将该口述命令发送到基于服务器的VR引擎，这就增加了网络业务和网络的拥塞。当大量的网络业务要同时从用户单元发送到基于服务器的话音识别系统时便会发生网络拥塞。在口述命令通过基于网络的VR引擎判读后，必须将结果发回到用户单元，如果存在网络拥塞的话，这就会造成显著的延迟。

因而，在一DVR系统中，需要一种系统和方法来减少网络拥塞和减少延迟，这种系统和方法可改进话音识别的性能。

发明概述

所述各实施例是针对用于可减少网络拥塞地发送语音活动的系统和方法。用于发送语音活动话音识别的系统和方法包括在用户单元上的一语音活动(检测(VAD)模块和一特征抽取(FE)模块。

在一方案中，用户单元包括用于抽取语音信号多个特征的特征抽取模块、用于检测语音信号中的话音活动并提供检测到的话音活动的指示的话音活动检测模块、以及连至特征抽取模块和话音活动检测模块并用于在多个特征之前发送检测到的话音活动的指示的一发送器。

在另一方案中，用户单元包括用于抽取一语音信号多个特征的装置、用于检测语音信号中的话音活动并提供所检测的话音活动的指示的装置、以及一连至特征抽取装置和话音活动检测装置并用于在多个特征之前发送检测的话音活动的指示的发送器。

在一方案中，所述发送器将多个特征与所检测的话音活动的指示结合起来，其中，所检测的话音活动的指示在多个特征之前。

在一方案中，发送语音活动的方法包括抽取一语音信号的多个特征、检测在语音信号中的话音活动并提供所检测话音活动的指示，以及在多个特征之前发送所检测的话音活动的指示。

附图简述

图1示出根据一种实施例的话音识别系统，它包含一声音处理器和一单词译码器；

图2示出一分布式话音识别系统的示例性实施例；

图3示出在一分布式话音识别系统的示例性实施例中的延迟；

图4示出根据一实施例的VAD模块的方框图；

图5示出根据一实施例的VAD子模块的方框图；

图6示出根据一实施例的FE模块的方框图；

图7示出根据一实施例的VAD模块的状态图；以及

图8示出根据一实施例的、在一等时线上语音事件和VAD事件的各个部分。

发明详述

图1示出根据一实施例的、包括一声音处理器4和单词译码器6的一话音识别系统2。单词译码器6包括一声音模式匹配元件8和语言建模元件10。语言建模元件10也称作语法规范元件。声音处理器4与单词译码器6的声音匹配元件8相连。声音模式匹配元件8与语言建模元件10相连。

声音处理器4从输入的语音信号抽取特征并提供给单词译码器6。一般来说，单词译码器6将来自声音处理器4的声音特征转换成说话人的原始字串的一估计值。这可分两步实现：声音模式匹配和语言建模。在分开的单字识别的应用中，可以取消语言建模。声音模式匹配元件8对诸如音素、音节、单词等可能的声音模式进行检测和分类。候选的模式提供给语音建模元件10，它建立确定什么样的单词顺序可在语法上正确形成并且是有意义的句法制约规则的模型。当仅靠声音信息是模棱两可时，句法信息对话音识别是一有价值的引导。基于语言建模，话音识别顺序地阐明声音特征匹配结果，并提供所估计的字串。

在单词译码器6中的声音模式匹配和语言建模需要一确定型的或非确定型的数字模型来描述说话人的语音学的和声学的变量。一个语音识别系统的性能与这两个模式的质量直接相关。在用于声学模式匹配的各种模型类别中，基于模型的动态时间反卷(dynamic time warping，DTW)和非确定式隐含马尔可夫模式(HMM)是两个最通常使用的模型，业内资深人士对它们是了解的。

声音处理器4代表了在话音识别器2中的一前端语音分析子系统。响应于输入语音信号，它提供一适当的模型以使随时间变化的语音信号特性化。它将诸如背景噪声、信道畸变、说话人特征和讲话方式等无关信息舍弃。而将有效的声音特征在较高的声音甄别功率提供给话音识别器。最有用的特性是短时谱包络。在使短时谱包络特征化时，通常使用的谱分析技术是基于滤波组的谱分析。

将多个话音识别系统(也称作VR引擎)组合起来可提供准确性，并可在输入语音信号中使用比一单个话音识别系统更大量的信息量。在美国专利第09/618,177号、题为“用于话音识别的组合式引擎系统及方法”(2000年7月18日)和美国专利申请第09/657,760号、题为“采用映射进行自动话音识别的系统和方法”(2000年9月8日)中，描述了用于组合VR引擎的系统和方法，它们均已转让给了本发明的受让人，并全部援引在此供参考。

在一个实施例中，多个VR引擎组合在一分布式话音识别系统中。因而，在用户单元和网络服务器上均有一VR引擎。在用户单元上的VR引擎是一当地的VR引擎，而在服务器上的VR引擎则是一网络VR引擎。本地VR引擎包括一用于实现该地的VR引擎的处理器和一用于存贮话音信息的存贮器。网络VR引擎包括一用于实现该网络VR引擎的一处理器和用于存贮语音信息的存贮器。

在美国专利申请第09/775,651号、题为“用于在一分布式话音识别系统中改进话音识别的系统和方法”(2001年1月5日)中，描述了一示例性的DVR系统，并已转让给本发明的受让人，特援引在此供参考。

图2示出本发明的一示例性实施例，其中，所述环境是一无线通信系统，它包括用户单元40和一称作蜂窝基站42的中央通信中心。在该示例性的实施例中，示出子一分布式话音识别系统。在该分布式话音识别中，声音处理器或特征抽取件22留在用户单元40中，而单词译码器48则位于中央通信中心中。如果取代分布式话音识别而仅在一用户单元中进行话音识别，则话音识别是很难办到的，哪怕只对中等规模的词汇量，因而单词识别要花很高的计算成本。另一方面，如果只有话音识别位于基站，则由于与话音编/解码器和信道效应有关的语音信号变差，准确度会急剧下降。显然，分布式的系统设计有些优点。首先是由于单词译码器硬件不再位于用户单元40中，使用户单元的成本降低。第二是用户单元40的电池(未示出)耗电减少，这是由于在当地进行了大量计算性的单词译码器操作所致。第三是除了分布式系统的灵活性和可扩展性外，预期的在识别准确性方面的改进。

语音进入话筒20，它将语音信号转换成电信号提供给特征抽取件22。来自话筒20的信号可以是模拟的或数字的。如果信号是模拟的，则可在话筒20和特征抽取件22之间加上一模/数转换器(未示出)。该语音信号被提供给特征抽取件22。特征抽取件22抽取输入语音的有关特性，用于输入语音的语言判定进行译码。可用于估计语音的特性的一个例子是一输入语音帧的频率特。它作为语音的输入帧的性能预测编码参数频繁提供。然后，语音的抽取特征提供给发送器24，它对抽取的特征信号编码、调制、和放大，并通过收发转换装置26将这些特征提供给天线28，并由天线28将这些语音特征发送给蜂窝基站或中央通信中心42。本领域所共知的各种类型的数字编码、调制、和传送方案均可采用。

在中央通信中心42处发送的特征在天线44处接收并提供给接收器46。接收器46对收到的发送来的各特征进行解调和译码，并将它提供给字译码器(word decoder)48。字译码器48从这些话音特征中确定该语音的语言估计值，并提供一工作信号给发送器50。发送器50对该工作信号进行放大调制和编码，并将放大后的信号提供给天线52，天线52将经估计的单字或命令信号提供给便携式电话40。发送器50也可使用本领域共知的数字编码、调制、或传送技术。

在用户单元40处，天线28接收经估计的单词或命令信号，并将收到的信号通过收发转换装置26提供给接收器30，接收器30对信号进行解调和译码，然后将该命令信号或经估计的单词提供给控制件38。控制件38响应收到的命令信号或经估计的单词而提供预定的响应(例如，拨电话号码、将信息提供给便携式电话的显示屏等)。

在一实施例中，从中央通信中心42发回的信息不需要是所发送的信息的一种判定，而可以是对由便携式电话发送的译码消息的响应。例如，你可以询问在通过一通信网络与中央通信中心42相连的一远端应答机(未示出)上的消息，在这种情况下从中央通信中心42发送给用户单元40的信号可以是在这一实行过程中来自应答机的消息。一第二控制件49可设置在中央通信中心中。

一VR引擎获得呈脉冲编码调制(PCM)信号的形式的语音数据。VR引擎处理该信号，直至完成有效的识别，或使用者已停止说话且所有的语音已经过处理为止。在一实施例中，一DVR构成包括一得到PCM数据并产生前端信息的当地的VR引擎。在一实施例中，前端信息是逆谱参数。在另一实施例中，前端信息可以是赋于输入语音信号以特性的任何一种类型的信息/特征。业内资深人士应理解，他们所知的任何类型的特征均可用于使输入语音信号特征化。

对一典型的识别任务而言，当地的VR引擎从其存贮器中得到一组排成序列的属性单元。该当地的VR引擎从一申请表得到一语法说明。申请表是使使用者能利用用户单元完成一任务的服务逻辑。该逻辑由一在用户单元上的处理器来执行。它是在用户单元中用户接口模块的一个部件。

在美国专利申请第09/760,076号、题为“用于话音识别模型的有效存贮的系统和方法”(2001年1月21日)中，对在一话音识别系统中改进属性单元存贮的系统和方法作了说明，并转让给了本发明的受让人，兹全文引用在此供参考。在美国专利申请第09/703,191号、题为“在噪声环境和频率失配条件下改进话音识别的系统和方法”(2000年10月30日)中，对在噪声环境和频率失配条件下改进话音识别和改进属性单元存贮的系统和方法作了描述，并已转让给本发明的受让人，兹全文引用在此供参考。

语法规定了使用亚单词模型的工作语汇。典型的语法包括七位数字的电话号码、美元数量、以及从一组名单中某一城市的名字。典型的语法规定包括一“超出语汇表(OOV)”的情况，它表示基于该输入语音信号不能作出可置信的识别决定。

在一实施例中，当地的VR引擎如果能应付语法所规定的话音识别任务，则它就会就地产生一识别假定。如果规定的语法太复杂，以致不能由当地的VR引擎处理时，则当地的VR引擎就会将前端数据发送给话音识别服务器。

一正向链路指的是从网络服务器发送到用户单元，而反向链路指的是从用户单元发送到网络服务器。发送时间被分割成若干时间单元。在一实施例中，发送时间可分割成若干帧。在另一实施例中，发送时间可分割成若干时隙。按照一实施例，数据分割成若干数据包，每一数据包用一或多个时间单元发送。在每一时间单元，基站可引导数据发送到任一与基站通信的用户单元。在一实施例中，帧可进一步分割成多个时隙。在还有一实施例中，时隙还可进一步分割。例如，一个时隙可分割成半时隙和1/4时隙。

图3示出在一分布式话音识别系统100的示例性实施例中的延迟。该DVR系统100包括一用户单元102、一网络150和一话音识别(SR)服务器160。用户单元102连到网络150，而网络150则连到SR服务器160。DVR系统100的前端是用户单元102，用户单元102一特征抽取(FE)模块104和一语音活动检测(VAD)模块106。FE从一语音信号中进行特征抽取，并对产生的特征进行压缩。在一实施例中，VAD模块106确定哪几帧要从一用户单元发送给一SR服务器。VAD模块106将输入话音分成包括若干帧的一些片段，在其中对话音进行检测，在该帧之前和之后的相邻的帧含有经检测的话音。在一实施例中，每一片段的一端(EOS)通过在有效负载中发送一空帧加以标记。

话音识别前端进行前端处理，以使一话音片段特征化。矢量S是一语音信号，而矢量F和矢量V分别是FE和VAD矢量。在一实施例中，VAD矢量是一个单元(element)长，而一个单元包含一个二进制值。在另一实施例中，VAD矢量是与附加特征相连接的二进制值。在一实施例中，所述附加特征是使由服务器进行精确终点标志成为可能的频带能量。终点标志是一语音信号进入寂静和话音片段的边界。因而，服务器可利用附加的计算资源得出更可靠的VAD决定。

频带能量对应于巴克振幅(bark amplitude)。巴克尺度是对应于人类听觉感知能力的临界频带的一反卷的频率尺度。巴克振幅计算是业内共知的，并在Lawrrence Rabiner和Biing-Hwang Juang合著的“语音识别基础”(1993)一书中作了描述，兹全文引用在此供参考。在一实施例中，数字化的PCM语音信号被转换成频带能量。

图3示出在一分布式话音识别系统的一示例性实施例中的延迟。在计算矢量F和V并通过网络发送它们的延迟使用Z变换标志示出。计算矢量F所造成的算法等待时间是k，而在一实施例中，k是范围是从100至300毫秒。类似地，对计算VAD信息的算法延迟是j，而在一实施例中，j的范围是从10至100毫秒。因而，可供使用的FE特征矢量带有k个单位的延迟，而可供使用的VAD信息带有j个单位的延迟。经网络发送信息所造成的延迟是n个单位。对矢量F和V而言，网络延迟是相同的。

图4示出VAD模块400的方框图。成帧模块402包括一模/数转换器(未示出)。在一实施例中，模/数转换器的输出语音采样率是8kHz。业内资深人士也会理解：其它输出采样率也可使用。语音采样被分成若干重叠的帧。在一实施例中，帧的长度是25毫秒(200个采样)，而帧速率是10毫秒(80个采样)。

在一实施例中，每一帧通过使用汉明窗口函数的视窗模块404开以窗口。一快速富立叶变换(FFT)模块406对每一开窗的帧计算一幅位谱。在一实施例中，一长度256的快速富立叶变换用于计算第一开窗帧的幅值谱。在一实施例中，来自幅值谱的头129个斗被保留供进一步处理。功率谱(PS)模块408利用幅值谱的平方计算功率谱。

在一实施例中，一Mel滤波模块409使用一完全的频率范围(0-4000Hz)计算一MEL反卷谱(MEL-warp spectrum)。这一频带按MEL频率尺度分成23个等距离的信道。因而，每帧有23个能量值。Mel滤波模块409的输出是每一频带中FFT功率增值的加权和。Mel滤波模块409的输出通过一对数模块410，由它对Mel滤波输出作非线性变换。在一实施例中，所述非线性变换是一自然对数。业内资深人士应理解：也可利用其它非线性变换。

一话音活动检测器(VAD)子模块412利用经变换的对数模块409的输出作为输入，并在语音帧和非语音帧之间进行甄别。VAD子模块412检测在一帧内话音活动的存在。VAD子模块412确定一帧是否有话音活动或没有话音活动。在一实施例中，VAD子模块412是一三层的前馈神经中枢网。

图5示出一VAD子模块500的方框图。在一实施例中，一下采样模块420对对数模块的输出按系数2下采样。

一分立的余弦变换(DCT)模块422按ME1尺度计算来自下采样的23个对数引擎的逆谱系数。在一实施例中，DCT模块422计算15个递增系数。

一神经中枢网(NN)模块424提供当前帧是语音或非语音的后验概率的估计值。一阈值模块426对来自NN模块424的估计值施加一阈值，以将该估计值转换为一二进制的特征。在一实施例中，一0.5的阈值被采用了。

一中间滤波模块427对该二进制特征进行平滑处理。在一实施例中，该二进制特征使用一11点中间滤波器进行平滑。在一实施例中，中间滤波模块427去除任何短暂的休止或持续时间少于40毫秒的语音的短暂分片。在一实施例中，中间滤波模块427在从寂静向语音过渡之前或之后，还添加了7个帧。在一实施例中，根据一个帧究竟被确定是语音活动或是寂静来设定一个位。

图6示出FE模块600的方框图。成帧模块602、视窗模块604、FFT模块606、PS模块608、MF模块609、以及对数模块610也是FE的部分，并在FE模块600中，发挥着像它们在VAD模块400中所发挥的相同的功能。在一实施例中，这些公共模块在VAD模块400和FE模块600之间是共享的。

一VAD子模块612连至对数模块610。一线性甄别分析(LDA)模块428连至VAD子模块612，并将一带通滤波器加在VAD子模块610的输出。在一实施例中，带宽滤波器是一RASTA滤波器。一示例性的、可用于话音识别前端的带通滤波器是美国专利第5,450,522号、题为“语音参数化的听觉模型”(1995年9月12日)中所描述的RASTA滤波器，该专利援引在此供参考。

一下采样模块430对LDA模块的输出进行下采样。在一实施例中，一下采样模块430对LDA模块的输出按系数2下采样。

一分立的余弦变换(DCT)模块432按MEL尺度计算来自经下采样的23个对数能量的逆谱系数。在一实施例中，DCT模块422计算15个逆谱系数。

为抵消噪声，一在线归一化(OLN)模块434对来自DCT模块432的逆谱系数进行一平均和差异的归一化。局部的平均和差异的估计值对每一帧均进行更新。在一实施例中，在对各特征归一化之前，将一实验确定的偏压施加给差异的各估计值。该偏压消除了在各长的寂静区中差异的小噪声估计值的影响。动态特征是由归一化的静态特征得出的。这不仅节省了为进行归一化所需的计算，而且也提供了更好的识别性能。

一特征压缩模块436压缩了各特征矢量。一位流格式化和成帧模块438进行经压缩的特征矢量的位流格式化，从而方便它们进行发送。在一实施例中，特征压缩模块436执行对各格式化的位流的差错保护。

FE模块600使矢量FZ^-k和矢量VZ^-j串接，从而，每一FE特征矢量便包含FZ-k和矢量VZ^-j的级联。

在本发明中，VAD输出先于有效负载发送，由于VAD的前端处理短于FE的前端处理(j＜k)，这就降低了DVR系统的整体等待时间。

在一实施例中，当矢量V指示寂静期超过一S_hangover时间周期时，在服务器上运行的一申请例能确定使用者发声的结束。S_hangover。是在有效语音之后用于完成发声收集的寂静持续时间的量。S_hangover必须大于发声中所允许的嵌入的寂静时间。如果S_hangover＞k，则FE算法等待时间便不会增加响应时间。在一实施例中，对应于时间tk的FE特征和对应于t-j的VAD特征结合在一起形成扩展的FE特征。当可提供时，VAD输出便被发送，并且不取决于何时FE输出是可提供用于发送的。VAD输出和FE输出与发送有效负载同步化。在一实施例中，对应于语音的每一片段的信息均被发送，即，没有帧丢弃。

在另一实施例中，在寂静期间信道的带宽被减少。当矢量V指示寂静区间时，矢量F以较低的位率量化。这类似于可变位率和多位率的声码器的情况，其中位率基于话音活动检测而改变。VAD输出和FE输出与发送有效负载同步化。对应于语音的每一片段的信息均被发送。因而，VAD输出被发送，而在带有寂静的帧上的位率被减少。

在另一实施例中，仅将语音帧发送给服务器。因而，带有寂静的帧被完全丢弃。由于只有语音帧发送给服务器，所以服务器需要一种方法来确定使用者已经结束了讲话。这与等待时间k、j和n的值无关。考察一下如“波特兰市<停顿>缅因州”或617-555-<停顿>1212”这样的多个单字。一单独的信道用于发送VAD信息。对应于<停顿>区的FE特征在用户单元处丢弃，而没有该单独信道的服务器就将没有信息来推定使用者已结束讲话。该实施例具有一单独的信道用于发送VAD信息。

在另一实施例中，一识别器的状态被保持着，即使根据图7中的状态图和表1中的事件和动作在使用者的讲话中有一些很长的停顿。当语音活动被检测到，对应于丢弃(dropped)各版的FE模块600的一平均矢量和被丢弃帧的总数在发送语音帧之前被发送。此外，当移动装置检测到已观察到寂静的各S_hangover帧时，便检测到使用者发声的终点。在一实施例中，各语音帧和丢弃帧的总数与FE模块600的平均矢量一起在同一信道上发送给该服务器。因而，有效负载包括各特征和VAD输出。在一实施例中，VAD输出在有效负载中的最后发送，以指示语音的终点。

对一典型的发音而言，VAD模块400在待机状态702开始，并由于事件A而走到初始寂静状态704。可能有若干个B事件，它们将模块留在初始寂静状态。当检测到语音时，事件C引起向工作话音状态706过渡。然后，伴随着事件D和E，模块在工作语音706和嵌入寂静状态708之间往返跳动。当嵌入的寂静长于S_hangover时，讲话的终点便被检测到，而事件F引起向待机状态702的过渡。事件Z代表了在一次讲话中一个长的初始寂静期。它在使用者的语音未被检测到时，为TIME_OUT(时间已过)出错情况提供方便。事件X使一给定状态中止，并使模块返回到待机状态702。这可能是一使用者或系统发起的事件。

图8示出在一等时线上语音和VAD事件的各个部分。参见图8、方格4和表2，引起状态转变的各事件对于VAD模块400示出。

表1

事件	动作
事件	动作	A	使用者开始发声收集。
B	S_active＜S_min有效语音持续时间小于最小发声持续时间。防止由于干扰声和其它外来噪声引起的虚假检测。	A	使用者开始发声收集。
B	S_active＜S_min有效语音持续时间小于最小发声持续时间。防止由于干扰声和其它外来噪声引起的虚假检测。	C	S_active＜S_min实。发现初始语音。发送平均FE特征矢量，FD_count、S_before帧。开始发送FE特征矢量。
D	S_sil＞S_after。发送S_after帧。将FD_count复位至0。	C
D	S_sil＞S_after。发送S_after帧。将FD_count复位至0。	E	S_active＜S_min。在一嵌入的寂静之后，发现有效的语音。发送平均FE特征矢量。FD_count、S_before帧。开始发送FE特征矢量。
F	S_sil＞S_hangover。检测到使用者讲话的终点。发送平均FE特征矢量和FD_count。	E
F	S_sil＞S_hangover。检测到使用者讲话的终点。发送平均FE特征矢量和FD_count。	X	使用者启动中止。可以是使用者从键盘启动；或在识别完成时

	由服务器启动；或在装置中更高优先级的中断。
	由服务器启动；或在装置中更高优先级的中断。	Z	S_sil＞MAXSILDURATION。对8位的FDC计数器MAXSILDURATION＜2.5秒。发送平均FE特征矢量，而FD_count。使FD_count复位至0。

表1中，S_before＞S_after是在有效语音之前和之后发送给服务器的寂静帧的数目。

由状态图和示出在移动装置上相应动作的事件表，可清楚地看到，存在着一些用于启动状态转换的阈值。对这些阈值可以使用某些缺省值。然而，业内资深人士应理解，对表1所示阈值而言，其它值也可使用。

此外，服务器可依据应用修改各种缺省值。各缺省值是可编程的，如表2所示。

表2

片段名	图8中之坐标	说明
片段名	图8中之坐标	说明	S_min	＞(b-a)	在各帧中最小发声持续时间。用于防止把干扰和噪声当成有效语音的虚假检测。
S_active	(e-d)和(i-h)	在各帧中，一有效语音片段的持续时间，由VAD模块检测。	S_min	＞(b-a)	在各帧中最小发声持续时间。用于防止把干扰和噪声当成有效语音的虚假检测。
S_active	(e-d)和(i-h)	在各帧中，一有效语音片段的持续时间，由VAD模块检测。	S_before	(d-c)和(h-g)	在有效语音前要发送的帧数，由VAD检测。在有效语音前，要发送的寂静区的量。
S_after	(f-e)和(j-i)	在有效语音后要发送的帧数，由CAD检测。在有效语音后，要发送的寂静区的量。	S_before	(d-c)和(h-g)	在有效语音前要发送的帧数，由VAD检测。在有效语音前，要发送的寂静区的量。
S_after	(f-e)和(j-i)	在有效语音后要发送的帧数，由CAD检测。在有效语音后，要发送的寂静区的量。	S_sil	(d-o)，(h-e)，(k-i)	在各帧中当前寂静片段的持续时间，由VAD检测。
S_embedded	＞(h-e)	在两个有效语音片段之间的各帧中的寂静持续时间(S_sil)。	S_sil	(d-o)，(h-e)，(k-i)	在各帧中当前寂静片段的持续时间，由VAD检测。
S_embedded	＞(h-e)	在两个有效语音片段之间的各帧中的寂静持续时间(S_sil)。	FD_count	---	在当前有效语音片段之前丢弃的寂静帧数。
S_hangover	＜(k-i)＞(h-e)	用于完成发声收集的最后有效语音片段之后的各帧中寂静的持续时间(Ssil)。S_hangover＞＝S_embedded。	FD_count	---	在当前有效语音片段之前丢弃的寂静帧数。
S_hangover	＜(k-i)＞(h-e)		S_maxsil		移动装置丢弃帧的最大寂静持续时间。如果最

		大寂静持续时间被超过，则移动装置发送一平均FE特征矢量，并使计算器复零。这对保持在服务器上的识别状态为有效是很有用的。
		大寂静持续时间被超过，则移动装置发送一平均FE特征矢量，并使计算器复零。这对保持在服务器上的识别状态为有效是很有用的。	S_minsil		在有效话音之前和之后的预期的最小寂静持续时间。如果在有效话音这前观察到少于S_minsil，则服务器可能决定不执行某些使用该数据的适当任务。有时这也叫“说得过快”差错。注意：服务器可从FD_count值推定这一情况。可能不需要一单独的变量。

在一实施例中，最小发声持续时间S_min约为100毫秒。在一实施例中，要在有效语音之前发送的寂静区的量S_before约为200毫秒。在一实施例中，在有效语音之后的、要发送的寂静区的量S_after约为200毫秒。在一实施例中，在有效语音之后用于完成发声收集的寂静持续时间的量S_hangover是在500毫秒至1500毫秒之间，取决于话音识别的应用。在一实施例中，一8位的计数器使在每秒100帧时，S_maxsil为2.5秒成为可能。在一实施例中，在有效语音之前和之后予期的最小寂静持续时间_Sminsil均为200毫秒。

因而，已经描述了一种新颖和改进的用于话音识别的方法和装置。业内资源人士就理解，结合本文所揭示的实施例所描述的各种图示的逻辑块、模块和映射可作电子学硬件、计算机软件或两者的组合来实施。各种说明性的部件、方块、模块、电路和步骤已总的按照它们的功能被描述。究竞所述功能是作为硬件或软件来实行取决于特定的应用和施加在整个系统上的设计限制。熟练的技工能识别在这些情况下，硬件和软件的可互换性。作为一些例子，与本文所揭示的实施例相结合所描述的各种示范性的逻辑模块、模块和映射可以用设计来执行本文所述各种功能的执行一组固件指令的处理器。专用集成电路(ASIC)、场可编程门阵列(FPGA)、或其它可编程逻辑器件、分立门或晶体管逻辑、诸如寄存器之类的分立硬件部件、任何常规的可编程软件模块和处理器、或它们的任何组合来实施和完成。VAD模块400和FE模块600可很好地在一微处理器中执行，但作为代替，VAD模块400和FE模块600也可在任何常规的处理器、控制器、微控制器、或状态机中执行。各属性单元可存放在RAM存贮器、按块擦除存贮器、ROM存贮器、EPROM存贮器、EEPROM存贮器、寄存器、硬盘、一可移动硬盘、一CDROM、或任何业内共知的其它形式的存贮介质。存贮器(未示出)可集成到任一前述的处理器(未示出)上。一处理器(未示出)和存贮器(未示出)可设在一ASIC(未示出)中，而该ASIC可设在一电话中。

提供上述对本发明各实施例的描述是为让业内资源人员能制造或使用本发明。对这些实施例的各种修改对业内资深人士是显而易见的，并且本文所形成的一般原则不需要发明能力能可用于其它实施例。因而，本发明并不限于本文所述的各实施例，而是要与本文所揭示的原则和新颖特点相一致的最广泛的范围相符合。

Claims

1.一种分布式语音识别系统中的用户单元，其特征在于，它包括：

特征抽取模块，用于抽取一语音信号的多个特征；

语音活动检测模块，用于检测语音信号中的语音活动，并提供检测到的语音活动的指示；以及

发送器，它与所述特征抽取模块和语音活动检测模块耦合，用于在多个特征之前发送检测到的语音活动的指示。

2.如权利要求1所述的用户单元，其特征在于，所述发送器用于将所述多个特征与检测到的语音活动的指示相结合，其中，所述检测到的语音活动的指示领先于所述多个特征。

3.一种用于在分布式语音识别系统中发送语音活动的方法，其特征在于，它包括：

抽取语音信号的多个特征；

检测语音信号中的语音活动，并提供检测到的语音活动的指示；以及

在所述多个特征之前发送检测到的语音活动的指示。

4.一种用于在分布式语音识别系统中发送语音活动的方法，其特征在于，它包括：

抽取语音信号的多个特征；

检测语音信号的语音活动，并提供检测到的语音活动的指示；以及

将所述多个特征与检测到的语音活动的指示相结合，从而产生相组合的检测到的语音活动的指示和多个特征，其中，所述检测到的语音活动的指示领先于所述多个特征。

5.如权利要求4所述的方法，其特征在于，它还包括发送所述相结合的检测到的语音活动的指示和多个特征。