CN101116304A

CN101116304A - 在语音识别系统中传送语音结束标记的方法

Info

Publication number: CN101116304A
Application number: CNA2005800477931A
Authority: CN
Inventors: 亚历山大·费里克斯
Original assignee: France Telecom SA
Current assignee: Orange SA
Priority date: 2005-02-04
Filing date: 2005-12-28
Publication date: 2008-01-30
Also published as: KR20070099678A; ES2318589T3; DE602005011340D1; JP2008529096A; FR2881867A1; WO2006082288A1; ATE415773T1; US20080120104A1; EP1847088B1; EP1847088A1

Abstract

本发明涉及一种在以不连续传送模式工作的分布式语音识别系统中传送语音结束标记的方法，在其中传送语音分段(30、40)，无声时间段(34)随后，每个语音分段(30、40)以语音结束标记(31、41)终止。根据本发明，在所述的语音分段(30)之后的无声时间段(34)持续时间内连续地(31a、31b、31c、31d)重传语音结束标记(31)。本发明适合于分布式语音识别。

Description

在语音识别系统中传送语音结束标记的方法

技术领域

本发明涉及一种在以不连续传送模式工作的分布式语音识别系统中传送语音结束标记的方法。

本发明发现在语音识别的一般领域中存在特别有利的应用。

更具体地，本发明的背景是如在ETSI标准ES 201 108、ES 202 212和IETF文件RFC 3557中定义的分布式语音识别(DSR)。

背景技术

作为一般规则，语音识别方法涉及从由说话者所说的语音分段中提取声学参数的第一阶段，其中该说话者能够是终端(尤其移动电话)的用户。在第二阶段中，由专用语音识别系统处理所获得的声学参数以恢复所说的语音分段的语音内容。既然已经恢复，然后合并该语音识别系统的服务器能够对该说话者所说的做出反应。例如，该服务器是在移动电话系统中的话音服务器。

分布式语音识别(DSR)在该终端本身实现语音识别的第一阶段，即提取声学参数，并且仅向该服务器传送该结果。当选择这些参数来优化语音识别性能时，在等价于用于在人类间会话的标准编码器/解码器(编解码器)的比特率处获得在语音识别中的明确改进。

上面提及的文件RFC 3557描述传送作为文件RFC 3550的实时协议(RTP)的有效负荷的声学参数。在文件RFC 3557中提出的DSR的一个版本涉及不连续传送(DTX)，其中该终端非连续地仅在语音分段期间向该服务器发送数据。为此，当该用户按“按键讲话”装置的按键或在话音激活检测器(VAD)的控制下时才发送数据。不连续传送的好处无疑是其节约在无声时间段期间的带宽。

当然，如果使用DTX模式，则对于该话音服务器有必要知道该语音分段何时结束，例如，为了能够向该语音识别系统指示已经接收所有声学参数数据并且其可以立刻实现该识别操作以及完成其结果。文件RFC 3557为此目的提出包含空帧和充当语音结束标记的特殊数据分组。

DTX模式的缺点是：如果在数据传送期间空帧的分组在网络中丢失，则该服务器不再被告知该语音结束分段，并且无法向该语音识别系统给出任何执行指令。作为结果，该服务器无法响应该用户所说的，以及该用户于是遭受长且不可接受的等待时间段。

为补救该缺点，已经提出如果到给定的时间周期结束前没有接收语音结束分段则导致该服务器起反应的超时机制。但是，这种盲目型的机制不可避免地慢，因为在正常会话中其与间或长时延的语音分段相关联。

发明内容

因此由本发明的主题解决的技术问题是提出一种在以不连续传送模式工作的分布式语音识别系统中传送语音结束标记的方法，在其中发送由无声时间段跟随的语音分段，每个语音分段以语音结束标记终止，当面临传送丢失时，此方法应当使由语音结束标记组成的信令信道比超时机制更加鲁棒(robust)，由此保证时延仅与网络条件关联并且在不可避免地长的超时时间段中不被任意设置。

本发明对所述技术问题的解决方案是贯穿跟随所述语音分段的无声时间段内连续地重传所述语音结束标记。

因此即便在语音分段的末端处发生传送丢失，导致在截尾分段中包含的语音结束标记丢失，一旦网络再次运行分段结束信息就仍然能够被传达至该服务器，因为然后该服务器能够接收在传送恢复后马上重传的语音结束标记。因此当被通知分段结束时该服务器能够非常有效地响应，或者指示该识别操作的执行或者拒绝由于线路损失被截尾的分段。

该语音结束标记的重传时间，即在两个连续的重传标记之间的时间段的持续时间，必须允许以下折衷：

●如果其太慢，该用户可以察觉长的等待时间，即如以上提及的超时机制相同的缺点；

●如果其太快，在无声时间段期间消耗的带宽能够达到语音时间段的带宽，由此抵消不连续传送DTX模式的好处。而且，由于该用户的时间限度和分组丢失的时间相关性，借此重传两个太接近的语音结束标记具有在相同时间被丢失的极大可能，故该速度可能会没有用。

可能有两种选择：在第一种选择中，在相同持续时间的时间间隔中重传所述语音结束标记，而在第二种选择中在持续时间增加的时间间隔中重传所述语音结束标记。该第二种选择依照带宽是有利的，但是具有重新引入长等待时间的风险。

根据本发明，满意的折衷是所述的持续时间将达到一秒的数量级。

在本发明的一个特定实施例中，当接收确认重传的语音结束标记的消息时，中断所述语音结束标记的重传。

此特征具有节约带宽的优点且因此优选于可用带宽受限制的条件。否则，即便第一个语音结束标记到达该服务器而消耗的带宽被认为可容忍，尽管然后重传额外的语音结束标记是无用的，从该服务器的确认也是没必要的。

为了进一步限制带宽消耗，本发明提供将以小于在所述语音分段中的帧对的额定长度的分组的长度传送该语音结束标记。

最后，必须强调本发明的另一个优点，在发生高传送损失的情况下尤其重要的一个。如果在网络中存在相当大的干扰和噪声，则可能发生语音分段的全部丢失。例如，如果在跟随该丢失的分段的无声时间段期间恢复传送，则由于依照本发明的语音结束标记的连续传送，该话音服务器仍然能够接收语音结束标记。传输这些标记的分组通常包含考虑的分段的语音结束标记的日子的指示时间，从而通过比较最后两个相继接收的语音结束标记的日子的时间，该服务器能够检测该语音分段的丢失并且相应的对用户响应，例如要求该用户重复该消息。

本发明也涉及一种用于以不连续模式工作的分布式语音识别的系统，其包括适合于发送由无声时间段跟随的语音分段，利用语音结束标记终止每个语音分段的终端，此系统值得注意的是使所述终端在跟随所述语音分段的无声时间段的持续时间内连续地重传所述语音结束标记。

本发明的系统此外值得注意的是其也包含适合于发送确认重传的语音结束标记的消息的话音服务器。

附图说明

参考附图的以下描述解释本发明的组成以及其如何能够变为实际，其中附图作为非限制示例提供。

图1a是展示在使用本发明的方法的终端中实现的操作的图。

图1b是展示在与图1a的终端相关联的话音识别服务器中实现的操作的图。

具体实施方式

图1a展示在分布式语音识别系统的一般背景中在例如移动电话的终端中实现的各种连续的操作，在该系统中必须通过在图1b中示出的话音服务器鉴别由用户向终端所说的消息。

根据图1a，依照该分布式语音识别(DSR)程序在该终端自身中处理由该用户发送的话音消息。因此该处理在终端的单元20中实现，该单元20包括用于从话音信号10中提取为该服务器的话音识别系统所需的、重建由该用户所说的消息的声学参数。用于提取声学参数的方法是众所周知的且在本发明的范围之外。可以参考相应的ETSI标准ES 201 108、ES 202 050、ES 202212。

如图1a指出，为了将向服务器的数据发送限制到仅为语音分段，通过由处理器单元20的模块22使用不连续传送(DTX)模式补充提取声学参数的操作。为此，模块22从指示器23接收语音开始信号。所述指示器23能够是用户在开始说话时按下按键的“按键讲话”装置或话音激活检测器(VAD)。

因此由该终端的处理器单元20提供的信号由语音分段30、40构成，其包含在它们的有效负荷中传输由模块21提取的声学参数的分组。每个语音分段以语音结束标记31、41终止。由无声时间段34分开两个连续的语音分段30和40。

从图1a能够看出，贯穿跟随所述分段的无声时间段34的持续时间内连续地重传与分段30相关联的语音标记31。重传的语音结束标记被表示为31a、31b等。

这样的好处在展示话音服务器的语音识别系统50的图1b中变得清楚。

经过网络传送包含该用户的声学参数的信号到系统50，其从在语音分段30、40中接收的数据中重建由该用户所说的话音消息。语音结束标记31向系统50指出分段30的末端已经到达从而其可以立刻为该分段实现该识别操作。

如果在时间段T中中断经过该网络的传送，如在图1b中指出的，由此截去分段30的尾部，以及例如语音结束标记31和31a，在传送恢复后将马上通过系统50检测到标记31b。然后能较早地实现该识别操作，其中所引入的时延取决于网络丢失的持续时间的量级，由此肯定比经常使用的超时机制取得的要短。

在图1a和1b中，在相同的持续时间Δt的时间间隔(例如达到一秒的量级(the order of one second))内重传所述语音结束标记31。但是，可以同等地设想，使在两个连续的重传之间的时间间隔的持续时间增加，例如按1.5或2的因子。

如上面已经指出的，当由该终端接收确认语音结束标记被服务器接收的消息时能够中断语音结束标记31、31a等的发送。因此，在图1a和1b的例子中，在接收标记31b后，该服务器能够向终端发送确认接收该标记的消息。被告知这个，该终端能够中断新语音结束标记31c、31d等的发送，现在它们是没用的。

最后，能够通过将传输语音结束标记31a、31b等的分组限制为必要的最小值而节省带宽，从而其长度显著地小于在语音分段中的帧对的额定长度。

Claims

1.一种在适合于以不连续传送模式工作的分布式语音识别系统中传送语音结束标记的方法，在其中传送由无声时间段(34)跟随的语音分段(30、40)以及每个语音分段(30、40)以语音结束标记(31、41)终止，其特征在于在跟随所述语音分段(30)的无声时间段(34)的持续时间内连续地(31a、31b、31c、31d)重传所述语音结束标记(31)。

2.如权利要求1所述的方法，其特征在于在相同的持续时间(Δt)的时间间隔内重传所述语音结束标记(31)。

3.如权利要求1所述的方法，其特征在于在递增的持续时间(Δt)的时间间隔内重传所述语音结束标记(31)。

4.如权利要求2或3所述的方法，其特征在于所述持续时间(Δt)达到一秒的量级。

5.如权利要求1到4中任何一个所述的方法，其特征在于当接收确认重传的语音结束标记(31b)的消息时中断所述语音结束标记(31)的重传。

6.如权利要求1到5中任何一个所述的方法，其特征在于在比在所述语音分段(30、40)中的帧对的额定长度短的分组中传送该语音结束标记(31a、31b、31c、31d)。

7.一种适合于以不连续模式工作且包括终端的分布式语音识别系统，其中该终端适合于发送由无声时间段(34)跟随的语音分段(30、40)，每个语音分段(30、40)以语音结束标记(31)终止，其特征在于使所述终端适合于在跟随所述语音分段(30)的无声时间段(34)的持续时间内连续地(31a、31b、31c、31d)重传所述语音结束标记(31)。

8.如权利要求7所述的系统，其特征在于其进一步包括适合于发送确认重传的语音结束标记(31b)的消息的话音服务器。

9.一种适合于以不连续传送模式工作的分布式语音识别系统的终端，所述终端适合于发送由无声时间段(34)跟随的语音分段(30、40)，每个语音分段(30、40)以语音结束标记(31)终止，其特征在于使所述终端适合于在跟随所述语音分段(30)的无声时间段(34)的持续时间内连续地(31a、31b、31c、31d)重传所述语音结束标记(31)。