CN101160380A

CN101160380A - 用于分布式语音识别的类量化

Info

Publication number: CN101160380A
Application number: CNA2004800036671A
Authority: CN
Inventors: 滕卡斯·V.·拉马巴得拉恩; 亚历山大·索里恩
Original assignee: International Business Machines Corp; Motorola Inc
Current assignee: International Business Machines Corp; Google Technology Holdings LLC
Priority date: 2003-02-07
Filing date: 2004-02-05
Publication date: 2008-04-09
Anticipated expiration: 2024-02-05
Also published as: EP1595249A2; BRPI0406952A; RU2005127871A; RU2348019C2; US20040158461A1; KR100763325B1; WO2004072948A2; KR20050097928A; EP1595249B1; TW200501055A; CN101160380B; EP1595249A4; WO2004072948A3; US6961696B2; BRPI0406952B1; TWI326447B

Abstract

本发明公开一种用于量化音频的类信息和音高信息的系统、方法和计算机可读介质。该信息处理系统中的方法包括接收音频和捕获该音频的帧。该方法还包括确定(604)该帧的音高和计算(608)表示该帧的音高的码字，其中第一码字值指示不确定的音高。该方法还包括确定(610)该帧的类，其中该类是至少两个指示不确定的音高的类(614)和至少一个指示确定的音高的类(618)中的任一个。该方法还包括计算表示该帧的类的码字，其中码字长度是表示所述至少两个类所需的最小比特数和表示所述至少一个类所需的最小比特数的最大值(610)。

Description

用于分布式语音识别的类量化

技术领域

本发明一般涉及分布式语音识别系统领域，特别涉及用于窄带宽通信和无线通信的分布式语音识别。

背景技术

随着寻呼机和移动电话的出现，无线服务产业已经发展成数十亿美元的产业。无线服务提供者(WSP)的大量收入来自订购。同样地，WSP运行成功网络的能力取决于在具有有限带宽的网络上向订户提供的服务的质量。为此，WSP不断地寻找减少在网络上传送的信息的数量同时向订户保持高服务质量的方法。

近来，语音识别在无线服务产业内获得了成功。语音识别用于各种应用和服务。例如，无线服务订户可被提供快速拨号特性，由此订户将呼叫接收者的姓名说入无线设备。使用语音识别来识别接收者的姓名，并且在订户和接收者之间发起呼叫。在另一个例子中，主叫者信息(411)可以利用语音识别来识别订户试图向其发出呼叫的接收者的姓名。

随着语音识别在无线领域(wireless community)内获得了接受，分布式语音识别(DSR)已经作为新兴技术而出现。DSR是指语音识别系统的特征提取和模式识别部分是分布式的框架。也就是，在两个不同的位置由两个不同的处理单元执行语音识别系统的特征提取和模式识别部分。具体地说，在前端即在无线设备上执行特征提取处理，而在后端即由无线服务提供者执行模式识别处理。DSR为较复杂的任务例如采用口述航班信息的自动飞机预订或者具有类似特性的经纪业交易增强语音识别。

欧洲电信标准协会(ETSI)颁布了一组用于DSR的标准。ETSI DSR标准ES 201 108(2000年4月)和ES 202 050(2002年7月)定义了前端的特征提取和压缩算法。然而，这些标准没有加入后端的语音重构，这在一些应用中可能是重要的。结果，新工作项WI-030和WI-034已经由ETSI发布，以扩展上述标准(分别地，ES 201 108和ES 202 050)以便包括后端的语音重构以及声调语言识别。

在当前DSR标准中，被提取、压缩且传送到后端的特征是13个梅儿(Mel)频率倒谱系数(MFCC)C0-C12以及帧能量的对数log-E。每10毫秒或者每秒100次更新这些特征。在扩展标准的提议(即，响应上述工作项)中，除了MFCC和log-E之外，还针对每帧获得并传送音高(pitch)和类(或浊音化(voicing))信息。这增加了由无线设备在网络上传送的信息的数量，并且消耗了附加的带宽。这样，期望尽可能简洁地表示类和音高信息以便保持比特率低。

在语音编码器中，通常不得不分别对音高信息和类信息进行量化。在一些编码器中，“清音(unvoiced)”类用“0音高值”表示，例如混合激励线性预测(MELP)编码器，其是2400bps的美国联邦标准。然而不幸的是，为扩展标准所提出的多种“类”需要增加表示的信息量并增加发送类信息的带宽。

因此，需要克服如上所述的现有技术的问题。

发明内容

简要地，根据本发明，公开了一种用于量化音频的类信息和音高信息的系统、方法和计算机可读介质。在本发明的实施例中，该信息处理系统中的方法包括接收音频和捕获该音频的帧。该方法还包括确定该帧的音高和计算表示该帧的音高的码字，其中第一码字值指示不确定的音高。该方法还包括确定该帧的类，其中该类是至少两个指示不确定的音高的类和至少一个指示确定的音高的类中的任一个。该方法还包括计算表示该帧的类的码字，其中码字长度是表示所述至少两个指示不确定的音高的类所需的最小比特数和表示所述至少一个指示确定的音高的类所需的最小比特数的最大值。该帧的音高和类由所述两个码字表示。

在本发明的另一个实施例中，一种用于量化音频的类信息和音高信息的信息处理系统包括麦克风，用于接收音频和捕获该音频的帧。该信息处理系统还包括数字信号处理器，用于确定该帧的音高并计算表示该帧的音高的码字，其中第一码字值指示不确定的音高。该数字信号处理器还确定该帧的类，其中该类是至少两个指示不确定的音高的类和至少一个指示确定的音高的类中的任一个。该数字信号处理器还计算表示该帧的类的码字，其中码字长度是表示所述至少两个指示不确定的音高的类所需的最小比特数和表示所述至少一个指示确定的音高的类所需的最小比特数的最大值。该帧的音高和类由所述两个码字表示。

本发明的优选实施例是有利的，因为它们用来减小在通信网络上传送音频信息的比特量。这是有益的，因为通信网络拥有有限的带宽。比特节省被转化成使更多的带宽可用于当前或附加订户。因此，本发明提供了网络性能改善和通信质量提高。

附图说明

图1是示出根据本发明优选实施例的用于分布式语音识别的网络的方框图。

图2是根据本发明优选实施例的用于分布式语音识别的无线通信系统的详细方框图。

图3是示出根据本发明优选实施例的用于无线通信系统的无线设备的方框图。

图4是示出无线设备与无线服务提供者的数据交换的方框图。

图5是示出根据本发明优选实施例的总体分布式语音识别处理的操作流程图。

图6是示出根据本发明优选实施例的类和音高量化处理的操作流程图。

图7是示出传统的用于类和音高量化处理的比特分配的方框图。

图8是示出根据本发明优选实施例的用于类和音高量化处理的比特分配的方框图。

图9A、9B和9C是示出根据本发明优选实施例的另一音高量化处理的操作流程图。

图10是有用于实现本发明优选实施例的信息处理系统的方框图。

具体实施方式

根据优选实施例，本发明通过有效地减少用于音高量化中的比特数来有利地克服现有技术的问题，下面将对此进行详细讨论。

I.概览

图1是示出根据本发明优选实施例的用于分布式语音识别(DSR)的网络的方框图。图1示出了在网络104上工作的网络服务器或无线服务提供者102，其中网络104连接服务器/无线服务提供者102与客户端106和108。在本发明的一个实施例中，图1表示网络计算机系统，其包括服务器102、网络104以及客户端计算机106到108。在第一实施例中，网络104是电路交换网络，例如公共服务电话网络(PSTN)。可选地，网络104是分组交换网络。分组交换网络是广域网(WAN)，例如全球因特网、专用WAN、局域网(LAN)、电信网络或者上述网络的任何组合。在另一个可选方案中，网络104是有线网络、无线网络、广播网络或者点到点网络。

在第一实施例中，服务器102和计算机客户端106和108包括一个或多个个人计算机(PC)(例如，运行Microsoft Windows95/98/2000/ME/CE/NT/XP操作系统的IBM或兼容PC工作站、运行Mac OS操作系统的Macintosh计算机、运行LINUX操作系统的PC等等)或者任何其它计算机处理设备。可选地，服务器102以及计算机客户端106和108包括一个或多个服务器系统(例如，运行SunOS或AIX操作系统的SUN Ultra工作站、运行AIX操作系统的IBM RS/6000工作站和服务器、或者运行LINUX操作系统的服务器)。

在本发明的另一个实施例中，图1表示无线通信系统，其包括无线服务提供者102、无线网络104和无线设备106到108。无线服务提供者102是第一代模拟移动电话服务、第二代数字移动电话服务或者第三代支持因特网的移动电话服务。

在本实施例中，无线网络104是移动电话网络、移动文本消息传递设备网络、寻呼机网络等。此外，图1的无线网络104的通信标准是码分多址(CDMA)、时分多址(TDMA)、全球移动通信系统(GSM)、通用分组无线服务(GPRS)、频分多址(FDMA)等。无线网络104支持任意数目的无线设备106到108，其是移动电话、文本消息传递设备、手持计算机、寻呼机、传呼机等。

在本实施例中，无线服务提供者102包括服务器，其包括一个或多个个人计算机(PC)(例如，运行Microsoft Windows95/98/2000/ME/CE/NT/XP操作系统的IBM或兼容PC工作站、运行Mac OS操作系统的Macintosh计算机、运行LINUX操作系统的PC等等)或者任何其它计算机处理设备。在本发明的另一个实施例中，无线服务提供者102的服务器是一个或多个服务器系统(例如，运行SunOS或AIX操作系统的SUN Ultra工作站、运行AIX操作系统的IBMRS/6000作站和服务器、或者运行LINUX操作系统的服务器)。

如上所述，DSR是指语音识别系统的特征提取和模式识别部分是分布式的框架。也就是，在两个不同的位置由两个不同的处理单元执行语音识别系统的特征提取和模式识别部分。具体地说，由前端例如无线设备106和108执行特征提取处理，而由后端例如无线服务提供者102的服务器执行模式识别处理。下面更详细地描述由无线设备106和108在前端执行的特征提取处理。

图2是根据本发明优选实施例的用于DSR的无线通信系统的详细方框图。图2是上面参照图1描述的无线通信系统的更详细方框图。图2的无线通信系统包括耦接到基站202、203和204的控制器201。另外，图2的无线通信系统通过电话接口206与外部网络接口。基站202、203和204各自支持包含订户单元或收发器(即无线设备)106和108(参见图1)的地理覆盖区域的一部分。无线设备106和108使用诸如CDMA、FDMA、CDMA、GPRS和GSM的通信协议与基站202、203和204接口。

图2的无线通信系统的地理覆盖区域被划分成多个区域或小区，其各自由基站202、203和204(这里也被称作小区服务器)服务。在无线通信系统内操作的无线设备选择特定小区服务器作为其用于系统内的接收和发射操作的主要接口。例如，无线设备106具有小区服务器202作为其主要小区服务器，并且无线设备108具有小区服务器204作为其主要小区服务器。优选地，无线设备将提供最佳通信接口的小区服务器选择到无线通信系统中。通常，这将取决于无线设备与特定小区服务器之间的通信信号的质量。

当无线设备在覆盖区域内的各个地理位置之间移动时，可能需要越区切换或切换到另一个小区服务器，然后该小区服务器将用作主要小区服务器。无线设备监测来自服务相邻小区的基站的通信信号，以确定最适当的新服务器，以便进行越区切换。除了监测来自相邻小区服务器的发射信号的质量之外，无线设备还监测与发射信号相关联的发射色码(color code)信息，以便快速地识别哪个相邻小区服务器是发射信号源。

图3是示出根据本发明优选实施例的用于无线通信系统的无线设备的方框图。图3是上面参照图1和2描述的无线设备的更详细方框图。图3示出了如图1所示的无线设备106。在本发明的一个实施例中，无线设备106是能够在诸如CDMA、FDMA、CDMA、GPRS或GSM的通信协议下通过通信信道接收和发射射频信号的双向无线装置。无线设备106在控制器302的控制下操作，其中控制器302在接收和发射模式之间切换无线设备106。在接收模式中，控制器302通过发射/接收开关314将天线316耦接到接收器304。接收器304解码所接收的信号，并且将这些解码信号提供给控制器302。在发射模式中，控制器302通过开关314将天线316耦接到发射器312。

控制器302根据存储在存储器310中的指令来操作发射器和接收器。所存储的指令包括相邻小区测量调度(scheduling)算法。存储器310是闪存、其它非易失性存储器、随机存取存储器(RAM)、动态随机存取存储器(DRAM)等。定时器模块311向控制器302提供定时信息，以跟踪(keep track of)定时事件。此外，控制器302可以利用来自定时器模块311的时间信息来跟踪对相邻小区服务器发射的调度和所发射的色码信息。

当调度相邻小区测量时，接收器304在控制器302的控制下监测相邻小区服务器，并且接收“接收信号质量指示符”(RSQI)。RSQI电路308生成RSQI信号，其表示由每个所监测的小区服务器发射的信号的信号质量。每个RSQI信号由模拟到数字转换器306转换成数字信息，并且作为输入提供给控制器302。当需要越区切换时，使用色码信息和关联的接收信号质量指示符，无线设备106确定最适当的相邻小区服务器以用作主要小区服务器。

图3中的处理器320执行各种功能，例如下面将更详细描述的归因于分布式语音识别的功能。在本发明的各个实施例中，图3中的处理器320是用于执行上述任务的单个处理器或者多于一个处理器。

II.分布式语音识别

图4是示出无线设备106与无线服务提供者102的数据交换的方框图。图4是上面参照图1和2所述的无线设备106的更详细方框图。还示出了在无线设备106处执行的一些功能。图4示出了如图1所示的无线设备106和无线网络104。另外还示出了如图3所示的无线设备106的处理器320和发射器312。

在本发明的一个实施例中，无线设备106还包括用于接收音频402的麦克风404。然后，由处理器320处理所接收的音频402。在由处理器320执行的处理当中，由处理器320量化音频402的帧的类和音高。音频402的帧的类和音高被表达(embody)在包括在分组406内的至少一个码字中。然后，通过无线网络104由发射器312向服务器或无线服务提供者102发射分组406。下面更详细地描述量化音频402的帧的类和音高并且生成至少一个码字的处理。

图5是示出根据本发明优选实施例的总体分布式语音识别处理的操作流程图。图5的操作流程图示出了执行进入音频的特征提取的客户端106上的处理、以及执行模式识别的服务器或无线服务提供者102上的处理。图5的操作流程图以步骤502开始，并且直接进入步骤504。

在步骤S504，客户端106接收用于传送到服务器102的音频。在图1的系统表示如图2所示的无线网络的实施例中，在步骤504，无线设备106通过麦克风404接收音频404(参见图4)。接下来，在步骤506，客户端106继续对所接收的音频执行特征提取。特征提取包括量化一帧的音高和类值。在下面将对特征提取进行更详细的描述。在无线网络实施例中，在步骤506，无线设备106的处理器320(参见图3)继续对音频402执行特征提取。

在步骤508，客户端106生成包括所提取的特征的分组数据，以便传送到服务器102。在下面将对数据分组生成进行更详细的描述。在无线网络实施例中，在步骤508，无线设备106生成包括所提取的特征的数据分组406。接下来，在步骤510，客户端106继续将数据分组传送到服务器102。在无线网络实施例中，在步骤510，客户端106的发射器312继续通过无线网络104向无线网络提供者或服务器102发射数据分组406。

在步骤512，服务器102接收由客户端106发送的分组数据，并且在步骤514，服务器102继续根据分组数据重构音频。在步骤516，服务器102根据从客户端106接收的分组数据来执行语音识别。在无线网络实施例中，在步骤512，无线服务提供者或服务器102接收由无线设备106发送的数据分组406，并且在步骤514，无线服务提供者或服务器102继续根据数据分组406来重构音频。在步骤516，无线服务提供者或服务器102根据从无线设备106接收的数据分组406执行语音识别。在步骤518，图5的操作流程结束。

III.数据分组创建

A.第一量化方案

在扩展DSR标准的提议(响应于工作项WI-030和WI-034)中，帧的类(或浊音化)信息可采取四个可能值：1)非语音，即静默或背景噪声；2)清音(unvoiced)；3)混合浊音；以及4)完全浊音。这四个值一般可以被划分成两个类别(category)：非浊音(包括非语音和清音类)和浊音(包括混合浊音和完全浊音类)。为了量化一帧的类信息，由于存在四个类值要表示，并且2比特可以表示四个值，因此通常需要2比特。帧的音高信息可以采取范围从约19到约140个样本的任何值。为了例如以整数值量化一帧的音高信息，由于存在122个音高值要表示，并且7比特可以表示128个值，因此通常需要7个比特。

在本发明的一个优选实施例中，通过组合类信息和音高信息，可以如下节省每帧一比特。7比特音高码字之一(例如，全零码字)用来表示类不是浊音(即，非语音或清音)。剩余127个非零7比特音高码字用来表示不同的音高值以及类是浊音(即，混合浊音或完全浊音)的信息。也就是，7比特音高码字之一表示类不是浊音，而其余码字表示类是浊音。因此，一个类比特现在足以消除两个非浊音类之间(即非语音和清音类之间)以及两个浊音类之间(即混合浊音和完全浊音类之间)的歧义。

下表示出了用来如上所述表示音高和类信息的7比特音高码字值和1比特码字值的一个例子。

类类型 7比特音高码字 1比特类码字

------------------------------------------------

非语音全零 0

非浊音全零 1

混合浊音非零 0

完全浊音非零 1

因此，总而言之，根据本例，用来表示类和音高信息的总比特数是8比特。这相对于如果分别量化类和音高信息则表示类和音高信息所需的9比特(即，7比特用于音高，并且2比特用于类；参见上面)。这种方案所引起的不利结果是128个音高码字之一已被用来表示类信息。由于一个码字的相对不重要性，这对音高量化的准确性具有非常小(且不显著)的影响。

图6是示出根据本发明优选实施例的类和音高量化处理的操作流程图。图6的操作流程图示出了计算音高和类信息并且生成表示其的数据分组的客户端106上的处理。图6更详细地描述了图5的步骤506和508。图6的操作流程图以步骤602开始，并且直接进入步骤604。

在步骤604，客户端106计算所接收的音频的音高值。在无线网络示例性实施例中，在步骤604，无线设备106(更具体地说，无线设备106的处理器320)计算通过麦克风404接收的音频402的音高值。在步骤606，客户端106根据音频音高值执行音高量化。在一个例子中，如上所述，执行7比特音高量化。在无线网络实施例中，在步骤606，无线设备106根据音频402的音高值执行音高量化。

在步骤608，客户端106执行音频的类计算。在步骤610，客户端106确定在步骤608计算的类是否为非浊音类别，即非语音类或清音类。如果步骤610的确定结果是肯定的，则控制进入步骤612。如果步骤610的确定结果是否定的，则控制进入步骤616。

在步骤612，客户端106将音高码字设成表示非浊音类类别(即非语音类或清音类)帧的预定义音高码字。在一个例子中，客户端106将7比特音高码字设成全零-表示非语音类或清音类帧的预定义音高码字。在步骤614，客户端106设置类码字以表示非浊音类类别(即，非语音类或清音类)帧的类。在一个例子中，客户端106设置表示非语音类或清音类的1比特类码字。

在步骤616，客户端106将音高码字设成在步骤604执行的为音高量化而生成的音高值。在一个例子中，客户端106将7比特音高码字设成在步骤604执行的为音高量化而生成的音高值。在步骤618，客户端106设置类码字以表示浊音类类别(即，混合浊音或完全浊音)帧的类。在一个例子中，客户端106设置表示混合浊音类或完全浊音类的1比特类码字。在步骤620，图6的操作流程结束。

图7是示出传统的用于类和音高量化处理的比特分配的方框图。图7示出了七比特表示音高量化702。这样，使用128个可能值来表示一帧音频的音高周期数据。图7还示出了两比特表示类量化704。这样，使用四个可能值来表示一帧音频的类。定义了四个类：非语音、清音、混合浊音和完全浊音。因此，根据图7，使用总共九个比特来表示一帧音频的音高和类量化值。

图8是示出根据本发明优选实施例的用于类和音高量化处理的比特分配的方框图。图8示出了根据本发明的用于类和音高量化的比特分配。图8示出了七比特表示音高量化802。然而，在通过七比特可用的128个可能值中，只有127个值用来表示一帧音频的音高周期数据。剩余一个值用来表示类信息，具体地说，非浊音类类别(即，非语音类或清音类)。优选地，用来表示类类别的802的这一个值为全零，并且该值表示非浊音类类别帧(即，非语音类或清音类)。802的其它127个值用来表示浊音类别帧的音高值(即混合浊音类或完全浊音类)。

图8还示出了一比特表示类量化804。这是本发明的重大优点。这样，两个可能值或码字用来进一步表示一帧音频的类。两个可能值用来在非浊音类类别(即，非语音类或清音类)内以及在浊音类别帧(即，混合浊音类或完全浊音类)内进行区分。优选地，如果802为全零，则804的零值用来表示非语音类，如果802不为全零，则804的零值用来表示混合浊音类，如果802为全零，则804的一值用来表示清音类，并且如果802不为全零，则804的一值用来表示完全浊音类(参见上表)。因此，根据图8，总共八个比特用来表示一帧音频的音高和类量化值。

B.第二量化方案

在扩展DSR标准的提议中，对每帧估算音高周期，并且每10毫秒(或者每秒100次)更新音高周期。所估算的音高周期可采取小数值，并且在8kHz采样率的情况下其范围从约19到约140个样本。因此，所估算的音高频率的范围从约57Hz到约420Hz。当执行音高量化处理时，期望实现准确性即低量化误差、低比特率、以及抗信道错误的鲁棒性。

在本发明的优选实施例中，使用7比特量化所有偶数编号帧(以编号为零的第一帧开始)，并且使用5比特量化所有偶数编号帧。作为帧对来考虑，使用7比特来量化帧对中的第一帧，而使用5比特来量化帧对中的第二帧。这样，平均每帧比特数为六。这对应于单独由于音高量化的比特率600bps。

绝对量化方案用于偶数编号帧。在可用的128个码字中，一个码字(即全零码字)用于传送非浊音类别类信息，即表示帧是非语音或者清音。剩余127个码字用于量化音高周期。上面对该方案进行了更详细的描述。从约19到约140个样本的音高范围(在对数域内)被等分成127个区域，并且这些区域的中点被选作重构等级(level)。对于任何给定音高值，选择对应的量化音高值作为线性域中的最近重构等级。127个码字一一地被分配给127个重构等级。该量化器设计的最大量化误差大约为0.8％。

对于奇数编号帧，大部分时间使用差分量化方案。然而，在特定情形(如下表所示)下，还使用绝对量化方案。对于差分量化方案，必须选择一个参考(reference)，以便可以量化当前帧的音高周期值与参考值之差(或者，更适当地，这两个值的比率)。虽然前一帧的量化音高周期提供最佳可能参考，但是该帧可能不总是浊音类类别(即混合浊音或完全浊音)。因此，选择前三帧之一的量化音高周期值作为参考。也就是，使用帧对的第一帧的量化音高周期值或者前一帧对的两个量化音高周期值的任一个作为参考，执行帧对的第二帧的差分量化。

在服务器侧，限制由于解码音高周期值之一中的误差而引起的误差传播是重要的。为此，我们将客户端侧的每个量化音高值标识为可靠(R)或不可靠(U)，以用作参考。每个绝对量化音高值被认为是可靠的。如果用于其量化的参考是相同帧对的第一帧的量化音高周期值，则每个差分量化的音高值被认为是可靠的。由于相邻帧的音高周期值通常彼此接近，因此精细地量化接近于参考值的音高周期值，并且粗略地量化远离于参考值的音高周期值。为差分量化选择的量化等级取决于选择了前三个量化音高值中的哪一个作为参考，以及参考值。下表示出了如何量化奇数编号帧的音高周期值。

P(-2)	P(-1)	P(0)	所采取的动作
P(-2)	P(-1)	P(0)	所采取的动作	0	0	0	绝对量化
0	1U	0	绝对量化	0	0	0	绝对量化
0	1U	0	绝对量化	＊	＊	1	差分量化：参考P(0)

＊	1R	差分量化：参考P(-1)
＊	1R	差分量化：参考P(-1)	1	0	0	差分量化：参考P(-2)
1	1U	差分量化：参考P(-2)	1	0	0	差分量化：参考P(-2)

在上表中，要被量化的值是P(1)，帧对的第二帧的音高周期值。参考值是前三个帧之一的量化音高周期值，即P(0)，相同帧对的第一帧的量化音高周期值，P(-1)，前一帧对的第二帧的量化音高周期值，以及P(-2)，前一帧对的第一帧的量化音高周期值。

在该表中，“0”值表示对应帧是非浊音类别类(即非语音类或清音类)。“1”值表示对应帧是浊音类类别(即混合浊音类或完全浊音类)，并且可以使用其量化音高周期值作为参考。对于差分量化的P(-1)，我们还让“1R”和“1U”表示量化音高周期值分别是可靠还是不可靠。“＊”表示量化音高周期是无关紧要的，即，值可以是“0”或“1”，并它没有区别。作为初始条件，我们假设在编码器(即客户端106)和解码器(即服务器102)处P(-1)＝0且P(-2)＝0。最后列表示是绝对量化还是差分量化音高，并且如果是差分量化，还表示所使用的参考帧。

当前三帧为非浊音类别类时，或者当唯一可用的参考值是不可靠的P(-1)时，使用5比特绝对量化P(1)。诸如全零码字的一个码字用来表示帧为非浊音类别类。剩余31个码字用来以与用于量化偶数编号帧的音高周期值的方式类似的方式量化音高周期P(1)。典型地，为浊音段的第一帧或者为属于噪声背景条件的一些误分类帧，选择使用5比特的绝对量化选项。在任一情况下，由于使用仅5个比特而产生的略微较大量化误差不导致语言质量或可辨认性的任何显著损失。使用仅5个比特帮助限制解码误差的传播，后面我们将对此进行说明。

当帧对的第一帧为浊音类别类时，则总是选择对应的量化音高周期值作为参考，而不管P(-1)和P(-2)的值。根据示例性实施例，在32个可能码字(使用音高周期值的5比特量化)中，使用诸如全零码字的一个码字来表示当前帧是非语音/清音。使用二十七个码字来以对数方式覆盖参考值周围的小音高范围(类似于上述7比特绝对量化)。音高范围的端点都表示重构等级。剩余四个等级用来如在表中所示粗略地量化音高范围的其余部分。注意，所选的四个等级取决于P(0)的值。例如，如果P(0)小，则这四个等级大于P(0)。另一方面，如果P(0)大，则所有四个等级小于P(0)。

当帧对的第一帧为非浊音类别类时，则选择P(-1)或P(-2)作为参考。如果P(-1)对应于浊音类别类的帧且可靠，则选择它作为参考，而不管P(-2)的值。如果P(-1)对应于非浊音类别类帧或者对应于浊音类别类帧但是不可靠，并且P(-2)对应于浊音类别类帧，则选择P(-2)作为参考。无论是选择P(-1)还是选择P(-2)作为参考，量化方法都是类似的。码字之一例如全零码字用来表示当前帧不为非浊音类别类。二十五个码字用来以对数方式覆盖参考值周围的小音高范围(类似于上述7比特绝对量化)。音高范围结束值表示重构等级。其余六个等级用来粗略地量化音高范围的其余部分。

上述量化方案如下满足准确性、低比特率和鲁棒性的要求。通过以7比特量化偶数编号帧的音高周期值且以5比特量化奇数编号帧的音高周期值，节省了平均每帧1比特，即每秒100比特。同时，准确性未被损害。七比特绝对量化是足够准确的。五比特绝对量化典型地用于浊音段的第一帧和一些嘈杂背景帧。在任一情况下，准确性的缺乏不是关键性的，并且不以任何显著的方式影响重构语音的质量或可辨认性。通过5比特差分量化，相当准确地量化接近于参考值的音高周期值。这些是高概率音高周期值。粗略地量化具有低概率的远离于参考值的音高周期值。再次地，量化这些值中的较大误差不是关键性的，并且不显著影响重构语音的质量或可辨认性。

通过将差分量化的音高周期值标识为可靠和不可靠，并且通过每当没有参考值可用或者唯一可用的参考值不可靠时对奇数编号帧使用5比特绝对量化，限制了本发明中的误差传播。例如，考虑多个帧对已被删除的情形。这是DSR信道的信道错误情形的最常见类型。假设对应于删除之后的帧的比特已被正确地接收。如果删除之后的帧对的第一帧是浊音帧，则根本不存在误差传播。这是因为第一帧总是被绝对量化(使用7比特)，并且使用第一帧的量化音高周期值作为参考来差分量化第二帧。另外，后面帧不依赖于任何被删除帧。

如果第一帧为非浊音类别类，则除非第二帧也是非浊音类别类，否则不能正确地解码第二帧。这是因为第二帧的音高值可能已经是使用最后删除的帧之一的量化音高值作为参考来差分量化的。在这种情况下，误差已经传播到删除之后的第二帧。

如果第三帧为浊音类别类，则误差传播停止，因为第三帧之后的所有帧的量化音高周期值不依赖于被删除帧或者正确接收的删除之后的帧对。如果第三帧为非浊音类别类，则可以成功地解码第四帧的量化音高周期值，因为假如第一和第三帧为非浊音类别类并且第二帧不可靠，则它必定已被绝对量化。因此，删除一个或多个帧对之后的误差传播最多在两帧之后停止。

类似地，可以示出，偶数编号帧的解码音高周期值中的任何误差(由于随机比特错误)最多可以传播到三帧。另外，奇数编号帧的解码音高周期值中的任何误差(由于随机比特错误)最多可以传播到两帧

图9A、9B和9C是示出根据本发明优选实施例的另一音高量化处理的操作流程图。图9A、9B和9C的操作流程图示出了计算一个帧的音高信息，生成表示其的数据分组，并且继续下一帧的客户端106上的处理。图9A、9B和9C更详细地描述了图5的步骤506和508。图9A、9B和9C的操作流程图以(图9A中的)步骤902开始，并且直接进入步骤904。

在步骤903，客户端106计算当前帧的音频音高值。在无线网络实施例中，在步骤903，无线设备106(更具体地说，无线设备106的处理器320)计算通过麦克风404接收的音频402的音高值。在步骤904，客户端106确定当前帧是偶数还是奇数帧。如果步骤904的确定结果是偶数，则控制进入步骤910。如果步骤904的确定结果是奇数，则控制进入步骤905。在步骤905，当前帧是奇数帧，由此客户端106继续查找恰当的参考帧以便用于差分音高量化。在步骤906，控制直接进入图9B的步骤916(B)。

在步骤910，客户端106根据音频音高值执行绝对音高量化。在一个例子中，如上所述执行7比特绝对音高量化。在无线网络实施例中，在步骤910，无线设备106根据音频402的音高值执行绝对音高量化。

在步骤912，客户端106将音高码字设为在步骤910执行的为绝对音高量化而生成的音高值。在一个例子中，客户端106将7比特音高码字设成在步骤910执行的为绝对音高量化而生成的音高值。在步骤915(E)，控制直接进入步骤914。在步骤914，音高量化处理前进到下一帧，并且控制直接回到步骤903。

在图9B的步骤916(B)，控制直接进入步骤917。在步骤917，客户端106确定紧邻在当前帧“0”之前的帧的类是否为浊音类别类(即混合浊音类或完全浊音类)。注意，在图9B和9C中，当前帧是指定帧“0”，紧邻在帧“0”之前的帧为帧“-1”，紧邻在帧“-1”之前的帧为帧“-2”，并且紧邻在帧“-2”之前的帧为帧“3”。如果步骤917的确定结果是肯定的，则控制进入步骤940。如果步骤917的确定结果是否定的，则控制进入步骤920。在步骤920，客户端106继续到前一帧，以继续寻找恰当的参考帧以便用于差分音高量化。

在步骤927，客户端106确定帧“-2”的类是否为浊音类别类(即，混合浊音类或完全浊音类)。如果步骤927的确定结果是肯定的，则控制进入步骤928。如果步骤927的确定结果是否定的，则控制进入步骤930。在步骤928，客户端106确定帧“2”的音高值是否被绝对量化。如果步骤928的确定结果是肯定的，则控制进入步骤940。如果步骤928的确定结果是否定的，则控制进入步骤929。在步骤929，客户端106确定帧“-2”的音高值是否被差分量化且可靠(也就是，它被差分量化，并且参考了紧邻在其之前的帧)。如果步骤929的确定结果是肯定的，则控制进入步骤940。如果步骤929的确定结果是否定的，则控制进入步骤930。

在步骤930，客户端106继续到前一帧，以继续寻找恰当的参考帧以便用于差分音高量化。在步骤937，客户端106确定帧“-3”的类是否为浊音类别类(即，混合浊音类或完全浊音类)。如果步骤937的确定结果是肯定的，则控制进入步骤940。如果步骤937的确定结果是否定的，则控制进入步骤942。步骤940直接进入图9C的步骤960(C)，并且步骤942直接进入图9C的步骤950(D)。

在图9C的步骤950(D)，控制直接进入步骤952。在步骤952，确定没有找到恰当的参考帧以便差分量化当前帧“0”。在步骤956，客户端106根据音频音高值执行绝对音高量化。在一个例子中，如上所述，执行5比特绝对音高量化。在无线网络实施例中，在步骤956，无线设备106根据音频402的音高值执行绝对音高量化。在步骤958，客户端106将音高码字设成在步骤956执行的为绝对音高量化而生成的音高值。在一个例子中，客户端106将5比特音高码字设成在步骤956执行的为绝对音高量化而生成的音高值。

在图9C的步骤960(C)，控制直接进入步骤962。在步骤962，确定找到了恰当的参考帧，以便差分量化当前帧“0”。在步骤966，客户端106参考所识别的参考帧执行差分音高量化。在一个例子中，如上所述，执行5比特差分音高量化。在步骤968，客户端106将音高码字设成在步骤966执行的为差分音高量化而生成的音高值。在一个例子中，客户端106将5比特音高码字设成在步骤966执行的为差分音高量化而生成的音高值。

在步骤970，控制直接回到图9A的步骤915(E)。在步骤915(E)，控制直接进入步骤914。在步骤914，音高量化处理前进到下一帧，并且控制直接回到步骤903。

C.对现有技术的回顾

在混合激励线性预测(MELP)标准(电信标准)中，在非语音和清音语音帧之间没有区别。这两个类组合在一起，并且以零音高周期值表示。当音高周期大于零时，即当帧为浊音类别类(例如，混合浊音或完全浊音)时，使用附加4比特来量化类信息。这4个比特标识语音频谱的不同频带中的浊音化。使用7比特绝对量化音高值。因此，在MELP中不存在如在本发明中所描述的比特节省。

在LPC-10(另一种电信标准)中，使用7比特来表示浊音类别类帧和音高。存在60个音高周期等级和用来表示以下内容的3个等级：1)半帧都为非浊音类别类(即，非语音类和清音类)，2)只有第二半帧为浊音类别类(即，混合浊音类和完全浊音类)，或者3)只有第一半帧为浊音类别类。因此，LPC-10仅区分浊音类别类和清音类别类。LPC-10在清音类别类内不进行区分(即，不区分非语音和清音类)或者在浊音类别类内不进行区分(即，不区分混合浊音和完全浊音类)。本发明通过引入非浊音类别类下的非语音和清音类以及浊音类别类下的混合浊音和完全浊音类来扩展LPC-10。

IV.示例性实现

本发明可以在图1的客户端106、108或者服务器102中采用硬件、软件、或者硬件和软件的组合来实现。如图5、6、9A、9B和9C所述，根据本发明优选实施例的系统可以在一个计算机系统中以集中方式实现，或者以不同单元分散在若干互连的计算机系统之间的分布方式实现。任何种类的计算机系统-或者被适配成执行这里描述的方法的其它设备-是适合的。典型的硬件和软件组合可以是具有计算机程序的通用计算机系统，当被装载和执行时，该计算机程序控制计算机系统，使得它执行这里描述的方法。

本发明的实施例还可以被嵌入在(客户端106和108以及服务器102内的)计算机程序产品中，该计算机程序产品包括使得能够实现这里描述的方法的所有特性，并且当被装载在计算机系统中时，能够执行这些方法。计算机程序意味着，或者在本发明中使用的计算机程序表示采用任何语言、代码或表示法的一组指令的任何表达，其中该组指令旨在使具有信息处理能力的系统直接地或者在下面操作的任一个或两者之后执行特定功能：a)转换成另一种语言、代码或表示法；以及b)以不同的材料形式再现。

计算机系统可以包括一个或多个计算机以及至少计算机可读介质等等，从而允许计算机系统从计算机可读介质读取数据、指令、消息或消息分组、以及其它计算机可读信息。计算机可读介质可以包括非易失性存储器如ROM、闪存、盘驱动器存储器、CD-ROM和其它永久性存储装置。另外，计算机可读介质可以包括例如易失性存储装置如RAM、缓冲器、高速缓冲存储器和网络电路。此外，计算机可读介质可以包括暂态介质中的计算机可读信息，其中暂态介质例如为网络链路和/或网络接口，包括有线网络或无线网络，其允许计算机系统读取这样的计算机可读信息。

图10是有用于实现本发明实施例的计算机系统的方框图。图10的计算机系统是客户端106和108以及服务器102的更详细表示。图10的计算机系统包括一个或多个处理器，例如处理器1004。处理器1004连接到通信基础设施1002(例如，通信总线、跨接条或网络)。各种软件实施例是按照该示例性计算机系统来描述的。在阅读该描述之后，如何使用其它计算机系统和/或计算机体系结构来实现本发明对于相关技术领域的普通技术人员将会变得清楚。

计算机系统可以包括显示接口1008，其转发来自通信基础设施1002(或者来自未示出的帧缓冲器)的图形、文本和其它数据，以便显示在显示单元1010上。计算机系统还包括主存储器1006、优选地是随机存取存储器(RAM)，并且还可以包括次级存储器1012。次级存储器1012可以包括例如硬盘驱动器1014和/或可移动存储驱动器1016，其中可移动存储驱动器1016代表软盘驱动器、磁带驱动器、光盘驱动器等。可移动存储驱动器1016以对于本领域的普通技术人员是公知的方式从可移动存储单元1018读取或者向其写入。可移动存储单元1018代表软盘、磁带、光盘等，其由可移动存储驱动器1016读取或写入。应当理解，可移动存储单元1018包括其中存储了计算机软件和/或数据的计算机可用存储介质。

在可选实施例中，次级存储器1012可以包括用于允许将计算机程序或其它指令装载到计算机系统中的其它类似装置。这些装置可以例如包括可移动存储单元1022以及接口1020。其例子可以包括程序盒(cartridge)和盒接口(如在视频游戏设备中找到的那样)、可移动存储器芯片(例如，EPROM或PROM)和关联插座(socket)，以及允许将软件和数据从可移动存储单元1022传输到计算机系统的其它可移动存储单元1022和接口1020。

该计算机系统还可以包括通信接口1024。通信接口1024允许在计算机系统和外部设备之间传输软件和数据。通信接口1024的例子可以包括调制解调器、网络接口(如以太网卡)、通信端口、PCMCIA插槽和卡等。通过通信接口1024传输的软件和数据采取可以例如是电子、电磁、光的信号或者能够由通信接口1024接收的其它信号的形式。通过通信路径(即信道)1026将这些信号提供给通信接口1024。该信道1026运载信号，并且可以使用线路或电缆、光纤、电话线、蜂窝电话链路、RF链路和/或其它通信信道来实现。

在本文档中，术语“计算机程序介质”、“计算机可用介质”、“机器可读介质”和“计算机可读介质”用来统称诸如主存储器1006和次级存储器1012、可移动存储驱动器1016、安装在硬盘驱动器1014中的硬盘的介质、以及信号。这些计算机程序产品是用于向计算机系统提供软件的装置。计算机可读介质允许计算机系统从计算机可读介质读取数据、指令、消息或消息分组以及其它计算机可读信息。计算机可读介质例如可以包括非易失性存储器如软盘、ROM、闪存、盘驱动器存储器、CD-ROM和其它永久性存储装置。例如，它有用于在计算机系统之间传输诸如数据和计算机指令的信息。此外，计算机可读介质可以包括暂态介质中的计算机可读信息，其中暂态介质例如为网络链路和/或网络接口，包括有线网络或无线网络，其允许计算机读取这样的计算机可读信息。

计算机程序(也被称作计算机控制逻辑)被存储在主存储器1006和/或次级存储器1012中。还可以通过通信接口1024接收计算机程序。当被执行时，这些计算机程序使得计算机系统能够执行如这里所讨论的本发明的特性。具体地说，当被执行时，这些计算机程序使得处理器1004能够执行计算机系统的特性。从而，这些计算机程序代表计算机系统的控制器。

V.小结

虽然公开了本发明的特定实施例，但是本领域的普通技术人员应当理解，在不脱离本发明的精神和范围的情况下可以对特定实施例进行改变。因此，本发明的范围不应当局限于这些特定实施例。此外，所附权利要求旨在覆盖本发明的范围内的所有这些应用、变型和实施例。

Claims

1.一种信息处理系统中用于量化音频的类信息和音高信息的方法，包括：

接收音频；

捕获该音频的帧；

确定该帧的音高；

计算表示该帧的音高的码字，其中第一码字值指示不确定的音高；

确定该帧的类，其中该类是至少两个指示不确定的音高的类和至少一个指示确定的音高的类中的任一个；以及

计算表示该帧的类的码字，其中码字长度是表示所述至少两个指示不确定的音高的类所需的最小比特数和表示所述至少一个指示确定的音高的类所需的最小比特数的最大值，

其中该帧的音高和类由所述两个码字表示。

2.如权利要求1所述的方法，其中如果表示该帧的音高的码字指示不确定的音高，则表示该帧的类的码字指示所述至少两个指示不确定的音高的类之一。

3.如权利要求2所述的方法，其中如果表示该帧的音高的码字指示确定的音高，则表示该帧的类的码字指示所述至少一个指示确定的音高的类之一。

4.如权利要求3所述的方法，其中所述至少两个指示不确定的音高的类包括非语音类和清音类。

5.如权利要求1所述的方法，其中信息处理系统是客户端计算机和无线设备如移动电话中的任一个。

6.如权利要求5所述的方法，其中音频与语音有关。

7.如权利要求6所述的方法，其中帧持续时间大约为20到30毫秒，并且顺序帧相互重叠大约10到15毫秒。

8.如权利要求1所述的方法，还包括：

将表示该帧的音高的码字和表示该帧的类的码字传送到服务器。

9.一种信息处理系统，用于量化音频的类信息和音高信息，该信息处理系统包括：

麦克风，用于接收音频；以及

数字信号处理器，用于捕获该音频的帧，确定该帧的音高，计算表示该帧的音高的码字，其中第一码字值指示不确定的音高，确定该帧的类，其中该类是至少两个指示不确定的音高的类和至少一个指示确定的音高的类中的任一个，以及计算表示该帧的类的码字，其中码字长度是表示所述至少两个指示不确定的音高的类所需的最小比特数和表示所述至少一个指示确定的音高的类所需的最小比特数的最大值，

其中该帧的音高和类由所述两个码字表示。

10.如权利要求9所述的信息处理系统，其中如果表示该帧的音高的码字指示不确定的音高，则表示该帧的类的码字指示所述至少两个指示不确定的音高的类之一。

11.如权利要求10所述的信息处理系统，其中如果表示该帧的音高的码字指示确定的音高，则表示该帧的类的码字指示所述至少一个指示确定的音高的类之一。

12.如权利要求11所述的信息处理系统，其中所述至少两个指示不确定的音高的类包括非语音类和清音类。

13.如权利要求9所述的信息处理系统，其中信息处理系统是客户端计算机和无线设备如移动电话中的任一个。

14.如权利要求13所述的信息处理系统，其中音频与语音有关。

15.如权利要求14所述的信息处理系统，其中帧持续时间为大约20到30毫秒，并且顺序帧相互重叠大约10到15毫秒。

16.如权利要求9所述的信息处理系统，还包括：

传送器，用于将表示该帧的音高的码字和表示该帧的类的码字传送到服务器。

17.一种分布式语音识别系统中的方法，该方法包括：

接收音频；

将所接收的音频组织成帧；

量化每个帧的音频音高信息，其中每个帧的量化音频音高信息由多个量化音高值之一表示；以及

量化每个帧的类信息，其中每个帧的量化类信息由多个量化类值之一表示，并且其中保留所述多个量化音高值之一来指示每个帧的量化类信息是否是非浊音类类别和浊音类类别之一，从非浊音类类别和浊音类类别之一选择每个帧的量化类值。

18.如权利要求17所述的方法，还包括：

提供包括至少一个帧的量化音高信息和量化类信息的至少一个码字。

19.如权利要求17所述的方法，其中每个帧的量化类值由表示至少两个类之一所需的最小比特数表示。