CN1223986C

CN1223986C - 在语音识别中采用预取指令的方法、系统和装置

Info

Publication number: CN1223986C
Application number: CN01823554.9A
Authority: CN
Inventors: 赖春荣; 赵庆伟; 潘杰林
Original assignee: Intel China Ltd; Intel Corp
Current assignee: Intel China Ltd; Intel Corp
Priority date: 2001-06-19
Filing date: 2001-06-19
Publication date: 2005-10-19
Anticipated expiration: 2021-06-19
Also published as: CN1545696A; WO2002103677A1

Abstract

一般来说，由用于人的语音识别的计算机系统所使用的根据本发明一个实施例的新的预取方法提供根据声音的隐藏马尔可夫模型状态的高斯分布计算和搜索语音特征的有效方法。当该处理器正在用于对一个语音数据进行声音处理时，该新的方法传送要被处理的语音数据。相应地，由用于人的语音识别的一个计算机系统所采用的根据本发明一个实施例的预取方法减小或消除当该存储器把要被处理的语音数据传送到处理器时该处理器等待空闲所造成的存储器等待时间。

Description

在语音识别中采用预取指令的方法、系统和装置

技术领域

本发明涉及语音识别。特别地，本发明涉及一种新的装置和方法，其在系统在语音识别处理的声音识别阶段过程的处理中对语音数据进行声音处理时，采用预取指令来把要被声音处理的语音数据从主存储器传送到高速缓存。

背景技术

在过去几年，由一个机器所进行的人的语音识别的技术和科学已经获得大的发展。今天，存在有许多用于自动语音识别(ASR)的大词汇连续语音识别(LVCSR)的应用程序。为了实现语音识别，一种计算机系统可以被采用作为处理大量计算和搜索的语音引擎，以分析和识别携带人的语音特征的声音信号。相应地一个计算机系统在执行这些操作中的效率对语音引擎的性能具有影响。

通常，一个语音识别系统对一个人的语音信号执行几个操作，以确定所说的内容。例如，当一个人说出如下句子“my name is John”时，例如一个麦克风这样的语音捕获设备捕获该发音作为一个模拟声音信号。该模拟信号然后被转换为一个数字信号，以便于由数字计算机所处理。携带语音特征的所获得信号可以被使用一个数学模型来量化并且表现为多个特征矢量。例如，Mel频率对数倒频谱(Cepstral)系数(MFCC)可以被用于表示语音特征。

所计算的特征然后被一个计算机系统进行声音处理。在声音处理过程中，该特征与包含在一个声音模型中的已知音标单元相比较。一个声音模型的例子是隐藏马尔可夫模型(HMM)。该语音特征与包含在该模型中的已知音标单元的比较可能导致一个或多个匹配。所匹配的音标单元然后例如使用一个字典或语法词典来进行语言处理，以形成一个所识别的字串。

为了执行声音处理，该语音引擎使用大量概率分布，例如作为该语音信号的特征矢量的空间的N维空间的M高斯分布函数的混合。每个特征矢量的平均值和方差被计算并且存储器该计算机系统的存储器中。后来，每个参数被从存储器中取出，以用于该语音引擎来完成高斯函数的计算。

图1为在人的语音识别中所涉及的现有计算机系统的存储和执行周期的示意图。该图示出在语音信号的声音处理过程中该执行单元和存储器总线的时基比较。当存储器总线把要被处理的语音数据从存储器传送时，该执行单元保持空闲，直到要被处理的数据变为可以由该处理器所获得为止。由于在声音分析中所需的全部计算量，该存储器等待时间快速增加，即当该存储器传送要被处理的数据时所浪费的时间增加。当LVCSR连续接收语音信号时，该问题特别严重。许多操作需要在每秒钟内完成，并且该缺点严重地限制该系统的速度和效率。

附图说明

图1为用于根据现有技术的声音处理中的计算机系统的存储和执行周期的示意图。

图2为根据本发明一个实施例的方法的示意语音识别系统的方框图。

图3为根据本发明一个实施例的示意语音识别系统的流程图。

图4为在语音信号的声音处理过程中的语音特征计算的示意方法。

图5为采用根据本发明的方法的新的预取技术的C语言的示意计算机代码。

图6为采用根据本发明一个实施例的方法的新的预取技术的汇编语言的示意计算机代码。

图7为用于根据本发明一个实施例的示意计算机系统的存储和执行周期的示意图。

具体实施方式

在本发明的实施例的如下详细描述中，给出各种具体细节。但是，本领域的普通技术人员显然可以看出能够实现根据本发明的实施例的方法而没有这些具体细节。换句话说，众所周知的方法、过程、部件和电路没有被详细描述，以避免对本发明的实施例造成混淆。

根据本发明的方法包括将在下文中描述的各种功能步骤。该功能步骤可以由硬件部件来实现，或者可以体现为机器可执行的指令，其可以被用于使得用该指令编程的通用处理器执行该功能步骤。另外，该功能步骤可以通过硬件和软件的组合来执行。

本发明的实施例揭示要在人的语音识别的声音处理阶段过程中实现的一种新的预取技术。当在声音处理过程中要被处理的数据被从主存储器传送到执行单元时，该新的预取技术可以被用于减小或消除由于执行单元等待空闲所导致的存储器等待时间。在一个优选实施例中，例如，当该执行单元忙于计算语音特征时，该应用程序并行地执行用于要被处理的数据的预取指令。相应地，当该执行单元忙于计算时，该存储器总线忙于预取该执行单元进行下一次计算所需的数据。

现在参见图2，其中示出一个示意的语音识别系统200的方框图。该系统包括语音捕获设备210、模数转换器212、计算机系统250和一系列I/O设备，例如控制器设备240、显示设备242、网络接口卡244和打印设备246。该计算机系统250又包括处理器252、存储器280、高速缓存260、高速缓存控制器262、存储器总线272以及I/O总线270。优选地，该计算机系统可以进一步包括一个直接存储器存取274。

该系统如下工作：一个人对麦克风210说话，获得一个模拟语音信号。该信号然后通过模数转换器212，以形成该模拟语音信号的数字化表示。该数字化的表示然后被输入到该计算机系统250。该处理器252然后开始识别与该语音信号相关的语音特征，并且把这些特征存储在计算机系统250的存储器280中。一个高速缓存260被用于存储在语音特征的计算中所需的预取数据。连接到处理器252和高速缓存260的一个高速缓存控制器262协调处理器252和高速缓存260之间的数据传送。

还被存储在存储器280中的是多个已知的音标单元，其被称为一个声音模型。由本实施例所使用的声音模型可以是一个与说话者相关的(SD)模型或者可以是与说话者无关的(SI)模型。该SD模型由一个特定人的声音所效率，并且该识别系统被期望由相同的人所使用。例如，一个移动电话或个人数字助理通常采用SD模型，因为它预计被相同的人(该设备的拥有者)所使用。另一方面当使用该系统的人改变时，使用SI模型。例如，一个自动出纳机(ATM)一般使用SI模型。

在处理器252已经完成该语音信号的特征的计算并且把它们存储在该存储器280中之后，它可以在也存储在存储器280中的声音模型内寻求匹配。所用的特定搜索方法不影响用于该实施例的方法。例如，可以使用单个最佳或N个最佳假设。另外，一个字图或一个音标字图可以被用于表示在声音模型的搜索过程中得到的匹配。

无论如何，该匹配被进行语言处理，以确定被识别的字串。另外，该处理器252可以利用该显示设备242来把匹配的结果发送到另一个计算机，例如可以执行该语言处理的服务器设备(未示出)。如果该处理器252被编程为也对匹配的结果执行语言处理，则它可以利用打印设备246来打印相关的所识别字串。另外，所识别的字串可以显示在显示设备242上，或者例如被发送到控制器设备240，以把控制信号发送到另一个系统，来控制一个设备。

现在参见图3，其中示出根据一个实施例的使用语音识别系统的流程图。在步骤3e06中，以模拟形式捕获一个示意的人的语音信号。所捕获的语音信号携带与该说话者所说的内容相关的语音特征。所选择的特定语音特征不影响根据本实施例的方法。例如，所选择的语音特征可以是按照频率间隔测量的语音信号的能量强度。当人说话时，该特征改变，并且该特征可以由多个特征矢量所表示，每个特征矢量具有一个方向和幅度。然后该语音信号可以被数学地表示为以不同时间间隔测量的特征矢量的总和。该时间间隔或采样频率越短，则该语音信号的表示越精确。为了计算这些特征，该信号首先被转换为数字形式，使其由步骤308中所示的一个数字计算机所处理。在步骤310中，该数字化的语音信号的特征被计算并且存储在该系统的存储单元中。例如，一般被用于表示语音特征的一个数学模型是Mel频率Cepstral系数(MFCC)。

还存储在该系统的存储单元中的是一个声音模型330和语言模型332。步骤340表示声音和语言处理。在该步骤过程中，根据一个搜索算法执行搜索，例如基于令牌传播的搜索(解码)算法。在该“搜索处理”或“匹配处理”过程中，该执行单元在步骤310中查找所计算特征(例如，语音信号的MFCC)和包含在该声音模型中的已知音标特征之间的匹配。在该阶段，通过选择具有最高匹配概率的候选项获得最佳候选项，例如一个音标单元列表。

该搜索空间根据该系统已经被编程而执行的特定识别应用程序而变化。例如，对于听写任务，该搜索空间可以被组织为一个词汇树；而为了命令和控制任务，该搜索空间可以被组织为一个字图。可以执行任何公知的搜索方法，例如单个最佳或N个最佳假设。无论如何，在搜索之后，可以由该执行单元产生一个字图。通过利用该声音模型所作的匹配的字替换选项的字图然后被进行语言处理，并且在步骤350中产生一个所识别的字串。在特征矢量与包含在该声音模型中的已知特征的匹配操作过程中，即，声音模型匹配和形成处理，可以使用根据本发明不同实施例的方法。

在语言处理过程中，一个语言模型可以被用于形成单个最佳句子。该语言模型可以采用字典和语法词典来从匹配的候选项中消除不类似或不允许出现的字。所获得的最佳句子可以被用作为一个控制信号，或者它可以被简单地存储在一个听写应用程序中。

现在参见图4，其中示出处理一个语音信号的声音处理的示意方法。一般来说，一个语音信号被表示为例如基于MFCC的一个数学模型。该模型被根据表示与多个特征矢量相关的状态的高斯分布函数而计算。这种数学模型的一个例子使用根据公式410的一个高斯分布概率函数而形成。其中x＝(x1，x2，...xN)为语音信号的特征矢量1至N，并且平均值412和变量413为第i维矢量，声音HMM状态的高斯分布的第m个混合。一般来说，该算法计算被使用，以加速特征矢量的计算。例如，如果要计算算法408，则通常如下公式被用于加速上述计算，因为log(Wmfm(x))可以被计算为如下：

Log(y1+y2)＝Log(y1)+Log(1+y2/y1)＝Logy1+log(1+e POWERlogy2-logy1)

为了使该处理器执行该计算，，可以利用一个计数的循环。在该循环块中，算术指令与以前的数据传输函数相关。在执行计算之前，例如与平均矢量412和每个特征矢量的方差矢量413相关的数值这样的数据要被提供给该处理器。一个预取指令可以被用于传送每个特征矢量的平均和变量值。在一个优选实施例中，当该执行单元忙于计算当前数据时，该预取指令被执行。该预取指令可以在该执行单元忙于当前计算的任何周期过程中执行。两个事件不一定要完全同时，但是在一个优选实施例中，该预取指令与该执行单元的当前计算周期同时执行。

该高斯计算可以被许多次用于从该特征矢量、平均矢量、方差矢量计算高斯概率，直到该语音信号被完成时为止。一般来说，一个循环被用于执行该计算。当该执行单元忙于在该计算中所用的一组平均值和方差矢量时，该软件例如可以包括预取接着的几个平均和方差矢量的一个预取指令，使得当该执行单元已经完成其计算并且准备用于下一组平均和可变矢量时，该数值已经存在于该缓冲存储器处。在该高速缓存处预取数值意味着该执行单元不需要空闲并等待数据。要被处理的数据已经可用，并且在已经完成当前的计算之后，该执行单元可以简单地执行它的下一个计算。

图5为采用根据本发明一个实施例的预取指令的C语言的示意计算机代码。在行514中，格预取指令已经被设置，以预取在行518中所示的函数ippsLogGauss1_32f_D2的计算所需的数据。函数_mm_prefetch 0是在C语言库中的一个示意的预取指令。也可以使用在任何其他计算机语言中的任何其他预取指令，只要该指令使得存储器发送要被传送到该高速缓存的位于预取地址的数据即可。在该实施例中，可以使用任何计算机语言。

当执行该预取指令时，一般预取一个高速缓存线。在具有等于32字节的一个高速缓存线的系统中，该_mm_prefetch把8个浮点数装载到该高速缓存中，因为每个浮点数包括4字节。相应地，可以通过把一个增量与下一个预取地址相加而计算该预取地址。该增量将保证当数据预取完成时，之后紧接着需要被预取的数据。否则，该操作可能造成高速缓存的污染(cache pollution)，导致整个系统的低效率。类似地，如果该增量太小，则在该执行单元的下一个计算周期开始之前，该预取将不有效地隐藏该预取的等待时间。如果增量太大，则对不为初始迭代而预取的数据的启动成本降低预取该数据的优点，并且该被预取的数据可能在以前预取的数据被实际使用之前包围和取代该以前预取的数据。对于大的循环，该增量可以被设置为32字节或者8个浮点数。

通常，该增量的数值取决于计算成本和该循环的存储器填充成本之间的比率。该增量的理想数值可以通过经验和设计参数而获得。对于大循环，该增量的数值可以被设置为16。这将导致在该计算的过程中预取该第三高速缓存线。通过使用增量数值16，可以把高速缓存失误(miss)的情况减小一半。

该增量还可以根据所用的计算机语言而变化。例如，经验表明，在C语言中，当预取第三高速缓存线时获得最佳结果。但是在汇编语言中，当预取第四高速缓存线时获得最佳结果。该区别的原因在于由所选择语言选择使用的特定编译器。在C语言中，由于该编译器，使得预取指令被更加随机地发出。利用无序的核心处理器，在性能上的差别较小并且可以被忽略。但是，通过用汇编语言编写的代码获得最佳性能。

预取指令还可以被添加到ippsLogGauss1_32f_D2的主循环内，如行528和529中所示。这示出在明确地示出在存储器装载之后的预取，其可以获得类似的效果。

图6示出在图5的行529中所示的主循环的修正代码。该采用汇编语言的示意计算机代码采用根据本发明一个实施例的预取指令。该循环被展开以使其处理32字节，并且在第四高速缓存线中的数据被预取。该方法可以减小语音识别的解码成本。例如，在具有汉语(51K)语言模型的一个语音识别系统上的实验表现出9％的改进。

图7为在根据本发明一个实施例的人的语音识别中涉及的示意计算机系统的执行单元和存储周期的时间-动作示意图。根据本实施例的方法通过预取相应的特征矢量的下一个平均和方差数值而利用高斯概率分布函数的长计算周期的优点。如图7中所示，当该执行单元用于顶点(n-1)的计算时，该存储器总线预取用于该顶点(n)的数据。类似地，在下一个周期过程中，当该执行单元忙于计算顶点(n)时，该存储器总线忙于预取顶点(n+1)。按照这种方式，该执行单元不空闲地等待该存储器总线装载他完成该计算所需的数据。其结果是消除在现有技术的声音识别的处理中固有的等待时间。

Claims

1.一种在语音识别中采用预取指令的方法包括：

接收人的语音信号；

对与所述人的语音信号相关的第一组语音数据进行声音处理；

当所述第一组语音数据被声音处理时，把要被声音处理的第二组语音数据从第一存储器传送到第二存储器；

对所述被声音处理的第一和第二组语音数据进行语言处理；以及

形成与所述人的语音信号相关的一个所识别字串。

2.根据权利要求1所述的在语音识别中采用预取指令的方法，其中所述第一存储器包括一个主存储器。

3.根据权利要求1所述的在语音识别中采用预取指令的方法，其中所述第二存储器包括一个高速缓存。

4.根据权利要求1所述的在语音识别中采用预取指令的方法，其中所述第一和第二组语音数据包括基于声音的隐藏马尔可夫模型状态的高斯分布的一个平均矢量和方差矢量。

5.根据权利要求4所述的在语音识别中采用预取指令的方法，其中所述平均矢量和所述方差矢量被用于计算一个特征矢量，其接着被用于搜索一个声音模型。

6.根据权利要求1所述的在语音识别中采用预取指令的方法，其中所述识别的字串被用于控制一个设备。

7.一种在语音识别中采用预取指令的方法，其中包括：

对第一组语音数据进行声音处理；以及

当所述第一组语音数据被进行声音处理时，把要被声音处理的第二组语音数据从第一存储器传送到第二存储器。

8.根据权利要求7所述的在语音识别中采用预取指令的方法，其中所述第一和第二组语音数据包括基于声音的隐藏马尔可夫模型状态的高斯分布的平均矢量和方差矢量。

9.根据权利要求7所述的在语音识别中采用预取指令的方法，其中所述第一存储器比所述第二存储器更慢。

10.根据权利要求7所述的在语音识别中采用预取指令的方法，其中进一步包括：

对所述声音处理的第一和第二组语音数据进行语言处理；以及

识别对应于所述语音数据的至少一个字。

11.一种在语音识别中采用预取指令的系统，其中包括：

客户机设备，其包括：

对第一和第二组语音数据进行声音处理的处理器，

连接到所述处理器的主存储器，该主存储器存储所述第一和第二组语音数据，

连接到所述处理器和所述主存储器的高速缓存，以及

与所述第二组语音数据从所述主存储器传送到所述高速缓存的同时，所述处理器对所述第一组语音数据进行声音处理，以及连接到该客户机设备的所述处理器的发送器模块，该发送器模块把所述声音处理的第一和第二组语音数据发送到一个服务器。

12.根据权利要求11所述的在语音识别中采用预取指令的系统，其中进一步包括：

人的语音捕获模块，用于捕获人的语音信号；

模数转换器模块，用于把所述人的语音信号转换为数字语音信号；以及

语音特征识别器模块，用于识别所述数字语音信号的特征。

13.根据权利要求11所述的在语音识别中采用预取指令的系统，其中所述客户机设备选自移动电话、个人数字助理和便携式计算机系统。

14.根据权利要求12所述的在语音识别中采用预取指令的系统，其中所述语音特征识别器模块还对所述人的语音信号执行结束点检测、预先强调滤波以及量化。

15.根据权利要求11所述的在语音识别中采用预取指令的系统，其中所述语音数据包括基于声音的隐藏马尔可夫模型状态的高斯分布的平均矢量和差分矢量。

16.根据权利要求11所述的在语音识别中采用预取指令的系统，其中所述被声音处理的语音数据是一个字图。

17.根据权利要求16所述的在语音识别中采用预取指令的系统，其中所述发送器模块形成所述字图的二进制表示，并且在发送所述字图之前，把所述二进制表示与一个源地址和目标地址一同置于一个数据包中。

18.一种在语音识别中采用预取指令的装置，其中包括：

存储第一和第二组语音数据的主存储器；

高速缓存；以及

耦合到所述主存储器和所述高速缓存的处理器，该处理器在所述第二组语音数据从所述主存储器发送到所述高速缓存的同时，对所述第一组语音数据进行声音处理。

19.根据权利要求18所述的在语音识别中采用预取指令的装置，其中所述语音数据是与人的语音信号相关的特征矢量的平均和差分矢量。

20.根据权利要求18所述的在语音识别中采用预取指令的装置，其中所述装置选自无线设备、个人数字助理和移动设备。

21.根据权利要求18所述的在语音识别中采用预取指令的装置，其中进一步包括：

连接到所述主存储器的直接存储器存取模块，用于通过网络发送一个被声音处理的语音数据，用于语言处理。

22.根据权利要求21所述的在语音识别中采用预取指令的装置，其中所述网络是互联网。