CN1217808A

CN1217808A - 自动语音识别

Info

Publication number: CN1217808A
Application number: CN97194340A
Authority: CN
Inventors: 西蒙·亚历山大·霍维尔
Original assignee: British Telecommunications PLC
Current assignee: British Telecommunications PLC
Priority date: 1996-05-03
Filing date: 1997-04-24
Publication date: 1999-05-26
Also published as: CA2247512C; DE69700472T2; AU709376B2; EP0896710A1; EP0896710B1; CA2247512A1; KR20000005278A; NO985093L; NO985093D0; DE69700472D1; AU2397797A; NZ331430A; JP2000509836A; WO1997042626A1

Abstract

通过将参数化语音与由模型语言元素(12b,12c)组成的路径的动态扩展网络相匹配来进行语音识别。单元是上下文相关的,如三音节。在必须结合元素到路径中时一些元素不能被转换成模型,这是因为上下文在相关时间内未被确定。为了允许变换,元素被变换为位置标志元素(21,22,23,24),当后面扩展完成了三音节的确定时位置标志元素可被转换。位置标志元素(12a)可被用于确定后续扩展的位置。

Description

自动语音识别

本发明涉及自动语音识别，特别地它涉及使用上下文相关元素，如三音节的自动语音识别。

自动语音识别具有许多潜在的应用，如听写系统，和多种机制的语音控制，如视频记录器。自动语音识别也可用于家用设备的遥控，如通过电话。有许多可通过自动语音识别及合成语音实现的电话业务，如大量使用自动化索引的业务。在许多应用中，识别语音的失败被认为是可接受的结果。例如，扬声器可能产生错误，且如果有错误的话，它不一定是自动系统产生的。一个系统经常被设计成不识别错误或不正确的发音，如，系统可能要求重复一遍。

语音识别一般是通过将参数化语音信号抽样值与确定多个路径的网络相匹配而进行的，其中网络的每一个路径代表一个可能的发音。在语音识别领域参数化语音很好理解，且熟知该领域的人知道许多参数化技术。路径被构成为一系列的模型语音元素，如模型化音素。术语“模型”代表元素被表示成适合直接与参数化抽样值相比较的形式。每个比较产生表明模型元素和参数化抽样值之间的一个或多个度量。基本度量在路径和局部路径上累积，这样确定哪些路径和局部路径最接近接收到的信号。开始时，具有许多潜在路径因此识别过程相应于选择哪一个可选路径构成对接收信号最好的匹配。

自动语音识别的复杂或精巧的实现需要对匹配过程提供大量可选对象，即，它们必须使用许多路径。一个路径可被看成是一系列局部路径。因为许多发音开始相同，且然后分成许多开始具有相同局部路径的路径，然后它们不断地分下去，使得一个局部路径可以被许多完整路径共有。所以这就便于将路径存储成网络，该网络确定了包括在其中的所有路径和局部路径。识别过程等效于找出网络中最佳路径。

本发明使用了动态网络。这就意味着当识别开始时，只有一个初始网络被确定，而局部路径不时地被加入到该网络中，如在不同的局部路径的末端，且每个扩展部分通常采用完整单元的形式，如一个完整的词或一个音节。这些单元采用符号元素的形式，如(音素)，它并不适合与参数化抽样值进行匹配。在符号元素可以被用于识别之前，它们必须被转换成模型元素，即转换成可与参数化抽样值相匹配的形式。

在简单自动语音识别中，符号元素和模型元素之间存在一一对应。这使得转换更为容易，但它趋向于降低匹配，因为实际上，一个如音素的元素，它的发音依赖于上下文。使用代表在它相邻符号音素上下文中的符号音素的模型元素，在识别准确性上产生了显著的改善。换句话说，一个符号元素(音素)具有许多不同的发音，且需要大量不同的模型元素去表示这一变化，即对每个发音需要一个模型元素。本发明使用了上下文相关模型元素，且更特殊地是，模型元素依赖于后续的符号元素。在优选实施例中，本发明使用三音节，这就是说每个模型音素相关于唯一一个符号音素，但也考虑到前面和后面的符号音素。

下面将通过实例及其相关参考附图对本发明予以描述，其中：

图1表示使用三音节时用于将符号音素转换成模型音素的存储；

图2表示局部路径的末端；

图3表示在符号音素中，用于网络增加的树形结构；

图4a表示图3中的树转换成模型音素；

图4b表示图4a的另一个可选方案，其中位置标记从树结构中被移去；

图5表示执行该方法的设备；

图6是该方法的流图；及

图7表示在通信系统的上下文中的本发明。

图1表示三音节存储的内容，它也出现为图5中的部件56。实际上，它包括了更多的项目，但是只有少数可被表示出。特别地，表示非语音特征的项目，如“呼吸音”和“线路噪音”，通常也被包括在内。图1中显示的项目都是三音节，即每个项目由音素本身及其左相邻音素(前方音素)和右相邻音素(后续音素)组成。

图1有一个标题为“中心”的列，它确定了将被转换的符号音素。标题为“左”和“右”的列确定了前方音素和后续音素。用括号中小写字母表明“模型”，这是因为要显示出确定模型所需的大量数据是不实际的(任何情况下，在本领域，模型都是通用和为人熟知的)。模型被编号，这就强调了对每个符号音素都具有大量的模型音素。三音节的使用需要有标题“中心”列中确定的符号音素和如其标题列名称同样确定的该音素的左和右音素。这样就确定了合适的三音节以在其上下文中转换中心元素。

考虑词“LEAPT”和“MET”的转换。尽管传统拼写法认为在其他情况下“LEAPT”中的“EA”不仅是一个单音节，而且它和“met”中“E”是同样的音节。但是上下文是不同的，且图1的地址113和114使得基于三音节进行必要的转换是很清楚的。没有一个词中符号音素“T”可被转换，这是因为没有右音素去确定合适的三音节。本发明使用动态网络，并且网络的每个局部路径一次被一个单元(如一个字)扩展。该单元采用符号音素形式，且在可能与抽样值比较之前必须转换成模型音素。当进行转换后，每个局部路径，(且有许多)有一个最后符号音素，它不是(还不是)部分三音节。因为最后音素的上下文未被确定，所以它们不能被转换。对于在动态网络中使用上下文相关元素，这是一个主要问题。当上下文是一个三音节时，术语“纵横字三音节”经常被使用，这是因为三音节的左和右元素位于不同的词中。这个问题就被称为“纵横字三音节问题”。

根据本发明，使用“位置标记”以克服这个问题，它在权利要求书中被更详细地确定。位置标记与模型音素相类似之处在于它可放置在路径中，但它不包含任何比较过程所需的信息。所以它可被认为是一个虚模型元素。更重要的是，位置标记确定了一个符号音素，如被放置在网络中而未被转换的音素(未转换的原因是在插入的时刻上下文未能被充分判定。)

位置标记确定了将来路径扩展的位置，且它也可被用于确定局部路径的末端。

因为用位置标记确定的符号元素不适合与参数化抽样值进行比较，所以位置标记在它被合并于路径中后将需要被更新，且这一更新过程将在路径的一个或多个后续扩展中发生(且由此网络的路径是部分的)。几乎总是发生在扩展时路径时从位置标记处开始分叉的情况。这意味着从位置标记处通常有多个扩展分支。可以预料到，多个扩展分支将会构成相对于位置标记的多个不同的上下文，所以，将需要多个不同的模型元素，这是因为模型元素是上下文相关的。下面将描述更新的两个方法，即替代法和延续法。

替代法

在替代法中，位置标记被从它的路径中取出，并被由一个位置标记确定为符号元素的上下文相关模型元素所替代。如上所述，这一替代需要大量不同的模型元素，从而处理多个不同的上下文。只要位置标记被移去，它的位置就失去了，且没有任何进一步的扩展可以从那个位置发生。所以，在相同的时刻进行所有不同的扩展是适当的。

延续法

在延续法中，位置标记在网络中保存时间和其路径保存时间一样长。相对于与参数化抽样值进行比较所需的信息来说，位置标记是“空”的，所以位置标记在比较中不起任何作用，并且它不影响路径的选择。更新的扩展从位置标记处不断延续，如必须的那样，几个不同的扩展可以从同一个位置标记处延续。每个扩展通常在位置标记中确定的元素处开始，且由于这个元素的上下文现在被完全地指明了，所以该元素可被转换成合适的上下文相关模型形式。明显地，在路径扩展完成之后，位置标记将不在路径末端。尽管如此，但位置标记还保存在路径中，它还可被定位且用于将来创建额外分支时的扩展。

如果需要，位置标记也可包含额外信息，如被位置标记终止的字或单元的标志。(当使用该扩展方法时，位置标记保存在路径中，且任何包含在其中的额外信息也将保存在路径中。所以，如果需要的话，这一信息也可被访问。)

本发明包括下列方法：(a)使用位置标记来扩展路径和网络，(b)使用包括位置标记的动态网络的语音识别，(c)利用由(b)识别的语音的设备的控制，(d)包括通信的应用方法(a)到(c)。

本发明也包括实现上述方法(a)到(d)的设备。

根据本发明的位置标记的使用将参考图1到5予以说明。

图2涉及网络局部路径的扩展，(为了便于说明)，将假定局部路径以词“cat”结束。最终，所有的路径将被扩展，且这一过程是反复进行的，这是因为每个扩展按基本同样的方式被执行着。由于所有的迭代都是基本一样的，所以只需描述一个，即扩展这一局部路径的那个。

通过增加大量词到图2所示的局部路径末端，以获得考虑中的扩展，且“C”(10)表示网络的剩余部分。因为在前次迭代中“C”被转换，所以它在本次(或任何将来的)迭代中不起任何作用。“cat”中的“A”(图2中的11)也被转换，且它被表示为模型音素(a1)，图1中地址111。尽管如此，需要它去帮助确定后面的三音节。

“cat”中的“T”(图2的12)没有(还没有)一个后续元素，所以它不能被转换成基于三音节的模型。但是，在前次迭代中把“T”放置到网络中是必须的，并且由此使用位置标记。位置标记12也标识了局部路径的末端，且它不能与参数化抽样值进行匹配。

该设备(它被图5所示，且在下面被详细地描述)包括扩展器50，它包括一个词典57和那个在图1中详细描述的三音节存储器56。(词典57和三音节存储器56都是为了代表不同项目的信号的存储区域。这些信号采用适合于自动处理的形式)。词典57包含所有被设备所确认的词；它也可能包含其他单元，如音节或任何对特定应用具有重要意义的项目。扩展器50可以通过输出单元，如要扩展的词，来扩展包含在网络中的任何局部路径。

为了说明当前迭代，假定扩展器输出下列四个词。

SAT

SL(EE)PS

SLEPT

L(EA)PT

四个词足以用于说明，但“实际”列可能会更长。在词“sleeps”和“leapt”中，括号表示“ee”和“ea”是单个符号音素，尽管它们有两个字母。

为了准备转换成随后增加到网络上的模型音素，这些词被采用树型放置。该树将被增加到图2的位置标记12的位置，于是位置标记12中包含的符号音素转换成模型音素的时刻来到了。所以位置标记12和它前面音素11被混合放入树中。特别地，前面音素11和位置标记12组成树的起始部分。

从四个词、位置标记12和前面音素11形成树。树如图3中所示。

图3中所示的所有项目，除了“末端”21、22、23和24，以及初始字母“A”(11)外，都在已确定的三音节中，这些三音节被包含在存储器56(参见图1)中。所以转换已被确定。初始字母“A”并不需要被转换，这是因为它已被转换成模型音素。它在树中是需要的，因为它确定了项目12的转换，该转换可由图2的位置标记12中得到。末端21、22、23和24不能被转换成三音节，这是因为其后续元素还未被判定。这种无转换将成为主要障碍，因为在没有完全转换的情况下图3的树不能被合并进网络。根据本发明，末端21、22、23和24被转换成位置标记，且网络可以放置位置标记。

图4显示了转换和合并入以前网络的结果。项目11是前一个“最后被转换”的元素。项目(12a)是旧的位置标记，它还被保持未变。包含于位置标记12a中的符号音素现在被转换成两个不同的模型音素，这是因为例子显示了两个不同的上下文。所以，在一个分支中，位置标记12a的符号音素从音素存储器56的地址128处变成模型音素12b。对前面是A，且后面是S的T来说，这样给出了模型音素(t3)。在网络另一个分支上，来自位置标记12a的符号音素变成了(t1)，它是来自于音素存储器56的地址126上的项目12c。这一方案被选择，是因为，在网络的这一分支上，T的前面是A，且后面是L。旧网络进行了分叉，这样现在存在四个新的位置标记21、22、23和24。当包含于这些新位置标记中的符号音素被模型音素按上述方法予以替代时，在将来的迭代中这些新位置标记将作为用于扩展的起始点。

如从图4a中可看到的那样，位置标记在转换后保存在网络中。这些位置标记不包含任何用于与抽样值比较的信息，所以，它们不影响路径的选择。尽管如此，位置标记出现在网络分叉的地方，并且它们可以被用于确定网络。如上所述，位置标记包含用于转换的符号音素，并且它们可能包含额外的信息，如用于确定三音节的前面音素。如位置标记21到24所展示的那样，位置标记对应于插入在网络中的单元，并且如果需要的话，位置标记可以确定导出位置标记的单元。

在替代方案实施例(图4b所示)中，当包含于位置标记中的音素被转换成模型时，位置标记被移去。明显地，当位置标记被移去时，就没有了任何与位置标记相关的信息，但是，如从图4b中可看到的那样，网络结构依然被确定。

在另一个可替代方案中，没有说明，单元的完整性被保存下来了。图3中所示的树未被形成，这是因为每个单元都被分别地转换成模型音素和位置标记。被转换的单元然后作为单个实体被增加到网络上。

用于扩展网络的设备如图5中所示。它包括一个用于外展存在路径的扩展器50。扩展器50包括一个用于存储信号的词典57，其中这些信号代表单元的符号音素，如词和音节。它还包括一个用于存储信号的三音节存储器56，其中的信号被将符号音素转换成模型音素的转换器55所使用。它们与一个网络存储器51相连接，这样它可增加扩展到存储于其中的网络上。扩展器也可获得局部路径的末端，如来自网络存储器51的位置标记中所包含的符号音素以构成用于扩展的输入。

设备还包括用于取得语音信号去抽样和参数化的接收器54。该信号较好的是采用数字波形式；如果提供的是模拟信号，则还需包括一个模拟-数字转换器(未显示)。抽样器53执行参数化，且一般是每秒50到100个抽样值。(电话数字语音通常有每秒8000个抽样值)。比较器52将抽样值与保存在存储器51中的网络进行匹配，直到确定最佳路径，并且这就是输出到接口58的输出结果，其中接口58可选择地通过一通信系统用于控制附加设备(图5中未显示)或提供对判定的证实，如一个音频或视觉信号。

该方法的流图，说明了用于扩展路径的迭代，它在图6中被图例说明。

该流图有三个特点，即接收和抽样、比较和网络的扩展。

接收在流图的块60中被表示出，且抽样在块61中表示。

网络扩展在块62-64中被表示出，且它由下列主要步骤组成。

块62存在的网络(在存储器51中)被扫描，且位置标志元素中的一个被选出。位置标志元素决定下一个扩展将被增加到的那一点上。通常它也确定局部路径的末端。

块63

扩展器50从词典57在代表符号音素的信号中选择单元。

块64

在块63中选出的单元以符号音素树的形式被组合。在块62中选出的位置标志元素作为树的开始被包括进去。

块65

在块64中组合成的树被转换成模型音素且末端音素被转换成位置标志元素，其中位置标志元素将在块62的将来执行过程中被选择出。在块62选择出的位置标志元素中的符号音素也被转换成模型音素。使用音素存储器56来执行这些转换(图1中所示的内容)。在转换之后，这个树被增加到保存在存储器51中的网络上。

转换成模型音素的过程发生在块65中，而音素和其上下文的确定是在前面块63和64中获得的，认识到这一点是很重要的。当这些块被执行时，末端音素没有上下文，所以它们不能被转换。尽管它们不是模型音素，但位置标志元素与网络兼容，且它们的使用使得块65中说明的步骤可以产生，这是因为采用模型元素来进行的位置标志元素更新在后面的迭代中会出现。

块66

在块61中产生的抽样值与存储在网络存储器51中的网络相比较，以选择最佳路径。

块67

在块67中输出最佳路径。

只要接收到信号图6中所示的迭代就被重复，以保持该过程进行。为了有助于检测到末端，包括进表示线路噪声和呼吸音的模型音素是合适的。在开始，如在语音被接收之前，使用标准的，预定的配置来初始化网络。“静默”元素特别适合于初始化。

图7说明了本发明用于或是直接或是通过通信系统的自动声音控制，如目录查询或其他象铁路时刻表或航班服务之类的相似业务。

根据本发明的语音识别器70被连接到接口71上，其中接口71适应于通过作为语音被接收的指令的方式控制索引72，且被识别器70所确定。识别器70和接口71被连接到通信系统73上，后者包括了对一个用户75可用的一个远端电话74。为了查询索引72，用户75(通过传统通信技术)访问识别器70。口头请求通过系统73被传送到识别器。这些被识别器70所确认，并通过接口71发送给索引72。结果通过接口71和系统73被返回给用户75。

在某些应用中，提供检查指令己被正确理解的概率，如通过反馈回路的方法，是被希望的。这可通过结合合成语音设备到识别器70上的方法很方便地实现。如果有必要，通过通信系统，这就使得识别器去确认它给用户的解释。在屏幕上显示解释也是可能的。这种检测在应用中是固有的，如自动听写，特别是当结果文本被显示在屏幕上。

在大多数的这些应用中，存在着语音根本不被识别的可能性。这被视为可接受的结果，特别是当这一情况被通知给用户时。

Claims

1、一种识别语音信号的方法，该方法包括：

(a)接收(60)所述信号并将其分成一系列抽样值(61)；

(b)准备(63)多个路径，它们每个都包括一系列模型语言元素，所述模型采用适合与抽样值相比较的形式；

(c)比较(66)抽样值和路径，以评定在每个路径与接收到的信号间的匹配接近性；

(d)选择(67)一个路径，它构成对于接收信号的最佳匹配；

其中至少一些模型元素是上下文相关的，因为模型考虑到了后续的元素，

其特征在于：采用了一种不适合于上述比较的形式确定语言元素的位置标记(12)被插入到路径之中，且此后在所述位置标记中确定的语言元素被转换成模型元素(12b,12c)。

2、根据权利要求1的方法，其中每个上下文相关模型元素都基于由中心元素、左元素和右元素组成的三音节；模型相关于左和右元素的上下文中的中心元素。

3、根据权利要求1或2的方法，其中扩展被增加到路径中位置标志(12)已经确定的位置，且至少一个扩展包括一串一个或多个模型元素和一个新位置标志(21、22、23、24)，其中该串中的元素(12b,12c)之一是由路径中位置标志确定的模型元素的转换形式，且新的位置标志(21、22、23、24)确定了将来扩展的位置。

4、根据前面的权利要求中任一项的方法，其中路径按网络的形式被组织。

5、根据前面的权利要求中任一项的方法，其中每个抽样值都采用代表抽样值语言特性的参数形式。

6、根据前面的权利要求中任一项的方法，其中输入的语音由通信系统(74)被接收。

7、根据前面的权利要求中任一项的方法，它包括产生用以确定识别结果的响应。

8、根据权利要求7的方法，其中上述的确定包括输入未被确定的指示。

9、根据前面的权利要求中任一项的方法，它包括：

(a)识别结果传输到一个可计算机化的索引(72)，

(b)从索引获取信息(72)，及，

(c)取回的信息的输出。

10、根据权利要求7、8、9中任何一项的方法，它包括通过通信系统(74)传送响应和/或获取的信息。

11、一种扩展包括适合与语音信号比较的模型元素的路径的方法，这种方法包括在一个扩展过程中在路径中插入一个位置标志和在后面扩展过程中用一个模型元素替代一个在位置标志中确定的符号元素。

12、根据权利要求11的方法，其中每个扩展被增加到由位置标志(12a)指明的位置上。

13、一种用以识别语音信号的设备，包括：

(a)一个用于获得为了转换的语音信号的接收器(54)，

(b)一个连接到接收器(54)上的参数化器(53)，它用于将获得的信号转换成一系列与抽样值的语言特性相关的参数形式的抽样值，

(c)一个用以包含多个路径的路径存储器(51)，上述路径包括具有适合与参数化抽样值相比较的形式的模型语言元素，

(d)一个用于产生对包含在路径存储器中的路径的扩展的扩展器(50)，上述扩展具有不适合与参数化抽样值相比较的符号元素形式，

(e)一个用于将上述扩展器(50)产生的扩展转换成上下文相关的模型元素的转换器(55)，上述转换器(55)也可被连接到路径存储器(51)上，以便将上述转换结果增加到包含于路径存储器(51)的网络上，

(f)一个可连接到参数化器(53)和路径存储器(51)上的比较器(52)，用于将抽样值与路径相比较以选择出最佳匹配，其特征在于：该转换器(55)用于将不含有充分确定上下文的元素转换成位置标志，并将上述位置标志增加到路径存储器(51)所包含的网络中，而且上述转换器(55)用于定位上述路径存储器(51)中的位置标志所包含的符号元素，以便将它们转换成上下文相关的模型元素且将上述上下文相关的模型元素在由位置标志指明的位置处增加到路径存储器(51)上。

14、根据权利要求13的设备，其中转换器包括一个具有多个存储位置的字典存储器(57)，每个存储位置都包含确定该设备可识别的语言单元的信号。

15、根据或是权利要求13或14的设备，其中转换器包含了一个三音节存储器(56)，上述三音节存储器具有一个基于三音节的存取部分和一个包含确定模型元素等效于三音节的中心元素的信号输出部分。

16、根据权利要求13、14或15中任何一个的设备，它被连接到通信系统(73)上。