CN102201235A

CN102201235A - 发音词典的构建方法和系统

Info

Publication number: CN102201235A
Application number: CN2011100725356A
Authority: CN
Inventors: 安东尼·伊扎特
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2010-03-26
Filing date: 2011-03-24
Publication date: 2011-09-28
Also published as: EP2378514A1; US20110238412A1; JP2011209704A

Abstract

本发明的实施方式公开了通过将未匹配条目变换成匹配条目来构建发音词典的系统和方法。未匹配条目和匹配条目包括单词集和与所述单词集相对应的发音集。该方法通过以下步骤将匹配条目中的各单词与发音子集匹配：确定各单词的发音预测，使得在所述单词和所述发音预测之间存在一一对应关系；将各发音预测映射到所述发音子集，以产生与所述发音子集匹配的各发音预测的预测-发音映射；以及使用所述单词和所述发音预测之间的一一对应关系，基于所述预测-发音映射来确定所述匹配条目。

Description

发音词典的构建方法和系统

技术领域

本发明总体涉及自动语音识别(ASR：Automatic Speech Recognition)，更具体地，涉及构建用于ASR的发音词典。

背景技术

信息检索(IR：Information Retrieval)系统通常包括诸如地理兴趣点(POI)或音乐专辑名称的项目的大列表。响应于由用户提供的查询，IR系统检索与查询最匹配的结果列表。可以根据多个因素对结果列表进行等级排序。项目输入列表、查询结果列表通常通过文本以单词的形式表示。

口语查询用于用户无法使用键盘作为用户接口的一部分的环境中，例如，当驾驶或操作机器时，或者用户身体上受到伤害。在该情况下，用户接口包括麦克风，并且自动语音识别器(ASR)用于将语音转换成单词。

ASR使用两个基础数据结构：单词的发音词典和单词的语言模型。通常，IR系统按照发音将单词表示为音素，例如，RESTAURANT被表示为“R EH S T R AAN T”。音素指的是具体语言中声音的基本单位。音素可以包括重音符号、音节边界和表示如何对单词进行发音的其他标音。

发音词典针对ASR系统词表中的各单词来限定用于该单词的一个或可能多个发音。要由IR系统检索的各个项目具有相应的发音。经常，使用单词数据库，来提供用于这些项目的发音。但是，在大多数情况下，发音词典是与图1中所示的类似的未匹配(unaligned)输入文件的形式。

输入文件包括一组条目110，其中各条目包括具有相应发音120的单词集115。但是，单词未与相应发音匹配。

常规方法通过以出现的顺序次序将各单词映射到各发音来执行匹配。对于图1中所示的示例，该方法将单词“HERITAGE”映射到发音“hE|rI|tIdZ”，将单词“ELEMENTARY”映射到发音“E|l@|mEn|t@|ri”，以及将单词“SCHOOL”映射到发音“skul.”。但是，该方法在一些诸如下面的重要情况中是失效的。

发音比单词多：在图1中的第二行，发音“bi”和“dZiz”必须映射到第一个单词“BG’S”。

单词比发音多：在第三行中，单词“CARRER”没有相应的发音并且应当使其保持不被映射。

错误条目：在第四行中，发音中的音节“bAr|b@|kju”已经被错误地合成为一个单词，而不是被留作三个单独的发音，以映射到单词“BAR B QUE”。

因此，需要提供用于将单词与发音匹配的方法，并且需要制作适用于输入到语音识别器的发音词典。

发明内容

主题发明的目的是提供了一种用于将单词匹配到发音，以制作发音词典的方法。

本发明的另一个目的是提供自动匹配单词的方法。

本发明的另一个目的是制作适用于输入到自动语音识别器的最终发音词典。

本发明的实施方式基于这样的认识：单词的拼写表示与相应的发音形式明显不同，这导致了映射错误。因此，实施方式不是直接将单词映射到发音而是确定各单词的发音预测，使得在单词和发音预测之间存在一一对应关系，并且接着，将发音预测映射到发音。实施方式利用另一个认识：两个语音形式之间的映射比拼写形式和语音形式之间的映射更精确。

一种实施方式公开了一种通过将未匹配条目变换成匹配条目来构建发音词典的方法，其中，所述未匹配条目和所述匹配条目包括单词集和与所述单词集相对应的发音集，并且其中，所述匹配条目中的各单词与所述发音集中的发音子集匹配，该方法包括以下步骤：确定所述单词集中的各单词的发音预测，使得在所述单词和所述发音预测之间存在一一对应关系；将各发音预测映射到所述发音子集，以产生与所述发音子集匹配的各发音预测的预测-发音映射；以及使用所述单词和所述发音预测之间的一一对应关系，基于所述预测-发音映射来确定所述匹配条目。

另一个实施方式公开了一种根据未匹配条目集来构建发音词典的方法，其中，未匹配条目包括单词集和与所述单词集相对应的发音集，该方法包括以下步骤：将各未匹配条目迭代地变换成匹配条目，其中，所述匹配条目中的各单词与所述发音集中的发音子集相匹配；将各匹配条目存储在内部词典中；以及输出所述内部词典作为所述发音词典，其中，所述方法的步骤由处理器来执行。

另一个实施方式公开了一种通过将未匹配条目变换成匹配条目来构建发音词典的系统，其中，所述未匹配条目和所述匹配条目包括单词集和与所述单词集相对应的发音集，并且其中，所述匹配条目中的各单词与所述发音集的发音子集匹配，该系统包括：发音预测子模块，该发音预测子模块用于确定所述单词集中的各单词的发音预测，使得在所述单词和所述发音预测之间存在一一对应关系；动态编程子模块，该动态编程子模块用于将各发音预测映射到所述发音子集，以产生各发音预测与所述发音子集匹配的预测-发音映射；以及处理器，该处理器被构成为使用所述单词和所述发音预测之间的一一对应关系，基于所述预测-发音映射来确定所述匹配条目。

附图说明

图1是包括未匹配条目的常规输入文件的框图；

图2是根据本发明的实施方式的用于将未匹配条目变换成匹配条目的方法的流程图；

图3是与图1中所示的未匹配条目相对应的匹配条目的表；

图4是根据本发明的一个实施方式的用于确定发音词典的方法的流程图；

图5是根据本发明的一个实施方式的变换模块的流程图；

图6A-6B是未匹配条目的表；

图7A-7B是单词的发音预测的表；

图8A-8B是发音和音节的表；

图9A-9B是片语(chunk)和语符列(string)组织的示例的框图；

图10是根据本发明的实施方式的示例性动态编程产生的匹配路径的图；

图11是根据本发明的实施方式的A-字母-B-片语映射表；

图12是根据本发明的实施方式的分解A-字母-B-片语映射的流程图；

图13A-13B是单词和匹配音节的表；

图14A-14B是未删节词典和已删节词典的示例；以及

图15是根据本发明的一个实施方式的用于确定匹配路径的伪代码。

具体实施方式

系统概述

本发明的实施方式基于这样的认识：单词的拼写表示与相应的发音形式明显不同，这导致了将单词映射到发音时的错误。因此，在实施方式中，不是直接将单词映射到发音，而是针对各单词确定发音预测，使得在单词和发音预测之间存在一一对应关系，并且接着，将发音预测映射到发音。实施方式利用了另一个认识：两个语音形式之间的映射比拼写形式和语音形式之间的映射更精确。

图2示出了根据本发明的实施方式的用于将未匹配条目210变换成匹配条目220的方法。使用现有技术中已知的处理器201通过变换模块200来执行该方法。未匹配条目包括单词集212和与该单词集相对应216的发音集214。但是，未匹配条目中的单词和发音不匹配。如文中所限定的，如果该单词集中的各单词映射到该发音集中的发音子集，则该单词集被匹配到该发音集。在多个实施方式中，发音子集包括零个或更多个发音。

图3示出了与图1中所示的未匹配条目的示例相对应的匹配条目220的示例。左手列301中的单词与来自右手列302的发音匹配。在本发明的多个实施方式中，未匹配条目包括相同或不同数目的单词和发音。

根据上述目的，针对该单词集中的各单词，确定230发音预测235，使得在单词和发音预测之间存在一一对应关系。将各发音预测映射240到发音子集，制作使各发音预测与发音子集匹配的预测-发音映射245。基于一一对应关系255，根据发音预测-发音映射确定250匹配条目，使得匹配条目中的单词被匹配225到发音。匹配条目中的单词与未匹配条目中的单词相同。但是，匹配条目中的发音可以与未匹配条目中的发音不同。在多个实施方式中，如下面更详细地所述，发音被分成更小成分(如，音节)，由此被重新排列。

确定发音词典

图4示出了根据本发明的一个实施方式的用于构建发音词典470的方法400。该方法在存储器(未示出)中存储的一组未匹配条目410的范围内迭代。各未匹配条目210由变换模块200变换成匹配条目220。匹配条目在迭代460过程中被添加430到由该方法维持的内部词典435。当440所有未匹配条目被变换445时，输出内部词典，作为发音词典470。在一个实施方式中，在输出之前，删节模块450对内部词典进行删节，使得去除具有低准确度的单词发音映射。

图5示出了变换模块的示例。在一个实施方式中，变换模块包括发音预测子模块510、音节划分子模块520、动态编程(DP)子模块530和编辑距离(ED)子模块540。用下面的示例例示出变换模块的操作。

图6B示出了未匹配条目的示例。未匹配条目中的单词是“New York NY Exspresso”，并且相应的发音是“nujOrk nujOrk Ek|sprE|so”。在该示例中，发音数目大于单词数目。

图6A示出了以符号写出的如图6B中的示例，其中，发音P_i被表示为音节S_jS_k的联结。变量i是发音在该发音集中的索引，并且变量j和k是发音音节的索引。

发音预测子模块

发音预测子模块针对未匹配条目中的各单词进行发音预测。在多个实施方式中，从多个源中的至少一个源导出发音预测。第一源是内部词典435。发音预测子模块确定该单词的单词发音映射是否存在于内部词典中，并且选择频率最高的单词发音作为该单词的发音预测。为此，一个实施方式包括频率计数c(w，p)，频率计数表示单词发音映射到目前为止已经出现的次数。如果发音被选择为发音预测，则该单词发音映射的频率计数增加例如，1。

附加地或者另选地，一个实施方式使用字素-音素(G2P)引擎550来确定单词的发音预测。当很少出现该单词时，和/或在变换200开始时，该实施方式是有益的。例如，一个实施方式使用推导G2P引擎550，其是在RWTH Aachen University-Department of Computer Science开发的数据驱动字素-音素转换器，参见M.Bisani和H.Ney.“Joint-Sequence Models for Grapheme-to-Phoneme Conversion，”Speech Communication，第50卷，2008年5月5日发表，第434-451页，此处以引证方式并入。

附加地或另选地，一个实施方式使用单词的拼写形式作为该单词的发音预测。图7A和7B示出了发音预测的示例。

音节划分子模块

音节划分子模块520将未匹配条目中的发音组织为单个音节。音节划分说明了错误条目的问题，即，发音音节被错误地合并成一个单词。将发音组织成音节使得能够重新匹配发音，以校正该问题。

在一个实施方式中，发音是由联结符号(如，“|”)分开的联结音节，并且音节划分子模块用空格替换联结符号。附加地或另选地，单独的音节划分产品用于音节划分。例如，一个实施方式使用由国家标准与技术研究院(NIST：National Institute of Standards and Technology)开发的音节划分工具。图8A和8B示出了音节划分的示例。

动态编程子模块

仅作为术语，各发音的音节被称为A-片语。类似地，发音预测被称为B-片语。A-片语和B-片语的联结被分别称为由A-字母形成的A-语符列和由B-字母形成的B-语符列。图9A示出了A-片语910和B-片语920的示例。图9B示出了A-语符列930和B-语符列940的示例。

动态编程子模块确定具有A-语符列中字母和B-语符列中字母之间的最小编辑距离的匹配路径。两个语符列之间的该编辑距离(还被称为Levenshtein(来文史)距离)被定义为利用每次对单个符号进行插入、删除或替换的允许的编辑操作将第一语符列变换成第二语符列所需的编辑操作的最小数目。

通过由动态编程子模块采用的动态编程来确定编辑距离。如果符号序列的长度分别是n和m，则动态编程涉及确定条目的矩阵尺寸n×m。动态编程子模块基于最小的插入、删除和替换成本，以递归的方式确定矩阵中的各元素。确定矩阵中的所有元素之后，矩阵中的最右下元素是两个语符列之间的编辑距离。在多个实施方式中，插入、删除和替换的成本是相同的或不同的。

图10示出了具有A-语符列930和B-语符列940之间的最小编辑距离的匹配路径。由星号1010来标记匹配路径。为了确定匹配路径，动态编程子模块保持使矩阵中各点的匹配成本最小化的元素的轨迹，即，代表插入、删除或替换成本的元素。例如，一个实施方式确定两个矩阵，即，表示成本的成本矩阵，和表示使成本最小化的元素的索引的索引矩阵。

确定矩阵的所有元素之后，顺着元素的索引，回溯从索引矩阵中的最右下元素开始的路径，以识别语符列之间的匹配路径。星号1010是沿着匹配路径的点。

当索引矩阵中的元素代表删除时，两个星号1015并排水平放置在匹配路径上。参照图10，这两个星号表示语符列930中的元素j和j+1这两者被映射到语符列940中的元素i，即，根据语符列之间的映射删除元素j。

当索引矩阵中的元素表示插入时，两个星号1025并排垂直放置在匹配路径上。这两个星号表示语符列930中的元素j被映射到语符列940中的元素i和i+1，即，在语符列之间的映射中元素j被插入两次。

当索引矩阵中的元素表示替换时，两个星号1035并排对角放置在匹配路径上。这两个星号表示语符列930中的元素j被映射到语符列940中的元素i，并且元素j+1被映射到元素i+1。图15示出了根据本发明的一个实施方式的用于确定匹配路径的伪代码。

编辑距离子模块

编辑距离子模块在B-片语和A-片语中产生一对一映射。基于由动态编程子模块提供的匹配路径来产生映射。初始地，生成A-字母-B-片语映射，其针对各A-语序列字母或B-语序列字母识别该字母属于的相应A-片语或B-片语。例如，如在图10中所示，A-字母/N/映射到B-片语1，A-字母/u/映射到B-片语1，A-字母/j/映射到B-片语2，等。但是，在某些情况下，动态编程将一个A-字母映射到多个B-片语。例如，A-字母/k/被映射到B-片语2和B-片语3。

基于A-字母到B-片语映射，确定A-片语-B-片语映射，如图11所示。如下确定A-片语-B-片语映射：如果一个A-片语中的所有字母都被映射到一个B-片语，则A-片语被映射到相应B-片语。例如，A-片语1被映射到B-片语1。如果A-片语中的字母映射到多个B-片语，则A-片语映射到多个B-片语。例如，A-片语2被映射到B-片语2且被映射到B-片语3。

如果A-字母到B-片语映射是一对一片语映射，即，各A-片语映射到多于一个B-片语，则形成预测-发音映射245，并且基于该映射确定匹配条目。但是，如果至少一个A-片语映射到多个B-片语，即，一对多片语映射，如图11，则A-字母-B-片语映射需要被分解为一对一片语映射。

一个实施方式通过确定由一对多片语映射允许的A-片语-B-片语映射的一对一片语映射的笛卡尔积、计算各一对一片语映射的累计编辑距离、以及选择具有最小累计编辑距离的一对一片语映射，来分解A-字母-B-片语映射。

图12示出了用于分解A-字母-B-片语映射的方法，其中，A-字母-B-片语映射是一对多片语映射。对于各一对一片语映射1210-1240，确定映射后的A-片语和B-片语之间的编辑距离并且进行加和，以产生累计编辑距离1215-1245。具有最小1250值的累计编辑分数1260确定了分解后的A-片语-B-片语映射。在该示例中，因为映射1210具有最低累计编辑分数，即，7，因此映射1210被选择为分解后的映射。

图13A-13B示出了由变换模块输出的匹配条目的示例。变换模块具有与发音“nu”匹配的单词“New”，与发音“jOrk”匹配的单词“York”，与发音“nu|jOrk”匹配的单词“NY”，与发音“Ek|sprE|so”匹配的单词“Exspresso”。

删节模块

删节模块450对内部词典进行删节，使得去除具有低精确度的单词-发音映射。一个实施方式基于上述频率计数c(w，p)来删节单词-发音映射。通过根据下式除以为具有所有其他发音q的单词w而确定的所有频率计数和，各频率计数c(w，p)被转换成单词w映射到发音p的概率P(w，p)

P (w, p) = \frac{c (w, p)}{\underset{q}{Σ} c (w, q)} .

从内部词典(因此，从发音词典)去除概率P在特定阈值之下的单词-发音映射。图14A-14B示出了删节的示例。

尽管以优选实施方式的示例的方式已经描述了本发明，但是应理解的是，可以在本发明的精神和范围之内做出多种其他改写和修改。因此，所附权利要求书旨在覆盖所有落入本发明的真实精神和范围之内的变型和修改。

Claims

1.一种通过将未匹配条目变换成匹配条目来构建发音词典的方法，其中，所述未匹配条目和所述匹配条目包括单词集和与所述单词集相对应的发音集，并且其中，所述匹配条目中的各单词与所述发音集中的发音子集匹配，该方法包括以下步骤：

确定所述单词集中的各单词的发音预测，使得在所述单词和所述发音预测之间存在一一对应关系；

将各发音预测映射到所述发音子集，以产生各发音预测与所述发音子集相匹配的预测-发音映射；以及

使用所述单词和所述发音预测之间的一一对应关系，基于所述预测-发音映射来确定所述匹配条目，其中，该方法的步骤由处理器执行。

2.根据权利要求1所述的方法，其中，所述发音和预测被表示为音节的联结，所述方法还包括以下步骤：

联结所述发音集中的发音的音节形成A-语符列，其中，发音的所述音节形成A-片语；

联结所述发音预测的音节形成B-语符列，其中，所述发音预测的所述音节形成B-片语；

确定所述A-语符列中字母和所述B-语符列中字母之间的匹配路径；

基于所述匹配路径来确定A-片语-B-片语映射；以及

基于所述A-片语-B-片语映射来确定所述预测-发音映射。

3.根据权利要求2所述的方法，其中，所述A-片语-B-片语映射是一对一片语映射。

4.根据权利要求2所述的方法，其中，所述A-片语-B-片语映射是一对多片语映射，该方法还包括以下步骤：

将所述A-片语-B-片语映射分解成一对一片语映射。

5.根据权利要求4所述的方法，其中，所述分解步骤还包括以下步骤：

确定所述一对多片语映射所允许的A-片语-B-片语映射的一对一片语映射的笛卡尔积；

计算各一对一片语映射的累计编辑距离；以及

选择具有最小累计编辑距离的所述一对一片语映射。

6.根据权利要求5所述的方法，所述方法还包括以下步骤：

确定各一对一片语映射中的各映射的编辑距离，以产生各一对一片语映射的编辑距离；以及

通过将各一对一片语映射的所述编辑距离进行相加，来确定所述累计编辑距离。

7.根据权利要求1所述的方法，该方法还包括以下步骤：

从内部词典中选择所述发音预测。

8.根据权利要求1所述的方法，该方法还包括以下步骤：

使用字素-音素转换器来确定所述发音预测。

9.根据权利要求1所述的方法，该方法还包括以下步骤：

选择所述单词的拼写形式作为该单词的所述发音预测。

10.根据权利要求2所述的方法，该方法还包括以下步骤：

确定表示所述A-语符列中的字母和所述B-语符列中的字母之间的插入、删除和替换成本的成本矩阵；

确定表示使所述成本最小化的元素的索引的索引矩阵；以及

基于所述索引矩阵来确定所述匹配路径。

11.根据权利要求10所述的方法，其中，所述匹配路径是从所述索引矩阵中的最右下元素开始并且顺着使所述成本最小化的元素的索引而回溯的路径。

12.根据权利要求11所述的方法，其中，所述索引矩阵中的元素表示所述删除的成本，该方法还包括以下步骤：

将两个星号水平并排放置在所述匹配路径上。

13.根据权利要求11所述的方法，其中，所述索引矩阵中的元素表示所述插入的成本，该方法还包括以下步骤：

将两个星号竖直并排放置在所述匹配路径上。

14.根据权利要求11所述的方法，其中，所述索引矩阵中的元素表示所述替换的成本，该方法还包括以下步骤：

将两个星号对角地并排放置在所述匹配路径上。

15.根据权利要求1所述的方法，其中，所述匹配条目包括单词-发音映射集，该方法还包括以下步骤：

去除概率在阈值之下的单词-发音映射。

16.根据权利要求15所述的方法，该方法还包括以下步骤：

确定所述单词集中的各单词的频率计数c(w，p)，其中，所述频率计数表示单词w和发音p之间的映射次数；

基于所述频率计数c(w，p)和具有发音q的单词的频率计数，根据下式来确定所述单词w和所述发音p之间的单词-发音映射的概率P(w，p)：

P (w, p) = \frac{c (w, p)}{\underset{q}{Σ} c (w, q)} .

17.一种用于根据未匹配条目集来构建发音词典的方法，其中，未匹配条目包括单词集和与所述单词集相对应的发音集，该方法包括以下步骤：

将各未匹配条目迭代地变换成匹配条目，其中，所述匹配条目中的各单词与所述发音集中的发音子集匹配；

将各匹配条目存储在内部词典中；以及

输出所述内部词典作为所述发音词典，其中，该方法的步骤由处理器执行。

18.根据权利要求17所述的方法，其中，所述变换还包括以下步骤：

使用所述单词和所述发音预测之间的一一对应关系，基于所述预测-发音映射来确定所述匹配条目。

19.根据权利要求17所述的方法，其中，所述匹配条目包括单词-发音映射集，该方法还包括以下步骤：

去除概率在阈值之下的单词-发音映射。

20.一种用于通过将未匹配条目变换成匹配条目来构建发音词典的系统，其中，所述未匹配条目和所述匹配条目包括单词集和与所述单词集相对应的发音集，并且其中，所述匹配条目中的各单词与所述发音集中的发音子集匹配，该系统包括：

发音预测子模块，该发音预测子模块用于确定所述单词集中的各单词的发音预测，使得在所述单词和所述发音预测之间存在一一对应关系；

动态编程子模块，该动态编程子模块用于将各发音预测映射到所述发音子集，以产生各发音预测与所述发音子集匹配的预测-发音映射；以及

处理器，该处理器被构成为使用所述单词和所述发音预测之间的一一对应关系，基于所述预测-发音映射来确定所述匹配条目。