CN110870004A

CN110870004A - 基于音节的自动语音识别

Info

Publication number: CN110870004A
Application number: CN201880046009.2A
Authority: CN
Inventors: 达雷尔·T·平森; 马克·B·平森
Original assignee: Vaux Border
Current assignee: SCTI Holdings Inc
Priority date: 2017-07-10
Filing date: 2018-07-10
Publication date: 2020-03-06
Anticipated expiration: 2038-07-10
Also published as: JP2020527253A; KR20200026295A; JP7295839B2; EP3652732A4; US20210193117A1; EP3652732A1; EP3652732B1; CN110870004B; US10916235B2; US20190013009A1; WO2019014183A1; EP3652732C0

Abstract

描述了系统、方法和计算机程序，其利用音节的结构作为自动语音识别处理的组织元素以克服发音的变化，有效地解决易混淆的方面，利用上下文，并且将语音映射到拼字法。

Description

基于音节的自动语音识别

技术领域

本公开的一个技术领域是计算机实现的与讲话者无关的自动语音识别。另一个技术领域是将代表语音的符号从所记录的音频信号自动转换为可连续显示的文本，例如用于视听节目的图形文本字幕。本公开通常涉及将口头词语转换为文本或其他符号表示，包括语音的自动转录。

背景技术

本节所述的方法是可以采用的方法，但不一定是先前设想或采用的方法。因此，除非另有指示，否则不应认为本节所述的任何方法仅仅由于其包含在本节中而被视为现有技术。

在自动语音识别(ASR)的一些应用中，例如自动生成和显示与电视直播期间说出的语音相对应的文本字幕，需要较高的词语准确度，从说出词语的时间开始直到对应的转录文本可用之前，很少或没有延迟，以及即使说出的词语不是预定义词汇表的一部分也能产生良好结果的能力。此外，还需要这样的ASR系统，具有更高的计算效率、更低的能耗、并且其甚至在与云断开连接的情况下，也可以在分布式计算设备上完全发挥功能。

发明内容

本公开的目的是将表示声音的符号的输入流转换为对应的转录拼字法模式(transcribed orthographic pattern)的输出流，所述声音是由扬声器产生的并且通过分析声学特性自动分配给符号形式。另一个目的是，甚至在产生的声音明显不同于规范发音时频繁发生的情况下，也产生预期词语的准确转录。进一步的目的是，甚至在系统训练期间使用参考词典中没有的词语，也产生合理的转录，换句话说，用于缓解“词汇量不足”的问题。进一步的目的是，最小化语音产生和对应的转录拼字法模式生成之间的延迟(“延时”)。进一步的目的是，以低计算复杂度完成上述目标。音节是语音的基本时间结构单元。本公开的若干方面围绕音节及其内部结构组织处理步骤，以分段、对齐、同步、映射和建模来实现所述目标。

附图说明

在附图中：

图1描绘了包含起始(onset)、核心(nucleus)和尾音(coda)的音节结构。

图2描绘了IPA符号与Klattese之间的映射图。

图3描绘了多音节词语的结构。

图4描绘了各种流的关系。

图5A描绘了示例训练参照材料。

图5B描绘了示例训练参照材料。

图6是描绘从发音词典学习音系模式(phonotactic pattern)的示例方法的流程图。

图7是描绘学习从产生模式(production pattern)到规范模式(canonicalpattern)的映射的示例方法的流程图。

图8是描绘学习从候选音节到拼字法模式的映射的示例方法的流程图。

图9是描绘从产生流中提取IVC模式和VN模式的示例方法的流程图。

图10是描绘从规范模式集生成候选音节集的示例方法的流程图。

图11描绘了一致性约束的应用图。

图12描绘了产生模式到规范IVC(包括使用一致性约束的减少)的概率的示例。

图13是描绘将候选音节映射到拼字法模式的示例方法的流程图。

图14是描绘应用位置约束和统计模型来选择输出拼字法模式的示例方法的流程图。

图15描绘了拼字法候选者的混淆网络。

图16描绘了使用音节结构来执行自动语音识别的示例方法。

图17是示出可在其上实现实施例的计算机系统的框图。

具体实施方式

在下面的描述中，为了说明的目的，阐述了许多具体细节，以便提供对本公开的透彻理解。然而，显而易见的是，实施例可以在没有这些具体细节的情况下被实施。在其他实例中，众所周知的结构和设备以框图形式示出，以避免不必要地使本公开难以理解。根据以下概要，在各章节中公开了实施例：

1.总体概述

2.示例语言处理系统的概述

3.音节结构概述

4.操作阶段

4.1训练阶段

4.1.1从发音词典中学习音系模式

4.1.2学习从产生模式到规范模式的映射

4.1.3学习规范音节和拼字法模式之间的关系

4.1.4学习音节发音空间中的N-GRAM模型

4.1.5学习音节拼字法空间中的N-GRAM模型

4.1.6学习阈值以及覆写(override)

4.2识别阶段

5.实现示例

6.某些实施例的优点

7.硬件概述

*

1.总体概述

在实施例中，一种方法使用音节和反映语音规则和约束的某些其他音节大小的语音单元，来将表示口头电话和其他非语音符号的输入流(产生流)的符号转换为规范发音流(规范流)，并且然后将规范流转换为拼字法文本的输出(拼字法流)。

该方法包括训练阶段和识别阶段。训练阶段包括利用一组训练材料(包括特殊结构的发音词典和转录的词语和句子语料库)从三个流(产生流、规范流和拼字法流)中提取某种语言的音系单元或模式的准封闭集合，包括音节及其成分、元音-辅音(IVC)音位序列、元音邻域(VN)音位序列和音节大小的拼字法单元。这些单元或模式的每个集合都受到管理音位、音节和词语排序及分割的规则的约束。然后，该过程将从产生流中提取的每个单元与所有允许的规范单元关联或映射，并确定每个产生-规范关联的条件概率。再次利用训练材料，该过程将规范单元或模式与允许的拼字法模式关联或映射，并将条件概率分配给每个规范拼字法组合。此外，训练材料还被用于针对音节发音和拼字法两者生成n-gram模型。最后，训练学习并丢弃了允许但概率很低的音节，并生成扩展的上下文工具来纠正前面步骤没有产生令人满意结果的情况。

识别阶段包括使用语言单元集和在训练阶段中学习的三个映射流的条件概率。从输入的声学符号流中提取产生IVC和产生VN以创建产生IVC和VN流或队列。该流映射到具有学习的条件概率的规范IVC和VN模式集合，以创建规范IVC和VN流或队列。规范IVC和VN流清除了与允许的IVC和VN学习集合不一致的IVC和VN模式，并且条件概率被重新归一化。然后将规范流分割为一组候选音节尾音-起始序列，从其中生成候选音节流。不允许的音节(不在音节表中的那些)被消除，并且从IVC、VN、尾音和起始的学习概率中为允许的候选生成归一化条件概率。然后将候选IVC模式映射到学习的关联拼字法模式集合。消除与学习的音节位置约束不一致的模式，并使所得到的允许拼字法模式流服从于滑动n-gram上下文模型以生成路径概率。最可能的拼字法模式被发出，除非其被标识为已学习的扩展上下文覆写集合的成员，在这种情况下，将发出覆写。

2.示例语言处理系统的概述

图5A描绘了用于将表示语音和非语音声音的符号流转换为拼字法模式的输出流的训练映射的示例系统。

计算系统500可以使用服务器级计算机或具有一个或多个处理器核心、协处理器或其它计算机的其它计算机来实现。计算系统500可以是存储在数据中心中的物理服务器计算机和/或虚拟服务器实例，例如通过云计算。另外地或替代地，计算系统500可以是智能电话、个人计算机、平板计算设备、PDA、膝上型电脑或能够发送和接收信息并执行本文所述功能的任何其他计算设备。

图5A将单个计算系统500描绘为不同元素以说明清楚示例。然而，在其他实施例中，可以使用更多的计算系统来完成本文描述的功能。例如，第一计算系统可以使用训练材料502生成音系单元的提取、映射和集合，并将映射512发送到第二计算系统。第二计算系统可以使用映射512从符号流生成拼字法模式。另外或替代地，可以使用多个计算系统。

计算系统500包括训练材料502。训练材料502包括用于生成提取和映射512的数据。在图5A的实施例中，训练材料502包括发音词典504、并行转录语音声音语料库506和运行词语语料库508。在其他实施例中，可以使用更多或更少的训练材料来生成提取和映射512。

发音词典504包括特定语言的词语的音节化标准发音和对应的拼字法模式。虽然本公开中使用英语作为示例，但本文所述的方法可以与任何语言一起使用。

并行转录语音声音语料库506包括特定语言中不同语音流的对齐的产生和规范发音。

运行词语语料库508包括以特定语言转录的口头或书面短语或句子的拼接。

所有这三种工具都可以由专有材料或商业可用的语料库或其组合组成。

训练指令510可以包括计算系统中的主存储器(例如RAM)的一个或多个页面的集合，可执行指令已被加载到该计算系统中，并且在指令被执行时使得计算系统执行本文参照这些模块描述的功能或操作。例如，训练指令可以包括RAM中的页面集合，其包含指令，指令在被执行时使得识别产生发音模式的每个实例并将该模式映射到一个或多个规范发音模式。

指令可以在CPU、GPU、PHi或其他处理芯片的指令集中的机器可执行代码中，并且可以基于JAVA、C、C++、OBJECTIVE-C或任何其他人类可读编程语言或环境编写的源代码单独地编译或与JAVASCRIPT中的脚本(其他脚本语言以及其他编程源文本)组合地进行编译。术语“页面”广泛意义上意指主存储器中的任何区域，并且系统中使用的特定术语可以根据存储器架构或处理器架构而变化。在另一实施例中，训练指令510还可以表示源代码的一个或多个文件或项目，这些文件或项目被数字地存储在诸如非易失性RAM或磁盘储存器之类的大容量存储设备中(图5A的系统或单独的存储库系统中)，其在编译或解释时生成可执行指令，当指令被执行时使计算机执行本文参照这些指令描述的功能或操作。换言之，附图可以表示程序员或软件开发人员组织和安排源代码以供以后编译为可执行文件或解释为字节码或等效代码以供计算机执行的方式。

在实施例中，计算系统500使用训练指令510来生成各种语言处理值512。这些包括从发音词典中学习的音系数据集，包括音节(音节表)、音节起始、音节尾音、具有相关联条件概率的IVC模式和VN模式的综合集合中的一项或多项。它们还包括产生IVC和VN模式到规范IVC和VN模式516的映射，第4.1.2节，以及规范音节到拼字法映射518。它们还包括学习音节发音的n-gram模型520和音节拼字法的n-gram模型522。它们还包括学习音节概率阈值和上下文覆写524，如第4.1.6节所述。

计算系统500可以进一步被编程或配置为使用映射来从传入的产生模式生成拼字法模式。另外地或替代地，计算系统500可以被编程或配置为通过网络将映射发送到不同的计算设备。网络广泛地代表一个或多个数据通信网络的任何组合，包括使用任何有线或无线链路(包括地面或卫星链路)的局域网、广域网、内联网或互联网。(一个或多个)网络可以由提供计算系统500和第二计算系统之间的数据交换的任何介质或机制来实现。计算系统500和第二计算系统也可以具有直接(有线或无线)通信链路。计算系统500可以被编程或配置为使用归一化协议来跨诸如TCP/IP、蓝牙和更高层协议(例如HTTP、TLS)等网络进行通信。

3.音节结构概述

语音是通过改变发音器的结构(如下巴、舌头、嘴唇等)来产生的。辅音是通过在声道的某个地方形成一个收缩而产生的，而元音则是通过一个更开放的结构产生的。收缩和开放之间的交替引起语音信号的调制模式，这种调制模式与某些其他声学和音系线索一起，导致对音节的感知分割。音节是语音的基本时间结构单元。只要稍加训练，孩子们就可以数出话语中的音节数，即使是不熟悉的词语，包括“无意义”的词语(例如“napkipity”)。音节“节拍”赋予语音以其特有的节奏，并允许感知过程集中于每个节拍中可混淆的替代物。感知效率进一步提高，因为音节的内部结构(即音系)局部地限制了语言中可接受的音位序列。

音系约束还限制了音节之间潜在的分割点。由于词语边界是音节边界的子集，因此对音节分割的约束也会约束词语分割。音节在许多其他方面有助于语音感知。例如，音节是词汇重音的载体，同时也带有音高模式和时间延伸线索，用来识别语句中的问题、检测短语边界等。

本公开的若干方面利用了音节的结构。图1显示了单音节词语“strengths”的结构。如图1所示，音节包括三个部分：“起始”103、“核心”104和“尾音”105。起始103是在核心之前的零个或多个辅音序列。核心104是像单元音的声音。尾音105是核心之后的零个或多个辅音序列。在图1中，并且在整个本公开中，发音102用“Klattese”表示。

从IPA符号到Klattese的映射如图2所示。这种表示法是为了方便和计算简单而使用的。如果能够根据这些符号模式来定义控制音节的音系规则，则可以使用发音的任何其他符号表示，例如发音特征模式或听觉特征模式。如图2可见，音位符号可被分类为辅音200或核心201。

每一种语言都有一组音系规则，这些规则限制了符号序列，这些符号序列可能出现在开头、尾音或整个音节中。例如，在英语中，/str/可以接受作为起始，但不能作为尾音。同样，/GkTs/可以接受作为尾音，但不能作为起始。在多音节词语和一系列口语词语中，一个音节的尾音后面跟着下一个音节的起始。图3用双音节词语“action”来说明这一点。我们将尾音起始序列中的符号模式称为IVC 301模式。IVC模式中的音节边界只能出现在IVC模式的分开导致有效的尾音模式和有效的起始模式的情况下。

参照图3，IVC模式301/kS/可能被分割/-kS/、/k-S/或/kS-/。然而，由于/kS/不是一个有效的尾音，也不是一个有效的起始，所以唯一有效的分割是/k-S/。对于一些IVC模式，有不止一个有效的分割为一个尾音-起始序列。在这样的情况下，当音节词典发音时，实施例包括使用分割IVC的“最大起始原则”(MOP)，以便选择最长的有效起始概率。例如，词语“modal”可以被分割成mo-dal或mod-al。MOP需要前一个分割。可以使用任何其他一致的方法，例如“最大尾音原理”(MCP)。无论使用什么方法，结果都是一组不同长度的IVC。此外，起始和尾音的复杂性在语言之间有所不同。因此，IVC的最大数量和IVCS中的辅音的数量也将根据语言和相关词典包含多种语言中的词语的程度而变化。

VN 302模式，包括音节核心之前的音位、核心和核心之后的音位。对于具有空的起始和/或尾音的音节，VN中的第一个和/或最后一个符号可以指语音中断或来自相邻音节的语音。

利用音节结构提供了一些优点。音节及其内部结构对可接受的声音模式提供了局部确定性约束(例如，IVC模式必须包含有效的尾音-起始序列，话语中的第一IVC必须是有效的起始，等等)。与这些约束不一致的假设模式可以从进一步的处理中被简单地消除，进一步的处理在识别时大大减少了所需的计算次数并增加了有效模式的概率。

可接受的尾音和起始模式集显著地限制了可行的音节分割点。这允许竞争的假设音节来形成时间对齐的集合。正常的语速每秒生成少于8个音节，使得与每个音节“节拍”的到达同步的处理步骤也能以较低的速率应用。当从足够大、准备妥当的发音词典中学习时，起始、尾音、音节、IVC模式和VN模式形成准封闭集合。语言的音系规则很少改变。因此，当基于音节相关单元时词汇表不足问题大大减少。许多发音变型是发生在靠近词边缘的IVC模式或音节中心部分的VN模式中的系统性变化。通过学习系统的变化，候选规范形式可以从修改后的产生形式恢复。

每个音节的发音都与一个或多个拼字法模式相关。如图1所示，拼字法模式“strengths”100与音节的发音/str'EGkTs/102相关联。一些音节(例如/str'EGkTs/)只有一个相关联的拼字法模式。其他音节具有多种相关联的拼字法模式。例如，/D'Er/与拼字法模式“there”、“they”和“they're”相关联。给定音节的相关联的拼字法模式常常受到音节在词语中的位置的影响。例如，/D'Er/作为“they're”的拼字法映射仅在/D'Er/表示单音节词语时发生，而“there”的拼字法映射可能对于单音节词语是正确的，或作为多音节词语的第一个音节，例如“therefore”。

为了捕获音节位置对拼字法映射的影响，发音词典包括由音节位置确定的代码。观察到的关联对于单音节词语编码为“0”，对于多音节词语中的第一个音节编码为“1”，对于多音节词语中的后续音节编码为“2”。在图1中，“0”的位置码101指示“强度”与音节/str'EGkTs/的关联出现在单音节词语中。在图3中，“1”的位置码301指示拼字法模式“ac”与多音节词语的第一个音节中的音节/'@k/的关联，“2”的位置代码302指示拼字法模式“tion”与音节/Sxn/的关联发生在除多音节词语的第一音节。

使用音节时钟处理允许上下文建模和约束被应用于声学和拼字法视图中的相同单元，提供互补的消歧(disambiguation)。

4.操作阶段

本公开的实施例分为两个阶段——训练和识别。这两个阶段都在三个符号流(产生、规范和拼字法)的级联上操作。图4示出了流之间的关系。第一流是产生402流，它是训练和识别阶段的初始输入。产生流是讲话者产生的输入声音序列的符号表示，并通过声音信号的自动处理转换为符号形式。输入流被分割为产生IVC 403模式和VN 401模式。

在训练阶段学习的映射被用于识别阶段，以将每个产生IVC 403和VN 401模式转换为具有相关联条件概率的规范IVC 404和VN模式400的对应集合。这些规范IVC和VN模式进而映射到规范音节405，然后映射到拼字法流406。注意，在图4中，为了清楚起见，映射模式的集合由集合的单个成员表示。

4.1训练阶段

在训练阶段，系统学习起始、尾音、音节、IVC和VN的允许模式，以及产生流中每个模式与规范空间中一个或多个对应模式集的关联。此外，为每个规范音节学习相关联的拼字法模式的集合，并为每个这样的相关联的模式分配条件概率。基于音节发音和音节拼字法模式两者，还学习了基于音节单元的N-gram上下文模型。通过参照训练材料学习了允许模式的各种集合和n-gram模型。如图5A所示，训练材料包括发音词典504、并行转录语音声音流语料库506和大运行词语语料库508。如图5B所示，发音词典504是语音单元530的集合源，包括音节表532、VN集合534、IVC集合536、音节尾音集合538和音节起始集合540。发音词典504还应用于运行词语语料库508，以生成音节化拼字法词语语料库526和发音音节语料库528。

包括发音词典504的词语主体初始地从一个或多个公开的或专有的词语语料库获得。

在为美式英语中的每一个词语准备发音时，发音是要表示词语的“标准美式”发音，就像在单独的情况下仔细说的那样。除了规范发音之外，替代发音也可以包括在词典中，用于改变音节数(例如，/pr'abli/表示“probably”)和/或引入额外的尾音和/或起始(例如，/'@dmrxl/表示“admiral”介绍/mr/在英语中不是正常的起始)。除了包括经常出现的词语外，还特别努力包括所有单音节词语、作为有效的音系模式示例的词语(否则将无法表示)和引入新颖音节拼字法模式的词语。

一些词语有不止一个“正确”的拼写(例如“ameba”或“amoeba”)；然而，对于大多数应用来说，希望将拼写归一化。因此，对于词典中的每个词语，选择单个拼字法模式作为“标准”，其他所有词语都被视为“替代拼写”。对于需要大写的词语(例如专有名词和形容词)，标准拼写中包括大写。

在发音使用最大起始原则进行音节化之后，标准拼字法通过将拼字法序列分配到发音音节来进行音节化，使得分割保持与发音音节最接近的对应关系。在一些情况下，这与普通词典的拼字法音节不同。例如，“passion”/p'@-Sxn/被音节化为“pa-ssion”，而不是词典中常见的“pas-sion”。词语“mission”/m'I-Sxn/同样被音节化为“mi-ssion”而不是“mis-sion”。拼字法音节化的这种不寻常方法清楚地表明，音节/Sxn/与许多词语中的拼字法模式“ssion”相关联。

当词典条目是带连字符的复合词时，连字符符号可能成为复合词第一部分最后一个音节的拼字法的一部分。例如，在复合词“Anglo-American”中，音节/glo/与位置代码为“2”的拼写法模式“glo-”相关联。在连字符词语中，如果连字符后面只有1个音节，则连字符后面的音节的位置代码设置为“0”；如果连字符后面有多于1个音节，则设置为“1”。

应注意的是，词典可以包含一些外来词(例如“schmuck”)和非英语名称。因此，所学习的音系规则并不仅仅局限于那些为“纯”英语定义的规则。此外，虽然该系统是使用英语示例来描述的，但该方法可以应用于通过使用这些语言的参照词典来处理其他语言。

4.1.1从发音词典中学习音系模式

通过参照发音词典504学习起始、尾音、音节(即“音节表”)、IVC模式和VN模式的集合。词典中的每个词语都有规范发音，也可能有替代发音。图6是描绘从发音词典学习音系模式的示例方法的流程图。参照图6，起始、尾音、音节、IVC模式和VN模式的集合被设置为空600。对于产生词典中的每个发音，第一个元音之前的辅音序列被添加到起始集合602中，最后一个元音之后的辅音序列被添加到尾音集合中。当词典中不再有未处理的条目时，通过用每个起始604对每个尾音进行排序来生成IVC模式集合。

由于一些尾音和/或起始可能只在词语内部出现，因此所生成的IVC模式集合将与发音词典中的词语内部IVC模式相比来进行检查。如果发现不在集合中的任何词语间隔IVC模式，则将先前未知的尾音和/或起始添加到其各自的集合中，并且再生成IVC模式集合605。

在步骤606中，最大起始原则(MOP)用于将每个发音分割成音节，并将音节添加到音节表中。在步骤607，对于词典中每个词语的发音中的每个元音，提取VN模式。VN模式由三个符号序列组成：核心之前的符号、核心和核心之后的符号。如果核心是发音中的第一个符号，则通过在VN的第一个位置添加中断符号“#”来扩展VN模式。

当核心是第一个符号时，通过在VN的第一个位置中迭代添加每个词语发音的最后一个符号，生成额外的VN模式。类似地，如果核心是词语发音的最后一个符号，则通过在VN的最后一个位置中添加中断符号“#”来扩展VN，并且通过将每个词语发音的第一个符号迭代地添加到VN的最后一个位置来生成额外的VN模式。当核心位于发音的第一个或最后一个位置时，生成额外的VN模式是必要的，因为当起始和/或尾音模式不包含辅音时，VN可能跨越多个音节或词语。以这种方式生成的VN模式说明了所有可能的词语序列。

4.1.2学习从产生模式到规范模式的映射

所说的词语的发音常常不同于规范。许多差异发生在音节边缘附近(即在IVC模式内)。例如，在话语“Did you see her？”中，前两个词语可以是口头的/dIJu/而不是规范的/dIdyu/。用/J/代替/dy/是所涉及的发音结构的系统结果。其他的差异是由于上下文对音节中心部分的影响。

本公开的一个方面是学习每个产生IVC或VN模式与可能的规范IVC或VN目标模式的对应集合之间的映射。这是通过参照包括对齐的产生和规范语音声音流506的训练材料来完成的。对具有对应规范IVC或VN模式的产生IVC或VN模式的每次观察进行计数。根据关联计数，估计给定观测模式的每个规范模式的条件概率。

图7是描绘学习从产生模式到规范模式的映射的示例方法的流程图。图7另外示出了学习从产生模式到规范模式的条件概率映射的过程。众所周知，即使在训练材料中不存在这种模式的示例，每个IVC或VN模式都可以规范地产生。因此，在步骤700中，产生模式集合被初始化以包括规范模式集合的每个成员。与对应的规范模式配对的每个产生模式的关联计数被初始化为1。

接下来701，当剩余的IVC或VN模式在产生流中被识别时，对应的IVC或VN模式在规范流中被识别。在702中，对于每个观察到的产生和规范模式对，关联计数递增。在步骤703中，每个对的平滑条件概率估计计算如下：

令A为产生模式的观察数量；

令B为目标模式与产生模式相关联的次数；

令C为与产生模式相关联的不同目标模式的数量。

也可以使用其他平滑技术，例如：

4.1.3学习音节和拼字法模式之间的关系

如前所述，发音词典504包含音节化发音和对应的拼字法模式。图8是描绘学习从候选音节到拼字法模式的映射的示例方法的流程图。图8另外示出了用于学习给定音节在词语中的位置的情况下每个拼字法模式的条件概率的过程。在将映射初始化为空800之后，当仍有剩余的未处理的条目801时，检查发音词典中每个发音中的每个音节拼字法对，以查看是否已经被添加到映射列表802中。如果是，则其关联计数递增，并且处理继续在801处进行。否则，用1的关联计数添加新对803，并且在801继续处理。在804中，当没有更多的条目要处理时，使用关联计数来计算条件概率，如下所示：

令A为观察音节发音的数量；

令B为拼字法模式与音节发音相关联的次数；

令C为与音节发音相关联的不同拼字法模式的数量。

也可以使用其他平滑技术，例如：

4.1.4学习音节发音空间中的N-GRAM模型

通过训练音节发音的n-gram模型，捕获相邻音节发音的上下文影响。在实施例中，训练3-gram模型。这些模型是使用大运行词语语料库、从转录的语音或书面文本中提取的句子或短语的联系来训练的。通过使用发音词典检索每个词语的音节化发音(包括标准发音和任何替代发音)，将运行词语语料库转换为发音音节语料库。n个音节的每个序列代表n-gram；在本实施例中，三个音节的每个序列代表3-gram。然后，为每个3-gram模式累加关联计数。在计数累加之后，使用平滑技术将它们转换为概率，该平滑技术类似于用于计算产生模式到规范模式的条件概率的平滑技术。

4.1.5学习音节拼字法空间中的N-GRAM模型

通过训练n-gram模型，还可以捕获相邻音节拼字法的上下文影响。在实施例中，训练3-gram模型。这些模型是使用大运行词语语料库来训练的。通过使用发音词典检索每个词语的音节拼字法，将运行词语语料库转换为音节化拼字法组块语料库。然后，为每个n-gram模式累加关联计数。在计数累加之后，使用平滑技术将其转换为概率，该平滑技术类似于用于计算产生模式到规范模式的条件概率的平滑技术。

4.1.6学习阈值和覆写

由于候选音节被构造和分配概率，有些音节的概率很低。事实上如此低使得这些音节在被映射到拼字法模式之后再也没有被选择。在训练之后，对系统进行测试，并确定概率阈值，低于该阈值，特定音节就不会涉及发出的输出。该阈值被记录并在识别时用于消除不影响输出的候选。

大多数歧义可以在本地解决。一些歧义可以通过扩展上下文来解决。一些歧义无法通过扩展上下文来解决。与盲目地使用大型n-gram来改进结果不同，只有当较短的n-gram模式失败时，才会生成较大的n-gram模式。

在学习期间，当“最可能”的拼字法模式与目标模式不匹配时，系统会生成“覆写”。这将“错误”记录为“密钥(key)”，然后确定扩展上下文(多达指定最大数量的音节或词语的)来纠正错误。如果找到这样的扩展上下文，则记录错误密钥和关联的上下文以及正确的拼字法模式。这种机制也可以在系统部署后使用，以允许使用反馈来改进系统输出。

4.2识别阶段

图9是描绘从产生流中提取IVC模式和VN模式的示例方法的流程图。在识别期间，使用图9所示的过程，处理传入的产生符号流402以提取产生IVC 403和VN 401模式，并将它们分别映射到规范IVC 404和VN 400。提取过程维持3符号缓冲器，其包含刚接收的符号(B3)、在其之前刚接收的符号(B2)和在其之前刚接收的符号(B1)。IVC累加器缓冲器也被维持。

在接收到任何产生符号之前，3符号缓冲器被初始化为空900。然后，IVC累加器设置为空901。下一个符号被接收902并且成为3符号缓冲器903中的B3。然后检查3符号缓冲器，以查看其是否包含VN模式904。如果是，则将VN模式推送到队列1上905。检查接收到的符号B3是否是辅音906。如果是，则将其附加到IVC累加器907，并且处理继续接收下一个产生符号902。否则，累加的IVC(可以为空)被推送到队列1上908，并且处理继续接收下一产生符号902。

图10是描绘从规范模式集合生成候选音节集合的示例方法的流程图。队列1中的IVC和VN模式在到达时被处理，如图10所示。在处理开始之前，队列被初始化为空1001。下一个模式被接收1002并基于其是否为IVC模式来处理1003。如果它是产生VN模式，则将其映射到规范VN模式的集合1004。为了有效，规范VN模式必须形成先前的规范IVC模式集合的某个成员的一致延续1005。从进一步的处理中消除不一致的VN模式。如果刚接收到的模式是产生IVC模式，则它被映射到规范IVC模式的集合1006。为了有效，规范IVC模式必须形成先前的规范VN模式集合的某个成员的一致延续。不一致的IVC模式被从进一步的考虑中移除1007。不具有对剩余IVC模式的成员的一致延续的任何VN模式也被消除。

图11示出了路径一致性约束的应用的细节。1100、1101和1102显示队列1中VN和IVC模式的交替到达。VN和IVC模式的有效候选映射通过到达的模式形成一致的路径。为了有效，到达的IVC模式1101必须与刚好在IVC模式之前到达的剩余VN模式1100集合的一个或多个成员一致。VN模式1100和IVC模式1101之间的连续路径的一致性通过检查模式1106的“重叠”部分来确定。具体地，VN模式1100的最终符号是中断符号、元音符号或辅音符号。如果它是中断符号或元音，则有效的IVC延续被限制为具有空尾音模式的那些。如果它是辅音，则有效的IVC模式延续被限制为以该同一个辅音开始的那些。

没有有效延续的VN模式将被消除。同样地，消除不是至少一个剩余VN模式的有效延续的IVC模式。当VN模式到达队列1时，为了被保留，它必须是先前的候选IVC模式集合中的一个或多个的有效延续。与刚描述的类似，一致性约束通过检查IVC和VN模式的边缘符号来应用1107，只是这次匹配涉及IVC的最后一个符号和VN的第一个符号。如果VN的第一个符号是辅音，则它必须与至少一个IVC的最后一个符号匹配才能有效。否则，它只能是具有空起始模式的IVC的延续。

再次参照图10，由于一致的IVC模式被分割成尾音-起始序列1008，因此使用尾音部分通过从剩余的先前IVC模式和剩余的先前VN模式分割的起始来完成一致的路径。每个一致的路径形成候选音节1009。如果候选音节不在音节表中，则将其消除1010。允许的候选音节被推送到队列21011。模式映射1004和1006提供给定产生模式的每个规范模式映射的条件概率估计。由于IVC模式被分割成尾音-起始序列，IVC模式的这些成分继承了IVC模式的概率。如果多个剩余的IVC模式分割导致相同的尾音或相同的起始模式，则将共享模式的概率估计为包含它们的IVC模式的概率之和。起始、尾音和VN的集合的概率都被归一化为总和为一。当音节候选者405形成时，它们被分配概率，该概率计算为其起始模式、VN模式和其尾音模式的概率的乘积。然后将候选音节集合的概率归一化为总和为一。然后，通过应用n-gram上下文模型进一步调整分配给音节候选的概率。

图12示出了一致性约束的应用如何简化IVC的识别的示例。该示例是单个音位产生IVC/T/的。训练过程生成的58个不同的规范IVC，它们与条件概率范围很广的产生IVC/T/1200相关联1201。在应用一致性约束之后，可能的规范IVC模式集合被减少到更为紧凑的14个1202，大约减少了76％。然后，剩余IVC模式的关联条件概率1203被归一化为总和为一。

接下来，生成与每个候选音节405相关联的拼字法模式406的集合。图13是描绘将候选音节映射到拼字法模式的示例方法的流程图。在图13中，队列2被初始化为空1300。在队列2中接收候选音节集合1301并映射到拼字法模式集合1302。与模式相关联的位置代码101、303和304用于消除无效模式1303。其余的映射模式被推送到队列3 1304。

图14示出了应用音节位置约束和统计模型来选择输出拼字法模式的过程。队列3用于处理上下文中与音节相关联的拼字法块集合。它可以被看作是滑动窗口，其包含了音节拼字法模式的“N”个最近候选集合的历史。模式的条件概率和它们的上下文概率用于识别在滑动窗口的“最旧”端发出的最可能的模式。

在实施例中，滑动窗口的大小被设置为7个音节。其他实施例可以使用不同的长度，其在上下文和延迟之间有不同的折中。队列3初始化为空1400。接收下一拼字法模式集合1401。移位n-gram上下文模型用于生成路径概率。然后应用移位n-gram模型之和1402。如果将要发出的模式在覆写集合中作为密钥找到，并且上下文与覆写一致，则发出与覆写相关联的发出模式；否则，发出“最可能”的模式1403。

图15是拼字法候选者的混淆网络的示例。在3音节时钟周期之后，3-Gram模型1506在音节时钟周期1500、1501和1502处被应用于模式。在拼字法候选者在音节时钟周期1503处到达时，3-Gram模型1507在音节时钟周期1501、1502和1503处被应用于模式。当每一个新的拼字法模式集合到达时1504和1505，3-Gram模型1508和1509被分别应用。

在一些情况下，可能是生成产生流的声学识别器无法以高置信度识别特定的音位类。在这种情况下，流中的符号可以表示广泛的音位类。如果发生这种情况，则规范模式集合是通过替换表示作为广泛类成员的每个特定类的符号来重复映射而生成的集合的并集。例如，如果声学处理器不能确定音位段是/m/还是/n/，它将在产生流中插入表示广泛类{/m/，/n/}的符号。从产生到规范的映射进而将/m/和/n/替换到IVC中以代替广泛类符号，并将映射的规范IVC模式集合替换为独立映射的并集。

5.实现方式示例

图16描绘了使用音节结构来执行自动语音识别的示例方法。

在步骤1602，接收从音频输入生成的产生符号流。例如，计算系统可以接收音频输入，例如通过电视节目。声学识别器可以用于从音频输入生成产生符号流。计算系统可以接收产生符号流以进行处理。例如，计算系统可以被编程或配置为生成电视节目的字幕。

在步骤1604，在产生符号流中识别如在第4.1.1节和图6中学习的产生IVC和VN，如第4.2节和图9所述。

在步骤1606，利用在第4.1.2节和图7所述的训练过程中学习到的音系模式和条件概率，将产生IVC和VN映射到规范IVC和VN，如第4.2节和图10所述。在步骤1608，如第4.2节和图11所述，使用路径一致性约束来消除不一致的IVC和VN。可以为任何单个产生IVC或VN生成多个不同的规范IVC和VN。

在步骤1610，如第4.2节和图10所述，一致的IVC被分割成尾音-起始序列。在步骤1612，如第4.2节和图11所述，使用尾音生成候选音节，并且消除不在音节表中的候选音节。

在步骤1614，如第4.2节和图12所述，生成每个候选音节的概率。每一个候选音节的概率都是由组成起始、尾音和IVC的学习概率得出的，在消除不允许的单元后进行归一化，并通过使用N-gram模型进行调整。

在步骤1616，如第4.2节和图13所述，通过在第4.1.3节和图8所述的训练过程中学习的关联，将候选音节映射到拼字法模式，并且在步骤1618中消除不一致的拼字法模式。单个候选音节可以映射到多个拼字法模式。

在步骤1620，如第4.2节和图14所述，使用在第4.1.4节和第4.1.5节所述的训练过程中学习的组成音节的概率来生成每个拼字法模式的概率。

在步骤1622，如第4.2节和图14所述，发出最可能的拼字法模式，除非它匹配在第4.1.6节所述的训练过程中学习的扩展上下文覆写集合中的密钥，在这种情况下发出覆写。在另一实施例中，再次参照词典关于n个最可能的拼字法序列，并且如果找到了精确匹配，则发出该匹配。

6.某些实施例的优点

本文描述的基于计算机的过程采用了机器学习技术和语言知识的新颖和非传统的组合，以将从产生的语音中提取的音位和语言符号模式转换为规范的拼字法文本。自动语音-文本系统的这种截然不同的“后端”语言处理组件的计算效率远远高于当前最先进的“语言模型”。当与高效的声学处理“前端”相结合时，本发明将能够在高精度和低延迟的分布式设备上连续转录口头词语。它将是有价值的工具，可用于使用自动语音识别的所有目的，包括但不限于语音搜索、语音命令和分布式设备和设备的控制以及语音听写。它将特别有助于在记录和直播视频上生成准确的实时字幕和对白。

对直播加字幕需要高精度，口头词语和显示字幕之间几乎没有延迟，并且能够为不属于预定义词汇表一部分或使用不同口音的词语产生字幕的能力。人类很难以高精度或高速度创建这样的字幕。通过采用本文描述的规则，计算机能够分解接收到的声音流，采用特定的规则集合来识别最佳候选词语，并且以高精度和高速输出候选词语，从而允许在直播上实时播放输出转录。此外，在某些直播节目(如新闻节目)中，相当数量的词语是以前看不见的词，例如专有名词。目前最先进的ASR系统只能发出词典中的词语，这意味着他们总是会把这些词语弄错。本发明具有发出以前从未见过的词语的音系近似的能力。

7.硬件概述

根据一个实施例，本文描述的技术由一个或多个专用计算设备实现。专用计算设备可以是硬接线来执行技术，或者可以包括数字电子设备，例如一个或多个专用集成电路(ASIC)或现场可编程门阵列(FPGA)，它们被持久地编程来执行技术，或者可以包括一个或多个通用硬件处理器，其被编程以根据固件、存储器、其他存储器或组合中的程序指令执行技术。这种专用计算设备还可以将自定义硬连线逻辑、ASIC或FPGA与定制编程相结合来实现这些技术。专用计算设备可以是台式计算机系统、便携式计算机系统、手持设备、网络设备或并入硬接线和/或程序逻辑来实现这些技术的任何其他设备。

例如，图17是示出可以在其上实现实施例的计算机系统1700的框图。计算机系统1700包括总线1702或用于传送信息的其他通信机制，以及与总线1702耦合以处理信息的硬件处理器1704。例如，硬件处理器1704可以是通用微处理器。

计算机系统1700还包括主存储器1706，例如随机存取存储器(RAM)或其他动态存储设备，其耦合到总线1702以存储由处理器1704执行的信息和指令。主存储器1706还可用于在由处理器1704执行的指令的执行期间存储临时变量或其他中间信息。当将这些指令存储在处理器1704可访问的非临时存储介质中时，将计算机系统1700呈现为定制以执行指令中指定的操作的专用机器。

计算机系统1700还包括只读存储器(ROM)1708或耦合到总线1702的其他静态存储设备，以用于存储处理器1704的静态信息和指令。提供存储设备1710，例如磁盘、光盘或固态驱动器，并耦合到总线1702以存储信息和指令。

计算机系统1700可以经由总线1702耦合到显示器1712，例如阴极射线管(CRT)，以向计算机用户显示信息。包括字母数字键和其它键的输入设备1714耦合到总线1702，以用于向处理器1704传送信息和命令选择。另一种类型的用户输入设备是光标控制1716，例如鼠标、轨迹球或光标方向键，以用于向处理器1704传送方向信息和命令选择，以及用于控制显示器1712上的光标移动。该输入设备通常在两个轴上具有两个自由度，即第一轴(例如，x)和第二轴(例如，y)，这允许设备在平面中指定位置。

计算机系统1700可以使用定制的硬接线逻辑、一个或多个ASIC或FPGA、固件和/或程序逻辑来实现本文所描述的技术，这些与计算机系统结合使得或程序计算机系统1700是专用机器。根据一个实施例，响应于处理器1704执行包含在主存储器1706中的一个或多个指令的一个或多个序列，计算机系统1700执行本文中的技术。这样的指令可以从另一存储介质(例如存储设备1710)读入主存储器1706。执行包含在主存储器1706中的指令序列使得处理器1704执行本文描述的处理步骤。在替代实施例中，可以使用硬接线电路代替软件指令或与软件指令结合使用。

本文中使用的术语“存储介质”是指任何非暂时性介质，其存储导致机器以特定方式操作的数据和/或指令。这种存储介质可以包括非易失性介质和/或易失性介质。非易失性介质包括例如光盘、磁盘或固态驱动器，例如存储设备1710。易失性介质包括动态存储器，例如主存储器1706。存储介质的常见形式包括，例如软盘、柔性盘、硬盘、固态驱动器、磁带、或任何其他磁性数据存储介质、CD-ROM、任何其他光学数据存储介质、具有孔图案的任何物理介质、RAM、PROM和EPROM、FLASH-EPROM、NVRAM、任何其他存储器芯片或盒。

存储介质与传输介质不同，但可以与传输介质结合使用。传输介质参与存储介质之间的信息传输。例如，传输介质包括同轴电缆、铜线和光纤，包括包含总线1702的导线。传输介质也可以采用声波或光波的形式，例如在无线电波和红外数据通信期间生成的那些。

各种形式的介质可涉及将一个或多个指令的一个或多个序列承载到处理器1704以供执行。例如，指令最初可以承载在远程计算机的磁盘或固态驱动器上。远程计算机可以将指令加载到其动态存储器中，并使用调制解调器通过电话线发送指令。计算机系统1700的本地调制解调器可以在电话线上接收数据，并使用红外发射器将数据转换为红外信号。红外探测器可以接收红外信号中承载的数据，并且适当的电路可以将数据置于总线1702上。总线1702将数据承载到主存储器1706，处理器1704从主存储器1706检索并执行指令。主存储器1706接收到的指令可以任选地在由处理器1704执行之前或之后存储在存储设备1710上。

计算机系统1700还包括耦合到总线1702的通信接口1718。通信接口1718提供到连接到本地网络1722的网络链路1720的双向数据通信耦合。例如，通信接口1718可以是综合业务数字网(ISDN)卡、电缆调制解调器、卫星调制解调器或调制解调器，以提供到对应类型电话线的数据通信连接。作为另一示例，通信接口1718可以是局域网(LAN)卡，以提供到兼容LAN的数据通信连接。也可以实现无线链路。在任何这样的实现方式中，通信接口1718发送和接收承载代表各种类型信息的数字数据流的电、电磁或光信号。

网络链路1720通常通过一个或多个网络向其他数据设备提供数据通信。例如，网络链路1720可以提供通过本地网络1722到主机1724或到由互联网服务提供商(ISP)1726操作的数据设备的连接。ISP 1726进而通过现在通常称为“互联网”1728的全球分组数据通信网络提供数据通信服务。本地网络1722和互联网1728都使用承载数字数据流的电信号、电磁信号或光信号。通过各种网络的信号、网络链路1720上的信号和通过通信接口1718的信号(它们承载数字数据往返于计算机系统1700)是传输介质的示例形式。

计算机系统1700可以通过(一个或多个)网络、网络链路1720和通信接口1718发送消息和接收数据，包括程序代码。在互联网示例中，服务器1730可以通过互联网1728、ISP1726、本地网络1722和通信接口1718来发送应用程序的请求代码。

接收到的代码可以在接收时由处理器1704执行，和/或存储在存储设备1710或其他非易失性存储器中以供稍后执行。

在前面的说明书中，已经参照许多具体细节来描述实施例，这些细节可能因实现方式而不同。因此，说明书和附图应被视为说明性的而不是限制性的。本公开的范围的唯一和专有指标，以及申请人打算作为公开范围的内容，是本申请发出的一组权利要求的文字和等效范围，以该权利要求发出的具体形式，包括任何随后的更正。

Claims

1.一种数据处理方法，包括：

在计算系统处，接收来自声学处理系统的、由特定语言的口头词语产生的产生符号流；

从所述产生符号流提取多个产生模式；

使用所存储的产生到规范映射数据，从所述多个产生模式中生成候选音节以及每个候选音节的概率，所述所存储的产生到规范映射数据包括产生模式到规范模式的一个或多个映射的条件概率；

使用所存储的音节到拼字法模式映射，从所述候选音节中生成候选拼字法模式以及每个候选拼字法模式的概率，所述所存储的音节到拼字法模式映射包括一个或多个映射的条件概率；以及

至少部分地基于所述每个候选拼字法模式的概率，生成所述产生符号流的拼字法表示。

2.根据权利要求1所述的数据处理方法，其中，通过针对所述产生符号流的每个符号顺序地执行以下操作，来将所述产生流分割为包括元音间辅音(IVC)和元音邻域(VN)单元的音系单元：

将三符号缓冲器初始化为零，将IVC累加器缓冲器初始化为零，并且将产生符号顺序地添加到所述三符号缓冲器；

在将符号添加到所述三符号缓冲器之后，确定所述三符号缓冲器的中间符号是否是元音并且因此所述三符号包括VN，存储所述VN；

如果添加的符号是辅音，则将该辅音附加到所述IVC累加器；

如果下一个添加的符号不是辅音，则将该符号作为IVC存储在所述IVC累加器中；以及

只要所述产生流继续，就继续处理。

3.根据权利要求1所述的数据处理方法，还包括通过以下操作将产生音系流映射到规范音系流：

将处理队列初始化为空；

接收产生IVC和VN的交替流；

使用预先计算和存储的对齐的产生和规范IVC的数据库，该数据库将产生IVC映射到具有所存储的相关联条件概率的一个或多个规范IVC；以及

使用存储的对齐的产生和规范VN的数据库，将产生VN映射到具有所存储的相关联条件概率的一个或多个规范VN。

4.根据权利要求3所述的数据处理方法，还包括通过以下操作处理所映射的规范流：

确定所述规范IVC中的每一个是否是规范VN模式的前一集合的至少一个成员的一致延续，并且消除与至少一个这种VN模式不一致的那些规范IVC；

确定所述规范VN中的每一个是否是规范IVC模式的前一集合的至少一个成员的一致延续，并且消除与至少一个这种IVC模式不一致的那些规范VN；以及

在消除不一致的IVC和VN之后，重新归一化所述条件概率。

5.根据权利要求1所述的方法，其中，生成所述候选音节包括：

将一致的规范IVC模式分割成音节尾音-起始序列；

使用所分割的一致的规范IVC模式的尾音部分，通过从剩余的IVC模式和VN模式增强的起始完成一致的路径，其中每个一致的路径形成候选音节；

消除不在所存储的音节表中的候选音节；

计算每个候选音节的概率；以及

存储所述候选音节。

6.根据权利要求5所述的方法，其中，针对每个候选音节生成概率包括：

针对与产生符号的特定集合相对应的每个候选音节，执行以下操作：

从所述产生到规范映射中的所存储的计算概率，识别针对所述音节的所述VN的概率；

针对所述音节的起始所基于的每个规范IVC，基于所述产生到规范映射中的所存储的计算概率来识别所述起始的概率；

针对所述音节的尾音所基于的每个规范IVC，基于所述产生到规范映射中的所存储的计算概率来识别所述尾音的概率；

将所述VN的概率、所述起始的概率和所述尾音的概率合计成音节概率值；以及，

针对所述产生符号的特定集合来归一化所述候选音节的所述音节概率值的和。

7.根据权利要求1所述的方法，其中，候选音节到拼字法模式的映射包括：

存储包括对齐的规范音节化发音和拼字法音节模式的数据；

将队列初始化为空并且顺序地呈现所述候选音节，并且映射到所学习和存储的音节化拼字法模式集合；

使用与所述模式相关联的词语位置代码来消除无效模式；以及

存储所映射的拼字法模式。

8.根据权利要求1所述的方法，还包括通过以下操作应用音节位置约束和统计模型来选择输出拼字法模式：

以多个音节大小单元的滑动窗口的形式，通过队列顺序地处理拼字法模式，其中重叠的音节序列被逐步地处理；

将存储在n-gram模型中的数据随着拼字法模式的接收而引用到接收到的拼字法模式的每个集合；

将移位的n-gram模型的条件概率相加以生成路径概率；以及

存储所述路径概率。

9.根据权利要求3所述的方法，还包括：

存储包括对齐的产生符号模式和规范符号发音模式的数据；

针对所存储的数据中的产生和规范发音符号模式的每个组合，根据与所述组合在所存储的数据中的出现次数相对应的值以及与具有不同的产生发音的规范发音的出现次数相对应的值，计算所述模式的概率；以及

存储具有所述产生到规范映射中的所述组合的相应的计算概率的产生和规范发音的组合。

10.根据权利要求3所述的方法，还包括：

存储包括对齐的音节化规范发音和拼字法模式的数据；

针对所存储的数据中的音节化规范发音和拼字法模式的每个组合，根据与所述组合在所存储的数据中的出现次数相对应的值以及与所述音节化规范发音在所存储的数据中的出现次数相对应的值，计算所述模式的概率；以及

存储具有所述产生到规范映射中的所述组合的相应的计算概率的音节化规范发音和拼字法模式的组合。

11.根据权利要求1所述的方法，还包括：

存储运行词语语料库，所述运行词语语料库包括以特定语言转录的口头或书面语音；

存储发音词典，所述发音词典包括音节化发音和特定语言的词语的相应的拼字法模式；

使用所述发音词典将所述运行词语语料库转换为音节化拼字法词语数据库；以及

使用所述音节化拼字法组块语料库，针对每个n-gram模式累加关联计数，并且针对每个候选拼字法音节模式生成概率。

12.根据权利要求1所述的方法，还包括：

存储发音词典，所述发音词典包括音节化发音和特定语言的词语的相对应的拼字法模式；

使用所述发音词典将所述运行词语语料库转换为发音音节数据库；以及

使用所述发音音节模式数据库，针对每个n-gram模式累加关联计数，并且针对每个候选发音音节模式生成概率。

13.根据权利要求1所述的方法，还包括：

在训练期间，其中，由所述系统生成的最可能的拼字法音节模式与目标拼字法模式不匹配；

存储包含意外的拼字法音节模式的多音节序列的扩展上下文；

在识别时，匹配由所述系统生成的每个拼字法音节模式以查看其是否匹配任何所存储的序列；以及，

如果匹配，则存储所述扩展上下文序列，而如果不匹配，则存储所述最可能的拼字法模式。

14.根据权利要求7所述的方法，还包括：

存储发音词典，所述发音词典包含与其音节化规范发音模式对齐的拼字法模式，其中，所述音节化包括词语位置符号并且使用最大起始原则来完成。

15.根据权利要求1所述的方法，其中，所述产生符号流是使用计算机系统的数字编程逻辑从电视节目的音频输入生成的，所述方法还包括：

使得在显示所述电视节目的显示设备上显示特定的拼字法模式作为所述电视节目的字幕。

16.一种系统，包括：

一个或多个处理器；

存储器，存储指令，所述指令在由所述一个或多个处理器执行时，使得执行以下操作：

接收来自声学处理系统的、由特定语言的口头词语产生的产生符号流；

从所述产生符号流提取多个产生模式；

使用所存储的音节到拼字法模式映射，从所述候选音节中生成候选拼字法模式以及每个候选拼字法模式的概率，所述所存储的音节到拼字法模式映射包括一个或多个映射的条件概率；

17.根据权利要求16所述的系统，其中，通过针对所述产生符号流的每个符号顺序地执行以下操作，来将所述产生流分割为包括元音间辅音(IVC)和元音邻域(VN)单元的音系单元：

如果添加的符号是辅音，则将该辅音附加到所述IVC累加器；

只要所述产生流继续，就继续处理。

18.根据权利要求15所述的系统，其中，所述指令在被所述一个或多个处理器执行时，还使得通过以下操作将产生音系流映射到规范音系流：

将处理队列初始化为空；

接收产生IVC和VN的交替流；

19.根据权利要求18所述的系统，其中，所述指令在被所述一个或多个处理器执行时，还使得通过以下操作进一步处理所映射的规范流：

在消除不一致的IVC和VN之后，重新归一化所述条件概率。

20.根据权利要求16所述的系统，其中，生成所述候选音节包括：

将一致的规范IVC模式分割成音节尾音-起始序列；

消除不在所存储的音节表中的候选音节；

计算每个候选音节的概率；以及

存储所述候选音节。

21.根据权利要求20所述的系统，

其中，针对每个候选音节生成概率包括：

22.根据权利要求16所述的系统，其中，候选音节到拼字法模式的映射包括：

存储包括对齐的规范音节化发音和拼字法音节模式的数据；

将队列初始化为空并且顺序地呈现所述候选音节，并且映射到学习和存储的音节化拼字法模式集合；

使用与所述模式相关联的词语位置代码来消除无效模式；以及，

存储所映射的拼字法模式。

23.根据权利要求16所述的系统，其中，所述指令在被所述一个或多个处理器执行时，还使得通过以下操作应用音节位置约束和统计模型来选择输出拼字法模式：

将移位的n-gram模型的条件概率相加以生成路径概率；以及，

存储所述路径概率。

24.根据权利要求18所述的系统，其中，所述指令在被所述一个或多个处理器执行时，还使得执行以下操作：

存储包括对齐的产生符号模式和规范符号发音模式的数据；

25.根据权利要求18所述的系统，其中，所述指令在被所述一个或多个处理器执行时，还使得执行以下操作：

存储包括对齐的音节化规范发音和拼字法模式的数据；

26.根据权利要求16所述的系统，其中，所述指令在被所述一个或多个处理器执行时，还使得执行以下操作：

27.根据权利要求16所述的系统，其中，所述指令在被所述一个或多个处理器执行时，还使得执行以下操作：

28.根据权利要求16所述的系统，其中，所述指令在被所述一个或多个处理器执行时，还使得执行以下操作：

29.根据权利要求21所述的系统，其中，所述指令在被所述一个或多个处理器执行时，还使得执行以下操作：

存储发音词典，所述发音词典包含与其音节化规范发音模式对齐的拼字法模式，其中，所述音节化包括词语位置符号，并且使用最大起始原则来完成。

30.根据权利要求16所述的系统，

其中，所述产生符号流是使用计算机系统的数字编程逻辑从电视节目的音频输入生成的；

其中，所述指令在被所述一个或多个处理器执行时，还使得执行以下操作：使得在显示所述电视节目的显示设备上显示特定的拼字法模式作为所述电视节目的字幕。