CN103703459A

CN103703459A - 基于字符变换和无监督网络数据的文本消息规格化方法和系统

Info

Publication number: CN103703459A
Application number: CN201280036746.7A
Authority: CN
Inventors: F·刘; F·翁
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2011-05-27
Filing date: 2012-05-21
Publication date: 2014-04-02
Also published as: EP2715566A1; WO2012166417A1; US20120303355A1

Abstract

已开发出一种用于生成对应于语音合成系统中使用的标准标记的非标准标记的方法。所述方法包括从存储在存储器内的多个标准标记中选择标准标记，利用随机场模型选择要对所选择的标记中的每一字符上执行的预定操作，对每一字符上执行所选择的操作以生成输出标记，并将输出标记与所选择的标记相关联地存储到存储器内。所述输出标记不同于所述多个标准标记中的每一标记。

Description

基于字符变换和无监督网络数据的文本消息规格化方法和系统

技术领域

本公开总体上涉及自然语言处理和文本规格化领域，更具体而言，涉及在语音合成或其他分析之前使文本规格化的系统和方法。

背景技术

移动通信领域近年来得到了迅猛发展。由于各种无线网络的地理覆盖和带宽的增长，包括蜂窝电话、智能电话、平板电脑、便携式媒体播放器和笔记本计算装置在内的各种各样的便携式电子装置已经使用户能够从各种各样的地点通信以及接入数据网络。这些便携式电子装置支持各种各样的通信类型，包括音频、视频和基于文本的通信。用于基于文本的通信的便携式电子装置通常包括诸如LCD或OLED屏幕的显示屏，其可以显示文本以供阅读。

近年来，已经涌现了各种基于文本的通信。各种文本通信系统包括但不限于：短消息服务（SMS）、包括Facebook和Twitter在内的各种社交网络服务、即时消息传送服务、以及常规电子邮件服务。很多采用文本通信服务发送的文本消息都具有相对较短的长度。诸如SMS的一些文本消息传送系统存在技术限制，其要求消息短于某一长度，例如，160个字符。甚至对于不强制施加消息长度限制的消息传送服务而言，很多便携式电子装置所提供的输入设施，例如，实际和虚拟键盘，也倾向于使人感到输入大量的文本是很繁冗的。此外，诸如青少年的移动消息器装置的用户经常采用不能被识别为任何语言的规范词语的缩写或者俚语词汇来压缩消息。例如，诸如“BRB”的词语代表诸如“be right back”的较长短语。用户还可能采用标准词语的非标准拼写，例如，采用非标准的“kuz”替代词语“cause”。替代的拼写和词语形式不同于简单的错拼，现有的拼写检查系统不具备将替代词语形式标准化为能在词典中找到的标准词语的功能。俚语词汇和替代拼写依赖于接收文本消息的另一人的知识，从而从所述文本解释出适当的含义。

尽管发送和接收文本消息的普及性已经提高了，但是很多情况还是妨碍接收方以及时的方式阅读文本消息。在一个例子中，机动车辆的驾驶员在操作车辆时如果尝试阅读文本消息就可能分散注意力。在其他情况下，便携式电子装置的用户可能不具有立即就能拿到装置并从装置的屏幕上阅读消息的条件。一些用户可能视力减弱，因而从移动装置的屏幕上读取文本存在困难。为了缓解这些问题，一些便携式电子装置以及其他系统包括语音合成系统。将所述语音合成系统配置为生成文本信息的语音版本，从而使接收文本消息的人不用必须阅读消息。合成的音频消息使人能够听到一条或多条文本消息的内容，同时避免人在执行另一项活动时（例如，在操作车辆时）分心。

尽管语音合成系统在复述已知语言的文本时有用，但是在处理包括俚语、缩写以及文本消息中采用的其他非标准词语时语音合成变得更有问题。语音合成系统依赖于将已知词语映射至用于语言合成的音频模型的模型。在合成未知词语时，很多语音合成系统退而寻求词语的不完全的语音近似，或者逐字母拼出词语。在这些条件下，语音合成系统的输出将不遵循预期的正常语音流，并且语音合成系统可能变得令人分心。在文本消息包括非标准的拼写和词语形式时，其他文本处理系统，包括语言转化系统和自然语言处理系统可能具有类似的问题。

尽管现有的词典可以提供常用俚语词汇和缩写的转化，但是文本消息中采用的对标准词语的替代拼写和构造所具有的多样性太过宽泛，以至于由标准来源编辑的词典无法包容。此外，便携式电子装置用户不断地形成标准词典中找不到的有关现有词语的新的变型。此外，从标准词语映射至其非标准变型是多对多的，也就是说，非标准变型可能对应于不同的标准词语形式，反之亦然。因此，用于预测标准词语的变型从而能够将替代词语形式标准化为标准的词典词语的系统和方法将是有利的。

发明内容

在一个实施例中，开发出一种用于根据存储在存储器内的标准标记生成非标准标记的方法。所述方法包括从存储在存储器内的多个标准标记中选择标准标记，所选择的标记具有多个输入字符；针对所述多个输入字符中的每一输入字符，根据随机场模型从多项预定操作中选择操作；在每一输入字符上执行所选择的操作，以生成不同于所述多个标准标记中的每一标记的输出标记；以及将输出标记与所选择的标记相关联地存储到存储器内。

在另一实施例中，开发出一种用于生成在随机场模型中使用的操作参数的方法。所述方法包括将存储在存储器内的第一多个标记中的每一标记与存储在存储器内的多个标准标记进行比较，响应于所述第一多个标记中的第一标记不同于所述多个标准标记中的每一标准标记而将所述第一标记识别为非标准标记，响应于所述第一多个标记中的第二标记为所述第一标记提供了上下文信息而将所述第二标记识别为上下文标记，生成包括所述第一标记和所述第二标记的数据库查询，以所生成的查询对数据库进行查询，从由所述数据库获得的结果中识别对应于所述第一标记的结果标记，以及将与所述第一标记相关联的所述结果标记存储到存储器内。

在另一实施例中，开发出一种用于根据标准标记生成非标准标记的系统。所述系统包括存储器，所述存储器存储多个标准标记和随机场模型的多个操作参数，所述系统还包括操作地连接至所述存储器的处理模块。将所述处理模块配置为：从所述存储器为随机场模型获得操作参数，根据所述操作参数生成随机场模型，从所述存储器内的多个标准标记中选择标准标记，所选择的标准标记具有多个输入字符，针对所选择的标准标记的多个输入字符中的每一输入字符，根据所述随机场模型从多项预定操作中选择操作，在所选择的标准标记中的每一输入字符上执行所选择的操作，以生成不同于所述多个标准标记中的每一标准标记的输出标记，以及将所述输出标记与所选择的标准标记相关联地存储到存储器内。

附图说明

图1是用于采用条件随机场模型生成对应于标准标记的非标准标记并根据包括所述标准标记和所述非标准标记的文本合成语音的系统的示意图。

图2是用于采用条件随机场模型根据标准标记生成非标准标记的过程的方框图。

图3示出了各种标准标记和对应的非标准标记中的字符之间的操作的例子。

图4是图1的系统的示意图，其被配置为生成数据库查询以及接收来自所述数据库的结果，从而使非标准标记与用于训练条件随机场模型的已知标准标记相关联。

图5是用于生成训练数据以及训练条件随机场模型的过程的方框图。

图6A是包括非标准标记的被格式化为搜索引擎的搜索项的数据库查询的例子。

图6B示出了来自图6A的数据库查询的项，其沿最长共有字符序列与候选标记对准。

图7是用于以标准标记替代文本消息中的非标准标记以及生成对应于所述文本消息的合成语音的过程的方框图。

图8示出了被配置为在车内使用的图1所示的系统的替代配置。

图9是现有技术的条件随机场模型的图解。

具体实施方式

为了促进对文中公开的实施例的原理的理解，现在将参考附图以及下面的书面说明中的描述。所述参考并非旨在对主题范围构成限制。本公开还包括对所示出的实施例的任何变更和修改，此外还包括对所公开的实施例的原理的其他应用，这通常是本公开所属领域技术人员所能够认识到的。

文中使用的“标记”一词是指可以经由标记化过程从文本中提取出来的文本的独立元素。标记的例子包括通过空格或标点隔开的词语，例如，所述标点为句号、逗号、连字符、分号、感叹号、问号等等。标记还可以包括数字、符号、词语和数字的组合、或者彼此相关联的多个词语。“标准标记”是作为已知语言的部分的标记，包括英语和其他语言。装置的存储器内存储的词典通常包括多个标准标记，其可以对应于一种或多种语言，包括可能未被普遍收录当作官方语言中的俚语标记、方言标记以及技术标记。在文中描述的实施例中，标准标记包括任何这样的标记：即在提供标准标记作为输入时，语音合成单元被配置为可以按照可听的方式发音。有时被称为词汇表外（OOV）标记的非标准标记是指不与标准标记中的一个匹配的任意标记。文中采用的两个标记之间的“匹配”是指一个标记的值与另一标记的值相等。一种类型的匹配发生在每者均具有等同的拼写的两个标记之间。匹配还可能发生在两个不具有等同的拼写但是根据预定的规则共享共同的元素的标记之间。例如，标记“patents”和“patent”可以相互匹配，其中，“patents”是标记“patent”的复数形式。

文中描述的实施例采用了条件随机场模型，以生成对应于标准标记的非标准标记，由此能够实现对包括非标准标记的文本消息的语音合成以及其他操作。“条件随机场（CRF）”一词是指一种概率数学模型，其包括具有由边连接的顶点的无向图。更一般而言，文中采用的术语“随机场模型”是指各种图形模型，其包括曲线图中由边连接的一组顶点。曲线图中的每一顶点表示随机变量，边表示随机变量之间的相关性。本领域技术人员将认识到其他随机场，包括但不限于Markov随机场模型和隐藏Markov随机场模型，适合在替代实施例中使用。文中采用的被应用于标记的“特征”一词是指所述标记的任何在语言上可识别的成分以及所识别出的成分的任何可测量的试探性属性。例如，在英语词语中，特征包括字符、音素、音节及其组合。

在示范性CRF模型中，曲线图中的第一组顶点Y表示一系列随机变量，其表示标记中的诸如字符、音素或音节的特征的可能的值。将顶点Y称为标签序列，其中，每一顶点是所述标签序列中的一个标签。曲线图中的第二组顶点X表示从所观察到的标记中观察到的特征值。例如，标记中的所观察到的特征可以是在标准标记中识别出来的已知字符、音素和音节。标签序列Y的概率分布是采用条件概率P(Y|X)而以观察到的值为条件的。在CRF的常见形式中，一系列边按照可被称为“链”的线性布置将顶点Y连接到一起。顶点Y之间的边的每者代表被称为转换特征函数的一项或多项操作。除了连接顶点Y的边之外，观察到的特征X的序列中的每一顶点索引所述的一组随机变量Y中的单个顶点。X中的对应观察特征顶点与Y中的随机变量之间的第二组边表示被称为观察特征函数的一项或多项操作。

图9示出了现有技术的CRF的示范性结构。在图9中，节点904A-904E表示来自既定标记的一系列观察到的特征X。节点908A-908E表示一系列代表标签序列Y的随机变量。边912A-912D将节点908A-908E连接到了线性链中。边912A-912D中的每者对应于描述相邻标签之间的转换的多个转换特征函数。转换特征函数描述以标签序列中的其他标签和观察到的序列X为基础的标签序列Y中的随机变量的分布。例如，转换特征函数f_e可以描述标记中一个字符跟随另一字符的概率，例如，字符“I”在词语中先于字符“E”的概率。由于CRF曲线图的无向性质，标签908A-908D中的随机变量中的每者的概率分布取决于曲线图中的所有其他标签。例如，标签908B和908C的概率分布彼此相互依赖，并且还依赖于标签908A和908D-908E以及观察到的特征节点904A-904E。

标签序列Y的概率分布既以序列Y本身中的标签内的特征之间的转换为基础，又以基于观察到的序列X的条件概率为基础。例如，如果标签908B表示标记中的单个字符的概率分布，那么转换特征函数描述以所述标签序列中的其他字符为基础的标签908B的概率分布，观察特征函数描述以基于序列X中的观察到的字符的相关性为基础的标签908B的概率分布。通过下述比例关系提供了包括以观察组X为条件的k个标签的标签序列Y的总概率分布p(Y|X)：

函数f_j表示标签序列Y中的相邻标签之间的一系列转换特征函数，例如，以观察到的序列X为条件的边912A-912D。函数g_i表示观察到的顶点904A-904E和标签908A-908E之间的一系列观察特征函数，例如边916A-916E。因而，标签序列Y的条件概率分布既取决于转换特征函数，又取决于观察特征函数。项λ_j和μ_i是一系列分别对应于转换特征函数f_j和观察特征函数g_i中的每者的操作参数。操作函数λ_j和μ_i中的每者是分别为对应的转换特征函数和观察特征函数分配的加权数值。从比例关系p(Y|X)可以看出，随着操作参数的值的增大，与对应的转换特征函数或观察特征函数相关联的总条件概率也增大。如下文所述，采用预定标准标记和对应的非标准标记的训练集生成操作参数λ_j和μ_i。操作参数λ_j和μ_i的生成又被称为CRF模型的“训练”。

图1示出了标记处理系统100，其被配置为生成CRF模型的参数，以及将所述CRF模型应用于多个标准标记，从而生成所述CRF模型指示有可能出现在系统100所处理的文本串中的非标准标记。系统100包括控制器104、语音合成模块108、网络模块112、训练模块116、非标准标记识别模块118和存储器120。控制器104是电子处理装置，例如，微控制器、专用集成电路（ASIC）、现场可编程门阵列（FPGA）、包括x86和ARM系列微处理器的微处理器、或者任何被配置为执行文中公开的功能的电子装置。控制器104实现软件和硬件功能单元，包括语音合成模块108、网络模块112、训练模块116和非标准标记识别模块118。语音合成模块的一个实施例包括用于生成合成语音的音频数字信号处理器（DSP）。网络模块112的各种实施例包括有线以太网适配器、被配置为接入诸如IEEE802.11网络的无线局域网（LAN）的无线网络适配器、以及被配置为接入包括3G、4G和任何其他无线广域网网络的无线广域网（WAN）的无线网络适配器。在一种配置当中，控制器104执行作为软件程序的训练模块116和非标准标记识别模块118的功能。如下文所述，训练模块116生成条件随机场模型的参数。

控制器104操作地连接至存储器120。存储器120的实施例既包括易失性数据存储装置，又包括非易失性数据存储装置，其包括但不限于静态和动态随机存取存储器（RAM）、磁硬盘驱动器、固态驱动器、以及任何其他使控制器104能够将数据存储到存储器120内以及从存储器120加载数据的数据存储装置。存储器120包括多个标准标记124。语音合成模块108被配置为生成每一标准标记124的听觉演示。在一些实施例中，采用对应于一种或多种语言的词典生成标准标记，其中，所述语言是系统100被配置为进行语音合成所针对的语言。存储器120存储与每一标准标记相关联的多个非标准标记。在图1中，第一组非标准标记128与标准标记124之一相关联。非标准标记128的每者是对应标准标记124的不同变型。例如，如果词语“cause”是存储器120中存储的标准标记，那么存储器120中存储的各种非标准标记可以包括“kuz”、“cauz”和“cus”。

在图1的例子中，将控制器104配置为根据存储器120中存储的条件随机场（CRF）模型数据132生成条件随机场（CRF）的模型。CRF模型数据132包括多个转换特征函数f_j和相关联参数λ_j以及观察特征函数g_i和相关联参数μ_i。将控制器104配置为从存储器120中的多个标准标记124中选择标准标记，采用所述CRF模型生成一个或多个非标准标记，以及将与所选择的标准标记相关联的非标准标记存储到存储器120内。存储器120还包括文本语料库（corpus）136。将控制器104和训练模块116配置为采用从文本语料库136获得的标准标记和非标准标记来训练所述CRF模型，下文将对此予以更加详细的描述。

图2示出了采用CRF模型利用来自标准标记的多个输入字符生成非标准标记的过程200，图3示出了可以对来自标准标记的输入字符执行的用来生成非标准标记的操作的例子。过程200开始于选择标准标记作为对CRF模型的输入（块204）。采用来自图1的系统100作为例子，控制器104从存储器120获得标准标记124之一。标准标记中的每一字符是CRF曲线图中的观察到的特征X。在图3中，将标准标记“BIRTHDAY”描绘为：将标记中的每一字符示为观察到的特征组X中的节点之一。

一旦选择了标准标记，过程200就从预定的操作集中选择要对标准标记中的每一字符执行的操作（块208）。采用上文以输入特征X和所述CRF模型描述的比例关系选择操作来生成具有第N最高条件概率p(Y|X)的输出标记，其中，所述比例关系利用了转换特征函数f_j(y_k,y_k-1,X)、观察特征函数g_i(x_k,y_k,X)以及操作参数λ_j和μ_i。采用解码或搜索过程来生成N-best非标准标记。在一个实施例中，过程200采用前向Viterbi和后向A*搜索的组合来选择一系列操作。之后将这些操作应用于标准标记中的对应输入字符，以生成输出标记。

一旦选择了针对标准标记中的每一输入字符的操作，过程200就对标准标记中的字符执行所选择的操作，以产生输出标记。在过程200中，预定操作的类型包括以非标准标记中的一个其他字符替代所述输入字符，在不改变输入字符的情况下将输入字符提供给非标准标记，生成没有任何对应于输入字符的字符的输出标记，以及以两个预定字符替代输入字符。

以英语作为示范性语言，单个字符替代操作包括对应于将作为英语字母表中的字母的一个输入字符替代成英语字母表中的另一字母的676（26²）次操作。如图3所示，单个字母替代操作将标准标记“PHOTOS”中的字母“P”308改变为非标准输出标记“F-OTOZ”中的字母“F”。一些非标准标记一数字字符或者其他符号（例如，标点符号）替代字母。将输入标记中的字符无变化地提供给输出标记的操作是单个字符替代操作的特例。在所述特例中，输入字符对应于与输入字符具有相同值的输出字符。在图3中，标准标记“BIRTHDAY”中的字符“B”304对应于输出标记“B----DAY”中的等价字符“B”。

单个字符替代操作的另一特例发生于从输出标记中省略标准标记中的输入字符。可以将从输出标记中省略输入字符的操作可以被表征为将输入字符转化为专门的“空”字符，随后将从所生成的输出标记中去除所述“空”字符。如图3所示，将标准标记“NOTHING”中的字符“G”312转化为输出标记“NUTHIN-”中的以“-”表示的空字符。

过程200包括操作的预定选择，用于根据标准标记中的单个字符生成输出标记中的被称为二合字母的两个字符的组合。采用英语标准标记作为例子，可以通过“CK”、“EY”、“IE”、“OU”和“WH”的组合来替代单个输入字符，选择所述组合的原因在于它们在英语单词以及标准英语标记的非标准形式中的使用频率。过程200的替代实施例包括这样的操作：根据单个输入字符生成不同的二合字母，以及生成对应于单个输入字符的三个或更多字符的组合。如图3所示，通过输出标记“HUBBIE”中的选定二合字母“IE”替代标准标记“HUBBY”中的输入字符“Y”316。

过程200生成对应于单个标准标记的多个非标准标记。由于针对单个标准标记的多个非标准变型可能出现在不同的文本消息中，因而过程200可以继续生成对应于所述标准标记的N个预定的非标准标记（块216）。选择生成每一连续的非标准标记的操作，从而使其针对所提供的标准标记和所述CRF模型具有第N最高条件概率p(Y|X)。在一个实施例中，过程200生成对应于所述标准标记的二十个非标准输出标记，它们对应于针对所述CRF模型和所述标准标记中的字符识别出的二十个最高条件概率值。过程200将每一输出标记与所述标准标记相关联地存储到存储器内（块220）。可以在生成输出标记之后的任何时间将每一输出标记存储到存储器内。如图1所示，N个非标准标记128与标准标记124之一相关联。将非标准标记存储到数组、数据库、查找表、或任何能够实现对每一非标准标记和相关联标准标记的识别的布置内。

图4示出了系统100的配置，其用于生成CRF模型的操作参数λ_j和μ_i，所述CRF模型用于根据标准标记生成非标准标记。在图4的配置中，控制器104执行训练模块116提供的程序指令，以生成操作参数λ_j和μ_i。为了生成操作参数λ_j和μ_i，控制器104识别出文本语料库136中的非标准标记，之后识别出对应于所述非标准标记的标准标记。使每一非标准标记与对应的标准标记配对。采用所述配对的对应非标准标记和标准标记来统计地生成CRF模型数据132的操作参数。一旦生成了操作参数λ_j和μ_i，就对所述CRF模型进行“训练”，并且随后所述CRF模型能够在提供有标准标记时生成非标准标记。一旦经过了训练，根据所述CRF模型生成的非标准标记的至少一部分将不同于在文本语料库136中呈现的任何非标准标记。

图5描绘了用于生成成对的非标准标记和标准标记以及用于生成CRF模型中的操作参数λ_j和μ_i的过程500。图4所示的系统100的配置执行过程500。过程500开始于识别文本语料库中的多个非标准标记（块504）。选择文本语料库的源，使之包括充分数量的相关标准标记和非标准标记，从而能够生成CRF模型的代表性操作参数。例如，由代表系统100的典型用户的很多人书写的文本消息的集合含有相关的非标准标记。在系统100中，控制器104使文本语料库136中的标记与标准标记124进行比较。文本语料库136中的非标准标记不与任何标准标记124匹配。在实际的实施例中，将标准标记124布置为能够采用散列表、搜索树以及各种能够促进有效率的搜索和与标准标记匹配的数据结构的有效率的搜索。在系统100中，文本语料库136中的每一标准标记与存储器120中存储的标准标记124匹配。

为了将排字错误排除到考虑之外，过程500仅在文本语料库中的非标准标记的出现次数超过了预定阈值的情况下识别单个非标准标记。过程500还识别文本语料库中的上下文标记（块508）。文中采用的术语“上下文标记”是指所识别出的非标准标记之外的任何标记，其提供了有关所述非标准标记在文本语料库中的使用的信息，从而有助于识别出对应于所述非标准标记的标准标记。有关非标准标记的上下文标记信息被称为“上下文信息”，因为上下文标记提供了有关包括非标准标记的一个或多个文本消息的额外信息。上下文标记可以是标准标记，也可以是非标准标记。

过程500生成每一非标准标记的数据库查询（块512）。除了非标准标记之外，数据库包括在文本语料库中识别出的一个或多个上下文标记，以提供有关非标准标记的上下文信息。针对一种或多种类型的数据库对数据库查询进行格式化，数据库类型包括被配置为基于数据库查询项执行模糊匹配的网络搜索引擎和数据库。在图4中，系统100包括存储在存储器120中的本地数据库424，其被配置为接收数据库查询，并生成包括一个或多个标记的对所述查询的响应。还将系统100配置为采用网络模块112发送数据库查询。在典型的实施例中，网络模块112将查询无线地传送至收发器428。诸如因特网的数据网络432将查询转发至在线数据库436。在线数据库的常见例子是搜索引擎，例如，搜索万维网（WWW）和其他网络资源的搜索引擎。将系统100配置为并发执行多项数据库查询，以减少生成数据库结果所需的时间量。可以将多项并发查询发送至单个数据库，例如，在线数据库436，也可以将并发查询同时发送至多个数据库，例如，数据库424和436。

图6A描绘了一种数据库查询，其中非标准标记604以及上下文标记608和612是搜索引擎的搜索项。查询包括非标准标记“EASTBND”604。从文本语料库中选择上下文标记“STREET”608和“DETOUR”612，并将其包含到数据库查询中。在一个实施例中，所选择的上下文标记位于包括非标准标记的文本消息中的非标准标记附近，以提供非标准标记的上下文信息。例如，标准标记608和612可以和非标准标记604处于同一句话或者同一文本消息内。

过程500以所生成的查询来查询所选择的数据库（块516）。数据库生成包括一个或多个标记的查询结果。在查询网络数据库436时，将结果通过网络432和无线收发器428发送至系统100。在一些实施例中，系统100针对每一非标准标记生成多项数据库查询。每一数据库查询包括不同的一组上下文标记，从而使数据库能够针对每一查询生成不同组的结果。

过程500从数据库生成的结果中存在的一个或多个候选标记中识别出一标记，称作结果标记（块520）。数据库查询的结果通常包括多个标记。标记之一可能具有对应于查询中使用的非标准标记的值。在网络数据库436是搜索引擎时，搜索结果可以包括突出显示或者被标记为与搜索相关的标记。在搜索结果中出现多次的突出显示标记被认定为候选标记。

过程500对数据库结果中的候选标记进行过滤，从而从数据库结果中识别出结果标记。首先，将与数据库查询中包含的非标准标记或者任何上下文标记精确匹配的候选标记从作为结果标记的考虑中排除。之后，使剩余的候选标记中的每者沿最长共有字符序列与数据库查询中的非标准标记和上下文标记对准。文中采用的术语“最长共有字符序列”是指存在于接受比较的两个标记中的一个或多个有序字符的序列，其中，再没有其他为两标记所共有的字符的序列较之更长的了。将与任何上下文标记所共有的字符数量比和非标准标记所共有的字符数量多的那些具有最长共有序列的候选标记从作为结果标记的考虑中去除。如果候选标记不与数据库查询中提供的任何标记匹配，并且其与非标准标记的最长共有字符序列长于预定义阈值，那么将候选标记识别为对应于非标准标记的结果标记。

图6B示出了沿最长共有字符序列与图6A描绘的标记对准的候选标记“EASTBOUND”。标记“EASTBOUND”并不与任何数据库查询项604、608和612直接匹配。如图6B所示，两个上下文标记608和612与候选标记616之间分别具有两个字符和四个字符的最长共有字符序列，而非标准标记604则具有七个字符的最长共有序列。一旦被识别出，就将结果标记与非标准标记相关联地存储在存储器内。用于训练CRF模型的训练数据包括多对结果标记和非标准标记。

再次参考图5，过程500识别出可以对应于所识别出的非标准标记和结果标记的过渡结果（块522）。过渡结果是指这样一种状态：其中，结果标记还是非标准标记，并且另一非标准标记具有对应于标准标记的等价值。例如，第一对结果标记—非标准标记是（cauz，cuz），而第二对结果标记—非标准标记是（cause，cauz）。第一对中的结果标记“cauz”是非标准标记，第二对则使“cauz”与标准标记“cause”相关联。过程500使非标准标记“cuz”与过渡标准结果标记“cause”相关联。当数据库查询中的对应结果标记也是非标准标记时，非标准结果标记之间的过渡关联能够使过程500识别出一些非标准标记的标准标记。

过程500使非标准标记的在语言上可识别出的成分与结果标记中的对应成分对准（块524）。所述成分包括作为标准标记的部分的独立字符、字符组、音素和/或音节。非标准标记和结果标记之间沿各种成分对准有助于生成观察特征函数g_i的操作参数μ_i。在一个实施例中，如表1所示，使标准标记和非标准标记在字符、语音和音节级别上对准。表1描绘了标准标记EASTBOUND与非标准标记EASTBND的示范性对准。表1中识别出的特征只是在标记中共同识别出的特征的例子。替代实施例使用不同的特征，并且在对不同语言分析标记时也可以使用不同的特征。在表1中，“--”对应于空字符。

表1：标准标记和非标准标记之间的特征对准

在表1中，每一列包括对应于标准标记中的单个字符的特征的向量以及非标准标记中对应的单个字符。例如，标准标记中的字符“O”具有一组对应于字符“O”本身、下一字符“U”和下两个字符“OU”的字符特征。EASTBOUND中的字母O是音素

的部分，标记中的下一音素是英语国际音标（IPA）中定义的音素N。表1还将字符“O”识别为元音，并将O识别为不是音节中的第一字符。过程500将针对标准标记中的每一字符识别出的特征提取成特征向量（块526）。特征向量中的特征识别出结果标记中的多个观察到的特征，其对应于结果标记中的一个字符和非标准标记中的一个或多个对应字符之间的配对。

过程500识别出一旦提取了特征就要对结果标记中的字符执行用来生成非标准标记的操作（块528）。再次参考表1，结果标记“EASTBOUND”中的一些字符还存在于非标准标记“EASTBND”中。无变化的字符对应于单个字符操作，其中，使结果标记中的输入字符与非标准标记中具有等价值的字符相关联。将结果标记616中的特性“OU”映射至非标准标记604中的空字符。

如上所述，结果标记616和非标准标记604之间的每一操作对应于具有对应的操作参数μ_i的观察特征函数g_i的向量。当在训练数据对中出现一个具体的观察函数时，更新μ_i的对应值，以指示既定的观察特征函数出现过在训练数据中。例如，一个特征函数g_E-E描述了将结果标记616中的输入字符“E”转化为非标准标记604中的输出字符“E”的操作。当在训练数据中观察到对应于函数g_E-E的操作时，更新对应操作参数μ_E-E的值。当在非标准标记604中的字符之间存在一个具体的转换函数f_j时，更新对应的操作参数λ_j（块532）。对操作参数值的更新还参考了与结果标记中的每一字符相关联的特征向量。在所识别出的非标准标记中的特征之间的转换的基础上，按照类似的方式更新转换函数f_j的值λ_j的权重。

在一个实施例中，CRF训练过程500利用从训练数据提取出的特征使用有限存储器Broyden–Fletcher–Goldfarb–Shanno(L-BFGS)算法以及所识别出的由非标准标记和对应的标准标记构成的对来计算参数λ_j和μ_i。将与对应的转换特征函数f_j和观察特征函数g_i相关联的操作参数λ_j和μ_i存储到存储器内（块544）。在系统100中，将操作参数λ_j和μ_i存储到存储器112中的CRF模型数据132中。系统100使用生成的CRF模型数据132根据标准标记生成非标准标记，如过程200所描述的。

图7描绘了以标准标记替代文本消息中的非标准标记的过程700。将图1所示的系统100配置为执行过程700，并将系统100作为例子进行参考。过程700开始于识别文本消息中的非标准标记（块704）。在系统100中，将网络模块112配置为发送和接收文本消息。文本消息的常见形式包括SMS文本消息、接收自社交网络服务的消息、交通和天气警示消息、电子邮件消息、以及任何以文本格式发送的电子通信。文本消息通常包括非标准标记，控制器104通过识别出所具有的值不与任何标准标记124匹配的标记而识别出所述非标准标记。在系统100中，将非标准标记识别模块118配置为识别出文本消息中的标记，并将标记提供给控制器104，从而与标准标记124进行匹配。

过程700包括三个子过程，以识别对应于识别出的非标准标记的标准标记。一个子过程从非标准标记中去除重复的字符，以判定所得到的标记是否与标准标记匹配（块708）。另一子过程尝试使非标准标记与存储在存储器内的俚语标记和首字母缩写词匹配（块712）。第三子过程将非标准标记与对应于存储器内的每一标准标记的多个非标准标记进行比较（块716）。可以按照任何顺序或者并发地执行块708-716的过程。在系统100中，将控制器104配置为从非标准标记中去除重复字符，以判定非标准标记是否与标准标记124之一匹配。此外，将俚语和首字母缩写词与存储在存储器112内的标准标记124包含到一起。在替代配置中，将俚语和缩写标记的单独集存储到存储器112内。还将控制器104配置为对文本消息中的非标准标记和非标准标记128进行比较，以识别出与对应于标准标记124的非标准标记的匹配。

一些非标准标记对应于多个标准标记。在一个范例中，非标准标记“THKS”在与标准标记“THANKS”和“THINKS”相关联的非标准标记128的集合中出现两次。每一标准标记是用于替代非标准标记的候选标记。过程700采用统计语言模型，例如，单字母、双字母组或三字母组语言模型对每一候选标记排序（块720）。所述语言模型是一种统计模型，其在根据文本消息中的其他标记生成的条件概率的基础上向每一候选标记分配概率。例如，消息“HE THKS IT IS OPEN”包括与非标准标记“THKS”相邻的“HE”和“IT”。所述语言模型向标记“THANKS”和“THINKS”中的每者分配条件概率，该条件概率对应于假定任一标记紧挨着文本消息中的一组已知标记时所述标记是正确的标记的可能性。基于概率对标准标记排序，并将被分配了最高概率的标准标记选择为对应于非标准标记的标记。

过程700以所选择的标准标记替代文本消息中的非标准标记（块724）。在包括多个非标准标记的文本消息中，重复块704-724的操作，从而在文本中以标准标记替代每一非标准标记。将仅包括标准标记的经修改的文本消息称为规格化文本消息。在过程700中，将规格化文本消息作为输入提供给语音合成系统，该系统生成文本消息的听觉表示（块728）。在系统100中，将语音合成模块108配置为根据规格化文本消息中包含的标准标记生成听觉表示。替代系统配置对规格化文本消息执行其他操作，包括语言翻译、语法分析、文本搜索索引、以及其他得益于使用文本消息中的标准标记的文本操作。

图8描绘了为在车辆中使用而提供的系统100的替代配置。将语言分析系统850可操作地连接至车辆804中的通信和语音合成系统802。语言分析系统850生成对应于多个标准标记的多个非标准标记，并且将系统802配置为在执行语音合成之前以标准标记替代文本消息中的非标准标记。

语言分析系统850包括控制器854、存储器858、训练模块874和网络模块878。存储器858存储CRF模型数据862、文本语料库866、多个标准标记824和非标准标记828。将控制器854配置为利用过程500生成CRF模型数据。具体而言，网络模块878向数据库840发送数据库查询并接收来自其的数据库查询，例如，数据库是在线搜索引擎，其通过数据网络836通信地连接至网络模块878。控制器854对训练模块874进行操作，从而利用文本语料库866为CRF模型生成训练数据。控制器854和训练模块874利用如过程500所述的训练数据生成CRF模型数据862。语言分析系统850还被配置为执行过程200，从而利用根据CRF模型数据862生成的CRF模型从标准标记824生成非标准标记828。将标准标记824和对应的非标准标记828经由网络模块878提供给一个或多个车载语音合成系统，例如，通信和语音合成系统802。

车辆804包括具有控制器808、存储器812、网络模块816、非标准标记识别模块818和语音合成模块820的通信和语音合成系统802。存储器812包括多个标准标记824，标准标记824中的每者与多个非标准标记828相关联。系统802经由数据网络836从语言分析系统850接收标准标记824和相关联的非标准标记828。将控制器808配置为以来自存储器812中的标准标记824的标准标记替代文本消息中的非标准标记。系统802经由网络模块816从语言分析系统850接收标准标记824和相关联的非标准标记828。系统802利用非标准标记识别模块818识别出文本信息中的非标准标记，并利用语音合成模块820如上文过程700所述的生成对应于规格化文本消息的合成语音。尽管将系统802描绘成置于车辆804中，但是替代实施例将系统802置于诸如智能手机的移动电子装置中。

在图8的配置当中，将语言分析系统配置为利用从诸如系统802的多个通信系统发送以及接收自所述系统的所选择的文本消息持续更新文本语料库866。因而，文本语料库866反映由各种各样的用户发送和接收的实际本文消息。在一种配置当中，将文本语料库866配置为接收个体用户的更新，从而使之包括具有非标准标记的消息，非标准标记包含在用户发送和接收的文本消息内。例如，可以利用车辆804的用户发送和接收的文本消息来更新文本语料库866。因此，文本语料库866包括车辆804的个体用户更常见的非标准标记，并且非标准标记828是基于针对个体用户的文本信息而生成的。将系统850配置为存储文本语料库并生成针对多个用户的个人化非标准标记。

在操作中，将语言分析系统850配置为通过执行过程500而周期性地更新CRF模型数据862，并利用CRF数据模型修订非标准标记828。通信和语音合成系统802接收对标准标记824和非标准标记828的更新，以实现改善的语音合成结果。

应当认识到，可以根据期望将上文公开的以及其他特征和功能的变型或其替代方案结合到很多其他的不同系统、应用和方法当中。例如，尽管将上述实施例配置为使用对应于英语词语的标准标记，但是各种其他语音也适合使用文中描述的实施例。接下来，本领域技术人员可以做出各种当前未预见到的或者未预料到的替代方案、修改、变化和改进，下述权利要求旨在将这些也包含在内。

Claims

1.一种用于根据存储在存储器内的标准标记生成非标准标记的方法，包括：

从存储在存储器内的多个标准标记中选择标准标记，所选择的标记具有多个输入字符；

针对所述多个输入字符中的每一输入字符，根据随机场模型从多项预定操作中选择操作；

在每一输入字符上执行所选择的操作，以生成不同于所述多个标准标记中的每一标记的输出标记；以及

将所述输出标记与所选择的标记相关联地存储到存储器内。

2.根据权利要求1所述的方法，在每一输入字符上执行的操作是下述操作之一：

在所述输出标记中提供输入字符；

在所述输出标记中以一个不同的字符替代输入字符；

在所述输出标记中以多个不同字符替代输入字符；以及

在所述输出标记中不提供输入字符。

3.根据权利要求1所述的方法，其中，所述随机场模型是条件随机场模型。

4.根据权利要求3所述的方法，还包括：

在生成所述输出标记之前，为所述条件随机场模型生成多个操作参数，为所述条件随机场模型生成多个操作参数包括：

将存储在存储器内的第二多个标记中的每一标记与所述多个标准标记中的标准标记进行比较；

响应于所述第二多个标记中的第一标记不同于所述多个标准标记中的每一标记而将所述第一标记识别为非标准标记；

响应于所述第二多个标记中的第二标记为所述第一标记提供了上下文信息而将所述第二标记识别为上下文标记；

生成至少一项数据库查询，所述至少一项数据库查询包括所述第一标记和所述第二标记；

以至少一项生成的数据库查询来对数据库进行查询；以及

从根据所述数据库获得的结果中识别对应于所述第一标记的结果标记。

5.根据权利要求4所述的方法，其中，所述数据库是搜索引擎，所述第一标记和所述第二标记是搜索引擎的搜索项。

6.根据权利要求4所述的方法，为所述条件随机场模型生成多个操作参数还包括：

使所述结果标记中的每一字符与非标准标记中的至少一个字符对准；

在所述结果标记中识别对应于所述结果标记中的每一字符的至少一个特征；

在所述多项预定操作中识别根据结果标记中对应的对准字符而生成非标准标记中的至少一个字符的操作；以及

参考所识别出的操作以及结果标记中的对准字符的至少一个特征，更新所述条件随机场模型的操作参数。

7.根据权利要求4所述的方法，还包括：

为所选择的标准标记生成多个非标准标记，所述多个非标准标记中的至少一些不同于所述第二多个标记中的每一标记；以及

将所述多个非标准标记与所选择的标准标记相关联地存储到存储器内。

8.根据权利要求1所述的方法，还包括：

识别具有至少一个标记的文本消息中的非标准标记，所述非标准标记对应于存储在存储器内的非标准标记；

获得与来自所述存储器的非标准标记相关联的标准标记；

以所述标准标记替代所述文本消息中的非标准标记；以及

合成对应于所述文本消息中的至少一个标准标记的语音。

9.根据权利要求8所述的方法，还包括：

识别存储在存储器内与所述非标准标记相关联的多个标准标记；

对与所述非标准标记相关联的每一标准标记应用次序，所述次序是指每一标准标记出现在文本消息中的概率；以及

以所述多个标准标记中具有最高次序的标准标记替代所述非标准标记。

10.一种用于生成在随机场模型中使用的操作参数的方法，包括：

将存储在存储器内的第一多个标记中的每一标记与存储在存储器内的多个标准标记进行比较；

响应于所述第一多个标记中的第一标记不同于所述多个标准标记中的每一标准标记而将所述第一标记识别为非标准标记；

响应于所述第一多个标记中的第二标记为所述第一标记提供了上下文信息而将所述第二标记识别为上下文标记；

生成包括所述第一标记和所述第二标记的数据库查询；

以所生成的查询对数据库进行查询；

从自所述数据库获得的结果中识别对应于所述第一标记的结果标记；以及

将与所述第一标记相关联的结果标记存储到存储器内。

11.根据权利要求10所述的方法，所述结果标记不同于所述第二标记。

12.根据权利要求10所述的方法，所述结果标记的识别还包括：

在所述第一标记和从所述数据库获得的结果中的候选标记当中识别第一最长共有字符序列；

在所述第二标记和所述候选标记当中识别第二最长共有字符序列；以及

响应于所述第一最长共有字符序列具有比所述第二最长共有字符序列更大的字符数而将所述候选标记识别为结果标记。

13.根据权利要求10所述的方法，还包括：

识别对应于从所述数据库获得的结果中的第一标记的第一候选标记，所述第一候选标记是非标准标记；

识别对应于所述第一候选标记的第二候选标记，所述第二候选标记与存储在存储器内的第二多个标准标记中的标记匹配；以及

将与所述第一标记相关联的第二候选标记存储到存储器内。

14.一种用于根据标准标记生成非标准标记的系统，包括：

存储器，所述存储器存储多个标准标记和随机场模型的多个操作参数；以及

操作地连接至所述存储器的处理模块，所述处理模块被配置为：

从所述存储器为所述随机场模型获得操作参数；

根据所述操作参数生成所述随机场模型；

从所述存储器内的多个标准标记中选择标准标记，所选择的标准标记具有多个输入字符：

针对所选择的标准标记的多个输入字符中的每一输入字符，根据所述随机场模型从多项预定操作中选择操作；

在所选择的标准标记中的每一输入字符上执行所选择的操作，以生成不同于所述多个标准标记中的每一标准标记的输出标记；以及

将所述输出标记与所选择的标准标记相关联地存储到存储器内。

15.根据权利要求14所述的系统，所选择的操作是下述操作之一：

将输入字符提供给所述输出标记；

在所述输出标记中以一个不同的字符替代输入字符；

在所述输出标记中以多个不同字符替代输入字符；以及

在所述输出标记中删除输入字符。

16.根据权利要求14所述的系统，其中，所述随机场模型是条件随机场模型。

17.根据权利要求16所述的系统，还包括：

训练模块，其被配置为为所述条件随机场模型生成操作参数，所述训练模块操作地连接至所述存储器并且被配置为：

将存储在存储器内的第二多个标记中的每一标记与存储在所述存储器内的所述多个标准标记中的标准标记进行比较；

响应于所述第二多个标记中的第一标记不同于所述多个标准标记中的每一标准标记而将所述第一标记识别为非标准标记；

生成包括所述第一标记和所述第二标记的数据库查询；

以所生成的数据库查询对数据库进行查询；

从响应于所述数据库查询自所述数据库获得的结果当中识别对应于所述第一标记的结果标记；以及

将所述第一标记与所述结果标记相关联地存储到存储器内。

18.根据权利要求17所述的系统，所述训练模块还被配置为以所生成的数据库查询来对搜索引擎进行查询。

19.根据权利要求17所述的系统，所述训练模块还被配置为：

使所述结果标记中的每一字符与所述第一标记中的至少一个字符对准；

在所述多项预定操作中识别根据结果标记中对应的对准字符而生成所述第一标记中的至少一个字符的操作；以及

20.根据权利要求14所述的系统，还包括：

语音合成模块；以及

非标准标记识别模块，其操作地连接至所述存储器和所述语音合成模块，所述非标准标记识别模块被配置为识别存储在存储器内的文本消息中的非标准标记，所述文本消息中的非标准标记对应于存储在存储器内的标准标记；以所述标准标记替代所述文本消息中的非标准标记；并且将所述文本消息提供给所述语音合成模块以供语音合成。