CN115298736A

CN115298736A - 用于数据输入的语音识别和训练

Info

Publication number: CN115298736A
Application number: CN202180022530.4A
Authority: CN
Inventors: M·诺埃尔; A·弗里德; V·波瓦尔; S·M·基尔蒙
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2020-03-20
Filing date: 2021-02-23
Publication date: 2022-11-04
Also published as: AU2021238965B2; US11735169B2; KR20220122742A; JP2023517357A; AU2021238965A1; US20210295829A1; WO2021186268A1

Abstract

用于识别和训练以识别字母数字语音数据输入的方法、系统和计算机程序产品。方法可包括基于预定规则将数据输入分割成顺序的n‑gram块，其中，通过语音识别接收数据输入。方法还可包括接收关于数据输入的特性的元数据。方法还可包括基于元数据生成语言模型。方法还可包括生成数据输入的第一组语言模型变体。方法还可包括基于至少第一组语言模型变体来训练语言模型。方法还可包括使用经训练的语言模型生成用于数据输入的一个或多个替代。方法还可包括发送包括数据输入的一个或多个替代的输出。

Description

用于数据输入的语音识别和训练

技术领域

本公开涉及语音到文本技术，并且更具体地，涉及训练系统以识别语音到文本系统中的字母数字语音数据输入。

背景技术

随着技术能力的增加，越来越多地利用语音到文本能力。例如，当用户呼叫帮助台、服务等时，用户通常必须给出账号、社会保险号、生日、密码等。用户可以使用语音来输入所需数据(例如，通过电话用声音输入数据)。语音识别技术可用于确定经由语音输入的内容，并将该输入转变或转换为计算机系统可识别和处理的文本。

可以在各种不同的使用情况下使用语音识别技术。这些使用情况可能需要语音识别来处理和识别多种类型的话语。例如，常规语音识别使用情况包括使用(来自用户的)一般话语来识别意图和实体。常规语音识别基础模型可用于识别常用的单词和句子，并将它们转换成文本。例如，可识别“我的名字是John Doe”的一般话语并且通过常规语音识别模型将其转换成文本。

然而，常规语音识别技术可能具有更复杂话语的困难。例如，对于语音识别技术来说，识别诸如ID、日期或其他字母数字数据输入的数据输入可能是有挑战性的，并且常规语音识别技术在识别字母数字输入时可能不是非常准确的。字母数字数据输入可以是包括字母/单词和数字两者的数据输入。例如，可能难以使用常规语音识别技术来识别“my dateof birth is January 8,1974(我的出生日期是1974年1月8日)”的字母数字话语,这是由于话语中存在单词和数字的组合。常规语音识别可能不区分“8”与“h”；不区分“f”与“s”；不区分“d”与“t”；不区分“m”与“n”；不区分“4”与单词“for”；不区分“to”与“too”与数字“2”等。因此，继续先前的示例，常规语音识别可将上述语音输入转换成诸如“my date ofbirth is January H 1970 For(我的出生日期是1970年1月H日For)”的文本，该文本是不准确的。

因此，需要解决本领域中的上述问题。

发明内容

从第一方面来看，本发明提供了计算机实现的方法，包括：基于预定规则将数据输入分割成顺序的n-gram块，其中，通过语音识别接收所述数据输入；接收关于数据输入的特性的元数据；基于元数据生成语言模型；生成数据输入的第一组语言模型变体；至少基于第一组语言模型变体来训练语言模型；使用经训练的语言模型生成数据输入的一个或多个替代；以及发送包括数据输入的一个或多个替代的输出。

从另一个方面来看，本发明提供了具有一个或多个计算机处理器的系统，该系统被配置为：基于预定规则将输入数据分割为顺序的n-gram块，其中，数据输入是语音到文本转录；接收关于数据输入的特性的元数据；基于元数据生成语言模型；生成数据输入的第一组语言模型变体；至少基于第一组语言模型变体来训练语言模型；使用经训练的语言模型生成数据输入的一个或多个替代；以及发送包括数据输入的一个或多个替代的输出。

从另一方面来看，本发明提供了用于识别语音到文本系统中的字母数字语音数据输入的计算机程序产品，该计算机程序产品包括计算机可读存储介质，该计算机可读存储介质可由处理电路读取并且存储用于由该处理电路执行以便执行用于执行本发明的步骤的方法的指令。

从另一方面来看，本发明提供存储在计算机可读介质上并且可加载到数字计算机的内部存储器中的计算机程序，该计算机程序包括当程序在计算机上运行时用于执行本发明的步骤的软件代码部分。

从另一方面来看，本发明提供了计算机程序产品，包括计算机可读存储介质，该计算机可读存储介质具有实施有程序指令的程序指令，该程序指令可由服务器执行以使该服务器执行方法，该方法包括：基于预定规则将输入的数据分割成顺序的n-gram块，其中，该数据输入是语音到文本转录；接收关于数据输入的特性的元数据；基于元数据生成语言模型；生成数据输入的第一组语言模型变体；至少基于第一组语言模型变体来训练语言模型；使用经训练的语言模型生成数据输入的一个或多个替代；以及发送包括数据输入的一个或多个替代的输出。

本公开提供用于识别和训练字母数字语音数据输入的计算机实现的方法、系统和计算机程序产品。该方法可以包括基于预定规则将数据输入分割成顺序的n-gram块，其中，通过语音识别接收数据输入。方法还可包含接收关于数据输入的特性的元数据。该方法还可以包括基于元数据生成语言模型。该方法还可以包括生成第一组数据输入的语言模型变体。该方法还可以包括基于至少第一组语言模型变体来训练语言模型。该方法还可以包括使用经训练的语言模型生成用于数据输入的一个或多个替代。方法还可包含发送包含数据输入的一个或多个替代的输出。

系统和计算机程序产品可以包括类似的步骤。

以上概述并不旨在描述本公开的每个所示实施例或每个实现方式。

附图说明

本申请包括的附图被结合到说明书中并且形成说明书的一部分。附图示出了本公开的实施例，并且与说明书一起用于解释本公开的原理。附图仅说明某些实施例，而并不限制本公开。

图1描绘了根据一些实施例的用于训练语音识别技术并利用该技术识别字母数字语音数据输入的一组操作的流程图。

图2描绘了根据一些实施例的用于生成一组语言模型变体的一组操作的流程图。

图3描绘了根据一些实施例的示例语音识别环境的示意图。

图4描绘了根据一些实施例的利用4-gram块的示例语音到文本环境的示意图。

图5描绘了根据一些实施例的利用5-gram块的示例语音到文本环境的示意图。

图6描绘了根据一些实施例的样本计算机系统的框图。

本发明可修改成不同修改和替代形式，同时通过举例在附图中示出其细节并且详细描述该细节。然而，可理解，本发明并不局限于所描述的具体实施例。相反，本发明旨在覆盖落在本发明的范围内的所有修改、等同物以及替换物。

具体实施方式

本发明的方面涉及语音到文本技术，并且更具体地，涉及训练系统以识别语音到文本系统中的字母数字语音数据输入。虽然本公开不必限于这样的应用，但是可以通过使用该上下文对不同示例的讨论来理解本公开的各个方面。

本公开提供用于识别和训练字母数字语音数据输入的计算机实现的方法、系统和计算机程序产品。在一些情况下，在语音识别系统接收数据输入(例如，经由用户的语音)之后，数据可被分割成块(即，n-gram块)并且可经由分割的块进行处理。可使用各种规则和特征(包括特定于输入的规则、一般语音规则和变体等)来生成基于规则和特征的语言模性(以及，在一些实例中，声学模型)。该模型或多个模型可使用各种规则和特征以及各种数据输入来训练，以便改进该模型。将数据分割成块，并且使用各种规则和特征来生成和训练语言模型，可以改进用于字母数字数据输入的语音识别技术的准确性。

现在参见图1，描述了根据一些实施例的示出用于训练语音识别技术并利用该技术识别字母数字语音数据输入的方法100的流程图。在一些实施例中，方法100由语音识别系统(例如，语音识别系统330(图3)、语音识别系统430(图4)和/或语音识别530(图5))上的或连接到语音识别系统的服务器(例如，计算机系统/服务器602(图6))执行。在一些实施例中，方法100实现为在计算机系统(例如，计算机系统600(图6))上执行或连接到计算机系统(例如，计算机系统600(图6))的计算机脚本或计算机程序(例如，计算机可执行代码)。在一些实施例中，语音识别系统在计算机系统上或连接到计算机系统。

方法100包括用于接收数据输入的操作110。数据输入可以是语音到文本数据输入。在一些实施例中，接收数据输入包括接收语音数据输入并且将该语音转换成文本。在一些实施例中，在操作110中，在系统接收语音之前，语音已经被转换成文本。可以使用常规方法完成从语音到文本的转换。

例如，客户端(例如，公司)可使用常规语音识别技术来将用户语音转换成文本。然而，该常规语音识别技术可能不准确地将语音转换成文本。因此，客户端可以将文本数据输入(由于客户端已经将其转换成文本)发送到执行方法100的系统，以校正文本数据输入并创建用于将客户端在将来的转换中可以使用的语音转换成文本的改进模型。例如，用户可以用声音将信息输入到客户端系统(例如，保险公司、保健公司、或利用语音识别技术的任何其他公司)，客户端系统可以将语音转换成文本，然后可以将数据输入的文本发送到系统。

在一些实例中，不存在第三方客户端，并且执行方法100的系统是直接从用户接收语音的系统。在这些实例下，系统可在操作110中最初使用常规方法将语音转换成文本。例如，用户可以向系统用声音输入信息(例如，经由电话)，并且系统可以将语音/声音输入转换成文本。

方法100包括操作115，用于基于预定规则将数据输入分割成顺序的n-gram块。在数据输入被转换成文本(在操作110中讨论)后，数据输入可被分割成n-gram块，其中，n是相对于数据输入的长度(该数据输入在操作110中被接收并被建立为文本)。n-gram块可以是n个字母、数字、单词的序列或者三者的任意组合。在一些实施例中，n-gram块可以是4-gram块或5-gram块，因此将数据分割成顺序的n-gram块可以包括将数据分割成顺序的4-gram块或5-gram块。在一些实施例中，将数据输入分割成4-gram块(或5-gram块)包括将数据输入(以其文本形式)分解成顺序的4字符(或5字符)块。在一些实施例中，将数据输入分割成4-gram(或5-gram)块包括将数据输入分解成顺序的4单词(或5单词)块。下面讨论将数据输入分割成n-gram块的示例。

在一些实施例中，预定规则包括：对于9个位置(例如，字符、单词等)或更少的数据输入，n-gram块是4-gram块，并且对于10个位置或更多的数据输入，n-gram块是5-gram块。在一些实施例中，位置可以是字符(例如，字母或数字)。例如，包括“12345ABCD”的数据输入具有9个位置并且因此被分割成4-gram块。将示例数据输入分割成4-gram块可以包括将输入分割成块“1234”、“2345”、“345A”、“45AB”、“5ABC”和“ABCD”。这样，从第一字符开始，数据输入被分割成连续的4字符块，直到所有字符都被分割。

在另一个示例中，当输入包括单词和数字时，数据输入包括“my birthday isJanuary 1,1985(我的生日是1985年1月1日)”。在该示例中，各个位置可包括my-birthday-is-January-1,-1985(我的-生日-是-1月-1日，-1985)，其中空间指示数据输入的位置之间的分离。在该示例中，存在6个位置，因此将数据输入分割成4-gram块。将该示例数据输入分割为4-gram块可以包括将该输入分割成“my birthday is January(我的生日是1月)”、“birthday is January 1(生日是1月1日)”、“is January 1,1985(是1985年1月1日)”的块。

在另一示例中，包括“ABCDE98765”的数据输入具有10个位置(即，字符)，并且因此被分割成5-gram块。这些5-gram块可包括“ABCDE”、“BCDE9”、“CDE98”、“DE987”、“E9876”和“98765”的分割块。针对较长的输入扩展到5-gram块可以改进数据输入的上下文覆盖，特别是针对更长的位置(或字符)数据输入。5-gram块可以给出数据输入的更完整的覆盖，因为每个块中数据输入的5个位置在一起。4-gram块可以具有在每个块中包括的数据输入的4个位置。然而，对于更小的数据输入，通过将输入分解成5-gram块(与4-gram相对的)，可能最低限度地改进或者根本不改进数据输入的上下文覆盖。因此，可以通过将更小的输入(例如，9个位置或者更少)分解成4-gram块来节省资源(例如，带宽等)。

在本文中进一步讨论并且在图4中描述了被分割成4-gram块的示例性数据输入。在本文中进一步讨论并且在图5中描述了被分割成5-gram块的相同示例数据输入。

方法100包括用于接收关于数据输入的特性的元数据的操作120。在一些实施例中，关于数据输入的特性的元数据可包括数据输入的特定要求。例如，如果数据输入是社会保险号，则特定要求可以是数据输入具有9个位置(例如，9个字符)并且每个位置是数字。在另一示例中，如果数据输入是生日，则特定要求可以是数据输入包括月、日和年。

在另一示例中，数据输入可以是医疗保险输入(MBI)。MBI可以具有MBI编号的特定特性或特定规则集。这些特定特性可以是关于数据输入的特性的元数据。在MBI的示例中，可存在数据输入包括11个位置或11个字符的特定要求。这11个字符可能必须具有C/A/AN/N/A/AN/N/A/A/N/N的特定格式。可能存在特定要求：在任何C位置上的字符必须是从1至9的数字。另一特定要求可以是在任何N位置中的字符必须是从0至9的数字。另一特定要求可以是A位置中的字符必须是来自A-Z但是排除S、L、O、I、B和Z的字母字符。最后，可能存在另一要求：AN位置中的任何字符必须是A或N。MBI的所有这些示例特定要求可以是关于由系统接收的数据输入的特性的元数据。

在一些实施例中，由客户端确定关于数据输入的特性的元数据。客户端(例如，保险公司、保健公司、或使用语音识别技术的任何其他公司)可以具有针对其数据输入的特定规则(如保健ID、保险ID等)并且可以将这些规则或特性发送到执行方法100的系统。在一些实施例中，执行方法100的系统也是客户端，因此可以预先确定这些特性并将其输入到系统中。

方法100包括基于元数据生成语言模型的操作125。在一些实施例中，语言模型可以是用于将语音输入转换成文本的模型。如本文所讨论的，(在操作110中)所接收的数据输入可能已经使用常规方法被转换成文本，然而，这些常规方法在其转换中可能不是非常准确的，特别是对于字母数字数据输入。因此，可以生成(并且如在操作145中所讨论的，训练)语言模型，以便将语音更准确地转换成文本。该语言模型(特别是被训练后)可用于未来语音识别情形以将语音转换成文本。此外，语言模型可用于校正在操作110中接收的数据输入的转换。

在一些实施例中，语言模型是机器学习模型。在一些情况下，语言模型可以是正则表达式(regular expression，regex)算法。正则表达式算法可以将表达式中的每个字符与含义匹配。例如，使用MBI的以上示例，正则表达式算法可将每个字符与其对应(多个)特性(例如，与其C、A、N或AN的位置相关)匹配。在一些实例中，语言模型可以是规则匹配算法。规则匹配算法可有效地对许多字符应用或匹配许多规则或模式。例如，再次使用以上MBI示例，规则匹配算法可将字符必须是数字的规则匹配到位置C和N。规则算法也可将字符必须是字母的规则匹配到位置A和AN。在一些实例中，规则匹配算法可继续对位置规则匹配，直到所有规则都被匹配。在一些实施例中，语言模型是语音到文本语法模型。

在一些实施例中，生成语言模型包括创建示出元数据(关于数据输入的特性)与数据输入之间的关系的语言模型。例如，如果数据输入是4位的PIN号码，则数据输入的特性可以包括PIN号码的每个字符(或位置)是数字/号码。语言模型可示出PIN号码和元数据(字符是数字/号码)之间的关系。在另一示例中，如果数据输入是MBI，则语言模型可示出第一字符与元数据(指示第一字符必须是1和9之间的数字)之间的关系。语言模型还可示出第二字符与元数据(指示第二字符必须是A与Z之间的字母)之间的关系(以及对于MBI中的每个其他字符等等)。在一些实施例中，语言模型可示出元数据与数据输入的分割的n-gram之间的关系。生成语言模型可以包括映射在数据输入的每个组分和元数据之间的关系。

方法100包括用于生成数据输入的第一组语言模型变体的操作130。第一组语言模型变体可以是可以满足关于特性的元数据的标准的字符和/或位置的可能变化。例如，第一组语言模型变体可以是仍然遵循语言模型的字符/位置的可能变化。例如，如果数据输入是PIN号码(例如，4位数字代码)“1123”，则PIN号码的每个位置可以是在0与9之间的数字。因为四个数字中的每个数字有10个可能的数字(0-9)，所以在第一组语言模型变体中可以有1万个(10⁴)变化。该组一万个变体可以包括“1111”、“1112”、“1113”、“1234”、“2211”等，直到在该组中列出4位数字码的所有可能的变体。在一些实施例中，至少基于元数据和预定规则来生成第一组模型变体。

在本文中进一步讨论生成数据输入的第一组语言模型变体并在图2中进行描绘。

在一些实施例中，方法100还包括用于生成第二组语言模型变体的操作135。在一些实例中，生成第二组语言模型变体使用共同的用户元数据。共同的用户元数据可以是共同的语音模式、短语、单词、词语等。第二组语言模型变体可包括基于共同语音模式的数据输入的可能变化。继续先前示例，数据输入可以是4位PIN号码“1123”。如上所述，第一组语言模型变体可包括一组1万个变体。为了确定第二组语言模型变体，可使用共同语音模式。针对1123的共同的语音模式可以包括将“11”陈述为“十一”；将“11”陈述为“一、一”；将“23”陈述为“二十三”；将“23”陈述为“二、三”；将“12”陈述为“十二”等。因此，在该示例中，第二组语言模型变体包括至少“一、一、二、三”、“十一、二、三”、“十一、二十三”、“一、一、二十三”、“一、十二、三”等。在一些实施例中，可以使用机器学习来收集和学习共同的用户元数据。

在一些实施例中，方法100还包括操作140，用于针对第一组语言模型变体和第二组语言模型变体的子集创建预附文本和附加文本。预附文本可以是在数据输入之前输入的文本。例如，使用以上PIN号码示例，用户可以陈述(经由语音)“my PIN number is 1123(我的PIN号码是1123)”。文本“my PIN number is”可以是预附文本。附加文本可以是在数据输入之后输入的文本。例如，在相同的PIN号码示例中，用户可以陈述“1123 is my PINnumber(1123是我的PIN号码)”。文本“is my PIN number(是我的PIN号码)”可以是附加文本。可以使用历史文本数据输入(例如，使用常规方法获得的历史文本数据输入)来创建预附文本和附加文本。在一些实例中，使用关于共同语音模式的语音数据来创建预附文本和附加文本。

创建预附文本和附加文本可以包括基于第一组语言模型变体和第二组语言模型变体的子集来创建可以在数据输入中使用的样本预附和附加文本。例如，如果数据输入是4位的PIN号码，则第一组语言模型变体可包括PIN号码的一万个可能的变化。对于第一组语言模型变体中的一万个变化中的每一个，可能不需要生成样本预附文本(诸如“my PINnumber is…”)和样本附加文本(诸如“…is my PIN bumber”)。如果针对一万个变体中的每个变体生成预附文本和附加文本，则预附文本和附加文本可能是非常重复的。因此，可以例如针对一千个随机选择的变体(来自一万个变体)的子集生成预附文本和附加文本。一个变体可以具有诸如“this is my PIN number(这是我的PIN号码)……”的预附文本，另一个变体可以具有“ready？Ok,it is(准备好？好的，它是)……”，另一个变体可以具有简单的“It is(它是)”的预附文本。为了增加创建预附和附加文本的效率，可以仅使用语言模型变体的子集(因为可能需要审阅更少的变体)。

在一些实施例中，创建预附文本和附加文本包括分析共同的用户元数据。如本文所讨论的，共同的用户元数据可以是由用户使用的共同的语音模式、短语、单词、术语等。分析共同的用户元数据可以指示哪些短语(例如，预附和/或附加的数字或字母数字的数据输入)可以与数据输入一起使用。

在一些实施例中，创建预附文本和附加文本包括基于分析来确定当输入语音时使用的共同的预附短语和附加短语。在一些实施例中，系统可访问历史输入数据。历史输入数据可以包括关于由用户(例如，经由语音)提交的输入的过去数据。历史输入数据可以连同共同用户元数据一起用于确定预附和/或附加数据输入的共同短语。

在一些实施例中，创建预附文本和附加文本包括针对第一组语言模型变体和第二组语言模型变体的子集生成多个模板句子。在一些实施例中，可以选择第一组语言模型变体的随机子集和第二组语言模型变体的随机子集。对于(来自子集的)每个语言模型变体，可以生成模板句子(具有预附文本和/或附加文本)。例如，对于作为第一组语言模型变体的子集的语言模型变体(例如，PIN number 1111(PIN号码1111))，模板句子可以是“eleven-eleven is my PIN(十一-十一是我的PIN)”。

方法100包括操作145，用于基于至少第一组语言模型变体来训练语言模型。可基于数据输入本身，连同数据输入的一般规则、要求、特性等(如在操作120中接收的元数据所指示的)，生成原始生成的语言模型(在操作125中生成的)。最初生成的语言模型可能不考虑数据输入可能的所有特定变体。例如，数据输入(当说出时)可以是“一百七十五”，并且数据输入的特性可以包括该数据输入是5位的PIN号码。初始语音到文本转换(例如，使用常规方法完成)可以将语音转换为“175”。因为需要五个数字(基于元数据)，所以原始生成的语言模型可以将数据输入校正为“00175”。然而，在这个示例中，用户可能意味着传达数据输入是“10075”。在该示例中，5位PIN号码的所有可能变体可以是第一组语言模型变体。基于这些变体训练语言模型可以包括使模型学习5位PIN的每个可能的变体。以这种方式，训练的语言模型可以识别对语音输入的可能的替代转换是“10075”(在操作150中识别，使用在操作145中训练的模型)。使用原始学习模型可能没有识别出这一替代，因此在该示例中，经训练的模型可能是更准确的。第一组语言变化(包括针对数据输入的可能变体)可帮助训练模型以准确地识别和转换语音数据输入，因为语言模型可学习针对数据输入的所有可能变化或至少大量可能变化。

在一些实施例中，当方法100包括操作135和140时，可以进一步基于第二组语言模型变体和预附文本和附加文本来训练语言模型。第二组语言变体可包括基于共同语音模式的数据输入的变化，并且除了必要的数据输入之外，预附/附加文本还可包括可能的文本/语音。使用第一组语言模型变体、第二组语言模型变体和预附/附加文本训练语言模型可以允许语言模型学习当输入数据时可能发生的可能变体和语音习惯，并且因此可以更准确地将语音输入转换成文本。

在一些实施例中，还可使用第一组语言变体、第二组语言变体、预附和附加文本以及数据输入来生成和训练声学模型。声学模型可示出语言学单元(诸如音素)和音频输入之间的关系。在一些实施例中，可以基于数据输入的声音记录和文本转录本生成声学模型。然后，可以使用第一组语言变体、第二组语言变体、预附和附加的文本以及数据输入来训练模型。在一些情况下，还使用(在操作125中生成的)语言模型来训练声学模型。

方法100包括操作150，用于使用经训练的语言模型生成数据输入的一个或多个替代。在一些实施例中，操作150还使用经训练的声学模型。在一些实施例中，数据输入的一个或多个替代包括特定语音输入的一个或多个可能(其他)转换。例如，用户可以说“my dateof birth is January 8,1974(我的出生日期是1974年1月8日)”(例如，在电话中)。初始数据输入可能已经将语音转换成文本“my date of birth is January H 1970 for(我的出生日期是1970年1月H日for)”。初始数据输入可能将“8”误认为是“h”，将“4”误认为是“for”。使用经训练的学习模型，可以生成诸如“January A,1974(1974年1月A)”、“January8,1970(1970年1月8日)”和“January 8,1974(1974年1月8日)”的替代。在一些实例中，随着连续地学习和训练语言模型，在适当地识别/转换数据输入方面模型可变得越来越准确。在一些实例中，可以仅生成替代“January 8,1974(1974年1月8日)”(例如，当很好地训练模型时)。

方法100包括操作155，用于发送包括数据输入的一个或多个替代的输出。在一些实施例中，可以向客户端发送输出。客户端可以是用户和语音识别系统之间的中间物(例如，如图3所示)。在一些实施例中，客户端是执行方法100的系统的一部分，因此可将输出发送到系统的不同组件，例如，其可从各个用户直接接收语音输入。

参见图2，示出了根据一些实施例的用于生成一组语言模型变体的方法200的流程图。在一些实施例中，方法200可对应于操作130(图1)。

方法200包括操作210以确定数据输入的多个可能的变体。在一些实施例中，确定可能变体的数量是基于数据输入所必需的位置或字符的总数的(例如，如关于数据输入的特性的元数据所指示)。例如，指示PIN号码的数据输入可具有所要求的四个位置(因为PIN可以是4位PIN号码)。PIN号码可仅由数字组成，因此每个位置可具有在0-9之间的数字的可能性(即，十个可能的数字)。因此，在该示例中，可能变体的总数可为10⁴或一万个变体。

使用来自上面的11位置MBI示例，每个MBI位置可具有不同的规则。例如，第一位置(数字1-9)可以具有九个可能的数字，第二位置可以具有二十个可能的字母，第三位置可以具有两个可能的字母，第四位置可以具有十个可能的数字，第五位置可以具有二十个可能的字母，第六位置可以具有两个可能的字母，第七位置可以具有十个可能的数字，第八位置可以具有二十个可能的字母，第九位置可以具有二十个可能的字母，第十位置可以具有十个可能的数字，并且第十一位置可以具有十个可能的数字(基于上文讨论的特定MBI规则)。这可能导致总共大约80万亿个可能的变体。

方法200包括操作220以确定变体量是否是小数量的变体。在一些实施例中，小数量的变体是基于由客户端预先确定的阈值的。所考虑的“小”数量的变体可以取决于使用情况。例如，在一些使用情况下，小数量的变体可以是小于一百万个变体的变体数量。在其他使用情况下，小数量的变体可以是少于5百万个变体的变体数量。

在一些实施例中，确定可能变体的数量是否是小数量的变体包括将可能变体的数量与变体的阈值数量进行比较。如果可能的变体的数量大于变体的阈值数量，那么变体的数量可能是大(即，不是小)数量的变体。

如果确定可能的变体的数量是小数量的变体，则方法200可以进行到操作230以生成所有可能的语言模型变体。例如，继续先前的PIN号码示例，因为一万个可能的PIN号码变体小于一百万个变体，所以一万个可能的PIN号码变体可以是小数量的变体。因此，可以生成所有一万个可能的PIN号码变体。这些可以包括变体，诸如“1111”、“1122”、“2222”、“2233”、“3333”、“3344”、“4444”、“4455”、“5555”、“5566”、“6666”、“7777”、“8888”、“9999”等。

如果确定可能的变体的数量是大数量的变体或者不是小数量的变体，则方法200可以进行到操作235，以基于n-gram块生成用于数据输入的减少数量的变体。例如，如本文所讨论的，MBI的数据输入可具有80万亿个可能的变体，其可被确定为大(即，不小)数量的变化。因此，不是80万亿个变体中的每一个可能的变体都被产生。相反，可以基于n-gram块生成变体。例如，数据输入可能已经被分割成4-gram块。MBI数据输入可以是字母数字的(即，数据可以包括字母和数字两者)，因此可以存在36个可能的字符(26个字母(A-Z)和10个数字(0-9))。被分割成4-gram块的字母数字数据输入的变体的减少数量可以是36⁴，或者大约170万个变体。对于被分割成5-gram块的数据输入，字母数字数据输入的变体的减少数量可以是36⁵，或大约6000万个变体。

在一些实施例中，当(例如，在操作230中)生成所有可能的语言模型变体时，(在操作240中生成替代单词之后)确定哪些包括数字的语言模型变体具有替代单词。对于包括数字的每个语言模型变体，可用替代单词代替数字来生成额外的变体。例如，对于包括0的每个变体，可生成用“oh”或字母“O”替换“0”的额外变体。

在一些实施例中，当生成减少数量的变体(例如，在操作235中)时，(在操作240中生成替代单词之后)确定(来自减少数量的变体的)哪些语言模型变体包括具有替代单词的数字。对于包括数字的每个语言模型变体，可用替代单词代替数字来生成额外的变体。

方法200包括操作240以生成可以表示数字(基于共同的数字模式)的替代单词或文本。例如，单词“oh”可用于表示数字0。可以基于历史数据确定共同的数字模式。共同的数字模式可以是数字和/或号码的共同的替代发音。例如，数字0可发音为“oh”或“zero”。数字100可发音为“ahundred(一百)”、“one hundred(一百)”等。生成替代单词可包括生成具有共同替代发音的额外的语言模型变体。

参考图3，描绘了根据一些实施例的示例语音识别环境300的示意图。语音识别环境可以包括用户305、电话310、客户端320和语音识别系统330。在一些实施例中，语音识别系统330包括计算机系统500(图5)。在一些实施例中，语音识别系统330可以执行图1的方法100(和图2的方法200)。语音识别系统330包括语音到文本模块332、分割模块334和机器学习模块336。

在一些实施例中，用户305对电话310讲话。语音可从电话310发送到客户端320。客户端320可将语音输入发送到语音到文本模块332。在一些实施例中，语音到文本模块332可以接收语音输入(例如，图1的操作110)并且可以将语音输入转换成文本。然后，文本输入可以被发送到分割模块334，并且分割模块可以执行例如图1的操作115和120。被分割的数据输入(来自操作115(图1))可以被发送到机器学习模块336，并且机器学习模块336可以执行例如方法100(图1)的操作125-155。在一些实施例中，机器学习模块336可将输出发送回客户端320。在一些实施例中，机器学习模块还将更新的(例如，训练的)学习模型发送到语音到文本模块332。

在一些实施例中，客户端可以是语音识别系统330的所有者。因此，在一些实施例中，客户端320可以不包括在语音识别环境300中。在这些情况下，语音输入(来自电话310)可以直接转到语音到文本模块332。

参考图4，描绘了根据一些实施例的利用4-gram块的示例语音到文本环境400的示意图。语音到文本环境400可以包括对电话410陈述语音输入407(在该实例中，其是MBI)的用户405。在一些实施例中，用户405和电话410可对应于图3中的用户305和电话310。可将语音输入407发送到语音到文本模块432，且语音到文本模块432可将语音输入407转换成数据输入(即，文本输入)433。数据输入433被发送到分割模块434，并且分割模块可以将数据输入433分割成4-gram块。数据输入433的4-gram块包括1AA0、AA0A、A0AA、0AA0、AA0A、A0AA、0AA0和AA00。将数据输入433分割成4-gram块可以包括以数据输入433的第一位置开始并选择接下来的三个(不包括第一位置)位置。这可以是第一个4-gram块。分割数据输入433可进一步包括从数据输入433的第二位置开始并选择接下来的三个位置(不包括第二位置)。这可重复，直到数据输入433的所有位置都被分割。

语音到文本模块432和分割模块434可以是语音识别系统430的一部分。在一些实施例中，语音到文本模块432、分割模块434和语音识别系统430分别对应于语音到文本模块332、分割模块334和语音识别系统330(图3)。

参考图5，描绘了根据一些实施例的利用5-gram块的示例语音到文本环境500的示意图。语音到文本环境500可包括对电话510陈述语音输入507(在该实例中，其是MBI)的用户505。在一些实施例中，用户505和电话510可对应于图3中的用户305和电话310。可将语音输入507发送到语音到文本模块532，且语音到文本模块532可将语音输入507转换成数据输入(即，文本输入)533。数据输入533被发送到分割模块534，并且分割模块可以将数据输入533分割成5-gram块。数据输入533的5-gram块包括1AA0A、AA0AA、A0AA0、0AA0A、AA0AA、A0AA0和0AA00。将数据输入533分割成5-gram块可以包括以数据输入533的第一位置开始并选择接下来的四个(不包括第一位置)位置。这可以是第一个5-gram块。分割数据输入533还可包括从数据输入533的第二位置开始并选择接下来的四个位置(不包括第二位置)。这可以重复，直到数据输入533的所有位置都被分割。

语音到文本模块532和分割模块534可以是语音识别系统530的一部分。在一些实施例中，语音到文本模块532、分割模块534和语音识别系统530分别对应于语音到文本模块332、分割模块334和语音识别系统330(图3)。

参见图6，根据一些实施例，计算机系统600是以通用计算设备的形式示出的计算机系统/服务器602。在一些实施例中，计算机系统/服务器602位于链接设备上。在一些实施例中，计算机系统602连接至链接设备。计算机系统/服务器602的组件可以包括但不限于一个或多个处理器或处理单元610、系统存储器660、以及将包括系统存储器660的不同系统组件耦合至处理器610的总线615。

总线615表示任何若干类型的总线结构中的一个或多个，包括存储器总线或存储器控制器、外围总线、加速图形端口、以及使用各种总线架构中的任一种的处理器或局部总线。作为示例而非限制，该架构包括工业标准架构(ISA)总线、微通道架构(MCA)总线、增强型ISA(EISA)总线、视频电子标准协会(VESA)本地总线、以及外围组件互连(PCI)总线。

计算机系统/服务器602通常包括各种计算机系统可读介质。该介质可以是可由计算机系统/服务器602访问的任何可用介质，并且其包括易失性和非易失性介质、可移动和不可移动介质。

系统存储器660可包括易失性存储器形式的计算机系统可读介质，诸如随机存取存储器(RAM)662和/或高速缓存存储器664。计算机系统/服务器602可以进一步包括其他可移动/不可移动、易失性/非易失性计算机系统存储介质。仅通过示例的方式，存储系统665可以被提供用于从不可移除的非易失性磁性介质(未示出，并且通常被称为“硬盘驱动器”)进行读取和写入。尽管未示出，可以提供用于从可移动非易失性磁盘(例如，“软盘”)读取或向其写入的磁盘驱动器，以及用于从可移动非易失性光盘(如CD-ROM、DVD-ROM或其他光学介质)读取或向其写入的光盘驱动器。在这样的情况下，每一个可以通过一个或多个数据介质接口连接到总线615。如以下将进一步描绘和描述的，存储器660可以包括至少一个程序产品，该至少一个程序产品具有被配置成用于执行本公开的实施例的功能的一组(例如，至少一个)程序模块。

具有一组(至少一个)程序模块669的程序/实用程序668以及操作系统、一个或多个应用程序、其他程序模块和程序数据可以通过示例而非限制的方式存储在存储器660中。操作系统、一个或多个应用程序、其他程序模块和程序数据中的每一个或它们的一些组合可以包括网络环境的实现方式。程序模块669通常执行如在此所描述的本发明的实施例的功能和/或方法。

计算机系统/服务器602还可以与以下通信：一个或多个外部设备640(诸如键盘、指向设备、显示器630等)；使得用户能够与计算机系统、服务器602交互的一个或多个设备；和/或使得计算机系统/服务器602能够与一个或多个其他计算设备通信的任何设备(例如，网卡、调制解调器等)。该通信可经由输入/输出(I/O)接口620发生。此外，计算机系统/服务器602可以经由网络适配器650与诸如局域网(LAN)、通用广域网(WAN)和/或公共网络(例如，互联网)的一个或多个网络通信。如所描绘的，网络适配器650经由总线615与计算机系统/服务器602的其他部件通信。应当理解，虽然未示出，但是其他硬件和/或软件组件可以与计算机系统/服务器602结合使用。示例包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器和数据归档存储系统等。

本发明可以是任何可能的技术细节集成度的系统、方法和/或计算机程序产品。计算机程序产品可包括其上具有用于使处理器执行本发明的各方面的计算机可读程序指令的计算机可读存储介质(或多个介质)。

计算机可读存储介质可为可保留和存储供指令执行装置使用的指令的有形装置。计算机可读存储介质可以是，例如但不限于，电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备、或者上述的任意合适的组合。计算机可读存储介质的更具体的示例的非穷尽列表包括以下：便携式计算机盘、硬盘、随机存取存储器(RAM)、静态随机存取存储器(SRAM)、便携式紧凑盘只读存储器(CD-ROM)、数字通用盘(DVD)、记忆棒、软盘、诸如穿孔卡之类的机械编码设备或具有记录在其上的指令的槽中的凸出结构、以及上述各项的任何合适的组合。如本文所使用的计算机可读存储介质不应被解释为暂时性信号本身，例如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如，穿过光纤电缆的光脉冲)或通过电线发射的电子信号。

本文中所描述的计算机可读程序指令可以经由网络(例如，互联网、局域网、广域网和/或无线网络)从计算机可读存储介质下载到相应的计算/处理设备，或者下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输纤维、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配器卡或网络接口接收来自网络的计算机可读程序指令，并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。

用于执行本发明的操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路的配置数据、或以一种或多种程序设计语言的任何组合编写的源代码或目标代码，这些程序设计语言包括面向对象的程序语言(诸如Smalltalk、C++等)和过程程序设计语言(诸如“C”程序设计语言或类似程序设计语言)。计算机可读程序指令可以完全地在用户计算机上执行、部分在用户计算机上执行、作为独立软件包执行、部分在用户计算机上部分在远程计算机上执行或者完全在远程计算机或服务器上执行。在后一种情况下，远程计算机可以通过任何类型的网络(包括局域网(LAN)或广域网(WAN))连接到用户的计算机，或者可以连接到外部计算机(例如，使用互联网服务提供商通过互联网)。在一些实施例中，包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来使电子电路个性化来执行计算机可读程序指令，以便执行本发明的各方面。

下面将参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明。应当理解，可以由计算机可读程序指令实现流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合。

这些计算机可读程序指令可被提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器以产生机器，使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现在流程图和/或框图的或多个框中指定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，使得计算机、可编程数据处理装置、和/或其他设备以特定方式工作，从而，其中存储有指令的计算机可读存储介质包括包含实现流程图和/或框图中的或多个方框中规定的功能/动作的方面的指令的制品。也可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上，使得在计算机、其他可编程装置或其他设备上执行一系列操作步骤，以产生计算机实现的处理，使得在计算机、其他可编程装置或其他设备上执行的指令实现流程图和/或框图中的或多个方框中规定的功能/动作。

附图中的流程图和框图示出了根据本发明的一些实施例的系统、方法和计算机程序产品的可能实现方式的架构、功能和操作。对此，流程图或框图中的每个框可表示指令的模块、段或部分，其包括用于实现指定的逻辑功能的一个或多个可执行指令。在一些替代实现中，框中标注的功能可以不按照图中标注的顺序发生。例如，取决于所涉及的功能，连续示出的两个块实际上可以基本上同时执行，或者这些块有时可以以相反的顺序执行。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作或执行专用硬件与计算机指令的组合的专用的基于硬件的系统来实现。

已经出于说明的目的呈现了对本公开的不同实施例的描述，但并不旨在是详尽的或限于所公开的实施例。在不脱离所描述的实施例的范围的情况下，许多修改和变化对于本领域普通技术人员来说是显而易见的。这里使用的术语被选择来最好地解释实施例的原理、实际应用或对在市场中找到的技术的技术改进，或者使得本领域普通技术人员能够理解这里公开的实施例。

Claims

1.一种计算机实现方法，包括：

基于预定规则将数据输入分割成顺序的n-gram块，其中，通过语音识别接收所述数据输入；

接收关于所述数据输入的特性的元数据；

基于所述元数据生成语言模型；

生成所述数据输入的第一组语言模型变体；

基于至少所述第一组语言模型变体来训练所述语言模型；

使用所训练的语言模型生成用于所述数据输入的一个或多个替代；以及

发送包括用于所述数据输入的所述一个或多个替代的输出。

2.根据权利要求1所述的方法，其中，至少基于所述元数据和所述预定规则生成所述第一组语言模型变体。

3.根据权利要求2所述的方法，进一步包括：

响应于生成所述第一组语言模型变体，使用共同的用户元数据生成第二组语言模型变体；以及

针对所述第一组语言模型变体和所述第二组语言模型变体的子集，创建预附文本和附加文本。

4.根据权利要求3所述的方法，其中，还基于所述第二组语言模型变体、所述预附文本和所述附加文本训练所述语言模型。

5.根据权利要求3或4所述的方法，其中，创建所述预附文本和附加文本包括：

分析所述共同的用户元数据；

基于所述分析，确定当输入语音时使用的共同的预附短语和附加短语；以及

针对所述第一组语言模型变体和所述第二组语言模型变体的所述子集生成多个模板句子。

6.根据前述权利要求中的任一项所述的方法，其中，生成所述第一组语言模型变体包括：

确定所述数据输入的可能变体的数量。

7.根据权利要求6所述的方法，进一步包括：

确定所述数据输入的可能变体的数量低于变体的阈值数量；以及

响应于所述确定，生成所述数据输入的所有可能的语言模型变体。

8.根据权利要求6所述的方法，进一步包括：

确定所述数据输入的可能变体的数量高于变体的阈值数量；以及

响应于所述确定，基于所述n-gram块生成所述数据输入的减少数量的变体。

9.根据权利要求6所述的方法，其中，生成所述数据输入的所述第一组语言模型变体包括：

基于共同的数字模式生成可以表示数字的替代词。

10.根据前述权利要求中任一项所述的方法，其中，所述n-gram块是4-gram块和5-gram块中的一个。

11.根据前述权利要求中任一项所述的方法，其中，所述模型是语音到文本语法模型。

12.一种系统，其具有一个或多个计算机处理器，所述系统被配置为：

基于预定规则将数据输入分割成顺序的n-gram块，其中，所述数据输入是语音到文本转录；

接收关于所述数据输入的特性的元数据；

基于所述元数据生成语言模型；

生成所述数据输入的第一组语言模型变体；

基于至少所述第一组语言模型变体来训练所述语言模型；

发送包括用于所述数据输入的所述一个或多个替代的输出。

13.根据权利要求12所述的系统，其中，至少基于所述元数据和所述预定规则生成所述第一组语言模型变体。

14.根据权利要求13所述的系统，进一步被配置为：

15.根据权利要求14所述的系统，其中，还基于所述第二组语言模型变体、所述预附文本和所述附加文本训练所述语言模型。

16.根据权利要求14或15所述的系统，其中，创建所述预附文本和附加文本包括：

分析所述共同的用户元数据；

17.一种计算机程序产品，用于识别语音到文本系统中的字母数字语音数据输入，所述计算机程序产品包括：

计算机可读存储介质，所述计算机可读存储介质可由处理电路读取并且存储用于由所述处理电路执行以执行根据权利要求1至11中任一项所述的方法的指令。

18.一种计算机程序，存储在计算机可读介质上并可加载到数字计算机的内部存储器中，所述计算机程序包括软件代码部分，当所述程序在计算机上运行时，所述软件代码部分用于执行根据权利要求1至11中任一项所述的方法。