CN107967916B

CN107967916B - 确定语音关系

Info

Publication number: CN107967916B
Application number: CN201710985501.3A
Authority: CN
Inventors: 尼基·钱德鲁·拉奥; 塞苏雷什·克里希纳库马兰
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2016-10-20
Filing date: 2017-10-20
Publication date: 2022-03-11
Anticipated expiration: 2037-10-20
Also published as: EP3504709A1; DE102017124264B4; US20200234695A1; EP3504709B1; US11450313B2; GB201716855D0; US10650810B2; US20190295531A1; GB2557714A; CN107967916A; WO2018075224A1; DE102017124264A1; DE202017106303U1

Abstract

本申请涉及确定语音关系。提供了确定语音关系的系统和方法。例如，能够接收指示由用户输入的输入文本短语的数据。能够确定对应于输入文本短语的口语呈现的音频输出。能够确定输入文本短语的音频输出的文本转录。文本转录能够是音频输出的文本表示。文本转录能够与多个测试短语相比较来标识文本转录与至少一个测试短语之间的匹配。

Description

确定语音关系

技术领域

本公开总体上涉及确定两个或两个以上短语之间的语音关系。

背景技术

言语识别已经变为与计算设备交互的广泛采用并且频繁使用的模式。言语输入可以比传统输入模式(诸如通过键盘键入)更方便并且更高效。例如，移动计算设备可以提供言语识别服务作为通过触摸屏上的虚拟键盘键入字符的备选输入模式。一些计算设备被配置成从用户接受声音命令，例如作为在计算设备上执行某些动作的快捷方式。以这种方式，这样的计算设备能够被配置成解译声音命令，并且基于声音命令解译而执行一个或多个动作。

在一些实例中，计算应用或服务的开发者能够选择能够由一个或多个用户使用以调用计算设备上的计算应用或服务的声音命令。确保这样的所选择的声音命令与已保留以调用其他计算应用或服务的其他声音命令语音上不同能够是重要的。以这种方式，向开发者或其他方指示由开发者或其他方所选择的声音命令是否与一个或多个所保留的声音命令语音上类似能够是有益的。

发明内容

本公开的实施例的各方面和优点将在以下描述中部分地阐述或者可以从描述学习或者可以通过实施例的实践学习。

本公开的一个示例方面涉及一种确定两个或两个以上短语之间的语音关系的计算机实现的方法。方法包括通过一个或多个计算设备接收指示由用户输入的输入文本短语的数据。方法还包括通过一个或多个计算设备确定对应于输入文本短语的口语呈现的音频输出。方法还包括通过一个或多个计算设备确定输入文本短语的音频输出的文本转录。文本转录包括音频输出的文本表示。方法还包括通过一个或多个计算设备将文本转录与多个测试短语相比较来标识文本转录与至少一个测试短语之间的匹配。

本公开的其他示例方面涉及用于确定语音关系的系统、装置、有形非瞬态计算机可读介质、用户界面、存储器设备和电子设备。

各种实施例的这些和其他特征、方面和优点将参考以下描述和随附的权利要求变得更好理解。并入本说明书中并且构成其一部分的附图图示了本公开的实施例，并且连同说明书用于解释相关的原理。

附图说明

在参考附图的说明书中阐述涉及本领域的普通技术人员的实施例的详细讨论，其中：

图1描绘了根据本公开的示例实施例的用于确定语音关系的示例系统的概述；

图2描绘了根据本公开的示例实施例的示例用户界面；

图3描绘了根据本公开的示例实施例的确定语音关系的示例方法的流程图；以及

图4描绘了根据本公开的示例实施例的示例系统。

具体实施方式

现在将详细参考实施例，其中的一个或多个示例被图示在附图中。通过实施例的解释而非本公开的限制的方式提供每个示例。实际上，对于本领域的技术人员而言将明显的是，可以对实施例做出各种修改和变型而不脱离本公开的范围或精神。例如，被图示或被描述为一个实施例的一部分的特征可以与另一实施例一起被用于产生又一实施例。因此，本公开的各方面旨在覆盖这样的修改和变型。

本公开的示例方面涉及确定两个或两个以上短语之间的语音关系。如本文所使用的，术语“短语”能够被定义为一个或多个字母的序列。例如，短语能够包含组成一个或多个词语的字母的序列。输入文本短语能够被转换为对应于输入文本短语的合成言语呈现的音频输出。然后能够例如使用言语识别技术来确定音频输出的文本转录。文本转录能够然后与多个测试短语相比较来确定文本转录与多个测试短语中的一个或多个之间的确切匹配。如果没有找到确切匹配，则能够确定输入文本短语与测试短语中的每个测试短语语音上不同。以这种方式，输入文本短语的音频输出能够表示输入文本短语的语音发音。通过将输入文本短语转换为音频输出并且随后地将音频输出转换为文本格式，能够确定输入文本短语的语音发音的文本表示(例如，文本转录)。

在一些实施方式中，本公开的示例方面能够被实现在声音命令验证系统内或与其相关联。以这种方式，根据本公开的示例方面的两个或两个以上短语之间的语音关系的确定能够被用于确定所提出的声音命令是否是与已经由计算平台使用的多个保留的声音命令(例如，测试短语)语音上不同的授权的声音命令。以这种方式，能够确保单个声音命令(或多个语音上类似的声音命令)不被用于调用与计算平台相关联的多个计算应用或服务。如此，由计算平台所执行的操作的数目能够减少，例如由无意地调用的应用所执行的操作、或请求由用户造成的声音命令的澄清和应答的处理的操作。计算平台的处理器的操作能够减少并且因此计算平台的功耗能够减少。

作为一个特定示例，“profit(利润)”的输入文本短语能够由用户输入。输入文本短语能够被转换为对应于词语“profit”的合成言语呈现的音频输出。能够确定音频输出的文本转录。例如，文本转录能够是读作“prophet(先知)”的转录，其是词语“profit”的同音词(例如，与其语音上类似)。文本转录能够与测试短语的列表相比较来标识文本转录与测试短语中的一个或多个之间的匹配。如果测试短语的列表包括词语“prophet”，则能够找到匹配，并且输入文本短语“profit”能够被标识为与在测试短语的列表中找到的词语“prophet”语音上类似。

更特别地，输入文本短语能够是以文本形式由用户输入的一个或多个词语的序列。输入文本短语能够由用户例如使用与诸如智能电话、平板电脑、膝上型计算设备、台式计算设备、可穿戴计算设备或其他适合的用户设备的用户计算设备相关联的键盘(例如，触摸键盘或物理键盘)或小型键盘输入。输入文本短语能够被转换为对应于输入文本短语的人工产生的言语的音频输出。音频输出能够是被配置用于由音频播出设备播放的音频波形。输入文本短语能够使用各种适合的言语合成或文本到言语技术而被转换为音频输出。

例如，在一些实施方式中，将输入文本短语转换为音频输出能够包括确定与文本的口语呈现应该听起来如何的符号表示相对应的输入文本短语的语音转录。语音转录能够包括语音言语单元——诸如音素、单音或其他适合的语音言语单元——的序列。语音言语单元能够对应于一段言语的声学表示。在一些实施方式中，输入文本短语能够被分解为词语的序列，并且输入文本短语中的每个词语能够被转换为音素的序列以确定语音转录。在一些实施方式中，输入文本短语的每个词语能够被转换为字素的序列。如本领域的技术人员将理解到，字素通常指代给定语言的书写系统的最小单位。字素能够然后被转换为音素的序列来确定语音转录。在一些实施方式中，能够进一步确定输入文本短语的一个或多个韵律特征(例如，与语言功能相关联的特征，诸如语调、音调、重音、节奏等)。

语音转录能够然后被映射到对应于语音转录的口语呈现的音频输出。在一些实施方式中，至少部分地基于与语音转录相关联的韵律特征，语音转录能够被映射到对应的音频输出。例如，在一些实施方式中，语音转录能够被映射到对应于语音转录的声学呈现的一个或多个声学特征。声学特征能够采取特征向量的形式(例如，美尔频率倒谱系数(MelFrequency Cepstral Coefficients)或其他适合的特征向量)，其包括言语波形的可量化性质，诸如例如频率和光谱功率。声学特征能够然后被转变为表示声学特征的言语波形的物理性质。音频输出能够被生成为能够存储或记录在计算机可读介质上的音频文件。例如，音频文件能够适于由音频播出设备对音频文件的后续播放。将理解到，各种适合的言语合成技术能够被用于将语音转录映射到音频输出，诸如例如拼接合成、单位选择合成、双音合成、领域特定合成、格式合成、发音参数合成、基于隐藏马尔可夫模型(HMM)的合成、正弦波合成和/或其他适合的言语合成技术。

音频输出能够随后地使用一个或多个适合的言语识别技术被转换为文本格式。以这种方式，能够确定音频输出的文本转录。特别地，确定文本转录能够包括确定与音频输出相关联的一个或多个声学特征。例如，音频输出能够被分段为多个段，并且能够针对每个段确定一个或多个声学特征(例如，特征向量)。特征向量能够被映射到一个或多个音素。指示映射的音素和/或特征向量的数据能够被提供到一个或多个语言模型(例如，n元语法语言模型或其他适合的语言模型)。一个或多个语言模型能够被用于确定音频输出的转录。在一些实施方式中，文本转录能够被提供到通用或基线语言模型。这样的通用语言模型能够包括多个常用短语。通用语言模型还能够包括与每个短语相关联的概率估计。概率估计能够指定给定序列中的每个短语的发生的概率的估计。以这种方式，给定一个或多个先前发出的词语，通用语言模型能够定义词语的发生的所估计的概率。在一些实施方式中，一个或多个声学模型(隐藏马尔可夫模型、神经网络等)还能够被用于确定音频输出的转录。这样的声学模型能够定义多个音频信号与语音言语单元之间的统计关系。

在一些实施方式中，确定音频输出的转录能够包括将指示所确定的特征向量和/或所映射的音素的数据提供给偏置或专用语言模型。例如，能够通过使通用语言模型朝向多个测试短语偏置生成偏置语言模型。特别地，能够通过增加被包括在多个测试短语中的短语的概率估计来生成偏置语言模型。以这种方式，偏置语言模型能够指定测试短语的发生的增加的估计概率。

以这种方式，能够至少部分地基于偏置语言模型和/或通用语言模型来确定音频输出的文本转录。在一些实施方式中，能够使用通用语言模型确定第一转录并且能够使用偏置语言模型确定第二转录。特别地，能够针对第一转录确定第一置信度识别得分并且能够针对第二转录确定第二置信度识别得分。置信度识别得分能够相应地指定转录的准确度的估计置信度。能够至少部分地基于置信度识别得分来选择转录。例如，所选择的转录能够是具有更高的置信度识别得分的转录。在一些实施方式中，能够确定并且选择表示转录中的一个或多个词语的备选拼写的多个文本转录。例如，在继续上述使用“profit”的输入文本短语的示例中，能够选择词语“profit”的第一文本转录并且能够选择词语“prophet”的第二文本转录。

一旦确定音频输出的文本转录，文本转录就能够与多个测试短语相比较来确定文本转录是否被包括在多个测试短语中。在选择多个文本转录的实施方式中，每个文本转录能够与多个测试短语相比较。以这种方式，多个测试短语能够被搜索以确定测试短语中的一个或多个与文本转录之间的直接匹配。如果没有找到直接匹配，则能够确定输入文本短语与多个测试短语语音上不同。如果找到直接匹配，则能够确定输入文本短语与一个或多个测试短语语音上相同或者类似。

在一些实施方式中，如果在文本转录与一个或多个测试短语之间找到直接匹配，则能够确定输入文本短语与文本转录之间的语音距离。语音距离能够被确定以确定输入文本短语是否与文本转录语音上类似。语音距离的这种确定能够被用于验证输入文本短语与一个或多个测试短语语音上相同或者类似的确定。以这种方式，如果输入文本短语与文本转录语音上类似，则能够确定：因为文本转录被确定为语音上与一个或多个测试短语相同，并且输入文本短语被确定为语音上与文本转录类似，所以输入文本短语与一个或多个测试短语语音上类似。

能够通过输入文本短语和文本转录转换为相应的音素序列来确定语音距离。特别地，能够针对输入文本短语确定第一音素序列，并且能够针对文本转录确定第二音素序列。然后能够至少部分地基于第一音素序列和第二音素序列来确定语音距离。例如，能够通过确定与第一音素序列不同的第二音素序列的音素的数目来确定语音距离(例如，来自将需要被改变以便匹配第一音素序列的第二音素序列的音素的数目)。

如果语音距离小于预定义阈值，则能够确定输入文本短语与文本转录语音上类似。以这种方式，能够确定输入文本短语与一个或多个测试短语语音上类似。如果语音距离大于阈值，则能够推断输入文本短语与多个测试短语语音上不同。在一些实施方式中，如果语音距离大于阈值，则能够再次执行整个过程。

根据本公开的示例方面确定短语之间的语音关系能够允许这种语音关系被实时或近实时地确定。以这种方式，一旦将输入文本短语输入到用户设备，就能够例如实时或近实时地在用户设备的用户界面内向用户提供输入文本短语与测试短语之间的语音关系的指示用户界面。能够使用与常规语音关系确定技术相比较更少的处理资源、带宽和/或数据传输执行这种语音关系确定技术。根据本公开的示例方面确定语音关系所要求的时间和资源不取决于多个测试短语中的测试短语的数目。以这种方式，多个测试短语能够包括任何适合的数目的测试短语而不牺牲确定技术的质量。更进一步地，这样的语音关系确定技术不依赖于成批处理。

现在参考附图，将更详细地讨论本公开的示例方面。例如，图1描绘了确定两个或两个以上短语之间的语音相似性的示例系统100的概述。系统100包括用户设备102和服务器104。用户设备102能够是任何适合的用户设备，诸如智能电话、平板电脑、膝上型计算机、台式计算机、可穿戴计算设备或其他适合的用户设备。服务器104包括言语合成器106、音频转录器108和语音关系确定器110。用户设备102能够例如经由网络与服务器104通信。在一些实施方式中，能够在用户设备102上本地执行与言语合成器106、音频转录器108和/或语音关系确定器110相关联的一个或多个功能。

用户设备102能够被配置成从用户接收指示输入文本短语的输入。特别地，用户设备102能够被配置成例如在与用户设备相关联的显示设备上显示用户界面。用户界面能够提示用户对输入文本短语进行输入。例如，图2描绘了根据本公开的示例实施例的显示示例用户界面120的示例用户设备102。用户界面120包括被配置成接收文本输入的文本字段122。用户能够例如使用键盘124将输入文本短语输入到文本字段122中。用户能够通过与提交接口元件126交互来提交请求。键盘124能够是被显示在用户界面120内的触摸键盘。将理解到，能够使用各种其他适合的输入设备，诸如物理键盘、小键盘或其他适合的输入设备。

一旦确定输入文本短语和一个或多个测试短语之间的语音关系(例如，输入文本短语是与一个或多个测试短语语音上不同，还是与其语音上类似)，用户界面120就能够被配置成将语音关系的指示提供给用户。例如，在一些实施方式中，用户界面能够显示表示语音关系的适合的指示。

一旦从用户接收到输入文本短语，用户设备就能够将指示输入文本短语的数据提供到服务器104。服务器104能够然后确定输入文本短语是否与一个或多个测试短语112语音上类似。例如，返回参考图1，言语合成器106能够被配置成确定与输入文本短语的合成口语呈现相对应的音频输出。例如，通过音频设备的音频输出的播放能够听起来像正在说出输入文本短语的词语的人类声音。

特别地，言语合成器106能够被配置成通过确定输入文本短语的语音转录来确定音频输出。如所指示的，语音转录能够包括语音言语单元的序列，其各自对应于与输入文本短语相关联的一段言语的声学表示。在一些实施方式中，语音转录能够伴随有指示语音转录的语音言语单元的适当和/或预期言语呈现的上下文信息。例如，上下文信息能够包括输入序列内的所标识的音素的相对位置(例如，左上下文、右上下文等)。上下文信息还能够包括指示所标识的音素的声学呈现的预期持续时间、和更多的延伸的波形内的音素的相对定时位置的定时信息。上下文信息还能够包括指示音素的声相位的状态信息。

言语合成器106能够例如至少部分地基于与语音转录相关联的上下文信息来将语音转录映射到一个或多个预测的特征向量。言语合成器106能够至少部分地基于映射来生成与语音转录相对应的预测的特征向量的集合。预测的特征向量能够包括确定对应波形的声学性质的声学度量。以这种方式，预测的特征向量能够被转译为对应于音频输出的波形。通过示例，特征向量能够包括各种适合的声学度量，诸如美尔倒谱系数(Mel-CepstralCoefficients)、线谱对(Line Spectral pairs)、线性预测系数(Linear Predictivecoefficients)、美尔广义倒谱系数(Mel-Generalized Cepstral Coefficients)、基本频率(f0)、非周期测量、对数功率谱或相位。

如所指示的，言语合成器106能够将特征向量转译为与输入文本短语的口语呈现相对应的音频输出波形。在一些实施方式中，言语合成器能够通过将特征向量映射到被存储在言语数据库114中的预定义言语波形段来确定音频输出。将理解到，言语合成器106能够使用各种适合的语音合成技术将语音转录映射到音频输出，诸如例如拼接合成、单位选择合成、双音合成、领域特定合成、格式合成、发音参数合成、基于隐藏马尔可夫模型(HMM)的合成、正弦波合成和/或其他适合的言语合成技术。

在一些实施方式中，能够使用诸如各种适合的语音、语音采样率等的各种参数来确定音频输出。以这种方式，言语合成器106能够通过调节这种参数来控制音频输出的保真度。

一旦确定音频输出，音频转录器108就能够被配置成使用一个或多个适合的言语识别技术来确定音频输出的文本转录。特别地，音频转录器108能够被配置成将音频输出波形分段为多个段，并且从多个段提取多个特征向量。音频转录器108能够然后至少部分地基于一个或多个言语识别模型116从特征向量生成词序列。一个或多个言语识别模型能够包括一个或多个声学模型(例如，HMM、神经网络、分段模型、超级分段模型、最大熵模型、条件随机字段等)，以及一个或多个语言模型(例如，语法、n元语法语言模型、随机语言模型等)。声学模型能够指定音频输出的统计性质。例如给定一个或多个先前地确定的词语，语言模型能够指定词语的发生的概率估计。如本领域的技术人员将理解到，音频转录器108能够至少部分地基于言语识别模型116确定一个或多个词语的序列，使得词语的所确定的序列具有用于输入特征向量的最大后验概率。例如，在一些实施方式中，音频转录器108能够使用Viterbi译码器来确定词语的序列。

在一些实施方式中，言语识别模型116能够包括通用语言模型和偏置语言模型。以这种方式，音频转录器108能够至少部分地基于通用语言模型和/或偏置语言模型来确定文本转录。如所指示的，例如，通过相对于在通用语言模型中所指定的多个测试短语112的概率估计增加与多个测试短语112相关联的概率估计，偏置语言模型能够至少部分地基于通用语言模型而确定。以这种方式，在一些实施方式中，能够至少部分地基于偏置语言模型确定文本转录。

在一些实施方式中，音频转录器108能够使用通用语言模型确定第一转录并且使用偏置语言模型确定第二转录。音频转录器108还能够确定针对第一转录的第一置信度识别得分和针对第二转录的第二置信度识别得分。能够至少部分地基于置信度得分来选择第一转录或者第二转录。在一些实施方式中，能够使用一个或多个附加语言模型来确定一个或多个附加转录。附加的转录能够具有伴随的置信度识别得分，使得至少部分地基于置信度识别得分来确定所选择的转录。在一些实施方式中，多个转录能够被选择以容纳词语的备选拼写。

一旦确定音频输出的文本转录，语音关系确定器110能够将文本转录的一个或多个词语与多个测试短语112相比较来确定文本转录与一个或多个测试短语之间的匹配。如果确定匹配，则语音关系确定器110能够确定输入文本短语与一个或多个测试短语语音上类似。如果没有确定匹配，则语音关系确定器110能够确定输入文本短语与每个测试短语语音上不同。

在一些实施方式中，如果在文本转录与一个或多个测试短语之间确定直接匹配，则语音关系确定器110能够确定输入文本短语与音频输出的文本转录之间的语音距离。特别地，语音关系确定器110能够确定针对输入文本短语和文本转录的语音转录。语音转录能够包括相应地表示输入文本短语和文本转录的语音言语单元的序列。例如，语音关系确定器110能够确定针对输入文本短语的第一语音转录和针对文本转录的第二语音转录。语音关系确定器110能够然后至少部分地基于第一语音转录和第二语音转录来确定语音距离。语音距离能够是文本转录与输入文本短语多么不同的量化。语音关系确定器110能够通过确定与第一语音转录不同的第二语音转录中的语音言语单位的数目来确定语音距离。

如果语音距离小于预定阈值，则语音关系确定器110能够确定文本转录与输入文本短语语音上类似，并且因此，输入文本短语与和文本转录匹配的一个或多个文本短语语音上类似。如果语音距离大于阈值，则语音关系确定器110能够确定文本转录与输入文本短语语音上不相似，并且因此，输入文本短语与多个测试短语语音上不同。

一旦确定输入文本短语与一个或多个测试短语之间的语音关系，服务器104就能够向用户设备102提供语音关系的指示。例如，服务器104能够向用户设备102提供指示语音关系的一个或多个信号。作为示例，如果确定输入文本短语与每个测试短语语音上不同，则一个或多个信号能够指示输入文本短语是语音上不同的。在语音关系确定技术与声音命令验证系统相关联的实施方式中，一个或多个信号能够包括提出的声音命令(例如，输入文本短语)与保留的声音命令语音上不同和/或提出的声音命令被授权以使用的指示。用户设备102能够然后向语音关系的用户提供指示。例如，用户设备102能够在图2中所描绘的用户界面120内将指示展现给用户。

图3描绘了确定两个或两个以上短语之间的语音关系的示例方法(200)的流程图。能够通过诸如图4中所描绘的计算设备中的一个或多个的一个或多个计算设备来实现方法(200)。另外，图3描绘了出于图示和讨论的目的以特定顺序所执行的步骤。使用本文所提供的本公开，本领域的普通技术人员将理解到，在本文中所讨论的方法中的任一个的步骤能够以各种方式适配、重新排列、扩展、省略或修改而不脱离本公开的范围。

在(202)，方法(200)能够包括接收指示输入文本短语的数据。输入文本短语能够由用户例如使用各种适合的文本输入技术在用户设备上输入。输入文本短语能够是用户希望与多个测试短语相比较以确定输入文本短语与文本短语之间的语音关系的一个或多个词语的序列。语音关系能够指示输入文本短语与测试短语是语音上不同还是与其语音上类似。

在(204)，方法(200)能够包括对应于输入文本短语的音频输出。特别地，音频输出能够是与输入文本短语的口语呈现相对应的波形。例如，音频输出的播放能够听起来像正在说出输入文本短语的词语的人类声音。音频输出能够表示输入文本短语的语音发音。以这种方式，语音发音能够独立于被包括在文本输入短语中的词语的拼写。音频输出能够使用任何适合的言语合成技术确定。音频输出能够被存储为适于音频播放的任何适合的音频文件。以这种方式，音频波形能够被生成为可以存储或记录在适于后续播放的存储介质上的音频文件。

在(206)，方法(200)能够包括确定音频输出的文本转录。文本转录能够是以文本形式的音频输出的表示。在一些实例中，一个或多个词语文本转录能够具有输入文本短语中的对应的词语的备选拼写。例如，文本转录能够被确定为包括基于文本输入短语的一个或多个词语的备选拼写。能够使用任何适合的语音识别技术确定文本转录。例如，能够使用一个或多个声学模型和/或一个或多个语言模型确定文本转录。如所指示的，一个或多个语言模型能够包括通用语言模型和/或偏置语言模型。偏置语言模型能够至少部分地基于通用语言模型和多个测试短语而生成。

在(208)，方法(200)能够包括将文本转录与多个测试短语相比较。例如，将文本转录与测试转录能够包括搜索测试短语来确定文本转录是否匹配测试短语中的一个或多个。在(210)，方法(200)能够包括确定文本转录是否匹配测试短语中的一个或多个。如果文本转录未匹配测试短语中的任一个，则在(212)，方法(200)能够包括提供输入文本短语与多个测试短语语音上不同的指示。

如果文本转录匹配测试短语中的一个或多个，则在(214)，方法(200)能够包括确定输入文本短语与文本转录之间的语音距离。如所指示的，确定语音距离能够包括确定与输入文本短语和文本转录相关联的语音转录，并且比较该语音转录以确定不同的一个或多个语音言语单元。以这种方式，语音距离能够指示与不同于与输入文本短语相关联的对应语音言语单元的文本转录相关联的语音言语单元的数目。

在(216)，方法(200)能够包括确定语音距离是否小于预定义语音距离阈值。如果语音距离小于(或等于)阈值，则在(218)，方法(200)能够包括提供输入文本短语与文本转录和/或一个或多个测试短语语音上类似的指示。如果语音距离大于阈值，则在(220)，方法(200)能够包括提供输入文本短语与多个测试短语语音上不同的指示。

在一些实施方式中，如果在(210)在文本转录与一个或多个测试短语之间确定匹配，则方法(200)可以绕开(214)和(216)，并且能够直接地转到(218)。以这种方式，一旦确定文本转录与一个或多个测试短语之间的匹配，则能够确定输入文本短语与一个或多个测试短语语音上类似而不必确定输入文本短语与文本转录之间的语音距离。

图4描绘了根据本公开的示例方面的能够被用于实现方法和系统的示例计算系统300。能够使用包括通过网络340与一个或多个客户端设备330通信的服务器310的客户端-服务器架构实现系统300。能够使用其他适合的架构(诸如单个计算设备)实现系统300。

系统300包括服务器310，诸如网络服务器。服务器310能够使用任何适合的计算设备实现。服务器310能够具有一个或多个处理器312和一个或多个存储器设备314。服务器310还能够包括被用于通过网络340与一个或多个客户端设备330通信的网络接口。网络接口能够包括用于与一个或多个网络进行接口连接的任何适合的部件，包括例如发射器、接收器、端口、控制器、天线或其他适合的部件。

一个或多个处理器312能够包括任何适合的处理设备，诸如微处理器、微控制器、集成电路、逻辑设备或其他适合的处理设备。一个或多个存储器设备314能够包括一个或多个计算机可读介质，包括但不限于非瞬态计算机可读介质、RAM、ROM、硬盘驱动器、闪盘驱动器或其他存储器设备。一个或多个存储器设备314能够存储由一个或多个处理器312可访问的信息，包括能够由一个或多个处理器312执行的计算机可读指令316。指令316能够是当由一个或多个处理器312执行时使得一个或多个处理器312执行操作的任何指令集。例如，指令316能够由一个或多个处理器312执行来实现参考图1所描述的言语合成器106、音频转录器108和/或语音关系确定器110。

如在图4中所示，一个或多个存储器设备314还能够存储能够由一个或多个处理器312检索、操纵、创建或存储的数据318。数据318能够包括例如一个或多个言语识别模型、音频输出数据、多个测试短语、言语数据和其他数据。数据318能够被存储在一个或多个数据库中。一个或多个数据库能够通过高带宽LAN或WAN被连接到服务器310，或者还能够通过网络340被连接到服务器310。一个或多个数据库可以分开，使得其被定位在多个场所中。

服务器310能够通过网络340与一个或多个客户端设备330交换数据。虽然在图4中图示了两个客户端设备310，但是任何数目的客户端设备330能够通过网络340被连接到服务器310。客户端设备330中的每一个客户端设备330能够是任何适合的类型的计算设备，诸如通用计算机、专用计算机、膝上型电脑、台式电脑、移动设备、导航系统、智能电话、平板电脑、可穿戴计算设备、具有一个或多个处理器的显示器或其他适合的计算设备。

与服务器310类似，客户端设备330能够包括一个或多个处理器332和存储器334。一个或多个处理器332能够包括一个或多个中央处理单元(CPU)、专用于高效地呈现图像或执行其他专业计算的图形处理单元(GPU)、和/或其他处理设备。存储器334能够包括一个或多个计算机可读介质并且能够存储由一个或多个处理器332可访问的信息，包括能够由一个或多个332执行的指令336和数据338。例如，存储器334能够存储用于实现用户界面——诸如在图2中所描绘的用户界面120——的指令336。

图4的客户端设备330能够包括用于从用户提供并且接收信息的各种输入/输出设备337，诸如触摸屏、触摸板、数据输入键、扬声器和/或适于语音识别的麦克风。例如，客户端设备330能够具有用于展现用户界面——诸如在图2中所描绘的用户界面120——的显示设备335。

客户端设备330还能够包括被用于通过网络340与一个或多个远程计算设备(例如，服务器310)通信的网络接口。网络接口能够包括用于与一个或多个网络进行接口连接的任何适合的部件，包括例如发射器、接收器、端口、控制器、天线或其他适合的部件。

网络340能够是任何类型的通信网络，诸如局域网(例如，内联网)、广域网(例如，因特网)、蜂窝网络或其某些组合。网络340还能够包括客户端设备330与服务器310之间的直接连接。一般而言，能够使用任何类型的有线和/或无线连接、使用各种通信协议(例如，TCP/IP、HTTP、SMTP、FTP)、编码或格式(例如，HTML、XML)和/或保护方案(例如，VPN、安全HTTO、SSL)经由网络接口执行服务器310与客户端设备330之间的通信。

在本文中所讨论的技术参考服务器、数据库、软件应用和其他基于计算机的系统，以及采取的动作和被发送至这种系统和从这种系统发送的信息。本领域的普通技术人员将认识到，基于计算机的系统的固有灵活性允许部件之间和部件之中的任务和功能的各种各样的可能配置、组合和划分。例如，可以使用单个服务器或组合工作的多个服务器实现在本文中所讨论的服务器过程。数据库和应用可以被实现在单个系统上或跨多个系统分布。分布式部件可以顺序或者并行操作。

虽然已经关于其特定示例实施例描述本主题，但是将理解到本领域的技术人员在获得前述内容的理解之后可以容易地产生这样的实施例的变更、变化和等效。因此，本公开的范围以示例的方式而不是以限制的方式，并且本公开不排除包括对于本领域的普通技术人员而言将容易地明显的本主题的这种修改、变化和/或添加。

Claims

1.一种确定两个或两个以上短语之间的语音关系的计算机实现的方法，所述方法包括：

通过一个或多个计算设备，接收指示由用户输入的输入文本短语的数据；

通过所述一个或多个计算设备，确定与所述输入文本短语的口语呈现相对应的音频输出；

通过所述一个或多个计算设备，确定所述输入文本短语的所述音频输出的文本转录，所述文本转录包括所述音频输出的文本表示；

通过所述一个或多个计算设备，将所述文本转录与多个测试短语相比较，以标识所述文本转录与至少一个测试短语之间的匹配；

通过所述一个或多个计算设备，至少部分地基于所述比较来标识所述文本转录与所述多个测试短语中的第一测试短语之间的匹配；以及

响应于标识所述匹配，通过所述一个或多个计算设备，提供所述输入文本短语与所述第一测试短语语音上类似的指示。

2.根据权利要求1所述的计算机实现的方法，进一步包括：响应于标识所述匹配，通过所述一个或多个计算设备，确定所述音频输出的所述文本转录与所述输入文本短语之间的语音距离。

3.根据权利要求2所述的计算机实现的方法，进一步包括：当所述文本转录与所述输入文本短语之间的所述语音距离小于阈值时，通过所述一个或多个计算设备，提供所述输入文本短语与所述第一测试短语语音上类似的指示。

4.根据权利要求2所述的计算机实现的方法，其中，通过所述一个或多个计算设备确定所述音频输出的所述文本转录与所述输入文本短语之间的语音距离包括：

通过所述一个或多个计算设备，确定与所述输入文本短语相关联的第一语音转录和与所述文本转录相关联的第二语音转录，所述第一语音转录和第二语音转录各自包括多个语音言语单元；以及

通过所述一个或多个计算设备，确定与所述第一语音转录不同的所述第二语音转录中的语音言语单元的数目。

5.根据权利要求1-4中的任一项所述的计算机实现的方法，其中，通过所述一个或多个计算设备确定所述输入文本短语的所述音频输出的文本转录包括：至少部分地基于一个或多个语言模型来确定所述文本转录。

6.根据权利要求5所述的计算机实现的方法，其中，所述一个或多个语言模型包括至少部分地基于通用语言模型和所述多个测试短语所确定的偏置语言模型。

7.根据权利要求1-4中的任一项所述的计算机实现的方法，其中，所述输入文本短语的所述音频输出包括与所述输入文本短语的口语呈现相对应的言语波形。

8.一种计算系统，包括：

一个或多个处理器；以及

一个或多个存储器设备，所述一个或多个存储器设备存储计算机可读指令，所述计算机可读指令当由所述一个或多个处理器执行时使得所述一个或多个处理器执行操作，所述操作包括：

接收指示由用户输入的输入文本短语的数据；

确定与所述输入文本短语的口语呈现相对应的音频输出；

确定所述输入文本短语的所述音频输出的文本转录，所述文本转录包括所述音频输出的文本表示；

将所述文本转录与多个测试短语相比较，以标识所述文本转录与至少一个测试短语之间的匹配；

至少部分地基于所述比较来标识所述文本转录与所述多个测试短语中的第一测试短语之间的匹配；以及

响应于标识所述匹配，提供所述输入文本短语与所述第一测试短语语音上类似的指示。

9.根据权利要求8所述的计算系统，所述操作进一步包括：响应于标识所述匹配，确定所述音频输出的所述文本转录与所述输入文本短语之间的语音距离。

10.根据权利要求9所述的计算系统，所述操作进一步包括：当所述文本转录与所述输入文本短语之间的所述语音距离小于阈值时，提供所述输入文本短语与所述第一测试短语语音上类似的指示。

11.根据权利要求9或权利要求10所述的计算系统，其中，确定所述音频输出的所述文本转录与所述输入文本短语之间的语音距离包括：

确定与所述输入文本短语相关联的第一语音转录和与所述文本转录相关联的第二语音转录，所述第一语音转录和第二语音转录各自包括多个语音言语单元；以及

确定与所述第一语音转录不同的所述第二语音转录中的语音言语单元的数目。

12.存储计算机可读指令的一个或多个有形非瞬态计算机可读介质，所述计算机可读指令当由一个或多个处理器执行时使得所述一个或多个处理器执行操作，所述操作包括：

接收指示由用户输入的输入文本短语的数据；

确定与所述输入文本短语的口语呈现相对应的音频输出；