CN110809796A

CN110809796A - 具有解耦唤醒短语的语音识别系统和方法

Info

Publication number: CN110809796A
Application number: CN201780091695.0A
Authority: CN
Inventors: 黄辰
Original assignee: Beijing Didi Infinity Technology and Development Co Ltd
Current assignee: Beijing Didi Infinity Technology and Development Co Ltd
Priority date: 2017-10-24
Filing date: 2017-10-24
Publication date: 2020-02-18
Anticipated expiration: 2037-10-24
Also published as: US20200135186A1; CN110809796B; US10789946B2; WO2019079962A1

Abstract

本申请提供了用于语音识别的系统和方法。示例的方法可以由服务器实现。所述方法可以包括将关键短语添加到包括至少两个字典短语的字典中，以及对于所述字典短语的每一个或以上，获得在短语序列中所述字典短语在所述关键短语之后的第一概率。所述关键短语和所述字典短语可以各包括一个或以上字。所述第一概率可以独立于所述关键短语。

Description

具有解耦唤醒短语的语音识别系统和方法

技术领域

本申请一般涉及语音识别的方法和技术。

背景技术

技术的进步允许用户使用他们的声音来实现控制。例如，通过键盘、鼠标或触摸屏输入的用于触发各种应用或功能的命令可以通过语音实现。然而，要提高识别语音的准确性还需要克服许多障碍。

发明内容

本申请的各种实施例包括用于语音识别的系统、方法和非暂时性计算机可读介质。示例的方法可以由用于语音识别的系统实现，例如服务器。所述方法可以包括将关键短语添加到包括至少两个字典短语的字典中，以及对于所述字典短语的每一个或以上，获得在短语序列中所述字典短语在所述关键短语之后的第一概率。所述关键短语和所述字典短语可以各包括一个或以上字。所述第一概率可以独立于所述关键短语。

在一些实施例中，所述方法适用于语音识别的语音模型，以及所述语音模型包括N-gram模型。N可以是大于1的自然数。

在一些实施例中，所述短语序列可以以所述关键短语开始，包括在所述关键短语后的N-1个其他字典短语，所述N-1个其他字典短语包括第一字典短语并以所述第一字典短语结尾，以及所述第一字典短语的所述第一概率取决于所述短语序列中所述第一字典短语之前的一个或以上字典短语，且不依赖于所述关键短语。

在一些实施例中，所述短语序列以所述关键短语开始，包括所述关键短语后的第二字典短语，以及所述第二字典短语的所述第一概率取决于用所述第二字典短语开始句子，且不依赖于所述关键短语。

在一些实施例中，在获得所述第一概率之前，所述方法可以进一步包括对于所述关键短语，获得与用所述关键短语开始所述短语序列相关的第二概率。所述第二概率可以大于用另一个字典短语开始所述短语序列的另一概率。

在一些实施例中，所述关键短语和所述字典短语可以与语言模型相关，每种语言模型将所述短语与所述短语的一个或以上发音元素相联系。

在一些实施例中，所述示例的方法可以进一步包括获得包括所述关键短语和在所述关键短语之后的一个或以上字典短语的音频记录，至少基于所述语言模型，识别所述关键短语并确定一个或以上候选字典短语，以及至少基于所述语音模型，从所述一个或以上候选字典短语中以所述音频记录的时间顺序确定所述一个或以上字典短语。对于所述关键短语和字典短语中的每一个，所述发音元素包括一个或以上音位。

通过参考附图来考虑以下描述和所附权利要求，本申请披露的系统、方法和非暂时性计算机可读介质的这些和其他特征，以及结构的相关元件的操作方法和功能以及部件的组合和制造的经济将更加显而易见。本申请的所有附图均构成说明书的一部分，其中相同的附图标记表示各个附图中的相应部分。然而，应清楚地理解，附图仅用于说明和描述的目的，并不旨在作为限制本申请的定义。

附图说明

本技术的各种实施例的某些特征在所附权利要求中具体阐述。通过参考以下具体实施方式及其详细描述，将更好地理解本技术的特征和优点，其中本发明被利用的原理和附图包括：

图1示出了根据各种实施例的用于语音识别的示例环境。

图2示出了根据各种实施例的用于语音识别的示例系统。

图3A-3B示出了根据各种实施例的用于语音识别的示例方法。

图4示出了根据各种实施例的用于语音识别的示例方法的流程图。

图5示出了在其中可以实现此处描述的任何实施例的示例计算机系统的框图。

具体实施方式

在某些方法中，语音识别能够通过比如计算机或服务器等机器将口语和短语的音频信号识别和翻译成文本。所述机器可以使用语音解码器来识别最匹配的文本(例如，具有最高概率分数的短语序列)。该条件可以表示为W＝arg max P(W|X)，其可以进一步转换为W＝arg max P(X|W)P(W)。这里，声学模型可以被应用于获得P(X|W)，说出短语序列W＝W₁W₂...的概率将获得数据(特征向量序列)X＝X₁ X₂...，音频信号X由某些确定的文本W给出。此外，语音模型可以被应用于获得P(W)，即人可能实际说出短语序列W＝W₁ W₂...的概率。使P(X|W)和P(W)最大化的W＝W₁ W₂...序列可以产生最高概率分数，从而产生对应于音频信号的机器识别语音。声学和语音模型可以用诸如人类语音记录和/或声音和语音模型的语音识别反馈结果(无论是正确的还是不正确的)等数据来训练。

原则上，为了获得语音的音频记录W，机器可以首先应用声学模型(例如，维特比模型、隐马尔可夫模型)。声学模型可以被训练以表示语音的音频记录与构成语音的音素或其他语言单元之间的关系，从而将音频记录与字或候选短语相关联。所述训练可以将标有音素的样本发音输入声学模型，以便声学模型可以从音频中识别音素。机器可以动态地确定音频记录中的每个音素的开始和结束，并提取特征(例如，字符向量)以生成语音指纹。机器可以将生成的语音指纹与短语指纹模板进行比较，以选择最匹配的字或候选短语。短语指纹模板可以包括书面表示与字或短语的发音之间的映射。因此，包括字或短语的各种组合的一个或以上候选序列可以被获得。

此外，机器可以将语音模型应用于一个或以上候选序列。语音模型表示每个由声学模型确定的短语序列的概率分布。机器可以将候选序列中的所选字或短语与句子指纹模板(例如，语法和语义模型)进行比较，以选择最匹配的句子。这个步骤可以区分听起来相似的字和短语，并确保W符合语法。例如，“recognize speech”和“wreck a nice beach”这两个短语发音可以相似，但含义却截然不同。又例如，“get me a peach”和“give impeach”发音可以相似，但后者在语法上并不合理。在一些实施例中，短语序列(例如，句子)的概率得分可以表示为序列中所有短语的概率的链积。特别地，N-gram模型可以用作语音模型，其中句子中短语的概率取决于短语之前N-1的概率。N-gram模型可以假设相距较远的短语可以具有较弱的关联，并且不需要进行过多的计算。例如，对于包含短语<s>w1 w2 w3 w4</s>的短语序列，观察短语序列的概率(例如，所识别的句子的总概率分数)是P(w1 w2 w3 w4)＝P(w1|<s>)P(w2|<s>w1)P(w3|<s>w1 w2)P(w4|<s>w1 w2 w3)P(</s>|<s>w1 w2 w3 w4)，其中<s>和</s>可以表示短语序列的开始和结束处的停止或暂停，并且可以选择将其包括在概率确定中。应用2-gram模型，P(w1 w2 w3 w4)＝P(w1|<s>)P(w2|w1)P(w3|w2)P(w4|w3)P(</s>|w4)。

在语音控制的各种实施例中，使用语音来触发某些应用程序(例如，程序、功能、过程、移动电话应用程序、机器人模块等)，用户可以将与应用程序相关联的关键短语(例如，预设字、短语、句子等)发送到机器。关键短语可以是唤醒软件应用程序的唤醒短语。在触发应用程序之前，机器可以不断捕获流式文件中的音频并扫描文件以获得关键短语。在例句<s>w1 w2 w3 w4</s>中，w1可以是关键短语，紧接在w1之后的w2-w4可以是查询(例如，用户请求执行的命令)。在更具体的示例中，用户可以说“XYZ，订购披萨外卖。”这里，“订购披萨外卖”是查询，“XYZ”是与应用程序相关的关键短语。在获得音频“XYZ，订购比萨外卖”并被关键短语“XYZ”触发之后，应用程序可以被配置为实现比萨订购。然而，在识别包括关键短语“XYZ”的句子“XYZ，订购披萨外卖”时，传统语音模型,例如上述的2-gram模型的应用程序可以导致不准确的判断(“XYZ”可以是另一种短语、应用程序品牌名称、或任何组成短语)。例如，概率例如P(外卖|披萨)可以被准确确定，因为“披萨外卖”是常用的并且可能已被用于训练语音模型，其他概率例如P(订购|XYZ)可能是不准确的，因为“XYZ订购”是不常用的并且不太可能已被用于训练语音模型。因此，总概率P(XYZ，订购比萨外卖)将被P(订购|XYZ)降低，导致语音识别结果W与“XYZ，订购比萨外卖”不同。

根植于计算机技术的本申请的解决方案可以克服语音识别领域中特别出现的问题。这里描述的实施例可以通过一个或以上系统或设备来实现，例如包括处理器和非暂时性计算机可读存储介质的服务器。存储介质可以存储指令，当处理器执行所述指令时，该处理器执行方法。该方法可以包括将关键词短语添加到包括至少两个字典短语的字典中，以及对于字典短语的每一个或以上，获得在短语序列中字典短语在关键短语之后的第一概率。所述字典可以存储在存储介质中，也可以通过其他方式访问服务器。关键短语和字典短语可以各包括一个或以上字。第一概率可以独立于关键短语。

在一些实施例中，所述方法适用于语音识别的语音模型，以及所述语音模型包括N-gram模型。N可以是大于1的自然数。短语序列可以以关键短语开始，并且包括在关键短语之后的N-1个其他字典短语，所述N-1其他字典短语可以包括第一字典短语并以第一字典短语结尾，第一字典短语的第一概率可以取决于短语序列中第一字典短语之前的一个或以上字典短语，且不依赖于关键短语。

在一些实施例中，短语序列可以以关键短语开始，并且包括关键短语后的第二字典短语，所述第二字典短语的第一概率可以取决于用第二字典短语开始句子，且不依赖于关键短语。

在一些实施例中，在获得第一概率之前，所述方法可以进一步包括，对于关键短语，获得与用关键短语开始短语序列相关的第二概率。所述第二概率可以大于用另一个字典短语开始短语序列的另一概率。

在一些实施例中，关键短语和字典短语可以与语言模型相关联，每种语言模型将短语与短语的一个或以上发音元素相联系。

在一些实施例中，示例的方法可以进一步包括获得包括关键短语和在关键短语之后的一个或以上字典短语的音频记录，至少基于语言模型识别关键短语并确定一个或以上候选字典短语，以及至少基于语音模型，从一个或以上候选字典短语中以音频记录的时间顺序确定一个或以上字典短语。对于关键短语和字典短语中的每一个，发音元素可以包括一个或以上音位。

在一些实施例中，所披露的系统和方法可以应用于各种平台(例如，打车平台)。例如，为了订购用于运输的车辆服务，用户可以通过与移动电话通话来提交关键短语和查询(例如，“XYZ，让我乘车到地铁中心”)。基于所披露的系统，移动电话向计算系统或设备(例如，服务器)发送“XYZ，让我乘坐地铁中心”。服务器可以基于语言和语音模型识别关键短语“XYZ”和查询“让我乘车到地铁中心”。服务器可以进一步确定与“地铁中心”对应的地址和实现该运输的车辆，并将相应的信息发送到移动电话。因此，移动电话可以显示接受到“地铁中心”的运输请求的指示、车辆的信息和接送的安排。本申请披露的系统和方法可以应用于各种语言，并且对相应语言的样本进行适当的训练。

图1示出了根据各种实施例的用于语音识别的示例环境100。如图1所示，示例环境100可以包括至少一个计算系统102，计算系统102包括一个或以上处理器104和内存106，内存106可以是非暂时性的并且是计算机可读的。内存106可以存储指令，当一个或以上处理器104执行所述指令时，使得一个或以上处理器104执行与系统102相关的各种操作。系统102可以进一步包括被配置用于捕获音频输入(例如，人类语音或语音)的麦克风103。可以从计算设备107或用户101捕获音频输入。计算设备107(例如，手机、平板电脑、计算机、可穿戴设备(智能手表))可以向系统102发送和/或播放信息(例如，音频记录)。用户101可以在麦克风103的检测范围内说话以进行音频捕获。可选地，系统102可以进一步包括被配置用于显示信息(例如，识别的语音的文本)的显示器105。显示器105可以包括触摸屏。系统102可以在例如手机、平板电脑、计算机、可穿戴设备(智能手表)等各种设备上实现。上述系统102可以安装有适当的软件(例如，应用程序、平台程序等)和/或硬件(例如，电线、无线连接等)以访问环境100的其他设备。

环境100可以包括一个或以上数据存储(例如，数据存储108)和可访问系统102的一个或以上计算设备(例如，计算设备109)。在一些实施例中，数据存储108和/或计算设备109可以被配置用于与系统102交换数据或信息。例如，数据存储108可以安装在用于存储地址信息的计算机中。计算设备109可以是被配置为执行语音识别的服务器。计算设备109可以包括一个或以上处理器119和内存129。内存129可以是非暂时性计算机可读存储介质。内存129可以存储指令，当一个或以上处理器119执行所述指令时，使得一个或以上处理器119执行本申请描述的用于语音识别的各种方法或步骤。在各种实施例中，计算设备109可以被配置为接收音频(例如，来自系统102、来自数据存储108、来自另一计算机或服务器等)并应用各种模型来识别对应于所述音频的语音以及获得相应的文本。

在一些实施例中，数据存储108和/或计算设备109可以实现在线信息或服务平台。所述服务可以与车辆(例如，汽车、自行车、船、飞机等)相关联，所述平台可以被称为车辆服务呼叫平台。所述平台可以接受运输请求、识别满足请求的车辆、安排接乘客和处理交易。例如，用户可以使用系统102(例如，安装有与平台相关的应用程序的移动电话)访问所述平台。一些平台数据(例如，车辆信息、车辆司机信息、地址信息等)可以存储在内存129或内存106中，或者从数据存储108中检索。在一些实施例中，用户可以向系统102说话以提交请求(例如，车辆呼叫语音请求)。如本申请所述，数据存储108和/或计算设备109可以共同工作以基于识别的语音获得和识别对应于声音和过程的语音以完成请求。

在一些实施例中，系统102和一个或以上计算设备(例如，计算设备109)可以集成在一个单独的设备或系统中。可选地，系统102和计算设备可以作为单独的设备操作。数据存储可以位于系统102可访问的任何位置，例如，在内存106中、在内存129中、在耦合到系统102的另一设备(例如，网络存储设备)中，或其他存储位置(例如，基于云的存储系统、网络文件系统等)等。虽然计算设备109在该图中被示为单个组件，但是应当理解，计算设备109可以实现为单个设备或耦合在一起的多个设备(例如，计算机、服务器等)。计算设备可以耦合到如系统102之类的多个系统并与之交互。通常，系统102、计算设备109和数据存储108可以通过一个或以上有线或无线网络(例如，因特网)彼此通信，并且数据可以通过该网络传送。下面将参考图2至图5描述环境100的各个方面。

图2示出了根据各种实施例的用于语音识别的示例系统200。图2中所示和下述操作旨在用于说明。除了为简单起见而移除了数据存储108和计算设备107，图2和图1中的各种设备和组件类似。

在各种实施例中，系统102可以在包括移动电话的移动设备上实现。系统102的一个或以上组件(例如，数据存储108、处理器104和/或内存106)可以被配置用于记录音频(例如，音频202)。音频202可以包括人类所说的语音(例如，句子、短语序列)。所述语音可以使用任何语言。处理器104可以被配置用于控制所述记录的开始和停止。例如，当在移动设备上进入应用程序的预设界面或打开应用程序时，记录可以开始。处理器104可以控制系统102的模数转换器(ADC)(图中未示出)以将捕获的音频转换为数字格式并存储在音频队列中。所述音频队列可以与时间相关联，并且可以包括捕获的音频的时间序列数据。音频队列可以以各种音频文件格式(例如，WAV文件)存储。音频队列可以存储在内存106中、高速缓存中或其他存储介质中。

在一些实施例中，计算设备109可以实现为一个或以上服务器。计算设备109可以被配置为从系统102获得音频队列的至少一部分(例如，音频片段204)。可选地，如果音频队列的一部分存储在另一个系统或设备(例如，数据存储108)中，则计算设备109可以从相应的位置获取。例如，在记录音频时，系统102可以监视音频队列以获得唤醒短语，响应于检测到唤醒短语，从音频队列中获取包括唤醒短语和接着唤醒短语的查询的音频片段，并将获得的音频片段(例如，音频片段204)发送到计算设备109。相应地，计算设备109从系统102获得音频片段。

所述唤醒短语可以是这里描述的关键短语的一种类型。在各种实施例中，唤醒短语可以包括一个或以上字。唤醒短语和用户在唤醒的短语之后说出的其他短语可以被认为是在用户的语音中的用户说出的语音的一部分。所述唤醒短语可以有各种形式。例如，唤醒短语可以包括名称或问候语(例如，“你好XYZ”)，并且可以与应用程序、预设程序、功能或过程(例如，应用程序XYZ)相关联。在一些实施例中，在检测到音频队列中的唤醒短语时系统102可以触发获得音频片段的步骤。这里，“唤醒”不一定意味着从“睡眠模式”唤醒。在唤醒之前，系统102可以休眠、空闲或执行其他任务。

在一些实施例中，计算设备109可以被配置为在音频片段204上执行语音识别。音频片段204可以包括唤醒短语或另一种关键短语。具有解耦唤醒短语的语音识别的更多细节将参考下述图3A-3B描述，并且如下所述，所述解耦至少可以提高语音识别的准确性。一旦执行了语音识别，计算设备109可以被配置为至少基于语音识别结果向系统102返回信息206(例如，识别的语音的文本)。系统102的显示器105可以被配置用于显示返回信息。所述返回信息可以包括与音频片段对应的机器识别的语音的文本。在音频记录传输和执行语音识别时，文本可以被显示。

图3A示出了根据各种实施例的用于语音识别的示例方法300。方法300可以在各种环境中实现，包括如图1的环境100。图3A讨论的各种步骤可以通过计算设备109的一个或以上组件(例如，处理器119和/或内存129)来实现。图3A的描述旨在用于说明，可以根据实现以各种方式进行修改。对于图3A，假设“hello bot”是关键短语。

在实现方法300之前，计算设备109的一个或以上组件(例如，处理器119和/或内存129)可以将预设的关键短语(例如，“hello bot”)添加到包括至少两个字典短语(例如，“metro station”、“go”等)的字典中(例如，字典302)，以及对于字典短语的每一个或以上，获得在短语序列中字典短语在关键短语之后的第一概率。关键短语和字典短语可以各包括一个或以上字。所述字典可以存储在内存129中，或者可以由计算设备109访问。所述字典可以是出现在人类语言中的短语集合。所述字典可以是下述语言的一部分。例如，基于包括人类语音短语的训练数据集，所述短语集合可以被添加到字典中。所述训练数据集可以包括真实的、经常使用的和/或语法示例的语音。当通过训练数据集进行训练时，语音模型可以提取与训练数据集一致的短语序列规则。在准确性测试之后，训练后的语音模型可以为在各个短语序列中的一个或以上前置和/或后续短语分配短语概率。

在一些实施例中，字典中的每个短语可以具有相对于一个或以上其他字典短语的概率。例如，相对于“walkie talkie”，“go”的概率是P(go|walkie talkie)；相对于“let”，“go”的概率是P(go|let)；相对于“walkie talkie”和“let”，“go”的概率是P(go|walkietalkie let)。如本申请前面所述，P(B|A)表示在短语序列“AB”中具有短语“B”的概率。可以假设短语的概率仅取决于其之前的短语，在N-gram模型中，可以假设短语的概率仅取决于紧接在其之前的N-1个短语。例如，P(go|let)是2-gram，P(go|walkie talkie let)是3-gram。可以用训练数据集训练字典短语以获得概率。由于训练数据集可以是常见的人类语音短语，因为“let go”是常用的，P(go|let)可能是高的，但是因为“walkie talkie go”不常用，P(go|walkie talkie)可能是低的。

在一些实施例中，第一概率可以指在短语序列中字典短语在关键短语之后的概率，并且所述第一概率可以独立于关键短语。也就是说，任何字典短语的第一概率都独立于关键短语。例如，对于“hello bot,take me to metro station”的短语序列，在修改后的2-gram模型中，在方法300的语音识别中包括P(go|hello bot)将会扭曲结果并降低准确性，P(go|<s>)(<s>表示句子开头的停止或暂停)或替代概率可以被使用。类似地，在修改后的3-gram模型中，在方法300的语音识别中包括P(to|hello bot go)将会扭曲结果并降低准确性，P(to|go)、P(to|<s>go)或替代概率可以被使用。这种改进可以通过将关键短语从同一短语序列中任何后续字典短语的第一概率解耦来提高语音识别的整体准确性。语音模型可以使用人类对话进行训练。像“hello bot go”和“hello bot go to”这样的短语并不常见，也不太可能被用来训练语音模型。因此，语音模型可以将“hello bot go”和“hello bot goto”视为不合语法，并在语音识别中给它们各自分配低概率，从而降低识别包括“hello botgo”和“hello bot go to”的句子的整体概率分数。相应地，尽管诸如“go”和“to”等单个短语在短语序列中可以被正确地识别，但是由于句子概率得分低，在应用如下所述的语音模型时，仍然可以过滤掉整个句子。通过将关键短语从同一短语序列中任何后续字典短语的第一概率中解耦，换句话说，使任何字典短语的第一概率独立于关键短语，可以至少减轻上述问题。

在一些实施例中，上述步骤适用于语音识别的语音模型以修改和改进所述语音模型，所述语音模型包括N-gram模型。N可以是大于1的自然数。如上所述，短语序列可以以关键短语开始，包括在关键短语之后N-1个其他字典短语，所述N-1个其他字典短语可以包括第一字典短语并以所述第一字典短语结尾，所述第一字典短语的第一概率可以取决于短语序列中第一字典短语之前的一个或以上字典短语，且不依赖于关键短语。又例如，短语序列可以以关键短语开始，包含在关键词短语之后第二字典短语，所述第二字典短语的第一概率可以取决于用第二个字典短语开始句子，且不依赖于关键短语。

在一些实施例中，在应用方法300时，在步骤302中，可以获得包括关键短语和关键短语之后的一个或以上字典短语的音频记录(例如，“hello bot，go to metro station”)。例如，音频可以从麦克风捕获的移动电话远程提交。

在步骤304中，可以将声学模型应用于音频记录以识别关键短语和确定一个或以上候选字典短语。所述关键短语和一个或以上字典短语可以与语言模型相关，每种语言模型将短语与短语的一个或以上发音元素相联系。如上所述，声学模型可以被训练以表示语音的音频与构成语音的音素或其他语言单元之间的关系。音频中的每个音位的开始和结束可以被动态地确定，并且可以从音频中提取特征(例如，字符向量)以生成语音指纹(例如，<s>hh-a-l-ou<pau>b-o-t<pau>g-ou<pau>t-o<pau>m-e-tr-ou<pau>ss-t-ei–sh-ion</s>，其中<pau>表示暂停)。所述音位是示例性的并且可以以各种方式进行修改。机器可以将生成的语音指纹与短语指纹模板(例如，模板301)进行比较，以选择最匹配的音位。例如，304中的“hh”与模板301中的“hh”匹配。模板301的反馈循环可以表示对最匹配的音位的循环搜索。可以使用诸如图搜索的其他搜索方法作为循环算法的替代。针对发音字典，可以检查暂停之间的每组确定的音位，以确定与音频中的语音相对应的关键短语和一个或以上候选字典短语。所述发音字典可以是短语指纹模板的一部分。相应地，多个短语序列可以被获得以作为候选序列，例如<s>Hello<pau>bot<pau>go<pau>to<pau>metro<pau>station</s>,<s>Hello<pau>bought<pau>goat<pau>too<pau>metro<pau>station</s>等。

在步骤306中，至少基于语音模型，从一个或以上候选字典短语中以音频记录的时间顺序可以确定一个或以上字典短语。参考第一和第二概率上述讨论，最高概率分数的短语序列可以用作音频记录的识别语音，并且所述第一和第二概率可以提高识别的准确性。关键短语被添加到的字典可以是字典303。字典303的反馈循环可以表示在短语序列中对最合适的短语的循环搜索。短语序列中的循环字典和各种相关概率(例如，第一和第二概率)可以是先前描述的句子指纹模板的一部分。可以使用诸如图搜索的其他搜索方法作为循环算法的替代。

图3B示出了根据各种实施例的用于语音识别的示例方法310。方法310可以在各种环境中实现，包括如图1的环境100。图3B讨论的各种步骤可以通过计算设备109的一个或以上组件(例如，处理器119和/或内存129)来实现。图3B的描述旨在用于说明，可以根据实现以各种方式进行修改。对于图3B，假设“hello bot”是关键短语。

方法310大部分类似于上述方法300。主要区别包括关键短语是单独识别的，并且必须在接着关键短语之后的查询的识别之前被识别。在步骤312中，可以获得音频记录。在步骤314中，可以应用语言模型和/或语音模型识别关键短语“hello bot”。所述语言模型可以包括用于“hello bot”的音素，所述语音模型可以包括P(hello bot|<s>)。一旦识别出关键短语，在步骤316中，可以应用声学模型和语音模型识别类似于N-gram模型的查询。这里，关键短语不包括在字典313中，并且被分配了重要的权值以增加以关键短语开始的短语序列的概率得分。因此，只有当第一次获得关键短语时，查询中的以下短语序列才能基于语音模型在字典313中进行循环搜索，并被准确识别。图3B可以是图3A的替代解决方案，但是本申请中的语音识别的其余描述可以被假设对应于图3A。

图4示出了根据本申请的各种实施例的示例方法400的流程图。方法400可以在各种环境中实现，包括如图1的环境100，示例方法400可以由计算设备109的一个或以上组件(例如，处理器119和/或内存129)实现。示例方法400可以通过类似于计算设备109的一个或以上语音识别系统来实现。下述方法400的操作旨在用于说明。根据实现方式不同，示例方法400可以包括以各种顺序执行或并行执行的附加的、减少的、或替代性步骤。方法400的一个或以上步骤可以是可选的，例如框404和408-412。

在框402，可以将预设关键短语添加到包括至少两个字典短语的字典中，所述关键短语和字典短语各包括一个或以上字。所述字典可以存储在内存129中，或者可以由计算设备109访问。在框404，可选地，对于关键短语，可以获得与用关键短语开始短语序列相关的第二概率。第二概率可以大于用另一个字典短语开始短语序列的另一概率。在框406，对于字典短语的每一个或以上，可以获得在短语序列中字典短语在关键短语之后的第一概率。第一概率可以独立于关键短语。框404和框406中的短语序列可以相同或不同。在框408，可选地，可以获得包括关键短语和在关键短语之后的一个或以上字典短语的音频记录。在框410，可以至少基于语言模型识别关键短语，并至少基于所述语言模型确定一个或以上候选字典短语。上述语言模型参考图3A-3B。在框412，可以至少基于语音模型，从一个或以上候选字典短语中以音频记录的时间顺序确定一个或以上字典短语。

本申请所述的技术是由一个或以上专用计算设备实现的。所述专用计算设备可以包括被编程为根据固件、内存、其他存储器或组合中的程序指令执行技术的一个或以上硬件处理器。所述专用计算设备可以是台式计算机系统、服务器计算机系统、便携式计算机系统、手持设备、网络设备或包含硬连线和/或程序逻辑以实现该技术的任何其他设备或设备的组合。计算设备通常由操作系统软件控制和协调。传统的操作系统控制和调度计算机进程的执行、执行内存管理、提供文件系统、网络、输入/输出服务、以及提供用户界面功能，例如图形用户界面(“GUI”)等。

图5示出了在其中可以实现此处描述的任何实施例的示例计算机系统500的框图。系统500可以对应于上述计算设备109。计算机系统500包括总线502或用于交流信息的其他通信机制、与总线502耦合的用于处理信息的一个或以上硬件处理器504。硬件处理器504可以是，例如，一个或以上通用微处理器。处理器504可以对应于上述处理器119。

计算机系统500还包括主存储器506，如随机存取存储器(RAM)、高速缓存和/或耦合到总线502用于存储将由处理器504执行的信息和指令的其他动态存储设备。主存储器506还可以用于在处理器504执行待执行指令期间存储临时变量或其他中间信息。当上述指令存储在处理器504可访问的存储介质中时，可使计算机系统500被定制为执行指令中指定的操作的专用机器。计算机系统500还包括只读存储器(ROM)508或耦合到总线502用于存储处理器504的静态信息和指令的其他静态存储设备。存储器510，例如磁盘、光盘或USB拇指驱动器(闪存驱动器)等被提供并耦合到总线502以存储信息和指令。主存储器506、ROM 508和/或存储器510可以对应于上述内存129。

计算机系统500可以使用定制的硬连线逻辑、一个或以上的专用集成电路或现场可编程门阵列、固件和/或与计算机系统组合使计算机系统500成为或被编程为特殊用途机器的程序逻辑来实现本申请描述的技术。根据一个实施例，响应于处理器504执行主存储器506中包含的一个或以上指令中的一个或以上序列，计算机系统500执行本申请中的技术。这些指令可以从另一存储介质例如存储器510读入主存储器506。执行主存储器506中包含的指令的序列使处理器504执行本申请描述的处理步骤。在可选实施例中，可以使用硬连线电路代替软件指令或与软件指令组合。

主存储器506、ROM 508和/或存储器510可以包括非暂时性存储介质。这里使用的术语“非暂时性介质”和类似术语是指存储使机器以特定方式操作的数据和/或指令的任何介质。这种非暂时性介质可以包括非易失性介质和/或易失性介质。非易失性介质包括，例如光盘或磁盘，如存储器510。易失性介质包括动态内存，例如主存储器506。非暂时性介质的常见形式包括，例如，软盘、软性磁盘、硬盘、固态驱动器、磁带、或任何其他磁性数据存储介质、只读光盘驱动器、任何其他光学数据存储介质、具有孔图案的任何物理介质、RAM、可编程序只读内存、可擦除可编程只读内存、快擦编程只读内存、非易失性随机访问内存、任何其他存储芯片或盒式磁带和它们的网络版本。

计算机系统500还包括耦合到总线502的通信接口518。通信接口518提供耦合到连接到一个或以上本地网络的一个或以上网络链路的双向数据通信。例如，通信接口518可以是综合业务数字网(ISDN)卡、线缆调制解调器、卫星调制解调器、或用于提供与相应类型的电话线路进行数据通信连接的调制解调器。又例如，通信接口518可以是提供与兼容的LAN之间的数据通信连接的局部区域网络(LAN)卡(或与WAN通信的WAN组件)。无线链路也可以实现。在任何这样的实施方式中，通信接口518发送和接收携带代表各类信息的数字数据流的电信号、电磁信号或光信号。

计算机系统500可以通过网络、网络链路和通信接口518发送消息并接收包括程序代码的数据。以因特网为例，服务器可以通过因特网、互联网服务提供商、本地网络和通信接口518为应用程序发送请求代码。

所接收的代码可以在收到后由处理器504执行，和/或存储在存储器510或其他非易失性存储器中以供稍后执行。

在前面部分中描述的过程、方法和算法中的每一个可以由代码模块实现，并且通过该代码模块实现完全自动化或半自动化。所述代码模块通过一个或以上包括计算机硬件的计算机系统或计算机处理器执行。所述过程和算法可由应用特定电路部分地或完全地实现。

上述各种特征和过程可以彼此独立地使用，或者可以以各种方式组合。所有可能的组合和子组合落入本申请的范围内。另外，在一些实现中可以省略某些方法或过程块。本文描述的方法和过程也不限于任何特定执行顺序，并且与其相关的块或状态可以以其他合适顺序执行。例如，所描述的块或状态可以以不同于具体披露的顺序执行，或者多个块或状态可以组合为单个块或状态。示例性块或状态可以串行、并行或以其他方式执行。可以在所披露的示例实施例中添加或删除块或状态。本申请描述的示例系统和组件可以与所描述的不同地配置。例如，相比于与所披露的示例实施例，可以添加、移除或重新布置组件。

本申请描述的示例方法的各种操作可以至少部分地由一个或以上处理器执行，所述一个或以上处理器可以临时配置(例如，通过软件)或永久配置为执行相关操作。无论是临时配置还是永久配置，所述处理器可以构成由处理器实现的引擎，其运行以执行本申请描述的一个或以上操作或功能。

类似地，本申请描述的方法可以至少部分地由特定处理器或作为硬件示例的处理器实现。例如，方法的操作的至少一部分可以由一个或以上处理器或处理器实现的引擎来执行。此外，一个或以上处理器还可以运行以支持“云计算”环境中的相关操作的性能或实现“软件即服务”(SaaS)。例如，所述操作的至少一部分可以由一组计算机(作为包括处理器的机器的示例)执行，这些操作可以通过网络(例如，因特网)和一个或以上适当的接口(例如，应用程序接口(API))访问。

某些操作的执行可以在处理器之间分配，不仅驻留在单个机器内，而且部署在多个机器上。在一些示例实施例中，处理器或处理器实现的引擎可以位于单个地理位置(例如，在家庭环境、办公室环境或服务器群内)。在其他示例实施例中，处理器或处理器实现的引擎可以分布在多个地理位置。

在整个说明书中，多个实例可以实现为单个实例描述的组件、操作或结构。尽管一个或以上方法的各个操作被示出并描述为单独的操作，但是可以同时执行各个操作的一个或以上操作，并且不需要以所示的顺序执行操作。在示例配置中作为单独组件呈现的结构和功能可以实现为组合结构或组件。类似地，作为单个组件呈现的结构和功能可以实现为单独的组件。这些和其他变化、修改、添加和改进都落入本申请主题的范围内。

尽管已经参考特定示例性实施例描述了本申请主题，但是可以在不脱离本申请的实施例的较宽范围的情况下对这些实施例进行各种修改和改变。本申请主题的这些实施例可单独地或共同地由术语“发明”指代，此举仅为描述方便，而不旨在当实际有多于一个披露或概念被披露时主动将本申请的范围限制于任何单个的披露或概念。

本申请所示的实施例已被描述的足够详尽，使得本领域技术人员能够实施所披露的内容。其他实施例也可以从所披露的教导中推出并使用，使得可以在不脱离本申请的范围的情况下，对本申请实施例作出结构和逻辑上的替换和改变。因此，具体实施方式不应被视为具有限制意义，并且各种实施例的范围仅由所附权利要求以及这些权利要求所赋予的等价物的全部范围来限定。

本申请所述流程图和/或附图中描绘的任何过程描述、元素或框应理解为潜在地表示模块、部件、或代码的部分，这些模块、部件、或代码的部分包括用于实现特定逻辑功能或过程步骤的一个或以上可执行指令。本领域技术人员可以理解的是，本申请描述的实施例的范围内还包括备选实施方式。在这些备选实施方式中，元件或功能可以被删除，或取决于所涉及的功能而不由所示出的或论述的顺序来执行，包括实质上同时执行或以相反的顺序执行。

如本申请所用，术语“或”可以解释为包含性或排他性含义。此外，可以为在此描述为单个实例的资源、操作或结构提供多个实例。另外，各种资源、操作、引擎和数据存储之间的边界在某种程度上是任意的，并且在特定说明性配置的上下文中示出了特定操作。设想的其他功能的分配可以落入本申请的各种实施例的范围内。通常，在示例配置中作为单独资源呈现的结构和功能可以以组合结构或组合资源实现。类似地，作为单独资源呈现的结构和功能可以以多个分离的资源实现。这些以及其他变化、修改、添加和改进均落入由所附权利要求表示的本申请的实施例的范围内。相应地，说明书和附图应被视为说明性的而非限制性的。

条件语言，例如，除其他之外、“可以”、“可以”、“可能”或“可以”，除非另有明确说明，或者在使用的上下文中另有理解，通常旨在表达某些实施例包括，而其他实施例不包括某些特征、元素和/或步骤。因此，这种条件语言并非旨在暗示特征、元素和/或步骤以任何要求的方式在一个或多个实施例中存在，或者暗示一个或多个实施例必然包含用于判断的逻辑，有或没有用户输入或提示，这些特征、元素和/或步骤是否包括在任何特定实施例中或是在任何特定实施例中执行。

Claims

1.一种语音识别方法，由服务器实现，所述方法包括：

将关键短语添加到包括至少两个字典短语的字典中，所述关键短语和所述字典短语各包括一个或以上字；以及

对于所述字典短语的每一个或以上，获得在短语序列中所述字典短语在所述关键短语之后的第一概率，其中所述第一概率独立于所述关键短语。

2.根据权利要求1所述的语音识别方法，其特征在于：

所述方法适用于语音识别的语音模型；以及

所述语音模型包括N-gram模型。

3.根据权利要求2所述的语音识别方法，其特征在于：

N是大于1的自然数。

4.根据权利要求2所述的语音识别方法，其特征在于：

所述短语序列以所述关键短语开始，且包括在所述关键短语后的N-1个其他字典短语；

所述N-1个其他字典短语包括第一字典短语并以所述第一字典短语结尾；以及

所述第一字典短语的所述第一概率取决于所述短语序列中所述第一字典短语之前的一个或以上字典短语，且不依赖于所述关键短语。

5.根据权利要求2所述的语音识别方法，其特征在于：

所述短语序列以所述关键短语开始，且包括在所述关键短语后的第二字典短语；以及

所述第二字典短语的所述第一概率取决于以所述第二字典短语开始的句子，且不依赖于所述关键短语。

6.根据权利要求2所述的语音识别方法，其特征在于，在获得所述第一概率之前，所述方法进一步包括：

对于所述关键短语，获得与以所述关键短语开始的短语序列相关的第二概率，其中所述第二概率大于以另一个字典短语开始的短语序列的另一概率。

7.根据权利要求6所述的语音识别方法，其特征在于：

所述关键短语和所述字典短语与语言模型相关联，每个语言模型将所述短语与所述短语的一个或以上发音元素相联系。

8.根据权利要求7所述的语音识别方法，其特征在于，进一步包括：

获得包括所述关键短语和在所述关键短语之后的一个或以上字典短语的音频记录；

至少基于所述语言模型，识别所述关键短语并确定一个或以上候选字典短语；以及

至少基于所述语音模型，从所述一个或以上候选字典短语中以所述音频记录的时间顺序确定一个或以上字典短语。

9.根据权利要求7所述的语音识别方法，其特征在于：

对于所述关键短语和字典短语中的每一个，所述发音元素包括一个或以上音位。

10.一种语音识别计算系统，包括：

一个处理器；以及

一个存储指令的非暂时性计算机可读存储介质，当所述处理器执行所述指令时，使所述处理器：

11.根据权利要求10所述的语音识别系统，其特征在于：

所述方法适用于语音识别的语音模型；以及

所述语音模型包括N-gram模型。

12.根据权利要求11所述的语音识别系统，其特征在于：

N是大于1的自然数。

13.根据权利要求11所述的语音识别系统，其特征在于：

14.根据权利要求11所述的语音识别系统，其特征在于：

15.根据权利要求11所述的语音识别系统，其特征在于，在获得所述第一概率之前，使所述处理器：

16.根据权利要求15所述的语音识别系统，其特征在于：

17.根据权利要求16所述的语音识别系统，其特征在于，使所述处理器：

18.根据权利要求16所述的语音识别系统，其特征在于：

19.一种存储指令的非暂时性计算机可读存储介质，当所述处理器执行所述指令时，使得所述处理器执行方法，所述方法包括：

20.根据权利要求19所述的非暂时性计算机可读存储介质，其特征在于：

所述方法适用于语音识别的语音模型；以及

所述语音模型包括N-gram模型。