CN116959420A

CN116959420A - 自动地确定用于经由自动化助理接口接收的口头话语的语音辨识的语言

Info

Publication number: CN116959420A
Application number: CN202311023420.7A
Authority: CN
Inventors: 赵璞升; 迭戈·米伦多·卡萨多; 伊格纳西奥·洛佩斯·莫雷诺
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2018-04-16
Filing date: 2018-04-16
Publication date: 2023-10-27
Also published as: US20210097981A1; US20190318724A1; US10679611B2; US10896672B2; EP3723082A1; US11817084B2; EP3580751A1; CN111052229B; US20200286467A1; CN111052229A; US20200135187A1; EP3723082B1; EP3580751B8; SG11201912053XA; EP3580751B1; EP4270385A3; US11817085B2; EP4270385A2; WO2019203795A1

Abstract

本公开涉及自动地确定用于经由自动化助理接口接收的口头话语的语音辨识的语言。实施方式涉及确定用于经由用于与自动化助理交互的自动化助理接口接收的口头话语的语音辨识的语言。实施方式可使得能够与所述自动化助理进行多语言交互，而无需用户显式地指定要用于每个交互的语言。对针对特定语言的语音辨识模型的选择可基于在用户与自动化助理之间的对话会话期间展示的一个或多个交互特性。这样的交互特性可包括预期用户输入类型、预期用户输入持续时间、用于针对用户响应进行监视的持续时间和/或提供的用户响应的实际持续时间。

Description

自动地确定用于经由自动化助理接口接收的口头话语的语音辨识的语言

分案说明

本申请属于申请日为2018年4月16日的中国发明专利申请201880039579.9的分案申请。

背景技术

人类可以用在本文中称为“自动化助理”(也称为“数字代理”、“聊天机器人”、“交互式个人助理”、“智能个人助理”、“助理应用”、“谈话代理”等)的交互式软件应用来参与人类与计算机对话。例如，人类(当他们与自动化助理交互时可以被称为“用户”)可以使用口头自然语言输入(即话语)和/或通过提供文本(例如，键入的)自然语言输入来向自动化助理提供命令和/或请求，所述口头自然语言输入可以在一些情况下被转换成文本并然后处理。自动化助理通过提供响应用户接口输出来对请求做出响应，所述响应用户接口输出可包括可听的和/或可视的用户接口输出。

如上面所提及的，自动化助理可将与用户的口头话语相对应的音频数据转换成对应的文本(或其它语义表示)。例如，可基于经由客户端设备的一个或多个麦克风对用户的口头话语的检测来生成音频数据，所述客户端设备包括用于使得用户能够与自动化助理交互的助理接口。自动化助理可包括语音辨识引擎，所述语音辨识引擎试图辨识在音频数据中捕获的口头话语的各种特性，诸如通过口头话语所产生的声音(例如，音素)、所产生的声音的顺序、语音的节奏、声调等。另外，语音辨识引擎可识别通过这样的特性所表示的文本单词或短语。文本然后可由自动化助理在确定针对口头话语的响应内容时进一步处理(例如，使用自然语言理解(NLU)引擎和/或对话状态引擎)。语音辨识引擎可由客户端设备和/或由远离客户端设备但是与客户端设备进行网络通信的一个或多个自动化助理组件实现。

然而，许多语音辨识引擎被配置成辨识仅单一语言的语音。对于多语言用户和/或住户，这样的单一语言语音辨识引擎可能不是令人满意的，并且可使自动化助理在以不是由这些语音辨识引擎所支持的单一语言的附加语言接收到口头话语时失败和/或提供错误输出。这可致使自动化助理不可用，并且/或者导致对计算和/或网络资源的过度使用。对计算和/或网络资源的过度使用可以是当自动化助理失败或者提供错误输出时用户需要提供作为所支持的单一语言的进一步口头话语的结果。这样的进一步口头话语必须附加地由对应的客户端设备和/或远程自动化助理组件处理，从而导致对各种资源的附加使用。

其它语音辨识引擎可以被配置成辨识多种语言的语音，但是要求用户显式地指定在给定时间在语音辨识中应该使用多种语言中的哪一种。例如，其它语音辨识引擎中的一些可能要求用户手动地指定在特定客户端设备处接收的所有口头话语的语音辨识中要利用的默认语言。为了将默认语言改变为另一语言，可能要求用户与图形和/或可听接口交互以显式地更改默认语言。这种交互可在接口的渲染、对经由接口提供的用户的输入的处理等中导致对计算和/或网络资源的过度使用。另外，情况可能常常是用户在提供当前不是默认语言的口头话语之前忘记改变默认语言。如上所述，这可致使自动化助理不可用并且/或者导致对计算和/或网络资源的过度使用。

发明内容

本文描述的实施方式涉及用于自动地确定用于经由自动化助理接口接收的口头话语的语音辨识的语言的系统、方法和装置。在一些实施方式中，对使用给定语言的口头话语的语音辨识可包括：使用针对给定语言的一种或多种语音辨识模型来处理捕获口头话语的音频数据以生成与口头话语相对应并采用给定语言的文本。如本文所描述的，多个语音辨识模型可以是可访问的以用于语音辨识，并且这些语音辨识模型中的每一个均可被配置用于多种语言中的对应的语言。例如，第一语音辨识模型可被配置用于基于处理包括英语口头话语的音频数据来生成英语文本，第二语音辨识模型可被配置用于基于处理包括法语口头话语的音频数据来生成法语文本，第三语音辨识模型可被配置用于基于处理包括西班牙语口头话语的音频数据来生成西班牙语文本等。

本文描述的一些实施方式可利用各种技术来选择仅要在给定用户的给定口头话语的语音辨识中利用的语言的子集。例如，给定用户可与指派给其相应的自动化助理的多种候选语言或对自动化助理可访问的用户简档相关联。多种候选语言可由用户手动地指派和/或基于由用户跨越一个或多个平台对候选语言的过去使用被自动地指派。如本文所描述的，选择仅语言的子集可基于例如针对特定用户或用户简档指派给多种候选语言的概率度量。概率度量可基于对多种候选语言的过去使用，并且每个概率度量可对应于一个或多个交互特性(例如，每个基于用户与自动化助理之间的即时交互)。

作为一个特定示例，指派给用户简档的多种语言中的单一特定语言可针对一个或多个交互特性或参数(例如，来自用户的响应的持续时间、在对自动化助理做出响应时的延迟的长度、预期输入类型或要提供给自动化助理的语音的类型)具有指派的概率度量，其中这些概率度量指示该单一特定语言正被给定用户说的很高的可能性。基于所指派的概率度量，可选择单一特定语言，并且使用仅针对单一语言的语音辨识模型来执行语音辨识。执行语音辨识可产生单一语言的对应的文本，其然后可由自动化助理的附加组件在生成响应于给定口头话语的内容时进一步处理。然后可提供响应的内容以供在客户端设备处渲染以用于呈现给用户。响应的内容可以可选地采用相同的单一语言，或者被提供来导致用相同的单一语言渲染。

作为另一特定示例，指派给用户简档的三种或更多种候选语言中的两种特定语言可针对一个或多个交互特性具有对应的指派的概率度量，其中这些概率度量各自指示至少两种特定语言中的对应的语言正在被给定用户说的可能性。基于所指派的概率度量，可选择两种特定语言，并且使用仅针对这两种特定语言的语音辨识模型来执行给定口头话语的语音辨识。对于未能满足阈值的一个或多个当前场境参数，基于其对应的指派的概率度量，其它候选语言可能不被选择用于语音辨识。

在用户的口头话语的语音辨识中仅选择用户要利用的候选语言的子集的这些和其它实施方式可保存设备(例如，执行语音辨识的客户端设备和/或远程自动化助理组件)的各种资源，因为在执行语音辨识时利用仅对应于语言的子集的语音辨识模型。另外，利用针对语言的概率度量和/或针对生成的文本的量度的这些和其它实施方式可增加自动化助理基于适当的文本来生成响应内容的可能性。这可导致改进的自动化助理，并且还可保存各种资源，因为它减轻自动化助理基于使用不是正在口头话语中说的语言来辨识文本而提供错误响应内容的风险。这种减轻错误响应内容的风险防止在试图纠正错误响应内容时对进一步用户接口输入的进一步资源密集检测(以及对该输入的处理)。

如上面所提及并在本文中别处描述的，在许多实施方式中在口头话语的语音辨识中利用两种或更多种(例如，全部与用户简档相关联的)候选语言。然而，基于仅来自针对候选语言中的单一语言的语音辨识模型的输出来确定要响应于口头话语而提供的响应内容。在确定要响应于口头话语而提供的内容时确定要利用哪一个输出可基于例如监视持续时间、输入持续时间、预期输入类型和/或如本文所描述的其它交互特性。确定要利用哪一个输出可附加地或替换地基于例如使用语音辨识模型来生成的输出的概率、针对语音辨识模型中的一个或多个生成的假设的数量、基于在单独的机器学习模型上处理口头话语的语言的概率和/或其它因素。

作为一个特定示例，假定在处理先前口头话语时利用针对第一语言的语音辨识模型来生成第一语言的先前文本，并且利用第一语言的先前文本来生成已响应于先前口头话语而渲染的先前内容。进一步假定口头话语是响应于经渲染的先前内容而接收的。可使用针对第一语言的语音辨识模型来执行口头话语的语音辨识以生成第一语言的一个或多个候选文本字符串(例如，假设)以及第一语言的每个候选文本字符串的对应的概率。还可使用针对第二语言的附加语音辨识模型来执行口头话语的语音辨识以生成第二语言的一个或多个候选文本字符串以及第二语言的每个候选文本字符串的对应的概率。在针对口头话语生成响应内容时利用哪一个候选文本字符串可基于其对应的概率(例如，向更高概率偏置)。附加地或替换地，在针对口头话语生成响应内容时利用哪一个候选文本字符串可基于用于这些语言中的每一种的候选文本字符串的数量(例如，向用于具有更大量的候选文本字符串的语言的候选文本字符串偏置)。附加地或替换地，在针对口头话语生成响应内容时利用哪一个候选文本字符串可基于语言的概率，其中概率是基于在单独的机器学习模型上处理口头话语而确定的(例如，向用于具有更高概率的语言的候选文本字符串偏置)。例如，单独的机器学习模型可以是神经网络模型，所述神经网络模型接受口头话语的音频(例如，其特征)作为输入，并且可被利用来生成遍及语言的概率的分布作为输出。附加地或替换地，可考虑其它准则，诸如与先前口头话语相关联的语言概率。此外，如本文更详细地描述的，各种实施方式还可基于一个或多个交互特性来确定哪一个候选文本字符串被利用，所述交互特性诸如用于监视口头话语的监控持续时间、口头话语的输入持续时间和/或口头话语的预期类型。

如上面所提及的，可为设备或应用的特定用户创建用户简档以便尤其表征用户的语言偏好。可给用户提供对其用户简档的控制，并且用户可控制是否为用户创建任何用户简档。针对用户的用户简档可识别用户可在与设备或应用接洽时使用的多种不同的语言。在一些实施方式中，用户简档可由用户手动地创建或者修改，以便用户可手动地指定用户可用来与自动化助理接洽的优选语言。

在一些实施方式中，对用于处理来自用户的响应或预期响应的语言的选择可基于响应于来自自动化助理的内容而提供的交互特性，诸如由用户提供的响应的持续时间。例如，针对用户的每种语言可与指示响应由用户以特定语言提供的可能性的一个或多个分数或概率度量相关联。此外，语言可与多个分数相关联，并且多个分数中的每个分数可对应于满足或者不满足特定阈值的交互特性。换句话说，当交互特性满足特定阈值时，可将语言的第一概率度量认为是活动的，而当交互特性不满足特定阈值时，可将语言的第二概率度量认为是活动的。

可将所选择的概率度量与其它概率度量相比较和/或处理以便确定要用于处理与针对用户的响应相对应的音频数据的适合的语音辨识模型。在一些实施方式中，可严格地基于交互特性是否确实满足或者确实不满足特定阈值来优于针对第二语言的语音辨识模型而选择针对第一语言的语音辨识模型。换句话说，不是处理分数或度量，而是可根据交互特性(诸如响应持续时间)是满足特定阈值还是以其它方式出现来更离散地选择语音辨识模型。

在一些实施方式中，一个或多个交互特性的出现可使选择的语音辨识模型被重新评估，以便确定是继续使用活动的语音辨识模型还是激活不同的语音辨识模型。例如，用户可最初向自动化助理接口提供调用短语以用于调用自动化助理并初始化对话会话。可处理与调用短语相对应的音频数据以确定与用户相对应的用户简档。用户简档可指示用户通常更喜欢说的默认语言。替换地，用户简档可指示多种不同的语言，并且多种不同的语言中的每种语言均可与概率度量或分数相关联。概率度量可传达要在选择特定语言以供自动化助理在特定时间与用户交互时使用时考虑的权重。例如，用户简档可指示英语有0.9的权重而中文有0.7的权重。结果，可将英语指定为针对用户的默认语言，因为针对英语的权重大于针对中文的权重。

随着用户与自动化助理之间的对话会话继续，可识别一个或多个交互特性以便使用于自动化助理的当前语言被重新评估。例如，交互特性可以是预期输入持续时间、预期输入类型、实际输入持续时间、监视持续时间和/或适合于指示用户可能改变他们正在说的语言的交互的任何其它特性。当交互特性出现时，可通过与多种不同的语言相对应的多个不同的语音辨识模型来处理相对于交互特性接收的音频数据。可分析由处理产生的文本或音素以确定该文本或音素最可能对应于的语言。例如，可从每个模型生成文本数据或音素数据，并且可提供这些语言的百分比相似度。可激活与对于生成的文本或音素具有最高百分比相似度的语言相对应的语音辨识模型。换句话说，作为交互特性出现的结果，可重新评估活动的语音辨识模型以确定是否应该激活不同的语音辨识模型。

在一些实施方式中，与关联于活动的语音辨识模型的语言相对应的概率度量作为被激活的结果可以是更高的。以这种方式，如果确定文本或音素与多种语言之间的对应在至少两种语言之间产生平局，则可优于其它语言而选择与当前活动的语音辨识模型相关联的语言。在一些实施方式中，可单独地和/或与每种语言关联地对每个交互特性进行加权。例如，当交互特性出现(例如，达到监视阈值)时可将与活动的中文语言语音辨识模型相对应的分数降低0.95的因子，然而当交互特性出现(例如，达到监视阈值)时可将与活动的英语语言语音辨识模型相对应的分数降低0.6的因子。以这种方式，当针对活动的语音辨识模型的分数达到或者降至针对不活动的语音辨识模型的分数以下时，可根据多个模型来处理相对于交互特性的口头话语以便确定更适合的语音辨识模型。可比较由处理产生的文本或音素以确定在处理口头话语和/或后续口头话语时最适合于自动化助理的语言。

在一些实施方式中，交互特性可以是交互的一个或多个预期特征，并且交互特性可以至少部分地基于用户与自动化助理之间的历史交互。一个或多个预期特性可包括单词、短语、语音的类型、单词和/或短语的类型、语音的格式、措词、术语和/或口头话语可体现的任何其它特性。此外，对自动化助理可访问的历史交互数据可指示用户通常用特定语言提供某些口头话语。例如，历史交互数据可指示用户用西班牙语频繁地提供一种类型的单词，诸如数字。因此，在用户与自动化助理之间的涉及自动化助理提供提示以便用户说数字的交互期间，自动化助理可使西班牙语语言语音辨识模型被选择用于处理预期输入(例如，用西班牙语说的特定数字，诸如“uno”)。替换地，当自动化助理确定语音的预期类型与要提供给用户的提示相关联时，自动化助理可使活动的语音辨识模型被重新评估。例如，当响应来自自动化助理的提示而预期语音的预期类型时不是继续使用活动的语音辨识模型，而是自动化助理可使来自用户的响应内容通过多个不同的语音辨识模型来处理。可激活提供与特定语言最密切有关的文本或音素的语音辨识模型以用于处理响应内容的剩余部分和/或由用户提供的任何其它后续内容。

作为示例，用户可通过提供诸如“Assistant，order tickets for the Chopinconcert tonight(助理，订购今晚肖邦音乐会票)”这样的口头话语来请求自动化助理订购即将到来的音乐会票。自动化助理可以可选地确定与提供了口头话语的用户相关联的用户简档。例如，自动化助理可基于确定捕获口头话语的音频数据的至少一部分具有对应于指派给用户简档的特征的一个或多个特征(例如，声调、音高、音调、口音、语调和/或任何其它特征)来确定用户简档。例如，可使用一个或多个声学模型来处理音频数据，以确定音频数据的特征和与候选用户简档(例如，与用来接收音频数据的客户端设备相关联的候选用户简档)的特征相比较的那些特征以及基于比较指示充分匹配而被确定为用于音频数据的用户简档的候选用户简档中的一个。用户简档可包括用来执行音频数据的进一步处理的指派的语言模型的子集。当自动化助理已识别用户简档时，自动化助理可访问与用户简档相关联的历史交互数据以确定用户是否通常用特定语言提供特定类型的口头话语。基于此确定，自动化助理可将结果得到的确定与当前交互相比较以进一步确定用户是否将在当前交互期间展示语言变化。例如，尽管用户用英语提供了对票的上述请求，但是用户可具有用西班牙语提供数字的历史。因此，针对当前交互的预期交互特性可与西班牙语/数字输入相关联。响应于确定预期交互特性，自动化助理可选择西班牙语语言语音辨识模型以用于处理在自动化助理关于票的数量提示用户(例如，“Okay，how many tickets would you liketo order(好的，你想要订购多少票)？”)之后接收的音频数据。当用户已用西班牙语提供了数字响应时，除非确定的交互特性指示并且/或者历史交互数据另外指示，否则自动化助理此后可使用于处理口头话语的活动的语言模型切换回到英语或先前活动的语言模型。

在一些实施方式中，用于选择一个或多个语音辨识模型的交互特性可包括在用户与自动化助理之间的交互期间出现的一个或多个延迟时段或监视持续时间。延迟时段可以是当自动化助理提供内容时与当用户在通过自动化助理提供内容之后或者响应于通过自动化助理提供内容而作为响应提供口头话语时之间的时间的持续时间。当用户延迟对来自于自动化助理的内容做出响应并且延迟的持续时间满足监视阈值时，自动化助理可使活动的语音辨识模型被重新评估，或者否则使最近响应根据多个语音辨识模型被处理以确定用户是否已开始用不同的语言说话。

作为示例，用户可使用诸如“Assistant，I’d like to make a Chinese deliveryorder(助理，我想要订中餐外卖)”这样的口头话语来调用自动化助理以用于订购外卖，自动化助理可使用第一语音辨识模型来处理口头话语并提供诸如“Ok，what would you liketo order(好的，你想要订购什么)？”这样的内容。自动化助理然后可监视来自用户的响应方面的延迟的持续时间。例如，可在自动化助理开始提供有关用户想要订购什么的内容时或者在自动化助理完成内容的提供时开始测量持续时间延迟。最初，英语语言语音辨识模型可在延迟时段期间活动，并且如果用户在阈值持续时间内响应，则英语语言语音辨识模型可保持活动以便处理来自用户的响应。然而，当延迟时段的持续时间达到和/或超过延迟时间段或阈值时，自动化助理可激活多个语音辨识模型，包括中文语言语音辨识模型，以用于处理后续口头话语。来自模型的输出可用于确定用户最可能说的语言。至少根据模型，可激活与用户最可能说的语言相对应的语音辨识模型以用于进一步处理来自用户的口头话语。

在一些实施方式中，来自用户的响应中的延迟可指示不同的用户将对自动化助理做出响应。例如，自动化助理可访问历史交互数据，所述历史交互数据指示当第一用户延迟响应达阈值时间段时，第二用户将对自动化助理做出响应。例如，如果第一位用户提供诸如“Assistant，I’d like to make a Chinese delivery order(助理，我想要订中餐外卖)”这样的口头话语，并且第一用户在自动化助理回复“Ok，what would you like to order(好的，你想要订购什么)？”之后延迟达阈值时间段，则自动化助理可确定这样的延迟通常与第二用户响应相关联。自动化助理然后可确定与第二用户相关联的优选语言并且采用优选语言语音辨识模型以用于处理与在来自自动化助理的回复之后接收的附加口头话语相对应的任何音频数据。替换地，响应于确定已发生了延迟，自动化助理可激活多个语音辨识模型以用于处理延迟之后的下一个口头话语。模型的输出可用于确定例如提供输入的用户何时已改变。

在一些实施方式中，可从一组语音辨识模型中选择不同的语音辨识模型的子集以用于进行用户与自动化助理之间的对话会话。语音辨识模型的子集然后可用于处理与在对话会话期间来自用户的口头话语相对应的音频数据的一部分。例如，第一语音辨识模型可用于处理音频数据的所述部分以生成第一语言的第一预测文本，并且第二语音辨识模型可用于处理音频数据的所述部分以生成第二语言的第二预测文本。此外，可从第一预测文本生成第一量度以指示第一预测文本正确的可能性，并且可从第二预测文本生成第二量度以指示第二预测文本正确的单独的可能性。此后，取决于具有是正确的最高可能性的预测文本，可基于第一预测文本或第二预测文本来生成响应内容。在一些实施方式中，响应内容可进一步或附加地基于以下各项中的一项或多项：与用于针对来自用户的附加口头输入进行监视的时间段相对应的监视持续时间、与用户的附加口头话语的持续时间相对应的输入持续时间，以及用于附加口头话语的预期输入类型。

在一些实施方式中，一种由一个或多个处理器实现的方法被阐述为包括诸如接收与用户的口头话语相对应的音频数据这样的操作。所述音频数据可基于在包括用于与自动化助理交互的自动化助理接口的客户端设备处对所述口头话语的检测。所述操作可进一步包括：使用与第一语言相对应的第一语音辨识模型来处理所述音频数据；基于使用所述第一语音辨识模型来处理所述音频数据而确定响应于所述用户的口头话语的内容；以及使所述客户端设备将所述内容渲染给所述用户。所述内容可包括索求来自所述用户的进一步输入的提示。所述操作可进一步包括：响应于确定所述内容包括所述提示，针对附加口头输入进行监视。附加地，所述方法可包括：在所述监视期间接收与附加口头话语相对应的附加音频数据。所述附加音频数据可基于通过所述客户端设备的自动化助理接口对所述附加口头话语的检测。所述方法可进一步包括：在确定要响应于所述附加口头话语而提供的进一步响应内容时，确定是利用针对所述第一语言的所述第一语音辨识模型还是针对第二语言的替代语音辨识模型；以及使所述客户端设备渲染所述进一步响应内容。

在确定所述进一步响应内容时确定是利用所述第一语音辨识模型还是所述替代语音辨识模型可基于与用于针对来自所述用户的所述附加口头输入进行监视的时间段相对应的监视持续时间。以这种方式，随着所述监视持续时间增加，利用所述替代语音辨识模型的可能性增加。在确定所述进一步响应内容时确定是利用所述第一语音辨识模型还是所述替代语音辨识模型可基于与所述用户的附加口头话语的持续时间相对应的输入持续时间。以这种方式，随着所述输入持续时间增加，利用所述替代语音辨识模型的可能性增加。在一些实施方式中，所述方法可包括：基于所述提示来识别用于所述附加口头话语的预期持续时间。此外，能够基于所述输入持续时间来确定是利用所述第一语音辨识模型还是所述替代语音辨识模型可基于所述预期持续时间与所述输入持续时间的比较，并且随着基于所述比较的差增加，利用所述替代语音辨识模型的概率增加。在确定所述进一步响应内容时确定是利用所述第一语音辨识模型还是所述替代语音辨识模型可基于用于所述附加口头话语的预期输入类型。在确定所述进一步响应内容时确定是利用所述第一语音辨识模型还是所述替代语音辨识模型可包括：针对所述用户识别第一量度，所述第一量度基于所述用户响应于所述预期类型的过去提示而以所述第一语言进行的过去输入；针对所述用户识别第二量度，所述第二量度基于所述用户响应于所述预期类型的过去提示而以所述第二语言进行的过去输入；以及基于所述第一量度和所述第二量度来确定是利用所述第一语音辨识模型还是所述替代语音辨识模型。

在一些实施方式中，所述方法可包括：基于所述音频数据或者基于来自所述客户端设备的一个或多个附加传感器的附加传感器数据来识别针对所述用户的用户简档。此外，针对所述用户识别所述第一量度和所述第二量度可基于所述第一量度和所述第二量度与所述用户简档关联地被存储。在确定所述进一步响应内容时确定是利用所述第一语音辨识模型还是所述替代语音辨识模型可包括：使用所述第一语音辨识模型来处理所述附加音频数据以生成所述第一语言的第一预测文本以及指示所述第一预测文本正确的第一可能性的第一量度；使用所述替代语音辨识模型来处理所述附加音频数据以生成所述第二语言的第二预测文本以及指示所述第二预测文本正确的第二可能性的第二量度；利用所述第二预测文本来确定所述进一步响应内容，其中，利用所述第二预测文本来确定所述进一步响应内容基于所述第二量度并且基于以下各项中的一项或多项：与用于针对来自所述用户的所述附加口头输入进行监视的时间段相对应的监视持续时间、与所述用户的附加口头话语的持续时间相对应的输入持续时间、和用于所述附加口头话语的预期输入类型。利用所述第二预测文本来确定所述进一步响应内容可基于所述第二量度并且可基于以下各项中的两项或更多项：所述监视持续时间、所述输入持续时间和用于所述附加口头话语的所述预期输入类型。

在其它实施方式中，一种由一个或多个处理器实现的方法被阐述为包括诸如接收与用户的口头话语相对应的音频数据这样的操作。所述音频数据可基于由包括用于与自动化助理进行交互的自动化助理接口的客户端设备对所述口头话语的检测。所述方法可进一步包括：使用与第一语言相对应的第一语音辨识模型来处理所述音频数据；基于使用所述第一语音辨识模型来处理所述音频数据而确定响应于所述用户的口头话语的内容；使所述客户端设备将所述内容渲染给所述用户并且紧跟所述渲染之后针对附加口头输入进行监视；以及在所述监视期间接收与附加口头话语相对应的附加音频数据，所述附加音频数据基于通过所述客户端设备的自动化助理接口对所述附加口头话语的检测。所述方法还可包括：在确定要响应于所述附加口头话语而提供的进一步响应内容时，确定是利用针对所述第一语言的所述第一语音辨识模型还是针对第二语言的替代语音辨识模型，其中，确定是利用所述第一语音辨识模型还是所述替代语音辨识模型基于以下各项中的一项或多项：与用于针对来自所述用户的所述附加口头输入进行监视的时间段相对应的监视持续时间，与所述用户的附加口头话语的持续时间相对应的输入持续时间、和用于所述附加口头话语的预期输入类型。所述方法还可包括：使所述客户端设备渲染所述进一步响应内容。

在一些实施方式中，确定是利用所述第一语音辨识模型还是所述替代语音辨识模型可基于用于所述附加口头话语的预期输入类型，并且所述预期输入类型可包括用于所述附加口头话语的预期措词或预期术语。在一些实施方式中，所述方法可包括：基于历史交互数据来确定用于所述附加口头话语的所述预期输入类型，所述历史交互数据识别所述用户与所述自动化助理之间的至少一个交互，其中，所述用户将所述预期措词或预期术语提供给所述自动化助理。在一些实施方式中，其中，确定是利用所述第一语音辨识模型还是所述替代语音辨识模型可基于所述监视持续时间。当所述监视持续时间小于监视阈值时可利用所述第一语音辨识模型，而当所述监视持续时间大于所述监视阈值时可利用所述替代语音辨识模型。

在仍然其它的实施方式中，一种由一个或多个处理器实现的方法被阐述为包括诸如接收与用户的口头话语相对应的音频数据这样的操作。所述音频数据可基于在包括用于与自动化助理交互的自动化助理接口的客户端设备处对所述口头话语的检测。所述方法可进一步包括：使用与第一语言相对应的第一语音辨识模型来处理所述音频数据；基于使用所述第一语音辨识模型来处理所述音频数据而确定响应于所述用户的口头话语的内容；针对来自所述用户的附加口头输入进行监视；在所述监视期间接收与附加口头话语相对应的附加音频数据。所述附加音频数据可基于通过所述客户端设备的自动化助理接口对所述附加口头话语的检测。所述方法可进一步包括：确定对要用于处理所述附加音频数据的一个或多个语音辨识模型的选择。可从多个不同的语音辨识模型中选择所述一个或多个语音辨识模型，所述多个不同的语音辨识模型包括至少针对所述第一语言的所述第一语音辨识模型和针对第二语言的第二语音辨识模型。所述方法还可包括：根据对所述语音辨识模型的选择来处理所述附加音频数据；以及使所述客户端设备基于根据对所述语音辨识模型的选择来对所述附加音频数据进行的处理来渲染进一步响应内容。

在一些实施方式中，所述附加口头话语由另一用户提供，并且所述方法可进一步包括：确定所述附加口头话语由所述另一用户提供；以及访问与所述另一用户相对应的用户简档，其中，所述用户简档提供所述另一用户与所述第二语言之间的对应性。在一些实施方式中，确定对要用于处理所述附加音频数据的所述一个或多个语音辨识模型的选择包括：将所述第二语音辨识模型指定用于处理所述附加音频数据；以及将所述第二语言指定用于渲染所述进一步响应内容。确定对要用于处理所述附加音频数据的所述一个或多个语音辨识模型的选择可包括：确定要用于处理所述附加音频数据的语音辨识模型的子集。根据对所述语音辨识模型的选择来处理所述附加音频数据可包括使用所述语音辨识模型的子集来处理所述附加音频数据。确定对要用于处理所述附加音频数据的所述语音辨识模型的选择可包括识别自从所述用户接收到与所述口头话语相对应的所述音频数据以来发生的多个不同的交互特性。所述交互特性可包括监视持续时间、输入持续时间和用于所述附加口头话语的预期输入类型中的两个或更多个。

本公开的各方面可以有利地减少口头语言话语未被适当的语音辨识模型解释期间的事件。特别地，通过认识到可以在对话的不同部分中采纳不同的语言，各方面可以适当地对这样的变化做出响应。因此，可以接收到对用户输入的改进响应，从而减少自动化助理不响应或者未按预期操作的场合。除了针对用户改进功能性之外，这还可通过减少重复命令以便达到期望结果来减少用于实现这样的助理的计算机和/或网络资源上的负载。

其它实施方式可以包括一种存储指令的非暂时性计算机可读存储介质，所述指令可由一个或多个处理器(例如，中央处理器(CPU)、图形处理单元(GPU)和/或张量处理单元(TPU)执行以执行方法，诸如在下面和/或在本文中别处描述的方法中的一种或多种。然而其它实施方式可以包括一个或多个计算机和/或一个或多个机器人的系统，所述一个或多个计算机和/或一个或多个机器人包括一个或多个处理器，所述一个或多个处理器可操作来执行存储的指令以执行方法，诸如在下面和/或在本文中别处描述的方法中的一种或多种。

应该领会的是，在本文中更详细地描述的上述构思和附加构思的所有组合被设想为是本文公开的主题的一部分。例如，在本公开的结尾处出现的要求保护的主题的所有组合被设想是本文公开的主题的一部分。

附图说明

图1图示用于选择用于自动化助理与用户交互的语言的系统。

图2图示提供用户与自动化助理之间的交互的示例的图，其中语音辨识模型在交互期间被互换。

图3A和图3B图示用于根据用户与自动化助理之间的交互的环境特性来选择语音辨识模型的方法。

图4是示例计算机系统的框图。

具体实施方式

图1图示用于选择用于自动化助理104与用户130交互的语言的系统100。自动化助理104可部分地经由在一个或多个客户端设备(诸如客户端计算设备118(例如，便携式计算设备132))处提供的自动化助理126来操作，并且部分地经由一个或多个远程计算设备112(诸如服务器设备102)来操作。用户130可经由客户端计算设备118的助理接口128与自动化助理104交互。助理接口128包括用于由自动化助理126在与用户130对接时使用的用户接口输入设备和用户接口输出设备。助理接口128接受用户130的被定向到自动化助理104的用户接口输入，并且渲染来自自动化助理104的内容以供呈现给用户130。助理接口128可包括麦克风、扬声器、显示面板、相机、触摸屏显示器和/或客户端计算设备118的任何其它用户接口设备中的一个或多个。助理接口128还可包括显示器、投影仪、扬声器，和/或客户端计算设备118的可用于渲染来自自动化助理104的内容的任何其它用户接口输出设备。用户可通过向助理接口128提供口头、文本或图形输入来初始化自动化助理104以使自动化助理104执行功能(例如，提供数据、控制外围设备、访问代理等)。客户端计算设备118可包括显示设备，所述显示设备可以是显示面板，该显示面板包括触摸接口以用于接收触摸输入和/或手势以便允许用户经由该触摸接口来控制客户端计算设备118的应用。在一些实施方式中，客户端计算设备118可能缺少显示设备，从而提供可听用户接口输出，而不提供图形用户接口输出。此外，客户端计算设备118可提供用户接口输入设备，诸如麦克风，以用于从用户130(并从附加未图示的用户)接收口头自然语言输入。

客户端计算设备118可通过网络114(诸如互联网)与远程计算设备112通信。客户端计算设备118可将计算任务卸载到远程计算设备112，以便例如保存客户端设备118处的计算资源并且/或者利用远程计算设备112处可用的更鲁棒的资源。例如，远程计算设备112可托管自动化助理104，并且客户端计算设备118可将在一个或多个助理接口处接收的输入发送到远程计算设备112。然而，在一些实施方式中，自动化助理104可通过客户端计算设备118处的自动化助理126来托管。在各种实施方式中，自动化助理104的所有方面或少于所有方面可通过客户端计算设备118处的自动化助理126来实现。在那些实施方式中的一些中，自动化助理104的各方面经由客户端计算设备118的本地自动化助理126来实现并且与实现自动化助理104的其它方面的远程计算设备112对接。远程计算设备112可经由多个线程可选地为多个用户及其关联的助理应用服务。在经由客户端计算设备118的本地自动化助理126来实现自动化助理104的所有方面或少于所有方面的实施方式中，本地自动化助理126可以是与客户端设备118的操作系统分离的应用(例如，被安装在操作系统“之上”)——或者可替换地通过客户端设备118的操作系统来直接地实现(例如，被认为是操作系统的但与操作系统集成一体的应用)。

在一些实施方式中，远程计算设备112可包括语音辨识引擎134，所述语音辨识引擎134可处理在助理接口126处接收的音频数据以确定体现在音频数据中的口头话语的文本和/或其它语义表示。语音辨识引擎134可在确定体现在音频数据中的口头话语的文本和/或其它语义表示时利用一个或多个语音辨识模型136。如本文所描述的，可提供多个语音辨识模型136，并且每个语音辨识模型可用于对应的语言。例如，第一语音辨识模型可用于英语，第二语音辨识模型可用于法语等。另外，如本文所描述的，在音频数据的处理中利用多个语音辨识模型136中的哪一个可基于例如包含在被确定为对应于正在处理的音频数据的用户简档中的信息。例如，在一些实施方式中，可基于使音频数据的话音特征与和用户简档相关联的话音特征匹配来将给定用户简档确定为对应于正在处理的音频数据。另外，例如，在一些实施方式中，可基于使来自客户端计算设备118的传感器的其它传感器数据(例如，来自相机的数据和/或来自指纹传感器的数据)与用户简档的对应数据匹配，附加地或替换地将给定用户简档确定为对应于正在处理的音频数据。继续这些示例，如果用户简档指示对用户来说英语语音辨识模型比法语语音辨识模型显著地更可能被利用，则可利用英语语音辨识模型来处理音频数据。能够可选地利用英语语音辨识模型代替利用法语语音辨识模型(或用于非英语语言的任何其它语音辨识模型)。

附加地或替换地，可在音频数据的处理中利用用于多种不同的语言的多个语音辨识模型136以生成多个候选语义和/或文本表示(例如，各自对应于不同的语言)。在那些实施方式中的一些中，可利用针对多种不同的语言的概率度量(可选地取决于当前场境参数)和/或针对多个候选语义表示中的每一个的量度，来适当地选择候选语义表示中的仅一个用于生成并提供响应于给定口头话语的内容。

在一些实施方式中，语音辨识模型136各自包括用于确定对应于体现在音频数据中的口头话语的文本(或其它语义表示)的一个或机器学习模型(例如，神经网络模型)和/或统计模型。在一些实施方式中，语音辨识引擎134可利用语音辨识模型136中的一个来针对对应的语言确定被包括在音频数据中的音素，然后针对所对应的语言基于所确定的音素来生成文本。在一些实施方式中，语音辨识模型例如以数字音频数据的形式接收话音输入的音频记录，并且将该数字音频数据转换成一个或多个文本记号。通过这种功能性所使用的一个或多个模型(其可共同地被认为是语音辨识模型)通常对音频信号与语言中的语音单位之间的关系以及语言中的单词序列进行建模。在一些实施方式中，语音辨识模型可以是声学模型、语言模型、发音模型等以及组合此类模型中的一个或多个的功能性的模型。在一些实施方式中，例如，可以将语音辨识模型实现为包括多个路径或途径的有限状态解码图。

自动化助理104可同时地根据一个或多个语言模型来操作，以便响应于来自用户130的自然语言输入并且/或者向用户130提供响应内容。例如，在一些实施方式中，自动化助理104可在使用与特定语言相关联的语音辨识模型情况下同时地使用调用短语模型来操作。以这种方式，自动化助理可处理体现调用短语和用特定语言提供的一个或多个命令的音频数据，并且响应于调用短语和一个或多个命令两者。从音频数据转换的文本和/或语义表示可由文本解析器引擎110解析，并且作为可用于生成和/或识别来自用户130和/或第三方应用的命令短语的文本数据或语义数据被提供给自动化助理104。

在一些实施方式中，语言模型可包括或者指代声学模型、语音辨识模型、调用短语模型、话音至文本模型、话音至语义表示模型、文本至语义表示模型和/或可用于将自然语言输入转译成可由应用或设备处理的数据的任何其它模型。在一些实施方式中，可从在用户简档或可与用户相关联的其它账户数据中识别的一种或多种语言中选择自动化助理104使用来与用户130进行通信的语言。自动化助理可从一个或多个服务器用户简档120和/或一个或多个客户端用户简档122中访问用户简档。例如，当用户130正在与客户端计算设备118处的自动化助理126进行通信时，用户130可将口头自然语言输入提供给客户端计算设备118的助理接口128。口头自然语言输入可被转换成音频数据，所述音频数据可由客户端语言模型124(诸如用于识别音频数据是否体现用于调用自动化助理126的调用短语的调用短语模型)处理。客户端语言模型124还可提供用户130的话音签名。基于用户130的话音签名，自动化助理126可选择对应于用户130的客户端用户简档122。取决于用户130与自动化助理126之间的交互的场境或交互的特性，客户端用户简档122可识别所标识的用户130更喜欢用来通信的一种或多种语言。

在一些实施方式中，可在客户端计算设备118处采用调用短语模型来确定用户130是否正打算调用自动化助理104。当用户向助理接口128提供自然语言输入并且该自然语言输入包括用于调用自动化助理104的调用短语时，客户端计算设备118可使服务器设备102处的自动化助理104从用户130接收自然语言输入和/或后续自然语言输入。例如，响应于确定用户130正打算在客户端计算设备118处调用自动化助理104，可在客户端计算设备118与服务器设备102之间建立一个或多个通信信道。此后，随着用户继续向助理接口128提供自然语言输入，这些自然语言输入将被转换成数据，该数据然后通过网络114发送并由服务器设备102处理。此后，自动化助理104可分析数据以从服务器设备102处可用的一个或多个服务器用户简档120中确定对应于用户130的用户简档。来自所选服务器用户简档的语音辨识模型136可被选择用于与用户130进行通信。从用户简档中选择语音辨识模型136可基于用户130的场境、与通过用户简档所识别的一个或多个语音辨识模型136相关联的一个或多个置信分数或概率和/或可用于选择语言的任何其它信息。

在一些实施方式中，通过服务器用户简档120和/或客户端用户简档122的用户简档所识别的每种语言可与可以是静态的或动态的概率度量或置信分数相关联。例如，当用户130正在与自动化助理126交互时，可从用于用户130的用户简档中选择第一语言作为用于用户130的默认语言。然而，对一个或多个交互特性的检测可触发对用于处理来自用户130的口头话语的语音辨识模型的选择的变化。例如，最初自动化助理126可使来自用户130的口头话语根据与第一语言相对应的第一语音辨识模型被处理。当检测到交互特性(诸如阈值响应延迟、阈值响应持续时间、预期响应持续时间、预期响应类型和/或任何其它交互特性)时，可通过多个语音辨识来处理用于响应的音频数据，以确定最适合的语音辨识模型以用于增进交互。自动化助理然后可选择最适合的语音辨识模型(例如，提供与特定语言最相关的输出的模型)，诸如与第二语言相对应的第二语音辨识模型，以用于处理来自用户130的后续输入。

在一些实施方式中，交互特性可与可提供各种值的概率度量或概率函数相关联。例如，当用户130正在与自动化助理126交互时，在已检测到交互特性之前，可根据与第一语言相关联的第一语音辨识模型来处理来自用户130的口头话语。根据与用户130相关联的用户简档，当未检测到特定交互特性时可给予第一语言第一分数，而当检测到特定交互特性时可给予第一语言小于第一分数的第二分数。此外，与用户130相关联的用户简档可指示当未检测到特定交互特性时可给予第二语言第三分数，而当检测到交互特性时可给予第二语言比第一分数高的第四分数。结果，当在用户130与自动化助理126之间的交互期间检测到特定交互特性时，可停用第一语音辨识模型并且可激活与第二语言相关联的第二语音辨识模型。这可能部分是因为第四分数比第一分数高。

图2图示提供用户202与自动化助理之间的交互或对话会话的示例的图200，其中语音辨识模型在交互期间被互换。可在用户202向助理设备206提供调用短语时初始化交互。调用短语可以是“Assistant(助理)”，并且助理设备206可使用声学模型来处理响应于接收到调用短语而生成的音频数据以识别该音频数据的特征。另外，助理设备206可基于用户简档包括与音频数据的特征充分匹配的特征来确定对应于用户202的用户简档。例如，助理设备206可存储或者访问表210，所述表210可提供用于选择要采用来处理来自用户202的口头话语的语音辨识模型的一个或多个用户简档(例如，“1”、“2”等)。

可进一步处理用户对话204以确定要提供给用户202的响应内容208。例如，自动化助理可使口头话语“Assistant，order some food(助理，订购一些食物)”被处理以便生成适合的响应，诸如“OK，where would you like to order food from(好的，你想要从哪里订购食物)？”在自动化助理提供响应的时间期间和/或之后的时段期间，助理设备206的自动化助理或其它模块可监视用户202对自动化助理做出响应所花费的时间的持续时间。附加地或替换地，自动化助理可预期用户202与自动化助理之间的后续交互的一个或多个交互特性。例如，基于来自用户202的有关订购食物的查询，自动化助理可确定用户202可以提供适当的名词作为对来自自动化助理的某些响应内容208的响应。附加地或替换地，自动化助理可预期由用户202提供的响应中的任一个的一种或多种输入类型和/或响应持续时间。

作为示例，基于用户202对提示“...where would you like to order food from(你想要从哪里订购)？”做出响应中的延迟自动化助理可确定已满足“A”秒(例如，3秒)的阈值“监视持续时间”。作为响应，自动化助理可使与用户简档相关联的多个模型(例如，“英语”语音辨识模型和“中文”语音辨识模型)处理来自用户的任何后续口头话语，以便确定用户202是否已切换了正用之说的语言。例如，“Shāokǎo”的后续用户对话204可被转换为音频数据并通过“英语”语音辨识模型和“中文”语音辨识模型来处理。来自每个模型的输出可包括文本和/或音素，其可被处理以确定用户正在说英语或中文的可能性。因为“Shāokǎo”的用户对话204对应于中文单词，所以中文语音辨识模型输出可提供用户202更可能在说中文而不是英语的指示。因此，中文语音辨识模型可在交互的剩余部分期间保持活动，至少直到检测到另一交互特性为止。替换地，可基于中文语音辨识模型和英语语音辨识模型的输出来暂时调整针对每个模型的“总”分数，以便中文模型具有更高的总分数。结果，中文模型将被认为是活动的，至少直到分数在检测或预期到用户将会说不同的语言或者检测到另一用户时降低为止。

替换地或附加地，基于与提示相对应的预期输入类型，如通过表210所指示的(例如，餐馆的名称可以是“专有名词”)，自动化助理可使“中文模型”被激活。此后，用户202可提供餐馆用的中文名称“Shāokǎo”(意指烧烤)，并且可使用中文语音辨识模型来处理与该中文名称相对应的音频数据。以这种方式，通过在用户与自动化助理之间的对话会话期间抢占式选择语音辨识模型，可通过滤出否则是不必要采用的语音辨识模型来保存计算资源。例如，通过选择中文语言语音辨识模型，将不需要使用英语语言语音辨识模型和中文语言语音辨识模型两者来处理餐馆用的中文名称，以确定此后要使用的最佳模型。相反，可通过在预期用户202使用的语言改变时抢占式激活一个或多个语音辨识模型来消除这种重复处理。

如通过图200中图示的示例进一步提供的，因为中文语言语音辨识模型被选择用于处理中间用户对话204，所以也可采用中文模型来为用户202生成响应内容208。响应于接收到用户对话204“Shāokǎo”，自动化助理可提供诸如“Duōshǎo？”这样的响应内容208，其对应于用于请求用户202想要订购多少订单或主菜的提示(即，“多少？”)。提示可对应于特定交互特性，诸如例如编号的响应，其历史交互数据可指示用户202(“1”)通常根据英语模型提供。因此，响应于识别特定交互特性(例如，“预期输入类型”)，可将激活的语音辨识模型切换为英语语言语音辨识模型。此后，当用户202提供响应“Three(三个)”时，自动化助理将已经激活英语模型以用于处理与响应相对应的音频数据。

图3A和图3B图示用于根据用户与自动化助理之间的交互的环境特性来选择语音辨识模型的方法300和310。方法300可由一个或多个计算设备、应用和/或能够与自动化助理交互的任何其它装置或模块执行。图3A处的方法300可根据继续元素“A”继续到图3B处的方法310，所述继续元素“A”示出方法300如何可进行到图3B处的方法310。方法300包括接收与用户的口头话语相对应的音频数据的操作302。音频数据可基于在包括用于与自动化助理交互的自动化助理接口的客户端设备处对口头话语的检测。自动化助理接口可以是客户端设备的一个或多个硬件子系统或应用。例如，自动化助理接口可包括一个或多个麦克风、扬声器、显示设备、触摸接口、外围设备和/或能够为计算设备提供输入和/或输出的任何其它设备或模块。口头话语可以是用于调用或者初始化自动化助理以促进动作或任务的自然语言输入，诸如调用短语。自动化助理可使用分别与一种或多种语言相对应的一个或多个语音辨识模型来解释自然语言输入并提供自然语言输出。

方法300可进一步包括使用与第一语言相对应的第一语音辨识模型来处理音频数据的操作304。语音辨识模型可对应于数据的可接收输入并提供输出的结构，所述结构可被应用或客户端设备进一步处理。例如，语音辨识模型可以是接收音频数据作为输入并且提供表征与特定语言相对应的文本和/或音素的数据作为输出的模型。在一些实施方式中，第一语音辨识模型可被自动化助理采用以便确定用户是否正在使用一个或多个调用短语来调用自动化助理。例如，调用短语可以是可触发自动化助理的一个或多个单词，以便给自动化助理提供有关是否正在调用自动助理的离散命令。在一些实施方式中，第一语音辨识模型可以是默认语音辨识模型，并且第一语言可以是用户优选的语言或针对用户的与最高总分数相对应的第一语言。因此，在客户端设备处操作的自动化助理或语音辨识引擎可采用第一语音辨识模型以便解释用户用其默认语言提供的语音。

方法300还可包括基于使用第一语音辨识模型来处理音频数据而确定响应于来自用户的口头话语的内容的操作306。内容可以是例如音频数据、文本数据、音素数据和/或可被处理或者转换成可被用户理解的语言的任何其它数据。方法300可进一步包括使客户端设备将内容渲染给用户的操作308。在一些实施方式中，内容可包括索求来自用户的进一步输入的提示。例如，在操作302处来自用户的口头话语可以是诸如“Assistant”这样的简单调用短语，并且提示可以是由自动化助理发出的预定响应，诸如“What can I help youwith(我能为你提供什么帮助)？”。替换地，来自操作302的口头话语可以是与要由自动化助理执行的一个或多个动作相对应的命令。响应于命令，自动化助理可提供用于请求将协助自动化助理执行一个或多个动作的信息的提示。例如，来自操作302的口头话语可以是“Assistant，read my new messages(助理，读我的新消息)”，并且作为响应，自动化助理可提供索求用户指示要从中读消息的账户的提示(例如，“Ok，would you like me to readyour work messages or personal messages(好的，你想要我读你的工作消息还是个人消息)？”)。

方法300可根据图3A和图3B中图示的继续元素“A”进行到方法310。方法310可包括响应于确定内容包括提示而针对附加口头输入进行监视的操作312。针对附加口头输入进行监视可包括使客户端设备激活或者以其它方式控制自动化助理接口以便从用户接收后续输入。例如，针对附加口头输入进行监视可包括：在客户端设备的缓冲器中捕获音频输入作为音频数据，以便可在自动化助理应用的指导下通过客户端设备或其它模块进一步处理音频数据。

方法310可进一步包括在监视期间接收与附加口头话语相对应的附加音频数据的操作314。附加音频数据可基于由客户端设备的自动化助理接口对附加口头话语的检测。附加口头话语可由用户提供以便提供一个或多个时档值以供自动化助理在执行一个或多个动作时使用。例如，如果来自自动化助理的先前提供的提示索求用户识别自动化助理是应该读其工作消息还是个人消息，则附加口头话语可用特定语言体现对工作消息或个人消息的选择(例如，“Pleas read my work messages(请读我的工作消息)。”)。

方法310还可包括确定是利用针对第一语言的第一语音辨识模型还是针对第二语言的替代语音辨识模型的操作316。自动化助理可利用第一语音辨识模型和/或替代语音辨识模型以便确定或者生成要响应于来自用户的附加口头话语而提供的进一步响应内容。

在一些实施方式中，确定是否使用任何一个语音辨识模型可基于与用于针对来自用户的附加口头输入进行监视的时间段相对应的监视持续时间。例如，随着监视持续时间增加，利用替代语音辨识模型的概率可增加。替换地，当监视持续时间满足特定阈值时，可选择替代语音辨识模型。替换地或附加地，确定是否使用任何一个语音辨识模型可基于与用户的附加口头话语的持续时间相对应的响应持续时间。替换地或附加地，确定是否使用任何一个语音辨识模型可基于与附加口头话语的持续时间相对应的输入持续时间，至少根据用于附加口头话语的预期持续时间与附加口头话语的实际持续时间之间的差。因此，例如，随着预期持续时间与实际持续时间之间的差增加，利用替代语音辨识模型的概率可增加。替换地，当预期持续时间与实际持续时间之间的差满足阈值时，可利用替代语音辨识模型。替换地或附加地，确定是否利用任何一个语音辨识模型可基于用于附加口头话语的预期输入类型。例如，自动化助理可响应于提示而预期输入的类型，诸如数字、字母、动词、形容词、名词、代词和/或可与一种或多种语言相关联的任何其它词性、措词、语音的类型、术语、单词或短语。

方法310可进一步包括使客户端设备渲染进一步响应内容的可选操作318。可根据对应于在操作316处选择的语音辨识模型的语言的语言模型来渲染进一步响应内容。以这种方式，自动化助理可适应用户的动态语言偏好，而不必用户显式地请求语言模型的变化。这可保存计算资源，减轻响应之间的等待时间，并且保存电力，因为客户端设备和/或自动化助理将不再需要处理来自用户的切换语言模型或语言偏好的口头请求。

图4是示例计算机系统410的框图。计算机系统410通常包括经由总线子系统412与许多外围设备进行通信的至少一个处理器414。这些外围设备可以包括存储子系统424(包括例如存储器425和文件存储子系统426)、用户接口输出设备420、用户接口输入设备422和网络接口子系统416。输入和输出设备允许用户与计算机系统410交互。网络接口子系统416提供到外部网络的接口并且耦合到其它计算机系统中的对应的接口设备。

用户接口输入设备422可以包括键盘、诸如鼠标、轨迹球、触摸板或图形平板这样的指点设备、扫描器、并入到显示器中的触摸屏、诸如话音辨识系统、麦克风这样的音频输入设备和/或其它类型的输入设备。通常，术语“输入设备”的使用旨在包括用于将信息输入到计算机系统410或者到通信网络上的所有可能类型的设备和方式。

用户接口输出设备420可以包括显示子系统、打印机、传真机或诸如音频输出设备这样的非可视显示器。显示子系统可以包括阴极射线管(CRT)、诸如液晶显示器(LCD)这样的平板设备、投影设备或用于创建可见图像的某种其它机制。显示子系统还可以例如经由音频输出设备提供非可视显示。通常，术语“输出设备”的使用旨在包括用于将信息从计算机系统410输出给用户或者给另一机器或计算机系统的所有可能类型的设备和方式。

存储子系统424存储提供本文描述的模块中的一些或全部的功能性的编程和数据构造。例如，存储子系统424可以包括用于执行方法300的所选方面并且/或者用于实现本文讨论的服务器设备102、客户端设备118、便携式计算设备132、助理设备206和/或任何其它设备或操作中的一个或多个的逻辑。

这些软件模块通常由处理器414单独或与其它处理器相结合地执行。存储子系统424中使用的存储器425可包括许多存储器，包括用于在程序执行期间存储指令和数据的主随机存取存储器(RAM)430以及存储有固定指令的只读存储器(ROM)432。文件存储子系统426可为程序和数据文件提供持久存储，并且可以包括硬盘驱动器、软盘驱动器以及关联的可移动介质、CD-ROM驱动器、光驱或可移动介质盒。实现某些实施方式的功能性的模块可以由文件存储子系统426存储在存储子系统424中，或者存储在可由处理器414访问的其它机器中。

总线子系统412提供用于让计算机系统410的各种组件和子系统如预期彼此通信的机制。尽管总线子系统412被示意性地示出为单条总线，但是总线子系统的替代实施方式可以使用多条总线。

计算机系统410可以是变化类型，包括工作站、服务器、计算集群、刀片服务器、服务器场或任何其它数据处理系统或计算设备。由于计算机和网络的不断变化的性质，对图4中描绘的计算机系统410的描述仅作为具体示例意在供图示一些实施方式的目的使用。与图4中描绘的计算机系统相比，计算机系统410的许多其它配置可以具有更多或更少的组件。

在本文描述的系统收集关于用户(或如在本文中常常提及的，“参与者”)的个人信息或者可以利用个人信息的情形下，可以给用户提供用于控制程序或特征是否收集用户信息(例如，关于用户的社交网络、社交动作或活动、职业、用户的偏好或用户的当前地理位置的信息)或者用于控制是否和/或如何从服务器接收可能与用户更相关的内容的机会。另外，某些数据可以在它被存储或者使用之前被以一种或多种方式处理，使得个人可识别的信息被去除。例如，可以处理用户的身份，使得对于该用户来说不能确定个人可识别的信息，或者可以在获得地理位置信息的情况下使用户的地理位置一般化(诸如到城市、邮政编码或州级别)，使得不能确定用户的特定地理位置。因此，用户可以控制信息如何关于用户被收集和/或使用。

虽然已在本文中描述并图示了若干实施方式，但是可以利用用于执行功能并且/或者获得结果和/或本文描述的优点中的一个或多个的各种其它手段和/或结构，并且这样的变化和/或修改中的每一个均被视为在本文描述的实施方式的范围内。更一般地，本文描述的所有参数、尺寸、材料和配置意在为示例性的，并且实际的参数、尺寸、材料和/或配置将取决于教导被用于的一个或多个具体应用。本领域的技术人员将认识到或者能够使用不超过一个例行实验来探知本文描述的具体实施方式的许多等同物。因此，应当理解的是，上述实施方式仅通过示例来呈现，并且在所附权利要求及其等同物的范围内，可以不像具体地描述和要求保护的那样实践这些实施方式。本公开的实施方式致力于本文描述的每个单独的特征、系统、物品、材料、套件和/或方法。此外，如果这样的特征、系统、物品、材料、套件和/或方法不是相互不一致的，则两个或更多个这样的特征、系统、物品、材料、套件和/或方法的任何组合被包括在本公开的范围内。

Claims

1.一种由一个或多个处理器实现的方法，所述方法包括：

接收与用户的口头话语相对应的音频数据，所述音频数据基于由客户端设备进行的对所述口头话语的检测；

使用与第一语言相对应的第一语音辨识模型来处理所述音频数据；

基于使用所述第一语音辨识模型来处理所述音频数据来确定响应于所述口头话语的内容；

针对来自所述用户的附加口头输入进行监视；

在所述监视期间接收与附加口头话语相对应的附加音频数据，所述附加音频数据基于由所述客户端设备进行的对所述附加口头话语的检测；

基于接收到所述附加音频数据，确定所述附加口头话语是由附加用户提供的；

基于所述附加口头话语是由所述附加用户提供的，访问与附加用户相对应的用户简档；

基于访问与所述附加用户相对应的所述用户简档，确定所述用户简档提供所述附加用户与第二语言之间的对应性；和

基于确定所述用户简档提供所述附加用户与所述第二语言之间的所述对应性：

在处理所述附加音频数据时使用所述第二语言的第二语音辨识模型；和

使所述客户端设备基于使用所述第二语音辨识模型对所述附加音频数据的所述处理来渲染进一步响应内容。

2.根据权利要求1所述的方法，进一步包括：

响应于确定所述用户简档提供所述附加用户与所述第二语言之间的所述对应性，以所述二语言生成所述响应内容。

3.根据权利要求1所述的方法，其中，在处理所述附加音频数据时使用所述第二语音辨识模型是进一步基于自从接收到与所述口头话语相对应的所述音频数据以来发生的一个或多个交互特性。

4.根据权利要求3所述的方法，其中，所述一个或多个交互特性包括以下中的一个或多个：所述附加口头话语的监视持续时间、输入持续时间和预期输入类型。

5.根据权利要求3所述的方法，其中，所述一个或多个交互特性包括以下中的两个或更多个：所述附加口头话语的监视持续时间、输入持续时间和预期输入类型。

6.根据权利要求1所述的方法，其中，基于确定所述用户简档提供所述附加用户与所述第二语言之间的所述对应性，在处理所述附加音频数据时使用所述第二语音辨识模型包括：

确定在所述用户简档中指派给所述第一语音辨识模型的第一概率度量，以及在所述用户简档中指派给所述第二语音辨识模式的第二概率度量；和

基于所述第二概率度量指示比所述第一概率度量更高的概率，确定所述用户简档提供所述附加用户与所述第二语言之间的所述对应性。

7.根据权利要求6所述的方法，其中，所述第一概率度量是基于所述附加用户对所述第一语言的过去使用，并且其中，所述第二概率度量是基于所述附加用户对所述第二语言的过去使用。

8.根据权利要求1所述的方法，其中，基于接收到所述附加音频数据来确定所述附加口头话语是由所述附加用户提供的包括：将所述音频数据的话音特征与和所述用户简档相关联的话音特征相匹配。

9.一种由一个或多个处理器实现的方法，所述方法包括：

接收与用户的口头话语相对应的音频数据，所述音频数据基于在客户端设备处对所述口头话语的检测，所述客户端设备包括用于与自动化助理交互的自动化助理接口；

基于使用所述第一语音辨识模型来处理所述音频数据而确定响应于所述用户的口头话语的内容；

使所述客户端设备将所述内容渲染给所述用户，其中，所述内容包括索求来自所述用户的进一步输入的提示；

响应于确定所述内容包括所述提示，针对附加口头输入进行监视；

在所述监视期间接收与附加口头话语相对应的附加音频数据，所述附加音频数据基于通过所述客户端设备的所述自动化助理接口对所述附加口头话语的检测；

在确定要响应于所述附加口头话语而提供的进一步响应内容时，确定是利用针对所述第一语言的所述第一语音辨识模型还是针对第二语言的替代语音辨识模型，其中，在确定所述进一步响应内容时确定是利用所述第一语音辨识模型还是所述替代语音辨识模型包括：

使用所述第一语音辨识模型来处理所述附加音频数据以生成所述第一语言的第一预测文本以及指示所述第一预测文本正确的第一可能性的第一量度；

使用所述替代语音辨识模型来处理所述附加音频数据以生成所述第二语言的第二预测文本以及指示所述第二预测文本正确的第二可能性的第二量度；

利用所述第二预测文本来确定所述进一步响应内容，其中，利用所述第二预测文本来确定所述进一步响应内容是基于所述第二量度并且基于以下各项中的一项或多项：

与用于针对来自所述用户的所述附加口头输入进行监视的时间段相对应的监视持续时间，

与所述用户的所述附加口头话语的持续时间相对应的输入持续时间，或

用于所述附加口头话语的预期输入类型；以及

使所述客户端设备渲染所述进一步响应内容。

10.一种包括指令的非易失性计算机可读存储介质，所述指令当由一个或多个处理器执行时，使所述一个或多个处理器执行根据权利要求1至9中的任何一项所述的方法。

11.一种用于确定口头话语的语音辨识的语言的系统，所述系统包括用于执行根据权利要求1至9中的任何一项所述的方法的一个或多个处理器。