CN108573702B

CN108573702B - 具有域歧义消除的启用语音功能的系统

Info

Publication number: CN108573702B
Application number: CN201711362415.3A
Authority: CN
Inventors: 雷纳·利布
Original assignee: SoundHound Inc
Current assignee: SoundHound Inc
Priority date: 2017-03-10
Filing date: 2017-12-18
Publication date: 2023-05-26
Anticipated expiration: 2037-12-18
Also published as: US20190164553A1; JP6852006B2; CN108573702A; JP2018151631A; HK1258311A1; US20180261216A1; US10229683B2

Abstract

本公开涉及具有域歧义消除的启用语音功能的系统。系统执行解释来自用户的口头表述并通过提供所请求的信息或执行所请求的动作来回应表述的方法。在多个域的情境中对表述进行解释。根据解释代表说话者的意图的程度，赋予每个解释相关性分数。丢弃具有低于其所关联的域的阈值的相关性分数的解释。基于为表述选择最相关的域来对剩余的解释进行选择。可能会提示用户提供可用于选择最佳域的歧义消除信息。存储过去的表述表示和领域选择的关联允许测量说出的词语和短语与相关域之间的关联的强度。该关联强度信息可以允许系统在不需要用户输入的情况下自动消除备选解释的歧义。

Description

具有域歧义消除的启用语音功能的系统

技术领域

本发明属于处理自然语言表述(utterance)的启用语音功能的(speech-enabled)系统的领域。具体而言，本公开解决语音交互以消除口头查询的歧义。

背景技术

计算机化系统可以处理人类所做出的自然语言表述的情况越来越普遍。例如，网络搜索引擎接受自然语言文本输入，处理该输入，并提供可视结果。这样的系统通常在浏览器窗口中同时提供大量(例如10个)结果。这些结果可以包括图片和文本。这样的系统也可能显示一些广告。可视人机界面可以提供丰富多样的结果，使得用户可以相对快速地消化大量信息。

启用语音功能的系统是其中用户与机器交互的系统，通过说出自然语言表述来提供输入。这样的机器通常使用自动语音识别和自然语言处理技术来解释表述。许多启用语音功能的系统也输出所生成的语音，但有些则没有。通过言语进行信息传递的速度远远低于视觉展示。系统要花费很长时间才能说出基于浏览器的搜索引擎响应单个自然语言表达的输入而提供的所有结果。花费的时间如此之长，以至于用户只通过语音与这些机器进行交互是不切实际的。

许多视觉系统响应于含义模棱两可的表达，显示适合于对表述的多个合理解释中的每个解释的结果。大多数情况下，对于启用语音功能的系统而言，为模棱两可的表述提供适当的结果是不切实际的。传统的启用语音功能的系统在面对模棱两可的表述时，猜测最佳解释以形成其结果。猜测的解释经常不是用户所期望的解释。这是传统的启用语音功能的系统的用户常常感到沮丧的普遍原因。

另外，在许多情况(例如，对于没有显示器的设备、或者设备必须在不需要眼神接触的情况下操作)下，使用视觉显示器来消除语音表述的含义的歧义是不切实际的。

发明内容

本发明的各种实施例是提供更自然的会话用户界面的系统和方法。这些实施例解释关于多个可能的主题领域(会话域)的表述。如果表述在多个域中是合理的，系统以域的列表或者指示域的词语来响应用户，随后提示用户指出他们想要的域。例如，响应于表述“保罗·西蒙(Paul Simon)出生在哪里？”，一些实施例会回应：“音乐家保罗·西蒙还是政治家保罗·西蒙？”。如果下一表述指示对音乐家(即，音乐域)或政治家(即，政治域)的兴趣，则系统相应地产生结果。

一些实施例以各种自然的、类人类的方式进行响应。响应于无意义的表述，一些实施例指示它不理解。针对含糊的表述，一些实施例要求澄清。响应于需要更多信息的合理表述(例如“拨打电话”)，一些实施方式以对于缺少的信息的请求(比如“您想打给谁？”)做出响应。响应于仅有唯一合理的含义的表述，一些实施例给出可能的预期结果。作为对诸如“保罗·西蒙出生在哪里？”之类的具有很少的可能解释的表述的响应，一些实施例以多个结果做出响应，例如“歌手保罗·西蒙出生在新泽西州纽瓦克，政治家保罗·西蒙出生在俄勒冈州的尤金市”。作为对诸如“桑尼维尔(Sunnyvale)的天气如何？”之类的具有多种解释的表述的响应，一些实施方式以选项的列表和请求用户消除歧义的请求来做出响应，例如“您是指加利福尼亚州桑尼维尔、德克萨斯州桑尼维尔、北卡罗来纳州桑尼维尔、密苏里州桑尼维尔、还是桑尼维尔新斯科舍省？”

一些实施例例如通过对每个域被选择的次数进行计数来收集关于用户对域的选择的统计数据。一些实施例通常跨许多用户对域选择进行计数，而其它实施例对每个个体用户的域选择进行计数。一些实施例利用针对为歧义消除而提供的域的每个组合的特定计数器对所选域进行计数。

附图说明

图1A是示出根据本发明实施例的、用于在启用语音功能的系统中提供针对用户表述的结果的方法的概述的流程图。

图1B是示出了根据本发明的实施例的、图1A所示的总体流程内的基于域来消除表述的解释的歧义的方法。

图2A-2B示出了根据本发明实施例的用于所选域的递增计数器。

图3示出根据本发明的实施例的与表述有关的选择的存储记录。

图4示出了根据本发明的实施例的、在图1A所示的总体流程内的提供各种歧义消除技术的方法。

图5示出了根据本发明的实施例的用户、客户端和服务器之间的关系。

图6图示了根据本发明的实施例的服务器。

图7示出了根据本发明的实施例的客户端。

图8示出了根据本发明的实施例的汽车的俯视图。

图9示出了根据本发明的实施例的非暂态计算机可读介质。

图10示出了根据本发明的实施例的片上系统封装。

图11示出了根据本发明的实施例的片上系统内的模块。

图12示出了根据本发明的实施例的计算机系统的框图。

具体实施方式

术语和介绍

与文本的自然语言表达(expression)形成对比，表述是口头的自然语言表达。

用户通过说出自然语言表述向启用语音功能的系统提供输入。

系统例如通过麦克风接收表述，并执行语音识别。此外，系统执行自然语言处理来解释表述并产生解释。解释的过程是对口头表述中的单词应用的一种语法规则。由此产生的解释是代表说话者意图的数据结构的实例。

会话的域表示主题领域，并且包括一组语法规则。解释域内的表述的过程恰好产生一个解释数据结构实例。系统在会话的不同域的情境中解释表述时会出现不同的解释。每个解释代表了由一个域解释的表述的含义。用户提出请求，例如询问“现在是几点？”或指示系统“发送消息”。系统例如通过说出时间来提供响应。系统还例如通过询问“你想向谁发送消息？”来向用户提出请求，并且用户例如通过回答“妈妈”做出答复。一个或多个请求和响应的序列产生结果，例如，发送消息或报告当天的时间。

基本方法

各种实施例使用执行存储在计算机可读介质上的软件的计算机。一些实施例包括单个设备。一些实施例包括服务器，其经由网络耦合到向用户提供直接语音接口的客户端。这样的实施例从客户端接收表述。

图1A是示出根据本发明实施例的、用于在启用语音功能的系统中提供用户表述的结果的方法的概述的流程图。在步骤11中，通过自然语言理解系统接收和解释表述。该系统将表述的音频信号表示转换成长音素序列。系统继续对音素序列进行词语切分(tokenize)。在一些实施例中，系统将词语切分转录成口头表述的文本。系统继续根据多个域的语义语法规则来解释经词语切分的音素序列，来为每个域创建表示在该域的情境中的表述的解释数据结构。

启用语音功能的系统可确定一个或多个会话的域，表述在这些会话的域的情境中是合理的。每个表述在每个域都恰有一个解释。一些实施例在产生针对表述的结果(例如，动作)之前，等待解释被选择为用户想要的那个解释。例如，对于具有请求地理事实的解释以及需要查看天气情况的另一解释的表述，这样的实施例直到需要查看天气情况的解释被选择为优于另一解释为止才查找天气情况。通过仅为选定的解释形成结果，这样的系统节省了为访问数据而花费的处理工作量、延迟、功耗和费用。然而，要求对表述做出非常快速的响应、并且在高度并行的系统上执行的应用可以形成多个解释的结果，随后仅提供与所选解释相对应的结果。

在步骤11中，针对表述在该域内的合理程度对每个解释进行评估。例如，对于表述“正在下雨(raining)！”，系统将在天气域分配高相关性分数，而在烹饪域则分配低相关性分数。系统通过根据每个域中的语法规则解释该表述来做到这一点。语法规则定义了与域相关的词语及其含义。关于天气的域具有定义词语“下雨”在与其它词语的各种组合中的含义的语法规则。关于烹饪的域没有定义“下雨”这个词的含义。当系统根据语法规则解释表述时，它们计算指示域与理解表述的相关程度的分数。例如，在有关电话的域中，“呼叫米歇尔”的分数会较高，因为这是非常常见的用短语描述命令的方式，而“连接米歇尔”的分数则会有点低，因为它是不常用的用短语描述电话命令的方式。在社交网络领域，“连接到米歇尔”的分数会较高，但是“呼叫米歇尔”的将会具有相当低的分数，因为这是用短语描述关于社交媒体的命令的相当不寻常的方式。

步骤12将赋予每个域的相关性分数与关联于该域的阈值进行比较。所有域可被配置为使用相同的阈值，或跨域来有差异地配置阈值。具有超过域阈值的解释相关性分数的域被添加到候选域的列表中。换言之，只有从这些域创建的解释才能被选为表述最有可能正确的解释。可以在流程中的这一点上从考虑范围中移除没有具有比域阈值高的相关性分数的相关联的解释的域。

一些实施例将过去的表述的历史记录与所选择的域相关联。这对校准相关性打分功能很有用。各种实施例从表述中提取关键词并且将所提取的关键词与针对表述的域选择一起存储。可以为与关键字相关联的每个域选择维护频率计数。当接收到新表述时，系统查找新表述的关键字以找到在先前的表述中为每个关键字选择的域的列表，随后使用频率信息对候选域的列表上的域进行加权。一些这样的实施例在不询问用户的情况下(或者直接地、或者作为加权域选择的结果)使用域选择频率信息来自动选择域。使用域选择频率信息可以用来从候选域的列表中选择域，而不需要向用户询问额外的信息。

图1B和图4中更详细地示出了步骤13，其示出了基于域对表述进行歧义消除的不同实施例。步骤13使用候选域的列表及其相关联的解释来选择解释的域。在实施例中，步骤13可以选择不止一个域，并且在这样的实施例中，在所有选定域上执行剩余的步骤。

步骤17使用所选域中的表述的解释来形成结果。一些实施例根据多个域中的每个域中的解释形成多个结果。如果表述被解释为对信息的请求，则步骤17可以包括查找所请求的信息并且准备包含查找到的信息的结果。如果表述是对动作的请求，例如，改变环境中的某个方面(降低恒温器、播放一首音乐、提醒我取回干洗的衣服)，则可以执行命令来执行所请求的动作，并且可以准备指示动作的完成状态的结果以呈现给说话者。在步骤18中，将在步骤17中准备的结果呈现给说话者。在步骤13中选择多个域的实施例中，响应于表述可以提供多个结果。一些实施例将结果提供为语音音频。一些实施例将结果作为文本提供，客户端或用户接口设备可以将文本发送到文本到语音(TTS)模块。一些实施例使用诸如语音合成标记语言(SSML)之类的语言来发送所标记的文本以指示结果的属性，例如，单词重音和速度。

一些实施例以不同于语音的方式来向用户提供结果。例如，响应于发送消息的请求而发送消息的一些实施例向消息接收方提供结果。改变恒温器设置的一些实施例通过调节恒温器来提供结果，而不向用户提供任何口头消息。

图1B是示出了根据本发明的实施例的、在图1所示的总体流程内基于域来消除对表述的解释的歧义的方法的流程图。在图1B中示出了的流程是执行图1中的步骤13的实施例。步骤14向用户呈现候选域的列表。一些实施例呈现了简单地命名域的列表，例如“您是指音乐还是政治？”。一些实施例用包括对于表述更特定的信息而不仅仅是域名的列表进行响应，例如，“您指的是创作歌手保罗·西蒙还是来自伊利诺伊州的前议员保罗·西蒙？”

步骤15要求用户选择域，随后等待以选择进行响应。在步骤16中，系统接收用户选择。如果选择响应包括概念上与来自列表的域相关的信息，例如，“竞选总统的人”，则系统在步骤16和18中继续使用在相关域的情境中创建的解释来形成结果。

如果选择响应包括概念上涉及不止一个所列出的域的信息，例如，“在20世纪80年代受欢迎的那个人”(创作歌手保罗·西蒙和政治家保罗·西蒙两者都在20世纪80年代受欢迎)，系统将重复呈现列表并要求选择的步骤。图1B没有示出重复用户提示。如果选择响应中不包含概念上与列表中的任何域相关的信息，例如“什么是天气预报”，则系统中止歧义消除的过程，继续将选择响应视为新表述对待，并且从步骤11重新开始。

收集数据

收集数据和计算关于用户所做出的域选择的统计数据可能是有用的。一些实施例调整域的相关性分数，以有利于用户在某些单词出现在表述中时频繁选择的域。例如，如果用户在呈现用于消除表述(“丰田塔科马(Toyota Tacoma)”)的歧义的域的列表时倾向于选择消费者评论而不是汽车经销商或制造商的网站时，则当“丰田塔科马”这个词出现在表述中时这样的系统增大关于消费者评论的语法规则的分数。因此，这样的系统识别某些表述和领域之间的强相关性。如果这个强度非常高，则这样的系统就不需要用户去歧义消除，因为用户的意图是清楚的。

由于词语和短语的含义可能进化，一些实施例包括反转机制。在某些情况下，特定域成为默认域。例如，消费者对表述“丰田塔科马”的评论。具有反转机制的实施例对以负反馈进行响应的用户负责(account for)。为收集负反馈，各种实施例：识别语音中的否定关键字，为用户提供赞/贬(thumbs-up/thumbs-down)按钮或监视其它用户行为。当用户的反馈表明对结果不满意时，如果表述产生了多个分数高的域假设，但是系统总是选择一个域，则反转机制将表述类型改变回被作为模棱两可的对待。

图2A示出根据实施例的收集统计。每次用户进行域选择时，系统增大由选择器20标识的多个计数器中的一个。该系统具有用于三个域(域A 21、域B 22和域C 23)中的每个域的计数器。

图2B示出根据实施例的收集统计。每当用户基于三个域中的两个域的列表进行域选择时，选择器24使用所列出的域的集合和域选择来选择增大适当的计数器。对于列表中的域的每个组合，存在对应于每个域选择的计数器。计数器阵列25存储所有计数。例如，当列出域A和B并且用户选择域A时，计数器域AB-A计数增大。

图3示出了将表述以及由此产生的用户对相关域的选择存储在数据库32中作为记录31。各种实施例将表述表示为以下各项中的一个或多个：数字音频样本；经词语划分的音素序列(例如，文本转录)；以及解释数据结构。系统设计者和领域特定语义语法的作者可以使用用户歧义消除选择来改进他们的语法处理。机器学习系统可以处理来自数据库的大量数据，数据包括表述的替代表示以基于用户歧义消除选择来训练域打分，例如在最少或没有用户交互的情况下自动标识表述的最可能的域的神经网络算法。

一些实施例将环境信息存储在数据库记录中。环境信息的一些示例是用户在做出表述时的位置、表述的日期和时间、表述的当天时间、以及做出表述的用户的身份(用户ID)。

一些实施例存储最近使用的域的记录。当提供用于歧义消除的域的列表时，这样的实施例将最近使用的域放在列表的顶部。一些这样的实施例在随着歧义消除请求传递列表期间接受用户响应。一旦用户通过选择做出响应，系统就终止提供列表。通过首先提供最近使用的域，系统通过不让用户等待列表通过来选择目标域来节省用户时间。

一些实施例存储所有域的有序列表。每次使用域时，系统都会将其移至排序的顶部。当向用户提供域的列表以进行歧义消除时，这样的系统以所存储的顺序提供列表。

不同场景中的行为

一些实施例以不同方式对不同类型的模棱两可的表述做出响应。图4示出了根据本发明的实施例的提供各种响应的方法。

图4的方法以候选域的数目的计数开始。它在步骤40中使用该计数来使得系统以六种方式之一进行操作：请求一般的澄清，给出多个结果，提供域的列表并要求用户选择(如图1A的方法)，请求特定的额外信息，根据最可能的预期解释给出结果，以及指示对表述的不理解。

如果存在零个候选域，这是当没有一个域被赋予了大于该相关联的域的阈值的相关性分数时的情况，则该方法指示系统不理解表述(41)。例如，表述“意大利宽面条多重搅动果汁罗马中庭伏特(Fettuccine multitude churn juice romans atrium volts)”在任何域的都不是语法上正确的或有意义的，所以它在所有域的相关性分数都很低。为表示不理解，例如，系统可以告诉用户：“很抱歉。我还不能这样做。”或者“对不起。我不明白。”具有视觉显示器的一些实施例可以显示来自对表述执行网络搜索引擎搜索(例如，使用表述的文本转录)的结果。这时，对该表述的处理终止。

如果恰存在一个候选域，则在步骤42中，系统可以继续考虑该表述是否具有足够的信息供系统形成结果。例如，诸如“发送消息”之类的表述没有足够的信息来使得系统形成有用的结果。如果需要另外的信息，则在步骤43中提示用户输入所需的附加信息。例如，系统可能会请求特定的额外信息，例如“您想向谁发送消息，以及您希该信息说什么”

如果恰存在一个域并且表述不需要额外的信息来使得系统形成结果，则在步骤44中选择这个候选域作为域。例如，对于诸如“猫是否有尾巴？”之类的表述系统不需要另外的信息来确定答案，并创建通过说出“是的。”来做出响应的结果。诸如“弗吉尼亚州亚历山大现在正在下雨吗？”之类的非常具体的表述是毫无疑义的。只有一个域(例如天气域)的分数高于其阈值。

如果候选域的数量至少是2个且小于或等于向用户呈现的合理的域的最大数量，则系统进行到步骤45。例如，向用户呈现的合理的域的最大数量的可能是2、3、4、5个或更多个。在一些实施例中，最大值是可变的。呈现给用户的合理的域的最大数量的值可以取决于系统的类型，并且在一些系统中取决于位置、当天的时间、用户ID以及其它环境信息。例如，汽车中的一些系统需要避免歧义消除的多个步骤的延迟，因此如果三个或更多个域的分数高于其阈值则要求一般性澄清，而在轻松的晚上使用的一些家庭助理系统仅在六个或更多的域高于其阈值的情况下才请求一般性澄清。

在一些实施例中，如果步骤45确定所有域都是相关的，与其提供域的列表并要求用户进行歧义消除，系统进行到步骤46。如果步骤45确定列表上的域是不相关的，则系统进行到步骤47并向用户提供列表并且请求歧义消除，如图1B所示。决定使用所有的域考虑候选域之间的相似量和在表述中表达的概念之间的相似量。例如，对于表述“Georgia的首府是什么？”，关于国家的信息的域和关于美国的州的信息的域的都会得到超过其阈值的分数，因为“Georgia”是美国的州名，同时也是国家的名称。在这种情况下，步骤45将这两个候选域标识为具有类似的概念，因为两者都与地理有关。该系统可能会回应以多个结果，例如“第比利斯是格鲁吉亚(Georgia)的首都，亚特兰大是美国乔治亚州的首府”。对于诸如“科罗拉多州丹佛(Denver,Colorado)有多高？”之类的表述，天气领域和地理领域的分数均高于其阈值。虽然这些领域并不紧密相关，但由于“科罗拉多州丹佛”的概念在两个领域都是相同的，所以系统可能会回应以多个结果，例如“丹佛海拔一英里，高温为负40度。”。

可能与合理数量的不相似域相关、并因此需要歧义消除的请求的表述的示例包括：

“今天表现最出色的是什么？”将收到歧义消除的请求“你是指股票还是音乐？

“布赖恩·威尔逊(Brian Wilson)在2006年的表现如何呢？”

将收到歧义消除的请求“海滩男孩的布赖恩·威尔逊还是巨人和道奇队的投手布莱恩·威尔逊？”

“你应该使辣椒多么烫/辣(hot)？”将收到歧义消除的请求“温度的烫(hot)还是辛辣的辣(hot)？”。

如果候选域的数量超过了可合理地呈现给用户以使得用户可以选择所呈现的域中的一个的数量，则系统进行到步骤48。例如，系统在收到诸如“丰田塔科马”这样的表述之后可以通过请求一般性澄清来回应用户，例如“请问您你能更具体一些吗？”。一些系统使用表述中的信息，例如“你想了解关于‘丰田塔科马’的什么信息？”另一示例是对表述“土耳其(Turkey)”的响应，可能在动物、食谱、地理、历史、新闻、天气和体育域得到高分，因为该表述在所有这些域中都是有意义的。

一些系统在要求一般性澄清之后，将下一表述作为新的表述对待。一些系统在要求一般性澄清之后，将答复表述中的信息添加到需要澄清的表述中，从而建立正确的解释。通过这样做，系统将解释下一表述“它有多可靠”指的是“丰田塔科马”皮卡车，并从汽车消费者评论的数据来源得出结论。

即使在单个域内，使用常用缩略语的表述倾向于具有许多需要澄清的可能解释。例如，在“CSU在哪里？”这个表述中，首字母缩略语“CSU”可能指科罗拉多州立大学(Colorado State University)或加利福尼亚州立大学(California State University)等。在加利福尼亚州立大学的情况下，存在23个不同的校园位置。

一些实施例应用本地化和用户简档分析来确定不同场景中的行为。本地化可以包括确定全球位置的特定范围以及环境的类型，例如，在家中、办公室或车辆中。简档分析可以包括个人信息(例如，年龄、性别、种族、家庭地址)以及诸如最近使用的域、特定关键字和传入消息之类的信息。一些实施例应用本地化和简档分析信息值作为域假设的权重。例如，对于男性用户而言，一些实施例对体育的域进行正加权，并对时尚的域进行负加权。一些实施例针对山地地区用户对滑雪域进行正加权，并且针对沿海地区的用户对游泳域进行正加权。一些实施例应用本地化和简档分析信息值作为缩放为用户选择而呈现的合理的域的数量的权重。例如，一些实施例对于汽车内用户将用于歧义消除的候选域的数量减少到两个，以引起对一般性澄清的请求而不是可能分散驾驶员注意力的长的选择的列表，即使选择的数目对火车上的乘客而言是可接受的。一些实施例将定位和简档分析信息值应用于域相似度的计算。

客户端服务器模型

图5示出了使用客户端-服务器接口的实施例。用户51向客户端52说出表述，客户端52使用麦克风接收表述。用户还通过扬声器收听来自客户的口头响应。客户端52通过诸如互联网之类的网络53与服务器54通信。服务器根据各种域的语法规则来处理表述。

图6示出了服务器的实施例。服务器包括机架61和五个服务器刀片62。

图7示出了三个客户端的示例。图7a示出了移动电话71。由于移动电话是电池供电的，所以重要的是尽量减少复杂的计算以免电池耗尽。因此，移动电话71可以通过互联网连接到服务器。在一些用例下，移动电话具有可以提供信息的可视显示器。但是，移动电话也有扬声器，并且在一些用例下，移动电话可能只使用语音来响应表述。

图7b示出了家庭助理设备72。它可以插入固定的电源，因此具有进行比移动电话更高级的本地处理的电力。像电话71一样，家庭助理设备72可以依靠云服务器来根据专用域以及在需要动态数据来形成有用结果的特定域中来解释表述。因为家庭助理设备72没有显示器，所以它是仅语音设备。

图7c示出汽车73。汽车可能能够通过无线网络连接到互联网。但是，如果从具有可靠无线网络的区域驶离，则汽车73必须仅使用本地处理来处理表述，做出响应，并且可靠地给出适当的结果。其结果是，汽车在本地运行软件进行自然语言表述处理。尽管许多汽车具有可视显示器，但为了避免危险地使驾驶员分心，汽车73通过仅语音请求和响应来提供结果。

汽车系统

由于机器的系统需要即使在非专业人员操作的情况下也要安全地运行，对于汽车中的人机接口的要求也是非常高的。对于汽车也存在特别困难的环境，因为它们可能在窗户打开的情况下通过具有回响的隧道时在其它嘈杂的车辆附近移动。然而，一些其它具有语音功能的系统是具有一个或几个紧密间隔的麦克风的小型设备，它们必须接收来自任何方向的语音，而汽车则围绕着做出表述的人。因此，汽车具有周围的麦克风来接收表述，这些麦克风使用它们的间隔距离来消除噪音，并检测多个人中的哪个人正在说话。由于移动电话是个人的，所以识别许多说话者中的一个虽然困难但通常不是问题。

一些供应商制造并向汽车工业销售电子子系统。车内电子器件的数量正在迅速增加。许多这样的子系统是由硬件和软件平台组成的，这些平台使得程序员能够开发、维护和增强有用的功能。一些汽车平台包括硬件或软件子模块，它们使得汽车可以能够作为支持语音功能的设备。汽车平台的一些实施例包括语音捕获模块。语音捕获模块从麦克风接收音频，运行降噪算法，执行回波消除，并执行扬声器声音隔离。

实施例还包括语音识别模块。它使用来自语音捕获模块的经处理的音频来生成一个或多个假设的音素的序列，以及指示每个假设的强度的分数。语音捕获模块继续根据统计语言模型计算假设的音素序列的词语划分，以产生转录或语音词语序列。一些实施例依靠通过网络连接可访问的服务器来协助，而其它实施例在本地执行所有语音识别功能。语音识别模块使用来自语音识别模块的来自一个或多个打分的假设的词语序列根据多个域的语法规则来解释表述。它根据域内的每个语法规则计算词语序列的相关性，并且通过来自语音识别模块的假设似然分数来进行加权。语音识别模块使用根据最高分数语法规则的解释来提供对该域的解释和分数。语音识别模块根据上述实施例进行，以选择解释或请求，并从汽车内的用户接收消除歧义的选择。

汽车平台使用所选择的解释来调用作为表述的结果的各种功能。一些这样的功能是执行导航操作、操作诸如加热器或窗户之类的其它汽车子系统、以及对诸如天气或交通状况之类的查询的响应。

根据一些实施例，汽车平台还包括语音生成模块。语音识别模块调用语音生成模块来根据上述实施例请求歧义消除。此外，语音识别模块调用语音生成模块以提供诸如天气情况之类的信息结果、以及诸如加热器设置根据命令表述而改变之类的构象结果(conformational result)。

在各种实施例中，由语音捕获模块、语音识别模块和语音生成模块执行的功能在这样的模块的不同实例内被执行。

图8示出了被设计为在道路右侧行驶、且驾驶员坐在汽车左侧的汽车80的俯视图。汽车80具有两个前座81，其中任一个都可以容纳一个人。汽车80还具有可容纳几个人的后座82。汽车80具有显示诸如速度和能量水平之类的基本信息的驾驶员信息控制台83。汽车80还具有用于更复杂的人类交互的仪表板控制台84，其不能通过语音快速进行例如在导航地图上查看并点击位置的操作。

汽车80具有侧杆麦克风85和顶置式控制台麦克风86，所有这些麦克风都接收语音音频，使得嵌入汽车内的数字信号处理器可以执行算法以区分来自驾驶员和坐在前排的乘客的语音。汽车80还具有接收来自坐在后排的乘客的语音音频的后部顶置式控制台麦克风87。

汽车80还具有带扬声器的汽车音响系统。扬声器可以播放音乐也可以产生语音音频以口头响应用户的命令和结果。汽车80还具有嵌入式微处理器。它运行存储在非暂态计算机可读介质上的软件，以指示处理器执行图1的算法以及其它功能。

计算机实现方式

一些实施例使用通过网络连接的客户端和服务器，其中用户与客户端交互，但是服务器处理表述并解释它们的含义。一些服务器是数据中心中的处理器机架，并且可以同时处理来自多个客户端和许多用户的表述。一些实施例在直接从用户捕捉表述的同一设备上本地地执行所有处理。

许多类型的用户交互式设备(例如，智能手机、家庭自动化辅助设备和汽车)是可用的。一些移动设备(例如，汽车和智能手机)只能在它们在连接到服务器的移动网络范围内时作为客户端使用，当超出移动网络的范围时，只能使用本地方式。汽车对传统系统提出了特别具有挑战性的要求，并且特别地从本发明获益，因为安全操作要求不需要显示且用户不会分心、困惑或沮丧。

图9示出了适合于各种实施例的非暂态计算机可读介质的实例。一些实施例使用磁盘片91来存储和提供计算机代码。一些实施例使用闪速RAM存储设备92来存储和提供计算机代码。

图10以两个取向示出了封装的片上系统设备101。这些设备具有球栅阵列以附接到印刷电路板，该印刷电路板提供到麦克风、扬声器、网络连接、非暂态计算机可读介质以及其它输入/输出设备的耦合。在图10中的一个取向示出了球栅阵列，而另一取向示出了背离印刷电路板的设备的一侧。

图11示出了片上系统设备101内的硬件功能模块的框图。设备101包括两个计算机处理器111和112。在一些实施例中，处理器符合ARM指令集架构。在一些实施例中，处理器符合x86指令集架构。互连结构113将处理器111和112耦合到其它硬件模块。一个模块是到随机存取存储器(RAM)114的接口控制器。另一模块是到非易失性存储器115(例如闪速RAM和磁性硬盘驱动器)的接口。一个模块是为将片上系统耦合到麦克风、扬声器、显示器和手动输入设备而提供的I/O控制器接口116。一个模块117是到联网设备的接口，例如，可以通过互联网将片上系统101耦合到远程服务器的无线网络调制解调器和以太网端口。

一些实施例可以在具有多个芯片和其它组件的通用计算机系统上执行，例如，如图12所示。图12是这种计算机系统的示例的框图。计算机系统1210通常包括至少一个处理器1214，其经由总线子系统1212与多个外围设备进行通信。这些外围设备可以包括存储子系统1224(包括例如存储器设备和文件存储子系统)、用户接口输入设备1222、用户接口输出设备1220、和网络接口子系统1216。输入和输出设备允许用户与计算机系统1210交互。网络接口子系统1216提供到外部网络的接口(包括到通信网络125的接口)，并且经由通信网络125耦合到其它计算机系统中的相应的接口设备。

用户接口输入设备1222可以包括键盘、定点设备(例如，鼠标、轨迹球、触摸板或图形输入板)、扫描仪、并入显示器中的触摸屏、音频输入设备(例如，语音识别系统、麦克风)、以及其它类型的输入设备。通常，术语“输入设备”的使用旨在包括将信息输入到计算机系统1210中或输入到通信网络125上的所有可能类型的设备和方式。

用户接口输出设备1220可以包括显示子系统、打印机、传真机、或诸如音频输出设备之类的非视觉显示器。显示子系统可以包括阴极射线管(CRT)、诸如液晶显示器(LCD)之类的平板设备、投影设备、或用于产生可视图像的一些其它机构。显示子系统还可以例如经由音频输出设备提供非可视显示。通常，术语“输出设备”的使用旨在包括将信息从计算机系统1210输出给用户或输出到另一机器或计算机系统的所有可能类型的设备和方式。

存储子系统1224存储编程和数据结构，这些编程和数据结构提供本文所述的一些或全部模块的功能，包括根据本文描述的过程创建用作查询建议的推断查询的逻辑。这些软件模块通常由处理器1214单独执行或与其它处理器组合执行。

存储子系统中使用的存储器1226可以包括多个存储器，其中包括用于在程序执行期间存储指令和数据的主随机存取存储器(RAM)1230和存储固定指令的只读存储器(ROM)1232。文件存储子系统1228可以为程序和数据文件提供永久存储，并且可以包括硬盘驱动器、软盘驱动器、以及相关联的可移动介质、CD-ROM驱动器、光盘驱动器或可移动介质盒。实现某些实施例的功能的模块可以由文件存储子系统1228存储在存储子系统1224中，或存储在处理器可访问的其它机器中。

总线子系统1212提供用于使计算机系统1210的各种组件和子系统按预期彼此通信的机构。虽然总线子系统1212被示意性地示出为单个总线，但是总线子系统的替代实施例可以使用多个总线。

计算机系统1210可以是不同类型的，包括工作站、服务器、计算集群、刀片服务器，服务器群、或任何其它数据处理系统或计算设备。由于计算机和网络的不断变化的性质，图12中所描绘的计算机系统1210的描述意在仅作为为了说明优选的实施例的目的的示例。计算机系统1210的许多其它配置可能具有比图12中描绘的计算机系统更多或更少的组件。

本申请中描述的实施例和示例不是唯一可能的。本领域的从业者将认识到其它实施例以服务于各种其它应用。

Claims

1.一种启用语音功能的系统的向用户提供结果的方法，所述方法包括：

使用至少一个计算机来执行下述操作：

根据多个会话主题领域来解释自然语言表述以针对每个会话主题领域创建解释和相关性分数，其中，每个会话主题领域包括一组语法规则，所述相关性分数是表明所述自然语言表述与对应的会话主题领域的相关程度的分数；

将每个相关性分数相对于该相关性分数对应的会话主题领域的阈值进行比较，以确定具有超过阈值的相关性分数的候选会话主题领域的列表；

向所述用户呈现所述候选会话主题领域的列表；

要求所述用户从所述列表中选择会话主题领域；

从所述用户接收对会话主题领域的选择；

根据所述表述在所选择的会话主题领域中的解释来形成结果；并且

提供所述结果。

2.如权利要求1所述的方法，其中，每个会话主题领域具有对应的计数器，并且所述方法还包括使用所述至少一个计算机来增大与所选择的会话主题领域对应的计数器的值。

3.如权利要求2所述的方法，其中，所述候选会话主题领域被以基于对应的计数器的值的顺序呈现给所述用户。

4.如权利要求1所述的方法，还包括使用所述至少一个计算机来存储对最近选择的会话主题领域的指示。

5.如权利要求4所述的方法，其中，所述候选会话主题领域被以基于所述最近选择的会话主题领域的指示的顺序呈现给所述用户。

6.如权利要求1所述的方法，还包括：

使用所述至少一个计算机来执行下述操作：

将记录存储在数据库中，所述记录包括：

所述自然语言表述的表示；以及

对所述表述的会话主题领域的选择。

7.如权利要求1所述的方法，还包括：

使用所述至少一个计算机来执行下述操作：

将记录存储在数据库中，所述记录包括：

根据所选择的会话主题领域对所述表述的解释；以及

对会话主题领域的选择。

8.一种启用语音功能的系统的向用户提供结果的方法，所述方法包括：

使用至少一个计算机来执行下述操作：

将每个相关性分数相对于该相关性分数对应的会话主题领域的阈值进行比较，以确定具有超过阈值的相关性分数的候选会话主题领域的数量；

响应于所述候选会话主题领域的数量大于合理地呈现给所述用户以消除歧义的会话主题领域的最大数量，而请求用户提供澄清。

9.如权利要求8所述的方法，其中，所述合理地呈现给所述用户的会话主题领域的最大数量是基于环境信息的。

10.一种启用语音功能的系统的向用户提供结果的方法，所述方法包括：

使用至少一个计算机来执行下述操作：

为所述列表中的每个会话主题领域形成结果，所述结果是根据针对所述会话主题领域进行的解释的；并且

提供每个结果。

11.一种存储代码的计算机可读介质，所述代码当由至少一个计算机执行时使所述计算机：

向用户呈现所述候选会话主题领域的列表；

要求所述用户从所述列表中选择会话主题领域；

从所述用户接收对会话主题领域的选择；

提供所述结果。

12.如权利要求11所述的计算机可读介质，所述代码当由至少一个计算机执行时还使所述计算机：

响应于所述列表中的候选会话主题领域的数量大于合理地呈现给所述用户以消除歧义的会话主题领域的最大数量，而请求用户提供澄清。

13.一种车辆平台，包括：

语音捕获模块，能够捕获来自用户的口头表述；

语音识别模块，根据多个会话主题领域来解释所述口头表述以针对每个会话主题领域产生相关性分数，其中，每个会话主题领域包括一组语法规则，所述相关性分数是表明所述口头表述与对应的会话主题领域的相关程度的分数；以及

语音生成模块，能够产生语音，

其中响应于确定各自具有超过相关联的阈值的相关性分数的多个候选会话主题领域，所述语音生成模块：

产生包括所述多个候选会话主题领域的列表的语音；并且

要求所述用户从所述列表中选择一个会话主题领域。