CN104284257A

CN104284257A - 用于口头对话服务仲裁的系统和方法

Info

Publication number: CN104284257A
Application number: CN201410328542.1A
Authority: CN
Inventors: E.茨尔克尔-汉科克; G.T.林德曼; R.D.辛斯三世; O.尖霍尼
Original assignee: GM Global Technology Operations LLC
Current assignee: GM Global Technology Operations LLC
Priority date: 2013-07-10
Filing date: 2014-07-10
Publication date: 2015-01-14
Anticipated expiration: 2034-07-10
Also published as: CN104284257B; DE102014109121B4; DE102014109121A1

Abstract

本发明涉及用于口头对话服务仲裁的系统和方法。用于仲裁口头对话服务的系统和方法包括：确定与环境中可通达的多个装置相关联的能力目录。该能力目录包括映射到由所述多个装置中的每个所提供的口头对话服务列表上的所述多个装置的列表。所述系统在能力目录中的多个装置和口头对话服务之间仲裁以便确定所选装置和所选对话服务。

Description

用于口头对话服务仲裁的系统和方法

相关申请的交叉引用

本申请要求于2013年7月10日提交的美国临时专利申请序列号61/844,646的权益，其全部内容在此并入本文以供参考。

技术领域

本技术领域大体涉及语音系统，并且更具体地涉及用于在可用口头对话服务之间进行选择的方法和系统。

背景技术

车辆口头对话系统（或者"语音系统"）基于由车辆乘客发出的语音执行语音识别等等。语音话语通常包括与车辆的一个或更多个特征以及车辆可通达的其他系统通信或控制所述车辆的一个或更多个特征以及车辆可通达的其他系统的命令。语音系统响应于语音话语产生口头命令，并且在一些情况下，响应于需要进一步信息来执行语音识别的语音系统来产生口头命令。

逐渐地，这样的口头对话服务可以由用户环境中的多种装置和/或应用来提供。在车辆口头对话系统的背景中，例如，这种服务通常从用户的移动装置（经由贮存在移动装置上的一个或更多个应用）、车辆的机载语音系统、以及外部第三方服务器（其经由网络被联接到机载通信网络）是同时可用的。

在这样的情况下，口头对话服务中的两个或者更多个会是用于处理给定语音话语和/或用于执行请求任务的候选，同时可能仅其中一个服务是用户的具体需求所最佳或甚至适用的。例如，导航信息的请求可能由机载导航系统或者贮存在用户的智能电话上的导航应用来处理，这两种系统在具体背景下具有相应的优点和弱点。在公知系统中，这个问题通过使用多个按钮或其他用户界面技术（例如，基于哪个应用“聚焦”在触摸屏上）来解决，其每个都对应于一个具体的口头对话服务。这样的方法能够导致户分心和/或其他的不能令人满意的结果。

因此，需要的是提供一种用于选择语音系统中的口头对话服务的改进方法和系统。此外，从后续具体描述和所附权利要求结合附图和前述技术领域和背景技术将显而易见到本发明的其他理想特征和特点。

发明内容

提供用于仲裁口头对话服务的方法和系统。根据各种实施例，确定与环境（例如，车辆）中可通达的多个装置相关联的能力目录。能力目录包括映射到由多个装置中的每个所提供的口头对话服务列表上的装置列表。系统在能力目录中的多个装置和口头对话服务之间仲裁以便确定所选装置和所选对话服务。然后系统将口头话语发送到所选装置上的所选口头对话服务。

在一种实施例中，系统接收来自环境中的用户的口头话语，基于能力目录来分类口头话语以便确定一组候选装置和一组口头对话服务，以及基于验证标准从该组候选装置确定所选装置并从该组候选口头对话服务确定所选口头对话服务。

本发明还可包括下列方案。

1. 一种用于仲裁口头对话服务的方法，该方法包括：

确定与环境中可通达的多个装置相关联的能力目录，该能力目录包括映射到由所述多个装置中的每个所提供的口头对话服务列表上的所述多个装置的列表；

从环境中的用户接收口头话语；

在所述能力目录中的所述多个装置和所述口头对话服务之间仲裁以便确定所选装置和所选对话服务；以及

使用所述所选装置上的所述所选口头对话服务来处理所述口头话语。

2. 根据方案1所述的方法，其中所述仲裁包括：

基于所述能力目录来分类所述口头话语以便从所述多个装置确定一组候选装置并且确定一组口头对话服务；以及

基于验证标准从该组候选装置确定所述所选装置并且从候选口头对话服务列表确定所述所选口头对话服务。

3. 根据方案2所述的方法，其中所述验证标准包括与所述口头话语的分类相关联的置信度水平。

4. 根据方案2所述的方法，进一步包括：结合与过去的分类动作和用户行为相关联的至少一个训练数据来执行对所述口头对话服务的分类。

5. 根据方案1所述的方法，进一步包括：基于从所述用户请求的补充信息来确定所述所选装置和所述所选口头对话服务。

6. 根据方案1所述的方法，其中所述环境是车辆环境，并且所述多个装置包括如下中的至少一者：可移除地位于所述车辆环境中的移动装置；结合到所述车辆环境中的装置；以及包括远离所述车辆环境的网络服务器的装置。

7. 根据方案2所述的方法，进一步包括：

将所述口头话语发送到所述能力目录中的第一口头对话服务和第二口头对话服务；

从所述第一口头对话服务接收与该口头话语的识别相关联的第一置信度分数；

从所述第二口头对话服务接收与该口头话语的识别相关联的第二置信度分数；以及

至少部分地基于所述第一置信度分数和第二置信度分数来确定所述验证标准。

8. 根据方案1所述的方法，进一步包括：

规定与所述多个装置和所述口头对话服务相关联的默认设定；以及

基于用户行为来修改所述默认设定。

9. 一种用于口头对话仲裁的系统，该系统包括：

语音理解模块，其被构造成处理从环境中的用户接收的语音话语；

仲裁模块，其通信地联接到所述语音理解模块，所述仲裁模块被构造成：确定与环境中可通达的多个装置相关联的能力目录，该能力目录包括映射到由所述多个装置中的每个所提供的口头对话服务列表上的所述多个装置的列表；接收所述口头话语；在所述能力目录中的所述多个装置和所述口头对话服务之间仲裁以便确定所选装置和所选对话服务；以及使用所述所选装置上的所述所选口头对话服务来处理所述口头话语。

10. 根据方案9所述的系统，其中所述仲裁模块被构造成：

11. 根据方案10所述的系统，其中所述验证标准包括与所述口头话语的分类相关联的置信度水平。

12. 根据方案10所述的系统，其中所述仲裁模块结合与过去的分类动作和用户行为相关联的至少一个训练数据来执行对所述口头对话服务的分类。

13. 根据方案10所述的系统，其中所述仲裁模块被构造成：

14. 根据方案9所述的系统，其中所述仲裁模块被构造成：

基于用户行为来修改所述默认设定。

15. 根据方案9所述的系统，其中所述仲裁模块包括装置分类器、服务分类器和验证模块。

16. 一种仲裁方法，包括：

确定与车辆中可通达的多个装置相关联的能力目录，该能力目录包括映射到由所述多个装置中的每个所提供的口头对话服务列表上的所述多个装置的列表；

接收所述口头话语；

在所述能力目录中的所述多个装置和所述口头对话服务之间仲裁以便确定所选装置和所选对话服务，其中所述仲裁包括基于所述能力目录来分类所述口头话语以便从所述多个装置确定一组候选装置并且确定一组口头对话服务、以及基于验证标准从该组候选装置确定所述所选装置并且从候选口头对话服务列表确定所述所选口头对话服务；以及

16. 根据方案15所述的方法，其中所述验证标准包括与所述口头话语的分类相关联的置信度水平。

17. 根据方案15所述的方法，进一步包括：结合与过去的分类动作和用户行为相关联的至少一个训练数据来执行对所述口头对话服务的分类。

18. 根据方案15所述的方法，进一步包括：

基于用户行为来修改所述默认设定。

19. 根据方案15所述的方法，进一步包括：

20. 根据方案19所述的方法，其中在从所述第一口头对话服务接收所述第一置信度分数和从所述第二口头对话服务接收所述第二置信度分数的步骤之后是如下的一个或更多个步骤：向所述用户提示附加输入并同时提供所述附加用户话语到两个服务；以及当所述服务中的一个服务所返回的置信度充分大于另一服务所返回的置信度时选择所述一个服务。

附图说明

在下文将结合所附附图来描述示例性实施例，其中类似附图标记指代类似元件，并且附图中：

图1是根据各种示例性实施例的包括语音系统的车辆的功能框图；

图2是根据各种示例性实施例的示出仲裁模块的功能框图；

图3是根据示例性实施例的示出与一个或更多个装置通信的仲裁模块的功能框图；

图4是根据各种示例性实施例的示出仲裁模块的功能框图；

图5是示出根据图3所示的示例性实施例的口头对话服务仲裁方法的流程图；以及

图6是示出根据图4所示的示例性实施例的口头对话服务仲裁方法的流程图。

具体实施方式

下列详细描述实质上仅仅是示例性的并且不试图限制应用和使用。此外，不试图受在前述技术领域、背景技术、发明内容或下文的具体实施方式中呈现的任意明确或暗含的理论约束。如本文所用的，术语“模块”指的是专用集成电路（ASIC）、电子电路、处理器（共享的、专用的或成组的）以及执行一个或更多个软件或固件程序的存储器、组合逻辑电路和/或提供所述功能的其他适当部件。

现在参考图1，根据本文描述的主题的示例性实施例，在车辆12内提供口头对话系统（或者简称为"语音系统"）10。大体而言，语音系统10通过人机界面模块（HMI）模块14来提供用于一个或更多个车辆系统的语音识别、对话管理和语音生成，其中该HMI模块14被构造成由一个或更多个用户40（例如驾驶员、乘客等）操作（或以其他方式交互）。这样的车辆系统可以包括例如电话系统16、导航系统18、媒体系统20、远程信息处理技术系统22、网络系统24和可以包括依赖语音的应用的任意其他的车辆系统。在一些实施例中，一个或更多个车辆系统被通信地联接到网络（例如，专用网络、4G网络等），从而提供与一个或更多个后端服务器26的数据通信。

一个或更多个移动装置50也可以存在于车辆12中，所述移动装置包括一个或更多个智能电话、平板电脑、功能电话等。移动装置50也可以通过适当的无线连接（例如蓝牙或WiFi）通信地联接到HMI 14，以便用户40经由HMI 14可访问贮存在移动装置50上的一个或更多个应用。因此，用户40将通常访问在如下三个不同平台上运行的应用：在车辆系统本身内执行的应用；在移动装置50上部署的应用；以及贮存在后端服务器26上的应用。此外，一个或更多个这些应用可以根据其自身的相应口头对话系统来操作，并且因此多个装置可以能够不同程度地响应于用户40说出的请求。

语音系统10通过通信总线和/或其他的数据通信网络29（例如，有线、短程无线或长程无线）与车辆系统14、16、18、20、22、24和26通信。通信总线可以是例如控制器局域网（CAN）总线、本地互连网络（LIN）总线等等。将意识到，语音系统10可以结合基于车辆的环境和不基于车辆的环境二者被使用，所述环境包括一个或更多个依赖语音的应用，并且在不失通用性的前提下阐述本文提供的基于车辆的示例。

如所示的，语音系统10包括语音理解模块32、对话管理模块34和语音生成模块35。这些功能模块可以被实现为单独系统或者作为组合的集成系统。大体而言，HMI模块14接收来自用户40的声学信号（或者"语音话语"）41，其被提供给语音理解模块32。

语音理解模块32包括硬件和/或软件的任意组合，其被构造成通过使用合适语音识别技术来处理（经由一个或更多个麦克风52接收的）来自HMI模块14的语音话语，所述语音识别技术例如包括自动语音识别和语义解码（或者口头语言理解（SLU））。通过使用这样的技术，语音理解模块32从语音话语生成可能结果的一个（或更多个）列表33。在一种实施例中，列表33包括一个或更多个句子假设，其代表用户40可能说出的一组话语（即，话语41）的可能性分布。列表33可能例如采取N-最优列表的形式。在各种实施例中，语音理解模块32通过使用存储在数据库中的预定义可能性来生成列表33。例如，预定义可能性可以是存储在电话薄里的姓名或号码、存储在地址簿中的姓名或地址、存储在音乐目录中的歌曲名、专辑或艺术家等。在一种实施例中，语音理解模块32采用前端特征提取，之后采用隐马尔科夫模型和评分机制。

对话管理模块34包括被构造成基于列表33来管理交互序列和要讲给用户的语音提示42的选择的硬件和/或软件的任意组合。当列表33包含一个以上的可能结果时，对话管理模块34使用消歧策略来管理与用户40的提示对话，以便能够确定被识别结果。根据示例性实施例，对话管理模块34能够管理对话上下文，如下文进一步具体描述的。

语音生成模块35包括被构造成基于对话管理模块34确定的对话生成给用户40的口头提示42的硬件和/或软件的任意组合。在此方面，语音生成模块35将大体提供自然语言生成（NLG）和语音综合或者文本至语音（TTS）。

列表33包括代表可能结果的一个或更多个元素。在各种实施例中，列表33的每个元素包括均根据应用而关联于槽类型的一个或更多个“槽”。例如，如果应用支持给电话薄联系人打电话（例如“呼叫John Doe”），则每个元素可以包括具有名、中间名和/或姓的槽类型的槽。在另一示例中，如果应用支持导航（例如，“去1111阳光林荫大道”），则每个元素可以包括具有门牌号和街道名等槽类型的槽。在各种实施例中，槽和槽类型可以被存储在数据库中并且被任意所示系统访问。列表33的每个元素或槽关联于置信度分数。

除了口头对话之外，用户40还可以通过各种按钮、开关、触摸屏用户界面元件、姿态（例如通过在车辆12中提供的一个或更多个摄像机识别的手势）等等与HMI 14交互。在一种实施例中，按钮54（例如，"按下以通话"按钮或者简单地"通话按钮"）被提供在一个或更多个用户40的易触范围内。例如，按钮54可以被嵌入方向盘56中。

现在参考图2，根据各种示例性实施例，HMI模块14包括仲裁模块202，其通过适当的通信通道（有线或无线的）被通信地联接到一个或更多个装置201。在所示实施例中，例如，如下三个装置201被通信地联接到仲裁模块202：装置210、装置220和装置230。装置201可以对应于图1中所示的各种部件或部件的组合。例如，装置210可以对应于图1中的移动装置50，装置220可以对应于图1中的后端服务器26，并且装置230可以对应于与一个或更多个车辆装置16、18、20等结合工作的HMI模块14。

每个装置201可以包括被构造成执行一个或多个口头对话服务的一个或更多个应用，如上所述。例如，如所示的，装置210包括应用211，装置220包括应用221和222，并且装置230包括应用231和232。此外，各应用（211、222等等）可以能够执行一个以上的口头对话服务。例如，单个应用可以被构造成识别口头对话并且基于该口头对话提供导航服务以及媒体服务二者。在图2中，示例性口头对话服务由每个应用中的方形区域标示，例如应用211的服务213和214。

已知各种应用能够执行口头对话服务，并且更多的应用将在未来被研发。这种应用的当前示例包括但不限于Pandora? Internet Radio、iGo?导航、Google Maps?、Google Now?、Stitcher?以及本领域公知的各种车辆导航系统应用。

现在参考图3，现在将结合图5中所示示例性仲裁方法500来描述根据一种实施例的仲裁模块302。如图3所示，仲裁模块302包括装置分类模块303、服务分类模块304、验证模块305、装置门模块306和能力目录307（有时也被称为"能力映射"）。

最初，在图5中的502处确定能力目录307。参考图3，能力目录307包括用于存储与装置201的能力（例如应用功能、硬件限制等等）相关联的数据的一个或更多个任意合适的数据结构。在一种实施例中，能力目录307包括映射到由多个装置中的每个所提供的口头对话服务列表的可用装置列表（例如210、220、230）。因此，例如能力目录307可以反映出：相对于具有口头对话服务的应用来说，装置210能够执行导航服务和媒体服务，装置220能够仅执行导航服务（其可以与装置210所执行的服务相同或不同），并且装置230能够仅执行流媒体广播服务。

能力目录307可以根据各种公知技术而被填充。例如，当每个装置201被加电或者其他方式通信地联接到仲裁模块302时，可以执行登记程序。蓝牙和/或WiFi相关技术可以被用于问询每个装置201以确定每个装置201所提供的相应口头对话服务。

在图5中504处，一旦接收到口头话语41，则装置分类模块303基于能力目录来分类该话语以便确定一组候选装置。即，返回参考图3，通过使用能力目录307所存储的装置和服务列表，装置分类模块303确定被构造成执行所请求功能的一组（例如N-最优列表）装置201。该组可以包括所有装置201、装置201的适当子集、或者没有装置201。根据一种实施例，装置分类模块303被构造成产生与该组中列出的每个装置相关联的置信度水平。例如，装置分类模块303可以确定装置210和220均能够执行导航功能，但是基于一个或更多个因素（例如硬件能力、历史训练数据等等），装置210的置信度水平高于装置220的。历史训练数据包括与针对具体口头对话或表明用户偏好、系统性能等的任意其他非口头交互的由系统先前使用的装置和/或服务相关的任意信息。装置分类模块303之后可以将一个或更多个学习算法施加于历史训练数据，以便分类口头话语。

类似地，在图5中的506处，一旦接收到口头话语41，则服务分类模块304基于能力目录来分类该口头话语41以便确定一组候选服务。返回参考图3，在使用装置分类模块303的情况下，这个模块使用能力目录307所存储的装置和服务列表来确定被构造成执行所请求任务的一组（例如N-最优列表）服务。根据一种实施例，服务分类模块304被构造成产生与该组中列出的每个服务相关联的置信度水平。例如，装置分类模块303可以确定装置210和220中的服务均能够执行导航功能，但是基于一个或更多个因素（例如软件限制和/或历史训练数据），装置220的置信度水平高于装置210的。

在图5中的508处，通信地联接到模块303和304二者的验证模块305调解由装置分类模块303和服务分类模块304所提供的（可能相冲突的）候选。即，验证模块305被构造成从该组候选装置来选择一个或更多个装置并且从该组候选口头对话服务来选择对应的口头对话服务，以便产生一个或更多个装置/服务对的有序列表。在一种实施例中，这种选择基于验证标准而定，如下文更具体描述的。验证标准可以基于如下中的至少一者而定：每个候选装置的硬件能力、每个候选口头对话服务的货币成本、每个候选口头对话服务的功能。

参考图3，验证模块305被构造成与对话管理器34（单向）通信。这允许与用户进行附加对话以便澄清所需任务中的可能歧义（510）。例如，可以要求用户（经由口头对话或其他方式）明确地选择针对该任务应当使用哪个装置201和/或哪个服务。

在确定所选装置201和所选服务之后，该信息被对话管理器34提供给装置门模块306，由此该装置门模块306使用所选装置上的所选口头对话服务来处理口头话语。即，来自该服务的结果被用来完成用户所请求的任务。例如，装置门模块306可以使用贮存在装置210上的导航服务来处理口头话语41。

因为仲裁模块302将每个装置201有效地处理为“黑盒”并且以开环操作从而将语音话语递送到所选装置，所以图3所示的实施例可以被称为"路由器模式"仲裁模块。

现在参考图4，现在将结合图6中所示的示例性仲裁方法600来描述根据另一种实施例的仲裁模块402。如所示的，仲裁模块402包括装置分类模块403、服务分类模块404、验证模块405、装置应用程序界面（API）模块406和能力目录407。因此，图4中所示的实施例类似于图3中所示的实施例，不同之处在于，图4中所示的实施例包括装置API模块406（能够更紧密地与每个装置201的内部口头对话功能交互）。此外，如由互连各种模块的箭头所指出的，从模块406到对话管理器34的通信是双向的，并且从装置API模块406到装置201的通信以及从验证模块305到装置API模块406的通信也都是双向的。在正常操作期间，图4中所示实施例可以以与图3和图5方式一致的方式（即，以"路由器模式"）执行。然而，如果确定口头话语的验证和/或分类是失败或者未定的，则可以执行图6所示的程序。更具体地，在图6的602处，口头话语41经由装置API 406被发送到两个或更多个装置201，并且之后那些装置发送回与口头话语41的识别相关联的置信度分数。装置将通常也发送回一个响应（例如，提示）。

之后基于从装置201接收到的置信度分数在604经由验证模块305执行验证。系统在605确定是否存在歧义。如果否，则系统在606利用所选装置和所选口头对话服务（并且如果有提示的话，则使用接收到的提示对用户进行响应）。如果存在歧义，则仲裁模块可以（通对话管理器34）请求来自用户的附加信息（610），并且然后在608继续，直到完全解决歧义为止。因为仲裁模块402使用对话管理器34和API 406来与装置201交互且直接地操作，所以图4所示的实施例可以被称为“集成模式”仲裁模块。

在一种实施例中，提供用于选择口头对话服务和相关装置的默认设定。之后，基于用户行为来修改那些默认偏好设定（即，针对某些任务的用户偏好）。例如，基于用户通过使用具体口头对话服务来执行某任务，系统可能修改偏好。之后，用户可以被提示保存该偏好（例如“你希望总是发送地址请求至Google Maps吗？”）。

例如，下列对话示出了各种使用情况。在每种情况下，仲裁器模块确定响应于用户的口头话语而使用哪个装置和哪个对话服务（例如内置装置或智能电话装置）。　

用户：“我希望听到比利·乔尔的电台。”

仲裁器：将声音导向至车辆的内置装置。　

（内置装置提供电台服务）。　

用户：“我希望听到比利·乔尔的电台。”

仲裁器：“使用内置装置还是使用你的智能电话的音乐应用?”

（对话管理器通过提示用户来解决该歧义）。　

用户：“我希望听到比利·乔尔的电台。”

仲裁器：将话语同时发送到外部应用和内置装置。内置装置返回积极响应而外部应用不具有适当信道。仲裁器利用内置装置。　

（基于装置/服务响应选择的对话服务）。　

用户：“我希望听到Stitcher上的比利·乔尔的电台。”

（用户明确地选择装置和对话服务（例如，Stitcher或者现在已知或之后被研发的一些其他类似的服务）。　

用户：“我希望听到比利·乔尔的电台。”

仲裁器：选择内置装置，因为所述内置装置提供最便宜的服务。　

（基于成本的选择）。　

用户：“带我到特洛伊的中餐馆”

仲裁器：将声音引导到智能电话上的而不是嵌入式导航系统上的Google Maps[或者现在公知或之后被研发的类似的地图服务]，因为嵌入式导航系统不支持搜索而仅能导航到地址。　

（基于搜索服务的可用性的选择）。　

用户：“呼叫Paul Mazoyevsky”

仲裁器：将声音发送到内置装置和后端联系簿识别。选择后端是由于该后端所返回的较高置信度。　

（基于置信度水平的选择）。　

用户：“下一个。”

仲裁器：将话语引导到音乐播放器来跳过歌曲并且不选择“下一个”屏幕页。　

（基于上下文的选择）。

大体而言，可以通过使用任意所需自动化水平来实施上述方法。即，例如，仲裁可以被（a）自动地（无用户输入）地被完成、（b）自动地但给用户机会进行改变地被完成、或者（c）自动地但允许用户确认地被完成。

虽然在前述详细描述中已经提出了至少一种示例性实施例，但是应该意识到存在大量变型。还应该意识到，一个或更多个示例性实施例仅是示例，并且不试图以任何方式限制本公开的范围、适用性或构造。而是，上述具体实施方式将向本领域技术人员提供实施一个或更多个示例性实施例的便捷路线图。应该理解的是，在不背离如所附权利要求及其法律等价物所列出的本公开的范围的情况下，能够对元件的功能和设置进行各种修改。

Claims

1. 一种用于仲裁口头对话服务的方法，该方法包括：

从环境中的用户接收口头话语；

2. 根据权利要求1所述的方法，其中所述仲裁包括：

3. 根据权利要求2所述的方法，其中所述验证标准包括与所述口头话语的分类相关联的置信度水平。

4. 根据权利要求2所述的方法，进一步包括：结合与过去的分类动作和用户行为相关联的至少一个训练数据来执行对所述口头对话服务的分类。

5. 根据权利要求1所述的方法，进一步包括：基于从所述用户请求的补充信息来确定所述所选装置和所述所选口头对话服务。

6. 根据权利要求1所述的方法，其中所述环境是车辆环境，并且所述多个装置包括如下中的至少一者：可移除地位于所述车辆环境中的移动装置；结合到所述车辆环境中的装置；以及包括远离所述车辆环境的网络服务器的装置。

7. 根据权利要求2所述的方法，进一步包括：

8. 根据权利要求1所述的方法，进一步包括：

基于用户行为来修改所述默认设定。

9. 一种用于口头对话仲裁的系统，该系统包括：

10. 一种仲裁方法，包括：

接收所述口头话语；