CN104282305B

CN104282305B - 语音对话系统中用于结果仲裁的系统和方法

Info

Publication number: CN104282305B
Application number: CN201410329815.4A
Authority: CN
Inventors: R.D.辛斯三世
Original assignee: GM Global Technology Operations LLC
Current assignee: GM Global Technology Operations LLC
Priority date: 2013-07-12
Filing date: 2014-07-11
Publication date: 2018-04-24
Anticipated expiration: 2034-07-11
Also published as: CN104282305A; DE102014109122A1

Abstract

本发明涉及一种用于仲裁语音对话结果的方法，包括：从环境内的用户接收语音发音；从第一源接收与语音发音相关联的第一识别结果和第一置信水平；从第二源接收与语音发音相关联的第二识别结果和第二置信水平；接收与用户相关联的人机界面（HMI）信息；基于第一置信水平、第二置信水平和HMI信息中的至少一个，在第一识别结果和第二识别结果之间进行选择。

Description

语音对话系统中用于结果仲裁的系统和方法

相关申请的交叉引用

本申请要求享有2013年7月12日提交的美国临时专利申请61/845798的优先权，该临时申请的全部内容在此通过引用并入本申请中。

技术领域

本发明技术领域总体涉及语音系统，并且更具体而言涉及在可用的语音识别结果之间进行选择的方法和系统。

背景技术

车辆语音对话系统（或“语音系统”）基于由车辆的乘客所发出的语音来执行语音识别及其它。语音发音通常包括命令，这些命令与车辆的一个或多个特征以及车辆可访问的其它系统进行通信或者对它们进行控制。语音系统响应于语音发音生成语音命令，并且在一些情况下，响应于语音识别而生成语音命令，其需要进一步的信息以便执行语音识别。

越来越多地，可以通过用户环境内的多个装置以及外部可用服务器来提供语音识别功能。在车辆语音对话系统的情境中，例如，由用户的移动装置（通过驻留在移动装置上的一个或多个应用）、车辆的车载语音系统、以及外部第三方服务器（其通过网络联接到车载通信网络）同时获得语音识别结果并非罕见。此外，系统产生语音识别结果所需要的时间以及与这些结果相关联的置信水平可能差别很大。

因此，期望提供在语音系统中用于选择或“仲裁”语音识别结果的改善的方法和系统。另外，本发明的其它所期望的特征和特性将从结合附图以及前述技术领域和背景技术的下述详细说明和权利要求变得清楚。

发明内容

根据一个实施例的用于仲裁语音对话结果的方法包括：从环境内的用户接收语音发音；从第一源接收与语音发音相关联的第一识别结果和第一置信水平；从第二源接收与语音发音相关联的第二识别结果和第二置信水平；接收与用户相关联的人机界面（HMI）信息；基于第一置信水平、第二置信水平和HMI信息中的至少一个，在第一识别结果和第二识别结果之间进行选择。

根据一个实施例的车辆中的用于仲裁语音对话结果的系统包括：语义解释模块、快捷模块和结果选择模块。语义解释模块构造成从环境内的用户接收语音发音，从第一源接收与语音发音相关联的第一识别结果和第一置信水平，以及从第二源接收与语音发音相关联的第二识别结果和第二置信水平。快捷模块构造成当第一置信水平高于阈值时选择第一识别结果。结果选择模块构造成当第一置信水平大于第二置信水平并且第一置信水平不高于阈值时选择第一识别结果。

此外，本发明还涉及以下技术方案。

1. 一种用于仲裁语音对话结果的方法，所述方法包括：

从环境内的用户接收语音发音；

从第一源接收与所述语音发音相关联的第一识别结果和第一置信水平；

从第二源接收与所述语音发音相关联的第二识别结果和第二置信水平；

接收与所述用户相关联的人机界面（HMI）信息；

基于所述第一置信水平、所述第二置信水平和所述HMI信息中的至少一个，在所述第一识别结果和所述第二识别结果之间进行选择。

2. 如技术方案1所述的方法，其中，在所述第一识别结果和所述第二识别结果之间进行选择包括如果所述第一置信水平高于阈值则选择所述第一识别结果。

3. 如技术方案2所述的方法，进一步包括，如果所述第一置信水平不高于所述阈值并且所述第一置信水平大于所述第二置信水平，则选择所述第一识别结果。

4. 如技术方案1所述的方法，其中，所述第一识别结果的至少一部分是预定的识别结果。

5. 如技术方案1所述的方法，其中，所述第一识别结果中的每一个包括与对应的槽类型相关联的一个或多个语言槽。

6. 如技术方案5所述的方法，其中，所述语言槽类型包括人名和地址中的至少一个。

7. 如技术方案1所述的方法，其中，在所述第一识别结果和所述第二识别结果之间进行选择包括基于隐马尔科夫模型进行选择。

8. 一种车辆中用于仲裁语音对话结果的系统，所述系统包括：

语义解释模块，所述语义解释模块构造成从环境内的用户接收语音发音，从第一源接收与所述语音发音相关联的第一识别结果和第一置信水平，以及从第二源接收与所述语音发音相关联的第二识别结果和第二置信水平；

快捷模块，所述快捷模块构造成当所述第一置信水平高于阈值时选择所述第一识别结果；以及

结果选择模块，所述结果选择模块构造成当所述第一置信水平大于所述第二置信水平并且所述第一置信水平不高于所述阈值时选择所述第一识别结果。

9. 如技术方案4所述的系统，其中，所述结果选择模块构造成接收HMI状态信息，并且还构造成部分地基于所述HMI状态信息选择所述第一识别结果。

10. 如技术方案8所述的系统，其中，所述第一识别结果的至少一部分是预定的识别结果。

11. 如技术方案8所述的系统，其中，所述第一识别结果中的每一个包括与对应的槽类型相关联的一个或多个语言槽。

12. 如技术方案11所述的系统，其中，所述语言槽类型包括人名和地址中的至少一个。

13. 如技术方案11所述的系统，其中，在所述第一识别结果和所述第二识别结果之间进行选择包括基于隐马尔科夫模型进行选择。

14. 如技术方案10所述的系统，还包括事件计时器模块，所述事件计时器模块构造成确定当所述第一识别结果被接收时相关联的第一时间，确定当所述第二识别结果被接收时相关联的第二时间，并且，所述结果选择模块构造成部分地基于所述第一时间和所述第二时间来选择所述第一识别结果。

15. 如技术方案14所述的系统，还包括输出模块，所述输出模块构造成为用户提供所选择的第一识别结果，并且为所述事件计时器模块提供重置信号。

16. 一种非暂时性计算机可读介质，所述计算机可读介质承载软件指令，所述软件指令构造成使得处理器通过执行以下步骤来仲裁语音对话结果：

从环境内的用户接收语音发音；

接收与所述用户相关联的人机界面（HMI）信息；

17. 如技术方案16所述的计算机可读介质，其中，所述软件指令还使得所述处理器：如果所述第一置信水平高于阈值则选择所述第一识别结果，从而在所述第一识别结果和所述第二识别结果之间进行选择。

18. 如技术方案16所述的计算机可读介质，其中，所述软件指令还使得所述处理器：如果所述第一置信水平不高于所述阈值并且所述第一置信水平大于所述第二置信水平，则选择所述第一识别结果。

19. 如技术方案16所述的计算机可读介质，其中，所述第一识别结果中的每一个包括与对应的槽类型相关联的一个或多个语言槽。

20. 如技术方案16所述的计算机可读介质，其中，所述语言槽类型包括人名和地址中的至少一个。

附图说明

以下将结合所附的附图描述示例性实施例，其中相同的附图标记表示相同的元件，并且其中：

图1是根据各个示例性实施例的包括语音系统的车辆的功能性框图；

图2是描述根据一个实施例的方法的流程图；以及

图3是示出根据示例性实施例的语音识别仲裁系统的功能性框图。

具体实施方式

以下的详细描述本质上仅是示例性的且并不意在限制其应用和用途。另外，不应被在前述技术领域、背景技术、发明内容或以下的详细描述中所给出的任何明示或暗示的理论所束缚。如本文中所用，术语“模块”是指专用集成电路（ASIC）、电子电路、处理器（共享，专用或成组的）以及执行一种或多种软件或固件程序的存储器、组合逻辑电路和/或提供所述功能的其它适合的构件。

现在参考图1，根据本文描述的主题的示例性实施例，在车辆12内设有语音对话系统（或简称“语音系统”）10。总体而言，语音系统10通过人机界面模块（HMI）14为一个或多个车辆系统提供语音识别、对话管理以及语音生成，人机界面模块14构造成由一个或多个用户40（例如，驾驶员、乘客等）来操作（或与其交互）。这样的车辆系统可包括例如电话系统16、导航系统18、媒体系统20、远程信息系统22、网络系统24以及可包括依赖语音的应用的任何其它车辆系统。在一些实施例中，一个或多个车辆系统通信地联接到网络（例如，专属网络、4G网络等），提供与一个或多个后端服务器26的数据通信。

在车辆12内还可以存在一个或多个移动装置50，包括各种智能电话、平板电脑、功能型电话等。移动装置50还可以通过适当的无线连接（例如，蓝牙或WiFi）通信地联接到HMI14，使得移动装置50上驻留的一个或多个应用能够通过HMI14被用户40访问。因此，用户40将通常能够访问在三个不同平台上运行的应用：在车辆系统自身内执行的应用，在移动装置50上配置的应用，以及在后端服务器26上驻留的应用。此外，这些应用中的一个或多个可以根据它们各自语音对话系统操作，并且因此多个装置能够在不同程度上响应于用户40所说出的请求。

语音系统10通过通信总线和/或其它数据通信网络29（例如，有线的、短距离无线或长距离无线）与车辆系统14、16、18、20、22、24和26通信。通信总线可以是例如控制器局域网络（CAN）总线、本地互联网络（LIN）总线等。将认识到的是，语音系统10可以用于包括一个或多个依赖语音的应用的基于车辆的环境和非基于车辆的环境，并且本文提供的基于车辆的示例被阐述而不失一般性。

如图所示，语音系统10包括语音理解模块32、对话管理器模块34和语音生成模块35。这些功能模块可以实现为分开的系统或组合的、集成的系统。总体而言，HMI模块14从用户40接收声学信号（或称“语音发音”）41，该声学信号41被提供给语音理解模块32。

语音理解模块32包括构造成使用合适的语音识别技术处理来自HMI模块14（通过一个或多个麦克风52接收）的语音发音的硬件和/或软件的任意组合，合适的语音识别技术包括例如自动语音识别和语义解码（或口语理解（SLU））。使用这些技术，语音理解模块32由语音发音生成可能结果的结果列表（或多个列表）33。在一个实施例中，结果列表33包括一个或多个句子假设，句子假设代表了可能由用户40说出的发音集合（例如，发音41）上的可能性分布。列表33可以采用例如N最佳列表的形式。在各个实施例中，语音理解模块32使用存储在数据库中的预定可能（predefined possibilities）生成结果列表（“语音识别结果”或简称“结果”）33。例如，预定可能可以是存储在电话簿中的名字或号码、存储在地址簿中的名字或地址、存储在音乐目录中的歌曲名、专辑或艺术家，等等。在一个实施例中，语音理解模块32采用前端特征提取，接着是隐马尔科夫模型（HMM）以及评分机制。如以下更加详细所述，语音理解模块32可以在从多个装置和/或系统接收到的多个语音识别结果之间仲裁，以产生最终的结果列表33。

对话管理器模块34包括构造成基于列表33来管理交互序列以及选择将要说给用户的语音提示42的硬件和/或软件的任意组合。当列表包含多于一个可能的结果时，对话管理器模块34使用消除歧义策略，以便管理与用户的提示对话，使得能够确定所识别的结果。根据示例性实施例，对话管理器模块34能够管理对话上下文，如以下更加详细所述。

语音生成模块35包括构造成基于由对话管理器34所确定的对话来生成给用户40的语音提示42的硬件和/或软件的任意组合。在此方面，语音生成模块35将通常提供自然语言生成（NLG）和语音合成，或文本至语音转换（TTS）。

结果列表33包括代表可能结果的一个或多个要素。在各实施例中，列表的各要素包括一个或多个“槽”，根据应用，每个槽与语言槽类型相关联。例如，如果应用支持打电话给电话簿联系人（例如，“呼叫John Doe”），则每个要素可以包括带有名字、中间名、和/或姓氏的槽类型的槽。在另一示例中，如果应用支持导航（例如，“去1111阳光大道”），则每个要素可以包括带有房子号码和大街名称等的槽类型的槽。在各实施例中，槽和槽类型可以存储在数据库中，并且可以由任何一个所示系统访问。列表33的每个要素或槽与置信分数相关联。

除了语音对话之外，用户40还可以通过各种按钮、开关、触摸屏用户界面元件、姿态（例如，由车辆12内所设置的一个或多个摄像机所识别的手势）等与HMI14交互。在一个实施例中，按钮54（例如，“按下讲话”按钮或简称为“讲话按钮”）设置在一个或多个用户40容易够到的范围内。例如，按钮54可以嵌入在方向盘56中。

现在参考图3，现在将结合图2中描述的示例性仲裁方法200来描述根据一个实施例的语音识别仲裁系统300。在一些实施例中，系统300被实现为图1所描述的语音理解模块32的一部分。在其它实施例中，系统300驻留在图1中所描述的一个或多个其它模块中。

在所示的实施例中，系统300包括事件计时器模块308、语义解释模块310、快捷模块312、结果选择模块314、当前HMI状态信息306、以及输出模块318。事件计时器模块308构造成接受多个语音识别结果（或简称“结果”）301-305（步骤202，图2）。语音识别结果301-305可以由多个源获得和/或可以对应于通过多个语音识别技术所产生的结果。例如，结果301可能对应于通过统计语言模型（SLM）的应用产生的结果，而结果302可能对应于通过有限状态语法（FSG）应用于同一语音发音而产生的结果。类似地，结果303可以由车载（或“嵌入的”）语音识别系统产生，诸如导航系统，而结果305可能由外部服务器（例如，图1中的服务器26）产生。

事件计时器模块308构造成接收各个结果301-305，并且确定接收到每个结果的时间（步骤204，图2）。即，例如，结果301可能在特定时间（例如，发音被提交用于解释的时间）之后的200毫秒（ms）被接收，而结果305（来自外部服务器）可能在该特定时间之后的3.0秒被接收。

语义解释模块310构造成接收结果301-305以及来自事件计时器模块308的计时信息，并且构造成应用适当的方法以便确定可应用于所接收结果的对话上下文和/或各种“槽”，如上所述（步骤206，图2）。即，语义解释模块310构造成确定所接收结果的语义含义，并且还确定每个解释的置信水平。语义解释模块310还可以从一个或多个源接收之前解释的结果，例如来自外部服务器的结果305。

快捷模块312构造成从各个源接收解释的结果，并且确定（步骤208）是否被解释的结果之一具有充分高的置信度（即，高于预先确定的阈值）。如果是，则解释的结果被直接传递给输出模块318（步骤210），从而避免可能由接下来的处理所带来的任何延迟。如同可由本领域技术人员理解的，预先确定的阈值可以根据结果301-305以及语义解释模块310的性质而变化。

在步骤208，如果确定没有解释的结果的置信度水平高于预先确定的阈值，则结果选择模块314基于与每个结果相关联的置信度水平以及HMI状态信息306在解释的结果之间进行选择（步骤211，图2）。在此方面，HMI状态信息306包括与图1的HMI14的当前操作模式相关的任何信息。这种信息可能包括例如，触摸屏上的当前屏幕，环境内的任何按钮（例如，讲话按钮）的状态，用户是否正在与特定互联网主机（例如，Google Maps、Pandora等）交互，用户是否正在与媒体交互，当前对话状态，正显示给用户的内容，与车辆的状态相关的信息（例如，静止或移动），等等。使用HMI状态信息306允许结果选择模块314做出更智能的选择。例如，如果用户正在与外部服务器上的Google Maps交互，则结果选择模块314将典型地等待外部结果305被接收，即使这些结果可能比来自其它源的结果更晚地被接收到（因为显然用户希望使用特定地来自该服务器的结果）。

输出模块318构造成提供所选择的解释结果330作为输出（即，来自快捷模块312的快捷结果或者来自结果选择模块314的所选择结果）。在此方面，结果330可能对应于图1中所示出的结果列表33。输出模块318还构造成重置事件计时器模块308（即，将等待计时器设置回零）。

根据一个实施例，与系统300的操作有关的历史数据被用于训练系统300的各个构件，例如，更新语义解释模块310和结果选择模块314所用的模型。

尽管已经在前述详细说明中给出了至少一个示例性实施例，但应该懂得存在很多变化。还应当意识到，一个或多个示例性实施例仅是示例，并不意在以任何方式限制本发明的范围、应用或构造。相反，前述详细说明为本领域技术人员提供了一种简便的方法来实施一个或多个示例性实施例。应当理解，在不偏离由权利要求书及其法律等同物阐明的本发明范围的情况下，可对元件的功能和布置作出各种改变。

Claims

1.一种车辆中用于仲裁语音对话结果的系统，所述系统包括：

事件计时器模块，其包括处理器，所述事件计时器模块构造成：

从第一源接收与语音发音相关联的第一识别结果；

从第二源接收与所述语音发音相关联的第二识别结果；

确定当所述第一识别结果被接收时相关联的第一时间；以及

确定当所述第二识别结果被接收时相关联的第二时间；

语义解释模块，其包括处理器，所述语义解释模块构造成接收第一识别结果并且确定与第一识别结果相关联的第一置信水平，以及接收第二识别结果并且确定与第二识别结果相关联的第二置信水平；

快捷模块，其包括处理器，所述快捷模块构造成确定第一置信水平是否高于阈值并且如果第一置信水平高于阈值则提供第一识别结果给输出模块；

结果选择模块，其包括处理器，所述结果选择模块构造成当第一置信水平不高于阈值且第一置信水平大于第二置信水平时，选择第一识别结果并提供第一识别结果给输出模块，其中所述结果选择模块还构造成部分地基于第一时间和第二时间选择第一识别结果。

2.如权利要求1所述的系统，其中，所述输出模块构造成为用户提供所选择的第一识别结果，并且为所述事件计时器模块提供重置信号。

3.如权利要求1所述的系统，其中，所述第一识别结果的至少一部分是预定的识别结果。

4.如权利要求1所述的系统，其中，所述第一识别结果中的每一个包括与对应的槽类型相关联的一个或多个语言槽。

5.如权利要求4所述的系统，其中，所述语言槽类型包括人名和地址中的至少一个。

6.如权利要求1所述的系统，其中，通过结果选择模块在所述第一识别结果和所述第二识别结果之间进行选择包括基于隐马尔科夫模型进行选择。