CN104347074A

CN104347074A - 用于管理语音系统中的对话语境的系统和方法

Info

Publication number: CN104347074A
Application number: CN201310746304.8A
Authority: CN
Inventors: E.茨尔克尔-汉科克; R.D.辛斯三世; O.尖霍尼
Original assignee: GM Global Technology Operations LLC
Current assignee: GM Global Technology Operations LLC
Priority date: 2013-07-31
Filing date: 2013-12-31
Publication date: 2015-02-11
Also published as: US20150039316A1; DE102014203540A1

Abstract

本发明涉及用于管理语音系统中的对话语境的系统和方法。方法和系统被提供来用于管理语音系统内的语音对话。所述方法包括：建立具有第一对话语境的语音对话话期；以及接收与由用户执行的动作相关联的语境触发器。响应于语境触发器，所述系统改变到第二对话语境。响应于语境完成状况，所述系统返回到第一对话语境。

Description

用于管理语音系统中的对话语境的系统和方法

技术领域

本技术领域主要涉及语音系统，并且更特别地涉及用于管理语音系统内的对话语境的方法和系统。

背景技术

交通工具语音对话系统或“语音系统”基于由交通工具的乘员发出的语音来执行除了别的外的语音识别。语音表达通常包括指令，其通信于或控制交通工具的一个或多个特征以及可由交通工具访问的其它系统的指令。语音系统响应于语音表达来生成语音指令，并且在一些情况下，响应于语音识别生成语音指令，需要进一步的信息以便执行语音识别。

在许多情况下，用户可能希望在话期(session)已完成之前改变语音对话主题。也就是说，用户可能希望在话期中改变“对话语境”。这可能发生在例如以下时候：(1)用户需要进一步信息以便完成任务，(2)用户不能完成任务，(3)用户已改变他或她的想法，(4)语音系统在语音对话中选取了错误的路径，或(5)用户被打断说话。在当前公知的系统中，这类情形经常导致对话失败和用户受挫。例如，用户可能退出第一语音对话话期，开始新的语音对话话期来确定缺失信息，然后开始又一语音对话话期来完成最初旨在用于第一话期的任务。

因此，希望的是提供改善的方法和系统来管理语音系统中的对话语境。更进一步，从后续详细描述和所附权利要求书，结合附图和前述技术领域和背景技术来理解，本发明的其它所需特征和特性将变得清楚明了。

发明内容

方法和系统被提供来用于管理语音系统内的语音对话。所述方法包括：建立具有第一对话语境的语音对话话期；以及接收与由用户执行的动作相关联的语境触发器。响应于语境触发器，所述系统改变到第二对话语境。接下来，响应于语境完成状况，所述系统返回到第一对话语境。

本发明还提供以下技术方案：

1. 一种用于管理语音系统内的语音对话的方法，所述方法包括：

建立具有第一对话语境的语音对话话期；

接收与由用户执行的动作相关联的语境触发器；

响应于语境触发器，改变到第二对话语境；以及

响应于语境完成状况，返回到第一对话语境。

2. 如技术方案1所述的方法，其中，由用户执行的动作对应于按压按钮。

3. 如技术方案2所述的方法，其中，按压按钮对应于按压被合并到汽车的转向盘中的按钮。

4. 如技术方案1所述的方法，其中，由用户执行的动作对应于以下中的至少一个：说出预先选择的用语、执行姿势和向预先确定的方向说话。

5. 如技术方案1所述的方法，其中，将在第二对话语境中确定的数据合并到在第一对话语境中确定的数据中，以便实现话期任务。

6. 如技术方案5所述的方法，进一步包括：在改变到第二对话语境之前，将第二组数据推送到语境堆栈上。

7. 一种语音系统，包括：

语音理解模块，被构造成用以接收来自用户的语音表达，并产生与语音表达相关联的结果列表；

对话管理器模块，被通信地联接至语音理解模块，所述对话管理器模块包括语境处理机模块，其被构造成用以：接收结果列表；基于结果列表与用户建立具有第一对话语境的语音对话话期；接收与由用户执行的动作相关联的语境触发器；响应于语境触发器，改变到第二对话语境；以及响应于语境完成状况，返回到第一对话语境。

8. 如技术方案7所述的语音系统，其中，语境触发器包括按压按钮。

9. 如技术方案8所述的语音系统，其中，按压按钮对应于按压被合并到汽车的转向盘中的按钮。

10. 如技术方案7所述的语音系统，其中，语境触发器包括由用户说出的预先选择的用语。

11. 如技术方案7所述的语音系统，其中，语境触发器包括由用户执行的姿势。

12. 如技术方案7所述的语音系统，其中，语境触发器包括确定用户在向预先确定的方向说话。

13. 如技术方案7所述的语音系统，其中，语境触发器包括确定第二用户已开始说话。

14. 如技术方案7所述的语音系统，其中，将在第二对话语境中确定的数据合并到在第一对话语境中确定的数据中，以便实现话期任务。

15. 如技术方案14所述的语音系统，其中，语境处理机模块包括语境堆栈，并被构造成用以在改变到第二对话语境之前将第二组数据推送到语境堆栈上。

16. 如技术方案7所述的语音系统，其中，语境完成状况包括由用户执行的子任务的完成。

17. 承载软件指令的非短暂性计算机可读介质，所述软件指令被构造成用以指示语音系统：

与用户建立具有第一对话语境的语音对话话期；

接收与由用户执行的动作相关联的语境触发器；

响应于语境触发器，改变到第二对话语境；以及

响应于语境完成状况，返回到第一对话语境。

18. 如技术方案17所述的非短暂性计算机可读介质，其中，语境触发器对应于按压合并到汽车的转向盘中的按钮。

19. 如技术方案17所述的非短暂性计算机可读介质，其中，将在第二对话语境中确定的数据合并到在第一对话语境中确定的数据中，以便实现话期任务。

20. 如技术方案19所述的非短暂性计算机可读介质，其中，软件指令指示处理器在改变到第二对话语境之前将第二组数据推送到语境堆栈上。

附图说明

下面将结合以下附图来描述示例性实施例，附图中相似附图标记表示相似要素，并且附图中：

图1是包括依据多个不同示例性实施例的语音系统的交通工具的功能框图；

图2是概念框图，示出了依据多个不同示例性实施例的语音系统的一些部分；

图3示出了依据多个不同示例性实施例的对话语境状态图；并且

图4示出了依据多个不同示例性实施例的对话语境方法。

具体实施方式

以下详细描述本质上仅仅是示例性的，并不旨在限制应用和用途。更进一步，没有意图被在前面的技术领域、背景技术、发明内容或以下详细描述中给出的任何明示或暗示的理论限制。如本文中所使用的，术语“模块”是指专用集成电路(ASIC)、电子电路、执行一个或多个软件或固件程序的存储器和处理器(共享、专用或分组)、组合逻辑电路、和/或提供所描述功能的其它适当部件。

现在参考图1，依据本文中描述的主题的示例性实施例，语音对话系统(或仅称为“语音系统”)10被提供在交通工具12内。一般而言，语音系统10通过被构造成由一个或多个用户40(例如，驾驶员、乘客等)操作(或要不然与之交互)的人机界面(HMI)模块14来为一个或多个交通工具系统提供语音识别、对话管理和语音生成。这类交通工具系统可以包括例如电话系统16、导航系统18、媒体系统20、远程信息处理系统22、网络系统24和可以包括依赖于语音的应用的任何其它交通工具系统。在一些实施例中，交通工具系统中的一个或多个被通信地联接至提供与一个或多个后端服务器26的数据通信的网络(例如，专有网络、4G网络或类似网络)。

一个或多个移动装置50也可以存在于交通工具12内，包括各种智能手机、平板电脑、功能型手机等。移动装置50也可以通过适当的无线连接(例如，蓝牙或WiFi)被通信地联接至HMI 14，使得驻留在移动装置50上的一个或多个应用可经由HMI 14被用户40访问。因此，用户40通常将对在三个不同平台上运行的应用具有访问权限：在交通工具系统自身内被执行的应用、部署在移动装置50上的应用、和驻留在后端服务器26上的应用。将理解的是：语音系统10可以与具有依赖于语音的应用的基于交通工具和基于非交通工具的系统协同使用，并且本文中提供的基于交通工具的示例被阐述而不损失一般性。

语音系统10通过通信总线和/或其它数据通信网络29(例如，有线、短距离无线、或长距离无线)与交通工具系统14、16、18、20、22、24和26通信。通信总线可以为例如控制器区域网络(CAN)总线、本地互连网络(LIN)总线或类似物。

如图所示，语音系统10包括语音理解模块32、对话管理器模块34和语音生成模块35。这些功能模块可以被实施为单独的系统或组合的一体化系统。一般而言，HMI模块14接收来自用户40的声信号(或“语音表达”)41，其被提供至语音理解模块32。

语音理解模块32包括硬件和/或软件的任意组合，其被构造成用以使用包括例如自动语音识别和语义解码(或口语理解(SLU))在内的适当语音识别技术来处理来自HMI模块14(经由一个或多个麦克风52接收到)的语音表达。使用这类技术，语音理解模块32生成来自语音表达的可能结果的结果列表(或简称为“列表”)33。在一个实施例中，列表33包括一个或多个句子假设，其表示在可能已经由用户40说出的表达(即，表达41)的组内的概率分布。列表33可以例如呈N-最佳列表的形式。在多个不同实施例中，语音理解模块32使用存储在数据库中的预先限定的可能性来生成列表33。例如，预先限定的可能性可以为存储在电话薄中的名称或号码、存储在地址簿中的名称或地址、存储在音乐目录中的歌曲名称、专辑或艺人、等等。在一个实施例中，语音理解模块32采用前端特征取出，紧接着是隐马尔可夫模型(HMM，Hidden Markov Model)和得分机制(scoring mechanism)。

对话管理器模块34包括硬件和/或软件的任意组合，其被构造成用以管理交互序列和待基于列表33说给用户的语音提示42的选择。当列表包含多于一个的可能结果或低置信度结果时，对话管理器模块34使用消除歧义策略来管理与用户的交互，以便能确定识别结果。依据示例性实施例，对话管理器模块34能够管理对话语境，如下面将更详细地描述的。

语音生成模块35包括硬件和/或软件的任意组合，其被构造成用以基于由对话管理器34确定的对话动作来对用户40生成语音提示42。在这点上，语音生成模块35将大体提供自然语言生成(NLG)和语音合成、或文本到语音(TTS)。

列表33包括表示可能结果的一个或多个要素(element)。在多个不同实施例中，列表的每个要素包括一个或多个“槽位”(slot)，其各自与取决于应用的槽位类型相关联。例如，如果应用支持打电话给电话薄联系人(例如，“呼叫约翰某某”)，则每个要素可以包括具有名、中间名和/或姓氏的槽位类型的槽位。在另一示例中，如果应用支持导航(例如，“去往阳光大街1111号(1111 Sunshine Boulevard)”)，则每个要素可以包括具有门牌号码、和街道名称等的槽位类型的槽位。在多个不同实施例中，槽位和槽位类型可以被存储在数据库中，并由所示系统中的任一个访问。列表33的每个要素或槽位与置信度得分相关联。

除了语音对话之外，用户40还可以通过各种按钮、开关、触摸屏幕、用户界面元件、姿势(gesture)(例如，由被提供在交通工具12内的一个或多个摄像头识别的手势)和类似物与HMI 14交互。在一个实施例中，按钮54(例如，“按键通话”按钮，或简称为“通话按钮”)被提供在一个或多个用户40的近前。例如，按钮54可以被嵌入在转向盘56内。

现在参考图2，依据多个不同示例性实施例，对话管理器模块34包括语境处理机模块202。一般而言，语境处理机模块202包括硬件和/或软件的任意组合，其被构造成用以管理和理解用户40如何在语音对话话期中在不同的对话语境之间切换。在一个实施例中，例如，语境处理机模块202包括语境堆栈204，其被构造成用以存储与一个或多个对话语境相关联的信息(例如，槽位信息)，如下面将更详细地描述的。

如本文中所使用的，术语“对话语境”一般是指用户40尝试经由语音对话实现的特定任务，其可以也可以不与特定交通工具系统(例如，图1中的电话系统16或导航系统18)相关联。在这点上，对话语境可以被想象为具有树形或层级结构，其中顶部节点对应于整个语音对话话期自身，而该节点直接下方的节点包括由语音系统提供的一般类别的任务，例如，“电话”、“导航”、“媒体”、“气温控制”、“天气”等。在这些节点中的每个下方是与该系统相关联的更特定的任务。例如，在“导航”节点下方，某人可以发现除了别的以外的“改变导航设置”节点、“查看地图”节点、和“目的地”节点。在“目的地”节点下方，语境树可能包括“兴趣点”节点、“输入地址节点”、等等。这种语境树的深度和尺寸将根据特定应用而变化，但是将大体包括处于树的底部处的节点，其被称为“叶”节点(即，在它们下面没有进一步的节点的节点)。例如，在一些实施例中，向导航系统中手动输入具体地址(并分配相关联的信息槽位)可以被看作是叶节点。一般而言，然后，本文中描述的多个不同实施例提供一种方式来供用户在由语音系统提供的语境树内移动，并且特别允许用户在与叶节点自身相关联的对话语境之间容易地移动。

现在参考图3(结合图1和2两者)，状态图300可以被采用来示出一种方式，其中对话语境基于用户交互由语境处理机模块202来管理。特别地，状态302表示第一对话语境，而状态304表示第二对话语境。从状态302到状态304的过渡303响应于“语境触发器”而发生，并且从状态304到状态302的过渡305响应于“语境完成状况”而发生。虽然图3示出了两个对话语境，但是将理解的是：在特定语音对话话期中可以经过一个或多个附加或“嵌套”的对话语境状态。注意：在该图中示出的过渡是在单个语音对话话期内发生的，而不是在多个语音对话话期的序列中发生的(如当用户退出一个话期然后进入另一话期来确定未知信息，其然后被使用在后续话期中)。

关于过渡303，可以使用宽范围的语境触发器。在一个示例中，语境触发器被设计成允许用户在对话语境之间容易地和直观地切换，而不受到显著的分心。在一个示例性实施例中，按钮(例如，图1的“通话按钮”54)的激活被用作语境触发器。也就是说，当用户希望改变语境时，用户仅仅按压“通话”按钮，并继续语音对话，现在处于第二对话语境内。在一些变型中，按钮是虚拟按钮，即被提供在中心触摸屏幕显示器上的用户界面部件。

在一替代实施例中，语境触发器是由用户说出的预先选择的词语或用语，例如用语“切换语境”。预先选择的用语可以是用户可配置的，或者可以由语境处理机模块预先设定。作为一变型，特定声音(例如，由用户做出的咔嗒(clicking)噪声或口哨声音)可以被用作语境触发器。

依据一个实施例，语境触发器是响应于表明用户希望改变语境的用户的语音的自然语言解释而产生的。例如，在导航话期中，用户可以仅仅说出用语“劳驾，我现在想呼叫吉姆”或类似物。

依据另一实施例，语境触发器是响应于由交通工具内的用户做出的姿势而产生的。例如，被通信地联接至计算机视觉模块(例如，HMI 14内)的一个或多个摄像头能够将挥手、手指运动或类似情况识别为有效的语境触发器。

依据一个实施例，语境触发器对应于识别不同用户已开始说话的语音系统10。也就是说，交通工具的驾驶员可以发起语音对话话期，其在第一对话语境内发生(例如，驾驶员改变卫星无线电台)。接下来，当交通工具中的乘客插入并请求执行导航任务时，进入第二对话语境(导航到一地址)。语音系统10可以被构造成用以使用多种不同技术来识别个体用户，包括声音分析、方向分析(例如，说话声音的位置)、或另一其它便利的方法。

依据另一实施例，语境触发器对应于确定用户已沿不同方向(例如，朝向不同麦克风52)说话的语音系统10。也就是说，例如，用户可以通过向后视镜中的麦克风说话来进入第一对话语境，然后通过向嵌入在中央控制台中的麦克风说话来改变对话语境。

被用于过渡305(即，用于返回到原始状态302)的语境完成状况也可以构成多种不同动作。在一个实施例中，例如，语境完成状况对应于特定子任务被完成(例如，电话呼叫的完成)。在另一实施例中，成功地填补在信息的所需“槽位”中的动作可自身构成语境完成状况。换种说法，由于用户将经常切换对话语境来达到填补未在第一语境中获得的缺失信息的目的，所以一旦所需信息被接收到后，系统可以自动地切换返回第一语境。在另一些实施例中，用户可以使用例如在以上关于过渡303描述的方法中的任一个来明确地指示返回到第一语境的希望。

下面提供一个示例，其中用户改变语境来确定缺失信息，其然后被用户使用来完成任务：

1. <用户>“发送消息给约翰”

2. <系统>“OK，朗读给约翰的消息”

3. <用户>“嗨，约翰，我在路上，我将到那里...”

4. <用户>[激活语境触发器]

5. <用户>“我的估计到达时间是多少”

6. <系统>“你的估计到达时间是下午四点”

7. <用户>“...大约在下午四点”。

如能够在本示例看出的，第一对话语境(组成声音消息)在步骤4处被用户中断，以便在第二对话语境中确定估计时间(导航完成估计)。在系统提供了估计到达时间之后，系统自动地返回到第一对话语境。尽管切换了对话语境，但前面的朗读已经被保存，因此用户可仅仅从他中断之处开始继续朗读消息。

下面提供另一示例，在该信息中用户纠正由系统选取的不正确对话路径：

1. <用户>“播放约翰·列侬”

2. <系统>“OK，将目的地设定为约翰列侬大街。请输入号码”

3. <用户>“等一下，我是想听音乐”

4. <系统>“OK，哪个专辑或歌名”。

在以上示例中，在步骤2处，系统曲解了用户的语音，并进入了导航对话语境。用户然后使用预先确定的用语“等一下”作为语境切换，使系统进入媒体对话语境。替代地，系统可以经由自然语言分析来解释用语“等一下，我是想听音乐”，来推断用户的意图。

下面的示例也是例证用户从导航对话语境改变到电话呼叫语境来确定缺失信息的情况：

1. <用户>“帮我找供应海鲜的餐厅”

2. <系统>“比尔的蟹居在半英里远并且供应海鲜”

3. <用户>“它们的价格范围是多少”

4. <系统>“对不起，价格范围信息不可获得”

5. <用户>[激活语境触发器]

6. <用户>“呼叫鲍勃”

7. <系统>“呼叫鲍勃中”

8. <鲍勃>“喂”

9. <用户>“嘿，鲍勃，比尔的蟹居贵吗”

10. <鲍勃>“嗯，不，它是‘螃蟹窝棚’”

11. <用户>“多谢，拜拜”[挂断]

12. <用户>“OK，请带我去那里”

13. <系统>“加载目的地...”。

在另一些实施例中，在返回时，来自第二对话语境的缺失信息被自动地传递返回第一对话语境。

现在结合图1-3参考在图4中示出的流程图，现在将描述一示例性语境切换方法400。应当指出的是：所示方法并不局限于图4中示出的序列，而是可以视情况按一个或多个变化的顺序来执行。更进一步，所示方法的一个或多个步骤在多个不同实施例中可以被添加或去除。

最初，假定：已经建立了语音对话话期，并依据第一对话语境在进行。在该话期中，用户激活适当的语境触发器(402)，比如以上描述的语境触发器之一。作为响应，语境管理模块202将当前语境推送到语境堆栈204上(404)，并返回地址(406)。也就是说，语境堆栈204包括先进后出(FILO)堆栈，其存储关于一个或多个对话语境的信息。“推送”将项目放置在堆栈上，而“弹出”将项目从堆栈移除。推送信息将通常包括与在该特定语境中执行的任务相关联的数据(例如，“槽位信息”)。本领域技术人员将意识到语境堆栈204可以按多种不同方法实施。在一个实施例中，例如，每个对话状态被实施为类别，并且是如以上所描述的对话树中的节点。用语“类别”和“对象”在本文中被使用与它们关于常见面向对象的编程语言比如Java或C++等的使用一致。返回的地址然后对应于到语境实例的指示器。然而，本公开并不局限于此，并且可以使用多种不同编程语言来实施。

接着，在步骤408中，语境处理机模块202切换到对应于第二语境的地址。在进入第二语境时，做出确定关于系统是否是作为从另一语境“切换”的一部分而进入该语境的(410)。如果是，则语音对话继续直到语境完成状况已发生(412)，于是第二语境的结果自身被推送到语境堆栈204上(414)。接着，系统从语境堆栈204恢复(前面推送的)返回地址，并返回到第一对话语境(416)。接着，在第一对话语境内，从语境堆栈204读取(来自第二对话语境的)结果(418)。在步骤404中被推送到语境堆栈204上的原始对话语境然后被取出并合并到第一对话语境中(420)。这样，对话语境可在话期中被切换，而不需要用户终止第一话期，发起新话期来确定缺失信息(或类似物)，然后开始又一话期来完成最初被意图用于第一话期的任务。换种说法，在第二对话语境中确定的一组数据被可选地合并到在第一对话语境中确定的另一组数据中，以便实现话期任务。

虽然在前述详细描述中给出了至少一个示例性实施例，但是应该理解的是存在大量的变型。还应该理解的是：一个示例性实施例或多个示例性实施例只是示例，并不旨在以任何方式限制本公开的范围、适用性或构造。相反，前述详细描述将为本领域技术人员提供便利的线路图来实施一个示例性实施例或多个示例性实施例。应该明白的是：可在要素的功能和配置中做出各种变化，而不背离如在所附权利要求及其法律等同方案中阐述的本公开的范围。

Claims

建立具有第一对话语境的语音对话话期；

接收与由用户执行的动作相关联的语境触发器；

响应于语境触发器，改变到第二对话语境；以及

响应于语境完成状况，返回到第一对话语境。

2. 如权利要求1所述的方法，其中，由用户执行的动作对应于按压按钮。

3. 如权利要求2所述的方法，其中，按压按钮对应于按压被合并到汽车的转向盘中的按钮。

4. 如权利要求1所述的方法，其中，由用户执行的动作对应于以下中的至少一个：说出预先选择的用语、执行姿势和向预先确定的方向说话。

5. 如权利要求1所述的方法，其中，将在第二对话语境中确定的数据合并到在第一对话语境中确定的数据中，以便实现话期任务。

6. 如权利要求5所述的方法，进一步包括：在改变到第二对话语境之前，将第二组数据推送到语境堆栈上。

7. 一种语音系统，包括：

8. 如权利要求7所述的语音系统，其中，语境触发器包括按压按钮。

9. 如权利要求8所述的语音系统，其中，按压按钮对应于按压被合并到汽车的转向盘中的按钮。

10. 承载软件指令的非短暂性计算机可读介质，所述软件指令被构造成用以指示语音系统：

与用户建立具有第一对话语境的语音对话话期；

接收与由用户执行的动作相关联的语境触发器；

响应于语境触发器，改变到第二对话语境；以及

响应于语境完成状况，返回到第一对话语境。