CN111368155B

CN111368155B - 环境感知对话策略和响应生成

Info

Publication number: CN111368155B
Application number: CN202010129077.4A
Authority: CN
Inventors: D·博伊斯; L·赫克; T·安纳斯塔萨科斯; R·萨里卡亚
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2013-06-21
Filing date: 2014-06-05
Publication date: 2024-03-08
Anticipated expiration: 2034-06-05
Also published as: AU2019208255B2; MX352774B; BR112015031231A8; BR112015031231B1; CA2913735C; AU2014281049B9; RU2015154501A3; AU2014281049A1; KR20160021850A; BR112015031231A2; RU2667717C2; AU2019208255A1; CA2913735A1; EP3011471A1; WO2014204655A1; US10304448B2; JP6492069B2; US9589565B2; JP2016524190A; CN111368155A

Abstract

环境条件，连同其它信息，用于调节谈话式对话系统的响应。环境条件可以在不同时间处使用在谈话式对话系统内。例如，环境条件可以用于调节对话管理器的输出(例如机器行动)。由对话管理器使用的对话状态信息包括针对对话中的当前轮转的环境条件以及针对对话中的一个或多个过去轮转的环境条件。还可以在接收到机器行动之后使用环境条件以调节提供给用户的响应。例如，环境条件可以影响所确定的机器行动以及如何将机器行动提供给用户。谈话式对话系统中的对话管理器和响应生成器组件各自使用可用的环境条件。

Description

环境感知对话策略和响应生成

本申请是申请号为201480035401.9的中国申请“环境感知对话策略和响应生成”的分案申请。

技术领域

本发明涉及谈话式对话系统。

背景技术

谈话式对话系统用于各种不同的应用。例如，已经开发了谈话式对话系统以允许用户搜索内容、购买物品、获取指引等等。这些谈话式对话系统持续不断地改进以允许在计算机与用户之间发生更加自然的交互。

发明内容

提供本发明内容来以简化的形式引入以下在具体实施方式中进一步描述的概念的选择。本发明内容不意图标识所要求保护的主题的关键特征或必要特征，也不意图用作帮助确定所要求保护的主题的范围。

环境条件，连同其它信息，用于调节谈话式对话系统的不同操作。环境条件可以在不同时间处使用在谈话式对话系统内。谈话式对话系统中的对话管理器和响应生成组件在执行其操作时各自使用可用的环境条件连同对话系统中的其它信息(例如对话中的之前轮转的语言理解结果、语音识别结果和置信度、知识结果、之前的机器行动、会话上下文、客户端上下文……)。例如，环境条件可以用于调节对话管理器的输出(例如机器行动)。由对话管理器使用的对话状态信息包括针对对话中的当前轮转的环境条件连同其它对话信息以及针对对话中的一个或多个过去轮转的环境条件。还可以在接收到机器行动之后使用环境条件以调节提供给用户的响应。例如，响应生成器可以使用环境条件来影响如何将机器行动提供给用户(例如语音、视觉)。

附图说明

图1图示了使用环境条件来调节由谈话式对话系统执行的不同操作；

图2示出用于配置许可的对话服务和应用之间的交互；

图3图示了使用环境条件的示例性谈话式对话系统；

图4图示了用于在谈话式对话系统中使用环境条件的过程；

图5图示了在确定机器行动和如何递送对话中的响应中使用环境条件的示例性在线系统；以及

图6、7A、7B和8以及相关联的描述提供其中可以实践本发明的实施例的各种操作系统的讨论。

具体实施方式

现在参照附图，其中相同的标号表示相同的元件，将描述各种实施例。

图1图示了使用环境条件来调节由谈话式对话系统执行的不同操作。

如所图示的，系统100包括对话服务105、对话管理器26、许可和设置110、机器行动生成器120、对话策略130、响应生成器140、对话状态信息145、环境条件150、(多个)理解模型160、应用110和触摸屏输入设备115。

一般地，除使用在对话系统中典型地可用的其它信息或信号之外，谈话式对话系统100使用环境信号(例如语言理解和知识结果、语音识别结果和置信度……)以用于策略和响应生成。环境信号扩充(不取代)典型在对话系统内使用的信号。除对话状态信息145之外，对话管理器26还使用环境条件150来调节谈话式对话系统的不同操作。环境条件可以在不同时间处使用在谈话式对话系统100内。谈话式对话系统100中的对话管理器26、机器行动生成器120和响应生成器140组件可以在执行其操作时各自使用可用的环境条件150。

机器行动生成器120可以连同使用对话状态信息145一起使用环境条件150来调节所确定的机器行动。一般地，环境条件150扩充在对话系统内使用的对话状态信息145。例如，对话状态信息145包括信息，诸如但不限于：例如对话中的之前轮转的语言理解结果、语音识别结果和置信度、知识结果、之前的机器行动、会话上下文、客户端上下文等等。用户与计算设备(即机器)之间的每一次交互是轮转。当前轮转是针对其确定机器行动的用户与机器之间的当前交互。之前轮转是用户与机器之间的之前交互。根据实施例，对话状态信息145包括涉及一个或多个之前轮转的信息。例如，将含义关联到自然语言语句的语言理解结果存储在对话状态信息145中。这些之前的语言理解结果可以用于提供用于对话中的当前轮转的上下文。对话状态信息还可以包括作为从诸如数据库或数据源之类的知识源返回的结果的知识结果。例如，如果用户在对话轮转中请求电影，知识结果包括电影列表。使用环境条件确定的机器行动可能与不使用环境条件确定的机器行动不同。例如，当环境条件150指示用户当前正在驾驶时，由机器行动生成器120生成的机器行动可以指示询问驾驶员他们是否确定他们想要在驾驶的同时打电话。在不使用环境条件150来扩充机器行动的情况下，机器行动生成器120将很可能生成机器行动以在用户当前正在驾驶的同时自动发起呼叫而不是询问驾驶员他们是否确定他们想要在驾驶的同时打电话。机器行动生成器120在确定机器行动时使用对话策略130。对话策略130包括不同的规则，包括使用环境条件150和其它对话状态信息来调节所生成的机器行动的规则。

还可以在接收到机器行动之后由响应生成器140使用环境条件150以调节提供给用户的响应。环境条件150可以影响如何将机器行动提供给用户(例如语音、视觉……)。例如，当环境条件150指示用户的环境嘈杂时，由响应生成器140生成的响应可以是视觉响应。当环境条件150指示用户的环境非常明亮并且不太可能可以清楚地看到显示器时，由响应生成器140生成的响应可以是听觉响应。

环境条件150可以包括各种不同的条件，诸如但不限于：天气条件、交通条件、当前活动条件、正在使用的当前计算设备等等。当前活动条件可以包括信息，诸如但不限于：当前速度、当前位置等等。一般地，环境条件涉及与提供输入(用户对话动作)的用户相关联的任何环境条件。根据实施例，环境条件还可以与另一用户154(例如正在被呼叫的联系人)相关联。根据实施例，被收集和使用以调节谈话式对话系统的操作的环境条件由用户指定和授权。

为了促进与对话管理器26的通信，可以实现一个或多个回呼例程。根据实施例，应用程序110是被配置成接收语音输入和来自触敏输入设备115或其它输入设备的输入的多模态应用。例如，话音输入、键盘输入(例如物理键盘和/或SIP)、基于视频的输入等等。应用程序110还可以提供多模态输出(例如语音、图形、振动、声音……)。对话管理器26可以响应于用户输入(例如语音、手势)而向应用110提供信息/从应用110提供信息。例如，用户可以说出短语以标识由应用110执行的任务(例如选择电影、购买物品、标识产品……)。手势可以包括但不限于：夹捏手势；拉伸手势；选择手势(例如所显示的元素上的敲击行动)；选择和保持手势(例如在所显示的元素上所接收的敲击和保持手势)；划扫行动和/或拖拽行动等等。手势还可以包括光学捕获的手势，诸如：挥动手势、卷动手势、引导手势等等。例如，诸如MICROSOFT KINECT之类的设备可以用于检测手势。

如所图示的系统100包括检测何时接收到触摸输入(例如手指触摸或接近触摸触摸屏)的触摸屏输入设备115。可以利用检测用户的触摸输入的任何类型的触摸屏。

自然用户界面(NUI)和/或一些其它的界面可以用于与对话服务105交互。例如，自然语言对话和表达意图的其它非言语模式(例如诸如以上描述的手势之类的手势、触摸、凝视、图像、视频、口语韵律等)的组合可以用于与对话服务105交互。对话管理器26可以使用理解模型(例如语言理解(LU)模型或多模态理解模型)。如所图示的，对话管理器26是接收语音发音的对话服务105的部分并且被配置成与用户进行对话。

一般地，面向目标的对话系统中的自然语言理解(NLU)针对标识如以自然语言(NL)表达的用户的(多个)领域和(多个)意图，并且提取相关联的主张(argument)或时段(slot)。例如，在航空领域，用户通常请求航班信息(例如“我想要下周从纽约飞往波士顿”)。以下提供更多的细节。

图2示出用于配置许可的对话服务和应用之间的交互。

如所图示的，图2示出包括设置210和(多个)日志212的对话服务105以及包括设置用户界面222、审核用户界面226、位置用户界面228和本地设置224的应用110。

用户可以配置不同的准则，诸如许可、筛选和设置，其涉及应用110的操作和与一个或多个用户相关联的环境条件的使用和收集。例如，经授权的用户可以确定可以由对话服务105收集和使用什么环境条件。

用户可以设置指定可以收集什么环境条件的许可。例如，用户可以决定加入以允许由对话服务105收集和使用不同类型的环境条件。

用户还可以配置使用各种准则(例如一天中的时间、请求设备、请求位置等)来筛选信息的一个或多个筛选器。例如，用户可以允许在某些时间期间收集某些环境条件而不允许在其它时间期间收集环境条件。用户可以将筛选器配置成限制一个或多个环境条件的精确性。例如，与用户相关联的位置信息可以被配置成提供相比于详细位置的大体位置。用户还可以设置本地设置224，诸如应用定制设置(例如颜色方案、图标等等)以用于在与应用110交互时使用。例如，设置224可以改变用户界面(诸如UI 228)的外观。

审核用户界面226可以由经授权的用户用于查看涉及存储在日志212中的环境条件的信息并且与其交互。对日志相关数据的访问限于提供了正确安全凭证的经授权的用户。数据安全地存储在(多个)日志212内。

图3图示了使用环境条件的示例性谈话式对话系统。

如所图示的，系统300包括输入管理器310、语言理解组件320、对话引擎330、响应生成器140和环境引擎350。

输入管理器310被配置成接收用户输入(用户对话动作)。用户对话动作可以是不同类型的用户输入。例如，用户对话动作可以是语音输入(例如发音)、触摸输入、手势输入、文本输入以及其它类型的输入。输入管理器310可以包括不同的组件，诸如自动语音识别器(ASR)、手势识别器、手写识别器等等。当用户对话动作是语音时，语音由输入管理器310使用ASR来识别。输入管理器310输出递送至语言理解组件320的文本。

语言理解组件320被配置成接收和分析文本。一般地，语言理解组件320将含义关联到文本的词语。例如，语言理解组件320可以标记文本、执行文本的句法分析等等。语言理解组件320传统上是将自然语言语句转换成语义表示的基于规则的组件。

对话引擎330通过响应于用户对话动作而确定机器行动来管理对话。对话引擎330可以是基于规则的模型或统计模型，或者规则和统计模型的某种组合。对话引擎330使用对话状态计算组件332来计算可能的对话状态。当计算可能的对话状态时，除其它对话状态信息之外，对话状态计算组件332还使用从环境引擎350获取的环境条件。除一般在对话系统内使用的其它对话信息之外，由对话系统使用的环境条件诸如但不限于：之前轮转的语言理解结果、语音识别结果和置信度、知识结果、之前的机器行动、会话上下文、客户端上下文等等。环境条件可以与一个或多个用户相关联。对话管理器26确定一个或多个机器行动。由对话管理器26使用的对话状态信息包括针对对话中的当前轮转的环境条件以及针对对话中的一个或多个过去轮转的环境条件。对话引擎330向响应生成器140提供所确定的机器行动。

除其它对话信息之外，响应生成器140还使用从环境引擎获取的环境条件来确定向用户提供什么类型的响应。例如，响应生成器140可以确定向用户提供口语响应或向用户提供视觉响应。例如，当确定时，文本到语音(“TTS”)组件可以输出作为经合成的语音的响应。根据实施例，在对话管理器26确定机器行动之后并且在响应生成器140接收环境条件之前更新环境条件。

图4图示了用于在谈话式对话系统中使用环境条件的过程。当阅读本文所呈现的例程的讨论时，应当领会的是，各种实施例的逻辑操作被实现为(1)一系列计算机实现的动作或运行在计算系统上的程序模块和/或(2)计算系统内的互连的机器逻辑电路或电路模块。实现是选择的问题，其取决于实现本发明的计算系统的性能要求。因此，所图示的并且构成本文所描述的实施例的逻辑操作不同地称为操作、结构设备、动作或模块。这些操作、结构设备、动作和模块可以以软件、固件、专用数字逻辑及其任何组合来实现。

在开始操作之后，过程400移动到操作410，其中接收用户对话动作。用户对话动作可以是不同类型的用户输入，诸如但不限于：语音输入(例如发音)、触摸输入、手势输入、文本输入以及其它类型的输入。一般地，用户对话动作是与对话系统的谈话的部分。

过渡到操作420，确定环境条件。环境条件与一个或多个用户相关联。例如，环境条件可以是与做出用户对话动作的用户相关联的当前环境条件。环境条件还可以是与作为用户对话动作的部分的另一用户相关联的当前环境条件。例如，用户对话动作可以是联系另一用户的动作。环境条件可以包括各种不同的条件，诸如但不限于：天气条件(例如温度、气压……)、交通条件、当前活动条件、正在使用的当前计算设备等等。一般地，任何环境条件可以由谈话式对话系统确定和使用。当前活动条件可以包括各种不同的环境条件，诸如用户的位置、用户的速度等等。

移动到操作430，使用环境条件、其它对话状态信息和用户对话动作确定机器行动。根据实施例，在计算可能的对话状态时，除其它对话状态信息之外，谈话式对话系统还使用环境条件。例如，其它对话状态信息可以包括但不限于：之前轮转的语言理解结果、语音识别结果和置信度、知识结果、之前的机器行动、会话上下文、客户端上下文等等。对话状态信息包括针对对话中的当前轮转的环境条件以及针对对话中的一个或多个过去轮转的环境条件。

以下示例说明在对话系统中使用环境条件和其它信息来调节机器行动以确定机器行动。示例是出于说明性目的而不意图是限制性的。

以下是当用户正在驾驶时的示例对话。1)用户：“呼叫在家的Paul”；2)对话系统：“您确定您想要在驾驶的同时打电话？”如可以看到的，取代于打电话的机器行动，将机器行动被调节成请求用户是否想要打电话。

下一示例是其中用户试图在联系人可能正在睡觉的时间段内呼叫联系人的对话。1)用户：“呼叫Paul”；2)对话系统：“Paul现在可能正在睡觉。您愿意给Paul发送消息作为替代吗？”在该示例中，与联系人相关联的环境条件改变了机器行动。

下一示例是其中用户试图在用户正处于漫游模式或联系人正处于漫游模式的同时打电话的对话。1)用户：“呼叫Paul”；对话系统：“呼叫Paul将每分钟花费Paul两美金，因为他当前正在漫游。您愿意发消息给Paul作为替代吗？”在该示例中，改变机器行动的环境条件与联系人的当前活动相关联。

下一示例是其中用户试图在联系人可能正在驾驶的同时呼叫联系人的对话。1)用户：“呼叫Paul”；2)对话系统：“Paul可能正在驾驶。您愿意发送消息作为替代吗？”在该示例中，改变机器行动的环境条件与联系人的当前活动相关联。

下一示例是其中用户试图在联系人正处于嘈杂环境中的同时呼叫联系人的对话。1)用户：“呼叫Paul”；2)对话系统：“Paul可能不能够良好地听到您。您愿意发送消息作为替代吗？”在该示例中，改变机器行动的环境条件与联系人的当前噪声条件相关联。

流动到操作440，使用环境条件来确定针对机器行动的响应。可以提供许多不同类型的响应(例如视觉、听觉、触觉……)。可以向用户提供口语响应或者可以向用户提供视觉响应。例如，用户可能处于嘈杂的环境中，并且将响应调节成比正常更响亮。响应类型也可以改变。例如，响应可以从听觉响应改变成视觉响应。

移动到操作450，向用户提供响应。

过程然后流动到结束操作并且返回到处理其它行动。

图5图示了在确定机器行动和如何递送对话中的响应中使用环境条件的示例性在线系统。如所图示的，系统1000包括服务1010、数据储存库1045、环境条件150、触摸屏输入设备1050(例如平板电脑)、智能电话1030和显示设备1080。

如所图示的，服务1010是基于云的和/或基于企业的服务，其可以被配置成提供服务，诸如如本文所描述的对话服务。可以使用不同类型的输入/输出与服务交互。例如，用户可以使用语音输入、触摸输入、基于硬件的输入等等。服务1010提供的服务中的一个或多个服务的功能性还可以被配置为基于客户端/服务器的应用。

如所图示的，服务1010是多租户服务，其向任何数目的租户(例如租户1-N)提供资源1015和服务。多租户服务1010是基于云的服务，其向订阅服务的租户提供资源1015并且单独且防护于其他租户数据地维护每一个租户的数据。

如所图示的系统1000包括触摸屏输入设备1050(例如平板设备)和检测何时接收到触摸输入(例如手指触摸或几乎触摸触摸屏)的智能电话1030。可以利用检测用户的触摸输入的任何类型的触摸屏。例如，触摸屏可以包括检测触摸输入的一个或多个电容材料层。附加于或取代于电容材料，可以使用其它传感器。例如，可以使用红外(IR)传感器。根据实施例，触摸屏被配置成检测与可触摸表面接触或者在可触摸表面上方的对象。尽管在本描述中使用术语“上方”，但是应当理解的是触摸面板系统的取向是无关的。术语“上方”意图适用于所有这样的取向。触摸屏可以被配置成确定接收到触摸输入的位置(例如起始点、中间点和结束点)。可以通过任何合适的手段检测可触摸表面与对象之间的实际接触，包括例如通过耦合到触摸面板的振动传感器或麦克风。检测接触的传感器的示例的非详尽列表包括基于压力的机构、微加工的加速度计、压电器件、电容传感器、电阻传感器、电感传感器、激光振动计和LED振动计。

根据实施例，智能电话1030、触摸屏输入设备1050和显示设备1080配置有多模态输入和输出并且每一个包括与服务1010交互的应用(1031、1051、1081)。

如所图示的，触摸屏输入设备1050、智能电话1030和显示设备1080示出示例性显示1052、1032、1082，其示出应用的使用。数据可以被存储在设备(例如智能电话1030、触摸屏输入设备1050)上和/或在某个其它位置处(例如网络数据储存库1045)。数据储存库1045或某个其它储存库可以用于存储理解模型以及其它数据。由设备使用的应用可以是基于客户端的应用、基于服务器的应用、基于云的应用或某个组合。根据实施例，显示设备1080是诸如耦合到显示器的MICROSOFT XBOX之类的设备。

对话管理器26被配置成执行涉及如本文所描述的过程的操作。对话管理器26被配置成访问环境条件150。虽然将管理器26被示出在服务1010内，但是管理器的功能可以被包括在其它位置中(例如在智能电话1030和/或触摸屏输入设备1050和/或显示设备1080上)。

本文所描述的实施例和功能性可以经由众多计算系统来操作，计算系统包括但不限于台式计算机系统、有线和无线计算系统、移动计算系统(例如移动电话、上网本、平板或板式类型计算机、笔记本计算机和膝上型计算机)、手持设备、多处理器系统、基于微处理器的或可编程的消费电子产品、小型计算机和大型计算机。

此外，本文所描述的实施例和功能性可以在分布式系统(例如基于云的计算系统)上操作，其中应用功能性、存储器、数据存储和检索以及各种处理功能可以在诸如互联网或内联网之类的分布式计算网络上彼此远程地操作。可以经由板载计算设备显示器或经由与一个或多个计算设备相关联的远程显示单元来显示各种类型的用户界面和信息。例如，可以在各种类型的用户界面和信息投影到的墙表面上显示所述各种类型的用户界面和信息并且与其交互。与利用其可以实践本发明的实施例的众多计算系统的交互包括键击录入、触摸屏录入、话音或其它音频录入、手势录入，其中关联的计算设备配备有用于捕获和解释用户手势以用于控制计算设备的功能性的检测(例如相机)功能性，等等。

图6-8以及关联的描述提供其中可以实践本发明的实施例的各种操作环境的讨论。然而，关于图6-8而图示和讨论的设备和系统是用于示例和图示的目的，而非对可以用于实践本文所描述的本发明的实施例的大量计算设备配置的限制。

图6是图示了可以利用其实践本发明的实施例的计算设备1100的物理组件(即硬件)的框图。以下描述的计算设备组件可以适合于以上描述的计算设备。在基本配置中，计算设备1100可以包括至少一个处理单元1102和系统存储器1104。取决于计算设备的配置和类型，系统存储器1104可以包括，但不限于，易失性存储装置(例如，随机存取存储器)、非易失性存储装置(例如，只读存储器)、闪速存储器或这样的存储器的任何组合。系统存储器1104可以包括操作系统1105和适合于运行诸如对话管理器26之类的软件应用1120的一个或多个程序模块1106。操作系统1105例如可以适合于控制计算设备1100的操作。另外，本发明的实施例可以结合图形库、其它操作系统或任何其它应用程序来实践并且不限于任何特定应用或系统。该基本配置在图6中通过虚线1108内的那些组件来图示。计算设备1100可以具有附加特征或功能性。例如，计算设备1100还可以包括附加数据存储设备(可移除和/或不可移除)，诸如例如磁盘、光盘或磁带。这样的附加存储装置在图6中由可移除存储设备1109和不可移除存储设备1110图示。

如以上陈述的，数个程序模块和数据文件可以被存储在系统存储器1104中。当在处理单元1102上执行时，程序模块1106(例如对话管理器26)可以执行包括但不限于在图中图示的方法和过程的阶段中一个或多个阶段的过程。依照本发明的实施例可以使用的其它程序模块可以包括电子邮件和联系人应用、文字处理应用、电子制表应用、数据库应用、幻灯片演示应用、绘图或计算机辅助应用程序等。

另外，本发明的实施例可以在包括分立电子元件的电路、包含逻辑门的封装或集成电子芯片、利用微处理器的电路中、或在包含电子元件或微处理器的单个芯片上实践。例如，可以经由片上系统(SOC)来实践本发明的实施例，其中，可以将图6中图示的组件中的每个或许多个集成到单个集成电路上。这样的SOC设备可以包括一个或多个处理单元、图形单元、通信单元、系统虚拟化单元以及各种应用功能性，所有这些都被集成到(或“烧录到”)芯片基板上作为单个集成电路。当经由SOC操作时，本文所描述的关于对话管理器26的功能性可以经由与计算设备1100的其它组件集成在单个集成电路(芯片)上的专用逻辑来操作。本发明的实施例还可以使用能够执行诸如例如AND(与)、OR(或)和NOT(非)之类的逻辑运算的其它技术来实践，包括但不限于，机械、光学、流体和量子技术。此外，本发明的实施例可以在通用计算机内或任何其它电路或系统中实践。

计算设备1100还可以具有一个或多个输入设备1112，诸如键盘、鼠标、笔、声音输入设备、触摸输入设备等。还可以包括诸如显示器、扬声器、打印机等之类的(多个)输出设备1114。前述设备是示例并且可以使用其它设备。计算设备1100可以包括允许与其它计算设备1118通信的一个或多个通信连接1116。合适的通信连接1116的示例包括但不限于RF发射器、接收器和/或收发器电路；通用串行总线(USB)、并行和/或串行端口。

如本文所使用的术语计算机可读介质可以包括计算机存储介质。计算机存储介质可以包括以用于存储诸如计算机可读指令、数据结构或程序模块之类的信息的任何方法或技术实现的易失性和非易失性、可移除和不可移除介质。系统存储器1104、可移除存储设备1109和不可移除存储设备1110都是计算机存储介质示例(即，存储器存储装置)。计算机存储介质可以包括RAM、ROM、电可擦除只读存储器(EEPROM)、闪速存储器或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光学存储装置、磁盒、磁带、磁盘存储装置或其它磁性存储设备、或者可以用于存储信息并且可以由计算设备1100访问的任何其它的制造品。任何这样的计算机存储介质可以是计算设备1100的部分。计算机存储介质不包括载波或其它传播或调制的数据信号。

通信介质可以由计算机可读指令、数据结构、程序模块或诸如载波或其它输运机制之类的调制的数据信号中的其它数据来体现，并且包括任何信息递送介质。术语“调制的数据信号”可以描述其一个或多个特性以这样的方式被设置或改变的信号：即，将信息编码在信号中。作为示例而非限制，通信介质可以包括诸如有线网络或有线直连之类的有线介质，以及诸如声学、射频(RF)、红外和其它无线介质之类的无线介质。

图7A和7B图示了可以利用其实践本发明的实施例的移动计算设备1200,，例如移动电话、智能电话、平板个人计算机、膝上型计算机等等。参照图7A，图示了用于实现实施例的移动计算设备1200的一个实施例。在基本配置中，移动计算设备1200是具有输入元件和输出元件二者的手持式计算机。移动计算设备1200典型地包括显示器1205和一个或多个输入按钮1210，其允许用户将信息录入到移动计算设备1200中。移动计算设备1200的显示器1205还可以充当输入设备(例如触摸屏显示器)。如果包括的话，可选的侧输入元件1215允许另外的用户输入。侧输入元件1215可以是旋转开关、按钮、或任何其它类型的手动输入元件。在可替换的实施例中，移动计算设备1200可以合并更多或更少的输入元件。例如，在一些实施例中，显示器1205可以不是触摸屏。在又一可替换的实施例中，移动计算设备1200是便携式电话系统，诸如蜂窝电话。移动计算设备1200还可以包括可选的小键盘1235。可选的小键盘1235可以是物理小键盘或者在触摸屏显示器上生成的“软”小键盘。在各种实施例中，输出元件包括用于示出图形用户界面(GUI)的显示器1205、视觉指示器1220(例如发光二极管)和/或音频换能器1225(例如扬声器)。在一些实施例中，移动计算设备1200合并振动换能器以用于为用户提供触觉反馈。在又一实施例中，移动计算设备1200合并输入和/或输出端口，诸如音频输入(例如麦克风插口)、音频输出(例如耳机插口)和视频输出(例如HDMI端口)以用于向外部设备发送信号或从外部设备接收信号。

图7B是图示了移动计算设备的一个实施例的架构的框图。也就是说，移动计算设备1200可以合并系统1202(即架构)以实现一些实施例。在一个实施例中，系统1202实被现为能够运行一个或多个应用(例如浏览器、电子邮件、日程表、联系人管理器、消息传递客户端、游戏和媒体客户端、播放器)的“智能电话”。在一些实施例中，系统1202被集成作为计算设备，诸如集成的个人数字助理(PDA)和无线电话。

一个或多个应用程序1266可以被加载到存储器1262中并且在操作系统1264上或与操作系统1264相关联地运行。应用程序的示例包括电话拨号器程序、电子邮件程序、个人信息管理(PIM)程序、文字处理程序、电子制表程序、互联网浏览器程序、消息传递程序等等。系统1202还包括存储器1262内的非易失性存储区域1268。非易失性存储区域1268可以用于存储在系统1202断电情况下不应当丢失的持久信息。应用程序1266可以使用和存储在非易失性存储区域1268中的信息，诸如由电子邮件应用使用的电子邮件或其它消息等等。同步应用(未示出)也驻留在系统1202上并且被编程为与驻留在主机计算机上的对应同步应用交互以保持存储在非易失性存储区域1268中的信息与存储在主机计算机处的对应信息同步。如应当领会到的，其它应用也可以被加载到存储器1262中并且在移动计算设备1200上运行，包括如本文所描述的对话管理器26。

系统1202具有可以实现为一个或多个电池的电源1270。电源1270还可能包括外部电力源，诸如补充电池或对电池再充电的AC适配器或加电坞接托架。

系统1202还可以包括执行发射和接收射频通信的功能的无线电1272。无线电1272促进经由通信载波或服务供应商在系统1202与“外部世界”之间的无线连接性。去往和来自无线电1272的传输在操作系统1264的控制下进行。换言之，由无线电1272接收的通信可以经由操作系统1264传播到应用程序1266并且反之亦然。

视觉指示器1220可以用于提供视觉通知和/或音频接口1274可以用于经由音频换能器1225产生可听通知。在所图示的实施例中，视觉指示器1220是发光二级管(LED)并且音频换能器1225是扬声器。这些设备可以直接耦合到电源1270，使得当被激活时，它们在由通知机制规定的持续时间内保持接通，即使处理器1260和其它组件可能为了存留电池电力而关断。LED可以编程为无限地保持接通直到用户采取行动以指示设备的通电状态。音频接口1274用于向用户提供可听信号并且从用户接收可听信号。例如，除了耦合到音频换能器1225之外，音频接口1274还可以耦合到麦克风以接收可听输入，诸如以促进电话谈话。依照本发明的实施例，麦克风还可以充当音频传感器以促进通知的控制，如以下将描述的那样。系统1202还可以包括视频接口1276，其使得能够实现板载相机的操作以记录静止图像、视频流等。

实现系统1202的移动计算设备1200可以具有附加特征或功能性。例如，移动计算设备1200还可以包括附加数据存储设备(可移除的/或不可移除的)，诸如磁盘、光盘或磁带。这样的附加存储装置在图7B中由非易失性存储区域1268图示。移动计算设备1200还可以包括外围设备端口1230。

由移动计算设备1200生成或捕获并且经由系统1202存储的数据/信息可以如以上所描述被本地存储在移动计算设备1200上，或者数据可以被存储在可以由设备经由无线电1272或经由移动计算设备1200和与移动计算设备1200相关联的分离的计算设备之间的有线连接访问的任何数目的存储介质上，该分离的计算设备例如是诸如互联网之类的分布式计算网络中的服务器计算机。如应当领会到的，这样的数据/信息可以经由移动计算设备1220经由无线电1272或经由分布式计算网络来被访问。类似地，这样的数据/信息可以根据公知的数据信息传送和存储手段来容易地在计算设备之间传送以供存储和使用，该手段包括电子邮件和协作数据/信息共享系统。

图8图示了如以上所描述的示例性系统的架构的实施例。与对话管理器26相关联地开发、交互或编辑的内容可以被存储在不同的通信信道或其它存储类型中。例如，可以使用目录服务1322、web门户1324、邮箱服务1326、即时消息传递储存库1328或社交联网站点1330来存储各种文档。对话管理器26可以使用这些类型的系统等中的任何一种系统来使得能够实现数据利用，如本文所描述的那样。服务器1320可以向客户端提供对话管理器26。作为一个示例，服务器1320可以是在web上提供对话管理器26的web服务器。服务器1320可以通过网络1315在web上向客户端提供对话管理器26。作为示例，客户端计算设备可以被实现为计算设备1100并且体现在个人计算机、平板计算设备1310和/或移动计算设备1200(例如智能电话)中。客户端计算设备1100、1310和1200的这些实施例中的任一个可以从储存库1316获得内容。

以上例如参照根据本发明的实施例的方法、系统和计算机程序产品的框图和/或操作说明描述了本发明的实施例。框中所指出的功能/动作可以脱离于如任何流程图所示的次序而发生。例如，取决于所涉及的功能性/动作，接连示出的两个框事实上可以基本上同时执行，或者框有时可以以相反的次序来执行。

本申请中所提供的一个或多个实施例的描述和说明不意图以任何方式限制或约束如所要求保护的发明的范围。在本申请中提供的实施例、示例和细节被视为足以传达所有权并且使得其他人能够做出和使用所要求保护的发明的最佳模式。所要求保护的发明不应当解释为限于本申请中所提供的任何实施例、示例或细节。不论是组合还是分离地示出和描述，各种特征(结构和方法学二者)都意图被选择性地包括或省略以产生具有特定特征集的实施例。在提供有本申请的描述和说明的情况下，本领域技术人员可以设想到落在本申请中所体现的一般发明概念的较宽方面的精神内的、不脱离于所要求保护的发明的较宽范围的变型、修改和可替换的实施例。

Claims

1.一种用于在谈话式对话系统中使用联系人的环境条件的系统，包括：

至少一个处理器；以及

存储指令的存储器，所述指令在被所述至少一个处理器执行时执行包括以下各项的一组操作：

接收请求计算机系统执行涉及联系人的任务的用户对话动作；

访问与所述联系人相关联的环境条件，其中，所述环境条件包括以下至少一项：噪声水平、时区、或温度；

基于所述环境条件和所述用户对话动作，确定显示向所述用户发送基于文本的消息的建议的机器行动；以及

执行所述机器行动以向所述用户显示所述建议。

2.根据权利要求1所述的系统，其中，所述任务是呼叫所述联系人。

3.根据权利要求1所述的系统，其中，所述机器行动是显示除所述任务之外的经建议行动。

4.根据权利要求3所述的系统，其中，所述经建议行动是向所述联系人进行消息传递。

5.根据权利要求1所述的系统，其中，确定所述机器行动还基于对话状态信息，其中，所述对话状态信息包括以下至少一项：之前轮转的语言理解结果、语音识别结果和置信度、知识结果、之前的机器行动、会话上下文、或客户端上下文。

6.根据权利要求1所述的系统，其中，所述环境条件指示所述联系人处于以下条件中的至少一个条件中：漫游服务区域中或噪声环境中。

7.一种由至少一个处理器执行的用于在谈话式对话系统中使用联系人的环境条件的计算机实现的方法，包括：

接收请求计算机系统执行涉及所述联系人的任务的用户对话动作；

访问与所述联系人相关联的环境条件；

从所述环境条件确定所述联系人在以下条件中的至少一个条件中：漫游服务区域或时间为夜晚的时区；

基于从所述环境条件的确定来确定机器行动；以及

执行所述机器行动以向所述用户提供响应。

8.根据权利要求7所述的方法，其中，所述任务是呼叫所述联系人。

9.根据权利要求7所述的方法，其中，所述机器行动是显示除所述任务之外的经建议行动。

10.根据权利要求9所述的方法，其中，所述经建议行动是向所述联系人进行消息传递。

11.根据权利要求7所述的方法，其中，与所述联系人相关联的所述环境条件包括以下至少一项：位置；噪声水平；速度；温度；当前活动；或当前计算设备。

12.根据权利要求7所述的方法，其中，确定所述机器行动还基于对话状态信息，其中，所述对话状态信息包括以下至少一项：之前轮转的语言理解结果、语音识别结果和置信度、知识结果、之前的机器行动、会话上下文、或客户端上下文。

13.根据权利要求7所述的方法，其中，所述环境条件还指示所述联系人处于噪声环境中。

14.一种存储计算机可执行指令以用于在谈话式对话系统中使用联系人的环境条件的存储设备，所述指令包括：

从用户接收请求计算机系统呼叫所述联系人的用户对话动作；

访问与所述联系人相关联的环境条件；

基于所述环境条件和所述用户对话动作，确定除呼叫所述联系人之外的经建议行动；

向所述用户提供所述经建议行动，其中，所述经建议行动是向所述联系人发送基于文本的消息；

从所述用户接收另外输入；以及

基于所述另外输入，向所述联系人发送基于文本的消息。

15.根据权利要求14所述的存储设备，其中，与所述联系人相关联的所述环境条件至少包括噪声水平。

16.根据权利要求14所述的存储设备，其中，与所述联系人相关联的所述环境条件包括以下至少一项：位置；噪声水平；速度；温度；当前活动；或当前计算设备。

17.根据权利要求14所述的存储设备，其中，所述环境条件指示所述联系人处于以下条件中的至少一个条件中：漫游服务区域中、正在驾驶、或噪声环境中。

18.根据权利要求14所述的存储设备，其中，确定所述经建议行动还基于对话状态信息，其中，所述对话状态信息包括以下至少一项：之前轮转的语言理解结果、语音识别结果和置信度、知识结果、之前的机器行动、会话上下文、或客户端上下文。

19.根据权利要求14所述的存储设备，其中，所述指令还包括：

访问与所述用户相关联的环境条件；以及

基于与所述用户相关联的所述环境条件，确定用于向所述用户提供所述经建议行动的输出类型，其中，所述输出类型是听觉或视觉中的至少一个。