CN105917404B

CN105917404B - 用于实现数字个人助理的方法、设备和系统

Info

Publication number: CN105917404B
Application number: CN201580004844.6A
Authority: CN
Inventors: M·莱迪; R·J·霍华德三世; D·B·哈里森; S·马雷科扎德
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2014-01-15
Filing date: 2015-01-09
Publication date: 2019-11-05
Anticipated expiration: 2035-01-09
Also published as: WO2015108758A1; AU2015206736A1; SG11201605642VA; KR102295935B1; MX360118B; CL2016001788A1; CN105917404A; CA2935469A1; PH12016501223A1; BR112016015519A8; IL246237A0; MY180332A; US9514748B2; KR20160108348A; AU2015206736B2; BR112016015519B1; JP2017515134A; BR112016015519A2; CA2935469C; MX2016009130A

Abstract

描述了用于实现数字个人助理的系统、方法、装置和计算机程序产品。数字个人助理能够确定用户询问了旨在与数字个人助理的人物进行交互的问题或作出这样的陈述。响应于确定用户询问了这样的问题或作出了这样的陈述，数字个人助理通过在数字个人助理的用户界面内或通过该用户界面显示或回放与流行文化参考相关联的多媒体对象来提供针对这样的问题或这样的陈述的响应。附加地或替换地，响应于确定用户询问了这样的问题或作出了这样的陈述，数字个人助理通过生成或回放包括与流行文化参考相关联的人员的声音的模仿的语音来提供对这样的问题或这样的陈述的响应。

Description

用于实现数字个人助理的方法、设备和系统

背景

拟人化的计算机交互在人工智能领域是非常普遍的实践。数字个人助理的制造者可向他们的助理灌输人格，使得保持与用户非常高的交互水平并还建立用户与助理之间的信任元素，从而促进对数字个人助理的持续使用以及与数字个人助理的交互。

一种用于将交互水平保持为高的技术需要使得由数字个人助理提供的响应有趣且有娱乐性。数字个人助理的一些传统实现被编程来在用户用随意的语调询问问题时生成有趣的文本响应。然而，传统的数字个人助理在呈现打趣的响应时通常没有充分利用数字画布的全部灵活性。它们也没有在提供响应时充分利用现今文本到语音合成技术的力量来听上去有趣或不同。此外，不存在数字助理的可被用于表达打趣响应的任一方面的视觉表示。

概述

本文中描述了用于实现数字个人助理的系统、方法、装置和计算机程序产品。数字个人助理能够确定用户询问了旨在与数字个人助理的人物进行交互的问题或作出了这样的陈述，而非例如请求数字个人助理来代表用户获得信息或执行某个其他任务。响应于确定用户询问了这样的问题或作出了这样的陈述，数字个人助理通过在数字个人助理的用户界面内或通过该用户界面显示或回放与流行文化参考相关联的多媒体对象来提供针对这样的问题或这样的陈述的响应。附加地或替换地，响应于确定用户询问了这样的问题或作出了这样的陈述，数字个人助理可通过生成或回放包括与流行文化参考相关联的人员的声音的模仿的语音来提供对这样的问题或这样的陈述的响应。进一步，数字个人助理可通过以下来提供响应：在数字个人助理的用户界面内显示包括与流行文化参考相关联的引用的文本、在数字个人助理的用户界面内显示唤起流行文化参考的数字个人助理的视觉表示和/或在数字个人助理的用户界面内显示可被用户激活来访问与流行文化参考相关联的内容的链接。

具体地，本文中描述了用于实现数字个人助理的方法。根据该方法，接收到数字个人助理的用户的发言的数字表示。至少基于对发言的数字表示的分析，确定该发言包括旨在与数字个人助理的人物进行交互的发言。响应于至少确定该发言包括旨在与数字个人助理的人物进行交互的发言，数字个人助理被致使生成针对该发言的响应。针对该发言的响应包括被显示在数字个人助理的用户界面内或被其回放并与流行文化参考相关联的多媒体对象(例如，图像、视频内容或音频内容)。替换地或附加地，针对该发言的响应包括由数字个人助理生成或回放的并包括与流行文化参考相关联的人员的声音的模仿的语音。

在上述方法的一个实施例中，针对该发言的响应还包括被显示在数字个人助理的用户界面内的文本，该文本包括与流行文化参考相关联的引用。

在另一实施例中，语音包括与流行文化参考相关联的引用。

在还一实施例中，针对该发言的响应还包括被显示在数字个人助理的用户界面内的并唤起流行文化参考的数字个人助理的视觉表示。进一步根据这样的实施例，数字个人助理的视觉表示可包括数字个人助理的动画。

在又一实施例中，针对该发言的响应还包括被显示在数字个人助理的用户界面内的并可被用户激活来访问与流行文化参考相关联的内容的链接。

取决于上述方法的实现，致使针对该发言的响应被生成可包括标识针对该发言的多个适格响应并接着从该多个针对发言的适格响应中选择针对该发言的响应。

根据另一实现，致使针对该发言的响应被生成包括将该发言匹配到发言类型分层树内的一特定发言类型(发言类型分层树中的每一个发言类型具有与其相关联的一个或多个响应)并从与该特定发言类型相关联的响应中选择针对该发言的响应。

根据又一实现，致使针对该发言的响应被生成包括确定该发言与一趋势话题相关联并且响应于确定该发言与该趋势话题相关联，从与该趋势话题相关联的一个或多个响应中选择针对该发言的响应。

根据还一实现，致使针对该发言的响应被生成包括确定该发言是针对其存在旨在表达数字个人助理的人物的一个或多个预定义的响应的发言，并且响应于确定该发言是针对其存在旨在表达数字个人助理的人物的一个或多个预定义的响应的发言，从该一个或多个预定义的响应中选择针对该发言的响应。

在上述方法的另一实施例中，致使针对该发言的响应被生成包括向执行数字个人助理的计算设备发送音频文件，该音频文件包括语音或标识该音频文件的信息。

在还一实施例中，致使针对该发言的响应被生成包括向执行数字个人助理的计算设备提供文本，该文本要由数字个人助理的文本到语音组件处理来生成语音。

本文中还描述了一计算设备。该计算设备包括至少一个处理器和存储器。存储器存储供至少一个处理器执行的计算机程序逻辑。计算机程序逻辑包括被配置成当由所述至少一个处理器执行时执行各操作的一个或多个组件。该一个或多个组件包括数字个人助理。数字个人助理被配置成捕捉表示用户的发言的音频并将该音频传送到数字个人助理后端。该发言包括旨在与数字个人助理的人物进行交互的发言。数字个人助理还被配置成至少基于接收自数字个人助理后端的信息来提供针对该发言的响应。提供响应包括生成或回放包括与流行文化参考相关联的人员的声音的模仿的语音。

在该计算设备的一个实施例中，数字个人助理被配置成回放包括该语音的音频文件。在该计算设备的另一实施例中，数字个人助理被配置成将文本到语音转换应用到文本以生成语音。

在该计算设备的另一实施例中，提供响应还包括以下中的至少一个：由数字个人助理的用户界面显示或回放多媒体对象，该多媒体对象与流行文化参考相关联；在数字个人助理的用户界面内显示文本，该文本包括与流行文化参考相关联的引用；在数字个人助理的用户界面内显示唤起流行文化参考的数字个人助理的视觉表示；以及在数字个人助理的用户界面内显示可被用户激活来访问与流行文化参考相关联的内容的链接。

本文中描述了另一计算设备。该计算设备包括至少一个处理器和存储器。存储器存储供至少一个处理器执行的计算机程序逻辑。计算机程序逻辑包括被配置成当由所述至少一个处理器执行时执行各操作的一个或多个组件。该一个或多个组件包括数字个人助理。数字个人助理被配置成捕捉表示用户的发言的音频并将该音频传送到数字个人助理后端。该发言包括旨在与数字个人助理的人物进行交互的发言。数字个人助理还被配置成至少基于接收自数字个人助理后端的信息来提供针对该发言的响应。提供响应包括由数字个人助理的用户界面显示或回放与流行文化参考相关联的多媒体对象。

在该计算设备的一个实施例中，该多媒体对象包括图像、视频内容或音频内容。

在该计算设备的另一实施例中，提供响应还包括以下中的至少一个：生成或回放包括与流行文化参考相关联的人员的声音的模仿的语音；在数字个人助理的用户界面内显示文本，该文本包括与流行文化参考相关联的引用；在数字个人助理的用户界面内显示唤起流行文化参考的数字个人助理的视觉表示；以及在数字个人助理的用户界面内显示可被用户激活来访问与流行文化参考相关联的内容的链接。

提供本概述以便以简化的形式介绍以下在详细描述中进一步描述的一些概念。本发明内容并不旨在标识所要求保护主题的关键特征或必要特征，也不旨在用于限制所要求保护主题的范围。此外，注意到所要求保护的主题不限于在详细描述和/或本文的其它章节中所述的特定实施例。本文呈现这些实施例仅用于说明性的用途。基于本文所包含的描述，其它实施例对于相关领域的技术人员将是显而易见的。

附图简述

合并在此并作为说明书一部分的附图与说明书一起示出了本发明的实施例，且进一步用于解释本发明的原理的作用，并且使相关领域的技术人员能够实现并使用本发明。

图1是根据一示例实施例的示例系统的框图，该示例系统实现在对闲聊类型发言进行响应时利用模仿和多媒体的数字个人助理。

图2是示出了图1的系统的各组件如何一起工作来使得数字个人助理能够确定用户作出了闲聊类型发言并对其提供响应的框图。

图3描绘了可被用于根据一实施例来选择针对闲聊类型发言的响应的示例发言类型分层树。

图4是示出根据一实施例的可由数字个人助理响应于闲聊类型发言提供的示例响应的框图。

图5-10提供根据各实施例的可经由数字个人助理的用户界面递送的针对闲聊类型发言的响应的说明性示例。

图11描绘了根据一示例实施例的用于实现在对闲聊类型发言进行响应时利用模仿和/或多媒体的数字个人助理的方法的流程图。

图12描绘了根据一实施例的由数字个人助理用于向闲聊类型发言提供包括声音模仿的响应的方法的流程图。

图13描绘了根据一实施例的由数字个人助理用于向闲聊类型发言提供包括多媒体对象的响应的方法的流程图。

图14是可被用来实现各个实施例的示例移动设备的框图。

图15是可用于实现各实施例的示例基于处理器的计算机系统的框图。

当结合其中相同的附图标记标识对应的元素的附图时，本发明的特征和优点将从以下阐述的详细描述中变得更加显而易见。在附图中，相同的参考标号一般指相同的、功能上相似的和/或结构上相似的元素。其中元素第一次出现的附图由对应的参考标号中最左侧的数字指示。

详细描述

I.引言

以下详细描述参考示出本发明的示例性实施例的附图。但是，本发明的范围不限于这些实施例，而是由所附权利要求书定义。因此，诸如所示实施例的修改版本之类的在附图所示之外的实施例仍然由本发明所包含。

本说明书中对“一个实施例”、“实施例”、“示例实施例”等的引用指的是所述实施例可包括特定的特征、结构或特点，但是每一实施例不一定包括该特定的特征、结构或特点。此外，这些短语不一定指相同的实施例。此外，当结合实施例描述具体特征、结构或特性时，应当理解在相关领域的技术人员的知识范围内能够结合其他实施例来实现具体特征、结构或特性，无论是否被显式地描述。

通过使得数字个人助理能够以上述方式对旨在与其人物进行交互的用户发言(本文中也称为“闲聊类型发言”)进行响应，本文中描述的各实施例可有利地提升用户和数字个人助理之间的交互水平并还建立用户和助理之间的信任元素，从而促进对数字个人助理持续的使用以及与数字个人助理的交互。例如，通过提供包括与很可能被用户识别和/或欣赏的流行文化参考相关联的多媒体对象、声音模仿、引用和链接的响应，数字个人助理既可娱乐用户也可建立与用户的共性感。

章节II描述了根据各实施例的实现在对闲聊类型发言进行响应时利用模仿和/或多媒体的数字个人助理的示例系统。章节III描述了根据各实施例的用于实现在对闲聊类型发言进行响应时利用模仿和/或多媒体的数字个人助理的示例性方法。章节IV描述了可被用于实现根据本文中描述的各实施例的数字个人助理的示例移动设备。章节V描述了可被用于实现根据本文中描述的各实施例的数字个人助理的示例台式计算机。章节VI提供一些总结性评述。

II.实现在响应中利用模仿和/或多媒体的数字个人助理的示例系统

图1是根据一示例实施例的示例系统100的框图，该示例系统100实现在对闲聊类型发言进行响应时利用模仿和多媒体的数字个人助理。如图1中显示的，系统100包括经由一个或多个网络104在通信上连接到数字个人助理后端106的终端用户计算设备102。现在将描述这些组件中的每一个。

终端用户计算设备102旨在表示能够执行被安装在其上的基于软件的数字个人助理130的基于处理器的电子设备。数字个人助理130可代表终端用户计算设备102的用户来被执行。在一个实施例中，终端用户计算设备102包括移动计算设备(诸如移动电话(例如，智能电话)、膝上型计算机、平板计算机、上网本)、可穿戴计算机(诸如智能手表或头戴式计算机)、便携式媒体播放器、手持式游戏控制台、个人导航助理、相机或能够代表用户来执行数字个人助理的任何其他移动设备。可以整合终端用户计算设备102的功能的移动设备的一个示例将在下面参考图14讨论。在另一实施例中，终端用户计算设备102包括台式计算机、游戏控制台或能够代表用户来执行数字个人助理的其他非移动计算平台。可以整合终端用户计算设备102的功能的示例台式计算机将在下面参考图15讨论。

终端用户计算设备102能够经由网络104与数字个人助理后端106通信。个人助理后端106包括一个或多个计算机(例如，服务器)，这一个或多个计算机被编程为提供服务以支持数字个人助理130以及在其他终端用户计算设备上执行的其他数字个人助理的操作。例如，如本文中将讨论的，个人助理后端106包括一个或多个被配置成向数字个人助理130提供关于语音识别和查询理解和响应的服务的计算机。具体而言，如图1中显示的，这些服务分别由语音识别服务132以及查询理解和响应系统136来提供。注意的是，数字个人助理后端106可代表数字个人助理130来执行任意数量的其他服务，但是这样的附加服务可没有在本文中被显式地描述。

在一个实施例中，数字个人助理后端106包括基于云的后端，其中大量被适当配置的机器中的任何一个可被任意地选择来呈现一个或多个想要的服务以支持数字个人助理130。如本领域的技术人员将理解的，这样的基于云的实现提供可靠且可缩放的框架以用于向数字个人助理(诸如数字个人助理130)提供后端服务。

网络104旨在表示适合于促进终端用户计算设备(诸如终端用户计算设备102和数字个人助理后端106)之间的通信的任何类型的网络或网络的组合。网络104可包括例如但不限于广域网、局域网、专用网络、公共网络、分组网络、电路交换网络、有线网络和/或无线网络。

如在图1中进一步显示的，终端用户计算设备102包括多个互连的组件，包括处理单元110、非易失性存储器120、易失性存储器112、一个或多个用户输入设备116、显示器118和一个或多个网络接口114。现在将描述这些组件中的每一个。

处理单元110旨在表示一个或多个微处理器，它们中的每一个可具有一个或多个中央处理单元(CPU)或微处理器核。处理单元110以公知的方式操作来执行计算机程序(本文也称为计算机程序逻辑)。这样的计算机程序的执行使得处理单元110执行包括将在此所述的操作在内的操作。非易失性存储器120、易失性存储器112、用户输入设备116、显示器118和网络接口114中的每一个经由合适的接口被连接到处理单元110。

非易失性存储器120包括一个或多个计算机可读存储器设备，该一个或多个计算机可读存储器设备用于以持久的方式来存储计算机程序和数据，使得所存储的信息即使在终端用户计算设备102没有电力或处于关机状态时依然不丢失。可使用各种非易失性计算机可读存储器设备中的任何设备来实现非易失性存储器120，包括但不限于只读存储器(ROM)设备、固态驱动器、硬盘驱动器、磁存储介质(例如磁盘和相关联的驱动器)、光存储介质(例如光盘和相关联的驱动器)、以及闪存存储器设备(例如USB闪存驱动器)。

易失性存储器112包括一个或多个计算机可读存储器设备，该一个或多个计算机可读存储器设备用于以非持久的方式来存储计算机程序和数据，使得所存储的信息在终端用户计算设备102没有电力或处于关机状态时丢失。可使用各种易失性计算机可读存储器设备中的任何设备来实现易失性存储器112，包括但不限于，随机存取存储器(RAM)设备。

显示器118包括可以向其呈现诸如文本和图像之类的内容以使得它将对终端用户计算设备102的用户可见的设备。显示这样的内容所需要的呈现操作中的一些或全部可至少部分地由处理单元110执行。呈现操作中的一些或全部也可以由耦合在处理单元110和显示器118之间的诸如视频或图形芯片或卡(在图1中未示出)之类的显示器设备接口来执行。取决于终端用户计算设备102的实现，显示器118可包括集成在与处理单元110相同的物理结构或外壳内的设备或可包括监视器、投影仪或与包括处理单元110的结构或外壳物理上分开并经由合适的有线和/或无线连接与该结构或外壳连接的其他类型的设备。

用户输入设备116包括操作以响应于用户操纵或对其的控制生成用户输入信息的一个或多个设备。这样的用户输入信息通过到处理单元110的合适接口被传送以供对其进行处理。取决于实现，用户输入设备116可包括触摸屏(例如，与显示器118集成的触摸屏)、键盘、键区、鼠标、触摸垫、轨迹球、操作杆、定点杆、有线手套、运动跟踪传感器、游戏控制器或游戏垫、或者诸如相机之类的视频捕捉设备。然而，这些例子并不旨在进行限制，而用户输入设备116可以包括除以上所列举的以外的其它类型的设备。取决于实现，每个用户输入设备116可被集成在与处理单元110相同的物理结构或外壳内(诸如移动设备上的集成的触摸屏、触摸垫或键盘)，或与包括处理单元110的物理结构或外壳物理上分开并经由合适的有线和/或无线连接与该物理结构或外壳连接。

网络接口114包括使得终端用户计算设备102能够经由一个或多个网络104进行通信的一个或多个接口。例如，网络接口114可包括有线网络接口(诸如以太网接口)或无线网络接口(诸如IEEE 802.11(“Wi-Fi”)接口或3G电信接口)。然而，这些仅作为示例而并非旨在限制。

如在图1中进一步显示的，非易失性存储器120存储数个软件组件，包括多个应用122和一个操作系统124。

该多个应用122中的每个应用包括计算机程序，终端用户计算设备102的用户可致使该计算机程序被处理单元110执行。每个应用的执行导致某些操作代表用户来执行，其中所执行的操作的类型将取决于应用如何被编程来变化。应用122可包括，例如但不限于，电话通讯应用、电子邮件应用、消息收发应用、Web浏览应用、日历应用、工具应用、游戏应用、社交联网应用、音乐应用、生产力应用、生活方式应用、参考应用、旅行应用、体育应用、导航应用、保健和健身应用、新闻应用、照片应用、财务应用、商业应用、教育应用、天气应用、书籍应用、医疗应用等。如图1中显示的，应用122包括数字个人助理130，其功能将在本文中被更加详细地描述。

取决于实现，应用122可用各种方式被分发到终端用户计算设备102和/或安装在终端用户计算设备102上。例如，在一个实施例中，至少一个应用从应用商店下载并被安装在终端用户计算设备102上。在其中终端用户设备102作为企业网络的一部分或与企业网络结合地使用的另一实施例中，至少一个应用被系统管理员使用各种企业网络管理工具中的任意工具分发到终端用户计算设备102并被安装在其上。在还一实施例中，至少一个应用由系统构建者(诸如由原始设备制造商(OEM)或嵌入式设备制造商)使用各种适当的系统构建者工具被安装在终端用户计算设备102上。在又一实施例中，操作系统制造商可包括应用以及被安装在终端用户计算设备102上的操作系统124。

操作系统124包括程序集，该程序集管理资源并提供用于在终端用户计算设备102上被执行的应用(诸如应用122)的共用服务。除了其他特征之外，操作系统124包括操作系统(OS)用户界面132。OS用户界面132包括操作系统124中生成用户界面的组件，通过该用户界面，用户可出于各种目的与操作系统124交互，各种目的诸如但不限于，寻找和启动应用、调用某个操作系统功能以及设定某些操作系统设置。在一个实施例中，OS用户界面132包括基于触摸屏的图形用户界面(GUI)，但这仅仅是一个示例。进一步根据这样的示例，被安装在终端用户计算设备102上的每个应用122可被表示为GUI内的图标或小块并可由用户通过与适当的图标或小块的触摸屏交互来调用。然而，各种各样的替换用户界面模型中的任意模型可被OS用户界面132使用。

虽然应用122和操作系统124被显示为被存储在非易失性存储器120中，但是可以理解，在终端用户计算设备102的操作期间，应用122、操作系统124或它们的各部分可被加载到易失性存储器122并从中作为进程由处理单元110来执行。

数字个人助理130包括计算机程序，该计算机程序被配置成基于用户输入以及各特征来为终端用户计算设备102的用户执行任务或服务，各特征诸如位置感知以及访问来自包括在线源在内的各种各样的源的信息(诸如天气或交通情况、新闻、股价、用户日程、零售价格等)的能力。可被数字个人助理130代表用户执行的任务的示例包括但不限于，拨打电话给用户指定的人、启动用户指定的应用、向用户指定的接收者发送用户指定的电子邮件或文本消息、播放用户指定的音乐、在用户日历上安排会议或其他事件、获得到用户指定的位置的路线、获得与用户指定的体育事件相关联的比分、将用户指定的内容张贴到社交媒体网站或微博服务、记录用户指定的提醒或笔记、获得天气报告、获得当前时间、将闹钟设置在用户指定的时间、获得用户指定的公司的股价、寻找附近的商业设施、执行因特网搜索等。数字个人助理130可使用各种人工智能技术中的任意一种来通过与用户持续的交互随着时间来改进其性能。数字个人助理130还可被称为智能个人助理、智能软件助理、虚拟个人助理等。

数字个人助理130被配置成提供用户界面，通过该用户界面，用户可提交问题、命令或其他口头输入，并且通过该用户界面，对这样的输入的响应可被传递给用户。在一个实施例中，该输入可包括被终端用户计算设备102的一个或多个话筒捕捉的用户语音(终端用户计算设备102中的每一个可包括用户输入设备116中的一个)，但是这个示例并不旨在作为限制并且用户输入也可以其他方式来被提供。由数字个人助理130生成的响应可被使得以文本、图像或被显示在数字个人助理130的图形用户界面内的显示器118上的其他视觉内容的形式对用户可见。响应还可包括计算机生成的语音或经由终端用户计算设备102的一个或多个扬声器(图1中未显示)回放的其他音频内容。

根据各实施例，数字个人助理130能够确定用户询问了旨在与数字个人助理130的人物进行交互的问题或作出了这样的陈述，而非例如请求数字个人助理来代表用户获得信息或执行某个其他任务。这样的问题或陈述通常在本质上是随意的或打趣的并可包括，例如，“你愿意嫁给我吗？”、“你最喜欢的颜色是什么？”、“给我唱首歌”、“给我说个笑话”、“敲敲门”、“如果一只土拨鼠能丢木头，那么多少木头可以让土拨鼠丢？”、“谁制造了最好的手机？”、“我可以把尸体藏在哪里？”、“你长相如何？”、“你很漂亮”、“你几岁？”、“你父亲是谁？”、“你有男朋友吗？”、“生命的意义是什么？”、“我想更好地了解你”等。出于便利的目的，这样的问题和陈述在本文中被称为“闲聊类型发言”或简称为“闲聊”。

如以下将讨论的，数字个人助理130被进一步配置成响应于确定用户作出了闲聊类型发言来采取特定动作。例如，响应于确定用户作出了闲聊类型发言，数字个人助理130可通过在其用户界面内显示与流行文化参考相关联的多媒体对象(当该对媒体对象本质上是可视的时)或通过其用户界面来播放这样的多媒体对象(当该对媒体对象本质上是可听的时)来提供对该闲聊类型发言的响应。如在本文中使用的，术语“流行文化参考”旨在广泛地涵盖对与很大一部分人口的习俗、艺术和/或社会交互相关联的任意主题的参考。例如，而没有任何限制，流行文化参考可包括对已知电影、电视节目、长篇小说、短篇故事、绘画、视频游戏、图像、视频、卡通、明星、男演员或女演员、政客或其他公众人物、模式化观念、迷因、当前事件、历史事件等的参考。

附加地或替换地，响应于确定用户作出了闲聊类型发言，数字个人助理130可通过生成或回放包括与流行文化参考相关联的人员的声音的模仿的语音来提供对该闲聊类型发言的响应。进一步，数字个人助理130可被配置成通过以下来提供该响应：在其用户界面内显示包括与流行文化参考相关联的引用的文本、在其用户界面内显示引起流行文化参考的数字个人助理的视觉表示和/或在其用户界面内显示可被用户激活来访问与流行文化参考相关联的内容的链接。

现在将参考图2的框图200来描述数字个人助理130确定用户作出了闲聊类型发言并向其提供响应的一种方式。具体而言，框图200示出了系统100的各组件如何一起工作来使得数字个人助理130能够确定用户作出了闲聊类型发言并对其提供响应。

参考图2，过程在数字个人助理130已经在终端用户计算设备102上被启动之后开始。为了与数字个人助理130进行交互，用户对着终端用户计算设备102的一个或多个话筒说话。用户的发言被话筒捕捉并以公知的方式从模拟转换到数字形式。数字个人助理130致使发言的数字表示经由网络104作为音频流被传送到语音识别服务132(其是数字个人助理后端106的一部分)。例如，在一个实施例中，随着用户对着终端用户计算设备的话筒说话，数字个人助理130周期性地致使用户发言的一部分的数字表示被封包并经由网络104被传送到语音识别服务132。

语音识别服务132用于接收由数字个人助理130传送到其的音频流并分析该音频流来确定其语音内容。一旦语音识别服务132确定了音频流的语音内容，它接着就将语音内容映射到一个或多个单词，该一个或多个单词合起来包括经识别的发言。语音识别服务132接着将经识别的发言传递到查询理解和响应系统136。

如图2中显示的，语音识别服务132还可经由网络104将经识别的发言传送回数字个人助理130。数字个人助理130可在其图形用户界面(经由显示器118可见)内显示经识别的发言的文本部分，使得用户可查看经识别的发言并确定经识别的发言是否准确地表示他/她所说的内容。根据某些实施例，数字个人助理130还可提供一种方式，通过该方式，用户可在他/她确定经识别的发言没有准确地表示他/她所说的内容的情况下编辑经识别的发言并将发言的经编辑的版本传送到查询理解和响应系统136以供进一步对其进行处理。

查询理解和响应系统136接收经识别的或经纠正的发言并分析其单词来确定这样的发言应当被如何处理。例如，查询理解和响应系统136可确定经识别的或经纠正的发言包括对预定义的任务集合内一特定任务的调用。例如而非限制，任务可包括拨打电话给用户指定的人(例如，“呼叫Brain”)、发送用户指定的电子邮件或文本消息到用户指定的接收者(例如，“向Carol发送我要迟到了的文本”)或创建提醒(例如，“提醒我一小时内检查烤箱。”)。如果查询理解和响应系统136确定经识别的或经纠正的发言包括对预定义的集合内一特定任务的调用，则它将致使专门的逻辑(例如，终端用户计算设备102内专门的逻辑)来执行该任务。

然而，如果查询理解和响应系统136没能将经识别的或经纠正的发言匹配到预定义的集合内的任何任务，则查询理解和响应系统136可进一步分析发言的单词来确定这样的发言应当被如何处理。例如，查询理解和响应系统136可确定发言应当通过进行Web搜索或通过向用户提供进行Web搜索的机会来被处理。在这种情况下，发言可通过用于促进Web搜索的位于查询理解和响应系统136内部和/或外部的专门的逻辑来处理。替换地，查询理解和响应系统136可基于对发言的单词的分析来确定发言包括闲聊类型发言，其在以上被提到为旨在与数字个人助理130的人物进行交互的发言。

取决于实现，除了或附加于对发言的单词的分析，查询理解和响应系统136可基于对各因素的分析来确定发言包括闲聊类型发言。例如，查询理解和响应系统136可至少部分基于对发言的语调的分析、基于从用户的对话历史中获得的上下文线索或基于可被视为有助于确定发言包括闲聊类型发言的任意其他因素来确定发言包括闲聊类型发言。

如果查询理解和响应系统136确定发言包括闲聊类型发言，则发言将被针对闲聊的查询理解和响应系统138来处理，其是查询理解和响应系统136的一部分。针对闲聊的查询理解和响应系统138被配置成确定闲聊类型发言的主题，并接着基于确定的主题来采取步骤以致使针对该闲聊类型发言的适当的响应被数字个人助理130输出。如图2中显示的，这可涉及经由网络104将来自针对闲聊的查询理解和响应系统138的响应的全部或一部分发送到数字个人助理130。以下将更加详细讨论响应的构成以及其被传送到数字个人助理130和/或被数字个人助理130生成的方式。

在一个实施例中，针对闲聊的查询理解和响应系统138确定闲聊类型发言的主题并接着标识合适于对发言进行响应的多个适格的响应。针对闲聊的查询理解和响应系统138接着从该多个适格的响应中选择一个作为要由数字个人助理130提供的响应。这样的选择可以被随机地、以某个次序或通过使用某个其他选择技术来执行。通过维护针对给定闲聊类型发言的多个适格的响应，针对闲聊的查询理解和响应系统138可确保数字个人助理130将不在每个实例中针对相同的发言提供相同的响应，从而向用户与数字个人助理130的交互提供某钟多样性和不可预测性。

在一个实施例中，针对闲聊的查询理解和响应系统138用于将闲聊类型发言匹配到具有与其相关联的一个或多个响应的发言类型分层树内的一个特定发言类型。针对闲聊的查询理解和响应系统138接着从与闲聊类型发言相关联的响应中选择针对该闲聊类型发言的响应。

为了帮助示出这个概念，图3示描绘了可被用于根据一实施例来选择针对闲聊类型发言的响应的发言类型分层树300。如图3中示出的，分层树300的根节点是总的闲聊发言类型。在这个根节点下的每个发言类型包括闲聊类型发言。在这个根节点以下一层的是闲聊类型发言，它们是断言(“断言(Assertion)”)、命令(“命令(Command)”)、本质上为调情(“调情(Flirt)”)、请求关于数字个人助理130的信息(“系统－信息(Sys-info)”)或请求来自数字个人助理130的意见(“系统－意见(Sys-opinion)”)。这些节点中的每一个节点以下是闲聊发言类型的进一步的类别和子类别。由此，发言类型一般从在分层树300的顶部较宽到分层树300的底部较窄。

在一个实施例中，基于对闲聊类型发言的分析，针对闲聊的查询理解和响应系统138遍历分层树300并将发言匹配到节点之一。例如，针对闲聊的查询理解和响应系统138可生成特定闲聊类型发言应当被匹配到“断言”、“命令”、“调情”、“系统－信息”和“系统－意见”的置信度分数。针对闲聊的查询理解和响应系统138接着选择针对其已获得最高置信度分数的节点(假设已经针对节点中的至少一个获得某个最小置信度分数)。出于说明的目的，假设针对“系统－意见”生成了最高置信度分数。接着，针对闲聊的查询理解和响应系统138将遍历分层树300来到节点“系统－意见”，并生成闲聊类型发言应当被匹配到“系统－意见”的子节点(即，“微软(Microsoft)”、“趋势(Trending)”和“建议(Advice)”)之一的置信度分数。针对闲聊的查询理解和响应系统138接着选择针对其已实现最高置信度分数的节点(再次假设已经针对子节点中的至少一个获得某个最小置信度分数)。如果针对子节点中的每一个的置信度分数少于某个预定义的最小置信度分数，则对分层树300的遍历停止在节点“系统－意见”。

一个或多个响应与分层树300中的每一个节点相关联。当针对闲聊的查询理解和响应系统138完成遍历分层树300并选择了针对闲聊类型发言的匹配节点时，针对闲聊的查询理解和响应系统138可从与该匹配节点相关联的一个或多个响应中选择一响应。

以上用于标识针对闲聊类型发言的合适的响应的方式是有利的，因为其允许针对较宽的闲聊类型发言组以及针对该较宽的组内更窄的组来定义响应。作为示例，对于节点“系统－意见”内的节点“微软”，针对闲聊类型发言的非常具体的响应可被制作(例如，“我认为微软很棒！”)，因为系统具有用户正在寻求数字个人助理130关于微软的意见的高水平的置信度。作为对比，对于节点“系统－意见”，针对闲聊类型发言的更一般化的响应可被制作(例如，“没有评论”或“我宁愿不说”)，因为系统具有用户正在寻求数字个人助理130的意见的高水平的置信度，但是不能确定针对哪个主题在寻求意见。

在一个实施例中，可被包括在分层树300中的发言的类型可通过对用户发言的日志的人类检查以及用适当的发言类型来标记每个发言来确定。例如，众包平台(诸如由华盛顿州雷蒙德市的微软公司开发的普遍人类相关性系统(UHRS))可被用于获得人类检查以及数千个用户发言的标记。这一众包信息可接着被用于生成分层树300。也可使用用于生成发言类型分层树(诸如分层树300)的其他方法。

在另一实施例中，针对闲聊的查询理解和响应系统138被配置成维护与一个或多个趋势话题中的每一个相关联的一个或多个响应。一般而言，趋势话题是正变得流行或最近在用户之间变得流行并可被自动地(例如，通过自动地监视提交到数字个人助理的发言、搜索引擎查询、微博(诸如推特(TWITTER))、社交联网站点(诸如脸谱(FACTBOOK))、新闻出版物或其他源)或手动地(例如，通过人类对这些源中的任意或全部的观察)标识的话题。当针对闲聊的查询理解和响应系统138确定闲聊类型发言与特定趋势话题相关联时，针对闲聊的查询理解和响应系统138可从与该特定趋势话题相关联的一个或多个响应中选择针对该闲聊类型发言的响应。

进一步根据这样的实施例，趋势话题可被表示在发言类型分层树内，该分层树被针对闲聊的查询理解和响应系统138用于选择针对闲聊类型发言的合适的响应。例如，如图3中显示的，在“系统－意见”下的节点之一是“趋势(Trending)”。这个节点可被用于存储针对征求数字个人助理130关于一个或多个趋势话题的意见的闲聊类型发言的响应。进一步根据这个实施例，“趋势”节点可具有多个与其相关联的子节点，其中每个子节点与特定趋势话题相关联并具有一个或多个与该特定趋势话题相关联的响应。

在还一实施例中，针对闲聊的查询理解和响应系统138被配置成维护针对特定闲聊类型发言的旨在表达数字个人助理130的人物的一个或多个响应。例如，可能存在确保数字个人助理130关于与其人物相关联的特定单词、词组或话题有话要说的兴趣。在这种情况下，编辑团队可生成针对特定闲聊类型发言的预定义的响应以确保只要这样的话题被讨论，数字个人助理130就提供特有的响应。在这样的情况下，当针对闲聊的查询理解和响应系统138确定闲聊类型发言是针对其存在旨在表达数字个人助理130的人物的一个或多个预定义的响应的发言时，针对闲聊的查询理解和响应系统138将从该一个或多个预定义的响应中选择针对该闲聊类型发言的响应。

图4是示出根据一实施例的可由数字个人助理130响应于闲聊类型发言提供的示例响应400的框图。如图4中显示的，响应400包括数个组分，包括显示串402、语音内容404、语音模仿组分406、语音情绪组分408、数字个人助理动画410、多媒体组分412以及到内容的链接414。

取决于实现，响应400内的每个组分可被数字个人助理后端106存储和/或生成并由针对闲聊的查询理解和响应系统138在响应要被提供到用户时传送到数字个人助理130。替换地，响应400的组分中的一个、一个以上或全部可被存储在终端用户计算设备102上和/或由终端用户计算设备102生成(例如，在非易失性存储器120中)，并且针对闲聊的查询理解和响应系统138可在响应要被提供到用户时发送足以标识或获得组分的信息，使得数字个人助理130可本地地获得该组分。

此外，虽然响应400包括七个不同的组分，但是可以理解，针对闲聊类型发言的响应可包括少于图4中示出的全部组分。

显示串402包括要被显示在数字个人助理130的用户界面内的文本。该文本可包括针对用户的闲聊类型发言的口头响应。在一个实施例中，显示串402可包括与流行文化参考相关联的引用。

语音内容404包括要被数字个人助理130的用户界面生成或回放的语音。数字个人助理130可通过将文本到语音转换应用到包括语音内容404的一部分的文本来生成这样的语音。替换地，数字个人助理130可通过回放被包括在语音内容404内或被语音内容404标识的音频文件来生成这样的语音。在一个实施例中，语音内容404包括被包括在显示串402中的内容的可听版本，但是不一定需要如此。例如，语音内容400可包括与被包括在显示串402中的口头信息完全不同的口头信息。类似于显示串402，语音内容404的内容可包括与流行文化参考相关联的引用。

语音模仿组分406是指示数字个人助理130应当以模仿某一人员(诸如与流行文化参考相关联的人员)的声音的方式来生成或回放语音内容404的组分。语音模仿组分406可包括或标识应当被数字个人助理130回放以执行模仿的音频文件。替换地，语音模仿组分406可指示专门的文本到语音转换器应当被数字个人助理130使用来以模仿理想人员的声音的方式来生成语音内容404。

语音情绪组分408包括在文本到语音转换被应用到语音内容404时应当被应用到这样的内容以生成语音的情绪元素。

数字个人助理动画410包括表示数字个人助理130的要被显示在其用户界面内的化身的动画。动画可被设计为使得其唤起流行文化参考。虽然对响应400的描述参考数字个人助理动画410，但是可以理解，除了动画之外的化身的各类型的视觉表示可被用于唤起流行文化参考，包括静态图像等。

多媒体组分412包括要被显示在数字个人助理130的用户界面内或被其回放的一个或多个多媒体对象。每个多媒体对象可与一流行文化参考相关联。取决于实现，每个多媒体对象可包括例如要被显示在数字个人助理130的用户界面内的图像、要被显示在数字个人助理130的用户界面内的视频内容或要被数字个人助理130的用户界面回放的音频内容。

到内容的链接414包括可被显示在数字个人助理130的用户界面内并可被用户激活来访问其他内容的链接。例如，链接可被用户激活来访问与流行文化参考相关联的内容。

图5-10提供可经由数字个人助理130的用户界面递送的针对闲聊类型发言的响应的若干个示例。这些示例帮助示出根据各实施例可被包括在针对闲聊类型发言的响应中的各个组分。在图5-10的示例中，终端用户计算设备102是智能电话，并且显示器118是智能电话的集成显示器。然而，如之前提到的，终端用户计算设备102不被限制为智能电话，并且可以是各种各样的移动和非移动计算设备中的任意一种。

图5示出可由数字个人助理130提供的针对闲聊类型发言“我担心统计学考试(Iam nervous about the stats test)”的响应。响应于这个闲聊类型发言，包括话语“愿原力与你同在(May the force be with you)”的显示串502被显示在数字个人助理130的图形用户界面内。该显示串文本包括来自流行的“星球大战”电影的众所周知的引用。

此外，响应于该闲聊类型发言，数字个人助理130的视觉表示504被显示在图形用户界面内。视觉表示504包括光剑，并由此还唤起“星球大战”电影。在一实施例中，视觉表示504可包括四处摇摆光剑的数字个人助理130的化身的动画中的一部分，可能伴随有经由终端用户计算设备102的一个或多个扬声器回放的可听光剑音效。

在一实施例中，图5中所提供的响应还包括经由终端用户计算设备102的一个或多个扬声器回放的可听语音，其中这样的语音还包括话语“愿原力与你同在”。在一实施例中，语音包括对著名“星球大战”角色(诸如尤达大师(Yoda)或欧比王肯诺比(Obi-WanKenobi))的模仿。如之前描述的，这样的语音可通过回放指定的音频文件或通过将专门的文本到语音转换过程应用到文本“愿原力与你同在”来呈现。取决于实现，该模仿可被呈现为使得明显是除了“星球大战”角色之外的人员执行该模仿(例如，与数字个人助理130相关联的默认声音执行该模仿)。在其他实现中，该模仿可产生不可与“星球大战”角色的声音相区分的声音或可实际上就是扮演“星球大战”角色的演员的声音。

合起来看，显示串502、视觉表示504以及用模仿递送的语音不仅仅通过提供鼓励的话语来适当地对用户的闲聊类型发言进行响应，还用于强烈地唤起将很有可能立即让用户感到熟悉且帮助建立与其的共性感的流行文化参考(“星球大战”)。此外，由于响应包括不同形式的传感器输出(包括光剑动画和被模仿的声音)，该响应相比于纯文本响应而言更有可能吸引用户且娱乐用户。

图6示出可由数字个人助理130提供的针对闲聊类型发言“我如何抢劫银行？(Howdo I rob a bank？)”的响应。响应于这个闲聊类型发言，包括话语“对于这些人来说结局并不好(It didn’t end well for these guys)”的显示串602被显示在数字个人助理130的图形用户界面内。该响应还可包括经由终端用户计算设备102的一个或多个扬声器回放的可听语音，其中这样的语音还包括话语“对于这些人来说结局并不好”。显示串602的文本参考也被显示在数字个人助理130的图像用户界面内的多媒体对象604。如图6中显示的，多媒体对象604包括1967年的电影“邦尼与克莱德(Bonnie&Clyde)”的电影海报的图像，该电影是关于众所周知的银行抢劫犯Bonnie Parker和Clyde Barrow的生与死的戏剧。

合起来看，显示串602(以及对应的可听语音)以及多媒体对象604包括针对闲聊类型发言“我如何抢劫银行”的响应，该响应既通过指出抢劫银行的严重危害(Bonnie和Clyde被警察开枪射死)来对用户的闲聊类型发言进行适当地响应还唤起可能让用户感到熟悉且帮助建立与其的共性感的流行文化参考(Bonnie和Clyde以及被相同命名的电影)。此外，由于响应形成除了纯文本之外的输出，更有可能来吸引用户和娱乐用户。

图7示出可由数字个人助理130提供的针对闲聊类型发言“What’s your favoritecar in the whole wide world？(在整个世界上你最喜欢什么车？)”的响应。响应于这个闲聊类型发言，包括话语“I love Deloreans.Especially ones that travel through time(我爱德劳瑞恩车。尤其是穿越时空的那些)”的显示串702被显示在数字个人助理130的图形用户界面内。该响应还可包括经由终端用户计算设备102的一个或多个扬声器回放的可听语音，其中这样的语音还包括话语“I love Deloreans.Especially ones that travelthrough time”。这个文本和语音参考众所周知的“回到未来”电影。

如在图7中还显示的，该响应还包括具有被称为“Back to the Future–ClockTower Scene.av”的视频形式的多媒体对象704，该视频可在数字个人助理130的图像用户界面的上下文内被用户播放和查看。

如在图7中进一步显示的，该响应包括链接706，在被用户激活时，该链接706使得用户能够在Web上搜索短语“What’s your favorite car in the whole wide world？(在整个世界上你最喜欢什么车？)”，其是原始发言。注意在替换实施例中，链接可被提供，在被用户激活时，该链接使得用户能够在Web上搜索与流行文化参考(例如，“回到未来”电影)相关联的内容。

与图5和6的响应类似，图7的响应强烈地唤起流行文化参考并由此可建立与用户的共性感。此外，可直接从数字个人助理130的图像用户界面中查看的视频内容使得响应高度有吸引力。

图8示出可由数字个人助理130提供的针对闲聊类型发言“You bitch(你这个讨厌的女人)”的响应。响应于这个闲聊类型发言，包括话语“I’m also a lover,a child and amother(我还是个爱人、孩子和母亲)”的显示串802被显示在数字个人助理130的图形用户界面内。该响应还可包括经由终端用户计算设备102的一个或多个扬声器回放的可听语音，其中这样的语音还包括话语“I’m also a lover,a child and a mother”。该文本和语音包括众所周知的Meredith Brooks(玛芮斯布鲁克丝)的歌曲“Bitch(讨厌的女人)”的歌词的一部分。

如图8中还显示的，该响应还包括具有Meredith Brooks的图像形式的多媒体对象804。该响应还包括提供关于歌曲“Bitch”的信息的文本部分806并还可包括可被用户激活来分别从一个或多个源购买该歌曲的数字副本的一个或多个链接。

对图8的响应巧妙地利用了流行文化参考来对看上去无礼的闲聊类型发言进行响应(以及某种程度地转移)。它还包括可帮助吸引用户的有意思的多媒体内容。图8中显示的响应还示出对闲聊类型发言的响应如何能在某些方面用作广告或商业机会，因为使得用户能够购买在该响应中被参考的歌曲。

图9示出可由数字个人助理130提供的针对闲聊类型发言“Who is your Daddy？(你父亲是谁？)”的响应。响应于这个闲聊类型发言，包括话语“These guys(这些人)”的显示串902被显示在数字个人助理130的图形用户界面内。该响应还可包括经由终端用户计算设备102的一个或多个扬声器回放的可听语音，其中这样的语音还包括话语“These guys”。显示串902的文本参考也被显示在数字个人助理130的图像用户界面内的多媒体对象904。如图9中显示的，多媒体对象904包括分别打扮成来自非常流行的“王牌大贱谍(AustinPowers)”电影的王牌大贱谍(Austin Powers)和邪恶博士(Dr.Evil)的角色的比尔盖茨(Bill Gates)(微软董事长)和史蒂夫鲍尔默(Steve Ballmer)(微软的首席执行官)的视频。这个视频可由用户在数字个人助理130的图形用户界面的上下文内被播放和查看。

在其中数字个人助理130是由华盛顿州雷蒙德市的微软公司发布的实施例中，图9中显示的响应是恰当的，因为视频中显示的人物是与微软相关联的众所周知的人物。此外，视频内容针对用户而言是有意思的且有吸引力的。

图10示出可由数字个人助理130提供的针对闲聊类型发言“Show me somethingfunny？(给我看些有趣的？)”的响应。响应于这个闲聊类型发言，包括话语“A friend ofmine has an opinion(我的一位朋友有一个观点)”的显示串1002被显示在数字个人助理130的图形用户界面内。该响应还可包括经由终端用户计算设备102的一个或多个扬声器回放的可听语音，其中这样的语音还包括话语“A friend of mine has an opinion”。显示串1002的文本参考也被显示在数字个人助理130的图像用户界面内的多媒体对象1004。如图10中显示的，多媒体对象1004包括看上去脾气坏的猫的图像，伴随有标语：“I had funonce.It was horrible.(我开心过一次。真是太可怕了。)”。这个图像是对于流行的“暴躁猫(Grumpy Cat)”网红的参考，其对用户而言是可立即识别的并还可用于逗乐和吸引用户。

图5-10的上述示例仅作为示例在本文中被提供。本领域的技术人员可以理解，除了图5-10中描述的之外，可提供针对闲聊类型发言的各种各样的响应。这样的响应可包括之前参考图4描述的响应组分中的一个或多个以及附加的组分。

III.用于实现在响应中利用模仿和/或多媒体的数字个人助理的示例方法

图11描绘了根据一示例实施例的用于实现在对闲聊类型发言进行响应时利用模仿和/或多媒体的数字个人助理的方法的流程图1100。流程图1100的方法可例如由上文参考图1所描述的数字个人助理后端106来执行。相应地，现在将继续参考图1的系统100来描述流程图1100的方法。然而，该方法不限于该实现。

如在图11中显示的，流程图1100的方法开始于步骤1102，其中接收到数字个人助理的用户的发言的数字表示。发言的数字表示可包括例如，由语音识别服务132生成的发言或通过用户与数字个人助理130的交互生成的经纠正的发言，如以上参考图2讨论的。如进一步关于该附图讨论的，发言的数字表示由查询理解和响应系统136接收。

在步骤1104，分析发言的数字表示。如以上参考图2讨论的，这个步骤可需要由查询理解和响应系统136执行的分析以确定该发言是否包括闲聊类型发言。

在步骤1106，至少基于对发言的数字表示的分析，确定该发言包括旨在与数字个人助理的人物进行交互的发言。如以上参考图2讨论的，这个步骤可在查询理解和响应系统136确定该发言是闲聊类型发言时发生。如之前提到的，这个确定可基于由查询理解和响应系统136执行的对发言的分析。

在步骤1108，至少响应于在步骤1106作出的判定，致使由数字个人助理生成针对该发言的响应，该响应包括与流行文化参考相关联的多媒体对象和包括对与该流行文化参考相关联的人员的声音的模仿的语音中的至少一个。多媒体对象可包括例如，图像、视频内容或音频内容，并可被显示在数字个人助理的用户界面内或由其回放。语音可由数字个人助理生成或回放。这个步骤可由例如针对闲聊的查询理解和响应系统138执行，其致使数字个人助理130提供包括多媒体对象(诸如以上参考图4描述的多媒体组分404)的或包括模仿的语音(如被以上参考图4描述的语音模仿组分406指示的)的响应。针对闲聊的查询理解和响应系统138执行这个功能的方式先前已经描述。

如之前还描述的，步骤1108中讨论的针对发言的响应还可包括被显示在数字个人助理的用户界面内的文本、包括与流行文化参考相关联的引用的文本、被显示在个人数字助理的用户界面内的并唤起流行文化参考的数字个人助理的视觉表示(例如，数字个人助理的动画)和/或被显示在数字个人助理的用户界面内的并可被用户激活来访问内容(诸如与闲聊类型发言相关联的或与流行文化参考相关联的内容)的链接。附加地，由数字个人助理生成或回放的语音可包括与流行文化参考相关联的引用。

在一个实施例中，在步骤1108中致使针对发言的响应被生成包括标识针对发言的多个适格响应并接着从该多个针对发言的适格响应中选择针对该发言的响应。

在另一实施例中，在步骤1108中致使针对发言的响应被生成包括将发言匹配到发言类型分层树(例如，如以上参考图3讨论的分层树300)内的一特定发言类型，发言类型分层树中的每个发言类型具有一个或多个与其相关联的响应。在匹配后，从与该特定发言类型相关联的响应中选择针对该发言的响应。

在还一实施例中，在步骤1108中致使针对发言的响应被生成包括确定该发言与一趋势话题相关联，并接着响应于确定该发言与一趋势话题相关联，从与该趋势话题相关联的一个或多个响应中选择针对该发言的响应。

在进一步的实施例中，在步骤1108中致使针对发言的响应被生成包括确定该发言是针对其存在旨在表达数字个人助理的人物的一个或多个预定义的响应的发言，并且响应于该确定，从该一个或多个预定义的响应中选择针对该发言的响应。

在还一实施例中，在步骤1108中致使针对发言的响应被生成包括向执行数字个人助理的计算设备发送音频文件，该音频文件包括语音或标识该音频文件的信息。这个步骤可在例如以下情况下被执行：在针对闲聊的查询理解和响应系统138向终端用户计算设备102发送包括模仿的语音的音频文件使得其可被数字个人助理130访问和回放时，或在针对闲聊的查询理解和响应系统138向数字个人助理130发送标识这样的音频文件的信息使得该音频文件可被数字个人助理130本地地获得时。

在还一实施例中，在步骤1108中致使针对发言的响应被生成包括向执行数字个人助理的计算设备提供文本，其中文本要由数字个人助理的文本到语音组件处理来生成语音。这个步骤可例如在针对闲聊的查询理解和响应系统138向数字个人助理130发送指示数字个人助理130应当将专门的文本到语音转换器应用到指定的文本以致使该文本以模仿特定人员的声音的方式被转换成语音的指示。

图12描绘了根据一实施例的由数字个人助理用于向闲聊类型发言提供包括声音模仿的响应的方法的流程图1200。流程图1200的方法可例如由上文参考图1所描述的数字个人助理130来执行。相应地，现在将继续参考图1的系统100来描述流程图1200的方法。然而，该方法不限于该实现。

如在图12中示出的，流程图1200的方法开始于步骤1202，其中数字个人助理130捕捉表示用户的旨在与数字个人助理130的人物进行交互的发言的音频。

在步骤1204，数字个人助理130将该音频传送到数字个人助理后端106。

在步骤1206，数字个人助理130至少基于接收自数字个人助理后端106的信息来提供针对发言的响应。提供响应包括生成或回放包括与流行文化参考相关联的人物的声音的模仿的语音。

在一实施例中，在步骤1206中提供响应包括回放包括该语音的音频文件。在一替换实施例中，在步骤1206中提供响应包括将文本到语音转换应用到文本来生成语音。

根据进一步的实施例，在步骤1206中提供响应包括以下中的一个或多个：由数字个人助理130的用户界面显示或回放多媒体对象，该多媒体对象与流行文化参考相关联；在数字个人助理的用户界面内显示文本，该文本包括与流行文化参考相关联的引用；在数字个人助理的用户界面内显示唤起流行文化参考的数字个人助理的视觉表示；以及在数字个人助理的用户界面内显示可被用户激活来访问内容的链接，该内容诸如与发言相关联的或与流行文化参考相关联的内容。

图13描绘了根据一实施例的由数字个人助理用于向闲聊类型发言提供包括多媒体对象的响应的方法的流程图1300。流程图1300的方法可例如由上文参考图1所描述的数字个人助理130来执行。相应地，现在将继续参考图1的系统100来描述流程图1300的方法。然而，该方法不限于该实现。

如在图13中示出的，流程图1300的方法开始于步骤1302，其中数字个人助理130捕捉表示用户的旨在与数字个人助理130的人物进行交互的发言的音频。

在步骤1304，数字个人助理130将该音频传送到数字个人助理后端106。

在步骤1306，数字个人助理130至少基于接收自数字个人助理后端106的信息来提供针对发言的响应。提供响应包括由数字个人助理130的用户界面显示或回放与流行文化参考相关联的多媒体对象。

在一实施例中，在步骤1306中显示或回放多媒体对象包括由数字个人助理130的用户界面显示图像或视频内容或回放音频内容。

根据进一步的实施例，在步骤1306中提供响应包括以下中的一个或多个：生成或回放包括与流行文化参考相关联的人员的声音的模仿的语音；在数字个人助理的用户界面内显示文本，该文本包括与流行文化参考相关联的引用；在数字个人助理的用户界面内显示唤起流行文化参考的数字个人助理的视觉表示；以及在数字个人助理的用户界面内显示可被用户激活来访问内容的链接，该内容诸如与发言相关联的或与流行文化参考相关联的内容。

IV.示例移动设备实现

图14是可被用于实现如以上参考图1描述的最终用户计算设备102的示例性移动设备1402的框图。如图14中显示的，移动设备1402包括各种任选的硬件和软件组件。移动设备1402中的任何组件可与任何其他组件通信，但出于容易例示的目的而未示出所有连接。移动设备1402可以是各种计算设备(例如，蜂窝电话、智能电话、手持式计算机、个人数字助理(PDA)等)中的任一个，并且可允许与诸如蜂窝或卫星网络的一个或多个移动通信网络1404或与局域网或广域网进行无线双向通信。

图示的移动设备1402可以包括用于执行任务的控制器或处理器1410(例如，信号处理器、微处理器、ASIC或者其他控制和处理逻辑电路)，所述任务诸如信号编码、数据处理、输入/输出处理、功率控制、和/或其他功能。操作系统1412可控制对移动设备1402的分配和使用，并支持一个或多个应用程序1414(也称为“应用”、“app”等)。应用程序1414可包括公共移动计算应用程序(例如，电子邮件应用程序、日历、联系人管理器、web浏览器、消息接发应用程序)、或任何其他计算应用(例如文字处理应用、绘图应用、媒体播放器应用)。在一个实施例中，应用程序1414包括数字个人助理130。

图示的移动设备1402可以包括存储器1420。存储器1420可以包括不可移动存储器1422和/或可移动存储器1424。不可移动存储器1422可包括RAM、ROM、闪存、硬盘、或其他众所周知的存储器设备或技术。可移动存储器1424可包括闪存或在GSM通信系统中公知的用户身份模块(SIM)卡，或者其他诸如“智能卡”之类的公知存储器设备或技术。存储器1420可用于存储数据和/或用于运行操作系统1412和应用1414的代码。示例数据可包括经由一个或多个有线或无线网络发送给和/或接收自一个或多个网络服务器或其它设备的网页、文本、图像、声音文件、视频数据、或其它数据集。存储器1420可用于存储诸如国际移动订户身份(IMSI)等订户标识符，以及诸如国际移动设备标识符(IMEI)等设备标识符。这种标识符可以被发射至网络服务器以标识用户和设备。

移动设备1402可支持诸如触摸屏1432、话筒1434、相机1436、物理键盘1438和/或跟踪球1440的一个或多个输入设备1430，以及诸如扬声器1452和显示器1454的一个或多个输出设备1450。诸如触摸屏1432等触摸屏可以不同方式检测输入。例如，电容式触摸屏在物体(例如，指尖)使流过表面的电流变形或中断时检测到触摸输入。作为另一示例，触摸屏可使用光学传感器，在来自光学传感器的光束被中断时检测到触摸输入。对于通过某些触摸屏被检测到的输入来说，与屏幕表面的物理接触并不是必需的。

其他可能的输出设备(未示出)可以包括压电或其他触觉输出设备。一些设备可以用于多于一个输入/输出功能。例如，触摸屏1432和显示器1454可被组合在单个输入/输出设备中。输入设备1430可以包括自然用户界面(NUI)。

无线调制解调器1460可被耦合到天线(未示出)，并可支持处理器1410和外部设备之间的双向通信，如本领域中清楚理解的。调制解调器1460被一般性地示出，并且可以包括用于与移动通信网络1404通信的蜂窝调制解调器1466和/或其它基于无线电的调制解调器(例如蓝牙1464或Wi-Fi 1462)。无线调制解调器1460的至少之一通常被配置用于与一个或多个蜂窝网络(诸如，用于在单个蜂窝网络内、蜂窝网络之间、或移动设备与公共交换电话网络(PSTN)之间的数据和语音通信的GSM网络)进行通信。

移动设备1402还可包括至少一个输入/输出端口1480、电源1482、诸如全球定位系统(GPS)接收机之类的卫星导航系统接收机1484、加速计1486、和/或物理连接器1490，该物理连接器1490可以是USB端口、IEEE 1394(火线)端口、和/或RS-232端口。所示的移动设备1402的各组件并非是必需或者涵盖全部的，因为如本领域技术人员所理解地，任何组件可不存在且附加地其它组件可存在。

在一个实施例中，移动设备1402的某些组件被配置为执行在先前章节中所述的归属到数字个人助理130的操作。用于执行如上所述的归属到数字个人助理130的操作的计算机程序逻辑可被存储在存储器1420中并由处理器1410执行。通过执行这种计算机程序逻辑，可使得处理器1410实现上面参考图1描述的数字个人助理130的任何特征。同样，通过执行这种计算机程序逻辑，可使得处理器1410执行图12和13中描绘的任何或全部流程图中的任何或全部步骤。

V.示例计算机系统实现

图15描绘了可以被用来实现本文描述的各实施例的示例性的基于处理器的计算机系统1500。例如，系统1500可被用于实现终端用户计算设备102或任何被用于实现如以上参考图1所描述的数字个人助理后端106的计算机。系统1500还可被用于实现在图11-13中描绘的任何或全部流程图中的任何或全部步骤。对此处所提供的系统1500的描述只是为了说明，并非旨在进行限制。各实施例也可以在相关领域的技术人员所知的其它类型的计算机系统中实现。

如图15所示，系统1500包括处理单元1502、系统存储器1504，以及将包括系统存储器1504的各种系统组件耦合到处理单元1502的总线1506。处理单元1502可包括一个或多个微处理器或微处理器核心。总线1506表示若干类型的总线结构中的任何一种总线结构的一个或多个，包括存储器总线或存储器控制器、外围总线、加速图形端口，以及处理器或使用各种总线体系结构中的任何一种的局部总线。系统存储器1504包括只读存储器(ROM)1508和随机存取存储器(RAM)1510。基本输入/输出系统1512(BIOS)储存在ROM 1508中。

系统1500还具有一个或多个以下驱动器：用于读写硬盘的硬盘驱动器1514、用于读或写可移动磁盘1518的磁盘驱动器1516、以及用于读或写诸如CD ROM、DVD ROM、蓝光^TM盘或其他光介质之类的可移动光盘1522的光盘驱动器1520。硬盘驱动器1514、磁盘驱动器1516，以及光驱动器1520分别通过硬盘驱动器接口1524、磁盘驱动器接口1526，以及光盘驱动器接口1528连接到总线1506。驱动器以及它们相关联的计算机可读介质为计算机提供了对计算机可读指令、数据结构、程序模块，及其他数据的非易失存储器。虽然描述了硬盘、可移动磁盘和可移动光盘，但是，也可以使用诸如闪存卡、数字视频盘、随机存取存储器(RAM)、只读存储器(ROM)等等之类的其他类型的计算机可读存储设备和存储结构来储存数据。

数个程序模块可被储存在硬盘、磁盘、光盘、ROM或RAM上。这些程序模块包括操作系统1530、一个或多个应用程序1532、其他程序模块1534以及程序数据1536。根据各实施例，这些程序模块可包括处理单元1502可执行来执行以上参考图1来描述的终端用户计算设备102或被用于实现数字个人助理后端106的任何计算机的任何或所有功能和特征的计算机程序逻辑。程序模块还可包括当被处理单元1502执行时执行参考图11-13的流程图示出或描述的任何步骤或操作的计算机程序逻辑。

用户可以通过诸如键盘1538和定点设备1540之类的输入设备向系统1500中输入命令和信息。其它输入设备(未示出)可包括话筒、操纵杆、游戏控制器、扫描仪等等。在一个实施例中，结合显示器1544提供触摸屏以允许用户通过向触摸屏上的一个或多个点施加触摸(例如通过手指或指示笔)来提供用户输入。这些及其他输入设备常常通过耦合到总线1506的串行端口接口1542连接到处理单元1502，但是，也可以通过其他接口，诸如并行端口、游戏端口、通用串行总线(USB)端口，来进行连接。这样的接口可以是有线或无线接口。

显示器1544还通过诸如视频适配器1546之类的接口连接到总线1506。除了显示器1544之外，系统1500还可包括其他外围输出设备(未示出)，如扬声器和打印机。

系统1500通过网络接口或适配器1550、调制解调器1552或其它用于在网络上建立通信的适当手段连接到网络1548(例如，局域网或诸如因特网之类的广域网)。调制解调器1552(可以是内置的或外置的)通过串行端口接口1542连接到总线1506。

如此处所用的，术语“计算机程序介质”、“计算机可读介质”以及“计算机可读存储介质”被用于泛指存储设备或存储结构，诸如与硬盘驱动器1514相关联的硬盘、可移动磁盘1518、可移动光盘1522，以及其他存储器设备或存储结构，诸如闪存卡、数字视频盘、随机读取存储器(RAM)、只读存储器(ROM)等。这些计算机可读存储介质与通信介质(不包括通信介质)相区别且不重叠。通信介质通常在诸如载波等已调制数据信号中承载计算机可读指令、数据结构、程序模块或者其它数据。术语“已调制数据信号”是指使得以在信号中编码信息的方式来设置或改变其一个或多个特性的信号。作为示例而非限制，通信介质包括无线介质，如声学、RF、红外和其它无线介质。实施例也针对这些通信介质。

如上文所指示的，计算机程序和模块(包括应用程序1532及其他程序模块1534)可被储存在硬盘、磁盘、光盘、ROM或RAM上。这样的计算机程序也可以通过网络接口1550、串行端口接口1542或任何其他接口类型来接收。这样的计算机程序，当由应用执行或加载时，使得计算机1500能实现此处所讨论的本发明的实施例的特征。因此，这样的计算机程序表示系统1500的控制器。

实施例还涉及包括存储在任何计算机可用介质上的软件的计算机程序产品。这样的软件，当在一个或多个数据处理设备中执行时，使数据处理设备如此处所描述的那样操作。本发明的各实施例使用现在已知的或将来已知的任何计算机可使用或计算机可读介质。计算机可读介质的示例包括，但不仅限于，诸如RAM、硬盘驱动器、软盘、CD ROM、DVDROM、zip磁盘、磁带、磁存储设备、光存储设备、MEM、基于纳米技术的存储设备等等之类的存储设备和存储结构。

在替换的实现中，系统1500可被实现为硬件逻辑/电子线路或固件。根据进一步实施例，这些组件中的一个或多个可被实现在片上系统(SoC)中。SoC可包括集成电路芯片，该集成电路芯片包括以下一个或多个：处理器(如微控制器、微处理器、数字信号处理器(DSP)等等)、存储器、一个或多个通信接口、和/或用于执行其功能的进一步的电路和/或嵌入的固件。

VI.结语

虽然以上描述了不同的实施例，但应当理解的是它们只是作为示例而非限制。对于相关领域的技术人员显而易见的是，可以对其做出各种改变而不背离本发明的精神和范围。因此，此处所公开的本发明的宽度和范围不应被上述所公开的示例性实施例所限制，而应当仅根据所附权利要求书及其等同替换来定义。

Claims

1.一种用于实现数字个人助理的方法，包括：

接收所述数字个人助理的用户的发言的数字表示；

至少基于对所述发言的数字表示的分析，确定所述发言包括旨在与所述数字个人助理的虚拟人物进行交互的发言；以及

响应于至少确定所述发言包括旨在与所述数字个人助理的虚拟人物进行交互的发言，致使包括以下至少之一的针对所述发言的响应被所述数字个人助理生成：

被显示在所述数字个人助理的用户界面内的或被所述数字个人助理的用户界面回放的多媒体对象，所述多媒体对象与流行文化参考相关联；以及被所述数字个人助理生成或回放的语音，所述语音包括与所述流行文化参考相关联的人员的声音的模仿；

其中致使针对所述发言的响应被生成包括：

将所述发言匹配到发言类型分层树内的特定发言类型，所述发言类型分层树中的每个发言类型具有与其相关联的一个或多个响应；以及

从与所述特定发言类型相关联的响应中选择针对所述发言的响应。

2.如权利要求1所述的方法，其特征在于，针对所述发言的响应还包括被显示在所述数字个人助理的所述用户界面内的文本，所述文本包括与所述流行文化参考相关联的引用。

3.如权利要求1所述的方法，其特征在于，针对所述发言的响应还包括被显示在所述数字个人助理的所述用户界面内的并唤起所述流行文化参考的所述数字个人助理的视觉表示。

4.如权利要求1所述的方法，其特征在于，所述多媒体对象包括：

被显示在所述数字个人助理的所述用户界面内的图像或视频内容或被所述数字个人助理的所述用户界面回放的音频内容。

5.如权利要求1所述的方法，其特征在于，针对所述发言的响应还包括：

被显示在所述数字个人助理的所述用户界面内的并能被所述用户激活来访问与所述流行文化参考相关联的内容的链接。

6.如权利要求1所述的方法，其特征在于，致使针对所述发言的响应被生成包括：

确定所述发言与话题相关联；以及

响应于确定所述发言与所述话题相关联，从与所述话题相关联的一个或多个响应中选择针对所述发言的响应。

7.如权利要求1所述的方法，其特征在于，致使针对所述发言的响应被生成包括：

确定所述发言是针对其存在旨在表达所述数字个人助理的虚拟人物的一个或多个预定义的响应的发言；以及

响应于确定所述发言是针对其存在旨在表达所述数字个人助理的虚拟人物的一个或多个预定义的响应的发言，从所述一个或多个预定义的响应中选择针对所述发言的响应。

8.一种计算设备，包括：

至少一个处理器；以及

存储供所述至少一个处理器执行的计算机程序逻辑的存储器，所述计算机程序逻辑包括被配置成当由所述至少一个处理器执行时执行各操作的一个或多个组件，所述一个或多个组件包括：

数字个人助理，所述数字个人助理被配置成捕捉表示用户的发言的音频并将所述音频传送到数字个人助理后端，所述发言包括旨在与所述数字个人助理的虚拟人物进行交互的发言；

所述数字个人助理进一步被配置成至少基于接收自所述数字个人助理后端的信息来提供针对所述发言的响应，提供所述响应包括由所述数字个人助理的用户界面来显示或回放与流行文化参考相关联的多媒体对象；

其中提供针对所述发言的响应包括：

9.如权利要求8所述的计算设备，其特征在于，提供所述响应进一步包括以下至少之一：

生成或回放包括与所述流行文化参考相关联的人员的声音的模仿的语音；

在所述数字个人助理的所述用户界面内显示文本，所述文本包括与所述流行文化参考相关联的引用；

在所述数字个人助理的所述用户界面内显示唤起所述流行文化参考的所述数字个人助理的视觉表示；以及

在所述数字个人助理的所述用户界面内显示能被用户激活来访问与所述流行文化参考相关联的内容的链接。