CN108604178A

CN108604178A - 个性化和场境化的音频简报

Info

Publication number: CN108604178A
Application number: CN201780009235.9A
Authority: CN
Inventors: 迈克尔·安德鲁·古德曼; 徐碧波
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2016-05-13
Filing date: 2017-05-12
Publication date: 2018-09-28
Anticipated expiration: 2037-05-12
Also published as: CN112947683A; JP7293180B2; EP3455720B1; CN108604180A; CN108604254A; KR20190006975A; KR20190014515A; JP2021052403A; JP6797938B2; CN108604254B; KR102177786B1; EP3455747A1; CN108604181B; US20190391998A1; CN114758655A; US20170329848A1; CN108604178B; US10402450B2; JP2019526177A; CN108604181A

Abstract

一种在具有音频输入设备和音频输出设备的电子设备处的方法，包括：通过该音频输入设备接收来自用户的口头输入；将与该口头输入相对应的信息传送至远程系统；从该远程系统接收响应于该口头输入的响应，该响应包括依据一个或多个准则的信息；以及通过该音频输出设备输出该响应。

Description

个性化和场境化的音频简报

技术领域

本申请总体上涉及计算机技术，包括但并不局限于个性化和场境化(contextualized)的音频简报。

背景技术

通过音频/视频输入和输出与用户交互的基于语音的助理已经随着互联网和云计算的成长而日益流行。这些助理能够提供用于数字媒体的消费的接口，以及提供各种类型的信息，举几个示例，所述信息包括新闻、体育比分、天气和股票。

信息可以以音频简报的形式来呈现，其中该信息被大声向用户讲出。然而，音频简报可能是灌录的(canned)，所具有的定制选项有限。例如，用户可以选择特定新闻源来得到新闻音频简报，并且所得到的音频简报包括朗读来自那些源的新闻文章，其中的一些可能是与用户无关的或者其不感兴趣的。包括大量无关和乏味的信息的音频简报抑制了用户对收听该音频简报的兴趣。

发明内容

本说明书中所描述的实施方式涉及提供针对用户进行定制的、在用户征询该信息的时刻高度相关的、并且针对该用户从各种来源所汇总的信息。

依据一些实施方式，个性化和场境化的音频简报以音频格式向用户提供有用、及时的信息。该音频简报例如可以提供与用户所在区域的天气，去往用户办公室的交通，用户日历上的事件，有关用户需要做的事情的提醒，来自用户喜爱的运动队的近期活动，用户在当天的航班的航班状态，有关用户感兴趣的主题的新闻等相关的信息。该音频简报针对用户进行定制。该音频简报汇总该信息并且呈现在用户征询简报的时刻相关的内容。

在一些实施方式中，该音频简报包括(在用户许可的情况下)基于关于对用户有何了解的信息以显现用户尚未专门征询的相关信息。例如，如果用户经常收听特定艺术家的音乐，则该简报可以自动通知用户该艺术家何时将来到该用户的当地。

在一些实施方式中，该音频简报充当广告和促销的平台。在以上示例中，该简报能够询问用户他或她是否想要购买门票以去音乐会观看该艺术家并且允许他或她当时通过赞助整合(sponsored integration)来购票。

依据一些实施方式，一种方法，包括在具有一个或多个处理器、存储器、音频输入设备和音频输出设备的电子设备处：通过该音频输入设备接收来自用户的口头输入；将与所述口头输入相对应的信息传送至远程系统；从该远程系统接收响应于该口头输入的响应，该响应包括依据一个或多个准则的信息；并且通过该音频输出设备输出该响应。

依据一些实施方式，一种电子设备包括音频输入设备、音频输出设备、一个或多个处理器，和存储要由该一个或多个处理器执行的一个或多个程序的存储器。该一个或多个程序包括指令以用于：通过该音频输入设备接收来自用户的口头输入；将与所述口头输入相对应的信息传送至远程系统；从该远程系统接收响应于该口头输入的响应，该响应包括依据一个或多个准则的信息；以及通过该音频输出设备输出该响应。

依据一些实施方式，一种非暂时性计算机可读存储介质存储一个或多个程序。该一个或多个程序包括指令，所述指令在由具有音频输入设备、音频输出设备以及一个或多个处理器的电子设备所执行时使得该电子设备：通过该音频输入设备接收来自用户的口头输入；将与所述口头输入相对应的信息传送至远程系统；从该远程系统接收响应于该口头输入的响应，该响应包括依据一个或多个准则的信息；以及通过该音频输出设备输出该响应。

附图说明

图1是依据一些实施方式的示例网络环境。

图2是依据一些实施方式的示例客户端设备。

图3是依据一些实施方式的示例服务器系统。

图4是依据一些实施方式的用于呈现音频简报的方法的流程图。

各附图中相似的附图标记指代相对应的部分。

具体实施方式

现在将详细参考各个实施方式，其示例在附图中有所图示。在以下详细描述中，给出了许多具体细节以便提供对本发明和所描述实施方式的全面连接。然而，本发明可以在没有这些具体细节的情况下来实践。在其它实例中，并未对公知的方法、流程、组件和电路进行详细描述以免不必要地模糊实施方式的多个方面。

图1图示了依据一些实施方式的网络环境100。网络环境100包括客户端设备102。客户端设备102耦合至音频输入设备108(例如，麦克风)和音频输出设备110(例如，一个或多个扬声器)。在一些实施方式中，音频输入设备108和音频输出设备110二者都是客户端设备102(例如，语音命令设备、具有麦克风的无线扬声器、智能电话、平板设备、膝上计算机、可穿戴设备)的组件。在一些实施方式中，音频输入设备108是客户端设备102的组件，而音频输出设备110则是客户端设备102与之耦合的单独设备，或者反之亦然。在一些实施方式中，音频输入设备108和音频输出设备110是客户端设备102(例如，铸造设备)与之耦合的单独设备。在一些实施方式中，客户端设备102是移动电话、平板计算机、膝上计算机、台式计算机、无线扬声器、语音命令设备或语音助手设备、电视机、条式音箱、投播设备(castingdevice)、车载系统，以及可穿戴个人设备。

在一些实施方式中，客户端设备102通信耦合至另一个客户端设备104(例如，智能电话、平板设备、膝上计算机、台式计算机)。客户端设备104包括可以由用户用来配置客户端设备102以及客户端设备102上的特征和功能的应用(例如，设置或配置app)(未示出)。应当意识到的是，并非所有客户端设备102为了配置的目的都需要第二客户端设备(例如，客户端设备104)。

在一些实施方式中，客户端设备102和/或104分别包括或耦合至显示设备(未示出)。

在一些实施方式中，客户端设备102和/或104分别包括一个或多个视觉指示器(例如，LED灯)(未示出)。有关客户端设备和/或语音助理功能的状况或状态的信息——包括该语音助理功能的音频简报特征——可以(例如，以文本或图形格式)在该显示设备和/或(例如，作为LED灯上的灯光模式)在该视觉指示器上进行显示。例如，在LED灯上显示的灯光模式可以指示音频简报的状态。

客户端设备102以及可选地客户端设备104通过一个或多个通信网络112(例如，局域网、广域网、互联网)通信耦合至服务器系统114。

客户端设备102包括语音助理模块106。语音助理模块106执行语音助理操作(例如，检测音频输入设备108所接收的口头输入中的热词，处理口头输入，将口头输入或者与口头输入相对应的信息传输至服务器系统114，从服务器系统114接收并处理针对口头输入的响应，等等)。在一些实施方式中，语音助理模块106包括或链接至设备无关库(device-agnostic library)，该库可以安装在各种设备上并且实现跨各种设备一致的语音助理功能。在一些实施方式中，取决于客户端设备102的类型，语音助理模块106被包括在安装于该设备中的应用中，被包括在该设备的操作系统中，或者被嵌入在该设备中(例如，嵌入在固件中)。

在一些实施方式中，语音助理模块106检测音频输入设备108所接收的第一口头输入中的热词，所述热词“唤醒”语音助理并且使语音助理模块106准备接收可以包括请求或命令的第二口头输入。在接收到第二口头输入之后，语音助理模块106可选地处理该口头输入以确定与该口头输入相对应的信息，并且将该口头输入和/或与该口头输入相对应的信息传送至服务器114。服务器114接收该口头输入或者与所述口头输入相对应的信息，并且处理所接收到的口头输入或相对应的信息(例如，在处理后端116处处理，其可以是服务器系统114的一部分)以确定适当响应。该适当响应可以包括用于客户端设备102来执行功能或操作的内容、信息或者指令或元数据。服务器114从一个或多个内容/信息源118获得响应的内容/信息。服务器114将该响应传送至客户端设备102，所述客户端设备102通过音频输出设备110输出该内容或信息和/或执行该功能或操作。在一些实施方式中，该响应包括处于口述音频格式的内容和信息，并且语音助理模块106播放该口述音频。在一些其它实施方式中，该响应包括处于文本格式的内容和信息，并且语音助理模块106对该文本内容和信息执行文本转话音转换从而大声讲出该内容和信息。

在一些实施方式中，语音助理模块106的功能和设置是能够直接在客户端设备102处配置的或者是能够通过客户端设备104来配置的。例如，该配置例如可以包括与(例如，电子邮件服务，在线日历、在线音乐服务等的)一个或多个用户账户的关联以及对访问那些账户中的信息的授权，指定内容或信息源，指定内容或信息的类别，等等。

用户能够请求语音助理提供音频简报(在本文也称作“每日简报”)，其是通过音频输出设备110输出的。在一些实施方式中，在讲出热词以唤醒语音助理之后，用户讲出包括与针对音频简报的请求相关联的一个或多个预定义关键字的口头输入。该音频简报包括各种内容和信息。在一些实施方式中，音频简报的内容和信息针对用户被个性化；该用户能够预先规定要包括在简报中的内容/信息的类别和来源(例如，在配置语音助理模块106时)。

在一些实施方式中，内容和信息也可以基于一个或多个准则而被选择或过滤以供包括在响应中或者从响应中省去。这些准则例如包括日内时间、设备的类型、设备的位置，以及用户的设备使用历史。例如，如果日内时间是中午大约12点并且用户已经指定了通勤交通信息作为用于音频简报的指定信息类别之一，则通勤交通信息仍然可以从响应中被省略，因为该日内时间提供了这样的场景：此时通勤交通信息的状况对于用户来说并没有用处或者用户对此并不感兴趣。因此，基于这些准则的包括或省略能够补充或越过用户对来源和类别的预先指定。

在一些实施方式中，音频简报内的内容和信息被说出的顺序(例如，天气接着是通勤交通接着是约见接着是新闻)也由用户预先指定。在一些实施方式中，该顺序可以基于一个或多个准则而被修改。例如，如果用户具有紧急约见(例如，剩余不到一个小时)，则音频简报内的内容/信息被说出的顺序可以被重新排列而使得该约见在音频简报内被更早地说出。

在一些实施方式中，该音频简报可以包括基于用户的历史(如服务器114已知的基于用户给予的对访问的授权)而被插入的内容/信息。例如，如果用户的历史指示该用户频繁地命令客户端设备102播放来自特定艺术家的歌曲，则服务器114能够识别该艺术家即将演出的日期和位置，并且将接近于客户端设备102的位置(例如，在用户的城市区内，在距客户端设备102的位置的某个距离阈值之内)的演出包括在音频简报中。

另外，在一些实施方式中，与音频简报中的内容/信息相关的促销和广告可以被包括在音频简报中。例如，继续上文有关艺术家演出的示例，服务器114可以在音频简报中包括购买该艺术家的演出的门票的促销或广告。

因此，音频简报中的内容/信息可以基于一个或多个准则而被场境化。例如，该场境化包括省略本来将会包括在音频简报中的内容/信息，和/或对音频简报内的内容/信息重新排序。

在一些实施方式中，音频简报包括默认类别的内容/信息。例如，音频简报可以默认地包括当前时间和问候。在一些实施方式中，默认的内容/信息甚至也可以被场境化。例如，问候(例如，“早上好”、“晚上好”等)可以基于日内时间而有所不同。

在一些实施方式中，音频简报可以包括“音频涂鸦(audio doodle)”。音频涂鸦例如可以是作为音频简报的一部分而大声说出的引述或“有意思的”事实。音频简报例如可以每天或每简报地有所变化。用户可以选择或不选择在音频简报中包括音频涂鸦(即，音频简报是用户能够预先指定以供包括/省略的另一种类别的内容/信息)。在一些实施方式中，音频涂鸦跨跨多个用户而相同(即，选择音频涂鸦的用户在他们相应的音频简报中都得到相同的音频涂鸦)。

在一些实施方式中，能够包括在音频简报中的内容/信息包括但并不局限于以下的一个或多个：当前时间、问候、音频涂鸦、即将到来的生日、航班状态、消息(电子邮件、文本消息、即时消息)、天气、通勤交通、日历事件、提醒、任务、财经信息(例如，股票)、体育信息(例如，比分、赛程)、星座、新闻、音乐，以及有关语音助理特征的信息(例如，新的或即将到来的特征的新闻，有关如何使用语音助理的提示)。

在一些实施方式中，内容/信息源118包括以下中的一个或多个：网站、数据库、用户账户和相关联信息(例如，电子邮件、日历、使用历史等)、在线音乐服务，等等。

在一些实施方式中，音频简报可以通过动作来发起。例如，如果客户端设备102是可穿戴设备，则客户端设备102可以检测该设备何时被用户穿戴，并且响应于检测到它被用户所穿戴而发起音频简报。

图2是图示依据一些实施方式的网络环境100的示例客户端设备102的框图。客户端设备的示例包括但并不局限于移动电话、平板计算机、膝上计算机、台式计算机、无线扬声器、语音命令设备、电视机、条式音箱、投播设备、车载系统和可穿戴个人设备。典型地，客户端设备102包括一个或多个处理单元(CPU)202，一个或多个网络接口204、存储器206，以及用于将这些组件(有时被称作芯片组)互连的一个或多个通信总线208。客户端设备102包括促进用户输入的一个或多个输入设备210，包括音频输入设备108(例如，语音命令输入单元或麦克风)，以及可选地包括其它输入设备，诸如键盘、鼠标、触摸屏显示器、触摸敏感输入板、手势捕捉相机，或者其它输入按钮或控件。此外，一些客户端设备102使用麦克风和语音辨识或者相机和手势辨识来作为键盘的补充或替代。客户端设备102还包括一个或多个输出设备212，包括音频输出设备110(例如，一个或多个扬声器、头戴式耳机等)，以及可选地包括一个或多个视觉显示器和/或一个或多个视觉指示器(例如，LED)，其使得能够呈现用户界面和显示内容。可选地，客户端设备102包括位置检测设备214，诸如GPS(全球定位卫星)或其它地理位置接收器，以供确定客户端设备102的位置。客户端设备102可选地还可以包括接近度检测设备215，例如IR传感器，以用于确定客户端设备102与其它对象(例如，可穿戴个人设备的情况下的用户穿戴者)的接近度。可选地，客户端设备102包括传感器213(例如，加速计、陀螺仪等)。

存储器206包括高速随机存取存储器，诸如DRAM、SRAM、DDR RAM，或者其它随机存取固态存储器设备；以及可选地，包括非易失性存储器，诸如一个或多个磁盘存储设备，一个或多个光盘存储设备，一个或多个闪存设备，或者一个或多个其它非易失性固态存储设备。可选地，存储器206包括距一个或多个处理单元202随机定位的一个或多个存储设备。存储器206或者替选地存储器206内的非易失性存储器包括非暂时性计算机可读存储介质。在一些实施方式中，存储器206或者存储器206的非暂时性计算机可读存储介质存储以下的程序、模块和数据结构，或者它们的子集或超集：

·操作系统216，包括用于处置各种基本系统服务以及用于执行依赖于硬件的任务的流程；

·网络通信模块218，用于经由一个或多个网络接口204(有线或无线)以及一个或多个网络112将客户端设备102连接至其它设备(例如，服务器系统114、客户端设备104、其他客户端设备102)，所述网络诸如互联网、其它广域网、局域网、城域网等；

·用户接口模块220，用于使得能够经由一个或多个输出设备212(例如，显示器、扬声器等)在客户端设备102处呈现信息；

·输入处理模块222，用于检测来自一个或多个输入设备210的用户输入或交互并且解释所检测到的输入或交互；

·语音助理模块106，用于处理口头输入，从服务器114接收包括音频简报的响应，并且输出该响应；以及

·客户端数据226，其至少存储与语音助理模块106相关联的数据，包括：

ο语音助理设置228，用于存储与语音助理功能的设置和配置相关联的信息；

ο内容/信息源230和类别232，用于存储用户指定的要包括在音频简报中的内容/信息的源和类别；

ο使用历史234，用于存储与语音助理的使用相关联的信息，诸如所接收到的命令和请求，响应于命令和请求所执行的操作，等等；以及

ο用户账户和授权236，用于存储用户针对访问内容/信息源230处的用户账户的授权以及那些被授权账户的账户信息。

以上所标识的要素中的每一个都可以被存储在一个或多个之前所提到的存储器设备中，并且对应于用于执行以上所描述功能的指令集合。以上所标识的模块或程序(即，指令集合)并不需要被实现为单独的软件程序、流程、模块或数据结构，并且这些模块的各种子集在各种实施方式中可以被组合或者以其它方式重新排列。在一些实施方式中，存储器206可选地存储以上所标识的模块和数据结构的子集。此外，存储器206可选地存储以上并未描述的附加模块和数据结构。

图3是图示依据一些实施方式的网络环境100的示例服务器系统114的框图。典型地，服务器114包括一个或多个处理单元(CPU)302、一个或多个网络接口304、存储器306，以及用于将这些组件(有时被称作芯片组)互连的一个或多个通信总线308。服务器114可选地包括促进用户输入的一个或多个输入设备310，诸如键盘、鼠标、语音命令输入单元或麦克风、触摸屏显示器、触摸敏感输入板、手势捕捉相机，或者其它输入按钮或控件。此外，服务器114可以使用麦克风和语音辨识或者相机和手势辨识来作为键盘的补充或替代。在一些实施方式中，服务器114可选地包括一个或多个相机、扫描仪，或者用于捕捉图像的照片传感器，所述图像例如印刷在电子设备上的图形序列码的图像。服务器114可选地还包括一个或多个使得能够呈现用户界面和显示内容的输出设备312，包括一个或多个扬声器和/或一个或多个视觉显示器。

存储器306包括高速随机存取存储器，诸如DRAM、SRAM、DDR RAM，或者其它随机存取固态存储器设备；以及可选地，包括非易失性存储器，诸如一个或多个磁盘存储设备，一个或多个光盘存储设备，一个或多个闪存设备，或者一个或多个其它非易失性固态存储设备。可选地，存储器306包括距一个或多个处理单元302随机定位的一个或多个存储设备。存储器306或者替选地存储器306内的非易失性存储器包括非暂时性计算机可读存储介质。在一些实施方式中，存储器306或者存储器306的非暂时性计算机可读存储介质存储以下的程序、模块和数据结构，或者它们的子集或超集：

·操作系统316，包括用于处置各种基本系统服务以及用于执行依赖于硬件的任务的流程；

·网络通信模块318，用于经由一个或多个网络接口304(有线或无线)以及一个或多个网络112将服务器系统114连接至其它设备(例如，客户端设备102和/或104)，所述网络诸如互联网、其它广域网、局域网、城域网等；

·接近度/位置确定模块320，用于基于客户端设备102和/或104的位置信息来确定客户端设备102的接近度和/或位置；

·语音助理后端116，用于处理来自客户端设备102的语音助理口头输入，包括以下中的一个或多个：

ο口头输入处理模块324，用于处理口头输入以识别该口头输入中的命令和请求；

ο内容/信息采集模块326，用于采集对命令和请求响应的内容和信息；以及

ο响应生成模块328，用于响应于命令和请求而生成口头输出(例如，音频简报)并且利用响应内容和信息来填充口头输出；以及

·服务器系统数据330，其至少存储与语音助理平台的操作相关联的信息，包括：

ο用户语音助理设置334，用于存储与语音助理设置228相对应的语音助理设置信息，包括内容/信息源230和类别232；

ο用户历史336，用于存储用户在语音助理的历史，包括命令和请求以及相对应的响应的历史；以及

ο用户账户和授权338，用于存储用户针对访问内容/信息源230处的用户的相应账户的授权以及那些被授权账户的账户信息，其对应于用户账户和授权236。

在一些实施方式中，服务器114还在存储器306中包括用于生成音频简报的每日简报模块340，包括确定什么内容和信息要被包括以及包括在音频简报中的顺序。在一些实施方式中，每日简报模块328是语音助理后端116的一部分。

以上所标识的要素中的每一个都可以被存储在一个或多个之前所提到的存储器设备中，并且对应于用于执行以上所描述功能的指令集合。以上所标识的模块或程序(即，指令集合)并不需要被实现为单独的软件程序、流程、模块或数据结构，并且这些模块的各种子集在各种实施方式中可以被组合或者以其它方式重新排列。在一些实施方式中，存储器306可选地存储以上所标识的模块和数据结构的子集。此外，存储器306可选地存储以上并未描述的附加模块和数据结构。

在一些实施方式中，音频简报通过呈现针对用户定制的、有用的、娱乐性的以及与当天相关的信息而与用户接涉(engage)达相对短的时间量(例如，几分钟)。音频简报中的信息可以包括音频涂鸦、(例如，用户联系人的)即将到来的生日、航班状态、消息(例如，电子邮件、文本消息)、天气、交通状况、日历、提醒、财经信息(例如，当天的股票信息)、体育信息、星座、新闻、音乐，以及音频简报或基于语音的助理特征的提示和特征更新。

在一些实施方式中，音频简报取决于日内时间而有所变化。例如，问候可能由于日内时间而有所不同，或者某些信息由于日内时间而被包括或不被包括(例如，通勤交通在早晨被包括而在晚上不被包括在简报中)。作为另一个示例，如果针对简报的请求是在晚上的晚些时候作出，则简报可以被推迟到第二天早晨。

在一些实施方式中，音频简报是可配置的，因为用户可以定义和指定哪些类别的信息以及该类别内的具体参数将被包括在送往用户的简报中。例如，该用户可以针对天气信息指定多个城市和/或邮政编码，针对财经信息指定多个股票或股票指数，针对体育信息指定多个运动队，以及针对新闻指定多个新闻提供者。在一些实施方式中，针对每个类别有默认参数可用，并且任何用户规定都被存储在用户数据332中。

在一些实施方式中，音频简报具有可以逐简报地有所变化。例如，送往特定用户的音频简报可以在发音、所使用语音、声音效果、伴随音乐、类别之间的过渡词、停顿的定时和问候等方面逐简报地有所变化。在一些实施方式中，音频简报包括用户的姓名并且按照姓名来称呼用户。在一些实施方式中，音频简报可以随听觉标志(earcon)开始和/或结束，所述听觉标志不同于来自语音助理的其它口述响应的听觉标志。

在一些实施方式中，音频简报告知用户与当天有关的有用且娱乐性的信息。所呈现的信息针对个体用户进行定制。以这种方式，该音频简报对于每个用户是唯一且相关的。

用户可以通过利用活动的语音助理功能向客户端设备102讲出“每日简报”而请求音频简报。用户可以听到针对该用户定制的有关天气、交通、日历事件、提醒、新闻等的内容。用户能够配置音频简报呈现哪些信息类别(例如，通过改变源630和类别232)。在一些实施方式中，针对每种类别所呈现的信息可以取决于日内时间而有所变化。

在一些实施方式中，目标信息可以在不需要任何用户配置的情况下被自动包括在音频简报中。例如，如果用户每天都听一次特定歌手，则音频简报将在该歌手要来该地时通知用户并且允许用户购票。

在一些实施方式中，音频简报包括表示音频简报的开始和/或结束的听觉标志。

在一些实施方式中，客户端设备102可以显示用户界面，其告知音频简报正在进行中，而不告知音频简报中所包括的实际信息。在一些实施方式中，该用户界面包括允许用户停止音频简报的可供性(affordance)。

在一些实施方式中，某些口头输入被解释为针对音频简报的请求。这些口头输入可以被预定义为特定短语或者针对某些事物或具有某些关键字的短语。

在一些实施方式中，如果客户端设备102是可穿戴设备，则音频简报可以由用户在早晨第一次穿戴该可穿戴设备时被触发。

在一些实施方式中，用户可以通过讲出预定义命令或者激活用户界面中的预定义可供性而停止正在进行的音频简报。

在一些实施方式中，多种类别的信息可以被包括在音频简报中。用户可以配置至少一些类别。在一些实施方式中，类别中的一个或多个始终被包括在音频简报中。例如，音频简报可以始终包括问候、当前时间和用户的生日(例如，祝愿用户生日快乐)。

在一些实施方式中，音频简报包括音频涂鸦(例如，当天和/或与当天相关的事实或引用)。用户可以配置是否在音频简报中包括音频涂鸦。

在一些实施方式中，音频简报包括有关用户的联系人的生日的信息。用户可以配置是否在音频简报中包括联系人的生日，以及管理从其检索联系人的生日的指向联系人信息的链接。

在一些实施方式中，音频简报包括有关用户的航班状态的信息以及针对用户的航班提醒。用户可以配置是否在音频简报中包括航班状态信息。来自用户的航班信息可以在用户授权的情况下从用户的电子邮件检索，所述电子邮件可以包括对用户所作出的航班预定的确认。用户的航班可以与可公开访问的航班状态信息进行交叉比对。

在一些实施方式中，音频简报包括用户的未读消息(例如，电子邮件、即时消息、文本消息等)。用户可以配置是否将未读消息包括在音频简报中，并且还可以配置哪些类型的消息被包括在简报中(例如，用户可能不想包括电子邮件但是想包括即时消息)。

在一些实施方式中，音频简报可以包括一个或多个位置(在一些实施方式中，多达两个位置)的天气信息。用户可以配置天气信息是否被包括在音频简报中，以及指定期望其天气信息的位置(按照城市名称或邮政编码)。包括在音频简报中的天气信息可以包括每个指定位置的当前天气以及当前的预报，音频简报可以包括设备的当前位置的天气信息，即使该位置并未被用户预先指定。

在一些实施方式中，音频简报可以包括用户工作通勤的状态或概要。该状态或概要可以以概要形式来表达(例如，“轻度”、“正常”、“重度”、估计通勤时间)和/或具有细节(例如，有关用户前去工作所搭乘的公共运输的延误的信息)。如果用户坐飞机，则简报可以包括有关前往机场而不是去上班的信息。用户可以配置是否在音频简报中包括通勤/交通信息，以及将工作地址指定为目标目的地以及优选的运输模式。

在一些实施方式中，音频简报可以包括用户的日历事件(例如，用户的下一个约见，约见的出席者)。用户可以配置是否在音频简报中包括日历事件，以及指定从其检索事件以供包括在音频简报中的日历。

在一些实施方式中，音频简报包括针对当天所设置的提醒(例如，任务)。用户可以配置是否在音频简报中包括提醒。

在一些实施方式中，音频简报可以包括财经信息(例如，股票的最新价格、交易所和股票指数)。用户可以配置是否在音频简报中包括财经信息，以及指定要将其信息包括在音频简报中的股票(按照公司名称或股票代码)、股票指数和交易所。

在一些实施方式中，音频简报可以包括体育信息(例如，体育比分)。用户可以配置是否在音频简报中包括体育信息，以及指定其体育信息要被包括在简报中的运动、联赛角逐、和/或团队。

在一些实施方式中，音频简报可以包括有关语音助理的提示和特征更新。用户可以配置是否在音频简报中包括这些提示和更新。在一些实施方式中，这些提示和更新可以每周最多一次被包括在音频简报中(例如，特征更新的每周综述、每周语音助理使用提示)。在一些实施方式中，语音助理可以延后将提示和特征更新包括在送往特定用户的音频简报中直至该用户已经多次听到该简报或者多次使用了语音助理。

在一些实施方式中，音频简报可以包括新闻和/或音乐。在一些实施方式中，新闻或音乐中的任一种而不是它们二者被包括在音频简报中。用户可以配置是否将新闻和/或音乐包括在音频简报中，以及指定要包括在音频简报中的新闻和/或音乐的类别。

在一些实施方式中，对于要在音频简报中包括什么的默认配置包括以下：开始音频简报的听觉标志，问候或打招呼(例如，“早上好”等)、当前时间、音频涂鸦、航班状态(如果用户当天坐飞机)、未读消息、天气、工作通勤、日历、提醒、语音助理提示和特征更新和新闻。

在一些实施方式中，音频简报中所包括的内容和信息基于日内时间而有所变化。例如，工作通勤信息可以从夜间音频简报中被省略，在此时工作通勤信息不太相关。

在一些实施方式中，音频简报中所包括的内容和信息基于设备能力而有所变化。例如，未读消息可以被包括在被传送至能够与消息交互的设备的音频简报中，但是在被传送至无法与消息交互的设备的音频简报中则被省略。

在一些实施方式中，音频简报由服务器114实时生成并且被实时呈现(例如，在服务器114生成音频简报的后续部分时被流送至客户端设备102)。

图4图示了依据一些实施方式的用于呈现音频简报的方法400的流程图。方法400可以由具有音频输入设备(例如，音频输入设备108)和音频输出设备(例如，音频输出设备110)的电子设备(例如，客户端设备102)所执行。在一些实施方式中，电子设备包括音频输入设备(例如，音频输入设备108)、音频输出设备(例如，音频输出设备110)、一个或多个处理器(例如，处理单元202)，以及存储要由一个或多个处理器执行的一个或多个程序的存储器(例如，存储器206)，该一个或多个程序包括用于执行方法400的指令。在一些实施方式中，一种非暂时性计算机可读存储介质存储一个或多个程序，所述一个或多个程序包括指令，所述指令在被具有音频输入设备(例如，音频输入设备108)和音频输出设备(例如，音频输出设备110)以及一个或多个处理器(例如，处理单元202)的电子设备执行时使得该电子设备执行方法400。

该设备通过音频输入设备接收(402)来自用户的口头输入。客户端设备102经由音频输入设备108(例如，麦克风)捕捉来自用户的口头输入。该口头输入可以是用于触发音频简报的输入(例如，“daily brief(每日简报)”、“what does my day looks like？(我的一天是什么样？)”)。

该设备将与所述口头输入相对应的信息传送(404)至远程设备。客户端设备102(例如，语音助理模块106)可以对该口头输入执行处理以从该口头输入提取或确定信息。客户端设备102将从该处理和/或口头输入自身所获得的信息(例如，作为音频数据)传送至服务器114。该传输还可以包括对于服务器114处理该口头输入而言有用的其它信息(例如，客户端设备102的位置、客户端设备102的类型)。

该设备从远程系统接收(406)响应于该口头输入的响应，该响应包括依据一个或多个准则的信息。在接收到从该预处理和/或口头输入自身所获得的信息之后，服务器114处理该口头输入并且生成响应。如果服务器114确定该口头输入是用于触发音频简报的输入，则每日简报模块340基于一个或多个准则而生成音频简报。该音频简报被传送至客户端设备102并且被它所接收。

该设备通过音频输出设备输出(408)该响应。客户端设备102通过音频输出设备110(例如，扬声器)输出音频简报。

在一些实施方式中，该一个或多个准则包括日内时间。服务器114可以包括在音频简报中的内容和信息可以基于日内时间而有所变化。例如，工作通勤交通信息可以在用户区域中的晚间所生成的音频简报中被省略。

在一些实施方式中，该一个或多个准则包括电子设备的类型。服务器114可以包括在音频简报中的内容和信息可以基于客户端设备102的设备类型而有所变化。一些类型的设备允许与消息进行交互，而一些则并不允许。未读消息可以被包括在针对允许与消息交互的设备所生成的音频简报中，而在针对并不允许与消息交互的设备所生成的音频简报中则被省略。

在一些实施方式中，该一个或多个准则包括电子设备的位置。服务器114可以包括在音频简报中的内容和信息可以基于客户端设备102的设备位置而有所变化。例如，如果客户端设备102已经处于用户的工作场所，则工作通勤信息可以被省略。作为另一个示例，客户端设备的当前位置的天气信息可以被包括在音频简报中，即使用户并未将该位置预先指定为期望获得天气信息的位置。

在一些实施方式中，该一个或多个准则包括用户对电子设备的使用历史。例如，有关语音助理的提示和特征更新可以从音频简报中被省略直至用户已经多次听到音频简报或者多次使用语音助理。

在一些实施方式中，信息包括来源于用户所指定的一个或多个源的信息。例如，用户可以指定服务器114可以从其获得新闻和/或音乐以供包括在音频简报中的新闻和音乐的源。作为另一个示例，用户可以指定服务器114从其获得事件以供包括在音频简报中的日历。

在一些实施方式中，信息包括与用户所指定的一个或多个类别相关联的信息。用户可以指定供包括在音频简报中或者从中排除的信息类别(例如，体育信息、财经信息、日历事件、提醒、未读消息、联系人生日等)。

在一些实施方式中，响应由远程系统实时或近实时地生成。在一些实施方式中，响应实时或近实时地从远程系统流送至电子设备，并且从远程系统接收响应于口头输入的响应包括：实时或近实时地接收所流送的响应并且输出所流送的响应。服务器114可以实时或近实时地生成音频简报，并且将音频简报流送至客户端设备102(例如，连续生成和流送直至完成)。客户端设备102在音频简报从服务器114流送时接收并输出(例如，播放)该简报。

将要理解的是，虽然术语“第一”、“第二”等可以在这里被用来描述各个要素，但是这些要素并不应当被这些要素所限制。这些术语仅用来将一个要素与另一个要素加以区分。例如，第一联系人可以被称作第二联系人，并且类似地，第二联系人可以被称作第一联系人，其并不改变描述的含义，只要所有“第一联系人”的出现被一致地重新命名且所有“第二联系人”的出现被一致地重新命名。第一联系人和第二联系人二者都是联系人，但是他们并不是相同联系人。

这里所使用的术语仅是出于描述特定实施例的目的而并非意在对权利要求书进行限制。如实施例的描述和所附权利要求书中所使用的，除非语境明确另外指出，否则单数形式“一个”、“一”和“所述”、“该”意在还包括复数形式。还将要理解的是，如这里所使用的术语“和/或”指代并包含一个或多个相关联列举项目的任意且所有的可能组合。将要进一步理解的是，当在该说明书中使用时，术语“包括”指定存在所提到的特征、整数、步骤、操作、要素和/或组件，但是并不排除存在或增加一个或多个其它特征、整数、步骤、操作、要素、组件和/或其群组。

如这里所使用的，根据语境，术语“如果”可以被理解为表示“当…时”或“在…时”或“响应于确定了”或“依据确定了”或“响应于检测到”所提到的先决条件为真。类似地，根据语境，短语“如果确定了[所提到的先决条件为真]”或者“如果[所提到的先决条件为真]”或者“当[所提到的先决条件为真]时”可以被理解为表示“在确定”或“当确定”所提到的先决条件为真“时”或者“响应于确定了”或者“依据确定了”或者“响应于检测到”所提到的先决条件为真。

现在将详细参考各种实施方式，其示例在附图中有所图示。在以下详细描述中，给出了许多具体细节以便提供对本发明和所描述实施方式的全面理解。然而，本发明可以在没有这些具体细节的情况下来实践。在其它实例中，并未对公知的方法、流程、组件和电路进行详细描述以免不必要地模糊实施方式的多个方面。

已经出于解释的目的参考具体实施例对以上描述进行了描述。然而，以上的说明性讨论并非意在是穷举的或者将实施例限制为所公开的确切形式。可能鉴于以上教导而进行许多修改和变化。实施例被选择和描述以便对本发明的原理及其实际应用进行最佳解释以因此使得本领域技术人员能够因为适于所设想的特定使用而最佳地对发明以及具有各种修改的实施方式加以利用。

Claims

1.一种方法，包括：

在包括存储器、一个或多个处理器、音频输入设备和音频输出设备的电子设备处：

通过所述音频输入设备接收来自用户的口头输入；

将与所述口头输入相对应的信息传送至远程系统；

从所述远程系统接收响应于所述口头输入的响应，所述响应包括依据一个或多个准则的信息；以及

通过所述音频输出设备输出所述响应。

2.根据权利要求1所述的方法，其中，所述一个或多个准则包括日内时间。

3.根据前述任一项权利要求所述的方法，其中，所述一个或多个准则包括所述电子设备的类型。

4.根据前述任一项权利要求所述的方法，其中，所述一个或多个准则包括所述电子设备的位置。

5.根据前述任一项权利要求所述的方法，其中，所述一个或多个准则包括所述用户对所述电子设备的使用历史。

6.根据前述任一项权利要求所述的方法，其中，所述信息包括来源于所述用户所指定的一个或多个源的信息。

7.根据前述任一项权利要求所述的方法，其中，所述信息包括与所述用户所指定的一个或多个类别相关联的信息。

8.根据前述任一项权利要求所述的方法，其中，所述响应是由所述远程系统实时或近实时地生成的。

9.根据前述任一项权利要求所述的方法，其中，所述响应是实时或近实时地从所述远程系统流送至所述电子设备的，并且从所述远程系统接收响应于所述口头输入的响应包括：实时或近实时地接收所流送的响应并且输出所流送的响应。

10.一种电子设备，包括：

音频输入设备；

音频输出设备；

一个或多个处理器；以及

存储器，所述存储器存储要由所述一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括指令以用于：

通过所述音频输入设备接收来自用户的口头输入；

将与所述口头输入相对应的信息传送至远程系统；

通过所述音频输出设备输出所述响应。

11.根据权利要求10所述的电子设备，其中，所述一个或多个准则包括日内时间。

12.根据权利要求10至11中的任一项所述的电子设备，其中，所述一个或多个准则包括所述电子设备的类型。

13.根据权利要求10至12中的任一项所述的电子设备，其中，所述一个或多个准则包括所述电子设备的位置。

14.根据权利要求10至13中的任一项所述的电子设备，其中，所述一个或多个准则包括所述用户对所述电子设备的使用历史。

15.根据权利要求10至14中的任一项所述的电子设备，其中，所述信息包括来源于所述用户所指定的一个或多个源的信息。

16.根据权利要求10至15中的任一项所述的电子设备，其中，所述信息包括与所述用户所指定的一个或多个类别相关联的信息。

17.根据权利要求10至16中的任一项所述的电子设备，其中，所述响应是由所述远程系统实时或近实时地生成的。

18.根据权利要求10至17中的任一项所述的电子设备，其中，所述响应是实时或近实时地从所述远程系统流送至所述电子设备的，并且所述电子设备包括指令以用于：实时或近实时地接收所流送的响应并且输出所流送的响应。

19.一种存储一个或多个程序的非暂时性计算机可读存储介质，所述一个或多个程序包括指令，所述指令在由具有音频输入设备、音频输出设备以及一个或多个处理器的电子设备执行时使得所述电子设备：

通过所述音频输入设备接收来自用户的口头输入；

将与所述口头输入相对应的信息传送至远程系统；

通过所述音频输出设备输出所述响应。

20.根据权利要求19所述的计算机可读存储介质，其中，所述一个或多个准则包括日内时间。

21.根据权利要求19至20中的任一项所述的计算机可读存储介质，其中，所述一个或多个准则包括所述电子设备的类型。

22.根据权利要求19至21中的任一项所述的计算机可读存储介质，其中，所述一个或多个准则包括所述电子设备的位置。

23.根据权利要求19至22中的任一项所述的计算机可读存储介质，其中，所述一个或多个准则包括所述用户对所述电子设备的使用历史。

24.根据权利要求19至23中的任一项所述的计算机可读存储介质，其中，所述信息包括来源于所述用户所指定的一个或多个源的信息。

25.根据权利要求19至24中的任一项所述的计算机可读存储介质，其中，所述信息包括与所述用户所指定的一个或多个类别相关联的信息。

26.根据权利要求19至25中的任一项所述的计算机可读存储介质，其中，所述响应是由所述远程系统实时或近实时地生成的。

27.根据权利要求19至26中的任一项所述的计算机可读存储介质，其中，所述响应是实时或近实时地从所述远程系统流送至所述电子设备的，并且所述计算机可读存储介质包括指令，所述指令在由所述电子设备执行时使得所述电子设备：实时或近实时地接收所流送的响应并且输出所流送的响应。

28.一种电子设备，包括：

音频输入设备；

音频输出设备；

一个或多个处理器；以及

存储器，所述存储器存储要由所述一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于执行根据权利要求1-9中的任一项所述的方法的指令。

29.一种存储一个或多个程序的非暂时性计算机可读存储介质，所述一个或多个程序包括指令，所述指令在由具有音频输入设备、音频输出设备以及一个或多个处理器的电子设备所执行时使得所述电子设备执行根据权利要求1-9中的任一项所述的方法。