CN115268624A - 播报通知 - Google Patents

播报通知 Download PDF

Info

Publication number
CN115268624A
CN115268624A CN202210473029.6A CN202210473029A CN115268624A CN 115268624 A CN115268624 A CN 115268624A CN 202210473029 A CN202210473029 A CN 202210473029A CN 115268624 A CN115268624 A CN 115268624A
Authority
CN
China
Prior art keywords
notification
user
output
spoken output
electronic device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210473029.6A
Other languages
English (en)
Inventor
S·耶罗朱
D·M·费舍尔
G·A·古普塔
Z·曼德罗
A·V·西姆斯
Z·拉尔吉
A·S·穆勒
A·W·马耳他
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Apple Inc
Original Assignee
Apple Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Apple Inc filed Critical Apple Inc
Publication of CN115268624A publication Critical patent/CN115268624A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B3/00Audible signalling systems; Audible personal calling systems
    • G08B3/10Audible signalling systems; Audible personal calling systems using electric transmission; using electromagnetic transmission
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Abstract

本公开涉及播报通知。本发明提供了用于操作智能自动化助理的系统和过程。在一个示例过程中,接收第一通知和第二通知,并且根据确定要将相应通知播报给用户,获得相应的第一口头输出和第二口头输出。基于这些通知的相应类型确定播报计划表,并且根据该播报计划表提供(例如,可听地播报)该第一口头输出和该第二口头输出。

Description

播报通知
技术领域
本发明整体涉及智能自动化助理,并且更具体地,涉及提供播报在一 个或多个电子设备处接收的通知的口头输出的智能自动化助理。
背景技术
智能自动化助理(或数字助理)可在人类用户与电子设备之间提供有 利界面。此类助理可允许用户使用自然语言以语音形式和/或文本形式与设 备或系统进行交互。例如,用户可向正在电子设备上运行的数字助理提供 包含用户请求的语音输入。数字助理可从该语音输入解译用户意图并且将 用户意图操作化成任务。随后可通过执行电子设备的一项或多项服务来执 行这些任务,并且可将响应于用户请求的相关输出返回给用户。
电子设备可用于提供播报所接收的通知(例如,行驶方向、应用程序 通知、呼叫或消息)的口头输出。提供口头输出允许即使在用户不查看电 子设备的显示器、用户不能查看显示器或设备缺少显示器的情况下,电子 设备的用户也可接收通知。然而,如果在短时间段内接收到多个通知,则 所提供的口头输出可能变得冗长、令人混淆或令人分心。
发明内容
本文公开了示例方法。一种示例方法包括:在具有一个或多个处理器 和存储器的电子设备处,在第一时间段内接收第一通知和第二通知;根据 确定要将该第一通知播报给该电子设备的用户,获得表示该第一通知的第 一口头输出;根据确定要将该第二通知播报给该用户,获得表示该第二通 知的第二口头输出;基于该第一通知的第一类型和该第二通知的第二类型 确定播报计划表;以及根据该播报计划表向该用户提供该第一口头输出和该第二口头输出。
本文公开了示例非暂态计算机可读介质。一种示例非暂态计算机可读 存储介质存储一个或多个程序。该一个或多个程序包括指令,这些指令当 由电子设备的一个或多个处理器执行时,使得该电子设备在第一时间段内 接收第一通知和第二通知;根据确定要将该第一通知播报给该电子设备的 用户,获得表示该第一通知的第一口头输出;根据确定要将该第二通知播 报给该用户,获得表示该第二通知的第二口头输出;基于该第一通知的第一类型和该第二通知的第二类型确定播报计划表;并且根据该播报计划表 向该用户提供该第一口头输出和该第二口头输出。
本文公开了示例电子设备。一种示例电子设备包括一个或多个处理器; 存储器;以及一个或多个程序,其中该一个或多个程序存储在该存储器中 并且被配置为由该一个或多个处理器执行,该一个或多个程序包括指令, 这些指令用于:在第一时间段内接收第一通知和第二通知;根据确定要将 该第一通知播报给该电子设备的用户,获得表示该第一通知的第一口头输 出;根据确定要将该第二通知播报给该用户,获得表示该第二通知的第二 口头输出;基于该第一通知的第一类型和该第二通知的第二类型确定播报 计划表;以及根据该播报计划表向该用户提供该第一口头输出和该第二口 头输出。
一种示例电子设备包括:用于在第一时间段内接收第一通知和第二通 知的装置;根据确定要将该第一通知播报给该电子设备的用户,获得表示 该第一通知的第一口头输出;根据确定要将该第二通知播报给该用户,获 得表示该第二通知的第二口头输出;基于该第一通知的第一类型和该第二 通知的第二类型确定播报计划表;以及根据该播报计划表向该用户提供该 第一口头输出和该第二口头输出。
本文公开了示例方法。一种示例方法包括:在具有一个或多个处理器 和存储器的电子设备处,从第一源接收第一通知;根据确定要将该第一通 知播报给该电子设备的用户,基于该第一通知生成表示该第一通知的第一 口头输出;向该用户提供该第一口头输出;在向该用户提供该第一口头输 出时,从第二源接收第二通知;根据确定要将该第二通知播报给该用户, 基于该第一通知和该第二通知生成表示该第二通知的第二口头输出;以及 向该用户提供该第二口头输出。
本文公开了示例非暂态计算机可读介质。一种示例非暂态计算机可读 存储介质存储一个或多个程序。该一个或多个程序包括指令,这些指令当 由电子设备的一个或多个处理器执行时使得该电子设备:从第一源接收第 一通知;根据确定要将该第一通知播报给该电子设备的用户,基于该第一 通知生成表示该第一通知的第一口头输出;向该用户提供该第一口头输出; 在向该用户提供该第一口头输出时,从第二源接收第二通知;根据确定要 将该第二通知播报给该用户,基于该第一通知和该第二通知生成表示该第 二通知的第二口头输出;并且向该用户提供该第二口头输出。
本文公开了示例电子设备。一种示例电子设备包括一个或多个处理器; 存储器;以及一个或多个程序,其中该一个或多个程序存储在该存储器中 并且被配置为由该一个或多个处理器执行,该一个或多个程序包括指令, 这些指令用于:从第一源接收第一通知;根据确定要将该第一通知播报给 该电子设备的用户,基于该第一通知生成表示该第一通知的第一口头输出; 向该用户提供该第一口头输出;在向该用户提供该第一口头输出时,从第 二源接收第二通知;根据确定要将该第二通知播报给该用户,基于该第一 通知和该第二通知生成表示该第二通知的第二口头输出;以及向该用户提 供该第二口头输出。
一种示例电子设备包括用于从第一源接收第一通知的装置。根据确定 要将该第一通知播报给该电子设备的用户,基于该第一通知生成表示该第 一通知的第一口头输出;向该用户提供该第一口头输出;在向该用户提供 该第一口头输出时,从第二源接收第二通知;根据确定要将该第二通知播 报给该用户,基于该第一通知和该第二通知生成表示该第二通知的第二口 头输出;以及向该用户提供该第二口头输出。
如本文所述,向用户提供播报通知的口头输出提供了用于使用电子设 备向用户提供多个通知的直观且高效的方法。例如,可根据减少用户混淆 和分心的计划表来递送多个所播报的通知—也就是说,计划表管理用户收 听多个口头输出所需的认知负载—而无需附加用户输入来重述或阐明所播 报的通知。另外,这减少电力使用并改善设备的电池寿命。又如,递送已 经根据所递送的其他口头输出的上下文格式化的口头输出增加播报的清晰 度和效率,从而减少重述或阐明所播报的通知所需的用户输入,并且另外 减少电力使用并改善设备的电池寿命。
附图说明
图1为示出了根据各种示例的用于实现数字助理的系统和环境的框图。
图2A为示出了根据各种示例的实现数字助理的客户端侧部分的便携式 多功能设备的框图。
图2B为示出了根据各种示例的用于事件处理的示例性部件的框图。
图3示出了根据各种示例的实现数字助理的客户端侧部分的便携式多 功能设备。
图4为根据各种示例的具有显示器和触敏表面的示例性多功能设备的 框图。
图5A示出了根据各种示例的便携式多功能设备上的应用程序的菜单的 示例性用户界面。
图5B示出了根据各种示例的具有与显示器分开的触敏表面的多功能设 备的示例性用户界面。
图6A示出了根据各种示例的个人电子设备。
图6B为示出了根据各种示例的个人电子设备的框图。
图7A为示出了根据各种示例的数字助理系统或其服务器部分的框图。
图7B示出了根据各种示例的在图7A中所示的数字助理的功能。
图7C示出了根据各种示例的知识本体的一部分。
图8A至图8C示出了用于根据示例性播报计划表向用户提供口头输出 的系统。
图9A至图9B为示出了用于确定播报计划表以向用户提供口头输出的 方法的流程图。
图10A至图10C示出了用于生成口头输出以提供给用户的系统。
图11A至图11B为示出了用于生成口头输出以提供给用户的方法的流 程图。
具体实施方式
在以下对示例的描述中将引用附图,在附图中以例示的方式示出了可 被实施的特定示例。应当理解,在不脱离各个示例的范围的情况下,可使 用其他示例并且可作出结构性改变。
智能自动化助理可提供播报在电子设备处接收的通知的口头输出。可 基于多个所接收的通知的相应类型确定播报计划表,从而允许对通知的口 头输出进行排序和间隔以便以直观且高效的方式递送。可基于多个所接收 的通知的相应源确定播报的格式,从而允许以直观且高效的方式递送通知。
尽管以下描述使用术语“第一”、“第二”等来描述各种元件,但这 些元件不应受术语的限制。这些术语只是用于将一个元件与另一元件区分 开。例如,在不脱离各种所述示例的范围的情况下,第一输入可被称为第 二输入,并且类似地,第二输入可被称为第一输入。第一输入和第二输入 均为输入,并且在一些情况下为独立且不同的输入。
在本文中对各种所述示例的描述中所使用的术语只是为了描述特定示 例的目的,而并非旨在进行限制。如在对各种所述示例的描述和所附权利 要求书中所使用的那样,单数形式“一个(“a”,“an”)”和“该”旨 在也包括复数形式,除非上下文另外明确地指示。还将理解的是,本文中 所使用的术语“和/或”是指并且涵盖相关联的所列出的项目中的一个或多 个项目的任何和全部可能的组合。还将理解的是,术语“包括” (“includes”、“including”、“comprises”和/或“comprising”)在本 说明书中使用时是指定存在所陈述的特征、整数、步骤、操作、元件和/或 部件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、 元件、部件和/或其分组。
根据上下文,术语“如果”可被解释为意指“当...时”(“when”或 “upon”)或“响应于确定”或“响应于检测到”。类似地,根据上下文, 短语“如果确定...”或“如果检测到[所陈述的条件或事件]”可被解释为意 指“在确定...时”或“响应于确定...”或“在检测到[所陈述的条件或事件] 时”或“响应于检测到[所陈述的条件或事件]”。
1.系统和环境
图1示出了根据各种示例的系统100的框图。在一些示例中,系统100 实现数字助理。术语“数字助理”、“虚拟助理”、“智能自动化助理” 或“自动数字助理”是指解译口头形式和/或文本形式的自然语言输入来推 断用户意图并且基于推断出的用户意图来执行动作的任何信息处理系统。 例如,为了作用于推断出的用户意图,系统执行下述步骤中的一个或多个: 识别具有设计用于实现推断出的用户意图的步骤和参数的任务流,根据推 断出的用户意图将特定要求输入到任务流中;通过调用程序、方法、服务、 API等执行任务流;以及以可听(例如,语音)和/或可视形式来生成对用 户的输出响应。
具体地,数字助理能够接受至少部分地为自然语言命令、请求、声明、 讲述和/或询问的形式的用户请求。通常,用户请求寻求数字助理作出信息 性回答或执行任务。对用户请求的令人满意的响应包括提供所请求的信息 性回答、执行所请求的任务或这两者的组合。例如,用户向数字助理提出 问题,诸如“我现在在哪里?”。基于用户的当前位置,数字助理回答“你 在中央公园西门附近。”用户还请求执行任务,例如“请邀请我的朋友们 下周来参加我女朋友的生日聚会。”作为响应,数字助理可通过讲出“好 的,马上”来确认请求,然后代表用户将合适的日历邀请发送到用户电子 通讯录中列出的用户朋友中的每位朋友。在执行所请求的任务期间,数字 助理有时在很长时间段内在涉及多次信息交换的持续对话中与用户进行交 互。存在与数字助理进行交互以请求信息或执行各种任务的许多其他方法。 除提供言语响应并采取经编程的动作之外,数字助理还提供其他视频或音 频形式的响应,例如作为文本、警报、音乐、视频、动画等。
如图1所示,在一些示例中,数字助理根据客户端-服务器模型来实现。 数字助理包括在用户设备104上执行的客户端侧部分102(后文称作“DA 客户端102”)以及在服务器系统108上执行的服务器侧部分106(后文称 作“DA服务器106”)。DA客户端102通过一个或多个网络110与DA服 务器106通信。DA客户端102提供客户端侧功能,诸如面向用户的输入和 输出处理,以及与DA服务器106通信。DA服务器106为各自位于相应用 户设备104上的任意数量的DA客户端102提供服务器侧功能。
在一些示例中,DA服务器106包括面向客户端的I/O接口112、一个 或多个处理模块114、数据与模型116,以及到外部服务的I/O接口118。面 向客户端的I/O接口112有利于DA服务器106的面向客户端的输入和输出 处理。一个或多个处理模块114利用数据与模型116来处理语音输入,并基 于自然语言输入来确定用户意图。此外,一个或多个处理模块114基于推断 出的用户意图来执行任务执行。在一些示例中,DA服务器106通过一个或 多个网络110与外部服务120通信以完成任务或采集信息。到外部服务的 I/O接口118有利于此类通信。
用户设备104可以是任何合适的电子设备。在一些示例中,用户设备 104为便携式多功能设备(例如,下文参考图2A所述的设备200)、多功 能设备(例如,下文参考图4所述的设备400)或个人电子设备(例如,下 文参考图6A至图6B所述的设备600)。便携式多功能设备为例如还包含其 他功能诸如PDA和/或音乐播放器功能的移动电话。便携式多功能设备的特 定示例包括来自Apple Inc.(Cupertino,California)的Apple
Figure BDA0003623795170000071
iPod
Figure BDA0003623795170000072
Figure BDA0003623795170000073
设备。便携式多功能设备的其他示例包括但不限于耳塞 式耳机/头戴式耳机、扬声器以及膝上型电脑或平板电脑。此外,在一些示 例中,用户设备104是非便携式多功能设备。具体地,用户设备104是台式 计算机、游戏机、扬声器、电视或电视机顶盒。在一些示例中,用户设备 104包括触敏表面(例如,触摸屏显示器和/或触控板)。此外,用户设备 104任选地包括一个或多个其他物理用户接口设备,诸如物理键盘、鼠标和 /或操纵杆。下文更详细地描述了电子设备诸如多功能设备的各种示例。
一个或多个通信网络110的示例包括局域网(LAN)和广域网(WAN),例 如互联网。一个或多个通信网络110使用任何已知的网络协议来实现,包括 各种有线或无线协议,诸如以太网、通用串行总线(USB)、FIREWIRE、全 球移动通信系统(GSM)、增强型数据GSM环境(EDGE)、码分多址(CDMA)、 时分多址(TDMA)、蓝牙、Wi-Fi、互联网协议语音(VoIP)、Wi-MAX或任何 其他合适的通信协议。
服务器系统108在一个或多个独立式数据处理设备或分布式计算机网 络上实现。在一些示例中,服务器系统108还采用第三方服务提供方(例如, 第三方云服务提供方)的各种虚拟设备和/或服务来提供服务器系统108的 潜在计算资源和/或基础结构资源。
在一些示例中,用户设备104经由第二用户设备122与DA服务器106 通信。第二用户设备122与用户设备104相似或相同。例如,第二用户设备122类似于下文参考图2A、图4和图6A至图6B所述的设备200、400或 600。用户设备104被配置为经由直接通信连接(诸如蓝牙、NFC、BTLE等) 或者经由有线或无线网络(诸如局域Wi-Fi网络)而被通信地耦接到第二用 户设备122。在一些示例中,第二用户设备122被配置为充当用户设备104 与DA服务器106之间的代理。例如,用户设备104的DA客户端102被配 置为经由第二用户设备122向DA服务器106传输信息(例如,在用户设备 104处接收的用户请求)。DA服务器106处理该信息,并经由第二用户设 备122将相关数据(例如,响应于用户请求的数据内容)返回到用户设备104。
在一些示例中,用户设备104被配置为将针对数据的缩略请求发送到 第二用户设备122,以减少从用户设备104传输的信息量。第二用户设备 122被配置为确定添加到缩略请求的补充信息,以生成完整的请求来传输到 DA服务器106。该系统架构可有利地通过使用具有较强通信能力和/或电池 电力的第二用户设备122(例如,移动电话、膝上型计算机、平板电脑等) 作为到DA服务器106的代理,允许具有有限通信能力和/或有限电池电力 的用户设备104(例如,手表或类似的紧凑型电子设备)访问DA服务器 106提供的服务。虽然图1中仅示出两个用户设备104和122,但应当理解, 在一些示例中,系统100可包括在此代理配置中被配置为与DA服务器系统 106通信的任意数量和类型的用户设备。
虽然图1中所示的数字助理包括客户端侧部分(例如,DA客户端102) 和服务器侧部分(例如,DA服务器106)两者,但在一些示例中,数字助 理的功能被实现为被安装在用户设备上的独立式应用程序。此外,数字助 理的客户端部分与服务器部分之间的功能划分在不同的具体实施中可变化。 例如,在一些示例中,DA客户端为仅提供面向用户的输入和输出处理功能 并将数字助理的所有其他功能委派给后端服务器的瘦客户端。
2.电子设备
现在将注意力转至用于实现数字助理的客户端侧部分的电子设备的实 施方案。图2A是示出了根据一些实施方案的具有触敏显示器系统212的便 携式多功能设备200的框图。触敏显示器212有时为了方便被叫做“触摸 屏”,并且有时被称为或被叫做“触敏显示器系统”。设备200包括存储器202(其任选地包括一个或多个计算机可读存储介质)、存储器控制器222、 一个或多个处理单元(CPU)220、外围设备接口218、RF电路208、音频电 路210、扬声器211、麦克风213、输入/输出(I/O)子系统206、其他输入控 制设备216和外部端口224。设备200任选地包括一个或多个光学传感器 264。设备200任选地包括用于检测设备200(例如设备200的触敏表面诸 如触敏显示器系统212)上的接触的强度的一个或多个接触强度传感器265。 设备200任选地包括用于在设备200上生成触觉输出(例如,在触敏表面诸 如设备200的触敏显示器系统212或设备400的触控板455上生成触觉输 出)的一个或多个触觉输出发生器267。这些部件任选地通过一个或多个通 信总线或信号线203进行通信。
如在本说明书和权利要求书中所使用的,术语触敏表面上的接触的 “强度”是指触敏表面上的接触(例如,手指接触)的力或压力(每单位 面积的力),或是指触敏表面上的接触的力或压力的替代物(代用物)。 接触的强度具有值范围,该值范围包括至少四个不同的值并且更典型地包 括上百个不同的值(例如,至少256个)。接触的强度任选地使用各种方法 和各种传感器或传感器的组合来确定(或测量)。例如,在触敏表面下方 或相邻于触敏表面的一个或多个力传感器任选地用于测量触敏表面上的不 同点处的力。在一些具体实施中,来自多个力传感器的力测量值被组合 (例如,加权平均)以确定所估计的接触力。类似地,触笔的压敏顶端任 选地用于确定触笔在触敏表面上的压力。另选地,在触敏表面上检测到的 接触区域的大小和/或其变化、接触附近的触敏表面的电容和/或其变化以及/或者接触附近的触敏表面的电阻和/或其变化任选地被用作触敏表面上的接 触的力或压力的替代物。在一些具体实施中,接触力或压力的替代物测量 直接用于确定是否已经超过强度阈值(例如,强度阈值以对应于替代物测 量的单位来描述)。在一些具体实施中,接触力或压力的替代物测量被转 换成估计的力或压力,并且估计的力或压力用于确定是否已超过强度阈值 (例如,强度阈值是以压力的单位进行测量的压力阈值)。使用接触的强 度作为用户输入的属性,从而允许用户访问用户在实地面积有限的尺寸更 小的设备上本来不可访问的附加设备功能,该尺寸更小的设备用于(例如, 在触敏显示器上)显示示能表示和/或接收用户输入(例如,经由触敏显示 器、触敏表面或物理控件/机械控件,诸如旋钮或按钮)。
如本说明书和权利要求书中所使用的,术语“触觉输出”是指将由用 户利用用户的触感检测到的设备相对于设备的先前位置的物理位移、设备 的部件(例如,触敏表面)相对于设备的另一个部件(例如,外壳)的物 理位移、或部件相对于设备的质心的位移。例如,在设备或设备的部件与 用户对触摸敏感的表面(例如,手指、手掌或用户手部的其他部分)接触 的情况下,通过物理位移生成的触觉输出将由用户解释为触感,该触感对 应于设备或设备的部件的物理特征的所感知的变化。例如,触敏表面(例 如,触敏显示器或触控板)的移动任选地由用户解释为对物理致动按钮的 “按下点击”或“松开点击”。在一些情况下,用户将感觉到触感,诸如 “按下点击”或“松开点击”,即使在通过用户的移动而物理地被按压 (例如,被移位)的与触敏表面相关联的物理致动按钮没有移动时。又如, 即使在触敏表面的光滑度无变化时,触敏表面的移动也会任选地由用户解 释或感测为触敏表面的“粗糙度”。虽然用户对触摸的此类解释将受到用 户的个体化感官知觉的限制,但是对触摸的许多感官知觉是大多数用户共 有的。因此,当触觉输出被描述为对应于用户的特定感官知觉(例如, “按下点击”、“松开点击”、“粗糙度”)时,除非另外陈述,否则所 生成的触觉输出对应于设备或其部件的物理位移,该物理位移将会生成典 型(或普通)用户的所述感官知觉。
应当理解,设备200仅是便携式多功能设备的一个示例,并且设备200 任选地具有比所示出的更多或更少的部件,任选地组合两个或更多个部件, 或者任选地具有这些部件的不同配置或布置。图2A中所示的各种部件以硬 件、软件、或硬件与软件两者的组合来实现,包括一个或多个信号处理和/ 或专用集成电路。
存储器202包括一个或多个计算机可读存储介质。这些计算机可读存 储介质例如为有形的和非暂态的。存储器202包括高速随机存取存储器,并 且还包括非易失性存储器,诸如一个或多个磁盘存储设备、闪存存储器设 备或其他非易失性固态存储器设备。存储器控制器222控制设备200的其他 部件访问存储器202。
在一些示例中,存储器202的非暂态计算机可读存储介质用于存储指 令(例如,用于执行下文描述的过程的各方面)以供指令执行系统、装置 或设备诸如基于计算机的系统、包含处理器的系统或可从指令执行系统、 装置或设备取出指令并执行指令的其他系统使用或与其结合使用。在其他 示例中,指令(例如,用于执行下文描述的过程的各方面)存储在服务器 系统108的非暂态计算机可读存储介质(未示出)上,或在存储器202的非 暂态计算机可读存储介质与服务器系统108的非暂态计算机可读存储介质之 间划分。
外围设备接口218用于将设备的输入和输出外围设备耦接到CPU 220 和存储器202。一个或多个处理器220运行或执行存储器202中所存储的各 种软件程序和/或指令集以执行设备200的各种功能并处理数据。在一些实 施方案中,外围设备接口218、CPU 220和存储器控制器222在单个芯片诸 如芯片204上实现。在一些其他实施方案中,它们在独立的芯片上实现。
RF(射频)电路208接收和发送也被称作电磁信号的RF信号。RF电 路208将电信号转换为电磁信号/将电磁信号转换为电信号,并且经由电磁 信号与通信网络及其他通信设备进行通信。RF电路208任选地包括用于执 行这些功能的熟知的电路,包括但不限于天线系统、RF收发器、一个或多 个放大器、调谐器、一个或多个振荡器、数字信号处理器、编解码芯片组、 用户身份模块(SIM)卡、存储器等等。RF电路208任选地通过无线通信来与 网络和其他设备进行通信,这些网络为诸如互联网(也被称为万维网 (WWW))、内联网和/或无线网络(诸如,蜂窝电话网络、无线局域网 (LAN)和/或城域网(MAN))。RF电路208任选地包括用于诸如通过近程通 信无线电部件来检测近场通信(NFC)场的熟知的电路。无线通信任选地使用 多种通信标准、协议和技术中的任一种,包括但不限于全球移动通信系统 (GSM)、增强型数据GSM环境(EDGE)、高速下行链路分组接入(HSDPA)、 高速上行链路分组接入(HSUPA)、演进、纯数据(EV-DO)、HSPA、HSPA+、 双小区HSPA(DC-HSPDA)、长期演进(LTE)、近场通信(NFC)、宽带码分多 址(W-CDMA)、码分多址(CDMA)、时分多址(TDMA)、蓝牙、蓝牙低功耗 (BTLE)、无线保真(Wi-Fi)(例如,IEEE 802.11a、IEEE 802.11b、IEEE 802.11g、IEEE802.11n和/或IEEE 802.11ac)、互联网协议语音(VoIP)、Wi- MAX、电子邮件协议(例如,互联网消息访问协议(IMAP)和/或邮局协议 (POP))、即时消息(例如,可扩展消息处理和存在协议(XMPP)、用于即 时消息和存在利用扩展的会话发起协议(SIMPLE)、即时消息和存在服务 (IMPS))和/或短消息服务(SMS),或者任何其他适当的通信协议,包括在 本文档提交日期时尚未开发出的通信协议。
音频电路210、扬声器211和麦克风213提供用户与设备200之间的音 频接口。音频电路210从外围设备接口218接收音频数据,将音频数据转换 为电信号,并将电信号传输到扬声器211。扬声器211将电信号转换为人类 可听到的声波。音频电路210还接收由麦克风213从声波转换的电信号。音 频电路210将电信号转换为音频数据,并且将音频数据传输到外围设备接口 218以用于处理。音频数据通过外围设备接口218检索自和/或传输至存储器202和/或RF电路208。在一些实施方案中,音频电路210还包括耳麦插孔 (例如,图3中的312)。该耳麦插孔提供音频电路210与可移除的音频输 入/输出外围设备之间的接口,该可移除的音频输入/输出外围设备诸如仅输 出的耳机或者具有输出(例如,单耳耳机或双耳耳机)和输入(例如,麦 克风)两者的耳麦。
I/O子系统206将设备200上的输入/输出外围设备诸如触摸屏212和其 他输入控制设备216耦接到外围设备接口218。I/O子系统206任选地包括 显示控制器256、光学传感器控制器258、强度传感器控制器259、触觉反 馈控制器261,以及用于其他输入或控制设备的一个或多个输入控制器260。 一个或多个输入控制器260从其他输入控制设备216接收电信号/将电信号 发送到其他输入控制设备。其他输入控制设备216任选地包括物理按钮(例如,下压按钮、摇臂按钮等)、拨号盘、滑动开关、操纵杆、点击轮等。 在一些另选实施方案中,输入控制器260任选地耦接至以下各项中的任一者 (或不耦接至以下各项中的任一者):键盘、红外线端口、USB端口以及 指向设备诸如鼠标。一个或多个按钮(例如,图3中的308)任选地包括用 于扬声器211和/或麦克风213的音量控制的增大/减小按钮。一个或多个按 钮任选地包括下压按钮(例如,图3中的306)。
快速按下下压按钮会脱离触摸屏212的锁定或者开始使用触摸屏上的 手势来对设备进行解锁的过程,如在2005年12月23日提交的名称为 “Unlocking a Device byPerforming Gestures on an Unlock Image”的美国专 利7657849号的美国专利申请11/322549中所述,该美国专利申请据此全文 以引用方式并入本文。较长地按下下压按钮(例如,306)使设备200开机 或关机。用户能够自定义一个或多个按钮的功能。触摸屏212用于实现虚拟 按钮或软按钮以及一个或多个软键盘。
触敏显示器212提供设备和用户之间的输入接口和输出接口。显示控 制器256从触摸屏212接收电信号和/或将电信号发送至触摸屏212。触摸屏 212向用户显示视觉输出。视觉输出包括图形、文本、图标、视频及其任何 组合(统称为“图形”)。在一些实施方案中,一些视觉输出或全部视觉 输出对应于用户界面对象。
触摸屏212具有基于触觉和/或触感接触来接受来自用户的输入的触敏 表面、传感器或传感器组。触摸屏212和显示控制器256(与存储器202中 的任何相关联的模块和/或指令集一起)检测触摸屏212上的接触(和该接 触的任何移动或中断),并且将所检测到的接触转换为与被显示在触摸屏 212上的用户界面对象(例如,一个或多个软键、图标、网页或图像)的交 互。在示例性实施方案中,触摸屏212与用户之间的接触点对应于用户的手指。
触摸屏212使用LCD(液晶显示器)技术、LPD(发光聚合物显示器) 技术或LED(发光二极管)技术,但在其他实施方案中可使用其他显示技 术。触摸屏212和显示控制器256使用目前已知或以后将开发的多种触摸感 测技术中的任何技术,以及其他接近传感器阵列或用于确定与触摸屏212接 触的一个或多个点的其他元件来检测接触及其任何移动或中断,所述多种 触摸感测技术包括但不限于电容式、电阻式、红外和表面声波技术。在示 例性实施方案中,使用投射式互电容感测技术,诸如在来自Apple Inc. (Cupertino,California)的
Figure BDA0003623795170000131
和iPod
Figure BDA0003623795170000132
中使用的技术。
在一些实施方案中,触摸屏212的触敏显示器类似于以下美国专利: 6,323,846(Westerman等人)、6,570,557(Westerman等人)和/或6,677,932 (Westerman)和/或美国专利公开2002/0015024A1中所述的多点触敏触控 板,这些专利申请均据此全文以引用方式并入本文。然而,触摸屏212显示 来自设备200的视觉输出,而触敏触控板不提供视觉输出。
在一些实施方案中,触摸屏212的触敏显示器如以下申请所述:(1) 2006年5月2日提交的名称为“Multipoint Touch Surface Controller”的美国 专利申请11/381313号;(2)2004年5月6日提交的名称为“Multipoint Touchscreen”的美国专利申请No.10/840,862;(3)2004年7月30日提交的 名称为“Gestures For Touch Sensitive Input Devices”的美国专利申请No. 10/903,964;(4)2005年1月31日提交的名称为“Gestures For TouchSensitive Input Devices”的美国专利申请No.11/048,264;(5)2005年1月18日提交的 名称为“Mode-Based Graphical User Interfaces For Touch Sensitive Input Devices”的美国专利申请No.11/038,590;(6)2005年9月16日提交的名称 为“Virtual InputDevice Placement On A Touch Screen User Interface”的美国 专利申请No.11/228,758;(7)2005年9月16日提交的名称为“Operation Of A Computer With A Touch ScreenInterface”的美国专利申请No.11/228,700; (8)2005年9月16日提交的名称为“Activating Virtual Keys Of A Touch- Screen Virtual Keyboard”的美国专利申请No.11/228,737;以及(9)2006年3 月3日提交的名称为“Multi-Functional Hand-HeldDevice”的美国专利申请 No.11/367,749。所有这些申请全文以引用方式并入本文。
触摸屏212例如具有超过100dpi的视频分辨率。在一些实施方案中, 触摸屏具有约160dpi的视频分辨率。用户使用任何合适的对象或附加物诸 如触笔、手指等与触摸屏212进行接触。在一些实施方案中,将用户界面设 计为主要通过基于手指的接触和手势来工作,由于手指在触摸屏上的接触 区域较大,因此这可能不如基于触笔的输入精确。在一些实施方案中,设 备将基于手指的粗略输入转化为精确的指针/光标位置或命令以用于执行用 户所期望的动作。
在一些实施方案中,除了触摸屏之外,设备200还包括用于激活或去 激活特定功能的触控板(未示出)。在一些实施方案中,触控板是设备的 触敏区域,与触摸屏不同,该触敏区域不显示视觉输出。触控板是与触摸 屏212分开的触敏表面,或者是由触摸屏形成的触敏表面的延伸。
设备200还包括用于为各种部件供电的电力系统262。电力系统262包 括电力管理系统、一个或多个电源(例如,电池、交流电(AC))、再充电 系统、电力故障检测电路、功率转换器或逆变器、电力状态指示器(例如, 发光二极管(LED))和与便携式设备中电力的生成、管理和分配相关联的任 何其他部件。
设备200还包括一个或多个光学传感器264。图2A示出了耦接到I/O 子系统206中的光学传感器控制器258的光学传感器。光学传感器264包括 电荷耦合器件(CCD)或互补金属氧化物半导体(CMOS)光电晶体管。光学传 感器264从环境接收通过一个或多个透镜而投射的光,并且将光转换为表示 图像的数据。结合成像模块243(也叫做相机模块),光学传感器264捕获 静态图像或视频。在一些实施方案中,光学传感器位于设备200的后部,与 设备前部的触摸屏显示器212相背对,使得触摸屏显示器被用作用于静态图 像和/或视频图像采集的取景器。在一些实施方案中,光学传感器位于设备 的前部,使得在用户在触摸屏显示器上查看其他视频会议参与者的同时获 取该用户的图像以用于视频会议。在一些实施方案中,光学传感器264的位 置可由用户改变(例如,通过旋转设备外壳中的透镜和传感器),使得单 个光学传感器264与触摸屏显示器一起使用,以用于视频会议和静态图像和 /或视频图像采集两者。
设备200任选地还包括一个或多个接触强度传感器265。图2A示出了 耦接到I/O子系统206中的强度传感器控制器259的接触强度传感器。接触 强度传感器265任选地包括一个或多个压阻应变仪、电容式力传感器、电气 力传感器、压电力传感器、光学力传感器、电容式触敏表面或其他强度传 感器(例如,用于测量触敏表面上的接触的力(或压力)的传感器)。接 触强度传感器265从环境接收接触强度信息(例如,压力信息或压力信息的 代用物)。在一些实施方案中,至少一个接触强度传感器与触敏表面(例 如,触敏显示器系统212)并置排列或邻近。在一些实施方案中,至少一个 接触强度传感器位于设备200的后部上,与位于设备200的前部上的触摸屏 显示器212相背对。
设备200还包括一个或多个接近传感器266。图2A示出了耦接到外围 设备接口218的接近传感器266。另选地,接近传感器266耦接到I/O子系 统206中的输入控制器260。接近传感器266如以下美国专利申请中所述的 那样执行:11/241839号,名称为“ProximityDetector In Handheld Device”; No.11/240,788,名称为“Proximity Detector InHandheld Device”;No. 11/620,702,名称为“Using Ambient Light Sensor To AugmentProximity Sensor Output”;No.11/586,862,名称为“Automated Response To AndSensing Of User Activity In Portable Devices”;以及No.11/638,251,名称为“Methods And Systems For Automatic Configuration Of Peripherals”,这些美 国专利申请据此全文以引用方式并入本文。在一些实施方案中,当多功能 设备被置于用户的耳朵附近时(例如,当用户正在进行电话呼叫时),接 近传感器关闭并且禁用触摸屏212。
设备200任选地还包括一个或多个触觉输出发生器267。图2A示出了 耦接到I/O子系统206中的触觉反馈控制器261的触觉输出发生器。触觉输 出发生器267任选地包括一个或多个电声设备诸如扬声器或其他音频部件; 和/或用于将能量转换成线性运动的机电设备诸如电机、螺线管、电活性聚 合器、压电致动器、静电致动器或其他触觉输出生成部件(例如,用于将 电信号转换成设备上的触觉输出的部件)。接触强度传感器265从触觉反馈模块233接收触觉反馈生成指令,并且在设备200上生成能够由设备200的 用户感觉到的触觉输出。在一些实施方案中,至少一个触觉输出发生器与 触敏表面(例如,触敏显示器系统212)并置排列或邻近,并且任选地通过 竖直地(例如,向设备200的表面内/外)或侧向地(例如,在与设备200 的表面相同的平面中向后和向前)移动触敏表面来生成触觉输出。在一些 实施方案中,至少一个触觉输出发生器传感器位于设备200的后部上,与位 于设备200的前部上的触摸屏显示器212相背对。
设备200还包括一个或多个加速度计268。图2A示出了耦接到外围设 备接口218的加速度计268。另选地,加速度计268耦接至I/O子系统206 中的输入控制器260。加速度计268如以下美国专利公开中所述那样执行: 美国专利公开20050190059号,“Acceleration-based Theft Detection System for Portable Electronic Devices”和美国专利公开20060017692号,“Methods And Apparatuses For Operating A Portable Device BasedOn An Accelerometer”, 这两个美国专利公开全文以引用方式并入本文。在一些实施方案中,基于 对从一个或多个加速度计接收的数据的分析来在触摸屏显示器上以纵向视 图或横向视图显示信息。设备200任选地除了一个或多个加速度计268之外 还包括磁力仪(未示出)和GPS(或GLONASS或其他全球导航系统)接 收器(未示出),以用于获取关于设备200的位置和取向(例如,纵向或横 向)的信息。
在一些实施方案中,存储于存储器202中的软件部件包括操作系统226、 通信模块(或指令集)228、接触/运动模块(或指令集)230、图形模块 (或指令集)232、文本输入模块(或指令集)234、全球定位系统(GPS)模 块(或指令集)235、数字助理客户端模块229以及应用程序(或指令集) 236。此外,存储器202存储数据与模型,诸如用户数据与模型231。此外,在一些实施方案中,存储器202(图2A)或470(图4)存储设备/全局内部 状态257,如图2A和图4中所示。设备/全局内部状态257包括以下中的一 者或多者:活动应用程序状态,其指示哪些应用程序(如果有的话)当前 是活动的;显示状态,其指示什么应用程序、视图或其他信息占据触摸屏 显示器212的各个区域;传感器状态,包括从设备的各个传感器和输入控制 设备216获取的信息;以及关于设备的位置和/或姿态的位置信息。
操作系统226(例如,Darwin、RTXC、LINUX、UNIX、OS X、iOS、 WINDOWS、或嵌入式操作系统诸如VxWorks)包括用于控制和管理一般 系统任务(例如,存储器管理、存储设备控制、电源管理等)的各种软件 部件和/或驱动程序,并且促进各种硬件部件和软件部件之间的通信。
通信模块228便于通过一个或多个外部端口224来与其他设备进行通 信,并且还包括用于处理由RF电路208和/或外部端口224所接收的数据的 各种软件组件。外部端口224(例如,通用串行总线(USB)、火线等)适于 直接耦接到其他设备,或间接地通过网络(例如,互联网、无线LAN等) 进行耦接。在一些实施方案中,外部端口是与
Figure BDA0003623795170000171
(Apple Inc.的商标)设 备上所使用的30针连接器相同的或类似的和/或与其兼容的多针(例如,30 针)连接器。
接触/运动模块230任选地检测与触摸屏212(结合显示控制器256)和 其他触敏设备(例如,触控板或物理点击式转盘)的接触。接触/运动模块 230包括各种软件部件以用于执行与接触检测相关的各种操作,诸如确定是 否已发生接触(例如,检测手指按下事件)、确定接触强度(例如,接触 的力或压力,或者接触的力或压力的替代物)、确定是否存在接触的移动 并跟踪在触敏表面上的移动(例如,检测一个或多个手指拖动事件),以 及确定接触是否已停止(例如,检测手指抬起事件或接触断开)。接触/运 动模块230从触敏表面接收接触数据。确定接触点的移动任选地包括确定接 触点的速率(量值)、速度(量值和方向)和/或加速度(量值和/或方向的 改变),所述接触点的移动由一系列接触数据表示。这些操作任选地被应 用于单点接触(例如,单指接触)或者多点同时接触(例如,“多点触摸” /多个手指接触)。在一些实施方案中,接触/运动模块230和显示控制器 256检测触控板上的接触。
在一些实施方案中,接触/运动模块230使用一组一个或多个强度阈值 来确定操作是否已由用户执行(例如,确定用户是否已“点击”图标)。 在一些实施方案中,根据软件参数来确定强度阈值的至少一个子集(例如, 强度阈值不是由具体物理致动器的激活阈值来确定的,并且可在不改变设 备200的物理硬件的情况下被调节)。例如,在不改变触控板或触摸屏显示 器硬件的情况下,触控板或触摸屏的鼠标“点击”阈值可被设定成预定义 的阈值的大范围中的任一个阈值。另外,在一些具体实施中,向设备的用 户提供用于调节一组强度阈值中的一个或多个强度阈值(例如,通过调节 各个强度阈值和/或通过利用对“强度”参数的系统级点击来一次调节多个 强度阈值)的软件设置。
接触/运动模块230任选地检测用户的手势输入。触敏表面上的不同手 势具有不同的接触模式(例如,所检测到的接触的不同运动、计时和/或强 度)。因此,任选地通过检测特定接触模式来检测手势。例如,检测手指 轻击手势包括检测手指按下事件,然后在与手指按下事件相同的位置(或 基本上相同的位置)处(例如,在图标的位置处)检测手指抬起(抬离) 事件。作为另一个示例,在触敏表面上检测手指轻扫手势包括检测手指按 下事件,然后检测一个或多个手指拖动事件,并且随后检测手指抬起(抬 离)事件。
图形模块232包括用于在触摸屏212或其他显示器上呈现和显示图形的 各种已知的软件部件,包括用于改变所显示的图形的视觉冲击(例如,亮 度、透明度、饱和度、对比度或其他视觉特征)的部件。如本文所用,术 语“图形”包括可被显示给用户的任何对象,非限制性地包括文本、网页、 图标(诸如,包括软键的用户界面对象)、数字图像、视频、动画等。
在一些实施方案中,图形模块232存储表示待使用的图形的数据。每 个图形任选地被分配有对应的代码。图形模块232从应用程序等接收指定待 显示的图形的一个或多个代码,在必要的情况下还一起接收坐标数据和其 他图形属性数据,并且然后生成屏幕图像数据,以输出至显示控制器256。
触觉反馈模块233包括用于生成指令的各种软件部件,该指令由一个 或多个触觉输出发生器267使用,以便响应于用户与设备200的交互而在设 备200上的一个或多个位置处产生触觉输出。
在一些示例中作为图形模块232的部件的文本输入模块234提供用于在 各种应用程序(例如,联系人237、电子邮件240、IM 241、浏览器247和 需要文本输入的任何其他应用程序)中输入文本的软键盘。
GPS模块235确定设备的位置,并提供该信息以供在各种应用程序中 使用(例如提供给电话238以供在基于位置的拨号中使用;提供给相机243 作为图片/视频元数据;以及提供给提供基于位置的服务的应用,诸如天气 桌面小程序、本地黄页桌面小程序和地图/导航桌面小程序)。
数字助理客户端模块229包括各种客户端侧数字助理指令,以提供数 字助理的客户端侧功能。例如,数字助理客户端模块229能够通过便携式多 功能设备200的各种用户接口(例如,麦克风213、一个或多个加速度计 268、触敏显示器系统212、一个或多个光学传感器264、其他输入控制设备 216等)接受声音输入(例如,语音输入)、文本输入、触摸输入和/或手 势输入。数字助理客户端模块229还能够通过便携式多功能设备200的各种 输出接口(例如,扬声器211、触敏显示器系统212、一个或多个触觉输出 生成器267等)提供音频形式的输出(例如,语音输出)、视觉形式的输出 和/或触觉形式的输出。例如,将输出提供为语音、声音、警报、文本消息、 菜单、图形、视频、动画、振动和/或以上两者或更多者的组合。在操作期 间,数字助理客户端模块229使用RF电路208与DA服务器106通信。
用户数据与模型231包括与用户相关联的各种数据(例如,用户特定 的词汇数据、用户偏好数据、用户指定的名称发音、来自用户电子地址簿 的数据、待办事项、购物清单等)以提供数字助理的客户端侧功能。此外, 用户数据与模型231包括用于处理用户输入并且确定用户意图的各种模型(例如,语音识别模型、统计语言模型、自然语言处理模型、知识本体、 任务流模型、服务模型等)。
在一些示例中,数字助理客户端模块229利用便携式多功能设备200的 各种传感器、子系统和外围设备来从便携式多功能设备200的周围环境采集 附加信息,以建立与用户、当前用户交互和/或当前用户输入相关联的上下 文。在一些示例中,数字助理客户端模块229将上下文信息或其子集与用户 输入一起提供至DA服务器106以帮助推断用户意图。在一些示例中,数字 助理还使用上下文信息来确定如何准备输出并将其传送给用户。上下文信 息被称为上下文数据。
在一些示例中,伴随用户输入的上下文信息包括传感器信息,例如照 明、环境噪声、环境温度、周围环境的图像或视频等。在一些示例中,上 下文信息还可包括设备的物理状态,例如设备取向、设备位置、设备温度、 功率电平、速度、加速度、运动模式、蜂窝信号强度等。在一些示例中, 将与DA服务器106的软件状态相关的信息,例如便携式多功能设备200的 运行过程、已安装程序、过去和当前的网络活动、后台服务、错误日志、 资源使用等,作为与用户输入相关联的上下文信息提供至DA服务器106。
在一些示例中,数字助理客户端模块229响应于来自DA服务器106的 请求而选择性地提供存储在便携式多功能设备200上的信息(例如,用户数 据231)。在一些示例中,数字助理客户端模块229还在DA服务器106请 求时引出来自用户经由自然语言对话或其他用户接口的附加输入。数字助 理客户端模块229将该附加输入传送至DA服务器106,以帮助DA服务器 106进行意图推断和/或实现在用户请求中表达的用户意图。
下面参考图7A至图7C对数字助理进行更详细的描述。应当认识到, 数字助理客户端模块229可包括下文所述的数字助理模块726的任意数量的 子模块。
应用程序236包括以下模块(或指令集)或者其子集或超集:
·联系人模块237(有时称为通讯录或联系人列表);
·电话模块238;
·视频会议模块239;
·电子邮件客户端模块240;
·即时消息(IM)模块241;
·健身支持模块242;
·用于静态图像和/或视频图像的相机模块243;
·图像管理模块244;
·视频播放器模块;
·音乐播放器模块;
·浏览器模块247;
·日历模块248;
·桌面小程序模块249,其在一些示例中包括以下各项中的一者或多 者:天气桌面小程序249-1、股票桌面小程序249-2、计算器桌面小 程序249-3、闹钟桌面小程序249-4、词典桌面小程序249-5和用户 获取的其他桌面小程序以及用户创建的桌面小程序249-6;
·用于形成用户创建的桌面小程序249-6的桌面小程序创建器模块250;
·搜索模块251;
·视频和音乐播放器模块252,其合并视频播放器模块和音乐播放器 模块;
·记事本模块253;
·地图模块254;以及/或者
·在线视频模块255。
存储在存储器202中的其他应用程序236的示例包括其他文字处理应用 程序、其他图像编辑应用程序、绘图应用程序、呈现应用程序、支持JAVA 的应用程序、加密、数字权限管理、声音识别和声音复制。
结合触摸屏212、显示控制器256、接触/运动模块230、图形模块232、 和文本输入模块234,联系人模块237用于管理通讯录或联系人列表(例如, 存储在存储器202或存储器470中的联系人模块237的应用程序内部状态 292中),包括:将一个或多个姓名添加到通讯录;从通讯录删除姓名;将 电话号码、电子邮件地址、物理地址或其他信息与姓名关联;将图像与姓 名关联;对姓名进行归类和分类;提供电话号码或电子邮件地址来发起和/ 或促进通过电话238、视频会议模块239、电子邮件240或IM 241进行的通 信;等等。
结合RF电路208、音频电路210、扬声器211、麦克风213、触摸屏 212、显示控制器256、接触/运动模块230、图形模块232和文本输入模块 234,电话模块238用于输入对应于电话号码的字符序列、访问联系人模块 237中的一个或多个电话号码、修改已经输入的电话号码、拨打相应的电话 号码、进行会话以及当会话完成时断开或挂断。如上所述,无线通信使用 多种通信标准、协议和技术中的任一种。
结合RF电路208、音频电路210、扬声器211、麦克风213、触摸屏 212、显示控制器256、光学传感器264、光学传感器控制器258、接触/运动 模块230、图形模块232、文本输入模块234、联系人模块237和电话模块 238,视频会议模块239包括根据用户指令来发起、进行和终止用户与一个 或多个其他参与方之间的视频会议的可执行指令。
结合RF电路208、触摸屏212、显示控制器256、接触/运动模块230、 图形模块232和文本输入模块234,电子邮件客户端模块240包括响应于用 户指令来创建、发送、接收和管理电子邮件的可执行指令。结合图像管理 模块244,电子邮件客户端模块240使得非常容易创建和发送具有由相机模 块243拍摄的静态图像或视频图像的电子邮件。
结合RF电路208、触摸屏212、显示控制器256、接触/运动模块230、 图形模块232和文本输入模块234,即时消息模块241包括用于以下操作的 可执行指令:输入与即时消息对应的字符序列、修改先前输入的字符、传 输相应即时消息(例如,使用短消息服务(SMS)或多媒体消息服务 (MMS)协议以用于基于电话的即时消息或者使用XMPP、SIMPLE、或 IMPS以用于基于互联网的即时消息)、接收即时消息以及查看所接收的即 时消息。在一些实施方案中,所传输和/或接收的即时消息包括图形、照片、 音频文件、视频文件和/或如MMS和/或增强型消息服务(EMS)中支持的其 他附件。如本文所用,“即时消息”是指基于电话的消息(例如,使用 SMS或MMS发送的消息)和基于互联网的消息(例如,使用XMPP、 SIMPLE或IMPS发送的消息)两者。
结合RF电路208、触摸屏212、显示控制器256、接触/运动模块230、 图形模块232、文本输入模块234、GPS模块235、地图模块254和音乐播 放器模块,健身支持模块242包括用于以下各项的可执行指令:创建健身(例如,具有时间、距离和/或卡路里燃烧目标);与健身传感器(运动设 备)进行通信;接收健身传感器数据;校准用于监视健身的传感器;为健 身选择和播放音乐;以及显示、存储和传输健身数据。
结合触摸屏212、显示控制器256、一个或多个光学传感器264、光学 传感器控制器258、接触/运动模块230、图形模块232和图像管理模块244, 相机模块243包括用于以下操作的可执行指令:捕获静态图像或视频(包括 视频流)并且将它们存储到存储器202中、修改静态图像或视频的特征,或 从存储器202删除静态图像或视频。
结合触摸屏212、显示控制器256、接触/运动模块230、图形模块232、 文本输入模块234、和相机模块243,图像管理模块244包括用于排列、修 改(例如,编辑)、或以其他方式操控、加标签、删除、呈现(例如,在 数字幻灯片或相册中)、以及存储静态图像和/或视频图像的可执行指令。
结合RF电路208、触摸屏212、显示控制器256、接触/运动模块230、 图形模块232和文本输入模块234,浏览器模块247包括用于根据用户指令 来浏览互联网,包括搜索、链接至、接收和显示网页或其部分,以及链接 至网页的附件和其他文件的可执行指令。
结合RF电路208、触摸屏212、显示控制器256、接触/运动模块230、 图形模块232、文本输入模块234、电子邮件客户端模块240和浏览器模块 247,日历模块248包括根据用户指令来创建、显示、修改和存储日历以及 与日历相关联的数据(例如,日历条目、待办事项等)的可执行指令。
结合RF电路208、触摸屏212、显示控制器256、接触/运动模块230、 图形模块232、文本输入模块234和浏览器模块247,桌面小程序模块249 是可由用户下载并使用的微型应用程序(例如,天气桌面小程序249-1、股 市桌面小程序249-2、计算器桌面小程序249-3、闹钟桌面小程序249-4和词 典桌面小程序249-5)或由用户创建的微型应用程序(例如,用户创建的桌 面小程序249-6)。在一些实施方案中,桌面小程序包括HTML(超文本标 记语言)文件、CSS(层叠样式表)文件和JavaScript文件。在一些实施方 案中,桌面小程序包括XML(可扩展标记语言)文件和JavaScript文件(例 如,Yahoo!桌面小程序)。
结合RF电路208、触摸屏212、显示控制器256、接触/运动模块230、 图形模块232、文本输入模块234和浏览器模块247,桌面小程序创建器模 块250被用户用于创建桌面小程序(例如,使将网页的用户指定部分变成桌 面小程序)。
结合触摸屏212、显示控制器256、接触/运动模块230、图形模块232 和文本输入模块234,搜索模块251包括用于根据用户指令来搜索存储器 202中与一个或多个搜索条件(例如,一个或多个用户指定的搜索词)匹配 的文本、音乐、声音、图像、视频和/或其他文件的可执行指令。
结合触摸屏212、显示控制器256、接触/运动模块230、图形模块232、 音频电路210、扬声器211、RF电路208和浏览器模块247,视频和音乐播 放器模块252包括允许用户下载和回放以一种或多种文件格式(诸如MP3 或AAC文件)存储的所记录的音乐和其他声音文件的可执行指令,以及用 于显示、呈现或以其他方式回放视频(例如,在触摸屏212上或在经由外部 端口224连接的外部显示器上)的可执行指令。在一些实施方案中,设备 200任选地包括MP3播放器诸如iPod(Apple Inc.的商标)的功能。
结合触摸屏212、显示控制器256、接触/运动模块230、图形模块232 和文本输入模块234,记事本模块253包括根据用户指令来创建和管理记事 本、待办事项等的可执行指令。
结合RF电路208、触摸屏212、显示控制器256、接触/运动模块230、 图形模块232、文本输入模块234、GPS模块235和浏览器模块247,地图 模块254用于根据用户指令接收、显示、修改和存储地图以及与地图相关联 的数据(例如,驾驶方向、与特定位置处或附近的商店及其他兴趣点有关 的数据,以及其他基于位置的数据)。
结合触摸屏212、显示控制器256、接触/运动模块230、图形模块232、 音频电路210、扬声器211、RF电路208、文本输入模块234、电子邮件客 户端模块240和浏览器模块247,在线视频模块255包括允许用户访问、浏 览、接收(例如,通过流式传输和/或下载)、回放(例如,在触摸屏上或 经由外部端口224在所连接的外部显示器上)、发送具有至特定在线视频的 链接的电子邮件,以及以其他方式管理一种或多种文件格式(诸如,H.264) 的在线视频的指令。在一些实施方案中,使用即时消息模块241而不是电子 邮件客户端模块240来发送特定在线视频的链接。在线视频应用程序的其他 描述可见于2007年6月20日提交的名称为“Portable Multifunction Device, Method,and Graphical User Interface forPlaying Online Videos”的美国临时专 利申请No.60/936,562和2007年12月31日提交的名称为“Portable Multifunction Device,Method,and Graphical User Interface forPlaying Online Videos”的美国专利申请No.11/968,067,这两个专利申请的内容据此全文 以引用方式并入本文。
上述每个模块和应用程序对应于用于执行上述一种或多种功能以及在 本专利申请中所述的方法(例如,本文所述的计算机实现的方法和其他信 息处理方法)的可执行指令集。这些模块(例如,指令集)不必被实现为 独立的软件程序、过程或模块,并因此在各种实施方案中可组合或以其他 方式重新布置这些模块的各种子集。例如,视频播放器模块可与音乐播放 器模块组合成单个模块(例如,图2A中的视频和音乐播放器模块252)。 在一些实施方案中,存储器202存储上述模块和数据结构的子集。此外,存 储器202存储上文未描述的附加模块和数据结构。
在一些实施方案中,设备200是该设备上的预定义的一组功能的操作 唯一地通过触摸屏和/或触控板来执行的设备。通过使用触摸屏和/或触控板 作为用于设备200的操作的主要输入控制设备,减少设备200上的物理输入 控制设备(诸如下压按钮、拨盘等)的数量。
唯一地通过触摸屏和/或触控板来执行的预定义的一组功能任选地包括 在用户界面之间的导航。在一些实施方案中,触控板在被用户触摸时将设 备200从设备200上显示的任何用户界面导航到主菜单、home菜单或根菜 单。在此类实施方案中,使用触控板来实现“菜单按钮”。在一些其他实 施方案中,菜单按钮是物理下压按钮或者其他物理输入控制设备,而不是 触控板。
图2B为示出了根据一些实施方案的用于事件处理的示例性部件的框图。 在一些实施方案中,存储器202(图2A)或存储器470(图4)包括事件分 类器270(例如,在操作系统226中)以及相应的应用程序236-1(例如, 前述应用程序237至251、255、480至490中的任一个应用程序)。
事件分类器270接收事件信息并确定要将事件信息递送到的应用程序 236-1和应用程序236-1的应用程序视图291。事件分类器270包括事件监视 器271和事件分配器模块274。在一些实施方案中,应用程序236-1包括应 用程序内部状态292,该应用程序内部状态指示当应用程序是活动的或正在 执行时被显示在触敏显示器212上的一个或多个当前应用程序视图。在一些 实施方案中,设备/全局内部状态257被事件分类器270用来确定哪个(哪 些)应用程序当前是活动的,并且应用程序内部状态292被事件分类器270 用来确定要将事件信息递送到的应用程序视图291。
在一些实施方案中,应用程序内部状态292包括附加信息,诸如以下 各项中的一者或多者:当应用程序236-1恢复执行时将被使用的恢复信息、 指示信息正被显示或准备好用于被应用程序236-1显示的用户界面状态信息、 用于使得用户能够返回到应用程序236-1的前一状态或视图的状态队列,以 及用户采取的先前动作的重复/撤销队列。
事件监视器271从外围设备接口218接收事件信息。事件信息包括关于 子事件(例如,作为多点触摸手势一部分的触敏显示器212上的用户触摸) 的信息。外围设备接口218传输其从I/O子系统206或传感器诸如接近传感 器266、一个或多个加速度计268和/或麦克风213(通过音频电路210)接 收的信息。外围设备接口218从I/O子系统206接收的信息包括来自触敏显 示器212或触敏表面的信息。
在一些实施方案中,事件监视器271以预先确定的间隔将请求发送至 外围设备接口218。作为响应,外围设备接口218传输事件信息。在其他实 施方案中,外围设备接口218仅当存在显著事件(例如,接收到高于预先确 定的噪声阈值的输入和/或接收到超过预先确定的持续时间的输入)时才传 输事件信息。
在一些实施方案中,事件分类器270还包括命中视图确定模块272和/ 或活动事件识别器确定模块273。
当触敏显示器212显示多于一个视图时,命中视图确定模块272提供用 于确定子事件已在一个或多个视图内的什么地方发生的软件过程。视图由 用户能够在显示器上看到的控件和其他元素构成。
与应用程序相关联的用户界面的另一方面是一组视图,本文中有时也 称为应用程序视图或用户界面窗口,在其中显示信息并且发生基于触摸的 手势。在其中检测到触摸的(相应应用程序的)应用程序视图对应于应用 程序的程序化分级结构或视图分级结构内的程序化水平。例如,在其中检 测到触摸的最低水平视图被称为命中视图,并且被认为是正确输入的事件 集至少部分地基于初始触摸的命中视图来确定,该初始触摸开始基于触摸 的手势。
命中视图确定模块272接收与基于触摸的手势的子事件相关的信息。 当应用程序具有以分级结构组织的多个视图时,命中视图确定模块272将命 中视图识别为应当对子事件进行处理的分级结构中的最低视图。在大多数 情况下,命中视图是发起子事件(例如,形成事件或潜在事件的子事件序 列中的第一子事件)在其中发生的最低水平视图。一旦命中视图被命中视 图确定模块272识别,命中视图便通常接收与其被识别为命中视图所针对的同一触摸或输入源相关的所有子事件。
活动事件识别器确定模块273确定视图分级结构内的哪个或哪些视图 应接收特定子事件序列。在一些实施方案中,活动事件识别器确定模块273 确定仅命中视图应接收特定子事件序列。在其他实施方案中,活动事件识 别器确定模块273确定包括子事件的物理位置的所有视图是活跃参与的视图, 并因此确定所有活跃参与的视图都应接收特定子事件序列。在其他实施方 案中,即使触摸子事件完全被局限到与一个特定视图相关联的区域,分级 结构中的较高视图将仍然保持为活跃参与的视图。
事件分配器模块274将事件信息分配到事件识别器(例如,事件识别 器280)。在包括活动事件识别器确定模块273的实施方案中,事件分配器 模块274将事件信息递送到由活动事件识别器确定模块273确定的事件识别 器。在一些实施方案中,事件分配器模块274在事件队列中存储事件信息, 该事件信息由相应事件接收器282进行检索。
在一些实施方案中,操作系统226包括事件分类器270。另选地,应用 程序236-1包括事件分类器270。在又一个实施方案中,事件分类器270是 独立模块,或者是存储在存储器202中的另一个模块(诸如,接触/运动模 块230)的一部分。
在一些实施方案中,应用程序236-1包括多个事件处理程序290和一个 或多个应用程序视图291,其中的每个应用程序视图包括用于处理发生在应 用程序的用户界面的相应视图内的触摸事件的指令。应用程序236-1的每个 应用程序视图291包括一个或多个事件识别器280。通常,相应应用程序视 图291包括多个事件识别器280。在其他实施方案中,事件识别器280中的 一个或多个事件识别器是独立模块的一部分,该独立模块为诸如用户界面 工具包(未示出)或应用程序236-1从中继承方法和其他属性的较高级别的 对象。在一些实施方案中,相应事件处理程序290包括以下各项中的一者或 多者:数据更新器276、对象更新器277、GUI更新器278、和/或从事件分 类器270接收的事件数据279。事件处理程序290利用或调用数据更新器 276、对象更新器277或GUI更新器278来更新应用程序内部状态292。另 选地,应用程序视图291中的一个或多个应用程序视图包括一个或多个相应 事件处理程序290。另外,在一些实施方案中,数据更新器276、对象更新 器277和GUI更新器278中的一者或多者包括在相应应用程序视图291中。
相应的事件识别器280从事件分类器270接收事件信息(例如,事件数 据279),并且从事件信息识别事件。事件识别器280包括事件接收器282 和事件比较器284。在一些实施方案中,事件识别器280还包括元数据283 和事件传递指令288(其包括子事件传递指令)的至少一个子集。
事件接收器282接收来自事件分类器270的事件信息。事件信息包括关 于子事件例如触摸或触摸移动的信息。根据子事件,事件信息还包括附加 信息,诸如子事件的位置。当子事件涉及触摸的运动时,事件信息还包括 子事件的速率和方向。在一些实施方案中,事件包括设备从一个取向旋转 到另一取向(例如,从纵向取向旋转到横向取向,或反之亦然),并且事 件信息包括关于设备的当前取向(也被称为设备姿态)的对应信息。
事件比较器284将事件信息与预定义的事件或子事件定义进行比较, 并且基于该比较,确定事件或子事件,或者确定或更新事件或子事件的状 态。在一些实施方案中,事件比较器284包括事件定义286。事件定义286 包含事件的定义(例如,预定义的子事件序列),例如事件1(287-1)、事 件2(287-2)、以及其他事件。在一些实施方案中,事件(287)中的子事件例 如包括触摸开始、触摸结束、触摸移动、触摸取消和多点触摸。在一个示 例中,事件1(287-1)的定义是被显示对象上的双击。例如,双击包括被显 示对象上的预先确定时长的第一触摸(触摸开始)、预先确定时长的第一 抬离(触摸结束)、被显示对象上的预先确定时长的第二触摸(触摸开始) 以及预先确定时长的第二抬离(触摸结束)。在另一个示例中,事件2 (287-2)的定义是被显示对象上的拖动。例如,拖动包括被显示对象上的预 先确定时长的触摸(或接触)、触摸在触敏显示器212上的移动、以及触摸 的抬离(触摸结束)。在一些实施方案中,事件还包括用于一个或多个相 关联的事件处理程序290的信息。
在一些实施方案中,事件定义287包括对用于相应用户界面对象的事 件的定义。在一些实施方案中,事件比较器284执行命中测试以确定哪个用 户界面对象与子事件相关联。例如,在触敏显示器212上显示三个用户界面 对象的应用程序视图中,当在触敏显示器212上检测到触摸时,事件比较器 284执行命中测试以确定这三个用户界面对象中的哪一个用户界面对象与该 触摸(子事件)相关联。如果每个所显示对象与相应事件处理程序290相关 联,则事件比较器使用该命中测试的结果来确定哪个事件处理程序290应当 被激活。例如,事件比较器284选择与子事件和触发该命中测试的对象相关 联的事件处理程序。
在一些实施方案中,相应事件(287)的定义还包括延迟动作,该延迟动 作延迟事件信息的递送,直到已确定子事件序列确实对应于或不对应于事 件识别器的事件类型。
当相应事件识别器280确定子事件序列不与事件定义286中的任何事件 匹配时,该相应事件识别器280进入事件不可能、事件失败或事件结束状态, 在此之后忽略基于触摸的手势的后续子事件。在这种情况下,对于命中视 图保持活动的其他事件识别器(如果有的话)继续跟踪并处理持续进行的 基于触摸的手势的子事件。
在一些实施方案中,相应事件识别器280包括具有指示事件递送系统 应当如何执行对活跃参与的事件识别器的子事件递送的可配置属性、标记 和/或列表的元数据283。在一些实施方案中,元数据283包括指示事件识别 器彼此如何交互或如何能够交互的可配置属性、标志和/或列表。在一些实 施方案中,元数据283包括指示子事件是否递送到视图或程序化分级结构中 的不同层级的可配置属性、标志和/或列表。
在一些实施方案中,当事件的一个或多个特定子事件被识别时,相应 事件识别器280激活与事件相关联的事件处理程序290。在一些实施方案中, 相应事件识别器280将与事件相关联的事件信息递送到事件处理程序290。 激活事件处理程序290不同于将子事件发送(和延期发送)到相应命中视图。 在一些实施方案中,事件识别器280抛出与所识别的事件相关联的标记,并 且与该标记相关联的事件处理程序290获取该标记并执行预定义过程。
在一些实施方案中,事件递送指令288包括递送关于子事件的事件信 息而不激活事件处理程序的子事件递送指令。相反,子事件递送指令将事 件信息递送到与子事件序列相关联的事件处理程序或者递送到活跃参与的 视图。与子事件序列或与活跃参与的视图相关联的事件处理程序接收事件 信息并执行预先确定的过程。
在一些实施方案中,数据更新器276创建并更新在应用程序236-1中使 用的数据。例如,数据更新器276对联系人模块237中所使用的电话号码进 行更新,或者对视频播放器模块中所使用的视频文件进行存储。在一些实 施方案中,对象更新器277创建和更新在应用程序236-1中使用的对象。例 如,对象更新器277创建新的用户界面对象或更新用户界面对象的位置。 GUI更新器278更新GUI。例如,GUI更新器278准备显示信息,并且将显 示信息发送到图形模块232用以显示在触敏显示器上。
在一些实施方案中,事件处理程序290包括数据更新器276、对象更新 器277和GUI更新器278或者具有对它们的访问权限。在一些实施方案中, 数据更新器276、对象更新器277和GUI更新器278被包括在相应应用程序 236-1或应用程序视图291的单个模块中。在其他实施方案中,它们被包括 在两个或更多个软件模块中。
应当理解,关于触敏显示器上的用户触摸的事件处理的上述论述还适 用于利用输入设备来操作多功能设备200的其他形式的用户输入,并不是所 有用户输入都是在触摸屏上发起的。例如,任选地与单次或多次键盘按下 或按住协作的鼠标移动和鼠标按钮按下;触控板上的接触移动,诸如轻击、 拖动、滚动等;触笔输入;设备的移动;口头指令;检测到的眼睛移动; 生物特征输入;和/或它们的任何组合任选地被用作对应于限定要识别的事 件的子事件的输入。
图3示出了根据一些实施方案的具有触摸屏212的便携式多功能设备 200。触摸屏任选地在用户界面(UI)300内显示一个或多个图形。在本实施 方案以及下文所述的其他实施方案中,用户能够通过例如利用一根或多根 手指302(在图中未按比例绘制)或一支或多支触笔303(在图中未按比例 绘制)在图形上作出手势来选择这些图形中的一个或多个图形。在一些实 施方案中,当用户中断与一个或多个图形的接触时,将发生对一个或多个 图形的选择。在一些实施方案中,手势任选地包括一次或多次轻击、一次 或多次轻扫(从左向右、从右向左、向上和/或向下)和/或已与设备200发 生接触的手指的滚动(从右向左、从左向右、向上和/或向下)。在一些具 体实施中或在一些情况下,不经意地与图形接触不会选择图形。例如,当 与选择对应的手势是轻击时,在应用程序图标上方扫动的轻扫手势任选地 不会选择对应的应用程序。
设备200还包括一个或多个物理按钮,诸如“home”或菜单按钮304。 如前所述,菜单按钮304用于导航到在设备200上执行的一组应用程序中的 任何应用程序236。另选地,在一些实施方案中,菜单按钮被实现为被显示 在触摸屏212上的GUI中的软键。
在一些实施方案中,设备200包括触摸屏212、菜单按钮304、用于使 设备通电/断电和用于锁定设备的下压按钮306、一个或多个音量调节按钮 308、用户身份模块(SIM)卡槽310、耳麦插孔312和对接/充电外部端口224。 下压按钮306任选地用于通过压下该按钮并且将该按钮保持在压下状态持续 预定义的时间间隔来对设备进行开/关机;通过压下该按钮并在该预定义的 时间间隔过去之前释放该按钮来锁定设备;和/或对设备进行解锁或发起解 锁过程。在另选实施方案中,设备200还通过麦克风213接受用于激活或去 激活某些功能的言语输入。设备200还任选地包括用于检测触摸屏212上的 接触的强度的一个或多个接触强度传感器265,和/或用于为设备200的用户 生成触觉输出的一个或多个触觉输出发生器267。
图4是根据一些实施方案的具有显示器和触敏表面的示例性多功能设 备的框图。设备400不必是便携式的。在一些实施方案中,设备400为膝上 型计算机、台式计算机、平板电脑、多媒体播放器设备、导航设备、教育 设备(诸如儿童学习玩具)、游戏系统或控制设备(例如,家用控制器或 工业用控制器)。设备400通常包括一个或多个处理单元(CPU)410、一个 或多个网络或其他通信接口460、存储器470和用于使这些部件互连的一个 或多个通信总线420。通信总线420任选地包括使系统部件互连并且控制系 统部件之间的通信的电路(有时称作芯片组)。设备400包括具有显示器 440的输入/输出(I/O)接口430,该显示器通常是触摸屏显示器。I/O接口430 还任选地包括键盘和/或鼠标(或其他指向设备)450和触控板455、用于在 设备400上生成触觉输出的触觉输出发生器457(例如,类似于上文参考图2A所述的一个或多个触觉输出发生器267)、传感器459(例如,光学传感 器、加速度传感器、接近传感器、触敏传感器和/或接触强度传感器(类似 于上文参考图2A所述的一个或多个接触强度传感器265))。存储器470 包括高速随机存取存储器,诸如DRAM、SRAM、DDR RAM或其他随机存 取固态存储器设备;并且任选地包括非易失性存储器,诸如一个或多个磁 盘存储设备、光盘存储设备、闪存存储器设备或其他非易失性固态存储设 备。存储器470任选地包括远离CPU 410定位的一个或多个存储设备。在 一些实施方案中,存储器470存储与便携式多功能设备200(图2A)的存 储器202中存储的程序、模块和数据结构类似的程序、模块和数据结构或其 子集。此外,存储器470任选地存储在便携式多功能设备200的存储器202中不存在的附加程序、模块和数据结构。例如,设备400的存储器470任选 地存储绘图模块480、呈现模块482、文字处理模块484、网站创建模块486、 盘编辑模块488、和/或电子表格模块490,而便携式多功能设备200(图2A) 的存储器202任选地不存储这些模块。
图4中的上述元件中的每一者在一些示例中存储在一个或多个先前提 到的存储器设备中。上述模块中的每个模块对应于用于执行上述功能的指 令集。上述模块或程序(例如,指令集)不必被实现为独立的软件程序、 过程或模块,因此这些模块的各种子集在各种实施方案中组合或以其他方 式重新布置。在一些实施方案中,存储器470存储上述模块和数据结构的子 集。此外,存储器470存储上文未描述的附加模块和数据结构。
现在将注意力转到可在例如便携式多功能设备200上实现的用户界面 的实施方案。
图5A示出了根据一些实施方案的便携式多功能设备200上的应用程序 菜单的示例性用户界面。类似的用户界面在设备400上实现。在一些实施方 案中,用户界面500包括以下元件或者其子集或超集:
一个或多个无线通信诸如蜂窝信号和Wi-Fi信号的一个或多个信号强度 指示器502;
·时间504;
·蓝牙指示器505;
·电池状态指示符506;
·具有针对常用应用程序的图标的托盘508,该图标诸如:
○电话模块238的被标记为“电话”的图标516,该图标任选地包 括未接来电或语音留言的数量的指示符514;
○电子邮件客户端模块240的被标记为“邮件”的图标518,该图 标任选地包括未读电子邮件的数量的指示符510;
○浏览器模块247的被标记为“浏览器”的图标520;以及
○视频和音乐播放器模块252(也被称为iPod(Apple Inc.的商标)
模块252)的被标记为“iPod”的图标522;以及
·其他应用的图标,诸如:
○IM模块241的被标记为“消息”的图标524;;
○日历模块248的被标记为“日历”的图标526;;
○图像管理模块244的被标记为“照片”的图标528;;
○相机模块243的被标记为“相机”的图标530;;
○在线视频模块255的被标记为“在线视频”的图标532;;
○股市桌面小程序249-2的被标记为“股市”的图标534;;
○地图模块254的被标记为“地图”的图标536;;
○天气桌面小程序249-1的被标记为“天气”的图标538;;
○闹钟桌面小程序249-4的被标记为“时钟”的图标540;;
○健身支持模块242的被标记为“健身支持”的图标542;;
○记事本模块253的被标记为“记事本”的图标544;以及
○用于设置应用程序或模块的被标记为“设置”的图标546,该图 标提供对设备200及其各种应用程序236的设置的访问。
应当指出的是,图5A中所示的图标标签仅是示例性的。例如,视频和 音乐播放器模块252的图标522任选地被标记为“音乐”或“音乐播放器”。 对于各种应用程序图标任选地使用其他标签。在一些实施方案中,相应应 用程序图标的标签包括与该相应应用程序图标对应的应用程序的名称。在 一些实施方案中,特定应用程序图标的标签不同于与该特定应用程序图标 对应的应用程序的名称。
图5B示出了具有与显示器550(例如,触摸屏显示器212)分开的触 敏表面551(例如,图4的平板或触控板455)的设备(例如,图4的设备 400)上的示例性用户界面。设备400还任选地包括用于检测触敏表面551 上的接触的强度的一个或多个接触强度传感器(例如,传感器459中的一个 或多个传感器)和/或用于为设备400的用户生成触觉输出的一个或多个触 觉输出发生器457。
尽管将参考触摸屏显示器212(其中组合了触敏表面和显示器)上的输 入给出随后的示例中的一些示例,但是在一些实施方案中,设备检测与显 示器分开的触敏表面上的输入,如图5B中所示。在一些实施方案中,触敏 表面(例如,图5B中的551)具有与显示器(例如,550)上的主轴(例如, 图5B中的553)对应的主轴(例如,图5B中的552)。根据这些实施方案, 设备检测在与显示器上的相应位置对应的位置(例如,在图5B中,560对 应于568并且562对应于570)处的与触敏表面551的接触(例如,图5B 中的560和562)。这样,在触敏表面(例如,图5B中的551)与多功能设 备的显示器(例如,图5B中的550)分开时,由设备在触敏表面上检测到 的用户输入(例如,接触560和562以及它们的移动)被该设备用于操纵显 示器上的用户界面。应当理解,类似的方法任选地用于本文所述的其他用 户界面。
另外,虽然主要是参考手指输入(例如,手指接触、单指轻击手势、 手指轻扫手势)来给出下面的示例,但是应当理解的是,在一些实施方案 中,这些手指输入中的一个或多个手指输入由来自另一输入设备的输入 (例如,基于鼠标的输入或触笔输入)替代。例如,轻扫手势任选地由鼠 标点击(例如,而不是接触),之后是光标沿着轻扫的路径的移动(例如, 而不是接触的移动)替代。又如,轻击手势任选地由在光标位于轻击手势 的位置上方时的鼠标点击(例如,代替对接触的检测,之后是停止检测接 触)替代。类似地,当同时检测到多个用户输入时,应当理解的是,多个 计算机鼠标任选地被同时使用,或鼠标和手指接触任选地被同时使用。
图6A示出了示例性个人电子设备600。设备600包括主体602。在一 些实施方案中,设备600包括相对于设备200和400(例如,图2A-图4) 所述的特征中的一些或全部特征。在一些实施方案中,设备600具有在下文 中称为触摸屏604的触敏显示屏604。作为触摸屏604的替代或补充,设备 600具有显示器和触敏表面。与设备200和400的情况一样,在一些实施方 案中,触摸屏604(或触敏表面)具有用于检测正在施加的接触(例如,触 摸)的强度的一个或多个强度传感器。触摸屏604(或触敏表面)的一个或 多个强度传感器提供表示触摸的强度的输出数据。设备600的用户界面基于 触摸强度来对触摸作出响应,这意味着不同强度的触摸可调用设备600上的 不同的用户界面操作。
用于检测和处理触摸强度的技术可例如存在于相关申请中:2013年5 月8日提交的名称为“Device,Method,and Graphical User Interface for Displaying UserInterface Objects Corresponding to an Application”的国际专利 申请序列号PCT/US2013/040061,以及2013年11月11日提交的名称为 “Device,Method,and GraphicalUser Interface for Transitioning Between Touch Input to Display OutputRelationships”的国际专利申请序列号 PCT/US2013/069483,这两个专利申请中的每个专利申请据此全文以引用方 式并入本文。
在一些实施方案中,设备600具有一个或多个输入机构606和608。输 入机构606和608(如果包括的话)是物理形式的。物理输入机构的示例包 括下压按钮和可旋转机构。在一些实施方案中,设备600具有一个或多个附 接机构。此类附接机构(如果包括的话)可允许将设备600与例如帽子、眼 镜、耳环、项链、衬衣、夹克、手镯、表带、手链、裤子、皮带、鞋子、 钱包、背包等附接。这些附接机构允许用户穿戴设备600。
图6B示出了示例性个人电子设备600。在一些实施方案中,设备600 包括相对于图2A、图2B和图4所述的部件中的一些或全部部件。设备600 具有总线612,该总线将I/O部分614与一个或多个计算机处理器616和存 储器618操作性地耦接。I/O部分614被连接到显示器604,该显示器可具 有触敏部件622,并且任选地还具有触摸强度敏感部件624。此外,I/O部分 614与通信单元630连接,以用于使用Wi-Fi、蓝牙、近场通信(NFC)、蜂窝 和/或其他无线通信技术来接收应用程序和操作系统数据。设备600包括输 入机构606和/或608。例如,输入机构606是可旋转输入设备或者可按压输 入设备以及可旋转输入设备。在一些示例中,输入机构608是按钮。
在一些示例中,输入机构608是麦克风。个人电子设备600包括例如各 种传感器,诸如GPS传感器632、加速度计634、定向传感器640(例如, 罗盘)、陀螺仪636、运动传感器638和/或它们的组合,所有这些设备均可 操作地连接到I/O部分614。
个人电子设备600的存储器618是用于存储计算机可执行指令的非暂态 计算机可读存储介质,该指令当由一个或多个计算机处理器616执行时例如 使得计算机处理器执行上述技术和过程。该计算机可执行指令也例如在任 何非暂态计算机可读存储介质内进行存储和/或传送,以供指令执行系统、 装置或设备诸如基于计算机的系统、包含处理器的系统或可从指令执行系 统、装置或设备获取指令并执行指令的其他系统使用或与其结合。个人电 子设备600不限于图6B的部件和配置,而是可包括多种配置中的其他部件 或附加部件。
如本文所用,术语“示能表示”是指例如在设备200、400和/或600 (图2A、图4和图6A-图6B)的显示屏上显示的用户交互式图形用户界面 对象。例如,图像(例如,图标)、按钮和文本(例如,超链接)各自构 成示能表示。
如本文所用,术语“焦点选择器”是指用于指示用户正与之进行交互 的用户界面的当前部分的输入元件。在包括光标或其他位置标记的一些具 体实施中,光标充当“焦点选择器”,使得当光标在特定用户界面元素 (例如,按钮、窗口、滑块或其他用户界面元素)上方时在触敏表面(例 如,图4中的触控板455或图5B中的触敏表面551)上检测到输入(例如, 按压输入)的情况下,该特定用户界面元素根据所检测到的输入而被调节。 在包括能够实现与触摸屏显示器上的用户界面元素的直接交互的触摸屏显 示器(例如,图2A中的触敏显示器系统212或图5A中的触摸屏212)的一 些具体实施中,在触摸屏上所检测到的接触充当“焦点选择器”,使得当 在触摸屏显示器上在特定用户界面元素(例如,按钮、窗口、滑块或其他 用户界面元素)的位置处检测到输入(例如,由接触进行的按压输入)时, 该特定用户界面元素根据所检测到的输入而被调节。在一些具体实施中, 焦点从用户界面的一个区域移动到用户界面的另一个区域,而无需光标的 对应移动或触摸屏显示器上的接触的移动(例如,通过使用制表键或箭头 键将焦点从一个按钮移动到另一个按钮);在这些具体实施中,焦点选择 器根据焦点在用户界面的不同区域之间的移动而移动。不考虑焦点选择器 所采取的具体形式,焦点选择器通常是由用户控制的以便递送与用户界面 的用户预期的交互(例如,通过向设备指示用户界面的用户期望与其进行 交互的元素)的用户界面元素(或触摸屏显示器上的接触)。例如,在触 敏表面(例如,触控板或触摸屏)上检测到按压输入时,焦点选择器(例 如,光标、接触或选择框)在相应按钮上方的位置将指示用户期望激活相 应按钮(而不是设备显示器上示出的其他用户界面元素)。
如说明书和权利要求中所使用的,接触的“特征强度”这一术语是指 基于接触的一个或多个强度的接触的特征。在一些实施方案中,特征强度 基于多个强度样本。特征强度任选地基于相对于预定义事件(例如,在检 测到接触之后,在检测到接触抬离之前,在检测到接触开始移动之前或之 后,在检测到接触结束之前,在检测到接触的强度增大之前或之后和/或在 检测到接触的强度减小之前或之后)而言在预先确定的时间段(例如,0.05秒、0.1秒、0.2秒、0.5秒、1秒、2秒、5秒、10秒)期间采集的预定义数 量的强度样本或一组强度样本。接触的特征强度任选地基于以下各项中的 一者或多者:接触强度的最大值、接触强度的均值、接触强度的平均值、 接触强度的前10%处的值、接触强度的半最大值、接触强度的90%最大值 等。在一些实施方案中,在确定特征强度时使用接触的持续时间(例如,在特征强度是接触的强度在时间上的平均值时)。在一些实施方案中,将 特征强度与一组一个或多个强度阈值进行比较,以确定用户是否已执行操 作。例如,该组一个或多个强度阈值包括第一强度阈值和第二强度阈值。 在该示例中,特征强度未超过第一阈值的接触导致第一操作,特征强度超 过第一强度阈值但未超过第二强度阈值的接触导致第二操作,而特征强度 超过第二阈值的接触导致第三操作。在一些实施方案中,使用特征强度与 一个或多个阈值之间的比较来确定是否要执行一个或多个操作(例如,是 执行相应操作还是放弃执行相应操作),而不是用于确定执行第一操作还 是第二操作。
在一些实施方案中,识别手势的一部分以用于确定特征强度。例如, 触敏表面接收连续的轻扫接触,该连续的轻扫接触从起始位置过渡并到达 结束位置,在该结束位置处,接触的强度增加。在该示例中,接触在结束 位置处的特征强度仅基于连续轻扫接触的一部分,而不是整个轻扫接触 (例如,轻扫接触仅位于结束位置处的部分)。在一些实施方案中,在确 定接触的特征强度之前向轻扫接触的强度应用平滑化算法。例如,平滑化 算法任选地包括以下各项中的一种或多种:不加权滑动平均平滑化算法、 三角平滑化算法、中值滤波器平滑化算法和/或指数平滑化算法。在一些情 况下,这些平滑化算法消除了轻扫接触的强度中的窄的尖峰或凹陷,以实 现确定特征强度的目的。
相对于一个或多个强度阈值诸如接触检测强度阈值、轻按压强度阈值、 深按压强度阈值和/或一个或多个其他强度阈值来表征触敏表面上的接触的 强度。在一些实施方案中,轻按压强度阈值对应于这样的强度:在该强度 下设备将执行通常与点击物理鼠标或触控板的按钮相关联的操作。在一些 实施方案中,深按压强度阈值对应于这样的强度:在该强度下设备将执行 与通常与点击物理鼠标或触控板的按钮相关联的操作不同的操作。在一些 实施方案中,当检测到特征强度低于轻按压强度阈值(例如,并且高于标 称接触检测强度阈值,比标称接触检测强度阈值低的接触不再被检测到) 的接触时,设备将根据接触在触敏表面上的移动来移动焦点选择器,而不 执行与轻按压强度阈值或深按压强度阈值相关联的操作。一般来讲,除非 另有陈述,否则这些强度阈值在不同组的用户界面附图之间是一致的。
接触特征强度从低于轻按压强度阈值的强度增大到介于轻按压强度阈 值与深按压强度阈值之间的强度有时被称为“轻按压”输入。接触特征强 度从低于深按压强度阈值的强度增大到高于深按压强度阈值的强度有时被 称为“深按压”输入。接触特征强度从低于接触检测强度阈值的强度增大 到介于接触检测强度阈值与轻按压强度阈值之间的强度有时被称为检测到 触摸表面上的接触。接触特征强度从高于接触检测强度阈值的强度减小到 低于接触检测强度阈值的强度有时被称为检测到接触从触摸表面抬离。在 一些实施方案中,接触检测强度阈值为零。在一些实施方案中,接触检测 强度阈值大于零。
在本文中所述的一些实施方案中,响应于检测到包括相应按压输入的 手势或响应于检测到利用相应接触(或多个接触)执行的相应按压输入来 执行一个或多个操作,其中至少部分地基于检测到该接触(或多个接触) 的强度增大到高于按压输入强度阈值而检测到相应按压输入。在一些实施 方案中,响应于检测到相应接触的强度增大到高于按压输入强度阈值(例 如,相应按压输入的“向下冲程”)来执行相应操作。在一些实施方案中, 按压输入包括相应接触的强度增大到高于按压输入强度阈值以及该接触的 强度随后减小到低于按压输入强度阈值,并且响应于检测到相应接触的强 度随后减小到低于按压输入阈值(例如,相应按压输入的“向上冲程”) 来执行相应操作。
在一些实施方案中,设备采用强度滞后以避免有时被称为“抖动”的 意外输入,其中设备限定或选择与按压输入强度阈值具有预定义关系的滞 后强度阈值(例如,滞后强度阈值比按压输入强度阈值低X个强度单位, 或滞后强度阈值是按压输入强度阈值的75%、90%或某个合理比例)。因此, 在一些实施方案中,按压输入包括相应接触的强度增大到高于按压输入强 度阈值以及该接触的强度随后减小到低于对应于按压输入强度阈值的滞后强度阈值,并且响应于检测到相应接触的强度随后减小到低于滞后强度阈 值(例如,相应按压输入的“向上冲程”)来执行相应操作。类似地,在 一些实施方案中,仅在设备检测到接触强度从等于或低于滞后强度阈值的 强度增大到等于或高于按压输入强度阈值的强度并且任选地接触强度随后 减小到等于或低于滞后强度的强度时才检测到按压输入,并且响应于检测 到按压输入(例如,根据环境,接触强度增大或接触强度减小)来执行相 应操作。
为了容易解释,任选地,响应于检测到以下各种情况中的任一种情况 而触发对响应于与按压输入强度阈值相关联的按压输入或响应于包括按压 输入的手势而执行的操作的描述:接触强度增大到高于按压输入强度阈值、 接触强度从低于滞后强度阈值的强度增大到高于按压输入强度阈值的强度、 接触强度减小到低于按压输入强度阈值、和/或接触强度减小到低于与按压 输入强度阈值对应的滞后强度阈值。另外,在将操作描述为响应于检测到 接触的强度减小到低于按压输入强度阈值而执行的示例中,任选地响应于 检测到接触的强度减小到低于对应于并且小于按压输入强度阈值的滞后强 度阈值来执行操作。
3.数字助理系统
图7A示出了根据各种示例的数字助理系统700的框图。在一些示例中, 数字助理系统700在独立式计算机系统上实现。在一些示例中,数字助理系 统700跨多个计算机分布。在一些示例中,数字助理的模块和功能中的一些 被划分成服务器部分和客户端部分,其中客户端部分位于一个或多个用户 设备(例如,设备104、设备122、设备200、设备400或设备600)上并通 过一个或多个网络与服务器部分(例如,服务器系统108)通信,例如,如图1中所示。在一些示例中,数字助理系统700是图1中所示的服务器系统 108(和/或DA服务器106)的具体实施。应当指出,数字助理系统700仅 为数字助理系统的一个示例,且该数字助理系统700具有比所示更多或更少 的部件、组合两个或更多个部件,或者可具有部件的不同配置或布局。图 7A中所示的各种部件在硬件、用于在由一个或多个处理器执行的软件指令、 固件(包括一个或多个信号处理集成电路和/或专用集成电路),或它们的 组合中实现。
数字助理系统700包括存储器702、输入/输出(I/O)接口706、网络通信 接口708,以及一个或多个处理器704。这些部件可通过一条或多条通信总 线或信号线710彼此通信。
在一些示例中,存储器702包括非暂态计算机可读介质,诸如高速随 机存取存储器和/或非易失性计算机可读存储介质(例如,一个或多个磁盘 存储设备、闪存存储器设备或其他非易失性固态存储器设备)。
在一些示例中,I/O接口706将数字助理系统700的输入/输出设备716 诸如显示器、键盘、触摸屏和麦克风耦接至用户界面模块722。I/O接口706 与用户界面模块722一起接收用户输入(例如,语音输入、键盘输入、触摸 输入等)并相应地对这些输入进行处理。在一些示例中,例如,当数字助 理在独立式用户设备上实现时,数字助理系统700包括分别相对于图2A、 图4、图6A至图6B中的设备200、设备400或设备600所描述的部件和I/O 通信接口中的任一者。在一些示例中,数字助理系统700代表数字助理具体 实施的服务器部分,并且可通过位于用户设备(例如,设备104、设备200、 设备400或设备600)上的客户端侧部分与用户进行交互。
在一些示例中,网络通信接口708包括一个或多个有线通信端口712和 /或无线传输和接收电路714。一个或多个有线通信端口经由一个或多个有 线接口例如以太网、通用串行总线(USB)、FIREWIRE等接收和发送通信信 号。无线电路714从通信网络及其他通信设备接收RF信号和/或光学信号以 及将RF信号和/或光学信号发送至通信网络及其他通信设备。无线通信使用 多种通信标准、协议和技术中的任一种,诸如GSM、EDGE、CDMA、 TDMA、蓝牙、Wi-Fi、VoIP、Wi-MAX、或任何其他合适的通信协议。网 络通信接口708使数字助理系统700通过网络,诸如互联网、内联网和/或 无线网络诸如蜂窝电话网络、无线局域网(LAN)和/或城域网(MAN),与其 他设备之间的通信成为可能。
在一些示例中,存储器702或存储器702的计算机可读存储介质存储程 序、模块、指令和数据结构,包括以下内容中的全部或其子集:操作系统 718、通信模块720、用户界面模块722、一个或多个应用程序724和数字助 理模块726。具体地,存储器702或存储器702的计算机可读存储介质存储 用于执行上述过程的指令。一个或多个处理器704执行这些程序、模块和指 令,并从数据结构读取数据或将数据写到数据结构。
操作系统718(例如,Darwin、RTXC、LINUX、UNIX、iOS、OS X、 WINDOWS、或嵌入式操作系统诸如VxWorks)包括用于控制和管理一般 系统任务(例如,存储器管理、存储设备控制、电源管理等)的各种软件 部件和/或驱动器,并且有利于各种硬件、固件和软件部件之间的通信。
通信模块720有利于数字助理系统700与其他设备之间通过网络通信接 口708进行的通信。例如,通信模块720与电子设备(诸如分别在图2A、 图4、图6A至图6B中所示的设备200、400或600)的RF电路208通信。 通信模块720还包括各种部件,用于处理由无线电路714和/或有线通信端 口712所接收的数据。
用户界面模块722经由I/O接口706接收来自用户(例如,来自键盘、 触摸屏、指向设备、控制器和/或麦克风)的命令和/或输入,并在显示器上 生成用户界面对象。用户界面模块722还准备输出(例如,语音、声音、动 画、文本、图标、振动、触觉反馈、光照等)并将其经由I/O接口706(例 如,通过显示器、音频通道、扬声器、触控板等)传送给用户。
应用程序724包括被配置为由所述一个或多个处理器704执行的程序和 /或模块。例如,如果数字助理系统在独立式用户设备上实施,则应用程序 724包括用户应用程序,诸如游戏、日历应用程序、导航应用程序或邮件应 用程序。如果数字助理系统700在服务器上实现,则应用程序724包括例如 资源管理应用程序、诊断应用程序、或调度应用程序。
存储器702还存储数字助理模块726(或数字助理的服务器部分)。在 一些示例中,数字助理模块726包括以下子模块或者其子集或超集:输入/ 输出处理模块728、语音转文本(STT)处理模块730、自然语言处理模块732、 对话流处理模块734、任务流处理模块736、服务处理模块738和语音合成 处理模块740。这些模块中的每一者均具有对以下数字助理模块726的系统 或数据与模型中的一者或多者或者其子集或超集的访问权限:知识本体760、 词汇索引744、用户数据748、任务流模型754、服务模型756和ASR系统 758。
在一些示例中,使用在数字助理模块726中实现的处理模块、数据和 模型,数字助理可执行以下中的至少一些:将语音输入转换成文本;识别 在从用户接收的自然语言输入中表达的用户意图;主动引出并获得完全推 断用户意图所需的信息(例如,通过消除字词、游戏、意图等的歧义); 确定用于满足推断出的意图的任务流;以及执行该任务流以满足推断出的 意图。
在一些示例中,如图7B中所示,I/O处理模块728可通过图7A中的 I/O设备716与用户交互或通过图7A中的网络通信接口708与用户设备(例 如,设备104、设备200、设备400或设备600)交互,以获取用户输入(例 如,语音输入)并提供对用户输入的响应(例如,作为语音输出)。I/O处 理模块728随同接收到用户输入一起或在接收到用户输入之后不久任选地获 得与来自用户设备的用户输入相关联的上下文信息。上下文信息包括特定 于用户的数据、词汇,和/或与用户输入相关的偏好。在一些示例中,该上 下文信息还包括在接收到用户请求时的用户设备的软件状态和硬件状态, 和/或在接收到用户请求时与用户的周围环境相关的信息。在一些示例中, I/O处理模块728还向用户发送与用户请求有关的跟进问题,并从用户接收 回答。在用户请求被I/O处理模块728接收且用户请求包括语音输入时,I/O 处理模块728将语音输入转发至STT处理模块730(或语音识别器)以进行 语音文本转换。
STT处理模块730包括一个或多个ASR系统758。该一个或多个ASR 系统758可处理通过I/O处理模块728接收到的语音输入,以产生识别结果。 每个ASR系统758包括前端语音预处理器。前端语音预处理器从语音输入 中提取代表性特征。例如,前端语音预处理器对语音输入执行傅里叶变换, 以提取表征语音输入的频谱特征作为代表性多维向量的序列。另外,每个 ASR系统758包括一个或多个语音识别模型(例如,声学模型和/或语言模 型)并且实现一个或多个语音识别引擎。语音识别模型的示例包括隐马尔 可夫模型、高斯混合模型、深层神经网络模型、n元语法语言模型以及其他 统计模型。语音识别引擎的示例包括基于动态时间规整的引擎和基于加权 有限状态变换器(WFST)的引擎。使用一个或多个语音识别模型和一个或多 个语音识别引擎来处理前端语音预处理器的所提取的代表性特征以产生中 间识别结果(例如,音素、音素串和子字词),并且最终产生文本识别结 果(例如,字词、字词串、或符号序列)。在一些示例中,语音输入至少 部分地由第三方服务处理或在用户的设备(例如,设备104、设备200、设 备400或设备600)上处理,以产生识别结果。一旦STT处理模块730产生 包含文本串(例如,字词,或字词的序列,或符号序列)的识别结果,识 别结果即被传送至自然语言处理模块732以供意图推断。在一些示例中,STT处理模块730产生语音输入的多个候选文本表示。每个候选文本表示是 与语音输入对应的字词或符号的序列。在一些示例中,每个候选文本表示 与语音识别置信度得分相关联。基于语音识别置信度得分,STT处理模块 730对候选文本表示进行排名并将n个最佳(例如,n个排名最高)候选文 本表示提供给自然语言处理模块732以供意图推断,其中n为大于零的预先 确定的整数。例如,在一个示例中,仅将排名最高的(n=1)候选文本表示递 送至自然语言处理模块732以供意图推断。又如,将5个排名最高的(n=5) 候选文本表示传递给自然语言处理模块732以供意图推断。
有关语音转文本处理的更多细节在提交于2011年9月20日的名为“Consolidating Speech Recognition Results”的美国实用新型专利申请序列 号13/236942中有所描述,其全部公开内容以引用方式并入本文。
在一些示例中,STT处理模块730包括可识别字词的词汇和/或经由语 音字母转换模块731访问该词汇。每个词汇字词与语音识别语音字母表中表 示的字词的一个或多个候选发音相关联。具体地,可识别字词的词汇包括 与多个候选发音相关联的字词。例如,该词汇包括与
Figure BDA0003623795170000441
Figure BDA0003623795170000442
的候选发音相关联的字词“tomato”。另外,词汇字词与基于来自用户的先 前语音输入的自定义候选发音相关联。此类自定义候选发音存储在STT处 理模块730中,并且经由设备上的用户配置文件与特定用户相关联。在一些 示例中,字词的候选发音基于字词的拼写以及一个或多个语言学和/或语音 学规则确定。在一些示例中,候选发音手动生成,例如,基于已知的标准 发音而手动生成。
在一些示例中,基于候选发音的普遍性来对候选发音进行排名。例如, 候选发音
Figure BDA0003623795170000443
的排名高于
Figure BDA0003623795170000444
因为前者是更常用的发音(例如, 在所有用户中,对于特定地理区域的用户而言,或者对于任何其他合适的 用户子集而言)。在一些示例中,基于候选发音是否为与用户相关联的自 定义候选发音来对候选发音进行排名。例如,自定义候选发音的排名高于 标准候选发音。这可用于识别具有偏离规范发音的独特发音的专有名词。 在一些示例中,候选发音与一个或多个语音特征诸如地理起源、国家或种 族相关联。例如,候选发音
Figure BDA0003623795170000445
与美国相关联,而候选发音
Figure BDA0003623795170000446
与英国相关联。此外,候选发音的排名基于存储在设备上的用户配置文件 中的用户的一个或多个特征(例如,地理起源、国家、种族等)。例如, 可从用户配置文件确定该用户与美国相关联。基于用户与美国相关联,候 选发音
Figure BDA0003623795170000451
(与美国相关联)可比候选发音
Figure BDA0003623795170000452
(与英国相关联)排名更高。在一些示例中,经排名的候选发音中的一个可被选作预测发音 (例如,最可能的发音)。
接收到语音输入时,STT处理模块730被用来(例如,使用声音模型) 确定对应于该语音输入的音素,然后尝试(例如,使用语言模型)确定匹 配该音素的字词。例如,如果STT处理模块730首先识别对应于该语音输 入的一部分的音素序列
Figure BDA0003623795170000453
那么它随后可基于词汇索引744确定该 序列对应于字词“tomato”。
在一些示例中,STT处理模块730使用模糊匹配技术来确定话语中的 字词。因此,例如,STT处理模块730确定音素序列
Figure BDA0003623795170000454
对应于字词 “tomato”,即使该特定音素序列不是该字词的候选音素序列。
数字助理的自然语言处理模块732(“自然语言处理器”)获取由STT 处理模块730生成的n个最佳候选文字表示(“字词序列”或“符号序 列”),并尝试将每个候选文本表示与由数字助理所识别的一个或多个 “可执行意图”相关联。“可执行意图”(或“用户意图”)表示可由数 字助理执行并且可具有在任务流模型754中实现的相关联的任务流的任务。 相关联的任务流是数字助理为了执行任务而采取的一系列经编程的动作和 步骤。数字助理的能力范围取决于已在任务流模型754中实现并存储的任务 流的数量和种类,或换言之,取决于数字助理所识别的“可执行意图”的 数量和种类。然而,数字助理的有效性还取决于助理从以自然语言表达的 用户请求中推断出正确的“一个或多个可执行意图”的能力。
在一些示例中,除从STT处理模块730获取的字词或符号的序列之外, 自然语言处理模块732还例如,从I/O处理模块728接收与用户请求相关联 的上下文信息。自然语言处理模块732任选地使用上下文信息来明确、补充 和/或进一步限定在从STT处理模块730接收的候选文本表示中包含的信息。 上下文信息包括例如用户偏好,用户设备的硬件和/或软件状态,在用户请 求之前、期间或之后不久收集的传感器信息,数字助理与用户之间的先前 交互(例如,对话),等等。如本文所述,在一些示例中,上下文信息是 动态的,并且随对话的时间、位置、内容、以及其他因素而变化。
在一些示例中,自然语言处理基于例如知识本体760。知识本体760为 包含许多节点的分级结构,每个节点表示“可执行意图”或与“可执行意 图”或其他“属性”中的一者或多者相关的“属性”。如上所述,“可执 行意图”表示数字助理能够执行的任务,即,该任务为“可执行的”或可 被进行的。“属性”代表与可执行意图或另一属性的子方面相关联的参数。知识本体760中可执行意图节点与属性节点之间的连接限定由属性节点表示 的参数如何从属于由可执行意图节点表示的任务。
在一些示例中,知识本体760由可执行意图节点和属性节点组成。在 知识本体760内,每个可执行意图节点直接连接至或通过一个或多个中间属 性节点连接至一个或多个属性节点。类似地,每个属性节点直接连接至或 通过一个或多个中间属性节点连接至一个或多个可执行意图节点。例如, 如图7C所示,知识本体760包括“餐厅预订”节点(即,可执行意图节点)。 属性节点“餐厅”、“日期/时间”(针对预订)和“派对人数”均直接连 接至可执行意图节点(即,“餐厅预订”节点)。
此外,属性节点“菜系”、“价格区间”、“电话号码”和“位置” 是属性节点“餐厅”的子节点,并且均通过中间属性节点“餐厅”连接至 “餐厅预订”节点(即,可执行意图节点)。又如,如图7C所示,知识本体 760还包括“设定提醒”节点(即,另一个可执行意图节点)。属性节点“日 期/时间”(针对设定提醒)和“主题”(针对提醒)均连接至“设定提醒” 节点。由于属性“日期/时间”与进行餐厅预订的任务和设定提醒的任务二 者相关,因此属性节点“日期/时间”连接至知识本体760中的“餐厅预订” 节点和“设定提醒”节点二者。
可执行意图节点连同其链接的属性节点一起,被描述为“域”。在本 讨论中,每个域与相应的可执行意图相关联,并是指与特定可执行意图相 关联的一组节点(以及这些节点之间的关系)。例如,图7C中示出的知识 本体760包括在知识本体760内的餐厅预订域762的示例和提醒域764的示 例。餐厅预订域包括可执行意图节点“餐厅预订”、属性节点“餐厅”、 “日期/时间”和“派对人数”以及子属性节点“菜系”、“价格范围”、 “电话号码”和“位置”。提醒域764包括可执行意图节点“设定提醒”和 属性节点“主题”和“日期/时间”。在一些示例中,知识本体760由多个 域组成。每个域与一个或多个其他域共享一个或多个属性节点。例如,除 了餐厅预订域762和提醒域764之外,“日期/时间”属性节点还与许多不 同域(例如,行程安排域、旅行预订域、电影票域等)相关联。
尽管图7C示出知识本体760内的两个示例性域,但其他域包括例如 “查找电影”、“发起电话呼叫”、“查找方向”、“安排会议”、“发 送消息”以及“提供问题的回答”、“阅读列表”、“提供导航指令”、 “提供针对任务的指令”等。“发送消息”域与“发送消息”可执行意图节点相关联,并且进一步包括属性节点诸如“一个或多个接收人”、“消 息类型”和“消息正文”。属性节点“接收人”进一步例如由子属性节点 诸如“接收人姓名”和“消息地址”来限定。
在一些示例中,知识本体760包括数字助理能够理解并对其起作用的 所有域(以及因而可执行意图)。在一些示例中,知识本体760诸如通过添 加或移除整个域或节点,或者通过修改知识本体760内的节点之间的关系进 行修改。
在一些示例中,将与多个相关可执行意图相关联的节点群集在知识本 体760中的“超级域”下。例如,“旅行”超级域包括与旅行相关的属性节 点和可执行意图节点的群集。与旅行相关的可执行意图节点包括“机票预 订”、“酒店预订”、“汽车租赁”、“路线规划”、“寻找感兴趣的 点”,等等。同一超级域(例如,“旅行”超级域)下的可执行意图节点 具有多个共用的属性节点。例如,针对“机票预订”、“酒店预订”、 “汽车租赁”、“获取路线”和“寻找兴趣点”的可执行意图节点共享属 性节点“起始位置”、“目的地”、“出发日期/时间”、“到达日期/时间” 和“派对人数”中的一者或多者。
在一些示例中,知识本体760中的每个节点与跟由节点代表的属性或 可执行意图有关的一组字词和/或短语相关联。与每个节点相关联的相应的 一组字词和/或短语是所谓的与节点相关联的“词汇”。将与每个节点相关 联的相应的一组字词和/或短语存储在与由节点所代表的属性或可执行意图 相关联的词汇索引744中。例如,返回图7B,与“餐厅”属性的节点相关 联的词汇包括字词诸如“美食”、“酒水”、“菜系”、“饥饿”、 “吃”、“披萨”、“快餐”、“膳食”等。又如,与“发起电话呼叫” 可执行意图的节点相关联的词汇包括字词和短语诸如“呼叫”、“打电 话”、“拨打”、“与……通电话”、“呼叫该号码”、“打电话给”等。 词汇索引744任选地包括不同语言的字词和短语。
自然语言处理模块732接收来自STT处理模块730的候选文本表示(例 如,一个或多个文本串或一个或多个符号序列),并针对每个候选表示, 确定候选文本表示中的字词涉及哪些节点。在一些示例中,如果发现候选 文本表示中的字词或短语(经由词汇索引744)与知识本体760中的一个或 多个节点相关联,则所述字词或短语“触发”或“激活”那些节点。基于 已激活节点的数量和/或相对重要性,自然语言处理模块732选择可执行意 图中的一个可执行意图作为用户打算使数字助理执行的任务。在一些示例 中,选择具有最多“已触发”节点的域。在一些示例中,选择具有最高置 信度(例如,基于其各个已触发节点的相对重要性)的域。在一些示例中, 基于已触发节点的数量和重要性的组合来选择域。在一些示例中,在选择 节点的过程中还考虑附加因素,诸如数字助理先前是否已正确解译来自用 户的类似请求。
用户数据748包括特定于用户的信息,诸如特定于用户的词汇、用户 偏好、用户地址、用户的默认第二语言、用户的联系人列表,以及每位用 户的其他短期或长期信息。在一些示例中,自然语言处理模块732使用特定 于用户的信息来补充用户输入中所包含的信息以进一步限定用户意图。例 如,针对用户请求“邀请我的朋友参加我的生日派对”,自然语言处理模 块732能够访问用户数据748以确定“朋友”是哪些人以及“生日派对”将 于何时何地举行,而不需要用户在其请求中明确地提供此类信息。
应认识到,在一些示例中,利用一个或多个机器学习机构(例如,神 经网络)来实现自然语言处理模块732。具体地,一个或多个机器学习机构 被配置为接收候选文本表示和与候选文本表示相关联的上下文信息。基于 候选文本表示和相关联的上下文信息,一个或多个机器学习机构被配置为 基于一组候选可执行意图确定意图置信度得分。自然语言处理模块732可基 于所确定的意图置信度得分从一组候选可执行意图中选择一个或多个候选 可执行意图。在一些示例中,还利用知识本体(例如,知识本体760)从一 组候选可执行意图中选择一个或多个候选可执行意图。
基于符号串搜索知识本体的其他细节在提交于2008年12月22日的名 为“Methodand Apparatus for Searching Using An Active Ontology”的美国实 用新型专利申请序列号12/341743中有所描述,其全部公开内容以引用方式 并入本文。
在一些示例中,一旦自然语言处理模块732基于用户请求识别出可执 行意图(或域),自然语言处理模块732便生成结构化查询以表示所识别的 可执行意图。在一些示例中,结构化查询包括针对可执行意图的域内的一 个或多个节点的参数,并且所述参数中的至少一些参数填充有用户请求中 指定的特定信息和要求。例如,用户说“帮我在寿司店预订晚上7点的座 位。”在这种情况下,自然语言处理模块732能够基于用户输入将可执行意图正确地识别为“餐厅预订”。根据知识本体,“餐厅预订”域的结构化 查询包括参数诸如{菜系}、{时间}、{日期}、{派对人数}等。在一些示例 中,基于语音输入和使用STT处理模块730从语音输入得出的文本,自然 语言处理模块732针对餐厅预订域生成部分结构化查询,其中部分结构化查 询包括参数{菜系=“寿司类”}以及{时间=“晚上7点”}。然而,在该示例 中,用户话语包含不足以完成与域相关联的结构化查询的信息。因此,基 于当前可用信息,在结构化查询中未指定其他必要参数诸如{派对人数}和 {日期}。在一些示例中,自然语言处理模块732用所接收的上下文信息来填 充结构化查询的一些参数。例如,在一些示例中,如果用户请求“附近的” 寿司店,自然语言处理模块732用来自用户设备的GPS坐标来填充结构化 查询中的{位置}参数。
在一些示例中,自然语言处理模块732识别针对从STT处理模块730 所接收的每个候选文本表示的多个候选可执行意图。另外,在一些示例中, 针对每个所识别的候选可执行意图生成相应的结构化查询(部分地或全部 地)。自然语言处理模块732确定针对每个候选可执行意图的意图置信度得 分,并基于意图置信度得分对候选可执行意图进行排名。在一些示例中, 自然语言处理模块732将所生成的一个或多个结构化查询(包括任何已完成的参数)传送至任务流处理模块736(“任务流处理器”)。在一些示例中, 针对m个最佳(例如,m个排名最高的)候选可执行意图的一个或多个结 构化查询被提供给任务流处理模块736,其中m为预先确定的大于零的整 数。在一些示例中,将针对m个最佳候选可执行意图的一个或多个结构化 查询连同对应的一个或多个候选文本表示提供给任务流处理模块736。
基于根据语音输入的多个候选文本表示所确定的多个候选可执行意图 推断用户意图的其他细节在2014年6月6日提交的名称为“System and Method for Inferring UserIntent From Speech Inputs”的美国实用新型专利申 请序列号14/298725中有所描述,其全部公开内容以引用方式并入本文。
任务流处理模块736被配置为接收来自自然语言处理模块732的一个或 多个结构化查询,(必要时)完成结构化查询,以及执行“完成”用户最 终请求所需的动作。在一些示例中,完成这些任务所必需的各种过程在任 务流模型754中提供。在一些示例中,任务流模型754包括用于获取来自用 户的附加信息的过程,以及用于执行与可执行意图相关联的动作的任务流。
如上所述,为了完成结构化查询,任务流处理模块736需要发起与用 户的附加对话,以便获取附加信息和/或弄清可能有歧义的话语。当有必要 进行此类交互时,任务流处理模块736调用对话流处理模块734来参与同用 户的对话。在一些示例中,对话流处理器模块734确定如何(和/或何时) 向用户请求附加信息,并且接收和处理用户响应。通过I/O处理模块728将 问题提供给用户并从用户接收回答。在一些示例中,对话流处理模块734经由可听输出和/或视觉输出向用户呈现对话输出,并经由口头或物理(例如, 点击)响应接收来自用户的输入。继续上述示例,在任务流处理模块736调 用对话流处理模块734来确定针对与域“餐厅预订”相关联的结构化查询的 “派对人数”和“日期”信息时,对话流处理模块734生成诸如“一行几 位?”和“预订哪天?”之类的问题传递给用户。一旦收到来自用户的回答, 对话流处理模块734就用缺失信息填充结构化查询,或将信息传递给任务流 处理模块736以根据结构化查询完成缺失信息。
一旦任务流处理模块736已针对可执行意图完成结构化查询,任务流 处理模块736便开始执行与可执行意图相关联的最终任务。因此,任务流处 理模块736根据结构化查询中包含的特定参数来执行任务流模型中的步骤和 指令。例如,针对可执行意图“餐厅预订”的任务流模型包括用于联系餐 厅并实际上请求在特定时间针对特定派对人数的预订的步骤和指令。例如, 使用结构化查询诸如:{餐厅预订、餐厅=ABC咖啡馆、日期=3/12/2012、 时间=7pm、派对人数=5},任务流处理模块736可执行以下步骤:(1)登录 ABC咖啡馆的服务器或诸如
Figure BDA0003623795170000511
的餐厅预订系统,(2)以网站上的 形式输入日期、时间和派对人数信息,(3)提交表单,以及(4)在用户的日历 中形成针对预订的日历条目。
在一些示例中,任务流处理模块736在服务处理模块738(“服务处理 模块”)的辅助下完成用户输入中所请求的任务或者提供用户输入中所请 求的信息性回答。例如,服务处理模块738代表任务流处理模块736发起电 话呼叫、设定日历条目、调用地图搜索、调用用户设备上安装的其他用户 应用程序或与所述其他应用程序进行交互,以及调用第三方服务(例如, 餐厅预订门户网站、社交网站、银行门户网站等)或与第三方服务进行交 互。在一些示例中,通过服务模型756中的相应服务模型指定每项服务所需 的协议和应用程序编程接口(API)。服务处理模块738针对服务访问适当的 服务模型,并依据服务模型根据该服务所需的协议和API生成针对该服务 的请求。
例如,如果餐厅已启用在线预订服务,则餐厅提交服务模型,该服务 模型指定进行预订的必要参数以及将必要参数的值传送至在线预订服务的 API。在被任务流处理模块736请求时,服务处理模块738可使用存储在服 务模型中的Web地址来建立与在线预订服务的网络连接,并将预订的必要 参数(例如,时间、日期、派对人数)以根据在线预订服务的API的格式 发送至在线预订界面。
在一些示例中,自然语言处理模块732、对话流处理模块734以及任务 流处理模块736被共同且反复地使用,以推断并限定用户的意图、获取信息 以进一步明确并细化用户意图并最终生成响应(即,输出至用户,或完成 任务)以满足用户的意图。所生成的响应是至少部分地满足用户意图的对 语音输入的对话响应。另外,在一些示例中,所生成的响应被输出为语音 输出。在这些示例中,所生成的响应被发送到语音合成处理模块740(例如,语音合成器),其中可处理所生成的响应以将对话响应以语音形式合成。 在其他示例中,所生成的响应是与满足语音输入中的用户请求相关的数据 内容。
在任务流处理模块736接收到来自自然语言处理模块732的多个结构化 查询的示例中,任务流处理模块736首先处理所接收结构化查询的第一结构 化查询以试图完成第一结构化查询和/或执行由第一结构化查询所表示的一 个或多个任务或动作。在一些示例中,第一结构化查询对应于排名最高的 可执行意图。在其他示例中,第一结构化查询选自基于对应的语音识别置 信度得分和对应的意图置信度得分的组合而接收的结构化查询。在一些示 例中,如果任务流处理模块736在第一结构化查询的处理期间(例如,由于 无法确定必要的参数)遇到错误,任务流处理模块736可继续选择和处理所 接收的结构化查询中与排名较低的可执行意图对应的第二结构化查询。例 如基于对应候选文本表示的语音识别置信度得分、对应候选可执行意图的 意图置信度得分、第一结构化查询中的缺失的必要参数或它们的任何组合 来选择第二结构化查询。
语音合成处理模块740被配置为合成用于呈现给用户的语音输出。语 音合成处理模块740基于数字助理提供的文本来合成语音输出。例如,所生 成的对话响应是文本串的形式。语音合成处理模块740将文本串转换成可听 语音输出。语音合成处理模块740使用任何适当语音合成技术,以便从文本 生成语音输出,包括但不限于:拼接合成、单元选择合成、双音素合成、 特定于域的合成、共振峰合成、发音合成、基于隐马尔可夫模型(HMM)的合成以及正弦波合成。在一些示例中,语音合成处理模块740被配置为基于 对应于这些字词的音素串来合成各个字词。例如,音素串与所生成的对话 响应中的字词相关联。音素串存储在与字词相关联的元数据中。语音合成 处理模块740被配置为直接处理元数据中的音素串,以合成语音形式的字词。
在一些示例中,替代使用语音合成处理模块740(或除此之外),在远 程设备(例如,服务器系统108)上执行语音合成,并且将合成的语音发送 至用户设备以输出给用户。例如,这可发生在一些具体实施中,其中在服 务器系统处生成数字助理的输出。而且由于服务器系统通常比用户设备具 有更强的处理能力或更多的资源,其有可能获得比客户端侧合成将实现的 质量更高的语音输出。
有关数字助理的附加细节可见于提交于2011年1月10日的名称为 “IntelligentAutomated Assistant”的美国实用新型专利申请12/987982号和 提交于2011年9月30日的名称为“Generating and Processing Task Items That Represent Tasks to Perform”的美国实用新型专利申请13/251088号中,其全 部公开内容以引用方式并入本文。
4.用于提供播报通知的口头输出的过程
图8A至图8C示出了用于根据示例性播报计划表向用户提供口头输出 的系统800。系统800可例如使用实现数字助理(例如,数字助理系统700) 的一个或多个电子设备来实现。在一些实施方案中,系统800使用客户端- 服务器系统(例如,系统100)来实现,并且系统800的功能以任何方式在 一个或多个服务器设备(例如,DA服务器106)与客户端设备之间划分。 在其他实施方案中,系统800的功能在一个或多个服务器与多个客户端设备 (例如,移动电话和智能手表)之间划分。因此,虽然系统800的一些功能 在本文中被描述为由客户端-服务器系统的特定设备执行,但应当理解,系 统800不限于此。在其他示例中,系统800使用仅一个客户端设备(例如, 用户设备104)或仅多个客户端设备来实现。在系统800中,一些功能被任 选地组合,一些功能的次序被任选地改变,并且一些功能被任选地省略。在一些示例中,可结合所述的系统800的功能来执行附加步骤。
参考图8A,系统800在时间t处接收第一通知802A,并且在时间t+1 处接收第二通知804A。所接收的通知诸如第一通知802A和第二通知804A 可以是导航方向(诸如来自地图应用程序的实时行驶方向)、来自第一方 或第三方应用程序的通知、消息、电话呼叫、安全警报等。例如,在图8A 中,第一通知802A是来自消息应用程序的来自联系人妈妈的通知,其中通 知正文为“到家后给我打电话”,并且第二通知804A是即将到来的导航方 向,其中通知正文为“在500英尺处,右转到日落大道。”。
在时间t处接收第一通知802A和在时间t+1处接收第二通知804A发生 在第一时间段806内。在一些实施方案中,第一时间段806是低于预定阈值 持续时间的时间段。例如,第一时间段806可以是低于预定阈值持续时间的 任何时间段,诸如30秒、一分钟或被选择用于帮助维持适当认知负载的另 一持续时间。在一些实施方案中,第一时间段806可以是期间启用低中断的 时间段。例如,第一时间段806可涵盖在实现系统800的设备(例如,移动电话或膝上型计算机)被置于“勿扰”或“工作”模式时接收到的任何通 知。在一些实施方案中,第一时间段806可以是生成对应于第一通知802A 的第一口头输出802B并且向用户提供第一口头输出802B所需的时间段。 也就是说,如果系统800假设地开始提供第一口头输出802B(例如,在接 收到通知802A之后尽可能快地),则第一时间段806可涵盖在第一口头输出802B的假设播报期间将接收到的任何通知。
表示第一通知802A的第一口头输出802B根据确定要将第一通知802A 播报给用户来获得。同样,表示第二通知804A的第二口头输出804B根据 确定要将第二通知804A播报给用户来获得。在一些实施方案中,系统800 确定是否要将第一通知802A和第二通知804B播报给用户,如下文关于图 9A至图9B所述。
在一些实施方案中,第一口头输出802B或第二口头输出804B可通过 分别基于第一通知802A或第二通知804B生成第一口头输出802B或第二口 头输出804B来获得。例如,如下文关于图10A至图10C和图11A至图11C 所述,第一口头输出802B和第二口头输出804B生成为包括或省略各种源 信息、各种过渡词和/或各自对应的通知的正文。在一些实施方案中,第一 口头输出802B或第二口头输出804B可直接从相应源获得,诸如由地图绘 制应用程序以音频通知的形式提供的导航方向。例如,在图8A中,第一口 头输出802B可基于第一通知802A生成为包括第一源信息“妈妈说”和过 渡词“另外”以及通知正文“到家后给我打电话”,而第二口头输出804B “在500英尺处,右转到日落大道。”可直接从原始地图应用程序获得。
系统800至少基于第一通知802A的第一类型和第二通知804A的第二 类型确定播报计划表。在一些实施方案中,播报计划表可包括用于提供每 个口头输出的次序(例如,定义首先、其次、再次等播报哪个口头输出的 序列)以及用于提供每个输出的特定时间。
然后,系统800根据所确定的播报计划表向用户提供第一口头输出 802B和第二口头输出804B。例如,第一口头输出802B和第二口头输出 804B可通过系统800中所包括的或(例如,使用蓝牙、WiFi、有线连接等) 连接到该系统的一个或多个扬声器、耳机或其他音频设备可听地播报给用 户。例如,在图8A中,系统800可通过车辆的连接到实现系统800的设备 的立体声系统提供第一口头输出802B和第二口头输出804B。
在图8A中,第一通知802A是消息类型通知,并非导航方向类型通知; 并且第二通知804A是导航方向类型通知。因此,在图8A中,根据所确定 的播报计划表提供第一口头输出802B和第二口头输出804B包括:(1)在第 一口头输出802B之前提供第二口头输出804B,即使对应的通知是以反向次 序接收的也是如此,以及(2)在向用户提供第二口头输出804B之后的至少预 定延迟时间808提供第一口头输出802B。
如本文所述根据所确定的播报计划表提供第一口头输出802B和第二口 头输出804B提供了直观且高效的接口。也就是说,并非按接收对应通知的 次序自动地提供口头输出,而是系统800根据基于对应的第一通知802A和 第二通知804A智能确定的计划表提供第一口头输出802B和第二口头输出 804B。通过基于第一通知802A和第二通知804A的类型智能地确定播报计 划表,系统800降低了需要重述输出(例如,如果执行第二口头输出804B所要求的转弯分散用户的全部注意力,则重述第一口头输出802B)或提供 附加输出(例如,如果用户由于第一口头输出802B造成的分心而错过第二 口头输出804B所要求的转弯,则获得和提供附加口头输出)的可能性。例 如,图8A中所示的播报计划表更好地使用户能够听到、理解和按照即将到 来的导航方向第二口头输出804B采取行动(“在500英尺处,右转到日落 大道。”),而没有因第一口头输出802B(“另外,妈妈说:‘到家后给 我打电话’”)造成的中断或分心。
参考图8B,系统800在时间t处接收第一通知810A,在时间t+2处接 收第二通知812A,并且在时间t+3处接收第三通知814A。例如,在图8B 中,第一通知810A是来自消息应用程序的从联系人Sky到包括联系人Hazel 和用户的消息线程的通知,其中通知正文为“哇,菜单看起来很棒”;第 二通知812A是来自共乘服务的通知,指示用户的共乘车已到达;并且第三 通知是来自信息应用程序的从联系人Sky到包括联系人Hazel和用户的消息 线程的另一通知,通知正文包括图片。
在时间t处接收第一通知810A、在时间t+2处接收第二通知812A和在 时间t+3处接收第三通知814A发生在第一时间段816内。在一些实施方案 中,第一时间段816可以是获得(例如,生成)第一口头输出810B(对应 于第一通知810A)并且向用户提供该第一口头输出所需的时间段。例如, 在图8B中,系统800在时间t+1处开始提供第一口头输出810B,并且在时 间t+4处完成提供第一口头输出810B,因此第一时间段816涵盖在第一口 头输出810B的播报结束之前接收到的任何通知(例如,从时间t至时间 t+4)。在一些实施方案中,第一时间段816可以是预定阈值持续时间或期 间启用低中断的时间段。
表示第一通知810A的第一口头输出810B根据确定要将第一通知810A 播报给用户来获得。同样,表示第二通知812A的第二通知812B根据确定 要将第二通知812A播报给用户来获得;并且表示第三通知814A的第三通 知814B根据确定要将第三通知814A播报给用户来获得。
如上文关于图8A所述,在一些实施方案中,口头输出810B、812B或 814B可通过基于相应通知(810A、812A和814A)生成相应口头输出来获 得,或者可以另一种方式获得,诸如直接从相应通知源获得。在一些实施 方案中,格式化第一口头输出810B、第二口头输出812B和第三口头输出 814B,如下文关于图10A至图10C所述。例如,如图8B所示,第一口头输出810B基于第一通知810A生成为包括源信息“Sky对你和Hazel说”和通 知正文“哇,菜单看起来很棒”。因为第二通知812A是从与第一通知810A 不同的源接收的,所以第二口头输出812B生成为包括过渡词“以及”、源 信息“来自共乘服务”和通知正文“您的车到了”。因为第三通知814A是 来自与第一通知810A相同的源的消息通知,所以第三口头输出814B生成 为包括过渡词“并且”并且省略源信息“Sky对你和Hazel说”。
在一些实施方案中,根据确定相应通知的正文部分满足播报标准,可 将口头输出810B、812B或814B生成为包括相应的通知正文部分。例如, 在图8B中,因为第三通知814A的通知正文包括图片并且不满足播报标准 (例如,可读性要求),所以第三口头输出814B生成为不包括通知正文而 是替代地包括占位符“图片”。
系统800基于第一通知810A、第二通知812A和第三通知814A的类型 和源确定播报计划表。例如,通知的源可包括从其接收通知的设备、从其 接收通知的应用程序、从其接收通知的特定联系人或消息线程(例如,群 组聊天)等。在图8B中,第一通知810A是从包括用户和Hazel的消息线程 中的联系人Sky接收的;第二通知812A是从应用程序Uber接收的;并且 第三通知814A是从包括用户和Hazel的消息线程中的联系人Sky接收的。
然后,系统800根据所确定的播报计划表向用户提供第一口头输出 810B、第二口头输出812B和第三口头输出814B。例如,第一口头输出 810B、第二口头输出812B和第三口头输出814B可通过系统800中所包括 的或(例如,使用蓝牙、WiFi、有线连接等)连接到该系统的一个或多个 扬声器、耳机或其他音频设备可听地播报给用户。
例如,在图8B中,第一通知810A和第三通知814A均是来自同一源 的消息类型通知,在图8C中。因此,首先提供第一口头输出810B;在提供 第一口头输出810B之后的至少第一预定延迟时间818,其次提供第三通知 814B;并且在提供第三口头输出814B之后的至少第二预定延迟时间820, 再次提供第二通知812B。
如本文所述根据所确定的播报计划表提供第一口头输出810B、第二口 头输出812B和第三口头输出814B提供了直观且高效的界面。例如,通过 智能地确定播报计划表,系统800可利用格式化效率(例如,省略来自后续 通知的重复源信息)并且降低需要重述输出(例如,如果用户因在不相关 通知之间来回跳转而变得混淆)的可能性。如图8B中所示,代替尽可能快 地向用户提供第二口头输出812B,系统800在第二口头输出812B之前提供第三口头输出814B,从而允许用户跟进与Sky和Hazel的会话,而没有因 第二口头输出814B造成的中断。
参考图8C,在第一时间段828内,系统800在时间t处接收第一通知 822A;在时间t+1处接收第二通知824A,并且在时间t+3处接收第三通知 826A。例如,在图8C中,第一通知822A是来自联系人妈妈的语音留言的 电话通知;第二通知824A是来自地图应用程序的“右转”的导航方向通知; 并且第三通知826A是来自提醒应用程序的提醒重新安排牙医预约的通知。
表示第一通知810A的第一口头输出810B根据确定要将第一通知810A 播报给用户来获得。同样,表示第二通知812A的第二通知812B根据确定 要将第二通知812A播报给用户来获得;并且表示第三通知814A的第三通 知814B根据确定要将第三通知814A播报给用户来获得。
在一些实施方案中,格式化第一口头输出822B、第二口头输出824B 和第三口头输出826B,如下文关于图9A至图11B所述。例如,如图8C中 所示,获得第一口头输出810B包括在从与第二通知812A不同的源接收第 一通知810A(例如,首先播报的通知)时将第一口头输出810B生成为包 括源信息“妈妈”和过渡词“另外”;并且获得第三口头输出814B包括将第三口头输出814B生成为包括源信息“提醒”和过渡词“以及”。
系统800确定播报计划表(至少基于所接收的通知的相应类型),并 且根据所确定的播报计划表向用户提供第一口头输出822B、第二口头输出 824B和第三口头输出826B。例如,在图8C中,根据播报计划表提供第一 口头输出822B、第二口头输出824B和第三口头输出826B包括(1)首先提供 第二口头输出824B(对应于导航方向类型通知824A),其次提供第一口头 输出822B,并且再次提供第三口头输出826B。
在一些实施方案中,系统800提供指示与所提供的口头输出中的一者 或多者相关的一个或多个任务的附加口头。也就是说,系统800可向用户提 供指示相关功能的口头提示。例如,系统800可在口头输出826B之后提供 附加口头输出,诸如“顺便说一下,在播报通知之后,我将保持收听几秒。 您可以说“重述”或要求我将提醒标记为已完成”,这具体地与口头输出 826B相关,或者“顺便说一下,如果您需要暂停播报,则可要求我暂时关 闭它们”,这与所提供的口头输出相关。
系统800从用户接收自然语言语音输入830。在一些实施方案中,可在 播报计划表中的最终口头输出(例如,第三口头输出826A)的播报之后的 收听时段832期间接收自然语言语音输入830。例如,如图8C中所示,自 然语言语音输入830是在收听时段832期间的时间t+4处接收的自然语言语 音输入“标记为已完成”。在一些实施方案中,可替代地在提供口头输出 时接收自然语言语音输入830。
系统800基于自然语言语音输入830来确定任务834。任务834可包括 通信任务(例如,打电话、发消息等)、在第一方或第三方应用程序内执 行的任务或与通知的播报相关的任务(例如,跳到播报计划表中的下一口 头输出或跳到播报计划表的结尾、取消提供播报计划表中的剩余口头输出、 关闭通知的播报等)。例如,可使用自然语言处理以从自然语言语音输入830确定意图来确定任务834。再如,可根据包括在自然语言语音输入830 中的一个或多个语音命令来确定任务834。例如,在图8C中,基于自然语 言语音输入830“标记为已完成”,系统800确定任务834是设定属性(例 如,标记为已完成(done/completed))任务。另选地,如果自然语言语音 输入830替代地陈述“播放”,则系统800可替代地确定任务834是音频播 放任务。
系统800确定自然语言语音输入830与哪个口头输出相关。例如,在图 8C中,系统800确定自然语言语音输入830(“标记为已完成”)与第三 口头输出826B(“以及,提醒:重新安排牙医预约”)相关。
然后,系统800基于所确定的口头输出(例如,所相关的口头输出) 执行任务834。例如,在图8C中,系统800基于第三口头输出826B执行任 务834,在提醒应用程序中将第三口头输出826B中提及的提醒标记为“已 完成”。
系统800基于任务834的执行生成第四口头输出836,并且向用户提供 (例如,可听地播报)第四口头输出836。例如,在图8C中,系统800生 成和提供陈述“好的,已完成”的第四口头输出836,向用户指示正在执行 (或已成功执行)任务834。
如本文所述确定和执行任务834以及生成和提供第四口头输出836提供 了直观且高效的界面。例如,通过结合通知的播报智能地确定和执行一个 或多个任务,系统800减少按照所接收的通知采取动作所需的用户输入的数 量。如图8C中所示,系统800可仅响应于自然语言语音输入830“标记为 已完成”而执行任务834,而不是要求用户手动访问提醒应用程序、找到相 关提醒和将该提醒标记为已完成。
尽管图8A至图8C被描述为关于接收两个或三个通知以及向用户安排 两个或三个口头对应输出的播报,但系统800可类似地接收和安排表示在第 一时间段内接收的任何数量的通知的任何数量的口头输出。
上文参考图8A至图8C所述的系统800任选地由图1至图4、图6A至 图6B和图7A至图7C描绘的部件来实现。例如,系统800的功能可由电子 设备(例如,104、122、200、400或600)诸如实现系统700的电子设备来 实现。本领域的普通技术人员会清楚地知道如何基于在图1至图4、图6A 至图6B和图7A至图7C中所描绘的部件来实现其他过程。
图9A至图9B为示出了根据一些实施方案的用于确定播报计划表以向 用户提供口头输出的方法900的流程图。方法900可使用具有一个或多个处 理器和存储器的一个或多个电子设备(例如,设备104、设备200、设备 600)来执行。在一些实施方案中,方法900使用客户端-服务器系统来执行, 其中方法900的操作以任何方式在客户端设备(例如,104、200、600)与 服务器之间划分。方法900中的一些操作任选地被组合,一些操作的次序任 选地被改变,并且一些操作任选地被省略。
参考图9A,在框902处,在第一时间段(例如,806、816、828)内 接收第一通知(例如,802A、810A、822A)和第二通知(例如,804A、 812A、824A)。在一些实施方案中,第一时间段低于预定阈值持续时间。 例如,预定阈值持续时间可以是被选择用于帮助维持用户的认知负载的阈 值,例如,通过安排在预定阈值持续时间一分钟内接收的任何通知的播报; 或通过安排在预定阈值持续时间在即将到来的导航方向之前或之后十五秒 内接收的任何通知的播报。
在一些实施方案中,第一时间段是获得(例如,生成)第一口头输出 (例如,802B、810B、822B)并且向用户提供该第一口头输出所需的时间 段。例如,可在提供(例如,播报)第一口头输出时接收第二通知,或者 可在假设地播报第一口头输出所花费的时间段期间接收第二通知。
在一些实施方案中,第一时间段是期间启用低中断模式的时间段。例 如,如果方法900使用电子设备诸如移动电话或膝上型计算机来执行,则第 一时间段可涵盖在电子设备被置于“工作”或“勿扰”模式时接收的通知。
在框904处,根据确定要将第一通知播报给电子设备的用户,获得表 示第一通知的第一口头输出(例如,802B、810B、822B)。在一些实施方 案中,获得表示第一通知的第一口头输出包括基于第一通知生成第一口头 输出。
在一些实施方案中,确定要将第一通知播报给电子设备的用户是基于 第一通知的第一类型。例如,实现方法900的系统(例如,系统800)可具 有以下规则:时间敏感类型的通知(例如,诸如导航方向、共乘车或快递 已到达的通知、或来自收藏联系人的消息或呼叫)应当播报给用户,而非 时间敏感类型的通知(例如,共乘或递送应用程序的促销、社交媒体上的 反应、软件更新通知、或来自被识别为垃圾的号码的呼叫)不应当播报给 用户。又如,应用程序可(例如,使用时间敏感API)指定应用程序所使用 的各种通知类型应当(或不应当)播报给用户。又如,实现方法900的系统 (例如,系统800)可具有以下规则:导航方向类型的通知应当播报给用户。 因此,以本文所述的方式确定是否要将第一通知播报给用户提供了高效且 直观的用户接口,该用户接口使用户将注意力放在重要的(例如,时间敏感)通知上,同时减少因不太重要的(例如,非紧急)通知造成的分心。
在一些实施方案中,确定要将第一通知播报给电子设备的用户是基于 第一用户偏好设定。也就是说,电子设备的用户可定制电子设备的设定, 使得播报一些通知、所有通知或不播报通知。例如,用户可定制用户偏好 设定以要求所有电子邮件类型通知应当播报,来自联系人妈妈的消息通知 应当播报和/或在晚上11:00与早上7:00之间接收的任何通知都不应当播报。
在一些实施方案中,第一通知从第一源接收,并且获得第一口头输出 包括将第一口头输出生成为包括对应于第一源的第一源信息。例如,如果 第一通知是来自联系人妈妈的消息的通知,则第一口头输出可包括第一源 信息诸如“Mom”。又如,如果第一通知是来自应用程序Uber的通知,则 第一口头输出可包括第一源信息“来自Uber”。
在一些实施方案中,生成第一口头输出包括确定第一通知的正文部分 是否满足播报标准,并且根据确定第一通知的正文部分满足播报标准,获 得第一口头输出包括将第一口头输出生成为包括正文部分。在一些实施方 案中,播报标准可包括通知的正文部分的阈值长度。在一些实施方案中, 播报标准可包括通知的正文部分的所需格式。例如,如果播报标准要求第 一通知的正文部分的长度少于50个字词,则通知正文“到家后给我打电话”满足播报标准并且可被包括在第一口头输出中(例如,第一口头输出的下 划线部分“妈妈说:‘到家后给我打电话’”)。
同样,在一些实施方案中,根据确定第一通知的正文部分不满足播报 标准,获得第一口头输出包括生成第一口头输出以省略正文部分。例如, 如果播报标准要求正文部分是可读文本格式,则表示带有图像通知正文的 第一通知的第一口头输出将不包括通知正文。在一些实施方案中,如果正 文部分不包括在第一口头输出中,则第一口头输出可替代地包括占位符 (例如,“Sky发送了图片”的下划线部分)。在一些实施方案中,占位符 可包括第一通知不满足播报标准的指示(例如,“Sky发送了长消息”,指 示正文部分超过阈值长度,或“Sky发送了我无法读出的消息”,指示正文 部分不是可读格式)。
在框906处,根据确定要将第二通知播报给电子设备的用户,获得表 示第二通知(例如,804B、812B、824B)的第二口头输出。在一些实施方 案中,获得表示第二通知的第二口头输出包括基于第二通知生成第二口头 输出。在一些实施方案中,确定要将第二通知播报给电子设备的用户是基 于第二通知的第二类型或第二用户偏好,如上文关于框904所述。
在一些实施方案中,确定要将第二通知播报给电子设备的用户是基于 确定第二通知不匹配第一通知。也就是说,如果在第一时间段内接收到重 复通知,则实现方法900的系统(例如,系统800)可不获得(例如,生成) 第一通知的重复通知。例如,如果电子接连接收到具有相同主题栏和发送 者的两个电子邮件通知,则不将第二通知确定为播报给用户,并且因此, 不获得(例如,生成)表示第二通知的第二口头输出。
在一些实施方案中,第二通知从第二源接收,并且获得(例如,生成) 第二口头输出包括确定第二源是否匹配第一通知的第一源。例如,确定第 二源是否匹配第一源可确定第一通知和第二通知是否从同一设备、同一应 用程序、同一联系人、同一消息线程中的同一联系人等接收。根据确定第 一源和第二源匹配,获得第二口头输出包括将第二口头输出生成为包括第 一过渡词(例如,“以及/并且”、“另外”)并且省略对应于第二源的第 二源信息。例如,在图8B中,从包括用户和联系人Hazel的消息线程中的 联系人Sky接收到两个通知,并且因此对应于稍后播报的通知(第三口头 输出814B)的口头输出包括过渡词“并且”并且省略源信息“Sky对你和 Hazel说”。
在一些实施方案中,获得(例如,生成)第二口头输出包括确定第二 口头输出的正文部分是否满足播报标准,如上文关于框904所述。
在一些实施方案中,可在第一时间段内接收附加通知,并且根据确定 要将附加通知中的任一者播报给用户,可获得对应的口头输出。例如,可 在第一时间段内接收第三通知,并且根据确定要将第三通知播报给用户, 可获得(例如,基于第三通知生成)表示第三通知的第三口头输出。
在框908处,基于第一通知的第一类型和第二通知的第二类型确定播 报计划表。例如,基于通知类型确定播报计划表可包括确定一个通知不是 导航方向并且确定另一通知是导航方向(例如,如图8A中那样)。
在于第一时间段内接收附加通知的实施方案中,确定播报计划表可基 于附加通知类型,并且确定播报计划表可包括确定两个或更多个通知来自 同一源并且至少一个通知是从不同源接收的。例如,确定播报计划表可进 一步基于第三所接收通知的第三类型,并且可包括确定第一通知和第三通 知均是消息类型通知并且第三源匹配第一源且不匹配第二源(例如,如图 8B中那样)。
在一些实施方案中,播报计划表包括用于向用户提供第一口头输出和 第二口头输出的次序(例如,序列)、用于向用户递送第一口头输出的第 一时间以及用于向用户递送第二口头输出的第二时间。例如,在图8A中, 播报计划表指定首先在时间t处向用户提供第二口头输出,并且其次在时间 t+1(例如,t之后的时间)处向用户提供第一口头输出。
在框910处,根据播报计划表向用户提供第一口头输出和第二口头输 出。例如,第一口头输出和第二口头输出可通过实现方法900的系统中所包 括的或(例如,使用蓝牙、WiFi、有线连接等)连接到该系统的一个或多 个扬声器、耳机或其他音频设备可听地播报给用户。
在一些实施方案中,可生成和提供指示与所提供的口头输出中的一者 或多者相关的一个或多个任务的一个或多个附加口头输出。例如,附加口 头输出可与特定口头输出的跟进任务(例如,“顺便说一下,如果您想要 再听一次,则可要求重述”)、相关口头输出的播报的任务(例如,“顺 便说一下,如果您想停止听到来自此应用程序的通知,只需说‘关闭来自 Messages的通知’”)、或一般口头输出的播报的任务(例如,“顺便说 一句,如果您需要暂停播报,则可要求我暂时关闭它们”)相关。在一些 实施方案中,基于播报通知的历史生成和提供一个或多个附加口头输出。 例如,更长和更详细的提示可在播报特定类型的通知的第一时间处生成, 而截短的提示可在播报特定类型的通知的后续时间(例如,第五或更大的 时间)处生成。又如,用于关闭播报通知的提示可在播报许多(例如,五 个或更多个)通知之后短时间内提供。又如,如果先前已提供许多提示, 则可不生成或提供附加口头输出。
在一些实施方案中,根据确定第一类型的第一通知不是导航方向以及 确定第二类型的第二通知是导航方向,根据播报计划表向用户提供第一口 头输出和第二口头输出包括:(1)向用户提供第二口头输出,以及(2)至少在 向用户提供第二口头输出之后的第一预定延迟时间处,向用户提供第一口 头输出。也就是说,如果第二通知是导航方向而第一通知不是,则即使第 二通知是在第二时间接收的也将首先播报第二通知(例如,将向用户提供 第二口头输出)。
例如,在图8A中,根据播报计划表向用户提供第一口头输出802B (对应于消息类型通知802A)和第二口头输出804B(对应于导航方向类型 通知804A)包括:(1)提供第二口头输出804B“在500英尺处,右转到日落 大道。”,以及(2)在播报第二口头输出804B之后的第一预定延迟时间808 处,提供第一口头输出802B“另外,妈妈说‘到家后给我打电话’”。因此,以本文所述的方式根据播报计划表提供口头输出提供了高效且直观的 接口,从而允许用户在没有因实时和通常是时间敏感的行驶方向而分散注 意力的情况下听到消息通知。
在于第一时间段内接收第三通知的实施方案中,根据确定(1)第一类型 的第一通知是消息通知、(2)第三类型的第三通知是消息通知并且(3)第一通 知的第一源匹配第三通知的第三源且不匹配第二通知的第二源,根据播报 计划表向用户提供第一口头输出、第二口头输出和第三口头输出包括:(1) 向用户提供第一口头输出,(2)在向用户提供第一口头输出之后的第二预定 延迟时间处,向用户提供第三口头输出,以及(3)根据确定第二类型的第二 通知不是导航方向,在向用户提供第三口头输出之后的第三预定延迟时间 处,向用户提供第二口头输出。也就是说,可将来自同一源的消息通知安 排在一起以进行播报。
例如,在图8B中,根据播报计划表向用户提供第一口头输出810B (对应于从Sky到用户和Hazel的消息类型第一通知810A)、第二口头输 出812B(对应于来自Uber的共乘类型第二通知812A)和第三口头输出 814B(对应于从Sky到用户和Hazel的消息类型第三通知814A)包括:(1) 提供第一口头输出810B“Sky对你和Hazel说:‘哇,菜单看起来很棒’”, (2)在提供第一口头输出810B之后的第一预定延迟时间818处,提供第三口 头输出814B“并且发送了图片”,以及(3)在提供第三口头输出814B之后 的第二预定延迟时间820处,提供第二口头输出812B。因此,以本文所述 的方式根据播报计划表提供口头输出通过对来自单个会话的通知进行分组 而不是在不相关播报之间来回跳转提供了高效且直观的接口。
在一些实施方案中,在框912处,从用户接收自然语言语音输入(例 如,830)。例如,用户可提供语音输入,诸如“重述”、“标记为已完成” 或“播放”。在一些实施方案中,可在向用户提供第一口头输出和第二口 头输出时接收自然语言语音输入。在一些实施方案中,可在完成播报播报 计划表中的最终口头输出之后的收听时间段(例如,832)期间接收自然语 言语音输入。
在一些实施方案中,在框914处,基于自然语言语音输入来确定任务。 例如,自然语言处理可用于从自然语言语音输入830确定意图,并且对应于 该意图的任务可得以确定。再如,自然语言语音输入可包括支持的语音命 令,并且对应于该语音命令的任务可得以确定。任务可包括通信任务(例 如,打电话、发消息等)、在第一方或第三方应用程序内执行的任务(例 如,在提醒应用程序中将提醒标记为已完成、播放新的播客插曲)或与通 知的播报相关的任务(例如,跳到播报计划表中的下一口头输出或跳到播 报计划表的结尾、取消提供播报计划表中的剩余口头输出、关闭通知的播 报等)。例如,在图8C中,系统800基于自然语言语音输入830“标记为 已完成”确定任务834是属性设定任务。另选地,如果自然语言语音输入陈 述“播放”,则系统可确定任务是音频播放任务。
参考图9B,在一些实施方案中,在框916处,确定自然语言语音输入 是与第一口头输出还是第二口头输出相关。在一些实施方案中,该确定是 基于第一通知的第一类型和第二通知的第二类型。例如,不同的通知类型 可支持不同的任务(或意图),诸如电话类型通知(例如,第一通知822A) 支持诸如接听、拒绝、播放语音留言、回拨和询问刚刚打电话的人的任务 (或意图);并且提醒类型通知(诸如第三通知826A)支持诸如设定属性、 修改或小睡的任务(或意图)。因此,电子设备可确定自然语言语音输入 与对应于支持所确定的任务(或意图)的类型的通知的口头输出相关。
例如,如图8C中所示,从自然语言语音输入830“标记为已完成”确 定设定属性任务。因此,在图8C中,系统800确定自然语言语音输入830 与对应于提醒类型第三通知826A的第三语言输出826B相关,而不是对应 于电话类型第一通知822A的第一口头输出822B。
在一些实施方案中,在框918处,根据确定自然语言语音输入与第一 口头输出相关,基于第一通知执行任务。另选地,在框920处,根据确定自 然语言语音输入与第二口头输出相关,基于第二通知执行任务。例如,如 图8C中所示,自然语言语音输入830“标记为已完成”被确定为与第三口 头输出826B相关,因此系统800将第三通知826A所提及的提醒的属性设 定为“已完成”。又如,如果图8C中的自然语言语音输入830替代地陈述 “播放”(并且因此被确定为与第一口头输出822B相关),则系统800将 播放对应的电话类型第一通知822A所提及的语音留言。因此,如本文所述 执行任务允许电子设备为用户对通知作出响应,而无需用户手动访问电子 设备、找到相关通知和/或手动对通知作出响应。
在一些实施方案中,在框922处,基于执行任务来生成第四口头输出。 在一些实施方案中,在框924处,向用户提供第四口头输出。例如,第四口 头输出可包含已发起任务的执行的指示、已成功(或未成功)完成任务的 执行的指示或任何其他任务相关口头输出。例如,如图8C中所示,基于任 务834的执行生成第四口头输出“好的,已完成”(将提醒的属性设定为已 完成)并且将该第四口头输出提供(例如,可听地播报)给用户。因此, 如本文所述提供第四口头输出允许电子设备向用户告知所执行的任务的状 态,而无需用户手动访问电子设备和检查是否已成功完成所请求的任务。
需注意,上面相对于方法900(例如,图9A至图9B)所述过程的详情 也以类似方式适用于下文所述的方法。例如,方法900任选地包括方法 1100的特征中的一个或多个特征。
上文参考图9A至图9B所述的操作任选地由图1至图4、图6A至图6B 和图7A至图7C中所描绘的部件来实现。例如,方法900的操作可由实现 系统800的电子设备(例如,104、122、200、400或600)来实现。本领域 的普通技术人员会清楚地知道如何基于在图1至图4、图6A至图6B和图 7A至图7C中所描绘的部件来实现其他过程。
图10A至图10C示出了用于生成口头输出以提供给用户的系统1000。 系统1000可例如使用实现数字助理(例如,数字助理系统700)的一个或 多个电子设备来实现。在一些实施方案中,系统1000使用客户端-服务器系 统(例如,系统100)来实现,并且系统1000的功能以任何方式在服务器 (例如,DA服务器106)与一个客户端设备之间划分。在其他实施方案中, 系统800的功能在服务器与多个客户端设备(例如,移动电话和智能手表) 之间划分。因此,虽然系统1000的一些功能在本文中被描述为由客户端-服 务器系统的特定设备执行,但应当理解,系统1000不限于此。在其他示例 中,系统1000使用仅一个客户端设备(例如,用户设备104)或仅多个客 户端设备来实现。在系统1000中,一些功能被任选地组合,一些功能的次 序被任选地改变,并且一些功能被任选地省略。在一些示例中,可结合所述的系统1000的功能来执行附加步骤。
参考图10A,设备1001可从第一源接收第一通知。在一些实施方案中, 所接收的通知可包括导航方向(诸如来自地图应用程序的实时行驶方向)、 来自第一方或第三方应用程序的通知、消息、电话呼叫、安全警报等。在 一些实施方案中,第一源可包括从其接收第一通知的设备(例如,内部对 讲设备或家用自动化设备)、从其接收第一通知的应用程序(例如, Twitter或Messages)、从其接收第一通知的特定联系人或消息线程(例如, 包括用户1002、Sky和Hazel的消息线程中的联系人Sky)等。例如,在图 10A中,第一通知是从联系人Sky到包括用户1002、Sky和联系人Hazel的 消息线程的消息,其中通知正文为“哇,菜单看起来很棒”。又如,第一 通知可以是来自第三方应用程序Twitter的通知,其中通知标题为“您的新 闻”并且通知正文为“Apple公布了新的iPhone模型”。
根据确定要将第一通知播报给设备1001的用户1002,设备1001基于 第一通知生成第一口头输出1004。在一些实施方案中,根据确定第一通知 的正文部分满足播报标准(诸如指定指定正文部分的阈值长度或所需格式 的播报标准),将第一口头输出1004生成为包括正文部分。例如,在图 10A中,如果播报标准要求可读文本格式的正文部分的长度少于50个字词, 则正文部分“哇,菜单看起来很棒”满足播报标准并且被包括在第一口头 输出1004中。在一些实施方案中,第一口头输出1004生成为包括对应于第 一源的第一源信息。总体来讲,在图10A中,第一口头输出1004生成为包 括(1)第一源信息“Sky对你和Hazel说”,对应于包括用户1002、Sky和 Hazel的消息线程中的联系人Sky(例如,第一通知的第一源),和(2)第一 通知的正文部分“哇,菜单看起来很棒”。
然后,设备1001向用户1002提供所生成的第一口头输出1004。例如, 第一口头输出1004可通过设备1001中所包括的或(例如,使用蓝牙、WiFi、 有线连接等)连接到该设备的一个或多个扬声器、耳机或其他音频设备可 听地播报给用户1002。
当向用户1002提供第一口头输出1004时,设备1001从第二源接收第 二通知。如上所述,所接收的通知可包括导航方向(诸如来自地图应用程 序的实时行驶方向)、来自第一方或第三方应用程序的通知、消息、电话 呼叫、安全警报等。在一些实施方案中,第二源可包括从其接收第二通知 的设备、从其接收第二通知的应用程序(例如,Messages)、从其接收第 二通知的特定联系人或消息线程(例如,包括用户1002、Sky和Hazel的消 息线程)等。在一些实施方案中,第二通知的第二源与第一通知的第一源 可相同。例如,关于图10A,第二通知是从联系人Sky到包括用户1002、 Sky和Hazel的消息线程(例如,第二源)的另一消息,其中通知正文为 “我将预定晚上6点。”
根据确定要将第二通知播报给设备1001的用户1002,基于第一通知和 第二通知生成第二口头输出1006。也就是说,第二口头输出1006不仅基于 第二通知(例如,第二口头输出1006正在播报的通知)而且基于第一通知 (例如,当接收第二通知时口头输出1004正在播报的通知)生成。例如, 在图10A中,第二口头输出1004“以及:‘我将预定晚上6点’”生成为 传达第二通知的内容(例如,“我将预定晚上6点”)和第一通知的上下文 (例如,过渡词“以及”和多余源信息的省略)两者。
根据确定第一源和第二源匹配,将第二口头输出1006生成为包括第一 过渡词并且省略对应于第二源的第二源信息。例如,第一过渡词可以是任 何合适的过渡词,诸如“以及/并且”、“另外”、“最后”等。例如,在 图10A中,当从包括用户1002、Sky和Hazel的消息线程中的联系人Sky接 收到第一通知和第二通知两者时,第二口头输出1004生成为包括第一过渡 词“以及”并且省略第二源信息诸如“Sky对你和Hazel说”。
然后,设备1001向用户1002提供所生成的第二口头输出1006。例如, 第二口头输出1006可通过设备1001中所包括的或(例如,使用蓝牙、WiFi、 有线连接等)连接到该设备的一个或多个扬声器、耳机或其他音频设备可 听地播报给用户1002。
如本文所述提供所生成的第一口头输出1004和第二口头输出1006提供 了直观且高效的接口。例如,通过根据第一通知和第二通知两者的上下文 生成第二口头输出1006,系统1000可利用格式化效率(例如,通过使用过 渡词和省略重复源信息来减小总体播报长度)并且降低需要重述口头输出 的可能性(例如,通过提供更直观且易于理解的口头输出)。如图10A中 所示,设备1001可将源信息从第二口头输出1006省略,从而减少提供所播报的通知所需的时间,同时过渡词“以及”直观地叙述来自单独通知的信 息。
参考图10B,设备1001从第一源接收第一通知,诸如从联系人Sky到 包括用户1002、Sky和联系人Hazel的消息线程的消息,其中通知正文为 “哇,菜单看起来很棒”。根据确定要将第一通知播报给设备1001的用户 1002,基于第一通知生成第一口头输出1008,诸如陈述“Sky对你和Hazel 说:‘哇,菜单看起来很棒’”的第一口头输出1008。然后,设备1001向 用户1002提供(例如,可听地播报)所生成的第一口头输出1008。
当向用户1002提供第一口头输出1008时,设备1001从第二源接收第 二通知。例如,在图10B中,第二通知是来自共乘服务应用程序的通知, 其中通知正文包括图片。
根据确定要将第二通知播报给设备1001的用户1002,基于第一通知和 第二通知生成第二口头输出1010。在一些实施方案中,根据确定第一通知 的第一源不匹配第二通知的第二源,将第二口头输出1010生成为包括第二 过渡词并且包括对应于第二源的第二源信息。例如,在图10B中,当第一 源是联系人Sky(在包括用户1002、Sky和Hazel的消息线程中)并且第二 源是共乘服务应用程序时,第二口头输出1010生成为包括第二过渡词“另外”并且包括第二源信息“共乘服务发送了”。
在一些实施方案中,根据确定第二通知的正文部分不满足播报标准, 生成不包括正文部分的第二口头输出1010。例如,在图10B中,如果播报 标准要求可读文本格式的正文部分的长度少于50个字词,则正文部分中所 包括的图像不满足播报标准并且不包括在第二口头输出1010中。在一些实 施方案中,根据确定第二通知的正文部分不满足播报标准,可将占位符包 括在第二口头输出1010中(例如,以代替正文部分)。在一些实施方案中, 占位符可包括通知正文不满足播报标准的指示。例如,在图10B中,第二 口头输出生成为包括占位符“我无法读出的通知”,指示第二通知正文未 以可读格式格式化。
然后,设备1001向用户1002提供所生成的第二口头输出1010。例如, 第二口头输出1010可通过设备1001中所包括的或(例如,使用蓝牙、WiFi、 有线连接等)连接到该设备的一个或多个扬声器、耳机或其他音频设备可 听地播报给用户1002。如本文所述提供所生成的第一口头输出1008和第二 口头输出1010提供了直观且高效的接口。例如,如图10B所示,过渡词 “另外”的使用和第二源信息“共乘服务发送了”的包括直观地向用户指 示正在播报第二通知。
参考图10C,设备1001从第一源接收第一通知,诸如从联系人Sky到 包括用户1002、Sky和联系人Hazel的消息线程的消息,其中通知正文为 “哇,菜单看起来很棒”。根据确定要将第一通知播报给设备1001的用户 1002,基于第一通知生成第一口头输出1008。例如,在图10C中,第一口 头输出1012“Sky对你和Hazel说:‘哇,菜单看起来很棒’”生成为包括 第一源信息“Sky对你和Hazel说”和第一通知的正文部分“哇,菜单看起 来很棒”。然后,设备1001向用户1002提供(例如,可听地播报)所生成 的第一口头输出1012。
在向用户1002提供第一口头输出1012时,设备1001从第二源接收第 二通知,诸如来自提醒应用程序的通知,其中通知正文为“重新安排牙医 预约”。根据确定要将第二通知播报给设备1001的用户1002,基于第一通 知和第二通知生成第二口头输出1014。例如,在图10C中,第二口头输出 1014“另外,提醒:重新安排牙医预约”生成为包括第一过渡词“另外”、 第二源信息“提醒”和第二通知的正文部分“重新安排牙医预约”。然后, 设备1001向用户1002提供(例如,可听地播报)所生成的第二口头输出 1012。
在一些实施方案中,设备1001可生成和提供指示与可提供的所提供的 口头输出中的一者或多者相关的一个或多个任务的附加口头输出。例如, 附加口头输出可指示特定口头输出的跟进任务,诸如“顺便说一下,您可 要求我重述,或让我知道您想要将提醒标记为已完成”,这与第二口头输 出1012相关,或者可指示与通知的播报更一般相关的任务。
在一些实施方案中,设备1001从用户1002接收自然语言语音输入1016。 例如,在图10C中,设备1001接收自然语言语音输入1016“标记为已完 成”。然后,基于来自用户1002的自然语言语音输入1016来确定任务。例 如,在图10C中,设备1001可从自然语言语音输入1016“标记为已完成” 确定设定属性(例如,标记为已完成)任务。
在一些实施方案中,根据确定自然语言语音输入1016与第一口头输出 1012相关,基于第一通知执行任务,并且根据确定自然语言语音输入1016 与第二口头输出1014相关,基于通知执行任务。例如,在图10C中,由于 第二口头输出1014对应于支持从自然语言语音输入1016确定的设定属性任 务(或意图)的提醒通知,因此自然语言语音输入1016“标记为已完成” 与第二口头输出1014“另外,提醒:重新安排牙医预约”相关。因此,设 备1001通过将第二通知(例如,牙医预约提醒)所提及的提醒的属性设定 为“已完成”来基于第二通知执行任务。
在一些实施方案中,基于执行任务,设备1001生成第三口头输出1018 并且向用户提供第三口头输出1018。例如,在图10C中,第三口头输出 1018“好的,已完成”基于将牙医预约提醒的属性设定为“已完成”的执 行来生成,并且通过设备1001中所包括的或(例如,使用蓝牙、WiFi、有 线连接等)连接到该设备的一个或多个扬声器、耳机或其他音频设备可听 地播报给用户1002。
如本文所述播报通知提供了直观且高效的接口。例如,通过结合通知 的播报智能地确定和执行一个或多个任务,设备1001减少用户按照所接收 的通知采取行动所需的用户输入的数量(例如,用户1002不需要手动访问 提醒应用程序、找到相关提醒和将提醒标记为已完成)。同样,通过基于 任务的执行生成和提供口头输出,设备1001减少用户确定所请求动作的状 态所需的用户输入的数量。
尽管图10A至图10C被描述为关于接收两个通知以及向用户1002提供 两个口头输出,但系统1000可类似地提供表示任何数量的所接收通知的任 何数量的口头输出。在一些实施方案中,设备1001可从第三源接收第三通 知,并且根据确定要将第三通知播报给用户1002,系统1000可基于第一通 知、第二通知和第三通知生成第三口头输出。例如,从与第二通知(或第 一通知)相同的源接收的第三通知可包括第三过渡词,并且可包括或省略 第三源信息(例如,陈述以下播报:“Sky对你和Hazel说:‘哇,菜单看 起来很棒’”、“并且发送了图片”和“并且说:‘我将预定晚上6点’”; 或“Sky对你和Hazel说:‘哇,菜单看起来很棒’”、“另外来自共乘服务:您的车到了”、“并且:您的预计到达时间为晚上7点”)。
图11A至图11B为示出了用于生成口头输出以提供给用户的方法1100 的流程图。方法1100可使用具有一个或多个处理器和存储器的一个或多个 电子设备(例如,设备104、设备200、设备600)来执行。在一些实施方 案中,方法1100使用客户端-服务器系统来执行,其中方法1100的操作以 任何方式在客户端设备(例如,104、200、600)与服务器之间划分。方法 1100中的一些操作任选地被组合,一些操作的次序任选地被改变,并且一 些操作任选地被省略。
参考图11A,在框1102处,从第一源接收第一通知。在一些实施方案 中,第一通知可包括导航方向(诸如来自地图应用程序的实时行驶方向)、 来自第一方或第三方应用程序的通知、消息、电话呼叫、安全警报等。在 一些实施方案中,第一源可包括从其接收第一通知的设备(例如,内部对 讲设备或家用自动化设备)、从其接收第一通知的应用程序(例如, Twitter或Messages)、从其接收第一通知的特定联系人或消息线程(例如, 包括用户1002、Sky和Hazel的消息线程中的联系人Sky)等。
在框1104处,根据确定要将第一通知播报给电子设备的用户,基于第 一通知生成表示第一通知的第一口头输出(例如,1104、1108、1012)。
在一些实施方案中,确定要将第一通知播报给电子设备的用户是基于 第一通知的第一类型。例如,实现方法1100的系统可具有以下规则:时间 敏感类型的通知(例如,诸如导航方向、共乘车或快递已到达的通知、或 来自收藏联系人的消息或呼叫)应当播报给用户,而非时间敏感类型的通 知(例如,共乘或递送应用程序的促销、社交媒体上的反应、软件更新通 知或来自被识别为垃圾的号码的呼叫)不应当播报给用户。又如,应用程 序可(例如,使用时间敏感API)指定应用程序所使用的各种通知类型应当 (或不应当)播报给用户。又如,实现方法1100的系统可具有以下规则: 导航方向类型的通知应当播报给用户。以本文所述的方式确定是否要将第 一通知播报给用户提供了高效且直观的用户接口,该用户接口使用户将注 意力放在重要的(例如,时间敏感)通知上,同时减少因不太重要的(例如,非紧急)通知造成的分心。
在一些实施方案中,确定要将第一通知播报给电子设备的用户是基于 第一用户偏好设定。也就是说,电子设备的用户可定制电子设备的设定, 使得播报一些通知、所有通知或不播报通知。例如,用户可定制用户偏好 设定以要求所有电子邮件类型通知应当播报,来自联系人妈妈的消息通知 应当播报和/或在晚上11:00与早上7:00之间接收的任何通知都不应当播报。
在一些实施方案中,生成第一口头输出包括将对应于第一源的第一源 信息包括在第一口头输出中。例如,在图10A中,第一口头输出1004生成 为包括第一源信息“Sky对你和Hazel说”。
在一些实施方案中,生成第一口头输出包括确定第一通知的正文部分 是否满足播报标准,并且根据确定第一通知的正文部分满足播报标准,将 正文部分包括在第一口头输出中。在一些实施方案中,播报标准可包括通 知的正文部分的阈值长度。在一些实施方案中,播报标准可包括通知的正 文部分的所需格式。例如,如果播报标准要求第一通知的正文部分的长度 少于50个字词,则通知正文“哇,菜单看起来很棒”满足播报标准并且可被包括在第一口头输出中(例如,第一口头输出的下划线部分“Sky对你和Hazel说:‘哇,菜 单看起来很棒’”)。同样,根据确定第一通知的正文 部分不满足播报标准,不将正文部分包括在第一口头输出中。
在一些实施方案中,如果正文部分不包括在第一口头输出中,则第一 口头输出可替代地包括占位符。在一些实施方案中,占位符可包括第一通 知不满足播报标准的指示(例如,“Sky发送了长消息”,指示正文部分超 过阈值长度,或“Sky发送了我无法读出的消 ”,指示正文部分不是可读 格式的)。
在框1106处,向用户提供第一口头输出。例如,第一口头输出可通过 电子设备中所包括的或(例如,使用蓝牙、WiFi、有线连接等)连接到该 电子设备的一个或多个扬声器、耳机或其他音频设备可听地播报给用户。
在框1108处,在向用户提供第一口头输出时,从第二源接收第二通知。 与第一通知一样,第二通知可包括导航方向、来自第一方或第三方应用程 序的通知、消息、电话呼叫、安全警报等,并且第二源可包括设备、应用 程序、特定联系人或消息线程等。在一些实施方案中,第一源和第二源可 以是同一源。
在框1110处,根据确定要将第二通知播报给电子设备的用户,基于第 二通知和第一通知生成表示第二通知的第二口头输出(例如,1006、1010、 1014)。也就是说,第二口头输出不仅基于对应的第二通知而且基于第一 通知的上下文生成。
在一些实施方案中,确定要将第二通知播报给电子设备的用户是基于 第二通知的第二类型或第二用户偏好,如上文关于框1104所述。在一些实 施方案中,确定要将第二通知播报给电子设备的用户是基于确定第二通知 不匹配第一通知。也就是说,实现方法1100的系统可不生成(或播报)在 第一时间段内接收到的第一通知的重复通知。例如,如果电子设备接连接 收到具有相同主题栏和发送者的两个电子邮件通知,则不将第二通知确定 为播报给用户,并且因此,不生成表示第二通知的第二口头输出。
在一些实施方案中,基于第一通知和第二通知生成第二口头输出包括 确定第二源是否匹配第一源。例如,确定第二源匹配第一源可包括确定第 一通知和第二通知是从同一设备、同一应用程序、同一联系人、同一消息 线程中的同一联系人等接收的。
在一些实施方案中,根据确定第一源和第二源匹配,可将第二口头输 出生成为包括第一过渡词(例如,“以及/并且”、“另外”等)并且省略 对应于第二源的第二源信息。例如,在图10A中,第一通知和第二通知两 者是从包括用户1002、Sky和Hazel的消息线程中的联系人Sky接收的。因 此,在图10A中,第二口头输出1006生成为包括第一过渡词“以及”但省 略第二源信息诸如“Sky对你和Hazel说”。
在一些实施方案中,根据确定第一源和第二源不匹配,可将第二口头 输出生成为包括第二过渡词(例如,“以及/并且”、“另外”等)并且包 括对应于第二源的第二源信息。例如,在图10B中,第一通知是从包括用 户1002、Sky和Hazel的消息线程中的联系人Sky接收的,并且第二通知是 从共乘服务应用程序接收的。因此,在图10B中,第二口头输出1010生成 为包括第二过渡词“另外”和第二源信息“共乘服务发送了”。
在一些实施方案中,基于第二通知生成第二口头输出包括确定第二口 头输出的正文部分是否满足播报标准,如上文关于框1104所述。在一些实 施方案中,占位符可包括第二通知不满足播报标准的指示(例如,“Sky发 送了长消息”,指示正文部分超过阈值长度,或“Sky发送了我无法读出的消息”,指示正文部分不是可读格式的)。例如,在图10B中,如果播报 标准要求正文部分是可读文本格式,则第二口头输出1010不包括来自共乘 服务应用程序的通知的包括图像的正文部分,而是替代地包括占位符“我 无法读出的通知”。
在一些实施方案中,可接收附加通知,并且根据确定要将附加通知播 报给用户,可生成附加的对应口头输出。如上文关于框1104和1110所述, 可基于先前通知生成附加的对应口头输出,例如,生成为包括各种过渡词 或源信息。例如,可接收第三通知,并且根据确定要将第三通知播报给用 户,基于第一通知、第二通知和第三通知生成表示第三通知的第三口头输 出。
在一些实施方案中,根据播报计划表执行框1106(向用户提供第一口 头输出)和框1112(向用户提供第二口头输出)。在一些实施方案中,基 于第一通知的第一类型和第二通知的第二类型确定播报计划表,如上文关 于图8A至图8C和图9A至图9B所述。例如,播报计划表可包括用于向用 户提供第一口头输出和第二口头输出的次序(例如,序列)、用于向用户 递送第一口头输出的第一时间以及用于向用户提供第二口头输出的第二时 间。
在接收第三通知并且生成第三口头输出的实施方案中,可进一步基于 第三通知的第三类型确定播报计划表,并且还可根据播报计划表向用户提 供第三口头输出。例如,根据确定(1)第一类型的第一通知是消息通知、(2) 第三类型的第三通知是消息通知并且(3)第一通知的第一源匹配第三通知的 第三源,根据播报计划表提供第一口头输出、第二口头输出和第三口头输 出包括:(1)向用户提供第一口头输出;(2)在向用户提供第一口头输出之后 的第一预定延迟时间处,向用户提供第三口头输出;以及(3)在向用户提供 第三口头输出之后的第二预定延迟时间处,向用户提供第二口头输出。
在一些实施方案中,可生成和提供指示与所提供的口头输出中的一者 或多者相关的一个或多个任务的一个或多个附加口头输出。例如,附加口 头输出可与特定口头输出的跟进任务(例如,“顺便说一下,如果您想要 再听一次,则可要求重述”)、相关口头输出的播报的任务(例如,“顺 便说一下,如果您想停止听到来自此应用程序的通知,只需说‘关闭来自 Messages的通知’”)、或一般口头输出的播报的任务(例如,“顺便说 一句,如果您需要暂停播报,则可要求我暂时关闭它们”)相关。在一些 实施方案中,基于播报通知的历史生成和提供一个或多个附加口头输出。 例如,更长和更详细的提示可在播报特定类型的通知的第一时间处生成, 而截短的提示可在播报特定类型的通知的后续时间(例如,第五或更大的 时间)处生成。又如,用于关闭播报通知的提示可在播报许多(例如,五 个或更多个)通知之后短时间内提供。又如,如果先前已提供许多提示, 则可不生成或提供附加口头输出。
在一些实施方案中,在框1114处,从用户接收自然语言语音输入。例 如,用户可提供输入,诸如“重述”、“标记为已完成”或“播放”。在 一些实施方案中,可在向用户提供第一口头输出和第二口头输出时接收自 然语言语音输入。在一些实施方案中,可在完成播报播报计划表中的最终 口头输出之后的收听时间段期间接收自然语言语音输入。
在一些实施方案中,在框1116处,基于自然语言语音输入来确定任务。 例如,自然语言处理可用于从自然语言语音输入1016确定意图,并且对应 于该意图的任务可得以确定。再如,自然语言语音输入可包括支持的语音 命令,并且对应于该语音命令的任务可得以确定。任务可包括通信任务 (例如,打电话、发消息等)、在第一方或第三方应用程序内执行的任务 (例如,在提醒应用程序中将提醒标记为已完成、播放新的播客插曲)或 与通知的播报相关的任务(例如,跳到播报计划表中的下一口头输出或跳 到播报计划表的结尾、取消提供播报计划表中的剩余口头输出、关闭通知 的播报等)。
例如,在图10C中,设备1001可基于自然语言语音输入1016“标记为 已完成”确定设定提醒的属性(例如,标记为已完成)的任务。另选地, 如果自然语言语音输入陈述“播放”,则系统可确定播放音频的任务。
参考图11B,在一些实施方案中,在框1118处,确定自然语言语音输 入是与第一口头输出还是第二口头输出相关。在一些实施方案中,该确定 是基于第一通知的第一类型和第二通知的第二类型。例如,不同的通知类 型可支持不同的任务(或意图)。因此,电子设备可确定自然语言语音输 入与对应于支持所确定的任务(或意图)的类型的通知的口头输出相关。
例如,如图10C中所示,可从自然语言语音输入1016“标记为已完成” 确定设定属性任务(或意图)。如果消息类型通知(对应于第一口头输出 1012的这种通知)支持诸如回复、阅读或查询线程参与者的任务(或意 图);并且提醒类型通知(诸如由第二口头输出1014表示的通知)可支持 诸如设定属性、修改或小睡的任务(或意图),则设备1001可确定自然语 言语音输入1016与提醒类型通知而非电话类型通知相关。因此,电子设备 可确定自然语言语音输入1016“标记为已完成”与第二口头输出1014相关。
在一些实施方案中,在框1120处,根据确定自然语言语音输入与第一 口头输出相关,基于第一通知执行任务。另选地,在框1122处,根据确定 自然语言语音输入与第二口头输出相关,基于第二通知执行任务。例如, 如图10C中所示,如果确定自然语言语音输入1016“标记为已完成”与第 二口头输出1014相关,则设备1001将第二通知所提及的提醒的属性设定为 “已完成”。又如,如果自然语言语音输入1016替代地陈述“回复‘到那 儿见’”并且被确定为与第一口头输出1012相关,则设备1001将回复第一 通知中提及的消息线程。因此,如本文所述执行任务允许电子设备为用户 对通知作出响应,而无需用户手动访问电子设备、找到相关通知和/或手动 对通知作出响应。
在一些实施方案中,在框1124处,基于执行任务来生成第四口头输出。 在一些实施方案中,在框1126处,向用户提供第四口头输出。例如,第四 口头输出可包含已发起任务的执行的指示、已成功(或未成功)完成任务 的执行的指示或任何其他任务相关口头输出。例如,如图10C中所示,可 基于所确定的任务的成功执行生成第四口头输出1018“好的,已完成” (将提醒的属性设定为已完成)并且将该第四口头输出提供(例如,可听 地播报)给用户。因此,如本文所述提供第四口头输出允许电子设备向用 户告知所执行的任务的状态,而无需用户手动访问电子设备和检查是否已 成功完成所请求的任务。
上文参考图11A至图11B所述的操作任选地由图1至图4、图6A至图 6B和图7A至图7C中所描绘的部件来实现。例如,方法1100的操作可由 实现系统1000的电子设备(例如,104、122、200、400或600)来实现。 本领域的普通技术人员会清楚地知道如何基于在图1至图4、图6A至图6B 和图7A至图7C中所描绘的部件来实现其他过程。
根据一些具体实施,提供一种计算机可读存储介质(例如,非暂态计 算机可读存储介质),该计算机可读存储介质存储供电子设备的一个或多 个处理器执行的一个或多个程序,该一个或多个程序包括用于执行本文所 述方法或过程中的任一个的指令。
根据一些具体实施,提供了一种电子设备(例如,便携式电子设备), 该电子设备包括用于执行本文所述的方法和过程中的任一者的装置。
根据一些具体实施,提供了一种电子设备(例如,便携式电子设备), 该电子设备包括处理单元,该处理单元被配置为执行本文所述的方法和过 程中的任一者。
根据一些具体实施,提供了一种电子设备(例如,便携式电子设备), 该电子设备包括一个或多个处理器和存储用以由一个或多个处理器执行的 一个或多个程序的存储器,该一个或多个程序包括用于执行本文所描述的 方法和过程中的任一者的指令。
出于解释的目的,前面的描述是通过参考具体实施方案来描述的。然 而,上面的例示性论述并非旨在是穷尽的或将本发明限制为所公开的精确 形式。根据以上教导内容,很多修改形式和变型形式都是可能的。选择并 描述这些实施方案是为了最好地解释这些技术的原理及其实际应用程序。 本领域的其他技术人员由此能够最好地利用这些技术以及具有适合于所预 期的特定用途的各种修改的各种实施方案。
虽然参照附图对本公开以及示例进行了全面的描述,但应当注意,各 种变化和修改对于本领域内的技术人员而言将变得显而易见。应当理解, 此类变化和修改被认为被包括在由权利要求书所限定的本公开和示例的范 围内。
如上所述,本发明技术的一个方面在于采集和使用得自各种源的数据, 以改进向用户递送它们可能感兴趣的相关通知或任何其他内容。本公开预 期,在一些实例中,这些所采集的数据可包括唯一地识别或可用于联系或 定位特定人员的个人信息数据。此类个人信息数据可以包括人口统计数据、 基于位置的数据、电话号码、电子邮件地址、推特ID、家庭地址、与用户 的健康或健身水平有关的数据或记录(例如,生命体征测量、药物信息、锻炼信息)、出生日期或任何其他识别或个人信息。
本公开认识到在本发明技术中使用此类个人信息数据可用于使用户受 益。例如,该个人信息数据可用于播报与用户具有更高相关性的通知。因 此,使用此类个人信息数据使得用户能够对所递送的内容进行有计划的控 制。此外,本公开还预期个人信息数据有益于用户的其他用途。例如,健 康和健身数据可用于向用户的总体健康状况提供见解,或者可用作使用技 术来追求健康目标的个人的积极反馈。
本公开设想负责采集、分析、公开、传输、存储或其他使用此类个人 信息数据的实体将遵守既定的隐私政策和/或隐私实践。具体地,此类实体 应当实行并坚持使用被公认为满足或超出对维护个人信息数据的隐私性和 安全性的行业或政府要求的隐私政策和实践。此类政策应该能被用户方便 地访问,并应随着数据的采集和/或使用变化而被更新。来自用户的个人信 息应当被收集用于实体的合法且合理的用途,并且不在这些合法使用之外 共享或出售。此外,应在收到用户知情同意后进行此类采集/共享。此外, 此类实体应考虑采取任何必要步骤,保卫和保障对此类个人信息数据的访 问,并确保有权访问个人信息数据的其他人遵守其隐私政策和流程。另外, 这种实体可使其本身经受第三方评估以证明其遵守广泛接受的隐私政策和 实践。此外,应当调整政策和实践,以便采集和/或访问的特定类型的个人 信息数据,并适用于包括管辖范围的具体考虑的适用法律和标准。例如, 在美国,对某些健康数据的收集或获取可能受联邦和/或州法律的管辖,诸 如健康保险流通和责任法案(HIPAA);而其他国家的健康数据可能受到其他 法规和政策的约束并应相应处理。因此,在每个国家应为不同的个人数据 类型保持不同的隐私实践。
不管前述情况如何,本公开还预期用户选择性地阻止使用或访问个人 信息数据的实施方案。即本公开预期可提供硬件元件和/或软件元件,以防 止或阻止对此类个人信息数据的访问。例如,就通知播报服务而言,本发 明技术可被配置为在注册服务期间或之后的任何时间允许用户选择“选择 加入”或“选择退出”参与对个人信息数据的收集。又如,用户可选择不 允许访问某些所接收的通知。又如,用户可选择限制可播报的通知。除了 提供“选择加入”和“选择退出”选项外,本公开设想提供与访问或使用 个人信息相关的通知。例如,可在下载应用时向用户通知其个人信息数据 将被访问,然后就在个人信息数据被应用访问之前再次提醒用户。
此外,本公开的目的是应管理和处理个人信息数据以最小化无意或未 经授权访问或使用的风险。一旦不再需要数据,通过限制数据收集和删除 数据可最小化风险。此外,并且当适用时,包括在某些健康相关应用程序 中,数据去标识可用于保护用户的隐私。在适当的情况下,可以通过移除 特定标识符(例如,出生日期等)、控制存储的数据的量或特征(例如, 在城市级而非地址级收集位置数据)、控制数据的存储方式(例如,在用 户之间聚合数据)和/或其它方法来促进去标识。
因此,虽然本公开广泛地覆盖了使用个人信息数据来实现一个或多个 各种所公开的实施方案,但本公开还预期各种实施方案也可在无需访问此 类个人信息数据的情况下被实现。即,本发明技术的各种实施方案不会由 于缺少此类个人信息数据的全部或一部分而无法正常进行。例如,可通过 基于非个人信息数据或绝对最低限度的个人信息(诸如,由与用户相关联 的设备请求的内容、对通知播报服务可用的其他非个人信息或公开可用信 息)推断偏好来选择通知以供播报给用户。

Claims (56)

1.一种用于提供播报的方法,所述方法包括:
在具有存储器和一个或多个处理器的电子设备处:
从第一源接收第一通知;
根据确定要将所述第一通知播报给所述电子设备的用户,基于所述第一通知生成表示所述第一通知的第一口头输出;
向所述用户提供所述第一口头输出;
在提供所述第一口头输出时,从第二源接收第二通知;
根据确定要将所述第二通知播报给所述用户,基于所述第一通知和所述第二通知生成表示所述第二通知的第二口头输出;以及
向所述用户提供所述第二口头输出。
2.根据权利要求1所述的方法,其中所述确定要将所述第一通知播报给所述电子设备的所述用户是基于所述第一通知的第一类型的。
3.根据权利要求1至2中任一项所述的方法,其中所述确定要将所述第一通知播报给所述电子设备的所述用户是基于第一用户偏好设定的。
4.根据权利要求1至2中任一项所述的方法,其中所述确定要将所述第二通知播报给所述电子设备的所述用户是基于所述第二通知的第二类型的。
5.根据权利要求1至2中任一项所述的方法,其中所述确定要将所述第二通知播报给所述电子设备的所述用户是基于第二用户偏好设定的。
6.根据权利要求1至2中任一项所述的方法,其中所述确定要将所述第二通知播报给所述电子设备的所述用户是基于确定所述第二通知不匹配所述第一通知的。
7.根据权利要求1至2中任一项所述的方法,其中基于所述第一通知生成所述第一口头输出包括:
将对应于所述第一源的第一源信息包括在所述第一口头输出中。
8.根据权利要求1至2中任一项所述的方法,其中基于所述第一通知和所述第二通知生成所述第二口头输出包括:
确定所述第一源和所述第二源是否匹配;
根据确定所述第一源和所述第二源匹配,将第一过渡词包括在所述第二口头输出中并且将对应于所述第二源的第二源信息从所述第二口头输出省略;以及
根据确定所述第一源和所述第二源不匹配,将第二过渡词和对应于所述第二源的所述第二源信息包括在所述第二口头输出中。
9.根据权利要求1至2中任一项所述的方法,其中基于所述第一通知生成所述第一口头输出包括:
确定所述第一通知的正文部分是否满足播报标准;
根据确定所述第一通知的所述正文部分满足播报标准,将所述正文部分包括在所述第一口头输出中;以及
根据确定所述第一通知的所述正文部分不满足播报标准,不将所述正文部分包括在所述第一口头输出中。
10.根据权利要求9所述的方法,其中所述播报标准包括所述通知的所述正文部分的阈值长度。
11.根据权利要求9所述的方法,其中所述播报标准包括所述通知的所述正文部分的所需格式。
12.根据权利要求1至2中任一项所述的方法,还包括:
从所述用户接收自然语言语音输入;
基于所述自然语言语音输入来确定任务;
确定所述自然语言语音输入是与所述第一口头输出还是所述第二口头输出相关;
根据确定所述自然语言语音输入与所述第一口头输出相关,基于所述第一通知执行所述任务;以及
根据确定所述自然语言语音输入与所述第二口头输出相关,基于所述第二通知执行所述任务。
13.根据权利要求12所述的方法,其中确定所述自然语言语音输入是与所述第一口头输出还是所述第二口头输出相关是基于所述第一通知的第一类型和所述第二通知的第二类型的。
14.根据权利要求12所述的方法,还包括:
基于执行所述任务来生成第四口头输出;以及
向所述用户提供所述第四口头输出。
15.根据权利要求1至2中任一项所述的方法,其中向所述用户提供所述第一口头输出以及向所述用户提供所述第二口头输出根据播报计划表执行,并且所述方法还包括:
基于所述第一通知的第一类型和所述第二通知的第二类型确定所述播报计划表。
16.根据权利要求15所述的方法,其中所述播报计划表包括用于向所述用户提供所述第一口头输出和所述第二口头输出的次序、用于向所述用户递送所述第一口头输出的第一时间和用于向所述用户提供所述第二口头输出的第二时间。
17.根据权利要求15所述的方法,还包括:
从第三源接收第三通知;
根据确定要将所述第三通知播报给所述用户,基于所述第一通知、所述第二通知和所述第三通知生成表示所述第三通知的第三口头输出;以及
根据所述播报计划表向所述用户提供所述第三口头输出,其中确定所述播报计划表进一步基于所述第三通知的第三类型。
18.根据权利要求17所述的方法,其中根据确定所述第一类型的所述第一通知是消息通知以及确定所述第三类型的所述第三通知是消息通知,并且根据确定所述第一通知的第一源匹配所述第三通知的所述第三源,所述播报计划表包括:
向所述用户提供所述第一口头输出;
在向所述用户提供所述第一口头输出之后的第一预定时间延迟处,向所述用户提供所述第三口头输出;以及
在向所述用户提供所述第三口头输出之后的第二预定时间延迟处,向所述用户提供所述第二口头输出。
19.一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由第一电子设备的一个或多个处理器执行时,使所述第一电子设备执行以下操作:
从第一源接收第一通知;
根据确定要将所述第一通知播报给所述电子设备的用户,基于所述第一通知生成表示所述第一通知的第一口头输出;
向所述用户提供所述第一口头输出;
在提供所述第一口头输出时,从第二源接收第二通知;
根据确定要将所述第二通知播报给所述用户,基于所述第一通知和所述第二通知生成表示所述第二通知的第二口头输出;以及
向所述用户提供所述第二口头输出。
20.根据权利要求19所述的计算机可读存储介质,其中所述确定要将所述第一通知播报给所述电子设备的所述用户是基于所述第一通知的第一类型的。
21.根据权利要求19至20中任一项所述的计算机可读存储介质,其中所述确定要将所述第一通知播报给所述电子设备的所述用户是基于第一用户偏好设定的。
22.根据权利要求19至20中任一项所述的计算机可读存储介质,其中所述确定要将所述第二通知播报给所述电子设备的所述用户是基于所述第二通知的第二类型的。
23.根据权利要求19至20中任一项所述的计算机可读存储介质,其中所述确定要将所述第二通知播报给所述电子设备的所述用户是基于第二用户偏好设定的。
24.根据权利要求19至20中任一项所述的计算机可读存储介质,其中所述确定要将所述第二通知播报给所述电子设备的所述用户是基于确定所述第二通知不匹配所述第一通知的。
25.根据权利要求19至20中任一项所述的计算机可读存储介质,其中基于所述第一通知生成所述第一口头输出包括:
将对应于所述第一源的第一源信息包括在所述第一口头输出中。
26.根据权利要求19至20中任一项所述的计算机可读存储介质,其中基于所述第一通知和所述第二通知生成所述第二口头输出包括:
确定所述第一源和所述第二源是否匹配;
根据确定所述第一源和所述第二源匹配,将第一过渡词包括在所述第二口头输出中并且将对应于所述第二源的第二源信息从所述第二口头输出省略;以及
根据确定所述第一源和所述第二源不匹配,将第二过渡词和对应于所述第二源的所述第二源信息包括在所述第二口头输出中。
27.根据权利要求19至20中任一项所述的计算机可读存储介质,其中基于所述第一通知生成所述第一口头输出包括:
确定所述第一通知的正文部分是否满足播报标准;
根据确定所述第一通知的所述正文部分满足播报标准,将所述正文部分包括在所述第一口头输出中;以及
根据确定所述第一通知的所述正文部分不满足播报标准,不将所述正文部分包括在所述第一口头输出中。
28.根据权利要求27所述的计算机可读存储介质,其中所述播报标准包括所述通知的所述正文部分的阈值长度。
29.根据权利要求27所述的计算机可读存储介质,其中所述播报标准包括所述通知的所述正文部分的所需格式。
30.根据权利要求19至20中任一项所述的计算机可读存储介质,其中所述一个或多个程序还包括指令,所述指令当由所述第一电子设备的所述一个或多个处理器执行时,使所述第一电子设备:
从所述用户接收自然语言语音输入;
基于所述自然语言语音输入来确定任务;
确定所述自然语言语音输入是与所述第一口头输出还是所述第二口头输出相关;
根据确定所述自然语言语音输入与所述第一口头输出相关,基于所述第一通知执行所述任务;以及
根据确定所述自然语言语音输入与所述第二口头输出相关,基于所述第二通知执行所述任务。
31.根据权利要求30所述的计算机可读存储介质,其中确定所述自然语言语音输入是与所述第一口头输出还是所述第二口头输出相关是基于所述第一通知的第一类型和所述第二通知的第二类型的。
32.根据权利要求30所述的计算机可读存储介质,所述一个或多个程序还包括指令,所述指令当由所述第一电子设备的所述一个或多个处理器执行时,使所述第一电子设备:
基于执行所述任务来生成第四口头输出;以及
向所述用户提供所述第四口头输出。
33.根据权利要求19至20中任一项所述的计算机可读存储介质,其中向所述用户提供所述第一口头输出以及向所述用户提供所述第二口头输出根据播报计划表执行,并且其中所述一个或多个程序还包括指令,所述指令当由所述第一电子设备的所述一个或多个处理器执行时,使所述第一电子设备:
基于所述第一通知的第一类型和所述第二通知的第二类型确定所述播报计划表。
34.根据权利要求33所述的计算机可读存储介质,其中所述播报计划表包括用于向所述用户提供所述第一口头输出和所述第二口头输出的次序、用于向所述用户递送所述第一口头输出的第一时间和用于向所述用户提供所述第二口头输出的第二时间。
35.根据权利要求33所述的计算机可读存储介质,其中所述一个或多个程序还包括指令,所述指令当由所述第一电子设备的所述一个或多个处理器执行时,使所述第一电子设备:
从第三源接收第三通知;
根据确定要将所述第三通知播报给所述用户,基于所述第一通知、所述第二通知和所述第三通知生成表示所述第三通知的第三口头输出;以及
根据所述播报计划表向所述用户提供所述第三口头输出,其中确定所述播报计划表进一步基于所述第三通知的第三类型。
36.根据权利要求35所述的计算机可读存储介质,其中根据确定所述第一类型的所述第一通知是消息通知以及确定所述第三类型的所述第三通知是消息通知,并且根据确定所述第一通知的第一源匹配所述第三通知的所述第三源,所述播报计划表包括:
向所述用户提供所述第一口头输出;
在向所述用户提供所述第一口头输出之后的第一预定时间延迟处,向所述用户提供所述第三口头输出;以及
在向所述用户提供所述第三口头输出之后的第二预定时间延迟处,向所述用户提供所述第二口头输出。
37.一种电子设备,包括:
一个或多个处理器;
存储器;和
一个或多个程序,其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于如下操作的指令:
从第一源接收第一通知;
根据确定要将所述第一通知播报给所述电子设备的用户,基于所述第一通知生成表示所述第一通知的第一口头输出;
向所述用户提供所述第一口头输出;
在提供所述第一口头输出时,从第二源接收第二通知;
根据确定要将所述第二通知播报给所述用户,基于所述第一通知和所述第二通知生成表示所述第二通知的第二口头输出;以及
向所述用户提供所述第二口头输出。
38.根据权利要求37所述的电子设备,其中所述确定要将所述第一通知播报给所述电子设备的所述用户是基于所述第一通知的第一类型的。
39.根据权利要求37至38中任一项所述的电子设备,其中所述确定要将所述第一通知播报给所述电子设备的所述用户是基于第一用户偏好设定的。
40.根据权利要求37至38中任一项所述的电子设备,其中所述确定要将所述第二通知播报给所述电子设备的所述用户是基于所述第二通知的第二类型的。
41.根据权利要求37至38中任一项所述的电子设备,其中所述确定要将所述第二通知播报给所述电子设备的所述用户是基于第二用户偏好设定的。
42.根据权利要求37至38中任一项所述的电子设备,其中所述确定要将所述第二通知播报给所述电子设备的所述用户是基于确定所述第二通知不匹配所述第一通知的。
43.根据权利要求37至38中任一项所述的电子设备,其中基于所述第一通知生成所述第一口头输出包括:
将对应于所述第一源的第一源信息包括在所述第一口头输出中。
44.根据权利要求37至38中任一项所述的电子设备,其中基于所述第一通知和所述第二通知生成所述第二口头输出包括:
确定所述第一源和所述第二源是否匹配;
根据确定所述第一源和所述第二源匹配,将第一过渡词包括在所述第二口头输出中并且将对应于所述第二源的第二源信息从所述第二口头输出省略;以及
根据确定所述第一源和所述第二源不匹配,将第二过渡词和对应于所述第二源的所述第二源信息包括在所述第二口头输出中。
45.根据权利要求37至38中任一项所述的电子设备,其中基于所述第一通知生成所述第一口头输出包括:
确定所述第一通知的正文部分是否满足播报标准;
根据确定所述第一通知的所述正文部分满足播报标准,将所述正文部分包括在所述第一口头输出中;以及
根据确定所述第一通知的所述正文部分不满足播报标准,不将所述正文部分包括在所述第一口头输出中。
46.根据权利要求45所述的电子设备,其中所述播报标准包括所述通知的所述正文部分的阈值长度。
47.根据权利要求45所述的电子设备,其中所述播报标准包括所述通知的所述正文部分的所需格式。
48.根据权利要求37至38中任一项所述的电子设备,所述一个或多个程序还包括用于以下操作的指令:
从所述用户接收自然语言语音输入;
基于所述自然语言语音输入来确定任务;
确定所述自然语言语音输入是与所述第一口头输出还是所述第二口头输出相关;
根据确定所述自然语言语音输入与所述第一口头输出相关,基于所述第一通知执行所述任务;以及
根据确定所述自然语言语音输入与所述第二口头输出相关,基于所述第二通知执行所述任务。
49.根据权利要求48所述的电子设备,其中确定所述自然语言语音输入是与所述第一口头输出还是所述第二口头输出相关是基于所述第一通知的第一类型和所述第二通知的第二类型。
50.根据权利要求48所述的电子设备,所述一个或多个程序还包括用于以下操作的指令:
基于执行所述任务来生成第四口头输出;以及
向所述用户提供所述第四口头输出。
51.根据权利要求37至38中任一项所述的电子设备,其中向所述用户提供所述第一口头输出以及向所述用户提供所述第二口头输出根据播报计划表执行,并且所述一个或多个程序还包括用于以下操作的指令:
基于所述第一通知的第一类型和所述第二通知的第二类型确定所述播报计划表。
52.根据权利要求51所述的电子设备,其中所述播报计划表包括用于向所述用户提供所述第一口头输出和所述第二口头输出的次序、用于向所述用户递送所述第一口头输出的第一时间和用于向所述用户提供所述第二口头输出的第二时间。
53.根据权利要求51所述的电子设备,所述一个或多个程序还包括用于以下操作的指令:
从第三源接收第三通知;
根据确定要将所述第三通知播报给所述用户,基于所述第一通知、所述第二通知和所述第三通知生成表示所述第三通知的第三口头输出;以及
根据所述播报计划表向所述用户提供所述第三口头输出,其中确定所述播报计划表进一步基于所述第三通知的第三类型。
54.根据权利要求53所述的电子设备,其中根据确定所述第一类型的所述第一通知是消息通知以及确定所述第三类型的所述第三通知是消息通知,并且根据确定所述第一通知的第一源匹配所述第三通知的所述第三源,所述播报计划表包括:
向所述用户提供所述第一口头输出;
在向所述用户提供所述第一口头输出之后的第一预定时间延迟处,向所述用户提供所述第三口头输出;以及
在向所述用户提供所述第三口头输出之后的第二预定时间延迟处,向所述用户提供所述第二口头输出。
55.一种电子设备,包括:
用于执行根据权利要求1至2中任一项所述的方法的装置。
56.一种计算机程序产品,所述计算机程序产品包括被配置为由与显示生成部件和一个或多个输入设备通信的计算机系统的一个或多个处理器执行的一个或多个程序,所述一个或多个程序包括用于执行根据权利要求1至2中任一项所述的方法的指令。
CN202210473029.6A 2021-04-30 2022-04-29 播报通知 Pending CN115268624A (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US202163182596P 2021-04-30 2021-04-30
US63/182,596 2021-04-30
US17/673,492 2022-02-16
US17/673,492 US20220366889A1 (en) 2021-04-30 2022-02-16 Announce notifications

Publications (1)

Publication Number Publication Date
CN115268624A true CN115268624A (zh) 2022-11-01

Family

ID=81846386

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210473029.6A Pending CN115268624A (zh) 2021-04-30 2022-04-29 播报通知

Country Status (4)

Country Link
US (1) US20220366889A1 (zh)
EP (1) EP4083781A1 (zh)
CN (1) CN115268624A (zh)
WO (1) WO2022232568A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3859005A (en) 1973-08-13 1975-01-07 Albert L Huebner Erosion reduction in wet turbines
US4826405A (en) 1985-10-15 1989-05-02 Aeroquip Corporation Fan blade fabrication system
EP1717682B1 (en) 1998-01-26 2017-08-16 Apple Inc. Method and apparatus for integrating manual input
US7218226B2 (en) 2004-03-01 2007-05-15 Apple Inc. Acceleration-based theft detection system for portable electronic devices
US7688306B2 (en) 2000-10-02 2010-03-30 Apple Inc. Methods and apparatuses for operating a portable device based on an accelerometer
US6677932B1 (en) 2001-01-28 2004-01-13 Finger Works, Inc. System and method for recognizing touch typing under limited tactile feedback conditions
US6570557B1 (en) 2001-02-10 2003-05-27 Finger Works, Inc. Multi-touch system and method for emulating modifier keys via fingertip chords
US7657849B2 (en) 2005-12-23 2010-02-02 Apple Inc. Unlocking a device by performing gestures on an unlock image
EP3005668B1 (en) * 2013-06-08 2018-12-19 Apple Inc. Application gateway for providing different user interfaces for limited distraction and non-limited distraction contexts
US10679608B2 (en) * 2016-12-30 2020-06-09 Google Llc Conversation-aware proactive notifications for a voice interface device
CN110495125B (zh) 2017-03-24 2022-07-15 苹果公司 用于传输或接收下行链路控制信息的方法和装置
CN110932673A (zh) 2018-09-19 2020-03-27 恩智浦美国有限公司 一种包含并联陷波滤波器的斩波稳定放大器
DK201970509A1 (en) * 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11783805B1 (en) * 2020-09-21 2023-10-10 Amazon Technologies, Inc. Voice user interface notification ordering

Also Published As

Publication number Publication date
US20220366889A1 (en) 2022-11-17
EP4083781A1 (en) 2022-11-02
WO2022232568A1 (en) 2022-11-03

Similar Documents

Publication Publication Date Title
CN111901481B (zh) 计算机实现的方法、电子设备和存储介质
CN111656439B (zh) 基于延迟控制电子设备的方法、电子设备及存储介质
CN112567323B (zh) 用户活动快捷方式建议
CN110364148B (zh) 自然助理交互
CN111480134B (zh) 注意力感知虚拟助理清除
CN110019752B (zh) 多方向对话
CN107491284B (zh) 提供自动化状态报告的数字助理
CN108604449B (zh) 说话者识别
CN107257950B (zh) 虚拟助理连续性
CN115088250A (zh) 视频通信会话环境中的数字助理交互
CN110797019B (zh) 多命令单一话语输入方法
CN112567332A (zh) 语音命令的多模态输入
CN109257941B (zh) 用于数字助理的同步和任务委派的方法、电子设备和系统
CN110603586B (zh) 用于校正识别错误的用户界面
CN115221295A (zh) 个人请求的数字助理处理
EP4083781A1 (en) Announce notifications
CN115344119A (zh) 用于健康请求的数字助理
CN110612566B (zh) 个人信息的隐私维护
CN111399714A (zh) 用户活动快捷方式建议
CN115083414A (zh) 用于连续对话的多状态数字助理
CN107463311B (zh) 智能列表读取
CN112015873A (zh) 通过设备内置目标定位和个性化实现语音助理可发现性
CN110574023A (zh) 脱机个人助理
CN111899739A (zh) 语音通知
CN112732623A (zh) 数字助理硬件抽象

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination