CN112099720A - 数字助理用户界面和响应模式 - Google Patents

数字助理用户界面和响应模式 Download PDF

Info

Publication number
CN112099720A
CN112099720A CN202010980536.XA CN202010980536A CN112099720A CN 112099720 A CN112099720 A CN 112099720A CN 202010980536 A CN202010980536 A CN 202010980536A CN 112099720 A CN112099720 A CN 112099720A
Authority
CN
China
Prior art keywords
affordance
response
display
user
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010980536.XA
Other languages
English (en)
Inventor
N·埃利斯
O·B·阿拉比
R·伯顿
R·R·德林格
T·R·法齐奥
C·M·费德里奇
R·P·菲什
N·戈特比
J·N·琼斯
川岛家幸
S·O·勒梅
P·马里
A·穆塞戈
J·帕尔默
P·塞劳多姆
A·V·西姆斯
T·M·史密斯
T·特兰
R·A·瓦尔克二世
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Apple Inc
Original Assignee
Apple Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from DKPA202070547A external-priority patent/DK202070547A1/en
Application filed by Apple Inc filed Critical Apple Inc
Priority claimed from CN202010977583.9A external-priority patent/CN113703656A/zh
Publication of CN112099720A publication Critical patent/CN112099720A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3234Power saving characterised by the action undertaken
    • G06F1/325Power saving in peripheral device
    • G06F1/3265Power saving in display device
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本公开涉及数字助理用户界面和响应模式。一种示例性过程包括:在显示不同于数字助理用户界面的用户界面时,接收用户输入;根据确定所述用户输入满足用于发起数字助理的标准:在所述用户界面之上显示所述数字助理用户界面,所述数字助理用户界面包括:数字助理指示符,所述数字助理指示符显示在显示器的第一部分处;以及响应示能表示,所述响应示能表示显示在所述显示器的第二部分处;其中:所述用户界面的一部分在所述显示器的第三部分处保持可见;并且所述第三部分位于所述第一部分和所述第二部分之间。

Description

数字助理用户界面和响应模式
本申请是申请日为2020年9月16日、申请号为202010977583.9、发明名称为“数字助理用户界面和响应模式”的发明专利申请的分案申请。
技术领域
本公开整体涉及智能自动化助理,并且更具体地涉及用于智能自动化助理的用户界面以及智能自动化助理可对用户请求作出响应的方式。
背景技术
智能自动化助理(或数字助理)可在人类用户与电子设备之间提供有利界面。此类助理可允许用户使用自然语言以语音形式和/或文本形式与设备或系统进行交互。例如,用户可向正在电子设备上运行的数字助理提供包含用户请求的语音输入。数字助理可从该语音输入解译用户意图并且将用户意图操作化成任务。随后可通过执行电子设备的一项或多项服务来执行这些任务,并且可将响应于用户请求的相关输出返回给用户。
所显示的数字助理的用户界面有时会掩隐(obscure)用户可能感兴趣的其他显示的元素。此外,数字助理可能有时会提供对于用户的当前上下文不期望的格式的响应。例如,当用户不期望(或不能)查看设备显示器时,数字助理可能会提供显示的输出。
发明内容
本文公开了示例性方法。一种示例性方法包括在具有显示器和触敏表面的电子设备处:在显示不同于数字助理用户界面的用户界面时,接收用户输入;根据确定所述用户输入满足用于发起数字助理的标准:在所述用户界面之上显示所述数字助理用户界面,所述数字助理用户界面包括:数字助理指示符,所述数字助理指示符显示在所述显示器的第一部分处;以及响应示能表示,所述响应示能表示显示在所述显示器的第二部分处;其中:所述用户界面的一部分在所述显示器的第三部分处保持可见;并且所述第三部分位于所述第一部分和所述第二部分之间。
本文公开了示例性非暂态计算机可读介质。一种示例非暂态计算机可读存储介质存储一个或多个程序。所述一个或多个程序包括指令,所述指令当由具有显示器和触敏表面的电子设备的一个或多个处理器执行时,使所述电子设备:在显示不同于数字助理用户界面的用户界面时,接收用户输入;根据确定所述用户输入满足用于发起数字助理的标准:在所述用户界面之上显示所述数字助理用户界面,所述数字助理用户界面包括:数字助理指示符,所述数字助理指示符显示在所述显示器的第一部分处;以及响应示能表示,所述响应示能表示显示在所述显示器的第二部分处;其中:所述用户界面的一部分在所述显示器的第三部分处保持可见;并且所述第三部分位于所述第一部分和所述第二部分之间。
本文公开了示例性电子设备。一种示例性电子设备包括显示器;触敏表面;一个或多个处理器;存储器;以及一个或多个程序,其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于以下操作的指令:在显示不同于数字助理用户界面的用户界面时,接收用户输入;根据确定所述用户输入满足用于发起数字助理的标准:在所述用户界面之上显示所述数字助理用户界面,所述数字助理用户界面包括:数字助理指示符,所述数字助理指示符显示在所述显示器的第一部分处;以及响应示能表示,所述响应示能表示显示在所述显示器的第二部分处;其中:所述用户界面的一部分在所述显示器的第三部分处保持可见;并且所述第三部分位于所述第一部分和所述第二部分之间。
一种示例性电子设备包括用于执行以下操作的装置:在显示不同于数字助理用户界面的用户界面时,接收用户输入;根据确定所述用户输入满足用于发起数字助理的标准:在所述用户界面之上显示所述数字助理用户界面,所述数字助理用户界面包括:数字助理指示符,所述数字助理指示符显示在所述显示器的第一部分处;以及响应示能表示,所述响应示能表示显示在所述显示器的第二部分处;其中:所述用户界面的一部分在所述显示器的第三部分处保持可见;并且所述第三部分位于所述第一部分和所述第二部分之间。
在用户界面之上显示数字助理用户界面(其中所述用户界面的一部分在显示器的一部分处保持可见)可改善所述数字助理的有效性并且减少所述数字助理对用户-设备交互的视觉干扰。例如,包括在底层可见用户界面中的信息可允许用户更好地明确对所述数字助理的请求。又如,以此类方式显示所述用户界面可有利于所述数字助理用户界面的元素和所述底层用户界面之间的交互(例如,包括在底层消息传送用户界面的消息中的数字助理响应)。此外,使数字助理用户界面和底层用户界面共存于显示器上允许与两个用户界面同时进行用户交互,从而更好地将数字助理集成到用户-设备交互中。这样,用户-设备界面可更有效(例如,通过使得所述数字助理能够更准确且更有效地执行用户请求的任务,通过减少所述数字助理对用户正在查看的内容的视觉干扰,通过减少根据需要操作所述设备所需的用户输入的数量),这又通过使得所述用户能够更快速且更有效地使用所述设备减少了电力使用并且延长了所述设备的电池寿命。
本文公开了示例性方法。一种示例性方法包括在具有显示器和触敏表面的电子设备处:在用户界面之上显示数字助理用户界面,所述数字助理用户界面包括:数字助理指示符,所述数字助理指示符显示在所述显示器的第一部分处;以及响应示能表示,所述响应示能表示显示在所述显示器的第二部分处;当在所述用户界面之上显示所述数字助理用户界面时,接收对应于对所述显示器的第三部分的选择的用户输入,所述第三部分显示所述用户界面的一部分;根据确定所述用户输入对应于第一类型的输入:停止显示所述数字助理指示符和所述响应示能表示;以及根据确定所述用户输入对应于不同于所述第一类型的输入的第二类型的输入:在所述第二部分处显示所述响应示能表示时,根据所述用户输入更新所述第三部分处的所述用户界面的所述显示。
本文公开了示例性非暂态计算机可读介质。一种示例非暂态计算机可读存储介质存储一个或多个程序。所述一个或多个程序包括指令,所述指令当由具有显示器和触敏表面的电子设备的一个或多个处理器执行时,使所述电子设备:在用户界面之上显示数字助理用户界面,所述数字助理用户界面包括:数字助理指示符,所述数字助理指示符显示在所述显示器的第一部分处;以及响应示能表示,所述响应示能表示显示在所述显示器的第二部分处;当在所述用户界面之上显示所述数字助理用户界面时,接收对应于对所述显示器的第三部分的选择的用户输入,所述第三部分显示所述用户界面的一部分;根据确定所述用户输入对应于第一类型的输入:停止显示所述数字助理指示符和所述响应示能表示;以及根据确定所述用户输入对应于不同于所述第一类型的输入的第二类型的输入:在所述第二部分处显示所述响应示能表示时,根据所述用户输入更新所述第三部分处的所述用户界面的所述显示。
本文公开了示例性电子设备。一种示例性电子设备包括显示器;触敏表面;一个或多个处理器;存储器;以及一个或多个程序,其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于以下操作的指令:在用户界面之上显示数字助理用户界面,所述数字助理用户界面包括:数字助理指示符,所述数字助理指示符显示在所述显示器的第一部分处;以及响应示能表示,所述响应示能表示显示在所述显示器的第二部分处;当在所述用户界面之上显示所述数字助理用户界面时,接收对应于对所述显示器的第三部分的选择的用户输入,所述第三部分显示所述用户界面的一部分;根据确定所述用户输入对应于第一类型的输入:停止显示所述数字助理指示符和所述响应示能表示;以及根据确定所述用户输入对应于不同于所述第一类型的输入的第二类型的输入:在所述第二部分处显示所述响应示能表示时,根据所述用户输入更新所述第三部分处的所述用户界面的所述显示。
一种示例性电子设备包括用于以下操作的装置:在用户界面之上显示数字助理用户界面,所述数字助理用户界面包括:数字助理指示符,所述数字助理指示符显示在所述显示器的第一部分处;以及响应示能表示,所述响应示能表示显示在所述显示器的第二部分处;当在所述用户界面之上显示所述数字助理用户界面时,接收对应于对所述显示器的第三部分的选择的用户输入,所述第三部分显示所述用户界面的一部分;根据确定所述用户输入对应于第一类型的输入:停止显示所述数字助理指示符和所述响应示能表示;以及根据确定所述用户输入对应于不同于所述第一类型的输入的第二类型的输入:在所述第二部分处显示所述响应示能表示时,根据所述用户输入更新所述第三部分处的所述用户界面的所述显示。
根据确定所述用户输入对应于所述第一类型的输入而停止显示所述数字助理指示符和所述响应示能表示可提供消除数字助理的直观且有效的方式。例如,用户可简单地提供选择底层用户界面以消除所述数字助理用户界面的输入,从而减少所述数字助理对用户-设备交互的干扰。在所述第二部分处显示所述响应示能表示时根据所述用户输入更新所述第三部分处的所述用户界面的所述显示,提供了用于数字助理用户界面与底层用户界面共存的直观方式。例如,用户可提供选择所述底层用户界面以使得所述底层用户界面更新的输入,就像未显示所述数字助理用户界面一样。此外,保留所述数字助理用户界面(其可包括用户感兴趣的信息)同时允许用户与所述底层用户界面进行交互,可减少所述数字助理对所述底层用户界面的干扰。这样,用户-设备界面可更有效(例如,通过在显示数字助理用户界面时允许用户输入与底层用户界面进行交互,通过减少所述数字助理对用户正在查看的内容的视觉干扰,通过减少根据需要操作所述设备所需的用户输入的数量),这又通过使得所述用户能够更快速且更有效地使用所述设备减少了电力使用并且延长了所述设备的电池寿命。
本文公开了示例性方法。一种示例性方法包括在具有一个或多个处理器、存储器和显示器的电子设备处:接收自然语言输入;发起所述数字助理;根据发起所述数字助理,获取响应于所述自然语言输入的响应包;在接收到所述自然语言输入之后,基于与所述电子设备相关联的上下文信息,从多个数字助理响应模式中选择所述数字助理的第一响应模式;以及响应于选择所述第一响应模式,由所述数字助理根据所述第一响应模式来呈现所述响应包。
本文公开了示例性非暂态计算机可读介质。一种示例非暂态计算机可读存储介质存储一个或多个程序。所述一个或多个程序包括指令,所述指令当由具有显示器的电子设备的一个或多个处理器执行时,使所述电子设备:接收自然语言输入;发起所述数字助理;根据发起所述数字助理,获取响应于所述自然语言输入的响应包;在接收到所述自然语言输入之后,基于与所述电子设备相关联的上下文信息,从多个数字助理响应模式中选择所述数字助理的第一响应模式;并且响应于选择所述第一响应模式,由所述数字助理根据所述第一响应模式来呈现所述响应包。
本文公开了示例性电子设备。一种示例性电子设备包括显示器;一个或多个处理器;存储器;以及一个或多个程序,其中所述一个或多个程序存储在存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行以下操作的指令:接收自然语言输入;发起所述数字助理;根据发起所述数字助理,获取响应于所述自然语言输入的响应包;在接收到所述自然语言输入之后,基于与所述电子设备相关联的上下文信息,从多个数字助理响应模式中选择所述数字助理的第一响应模式;以及响应于选择所述第一响应模式,由所述数字助理根据所述第一响应模式来呈现所述响应包。
示例性电子设备包括用于执行以下操作的装置:接收自然语言输入;发起所述数字助理;根据发起所述数字助理,获取响应于所述自然语言输入的响应包;在接收到所述自然语言输入之后,基于与所述电子设备相关联的上下文信息,从多个数字助理响应模式中选择所述数字助理的第一响应模式;以及响应于选择所述第一响应模式,由所述数字助理根据所述第一响应模式来呈现所述响应包。
由所述数字助理根据所述第一响应模式呈现所述响应包可允许以适合于用户的当前上下文的信息方式来呈现数字助理响应。例如,当所述用户的当前上下文指示不期望(或不可能)进行视觉用户-设备交互时,数字助理可以音频格式呈现响应。又如,当所述用户的当前上下文指示不期望进行听觉用户-设备交互时,所述数字助理可以视觉格式呈现响应。又如,当所述用户的当前上下文指示期望进行听觉和视觉用户-设备交互两者时,所述数字助理可呈现具有视觉分量和简明的音频分量的响应,从而减小所述数字助理的音频输出的长度。此外,在接收到所述自然语言输入之后(并且在呈现所述响应包之前)选择所述第一响应模式可允许更准确地确定所述用户的当前上下文(并且因此更准确地确定适当的响应模式)。这样,所述用户-设备界面可更有效且更安全(例如,通过减少数字助理的视觉干扰,通过以信息方式有效地呈现响应,通过基于用户的当前上下文智能地调整响应方式),这又通过使得所述用户能够更快速且更有效地使用所述设备减少了电力使用并且延长了所述设备的电池寿命。
附图说明
图1为示出了根据各种示例的用于实现数字助理的系统和环境的框图。
图2A为示出了根据各种示例的实现数字助理的客户端侧部分的便携式多功能设备的框图。
图2B为示出了根据各种示例的用于事件处理的示例性部件的框图。
图3示出了根据各种示例的实现数字助理的客户端侧部分的便携式多功能设备。
图4为根据各种示例的具有显示器和触敏表面的示例性多功能设备的框图。
图5A示出了根据各种示例的便携式多功能设备上的应用程序的菜单的示例性用户界面。
图5B示出了根据各种示例的具有与显示器分开的触敏表面的多功能设备的示例性用户界面。
图6A示出了根据各种示例的个人电子设备。
图6B为示出了根据各种示例的个人电子设备的框图。
图7A为示出了根据各种示例的数字助理系统或其服务器部分的框图。
图7B示出了根据各种示例的在图7A中所示的数字助理的功能。
图7C示出了根据各种示例的知识本体的一部分。
图8A至图8CT示出了根据各种示例的用户界面和数字助理用户界面。
图9A至图9C示出了根据各种示例的确定哪个设备应响应于语音输入的多个设备。
图10A至图10V示出了根据各种示例的用户界面和数字助理用户界面。
图11示出了根据各种示例的用于选择数字助理响应模式以及用于根据所选择的数字助理响应模式来呈现响应的系统。
图12示出了根据各种示例的根据不同数字助理响应模式来呈现对所接收的自然语言输入的响应的设备。
图13示出了根据各种示例的被实现为选择数字助理响应模式的示例性过程。
图14示出了根据各种示例的当确定用户在车辆中(例如,驾驶)时根据话音响应模式来呈现响应的设备。
图15示出了根据各种示例的当设备正在执行导航应用程序时根据话音响应模式来呈现响应的设备。
图16示出了根据各种示例的在整个多转弯DA交互过程中的响应模式变化。
图17A至图17F示出了根据各种示例的用于操作数字助理的过程。
图18A至图18B示出了根据各种示例的用于操作数字助理的过程。
图19A至图19E示出了根据各种示例的用于选择数字助理响应模式的过程。
具体实施方式
在以下对示例的描述中将引用附图,在附图中以例示的方式示出了可被实施的特定示例。应当理解,在不脱离各个示例的范围的情况下,可使用其他示例并且可作出结构性改变。
尽管以下描述使用术语“第一”、“第二”等来描述各种元件,但这些元件不应受术语的限制。这些术语只是用于将一个元件与另一元件区分开。例如,在不脱离各种所述示例的范围的情况下,第一输入可被称为第二输入,并且类似地,第二输入可被称为第一输入。第一输入和第二输入均为输入,并且在一些情况下为独立且不同的输入。
在本文中对各种所述示例的描述中所使用的术语只是为了描述特定示例的目的,而并非旨在进行限制。如在对各种所述示例的描述和所附权利要求书中所使用的那样,单数形式“一个(“a”,“an”)”和“该”旨在也包括复数形式,除非上下文另外明确地指示。还将理解的是,本文中所使用的术语“和/或”是指并且涵盖相关联的所列出的项目中的一个或多个项目的任何和全部可能的组合。还将理解的是,术语“包括”(“includes”、“including”、“comprises”和/或“comprising”)在本说明书中使用时是指定存在所陈述的特征、整数、步骤、操作、元件和/或部件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、部件和/或其分组。
根据上下文,术语“如果”可被解释为意指“当...时”(“when”或“upon”)或“响应于确定”或“响应于检测到”。类似地,根据上下文,短语“如果确定...”或“如果检测到[所陈述的条件或事件]”可被解释为意指“在确定...时”或“响应于确定...”或“在检测到[所陈述的条件或事件]时”或“响应于检测到[所陈述的条件或事件]”。
1.系统和环境
图1示出了根据各种示例的系统100的框图。在一些示例中,系统100实现数字助理。术语“数字助理”、“虚拟助理”、“智能自动化助理”或“自动数字助理”是指解译口头形式和/或文本形式的自然语言输入来推断用户意图并且基于推断出的用户意图来执行动作的任何信息处理系统。例如,为了作用于推断出的用户意图,系统执行下述步骤中的一个或多个:识别具有设计用于实现推断出的用户意图的步骤和参数的任务流,根据推断出的用户意图将特定要求输入到任务流中;通过调用程序、方法、服务、API等执行任务流;以及以可听(例如,语音)和/或可视形式来生成对用户的输出响应。
具体地,数字助理能够接受至少部分地为自然语言命令、请求、声明、讲述和/或询问的形式的用户请求。通常,用户请求寻求数字助理作出信息性回答或执行任务。对用户请求的令人满意的响应包括提供所请求的信息性回答、执行所请求的任务或这两者的组合。例如,用户向数字助理提出问题,诸如“我现在在哪里?”。基于用户的当前位置,数字助理回答“你在中央公园西门附近。”用户还请求执行任务,例如“请邀请我的朋友们下周来参加我女朋友的生日聚会。”作为响应,数字助理可通过讲出“好的,马上”来确认请求,然后代表用户将合适的日历邀请发送到用户电子通讯录中列出的用户朋友中的每位朋友。在执行所请求的任务期间,数字助理有时在很长时间段内在涉及多次信息交换的持续对话中与用户进行交互。存在与数字助理进行交互以请求信息或执行各种任务的许多其他方法。除提供言语响应并采取经编程的动作之外,数字助理还提供其他视频或音频形式的响应,例如作为文本、警报、音乐、视频、动画等。
如图1所示,在一些示例中,数字助理根据客户端-服务器模型来实现。数字助理包括在用户设备104上执行的客户端侧部分102(后文称作“DA客户端102”)以及在服务器系统108上执行的服务器侧部分106(后文称作“DA服务器106”)。DA客户端102通过一个或多个网络110与DA服务器106通信。DA客户端102提供客户端侧功能,诸如面向用户的输入和输出处理,以及与DA服务器106通信。DA服务器106为各自位于相应用户设备104上的任意数量的DA客户端102提供服务器侧功能。
在一些示例中,DA服务器106包括面向客户端的I/O接口112、一个或多个处理模块114、数据与模型116,以及到外部服务的I/O接口118。面向客户端的I/O接口112有利于DA服务器106的面向客户端的输入和输出处理。一个或多个处理模块114利用数据与模型116来处理语音输入,并基于自然语言输入来确定用户意图。此外,一个或多个处理模块114基于推断出的用户意图来执行任务执行。在一些示例中,DA服务器106通过一个或多个网络110与外部服务120通信以完成任务或采集信息。到外部服务的I/O接口118有利于此类通信。
用户设备104可以是任何合适的电子设备。在一些示例中,用户设备104是便携式多功能设备(例如,下文参考图2A所述的设备200)、多功能设备(例如,下文参考图4所述的设备400)或个人电子设备(例如,下文参考图6A至图6B所述的设备600)。便携式多功能设备为例如还包含其他功能诸如PDA和/或音乐播放器功能的移动电话。便携式多功能设备的特定示例包括来自Apple Inc.(Cupertino,California)的Apple
Figure BDA0002687356270000101
Figure BDA0002687356270000103
iPod
Figure BDA0002687356270000102
Figure BDA0002687356270000104
设备。便携式多功能设备的其他示例包括但不限于耳塞式耳机/头戴式耳机、扬声器以及膝上型电脑或平板电脑。此外,在一些示例中,用户设备104是非便携式多功能设备。具体地,用户设备104是台式计算机、游戏机、扬声器、电视或电视机顶盒。在一些示例中,用户设备104包括触敏表面(例如,触摸屏显示器和/或触控板)。此外,用户设备104任选地包括一个或多个其他物理用户接口设备,诸如物理键盘、鼠标和/或操纵杆。下文更详细地描述了电子设备诸如多功能设备的各种示例。
一个或多个通信网络110的示例包括局域网(LAN)和广域网(WAN),例如互联网。一个或多个通信网络110使用任何已知的网络协议来实现,包括各种有线或无线协议,诸如以太网、通用串行总线(USB)、FIREWIRE、全球移动通信系统(GSM)、增强型数据GSM环境(EDGE)、码分多址(CDMA)、时分多址(TDMA)、蓝牙、Wi-Fi、互联网协议话音(VoIP)、Wi-MAX或任何其他合适的通信协议。
服务器系统108在一个或多个独立式数据处理设备或分布式计算机网络上实现。在一些示例中,服务器系统108还采用第三方服务提供方(例如,第三方云服务提供方)的各种虚拟设备和/或服务来提供服务器系统108的潜在计算资源和/或基础结构资源。
在一些示例中,用户设备104经由第二用户设备122与DA服务器106通信。第二用户设备122与用户设备104相似或相同。例如,第二用户设备122类似于下文参考图2A、图4和图6A至图6B所述的设备200、400或600。用户设备104被配置为经由直接通信连接(诸如蓝牙、NFC、BTLE等)或者经由有线或无线网络(诸如局域Wi-Fi网络)而被通信地耦接到第二用户设备122。在一些示例中,第二用户设备122被配置为充当用户设备104与DA服务器106之间的代理。例如,用户设备104的DA客户端102被配置为经由第二用户设备122向DA服务器106传输信息(例如,在用户设备104处接收的用户请求)。DA服务器106处理该信息,并经由第二用户设备122将相关数据(例如,响应于用户请求的数据内容)返回到用户设备104。
在一些示例中,用户设备104被配置为将针对数据的缩略请求发送到第二用户设备122,以减少从用户设备104传输的信息量。第二用户设备122被配置为确定添加到缩略请求的补充信息,以生成完整的请求来传输到DA服务器106。该系统架构可有利地通过使用具有较强通信能力和/或电池电力的第二用户设备122(例如,移动电话、膝上型计算机、平板电脑等)作为到DA服务器106的代理,允许具有有限通信能力和/或有限电池电力的用户设备104(例如,手表或类似的紧凑型电子设备)访问DA服务器106提供的服务。虽然图1中仅示出两个用户设备104和122,但应当理解,在一些示例中,系统100可包括在此代理配置中被配置为与DA服务器系统106通信的任意数量和类型的用户设备。
虽然图1中所示的数字助理包括客户端侧部分(例如,DA客户端102)和服务器侧部分(例如,DA服务器106)两者,但在一些示例中,数字助理的功能被实现为被安装在用户设备上的独立式应用程序。此外,数字助理的客户端部分与服务器部分之间的功能划分在不同的具体实施中可变化。例如,在一些示例中,DA客户端为仅提供面向用户的输入和输出处理功能并将数字助理的所有其他功能委派给后端服务器的瘦客户端。
2.电子设备
现在将注意力转至用于实现数字助理的客户端侧部分的电子设备的实施方案。图2A是示出了根据一些实施方案的具有触敏显示器系统212的便携式多功能设备200的框图。触敏显示器212有时为了方便被叫做“触摸屏”,并且有时被称为或被叫做“触敏显示器系统”。设备200包括存储器202(其任选地包括一个或多个计算机可读存储介质)、存储器控制器222、一个或多个处理单元(CPU)220、外围设备接口218、RF电路208、音频电路210、扬声器211、麦克风213、输入/输出(I/O)子系统206、其他输入控制设备216和外部端口224。设备200任选地包括一个或多个光学传感器264。设备200任选地包括用于检测设备200(例如设备200的触敏表面诸如触敏显示器系统212)上的接触的强度的一个或多个接触强度传感器265。设备200任选地包括用于在设备200上生成触觉输出(例如,在触敏表面诸如设备200的触敏显示器系统212或设备400的触控板455上生成触觉输出)的一个或多个触觉输出发生器267。这些部件任选地通过一个或多个通信总线或信号线203进行通信。
如在本说明书和权利要求书中所使用的,术语触敏表面上的接触的“强度”是指触敏表面上的接触(例如,手指接触)的力或压力(每单位面积的力),或是指触敏表面上的接触的力或压力的替代物(代用物)。接触的强度具有值范围,该值范围包括至少四个不同的值并且更典型地包括上百个不同的值(例如,至少256个)。接触的强度任选地使用各种方法和各种传感器或传感器的组合来确定(或测量)。例如,在触敏表面下方或相邻于触敏表面的一个或多个力传感器任选地用于测量触敏表面上的不同点处的力。在一些具体实施中,来自多个力传感器的力测量值被组合(例如,加权平均)以确定所估计的接触力。类似地,触笔的压敏顶端任选地用于确定触笔在触敏表面上的压力。另选地,在触敏表面上检测到的接触区域的大小和/或其变化、接触附近的触敏表面的电容和/或其变化以及/或者接触附近的触敏表面的电阻和/或其变化任选地被用作触敏表面上的接触的力或压力的替代物。在一些具体实施中,接触力或压力的替代物测量直接用于确定是否已经超过强度阈值(例如,强度阈值以对应于替代物测量的单位来描述)。在一些具体实施中,接触力或压力的替代物测量被转换成估计的力或压力,并且估计的力或压力用于确定是否已超过强度阈值(例如,强度阈值是以压力的单位进行测量的压力阈值)。使用接触的强度作为用户输入的属性,从而允许用户访问用户在实地面积有限的尺寸更小的设备上本来不可访问的附加设备功能,该尺寸更小的设备用于(例如,在触敏显示器上)显示示能表示和/或接收用户输入(例如,经由触敏显示器、触敏表面或物理控件/机械控件,诸如旋钮或按钮)。
如本说明书和权利要求书中所使用的,术语“触觉输出”是指将由用户利用用户的触感检测到的设备相对于设备的先前位置的物理位移、设备的部件(例如,触敏表面)相对于设备的另一个部件(例如,外壳)的物理位移、或部件相对于设备的质心的位移。例如,在设备或设备的部件与用户对触摸敏感的表面(例如,手指、手掌或用户手部的其他部分)接触的情况下,通过物理位移生成的触觉输出将由用户解释为触感,该触感对应于设备或设备的部件的物理特征的所感知的变化。例如,触敏表面(例如,触敏显示器或触控板)的移动任选地由用户解释为对物理致动按钮的“按下点击”或“松开点击”。在一些情况下,用户将感觉到触感,诸如“按下点击”或“松开点击”,即使在通过用户的移动而物理地被按压(例如,被移位)的与触敏表面相关联的物理致动按钮没有移动时。又如,即使在触敏表面的光滑度无变化时,触敏表面的移动也会任选地由用户解释或感测为触敏表面的“粗糙度”。虽然用户对触摸的此类解释将受到用户的个体化感官知觉的限制,但是对触摸的许多感官知觉是大多数用户共有的。因此,当触觉输出被描述为对应于用户的特定感官知觉(例如,“按下点击”、“松开点击”、“粗糙度”)时,除非另外陈述,否则所生成的触觉输出对应于设备或其部件的物理位移,该物理位移将会生成典型(或普通)用户的所述感官知觉。
应当理解,设备200仅是便携式多功能设备的一个示例,并且设备200任选地具有比所示出的更多或更少的部件,任选地组合两个或更多个部件,或者任选地具有这些部件的不同配置或布置。图2A中所示的各种部件以硬件、软件、或硬件与软件两者的组合来实现,包括一个或多个信号处理和/或专用集成电路。
存储器202包括一个或多个计算机可读存储介质。这些计算机可读存储介质例如为有形的和非暂态的。存储器202包括高速随机存取存储器,并且还包括非易失性存储器,诸如一个或多个磁盘存储设备、闪存存储器设备或其他非易失性固态存储器设备。存储器控制器222控制设备200的其他部件访问存储器202。
在一些示例中,存储器202的非暂态计算机可读存储介质用于存储指令(例如,用于执行下文描述的过程的各方面)以供指令执行系统、装置或设备诸如基于计算机的系统、包含处理器的系统或可从指令执行系统、装置或设备取出指令并执行指令的其他系统使用或与其结合使用。在其他示例中,指令(例如,用于执行下文描述的过程的各方面)存储在服务器系统108的非暂态计算机可读存储介质(未示出)上,或在存储器202的非暂态计算机可读存储介质与服务器系统108的非暂态计算机可读存储介质之间划分。
外围设备接口218用于将设备的输入和输出外围设备耦接到CPU 220和存储器202。一个或多个处理器220运行或执行存储器202中所存储的各种软件程序和/或指令集以执行设备200的各种功能并处理数据。在一些实施方案中,外围设备接口218、CPU 220和存储器控制器222在单个芯片诸如芯片204上实现。在一些其他实施方案中,它们在独立的芯片上实现。
RF(射频)电路208接收和发送也被称作电磁信号的RF信号。RF电路208将电信号转换为电磁信号/将电磁信号转换为电信号,并且经由电磁信号与通信网络及其他通信设备进行通信。RF电路208任选地包括用于执行这些功能的熟知的电路,包括但不限于天线系统、RF收发器、一个或多个放大器、调谐器、一个或多个振荡器、数字信号处理器、编解码芯片组、用户身份模块(SIM)卡、存储器等等。RF电路208任选地通过无线通信来与网络和其他设备进行通信,这些网络为诸如互联网(也被称为万维网(WWW))、内联网和/或无线网络(诸如,蜂窝电话网络、无线局域网(LAN)和/或城域网(MAN))。RF电路208任选地包括用于诸如通过近程通信无线电部件来检测近场通信(NFC)场的熟知的电路。无线通信任选地使用多种通信标准、协议和技术中的任一种,包括但不限于全球移动通信系统(GSM)、增强型数据GSM环境(EDGE)、高速下行链路分组接入(HSDPA)、高速上行链路分组接入(HSUPA)、演进、纯数据(EV-DO)、HSPA、HSPA+、双小区HSPA(DC-HSPDA)、长期演进(LTE)、近场通信(NFC)、宽带码分多址(W-CDMA)、码分多址(CDMA)、时分多址(TDMA)、蓝牙、蓝牙低功耗(BTLE)、无线保真(Wi-Fi)(例如,IEEE 802.11a、IEEE802.11b、IEEE 802.11g、IEEE 802.11n和/或IEEE802.11ac)、互联网协议话音(VoIP)、Wi-MAX、电子邮件协议(例如,互联网消息访问协议(IMAP)和/或邮局协议(POP))、即时消息(例如,可扩展消息处理和存在协议(XMPP)、用于即时消息和存在利用扩展的会话发起协议(SIMPLE)、即时消息和存在服务(IMPS))和/或短消息服务(SMS),或者任何其他适当的通信协议,包括在本文档提交日期时尚未开发出的通信协议。
音频电路210、扬声器211和麦克风213提供用户与设备200之间的音频接口。音频电路210从外围设备接口218接收音频数据,将音频数据转换为电信号,并将电信号传输到扬声器211。扬声器211将电信号转换为人类可听到的声波。音频电路210还接收由麦克风213从声波转换的电信号。音频电路210将电信号转换为音频数据,并且将音频数据传输到外围设备接口218以用于处理。音频数据通过外围设备接口218检索自和/或传输至存储器202和/或RF电路208。在一些实施方案中,音频电路210还包括耳麦插孔(例如,图3中的312)。该耳麦插孔提供音频电路210与可移除的音频输入/输出外围设备之间的接口,该可移除的音频输入/输出外围设备诸如仅输出的耳机或者具有输出(例如,单耳耳机或双耳耳机)和输入(例如,麦克风)两者的耳麦。
I/O子系统206将设备200上的输入/输出外围设备诸如触摸屏212和其他输入控制设备216耦接到外围设备接口218。I/O子系统206任选地包括显示控制器256、光学传感器控制器258、强度传感器控制器259、触觉反馈控制器261,以及用于其他输入或控制设备的一个或多个输入控制器260。一个或多个输入控制器260从其他输入控制设备216接收电信号/将电信号发送到其他输入控制设备。其他输入控制设备216任选地包括物理按钮(例如,下压按钮、摇臂按钮等)、拨号盘、滑动开关、操纵杆、点击轮等。在一些另选实施方案中,输入控制器260任选地耦接至以下各项中的任一者(或不耦接至以下各项中的任一者):键盘、红外线端口、USB端口以及指向设备诸如鼠标。一个或多个按钮(例如,图3中的308)任选地包括用于扬声器211和/或麦克风213的音量控制的增大/减小按钮。一个或多个按钮任选地包括下压按钮(例如,图3中的306)。
快速按下下压按钮会脱离触摸屏212的锁定或者开始使用触摸屏上的手势来对设备进行解锁的过程,如在2005年12月23日提交的名称为“Unlocking a Device byPerforming Gestures on an Unlock Image”的美国专利7,657,849的美国专利申请11/322,549中所述,该美国专利申请据此全文以引用方式并入本文。较长地按下下压按钮(例如,306)使设备200开机或关机。用户能够自定义一个或多个按钮的功能。触摸屏212用于实现虚拟按钮或软按钮以及一个或多个软键盘。
触敏显示器212提供设备和用户之间的输入接口和输出接口。显示控制器256从触摸屏212接收电信号和/或将电信号发送至触摸屏212。触摸屏212向用户显示视觉输出。视觉输出包括图形、文本、图标、视频及其任何组合(统称为“图形”)。在一些实施方案中,一些视觉输出或全部视觉输出对应于用户界面对象。
触摸屏212具有基于触觉和/或触感接触来接受来自用户的输入的触敏表面、传感器或传感器组。触摸屏212和显示控制器256(与存储器202中的任何相关联的模块和/或指令集一起)检测触摸屏212上的接触(和该接触的任何移动或中断),并且将所检测到的接触转换为与被显示在触摸屏212上的用户界面对象(例如,一个或多个软键、图标、网页或图像)的交互。在示例性实施方案中,触摸屏212与用户之间的接触点对应于用户的手指。
触摸屏212使用LCD(液晶显示器)技术、LPD(发光聚合物显示器)技术或LED(发光二极管)技术,但在其他实施方案中可使用其他显示技术。触摸屏212和显示控制器256使用目前已知或以后将开发的多种触摸感测技术中的任何技术,以及其他接近传感器阵列或用于确定与触摸屏212接触的一个或多个点的其他元件来检测接触及其任何移动或中断,所述多种触摸感测技术包括但不限于电容式、电阻式、红外和表面声波技术。在示例性实施方案中,使用投射式互电容感测技术,诸如在来自Apple Inc.(Cupertino,California)的
Figure BDA0002687356270000161
和iPod
Figure BDA0002687356270000162
中使用的技术。
在一些实施方案中,触摸屏212的触敏显示器类似于以下美国专利:6,323,846(Westerman等人)、6,570,557(Westerman等人)和/或6,677,932(Westerman)和/或美国专利公开2002/0015024A1中所述的多点触敏触控板,这些专利申请均据此全文以引用方式并入本文。然而,触摸屏212显示来自设备200的视觉输出,而触敏触控板不提供视觉输出。
在一些实施方案中,触摸屏212的触敏显示器如以下申请所述:(1)2006年5月2日提交的名称为“Multipoint Touch Surface Controller”的美国专利申请11/381,313;(2)2004年5月6日提交的名称为“Multipoint Touchscreen”的美国专利申请No.10/840,862;(3)2004年7月30日提交的名称为“Gestures For Touch Sensitive Input Devices”的美国专利申请No.10/903,964;(4)2005年1月31日提交的名称为“Gestures For TouchSensitive Input Devices”的美国专利申请No.11/048,264;(5)2005年1月18日提交的名称为“Mode-Based Graphical User Interfaces For Touch Sensitive Input Devices”的美国专利申请No.11/038,590;(6)2005年9月16日提交的名称为“Virtual Input DevicePlacement On A Touch Screen User Interface”的美国专利申请No.11/228,758;(7)2005年9月16日提交的名称为“Operation Of A Computer With A Touch ScreenInterface”的美国专利申请No.11/228,700;(8)2005年9月16日提交的名称为“ActivatingVirtual Keys Of A Touch-Screen Virtual Keyboard”的美国专利申请No.11/228,737;以及(9)2006年3月3日提交的名称为“Multi-Functional Hand-Held Device”的美国专利申请No.11/367,749。所有这些申请全文以引用方式并入本文。
触摸屏212例如具有超过100dpi的视频分辨率。在一些实施方案中,触摸屏具有约160dpi的视频分辨率。用户使用任何合适的对象或附加物诸如触笔、手指等与触摸屏212进行接触。在一些实施方案中,将用户界面设计为主要通过基于手指的接触和手势来工作,由于手指在触摸屏上的接触区域较大,因此这可能不如基于触笔的输入精确。在一些实施方案中,设备将基于手指的粗略输入转化为精确的指针/光标位置或命令以用于执行用户所期望的动作。
在一些实施方案中,除了触摸屏之外,设备200还包括用于激活或去激活特定功能的触控板(未示出)。在一些实施方案中,触控板是设备的触敏区域,与触摸屏不同,该触敏区域不显示视觉输出。触控板是与触摸屏212分开的触敏表面,或者是由触摸屏形成的触敏表面的延伸。
设备200还包括用于为各种部件供电的电力系统262。电力系统262包括电力管理系统、一个或多个电源(例如,电池、交流电(AC))、再充电系统、电力故障检测电路、功率转换器或逆变器、电力状态指示器(例如,发光二极管(LED))和与便携式设备中电力的生成、管理和分配相关联的任何其他部件。
设备200还包括一个或多个光学传感器264。图2A示出了耦接到I/O子系统206中的光学传感器控制器258的光学传感器。光学传感器264包括电荷耦合器件(CCD)或互补金属氧化物半导体(CMOS)光电晶体管。光学传感器264从环境接收通过一个或多个透镜而投射的光,并且将光转换为表示图像的数据。结合成像模块243(也叫做相机模块),光学传感器264捕获静态图像或视频。在一些实施方案中,光学传感器位于设备200的后部,与设备前部的触摸屏显示器212相背对,使得触摸屏显示器被用作用于静态图像和/或视频图像采集的取景器。在一些实施方案中,光学传感器位于设备的前部,使得在用户在触摸屏显示器上查看其他视频会议参与者的同时获取该用户的图像以用于视频会议。在一些实施方案中,光学传感器264的位置可由用户改变(例如,通过旋转设备外壳中的透镜和传感器),使得单个光学传感器264与触摸屏显示器一起使用,以用于视频会议和静态图像和/或视频图像采集两者。
设备200任选地还包括一个或多个接触强度传感器265。图2A示出了耦接到I/O子系统206中的强度传感器控制器259的接触强度传感器。接触强度传感器265任选地包括一个或多个压阻应变仪、电容式力传感器、电气力传感器、压电力传感器、光学力传感器、电容式触敏表面或其他强度传感器(例如,用于测量触敏表面上的接触的力(或压力)的传感器)。接触强度传感器265从环境接收接触强度信息(例如,压力信息或压力信息的代用物)。在一些实施方案中,至少一个接触强度传感器与触敏表面(例如,触敏显示器系统212)并置排列或邻近。在一些实施方案中,至少一个接触强度传感器位于设备200的后部上,与位于设备200的前部上的触摸屏显示器212相背对。
设备200还包括一个或多个接近传感器266。图2A示出了耦接到外围设备接口218的接近传感器266。另选地,接近传感器266耦接到I/O子系统206中的输入控制器260。接近传感器266如以下美国专利申请中所述的那样执行:11/241,839,名称为“ProximityDetector In Handheld Device”;No.11/240,788,名称为“Proximity Detector InHandheld Device”;No.11/620,702,名称为“Using Ambient Light Sensor To AugmentProximity Sensor Output”;No.11/586,862,名称为“Automated Response To AndSensing Of User Activity In Portable Devices”;以及No.11/638,251,名称为“Methods And Systems For Automatic Configuration Of Peripherals”,这些美国专利申请据此全文以引用方式并入本文。在一些实施方案中,当多功能设备被置于用户的耳朵附近时(例如,当用户正在进行电话呼叫时),接近传感器关闭并且禁用触摸屏212。
设备200任选地还包括一个或多个触觉输出发生器267。图2A示出了耦接到I/O子系统206中的触觉反馈控制器261的触觉输出发生器。触觉输出发生器267任选地包括一个或多个电声设备诸如扬声器或其他音频部件;和/或用于将能量转换成线性运动的机电设备诸如电机、螺线管、电活性聚合器、压电致动器、静电致动器或其他触觉输出生成部件(例如,用于将电信号转换成设备上的触觉输出的部件)。接触强度传感器265从触觉反馈模块233接收触觉反馈生成指令,并且在设备200上生成能够由设备200的用户感觉到的触觉输出。在一些实施方案中,至少一个触觉输出发生器与触敏表面(例如,触敏显示器系统212)并置排列或邻近,并且任选地通过竖直地(例如,向设备200的表面内/外)或侧向地(例如,在与设备200的表面相同的平面中向后和向前)移动触敏表面来生成触觉输出。在一些实施方案中,至少一个触觉输出发生器传感器位于设备200的后部上,与位于设备200的前部上的触摸屏显示器212相背对。
设备200还包括一个或多个加速度计268。图2A示出了耦接到外围设备接口218的加速度计268。另选地,加速度计268耦接至I/O子系统206中的输入控制器260。加速度计268如以下美国专利公开中所述那样执行:美国专利公开20050190059,“Acceleration-basedTheft Detection System for Portable Electronic Devices”和美国专利公开20060017692,“Methods And Apparatuses For Operating A Portable Device Based OnAn Accelerometer”,这两个美国专利公开全文以引用方式并入本文。在一些实施方案中,基于对从一个或多个加速度计接收的数据的分析来在触摸屏显示器上以纵向视图或横向视图显示信息。设备200任选地除了一个或多个加速度计268之外还包括磁力仪(未示出)和GPS(或GLONASS或其他全球导航系统)接收器(未示出),以用于获取关于设备200的位置和取向(例如,纵向或横向)的信息。
在一些实施方案中,存储于存储器202中的软件组件包括操作系统226、通信模块(或指令集)228、接触/运动模块(或指令集)230、图形模块(或指令集)232、文本输入模块(或指令集)234、全球定位系统(GPS)模块(或指令集)235、数字助理客户端模块229以及应用程序(或指令集)236。此外,存储器202存储数据与模型,诸如用户数据与模型231。此外,在一些实施方案中,存储器202(图2A)或470(图4)存储设备/全局内部状态257,如图2A和图4中所示。设备/全局内部状态257包括以下中的一者或多者:活动应用程序状态,其指示哪些应用程序(如果有的话)当前是活动的;显示状态,其指示什么应用程序、视图或其他信息占据触摸屏显示器212的各个区域;传感器状态,包括从设备的各个传感器和输入控制设备216获取的信息;以及关于设备的位置和/或姿态的位置信息。
操作系统226(例如,Darwin、RTXC、LINUX、UNIX、OS X、iOS、WINDOWS、或嵌入式操作系统诸如VxWorks)包括用于控制和管理一般系统任务(例如,存储器管理、存储设备控制、电源管理等)的各种软件组件和/或驱动程序,并且促进各种硬件组件和软件组件之间的通信。
通信模块228便于通过一个或多个外部端口224来与其他设备进行通信,并且还包括用于处理由RF电路208和/或外部端口224所接收的数据的各种软件组件。外部端口224(例如,通用串行总线(USB)、火线等)适于直接耦接到其他设备,或间接地通过网络(例如,互联网、无线LAN等)进行耦接。在一些实施方案中,外部端口是与
Figure BDA0002687356270000201
(Apple Inc.的商标)设备上所使用的30针连接器相同的或类似的和/或与其兼容的多针(例如,30针)连接器。
接触/运动模块230任选地检测与触摸屏212(结合显示控制器256)和其他触敏设备(例如,触控板或物理点击式转盘)的接触。接触/运动模块230包括各种软件组件以用于执行与接触检测相关的各种操作,诸如确定是否已发生接触(例如,检测手指按下事件)、确定接触强度(例如,接触的力或压力,或者接触的力或压力的替代物)、确定是否存在接触的移动并跟踪在触敏表面上的移动(例如,检测一个或多个手指拖动事件),以及确定接触是否已停止(例如,检测手指抬起事件或接触断开)。接触/运动模块230从触敏表面接收接触数据。确定接触点的移动任选地包括确定接触点的速率(量值)、速度(量值和方向)和/或加速度(量值和/或方向的改变),所述接触点的移动由一系列接触数据表示。这些操作任选地被应用于单点接触(例如,单指接触)或者多点同时接触(例如,“多点触摸”/多个手指接触)。在一些实施方案中,接触/运动模块230和显示控制器256检测触控板上的接触。
在一些实施方案中,接触/运动模块230使用一组一个或多个强度阈值来确定操作是否已由用户执行(例如,确定用户是否已“点击”图标)。在一些实施方案中,根据软件参数来确定强度阈值的至少一个子集(例如,强度阈值不是由具体物理致动器的激活阈值来确定的,并且可在不改变设备200的物理硬件的情况下被调节)。例如,在不改变触控板或触摸屏显示器硬件的情况下,触控板或触摸屏的鼠标“点击”阈值可被设定成预定义的阈值的大范围中的任一个阈值。另外,在一些具体实施中,向设备的用户提供用于调节一组强度阈值中的一个或多个强度阈值(例如,通过调节各个强度阈值和/或通过利用对“强度”参数的系统级点击来一次调节多个强度阈值)的软件设置。
接触/运动模块230任选地检测用户的手势输入。触敏表面上的不同手势具有不同的接触模式(例如,所检测到的接触的不同运动、计时和/或强度)。因此,任选地通过检测特定接触模式来检测手势。例如,检测手指轻击手势包括检测手指按下事件,然后在与手指按下事件相同的位置(或基本上相同的位置)处(例如,在图标的位置处)检测手指抬起(抬离)事件。作为另一个示例,在触敏表面上检测手指轻扫手势包括检测手指按下事件,然后检测一个或多个手指拖动事件,并且随后检测手指抬起(抬离)事件。
图形模块232包括用于在触摸屏212或其他显示器上呈现和显示图形的各种已知的软件组件,包括用于改变所显示的图形的视觉冲击(例如,亮度、透明度、饱和度、对比度或其他视觉特征)的部件。如本文所用,术语“图形”包括可被显示给用户的任何对象,非限制性地包括文本、网页、图标(诸如,包括软键的用户界面对象)、数字图像、视频、动画等。
在一些实施方案中,图形模块232存储表示待使用的图形的数据。每个图形任选地被分配有对应的代码。图形模块232从应用程序等接收指定待显示的图形的一个或多个代码,在必要的情况下还一起接收坐标数据和其他图形属性数据,并且然后生成屏幕图像数据,以输出至显示控制器256。
触觉反馈模块233包括用于生成指令的各种软件组件,该指令由一个或多个触觉输出发生器267使用,以便响应于用户与设备200的交互而在设备200上的一个或多个位置处产生触觉输出。
在一些示例中作为图形模块232的部件的文本输入模块234提供用于在各种应用程序(例如,联系人237、电子邮件240、IM 241、浏览器247和需要文本输入的任何其他应用程序)中输入文本的软键盘。
GPS模块235确定设备的位置,并提供该信息以供在各种应用程序中使用(例如提供给电话238以供在基于位置的拨号中使用;提供给相机243作为图片/视频元数据;以及提供给提供基于位置的服务的应用,诸如天气桌面小程序、本地黄页桌面小程序和地图/导航桌面小程序)。
数字助理客户端模块229包括各种客户端侧数字助理指令,以提供数字助理的客户端侧功能。例如,数字助理客户端模块229能够通过便携式多功能设备200的各种用户接口(例如,麦克风213、一个或多个加速度计268、触敏显示器系统212、一个或多个光学传感器264、其他输入控制设备216等)接受话音(voice)输入(例如,语音(speech)输入)、文本输入、触摸输入和/或手势输入。数字助理客户端模块229还能够通过便携式多功能设备200的各种输出接口(例如,扬声器211、触敏显示器系统212、一个或多个触觉输出生成器267等)提供音频形式的输出(例如,语音输出)、视觉形式的输出和/或触觉形式的输出。例如,将输出提供为话音、声音、警报、文本消息、菜单、图形、视频、动画、振动和/或以上两者或更多者的组合。在操作期间,数字助理客户端模块229使用RF电路208与DA服务器106通信。
用户数据与模型231包括与用户相关联的各种数据(例如,用户特定的词汇数据、用户偏好数据、用户指定的名称发音、来自用户电子通讯录的数据、待办事项、购物清单等)以提供数字助理的客户端侧功能。此外,用户数据与模型231包括用于处理用户输入并且确定用户意图的各种模型(例如,语音识别模型、统计语言模型、自然语言处理模型、知识本体、任务流模型、服务模型等)。
在一些示例中,数字助理客户端模块229利用便携式多功能设备200的各种传感器、子系统和外围设备来从便携式多功能设备200的周围环境采集附加信息,以建立与用户、当前用户交互和/或当前用户输入相关联的上下文。在一些示例中,数字助理客户端模块229将上下文信息或其子集与用户输入一起提供至DA服务器106以帮助推断用户意图。在一些示例中,数字助理还使用上下文信息来确定如何准备输出并将其传送给用户。上下文信息被称为上下文数据。
在一些示例中,伴随用户输入的上下文信息包括传感器信息,例如照明、环境噪声、环境温度、周围环境的图像或视频等。在一些示例中,上下文信息还可包括设备的物理状态,例如设备取向、设备位置、设备温度、功率电平、速度、加速度、运动模式、蜂窝信号强度等。在一些示例中,将与DA服务器106的软件状态相关的信息,例如便携式多功能设备200的运行过程、已安装程序、过去和当前的网络活动、后台服务、错误日志、资源使用等,作为与用户输入相关联的上下文信息提供至DA服务器106。
在一些示例中,数字助理客户端模块229响应于来自DA服务器106的请求而选择性地提供存储在便携式多功能设备200上的信息(例如,用户数据231)。在一些示例中,数字助理客户端模块229还在DA服务器106请求时引出来自用户经由自然语言对话或其他用户接口的附加输入。数字助理客户端模块229将该附加输入传送至DA服务器106,以帮助DA服务器106进行意图推断和/或实现在用户请求中表达的用户意图。
下面参考图7A至图7C对数字助理进行更详细的描述。应当认识到,数字助理客户端模块229可包括下文所述的数字助理模块726的任意数量的子模块。
应用程序236包括以下模块(或指令集)或者其子集或超集:
·联系人模块237(有时称为通讯录或联系人列表);
·电话模块238;
·视频会议模块239;
·电子邮件客户端模块240;
·即时消息(IM)模块241;
·健身支持模块242;
·用于静态图像和/或视频图像的相机模块243;
·图像管理模块244;
·视频播放器模块;
·音乐播放器模块;
·浏览器模块247;
·日历模块248;
·桌面小程序模块249,在一些示例中,其包括以下各项中的一项或多项:天气桌面小程序249-1、股市桌面小程序249-2、计算器桌面小程序249-3、闹钟桌面小程序249-4、词典桌面小程序249-5和由用户获取的其他桌面小程序以及用户创建的桌面小程序249-6;
·用于形成用户创建的桌面小程序249-6的桌面小程序创建器模块250;
·搜索模块251;
·视频和音乐播放器模块252,其合并了视频播放器模块和音乐播放器模块;
·记事本模块253;
·地图模块254;以及/或者
·在线视频模块255。
存储在存储器202中的其他应用程序236的示例包括其他文字处理应用程序、其他图像编辑应用程序、绘图应用程序、呈现应用程序、支持JAVA的应用程序、加密、数字权限管理、话音识别和话音复制。
结合触摸屏212、显示控制器256、接触/运动模块230、图形模块232、和文本输入模块234,联系人模块237用于管理通讯录或联系人列表(例如,存储在存储器202或存储器470中的联系人模块237的应用程序内部状态292中),包括:将一个或多个姓名添加到通讯录;从通讯录删除姓名;将电话号码、电子邮件地址、物理地址或其他信息与姓名相关联;将图像与姓名相关联;对姓名进行归类和分类;提供电话号码或电子邮件地址来发起和/或促进通过电话238、视频会议模块239、电子邮件240或IM 241进行的通信;等等。
结合RF电路208、音频电路210、扬声器211、麦克风213、触摸屏212、显示控制器256、接触/运动模块230、图形模块232和文本输入模块234,电话模块238用于输入对应于电话号码的字符序列、访问联系人模块237中的一个或多个电话号码、修改已经输入的电话号码、拨打相应的电话号码、进行会话以及当会话完成时断开或挂断。如上所述,无线通信使用多种通信标准、协议和技术中的任一种。
结合RF电路208、音频电路210、扬声器211、麦克风213、触摸屏212、显示控制器256、光学传感器264、光学传感器控制器258、接触/运动模块230、图形模块232、文本输入模块234、联系人模块237和电话模块238,视频会议模块239包括根据用户指令来发起、进行和终止用户与一个或多个其他参与方之间的视频会议的可执行指令。
结合RF电路208、触摸屏212、显示控制器256、接触/运动模块230、图形模块232和文本输入模块234,电子邮件客户端模块240包括响应于用户指令来创建、发送、接收和管理电子邮件的可执行指令。结合图像管理模块244,电子邮件客户端模块240使得非常容易创建和发送具有由相机模块243拍摄的静态图像或视频图像的电子邮件。
结合RF电路208、触摸屏212、显示控制器256、接触/运动模块230、图形模块232和文本输入模块234,即时消息模块241包括用于以下操作的可执行指令:输入与即时消息对应的字符序列、修改先前输入的字符、传输相应即时消息(例如,使用短消息服务(SMS)或多媒体消息服务(MMS)协议以用于基于电话的即时消息或者使用XMPP、SIMPLE、或IMPS以用于基于互联网的即时消息)、接收即时消息以及查看所接收的即时消息。在一些实施方案中,所传输和/或接收的即时消息包括图形、照片、音频文件、视频文件和/或如MMS和/或增强型消息服务(EMS)中支持的其他附件。如本文所用,“即时消息”是指基于电话的消息(例如,使用SMS或MMS发送的消息)和基于互联网的消息(例如,使用XMPP、SIMPLE或IMPS发送的消息)两者。
结合RF电路208、触摸屏212、显示控制器256、接触/运动模块230、图形模块232、文本输入模块234、GPS模块235、地图模块254和音乐播放器模块,健身支持模块242包括用于以下各项的可执行指令:创建健身(例如,具有时间、距离和/或卡路里燃烧目标);与健身传感器(运动设备)进行通信;接收健身传感器数据;校准用于监视健身的传感器;为健身选择和播放音乐;以及显示、存储和传输健身数据。
结合触摸屏212、显示控制器256、一个或多个光学传感器264、光学传感器控制器258、接触/运动模块230、图形模块232和图像管理模块244,相机模块243包括用于以下操作的可执行指令:捕获静态图像或视频(包括视频流)并且将它们存储到存储器202中、修改静态图像或视频的特征,或从存储器202删除静态图像或视频。
结合触摸屏212、显示控制器256、接触/运动模块230、图形模块232、文本输入模块234、和相机模块243,图像管理模块244包括用于排列、修改(例如,编辑)、或以其他方式操控、加标签、删除、呈现(例如,在数字幻灯片或相册中)、以及存储静态图像和/或视频图像的可执行指令。
结合RF电路208、触摸屏212、显示控制器256、接触/运动模块230、图形模块232和文本输入模块234,浏览器模块247包括用于根据用户指令来浏览互联网,包括搜索、链接至、接收和显示网页或其部分,以及链接至网页的附件和其他文件的可执行指令。
结合RF电路208、触摸屏212、显示控制器256、接触/运动模块230、图形模块232、文本输入模块234、电子邮件客户端模块240和浏览器模块247,日历模块248包括根据用户指令来创建、显示、修改和存储日历以及与日历相关联的数据(例如,日历条目、待办事项等)的可执行指令。
结合RF电路208、触摸屏212、显示控制器256、接触/运动模块230、图形模块232、文本输入模块234和浏览器模块247,桌面小程序模块249是可由用户下载并使用的微型应用程序(例如,天气桌面小程序249-1、股市桌面小程序249-2、计算器桌面小程序249-3、闹钟桌面小程序249-4和词典桌面小程序249-5)或由用户创建的微型应用程序(例如,用户创建的桌面小程序249-6)。在一些实施方案中,桌面小程序包括HTML(超文本标记语言)文件、CSS(层叠样式表)文件和JavaScript文件。在一些实施方案中,桌面小程序包括XML(可扩展标记语言)文件和JavaScript文件(例如,Yahoo!桌面小程序)。
结合RF电路208、触摸屏212、显示控制器256、接触/运动模块230、图形模块232、文本输入模块234和浏览器模块247,桌面小程序创建器模块250被用户用于创建桌面小程序(例如,使将网页的用户指定部分变成桌面小程序)。
结合触摸屏212、显示控制器256、接触/运动模块230、图形模块232和文本输入模块234,搜索模块251包括用于根据用户指令来搜索存储器202中与一个或多个搜索条件(例如,一个或多个用户指定的搜索词)匹配的文本、音乐、声音、图像、视频和/或其他文件的可执行指令。
结合触摸屏212、显示控制器256、接触/运动模块230、图形模块232、音频电路210、扬声器211、RF电路208和浏览器模块247,视频和音乐播放器模块252包括允许用户下载和回放以一种或多种文件格式(诸如MP3或AAC文件)存储的所记录的音乐和其他声音文件的可执行指令,以及用于显示、呈现或以其他方式回放视频(例如,在触摸屏212上或在经由外部端口224连接的外部显示器上)的可执行指令。在一些实施方案中,设备200任选地包括MP3播放器诸如iPod(Apple Inc.的商标)的功能。
结合触摸屏212、显示控制器256、接触/运动模块230、图形模块232和文本输入模块234,记事本模块253包括根据用户指令来创建和管理记事本、待办事项等的可执行指令。
结合RF电路208、触摸屏212、显示控制器256、接触/运动模块230、图形模块232、文本输入模块234、GPS模块235和浏览器模块247,地图模块254用于根据用户指令接收、显示、修改和存储地图以及与地图相关联的数据(例如,驾驶方向、与特定位置处或附近的商店及其他兴趣点有关的数据,以及其他基于位置的数据)。
结合触摸屏212、显示控制器256、接触/运动模块230、图形模块232、音频电路210、扬声器211、RF电路208、文本输入模块234、电子邮件客户端模块240和浏览器模块247,在线视频模块255包括允许用户访问、浏览、接收(例如,通过流式传输和/或下载)、回放(例如,在触摸屏上或经由外部端口224在所连接的外部显示器上)、发送具有至特定在线视频的链接的电子邮件,以及以其他方式管理一种或多种文件格式(诸如,H.264)的在线视频的指令。在一些实施方案中,使用即时消息模块241而不是电子邮件客户端模块240来发送特定在线视频的链接。在线视频应用程序的其他描述可见于2007年6月20日提交的名称为“Portable Multifunction Device,Method,and Graphical User Interface forPlaying Online Videos”的美国临时专利申请No.60/936,562和2007年12月31日提交的名称为“Portable Multifunction Device,Method,and Graphical User Interface forPlaying Online Videos”的美国专利申请No.11/968,067,这两个专利申请的内容据此全文以引用方式并入本文。
上述每个模块和应用程序对应于用于执行上述一种或多种功能以及在本专利申请中所述的方法(例如,本文所述的计算机实现的方法和其他信息处理方法)的可执行指令集。这些模块(例如,指令集)不必被实现为独立的软件程序、过程或模块,并因此在各种实施方案中可组合或以其他方式重新布置这些模块的各种子集。例如,视频播放器模块可与音乐播放器模块组合成单个模块(例如,图2A中的视频和音乐播放器模块252)。在一些实施方案中,存储器202存储上述模块和数据结构的子集。此外,存储器202存储上文未描述的附加模块和数据结构。
在一些实施方案中,设备200是该设备上的预定义的一组功能的操作唯一地通过触摸屏和/或触控板来执行的设备。通过使用触摸屏和/或触控板作为用于设备200的操作的主要输入控制设备,减少设备200上的物理输入控制设备(诸如下压按钮、拨盘等)的数量。
唯一地通过触摸屏和/或触控板来执行的预定义的一组功能任选地包括在用户界面之间的导航。在一些实施方案中,触控板在被用户触摸时将设备200从设备200上显示的任何用户界面导航到主菜单、home菜单或根菜单。在此类实施方案中,使用触控板来实现“菜单按钮”。在一些其他实施方案中,菜单按钮是物理下压按钮或者其他物理输入控制设备,而不是触控板。
图2B为示出了根据一些实施方案的用于事件处理的示例性部件的框图。在一些实施方案中,存储器202(图2A)或存储器470(图4)包括事件分类器270(例如,在操作系统226中)以及相应的应用程序236-1(例如,前述应用程序237至251、255、480至490中的任一个应用程序)。
事件分类器270接收事件信息并确定要将事件信息递送到的应用程序236-1和应用程序236-1的应用程序视图291。事件分类器270包括事件监视器271和事件分配器模块274。在一些实施方案中,应用程序236-1包括应用程序内部状态292,该应用程序内部状态指示当应用程序是活动的或正在执行时被显示在触敏显示器212上的一个或多个当前应用程序视图。在一些实施方案中,设备/全局内部状态257被事件分类器270用来确定哪个(哪些)应用程序当前是活动的,并且应用程序内部状态292被事件分类器270用来确定要将事件信息递送到的应用程序视图291。
在一些实施方案中,应用程序内部状态292包括附加信息,诸如以下各项中的一者或多者:当应用程序236-1恢复执行时将被使用的恢复信息、指示信息正被显示或准备好用于被应用程序236-1显示的用户界面状态信息、用于使得用户能够返回到应用程序236-1的前一状态或视图的状态队列,以及用户采取的先前动作的重复/撤销队列。
事件监视器271从外围设备接口218接收事件信息。事件信息包括关于子事件(例如,作为多点触摸手势一部分的触敏显示器212上的用户触摸)的信息。外围设备接口218传输其从I/O子系统206或传感器诸如接近传感器266、一个或多个加速度计268和/或麦克风213(通过音频电路210)接收的信息。外围设备接口218从I/O子系统206接收的信息包括来自触敏显示器212或触敏表面的信息。
在一些实施方案中,事件监视器271以预先确定的间隔将请求发送至外围设备接口218。作为响应,外围设备接口218传输事件信息。在其他实施方案中,外围设备接口218仅当存在显著事件(例如,接收到高于预先确定的噪声阈值的输入和/或接收到超过预先确定的持续时间的输入)时才传输事件信息。
在一些实施方案中,事件分类器270还包括命中视图确定模块272和/或活动事件识别器确定模块273。
当触敏显示器212显示多于一个视图时,命中视图确定模块272提供用于确定子事件已在一个或多个视图内的什么地方发生的软件过程。视图由用户能够在显示器上看到的控件和其他元素构成。
与应用程序相关联的用户界面的另一方面是一组视图,本文中有时也称为应用程序视图或用户界面窗口,在其中显示信息并且发生基于触摸的手势。在其中检测到触摸的(相应应用程序的)应用程序视图对应于应用程序的程序化分级结构或视图分级结构内的程序化水平。例如,在其中检测到触摸的最低水平视图被称为命中视图,并且被认为是正确输入的事件集至少部分地基于初始触摸的命中视图来确定,该初始触摸开始基于触摸的手势。
命中视图确定模块272接收与基于触摸的手势的子事件相关的信息。当应用程序具有以分级结构组织的多个视图时,命中视图确定模块272将命中视图识别为应当对子事件进行处理的分级结构中的最低视图。在大多数情况下,命中视图是发起子事件(例如,形成事件或潜在事件的子事件序列中的第一子事件)在其中发生的最低水平视图。一旦命中视图被命中视图确定模块272识别,命中视图便通常接收与其被识别为命中视图所针对的同一触摸或输入源相关的所有子事件。
活动事件识别器确定模块273确定视图分级结构内的哪个或哪些视图应接收特定子事件序列。在一些实施方案中,活动事件识别器确定模块273确定仅命中视图应接收特定子事件序列。在其他实施方案中,活动事件识别器确定模块273确定包括子事件的物理位置的所有视图是活跃参与的视图,并因此确定所有活跃参与的视图都应接收特定子事件序列。在其他实施方案中,即使触摸子事件完全被局限到与一个特定视图相关联的区域,分级结构中的较高视图将仍然保持为活跃参与的视图。
事件分配器模块274将事件信息分配到事件识别器(例如,事件识别器280)。在包括活动事件识别器确定模块273的实施方案中,事件分配器模块274将事件信息递送到由活动事件识别器确定模块273确定的事件识别器。在一些实施方案中,事件分配器模块274在事件队列中存储事件信息,该事件信息由相应事件接收器282进行检索。
在一些实施方案中,操作系统226包括事件分类器270。另选地,应用程序236-1包括事件分类器270。在又一个实施方案中,事件分类器270是独立模块,或者是存储在存储器202中的另一个模块(诸如,接触/运动模块230)的一部分。
在一些实施方案中,应用程序236-1包括多个事件处理程序290和一个或多个应用程序视图291,其中的每个应用程序视图包括用于处理发生在应用程序的用户界面的相应视图内的触摸事件的指令。应用程序236-1的每个应用程序视图291包括一个或多个事件识别器280。通常,相应应用程序视图291包括多个事件识别器280。在其他实施方案中,事件识别器280中的一个或多个事件识别器是独立模块的一部分,该独立模块为诸如用户界面工具包(未示出)或应用程序236-1从中继承方法和其他属性的较高级别的对象。在一些实施方案中,相应事件处理程序290包括以下各项中的一者或多者:数据更新器276、对象更新器277、GUI更新器278、和/或从事件分类器270接收的事件数据279。事件处理程序290利用或调用数据更新器276、对象更新器277或GUI更新器278来更新应用程序内部状态292。另选地,应用程序视图291中的一个或多个应用程序视图包括一个或多个相应事件处理程序290。另外,在一些实施方案中,数据更新器276、对象更新器277和GUI更新器278中的一者或多者包括在相应应用程序视图291中。
相应的事件识别器280从事件分类器270接收事件信息(例如,事件数据279),并且从事件信息识别事件。事件识别器280包括事件接收器282和事件比较器284。在一些实施方案中,事件识别器280还包括元数据283和事件传递指令288(其包括子事件传递指令)的至少一个子集。
事件接收器282接收来自事件分类器270的事件信息。事件信息包括关于子事件例如触摸或触摸移动的信息。根据子事件,事件信息还包括附加信息,诸如子事件的位置。当子事件涉及触摸的运动时,事件信息还包括子事件的速率和方向。在一些实施方案中,事件包括设备从一个取向旋转到另一取向(例如,从纵向取向旋转到横向取向,或反之亦然),并且事件信息包括关于设备的当前取向(也被称为设备姿态)的对应信息。
事件比较器284将事件信息与预定义的事件或子事件定义进行比较,并且基于该比较,确定事件或子事件,或者确定或更新事件或子事件的状态。在一些实施方案中,事件比较器284包括事件定义286。事件定义286包含事件的定义(例如,预定义的子事件序列),例如事件1(287-1)、事件2(287-2)、以及其他事件。在一些实施方案中,事件(287)中的子事件例如包括触摸开始、触摸结束、触摸移动、触摸取消和多点触摸。在一个示例中,事件1(287-1)的定义是被显示对象上的双击。例如,双击包括被显示对象上的预先确定时长的第一触摸(触摸开始)、预先确定时长的第一抬离(触摸结束)、被显示对象上的预先确定时长的第二触摸(触摸开始)以及预先确定时长的第二抬离(触摸结束)。在另一个示例中,事件2(287-2)的定义是被显示对象上的拖动。例如,拖动包括被显示对象上的预先确定时长的触摸(或接触)、触摸在触敏显示器212上的移动、以及触摸的抬离(触摸结束)。在一些实施方案中,事件还包括用于一个或多个相关联的事件处理程序290的信息。
在一些实施方案中,事件定义287包括对用于相应用户界面对象的事件的定义。在一些实施方案中,事件比较器284执行命中测试以确定哪个用户界面对象与子事件相关联。例如,在触敏显示器212上显示三个用户界面对象的应用程序视图中,当在触敏显示器212上检测到触摸时,事件比较器284执行命中测试以确定这三个用户界面对象中的哪一个用户界面对象与该触摸(子事件)相关联。如果每个所显示对象与相应事件处理程序290相关联,则事件比较器使用该命中测试的结果来确定哪个事件处理程序290应当被激活。例如,事件比较器284选择与子事件和触发该命中测试的对象相关联的事件处理程序。
在一些实施方案中,相应事件(287)的定义还包括延迟动作,该延迟动作延迟事件信息的递送,直到已确定子事件序列确实对应于或不对应于事件识别器的事件类型。
当相应事件识别器280确定子事件序列不与事件定义286中的任何事件匹配时,该相应事件识别器280进入事件不可能、事件失败或事件结束状态,在此之后忽略基于触摸的手势的后续子事件。在这种情况下,对于命中视图保持活动的其他事件识别器(如果有的话)继续跟踪并处理持续进行的基于触摸的手势的子事件。
在一些实施方案中,相应事件识别器280包括具有指示事件递送系统应当如何执行对活跃参与的事件识别器的子事件递送的可配置属性、标记和/或列表的元数据283。在一些实施方案中,元数据283包括指示事件识别器彼此如何交互或如何能够交互的可配置属性、标志和/或列表。在一些实施方案中,元数据283包括指示子事件是否递送到视图或程序化分级结构中的不同层级的可配置属性、标志和/或列表。
在一些实施方案中,当事件的一个或多个特定子事件被识别时,相应事件识别器280激活与事件相关联的事件处理程序290。在一些实施方案中,相应事件识别器280将与事件相关联的事件信息递送到事件处理程序290。激活事件处理程序290不同于将子事件发送(和延期发送)到相应命中视图。在一些实施方案中,事件识别器280抛出与所识别的事件相关联的标记,并且与该标记相关联的事件处理程序290获取该标记并执行预定义过程。
在一些实施方案中,事件递送指令288包括递送关于子事件的事件信息而不激活事件处理程序的子事件递送指令。相反,子事件递送指令将事件信息递送到与子事件序列相关联的事件处理程序或者递送到活跃参与的视图。与子事件序列或与活跃参与的视图相关联的事件处理程序接收事件信息并执行预先确定的过程。
在一些实施方案中,数据更新器276创建并更新在应用程序236-1中使用的数据。例如,数据更新器276对联系人模块237中所使用的电话号码进行更新,或者对视频播放器模块中所使用的视频文件进行存储。在一些实施方案中,对象更新器277创建和更新在应用程序236-1中使用的对象。例如,对象更新器277创建新的用户界面对象或更新用户界面对象的位置。GUI更新器278更新GUI。例如,GUI更新器278准备显示信息,并且将显示信息发送到图形模块232用以显示在触敏显示器上。
在一些实施方案中,事件处理程序290包括数据更新器276、对象更新器277和GUI更新器278或者具有对它们的访问权限。在一些实施方案中,数据更新器276、对象更新器277和GUI更新器278被包括在相应应用程序236-1或应用程序视图291的单个模块中。在其他实施方案中,它们被包括在两个或更多个软件模块中。
应当理解,关于触敏显示器上的用户触摸的事件处理的上述论述还适用于利用输入设备来操作多功能设备200的其他形式的用户输入,并不是所有用户输入都是在触摸屏上发起的。例如,任选地与单次或多次键盘按下或按住协作的鼠标移动和鼠标按钮按下;触控板上的接触移动,诸如轻击、拖动、滚动等;触笔输入;设备的移动;口头指令;检测到的眼睛移动;生物特征输入;和/或它们的任何组合任选地被用作对应于限定要识别的事件的子事件的输入。
图3示出了根据一些实施方案的具有触摸屏212的便携式多功能设备200。触摸屏任选地在用户界面(UI)300内显示一个或多个图形。在本实施方案以及下文所述的其他实施方案中,用户能够通过例如利用一根或多根手指302(在图中未按比例绘制)或一支或多支触笔303(在图中未按比例绘制)在图形上作出手势来选择这些图形中的一个或多个图形。在一些实施方案中,当用户中断与一个或多个图形的接触时,将发生对一个或多个图形的选择。在一些实施方案中,手势任选地包括一次或多次轻击、一次或多次轻扫(从左向右、从右向左、向上和/或向下)和/或已与设备200发生接触的手指的滚动(从右向左、从左向右、向上和/或向下)。在一些具体实施中或在一些情况下,不经意地与图形接触不会选择图形。例如,当与选择对应的手势是轻击时,在应用程序图标之上扫动的轻扫手势任选地不会选择对应的应用程序。
设备200还包括一个或多个物理按钮,诸如“home”或菜单按钮304。如前所述,菜单按钮304用于导航到在设备200上执行的一组应用程序中的任何应用程序236。另选地,在一些实施方案中,菜单按钮被实现为被显示在触摸屏212上的GUI中的软键。
在一些实施方案中,设备200包括触摸屏212、菜单按钮304、用于使设备通电/断电和用于锁定设备的下压按钮306、一个或多个音量调节按钮308、用户身份模块(SIM)卡槽310、耳麦插孔312和对接/充电外部端口224。下压按钮306任选地用于通过压下该按钮并且将该按钮保持在压下状态持续预定义的时间间隔来对设备进行开/关机;通过压下该按钮并在该预定义的时间间隔过去之前释放该按钮来锁定设备;和/或对设备进行解锁或发起解锁过程。在另选实施方案中,设备200还通过麦克风213接受用于激活或去激活某些功能的言语输入。设备200还任选地包括用于检测触摸屏212上的接触的强度的一个或多个接触强度传感器265,和/或用于为设备200的用户生成触觉输出的一个或多个触觉输出发生器267。
图4是根据一些实施方案的具有显示器和触敏表面的示例性多功能设备的框图。设备400不必是便携式的。在一些实施方案中,设备400为膝上型计算机、台式计算机、平板电脑、多媒体播放器设备、导航设备、教育设备(诸如儿童学习玩具)、游戏系统或控制设备(例如,家用控制器或工业用控制器)。设备400通常包括一个或多个处理单元(CPU)410、一个或多个网络或其他通信接口460、存储器470和用于使这些部件互连的一个或多个通信总线420。通信总线420任选地包括使系统部件互连并且控制系统部件之间的通信的电路(有时称作芯片组)。设备400包括具有显示器440的输入/输出(I/O)接口430,该显示器通常是触摸屏显示器。I/O接口430还任选地包括键盘和/或鼠标(或其他指向设备)450和触控板455、用于在设备400上生成触觉输出的触觉输出发生器457(例如,类似于上文参考图2A所述的一个或多个触觉输出发生器267)、传感器459(例如,光学传感器、加速度传感器、接近传感器、触敏传感器和/或接触强度传感器(类似于上文参考图2A所述的一个或多个接触强度传感器265))。存储器470包括高速随机存取存储器,诸如DRAM、SRAM、DDR RAM或其他随机存取固态存储器设备;并且任选地包括非易失性存储器,诸如一个或多个磁盘存储设备、光盘存储设备、闪存存储器设备或其他非易失性固态存储设备。存储器470任选地包括远离CPU 410定位的一个或多个存储设备。在一些实施方案中,存储器470存储与便携式多功能设备200(图2A)的存储器202中存储的程序、模块和数据结构类似的程序、模块和数据结构或其子集。此外,存储器470任选地存储在便携式多功能设备200的存储器202中不存在的附加程序、模块和数据结构。例如,设备400的存储器470任选地存储绘图模块480、呈现模块482、文字处理模块484、网站创建模块486、盘编辑模块488、和/或电子表格模块490,而便携式多功能设备200(图2A)的存储器202任选地不存储这些模块。
图4中的上述元件中的每一者在一些示例中存储在一个或多个先前提到的存储器设备中。上述模块中的每个模块对应于用于执行上述功能的指令集。上述模块或程序(例如,指令集)不必被实现为独立的软件程序、过程或模块,因此这些模块的各种子集在各种实施方案中组合或以其他方式重新布置。在一些实施方案中,存储器470存储上述模块和数据结构的子集。此外,存储器470存储上文未描述的附加模块和数据结构。
现在将注意力转到可在例如便携式多功能设备200上实现的用户界面的实施方案。
图5A示出了根据一些实施方案的便携式多功能设备200上的应用程序菜单的示例性用户界面。类似的用户界面在设备400上实现。在一些实施方案中,用户界面500包括以下元件或者其子集或超集:
一个或多个无线通信诸如蜂窝信号和Wi-Fi信号的一个或多个信号强度指示器502;
·时间504;
·蓝牙指示符505;
·电池状态指示符506;
·具有常用应用程序的图标的托盘508,该图标诸如:
ο电话模块238的被标记为“电话”的图标516,该图标任选地包括未接来电或话音留言的数量的指示符514;
ο电子邮件客户端模块240的被标记为“邮件”的图标518,该图标任选地包括未读电子邮件的数量的指示符510;
ο浏览器模块247的被标记为“浏览器”的图标520;以及
ο视频和音乐播放器模块252(也被称为iPod(Apple Inc.的商标)模块252)的被标记为“iPod”的图标522;以及
·其他应用程序的图标,诸如:
οIM模块241的被标记为“消息”的图标524;
ο日历模块248的被标记为“日历”的图标526;
ο图像管理模块244的被标记为“照片”的图标528;
ο相机模块243的被标记为“相机”的图标530;
ο在线视频模块255的被标记为“在线视频”的图标532;
ο股市桌面小程序249-2的被标记为“股市”的图标534;
ο地图模块254的被标记为“地图”的图标536;
ο天气桌面小程序249-1的被标记为“天气”的图标538;
ο闹钟桌面小程序249-4的被标记为“时钟”的图标540;
ο健身支持模块242的被标记为“健身支持”的图标542;
ο记事本模块253的被标记为“记事本”的图标544;以及
ο用于设置应用程序或模块的被标记为“设置”的图标546,该图标提供对设备200及其各种应用程序236的设置的访问。
应当指出的是,图5A中示出的图标标签仅是示例性的。例如,视频和音乐播放器模块252的图标522任选地被标记为“音乐”或“音乐播放器”。对于各种应用程序图标任选地使用其他标签。在一些实施方案中,相应应用程序图标的标签包括与该相应应用程序图标对应的应用程序的名称。在一些实施方案中,特定应用程序图标的标签不同于与该特定应用程序图标对应的应用程序的名称。
图5B示出了具有与显示器550(例如,触摸屏显示器212)分开的触敏表面551(例如,图4的平板或触控板455)的设备(例如,图4的设备400)上的示例性用户界面。设备400还任选地包括用于检测触敏表面551上的接触的强度的一个或多个接触强度传感器(例如,传感器457中的一个或多个传感器)和/或用于为设备400的用户生成触觉输出的一个或多个触觉输出发生器459。
尽管将参考触摸屏显示器212(其中组合了触敏表面和显示器)上的输入给出随后的示例中的一些示例,但是在一些实施方案中,设备检测与显示器分开的触敏表面上的输入,如图5B中所示。在一些实施方案中,触敏表面(例如,图5B中的551)具有与显示器(例如,550)上的主轴(例如,图5B中的553)对应的主轴(例如,图5B中的552)。根据这些实施方案,设备检测在与显示器上的相应位置对应的位置(例如,在图5B中,560对应于568并且562对应于570)处的与触敏表面551的接触(例如,图5B中的560和562)。这样,在触敏表面(例如,图5B中的551)与多功能设备的显示器(例如,图5B中的550)分开时,由设备在触敏表面上检测到的用户输入(例如,接触560和562以及它们的移动)被该设备用于操纵显示器上的用户界面。应当理解,类似的方法任选地用于本文所述的其他用户界面。
另外,虽然主要是参考手指输入(例如,手指接触、单指轻击手势、手指轻扫手势)来给出下面的示例,但是应当理解的是,在一些实施方案中,这些手指输入中的一个或多个手指输入由来自另一输入设备的输入(例如,基于鼠标的输入或触笔输入)替代。例如,轻扫手势任选地由鼠标点击(例如,而不是接触),之后是光标沿着轻扫的路径的移动(例如,而不是接触的移动)替代。又如,轻击手势任选地由在光标位于轻击手势的位置之上时的鼠标点击(例如,代替对接触的检测,之后是停止检测接触)替代。类似地,当同时检测到多个用户输入时,应当理解的是,多个计算机鼠标任选地被同时使用,或鼠标和手指接触任选地被同时使用。
图6A示出了示例性个人电子设备600。设备600包括主体602。在一些实施方案中,设备600包括相对于设备200和400(例如,图2A至图4)所述的特征中的一些或全部特征。在一些实施方案中,设备600具有在下文中称为触摸屏604的触敏显示屏604。作为触摸屏604的替代或补充,设备600具有显示器和触敏表面。与设备200和400的情况一样,在一些实施方案中,触摸屏604(或触敏表面)具有用于检测正在施加的接触(例如,触摸)的强度的一个或多个强度传感器。触摸屏604(或触敏表面)的一个或多个强度传感器提供表示触摸的强度的输出数据。设备600的用户界面基于触摸强度来对触摸作出响应,这意味着不同强度的触摸可调用设备600上的不同的用户界面操作。
用于检测和处理触摸强度的技术可例如存在于相关申请中:2013年5月8日提交的名称为“Device,Method,and Graphical User Interface for Displaying UserInterface Objects Corresponding to an Application”的国际专利申请PCT/US2013/040061,以及2013年11月11日提交的名称为“Device,Method,and Graphical UserInterface for Transitioning Between Touch Input to Display OutputRelationships”的国际专利申请PCT/US2013/069483,这两个专利申请中的每个专利申请据此全文以引用方式并入本文。
在一些实施方案中,设备600具有一个或多个输入机构606和608。输入机构606和608(如果包括的话)是物理形式的。物理输入机构的示例包括下压按钮和可旋转机构。在一些实施方案中,设备600具有一个或多个附接机构。此类附接机构(如果包括的话)可允许将设备600与例如帽子、眼镜、耳环、项链、衬衣、夹克、手镯、表带、手链、裤子、皮带、鞋子、钱包、背包等附接。这些附接机构允许用户穿戴设备600。
图6B示出了示例性个人电子设备600。在一些实施方案中,设备600包括相对于图2A、图2B和图4所述的部件中的一些或全部部件。设备600具有总线612,该总线将I/O部分614与一个或多个计算机处理器616和存储器618操作性地耦接。I/O部分614被连接到显示器604,该显示器可具有触敏部件622,并且任选地还具有触摸强度敏感部件624。此外,I/O部分614与通信单元630连接,以用于使用Wi-Fi、蓝牙、近场通信(NFC)、蜂窝和/或其他无线通信技术来接收应用程序和操作系统数据。设备600包括输入机构606和/或608。例如,输入机构606是可旋转输入设备或者可按压输入设备以及可旋转输入设备。在一些示例中,输入机构608是按钮。
在一些示例中,输入机构608是麦克风。个人电子设备600包括例如各种传感器,诸如GPS传感器632、加速度计634、定向传感器640(例如,罗盘)、陀螺仪636、运动传感器638和/或它们的组合,所有这些设备均可操作地连接到I/O部分614。
个人电子设备600的存储器618是用于存储计算机可执行指令的非暂态计算机可读存储介质,该指令当由一个或多个计算机处理器616执行时例如使得计算机处理器执行上述技术和过程。该计算机可执行指令也例如在任何非暂态计算机可读存储介质内进行存储和/或传送,以供指令执行系统、装置或设备诸如基于计算机的系统、包含处理器的系统或可从指令执行系统、装置或设备获取指令并执行指令的其他系统使用或与其结合。个人电子设备600不限于图6B的部件和配置,而是可包括多种配置中的其他部件或附加部件。
如本文所用,术语“示能表示”是指例如在设备200、400、600、800、900、902或904(图2A、图4、图6A至图6B、图8A至图8CT、图9A至图9C、图10A至图10V、图12、图14、图15和图16)的显示屏上显示的用户交互式图形用户界面对象。例如,图像(例如,图标)、按钮和文本(例如,超链接)各自构成示能表示。
如本文所用,术语“焦点选择器”是指用于指示用户正与之进行交互的用户界面的当前部分的输入元件。在包括光标或其他位置标记的一些具体实施中,光标充当“焦点选择器”,使得当光标在特定用户界面元素(例如,按钮、窗口、滑块或其他用户界面元素)之上时在触敏表面(例如,图4中的触控板455或图5B中的触敏表面551)上检测到输入(例如,按压输入)的情况下,该特定用户界面元素根据所检测到的输入而被调节。在包括能够实现与触摸屏显示器上的用户界面元素的直接交互的触摸屏显示器(例如,图2A中的触敏显示器系统212或图5A中的触摸屏212)的一些具体实施中,在触摸屏上所检测到的接触充当“焦点选择器”,使得当在触摸屏显示器上在特定用户界面元素(例如,按钮、窗口、滑块或其他用户界面元素)的位置处检测到输入(例如,由接触进行的按压输入)时,该特定用户界面元素根据所检测到的输入而被调节。在一些具体实施中,焦点从用户界面的一个区域移动到用户界面的另一个区域,而无需光标的对应移动或触摸屏显示器上的接触的移动(例如,通过使用制表键或箭头键将焦点从一个按钮移动到另一个按钮);在这些具体实施中,焦点选择器根据焦点在用户界面的不同区域之间的移动而移动。不考虑焦点选择器所采取的具体形式,焦点选择器通常是由用户控制的以便递送与用户界面的用户预期的交互(例如,通过向设备指示用户界面的用户期望与其进行交互的元素)的用户界面元素(或触摸屏显示器上的接触)。例如,在触敏表面(例如,触控板或触摸屏)上检测到按压输入时,焦点选择器(例如,光标、接触或选择框)在相应按钮之上的位置将指示用户期望激活相应按钮(而不是设备显示器上示出的其他用户界面元素)。
如说明书和权利要求中所使用的,接触的“特征强度”这一术语是指基于接触的一个或多个强度的接触的特征。在一些实施方案中,特征强度基于多个强度样本。特征强度任选地基于相对于预定义事件(例如,在检测到接触之后,在检测到接触抬离之前,在检测到接触开始移动之前或之后,在检测到接触结束之前,在检测到接触的强度增大之前或之后和/或在检测到接触的强度减小之前或之后)而言在预先确定的时间段(例如,0.05秒、0.1秒、0.2秒、0.5秒、1秒、2秒、5秒、10秒)期间采集的预定义数量的强度样本或一组强度样本。接触的特征强度任选地基于以下各项中的一者或多者:接触强度的最大值、接触强度的均值、接触强度的平均值、接触强度的前10%处的值、接触强度的半最大值、接触强度的90%最大值等。在一些实施方案中,在确定特征强度时使用接触的持续时间(例如,在特征强度是接触的强度在时间上的平均值时)。在一些实施方案中,将特征强度与一组一个或多个强度阈值进行比较,以确定用户是否已执行操作。例如,该组一个或多个强度阈值包括第一强度阈值和第二强度阈值。在该示例中,特征强度未超过第一阈值的接触导致第一操作,特征强度超过第一强度阈值但未超过第二强度阈值的接触导致第二操作,而特征强度超过第二阈值的接触导致第三操作。在一些实施方案中,使用特征强度与一个或多个阈值之间的比较来确定是否要执行一个或多个操作(例如,是执行相应操作还是放弃执行相应操作),而不是用于确定执行第一操作还是第二操作。
在一些实施方案中,识别手势的一部分以用于确定特征强度。例如,触敏表面接收连续的轻扫接触,该连续的轻扫接触从起始位置过渡并到达结束位置,在该结束位置处,接触的强度增加。在该示例中,接触在结束位置处的特征强度仅基于连续轻扫接触的一部分,而不是整个轻扫接触(例如,轻扫接触仅位于结束位置处的部分)。在一些实施方案中,在确定接触的特征强度之前向轻扫接触的强度应用平滑化算法。例如,平滑化算法任选地包括以下各项中的一种或多种:不加权滑动平均平滑化算法、三角平滑化算法、中值滤波器平滑化算法和/或指数平滑化算法。在一些情况下,这些平滑化算法消除了轻扫接触的强度中的窄的尖峰或凹陷,以实现确定特征强度的目的。
相对于一个或多个强度阈值诸如接触检测强度阈值、轻按压强度阈值、深按压强度阈值和/或一个或多个其他强度阈值来表征触敏表面上的接触的强度。在一些实施方案中,轻按压强度阈值对应于这样的强度:在该强度下设备将执行通常与点击物理鼠标或触控板的按钮相关联的操作。在一些实施方案中,深按压强度阈值对应于这样的强度:在该强度下设备将执行与通常与点击物理鼠标或触控板的按钮相关联的操作不同的操作。在一些实施方案中,当检测到特征强度低于轻按压强度阈值(例如,并且高于标称接触检测强度阈值,比标称接触检测强度阈值低的接触不再被检测到)的接触时,设备将根据接触在触敏表面上的移动来移动焦点选择器,而不执行与轻按压强度阈值或深按压强度阈值相关联的操作。一般来讲,除非另有陈述,否则这些强度阈值在不同组的用户界面附图之间是一致的。
接触特征强度从低于轻按压强度阈值的强度增大到介于轻按压强度阈值与深按压强度阈值之间的强度有时被称为“轻按压”输入。接触特征强度从低于深按压强度阈值的强度增大到高于深按压强度阈值的强度有时被称为“深按压”输入。接触特征强度从低于接触检测强度阈值的强度增大到介于接触检测强度阈值与轻按压强度阈值之间的强度有时被称为检测到触摸表面上的接触。接触特征强度从高于接触检测强度阈值的强度减小到低于接触检测强度阈值的强度有时被称为检测到接触从触摸表面抬离。在一些实施方案中,接触检测强度阈值为零。在一些实施方案中,接触检测强度阈值大于零。
在本文中所述的一些实施方案中,响应于检测到包括相应按压输入的手势或响应于检测到利用相应接触(或多个接触)执行的相应按压输入来执行一个或多个操作,其中至少部分地基于检测到该接触(或多个接触)的强度增大到高于按压输入强度阈值而检测到相应按压输入。在一些实施方案中,响应于检测到相应接触的强度增大到高于按压输入强度阈值(例如,相应按压输入的“向下冲程”)来执行相应操作。在一些实施方案中,按压输入包括相应接触的强度增大到高于按压输入强度阈值以及该接触的强度随后减小到低于按压输入强度阈值,并且响应于检测到相应接触的强度随后减小到低于按压输入阈值(例如,相应按压输入的“向上冲程”)来执行相应操作。
在一些实施方案中,设备采用强度滞后以避免有时被称为“抖动”的意外输入,其中设备限定或选择与按压输入强度阈值具有预定义关系的滞后强度阈值(例如,滞后强度阈值比按压输入强度阈值低X个强度单位,或滞后强度阈值是按压输入强度阈值的75%、90%或某个合理比例)。因此,在一些实施方案中,按压输入包括相应接触的强度增大到高于按压输入强度阈值以及该接触的强度随后减小到低于对应于按压输入强度阈值的滞后强度阈值,并且响应于检测到相应接触的强度随后减小到低于滞后强度阈值(例如,相应按压输入的“向上冲程”)来执行相应操作。类似地,在一些实施方案中,仅在设备检测到接触强度从等于或低于滞后强度阈值的强度增大到等于或高于按压输入强度阈值的强度并且任选地接触强度随后减小到等于或低于滞后强度的强度时才检测到按压输入,并且响应于检测到按压输入(例如,根据环境,接触强度增大或接触强度减小)来执行相应操作。
为了容易解释,任选地,响应于检测到以下各种情况中的任一种情况而触发对响应于与按压输入强度阈值相关联的按压输入或响应于包括按压输入的手势而执行的操作的描述:接触强度增大到高于按压输入强度阈值、接触强度从低于滞后强度阈值的强度增大到高于按压输入强度阈值的强度、接触强度减小到低于按压输入强度阈值、和/或接触强度减小到低于与按压输入强度阈值对应的滞后强度阈值。另外,在将操作描述为响应于检测到接触的强度减小到低于按压输入强度阈值而执行的示例中,任选地响应于检测到接触的强度减小到低于对应于并且小于按压输入强度阈值的滞后强度阈值来执行操作。
3.数字助理系统
图7A示出了根据各种示例的数字助理系统700的框图。在一些示例中,数字助理系统700在独立式计算机系统上实现。在一些示例中,数字助理系统700跨多个计算机分布。在一些示例中,数字助理的模块和功能中的一些模块和功能被划分成服务器部分和客户端部分,其中客户端部分位于一个或多个用户设备(例如,设备104、122、200、400、600、800、900、902或904)上并通过一个或多个网络来与服务器部分(例如,服务器系统108)进行通信,例如,如图1所示。在一些示例中,数字助理系统700是图1中所示的服务器系统108(和/或DA服务器106)的具体实施。应当指出,数字助理系统700仅为数字助理系统的一个示例,且该数字助理系统700具有比所示更多或更少的部件、组合两个或更多个部件,或者可具有部件的不同配置或布局。图7A中所示的各种部件在硬件、用于在由一个或多个处理器执行的软件指令、固件(包括一个或多个信号处理集成电路和/或专用集成电路),或它们的组合中实现。
数字助理系统700包括存储器702、输入/输出(I/O)接口706、网络通信接口708,以及一个或多个处理器704。这些部件可通过一条或多条通信总线或信号线710彼此通信。
在一些示例中,存储器702包括非暂态计算机可读介质,诸如高速随机存取存储器和/或非易失性计算机可读存储介质(例如,一个或多个磁盘存储设备、闪存存储器设备或其他非易失性固态存储器设备)。
在一些示例中,I/O接口706将数字助理系统700的输入/输出设备716诸如显示器、键盘、触摸屏和麦克风耦接至用户界面模块722。I/O接口706与用户界面模块722一起接收用户输入(例如,话音输入、键盘输入、触摸输入等)并相应地对这些输入进行处理。在一些示例中,例如,当数字助理在独立式用户设备上实现时,数字助理系统700包括相对于图2A、图4、图6A至图6B、图8A至图8CT、图9A至图9C、图10A至图10V、图12、图14、图15和图16中的设备200、400、600、800、900、902或904所述的部件和I/O通信接口中的任一者。在一些示例中,数字助理系统700表示数字助理具体实施的服务器部分,并且可通过位于用户设备(例如,设备104、200、400、600、800、900、902或904)上的客户端侧部分来与用户进行交互。
在一些示例中,网络通信接口708包括一个或多个有线通信端口712和/或无线传输和接收电路714。有线通信端口经由一个或多个有线接口例如以太网、通用串行总线(USB)、FIREWIRE等接收和发送通信信号。无线电路714从通信网络及其他通信设备接收RF信号和/或光学信号以及将RF信号和/或光学信号发送至通信网络及其他通信设备。无线通信使用多种通信标准、协议和技术中的任一种,诸如GSM、EDGE、CDMA、TDMA、蓝牙、Wi-Fi、VoIP、Wi-MAX、或任何其他合适的通信协议。网络通信接口708使数字助理系统700通过网络,诸如互联网、内联网和/或无线网络诸如蜂窝电话网络、无线局域网(LAN)和/或城域网(MAN),与其他设备之间的通信成为可能。
在一些示例中,存储器702或存储器702的计算机可读存储介质存储程序、模块、指令和数据结构,包括以下内容中的全部或其子集:操作系统718、通信模块720、用户界面模块722、一个或多个应用程序724和数字助理模块726。具体地,存储器702或存储器702的计算机可读存储介质存储用于执行上述过程的指令。一个或多个处理器704执行这些程序、模块和指令,并从数据结构读取数据或将数据写到数据结构。
操作系统718(例如,Darwin、RTXC、LINUX、UNIX、iOS、OSX、WINDOWS、或嵌入式操作系统诸如VxWorks)包括用于控制和管理一般系统任务(例如,存储器管理、存储设备控制、电源管理等)的各种软件组件和/或驱动器,并且有利于各种硬件、固件和软件组件之间的通信。
通信模块720有利于数字助理系统700与其他设备之间通过网络通信接口708进行的通信。例如,通信模块720与电子设备(诸如分别在图2A、图4、图6A至图6B中所示的设备200、400或600)的RF电路208通信。通信模块720还包括各种部件,用于处理由无线电路714和/或有线通信端口712所接收的数据。
用户界面模块722经由I/O接口706接收来自用户(例如,来自键盘、触摸屏、指向设备、控制器和/或麦克风)的命令和/或输入,并在显示器上生成用户界面对象。用户界面模块722还准备输出(例如,语音、声音、动画、文本、图标、振动、触觉反馈、光照等)并将其经由I/O接口706(例如,通过显示器、音频通道、扬声器、触控板等)传送给用户。
应用程序724包括被配置为由所述一个或多个处理器704执行的程序和/或模块。例如,如果数字助理系统在独立式用户设备上实施,则应用程序724包括用户应用程序,诸如游戏、日历应用程序、导航应用程序或邮件应用程序。如果数字助理系统700在服务器上实现,则应用程序724包括例如资源管理应用程序、诊断应用程序、或调度应用程序。
存储器702还存储数字助理模块726(或数字助理的服务器部分)。在一些示例中,数字助理模块726包括以下子模块或者其子集或超集:输入/输出处理模块728、语音转文本(STT)处理模块730、自然语言处理模块732、对话流处理模块734、任务流处理模块736、服务处理模块738和语音合成处理模块740。这些模块中的每一者均具有对以下数字助理模块726的系统或数据与模型中的一者或多者或者其子集或超集的访问权限:知识本体760、词汇索引744、用户数据748、任务流模型754、服务模型756和ASR系统758。
在一些示例中,使用在数字助理模块726中实现的处理模块、数据和模型,数字助理可执行以下中的至少一些:将语音输入转换成文本;识别在从用户接收的自然语言输入中表达的用户意图;主动引出并获得完全推断用户意图所需的信息(例如,通过消除字词、游戏、意图等的歧义);确定用于满足推断出的意图的任务流;以及执行该任务流以满足推断出的意图。
在一些示例中,如图7B中所示,I/O处理模块728可通过图7A中的I/O设备716与用户交互或通过图7A中的网络通信接口708与用户设备(例如,设备104、200、400、600或800)交互,以获取用户输入(例如,语音输入)并提供对用户输入的响应(例如,作为语音输出)。I/O处理模块728随同接收到用户输入一起或在接收到用户输入之后不久任选地获得与来自用户设备的用户输入相关联的上下文信息。上下文信息包括特定于用户的数据、词汇,和/或与用户输入相关的偏好。在一些示例中,该上下文信息还包括在接收到用户请求时的用户设备的软件状态和硬件状态,和/或在接收到用户请求时与用户的周围环境相关的信息。在一些示例中,I/O处理模块728还向用户发送与用户请求有关的跟进问题,并从用户接收回答。在用户请求被I/O处理模块728接收且用户请求包括语音输入时,I/O处理模块728将语音输入转发至STT处理模块730(或语音识别器)以进行语音文本转换。
STT处理模块730包括一个或多个ASR系统758。该一个或多个ASR系统758可处理通过I/O处理模块728接收到的语音输入,以产生识别结果。每个ASR系统758包括前端语音预处理器。前端语音预处理器从语音输入中提取代表性特征。例如,前端语音预处理器对语音输入执行傅里叶变换,以提取表征语音输入的频谱特征作为代表性多维向量的序列。另外,每个ASR系统758包括一个或多个语音识别模型(例如,声学模型和/或语言模型)并且实现一个或多个语音识别引擎。语音识别模型的示例包括隐马尔可夫模型、高斯混合模型、深层神经网络模型、n元语法语言模型以及其他统计模型。语音识别引擎的示例包括基于动态时间规整的引擎和基于加权有限状态变换器(WFST)的引擎。使用一个或多个语音识别模型和一个或多个语音识别引擎来处理前端语音预处理器的所提取的代表性特征以产生中间识别结果(例如,音素、音素串和子字词),并且最终产生文本识别结果(例如,字词、字词串、或符号序列)。在一些示例中,语音输入至少部分地由第三方服务处理或在用户的设备(例如,设备104、200、400、600或800)上处理,以产生识别结果。一旦STT处理模块730产生包含文本串(例如,字词,或字词的序列,或符号序列)的识别结果,识别结果即被传送至自然语言处理模块732以供意图推断。在一些示例中,STT处理模块730产生语音输入的多个候选文本表示。每个候选文本表示是与语音输入对应的字词或符号的序列。在一些示例中,每个候选文本表示与语音识别置信度得分相关联。基于语音识别置信度得分,STT处理模块730对候选文本表示进行排名并将n个最佳(例如,n个排名最高)候选文本表示提供给自然语言处理模块732以供意图推断,其中n为大于零的预先确定的整数。例如,在一个示例中,仅将排名最高的(n=1)候选文本表示递送至自然语言处理模块732以供意图推断。又如,将5个排名最高的(n=5)候选文本表示传递给自然语言处理模块732以供意图推断。
有关语音转文本处理的更多细节在提交于2011年9月20日的名为“ConsolidatingSpeech Recognition Results”的美国实用新型专利申请序列号13/236,942中有所描述,其全部公开内容以引用方式并入本文。
在一些示例中,STT处理模块730包括可识别字词的词汇和/或经由语音字母转换模块731访问该词汇。每个词汇字词与语音识别语音字母表中表示的字词的一个或多个候选发音相关联。具体地,可识别字词的词汇包括与多个候选发音相关联的字词。例如,该词汇包括与
Figure BDA0002687356270000461
Figure BDA0002687356270000462
的候选发音相关联的字词“tomato”。另外,词汇字词与基于来自用户的先前语音输入的自定义候选发音相关联。此类自定义候选发音存储在STT处理模块730中,并且经由设备上的用户配置文件与特定用户相关联。在一些示例中,字词的候选发音基于字词的拼写以及一个或多个语言学和/或语音学规则确定。在一些示例中,候选发音手动生成,例如,基于已知的标准发音而手动生成。
在一些示例中,基于候选发音的普遍性来对候选发音进行排名。例如,候选发音
Figure BDA0002687356270000471
的排名高于
Figure BDA0002687356270000472
因为前者是更常用的发音(例如,在所有用户中,对于特定地理区域的用户而言,或者对于任何其他合适的用户子集而言)。在一些示例中,基于候选发音是否为与用户相关联的自定义候选发音来对候选发音进行排名。例如,自定义候选发音的排名高于标准候选发音。这可用于识别具有偏离规范发音的独特发音的专有名词。在一些示例中,候选发音与一个或多个语音特征诸如地理起源、国家或种族相关联。例如,候选发音
Figure BDA0002687356270000473
与美国相关联,而候选发音
Figure BDA0002687356270000474
与英国相关联。此外,候选发音的排名基于存储在设备上的用户配置文件中的用户的一个或多个特征(例如,地理起源、国家、种族等)。例如,可从用户配置文件确定该用户与美国相关联。基于用户与美国相关联,候选发音
Figure BDA0002687356270000475
(与美国相关联)可比候选发音
Figure BDA0002687356270000476
(与英国相关联)排名更高。在一些示例中,经排名的候选发音中的一个可被选作预测发音(例如,最可能的发音)。
接收到语音输入时,STT处理模块730被用来(例如,使用声音模型)确定对应于该语音输入的音素,然后尝试(例如,使用语言模型)确定匹配该音素的字词。例如,如果STT处理模块730首先识别对应于该语音输入的一部分的音素序列
Figure BDA0002687356270000477
那么它随后可基于词汇索引744确定该序列对应于字词“tomato”。
在一些示例中,STT处理模块730使用模糊匹配技术来确定话语中的字词。因此,例如,STT处理模块730确定音素序列
Figure BDA0002687356270000478
对应于字词“tomato”,即使该特定音素序列不是该字词的候选音素序列。
数字助理的自然语言处理模块732(“自然语言处理器”)获取由STT处理模块730生成的n个最佳候选文字表示(“字词序列”或“符号序列”),并尝试将每个候选文本表示与由数字助理所识别的一个或多个“可执行意图”相关联。“可执行意图”(或“用户意图”)表示可由数字助理执行并且可具有在任务流模型754中实现的相关联的任务流的任务。相关联的任务流是数字助理为了执行任务而采取的一系列经编程的动作和步骤。数字助理的能力范围取决于已在任务流模型754中实现并存储的任务流的数量和种类,或换言之,取决于数字助理所识别的“可执行意图”的数量和种类。然而,数字助理的有效性还取决于助理从以自然语言表达的用户请求中推断出正确的“一个或多个可执行意图”的能力。
在一些示例中,除从STT处理模块730获取的字词或符号的序列之外,自然语言处理模块732还例如,从I/O处理模块728接收与用户请求相关联的上下文信息。自然语言处理模块732任选地使用上下文信息来明确、补充和/或进一步限定在从STT处理模块730接收的候选文本表示中包含的信息。上下文信息包括例如用户偏好,用户设备的硬件和/或软件状态,在用户请求之前、期间或之后不久收集的传感器信息,数字助理与用户之间的先前交互(例如,对话),等等。如本文所述,在一些示例中,上下文信息是动态的,并且随对话的时间、位置、内容、以及其他因素而变化。
在一些示例中,自然语言处理基于例如知识本体760。知识本体760为包含许多节点的分级结构,每个节点表示“可执行意图”或与“可执行意图”或其他“属性”中的一者或多者相关的“属性”。如上所述,“可执行意图”表示数字助理能够执行的任务,即,该任务为“可执行的”或可被进行的。“属性”代表与可执行意图或另一属性的子方面相关联的参数。知识本体760中可执行意图节点与属性节点之间的连接限定由属性节点表示的参数如何从属于由可执行意图节点表示的任务。
在一些示例中,知识本体760由可执行意图节点和属性节点组成。在知识本体760内,每个可执行意图节点直接连接至或通过一个或多个中间属性节点连接至一个或多个属性节点。类似地,每个属性节点直接连接至或通过一个或多个中间属性节点连接至一个或多个可执行意图节点。例如,如图7C所示,知识本体760包括“餐厅预订”节点(即,可执行意图节点)。属性节点“餐厅”、“日期/时间”(针对预订)和“派对人数”均直接连接至可执行意图节点(即,“餐厅预订”节点)。
此外,属性节点“菜系”、“价格区间”、“电话号码”和“位置”是属性节点“餐厅”的子节点,并且均通过中间属性节点“餐厅”连接至“餐厅预订”节点(即,可执行意图节点)。又如,如图7C所示,知识本体760还包括“设定提醒”节点(即,另一个可执行意图节点)。属性节点“日期/时间”(针对设定提醒)和“主题”(针对提醒)均连接至“设定提醒”节点。由于属性“日期/时间”与进行餐厅预订的任务和设定提醒的任务二者相关,因此属性节点“日期/时间”连接至知识本体760中的“餐厅预订”节点和“设定提醒”节点二者。
可执行意图节点连同其链接的属性节点一起,被描述为“域”。在本讨论中,每个域与相应的可执行意图相关联,并是指与特定可执行意图相关联的一组节点(以及这些节点之间的关系)。例如,图7C中示出的知识本体760包括在知识本体760内的餐厅预订域762的示例和提醒域764的示例。餐厅预订域包括可执行意图节点“餐厅预订”、属性节点“餐厅”、“日期/时间”和“派对人数”以及子属性节点“菜系”、“价格范围”、“电话号码”和“位置”。提醒域764包括可执行意图节点“设定提醒”和属性节点“主题”和“日期/时间”。在一些示例中,知识本体760由多个域组成。每个域与一个或多个其他域共享一个或多个属性节点。例如,除了餐厅预订域762和提醒域764之外,“日期/时间”属性节点还与许多不同域(例如,行程安排域、旅行预订域、电影票域等)相关联。
尽管图7C示出知识本体760内的两个示例性域,但其他域包括例如“查找电影”、“发起电话呼叫”、“查找方向”、“安排会议”、“发送消息”以及“提供问题的回答”、“阅读列表”、“提供导航指令”、“提供针对任务的指令”等。“发送消息”域与“发送消息”可执行意图节点相关联,并且进一步包括属性节点诸如“一个或多个接收人”、“消息类型”和“消息正文”。属性节点“接收人”进一步例如由子属性节点诸如“接收人姓名”和“消息地址”来限定。
在一些示例中,知识本体760包括数字助理能够理解并对其起作用的所有域(以及因而可执行意图)。在一些示例中,知识本体760诸如通过添加或移除整个域或节点,或者通过修改知识本体760内的节点之间的关系进行修改。
在一些示例中,将与多个相关可执行意图相关联的节点群集在知识本体760中的“超级域”下。例如,“旅行”超级域包括与旅行相关的属性节点和可执行意图节点的群集。与旅行相关的可执行意图节点包括“机票预订”、“酒店预订”、“汽车租赁”、“路线规划”、“寻找感兴趣的点”,等等。同一超级域(例如,“旅行”超级域)下的可执行意图节点具有多个共用的属性节点。例如,针对“机票预订”、“酒店预订”、“汽车租赁”、“获取路线”和“寻找兴趣点”的可执行意图节点共享属性节点“起始位置”、“目的地”、“出发日期/时间”、“到达日期/时间”和“派对人数”中的一者或多者。
在一些示例中,知识本体760中的每个节点与跟由节点代表的属性或可执行意图有关的一组字词和/或短语相关联。与每个节点相关联的相应的一组字词和/或短语是所谓的与节点相关联的“词汇”。将与每个节点相关联的相应的一组字词和/或短语存储在与由节点所代表的属性或可执行意图相关联的词汇索引744中。例如,返回图7B,与“餐厅”属性的节点相关联的词汇包括字词诸如“美食”、“酒水”、“菜系”、“饥饿”、“吃”、“披萨”、“快餐”、“膳食”等。又如,与“发起电话呼叫”可执行意图的节点相关联的词汇包括字词和短语诸如“呼叫”、“打电话”、“拨打”、“与……通电话”、“呼叫该号码”、“打电话给”等。词汇索引744任选地包括不同语言的字词和短语。
自然语言处理模块732接收来自STT处理模块730的候选文本表示(例如,一个或多个文本串或一个或多个符号序列),并针对每个候选表示,确定候选文本表示中的字词涉及哪些节点。在一些示例中,如果发现候选文本表示中的字词或短语(经由词汇索引744)与知识本体760中的一个或多个节点相关联,则所述字词或短语“触发”或“激活”那些节点。基于已激活节点的数量和/或相对重要性,自然语言处理模块732选择可执行意图中的一个可执行意图作为用户打算使数字助理执行的任务。在一些示例中,选择具有最多“已触发”节点的域。在一些示例中,选择具有最高置信度(例如,基于其各个已触发节点的相对重要性)的域。在一些示例中,基于已触发节点的数量和重要性的组合来选择域。在一些示例中,在选择节点的过程中还考虑附加因素,诸如数字助理先前是否已正确解译来自用户的类似请求。
用户数据748包括特定于用户的信息,诸如特定于用户的词汇、用户偏好、用户地址、用户的默认第二语言、用户的联系人列表,以及每位用户的其他短期或长期信息。在一些示例中,自然语言处理模块732使用特定于用户的信息来补充用户输入中所包含的信息以进一步限定用户意图。例如,针对用户请求“邀请我的朋友参加我的生日派对”,自然语言处理模块732能够访问用户数据748以确定“朋友”是哪些人以及“生日派对”将于何时何地举行,而不需要用户在其请求中明确地提供此类信息。
应认识到,在一些示例中,利用一个或多个机器学习机构(例如,神经网络)来实现自然语言处理模块732。具体地,一个或多个机器学习机构被配置为接收候选文本表示和与候选文本表示相关联的上下文信息。基于候选文本表示和相关联的上下文信息,一个或多个机器学习机构被配置为基于一组候选可执行意图确定意图置信度得分。自然语言处理模块732可基于所确定的意图置信度得分从一组候选可执行意图中选择一个或多个候选可执行意图。在一些示例中,还利用知识本体(例如,知识本体760)从一组候选可执行意图中选择一个或多个候选可执行意图。
基于符号串搜索知识本体的其他细节在提交于2008年12月22日的名为“Methodand Apparatus for Searching Using An Active Ontology”的美国实用新型专利申请序列号12/341,743中有所描述,其全部公开内容以引用方式并入本文。
在一些示例中,一旦自然语言处理模块732基于用户请求识别出可执行意图(或域),自然语言处理模块732便生成结构化查询以表示所识别的可执行意图。在一些示例中,结构化查询包括针对可执行意图的域内的一个或多个节点的参数,并且所述参数中的至少一些参数填充有用户请求中指定的特定信息和要求。例如,用户说“帮我在寿司店预订晚上7点的座位。”在这种情况下,自然语言处理模块732能够基于用户输入将可执行意图正确地识别为“餐厅预订”。根据知识本体,“餐厅预订”域的结构化查询包括参数诸如{菜系}、{时间}、{日期}、{派对人数}等。在一些示例中,基于语音输入和使用STT处理模块730从语音输入得出的文本,自然语言处理模块732针对餐厅预订域生成部分结构化查询,其中部分结构化查询包括参数{菜系=“寿司类”}以及{时间=“晚上7点”}。然而,在该示例中,用户话语包含不足以完成与域相关联的结构化查询的信息。因此,基于当前可用信息,在结构化查询中未指定其他必要参数诸如{派对人数}和{日期}。在一些示例中,自然语言处理模块732用所接收的上下文信息来填充结构化查询的一些参数。例如,在一些示例中,如果用户请求“附近的”寿司店,自然语言处理模块732用来自用户设备的GPS坐标来填充结构化查询中的{位置}参数。
在一些示例中,自然语言处理模块732识别针对从STT处理模块730所接收的每个候选文本表示的多个候选可执行意图。另外,在一些示例中,针对每个所识别的候选可执行意图生成相应的结构化查询(部分地或全部地)。自然语言处理模块732确定针对每个候选可执行意图的意图置信度得分,并基于意图置信度得分对候选可执行意图进行排名。在一些示例中,自然语言处理模块732将所生成的一个或多个结构化查询(包括任何已完成的参数)传送至任务流处理模块736(“任务流处理器”)。在一些示例中,针对m个最佳(例如,m个排名最高的)候选可执行意图的一个或多个结构化查询被提供给任务流处理模块736,其中m为预先确定的大于零的整数。在一些示例中,将针对m个最佳候选可执行意图的一个或多个结构化查询连同对应的一个或多个候选文本表示提供给任务流处理模块736。
基于根据语音输入的多个候选文本表示所确定的多个候选可执行意图推断用户意图的其他细节在2014年6月6日提交的名称为“System and Method for Inferring UserIntent From Speech Inputs”的美国实用新型专利申请14/298,725中有所描述,其全部公开内容以引用方式并入本文。
任务流处理模块736被配置为接收来自自然语言处理模块732的一个或多个结构化查询,(必要时)完成结构化查询,以及执行“完成”用户最终请求所需的动作。在一些示例中,完成这些任务所必需的各种过程在任务流模型754中提供。在一些示例中,任务流模型754包括用于获取来自用户的附加信息的过程,以及用于执行与可执行意图相关联的动作的任务流。
如上所述,为了完成结构化查询,任务流处理模块736需要发起与用户的附加对话,以便获取附加信息和/或弄清可能有歧义的话语。当有必要进行此类交互时,任务流处理模块736调用对话流处理模块734来参与同用户的对话。在一些示例中,对话流处理器模块734确定如何(和/或何时)向用户请求附加信息,并且接收和处理用户响应。通过I/O处理模块728将问题提供给用户并从用户接收回答。在一些示例中,对话流处理模块734经由可听输出和/或视觉输出向用户呈现对话输出,并经由口头或物理(例如,点击)响应接收来自用户的输入。继续上述示例,在任务流处理模块736调用对话流处理模块734来确定针对与域“餐厅预订”相关联的结构化查询的“派对人数”和“日期”信息时,对话流处理模块734生成诸如“一行几位?”和“预订哪天?”之类的问题传递给用户。一旦收到来自用户的回答,对话流处理模块734就用缺失信息填充结构化查询,或将信息传递给任务流处理模块736以根据结构化查询完成缺失信息。
一旦任务流处理模块736已针对可执行意图完成结构化查询,任务流处理模块736便开始执行与可执行意图相关联的最终任务。因此,任务流处理模块736根据结构化查询中包含的特定参数来执行任务流模型中的步骤和指令。例如,针对可执行意图“餐厅预订”的任务流模型包括用于联系餐厅并实际上请求在特定时间针对特定派对人数的预订的步骤和指令。例如,使用结构化查询诸如:{餐厅预订、餐厅=ABC咖啡馆、日期=3/12/2012、时间=晚上7点、派对人数=5},任务流处理模块736可执行以下步骤:(1)登录ABC咖啡馆的服务器或诸如
Figure BDA0002687356270000531
的餐厅预订系统,(2)以网站上的形式输入日期、时间和派对人数信息,(3)提交表单,以及(4)在用户的日历中形成针对预订的日历条目。
在一些示例中,任务流处理模块736在服务处理模块738(“服务处理模块”)的辅助下完成用户输入中所请求的任务或者提供用户输入中所请求的信息性回答。例如,服务处理模块738代表任务流处理模块736发起电话呼叫、设定日历条目、调用地图搜索、调用用户设备上安装的其他用户应用程序或与所述其他应用程序进行交互,以及调用第三方服务(例如,餐厅预订门户网站、社交网站、银行门户网站等)或与第三方服务进行交互。在一些示例中,通过服务模型756中的相应服务模型指定每项服务所需的协议和应用程序编程接口(API)。服务处理模块738针对服务访问适当的服务模型,并依据服务模型根据该服务所需的协议和API生成针对该服务的请求。
例如,如果餐厅已启用在线预订服务,则餐厅提交服务模型,该服务模型指定进行预订的必要参数以及将必要参数的值传送至在线预订服务的API。在被任务流处理模块736请求时,服务处理模块738可使用存储在服务模型中的Web地址来建立与在线预订服务的网络连接,并将预订的必要参数(例如,时间、日期、派对人数)以根据在线预订服务的API的格式发送至在线预订界面。
在一些示例中,自然语言处理模块732、对话流处理模块734以及任务流处理模块736被共同且反复地使用,以推断并限定用户的意图、获取信息以进一步明确并细化用户意图并最终生成响应(即,输出至用户,或完成任务)以满足用户的意图。所生成的响应是至少部分地满足用户意图的对语音输入的对话响应。另外,在一些示例中,所生成的响应被输出为语音输出。在这些示例中,所生成的响应被发送到语音合成处理模块740(例如,语音合成器),其中可处理所生成的响应以将对话响应以语音形式合成。在其他示例中,所生成的响应是与满足语音输入中的用户请求相关的数据内容。
在任务流处理模块736接收到来自自然语言处理模块732的多个结构化查询的示例中,任务流处理模块736首先处理所接收结构化查询的第一结构化查询以试图完成第一结构化查询和/或执行由第一结构化查询所表示的一个或多个任务或动作。在一些示例中,第一结构化查询对应于排名最高的可执行意图。在其他示例中,第一结构化查询选自基于对应的语音识别置信度得分和对应的意图置信度得分的组合而接收的结构化查询。在一些示例中,如果任务流处理模块736在第一结构化查询的处理期间(例如,由于无法确定必要的参数)遇到错误,任务流处理模块736可继续选择和处理所接收的结构化查询中与排名较低的可执行意图对应的第二结构化查询。例如基于对应候选文本表示的语音识别置信度得分、对应候选可执行意图的意图置信度得分、第一结构化查询中的缺失的必要参数或它们的任何组合来选择第二结构化查询。
语音合成处理模块740被配置为合成用于呈现给用户的语音输出。语音合成处理模块740基于数字助理提供的文本来合成语音输出。例如,所生成的对话响应是文本串的形式。语音合成处理模块740将文本串转换成可听语音输出。语音合成处理模块740使用任何适当语音合成技术,以便从文本生成语音输出,包括但不限于:拼接合成、单元选择合成、双音素合成、特定于域的合成、共振峰合成、发音合成、基于隐马尔可夫模型(HMM)的合成以及正弦波合成。在一些示例中,语音合成处理模块740被配置为基于对应于这些字词的音素串来合成各个字词。例如,音素串与所生成的对话响应中的字词相关联。音素串存储在与字词相关联的元数据中。语音合成处理模块740被配置为直接处理元数据中的音素串,以合成语音形式的字词。
在一些示例中,替代使用语音合成处理模块740(或除此之外),在远程设备(例如,服务器系统108)上执行语音合成,并且将合成的语音发送至用户设备以输出给用户。例如,这可发生在一些具体实施中,其中在服务器系统处生成数字助理的输出。而且由于服务器系统通常比用户设备具有更强的处理能力或更多的资源,其有可能获得比客户端侧合成将实现的质量更高的语音输出。
有关数字助理的附加细节可见于提交于2011年1月10日的名称为“IntelligentAutomated Assistant”的美国实用新型专利申请12/987,982和提交于2011年9月30日的名称为“Generating and Processing Task Items That Represent Tasks to Perform”的美国实用新型专利申请13/251,088中,其全部公开内容以引用方式并入本文。
4.数字助理用户界面
图8A至图8CT示出了根据各种示例的用户界面和数字助理用户界面。图8A至图8CT用于说明下文所述的过程,这些过程包括图17A至图17F中的过程。
图8A示出电子设备800。设备800被实现为设备104、设备122、设备200或设备600。在一些示例中,设备800至少部分地实现数字助理系统700。在图8A的示例中,设备800是具有显示器和触敏表面的智能电话。在其他示例中,设备800是不同类型的设备,诸如可穿戴设备(例如,智能手表)、平板设备、膝上型计算机或台式计算机。
在图8A中,设备800在显示器801上显示不同于数字助理(DA)用户界面803的用户界面802,如下文所述。在图8A的示例中,用户界面802是home屏幕用户界面。在其他示例中,用户界面是另一种类型的用户界面,诸如锁定屏幕用户界面或特定于应用程序的用户界面,例如地图应用程序用户界面、天气应用程序用户界面、消息传送应用程序用户界面、音乐应用程序用户界面、电影应用程序用户界面等。
在一些示例中,在显示不同于DA用户界面803的用户界面时,设备800接收用户输入。设备800确定用户输入是否满足用于发起DA的标准。满足用于发起DA的标准的示例性用户输入包括:预先确定类型的语音输入(例如,“嘿,Siri”);选择设备800的虚拟按钮或物理按钮的输入(或在预先确定的持续时间内选择此类按钮的输入);这种类型的输入:在耦接到设备800的外部设备处接收到的输入;这种类型的用户手势:在显示器801上执行的用户手势(例如,从显示器801的拐角朝向显示器801的中心的拖动或轻扫手势);以及这种类型的输入:表示设备800的运动(例如,将设备800升高到查看位置)的输入。
在一些示例中,根据确定用户输入满足用于发起DA的标准,设备800在用户界面之上显示DA用户界面803。在一些示例中,在用户界面之上显示DA用户界面803(或另一个显示的元素)包括用DA用户界面803的显示(或另一个图形元素的显示)替换用户界面的显示的至少一部分。在一些示例中,根据确定用户输入不满足用于发起DA的标准,设备800放弃显示DA用户界面803,而是响应于用户输入而执行动作(例如,更新用户界面802)。
图8B示出了在用户界面802之上显示的DA用户界面803。在一些示例中,如图8B所示,DA用户界面803包括DA指示符804。在一些示例中,指示符804以不同状态显示以指示DA的相应状态。DA状态包括收听状态(指示DA正在对语音输入进行采样)、处理状态(指示DA正在处理自然语言请求)、说话状态(指示DA正在提供音频和/或文本输出)和空闲状态。在一些示例中,指示符804分别包括指示不同DA状态的不同可视化效果。图8B示出了在基于检测到用户输入满足标准而发起DA之后,由于DA准备好接受语音输入而处于收听状态的指示符804。
在一些示例中,处于收听状态的指示符804的尺寸基于所接收的自然语言输入而变化。例如,指示符804根据所接收的语音输入的振幅实时展开和收缩。图8C示出了处于收听状态的指示符804。在图8C中,设备800接收自然语言语音输入“今天天气怎么样?”,并且指示符804根据语音输入实时展开和收缩。
图8D示出了处于处理状态的指示符804,例如,指示DA正在处理请求“今天天气怎么样?”。图8E示出了处于说话状态的指示符804,例如,指示DA当前正在响应于请求而提供音频输出“今天天气良好”。图8F示出了处于空闲状态的指示符804。在一些示例中,选择处于空闲状态的指示符804的用户输入使得DA(和指示符804)进入收听状态,例如,通过激活一个或多个麦克风来对音频输入进行采样。
在一些示例中,DA响应于用户请求而提供音频输出,而设备800提供其他音频输出。在一些示例中,在同时提供响应于用户请求的音频输出和其他音频输出时,DA降低其他音频输出的音量。例如,DA用户界面803显示在包括当前正在播放的媒体(例如,电影或歌曲)的用户界面之上。当DA响应于用户请求而提供音频输出时,DA降低正在播放的媒体的音频输出的音量。
在一些示例中,DA用户界面803包括DA响应示能表示。在一些示例中,响应示能表示对应于DA对所接收的自然语言输入的响应。例如,图8E示出了响应于所接收的语音输入而显示包括天气信息的响应示能表示805的设备800。
如图8E至图8F所示,设备800在显示器801的第一部分处显示指示符804并且在显示器801的第二部分处显示响应示能表示805。用户界面802之上显示DA用户界面803的一部分在显示器801的第三部分处保持可见(例如,未在视觉上被掩隐)。例如,在接收到发起数字助理的用户输入之前(例如,图8A),用户界面802的保持可见的部分在显示器801的第三部分处显示。在一些示例中,显示器801的第一部分、第二部分和第三部分分别被称为“指示符部分”、“响应部分”和“用户界面(UI)部分”。
在一些示例中,UI部分位于指示符部分(显示指示符804)和响应部分(显示响应示能表示805)之间。例如,在图8F中,UI部分包括(或者是)响应示能表示805的底部到指示符804的顶部之间的显示区域8011(例如,矩形区域),其中显示区域8011的侧边缘由响应示能表示805(或显示器801)的侧边缘限定。在一些示例中,用户界面802的在显示器801的UI部分处保持可见的部分包括一个或多个用户可选择的图形元素,例如链接和/或示能表示,诸如图8F中的home屏幕应用程序示能表示。
在一些示例中,设备800以第一状态显示响应示能表示805。在一些示例中,第一状态包括紧凑状态,其中响应示能表示805的显示尺寸(例如,与下文所述的展开的响应示能表示状态相比)较小,并且/或者响应示能表示805(例如,与展开的响应示能表示状态相比)以紧凑(例如,概述)形式显示信息。在一些示例中,设备800接收对应于对处于第一状态的响应示能表示805的选择的用户输入,并且作为响应,用处于第二状态的响应示能表示805的显示替换处于第一状态的响应示能表示805的显示。在一些示例中,第二状态是展开状态,其中响应示能表示805的显示尺寸(例如,与紧凑状态相比)较大,并且/或者响应示能表示805显示(例如,与紧凑状态相比)更大量的信息/更详细的信息。在一些示例中,设备800默认以第一状态显示响应示能表示805,例如,使得设备800最初以第一状态显示(图8E至图8G)响应示能表示805。
图8E至图8G示出了处于第一状态的响应示能表示805。如图所示,响应示能表示805例如通过提供当前温度和状态并省略更详细的天气信息(例如,每小时天气信息)来紧凑地提供天气信息。图8G示出了设备800接收对应于对处于第一状态的响应示能表示805的选择的用户输入806(例如,轻击手势)。虽然图8G至图8P整体示出了对应于对响应示能表示的相应选择的用户输入是触摸输入,但是在其他示例中,对应于对响应示能表示的选择的用户输入是另一种类型的输入,诸如话音输入(例如,“为我展示更多信息”)或外围设备输入(例如,来自鼠标或触控板的输入)。图8H示出了响应于接收到用户输入806,设备800用处于第二状态的响应示能表示805的显示替换处于第一状态的响应示能表示805的显示。如图所示,处于第二状态的响应示能表示805现在包括更详细的天气信息。
在一些示例中,当以第二状态显示响应示能表示805时,设备800接收请求以第一状态显示响应示能表示805的用户输入。在一些示例中,响应于接收到用户输入,设备800用处于第一状态的响应示能表示805的显示替换处于第二状态的响应示能表示805的显示。例如,在图8H中,DA用户界面803包括可选择元素(例如,后退按钮)807。选择可选择元素807的用户输入使得设备800恢复到图8F的显示。
在一些示例中,当以第二状态显示响应示能表示805时,设备800接收对应于对响应示能表示805的选择的用户输入。响应于接收到用户输入,设备800显示对应于响应示能表示805的应用程序的用户界面。例如,图8I示出了设备800接收对应于对响应示能表示805的选择的用户输入808(例如,轻击手势)。图8J示出了响应于接收到用户输入808,设备800显示天气应用程序的用户界面809。
在一些示例中,在显示应用程序的用户界面时,设备800显示可选择的DA指示符。例如,图8J示出了可选择的DA指示符810。在一些示例中,在显示应用程序的用户界面时,设备800附加地或另选地在显示器801的第一部分处显示指示符804,例如处于空闲状态的指示符。
在一些示例中,在显示应用程序的用户界面时,设备800接收选择可选择的DA指示符的用户输入。在一些示例中,响应于接收到用户输入,设备800用DA用户界面803替换应用程序的用户界面的显示。在一些示例中,DA用户界面803是紧接在显示应用程序的用户界面之前显示的DA用户界面。例如,图8K示出了设备800接收选择DA指示符810的用户输入811(例如,轻击手势)。图8L示出了响应于接收到用户输入811,设备800用DA用户界面803的显示替换天气应用程序的用户界面809的显示。
图8G中的用户输入806对应于对响应示能表示805的第一部分的选择。在一些示例中,当设备800以第一状态(例如,紧凑状态)显示响应示能表示805时,设备800接收对应于对响应示能表示805的第二部分的选择的用户输入。在一些示例中,响应示能表示805的第一部分(例如,底部部分)包括旨在回答用户请求的信息。在一些示例中,响应示能表示805的第二部分(例如,顶部部分)包括指示响应示能表示805和/或相关联文本的类别的标志符号。响应示能表示的示例性类别包括天气、股票、知识、计算器、消息、音乐、地图等。这些类别可对应于DA可提供的服务的类别。在一些示例中,响应示能表示805的第一部分占据的显示区域比响应示能表示805的第二部分更大。
在一些示例中,响应于接收到对应于响应示能表示805的第二部分的选择的用户输入,设备800显示对应于响应示能表示805的应用程序的用户界面(例如,而不显示处于第二状态的响应示能表示805)。例如,图8M示出了设备800接收选择以第一状态显示的响应示能表示805的第二部分的用户输入812(例如,轻击手势)。图8N示出了响应于接收到用户输入812,设备800显示天气应用程序的用户界面809(例如,而不显示处于展开状态的响应示能表示805)。这样,用户可提供选择响应示能表示805的不同部分的输入,以展开响应示能表示805或使得显示对应于响应示能表示805的应用程序,如图8G至图8H和图8M至图8N所示。
图8N还示出了在显示用户界面809时,设备800显示可选择的DA指示符810。选择DA指示符810的用户输入使得设备800恢复到图8M的显示,例如,类似于由图8K至图8L示出的示例。在一些示例中,在显示用户界面809时,设备800在显示器801的第一部分处显示DA指示符804(例如,处于空闲状态的DA指示符)。
在一些示例中,对于一些类型的响应示能表示,对应于对响应示能表示的任何部分的选择的用户输入使得设备800显示对应于响应示能表示的应用程序的用户界面。在一些示例中,这是因为不能以更详细的方式(例如,以第二状态)显示响应示能表示。例如,可能不存在DA响应于自然语言输入而可以提供的附加信息。例如,考虑自然语言输入“5乘以6等于多少?”。图8O示出了响应于自然语言输入而显示的DA用户界面803。DA用户界面803包括以第一状态显示的响应示能表示813。响应示能表示813包括回答“5×6=30”,但不存在DA可以提供的附加信息。图8O还示出了设备800接收选择响应示能表示813的第一部分的用户输入814(例如,轻击手势)。图8P示出了响应于接收到用户输入814,设备800显示对应于响应示能表示813的应用程序的用户界面815,例如计算器应用程序用户界面。
在一些示例中,响应示能表示包括可选择元素,诸如指示链接的可选择文本。图8Q示出了响应于自然语言输入“告诉我更多关于Famous Band的信息”而显示的DA用户界面803。DA用户界面803包括响应示能表示816。响应示能表示816包括关于“Famous Band”的信息和对应于“Famous Band”的成员#1的可选择元素817。在一些示例中,设备800接收对应于对可选择元素的选择的用户输入,并且作为响应,在响应示能表示之上显示对应于可选择元素的示能表示(第二响应示能表示)。图8R示出了设备800接收选择可选择元素817的用户输入818(例如,轻击手势)。图8S示出了响应于接收到用户输入818,设备800在响应示能表示816之上显示包括关于成员#1的信息的第二响应示能表示819以形成响应示能表示叠层。
在一些示例中,在响应示能表示之上显示第二响应示能表示时,设备800在视觉上掩隐在显示器801的第三部分(例如,该部分不显示任何响应示能表示或指示符804)处或其一部分处的用户界面。在一些示例中,在视觉上掩隐用户界面包括暗化用户界面或模糊用户界面。图8S示出了在响应示能表示816之上显示第二响应示能表示819时,设备800在视觉上掩隐在显示器801的第三部分处的用户界面802。
图8S示出了当第二响应示能表示819在响应示能表示816的一部分之上显示时,该部分保持可见。在其他示例中,第二响应示能表示819替换响应示能表示816的显示,使得响应示能表示816的任何部分都不可见。
图8T示出了设备800接收选择第二响应示能表示819中的可选择元素821(“底特律”)的用户输入820(例如,轻击手势)。图8U示出了响应于接收到用户输入820,设备800在第二响应示能表示819之上显示第三响应示能表示822。第三响应示能表示822包括关于底特律(成员#1的出生地)的信息。图8U示出了用户界面802继续在显示器801的第三部分处在视觉上被掩隐。
图8U还示出了尽管在响应示能表示叠层中存在三个响应示能表示(例如,816、819和822),但设备800仅指示叠层中的两个响应示能表示。例如,显示第三响应示能表示822和第二响应示能表示819的一部分,但不显示响应示能表示816的任何部分。因此,在一些示例中,当多于两个响应示能表示被堆叠时,设备800仅在视觉上指示在叠层中存在两个响应示能表示。在其他示例中,当响应示能表示被堆叠时,设备800仅在视觉上指示叠层的单个响应示能表示(例如,使得下一个响应示能表示的显示完全替换先前响应示能表示的显示)。
图8V至图8Y示出了用户提供输入以返回叠层中的先前响应示能表示。具体地,在图8V中,设备800接收第三响应示能表示822上的请求返回到第二响应示能表示819的用户输入823(例如,轻扫手势)。图8W示出了响应于接收到用户输入823,设备800停止显示第三响应示能表示822并且完整地显示第二响应示能表示819。设备800还显示(例如,显露)响应示能表示816的一部分。图8X示出了设备800接收第二响应示能表示819上的请求返回到响应示能表示816的用户输入824(例如,轻扫手势)。图8Y示出了响应于接收到用户输入824,设备800停止显示第二响应示能表示819并且完整地显示响应示能表示816。在一些示例中,设备800接收显示叠层中的下一个响应示能表示的输入(例如,在相反方向上的轻扫手势),并且作为响应,以类似于上述方式的方式显示叠层中的下一个响应示能表示。在其他示例中,在叠层中的响应示能表示中进行导航依赖于其他输入方式(例如,用户对所显示的“返回”或“下一个”按钮的选择),其方式类似于上述方式。
图8Y还示出了用户界面802在显示器801的第三部分处不再在视觉上被掩隐。因此,在一些示例中,如图8Q至图8Y所示,用户界面802在响应示能表示被堆叠时在视觉上被掩隐,而在示能表示未被堆叠时未在视觉上被掩隐。例如,当不显示(或仅部分显示)初始响应示能表示816时,用户界面802在视觉上被掩隐,而当完整地显示初始响应示能表示816时,用户界面802未在视觉上被掩隐。
在一些示例中,用户界面(例如,DA用户界面803在其之上显示的用户界面)包括占据显示器801的第四部分(例如,“输入区场(field)部分”)的输入区场。输入区场包括用户可提供自然语言输入的区域。在一些示例中,输入区场对应于应用程序,诸如消息传送应用程序、电子邮件应用程序、笔记记录应用程序、提醒应用程序、日历应用程序等。图8Z示出了消息传送应用程序的用户界面825,该用户界面包括占据显示器801的第四部分的输入区场826。
图8AA示出了在用户界面825之上显示的DA用户界面803。设备800响应于自然语言输入“这首歌曲的歌名是什么?”而显示用户界面803。DA用户界面803包括在显示器801的第一部分处的指示符804和在显示器801的第二部分处的响应示能表示827(指示由DA识别的歌曲)。
在一些示例中,设备800接收对应于响应示能表示从显示器801的第一部分到显示器801的第四部分的位移的用户输入。响应于接收到用户输入,设备800用输入区场中的响应示能表示的显示替换在显示器801的第一部分处的响应示能表示的显示。例如,图8AB至图8AD示出了设备800接收将响应示能表示827从显示器801的第一部分移位到输入区场826的用户输入828。用户输入828对应于从显示器801的第一部分到显示器801的第四部分的拖动手势,并且以在输入区场826的显示器处的抬离事件(例如,手指抬离事件)结束。
在一些示例中,如图8AB至图8AD所示,在接收到用户输入828时,设备800将响应示能表示827从显示器801的第一部分连续移位到显示器801的第四部分。例如,在响应示能表示827被移位时,设备800在对应于用户输入828的相应当前显示接触位置的位置处显示响应示能表示827。在一些示例中,在响应示能表示827被移位时,响应示能表示827的显示尺寸减小,例如,使得响应示能表示827在被移位时在用户的手指(或其他输入装置)下方收缩。图8AB至图8AD还示出了在连续移位响应示能表示827时,指示符804停止显示。
图8AD示出了响应示能表示827现在显示在消息传送应用程序的输入区场826中。图8AE示出了设备800接收对应于对发送消息示能表示829的选择的用户输入830(例如,轻击手势)。图8AF示出了响应于接收到用户输入830,设备800将响应示能表示827作为消息发送。这样,用户可通过提供输入(例如,拖放)以将响应示能表示移位到适当的输入区场中来在通信(例如,文本消息、电子邮件)中发送响应示能表示。在其他示例中,用户可以类似的方式在笔记、日历条目、文字处理文档、提醒条目等中包括响应示能表示。
在一些示例中,对应于响应示能表示从显示器801的第一部分到显示器801的(显示输入区场的)第四部分的位移的用户输入对应于对示能表示的选择。在一些示例中,示能表示是共享示能表示(例如,在通信中共享响应示能表示)或保存示能表示(例如,将示能表示保存在笔记或提醒条目中)。例如,当设备800在包括输入区场的用户界面之上显示DA用户界面803时,响应示能表示包括共享示能表示或保存示能表示,这取决于用户界面的类型。例如,当用户界面对应于通信应用程序(例如,消息传递或电子邮件)时,响应示能表示包括共享示能表示,并且当用户界面对应于具有输入区场的另一个类型的应用程序(例如,文字处理、提醒、日历、笔记)时,响应示能表示包括保存示能表示。选择共享或保存示能表示的用户输入使得设备800以类似于上述方式的方式用输入区场中的响应示能表示的显示替换显示器801的第一部分处的响应示能表示的显示。例如,当在输入区场中显示响应示能表示时,设备800停止显示指示符804。
在一些示例中,用户界面(例如,DA用户界面803在其之上显示的用户界面)包括占据显示器801的第五部分(例如,“桌面小程序部分”)的桌面小程序区域。在图8AG的示例中,设备800是平板设备。设备800在显示器801上显示包括占据显示器801的第五部分的桌面小程序区域832的用户界面831。设备800还在用户界面831之上显示DA用户界面803。响应于自然语言输入“跟踪航班23”而显示DA用户界面803。DA用户界面803包括在显示器801的第一部分处显示的指示符804和在显示器801的第二部分处显示的响应示能表示833(包括关于航班23的信息)。
在一些示例中,设备800接收对应于响应示能表示从显示器801的第一部分到显示器801的第五部分的位移的用户输入。在一些示例中,响应于接收到用户输入,设备800用桌面小程序区域中的响应示能表示的显示替换显示器的第一部分处的响应示能表示的显示。例如,图8AH至图8AJ示出了设备800接收将响应示能表示833从显示器801的第一部分移位到桌面小程序区域832的用户输入834。用户输入834对应于从显示器801的第一部分到显示器801的第五部分的拖动手势,并且以桌面小程序区域832的显示器处的抬离事件结束。在一些示例中,将响应示能表示833从显示器801的第一部分移位到显示器801的第五部分是通过类似于上述响应示能表示827的移位的方式来执行的。例如,在响应示能表示833被移位时,指示符804停止显示。
图8AJ示出了响应示能表示833现在与所显示的日历和音乐桌面小程序一起显示在桌面小程序区域832中。这样,用户可向桌面小程序区域832提供移位响应示能表示833的输入(例如,拖放)以添加响应示能表示833作为桌面小程序。
在一些示例中,对应于响应示能表示从显示器801的第一部分到显示器801的第五部分的位移的用户输入对应于对示能表示的选择。在一些示例中,示能表示是“在桌面小程序中显示”示能表示。例如,当设备800在包括桌面小程序区域的用户界面之上显示DA用户界面803时,响应示能表示包括“在桌面小程序中显示”示能表示。选择“在桌面小程序中显示”示能表示的用户输入使得设备800以类似于上述方式的方式用桌面小程序区域中的响应示能表示的显示替换显示器801的第一部分处的响应示能表示的显示。
在一些示例中,响应示能表示对应于事件,并且设备800确定事件的完成。在一些示例中,响应于确定事件的完成,设备800(例如,在确定完成之后的预先确定的持续时间内)停止在桌面小程序区域中显示响应示能表示。例如,响应示能表示833对应于航班,并且响应于确定航班已完成(例如,着陆),设备800停止在桌面小程序区域832中显示响应示能表示833。又如,响应示能表示对应于体育比赛,并且响应于确定体育比赛已结束,设备800停止在桌面小程序区域中显示响应示能表示。
图8AK至图8AN示出了各种示例性类型的响应示能表示。具体地,图8AK示出了响应于自然语言请求“名人X的年龄是多少岁?”而显示的紧凑响应示能表示835。紧凑响应示能表示835包括对请求的直接回答(例如,“30岁”),而不包括进一步的信息(例如,关于名人X的附加信息)。在一些示例中,所有紧凑响应示能表示具有相同的最大尺寸,使得紧凑响应示能表示只能占据显示器801的(相对小的)区域。图8AL示出了响应于自然语言请求“给出关于队#1的统计信息”而显示的详细响应示能表示836。详细响应示能表示836包括关于队#1的详细信息(例如,各种统计信息),并且具有比紧凑响应示能表示835更大的显示尺寸。图8AM示出了响应于自然语言“为我展示附近的餐厅列表”而显示的列表响应示能表示837。列表响应示能表示837包括选项(例如,餐厅)列表,并且具有比紧凑响应示能表示835更大的显示尺寸。图8AN示出了响应于自然语言请求“呼叫Neal”而显示的消歧响应示能表示838。消歧响应示能表示包括可选择的消歧选项:(1)Neal Ellis,(2)Neal Smith,以及(3)NealJohnson。设备800还提供询问“哪位Neal?”的音频输出。
如图8AK至图8AN所示,所显示的响应示能表示的类型(例如,紧凑、详细、列表、消歧)取决于自然语言输入的内容和/或DA对自然语言输入的解释。在一些示例中,示能表示构建规则为特定类型的自然语言输入指定要显示的特定类型的响应示能表示。在一些示例中,构建规则指定默认尝试显示紧凑响应示能表示,例如,使得设备800响应于可由紧凑响应示能表示充分回答的自然语言输入而显示紧凑响应示能表示。在一些示例中,当响应示能表示可以不同状态(例如,第一紧凑状态和第二展开(详细)状态)显示时,构建规则指定最初将响应示能表示显示为紧凑示能表示。如相对于图8G至图8H所述,响应于接收到适当的用户输入,紧凑示能表示的详细版本可用于显示。应当理解,一些自然语言输入(例如,“给我关于队#1的统计信息”和“为我展示附近的餐厅列表”)不能用紧凑示能表示来充分回答(或者可能不期望用紧凑示能表示来回答输入)。因此,构建规则可为此类输入指定要显示的特定类型的示能表示(例如,详细列表)。
在一些示例中,DA确定对应于所接收的自然语言输入的多个结果。在一些示例中,设备800显示包括该多个结果中的单个结果的响应示能表示。在一些示例中,在显示响应示能表示时,不显示该多个结果中的其他结果。例如,考虑自然语言输入“最近的咖啡”。DA确定对应于输入的多个结果(多个附近咖啡店)。图8AO示出了响应于输入而显示的响应示能表示839(例如,紧凑示能表示)。响应示能表示839包括该多个结果中的单个结果(距离设备800的位置最近的咖啡店)。设备800还提供语音输出“这是最近的咖啡店”。这样,对于涉及多个结果的自然语言请求,DA最初可提供单个结果,例如,最相关的结果。
在一些示例中,在提供单个结果(例如,显示响应示能表示839)之后,DA提供该多个结果中的下一个结果。例如,在图8AP中,设备800用包括第二最近的咖啡店的响应示能表示840替换响应示能表示839。设备800还提供语音输出“这是第二最近的咖啡店”。在一些示例中,响应于接收到拒绝单个结果的用户输入(例如,“我不想去那一个咖啡店”)或指示提供下一个结果的用户输入,设备800从图8AO转变为图8AP。在一些示例中,在显示示能表示839之后和/或在提供语音输出“这是最近的咖啡店”之后的预先确定的持续时间内,例如如果没有接收到选择示能表示839的用户输入,设备800从图8AO转变为图8AP。这样,设备800可顺序地为涉及多个结果的自然语言输入提供结果。
在一些示例中,响应示能表示包括一个或多个任务示能表示。选择任务示能表示的用户输入(例如,轻击手势)使得设备800执行对应的任务。例如,在图8AN中,响应示能表示838包括任务示能表示841、842和843。用户对任务示能表示841的选择使得设备800发起对Neal Ellis的电话呼叫,用户对任务示能表示842的选择使得设备800发起对Neal Smith的电话呼叫等。又如,响应示能表示839包括任务示能表示844,并且响应示能表示840包括任务示能表示845。用户对任务示能表示844的选择使得设备800启动显示去往最近的咖啡店的路线的地图应用程序,而用户对任务示能表示845的选择使得设备800启动显示去往第二最近的咖啡店的路线的地图应用程序。
在一些示例中,设备800响应于自然语言输入而同时显示多个响应示能表示。在一些示例中,该多个响应示能表示中的每个响应示能表示对应于自然语言输入的不同可能域。在一些示例中,当自然语言输入被确定为有歧义(例如,对应于多个域)时,设备800显示该多个响应示能表示。
例如,考虑自然语言输入“Beyoncé”。图8AQ示出了响应于自然语言输入而同时显示的响应示能表示846、847和848。响应示能表示846、847和848分别对应于新闻域(例如,用户请求关于Beyoncé的新闻)、音乐域(例如,用户请求播放Beyoncé的音乐)和知识域(例如,用户请求关于Beyoncé的信息)。在一些示例中,对应于对响应示能表示846、847和848的选择的相应用户输入使得设备800执行对应动作。例如,对响应示能表示846的选择使得显示包括关于Beyoncé的新闻的详细响应示能表示,对响应示能表示847的选择使得设备800启动包括Beyoncé的歌曲的音乐应用程序,并且对响应示能表示848的选择使得显示包括关于Beyoncé的信息的详细响应示能表示。
在一些示例中,响应示能表示包括可编辑文本区场,可编辑文本区场包括根据自然语言输入确定的文本。例如,图8AR示出了响应于自然语言语音输入“text mom I’mhome”而显示的响应示能表示849。响应示能表示849包括可编辑文本区场850,该可编辑文本区场包括文本“I’m hole”,例如,因为DA错误地将“I’m home”识别为了“I’m hole”。响应示能表示还包括任务示能表示851。选择任务示能表示851的用户输入使得设备800发送文本消息。
在一些示例中,设备800接收对应于对可编辑文本区场的选择的用户输入,并且作为响应,在显示响应示能表示时显示键盘。例如,图8AS示出了设备800接收选择可编辑文本区场850的用户输入852(例如,轻击手势)。图8AT示出了响应于接收到用户输入852,设备800在显示响应示能表示849时显示键盘853。如图所示,设备800在用户界面802(例如,DA用户界面803在其之上显示的用户界面)之上显示键盘853。虽然图8AT至图8AV示出了当响应示能表示和键盘显示在用户界面802之上时,用户界面802的一部分未在视觉上被掩隐,但是在其他示例中,用户界面802的至少一部分(例如,显示器801的未显示键盘或响应示能表示849的部分)在视觉上被掩隐。
在一些示例中,设备800接收一个或多个键盘输入,并且作为响应,根据该一个或多个键盘输入更新可编辑文本区场中的文本。例如,图8AU示出了设备800已接收到将“hole”校正为“home”的键盘输入。设备800在响应示能表示849的可编辑文本区场850中显示已校正的文本。
在其他示例中,设备800接收请求编辑显示在可编辑文本区场中的文本的语音输入。响应于接收到语音输入,设备800根据语音输入更新可编辑文本区场中的文本。例如,在图8AR中,用户可提供语音输入“No,I said I’m home”以使得设备800相应地更新可编辑文本区场850中的文本。
在一些示例中,在更新可编辑文本区场中的文本之后,设备800接收请求执行与示能表示相关联的任务的用户输入。响应于接收到用户输入,设备800基于已更新的文本执行所请求的任务。例如,图8AV示出了在将“hole”编辑为“home”之后,设备800接收对应于任务示能表示851的选择的用户输入854(例如,轻击手势)。图8AW示出了响应于接收到用户输入854,设备800给用户的妈妈发送消息“I’m home”。设备800还显示标志符号855,指示任务的完成。图8AW进一步示出了响应于接收到用户输入854,设备800停止显示键盘853以显示(例如,显露)用户界面802的一部分,并且设备800显示指示符804。
这样,用户可编辑响应示能表示中包括的文本(例如,如果DA错误地识别了用户的语音输入)并且使得DA使用正确文本执行动作。尽管图8AR至图8AW示出了编辑和发送文本消息的示例,但是在其他示例中,用户可以类似的方式编辑和保存(或发送)笔记、日历条目、提醒条目、电子邮件条目等。
在一些示例中,设备800接收消除DA的用户输入。在一些示例中,消除DA包括停止显示DA用户界面803。下文相对于图10A至图10V更详细地讨论了DA消除。在一些示例中,在消除DA之后,设备800接收重新发起DA的用户输入(例如,满足用于发起DA的标准的用户输入)。在一些示例中,根据接收到重新发起DA的用户输入,设备800显示DA用户界面,该DA用户界面包括相同的响应示能表示,例如,在DA被消除之前显示的响应示能表示。
在一些示例中,设备800根据确定相同的响应示能表示对应于对所接收的自然语言输入(例如,旨在用于重新发起的DA的输入)的响应来显示相同的响应示能表示。例如,图8AX示出了包括响应示能表示856的DA用户界面803。设备800响应于自然语言输入“天气怎么样?”而显示DA用户界面803。图8AY示出了设备800接收消除DA的用户输入857,例如,对应于对用户界面802的选择的轻击手势。图8AZ示出了响应于接收到用户输入857,设备800消除DA,例如,停止显示DA用户界面803。图8BA示出了设备800已接收到重新发起DA的输入并且当前正在接收自然语言输入“会刮风吗?”。图8BB示出了显示DA用户界面803的设备800,该DA用户界面包括相同的响应示能表示856并且提供语音输出“是的,会刮风”。例如,DA已确定相同的响应示能表示856对应于自然语言输入“天气怎么样?”和“会刮风吗?”。这样,如果先前响应示能表示与当前自然语言请求相关,则先前的响应示能表示可包括在随后发起的DA用户界面中。
在一些示例中,设备800根据确定在消除DA的预先确定的持续时间内接收到重新发起DA的用户输入来显示相同的响应示能表示。例如,图8BC示出了响应于自然语言输入“3乘以5等于多少?”而显示的DA用户界面803。DA用户界面803包括响应示能表示858。图8BD示出了DA已在第一时间被消除。图8BE示出了在第一时间的预先确定的持续时间(例如,5秒)内,设备800已接收到重新发起DA的用户输入。例如,设备800已接收到上述满足用于发起DA的标准的类型的输入中的任何一种类型的输入,但尚未接收到包括对DA的不同请求的另一个自然语言输入。因此,在图8BE中,设备800显示包括相同的响应示能表示858和处于收听状态的指示符804的DA用户界面803。这样,如果用户快速重新发起DA,例如由于用户先前意外地消除DA,则先前响应示能表示可包括在随后发起的DA用户界面中。
图8BF示出了处于横向取向的设备800。在一些示例中,因为设备800处于横向取向,所以设备800以横向模式显示用户界面。例如,图8BF示出了以横向模式显示的消息传送应用程序用户界面859。在一些示例中,设备800在横向模式下的用户界面之上以横向模式显示DA用户界面803。例如,图8BG示出了在用户界面859之上以横向模式显示的DA用户界面803。应当理解,用户可以符合本文所讨论的技术的方式提供一个或多个输入以与在横向模式下的DA用户界面803进行交互。
在一些示例中,一些用户界面不具有横向模式。例如,不管设备800是处于横向取向还是处于纵向取向,用户界面的显示都是相同的。不具有横向模式的示例性用户界面包括home屏幕用户界面和锁定屏幕用户界面。图8BH示出了当设备800处于横向取向时显示的home屏幕用户界面860(其不具有横向模式)。
在一些示例中,当设备800处于横向取向时,设备800在不具有横向模式的用户界面之上显示DA用户界面803。在一些示例中,当在没有横向模式的用户界面之上显示(在横向模式下的)DA用户界面803时,设备800在视觉上掩隐用户界面,例如,在视觉上掩隐用户界面之上未显示DA用户界面803的部分。例如,图8BI示出了处于横向取向的设备800在home屏幕用户界面860之上以横向模式显示DA用户界面803。Home屏幕用户界面860以纵向模式显示(尽管设备800处于横向取向),因为home屏幕用户界面860不具有横向模式。如图所示,设备800在视觉上掩隐home屏幕用户界面860。这样,设备800避免同时显示横向模式的DA用户界面803和未在视觉上被掩隐的纵向模式的用户界面(例如,home屏幕用户界面860),这可能会提供令人困惑的用户视觉体验。
在一些示例中,当设备800在预先确定类型的用户界面之上显示DA用户界面803时,设备800在视觉上掩隐预先确定类型的用户界面。示例性预先确定类型的用户界面包括锁定屏幕用户界面。图8BJ示出了显示示例性锁定屏幕用户界面861的设备800。图8BK示出了在锁定屏幕用户界面861之上显示DA用户界面803的设备800。如图所示,设备800在锁定屏幕用户界面861之上未显示DA用户界面803的部分处在视觉上掩隐锁定屏幕用户界面861。
在一些示例中,DA用户界面803包括对话示能表示。在一些示例中,对话示能表示包括由DA响应于所接收的自然语言输入而生成的对话。在一些示例中,对话示能表示显示在显示器801的第六部分(例如,“会话部分”)处,显示器801的第六部分位于显示器801的(显示DA指示符804的)第一部分和显示器801的(显示响应示能表示的)第二部分之间。例如,图8BL示出了对话示能表示862,该对话示能表示包括由DA响应于自然语言输入“播放Frozen”而生成的对话,将在下文进一步讨论。图8BM示出了对话示能表示863,该对话示能表示包括由DA响应于自然语言输入“删除会议#1”而生成的对话,将在下文进一步讨论。图8BM还示出了设备800在显示器801的第六部分处显示对话示能表示863,第六部分在指示符804的显示与响应示能表示864的显示之间。
在一些示例中,DA确定针对所接收的自然语言输入的多个可选择的消歧选项。在一些示例中,对话示能表示的对话包括该多个可选择的消歧选项。在一些示例中,根据DA确定自然语言输入存在歧义来确定该多个消歧选项。存在歧义的自然语言输入对应于多个可能的可执行意图,例如,每个可执行意图具有相对高(和/或相等)的置信度得分。例如,考虑图8BL中的自然语言输入“播放Frozen”。DA确定两个可选择的消歧选项:选项865“播放电影”(例如,用户想要播放电影“Frozen”)和选项866“播放音乐”(例如,用户想要播放电影“Frozen”中的音乐)。对话示能表示862包括选项865和866,其中用户对选项865的选择使得设备800播放电影“Frozen”,并且用户对选项866的选择使得设备800播放电影“Frozen”中的音乐。又如,考虑图8BM中的自然语言输入“删除会议#1”,其中“会议#1”是重复会议。DA确定两个可选择的消歧选项:选项867“删除单个”(例如,用户想要删除会议#1中的单个实例),并且选项868“删除所有”(例如,用户想要删除会议#1中的所有实例)。对话示能表示863包括选项867和868,以及取消选项869。
在一些示例中,DA基于所接收的自然语言输入来确定执行任务需要附加信息。在一些示例中,对话示能表示的对话包括DA推荐的针对所需附加信息的一个或多个可选择选项。例如,DA可能已确定所接收的自然语言输入的域,但不能确定完成与域相关联的任务所需的参数。例如,考虑自然语言输入“呼叫”。DA确定自然语言输入的域是电话呼叫域(例如,与进行电话呼叫的可执行意图相关联的域),但不能确定参数(即,呼叫谁)。在一些示例中,DA因此将一个或多个可选择选项确定为针对参数的推荐。例如,设备800在对话示能表示中显示对应于用户最常呼叫的联系人的可选择选项。用户对可选择选项中的任一个选项的选择使得设备800呼叫相应的联系人。
在一些示例中,DA基于所接收的自然语言输入来确定主要用户意图,并且基于所接收的自然语言输入来确定另选用户意图。在一些示例中,主要意图是排名最高的可执行意图,而另选用户意图是排名第二高的可执行意图。在一些示例中,所显示的响应示能表示对应于主要用户意图,而同时显示的对话示能表示的对话包括对应于另选用户意图的可选择选项。例如,图8BN示出了响应于自然语言输入“到Phil的路线”而显示的DA用户界面803。DA确定主要用户意图,即用户想要获得到“Phil咖啡”的路线,和另选用户意图,即用户想要获得到名为“Phil”的联系人的家的路线。DA用户界面803包括对应于主要用户意图的响应示能表示870和对话示能表示871。对话示能表示871的对话872对应于次要用户意图。选择对话872的用户输入使得设备800获得到名为“Phil”的联系人的家的路线,而选择响应示能表示870的用户输入使得设备800获得到“Phil咖啡”的路线。
在一些示例中,以第一状态显示对话示能表示。在一些示例中,第一状态是初始状态,例如,在接收到与对话示能表示进行交互的用户输入之前最初显示对话示能表示的描述方式。图8BO示出了包括以初始状态显示的对话示能表示873的DA用户界面803。设备800响应于自然语言输入“天气怎么样?”而显示DA用户界面803。对话示能表示873包括由DA响应于输入而生成的对话的至少一部分,例如,“当前气温70度,并且在刮风……”。下文将相对于图11至图16来讨论关于是否显示由DA生成的对话的进一步描述。
在一些示例中,设备800接收对应于对以第一状态显示的对话示能表示的选择的用户输入。响应于接收到用户输入,设备800用处于第二状态的对话示能表示的显示替换处于第一状态的对话示能表示的显示。在一些示例中,第二状态是展开状态,其中处于展开状态的对话示能表示的显示尺寸大于处于初始状态的对话示能表示的显示尺寸,并且/或者其中处于展开状态的对话示能表示显示的内容量比处于初始状态的对话示能表示更大。图8BP示出了设备800接收对应于对以初始状态显示的对话示能表示873的选择的用户输入874(例如,拖动手势)。图8BQ示出了响应于接收到用户输入874(或其一部分),设备800用处于展开状态的对话示能表示873的显示替换处于初始状态的对话示能表示873的显示。如图所示,与图8BP中的对话示能表示相比,图8BQ中的对话示能表示873具有更大的显示尺寸并且包括更大量的文本。
在一些示例中,(处于第二状态的)对话示能表示的显示尺寸与使得对话示能表示以第二状态显示的用户输入的长度成比例。例如,在图8BP至图8BQ中,对话示能表示873的显示尺寸与拖动手势874的长度(例如,物理距离)成比例地增加。这样,用户可提供连续拖动手势,以根据拖动手势的拖动长度来展开响应示能表示873。此外,尽管图8BO至图8BQ示出了设备800最初显示如图8BO所示的对话示能表示873,然后展开图8BQ中的对话示能表示,但在其他示例中,设备800初始显示如图8BQ所示的对话示能表示873。因此,在一些示例中,设备800最初显示对话示能表示,使得对话示能表示显示最大量的内容,例如,而不掩隐(覆盖)任何同时显示的响应示能表示。
在一些示例中,对话示能表示的显示掩隐了同时显示的响应示能表示的显示。具体地,在一些示例中,处于第二(例如,展开)状态的对话示能表示的显示占据显示器801的(显示响应示能表示的)第二部分的至少一部分。在一些示例中,以第二状态显示对话示能表示还包括在响应示能表示的至少一部分之上显示对话示能表示。例如,图8BQ示出了拖动手势874继续。图8BR示出了响应于接收到继续拖动手势874,设备800在响应示能表示875的显示之上展开对话示能表示873的显示。
在一些示例中,在接收到使得对话示能表示以第二状态显示(例如,展开)的用户输入之前,响应示能表示以初始状态显示。在一些示例中,初始状态描述了响应示能表示在对话示能表示(或其一部分)显示在响应示能表示之上之前的状态。例如,图8BO至图8BQ示出了以初始状态显示的响应示能表示875。在一些示例中,在响应示能表示的至少一部分之上以第二(例如,展开)状态显示对话示能表示包括用处于覆盖状态的响应示能表示的显示替换处于初始状态的响应示能表示的显示。图8BR示出了以覆盖状态显示的响应示能表示875。在一些示例中,当以覆盖状态显示时,响应示能表示的显示尺寸(例如,相对于初始状态)收缩并且/或者变暗(例如,显示的颜色比初始状态更暗)。在一些示例中,响应示能表示收缩和/或变暗的程度与在响应示能表示之上显示的对话示能表示的量成比例。
在一些示例中,对话示能表示具有最大显示尺寸,并且对话示能表示的第二(例如,展开)状态对应于最大显示尺寸。在一些示例中,以最大显示尺寸显示的对话示能表示不能响应于用户输入诸如拖动手势而进一步展开。在一些示例中,以最大显示尺寸显示的对话示能表示显示对话示能表示的整个内容。在其他示例中,以最大显示尺寸显示的对话示能表示不显示对话示能表示的整个内容。因此,在一些示例中,当设备800以第二状态显示对话示能表示(其具有最大显示尺寸)时,设备800使得用户输入(例如,拖动手势/轻扫手势)能够滚动经过对话示能表示的内容。图8BS示出了以最大显示尺寸显示的对话示能表示873。具体地,在图8BR中,拖动手势874继续。响应于接收到继续拖动手势874,在图8BS中,设备800将对话示能表示873显示(例如,展开)至其最大显示尺寸。对话示能表示873包括滚动指示符876,该滚动指示符指示用户可提供输入来滚动经过对话示能表示873的内容。
在一些示例中,当以第二状态显示对话示能表示(并且以其最大尺寸显示)时,响应示能表示的一部分保持可见。因此,在一些示例中,设备800约束在响应示能表示之上显示的对话示能表示的最大尺寸,使得对话示能表示不完全覆盖响应示能表示。在一些示例中,响应示能表示的保持可见的部分是上文相对于图8M所述的响应示能表示的第二部分。例如,该部分是响应示能表示的包括标志符号的顶部部分,该标志符号指示响应示能表示和/或相关联文本的类别。图8BS示出了当设备800在响应示能表示875之上以最大尺寸显示对话示能表示873时,响应示能表示875的顶部部分保持可见。
在一些示例中,设备800接收对应于对响应示能表示的保持可见的部分的选择的用户输入(当对话示能表示在响应示能表示之上以第二状态显示时)。响应于接收到用户输入,设备在显示器801的第一部分处显示响应示能表示,例如,以其初始状态显示响应示能表示。响应于接收到用户输入,设备800进一步用处于第三状态的对话示能表示的显示替换处于第二(例如,展开)状态的对话示能表示的显示。在一些示例中,第三状态是压缩状态,其中处于第三状态的对话示能表示(与处于初始状态或展开状态的对话示能表示相比)具有较小的显示尺寸,并且/或者对话示能表示(与处于初始状态或展开状态的对话示能表示相比)包括更少量的内容。在其他示例中,第三状态是第一状态(例如,初始状态)。图8BT示出了设备800接收选择响应示能表示875的顶部部分的用户输入877(例如,轻击手势)。图8BU示出了响应于接收到用户输入877,设备800用处于压缩状态的对话示能表示873的显示替换处于展开状态(图8BT)的对话示能表示873的显示。设备800进一步以初始状态显示响应示能表示875。
在一些示例中,设备800接收对应于对以第三状态显示的对话示能表示的选择的用户输入。响应于接收到用户输入,设备800用处于第一状态的对话示能表示的显示替换处于第三状态的响应示能表示的显示。例如,在图8BU中,用户可提供选择以压缩状态显示的对话示能表示873的输入(例如,轻击手势)。响应于接收到输入,设备800以初始状态显示对话示能表示,例如,恢复到图8BO的显示。
在一些示例中,当以第一状态或第二状态(例如,初始状态或展开状态)显示对话示能表示时,设备800接收对应于对同时显示的响应示能表示的选择的用户输入。响应于接收到用户输入,设备800用处于第三(例如,压缩)状态的对话示能表示的显示替换处于第一状态或第二状态的对话示能表示的显示。例如,图8BV示出了响应于自然语言输入“为我展示队#1的名单”而显示的DA用户界面803。DA用户界面803包括详细响应示能表示878和以初始状态显示的对话示能表示879。图8BV还示出了设备800接收选择响应示能表示878的用户输入880(例如,拖动手势)。图8BW示出了响应于接收到用户输入880,设备800用处于压缩状态的对话示能表示879的显示替换处于初始状态的对话示能表示879的显示。
在一些示例中,当以第一状态或第二状态(例如,初始状态或展开状态)显示对话示能表示时,设备800接收对应于对对话示能表示的选择的用户输入。响应于接收到用户输入,设备800用处于第三(例如,压缩)状态的对话示能表示的显示替换处于第一状态或第二状态的对话示能表示的显示。例如,图8BX示出了响应于自然语言输入“你可以为我提供什么音乐?”而显示的DA用户界面803。DA用户界面803包括响应示能表示881和以初始状态显示的对话示能表示882。图8BX还示出了设备800接收选择对话示能表示882的用户输入883(例如,向下拖动或轻扫手势)。图8BY示出了响应于接收到用户输入883,设备800用处于压缩状态的对话示能表示882的显示替换处于初始状态的对话示能表示882的显示。尽管图8BX至图8BY示出了对应于对对话示能表示的选择的用户输入是拖动或轻扫手势,但是在其他示例中,用户输入是对包括在对话示能表示中的所显示的示能表示的选择。例如,选择在以第一状态或第二状态显示的对话示能表示中的“压缩”示能表示的用户输入(例如,轻击手势)使得设备800用处于第三状态的对话示能表示的显示替换处于第一状态或第二状态的对话示能表示的显示。
在一些示例中,设备800在对话示能表示中显示所接收的自然语言语音输入的转录。通过对自然语言语音输入执行自动语音识别(ASR)来获取转录。图8BZ示出了响应于自然语言语音输入“天气怎么样?而显示的DA用户界面803。DA用户界面包括响应示能表示884和对话示能表示885。对话示能表示885包括语音输入的转录886以及由DA响应于语音输入而生成的对话887。
在一些示例中,设备800默认不显示所接收的自然语言语音输入的转录。在一些示例中,设备800包括当被激活时使得设备800始终显示自然语言语音输入的转录的设置。现在讨论其中设备800可显示所接收的自然语言语音输入的转录的各种其他实例。
在一些示例中,自然语言语音输入(具有所显示的转录)接续于在自然语言语音输入之前接收到的第二自然语言语音输入连续。在一些示例中,根据确定DA不能确定自然语言语音输入的用户意图并且不能确定第二自然语言语音输入的第二用户意图来执行显示转录。因此,在一些示例中,如果DA不能确定两个接续的自然语言输入的可执行意图,则设备800显示自然语言输入的转录。
例如,图8CA示出设备800已接收到语音输入“how far to Dish n’Dash?”,并且DA不能确定自然语言输入的用户意图。例如,设备800提供音频输出“I’m not sure Iunderstand,can you please say that again?”。因此,用户重复语音输入。例如,图8CB示出了设备800接收接续的语音输入“how far to Dish n’Dash?”。图8CC示出了DA仍然不能确定连续语音输入的用户意图。例如,设备800提供音频输出“I’m not sure Iunderstand”。因此,设备800还显示包括接续的语音输入的转录889“how far to Rish andRash?”的对话示能表示888。在该示例中,转录889显露了DA两次错误地将“how far toDish n’Dash?”识别为了“how far to Rish and Rash?”。由于“Rish and Rash”可能不是真实位置,因此DA不能确定两个语音输入的用户意图。
在一些示例中,根据确定自然语言语音输入重复先前的自然语言语音输入来执行所接收的自然语言语音输入的转录。例如,图8CD示出了响应于语音输入(先前的语音输入)“where is Starbucks?”而显示的DA用户界面803。DA不正确地将语音输入识别为“whereis Star Mall?”,并且因此显示包括“Star Mall”的响应示能表示890。因为DA不正确地理解语音输入,所以用户重复语音输入。例如,图8CE示出了设备800接收先前的语音输入“where is Starbucks?”的重复(例如,接续重复)。DA确定语音输入重复先前的语音输入。图8CF示出了根据此类确定,设备800显示包括转录892的对话示能表示891。转录892显露了DA(例如,两次)不正确地将“where is Starbucks?”识别为了“where is Star Mall?”。
在一些示例中,在接收到自然语言语音输入(例如,将为其显示转录)之后,设备接收接续于自然语言语音输入的第二自然语音输入。在一些示例中,根据确定第二自然语言语音输入指示语音识别错误来执行显示转录。因此,在一些示例中,如果后续语音输入指示DA不正确地识别了先前的语音输入,则设备800显示先前的语音输入的转录。例如,图8CG示出了响应于语音输入“set a timer for 15minutes”而显示的DA用户界面803。DA不正确地将“15minutes”识别为了“50minutes”。DA用户界面803因此包括指示定时器被设置为50分钟的响应示能表示893。因为DA不正确地识别了语音输入,所以用户提供指示语音识别错误的第二语音输入(例如,“that’s not what I said”,“you heard me wrong”,“that’sincorrect”等)。例如,图8CH示出了设备800接收第二语音输入“that’s not what Isaid”。DA确定第二语音输入指示语音识别错误。图8CI示出了根据此类确定,设备800显示包括转录895的对话示能表示894。转录895显露了DA不正确地将“15minutes”识别为了“50minutes”。
在一些示例中,设备800接收对应于对所显示转录的选择的用户输入。响应于接收到用户输入,设备800同时显示键盘和包括转录的可编辑文本区场,例如,在DA用户界面803在其之上显示的用户界面之上显示键盘和可编辑文本区场。在一些示例中,设备800还在视觉上掩隐用户界面的至少一部分(例如,显示器801的未显示键盘或可编辑文本区场的部分)。继续图8CI的示例,图8CJ示出了设备800接收选择转录895的用户输入896(例如,轻击手势)。图8CK示出了响应于接收到用户输入896,设备800显示键盘897和包括转录895的可编辑文本区场898。图8CK还示出了设备800在视觉上掩隐用户界面802的一部分。
图8CL示出了设备800已接收到一个或多个键盘输入并且已根据该一个或多个键盘输入来编辑转录895,例如,将“set a timer for 50minutes”编辑为“set a timer for15minutes”。图8CL还示出了设备800接收对应于对键盘897的完成键8001的选择的用户输入899(例如,轻击手势)。图8CM示出了响应于接收到用户输入899,DA基于当前(例如,经编辑的)转录895来执行任务。例如,设备800显示DA用户界面803,该DA用户界面包括指示定时器被设置为15分钟的响应示能表示8002。设备800还提供语音输出“Ok,I set the timerfor 15minutes”。这样,用户可(例如,使用键盘输入)手动校正不正确的转录以使得执行正确的任务。
在一些示例中,在显示键盘和可编辑文本区场时,设备800接收对应于对视觉上被掩隐的用户界面的选择的用户输入。在一些示例中,响应于接收到用户输入,设备800停止显示键盘和可编辑文本区场。在一些示例中,设备800附加地或另选地停止显示DA用户界面803。例如,在图8CK至图8CL中,选择在视觉上被掩隐的用户界面802的用户输入(例如,轻击手势)可使得设备800恢复到图8CI的显示或者使得设备800停止显示DA用户界面803并且完整地显示用户界面802,如图8A所示。
在一些示例中,设备800在第一时间呈现数字助理结果(例如,响应示能表示和/或音频输出)。在一些示例中,根据确定数字助理结果对应于预先确定类型的数字助理结果,设备800在第一时间之后的预先确定的持续时间内自动停止显示DA用户界面803。因此,在一些示例中,设备800可在提供预先确定类型的结果之后快速(例如,在5秒内)消除DA用户界面803。示例性预先确定类型的结果对应于不需要进一步的用户输入(或不需要进一步的用户交互)的已完成任务。例如,此类结果包括确认已设置定时器、已发送消息并且家用电器(例如,灯)已改变状态的结果。不对应于预先确定的类型的结果的示例包括DA要求进一步的用户输入的结果,以及DA响应于用户的信息请求而提供信息(例如,新闻、维基百科文章、位置)的结果。
例如,图8CM示出了设备800在第一时间呈现结果,例如,完成提供语音输出“Ok,Iset the timer for 15minutes”。因为结果对应于预先确定的类型,所以图8CN示出了设备800在第一时间之后的预先确定的持续时间(例如,5秒)内(例如,在没有进一步的用户输入的情况下)自动消除DA。
图8CO至图8CT示出了当设备800是平板设备时DA用户界面803和示例性用户界面的示例。应当理解,当设备800是另一种类型的设备时,本文相对于为平板设备的设备800所讨论的任何技术同样适用(反之亦然)。
图8CO示出了显示用户界面8003的设备800。用户界面8003包括任务栏区域8004。在图8CO中,设备800在用户界面8003之上显示DA用户界面803。DA用户界面803包括在显示器801的第一部分处显示的指示符804和在显示器801的第二部分处显示的响应示能表示8005。如图所示,用户界面8003的一部分在显示器801的第三部分处保持可见(例如,未在视觉上被掩隐)。在一些示例中,第三部分位于显示器801的第一部分和显示器801的第二部分之间。在一些示例中,如图8CO所示,DA用户界面803的显示不会在视觉上掩隐任务栏区域8004,例如,DA用户界面803的任何部分都不会显示在任务栏区域8004之上。
图8CP示出了显示包括对话示能表示8006的DA用户界面803的设备800。如图所示,对话示能表示8006显示在显示器801的一部分处,该部分在显示器801的(显示指示符804的)第一部分与显示器的(显示响应示能表示8005的)第二部分之间。显示对话示能表示8006还使得响应示能表示8005(从图8CO)朝向显示器801的顶部部分移位。
图8CQ示出了显示包括媒体面板8007的用户界面8003的设备800,该媒体面板指示当前正在播放媒体。图8CR示出了在用户界面8003之上显示DA用户界面803的设备800。DA用户界面803包括响应示能表示8008和指示符804。如图所示,DA用户界面803的显示不会在视觉上掩隐媒体面板8007。例如,如图所示,DA用户界面803的显示元素(例如,指示符804、响应示能表示8008、对话示能表示)使得媒体面板8007朝向显示器801的顶部部分移位。
图8CS示出了显示包括键盘8010的用户界面8009的设备800。图8CT示出了在用户界面8009之上显示的DA用户界面803。如图8CT所示,在一些示例中,在包括键盘8010的用户界面8009之上显示DA用户界面803使得设备800在视觉上掩隐键盘8010的按键(例如,使这些按键变灰)。
图9A至图9C示出了根据各种示例的确定哪个设备应响应于语音输入的多个设备。具体地,图9A示出了设备900、902和904。设备900、902和904各自被实现为设备104、设备122、设备200或设备600。在一些示例中,设备900、902和904各自至少部分地实现DA系统700。
在图9A中,当用户提供包括用于发起DA的触发短语(例如,“嘿,Siri”)的语音输入例如“嘿,Siri,天气怎么样?”时,设备900、902和904的相应显示器不显示。在一些示例中,当用户提供语音输入时,设备900、902和904中的至少一者的相应显示器显示用户界面(例如,home屏幕用户界面、特定于应用程序的用户界面)。图9B示出了响应于接收到包括触发短语的语音输入,设备900、902和904各自显示指示符804。在一些示例中,以收听状态显示每个指示符804,例如,指示相应设备正在对音频输入进行采样。
在图9B中,设备900、902和904彼此协调(或经由第四设备协调)以确定哪个设备应对用户请求作出响应。用于设备协调以确定哪个设备应对用户请求作出响应的示例性技术在日期为2018年10月2日的名称为“INTELLIGENT DEVICE ARBITRATION AND CONTROL”的美国专利No.10,089,072中以及2020年5月11日提交的名称为“DIGITAL ASSISTANT HARDWAREABSTRACTION”的美国专利申请No.63/022,942中有所描述,这些专利申请的内容据此全文以引用方式并入。如图9B所示,当每个设备确定是否对用户请求作出响应时,每个设备仅显示指示符804。例如,设备900、902和904的显示器的不显示指示符804的相应部分各自不显示。在一些示例中,当设备900、902和904中的至少一者在用户提供语音输入时显示用户界面(先前的用户界面)时,在该至少一个设备确定是否对用户请求作出响应时,该至少一个设备仅在先前的用户界面之上另外显示指示符804。
图9C示出了设备902被确定为对用户请求作出响应的设备。如图所示,响应于确定另一个设备(例如,设备902)应对用户请求作出响应,设备900和904的显示停止显示(或停止显示指示符804以完全显示先前的用户界面)。如进一步所示,响应于确定设备902应对用户请求作出响应,设备902显示用户界面906(例如,锁定屏幕用户界面)和用户界面906之上的DA用户界面803。DA用户界面803包括对用户请求的响应。这样,当确定了多个设备中的哪个设备应对语音输入作出响应时,视觉干扰被最小化。例如,在图9B中,被确定为不对用户请求作出响应的设备的显示器仅显示指示符804,例如,与用整个显示器显示用户界面相反。
以上文所示和所述的方式确定多个设备中的哪个设备应对语音输入作出响应为用户提供了语音输入已被接收并正进行处理的反馈。此外,以此类方式提供反馈可有利地在响应于语音输入时减少不必要的视觉或听觉干扰。例如,不需要用户手动使得未被选择的设备停止显示和/或停止可听输出,并且最小化对未被选择的设备的用户界面的视觉干扰(例如,如果用户先前正在与未被选择的设备的用户界面进行交互)。为用户提供改进的视觉反馈增强了设备的可操作性,并且使用户-设备界面更有效(例如,通过减少期望执行所请求任务所需的用户输入的量),这又通过使得用户能够更快速且有效地使用设备而减少了电力使用并且延长了设备的电池寿命。
图10A至图10V示出了根据各种示例的用户界面和数字助理用户界面。图10A至图10V用于说明下文所述的过程,这些过程包括图18A至图18B中的过程。
图10A示出了设备800。设备800在显示器801上在用户界面之上显示DA用户界面803。在图10A中,设备800在home屏幕用户界面1001之上显示DA用户界面803。在其他示例中,用户界面是另一种类型的用户界面,诸如锁定屏幕用户界面或特定于应用程序的用户界面。
在一些示例中,DA用户界面803包括在显示器801的第一部分(例如,“指示符部分”)处显示的指示符804和在显示器801的第二部分(例如,“响应部分”)处显示的响应示能表示。显示器801的第三部分(例如,“UI部分”)显示用户界面(DA用户界面803在其之上显示的用户界面)的一部分。例如,在图10A中,显示器801的第一部分显示指示符804,显示器801的第二部分显示响应示能表示1002,并且显示器801的第三部分显示home屏幕用户界面1001的一部分。
在一些示例中,当在用户界面之上显示DA用户界面803时,设备800接收对应于对显示器801的第三部分的选择的用户输入。设备800确定用户输入是对应于第一类型的输入还是对应于第二类型的输入。在一些示例中,第一类型的用户输入包括轻击手势,并且第二类型的用户输入包括拖动或轻扫手势。
在一些示例中,根据确定用户输入对应于第一类型的输入,设备800停止显示DA用户界面803。停止显示DA用户界面803包括停止显示DA用户界面803的任何部分,例如,指示符804、响应示能表示和对话示能表示(如果包括的话)。在一些示例中,停止显示DA用户界面803包括用用户界面在相应部分处的显示替换DA用户界面803在显示器801的其相应部分处的元素的显示。例如,设备800在显示器801的第一部分处用用户界面的第一部分的显示替换指示符804的显示,并且在显示器801的第二部分处用用户界面的第二部分的显示替换响应示能表示的显示。
例如,图10B示出了设备800接收对应于对显示器801的第三部分的选择的用户输入1003(例如,轻击手势)。设备800确定用户输入1003对应于第一类型的输入。图10C示出了根据此类确定,设备800停止显示DA用户界面803并且完整地显示用户界面1001。
这样,用户可通过提供选择显示器801的不显示DA用户界面803的任何部分的一部分的输入来消除DA用户界面803。例如,在上文的图8S至图8X中,选择显示器801的显示在视觉上被掩隐的home屏幕用户界面802的部分的轻击手势使得设备800恢复到图8A的显示。
在一些示例中,用户输入对应于对在显示器801的第三部分中显示的可选择元素的选择。在一些示例中,根据确定用户输入对应于第一类型的输入,设备800显示对应于可选择元素的用户界面。例如,设备800用对应于可选择元素的用户界面的显示替换用户界面的(在显示器801的第三部分处显示的)该部分的显示、响应示能表示的显示以及指示符804的显示。
在一些示例中,用户界面是home屏幕用户界面1001,可选择元素是home屏幕用户界面1001的应用程序示能表示,并且对应于可选择元素的用户界面是对应于应用程序示能表示的用户界面。例如,图10D示出了在home屏幕用户界面1001之上显示的DA用户界面803。显示器801在第一部分处显示指示符804,在第二部分处显示响应示能表示1004,并且在第三部分处显示用户界面1001的一部分。图10E示出了设备800接收选择在第三部分中显示的健康应用程序示能表示1006的用户输入1005(例如,轻击手势)。图10F示出了根据设备800确定用户输入1005对应于第一类型的输入,设备800停止显示指示符804、响应示能表示1004和用户界面1001的该部分。设备800还显示对应于健康应用程序的用户界面1007。
在一些示例中,可选择元素是链接,并且对应于可选择元素的用户界面是对应于链接的用户界面。例如,图10G示出了在网络浏览应用程序用户界面1008之上显示的DA用户界面803。显示器801在第一部分处显示指示符804,在第二部分处显示响应示能表示1009,并且在第三部分处显示用户界面1008的一部分。图10G还示出了设备800接收选择在第三部分中显示的链接1011(例如,网页链接)的用户输入1010(例如,轻击手势)。图10H示出了根据设备800确定用户输入1010对应于第一类型的输入,设备800停止显示指示符804、响应示能表示1009和用户界面1008的该部分。设备800还显示对应于网页链接1011的用户界面1012。
这样,选择显示器801的第三部分的用户输入可消除DA用户界面803并且另外还使得根据用户所选择的内容来执行动作(例如,更新显示器801)。
在一些示例中,根据确定用户输入对应于第二类型的输入(例如,拖动或轻扫手势),设备800根据用户输入来更新显示器801的第三部分处的用户界面的显示。在一些示例中,当设备800更新显示器801的第三部分处的用户界面的显示时,设备800继续在DA用户界面803的元素的相应显示部分处显示DA用户界面的至少一些元素。例如,设备800在显示器801的第二部分处显示(例如,继续显示)响应示能表示。在一些示例中,设备800还在显示器801的第一部分处显示(例如,继续显示)指示符804。在一些示例中,更新第三部分处的用户界面的显示包括滚动用户界面的内容。
例如,图10I示出了在显示网页的网络浏览器应用程序用户界面1013之上显示的DA用户界面803。显示器801在第一部分处显示指示符804,在第二部分处显示响应示能表示1014,并且在第三部分处显示用户界面1013的一部分。图10I还示出了设备800接收选择第三部分的用户输入1015(例如,拖动手势)。图10J示出了根据设备800确定用户输入1015对应于第二类型的输入,设备800根据用户输入1015来更新(例如,滚动经过)用户界面1013的内容,例如滚动经过网页的内容。图10I至图10J示出了在(在显示器801的第三部分处)更新用户界面1013时,设备800继续在显示器801的第一部分处显示指示符804并且在显示器801的第二部分处显示响应示能表示1014。
又如,图10K示出了在home屏幕用户界面1001上显示的DA用户界面803。显示器801在第一部分处显示指示符804,在第二部分处显示响应示能表示1016,并且在第三部分处显示用户界面1001的一部分。图10K还示出了设备800接收选择第三部分的用户输入1017(例如,轻扫手势)。图10L示出了根据设备800确定用户输入1017对应于第二类型的输入,设备800根据用户输入1017来更新用户界面1001的内容。例如,如图所示,设备800更新用户界面1001以显示次要home屏幕用户界面1018,该次要home屏幕用户界面包括与home屏幕用户界面1001的应用程序示能表示不同的一个或多个应用程序示能表示。图10K至图10L示出了在更新用户界面1001时,设备800继续在显示器801的第一部分处显示指示符804并且在显示器801的第二部分处显示响应示能表示1016。
这样,用户可提供输入以更新DA用户界面803在其之上显示的用户界面,而该输入不会导致DA用户界面803消除。
在一些示例中,根据确定DA处于收听状态来执行更新显示器801的第三部分处的用户界面的显示。因此,设备800可仅在DA处于收听状态时使得拖动或轻扫手势能够更新(DA用户界面803在其之上显示的)用户界面。在此类示例中,如果DA不处于收听状态,响应于接收到对应于第二类型(并且对应于对显示器801的第三部分的选择)的用户输入,则设备800不响应于用户输入而更新显示801或停止显示DA用户界面803。在一些示例中,在DA处于收听状态时更新用户界面的显示时,指示符804的显示尺寸基于所接收的语音输入的振幅而变化,如上所述。
在一些示例中,当设备800在用户界面之上显示DA用户界面803时,设备800接收第二用户输入。在一些示例中,根据确定第二用户输入对应于第三类型的输入,设备800停止显示DA用户界面803。在一些示例中,第三类型的输入包括源自显示器801的底部朝向显示器801的顶部的轻扫手势。第三类型的输入有时被认为是“home轻扫”,因为在设备800显示不同于home屏幕用户界面的用户界面(并且不显示DA用户界面803)时接收到此类输入使得设备800恢复到home屏幕用户界面的显示。
图10M示出了在home屏幕用户界面1001之上显示DA用户界面803的设备800。DA用户界面803包括响应示能表示1020和指示符804。图10M还示出了设备800接收用户输入1019,即从显示器801的底部朝向显示器801的顶部的轻扫手势。图10N示出了根据设备800确定用户输入1019对应于第三类型的输入,设备800停止显示响应示能表示1020和指示符804。
在一些示例中,(DA用户界面803在其之上显示的)用户界面是特定于应用程序的用户界面。在一些示例中,当设备800在特定于应用程序的用户界面之上显示DA用户界面803时,设备800接收第二用户输入。在一些示例中,根据确定第二用户输入对应于第三类型的输入,设备停止显示DA用户界面803并且另外显示home屏幕用户界面。例如,图10O示出了在健康应用程序用户界面1022之上显示DA用户界面803的设备800。DA用户界面803包括响应示能表示1021和指示符804。图10O还示出了设备800接收用户输入1023,即从显示器801的底部朝向显示器801的顶部的轻扫手势。图10P示出了根据设备800确定用户输入1023对应于第三类型的输入,设备800显示home屏幕用户界面1001。例如,如图所示,设备800用home屏幕用户界面1001的显示替换指示符804、响应示能表示1021和消息传送应用程序用户界面1022的显示。
在一些示例中,当设备800在用户界面之上显示DA用户界面803时,设备800接收对应于对响应示能表示的选择的第三用户输入。响应于接收到第三用户输入,设备800停止显示DA用户界面803。例如,图10Q示出了在home屏幕用户界面1001之上显示的DA用户界面803。DA用户界面803包括响应示能表示1024、对话示能表示1025和指示符804。图10Q还示出了设备800接收选择响应示能表示1024的用户输入1026(例如,向上轻扫或拖动手势)。图10R示出了响应于接收到用户输入1026,设备800停止显示DA用户界面803。
在一些示例中,当设备800在用户界面之上显示用户界面803时,设备800接收对应于指示符804从显示器801的第一部分到显示器801的边缘的位移的第四用户输入。响应于接收到第四用户输入,设备800停止显示DA用户界面803。例如,图10S示出了在home屏幕用户界面1001之上显示的DA用户界面803。在图10S中,设备800接收将指示符从显示器801的第一部分移位到显示器801的边缘的用户输入1027(例如,拖动或轻扫手势)。图10S至图10V示出了响应于接收到用户输入1027(例如,响应于指示符804到达显示器801的边缘),设备800停止显示DA用户界面803。
5.数字助理响应模式
图11示出了根据各种示例的用于选择DA响应模式以及用于根据所选择的DA响应模式来呈现响应的系统1100。在一些示例中,系统1100实现在独立计算机系统(例如,设备104、122、200、400、600、800、900、902或904)上。使用硬件、软件或硬件和软件的组合来实现系统1100,以执行本文所讨论的原理。在一些示例中,系统1100的模块和功能在DA系统内实现,如上文相对于图7A至图7C所述的。
系统1100是示例性的,因此系统1100可具有比图示的部件更多或更少的部件,可组合两个或更多个部件,或者可具有不同的部件配置或布置。此外,尽管下文的讨论描述了在系统1100的单个部件处执行的功能,但是应当理解,这些功能可以在系统1100的其他部件处执行,并且这些功能可以在系统1100的多于一个部件处执行。
图12示出了根据各种示例的根据不同DA响应模式来呈现对所接收的自然语言输入的响应的设备800。在图12中,对于设备800的每个例示,设备800已发起DA并根据下文所述的静音响应模式、混合响应模式或话音响应模式来呈现对语音输入“天气怎么样?”的响应。实现系统1100的设备800选择DA响应模式,并使用下文所述的技术根据所选择的响应模式来呈现响应。
系统1100包括获取模块1102。获取模块1102响应于自然语言输入而获取响应包。响应包包括旨在作为对自然语言输入的响应的内容(例如,可交谈文本)。在一些示例中,响应包包括与数字助理响应示能表示(例如,响应示能表示1202)相关联的第一文本(内容文本)和与响应示能表示相关联的第二文本(标题文本)。在一些示例中,标题文本没有内容文本那么冗长(例如,包括更少的字词)。内容文本可提供对用户请求的完整响应,而标题文本可提供对请求的简略(例如,不完整)响应。对于对请求的完整响应,设备800可同时呈现标题文本和响应示能表示,例如,而内容文本的呈现可能不需要响应示能表示的呈现来进行完整响应。
例如,考虑图12中的自然语言输入“天气怎么样?”。内容文本是“当前气温70度,晴天,下雨概率为零。今天最高气温将达75度,最低气温将达60度”。标题文本只是“今天天气很好”。如图所示,标题文本旨在与在视觉上指示内容文本的信息的响应示能表示1202一起呈现。因此,单独呈现内容文本可以完全回答请求,而呈现标题文本和响应示能表示两者才可以完全回答请求。
在一些示例中,获取模块1102例如通过设备800按照相对于图7A至图7C所述那样处理自然语言输入来从本地获取响应包。在一些示例中,获取模块1102从外部设备诸如DA服务器106获取响应包。在此类示例中,DA服务器106按照相对于图7A至图7C所述那样处理自然语言输入,以确定响应包。在一些示例中,获取模块1102从本地获取响应包的一部分,从外部设备获取响应包的另一部分。
系统1100包括模式选择模块1104。选择模块1104基于与设备800相关联的上下文信息来从多个DA响应模式中选择DA响应模式。DA响应模式指定DA呈现对自然语言输入(例如,响应包)的响应的方式(例如,格式)。
在一些示例中,在设备800接收自然语言输入之后,选择模块1104例如基于在接收到自然语言输入之后获取的当前上下文信息来选择DA响应模式。在一些示例中,在获取模块1102获取响应包之后,选择模块1104例如基于在获取响应包之后获取的当前上下文信息来选择DA响应模式。当前上下文信息描述在选择模块1104选择DA响应模式时的上下文信息。在一些示例中,该时间在接收到自然语言输入之后并且在呈现对自然语言输入的响应之前。在一些示例中,该多个DA响应模式包括静音响应模式、混合响应模式和话音响应模式,将在下文进一步讨论。
系统1100包括格式化模块1106。响应于选择模块1104选择DA响应模式,格式化模块1106使得DA根据所选择的DA响应模式(例如,以与所选择的DA响应模式一致的格式)来呈现响应包。在一些示例中,所选择的DA响应模式是静音响应模式。在一些示例中,根据静音响应模式来呈现响应包包括显示响应示能表示和显示标题文本,而不提供表示(例如,说出)标题文本的音频输出(并且不提供内容文本)。在一些示例中,所选择的DA响应模式是混合响应模式。在一些示例中,根据混合响应模式来呈现响应包包括显示响应示能表示并且说出标题文本,而不显示标题文本(并且不提供上下文文本)。在一些示例中,所选择的DA响应模式是话音响应模式。在一些示例中,根据话音响应模式来呈现响应包包括说出内容文本,例如,而不呈现标题文本并且/或者不显示响应示能表示。
例如,在图12中,根据静音响应模式来呈现响应包包括显示响应示能表示1202,并且在对话示能表示1204中显示标题文本“今天天气很好”而不说出标题文本。根据混合响应模式来呈现响应包包括显示响应示能表示1202,并且说出标题文本“今天天气很好”而不显示标题文本。根据话音响应模式来呈现响应包包括说出内容文本“当前气温70度,晴天,下雨概率为零。今天最高气温将达75度,最低气温将达60度”。尽管图12示出了设备800在根据话音响应模式来呈现响应包时显示响应示能表示1202,但在其他示例中,在根据话音响应模式来呈现响应包时不显示响应示能表示。
在一些示例中,当DA根据静音响应模式来呈现响应时,设备800显示响应示能表示而不显示对话示能表示(例如,包括文本)。在一些示例中,设备800根据确定响应示能表示包括自然语言请求的直接回答而放弃提供文本。例如,设备800确定标题文本和响应示能表示各自包括各自回答用户请求的相应匹配文本(因此呈现标题文本冗余)。例如,对于自然语言请求“温度是多少?”,如果响应示能表示包括当前温度,则在静音模式下,设备800不显示任何标题文本,因为包括当前温度的标题文本对于响应示能表示是冗余的。相比之下,考虑示例性自然语言请求“冷吗?”针对请求的响应示能表示可能包括当前温度和天气状态,但可能不包括对请求的直接(例如,明确的)回答,诸如“是”或“否”。因此,对于此类自然语言输入,在静音模式下,设备800显示响应示能表示和包括对请求的直接回答例如“不,不冷。”的标题文本两者。
图12示出了在一些示例中,选择DA响应模式包括确定是(1)显示标题文本而不说出标题文本还是(2)说出标题文本而不显示标题文本。在一些示例中,选择响应模式包括确定是否说出内容文本。
一般来讲,当用户期望查看显示并且不期望音频输出时,静音响应模式可能是合适的。当用户期望查看显示并且期望音频输出时,混合响应模式可能是合适的。当用户不期望(或不能)查看显示时,话音响应模式可能是合适的。现在讨论用于选择DA响应模式的各种技术和上下文信息选择模块1104。
图13示出了根据各种示例的由选择模块1104实现以选择DA响应模式的示例性过程1300。在一些示例中,选择模块1104将过程1300实现为计算机可执行指令,例如这些计算机可执行指令存储在设备800的存储器中。
在框1302处,选择模块1104获取(例如,确定)当前上下文信息。在框1304处,模块1104基于当前上下文信息来确定是否选择话音模式。如果模块1104确定选择话音模式,则在框1306处,模块1104选择话音模式。如果模块1104确定不选择话音模式,则过程1300前进至框1308。在框1308处,模块1104在静音模式和混合模式之间进行选择。如果模块1104确定选择静音模式,则在框1310处,模块1104选择静音模式。如果模块1104确定选择混合模式,则在框1312处,模块1104选择混合模式。
在一些示例中,框1304和1308使用基于规则的系统来实现。例如,在框1304处,模块1104确定当前上下文信息是否满足用于选择话音模式的特定条件。如果满足特定条件,则模块1104选择话音模式。如果不满足特定条件(意味着当前上下文信息满足用于选择混合模式或话音模式的条件),则模块1104前进至框1308。类似地,在框1308处,模块1104确定当前上下文信息是否满足用于选择静音模式或混合模式的特定条件,并相应地选择静音模式或混合模式。
在一些示例中,框1304和1308使用概率(例如,机器学习)系统来实现。例如,在框1304处,模块1104基于当前上下文信息来确定选择话音模式的概率和不选择话音模式的概率(例如,选择静音模式或混合模式的概率),并且选择具有最高概率的分支。在框1308处,模块1104基于当前上下文信息来确定选择混合模式的概率和选择静音模式的概率,并且选择具有最高概率的模式。在一些示例中,话音模式、混合模式和静音模式概率总和为1。
现在讨论用于确定框1304和/或1308的各种类型的当前上下文信息。
在一些示例中,上下文信息包括设备800是否具有显示器。在基于规则的系统中,确定设备800不具有显示器满足用于选择话音模式的条件。在概率系统中,确定设备800不具有显示器增大了话音模式的概率并且/或者减小了混合模式的概率并且减小了静音模式的概率。
在一些示例中,上下文信息包括设备800是否检测到发起DA的话音输入(例如,“嘿,Siri”)。在基于规则的系统中,检测到发起DA的话音输入满足用于选择话音模式的条件。在基于规则的系统中,未检测到发起DA的话音输入不满足用于选择话音模式的条件(并且因此满足用于选择混合模式或静音模式的条件)。在概率系统中,在一些示例中,检测到发起DA的话音输入增大了话音模式的概率并且/或者减小了混合模式的概率并且减小了静音模式的概率。在概率系统中,在一些示例中,未检测到发起DA的话音输入减小了话音模式的概率并且/或者增大了混合模式的概率并且增大了静音模式的概率。
在一些示例中,上下文信息包括设备800是否检测到对设备800物理接触,该物理接触用于发起DA。在基于规则的系统中,未检测到物理接触满足用于选择话音模式的条件。在基于规则的系统中,检测到物理接触不满足用于选择话音模式的条件。在概率系统中,在一些示例中,未检测到物理接触增大了话音模式的概率并且/或者减小了混合模式的概率并且减小了静音模式的概率。在概率系统中,在一些示例中,检测到物理接触减小了话音模式的概率并且/或者增大了混合模式的概率并且增大了静音模式的概率。
在一些示例中,上下文信息包括设备800是否处于锁定状态。在基于规则的系统中,确定设备800处于锁定状态满足用于选择话音模式的条件。在基于规则的系统中,确定设备800不处于锁定状态不满足用于选择话音模式的条件。在概率系统中,在一些示例中,确定设备800处于锁定状态增大了话音模式的概率并且/或者减小了混合模式的概率并且减小了静音模式的概率。在概率系统中,在一些示例中,确定设备800不处于锁定状态减小了话音模式的概率并且/或者增大了混合模式的概率并且增大了静音模式的概率。
在一些示例中,上下文信息包括在发起DA之前设备800的显示器是否正在显示。在基于规则的系统中,确定在发起DA之前显示器未显示满足用于选择话音模式的条件。在基于规则的系统中,确定在发起DA之前显示器正在显示不满足用于选择话音模式的条件。在概率系统中,在一些示例中,确定在发起DA之前显示器未显示增大了话音模式的概率并且/或者减小了混合模式的概率并且减小了静音模式的概率。在概率系统中,在一些示例中,确定在发起DA之前显示器正在显示减小了话音模式的概率并且/或者增大了混合模式的概率并且增大了静音模式的概率。
在一些示例中,上下文信息包括设备800的显示取向。在基于规则的系统中,确定显示器面朝下满足用于选择话音模式的条件。在基于规则的系统中,确定显示器面朝上不满足用于选择话音模式的条件。在概率系统中,在一些示例中,确定显示器面朝下增大了话音模式的概率并且/或者减小了混合模式的概率并且减小了静音模式的概率。在概率系统中,在一些示例中,确定显示器正面朝上减小了话音模式的概率并且/或者增大了混合模式的概率并且增大了静音模式的概率。
在一些示例中,上下文信息包括设备800的显示器是否被遮挡。例如,设备800使用一个或多个传感器(例如,光传感器、麦克风、接近传感器)来确定用户是否无法查看显示器。例如,显示器可能位于至少部分封闭的空间(例如,口袋、袋子或抽屉)中或者可能被物体覆盖。在基于规则的系统中,确定显示器被遮挡满足用于选择话音模式的条件。在基于规则的系统中,确定显示器未被遮挡不满足用于选择话音模式的条件。在概率系统中,在一些示例中,确定显示器被遮挡增大了话音模式的概率并且/或者减小了混合模式的概率并且减小了静音模式的概率。在概率系统中,在一些示例中,确定显示器未被遮挡减小了话音模式的概率并且/或者增大了混合模式的概率并且增大了静音模式的概率。
在一些示例中,上下文信息包括设备800是否耦接到外部音频输出设备(例如,耳机、蓝牙设备、扬声器)。在基于规则的系统中,确定设备800耦接到外部设备满足用于选择话音模式的条件。在基于规则的系统中,确定设备800没有耦接到外部设备不满足用于选择话音模式的条件。在概率系统中,在一些示例中,确定设备800耦接到外部设备增大了话音模式的概率并且/或者减小了混合模式的概率并且减小了静音模式的概率。在概率系统中,在一些示例中,确定设备800没有耦接到外部设备减小了话音模式的概率并且/或者增大了混合模式的概率并且增大了静音模式的概率。
在一些示例中,上下文信息包括用户注视的方向是否指向设备800。在基于规则的系统中,确定用户注视的方向不指向设备800满足用于选择话音模式的条件。在基于规则的系统中,确定用户注视的方向指向设备800不满足用于选择话音模式的条件。在概率系统中,在一些示例中,确定用户注视的方向不指向设备800增大了话音模式的概率并且/或者减小了混合模式的概率并且减小了静音模式的概率。在概率系统中,在一些示例中,确定用户注视的方向指向设备800减小了话音模式的概率并且/或者增大了混合模式的概率并且增大了静音模式的概率。
在一些示例中,上下文信息包括是否在选择响应模式之前的预先确定的持续时间内检测到设备800的预先确定类型的手势。预先确定类型的手势包括例如使得设备800打开显示器的抬起和/或旋转手势。在基于规则的系统中,在预先确定的持续时间内未检测到预先确定类型的手势满足用于选择话音模式的条件。在基于规则的系统中,在预先确定的持续时间内检测到预先确定类型的手势不满足用于选择话音模式的条件。在概率系统中,在一些示例中,在预先确定的持续时间内未检测到预先确定类型的手势增大了话音模式的概率并且/或者减小了混合模式的概率并且减小了静音模式的概率。在概率系统中,在一些示例中,在预先确定的持续时间内检测到预先确定类型的手势减小了话音模式的概率并且/或者增大了混合模式的概率并且增大了静音模式的概率。
在一些示例中,上下文信息包括自然语言输入的方向。在基于规则的系统中,确定自然语言输入的方向不朝向设备800取向满足用于选择话音模式的条件。在基于规则的系统中,确定自然语言输入的方向朝向设备800取向不满足用于选择话音模式的条件。在概率系统中,在一些示例中,确定自然语言输入的方向不朝向设备800取向增大了话音模式的概率并且/或者减小了混合模式的概率并且减小了静音模式的概率。在概率系统中,在一些示例中,确定自然语言输入的方向朝向设备800取向减小了话音模式的概率并且/或者增大了混合模式的概率并且增大了静音模式的概率。
在一些示例中,上下文信息包括设备800在选择响应模式之前的预先确定的持续时间内是否检测到在设备800上执行的触摸(例如,选择响应示能表示的用户输入)。在基于规则的系统中,在预先确定的持续时间内未检测到触摸满足用于选择话音模式的条件。在基于规则的系统中,在预先确定的持续时间内检测到触摸不满足用于选择话音模式的条件。在概率系统中,在一些示例中,在预先确定的持续时间内未检测到触摸增大了话音模式的概率并且/或者减小了混合模式的概率并且减小了静音模式的概率。在概率系统中,在一些示例中,在预先确定的持续时间内检测到触摸减小了话音模式的概率并且/或者增大了混合模式的概率并且增大了静音模式的概率。
在一些示例中,上下文信息包括自然语言输入是否是键入输入,例如,与口头输入相反。在基于规则的系统中,确定自然语言输入不是键入输入满足用于选择话音模式的条件。在基于规则的系统中,确定自然语言输入是键入输入不满足用于选择话音模式的条件。在概率系统中,在一些示例中,确定自然语言输入不是键入输入增大了话音模式的概率并且/或者减小了混合模式的概率并且减小了静音模式的概率。在概率系统中,在一些示例中,确定自然语言输入是键入输入减小了话音模式的概率并且/或者增大了混合模式的概率并且增大了静音模式的概率。
在一些示例中,上下文信息包括设备800是否在选择响应模式之前的预先确定的持续时间(例如,10、15、30秒)内接收到通知(例如,文本消息、电子邮件消息、应用程序通知、系统通知)。在基于规则的系统中,在预先确定的持续时间内没有接收到通知满足用于选择话音模式的条件。在基于规则的系统中,在预先确定的持续时间内接收到通知不满足用于选择话音模式的条件。在概率系统中,在一些示例中,在预先确定的持续时间内没有接收到通知增打了话音模式的概率并且/或者减小了混合模式的概率并且减小了静音模式的概率。在概率系统中,在一些示例中,在预先确定的持续时间内接收到通知减小了话音模式的概率并且/或者增大了混合模式的概率并且增大了静音模式的概率。
在一些示例中,上下文信息包括由设备800检测到的环境噪声水平。高于阈值的环境噪声水平可表明用户不能听到音频输出,例如,因为用户处于嘈杂环境中。因此,检测到高于阈值的环境噪声水平可推荐选择静音模式(因为设备800在话音模式和混合模式下会提供音频输出)。因此,在基于规则的系统中,确定环境噪声水平低于阈值满足用于选择话音模式的条件,满足用于选择混合模式的条件(在框1308处),并且不满足用于选择静音模式的条件(在框1308处)。在基于规则的系统中,确定环境噪声水平高于阈值不满足用于选择话音模式的条件,不满足用于选择混合模式的条件(框1308),并且满足用于选择静音模式的条件(框1308)。在概率系统中,在一些示例中,确定环境噪声水平低于阈值增大了话音模式的概率,增大了混合模式的概率,并且减小了静音模式的概率。在概率系统中,在一些示例中,确定环境噪声水平高于阈值减小了话音模式的概率,减小了混合模式的概率,并且增大了静音模式的概率。
在一些示例中,上下文信息包括自然语言输入是否对应于低声输入。用户低声自然语言语音输入可表明用户不期望音频输出,例如,因为用户处于安静环境例如电影院中。因此,确定自然语言输入对应于低声输入可推荐选择静音模式。因此,在基于规则的系统中,确定自然语言输入不对应于低声输入满足用于选择话音模式的条件,满足用于选择混合模式的条件(在框1308处),并且不满足用于选择静音模式的条件(在框1308处)。在基于规则的系统中,确定自然语言输入对应于低声输入不满足用于选择话音模式的条件,不满足用于选择混合模式的条件(框1308),并且满足用于选择静音模式的条件(框1308)。在概率系统中,在一些示例中,确定自然语言输入不对应于低声输入增大了话音模式的概率,增大了混合模式的概率,并且减小了静音模式的概率。在概率系统中,在一些示例中,确定自然语言输入对应于低声输入减小了话音模式的概率,减小了混合模式的概率,并且增大了静音模式的概率。
在一些示例中,上下文信息包括用户的日程信息是否指示用户在忙碌中(例如,在会议中)。指示用户在忙碌中的日程信息可推荐选择静音模式。因此,在基于规则的系统中,确定日程信息指示用户不在忙碌中满足用于选择话音模式的条件,满足用于选择混合模式的条件(在框1308处),并且不满足用于选择静音模式的条件(在框1308处)。在基于规则的系统中,确定日程信息指示用户在忙碌中不满足用于选择话音模式的条件,不满足用于选择混合模式的条件(框1308),并且满足用于选择静音模式的条件(框1308)。在概率系统中,在一些示例中,确定日程信息指示用户不在忙碌中增大了话音模式的概率,增大了混合模式的概率,并且减小了静音模式的概率。在概率系统中,在一些示例中,确定日程信息指示用户在忙碌中减小了话音模式的概率,减小了混合模式的概率,并且增大了静音模式的概率。
在一些示例中,上下文信息包括设备800是否在车辆中。在一些示例中,设备800通过检测与车辆的配对(例如,经由蓝牙或经由Apple Inc.的CarPlay)或者通过确定指示设备800在车辆中的设置(例如,在驾驶时免打扰的设置)的激活来确定该设备是否在车辆中。在一些示例中,设备800使用设备800的位置和/或速度来确定其是否在车辆中。例如,指示设备800正在高速公路上每小时行驶65英里的数据可指示设备800在车辆中。
在基于规则的系统中,确定设备800在车辆中满足用于选择话音模式的条件。在基于规则的系统中,确定设备800不在车辆中不满足用于选择话音模式的条件。在概率系统中,在一些示例中,确定设备800在车辆中增加了话音模式的概率并且/或者减小了混合模式的概率并且减小了静音模式的概率。在概率系统中,在一些示例中,确定设备800不在车辆中减小了话音模式的概率并且/或者增大了混合模式的概率并且增大了静音模式的概率。
图14示出了根据各种示例的当确定用户在车辆中(例如,驾驶)时根据话音响应模式来呈现响应的设备800。如图所示,设备800在驾驶用户界面1400之上显示DA用户界面803。为了在用户驾驶时使视觉干扰最小化,DA用户界面803不包括响应示能表示并且仅包括指示符804。响应于自然语言输入“天气怎么样?”,DA说出内容文本“当前气温70度,晴天,下雨概率为零。今天最高气温将达75度,最低气温将达60度”。因此,DA可以在用户驾驶时减少视觉干扰的方式对用户的请求作出响应。
在一些示例中,上下文信息包括设备800是否正在执行预先确定类型的应用程序。在一些示例中,预先确定类型的应用程序包括导航应用程序。在基于规则的系统中,确定设备800正在执行预先确定类型的应用程序满足用于选择话音模式的条件。在基于规则的系统中,确定设备800未执行预先确定类型的应用程序不满足用于选择话音模式的条件。在概率系统中,在一些示例中,确定设备800正在执行预先确定类型的应用程序增大了话音模式的概率并且/或者减小了混合模式的概率并且减小了静音模式的概率。在概率系统中,在一些示例中,确定设备800未执行预先确定类型的应用程序减小了话音模式的概率并且/或者增大了混合模式的概率并且增大了静音模式的概率。
图15示出了根据各种示例的当设备800正在执行导航应用程序时根据话音响应模式来呈现响应的设备800。如图所示,设备800在导航应用程序用户界面1500之上显示DA用户界面803。为了最小化对用户界面1500的视觉干扰,DA用户界面803不包括响应示能表示(或对话示能表示)并且仅包括指示符804。响应于自然语言输入“天气怎么样?”,DA说出内容文本“当前气温70度,晴天,下雨概率为零。今天最高气温将达75度,最低气温将达60度”。因此,DA可以减少对正在执行的导航应用程序的视觉干扰的方式对用户的请求作出响应。
返回图13,在框1308处,模块1104在静音模式和混合模式之间进行选择。在一些示例中,模块1104选择已经满足特定条件的模式(回想一下,执行框1304还可确定当前上下文信息是否满足用于选择混合模式的条件或用于选择静音模式的条件)。在一些示例中,模块1104选择概率最高的模式(回想一下,执行框1304可确定静音模式和混合模式的相应概率)。在一些示例中,在框1308处,模块1104基于当前上下文信息来在静音模式和混合模式之间进行选择,如下文所述。
在一些示例中,上下文信息包括DA话音反馈设置,该DA话音反馈设置指示DA是否应响应于用户请求而提供音频输出。在一些示例中,话音反馈设置指示(例如,始终)提供话音反馈。在基于规则的系统中,确定话音反馈设置指示要提供话音反馈满足用于选择混合模式的条件并且不满足用于选择静音模式的条件。在概率系统中,在一些示例中,确定话音反馈设置指示要提供话音反馈增大了混合模式的概率并且减小了静音模式的概率。
在一些示例中,DA话音反馈设置指示利用设备800的开关(例如,铃声装置开关)来控制话音反馈。例如,话音反馈设置指示当铃声装置开关打开时提供话音反馈,并且当铃声装置开关关闭时不提供话音反馈。在此类示例中,在基于规则的系统中,确定铃声装置开关打开(话音反馈设置指示要提供话音反馈)满足用于选择混合模式的条件并且不满足用于选择静音模式的条件。在基于规则的系统中,确定铃声装置开关关闭(话音反馈设置指示不提供话音反馈)满足用于选择静音模式的条件并且不满足用于选择混合模式的条件。在概率系统中,在一些示例中,确定铃声装置开关打开增加了混合模式概率并且减小了静音模式概率。在概率系统中,在一些示例中,确定铃声装置开关关闭减小了混合模式概率并且增大了静音模式概率。
在一些示例中,DA话音反馈设置指示在“免提”上下文中要提供话音反馈。例如,DA话音反馈设置指定仅在使用语音输入发起DA或设备耦接到外部设备(例如,耳机、蓝牙设备或实现Apple Inc.的CarPlay的设备)/与该外部设备配对的情况下提供话音反馈。在一些示例中,确定话音反馈设置指示在“免提”上下文中要提供话音反馈使得模块1104确定设备800是否检测到发起DA的物理接触。在基于规则的系统中,确定设备800检测到物理接触满足用于选择静音模式的条件并且不满足用于选择混合模式的条件。在基于规则的系统中,确定设备800未检测到物理接触满足用于选择混合模式的条件并且不满足用于选择静音模式的条件。在概率系统中,在一些示例中,确定设备800检测到物理接触增大了静音模式概率并且减小了混合模式概率。在概率系统中,在一些示例中,确定设备800未检测到物理接触减小了静音模式概率并且增大了混合模式概率。在一些示例中,确定话音反馈设置不指示在“免提”上下文中要提供话音反馈使得模块1104根据另一个话音反馈设置来选择混合模式或静音模式(例如,以利用铃声装置开关控制话音反馈或总是提供话音反馈),如上文所述。
在一些示例中,在基于规则的系统中,即使不满足(或不确定)用于选择特定模式的一个或多个条件,例如,只要满足用于选择特定模式的其他条件,模块1104也选择特定DA响应模式。在一些示例中,用于选择特定模式的条件是按顺序的。例如,在模块1104确定上下文信息确实满足(或确实不满足)用于选择特定模式的条件之后,模块1104确定上下文信息是否满足用于选择特定模式的另一个条件,以此类推,以选择特定模式。在一些示例中,用于选择特定模式的特定条件优先于其他条件,例如,使得如果满足特定条件,则模块1104选择特定模式,而不管是否满足其他条件。满足(或不满足)各种条件以选择特定模式的特定条件和序列可根据模块1104的各种具体实施而变化。例如,如果设备800被确定为在车辆中,即使设备800检测到发起DA的物理接触(其满足用于选择混合模式或静音模式而不是话音模式的条件),模块1104也选择话音响应模式。
在一些示例中,不在概率系统中确定特定类型的上下文信息。在一些示例中,在概率系统中,模块1104将相应响应模式概率增大或减小的量基于所考虑的特定类型的上下文信息而变化,例如,使得当选择特定响应模式时,不同类型的上下文信息具有不同权重。例如,模块1104响应于确定第一上下文信息指示增加概率而将特定模式的概率增加第一量,并且响应于确定不同的第二上下文信息指示增加概率而将概率增加不同的第二量。作为具体示例,确定设备800在车辆中而将话音模式概率增加较大的量,而确定设备800处于锁定状态而将话音模式概率增加较小的量。在一些示例中,当模式的概率超过阈值时,模块1104选择特定模式。在一些示例中,特定类型的上下文信息不影响特定模式的概率,例如,使得当选择特定模式时上下文信息没有权重。例如,指示设备800未接收到发起DA的话音输入的上下文信息不影响选择话音模式、混合模式和静音模式或其子组合的概率。
应当理解,过程1300是示例性的,并且不限制模块1104可选择响应模式的方式。因此,本公开设想了基于上述的上下文信息来选择响应模式的其他方式。例如,不首先确定是否选择话音模式,而是模块1104基于上下文信息来同时确定话音模式、静音模式和混合模式的相应概率。又如,模块1104实现决策树或流程图,以符合本文教导内容的方式,基于上下文信息是否满足特定条件来选择响应模式。决策树或流程图的特定构型可根据模块1104的各种具体实施而变化。
在一些示例中,所选择的DA响应模式在整个多转弯DA交互过程中变化。多转弯DA交互描述了用户向DA提供第一自然语言输入并且DA呈现请求进一步的用户输入的响应的交互。因此,在一些示例中,设备800接收第一自然语言输入,并且DA根据第一所选择的响应模式(响应于第一自然语言输入)来呈现第一响应包。呈现第一响应包包括请求进一步的用户输入。因此,在呈现第一响应包之后,设备800接收响应于第一响应包的呈现的第二自然语言输入。设备800响应于第二自然语言输入而获取第二响应包。在接收到第二自然语言输入之后,设备800进一步从该多个DA响应模式中选择第二DA响应模式(不同于第一DA响应模式)。响应于选择第二响应模式,DA根据第二响应模式来呈现第二响应包。
图16示出了根据各种示例的在整个多转弯DA交互过程中的响应模式变化。在图16中,在时间T1处,用户已发起DA并提供第一语音输入“给Sam发送消息”。设备800响应于第一语音输入而获取第一响应包。第一响应包包括内容文本“您想要在给Sam的消息中说什么?”和标题文本“说什么?”。设备800还选择混合响应模式,例如,因为用户通过物理触摸设备800来发起DA并且/或者设备800的DA话音反馈设置指示要提供话音反馈。因此,在时间T2处,DA根据混合响应模式来呈现第一响应包。具体地,设备800说出标题文本“说什么?”,并且显示指示给Sam的消息的响应示能表示1600。
在时间T3处,用户已将设备800的显示器面朝下放置在桌子上,并且提供第二语音输入“晚餐吃什么?”。设备800响应于第二语音输入而获取第二响应包。第二响应包包括标题文本“这是您的消息,准备好发送了吗?”,并且内容文本“您给Sam的消息说‘晚餐吃什么?’准备好发送了吗?”。设备800还选择话音响应模式,例如,因为设备800的显示器在接收到第二语音输入之后面朝下。因此,在时间T4处,DA根据话音响应模式来呈现第二响应包。具体地,设备800说出内容文本(不是标题文本)“您给Sam的消息说‘晚餐吃什么?’准备好发送了吗?”。
这样,DA可以适合于设备800的当前上下文的方式智能地响应。例如,在时间T2处,混合模式是适当的,因为用户可查看显示器801。因此,在时间T2处,响应示能表示1600在视觉上指示给Sam的消息,而DA不在听觉上指示给Sam的消息,如设备800仅说出“说什么?”。DA不说较长的内容文本(指示给Sam的消息),因此提高了交互效率。然而,在时间T4,用户不能查看显示器801。因为用户不能在视觉上确认消息内容,所以DA不仅仅呈现标题文本“这是您的消息,准备好发送了吗?”。相反,DA说出信息更多的内容文本以在听觉上确认消息内容。
6.操作数字助理的过程
图17A至图17F示出了根据各种示例的用于操作数字助理的过程1700。例如,使用实现数字助理的一个或多个电子设备来执行过程1700。在一些示例中,使用客户端-服务器系统(例如,系统100)来执行过程1700,并且在服务器(例如,DA服务器106)和客户端设备(例如,设备800、900、902或904)之间以任何方式来划分过程1700的框。在其他示例中,在服务器和多个客户端设备(例如,移动电话和智能手表)之间划分过程1700的框。因此,虽然过程1700的部分在本文中被描述为由客户端-服务器系统的特定设备执行,但应当理解,过程1700不限于此。在其他示例中,使用仅客户端设备(例如,用户设备104)或仅多个客户端设备来执行过程1700。在过程1700中,一些框被任选地组合,一些框的次序被任选地改变,并且一些框被任选地省略。在一些示例中,可结合过程1700来执行附加步骤。
一般来讲,使用图8A至图8CT来示出过程1700,如上文所述。然而,应当理解,上述其他附图可同样适用于过程1700。
在框1701处,在(例如,在显示器801处)显示不同于数字助理用户界面的用户界面(例如,图8A中的用户界面802)时,接收用户输入。
在框1702处,根据确定用户输入满足用于发起数字助理的标准:数字助理用户界面(例如,图8F中的DA用户界面803)显示在用户界面之上。数字助理用户界面包括显示在显示器的第一部分处的数字助理指示符(例如,图8F中的指示符804)和显示在显示器的第二部分处的响应示能表示(例如,图8F中的响应示能表示805)。用户界面的一部分在显示器的第三部分处保持可见。在一些示例中,第三部分位于第一部分和第二部分之间。在一些示例中,在接收到用户输入之前,用户界面的该部分显示在显示器的第三部分处。在一些示例中,用户界面是home屏幕用户界面(例如,图8A中的用户界面802)或特定于应用的用户界面(例如,图8J中的用户界面809)。
在一些示例中,以第一状态显示响应示能表示(例如,图8G中的响应示能表示805)。在一些示例中,在框1703处,当在用户界面之上显示数字助理用户界面时,接收对应于对响应示能表示的选择的第二用户输入(例如,图8G中的输入806)。在一些示例中,在框1704处,响应于接收到第二用户输入,用处于第二状态的响应示能表示(例如,图8H中的响应示能表示805)的显示替换处于第一状态的响应示能表示的显示。在一些示例中,第一状态是紧凑状态,并且第二状态是展开状态。
在一些示例中,在框1705处,当以第二状态显示响应示能表示时,接收请求以第一状态显示响应示能表示的第三用户输入。在一些示例中,在框1706处,响应于接收到第三用户输入,用处于第一状态的响应示能表示的显示替换处于第二状态的响应示能表示的显示。
在一些示例中,在框1707处,当以第二状态显示响应示能表示时,接收对应于对响应示能表示的选择的第四用户输入(例如,图8I中的输入808)。在一些示例中,在框1708处,响应于接收到第四用户输入,显示对应于响应示能表示的应用程序的用户界面(例如,图8J中的用户界面809)。
在一些示例中,第二用户输入对应于对响应示能表示的第一部分(例如,图8G中的响应示能表示805的所选择的部分)的选择。在一些示例中,在框1709处,当在用户界面之上显示包括以第一状态显示的响应示能表示的数字助理用户界面时,接收对应于对响应示能表示的第二部分的选择的第五用户输入(例如,图8M中的输入812)。在一些示例中,在框1710处,响应于接收到第五用户输入,显示对应于响应示能表示的第二应用程序的第二用户界面(例如,图8N中的用户界面809)。在一些示例中,在框1711处,在显示第二应用程序的第二用户界面时,显示可选择的数字助理指示符(例如,图8N中的指示符810)。
在一些示例中,响应示能表示(例如,图8Q中的响应示能表示816)包括可选择元素(例如,图8Q中的可选择元素817)。在一些示例中,在框1712处,接收对应于对可选择元素的选择的用户输入(例如,图8R中的输入818)。在一些示例中,在框1713处,响应于接收到对应于对可选择元素的选择的用户输入,在响应示能表示之上显示对应于可选择元素的示能表示(例如,图8S中的示能表示819)。在一些示例中,在框1714处,当在响应示能表示之上显示对应于可选择元素的示能表示时,在视觉上掩隐在显示器的第三部分处的用户界面(例如,图8S中的用户界面802)。
在一些示例中,用户界面包括占据显示器的第四部分的输入区场(例如,图8Z中的输入区场826)。在一些示例中,在框1715处,接收对应于响应示能表示从显示器的第一部分到显示器的第四部分的位移的第六用户输入(例如,图8AB至图8AC中的输入828)。在一些示例中,在框1716处,响应于接收到第六用户输入,用输入区场中的响应示能表示的显示替换显示器的第一部分处的响应示能表示的显示(例如,图8AD)。在一些示例中,输入区场对应于消息传送应用程序、电子邮件应用程序或笔记记录应用程序。在一些示例中,在框1717处,在接收到第六用户输入时,将响应示能表示从显示器的第一部分连续移位到显示器的第四部分(例如,图8AB至图8AC)。在示例中,在框1718处,在连续移位响应示能表示时,停止显示数字助理指示符。
在一些示例中,用户界面包括占据显示器的第五部分的桌面小程序区域(例如,图8AG中的桌面小程序区域832)。在一些示例中,在框1719处,接收对应于响应示能表示从显示器的第一部分到显示器的第五部分的位移的第七用户输入(例如,图8AH至图8AI中的用户输入834)。在一些示例中,在框1720处,响应于接收到第七用户输入,用桌面小程序区域中的响应示能表示的显示替换在显示器的第一部分处的响应示能表示的显示(例如,图8AJ)。在一些示例中,响应示能表示对应于事件。在一些示例中,在框1721处,确定事件的完成。在一些示例中,在框1722处,响应于确定事件的完成,停止在桌面小程序区域中显示响应示能表示。
在一些示例中,在框1723处,接收自然语言输入,并且响应示能表示对应于数字助理对自然语言输入的响应。在一些示例中,数字助理确定对应于自然语言输入的多个结果,并且响应示能表示包括该多个结果中的单个结果(例如,图8AO中的响应示能表示839)。在一些示例中,响应示能表示包括可编辑文本区场,可编辑文本区场包括根据自然语言输入确定的文本(例如,图8AR中的可编辑文本区场850)。
在一些示例中,数字助理用户界面包括对话示能表示(例如,图8BM中的对话示能表示863)。在一些示例中,在框1724处,在显示器的第六部分处显示对话示能表示。在一些示例中,第六部分位于第一部分和第二部分之间。在一些示例中,对话示能表示包括由数字助理响应于自然语言输入而生成的对话。
在一些示例中,在框1725处,由数字助理确定针对自然语言输入的多个可选择的消歧选项。在一些示例中,对话包括该多个可选择的消歧选项(例如,图8BL中的选项865和866)。
在一些示例中,在框1726处,基于自然语言输入来确定主要用户意图。在一些示例中,响应示能表示对应于主要用户意图(例如,图8BN中的响应示能表示870)。在一些示例中,在框1727处,基于自然语言输入来确定另选用户意图。在一些示例中,对话包括对应于另选用户意图的可选择选项(例如,图8BN中的选项872)。
在一些示例中,以第三状态显示对话示能表示(例如,图8BO中的对话示能表示873)。在一些示例中,在框1728处,接收对应于对对话示能表示的选择的第八用户输入(例如,图8BP至图8BR中的用户输入874)。在一些示例中,在框1729处,响应于接收到第八用户输入,用处于第四状态的对话示能表示(例如,图8BQ、8BR、8BS或8BT中的对话示能表示)的显示替换处于第三状态的对话示能表示的显示。在一些示例中,第四状态对应于对话示能表示的最大尺寸。在一些示例中,当以第四状态显示对话示能表示时,使得用户输入能够滚动经过对话示能表示的内容(例如,图8BS)。
在一些示例中,处于第四状态的对话示能表示的显示占据显示器的第一部分的至少一部分(例如,图8BR至图8BT)。在一些示例中,在框1730处,以第四状态显示对话示能表示包括在响应示能表示的至少第三部分之上显示对话示能表示(例如,图8BR至图8BT)。
在一些示例中,在接收到第八用户输入之前,以第五状态显示响应示能表示(例如,图8BO中的响应示能表示875)。在一些示例中,在框1731处,以第四状态显示对话示能表示包括用处于第六状态的响应示能表示(例如,图8BR至图8BT中的响应示能表示875)的显示替换处于第五状态的响应示能表示的显示。
在一些示例中,第四状态对应于对话示能表示的第二最大尺寸。在一些示例中,当以第四状态显示对话示能表示时,响应示能表示的第四部分保持可见(例如,图8BS至图8BT)。
在一些示例中,在框1732处,接收对应于对响应示能表示的第四部分的选择的第九用户输入(例如,图8BT中的输入877)。在一些示例中,在框1733处,响应于接收到第九用户输入,用处于第七状态的对话示能表示的显示(例如,图8BU中的对话示能表示873)替换处于第四状态的对话示能表示的显示。在一些示例中,在框1734处,响应于接收到第九用户输入,在显示器的第一部分处显示响应示能表示(例如,图8BU中的响应示能表示875)。
在一些示例中,在框1735处,当以第四状态显示对话示能表示时,接收对应于对对话示能表示的选择的第十用户输入(例如,图8BX中的输入883)。在一些示例中,在框1736处,响应于接收到第十用户输入,用处于第八状态的对话示能表示的显示(例如,图8BY中的对话示能表示882)替换处于第四状态的对话示能表示的显示。
在一些示例中,在框1737,当以第四状态显示对话示能表示时,接收到对应于对响应示能表示的选择的第十一用户输入(例如,图8BV中的输入880)。在一些示例中,在框1738处,响应于接收到第十一用户输入,用处于第九状态的对话示能表示的显示(例如,图8BW中的对话示能表示879)替换处于第四状态的对话示能表示的显示。
在一些示例中,自然语言输入是自然语言语音输入。在一些示例中,在框1739处,在对话示能表示中显示自然语言语音输入的转录(图8BZ)。
在一些示例中,自然语言语音输入接续于在自然语言语音输入之前接收到的第二自然语言语音输入。在一些示例中,在框1740处,根据确定数字助理不能确定自然语言语音输入的用户意图并且不能确定第二自然语言语音输入的第二用户意图来执行显示转录(例如,图8CA至图8CC)。
在一些示例中,在框1741处,根据确定自然语言语音输入重复先前的自然语言语音输入来执行显示转录(例如,图8CD至图8CF)。
在一些示例中,在框1742处,在接收到自然语言语音输入之后,接收接续于自然语言语音输入的第二自然语言语音输入。在一些示例中,在框1743处,根据确定第二自然语言语音输入指示语音识别错误来执行显示转录(例如,图8CG至图8CI)。
在一些示例中,在第一时间呈现数字助理结果。在一些示例中,在框1744处,根据确定数字助理结果对应于预先确定类型的数字助理结果,在第一时间之后的预先确定的持续时间内自动停止显示数字助理用户界面(例如,图8CM至图8CN)。
上文参考图17A至图17F所述的操作任选地由图1至图4、图6A至图6B、图7A至图7C和图8A至图8CT中所描绘的部件来实现。例如,过程1700的操作可由设备800来实现。本领域的普通技术人员会清楚地知道如何基于在图1至图4、图6A至图6B和图7A至图7C中所描绘的部件来实现其他过程。
需注意,上文相对于图17A至图17F所述的过程1700的详情也以类似方式适用于下文所述的过程1800。例如,过程1800任选地包括上述过程1700的特征中的一个或多个特征(反之亦然)。例如,当与下文相对于过程1800所述的用户界面进行交互时,用户可提供一个或多个输入以与数字助理用户界面进行交互,如相对于过程1700所述。为了简明起见,这些详情在下文中不再重复。
7.操作数字助理的过程
图18A至图18B示出了根据各种示例的用于操作数字助理的过程1800。例如,使用实现数字助理的一个或多个电子设备来执行过程1800。在一些示例中,使用客户端-服务器系统(例如,系统100)来执行过程1800,并且在服务器(例如,DA服务器106)和客户端设备(例如,设备800、900、902或904)之间以任何方式来划分过程1800的框。在其他示例中,在服务器和多个客户端设备(例如,移动电话和智能手表)之间划分过程1800的框。因此,虽然过程1800的部分在本文中被描述为由客户端-服务器系统的特定设备执行,但应当理解,过程1800不限于此。在其他示例中,使用仅客户端设备(例如,用户设备104)或仅多个客户端设备来执行过程1800。在过程1800中,一些框被任选地组合,一些框的次序被任选地改变,并且一些框被任选地省略。在一些示例中,可结合过程1800来执行附加步骤。
一般来讲,使用图10A至图10V来示出过程1800,如上文所述。然而,应当理解,上述其他附图可同样适用于过程1800。
在框1801处,数字助理用户界面(例如,图10A中的用户界面803)显示在用户界面(例如,图10A中的用户界面1001)之上。数字助理用户界面包括在显示器的第一部分处显示的数字助理指示符(例如,图10A中的指示符804)和在显示器的第二部分处显示的响应示能表示(例如,图10A中的响应示能表示1002)。
在框1802处,当在用户界面之上显示数字助理用户界面时,接收对应于对显示器的第三部分的选择的用户输入(例如,图10B中的输入1003或图10I中的输入1015)。第三部分显示用户界面的一部分。在一些示例中,用户界面不同于数字助理用户界面。
在框1803处,根据确定用户输入对应于第一类型的输入(例如,图10B中的输入1003),停止显示数字助理指示符和响应示能表示(例如,图10C)。在一些示例中,第一类型的输入包括轻击手势。在一些示例中,在框1804处,停止显示数字助理指示符和响应示能表示包括在显示器的第一部分处用用户界面的第一部分的显示替换数字助理指示符的显示。在一些示例中,在框1805处,停止显示数字助理指示符和响应示能表示包括在显示器的第二部分处用用户界面的第二部分的显示替换响应示能表示的显示。
在一些示例中,用户输入对应于对在显示器的第三部分中显示的可选择元素(例如,图10E中的可选择元素1006或图10G中的可选择元素1011)的选择。在一些示例中,在框1806处,根据确定用户输入对应于第一类型的输入,显示对应于可选择元素的用户界面(例如,图10F中的用户界面1007或图10H中的用户界面1012)。在一些示例中,在框1807处,显示对应于可选择元素的用户界面包括用对应于可选择元素的用户界面的显示替换用户界面的该部分的显示、响应示能表示的显示和数字助理指示符的显示。
在一些示例中,可选择元素是链接(例如,图10G中的链接1011),并且对应于可选择元素的用户界面是对应于链接的用户界面(图10H中的用户界面1012)。在一些示例中,用户界面是home屏幕用户界面(例如,图10E中的用户界面1001),可选择元素是home屏幕用户界面的应用程序示能表示(例如,图10E中的应用程序示能表示1006),并且对应于可选择元素的用户界面是对应于应用程序示能表示的用户界面(例如,图10F中的用户界面1007)。
在一些示例中,在框1808处,根据确定用户输入对应于不同于第一类型的输入的第二类型的输入(例如,图10I中的输入1015),在第二部分处显示响应示能表示时,根据用户输入更新第三部分处的用户界面的显示(例如,图10J)。在一些示例中,第二类型的输入包括拖动手势。在一些示例中,在框1809处,更新第三部分处的用户界面的显示包括滚动用户界面的内容(例如,图10I至图10J和图10K至图10L)。在一些示例中,在框1810处,在第一部分处显示数字助理指示符时,执行更新第三部分处的用户界面的显示(例如,图10I至图10J和图10K至图10L)。在一些示例中,进一步根据确定对应于数字助理用户界面的数字助理处于收听状态来执行更新第三部分处的用户界面的显示。
在一些示例中,在框1811处,当在用户界面之上显示数字助理用户界面时,接收第二用户输入(例如,图10M中的输入1019或图10O中的输入1023)。在一些示例中,在框1812处,根据确定第二用户输入对应于第三类型的输入,停止显示响应示能表示和数字助理指示符(例如,图10M至图10N或图10O至图10P)。在一些示例中,用户界面是特定于应用程序的用户界面(例如,图10O中的用户界面1022)。在一些示例中,在框1813处,根据确定第二用户输入对应于第三类型的输入,显示home屏幕用户界面(例如,图10P中的用户界面1001)。
在一些示例中,在框1814处,当在用户界面上显示数字助理用户界面时,接收对应于对响应示能表示的选择的第三用户输入(例如,图10Q中的输入1026)。在一些示例中,在框1815处,响应于接收到第三用户输入,停止显示响应示能表示和数字助理指示符(例如,图10R)。
上文参考图18A至图18B所述的操作任选地由图1至图4、图6A至图6B、图7A至图7C和图10A至图10V中所描绘的部件来实现。例如,过程1800的操作可由设备800来实现。本领域的普通技术人员会清楚地知道如何基于在图1至图4、图6A至图6B和图7A至图7C中所描绘的部件来实现其他过程。
需注意,上文相对于图18A至图18B所述的过程1800的详情也以类似方式适用于下文所述的过程1900。例如,过程1900任选地包括上述过程1800的特征中的一个或多个特征(反之亦然)。例如,当数字助理根据所选择的数字助理响应模式来呈现响应时,用户可提供一个或多个输入以与数字助理用户界面进行交互(如相对于过程1800所述),如下文相对于过程1900所述。为了简明起见,这些详情在下文中不再重复。
8.用于选择数字助理响应模式的过程
图19A至图19E示出了根据各种示例的用于选择数字助理响应模式的过程1900。例如,使用实现数字助理的一个或多个电子设备来执行过程1900。在一些示例中,使用客户端-服务器系统(例如,系统100)来执行过程1900,并且在服务器(例如,DA服务器106)和客户端设备(例如,设备800、900、902或904)之间以任何方式来划分过程1900的框。在其他示例中,在服务器和多个客户端设备(例如,移动电话和智能手表)之间划分过程1900的框。因此,虽然过程1900的部分在本文中被描述为由客户端-服务器系统的特定设备执行,但应当理解,过程1900不限于此。在其他示例中,使用仅客户端设备(例如,用户设备104)或仅多个客户端设备来执行过程1900。在过程1900中,一些框被任选地组合,一些框的次序被任选地改变,并且一些框被任选地省略。在一些示例中,可结合过程1900来执行附加步骤。
一般来讲,使用图11至图16来示出过程1900,如上文所述。然而,应当理解,上述其他附图可同样适用于过程1900。
在框1901处,(例如,由设备800)接收自然语言输入。
在框1902处,(例如,由设备800)发起数字助理。
在框1903处,根据发起数字助理,(例如,通过模块1102)获取响应于自然语言输入的响应包。在一些示例中,响应包包括与数字助理响应示能表示相关联的第一文本;以及与数字助理响应示能表示相关联的第二文本。在一些示例中,第二文本具有比第一文本更少的字词。
在框1904处,在接收到自然语言输入之后,基于与电子设备相关联的上下文信息(例如,通过模块1104)从多个数字助理响应模式中选择数字助理的第一响应模式。在一些示例中,该多个数字助理响应模式包括静音响应模式、混合响应模式和话音响应模式(例如,图12)。在一些示例中,在获取响应包之后执行对数字助理的第一响应模式的选择。在一些示例中,在框1905处,选择第一响应模式包括确定:是显示第二文本而不提供表示第二文本的音频输出,还是提供表示第二文本的音频输出而不显示第二文本。在一些示例中,在框1906处,选择第一响应模式包括确定是否提供表示第一文本的音频输出。
在框1907处,响应于选择第一响应模式,由数字助理根据第一响应模式(例如,使用格式化模块1106)来呈现响应包。
在一些示例中,第一响应模式是静音响应模式,并且由数字助理根据第一响应模式来呈现响应包包括:显示数字助理响应示能表示并且显示第二文本,而不提供表示第二文本的第二音频输出,如框1908所示。
在一些示例中,上下文信息包括数字助理话音反馈设置,并且基于确定数字助理话音反馈设置指示不提供话音反馈选择静音响应模式,如框1909所示。
在一些示例中,上下文信息包括对电子设备的物理接触的检测,该物理接触用于发起数字助理,并且基于检测到物理接触选择静音响应模式,如框1910所示。
在一些示例中,上下文信息包括电子设备是否处于锁定状态,并且基于确定电子设备不处于锁定状态选择静音响应模式,如框1911所示。
在一些示例中,上下文信息包括电子设备的显示器是否在发起数字助理之前正在显示,并且基于确定显示器在发起数字助理之前正在显示选择静音响应模式,如框1912所示。
在一些示例中,上下文信息包括对在选择静音响应模式之前的预先确定的持续时间内在电子设备上执行的触摸的检测,并且基于检测到触摸选择静音响应模式,如框1913所示。
在一些示例中,上下文信息包括对在选择静音响应模式之前的第二预先确定的持续时间内的电子设备的预先确定的手势的检测,并且基于检测到预先确定的手势选择静音响应模式,如框1914所示。
在一些示例中,第一响应模式是混合响应模式,并且由数字助理根据第一响应模式来呈现响应包包括:显示数字助理响应示能表示并且提供表示第二文本的第二音频输出而不显示第二文本,如框1915所示。
在一些示例中,上下文信息包括数字助理话音反馈设置,并且基于确定数字助理话音反馈设置指示要提供话音反馈选择混合响应模式,如框1916所示。
在一些示例中,上下文信息包括对电子设备的物理接触的检测,该物理接触用于发起数字助理,并且基于检测到物理接触选择混合响应模式,如框1917所示。
在一些示例中,上下文信息包括电子设备是否处于锁定状态,并且基于确定电子设备不处于锁定状态选择混合响应模式,如框1918所示。
在一些示例中,上下文信息包括电子设备的显示器是否在发起数字助理之前正在显示,并且基于确定显示器在发起数字助理之前正在显示选择混合响应模式,如框1919所示。
在一些示例中,上下文信息包括对在选择混合响应模式之前的预先确定的持续时间内在电子设备上执行的触摸的检测,并且基于检测到触摸选择混合响应模式,如框1920所示。
在一些示例中,上下文信息包括对在选择混合响应模式之前的第二预先确定的持续时间内的电子设备的预先确定的手势的检测,并且基于检测到预先确定的手势选择混合响应模式,如框1921所示。
在一些示例中,第一响应模式为话音响应模式,并且由数字助理根据第一响应模式来呈现响应包包括:提供表示第一文本的音频输出,如框1922所示。
在一些示例中,上下文信息包括确定电子设备在车辆中,并且基于确定电子设备在车辆中选择话音响应模式,如框1923所示。
在一些示例中,上下文信息包括确定电子设备耦接到外部音频输出设备,并且基于确定电子设备耦接到外部音频输出设备选择话音响应模式,如框1924所示。
在一些示例中,上下文信息包括对发起数字助理的话音输入的检测,并且基于检测到话音输入选择话音响应模式,如框1925所示。
在一些示例中,上下文信息包括电子设备是否处于锁定状态,并且基于确定电子设备处于锁定状态选择话音响应模式,如框1926所示。
在一些示例中,上下文信息包括电子设备的显示器是否在发起数字助理之前正在显示,并且基于确定电子设备的显示器在发起数字助理之前未显示选择话音响应模式,如框1927所示。
在一些示例中,在框1928处,在由数字助理呈现响应包之后,(例如,由设备800)接收响应于响应包的呈现的第二自然语言输入。
在一些示例中,在框1929处,(例如,通过模块1102)获取响应于第二自然语言输入的第二响应包。
在一些示例中,在框1930处,在接收到第二自然语言语音输入之后,(例如,通过模块1104)从该多个数字助理响应模式中选择数字助理的第二响应模式,其中第二响应模式不同于第一响应模式。
在一些示例中,在框1931处,响应于选择第二响应模式,由数字助理根据第二响应模式(例如,使用模块1106)来呈现第二响应包(例如,图16)。
上文参考图19A至图19E所述的操作任选地由图1至图4、图6A至图6B、图7A至图7C、图11和图12中所描绘的部件来实现。例如,过程1900的操作可由实现系统1100的设备800来实现。本领域的普通技术人员会清楚地知道如何基于在图1至图4、图6A至图6B和图7A至图7C中所描绘的部件来实现其他过程。
根据一些具体实施,提供一种计算机可读存储介质(例如,非暂态计算机可读存储介质),该计算机可读存储介质存储供电子设备的一个或多个处理器执行的一个或多个程序,该一个或多个程序包括用于执行本文所述方法或过程中的任一个的指令。
根据一些具体实施,提供了一种电子设备(例如,便携式电子设备),该电子设备包括用于执行本文所述的方法和过程中的任一者的装置。
根据一些具体实施,提供了一种电子设备(例如,便携式电子设备),该电子设备包括处理单元,该处理单元被配置为执行本文所述的方法和过程中的任一者。
根据一些具体实施,提供了一种电子设备(例如,便携式电子设备),该电子设备包括一个或多个处理器和存储用以由一个或多个处理器执行的一个或多个程序的存储器,该一个或多个程序包括用于执行本文所描述的方法和过程中的任一者的指令。
出于解释的目的,前面的描述是通过参考具体实施方案来描述的。然而,上面的例示性论述并非旨在是穷尽的或将本发明限制为所公开的精确形式。根据以上教导内容,很多修改形式和变型形式都是可能的。选择并描述这些实施方案是为了最好地解释这些技术的原理及其实际应用程序。本领域的其他技术人员由此能够最好地利用这些技术以及具有适合于所预期的特定用途的各种修改的各种实施方案。
下文将描述根据本公开的一些示例性项目。
项目1.一种方法,包括:
在具有显示器和触敏表面的电子设备处:
在显示不同于数字助理用户界面的用户界面时,接收用户输入;
根据确定所述用户输入满足用于发起数字助理的标准:在所述用户界面之上显示所述数字助理用户界面,所述数字助理用户界面包括:
数字助理指示符,所述数字助理指示符显示在所述显示器的第一部分处;和
响应示能表示,所述响应示能表示显示在所述显示器的第二部分处;其中:
所述用户界面的一部分在所述显示器的第三部分处保持可见;并且
所述第三部分位于所述第一部分和所述第二部分之间。
项目2.根据项目1所述的方法,其中,所述响应示能表示以第一状态显示,所述方法还包括:
当在所述用户界面之上显示所述数字助理用户界面时,接收对应于对所述响应示能表示的选择的第二用户输入;以及
响应于接收到所述第二用户输入,用处于第二状态的所述响应示能表示的显示来替换处于所述第一状态的所述响应示能表示的显示。
项目3.根据项目2所述的方法,其中,所述第一状态是紧凑状态,并且所述第二状态是展开状态。
项目4.根据项目2至3中任一项所述的方法,还包括:
当以所述第二状态显示所述响应示能表示时,接收请求以所述第一状态显示所述响应示能表示的第三用户输入;以及
响应于接收到所述第三用户输入,用处于所述第一状态的所述响应示能表示的显示来替换处于所述第二状态的所述响应示能表示的显示。
项目5.根据项目2至4中任一项所述的方法,还包括:
当以所述第二状态显示所述响应示能表示时,接收对应于对所述响应示能表示的选择的第四用户输入;以及
响应于接收到所述第四用户输入,显示对应于所述响应示能表示的应用程序的用户界面。
项目6.根据项目2至5中任一项所述的方法,其中,所述第二用户输入对应于对所述响应示能表示的第一部分的选择,所述方法还包括:
当在所述用户界面之上显示所述数字助理用户界面时,接收对应于对所述响应示能表示的第二部分的选择的第五用户输入;以及
响应于接收到所述第五用户输入,显示对应于所述响应示能表示的第二应用程序的第二用户界面。
项目7.根据项目6所述的方法,还包括:
在显示所述第二应用程序的所述第二用户界面时,显示可选择的数字助理指示符。
项目8.根据项目1至7中任一项所述的方法,其中,所述响应示能表示包括可选择元素,所述方法还包括:
接收对应于对所述可选择元素的选择的用户输入;以及
响应于接收到对应于对所述可选择元素的选择的用户输入,在所述响应示能表示之上显示对应于所述可选择元素的示能表示。
项目9.根据项目8所述的方法,还包括:
当在所述响应示能表示之上显示对应于所述可选择元素的所述示能表示时,在视觉上掩隐在所述显示器的所述第三部分处的所述用户界面。
项目10.根据项目1至9中任一项所述的方法,其中,所述用户界面包括占据所述显示器的第四部分的输入区场,所述方法还包括:
接收对应于所述响应示能表示从所述显示器的所述第一部分到所述显示器的所述第四部分的位移的第六用户输入;以及
响应于接收到所述第六用户输入,用所述输入区场中的所述响应示能表示的显示来替换所述显示器的所述第一部分处的所述响应示能表示的显示。
项目11.根据项目10所述的方法,其中,所述输入区场对应于消息传送应用程序、电子邮件应用程序或笔记记录应用程序。
项目12.根据项目10至11中任一项所述的方法,还包括:
在接收到所述第六用户输入时,将所述响应示能表示从所述显示器的所述第一部分连续移位到所述显示器的所述第四部分;以及
在连续移位所述响应示能表示时,停止显示所述数字助理指示符。
项目13.根据项目1至12中任一项所述的方法,其中,所述用户界面包括占据所述显示器的第五部分的桌面小程序区域,所述方法还包括:
接收对应于所述响应示能表示从所述显示器的所述第一部分到所述显示器的所述第五部分的位移的第七用户输入;以及
响应于接收到所述第七用户输入,用所述桌面小程序区域中的所述响应示能表示的显示来替换所述显示器的所述第一部分处的所述响应示能表示的显示。
项目14.根据项目13所述的方法,其中,所述响应示能表示对应于事件,所述方法还包括:
确定所述事件的完成;以及
响应于确定所述事件的完成,停止在所述桌面小程序区域中显示所述响应示能表示。
项目15.根据项目1至14中任一项所述的方法,还包括:
接收自然语言输入,其中,所述响应示能表示对应于由所述数字助理对所述自然语言输入的响应。
项目16.根据项目15所述的方法,其中:
所述数字助理确定对应于所述自然语言输入的多个结果;并且
所述响应示能表示包括所述多个结果中的单个结果。
项目17.根据项目15至16中任一项所述的方法,其中,所述响应示能表示包括可编辑文本区场,所述可编辑文本区场包括从所述自然语言输入确定的文本。
项目18.根据项目15至17中任一项所述的方法,其中:
所述数字助理用户界面还包括在所述显示器的第六部分处显示的对话示能表示;并且
所述第六部分位于所述第一部分和所述第二部分之间。
项目19.根据项目18所述的方法,其中,所述对话示能表示包括由所述数字助理生成的响应于所述自然语言输入的对话。
项目20.根据项目19所述的方法,还包括:
由所述数字助理确定针对所述自然语言输入的多个可选择的消歧选项,其中,所述对话包括所述多个可选择的消歧选项。
项目21.根据项目19至20中任一项所述的方法,还包括:
基于所述自然语言输入来确定主要用户意图,其中,所述响应示能表示对应于所述主要用户意图;以及
基于所述自然语言输入来确定另选用户意图,其中,所述对话包括对应于所述另选用户意图的可选择选项。
项目22.根据项目18至21中任一项所述的方法,其中,所述对话示能表示以第三状态显示,所述方法还包括:
接收对应于对所述对话示能表示的选择的第八用户输入;以及
响应于接收到所述第八用户输入,用处于第四状态的所述对话示能表示的显示来替换处于所述第三状态的所述对话示能表示的显示。
项目23.根据项目22所述的方法,其中,所述第四状态对应于所述对话示能表示的最大尺寸,所述方法还包括:
当以所述第四状态显示所述对话示能表示时,使得用户输入能够滚动经过所述对话示能表示的内容。
项目24.根据项目22至23中任一项所述的方法,其中:
处于所述第四状态的所述对话示能表示的显示占据所述显示器的所述第一部分的至少一部分;并且
以所述第四状态显示所述对话示能表示包括在所述响应示能表示的至少第三部分之上显示所述对话示能表示。
项目25.根据项目24所述的方法,其中:
在接收到所述第八用户输入之前,所述响应示能表示以第五状态显示;并且
以所述第四状态显示所述对话示能表示包括用处于第六状态的所述响应示能表示的显示来替换处于第五状态的所述响应示能表示的显示。
项目26.根据项目24至25中任一项所述的方法,其中:
所述第四状态对应于所述对话示能表示的第二最大尺寸;并且
当以所述第四状态显示所述对话示能表示时,所述响应示能表示的第四部分保持可见。
项目27.根据项目26所述的方法,还包括:
接收对应于对所述响应示能表示的所述第四部分的选择的第九用户输入;以及
响应于接收到所述第九用户输入:
用处于第七状态的所述对话示能表示的显示来替换处于所述第四状态的所述对话示能表示的显示;并且
在所述显示器的所述第一部分处显示所述响应示能表示。
项目28.根据项目22至27中任一项所述的方法,还包括:
当以所述第四状态显示所述对话示能表示时,接收对应于对所述对话示能表示的选择的第十用户输入;以及
响应于接收到所述第十用户输入,用处于第八状态的所述对话示能表示的显示来替换处于所述第四状态的所述对话示能表示的显示。
项目29.根据项目22至28中任一项所述的方法,还包括:
当以所述第四状态显示所述对话示能表示时,接收对应于对所述响应示能表示的选择的第十一用户输入;以及
响应于接收到所述第十一用户输入,用处于第九状态的所述对话示能表示的显示来替换处于所述第四状态的所述对话示能表示的显示。
项目30.根据项目18至29中任一项所述的方法,其中,所述自然语言输入是自然语言语音输入,所述方法还包括:
在所述对话示能表示中显示所述自然语言语音输入的转录。
项目31.根据项目30所述的方法,其中:
所述自然语言语音输入接续于在所述自然语言语音输入之前接收到的第二自然语言语音输入;并且
根据确定所述数字助理不能确定针对所述自然语言语音输入的用户意图并且不能确定针对所述第二自然语言语音输入的第二用户意图来执行显示所述转录。
项目32.根据项目30所述的方法,其中,根据确定所述自然语言语音输入重复先前的自然语言语音输入来执行显示所述转录。
项目33.根据项目30所述的方法,还包括:
在接收到所述自然语言语音输入之后,接收接续于所述自然语言语音输入的第二自然语言语音输入,其中,根据确定所述第二自然语言语音输入指示语音识别错误来执行显示所述转录。
项目34.根据项目1至33中任一项所述的方法,其中,在第一时间呈现数字助理结果,所述方法还包括:
根据确定所述数字助理结果对应于预先确定类型的数字助理结果,在所述第一时间之后的预先确定的持续时间内自动停止显示所述数字助理用户界面。
项目35.根据项目1至34中任一项所述的方法,其中,所述用户界面是home屏幕用户界面或特定于应用程序的用户界面。
项目36.根据项目1至35中任一项所述的方法,其中,在接收到所述用户输入之前,所述用户界面的所述一部分显示在所述显示器的所述第三部分处。
项目37.一种方法,包括:
在具有显示器和触敏表面的电子设备处:
在用户界面之上显示数字助理用户界面,所述数字助理用户界面包括:
数字助理指示符,所述数字助理指示符显示在所述显示器的第一部分处;和
响应示能表示,所述响应示能表示显示在所述显示器的第二部分处;
当在所述用户界面之上显示所述数字助理用户界面时,接收对应于对所述显示器的第三部分的选择的用户输入,所述第三部分显示所述用户界面的一部分;
根据确定所述用户输入对应于第一类型的输入:
停止显示所述数字助理指示符和所述响应示能表示;并且
根据确定所述用户输入对应于不同于所述第一类型的输入的第二类型的输入:
在所述第二部分处显示所述响应示能表示时,根据所述用户输入更新所述第三部分处的所述用户界面的显示。
项目38.根据项目37所述的方法,其中,所述第一类型的输入包括轻击手势。
项目39.根据项目37至38中任一项所述的方法,其中,所述第二类型的输入包括拖动手势。
项目40.根据项目37至39中任一项所述的方法,其中,停止显示所述数字助理指示符和所述响应示能表示包括:
在所述显示器的所述第一部分处用所述用户界面的第一部分的显示来替换所述数字助理指示符的显示;以及
在所述显示器的所述第二部分处用所述用户界面的第二部分的显示来替换所述响应示能表示的显示。
项目41.根据项目37至40中任一项所述的方法,其中,所述用户输入对应于对在所述显示器的所述第三部分中显示的可选择元素的选择,所述方法还包括:
根据确定所述用户输入对应于所述第一类型的输入:
显示对应于所述可选择元素的用户界面。
项目42.根据项目41所述的方法,其中,显示对应于所述可选择元素的所述用户界面包括用对应于所述可选择元素的所述用户界面的显示来替换所述用户界面的所述一部分的显示、所述响应示能表示的显示和所述数字助理指示符的显示。
项目43.根据项目41至42中任一项所述的方法,其中,所述可选择元素是链接,并且对应于所述可选择元素的所述用户界面是对应于所述链接的用户界面。
项目44.根据项目41至42中任一项所述的方法,其中:
所述用户界面是home屏幕用户界面;
所述可选择元素是所述home屏幕用户界面的应用程序示能表示;并且
对应于所述可选择元素的所述用户界面是对应于所述应用程序示能表示的用户界面。
项目45.根据项目37至43中任一项所述的方法,还包括:
当在所述用户界面之上显示所述数字助理用户界面时,接收第二用户输入;以及
根据确定所述第二用户输入对应于第三类型的输入,停止显示所述响应示能表示和所述数字助理指示符。
项目46.根据项目45所述的方法,其中,所述用户界面是特定于应用程序的用户界面,所述方法还包括:
根据确定所述第二用户输入对应于所述第三类型的输入:
显示home屏幕用户界面。
项目47.根据项目37至46中任一项所述的方法,还包括:
当在所述用户界面之上显示所述数字助理用户界面时,接收对应于对所述响应示能表示的选择的第三用户输入;以及
响应于接收到所述第三用户输入,停止显示所述响应示能表示和所述数字助理指示符。
项目48.根据项目37至47中任一项所述的方法,其中,更新所述第三部分处的所述用户界面的显示包括滚动所述用户界面的内容。
项目49.根据项目37至48中任一项所述的方法,其中,进一步根据确定对应于所述数字助理用户界面的数字助理处于收听状态来执行更新所述第三部分处的所述用户界面的显示。
项目50.根据项目37至49中任一项所述的方法,其中,在所述第一部分处显示所述数字助理指示符时,执行更新所述第三部分处的所述用户界面的显示。
项目51.根据项目37至50中任一项所述的方法,其中,所述用户界面不同于所述数字助理用户界面。
项目52.一种用于操作数字助理的方法,所述方法包括:
在具有一个或多个处理器、存储器和显示器的电子设备处:
接收自然语言输入;
发起所述数字助理;
根据发起所述数字助理,获取响应于所述自然语言输入的响应包;
在接收到所述自然语言输入之后,基于与所述电子设备相关联的上下文信息,从多个数字助理响应模式中选择所述数字助理的第一响应模式;以及
响应于选择所述第一响应模式,由所述数字助理根据所述第一响应模式来呈现所述响应包。
项目53.根据项目52所述的方法,其中,所述响应包包括:
与数字助理响应示能表示相关联的第一文本;以及
与所述数字助理响应示能表示相关联的第二文本。
项目54.根据项目53所述的方法,其中,所述第二文本具有比所述第一文本更少的字词。
项目55.根据项目53至54中任一项所述的方法,其中,选择所述第一响应模式包括确定:
是显示所述第二文本而不提供表示所述第二文本的音频输出;还是
提供表示所述第二文本的所述音频输出而不显示所述第二文本。
项目56.根据项目53至55中任一项所述的方法,其中,选择所述第一响应模式包括确定是否提供表示所述第一文本的音频输出。
项目57.根据项目53至56中任一项所述的方法,其中:
所述第一响应模式是静音响应模式;并且
由所述数字助理根据所述第一响应模式来呈现所述响应包包括:
显示所述数字助理响应示能表示;以及
显示所述第二文本而不提供表示所述第二文本的第二音频输出。
项目58.根据项目57所述的方法,其中:
所述上下文信息包括数字助理话音反馈设置;并且
基于确定所述数字助理话音反馈设置指示不提供话音反馈来选择所述第一响应模式。
项目59.根据项目57至58中任一项所述的方法,其中:
所述上下文信息包括对所述电子设备的物理接触的检测,所述物理接触用于发起所述数字助理;并且
基于检测到所述物理接触来选择所述第一响应模式。
项目60.根据项目57至59中任一项所述的方法,其中:
所述上下文信息包括所述电子设备是否处于锁定状态;并且
基于确定所述电子设备不处于所述锁定状态来选择所述第一响应模式。
项目61.根据项目57至60中任一项所述的方法,其中:
所述上下文信息包括所述电子设备的显示器是否在发起所述数字助理之前正在显示;并且
基于确定所述显示器在发起所述数字助理之前正在显示来选择所述第一响应模式。
项目62.根据项目57至61中任一项所述的方法,其中:
所述上下文信息包括对在选择所述第一响应模式之前的预先确定的持续时间内在所述电子设备上执行的触摸的检测;并且
基于检测到所述触摸来选择所述第一响应模式。
项目63.根据项目57至62中任一项所述的方法,其中:
所述上下文信息包括对在选择所述第一响应模式之前的第二预先确定的持续时间内的所述电子设备的预先确定的手势的检测;并且
基于检测到所述预先确定的手势来选择所述第一响应模式。
项目64.根据项目53至56中任一项所述的方法,其中:
所述第一响应模式是混合响应模式;并且
由所述数字助理根据所述第一响应模式来呈现所述响应包包括:显示所述数字助理响应示能表示并且提供表示所述第二文本的第二音频输出而不显示所述第二文本。
项目65.根据项目64所述的方法,其中:
所述上下文信息包括数字助理话音反馈设置;并且
基于确定所述数字助理话音反馈设置指示要提供话音反馈来选择所述第一响应模式。
项目66.根据项目64至65中任一项所述的方法,其中:
所述上下文信息包括对所述电子设备的物理接触的检测,所述物理接触用于发起所述数字助理;并且
基于检测到所述物理接触来选择所述第一响应模式。
项目67.根据项目64至66中任一项所述的方法,其中:
所述上下文信息包括所述电子设备是否处于锁定状态;并且
基于确定所述电子设备不处于所述锁定状态来选择所述第一响应模式。
项目68.根据项目64至67中任一项所述的方法,其中:
所述上下文信息包括所述电子设备的显示器是否在发起所述数字助理之前正在显示;并且
基于确定所述显示器在发起所述数字助理之前正在显示来选择所述第一响应模式。
项目69.根据项目64至68中任一项所述的方法,其中:
所述上下文信息包括对在选择所述第一响应模式之前的预先确定的持续时间内在所述电子设备上执行的触摸的检测;并且
基于检测到所述触摸来选择所述第一响应模式。
项目70.根据项目64至69中任一项所述的方法,其中:
所述上下文信息包括对在选择所述第一响应模式之前的第二预先确定的持续时间内的所述电子设备的预先确定的手势的检测;并且
基于检测到所述预先确定的手势来选择所述第一响应模式。
项目71.根据项目53至56中任一项所述的方法,其中:
所述第一响应模式是话音响应模式;并且
由所述数字助理根据所述第一响应模式来呈现所述响应包包括:提供表示所述第一文本的音频输出。
项目72.根据项目71所述的方法,其中:
所述上下文信息包括确定所述电子设备在车辆中;并且
基于确定所述电子设备在所述车辆中来选择所述第一响应模式。
项目73.根据项目71至72中任一项所述的方法,其中:
所述上下文信息包括确定所述电子设备耦接到外部音频输出设备;并且
基于确定所述电子设备耦接到所述外部音频输出设备来选择所述第一响应模式。
项目74.根据项目71至73中任一项所述的方法,其中:
所述上下文信息包括对用于发起所述数字助理的话音输入的检测;并且
基于对所述话音输入的检测来选择所述第一响应模式。
项目75.根据项目71至74中任一项所述的方法,其中:
所述上下文信息包括所述电子设备是否处于锁定状态;并且
基于确定所述电子设备处于所述锁定状态来选择所述第一响应模式。
项目76.根据项目71至75中任一项所述的方法,其中:
所述上下文信息包括所述电子设备的显示器是否在发起所述数字助理之前正在显示;并且
基于确定所述电子设备的所述显示器在发起所述数字助理之前未正在显示来选择所述第一响应模式。
项目77.根据项目52至76中任一项所述的方法,还包括:
在由所述数字助理呈现所述响应包之后,接收响应于所述响应包的呈现的第二自然语言输入;
响应于所述第二自然语言输入来获取第二响应包;以及
在接收到所述第二自然语言语音输入之后,从所述多个数字助理响应模式中选择所述数字助理的第二响应模式,其中,所述第二响应模式不同于所述第一响应模式;以及
响应于选择所述第二响应模式,由所述数字助理根据所述第二响应模式来呈现所述第二响应包。
项目78.根据项目52至77中任一项所述的方法,其中,在获取所述响应包之后执行对所述数字助理的所述第一响应模式的选择。
项目79.一种电子设备,包括:
显示器;
触敏表面;
一个或多个处理器;
存储器;和
一个或多个程序,其中,所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于如下操作的指令:
在显示不同于数字助理用户界面的用户界面时,接收用户输入;
根据确定所述用户输入满足用于发起数字助理的标准:在所述用户界面之上显示所述数字助理用户界面,所述数字助理用户界面包括:
数字助理指示符,所述数字助理指示符显示在所述显示器的第一部分处;和
响应示能表示,所述响应示能表示显示在所述显示器的第二部分处;其中:
所述用户界面的一部分在所述显示器的第三部分处保持可见;并且
所述第三部分位于所述第一部分和所述第二部分之间。
项目80.一种电子设备,包括:
显示器;
触敏表面;
一个或多个处理器;
存储器;和
一个或多个程序,其中,所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于如下操作的指令:
在用户界面之上显示数字助理用户界面,所述数字助理用户界面包括:
数字助理指示符,所述数字助理指示符显示在所述显示器的第一部分处;和
响应示能表示,所述响应示能表示显示在所述显示器的第二部分处;
当在所述用户界面之上显示所述数字助理用户界面时,接收对应于对所述显示器的第三部分的选择的用户输入,所述第三部分显示所述用户界面的一部分;
根据确定所述用户输入对应于第一类型的输入:
停止显示所述数字助理指示符和所述响应示能表示;并且
根据确定所述用户输入对应于不同于所述第一类型的输入的第二类型的输入:
在所述第二部分处显示所述响应示能表示时,根据所述用户输入更新所述第三部分处的所述用户界面的显示。
项目81.一种电子设备,包括:
显示器;
一个或多个处理器;
存储器;和
一个或多个程序,其中,所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于如下操作的指令:
接收自然语言输入;
发起数字助理;
根据发起所述数字助理,获取响应于所述自然语言输入的响应包;
在接收到所述自然语言输入之后,基于与所述电子设备相关联的上下文信息,从多个数字助理响应模式中选择所述数字助理的第一响应模式;以及
响应于选择所述第一响应模式,由所述数字助理根据所述第一响应模式来呈现所述响应包。
项目82.一种存储一个或多个程序的非暂态计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由具有显示器和触敏表面的电子设备的一个或多个处理器执行时,使所述电子设备:
在显示不同于数字助理用户界面的用户界面时,接收用户输入;
根据确定所述用户输入满足用于发起数字助理的标准:在所述用户界面之上显示所述数字助理用户界面,所述数字助理用户界面包括:
数字助理指示符,所述数字助理指示符显示在所述显示器的第一部分处;和
响应示能表示,所述响应示能表示显示在所述显示器的第二部分处;其中:
所述用户界面的一部分在所述显示器的第三部分处保持可见;并且
所述第三部分位于所述第一部分和所述第二部分之间。
项目83.一种存储一个或多个程序的非暂态计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由具有显示器和触敏表面的电子设备的一个或多个处理器执行时,使所述电子设备:
在用户界面之上显示数字助理用户界面,所述数字助理用户界面包括:
数字助理指示符,所述数字助理指示符显示在所述显示器的第一部分处;和
响应示能表示,所述响应示能表示显示在所述显示器的第二部分处;
当在所述用户界面之上显示所述数字助理用户界面时,接收对应于对所述显示器的第三部分的选择的用户输入,所述第三部分显示所述用户界面的一部分;
根据确定所述用户输入对应于第一类型的输入:
停止显示所述数字助理指示符和所述响应示能表示;并且
根据确定所述用户输入对应于不同于所述第一类型的输入的第二类型的输入:
在所述第二部分处显示所述响应示能表示时,根据所述用户输入更新所述第三部分处的所述用户界面的显示。
项目84.一种存储一个或多个程序的非暂态计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由具有显示器的电子设备的一个或多个处理器执行时,使所述电子设备:
接收自然语言输入;
发起数字助理;
根据发起所述数字助理,获取响应于所述自然语言输入的响应包;
在接收到所述自然语言输入之后,基于与所述电子设备相关联的上下文信息,从多个数字助理响应模式中选择所述数字助理的第一响应模式;以及
响应于选择所述第一响应模式,由所述数字助理根据所述第一响应模式来呈现所述响应包。
项目85.一种电子设备,包括:
用于进行以下操作的装置:
在显示不同于数字助理用户界面的用户界面时,接收用户输入;
根据确定所述用户输入满足用于发起数字助理的标准:在所述用户界面之上显示所述数字助理用户界面,所述数字助理用户界面包括:
数字助理指示符,所述数字助理指示符显示在所述显示器的第一部分处;和
响应示能表示,所述响应示能表示显示在所述显示器的第二部分处;其中:
所述用户界面的一部分在所述显示器的第三部分处保持可见;并且
所述第三部分位于所述第一部分和所述第二部分之间。
项目86.一种电子设备,包括:
用于进行以下操作的装置:
在用户界面之上显示数字助理用户界面,所述数字助理用户界面包括:
数字助理指示符,所述数字助理指示符显示在所述显示器的第一部分处;和
响应示能表示,所述响应示能表示显示在所述显示器的第二部分处;
当在所述用户界面之上显示所述数字助理用户界面时,接收对应于对所述显示器的第三部分的选择的用户输入,所述第三部分显示所述用户界面的一部分;
根据确定所述用户输入对应于第一类型的输入:
停止显示所述数字助理指示符和所述响应示能表示;并且
根据确定所述用户输入对应于不同于所述第一类型的输入的第二类型的输入:
在所述第二部分处显示所述响应示能表示时,根据所述用户输入更新所述第三部分处的所述用户界面的显示。
项目87.一种电子设备,包括:
用于进行以下操作的装置:
接收自然语言输入;
发起数字助理;
根据发起所述数字助理,获取响应于所述自然语言输入的响应包;
在接收到所述自然语言输入之后,基于与所述电子设备相关联的上下文信息,从多个数字助理响应模式中选择所述数字助理的第一响应模式;以及
响应于选择所述第一响应模式,由所述数字助理根据所述第一响应模式来呈现所述响应包。
项目88.一种电子设备,包括:
显示器;
触敏表面;
一个或多个处理器;
存储器;和
一个或多个程序,其中,所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行根据项目1至36中任一项所述的方法的指令。
项目89.一种电子设备,包括:
显示器;
触敏表面;
一个或多个处理器;
存储器;和
一个或多个程序,其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行根据项目37至51中任一项所述的方法的指令。
项目90.一种电子设备,包括:
显示器;
一个或多个处理器;
存储器;和
一个或多个程序,其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行根据项目52至78中任一项所述的方法的指令。
项目91.一种存储一个或多个程序的非暂态计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由具有显示器和触敏表面的电子设备的一个或多个处理器执行时,使所述电子设备执行根据项目1至36中任一项所述的方法。
项目92.一种存储一个或多个程序的非暂态计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由具有显示器和触敏表面的电子设备的一个或多个处理器执行时,使所述电子设备执行根据项目37至51中任一项所述的方法。
项目93.一种存储一个或多个程序的非暂态计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由具有显示器的电子设备的一个或多个处理器执行时,使所述电子设备执行根据项目52至78中任一项所述的方法。
项目94.一种电子设备,包括:
用于执行根据项目1至36中任一项所述的方法的装置。
项目95.一种电子设备,包括:
用于执行根据项目37至51中任一项所述的方法的装置。
项目96.一种电子设备,包括:
用于执行根据项目52至78中任一项所述的方法的装置。
虽然参照附图对本公开以及示例进行了全面的描述,但应当注意,各种变化和修改对于本领域内的技术人员而言将变得显而易见。应当理解,此类变化和修改被认为被包括在由权利要求书所限定的本公开和示例的范围内。
如上所述,本技术的一个方面在于采集并使用得自各种来源的数据,以改善数字助理呈现对用户请求的响应的格式。本公开预期,在一些实例中,这些所采集的数据可包括唯一地识别或可用于联系或定位特定人员的个人信息数据。此类个人信息数据可包括人口统计数据、基于位置的数据、电话号码、电子邮件地址、推特ID、家庭地址、与用户的健康或健康水平有关的数据或记录(例如,生命体征测量、药物信息、锻炼信息)、出生日期或任何其他识别或个人信息。
本公开认识到在本发明技术中使用此类个人信息数据可用于使用户受益。例如,个人信息数据可用于将数字助理的响应调整为适合于用户的当前上下文。此外,本公开还预期个人信息数据有益于用户的其他用途。例如,健康和健身数据可用于向用户的总体健康状况提供见解,或者可用作使用技术来追求健康目标的个人的积极反馈。
本公开设想负责采集、分析、公开、传输、存储或其他使用此类个人信息数据的实体将遵守既定的隐私政策和/或隐私实践。具体地,此类实体应当实行并坚持使用被公认为满足或超出对维护个人信息数据的隐私性和安全性的行业或政府要求的隐私政策和实践。此类政策应该能被用户方便地访问,并应随着数据的采集和/或使用变化而被更新。来自用户的个人信息应当被收集用于实体的合法且合理的用途,并且不在这些合法使用之外共享或出售。此外,应在收到用户知情同意后进行此类采集/共享。此外,此类实体应考虑采取任何必要步骤,保卫和保障对此类个人信息数据的访问,并确保有权访问个人信息数据的其他人遵守其隐私政策和流程。另外,这种实体可使其本身经受第三方评估以证明其遵守广泛接受的隐私政策和实践。此外,应当调整政策和实践,以便采集和/或访问的特定类型的个人信息数据,并适用于包括管辖范围的具体考虑的适用法律和标准。例如,在美国,对某些健康数据的收集或获取可能受联邦和/或州法律的管辖,诸如健康保险流通和责任法案(HIPAA);而其他国家的健康数据可能受到其他法规和政策的约束并应相应处理。因此,在每个国家应为不同的个人数据类型保持不同的隐私实践。
不管前述情况如何,本公开还预期用户选择性地阻止使用或访问个人信息数据的实施方案。即本公开预期可提供硬件元件和/或软件元件,以防止或阻止对此类个人信息数据的访问。例如,就收集上下文数据以选择数字助理响应模式而言,本发明技术可被配置为在注册服务期间或其后的任何时间允许用户选择“选择加入”或“选择退出”参与对个人信息数据的收集。又如,用户可选择不允许设备收集用于选择数字助理响应模式的上下文数据。再如,用户可以选择限制保持上下文数据的时间长度。除了提供“选择加入”和“选择退出”选项外,本公开设想提供与访问或使用个人信息相关的通知。例如,可在下载应用时向用户通知其个人信息数据将被访问,然后就在个人信息数据被应用访问之前再次提醒用户。
此外,本公开的目的是应管理和处理个人信息数据以最小化无意或未经授权访问或使用的风险。一旦不再需要数据,通过限制数据收集和删除数据可最小化风险。此外,并且当适用时,包括在某些健康相关应用程序中,数据去标识可用于保护用户的隐私。在适当的情况下,可以通过移除特定标识符(例如,出生日期等)、控制存储的数据的量或特征(例如,在城市级而非地址级收集位置数据)、控制数据的存储方式(例如,在用户之间聚合数据)和/或其它方法来促进去标识。
因此,虽然本公开广泛地覆盖了使用个人信息数据来实现一个或多个各种所公开的实施方案,但本公开还预期各种实施方案也可在无需访问此类个人信息数据的情况下被实现。即,本发明技术的各种实施方案不会由于缺少此类个人信息数据的全部或一部分而无法正常进行。例如,当上下文数据不可获得时(例如,如果用户禁止收集上下文数据以选择数字助理响应模式),设备可选择默认数字助理响应模式,或者基于非个人信息数据或绝对最低限度量的个人信息(诸如,由与用户相关联的设备所请求的内容、设备可获得的其他非个人信息(例如,设备是否处于锁定状态)或可公开获得的信息)来选择数字助理响应模式。

Claims (38)

1.一种方法,包括:
在具有显示器和触敏表面的电子设备处:
在显示不同于数字助理用户界面的用户界面时,接收用户输入;
根据确定所述用户输入满足用于发起数字助理的标准:在所述用户界面之上显示所述数字助理用户界面,所述数字助理用户界面包括:
数字助理指示符,所述数字助理指示符显示在所述显示器的第一部分处;和
响应示能表示,所述响应示能表示显示在所述显示器的第二部分处;其中:
所述用户界面的一部分在所述显示器的第三部分处保持可见;并且
所述第三部分位于所述第一部分和所述第二部分之间。
2.根据权利要求1所述的方法,其中,所述响应示能表示以第一状态显示,所述方法还包括:
当在所述用户界面之上显示所述数字助理用户界面时,接收对应于对所述响应示能表示的选择的第二用户输入;以及
响应于接收到所述第二用户输入,用处于第二状态的所述响应示能表示的显示来替换处于所述第一状态的所述响应示能表示的显示。
3.根据权利要求2所述的方法,其中,所述第一状态是紧凑状态,并且所述第二状态是展开状态。
4.根据权利要求2至3中任一项所述的方法,还包括:
当以所述第二状态显示所述响应示能表示时,接收请求以所述第一状态显示所述响应示能表示的第三用户输入;以及
响应于接收到所述第三用户输入,用处于所述第一状态的所述响应示能表示的显示来替换处于所述第二状态的所述响应示能表示的显示。
5.根据权利要求2至4中任一项所述的方法,还包括:
当以所述第二状态显示所述响应示能表示时,接收对应于对所述响应示能表示的选择的第四用户输入;以及
响应于接收到所述第四用户输入,显示对应于所述响应示能表示的应用程序的用户界面。
6.根据权利要求2至5中任一项所述的方法,其中,所述第二用户输入对应于对所述响应示能表示的第一部分的选择,所述方法还包括:
当在所述用户界面之上显示所述数字助理用户界面时,接收对应于对所述响应示能表示的第二部分的选择的第五用户输入;以及
响应于接收到所述第五用户输入,显示对应于所述响应示能表示的第二应用程序的第二用户界面。
7.根据权利要求6所述的方法,还包括:
在显示所述第二应用程序的所述第二用户界面时,显示可选择的数字助理指示符。
8.根据权利要求1至7中任一项所述的方法,其中,所述响应示能表示包括可选择元素,所述方法还包括:
接收对应于对所述可选择元素的选择的用户输入;以及
响应于接收到对应于对所述可选择元素的选择的用户输入,在所述响应示能表示之上显示对应于所述可选择元素的示能表示。
9.根据权利要求8所述的方法,还包括:
当在所述响应示能表示之上显示对应于所述可选择元素的所述示能表示时,在视觉上掩隐在所述显示器的所述第三部分处的所述用户界面。
10.根据权利要求1至9中任一项所述的方法,其中,所述用户界面包括占据所述显示器的第四部分的输入区场,所述方法还包括:
接收对应于所述响应示能表示从所述显示器的所述第一部分到所述显示器的所述第四部分的位移的第六用户输入;以及
响应于接收到所述第六用户输入,用所述输入区场中的所述响应示能表示的显示来替换所述显示器的所述第一部分处的所述响应示能表示的显示。
11.根据权利要求10所述的方法,其中,所述输入区场对应于消息传送应用程序、电子邮件应用程序或笔记记录应用程序。
12.根据权利要求10至11中任一项所述的方法,还包括:
在接收到所述第六用户输入时,将所述响应示能表示从所述显示器的所述第一部分连续移位到所述显示器的所述第四部分;以及
在连续移位所述响应示能表示时,停止显示所述数字助理指示符。
13.根据权利要求1至12中任一项所述的方法,其中,所述用户界面包括占据所述显示器的第五部分的桌面小程序区域,所述方法还包括:
接收对应于所述响应示能表示从所述显示器的所述第一部分到所述显示器的所述第五部分的位移的第七用户输入;以及
响应于接收到所述第七用户输入,用所述桌面小程序区域中的所述响应示能表示的显示来替换所述显示器的所述第一部分处的所述响应示能表示的显示。
14.根据权利要求13所述的方法,其中,所述响应示能表示对应于事件,所述方法还包括:
确定所述事件的完成;以及
响应于确定所述事件的完成,停止在所述桌面小程序区域中显示所述响应示能表示。
15.根据权利要求1至14中任一项所述的方法,还包括:
接收自然语言输入,其中,所述响应示能表示对应于由所述数字助理对所述自然语言输入的响应。
16.根据权利要求15所述的方法,其中:
所述数字助理确定对应于所述自然语言输入的多个结果;并且
所述响应示能表示包括所述多个结果中的单个结果。
17.根据权利要求15至16中任一项所述的方法,其中,所述响应示能表示包括可编辑文本区场,所述可编辑文本区场包括从所述自然语言输入确定的文本。
18.根据权利要求15至17中任一项所述的方法,其中:
所述数字助理用户界面还包括在所述显示器的第六部分处显示的对话示能表示;并且
所述第六部分位于所述第一部分和所述第二部分之间。
19.根据权利要求18所述的方法,其中,所述对话示能表示包括由所述数字助理生成的响应于所述自然语言输入的对话。
20.根据权利要求19所述的方法,还包括:
由所述数字助理确定针对所述自然语言输入的多个可选择的消歧选项,其中,所述对话包括所述多个可选择的消歧选项。
21.根据权利要求19至20中任一项所述的方法,还包括:
基于所述自然语言输入来确定主要用户意图,其中,所述响应示能表示对应于所述主要用户意图;以及
基于所述自然语言输入来确定另选用户意图,其中,所述对话包括对应于所述另选用户意图的可选择选项。
22.根据权利要求18至21中任一项所述的方法,其中,所述对话示能表示以第三状态显示,所述方法还包括:
接收对应于对所述对话示能表示的选择的第八用户输入;以及
响应于接收到所述第八用户输入,用处于第四状态的所述对话示能表示的显示来替换处于所述第三状态的所述对话示能表示的显示。
23.根据权利要求22所述的方法,其中,所述第四状态对应于所述对话示能表示的最大尺寸,所述方法还包括:
当以所述第四状态显示所述对话示能表示时,使得用户输入能够滚动经过所述对话示能表示的内容。
24.根据权利要求22至23中任一项所述的方法,其中:
处于所述第四状态的所述对话示能表示的显示占据所述显示器的所述第一部分的至少一部分;并且
以所述第四状态显示所述对话示能表示包括在所述响应示能表示的至少第三部分之上显示所述对话示能表示。
25.根据权利要求24所述的方法,其中:
在接收到所述第八用户输入之前,所述响应示能表示以第五状态显示;并且
以所述第四状态显示所述对话示能表示包括用处于第六状态的所述响应示能表示的显示来替换处于第五状态的所述响应示能表示的显示。
26.根据权利要求24至25中任一项所述的方法,其中:
所述第四状态对应于所述对话示能表示的第二最大尺寸;并且
当以所述第四状态显示所述对话示能表示时,所述响应示能表示的第四部分保持可见。
27.根据权利要求26所述的方法,还包括:
接收对应于对所述响应示能表示的所述第四部分的选择的第九用户输入;以及
响应于接收到所述第九用户输入:
用处于第七状态的所述对话示能表示的显示来替换处于所述第四状态的所述对话示能表示的显示;并且
在所述显示器的所述第一部分处显示所述响应示能表示。
28.根据权利要求22至27中任一项所述的方法,还包括:
当以所述第四状态显示所述对话示能表示时,接收对应于对所述对话示能表示的选择的第十用户输入;以及
响应于接收到所述第十用户输入,用处于第八状态的所述对话示能表示的显示来替换处于所述第四状态的所述对话示能表示的显示。
29.根据权利要求22至28中任一项所述的方法,还包括:
当以所述第四状态显示所述对话示能表示时,接收对应于对所述响应示能表示的选择的第十一用户输入;以及
响应于接收到所述第十一用户输入,用处于第九状态的所述对话示能表示的显示来替换处于所述第四状态的所述对话示能表示的显示。
30.根据权利要求18至29中任一项所述的方法,其中,所述自然语言输入是自然语言语音输入,所述方法还包括:
在所述对话示能表示中显示所述自然语言语音输入的转录。
31.根据权利要求30所述的方法,其中:
所述自然语言语音输入接续于在所述自然语言语音输入之前接收到的第二自然语言语音输入;并且
根据确定所述数字助理不能确定针对所述自然语言语音输入的用户意图并且不能确定针对所述第二自然语言语音输入的第二用户意图来执行显示所述转录。
32.根据权利要求30所述的方法,其中,根据确定所述自然语言语音输入重复先前的自然语言语音输入来执行显示所述转录。
33.根据权利要求30所述的方法,还包括:
在接收到所述自然语言语音输入之后,接收接续于所述自然语言语音输入的第二自然语言语音输入,其中,根据确定所述第二自然语言语音输入指示语音识别错误来执行显示所述转录。
34.根据权利要求1至33中任一项所述的方法,其中,在第一时间呈现数字助理结果,所述方法还包括:
根据确定所述数字助理结果对应于预先确定类型的数字助理结果,在所述第一时间之后的预先确定的持续时间内自动停止显示所述数字助理用户界面。
35.根据权利要求1至34中任一项所述的方法,其中,所述用户界面是home屏幕用户界面或特定于应用程序的用户界面。
36.根据权利要求1至35中任一项所述的方法,其中,在接收到所述用户输入之前,所述用户界面的所述一部分显示在所述显示器的所述第三部分处。
37.一种电子设备,包括:
一个或多个处理器;
存储器;和
一个或多个程序,其中,所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行根据权利要求1至36中任一项所述的方法的指令。
38.一种存储一个或多个程序的非暂态计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由电子设备的一个或多个处理器执行时,使所述电子设备执行根据权利要求1至36中任一项所述的方法。
CN202010980536.XA 2020-05-22 2020-09-16 数字助理用户界面和响应模式 Pending CN112099720A (zh)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US202063028821P 2020-05-22 2020-05-22
US63/028,821 2020-05-22
DKPA202070547 2020-08-24
DKPA202070547A DK202070547A1 (en) 2020-05-22 2020-08-24 Digital assistant user interfaces and response modes
DKPA202070548A DK180978B1 (en) 2020-05-22 2020-08-24 Digital assistant user interfaces and response modes
DKPA202070548 2020-08-24
CN202010977583.9A CN113703656A (zh) 2020-05-22 2020-09-16 数字助理用户界面和响应模式

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN202010977583.9A Division CN113703656A (zh) 2020-05-22 2020-09-16 数字助理用户界面和响应模式

Publications (1)

Publication Number Publication Date
CN112099720A true CN112099720A (zh) 2020-12-18

Family

ID=73780601

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202010981441.XA Pending CN112099721A (zh) 2020-05-22 2020-09-16 数字助理用户界面和响应模式
CN202010980536.XA Pending CN112099720A (zh) 2020-05-22 2020-09-16 数字助理用户界面和响应模式

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202010981441.XA Pending CN112099721A (zh) 2020-05-22 2020-09-16 数字助理用户界面和响应模式

Country Status (1)

Country Link
CN (2) CN112099721A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022265667A1 (en) * 2021-06-16 2022-12-22 Google Llc Passive disambiguation of assistant commands

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140218372A1 (en) * 2013-02-05 2014-08-07 Apple Inc. Intelligent digital assistant in a desktop environment
WO2014200728A1 (en) * 2013-06-09 2014-12-18 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
CN110647274A (zh) * 2019-08-15 2020-01-03 华为技术有限公司 一种界面显示方法及设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022265667A1 (en) * 2021-06-16 2022-12-22 Google Llc Passive disambiguation of assistant commands
US12027164B2 (en) 2021-06-16 2024-07-02 Google Llc Passive disambiguation of assistant commands

Also Published As

Publication number Publication date
CN112099721A (zh) 2020-12-18

Similar Documents

Publication Publication Date Title
JP7430279B2 (ja) デジタルアシスタントユーザインタフェース及び応答モード
CN111901481B (zh) 计算机实现的方法、电子设备和存储介质
US11462215B2 (en) Multi-modal inputs for voice commands
CN107257950B (zh) 虚拟助理连续性
CN107615378B (zh) 设备语音控制
CN109257941B (zh) 用于数字助理的同步和任务委派的方法、电子设备和系统
CN115088250A (zh) 视频通信会话环境中的数字助理交互
CN115237253A (zh) 注意力感知虚拟助理清除
CN116414282A (zh) 多模态界面
CN115132203A (zh) 与数字助理的连续对话
US20220366889A1 (en) Announce notifications
CN110603586B (zh) 用于校正识别错误的用户界面
CN111524506B (zh) 维护个人信息的隐私的自然语言输入的客户端服务器处理
CN112099720A (zh) 数字助理用户界面和响应模式
CN107463311B (zh) 智能列表读取
DK180978B1 (en) Digital assistant user interfaces and response modes
CN110574023A (zh) 脱机个人助理
US20230352014A1 (en) Digital assistant response modes
US20230367795A1 (en) Navigating and performing device tasks using search interface
CN113703656A (zh) 数字助理用户界面和响应模式
CN110651324B (zh) 多模态界面
WO2023219844A1 (en) Navigating and performing device tasks using search interface
CN115083415A (zh) 与数字助理的连续对话
CN113655981A (zh) 基于置信度来减小描述长度

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination