CN107463311B - 智能列表读取 - Google Patents
智能列表读取 Download PDFInfo
- Publication number
- CN107463311B CN107463311B CN201710392723.4A CN201710392723A CN107463311B CN 107463311 B CN107463311 B CN 107463311B CN 201710392723 A CN201710392723 A CN 201710392723A CN 107463311 B CN107463311 B CN 107463311B
- Authority
- CN
- China
- Prior art keywords
- spoken
- data items
- list
- response
- user request
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0481—Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
- G06F3/0482—Interaction with lists of selectable items, e.g. menus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0487—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
- G06F3/0488—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/02—Reservations, e.g. for tickets, services or events
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/12—Hotels or restaurants
Abstract
本发明题为“智能列表读取”。本发明提供了用于操作智能自动化助理以执行智能列表读取的系统和过程。在一个示例性过程中,接收与多个数据项相关联的口头用户请求。该过程确定口头用户请求的特定性程度是否小于阈值水平。响应于确定口头用户请求的特定性程度小于阈值水平,确定与口头用户请求有关的一个或多个属性。一个或多个属性未在口头用户请求中限定。另外,获取基于口头用户请求和一个或多个属性的数据项列表。生成包括数据项列表的子集的口头响应,并提供口头口头响应。
Description
相关申请的交叉引用
本专利申请要求2016年6月6日提交的名称为“intelligent LIST READING”的美国临时专利申请序列号62/346,236、2016年9月21日提交的名称为“intelligent LISTREADING”的美国临时专利申请序列号15/272,214和2017年5月11日提交的名称为“intelligent LIST READING”的丹麦专利申请序列号PA 2017 70331的优先权,所有这些专利申请据此全文以引用方式并入以用于所有目的。
技术领域
本公开整体涉及智能自动化助理,更具体地讲涉及智能自动化助理的智能列表读取。
背景技术
智能自动化助理(或数字助理)能够提供人类用户与电子设备之间有利的接口。此类助理可允许用户利用口头和/或文本形式的自然语言与设备或系统进行交互。例如,用户可向在电子设备上操作的数字助理提供包含用户请求的语音输入。数字助理可由语音输入来解释用户的意图,并将用户的意图操作化定义成任务。然后可通过执行电子设备的一个或多个服务来执行所述任务,并且可将响应于用户请求的相关输出返回给用户。
与数字助理的交互常常可以是基于语音的,其中用户提供口头用户请求,并且数字助理以满足该请求的口头响应来回应。然而,提供与数字助理的直观且听起来自然的基于语音的交互可能是有挑战性的。例如,口头响应可能常常包含太少或太多的信息。另外,口头响应可能具有糟糕的转化过度,并且可能迫使用户进行一个或多个没有成效的跟进交互。这可能影响用户体验,并妨碍数字助理的广泛采用。
发明内容
本公开提供了用于操作智能自动化助理以执行智能列表读取的系统和过程。在一个示例性过程中,接收与多个数据项相关联的口头用户请求。该过程确定口头用户请求的特定性程度是否小于阈值水平。响应于确定口头用户请求的特定性程度小于阈值水平,确定与口头用户请求有关的一个或多个属性。一个或多个属性未在口头用户请求中限定。另外,获取基于口头用户请求和一个或多个属性的数据项列表。生成包括数据项列表的子集的口头响应,并提供该口头响应。
在一些实施例中,响应于确定口头用户请求的特定性程度不小于阈值水平,基于口头用户请求来获取第二数据项列表。该过程还确定第二数据项列表中的数据项的数量是否超过预先确定的数量。响应于确定第二数据项列表中的数据项的数量超过预先确定的数量,生成包括第二数据项列表的子集的第二口头响应,并提供该第二口头响应。
附图说明
图1是根据各个实施例的示出用于实施数字助理的系统和环境的框图。
图2A是根据各个实施例的示出实施数字助理的客户端侧部分的便携式多功能设备的框图。
图2B是根据各个实施例的示出用于事件处理的示例性部件的框图。
图3是根据各个实施例的实施数字助理的客户端侧部分的便携式多功能设备。
图4是根据各个实施例的具有显示器和触敏表面的示例性多功能设备的框图。
图5A示出了根据各个实施例的便携式多功能设备上的应用程序菜单的示例性用户界面。
图5B示出了根据各个实施例的具有与显示器分开的触敏表面的多功能设备的示例性用户界面。
图6A示出了根据各个实施例的个人电子设备。
图6B是示出根据各个实施例的个人电子设备的框图。
图7A是根据各个实施例的示出数字助理系统或其服务器部分的框图。
图7B示出了根据各个实施例的图7A所示数字助理的功能。
图7C示出了根据各个实施例的知识本体的一部分。
图8A至图8D示出了根据各个实施例的用于操作数字助理以执行智能列表读取的过程。
图9A至图9D示出了根据各个实施例的由在用户设备上实施的数字助理响应于来自用户的口头用户请求来执行的智能列表读取。
图10示出了根据各个实施例的电子设备的功能框图。
具体实施方式
在以下对实施例的描述中将引用附图,在附图中以例示的方式示出了可被实施的特定实施例。应当理解,在不脱离各个实施例的范围的情况下,可使用其他实施例并且可作出结构性变更。
如上所述,提供与数字助理的听起来自然的基于语音的交互是有挑战性的。具体地讲,用户请求涵盖了从过度宽泛(例如“有吃饭的好地方吗?”)到非常具体(例如“字词‘plot’是什么意思?”)。如果对于所有用户请求都以相同方式进行处理,则数字助理提供的口头响应可能很糟糕并且是没有成效的。例如,响应于用户请求“有吃饭的好地方吗?”,数字助理可能提供包含一长串位于用户当前位置附近的餐厅的冗长口头响应。这样的响应令人无所适从并且是没有帮助的。
根据本文所述的一些示例性系统和过程,数字助理生成的口头响应基于口头用户请求的特定性程度来智能地构建。在一个示例性过程中,接收与多个数据项相关联的口头用户请求。该过程确定口头用户请求的特定性程度是否小于阈值水平。响应于确定口头用户请求的特定性程度小于阈值水平,确定与口头用户请求有关的一个或多个属性。一个或多个属性未在口头用户请求中限定。特别地,一个或多个属性用于对可能模糊不请且过度宽泛的口头用户请求进行提炼。获取基于口头用户请求和一个或多个属性的数据项列表。生成包括数据项列表的子集的口头响应,并提供该口头响应。该子集为用户提供有用的且有针对性的推荐,而不是用一个长的数据项列表使用户无所适从。
在一些实施例中,响应于确定口头用户请求的特定性程度不小于阈值水平,基于口头用户请求来获取第二数据项列表。因为特定性程度不小于阈值水平,所以第二数据项列表包含数量有限的数据项。该过程确定第二数据项列表中的数据项的数量是否超过预先确定的数量。预先确定的数量是基于各个因素来确定的,诸如第二数据项列表中的每个数据项的信息密度、用户与第二数据项列表中的每个数据项的熟悉程度、以及与用户相关联的认知负担。响应于确定第二数据项列表中的数据项的数量超过预先确定的数量,生成包括第二数据项列表的子集的第二口头响应,并提供该第二口头响应。这样,以更容易被用户处理和记住的较小群组来向用户呈现第二数据项列表。
尽管以下描述使用术语“第一”、“第二”等来描述各种元件,但这些元件不应受术语的限制。这些术语只是用于将一个元件与另一元件区分开。例如,第一输入可被命名为第二输入,并且类似地第二输入可被命名为第一输入,而不脱离各种所述实施例的范围。第一输入和第二输入都是输入,并且在一些情况下是分开的不同输入。
在本文中对各种所述实施例的描述中所使用的术语只是为了描述特定实施例的目的,而并非旨在进行限制。如在对各种所述实施例的描述和所附权利要求书中所使用的那样,单数形式“一个、“一种”和“该”旨在也包括复数形式,除非上下文另外明确地指示。还将理解的是,本文中所使用的术语“和/或”是指并且涵盖相关联地列出的项目中的一个或多个项目的任何和全部可能的组合。还将理解的是,术语“包括”和/或“包含”当在本说明书中使用时是指定存在所陈述的特征、整数、步骤、操作、元素和/或部件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元素、部件和/或其分组。
根据上下文,术语“如果”可被解释为意指“当...时”或“在...时”或“响应于确定”或“响应于检测到”。类似地,根据上下文,短语“如果确定...”或“如果检测到[所陈述的条件或事件]”可被解释为意指“在确定...时”或“响应于确定...”或“在检测到[所陈述的条件或事件]时”或“响应于检测到[所陈述的条件或事件]”。
1.系统和环境
图1示出了根据各个实施例的系统100的框图。在一些实施例中,系统100实施数字助理。术语“数字助理”、“虚拟助理”、“智能自动化助理”或“自动数字助理”是指解译口头和/或文本形式的自然语言输入以推断用户意图,并基于推断出的用户意图来执行动作的任何信息处理系统。例如,为了进行推断出的用户意图,系统执行以下内容中的一个或多个:通过设计用以实现所推断出的用户意图的步骤和参数来识别任务流,将来自推断出的用户意图的具体要求输入到任务流中;通过调用程序、方法、服务、API等来执行任务流;以及生成对用户的听觉(例如,语音)和/或视觉形式的输出响应。
具体地讲,数字助理能够接受至少部分地为自然语言命令、请求、声明、讲述和/或询问的形式的用户请求。通常,用户请求要么寻求数字助理作出信息性回答,要么寻求数字助理执行任务。针对用户请求的令人满意的响应包括提供所请求的信息性回答、执行所请求的任务、或这两者的组合。例如,用户向数字助理提出诸如“我现在在哪里?”之类的问题。基于用户的当前位置,数字助理回答“你在中央公园西门附近。”用户也请求执行任务,例如“请邀请我的朋友下周来参加我女朋友的生日聚会。”作为响应,数字助理可通过讲出“好的,马上”来确认请求,并然后代表用户将合适的日历邀请发送到用户的电子通讯录中列出的用户朋友中的每个朋友。在执行所请求的任务期间,数字助理有时在很长时间段内在涉及多次信息交换的持续对话中与用户进行交互。存在与数字助理进行交互以请求信息或执行各种任务的许多其他方法。除提供言语响应并采取经编程的动作之外,数字助理还提供其他视频或音频形式的响应,例如作为文本、警报、音乐、视频、动画等。
如图1中所示,在一些实施例中,数字助理根据客户端-服务器模型来实施。数字助理包括在用户设备104上执行的客户端侧部分102(后文称作“DA客户端102”)、以及在服务器系统108上执行的服务器侧部分106(后文称作“DA服务器106”)。DA客户端102通过一个或多个网络110与DA服务器106通信。DA客户端102提供客户端侧功能诸如面向用户的输入和输出处理以及与DA服务器106的通信。DA服务器106为任意数量的DA客户端102提供服务器侧功能,所述任意数量的DA客户端102各自位于相应的用户设备104上。
在一些实施例中,DA服务器106包括面向客户端的I/O接口112、一个或多个处理模块114、数据与模型116、以及到外部服务的I/O接口118。面向客户端的I/O接口112促成DA服务器106的面向客户端的输入和输出处理。一个或多个处理模块114利用数据与模型116来处理语音输入并基于自然语言输入来确定用户的意图。此外,一个或多个处理模块114基于推断出的用户意图进行任务执行。在一些实施例中,DA服务器106通过网络110与外部服务120通信以完成任务或采集信息。到外部服务的I/O接口118促成此类通信。
用户设备104可以是任何合适的电子设备。在一些实施例中,用户设备是便携式多功能设备(例如下文参考图2A所述的设备200)、多功能设备(例如下文参考图4所述的设备400)、或个人电子设备(例如下文参考图6A至图6B所述的设备600)。便携式多功能设备例如是还包含其它功能诸如PDA和/或音乐播放器功能的移动电话。便携式多功能设备的具体示例包括来自Apple Inc.(Cupertino,California)的iPod和设备。便携式多功能设备的其它示例包括但不限于膝上型电脑和平板电脑。另外,在一些实施例中,用户设备104是非便携式多功能设备。特别地,用户设备104是台式计算机、游戏机、电视机、或电视机顶盒。在一些实施例中,用户设备104包括触敏表面(例如触摸屏显示器和/或触摸板)。另外,用户设备104任选地包括一个或多个其他物理用户接口设备,诸如物理键盘、鼠标和/或操纵杆。下文更详细地描述电子设备诸如多功能设备的多个实施例。
通信网络110的示例包括局域网(LAN)和广域网(WAN),例如互联网。通信网络110是使用任何已知的网络协议,包括各种有线或无线协议,诸如例如以太网、通用串行总线(USB)、火线(FIREWIRE)、全球移动通信系统(GSM)、增强型数据GSM环境(EDGE)、码分多址(CDMA)、时分多址(TDMA)、蓝牙、Wi-Fi、互联网电话协议(VoIP)、Wi-MAX、或任何其他合适的通信协议来实施。
服务器系统108在一个或多个独立式数据处理装置或计算机分布式网络上实施。在一些实施例中,服务器系统108还采用第三方服务提供方(例如,第三方云服务提供方)的各种虚拟设备和/或服务来提供服务器系统108的底层计算资源和/或基础结构资源。
在一些实施例中,用户设备104经由第二用户设备122与DA服务器106通信。第二用户设备122与用户设备104类似或相同。例如,第二用户设备122与下文参考图2A、图4和图6A至图6B所述的设备200、400或600类似。用户设备104被配置为经由直接通信连接(诸如蓝牙、NFC、BTLE等)或者经由有线或无线网络(诸如Wi-Fi局域网)通信地耦接到第二用户设备122。在一些实施例中,第二用户设备122被配置为充当用户设备104与DA服务器106之间的代理。例如,用户设备104的DA客户端102被配置为经由第二用户设备122向DA服务器106传输信息(例如在用户设备104处接收的用户请求)。DA服务器106处理所述信息并经由第二用户设备122将相关数据(例如响应于用户请求的数据内容)返回给用户设备104。
在一些实施例中,用户设备104被配置为将针对数据的缩略请求传送给第二用户设备122以减少从用户设备104传输的信息量。第二用户设备122被配置为确定补充信息以添加到所述缩略请求来生成完整请求传输给DA服务器106。该系统架构可有利地允许通信能力有限和/或电池电力有限的用户设备104(例如手表或类似紧凑电子设备)通过使用具有更大通信能力和/或电池电力的第二用户设备122(例如移动电话、膝上型电脑、平板电脑等)作为对DA服务器106的代理来访问DA服务器106提供的服务。虽然在图1中只示出了两个用户设备104和122,但应当理解,系统100在一些实施例中包括任意数量和类型的用户设备以该代理配置进行配置来与DA服务器系统106通信。
尽管图1中所示的数字助理包括客户端侧部分(例如,DA客户端102)和服务器侧部分(例如,DA服务器106)两者,但在一些实施例中,数字助理的功能被实现为安装在用户设备上的独立式应用程序。此外,数字助理的客户端部分与服务器部分之间的功能划分在不同的具体实施中可变化。例如,在一些实施例中,DA客户端为仅提供面向用户的输入和输出处理功能,并且将数字助理的所有其他功能委派给后端服务器的瘦客户端。
2.电子设备
现在将注意力转向用于实施数字助理的客户端侧部分的电子设备的实施例。图2A是示出根据一些实施方案的具有触敏显示器系统212的便携式多功能设备200的框图。触敏显示器212有时为了方便被叫做“触摸屏”,并且有时可被称为或被叫做“触敏显示器系统”。设备200包括存储器202(其任选地包括一个或多个计算机可读存储介质)、存储器控制器222、一个或多个处理单元(CPU)220、外围设备接口218、RF电路208、音频电路210、扬声器211、麦克风213、输入/输出(I/O)子系统206、其他输入控制设备216、和外部端口224。设备200任选地包括一个或多个光学传感器264。设备200任选地包括用于检测设备200(例如,触敏表面,诸如设备200的触敏显示器系统212)上的接触的强度的一个或多个接触强度传感器265。设备200任选地包括用于在设备200上生成触觉输出的一个或多个触觉输出发生器267(例如,在触敏表面诸如设备200的触敏显示器系统212或设备400的触摸板455上生成触觉输出)。这些部件任选地通过一个或多个通信总线或信号线203进行通信。
如在本说明书和权利要求书中所使用的,术语触敏表面上的接触的“强度”是指触敏表面上的接触(例如,手指接触)的力或压力(每单位面积的力),或是指触敏表面上的接触的力或压力的替代物(代用物)。接触的强度具有值范围,该值范围包括至少四个不同的值并且更典型地包括上百个不同的值(例如,至少256个)。接触的强度任选地使用各种方法和各种传感器或传感器的组合来确定(或测量)。例如,在触敏表面下方或邻近触敏表面的一个或多个力传感器任选地用于测量触敏表面上的不同点处的力。在一些具体实施中,来自多个力传感器的力测量被合并(例如,加权平均)以确定估计的接触力。类似地,触笔的压敏顶端任选地用于确定触笔在触敏表面上的压力。另选地,在触敏表面上检测到的接触面积的大小和/或其变化、邻近接触的触敏表面的电容和/或其变化和/或邻近接触的触敏表面的电阻和/或其变化任选地被用作触敏表面上的接触的力或压力的替代物。在一些具体实施中,接触力或压力的替代物测量直接用于确定是否已超过强度阈值(例如,强度阈值是以与替代物测量对应的单位来描述的)。在一些具体实施中,接触力或压力的替代物测量被转换成估计的力或压力,并且估计的力或压力用于确定是否已超过强度阈值(例如,强度阈值是以压力的单位进行测量的压力阈值)。使用接触的强度作为用户输入的属性,从而允许用户访问用户在尺寸缩小的设备上可能本来不能访问的附加设备功能,该尺寸缩小的设备具有有限的实地面积用于(例如,在触敏显示器上)显示示能表示和/或接收用户输入(例如,经由触敏显示器、触敏表面或物理控件/机械控件,诸如旋钮或按钮)。
如本说明书和权利要求书中所使用的,术语“触觉输出”是指将由用户利用用户的触感检测到的设备相对于设备的先前位置的物理位移、设备的部件(例如,触敏表面)相对于设备的另一个部件(例如,外壳)的物理位移、或部件相对于设备的质心的位移。例如,在设备或设备的部件与用户对触摸敏感的表面(例如,手指、手掌或用户手部的其他部分)接触的情况下,通过物理位移生成的触觉输出将由用户解释为与设备或设备部件的物理特征的所感知的变化对应的触感。例如,触敏表面(例如,触敏显示器或触控板)的移动任选地由用户解释为对物理致动按钮的“按下点击”或“松开点击”。在一些情况下,用户将感觉到触感,诸如“按下点击”或“松开点击”,即使在通过用户的移动而物理地被按压(例如,被移位)的与触敏表面相关联的物理致动按钮没有移动时。作为另一个示例,即使在触敏表面的光滑度无变化时,触敏表面的移动也会任选地由用户解释为或感测为触敏表面的“粗糙度”。虽然由用户对触摸的此类解释将受到用户的个体化感官知觉的限制,但是存在触摸的许多感官知觉是大多数用户共有的。因此,当触觉输出被描述为对应于用户的特定感官知觉(例如,“松开点击”、“按下点击”、“粗糙度”)时,除非另外陈述,否则所生成的触觉输出对应于设备或其部件的将会生成典型(或普通)用户的所述感官知觉的物理位移。
应当理解,设备200仅是便携式多功能设备的一个示例,并且设备200任选地具有比图示更多或更少的部件,任选地组合两个或更多个部件,或者任选地具有这些部件的不同配置或布置。图2A中所示的各种部件以硬件、软件、或硬件与软件两者的组合来实现,包括一个或多个信号处理电路和/或专用集成电路。
存储器202包括一个或多个计算机可读存储介质。计算机可读存储介质例如是有形且非暂态的。存储器202包括高速随机存取存储器,并且还包括非易失性存储器,诸如一个或多个磁盘存储设备、闪存存储器设备、或其他非易失性固态存储器设备。存储器控制器222控制设备200的其他部件对存储器202的访问。
在一些实施例中,存储器202的非暂态计算机可读存储介质用于存储供指令执行系统、装置或设备诸如基于计算机的系统、包含处理器的系统或可从指令执行系统、装置或设备取指令并执行指令的其他系统使用或与其结合的指令(例如用于执行下文所述过程的方面)。在其他实施例中,(例如用于执行下文所述过程的方面的)指令被存储在服务器系统108的非暂态计算机可读存储介质(未示出)上或者被分配在存储器202的非暂态计算机可读存储介质与服务器系统108的非暂态计算机可读存储介质之间。
外围设备接口218用于将设备的输入外围设备和输出外围设备耦接到CPU 220和存储器202。一个或多个处理器220运行或执行存储在存储器202中的各种软件程序和/或指令集以执行设备200的各种功能并处理数据。在一些实施方案中,外围设备接口218、CPU220、和存储器控制器222被实现在单个芯片诸如芯片204上。在一些其他实施方案中,它们被实现在分开的芯片上。
RF(射频)电路208接收和发送也被叫做电磁信号的RF信号。RF电路208将电信号转换为电磁信号/将电磁信号转换为电信号,并且经由电磁信号来与通信网络以及其他通信设备进行通信。RF电路208任选地包括用于执行这些功能的熟知的电路,包括但不限于天线系统、RF收发器、一个或多个放大器、调谐器、一个或多个振荡器、数字信号处理器、编解码芯片组、用户身份模块(SIM)卡、存储器等等。RF电路208任选地通过无线通信与网络以及其他设备进行通信,该网络为诸如互联网(也被称为万维网(WWW))、内联网和/或无线网络(诸如蜂窝电话网络、无线局域网(LAN)和/或城域网(MAN))。RF电路208任选地包括用于检测近场通信(NFC)场的熟知的电路,诸如通过近程通信无线电部件来进行检测。无线通信任选地使用多种通信标准、协议和技术中的任一种通信标准、协议和技术,包括但不限于全球移动通信系统(GSM)、增强型数据GSM环境(EDGE)、高速下行链路分组接入(HSDPA)、高速上行链路分组接入(HSUPA)、演进、纯数据(EV-DO)、HSPA、HSPA+、双单元HSPA(DC-HSPDA)、长期演进(LTE)、近场通信(NFC)、宽带码分多址(W-CDMA)、码分多址(CDMA)、时分多址(TDMA)、蓝牙、蓝牙低功耗(BTLE)、无线保真(Wi-Fi)(例如,IEEE 802.11a、IEEE 802.11b、IEEE 802.11g、IEEE 802.11n和/或IEEE 802.11ac)、互联网协议语音(VoIP)、Wi-MAX、电子邮件协议(例如,互联网消息访问协议(IMAP)和/或邮局协议(POP))、即时消息(例如,可扩展消息处理和存在协议(XMPP)、用于即时消息和存在利用扩展的会话发起协议(SIMPLE)、即时消息和存在服务(IMPS))、和/或短消息服务(SMS)、或者包括在本文档提交日期时还未开发出的通信协议在内的任何其他适当的通信协议。
音频电路210、扬声器211和麦克风213提供用户和设备200之间的音频接口。音频电路210从外围设备接口218接收音频数据,将音频数据转换为电信号,并将电信号传输到扬声器211。扬声器211将电信号转换为人类可听的声波。音频电路210还接收由麦克风213根据声波转换的电信号。音频电路210将电信号转换为音频数据,并将音频数据传输到外围设备接口218以用于处理。音频数据由外围设备接口218检索自和/或传输至存储器202和/或RF电路208。在一些实施方案中,音频电路210还包括耳麦插孔(例如,图3中的312)。耳麦插孔提供音频电路210和可移除的音频输入/输出外围设备之间的接口,该可移除的音频输入/输出外围设备诸如仅输出的耳机或者具有输出(例如,单耳耳机或双耳耳机)和输入(例如,麦克风)两者的耳麦。
I/O子系统206将设备200上的输入/输出外围设备诸如触摸屏212和其他输入控制设备216耦接到外围设备接口218。I/O子系统206任选地包括显示控制器256、光学传感器控制器258、强度传感器控制器259、触觉反馈控制器261、和用于其他输入或控制设备的一个或多个输入控制器260。该一个或多个输入控制器260从其他输入控制设备216接收电信号/将电信号发送到其他输入控制设备116。其他输入控制设备216任选地包括物理按钮(例如,下压按钮、摇臂按钮等)、拨号盘、滑动开关、操纵杆、点击式转盘等等。在一些另选的实施方案中,输入控制器260任选地耦接至以下各项中的任一者(或不耦接至以下各项中的任一者):键盘、红外线端口、USB端口、以及指针设备诸如鼠标。一个或多个按钮(例如,图3中的308)任选地包括用于扬声器211和/或麦克风213的音量控制的增大/减小按钮。一个或多个按钮任选地包括下压按钮(例如,图3中的306)。
快速按下下压按钮就解除触摸屏212的锁定或者开始使用触摸屏上的手势来对设备进行解锁的过程,如在2005年12月23日提交的名称为“Unlocking a Device byPerforming Gestures on an Unlock Image”的美国专利申请11/322,549即美国专利7,657,849中所述的,上述美国专利文献据此全文以引用方式并入本文。更长地按下下压按钮(例如306)就使设备200开机或关机。用户能够对一个或多个按钮的功能进行自定义。触摸屏212用于实现虚拟按钮或软按钮以及一个或多个软键盘。
触敏显示器212提供设备和用户之间的输入接口和输出接口。显示控制器256从触摸屏212接收电信号和/或将电信号发送至触摸屏112。触摸屏212向用户显示视觉输出。视觉输出包括图形、文本、图标、视频和它们的任何组合(统称为“图形”)。在一些实施方案中,一些视觉输出或全部的视觉输出对应于用户界面对象。
触摸屏212具有基于触觉和/或触感接触从用户接受输入的触敏表面、传感器或传感器组。触摸屏212和显示控制器256(与存储器202中的任何相关联的模块和/或指令集一起)检测触摸屏212上的接触(和该接触的任何移动或中断),并且将所检测到的接触转换为与被显示在触摸屏212上的用户界面对象(例如,一个或多个软键、图标、网页或图像)的交互。在一个示例性实施方案中,触摸屏212和用户之间的接触点对应于用户的手指。
触摸屏212使用LCD(液晶显示器)技术、LPD(发光聚合物显示器)技术、或LED(发光二极管)技术,但是在其他实施方案中可使用其他显示技术。触摸屏212和显示控制器256使用现在已知的或以后将开发出的多种触摸感测技术中的任何触摸感测技术以及其他接近传感器阵列或用于确定与触摸屏212的一个或多个接触点的其他元件来检测接触及其任何移动或中断,该多种触摸感测技术包括但不限于电容性技术、电阻性技术、红外技术和表面声波技术。在一个示例性实施方案中,使用投射式互电容感测技术,诸如在Apple Inc.(Cupertino,California)的和iPod发现的技术。
触摸屏212的一些实施方案中的触敏显示器类似于以下美国专利中所述的多点触敏触摸板:6,323,846(Westerman等人)、6,570,557(Westerman等人)和/或6,677,932(Westerman);和/或美国专利公开2002/0015024A1,这些专利文献中的每个专利文献据此全文以引用方式并入本文。然而,触摸屏212显示来自设备200的视觉输出,而触敏触摸板不提供视觉输出。
触摸屏212的一些实施方案中的触敏显示器如在以下专利申请中所描述的那样:(1)2006年5月2日提交的美国专利申请11/381,313,“Multipoint Touch SurfaceController”;(2)2004年5月6日提交的美国专利申请10/840,862,“MultipointTouchscreen”;(3)2004年7月30日提交的美国专利申请10/903,964,“Gestures For TouchSensitive Input Devices”;(4)2005年1月31日提交的美国专利申请11/048,264,“Gestures For Touch Sensitive Input Devices”;(5)2005年1月18日提交的美国专利申请11/038,590,“Mode-Based Graphical User Interfaces For Touch Sensitive InputDevices”;(6)2005年9月16日提交的美国专利申请11/228,758,“VirtualInput DevicePlacement On A Touch Screen User Interface”;(7)2005年9月16日提交的美国专利申请11/228,700,“Operation Of A Computer With A Touch Screen Interface”;(8)2005年9月16日提交的美国专利申请11/228,737,“Activating Virtual Keys Of A Touch-Screen Virtual Keyboard”;和(9)2006年3月3日提交的美国专利申请11/367,749,“Multi-Functional Hand-Held Device”。所有这些专利申请均全文以引用方式并入本文。
触摸屏212例如具有超过100dpi的视频分辨率。在一些实施方案中,触摸屏具有约160dpi的视频分辨率。用户使用任何合适的物体或附加物诸如触笔、手指等等来与触摸屏212接触。在一些实施方案中,用户界面被设计用于主要与基于手指的接触和手势工作,由于手指在触摸屏上的接触区域较大,因此这可能不如基于触笔的输入精确。在一些实施方案中,设备将基于手指的粗略输入翻译为精确的指针/光标位置或命令,以用于执行用户所期望的动作。
在一些实施方案中,除了触摸屏之外,设备200包括用于激活或去激活特定功能的触摸板(未示出)。在一些实施方案中,触摸板是设备的触敏区域,该触敏区域与触摸屏不同,其不显示视觉输出。触摸板是与触摸屏212分开的触敏表面,或者是由触摸屏形成的触敏表面的延伸部分。
设备200还包括用于为各种部件供电的电力系统262。电力系统262包括电力管理系统、一个或多个电源(例如,电池、交流电(AC))、再充电系统、电力故障检测电路、功率变换器或逆变器、电源状态指示器(例如,发光二极管(LED))和与便携式设备中电力的生成、管理和分配相关联的任何其他部件。
设备200还包括一个或多个光学传感器264。图2A示出了耦接到I/O子系统206中的光学传感器控制器258的光学传感器。光学传感器264包括电荷耦合器件(CCD)或互补金属氧化物半导体(CMOS)光电晶体管。光学传感器264从环境接收通过一个或多个透镜而投射的光,并且将光转换为表示图像的数据。结合成像模块243(也叫做相机模块),光学传感器264捕获静态图像或视频。在一些实施方案中,光学传感器位于设备200的后部,与设备的前部的触摸屏显示器212相对,使得触摸屏显示器被用作用于静态图像和/或视频图像采集的取景器。在一些实施方案中,光学传感器位于设备的前部,使得在用户在触摸屏显示器上观看其他视频会议参与者的同时获取该用户的图像,以用于视频会议。在一些实施方案中,光学传感器264的位置可由用户改变(例如通过旋转设备外壳中的透镜和传感器),使得单个光学传感器264与触摸屏显示器一起使用,以用于视频会议和静态图像和/或视频图像采集两者。
设备200任选地还包括一个或多个接触强度传感器265。图2A示出了耦接到I/O子系统206中的强度传感器控制器259的接触强度传感器。接触强度传感器265任选地包括一个或多个压阻应变仪、电容式力传感器、电气力传感器、压电力传感器、光学力传感器、电容式触敏表面或其他强度传感器(例如,用于测量触敏表面上的接触的力(或压力)的传感器)。接触强度传感器265从环境接收接触强度信息(例如,压力信息或压力信息的代用物)。在一些实施方案中,至少一个接触强度传感器与触敏表面(例如,触敏显示器系统212)并置排列或邻近。在一些实施方案中,至少一个接触强度传感器位于设备200的与位于设备200的前部上的触摸屏显示器212相背对的后部上。
设备200还包括一个或多个接近传感器266。图2A示出了耦接到外围设备接口218的接近传感器266。另选地,接近传感器266耦接到I/O子系统206中的输入控制器260。接近传感器266如以下美国专利申请中所述的那样执行:11/241,839,名称为“ProximityDetector In Handheld Device”;11/240,788,名称为“Proximity Detector In HandheldDevice”;11/620,702,名称为“Using Ambient Light Sensor To Augment ProximitySensor Output”;11/586,862,名称为“Automated Response To And Sensing Of UserActivity In Portable Devices”;和11/638,251,名称为“Methods And Systems ForAutomatic Configuration Of Peripherals”,这些美国专利申请据此全文以引用方式并入本文。在一些实施方案中,当多功能设备被置于用户的耳朵附近时(例如,当用户正在进行电话呼叫时),接近传感器关闭并且禁用触摸屏212。
设备200任选地还包括一个或多个触觉输出发生器267。图2A示出了耦接到I/O子系统206中的触觉反馈控制器261的触觉输出发生器。触觉输出发生器267任选地包括一个或多个电声设备诸如扬声器或其他音频部件;和/或用于将能量转换成线性运动的机电设备诸如电机、螺线管、电活性聚合器、压电致动器、静电致动器或其他触觉输出生成部件(例如,用于将电信号转换成设备上的触觉输出的部件)。接触强度传感器265从触觉反馈模块233接收触觉反馈生成指令,并且在设备200上生成能够由设备200的用户感觉到的触觉输出。在一些实施方案中,至少一个触觉输出发生器与触敏表面(例如,触敏显示器系统212)并置排列或邻近,并且任选地通过竖直地(例如,向设备200的表面内/外)或侧向地(例如,在与设备200的表面相同的平面中向后和向前)移动触敏表面来生成触觉输出。在一些实施方案中,至少一个触觉输出发生器传感器位于设备200的与位于设备200的前部上的触摸屏显示器212相背对的后部上。
设备200还包括一个或多个加速度计268。图2A示出了耦接至外围设备接口218的加速度计268。另选地,加速度计268耦接到I/O子系统206中的输入控制器260。加速度计268例如如以下美国专利公开中所述的那样执行:20050190059,名称为“Acceleration-basedTheft Detection System for Portable Electronic Devices”和20060017692,名称为“Methods And Apparatuses For Operating A Portable Device Based On AnAccelerometer”,这两个美国专利公开均全文以引用方式并入本文。在一些实施方案中,基于对从该一个或多个加速度计所接收的数据的分析来在触摸屏显示器上以纵向视图或横向视图显示信息。设备200任选地除了加速度计268之外还包括磁力仪(未示出)和GPS(或GLONASS或其他全球导航系统)接收器(未示出),以用于获取关于设备200的位置和取向(例如,纵向或横向)的信息。
在一些实施方案中,被存储在存储器202中的软件部件包括操作系统226、通信模块(或指令集)228、接触/运动模块(或指令集)230、图形模块(或指令集)232、文本输入模块(或指令集)234、全球定位系统(GPS)模块(或指令集)235、数字助理客户端模块229以及应用程序(或指令集)236。另外,存储器202存储数据与模型,诸如用户数据与模型231。此外,在一些实施方案中,存储器202(图2A)或470(图4)存储设备/全局内部状态257,如图2A、和图4中所示的。设备/全局内部状态257包括以下各项中的一者或多者:活动应用程序状态,该活动应用程序状态用于指示哪些应用程序(如果有的话)当前是活动的;显示状态,该显示状态用于指示什么应用程序、视图或其他信息占据触摸屏显示器212的各个区域;传感器状态,该传感器状态包括从设备的各个传感器和输入控制设备216获得的信息;和关于设备位置和/或姿态的位置信息。
操作系统226(例如,Darwin、RTXC、LINUX、UNIX、OS X、iOS、WINDOWS、或嵌入式操作系统诸如VxWorks)包括用于控制和管理一般系统任务(例如,存储器管理、存储设备控制、功率管理等)的各种软件部件和/或驱动程序,并且促进各种硬件部件和软件部件之间的通信。
通信模块228促进通过一个或多个外部端口224来与其他设备进行通信,并且还包括用于处理由RF电路208和/或外部端口224所接收的数据的各种软件部件。外部端口224(例如,通用串行总线(USB)、火线等)适于直接耦接到其他设备或者间接地通过网络(例如,互联网、无线LAN等)进行耦接。在一些实施方案中,外部端口是与(Apple Inc.的商标)设备上所使用的30针连接器相同的或类似的和/或与其兼容的多针(例如,30针)连接器。
接触/运动模块230任选地检测与触摸屏212(结合显示控制器256)和其他触敏设备(例如,触摸板或物理点击式转盘)的接触。接触/运动模块230包括各种软件部件以用于执行与接触检测相关的各种操作,诸如确定是否已经发生了接触(例如,检测手指按下事件)、确定接触强度(例如,接触的力或压力,或者接触的力或压力的替代物)、确定是否存在接触的移动并跟踪在触敏表面上的移动(例如,检测一个或多个手指拖动事件)、以及确定接触是否已经停止(例如,检测手指抬起事件或者接触断开)。接触/运动模块230从触敏表面接收接触数据。确定接触点的移动任选地包括确定接触点的速率(量值)、速度(量值和方向)和/或加速度(量值和/或方向的改变),该接触点的移动由一系列接触数据来表示。这些操作任选地被应用于单点接触(例如,单指接触)或者多点同时接触(例如,“多点触摸”/多个手指接触)。在一些实施方案中,接触/运动模块230和显示控制器256检测触摸板上的接触。
在一些实施方案中,接触/运动模块230使用一组一个或多个强度阈值来确定用户是否已执行操作(例如,确定用户是否已“点击”图标)。在一些实施方案中,根据软件参数来确定强度阈值的至少一个子集(例如,强度阈值不是由特定物理致动器的激活阈值来确定的,并且可在不改变设备200的物理硬件的情况下被调节)。例如,在不改变触控板或触摸屏显示器硬件的情况下,触控板或触摸屏的鼠标“点击”阈值可被设定成预定义的阈值的大范围中的任一个阈值。另外,在一些具体实施中,向设备的用户提供用于调节一组强度阈值中的一个或多个强度阈值(例如,通过调节各个强度阈值和/或通过利用对“强度”参数的系统级点击来一次调节多个强度阈值)的软件设置。
接触/运动模块230任选地检测用户的手势输入。触敏表面上的不同手势具有不同的接触图案(例如,所检测到的接触的不同运动、定时和/或强度)。因此,任选地通过检测具体接触图案来检测手势。例如,检测手指轻击手势包括检测手指按下事件,然后在与手指按下事件相同的位置(或基本上相同的位置)处(例如,在图标的位置处)检测手指抬起(抬离)事件。作为另一个示例,在触敏表面上检测手指轻扫手势包括检测手指按下事件,然后检测一个或多个手指拖动事件,并且随后检测手指抬起(抬离)事件。
图形模块232包括用于在触摸屏212或其他显示器上呈现和显示图形的各种已知的软件部件,包括用于改变所显示的图形的视觉冲击(例如,亮度、透明度、饱和度、对比度或其他视觉特征)的部件。如本文所用,术语“图形”包括可以被显示给用户的任何对象,非限制性地包括文本、网页、图标(诸如包括软按键的用户界面对象)、数字图像、视频、动画等等。
在一些实施方案中,图形模块232存储待使用的用于表示图形的数据。每个图形任选地被分配有对应的代码。图形模块232从应用程序等接收用于指定待显示的图形的一个或多个代码,在必要的情况下还一起接收坐标数据和其他图形属性数据,并且然后生成屏幕图像数据,以输出至显示控制器256。
触觉反馈模块233包括用于生成指令的各种软件部件,该指令由触觉输出发生器267使用,以便响应于用户与设备200的交互而在设备200上的一个或多个位置处产生触觉输出。
在一些实施例中为图形模块232的部件的文本输入模块234提供用于在各种应用程序(例如,联系人237、电子邮件240、IM 241、浏览器247和需要文本输入的任何其他应用程序)中输入文本的软键盘。
GPS模块235确定设备的位置并提供该信息以在各种应用程序中使用(例如,提供给电话238以在基于位置的拨号中使用,提供给相机243作为图片/视频元数据,以及提供给提供基于位置的服务的应用程序,诸如天气桌面小程序、当地黄页桌面小程序和地图/导航桌面小程序)。
数字助理客户端模块229包括用于提供数字助理的客户端侧功能的各种客户端侧数字助理指令。例如,数字助理客户端模块229能够通过便携式多功能设备200的各个用户接口(例如麦克风213、加速度计268、触敏显示器系统212、光学传感器229、其他输入控制设备216等)接受语音输入(例如语音输入)、文本输入、触摸输入、和/或手势输入。数字助理客户端模块229还能够通过便携式多功能设备200的各个输出接口(例如扬声器211、触敏显示器系统212、触觉输出发生器267等)提供音频(例如语音输出)、视觉和/或触觉形式的输出。例如,将输出提供为语音、声音、警报、文本消息、菜单、图形、视频、动画、振动、和/或以上两者或更多者的组合。在操作期间,数字助理客户端模块229利用RF电路208与DA服务器106通信。
用户数据与模型231包括与用户相关联的各种数据(例如用户特定的词汇数据、用户偏好数据、用户指定的名称发音、来自用户的电子通讯录的数据、待办事项、购物清单等),以提供数字助理的客户端侧功能。另外,用户数据与模型231包括用于处理用户输入和确定用户意图的各种模型(例如语音识别模型、统计语言模型、自然语言处理模型、知识本体、任务流模型、服务模型等等)。
在一些实施例中,数字助理客户端模块229利用便携式多功能设备200的各种传感器、子系统和外围设备来从便携式多功能设备200的周围环境采集附加信息以建立与用户、当前用户交互、和/或当前用户输入相关联的上下文。在一些实施例中,数字助理客户端模块229将上下文信息或其子集与用户输入一起提供至DA服务器106以帮助推断用户的意图。在一些实施例中,数字助理还使用上下文信息来确定如何准备输出并将其传送至用户。上下文信息被称为上下文数据。
在一些实施例中,伴随用户输入的上下文信息包括传感器信息,例如照明、环境噪声、环境温度、周围环境的图像或视频等。在一些实施例中,上下文信息还可以包括设备的物理状态,例如设备取向、设备位置、设备温度、功率电平、速度、加速度、运动模式、蜂窝信号强度等。在一些实施例中,将与DA服务器106的软件状态相关的信息(例如正在运行的进程、已安装程序、过去和当前的网络活动、后台服务、错误日志、资源使用等)以及与便携式多功能设备200的软件状态相关的信息作为与用户输入相关联的上下文信息提供至DA服务器106。
在一些实施例中,数字助理客户端模块229响应于来自DA服务器106的请求而选择性地提供存储在便携式多功能设备200上的信息(例如,用户数据231)。在一些实施例中,数字助理客户端模块229还在DA服务器106请求时引出来自用户经由自然语言对话或其他用户界面的附加输入。数字助理客户端模块229将所述附加输入传送至DA服务器106,以帮助DA服务器106进行意图推断和/或满足在用户请求中表达的用户意图。
关于数字助理的更详细描述在下文中参考图7A至图7C进行描述。应该理解,数字助理客户端模块229可包括任意数量的下文所述数字助理模块726的子模块。
应用程序236包括以下模块(或指令集)或者其子集或超集:
·联系人模块237(有时也称为通讯录或联系人列表);
·电话模块238;
·视频会议模块239;
·电子邮件客户端模块240;
·即时消息(IM)模块241;
·健身支持模块242;
·用于静态图像和/或视频图像的相机模块243;
·图像管理模块244;
·视频播放器模块;
·音乐播放器模块;
·浏览器模块247;
·日历模块248;
·桌面小程序模块249,其在一些实施例中包括以下各项中的一者或多者:天气桌面小程序249-1、股市桌面小程序249-2、计算器桌面小程序249-3、闹钟桌面小程序249-4、词典桌面小程序249-5、和由用户获取的其他桌面小程序以及用户创建的桌面小程序249-6;
·用于生成用户创建的桌面小程序249-6的桌面小程序创建器模块250;
·搜索模块251;
·视频和音乐播放器模块252,其合并视频播放器模块和音乐播放器模块;
·记事本模块253;
·地图模块254;和/或
·在线视频模块255。
存储在存储器202中的其他应用程序236的示例包括其他文字处理应用程序、其他图像编辑应用程序、绘图应用程序、展示应用程序、支持JAVA的应用程序、加密、数字权益管理、语音识别和语音复制。
结合触摸屏212、显示控制器256、接触/运动模块230、图形模块232、和文本输入模块234,联系人模块237用于管理通讯录或联系人列表(例如,被存储在存储器202或存储器470中的联系人模块237的应用程序内部状态292中),包括:将姓名添加到通讯录;从通讯录删除姓名;使电话号码、电子邮件地址、物理地址或其他信息与姓名相关联;使图像与姓名相关联;对姓名归类和分类;提供电话号码或电子邮件地址以发起和/或促成通过电话238、视频会议模块239、电子邮件240、或IM 241进行通信;等等。
结合RF电路208、音频电路210、扬声器211、麦克风213、触摸屏212、显示控制器256、接触/运动模块230、图形模块232、和文本输入模块234,电话模块238用于输入与电话号码对应的字符序列、访问联系人模块237中的一个或多个电话号码、修改已输入的电话号码、拨打相应的电话号码、进行会话以及当会话完成时断开或挂断。如上所述,无线通信使用多个通信标准、协议和技术中的任一者。
结合RF电路208、音频电路210、扬声器211、麦克风213、触摸屏212、显示控制器256、光学传感器264、光学传感器控制器258、接触/运动模块230、图形模块232、文本输入模块234、联系人模块237和电话模块238,视频会议模块239包括根据用户指令来发起、进行和终止用户与一个或多个其他参与方之间的视频会议的可执行指令。
结合RF电路208、触摸屏212、显示控制器256、接触/运动模块230、图形模块232和文本输入模块234,电子邮件客户端模块240包括响应于用户指令来创建、发送、接收和管理电子邮件的可执行指令。结合图像管理模块244,电子邮件客户端模块240使得非常容易创建和发送具有由相机模块243拍摄的静态图像或视频图像的电子邮件。
结合RF电路208、触摸屏212、显示控制器256、接触/运动模块230、图形模块232和文本输入模块234,即时消息模块241包括用于以下操作的可执行指令:输入与即时消息对应的字符序列、修改先前输入的字符、传输相应即时消息(例如,使用短消息服务(SMS)或多媒体消息服务(MMS)协议以用于基于电话的即时消息或者使用XMPP、SIMPLE、或IMPS以用于基于互联网的即时消息)、接收即时消息以及查看所接收的即时消息。在一些实施方案中,所传输的和/或所接收的即时消息包括图形、照片、音频文件、视频文件和/或在MMS和/或增强型消息服务(EMS)中支持的其他附件。如本文所用,“即时消息”是指基于电话的消息(例如,使用SMS或MMS发送的消息)和基于互联网的消息(例如,使用XMPP、SIMPLE、或IMPS发送的消息)两者。
结合RF电路208、触摸屏212、显示控制器256、接触/运动模块230、图形模块232、文本输入模块234、GPS模块235、地图模块254、和音乐播放器模块,健身支持模块242包括用于以下操作的可执行指令:创建健身(例如具有时间、距离、和/或卡路里燃烧目标);与健身传感器(体育设备)进行通信;接收健身传感器数据;校准用于监测健身的传感器;选择健身音乐并进行播放;以及显示、存储和传输健身数据。
结合触摸屏212、显示控制器256、光学传感器264、光学传感器控制器258、接触/运动模块230、图形模块232和图像管理模块244,相机模块243包括用于以下操作的可执行指令:捕获静态图像或视频(包括视频流)并且将它们存储到存储器202中、修改静态图像或视频的特征、或从存储器202删除静态图像或视频。
结合触摸屏212、显示控制器256、接触/运动模块230、图形模块232、文本输入模块234、和相机模块243,图像管理模块244包括用于排列、修改(例如,编辑)、或以其他方式操控、加标签、删除、呈现(例如,在数字幻灯片或相册中)、以及存储静态图像和/或视频图像的可执行指令。
结合RF电路208、触摸屏212、显示控制器256、接触/运动模块230、图形模块232和文本输入模块234,浏览器模块247包括用于根据用户指令来浏览互联网(包括搜索、链接至、接收、和显示网页或其部分、以及链接至网页的附件和其他文件)的可执行指令。
结合RF电路208、触摸屏212、显示控制器256、接触/运动模块230、图形模块232、文本输入模块234、电子邮件客户端模块240和浏览器模块247,日历模块248包括用于根据用户指令来创建、显示、修改和存储日历以及与日历相关联的数据(例如,日历条目、待办事项等)的可执行指令。
结合RF电路208、触摸屏212、显示控制器256、接触/运动模块230、图形模块232、文本输入模块234、和浏览器模块247,桌面小程序模块249是可由用户下载并使用的微型应用程序(例如,天气桌面小程序249-1、股市桌面小程序249-2、计算器桌面小程序249-3、闹钟桌面小程序249-4、和词典桌面小程序249-5)或由用户创建的微型应用程序(例如,用户创建的桌面小程序249-6)。在一些实施方案中,桌面小程序包括HTML(超文本标记语言)文件、CSS(层叠样式表)文件和JavaScript文件。在一些实施方案中,桌面小程序包括XML(可扩展标记语言)文件和JavaScript文件(例如,Yahoo!桌面小程序)。
结合RF电路208、触摸屏212、显示控制器256、接触/运动模块230、图形模块232、文本输入模块234、和浏览器模块247,桌面小程序创建器模块250被用户用于创建桌面小程序(例如,将网页的用户指定部分转到桌面小程序中)。
结合触摸屏212、显示控制器256、接触/运动模块230、图形模块232和文本输入模块234,搜索模块251包括用于根据用户指令来搜索存储器202中的匹配一个或多个搜索条件(例如,一个或多个用户指定的搜索词)的文本、音乐、声音、图像、视频和/或其他文件的可执行指令。
结合触摸屏212、显示控制器256、接触/运动模块230、图形模块232、音频电路210、扬声器211、RF电路208、和浏览器模块247,视频和音乐播放器模块252包括允许用户下载和回放以一种或多种文件格式(诸如MP3或AAC文件)存储的所记录的音乐和其他声音文件的可执行指令;以及用于显示、呈现或以其他方式回放视频(例如,在触摸屏212上或在经由外部端口224连接的外部显示器上)的可执行指令。在一些实施方案中,设备200任选地包括MP3播放器,诸如iPod(Apple Inc.的商标)的功能性。
结合触摸屏212、显示控制器256、接触/运动模块230、图形模块232和文本输入模块234,记事本模块253包括根据用户指令来创建和管理记事本、待办事项等的可执行指令。
结合RF电路208、触摸屏212、显示控制器256、接触/运动模块230、图形模块232、文本输入模块234、GPS模块235和浏览器模块247,地图模块254用于根据用户指令接收、显示、修改和存储地图以及与地图相关联的数据(例如,驾驶方向、与特定位置处或附近的商店及其他兴趣点有关的数据、以及其他基于位置的数据)。
结合触摸屏212、显示控制器256、接触/运动模块230、图形模块232、音频电路210、扬声器211、RF电路208、文本输入模块234、电子邮件客户端模块240和浏览器模块247,在线视频模块255包括指令,该指令允许用户访问、浏览、接收(例如,通过流式传输和/或下载)、回放(例如在触摸屏上或在经由外部端口224所连接的外部显示器上)、发送具有至特定在线视频的链接的电子邮件,以及以其他方式管理一种或多种文件格式诸如H.264的在线视频。在一些实施方案中,使用即时消息模块241而不是电子邮件客户端模块240发送至特定在线视频的链接。在线视频应用程序的附加描述可在2007年6月20日提交的名称为“Portable Multifunction Device,Method,and Graphical User Interface forPlaying Online Videos”的美国临时专利申请60/936,562、和2007年12月31日提交的名称为“Portable Multifunction Device,Method,and Graphical User Interface forPlaying Online Videos”的美国专利申请11/968,067中找到,这两个专利申请的内容据此全文以引用方式并入本文。
上述每个模块和应用程序对应于用于执行上述一种或多种功能以及在本专利申请中所述的方法(例如,本文所述的计算机实现的方法和其他信息处理方法)的可执行指令集。这些模块(例如,指令集)不必被实现为独立的软件程序、过程或模块,并因此在各种实施方案中可组合或以其他方式重新布置这些模块的各种子集。例如,视频播放器模块可与音乐播放器模块组合成单个模块(例如,图2A中的视频和音乐播放器模块252)。在一些实施方案中,存储器202存储上述模块和数据结构的子集。此外,存储器202存储上面未描述的另外的模块和数据结构。
在一些实施方案中,设备200是该设备上的预定义的一组功能的操作唯一地通过触摸屏和/或触摸板来执行的设备。通过使用触摸屏和/或触摸板作为用于设备200的操作的主要输入控制设备,减少了设备200上的物理输入控制设备(诸如下压按钮、拨号盘等等)的数量。
唯一地通过触摸屏和/或触摸板执行的该预定义的一组功能任选地包括在用户界面之间进行导航。在一些实施方案中,当用户触摸触摸板时,将设备200从设备200上显示的任何用户界面导航到主菜单、home菜单或根菜单。在此类实施方案中,使用触摸板来实现“菜单按钮”。在一些其他实施方案中,菜单按钮是物理下压按钮或者其他物理输入控制设备,而不是触摸板。
图2B是示出根据一些实施方案的用于事件处理的示例性部件的框图。在一些实施方案中,存储器202(图2A)或存储器470(图4)包括事件分类器270(例如,在操作系统226中)以及相应的应用程序236-1(例如,前述应用程序237-251、255、480-490中的任一个应用程序)。
事件分类器270接收事件信息并确定要将事件信息递送到的应用程序236-1和应用程序236-1的应用程序视图291。事件分类器270包括事件监视器271和事件分配器模块274。在一些实施方案中,应用程序236-1包括应用程序内部状态292,该应用程序内部状态指示当应用程序是活动的或正在执行时被显示在触敏显示器212上的当前应用程序视图。在一些实施方案中,设备/全局内部状态257被事件分类器270用于确定哪个(哪些)应用程序当前是活动的,并且应用程序内部状态292被事件分类器270用于确定要将事件信息递送到的应用程序视图291。
在一些实施方案中,应用程序内部状态292包括附加信息,诸如以下各项中的一者或多者:当应用程序236-1恢复执行时将被使用的恢复信息、指示正被应用程序236-1显示的信息或准备好用于被应用程序236-1显示的信息的用户界面状态信息、用于使得用户能够返回到应用程序236-1的前一状态或视图的状态队列、以及用户采取的先前动作的重复/撤销队列。
事件监视器271从外围设备接口218接收事件信息。事件信息包括关于子事件(例如,作为多点触摸手势的一部分的触敏显示器212上的用户触摸)的信息。外围设备接口218传输其从I/O子系统206或传感器(诸如接近传感器266)、加速度计268和/或麦克风213(通过音频电路210)所接收的信息。外围设备接口218从I/O子系统206接收的信息包括来自触敏显示器212或触敏表面的信息。
在一些实施方案中,事件监视器271以预先确定的间隔将请求发送至外围设备接口218。作为响应,外围设备接口218传输事件信息。在其他实施方案中,外围设备接口218仅当存在显著事件(例如,接收到高于预先确定的噪声阈值的输入和/或接收到超过预先确定的持续时间的输入)时才传输事件信息。
在一些实施方案中,事件分类器270还包括命中视图确定模块272和/或活动事件识别器确定模块273。
当触敏显示器212显示多于一个视图时,命中视图确定模块272提供用于确定子事件已在一个或多个视图内的什么地方发生的软件过程。视图由用户能在显示器上看到的控件和其他元件构成。
与应用程序相关联的用户界面的另一方面是一组视图,本文中有时也称为应用程序视图或用户界面窗口,在其中显示信息并且发生基于触摸的手势。在其中检测到触摸的(相应应用程序的)应用程序视图对应于应用程序的程序化或视图分级结构内的程序化水平。例如,在其中检测到触摸的最低水平视图被称为命中视图,并且被识别为适当输入的事件集至少部分地基于初始触摸的命中视图来确定,所述初始触摸开始基于触摸的手势。
命中视图确定模块272接收与基于触摸的手势的子事件相关的信息。当应用程序具有在分级结构中组织的多个视图时,命中视图确定模块272将命中视图识别为应对子事件进行处理的分级结构中的最低视图。在大多数情况下,命中视图是发起子事件(例如,形成事件或潜在事件的子事件序列中的第一子事件)在其中发生的最低水平视图。一旦命中视图被命中视图确定模块272识别,命中视图便通常接收与其被识别为命中视图所针对的同一触摸或输入源相关的所有子事件。
活动事件识别器确定模块273确定视图分级结构内的哪个或哪些视图应接收特定子事件序列。在一些实施方案中,活动事件识别器确定模块273确定仅命中视图应接收特定子事件序列。在其他实施方案中,活动事件识别器确定模块273确定包括子事件的物理位置的所有视图是活跃参与的视图,并且因此确定所有活跃参与的视图应接收特定子事件序列。在其他实施方案中,即使触摸子事件完全被局限到与一个特定视图相关联的区域,但是分级结构中的更高的视图将仍然保持为活跃参与的视图。
事件分配器模块274将事件信息分配到事件识别器(例如,事件识别器280)。在包括活动事件识别器确定模块273的实施方案中,事件分配器模块274将事件信息递送到由活动事件识别器确定模块273确定的事件识别器。在一些实施方案中,事件分配器模块274在事件队列中存储事件信息,该事件信息由相应事件接收器282进行检索。
在一些实施方案中,操作系统226包括事件分类器270。另选地,应用程序236-1包括事件分类器270。在另一些实施方案中,事件分类器270是独立的模块,或者是被存储在存储器202中的另一个模块(诸如接触/运动模块230)的一部分。
在一些实施方案中,应用程序236-1包括多个事件处理程序290和一个或多个应用程序视图291,其中每个应用程序视图包括用于处理发生在应用程序的用户界面的相应视图内的触摸事件的指令。应用程序236-1的每个应用程序视图291包括一个或多个事件识别器280。通常,相应应用程序视图291包括多个事件识别器280。在其他实施方案中,事件识别器280中的一个或多个事件识别器是独立模块的一部分,该独立模块诸如用户界面工具包(未示出)或应用程序236-1从中继承方法和其他属性的更高水平的对象。在一些实施方案中,相应事件处理程序290包括以下各项中的一者或多者:数据更新器276、对象更新器277、GUI更新器278和/或从事件分类器270所接收的事件数据279。事件处理程序290利用或调用数据更新器276、对象更新器277或GUI更新器278,以更新应用程序内部状态292。另选地,应用程序视图291中的一个或多个包括一个或多个相应事件处理程序290。另外,在一些实施方案中,数据更新器276、对象更新器277和GUI更新器278中的一者或多者被包括在相应应用程序视图291中。
相应的事件识别器280从事件分类器270接收事件信息(例如,事件数据279),并且从事件信息识别事件。事件识别器280包括事件接收器282和事件比较器284。在一些实施方案中,事件识别器280还至少包括以下各项的子集:元数据283、和事件递送指令288(其可包括子事件递送指令)。
事件接收器282接收来自事件分类器270的事件信息。事件信息包括关于子事件(例如触摸或触摸移动)的信息。根据子事件,事件信息还包括附加信息,诸如子事件的位置。当子事件涉及触摸的运动时,事件信息还包括子事件的速率和方向。在一些实施方案中,事件包括设备从一个取向旋转到另一个取向(例如,从纵向取向旋转到横向取向,或反之亦然),并且事件信息包括关于设备的当前取向(也被称为设备姿态)的对应信息。
事件比较器284将事件信息与预定义的事件或子事件定义进行比较,并且基于该比较来确定事件或子事件,或者确定或更新事件或子事件的状态。在一些实施方案中,事件比较器284包括事件定义286。事件定义286包含事件的定义(例如,预定义的子事件序列),例如事件1(287-1)、事件2(287-2)以及其他事件。在一些实施方案中,事件(287)中的子事件例如包括触摸开始、触摸结束、触摸移动、触摸取消和多点触摸。在一个示例中,事件1(287-1)的定义是在被显示对象上的双击。例如,双击包括在被显示对象上的预先确定时长的第一次触摸(触摸开始)、预先确定时长的第一次抬起(触摸结束)、在被显示对象上的预先确定时长的第二次触摸(触摸开始)以及预先确定时长的第二次抬起(触摸结束)。在另一个示例中,事件2(287-2)的定义是被显示对象上的拖动。例如,拖动包括被显示对象上的预先确定时长的触摸(或接触)、触摸在触敏显示器212上的移动、以及触摸的抬起(触摸结束)。在一些实施方案中,事件还包括用于一个或多个相关联的事件处理程序290的信息。
在一些实施方案中,事件定义287包括用于相应用户界面对象的事件的定义。在一些实施方案中,事件比较器284执行命中测试以确定哪个用户界面对象与子事件相关联。例如,在触敏显示器212上显示三个用户界面对象的应用程序视图中,当在触敏显示器212上检测到触摸时,事件比较器284执行命中测试以确定这三个用户界面对象中的哪一个用户界面对象与该触摸(子事件)相关联。如果每个所显示的对象与相应的事件处理程序290相关联,则事件比较器使用该命中测试的结果来确定哪个事件处理程序290应当被激活。例如,事件比较器284选择与子事件和触发该命中测试的对象相关联的事件处理程序。
在一些实施方案中,相应事件(287)的定义还包括延迟动作,该延迟动作延迟事件信息的递送,直到已确定子事件序列是否确实对应于或不对应于事件识别器的事件类型。
当相应事件识别器280确定子事件序列不与事件定义286中的任何事件匹配时,该相应事件识别器280进入事件不可能、事件失败或事件结束状态,在此之后忽略基于触摸的手势的后续子事件。在这种情况下,对于命中视图保持活动的其他事件识别器(如果有的话)继续跟踪和处理持续的基于触摸的手势的子事件。
在一些实施方案中,相应事件识别器280包括具有用于指示事件递送系统应该如何执行对活跃参与的事件识别器的子事件递送的可配置属性、标记和/或列表的元数据283。在一些实施方案中,元数据283包括指示事件识别器彼此如何交互或如何能够交互的可配置属性、标志和/或列表。在一些实施方案中,元数据283包括指示子事件是否递送到视图或程序化分级结构中的不同层级的可配置属性、标志和/或列表。
在一些实施方案中,当识别事件的一个或多个特定子事件时,相应事件识别器280激活与事件相关联的事件处理程序290。在一些实施方案中,相应事件识别器280将与事件相关联的事件信息递送到事件处理程序290。激活事件处理程序290不同于将子事件发送(和延期发送)到相应命中视图。在一些实施方案中,事件识别器280抛出与所识别的事件相关联的标记,并且与该标记相关联的事件处理程序290获取该标记并执行预定义的过程。
在一些实施方案中,事件递送指令288包括递送关于子事件的事件信息而不激活事件处理程序的子事件递送指令。相反,子事件递送指令将事件信息递送到与子事件序列或活跃参与的视图相关联的事件处理程序。与子事件序列或与活跃参与的视图相关联的事件处理程序接收事件信息并执行预先确定的过程。
在一些实施方案中,数据更新器276创建并更新在应用程序236-1中使用的数据。例如,数据更新器276对联系人模块237中所使用的电话号码进行更新,或者对视频播放器模块中所使用的视频文件进行存储。在一些实施方案中,对象更新器277创建和更新在应用程序236-1中使用的对象。例如,对象更新器277创建新的用户界面对象或更新用户界面对象的位置。GUI更新器278更新GUI。例如,GUI更新器278准备显示信息并将其发送至图形模块232以用于在触敏显示器上显示。
在一些实施方案中,事件处理程序290包括数据更新器276、对象更新器277和GUI更新器278或者具有对数据更新器176、对象更新器177和GUI更新器178的访问权限。在一些实施方案中,数据更新器276、对象更新器277和GUI更新器278被包括在相应应用程序236-1或应用程序视图291的单个模块中。在其他实施方案中,它们被包括在两个或更多个软件模块中。
应当理解,关于触敏显示器上的用户触摸的事件处理的上述讨论还适用于利用输入设备来操作多功能设备200的其他形式的用户输入,并不是所有用户输入都是在触摸屏上发起的。例如,任选地与单次或多次键盘按压或保持结合的鼠标移动和鼠标按钮按压;触摸板上的接触移动,诸如轻击、拖动、滚动等;触笔输入;设备的移动;口头指令;所检测到的眼睛移动;生物特征输入;和/或其任意的组合任选地被用作为与定义要识别的事件的子事件对应的输入。
图3示出了根据一些实施方案的具有触摸屏212的便携式多功能设备200。触摸屏任选地在用户界面(UI)300内显示一个或多个图形。在本实施方案中以及在下文中描述的其他实施方案中,用户能够通过例如利用一个或多个手指302(在附图中没有按比例绘制)或者利用一个或多个触笔303(在附图中没有按比例绘制)在图形上作出手势来选择这些图形中的一个或多个图形。在一些实施方案中,当用户中断与一个或多个图形的接触时,将发生对一个或多个图形的选择。在一些实施方案中,手势任选地包括一次或多次轻击、一次或多次轻扫(从左向右、从右向左、向上和/或向下)和/或已与设备200发生接触的手指的滚动(从右向左、从左向右、向上和/或向下)。在一些具体实施中或在一些情况下,不经意地与图形接触不会选择图形。例如,当与选择对应的手势是轻击时,在应用程序图标上方扫动的轻扫手势任选地不会选择相应应用程序。
设备200还包括一个或多个物理按钮,诸如“home”按钮或菜单按钮304。如前所述,菜单按钮304用于导航到在设备200上被执行的一组应用程序中的任何应用程序236。另选地,在一些实施方案中,菜单按钮被实现为被显示在触摸屏212上的GUI中的软按键。
在一些实施方案中,设备200包括触摸屏212、菜单按钮304、用于使设备通电/断电和用于锁定设备的下压按钮306、一个或多个音量调节按钮308、用户身份模块(SIM)卡槽310、耳麦插孔312和对接/充电外部端口224。下压按钮306被任选地用于:通过按下按钮并使按钮在下压状态保持预先确定的时间间隔来使设备通电/断电;通过按下按钮并在经过预先确定的时间间隔之前释放按钮来锁定设备;和/或对设备进行解锁或发起解锁过程。在另选的实施方案中,设备200还通过麦克风213来接受用于激活或去激活某些功能的语音输入。设备200还任选地包括用于检测触摸屏212上的接触的强度的一个或多个接触强度传感器265,和/或用于为设备200的用户生成触觉输出的一个或多个触觉输出发生器267。
图4是根据一些实施方案的具有显示器和触敏表面的一种示例性多功能设备的框图。设备400不必是便携式的。在一些实施方案中,设备400是膝上型电脑、台式计算机、平板电脑、多媒体播放器设备、导航设备、教育设备(诸如儿童学习玩具)、游戏系统或控制设备(例如,家用控制器或工业用控制器)。设备400通常包括一个或多个处理单元(CPU)410、一个或多个网络或其他通信接口460、存储器470和用于使这些部件互连的一个或多个通信总线420。通信总线420任选地包括使系统部件互连并且控制系统部件之间的通信的电路(有时叫做芯片组)。设备400包括具有显示器440的输入/输出(I/O)接口430,该显示器通常是触摸屏显示器。I/O接口430还任选地包括键盘和/或鼠标(或其他指向设备)450和触摸板455、用于在设备400上生成触觉输出的触觉输出发生器457(例如,类似于以上参考图2A所述的一个或多个触觉输出发生器267)、传感器459(例如,光学传感器、加速度传感器、接近传感器、触敏传感器、和/或类似于以上参考图2A所述的一个或多个接触强度传感器265的接触强度传感器)。存储器470包括高速随机存取存储器诸如DRAM、SRAM、DDR RAM或其他随机存取固态存储器设备,并且任选地包括非易失性存储器诸如一个或多个磁盘存储设备、光盘存储设备、闪存存储器设备或其他非易失性固态存储设备。存储器470任选地包括远离CPU 410定位的一个或多个存储设备。在一些实施方案中,存储器470存储与便携式多功能设备200(图2A)的存储器202中所存储的程序、模块和数据结构类似的程序、模块、和数据结构或它们的子集。此外,存储器470任选地存储在便携式多功能设备200的存储器202中不存在的附加程序、模块和数据结构。例如,设备400的存储器470任选地存储绘图模块480、呈现模块482、文字处理模块484、网站创建模块486、盘编辑模块488、和/或电子表格模块490,而便携式多功能设备200(图2A)的存储器202任选地不存储这些模块。
图4中的上述元件中的每个元件在一些实施例中被存储在一个或多个前面提到的存储器设备中。上述模块中的每个模块对应于用于执行上述功能的指令集。上述模块或程序(例如,指令集)不必被实现为单独的软件程序、过程或模块,并且因此这些模块的各种子集在各种实施方案中被组合或以其他方式重新布置。在一些实施方案中,存储器470存储上述模块和数据结构的子集。此外,存储器470存储上面未描述的另外的模块和数据结构。
现在将注意力转到可在例如便携式多功能设备200上实现的用户界面的实施方案。
图5A示出了根据一些实施方案的便携式多功能设备200上的应用程序菜单的示例性用户界面。类似的用户界面在设备400上实现。在一些实施方案中,用户界面500包括以下元素或者其子集或超集:
无线通信(诸如蜂窝信号和Wi-Fi信号)的信号强度指示器502;
·时间504;
·蓝牙指示器505;
·电池状态指示器506;
·具有常用应用程序图标的托盘508,图标诸如:
o电话模块238的被标记为“电话”的图标516,该图标416任选地包括未接来电或语音留言的数量的指示符514;
o电子邮件客户端模块240的被标记为“邮件”的图标518,该图标518任选地包括未读电子邮件的数量的指示符510;
o浏览器模块247的被标记为“浏览器”的图标520;和
o视频和音乐播放器模块252(也称为iPod(Apple Inc.的商标)模块252)的被标记为“iPod”的图标522;以及
·其它应用程序的图标,图标诸如:
o IM模块241的被标记为“消息”的图标524;
o日历模块248的被标记为“日历”的图标526;
o图像管理模块244的被标记为“照片”的图标528;
o相机模块243的被标记为“相机”的图标530;
o在线视频模块255的被标记为“在线视频”的图标532;
o股市桌面小程序249-2的被标记为“股市”的图标534;
o地图模块254的被标记为“地图”的图标536;
o天气桌面小程序249-1的被标记为“天气”的图标538;
o闹钟桌面小程序249-4的被标记为“时钟”的图标540;
o健身支持模块242的被标记为“健身支持”的图标542;
o记事本模块253的被标记为“记事本”的图标544;和
o用于设置应用程序或模块的被标记为“设置”的图标546,该图标446提供对设备200及其各种应用程序236的设置的访问。
应当指示的是,图5A中示出的图标标签仅是示例性的。例如,视频和音乐播放器模块252的图标522任选地被标记为“音乐”或“音乐播放器”。任选地为各种应用程序图标使用其他标签。在一些实施方案中,相应应用程序图标的标签包括与该相应应用程序图标对应的应用程序的名称。在一些实施方案中,特定应用程序图标的标签不同于与该特定应用程序图标对应的应用程序的名称。
图5B示出了具有与显示器550(例如,触摸屏显示器212)分开的触敏表面551(例如,图4的平板电脑或触摸板455)的设备(例如,图4的设备400)上的示例性用户界面。设备400还任选地包括用于检测触敏表面551上的接触的强度的一个或多个接触强度传感器(例如,传感器457中的一个或多个传感器),和/或用于为设备400的用户生成触觉输出的一个或多个触觉输出发生器459。
尽管将参考触摸屏显示器212(其中组合了触敏表面和显示器)上的输入给出随后的示例中的一些示例,但是在一些实施方案中,设备检测与显示器分开的触敏表面上的输入,如图5B中所示。在一些实施方案中,触敏表面(例如,图5B中的551)具有与显示器(例如,550)上的主轴(例如,图5B中的553)对应的主轴(例如,图5B中的552)。根据这些实施方案,设备检测在与显示器上的相应位置对应的位置(例如,在图5B中,560对应于568并且562对应于570)处与触敏表面551的接触(例如,图5B中的560和562)。这样,在触敏表面(例如,图5B中的551)与多功能设备的显示器(图5B中的550)分开时,由设备在触敏表面上检测到的用户输入(例如,接触560和562以及它们的移动)被该设备用于操控显示器上的用户界面。应当理解,类似的方法任选地用于本文所述的其他用户界面。
另外,虽然主要是参考手指输入(例如,手指接触、单指轻击手势、手指轻扫手势)来给出下面的示例,但是应当理解的是,在一些实施方案中,这些手指输入中的一个或多个手指输入由来自另一输入设备的输入(例如,基于鼠标的输入或触笔输入)替代。例如,轻扫手势任选地由鼠标点击(例如,而不是接触),之后是光标沿着轻扫的路径的移动(例如,而不是接触的移动)来替代。又如,轻击手势任选地由在光标位于轻击手势的位置上方时的鼠标点击(例如,而不是对接触的检测,之后是终止检测接触)来替代。类似地,当同时检测到多个用户输入时,应当理解的是,多个计算机鼠标任选地被同时使用,或鼠标和手指接触任选地被同时使用。
图6A示出了示例性个人电子设备600。设备600包括主体602。在一些实施方案中,设备600包括针对设备200和400(例如,图2A至图4)所述的特征中的一些或全部特征。在一些实施方案中,设备600具有在下文中称为触摸屏604的触敏显示屏604。作为触摸屏604的替代或补充,设备600具有显示器和触敏表面。与设备200和400的情况一样,在一些实施方案中,触摸屏604(或触敏表面)具有用于检测所施加的接触(例如,触摸)的强度的一个或多个强度传感器。触摸屏604(或触敏表面)的一个或多个强度传感器提供表示触摸的强度的输出数据。设备600的用户界面基于触摸强度来对触摸作出响应,这意味着不同强度的触摸可调用设备600上的不同的用户界面操作。
例如在如下相关专利申请中找到用于检测和处理触摸强度的技术:2013年5月8日提交的名称为“Device,Method,and Graphical User Interface for Displaying UserInterface Objects Corresponding to an Application”的国际专利申请序列号PCT/US2013/040061、以及2013年11月11日提交的名称为“Device,Method,and Graphical UserInterface for Transitioning Between Touch Input to Display OutputRelationships”的国际专利申请序列号PCT/US2013/069483,这两个专利申请中的每个专利申请据此全文以引用方式并入本文。
在一些实施方案中,设备600具有一个或多个输入机构606和608。输入机构606和608(如果包括的话)是物理形式的。物理输入机构的示例包括下压按钮和可旋转机构。在一些实施方案中,设备600具有一个或多个附接机构。此类附接机构(如果包括的话)可允许将设备600与例如帽子、眼镜、耳环、项链、衬衣、夹克、手镯、表带、手链、裤子、皮带、鞋子、钱包、背包等附接。这些附接机构允许用户穿戴设备600。
图6B示出了示例性个人电子设备600。在一些实施方案中,设备600包括参考图2A、图2B和图4所述的部件中的一些或全部部件。设备600具有总线612,该总线将I/O部分614与一个或多个计算机处理器616和存储器618操作性地耦接。I/O部分614连接到显示器604,该显示器可具有触敏部件622并且任选地还具有触摸强度敏感部件624。此外,I/O部分614与通信单元630连接,以用于使用Wi-Fi、蓝牙、近场通信(NFC)、蜂窝和/或其他无线通信技术来接收应用程序和操作系统数据。设备600包括输入机构606和/或608。例如,输入机构606是可旋转输入设备或者可按压且可旋转输入设备。在一些示例中,输入机构608是按钮。
在一些示例中,输入机构608是麦克风。个人电子设备600包括例如各种传感器,诸如GPS传感器632、加速度计634、定向传感器640(例如,罗盘)、陀螺仪636、运动传感器638和/或其组合,所有这些传感器均操作性地连接到I/O部分614。
个人电子设备600的存储器618是用于存储计算机可执行指令的非暂态计算机可读存储介质,该指令当由一个或多个计算机处理器616执行时例如使得计算机处理器执行下文所述技术和过程。该计算机可执行指令例如也在任何非暂态计算机可读存储介质内进行存储和/或传送,以供指令执行系统、装置或设备诸如基于计算机的系统、包含处理器的系统或可从指令执行系统、装置或设备取指令并执行指令的其他系统使用或与其结合。个人电子设备600不限于图6B的部件和配置,而是可包括多种配置中的其他部件或附加部件。
如本文所用,术语“示能表示”是指例如在设备200、400和/或600(图2、图4和图6)的显示屏上显示的用户交互式图形用户界面对象。例如,图像(例如,图标)、按钮和文本(例如,超链接)各自构成示能表示。
如本文所用,术语“焦点选择器”是指用于指示用户正与之进行交互的用户界面的当前部分的输入元件。在包括光标或其他位置标记的一些具体实施中,光标充当“焦点选择器”,使得当光标在特定用户界面元素(例如,按钮、窗口、滑块或其他用户界面元素)上方时在触敏表面(例如,图4中的触摸板455或图5B中的触敏表面551)上检测到输入(例如,按压输入)的情况下,该特定用户界面元素根据所检测到的输入而被调节。在包括能够实现与触摸屏显示器上的用户界面元素的直接交互的触摸屏显示器(例如,图2A中的触敏显示器系统212或图5A中的触摸屏212)的一些具体实施中,触摸屏上的所检测到的接触充当“焦点选择器”,使得当在触摸屏显示器上在特定用户界面元素(例如,按钮、窗口、滑块或其他用户界面元素)的位置处检测到输入(例如,由接触进行的按压输入)时,该特定用户界面元素根据所检测到的输入而被调节。在一些具体实施中,焦点从用户界面的一个区域移动到用户界面的另一个区域,而无需光标的对应移动或触摸屏显示器上的接触的移动(例如,通过使用制表键或箭头键将焦点从一个按钮移动到另一个按钮);在这些具体实施中,焦点选择器根据用户界面的不同区域之间的焦点移动而移动。不考虑焦点选择器所采取的具体形式,焦点选择器通常是由用户控制的以便递送与用户界面的用户预期的交互(例如,通过向设备指示用户界面的用户期望与其进行交互的元素)的用户界面元素(或触摸屏显示器上的接触)。例如,在触敏表面(例如,触摸板或触摸屏)上检测到按压输入时,焦点选择器(例如,光标、接触或选择框)在相应按钮上方的位置将指示用户期望激活相应按钮(而不是设备显示器上示出的其他用户界面元素)。
如说明书和权利要求中所使用的,接触的“特征强度”这一术语是指基于接触的一个或多个强度的接触的特征。在一些实施方案中,特征强度基于多个强度样本。特性强度任选地基于相对于预定义事件(例如,在检测到接触之后,在检测到接触抬起之前,在检测到接触开始移动之前或之后,在检测到接触结束之前,在检测到接触的强度增大之前或之后和/或在检测到接触的强度减小之前或之后)而言在预先确定的时间段(例如,0.05秒、0.1秒、0.2秒、0.5秒、1秒、2秒、5秒、10秒)期间采集的预定义数量的强度样本或一组强度样本。接触的特性强度任选地基于以下各项中的一者或多者:接触强度的最大值、接触强度的均值、接触强度的平均值、接触强度的前10%处的值、接触强度的半最大值、接触强度的90%最大值等。在一些实施方案中,在确定特性强度时使用接触的持续时间(例如,在特性强度是接触的强度在时间上的平均值时)。在一些实施方案中,将特性强度与一组一个或多个强度阈值进行比较,以确定用户是否已执行操作。例如,该组一个或多个强度阈值包括第一强度阈值和第二强度阈值。在本示例中,特征强度未超过第一阈值的接触导致第一操作,特征强度超过第一强度阈值但未超过第二强度阈值的接触导致第二操作,并且特征强度超过第二阈值的接触导致第三操作。在一些实施方案中,使用特性强度与一个或多个阈值之间的比较来确定是否要执行一个或多个操作(例如,是执行相应操作还是放弃执行相应操作),而不是用于确定执行第一操作还是第二操作。
在一些实施方案中,识别手势的一部分以用于确定特性强度。例如,触敏表面接收连续的轻扫接触,该连续的轻扫接触从起始位置过渡并到达结束位置,在该结束位置处,接触的强度增加。在本示例中,接触在结束位置处的特征强度仅基于连续轻扫接触的一部分,而不是整个轻扫接触(例如,仅结束位置处的轻扫接触部分)。在一些实施方案中,在确定接触的特性强度之前向轻扫接触的强度应用平滑化算法。例如,该平滑化算法任选地包括以下各项中的一者或多者:不加权滑动平均平滑化算法、三角平滑化算法、中值滤波器平滑化算法和/或指数平滑化算法。在一些情况下,这些平滑化算法消除了轻扫接触的强度中的窄的尖峰或凹陷,以实现确定特征强度的目的。
相对于一个或多个强度阈值诸如接触检测强度阈值、轻按压强度阈值、深按压强度阈值和/或一个或多个其他强度阈值来表征触敏表面上的接触的强度。在一些实施方案中,轻按压强度阈值对应于这样的强度:在该强度下设备将执行通常与点击物理鼠标的按钮或触控板相关联的操作。在一些实施方案中,深按压强度阈值对应于这样的强度:在该强度下设备将执行与通常与点击物理鼠标或触控板的按钮相关联的操作不同的操作。在一些实施方案中,当检测到特征强度低于轻按压强度阈值(例如,并且高于标称接触检测强度阈值,比标称接触检测强度阈值低的接触不再被检测到)的接触时,设备将根据接触在触敏表面上的移动来移动焦点选择器,而不执行与轻按压强度阈值或深按压强度阈值相关联的操作。一般来讲,除非另有陈述,否则这些强度阈值在不同组的用户界面附图之间是一致的。
接触特征强度从低于轻按压强度阈值的强度增大到介于轻按压强度阈值与深按压强度阈值之间的强度有时被称为“轻按压”输入。接触特征强度从低于深按压强度阈值的强度增大到高于深按压强度阈值的强度有时被称为“深按压”输入。接触特征强度从低于接触检测强度阈值的强度增大到介于接触检测强度阈值与轻按压强度阈值之间的强度有时被称为检测到触摸表面上的接触。接触特征强度从高于接触检测强度阈值的强度减小到低于接触检测强度阈值的强度有时被称为检测到接触从触摸表面抬起。在一些实施方案中,接触检测强度阈值为零。在一些实施方案中,接触检测强度阈值大于零。
在本文中所述的一些实施方案中,响应于检测到包括相应按压输入的手势或响应于检测到利用相应接触(或多个接触)执行的相应按压输入来执行一个或多个操作,其中至少部分地基于检测到该接触(或多个接触)的强度增大到高于按压输入强度阈值而检测到相应按压输入。在一些实施方案中,响应于检测到相应接触的强度增大到高于按压输入强度阈值(例如,相应按压输入的“向下冲程”)来执行相应操作。在一些实施方案中,按压输入包括相应接触的强度增大到高于按压输入强度阈值以及该接触的强度随后减小到低于按压输入强度阈值,并且响应于检测到相应接触的强度随后减小到低于按压输入阈值(例如,相应按压输入的“向上冲程”)来执行相应操作。
在一些实施方案中,设备采用强度滞后以避免有时被称为“抖动”的意外输入,其中设备限定或选择与按压输入强度阈值具有预定义关系的滞后强度阈值(例如,滞后强度阈值比按压输入强度阈值低X个强度单位,或滞后强度阈值是按压输入强度阈值的75%、90%或某个合理比例)。因此,在一些实施方案中,按压输入包括相应接触的强度增大到高于按压输入强度阈值以及该接触的强度随后减小到低于对应于按压输入强度阈值的滞后强度阈值,并且响应于检测到相应接触的强度随后减小到低于滞后强度阈值(例如,相应按压输入的“向上冲程”)来执行相应操作。类似地,在一些实施方案中,仅在设备检测到接触的强度从等于或低于滞后强度阈值的强度增大到等于或高于按压输入强度阈值的强度并且任选地接触的强度随后减小到等于或低于滞后强度的强度时才检测到按压输入,并且响应于检测到按压输入(例如,根据环境,接触的强度增大或接触的强度减小)来执行相应操作。
为了容易解释,任选地,响应于检测到以下各种情况中的任一种情况而触发对响应于与按压输入强度阈值相关联的按压输入或响应于包括按压输入的手势而执行的操作的描述:接触强度增大到高于按压输入强度阈值、接触强度从低于滞后强度阈值的强度增大到高于按压输入强度阈值的强度、接触强度减小到低于按压输入强度阈值、和/或接触强度减小到低于与按压输入强度阈值对应的滞后强度阈值。另外,在将操作描述为响应于检测到接触的强度减小到低于按压输入强度阈值而执行的示例中,任选地响应于检测到接触的强度减小到低于对应于并且小于按压输入强度阈值的滞后强度阈值来执行操作。
3.数字助理系统
图7A示出了根据各个实施例的数字助理系统700的框图。在一些实施例中,数字助理系统700在独立式计算机系统上实施。在一些实施例中,数字助理系统700跨多个计算机分布。在一些实施例中,数字助理的模块和功能中的一些被划分成服务器部分和客户端部分,其中客户端部分位于一个或多个用户设备(例如,设备104、122、200、400或600)上并通过一个或多个网络与服务器部分(例如,服务器系统108)通信,例如如图1中所示。在一些实施例中,数字助理系统700为图1中所示的服务器系统108(和/或DA服务器106)的一种具体实施。应当指出,数字助理系统700仅为数字助理系统的一个实例,并且数字助理系统700可具有比图示更多或更少的部件、可组合两个或更多个部件、或可具有这些部件的不同配置或布局。图7A中所示的各种部件在硬件、用于由一个或多个处理器执行的软件指令、固件(包括一个或多个信号处理集成电路和/或专用集成电路)、或它们的组合中实现。
数字助理系统700包括存储器702、输入/输出(I/O)接口706、网络通信接口708、以及一个或多个处理器704。这些部件可通过一条或多条通信总线或信号线710彼此通信。
在一些实施例中,存储器702包括非暂态计算机可读介质,诸如高速随机存取存储器和/或非易失性计算机可读存储介质(例如,一个或多个磁盘存储设备、闪存存储器设备或其他非易失性固态存储器设备)。
在一些实施例中,I/O接口706将数字助理系统700的输入/输出设备716诸如显示器、键盘、触摸屏和麦克风耦接至用户界面模块722。I/O接口706与用户界面模块722结合接收用户输入(例如,语音输入、键盘输入、触摸输入等)并相应地对这些输入进行处理。在一些实施例中,例如当数字助理在独立式用户设备上实施时,数字助理系统700包括分别相对于图2A、图4、图6A至图6B中的设备200、400或600所描述的部件和I/O通信接口中的任一者。在一些实施例中,数字助理系统700代表一数字助理具体实施的服务器部分,并且可通过位于用户设备(例如,设备104、200、400或600)上的客户端侧部分与用户进行交互。
在一些实施例中,网络通信接口708包括有线通信端口712和/或无线传输和接收电路714。有线通信端口经由一个或多个有线接口例如以太网、通用串行总线(USB)、火线等接收和发送通信信号。无线电路714从通信网络及其他通信设备接收RF信号和/或光学信号以及将RF信号和/或光学信号发送至通信网络及其他通信设备。无线通信使用多种通信标准、协议和技术中的任一种,诸如GSM、EDGE、CDMA、TDMA、蓝牙、Wi-Fi、VoIP、Wi-MAX、或任何其他合适的通信协议。网络通信接口708使数字助理系统700通过网络,诸如互联网、内联网和/或无线网络诸如蜂窝电话网络、无线局域网(LAN)和/或城域网(MAN),与其他设备之间的通信成为可能。
在一些实施例中,存储器702、或存储器702的计算机可读存储介质存储程序、模块、指令和数据结构,包括以下内容中的全部或其子集:操作系统718、通信模块720、用户界面模块722、一个或多个应用程序724和数字助理模块726。特别地,存储器702或存储器702的计算机可读存储介质存储用于执行下文所述过程的指令。一个或多个处理器704执行这些程序、模块和指令,并从数据结构进行读操作或对数据结构进行写操作。
操作系统718(例如,Darwin、RTXC、LINUX、UNIX、iOS、OSX、WINDOWS、或嵌入式操作系统诸如VxWorks)包括用于控制和管理一般系统任务(例如,存储器管理、存储设备控制、电源管理等)的各种软件组件和/或驱动器,并且有利于各种硬件、固件和软件组件之间的通信。
通信模块720促成数字助理系统700与其他设备之间通过网络通信接口708进行的通信。例如,通信模块720与电子设备诸如分别在图2A、图4、图6A至图6B中所示的设备200、400和600的RF电路208通信。通信模块720还包括用于处理由无线电路714和/或有线通信端口712所接收的数据的各种部件。
用户界面模块722经由I/O接口706接收来自用户(例如,来自键盘、触摸屏、指向设备、控制器和/或麦克风)的命令和/或输入,并在显示器上生成用户界面对象。用户界面模块722还准备输出(例如,语音、声音、动画、文本、图标、振动、触觉反馈、光照等)并将其经由I/O接口706(例如,通过显示器、音频通道、扬声器、触摸板等)传送至用户。
应用程序724包括被配置为由一个或多个处理器704执行的程序和/或模块。例如,如果数字助理系统在独立式用户设备上实施,则应用程序724包括用户应用程序,诸如游戏、日历应用程序、导航应用程序或电子邮件应用程序。如果数字助理系统700在服务器上实施,则应用程序724包括例如资源管理应用程序、诊断应用程序、或调度应用程序。
存储器702还存储数字助理模块726(或数字助理的服务器部分)。在一些实施例中,数字助理模块726包括以下子模块或其子集或超集:输入/输出处理模块728、语音转文本(STT)处理模块730、自然语言处理模块732、对话流处理模块734、任务流处理模块736、服务处理模块738和语音合成模块740。这些模块中的每一个均具有对以下数字助理模块726的系统或数据与模型中的一者或多者或其子集或超集的访问权限:知识本体760、词汇索引744、用户数据748、任务流模型754、服务模型756和ASR系统。
在一些实施例中,使用在数字助理模块726上实施的处理模块、数据和模型,数字助理可执行以下内容中的至少一些:将语音输入转换成文本;识别从用户接收的自然语言输入中表达的用户的意图;主动地引出并获得用于充分推断用户的意图所需的信息(例如,通过消除字词、名称、意向等的歧义);确定用于实现推断出的意图的任务流;以及执行任务流以实现推断出的意图。
在一些实施例中,如图7B中所示,I/O处理模块728通过图7A中的I/O设备716与用户交互或通过图7A中的网络通信接口708与用户设备(例如,设备104、200、400或600)交互以获得用户输入(例如,语音输入)以及提供对用户输入的响应(例如,作为语音输出)。I/O处理模块728任选地随同对用户输入的接收一起或在接收用户输入之后不久获取与来自用户设备的用户输入相关联的上下文信息。上下文信息包括特定于用户的数据、词汇、和/或与用户输入相关的偏好。在一些实施例中,上下文信息还包括在接收到用户请求时用户设备的软件和硬件状态、和/或与在接收到用户请求时用户的周围环境相关的信息。在一些实施例中,I/O处理模块728还向用户发送与用户请求有关的跟进问题,并从用户接收回答。在用户请求被I/O处理模块728接收且用户请求包含语音输入时,I/O处理模块728将语音输入转发至STT处理模块730(或语音识别器)以进行语音文本转换。
STT处理模块730包括一个或多个ASR系统。一个或多个ASR系统可处理通过I/O处理模块728接收的语音输入以生成识别结果。每个ASR系统包括前端语音预处理器。前端语音预处理器从语音输入提取代表性特征。例如,前端语音预处理器对语音输入执行傅立叶变换以提取将语音输入表征成代表性多维矢量序列的谱特征。另外,每个ASR系统包括一个或多个语音识别模型(例如声学模型和/或语言模型)并实施一个或多个语音识别引擎。语音识别模型的示例包括隐马尔可夫模型、高斯混合模型、深度神经网络模型、N元语言模型、和其他统计模型。语音识别引擎的示例包括基于动态时间规整的引擎和基于加权有限状态转换器(WFST)的引擎。一个或多个语音识别模型和一个或多个语音识别引擎用于处理前端语音预处理器提取的代表性特征以生成中间识别结果(例如音素、音素串、和子字),并最终生成文本识别结果(例如字词、字词串、或符号序列)。在一些实施例中,语音输入至少部分地由第三方服务或在用户的设备(例如设备104、200、400或600)上处理以生成识别结果。一旦STT处理模块730生成了包含文本串(例如字词、或字词序列、或符号序列)的识别结果,该识别结果就被传递给自然语言处理模块732以进行意图推断。
有关语音转文本处理的更多细节在2011年9月20日提交的名称为“ConsolidatingSpeech Recognition Results”的美国实用新型专利申请序列号13/236,942中有所描述,其全部公开内容以引用方式并入本文。
在一些实施例中,STT处理模块730包括和/或经由语音字母表转换模块731访问可识别字词的词汇。每个词汇字词与在语音识别语音字母表中表示的该字词的一个或多个候选发音相关联。特别地,可识别字词的词汇包括与多个候选发音相关联的字词。例如,词汇包括与候选发音和相关联的字词“tomato”。另外,词汇字词与基于来自用户的先前语音输入的自定义候选发音相关联。此类自定义候选发音被存储在STT处理模块730中,并经由设备上的用户配置文件与特定用户相关联。在一些实施例中,字词的候选发音基于字词的拼写以及一个或多个语言规则和/或语音规则来确定。在一些实施例中,候选发音是例如基于已知规范发音而手动生成的。
在一些实施例中,基于候选发音的普遍性对候选发音进行排名。例如,候选发音排名比高,因为前者是更普遍使用的发音(例如在所有用户中、对于特定地理区域中的用户、或对于任何其他适当的用户子集)。在一些实施例中,基于候选发音是否是与用户相关联的自定义候选发音来对候选发音进行排名。例如,自定义候选发音排名比规范候选发音高。这对于识别具有与规范发音不同的独特发音的专有名词可以是有用的。在一些实施例中,候选发音与一个或多个语音特性诸如地理起源、国别、或种族相关联。例如,候选发音与美国相关联,而候选发音与英国相关联。另外,候选发音的排名基于设备上用户配置文件中所存储的用户的一个或多个特性(例如地理起源、国别、种族等)。例如,可由用户配置文件确定用户与美国相关联。基于用户与美国相关联,(与美国相关联的)候选发音排名比(与英国相关联的)候选发音高。在一些实施例中,经排名的候选发音中的一者被选择作为所预测的发音(例如最可能的发音)。
当语音输入被接收时,STT处理模块730用于(例如利用声学模型)确定对应于语音输入的音素,然后(例如利用语言模型)尝试确定与所述音素匹配的字词。例如,如果STT处理模块730首先识别对应于语音输入一部分的音素序列,则然后可基于词汇索引744确定该序列对应于字词“tomato”。
数字助理的自然语言处理模块732(“自然语言处理器”)取得由STT处理模块730生成的字词或符号的序列(“符号序列”),并尝试将该符号序列与由数字助理所识别的一个或多个“可执行意图”相关联。“可执行意图”表示可由数字助理执行并且可具有在任务流模型754中实施的相关联的任务流的任务。相关联任务流是数字助理为了执行任务而采取的一系列经编程的动作和步骤。数字助理的能力范围取决于已在任务流模型754中实施并存储的任务流的数量和种类,或换言之,取决于数字助理所识别的“可执行意图”的数量和种类。然而,数字助理的有效性还取决于助理从以自然语言表达的用户请求中推断出正确的“可执行意图”的能力。
在一些实施例中,除从STT处理模块730获得的字词或符号的序列之外,自然语言处理模块732还接收与用户请求相关联的上下文信息,例如来自I/O处理模块728。自然语言处理模块732任选地使用上下文信息来明确、补充和/或进一步定义在从STT处理模块730接收的符号序列中包含的信息。上下文信息包括例如用户偏好;用户设备的硬件和/或软件状态;在用户请求之前、期间或之后不久收集的传感器信息;数字助理与用户之间的先前交互(例如,对话)等等。如本说明书所述的,上下文信息在一些实施例中是动态的,并且随时间、位置、对话内容、以及其他因素而变化。
在一些实施例中,自然语言处理基于例如知识本体760。知识本体760为包含许多节点的分级结构,每个节点表示“可执行意图”或与“可执行意图”或其他“属性”中的一者或多者相关的“属性”。如上所述,“可执行意图”表示数字助理能够执行的任务,即,该任务为“可执行的”或可被进行的。“属性”代表与可执行意图或另一属性的子方面相关联的参数。知识本体760中可执行意图节点与属性节点之间的连接定义由属性节点代表的参数如何从属于由可执行意图节点代表的任务。
在一些实施例中,知识本体760由可执行意图节点和属性节点组成。在知识本体760内,每个可执行意图节点直接连接至或通过一个或多个中间属性节点连接至一个或多个属性节点。类似地,每个属性节点直接连接至或通过一个或多个中间属性节点连接至一个或多个可执行意图节点。例如,如图7C所示,知识本体760包括“餐厅预订”节点(即,可执行意图节点)。属性节点“餐厅”、“日期/时间”(针对预订)和“同行人数”均直接连接至可执行意图节点(即,“餐厅预订”节点)。
此外,属性节点“菜系”、“价格区间”、“电话号码”和“位置”是属性节点“餐厅”的子节点,并且均通过中间属性节点“餐厅”连接至“餐厅预订”节点(即,可执行意图节点)。又如,如图7C所示,知识本体760还包括“设定提醒”节点(即,另一可执行意图节点)。属性节点“日期/时间”(针对设定提醒)和“主题”(针对提醒)均连接至“设定提醒”节点。由于属性“日期/时间”与进行餐厅预订的任务和设定提醒的任务二者都相关,因此属性节点“日期/时间”连接至知识本体760中的“餐厅预订”节点和“设定提醒”节点二者。
可执行意图节点连同其连接的概念节点一起可被描述为“域”。在本讨论中,每个域与相应的可执行意图相关联,并涉及与特定可执行意图相关联的一组节点(以及这些节点之间的关系)。例如,图7C中示出的知识本体760包括在知识本体760内的餐厅预订域762的示例以及提醒域764的示例。餐厅预订域包括可执行意图节点“餐厅预订”、属性节点“餐厅”、“日期/时间”和“同行人数”以及子属性节点“菜系”、“价格区间”、“电话号码”和“位置”。提醒域764包括可执行意图节点“设定提醒”和属性节点“主题”和“日期/时间”。在一些实施例中,知识本体760由多个域组成。每个域与一个或多个其他域共享一个或多个属性节点。例如,除了餐厅预订域762和提醒域764之外,“日期/时间”属性节点还与许多不同域(例如,行程安排域、旅行预订域、电影票域等)相关联。
尽管图7C示出知识本体760内的两个示例性域,但其他域包括例如“查找电影”、“发起电话呼叫”、“查找方向”、“安排会议”、“发送消息”以及“提供问题的回答”、“阅读列表”、“提供导航指令”、“提供针对任务的指令”等。“发送消息”域与“发送消息”可执行意图节点相关联,并且还包括属性节点诸如“接收人”、“消息类型”和“消息正文”。属性节点“接收人”进一步例如由子属性节点诸如“接收人姓名”和“消息地址”来定义。
在一些实施例中,知识本体760包括数字助理能够理解并对其起作用的所有域(以及因而可执行意图)。在一些实施例中,知识本体760诸如通过添加或移除整个域或节点、或者通过修改知识本体760内的节点之间的关系来修改。
在一些实施例中,将与多个相关可执行意图相关联的节点群集在知识本体760中的“超级域”下。例如,“旅行”超级域包括与旅行有关的属性节点和可执行意图节点的群集。与旅行有关的可执行意图节点包括“机票预订”、“酒店预订”、“汽车租赁”、“路线规划”、“寻找兴趣点”等等。同一超级域(例如,“旅行”超级域)下的可执行意图节点具有多个共用的属性节点。例如,针对“机票预订”、“酒店预订”、“汽车租赁”、“路线规划”、和“寻找兴趣点”的可执行意图节点共享属性节点“起始位置”、“目的地”、“出发日期/时间”、“到达日期/时间”和“同行人数”中的一者或多者。
在一些实施例中,知识本体760中的每个节点与跟由节点代表的属性或可执行意图有关的一组字词和/或短语相关联。与每个节点相关联的相应一组字词和/或短语是所谓的与节点相关联的“词汇”。将与每个节点相关联的相应一组字词和/或短语存储在与由节点所代表的属性或可执行意图相关联的词汇索引744中。例如,返回图7B,与“餐厅”属性的节点相关联的词汇包括字词诸如“美食”、“酒水”、“菜系”、“饥饿”、“吃”、“披萨”、“快餐”、“膳食”等。又如,与“发起电话呼叫”可执行意图的节点相关联的词汇包括字词和短语诸如“呼叫”、“打电话”、“拨打”、“与……通电话”、“呼叫该号码”、“打电话给”等。词汇索引744任选地包括不同语言的字词和短语。
自然语言处理模块732从STT处理模块730接收符号序列(例如,文本串),并确定符号序列中的字词牵涉哪些节点。在一些实施例中,如果发现符号序列中的字词或短语与知识本体760中的一个或多个节点相关联(经由词汇索引744),则所述字词或短语“触发”或“激活”那些节点。基于已激活节点的数量和/或相对重要性,自然语言处理模块732选择可执行意图中的一个可执行意图作为用户意图使数字助理执行的任务。在一些实施例中,选择具有最多“已触发”节点的域。在一些实施例中,选择具有最高置信度值(例如,基于其各个已触发节点的相对重要性)的域。在一些实施例中,基于已触发节点的数量和重要性的组合来选择域。在一些实施例中,在选择节点的过程中还考虑附加因素,诸如数字助理先前是否已正确解译来自用户的类似请求。
用户数据748包括用户特定的信息,诸如用户特定的词汇、用户偏好、用户地址、用户的默认语言和第二语言、用户的联系人列表、以及每位用户的其他短期或长期信息。在一些实施例中,自然语言处理模块732使用用户特定的信息来补充用户输入中所包含的信息以进一步限定用户意图。例如,针对用户请求“邀请我的朋友参加我的生日派对”,自然语言处理模块732能够访问用户数据748以确定“朋友”是哪些人以及“生日派对”将于何时何地举行,而不需要用户在其请求中明确地提供此类信息。
基于符号串搜索知识本体的其他细节在2008年12月22日提交的名为“Method andApparatus for Searching Using An Active Ontology”的美国实用新型专利申请序列号12/341,743中有所描述,其全部公开内容以引用方式并入本文。
在一些实施例中,一旦自然语言处理模块732基于用户请求识别出可执行意图(或域),自然语言处理模块732便生成结构化查询以表示所识别的可执行意图。在一些实施例中,结构化查询包括针对可执行意图的域内的一个或多个节点的参数,并且所述参数中的至少一些参数填充有在用户请求中指定的特定信息和要求。例如,用户说“帮我在寿司店预订晚上7点的座位。”在这种情况下,自然语言处理模块732能够基于用户输入将可执行意图正确地识别为“餐厅预订”。根据知识本体,“餐厅预订”域的结构化查询包括参数诸如{菜系}、{时间}、{日期}、{同行人数}等。在一些实施例中,基于语音输入和利用STT处理模块730从语音输入推导的文本,自然语言处理模块732针对餐厅预订域生成部分结构化查询,其中部分结构化查询包括参数{菜系=“寿司类”}以及{时间=“晚上7点”}。然而,在该实施例中,用户话语包含的信息不足以补全与域相关联的结构化查询。因此,基于当前可用信息,在结构化查询中未指定其他必要参数诸如{同行人数}和{日期}。在一些实施例中,自然语言处理模块732用所接收的上下文信息来填充结构化查询的一些参数。例如,在一些实施例中,如果用户请求“附近的”寿司店,则自然语言处理模块732用来自用户设备的GPS坐标来填充结构化查询中的{位置}参数。
在一些实施例中,自然语言处理模块732将所生成的结构化查询(包括任何已补全的参数)传送至任务流处理模块736(“任务流处理器”)。任务流处理模块736被配置为接收来自自然语言处理模块732的结构化查询,补全结构化查询(必要时),以及执行“完成”用户最终请求所需的动作。在一些实施例中,完成这些任务所必需的各种过程在任务流模型754中提供。在一些实施例中,任务流模型754包括用于获取来自用户的附加信息的过程、以及用于执行与可执行意图相关联的动作的任务流。
如上所述,为了补全结构化查询,任务流处理模块736需要发起与用户的附加对话,以便获得附加信息和/或弄清可能有歧义的话语。当此类交互有必要时,任务流处理模块736调用对话流处理模块734以进行与用户的对话。在一些实施例中,对话流处理模块734确定如何(和/或何时)向用户请求附加信息,并且接收和处理用户响应。通过I/O处理模块728将问题提供给用户并从用户接收回答。在一些实施例中,对话流处理模块734经由音频和/或视频输出向用户呈现对话输出,并接收经由口头或物理(例如,点击)响应的来自用户的输入。继续上述实例,在任务流处理模块736调用对话流处理模块734来确定针对与域“餐厅预订”相关联的结构化查询的“同行人数”和“日期”信息时,对话流处理模块734生成诸如“一行几位?”和“预订哪天?”之类的问题传递给用户。一旦接收到来自用户的回答,对话流处理模块734用缺失信息填充结构化查询,或将信息传递给任务流处理模块736以补全结构化查询的缺失信息。
一旦任务流处理模块736已针对可执行意图补全了结构化查询,任务流处理模块736就继续执行与可执行意图相关联的最终任务。因此,任务流处理模块736根据结构化查询中包含的特定参数来执行任务流模型中的步骤和指令。例如,针对可执行意图“餐厅预订”的任务流模型包括用于联系餐厅并实际上请求在特定时间针对特定同行人数的预订的步骤和指令。例如,通过使用结构化查询诸如:{餐厅预订,餐厅=ABC咖啡馆,日期=2012/3/12,时间=下午7点,同行人数=5人},任务流处理模块736执行以下步骤:(1)登录到ABC咖啡馆的服务器或餐厅预订系统诸如(2)在网站上的表格中输入日期、时间和同行人数信息,(3)提交表格,以及(4)在用户日历中针对该预订制作日历条目。
在一些实施例中,任务流处理模块736在服务处理模块738(“服务处理模块”)的辅助下完成用户输入中所请求的任务或者提供用户输入中所请求的信息性回答。例如,服务处理模块738代表任务流处理模块736发起电话呼叫、设置日历条目、调用地图搜索、调用用户设备上安装的其他用户应用程序或与所述其他用户应用程序交互、以及调用第三方服务(例如,餐厅预订门户网站、社交网站、银行门户网站等)或与第三方服务交互。在一些实施例中,由服务模型756中的相应服务模型指定每项服务所需的协议和应用程序编程接口(API)。服务处理模块738针对服务访问适当的服务模型,并依据服务模型根据该服务所需的协议和API来生成针对该服务的请求。
例如,如果餐厅已启用在线预订服务,则餐厅提交服务模型,该服务模型指定进行预订的必要参数以及将必要参数的值传送至在线预订服务的API。在被任务流处理模块736请求时,服务处理模块738使用存储在服务模型中的web地址来建立与在线预订服务的网络连接,并将预订的必要参数(例如,时间、日期、同行人数)以根据在线预订服务的API的格式发送至在线预订接口。
在一些实施例中,自然语言处理模块732、对话流处理模块734以及任务流处理模块736共同且反复地使用以推断并限定用户的意图、获得信息以进一步明确并提炼用户意图、并最终生成响应(即,对用户的输出、或对任务的完成)以满足用户的意图。所生成的响应是至少部分地满足用户的意图的对语音输入的对话响应。另外,在一些实施例中,所生成的响应作为语音输出而被输出。在这些实施例中,所生成的响应被发送给语音合成模块740(例如语音合成器),在那里可对其进行处理以合成语音形式的对话响应。在另外一些实施例中,所生成的响应是与满足语音输入中的用户请求有关的数据内容。
语音合成模块740被配置为合成语音输出以用于呈现给用户。语音合成模块740基于数字助理提供的文本来合成语音输出。例如,所生成的对话响应是文本串的形式。语音合成模块740将文本串转换成可听的语音输出。语音合成模块740使用任何合适的语音合成技术以便由文本生成语音输出,包括但不限于拼接合成、单元选择合成、双音素合成、域特定合成、共振峰合成、发音合成、基于隐马尔可夫模型(HMM)的合成、和正弦波合成。在一些实施例中,语音合成模块740被配置为基于对应于字词的音素串来合成各个字词。例如,音素串与所生成的对话响应中的字词相关联。音素串存储在与字词相关联的元数据中。语音合成模块740被配置为直接处理元数据中的音素串以合成语音形式的字词。
在一些实施例中,作为利用语音合成模块740的替代(或附加),语音合成在远程设备(例如服务器系统108)上执行,并且所合成的语音被发送给用户设备以用于输出给用户。例如,这可在一些具体实施中发生,其中数字助理的输出在服务器系统处被生成。并且因为服务器系统一般具有比用户设备更多的处理功率或资源,所以可能获得比以客户端侧合成会实现的语音输出质量更高的语音输出。
有关数字助理的更多细节可见于2011年1月10日提交的名称为“IntelligentAutomated Assistant”的美国实用新型专利申请12/987,982、2011年9月30日提交的名称为“Generating and Processing Task Items That Represent Tasks to Perform”的美国实用新型专利申请13/251,088中,其全部公开内容以引用方式并入本文。
4.用于智能列表读取的过程
图8A至图8D示出了根据各个实施例的用于操作数字助理以执行智能列表读取的过程800。图9A至图9D示出了根据各个实施例的由在用户设备903上实施的数字助理905响应于来自用户901的口头交互执行的智能列表读取。过程800例如利用实施数字助理的一个或多个电子设备来执行。在一些实施例中,该过程在实施数字助理的客户端-服务器系统(例如系统100)处执行。在一些实施例中,该过程在用户设备(例如设备104、200、400或600)处执行。在过程800中,一些框任选地被组合,一些框的次序任选地被改变,并且一些框任选地被省略。另外应该理解,在一些实施例中,下文参考图8A至图8D所述的特征只有一个子集在过程800中执行。
在框802,口头用户请求(例如在I/O处理模块728处经由麦克风213)被接收。口头用户请求与用户相关联,并针对在用户设备上实施的数字助理。另外,口头用户请求与多个数据项相关联。例如,口头用户请求是用于获取和提供餐厅列表(“什么好吃?”)或歌曲标题列表(“为我推荐一些音乐”)的请求。
在框804,(例如由自然语言处理模块732)确定口头用户请求的特定性程度是否小于阈值水平。所述确定是基于对应于口头用户请求的域、与满足口头用户请求的数据项相关联的元数据的大小、与满足口头用户请求的数据项相关联的熟悉程度、或口头用户请求中限定的参数的数量。这些因素中的每一者在下文中更详细地讨论。基于所述确定,所请求的信息以优化用户体验的方式被呈现。特别地,特定性程度小于阈值水平的口头用户请求指示与想要探究内容的用户意图对应的模糊不清的用户请求。换句话讲,从模糊不清的用户请求推断用户可能还没有想到任何具体数据项,而是想要探究可用内容并获得推荐。相反,特定性程度大于阈值水平的口头用户请求指示与想要获得特定数据项的用户意图对应的更具体的用户请求。数字助理因此根据所推断出的适当用户意图来定制响应。
框804包括确定对应于口头用户请求的用户意图(例如可执行意图)。用户意图是按上文参考图7A至图7C所述的方式来确定。特别地,如上所述,确定用户意图包括确定对应于口头用户请求的域。口头用户请求是否具有比阈值小的特定性程度取决于对应于口头用户请求的特定域。特别地,所述阈值是基于对应于口头用户请求的特定域来建立的。例如,某些域诸如“音乐”、“餐厅”、或“业务搜索”域涵盖更倾向于内容探究的主题。用于这些域的阈值因此较高,其中数字助理更可能从口头用户请求推断出用户希望探究可用内容并获得推荐。因此,在这些实施例中,口头用户请求的特定性程度更可能小于所述阈值水平。其他域诸如“运动计划”、“电影播放”、“电影信息”、“闹钟列表”、“拼写”、“音韵”或“词典定义”域涵盖更具体且更好限定的主题。用于这些域的阈值因此较低,其中数字助理更可能从口头用户请求推断出用户希望获取特定数据项。因此,在这些实施例中,口头用户请求的特定性程度更可能不小于阈值水平。
另外,框804包括确定与满足口头用户请求的数据项相关联的元数据的大小。特别地,阈值是基于所确定的与满足口头用户请求的数据项相关联的元数据的大小来建立的。元数据的大小基于与数据项相关联的参数或属性的数量。例如,满足口头用户请求“什么好吃?”的数据项与大量元数据相关联。特别地,表示特定餐厅的每个数据项包括限定各个参数诸如餐厅名称、菜系、价格区间、电话号码、位置(例如地址)、用户评分、营业时间、是否接受预订等等的元数据。用于这些类型的口头用户请求的阈值因此较高,其中数字助理更可能从口头用户请求推断出用户希望探究可用内容并获得推荐。因此,在这些实施例中,口头用户请求的特定性程度更可能小于阈值水平。相反,满足口头用户请求“‘plot’是什么意思?”的数据项与少量元数据相关联。特别地,表示字词“plot”的词典定义的每个数据项包括限定有限数量的参数诸如词典定义来源的元数据。用于这些类型的口头用户请求的阈值因此较低,其中数字助理更可能从口头用户请求推断出用户希望获取特定数据项。因此,在这些实施例中,口头用户请求的特定性程度更可能不小于阈值水平。
框804还包括确定与满足口头用户请求的数据项相关联的熟悉程度。特别地,阈值是基于所确定的与满足口头用户请求的数据项相关联的熟悉程度来建立的。熟悉程度表示用户与被请求的数据项有多熟悉。例如,与用户相关联的数据项被确定为具有较高的熟悉程度。此类数据项例如包括来自用户的个人音乐库的音乐项目、来自用户的联系人的联系人信息、或安装在用户设备上的应用程序。因此,对于口头用户请求诸如“告诉我‘John’的所有联系人”、“我有哪些Eagles歌曲”或“告诉我我已经设置的闹钟”,阈值较低,其中数字助理更可能推断用户希望获取特定数据项。因此,在这些实施例中,口头用户请求的特定性程度更可能小于阈值水平。在其他实施例中,熟悉程度是基于用户对所请求数据项的访问或交互距离现在有多久或者有多频繁。例如,如果用户频繁浏览很多Katy Perry音乐专辑或者最近听了很多Taylor Swift歌曲,则与这些数据项的熟悉程度会较高。因此,对于口头用户请求诸如“Katy Perry专辑有哪些”或“给我列出Taylor Swift歌曲”,阈值较低,其中数字助理更可能推断用户希望获取特定数据项。因此,在这些实施例中,口头用户请求的特定性程度更可能不小于阈值水平。
在一些实施例中,框804包括确定在口头用户请求中定义的参数的数量。特别地,特定性程度基于所确定的参数的数量。所述参数表示对应于口头用户请求的所确定域中的特性。在口头用户请求中限定大量参数与较高特定性程度相关联,而在口头用户请求中限定少量参数与较低特定性程度相关联。例如,口头用户请求“给我推荐一些音乐”对应于“音乐”域。然而,在口头用户请求中没有限定音乐域的任何特定参数。基于不存在任何参数在口头用户请求中被限定,该口头用户请求的特定性程度被确定为低。因此,在该实施例中,口头用户请求的特定性程度更可能小于阈值水平。在另一实施例中,口头用户请求是“给我推荐Beyonce的一些好的R&B歌曲”。在该实施例中,口头用户请求限定与音乐域相关联的多个参数,包括{流派}=R&B、{艺术家}=Beyonce以及{评分}=好。基于具有多个所限定的参数,用于口头用户请求的特定性程度被确定为较高。因此,在该实施例中,口头用户请求的特定性程度更可能不小于阈值水平。
在一些实施例中,框804包括确定满足口头用户请求的可能数据项的数量。在这些实施例中,特定性程度基于所确定的可能数据项的数量。特别地,可能数据项数量较大与较低特定性程度相关联,而可能数据项数量较少与较高特定性程度相关联。例如,口头用户请求“Michael Jackson的歌曲有哪些?”与大量可能数据项相关联,因此具有较低特定性程度。因此,在该实施例中,口头用户请求的特定性程度更可能小于阈值水平。相反,口头用户请求“告诉我一些Orianthi的歌曲”与少量可能数据项相关联,因此具有较高特定性程度。因此,在该实施例中,口头用户请求的特定性程度更可能不小于阈值水平。
响应于确定口头用户请求的特定性程度小于阈值水平,执行框806至838中的一者或多者。特别地,响应于确定口头用户请求的特定性程度小于阈值水平,在没有来自用户的附加输入的情况下自动执行框806至838中的一者或多者。一般来讲,框806至838涉及通过以更集中的方式推荐数据项来帮助用户探究范围多样的内容。
在框806,与用户请求有关的一个或多个属性(例如参数)被(例如自然语言处理模块732、任务流处理模块736、和/或服务处理模块738)确定。特别地,在框806处确定的一个或多个属性未在框802的口头用户请求中限定。相反,数字助理智能地确定一个或多个属性以帮助将用户请求缩窄并为用户推荐最相关的数据项。
在一些实施例中,一个或多个属性是基于在来自多个用户的多个先前用户请求中指定属性的频率来确定的。例如,分析很多用户的先前用户请求以确定针对给定域最频繁请求的属性。最频繁请求的属性然后被包括在一个或多个属性中。例如,如果确定“KatyPerry”在与“音乐”域相关的先前用户请求中被频繁指定,则一个或多个属性被确定为包括属性“Katy Perry”。
在一些实施例中,一个或多个属性是基于针对给定域的最相关属性来确定的。例如,最新发表的歌曲比多年前发表的歌曲更相关。因此,对于与“音乐”域相关的用户请求,一个或多个属性被确定为包括距今少于预先确定的数量年头的发表日期。又如,对于与“餐厅”域相关的用户请求,确定更靠近用户当前位置的餐厅可以比更远的餐厅更相关。因此,在该实施例中,一个或多个属性被确定为包括与用户当前位置相距少于预定英里数的距离。
在一些实施例中,一个或多个属性是基于与口头用户请求相关联的用户配置文件来确定的。用户配置文件指示与用户相关联的各种特征,并且基于用户数据(例如用户位置、用户音乐文件、用户电子邮件/消息等)和/或用户输入(例如用户文本输入、用户浏览历史、用户搜索历史等)来生成。框806的一个或多个属性因此基于在用户配置文件中指示的特征。例如,基于用户配置文件指示韩国种族,对于与“餐厅”域相关的口头用户请求,一个或多个属性包括韩餐。又如,基于用户配置文件指示经常浏览流行歌曲,对于与“音乐”域相关的口头用户请求,一个或多个属性包括“流行”流派。
在一些实施例中,一个或多个属性是通过随机地从属性分类中选择属性来确定的。这对于帮助用户探究可能引起用户兴趣的新或新鲜的数据项是可取的。例如,基于口头用户请求“什么好吃”,从菜系集合(例如法餐、中餐、意大利餐、法餐、墨西哥餐、海鲜、新美式餐等等)中进行随机选择。数字助理因此(例如在框812处)例如在一个口头用户请求实例中提供推荐的海鲜餐厅,而在相同口头用户请求的另一单独实例中提供推荐的墨西哥餐厅。
在框808处,基于口头用户请求和一个或多个属性来获取数据项列表。特别地,基于所确定的口头用户请求的用户意图的结构化查询被生成(例如自然语言处理模块732)。结构化查询包括在口头用户请求中限定的属性和在框806处确定的一个或多个属性。然后根据结构化查询执行搜索(例如由任务流处理模块736和/或服务处理模块738),以获取满足口头用户请求的数据项的列表。例如,基于在框806处确定的一个或多个属性和在框802的口头用户请求中限定的一个或多个属性,搜索一个或多个信息源以获取数据项列表。
在框810处,生成口头响应(例如由任务流处理模块736、对话处理模块734和/或语音合成模块740)。口头响应包括数据项列表的子集。在一些实施例中,数据项列表的子集至多具有预先确定的数量的数据项。例如,数据项列表的子集具有不多于1或2个数据项。限制呈现给用户的数据项的数量改善用户体验。特别地,其使得能够为用户推荐最相关的数据项并防止用户由于选项太多而变得无所适从。
在一些实施例中,生成口头响应包括生成口头导言,该口头导言为要呈现的数据项列表的所述子集提供一定上下文。特别地,口头导言描述在框806处确定的一个或多个属性中的属性。另外,所生成的口头响应包括为数据项列表的子集中的每个数据项指定一个或多个附加属性的描述。特别地,一个或多个附加属性中的每一者未在框802的口头用户请求中限定,并且不同于框806的一个或多个属性中的任何属性。所述描述用于提供每个数据项的附加细节,这帮助用户确定所推荐的数据项是否是可接受的。
在一些实施例中,口头响应最初在框810处被生成为文本响应(例如用对话流处理模块734),然后在框812处被转换成语音(例如用语音合成模块740)。
在框812处,框810的口头响应被提供(例如利用语音合成模块740、I/O处理模块728和/或扬声器211)。提供口头响应包括提供后面跟有语音形式的数据项列表的子集的口头导言。在一些实施例中,在提供数据项列表的子集之前提供口头导言。另外,提供口头响应包括提供语音提示,如下文更详细所述。口头响应是在用户设备处以合成的语音的形式来提供的。另选地,口头响应是以由用户设备播放的音频数据的形式来提供的。
参考图9A至图9B所示的实施例进一步介绍过程800的框802至812。在图9A至图9B中,用户设备903与设备104、200、400、或600类似或相同并且包括数字助理系统700的任何部件。数字助理905至少部分地实施在用户设备903上,并至少部分地实施在服务器(例如DA服务器106)上。参考图9A,用户901将口头用户请求902“嘿Siri,什么好吃?”提供给用户设备903的数字助理905。数字助理905接收(框802)口头用户请求902并确定(框804)口头用户请求902的特定性程度是否小于阈值水平。在该实施例中,口头用户请求902是模糊不清的,因为其除了“好”之外未限定任何具体参数。此外,所述请求是宽泛的,因为其与大量数据项相关联。如上文在框804中所述,此类特征对应于口头用户请求902的低特定性程度。此外,口头用户请求902对应于“餐厅”域。特别地,口头用户请求902是针对餐厅数据项的请求,其中每个数据项与显著量的元数据相关联。如上文在框804中所述,此类附加特征对应于与特定性程度相关联的高阈值。基于口头用户请求902的低特定性程度和与特定性程度相关联的高阈值,口头用户请求902的特定性程度被确定(框804)为小于阈值水平。响应于这个确定,数字助理905确定(框806)属性“日餐”以对请求进行提炼。值得注意的是,“日餐”并非口头用户请求902中限定的属性。执行对日式餐厅的搜索以获取(框808)日式餐厅列表。所述搜索基于所确定的属性“日餐”和对应于口头用户请求902的“餐厅”域。在一些实施例中,基于附加相关参数诸如相对于用户当前位置的距离和受欢迎程度(例如用户评分),搜索被进一步提炼以获取日式餐厅列表。口头响应904然后被生成(框810)并提供给用户(框812)。如图所示,口头响应904包括日式餐厅“Gochi Japanese Fusion Tapas”,其是所获得的日式餐厅列表中的日式餐厅之一(即子集)。“Gochi Japanese Fusion Tapas”基于因素诸如受欢迎程度、相关性、相对于用户当前位置的距离、或价格而选自日式餐厅列表。例如,其是用户当前位置半英里内最受欢迎的餐厅。如图所示,口头响应904包括导言“如果您喜欢日餐”,这指示与所推荐的餐厅相关联的菜系是“日餐”。另外,口头响应904包括关于所推荐餐厅“Gochi Japanese Fusion Tapas”的附加描述“中等价位”和“用户评分四星”,这有助于用户确定所述推荐是否是可接受的。
现在转向图9B所示的实施例,用户901将口头用户请求922“嘿Siri,为我推荐一些音乐?”提供给用户设备903的数字助理905。数字助理905接收(框802)口头用户请求922并确定(框804)口头用户请求922的特定性程度是否小于阈值水平。与图9A的口头用户请求902类似,口头用户请求922是模糊不清的,因为其未限定与“音乐”相关的任何特定参数。此外,口头用户请求922是宽泛的,因为其与大量数据项相关联。如上文在框804中所述,此类特征对应于口头用户请求922的低特定性程度。而且,口头用户请求922对应于“音乐”域。特别地,口头用户请求922是针对音乐数据项的请求,其中每个数据项与显著量的元数据相关联。如上文在框804中所述,此类附加特征对应于与特定性程度相关联的高阈值水平。基于这些因素,与特定性程度相关联的阈值水平被确定为高。基于口头用户请求922的低特定性程度和与特定性程度相关联的高阈值,口头用户请求922的特定性程度被确定(框804)为小于阈值水平。响应于这个确定,数字助理905确定属性流派=“另类”音乐(框806)以对请求进行提炼。值得注意的是,流派“另类”音乐并非口头用户请求922中限定的属性。执行对另类音乐的搜索以获取流派为“另类”音乐的歌曲列表(框808)。口头响应924然后被生成(框810)并提供给用户(框812)。如图所示,口头响应924包括另类歌曲“Under theBlacklight”,其是所获得的另类歌曲列表中的另类歌曲之一(即子集)。“Under theBlacklight”是基于因素诸如流行程度、相关性、或最近发布日期而选自另类歌曲列表。口头响应924还包括导言“如果您想听另类音乐”,这指示与所推荐歌曲相关联的流派是“另类”。特别地,导言帮助为后面跟着的数据项“Under the Blacklight”提供上下文。另外,口头响应924包括附加描述“Rilo Kiley”以指示与所推荐歌曲“Under the Blacklight”相关联的艺术家。特别地,不同于只在口头响应924中提及歌曲标题,提供关于所推荐歌曲的附加信息(例如艺术家或发表日期)就使所述推荐对于用户更有意义。
在一些实施例中,框810和812的口头响应任选地包括语音提示。特别地,语音提示向用户指示附加数据项可用。例如,如图9B所示,口头响应924包括语音提示“这行吗?”类似语音提示的其他示例包括“还有更多”、“听着好吗?”或“还有其他选项”。因此为用户提供选项来响应。例如,在框812提供口头响应期间或之后,用户设备的麦克风被打开以接收音频输入。音频输入然后被分析以确定其是否包含跟进口头用户请求。如果确定音频输入包含跟进口头用户请求,则合适的响应被生成并提供,如下文更详细所述。
在一些实施例中,语音提示被智能地提供。特别地,语音提示初始被提供给用户预定多次,以向用户告知用于请求附加数据项的选项。语音提示然后在所述预定多次后假定用户已经理解用于请求附加数据项的选项而停止被提供。例如,框810包括确定预先确定的数量的先前口头响应中的每个口头响应是否包括指示附加数据项可用的语音提示。响应于确定预先确定的数量的先前口头响应中的每个口头响应不包括指示附加数据项可用的语音提示,语音提示被生成并在口头响应中被提供。相反,响应于确定预先确定的数量的先前口头响应中的每个口头响应包括指示附加数据项可用的语音提示,过程800放弃将语音提示包括在口头响应中。
现在转向图8B所示过程800的框814,从用户(例如在I/O处理模块728处经由麦克风213)接收语音输入。在一些实施例中,在框812提供口头响应期间或之后,用户设备的麦克风被自动地(例如在没有进一步用户输入的情况下)打开以接收语音输入。在一些实施例中,麦克风始终打开。框814的语音输入于是在麦克风打开期间被接收。在其他实施例中,用户设备的麦克风在框812处提供口头响应期间或之后不自动打开。相反,在提供框812的口头响应期间或之后响应于接收到用户输入而打开麦克风。语音输入因此在麦克风响应于用户输入被打开之后被接收。语音输入响应于在框812处提供的口头响应。例如,语音输入指示接受或拒绝在框812的口头响应中提供的推荐。
在一些实施例中,语音输入在框812处提供口头响应期间被接收。特别地,用户在口头响应期间打断数字助理,并提供口头响应。在口头响应正被提供时检测到语音输入的情况下,数字助理停止提供口头响应的其余部分。另外,响应于接收语音输入,框816至838中的一者或多者被执行。
在框816处,确定语音输入是否对应于拒绝数据项列表的子集。该确定是利用自然语言处理(例如以自然语言处理模块732)来进行的。例如,参考图9A,响应于口头响应904从用户接收语音输入906“别,其他呢”。语音输入906中的字词和短语被解析并分析以确定其是否对应于拒绝口头响应904中提供的数据项列表的子集的用户意图。特别地,确定短语“别”和“其他呢”都对应于否定响应,并且基于该确定,确定语音输入906对应于拒绝数据项列表的子集。对应于拒绝数据项列表的子集的语音输入的其他示例包括“不”、“不行”、“除了这个”、“不喜欢...”、“再试试”、“有其他的吗?”等等。响应于确定框814的语音输入对应于拒绝数据项列表的子集,框818至834中的一者或多者被执行。特别地,响应于确定框814的语音输入对应于拒绝数据项列表的子集,框818至834中的一者或多者自动地在没有来自用户的附加输入的情况下被执行。
在框818处,与框802的口头用户请求相关的一个或多个第二属性被(例如自然语言处理模块732、任务流处理模块736、和/或服务处理模块738)确定。一个或多个第二属性不同于框806的一个或多个属性。另外,一个或多个第二属性可以未在框802的口头用户请求中限定。框818类似于框806,区别在于确定与口头用户请求相关的不同属性。例如,重新参考图9A,数字助理确定与餐厅有关的一个或多个第二属性以提炼口头用户请求902并提供另一推荐给用户。在该实施例中,数字助理确定第二属性“中餐”,其与在框806处确定的属性“日餐”不同。而且,“中餐”未在口头用户请求902中限定。
在框820处,基于用户请求和一个或多个第二属性(例如利用自然语言处理模块732、任务流处理模块736、和/或服务处理模块738)获取第二数据项列表。框820类似于框808,区别在于第二数据项列表基于框818的一个或多个第二属性而非框806的一个或多个属性。例如,基于在框818处确定的一个或多个第二属性和/或在框802的口头用户请求中限定的一个或多个属性,搜索一个或多个信息源以获取第二数据项列表。在图9A所示的实施例中,执行对中餐厅的搜索以获取中餐厅列表。该搜索基于第二属性“中餐”和对应于口头用户请求902的“餐厅”域。在一些实施例中,基于附加相关属性诸如相对于用户当前位置的距离和受欢迎程度(例如用户评分),搜索被进一步提炼以获取中餐厅列表。
在框822处,(例如由任务流处理模块736、对话处理模块734和/或语音合成模块740)生成第二口头响应。第二口头响应包括第二数据项列表的子集。框822类似于框810,区部在于第二口头响应包括第二数据项列表的子集而非第一数据项列表的子集。
在框824处,框822的第二口头响应(例如利用语音合成模块740、I/O处理模块728和/或扬声器211)被提供。框824类似于框812。
例如在图9A中,响应于语音输入906,第二口头响应908被生成(框822)并被提供给用户(框824)。如图所示,第二口头响应908包括中餐厅“Mandarin Gourmet”,其是所获得的中餐厅列表(例如框820处获得的第二数据项列表)中的中餐厅之一(即子集)。“MandarinGourmet”是基于因素诸如受欢迎程度、相关性、相对于用户当前位置的距离、或价格而选自中餐厅列表。第二口头响应908包括关于所推荐餐厅“MandarinGourmet”的附加描述“中餐厅”、“附近”和“中等价位”,这有助于用户确定是否接受所述推荐。虽然在该实施例中导言未指示框818的一个或多个第二属性,但应该理解,在其他实施例中,在框822处生成第二口头响应908具有与口头响应904类似的口头导言,以帮助提供后面跟着的所推荐餐厅的上下文。例如,第二口头响应908相反可以是“那中餐怎么样?附近有Mandarin Gourmet是中等价位的”。
应当理解,在一些实施例中,过程800的框814至824重复多次以帮助用户探究可用内容。例如,通过框814至824的一个或多个循环,用户提供多个语音输入(框814)拒绝数字助理的各个推荐,并且每次数字助理都通过确定与原始口头请求有关的不同属性(框818)而提供不同推荐(框820至824)来进行响应。这样,数字助理帮助用户探究大量不同内容(例如餐厅)。
在一些实施例中,数字助理请求来自用户的引导来辅助提供合适的推荐。例如重新参考框816,响应于确定框814的语音输入对应于拒绝数据项列表的子集,框826至834中的一者或多者被执行。框826至834涉及获取来自用户的引导并基于所获得的引导来为用户提供推荐。
在框826处,提供使用户提供附加属性以提炼口头用户请求的语音提示。语音提示用作对来自用户的引导的请求,以帮助数字助理提供更好地匹配用户当前偏好的推荐。在一些实施例中,响应于接收预先确定的数量的语音输入拒绝数字助理的推荐而提供语音提示。例如在图9A中,响应于提供第二口头响应908而接收到语音输入910“不...”。在该实施例中,数字助理确定已经接收了两个语音输入(例如906和910)拒绝数字助理的餐厅推荐(例如904和908),响应于所述确定,数字助理提供语音提示912“好。您想要什么菜系?”特别地,语音提示912请用户提供优选菜系属性以帮助数字助理提炼口头用户请求902。
在框828处,第二语音输入(例如在I/O处理模块728处经由麦克风213)被接收。第二语音输入响应于框826的语音提示。例如,第二语音输入限定与框902的口头用户请求有关的一个或多个属性。如图9A所示,第二语音输入914“墨西哥菜怎么样?”被接收。在该实施例中,第二语音输入914限定属性“墨西哥”菜系,这帮助数字助理905提炼口头用户请求902。
在一些实施例中,确定(例如利用自然语言处理模块732)第二语音输入是否限定与口头用户请求有关的一个或多个属性。响应于确定第二语音输入限定与口头用户请求有关的一个或多个属性,执行框830。相反,响应于确定第二语音输入未限定与口头用户请求有关的一个或多个属性,数字助理再次提供框826的语音提示或者提供指示出错的口头响应。
在框830处,基于用户请求和第二语音输入中限定的一个或多个属性(例如利用自然语言处理模块732、任务流处理模块736、和/或服务处理模块738)获取第三数据项列表。框830类似于框808,区别在于第三数据项列表基于框828的第二语音输入中限定的一个或多个属性而非框806的一个或多个属性。例如,基于在框828的第二语音输入中限定的一个或多个属性和/或在框802的口头用户请求中限定的一个或多个属性,搜索一个或多个信息源以获取第三数据项列表。在图9A所示的实施例中,执行对墨西哥餐厅的搜索以获取墨西哥餐厅列表。该搜索基于第二语音输入914中限定的属性“墨西哥”菜系和对应于口头用户请求902的“餐厅”域。在一些实施例中,基于附加相关参数诸如相对于用户当前位置的距离和受欢迎程度(例如用户评分),搜索被进一步提炼以获取墨西哥餐厅列表。
在框832处,生成第三口头响应(例如由任务流处理模块736、对话处理模块734和/或语音合成模块740)。第三口头响应包括第三数据项列表的子集。框832类似于框810,区部在于第三口头响应包括第三数据项列表的子集而非数据项列表的子集。
在框834处,第三口头响应被提供(例如利用语音合成模块740、I/O处理模块728和/或扬声器211)。框834类似于框812。
重新参见图9A的实施例,第三口头响应916被生成(框832)并提供给用户(框834)。如图所示,第三口头响应916包括墨西哥餐厅“Aqui Cal-Mex”,其是所获得的墨西哥餐厅列表(例如框830处获得的第三数据项列表)中的墨西哥餐厅之一(即子集)。“Aqui Cal-Mex”基于因素诸如受欢迎程度、相关性、相对于用户当前位置的距离、或价格而选自墨西哥餐厅列表。第三口头响应916包括关于所推荐餐厅的附加描述“四星评分”、“附近”和“以其Industrial Strength Margaritas著名”,这有助于用户确定是否接受所述推荐。
重新参考框816,响应于确定框814的语音输入不对应于拒绝数据项列表的子集,框836或838中的一者或多者被执行。在框836处(图8C),确定语音输入是否对应于接受数据项列表的子集中的数据项。该确定是利用自然语言处理(例如用自然语言处理模块732)来进行。例如,语音输入中的字词和短语被解析并分析以确定其是否对应于接受口头响应中提供的数据项列表的子集中的数据项的用户意图。在一具体实施例中,确定短语“行”或“酷”对应于肯定响应,并且基于该确定,确定语音输入对应于接受数据项列表的子集中的数据项。对应于接受数据项列表的子集的语音输入的其它示例包括“听着不错”、“对”、“好”、“当然”、“为何不呢”、“就这个”等。
响应于确定框814的语音输入不对应于接受数据项列表的子集中的数据项,过程800确定框814的语音输入对应于新的口头用户请求,因此过程800返回到图8A的框804。另选地,响应于确定语音输入对应于接受数据项列表的子集中的数据项,框838被执行。特别地,响应于确定语音输入对应于接受数据项列表的子集中的数据项,自动地在没有来自用户的附加输入的情况下执行框838。在框838处,与所接受数据项相关联的内容被提供(例如利用任务流处理模块736和服务处理模块738)。
参考图9A和图9B所示的实施例进一步描述框836和838。例如,在图9A中,响应于第三口头响应916推荐“Aqui Cal-Mex”墨西哥餐厅而从用户接收语音输入918“听着不错”。在该实施例中,确定短语“听着不错”对应于肯定响应,基于这个确定,语音输入918被确定(框836)为对应于接受所推荐的“Aqui Cal-Mex”墨西哥餐厅。响应于这个确定,数字助理提供与“Aqui Cal-Mex”墨西哥餐厅相关联的内容。例如,如图9A的口头响应920中所指示的那样,数字助理905检索与“Aqui Cal-Mex”墨西哥餐厅相关联的地址,并在用户设备903上显示从用户当前位置去餐厅的路线。另选地,在另一实施例中,数字助理905检索提供与“AquiCal-Mex”墨西哥餐厅有关的附加信息(例如用户评论、菜单、图片等)的网页,并在用户设备903上显示该网页。
在图9B所示的另一实施例中,用户901响应于口头响应924推荐Rilo Kiley的另类歌曲“Under the Blacklight”而提供语音输入926“当然”。在该实施例中,确定短语“当然”对应于肯定响应,基于这个确定,语音输入926被确定(框836)为对应于接受所推荐的歌曲“Under the Blacklight”。响应于这个确定,数字助理905提供与另类歌曲“Under theBlacklight”相关联的内容。例如,如图9B所示的口头响应928和音符959所指示的那样,对应于歌曲“Under the Blacklight”的音频数据被数字助理905检索并且该音频数据在用户设备903上被播放。另选地,在另一实施例中,与另类歌曲“Under the Blacklight”有关的信息被数字助理905检索。例如,提供对歌曲“Under the Blacklight”和乐队“Rilo Kiley”的评论家评论或用户评论的网页被检索并显示在用户设备903上。
重新参考框804,响应于确定口头用户请求的特定性程度不小于阈值水平,执行框840至850中的一者或多者。框840至850涉及检索所请求数据项的特定列表并以用户容易理解和记住的方式将该列表读给用户。
在框840处,基于口头用户请求获取(例如利用自然语言处理模块732、任务流处理模块736、和/或服务处理模块738)第四数据项列表。特别地,基于所确定的口头用户请求的用户意图的结构化查询被生成(例如自然语言处理模块732)。结构化查询包括在口头用户请求中限定的属性。与框806中不同,因为口头用户请求被确定为足够具体(在框804),所以不确定附加属性来进一步提炼口头用户请求。然后根据结构化查询执行搜索(例如由任务流处理模块736和/或服务处理模块738),以获取满足口头用户请求的第四数据项列表。例如,基于在框802的口头用户请求中限定的一个或多个属性,搜索一个或多个信息源以获取第四数据项列表。
在框842处,确定第四数据项列表中的数据项的数量是否超过预先确定的数量。所述预先确定的数量是推断用户经由语音交互能够容易理解和记住的最大数据项数量。因此,如果比所述预先确定的数量多的数据项在口头响应中被提供给用户(例如在框846或850),则用户体验受到不利影响。
所述预先确定的数量基于多个因素。例如,所述预先确定的数量基于用户与第四数据项列表中的数据项的熟悉程度。如果用户较熟悉第四数据项列表中的数据项(较高熟悉程度),则所述预先确定的数量较大,其中较大数量的数据项在口头响应中被提供给用户。这是因为,如果用户已经熟悉数据项,则用户能够理解和记住较大数量的数据项。相反,如果用户较不熟悉第四数据项列表中的数据项(较低熟悉程度),则所述预先确定的数量较小,其中较少数量的数据项在口头响应中被提供给用户。
在一些实施例中,熟悉程度是基于第四数据项列表中的数据项是否与用户相关联来确定的。例如,从用户设备获得的数据项(例如从联系人模块237获得的联系人信息)被确定为具有高熟悉程度。类似地,从与用户相关联的库(例如用户的个人媒体库)获得的数据项被确定为具有高熟悉程度。在其他实施例中,熟悉程度是基于第四数据项列表中的数据项先前被用户请求或查看的频率来确定的。例如,由使用日志确定用户频繁地搜索和收听Katy Perry歌曲。因此,如果第四数据项列表包含Katy Perry歌曲列表,则用户与第四数据项列表中的数据项的熟悉程度被确定为高。
在一些实施例中,所述预先确定的数量基于与第四数据项列表中的每个数据项相关联的元数据的量。特别地,如果与第四数据项列表中的每个数据项相关联的元数据的量少,则所述预先确定的数量被确定为较大。较少量的元数据对应于每个数据项要提供的信息较少,因此将更多数据项提供给用户不会使用户无所适从。相反,如果与第四数据项列表中的每个数据项相关联的元数据的量大,则所述预先确定的数量被确定为较低。
在一些实施例中,所述预先确定的数量基于在口头用户请求被接收时与用户相关联的认知负担。认知负担是指在用户的工作记忆中使用的脑力努力总量。在一些实施例中,与用户相关联的认知负担是基于用户进行的活动的数量和/或活动的类型来推断的。例如,较大数量的活动或费脑力类型的活动与较高认知负担相关联。用户进行的活动的数量和活动的类型是基于用户设备接收的上下文信息和用户设备所生成或存储在用户设备上的上下文信息来确定。例如,基于用户设备的加速度计和GPS传感器生成的数据,用户设备检测到用户正在加速并且以符合位于移动的汽车中的方式行进。另外,用户设备检测到用户设备与跟汽车相关联的设备之间的蓝牙配对。基于这个上下文信息,用户设备确定用户正在驾驶车辆,并推断与用户相关联的认知负担的对应量。又如,用户设备基于检测到与用户设备的媒体应用程序相关联的对应操作状态而确定用户正在观看视频。基于这个上下文信息,用户设备推断与用户相关联的认知负担的对应量。如果与用户相关联的认知负担小,则所述预先确定的数量被确定为较高。较小认知负担指示用户有较大的脑力能力用于处理信息,因此将更多数据项提供给用户不会使用户无所适从。相反,如果与用户相关联的认知负担大,则所述预先确定的数量被确定为较低。
响应于确定第四数据项列表中的数据项的数量超过预先确定的数量,执行框844至846中的一者或多者。框844至846涉及生成并提供只包含第四数据项列表的子集的响应。为了防止太多信息使用户无所适从以及为了提高用户记住的信息量,只提供子集而非整个第四数据项列表是可取的。
在框844处,生成第四口头响应(例如由任务流处理模块736、对话处理模块734和/或语音合成模块740)。第四口头响应包括第四数据项列表的子集。框844类似于上文所述的框810。在一些实施例中,第四数据项列表的所述子集中的数据项的数量小于或等于所述预先确定的数量。基于所述预先确定的数量限制在第四口头响应中呈现的数据项的数量改善用户体验。特别地,这使得能够为用户首先呈现最相关的数据项并防止用户由于一次有太多信息而变得无所适从。
在一些实施例中,框844包括基于口头用户请求中限定的属性从第四数据项列表中选择第四数据项列表的子集。例如,口头用户请求中限定的属性对第四数据项列表加以次序。然后基于所加以的次序选择第四数据项序列的子集。特别地,在一个实施例中,口头用户请求是“附近正在播放的最受欢迎的电影是什么?”。在该实施例中,口头用户请求限定属性“受欢迎的”。基于该属性,数字助理检索用户当前位置附近正在播放的电影的列表,并基于受欢迎程度(例如票房结果、评论家评论、观众评分等)对电影列表进行排序。然后将电影列表中受欢迎程度排名最高的N部电影选择作为电影列表的子集(其中N是小于或等于预先确定的数量的整数)。
在其他实施例中,第四数据项列表具有固有次序,并且基于固有次序从第四数据项列表选择第四数据项列表的子集。例如,如下文参考图9D所述,从词典参考检索的定义具有固有次序。在这些实施例中,基于所述固有次序,第四数据项列表的子集包括第四数据项列表的前N个数据项,其中N是小于或等于所述预先确定的数量的整数。
在一些实施例中,生成第四口头响应包括生成指示第四数据项列表中的数据项的数量的第四口头导言。例如,响应于口头用户请求“今天放映什么动作电影?”,第四口头响应包括第四口头导言“今天有5部动作电影放映...”。第四口头导言对于提供后面跟随的信息的数量的上下文是可取的,并且帮助用户更好地捕捉和记住信息。
在一些实施例中,第四数据项列表的子集与从口头用户请求推断的预期结果不同。在这些实施例中,第四口头导言指示第四数据项列表的子集与从口头用户请求推断的预期结果不同。例如,口头用户请求是“最近的加油站是哪个?”在该实施例中,基于字词“最近”推断出用户只期望一个结果。然而,数字助理确定有三个加油站与用户当前位置相距大约相等的距离。在该实施例中,第四口头导言陈述“嗯,附近有三个加油站...”。特别地,感叹词“嗯”指示第四数据项列表的子集与用户的预期结果不同。微妙的感叹词提供了将跟在后面的信息的上下文。另外,这能够使响应更自然更人性化,由此改善用户体验。
在一些实施例中,生成第四口头响应包括生成指示附加数据项可用的第四语音提示。第四语音提示例如在第四数据项列表的子集之后。例如,在第四数据项列表的子集之后,第四语音提示包括短语“如果您想听其余的就告诉我”(例如图9D中的口头响应936),以指示附加数据项可用并提示用户请求附加数据项。另外,在一些实施例中,第四语音提示指示第四数据项列表中其余数据项的数量。例如,在第四数据项列表的子集之后,第四语音提示包括短语“还有四个”(图9C中的口头响应932),以指示在第四数据项列表中还有其余四个数据项未被呈现。第四语音提示因此为用户提供接受已呈现的数据项或请求呈现其余数据项的选项。
如上所述,第四语音提示被智能地提供。例如,确定预先确定的数量的先前口头响应中的每个口头响应是否包括指示附加数据项可用的语音提示。响应于确定预先确定的数量的先前口头响应中的每个口头响应不包括指示附加数据项可用的语音提示,第四语音提示被生成以指示附加数据项可用。相反,响应于确定预先确定的数量的先前口头响应中的每个口头响应包括指示附加数据项可用的语音提示,可以不生成第四语音提示来指示附加数据项可用。
在框846,第四口头响应被提供(例如利用语音合成模块740、I/O处理模块728和/或扬声器211)。框846类似于框812。
重新参见框842,响应于确定第四数据项列表中的数据项的数量不超过预先确定的数量,执行框848至850中的一者或多者。框848至850涉及生成并提供包含整个第四数据项列表的响应。
在框848处,生成第五口头响应(例如由任务流处理模块736、对话处理模块734和/或语音合成模块740)。特别地,第五口头响应包括第四数据项列表。框848类似于上文所述的框844。值得注意的是,因为第四数据项列表中的数据项的数量不超过所述预先确定的数量,所以整个第四数据项列表被包括在第五口头响应中而不使用户无所适从。第五口头响应包括与上文在框844中所述的第四口头导言和第四语音提示类似的第五口头导言和/或第五语音提示。
在框850处,第五口头响应被提供(例如利用语音合成模块740、I/O处理模块728和/或扬声器211)。框850类似于框846。
参考图9C至图9D所示的实施例进一步描述过程800的框840至850。如图9C所示,用户901提供口头用户请求930“嘿Siri,‘plot’是什么意思?”给用户设备903的数字助理905。在该实施例中,数字助理905确定口头用户请求930是与“词典”域相关联的具体请求。因此,口头用户请求930的特定性程度被确定为不小于阈值水平(框804)。响应于这个确定,从词典参考检索字词“plot”的六个定义的列表(框840)。因为用户901可能不熟悉这些定义并且因为每个定义的信息密度相对较高,所以所述预先确定的数量被确定为相对较低(框842)。例如,确定在给定时间应该呈现最多两个定义(即预先确定的数量=2)以避免使用户901无所适从。数字助理905然后确定(框842)所获得的定义的数量(例如6)超过所述预先确定的数量(例如2),因此只选择定义列表的子集(例如2个定义)(框844)。在该实施例中,所获得的定义列表具有根据词典参考的固有次序。因此,词典参考的前两个定义被选择作为定义列表的子集。如图9C所示,包含这两个所选定义的口头响应932被生成(框844)并被提供给用户901(框846)。在该实施例中,口头响应932包括口头导言“Plot有多个含义…”,这为用户901提供找到字词“plot”的多于一个定义的上下文。另外,口头响应932包括引导这两个定义中的每一者的序数(例如“第一...”、“第二...”)。此外,口头响应932包括语音提示“如果您想听的话,还有其他四个”。该语音提示向用户901告知有附加定义可用以及附加定义的准确数量。如果需要,语音提示还提示用户901请求附加定义。应当理解,如果定义列表只具有一个或两个定义(而不是6个),则这整个列表的一个或多个定义会被包括在口头响应932中(框848至850)。在此类实施例中,不会包括指示有附加定义可用的语音提示。
在图9D所示的另一实施例中,用户901提供口头用户请求934“嘿Siri,今天有好电影放映吗?”在该实施例中,数字助理905确定在那天在用户当前位置附近有有限数量的电影正在放映。因此,口头用户请求930的特定性程度被确定为不小于阈值水平(框804)。例如,响应于这个确定,从电影数据库检索当前正在用户位置附近放映的超过20部电影的列表(框840)。在该实施例中,电影列表中的电影名称相对较短,因此所述预先确定的数量被确定为中等数量(例如5)(框842)。例如,确定在给定时间可向用户901呈现多至五个电影名称而不使用户901无所适从。数字助理905然后确定(框842)所检索电影的列表中电影的数量(例如大于20)超过所述预先确定的数量(例如5),因此只选择电影列表的子集(例如5部电影)(框844)。在该实施例中,电影列表没有固有次序。然而,口头用户请求934限定了属性“好”,因此20部电影的列表根据受欢迎程度和/或评论排序(框844),并且列表中最受欢迎的5部电影被选择作为电影列表的所述子集。如图9D所示,包含电影列表的所选子集的口头响应936被生成(框844)并被提供给用户901(框846)。在该实施例中,口头响应936包括口头导言“找到了许多电影在今天放映...”,这为用户901提供大量电影正在放映并且在口头响应936中只提供这些电影的一部分的上下文。另外,口头响应932包括语音提示“如果您想听其余的就告诉我”,这提示用户901在需要的情况下请求列表中另外的电影。
在一些实施例中,过程800允许用户在口头响应被提供期间或之后提供跟进口头请求。例如,在提供口头响应(例如框812、824、834、846、或850各自的第一、第二、第三、第四、或第五口头响应)期间或之后,用户设备接收音频输入(例如通过打开麦克风213)。音频输入然后被分析以确定其是否包含跟进口头请求。这因此使用户能够(例如响应于语音提示)请求在口头响应中未提供的附加数据项。另选地,用户提供新的口头用户请求。在一些实施例中,如果在音频输入中没有检测到跟进口头请求,则用户设备在预先确定的量的时间之后停止接收音频输入。因此,如果不希望有跟进请求,则不强迫用户进入另一交互。
在一个实施例中,在提供口头响应(例如框812、824、834、846、或850各自的第一、第二、第三、第四、或第五口头响应)期间,检测到第二用户请求。例如在图9D中,在数字助理905正在提供口头响应936期间,用户901打断并提供第二用户请求。响应于检测到第二用户请求,数字助理905停止提供口头响应936的剩余部分。例如,如果数字助理905在电影名称“The Revenant”被提供期间或之后但在电影名称“The Big Short”被提供之前检测到第二用户请求,则数字助理905在电影名称“The Revenant”之后停止提供口头响应936的剩余部分。数字助理905然后基于第二用户请求和第四口头响应的与检测到第二用户请求重合的部分来生成口头响应。例如,在数字助理905正在提供电影名称“The Revenant”期间,用户901以第二用户请求“那是关于什么的?”打断。数字助理905确定第二口头请求的检测与口头响应936的部分“The Revenant”重合。作为响应,数字助理将与电影名称“The Revenant”有关的信息存储为上下文来处理第二用户请求。特别地,数字助理905基于电影名称“TheRevenant”搜索情节信息,并提供情节信息作为对第二用户请求的响应。
5.其他电子设备
图10示出根据各种所述实施例的原理进行配置的电子设备1000的功能框图。设备的功能块任选地由执行各种所述实施例的原理的硬件、软件或硬件和软件的组合来实现。本领域的技术人员应当理解,图10中所述的功能块任选地被组合或被分成子块,以实现各种所述实施例的原理。因此,本文的描述任选地支持本文所述的功能块的任何可能的组合或分离或进一步限定。
如图10所示,电子设备1000包括被配置为显示图形用户界面并接收来自用户的触摸输入的触摸屏显示器单元1002、被配置为接收音频输入(例如语音输入)的音频输入单元1004、被配置为输出音频(例如语音)的扬声器单元1005、和被配置为传输和接收信息的通信单元1006。电子设备1000还包括耦接到触摸屏显示器单元1002、音频输入单元1004和通信单元1006的处理单元1008。在一些实施例中,处理单元1008包括接收单元1010、确定单元1012、获取单元1014、生成单元1016,提供单元1018、选择单元1020、检测单元1022和停止单元1024。
根据一些实施方案,处理单元1008被配置为接收(例如用接收单元1010经由音频输入单元1004)与多个数据项相关联的口头用户请求(例如框802的口头用户请求)。处理单元1008被进一步配置为确定(例如用确定单元1012)口头用户请求的特定性程度(例如框804的特定性程度)是否小于阈值水平。处理单元1008被进一步配置为响应于确定口头用户请求的特定性程度小于阈值水平来确定(例如用确定单元1012)与口头用户请求有关的一个或多个属性(例如框806的一个或多个属性),所述一个或多个属性未在口头用户请求中限定。处理单元1008被进一步配置为基于口头用户请求和所述一个或多个属性来获取(例如用获取单元1014)数据项列表(例如框808的数据项列表)。处理单元1008被进一步配置为生成(例如用生成单元1016)包括数据项列表的子集的口头响应(例如框810的口头响应)。处理单元1008被进一步配置为提供(例如用提供单元1018利用扬声器单元1005)口头响应(例如框812处提供的口头响应)。
在一些实施例中,处理单元1008被进一步配置为确定(例如用确定单元1012)口头用户请求中限定的参数的数量(例如框804的参数数量)。特定性程度基于在口头用户请求中限定的参数的数量。
在一些实施例中,处理单元1008被进一步配置为确定(例如用确定单元1012)满足口头用户请求的可能数据项的数量(例如框804的可能数据项数量)。特定性程度基于可能数据项的数量。
在一些实施例中,处理单元1008被进一步配置为确定(例如用确定单元1012)与满足口头用户请求的数据项相关联的元数据的大小(例如框804的元数据大小)。所述阈值水平基于元数据大小。
在一些实施例中,处理单元1008被进一步配置为确定(例如用确定单元1012)对应于口头用户请求的域(例如框804的域)。所述阈值水平基于所述域。
在一些实施例中,处理单元1008被进一步配置为确定(例如用确定单元1012)与满足口头用户请求的数据项相关联的熟悉程度(例如框804的熟悉程度)。所述阈值水平基于所述熟悉程度。
在一些实施例中,生成口头响应包括生成描述所述一个或多个属性中的属性的口头导言(例如框810的口头导言)。另外,提供口头响应包括在提供数据项列表的子集之前提供所述口头导言。
在一些实施例中,口头响应包括为数据项列表的子集中的每个数据项指定附加属性的描述(例如框810的描述)。所述附加属性未在口头用户请求中限定,并且不同于所述一个或多个属性中的任何属性。
在一些实施例中,数据项列表的子集至多具有预先确定的数量的数据项。
在一些实施例中,处理单元1008被进一步配置为接收(例如以接收单元1010经由音频输入单元1004)语音输入(例如框814的语音输入)。处理单元1008被进一步配置为响应于接收语音输入来确定(例如用确定单元1012)语音输入是否对应于拒绝数据项列表的所述子集(例如框816的拒绝)。处理单元1008被进一步配置为响应于确定语音输入对应于拒绝数据项列表的所述子集来确定(例如用确定单元1012)与口头用户请求有关的一个或多个第二属性(例如框818的一个或多个第二属性)。所述一个或多个第二属性不同于所述一个或多个属性并且未在口头用户请求中限定。处理单元1008还被配置为基于口头用户请求和所述一个或多个第二属性来获取(例如用获取单元1014)第二数据项列表(例如框820的第二数据项列表)。处理单元1008被进一步配置为生成(例如用生成单元1016)包括第二数据项列表的子集的第二口头响应(例如框822的第二口头响应)。处理单元1008还被配置为提供(例如用提供单元1018和扬声器单元1005)第二口头响应(例如框824处提供的第二口头响应)。
在一些实施例中,处理单元1008被进一步配置为响应于确定语音输入对应于拒绝数据项列表的所述子集来提供(例如用提供单元1018和扬声器单元1005)用于用户提供附加属性以提炼口头用户请求的语音提示(例如框826的语音提示)。
在一些实施例中,处理单元1008被进一步配置为接收(例如用接收单元经由音频输入单元1004)响应于语音提示的第二语音输入(例如框828的第二语音输入)。处理单元1008还被配置为基于口头用户请求和第二语音输入中限定的一个或多个属性来获取(例如用获取单元1014)第三数据项列表(例如框830的第三数据项列表)。处理单元1008被进一步配置为生成(例如用生成单元1016)包括第三数据项列表的子集的第三口头响应(例如框832的第三口头响应)。处理单元1008还被配置为提供(例如用提供单元1018和扬声器单元1005)第三口头响应(例如框834处提供的第三口头响应)。
在一些实施例中,处理单元1008被进一步配置为响应于确定语音输入不对应于拒绝数据项列表的所述子集来确定(例如用确定单元1012)语音输入是否对应于接受数据项列表的所述子集中的数据项(例如框836的接受)。处理单元1008被进一步配置为响应于确定语音输入对应于接受数据项列表的所述子集中的数据项来提供(例如用提供单元1018和扬声器单元1005)与所接受的数据项相关联的内容(例如框838的内容)。
在一些实施例中,处理单元1008被进一步配置为确定(例如用确定单元1012)预先确定的数量的先前口头响应中的每个口头响应是否包括指示附加数据项可用的语音提示(例如框810和812)。处理单元1008被进一步配置为响应于确定预先确定的数量的先前口头响应中的每个口头响应不包括指示附加数据项可用的语音提示来在口头响应中提供(例如用提供单元1018和扬声器单元1005)指示附加数据项可用的语音提示(例如框810和812)。处理单元1008被进一步配置为响应于确定预先确定的数量的先前口头响应中的每个口头响应包括指示附加数据项可用的语音提示而放弃在口头响应中提供(例如用提供单元1018)指示附加数据项可用的语音提示(例如框810和812)。
在一些实施例中,处理单元1008被进一步配置为响应于确定口头用户请求的特定性程度不小于阈值水平来基于口头用户请求来获取(例如用获取单元1014)第四数据项列表(例如框840的第四数据项列表)。处理单元1008被进一步配置为确定(例如用确定单元1012)第四数据项列表中的数据项的数量是否超过预先确定的数量(例如框842)。处理单元1008被进一步配置为响应于确定第四数据项列表中的数据项的数量超过预先确定的数量来(例如用生成单元1016)生成包括第四数据项列表的子集的第四口头响应(例如框844的第四口头响应)。处理单元1008还被配置为提供(例如用提供单元1018和扬声器单元1005)第四口头响应(例如框846处提供的第四口头响应)。
在一些实施例中,生成第四口头响应包括生成指示第四数据项列表中的数据项的数量的第四口头导言(例如框844的第四口头导言)。
在一些实施例中,第四数据项列表的所述子集与从口头用户请求推断的预期结果不同,并且其中第四口头导言指示第四数据项列表的所述子集与从口头用户请求推断的预期结果不同。
在一些实施例中,第四数据项列表的所述子集中的数据项的数量小于或等于所述预先确定的数量。
在一些实施例中,处理单元1008被进一步配置为响应于确定第四数据项列表中的数据项的数量不超过预先确定的数量来生成(例如用生成单元1016)包括第四数据项列表的第五口头响应(例如框848的第五口头响应)。处理单元1008还被配置为提供(例如用提供单元1018和扬声器单元1005)第五口头响应(例如框850处提供的第五口头响应)。
在一些实施例中,处理单元1008被进一步配置为基于口头用户请求中限定的属性从第四数据项列表中选择(例如用选择单元1020)第四数据项列表的所述子集(例如框844)。
在一些实施例中,第四数据项列表具有预先确定的次序,其中第四数据项列表的所述子集包括第四数据项列表中的前N个数据项,并且其中N小于或等于所述预先确定的数量(例如框844)。
在一些实施例中,口头用户请求与用户相关联,并且其中所述预先确定的数量基于用户与第四数据项列表中的数据项的熟悉程度。
在一些实施例中,所述预先确定的数量基于与第四数据项列表中的每个数据项相关联的元数据的量。
在一些实施例中,所述预先确定的数量基于在口头用户请求被接收时与用户相关联的认知负担。
在一些实施例中,第四口头响应包括指示附加数据项可用的第二语音提示。
在一些实施例中,第二语音提示指示第四数据项列表中其余数据项的数量。
在一些实施例中,处理单元1008被进一步配置为在提供第四口头响应期间检测(例如用检测单元1022)第二用户请求(例如框814的语音输入中的第二用户请求)。处理单元1008被进一步配置为响应于检测到第二用户请求而停止(例如用停止单元1024)提供第四口头响应。处理单元1008被进一步配置为基于第二用户请求和第四口头响应的与检测到第二用户请求重合的部分来生成(例如用生成单元1016)第六口头响应。处理单元1008还被配置为提供(例如用提供单元1018和扬声器单元1005)第六口头响应。
在一些实施例中,所述一个或多个属性是基于在来自多个用户的多个用户请求中指定属性的频率来确定的。
在一些实施例中,所述一个或多个属性是基于与口头用户请求相关联的用户配置文件来确定的。
在一些实施例中,确定所述一个或多个属性包括从属性分类中随机地选择属性。
上文参考图8A至图8D所述的操作任选地由图1至图4、图6A至图6B和图7A至图7C所示的部件实现。例如,过程800的操作可由操作系统718、应用程序模块724、I/O处理模块728、STT处理模块730、自然语言处理模块732、对话流处理模块734、任务流处理模块736、服务处理模块738或处理器220、410、704中的一者或多者来实现。本领域的普通技术人员会清楚地知道如何基于在图1至图4、图6A至图6B以及图7A至图7C中所描绘的部件来实现其他过程。
根据一些具体实施,提供一种计算机可读存储介质(例如,非暂态计算机可读存储介质),该计算机可读存储介质存储供电子设备的一个或多个处理器执行的一个或多个程序,所述一个或多个程序包括用于执行本文所述方法或过程中的任何方法或过程的指令。
根据一些具体实施,提供了一种电子设备(例如便携式电子设备),其包括用于执行本文所述方法或过程中的任何方法或过程的装置。
根据一些具体实施,提供了一种电子设备(例如便携式电子设备),其包括被配置为执行本文所述方法或过程中的任何方法或过程的处理单元。
根据一些具体实施,提供了一种电子设备(例如便携式电子设备),其包括一个或多个处理器和存储用以由所述一个或多个处理器执行的一个或多个程序的存储器,所述一个或多个程序包括用于执行本文所述方法或过程中的任何方法或过程的指令。
出于解释的目的,前面的描述是通过参考具体实施方案来描述的。然而,上面的例示性论述并非旨在是穷尽的或将本发明限制为所公开的精确形式。根据以上教导内容,很多修改形式和变型形式都是可能的。选择并描述这些实施方案是为了最好地解释这些技术的原理及其实际应用。本领域的其他技术人员由此能够最好地利用这些技术以及具有适合于所预期的特定用途的各种修改的各种实施方案。
虽然参照附图对本公开以及示例进行了全面的描述,但应当注意,各种变化和修改对于本领域内的技术人员而言将变得显而易见。应当理解,此类变化和修改被认为被包括在由权利要求书所限定的本公开和示例的范围内。
如上所述,本发明技术的一个方面在于采集和使用得自各种来源的数据,以改进向用户递送其可能感兴趣的启发内容或任何其他内容。本公开预期,在一些实例中,这些所采集的数据可包括唯一地识别或可用于联系或定位特定人员的个人信息数据。此类个人信息数据可包括人口数据、基于位置的数据、电话号码、电子邮件地址、家庭地址或任何其他识别信息。
本公开认识到在本发明技术中使用此类个人信息数据可用于使用户受益。例如,该个人信息数据可用于递送用户较感兴趣的目标内容。因此,使用此类个人信息数据使得能够对所递送的内容进行有计划的控制。此外,本公开还预期个人信息数据有益于用户的其他用途。
本公开还预期负责此类个人信息数据的收集、分析、公开、传输、存储或其他用途的实体将遵守已确立的隐私政策和/或隐私实践。具体地,此类实体应当实行并坚持使用被公认为满足或超出对维护个人信息数据的隐私性和安全性的行业或政府要求的隐私政策和实践。例如,来自用户的个人信息应当被收集用于实体的合法且合理的用途,并且不在这些合法使用之外共享或出售。另外,此类收集应当仅在用户知情同意之后进行。另外,此类实体应采取任何所需的步骤,以保障和保护对此类个人信息数据的访问,并且确保能够访问个人信息数据的其他人遵守他们的隐私政策和程序。另外,这种实体可使其本身经受第三方评估以证明其遵守广泛接受的隐私政策和实践。
不管前述情况如何,本公开还预期用户选择性地阻止使用或访问个人信息数据的实施方案。即本公开预期可提供硬件元件和/或软件元件,以防止或阻止对此类个人信息数据的访问。例如,就广告递送服务而言,本发明的技术可被配置为在注册服务期间允许用户选择“加入”或“退出”参与对个人信息数据的收集。又如,用户可选择不为目标内容递送服务提供位置信息。再如,用户可选择不提供精确的位置信息,但准许传输位置区域信息。
因此,虽然本公开广泛地覆盖了使用个人信息数据来实现一个或多个各种所公开的实施方案,但本公开还预期各种实施方案也可在无需访问此类个人信息数据的情况下被实现。即,本发明技术的各种实施方案不会由于缺少此类个人信息数据的全部或一部分而无法正常进行。例如,可通过基于非个人信息数据或绝对最低限度的个人信息诸如与用户相关联的设备所请求的内容、对内容递送服务可用的其他非个人信息或公开可用信息来推断偏好,从而选择内容并递送给用户。
Claims (88)
1.一种用于操作数字助理的方法,所述方法包括:
在具有处理器和存储器的电子设备处:
接收与多个数据项相关联的口头用户请求;
确定所述口头用户请求中限定的参数的数量;
确定所述口头用户请求的特定性程度是否小于阈值水平,其中所述特定性程度基于所述口头用户请求中限定的参数的所述数量;
响应于确定所述口头用户请求的特定性程度小于阈值水平:
确定与所述口头用户请求有关的一个或多个属性,所述一个或多个属性未在所述口头用户请求中限定;
基于所述口头用户请求和所述一个或多个属性来获取数据项列表;
生成包括所述数据项列表的子集的口头响应;以及
提供所述口头响应。
2.根据权利要求1所述的方法,还包括:
确定满足所述口头用户请求的可能数据项的数量,其中所述特定性程度基于所述可能数据项的数量。
3.根据权利要求1所述的方法,还包括:
确定与满足所述口头用户请求的数据项相关联的元数据的大小,其中所述阈值水平基于所述元数据的所述大小。
4.根据权利要求1所述的方法,还包括:
确定对应于所述口头用户请求的域,其中所述阈值水平基于所述域。
5.根据权利要求1所述的方法,还包括:
确定与满足所述口头用户请求的数据项相关联的熟悉程度,其中所述阈值水平基于所述熟悉程度。
6.根据权利要求1所述的方法,其中生成口头响应包括生成描述所述一个或多个属性的属性的口头导言,并且其中提供所述口头响应包括在提供所述数据项列表的所述子集之前提供所述口头导言。
7.根据权利要求1所述的方法,其中所述口头响应包括为所述数据项列表的所述子集的每个数据项指定附加属性的描述,并且其中所述附加属性未在所述口头用户请求中限定并且不同于所述一个或多个属性的任何属性。
8.根据权利要求1所述的方法,其中所述数据项列表的所述子集至多具有预先确定的数量的数据项。
9.根据权利要求1所述的方法,还包括:
接收语音输入;
响应于接收到所述语音输入,确定所述语音输入是否对应于拒绝所述数据项列表的所述子集;以及
响应于确定所述语音输入对应于拒绝所述数据项列表的所述子集:
确定与所述口头用户请求有关的一个或多个第二属性,其中所述一个或多个第二属性不同于所述一个或多个属性并且未在所述口头用户请求中限定;
基于所述口头用户请求和所述一个或多个第二属性来获取第二数据项列表;
生成包括所述第二数据项列表的子集的第二口头响应;以及
提供所述第二口头响应。
10.根据权利要求9所述的方法,还包括:
响应于确定所述语音输入对应于拒绝所述数据项列表的所述子集,提供用于所述用户提供附加属性以提炼所述口头用户请求的口头提示。
11.根据权利要求10所述的方法,还包括:
接收响应于所述口头提示的第二语音输入;
基于所述口头用户请求和所述第二语音输入中限定的一个或多个属性来获取第三数据项列表;
生成包括所述第三数据项列表的子集的第三口头响应;以及
提供所述第三口头响应。
12.根据权利要求9所述的方法,还包括:
响应于确定所述语音输入不对应于拒绝所述数据项列表的所述子集,确定所述语音输入是否对应于接受所述数据项列表的所述子集中的数据项;以及
响应于确定所述语音输入对应于接受所述数据项列表的所述子集中的数据项,提供与所接受的数据项相关联的内容。
13.根据权利要求1所述的方法,还包括:
确定预先确定的数量的先前口头响应中的每个口头响应是否包括指示附加数据项可用的口头提示;
响应于确定预先确定的数量的先前口头响应中的每个口头响应不包括指示附加数据项可用的口头提示,在所述口头响应中提供指示附加数据项可用的口头提示;以及
响应于确定预先确定的数量的先前口头响应中的每个口头响应包括指示附加数据项可用的口头提示,放弃在所述口头响应中提供指示附加数据项可用的口头提示。
14.根据权利要求1所述的方法,还包括:
响应于确定所述口头用户请求的特定性程度不小于阈值水平:
基于所述口头用户请求来获取第四数据项列表;
确定所述第四数据项列表中的数据项的数量是否超过预先确定的数量;以及
响应于确定所述第四数据项列表中的数据项的数量超过预先确定的数量:
生成包括所述第四数据项列表的子集的第四口头响应;以及
提供所述第四口头响应。
15.根据权利要求14所述的方法,其中生成所述第四口头响应包括生成指示所述第四数据项列表中的数据项的数量的第四口头导言。
16.根据权利要求15所述的方法,其中所述第四数据项列表的所述子集与从所述口头用户请求推断的预期结果不同,并且其中所述第四口头导言指示所述第四数据项列表的所述子集与从所述口头用户请求推断的预期结果不同。
17.根据权利要求14所述的方法,其中所述第四数据项列表的所述子集中的数据项的数量小于或等于所述预先确定的数量。
18.根据权利要求14所述的方法,还包括:
响应于确定所述第四数据项列表中的数据项的数量不超过预先确定的数量:
生成包括所述第四数据项列表的第五口头响应;以及
提供所述第五口头响应。
19.根据权利要求14所述的方法,还包括:
基于所述口头用户请求中限定的属性来从所述第四数据项列表选择所述第四数据项列表的所述子集。
20.根据权利要求14所述的方法,其中所述第四数据项列表具有预先确定的次序,其中所述第四数据项列表的所述子集包括所述第四数据项列表中的前N个数据项,并且其中N小于或等于所述预先确定的数量。
21.根据权利要求14所述的方法,其中所述口头用户请求与用户相关联,并且其中所述预先确定的数量基于所述用户与所述第四数据项列表中的数据项的熟悉程度。
22.根据权利要求21所述的方法,其中所述预先确定的数量基于在接收到所述口头用户请求时与所述用户相关联的认知负担。
23.根据权利要求14所述的方法,其中所述预先确定的数量基于与所述第四数据项列表中的每个数据项相关联的元数据的量。
24.根据权利要求14所述的方法,其中所述第四口头响应包括指示附加数据项可用的第二口头提示。
25.根据权利要求24所述的方法,其中所述第二口头提示指示所述第四数据项列表中剩余数据项的数量。
26.根据权利要求14所述的方法,还包括:
在提供所述第四口头响应期间,检测第二用户请求;
响应于检测到所述第二用户请求:
停止提供所述第四口头响应;
基于所述第二用户请求和所述第四口头响应的与检测到所述第二用户请求重合的部分来生成第六口头响应;以及
提供所述第六口头响应。
27.根据权利要求1所述的方法,其中所述一个或多个属性基于在来自多个用户的多个用户请求中指定的属性的频率来确定。
28.根据权利要求1所述的方法,其中所述一个或多个属性基于与所述口头用户请求相关联的用户配置文件来确定。
29.根据权利要求1所述的方法,其中确定所述一个或多个属性包括:从属性的分类随机地选择属性。
30.一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序被配置成由电子设备的一个或多个处理器执行,所述一个或多个程序包括用于以下操作的指令:
接收与多个数据项相关联的口头用户请求;
确定所述口头用户请求中限定的参数的数量;
确定所述口头用户请求的特定性程度是否小于阈值水平,其中所述特定性程度基于所述口头用户请求中限定的参数的所述数量;
响应于确定所述口头用户请求的特定性程度小于阈值水平:
确定与所述口头用户请求有关的一个或多个属性,所述一个或多个属性未在所述口头用户请求中限定;
基于所述口头用户请求和所述一个或多个属性来获取数据项列表;
生成包括所述数据项列表的子集的口头响应;以及
提供所述口头响应。
31.根据权利要求30所述的计算机可读存储介质,其中所述一个或多个程序进一步包括用于以下操作的指令:
确定满足所述口头用户请求的可能数据项的数量,其中所述特定性程度基于所述可能数据项的数量。
32.根据权利要求30所述的计算机可读存储介质,其中所述一个或多个程序进一步包括用于以下操作的指令:
确定与满足所述口头用户请求的数据项相关联的元数据的大小,其中所述阈值水平基于所述元数据的所述大小。
33.根据权利要求30所述的计算机可读存储介质,其中所述一个或多个程序进一步包括用于以下操作的指令:
确定对应于所述口头用户请求的域,其中所述阈值水平基于所述域。
34.根据权利要求30所述的计算机可读存储介质,其中所述一个或多个程序进一步包括用于以下操作的指令:
确定与满足所述口头用户请求的数据项相关联的熟悉程度,其中所述阈值水平基于所述熟悉程度。
35.根据权利要求30所述的计算机可读存储介质,其中生成口头响应包括生成描述所述一个或多个属性的属性的口头导言,并且其中提供所述口头响应包括在提供所述数据项列表的所述子集之前提供所述口头导言。
36.根据权利要求30所述的计算机可读存储介质,其中所述口头响应包括为所述数据项列表的所述子集的每个数据项指定附加属性的描述,并且其中所述附加属性未在所述口头用户请求中限定并且不同于所述一个或多个属性的任何属性。
37.根据权利要求30所述的计算机可读存储介质,其中所述数据项列表的所述子集至多具有预先确定的数量的数据项。
38.根据权利要求30所述的计算机可读存储介质,其中所述一个或多个程序进一步包括用于以下操作的指令:
接收语音输入;
响应于接收所述语音输入,确定所述语音输入是否对应于拒绝所述数据项列表的所述子集;以及
响应于确定所述语音输入对应于拒绝所述数据项列表的所述子集:
确定与所述口头用户请求有关的一个或多个第二属性,其中所述一个或多个第二属性不同于所述一个或多个属性并且未在所述口头用户请求中限定;
基于所述口头用户请求和所述一个或多个第二属性来获取第二数据项列表;
生成包括所述第二数据项列表的子集的第二口头响应;以及
提供所述第二口头响应。
39.根据权利要求38所述的计算机可读存储介质,其中所述一个或多个程序进一步包括用于以下操作的指令:
响应于确定所述语音输入对应于拒绝所述数据项列表的所述子集,提供用于所述用户提供附加属性以提炼所述口头用户请求的口头提示。
40.根据权利要求39所述的计算机可读存储介质,其中所述一个或多个程序进一步包括用于以下操作的指令:
接收响应于所述口头提示的第二语音输入;
基于所述口头用户请求和所述第二语音输入中限定的一个或多个属性来获取第三数据项列表;
生成包括所述第三数据项列表的子集的第三口头响应;以及
提供所述第三口头响应。
41.根据权利要求38所述的计算机可读存储介质,其中所述一个或多个程序进一步包括用于以下操作的指令:
响应于确定所述语音输入不对应于拒绝所述数据项列表的所述子集,确定所述语音输入是否对应于接受所述数据项列表的所述子集中的数据项;以及
响应于确定所述语音输入对应于接受所述数据项列表的所述子集中的数据项,提供与所接受的数据项相关联的内容。
42.根据权利要求30所述的计算机可读存储介质,其中所述一个或多个程序进一步包括用于以下操作的指令:
确定预先确定的数量的先前口头响应中的每个口头响应是否包括指示附加数据项可用的口头提示;
响应于确定预先确定的数量的先前口头响应中的每个口头响应不包括指示附加数据项可用的口头提示,在所述口头响应中提供指示附加数据项可用的口头提示;以及
响应于确定预先确定的数量的先前口头响应中的每个口头响应包括指示附加数据项可用的口头提示,放弃在所述口头响应中提供指示附加数据项可用的口头提示。
43.根据权利要求30所述的计算机可读存储介质,其中所述一个或多个程序进一步包括用于以下操作的指令:
响应于确定所述口头用户请求的特定性程度不小于阈值水平:
基于所述口头用户请求来获取第四数据项列表;
确定所述第四数据项列表中的数据项的数量是否超过预先确定的数量;以及
响应于确定所述第四数据项列表中的数据项的数量超过预先确定的数量:
生成包括所述第四数据项列表的子集的第四口头响应;以及
提供所述第四口头响应。
44.根据权利要求43所述的计算机可读存储介质,其中生成所述第四口头响应包括生成指示所述第四数据项列表中的数据项的数量的第四口头导言。
45.根据权利要求44所述的计算机可读存储介质,其中所述第四数据项列表的所述子集与从所述口头用户请求推断的预期结果不同,并且其中所述第四口头导言指示所述第四数据项列表的所述子集与从所述口头用户请求推断的预期结果不同。
46.根据权利要求43所述的计算机可读存储介质,其中所述第四数据项列表的所述子集中的数据项的数量小于或等于所述预先确定的数量。
47.根据权利要求43所述的计算机可读存储介质,其中所述一个或多个程序进一步包括用于以下操作的指令:
响应于确定所述第四数据项列表中的数据项的数量不超过预先确定的数量:
生成包括所述第四数据项列表的第五口头响应;以及
提供所述第五口头响应。
48.根据权利要求43所述的计算机可读存储介质,其中所述一个或多个程序进一步包括用于以下操作的指令:
基于所述口头用户请求中限定的属性来从所述第四数据项列表选择所述第四数据项列表的所述子集。
49.根据权利要求43所述的计算机可读存储介质,其中所述第四数据项列表具有预先确定的次序,其中所述第四数据项列表的所述子集包括所述第四数据项列表中的前N个数据项,并且其中N小于或等于所述预先确定的数量。
50.根据权利要求43所述的计算机可读存储介质,其中所述口头用户请求与用户相关联,并且其中所述预先确定的数量基于所述用户与所述第四数据项列表中的数据项的熟悉程度。
51.根据权利要求50所述的计算机可读存储介质,其中所述预先确定的数量基于在接收到所述口头用户请求时与所述用户相关联的认知负担。
52.根据权利要求43所述的计算机可读存储介质,其中所述预先确定的数量基于与所述第四数据项列表中的每个数据项相关联的元数据的量。
53.根据权利要求43所述的计算机可读存储介质,其中所述第四口头响应包括指示附加数据项可用的第二口头提示。
54.根据权利要求53所述的计算机可读存储介质,其中所述第二口头提示指示所述第四数据项列表中剩余数据项的数量。
55.根据权利要求43所述的计算机可读存储介质,其中所述一个或多个程序进一步包括用于以下操作的指令:
在提供所述第四口头响应时,检测第二用户请求;
响应于检测到所述第二用户请求:
停止提供所述第四口头响应;
基于所述第二用户请求和所述第四口头响应的与检测到所述第二用户请求重合的部分来生成第六口头响应;以及
提供所述第六口头响应。
56.根据权利要求30所述的计算机可读存储介质,其中所述一个或多个属性基于在来自多个用户的多个用户请求中指定的属性的频率来确定。
57.根据权利要求30所述的计算机可读存储介质,其中所述一个或多个属性基于与所述口头用户请求相关联的用户配置文件来确定。
58.根据权利要求30所述的计算机可读存储介质,其中确定所述一个或多个属性包括:从属性的分类随机地选择属性。
59.一种用于操作数字助理以探究媒体项的电子设备,所述设备包括:
一个或多个处理器;和
存储器,所述存储器存储被配置成由所述一个或多个处理器执行的一个或多个程序,所述一个或多个程序包括用于下列操作的指令:
接收与多个数据项相关联的口头用户请求;
确定所述口头用户请求中限定的参数的数量;
确定所述口头用户请求的特定性程度是否小于阈值水平,其中所述特定性程度基于所述口头用户请求中限定的参数的所述数量;
响应于确定所述口头用户请求的特定性程度小于阈值水平:
确定与所述口头用户请求有关的一个或多个属性,所述一个或多个属性未在所述口头用户请求中限定;
基于所述口头用户请求和所述一个或多个属性来获取数据项列表;
生成包括所述数据项列表的子集的口头响应;以及
提供所述口头响应。
60.根据权利要求59所述的设备,其中所述一个或多个程序进一步包括用于以下操作的指令:
确定满足所述口头用户请求的可能数据项的数量,其中所述特定性程度基于所述可能数据项的数量。
61.根据权利要求59所述的设备,其中所述一个或多个程序进一步包括用于以下操作的指令:
确定与满足所述口头用户请求的数据项相关联的元数据的大小,其中所述阈值水平基于所述元数据的所述大小。
62.根据权利要求59所述的设备,其中所述一个或多个程序进一步包括用于以下操作的指令:
确定对应于所述口头用户请求的域,其中所述阈值水平基于所述域。
63.根据权利要求59所述的设备,其中所述一个或多个程序进一步包括用于以下操作的指令:
确定与满足所述口头用户请求的数据项相关联的熟悉程度,其中所述阈值水平基于所述熟悉程度。
64.根据权利要求59所述的设备,其中生成口头响应包括生成描述所述一个或多个属性的属性的口头导言,并且其中提供所述口头响应包括在提供所述数据项列表的所述子集之前提供所述口头导言。
65.根据权利要求59所述的设备,其中所述口头响应包括为所述数据项列表的所述子集的每个数据项指定附加属性的描述,并且其中所述附加属性未在所述口头用户请求中限定并且不同于所述一个或多个属性的任何属性。
66.根据权利要求59所述的设备,其中所述数据项列表的所述子集至多具有预先确定的数量的数据项。
67.根据权利要求59所述的设备,其中所述一个或多个程序进一步包括用于以下操作的指令:
接收语音输入;
响应于接收到所述语音输入,确定所述语音输入是否对应于拒绝所述数据项列表的所述子集;以及
响应于确定所述语音输入对应于拒绝所述数据项列表的所述子集:
确定与所述口头用户请求有关的一个或多个第二属性,其中所述一个或多个第二属性不同于所述一个或多个属性并且未在所述口头用户请求中限定;
基于所述口头用户请求和所述一个或多个第二属性来获取第二数据项列表;
生成包括所述第二数据项列表的子集的第二口头响应;以及
提供所述第二口头响应。
68.根据权利要求67所述的设备,其中所述一个或多个程序进一步包括用于以下操作的指令:
响应于确定所述语音输入对应于拒绝所述数据项列表的所述子集,提供用于所述用户提供附加属性以提炼所述口头用户请求的口头提示。
69.根据权利要求68所述的设备,其中所述一个或多个程序进一步包括用于以下操作的指令:
接收响应于所述口头提示的第二语音输入;
基于所述口头用户请求和所述第二语音输入中限定的一个或多个属性来获取第三数据项列表;
生成包括所述第三数据项列表的子集的第三口头响应;以及
提供所述第三口头响应。
70.根据权利要求67所述的设备,其中所述一个或多个程序进一步包括用于以下操作的指令:
响应于确定所述语音输入不对应于拒绝所述数据项列表的所述子集,确定所述语音输入是否对应于接受所述数据项列表的所述子集中的数据项;以及
响应于确定所述语音输入对应于接受所述数据项列表的所述子集中的数据项,提供与所接受的数据项相关联的内容。
71.根据权利要求59所述的设备,其中所述一个或多个程序进一步包括用于以下操作的指令:
确定预先确定的数量的先前口头响应中的每个口头响应是否包括指示附加数据项可用的口头提示;
响应于确定预先确定的数量的先前口头响应中的每个口头响应不包括指示附加数据项可用的口头提示,在所述口头响应中提供指示附加数据项可用的口头提示;以及
响应于确定预先确定的数量的先前口头响应中的每个口头响应包括指示附加数据项可用的口头提示,放弃在所述口头响应中提供指示附加数据项可用的口头提示。
72.根据权利要求59所述的电子设备,其中所述一个或多个程序进一步包括用于以下操作的指令:
响应于确定所述口头用户请求的特定性程度不小于阈值水平:
基于所述口头用户请求来获取第四数据项列表;
确定所述第四数据项列表中的数据项的数量是否超过预先确定的数量;以及
响应于确定所述第四数据项列表中的数据项的数量超过预先确定的数量:
生成包括所述第四数据项列表的子集的第四口头响应;以及
提供所述第四口头响应。
73.根据权利要求72所述的设备,其中生成所述第四口头响应包括生成指示所述第四数据项列表中的数据项的数量的第四口头导言。
74.根据权利要求73所述的设备,其中所述第四数据项列表的所述子集与从所述口头用户请求推断的预期结果不同,并且其中所述第四口头导言指示所述第四数据项列表的所述子集与从所述口头用户请求推断的预期结果不同。
75.根据权利要求72所述的设备,其中所述第四数据项列表的所述子集中的数据项的数量小于或等于所述预先确定的数量。
76.根据权利要求72所述的设备,其中所述一个或多个程序进一步包括用于以下操作的指令:
响应于确定所述第四数据项列表中的数据项的数量不超过预先确定的数量:
生成包括所述第四数据项列表的第五口头响应;以及
提供所述第五口头响应。
77.根据权利要求72所述的设备,其中所述一个或多个程序进一步包括用于以下操作的指令:
基于所述口头用户请求中限定的属性来从所述第四数据项列表选择所述第四数据项列表的所述子集。
78.根据权利要求72所述的设备,其中所述第四数据项列表具有预先确定的次序,其中所述第四数据项列表的所述子集包括所述第四数据项列表中的前N个数据项,并且其中N小于或等于所述预先确定的数量。
79.根据权利要求72所述的设备,其中所述口头用户请求与用户相关联,并且其中所述预先确定的数量基于所述用户与所述第四数据项列表中的数据项的熟悉程度。
80.根据权利要求79所述的设备,其中所述预先确定的数量基于在接收到所述口头用户请求时与所述用户相关联的认知负担。
81.根据权利要求72所述的设备,其中所述预先确定的数量基于与所述第四数据项列表中的每个数据项相关联的元数据的量。
82.根据权利要求72所述的设备,其中所述第四口头响应包括指示附加数据项可用的第二口头提示。
83.根据权利要求82所述的设备,其中所述第二口头提示指示所述第四数据项列表中剩余数据项的数量。
84.根据权利要求72所述的设备,其中所述一个或多个程序进一步包括用于以下操作的指令:
在提供所述第四口头响应期间,检测第二用户请求;
响应于检测到所述第二用户请求:
停止提供所述第四口头响应;
基于所述第二用户请求和所述第四口头响应的与检测到所述第二用户请求重合的部分来生成第六口头响应;以及
提供所述第六口头响应。
85.根据权利要求59所述的设备,其中所述一个或多个属性基于在来自多个用户的多个用户请求中指定的属性的频率来确定。
86.根据权利要求59所述的设备,其中所述一个或多个属性基于与所述口头用户请求相关联的用户配置文件来确定。
87.根据权利要求59所述的设备,其中确定所述一个或多个属性包括:从属性的分类随机地选择属性。
88.一种电子设备,所述电子设备包括用于执行根据权利要求1至29中任一项所述的方法的装置。
Applications Claiming Priority (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201662346236P | 2016-06-06 | 2016-06-06 | |
US62/346,236 | 2016-06-06 | ||
US15/272,214 US10249300B2 (en) | 2016-06-06 | 2016-09-21 | Intelligent list reading |
US15/272,214 | 2016-09-21 | ||
DKPA201770331A DK201770331A1 (en) | 2016-06-06 | 2017-05-11 | Intelligent list reading |
DKPA201770331 | 2017-05-11 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107463311A CN107463311A (zh) | 2017-12-12 |
CN107463311B true CN107463311B (zh) | 2021-02-23 |
Family
ID=60546101
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710392723.4A Active CN107463311B (zh) | 2016-06-06 | 2017-05-27 | 智能列表读取 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107463311B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111341309A (zh) * | 2020-02-18 | 2020-06-26 | 百度在线网络技术(北京)有限公司 | 一种语音交互方法、装置、设备和计算机存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104335234A (zh) * | 2012-05-15 | 2015-02-04 | 苹果公司 | 用于将第三方服务与数字助理相结合的系统和方法 |
CN104769584A (zh) * | 2012-07-31 | 2015-07-08 | 韦韦欧股份有限公司 | 在对话交互中消除用户意图歧义 |
CN105027197A (zh) * | 2013-03-15 | 2015-11-04 | 苹果公司 | 训练至少部分语音命令系统 |
CN105264524A (zh) * | 2013-06-09 | 2016-01-20 | 苹果公司 | 用于实现跨数字助理的两个或更多个实例的会话持续性的设备、方法、和图形用户界面 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130275899A1 (en) * | 2010-01-18 | 2013-10-17 | Apple Inc. | Application Gateway for Providing Different User Interfaces for Limited Distraction and Non-Limited Distraction Contexts |
US9085303B2 (en) * | 2012-11-15 | 2015-07-21 | Sri International | Vehicle personal assistant |
-
2017
- 2017-05-27 CN CN201710392723.4A patent/CN107463311B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104335234A (zh) * | 2012-05-15 | 2015-02-04 | 苹果公司 | 用于将第三方服务与数字助理相结合的系统和方法 |
CN104769584A (zh) * | 2012-07-31 | 2015-07-08 | 韦韦欧股份有限公司 | 在对话交互中消除用户意图歧义 |
CN105027197A (zh) * | 2013-03-15 | 2015-11-04 | 苹果公司 | 训练至少部分语音命令系统 |
CN105264524A (zh) * | 2013-06-09 | 2016-01-20 | 苹果公司 | 用于实现跨数字助理的两个或更多个实例的会话持续性的设备、方法、和图形用户界面 |
Also Published As
Publication number | Publication date |
---|---|
CN107463311A (zh) | 2017-12-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112567323B (zh) | 用户活动快捷方式建议 | |
CN111901481B (zh) | 计算机实现的方法、电子设备和存储介质 | |
US11227589B2 (en) | Intelligent list reading | |
CN111656439B (zh) | 基于延迟控制电子设备的方法、电子设备及存储介质 | |
CN110364148B (zh) | 自然助理交互 | |
EP3453019B1 (en) | Intelligent list reading | |
CN107615276B (zh) | 用于媒体回放的虚拟助理 | |
CN110058834B (zh) | 智能设备仲裁和控制 | |
CN107257950B (zh) | 虚拟助理连续性 | |
CN112567332A (zh) | 语音命令的多模态输入 | |
CN115088250A (zh) | 视频通信会话环境中的数字助理交互 | |
DK201970511A1 (en) | Voice identification in digital assistant systems | |
CN109257941B (zh) | 用于数字助理的同步和任务委派的方法、电子设备和系统 | |
CN110603586B (zh) | 用于校正识别错误的用户界面 | |
CN115221295A (zh) | 个人请求的数字助理处理 | |
CN111399714A (zh) | 用户活动快捷方式建议 | |
CN110612566B (zh) | 个人信息的隐私维护 | |
CN115083414A (zh) | 用于连续对话的多状态数字助理 | |
CN107463311B (zh) | 智能列表读取 | |
CN112015873A (zh) | 通过设备内置目标定位和个性化实现语音助理可发现性 | |
CN110574023A (zh) | 脱机个人助理 | |
AU2018100133A4 (en) | Intelligent list reading | |
EP3959714B1 (en) | Voice identification in digital assistant systems | |
CN113655981A (zh) | 基于置信度来减小描述长度 | |
CN114296624A (zh) | 响应于检测到事件建议可执行动作 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |