CN117957512A - 用于移动和复制图形元素的数字助理 - Google Patents
用于移动和复制图形元素的数字助理 Download PDFInfo
- Publication number
- CN117957512A CN117957512A CN202280062711.4A CN202280062711A CN117957512A CN 117957512 A CN117957512 A CN 117957512A CN 202280062711 A CN202280062711 A CN 202280062711A CN 117957512 A CN117957512 A CN 117957512A
- Authority
- CN
- China
- Prior art keywords
- graphical element
- user
- display
- location
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims abstract description 100
- 230000003993 interaction Effects 0.000 claims description 52
- 238000012790 confirmation Methods 0.000 claims description 20
- 230000004044 response Effects 0.000 claims description 17
- 230000009471 action Effects 0.000 claims description 9
- 230000008569 process Effects 0.000 abstract description 21
- 238000012545 processing Methods 0.000 description 33
- 230000010076 replication Effects 0.000 description 22
- 230000001953 sensory effect Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 238000005111 flow chemistry technique Methods 0.000 description 8
- 230000036541 health Effects 0.000 description 8
- 238000003058 natural language processing Methods 0.000 description 8
- 230000033001 locomotion Effects 0.000 description 7
- 230000003190 augmentative effect Effects 0.000 description 5
- 230000007423 decrease Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000003384 imaging method Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013503 de-identification Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000001339 gustatory effect Effects 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000005293 physical law Methods 0.000 description 1
- 210000001525 retina Anatomy 0.000 description 1
- 230000004270 retinal projection Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 229910052710 silicon Inorganic materials 0.000 description 1
- 239000010703 silicon Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000009528 vital sign measurement Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Landscapes
- User Interface Of Digital Computer (AREA)
Abstract
一种示例过程包括:当在显示器上显示具有第一显示位置的图形元素时,接收到包括对该图形元素的指向性指称的自然语言输入;确定该自然语言输入是否对应于移动或复制该图形元素的用户意图;根据确定该自然语言输入对应于移动或复制该图形元素的用户意图:基于检测到的用户凝视输入来确定该指向性指称指代该图形元素;以及根据确定该指向性指称指代该图形元素,在不同于该第一显示位置的第二显示位置处显示该图形元素。
Description
相关申请的交叉引用
本专利申请要求提交于2022年9月12日的名称为“DIGITAL ASSISTANT FORMOVING AND COPYING GRAPHICAL ELEMENTS”的美国专利申请17/942,496号和提交于2021年9月16日的名称为“DIGITAL ASSISTANT FOR MOVING AND COPYING GRAPHICALELEMENTS”的美国专利申请63/245,071号的优先权。这些申请中的每个申请的全部内容据此全文以引用方式并入本文。
技术领域
本文涉及使用数字助理在各位置之间移动和复制项目。
背景技术
数字助理可在人类用户和电子设备之间提供有益接口。此类助理可允许用户使用自然语言以语音形式和/或文本形式与设备或系统进行交互。例如,用户可向正在电子设备上运行的数字助理提供包含用户请求的语音输入。数字助理可从该语音输入解译用户意图并且将用户意图操作化成任务。随后可通过执行电子设备的一项或多项服务来执行这些任务,并且可将响应于用户请求的相关输出返回给用户。
发明内容
本文公开了示例性方法。一种示例性方法包括:在具有一个或多个处理器、存储器和显示器的电子设备处,当在显示器上显示具有第一显示位置的图形元素时,接收到包括对图形元素的指向性指称的自然语言输入;确定自然语言输入是否对应于移动或复制图形元素的用户意图;根据确定自然语言输入对应于移动或复制图形元素的用户意图:基于检测到的用户凝视输入来确定指向性指称指代图形元素;以及根据确定指向性指称指代图形元素,在不同于第一显示位置的第二显示位置处显示图形元素。
本文公开了示例性非暂态计算机可读介质。一种示例性非暂态计算机可读存储介质存储一个或多个程序。该一个或多个程序包括指令,该指令当由具有显示器的电子设备的一个或多个处理器执行时使得电子设备:当在显示器上显示具有第一显示位置的图形元素时,接收到包括对图形元素的指向性指称的自然语言输入;确定自然语言输入是否对应于移动或复制图形元素的用户意图;根据确定自然语言输入对应于移动或复制图形元素的用户意图:基于检测到的用户凝视输入来确定指向性指称指代图形元素;并且根据确定指向性指称指代图形元素,在不同于第一显示位置的第二显示位置处显示图形元素。
本文公开了示例性电子设备。一种示例性电子设备包括显示器、一个或多个处理器;存储器;以及一个或多个程序,其中该一个或多个程序存储在存储器中并且被配置为由一个或多个处理器执行,该一个或多个程序包括用于执行以下操作的指令:当在显示器上显示具有第一显示位置的图形元素时,接收到包括对图形元素的指向性指称的自然语言输入;确定自然语言输入是否对应于移动或复制图形元素的用户意图;根据确定自然语言输入对应于移动或复制图形元素的用户意图:基于检测到的用户凝视输入来确定指向性指称指代图形元素;以及根据确定指向性指称指代图形元素,在不同于第一显示位置的第二显示位置处显示图形元素。
当满足预定条件时,在第二显示位置处显示图形元素允许电子设备根据用户要求高效地将项目移动或复制到目标位置。例如,用户可以通过要求数字助理“将这个复制到那里”来请求将项目复制到目标位置。数字助理可以确定分别由指向性指称“这个”和“那里”所指代的项目和目标位置,从而允许用户复制或移动项目而不必显式地指定该项目和该目标位置(例如,不必要求“将名为照片#1的照片移动到我的最近照片文件夹”)。当满足预定条件时,在第二显示位置处显示所述图形元素而无需进一步的用户输入改进了设备可操作性并且使得用户设备交互更高效(例如,通过减少移动或复制项目原本所需的用户输入,通过提高移动或复制项目的效率),从而通过实现更快速更高效的设备使用减少了功率使用量并且延长了设备电池寿命。
本文公开了示例性方法。一种示例性方法包括:在具有一个或多个处理器、存储器和显示器的电子设备处,当在显示器上显示具有第一位置的图形元素时,接收到包括对图形元素的指向性指称的自然语言输入;确定自然语言输入是否对应于移动或复制图形元素的用户意图;根据确定自然语言输入对应于移动或复制图形元素的用户意图:基于检测到的用户凝视输入来确定指向性指称指代图形元素;以及根据确定指向性指称指代图形元素,使得图形元素与不同于第一位置的第二位置相关联。
本文公开了示例性非暂态计算机可读介质。一种示例性非暂态计算机可读存储介质存储一个或多个程序。该一个或多个程序包括指令,该指令当由具有显示器的电子设备的一个或多个处理器执行时使得电子设备:当在显示器上显示具有第一位置的图形元素时,接收到包括对图形元素的指向性指称的自然语言输入;确定自然语言输入是否对应于移动或复制图形元素的用户意图;根据确定自然语言输入对应于移动或复制图形元素的用户意图:基于检测到的用户凝视输入来确定指向性指称指代图形元素;以及根据确定指向性指称指代图形元素,使得图形元素与不同于第一位置的第二位置相关联。
本文公开了示例性电子设备。一种示例性电子设备包括显示器、一个或多个处理器;存储器;以及一个或多个程序,其中该一个或多个程序存储在存储器中并且被配置为由一个或多个处理器执行,该一个或多个程序包括用于执行以下操作的指令:当在显示器上显示具有第一位置的图形元素时,接收到包括对图形元素的指向性指称的自然语言输入;确定自然语言输入是否对应于移动或复制图形元素的用户意图;根据确定自然语言输入对应于移动或复制图形元素的用户意图:基于检测到的用户凝视输入来确定指向性指称指代图形元素;以及根据确定指向性指称指代图形元素,使得图形元素与不同于第一位置的第二位置相关联。
当满足预定条件时,使得图形元素与第二位置相关联允许电子设备根据用户要求高效地将项目移动或复制到目标位置。当满足预定条件时,使得图形元素与第二位置相关联而无需进一步的用户输入改进了设备可操作性并且使得用户设备交互更高效(例如,通过减少移动或复制项目原本所需的用户输入,通过提高移动或复制项目的效率),从而通过实现更快速更高效的设备使用减少了功率使用并且延长了设备电池寿命。
附图说明
图1A至图1B描绘了用于各种计算机生成的现实技术的示例性系统,这些技术包括虚拟现实和混合现实。
图2示出了根据各种示例的数字助理的框图。
图3A至图3H示出了根据各种示例的用于使用数字助理来移动或复制项目的技术。
图4示出了根据各种示例的用于移动或复制项目的过程。
图5示出了根据各种示例的用于移动或复制项目的过程。
具体实施方式
描述了用于与各种计算机生成的现实技术相关地使用此类系统的电子系统和技术的各种示例。
物理环境是指人们在没有电子系统帮助的情况下能够感测和/或交互的物理世界。物理环境诸如物理公园包括物理物品,诸如物理树木、物理建筑物和物理人。人们能够诸如通过视觉、触觉、听觉、味觉和嗅觉来直接感测物理环境和/或与物理环境交互。
相反,扩展现实(XR)环境是指人们经由电子系统感知和/或交互的完全或部分模拟的环境。在XR中,跟踪人的物理运动的子集或其表示,并且作为响应,以符合至少一个物理定律的方式调节在XR环境中模拟的一个或多个虚拟对象的一个或多个特征。例如,XR系统可以检测人的头部转动,并且作为响应,以与此类视图和声音在物理环境中变化的方式类似的方式调节呈现给人的图形内容和声场。在一些情况下(例如,出于可达性原因),对XR环境中虚拟对象的特征的调节可以响应于物理运动的表示(例如,声音命令)来进行。
人可以利用其感觉中的任一者来感测XR对象和/或与之交互,包括视觉、听觉、触觉、味觉和嗅觉。例如,人可以感测音频对象和/或与音频对象交互,该音频对象创建3D或空间音频环境,该3D或空间音频环境提供3D空间中点音频源的感知。又如,音频对象可以使能音频透明度,该音频透明度在有或者没有计算机生成的音频的情况下选择性地引入来自物理环境的环境声音。在某些XR环境中,人可以感测和/或只与音频对象交互。
XR的示例包括虚拟现实和混合现实。
虚拟现实(VR)环境是指被设计成对于一个或多个感觉完全基于计算机生成的感官输入的模拟环境。VR环境包括人可以感测和/或交互的多个虚拟对象。例如,树木、建筑物和代表人的化身的计算机生成的图像是虚拟对象的示例。人可以通过在计算机生成的环境内人的存在的模拟和/或通过在计算机生成的环境内人的物理移动的一个子组的模拟来感测和/或与VR环境中的虚拟对象交互。
与被设计成完全基于计算机生成的感官输入的VR环境相比,混合现实(MR)环境是指被设计成除了包括计算机生成的感官输入(例如,虚拟对象)之外还引入来自物理环境的感官输入或其表示的模拟环境。在虚拟连续体上,混合现实环境是完全物理环境作为一端和虚拟现实环境作为另一端之间的任何状况,但不包括这两端。
在一些MR环境中,计算机生成的感官输入可以对来自物理环境的感官输入的变化进行响应。另外,用于呈现MR环境的一些电子系统可以跟踪相对于物理环境的位置和/或取向,以使虚拟对象能够与真实对象(即,来自物理环境的物理物品或其表示)交互。例如,系统可以导致移动使得虚拟树木相对于物理地面看起来是静止的。
混合现实的示例包括增强现实和增强虚拟。
增强现实(AR)环境是指其中一个或多个虚拟对象叠加在物理环境或其表示之上的模拟环境。例如,用于呈现AR环境的电子系统可具有透明或半透明显示器,人可以透过该显示器直接查看物理环境。该系统可以被配置为在透明或半透明显示器上呈现虚拟对象,使得人利用该系统感知叠加在物理环境之上的虚拟对象。另选地,系统可以具有不透明显示器和一个或多个成像传感器,该成像传感器捕获物理环境的图像或视频,这些图像或视频是物理环境的表示。系统将图像或视频与虚拟对象组合,并在不透明显示器上呈现组合物。人利用系统经由物理环境的图像或视频而间接地查看物理环境,并且感知叠加在物理环境之上的虚拟对象。如本文所用,在不透明显示器上显示的物理环境的视频被称为“透传视频”,意味着系统使用一个或多个图像传感器捕获物理环境的图像,并且在不透明显示器上呈现AR环境时使用那些图像。进一步另选地,系统可以具有投影系统,该投影系统将虚拟对象投射到物理环境中,例如作为全息图或者在物理表面上,使得人利用该系统感知叠加在物理环境之上的虚拟对象。
增强现实环境也是指其中物理环境的表示被计算机生成的感官信息进行转换的模拟环境。例如,在提供透传视频中,系统可以对一个或多个传感器图像进行转换以施加与成像传感器所捕获的视角不同的选择视角(例如,视点)。又如,物理环境的表示可以通过图形地修改(例如,放大)其部分而进行转换,使得经修改部分可以是原始捕获图像的代表性的但不是真实的版本。再如,物理环境的表示可以通过以图形方式消除其部分或将其部分进行模糊处理而进行转换。
增强虚拟(AV)环境是指其中虚拟或计算机生成的环境结合来自物理环境的一个或多个感官输入的模拟环境。感官输入可以是物理环境的一个或多个特性的表示。例如,AV公园可以具有虚拟树木和虚拟建筑物,但人的脸部是从对物理人拍摄的图像逼真再现的。又如,虚拟对象可以采用一个或多个成像传感器所成像的物理物品的形状或颜色。再如,虚拟对象可以采用符合太阳在物理环境中的定位的阴影。
有许多不同类型的电子系统使人能够感测和/或与各种XR环境交互。示例包括头戴式系统、基于投影的系统、平视显示器(HUD)、集成有显示能力的车辆挡风玻璃、集成有显示能力的窗户、被形成为被设计用于放置在人眼睛上的透镜的显示器(例如,类似于隐形眼镜)、耳机/听筒、扬声器阵列、输入系统(例如,具有或没有触觉反馈的可穿戴或手持控制器)、智能电话、平板电脑、和台式/膝上型计算机。头戴式系统可以具有一个或多个扬声器和集成的不透明显示器。另选地,头戴式系统可以被配置成接受外部不透明显示器(例如,智能电话)。头戴式系统可以结合用于捕获物理环境的图像或视频的一个或多个成像传感器、和/或用于捕获物理环境的音频的一个或多个麦克风。头戴式系统可以具有透明或半透明显示器,而不是不透明显示器。透明或半透明显示器可以具有媒介,代表图像的光通过该媒介被引导到人的眼睛。显示器可以利用数字光投影、OLED、LED、uLED、硅基液晶、激光扫描光源或这些技术的任意组合。媒介可以是光学波导、全息图媒介、光学组合器、光学反射器、或它们的任意组合。在一个实施方案中,透明或半透明显示器可被配置为选择性地变得不透明。基于投影的系统可以采用将图形图像投影到人的视网膜上的视网膜投影技术。投影系统也可以被配置为将虚拟对象投影到物理环境中,例如作为全息图或在物理表面上。
图1A和图1B描绘了在各种计算机生成的现实技术中使用的示例性系统100。
在一些示例中,如图1A所示,系统100包括设备100a。设备100a包括各种部件,诸如处理器102、RF电路104、存储器106、图像传感器108、取向传感器110、麦克风112、位置传感器116、扬声器118、显示器120和触敏表面122。这些部件任选地通过设备100a的通信总线150进行通信。
在一些示例中,系统100的元件在基站设备(例如,计算设备,诸如远程服务器、移动设备或膝上型计算机)中实现,并且系统100的其他元件在设计成由用户佩戴的头戴式显示器(HMD)设备中实现,其中HMD设备与基站设备通信。在一些示例中,设备100a在基站设备或HMD设备中实现。
如图1B所示,在一些示例中,系统100包括两个(或更多个)通信中的设备,诸如通过有线连接或无线连接。第一设备100b(例如,基站设备)包括处理器102、RF电路104和个存储器106。这些部件任选地通过设备100b的通信总线150进行通信。第二设备100c(例如,头戴式设备)包括各种部件,诸如处理器102、RF电路104、存储器106、图像传感器108、取向传感器110、麦克风112、位置传感器116、扬声器118、显示器120和触敏表面122。这些部件任选地通过设备100c的通信总线150进行通信。
在一些示例中,系统100为移动设备。在一些示例中,系统100为头戴式显示器(HMD)设备。在一些示例中,系统100为可穿戴HUD设备。
系统100包括处理器102和存储器106。处理器102包括一个或多个通用处理器、一个或多个图形处理器、和/或一个或多个数字信号处理器。在一些示例中,存储器106是存储计算机可读指令的一个或多个非暂态计算机可读存储介质(例如,闪存存储器,随机存取存储器),所述计算机可读指令被配置为由处理器102执行以执行下述技术。
系统100包括RF电路104。RF电路104任选地包括用于与电子设备、网络(诸如互联网、内联网)和/或无线网络(诸如蜂窝网络和无线局域网(LAN))通信的电路。RF电路104任选地包括用于使用近场通信和/或短程通信(诸如)进行通信的电路。
系统100包括显示器120。在一些示例中,显示器120包括第一显示器(例如,左眼显示器面板)和第二显示器(例如,右眼显示器面板),每个显示器用于向用户的相应眼睛显示图像。对应的图像同时显示在第一显示器和第二显示器上。任选地,对应的图像包括来自不同视点的相同虚拟对象和/或相同物理对象的表示,从而产生视差效应,该视差效应向用户提供显示器上对象的立体感效应。在一些示例中,显示器120包括单个显示器。对于用户的每只眼睛,对应的图像同时显示在单个显示器的第一区域和第二区域上。任选地,对应的图像包括来自不同视点的相同虚拟对象和/或相同物理对象的表示,从而产生视差效应,该视差效应向用户提供单个显示器上对象的立体感效应。
在一些示例中,系统100包括用于接收用户输入的触敏表面122,诸如轻击输入和轻扫输入。在一些示例中,显示器120和触敏表面122形成触敏显示器。
系统100包括图像传感器108。图像传感器108任选地包括一个或多个可见光图像传感器(诸如电荷耦合设备(CCD)传感器)和/或可操作以从真实环境获得物理对象的图像的互补金属氧化物半导体(CMOS)传感器。图像传感器还任选地包括一个或多个红外(IR)传感器,诸如无源IR传感器或有源IR传感器,用于检测来自真实环境的红外光。例如,有源IR传感器包括IR发射器,诸如IR点发射器,用于将红外光发射到真实环境中。图像传感器108还任选地包括一个或多个事件相机,这些事件相机被配置为捕获真实环境中的物理对象的移动。图像传感器108还任选地包括一个或多个深度传感器,这些深度传感器被配置为检测物理对象与系统100的距离。在一些示例中,系统100组合使用CCD传感器、事件相机和深度传感器来检测系统100周围的物理环境。在一些示例中,图像传感器108包括第一图像传感器和第二图像传感器。第一图像传感器和第二图像传感器任选地被配置为从两个不同的视角捕获真实环境中的物理对象的图像。在一些示例中,系统100使用图像传感器108来接收用户输入,诸如手势。在一些示例中,系统100使用图像传感器108来检测系统100和/或显示器120在真实环境中的位置和取向。例如,系统100使用图像传感器108来跟踪显示器120相对于真实环境中的一个或多个固定对象的位置和取向。
在一些示例中,系统100包括麦克风112。系统100使用麦克风112来检测来自用户和/或用户的真实环境的声音。在一些示例中,麦克风112包括麦克风阵列(包括多个麦克风),其任选地串联操作,以便标识环境噪声或在真实环境的空间中定位声源。
系统100包括用于检测系统100和/或显示器120的取向和/或移动的取向传感器110。例如,系统100使用取向传感器110来跟踪系统100和/或显示器120的位置和/或取向的变化,诸如关于真实环境中的物理对象。取向传感器110任选地包括一个或多个陀螺仪和/或一个或多个加速度计。
图2示出了根据各种示例的数字助理(DA)200的框图。
在一些示例中,如图所示,DA 200至少部分地在系统100内实现,例如,在设备100a、100b或100c内实现。例如,DA 200至少部分地实现为存储在存储器106中的计算机可执行指令。在一些示例中,DA 200分布在多个计算机和/或系统上。例如,DA 200的一些模块和功能被划分成服务器部分和客户端部分,其中客户端部分驻留在一个或多个用户设备(例如,设备100a、100b、100c)或系统(例如,系统100)上,并且任选地,通过一个或多个网络与服务器部分通信。DA 200的各种部件和功能在硬件、用于由一个或多个处理器执行的软件指令、固件(包括一个或多个信号处理集成电路和/或专用集成电路),或它们的组合或子组合中实现。DA 200仅是DA的一个示例,并且DA 200可具有比所示更多或更少的部件,可组合两个或更多个部件,或者可具有不同的部件配置或布置。
在一些示例中,DA 200执行下述操作中的至少一些:将语音输入转换为文本;标识在从用户接收的自然语言输入中表达的用户意图;主动引出并获得充分标识用户意图所需的信息(例如,通过消除字词、姓名、意图的歧义等);确定用于实现所标识意图的任务流;以及执行该任务流以实现所标识意图。
在一些示例中,DA 200包括被配置为标识用户意图的自然语言处理模块204。自然语言处理模块204获取由语音转文字(STT)处理模块202生成的n个最佳候选文字表示(“字词序列”或“符号序列”),并尝试将每个候选文本表示与由DA所识别的一个或多个“可执行意图”相关联。“可执行意图”(或“用户意图”)表示可由DA执行并且可具有在任务流处理模块206中实现的相关联的任务流的任务。相关联的任务流是数字助理为了执行任务而采取的一系列经编程的动作和步骤。在一些示例中,DA的能力范围取决于在任务流处理模块206中实现的任务流的数量和种类,或者换句话说,取决于DA识别的“可执行意图”的数量和种类。
在一些示例中,一旦自然语言处理模块204基于用户请求来标识可执行意图,自然语言处理模块204就使得任务流处理模块208执行满足用户请求所需的动作。例如,任务流处理模块206执行与所标识的可执行意图对应的任务流,以执行满足用户请求的任务。在一些示例中,执行任务包括使系统100提供指示所执行任务的图形输出、音频输出和/或触觉输出。
在一些示例中,DA 200包括复制模块208。复制模块208被配置为确定要移动或复制的项目(例如,图形元素和/或由图形元素表示的数据)。复制模块208被进一步配置为确定将该项目移动或复制到的目标位置。在一些示例中,自然语言处理模块204根据确定移动或复制图形元素的用户意图来调用复制模块208的服务。例如,如下文更详细讨论的,一旦自然语言处理模块204基于语音输入“将这个复制到那里”来确定复制图形元素的用户意图,自然语言处理模块204就调用复制模块208来确定分别由“这个”和“那里”所指的图形元素和目标位置。在一些示例中,复制模块208基于用户交互数据(例如,指示用户手势输入和/或用户凝视输入)来确定图形元素和目标位置,如下文所讨论的。在一些示例中,复制模块208基于自然语言输入来确定目标位置。例如,如果自然语言输入指定应用程序(例如,照片应用程序),则复制模块208确定对应于该应用程序的目标位置(例如,照片应用程序的“最近添加”文件夹)。
在一些示例中,复制模块208将所确定的图形元素和目标位置作为用于执行任务流的参数提供给任务流处理模块206。例如,任务流处理模块206实现复制任务流(例如,被配置为获得由图形元素所表示的数据)和粘贴任务流(例如,被配置为将所获得的数据复制和/或移动到目标位置)。任务流处理模块206可以使用所确定的图形元素的参数来执行复制任务流,以获得数据。在执行复制任务流之后,任务流处理模块206可以使用所获得的数据和目标位置的参数来执行粘贴任务流,以将所获得的数据移动或复制到目标位置。
图3A至图3H示出了根据各种示例的用于使用DA 200来移动或复制项目的技术。
图3A示出了设备300的显示器302。设备300例如被实现为头戴式设备、智能电话设备、膝上型计算机、台式计算机、平板设备、智能扬声器、电视机或智能家用电器。设备300被实现为设备100a或设备100c。
显示器302显示图形元素304、306、308、310、312和314。图形元素可表示各种类型的数据,诸如照片、视频、电子邮件、文本消息、联系信息、记事本、文字处理文档、演示文稿、日历项目、媒体项目(例如,歌曲、有声读物)、物理位置(例如,GPS坐标)以及任何其他文件类型(例如,XML文件、PDF文件)。在一些示例中,图形元素直接显示所表示的数据,例如,显示照片、显示文本消息的文本、显示联系信息(例如,电话号码、电子邮件地址)或显示文字处理文档的内容。在一些示例中,图形元素包括与所表示的数据相对应的图标(例如,文件图标)(例如,指示照片的图标、指示日历项目的图标、指示媒体项目的图标、指示文字处理文档的图标),但不直接显示所表示的数据。例如,在图3A中,图形元素304、306、308、310和314各自直接显示相应的所表示的数据,例如,图形元素304、306、308和310的照片和图形元素314的文字处理文档。图形元素312包括与所表示的视频相对应的图标(例如,电影图标),但不直接显示该视频。
在一些示例中,图形元素包括虚拟对象(例如,虚拟椅子)。在一些示例中,图形元素包括物理对象的显示表示,例如,在图形元素经由物理环境的透传视频来显示的情况下。
图形元素304-314各自具有指定图形元素的当前显示位置的相应显示位置。例如,显示器302在设备300的照片应用程序的用户界面中显示图形元素304-310,在设备300的桌面(例如,主屏幕)上显示图形元素312,并且在桌面上的显示器302的前景中显示图形元素314。在一些示例中,图形元素的显示位置对应于设备300的目录(例如,文件夹)和/或应用程序。例如,图形元素304-310各自对应于照片应用程序,并且各自对应于与照片应用程序相关联的文件夹。图形元素312对应于与桌面相关联的文件夹。图形元素314对应于文字处理应用程序并且对应于包括文字处理文档的文件夹。
在一些示例中,设备300接收调用DA 200的输入。调用DA 200的示例输入包括:话音输入,该话音输入包括预定的口头触发(例如,“嘿,助理”、“打开”等);由设备300检测到的预定类型的手势输入(例如,手部动作);以及对设备300的物理或虚拟按钮的选择。在一些示例中,调用DA 200的输入包括用户凝视输入,例如指示用户凝视指向特定显示的用户界面元素达预定持续时间。在一些示例中,设备300基于接收到的自然语言输入相对于用户凝视输入的时间来确定用户凝视输入是调用DA 200的输入。例如,如果设备300确定用户凝视在自然语言输入的开始时间和/或在自然语言输入的结束时间时指向用户界面元素,则用户凝视输入调用DA 200。在图3A的示例中,用户提供口头触发“嘿,助理”来调用DA 200。
响应于接收到调用DA 200的输入,DA 200调用。例如,设备300显示DA指示符315以指示所调用的DA 200并开始执行对应于DA 200的某些进程。在一些示例中,一旦DA 200调用,DA 200就处理接收到的自然语言输入以执行各种任务(例如,复制和移动图形元素),如下所述。为了简单起见,下文对图3B至图3H的描述没有明确地描述接收调用DA 200的输入。然而,应当理解,在一些示例中,DA 200根据接收到调用DA 200的输入来处理相对于图3B至图3H描述的自然语言输入。
在图3A中,当显示图形元素304时,设备300接收到自然语言输入,例如,“将这个移动到那里”。自然语言输入包括对图形元素304的指向性指称(例如,“这个”、“那个”、“它”、“文件”、“图片”、“东西”等)。因此,用户不需要显式地指定要移动或复制的图形元素(例如,指定图形元素304的文件名),从而允许用户轻松高效地移动或复制图形元素。DA 200根据下面的技术确定正确的图形元素(例如,由指向性指称所指代的图形元素304)。
DA 200例如根据调用来确定自然语言输入是否对应于移动或复制图形元素的用户意图。例如,DA 200使用自然语言处理模块204来处理自然语言输入,以基于检测到自然语言输入中的字词和/或短语(诸如“移动”、“复制”、“转移”、“粘贴”、“放置这个”和“在那里”)来确定用户意图。在一些示例中,根据确定自然语言输入与移动或复制图形元素的用户意图不对应,DA 200基于所确定的用户意图执行任务。
根据确定自然语言输入对应于移动或复制图形元素的用户意图,DA 200确定图形元素,例如确定指向性指称指代该图形元素。在一些示例中,确定指向性指称指代图形元素包括标识在接收到自然语言输入时所显示的一组图形元素,其中该组图形元素中的每个图形元素对应于相同的预定动作类型,例如,复制或移动动作。因此,DA 200将设备300允许DA200移动和/或复制的所有当前显示的图形元素标识为正确图形元素304的候选。因此,所标识的图形元素可根据设备300允许DA 200移动或复制的图形元素的类型而变化。例如,在图3A中,设备300标识出图形元素304-314,因为设备300允许DA 200移动和/或复制图形元素304-314。设备300不标识其他所显示的图形元素(例如,当前时间指示器、电池状态指示器、桌面背景),因为设备300不允许DA 200移动和/或复制其他所显示的图形元素。
在一些示例中,DA 200基于用户交互数据来确定和/或调整该组图形元素中的每个图形元素的相应相关性分数。用户交互数据可以指示与图形元素的各种类型的用户交互。在一些示例中,与图形元素的用户交互包括与由图形元素表示的数据的用户交互。例如,用户交互数据可指示用户凝视图形元素、选择图形元素的用户手势(例如,轻击手势、指向手势)、在图形元素上的用户点击、移动图形元素(例如,移动图形元素的显示位置、改变所表示数据的文件位置)的用户输入、复制图形元素(例如,将图形元素复制到另一显示位置、将所表示的数据与另一文件位置相关联)的用户输入、编辑图形元素(例如,编辑所表示的数据)的用户输入,和/或使得图形元素显示(或使得所表示的数据显示)的用户输入。在一些示例中,DA 200使用类似的用户交互数据(下文所讨论的)来确定要复制图形元素304的显示位置,例如,确定指向性指称“那里”指代特定的显示位置。
DA 200还确定指向性指称指代具有相应相关性分数中的最高相关性分数的图形元素(例如,图形元素304)。在一些示例中,DA 200根据确定复制或移动图形元素的用户意图来对图形元素评分。在一些示例中,作为后台进程,DA 200对图形元素进行评分,例如,不管DA 200是否接收到自然语言输入和/或DA 200是否调用。例如,当显示器302显示图形元素时,DA 200标识出对应于复制或移动动作的一组所显示的图形元素,并且基于用户交互数据确定/更新它们相应的相关性分数。根据确定复制或移动图形元素的用户意图,DA 200选择具有当前最高相关性分数的图形元素作为指向性指称所指代的图形元素。
在一些示例中,DA 200例如使用复制模块208随时间推移降低每个相应的相关性分数。例如,如下文详细描述的,当设备300检测到与图形元素的用户交互时,DA 200由于该用户交互而增加图形元素的相关性分数。然而,如果设备300未检测到与图形元素的进一步用户交互(例如,经由用户交互数据),则DA 200随时间推移降低相关性分数。因此,在一些示例中,DA 200确定,指向性指称指代与之交互的新近度更高的图形元素的可能性高于与之交互的新近度不那么高的图形元素。
在一些示例中,用户交互数据包括用户凝视输入(例如,由图像传感器108检测到的),并且DA 200通过基于用户凝视输入确定用户凝视指向图形元素来确定指向性指称指代该图形元素。在一些示例中,用户凝视输入响应于调用DA 200被检测或者在自然语言输入的开始时间时被检测。在一些示例中,在与DA 200识别出指向性指称(例如,使用STT处理模块202)的时间(识别时间)相对应的时间(例如,在识别时间之前和/或之后和/或在识别时间处的预定持续时间内)检测到用户凝视输入。这样,DA 200可以基于检测到大约在用户说“这个”时用户凝视图形元素304来确定“这个”指代图形元素304。
在一些示例中,DA 200基于检测到用户凝视指向图形元素(例如,在上述时间中的任一时间)来增加图形元素的相关性分数。例如,由于用户在当前时间(例如,自然语言输入的开始时间)凝视图形元素304,因此DA 200增加图形元素304的相关性分数。先前凝视图形元素的相关性分数可低于图形元素304的相关性分数。例如,如果用户先前在先前时间凝视图形元素312,则DA 200在先前时间增加图形元素312的相关性分数。然而,在当前时间,DA200已将图形元素312的相关性分数降至低于图形元素304的相关性分数,例如,因为在先前时间与当前时间之间并未检测到用户凝视图形元素312。
在一些示例中,用户交互数据包括用户手势输入(例如,由图像传感器108和/或触敏表面122检测到的),并且DA 200基于用户手势输入来确定指向性指称指代图形元素。示例性用户手势包括选择图形元素的轻击手势、在图形元素处的指向手势以及选择图形元素的其他手势,例如圈出图形元素的手势。在一些示例中,DA 200基于确定用户手势输入在与指向性指称的标识时间相对应的时间(例如,在标识时间之前和/或之后和/或在标识时间处的预定持续时间内)选择图形元素来确定指向性指称指代该图形元素。在一些示例中,DA基于确定用户手势输入在DA 200被调用时或在自然语言输入的开始时间时选择图形元素来确定指向性指称指代该图形元素。这样,DA 200可以通过检测到大约在用户说“这个”时用户手势选择图形元素304来确定“这个”指代图形元素304。
在一些示例中,DA 200基于检测到用户手势输入选择图形元素(例如,在上述时间中的任一时间)来增加图形元素的相关性分数。例如,由于用户手势大约在“这个”的标识时间时选择图形元素304,因此DA 200增加图形元素304的相关性分数。图形元素304的相关性分数可以高于其他图形元素的相关性分数,例如,由于经由手势输入选择其他图形元素的新近度没那么高,因此具有较低的相关性分数。
在一些示例中,用户交互数据指示与图形元素的用户交互的新近度。在一些示例中,DA 200因此通过确定与图形元素的用户交互的新近度来确定指向性指称指代该图形元素。例如,DA 200向与之交互新近度更高的图形元素分配的相关性分数高于与之交互新近度没那么高的图形元素。又如,DA 200隐式地确定与之交互新近度更高的图形元素具有更高相关性分数,例如由于在设备300未检测到与相应图形元素的后续用户交互的情况下随时间推移降低相关性分数。作为特定示例,当用户提供输入以使得图形元素初始显示时,DA200确定该图形元素具有高相关性分数。然而,DA 200随时间推移降低相关性分数,因此更新近显示的图形元素具有更高的相关性分数。
在一些示例中,用户交互数据指示与不同类型(例如,表示不同数据类型)的图形元素的用户交互的频率。在一些示例中,DA 200因此通过确定与跟图形元素相同类型的图形元素的用户交互的频率来确定指向性指称指代该图形元素。例如,DA 200对与不同类型(例如,照片、报告、文字处理文档、视频)的图形元素进行用户交互的数量进行计数,并且确定用户更频繁地与之交互的类型的图形元素具有更高相关性分数。例如,DA 200确定图形元素304具有比图形元素312更高的相关性分数,因为用户使用设备300与照片交互的频率高于与视频交互的频率。
转向图3B,在一些示例中,DA 200提供输出,该输出指示对指向性指称指代图形元素的用户确认的请求。在一些示例中,输出包括语音输出和视觉地指示图形元素的并发输出。视觉地指示图形元素的示例性输出包括对图形元素的显示方式的修改(例如,不同的边框样式、不同的大小、不同的颜色、不同的字体大小、移动(例如,抖动)图形元素的显示、突出显示图形元素)和/或指示图形元素的附加显示输出(例如,指向图形元素的箭头、围绕图形元素的框或圈)。例如,在图3B中,DA 200提供语音输出“你是指这个吗?”,同时经由图形元素316的显示视觉地指示图形元素304。
在一些示例中,DA 200根据确定图形元素的相关性分数低于阈值来提供指示对用户确认的请求的输出。例如,如果DA 200确定图形元素304具有最高的相关性分数,但该相关性分数低于阈值,则DA 200提供该输出。在一些示例中,根据确定图形元素的相关性分数高于阈值,DA 200放弃提供输出。在一些示例中,根据确定(例如,图形元素304-314的)每个相关性分数低于第二阈值,DA 200提供指示错误的输出,例如,“很抱歉,我不知道你想复制什么。”
在一些示例中,在提供指示对用户确认的请求的输出之后,DA 200接收确认指向性指称指代图形元素的用户输入。例如,在图3B中,响应于DA 200询问“你是指这个吗?”,用户提供语音输入“是的”,从而确认自然语言输入中的“这个”指代图形元素304。
在一些示例中,根据确定指向性指称指代图形元素,DA 200视觉地指示该图形元素,例如,不提供指示对用户确认的请求的输出。例如,一旦DA 200确定“这个”指代图形元素304,DA 200就显示图形元素316以视觉地指示图形元素304而不询问“你是指这个吗?”。这样,用户可视觉地确认DA 200是否已确定要移动或复制的正确图形元素。
在一些示例中,自然语言输入包括对图形元素要移动或复制到的目标位置(例如,显示位置)的第二指向性指称。对目标位置的示例性第二指向性指称包括“那里”、“这里”、“这个位置”、“这个地点”等。在一些示例中,DA 200根据下文讨论的技术基于第二指向性指称来确定目标位置。因此,用户不需要显式地指定目标位置,从而允许用户轻松高效地指定目标位置以移动和/或复制图形元素。
在一些示例中,DA 200使用与用于确定正确图形元素(例如,由“这个”指代)的技术一致的技术来确定正确目标位置。例如,根据确定移动或复制图形元素的用户意图,DA200标识在接收自然语言输入时所显示的一组目标位置。该组目标位置中的每个目标位置具有相同类型,例如,图形元素可被移动和/或复制到的目标位置。例如,在图3B中,DA 200将目标位置318(照片应用程序的用户界面)、320(设备300的桌面)和322(文字处理文档的主体)标识为该组目标位置。
DA 200进一步确定和/或调整该组目标位置中的每个目标位置的相应相关性分数,并选择具有最高相关性分数的目标位置。在一些示例中,作为后台进程,DA 200确定和/或调整每个目标位置的相应相关性分数(例如,不管DA 200是否接收自然语言输入或调用),并且根据确定移动或复制图形元素的用户意图,DA 200选择具有当前最高相关性分数的目标位置。
在一些示例中,DA 200基于指示与目标位置的用户交互的用户交互数据来确定和/或调整目标位置的相应相关性分数。与目标位置的用户交互类似于与上述图形元素的用户交互。与目标位置的示例性用户交互包括用户凝视目标位置、选择目标位置的用户手势、选择目标位置的其他用户输入(例如,修改目标位置的显示(例如,通过向目标位置添加图形元素或从目标位置移除图形元素)、移动目标位置、点击目标位置),以及使得目标位置初始显示的用户输入。
在一些示例中,类似于上文所讨论的,当设备300检测到与目标位置的用户交互时,DA 200增加目标位置的相关性分数,并且如果设备300未检测到与目标位置的进一步用户交互,则随时间推移降低相关性分数。因此,DA 200可确定与之交互新近度更高的目标位置具有更高的相关性分数。在一些示例中,DA 200确定更频繁与之交互的目标位置的类型具有更高的相关性分数。例如,DA 200确定用户与文字处理文档交互(例如,编辑)的频率高于用户与照片应用程序的用户界面交互(例如,向其添加照片)的频率。因此,DA 200确定目标位置322的相关性分数高于目标位置318。
在一些示例中,用户交互数据包括用户凝视输入,并且确定目标位置包括基于该用户凝视输入来确定用户凝视指向目标位置。在一些示例中,在与DA 200识别出第二指向性指称(例如,使用STT处理模块202)的时间(第二识别时间)相对应的时间(例如,在第二识别时间之前和/或之后和/或在第二识别时间处的预定持续时间内)检测到用户凝视输入。这样,DA 200可基于确定大约在用户说“那里”时用户凝视显示位置322来确定“那里”指代显示位置322(例如,通过增加显示位置322的相关性分数)。
在一些示例中,用户交互数据包括用户手势输入,并且确定目标位置包括确定该用户手势输入选择目标位置。在一些示例中,确定用户手势输入选择目标位置包括确定用户手势输入在对应于第二标识时间的时间(例如,在第二标识时间之前和/或之后和/或在第二标识时间处的预定持续时间内)选择目标位置。这样,DA 200可基于确定大约在用户说“那里”时用户在显示位置322处做手势(例如,指向该显示位置)来确定“那里”指代显示位置322。
转向图3C,在一些示例中,DA 200提供输出,该输出指示对第二指向性指称指代所确定的目标位置的用户确认的请求。在一些示例中,输出包括语音输出和视觉地指示目标位置的并发输出。视觉地指示目标位置的输出类似于视觉地指示上述图形元素的输出,例如对目标位置的显示方式的修改和/或指示目标位置的附加显示输出。例如,在图3C中,DA200提供音频输出“你是指这里吗?”,同时显示图形元素324以视觉地指示目标位置322。
在一些示例中,DA 200根据确定目标位置的相关性分数低于阈值来提供指示对用户确认的请求的输出。在一些示例中,根据确定目标位置的相关性分数高于阈值,DA 200放弃提供指示对用户确认的请求的输出。在一些示例中,根据确定每个所标识的目标位置的每个相关性分数低于第二阈值,DA 200提供指示错误的输出。例如,如果用户在说出“那里”时凝视与图3B中所标识的目标位置318、320和322不同的位置,则所标识目标位置318、320和322的相关性分数可均为较低的。因此,DA 200输出“很抱歉,我做不到”或“我不知道你想复制到哪里”。
在图3C中,DA 200接收确认第二指向性指称指代目标位置的用户输入。例如,在图3C中,响应于DA 200询问“你是指这里吗?”,用户提供语音输入“是的”,从而确认自然语言输入中的“那里”指代目标位置322。
在一些示例中,根据确定目标位置,DA 200视觉地指示目标位置,例如,不提供指示对用户确认的请求的输出。例如,一旦DA 200确定“那里”指代目标位置322,DA 200就显示图形元素324以视觉地指示目标位置322,而不询问“你是指这里吗?”。这样,用户可视觉地确认DA 200是否已确定移动或复制图形元素的正确目标位置。
转向图3D,根据确定指向性指称(例如,“这个”)指代图形元素,DA 200使得显示器302在目标位置处(例如,在目标位置内)显示图形元素。在一些示例中,在目标位置处显示图形元素是根据接收到确认指向性指称指代图形元素的用户输入(例如,图3B中的“是的”)和/或接收到确认第二指向性指称指代目标位置的用户输入(例如,图3C中的“是的”)来执行的。例如,在图3D中,在用户回应图3B的“是的”和图3C中的“是的”之后,显示器302在目标位置322处显示图形元素304,例如,在文字处理文档的主体中显示照片。在本示例中,由于自然语言输入(例如,“将这个复制到那里”)对应于复制用户意图,因此当显示器302在目标位置322处显示图形元素304时,图形元素304仍显示在其原始显示位置处,例如,在照片应用程序的用户界面中。在其他示例中,如果自然语言输入对应于移动用户意图(例如,“将这个移动到那里”),则当显示器302在目标位置322处显示图形元素304时,显示器302停止在其原始显示位置处显示图形元素304。
虽然本示例描述了在目标位置322(例如,文档的主体)处显示图形元素304,但在一些示例中,DA 200确定更精确的目标位置以显示图形元素,例如,文档主体中的特定位置。例如,与以上技术一致,DA 200可将文档内的多个位置标识为潜在目标位置,对这些目标位置进行评分,并选择具有最高相关性分数的目标位置。这样,如果用户在说出“那里”时凝视文档中的特定显示位置和/或在该特定显示位置处做手势,则DA 200可使得图形元素304在该特定显示位置处显示。
在一些示例中,目标位置指定文件位置(例如,由路径表示),并且在目标位置处显示图形元素包括将由图形元素表示的数据与文件位置相关联(例如,将所表示的数据保存在该文件位置处)。例如,目标位置322指定文字处理文档的文件位置。因此,通过在目标位置322处显示图形元素304,DA 200例如通过将照片保存在文字处理文档中来将所表示的照片与文字处理文档的文件位置相关联。又如,假设用户请求DA 200将图形元素304移动到目标位置320(设备300的桌面)。DA 200使得图形元素304显示在目标位置320处,从而例如通过将照片保存到设备300的桌面来将所表示的照片与由设备300的桌面指定的文件位置相关联。
在一些示例中,目标位置对应于目录,并且在目标位置处显示图形元素包括将图形元素(例如,由图形元素表示的数据)与目录相关联。例如,目标位置322对应于包括文字处理文档的目录(例如,文件夹),并且通过在文字处理文档中显示图形元素304,DA 200将所表示的照片与目录相关联。
在一些示例中,目标位置对应于设备300的与对应于原始显示位置的应用程序不同的应用程序。例如,图形元素304的原始显示位置对应于照片应用程序,而目标位置322对应于文字处理应用程序。
在一些示例中,如果图形元素直接在原始显示位置处显示所表示的数据(例如,而不是包括对应于所表示的数据的图标),则当在目标位置处显示时,图形元素也同样直接显示所表示的数据。例如,在图3D中,图形元素304直接在目标位置322处显示照片。在其他示例中,如果图形元素直接在原始显示位置处显示所表示的数据,则当在目标位置处显示时,图形元素不直接显示所表示的数据。例如,假设用户请求将图形元素314(表示文字处理文档)复制到目标位置320(设备300的桌面)。当显示器302在目标位置320处显示图形元素314时,图形元素314变为包括表示文字处理文档的图标(例如,文档图标)。
在一些示例中,如果图形元素不直接在原始显示位置处显示所表示的数据(例如,包括对应于所表示数据的图标),则当在目标位置处显示时,该图形元素也同样不直接显示所表示的数据。例如,如果DA 200变为将图形元素312复制到目标位置322,则当在目标位置322处显示时,图形元素312也同样不直接显示视频(并且变为包括表示视频的图标)。在其他示例中,如果图形元素不直接在原始显示位置处显示所表示的数据,则当在目标位置处显示时,图形元素直接显示所表示的数据。例如,如果DA 200将图形元素312复制到目标位置322,则当在目标位置322处显示时,图形元素312变为包括视频的显示(例如,播放视频)。图形元素是否直接在目标位置处显示所表示的数据可基于目标位置是否支持直接显示所表示的数据而变化。
在一些示例中,使得图形元素在目标位置处显示包括执行两个单独的任务流。例如,根据确定指向性指称指代图形元素,DA 200执行第一任务流(例如,复制任务流)以获得由图形元素所表示的数据。例如,DA 200执行复制任务流以获得由图形元素304所表示的照片的数据。在执行第一任务流之后(并且根据确定目标位置),DA 200使用所获得的数据和目标位置来执行第二任务流(例如,粘贴任务流)以在目标位置处显示图形元素。例如,在DA200执行复制任务流之后,DA 200使用所获得的数据和所确定的目标位置322的参数来执行粘贴任务流以在目标位置322处显示图形元素304。
转向图3E,在一些示例中,自然语言输入指定与目标位置相对应的应用程序。例如,在图3E中,在显示器302显示文字处理应用程序的用户界面326时,用户要求DA 200“将这个复制到文字处理应用程序”。对应于目标位置的其他示例性应用程序包括照片应用程序、文件管理应用程序、日历应用程序、记事本应用程序、桌面、消息传送应用程序、互联网浏览应用程序、web应用程序(例如,基于web的电子邮件提供商、基于web的聊天提供商)等。
在图3E的示例中,根据以上讨论的技术,DA 200确定自然语言输入中的“这个”指代图形元素304。DA 200进一步基于指定的应用程序确定目标位置。例如,DA 200确定目标位置对应于在接收自然语言输入时所显示的指定应用程序的用户界面(例如,包括在其中)。如果在接收到自然语言输入时,显示器302显示指定应用程序的多个用户界面(例如,显示多个文字处理文档),则DA 200确定目标位置对应于在接收到自然语言输入时在前台显示的用户界面,或者对应于最新近与之交互的用户界面。在一些示例中,DA 200另选地或附加地根据以上讨论的技术来确定目标位置,例如基于与目标位置的用户交互。
在图3F中,基于自然语言输入“将这个复制到文字处理应用程序”,DA 200确定文字处理应用程序的用户界面326对应于目标位置。DA 200因此使得显示器302在目标位置处(例如,在用户界面326内)显示图形元素304。
转向图3G-3H,在一些示例中,DA 200将图形元素(例如,将由图形元素表示的数据)与目标位置相关联,而无需对应所显示的用户界面。因此,在一些示例中,目标位置描述文件位置(例如,由路径表示)而不是显示位置。例如,在图3G中,用户要求DA 200“将这个复制到那里”,以使得DA 200将由图形元素328表示的照片数据与对应于照片应用程序的文件位置相关联。值得注意的是,在接收自然语言输入时,显示器302不显示对应于文件位置的用户界面。例如,显示器302显示照片应用程序的图标330,但不显示照片应用程序的用户界面,例如,展示用户照片的用户界面。
图形元素328具有位置。在一些示例中,该位置描述例如在设备300的消息传送应用程序的用户界面中显示的图形元素328的显示位置。在一些示例中,该位置描述所表示数据的文件位置,例如,由到用户的消息数据的路径表示的位置。在一些示例中,该位置对应于应用程序(例如,消息传送应用程序)和/或对应于目录(例如,包括用户的消息数据的目录)。
在图3G中,当显示器302显示图形元素328时,DA 200接收到包括对图形元素328的指向性指称的自然语言输入。例如,用户说出“将这个移到那里”。响应于自然语言输入,DA200根据下文讨论的技术确定目标位置并且将图形元素328与该目标位置相关联。
根据上文讨论的技术,DA确定自然语言输入对应于移动或复制图形元素的用户意图,并且确定指向性指称指代特定图形元素。例如,DA 200基于用户交互数据(例如,用户凝视图形元素328)来确定指向性指称“这个”指代图形元素328。在一些示例中,DA 200进一步提供输出,该输出指示对指向性指称指代图形元素的用户确认的请求,并且该DA接收用户输入,该用户输入确认指向性指称指代图形元素,例如,类似于相对于图3B所描述的。
在一些示例中,自然语言输入包括对目标位置的第二指向性指称(例如,“那里”)。DA 200基于第二指向性指称来确定目标位置。例如,DA 200确定第二指向性指称指代显示位置,例如,当用户说出第二指向性指称(例如,“这里”、“那里”、“这个地方”)时,用户可能指的是显示位置。如以下所讨论的,DA 200然后使用该显示位置来确定与图形元素328相关联的目标位置。
DA 200确定第二指向性指称指代与以上讨论的技术一致的显示位置。例如,根据确定移动或复制图形元素的用户意图,DA 200标识在接收自然语言输入时所显示的一组显示位置。该组显示位置中的每个显示位置均与图形元素兼容,例如,其中图形元素可被移动和/或复制到并且显示与图形元素的数据类型兼容的预定应用程序的图标的显示位置。例如,设备300指定与数据类型兼容的应用程序(例如,与照片数据类型兼容的照片应用程序、与物理位置数据类型兼容的导航应用程序等)。在图3G的示例中,DA 200将图标330的显示位置、显示位置320(例如,设备300的桌面)和显示位置332(例如,消息输入字段)标识为一组显示位置。DA 200未标识导航应用程序的图标334的显示位置,因为导航应用程序与照片数据类型不兼容。
在一些示例中,DA 200基于用户交互数据进一步对该组显示位置中的每个显示位置进行评分,并且确定第二指向性指称指代得分最高的显示位置。在图3G中,DA 200例如基于大约在用户说出“那里”时用户凝视图标330来确定第二指向性指称“那里”指代图标330的显示位置。在一些示例中,如果DA 200无法确定第二指向性指称所指代的显示位置(例如,如果每个所标识的显示位置的相应相关性分数低于阈值),则DA 200提供指示错误的输出。例如,假设用户在说出“那里”时凝视导航应用程序的图标334。由于用户并未凝视所标识的显示位置中的任一者,因此所标识的显示位置的相关性分数均低于阈值。因此,DA 200提供输出“很抱歉,我做不到”,例如,因为设备300不允许将照片复制到导航应用程序。
在一些示例中,DA 200进一步提供输出,该输出指示对第二指向性指称指代显示位置的用户确认的请求,并且该DA接收用户输入,该用户输入确认第二指向性指称指代显示位置,例如,类似于相对于图3C所描述的。
在一些示例中,根据确定第二指称指代显示位置,DA 200确定该显示位置是否对应于预定类型。预定类型的显示位置描述设备300允许将图形元素复制和/或移动到的显示位置,例如显示在该处和/或其内。相比之下,不具有预定类型的显示位置(例如,应用程序图标)描述设备300不允许将图形元素复制和/或移动到的显示位置。例如,在图3G中,显示位置320和332对应于预定类型(例如,因为图形元素可被复制和/或移动到桌面和消息输入字段),而图标330和334的显示位置与预定类型不对应,例如,因为图形元素无法在图标330或334内显示。
在一些示例中,根据确定显示位置对应于预定类型,DA 200将目标位置确定为由显示位置所指定的文件位置。例如,如果DA 200确定显示位置320为所指代的显示位置,则DA 200将目标位置确定为设备300的桌面的文件位置(例如,由到设备300桌面的路径来表示)。在一些示例中,根据确定显示位置与预定类型不对应,DA 200将目标位置确定为对应于该显示位置的默认文件位置。例如,如果显示位置是应用程序图标,则目标位置是应用程序中的默认位置。例如,在图3G中,DA 200确定图标330的显示位置与预定类型不对应,并且因此将目标位置确定为照片应用程序中的默认位置,例如照片应用程序的“最近添加”文件夹的文件位置。
在一些示例中,根据确定指向性指称指代图形元素,DA 200使得图形元素与目标位置相关联。例如,DA 200使得由图形元素表示的数据与目标位置相关联(例如,保存在目标位置处)。在一些示例中,使图形元素与目标位置相关联进一步根据接收到确认指向性指称指代图形元素的用户输入和/或接收到确认(例如,图标330的)显示位置的用户输入来执行。在图3G的示例中,DA 200使得图形元素328的照片与“最近添加”文件夹的文件位置相关联,例如通过将照片保存在“最近添加”文件夹中。
在一些示例中,使得图形元素与目标位置相关联包括提供指示该关联的输出(例如,音频输入)。例如,在图3G中,DA 200输出“ok,我已将照片保存到你的最近添加文件夹”。
如图3G所示,在一些示例中,当接收到自然语言输入时以及当图形元素与目标位置相关联时,不显示与目标位置相对应的用户界面。例如,当DA 200将照片保存到“最近添加”文件夹时,不显示展示“最近添加”文件夹的用户界面。相比之下,在以上图3A至图3F中,当图形元素304在目标位置322处显示时,显示对应于目标位置322的用户界面(例如,文字处理文档的主体)。
在一些示例中,使得图形元素与目标位置相关联包括执行两个单独的任务流。例如,根据确定指向性指称指代图形元素,DA 200执行第一任务流(例如,复制任务流)以获得由图形元素所表示的数据。例如,DA 200执行复制任务流以获得由图形元素328所表示的照片的数据。在一些示例中,在执行第一任务流之后(并且根据确定目标位置),DA 200使用所获得的数据和目标位置来执行第二任务流(例如,粘贴任务流)以使得图形元素与目标位置相关联。例如,DA 200使用所获得数据和“最近添加”文件夹的文件位置的参数来执行粘贴任务流,以将照片保存在“最近添加”文件夹中。
转向图3H,在一些示例中,自然语言输入指定与目标位置相对应的应用程序。例如,在图3H中,用户要求DA 200“将这个复制到我的照片”。DA 200确定指向性指称“这个”指代图形元素328。DA 200进一步基于指定的应用程序确定目标位置。
例如,DA 200确定在接收到自然语言输入时,是否显示对应于应用程序的用户界面(例如,如相对于图3E所讨论的)。如果是,则DA 200将目标位置确定为由用户界面指定的文件位置。例如,如果显示器302在DA 200接收到“将这个复制到我的照片”时显示与“最近添加”文件夹相对应的用户界面,则DA 200将目标位置确定为“最近添加”文件夹的文件位置。因此,DA 200将图形元素328与文件位置相关联,例如,通过将照片保存到“最近添加”文件夹并且在与“最近添加”文件夹相对应的用户界面中显示该照片。
如果DA 200确定在接收到自然语言输入时未显示与应用程序相对应的用户界面,则DA 200将目标位置确定为对应于应用程序的默认位置。例如,在图3H中,当接收到自然语言输入时,DA 200确定未显示与照片应用程序对应的用户界面。因此,DA 200将目标位置确定为照片应用程序中的默认位置(例如,“最近添加”文件夹的文件位置)。然后,DA 200将图形元素328与默认位置相关联。在一些示例中,DA 200进一步提供指示该关联的输出(例如,音频输出),例如,“ok,我已将照片保存到你的最近添加文件夹”。
图4示出了根据各种示例的用于移动或复制项目的过程400。过程400例如在设备(例如,设备300)处并使用DA 200和系统100来执行。在过程400中,一些操作任选地组合,一些操作的次序任选地改变,并且一些操作任选地省略。在一些示例中,结合过程400执行附加操作。
在框402,当在显示器(例如,显示器302)上显示具有第一显示位置的图形元素(例如,图形元素304)时,接收到包括对该图形元素的指向性指称的自然语言输入。
在框404,确定(例如,由DA 200)该自然语言输入是否对应于移动或复制图形元素的用户意图。在一些示例中,在框406处,根据确定该自然语言输入与移动或复制图形元素的用户意图不对应,基于该自然语言输入来执行任务(例如,由DA 200)。
在框408,根据确定该自然语言输入对应于移动或复制图形元素的用户意图,基于检测到的用户凝视输入来确定(例如,由复制模块208)指向性指称指代该图形元素。在一些示例中,确定指向性指称指代该图形元素包括:标识(例如,由复制模块208)在接收到自然语言输入时所显示的第一组图形元素(例如,图形元素304、306、308、310、312和314),其中:第一组图形元素中的每个图形元素对应于相同的预定动作类型;并且该第一组图形元素包括该图形元素;基于用户交互数据来确定(例如,由复制模块208)第一组图形元素中的每个图形元素的相应相关性分数;以及根据确定该图形元素的相关性分数是相应相关性分数中的最高相关性分数来确定(例如,由复制模块208)指向性指称指代该图形元素。在一些示例中,相应相关性分数中的每个相关性分数随时间推移而降低(例如,由复制模块208)。
在一些示例中,确定指向性指称指代该图形元素包括基于用户凝视输入来确定用户凝视指向该图形元素。在一些示例中,接收调用在电子设备(例如,DA 200)上操作的数字助理的输入,并且响应于接收到调用数字助理的输入,调用该数字助理,其中响应于调用数字助理来检测用户凝视输入。
在一些示例中,检测用户手势输入。在一些示例中,确定指向性指称指代该图形元素包括基于用户手势输入来确定指向性指称指代该图形元素。在一些示例中,根据确定用户手势输入对应于在与电子设备识别出指向性指称的时间相对应的时间处对图形元素的选择来执行基于用户手势输入确定指向性指称指代该图形元素。
在一些示例中,确定指向性指称指代该图形元素包括确定与跟图形元素相同类型的图形元素的用户交互的频率。在一些示例中,确定指向性指称指代该图形元素包括确定与图形元素的用户交互的新近度。
在一些示例中,根据确定指向性指称指代该图形元素,视觉地指示该图形元素(例如,经由图形元素316的显示)。
在框410处,根据确定指向性指称指代该图形元素,在不同于第一显示位置的第二显示位置(例如,目标位置322)处显示该图形元素。在一些示例中,第一显示位置对应于第一目录,并且第二显示位置对应于第二目录。在一些示例中,在第二显示位置处显示图形元素包括将图形元素与第二目录相关联。在一些示例中,第一显示位置对应于电子设备的第一应用程序并且第二显示位置对应于电子设备的不同的第二应用程序。
在一些示例中,在第二显示位置处显示图形元素包括:根据确定指向性指称指代该图形元素:执行(例如,由任务流处理模块206)第一任务流以获得由该图形元素表示的第一数据;并且在执行第一任务流之后,使用第一数据和第二显示位置来执行(例如,由任务流处理模块206)第二任务流以在第二显示位置处显示该图形元素。
在一些示例中,提供第一输出(例如,经由图形元素316的显示),该第一输出指示对指向性指称指代该图形元素的用户确认的请求。在一些示例中,在提供第一输出之后,接收确认指向性指称指代该图形元素的第一用户输入,其中根据接收到该第一用户输入来执行在第二显示位置处显示该图形元素。
在一些示例中,自然语言输入包括对第二显示位置的第二指向性指称。在一些示例中,基于第二指向性指称来确定(例如,由复制模块208)第二显示位置,其中根据确定第二显示位置来执行在第二显示位置处显示该图形元素。在一些示例中,确定第二显示位置包括基于在与电子设备识别出第二指向性指称的时间相对应的时间处检测到的用户凝视输入来确定第二用户凝视指向第二显示位置。在一些示例中,检测到第二用户手势输入,其中确定第二显示位置包括确定第二用户手势输入对应于在第二时间对第二显示位置的选择,该第二时间对应于电子设备识别出第二指向性指称的时间。
在一些示例中,提供第二输出(例如,经由图形元件324的显示),该第二输出指示对第二指向性指称指代第二显示位置的用户确认的请求。在一些示例中,在提供第二输出之后,接收确认第二指向性指称指代第二显示位置的第二用户输入,其中根据接收到第二用户输入来执行在第二显示位置处显示该图形元素。
在一些示例中,自然语言输入指定对应于第二显示位置的应用程序,当接收到自然语言输入时显示该应用程序的用户界面(例如,用户界面326),并且第二显示位置对应于该应用程序的用户界面。
上文相对于图4所讨论的操作任选地由图2中描绘的部件(例如,由系统100和DA200)来实现。
图5示出了根据各种示例的用于移动或复制项目的过程500。过程500例如在设备(例如,设备300)处并使用DA 200和系统100来执行。在过程500中,一些操作任选地被组合,一些操作的次序任选地被改变,并且一些操作任选地被省略。在一些示例中,附加操作结合过程500来执行。
在框502,当在显示器(例如,显示器302)上显示具有第一位置的图形元素(例如,图形元素328)时,接收到包括对该图形元素的指向性指称的自然语言输入。
在框504,确定(例如,由DA 200)该自然语言输入是否对应于移动或复制图形元素的用户意图。在一些示例中,在框506处,根据确定该自然语言输入与移动或复制图形元素的用户意图不对应,基于该自然语言输入来执行任务(例如,由DA 200)。
在框508,根据确定该自然语言输入对应于移动或复制图形元素的用户意图,基于检测到的用户凝视输入来确定(例如,由复制模块208)指向性指称指代该图形元素。在一些示例中,确定指向性指称指代该图形元素包括:标识(例如,由复制模块208)在接收到自然语言输入时所显示的第一组图形元素,其中第一组图形元素中的每个图形元素对应于相同的预定动作类型;并且该第一组图形元素包括该图形元素;基于用户交互数据来确定(例如,由复制模块208)第一组图形元素中的每个图形元素的相应相关性分数;以及根据确定该图形元素的相关性分数是相应相关性分数中的最高相关性分数来确定(例如,由复制模块208)指向性指称指代该图形元素。在一些示例中,相应相关性分数中的每个相关性分数随时间推移而降低(例如,由复制模块208)。
在一些示例中,确定指向性指称指代该图形元素包括基于用户凝视输入来确定用户凝视指向该图形元素。在一些示例中,接收调用在电子设备(例如,DA 200)上操作的数字助理的输入。在一些示例中,响应于接收到调用数字助理的输入,调用该数字助理,其中响应于调用数字助理来检测用户凝视输入。
在一些示例中,检测用户手势输入。在一些示例中,确定指向性指称指代该图形元素包括基于用户手势输入来确定指向性指称指代该图形元素。在一些示例中,根据确定用户手势输入对应于在与电子设备识别出指向性指称的时间相对应的时间处对图形元素的选择来执行基于用户手势输入确定指向性指称指代该图形元素。
在一些示例中,确定指向性指称指代该图形元素包括确定与跟图形元素相同类型的图形元素的用户交互的频率。在一些示例中,确定指向性指称指代该图形元素包括确定与图形元素的用户交互的新近度。
在一些示例中,根据确定指向性指称指代该图形元素,视觉地指示该图形元素。
在框510处,根据确定指向性指称指代图形元素,使该图形元素(例如,由DA 200)与不同于第一位置的第二位置相关联。在一些示例中,该第一位置对应于第一目录,并且该第二位置对应于第二目录。在一些示例中,使得该图形元素与第二位置相关联包括使得该图形元素与第二目录相关联。在一些示例中,该第一位置对应于电子设备的第一应用程序并且该第二位置对应于电子设备的不同的第二应用程序。
在一些示例中,当接收到自然语言输入时以及当图形元素与第二位置相关联时,不显示与第二位置相对应的用户界面。
在一些示例中,使得该图形元素与第二位置相关联包括:根据确定指向性指称指代该图形元素:执行第一任务流(例如,使用任务流处理模块206)以获得由该图形元素表示的第一数据;以及在执行第一任务流之后,使用第一数据和第二位置来执行第二任务流(例如,使用任务流处理模块206)以使得该图形元素与第二位置相关联。
在一些示例中,提供第一输出,该第一输出指示对指向性指称指代该图形元素的用户确认的请求。在一些示例中,在提供第一输出之后,接收确认指向性指称指代该图形元素的第一用户输入,其中根据接收到该第一用户输入来执行使得该图形元素与第二位置相关联。
在一些示例中,自然语言输入包括对第二位置的第二指向性指称。在一些示例中,基于第二指向性指称来确定(例如,由复制模块208)第二位置,其中根据确定第二位置来执行使得该图形元素与第二位置相关联。在一些示例中,确定第二位置包括:确定第二指向性指称指代显示位置(例如,图标330的显示位置);根据确定该显示位置对应于预定类型:将第二位置确定为对应于显示位置的第三位置(例如,由显示位置指定的文件位置);以及根据确定该显示位置与预定类型不对应:将第二位置确定为对应于显示位置的第四位置(例如,默认位置)。
在一些示例中,确定第二指向性指称指代显示位置包括:基于在与电子设备识别出第二指向性指称的时间相对应的时间处检测到的用户凝视输入来确定第二用户凝视指向显示位置。在一些示例中,检测第二用户手势输入。在一些示例中,确定第二指向性指称指代显示位置包括:确定第二用户手势输入对应于在第二时间对显示位置的选择,该第二时间对应于电子设备识别出第二指向性指称的时间。
在一些示例中,提供第二输出,该第二输出指示对第二指向性指称指代显示位置的用户确认的请求。在一些示例中,在提供第二输出之后,接收确认第二指向性指称指代显示位置的第二用户输入,其中根据接收到该第二用户输入来执行使得该图形元素与第二位置相关联。
在一些示例中,自然语言输入指定与第二位置相对应的应用程序。在一些示例中,第二位置是对应于应用程序的默认位置。
上文相对于图5所讨论的操作任选地由图2中描绘的部件(例如,由系统100和DA200)来实现。
在一些示例中,提供一种计算机可读存储介质(例如,非暂态计算机可读存储介质),该计算机可读存储介质存储供电子设备的一个或多个处理器执行的一个或多个程序,该一个或多个程序包括用于执行本文所述方法或过程中的任一者的指令。
在一些示例中,提供了一种电子设备,该电子设备包括用于执行本文所述的方法或过程中的任一者的装置。
在一些示例中,提供了一种电子设备,该电子设备包括处理单元,该处理单元被配置为执行本文所述的方法或过程中的任一者。
在一些示例中,提供了一种电子设备,该电子设备包括一个或多个处理器和存储用以由一个或多个处理器执行的一个或多个程序的存储器,该一个或多个程序包括用于执行本文所述的方法或过程中的任一者的指令。
如上所述,本技术的一个方面在于收集和使用得自各种来源的数据,以在各位置之间移动或复制项目。本公开预期,在一些实例中,这些所采集的数据可包括唯一地标识或可用于联系或定位特定人员的个人信息数据。此类个人信息数据可以包括人口统计数据、基于位置的数据、电话号码、电子邮件地址、推特ID、家庭地址、与用户的健康或健身水平有关的数据或记录(例如,生命体征测量、药物信息、锻炼信息)、出生日期或任何其他标识或个人信息。
本公开认识到在本发明技术中使用此类个人信息数据可用于使用户受益。例如,个人信息数据可用于高效地移动或复制项目。此外,本公开还预期个人信息数据有益于用户的其他用途。例如,健康和健身数据可用于向用户的总体健康状况提供见解,或者可用作使用技术来追求健康目标的个人的积极反馈。
本公开设想负责采集、分析、公开、传输、存储或其他使用此类个人信息数据的实体将遵守既定的隐私政策和/或隐私实践。具体地,此类实体应当实行并坚持使用被公认为满足或超出对维护个人信息数据的隐私性和安全性的行业或政府要求的隐私政策和实践。此类政策应该能被用户方便地访问,并应随着数据的采集和/或使用变化而被更新。来自用户的个人信息应当被收集用于实体的合法且合理的用途,并且不在这些合法使用之外共享或出售。此外,应在收到用户知情同意后进行此类采集/共享。另外,此类实体应考虑采取任何必要步骤,保卫和保障对此类个人信息数据的访问,并确保有权访问个人信息数据的其他人遵守其隐私政策和流程。另外,这种实体可使其本身经受第三方评估以证明其遵守广泛接受的隐私政策和实践。另外,应当调整政策和实践,以便采集和/或访问的特定类型的个人信息数据,并适用于包括管辖范围的具体考虑的适用法律和标准。例如,在美国,对某些健康数据的收集或获取可能受联邦和/或州法律的管辖,诸如健康保险流通和责任法案(HIPAA);而其他国家的健康数据可能受到其他法规和政策的约束并应相应处理。因此,在每个国家应为不同的个人数据类型保持不同的隐私实践。
不管前述情况如何,本公开还设想用户选择性地阻止使用或访问个人信息数据的示例。即本公开预期可提供硬件元件和/或软件元件,以防止或阻止对此类个人信息数据的访问。例如,在使用凝视数据移动或复制项目的情况下,本发明技术可被配置为在注册服务期间或之后任何时候允许用户选择“选择加入”或“选择退出”参与对个人信息数据的收集。又如,用户可以选择不提供另外用于移动或复制项目的凝视数据。再如,用户可选择限制凝视数据被保持的时间长度,或完全禁止收集凝视数据,例如用于任何目的。除了提供“选择加入”和“选择退出”选项外,本公开还设想提供与访问或使用个人信息相关的通知。例如,可在下载应用时向用户通知其个人信息数据将被访问,然后就在个人信息数据被应用访问之前再次提醒用户。
此外,本公开的目的是应管理和处理个人信息数据以最小化无意或未经授权访问或使用的风险。一旦不再需要数据,通过限制数据收集和删除数据可最小化风险。此外,并且当适用时,包括在某些健康相关应用程序中,数据去标识可用于保护用户的隐私。可在适当时通过移除特定标识符(例如,出生日期等)、控制所存储数据的量或特异性(例如,在城市级别而不是在地址级别收集位置数据)、控制数据如何被存储(例如,在用户之间聚合数据)、和/或其他方法来促进去标识。
因此,虽然本公开广泛地覆盖了使用个人信息数据来实现一个或多个各种所公开的示例,但本公开还设想各种示例也可在无需访问此类个人信息数据的情况下被实现。即,本发明技术的各种示例不会由于缺乏此类个人信息数据的全部或一部分而无法正常进行。例如,可通过基于非个人信息数据或绝对最低限度的个人信息(诸如,要移动或复制项目的位置、对系统可用的其他非个人信息或公开可用信息)来移动或复制项目。
Claims (53)
1.一种方法,包括:
在具有一个或多个处理器、存储器和显示器的电子设备处:
当在所述显示器上显示具有第一显示位置的图形元素时,
接收包括对所述图形元素的指向性指称的自然语言输入;
确定所述自然语言输入是否对应于移动或复制所述图形元素的用户意图;
根据确定所述自然语言输入对应于移动或复制所述图形元素的所述用户意图:
基于检测到的用户凝视输入来确定所述指向性指称指代所述图形元素;并且
根据确定所述指向性指称指代所述图形元素,在不同于所述第一显示位置的第二显示位置处显示所述图形元素。
2.根据权利要求1所述的方法,其中所述第一显示位置对应于第一目录并且所述第二显示位置对应于第二目录,并且其中在所述第二显示位置处显示所述图形元素包括将所述图形元素与所述第二目录相关联。
3.根据权利要求1至2中任一项所述的方法,其中所述第一显示位置对应于所述电子设备的第一应用程序并且所述第二显示位置对应于所述电子设备的不同的第二应用程序。
4.根据权利要求1至3中任一项所述的方法,其中确定所述指向性指称指代所述图形元素包括:
标识在接收到所述自然语言输入时所显示的第一组图形元素,其中:
所述第一组图形元素中的每个图形元素对应于相同的预定动作类型;并且
所述第一组图形元素包括所述图形元素;
基于用户交互数据来确定所述第一组图形元素中的每个图形元素的相应相关性分数;以及
根据确定所述图形元素的相关性分数是所述相应相关性分数中的最高相关性分数来确定所述指向性指称指代所述图形元素。
5.根据权利要求4所述的方法,还包括:
随时间推移降低所述相应相关性分数中的每个相关性分数。
6.根据权利要求1至5中任一项所述的方法,其中确定所述指向性指称指代所述图形元素包括:
基于所述用户凝视输入来确定用户凝视指向所述图形元素。
7.根据权利要求6所述的方法,还包括:
接收调用在所述电子设备上操作的数字助理的输入;以及
响应于接收到调用所述数字助理的所述输入,调用所述数字助理,其中响应于调用所述数字助理而检测所述用户凝视输入。
8.根据权利要求1至7中任一项所述的方法,还包括:
检测用户手势输入,其中确定所述指向性指称指代所述图形元素包括:
基于所述用户手势输入来确定所述指向性指称指代所述图形元素。
9.根据权利要求8所述的方法,其中基于所述用户手势输入来确定所述指向性指称指代所述图形元素是根据确定所述用户手势输入对应于在与所述电子设备识别出所述指向性指称的时间相对应的时间处对所述图形元素的选择来执行的。
10.根据权利要求1至9中任一项所述的方法,其中确定所述指向性指称指代所述图形元素包括确定与和所述图形元素相同类型的图形元素的用户交互的频率。
11.根据权利要求1至10中任一项所述的方法,其中确定所述指向性指称指代所述图形元素包括确定与所述图形元素的用户交互的新近度。
12.根据权利要求1至11中任一项所述的方法,还包括:
提供第一输出,所述第一输出指示对所述指向性指称指代所述图形元素的用户确认的请求;以及
在提供所述第一输出之后,接收确认所述指向性指称指代所述图形元素的第一用户输入,其中根据接收到所述第一用户输入来执行在所述第二显示位置处显示所述图形元素。
13.根据权利要求1至12中任一项所述的方法,其中所述自然语言输入包括对所述第二显示位置的第二指向性指称,所述方法还包括:
基于所述第二指向性指称来确定所述第二显示位置,其中根据确定所述第二显示位置来执行在所述第二显示位置处显示所述图形元素。
14.根据权利要求13所述的方法,其中确定所述第二显示位置包括:
基于在与所述电子设备识别出所述第二指向性指称的时间相对应的时间处检测到的用户凝视输入来确定第二用户凝视指向所述第二显示位置。
15.根据权利要求13至14中任一项所述的方法,还包括:
检测第二用户手势输入,其中确定所述第二显示位置包括确定所述第二用户手势输入对应于在第二时间对所述第二显示位置的选择,所述第二时间对应于所述电子设备识别出所述第二指向性指称的时间。
16.根据权利要求13至15中任一项所述的方法,还包括:
提供第二输出,所述第二输出指示对所述第二指向性指称指代所述第二显示位置的用户确认的请求;以及
在提供所述第二输出之后,接收确认所述第二指向性指称指代所述第二显示位置的第二用户输入,其中根据接收到所述第二用户输入来执行在所述第二显示位置处显示所述图形元素。
17.根据权利要求1至16中任一项所述的方法,其中:
所述自然语言输入指定与所述第二显示位置相对应的应用程序;
当接收到所述自然语言输入时,显示所述应用程序的用户界面;并且
所述第二显示位置对应于所述应用程序的所述用户界面。
18.根据权利要求1至17中任一项所述的方法,还包括:
根据确定所述指向性指称指代所述图形元素:
视觉地指示所述图形元素。
19.根据权利要求1至18中任一项所述的方法,其中:
在所述第二显示位置处显示所述图形元素包括:
根据确定所述指向性指称指代所述图形元素:
执行第一任务流以获得由所述图形元素表示的第一数据;以及
在执行所述第一任务流之后,使用所述第一数据和所述第二显示位置来执行第二任务流以在所述第二显示位置处显示所述图形元素。
20.一种电子设备,包括:
显示器;
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序存储在所述存储器中并且被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行以下操作的指令:
当在所述显示器上显示具有第一显示位置的图形元素时,
接收包括对所述图形元素的指向性指称的自然语言输入;
确定所述自然语言输入是否对应于移动或复制所述图形元素的用户意图;
根据确定所述自然语言输入对应于移动或复制所述图形元素的所述用户意图:
基于检测到的用户凝视输入来确定所述指向性指称指代所述图形元素;并且
根据确定所述指向性指称指代所述图形元素,在不同于所述第一显示位置的第二显示位置处显示所述图形元素。
21.一种存储一个或多个程序的非暂态计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由具有显示器的电子设备的一个或多个处理器执行时使得所述电子设备:
当在所述显示器上显示具有第一显示位置的图形元素时,接收包括对所述图形元素的指向性指称的自然语言输入;
确定所述自然语言输入是否对应于移动或复制所述图形元素的用户意图;
根据确定所述自然语言输入对应于移动或复制所述图形元素的所述用户意图:
基于检测到的用户凝视输入来确定所述指向性指称指代所述图形元素;并且
根据确定所述指向性指称指代所述图形元素,在不同于所述第一显示位置的第二显示位置处显示所述图形元素。
22.一种电子设备,包括用于执行以下操作的模块:
当在所述显示器上显示具有第一显示位置的图形元素时,接收包括对所述图形元素的指向性指称的自然语言输入;
确定所述自然语言输入是否对应于移动或复制所述图形元素的用户意图;
根据确定所述自然语言输入对应于移动或复制所述图形元素的所述用户意图:
基于检测到的用户凝视输入来确定所述指向性指称指代所述图形元素;并且
根据确定所述指向性指称指代所述图形元素,在不同于所述第一显示位置的第二显示位置处显示所述图形元素。
23.一种电子设备,包括:
显示器;
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序存储在所述存储器中并且被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行根据权利要求1至19中任一项所述的方法的指令。
24.一种存储一个或多个程序的非暂态计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由具有显示器的电子设备的一个或多个处理器执行时使得所述电子设备执行根据权利要求1至19中任一项所述的方法。
25.一种电子设备,包括:
用于执行根据权利要求1至19中任一项所述的方法的模块。
26.一种方法,包括:
在具有一个或多个处理器、存储器和显示器的电子设备处:
当在所述显示器上显示具有第一位置的图形元素时,接收包括对所述图形元素的指向性指称的自然语言输入;
确定所述自然语言输入是否对应于移动或复制所述图形元素的用户意图;
根据确定所述自然语言输入对应于移动或复制所述图形元素的所述用户意图:
基于检测到的用户凝视输入来确定所述指向性指称指代所述图形元素;并且
根据确定所述指向性指称指代所述图形元素,使得所述图形元素与不同于所述第一位置的第二位置相关联。
27.根据权利要求26所述的方法,其中所述第一位置对应于第一目录并且所述第二位置对应于第二目录,并且其中使得所述图形元素与所述第二位置相关联包括使得所述图形元素与所述第二目录相关联。
28.根据权利要求26至27中任一项所述的方法,其中所述第一位置对应于所述电子设备的第一应用程序并且所述第二位置对应于所述电子设备的不同的第二应用程序。
29.根据权利要求26至28中任一项所述的方法,其中确定所述指向性指称指代所述图形元素包括:
标识在接收到所述自然语言输入时所显示的第一组图形元素,其中:
所述第一组图形元素中的每个图形元素对应于相同的预定动作类型;并且
所述第一组图形元素包括所述图形元素;
基于用户交互数据来确定所述第一组图形元素中的每个图形元素的相应相关性分数;以及
根据确定所述图形元素的相关性分数是所述相应相关性分数中的最高相关性分数来确定所述指向性指称指代所述图形元素。
30.根据权利要求29所述的方法,还包括:
随时间推移降低所述相应相关性分数中的每个相关性分数。
31.根据权利要求26至30中任一项所述的方法,其中确定所述指向性指称指代所述图形元素包括:
基于所述用户凝视输入来确定用户凝视指向所述图形元素。
32.根据权利要求31所述的方法,还包括:
接收调用在所述电子设备上操作的数字助理的输入;以及
响应于接收到调用所述数字助理的所述输入,调用所述数字助理,其中响应于调用所述数字助理而检测所述用户凝视输入。
33.根据权利要求26至32中任一项所述的方法,还包括:
检测用户手势输入,其中确定所述指向性指称指代所述图形元素包括:
基于所述用户手势输入来确定所述指向性指称指代所述图形元素。
34.根据权利要求33所述的方法,其中基于所述用户手势输入来确定所述指向性指称指代所述图形元素是根据确定所述用户手势输入对应于在与所述电子设备识别出所述指向性指称的时间相对应的时间处对所述图形元素的选择来执行的。
35.根据权利要求26至34中任一项所述的方法,其中确定所述指向性指称指代所述图形元素包括确定与和所述图形元素相同类型的图形元素的用户交互的频率。
36.根据权利要求26至35中任一项所述的方法,其中确定所述指向性指称指代所述图形元素包括确定与所述图形元素的用户交互的新近度。
37.根据权利要求26至36中任一项所述的方法,还包括:
提供第一输出,所述第一输出指示对所述指向性指称指代所述图形元素的用户确认的请求;以及
在提供所述第一输出之后,接收确认所述指向性指称指代所述图形元素的第一用户输入,其中根据接收到所述第一用户输入来执行使得所述图形元素与所述第二位置相关联。
38.根据权利要求26至37中任一项所述的方法,其中所述自然语言输入包括对所述第二位置的第二指向性指称,所述方法还包括:
基于所述第二指向性指称来确定所述第二位置,其中根据确定所述第二位置来执行使得所述图形元素与所述第二位置相关联。
39.根据权利要求38所述的方法,其中确定所述第二位置包括:
确定所述第二指向性指称指代显示位置;
根据确定所述显示位置对应于预定类型:
将所述第二位置确定为对应于所述显示位置的第三位置;以及
根据确定所述显示位置与所述预定类型不对应:
将所述第二位置确定为对应于所述显示位置的第四位置。
40.根据权利要求39所述的方法,其中确定所述第二指向性指称指代所述显示位置包括:
基于在与所述电子设备识别出所述第二指向性指称的时间相对应的时间处检测到的用户凝视输入来确定第二用户凝视指向所述显示位置。
41.根据权利要求39至40中任一项所述的方法,还包括:
检测第二用户手势输入,其中确定所述第二指向性指称指代所述显示位置包括:确定所述第二用户手势输入对应于在第二时间对所述显示位置的选择,所述第二时间对应于所述电子设备识别出所述第二指向性指称的时间。
42.根据权利要求39至41中任一项所述的方法,还包括:
提供第二输出,所述第二输出指示对所述第二指向性指称指代所述显示位置的用户确认的请求;以及
在提供所述第二输出之后,接收确认所述第二指向性指称指代所述显示位置的第二用户输入,其中根据接收到所述第二用户输入来执行使得所述图形元素与所述第二位置相关联。
43.根据权利要求26至42中任一项所述的方法,其中:
所述自然语言输入指定与所述第二位置相对应的应用程序。
44.根据权利要求43所述的方法,其中所述第二位置是对应于所述应用程序的默认位置。
45.根据权利要求26至44中任一项所述的方法,还包括:
根据确定所述指向性指称指代所述图形元素:
视觉地指示所述图形元素。
46.根据权利要求26至45中任一项所述的方法,其中:
使得所述图形元素与所述第二位置相关联包括:
根据确定所述指向性指称指代所述图形元素:
执行第一任务流以获得由所述图形元素表示的第一数据;以及
在执行所述第一任务流之后,使用所述第一数据和所述第二位置来执行第二任务流以使得所述图形元素与所述第二位置相关联。
47.根据权利要求26至46中任一项所述的方法,其中当接收到所述自然语言输入时并且当所述图形元素与所述第二位置相关联时,不显示与所述第二位置相对应的用户界面。
48.一种电子设备,包括:
显示器;
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序存储在所述存储器中并且被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行以下操作的指令:
当在所述显示器上显示具有第一位置的图形元素时,接收包括对所述图形元素的指向性指称的自然语言输入;
确定所述自然语言输入是否对应于移动或复制所述图形元素的用户意图;
根据确定所述自然语言输入对应于移动或复制所述图形元素的所述用户意图:
基于检测到的用户凝视输入来确定所述指向性指称指代所述图形元素;并且
根据确定所述指向性指称指代所述图形元素,使得所述图形元素与不同于所述第一位置的第二位置相关联。
49.一种存储一个或多个程序的非暂态计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由具有显示器的电子设备的一个或多个处理器执行时使得所述电子设备:
当在所述显示器上显示具有第一位置的图形元素时,接收包括对所述图形元素的指向性指称的自然语言输入;
确定所述自然语言输入是否对应于移动或复制所述图形元素的用户意图;
根据确定所述自然语言输入对应于移动或复制所述图形元素的所述用户意图:
基于检测到的用户凝视输入来确定所述指向性指称指代所述图形元素;并且
根据确定所述指向性指称指代所述图形元素,使得所述图形元素与不同于所述第一位置的第二位置相关联。
50.一种电子设备,包括用于执行以下操作的模块:
当在所述显示器上显示具有第一位置的图形元素时,接收包括对所述图形元素的指向性指称的自然语言输入;
确定所述自然语言输入是否对应于移动或复制所述图形元素的用户意图;
根据确定所述自然语言输入对应于移动或复制所述图形元素的所述用户意图:
基于检测到的用户凝视输入来确定所述指向性指称指代所述图形元素;并且
根据确定所述指向性指称指代所述图形元素,使得所述图形元素与不同于所述第一位置的第二位置相关联。
51.一种电子设备,包括:
显示器;
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序存储在所述存储器中并且被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行根据权利要求26至47中任一项所述的方法的指令。
52.一种存储一个或多个程序的非暂态计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由具有显示器的电子设备的一个或多个处理器执行时使得所述电子设备执行根据权利要求26至47中任一项所述的方法。
53.一种电子设备,包括:
用于执行根据权利要求26至47中任一项所述的方法的模块。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US63/245,071 | 2021-09-16 | ||
US17/942,496 | 2022-09-12 | ||
US17/942,496 US20230081605A1 (en) | 2021-09-16 | 2022-09-12 | Digital assistant for moving and copying graphical elements |
PCT/US2022/043591 WO2023043877A1 (en) | 2021-09-16 | 2022-09-15 | Digital assistant for moving and copying graphical elements |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117957512A true CN117957512A (zh) | 2024-04-30 |
Family
ID=90800407
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202280062711.4A Pending CN117957512A (zh) | 2021-09-16 | 2022-09-15 | 用于移动和复制图形元素的数字助理 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117957512A (zh) |
-
2022
- 2022-09-15 CN CN202280062711.4A patent/CN117957512A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113711175B (zh) | 控制显示器 | |
CN110954083B (zh) | 移动设备的定位 | |
US20230081605A1 (en) | Digital assistant for moving and copying graphical elements | |
CN113785260A (zh) | 控制计算机生成现实环境中的虚拟对象的表示 | |
CN111448542B (zh) | 显示应用程序 | |
CN112136096B (zh) | 将物理输入设备显示为虚拟对象 | |
CN113728301B (zh) | 用于在2d屏幕上操纵3d对象的设备、方法和图形用户界面 | |
US20230092282A1 (en) | Methods for moving objects in a three-dimensional environment | |
US11854242B2 (en) | Systems and methods for providing personalized saliency models | |
US20230102820A1 (en) | Parallel renderers for electronic devices | |
CN113661477B (zh) | 管理具有加法显示器的设备 | |
US20230401795A1 (en) | Extended reality based digital assistant interactions | |
JP6367953B2 (ja) | ビューの視覚表現のディスプレイ | |
US20230343049A1 (en) | Obstructed objects in a three-dimensional environment | |
CN117957512A (zh) | 用于移动和复制图形元素的数字助理 | |
CN116686044A (zh) | 针对上下文数据选择性地使用传感器 | |
US20240248678A1 (en) | Digital assistant placement in extended reality | |
WO2023043877A1 (en) | Digital assistant for moving and copying graphical elements | |
CN118394248A (zh) | 扩展现实中的数字助理放置 | |
US20230334765A1 (en) | Techniques for resizing virtual objects | |
US20230206572A1 (en) | Methods for sharing content and interacting with physical devices in a three-dimensional environment | |
US11361473B1 (en) | Including a physical object based on context | |
US12052430B2 (en) | Energy efficient context relevant processing for content | |
US20240104871A1 (en) | User interfaces for capturing media and manipulating virtual objects | |
US12027166B2 (en) | Digital assistant reference resolution |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |