CN111684438A - 选择用于在助理设备的显示器上渲染的内容 - Google Patents
选择用于在助理设备的显示器上渲染的内容 Download PDFInfo
- Publication number
- CN111684438A CN111684438A CN201980011938.4A CN201980011938A CN111684438A CN 111684438 A CN111684438 A CN 111684438A CN 201980011938 A CN201980011938 A CN 201980011938A CN 111684438 A CN111684438 A CN 111684438A
- Authority
- CN
- China
- Prior art keywords
- data items
- user
- display
- multimodal
- assistant
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000009877 rendering Methods 0.000 title claims description 10
- 238000000034 method Methods 0.000 claims abstract description 51
- 230000004044 response Effects 0.000 claims description 27
- 230000009471 action Effects 0.000 claims description 13
- 230000015654 memory Effects 0.000 claims description 11
- 230000002452 interceptive effect Effects 0.000 claims description 10
- 230000003993 interaction Effects 0.000 claims description 7
- 230000001755 vocal effect Effects 0.000 claims description 7
- 238000001514 detection method Methods 0.000 abstract description 4
- 230000000694 effects Effects 0.000 description 16
- 230000007704 transition Effects 0.000 description 15
- 241001077868 Joanna Species 0.000 description 11
- 238000004891 communication Methods 0.000 description 8
- 229920000582 polyisocyanurate Polymers 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 239000000463 material Substances 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 5
- 230000000007 visual effect Effects 0.000 description 5
- 235000013550 pizza Nutrition 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000013475 authorization Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 235000013305 food Nutrition 0.000 description 2
- 239000004615 ingredient Substances 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000010079 rubber tapping Methods 0.000 description 2
- 230000008685 targeting Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 240000005561 Musa balbisiana Species 0.000 description 1
- 235000018290 Musa x paradisiaca Nutrition 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 235000012054 meals Nutrition 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
- G06F16/24578—Query processing with adaptation to user needs using ranking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
- G06F1/32—Means for saving power
- G06F1/3203—Power management, i.e. event-based initiation of a power-saving mode
- G06F1/3206—Monitoring of events, devices or parameters that trigger a change in power modality
- G06F1/3231—Monitoring the presence, absence or movement of users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
- G06F16/24575—Query processing with adaptation to user needs using context
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/44—Program or device authentication
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/451—Execution arrangements for user interfaces
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
描述了与选择用于使用独立的多模式助理设备显示的内容有关的技术。在各种实施方式中,可以将未识别用户检测为与配备有显示器的独立的多模式助理设备同在。在各种实施方式中,基于该检测,目标为一个或多个注册用户的多个数据项可以被获取。一个或多个注册用户可以具有至少部分在独立的多模式助理设备上操作的自动助理可访问的账户。多个数据项可以基于注册用户的账户来获取。多个数据项可以基于诸如注册用户相关和非注册用户相关的优先级的各种信号来排名。指示所排名的多个数据项的图形信息可以在显示器上被渲染。
Description
背景技术
人们可以参与和本文称为“自动助理”(也称为“聊天机器人”、“交互式个人助理”、“智能个人助理”、“个人语音助理”、“会话代理”等)的交互式软件应用的人机对话。例如,人类(当他们与自动助理交互时可以被称为“用户”,或者在会议的场境中,被称为“参与者”)可以使用自由形式的自然语言输入来提供命令、查询和/或请求(在本文中统称为“查询”),所述自由形式的自然语言输入可以是转换成文本并且然后进行处理的口头话语和/或通过键入的自由形式的自然语言输入。
为用户提供与自动助理进行口头接涉的能力的独立语音响应扬声器在家庭和企业中变得越来越普遍。这些设备通常包括很少的硬件输入机制,除了静音按钮、用于调节音量的触敏界面等之外。这些扬声器的目标是允许用户轻松地与自动助理进行口头接涉,而无需用户与用户诸如键盘或鼠标的接口元素进行物理交互,以执行各种任务,诸如播放音乐、设置提醒、执行搜索(例如,获取特定信息)、请求天气报告、设置计时器、控制智能家居设备(例如,灯、恒温器、锁等)、设置警报、创建列表(例如,购物列表)、订购商品和/或服务等。在许多方面,独立的语音响应扬声器通常非常类似于人类个人助理来起作用。
传统的独立的语音响应扬声器通常缺乏成熟的显示器。它们最多倾向于包括相对简单的能够利用基本的颜色和/或动画来传达简单的消息的视觉输出机制,诸如发光二极管等。下一代独立的语音响应扬声器可以包括更稳健的视觉输出机制,诸如显示器或者甚至触摸屏显示器。与独立的语音响应扬声器相反,这些设备在本文中将被称为“独立的多模式助理设备”。与常规的独立交互式扬声器一样,独立的多模式助理设备可以设计为进行口头交互,并且通常不包括键盘、鼠标或其他复杂的物理输入组件。但是,其一些可能包括触摸屏。
为了与独立语音响应扬声器——类似于提供一般辅助的人类个人助理——所服务的典型功能保持一致,当在独立的多模式助理设备的显示器中充满内容时应格外小心。例如,一些独立的多模式设备可以响应于检测到附近的未识别人员而激活显示器。在识别同在(co-present)的人员之前(例如,使用语音辨识),可能不清楚哪些内容——可以包括以一个或多个特定注册用户为目标或以其它方式由一个或多个特定注册用户控制的内容(以下称为“目标内容”)——应该呈现在显示器上。并且在显示目标内容之后,然后该人员可以被识别。这出现是否应继续显示以其他注册用户为目标的内容、或者该显示器是否应限于以所识别的人员为目标的内容的问题。在一些情况下,该人员可以在被识别之前与内容进行交互,例如,通过将其滑开(即,将其解除)。这出现被解除的内容是否应该继续呈现给其他人、他们是否未被识别或者被识别为不同用户的问题。
发明内容
本文描述了用于选择要使用独立的多模式助理设备来显示的内容的技术。在各种实施方式中,响应于检测到附近的人员,独立的多模式助理设备可以激活其显示器,例如,将显示器从非活动状态(例如,睡眠)转变到活动状态。独立的多模式助理设备可以使用各种技术来检测附近的人员,所述各种技术诸如相机、麦克风、被动红外(“PIR”)传感器、人员携带的设备(例如,移动电话、智能手表)发射的信号等。
在激活时可以在显示器上渲染各种内容。在一些实施方式中,可以渲染不以特定用户为目标的一般内容,诸如天气预报、一般新闻、交通报告(当未为特定用户的排程旅行路线选择时)等。附加地或可替选地,在一些实施方式中,一个或多个用户可以具有向自动助理注册的账户(例如,在线简档),该自动助理至少部分地在独立的多模式助理设备上操作。借助于此注册,自动助理可以访问以各个注册用户为目标的内容,诸如在注册用户控制下的内容。可以包括一个或多个不同数据项的此目标内容可以呈现在显示器上,例如,类似于自动助理可以如何使用自然语言输出可听见地向注册用户呈现此内容。以这种方式,可以呈现内容而无需与设备进行额外的用户交互,从而减少解释和响应于这种交互的计算负载,以及改善访问内容的速度和效率。
无论是通用还是以特定注册用户为目标的数据项,都可以各种方式显示。在一些实施方式中,数据项可以由诸如与智能电话、平板电脑、智能手表等上渲染的那些类似的“卡”或“图块”的图形元素来表示。一些卡/图块可以是交互式的,例如,以启动可用于修改与卡/图块相关联的数据项的软件界面、以获取其他信息、将卡/图块标记为高度重要等。另外或者可替选地,卡/图块可以被解除,例如,通过在显示器(可能是触摸屏)上被滑开。在一些实施方式中,可以通过将一个卡/图块滑动到另一个上来将多个卡/图块组合成例如图形“箱(bin)”。数据项也可以通过其他方式视觉地呈现,诸如使用弹出窗口、“贴标样式(ticker-style)”读取器(例如,在显示器的顶部或底部)等。
当独立的多模式助理设备的显示器最初被激活时,在许多情况下,可能尚不知道哪个注册用户与设备同在,或者甚至同在的人员是否是注册用户。因此,在一些实施方式中,仅通用数据项(先前描述)可以被呈现为图形元素,例如,以保护注册用户的隐私。但是,在家庭或企业场景中,个别用户的隐私可能不那么重要,并且在一些情况下,甚至可能希望注册用户看到以其他注册用户为目标的内容(例如,一个家庭成员知道其他家庭成员正在开会)。因此,在一些实施方式中,例如,可以从与注册用户的账户相关联的在线资源中获取目标为多个注册用户的多个数据项,并在显示器上渲染为图形元素。在一些实施方式中,可以与表示通用数据项的图形元素组合来渲染表示这些所目标数据项的图形元素。在其他实施方式中,表示目标数据项的图形元素可以单独地渲染。
在一些实施方式中,可以在将目标和/或通用数据项显示为图形元素之前对其进行排名。可以基于各种标准,诸如指配给数据项的优先级,对数据项进行排名。在各种实施方式中,数据项可以是例如通过注册用户手动地或者例如基于与数据项相关联的数据和/或时间来自动地指配优先级。例如,与明天发生的第一即将到来的事件相关联的数据项可以被指配比与一周中发生的第二即将到来的事件相关联的另一数据项更高的优先级。
在一些实施方式中,优先级可以是注册用户相关的或非注册用户相关的。当已知与独立的多模式助理设备交互的人员的身份时,注册用户相关优先级可能会对排名的数据项,特别地目标数据项产生更大的影响。当未识别与独立的多模式助理设备同在的人员时,排他地基于与数据项相关联的即将到来的数据来被指配给数据项的这样的优先级可能会重大影响排名。
例如,假设在独立的多模式助理设备附近检测到注册用户。进一步假设独立的多模式助理设备能够立即或相对快速地识别注册用户。例如,这可能发生,因为从他们说出自动助理的调用短语检测到注册用户的存在(例如,当他们走进房间时),或者因为注册用户的手机发射用来检测他们的存在并识别他们的信号。
在这种情况下,独立的多模式助理设备通过至少部分在其上操作的自动助理的方式在激活其显示器时知道注册用户的身份。这意味着独立的多模式助理设备可以立即基于存在特定注册用户的事实对目标数据项进行排序。因此,特定以注册用户为目标的数据项比如说与通用数据项和/或以不同注册用户为目标的数据项相比可以被排序更高。
现在,假设注册用户滑开表示通用数据项或以不同注册用户为目标的数据项的图形元素。如果相同的注册用户要离开并且然后稍后返回进行第二会话(并由独立的多模式助理设备识别),则表示数据项的图形元素可以再次渲染在显示器上。然而,在此第二会话期间,因为注册用户先前指示不感兴趣,所以滑开的数据项可能不会与其他图形元素一起在显示器上渲染为图形元素。
假设滑开的数据项以不同的第二注册用户(例如,第一注册用户是丈夫而第二注册用户是妻子)为目标。进一步假设在第一注册用户滑开目标为第二注册用户的数据项之后一些时间,第二注册用户被识别为与独立的多模式助理设备同在。在一些实施方式中,可以将表示滑开的数据项的图形元素呈现给第二注册用户,即使第一注册用户先前解除它,因为该数据项目标为第二用户。通常,此功能性消除或减少注册用户因为其他的用户将专门以所述注册用户为目标的内容滑开将会错过所述内容的机会。例如,在其中未识别的人员滑开表示以特定注册用户为目标的数据项的图形元素的类似的情况下,如果特定注册用户稍后被识别为与独立的多模式助理设备同在,则滑开的内容可能会再次呈现。
这些示例用例并不意味着是限制性的。本文将描述许多其他用例。
在一些实施方式中,提供了一种由一个或多个处理器执行的方法,该方法包括:检测到未识别的用户与独立的多模式助理设备同在,其中独立的多模式助理设备配备有显示器;并且基于检测:获取目标为一个或多个注册用户的多个数据项,其中一个或多个注册用户具有至少部分在独立的多模式助理设备上操作的自动助理可访问的账户,并且其中基于注册用户的账户来获取多个数据项;基于与多个数据项相关联的优先级来对多个数据项进行排序,其中优先级与一个或多个注册用户无关;以及在显示器上渲染指示排序的多个数据项的图形信息。
本文公开的技术的这些和其他实施方式可以可选地包括以下特征中的一个或多个。
在各种实施方式中,该方法可以进一步包括基于该检测将显示器从非活动状态转变成活动状态。在各种实施方式中,检测包括从未识别用户接收自然语言输入。在各种实施方式中,检测可以包括从存在传感器接收信号。在各种实施方式中,存在传感器可以包括相机、麦克风和被动红外传感器中的一个或多个。
在各种实施方式中,该方法可以进一步包括:确定未识别用户的身份;和基于身份对获取的数据项进一步排序。在各种实施方式中,与和一个或多个注册用户无关的优先级相比,所确定的用户的身份可能对所获取的数据项如何排序具有更大的影响。
在各种实施方式中,指示排序的多个数据项的信息可以包括多个图形元素,每个图形元素表示多个数据项中的相应数据项。在各种实施方式中,显示器可以包括触摸屏,并且多个图形元素中的一个或多个是交互式的。
在另一方面,一种方法可以包括:检测人员与独立的多模式助理设备同在,其中,独立的多模式助理设备配备有显示器;将该人员识别为多个注册用户中的给定的注册用户,所述多个注册用户具有至少部分在独立的多模式助理设备上操作的自动助理可访问的账户;基于检测和识别,获取目标为多个注册用户的多个数据项,其中,基于注册用户的账户来获取所述多个数据项;基于给定的注册用户的身份对多个数据项进行排序;以及在显示器上渲染指示排序的多个数据项的信息。
在各种实施方式中,指示排序的多个数据项的信息可以包括多个图形元素,每个图形元素表示多个数据项中的相应数据项。在各种实施方式中,多个图形元素可以包括多个图形卡或图块。
在各种实施方式中,该方法可以进一步包括:从给定的注册用户接收输入,其中该输入对多个图形元素中的给定图形元素采取行动,并且其中该给定的图形元素与排序的多个数据项中的以多个注册用户中的不同注册用户为目标的数据项相关联;基于输入,从显示器中移除给定的图形元素;随后检测到另一人员与独立的多模式助理设备同在;将另一人员识别为另不同注册用户;以及在显示器上渲染给定的图形元素。
在各种实施方式中,指示排序的多个数据项的信息可以包括指示由给定的注册用户利用自动助理发起的未完成的任务的图形元素。在各种实施方式中,图形元素可以是可选择以经由与自动助理的口头接涉来发起任务的完成。在各种实施方式中,图形元素可以是可选择以经由与在显示器上渲染的图形用户界面的交互来发起任务的完成。
另外,一些实施方式包括一个或多个计算设备的一个或多个处理器,其中一个或多个处理器可操作以执行存储在相关联的存储器中的指令,并且其中所述指令被配置成使执行前述方法的任一个。一些实施方式还包括一个或多个非暂时性计算机可读存储介质,其存储可由一个或多个处理器执行以执行前述方法中的任一个的计算机指令。
应理解,本文更详细描述的前述概念和附加概念的所有组合都被认为是本文公开的主题的一部分。例如,出现在本公开结尾处的所要求保护的主题的所有组合被认为是本文公开的主题的一部分。
附图说明
图1是其中可以实现本文公开的实施方式的示例环境的框图。
图2描绘可以根据各种实施方式来实现的示例状态机。
图3、图4、图5和图6描绘根据各种实施方式可以如何在各种场景中采用本文所述技术的示例。
图7描绘图示根据本文公开的实施方式的示例方法的流程图。
图8图示计算设备的示例架构。
具体实施方式
现在转到图1,图示其中可以实现本文公开的技术的示例环境。示例环境包括一个或多个客户端计算设备1061-N。每个客户端设备106可以执行自动助理客户端118的相应实例。可以在经由在110处通常指示的一个或多个局域网和/或广域网(例如,互联网)通信耦合到客户端设备1061-N的一个或多个计算系统(统称为“云”计算系统)上实现一个或多个基于云的自动助理组件119,诸如自然语言处理器122。
自动助理客户端118的实例通过其与一个或多个基于云的自动助理组件119的交互可以形成从用户的角度来看显现为自动助理120的逻辑实例的事物,用户可以在人机对话中与所述自动助理120的逻辑实例接涉。在图1中描绘这种自动助理120的两个实例。被虚线包围的第一自动助理120A服务于操作第一客户端设备1061的第一用户(未被描述),并且包括自动助理客户端1181和一个或多个基于云的自动助理组件119。由点划线包围的第二自动助理120B服务于操作另一客户端设备106N的第二用户(未被描述),并且包括自动助理客户端118N和一个或多个基于云的自动助理组件119。因此,应理解,在一些实施方式中,与在客户端设备106上执行的自动助理客户端118接涉的每个用户实际上可以与自动助理120的他或她自己的逻辑实例接涉。为了简洁和简单起见,本文中用作“服务”特定用户的术语“自动助理”指的是在由用户操作的客户端设备106上执行的自动助理客户端118和(可以在多个自动助理客户端118当中共享的)一个或多个基于云的自动助理组件119的组合。还应理解,在一些实施方式中,自动助理120可以响应于来自任何用户的请求,不管自动助理120的该特定实例是否实际上“服务”该用户。
客户端设备1061-N可以包括例如下述中的一个或多个:台式计算设备、膝上型计算设备、平板计算设备、移动电话计算设备、用户的车辆的计算设备(例如,车载通信系统、车载娱乐系统、车载导航系统)、独立的语音响应扬声器、独立的多模式助理设备、诸如智能电视的智能电器和/或包括计算设备的用户的可穿戴装置(例如,具有计算设备的用户的手表、具有计算设备的用户的眼镜、虚拟或增强现实计算设备)。可以提供附加的和/或替代的客户端计算设备。
为了本公开的目的,在图1中,第一客户端设备1061是包括扬声器1091的独立的语音响应扬声器,自动助理120A可以通过扬声器1091提供自然语言输出。如上所述,第一客户端设备1061可以仅包括诸如音量和/或静音组件的基本的硬件输入组件,并且不包括诸如键盘或鼠标的更复杂的硬件输入组件。第二客户端设备106N采取具有扬声器109N和显示器111N的独立的多模式助理设备的形式,并且还可能缺乏复杂的物理输入组件(除了显示器111在一些实施方式中是触摸屏之外)。尽管本文描述的技术将在使用诸如106N的独立的多模式助理设备执行的背景下进行描述,但是这并不意味着是限制性的。本文描述的技术可以在具有其他形状因数(但仍缺乏标准键盘和鼠标)的客户端设备上实现,诸如旨在主要经由语音交换与之交互的车辆计算设备。
如本文中更详细描述的,自动助理120经由一个或多个客户端设备1061-N的用户接口输入和输出设备参与与一个或多个用户的人机对话会话。在诸如客户端设备106N的独立的多模式助理设备的情况下,这些输入设备可能限于麦克风(未被描述)和显示器111(在其中显示器111为触摸屏的实施方式中)以及可以被用于检测附近人员的存在的其他被动传感器(例如,PIR、相机)。在一些实施方式中,响应于用户经由客户端设备1061-N之一的一个或多个用户接口输入设备提供的用户接口输入,自动助理120可以参与与用户的人机对话会话。在那些实施方式中的一些中,用户接口输入被明确地指向自动助理120。例如,特定用户接口输入可以是利用硬件按钮和/或虚拟按钮(例如,轻击、长按)、口语命令(例如,“HeyAutomated Assistant(嘿,自动助理)”)和/或其他特定的用户接口输入的用户交互。
在一些实施方式中,自动助理120可以进行交互式语音响应(“IVR”),使得用户可以说出命令、搜索等,并且自动助理可以利用自然语言处理和/或一种或多种语法以将话语转换成文本,并相应地对文本做出响应。在一些实施方式中,自动助理120可以另外或可替选地对话语做出响应而无需将话语转换成文本。例如,自动助理120可以将语音输入转换成嵌入,转换成实体表示(指示语音输入中存在的一个实体/多个实体)和/或其他“非文本”表示,并且对这样的非文本表示进行操作。因此,本文描述为基于从语音输入转换的文本进行操作的实施方式可以另外和/或可替选地直接对语音输入和/或语音输入的其他非文本表示进行操作。
每个客户端计算设备1061-N和操作基于云的自动助理组件119的计算设备可以包括一个或多个用于存储数据和软件应用的存储器、一个或多个用于访问数据并执行应用的处理器以及有助于通过网络进行通信的其他组件。由一个或多个客户端计算设备1061-N和/或由自动助理120执行的操作可以分布在多个计算机系统上。自动助理120可以被实现为,例如,在通过网络彼此耦合的一个或多个位置中的一个或多个计算机上运行的计算机程序。
如上所述,在各种实施方式中,每个客户端计算设备1061-N可以操作自动助理客户端118。在各种实施方式中,每个自动助理客户端118可以包括对应的话音捕获/文本到话音转换(“TTS”)/STT模块114。在其他实施方式中,话音捕获/TTS/STT模块114的一个或多个方面可以与自动助理客户端118分离而被实现。
每个话音捕获/TTS/STT模块114可以被配置成执行一个或多个功能:例如,经由麦克风(在某些情况下可以包括存在传感器105)捕获用户的话音;将捕获到的音频转换成文本(和/或其他表示或嵌入);并且/或者将文本转换成话音。例如,在一些实施方式中,由于客户端设备106可能在计算资源(例如,处理器周期、存储器、电池等)方面受到相对约束,所以对于每个客户端设备106而言是本地的话音捕获/TTS/STT模块114可以被配置成将有限数量的不同说话短语——特别是调用自动助理120的短语——转换成文本(或其他形式,诸如较低维度的嵌入)。可以将其他话音输入发送到基于云的自动助理组件119,该组件可以包括基于云的TTS模块116和/或基于云的STT模块117。
基于云的STT模块117可以被配置成利用云的几乎无限的资源以将话音捕获/TTS/STT模块114捕获到的音频数据转换成文本(然后可以将其提供给自然语言处理器122)。基于云的TTS模块116可被配置成利用云的几乎无限的资源以将文本数据(例如,由自动助理120制定的自然语言响应)转换成计算机生成的话音输出。在一些实施方式中,TTS模块116可以将计算机生成的话音输出提供给客户端设备106以,例如使用一个或多个扬声器被直接输出。在其他实施方式中,由自动助理120生成的文本数据(例如,自然语言响应)可以被提供给话音捕获/TTS/STT模块114,然后其可以将文本数据转换成本地输出的计算机生成的话音。
自动助理120(并且特别地,基于云的自动助理组件119)可以包括自然语言处理器122、前述的TTS模块116、前述的STT模块117、对话状态跟踪器124、对话管理器126和自然语言生成器128(在一些实施方式中可以与TTS模块116组合)以及与本公开特别相关的内容显示引擎130。在一些实施方式中,自动助理120的一个或多个引擎和/或者模块可以在与自动助理120分离的组件中被省略、组合和/或实现。
在一些实施方式中,自动助理120响应于在与自动助理120的人机对话会话期间由客户端设备1061-N之一的用户生成的各种输入来生成响应内容。自动助理120可以(例如,当与用户的客户端设备分离时通过一个或多个网络)提供响应内容,以作为对话会话的一部分呈现给用户。例如,自动助理120可以响应于经由客户端设备1061-N之一提供的自由形式自然语言输入而生成响应内容。如本文所使用的,自由形式输入是由用户制定的并且不被约束为呈现给用户进行选择的选项组的输入。
如本文中所使用的,“对话会话”可以包括用户与自动助理120之间的一个或多个消息的逻辑上子包含的交换和/或自动助理120执行一个或多个响应动作。自动助理120可以基于各种信号在与用户的多个对话会话之间进行区分,所述信号诸如会话之间的时间流逝、会话之间的用户场境的更改(例如,位置,在排程会议之前/期间/之后等等)、检测除了用户与自动助理之间的对话之外的用户与客户端设备之间的一个或多个干预交互(例如,用户暂时切换应用、用户走远然后稍后再返回到独立的语音响应扬声器或者独立的多模式助理设备)、会话之间客户端设备的锁定/睡眠、用于与自动助理120的一个或多个实例交互的客户端设备的更改等。
自动助理120的自然语言处理器122(可替选地被称为“自然语言理解引擎”)处理用户经由客户端设备1061-N生成的自由形式自然语言输入,并且在一些实施方式中可以生成注释输出以供自动助理120的一个或多个其他组件使用。例如,自然语言处理器122可以处理用户经由客户端设备1061的一个或多个用户接口输入设备生成的自然语言自由形式输入。所生成的注释输出可以包括自然语言输入的一个或多个注释并且可选地包括自然语言输入的词项中的一个或多个(例如,全部)。
在一些实施方式中,自然语言处理器122被配置成识别和注释自然语言输入中的各种类型的语法信息。例如,自然语言处理器122可以包括词性标注器(未被描述),该词性标注器被配置成用其语法角色来注释词项。例如,词性标注器可以用诸如“名词”、“动词”、“形容词”、“代词”等的每个词项的词性来标记该词项。此外,例如,在一些实施方式中,自然语言处理器122可以附加地和/或可替选地包括被配置成确定自然语言输入中的词项之间的句法关系的依存解析器(未被描述)。例如,依存解析器可以确定哪些词项修饰其他词项、句子的主语和动词等等(例如,解析树)——并且可以对这种依存进行注释。
在一些实施方式中,自然语言处理器122可以附加地和/或可替选地包括实体标注器(未被描述),该实体标注器被配置成在一个或多个段落中注释实体指涉,诸如对人的指涉(包括,例如文学人物、名人、公众人物等)、组织、位置(真实的和虚构的)等等。在一些实施方式中,关于实体的数据可以存储在一个或多个数据库中,诸如知识图(未被描述)中。在一些实施方式中,知识图可以包括表示已知实体(在某些情况下,还实体属性)的节点,以及连接节点并表示实体之间关系的边。例如,“banana(香蕉)”节点可以(例如,作为孩子)被连接到“fruit(水果)”节点,其继而可以(例如,作为孩子)被连接到“produce(产品)”和/或“food(食物)”节点。作为另一个示例,称为“Hypothetical Café(假想咖啡厅)”的餐厅可以由节点表示,其还包括诸如其地址、所供应食物的类型、营业时间、联系信息等属性。在一个实施方式中,该“Hypothetical Café”节点可以通过边(例如,表示孩子到父母的关系)连接到一个或多个其他节点,诸如“restaurant(餐厅)”节点、“business(商业)”节点、表示餐厅所在城市和/或州的节点等等。
自然语言处理器122的实体标注器可以以较高的粒度级别(例如,使能够识别对诸如人的实体类别的所有指涉)和/或较低的粒度级别(例如,使能够识别对诸如特定人员的特定实体的所有指涉)注释对实体的指涉。实体标注器可以依赖于自然语言输入的内容来消解(resolve)特定实体和/或可以可选地与知识图或其他实体数据库进行通信以消解特定实体。
在一些实施方式中,自然语言处理器122可以附加地和/或可替选地包括被配置成基于一个或多个上下文线索来将对同一实体的指涉进行分组或“聚类”的共指消解器(未被描述)。例如,可以利用共指消解器以将自然语言输入“I liked Hypothetical Cafélasttime we ate there.(我喜欢上次在那里用餐的假想咖啡厅)”中的词项“there(那里)”消解为“Hypothetical Café假想咖啡厅”。
在一些实施方式中,自然语言处理器122的一个或多个组件可以依赖于来自于自然语言处理器122的一个或多个其他组件的注释。例如,在一些实施方式中,在注释对特定实体的所有提及时,所指名的实体标注器可以依赖于来自于共指消解器和/或依存解析器的注释。同样,例如,在一些实施方式中,在将对同一实体的指涉聚类时,共指消解器可能依赖于来自依存解析器的注释。在一些实施方式中,在处理特定自然语言输入时,自然语言处理器122的一个或多个组件可以使用相关的先前输入和/或特定自然语言输入之外的其他相关数据以确定一个或多个注释。
在一些实施方式中,对话状态跟踪器124可以被配置成保持跟踪“对话状态”,该“对话状态”包括例如在人机对话会话的过程中、跨多个对话会话和/或在会议对话会话期间一个或多个用户目标(或“意图”)的信念状态。在确定对话状态时,一些对话状态跟踪器可能试图基于对话会话中的用户和系统话语来确定在对话中实例化的槽的最可能的值。一些技术利用固定的本体(ontology),该本体定义槽集合以及与那些槽相关联的值集合。附加地或可替选地,可以对各个槽和/或域定制一些技术。例如,某些技术可能需要针对每个域中的每种槽类型训练模型。
对话管理器126可以被配置成将例如由对话状态跟踪器124提供的当前对话状态映射到随后由自动助理120执行的多个候选响应动作中的一个或多个“响应动作”。取决于当前对话状态,响应动作可能以多种形式出现。例如,与在对话会话的最后一个回合(例如,当执行最终用户期望的任务时)之前发生的回合相对应的初始和中途对话状态可以被映射到包括自动助理120输出附加自然语言对话的各种响应动作。此响应对话可以包括例如用户针对对话状态跟踪器124认为用户打算执行的某些动作(即,填充槽)提供参数的请求。在一些实施方式中,响应动作可以包括诸如“请求”(例如,寻找用于槽填充的参数)、“提供”(例如,为用户建议动作或动作过程)、“选择”、“通知”(例如,向用户提供所请求的信息)、“不匹配”(例如,告知用户该用户的最后输入不被理解)等等的动作。
在各种实施方式中,内容显示引擎130可以被配置成选择用以使用诸如独立的多模式助理设备106N的配备有显示器111的客户端设备106来渲染的内容。内容显示引擎130可以选择通用内容和在本文称为“目标内容”中的一个或两个用于显示。通用内容可以包括图形元素(例如,文本、图块、动画、卡等),其表示以特定人员为目标的数据项。它可能包括如天气相关信息、一般新闻报道、笑话、琐事项等的事情。
相反,目标内容是指向一个或多个特定的人。例如,在图1中,用户账户引擎132可以被配置成向自动助理120提供对由一个或多个所谓的“注册用户”控制的内容的访问,该内容例如存储在用户简档索引134中或其他地方。注册用户可以具有例如存储在索引134中的在线简档,该在线简档包括与注册用户的控制相关联和/或以其它方式在注册用户的控制下的信息。这可以包括各种各样的信息,诸如注册用户的在线日历、注册用户的电子邮件、注册用户的社交媒体账户和/或活动、注册用户的文本消息、注册用户的偏好、注册用户的兴趣、由注册用户创建和/或至少部分控制的文档、可由注册用户控制的智能电器(例如,灯、锁、恒温器)、与注册用户关联的任务/提醒、注册用户可访问的媒体库、指示注册用户与自动助理120之间过去对话会话的数据(例如,转录、讨论的主题、对话上下文等)、注册用户的当前和/或过去位置(例如,由注册用户操作的一个或多个设备的位置坐标传感器生成)等等。并不是所有与注册用户相关联的信息都需要存储在索引134中;此信息可以附加地或可替选地存储在其他地方。用户的账户可以被“注册”,因为其向自动助理120“注册”,使得自动助理120能够访问用户控制的资源。
在各种实施方式中,内容显示引擎130可以被配置成访问(例如,从其拉取,推送)与注册用户的账户相关联(即,与他们的在线简档相关联)的信息。例如,内容显示引擎130可以从注册用户的在线日历中获取诸如即将发生的事件的数据项、来自注册用户的提醒列表的提醒、注册用户的购物列表、注册用户过去的媒体消费(例如,收听的歌曲、观看的视频等)、注册用户创建和/或与注册用户相关的社交媒体帖子等等。这些数据项可以例如由内容显示引擎130用来生成目标图形元素,该目标图形元素可以例如显示在独立的多模式助理设备106N的显示器111上。虽然内容显示引擎130被描述为基于云的自动助理组件119的一部分,但这并不意味着是限制性的。在各种实施方式中,内容显示引擎130可以全部或部分地在不同的计算系统上——诸如在一个或多个客户端设备106上——实现。
在各种实施方式中,响应于检测到附近的人员,独立的多模式助理设备106N的显示器111可以从非活动状态(例如,睡眠、几乎不使用或不使用电力)转变成活动状态(例如,渲染内容)。独立的多模式助理设备106N可以依靠各种传感器来检测附近的人员,诸如PIR传感器、麦克风(以检测噪声)、相机、由人员携带的设备发射的信号等等。
图2描绘根据各种实施方式的例如可以由显示器111和/或内容显示引擎130实现的一个示例状态图。状态图包括四种状态:显示器关闭(DISPLAY OFF)、环境(AMBIENT)、在家(HOME)和请求活动(REQUEST ACTIVITY)。显示器关闭可以是默认状态,其中显示器111保持睡眠,例如,几乎不使用或不使用电力。在独立的多模式助理设备106N保持单独时,在附近没有人员的情况下,显示器关闭可能保持是当前状态。在一些实施方式中,虽然当前状态是显示器关闭,但是用户(尚未被检测为存在)仍可以例如通过说出随后是特定请求的调用短语来向自动助理120请求活动,这可以将从当前状态直接转变成请求活动状态。
在一些实施方式中,当在附近检测到一个或多个人员时(即,“占用”),当前状态可以转变为环境状态。在环境状态下,内容显示引擎130可以显示例如可以基于其美学吸引力而选择的环境内容。例如,内容显示引擎130可以显示风景或其他类似内容的一个或多个数字图像和/或视频,其通常可以在传统计算设备上显示为屏幕保护。在一些实施方式中,如果确定占用者不再与独立的多模式助理设备同在达例如至少在预定的时间段,则当前状态可以从环境转变回到显示器关闭。如图2中所指示的,在一些实施方式中,当当前状态为环境时,用户仍可以例如通过说出随后是特定请求的调用短语来向自动助理120请求活动,这可以将当前状态转变为请求活动状态。在其他实施方式中,可能不存在环境状态,并且当前状态可能会响应于检测到人员的同在(占用)而直接从显示器关闭转变成在家。
在在家状态下,内容显示引擎130可以显示表示上述通用和/或目标数据项的各种图形元素。在一些实施方式中,数据项可以被显示为卡或图块,其可以是或可以不是交互式的(例如,取决于显示器111是否是触摸屏)。如前所述,在一些情况下,数据项可能会基于各种标准进行排序,诸如(自动或手动)指配给数据项的优先级、同在的人员的身份(如果已确定)、一天中的时间、一年中的时间等。当数据项呈现为例如堆叠中的卡时,例如,通过顶部卡是最高优先级以及下面的卡具有相对较低的优先级来反映排序。当数据项被表示为图块时,例如,占用显示器111的一部分,则排序可以反映在例如图块的放置中(例如,左上方或右上方可以是最高优先级)和/或图块的大小(例如,图块越大,优先级越高)。
当处于在家状态时,如果用户例如通过轻击图块或卡来参与表示数据项的一个或多个图形元素,则当前状态可以转变为请求活动状态。同样,如果用户向自动助理120说出口头请求(例如,“OK,Assistant,what is...?(OK,助理,...是什么?)”),则当前状态可以转变成请求活动状态。在一些实施方式中,如果同在的用户既没有与自动助理120进行口头接涉也不与渲染在显示器111上的数据项交互达至少预定的时间间隔(即,超时),则当前状态可以从在家状态转变回到环境状态,或者如果没有环境状态,甚至回到显示器关闭。可能触发从在家状态转变到环境(或显示器关闭)状态的其它事件包括但不限于来自用户的特定请求(例如,轻击显示器上的退出按钮)、可能用信号通知同在的用户的意图以转变回到环境的后退手势(例如,在相机或其他传感器前面挥手)等。
在一些实施例中,在请求活动状态下,与所请求的活动或任务相关的内容可以例如跨整个显示器或作为新的数据项卡或图块在显示器111上渲染。例如,假设同在的用户说出将厨房计时器设置为五分钟的口头请求。在一些实施方案中,整个显示器或其一部分(例如,卡或图块)可以显示在厨房计时器上剩余多少时间。假设同在的用户发出针对有关名人的信息的口头请求。在一些实施方式中,响应性内容可以由自动助理120作为自然语言被口头地提供,和/或渲染在显示器上。在一些实施方式中,可以显示与用户的请求或响应内容有关的其他内容(但不一定由用户特别请求),同时自动助理120可听地提供响应内容。例如,如果用户要求名人的生日,则可以可听地输出名人的生日,而有关名人的其他信息(例如,由名人担任主角的电影的放映时间的深层链接、名人的图片等)可以渲染在显示器111上。在其他实施方式中,显示器111可以在处于请求活动状态(实际上不具有请求活动状态)时保持不从在家状态改变,并且用户可以仅从自动助理120接收可听的响应。
响应于各种事件,当前状态可以从请求活动状态转变回到在家状态(或者甚至环境或显示器关闭状态)。例如,所请求的活动可以完成(例如,厨房计时器可以被取消,或者可以由同在的用户消逝并且可以使其静音)。可能触发此类转变的其他事件包括超时、后退手势、再次返回到在家状态的特定请求等。
在一些实施方式中,由自动助理120执行的活动和/或任务可能没有完成和/或可能保持打开。例如,用户可以在中间暂停歌曲或视频。作为另一个示例,用户可以开始请求需要用活动参数填充多个槽的任务,但是可能无法填充所有必需的槽。例如,用户可以开始订购比萨,但是可以停下来离开房间以询问其他人想要什么配料或向其他人索要支付信息。如果足够的时间流逝,则可能会发生超时,并且当前状态可能会从请求活动或在家状态转变回到环境或显示器关闭状态。
在各种实施方式中,可以生成表示未完成任务的目标数据项,并且可以渲染交互式的用以完成任务的相应图形元素。例如,当用户返回以完成比萨订购时,在一些实施方式中,可以在显示器111上渲染表示未完成订单的新图块或卡。在某些情况下,例如,用户可以轻击此新的图块或卡以继续订购过程,而自动助理120向用户口头请求未填满的槽值(例如,比萨配料、付款信息等)。在一些实施方式中,表示未完成任务的此新数据项可以以请求用户为目标,使得如果另一个用户进入房间并向其呈现表示数据项的图形元素,则表示未完成任务数据项的图形元素可以或者可以不呈现。
图3描绘当在附近检测到用户302时配备有显示器311的独立的多模式助理设备306如何操作的一个示例。在此示例中,例如,使用诸如PIR传感器、麦克风、相机等的存在传感器(未描绘)助理设备306仅已经检测到用户302。在此示例中,独立的多模式助理设备306响应于检测到用户的占用,已经从先前描述的显示器关闭状态转变为环境状态。因此,在显示器311上渲染的内容包括诸如时间(4:15)、日期(7月13日,星期日)和外部温度(52°)的通用内容。在显示器311上还渲染山景的图像。如上所述,类似于传统的屏幕保护,当独立的多模式助理设备306处于环境状态时,各种图像和/或动画可以渲染在显示器311上。
图4描绘例如在确定用户302的特定身份之前当处于在家状态时图3的独立的多模式助理设备306如何操作的示例。在一些实施方式中,可能不存在环境状态,并且独立的多模式助理设备306可以响应于检测到用户302的存在而直接转变成图4中所描绘的在家状态。在此示例中,三个图形元素450被描绘为卡和/或图块。第一图形元素450A包括购物列表。第一图形元素450A下面的数据项可以是目标数据,并且在一些情况下可以以多个用户为目标。例如,家庭成员可以维护任何家庭成员都可以编辑的共享购物列表(例如,添加项、移除项)。
第二图形元素450B包括目标为名叫Thad的注册用户的牙医预约。第三图形元素450C包括目标为名叫Joanna的用户的美发预约。因为尚未确定用户302的身份,所以不会基于用户302的身份对图形元素450A-C进行排序。相反,可以使用其他信号对它们进行排序。例如,Thad的牙医预约的排序比Joanna的美发预约要高(并且因此,在上方渲染),因为其更早地发生。
现在,假设独立的多模式助理设备306能够确定用户302是Thad。例如,用户302可以做出与注册的用户语音简档(例如,存储在索引134中)匹配的话语(指向独立的多模式助理设备或其他方式),以确定用户302是Thad。附加地或可替选地,Thad(302)可能正在操作诸如移动电话或者智能手表的移动设备,该移动设备发射由独立的多模式助理设备306检测到的信号(例如Wi-Fi、蓝牙、RFID等)。无论哪种情况,图4的图形元素450仍可以以类似的布置来渲染,因为由于Thad的预约被最早地排程,所以该预约已经给予最高的优先级。然而,在一些实施方式中,代替包括名字“Thad”的图形元素450B,其可以替代地包括单词“You(你)”,因为已知Thad是同在的用户(这在图6中描绘)。
图5描绘当不同的用户303被检测为存在并且被识别为Joanna时图3-4的独立的多模式助理设备306如何操作的示例。描绘相同的图形元素450A-C。但是,它们现在被不同地排序。特别地,即使图形元素450C表示的Joanna的美发预约发生在图形元素450B表示的Thad牙医预约之后,但是因为Joanna是检测到的同在的用户所以图形元素450C现在被排序更高。换句话说,与和图形元素450B和450C下面的预约相关联的相对时间紧迫性相比,Joanna的检测到的身份对排序的影响更大。
现在,假设在图4中Thad已经滑开图形元素450C(Joanna的美发预约)。这已经导致图4中的图形元素450C不再在Thad存在时渲染。在一些情况下,不同的图形元素(未描绘)可能已经代替其位置。再次回到图5,当检测到Joanna与独立的多模式助理设备306同在时,尽管Thad较早地将图形元素450C滑开的事实,仍可以渲染图形元素450C。这是因为图形元素450C下面的数据项是以Joanna而非Thad为目标。因此,尽管不论何时Thad被检测为同在时Thad将图形元素450C滑走可能会阻止其被渲染,直到Joanna将其滑开(或直到预约不再相关的足够的时间流逝),当Joanna被检测为同在时图形元素450C将会继续渲染在显示器311上。
在图6中,相同的独立的多模式设备306已经在Thad处识别同在的用户302,并且当前处于在家状态。在此示例中,假设Thad先前已经与自动化助理120接涉,或者使用提供自动助理界面(118)的独立的多模式助理设备306或(例如,包括独立的多模式助理设备306的客户端设备的协作生态系统的)另一个客户端设备以开始订购比萨的任务。进一步假设Thad没有完成订购,例如,因为他需要询问各个家庭成员更喜欢什么配料。在图6中,此未完成任务被呈现为图形元素450D,其包括关于未完成任务的信息,诸如已经被填充的槽(例如,crust style=thick(外壳样式=厚),size=large(大小=大))和尚未被填充的槽值(topping=???(配料=???))。在各种实施方式中,Thad(302)可以轻击图形元素450D以发起完成任务。在一些实施方式中,这可以包括自动助理120可以可听地请求任何缺失的槽值。附加地或可替代地,在一些实施方式中,Thad可以与显示器311交互以完成任务。在图6中还描绘新的图形元素450E。可以以Thad为目标的图形元素450E表示以被推送到Thad的社交媒体账户的由Thad的朋友发帖的社交媒体更新形式的数据项。
图7是图示根据本文公开的实施方式的示例方法700的流程图。为了方便起见,参考执行该操作的系统来描述流程图的操作。该系统可以包括各种计算机系统的各种组件,诸如实现自动化助理120和/或客户端设备(例如106、306)的计算系统的一个或多个组件。此外,尽管以特定顺序示出方法700的操作,但这并不意味着是限制性的。一个或多个操作可能会重新排列、省略或添加。
在框702处,系统可以执行占用监视。例如,系统可以监视来自诸如PIR传感器、相机、麦克风等的传感器的信号。基于对信号的潜在突然改变,和/或使用各种常规的存在检测技术,在框704处,系统可能检测到或未检测到占用。例如,在一些实施方式中,除了连续地之外或代替连续地,存在传感器可以周期性地操作,例如以节省能量、计算资源等。在每个传感器操作期间,如果未检测到占用,则方法700可以返回框702。
然而,如果在框704处检测到至少一个人员的占用,则方法700可以前进到框706。在框706处,系统可以将独立的多模式设备(例如,106N,306)的显示器(例如,111、311)从非活动状态(例如,关闭、睡眠等)转变到活动状态。在其中采用环境状态的一些实施方式中,可以最初用与通用数据项和/或通常屏幕保护风格的风景相关联的图形信息来充满显示器。在其他实施方式中,显示器可以最初进入在家状态。
在框706之后描绘但是可以在其之前或者与其同时发生的框708处,例如,通过用户账户引擎132,系统可以获取目标为一个或多个注册用户的多个数据项。如本文所述,在各种实施方式中,一个或多个注册用户可以具有至少部分在独立的多模式助理设备上操作的自动助理(120)可访问的账户。多个数据项可以基于注册用户的账户获取并且可以包括各种不同的事物,诸如提醒、购物列表、注册用户特别感兴趣的新闻项、社交媒体更新、预约、传入通信(例如,电子邮件、文本)等。
在框710,系统可以确定是否检测到所检测到的人员的身份。例如,如果检测到的人员说出话语,则系统可能会尝试将说话者的语音与以前存储的语音简档进行匹配。在一些实施方式中,话语的降维嵌入可以生成,并且与先前根据注册用户提供的话语生成的一个或多个其他降维参考嵌入进行比较。附加地或可替选地,通过面部辨识(在相机可用时),通过检测人员携带的客户端发射的信号,通过确定特定的注册用户(例如,经由在线日历)在某个特定时间被排程在附近等等,可以使用诸如可以与参考热能签名匹配的由PIR传感器生成的热能签名的其他信号来识别所检测到的人员。
如果在框710处识别出所检测到的人员,则方法700前进到框712。在框712处,例如,通过内容显示引擎130,系统可以基于所检测到的身份对多个数据项进行排序。在框714处,系统可以基于与和一个或多个注册用户无关的多个数据项相关联的优先级来对多个数据项进一步排序。在一些实施方式中,与和一个或多个注册用户无关的优先级相比,所检测的人员用户的确定的身份具有对排序的更大影响。如果在框710处没有检测到所检测到的人员的身份,则在一些实施方式中,可以跳过框712,并且方法700可以直接前进到框714。
在框716处,系统可以在显示器上渲染指示排序的多个数据项的图形信息。该图形信息可以包括图形元素,诸如卡、图块、贴标条、弹出窗口、通知等。如本文所述,在显示器是触摸屏的实施方式中,这些图形元素中的一个或多个可以是交互式的,使得用户可以轻击它们以获取其他信息和/或执行其他动作,并且/或者将其滑开以将其解除。
图8是示例计算设备810的框图,该示例计算设备810可以可选地用于执行本文所述技术的一个或多个方面。计算设备810通常包括至少一个处理器814,其经由总线子系统812与多个外围设备通信。这些外围设备可以包括存储子系统824,包括例如,存储器子系统825和文件存储子系统826;接口输出设备820;用户接口输入设备822以及网络接口子系统816。输入和输出设备允许用户与计算设备810交互。网络接口子系统816提供到外部网络的接口,并耦合到其他计算设备中的对应接口设备。
用户界面输入设备822可以包括键盘;诸如鼠标、轨迹球、触摸板或图形输入板的指向设备;扫描仪;并入到显示器的触摸屏;诸如语音辨识系统的音频输入设备;麦克风;以及/或其他类型的输入设备。通常,术语“输入设备”的使用旨在包括所有可能类型的设备以及将信息输入到计算设备810或通信网络中的方式。
用户界面输出设备820可以包括显示子系统、打印机、传真机或诸如音频输出设备的非可视显示器。显示子系统可以包括阴极射线管(CRT)、诸如液晶显示器(LCD)的平板设备、投影设备或其他用于创建可视图像的机制。显示子系统还可以诸如经由音频输出设备来提供非视觉显示。通常,术语“输出设备”的使用旨在包括所有可能类型的设备以及从计算设备810向用户或另一个机器或计算设备输出信息的方式。
存储子系统824存储提供本文所述的一些或全部模块的功能性的编程和数据构造。例如,存储子系统824可以包括执行图7的方法的所选方面以及实现图1中所描绘的各种组件的逻辑。
这些软件模块通常由处理器814单独或与其他处理器结合执行。存储子系统824中使用的存储器825可以包括多个存储器,包括用于在程序执行期间存储指令和数据的主随机存取存储器(RAM)830以及存储固定指令的只读存储器(ROM)832。文件存储子系统826可以提供用于程序和数据文件的持久存储,并且可以包括硬盘驱动器、软盘驱动器以及相关联的可移动介质、CD-ROM驱动器、光盘驱动器或可移动介质盒。实现某些实施方式的功能性的模块可以由在存储子系统824中的文件存储子系统826存储,或者存储在处理器814可访问的其他机器中。
总线子系统812提供一种机制,其用于使计算设备810的各种组件和子系统按照预期相互通信。尽管总线子系统812被示意性地示出为单个总线,但是总线子系统的替代实施方式可以使用多个总线。
计算设备810能够是各种类型,包括工作站、服务器、计算集群、刀片服务器、服务器群或任何其他数据处理系统或计算设备。由于计算机和网络的不断变化的性质,图8中描绘的计算设备810的描述仅旨在作为用于说明一些实施方式的目的的特定示例。计算设备810的许多其他配置可能具有比图8中描绘的计算设备更多或更少的组件。
在此处讨论的某些实施方式可以收集或使用关于用户的个人信息(例如,从其他电子通信中提取的用户数据、有关用户社交网络的信息、用户的位置、用户的时间、用户的生物特征信息以及用户的活动和人口统计信息、用户之间的关系等)的情况下,向用户提供一个或多个机会来控制是否收集信息、是否存储个人信息、是否使用个人信息以及如何收集、存储和使用有关用户的信息。也就是说,仅在从相关用户接收到明确的这样做的授权后,本文讨论的系统和方法才收集、存储和/或使用用户的个人信息。
例如,向用户提供对程序或特征是否收集关于该特定用户或与程序或特征相关的其他用户的用户信息的控制。向要为其收集个人信息的每个用户呈现一个或多个选项,以允许控制与该用户有关的信息收集,以提供关于是否收集信息以及信息的哪些部分要被收集的许可或授权。例如,可以通过通信网络向用户提供一个或多个这样的控制选项。另外,在存储或使用某些数据之前,可能会以一种或多种方式处理某些数据,使得删除个人可识别信息。作为一个示例,可以处理用户的身份,使得不能确定个人可识别信息。作为另一示例,用户的地理位置可以被概括为更大的区域,使得不能确定用户的特定位置。
虽然本文已经描述和说明若干实施方式,但是可以利用用于执行功能和/或获取结果和/或本文描述的一个或多个优点的各种其他手段和/或结构,并且这些变化和/或修改中的每一个被认为是在本文描述的实施方式的范围内。更一般地,本文描述的所有参数、尺寸、材料和配置旨在是示例性的,并且实际参数、尺寸、材料和/或配置将取决于使用教导的特定应用或应用。本领域的技术人员将认识到或者能够使用不超过常规的实验确定本文所述具体实施方式的许多等同物。因此,要理解,前述实施方式仅作为示例呈现,并且在所附权利要求及其等同物的范围内,可以以不同于具体描述和要求保护的方式实施实施方式。本公开的实施方式涉及本文描述的每个单独的特征、系统、物品、材料、套件和/或方法。此外,如果这些特征、系统、物品、材料、套件和/或方法不相互矛盾,则两个或更多个这样的特征、系统、物品、材料、套件和/或方法的任何组合被包括在本公开的范围内。
Claims (23)
1.一种由一个或多个处理器实现的方法,包括:
检测未识别用户与独立的多模式助理设备同在,其中,所述独立的多模式助理设备配备有显示器;以及
基于所述检测:
获取目标为一个或多个注册用户的多个数据项,其中,所述一个或多个注册用户具有至少部分在所述独立的多模式助理设备上操作的自动助理能够访问的账户,并且其中,所述多个数据项基于所述注册用户的所述账户来获取;
基于与所述多个数据项相关联的优先级来对所述多个数据项进行排名,其中,所述优先级与所述一个或多个注册用户无关;以及
在所述显示器上渲染指示所排名的多个数据项的图形信息。
2.根据权利要求1所述的方法,进一步包括基于所述检测来将所述显示器从非活动状态转变成活动状态。
3.根据权利要求1或权利要求2所述的方法,其中,所述检测包括从所述未识别用户接收自然语言输入。
4.根据前述权利要求中的任一项所述的方法,其中,所述检测包括从存在传感器接收信号。
5.根据权利要求4所述的方法,其中,所述存在传感器包括下述中的一个或多个:相机、麦克风和被动红外传感器。
6.根据前述权利要求中的任一项所述的方法,进一步包括:
确定所述未识别用户的身份;和
基于所述身份来对所获取的数据项进一步排名。
7.根据权利要求6所述的方法,其中,与和所述一个或多个注册用户无关的所述优先级相比,所确定的用户的身份对所获取的数据项如何被排名具有更大的影响。
8.根据前述权利要求中的任一项所述的方法,其中,指示所排名的多个数据项的所述信息包括多个图形元素,每个图形元素表示所述多个数据项中的相应数据项。
9.根据权利要求8所述的方法,其中,所述显示器包括触摸屏,并且所述多个图形元素中的一个或多个是交互式的。
10.一种由一个或多个处理器实现的方法,包括:
检测人员与独立的多模式助理设备同在,其中,所述独立的多模式助理设备配备有显示器;
将所述人员识别为多个注册用户中的给定注册用户,所述多个注册用户具有至少部分在所述独立的多模式助理设备上操作的自动助理能够访问的账户;以及
基于所述检测和所述识别:
获取目标为所述多个注册用户的多个数据项,其中,所述多个数据项基于所述注册用户的所述账户来获取;
基于所述给定注册用户的身份来对所述多个数据项进行排名;以及
在所述显示器上渲染指示所排名的多个数据项的信息。
11.根据权利要求10所述的方法,其中,指示所排名的多个数据项的所述信息包括多个图形元素,每个图形元素表示所述多个数据项中的相应数据项。
12.根据权利要求11所述的方法,其中,所述多个图形元素包括多个图形卡或图块。
13.根据权利要求11或权利要求12所述的方法,进一步包括:
接收来自所述给定注册用户的输入,其中,所述输入对所述多个图形元素中的给定图形元素采取行动,并且其中,所述给定图形元素与所排名的多个数据项中的以所述多个注册用户中的不同的注册用户为目标的数据项相关联;
基于所述输入,从所述显示器移除所述给定图形元素;
随后检测另一人员与所述独立的多模式助理设备同在;
将所述另一人员识别为所述不同的注册用户;以及
在所述显示器上渲染所述给定图形元素。
14.根据权利要求10至13中的任一项所述的方法,其中,指示所排名的多个数据项的所述信息包括指示由所述给定注册用户利用所述自动助理发起的未完成任务的图形元素。
15.根据权利要求14所述的方法,其中,所述图形元素是能够选择以经由与所述自动助理的口头接涉来发起任务的完成。
16.根据权利要求14或权利要求15所述的方法,其中,所述图形元素是能够选择以经由与在所述显示器上渲染的图形用户界面的交互来发起所述任务的完成。
17.一种系统,包括一个或多个处理器以及与所述一个或多个处理器可操作地耦合的存储器,其中,所述存储器存储指令,响应于所述指令由一个或多个处理器执行,所述指令使所述一个或多个处理器执行下述操作:
检测所述未识别用户与独立的多模式助理设备同在,其中,所述独立的多模式助理设备配备有显示器;和
基于所述检测:
将所述显示器从非活动状态转变成活动状态;
获取目标为一个或多个注册用户的多个数据项,其中,所述一个或多个注册用户具有至少部分在所述独立的多模式助理设备上操作的自动助理能够访问的账户,并且其中,所述多个数据项基于所述注册用户的所述账户来获取;
基于与所述多个数据项相关联的优先级来对所述多个数据项进行排名,其中,所述优先级与所述一个或多个注册用户无关;和
在所述显示器上渲染指示所排名的多个数据项的图形信息。
18.根据权利要求17所述的系统,进一步包括用于下述的指令:
确定所述未识别用户的身份;和
基于所述身份来对所获取的数据项进一步排名;
其中,与和所述一个或多个注册用户无关的所述优先级相比,所确定的用户的身份对所获取的数据项如何被排名有更大的影响。
19.至少一个包括指令的非暂时性计算机可读介质,所述指令响应于一个或多个处理器执行所述指令,使所述一个或多个处理器执行下述操作:
检测人员与独立的多模式助理设备同在,其中,所述独立的多模式助理设备配备有显示器;
将所述人员识别为多个注册用户中的给定注册用户,所述多个注册用户具有至少部分在所述独立的多模式助理设备上操作的自动助理能够访问的账户;以及
基于所述检测和所述识别:
获取目标为所述多个注册用户的多个数据项,其中,所述多个数据项基于所述注册用户的所述账户来获取;
基于所述给定注册用户的身份来对所述多个数据项进行排名;以及
在所述显示器上渲染指示所排名的多个数据项的信息。
20.根据权利要求19所述的至少一个非暂时性计算机可读介质,其中,指示所排名的多个数据项的所述信息包括多个图形元素,每个图形元素表示所述多个数据项中的相应数据项,其中,所述多个图形元素中的至少一个是触摸交互式的。
21.根据权利要求20所述的至少一个非暂时性计算机可读介质,其中,所述至少一个触摸交互式图形元素指示先前由所述给定注册用户利用所述自动助理发起的未完成任务,并且其中,所述至少一个触敏图形元素是能够选择以经由与所述自动助理的口头接涉来发起所述任务的完成。
22.至少一个包括指令的非暂时性计算机可读介质,所述指令响应于一个或多个处理器执行所述指令,使所述一个或多个处理器执行根据权利要求1至16中的任一项所述的方法。
23.一种系统,包括一个或多个处理器以及与所述一个或多个处理器可操作地耦合的存储器,其中,所述存储器存储指令,所述指令响应于一个或多个处理器执行所述指令,使所述一个或多个处理器执行根据权利要求1至16中的任一项所述的方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201862614332P | 2018-01-05 | 2018-01-05 | |
US62/614,332 | 2018-01-05 | ||
PCT/US2019/012347 WO2019136248A1 (en) | 2018-01-05 | 2019-01-04 | Selecting content to render on display of assistant device |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111684438A true CN111684438A (zh) | 2020-09-18 |
CN111684438B CN111684438B (zh) | 2024-06-11 |
Family
ID=65279634
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201980011938.4A Active CN111684438B (zh) | 2018-01-05 | 2019-01-04 | 选择用于在助理设备的显示器上渲染的内容 |
Country Status (6)
Country | Link |
---|---|
US (1) | US11455176B2 (zh) |
EP (1) | EP3555761A1 (zh) |
JP (2) | JP7164615B2 (zh) |
KR (1) | KR102498263B1 (zh) |
CN (1) | CN111684438B (zh) |
WO (1) | WO2019136248A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112445341B (zh) * | 2020-11-23 | 2022-11-08 | 青岛小鸟看看科技有限公司 | 虚拟现实设备的键盘透视方法、装置及虚拟现实设备 |
KR20240071144A (ko) * | 2022-11-15 | 2024-05-22 | 삼성전자주식회사 | 복수의 qr 코드를 이용하여 복수의 보이스 어시스턴트를 온보딩하는 디스플레이 장치, 전자 장치 및 그들의 제어 방법 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008167132A (ja) * | 2006-12-28 | 2008-07-17 | Kyocera Corp | 携帯情報端末 |
JP2011242943A (ja) * | 2010-05-17 | 2011-12-01 | Canon Inc | 情報処理装置および制御方法およびプログラム |
US20140075385A1 (en) * | 2012-09-13 | 2014-03-13 | Chieh-Yih Wan | Methods and apparatus for improving user experience |
JP2015046818A (ja) * | 2013-08-29 | 2015-03-12 | 三菱電機インフォメーションシステムズ株式会社 | アプリケーションシステム、携帯端末、サーバコンピュータおよびコンピュータプログラム |
EP2925005A1 (en) * | 2014-03-27 | 2015-09-30 | Samsung Electronics Co., Ltd | Display apparatus and user interaction method thereof |
US20160042735A1 (en) * | 2014-08-11 | 2016-02-11 | Nuance Communications, Inc. | Dialog Flow Management In Hierarchical Task Dialogs |
CN105706109A (zh) * | 2013-11-08 | 2016-06-22 | 微软技术许可有限责任公司 | 生物测定身份、反馈和用户交互状态的相关显示 |
US9507755B1 (en) * | 2012-11-20 | 2016-11-29 | Micro Strategy Incorporated | Selecting content for presentation |
US20170040002A1 (en) * | 2015-08-03 | 2017-02-09 | International Business Machines Corporation | Adjusting presentation of content on a display |
CN106462617A (zh) * | 2014-06-30 | 2017-02-22 | 苹果公司 | 用于电视机用户交互的智能自动化助理 |
WO2017057010A1 (ja) * | 2015-10-02 | 2017-04-06 | シャープ株式会社 | 端末装置および制御サーバ |
US20170242657A1 (en) * | 2016-02-22 | 2017-08-24 | Sonos, Inc. | Action based on User ID |
US20170289766A1 (en) * | 2016-03-29 | 2017-10-05 | Microsoft Technology Licensing, Llc | Digital Assistant Experience based on Presence Detection |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002041276A (ja) | 2000-07-24 | 2002-02-08 | Sony Corp | 対話型操作支援システム及び対話型操作支援方法、並びに記憶媒体 |
US6996777B2 (en) * | 2001-11-29 | 2006-02-07 | Nokia Corporation | Method and apparatus for presenting auditory icons in a mobile terminal |
JP2005103679A (ja) | 2003-09-29 | 2005-04-21 | Toshiba Corp | ロボット装置 |
US8874173B2 (en) | 2006-12-28 | 2014-10-28 | Kyocera Corporation | Mobile information terminal |
JP2009054027A (ja) | 2007-08-28 | 2009-03-12 | Ricoh Co Ltd | 情報処理装置、表示画面カスタマイズ方法、及び表示画面カスタマイズプログラム |
US10241752B2 (en) * | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
KR101995428B1 (ko) | 2012-11-20 | 2019-07-02 | 엘지전자 주식회사 | 이동 단말기 및 그 제어방법 |
US9639247B2 (en) | 2013-07-19 | 2017-05-02 | Fuji Xerox Co., Ltd. | Information processing device, information processing method, and computer-readable medium |
US9696886B2 (en) * | 2013-12-12 | 2017-07-04 | Google Technology Holdings LLC | Systems and methods for communicating task reminders on portable electronic devices |
CN106463110A (zh) * | 2014-06-03 | 2017-02-22 | 索尼公司 | 信息处理设备、信息处理方法和程序 |
JP2016006613A (ja) | 2014-06-20 | 2016-01-14 | ソニー株式会社 | 情報処理装置、情報処理方法及びプログラム |
JP2017123564A (ja) | 2016-01-07 | 2017-07-13 | ソニー株式会社 | 制御装置、表示装置、方法及びプログラム |
JP6649614B2 (ja) | 2016-02-24 | 2020-02-19 | コニカミノルタ株式会社 | 情報処理装置、会議支援方法および会議支援プログラム |
KR102537543B1 (ko) * | 2016-03-24 | 2023-05-26 | 삼성전자주식회사 | 지능형 전자 장치 및 그 동작 방법 |
US20180157397A1 (en) * | 2016-04-08 | 2018-06-07 | Maxx Media Group, LLC | System and Method for Adding Three-Dimensional Images to an Intelligent Virtual Assistant that Appear to Project Forward of or Vertically Above an Electronic Display |
US12099938B2 (en) * | 2017-08-31 | 2024-09-24 | Microsoft Technology Licensing, Llc | Contextual skills discovery |
-
2019
- 2019-01-04 JP JP2020537174A patent/JP7164615B2/ja active Active
- 2019-01-04 CN CN201980011938.4A patent/CN111684438B/zh active Active
- 2019-01-04 EP EP19703417.6A patent/EP3555761A1/en not_active Withdrawn
- 2019-01-04 KR KR1020207022605A patent/KR102498263B1/ko active IP Right Grant
- 2019-01-04 US US16/621,987 patent/US11455176B2/en active Active
- 2019-01-04 WO PCT/US2019/012347 patent/WO2019136248A1/en unknown
-
2022
- 2022-10-20 JP JP2022168504A patent/JP7471371B2/ja active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008167132A (ja) * | 2006-12-28 | 2008-07-17 | Kyocera Corp | 携帯情報端末 |
JP2011242943A (ja) * | 2010-05-17 | 2011-12-01 | Canon Inc | 情報処理装置および制御方法およびプログラム |
US20140075385A1 (en) * | 2012-09-13 | 2014-03-13 | Chieh-Yih Wan | Methods and apparatus for improving user experience |
US9507755B1 (en) * | 2012-11-20 | 2016-11-29 | Micro Strategy Incorporated | Selecting content for presentation |
JP2015046818A (ja) * | 2013-08-29 | 2015-03-12 | 三菱電機インフォメーションシステムズ株式会社 | アプリケーションシステム、携帯端末、サーバコンピュータおよびコンピュータプログラム |
CN105706109A (zh) * | 2013-11-08 | 2016-06-22 | 微软技术许可有限责任公司 | 生物测定身份、反馈和用户交互状态的相关显示 |
EP2925005A1 (en) * | 2014-03-27 | 2015-09-30 | Samsung Electronics Co., Ltd | Display apparatus and user interaction method thereof |
CN106462617A (zh) * | 2014-06-30 | 2017-02-22 | 苹果公司 | 用于电视机用户交互的智能自动化助理 |
US20160042735A1 (en) * | 2014-08-11 | 2016-02-11 | Nuance Communications, Inc. | Dialog Flow Management In Hierarchical Task Dialogs |
US20170040002A1 (en) * | 2015-08-03 | 2017-02-09 | International Business Machines Corporation | Adjusting presentation of content on a display |
WO2017057010A1 (ja) * | 2015-10-02 | 2017-04-06 | シャープ株式会社 | 端末装置および制御サーバ |
US20170242657A1 (en) * | 2016-02-22 | 2017-08-24 | Sonos, Inc. | Action based on User ID |
US20170289766A1 (en) * | 2016-03-29 | 2017-10-05 | Microsoft Technology Licensing, Llc | Digital Assistant Experience based on Presence Detection |
Also Published As
Publication number | Publication date |
---|---|
WO2019136248A1 (en) | 2019-07-11 |
US20200125377A1 (en) | 2020-04-23 |
KR20200102513A (ko) | 2020-08-31 |
JP2023017791A (ja) | 2023-02-07 |
JP2021509749A (ja) | 2021-04-01 |
US11455176B2 (en) | 2022-09-27 |
JP7164615B2 (ja) | 2022-11-01 |
EP3555761A1 (en) | 2019-10-23 |
JP7471371B2 (ja) | 2024-04-19 |
CN111684438B (zh) | 2024-06-11 |
KR102498263B1 (ko) | 2023-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7032504B2 (ja) | 会議能力を有する自動アシスタント | |
JP7247271B2 (ja) | 非要請型コンテンツの人間対コンピュータダイアログ内へのプロアクティブな組込み | |
JP2023029974A (ja) | 非要請型コンテンツの人間対コンピュータダイアログ内へのプロアクティブな組込み | |
CN114207710A (zh) | 检测和/或登记热命令以由自动助理触发响应动作 | |
JP2023015054A (ja) | 自動化アシスタントを呼び出すための動的および/またはコンテキスト固有のホットワード | |
KR20210008521A (ko) | 자동화된 어시스턴트를 호출하기 위한 다이내믹 및/또는 컨텍스트-특정 핫 워드 | |
JP7384976B2 (ja) | 割込みをかける第2のセッションの終了時に第1の自動アシスタントセッションを自動的に再開するかどうかを決定すること | |
JP7471371B2 (ja) | アシスタントデバイスのディスプレイにレンダリングするコンテンツの選択 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |