CN117099097A - 助理浏览期间的动态助理建议 - Google Patents

助理浏览期间的动态助理建议 Download PDF

Info

Publication number
CN117099097A
CN117099097A CN202280026429.0A CN202280026429A CN117099097A CN 117099097 A CN117099097 A CN 117099097A CN 202280026429 A CN202280026429 A CN 202280026429A CN 117099097 A CN117099097 A CN 117099097A
Authority
CN
China
Prior art keywords
assistant
content
display interface
computing device
suggestion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280026429.0A
Other languages
English (en)
Inventor
史黛西·克罗宁
克里夫·匡
亚伯拉罕·沃林
卡特里娜·埃格特-佩科特
肖恩·克拉森
迦勒·米斯克勒维茨
卡兰·帕特尔
伊恩·贝克
西蒙·索克
瑞安·艾伦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of CN117099097A publication Critical patent/CN117099097A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90324Query formulation using system suggestions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/904Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/0482Interaction with lists of selectable items, e.g. menus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

实施方式涉及一种自动化助理,该自动化助理可以基于用户已请求自动化助理在计算设备处渲染的内容来提供助理建议。在一些实例中,助理建议可以对应于内容的一部分,该一部分未在计算设备处被渲染但却是用户正在访问的内容的一部分。在其他实例中,助理建议可以基于数据,该数据可以指示一个或多个用户在查看内容时可以如何与其自动化助理交互。因此,助理建议可以对应于可能已由另一用户初始化的助理操作,该另一用户先前已查看内容。在一些实施方式中,助理建议的布置可以根据用户正在查看内容的哪个部分和/或用户距离来修改。

Description

助理浏览期间的动态助理建议
背景技术
人类可以参与和本文中称为“自动化助理”(也称为“数字代理”、“聊天机器人”、“交互式个人助理”、“智能个人助理”、“助理应用”、“会话代理”等)的交互式软件应用的人机对话。例如,人类(当他们与自动化助理交互时,可以被称为“用户”)可以使用口头自然语言输入(即,话语)(在一些情况下,它可以被转换为文本,然后被处理)和/或通过提供文本(例如键入的)自然语言输入来向自动化助理提供命令/请求。
尽管一些自动化助理可以允许用户访问网页数据,但许多网页都是为台式计算机和便携式设备(诸如蜂窝电话和平板计算机)编程的。因此,尽管自动化助理可能能够使网站在特指设备处打开,但是用户与网站的进一步交互可能不能经由自动化助理进行,可能被限于经由某些输入模态的交互,和/或可能被限于经由输入模态的某些受限交互。例如,如果用户期望参与网站的图形渲染,则用户可能必须使用光标、键盘和/或触摸界面——并且可能无法经由话音与渲染交互,和/或可能仅被限于(多个)某些话音交互(例如被限于“向上滚动”和“向下滚动”)。这可能导致与网站的低效交互,无法执行与网站的某些交互和/或(多个)其他缺点,缺点中的每个都可能导致特指设备的计算资源的过度使用。
作为一个示例,当用户经由独立显示设备调用自动化助理以访问网站时,自动化助理可能无法完全(或根本)渲染网站,因此建议用户通过其蜂窝电话访问网站。因此,由于自动化助理无法促进在独立显示设备处与网站的交互,多个设备处的功率和处理带宽将被消耗。在一些实例中,某些网站的这种通用性缺乏可能是由于样式表和/或与网站相关联地存储的其他规范的限制。除了从网站检索数据片段之外,为移动浏览器和桌面浏览器设计的网站可能不适合自动化助理访问。如果用户期望进一步浏览网站或查看其他相关网站,则用户可能必然需要访问具有web浏览器功能性的单独应用,即使该单独应用可能不会同时提供自动化助理的一个或多个有益实用程序。
发明内容
本文陈述的一些实施方式涉及一种自动化助理,该自动化助理可以被调用以在显示界面处可视地渲染内容,并且同时渲染(例如可视地)助理建议,该助理建议可以可选地在用户与内容交互时由自动化助理动态更新。在一些实施方式中,与某些内容同时渲染的助理建议可以基于与用户相关联的各种不同数据、与自动化助理相关联的数据和/或与内容本身相关联的信息。
作为这些实施方式中的一些实施方式的一个示例,用户可以调用自动化助理,以查看食谱。在使用其自动化助理订购杂货物品后,用户可以通过提供诸如“Assistant,showme a recipe for chow mein(助理,向我展示炒面食谱)”等口头话语来调用自动化助理。作为响应,自动化助理可以访问来自食谱网页的网页数据,并且使网页数据在计算设备的显示界面处被渲染。可选地,并且如本文描述的,自动化助理最初可以响应于口头话语来使对“recipe for chow mein(炒面食谱)”的搜索被执行,标识响应于搜索的多个资源(包括食谱网页),并且呈现资源中的每个资源的对应搜索结果(例如每个搜索结果可以包括来自对应资源的内容的(多个)片段)。然后,用户可以选择(例如经由点击或经由话音选择)与食谱网页相对应的搜索结果,这可以使网页数据被渲染。当网页数据被渲染时,用户可以通过向自动化助理提供另一输入——诸如触摸输入和/或另一口头话语(例如“Scroll down(向下滚动)。”)来滚动在显示界面处渲染的内容。自动化助理可以使助理建议与所渲染的内容一起显示(例如在渲染网页内容的窗格的左侧或右侧的单独窗格中),并且在给定时间显示的助理建议中的一个或多个的主题可以由自动化助理基于当前在给定时间对用户可见的所渲染内容的一部分来选择。
例如,当自动化助理响应于用户输入(甚至自动地)而滚动网页(例如炒面食谱)时,显示界面最终可以渲染网页数据的一部分,它提供食谱的配料列表。因为用户先前在访问网页之前已经查询了自动化助理订购杂货物品,所以自动化助理可以将与订购食品相关联的任何建议的优先级设置为低于其他建议。因此,当配料列表被渲染时,助理建议可能缺乏(多个)任何食物订购建议,而是可以包括(多个)导航建议,诸如可以被分别选择或说出以使网页的对应部分被导航并且显示的(多个)导航建议。继续该示例,当自动化助理滚动到网页的详述烤箱预热指令的部分时,作为响应,自动化助理可以使助理建议被渲染用于控制智能烤箱(而该建议先前未被显示)。当智能烤箱助理建议基于用户输入选择时,自动化助理可以使用户家庭中的智能烤箱被预热到网页中指定的温度。备选地,如果助理建议未被选择并且自动化助理继续滚动网页,则助理建议可以被基于网页数据和/或其他数据中的其他数据的不同助理建议(例如用于基于食谱指令来设置烹饪定时器)来替换。
在一些实施方式中,多个助理建议可以在内容(例如网页数据和/或其他应用数据)附近被渲染,以提供基于内容生成的唯一建议的列表。例如,每个助理建议可以包括概括内容的一部分的自然语言内容,并且当用户选择助理建议时(例如通过与助理建议匹配的触摸输入或口头输入),自动化助理可以滚动到内容的对应部分。例如,根据上述示例,所渲染的助理建议可以包括导航建议,该导航建议包括概括食谱的一部分的内容(例如导航建议可以是“Serving Instructions(服务指令)”)。响应于用户选择该渲染的助理建议,自动化助理可以滚动到标题“Tips for Beautifully Plating This Masterpiece(为该杰作提供美丽装盘的提示)”下提供的配方的一部分,并且自动化助理还可以使渲染的助理建议被替换。例如,替换助理建议可以指的是可能对食谱的可见的部分有帮助的助理动作。助理动作可以是但不限于用于向用户读出“tips for serving(服务提示)”的文本到语音动作、用于进一步滚动内容的滚动动作、播放可能被包括在食谱页面中的视频和/或使自动化助理“pivot(转向)”另一页面的动作(例如基于其他网页数据和/或其他应用数据的不同食谱文章)。
继续先前段落的示例,注意到“Serving Instructions”的导航建议与网页的“Tips for Beautifully Plating This Masterpiece”标题不同,当选择导航建议时,自动化助理会导航到该标题。例如,导航建议不包括与标题相同的任何术语,并且比标题更简洁(即,更少的字符)——但在语义上仍然与标题和紧跟在标题后面的内容对准。在一些实施方式中,导航建议被生成为更简洁(即,更少的字符)以使得能够选择具有更简洁的口头话语的导航建议,这导致在执行口头话语的语音识别时使用的计算资源的减少,并且还导致缩短用户与网页的交互的持续时间。在一些实施方式中,导航建议被生成为更简洁(即,更少的字符),以使得导航建议能够在助理设备的显示器的显示约束内被渲染。例如,显示界面的助理建议部分可以被限于可用显示的一小部分(例如25%或更少、20%或更少),以确保在界面的内容查看部分中有效地查看网页,并且以最大字符极限生成导航建议,以确保它可以在这些约束内被渲染。
可以利用各种技术生成更简洁的导航建议,同时还确保导航建议在语义上与链接到的内容部分对准。作为一个示例,导航建议可以使用具有最大字符约束的文本摘要技术(例如使用训练后的文本摘要机器学习模型)来生成。例如,标题可以使用文本摘要技术来处理,以生成被用作导航建议的概括文本。作为另一示例,导航建议可以基于到内容的一部分的(多个)锚链接的锚文本(即,具体导航到资源的一部分(例如具体的XML或HTML标签)与整个资源的超链接)跳转超链接来生成。例如,某些锚文本可以基于它满足最大字符约束来选择,并且可选地,基于它是满足最大字符约束的锚文本中最频繁出现的锚文本。可选地,如果没有锚文本满足字符约束,则导航建议可以基于将文本摘要技术应用于锚文本(例如最频繁出现的锚文本)并且使用概括文本作为导航建议来生成。作为又一示例,导航建议可以基于生成该部分内容的嵌入(例如通过使用Word2Vec、BERT或其他训练模型处理其文本),并且确定满足字符约束并且在嵌入空间中具有交替嵌入的词语或短语(即,“接近”生成的嵌入)来生成。例如,“Tips for Beautifully Plating This Masterpiece”标题和紧跟在标题后面的文本可以被处理以生成第一词语嵌入。进一步地,基于确定它满足字符极限并且确定它在嵌入空间中以及在满足字符极限的候选导航建议中具有最接近第一嵌入的第二嵌入,“Serving Instructions”可以被选择为该标题的导航建议。
在一些实施方式中,在访问类似内容时,与其他内容相邻渲染的助理建议可以基于用户和自动化助理之间和/或其他用户和其自动化助理之间的历史交互。例如,提供诸如“Assistant,how is hail formed(助理,冰雹是如何形成的)?”等口头话语的用户可以使自动化助理渲染网页数据,该网页数据详述冰雹是如何在大气中产生的。当用户正在查看详述冰雹可能造成的潜在损害的网页数据的特指部分时,自动化助理可以生成基于网页数据的该特指部分的补充内容。例如,当用户或另一用户查看网页数据的该部分并且使自动化助理执行特指动作时,自动化助理可以基于先前的实例来生成补充内容。
例如,历史交互数据可以指示查看过与冰雹损害相关联的内容的其他用户也使用过他们的自动话助理给保险公司拨打电话。基于该历史交互数据,并且响应于用户查看网页数据的该部分,自动化助理可以使用于向保险公司拨打电话的助理建议被渲染。该助理建议可以与网页数据的该部分的渲染同时渲染,并且响应于用户选择助理建议,自动化助理可以使计算设备或另一计算设备呼叫保险公司。当用户滚动经过与冰雹损害相关联的网页数据部分时,自动化助理可以使该助理建议(例如“Call my insurance provider(呼叫我的保险提供商)”)用基于随后渲染的网页数据的另一部分的不同助理建议来替换。
在一些实施方式中,用搜索结果数据和/或其他应用数据渲染的一个或多个助理建议可以对应于修改和/或增强搜索结果数据和/或其他应用数据的动作。例如,当用户正在查看网页数据的“hail damage(冰雹损害)”部分时,用户可以选择使其他网页数据被渲染的助理建议。其他网页数据可以对应于用于接收关于冰雹损害保险的信息的表单。当自动化助理确定用户正在查看表单的“address(地址)”部分时,自动化助理可以使另一助理建议被渲染。另一助理建议可以对应于用于使用户的地址数据在具有来自用户的事先许可的情况下被填充到表单中的动作。当用户点击另一助理建议时,自动化助理可以使地址数据被放置到表单中,然后使替换建议在显示界面处被渲染。
在一些实施方式中,搜索结果数据可以根据用户到渲染搜索结果数据的显示界面的距离进行动态适应。这可以促进基于用户与显示界面的距离的搜索结果的时间效率审查。此外,搜索结果数据可以根据显示界面的任何大小限制和/或用户访问自动化助理的设备的任何其他限制来动态适应。例如,当用户在距渲染搜索结果的显示界面的阈值距离之外时,自动化助理可以使单个搜索结果在显示界面处被渲染,使得从用户的距离看搜索结果是可见的。当用户在阈值距离之外时,自动化助理可以从用户接收用于导航到不同搜索结果的输入(例如在距显示界面非零距离处的滑动手势、口头话语等)。当用户在阈值距离内移动时,自动化助理可以使显示界面渲染关于当前正在渲染的搜索结果的附加细节。备选地或附加地,当用户在阈值距离内时,自动化助理可以使显示界面渲染搜索结果数据的一个或多个附加搜索结果,从而允许用户更快地标识合适的搜索结果。这可以减少搜索导航时间,并因此保留当用户继续导航助理搜索结果时消耗的电力和其他资源。
以上描述被提供为本公开的一些实施方式的概述。这些实施方式和其他实施方式的进一步描述在下面更详细地描述。
其他实施方式可以包括一种存储指令的非瞬态计算机可读存储介质,该指令由一个或多个处理器(例如(多个)中央处理单元((多个)CPU)、(多个)图形处理单元((多个)GPU)和/或(多个)张量处理单元((多个)TPU))可执行,以执行诸如上面和/或本文其他地方描述的方法中的一个或多个的方法。另外其他实施方式可以包括一种一个或多个计算机的系统,其包括一个或多个处理器,这些处理器可操作以执行存储的指令以执行诸如上面和/或本文其他地方描述的方法中的一个或多个的方法。
应该了解,本文更详细地描述的前述概念和附加概念的所有组合被设想为本文公开的主题的一部分。例如,出现在本公开的结尾处的要求保护的主题的所有组合都被设想为本文公开的主题的一部分。
附图说明
图1A和图1B图示了用户与自动化助理交互以便揭示可以伴随与内容的至少一部分相对应的助理建议的内容的视图。
图2A、图2B和图2C图示了用户与自动化助理交互以查看内容的视图,它可以为可以在某些场境中渲染的某些助理建议提供基础。
图3图示了提供自动化助理的系统,该自动化助理可以基于在显示界面处渲染的内容来提供助理建议,并且可以在用户和/或自动化助理导航内容时适应助理建议。
图4图示了用于提供助理建议的方法,该助理建议可以辅助用户在计算设备的显示界面处导航内容,并且可以在用户导航内容时动态适应。
图5是示例计算机系统的框图。
具体实施方式
图1A和图1B图示了用户102与自动化助理交互以便揭示可以伴随与内容的至少一部分相对应的助理建议的内容的视图100和视图140。例如,用户102可以提供口头话语106,诸如“Assistant,show my deep dish pizza recipe(助理,展示我的深盘披萨食谱)”,这可以使自动化助理在计算设备104处渲染特指的食谱网站126。在计算设备104的显示界面110处渲染的食谱网站126的一部分的内容可以由自动化助理处理。内容可以被处理,以便基于内容和/或任何其他相关数据来生成一个或多个助理建议。
在一些实施方式中,自动化助理可以处理经由网站和/或应用可访问的附加内容,以补充在显示界面110处渲染的内容部分。例如,食谱网站126可以包括背景区段、配料区段、指令区段和媒体区段,用户可以在其中观看正在准备的食谱的视频。基于内容的这些附加部分,自动化助理可以生成第一助理建议114,当被选择时,第一助理建议114使显示界面110渲染食谱网站126的配料区段。在一些实施方式中,助理建议可以响应于用户102提供口头话语、触摸手势、在离显示界面110非零距离处的运动手势和/或可以被提供给自动化助理的任何其他输入来初始化。
在一些实施方式中,自动化助理可以基于与用户102相关联的历史交互数据和/或场境数据来生成一个或多个助理建议。例如,在具有来自用户102的事先许可下,自动化助理可以访问历史交互数据,该历史交互数据指示用户102在多个月前与订购面粉的应用交互。基于该确定,并且用户102查看在配料区段中提及面粉的网站,自动化助理可以生成与订购面粉的操作相对应的第二助理建议116。例如,响应于用户102选择第二助理建议116,自动化助理可以访问用于订购杂货的应用,并且选择“flour(面粉)”作为要采购的物品。
备选地或附加地,基于具有媒体区段的食谱网站126,自动化助理可以生成第三助理建议118,它对应于内容的另一部分(例如食谱视频)的“shortcut(快捷方式)”。在一些实施方式中,第三助理建议118可以基于历史交互数据来生成,该历史交互数据指示用户或另一用户在具有或没有其自动化助理的情况下访问了食谱网站126,并且查看了食谱网站126中所包括的食谱视频。通过这种方式,用户102可以被提供有助理建议,该助理建议可以通过不要求用户102滚动整个食谱网站126最终观看视频来节省他们的时间。而且,用户102可能不知道食谱视频的存在,因此,在具有来自其他用户的事先许可的情况下,自动化助理可以从过去与其他用户的交互中学习,以便简化用户102与其计算设备104之间的交互。
在一些实施方式中,自动化助理可以基于显示界面110的内容和/或来自用户102的一个或多个先前请求来生成其他助理建议。例如,基于用户102请求“deep dish pizza(深盘披萨)”食谱并且查看内容,自动化助理可以生成对应于不同网站和/或应用的第四助理建议120。例如,第四助理建议120可以对应于导航到提供披萨面团食谱而不是芝加哥风格披萨的另一网站的操作。
当用户102提供诸如“See ingredients section(观看配料区段)”等附加口头话语112时,自动化助理可以处理与附加口头话语112相对应的音频数据。自动化助理可以基于音频数据来确定用户102正在选择第一助理建议114。在一些实施方式中,语音处理可以根据在显示界面110处渲染的内容和/或与助理建议相关联的自然语言内容而有偏差。响应于接收到附加口头话语,自动化助理可以使计算设备104渲染食谱网站126的另一部分,如图1B的视图140所图示的。
例如,自动化助理可以使食谱网站126的“ingredients(配料)”区段在显示界面110上被渲染。如果用户102被要求通过手动点击和拖动滚动元素128滚动到配料区段,则这可以保留计算资源和功率,否则它们可能会被消耗。在一些实施方式中,自动化助理可以使显示界面110基于在显示界面110处渲染的内容来渲染一个或多个附加的助理建议。附加的助理建议可以基于更新的历史交互数据,该历史交互数据可以指示例如用户102先前已经查看了食谱网站126的“background(背景)”区段。基于该更新的历史交互数据,自动化助理可以省略与“background”区段相对应的助理建议。附加地或备选地,自动化助理可以基于更新的历史交互数据来确定用户102没有查看食谱网站126的食谱视频。基于该确定,即使用户现在正在查看食谱网站126的不同部分,自动化助理也可以使显示界面110继续渲染第三助理建议118。
备选地或附加地,自动化助理可以确定用户102在查看食谱网站126的阈值时间内与智能烤箱进行交互。基于该确定,自动化助理可以使显示界面110渲染用于访问智能烤箱的状况的助理建议144。助理建议144可以由用户102使用诸如“Show me the oven(向我展示烤箱)”等口头话语来选择,这可以使与智能烤箱相关联的应用被初始化。在一些实施方式中,在用户102导航网页数据和/或应用数据之后渲染的助理建议可以基于其他用户在查看网页数据和/或应用数据时如何与自动化助理交互。例如,查看食谱网站126的一个或多个用户可能在他们准备食谱时调用了其自动化助理来播放音乐。基于该信息,当用户102正在查看食谱网站126的“ingredients”区段时,自动化助理可以渲染用于播放音乐的助理建议148。备选地或附加地,查看食谱网站126的一个或多个其他用户可能已经调用其自动化助理来查看其他类似的食谱,诸如由与编写食谱网站126的厨师相同的厨师准备的那些食谱。基于该确定,自动化助理可以使显示界面110渲染助理建议142,用于将用户引导到来自厨师的其他食谱(例如“See more recipes from this chef(观看来自该厨师的更多食谱)”)。
在一些实施方式中,当自动化助理正在向用户102读取内容时,可以修改在图1A中的显示界面110处渲染的助理建议和在图1B处的显示界面110处渲染的其他助理建议。例如,当用户102已经请求自动化助理向用户102读取网站内容和/或应用内容时,当自动化助理指定内容时,自动化助理可以使内容沿着显示界面110滚动。当内容沿着显示界面110滚动时,自动化助理可以使助理建议在显示界面110处被动态地渲染。在显示界面110处渲染的一个或多个助理建议可以基于当前正在显示界面110处渲染的内容的一部分来生成。因此,当自动化助理可听地指定在显示界面110处渲染的自然语言内容时,各种不同的助理建议可以在多个不同的时间在显示界面110处被渲染。
图2A、图2B和图2C图示了用户102与自动化助理交互以查看内容的视图200、视图240和视图260,它可以为可以在某些场境中渲染的某些助理建议提供基础。例如,用户202可以向自动化助理提供口头话语212,诸如“Assistant,control my lights(助理,控制我的灯)”,它可以经由计算设备204可访问。响应于接收到口头话语212,自动化助理可以使计算设备204的显示界面210基于口头话语212中实施的请求来渲染内容。例如,内容可以包括物联网(IoT)家庭应用208,它可以允许用户202控制他们家庭的厨房灯。
显示界面210的内容可以由自动化助理和/或另一应用处理,以生成可以被同时渲染给正在渲染的IoT家庭应用208的界面的助理建议。助理建议可以包括用于访问用户202的公用事业账单的助理建议216、用于采购新灯的助理建议218、用于控制用户202家庭中的其他设备的助理建议220和/或用于与特指内容(例如“Call mom(呼叫妈妈)”)通信的助理建议222。助理建议中的每个助理建议可以基于显示界面210的内容、口头话语212的内容、历史交互数据、场境数据和/或自动化助理可以访问的任何其他数据来生成。
用户202可以通过提供另一口头话语214来选择特指的助理建议,诸如“See myelectric bill(观看我的电费账单)”,其可以指代用于访问公用事业网站的助理建议216。响应于接收到另一口头话语214,自动化助理可以使显示界面210渲染公用事业网站242,该公用事业网站242可以在具有来自用户202的事先许可的情况下提供关于用户202家庭中的公用事业使用的细节。自动化助理可以处理显示界面210的内容,以便渲染附加的助理建议。在一些实施方式中,自动化助理可以处理当前可能未在显示界面210处渲染的公用事业网站242的附加内容,以便生成表征助理建议246的建议数据(例如“View usage stats(查看使用状况)”)。助理建议246可以是实施比助理建议246链接到的内容更简洁的内容的导航建议。例如,助理建议246可以链接到公用事业网站242的一部分,该一部分包括具有图表和时间表的每月使用数据。公用事业网站242的这一部分可以由自动化助理处理,以生成内容“View usage stats”,该内容可以是公用事业网站242的该一部分的文本摘要和/或简洁表征。
备选地或附加地,自动化助理可以标识用户202可以执行的一个或多个操作,以在显示界面210处与内容交互。例如,自动化助理可以提供诸如“Read this to me(给我读这个)”的助理建议248,当被选择时,该助理建议248使自动化助理向用户202读取公用事业网站242的自然语言内容。备选地或附加地,自动化助理可以提供基于历史交互数据的助理建议244和/或助理建议222,该历史交互数据可以指示其他用户在观看类似于公用事业网站242的内容时如何与自动化助理交互。
在一些实施方式中,在具有来自内容作者的事先许可的情况下,自动化助理可以基于用户202如何与内容交互来适应显示界面210的内容和/或增强显示界面210的内容。例如,当用户202位于距图2B中的显示界面210的阈值距离之外的第一距离处时,自动化助理可以以堆叠布置渲染建议元素250。堆叠布置可以是可以用手势修改的建议元素的布置,该手势使建议元素(例如公用事业网站242)从显示界面210的前景移除。当在显示界面210的前景中的建议元素被丢弃时,堆叠布置中的另一可选择的建议可以在显示界面210的前景中被渲染。
当用户202重新定位到显示界面210的阈值距离内的第二距离时,如图2C的视图260所图示的,自动化助理可以使助理建议不再出现在堆叠布置中。相反,在一些实施方式中,自动化助理可以使助理建议在显示界面210上以“carousel-like”布置和/或耦合布置出现。当用户位于阈值距离内时,用户202可以向计算设备204提供输入手势,该输入手势使内容元素262(即,可选择内容元素)同时在显示界面210上移动。例如,当在显示界面210处执行左滑动手势时,公用事业网站242的内容元素可以向左移动和/或至少部分地从显示界面210移除。同时,并且响应于左滑动手势,内容元素264、内容元素266和/或内容元素270可以被进一步渲染到显示界面210的左侧,同时还揭示了先前未在显示界面210处显示的(多个)另一内容元素。
如果用户202在具有来自用户202的事先许可的情况下返回到阈值距离之外,如计算设备204和/或自动化助理所检测到的,则内容元素262可以返回到以图2B的堆叠布置来布置。通过这种方式,当用户202离计算设备204更远时,与用户202更靠近计算设备204的情况相比,显示界面210可以渲染更少的建议元素。备选地或附加地,与用户202更靠近计算设备204时(如图2C中)相比,当用户202离计算设备204更远时,每个内容元素262可以在更大的区域上渲染(如图2B中)。
图3图示了提供自动化助理304的系统300,该自动化助理304可以基于在显示界面处渲染的内容来提供助理建议,并且可以在用户和/或自动化助理304浏览内容时适应助理建议。自动化助理304可以作为在一个或多个计算设备(诸如计算设备302和/或服务器设备)处提供的助理应用的一部分来操作。用户可以经由(多个)助理界面320与自动化助理304交互,该助理界面320可以是麦克风、相机、触摸屏显示器、用户界面和/或能够在用户和应用之间提供界面的任何其他装置。例如,用户可以通过向助理界面320提供语言、文本和/或图形输入来初始化自动化助理304,以使自动化助理304初始化一个或多个动作(例如提供数据、控制外围设备、访问代理、生成输入和/或输出等)。
备选地,自动化助理304可以基于使用一个或多个训练后的机器学习模型对场境数据336的处理来初始化。场境数据336可以表征自动化助理304可访问的环境的一个或多个特征和/或被预测为旨在与自动化助理304交互的用户的一个或多个特征。计算设备302可以包括显示设备,该显示设备可以是包括触摸界面的显示面板,该触摸界面用于接收触摸输入和/或手势以允许用户经由触摸界面控制计算设备302的应用334。在一些实施方式中,计算设备302可能缺少显示设备,由此提供可听的用户界面输出,而不提供图形用户界面输出。此外,计算设备302可以提供用户界面,诸如麦克风,用于从用户接收口头自然语言输入。在一些实施方式中,计算设备302可以包括触摸界面,并且可能没有相机,但可以可选地包括一个或多个其他传感器。
计算设备302和/或其他第三方客户端设备可以通过网络(诸如互联网)与服务器设备通信。附加地,计算设备302和任何其他计算设备可以通过局域网(LAN)(诸如Wi-Fi网络)彼此通信。计算设备302可以将计算任务卸载到服务器设备,以节省计算设备302处的计算资源。例如,服务器设备可以托管自动化助理304,和/或计算设备302可以将在一个或多个助理界面320处接收的输入传输给服务器设备。然而,在一些实施方式中,自动化助理304可以被托管在计算设备302处,并且可以与自动化助理操作相关联的各种过程可以在计算设备302处被执行。
在各种实施方式中,自动化助理304的所有方面或少于所有方面可以被实施在计算设备302上。在这些实施方式中的一些实施方式中,自动化助理304的各个方面可以经由计算设备302实施,并且可以与服务器设备接口连接,该服务器设备可以实施自动化助理304的其他方面。服务器设备可以可选地经由多个线程服务于多个用户及其关联的助理应用。在自动化助理304的所有方面或少于所有方面经由计算设备302实施的实施方式中,自动化助理304可以是与计算设备302的操作系统分离的应用(例如安装在操作系统的“顶部”),或者可以备选地由计算设备302的操作系统直接实施(例如被认为是操作系统的应用,但与操作系统集成)。
在一些实施方式中,自动化助理304可以包括输入处理引擎306,它可以采用多个不同的模块来处理计算设备302和/或服务器设备的输入和/或输出。例如,输入处理引擎306可以包括语音处理引擎308,它可以处理在助理界面320处接收的音频数据,以标识在音频数据中实施的文本。音频数据可以从例如计算设备302传输到服务器设备,以保留计算设备302处的计算资源。附加地或者备选地,音频数据可以在计算设备302处被排他地处理。
用于将音频数据转换为文本的过程可以包括语音识别算法,该语音识别算法可以采用神经网络和/或统计模型来标识与词语或短语相对应的音频数据组。从音频数据转换的文本可以由数据解析引擎310解析,并且作为文本数据可用于自动化助理304,该文本数据可以被用于生成和/或标识(多个)命令短语、(多个)意图、(多个)动作、(多个)槽值和/或由用户指定的任何其他内容。在一些实施方式中,由数据解析引擎310提供的输出数据可以被提供给参数引擎312,以确定用户是否提供了输入,该输入与能够由自动化助理304和/或能够经由自动化助理304访问的应用或代理执行的特指意图、动作和/或例程相对应。
例如,助理数据338可以被存储在服务器设备和/或计算设备302处,并且可以包括定义能够由自动化助理304执行的一个或多个动作的数据以及执行这些动作所必需的参数。参数引擎312可以生成意图、动作和/或槽值的一个或多个参数,并且将一个或多个参数提供给输出生成引擎314。输出生成引擎314可以使用一个或多个参数来与自动化助理320通信以向用户提供输出,和/或与一个或多个应用334通信以向一个或多个应用334提供输出。
在一些实施方式中,自动化助理304可以是可以被安装在计算设备302的操作系统“顶部”的应用,和/或可以自身形成计算设备302的操作系统的一部分(或全部)。自动化助理应用包括和/或访问设备上语音识别、设备上自然语言理解和设备上履行。例如,设备上语音识别可以使用设备上语音识别模块来执行,该设备上语音识别模块使用本地存储在计算设备302处的端到端语音识别机器学习模型来处理音频数据(由(多个)麦克风检测)。设备上语音识别生成音频数据中存在的口头话语(如果有的话)的识别文本。而且,例如设备上自然语言理解(NLU)可以使用设备上NLU模块来执行,该设备上NLU模块处理使用设备上语音识别生成的识别文本以及可选地场境数据,以生成NLU数据。
NLU数据可以包括与口头话语相对应的(多个)意图以及可选地(多个)意图的(多个)参数(例如槽值)。设备上履行可以使用设备上履行模块来执行,该设备上履行模块利用NLU数据(来自设备上NLU)和可选地其他本地数据来确定要采取的(多个)动作,以解决口头话语的(多个)意图(以及可选地意图的(多个)参数)。这可以包括确定对口头话语的本地和/或远程响应(例如答案)、与基于口头话语执行的本地安装的(多个)应用的(多个)交互、基于口头话语传输给(多个)物联网(IoT)设备(直接地或经由对应的(多个)远程系统)的(多个)命令和/或基于口头话语执行的(多个)其他解决动作。设备上履行然后可以发起确定的(多个)动作的本地和/或远程执行/执行,以解决口头话语。
在各种实施方式中,远程语音处理、远程NLU和/或远程履行可以被至少选择性地利用。例如,识别的文本可以被至少选择性地传输到(多个)远程自动化助理组件,用于远程NLU和/或远程履行。例如,识别的文本可以可选地与设备上履行并行地传输用于远程执行,或者响应于设备上NLU和/或设备上履行的故障。然而,设备上语音处理、设备上NLU、设备上履行和/或设备上执行可以至少由于它们在解决口头话语时提供的时延减少(由于不需要(多个)客户端-服务器往返来解决口头话语)来优先考虑。进一步地,设备上功能性可以是在没有网络连接性或网络连接性有限的情况下可用的唯一功能性。
在一些实施方式中,计算设备302可以包括一个或多个应用334,该一个或多个应用334可以由与提供计算设备302和/或自动化助理304的实体不同的第三方实体提供。自动化助理304和/或计算设备302的应用状态引擎可以访问应用数据330,以确定能够由一个或多个应用334执行的一个或多个动作以及一个或多个应用334中的每个应用的状态和/或与计算设备302相关联的相应设备的状态。自动化助理304和/或计算设备302的设备状态引擎可以访问设备数据332,以确定能够由计算设备302和/或与计算设备302相关联的一个或多个设备执行的一个或多个动作。此外,应用数据330和/或任何其他数据(例如设备数据332)可以由自动化助理304访问以生成场境数据336,该场境数据336可以表征特指应用334和/或设备正在执行的场境和/或特指用户访问计算设备302,访问应用334和/或任何其他设备或模块的场境。
当一个或多个应用334在计算设备302处执行时,设备数据332可以表征在计算设备302处执行的每个应用334的当前操作状态。此外,应用数据330可以表征执行应用334的一个或多个特征,诸如在一个或多个应用334的方向处渲染的一个或多个图形用户界面的内容。备选地或附加地,应用数据330可以表征动作模式,该动作模式可以基于相应应用的当前操作状况由相应应用和/或自动化助理304更新。备选地或附加地,一个或多个应用334的一个或多个动作模式可以保持静态,但可以由应用状态引擎访问,以确定要经由自动化助理304初始化的合适动作。
在一些实施方式中,系统300可以包括先前交互引擎324,该先前交互引擎324可以处理与一个或多个用户和他们相应的自动化助理中的一个或多个之间的先前交互相关联的数据。先前交互引擎324可以处理该数据,以便标识当用户在计算设备302处查看某些内容时可能已经由用户初始化的操作。此后,当用户或另一用户正在查看该特指内容时,先前交互引擎324可以标识可能与该用户或另一用户相关的一个或多个操作。
在一些实施方式中,系统300可以包括助理建议引擎316,它可以处理系统300可访问的数据,以生成一个或多个助理建议,以经由计算设备302的助理界面320向用户推荐。例如,先前交互引擎324可以确定用户正在查看与用户和自动化助理304之间的先前交互相关联的某些内容。基于该确定,助理建议引擎316可以生成表征一个或多个可选择建议的建议数据,该一个或多个可选择建议基于先前交互和用户当前正在查看的内容。例如,在先前交互期间,用户可能已经查看了食谱配料,然后使用电话上的杂货应用将配料添加到网站结账页面。当用户随后查看食谱配料时,先前交互引擎324可以在具有来自用户的事先许可的情况下查询杂货应用,以便确定用户是否采购了配料。基于该确定,助理建议引擎316可以生成建议数据,该建议数据建议用户完成他们对配料的采购,或者查看与食谱配料相对应的食谱的另一部分(例如查看配料准备指令)。
在一些实施方式中,系统300可以包括元素布置引擎326,它可以基于系统300可访问的数据来布置内容元素和/或助理建议。例如,当用户向自动化助理304提供关于查看某些内容的查询时,自动化助理304可以标识要呈现给用户的内容的多个不同实例。当用户在计算设备302的阈值距离内时,元素布置引擎326可以使多个内容元素以耦合布置在计算设备302的显示界面上布置。备选地,当用户在计算设备302的阈值距离内时,元素布置引擎326可以使多个内容元素以堆叠布置来布置。当内容元素处于堆叠布置时,前景内容元素的区域可以大于内容元素中的一个或多个,否则这些内容元素将以耦合布置(即,转盘式布置)渲染。
在一些实施方式中,系统300可以包括入口点引擎318,该入口点引擎318可以在具有来自用户的事先许可的情况下确定用户如何到达内容的特指页面。该确定可以基于系统300可访问的数据,并且可以由助理建议引擎316和/或元素布置引擎326用于生成和/或布置助理建议和/或内容元素。例如,入口点引擎318可以确定第一用户是从他们的朋友(例如马修)经由文本消息向他们发送的链接到达食谱页面的。基于该确定,助理建议引擎316可以生成与用于发送文本消息的操作(例如“Send a message to Matthew(向马修发送消息)”)相对应的助理建议。入口点引擎318还可以确定第二用户从视频中的链接到达食谱页面。基于该确定,助理建议引擎316可以生成与用于返回查看视频和/或用于查看基于食谱页面的内容选择的另一视频的操作相对应的助理建议。
在一些实施方式中,元素布置引擎326可以在具有来自内容作者的事先许可的情况下修改和/或增强在计算设备302处渲染的内容元素的内容。例如,元素布置引擎326可以基于系统300可用的数据来确定在计算设备302处渲染的内容可以根据与用户相关联的信息来修改和/或增强。在一些实例中,基于应用数据330、设备数据332和/或场境数据336,助理建议可以在内容的一部分上方和/或代替内容的一部分来渲染。例如,当用户正在搜索关于某种食物过敏的信息,然后访问用于查看食谱的网站时,元素布置引擎326可以修改和/或补充食谱内容的一部分,以包括用户先前查看的食物过敏信息。例如,该界面的涉及“wheat flour(小麦粉)”的一部分可以用涉及“chickpea flour(鹰嘴豆粉)”的内容元素来补充,用户可能在要求自动化助理304“show information about wheat allergies(展示关于小麦过敏的信息)”后查看了该内容元素。
图4图示了用于提供助理建议的方法400,该助理建议可以辅助用户在计算设备的显示界面处导航内容,并且可以在用户导航内容时动态适应。方法400可以由能够与自动化助理交互的一个或多个设备、应用和/或任何其他应用或模块执行。方法400可以包括确定自动化助理是否已经接收到用于在计算设备的显示界面处渲染内容的请求的操作。该请求可以被实施在口头话语或自动化助理可以响应的其他输入中。例如,该请求可以被实施在口头话语中,诸如“Assistant,how much can a solar panel reduce my electric bill(助理,太阳能板可以减少我的电费账单多少)?”响应于接收到口头话语,自动化助理可以确定用户正在请求自动化助理渲染与太阳能板相关的内容。
当确定对内容的请求由用户提供时,方法400可以从操作402进行到操作404,该操作404可以包括使计算设备的显示界面为用户渲染内容的第一部分(例如太阳能板评论文章)。根据上述示例,自动化助理可以响应于接收到口头话语来渲染从应用和/或网站获得的内容。内容可以包括文本、图形、视频和/或可以由自动化助理访问的任何其他内容。由于计算设备的显示界面的有限尺寸,自动化助理可以使内容的第一部分被渲染,并且可选地,预加载内容的第二部分以进行渲染。
方法400可以从操作404进行到操作406,该操作406可以包括基于在计算设备的显示界面处渲染的内容的第一部分来生成第一助理建议。例如,内容的第一部分可以包括关于如何减少电费账单的细节。基于内容的该第一部分,自动化助理可以生成第一助理建议,并且标识用于自动化助理的操作以减少用户家庭中的一个或多个灯的输出。例如,第一助理建议可以包括自然语言内容,诸如“Turn off my basement lights(关闭我的地下室灯)”,备选地或者附加地,第一助理建议可以对应于自动化助理从内容的第一部分滚动到内容的第二部分的操作。例如,第一助理建议可以包括自然语言内容,诸如“Go to‘SolarPanel Prices’(转到‘太阳能板价格’)”,这可以是对内容的第二部分的引用,它详述了某些太阳能板的价格。
在一些实施方式中,在用户提供口头话语之前,第一助理建议可以通过用户和自动化助理之间的一个或多个交互来生成。例如,用户和自动化助理之间的交互可以涉及用户请求自动化助理修改用户家庭中的一个或多个灯的设置。备选地或附加地,在具有来自其他用户的事先许可的情况下,第一助理建议可以基于其他用户在查看太阳能板评论文章时如何与他们相应的自动化助理交互来生成。例如,历史交互数据可以指示一个或多个其他用户已经快速滚动到太阳能板价格。基于该历史交互数据,自动化助理可以生成第一助理建议,以对应于用于滚动到太阳能板评论文章的“Solar Panel Prices(太阳能板价格)”部分的操作。
方法400可以从操作406进行到操作408,该操作408可以包括使第一助理建议在计算设备的显示界面处被渲染。当第一助理建议在显示界面处被渲染时,方法400可以进行到确定用户是否使显示界面渲染内容的第二部分的操作410。当自动化助理确定用户未使显示界面渲染内容的第二部分时,方法400可以可选地返回到操作402。然而,当自动化确定用户已经使显示界面渲染内容的第二部分时,方法400可以进行到操作412。
操作412可以包括使自动化助理基于内容的第二部分来生成第二助理建议。第二助理建议可以包括自然语言内容,该自然语言内容概括了用户响应于在操作402中接收到的口头话语而访问的内容的另一部分。例如,自动化助理可以生成第二助理建议,以使用户注意到内容的另一部分可以包括用户可能感兴趣的信息,从而节省用户滚动整篇文章的时间和精力。例如,基于被安装在用户家庭中的智能设备类型(例如智能恒温器),自动化助理可以标识文章的与智能设备相关的另一部分(例如“Subtitle:Tips for Scheduling aSmart Thermostat(副标题:用于调度智能恒温器的提示)”)。自动化助理可以使用自然语言理解和/或一种或多种其他自然语言处理技术来提供文章的其他部分的摘要(例如“UseGeofencing feature of your thermostat to reduce energy(使用您的恒温器的地理围栏特征来减少能量)。”)。
备选地或附加地,当内容的第二部分讨论呼叫可能有助于履行来自用户的请求的实体(例如电力公司)时,自动化助理可以生成用于控制自动化助理的通信操作的第二助理建议。例如,内容的第二部分可以讨论呼叫电力公司来讨论太阳能的净计量选项,并且基于该信息,自动化助理可以标识用户使用的电力公司(例如基于应用数据和/或其他场境数据)。然后,第二助理建议可以包括自然语言内容,诸如“Call my utility company(打电话给我的公用事业公司)”,并且,响应于用户选择第二助理建议,自动化助理可以向公用事业公司拨打电话。
当第二助理建议已被生成时,方法400可以进行到操作414,该操作414使第二助理建议与内容的第二部分一起在计算设备的显示界面处被渲染。在一些实施方式中,第二助理建议和/或内容的第二部分可以根据用户距显示界面的距离来布置。例如,当用户位于距计算设备的阈值距离内时,与该内容相对应的内容元素可以与响应于来自用户的请求而标识的其他内容元素一起显示。每个内容元素可以被耦合,使得当用户向自动化助理提供特指的输入手势(例如滑动手势)时,内容元素可以在手势的方向上移动(例如以转盘式方式)以揭示其他内容元素(例如其他太阳能板评论文章)。备选地,当用户在阈值距离之外时,内容元素可以以堆叠布置被布置在其他内容元素上方。当用户向自动化助理提供特指的输入手势时,对应于内容的第一部分的内容元素可以移动以揭示响应于请求而标识的另一内容元素。方法400可以可选地返回到操作402,用于进一步检测来自用户的另一请求。
图5是示例计算机系统510的框图500。计算机系统510通常包括经由总线子系统512与多个外围设备通信的至少一个处理器514。这些外围设备可以包括存储子系统524(包括例如存储器525和文件存储子系统526)、用户界面输出设备520、用户界面输入设备522和网络接口子系统516。输入和输出设备允许用户与计算机系统510交互。网络接口子系统516将接口提供给外部网络,并且被耦合至其他计算机系统中的对应接口设备。
用户界面输入设备522可以包括键盘、指向设备(诸如鼠标、轨迹球、触摸板或者绘图板)、扫描仪、被并入到显示器中的触摸屏、音频输入设备(诸如话音识别系统、麦克风)和/或其他类型的输入设备。通常,术语“输入设备”的使用旨在包括用于将信息输入到计算机系统510中或者输入到通信网络上的所有可能类型的设备和方式。
用户界面输出设备520可以包括显示子系统、打印机、传真机或者非视觉显示器(诸如音频输出设备)。显示子系统可以包括阴极射线管(CRT)、平板设备(诸如液晶显示器(LCD))、投影设备或者用于创建可见图像的一些其他机构。显示子系统还可以提供非视觉显示器,诸如经由音频输出设备。通常,术语“输出设备”的使用旨在包括用于将来自计算机系统510的信息输出到用户或者输出到另一机器或者计算机系统的所有可能类型的设备和方式。
存储子系统524存储提供本文描述的一些或者所有模块的功能性的编程和数据构造。例如,存储子系统524可以包括用于执行方法400的所选方面和/或实施系统300、计算设备104、计算设备204、自动化助理和/或本文讨论的任何其他应用、设备、装置和/或模块中的一个或多个的逻辑。
这些软件模块通常由处理器514单独地执行或者与其他处理器组合来执行。用于存储子系统524中的存储器525可以包括若干存储器,该若干存储器包括用于在程序执行期间存储指令和数据的主随机存取存储器(RAM)530和固定指令被存储在其中的只读存储器(ROM)532。文件存储子系统526可以为程序和数据文件提供持久存储装置,并且可以包括硬盘驱动器、连同关联的可移除介质的软盘驱动器、CD-ROM驱动器、光学驱动器或者可移除介质盒。实施特指实施方式的功能性的模块可以由文件存储子系统526存储在存储子系统524中,或者存储在由(多个)处理器514可访问的其他机器中。
总线子系统512提供用于允许计算机系统510的各种组件和子系统按照预期来与彼此通信的机构。虽然总线子系统512被示意性地示出为单个总线,但是总线子系统的替代实施方式可以使用多个总线。
计算机系统510可以具有不同的类型,包括工作站、服务器、计算集群、刀片式服务器、服务器场或者任何其他数据处理系统或者计算设备。由于计算机和网络的不断变化的性质,出于图示一些实施方式的目的,图5中描绘的计算机系统510的描述仅仅旨在作为具体示例。与图5中描绘的计算机系统相比,计算机系统510的具有更多或者更少组件的许多其他配置是可能的。
在本文描述的系统收集关于用户(或者通常在本文中称为“参与者”)的个人信息或者可以利用个人信息的情况下,用户可以被提供机会以:控制程序或者特征是否收集用户信息(例如关于用户的社交网络、社交动作或者活动、职业、用户的偏好或者用户的当前地理位置的信息)或者控制是否和/或如何从内容服务器接收可能与用户更相关的内容。而且,在特指数据被存储或者使用之前,该特指数据可以按照一种或多种方式来处置,使得个人可标识信息被移除。例如,用户的标识可以被处置,使得用户的个人可标识信息无法被确定,或者用户的地理位置(地理位置信息(诸如城市、邮政编码或者州级)从中获得)可以被一般化,使得用户的特指地理位置无法被确定。因此,用户可以控制关于用户的信息如何被收集和/或被使用。
虽然若干实施方式已经在本文中描述和图示,但是用于执行功能和/或获得结果和/或本文描述的优点中的一个或多个的各种其他部件和/或结构可以被利用,并且这种变化和/或修改中的每个被视为在本文描述的实施方式的范围内。更一般地,本文描述的所有参数、尺寸、材料和配置旨在是示例性的,并且实际参数、尺寸、材料和/或配置将取决于教导被使用的一个或多个具体应用。本领域技术人员将认识到或者仅仅使用常规实验就能够确定本文描述的具体实施方式的许多等效物。因此,要理解的是,前述实施方式仅通过示例呈现,并且在所附权利要求及其等效物的范围内,实施方式可以按照与具体描述和要求保护不同的方式来实践。本公开的实施方式涉及本文描述的每个单独特征、系统、物品、材料、套件和/或方法。另外,如果这种特征、系统、物品、材料、套件和/或方法不互相矛盾,那么两个或多个这种特征、系统、物品、材料、套件和/或方法的任何组合都被包括在本公开的范围内。
在一些实施方式中,一种由(多个)处理器实施的方法被提供,并且包括在计算设备处接收对自动化助理在计算设备的显示界面处渲染内容的请求。请求被实施在由用户提供给计算设备的口头话语中。方法还包括响应于从自动化助理接收到请求,使计算设备的显示界面渲染内容的第一部分。方法还包括由自动化助理处理内容数据,该内容数据表征在计算设备的显示界面处渲染的内容的第一部分。内容数据被处理以促进生成要在显示界面处渲染的第一助理建议。方法还包括基于处理内容数据,使计算设备的显示界面渲染第一助理建议以及内容的第一部分。方法还包括当内容的第一部分在显示界面处被渲染时:由自动化助理,确定用户已提供输入以促进使显示界面渲染内容的第二部分,其中内容的第二部分不同于内容的第一部分;响应于输入,处理表征内容的第二部分的其他内容数据,其中其他内容数据被处理以促进生成要在显示界面处渲染的第二助理建议;以及基于其他补充内容,使计算设备的显示界面渲染第二助理建议和内容的第二部分,其中第二助理建议不同于第一助理建议。
本文公开的技术的这些和其他实施方式可以包括以下特征中的一个或多个。
在一些实施方式中,来自用户的输入涉及第一助理建议,并且使内容的第二部分在计算设备的显示界面处被渲染,并且第一助理建议包括标识内容的第二部分的自然语言内容。在这些实施方式中的一些实施方式中,输入是由用户提供给自动化助理的附加口头话语。
在一些实施方式中,第二助理建议对应于由自动化助理在单独计算设备处执行的操作,该单独计算设备不同于计算设备。
在一些实施方式中,处理内容数据包括基于历史交互数据来生成第一助理建议。例如,历史交互数据可以表征先前交互,在先前交互中用户或另一用户使计算设备或另一计算设备执行动作,同时某些内容在计算设备或另一计算设备处被渲染。例如,某些内容可以包括内容的第一部分。
在一些实施方式中,当第二助理建议在显示界面处被渲染时,第一助理建议从显示界面中省略。在这些实施方式中的一些实施方式中,当第二助理建议在显示界面处被渲染时,内容的第一部分从显示界面中省略。
在一些实施方式中,第二助理建议包括基于内容的第二部分的自然语言内容,并且对第二助理建议的选择使自动化助理初始化与自动化助理不同的单独应用。
在一些实施方式中,一种由(多个)处理器实施的方法被提供,并且包括在计算设备处接收对自动化助理在计算设备的显示界面处渲染内容的请求。请求被实施在由用户提供给计算设备的口头话语中。方法还包括响应于请求,使显示界面渲染内容。方法还包括响应于请求来处理交互数据,该交互数据表征用户使内容在计算设备的显示界面处被渲染的先前交互。在先前交互期间,第一助理建议与内容一起在显示界面处被渲染。方法还包括基于处理交互数据来生成建议数据,该建议数据表征不同于第一助理建议的第二助理建议。第二助理建议进一步基于在显示界面处渲染的内容来生成。方法还包括基于建议数据,使显示界面渲染第二助理建议以及该内容。第二助理建议经由从用户到自动化助理的后续口头话语可选择。
本文公开的技术的这些和其他实施方式可以包括以下特征中的一个或多个。
在一些实施方式中,第二助理建议与特指自然语言内容一起被渲染,并且方法还包括当第二助理建议在显示设备处被渲染时,使一个或多个语音识别过程偏向于第二助理建议的特指自然语言内容。
在一些实施方式中,第一助理建议与特指自然语言内容一起被渲染,并且方法还包括当第二助理建议在显示设备处被渲染时,使一个或多个语音识别过程偏离特指自然语言内容。
在一些实施方式中,第二助理建议对应于经由自动化助理初始化的操作。在这些实施方式中的一些实施方式中,方法还包括基于第二助理建议,使与操作相对应的操作数据在用户向自动化助理提供后续口头话语之前由计算设备访问。
在一些实施方式中,接收对自动化助理在计算设备的显示界面处渲染内容的请求包括接收对在计算设备的显示界面处渲染的搜索结果列表中的搜索结果的选择。在这些实施方式的一些版本中,第二助理建议进一步基于搜索结果列表中的搜索结果来生成。在这些实施方式的一些附加或替代版本中,第二助理建议进一步基于搜索结果列表中的一个或多个其他搜索结果来生成。
在一些实施方式中,一种由(多个)处理器实施的方法被提供,并且包括在计算设备处接收对自动化助理在计算设备的显示界面处渲染内容的请求。请求被实施在由用户提供的口头话语中,该用户位于距显示界面的第一距离。方法还包括响应于请求,使计算设备的显示界面以在显示界面上延伸的耦合布置来渲染可选择内容元素。由自动化助理可接收的输入手势使可选择内容元素中的多个可选择内容元素在显示界面上同时移动。方法还包括由自动化助理确定用户已经从第一距离重新定位到距显示界面的第二距离。方法还包括基于用户重新定位到距显示界面的第二距离,使可选择内容元素以堆叠布置渲染。在堆叠布置处,可选择内容元素中的前景内容元素被渲染在可选择内容元素中的其他内容元素上方。方法还包括由自动化助理接收对自动化助理揭示其他内容元素中的特指内容元素的另一请求。特指内容元素不同于可选择内容元素中的前景内容元素。方法还包括响应于其他请求,使可选择内容元素中的前景内容元素在显示界面的区域处被其他内容元素中的特指内容元素替换。
本文公开的技术的这些和其他实施方式可以包括以下特征中的一个或多个。
在一些实施方式中,方法还包括当可选择内容元素以耦合布置渲染时,使一个或多个助理建议与可选择内容元素一起在显示界面处被渲染。一个或多个助理建议基于与可选择内容元素相关联的特指内容。在这些实施方式的一些版本中,方法还包括当可选择内容元素以堆叠布置渲染时,使一个或多个其他助理建议与可选择内容元素一起在显示界面处被渲染。一个或多个其他助理建议基于与前景内容元素相对应的其他特指内容,并且一个或多个助理建议不同于一个或多个其他助理建议。在这些版本中的一些版本中,当一个或多个其他助理建议在显示界面处被渲染时,一个或多个助理建议从显示界面中省略。
在一些实施方式中,一个或多个助理建议标识由自动化助理在单独计算设备处初始化的操作,该单独计算设备不同于计算设备。
在一些实施方式中,其中,一个或多个助理建议基于自动化助理可访问的历史交互数据。可选地,历史交互数据表征先前交互,在先前交互中用户或另一用户使计算设备或另一计算设备执行动作,同时特指内容在计算设备或另一计算设备处被渲染。

Claims (22)

1.一种由一个或多个处理器实现的方法,所述方法包括:
在计算设备处接收对自动化助理在所述计算设备的显示界面处渲染内容的请求,
其中,所述请求被实施在由用户提供给所述计算设备的口头话语中;
响应于从所述自动化助理接收到所述请求,使所述计算设备的所述显示界面渲染所述内容的第一部分;
由所述自动化助理处理内容数据,所述内容数据表征在所述计算设备的所述显示界面处渲染的所述内容的所述第一部分,
其中,所述内容数据被处理以促进生成要在所述显示界面处渲染的第一助理建议;
基于处理所述内容数据,使所述计算设备的所述显示界面渲染所述第一助理建议以及所述内容的所述第一部分;
当所述内容的所述第一部分在所述显示界面处被渲染时:
由所述自动化助理确定所述用户已提供输入以促进使所述显示界面渲染所述内容的第二部分,
其中,所述内容的所述第二部分不同于所述内容的所述第一部分;
响应于所述输入,处理表征所述内容的所述第二部分的其他内容数据,
其中,所述其他内容数据被处理以促进生成要在所述显示界面处渲染的第二助理建议;以及
基于其他补充内容,使所述计算设备的所述显示界面渲染所述第二助理建议和所述内容的所述第二部分,
其中,所述第二助理建议不同于所述第一助理建议。
2.根据权利要求1所述的方法,
其中,来自所述用户的所述输入涉及所述第一助理建议,并且使所述内容的所述第二部分在所述计算设备的所述显示界面处被渲染,并且
其中,所述第一助理建议包括标识所述内容的所述第二部分的自然语言内容。
3.根据权利要求2所述的方法,其中,所述输入是由所述用户提供给所述自动化助理的附加口头话语。
4.根据任何前述权利要求所述的方法,其中,所述第二助理建议对应于由所述自动化助理在单独计算设备处执行的操作,所述单独计算设备不同于所述计算设备。
5.根据任何前述权利要求所述的方法,其中,处理所述内容数据包括:
基于历史交互数据来生成所述第一助理建议,
其中,所述历史交互数据表征先前交互,在所述先前交互中所述用户或另一用户使所述计算设备或另一计算设备执行动作,同时特定内容在所述计算设备或所述另一计算设备处被渲染。
6.根据权利要求5所述的方法,其中,所述特定内容包括所述内容的所述第一部分。
7.根据任何前述权利要求所述的方法,
其中,当所述第二助理建议在所述显示界面处被渲染时,所述第一助理建议被从所述显示界面中省略,并且
其中,当所述第二助理建议在所述显示界面处被渲染时,所述内容的所述第一部分被从所述显示界面中省略。
8.根据任何前述权利要求所述的方法,
其中,所述第二助理建议包括基于所述内容的所述第二部分的自然语言内容,并且
其中,对所述第二助理建议的选择使所述自动化助理初始化单独应用,所述单独应用不同于所述自动化助理。
9.一种由一个或多个处理器实现的方法,所述方法包括:
在计算设备处接收对自动化助理在所述计算设备的显示界面处渲染内容的请求,
其中,所述请求被实施在由用户提供给所述计算设备的口头话语中;
响应于所述请求,使所述显示界面渲染所述内容;
响应于所述请求,处理交互数据,所述交互数据表征所述用户使所述内容在所述计算设备的所述显示界面处被渲染的先前交互,
其中,在所述先前交互期间,第一助理建议与所述内容一起在所述显示界面处被渲染;
基于处理所述交互数据,生成建议数据,所述建议数据表征不同于所述第一助理建议的第二助理建议,
其中,所述第二助理建议进一步基于在所述显示界面处渲染的所述内容来生成;以及
基于所述建议数据,使所述显示界面渲染所述第二助理建议以及所述内容,
其中,所述第二助理建议经由从所述用户到所述自动化助理的后续口头话语可选择。
10.根据权利要求9所述的方法,其中,所述第二助理建议用特定的自然语言内容渲染,并且所述方法还包括:
当所述第二助理建议在所述显示界面处被渲染时,使一个或多个语音识别过程偏向于所述第二助理建议的所述特定的自然语言内容。
11.根据权利要求9或10所述的方法,其中,所述第一助理建议用特定的自然语言内容渲染,并且所述方法还包括:
当所述第二助理建议在所述显示界面处被渲染时,使一个或多个语音识别过程偏离所述特定的自然语言内容。
12.根据权利要求9至11中的任一项所述的方法,
其中,所述第二助理建议对应于经由所述自动化助理初始化的操作,并且
其中,所述方法还包括:
基于所述第二助理建议,使与所述操作相对应的操作数据在所述用户向所述自动化助理提供所述后续口头话语之前由所述计算设备访问。
13.根据权利要求9至12中的任一项所述的方法,其中,接收对所述自动化助理在所述计算设备的所述显示界面处渲染内容的所述请求包括:
接收对在所述计算设备的所述显示界面处渲染的搜索结果列表中的搜索结果的选择,
其中,所述第二助理建议进一步基于所述搜索结果列表中的所述搜索结果来生成。
14.根据权利要求9至12中的任一项所述的方法,其中,接收对所述自动化助理在所述计算设备的所述显示界面处渲染内容的所述请求包括:
接收对在所述计算设备的所述显示界面处渲染的搜索结果列表中的搜索结果的选择,
其中,所述第二助理建议进一步基于所述搜索结果列表中的一个或多个其他搜索结果来生成。
15.一种由一个或多个处理器实现的方法,所述方法包括:
在计算设备处接收对自动化助理在所述计算设备的显示界面处渲染内容的请求,
其中,所述请求被实施在由用户提供的口头话语中,所述用户位于距所述显示界面的第一距离处;
响应于所述请求,使所述计算设备的所述显示界面以在所述显示界面上延伸的耦合布置来渲染可选择内容元素,
其中,由所述自动化助理可接收的输入手势使所述可选择内容元素中的多个可选择内容元素在所述显示界面上同时移动;
由所述自动化助理确定所述用户已经从所述第一距离重新定位到距所述显示界面的第二距离;
基于所述用户重新定位到距所述显示界面的所述第二距离,使所述可选择内容元素以堆叠布置渲染,
其中,在所述堆叠布置处,所述可选择内容元素中的前景内容元素被渲染在所述可选择内容元素中的其他内容元素上方;
由所述自动化助理接收对所述自动化助理揭示所述其他内容元素中的特定内容元素的另一请求,
其中,所述特定内容元素不同于所述可选择内容元素中的所述前景内容元素;
响应于所述其他请求,使所述可选择内容元素中的所述前景内容元素在所述显示界面的区域处被所述其他内容元素中的所述特定内容元素替换。
16.根据权利要求15所述的方法,还包括:
当所述可选择内容元素以所述耦合布置渲染时,使一个或多个助理建议与所述可选择内容元素一起在所述显示界面处被渲染,
其中,所述一个或多个助理建议基于与所述可选择内容元素相关联的特定内容。
17.根据权利要求16所述的方法,还包括:
当所述可选择内容元素以所述堆叠布置渲染时,使一个或多个其他助理建议与所述可选择内容元素一起在所述显示界面处被渲染,
其中,所述一个或多个其他助理建议基于与所述前景内容元素相对应的其他特定内容,并且
其中,所述一个或多个助理建议不同于所述一个或多个其他助理建议。
18.根据权利要求17所述的方法,其中,当所述一个或多个其他助理建议在所述显示界面处被渲染时,所述一个或多个助理建议从所述显示界面中省略。
19.根据权利要求16至18中的任一项所述的方法,其中,所述一个或多个助理建议标识由所述自动化助理在单独计算设备处初始化的操作,所述单独计算设备不同于所述计算设备。
20.根据权利要求16至19中的任一项所述的方法,
其中,所述一个或多个助理建议基于所述自动化助理可访问的历史交互数据,并且
其中,所述历史交互数据表征先前交互,在所述先前交互中所述用户或另一用户使所述计算设备或另一计算设备执行动作,同时特定内容在所述计算设备或所述另一计算设备处被渲染。
21.一种系统,包括:
一个或多个处理器;以及
存储指令的存储器,所述指令在被执行时使所述一个或多个处理器执行任何前述权利要求的操作。
22.一种存储指令的计算机可读存储介质,所述指令在被执行时使一个或多个处理器执行权利要求1至20中的任一项的操作。
CN202280026429.0A 2021-11-30 2022-09-07 助理浏览期间的动态助理建议 Pending CN117099097A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US17/538,736 2021-11-30
US17/538,736 US20230169967A1 (en) 2021-11-30 2021-11-30 Dynamic assistant suggestions during assistant browsing
PCT/US2022/042790 WO2023101743A1 (en) 2021-11-30 2022-09-07 Dynamic assistant suggestions during assistant browsing

Publications (1)

Publication Number Publication Date
CN117099097A true CN117099097A (zh) 2023-11-21

Family

ID=83691450

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280026429.0A Pending CN117099097A (zh) 2021-11-30 2022-09-07 助理浏览期间的动态助理建议

Country Status (4)

Country Link
US (1) US20230169967A1 (zh)
EP (1) EP4302208A1 (zh)
CN (1) CN117099097A (zh)
WO (1) WO2023101743A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230230577A1 (en) * 2022-01-04 2023-07-20 Capital One Services, Llc Dynamic adjustment of content descriptions for visual components

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2115210C (en) * 1993-04-21 1997-09-23 Joseph C. Andreshak Interactive computer system recognizing spoken commands
IL119948A (en) * 1996-12-31 2004-09-27 News Datacom Ltd Voice activated communication system and program guide
US9489171B2 (en) * 2014-03-04 2016-11-08 Microsoft Technology Licensing, Llc Voice-command suggestions based on user identity
US9338493B2 (en) * 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9378740B1 (en) * 2014-09-30 2016-06-28 Amazon Technologies, Inc. Command suggestions during automatic speech recognition
US9865260B1 (en) * 2017-05-03 2018-01-09 Google Llc Proactive incorporation of unsolicited content into human-to-computer dialogs

Also Published As

Publication number Publication date
US20230169967A1 (en) 2023-06-01
EP4302208A1 (en) 2024-01-10
WO2023101743A1 (en) 2023-06-08

Similar Documents

Publication Publication Date Title
US20230336505A1 (en) Initializing a conversation with an automated agent via selectable graphical element
US9046917B2 (en) Device, method and system for monitoring, predicting, and accelerating interactions with a computing device
KR102310648B1 (ko) 상황 정보 탐색 및 내비게이션 기법
US9811350B2 (en) Embedding non-blocking help components in a display page using discovery drawer feature cues
EP3602271B1 (en) Initializing a conversation with an automated agent via selectable graphical element
JP7135114B2 (ja) 割込みをかける第2のセッションの終了時に第1の自動アシスタントセッションを自動的に再開するかどうかを決定すること
US20150207854A1 (en) External application request
EP2616917A1 (en) Branded browser frame
US20130073945A1 (en) Dynamic reorganization of page elements of a web application
US9588635B2 (en) Multi-modal content consumption model
US20160259547A1 (en) Techniques for predicting user input on touch screen devices
US20160364398A1 (en) Generation and dynamic serving of device-dependent web content
US20190236137A1 (en) Generating conversational representations of web content
CN112988006A (zh) 显示方法、装置、电子设备和存储介质
US10402210B2 (en) Optimizing user interface requests for backend processing
CN117099097A (zh) 助理浏览期间的动态助理建议
CA3034909A1 (en) Change data driven tactile response
CN117242429A (zh) 智能吸附辅助推荐模型
US20240028662A1 (en) Mitigating latency and/or resource usage in triggering actionable suggestions related to rendered content
US20190243515A1 (en) Invoke a Service in an Electronic Document Using a Trigger Entry
US20240184604A1 (en) Constraining generation of automated assistant suggestions based on application running in foreground
US20240061694A1 (en) Interactive application widgets rendered with assistant content
WO2024019768A1 (en) Mitigating latency and/or resource usage in triggering actionable suggestions related to rendered content
WO2017100011A1 (en) Spatially organizing communications
US20150160830A1 (en) Interactive content consumption through text and image selection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination