CN115769202A - 自动化助手的访客用户的瞬时个性化模式 - Google Patents

自动化助手的访客用户的瞬时个性化模式 Download PDF

Info

Publication number
CN115769202A
CN115769202A CN202080102329.2A CN202080102329A CN115769202A CN 115769202 A CN115769202 A CN 115769202A CN 202080102329 A CN202080102329 A CN 202080102329A CN 115769202 A CN115769202 A CN 115769202A
Authority
CN
China
Prior art keywords
computing device
user
data
helper
assistant
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080102329.2A
Other languages
English (en)
Inventor
马修·谢里菲
维克托·克尔布内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of CN115769202A publication Critical patent/CN115769202A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/606Protecting data by securing the transmission between two devices or processes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/32Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials
    • H04L9/3226Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials using a predetermined code, e.g. password, passphrase or PIN
    • H04L9/3231Biological data, e.g. fingerprint, voice or retina
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Biomedical Technology (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Bioethics (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本文中阐述的实施方案涉及一种自动化助手,其能够以瞬时个性化模式操作,和/或帮助分离的自动化助手根据瞬时个性化模式提供输出。瞬时个性化模式能够允许启用助手的装置的访客用户从启用助手的装置接收个性化响应——即使没有登录到启用助手的装置中。启用助手的装置的主机自动化助手能够通过后端过程与访客用户的自动化助手安全地通信。以此方式,从访客用户到主机自动化助手的输入查询能够根据访客自动化助手进行个性化——而无需访客用户直接使用他们自己的个人装置。

Description

自动化助手的访客用户的瞬时个性化模式
背景技术
人类可以利用交互式软件应用程序进行人与计算机的对话,交互式软件应用程序在本文中称为“自动化助手”(也称为“数字代理”、“聊天机器人”、“交互式个人助手”、“智能个人助手”和“对话代理”等)。例如,人类(当他们与自动化助手交互时可以被称为“用户”)可以使用说出的自然语言输入(即,话语)和/或通过提供文本(例如,键入的)自然语言输入来提供命令和/或请求,在一些情况下,说出的自然语言输入可以被转换成文本,然后进行处理。
在一些情况下,自动化助手能够经由多个不同的自动化助手装置(即,各自提供对自动化助手的访问的计算装置)中的每一个对用户可用,这些装置各自处于用户的登录模式。在登录模式中,计算装置能够利用用户的凭证,以使可经由计算装置访问的自动化助手能够至少选择性地访问(例如,响应于用户的说话者验证和/或面部验证)特定于用户的各种数据。此外,自动化助手能够在处理经由计算装置提交给自动化助手的用户请求时利用此类数据。例如,在执行来自用户的话语的语音识别时(例如,在选择语音识别语言时、在偏向于(某些)术语时等利用)、在确定对话语作出响应的基础内容(例如,从此类数据确定内容,或使用此类数据标识内容)时、和/或在确定以哪种语音合成话音(例如用户容易理解的话音)可听地呈现响应时,能够利用此类数据。因此,在登录模式下利用自动化助手提供了各种技术益处,诸如确保用户的请求的准确语音处理、生成与请求相关的响应和/或以用户容易理解的方式呈现响应。
然而,对于给定计算装置,可能经常需要多个用户装置交互以至少选择性地处于用户的登录模式。这些交互能够包括对自动化助手应用程序的多个触摸输入,以将用户添加为计算装置的授权用户。此外,对于用户不是管理员的计算装置,用户可能需要与管理员交互以使管理员将用户添加为授权用户。此外,对于仅由用户瞬时利用的给定计算装置,当用户以登录模式操作时,能够出现数据安全问题。
鉴于这些和其它考虑,对于用户的(多个)个人计算装置和/或用户持久地与其交互的(多个)计算装置(例如,用户家中的计算装置),以登录模式操作存在多个益处。然而,对于用户仅与之瞬时交互(例如,仅有限数量的交互和/或达到有限持续时间)的计算装置,用户可能无法处于登录模式(例如,给定用户可能缺乏被添加为登录用户的授权)。另外或替代地,将用户添加为登录用户所需的多个输入可能不保证用于瞬时交互,并且——此外,提供多个输入将需要瞬时交互的延迟。作为一个示例,当用户在朋友的家中或在企业(例如,酒店)利用计算装置时,用户可能仅能够在访客模式下操作计算装置的自动化助手。自动化助手的功能在访客模式中能够受到限制,和/或登录模式的各种益处在访客模式下可能不可用。
发明内容
本文中阐述的实施方案涉及用于基于用户个人的数据——特别是当由用户在用户不是登录/认证用户的自动化助手装置处提供(多个)请求时——瞬时调整(多个)自动化助手请求的处理的各种技术。这种瞬时自适应在本文中有时被称为根据瞬时个性化模式操作。在瞬时个性化模式下操作允许使用用户个人的数据来处理在主机自动化助手装置处接收的访客用户请求,尽管该用户未在主机自动化助手装置上认证。这能够包括例如,在请求是话语的情况下执行语音识别时使用数据,在确定对请求的响应的基础内容时使用数据和/或在确定以哪种语音合成话音可听地呈现响应时使用数据。尽管在一些情况下,访客用户没有与主机自动化助手装置的先前交互,但一些实施方案能实现瞬时个性化。
如本文中所使用的,“主机自动化助手”将被用于引用利用主机自动化助手装置的访客用户不是自动化助手的登录用户的主机自动化助手装置可访问的自动化助手的实例。如本文中所使用的,“访客自动化助手”将被用于引用访客用户是其登录用户的访客自动化助手装置可访问的自动化助手的实例。换句话说,访客用户不是主机装置的认证用户,并且因此主机自动化助手装置不能用于直接访问用户个人的自动化助手数据。另一方面,访客用户是访客自动化助手装置的认证用户,并且因此访客自动化助手装置能够提供对访客用户个人的和/或与访客用户的账户相关联地存储的自动化助手数据的直接访问。
在一些实施方案中,对于主机自动化助手针对访客用户以瞬时个性化模式操作,主机自动化助手可以确定访客用户与访客自动化助手相关联。例如,各种用户能够具有与他们自己的相应自动化助手相关联的助手账户(即,访客用户能够具有他们自己的个人自动化助手)。然而,当特定用户被认为是关于主机自动化助手(例如,可经由主机装置访问的自动化助手)的访客用户时,此主机自动化助手能够确定用户具有利用访客自动化助手(例如,可经由用户的个人计算装置访问的自动化助手)建立的账户。
在一些实施方案中,在以瞬时个性化模式操作之前,主机自动化助手能够确保访客用户与特定输入之间存在相关性。例如,能够响应于主机自动化助手装置接收到来自可能外出工作的访客用户的输入而初始化访客用户的相关性确定。输入能够是话语,诸如“助手,我的日历上有什么安排?”,其能够由访客用户提供给例如酒店房间中的主机自动化助手装置。响应于接收到话语,主机自动化助手能够初始地确定话语的来源是否对应于现有认证用户(例如,酒店所有者)。例如,主机自动化助手装置或另一网络装置能够确定提供话语的人的生物特征签名(例如,话音、面部、指纹、瞳孔等)是否与(多个)任何现有认证用户(例如,酒店的员工)的生物特征签字匹配。基于主机自动化助手确定话语由未经认证的用户(例如,与装置的任何登录用户不匹配)提供,主机自动化助手能够标识与向主机自动化助手提供话语或其它输入的用户相关联的附近装置。
例如,在一些实施方案中,主机自动化助手能够确认话语对应于在主机自动化助手装置附近区域内的用户。主机自动化助手能够生成:基于话语中体现的话音签名的话音嵌入和/或话音向量、基于一个或多个图像的面部嵌入和/或者面部向量、基于用户手指扫描的指纹嵌入和/和指纹向量,和/或能够在用户事先许可的情况下用于生物特征认证的任何其它信息。话音嵌入能够被用于对认证值(例如,秘密字符串或其它数据)进行加密,并且加密值能够与一个或多个附近装置共享。例如,包括访客装置的一个或多个装置能够经由蓝牙、超声波、局域网(LAN)、广域网(WAN)、互联网、内联网和/或Wi-Fi连接接收加密认证值。在一些实施方案中,有资格接收加密认证值的装置能够被限制为与主机装置相距阈值距离内的某些装置。作为响应,访客装置能够尝试使用访客装置可访问的相同或类似的话音嵌入来对加密认证值进行解密。因为主机装置和访客装置各自已经接收到来自访客用户的话语,所以其相应嵌入能够在潜在空间中具有类似布置。因此,具有与提供话语的访客用户相对应的话音嵌入的访客装置将能够对加密认证值进行解密。以此方式,主机装置能够确保话语对应于附近用户和附近装置,从而为那些真正接近主机装置的用户保留瞬时个性化模式。
在一些实施方案中,当访客装置对加密认证值进行解密时,访客装置能够将认证值传送回主机装置,以向主机装置指示访客用户已在访客装置上认证。响应于接收到正确的认证值,主机装置能够将话语传送到访客装置。例如,主机装置能够生成体现话语的加密查询数据,并且能够将加密查询数据传送到访客装置。传送的查询数据能够包括音频数据、文本数据(例如,在主机装置处执行的从语音到文本处理的文本)和/或自然语言处理数据(例如,动作意图的标识符和/或所述动作意图的参数)。然后,访客装置能够基于加密查询数据生成响应数据,并与主机装置共享响应数据。替代地或另外,主机装置能够向加密查询数据提供加密认证值,以便只有具有正确话音嵌入的访客装置才能对助手查询和认证值进行解密。然后,响应数据以及认证值能够被提供回主机装置,主机装置能够基于响应数据呈现输出。
根据前述示例,访客装置能够对加密查询数据进行解密,以确定访客用户正在请求主机自动化助手告诉访客用户访客用户的日历上有什么安排。基于此确定,访客装置(例如,访客用户的手机)能够使访客自动化助手或分离的应用程序访问访客用户的日历应用程序,以便生成用于主机自动化助手呈现的响应数据。当访客装置和/或相关联装置生成能够对应于预定事件的描述(例如,“今天下午6点,您有‘和爸爸共进晚餐’的安排”)的响应数据时,访客装置能够将响应数据传送到主机装置。替代地或另外,访客装置能够传送访客用户的一个或多个用户偏好,诸如自动化助手的优选话音简档。主机装置能够任选地接收响应数据作为加密响应数据。然后,主机装置能够处理响应数据,以便在主机装置的一个或多个接口处呈现对应输出。例如,作为此过程的结果,主机装置能够向访客用户提供可听响应,诸如“根据您的日历,今天下午6点,您有‘和爸爸共进晚餐’的安排”。以此方式,访客用户不必专门依赖其个人装置来从自动化助手接收个性化响应。这能够允许访客用户在离家时节约其个人装置的计算资源,诸如电池寿命和网络使用量。
主机自动化助手能够基于例如确定话语包括仅可由有权访问访客用户管理的日历应用程序的人访问的内容来确定话语适合于个性化响应。替代地或另外,自动化助手能够基于确定话语的主题(例如,日历)与用户可定制信息相关,和/或话语包括物主代词(例如,“我的”),确定话音适合于个性化响应。替代地或另外,一个或多个经过训练的机器学习模型能够被用于确定话语是否包括适合于个性化响应的查询。替代地或另外,主机自动化助手能够省略确定话语是否适合于个性化响应,而是确定访客用户是否与访客自动化助手相关联。如本文中所使用的,访客自动化助手能够是(i)由提供主机自动化助手的同一实体提供的另一自动化助手,(ii)由不同实体提供的另外的自动化助手,和/或(iii)与可经由对主机自动化助手可用的应用程序编程接口(API)访问的特定自动化助手相关联。
当主机自动化助手确定话语包括适合于个性化响应的查询时,和/或当主机自动化助手确定用户与分离的自动化助手相关联时,主机自动化助手可以初始化在瞬时个性化模式下的操作。然而,为了在过渡到瞬时个性化模式之前,主机自动化助手可以初始确认话语是否与附近用户和/或附近启用助手的装置相关。在一些实施方案中,当主机装置接收到包括个人查询的话语但是主机装置无法认证任何附近装置时,主机自动化助手能够提供非个性化的响应。替代地或另外,主机自动化助手能够提供响应,该响应明确地说明来自主机自动化助手的响应不是针对提供个人查询的访客用户个性化的和/或主机自动化助手不能标识与访客用户相关联的账户和/或装置。这能够让某些访客用户注意到,尽管他们可能意识到他们能够从主机自动化助手接收个性化结果,但他们当前接收的响应并非针对他们个性化的。在这些情况下,此类通知能够消除与能够在瞬时个性化模式下操作的任何主机自动化助手的错误通信。
在一些实施方案中,用户能够为主机自动化助手和访客自动化助手提供在主机自动化助手处理来自用户的查询之前协调个性化响应的许可。替代地或另外,用户能够基于时间、上下文、主题和/或适合于限制自动化助手的响应性的任何其它参数来限制主机自动化助手的权限。例如,当访客用户最初向主机自动化助手提供个人查询时,主机自动化助手能够请求访客自动化助手处理个人查询。响应于从主机自动化助手接收到请求,访客自动化助手能够向访客用户呈现提示,以便获得访客自动化助手与主机自动化助手协调个性化响应的许可。替代地或另外,访客自动化助手或另一应用程序能够提示访客用户关于访客用户是否希望限制主机自动化助手的瞬时个性化模式。作为响应,访客用户能够选择将主机自动化助手的瞬时个性化模式限制到特定时间段(例如,接下来的24小时)、特定地点(例如,当访客用户在主机自动化助手装置的阈值附近时)和/或特定上下文(例如,当访客用户的日历指示访客用户正在出差时)。
在一些实施方案中,当访客用户已经给予主机自动化助手提供个性化响应的许可时,主机自动化助手还能够操作以向访客用户提供个性化建议。例如,当访客用户住在包括主机自动化助手装置的酒店房间中,并且用户已经给予接收个性化响应的许可时,主机自动化助手能够基于用户的个人偏好呈现特定内容。例如,当访客用户提供话语时,或者无论访客用户是否提供自动化助手查询,访客装置都能够在访客装置已经授权此类共享的许可时与主机自动化助手共享用户偏好。使用此用户偏好数据,主机自动化助手能够选择和/或组织某些搜索结果,以便为用户呈现个性化内容。例如,用户偏好能够表征用户的语言偏好、用户的食物偏好、音乐偏好、事件偏好和/或能够在数据中表征的任何其它偏好。以此方式,当例如酒店房间中的主机装置处的主机自动化助手正在为访客用户呈现餐厅建议时,主机自动化助手将能够根据由访客自动化助手标识的用户偏好来筛选建议的内容。替代地或另外,当主机装置正在处理来自访客用户的话语时,主机装置能够使用访客自动化助手所采用的自动语音识别(ASR)模型来执行处理。替代地或另外,当主机装置响应于来自访客用户的话语而呈现可听输出时,主机装置能够根据由访客自动化助手选择的优选文本到语音(TTS)简档来呈现可听输出。
提供以上描述是作为本公开的一些实施方案的概述。下文将更详细地描述这些实施方案和其它实施方案的进一步描述。
其它实施方案可以包括存储指令的非暂时性计算机可读存储媒体,指令可由一个或多个处理器(例如,(多个)中央处理单元(CPU)、(多个)图形处理单元(GPU)和/或(多个)张量处理单元(TPU))实行以执行方法,诸如上文和/或本文中其它地方描述的一种或多种方法。其它实施方案可以包括一个或多个计算机的系统,系统包括一个或多个处理器,该处理器可操作以执行所存储的指令从而执行方法,诸如上文和/或本文中其它地方描述的一种或多种方法。
应理解,本文中更详细地描述的上述概念和另外概念的所有组合视为本文中所公开的主题的一部分。例如,在本公开结尾处出现的所要求保护的主题的所有组合视为本文中公开的主题的一部分。
附图说明
图1A和图1B分别图示用户与主机自动化助手交互的视图,该主机自动化助手能够在以访客用户的瞬时个性化模式操作时调用访客自动化助手。
图2A和图2B图示用户与主机自动化助手交互的视图,该主机自动化助手能够在以访客用户的瞬时个性化模式操作时采用访客用户偏好。
图3图示用于提供自动化助手的系统,该自动化助手能够以瞬时个性化模式操作和/或与以瞬时个性化模式操作的另一自动化助手通信。
图4图示当主机自动化助手尝试以瞬时个性化模式操作时处理来自主机自动化助手的请求的方法。
图5图示用于在一个或多个访客用户与自动化助手交互时以瞬时个性化模式操作自动化助手的方法。
图6是示例计算机系统的框图。
具体实施方式
图1A和图1B分别图示用户102与主机自动化助手交互的视图100和视图120,该主机自动化助手能够在以访客用户的瞬时个性化模式操作时调用访客自动化助手。例如,用户102能够在其相应国家之外旅行并住在特定酒店房间118中。用户102能够带着其个人装置110到达酒店房间118,个人装置110能够是便携式计算装置,诸如蜂窝电话。此外,酒店房间118能够包括一个或多个启用助手的装置,诸如主机装置108和主机电视106。
最初,当用户102到达酒店房间118时,主机装置108和主机电视106能够根据与诸如商务酒店的与用户102分离的实体相对应的账户进行操作。因此,最初,主机装置108和主机电视106将无权访问对应于用户102的不同账户,并且因此最初可能无法为用户102提供个性化响应。例如,用户102拥有的个人装置110能够提供对访客自动化助手的访问,该访客自动化助手能够基于与用户102的先前交互和/或其它数据向用户102提供个性化响应。然而,尽管主机装置108和主机电视106可以提供对主机自动化助手的访问,但是主机自动化助手可能无法在不与访客自动化助手交互的情况下向用户102提供个性化信息。
为了与访客自动化助手交互,主机自动化助手能够以瞬时个性化模式操作。此模式能够允许主机自动化助手向与另一自动化助手相关联的访客用户提供个性化响应。例如,用户102能够向主机装置108提供话语104,诸如“助手,这里有哪些我喜欢的餐厅?”响应于接收到话语104,经由主机装置108可访问的主机自动化助手能够任选地确定话语104是否包括能够具有个性化响应的一个或多个助手查询。例如,主机自动化助手能够确定话语是否体现能够使用主机自动化助手当前不可访问的数据来个性化的至少一个助手查询。替代地或另外,主机自动化助手能够省略确定话语104是否体现可以具有个性化响应的查询,而是确定话语104的来源是否与另一自动化助手相关联。
例如,在一些实施方案中,主机装置108能够在接收到话语104之前或之后向用户102的个人装置110提供主机相关性请求112。主机相关性请求112能够是针对个人装置110或访客自动化助手向主机自动化助手提供信息的请求,该信息指示访客自动化助手与提供话语104的用户102相关和/或启用访客自动化助手的装置与访客自动系统的操作附近区域相关。在一些实施方案中,主机装置108或相关联装置能够生成嵌入数据或其它真实数据,并且使用此数据对个人装置110将可访问的秘密数据进行加密,但不是不具有来自访客用户的特定许可的任何其它装置。嵌入数据能够是例如基于当用户102提供话语104时捕获的至少一些量的音频的话音嵌入或话音向量。以此方式,因为访客自动化助手先前已经从用户102接收到话语,所以访客自动化助手将能够使用相同的嵌入或类似的嵌入对秘密数据进行解密。例如,当个人装置110接收到主机相关性请求112时,个人装置110或另一相关联个人装置能够对主机相关性请求进行解密,以便标识秘密数据。然后,个人装置110能够生成标识秘密数据或以其它方式基于秘密数据的访客相关性响应114。如图1A所图示,秘密数据已经被个人装置110成功解密的指示能够被体现在访客相关性响应114中,并经由网络连接(例如,Wi-Fi、蓝牙、超声波连接、ZigBee等)被提供回至主机装置108。
当主机装置108确定附近个人装置110与用户102相关时,主机装置108能够向个人装置110提供主机查询数据122。替代地或另外,主机查询数据122能够与主机相关性请求112一起被提供给个人装置110。在一些实施方案中,主机装置108能够提供由用户102提供的话语的原始音频数据。替代地或另外,主机装置108能够提供能够由个人装置110解密的加密音频数据。替代地或另外,主机装置108能够提供表征用户102所请求的一个或多个动作的自然语言理解(NLU)数据。替代地或另外,主机装置108能够向个人装置110提供话语104的一个或多个部分的文本记录。
响应于接收到主机查询数据122,个人装置110和/或访客自动化助手能够生成访客查询响应数据124。访客查询响应数据124能够表征响应于来自用户102的话语104中体现的一个或多个查询的一个或多个自动化助手输出。在一些实施方案中,能够以允许主机装置108对自动化助手输出进行解密的方式对访客查询响应数据124进行加密。在一些实施方案中,访客查询响应数据124能够包括表征将由主机自动化助手呈现的输出128的自然语言内容。例如,当主机装置108从个人装置110接收到访客查询响应数据124时,主机装置108能够使用访客查询响应数据124来呈现可听输出128。例如,主机装置108的主机自动化助手能够呈现自然语言内容,诸如“这些是在电视上为您提供的一些个性化结果。”
替代地或另外,访客查询响应数据124能够表征响应于话语104但未以自然语言句子格式体现的数据。例如,访客查询响应数据124能够包括列表126,主机装置108能够使列表126在主机电视106处呈现。以此方式,用户102能够与主机装置无缝交互以便接收个性化响应,而不需要用户专门进行扩展的认证过程。
在一些实施方案中,个人装置110能够提示用户102关于用户102是否希望主机装置108不再将个人装置110用于瞬时个性化模式。替代地或另外,个人装置110和/或主机装置108能够提示用户关于用户102是否希望将瞬时个性化模式限制到某一时间段、某一位置和/或任何其它可标识的限制。以此方式,用户102能够允许主机装置108在用户假期期间严格地以瞬时个性化模式操作,而不必不断地确认批准主机装置108以瞬时个性化模式操作。这能够节约在用户102向主机自动化助手重复某些许可的交互期间可能消耗的计算资源。
图2A和图2B图示用户202与主机自动化助手交互的视图200和视图220,主机自动化助手能够在以访客用户的瞬时个性化模式操作时采用访客用户偏好。在一些实施方案中,图2A和图2B所图示的交互能够是图1A和图1B所图示的用户102与主机装置108之间的交互的延续。此外,关于图1A和图1B所描述的功能能够应用于图2A和图2B所图示的特征。
在一些实施方案中,用户202能够外出旅行并住在包括提供对主机自动化助手的访问的一个或多个主机装置的客房218中。例如,一个或多个主机装置能够包括主机装置208和主机电视206。当用户202在他们的家之外时,他们可以携带其个人装置210,个人装置210能够是蜂窝电话或提供对访客自动化助手的访问的其它装置,或者——也就是说,具有访问用户202的账户的先前许可的自动化助手。
在一些实施方案中,由于用户202正在旅行,并且主机装置208可能不针对用户202进行个性化,因此主机装置208可以从与用户202相关联的一个或多个装置和/或应用程序请求用户偏好数据。能够响应于用户202提供诸如“助手,我现在要睡觉了”的话语204来提供此类请求。响应于接收到话语204,经由主机装置208可访问的主机自动化助手能够确定话语204体现了针对自动化助手执行一个或多个动作和/或例程的请求。替代地或另外,主机自动化助手能够确定话语204体现了适合于个性化响应的一个或多个查询。
响应于接收到话语204,主机装置208和/或主机自动化助手能够提供主机相关性请求212,主机相关性请求212能够基于关于主机相关性请求112讨论的一个或多个实施方案。此外,根据关于图1A和图1B的访客相关性响应114讨论的一个或多个实施方案,个人装置210能够提供访客相关性响应214。基于成功地接收到访客相关性响应214,主机装置208和/或主机自动化助手能够向个人装置210提供主机查询数据222。主机查询数据222能够包括针对个人装置210和/或访客自动化助手提供可用于生成对话语204的响应的数据的请求。
例如,所请求的数据能够包括用户偏好数据、ASR数据、TTS数据、一个或多个经过训练的机器学习模型,和/或能够用于生成对话语204的响应的任何其它信息。例如,个人装置210和/或访客自动化助手能够向主机装置208提供访客助手数据224。访客助手数据224能够指示与话语204中体现的一个或多个查询相关联的一个或多个用户偏好。例如,因为话语204是指将帮助用户202的一个或多个助手动作(例如,访客自动化助手在晚上响应于用户202说“我要睡觉了”而执行的一个或多个助手动作的例程),所以在访客助手数据224中标识的用户偏好能够包括主机自动化助手在执行一个或多个助手动作时用于用户的一个或多个优选参数。
例如,一个或多个助手动作能够包括设置恒温器和播放某些特定音乐或其它音频。因此,在这种情况下,访客助手数据224能够标识恒温器的特定温度设置和要播放的特定无线电台。响应于接收到话语204并且基于访客助手数据224,主机自动化助手能够提供输出228,诸如“好的,我将播放一些大自然的声音并将温度设置为70度。”此外,基于访客助手数据224,主机自动化助手能够使房间218中的恒温器将温度设置改为70度,并且还能够呈现来自大自然的声音无线电台的另外音频。以此方式,当用户能够绕过直接向用户希望临时个性化的每个助手装置输入某些偏好时,能够节约计算资源。绕过此类操作能够减少音频处理的量或减少以其他方式执行以便使主机自动化助手捕获访客用户的所有偏好的其它输入处理的量。
图3图示用于提供自动化助手304的系统300,自动化助手304能够以瞬时个性化模式操作和/或辅助以瞬时个性化模式操作的另一自动化助手。自动化助手304能够作为在诸如计算装置302和/或服务器装置的一个或多个计算装置处提供的助手应用程序的一部分来操作。用户能够经由(多个)助手接口320与自动化助手304交互,助手接口320能够是麦克风、相机、触摸屏显示器、用户接口和/或能够在用户与应用程序之间提供接口的任何其它设备。例如,用户能够通过向助手接口320提供口头、文本和/或图形输入来初始化自动化助手304,以使自动化助手304初始化一个或多个动作(例如,提供数据、控制外围装置、访问代理、生成输入和/或输出等)。任选地,能够基于使用一个或多个经过训练的机器学习模型对上下文数据336的处理来初始化自动化助手304。上下文数据336能够表征可访问自动化助手304的环境的一个或多个特征,和/或被预测为意图与自动化助手304交互的用户的一个或多个特征。
计算装置302能够包括显示装置,该显示装置能够是包括用于接收触摸输入和/或手势的触摸接口以允许用户经由触摸接口控制计算装置302的应用程序334的显示面板。在一些实施方案中,计算装置302能够缺少显示装置,从而提供可听用户接口输出,而不提供图形用户接口输出。此外,计算装置302能够提供诸如麦克风的用户接口,以用于从用户接收说出的自然语言输入。在一些实施方案中,计算装置302能够包括触摸接口,并且能够没有相机,但是能够任选地包括一个或多个其它传感器。
计算装置302和/或其它第三方客户端装置能够通过诸如互联网的网络与服务器装置通信。此外,计算装置302和任何其它计算装置能够通过诸如Wi-Fi网络的局域网(LAN)彼此通信。计算装置302能够将计算任务卸载到服务器装置以便节省计算装置302处的计算资源。例如,服务器装置能够托管自动化助手304,和/或计算装置302能够将在一个或多个助手接口320处接收的输入传输到服务器装置。然而,在一些实施方案中,自动化助手304能够被托管在计算装置302处,并且能够在计算装置302处执行与能够自动化助手操作相关联的各种过程。
在各种实施方案中,自动化助手304的所有或少于所有方面能够在计算装置302上(例如,在客户端计算装置或服务器计算装置处)实现。此类实施方案能够基于来自自动化助手304的响应是否对应于未存储在客户端计算装置处的数据和/或响应是否对应于应由分离的计算装置执行的操作。在这些实施方案中的一些中,自动化助手304的方面经由计算装置302实现,并且能够与能够实现自动化助手304的其它方面的服务器装置连接。服务器装置能够任选地经由多个线程服务于多个用户及其相关联的助手应用程序。在经由计算装置302实现自动化助手304的所有或少于所有方面的实施方案中,自动化助手304能够是与计算装置302的操作系统分离的应用程序(例如,安装在操作系统的“之上”)——或能够替代地由计算装置302的操作系统直接实现(例如,被认为是操作系统的应用程序但与操作系统集成)。
在一些实施方案中,自动化助手304能够包括输入处理引擎306,输入处理引擎306能够采用多个不同的模块来处理计算装置302和/或服务器装置的输入和/或输出。例如,输入处理引擎306能够包括语音处理引擎308,语音处理引擎308能够处理在助手接口320处接收的音频数据以标识在音频数据中体现的文本。音频数据能够从例如计算装置302传输到服务器装置以便节约计算装置302处的计算资源。另外或替代地,音频数据能够在计算装置302处被专门处理。
将音频数据转换为文本的过程能够包括语音识别算法,该语音识别算法能够采用神经网络和/或统计模型来标识与单词或短语相对应的音频数据组。从音频数据转换的文本能够由数据解析引擎310解析,并作为文本数据对自动化助手304可用,该文本数据能够被用于生成和/或标识(多个)命令短语、(多个)意图、(多个)动作、(多个)时隙值和/或由用户指定的任何其它内容。在一些实施方案中,由数据解析引擎310提供的输出数据能够被提供给参数引擎312,以确定用户是否提供了与能够由自动化助手304和/或能够经由自动化助手304访问的应用程序或代理执行的特定意图、动作和/或例程相对应的输入。例如,助手数据338能够被存储在服务器装置和/或计算装置302处,并且能够包括定义能够由自动化助手304执行的一个或多个动作的数据,以及执行动作所需的参数。参数引擎312能够为意图、动作和/或时隙值生成一个或多个参数,并将该一个或多个参数提供给输出生成引擎314。输出生成引擎314能够使用该一个或多个参数与助手接口320通信以向用户提供输出,和/或与一个或多个应用程序334通信以向一个或多个应用程序334提供输出。
在一些实施方案中,自动化助手304能够是能够被安装在计算装置302的操作系统“之上”和/或能够自身形成计算装置302的操作系统的一部分(或全部)的应用程序。自动化助手应用程序包括和/或可以访问装置上语音识别、装置上自然语言理解和装置上履行。例如,装置上语音识别能够使用装置上语音识别模块来执行,该装置上语音识别模块使用本地存储在计算装置302处的端到端语音识别机器学习模型来处理音频数据(由(多个)麦克风检测)。装置上语音识别生成音频数据中存在的话语(若有)的识别文本。此外,例如,装置上自然语言理解(NLU)能够使用装置上NLU模块来执行,该装置上NLU模块处理使用装置上语音识别生成的识别文本以及任选地上下文数据来生成NLU数据。
NLU数据能够包括对应于话语的(多个)意图和任选地(多个)意图的(多个)参数(例如,时隙值)。装置上履行能够使用装置上实现模块来执行,该装置上履行模块利用NLU数据(来自装置上NLU)和任选地其它本地数据来确定解析话语的(多个)意图(以及任选地意图的(多个)参数)要采取的(多个)动作。这能够包括确定对话语的本地和/或远程响应(例如,回答)、与基于话语执行的与本地安装的(多个)应用程序的(多个)交互、基于话语(直接或经由(多个)对应的远程系统)向(多个)物联网(IoT)装置传输的命令,和/或基于话语执行的(多个)其它解析动作。然后,装置上履行能够发起所确定的(多个)动作的本地和/或远程执行/实行,以解析话语。
在各种实施方案中,能够至少选择性地利用远程语音处理、远程NLU和/或远程履行。例如,识别文本能够至少选择性地传输到用于远程NLU和/或远程履行的(多个)远程自动化助手组件。例如,能够任选地与装置上执行并行地或者响应于装置上NLU和/或装置上实现的故障而传输识别文本用于远程执行。然而,装置上语音处理、装置上NLU、装置上履行和/或装置上实行能够至少由于它们在解析话语时提供的延迟减少(由于不需要(多个)客户端-服务器往返来解析话语)而被优先化。此外,装置上功能能够是在没有网络连接或网络连接受限的情况下可用的唯一功能。
在一些实施方案中,计算装置302能够包括一个或多个应用程序334,应用程序334能够由与提供计算装置302和/或自动化助手304的实体不同的第三方实体提供。自动化助手304和/或计算装置302的应用程序状态引擎能够访问应用程序数据330,以确定能够由一个或多个应用程序334执行的一个或多个动作,以及一个或多个应用程序334中的每个应用程序的状态和/或与计算装置302相关联的相应装置的状态。自动化助手304和/或计算装置302的装置状态引擎能够访问装置数据332,以确定能够由计算装置302和/或与计算装置302相关联的一个或多个装置执行的一个或多个动作。此外,应用程序数据330和/或任何其它数据(例如,装置数据332)能够由自动化助手304访问以生成上下文数据336,上下文数据336能够表征特定应用程序334和/或装置正在执行的上下文,和/或特定用户正在访问计算装置302、访问应用程序334和/或任何其它装置或模块的上下文。
当一个或多个应用程序334正在计算装置302处执行时,装置数据332能够表征正在计算装置302处执行的每个应用程序334的当前操作状态。此外,应用程序数据330能够表征执行的应用程序334的一个或多个特征,诸如在一个或多个应用程序334的指示下呈现的一个或多个图形用户接口的内容。替代地或另外,应用程序数据330能够表征动作模式,该动作模式能够由相应应用程序和/或由自动化助手304基于相应应用程序的当前操作状态来更新。替代地或另外,一个或多个应用程序334的一个或多个动作模式能够保持静态,但能够由应用程序状态引擎访问,以便确定要经由自动化助手304初始化的适当动作。
计算装置302还能够包括助手调用引擎322,助手调用引擎322能够使用一个或多个经过训练的机器学习模型来处理应用程序数据330、装置数据332、上下文数据336和/或计算装置302可访问的任何其它数据。助手调用引擎322能够处理此数据,以便确定是否等待用户明确说出调用短语来调用自动化助手304,或者考虑该数据指示用户调用自动化助手的意图——而不是要求用户明确说出调用短语。例如,能够使用基于用户处于多个装置和/或应用程序展现各种操作状态的环境中的场景的训练数据的实例来训练一个或多个经过训练的机器学习模型。能够生成训练数据的实例以便捕获训练数据,该训练数据表征其中用户调用自动化助手的上下文和其中用户不调用自动化助手的其它上下文。
当根据训练数据的这些实例来训练一个或多个经过训练的机器学习模型时,助手调用引擎322能够使自动化助手304基于上下文和/或环境的特征或用户的非语言活动来检测或限制检测来自用户的说出的调用短语。另外或替代地,助手调用引擎322能够使自动化助手304基于上下文和/或环境的特征来检测或限制检测来自用户的一个或多个助手命令。在一些实施方案中,能够基于计算装置302检测到来自另一计算装置的助手抑制输出来禁用或限制助手调用引擎322。以此方式,当计算装置302检测到助手抑制输出时,将不基于上下文数据336调用自动化助手304——否则如果没有检测到助手禁止输出,则上下文数据236可能使自动化助手304被调用。
在一些实施方案中,系统300能够包括访客相关性引擎316。访客相关性引擎316能够被用于采用一个或多个操作来确定向自动化助手304提供输入的用户是访客用户还是主机用户。替代地或另外,当访客用户间接或直接向自动化助手304提供输入时,访客相关性引擎316能够确定访客用户是否在计算装置302或相关联计算装置的阈值附近区域内。例如,访客相关性引擎316能够确定与已经提供输入的用户相关联的话音签名或面部嵌入不对应于登录到自动化助手304中的用户,或者以其它方式具有对自动化助手304的(多个)特定访问许可。然后,访客相关性引擎316能够包括用户是访客用户。当访客相关性引擎316确定访客用户正在直接或间接地使用自动化助手304时,访客相关性引擎304能够调用访客签名引擎318,以便标识与正在与自动化助手304交互的访客用户相关的另一助手装置。
访客签名引擎318能够使用与访客用户相关联的真实签名和/或嵌入,以便标识可以与访客用户相关的一个或多个其它装置。例如,访客签名引擎318能够使用话音嵌入对能够被发送到一个或多个其它装置的通信进行加密。能够认为,能够对通信进行解密并且向自动化助手304指示装置成功地解密了通信的装置与访客用户相关。例如,访客装置能够使用从访客装置与访客用户之间的一个或多个先前交互生成的相同或类似的话音嵌入对通信进行解密。替代地或另外,访客签名引擎318能够标识只有某些装置可以访问的秘密(例如,诸如为了配对目的在用户接口处呈现的个人身份码),并且秘密能够被用于将特定访客装置与访客用户相关。当自动化助手304确定访客装置与提供输入的访客用户相关时,自动化助手304能够进一步与访客装置通信,以便使与访客用户相关联的访客自动化助手辅助处理从访客用户接收的输入。然后,访客装置能够响应于来自主机自动化助手304的请求提供响应数据。
在一些实施方案中,自动化助手304能够包括模式偏好引擎324,其能够确定与主机自动化助手交互的访客用户或访客用户的熟人的一个或多个偏好。例如,自动化助手304能够接收请求或提供请求,以标识用户在与他们自己的相应自动化助手交互时可能具有的一个或多个偏好。此类偏好能够包括用户明确标识的偏好或随时间推移适合于用户的偏好。例如,自动化助手能够提供偏好数据,该偏好数据标识在处理来自用户的输入或对用户的输出时能够使用的一个或多个经过训练的机器学习模型。例如,经过训练的机器学习模型能够包括ASR模型、语音到文本模型、文本到语音模型,和/或能够在自动化助手的一个或多个操作期间使用的任何其它类型的经过训练的计算机学习模型。这能够允许主机自动化助手提供可以更容易被访客用户解释的响应,因为这些响应可以例如以主机自动化助手通常不对主机用户发音的某种方式被发音。
在一些实施方案中,自动化助手304能够包括个人查询引擎326,个人查询引擎326能够确定来自用户的输入是否与能够针对特定用户个性化的信息相关联。例如,个人查询引擎326可以使用一个或多个经过训练的机器学习模型来确定对自动化助手304的输入和/或与自动化助手304的其它交互是否与能够针对特定用户个性化的信息相关联。在一些实施方案中,个人查询引擎326能够是任选的,并且能够任选地在访客用户提供被确定为与个性化信息相关联的输入时使自动化助手304转换到瞬时个性化模式。替代地或另外,当个人查询引擎326确定输入或交互不与个人信息相关联(例如,输入是能够使用不与特定用户账户相关联的公共数据来满足的请求)时,个人查询引擎326能够省略使自动化助手304转换到瞬时个性化模式。
图4图示当主机自动化助手尝试以瞬时个性化模式操作时处理来自主机自动化助手的请求的方法400。方法400能够由一个或多个应用程序、装置和/或能够执行与自动化助手相关联的操作的任何其它设备或模块执行。方法400能够包括确定是否已经从主机自动化助手接收到相关性请求的操作402。此确定能够在提供对访客自动化助手的访问的访客装置处进行,该访客自动化助手能够与在另一启用助手的装置附近的用户相关联。
当从主机自动化助手接收到相关性请求时,方法400能够从操作402进行到操作404,其能够包括确定访客用户是否能够与主机自动化助手的输入相关。在一些实施方案中,访客装置能够从主机装置接收加密数据,并且能够使用基于来自用户的唯一输入而生成的值对加密数据进行加密。例如,该值能够是语音向量或语音嵌入,其基于在用户向主机自动化助手提供说出的输入时用户的(多个)话音特征。以此方式,因为访客自动化助手先前已经从访客用户接收到话语,所以访客自动化助手将能够对从主机自动化助手传送的加密数据进行解密。
当主机自动化助手确定访客装置或访客自动化助手与向主机自动化助手提供输入的用户相关联时,方法400能够进行到操作406。否则,方法400能够返回到操作402。操作406能够是任选操作,其包括向主机自动化助手传送认证值。该认证值能够是例如由主机自动化助手生成的秘密,期望只有用户登录的访客装置才能对加密数据进行解密并标识认证值。替代地或另外,表征来自用户的输入中体现的一个或多个请求的查询数据能够由访客自动化助手接收,并且在不将认证值传送回主机装置的情况下起作用。
方法400能够从操作404或操作406进行到操作408,操作408能够包括处理标识来自用户的一个或多个助手查询的请求。一个或多个助手查询能够在从用户到主机自动化助手的话语中体现。然而,主机自动化助手能够将表征一个或多个助手查询的请求传送到访客自动化助手。响应于接收到请求,访客自动化助手或访客装置能够基于一个或多个助手查询生成响应数据。例如,访客自动化助手能够处理查询,就像用户直接向访客自动化助手提供这些查询一样。结果,访客自动化助手能够生成响应数据,该响应数据能够表征输出和/或主机自动化助手处理以便履行从用户到主机自动化助手的输入的其它数据。
方法400能够从操作410进行到操作412,操作412能够包括使主机自动化助手呈现基于响应数据的输出。例如,响应数据能够表征能够在主机装置的一个或多个接口处呈现的自然语言内容。自然语言内容能够响应于由用户向主机自动化助手提供的话语。以此方式,当用户在他们的家之外时,用户能够快速地个性化附近的自动化助手,这些助手能够以瞬时个性化模式操作。
图5图示用于在一个或多个访客用户与自动化助手交互时以瞬时个性化模式操作自动化助手的方法500。方法500能够由一个或多个应用程序、装置和/或能够提供对自动化助手的访问的任何其它设备或模块执行。方法500能够包括确定是否在主机自动化助手处接收到来自访客用户的输入的操作502。访客用户能够是未登录到主机自动化助手和/或当前有权访问主机自动化助手装置的所有者账户的人,该主机自动化助手装置提供对主机自动化助手的访问。当确定已经从访客用户接收到输入时,方法500能够从操作502进行到操作504。否则,主机自动化助手能够继续确定访客用户是否提供了输入。
操作504能够包括向在主机装置附近区域内操作的访客装置提供相关性请求。相关性请求能够是针对附近装置指示装置与向主机自动化助手提供输入的访客用户相关联的请求。方法500能够从操作504进行到操作506,操作506能够包括确定访客装置是否能够与来自访客用户的输入相关。在一些实施方案中,当访客装置能够对已经使用来自访客用户的输入的信息加密的认证值进行解密时,访客装置能够与输入相关。例如,能够使用面部嵌入、话音嵌入、图像嵌入、视频嵌入和/或访客用户的任何其它签名对认证值进行加密。因此,当访客装置能够使用类似的嵌入对认证值进行解密并且将认证值传送回主机装置时,方法500能够进行到操作510。否则,方法500能够进行到操作508,操作508能够包括在不依赖访客自动化助手的情况下响应访客用户。
操作510能够包括提供基于在来自用户的输入中体现的一个或多个助手查询的请求。例如,在一些实施方案中,主机自动化助手能够将输入数据传送到访客自动化助手,以便访客自动化助手能够基于输入数据生成响应数据。替代地或另外,主机自动化助手能够向访客自动化助手传送请求,以便从访客自动化助手获得用于响应一个或多个助手查询的用户偏好。在一些实施方案中,用户偏好能够包括但不限于主机自动化助手在向访客用户呈现响应时应采用的以便访客用户能够更容易地解释来自主机自动化助手的输出的语音简档或发音。
方法500能够从操作510进行到操作512,操作512能够包括处理基于一个或多个助手查询的响应数据。例如,在一些实施方案中,响应数据能够体现音频数据、文本数据、自然语言处理(NLP)数据,诸如动作意图和/或参数,和/或能够被用作生成自动化助手响应的基础的任何其它数据。方法500能够从操作512进行到操作514,操作514能够包括使主机自动化助手呈现基于响应数据的输出。例如,当主机自动化助手接收到NLP数据时,主机自动化助手能够使用也在NLP数据中标识的任何参数来执行由NLP数据标识的一个或多个动作。
图6是示例计算机系统610的框图600。计算机系统610通常包括经由总线子系统612与多个外围装置通信的至少一个处理器614。这些外围装置能够包括存储子系统624,存储子系统624包括例如存储器625和文件存储子系统626、用户接口输出装置620、用户接口输入装置622和网络接口子系统616。输入装置和输出装置允许用户与计算机系统610交互。网络接口子系统616提供到外部网络的接口,并且耦合到其它计算机系统中的对应接口装置。
用户接口输入装置622可以包括键盘、诸如鼠标、轨迹球、触摸板或图形输入板的指向装置、扫描仪、并入显示器中的触摸屏、诸如话音识别系统的音频输入装置、麦克风和/或其它类型的输入装置。通常,词“输入装置”的使用旨在包括将信息输入到计算机系统610或通信网络上的所有可能类型的装置和方式。
用户接口输出装置620可以包括显示子系统、打印机、传真机或诸如音频输出装置的非可视显示器。显示子系统可以包括阴极射线管(CRT)、诸如液晶显示器(LCD)的平板装置、投影装置或用于创建可见图像的一些其它机构。显示子系统还可以诸如经由音频输出装置提供非视觉显示。通常,词“输出装置”的使用旨在包括将信息从计算机系统610输出到用户或另一机器或计算机系统的所有可能类型的装置和方式。
存储子系统624存储提供本文中描述的一些或所有模块的功能的编程和数据结构。例如,存储子系统624可以包括执行方法400、方法500的所选方面和/或实现主机装置108、个人装置110、主机电视106、主机装置208、个人装置210、主机电视206、系统300和/或本文中讨论的任何其它应用程序、装置、设备和/或模块中的一个或多个的逻辑。
这些软件模块通常由处理器614单独执行或与其它处理器组合执行。存储子系统624中使用的存储器625能够包括多个存储器,包括用于在程序执行期间存储指令和数据的主随机存取存储器(RAM)630和存储了固定指令的只读存储器(ROM)632。文件存储子系统626能够为程序和数据文件提供持久性存储,并且可以包括硬盘驱动器、软盘驱动器以及相关联的可移动媒体、CD-ROM驱动器、光学驱动器或可移动媒体盒。实现某些实施方案的功能的模块可以由文件存储子系统626存储在存储子系统624中,或者存储在(多个)处理器614可访问的其它机器中。
总线子系统612提供了用于使计算机系统610的各种组件和子系统按预期彼此通信的机制。尽管总线子系统612被示意性地示出为单个总线,但是总线子系统的替代实施方案可以使用多个总线。
计算机系统610能够是各种类型,包括工作站、服务器、计算集群、刀片服务器、服务器场或任何其它数据处理系统或计算装置。由于计算机和网络的不断变化的性质,图6中描绘的计算机系统610的描述仅旨在作为用于示出一些实施方案的特定示例。计算机系统610的许多其它配置可能具有比图6中所描绘的计算机系统更多或更少的组件。
在本文中描述的系统收集关于用户(或如本文中经常提到的“参与者”)的个人信息或可以使用个人信息的情况下,可以为用户提供机会来控制程序或特征是否收集用户信息(例如,关于用户的社交网络、社交行为或活动、职业、用户爱好或用户的当前地理位置的信息),或者控制是否和/或如何从内容服务器接收可能与用户更相关的内容。此外,在存储或使用某些数据之前,可以以一种或多种方式对数据进行处理,从而删除个人可标识信息。例如,可以对用户的身份进行处理,使得不能针对用户确定个人可标识信息,或者可以在获得地理位置信息的情况下概括用户的地理位置(诸如城市、邮政编码或州级别),使得不能确定用户的特定地理位置。因此,用户可以控制如何收集关于用户的信息和/或使用信息。
虽然已经在本文中描述和示出了若干实施方案,但是可以使用用于执行本文中描述的功能和/或获得本文中描述的结果和/或一个或多个优点的各种其它装置和/或结构,并且这些变化和/或修改中的每一个都被认为在本文中描述的实施方案的范围内。更一般地,本文中描述的所有参数、尺寸、材料和配置都是示例性的,并且实际的参数、尺寸材料和/或配置将取决于使用教导的一个或多个特定应用。本领域技术人员将认识到,或能够仅使用常规实验来确定本文中所描述的具体实施方案的许多等效物。因此,应理解,上述实施方案仅通过示例的方式来呈现,并且在所附权利要求及其等效物的范围内,可以以不同于具体描述和要求保护的方式来实践实施方案。本公开的实施方案针对本文中描述的每个单独的特征、系统、物品、材料、套件和/或方法。另外,如果两个或多个此类特征、系统、物品、材料、套件和/或方法不是相互不一致的,则这两个或多个此类特征、系统、物品、材料、套件和/或方法的任何组合都被包括在本公开的范围内。
在一些实施方案中,一种由一个或多个处理器实施的方法被阐述为包括诸如以下操作:在第一计算装置处接收对第一计算装置处理由用户向第二计算装置提交的话语的请求,其中,第一计算装置和第二计算装置中的每一个位于共同环境中,并提供对相应自动化助手的访问,以及其中,第二计算装置使用签名数据对请求进行加密,签名数据由第二计算装置使用与用户相对应的生物特征签名生成。操作还能够包括:由第一计算装置处理来自第二计算装置的请求,以标识请求中体现的一个或多个助手请求。操作还能够包括:由第一计算装置生成助手响应数据,该助手响应数据表征响应于一个或多个助手请求的一个或多个自动化助手响应。操作还能够包括:由第一计算装置使第二计算装置使用助手响应数据为用户呈现一个或多个自动化助手响应。
在一些实施方案中,处理来自第二计算装置的请求包括:由第一计算装置访问与用户相关联的其它签名数据,以及使用其它签名数据标识来自第二计算装置的请求或其它数据中体现的认证值。在一些实施方案中,使第二计算装置呈现一个或多个自动化助手响应包括:从第一计算装置向第二计算装置提供认证值,其中,认证值是响应于第二计算装置接收到来自用户的话语由第二计算装置生成的。在一些实施方案中,生成助手响应数据包括:当第二计算装置接收到来自用户的话语时,由第一计算装置访问未存储在第二计算装置处的所存储内容。
在一些实施方案中,生成助手响应数据包括:访问与用户的账户相关联的内容,其中,第二计算装置未被认证直接访问用户的账户。在一些实施方案中,使第二计算装置呈现一个或多个自动化助手响应包括:经由局域网、蓝牙连接或广域网将助手响应数据从第一计算装置传输到第二计算装置,其中,传输助手响应数据使第二计算装置呈现一个或多个自动化助手响应。在一些实施方案中,方法还能够包括以下操作:在第一计算装置的接口处并且响应于接收到来自第二计算装置的请求,提供允许用户选择是否许可第一计算装置对请求或来自第二计算装置的后续请求作出响应的提示。在一些实施方案中,方法还能够包括以下操作:在第一计算装置的接口处并且响应于接收到来自第二计算装置的请求,提供允许用户限制何时许可第一计算装置对请求或来自第二计算装置的后续请求作出响应的提示。
在其它实施方案中,一种由一个或多个处理器实施的方法被阐述为包括诸如以下操作:接收来自与第一计算装置相关联的用户的话语,其中,在与第一计算装置和用户处于共同环境中的第二计算装置处接收话语,并且其中,第一计算装置和第二计算装置中的每一个提供对相应自动化助手的访问。操作还能够包括:由第二计算装置向第一计算装置提供针对第一计算装置确认用户已在第一计算装置上认证的第一请求,其中,该第一请求体现可由用户认证的一个或多个装置访问的认证值。操作还能够包括:由第二计算装置接收认证值,该认证值向第二计算装置指示第一计算装置能够访问认证值。操作还能够包括:由第二计算装置并且基于认证值,提供针对第一计算装置对话语中体现的一个或多个助手请求作出响应的第二请求。操作还能够包括:由第二计算装置并且响应于提供第二请求,接收响应于话语中体现的一个或多个助手请求的助手响应数据。操作还能够包括:由第二计算装置使第二计算装置的一个或多个接口呈现基于助手响应数据的自动化助手输出。
在一些实施方案中,操作还能够包括:由第二计算装置标识用户的真实签名;由第二计算装置通过使用真实签名对认证值进行加密来生成第一请求。在一些实施方案中,操作还能够包括:由第二计算装置使用真实签名来处理助手响应数据,其中,该助手响应数据由第一计算装置使用真实签名加密。在一些实施方案中,用户的真实签名对应于基于音频的签名或基于图像的签名。在一些实施方案中,操作还能够包括:响应于接收到话语,确定话语体现了对访问第二计算装置当前未被许可访问的内容的一个或多个请求。在一些实施方案中,提供针对第一计算装置对一个或多个助手请求作出响应的第二请求包括:向第一计算装置提供表征由用户向第二计算装置提供的话语的一个或多个部分的音频数据或文本数据。在一些实施方案中,提供针对第一计算装置对一个或多个助手请求作出响应的第二请求包括:响应于用户向第二计算装置提供话语,向第一计算装置提供表征将由自动化助手执行的一个或多个自动化助手动作的动作数据。
在又其它实施方案中,一种由一个或多个处理器实现的方法被阐述为包括诸如以下操作:接收来自与第一计算装置相关联的用户的话语,其中,在与第一计算装置和用户处于共同环境中的第二计算装置处接收话语,并且其中,第一计算装置和第二计算装置中的每一个提供对相应自动化助手的访问。操作还能够包括:由第二计算装置向第一计算装置提供针对第一计算装置确认用户在第一计算装置上认证的第一请求,其中,第一请求体现可由用户认证的一个或多个装置访问的认证值。操作还能够包括:当第一计算装置能够访问认证值时:由第二计算装置接收认证数据,该认证数据向第二计算装置指示第一计算装置能够访问认证值。操作还能够包括:由第二计算装置并且基于第一计算装置能够访问认证值,提供针对第一计算装置提供用户偏好数据以对话语中体现的一个或多个助手请求作出响应的第二请求。操作还能够包括:由第二计算装置并且响应于提供第二请求,接收用户偏好数据,该用户偏好数据标识当对用户提交的一个或多个助手请求作出响应时将由第二计算装置的自动化助手采用的一个或多个用户偏好。操作还能够包括:由第二计算装置使第二计算装置的一个或多个接口呈现基于用户偏好数据的自动化助手输出。
在一些实施方案中,方法还能够包括以下操作:基于用户偏好数据生成自动化助手输出进一步基于的自动化助手输出数据,其中,用户偏好数据标识当处理来自用户的话语时要使用的一个或多个自动语音识别模型。在一些实施方案中,操作还能够包括:基于用户偏好数据生成自动化助手输出进一步基于的自动化助手输出数据,其中,用户偏好数据标识当为用户呈现自动化助手输出时要使用的一个或多个文本到语音模型。操作还能够包括:基于用户偏好数据生成响应于一个或多个助手请求的自动化助手输出数据,其中,用户偏好数据标识当生成自动化助手输出数据时由第二计算装置标识的候选内容的内容排名。操作还能够包括:当第一计算装置不能访问认证值时:由第二计算装置使第二计算装置的一个或多个接口呈现不基于用户偏好数据的不同自动化助手输出。

Claims (22)

1.一种由一个或多个处理器实现的方法,所述方法包括:
在第一计算装置处接收针对所述第一计算装置处理由用户向第二计算装置提交的话语的请求,
其中,所述第一计算装置和所述第二计算装置中的每一个位于共同环境中,并提供对相应自动化助手的访问,以及
其中,所述第二计算装置使用签名数据对所述请求进行加密,所述签名数据由所述第二计算装置使用与所述用户相对应的生物特征签名生成;
由所述第一计算装置处理来自所述第二计算装置的所述请求,以标识所述请求中体现的一个或多个助手请求;
由所述第一计算装置生成助手响应数据,所述助手响应数据表征响应于所述一个或多个助手请求的一个或多个自动化助手响应;以及
由所述第一计算装置使所述第二计算装置使用所述助手响应数据为所述用户呈现所述一个或多个自动化助手响应。
2.根据权利要求1所述的方法,其中,处理来自所述第二计算装置的所述请求包括:
由所述第一计算装置访问与所述用户相关联的其它签名数据,以及
使用所述其它签名数据标识来自所述第二计算装置的所述请求或其它数据中体现的认证值。
3.根据权利要求2所述的方法,其中,使所述第二计算装置呈现所述一个或多个自动化助手响应包括:
从所述第一计算装置向所述第二计算装置提供所述认证值,
其中,所述认证值是响应于所述第二计算装置接收到来自所述用户的所述话语而由所述第二计算装置生成的。
4.根据前述权利要求中的任一项所述的方法,其中,生成所述助手响应数据包括:
当所述第二计算装置接收到来自所述用户的所述话语时,由所述第一计算装置访问未存储在所述第二计算装置处的所存储的内容。
5.根据前述权利要求中的任一项所述的方法,其中,生成所述助手响应数据包括:
访问与所述用户的账户相关联的内容,
其中,所述第二计算装置未被认证直接访问所述用户的所述账户。
6.根据前述权利要求中的任一项所述的方法,其中,使所述第二计算装置呈现所述一个或多个自动化助手响应包括:
经由局域网、蓝牙连接或广域网将所述助手响应数据从所述第一计算装置传输到所述第二计算装置,
其中,传输所述助手响应数据使所述第二计算装置呈现一个或多个自动化助手响应。
7.根据前述权利要求中的任一项所述的方法,还包括:
在所述第一计算装置的接口处并且响应于接收到来自所述第二计算装置的所述请求,提供允许所述用户选择是否许可所述第一计算装置对所述请求或来自所述第二计算装置的后续请求作出响应的提示。
8.根据前述权利要求中的任一项所述的方法,还包括:
在所述第一计算装置的接口处并且响应于接收到来自所述第二计算装置的所述请求,提供允许所述用户限制何时许可所述第一计算装置对所述请求或来自所述第二计算装置的后续请求作出响应的提示。
9.一种由一个或多个处理器实现的方法,所述方法包括:
接收来自与第一计算装置相关联的用户的话语,
其中,在与所述第一计算装置和所述用户处于共同环境中的第二计算装置处接收所述话语,并且
其中,所述第一计算装置和所述第二计算装置中的每一个提供对相应自动化助手的访问;
由所述第二计算装置向所述第一计算装置提供针对所述第一计算装置确认所述用户在所述第一计算装置上认证的第一请求,
其中,所述第一请求体现能够由所述用户认证的一个或多个装置访问的认证值;
由所述第二计算装置接收所述认证值,所述认证值向所述第二计算装置指示所述第一计算装置能够访问所述认证值;
由所述第二计算装置并且基于所述认证值,提供针对所述第一计算装置对所述话语中体现的一个或多个助手请求作出响应的第二请求;
由所述第二计算装置并且响应于提供所述第二请求,接收响应于所述话语中体现的所述一个或多个助手请求的助手响应数据;以及
由所述第二计算装置使所述第二计算装置的一个或多个接口呈现基于所述助手响应数据的自动化助手输出。
10.根据权利要求9所述的方法,还包括:
由所述第二计算装置标识所述用户的真实签名;以及
由所述第二计算装置通过使用所述真实签名对所述认证值进行加密来生成所述第一请求。
11.根据权利要求10所述的方法,还包括:
由所述第二计算装置使用所述真实签名来处理所述助手响应数据,
其中,所述助手响应数据由所述第一计算装置使用所述真实签名加密。
12.根据权利要求10或权利要求11所述的方法,其中,所述用户的所述真实签名对应于基于音频的签名或基于图像的签名。
13.根据权利要求9至12中的任一项所述的方法,还包括:
响应于接收到所述话语,确定所述话语体现了对访问所述第二计算装置当前未被许可访问的内容的一个或多个请求。
14.根据权利要求9至13中的任一项所述的方法,其中,提供针对所述第一计算装置对一个或多个助手请求作出响应的所述第二请求包括:
向所述第一计算装置提供表征由所述用户向所述第二计算装置提供的所述话语的一个或多个部分的音频数据或文本数据。
15.根据权利要求9至14中的任一项所述的方法,其中,提供针对所述第一计算装置对一个或多个助手请求作出响应的所述第二请求包括:
响应于所述用户向所述第二计算装置提供所述话语,向所述第一计算装置提供表征将由所述自动化助手执行的一个或多个自动化助手动作的动作数据。
16.一种由一个或多个处理器实现的方法,所述方法包括:
接收来自与第一计算装置相关联的用户的话语,
其中,在与所述第一计算装置和所述用户处于共同环境中的第二计算装置处接收所述话语,并且
其中,所述第一计算装置和所述第二计算装置中的每一个提供对相应自动化助手的访问;
由所述第二计算装置向所述第一计算装置提供针对所述第一计算装置确认所述用户已在所述第一计算装置上认证的第一请求,
其中,所述第一请求体现能够由所述用户认证的一个或多个装置访问的认证值;
当所述第一计算装置能够访问所述认证值时:
由所述第二计算装置接收认证数据,所述认证数据向所述第二计算装置指示所述第一计算装置能够访问所述认证值;
由所述第二计算装置并且基于所述第一计算装置能够访问所述认证值,提供针对所述第一计算装置提供用户偏好数据以对所述话语中体现的一个或多个助手请求作出响应的第二请求;
由所述第二计算装置并且响应于提供所述第二请求,接收所述用户偏好数据,所述用户偏好数据标识当对所述用户提交的所述一个或多个助手请求作出响应时将由所述第二计算装置的自动化助手采用的一个或多个用户偏好;以及
由所述第二计算装置使所述第二计算装置的一个或多个接口呈现基于所述用户偏好数据的自动化助手输出。
17.根据权利要求16所述的方法,还包括:
基于所述用户偏好数据生成所述自动化助手输出进一步基于的自动化助手输出数据,
其中,所述用户偏好数据标识当处理来自所述用户的所述话语时要使用的一个或多个自动语音识别模型。
18.根据权利要求16或权利要求17所述的方法,还包括:
基于所述用户偏好数据生成所述自动化助手输出进一步基于的自动化助手输出数据,
其中,所述用户偏好数据标识当为所述用户呈现所述自动化助手输出时要使用的一个或多个文本到语音模型。
19.根据权利要求16至18中的任一项所述的方法,还包括:
基于所述用户偏好数据生成响应于所述一个或多个助手请求的自动化助手输出数据,
其中,所述用户偏好数据标识当生成所述自动化助手输出数据时由所述第二计算装置标识的候选内容的内容排名。
20.根据权利要求16至19中的任一项所述的方法,还包括:
当所述第一计算装置不能访问所述认证值时:
由所述第二计算装置使所述第二计算装置的所述一个或多个接口呈现不基于所述用户偏好数据的不同自动化助手输出。
21.一种系统,所述系统包括一个或多个处理器和与所述一个或多个处理器可操作地耦合的存储器,其中,所述存储器存储指令,响应于一个或多个处理器对所述指令的执行,所述指令使所述一个或多个处理器执行根据权利要求1至20中的任一项所述的方法。
22.一种包括指令的至少一个非暂时性计算机可读介质,响应于一个或多个处理器对所述指令的执行,所述指令使所述一个或多个处理器执行根据权利要求1至20中的任一项所述的方法。
CN202080102329.2A 2020-08-14 2020-12-14 自动化助手的访客用户的瞬时个性化模式 Pending CN115769202A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/947,753 2020-08-14
US16/947,753 US11798546B2 (en) 2020-08-14 2020-08-14 Transient personalization mode for guest users of an automated assistant
PCT/US2020/064944 WO2022035456A1 (en) 2020-08-14 2020-12-14 Transient personalization mode for guest users of an automated assistant

Publications (1)

Publication Number Publication Date
CN115769202A true CN115769202A (zh) 2023-03-07

Family

ID=74181332

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080102329.2A Pending CN115769202A (zh) 2020-08-14 2020-12-14 自动化助手的访客用户的瞬时个性化模式

Country Status (6)

Country Link
US (2) US11798546B2 (zh)
EP (2) EP3983915B1 (zh)
KR (1) KR20230038771A (zh)
CN (1) CN115769202A (zh)
CA (1) CA3182638A1 (zh)
WO (1) WO2022035456A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210089295A (ko) * 2020-01-07 2021-07-16 엘지전자 주식회사 인공지능 기반의 정보 처리 방법
US20240184867A1 (en) * 2022-12-02 2024-06-06 Google Llc Adaptive Guest Mode for Portable Speakers

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8477940B2 (en) 2005-07-15 2013-07-02 Tyfone, Inc. Symmetric cryptography with user authentication
CN104518875B (zh) * 2013-09-27 2018-12-11 深圳市腾讯计算机系统有限公司 一种身份验证及账号获取的方法、移动终端
KR102065029B1 (ko) * 2014-03-28 2020-01-10 삼성전자주식회사 전자 장치의 데이터 공유 방법 및 그 전자 장치
US9257120B1 (en) * 2014-07-18 2016-02-09 Google Inc. Speaker verification using co-location information
EP3396667A1 (en) * 2017-04-24 2018-10-31 Koninklijke Philips N.V. Personal voice assistant authentication
EP4047600A3 (en) 2017-05-16 2022-12-07 Apple Inc. Far-field extension for digital assistant services
WO2019112624A1 (en) 2017-12-08 2019-06-13 Google Llc Distributed identification in networked system
DK201870355A1 (en) * 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
WO2019236745A1 (en) 2018-06-06 2019-12-12 Amazon Technologies, Inc. Temporary account association with voice-enabled devices
US11425118B2 (en) * 2018-08-06 2022-08-23 Giesecke+Devrient Mobile Security America, Inc. Centralized gateway server for providing access to services
US20200127988A1 (en) * 2018-10-19 2020-04-23 Apple Inc. Media intercom over a secure device to device communication channel
US11393478B2 (en) * 2018-12-12 2022-07-19 Sonos, Inc. User specific context switching
US11069363B2 (en) * 2018-12-21 2021-07-20 Cirrus Logic, Inc. Methods, systems and apparatus for managing voice-based commands
US10693872B1 (en) 2019-05-17 2020-06-23 Q5ID, Inc. Identity verification system
US11308957B2 (en) * 2019-09-24 2022-04-19 Amazon Technologies, Inc. Account association with device
US11043220B1 (en) * 2020-05-11 2021-06-22 Apple Inc. Digital assistant hardware abstraction

Also Published As

Publication number Publication date
US20240005924A1 (en) 2024-01-04
US20220051663A1 (en) 2022-02-17
WO2022035456A1 (en) 2022-02-17
EP3983915B1 (en) 2023-06-28
KR20230038771A (ko) 2023-03-21
US11798546B2 (en) 2023-10-24
EP4258257A3 (en) 2023-12-06
EP3983915A1 (en) 2022-04-20
CA3182638A1 (en) 2022-02-17
EP4258257A2 (en) 2023-10-11

Similar Documents

Publication Publication Date Title
US11289100B2 (en) Selective enrollment with an automated assistant
US11704940B2 (en) Enrollment with an automated assistant
US20240005924A1 (en) Transient personalization mode for guest users of an automated assistant
EP3920181B1 (en) Text independent speaker recognition
US20220224685A1 (en) Context-based authentication of a user
US11984128B2 (en) Automatic generation and/or use of text-dependent speaker verification features
US20240046935A1 (en) Generating and/or utilizing voice authentication biasing parameters for assistant devices
US20230352010A1 (en) Cross-device data synchronization based on simultaneous hotword triggers
US20220094650A1 (en) Asynchronous resumption of dialog session(s) between a user and an automated assistant based on intermediate user interaction(s)
WO2023091171A1 (en) Shared assistant profiles verified via speaker identification
KR20230147157A (ko) 어시스턴트 명령(들)의 컨텍스트적 억제
US20230409277A1 (en) Encrypting and/or decrypting audio data utilizing speaker features
US20240202265A1 (en) Pairing user headphones with a location-based automated assistant
US20240087564A1 (en) Restricting third party application access to audio data content
US20240111811A1 (en) Selecting a device to respond to device-agnostic user requests

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination