CN110800044A - 用于语音助手系统的话语权限管理 - Google Patents

用于语音助手系统的话语权限管理 Download PDF

Info

Publication number
CN110800044A
CN110800044A CN201880043160.0A CN201880043160A CN110800044A CN 110800044 A CN110800044 A CN 110800044A CN 201880043160 A CN201880043160 A CN 201880043160A CN 110800044 A CN110800044 A CN 110800044A
Authority
CN
China
Prior art keywords
user
utterance
rights
voice
computer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201880043160.0A
Other languages
English (en)
Other versions
CN110800044B (zh
Inventor
G·T·米勒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Amazon Technologies Inc
Original Assignee
Amazon Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Amazon Technologies Inc filed Critical Amazon Technologies Inc
Publication of CN110800044A publication Critical patent/CN110800044A/zh
Application granted granted Critical
Publication of CN110800044B publication Critical patent/CN110800044B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2141Access rights, e.g. capability lists, access control lists, access tables, access matrices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0638Interactive procedures
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephonic Communication Services (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Telephone Function (AREA)

Abstract

语音助手系统可以被配置为从受信任用户接收介绍新用户并为所述新用户指定访问权限的口头介绍。所述语音助手系统可以使用自动话语辨识来处理话语,并且可以解析文本以确定意图。所述语音助手系统还可以分析所述话语以确定与说出所述介绍的说话者相关联的简档。所述语音助手系统可以确定所述受信任用户包括管理权限。所述访问权限在被授予时可以允许所述新用户与所述语音助手系统进行交互,诸如利用所述语音助手系统发出命令、提取信息、播放媒体和/或执行其他动作,这些对于没有被受信任用户介绍给所述语音助手系统和/或没有与用户简档相关联的所述访问权限的人而言可能是不可用的。

Description

用于语音助手系统的话语权限管理
相关申请的交叉引用
本申请要求2017年9月8日提交的标题为“ADMINISTRATION OF PRIVILEGES BYSPEECH FOR VOICE ASSISTANT SYSTEM”的美国专利申请No.15/700,008的优先权,所述专利申请的全部公开内容在此以引用的方式并入。
背景技术
随着计算装置的不断发展,用户在与他们的计算装置进行交互时期望更加无缝和高效的体验。已经引入了许多不同的技术和机制以允许用户诸如通过使用机械装置(例如,键盘、鼠标等)、触摸屏、动作捕捉(例如,手势),以及甚至使用自然语言输入,诸如话语来与计算装置进行交互。当将话语用作输入时,计算装置经常将至少一些音频信息发送至远程计算装置以进行话语处理。随着用户变得习惯于使用语音输入来控制计算装置,可以重新构想常规任务以促进使用语音命令来完成任务。
一些计算任务需要安全的过程和/或实施和强制执行用户权限,以使得用户能够采取某些动作,诸如修改计算装置的管理设置。传统上,这些类型的动作是使用常规计算装置输入装置(诸如键盘)执行的。
附图说明
参考附图来描述详细描述。在图式中,附图标记的最左侧数字标识首次出现该附图标记的图式。在不同的图式中相同的附图标记指示类似或相同的项目。
图1是说明性计算环境的示意图。
图2是说明性计算架构的框图。
图3是用于分析来自受信任用户的话语和来自新用户的话语以管理对新用户的新权限的说明性过程的流程图。
图4是通过语音训练来创建和/或优化新用户的语音属性的说明性过程的流程图。
图5是基于先前的话语交互来将先前的话语数据与新用户相关联的说明性过程的流程图。
图6是为新用户或另一用户定制权限的说明性过程的流程图。
图7是用于创建和强制执行与授予的权限相关联的条件的说明性过程的流程图。
具体实施方式
本公开涉及使用语音助手系统来管理用户权限,其中所述系统使得用户能够执行管理员任务,诸如由新用户利用语音助手装置使用语音激活的命令来提供对计算资源的访问。语音助手装置可以包括执行以下操作的任何系统或装置:从用户接收音频命令,使用自动话语辨识(ASR)和自然语言处理(NLP)算法来处理音频以确定文本,基于文本返回回复,使用文本转话语算法来将回复转换为音频输出,并致使扬声器输出音频输出。在一些情况下,一些语音助手系统可以包括显示器,并且可以使得用户能够查看可以基于系统接收的话语输入而生成或更新的文本和/或其他图形。过程可能包括多个“回合”,所述“回合”定义包括该过程的多个相关实例的对话。语音助手系统的实例包括华盛顿州西雅图的Amazon.
Figure BDA0002338769630000021
提供的
Figure BDA0002338769630000022
加利福尼亚州库比蒂诺的Apple 提供的
Figure BDA0002338769630000024
和华盛顿州雷德蒙的Microsoft
Figure BDA0002338769630000026
提供的
Figure BDA0002338769630000025
语音助手系统可以包括通常至少包括网络接口、麦克风和扬声器的用户装置。用户装置可以是智能电话、专用装置和/或由用户控制并位于用户附近的其他装置。语音助手系统可以包括服务引擎,所述服务引擎可以由用户装置存储、存储在远程位置(例如,经由诸如在云计算配置中的远程计算装置等)和/或两者的组合。
在各个实施方案中,语音助手系统可以被配置为从受信任用户接收介绍,诸如陈述“这是我的朋友约翰·史密斯”的话语。这里,“约翰·史密斯”可以是之前没有与特定的语音助手系统交互的新用户。语音助手系统可以使用ASR以及可能NLU来处理话语并且可以解析文本以确定命令或意图。语音助手系统还可以分析话语或话语的属性,以确定向语音助手系统说出该介绍的说话者或与说话者相关联的简档。例如,语气、音量、词的速度和/或其他话语属性可以用于诸如通过确定说话者是受信任用户来确定说话者或与该说话者相关联的简档。语音助手系统可以可能经由访问对应的用户简档而确定受信任用户(例如“莎莉·琼斯”)包括管理权限,并且确定文本“这是我的朋友约翰·史密斯”是将至少一些用户权限授予约翰·史密斯的命令。用户权限可以允许约翰·史密斯与语音助手系统进行交互,诸如利用语音助手系统发出命令、提取信息(例如,提出问题和获得响应等)、播放媒体和/或执行其他动作,这些对于没有被受信任用户介绍给语音助手系统和/或没有与用户简档相关联和与特定的语音助手系统相关联的权限,但可能具有与不同的语音助手系统相关联的权限的人而言可能是不可用的。
语音助手系统可以从约翰·史密斯接收话语,诸如“嗨,我是约翰·史密斯”。语音助手系统可以使用ASR和可能NLU来分析该话语来解析文本以确定可能与将权限授予约翰·史密斯的先前的命令或意图相关联的另一命令或意图。语音助手系统还可以分析话语以确定话语的属性与约翰·史密斯相关联。语音助手系统可以为约翰·史密斯创建用户简档,并将话语的属性与约翰·史密斯的用户简档相关联,并且可以允许之后将话语识别为属于约翰·史密斯。
语音助手系统可以确定将由受信任用户授予约翰·史密斯的一个或多个权限。在一些实施方案中,语音助手系统可以为新用户约翰·史密斯确定权限的名称或组。例如,“朋友”组可以与将授予约翰·史密斯的权限相关联,所述权限允许约翰·史密斯能够经由语音助手系统使用语音命令来接收和/或访问某些信息和/或内容。可以将权限的其他预定义组授予用户,所述权限可以被分组并与诸如“客人”、“家庭成员”、“孩子”等名字相关联。
语音助手系统可以使得能够可能通过修改与特定组相关联的权限来创建权限的自定义组和/或自定义集合。在各种实施方案中,受信任用户可以创建权限的条件。例如,受信任用户可以陈述权限在特定时间到期以施加条件(例如,“在星期天之前,这是我的客人约翰·史密斯”)。受信任用户可以诸如通过声明“删除约翰·史密斯的日历访问”来删除权限,这可以撤消约翰·史密斯访问日历数据的权限。
在一些实施方案中,语音助手系统可以对新用户发起至少一些语音训练,以创建和/或优化语音属性,以使得之后能够借助新用户的语音来识别新用户。语音助手系统可以尝试定位和访问与用户相关联的先前的语音数据,所述先前的语音数据可能已经在与不同的语音助手系统的先前的用户交互期间被捕捉。例如,新用户可以与他自己的语音助手系统进行交互,并且可能希望导入由他自己的语音助手系统捕捉的一些信息以供另一语音助手系统使用。
本文中描述的技术和系统可以许多方式来实施。下文参考以下图式来提供实例实现方式。
图1是说明性计算环境100的示意图。环境100可以包括语音助手服务(VAS)102,所述语音助手服务与用户装置104交换数据,诸如音频数据和语音数据,以促进与和用户装置104相关联的受信任用户106进行交互。用户装置104可以是至少部分地使用由受信任用户106发出的话语命令进行控制的任何电子装置中的一者。在一些实施方案中,用户装置104可以是包括很少或没有其他输入控件(例如,很少或没有按钮、动作装置、成像装置等)的专用话语辨识装置。相反,用户装置104可以通过接收口头命令来从用户接收输入,所述口头命令由用户装置104和/或由云服务转换为信号,然后诸如通过与VAS 102交换数据被处理。VAS 102可以是作为来自用户装置104的直接或间接的响应而向用户装置104提供数据的任何服务。在一些实施方案中,因为可以在向服务中的一者发送请求之前执行至少一些话语辨识,所以VAS 102不需要被配置用于话语辨识。在各种实施方案中,VAS 102可以对由用户装置104捕捉并经由一个或多个网络108传输至VAS的音频执行至少一些ASR和/或NLU。网络可以包括有线网络、无线网络或两者。
VAS 102可以被配置为跟踪与用户装置104相关联的特定用户,并且可以通过分析语音输入(话语)的属性来识别那些用户,并且使用该识别来将用户简档与接收到的语音输入相关联。例如,当莎莉·琼斯通过对用户装置104讲话而提供语音输入时,可以将语音输入的至少一部分发送至VAS102,VAS 102可以分析语音输入以确定所述语音输入与莎莉·琼斯相关联。VAS 102可以将语音输入与莎莉·琼斯的用户简档相关联。用户简档可以包括莎莉·琼斯的权限,所述权限可以决定VAS 102如何响应莎莉·琼斯,VAS102向莎莉·琼斯提供什么信息等等。
如本文中所论述的,在一些实施方案中,VAS 102的操作中的至少一些可以在本地在用户装置104上执行。在各种实施方案中,VAS 102可以与用户装置104整体地实施,并且可以驻留在受信任用户106的本地(例如,在用户的住宅等)。在至少一个实施方案中,用户装置104可以是“哑”终端,其将所有音频传递给VAS 102以进行进一步处理并且不在本地处理命令。
用户与VAS 102诸如借助用户简档可以具有或可以建立特殊关系,所述用户简档包括使得Vas能够肯定地识别用户并确定用户权限的信息(VAS可以代表用户执行或访问的任务、数据、操作)。例如,第一用户可以经由VAS 102与用户帐户相关联,并且可以变成受信任用户或被授予受信任用户的权限。这些权限可以包括管理权利,所述管理权利可以使得受信任用户能够将权限授予其他用户。权限可以限定VAS 102和/或用户装置104与其他用户交互的方式。例如,VAS 102可以避免向没有权限(并且可能没有与VAS 102相关联的用户简档)的未注册用户提供信息。
VAS 102可以诸如通过证明音乐、指导、文档、执行任务(将内容添加到列表、设置提醒、启动计时器、添加日历事件等)等等来提供许多不同类型的信息、娱乐或数据。如本文中所论述的,VAS可以被配置为参与与用户的交互110。在一些实施方案中,交互可以包括多个请求和回复。每个请求/回复对可以定义“回合”,回合是通常借助用户装置104在用户与VAS102之间来回交换信息。例如,当用户提出问题或发出请求时,所述请求可以由用户装置104并且可能由VAS 102接收。用户装置104和/或VAS 102可以依次处理请求并生成系统回复,所述回复可以被发回给用户106。这种单个来回交换在本文中称为单个“回合”。虽然一些请求可能在单个回合中得到满足,但其他请求在用户达到预期结果或目标之前可能需要或包括多个回合。
为了将权限授予新用户112,用户装置104和/或VAS 102可以处理各种话语。作为实例,受信任用户106可以说:“请为我的客人约翰·史密斯提供用户权限”。用户装置104可以经由麦克风接收该话语,将声音转换为音频信号,并且处理那些信号中的至少一些和/或将信号发送至VAS 102以进行处理。无论处理协议如何,都可以分析话语,以至少确定(1)说话者是受信任用户106,以及(2)话语包括将权限授予“约翰·史密斯”的命令。如上文所论述的,用户装置104、VAS 102或两者都可以诸如通过使用ASR和/或NLU算法来处理话语以确定语音属性和或文本。
用户装置104可以从新用户112接收额外的话语,诸如包括“你好,我是约翰·史密斯”的话语。用户装置104可以经由麦克风接收该话语,将声音转换为音频信号,并且处理那些信号中的至少一些和/或将信号发送至VAS 102以进行处理。无论处理协议如何,都可以分析话语,将约翰·史密斯的语音属性与为约翰·史密斯创建的用户简档相关联。如上所述,可以响应于受信任用户的介绍和对权限的请求来创建用户简档。用户装置104、VAS 102或两者都可以处理话语以确定约翰·史密斯的语音属性,并将那些语音属性与用户简档相关联。用户简档可以包括为约翰·史密斯新创建的权限。
在一些实施方案中,用户装置104可以致使扬声器向新用户输出包括消息的声音,诸如“很高兴认识你,约翰。我们在另一个家庭说过话吗?”。例如,用户装置104和/或VAS可以与新用户进行交互,以通过语音训练和/或访问与新用户104相关联的先前的语音数据来获得额外的语音属性。
如与VAS 102相关联地示出的,可以为不同用户访问、创建和/或维护用户简档114,诸如受信任用户106的第一用户简档116和新用户的第二用户简档118。每个用户简档可以包括不同的权限120或与不同的权限120相关联,不同的权限120可以确定VAS 102和/或用户装置104如何或是否与对应的用户进行交互。在一些实施方案中,用户简档114可以与用户装置104相关联地存储在本地。用户简档114可以包括语音属性,所述语音属性可以用于将来自用户的话语与特定用户简档相关联,如上文所论述。
图2是说明性计算架构200的框图。可以在分布式或非分布式计算环境中实施计算架构200。计算架构200可以包括一个或多个处理器202和存储各种模块、应用程序、程序或其他数据的一个或多个计算机可读介质204。计算机可读介质204可以包括在由一个或多个处理器202执行时致使处理器执行本文中描述的操作的指令。
可以将实施方案提供为计算机程序产品,包括上面存储有指令(以压缩形式或非压缩形式)的非暂时性机器可读存储介质,所述指令可以用来对计算机(或其他电子装置)进行编程以执行本文中描述的过程或方法。机器可读存储介质可以包括但不限于硬盘驱动器、软磁盘、光盘、CD-ROM、DVD、只读存储器(ROM)、随机存取存储器(RAM)、EPROM、EEPROM、快闪存储器、磁卡或光卡、固态存储器装置或适合用于存储电子指令的其他类型的介质/机器可读介质。此外,也可以将实施方案提供为包括暂时性机器可读信号(以压缩形式或非压缩形式)的计算机程序产品。无论是否使用载波调制的机器可读信号的实例包括但不限于托管或运行计算机程序的计算机系统或机器可以被配置用来访问的信号,包括经由互联网或其他网络下载的信号。
在一些实施方案中,计算机可读介质204可以存储管理应用程序206,所述管理应用程序可以包括交互部件208、话语处理部件210、权限部件212和语音训练部件214。VAS102可以存储、管理和/或访问用户数据216和/或权限定义数据218。各种部件和/或数据存储装置可以一起存储或以分布式布置存储。依次描述了各种部件。
交互部件208可以促进与一个或多个用户的语音交互。例如,交互部件208可以借助麦克风和/或具有麦克风的用户装置来检测和接收语音输入,诸如来自用户的话语。在一些实施方案中,可以至少部分地在接收到唤醒词或其他命令后触发交互部件208,所述唤醒词或其他命令致使装置开始“聆听”并捕捉音频信号以进行进一步处理。交互部件208可以接收话语,诸如“这是我的朋友约翰·史密斯”,这可以是采取特定动作的命令和请求,诸如将“朋友”权限授予约翰·史密斯,所述权限可以使得约翰·史密斯能够使用语音命令与VAS 102进行交互。在各个实施方案中,交互部件208可以分析接收到的话语以确定与所述话语相关联的用户简档220。例如,交互部件208可以捕捉并分析接收到的话语的属性,诸如语气、音量、词的速度和/或其他话语属性,将那些属性与用户数据216中存储的话语属性222进行比较,并从用户数据216确定为说话者(用户)的受信任用户的用户简档。交互部件208可以致使音频输出与扬声器进行交互。例如,交互部件208可以诸如通过输出陈述“我已添加约翰·史密斯具有朋友组的权限”的音频来向介绍“约翰·史密斯”的说话者输出响应。当然,由交互部件208接收的特定命令和话语和/或交互部件208的特定输出可以与上文提供的实例不同,同时传达相似类型的信息。交互部件208可以基于所接收的话语来确定要执行的动作,这可能在通过话语处理部件210对话语进行处理之后。例如,交互部件208可以确定受信任用户希望将访问权限授予名为“约翰·史密斯”的新用户,并且该组权限是“朋友”权限。在一些实施方案中,交互部件208可以促进使用互联网语音协议(VoIP)连接到与新用户相关联的装置。这可以使得能够将权限授予与受信任用户不在相同位置的第二用户。作为实例,新用户可以是将使用受信任用户的属性但尚未达到该属性的客人。
话语处理部件210可以包括话语转文本算法和/或文本转话语算法,以实现音频与文本之间的转换。话语处理部件210可以采用ASR和/或NLU算法来理解说话者提供的命令和信息。话语处理部件210可以从交互部件208接收请求,诸如将音频转换为文本或将文本转换为音频,并为交互部件208执行请求的任务。
权限部件212可以确定可以被授予诸如新用户的其他用户的权限和/或管理所述权限。权限部件212可以与权限定义数据218进行交互,以基于与一个或多个用户(诸如,受信任用户)的交互来确定权限和/或修改权限。例如,受信任用户可以请求将某些权限分配224授予新用户,所述权限分配可以与新用户的用户简档220相关联。权限部件212可以将一组权限确定为权限分配224,所述权限分配可能由诸如“朋友”、“客人”、“家庭成员”、“孩子”或其他标签的标签指代,所述标签在权限定义数据218中与对应的特定权限相关联。例如,权限可以使得用户能够利用语音助手系统发出命令,提取信息(例如,提出问题和获得响应等),播放媒体,购买物品,控制其他装置(诸如家庭灯和/或恒温器)和/或执行其他动作,这些对于没有与用户简档相关联和与特定的语音助手系统相关联的权限,但可能具有与不同的语音助手系统相关联的权限的用户人而言可能是不可用的。
权限部件212,可能与一个或多个其他部件结合,可以使得受信任用户能够创建新组或定义一组,所述组包括该组的名称和该组的权限。权限部件212可以实施使得受信任用户能够经由话语或其他输入来录入选择和/或参数以定义一组权限的方案。例如,受信任用户可能希望创建名为“最好的朋友”的新组,该组包括与“朋友”组相似的权限,但还包括一些额外的权限和/或其他区别。如上所述,一些组可以由管理应用程序206预定义。权限部件212可以使得能够通过复制然后编辑现有组以及利用来自组的现有信息的其他技术来创建新组。
在一些实施方案中,权限部件212可以使得能够诸如通过将超出与组相关联的默认权限的额外权限授予用户,删除或删除一些权限,和/或创建权限的使用条件或持续时间(例如,创建权限的有效期、权限使用的时间段、支出限制、购买类别、消费限制等)来定制权限。作为实例,可以授予权限,所述权限使得新用户能够通过利用VAS 102进行话语输入来从服务中订购物品。权限可以包括以下条件,所述条件包括支出限制(例如,每周100美元等)以及有资格订购的物品的白名单和/或黑名单类别(例如,仅清洁物品,无视频游戏等)。作为另一实例,可以施加媒体消耗时间的条件,诸如“约翰一天可以听多达两个小时的音乐”或“约翰不可以听含有露骨歌词的音乐”。许多其他类型的条件可以与权限相关联。可以为每个用户定制条件,并且在一些情况下,可以为特定组定制条件。
语音训练部件214可以确定新用户语音的属性,以使得交互部件208能够响应于在与语音助手系统102的后续会话期间从新用户接收到话语而将用户简档220与新用户相关联。语音训练部件214可以分析来自新用户的话语,并且创建和/或优化话语的话语属性222,所述话语属性使得能够将后续话语与新用户的用户简档220相关联。在一些实施方案中,语音训练部件214可以致使交互部件208发起与新用户的对话,以从新用户提取额外话语以供语音训练部件214进行分析,以便进一步创建和/或优化话语的属性。语音训练部件214可以基于属性来维护或生成属性置信度得分,可以将所述属性置信度得分与阈值得分或得分范围进行比较。该比较可以告知是否可能使用循环过程(诸如下文参考图4描述的过程)向新用户请求额外的话语以提取或进一步优化属性。
在各种实施方案中,语音训练部件214可以尝试将新用户与先前获得的话语属性相关联,所述话语属性可以与不同的语音助手系统或VAS 102的不同实例相关联。例如,语音训练部件214可以致使交互部件208确定新用户是否与不同家庭中的语音助手系统交互过,然后收集过去交互的细节(如果存在并且可获得的话)以与正与新用户交互的VAS 102的当前实例相关联。通过关联先前的语音交互数据,如上所述,可以最小的训练或在没有额外训练的情况下获得新用户语音的话语属性222,然后可以存储所述话语属性或将其与用户简档220相关联。作为实例,语音训练部件214可以实施与下文参考图5描述的过程类似的过程。
当然,管理应用程序206可以包括更多或更少的部件。在一些实施方案中,交互部件208可以至少部分地作为操作系统或高级功能来操作,所述操作系统或高级功能调用较低级功能,诸如话语处理部件210、权限部件212和/或语音训练部件214,以执行使得受信任用户能够如本文中所描述借助话语介绍来向新用户提供许可的特定任务。
图3-7是示出为逻辑流程图中的方框的集合的说明性过程的流程图,所述方框表示可以用硬件、软件或其组合来实施的操作序列。在软件的上下文中,方框表示存储在一个或多个计算机可读存储介质上的计算机可执行指令,计算机可执行指令在由一个或多个处理器执行时执行所述操作。一般来说,计算机可执行指令包括执行特定功能或实施特定抽象数据类型的例程、程序、对象、部件、数据结构等。并不旨在将描述操作的顺序解释为限制,并且任何数量的所描述方框可以按任何顺序和/或并行地组合来实施所述过程。
图3是用于分析来自受信任用户的话语和来自新用户的话语以管理对新用户的新权限的说明性过程300的流程图。过程300是参考环境100和计算架构200描述的,但是可以在不同的环境中和/或利用不同的计算架构来实施。
在302处,交互部件208可以从受信任用户接收介绍新用户的话语介绍的音频。例如,语音助手系统102可以被配置为从受信任用户接收介绍,诸如陈述“这是我的朋友约翰·史密斯”的话语。这里,“约翰·史密斯”可以是之前没有与特定的语音助手系统102交互的新用户。
在304处,交互部件208可以确定话语是否来自具有将权限授予其他用户的管理权限的受信任用户。在一些实施方案中,交互部件208可以分析从操作302接收到的话语以确定与该话语相关联的用户简档。例如,交互部件208可以捕捉并分析接收到的话语的属性,诸如语气、音量、词的速度和/或其他话语属性,将那些属性与用户数据216中存储的属性进行比较,并从用户数据216确定为说话者(用户)的受信任用户的用户简档。语音助手系统102可以可能经由访问对应的用户简档而确定受信任用户(例如“莎莉·琼斯”)包括管理权限,并且确定文本“这是我的朋友约翰·史密斯”是将至少一些用户权限授予新用户的命令。
在306处,话语处理部件210和/或交互部件208可以解析请求中的数据以从在操作302处接收到的话语确定请求、新用户以及权限或权限组。例如,话语处理部件210可以使用ASR和可能NLU来将音频转换为文本。可以解析文本以确定各种信息,诸如用户名和权限信息。如果用户数据216中不存在用户简档,则交互部件208可以为新用户约翰·史密斯创建新用户简档。用户简档可以存储语音属性、权限、命令历史数据和/或其他信息。在一些实施方案中,权限部件212可以将权限的标签与在权限定义数据218中定义的权限相关联。语音助手系统102可以确定由受信任用户授予新用户的一个或多个权限。在一些实施方案中,语音助手系统102可以为新用户约翰·史密斯确定权限的名称或组。例如,“朋友”组可以与将授予约翰·史密斯的权限相关联,所述权限允许约翰·史密斯能够经由语音助手系统使用语音命令来接收和/或访问某些信息和/或内容。可以将权限的其他预定义组授予用户,所述权限可以被分组并与诸如“客人”、“家庭成员”等名字相关联。
在308处,交互部件208可以从新用户接收话语,诸如“嗨,我是约翰·史密斯”。在一些实施方案中,交互部件208可以诸如通过发出诸如“很高兴认识您,您能自我介绍一下吗?”的音频来提示新用户提供话语。语音助手系统可以使用ASR和可能NLU来分析该话语以解析文本以确定可能与将权限授予约翰·史密斯的先前的命令或意图相关联的另一命令或意图。在一些实施方案中,来自新用户的话语可以与时间戳相关联,可以将该时间戳与和来自受信任用户的话语相关联的时间戳进行比较。该比较可以用于强制执行可以由管理应用程序206强制执行的超时或其他时间条件。例如,授予权限可能要求新用户在受信任用户介绍(例如,经由操作302)之后的阈值时间量内进行回复(例如,经由操作308)。
在310处,语音训练部件214可以分析话语以确定话语的属性与约翰·史密斯的用户简档相关联。语音训练部件214可以与针对新用户的用户简档相关联地添加和/或优化属性,这可以允许之后将话语识别为属于新用户。在一些实施方案中,语音助手系统可以对新用户发起至少一些语音训练,以创建和/或优化语音属性,以使得之后能够借助新用户的语音来识别新用户。
在312处,权限部件212可以激活授予新用户的一个或多个权限,以使得新用户能够与语音助手系统102进行交互。用户权限可以允许新用户与语音助手系统进行交互,诸如利用语音助手系统发出命令、提取信息(例如,提出问题和获得响应等)、播放媒体和/或执行其他动作,这些对于没有被受信任用户介绍给语音助手系统和/或没有与用户简档相关联和与特定的语音助手系统相关联的权限,但可能具有与不同的语音助手系统相关联的权限的人而言可能是不可用的。
一旦新用户的新权限起作用,新用户就可以向用户装置104说出命令,所述命令可以被VAS 102(图1所示)接收。可以分析新用户的语音以确定属性,可以将所述属性与所存储的属性进行比较以确定用户的身份为新用户。可以将话语转换为文本并对其进行分析以确定请求,诸如“播放一些新音乐”。VAS 102可以在验证说话者(即,新用户)具有接收所请求的动作(例如,播放音乐)的有效和当前权限后,将文本和/或上下文返回给用户装置104以实施所请求的动作。
图4是通过语音训练来创建和/或优化新用户的语音属性的说明性过程400的流程图。过程400是参考环境100和计算架构200描述的,但是可以在不同的环境中和/或利用不同的计算架构来实施。
在402处,交互部件208可以从受信任用户接收介绍新用户的话语介绍的音频。例如,语音助手系统102可以被配置为从受信任用户接收介绍,诸如陈述“这是我的朋友约翰·史密斯”的话语。交互部件208可以与话语处理部件210结合地确定话语的文本,并解析话语以确定命令、新用户和对某些权限的请求,如上文参考过程300所论述的。
在404处,交互部件208可以从新用户接收话语,诸如“嗨,我是约翰·史密斯”,或者可能来自新用户的其他话语。语音助手系统102可以使用ASR以及可能NLU来分析该话语以解析文本以确定可能与将权限授予新用户的先前的命令或意图相关联的另一命令或意图。
在406处,语音训练部件214可以分析在操作404处接收到的话语,以确定话语的属性与新用户的用户简档相关联。语音训练部件214可以与针对新用户的用户简档相关联地添加和/或优化属性,这可以允许之后将话语识别为属于新用户。
在408处,语音训练部件214可以确定新用户的语音属性得分。语音属性得分可以表示用以从交互部件208接收到的其他音频中准确地识别出新用户的语音的属性的置信度水平。
在410处,可以将语音属性得分与阈值得分进行比较,以确定是否继续进行属性的语音训练。当语音属性得分小于阈值得分时(遵循决策操作410的“是”路线),则过程400可以前进至操作412。
在412处,语音训练部件214,可能与交互部件208结合地可以向新用户请求用于语音训练目的的额外话语。例如,语音训练部件214可以致使输出可以调用新用户的口头响应的音频问题,其中可以分析所述口头响应来确定或优化用于肯定地识别与新用户相关联的话语的属性。在一些实施方案中,语音训练部件214可以致使输出不同的问题和/或其他请求,以便调用新用户的话语,其中所述话语可以响应于问题、向新用户提供的信息的重复话语(例如,“跟着我重复……”)和/或对来自用户的话语的其他请求。
在一些实施方案中,管理应用程序206可以向新用户请求话语以确定唯一识别信息,可以将所述唯一识别信息添加到与新用户相关联的用户简档220。唯一识别信息可以用于为用户创建唯一识别符。作为实例,唯一识别信息可以包括新用户的电话号码、新用户的物理地址、新用户的电子邮件地址和/或与新用户相关联并且可以用来从其他用户中识别出新用户的其他唯一信息。唯一识别信息可以保持为私密的,并且在与语音助手系统102进行交互时可能尽可能地不与其他用户共享。
在414处,语音训练部件214可以确定是否从新用户接收到额外话语。当从新用户接收到额外话语时(遵循决策操作414的“是”路线),则过程400可以前进至操作404并如上文和本文中所描述继续处理。但是,在一些情况下,诸如当新用户离开麦克风的位置时或出于其他原因,新用户可能没有响应。当没有从新用户接收到额外话语时(遵循决策操作414的“否”路线),或者当语音属性得分达到或超过阈值得分时(遵循决策操作410的“否”路线),则过程400可以前进至操作416。
在416处,语音训练部件214可以至少临时地为新用户终止语音训练。例如,可以在与新用户的以后的交互中执行或恢复额外的语音训练。
在一些实施方案中,过程400可以验证受信任用户和新用户共同位于相同位置。例如,管理应用程序206可以请求用户采取某些动作和/或提供某些话语,所述话语提供共同定位的证据。但是,在一些实施方案中,可以不将共同定位施加为创建权限或将权限授予新用户的条件。例如,新用户可以是受信任用户的未来访客和客人,并且可以例如经由互联网语音连接或其他连接来与VAS 102通信。
图5是基于先前的话语交互来将先前的话语数据与新用户相关联的说明性过程500的流程图。过程500是参考环境100和计算架构200描述的,但是可以在不同的环境中和/或利用不同的计算架构来实施。
在502处,交互部件208可以从受信任用户接收介绍新用户的话语介绍的音频。例如,语音助手系统102可以被配置为从受信任用户接收介绍,诸如陈述“这是我的客人约翰·史密斯”的话语。交互部件208可以与话语处理部件210结合地确定话语的文本,并解析话语以确定命令、新用户和对某些权限的请求,如上文参考过程300所论述的。
在504处,交互部件208可以从新用户接收话语,诸如“嗨,我是约翰·史密斯”,或者可能来自新用户的其他话语。语音助手系统102可以使用ASR以及可能NLU来分析该话语以解析文本以确定可能与将权限授予新用户的先前的命令或意图相关联的另一命令或意图。
在506处,语音训练部件214可以询问新用户以定位先前的语音数据。例如,语音训练部件214可以致使交互部件208输出听得见的问题,“嗨约翰·史密斯,我们之前在不同的家庭或位置说过话吗?”。语音训练部件214可以执行该询问、类似的询问和/或额外的询问以确定使得语音训练部件214能够定位与约翰·史密斯相关联的先前的话语数据(如果存在任何这类话语数据的话)的信息。如果新用户指示他/她之前没有与系统说过话,则询问可以终止。操作506可以从新用户接收话语,处理该话语以确定文本,并且处理该文本以确定是否可获得先前的话语数据,以及如果可获得,确定它可能位于什么地方。例如,新用户可以指示他/她先前使用语音助手系统的家庭的地址。可以通过参考用户简档和/或一些个人识别信息(诸如用户简档名字)来进行其他关联。
在508处,语音训练部件214可以基于从用户接收的口头响应和由语音训练部件214执行的搜索来确定是否可以找到候选话语数据。搜索可以包括对语音助手系统可访问的信息的搜索。在一些实施方案中,新用户可以提供某些许可以使得语音助手系统能够访问先前的话语数据。例如,可以在第二装置上诸如经由移动电话使用文本消息传递或其他简单的两步认证过程来执行授权。在此,话语数据被称为“候选的”,因为直到下文描述的进一步处理才确认所述话语数据属于新用户。当找到候选话语数据时(遵循决策方框508的“是”路线),则过程500可以前进至操作510。
在510处,语音训练部件214可以将找到的候选话语数据与在会话期间从新用户接收到的话语数据进行比较(例如,响应于新用户说出像“嗨,我是约翰·史密斯”之类的话)。例如,语音训练部件214可以将当前话语数据的属性与候选话语数据的属性进行比较,以确定属性的差异是否小于对应阈值。例如,可以将诸如语气、速度、音量和/或其他语音属性的属性进行比较,以确定候选话语数据是否可能属于新用户,而实际上不是来自不同用户的话语数据。
在512处,语音训练部件214可以至少部分地基于在操作510处执行的比较来确定是否使用候选话语数据作为新用户的话语数据。当语音训练部件214确定不使用候选话语数据作为新用户的话语数据时(遵循决策操作512的“否”路线),则过程500可以前进至操作506以进行进一步处理,诸如再次尝试为新用户找到先前的话语数据。然而,在一些实施方案中,过程500可能在这里结束。当语音训练部件214确定使用候选话语数据作为新用户的话语数据时(遵循决策操作512的“是”路线),则过程500可以前进至操作514以进行进一步处理。
在514处,语音训练部件214可以将先前的话语数据与新用户相关联。例如,语音训练部件214可以使用先前的话语数据来为新用户创建和/或优化语音属性中的一些或全部,以使得交互部件能够通过在与语音助手系统102的后续交互期间接收到的新用户的话语来准确地识别他/她。在一些实施方案中,诸如当候选话语因为来自新用户而具有高置信度时,过程500可以省略或跳过操作510和512并且从决策操作508直接进行至操作514。当候选话语与仅具有单个用户的家庭相关联,与特定用户识别符相关联等等时,候选话语可以具有高置信度。
当没有找到候选话语数据时(遵循决策方框508的“否”路线),则过程500可以前进至操作516。例如,可以从不存在先前的话语数据(例如,新用户是初次用户)或者新用户提供的信息使得语音训练部件214不能定位任何候选话语数据的响应触发“否”路线。在516处,语音训练部件214可以诸如通过执行上述过程400的操作中的至少一些来执行语音训练。在一些实施方案中,如上文参考过程400所论述的,当新用户的语音得分小于阈值语音得分时,在操作514之后可以进行至少一些额外语音训练。
图6是为新用户或另一用户定制权限的说明性过程600的流程图。过程600是参考环境100和计算架构200描述的,但是可以在不同的环境中和/或利用不同的计算架构来实施。可以通过从受信任用户接收话语并且在没有新用户的存在或语音输入的情况下执行过程600。
在602处,交互部件208可以从受信任用户接收介绍新用户的话语介绍的音频。例如,语音助手系统102可以被配置为从受信任用户接收介绍,诸如陈述“这是我的客人约翰·史密斯,他也可以访问我的智能家居控件”的话语。在这里,“约翰·史密斯”可以是之前没有与特定的语音助手系统102交互的新用户。交互部件208可以确定话语是否来自具有将权限授予其他用户的管理权限的受信任用户。
在604处,话语处理部件210和/或交互部件208可以解析请求中的数据以从在操作602处接收到的话语确定请求、新用户以及权限或权限组。例如,话语处理部件210可以使用ASR和可能NLU来将音频转换为文本。可以解析文本以确定各种信息,诸如上文参考过程300中的操作306所论述的用户名和权限信息。语音助手系统102可以确定由受信任用户授予新用户的一个或多个权限。在一些实施方案中,语音助手系统102可以为新用户约翰·史密斯确定权限的名称或组。例如,“客人”组可以与将授予约翰·史密斯的权限相关联,所述权限允许约翰·史密斯能够经由语音助手系统使用语音命令来接收和/或访问某些信息和/或内容。可以将权限的其他预定义组授予用户,所述权限可以被分组并与诸如“客人”、“家庭成员”等名字相关联。
在606处,权限部件212可以确定对新用户的权限的修改、添加或删除。例如,在介绍新用户时,实例话语包括“访问我的智能家居控件”的额外权限。在该实例中,该权限可能不包括在“客人”权限集中,但可以添加到授予新用户约翰·史密斯的权限。请注意,额外权限可能不会影响具有客人权限的其他用户,而只会向新用户约翰·史密斯提供该额外权限。
在608处,权限部件212可以可能经由交互部件208确定是否要为新用户执行对权限的额外修改、添加和/或删除。例如,可能在不同的会话期间,诸如在不同的一天介绍新用户之后,可以通过来自受信任用户的话语接收对权限的修改、添加和/或删除中的至少一些。权限的删除可以包括个别权限的删除和/或所有新用户权限的撤销。对权限的修改可以包括修改条件,如下文例如参考图7所描述。当要执行对权限的另一修改、添加或删除时(遵循决策操作608的“是”路线),则过程600可以前进至操作606以如上所述处理额外信息。当将不执行对权限的另一修改、添加或删除时(遵循决策操作608的“否”路线),则过程600可以前进至操作610。
在610处,权限部件212可以激活授予新用户的一个或多个权限和/或对权限的修改、添加和/或删除,以使得新用户能够根据当前授予的权限与语音助手系统102进行交互。用户权限可以允许新用户与语音助手系统进行交互,诸如利用语音助手系统发出命令、提取信息(例如,提出问题和获得响应等)、播放媒体和/或执行其他动作,这些对于没有被受信任用户介绍给语音助手系统和/或没有与用户简档相关联和与特定的语音助手系统相关联的权限,但可能具有与不同的语音助手系统相关联的权限的人而言可能是不可用的。
图7是用于创建和强制执行与授予的权限相关联的条件的说明性过程700的流程图。过程700是参考环境100和计算架构200描述的,但是可以在不同的环境中和/或利用不同的计算架构来实施。
在702处,交互部件208可以从受信任用户接收介绍新用户的话语介绍的音频。例如,语音助手系统102可以被配置为从受信任用户接收介绍,诸如陈述“这是我今天的客人约翰·史密斯”的话语。这里,“约翰·史密斯”可以是之前没有与特定的语音助手系统102交互的新用户。交互部件208可以确定话语是否来自具有将权限授予其他用户的管理权限的受信任用户。
在704处,话语处理部件210和/或交互部件208可以解析请求中的数据以从在操作702处接收到的话语确定请求、新用户以及权限或权限组。例如,话语处理部件210可以使用ASR和可能NLU来将音频转换为文本。可以解析文本以确定各种信息,诸如上文参考过程300中的操作306所论述的用户名和权限信息。语音助手系统102可以确定由受信任用户授予新用户的一个或多个权限。在一些实施方案中,语音助手系统102可以为新用户约翰·史密斯确定权限的名称或组。例如,“客人”组可以与将授予约翰·史密斯的权限相关联,所述权限允许约翰·史密斯能够经由语音助手系统使用语音命令来接收和/或访问某些信息和/或内容。可以将权限的其他预定义组授予用户,所述权限可以被分组并与诸如“客人”、“家庭成员”等名字相关联。
在706处,权限部件212可以为新用户确定一个或多个权限的条件。例如,在介绍新用户时,实例语音包括“天”的条件。该条件可以是时间条件,诸如权限有效的有效期或时间范围。也可以施加其他条件,诸如新用户可以访问哪些内容(例如,没有带有露骨歌词的音乐等)。条件可以在来自受信任用户的单独话语中提供,并且不必包括在对新用户约翰·史密斯的介绍或权限的初始授予中。
在708处,权限部件212可以激活授予新用户的一个或多个权限,以使得新用户能够与语音助手系统102进行交互。用户权限可以允许新用户与语音助手系统进行交互,诸如利用语音助手系统发出命令、提取信息(例如,提出问题和获得响应等)、播放媒体和/或执行其他动作,这些对于没有被受信任用户介绍给语音助手系统和/或没有与用户简档相关联和与特定的语音助手系统相关联的权限,但可能具有与不同的语音助手系统相关联的权限的人而言可能是不可用的。
在710处,权限部件212可以确定条件是否已经生效,诸如权限是否已经到期或当前不可用。当权限不受条件限制或未终止时(遵循决策操作710的“否”路线),则过程700可以前进至操作708,并继续使得新用户能够使用由受信任用户授予的权限。当权限受条件限制并终止时(遵循决策操作710的“是”路线),则过程700可以前进至操作712。
在712处,权限部件212可以至少暂时地撤销受条件限制并且已经到期的一个或多个权限。例如,如果权限受到一天中的时间控制的条件限制(例如,权限仅在上午8点至晚上10点有效等),则可以在稍后的时间再次激活权限。
在一些实施方案中,可以将条件应用于多个用户。例如,受信任用户可能正在举办聚会并且可以陈述“让每个人今晚都能控制音乐”。权限部件212可以为所有人创建访问音乐控制命令,诸如通过对语音助手系统102说来播放音乐、选择音乐和/或执行其他音乐控制命令的许可。权限部件212可以创建有效期为当天(由于时间框架“今晚”)的条件。权限部件212可以在持续时间结束时(例如,一天结束或某一其他时间)撤消所有人控制音乐的权限。
以下说明性实施方案提供了本文中描述的主题的进一步说明。说明性实施方案包括:
1.一种由语音控制助手实施的计算机实施的方法,所述计算机实施的方法包括:从与具有管理权限的第一用户简档相关联的第一用户接收第一话语,所述第一话语至少包括识别一组权限以及将获得在所述一组权限中包括的权限的第二用户;分析所述第一话语的第一属性以确定所述第一话语与所述第一用户简档相关联;至少部分地基于对所述第一话语的处理来确定所述第二用户和所述一组权限;创建与所述第二用户相关联的第二用户简档;提供向所述第二用户请求话语的提示;从所述第二用户接收第二话语;确定从所述第二话语得到的第二属性,所述第二属性使得能够识别与所述第二用户相关联的后续话语;以及将所述第二属性和所述一组权限与所述第二用户简档相关联。
2.如实施方案1中描述的计算机实施的方法,其中所述提示包括请求所述第二用户提供将作为话语数据而接收的话语的问题,并且其中所述问题是从语音训练过程所使用的多个预定问题中选择的。
3.如实施方案1或2中任一者描述的计算机实施的方法,所述计算机实施的方法还包括:至少部分地基于所述第二用户提供的额外话语来将所述第二用户与先前的话语数据相关联;以及至少部分地基于所述先前的话语数据来创建所述第二属性以在与所述第二用户的后续话语交互期间辨识所述第二用户简档。
4.如实施方案1、2或3中任一者描述的计算机实施的方法,所述计算机实施的方法还包括:至少部分地基于所述第二属性来创建语音辨识得分,将所述语音辨识得分与阈值语音得分进行比较,以确定是否向所述第二用户提供从所述第二用户获得用于语音训练的额外话语的另一提示;以及至少部分地基于所述将所述语音辨识得分与所述阈值语音得分进行比较,向所述第二用户提供向所述第二用户请求额外话语的所述另一提示。
5.如实施方案1、2、3或4中任一者描述的计算机实施的方法,所述计算机实施的方法还包括接收与所述第二用户的所述一组权限相关联的有效期,所述有效期的流逝致使从所述第二用户简档撤销所述一组权限。
6.如实施方案1、2、3、4或5中任一者描述的计算机实施的方法,所述计算机实施的方法还包括以下各项中的至少一者:响应于来自所述第一用户的包括撤销与所述第二用户简档的所述一组权限相关联的第一权限的命令的第三话语而撤销所述第一权限;或响应于来自所述第一用户的包括添加第二权限的命令的第三话语而向所述第二用户简档添加所述第二权限。
7.一种系统,包括:一个或多个处理器;以及存储器,所述存储器存储计算机实施的指令,所述计算机实施的指令在被执行时致使所述一个或多个处理器执行动作以:从与具有管理权限的第一用户简档相关联的第一用户接收第一话语,所述第一话语至少包括识别权限以及将获得所述权限的第二用户;处理所述第一话语的内容以至少确定所述第二用户和所述权限;从所述第二用户接收第二话语;确定从所述第二话语得到的第二属性,所述第二属性使得能够识别与第二用户简档相关联的后续话语,所述第二用户简档与所述第二用户相关联;以及将所述第二属性和所述权限与所述第二用户简档相关联。
8.如实施方案7描述的系统,其中所述计算机实施的指令致使所述一个或多个处理器执行进一步的动作以:向新用户提供提示,所述提示包括请求所述第二用户提供将作为话语数据而接收的话语的问题,并且其中所述问题是从语音训练过程所使用的多个预定问题中选择的。
9.如实施方案7或8中任一者描述的系统,其中所述第一话语包括组的名称,并且其中所述组至少包括所述权限。
10.如实施方案7、8或9中任一者描述的系统,其中所述计算机实施的指令致使所述一个或多个处理器执行进一步的动作以:至少部分地基于所述第二用户提供的额外话语来将所述第二用户与先前的话语数据相关联;以及至少部分地基于所述先前的话语数据来创建所述第二属性以在与所述第二用户的后续话语交互期间辨识所述第二用户简档。
11.如实施方案7、8、9或10中任一者描述的系统,其中所述计算机实施的指令致使所述一个或多个处理器执行进一步的动作以:至少部分地基于所述第二属性来创建语音辨识得分,以及响应于所述语音辨识得分与阈值语音得分的比较而确定向所述第二用户提供从所述第二用户获得用于语音训练的额外话语的提示。
12.如实施方案7、8、9、10或11中任一者描述的系统,其中所述计算机实施的指令致使所述一个或多个处理器执行进一步的动作以:接收与所述第二用户的所述权限相关联的条件;以及响应于与所述第二用户的后续语音交互而强制执行所述条件。
13.如实施方案7、8、9、10、11或12中任一者描述的系统,其中所述计算机实施的指令致使所述一个或多个处理器执行进一步的动作以响应于来自所述第一用户的包括撤销与所述第二用户相关联的至少一个权限的命令的第三话语而撤销所述至少一个权限。
14.如实施方案7、8、9、10、11、12或13中任一者描述的系统,其中所述计算机实施的指令致使所述一个或多个处理器执行进一步的动作以响应于来自所述第一用户的包括添加至少一个权限的命令的第三话语而向所述第二用户简档添加所述至少一个权限。
15.如实施方案7、8、9、10、11、12、13或14中任一者描述的系统,其中所述第一话语包括至少包括所述权限的第一组的名称,所述第一组与可用于授予所述第二用户简档的第二组权限不同。
16.如实施方案7、8、9、10、11、12、13、14或15中任一者描述的系统,其中所述计算机实施的指令致使所述一个或多个处理器执行进一步的动作以使用互联网语音协议连接到与所述第二用户相关联的装置,并且其中所述从所述第二用户接收第二话语是使用所述互联网语音协议接收的。
17.一种方法,包括:从与具有管理权限的第一用户简档相关联的第一用户接收第一话语,所述第一话语至少包括识别权限以及将获得所述权限的第二用户;分析所述第一话语的第一属性以确定所述第一话语与所述第一用户简档相关联;至少部分地基于对所述第一话语的处理来确定所述第二用户和所述权限;从所述第二用户接收第二话语;确定从所述第二话语得到的第二属性,所述第二属性使得能够识别与第二用户简档相关联的后续话语,所述第二用户简档与所述第二用户相关联;以及将所述第二属性和所述权限与所述第二用户简档相关联。
18.如实施方案17描述的方法,所述方法还包括:至少部分地基于所述第二属性来创建语音辨识得分,以及将所述语音辨识得分与阈值语音得分进行比较,以确定是否向所述第二用户提供从所述第二用户获得用于语音训练的额外话语的另一提示。
19.如实施方案17或18中任一者描述的方法,所述方法还包括以下各项中的至少一者:响应于来自所述第一用户的包括撤销与所述第二用户简档的一组权限相关联的第一权限的命令的第三话语而撤销所述第一权限;或响应于来自所述第一用户的包括添加第二权限的命令的第三话语而向所述第二用户简档添加所述第二权限。
20.如实施方案17、18或19中任一者描述的方法,所述方法还包括:接收与所述第二用户的所述权限相关联的条件;以及响应于与所述第二用户的后续语音交互而强制执行所述条件。
总结
虽然已经以特定于结构特征和/或方法动作的语言描述了主题,但是应理解,所附权利要求中定义的主题不必限于所描述的特定特征或动作。而是,公开特定特征和动作作为实施权利要求的说明性形式。

Claims (15)

1.一种计算机实施的方法,所述计算机实施的方法包括:
从与具有管理权限的第一用户简档相关联的第一用户接收第一话语,所述第一话语至少包括识别一组权限以及将获得在所述一组权限中包括的权限的第二用户;
分析所述第一话语的第一属性以确定所述第一话语与所述第一用户简档相关联;
至少部分地基于对所述第一话语的处理来确定所述第二用户和所述一组权限;
提供向所述第二用户请求话语的提示;
从所述第二用户接收第二话语;
确定从所述第二话语得到的第二属性,所述第二属性使得能够识别与所述第二用户相关联的后续话语;以及
将所述第二属性和所述一组权限与第二用户简档相关联。
2.如权利要求1所述的计算机实施的方法,其中所述提示包括请求所述第二用户提供将作为话语数据而接收的话语的问题,并且其中所述问题是从语音训练过程所使用的多个预定问题中选择的。
3.如权利要求1或2中任一项所述的计算机实施的方法,所述计算机实施的方法还包括:
至少部分地基于所述第二用户提供的额外话语来将所述第二用户与先前的话语数据相关联;以及
至少部分地基于所述先前的话语数据来创建所述第二属性以在与所述第二用户的后续话语交互期间辨识所述第二用户简档。
4.如权利要求1、2或3中任一项所述的计算机实施的方法,所述计算机实施的方法还包括:
至少部分地基于所述第二属性来创建语音辨识得分,
将所述语音辨识得分与阈值语音得分进行比较,以确定是否向所述第二用户提供从所述第二用户获得用于语音训练的额外话语的另一提示;以及
至少部分地基于所述将所述语音辨识得分与所述阈值语音得分进行比较,向所述第二用户提供向所述第二用户请求额外话语的所述另一提示。
5.如权利要求1、2、3或4中任一项所述的计算机实施的方法,所述计算机实施的方法还包括接收与所述第二用户的所述一组权限相关联的有效期,所述有效期的流逝致使从所述第二用户简档撤销所述一组权限。
6.如权利要求1、2、3、4或5中任一项所述的计算机实施的方法,所述计算机实施的方法还包括以下各项中的至少一者:
响应于来自所述第一用户的包括撤销与所述第二用户简档的所述一组权限相关联的第一权限的命令的第三话语而撤销所述第一权限;或
响应于来自所述第一用户的包括添加第二权限的命令的第三话语而向所述第二用户简档添加所述第二权限。
7.一种系统,所述系统包括:
一个或多个处理器;以及
存储器,所述存储器存储计算机实施的指令,所述计算机实施的指令在被执行时致使所述一个或多个处理器执行动作以:
从与具有管理权限的第一用户简档相关联的第一用户接收第一话语,所述第一话语至少包括识别权限以及将获得所述权限的第二用户;
处理所述第一话语的内容以至少确定所述第二用户和所述权限;
从所述第二用户接收第二话语;
确定从所述第二话语得到的第二属性,所述第二属性使得能够识别与第二用户简档相关联的后续话语,所述第二用户简档与所述第二用户相关联;以及
将所述第二属性和所述权限与所述第二用户简档相关联。
8.如权利要求7所述的系统,其中所述计算机实施的指令致使所述一个或多个处理器执行进一步的动作以:
向所述第二用户提供提示,所述提示包括请求所述第二用户提供将作为话语数据而接收的话语的问题,并且其中所述问题是从语音训练过程所使用的多个预定问题中选择的。
9.如权利要求7或8中任一项所述的系统,其中所述计算机实施的指令致使所述一个或多个处理器执行进一步的动作以:
至少部分地基于所述第二用户提供的额外话语来将所述第二用户与先前的话语数据相关联;以及
至少部分地基于所述先前的话语数据来创建所述第二属性以在与所述第二用户的后续话语交互期间辨识所述第二用户简档。
10.如权利要求7、8或9中任一项所述的系统,其中所述计算机实施的指令致使所述一个或多个处理器执行进一步的动作以:
至少部分地基于所述第二属性来创建语音辨识得分,以及
响应于所述语音辨识得分与阈值语音得分的比较而确定向所述第二用户提供从所述第二用户获得用于语音训练的额外话语的提示。
11.如权利要求7、8、9或10中任一项所述的系统,其中所述计算机实施的指令致使所述一个或多个处理器执行进一步的动作以:
接收与所述第二用户的所述权限相关联的条件;以及
响应于与所述第二用户的后续语音交互而强制执行所述条件。
12.如权利要求7、8、9、10或11中任一项所述的系统,其中所述计算机实施的指令致使所述一个或多个处理器执行进一步的动作以响应于来自所述第一用户的包括撤销与所述第二用户相关联的至少一个权限的命令的第三话语而撤销所述至少一个权限。
13.如权利要求7、8、9、10、11或12中任一项所述的系统,其中所述计算机实施的指令致使所述一个或多个处理器执行进一步的动作以响应于来自所述第一用户的包括添加至少一个权限的命令的第三话语而向所述第二用户简档添加所述至少一个权限。
14.如权利要求7、8、9、10、11、12或13中任一项所述的系统,其中所述第一话语包括至少包括所述权限的第一组的名称,所述第一组与可用于授予所述第二用户简档的第二组权限不同。
15.如权利要求7、8、9、10、11、12、13或14中任一项所述的系统,其中所述计算机实施的指令致使所述一个或多个处理器执行进一步的动作以:
使用互联网语音协议连接到与所述第二用户相关联的装置,并且其中所述从所述第二用户接收所述第二话语是使用所述互联网语音协议接收的。
CN201880043160.0A 2017-09-08 2018-09-07 用于语音助手系统的话语权限管理 Active CN110800044B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/700,008 US10438594B2 (en) 2017-09-08 2017-09-08 Administration of privileges by speech for voice assistant system
US15/700,008 2017-09-08
PCT/US2018/049936 WO2019051214A1 (en) 2017-09-08 2018-09-07 ADMINISTRATION OF PRIVILEGES BY SPEECH FOR A VOICE ASSISTANT SYSTEM

Publications (2)

Publication Number Publication Date
CN110800044A true CN110800044A (zh) 2020-02-14
CN110800044B CN110800044B (zh) 2024-04-05

Family

ID=63684595

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880043160.0A Active CN110800044B (zh) 2017-09-08 2018-09-07 用于语音助手系统的话语权限管理

Country Status (5)

Country Link
US (1) US10438594B2 (zh)
EP (1) EP3679571B1 (zh)
JP (1) JP6949149B2 (zh)
CN (1) CN110800044B (zh)
WO (1) WO2019051214A1 (zh)

Families Citing this family (99)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
CN113470640B (zh) 2013-02-07 2022-04-26 苹果公司 数字助理的语音触发器
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
CN105453026A (zh) 2013-08-06 2016-03-30 苹果公司 基于来自远程设备的活动自动激活智能响应
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10395655B1 (en) * 2017-09-13 2019-08-27 Amazon Technologies, Inc. Proactive command framework
US10567515B1 (en) * 2017-10-26 2020-02-18 Amazon Technologies, Inc. Speech processing performed with respect to first and second user profiles in a dialog session
CN111448549B (zh) * 2017-12-08 2024-01-23 谷歌有限责任公司 网络系统中的分布式标识
DE112018002857T5 (de) * 2017-12-26 2020-02-27 Robert Bosch Gmbh Sprecheridentifikation mit ultrakurzen Sprachsegmenten für Fern- und Nahfeld-Sprachunterstützungsanwendungen
EP4246508A3 (en) 2017-12-27 2023-11-15 Rovi Guides, Inc. Systems and methods for identifying users based on voice data and media consumption data
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10978056B1 (en) 2018-04-20 2021-04-13 Facebook, Inc. Grammaticality classification for natural language generation in assistant systems
US11010436B1 (en) 2018-04-20 2021-05-18 Facebook, Inc. Engaging users by personalized composing-content recommendation
US11886473B2 (en) 2018-04-20 2024-01-30 Meta Platforms, Inc. Intent identification for agent matching by assistant systems
US11715042B1 (en) 2018-04-20 2023-08-01 Meta Platforms Technologies, Llc Interpretability of deep reinforcement learning models in assistant systems
US11115410B1 (en) 2018-04-20 2021-09-07 Facebook, Inc. Secure authentication for assistant systems
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10949616B1 (en) 2018-08-21 2021-03-16 Facebook, Inc. Automatically detecting and storing entity information for assistant systems
US10896295B1 (en) 2018-08-21 2021-01-19 Facebook, Inc. Providing additional information for identified named-entities for assistant systems
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10908883B2 (en) * 2018-11-13 2021-02-02 Adobe Inc. Voice interaction development tool
US10847156B2 (en) 2018-11-28 2020-11-24 Adobe Inc. Assembled voice interaction
US11165779B2 (en) * 2018-11-29 2021-11-02 International Business Machines Corporation Generating a custom blacklist for a listening device based on usage
CN111258528B (zh) * 2018-12-03 2021-08-13 华为技术有限公司 语音用户界面的显示方法和会议终端
US11070540B1 (en) * 2018-12-28 2021-07-20 Juniper Networks, Inc. Dynamic provisioning of user groups within computer networks based on user attributes
US11516220B1 (en) 2018-12-28 2022-11-29 Juniper Networks, Inc. Creating roles and controlling access within a computer network
US11017771B2 (en) 2019-01-18 2021-05-25 Adobe Inc. Voice command matching during testing of voice-assisted application prototypes for languages with non-phonetic alphabets
US10964322B2 (en) 2019-01-23 2021-03-30 Adobe Inc. Voice interaction tool for voice-assisted application prototypes
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11468881B2 (en) * 2019-03-29 2022-10-11 Samsung Electronics Co., Ltd. Method and system for semantic intelligent task learning and adaptive execution
US11093715B2 (en) 2019-03-29 2021-08-17 Samsung Electronics Co., Ltd. Method and system for learning and enabling commands via user demonstration
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US10867608B1 (en) 2019-05-31 2020-12-15 Apple Inc. Multi-user configuration
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
US11010121B2 (en) 2019-05-31 2021-05-18 Apple Inc. User interfaces for audio media control
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
KR20240049648A (ko) 2019-05-31 2024-04-16 애플 인크. 오디오 미디어 제어를 위한 사용자 인터페이스
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11442992B1 (en) 2019-06-28 2022-09-13 Meta Platforms Technologies, Llc Conversational reasoning with knowledge graph paths for assistant systems
US11657094B2 (en) 2019-06-28 2023-05-23 Meta Platforms Technologies, Llc Memory grounded conversational reasoning and question answering for assistant systems
TWI714212B (zh) * 2019-08-14 2020-12-21 緯創資通股份有限公司 跨平台通訊方法、伺服器裝置與電子裝置
US11308957B2 (en) 2019-09-24 2022-04-19 Amazon Technologies, Inc. Account association with device
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
US11861674B1 (en) 2019-10-18 2024-01-02 Meta Platforms Technologies, Llc Method, one or more computer-readable non-transitory storage media, and a system for generating comprehensive information for products of interest by assistant systems
US11567788B1 (en) 2019-10-18 2023-01-31 Meta Platforms, Inc. Generating proactive reminders for assistant systems
FR3105501B1 (fr) 2019-12-24 2022-07-29 Atos Integration Système d’assistant personnel vocal pour une gestion de dialogue avec une application d’invitations exécutables
US11562744B1 (en) 2020-02-13 2023-01-24 Meta Platforms Technologies, Llc Stylizing text-to-speech (TTS) voice response for assistant systems
US11159767B1 (en) 2020-04-07 2021-10-26 Facebook Technologies, Llc Proactive in-call content recommendations for assistant systems
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
FR3110992A1 (fr) 2020-05-28 2021-12-03 Bull Sas Application exécutable sur un Objet Intelligent et Communicant pour réserver une salle
US11658835B2 (en) 2020-06-29 2023-05-23 Meta Platforms, Inc. Using a single request for multi-person calling in assistant systems
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US11615795B2 (en) 2020-08-03 2023-03-28 HCL America Inc. Method and system for providing secured access to services rendered by a digital voice assistant
US11563706B2 (en) 2020-12-29 2023-01-24 Meta Platforms, Inc. Generating context-aware rendering of media contents for assistant systems
US11809480B1 (en) 2020-12-31 2023-11-07 Meta Platforms, Inc. Generating dynamic knowledge graph of media contents for assistant systems
US20220237309A1 (en) * 2021-01-26 2022-07-28 EMC IP Holding Company LLC Signal of risk access control
US11861315B2 (en) 2021-04-21 2024-01-02 Meta Platforms, Inc. Continuous learning for natural-language understanding models for assistant systems
US11960615B2 (en) 2021-06-06 2024-04-16 Apple Inc. Methods and user interfaces for voice-based user profile management
US11882237B1 (en) * 2022-11-30 2024-01-23 Gmeci, Llc Apparatus and methods for monitoring human trustworthiness
US11983329B1 (en) 2022-12-05 2024-05-14 Meta Platforms, Inc. Detecting head gestures using inertial measurement unit signals

Citations (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0892388A1 (en) * 1997-07-18 1999-01-20 Lucent Technologies Inc. Method and apparatus for providing speaker authentication by verbal information verification using forced decoding
EP1176493A2 (en) * 2000-07-28 2002-01-30 Jan Pathuel Method and system of securing data and systems
JP2007011380A (ja) * 2005-07-01 2007-01-18 Bose Corp 自動車インターフェース
US20080082332A1 (en) * 2006-09-28 2008-04-03 Jacqueline Mallett Method And System For Sharing Portable Voice Profiles
CN101292282A (zh) * 2005-08-29 2008-10-22 沃伊斯博克斯科技公司 支持自然语言人机交互的移动系统和方法
US20090228486A1 (en) * 2008-03-05 2009-09-10 Kuehr-Mclaren David Gerard Using social networking thersholds in access control decisions
US20100015976A1 (en) * 2008-07-17 2010-01-21 Domingo Enterprises, Llc System and method for sharing rights-enabled mobile profiles
CN102202288A (zh) * 2006-02-23 2011-09-28 高通股份有限公司 在电信装置之间共享简档数据
CN103038818A (zh) * 2010-06-24 2013-04-10 本田技研工业株式会社 在车载语音识别系统与车外语音识别系统之间的通信系统和方法
US20140167931A1 (en) * 2012-12-18 2014-06-19 Samsung Electronics Co., Ltd. Method and apparatus for controlling a home device remotely in a home network system
US20140236598A1 (en) * 2013-02-20 2014-08-21 Google Inc. Methods and Systems for Sharing of Adapted Voice Profiles
CN104321220A (zh) * 2013-04-15 2015-01-28 弗莱克斯电子有限责任公司 作为模板存储的用户简档的访问和便携性
US20150170643A1 (en) * 2013-12-17 2015-06-18 Lenovo (Singapore) Pte, Ltd. Verbal command processing based on speaker recognition
CN105009205A (zh) * 2013-03-08 2015-10-28 索尼公司 用于启用网络的设备上的语音识别输入的方法和系统
CN105027194A (zh) * 2012-12-20 2015-11-04 亚马逊技术有限公司 话语主题的识别
WO2016053523A1 (en) * 2014-09-30 2016-04-07 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US20160133254A1 (en) * 2014-11-06 2016-05-12 Microsoft Technology Licensing, Llc Context-based actions
US20160269524A1 (en) * 2015-03-09 2016-09-15 Ford Global Technologies, Llc Voice profile-based in-vehicle infotainment identity identification
CN106463142A (zh) * 2014-04-30 2017-02-22 高通股份有限公司 话音简档管理和语音信号产生
CN106796788A (zh) * 2014-08-28 2017-05-31 苹果公司 基于用户反馈来改善自动语音识别
CN106796632A (zh) * 2014-09-29 2017-05-31 亚马逊技术股份有限公司 对存储数据的远程访问控制

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7200210B2 (en) 2002-06-27 2007-04-03 Yi Tang Voice controlled business scheduling system and method
US20050071168A1 (en) * 2003-09-29 2005-03-31 Biing-Hwang Juang Method and apparatus for authenticating a user using verbal information verification
WO2006006120A1 (en) * 2004-07-05 2006-01-19 Philips Intellectual Property & Standards Gmbh A method for establishing an access for a user to a system
US20060085189A1 (en) * 2004-10-15 2006-04-20 Derek Dalrymple Method and apparatus for server centric speaker authentication
US8526587B2 (en) * 2009-12-23 2013-09-03 Oracle America, Inc. Web guided collaborative audio
US9701280B2 (en) * 2015-04-03 2017-07-11 GM Global Technology Operations LLC Revocation of mobile device communication control privileges
US10743101B2 (en) * 2016-02-22 2020-08-11 Sonos, Inc. Content mixing
CN106506442B (zh) * 2016-09-14 2018-03-30 上海百芝龙网络科技有限公司 一种智能家居多用户身份识别及其权限管理系统
US10467510B2 (en) * 2017-02-14 2019-11-05 Microsoft Technology Licensing, Llc Intelligent assistant

Patent Citations (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0892388A1 (en) * 1997-07-18 1999-01-20 Lucent Technologies Inc. Method and apparatus for providing speaker authentication by verbal information verification using forced decoding
EP1176493A2 (en) * 2000-07-28 2002-01-30 Jan Pathuel Method and system of securing data and systems
JP2007011380A (ja) * 2005-07-01 2007-01-18 Bose Corp 自動車インターフェース
CN101292282A (zh) * 2005-08-29 2008-10-22 沃伊斯博克斯科技公司 支持自然语言人机交互的移动系统和方法
CN102202288A (zh) * 2006-02-23 2011-09-28 高通股份有限公司 在电信装置之间共享简档数据
US20080082332A1 (en) * 2006-09-28 2008-04-03 Jacqueline Mallett Method And System For Sharing Portable Voice Profiles
US20090228486A1 (en) * 2008-03-05 2009-09-10 Kuehr-Mclaren David Gerard Using social networking thersholds in access control decisions
US20100015976A1 (en) * 2008-07-17 2010-01-21 Domingo Enterprises, Llc System and method for sharing rights-enabled mobile profiles
CN103038818A (zh) * 2010-06-24 2013-04-10 本田技研工业株式会社 在车载语音识别系统与车外语音识别系统之间的通信系统和方法
US20140167931A1 (en) * 2012-12-18 2014-06-19 Samsung Electronics Co., Ltd. Method and apparatus for controlling a home device remotely in a home network system
CN105027194A (zh) * 2012-12-20 2015-11-04 亚马逊技术有限公司 话语主题的识别
US20140236598A1 (en) * 2013-02-20 2014-08-21 Google Inc. Methods and Systems for Sharing of Adapted Voice Profiles
CN105190745A (zh) * 2013-02-20 2015-12-23 谷歌公司 用于共享调适语音简档的方法和系统
CN105009205A (zh) * 2013-03-08 2015-10-28 索尼公司 用于启用网络的设备上的语音识别输入的方法和系统
CN104321220A (zh) * 2013-04-15 2015-01-28 弗莱克斯电子有限责任公司 作为模板存储的用户简档的访问和便携性
US20150170643A1 (en) * 2013-12-17 2015-06-18 Lenovo (Singapore) Pte, Ltd. Verbal command processing based on speaker recognition
CN106463142A (zh) * 2014-04-30 2017-02-22 高通股份有限公司 话音简档管理和语音信号产生
CN106796788A (zh) * 2014-08-28 2017-05-31 苹果公司 基于用户反馈来改善自动语音识别
CN106796632A (zh) * 2014-09-29 2017-05-31 亚马逊技术股份有限公司 对存储数据的远程访问控制
WO2016053523A1 (en) * 2014-09-30 2016-04-07 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US20160133254A1 (en) * 2014-11-06 2016-05-12 Microsoft Technology Licensing, Llc Context-based actions
US20160269524A1 (en) * 2015-03-09 2016-09-15 Ford Global Technologies, Llc Voice profile-based in-vehicle infotainment identity identification

Also Published As

Publication number Publication date
CN110800044B (zh) 2024-04-05
US10438594B2 (en) 2019-10-08
US20190080698A1 (en) 2019-03-14
JP2020525903A (ja) 2020-08-27
WO2019051214A1 (en) 2019-03-14
EP3679571A1 (en) 2020-07-15
EP3679571B1 (en) 2023-01-11
JP6949149B2 (ja) 2021-10-13

Similar Documents

Publication Publication Date Title
CN110800044B (zh) 用于语音助手系统的话语权限管理
US11810554B2 (en) Audio message extraction
US11682382B2 (en) Voice-activated selective memory for voice-capturing devices
KR102299239B1 (ko) 공동 디바이스 상의 가상 어시스턴트 시스템에 대한 개인 도메인
US11238142B2 (en) Enrollment with an automated assistant
CN107112014B (zh) 在基于语音的系统中的应用焦点
US11880442B2 (en) Authentication of audio-based input signals
US20190124159A1 (en) Encapsulating and synchronizing state interactions between devices
JP2020502682A (ja) 対話型アシスタントモジュールによるアクセスの条件付き提供
US11854548B1 (en) Adaptive conversation support bot
US10057421B1 (en) Utilizing virtual user records for device management
CN110555321B (zh) 智能家居系统中的数据处理方法、装置及存储介质
KR101883301B1 (ko) 인공 지능 자동 화자 식별 방법을 이용하는 개인 맞춤형 음성 인식 서비스 제공 방법 및 이에 사용되는 서비스 제공 서버
US10333998B1 (en) Managing connection requests for multiple devices
EP3703404A1 (en) Using audio to associate a target device with credentials of an account associated with a user of a source device
US9692742B1 (en) Third party audio announcements
US10924926B1 (en) Communications token pre-fetch
US10979423B1 (en) Bi-directional voice authentication
US20210209710A1 (en) Data leak prevention using user and device contexts
US11575758B1 (en) Session-based device grouping
US10811014B1 (en) Contact list reconciliation and permissioning
US20220217191A1 (en) Method and device to manage audio and/or video sources during a streaming session

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant