CN110800044B - 用于语音助手系统的话语权限管理 - Google Patents
用于语音助手系统的话语权限管理 Download PDFInfo
- Publication number
- CN110800044B CN110800044B CN201880043160.0A CN201880043160A CN110800044B CN 110800044 B CN110800044 B CN 110800044B CN 201880043160 A CN201880043160 A CN 201880043160A CN 110800044 B CN110800044 B CN 110800044B
- Authority
- CN
- China
- Prior art keywords
- user
- utterance
- rights
- speech
- computer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 claims abstract description 89
- 230000008569 process Effects 0.000 claims abstract description 65
- 230000009471 action Effects 0.000 claims abstract description 26
- 230000003993 interaction Effects 0.000 claims description 63
- 238000012549 training Methods 0.000 claims description 58
- 238000012545 processing Methods 0.000 claims description 31
- 230000004044 response Effects 0.000 claims description 29
- 230000015654 memory Effects 0.000 claims description 5
- 230000001755 vocal effect Effects 0.000 abstract description 4
- 238000012217 deletion Methods 0.000 description 8
- 230000037430 deletion Effects 0.000 description 8
- 238000007726 management method Methods 0.000 description 8
- 230000004048 modification Effects 0.000 description 7
- 238000012986 modification Methods 0.000 description 7
- 238000007792 addition Methods 0.000 description 6
- 230000000875 corresponding effect Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000036651 mood Effects 0.000 description 4
- 229920001817 Agar Polymers 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 241000222511 Coprinus Species 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000005291 magnetic effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
- G06F21/32—User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2221/00—Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/21—Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/2141—Access rights, e.g. capability lists, access control lists, access tables, access matrices
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0638—Interactive procedures
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/227—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Security & Cryptography (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computer Hardware Design (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- User Interface Of Digital Computer (AREA)
- Telephonic Communication Services (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Telephone Function (AREA)
Abstract
语音助手系统可以被配置为从受信任用户接收介绍新用户并为所述新用户指定访问权限的口头介绍。所述语音助手系统可以使用自动话语辨识来处理话语,并且可以解析文本以确定意图。所述语音助手系统还可以分析所述话语以确定与说出所述介绍的说话者相关联的简档。所述语音助手系统可以确定所述受信任用户包括管理权限。所述访问权限在被授予时可以允许所述新用户与所述语音助手系统进行交互,诸如利用所述语音助手系统发出命令、提取信息、播放媒体和/或执行其他动作,这些对于没有被受信任用户介绍给所述语音助手系统和/或没有与用户简档相关联的所述访问权限的人而言可能是不可用的。
Description
相关申请的交叉引用
本申请要求2017年9月8日提交的标题为“ADMINISTRATION OF PRIVILEGES BYSPEECH FOR VOICE ASSISTANT SYSTEM”的美国专利申请No.15/700,008的优先权,所述专利申请的全部公开内容在此以引用的方式并入。
背景技术
随着计算装置的不断发展,用户在与他们的计算装置进行交互时期望更加无缝和高效的体验。已经引入了许多不同的技术和机制以允许用户诸如通过使用机械装置(例如,键盘、鼠标等)、触摸屏、动作捕捉(例如,手势),以及甚至使用自然语言输入,诸如话语来与计算装置进行交互。当将话语用作输入时,计算装置经常将至少一些音频信息发送至远程计算装置以进行话语处理。随着用户变得习惯于使用语音输入来控制计算装置,可以重新构想常规任务以促进使用语音命令来完成任务。
一些计算任务需要安全的过程和/或实施和强制执行用户权限,以使得用户能够采取某些动作,诸如修改计算装置的管理设置。传统上,这些类型的动作是使用常规计算装置输入装置(诸如键盘)执行的。
附图说明
参考附图来描述详细描述。在图式中,附图标记的最左侧数字标识首次出现该附图标记的图式。在不同的图式中相同的附图标记指示类似或相同的项目。
图1是说明性计算环境的示意图。
图2是说明性计算架构的框图。
图3是用于分析来自受信任用户的话语和来自新用户的话语以管理对新用户的新权限的说明性过程的流程图。
图4是通过语音训练来创建和/或优化新用户的语音属性的说明性过程的流程图。
图5是基于先前的话语交互来将先前的话语数据与新用户相关联的说明性过程的流程图。
图6是为新用户或另一用户定制权限的说明性过程的流程图。
图7是用于创建和强制执行与授予的权限相关联的条件的说明性过程的流程图。
具体实施方式
本公开涉及使用语音助手系统来管理用户权限,其中所述系统使得用户能够执行管理员任务,诸如由新用户利用语音助手装置使用语音激活的命令来提供对计算资源的访问。语音助手装置可以包括执行以下操作的任何系统或装置:从用户接收音频命令,使用自动话语辨识(ASR)和自然语言处理(NLP)算法来处理音频以确定文本,基于文本返回回复,使用文本转话语算法来将回复转换为音频输出,并致使扬声器输出音频输出。在一些情况下,一些语音助手系统可以包括显示器,并且可以使得用户能够查看可以基于系统接收的话语输入而生成或更新的文本和/或其他图形。过程可能包括多个“回合”,所述“回合”定义包括该过程的多个相关实例的对话。语音助手系统的实例包括华盛顿州西雅图的Amazon.提供的/>加利福尼亚州库比蒂诺的Apple />提供的/>和华盛顿州雷德蒙的Microsoft />提供的/>语音助手系统可以包括通常至少包括网络接口、麦克风和扬声器的用户装置。用户装置可以是智能电话、专用装置和/或由用户控制并位于用户附近的其他装置。语音助手系统可以包括服务引擎,所述服务引擎可以由用户装置存储、存储在远程位置(例如,经由诸如在云计算配置中的远程计算装置等)和/或两者的组合。
在各个实施方案中,语音助手系统可以被配置为从受信任用户接收介绍,诸如陈述“这是我的朋友约翰·史密斯”的话语。这里,“约翰·史密斯”可以是之前没有与特定的语音助手系统交互的新用户。语音助手系统可以使用ASR以及可能NLU来处理话语并且可以解析文本以确定命令或意图。语音助手系统还可以分析话语或话语的属性,以确定向语音助手系统说出该介绍的说话者或与说话者相关联的简档。例如,语气、音量、词的速度和/或其他话语属性可以用于诸如通过确定说话者是受信任用户来确定说话者或与该说话者相关联的简档。语音助手系统可以可能经由访问对应的用户简档而确定受信任用户(例如“莎莉·琼斯”)包括管理权限,并且确定文本“这是我的朋友约翰·史密斯”是将至少一些用户权限授予约翰·史密斯的命令。用户权限可以允许约翰·史密斯与语音助手系统进行交互,诸如利用语音助手系统发出命令、提取信息(例如,提出问题和获得响应等)、播放媒体和/或执行其他动作,这些对于没有被受信任用户介绍给语音助手系统和/或没有与用户简档相关联和与特定的语音助手系统相关联的权限,但可能具有与不同的语音助手系统相关联的权限的人而言可能是不可用的。
语音助手系统可以从约翰·史密斯接收话语,诸如“嗨,我是约翰·史密斯”。语音助手系统可以使用ASR和可能NLU来分析该话语来解析文本以确定可能与将权限授予约翰·史密斯的先前的命令或意图相关联的另一命令或意图。语音助手系统还可以分析话语以确定话语的属性与约翰·史密斯相关联。语音助手系统可以为约翰·史密斯创建用户简档,并将话语的属性与约翰·史密斯的用户简档相关联,并且可以允许之后将话语识别为属于约翰·史密斯。
语音助手系统可以确定将由受信任用户授予约翰·史密斯的一个或多个权限。在一些实施方案中,语音助手系统可以为新用户约翰·史密斯确定权限的名称或组。例如,“朋友”组可以与将授予约翰·史密斯的权限相关联,所述权限允许约翰·史密斯能够经由语音助手系统使用语音命令来接收和/或访问某些信息和/或内容。可以将权限的其他预定义组授予用户,所述权限可以被分组并与诸如“客人”、“家庭成员”、“孩子”等名字相关联。
语音助手系统可以使得能够可能通过修改与特定组相关联的权限来创建权限的自定义组和/或自定义集合。在各种实施方案中,受信任用户可以创建权限的条件。例如,受信任用户可以陈述权限在特定时间到期以施加条件(例如,“在星期天之前,这是我的客人约翰·史密斯”)。受信任用户可以诸如通过声明“删除约翰·史密斯的日历访问”来删除权限,这可以撤消约翰·史密斯访问日历数据的权限。
在一些实施方案中,语音助手系统可以对新用户发起至少一些语音训练,以创建和/或优化语音属性,以使得之后能够借助新用户的语音来识别新用户。语音助手系统可以尝试定位和访问与用户相关联的先前的语音数据,所述先前的语音数据可能已经在与不同的语音助手系统的先前的用户交互期间被捕捉。例如,新用户可以与他自己的语音助手系统进行交互,并且可能希望导入由他自己的语音助手系统捕捉的一些信息以供另一语音助手系统使用。
本文中描述的技术和系统可以许多方式来实施。下文参考以下图式来提供实例实现方式。
图1是说明性计算环境100的示意图。环境100可以包括语音助手服务(VAS)102,所述语音助手服务与用户装置104交换数据,诸如音频数据和语音数据,以促进与和用户装置104相关联的受信任用户106进行交互。用户装置104可以是至少部分地使用由受信任用户106发出的话语命令进行控制的任何电子装置中的一者。在一些实施方案中,用户装置104可以是包括很少或没有其他输入控件(例如,很少或没有按钮、动作装置、成像装置等)的专用话语辨识装置。相反,用户装置104可以通过接收口头命令来从用户接收输入,所述口头命令由用户装置104和/或由云服务转换为信号,然后诸如通过与VAS 102交换数据被处理。VAS 102可以是作为来自用户装置104的直接或间接的响应而向用户装置104提供数据的任何服务。在一些实施方案中,因为可以在向服务中的一者发送请求之前执行至少一些话语辨识,所以VAS 102不需要被配置用于话语辨识。在各种实施方案中,VAS 102可以对由用户装置104捕捉并经由一个或多个网络108传输至VAS的音频执行至少一些ASR和/或NLU。网络可以包括有线网络、无线网络或两者。
VAS 102可以被配置为跟踪与用户装置104相关联的特定用户,并且可以通过分析语音输入(话语)的属性来识别那些用户,并且使用该识别来将用户简档与接收到的语音输入相关联。例如,当莎莉·琼斯通过对用户装置104讲话而提供语音输入时,可以将语音输入的至少一部分发送至VAS102,VAS 102可以分析语音输入以确定所述语音输入与莎莉·琼斯相关联。VAS 102可以将语音输入与莎莉·琼斯的用户简档相关联。用户简档可以包括莎莉·琼斯的权限,所述权限可以决定VAS 102如何响应莎莉·琼斯,VAS102向莎莉·琼斯提供什么信息等等。
如本文中所论述的,在一些实施方案中,VAS 102的操作中的至少一些可以在本地在用户装置104上执行。在各种实施方案中,VAS 102可以与用户装置104整体地实施,并且可以驻留在受信任用户106的本地(例如,在用户的住宅等)。在至少一个实施方案中,用户装置104可以是“哑”终端,其将所有音频传递给VAS 102以进行进一步处理并且不在本地处理命令。
用户与VAS 102诸如借助用户简档可以具有或可以建立特殊关系,所述用户简档包括使得Vas能够肯定地识别用户并确定用户权限的信息(VAS可以代表用户执行或访问的任务、数据、操作)。例如,第一用户可以经由VAS 102与用户帐户相关联,并且可以变成受信任用户或被授予受信任用户的权限。这些权限可以包括管理权利,所述管理权利可以使得受信任用户能够将权限授予其他用户。权限可以限定VAS 102和/或用户装置104与其他用户交互的方式。例如,VAS 102可以避免向没有权限(并且可能没有与VAS 102相关联的用户简档)的未注册用户提供信息。
VAS 102可以诸如通过证明音乐、指导、文档、执行任务(将内容添加到列表、设置提醒、启动计时器、添加日历事件等)等等来提供许多不同类型的信息、娱乐或数据。如本文中所论述的,VAS可以被配置为参与与用户的交互110。在一些实施方案中,交互可以包括多个请求和回复。每个请求/回复对可以定义“回合”,回合是通常借助用户装置104在用户与VAS102之间来回交换信息。例如,当用户提出问题或发出请求时,所述请求可以由用户装置104并且可能由VAS 102接收。用户装置104和/或VAS 102可以依次处理请求并生成系统回复,所述回复可以被发回给用户106。这种单个来回交换在本文中称为单个“回合”。虽然一些请求可能在单个回合中得到满足,但其他请求在用户达到预期结果或目标之前可能需要或包括多个回合。
为了将权限授予新用户112,用户装置104和/或VAS 102可以处理各种话语。作为实例,受信任用户106可以说:“请为我的客人约翰·史密斯提供用户权限”。用户装置104可以经由麦克风接收该话语,将声音转换为音频信号,并且处理那些信号中的至少一些和/或将信号发送至VAS 102以进行处理。无论处理协议如何,都可以分析话语,以至少确定(1)说话者是受信任用户106,以及(2)话语包括将权限授予“约翰·史密斯”的命令。如上文所论述的,用户装置104、VAS 102或两者都可以诸如通过使用ASR和/或NLU算法来处理话语以确定语音属性和或文本。
用户装置104可以从新用户112接收额外的话语,诸如包括“你好,我是约翰·史密斯”的话语。用户装置104可以经由麦克风接收该话语,将声音转换为音频信号,并且处理那些信号中的至少一些和/或将信号发送至VAS 102以进行处理。无论处理协议如何,都可以分析话语,将约翰·史密斯的语音属性与为约翰·史密斯创建的用户简档相关联。如上所述,可以响应于受信任用户的介绍和对权限的请求来创建用户简档。用户装置104、VAS 102或两者都可以处理话语以确定约翰·史密斯的语音属性,并将那些语音属性与用户简档相关联。用户简档可以包括为约翰·史密斯新创建的权限。
在一些实施方案中,用户装置104可以致使扬声器向新用户输出包括消息的声音,诸如“很高兴认识你,约翰。我们在另一个家庭说过话吗?”。例如,用户装置104和/或VAS可以与新用户进行交互,以通过语音训练和/或访问与新用户104相关联的先前的语音数据来获得额外的语音属性。
如与VAS 102相关联地示出的,可以为不同用户访问、创建和/或维护用户简档114,诸如受信任用户106的第一用户简档116和新用户的第二用户简档118。每个用户简档可以包括不同的权限120或与不同的权限120相关联,不同的权限120可以确定VAS 102和/或用户装置104如何或是否与对应的用户进行交互。在一些实施方案中,用户简档114可以与用户装置104相关联地存储在本地。用户简档114可以包括语音属性,所述语音属性可以用于将来自用户的话语与特定用户简档相关联,如上文所论述。
图2是说明性计算架构200的框图。可以在分布式或非分布式计算环境中实施计算架构200。计算架构200可以包括一个或多个处理器202和存储各种模块、应用程序、程序或其他数据的一个或多个计算机可读介质204。计算机可读介质204可以包括在由一个或多个处理器202执行时致使处理器执行本文中描述的操作的指令。
可以将实施方案提供为计算机程序产品,包括上面存储有指令(以压缩形式或非压缩形式)的非暂时性机器可读存储介质,所述指令可以用来对计算机(或其他电子装置)进行编程以执行本文中描述的过程或方法。机器可读存储介质可以包括但不限于硬盘驱动器、软磁盘、光盘、CD-ROM、DVD、只读存储器(ROM)、随机存取存储器(RAM)、EPROM、EEPROM、快闪存储器、磁卡或光卡、固态存储器装置或适合用于存储电子指令的其他类型的介质/机器可读介质。此外,也可以将实施方案提供为包括暂时性机器可读信号(以压缩形式或非压缩形式)的计算机程序产品。无论是否使用载波调制的机器可读信号的实例包括但不限于托管或运行计算机程序的计算机系统或机器可以被配置用来访问的信号,包括经由互联网或其他网络下载的信号。
在一些实施方案中,计算机可读介质204可以存储管理应用程序206,所述管理应用程序可以包括交互部件208、话语处理部件210、权限部件212和语音训练部件214。VAS102可以存储、管理和/或访问用户数据216和/或权限定义数据218。各种部件和/或数据存储装置可以一起存储或以分布式布置存储。依次描述了各种部件。
交互部件208可以促进与一个或多个用户的语音交互。例如,交互部件208可以借助麦克风和/或具有麦克风的用户装置来检测和接收语音输入,诸如来自用户的话语。在一些实施方案中,可以至少部分地在接收到唤醒词或其他命令后触发交互部件208,所述唤醒词或其他命令致使装置开始“聆听”并捕捉音频信号以进行进一步处理。交互部件208可以接收话语,诸如“这是我的朋友约翰·史密斯”,这可以是采取特定动作的命令和请求,诸如将“朋友”权限授予约翰·史密斯,所述权限可以使得约翰·史密斯能够使用语音命令与VAS 102进行交互。在各个实施方案中,交互部件208可以分析接收到的话语以确定与所述话语相关联的用户简档220。例如,交互部件208可以捕捉并分析接收到的话语的属性,诸如语气、音量、词的速度和/或其他话语属性,将那些属性与用户数据216中存储的话语属性222进行比较,并从用户数据216确定为说话者(用户)的受信任用户的用户简档。交互部件208可以致使音频输出与扬声器进行交互。例如,交互部件208可以诸如通过输出陈述“我已添加约翰·史密斯具有朋友组的权限”的音频来向介绍“约翰·史密斯”的说话者输出响应。当然,由交互部件208接收的特定命令和话语和/或交互部件208的特定输出可以与上文提供的实例不同,同时传达相似类型的信息。交互部件208可以基于所接收的话语来确定要执行的动作,这可能在通过话语处理部件210对话语进行处理之后。例如,交互部件208可以确定受信任用户希望将访问权限授予名为“约翰·史密斯”的新用户,并且该组权限是“朋友”权限。在一些实施方案中,交互部件208可以促进使用互联网语音协议(VoIP)连接到与新用户相关联的装置。这可以使得能够将权限授予与受信任用户不在相同位置的第二用户。作为实例,新用户可以是将使用受信任用户的属性但尚未达到该属性的客人。
话语处理部件210可以包括话语转文本算法和/或文本转话语算法,以实现音频与文本之间的转换。话语处理部件210可以采用ASR和/或NLU算法来理解说话者提供的命令和信息。话语处理部件210可以从交互部件208接收请求,诸如将音频转换为文本或将文本转换为音频,并为交互部件208执行请求的任务。
权限部件212可以确定可以被授予诸如新用户的其他用户的权限和/或管理所述权限。权限部件212可以与权限定义数据218进行交互,以基于与一个或多个用户(诸如,受信任用户)的交互来确定权限和/或修改权限。例如,受信任用户可以请求将某些权限分配224授予新用户,所述权限分配可以与新用户的用户简档220相关联。权限部件212可以将一组权限确定为权限分配224,所述权限分配可能由诸如“朋友”、“客人”、“家庭成员”、“孩子”或其他标签的标签指代,所述标签在权限定义数据218中与对应的特定权限相关联。例如,权限可以使得用户能够利用语音助手系统发出命令,提取信息(例如,提出问题和获得响应等),播放媒体,购买物品,控制其他装置(诸如家庭灯和/或恒温器)和/或执行其他动作,这些对于没有与用户简档相关联和与特定的语音助手系统相关联的权限,但可能具有与不同的语音助手系统相关联的权限的用户人而言可能是不可用的。
权限部件212,可能与一个或多个其他部件结合,可以使得受信任用户能够创建新组或定义一组,所述组包括该组的名称和该组的权限。权限部件212可以实施使得受信任用户能够经由话语或其他输入来录入选择和/或参数以定义一组权限的方案。例如,受信任用户可能希望创建名为“最好的朋友”的新组,该组包括与“朋友”组相似的权限,但还包括一些额外的权限和/或其他区别。如上所述,一些组可以由管理应用程序206预定义。权限部件212可以使得能够通过复制然后编辑现有组以及利用来自组的现有信息的其他技术来创建新组。
在一些实施方案中,权限部件212可以使得能够诸如通过将超出与组相关联的默认权限的额外权限授予用户,删除或删除一些权限,和/或创建权限的使用条件或持续时间(例如,创建权限的有效期、权限使用的时间段、支出限制、购买类别、消费限制等)来定制权限。作为实例,可以授予权限,所述权限使得新用户能够通过利用VAS 102进行话语输入来从服务中订购物品。权限可以包括以下条件,所述条件包括支出限制(例如,每周100美元等)以及有资格订购的物品的白名单和/或黑名单类别(例如,仅清洁物品,无视频游戏等)。作为另一实例,可以施加媒体消耗时间的条件,诸如“约翰一天可以听多达两个小时的音乐”或“约翰不可以听含有露骨歌词的音乐”。许多其他类型的条件可以与权限相关联。可以为每个用户定制条件,并且在一些情况下,可以为特定组定制条件。
语音训练部件214可以确定新用户语音的属性,以使得交互部件208能够响应于在与语音助手系统102的后续会话期间从新用户接收到话语而将用户简档220与新用户相关联。语音训练部件214可以分析来自新用户的话语,并且创建和/或优化话语的话语属性222,所述话语属性使得能够将后续话语与新用户的用户简档220相关联。在一些实施方案中,语音训练部件214可以致使交互部件208发起与新用户的对话,以从新用户提取额外话语以供语音训练部件214进行分析,以便进一步创建和/或优化话语的属性。语音训练部件214可以基于属性来维护或生成属性置信度得分,可以将所述属性置信度得分与阈值得分或得分范围进行比较。该比较可以告知是否可能使用循环过程(诸如下文参考图4描述的过程)向新用户请求额外的话语以提取或进一步优化属性。
在各种实施方案中,语音训练部件214可以尝试将新用户与先前获得的话语属性相关联,所述话语属性可以与不同的语音助手系统或VAS 102的不同实例相关联。例如,语音训练部件214可以致使交互部件208确定新用户是否与不同家庭中的语音助手系统交互过,然后收集过去交互的细节(如果存在并且可获得的话)以与正与新用户交互的VAS 102的当前实例相关联。通过关联先前的语音交互数据,如上所述,可以最小的训练或在没有额外训练的情况下获得新用户语音的话语属性222,然后可以存储所述话语属性或将其与用户简档220相关联。作为实例,语音训练部件214可以实施与下文参考图5描述的过程类似的过程。
当然,管理应用程序206可以包括更多或更少的部件。在一些实施方案中,交互部件208可以至少部分地作为操作系统或高级功能来操作,所述操作系统或高级功能调用较低级功能,诸如话语处理部件210、权限部件212和/或语音训练部件214,以执行使得受信任用户能够如本文中所描述借助话语介绍来向新用户提供许可的特定任务。
图3-7是示出为逻辑流程图中的方框的集合的说明性过程的流程图,所述方框表示可以用硬件、软件或其组合来实施的操作序列。在软件的上下文中,方框表示存储在一个或多个计算机可读存储介质上的计算机可执行指令,计算机可执行指令在由一个或多个处理器执行时执行所述操作。一般来说,计算机可执行指令包括执行特定功能或实施特定抽象数据类型的例程、程序、对象、部件、数据结构等。并不旨在将描述操作的顺序解释为限制,并且任何数量的所描述方框可以按任何顺序和/或并行地组合来实施所述过程。
图3是用于分析来自受信任用户的话语和来自新用户的话语以管理对新用户的新权限的说明性过程300的流程图。过程300是参考环境100和计算架构200描述的,但是可以在不同的环境中和/或利用不同的计算架构来实施。
在302处,交互部件208可以从受信任用户接收介绍新用户的话语介绍的音频。例如,语音助手系统102可以被配置为从受信任用户接收介绍,诸如陈述“这是我的朋友约翰·史密斯”的话语。这里,“约翰·史密斯”可以是之前没有与特定的语音助手系统102交互的新用户。
在304处,交互部件208可以确定话语是否来自具有将权限授予其他用户的管理权限的受信任用户。在一些实施方案中,交互部件208可以分析从操作302接收到的话语以确定与该话语相关联的用户简档。例如,交互部件208可以捕捉并分析接收到的话语的属性,诸如语气、音量、词的速度和/或其他话语属性,将那些属性与用户数据216中存储的属性进行比较,并从用户数据216确定为说话者(用户)的受信任用户的用户简档。语音助手系统102可以可能经由访问对应的用户简档而确定受信任用户(例如“莎莉·琼斯”)包括管理权限,并且确定文本“这是我的朋友约翰·史密斯”是将至少一些用户权限授予新用户的命令。
在306处,话语处理部件210和/或交互部件208可以解析请求中的数据以从在操作302处接收到的话语确定请求、新用户以及权限或权限组。例如,话语处理部件210可以使用ASR和可能NLU来将音频转换为文本。可以解析文本以确定各种信息,诸如用户名和权限信息。如果用户数据216中不存在用户简档,则交互部件208可以为新用户约翰·史密斯创建新用户简档。用户简档可以存储语音属性、权限、命令历史数据和/或其他信息。在一些实施方案中,权限部件212可以将权限的标签与在权限定义数据218中定义的权限相关联。语音助手系统102可以确定由受信任用户授予新用户的一个或多个权限。在一些实施方案中,语音助手系统102可以为新用户约翰·史密斯确定权限的名称或组。例如,“朋友”组可以与将授予约翰·史密斯的权限相关联,所述权限允许约翰·史密斯能够经由语音助手系统使用语音命令来接收和/或访问某些信息和/或内容。可以将权限的其他预定义组授予用户,所述权限可以被分组并与诸如“客人”、“家庭成员”等名字相关联。
在308处,交互部件208可以从新用户接收话语,诸如“嗨,我是约翰·史密斯”。在一些实施方案中,交互部件208可以诸如通过发出诸如“很高兴认识您,您能自我介绍一下吗?”的音频来提示新用户提供话语。语音助手系统可以使用ASR和可能NLU来分析该话语以解析文本以确定可能与将权限授予约翰·史密斯的先前的命令或意图相关联的另一命令或意图。在一些实施方案中,来自新用户的话语可以与时间戳相关联,可以将该时间戳与和来自受信任用户的话语相关联的时间戳进行比较。该比较可以用于强制执行可以由管理应用程序206强制执行的超时或其他时间条件。例如,授予权限可能要求新用户在受信任用户介绍(例如,经由操作302)之后的阈值时间量内进行回复(例如,经由操作308)。
在310处,语音训练部件214可以分析话语以确定话语的属性与约翰·史密斯的用户简档相关联。语音训练部件214可以与针对新用户的用户简档相关联地添加和/或优化属性,这可以允许之后将话语识别为属于新用户。在一些实施方案中,语音助手系统可以对新用户发起至少一些语音训练,以创建和/或优化语音属性,以使得之后能够借助新用户的语音来识别新用户。
在312处,权限部件212可以激活授予新用户的一个或多个权限,以使得新用户能够与语音助手系统102进行交互。用户权限可以允许新用户与语音助手系统进行交互,诸如利用语音助手系统发出命令、提取信息(例如,提出问题和获得响应等)、播放媒体和/或执行其他动作,这些对于没有被受信任用户介绍给语音助手系统和/或没有与用户简档相关联和与特定的语音助手系统相关联的权限,但可能具有与不同的语音助手系统相关联的权限的人而言可能是不可用的。
一旦新用户的新权限起作用,新用户就可以向用户装置104说出命令,所述命令可以被VAS 102(图1所示)接收。可以分析新用户的语音以确定属性,可以将所述属性与所存储的属性进行比较以确定用户的身份为新用户。可以将话语转换为文本并对其进行分析以确定请求,诸如“播放一些新音乐”。VAS 102可以在验证说话者(即,新用户)具有接收所请求的动作(例如,播放音乐)的有效和当前权限后,将文本和/或上下文返回给用户装置104以实施所请求的动作。
图4是通过语音训练来创建和/或优化新用户的语音属性的说明性过程400的流程图。过程400是参考环境100和计算架构200描述的,但是可以在不同的环境中和/或利用不同的计算架构来实施。
在402处,交互部件208可以从受信任用户接收介绍新用户的话语介绍的音频。例如,语音助手系统102可以被配置为从受信任用户接收介绍,诸如陈述“这是我的朋友约翰·史密斯”的话语。交互部件208可以与话语处理部件210结合地确定话语的文本,并解析话语以确定命令、新用户和对某些权限的请求,如上文参考过程300所论述的。
在404处,交互部件208可以从新用户接收话语,诸如“嗨,我是约翰·史密斯”,或者可能来自新用户的其他话语。语音助手系统102可以使用ASR以及可能NLU来分析该话语以解析文本以确定可能与将权限授予新用户的先前的命令或意图相关联的另一命令或意图。
在406处,语音训练部件214可以分析在操作404处接收到的话语,以确定话语的属性与新用户的用户简档相关联。语音训练部件214可以与针对新用户的用户简档相关联地添加和/或优化属性,这可以允许之后将话语识别为属于新用户。
在408处,语音训练部件214可以确定新用户的语音属性得分。语音属性得分可以表示用以从交互部件208接收到的其他音频中准确地识别出新用户的语音的属性的置信度水平。
在410处,可以将语音属性得分与阈值得分进行比较,以确定是否继续进行属性的语音训练。当语音属性得分小于阈值得分时(遵循决策操作410的“是”路线),则过程400可以前进至操作412。
在412处,语音训练部件214,可能与交互部件208结合地可以向新用户请求用于语音训练目的的额外话语。例如,语音训练部件214可以致使输出可以调用新用户的口头响应的音频问题,其中可以分析所述口头响应来确定或优化用于肯定地识别与新用户相关联的话语的属性。在一些实施方案中,语音训练部件214可以致使输出不同的问题和/或其他请求,以便调用新用户的话语,其中所述话语可以响应于问题、向新用户提供的信息的重复话语(例如,“跟着我重复……”)和/或对来自用户的话语的其他请求。
在一些实施方案中,管理应用程序206可以向新用户请求话语以确定唯一识别信息,可以将所述唯一识别信息添加到与新用户相关联的用户简档220。唯一识别信息可以用于为用户创建唯一识别符。作为实例,唯一识别信息可以包括新用户的电话号码、新用户的物理地址、新用户的电子邮件地址和/或与新用户相关联并且可以用来从其他用户中识别出新用户的其他唯一信息。唯一识别信息可以保持为私密的,并且在与语音助手系统102进行交互时可能尽可能地不与其他用户共享。
在414处,语音训练部件214可以确定是否从新用户接收到额外话语。当从新用户接收到额外话语时(遵循决策操作414的“是”路线),则过程400可以前进至操作404并如上文和本文中所描述继续处理。但是,在一些情况下,诸如当新用户离开麦克风的位置时或出于其他原因,新用户可能没有响应。当没有从新用户接收到额外话语时(遵循决策操作414的“否”路线),或者当语音属性得分达到或超过阈值得分时(遵循决策操作410的“否”路线),则过程400可以前进至操作416。
在416处,语音训练部件214可以至少临时地为新用户终止语音训练。例如,可以在与新用户的以后的交互中执行或恢复额外的语音训练。
在一些实施方案中,过程400可以验证受信任用户和新用户共同位于相同位置。例如,管理应用程序206可以请求用户采取某些动作和/或提供某些话语,所述话语提供共同定位的证据。但是,在一些实施方案中,可以不将共同定位施加为创建权限或将权限授予新用户的条件。例如,新用户可以是受信任用户的未来访客和客人,并且可以例如经由互联网语音连接或其他连接来与VAS 102通信。
图5是基于先前的话语交互来将先前的话语数据与新用户相关联的说明性过程500的流程图。过程500是参考环境100和计算架构200描述的,但是可以在不同的环境中和/或利用不同的计算架构来实施。
在502处,交互部件208可以从受信任用户接收介绍新用户的话语介绍的音频。例如,语音助手系统102可以被配置为从受信任用户接收介绍,诸如陈述“这是我的客人约翰·史密斯”的话语。交互部件208可以与话语处理部件210结合地确定话语的文本,并解析话语以确定命令、新用户和对某些权限的请求,如上文参考过程300所论述的。
在504处,交互部件208可以从新用户接收话语,诸如“嗨,我是约翰·史密斯”,或者可能来自新用户的其他话语。语音助手系统102可以使用ASR以及可能NLU来分析该话语以解析文本以确定可能与将权限授予新用户的先前的命令或意图相关联的另一命令或意图。
在506处,语音训练部件214可以询问新用户以定位先前的语音数据。例如,语音训练部件214可以致使交互部件208输出听得见的问题,“嗨约翰·史密斯,我们之前在不同的家庭或位置说过话吗?”。语音训练部件214可以执行该询问、类似的询问和/或额外的询问以确定使得语音训练部件214能够定位与约翰·史密斯相关联的先前的话语数据(如果存在任何这类话语数据的话)的信息。如果新用户指示他/她之前没有与系统说过话,则询问可以终止。操作506可以从新用户接收话语,处理该话语以确定文本,并且处理该文本以确定是否可获得先前的话语数据,以及如果可获得,确定它可能位于什么地方。例如,新用户可以指示他/她先前使用语音助手系统的家庭的地址。可以通过参考用户简档和/或一些个人识别信息(诸如用户简档名字)来进行其他关联。
在508处,语音训练部件214可以基于从用户接收的口头响应和由语音训练部件214执行的搜索来确定是否可以找到候选话语数据。搜索可以包括对语音助手系统可访问的信息的搜索。在一些实施方案中,新用户可以提供某些许可以使得语音助手系统能够访问先前的话语数据。例如,可以在第二装置上诸如经由移动电话使用文本消息传递或其他简单的两步认证过程来执行授权。在此,话语数据被称为“候选的”,因为直到下文描述的进一步处理才确认所述话语数据属于新用户。当找到候选话语数据时(遵循决策方框508的“是”路线),则过程500可以前进至操作510。
在510处,语音训练部件214可以将找到的候选话语数据与在会话期间从新用户接收到的话语数据进行比较(例如,响应于新用户说出像“嗨,我是约翰·史密斯”之类的话)。例如,语音训练部件214可以将当前话语数据的属性与候选话语数据的属性进行比较,以确定属性的差异是否小于对应阈值。例如,可以将诸如语气、速度、音量和/或其他语音属性的属性进行比较,以确定候选话语数据是否可能属于新用户,而实际上不是来自不同用户的话语数据。
在512处,语音训练部件214可以至少部分地基于在操作510处执行的比较来确定是否使用候选话语数据作为新用户的话语数据。当语音训练部件214确定不使用候选话语数据作为新用户的话语数据时(遵循决策操作512的“否”路线),则过程500可以前进至操作506以进行进一步处理,诸如再次尝试为新用户找到先前的话语数据。然而,在一些实施方案中,过程500可能在这里结束。当语音训练部件214确定使用候选话语数据作为新用户的话语数据时(遵循决策操作512的“是”路线),则过程500可以前进至操作514以进行进一步处理。
在514处,语音训练部件214可以将先前的话语数据与新用户相关联。例如,语音训练部件214可以使用先前的话语数据来为新用户创建和/或优化语音属性中的一些或全部,以使得交互部件能够通过在与语音助手系统102的后续交互期间接收到的新用户的话语来准确地识别他/她。在一些实施方案中,诸如当候选话语因为来自新用户而具有高置信度时,过程500可以省略或跳过操作510和512并且从决策操作508直接进行至操作514。当候选话语与仅具有单个用户的家庭相关联,与特定用户识别符相关联等等时,候选话语可以具有高置信度。
当没有找到候选话语数据时(遵循决策方框508的“否”路线),则过程500可以前进至操作516。例如,可以从不存在先前的话语数据(例如,新用户是初次用户)或者新用户提供的信息使得语音训练部件214不能定位任何候选话语数据的响应触发“否”路线。在516处,语音训练部件214可以诸如通过执行上述过程400的操作中的至少一些来执行语音训练。在一些实施方案中,如上文参考过程400所论述的,当新用户的语音得分小于阈值语音得分时,在操作514之后可以进行至少一些额外语音训练。
图6是为新用户或另一用户定制权限的说明性过程600的流程图。过程600是参考环境100和计算架构200描述的,但是可以在不同的环境中和/或利用不同的计算架构来实施。可以通过从受信任用户接收话语并且在没有新用户的存在或语音输入的情况下执行过程600。
在602处,交互部件208可以从受信任用户接收介绍新用户的话语介绍的音频。例如,语音助手系统102可以被配置为从受信任用户接收介绍,诸如陈述“这是我的客人约翰·史密斯,他也可以访问我的智能家居控件”的话语。在这里,“约翰·史密斯”可以是之前没有与特定的语音助手系统102交互的新用户。交互部件208可以确定话语是否来自具有将权限授予其他用户的管理权限的受信任用户。
在604处,话语处理部件210和/或交互部件208可以解析请求中的数据以从在操作602处接收到的话语确定请求、新用户以及权限或权限组。例如,话语处理部件210可以使用ASR和可能NLU来将音频转换为文本。可以解析文本以确定各种信息,诸如上文参考过程300中的操作306所论述的用户名和权限信息。语音助手系统102可以确定由受信任用户授予新用户的一个或多个权限。在一些实施方案中,语音助手系统102可以为新用户约翰·史密斯确定权限的名称或组。例如,“客人”组可以与将授予约翰·史密斯的权限相关联,所述权限允许约翰·史密斯能够经由语音助手系统使用语音命令来接收和/或访问某些信息和/或内容。可以将权限的其他预定义组授予用户,所述权限可以被分组并与诸如“客人”、“家庭成员”等名字相关联。
在606处,权限部件212可以确定对新用户的权限的修改、添加或删除。例如,在介绍新用户时,实例话语包括“访问我的智能家居控件”的额外权限。在该实例中,该权限可能不包括在“客人”权限集中,但可以添加到授予新用户约翰·史密斯的权限。请注意,额外权限可能不会影响具有客人权限的其他用户,而只会向新用户约翰·史密斯提供该额外权限。
在608处,权限部件212可以可能经由交互部件208确定是否要为新用户执行对权限的额外修改、添加和/或删除。例如,可能在不同的会话期间,诸如在不同的一天介绍新用户之后,可以通过来自受信任用户的话语接收对权限的修改、添加和/或删除中的至少一些。权限的删除可以包括个别权限的删除和/或所有新用户权限的撤销。对权限的修改可以包括修改条件,如下文例如参考图7所描述。当要执行对权限的另一修改、添加或删除时(遵循决策操作608的“是”路线),则过程600可以前进至操作606以如上所述处理额外信息。当将不执行对权限的另一修改、添加或删除时(遵循决策操作608的“否”路线),则过程600可以前进至操作610。
在610处,权限部件212可以激活授予新用户的一个或多个权限和/或对权限的修改、添加和/或删除,以使得新用户能够根据当前授予的权限与语音助手系统102进行交互。用户权限可以允许新用户与语音助手系统进行交互,诸如利用语音助手系统发出命令、提取信息(例如,提出问题和获得响应等)、播放媒体和/或执行其他动作,这些对于没有被受信任用户介绍给语音助手系统和/或没有与用户简档相关联和与特定的语音助手系统相关联的权限,但可能具有与不同的语音助手系统相关联的权限的人而言可能是不可用的。
图7是用于创建和强制执行与授予的权限相关联的条件的说明性过程700的流程图。过程700是参考环境100和计算架构200描述的,但是可以在不同的环境中和/或利用不同的计算架构来实施。
在702处,交互部件208可以从受信任用户接收介绍新用户的话语介绍的音频。例如,语音助手系统102可以被配置为从受信任用户接收介绍,诸如陈述“这是我今天的客人约翰·史密斯”的话语。这里,“约翰·史密斯”可以是之前没有与特定的语音助手系统102交互的新用户。交互部件208可以确定话语是否来自具有将权限授予其他用户的管理权限的受信任用户。
在704处,话语处理部件210和/或交互部件208可以解析请求中的数据以从在操作702处接收到的话语确定请求、新用户以及权限或权限组。例如,话语处理部件210可以使用ASR和可能NLU来将音频转换为文本。可以解析文本以确定各种信息,诸如上文参考过程300中的操作306所论述的用户名和权限信息。语音助手系统102可以确定由受信任用户授予新用户的一个或多个权限。在一些实施方案中,语音助手系统102可以为新用户约翰·史密斯确定权限的名称或组。例如,“客人”组可以与将授予约翰·史密斯的权限相关联,所述权限允许约翰·史密斯能够经由语音助手系统使用语音命令来接收和/或访问某些信息和/或内容。可以将权限的其他预定义组授予用户,所述权限可以被分组并与诸如“客人”、“家庭成员”等名字相关联。
在706处,权限部件212可以为新用户确定一个或多个权限的条件。例如,在介绍新用户时,实例语音包括“天”的条件。该条件可以是时间条件,诸如权限有效的有效期或时间范围。也可以施加其他条件,诸如新用户可以访问哪些内容(例如,没有带有露骨歌词的音乐等)。条件可以在来自受信任用户的单独话语中提供,并且不必包括在对新用户约翰·史密斯的介绍或权限的初始授予中。
在708处,权限部件212可以激活授予新用户的一个或多个权限,以使得新用户能够与语音助手系统102进行交互。用户权限可以允许新用户与语音助手系统进行交互,诸如利用语音助手系统发出命令、提取信息(例如,提出问题和获得响应等)、播放媒体和/或执行其他动作,这些对于没有被受信任用户介绍给语音助手系统和/或没有与用户简档相关联和与特定的语音助手系统相关联的权限,但可能具有与不同的语音助手系统相关联的权限的人而言可能是不可用的。
在710处,权限部件212可以确定条件是否已经生效,诸如权限是否已经到期或当前不可用。当权限不受条件限制或未终止时(遵循决策操作710的“否”路线),则过程700可以前进至操作708,并继续使得新用户能够使用由受信任用户授予的权限。当权限受条件限制并终止时(遵循决策操作710的“是”路线),则过程700可以前进至操作712。
在712处,权限部件212可以至少暂时地撤销受条件限制并且已经到期的一个或多个权限。例如,如果权限受到一天中的时间控制的条件限制(例如,权限仅在上午8点至晚上10点有效等),则可以在稍后的时间再次激活权限。
在一些实施方案中,可以将条件应用于多个用户。例如,受信任用户可能正在举办聚会并且可以陈述“让每个人今晚都能控制音乐”。权限部件212可以为所有人创建访问音乐控制命令,诸如通过对语音助手系统102说来播放音乐、选择音乐和/或执行其他音乐控制命令的许可。权限部件212可以创建有效期为当天(由于时间框架“今晚”)的条件。权限部件212可以在持续时间结束时(例如,一天结束或某一其他时间)撤消所有人控制音乐的权限。
以下说明性实施方案提供了本文中描述的主题的进一步说明。说明性实施方案包括:
1.一种由语音控制助手实施的计算机实施的方法,所述计算机实施的方法包括:从与具有管理权限的第一用户简档相关联的第一用户接收第一话语,所述第一话语至少包括识别一组权限以及将获得在所述一组权限中包括的权限的第二用户;分析所述第一话语的第一属性以确定所述第一话语与所述第一用户简档相关联;至少部分地基于对所述第一话语的处理来确定所述第二用户和所述一组权限;创建与所述第二用户相关联的第二用户简档;提供向所述第二用户请求话语的提示;从所述第二用户接收第二话语;确定从所述第二话语得到的第二属性,所述第二属性使得能够识别与所述第二用户相关联的后续话语;以及将所述第二属性和所述一组权限与所述第二用户简档相关联。
2.如实施方案1中描述的计算机实施的方法,其中所述提示包括请求所述第二用户提供将作为话语数据而接收的话语的问题,并且其中所述问题是从语音训练过程所使用的多个预定问题中选择的。
3.如实施方案1或2中任一者描述的计算机实施的方法,所述计算机实施的方法还包括:至少部分地基于所述第二用户提供的额外话语来将所述第二用户与先前的话语数据相关联;以及至少部分地基于所述先前的话语数据来创建所述第二属性以在与所述第二用户的后续话语交互期间辨识所述第二用户简档。
4.如实施方案1、2或3中任一者描述的计算机实施的方法,所述计算机实施的方法还包括:至少部分地基于所述第二属性来创建语音辨识得分,将所述语音辨识得分与阈值语音得分进行比较,以确定是否向所述第二用户提供从所述第二用户获得用于语音训练的额外话语的另一提示;以及至少部分地基于所述将所述语音辨识得分与所述阈值语音得分进行比较,向所述第二用户提供向所述第二用户请求额外话语的所述另一提示。
5.如实施方案1、2、3或4中任一者描述的计算机实施的方法,所述计算机实施的方法还包括接收与所述第二用户的所述一组权限相关联的有效期,所述有效期的流逝致使从所述第二用户简档撤销所述一组权限。
6.如实施方案1、2、3、4或5中任一者描述的计算机实施的方法,所述计算机实施的方法还包括以下各项中的至少一者:响应于来自所述第一用户的包括撤销与所述第二用户简档的所述一组权限相关联的第一权限的命令的第三话语而撤销所述第一权限;或响应于来自所述第一用户的包括添加第二权限的命令的第三话语而向所述第二用户简档添加所述第二权限。
7.一种系统,包括:一个或多个处理器;以及存储器,所述存储器存储计算机实施的指令,所述计算机实施的指令在被执行时致使所述一个或多个处理器执行动作以:从与具有管理权限的第一用户简档相关联的第一用户接收第一话语,所述第一话语至少包括识别权限以及将获得所述权限的第二用户;处理所述第一话语的内容以至少确定所述第二用户和所述权限;从所述第二用户接收第二话语;确定从所述第二话语得到的第二属性,所述第二属性使得能够识别与第二用户简档相关联的后续话语,所述第二用户简档与所述第二用户相关联;以及将所述第二属性和所述权限与所述第二用户简档相关联。
8.如实施方案7描述的系统,其中所述计算机实施的指令致使所述一个或多个处理器执行进一步的动作以:向新用户提供提示,所述提示包括请求所述第二用户提供将作为话语数据而接收的话语的问题,并且其中所述问题是从语音训练过程所使用的多个预定问题中选择的。
9.如实施方案7或8中任一者描述的系统,其中所述第一话语包括组的名称,并且其中所述组至少包括所述权限。
10.如实施方案7、8或9中任一者描述的系统,其中所述计算机实施的指令致使所述一个或多个处理器执行进一步的动作以:至少部分地基于所述第二用户提供的额外话语来将所述第二用户与先前的话语数据相关联;以及至少部分地基于所述先前的话语数据来创建所述第二属性以在与所述第二用户的后续话语交互期间辨识所述第二用户简档。
11.如实施方案7、8、9或10中任一者描述的系统,其中所述计算机实施的指令致使所述一个或多个处理器执行进一步的动作以:至少部分地基于所述第二属性来创建语音辨识得分,以及响应于所述语音辨识得分与阈值语音得分的比较而确定向所述第二用户提供从所述第二用户获得用于语音训练的额外话语的提示。
12.如实施方案7、8、9、10或11中任一者描述的系统,其中所述计算机实施的指令致使所述一个或多个处理器执行进一步的动作以:接收与所述第二用户的所述权限相关联的条件;以及响应于与所述第二用户的后续语音交互而强制执行所述条件。
13.如实施方案7、8、9、10、11或12中任一者描述的系统,其中所述计算机实施的指令致使所述一个或多个处理器执行进一步的动作以响应于来自所述第一用户的包括撤销与所述第二用户相关联的至少一个权限的命令的第三话语而撤销所述至少一个权限。
14.如实施方案7、8、9、10、11、12或13中任一者描述的系统,其中所述计算机实施的指令致使所述一个或多个处理器执行进一步的动作以响应于来自所述第一用户的包括添加至少一个权限的命令的第三话语而向所述第二用户简档添加所述至少一个权限。
15.如实施方案7、8、9、10、11、12、13或14中任一者描述的系统,其中所述第一话语包括至少包括所述权限的第一组的名称,所述第一组与可用于授予所述第二用户简档的第二组权限不同。
16.如实施方案7、8、9、10、11、12、13、14或15中任一者描述的系统,其中所述计算机实施的指令致使所述一个或多个处理器执行进一步的动作以使用互联网语音协议连接到与所述第二用户相关联的装置,并且其中所述从所述第二用户接收第二话语是使用所述互联网语音协议接收的。
17.一种方法,包括:从与具有管理权限的第一用户简档相关联的第一用户接收第一话语,所述第一话语至少包括识别权限以及将获得所述权限的第二用户;分析所述第一话语的第一属性以确定所述第一话语与所述第一用户简档相关联;至少部分地基于对所述第一话语的处理来确定所述第二用户和所述权限;从所述第二用户接收第二话语;确定从所述第二话语得到的第二属性,所述第二属性使得能够识别与第二用户简档相关联的后续话语,所述第二用户简档与所述第二用户相关联;以及将所述第二属性和所述权限与所述第二用户简档相关联。
18.如实施方案17描述的方法,所述方法还包括:至少部分地基于所述第二属性来创建语音辨识得分,以及将所述语音辨识得分与阈值语音得分进行比较,以确定是否向所述第二用户提供从所述第二用户获得用于语音训练的额外话语的另一提示。
19.如实施方案17或18中任一者描述的方法,所述方法还包括以下各项中的至少一者:响应于来自所述第一用户的包括撤销与所述第二用户简档的一组权限相关联的第一权限的命令的第三话语而撤销所述第一权限;或响应于来自所述第一用户的包括添加第二权限的命令的第三话语而向所述第二用户简档添加所述第二权限。
20.如实施方案17、18或19中任一者描述的方法,所述方法还包括:接收与所述第二用户的所述权限相关联的条件;以及响应于与所述第二用户的后续语音交互而强制执行所述条件。
总结
虽然已经以特定于结构特征和/或方法动作的语言描述了主题,但是应理解,所附权利要求中定义的主题不必限于所描述的特定特征或动作。而是,公开特定特征和动作作为实施权利要求的说明性形式。
Claims (11)
1.一种计算机实施的方法,所述计算机实施的方法包括:
从与具有管理权限的第一用户简档相关联的第一用户接收第一话语;
分析所述第一话语的第一属性以确定所述第一话语与所述第一用户简档相关联;
处理所述第一话语的内容来识别介绍命令或意图,以确定第二用户和识别将权限授予给所述第二用户的命令或意图;
输出向所述第二用户请求话语的提示,其中所述提示包括请求所述第二用户提供将作为话语数据而接收的话语的问题,并且其中所述问题是从语音训练过程所使用的多个预定问题中选择的;
从所述第二用户接收第二话语;
至少部分地基于所述第二用户提供的额外话语来将所述第二用户与先前的话语数据相关联;
至少部分地基于所述先前的话语数据来创建第二属性以在与所述第二用户的后续话语交互期间辨识所述第二用户简档;
通过所述语音训练过程确定从所述第二话语得到的所述第二属性,所述第二属性使得能够识别与所述第二用户相关联的后续话语;以及
将所述第二属性和授予的权限与第二用户简档相关联,所述第二用户简档与所述第二用户相关联。
2.如权利要求1所述的计算机实施的方法,所述计算机实施的方法还包括:
至少部分地基于所述第二属性来创建语音辨识得分,
将所述语音辨识得分与阈值语音得分进行比较,以确定是否向所述第二用户提供从所述第二用户获得用于语音训练的额外话语的另一提示;以及
至少部分地基于所述将所述语音辨识得分与所述阈值语音得分进行比较,向所述第二用户提供向所述第二用户请求额外话语的所述另一提示。
3.如权利要求1或2所述的计算机实施的方法,所述计算机实施的方法还包括接收与所述第二用户的所述权限相关联的有效期,所述有效期的流逝致使从所述第二用户简档撤销所述权限。
4.如权利要求1或2所述的计算机实施的方法,所述计算机实施的方法还包括:
响应于来自所述第一用户的包括撤销所述授予的权限的命令的第三话语而撤销授予给所述第二用户简档的所述权限;和/或
响应于来自所述第一用户的包括添加第二权限的命令的第三话语而向所述第二用户简档添加所述第二权限。
5.一种系统,所述系统包括:
一个或多个处理器;以及
存储器,所述存储器存储计算机实施的指令,所述计算机实施的指令在被执行时致使所述一个或多个处理器以:
从与具有管理权限的第一用户简档相关联的第一用户接收第一话语;
处理所述第一话语的内容来识别介绍命令或意图,以确定第二用户和识别将权限授予给所述第二用户的命令或意图;
向所述第二用户提供提示,所述提示包括请求所述第二用户提供将作为话语数据而接收的话语的问题,并且其中所述问题是从语音训练过程所使用的多个预定问题中选择的;
从所述第二用户接收第二话语;
至少部分地基于所述第二用户提供的额外话语来将所述第二用户与先前的话语数据相关联;
至少部分地基于所述先前的话语数据来创建第二属性以在与所述第二用户的后续话语交互期间辨识所述第二用户简档;
通过所述语音训练过程确定从所述第二话语得到的所述第二属性,所述第二属性使得能够识别与第二用户简档相关联的后续话语,所述第二用户简档与所述第二用户相关联;以及
将所述第二属性和授予的权限与所述第二用户简档相关联。
6.如权利要求5所述的系统,其中所述计算机实施的指令致使所述一个或多个处理器执行进一步的动作以:
至少部分地基于所述第二属性来创建语音辨识得分,以及
响应于所述语音辨识得分与阈值语音得分的比较而确定向所述第二用户提供从所述第二用户获得用于语音训练的额外话语的提示。
7.如权利要求5或6所述的系统,其中所述计算机实施的指令致使所述一个或多个处理器执行进一步的动作以:
接收与所述第二用户的所述权限相关联的条件;以及
响应于与所述第二用户的后续语音交互而强制执行所述条件。
8.如权利要求5或6所述的系统,其中所述计算机实施的指令致使所述一个或多个处理器执行进一步的动作以响应于来自所述第一用户的包括撤销与所述第二用户相关联的所述权限的命令的第三话语而撤销所述权限。
9.如权利要求5或6所述的系统,其中所述计算机实施的指令致使所述一个或多个处理器执行进一步的动作以响应于来自所述第一用户的包括添加至少一个权限的命令的第三话语而向所述第二用户简档添加所述至少一个权限。
10.如权利要求5或6所述的系统,其中所述第一话语包括第一组权限的名称,其中所述第一组权限至少包括所述授予的权限并且与可用于授予所述第二用户简档的第二组权限不同。
11.如权利要求5或6所述的系统,其中所述计算机实施的指令致使所述一个或多个处理器执行进一步的动作以:
使用互联网语音协议连接到与所述第二用户相关联的装置,并且其中所述从所述第二用户接收所述第二话语是使用所述互联网语音协议接收的。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/700,008 | 2017-09-08 | ||
US15/700,008 US10438594B2 (en) | 2017-09-08 | 2017-09-08 | Administration of privileges by speech for voice assistant system |
PCT/US2018/049936 WO2019051214A1 (en) | 2017-09-08 | 2018-09-07 | ADMINISTRATION OF PRIVILEGES BY SPEECH FOR A VOICE ASSISTANT SYSTEM |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110800044A CN110800044A (zh) | 2020-02-14 |
CN110800044B true CN110800044B (zh) | 2024-04-05 |
Family
ID=63684595
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880043160.0A Active CN110800044B (zh) | 2017-09-08 | 2018-09-07 | 用于语音助手系统的话语权限管理 |
Country Status (5)
Country | Link |
---|---|
US (1) | US10438594B2 (zh) |
EP (1) | EP3679571B1 (zh) |
JP (1) | JP6949149B2 (zh) |
CN (1) | CN110800044B (zh) |
WO (1) | WO2019051214A1 (zh) |
Families Citing this family (100)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
KR20150104615A (ko) | 2013-02-07 | 2015-09-15 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
CN105453026A (zh) | 2013-08-06 | 2016-03-30 | 苹果公司 | 基于来自远程设备的活动自动激活智能响应 |
TWI566107B (zh) | 2014-05-30 | 2017-01-11 | 蘋果公司 | 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置 |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770429A1 (en) | 2017-05-12 | 2018-12-14 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770411A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | MULTI-MODAL INTERFACES |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
US10395655B1 (en) * | 2017-09-13 | 2019-08-27 | Amazon Technologies, Inc. | Proactive command framework |
US10567515B1 (en) * | 2017-10-26 | 2020-02-18 | Amazon Technologies, Inc. | Speech processing performed with respect to first and second user profiles in a dialog session |
WO2019112624A1 (en) * | 2017-12-08 | 2019-06-13 | Google Llc | Distributed identification in networked system |
DE112018002857T5 (de) * | 2017-12-26 | 2020-02-27 | Robert Bosch Gmbh | Sprecheridentifikation mit ultrakurzen Sprachsegmenten für Fern- und Nahfeld-Sprachunterstützungsanwendungen |
JP7127131B2 (ja) * | 2017-12-27 | 2022-08-29 | ロヴィ ガイズ, インコーポレイテッド | 音声データおよびメディア消費データに基づいてユーザを識別するためのシステムおよび方法 |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US11715042B1 (en) | 2018-04-20 | 2023-08-01 | Meta Platforms Technologies, Llc | Interpretability of deep reinforcement learning models in assistant systems |
US11886473B2 (en) | 2018-04-20 | 2024-01-30 | Meta Platforms, Inc. | Intent identification for agent matching by assistant systems |
US10963273B2 (en) | 2018-04-20 | 2021-03-30 | Facebook, Inc. | Generating personalized content summaries for users |
US11115410B1 (en) | 2018-04-20 | 2021-09-07 | Facebook, Inc. | Secure authentication for assistant systems |
US10978056B1 (en) | 2018-04-20 | 2021-04-13 | Facebook, Inc. | Grammaticality classification for natural language generation in assistant systems |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
US10949616B1 (en) | 2018-08-21 | 2021-03-16 | Facebook, Inc. | Automatically detecting and storing entity information for assistant systems |
US10896295B1 (en) | 2018-08-21 | 2021-01-19 | Facebook, Inc. | Providing additional information for identified named-entities for assistant systems |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US10908883B2 (en) * | 2018-11-13 | 2021-02-02 | Adobe Inc. | Voice interaction development tool |
US10847156B2 (en) | 2018-11-28 | 2020-11-24 | Adobe Inc. | Assembled voice interaction |
US11165779B2 (en) * | 2018-11-29 | 2021-11-02 | International Business Machines Corporation | Generating a custom blacklist for a listening device based on usage |
CN111258528B (zh) * | 2018-12-03 | 2021-08-13 | 华为技术有限公司 | 语音用户界面的显示方法和会议终端 |
US11516220B1 (en) | 2018-12-28 | 2022-11-29 | Juniper Networks, Inc. | Creating roles and controlling access within a computer network |
US11070540B1 (en) | 2018-12-28 | 2021-07-20 | Juniper Networks, Inc. | Dynamic provisioning of user groups within computer networks based on user attributes |
US11017771B2 (en) | 2019-01-18 | 2021-05-25 | Adobe Inc. | Voice command matching during testing of voice-assisted application prototypes for languages with non-phonetic alphabets |
US10964322B2 (en) | 2019-01-23 | 2021-03-30 | Adobe Inc. | Voice interaction tool for voice-assisted application prototypes |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11093715B2 (en) | 2019-03-29 | 2021-08-17 | Samsung Electronics Co., Ltd. | Method and system for learning and enabling commands via user demonstration |
US11468881B2 (en) * | 2019-03-29 | 2022-10-11 | Samsung Electronics Co., Ltd. | Method and system for semantic intelligent task learning and adaptive execution |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US10867608B1 (en) * | 2019-05-31 | 2020-12-15 | Apple Inc. | Multi-user configuration |
DK201970510A1 (en) | 2019-05-31 | 2021-02-11 | Apple Inc | Voice identification in digital assistant systems |
US11620103B2 (en) | 2019-05-31 | 2023-04-04 | Apple Inc. | User interfaces for audio media control |
US11010121B2 (en) | 2019-05-31 | 2021-05-18 | Apple Inc. | User interfaces for audio media control |
US11227599B2 (en) | 2019-06-01 | 2022-01-18 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
US11442992B1 (en) | 2019-06-28 | 2022-09-13 | Meta Platforms Technologies, Llc | Conversational reasoning with knowledge graph paths for assistant systems |
US11657094B2 (en) | 2019-06-28 | 2023-05-23 | Meta Platforms Technologies, Llc | Memory grounded conversational reasoning and question answering for assistant systems |
TWI714212B (zh) * | 2019-08-14 | 2020-12-21 | 緯創資通股份有限公司 | 跨平台通訊方法、伺服器裝置與電子裝置 |
US20210090561A1 (en) | 2019-09-24 | 2021-03-25 | Amazon Technologies, Inc. | Alexa roaming authentication techniques |
WO2021056255A1 (en) | 2019-09-25 | 2021-04-01 | Apple Inc. | Text detection using global geometry estimators |
US11567788B1 (en) | 2019-10-18 | 2023-01-31 | Meta Platforms, Inc. | Generating proactive reminders for assistant systems |
US11861674B1 (en) | 2019-10-18 | 2024-01-02 | Meta Platforms Technologies, Llc | Method, one or more computer-readable non-transitory storage media, and a system for generating comprehensive information for products of interest by assistant systems |
FR3105501B1 (fr) | 2019-12-24 | 2022-07-29 | Atos Integration | Système d’assistant personnel vocal pour une gestion de dialogue avec une application d’invitations exécutables |
US11562744B1 (en) | 2020-02-13 | 2023-01-24 | Meta Platforms Technologies, Llc | Stylizing text-to-speech (TTS) voice response for assistant systems |
US11159767B1 (en) | 2020-04-07 | 2021-10-26 | Facebook Technologies, Llc | Proactive in-call content recommendations for assistant systems |
US11043220B1 (en) | 2020-05-11 | 2021-06-22 | Apple Inc. | Digital assistant hardware abstraction |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11755276B2 (en) | 2020-05-12 | 2023-09-12 | Apple Inc. | Reducing description length based on confidence |
FR3110992A1 (fr) | 2020-05-28 | 2021-12-03 | Bull Sas | Application exécutable sur un Objet Intelligent et Communicant pour réserver une salle |
US11658835B2 (en) | 2020-06-29 | 2023-05-23 | Meta Platforms, Inc. | Using a single request for multi-person calling in assistant systems |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
US11615795B2 (en) | 2020-08-03 | 2023-03-28 | HCL America Inc. | Method and system for providing secured access to services rendered by a digital voice assistant |
US11563706B2 (en) | 2020-12-29 | 2023-01-24 | Meta Platforms, Inc. | Generating context-aware rendering of media contents for assistant systems |
US11809480B1 (en) | 2020-12-31 | 2023-11-07 | Meta Platforms, Inc. | Generating dynamic knowledge graph of media contents for assistant systems |
US20220237309A1 (en) * | 2021-01-26 | 2022-07-28 | EMC IP Holding Company LLC | Signal of risk access control |
US11861315B2 (en) | 2021-04-21 | 2024-01-02 | Meta Platforms, Inc. | Continuous learning for natural-language understanding models for assistant systems |
US11960615B2 (en) | 2021-06-06 | 2024-04-16 | Apple Inc. | Methods and user interfaces for voice-based user profile management |
US11882237B1 (en) * | 2022-11-30 | 2024-01-23 | Gmeci, Llc | Apparatus and methods for monitoring human trustworthiness |
US11983329B1 (en) | 2022-12-05 | 2024-05-14 | Meta Platforms, Inc. | Detecting head gestures using inertial measurement unit signals |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0892388A1 (en) * | 1997-07-18 | 1999-01-20 | Lucent Technologies Inc. | Method and apparatus for providing speaker authentication by verbal information verification using forced decoding |
EP1176493A2 (en) * | 2000-07-28 | 2002-01-30 | Jan Pathuel | Method and system of securing data and systems |
JP2007011380A (ja) * | 2005-07-01 | 2007-01-18 | Bose Corp | 自動車インターフェース |
CN101292282A (zh) * | 2005-08-29 | 2008-10-22 | 沃伊斯博克斯科技公司 | 支持自然语言人机交互的移动系统和方法 |
CN102202288A (zh) * | 2006-02-23 | 2011-09-28 | 高通股份有限公司 | 在电信装置之间共享简档数据 |
CN103038818A (zh) * | 2010-06-24 | 2013-04-10 | 本田技研工业株式会社 | 在车载语音识别系统与车外语音识别系统之间的通信系统和方法 |
CN104321220A (zh) * | 2013-04-15 | 2015-01-28 | 弗莱克斯电子有限责任公司 | 作为模板存储的用户简档的访问和便携性 |
CN105009205A (zh) * | 2013-03-08 | 2015-10-28 | 索尼公司 | 用于启用网络的设备上的语音识别输入的方法和系统 |
CN105027194A (zh) * | 2012-12-20 | 2015-11-04 | 亚马逊技术有限公司 | 话语主题的识别 |
CN105190745A (zh) * | 2013-02-20 | 2015-12-23 | 谷歌公司 | 用于共享调适语音简档的方法和系统 |
WO2016053523A1 (en) * | 2014-09-30 | 2016-04-07 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
CN106463142A (zh) * | 2014-04-30 | 2017-02-22 | 高通股份有限公司 | 话音简档管理和语音信号产生 |
CN106796632A (zh) * | 2014-09-29 | 2017-05-31 | 亚马逊技术股份有限公司 | 对存储数据的远程访问控制 |
CN106796788A (zh) * | 2014-08-28 | 2017-05-31 | 苹果公司 | 基于用户反馈来改善自动语音识别 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2429171C (en) | 2002-06-27 | 2016-05-17 | Yi Tang | Voice controlled business scheduling system and method |
US20050071168A1 (en) * | 2003-09-29 | 2005-03-31 | Biing-Hwang Juang | Method and apparatus for authenticating a user using verbal information verification |
CN1981325A (zh) * | 2004-07-05 | 2007-06-13 | 皇家飞利浦电子股份有限公司 | 用于确立用户对系统的使用的方法 |
US20060085189A1 (en) * | 2004-10-15 | 2006-04-20 | Derek Dalrymple | Method and apparatus for server centric speaker authentication |
US8214208B2 (en) * | 2006-09-28 | 2012-07-03 | Reqall, Inc. | Method and system for sharing portable voice profiles |
US8838646B2 (en) * | 2008-03-05 | 2014-09-16 | International Business Machines Corporation | Using social networking thresholds in access control decisions |
US20100015976A1 (en) * | 2008-07-17 | 2010-01-21 | Domingo Enterprises, Llc | System and method for sharing rights-enabled mobile profiles |
US8526587B2 (en) * | 2009-12-23 | 2013-09-03 | Oracle America, Inc. | Web guided collaborative audio |
US9978260B2 (en) | 2012-12-18 | 2018-05-22 | Samsung Electronics Co., Ltd. | Method and apparatus for controlling a home device remotely in a home network system |
US9607137B2 (en) | 2013-12-17 | 2017-03-28 | Lenovo (Singapore) Pte. Ltd. | Verbal command processing based on speaker recognition |
US9646611B2 (en) * | 2014-11-06 | 2017-05-09 | Microsoft Technology Licensing, Llc | Context-based actions |
US9544412B2 (en) | 2015-03-09 | 2017-01-10 | Ford Global Technologies, Llc | Voice profile-based in-vehicle infotainment identity identification |
US9701280B2 (en) * | 2015-04-03 | 2017-07-11 | GM Global Technology Operations LLC | Revocation of mobile device communication control privileges |
US9772817B2 (en) * | 2016-02-22 | 2017-09-26 | Sonos, Inc. | Room-corrected voice detection |
CN106506442B (zh) * | 2016-09-14 | 2018-03-30 | 上海百芝龙网络科技有限公司 | 一种智能家居多用户身份识别及其权限管理系统 |
US10467509B2 (en) * | 2017-02-14 | 2019-11-05 | Microsoft Technology Licensing, Llc | Computationally-efficient human-identifying smart assistant computer |
-
2017
- 2017-09-08 US US15/700,008 patent/US10438594B2/en active Active
-
2018
- 2018-09-07 CN CN201880043160.0A patent/CN110800044B/zh active Active
- 2018-09-07 WO PCT/US2018/049936 patent/WO2019051214A1/en unknown
- 2018-09-07 JP JP2019570509A patent/JP6949149B2/ja active Active
- 2018-09-07 EP EP18778762.7A patent/EP3679571B1/en active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0892388A1 (en) * | 1997-07-18 | 1999-01-20 | Lucent Technologies Inc. | Method and apparatus for providing speaker authentication by verbal information verification using forced decoding |
EP1176493A2 (en) * | 2000-07-28 | 2002-01-30 | Jan Pathuel | Method and system of securing data and systems |
JP2007011380A (ja) * | 2005-07-01 | 2007-01-18 | Bose Corp | 自動車インターフェース |
CN101292282A (zh) * | 2005-08-29 | 2008-10-22 | 沃伊斯博克斯科技公司 | 支持自然语言人机交互的移动系统和方法 |
CN102202288A (zh) * | 2006-02-23 | 2011-09-28 | 高通股份有限公司 | 在电信装置之间共享简档数据 |
CN103038818A (zh) * | 2010-06-24 | 2013-04-10 | 本田技研工业株式会社 | 在车载语音识别系统与车外语音识别系统之间的通信系统和方法 |
CN105027194A (zh) * | 2012-12-20 | 2015-11-04 | 亚马逊技术有限公司 | 话语主题的识别 |
CN105190745A (zh) * | 2013-02-20 | 2015-12-23 | 谷歌公司 | 用于共享调适语音简档的方法和系统 |
CN105009205A (zh) * | 2013-03-08 | 2015-10-28 | 索尼公司 | 用于启用网络的设备上的语音识别输入的方法和系统 |
CN104321220A (zh) * | 2013-04-15 | 2015-01-28 | 弗莱克斯电子有限责任公司 | 作为模板存储的用户简档的访问和便携性 |
CN106463142A (zh) * | 2014-04-30 | 2017-02-22 | 高通股份有限公司 | 话音简档管理和语音信号产生 |
CN106796788A (zh) * | 2014-08-28 | 2017-05-31 | 苹果公司 | 基于用户反馈来改善自动语音识别 |
CN106796632A (zh) * | 2014-09-29 | 2017-05-31 | 亚马逊技术股份有限公司 | 对存储数据的远程访问控制 |
WO2016053523A1 (en) * | 2014-09-30 | 2016-04-07 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
Also Published As
Publication number | Publication date |
---|---|
CN110800044A (zh) | 2020-02-14 |
US10438594B2 (en) | 2019-10-08 |
EP3679571A1 (en) | 2020-07-15 |
WO2019051214A1 (en) | 2019-03-14 |
JP6949149B2 (ja) | 2021-10-13 |
JP2020525903A (ja) | 2020-08-27 |
EP3679571B1 (en) | 2023-01-11 |
US20190080698A1 (en) | 2019-03-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110800044B (zh) | 用于语音助手系统的话语权限管理 | |
KR102299239B1 (ko) | 공동 디바이스 상의 가상 어시스턴트 시스템에 대한 개인 도메인 | |
US11238142B2 (en) | Enrollment with an automated assistant | |
CN109697992B (zh) | 设备之间封装和同步状态的相互作用 | |
US20220237273A1 (en) | Authentication of audio-based input signals | |
US11854548B1 (en) | Adaptive conversation support bot | |
JP2020502682A (ja) | 対話型アシスタントモジュールによるアクセスの条件付き提供 | |
CN113260974B (zh) | 通信数据处理方法和系统 | |
JP6909311B2 (ja) | 人工知能自動話者識別方法を用いる個人カスタマイズ型音声認識サービスの提供方法及びこれに使用されるサービス提供サーバ | |
US10498883B1 (en) | Multi-modal communications restrictioning | |
EP3703404B1 (en) | Using audio to associate a target device with credentials of an account associated with a user of a source device | |
US11899762B2 (en) | Association via audio | |
US10924926B1 (en) | Communications token pre-fetch | |
US11757870B1 (en) | Bi-directional voice authentication | |
US9692742B1 (en) | Third party audio announcements | |
KR20200091895A (ko) | 네트워크 시스템의 분산 식별 | |
US11830098B2 (en) | Data leak prevention using user and device contexts | |
US11575758B1 (en) | Session-based device grouping | |
US20240135932A1 (en) | Contact list reconciliation and permissioning | |
KR20200016547A (ko) | 등록된 사용자에 의한 인증을 통해 새로운 사용자를 등록하기 위한 전자 장치 및 방법 | |
EP3754525A1 (en) | Association via voice | |
US11368579B1 (en) | Presence-based notification system | |
US11011174B2 (en) | Method and system for determining speaker-user of voice-controllable device | |
US20230188488A1 (en) | Voice user interface sharing of content |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |