CN118369641A - 基于调用属性在多个自动化助理之间选择 - Google Patents
基于调用属性在多个自动化助理之间选择 Download PDFInfo
- Publication number
- CN118369641A CN118369641A CN202280080386.4A CN202280080386A CN118369641A CN 118369641 A CN118369641 A CN 118369641A CN 202280080386 A CN202280080386 A CN 202280080386A CN 118369641 A CN118369641 A CN 118369641A
- Authority
- CN
- China
- Prior art keywords
- automated assistant
- input
- invocation
- user
- assistant
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims abstract description 64
- 238000012545 processing Methods 0.000 claims abstract description 31
- 230000004044 response Effects 0.000 claims description 29
- 230000000007 visual effect Effects 0.000 claims description 24
- 238000010801 machine learning Methods 0.000 claims description 18
- 230000015654 memory Effects 0.000 claims description 10
- 230000000694 effects Effects 0.000 claims description 4
- 230000000295 complement effect Effects 0.000 claims 4
- 230000008569 process Effects 0.000 description 22
- 230000009471 action Effects 0.000 description 15
- 238000001514 detection method Methods 0.000 description 10
- 238000012549 training Methods 0.000 description 9
- 230000008859 change Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 239000000463 material Substances 0.000 description 5
- 239000013598 vector Substances 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000002452 interceptive effect Effects 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 230000001755 vocal effect Effects 0.000 description 4
- 238000013475 authorization Methods 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000009118 appropriate response Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000010079 rubber tapping Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9032—Query formulation
- G06F16/90332—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1807—Speech classification or search using natural language modelling using prosody or stress
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/02—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail using automatic reactions or user delegation, e.g. automatic replies or chatbot-generated messages
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
基于对多个自动化助理共用的调用输入来确定调用哪个自动化助理代替调用其他自动化助理的系统和方法。处理该调用输入以确定一个或多个调用特征,诸如调用短语的韵律特征,所述一个或多个调用特征可以用于确定调用多个候选自动化助理中的哪一个。此外,处理客户端的附加特征,所述附加特征可指示调用多个可调用的自动化助理中的哪一个。一旦已经调用了自动化助理,就向被调用的自动化助理提供附加音频数据和/或附加音频数据的特征以供进一步处理。
Description
背景技术
人类可以与本文称为“自动化助理”(也称为“数字智能体(agent)”、“聊天机器人”、“交互式个人助理”、“智能个人助理”、“助理应用”、“对话智能体”等)的交互式软件应用进行人机对话。例如,人类(在他们与自动化助理交互时可以称为“用户”)可以使用口头自然语言输入(即,话语)和/或通过提供文本(例如,键入的)自然语言输入来向自动化助理提供命令和/或请求,在一些情况下,该口头自然语言输入可以被转换为文本且然后进行处理。自动化助理通过提供响应式用户接口输出来响应请求,该响应式用户接口输出可包括可听和/或视觉用户接口输出。
如上所述,许多自动化助理被配置为经由口头话语(诸如调用指示、接着是口头查询)进行交互。为了保护用户隐私和/或节省资源,用户通常必须明确地调用自动化助理,然后自动化助理将完全处理口头话语。对自动化助理的明确调用通常是响应于在客户端装置处接收到某些用户接口输入而出现的。客户端装置包括助理接口,该助理接口向客户端装置的用户提供界面用于与自动化助理介接(例如,接收来自用户的口头和/或键入的输入,并且提供可听和/或图形响应),并且与实现自动化助理的一个或多个附加组件(例如,处理用户输入并生成适当响应的远程服务器装置)介接。
可经由客户端装置来调用自动化助理的一些用户接口输入包括客户端装置处用于调用自动化助理的硬件和/或虚拟按钮(例如,轻击硬件按钮、选择由客户端装置显示的图形界面元素)。许多自动化助理可以另外或替代地响应于一个或多个口头调用短语而被调用,口头调用短语也称为“热词/短语”或“触发词/短语”。例如,可说出诸如“HeyAssistant(嘿,助理)”、“OK Assistant(好的,助理)”和/或“Assistant(助理)”的口头调用短语来调用自动化助理。另外,例如,可以基于用户的一个或多个手势来调用助理,诸如按下装置上的按钮和/或以特定方式运动使得该运动可被装置的相机捕获。
通常,包括助理接口的客户端装置包括一个或多个本地存储的模型,客户端装置使用本地存储的模型来监测口头调用短语的出现。这样的客户端装置可使用本地存储的模型在本地处理接收到的音频数据,并且丢弃不包括口头调用短语的任何音频数据。然而,当对接收到的音频数据的本地处理指示口头调用短语的出现时,客户端装置然后将致使自动化助理进一步处理该音频数据和/或后续音频数据。例如,如果口头调用短语是“Hey,Assistant”,并且用户说“Hey, Assistant,what time is it(嘿,助理,现在几点了)”,则与“what time is it”相对应的音频数据可由自动化助理基于对“Hey, Assistant”的检测来处理,并且用于提供当前时间的自动化助理响应。另一方面,如果用户只是说“what timeis it”(而没有先说出调用短语或提供替代调用输入),则将不会提供来自自动化助理的响应作为“what time is it”前面没有调用短语(或其他调用输入)的结果。
发明内容
本文描述了用于在接收到能够选择性地调用多个候选自动化助理中的任一个的调用时从多个候选自动化助理中选择特定自动化助理进行调用以处理请求的技术。换句话说,根据本文公开的技术,在一些情况下,当接收到调用时,该调用可导致仅对特定自动化助理的调用,而在其他情况下,当接收到调用时,该调用可导致仅对多个候选自动化助理中的替代自动化助理的调用。例如,各种技术涉及使用通用自动化助理,该通用自动化助理可接收来自用户的调用,以基于调用的特征和/或基于随调用一起提供的音频数据的特征来确定调用多个次级自动化助理中的哪一个。例如,用户可说出通用调用短语,诸如“OKAssistant”,该通用调用短语能够调用第一自动化助理和第二自动化助理两者。通用自动化助理可基于调用的一个或多个特征、由用户提供的查询的特征和/或除了任何话音输入(例如,调用话音输入和/或查询)的语音辨识以外的附加特征来确定以确定是否调用第一自动化助理且随后向其提供查询,而不是调用第二自动化助理且向其提供查询。
作为示例,用户可以拥有在客户端装置上安装了多个自动化助理(例如,至少是用于多个自动化助理的客户端应用)的装置。在装置上执行的第一自动化助理和第二自动化助理两者能够用调用短语“OK Assistant”来调用。可处理“OK Assistant”的调用输入,以基于调用输入的一个或多个特征(例如,韵律特征、词汇的使用)来确定是调用第一自动化助理还是第二自动化助理。另外,例如,可处理除了语音辨识特征以外的一个或多个其他特征(例如,由客户端装置执行的其他应用、客户端装置的位置、装置所在的位置的分类、客户端装置附近的其他人的存在),以确定是调用第一自动化助理还是第二自动化助理。
作为另一个示例,用户可以拥有客户端装置,该客户端装置具有安装在该装置上的自动化助理的第一实例和安装在同一装置上的同一自动化助理的第二实例。例如,用户可以拥有用户在处于家庭场景中时使用的“家庭”自动化助理和用户在处于工作场景中时使用的“工作”自动化助理实例。“OK Assistant”的调用输入可以能够调用“家庭”助理和“工作”助理两者,并且该调用输入可被处理以基于如本文所述的一个或多个特征来确定是调用“家庭”实例还是“工作”实例。位置可是地理位置和/或可是客户端装置的位置的分类,诸如“公共”对“私人”位置。
因此,使用本文描述的技术减少用户在尝试调用所意图的自动化助理时无意中最初调用不正确的自动化助理的出现。通过减少非意图的自动化助理被用户无意中调用的情况,减少对计算和/或网络资源的使用,因为在非意图的自动化助理被调用的情况下原本会被使用的计算和/或网络资源不会被使用。此外,通过适应可被多个自动化助理使用的单个调用,可减少用户调用特定自动化助理的输入数量和/或输入的持续时间,从而减少处理时间和存储器资源。因此,用户可使用单个调用来选择性地调用多个自动化助理中的一个,而无需来自用户的指定用户意图调用多个自动化助理中的哪一个的附加输入。此外,通过适应可由多个自动化助理使用的单个调用,可减少或消除对加载和/或使用多个调用模型的需要,每个调用模型用于监测对相应自动化助理的调用。例如,与加载并使用通用热词检测模型相比,持续加载并持续使用用于第一自动化助理的第一热词检测模型和用于第二自动化助理的第二热词检测模型可消耗更多的处理器、存储器资源和功率。另外,例如,拥有监测多个短语的多个热词检测模型可导致热词的误报检测的发生率更高,因此不必要地消耗资源。此外,客户端装置的数字信号处理器(DSP)通常用于使用热词检测模型来处理音频数据。DSP可具有受限的存储器和/或处理器资源,从而阻止多个热词检测模型被并行加载和/或执行(或者至少在没有必须放弃不在DSP上执行其他进程的情况下阻止这种情况)。
在一些实现方式中,第一助理和第二助理都可被配置为由相同的调用来调用。在一些实现方式中,调用可是来自用户的指示用户有兴趣对多个自动化助理中的哪一个自动化助理提供口头查询的口头话语。例如,第一自动化助理和第二自动化助理两者可由调用短语“OK Assistant”调用。在一些实现方式中,调用可是来自用户的动作。例如,第一自动化助理和第二自动化助理两者可通过用户执行特定手势、按下客户端装置上的按钮、看向客户端装置和/或可被客户端装置的一个或多个相机捕获的一个或多个其他动作来调用。
在一些实现方式中,调用由未被配置为生成对查询的响应的通用自动化助理接收和/或检测。例如,通用自动化助理可是“元助理”,该元助理被配置为接收调用输入、处理调用输入以基于一个或多个特征来确定调用多个次级自动化助理中的哪一个并且调用所意图的次级自动化助理。因此,可处理调用输入和/或在调用输入之前和/或之后的附加音频输入,然后再将调用输入和/或附加音频数据提供给次级自动化助理以进一步处理。
在一些实现方式中,可处理调用输入的一个或多个调用特征以确定是调用第一自动化助理还是第二自动化助理。例如,可使用根据由客户端装置的一个或多个传声器检测到的音频数据确定的口头调用输入的一个或多个韵律特征来确定是调用第一自动化助理还是第二自动化助理。通过处理调用输入来确定音频输入的韵律特征(例如,音调、语速),可基于确定在音频数据中检测到的韵律特征更可能存在于对第一自动化助理的调用中而不是在对第二自动化助理的调用中,来调用第一自动化助理代替调用第二自动化助理。
在一些实现方式中,除了调用输入特征外或代替调用输入特征,还可处理由客户端装置检测到的一个或多个附加特征,以确定是调用第一自动化助理还是第二自动化助理。被处理来确定是调用第一自动化助理还是第二自动化助理的附加特征可是对调用输入的任何自动语音辨识特征的补充。例如,附加特征可包括用户在调用输入之前或之后的查询中使用的一个或多个术语,所述术语在调用“家庭”自动化助理(和/或向其提供查询)时比调用“工作”自动化助理(和/或向其提供查询)时更可能被使用。
在一些实现方式中,一个或多个附加特征可包括当检测到调用输入时由客户端装置正在执行(或最近已访问和/或执行)的一个或多个应用。例如,客户端装置可以正在执行日历应用,该日历应用包括针对用户的“工作”简档(profile)的日历信息。当检测到可调用“工作”自动化助理和“家庭”自动化助理两者的调用输入时,可以基于用户当前从事工作活动的可能性来调用“工作”自动化助理。另外,例如,客户端装置可以正在执行游戏、网络浏览器和/或用户在非工作场景中更可能访问的其他应用,并且可以调用自动化助理的非工作简档代替调用自动化助理的“工作”简档。
在一些实现方式中,一个或多个附加特征可包括当检测到调用输入时与客户端装置的位置相关的位置信息。在一些实现方式中,位置可是客户端装置的物理位置,诸如装置的地理位置。在一些实现方式中,位置可是位置的分类,诸如“公共”位置对“私人”位置。在一些实现方式中,位置可是地理位置内的特定区域,诸如“客厅”和“家庭办公室”。位置分类可由用户设置为用户偏好和/或可基于用户与客户端装置的过去交互来确定(例如,用户通常使用“工作”日历的位置可被分类为“工作”或“私人”位置)。
在一些实现方式中,一个或多个附加特征可包括当检测到调用输入时由客户端装置的一个或多个相机捕获的视觉输入特征。例如,在调用输入期间接收到的视觉输入可指示在客户端装置附近的其他人的存在。作为响应,可调用“公共”自动化助理代替调用“私人”自动化助理。另外,例如,视觉输入可以指示用户处于家庭场景中,并且调用“家庭”自动化助理代替调用“工作”自动化助理。
在一些实现方式中,可以向用户提供由调用输入调用的自动化助理的指示。例如,可以经由客户端装置的接口向用户提供“工作”自动化助理已被调用的指示。另外,例如,可以向用户提供第一自动化助理已被调用代替调用第二自动化助理的音频指示。例如,当“工作”自动化助理已被调用代替调用“家庭”自动化助理时,可以向用户提供“调用您的工作助理”的音频指示。另外,例如,可使用不同的话音简档提供来自被调用的自动化助理的一个或多个音频提示和/或响应,使得用户可在多个自动化助理和/或简档之间进行区分(例如,用于“家庭”自动化助理的合成男性话音和用于“工作”自动化助理的合成女性话音)。
在一些实现方式中,可使用一个或多个机器学习模型来处理调用输入的特征和/或一个或多个附加特征。调用输入、与调用输入一起接收的音频数据和/或与调用输入一起接收的视觉数据可用于在嵌入空间中生成一个或多个向量,所述向量指示位置信息、输入的韵律特征和/或本文描述的其他特征。可使用机器学习模型来处理向量,该机器学习模型可生成是否调用第一自动化助理代替调用第二自动化助理的概率(和/或其他指示)作为输出。
在一些实现方式中,用户可以提供反馈(例如,附加的音频反馈和/或视觉反馈),该反馈指示被调用的自动化助理是否是要调用的所意图的自动化助理。响应于否定反馈,可调用未调用的自动化助理,并且可将被处理来调用第一自动化助理的特征中的一个或多个提供给机器学习模型作为训练数据以便基于否定反馈进行进一步训练。例如,用户可以说出调用短语“OK Assistant”,这可以调用第一自动化助理和第二自动化助理两者。基于调用特征和/或附加特征,可调用第一自动化助理。用户可能反之曾意图调用第二自动化助理,并且用“改用第二自动化助理”来响应被调用的自动化助理。作为响应,可调用第二自动化助理,并且可使用最初提供的调用输入来进一步训练相关联的机器学习模型,使得具有相同特征的未来调用不太可能导致第一自动化助理被调用。
在一些实现方式中,可处理调用输入,并且可将紧接调用输入之前或之后捕获的任何附加音频数据提供给被调用的自动化助理,而无需进一步处理。例如,客户端装置可以检测包括调用短语的音频数据,并且基于如本文所述的调用特征和/或附加特征来调用第一自动化助理。为了使处理附加输入(例如,在调用之前和/或之后的查询)的时延最小化,可将在调用输入之前和/或之后的音频数据直接提供给被调用的自动化助理。然后,被调用的自动化助理可处理音频数据,诸如执行自然语言处理、自动语音辨识、STT和/或其他处理以基于提供的输入生成响应和/或执行动作。
在一些实现方式中,可处理调用输入,并且可进一步处理紧接在调用输入之前或之后捕获的任何附加音频数据,以在将音频数据提供给被调用的自动化助理之前确定一个或多个特征。例如,通用自动化助理可接收调用输入和/或在调用输入之前和/或之后的附加音频输入。基于调用特征和/或附加特征,可调用第一自动化助理。通用自动化助理可执行例如来自用户的输入上的调用输入和/或附加输入的自动语音辨识、自然语言处理和/或其他处理,并且可将检测到的特征和/或处理后的输入与音频数据一起(或代替音频数据)提供给被调用的自动化助理。
提供上文描述作为对本公开的一些实现方式的概述。下文将更详细地描述这些实现方式以及其他实现方式的进一步描述。
附图说明
图1是可以在其中实现本文公开的实现方式的示例环境的图示。
图2是可以在其中实现本文公开的各种方法的示例环境的框图。
图3A和图3B是多个自动化助理的示例实现方式的框图。
图4是示出可以在其中实现本文公开的实现方式的通用自动化助理的组件的框图。
图5描绘了示出根据本文公开的各个实现方式的示例方法的流程图。
图6示出了计算装置的示例架构。
具体实施方式
参考图1,提供了包括可以由用户101调用的多个自动化助理的示例环境。该环境包括具有传声器(未描绘)和相机(也未描绘)的第一独立交互式扬声器105,以及具有传声器(未描绘)和相机(也未描绘)的第二独立交互式扬声器110。第一扬声器可以正在至少部分地执行可以用调用短语调用的第一自动化助理。第二扬声器110可以正在执行可以用调用短语调用的第二自动化助理,该调用短语是与第一自动化助理相同的调用短语或者不同的短语,以允许用户基于说出的短语来选择调用哪个自动化助理。在示例环境中,用户101正在第一扬声器105和第二扬声器110附近说出口头话语115“OK Assistant,What’s on mycalendar(好的,助理,我的日历上有什么)”。如果第一自动化助理和/或第二自动化助理中的一个被配置为由短语“OK Assistant”调用,则被调用的助理可以处理在调用短语之后的查询(即,“What’s on my calendar”)。在一些实现方式中,自动化助理105和110中的一个或两个可能够通过用户执行可被自动化助理的相机捕获的一个或多个动作来调用。例如,自动化助理105可通过用户看向自动化助理105的方向、在自动化助理105的方向上做出挥手运动和/或可由自动化助理105的相机捕获的一个或多个其他动作来调用。
在一些实现方式中,诸如第一扬声器105的装置可以正在执行多个自动化助理。参考图2,示出了包括执行多个自动化助理的多个客户端装置的示例环境。系统包括正在执行第一自动化助理215和第二自动化助理220的第一客户端装置105。第一自动化助理和第二自动化助理中的每一个可以通过在客户端装置105附近说出调用短语(每个助理独有的,或者用于调用两个助理的相同短语)使得音频可以被客户端装置105的传声器225捕获和/或执行可以被客户端装置105的相机235捕获的动作来调用。例如,用户101可以通过在客户端装置105附近说出“OK Assistant 1”来调用第一自动化助理215,并且通过在客户端装置105附近说出短语“OK Assistant 2”来进一步调用第二自动化助理220。此外,用户101可以通过执行第一动作来调用第一自动化助理215,并且通过执行第二动作来调用第二自动化助理220。基于说出哪个调用短语和/或执行哪个动作,用户可指示用户有兴趣使在客户端装置105上执行的多个助理中的哪一个处理口头查询。示例环境还包括正在执行第三自动化助理245的第二客户端装置110。第三自动化助理可以被配置为使用第三调用短语(诸如“OK Assistant 3”)使得它可以被传声器230捕获来调用。此外,第三自动化助理245可被配置为使用可以被相机250捕获的第三手势和/或动作来调用。在一些实现方式中,图2中的自动化助理中的一个或多个可能不存在。此外,示例环境可以包括图2中不存在的附加自动化助理。例如,系统可以包括执行附加自动化助理的第三装置,和/或客户端装置110和/或客户端装置105可以正执行相比所示的附加自动化助理和/或更少自动化助理。
在一些实现方式中,一个或多个自动化助理可能够基于正在执行自动化助理的装置的约束来调用。例如,第一客户端装置205可以包括用于捕获用户的手势的相机,而第二客户端装置210可以包括传声器(而不是相机),因此只能识别音频调用。在其中用户执行手势的情况下,该手势可以被第一客户端装置205识别,并且可调用第一自动化助理215和/或第二自动化助理220中的至少一个。在其中用户说出调用短语的情况下,可以只调用包括传声器的客户端装置上的自动化助理。因此,在第一自动化助理215和第三自动化助理245两者能够用相同调用输入来调用的情况下,用户可基于客户端装置205和210中的一个或多个检测到的调用输入的类型来指示对可调用自动化助理中的一个超过另一个的偏好。
自动化助理215、220和245中的每一个可包括本文所述的自动化助理的一个或多个组件。例如,自动化助理215可以包括其自己的用于处理传入查询的语音捕获组件、用于处理传入视觉数据的视觉捕获组件、热词检测引擎和/或其他组件。在一些实现方式中,在同一装置上执行的自动化助理(诸如自动化助理215和220)可共享可以被两个自动化助理使用的一个或多个组件。例如,自动化助理315和自动化助理320可以共享装置上的语音辨识器、装置上的NLU引擎、和/或其他组件中的一个或多个。
在一些实现方式中,自动化助理中的两个或更多个可以由不是单个自动化助理独有的相同调用短语(诸如“OK Assistant”)来调用。当用户说出调用短语和/或提供其他调用输入(例如,可调用自动化助理中的两个或更多个的手势)时,自动化助理中的一个或多个可以充当通用自动化助理,并且基于调用输入来确定要调用可以被调用的自动化助理中的哪一个。参考图3A,示出了通用自动化助理305以及两个附加自动化助理310和320。通用自动化助理305可以被配置为处理调用输入,诸如包括短语“OK Assistant”的话语或其他调用输入,该调用输入可以指示用户有兴趣向可由调用输入调用的多个自动化助理中的一个提供查询。如本文所述,通用自动化助理305可以不包括自动化助理的所有功能性。例如,通用自动化助理305可以不包括查询处理引擎和/或执行除了处理调用输入以确定调用多个自动化助理中的哪一个以外的动作的功能性。在一些实现方式中,通用自动化助理305可以包括其他自动化助理的功能性,并且可以针对调用输入确定是调用其自身还是调用被配置为由相同调用输入调用的不同自动化助理。例如,通用自动化助理305和第一自动化助理310两者可以被配置为响应于检测到口头调用短语(诸如“Hey Assistant”、“OKAssistant”和/或“Assistant”)而被调用。通用自动化助理305可连续处理(例如,如果不处于“非活动”模式)基于来自客户端装置301的一个或多个传声器320的输出的音频数据帧流,以监测口头调用短语的出现。在监测口头调用短语的出现时,通用自动化助理305丢弃(例如,在缓冲区中临时存储之后)不包括口头调用短语的任何音频数据帧。然而,当通用自动化助理305在处理后的音频数据帧中检测到口头调用短语的出现时,通用自动化助理305可确定调用输入是针对通用自动化助理305还是针对可用相同调用输入来调用的一个或多个其他自动化助理310和320。
自动化助理305和310可包括用于一旦被调用就处理查询的多个组件,例如,本地语音转文本(“STT”)引擎(其将捕获的音频转换为文本)、本地文本转语音(“TTS”)引擎(其将文本转换为语音)、本地自然语言处理器(其确定音频和/或从音频转换的文本的语义含义)和/或其他本地组件。由于执行自动化助理的客户端装置在计算资源(例如,处理器周期、存储器、电池等)方面可能相对受限制,因此相对于与自动化助理一起远程执行的任何基于云的自动化助理组件中包括的任何对应件而言,本地组件可以具有有限的功能性。
在一些实现方式中,可以通过一个或多个手势来调用自动化助理中的一个或多个,手势指示用户有兴趣与初级自动化助理交互。例如,用户可以通过与装置交互(诸如按下按钮或触摸屏)来表明调用自动化助理的意图,做出可见并可被图像捕获装置(诸如相机)捕获的移动,和/或可以看向装置而使得图像捕获装置可辨识用户移动和/或定位。当用户做出手势或动作时,自动化助理可以被调用并开始捕获手势或动作之后的音频数据,如上所述。此外,如上所述,多个自动化助理可以由相同的调用输入调用,使得特定手势可以是对多于一个自动化助理的共用调用。
在一些实现方式中,一个或多个自动化助理305和310可以共享一个或多个模块(诸如自然语言处理器)和/或自然语言、TTS和/或STT处理器的结果。例如,再次参考图2,第一自动化助理215和第二自动化助理220两者可以共享自然语言处理,使得当客户端装置105接收到音频数据时,音频数据被一次处理成文本,该文本然后可以提供给自动化助理215和220两者。另外,例如,客户端装置105的一个或多个组件可以将音频数据处理成文本,并且将音频数据的文本表示提供给第三自动化助理245,如本文进一步所述。在一些实现方式中,音频数据可以不被处理成文本,而是可以作为原始音频数据提供给自动化助理中的一个或多个。
在一些实现方式中,用户可以在说出调用短语之后说出查询,从而指示用户有兴趣从初级自动化助理接收对该查询的响应。在一些实现方式中,用户可以在调用短语之前或中间说出查询,诸如“What is the weather, Assistant(天气怎么样,助理)”和/或“What is the weather today, Assistant, and what is the weather tomorrow(今天天气怎么样,助理,并且明天天气怎么样)”。通用自动化助理305可处理调用输入(例如,“Assistant”)和其他捕获的音频数据(例如,“What is the weather”),以基于本文进一步描述的特征来确定调用哪个自动化助理。
参考图3B,示出了自动化助理325的两个实例,每个实例具有针对同一用户的不同简档。用户可以配置自动化助理325的两个实例,使得两者都响应相同的用户话音,并且两者都能够用相同的调用短语来调用。然而,取决于自动化助理325的哪个实例执行动作,可以向用户提供不同的结果。例如,用户可以有工作日历和家庭日历,每个日历都独立操作并处置特定目的的约会和/或其他日历功能性。当用户有兴趣被提供来自“工作”自动化助理实例325的信息时,可向用户提供来自用户的“工作”简档335的信息。类似地,当用户与自动化助理325的“家庭”实例交互时,可向用户提供来自用户的“家庭”简档330的信息。在一些实现方式中,两个自动化助理325具有相同的通用调用输入,该通用调用输入通常能够调用自动化助理325,但没有在实例之间指定。例如,可以用调用输入“OK Assistant”来调用一个或两个自动化助理325而没有指定该调用意图针对具有家庭简档330还是工作简档335的实例。因此,自动化助理325的一个或两个实例可被配置为以类似于图3A的通用自动化助理305的方式在检测到通用调用短语后确定要使用哪个简档。
参考图4,示出了其中可实现本文所述的实现方式的通用自动化助理305的组件。尽管本文描述了通用自动化助理处理调用输入并确定调用哪个自动化助理的环境,但是关于通用自动化助理305描述的组件可以存在于自动化助理325的实例中,并且用于确定是否选择性地调用使用家庭简档330的自动化助理325而不是使用具有工作简档335的自动化助理325。
调用输入分析引擎410可处理调用输入以确定一个或多个调用特征,所述调用特征可用于确定调用哪个自动化助理。在一些实现方式中,可基于能够调用多个自动化助理的通用调用输入来确定调用特征。例如,参考图3A,通用自动化助理305可处理用户说出调用短语“OK Assistant”的调用输入,该调用短语能够调用第一自动化助理310和第二自动化助理320两者。另外,例如,通用自动化助理305可处理做出手势的调用输入,该手势被一个或多个相机捕获并且能够调用第一自动化助理310和第二自动化助理320两者。
在一些实现方式中,一个或多个调用特征可包括音频输入的一个或多个韵律特征,音频输入包括调用输入。韵律特征可包括例如说话者的语调、语速、音调变化、音量和/或人类语音的其他特征,所述特征可是用户是否意图调用一个自动化助理代替调用第二自动化助理的指示。作为示例,用户可以将第一自动化助理310用于非工作目的,并且可以在说通用调用短语时以更轻松的方式说话(例如,更慢、友好、更大声)。相反,用户可以将第二自动化助理310用于工作目的,并且可以在说通用调用短语时以更正式的方式说话(例如,更安静、更少音调变化、更快)。因此,基于处理用户说调用短语,可确定调用特征,所述调用特征可以由调用确定引擎430用来确定调用哪个自动化助理。
附加输入分析引擎420可确定一个或多个附加特征,所述附加特征可用于确定调用哪个自动化助理。在一些实现方式中,附加特征可基于与正执行通用自动化助理305的客户端装置相关联的位置。例如,用户可以有兴趣在工作时使用特定的自动化助理,并且在家时使用不同的自动化助理。在两个自动化助理都可使用相同调用输入来调用的情况下,用户的位置可是对是否调用第一自动化助理(例如,工作自动化助理)代替调用第二自动化助理(例如,家庭自动化助理)的指示。
在一些实现方式中,位置可基于正在执行通用自动化助理305的客户端装置的地理位置。例如,附加输入分析引擎420可基于GPS来识别正在执行自动化助理的客户端装置的当前位置,并且确定用户是否先前已指示该位置是特定分类的位置。另外,例如,附加输入分析引擎420可基于WiFi、无线通信信号的信号强度和/或装置位置的其他指示来识别正在执行自动化助理的客户端装置的当前位置。在一些实现方式中,一个或多个位置可与诸如“机场”和/或“餐厅”的位置类型相关联。在一些实现方式中,一个或多个位置可与识别的地理位置内的区域(诸如房屋的房间和/或办公楼的特定办公室)相关联。
在一些实现方式中,位置可基于正在执行通用自动化助理305的客户端装置所在位置的分类。例如,用户可以位于已被标记为“机场”位置的位置,并且附加输入分析引擎420可基于位置类型来确定该位置是“公共”位置。另外,例如,附加输入分析引擎420可确定用户位于用户先前指示为“家庭”位置的位置,并且附加输入分析引擎420可确定该位置被分类为“私人”位置。
在一些实现方式中,可基于在调用输入之前和/或之后的附加音频数据来确定附加特征。例如,附加特征可包括用户在调用输入之前和/或之后说出查询的韵律特征。另外,例如,附加输入分析引擎420可基于词语使用、词汇选择和/或音频数据中包括的其他术语来确定用户的口头话语是否与用户调用第一自动化助理代替调用第二自动化助理的意图更紧密地相关联。例如,当意图使用“私人”自动化助理时,用户可以在说出查询时使用更正式的词汇,并且附加输入分析引擎420可处理来自用户的音频输入以确定用户的词汇选择是更“正式”还是更“随意”。
在一些实现方式中,可基于除用户说出的查询和/或调用之外的背景和/或其他音频数据来确定附加特征。例如,如果在调用输入之前和/或之后的音频数据包括背景噪声(例如,其他扬声器),则可确定指示用户可能在公共位置的附加特征。另外,例如,如果在调用输入之前和/或之后的音频数据包括来自电视机和/或收音机的噪声,则可确定指示用户更有可能在私人场景中的附加特征。
在一些实现方式中,附加特征可包括基于在检测到调用输入附近接收的视觉输入而确定的特征。例如,正在执行通用自动化助理305的客户端装置可包括相机,该相机可在用户提供调用输入时(或附近)捕获视觉输入。附加输入分析引擎420可基于视觉输入来确定一个或多个视觉输入特征,所述视觉输入特征可指示用户是否有兴趣访问可调用的自动化助理中的一个而不是另一个自动化助理。
在一些实现方式中,视觉输入特征可包括当用户提供调用输入时识别是否有附加的用户在该用户附近。例如,当用户提供调用输入时,附加输入分析引擎420可基于捕获的视频来确定用户是否独自一人或是否有附加的人在用户附近。在一些实现方式中,其他人的存在可以是用户意图访问“公共”自动化助理代替访问“私人”自动化助理的指示。
在一些实现方式中,可以向用户提供在接收到调用输入时被调用的自动化助理的指示。在一些实现方式中,指示可是视觉指示,诸如在用户的客户端装置的界面上显示的图标和/或消息。在一些实现方式中,指示可是可听的,诸如指示被调用的自动化助理的名称的合成话音和/或指示一个自动化助理已被调用代替调用另一个自动化助理的声音(例如,特定频率的蜂鸣声)。在一些实现方式中,指示可是由自动化助理向用户提供的合成语音的变化。例如,第一自动化助理在被调用时可以具有合成男性话音,并且第二自动化助理在被调用时可以具有合成女性话音,使得当能够调用多个自动化助理时,用户可确定调用了哪个自动化助理。
调用确定引擎430可基于处理后的调用输入和/或附加输入特征来确定是否调用第一自动化助理代替调用第二自动化助理。调用确定引擎430可从调用输入分析引擎410和附加输入分析引擎420接收调用特征和/或附加输入特征,并且基于所述特征来确定是否调用第一自动化助理而不是调用第二自动化助理。在一些实现方式中,调用确定引擎430可使用一个或多个机器学习模型来确定调用哪个自动化助理。例如,调用确定引擎430可向机器学习模型提供嵌入空间中的表示调用和附加特征的一个或多个向量。机器学习模型可提供调用第一自动化助理和调用第二自动化助理的概率作为输出。
在一些实现方式中,一旦调用了自动化助理,就可向被调用的自动化助理提供附加的音频数据和/或其他数据。例如,一旦被调用,通用自动化助理305就可提供用户在调用输入之前和/或之后的口头话语。在一些实现方式中,通用自动化助理305可经由一个或多个通信协议(诸如API 440)与被调用的自动化助理进行通信。另外,例如,通用自动化助理305可经由扬声器进行通信,该通信由被调用的自动化助理在传声器处接收(例如,包括音频数据的超声波信号)。
在一些实现方式中,通用自动化助理305可提供包括用户说出话语的音频数据。例如,一旦通用自动化助理305已经确定要调用第一自动化助理代替调用第二自动化助理,就可将用户说出查询的音频数据直接提供给被调用的自动化助理。在一些实现方式中,通用自动化助理305可在向被调用的自动化助理提供音频数据和/或附加数据之前处理包括用户的口头话语的音频数据。例如,通用自动化助理305可使用STT、自然语言处理和/或自动语音辨识来处理音频数据的至少一部分。除了音频数据外或代替音频数据,通用自动化助理305还可提供处理后的信息,以进一步减少被调用的自动化助理针对用户生成响应的时延。
在一些实现方式中,一旦自动化助理已被调用,用户就可提供反馈。例如,基于本文所述的特征,通用自动化助理305可以确定要调用第一自动化助理代替调用第二自动化助理。然后可调用第一自动化助理并向其提供用户的口头查询。此外,还可以向用户提供第一自动化助理被调用的指示。作为响应,用户可以提供口头话语“No, I was talking toAssistant 2”、“I was speaking to the other Assistant”和/或指示调用了错误的自动化助理的其他否定反馈。作为响应,通用自动化助理305可调用所意图的自动化助理(和/或在其中用户未指定所意图的自动化助理的情况下,调用下一个最有可能的自动化助理),并且向所意图的自动化助理提供用户的口头查询。此外,可提供用于最初确定调用第一自动化助理的调用和/或附加特征中的一个或多个以及基于否定反馈生成的监督输出,作为用于训练调用确定引擎430所使用的机器学习模型的训练数据。例如,可生成训练样例,该训练样例包括特征作为输入并且包括应基于这些特征调用助理2的指示作为监督输出。训练样例可用于训练机器学习模型。在一些实现方式中,来自用户的肯定反馈可另外或替代地用于生成训练数据以训练机器学习模型。例如,如果基于使用机器学习模型处理特征来调用助理1,并且用户继续与助理1交互(隐式肯定反馈)和/或对调用助理1有明确的肯定反馈,则可生成训练样例,该训练样例包括特征并且包括应调用助理1的指示作为监督输出。
图5描绘了示出选择性地确定调用哪个自动化助理的示例方法500的流程图。为了方便起见,参考执行操作的系统来描述方法500的操作。方法500的这个系统包括一个或多个处理器和/或客户端装置的其他组件。另外,虽然方法500的操作以特定次序示出,但这并不意味着限制。可以重新排序、省略或添加一个或多个操作。
在步骤505处,检测调用输入。在一些实现方式中,调用输入可是来自用户的音频输入。例如,调用输入可是用户说出特定短语,该特定短语在被说出时能够调用第一自动化助理和第二自动化助理两者。在一些实现方式中,调用输入可是用户执行一个或多个动作,所述动作由正在执行自动化助理中的一个或多个的装置的相机捕获。例如,用户可以在正在执行自动化助理的第一实例和第二实例两者的客户端装置的方向上挥手,这两个实例都可使用相同的手势来调用。
在步骤510处,处理调用输入以确定一个或多个调用输入特征,所述调用输入特征可用于确定是否调用第一自动化助理代替调用第二自动化助理。调用特征可包括例如用户说出调用短语的韵律特征。例如,用户在意图调用第一自动化助理时可以以特定语调、速度和/或音调变化说话,并且在意图调用第二自动化助理时可以以不同的语调、速度和/或音调变化说话。另外,例如,在调用输入是经由正在执行自动化助理中的一个或多个的客户端装置的相机可见的手势的情况下,可识别视觉输入特征,该视觉输入特征可指示用户有兴趣调用的特定自动化助理(例如,其他用户的存在)。在一些实现方式中,调用输入特征可由与调用输入分析引擎410共享一个或多个特性的组件确定。
在步骤515处,处理附加输入以确定附加特征,该附加特征可是用户是否有兴趣调用第一自动化助理代替调用第二自动化助理的指示。附加特征可由与附加输入分析引擎420共享一个或多个特性的组件来确定。附加特征可包括例如用户的客户端装置所在的位置和/或位置分类、在提供调用输入时指示一个或多个其他用户的存在的视觉输入、由用户在提供在调用输入之前和/或之后的附加音频(例如,查询)时使用的词汇和/或术语,和/或可指示用户调用第一自动化助理代替调用能够用相同的通用调用输入调用的第二自动化助理的意图的其他特征。
在步骤520处,处理来自步骤510和515的输出以基于调用和附加特征来确定是调用第一自动化助理还是第二自动化。在一些实现方式中,该确定由与调用确定引擎430共享一个或多个特性的组件来执行。例如,调用确定引擎430可使用一个或多个机器学习模型,所述机器学习模型接收调用和附加特征向量作为输入并且提供用户意图调用第一自动化助理和第二自动化助理的概率作为输出。基于输出,在步骤525处,调用确定引擎430可调用第一自动化助理或第二自动化助理,代替调用另一个自动化助理。一旦被调用,就可向被调用的自动化助理提供用户在调用输入之前和/或之后的口头话语。
在一些实现方式中,一旦已经向被调用的自动化助理提供了口头查询,自动化助理就可生成对查询的响应。基于用户反馈,可调用第二自动化助理(例如,在用户指示调用了错误的自动化助理的情况下)。来自用户的反馈可用于进一步训练机器学习模型,该机器学习模型可用于确定是否调用第一自动化助理和/或第二自动化助理。
图6是可以可选地用于执行本文所述的技术的一个或多个方面的示例计算装置610的框图。计算装置610通常包括至少一个处理器614,至少一个处理器经由总线子系统612与多个外围装置通信。这些外围装置可以包括存储子系统624(包括例如存储器子系统625和文件存储子系统626)、用户接口输出装置620、用户接口输入装置622以及网络接口子系统616。输入和输出装置允许与计算装置610的用户交互。网络接口子系统616提供到外部网络的接口,并且耦接到其他计算装置中的对应接口装置。
用户接口输入装置622可以包括键盘、指向装置(诸如鼠标、轨迹球、触摸板或图形输入板、扫描仪、集成到显示器中的触摸屏)、音频输入装置(诸如话音辨识系统、传声器)和/或其他类型的输入装置。一般来讲,术语“输入装置”的使用旨在包括将信息输入到计算装置610中或输入到通信网络上的所有可能类型的装置和方式。
用户接口输出装置620可以包括显示子系统、打印机、传真机或非视觉显示器,诸如音频输出装置。显示子系统可以包括阴极射线管(CRT)、平板装置(诸如液晶显示器(LCD))、投影装置或用于产生可见图像的某一其他机构。显示子系统还可以诸如经由音频输出装置提供非视觉显示。一般来讲,术语“输出装置”的使用旨在包括将信息从计算装置610输出到用户或输出到另一个机器或计算装置的所有可能类型的装置和方式。
存储子系统624存储提供本文所述的一些或所有模块的功能性的编程和数据结构。例如,存储子系统624可以包括执行图5的方法的所选择方面和/或实现图2、图3和图4中所描绘的各个组件的逻辑。
这些软件模块通常由处理器614单独地执行或结合其他处理器执行。存储子系统624中使用的存储器625可包括多个存储器,包括用于在程序执行期间存储指令和数据的主随机存取存储器(RAM) 630和其中存储固定指令的只读存储器(ROM) 632。文件存储子系统626可为程序和数据文件提供持久存储,并且可以包括硬盘驱动器、软盘驱动器以及相关联的可移动介质、CD-ROM驱动器、光盘驱动器或可移动介质盒。实现某些实现方式的功能性的模块可以由存储子系统624中的文件存储子系统626存储,或者存储在处理器614可访问的其他机器中。
总线子系统612提供用于使计算装置610的各个组件和子系统按照意图彼此通信的机制。尽管总线子系统612被示意性地示出为单条总线,但总线子系统的替代实现方式可以使用多条总线。
计算装置610可有不同的类型,包括工作站、服务器、计算集群、刀片服务器、服务器场或任何其他数据处理系统或计算装置。由于计算机和网络的不断变化的性质,图6中描绘的计算装置610的描述仅旨在作为用于说明一些实现方式的特定示例。计算装置610的许多其他配置是可能的,该配置与图6中所描绘的计算装置相比具有更多或更少的组件。
在一些实现方式中,提供了一种由一个或多个处理器实现的方法,并且该方法包括:在客户端装置处检测调用输入,该调用输入至少选择性地调用第一自动化助理和第二自动化助理;确定调用输入是针对第一自动化助理还是针对第二自动化助理,其中该确定是基于处理以下至少一项:调用输入的一个或多个调用特征,其中调用特征是对基于与调用输入相关联地接收的话音输入的语音辨识的任何特征的补充,以及由客户端装置检测到的一个或多个附加特征,一个或多个附加特征是对调用特征的补充;以及响应于确定调用输入是针对第一自动化助理:调用第一自动化助理代替调用第二自动化助理。
本文所公开的技术的这些和其他实现方式可包括以下特征中的一个或多个。
在一些实现方式中,一个或多个调用特征包括从包括调用输入的音频数据确定的一个或多个韵律特征。
在一些实现方式中,确定调用输入是针对第一自动化助理还是针对第二自动化助理包括:独立于语音辨识来识别包括调用输入的音频数据中包括的一个或多个术语;以及确定一个或多个术语指示该用户调用第一自动化助理的意图。
在一些实现方式中,一个或多个附加特征包括从由客户端装置的一个或多个传声器检测到的音频数据确定的一个或多个韵律特征,一个或多个传声器捕获在调用输入之前或之后的话语。
在一些实现方式中,一个或多个附加特征包括在从检测到调用输入时起的阈值时间段内在客户端装置处执行的一个或多个应用。
在一些实现方式中,一个或多个附加特征包括当检测到调用输入时客户端装置的位置。
在一些实现方式中,一个或多个附加特征包括当检测到调用输入时该用户正在执行的活动。
在一些实现方式中,一个或多个附加特征包括一个或多个视觉输入特征,一个或多个视觉输入特征是基于当检测到调用输入时由客户端装置的一个或多个相机捕获的视觉数据。
在一些实现方式中,处理调用输入包括由客户端装置使用机器学习模型来处理调用特征和附加特征中的一个或多个,该机器学习模型本地存储在客户端装置处。在那些实现方式中的一些实现方式中,该方法还包括:响应于调用第一自动化助理而接收来自用户的反馈,其中该反馈指示调用输入是否曾意图调用第一自动化助理;以及基于反馈来训练机器学习模型。
在一些实现方式中,该方法还包括在客户端装置处并响应于确定调用输入是针对第一自动化助理而呈递(render)第一自动化助理已被调用的指示。在那些实现方式中的一些实现方式中,该方法还包括:响应于调用第一自动化助理而接收用户输入;基于处理该用户输入来确定该用户输入指示调用不是针对第一自动化助理;以及响应于确定用户输入指示调用不是针对第一自动化助理,调用第二自动化助理。
在一些实现方式中,该指示包括由客户端装置的显示器呈递的视觉指示。在那些实现方式中的一些实现方式中,该指示包括由客户端装置的扬声器呈递的可听指示。
在一些实现方式中,该方法还包括向第一自动化助理并响应于调用第一自动化助理而提供在调用输入之前或之后的音频数据。在那些实现方式中的一些实现方式中,提供音频数据而不提供基于对该音频数据的附加处理的附加的基于音频的数据。在那些实现方式中的其他实现方式中,该方法还包括:处理音频数据以识别音频数据的一个或多个特征;以及向第一自动化助理并响应于调用第一自动化助理而提供一个或多个特征与音频数据。
在本文讨论的某些实现方式可以收集或使用关于用户的个人信息(例如,从其他电子通信中提取的用户数据、关于用户的社交网络的信息、用户的位置、用户的时间、用户的生物特征信息以及用户的活动和人口统计信息、用户之间的关系等)的情况下,为用户提供了一个或多个机会来控制是否收集信息、是否存储个人信息、是否使用个人信息以及如何收集、存储和使用关于用户的信息。也就是说,本文讨论的系统和方法仅在接收到相关用户对收集、存储和/或使用用户个人信息的明确授权后才收集、存储和/或使用用户个人信息。
例如,向用户提供了对程序或特征是否收集关于该特定用户或与程序或特征相关的其他用户的用户信息的控制。向要收集其个人信息的每个用户呈现一个或多个选项以允许控制与该用户相关的信息收集,提供关于是否收集信息以及关于收集信息的哪些部分的许可或授权。例如,可通过通信网络向用户提供一个或多个这样的控制选项。另外,某些数据可以在其被存储或使用之前以一种或多种方式进行处理,使得个人可识别信息被去除。作为一个示例,可以对用户的身份进行处理,使得无法确定任何个人可识别信息。作为另一个示例,用户的地理位置可以被一般化到更大的区域,使得无法确定用户的具体位置。
尽管本文已描述并示出若干实现方式,但是可以使用用于执行功能和/或获得结果和/或本文所述的一个或多个优点的各种其他手段和/或结构,并且此类变化和/或修改中的每一个都被视为在本文所述的实现方式的范围内。更一般地,本文所述的所有参数、尺寸、材料和配置都意图是示例性的,并且实际参数、尺寸、材料和/或配置将取决于教义所用于的一个或多个特定应用。本领域技术人员将认识到或者仅使用常规试验就能确定本文所述的实现方式的许多等效方案。因此,应理解,前述实现方式仅以示例的方式呈现,并且应理解,在所附权利要求及其等效物的范围内,可以以除具体描述和要求保护之外的方式实践实现方式。本公开的实现方式涉及本文所述的每个单独的特征、系统、制品、材料、套件和/或方法。另外,在本公开的范围内包括两个或更多个此类特征、系统、制品、材料、套件和/或方法的任何组合,如果此类特征、系统、制品、材料、套件和/或方法不互相矛盾的话。
Claims (22)
1.一种由一个或多个处理器实现的方法,所述方法包括:
在客户端装置处检测调用输入,所述调用输入至少选择性地调用第一自动化助理和第二自动化助理;
确定所述调用输入是针对所述第一自动化助理还是针对所述第二自动化助理,其中所述确定是基于处理以下至少一项:
所述调用输入的一个或多个调用特征,其中所述调用特征是对基于与所述调用输入相关联地接收的话音输入的语音辨识的任何特征的补充,以及
由所述客户端装置检测到的一个或多个附加特征,所述一个或多个附加特征是对所述调用特征的补充;以及
响应于确定所述调用输入是针对所述第一自动化助理:
调用所述第一自动化助理代替调用所述第二自动化助理。
2.如权利要求1所述的方法,其中所述一个或多个调用特征包括从包括所述调用输入的音频数据确定的一个或多个韵律特征。
3.如任一项前述权利要求所述的方法,其中确定所述调用输入是针对所述第一自动化助理还是针对所述第二自动化助理包括:
独立于语音辨识来识别包括所述调用输入的音频数据中包括的一个或多个术语;以及
确定所述一个或多个术语指示所述用户调用所述第一自动化助理的意图。
4.如任一项前述权利要求所述的方法,其中所述一个或多个附加特征包括从由所述客户端装置的一个或多个传声器检测到的音频数据确定的一个或多个韵律特征,所述一个或多个传声器捕获在所述调用输入之前或之后的话语。
5.如任一项前述权利要求所述的方法,其中所述一个或多个附加特征包括在从检测到所述调用输入时起的阈值时间段内在所述客户端装置处执行的一个或多个应用。
6.如任一项前述权利要求所述的方法,其中所述一个或多个附加特征包括当检测到所述调用输入时所述客户端装置的位置。
7.如任一项前述权利要求所述的方法,其中所述一个或多个附加特征包括当检测到所述调用输入时所述用户正在执行的活动。
8.如任一项前述权利要求所述的方法,其中所述一个或多个附加特征包括一个或多个视觉输入特征,所述一个或多个视觉输入特征是基于当检测到所述调用输入时由所述客户端装置的一个或多个相机捕获的视觉数据。
9.如权利要求1所述的方法,其中处理所述调用输入包括由所述客户端装置使用机器学习模型来处理所述调用特征和所述附加特征中的一个或多个,所述机器学习模型本地存储在所述客户端装置处。
10.如权利要求9所述的方法,还包括:
响应于调用所述第一自动化助理而接收来自所述用户的反馈,其中所述反馈指示所述调用输入是否曾意图调用所述第一自动化助理;以及
基于所述反馈来训练所述机器学习模型。
11.如任一项前述权利要求所述的方法,还包括:
在所述客户端装置处并响应于确定所述调用输入是针对所述第一自动化助理而呈递所述第一自动化助理已被调用的指示。
12.如权利要求11所述的方法,还包括:
响应于调用所述第一自动化助理而接收用户输入;
基于处理所述用户输入来确定所述用户输入指示所述调用不是针对所述第一自动化助理;以及
响应于确定所述用户输入指示所述调用不是针对所述第一自动化助理:
调用所述第二自动化助理。
13.如权利要求11或权利要求12所述的方法,其中所述指示包括由所述客户端装置的显示器呈递的视觉指示。
14.如权利要求11或权利要求12所述的方法,其中所述指示包括由所述客户端装置的扬声器呈递的可听指示。
15.如任一项前述权利要求所述的方法,还包括:
向所述第一自动化助理并响应于调用所述第一自动化助理而提供在所述调用输入之前或之后的音频数据。
16.如权利要求15所述的方法,其中提供所述音频数据而不提供基于对所述音频数据的附加处理的附加的基于音频的数据。
17.如权利要求15所述的方法,还包括:
处理所述音频数据以识别所述音频数据的一个或多个特征;以及
向所述第一自动化助理并响应于调用所述第一自动化助理而提供所述一个或多个特征与所述音频数据。
18.一种客户端装置,包括:
一个或多个传声器;
存储器,所述存储器存储指令;
一个或多个处理器,所述一个或多个处理器执行所述指令以:
检测调用输入,所述调用输入至少选择性地调用第一自动化助理和第二自动化助理;
确定所述调用输入是针对所述第一自动化助理还是针对所述第二自动化助理,其中所述确定是基于处理以下至少一项:
所述调用输入的一个或多个调用特征,其中所述调用特征是对基于与所述调用输入相关联地接收的话音输入的语音辨识的任何特征的补充,以及
由所述客户端装置检测到的一个或多个附加特征,所述一个或多个附加特征是对所述调用特征的补充;以及
响应于确定所述调用输入是针对所述第一自动化助理:
调用所述第一自动化助理代替调用所述第二自动化助理。
19.如权利要求18所述的助理装置,其中所述一个或多个调用特征包括从包括所述调用输入的音频数据确定的一个或多个韵律特征。
20.如权利要求18或权利要求19所述的助理装置,其中在确定所述调用输入是针对所述第一自动化助理还是针对所述第二自动化助理时,所述处理器中的一个或多个进行:
独立于语音辨识来识别包括所述调用输入的音频数据中包括的一个或多个术语;以及
确定所述一个或多个术语指示所述用户调用所述第一自动化助理的意图。
21.一种系统,所述系统包括:
至少一个处理器;以及
存储器,所述存储器存储指令,所述指令在被执行时致使所述至少一个处理器执行如权利要求1至17中任一项所述的方法。
22.一种计算机可读存储介质,所述计算机可读存储介质存储指令,所述指令在被执行时致使一个或多个处理器执行如权利要求1至17中任一项所述的操作。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202163288795P | 2021-12-13 | 2021-12-13 | |
US63/288,795 | 2021-12-13 | ||
US17/550,060 US20230186909A1 (en) | 2021-12-13 | 2021-12-14 | Selecting between multiple automated assistants based on invocation properties |
US17/550,060 | 2021-12-14 | ||
PCT/US2022/042726 WO2023113877A1 (en) | 2021-12-13 | 2022-09-07 | Selecting between multiple automated assistants based on invocation properties |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118369641A true CN118369641A (zh) | 2024-07-19 |
Family
ID=86694823
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202280080386.4A Pending CN118369641A (zh) | 2021-12-13 | 2022-09-07 | 基于调用属性在多个自动化助理之间选择 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20230186909A1 (zh) |
EP (1) | EP4217845A1 (zh) |
KR (1) | KR20240094013A (zh) |
CN (1) | CN118369641A (zh) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109074292B (zh) * | 2016-04-18 | 2021-12-14 | 谷歌有限责任公司 | 适当的代理的自动化助理调用 |
KR102241970B1 (ko) * | 2016-11-07 | 2021-04-20 | 구글 엘엘씨 | 기록된 미디어 핫워드 트리거 억제 |
US20180336892A1 (en) * | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
US11393477B2 (en) * | 2019-09-24 | 2022-07-19 | Amazon Technologies, Inc. | Multi-assistant natural language input processing to determine a voice model for synthesized speech |
-
2021
- 2021-12-14 US US17/550,060 patent/US20230186909A1/en active Pending
-
2022
- 2022-09-07 EP EP22783119.5A patent/EP4217845A1/en active Pending
- 2022-09-07 KR KR1020247018248A patent/KR20240094013A/ko unknown
- 2022-09-07 CN CN202280080386.4A patent/CN118369641A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
US20230186909A1 (en) | 2023-06-15 |
KR20240094013A (ko) | 2024-06-24 |
EP4217845A1 (en) | 2023-08-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US12118999B2 (en) | Reducing the need for manual start/end-pointing and trigger phrases | |
CN110741433A (zh) | 使用多个计算设备的对讲式通信 | |
KR20230141950A (ko) | 클라이언트-컴퓨팅된 콘텐츠 메타데이터에 기반한 음성 질의 QoS | |
US20230025709A1 (en) | Transferring dialog data from an initially invoked automated assistant to a subsequently invoked automated assistant | |
US12080293B2 (en) | Combining responses from multiple automated assistants | |
US20220366903A1 (en) | Contextual suppression of assistant command(s) | |
CN114981772A (zh) | 在不需要自动助理的基于语音的调用的情况下基于检测到的环境状况来选择性地调用自动助理 | |
JP2024524808A (ja) | 適応型ユーザ対話を用いたロボットコンピューティングデバイス | |
CN118369641A (zh) | 基于调用属性在多个自动化助理之间选择 | |
WO2023113877A1 (en) | Selecting between multiple automated assistants based on invocation properties | |
US11972764B2 (en) | Providing related queries to a secondary automated assistant based on past interactions | |
WO2023086229A1 (en) | Providing related queries to a secondary automated assistant based on past interactions | |
US20230169963A1 (en) | Selectively masking query content to provide to a secondary digital assistant | |
US20240203411A1 (en) | Arbitration between automated assistant devices based on interaction cues | |
US20240185848A1 (en) | Generating a group automated assistant session to provide content to a plurality of users via headphones | |
WO2023003585A1 (en) | Transferring dialog data from an initially invoked automated assistant to a subsequently invoked automated assistant | |
CN117121100A (zh) | 为自动化助理启用具有软端点的自然对话 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |