CN115605948A - 在多个潜在响应的电子装置之间的仲裁 - Google Patents
在多个潜在响应的电子装置之间的仲裁 Download PDFInfo
- Publication number
- CN115605948A CN115605948A CN202080100894.5A CN202080100894A CN115605948A CN 115605948 A CN115605948 A CN 115605948A CN 202080100894 A CN202080100894 A CN 202080100894A CN 115605948 A CN115605948 A CN 115605948A
- Authority
- CN
- China
- Prior art keywords
- electronic device
- user
- electronic devices
- additional
- devices
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims abstract description 56
- 238000001514 detection method Methods 0.000 claims abstract description 16
- 230000004044 response Effects 0.000 claims description 20
- 230000015654 memory Effects 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 8
- 230000008859 change Effects 0.000 claims description 5
- 230000000007 visual effect Effects 0.000 description 53
- 230000002452 interceptive effect Effects 0.000 description 17
- 230000008569 process Effects 0.000 description 13
- 230000009471 action Effects 0.000 description 11
- 238000004891 communication Methods 0.000 description 7
- 239000000463 material Substances 0.000 description 5
- 241000282412 Homo Species 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 238000013475 authorization Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000010267 cellular communication Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 238000010304 firing Methods 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000005021 gait Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000007562 laser obscuration time method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 235000012054 meals Nutrition 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/301—Automatic calibration of stereophonic sound system, e.g. with test microphone
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本文所描述的技术涉及多个潜在响应的支持自动助理的电子装置之间的仲裁,以确定哪些应对用户的话语作出响应,和/或哪些应遵从其它电子装置。在各种实现方式中,可以在第一电子装置的麦克风处检测用户的口头话语,即由用户提供的口头话语。还可以在所述麦克风处检测由附加电子装置发出的声音。所述声音中的每一个可以对与所述口头话语在相应电子装置处的检测相对应的时间戳进行编码。时间戳可以从所述声音中提取,并且和与所述口头话语在所述第一电子装置处的检测相对应的本地时间戳进行比较。基于所述比较,所述第一电子装置可以在本地调用自动助理,或遵从所述附加电子装置中的一个。
Description
背景技术
人类可以通过在本文中称为“自动助理”(也称为“聊天机器人”、“虚拟助理”、“交互式个人助理”、“智能个人助理”、“个人语音助理”、“会话代理”等)的交互式软件应用参与人机对话。例如,人类(当与自动助理交互时可以称为“用户”)可以使用可以包括转换成文本的有声话语的自由形式的自然语言输入提供命令、查询和/或请求,然后处理和/或键入自由形式的自然语言输入。
在许多情况下,在自动助理可以解释用户的请求并且对用户的请求作出响应之前,它必须首先例如使用通常称为“热词”或“唤醒词”的预定义口头调用短语“被调用”。一旦利用一组热词中的一个或多个调用自动助理,它就可以在本文中称为“语音识别状态”或“一般收听状态”的状态下运行,在所述状态下,它对麦克风采样的音频数据执行语音到文本(“STT”)处理以生成文本输入,所述文本输入又被进行语义处理以确定用户的意图(并实现所述意图)。
发明内容
例如房间等环境中的多个电子装置被配备成与自动助理交互并不少见。例如,当用户带着支持助理的独立交互式扬声器、支持助理的智能电视等走进房间时,他或她可能携带支持助理的移动电话。当用户在此种环境中说出热词或短语时,可以同时在多个电子装置上调用自动助理,即使用户可能希望一个特定电子装置响应。因此,本文所描述的实现方式涉及多个潜在响应的电子装置之间的仲裁,以确定哪些应对用户的话语作出响应,和/或哪些应遵从其它电子装置。
在各种实现方式中,在检测到口头话语中的热词时,多个电子装置可以以声音和/或光的形式呈现输出。一些电子装置已经发出听觉和/或视觉输出,以便通知用户电子装置已经转变到语音识别或一般收听状态。此输出可以用可以由其它电子装置提取的信息进行编码,以确定哪个电子装置应对口头话语作出响应。在一些实现方式中,使用时间戳对输出进行编码,所述时间戳指示相应电子装置检测到口头话语的时刻。(例如,话语的开始、话语的结束等)。此时间戳可以由其它电子装置,例如由对发出的输出进行解码的那些电子装置检测。
然后,每个电子装置可以使用各种时间戳来确定它应对口头话语作出响应(例如,通过调用自动助理)还是遵从另一电子装置。例如,每个电子装置可以将其自己的本地时间戳(例如,与所述电子装置检测到口头话语相对应的时间)与从其它电子装置接收的时间戳相比较。如果给定电子装置的本地时间戳早于(例如,小于)其它电子装置的时间戳,则给定电子装置可以使自身优先于其它电子装置并且例如通过调用自动助理对口头话语作出响应。
其它电子装置可以执行与给定电子装置类似的比较,以确定其自己的时间戳不是第一个,因此应停机。在两个电子装置确定(并且发出输出编码)完全相同的时间戳(考虑到由现代电子装置生成的许多时间戳的粒度/精度,这将极其罕见)的不太可能的情况下,随机选择(例如,比较在每个电子装置处生成的随机64位值)或其它技术(例如,场境提示)可以用于打破僵局。
在一些实现方式中,电子装置可以改变其本地时间戳,以便使自身相对于其它电子装置优先或降低优先级。例如,电子装置可以从其本地时间戳中减去时间,使得其本地时间戳更早出现,从而潜在地使自身相对于其它电子装置优先。或者,电子装置可以将时间添加到其本地时间戳,使得其本地时间戳稍后出现,从而潜在地使自身相对于其它电子装置降低优先级。
电子装置可以基于各种不同的场境提示使自身优先/降低优先级。作为一个示例,车辆驾驶员可以与自动助理交互以获取方向、播放音乐、拨打免提电话等。为了避免干扰,驾驶员可能希望特定支持助理的电子装置(例如与车辆集成的车辆计算机系统)对驾驶员的请求作出响应。如果车辆中的其它电子装置,例如驾驶员的智能电话或智能手表,或乘客携带的电子装置也对驾驶员的口头话语作出响应,则驾驶员可能会分心,试图在电子装置之间进行仲裁。因此,在一些实现方式中,特定电子装置,例如支持助理的车辆计算机系统,或甚至插入车辆控制台并且将汽车应用程序投射到车辆控制台上的智能电话可能会优先考虑自身,以防止其它电子装置用对驾驶员的口头话语的多个响应淹没驾驶员。
在一些实现方式中,电子装置可以随时间“学习”如何优先考虑自身。作为一个非限制性示例,假设当用户在厨房说出热词时,她的电话和独立交互式扬声器都会响应。进一步假设用户采取一些动作来指示她希望扬声器而不是电话响应(例如,如果她正在播放音乐,则扬声器可能比她的电话更合适)。用户的电话可以了解到,无论何时它与所述独立交互式扬声器(或一般来说,与独立交互式扬声器)共同存在,电话应将时间添加到其本地时间戳,以增加交互式扬声器的时间戳抢占电话的本地时间戳的可能性。在一些实现方式中,电子装置可以使用例如无线通信(例如,蓝牙)、位置坐标比较、连接到同一无线网络、使用视觉传感器数据和对象识别等检测其它电子装置的共存。
可能存在用户希望一个电子装置对她的口头话语作出响应,而另一电子装置首先检测到口头话语且因此具有较早时间戳的情况。在一些实现方式中,这些电子装置中的一个或两个可以使用本文所述的技术将用户“切换”到另一装置,例如通过电子装置本身变为非活动和/或发出用使另一电子装置作出响应的信息编码的输出。
作为示例,用户可能意图调用附近独立交互式扬声器上的自动助理播放音乐,但当她说出热词时,口袋里的智能电话会作出响应,因为例如它比相对较远的独立交互式扬声器更快地检测到她的话语,或者因为智能电话比交互式扬声器具有更多的计算能力和/或更好的机器学习模型。然后,用户可以提供指示她不想让智能电话作出响应的输入,例如说“没关系(never mind)”,在电话上滑动关闭音乐应用,或甚至提供更多细节,比如“不,我想让我厨房的扬声器作出响应(No,Iwant my kitchen speaker to respond)”。在各种实现方式中,用户的智能电话可以发出用命令或消息编码的可听或可视“停机”输出。
当独立交互式扬声器对此停机输出进行解码时,解码的命令或消息可能会导致独立扬声器采取各种动作,例如调用自动助理并等待用户的后续命令。在一些实现方式中,消息或命令可以包括帮助附近的其它电子装置确定它们是否应作出响应的信息。例如,命令或消息可以包括电子装置(例如,“厨房扬声器”)或电子装置“类别”或“类型”(例如,独立扬声器、智能电视、智能手表等)的标识符,这些标识符应与作出响应的电子装置相匹配。在一些实现方式中,如果多个其它电子装置检测到智能电话的停机输出,则每个电子装置都可以发出具有自己的本地时间戳的输出,并且具有最早时间戳的装置可以作出响应,如先前所描述。
在一些实现方式中,提供一种由一个或多个处理器执行的方法,所述方法包括:在第一电子装置的麦克风处检测由用户提供的口头话语;在麦克风处检测由一个或多个附加电子装置发出的一个或多个声音,其中一个或多个声音中的每一个对与口头话语在一个或多个附加电子装置的相应电子装置处的检测相对应的时间戳进行编码;从由一个或多个附加电子装置发出的一个或多个声音中提取一个或多个时间戳;将一个或多个时间戳和与口头话语在第一电子装置处的检测相对应的本地时间戳相比较;以及基于所述比较,使第一电子装置在本地调用自动助理或遵从附加电子装置中的一个。
在各种实现方式中,方法可以进一步包括使第一电子装置发出另一声音,其中另一声音对本地时间戳进行编码。在各种实现方式中,所述方法可以进一步包括在比较之前,基于一个或多个场境提示改变本地时间戳。
在各种实现方式中,一个或多个场境提示可以包括向第一电子装置分配与一个或多个附加装置不同的优先级。在各种实现方式中,可以基于第一电子装置与车辆集成而向第一电子装置分配优先级。在各种实现方式中,分配给第一电子装置的优先级可以低于分配给与车辆集成的一个或多个附加电子装置的一个或多个优先级。在各种实现方式中,改变可以包括从本地时间戳添加或减去时间。
在各种实现方式中,所述方法可以进一步包括:在使第一电子装置在本地调用自动助理之后,检测来自用户的负反馈;以及使第一电子装置发出另一声音,其中另一声音使附加电子装置中的一个调用自动助理。在各种实现方式中,所述方法可以进一步包括使第一电子装置遵从附加电子装置中的一个。在各种实现方式中,检测负反馈可以包括:在麦克风处检测后续口头话语;以及处理后续口头话语以确定用户意图在附加电子装置中的一个上调用自动助理。
另一类似方法可以包括:在第一电子装置的麦克风处检测由用户提供的口头话语;检测由一个或多个附加电子装置发出的一个或多个输出,其中一个或多个输出中的每一个对与口头话语在一个或多个附加电子装置的相应电子装置处的检测相对应的时间戳进行编码;从由一个或多个附加电子装置发出的一个或多个输出中提取一个或多个时间戳;将一个或多个时间戳和与口头话语在第一电子装置处的检测相对应的本地时间戳相比较;以及基于所述比较,使第一电子装置在本地调用自动助理或遵从附加电子装置中的一个。
另外,一些实现方式包括一个或多个计算装置的一个或多个处理器,其中一个或多个处理器可操作以执行存储在相关联存储器中的指令,并且其中指令被配置成执行上述方法中的任一个。一些实现方式还包括一个或多个非暂时性计算机可读存储介质,所述非暂时性计算机可读存储介质存储可由一个或多个处理器执行以执行上述方法中的任一个的计算机指令。
应理解,本文中更详细描述的前述概念和附加概念的所有组合被认为是本文所公开的主题的一部分。例如,出现在本公开的结尾处的要求保护的主题的所有组合被认为是本文所公开的主题的一部分。
附图说明
图1是其中可以部署本文所公开的实现方式的示例环境的框图。
图2A和2B示意性展示根据各种实现方式的其中可以实施本公开的所选择方面的一个示例场景。
图3示意性地描绘其中可以采用所公开技术的另一场景。
图4A和4B示意性地描绘其中可以采用所公开技术的另一场景。
图5描绘说明根据本文所公开的实现方式的示例方法的流程图。
图6说明计算装置的示例架构。
具体实施方式
现在转向图1,说明其中可以实施本文所公开的技术的示例环境。示例环境包括一个或多个客户端计算装置106。每个客户端装置106可以执行自动助理客户端108的相应实例,在本文中也可以称为自动助理的“客户端部分”。一个或多个基于云的自动助理组件119(本文中还可以统称为自动助理的“服务器部分”)可以在一个或多个计算系统(统称为“云”计算系统)上实施,所述计算系统经由通常在114处指示的一个或多个局域网和/或广域网(例如,因特网)通信地耦合到客户端装置106。
在各种实现方式中,自动助理客户端108的实例可以通过其与一个或多个基于云的自动助理组件119的交互形成从用户的角度看似自动助理120的逻辑实例,用户可以通过所述自动助理参与人机对话。图1中用虚线描绘此自动助理120的一个实例。因此,应理解,与在客户端装置106上执行的自动助理客户端108交互的每个用户实际上可以与自动助理120的其自身的逻辑实例交互。为简洁起见,本文中用作“服务”特定用户的术语“自动助理”将指在用户操作的客户端装置108上执行的自动助理客户端106和一个或多个基于云的自动助理组件119(其可以在多个自动助理客户端108之中共享)的任何组合。还应理解,在一些实现方式中,自动助理120可以对来自任何用户的请求作出响应,而不管自动助理120的特定实例是否实际“服务”用户。
一个或多个客户端装置106可以包括例如以下项中的一个或多个:台式计算装置、膝上型计算装置、平板计算装置、移动电话计算装置、用户的车辆的计算装置(例如,车载通信系统、车载娱乐系统、车载导航系统)、独立交互式扬声器(在一些情况下,其可以包括视觉传感器)、例如智能电视(或配备有自动助理能力的网络加密狗的独立电视)的智能电器设备,和/或包括计算装置的用户的可穿戴设备(例如,具有计算装置的用户的手表、具有计算装置的用户的眼镜、虚拟或增强现实计算装置)。可以提供附加和/或替代客户端计算装置。例如独立交互式扬声器(或“智能扬声器”)的一些客户端装置106可以采用辅助装置的形式,所述辅助装置主要设计成促进用户与自动助理120之间的对话。一些此类辅助装置可以采用具有附接显示器的独立交互式扬声器的形式,所述显示器可以是触摸屏显示器,也可以不是触摸屏显示器。
在一些实现方式中,客户端装置106可以配备有具有一个或多个视场的一个或多个视觉传感器107,但是这不是必需的。视觉传感器107可以采用各种形式,例如数码相机、无源红外(“PIR”)传感器、立体相机、RGBd相机等。一个或多个视觉传感器107可以例如由图像捕获模块111用于捕获其中部署客户端装置106的环境的图像帧(静止图像或视频)。然后,这些图像帧可以例如由视觉提示模块1121进行分析,以检测图像帧中包含的用户提供的视觉提示。这些视觉提示可以包括但不限于手势、注视特定参考点、面部表情、用户的预定义移动等。这些检测到的视觉提示可以用于各种目的,例如调用自动助理120和/或使自动助理120采取各种动作。
如本文更详细地描述,自动助理120经由一个或多个客户端装置106的用户界面输入和输出装置与一个或多个用户进行人机对话会话。在一些实现方式中,自动助理120可以响应于用户经由客户端装置106中的一个的一个或多个用户界面输入装置提供的用户界面输入而与用户进行人机对话会话。在这些实现方式中的一些中,用户界面输入明确地指向自动助理120。例如,用户可以口头地提供(例如,键入、说出)预定的调用短语,例如“好的,助理(OK,Assistant)”或“嗨,助理(Hey,Assistant)”,以使自动助理120开始主动收听。另外或替代地,在一些实现方式中,可以基于一个或多个检测到的视觉提示单独地或组合口头地调用短语调用自动助理120。
在一些实现方式中,自动助理120可以利用语音识别将用户的话语转换成文本,并且相应地对文本作出响应,例如通过提供搜索结果、通用信息,和/或采取一个或多个响应动作(例如,播放媒体、启动游戏、订购食物等)。在一些实现方式中,自动助理120可以另外或替代地对话语作出响应,而不将话语转换成文本。例如,自动助理120可以将话音输入转换成嵌入、实体表示(指示话音输入中存在的一个或多个实体)和/或其它“非文本”表示,并且对这种非文本表示进行操作。因此,本文中描述的基于从话音输入转换的文本操作的实现方式可以另外和/或替代地直接对话音输入和/或话音输入的其它非文本表示进行操作。
客户端计算装置106和操作基于云的自动助理组件119的计算装置中的每一个可以包括用于存储数据和软件应用的一个或多个存储器、用于访问数据并且执行应用的一个或多个处理器,以及促进通过网络进行通信的其它组件。由客户端计算装置106和/或由自动助理120执行的操作可以分布在多个计算机系统上。自动助理120可以实施为例如计算机程序,所述计算机程序在通过网络彼此耦合的处于一个或多个位置的一个或多个计算机上运行。
如上所述,在各种实现方式中,客户端计算装置106可以操作自动助理120的自动助理客户端108或“客户端部分”。在各种实现方式中,自动助理客户端108可以包括语音捕获模块110、前述图像捕获模块111、视觉提示模块1121,和/或调用模块113。在其它实现方式中,语音捕获模块110、图像捕获模块111、视觉提示模块112,和/或调用模块113的一个或多个方面可以例如通过一个或多个基于云的自动助理组件119与自动助理客户端108分开实施。例如,在图1中,还存在可以检测图像数据中的视觉提示的基于云的视觉提示模块1122。
在各种实现方式中,可以使用硬件和软件的任何组合实施的语音捕获模块110可以与例如麦克风109或另一压力传感器的硬件接口连接,以捕获用户话语的音频记录。可以出于各种目的对此音频记录执行各种类型的处理。在一些实现方式中,可以使用硬件或软件的任何组合实施的图像捕获模块111可以被配置成与视觉传感器107接口连接,以捕获对应于视觉传感器107的视场的一个或多个图像帧(例如,数字照片)。
在各种实现方式中,视觉提示模块1121(和/或基于云的视觉提示模块1122)可以使用硬件或软件的任何组合实施,并且可以被配置成分析由图像捕获模块111提供的一个或多个图像帧,以检测在一个或多个图像帧中和/或跨越一个或多个图像帧捕获的一个或多个视觉提示。视觉提示模块1121可以采用各种技术来检测视觉提示。例如,视觉提示模块1122可以使用一个或多个人工智能(或机器学习)模型,所述模型被训练以生成指示图像帧中检测到的用户提供的视觉提示的输出。
语音捕获模块110可以被配置成例如经由麦克风109捕获用户的语音,如先前所提及。另外或替代地,在一些实现方式中,语音捕获模块110可以进一步被配置成例如使用语音到文本(“STT”)处理技术将所述所捕获音频转换成文本和/或其它表示或嵌入。另外或替代地,在一些实现方式中,语音捕获模块110可以被配置成例如使用一个或多个话音合成器将文本转换成计算机合成的语音。然而,在一些(但不是全部)情况下,客户端装置106在计算资源(例如,处理器循环、存储器、电池等)方面可能相对受限。因此,客户端装置106本地的语音捕获模块110可以被配置成将有限数目的不同口语短语,特别是调用自动助理120的热词和短语转换成文本(或其它形式,例如低维嵌入)。可以将其它语音输入发送到基于云的自动助理组件119,所述基于云的自动助理组件可以包括基于云的文本到语音(“TTS”)模块116和/或基于云的STT模块117。
在各种实现方式中,调用模块113可以被配置成例如基于由语音捕获模块110和/或视觉提示模块1121(在一些实现方式中,其可以与图像捕获模块111组合在单个模块中)提供的输出而确定是否调用自动助理120。例如,调用模块113可以确定用户的话语是否适合作为应发起与自动助理120的人机对话会话的调用短语。在一些实现方式中,调用模块113可以单独地或结合由视觉提示模块1121检测的一个或多个视觉提示分析指示用户的话语的数据,例如,音频记录或从音频记录提取的特征向量(例如,嵌入)。在一些实现方式中,当还检测到特定视觉提示时,调用模块113用于响应于有声话语而确定是否调用自动助理120的阈值可能会降低。因此,即使用户提供的有声话语与适当的调用短语“OK assistant”不同,但在语音上有点相似,但是当结合视觉提示(例如,说话者挥手、说话者直接注视视觉传感器107等)被检测到时,所述话语仍然可以被视为适当的调用。
在一些实现方式中,调用模块113可以使用一个或多个装置上调用模型来确定话语和/或视觉提示是否适合作为调用。此装置上调用模块可以被训练以检测调用短语/手势的变化。例如,在一些实现方式中,可以使用联邦学习和/或训练示例训练装置上调用模型(例如,一个或多个神经网络),每个训练示例包括来自用户的话语的音频记录(或提取的特征向量),以及指示与话语同时捕获的一个或多个图像帧和/或检测到的视觉提示的数据。
调用模块113还可以被配置成执行本公开的所选择方面,以便于在多个潜在响应的客户端装置106(替代地,“电子装置”)之间进行仲裁,以确定哪些应对用户的话语作出响应,和/或哪些应遵从其它客户端装置106。例如,调用模块113可以在与调用自动助理120相关联的各个时刻生成/检索时间戳。例如,调用模块113可以在它确定从用户捕获的话语适合作为应将自动助理120转变到一般收听状态的热词时生成本地时间戳。或者,调用模块113可以在它开始捕获最终被认为足以调用自动助理120的话语时生成本地时间戳。预期与热词的口头话语的检测相对应的其它时刻。
在附近的客户端装置106在它们的相应麦克风处捕获相同话语的类似时刻,所述客户端装置还可以生成自身的本地时间戳。然后,例如通过相应调用模块113,每个客户端装置106可以呈现对所述装置的相应本地时间戳进行编码的音频和/或视觉输出。每个客户端装置106可以捕获来自其它客户端装置的输出并且从输出中提取时间戳。
然后,每个客户端装置106可以将自身的本地时间戳与其它时间戳相比较,以确定它是否在检测热词时是“第一个”,或者另一客户端装置是否首先“听到”热词。如果特定客户端装置106上的调用模块113确定其本地时间戳抢占来自其它客户端装置的所有其它时间戳,则调用模块113的实例可以调用自动助理120。在其它客户端装置上的调用模块113的其它实例可以遵从具有较早时间戳的客户端装置106。
其中客户端装置106对它们的本地时间戳进行编码的输出可以采用各种形式。编码的输出不一定可被人眼或耳朵感知,尽管它可以被感知。当调用自动助理120以通知用户自动助理120正在收听时,一些辅助装置已经发出“啁啾”或类似声音。在一些此类情况下,辅助装置还可以激励一个或多个光源,以通知用户自动助理120正在收听。在各种实现方式中,调用模块113可以调制这些现有音频和/或视频输出以携带信息,包括上述时间戳。
即使音频和/或视觉输出一般来说是人类可感知的,人类也未必能够感知调制信息。例如,光和/或声音可能以人类无法感知的频率被调制。另外或替代地,在一些实现方式中,人类无法感知的输出(例如超声音频或红外视觉输出)可以使用时间戳和本文所描述的其它信息被调制。
基于云的TTS模块116可以被配置成利用云的几乎无限资源将文本数据(例如,由自动助理120制定的自然语言响应)转换成计算机生成的语音输出。在一些实现方式中,TTS模块116可以将计算机生成的语音输出提供到客户端装置106,以例如使用一个或多个扬声器直接输出。在其它实现方式中,可以将由自动助理120生成的文本数据(例如,自然语言响应)提供到语音捕获模块110,所述语音捕获模块然后可以将文本数据转换成直接输出的计算机生成的语音。
基于云的STT模块117可以被配置成利用云的几乎无限资源将由语音捕获模块110捕获的音频数据转换成文本,然后可以将所述文本提供到意图匹配器135。在一些实现方式中,基于云的STT模块117可以将语音的音频记录转换成一个或多个因素,然后将一个或多个因素转换成文本。另外或替代地,在一些实现方式中,STT模块117可以采用状态解码图。在一些实现方式中,STT模块117可以生成用户话语的多个候选文本解释。在一些实现方式中,根据是否存在同时检测到的视觉提示,与其它候选文本解释相比,STT模块117可以更高地对特定候选文本解释进行加权或偏置。
自动助理120(并且具体来说,基于云的自动助理组件119)可以包括意图匹配器135、前述TTS模块116、前述STT模块117和下文更详细地描述的其它组件。在一些实现方式中,可以在与自动助理120分开的组件中省略、组合和/或实施自动助理120的模块中的一个或多个。在一些实现方式中,为了保护隐私,自动助理120的一个或多个组件,例如自然语言处理器122、TTS模块116、STT模块117等可以至少部分地在客户端装置106上实施(例如,以排除云)。
在一些实现方式中,在与自动助理120的人机对话会话期间,自动助理120响应于由客户端装置106中的一个的用户生成的各种输入而生成响应内容。自动助理120可以提供响应内容(例如,当与用户的客户端装置分离时,通过一个或多个网络),以作为对话会话的一部分呈现给用户。例如,自动助理120可以响应于经由客户端装置106提供的自由形式的自然语言输入而生成响应内容。如本文所使用,自由形式输入是由用户制定且不限于由用户呈现以供选择的一组选项的输入。
意图匹配器135可以被配置成基于由用户提供的输入(例如,有声话语、视觉提示等)和/或基于例如传感器信号、在线信号(例如,从网络服务获得的数据)等其它信号确定用户的意图。在一些实现方式中,意图匹配器135可以包括自然语言处理器122和前述基于云的视觉提示模块1122。在各种实现方式中,基于云的视觉提示模块1122可以类似于视觉提示模块1121操作,除了基于云的视觉提示模块1122可以具有更多可供其支配的资源。具体来说,基于云的视觉提示模块1122可以单独地或组合其它信号检测视觉提示,所述视觉提示可以由意图匹配器135用于确定用户的意图。
自然语言处理器122可以被配置成处理用户经由客户端装置106生成的自然语言输入,并且可以生成带注释的输出(例如,以文本形式)以供自动助理120的一个或多个其它组件使用。例如,自然语言处理器122可以处理自然语言自由形式的输入,所述自然语言自由形式的输入由用户经由客户端装置106的一个或多个用户界面输入装置生成。生成的带注释输出包括自然语言输入的一个或多个注释,以及自然语言输入的一个或多个(例如,所有)术语。在一些实现方式中,自然语言处理器122可以包括共指解析器(未描绘),所述共指解析器被配置成基于一个或多个场境提示对相同实体的引用进行分组或“聚集”。例如,共指解析器可以用于将自然语言输入“,我喜欢上次在那儿用餐时的假想咖啡厅(I likedHypothetical Cafélast time we ate there)”中的术语“那儿(there)”解析成“假想咖啡厅(Hypothetical Café)”。
意图匹配器135可以例如基于来自自然语言处理器122的输出(其可以包括自然语言输入的注释和术语)和/或基于来自视觉提示模块(例如,1121和/或1122)的输出使用各种技术确定用户的意图。在一些实现方式中,意图匹配器135可以访问一个或多个数据库(未描绘),所述数据库包括例如语法、视觉提示和响应动作(或更一般地,意图)之间的多个映射。在许多情况下,这些语法可能会随着时间的推移而被选择和/或学习,并且可以表示用户的最常见意图。例如,可以将一个语法“播放<艺术家>”映射到调用响应动作的意图,所述意图使<艺术家>的音乐在由用户操作的客户端装置106上播放。另一个语法“[天气|预报]今天”可能与例如“今天天气如何”和“今天天气预报如何?”的用户查询相匹配。
除了或代替语法,在一些实现方式中,意图匹配器135可以单独地或组合一个或多个语法和/或视觉提示采用一个或多个受训练的机器学习模型。这些受训练的机器学习模型还可以存储在一个或多个数据库中,并且可以进行训练以例如通过将指示用户的话语的数据和/或任何检测到的用户提供的视觉提示嵌入降维空间中,然后例如使用例如欧几里德距离、余弦相似性等技术确定哪些其它嵌入(以及因此意图)最接近来识别意图。
实现模块124可以被配置成接收由意图匹配器135输出的预测/估计意图,以及相关联的时隙值(无论由用户主动地提供还是从用户请求),并且实现(或“解析”)意图。在各种实现方式中,用户意图的实现(或“解析”)可以导致例如由实现模块124生成/获得各种实现信息(也称为“响应”信息或“解析信息”)。如下文将描述,在一些实现方式中,可以将实现信息提供到自然语言生成器(在一些图中“NLG”)126,所述自然语言生成器可以生成基于实现信息输出的自然语言。
实现(或“解析”)信息可以采用各种形式,因为可以通过多种方式实现(或“解析”)意图。假设用户请求纯信息,例如“《闪灵》的户外镜头在哪里拍摄?(Where were theoutdoor shots of‘The Shining’filmed?)”。用户的意图可以例如由意图匹配器135确定为搜索查询。可以将搜索查询的意图和内容提供到实现模块124,所述实现模块如图1中所描绘可以与一个或多个搜索模块150通信,所述搜索模块被配置成搜索文档语料库和/或其它数据源(例如,知识图等)以获得响应信息。实现模块124可以将指示搜索查询的数据(例如,查询的文本、降维嵌入等)提供到搜索模块150。搜索模块150可以提供响应信息,例如GPS坐标,或其它更明确的信息,例如“俄勒冈州胡德山森林小屋”。此响应信息可以形成由实现模块124生成的实现信息的一部分。
另外或替代地,实现模块124可以被配置成例如从意图匹配器135接收用户的意图以及由用户提供或使用其它手段(例如,用户的GPS坐标、用户偏好等)确定的任何时隙值,并且触发响应动作。例如,响应动作可包括订购商品/服务、启动计时器、设置提醒、发起电话呼叫、播放媒体、发送消息等。在一些此类实现方式中,实现信息可以包括与实现相关的时隙值、确认响应(在一些情况下可以从预定响应中选择)等。
自然语言生成器126可以被配置成基于从各种源获得数据而生成和/或选择自然语言输出(例如,设计成模拟人类语音的单词/短语)。在一些实现方式中,自然语言生成器126可以被配置成接收与意图的实现相关联的实现信息作为输入,并且基于实现信息生成自然语言输出。另外或替代地,自然语言生成器126可以从例如第三方应用的其它源接收信息(例如,所需时隙),它可以使用所述信息合成用户的自然语言输出。
图2A和2B示意性描绘示例场景,其中可以实施本公开的所选择方面,以便在多个潜在响应的电子装置之间进行仲裁。在图2A中,用户101与三个配备助理的电子装置共存:呈携带在用户101腰部的智能电话形式的第一电子装置206A;呈智能电视(可以本地装备以实施自动助理120,或可以配备有智能“加密狗”以便于与自动助理120交互)形式的第二电子装置206B;以及呈独立交互式扬声器形式的第三电子装置106C。
在图2A中,用户101说出热词“嗨,助理(Hey Assistant)”,然后说出命令“外面天气怎么样?(what’s the weather outside?)”。电子装置206A-C中的每一个在略微不同的时间检测热词。这些略微不同的时间可能是由于用户话音的声波必须更远地传播到例如第三电子装置206C,而不是传播到第一电子装置206A。或者,不同电子装置206可以具有不同处理能力,可以具有用不同数据训练的不同调用模型,可以在不同的时刻(例如,话语开始与话语结束)生成时间戳等。
在任何情况下,如虚线框所示,每个电子装置都会发出输出(例如,音频和/或视觉),所述输出用自己的本地时间戳进行编码。例如,第一电子装置206A发出对其本地时间戳202008210334060868188进行编码的输出。第二电子装置206B发出对其本地时间戳202008210334062703285进行编码的输出。并且,第三电子装置206C发出对其本地时间戳202008210334064380278进行编码的输出。
所有三个时间戳共有前14位数字20200821033406,这恰好表示2020年8月21日3:34:06。然而,其余7位数字开始分叉,因为它们表示(从左到右)越来越精细的时间单位。因此,由第一电子装置206A发出的时间戳是0.0868188秒。由第二电子装置206B发出的时间戳是0.2703285秒。并且,由第三电子装置206C发出的时间戳是0.4380278秒。从这些数字可以直观地看出,三个电子装置按照它们与用户101的相应距离的顺序“听到”话语。
电子装置206A-C中的每一个可以例如使用麦克风和/或例如相机或光电二极管的光传感器捕获由其它电子装置发出的输出,并且可以对来自所述所捕获输出的其它时间戳进行解码。然后,每个电子装置206可以将其本地时间戳与它从其它电子装置接收的时间戳相比较,以确定它是否应对用户的请求作出响应,或者它是否应遵从其它电子装置。
例如,第一电子装置206A可以确定其时间戳(0.0868188秒)早于其它两个时间戳。因此,在图2B中,自动助理120经由第一电子装置206A响应“多云且88度(Cloudy and88degrees)”。第二电子装置206B和第三电子装置206C确定它们的本地时间戳不是第一,因此它们遵从第一电子装置206A。值得注意地,本示例中使用并且在大多数现代电子装置中可用的时间戳具有足够粒度,使得两个电子装置生成相同时间戳的可能性很小。即使发生这种情况,也可以使用例如随机选择或场境提示实现决胜局。
有时,用户可能不希望最近的电子装置对调用自动助理120的用户请求作出响应。例如,当用户要求交互式扬声器播放某个音乐时,用户可能会忘记用户口袋中的智能电话。因此,本文描述允许用户使一个电子装置将控制“切换”到另一电子装置的技术。
现在参考图3,用户101已经进入一个空间,所述空间包括呈用户的智能电话(例如,可能在用户的口袋或手中)形式的第一电子装置306A以及呈独立交互式扬声器形式的第二电子装置306B。用户101说出以下话语“嘿助理,播放爵士乐(Hey assistant,playsome jazz)”。如通过第一箭头和虚线框指示,此话语由第一电子装置306A捕获,并且触发在第一电子装置306A处,然后在第二电子装置306B处的本地时间戳生成。具体来说,第一电子装置306A生成本地时间戳202008210334060868188,并且第二电子装置306B生成随后的本地时间戳202008210334064380278。同样,最后七位数字分别为0.0868188秒和0.4380278秒。因此,第一电子装置306A是第一个,并且通过调用自动助理120作出响应,自动助理120输出“好的,这是爵士乐(OK,here is some jazz)”。
此时,用户101提供负反馈,所述负反馈使第一电子装置306A停止。在此示例中,用户101说“不,不,使用厨房扬声器(No,no,use the kitchen speaker)”。然而,用户101也可以以其它方式提供负反馈,例如使用手势。在任何情况下,此负反馈导致第一电子装置306A参与切换过程,其中它将控制传递给第二电子装置306B(或至少停机)。这种切换可以以各种方式发生。
在一些实现方式中,作为切换过程的一部分,第一电子装置306A可以发出附加输出(音频和/或视觉)以及新的本地时间戳,所述附加输出对指示第一电子装置306A正停机(例如,遵从另一电子装置,例如第二电子装置306B)的附加信息进行编码。当另一电子装置检测到此附加输出时,它可以提取新的本地时间戳,并且将所述新的本地时间戳与响应于第一电子装置停机而从其它电子装置(如果存在)接收的任何其它新时间戳进行比较。无论哪个电子装置具有用于检测来自第一电子装置306A的停机消息的最早时间戳,都可以随后转变到完全收听状态。
在一些实现方式中并且如图3中所说明,新响应装置(图3中的第二电子装置306B)可以例如通过呈现TTS输出“您可以重复吗?(Could you please repeat that?)”来提示用户重复其命令。然后,用户101可以重复命令“播放爵士乐(Play some jazz)”。值得注意地,为了使第二电子装置306B播放音乐,用户101不需要说出任何热词,因为作为切换过程的一部分,第二电子装置306B已经处于完全收听状态。当然,用户101可能已经说出不同命令,并且只要第二电子装置306B处于完全收听状态,它将如上所述处理命令并相应地作出响应。
在一些实现方式中,作为切换过程的一部分,正停机的电子装置(图3中的第一电子装置306A)可以将信息编码到它作为切换过程的一部分呈现的输出(“停机输出”)中,所述切换过程用信号表示哪个电子装置应该接管。在图3中,例如,用户101在负反馈中识别哪个电子装置应对用户的请求(“No,no,use the kitchen speaker”)作出响应。作为独立扬声器的第二电子装置306B实际上可以用名称“厨房扬声器”配置(例如,作为由用户101控制的装置的协调生态系统的一部分),和/或可以与具有名称“厨房”的房间相关联。因此,可以将短语“厨房扬声器”或经由短语“厨房扬声器”与第二电子装置相关联的另一标识符编码到由第一电子装置306A呈现的停机输出中。第二电子装置306B匹配编码的标识符,因此它作出响应;与标识符“厨房扬声器”不匹配的其它电子装置(图3中未描绘)可以遵从。
不需要在停机输出中对预期目标电子装置的精确标识符进行编码。在一些实现方式中,替代地可以将电子装置“种类”或“类型”编码成停机输出。满足此种类或类型的电子装置(例如,作为成员)可以作出响应,其它电子装置可以遵从。在图3中,例如,作为切换过程的一部分,第一电子装置306A可以将令牌“扬声器”(或等效标识符)编码到其停机输出中。如果第二电子装置306B(扬声器)是检测到来自第一电子装置306A的停机输出的唯一扬声器,则第二电子装置306B可以接管控制(例如,并且提示用户重复命令,如图3中所示)。如果满足“扬声器”约束的多于一个电子装置检测到停机输出,则在一些情况下,多个电子装置可以作出响应(如果用户101希望在多个扬声器上播放音乐,则这可能是合乎需要的)。或者,满足“扬声器”约束的多个电子装置可以通过比较本地时间戳和接收的时间戳而在自身之间进行仲裁,如先前所描述。
在一些实现方式中,第一电子装置306A可能不仅仅促进其它电子装置转变到完全收听状态。例如,在一些实现方式中,第一电子装置306A可以将指示用户的完整命令的数据中继到其它电子装置,例如通过将所述数据编码到停机输出中。假设在来自用户101的负反馈之前,第一电子装置306A成功地调用自动助理120,并且所述自动助理120例如通过意图匹配器135能够处理用户的命令以生成用户意图(例如,动作=“播放音乐”、类型=“爵士乐”)。在一些实现方式中,此意图可用于第一电子装置306A,使得第一电子装置可以将此意图编码到其停机输出中。第二电子装置306B可以从停机输出中提取此意图,并且可以立即开始播放爵士音乐,而不是提示用户101重复命令。
在相关特征中,在一些实现方式中,电子装置可以配备有输入组件(例如,按钮、传感器等),所述输入组件可有意地或响应于特定物理现象致动,以产生使所述电子装置调用自动助理120并且触发自动助理120的响应动作的信号。自动助理120可以在本地调用,或者在一些情况下,输入组件的致动可以使电子装置发出音频/视觉输出,例如先前论述的啁啾声。此输出可以由电子装置调制以编码信息,当由远程电子装置(例如,智能电话收集)提取时,所述信息使远程电子装置调用自动助理120并且执行响应动作。作为一个示例,老年患者佩戴的可穿戴装置可以配备有检测患者何时跌倒的传感器,例如加速度计或陀螺仪。跌倒的检测可以触发可穿戴装置发出人类可以听到或人类可能听不到的声音,并且对使配备蜂窝通信的装置(例如智能电话)呼叫紧急援助的信息进行编码。
在许多情况下,最接近扬声器的电子装置将最有可能生成最早的本地时间戳,并且在默认情况下“赢得”多个电子装置之间的仲裁。然而,这并不是在所有情况下都合乎需要。图3中描绘一个示例,其中用户101更偏向特定电子装置(306B)作出响应。在所述情况下,用户101能够触发切换过程以将控制传递到所述目标电子装置。然而,用户可能并不总是处于良好的位置或足够了解可用/附近装置,以确保发生这种切换。并且在一些情况下,此切换过程可以使调用模块113“了解”电子装置应相对于其它电子装置应降低自身优先级的情况。
因此,在各种实现方式中,电子装置可以被配置成改变其本地时间戳,以便使自身相对于其它电子装置优先或降低优先级。电子装置可以通过从其本地时间戳中减去时间而使自身优先,例如以增加其本地时间戳早于从由远程电子装置呈现的音频/视觉输出中提取的其它时间戳的可能性。类似地,电子装置可以通过从将时间添加到其本地时间戳而降低自身优先级,例如以减小其本地时间戳早于从由远程电子装置呈现的音频/视觉输出中提取的其它时间戳的可能性。
在一些实现方式中,电子装置可以在特定情况下使自身优先/降低优先级,所述特定情况例如基于一个或多个场境提示来确定。例如,这些场境提示可以包括向电子装置分配与一个或多个附加电子装置不同的优先级。例如,基于电子装置与车辆集成,例如,作为车辆导航系统或与车辆计算系统配对以将内容“投射”到仪表板显示器上的移动电话的一部分,可以人为地向电子装置分配比其它电子装置更高的优先级。
在一些示例中,用户可以配置多个电子装置(例如,形成装置的协调生态系统的一部分的多个装置),以在一般情况下或在特定情况下具有各种优先级。例如,用户可以将其智能电话配置为在用户进入特定区域(例如,他或她的住宅、住宅内的特定房间、工作场所、地理围栏等)时降低自身优先级(例如,通过将时间添加到其时间戳)。这样,用户发出的命令更可能由所述区域中的其它电子装置处理,如果用户希望播放音乐、控制电视、进行“环境”计算等,这可能是合乎需要的。
作为另一示例,当电子装置识别(例如,使用说话者识别技术)说话者的话音,例如来自对所述电子装置和/或同一协调生态系统中的其它电子装置具有管理权限的用户时,电子装置可以使自身优先。同样,当电子装置无法识别说话者的话音时,电子装置可以降低自身优先级,例如以增加附近的另一电子装置(可能由说话者控制)可以具有最早时间戳的可能性。
在一些实现方式中,配备助理的智能电话可能会在检测到它在用户口袋中时(通常是说话者正在寻址不同的电子装置的信号)降低自身优先级(例如,通过将时间添加到其本地时间戳)。例如,智能电话的相机或红外传感器等光传感器可能检测到黑暗,并且推断出它在用户的口袋中。另外或替代地,智能电话的加速度计和/或陀螺仪可以检测到特定的运动节奏,并且确定此运动节奏与用户行走或跑步的步态匹配。
图4A和4B描绘其中电子装置可以使自身相对于其它附近的电子装置优先的一个非限制性场景。在图4A中,三个人在车辆450中,驾驶员在最前面(在左边),驾驶员后面有两排,每排都有一名乘客。第一电子装置406A采用例如车辆导航系统或仪表板计算系统的车辆计算系统形式,所述车辆计算系统此外能够控制车辆450的立体声。中间乘客携带呈智能电话形式的第二电子装置406B,并且后排乘客携带呈平板计算机形式的第三电子装置406C。驾驶员的口袋中还携带呈另一智能电话形式的第四电子装置406D。
在图4A中,驾驶员说“嗨助理,我需要去芝加哥的行车路线(Hey assistant,Ineed driving directions to Chicago)”。为了避免分心,驾驶员可能希望第一电子装置406A满足这个请求。然而,取决于电子装置406A-D与驾驶员的接近度、当说出语句时驾驶员面对的方向、电子装置406A-D的处理能力,和/或电子装置406A-D的配置,另一电子装置可能生成比第一电子装置406A更早的时间戳。
在图4A中,例如,每个装置呈现对其本地时间戳进行编码的音频和/或视觉输出。由第一电子装置406A生成的时间戳是20200824021732651”。由第二电子装置406B生成的时间戳是20200824021732602”。由第三电子装置406C生成的时间戳是20200824021732714”,考虑到第三电子装置406C离驾驶员最远,这并不奇怪。由第四电子装置406D生成的时间戳是20200824021732606”,考虑到第四电子装置406D与驾驶员的接近度,所述时间戳相对较早。
前十四位数字(20200824021732)跨越时间戳是相同的,因此将不再讨论。表示毫秒的最后三位数字可以在电子装置406A-D之中进行比较,以确定第二电子装置406B(中间乘客携带的智能电话)具有602毫秒或0.602秒的最早时间戳。这对于驾驶员来说显然不是理想的,因为驾驶员无法容易地查看第二电子装置406B并且可能难以听到第二电子装置406B的音频输出。
因此,并且如图4中所展示,在一些实现方式中,第一电子装置406A可以通过从其本地时间戳中减去时间来使自身优先。在图4B中,第一电子装置406A从其时间戳中减去50毫秒以产生新的时间戳20200824021732601。值得注意地,由第一电子装置406A生成的更改后的本地时间戳中现在有601毫秒。这比第二电子装置406A的时间戳(602毫秒)快一毫秒,这足以给予第一电子装置406优先权来满足驾驶员的请求。因此,在图4B中,自动助理120被调用并且通过说“好的,我已经加载方向。以当前速度,您将在五小时后到达(OK,I’veloaded directions.At the current speed you should arrive in five hours)”经由第一电子装置406A作出响应。
在一些实现方式中,例如电子装置406B-C的其它装置可以检测到它们在车辆450中。例如,它们可以监测和检测随时间变化的位置坐标,或者可以检测到加速度计信号的移动、社交媒体状态更新、由车辆450发出的无线信号(例如,在试图与驾驶员或乘客携带的电子装置配对时)等。在一些实现方式中,这些电子装置可以降低自身优先级以增加以下可能性:如果配备助理的电子装置与车辆450集成或至少与车辆450配对,则车辆电子装置将具有最早的时间戳。
图5是说明根据本文所公开的实现方式的示例方法500的流程图。为了方便起见,参考执行操作的系统来描述流程图的操作。此系统可以包括各种计算机系统的各种组件,例如,自动助理120和/或在客户端装置106上操作的调用模块113的一个或多个组件。在一些实现方式中,方法500的操作可以在每个客户端/电子装置上执行。此外,尽管以特定顺序示出过程500的操作,但这并不意味着是限制性的。可以重新排序、省略或添加一个或多个操作。
在框502处,系统可以在第一电子装置的麦克风处检测由用户提供的口头话语。在框504处,系统可以生成第一电子装置的本地时间戳。此本地时间戳可以对应于口头话语在第一电子装置处的检测,例如识别热词的时刻、自动助理转变成一般收听状态的时刻等。
在框506处,取决于情况,系统可以从在框504处生成的本地时间戳增加或减去时间。例如,如果第一电子装置是车辆计算系统,则系统可以从本地时间戳中减去一定量的时间(例如,50毫秒、200毫秒等)。如果第一电子装置是被确定为在车辆中或携带在用户的口袋中的智能电话,则系统可以将一定量的时间添加到本地时间戳。
在框508处,系统可以检测由一个或多个附加电子装置发出的一个或多个输出。如果这些输出是基于音频的(例如,先前提到的啁啾声),则麦克风可以捕获这些输出。如果这些输出是基于视觉的,则相机、视觉传感器、光传感器等可以捕获这些输出。在各种实现方式中,一个或多个输出中的每一个对与口头话语在一个或多个附加电子装置中的相应电子装置处的检测相对应的时间戳进行编码。
因此,在框510处,系统可以从由一个或多个附加电子装置发出的一个或多个输出中提取在其中编码的一个或多个时间戳。音频输出优于视觉输出的一个优点是对于一些类型的视觉输出,可能需要视线。然而,在其它情况下,可以采用照亮墙壁或天花板等附近表面的红外引爆等技术,以避免视线要求。
在框512处,系统可以将在框510处从远程电子装置的输出提取的一个或多个时间戳与通过/针对第一电子装置在框504处生成的本地时间戳相比较。基于在框512处的比较,系统可以使第一电子装置在框514处在本地调用自动助理,或在框516处遵从附加电子装置中的一个。
图6是可以任选地用于执行本文所描述的技术的一个或多个方面的示例计算装置61 0的框图。在一些实现方式中,客户端计算装置、用户控制的资源引擎134,和/或其它组件中的一个或多个可以包括示例计算装置61 0的一个或多个组件。
计算装置61 0通常包括经由总线子系统612与多个外围装置通信的至少一个处理器614。这些外围装置可以包括:存储子系统624,所述存储子系统包括例如存储器子系统625和文件存储子系统626;用户界面输出装置620;用户界面输入装置622;以及网络接口子系统616。输入和输出装置允许与计算装置61 0进行用户交互。网络接口子系统616将接口提供到外部网络并且耦合到其它计算装置中的对应接口装置。
用户界面输入装置622可以包括键盘、例如鼠标、轨迹球、触摸板或图形输入板的指向装置、扫描仪、结合在显示器中的触摸屏、例如话音辨识系统、麦克风的音频输入装置,和/或其它类型的输入装置。通常,术语“输入装置”的使用旨在包括用于将信息输入到计算装置61 0中或通信网络上的所有可能类型的装置和方式。
用户界面输出装置620可以包括显示子系统、打印机、传真机,或例如音频输出装置的非可视显示器。显示子系统可以包括阴极射线管(CRT)、例如液晶显示器(LCD)的平板装置、投影装置,或用于产生可见图像的某种其它机制。显示子系统还可以例如经由音频输出装置来提供非可视显示。通常,术语“输出装置”的使用旨在包括用于将信息从计算装置61 0输出到用户或另一机器或计算装置的各种可能类型的装置和方式。
存储子系统624存储提供本文所描述的一些或全部模块的功能的编程和数据结构。例如,存储子系统624可以包括执行图5的方法的所选方面以及实施在图1中描绘的各个组件的逻辑。
这些软件模块通常由处理器614单独地或组合其它处理器执行。用于存储子系统624中的存储器625可以包括多个存储器,包括用于在程序执行期间存储指令和数据的主随机存取存储器(RAM)630以及存储固定指令的只读存储器(ROM)632。文件存储子系统626可以为程序和数据文件提供持久存储,并且可以包括硬盘驱动器、软盘驱动器以及相关联的可移动介质、CD-ROM驱动器、光学驱动器或可移动介质盒。实施某些实现方式的功能的模块可以由文件存储子系统626存储在存储子系统624中,或者存储在处理器614可访问的其它机器中。
总线子系统612提供用于使计算装置61 0的各个组件和子系统按预期彼此通信的机制。尽管总线子系统612被示意性地示出为单个总线,但是总线子系统的替代实现方式可以使用多个总线。
计算装置61 0可以具有各种类型,包括工作站、服务器、计算集群、刀片服务器、服务器群或任何其它数据处理系统或计算装置。由于计算机和网络的不断变化的性质,因此对图6中所描绘的计算装置61 0的描述仅旨在作为用于说明一些实现方式的特定示例。计算装置61 0的许多其它配置可能具有比图6中描绘的计算装置更多或更少的组件。
在本文讨论的某些实现方式可以收集或使用关于用户的个人信息(例如,从其它电子通信中提取的用户数据、关于用户的社交网络的信息、用户的位置、用户的时间、用户的生物特征信息、以及用户的活动和人口统计信息、用户之间的关系等)的情况下,向用户提供一个或多个机会来控制是否收集信息、是否存储个人信息、是否使用个人信息以及如何收集、存储和使用关于用户的信息。也就是说,本文讨论的系统和方法仅在接收到相关用户的明确授权之后收集、存储和/或使用用户个人信息。
例如,用户可以控制程序或特征是否收集关于特定用户或与程序或特征相关的其他用户的用户信息。向要收集其个人信息的每个用户提供一个或多个选项,以允许控制与所述用户相关的信息收集、提供关于是否收集信息以及关于收集信息的哪些部分的许可或授权。例如,可以通过通信网络向用户提供一个或多个此类控制选项。另外,某些数据在存储或使用之前可能会以一种或多种方式进行处理,使得删除个人身份信息。作为一个示例,可以处理用户的身份,使得无法确定个人身份信息。作为另一示例,用户的地理位置可以被概括为更大的区域,使得无法确定用户的特定位置。
尽管本文已经描述和说明若干实现方案,但是可以利用用于执行功能和/或获得结果的各种其它手段和/或结构,和/或本文描述的一个或多个优点,并且此类变化和/或修改中的每一个被认为在本文描述的实现方式的范围内。更一般地,本文描述的所有参数、尺寸、材料和配置意味着是示例性的,并且实际参数、尺寸、材料和/或配置将取决于教示用于的一个或多个特定应用。仅使用常规实验,本领域技术人员将认识到或能够确定本文描述的具体实现方式的许多等同物。因此,应理解,前述实现方式仅以示例的方式呈现,并且在所附权利要求及其等同物的范围内,可以不同于具体描述和要求保护的方式来实践实现方式。本公开的实现方式涉及本文描述的每个个别特征、系统、物品、材料、套件和/或方法。另外,如果此类特征、系统、物品、材料、套件和/或方法不是相互矛盾的,则两个或更多个此类特征、系统、物品、材料、套件和/或方法的任何组合被包括在本公开的范围内。
Claims (20)
1.一种使用第一电子装置的一个或多个处理器实施的方法,所述方法包括:
在所述第一电子装置的麦克风处检测由用户提供的口头话语;
在所述麦克风处检测由一个或多个附加电子装置发出的一个或多个声音,其中所述一个或多个声音中的每一个对与所述口头话语在所述一个或多个附加电子装置的相应电子装置处的检测相对应的时间戳进行编码;
从由所述一个或多个附加电子装置发出的一个或多个声音中提取所述一个或多个时间戳;
将所述一个或多个时间戳和与所述口头话语在所述第一电子装置处的检测相对应的本地时间戳相比较;以及
基于所述比较,使所述第一电子装置在本地调用自动助理,或遵从所述附加电子装置中的一个。
2.根据权利要求1所述的方法,进一步包括使所述第一电子装置发出另一声音,其中所述另一声音对所述本地时间戳进行编码。
3.根据权利要求1或2所述的方法,进一步包括在所述比较之前,基于一个或多个场境提示改变所述本地时间戳。
4.根据权利要求3所述的方法,其中所述一个或多个场境提示包括所述第一电子装置被分配与所述一个或多个附加装置不同的优先级。
5.根据权利要求4所述的方法,其中所述第一电子装置基于所述第一电子装置与车辆集成而被分配不同的优先级。
6.根据权利要求4所述的方法,其中分配给所述第一电子装置的不同的优先级低于分配给与车辆集成的一个或多个附加电子装置的一个或多个优先级。
7.根据权利要求4至6中任一项所述的方法,其中所述改变包括从所述本地时间戳添加或减去时间。
8.根据权利要求1至4中任一项所述的方法,进一步包括:
在使所述第一电子装置在本地调用所述自动助理之后,检测来自所述用户的负反馈;以及
使所述第一电子装置发出另一声音,其中所述另一声音使所述附加电子装置中的一个调用所述自动助理。
9.根据权利要求8所述的方法,进一步包括使所述第一电子装置遵从所述附加电子装置中的一个。
10.根据权利要求8所述的方法,其中检测所述负反馈包括:
在所述麦克风处检测后续口头话语;以及
处理所述后续口头话语,以确定所述用户意图在所述附加电子装置中的一个上调用所述自动助理。
11.一种第一电子装置,所述第一电子装置包括一个或多个处理器和存储指令的存储器,所述指令响应于由所述一个或多个处理器的执行,使所述一个或多个处理器:
在所述第一电子装置的麦克风处检测由用户提供的口头话语;
检测由一个或多个附加电子装置发出的一个或多个输出,其中所述一个或多个输出中的每一个对与所述口头话语在所述一个或多个附加电子装置的相应电子装置处的检测相对应的时间戳进行编码;
从由所述一个或多个附加电子装置发出的一个或多个输出中提取所述一个或多个时间戳;
将所述一个或多个时间戳和与所述口头话语在所述第一电子装置处的检测相对应的本地时间戳相比较;以及
基于所述比较,使所述第一电子装置在本地调用自动助理,或遵从所述附加电子装置中的一个。
12.根据权利要求11所述的第一电子装置,进一步包括使所述第一电子装置发出输出的指令,所述输出对所述本地时间戳进行编码。
13.根据权利要求11或12所述的第一电子装置,进一步包括基于一个或多个场境提示改变所述本地时间戳的指令。
14.根据权利要求13所述的第一电子装置,其中所述一个或多个场境提示包括所述第一电子装置被分配与所述一个或多个附加装置不同的优先级。
15.根据权利要求14所述的第一电子装置,其中所述第一电子装置基于所述第一电子装置与车辆集成而被分配不同的优先级。
16.根据权利要求14所述的第一电子装置,其中分配给所述第一电子装置的不同优先级低于分配给与车辆集成的一个或多个附加电子装置的一个或多个优先级。
17.根据权利要求13至16中任一项所述的第一电子装置,其中所述改变包括从所述本地时间戳添加或减去时间。
18.根据权利要求11至14中任一项所述的第一电子装置,进一步包括用于以下操作的指令:
在所述第一电子装置处在本地调用所述自动助理之后,检测来自所述用户的负反馈;以及
使所述第一电子装置发出另一声音,其中所述另一声音使所述附加电子装置中的一个调用所述自动助理。
19.根据权利要求18所述的第一电子装置,进一步包括使所述第一电子装置遵从所述附加电子装置中的一个的指令。
20.至少一种非暂时性计算机可读介质,所述非暂时性计算机可读介质包括指令,所述指令响应于由第一电子装置的一个或多个处理器的执行,使所述一个或多个处理器:
在所述第一电子装置的麦克风处检测由用户提供的口头话语;
检测由一个或多个附加电子装置发出的一个或多个输出,其中所述一个或多个输出中的每一个对与所述口头话语在所述一个或多个附加电子装置的相应电子装置处的检测相对应的时间戳进行编码;
从由所述一个或多个附加电子装置发出的一个或多个输出中提取所述一个或多个时间戳;
将所述一个或多个时间戳和与所述口头话语在所述第一电子装置处的检测相对应的本地时间戳相比较;以及
基于所述比较,使所述第一电子装置在本地调用自动助理,或遵从所述附加电子装置中的一个。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/948,085 | 2020-09-02 | ||
US16/948,085 US11670293B2 (en) | 2020-09-02 | 2020-09-02 | Arbitrating between multiple potentially-responsive electronic devices |
PCT/US2020/065013 WO2022050972A1 (en) | 2020-09-02 | 2020-12-15 | Arbitrating between multiple potentially-responsive electronic devices |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115605948A true CN115605948A (zh) | 2023-01-13 |
Family
ID=74181335
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080100894.5A Pending CN115605948A (zh) | 2020-09-02 | 2020-12-15 | 在多个潜在响应的电子装置之间的仲裁 |
Country Status (4)
Country | Link |
---|---|
US (2) | US11670293B2 (zh) |
EP (1) | EP4128216A1 (zh) |
CN (1) | CN115605948A (zh) |
WO (1) | WO2022050972A1 (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111312239B (zh) * | 2020-01-20 | 2023-09-26 | 北京小米松果电子有限公司 | 响应方法、装置、电子设备及存储介质 |
US20230290358A1 (en) * | 2022-03-09 | 2023-09-14 | Google Llc | Biasing interpretations of spoken utterance(s) that are received in a vehicular environment |
US20240127799A1 (en) * | 2022-10-17 | 2024-04-18 | Google Llc | Processing continued conversations over multiple devices |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9626764B2 (en) * | 2014-07-01 | 2017-04-18 | Castar, Inc. | System and method for synchronizing fiducial markers |
US9318107B1 (en) * | 2014-10-09 | 2016-04-19 | Google Inc. | Hotword detection on multiple devices |
KR20170132622A (ko) | 2016-05-24 | 2017-12-04 | 삼성전자주식회사 | 음성 인식 기능을 갖는 전자 장치 및 전자 장치의 동작 방법 |
US9794720B1 (en) | 2016-09-22 | 2017-10-17 | Sonos, Inc. | Acoustic position measurement |
US11138972B2 (en) | 2017-12-08 | 2021-10-05 | Google Llc | Isolating a device, from multiple devices in an environment, for being responsive to spoken assistant invocation(s) |
US10679629B2 (en) | 2018-04-09 | 2020-06-09 | Amazon Technologies, Inc. | Device arbitration by multiple speech processing systems |
CN114003874A (zh) * | 2020-02-26 | 2022-02-01 | 支付宝(杭州)信息技术有限公司 | 一种图像数据的真实性验证方法、装置及设备 |
-
2020
- 2020-09-02 US US16/948,085 patent/US11670293B2/en active Active
- 2020-12-15 CN CN202080100894.5A patent/CN115605948A/zh active Pending
- 2020-12-15 EP EP20839478.3A patent/EP4128216A1/en active Pending
- 2020-12-15 WO PCT/US2020/065013 patent/WO2022050972A1/en unknown
-
2023
- 2023-05-08 US US18/144,713 patent/US20230274740A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
EP4128216A1 (en) | 2023-02-08 |
WO2022050972A1 (en) | 2022-03-10 |
US11670293B2 (en) | 2023-06-06 |
US20220068271A1 (en) | 2022-03-03 |
US20230274740A1 (en) | 2023-08-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3982236B1 (en) | Invoking automated assistant function(s) based on detected gesture and gaze | |
JP7263505B2 (ja) | ホットワードを用いない自動アシスタント機能の適応 | |
CN112236739B (zh) | 基于检测到的嘴运动和/或凝视的适配自动助理 | |
EP2898505B1 (en) | Leveraging head mounted displays to enable person-to-person interactions | |
KR102599607B1 (ko) | 자동화된 어시스턴트를 호출하기 위한 다이내믹 및/또는 컨텍스트 특정 핫워드 | |
CN115605948A (zh) | 在多个潜在响应的电子装置之间的仲裁 | |
KR102591555B1 (ko) | 자동 어시스턴트를 위한 시각적 단서들의 선택적 검출 | |
WO2019107145A1 (ja) | 情報処理装置、及び情報処理方法 | |
CN115668363A (zh) | 基于同时热词触发的跨设备数据同步 | |
US20240055003A1 (en) | Automated assistant interaction prediction using fusion of visual and audio input | |
CN115699166A (zh) | 检测热词或短语的近似匹配 | |
JP2023535250A (ja) | 自動化された音声アシスタントにおける失敗の検出および処理 | |
CN110543290B (zh) | 多模态响应 | |
CN111816180B (zh) | 基于语音控制电梯的方法、装置、设备、系统及介质 | |
CN113767379B (zh) | 使用内容代理和/或存储的内容参数来渲染内容 | |
US20230230578A1 (en) | Personalized speech query endpointing based on prior interaction(s) | |
US20230197071A1 (en) | Accelerometer-based endpointing measure(s) and /or gaze-based endpointing measure(s) for speech processing | |
KR102669152B1 (ko) | 사용자, 자동화된 어시스턴트 및 컴퓨팅 서비스 간의 다중 모드 상호 작용 | |
KR20230153450A (ko) | 자동 스피치 인식의 로컬 실행을 위한 디바이스 중재 | |
KR20230003281A (ko) | 사용자, 자동화된 어시스턴트 및 컴퓨팅 서비스 간의 다중 모드 상호 작용 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |