CN113412467A - 指定用于与自动助理交互的接口模态的操作模式 - Google Patents

指定用于与自动助理交互的接口模态的操作模式 Download PDF

Info

Publication number
CN113412467A
CN113412467A CN201880095081.4A CN201880095081A CN113412467A CN 113412467 A CN113412467 A CN 113412467A CN 201880095081 A CN201880095081 A CN 201880095081A CN 113412467 A CN113412467 A CN 113412467A
Authority
CN
China
Prior art keywords
computing device
portable computing
user
mode
response
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201880095081.4A
Other languages
English (en)
Inventor
海韦·陈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of CN113412467A publication Critical patent/CN113412467A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04847Interaction techniques to control parameter settings, e.g. interaction with sliders or dials
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • G06F3/04883Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures for inputting data by handwriting, e.g. gesture or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • G06F3/04886Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures by partitioning the display area of the touch-screen or the surface of the digitising tablet into independently controllable areas, e.g. virtual keyboards or menus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • G06F40/56Natural language generation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/38Transceivers, i.e. devices in which transmitter and receiver form a structural unit and in which at least one part is used for functions of transmitting and receiving
    • H04B1/3827Portable transceivers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/80Services using short range communication, e.g. near-field communication [NFC], radio-frequency identification [RFID] or low energy communication
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W48/00Access restriction; Network selection; Access point selection
    • H04W48/02Access restriction performed under specific conditions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Security & Cryptography (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本文所描述的实施方式涉及根据计算装置是否针对接收到的非音频相关特征适当地定向而在操作模式之间转换计算装置。例如,用户可以将便携式计算装置附接到车辆的对接站,并且在运输时在便携式计算装置附近挥手,以便调用自动助理。用户的这种动作可以由接近传感器和/或能够确定便携式计算装置的场境和/或用户对调用自动助理的感兴趣的任何其它装置检测到。在一些实施方式中,便携式计算装置的位置、定向和/或运动可以被检测到并与接近传感器的输出组合使用,以确定是否响应于来自用户的输入姿势而调用自动助理。

Description

指定用于与自动助理交互的接口模态的操作模式
背景技术
人类可以通过在本文中称为“自动助理”(也称为“数字代理”、“聊天机器人”、“交互式个人助理”、“智能个人助理”、“助理应用程序”、“会话代理”等)的交互式软件应用程序参与人机对话。例如,人类(当与自动助理交互时可以称为“用户”)可以使用口头自然语言输入(即,话语)和/或通过提供文本(例如,键入的)自然语言输入向自动助理提供命令和/或请求,在一些情况下可以将该口头自然语言输入转换成文本,然后进行处理。自动助理通过提供响应的用户接口输出来对请求作出响应,所述响应的用户接口输出可以包括可听和/或可视的用户接口输出。
在许多情况下,在自动助理可以解释用户的请求并且对用户的请求作出响应之前,必须首先例如使用通常称为“热词”或“触发短语”的预定义口头调用短语“调用”用户的请求。因此,许多自动助理在本文中称为“默认收听状态”的状态下操作,其中自动助理总是“收听”由麦克风针对受限(或有限,或“默认”)的一组热词采样的音频数据。除了默认的一组热词之外,忽略音频数据中捕获的任何话语。一旦通过默认的一组热词中的一个或多个调用自动助理,自动助理就可以在本文中称为“语音识别状态”的状态下操作,其中在调用之后的至少某一时间间隔内,自动助理对由麦克风采样的音频数据执行语音转文本(“STT”)处理以生成文本输入,进而对文本输入进行语义处理以确定用户的意图(并且实现该意图)。
然而,在某些情况下,用户可能无法提供清晰的“热词”,例如,当用户在多人聊天的汽车中驾驶时,或者当用户在家中听音乐或看电影时。如果自动助理尝试在这些情况下处理“热词”,则自动助理可能会无意地捕获从各种不同来源同时提供的音频。因此,当“热词”与由自动助理接收的音频数据所捕获的其它声音无法区分时,自动助理可能会发生故障和/或提供错误的输出。例如,由于用户需要提供更容易与其它背景噪声区分的补充调用短语,这可能导致计算和/或网络资源的过度使用。此类补充调用短语必须另外由对应的客户端装置和/或远程自动助理组件进行处理,从而导致各种计算/网络资源的额外使用。
发明内容
本文阐述的实施方式涉及使用无声和/或听不见的身体姿势从计算装置调用自动助理,这取决于计算装置是否在特定环境中和/或在特定条件下运行。在某些条件下,由于正在与用户交谈的其它人、向用户发出音频的其它设备和/或可能中断或干扰用户的语音的任何其它可听声音所产生的背景噪声,用户可能无法清楚地提供触发短语。因此,自动助理可能最终处理本不打算用于自动助理的音频,从而导致自动助理提供不足响应,由此浪费计算和/或网络资源。例如,在将已由助理装置捕获的音频传输到远程服务器进行处理时,可能会浪费计算和/或网络资源,并且音频数据的处理不会产生自动助理可辨别的任何内容。此外,如果用户必须重复触发短语,以进一步确保自动助理接收到一定量的可辨别音频输入,则向自动助理这种重复相同的输入会浪费功率和计算资源,因为提供对自动助理的访问的装置必须不断地监视和处理用户的可听输入。为了解决此类技术缺陷,至少在装置在特定条件下运行时,本文阐述的实施方式允许用户响应于装置检测到用户执行的身体姿势的不可听特征而调用自动助理。以此方式,如果用户处于难以提供清晰口头话语的环境中,则尽管嘈杂的环境,用户仍可以简单地执行特定的身体姿势以便初始地调用自动助理。
在一些实施方式中,诸如蜂窝电话的便携式计算装置可以访问自动助理,所述便携式计算装置可以根据用于调用自动助理的多个不同操作模式操作。例如,通过向便携式计算装置的自动助理接口提供口头话语,第一操作模式可以允许用户调用自动助理。便携式计算装置可以转换到第二操作模式,其中在检测到由用户执行的身体姿势的非音频特征时,可以调用自动助理。身体特征可以是例如在便携式计算装置的部分上的挥手。可以通过接近传感器检测挥手,所述接近传感器可以被视为包括自动助理接口的一个或多个传感器中的传感器。
便携式计算装置可以基于便携式计算装置能访问的各种数据来在第一操作模式与第二操作模式之间转换。在一些实施方式中,各种数据可以包括场境数据,所述场境数据表征便携式计算装置当前或先前已经操作的场境。替代地或另外地,用于确定是否将便携式计算装置从第一操作模式转换到第二操作模式的各种数据可以由与便携式计算装置分离的装置提供。例如,与便携式计算装置分离的装置可以是对接设备,所述对接设备可以被配置成向便携式计算装置的部分提供至少一定量的机械支撑。此外,在一些实施方式中,对接设备可以包括可以将数据传输到便携式计算装置和/或从便携式计算装置接收数据的发射器,诸如近场通信(NFC)发射器。从对接设备接收的此类数据可以指示便携式计算装置是否已经与对接设备对接,以及可以与便携式计算装置的对接相关联的其它数据。以此方式,由对接设备提供的数据可以由便携式计算装置,或与便携式计算装置通信的装置处理,以便确定是否将便携式计算装置从第一操作模式转换到第二操作模式。
在一些实施方式中,对接设备可以连接到与用户相关联的车辆。用户可以方便地将便携式计算装置与对接设备对接,以便用户可以从便携式计算装置接收内容,同时将更多的注意力转移到驾驶自己的车辆上,或者另外在车辆自行驾驶时执行一些活动。当用户在操作其中多人正在交谈的车辆时,至少由于噪声干扰口头话语,用户可能难以使用口头话语来调用自动助理。因此,根据本文所描述的实施方式,至少基于便携式计算装置确定其已与对接设备对接,可以使便携式计算装置从第一操作模式转换到第二操作模式。在一些实施方式中,其它信息可以与从对接设备接收到的数据组合使用,以便确定是否将便携式计算装置从第一操作模式转换到第二操作模式。其它信息可以包括位置数据和/或其它传感器数据,所述数据可以指示便携式计算装置的位置;便携式计算装置是否位于用户附近;便携式计算装置是否已在阈值时间段内从用户接收到任何身体接触;特定应用程序是否在便携式计算装置或与便携式计算装置相关联的另一装置处激活;和/或适合于确定是否将便携式计算装置从第一操作模式转换到第二操作模式的任何其它相关信息。
在一些情形下,可能希望用户阻止自动助理提供其它可听输出,诸如当自动助理通过对话或电话发送音频时。因此,尽管已经通过执行听不见的身体姿势来调用自动助理,但是用户仍可以通过执行另一听不见的身体姿势来阻止自动助理提供其它的可听输出。例如,用户可以乘坐便携式计算装置对接的车辆,并因此根据第二操作模式操作。如果当汽车中的另一用户收到打来的电话时自动助理正在提供可听输出,则用户可以通过执行听不见的身体姿势来暂停或阻止自动助理提供其它的可听输出。以此方式,用户不仅控制自动助理以防止其打断电话,而且用户还避免了单独地以口头话语打断电话。换句话说,用户可以仅执行听不见的身体姿势,例如,在便携式计算装置前面挥手,以免将额外的音频插入到其它人正在接电话或参与电话的环境中。
提供以上描述作为本公开的一些实施方式的概述。在下面更详细地描述这些实施方式和其它实施方式的进一步描述。
在一些实施方式中,由一个或多个处理器实施的方法被阐述为包括例如使便携式计算装置在第一操作模式下操作的操作,其中当便携式计算装置在第一操作模式下操作时,便携式计算装置被配置成:响应于检测到口头的触发短语而调用自动助理,并且限制使用与便携式计算装置通信的接近传感器以调用自动助理。所述方法还可以包括处理表征便携式计算装置的当前场境的场境数据的操作,其中基于来自便携式计算装置的一个或多个传感器的传感器输出来生成场境数据。所述方法还可以包括:响应于处理满足一个或多个标准的场境数据的处理,使便携式计算装置在第二操作模式下操作,其中当便携式计算装置正在第二操作模式下操作时,便携式计算装置被配置成响应于接近传感器指示由用户执行身体姿势而调用自动助理。所述方法还可以包括当便携式计算装置正在第二操作模式下操作并且便携式计算装置的接近传感器指示由用户执行身体姿势时:使自动助理响应于接近传感器指示由用户执行身体姿势而被调用。
在一些实施方式中,一个或多个传感器包括连接到对接设备的发射器,并且其中处理场境数据还包括:确定便携式计算装置在用于从发射器接收广播数据的最小距离内。在一些实施方式中,便携式计算装置包括触摸传感器,并且其中处理场境数据包括:确定触摸传感器在阈值时间段内尚未从用户接收到直接物理接触。在一些实施方式中,处理场境数据包括:基于传感器输出来确定便携式计算装置已在阈值时间段内在与用户物理地分离的位置处固定。在一些实施方式中,处理场境数据包括基于处理场境数据来确定便携式计算装置的环境正在接收另一人正在发出的音频。在一些实施方式中,进一步响应于确定便携式计算装置的环境正在接收其他人正在发出的音频,使便携式计算装置在第二操作模式下操作。在一些实施方式中,处理场境数据包括基于处理场境数据来确定便携式计算装置的环境正在接收由另一计算装置正在发出的音频,其中进一步响应于确定便携式计算装置的环境正在接收由另一计算装置正在发出的音频,使便携式计算装置在第二操作下操作,并且其中可经由另一计算装置访问自动助理。在一些实施方式中,所述方法可以包括:响应于接近传感器指示由用户执行身体姿势,使便携式计算装置的触摸屏显示器提供包括自然语言文本的交互式图形元素,其中交互式图形元素被配置成响应于用户提供用于选择交互式图形元素的不同姿势而修改另一计算装置的操作。在一些实施方式中,当便携式计算装置正在第二操作模式下操作时,另一计算装置正在执行操作。
在其它实施方式中,由一个或多个处理器实施的方法被阐述为包括诸如由正在根据第一操作模式操作的便携式计算装置从对接设备接收近场通信(NFC)传输的操作,其中当便携式计算装置在用于检测来自对接设备的广播的最小距离内时,NFC传输向便携式计算装置指示存在对接设备,并且其中当便携式计算装置正在第一操作模式下操作时,便携式计算装置被配置成响应于来自用户的口头话语而调用自动助理。所述方法还可以包括例如响应于接收到NFC传输而确定便携式计算装置在对接设备处对接的操作,所述对接设备被配置成向便携式计算装置的至少一部分提供机械支撑。所述方法还可以包括:响应于确定便携式计算装置在对接设备处对接,使便携式计算装置根据第二操作模式操作,其中当便携式计算装置正在根据第二操作模式操作时,便携式计算装置被配置成响应于检测到由用户执行的身体姿势的非音频特征而调用自动助理。所述方法还可以包括当便携式计算装置确定由用户执行身体姿势的非音频特征时:使自动助理对由便携式计算装置的麦克风捕获的音频数据执行特定处理,其中当不调用自动助理时不执行特定处理。
在一些实施方式中,所述方法可以包括当便携式计算装置确定由用户执行身体姿势的非音频特征时:确定在用户执行身体姿势之后,用户已经向便携式计算装置的自动助理接口提供口头自然语言输入。在一些实施方式中,由与便携式计算装置一体化的接近传感器检测到身体姿势,并且由麦克风检测到口头自然语言输入。在一些实施方式中,所述方法可以包括:确定表征便携式计算装置的场境的场境数据满足用于将便携式计算装置从第一操作模式转换到第二操作模式的标准,其中进一步响应于确定场境数据满足标准,使便携式计算装置根据第二操作模式操作。在一些实施方式中,场境是其中正携带对接设备的运输模式,并且所述标准将汽车识别为至少一个运输模式,其中当对接时,便携式计算装置可以从第一操作模式转换到第二操作模式。
在一些实施方式中,所述方法可以包括使便携式计算装置根据第一操作模式操作,在第一操作模式中,便携式计算装置被配置成响应于用户提供口头话语而调用自动助理。所述方法还可以包括:当便携式计算装置在第一操作模式下操作时,接收指示便携式计算装置在物理上定位成使得与便携式计算装置一体化的接近传感器能够检测到由用户执行的身体姿势的数据。所述方法还可以包括响应于接收到数据,使便携式计算装置根据第二操作模式操作,在第二操作模式中,自动助理被配置成响应于接近传感器检测到由用户执行的身体姿势的非音频特征而被调用。所述方法还可以包括当接近传感器检测到由用户执行的身体姿势的非音频特征时:使自动助理经由便携式计算装置的自动助理接口提供自然语言输出。
在一些实施方式中,所述方法可以包括:与第一操作模式相比,当在第二操作模式下操作时,便携式计算装置更频繁地监视接近传感器的传感器输出。在一些实施方式中,自然语言输出是可听对话的至少一部分,并且自动助理接口是连接到便携式计算装置的扬声器。在一些实施方式中,自然语言输出是在可选择元素处提供的文本,所述文本显示在便携式计算装置的触摸屏显示面板处。在一些实施方式中,指示便携式计算装置在物理上定位成使得接近传感器能够检测到由用户执行的身体姿势的数据包括:位置数据,所述位置数据表征便携式计算装置相对于用户的位置;或空闲时间数据,所述空闲时间数据表征用户已停止向便携式计算装置提供输入的时间量。在一些实施方式中,指示便携式计算装置在物理上定位成使得接近传感器能够检测到由用户执行的身体姿势的数据包括迹线数据,所述迹线数据表征便携式计算装置正在移动的速度或方向。在一些实施方式中,所述方法可以包括监视接近传感器的传感器输出以确定是否已由用户执行身体姿势的非音频特征,其中身体姿势的非音频特征包括足够接近便携式计算装置定位用户的肢体,从而使接近传感器的传感器输出改变。
在一些实施方式中,当对应计算装置正在特定操作模式下操作时,可以响应于检测到用户姿势和用户定向注视和/或检测到一个或多个其它条件的发生而调用自动助理。一个或多个其它条件的发生可以包括例如:基于音频数据,检测在时间上接近检测到的姿势和定向注视的话音活动(例如,任何话音活动、提供姿势和定向注视的用户的话音活动、授权用户的话音活动、包括口头调用短语的话音活动);基于视觉数据,检测与检测到的姿势和定向注视同时出现或在时间上接近检测到的姿势和定向注视的用户的嘴部移动;基于音频数据和/或视觉数据,检测到用户是授权用户;和/或检测到其它条件。例如,响应于检测到姿势和定向注视,并且响应于检测到缓冲的音频数据的至少一部分中的话音活动(例如,使用话音活动检测器(VAD)模块),可以由客户端装置将缓冲的音频数据传输到一个或多个远程自动助理组件。
其它实施方式可以包括存储指令的非暂时性计算机可读存储介质,所述指令可由一个或多个处理器(例如,中央处理单元(CPU)、图形处理单元(GPU),和/或张量处理单元(TPU))执行,以执行例如上文和/或本文中其它地方描述的方法中的一个或多个的方法。其它实施方式可以包括一个或多个计算机和/或一个或多个机器人的系统,所述一个或多个计算机和/或一个或多个机器人包括一个或多个处理器,所述一个或多个处理器可操作以执行所存储指令,以执行诸如上文和/或本文中其它地方描述的方法中的一个或多个的方法。
应理解,本文中更详细描述的前述概念和附加概念的所有组合被认为是本文所公开的主题的一部分。例如,出现在本公开的结尾处的要求保护的主题的所有组合被认为是本文所公开的主题的一部分。
附图说明
图1A和图1B示出转换到操作模式的计算装置,可以使用具有非音频特征的身体姿势经由所述操作模式调用自动助理。
图2A和图2B示出用户使用包括听不见的特征和/或特性的身体姿势调用自动助理的透视图。
图3示出用于向客户端装置提供从用户接收非音频相关姿势以控制客户端装置和/或可以与用户相关联的任何其它装置的某些方面的能力的系统。
图4示出用于基于计算装置是否在对接设备处对接来在操作模式之间转换计算装置的方法。
图5示出用于在计算装置正在模式下操作时使自动助理执行特定动作的方法,自动助理能够经由所述模式对身体姿势的非音频特征作出响应。
图6是实例计算机系统的框图。
具体实施方式
图1A和图1B示出转换到操作模式的计算装置110,可以使用具有非音频特征的身体姿势经由所述操作模式调用自动助理。具体来说,图1A示出坐在车辆106中的第一用户102和第二用户104的透视图100。第一用户102可以将计算装置110放置在车辆106内的位置处,例如放置在车辆106的表面上,和/或将计算装置110固定到附接在车辆106中或以其它方式位于车辆106中的对接(dock)设备。计算装置110可以包括或访问自动助理112,所述自动助理可以对由第一用户102和/或第二用户104提供的自然语言输入作出响应。在一些实施方式中,当计算装置110位于车辆中时,计算装置110可以转换到不同操作模式,这可以允许响应于由用户102执行的一个或多个特定姿势而调用自动助理。
计算装置110可以根据多个不同操作模式操作,并且每种操作模式可以提供至少一个不同的方式来调用自动助理。在一些实施方式中,计算装置110的操作模式可以由模式选择引擎114选择,所述模式选择引擎可以处理来自与计算装置110一体化的一个或多个传感器116的传感器输出。替代地或另外地,模式选择引擎114可以基于从计算装置110外部的一个或多个装置接收的数据来使计算装置110转换到特定操作模式。例如,车辆106可以包括计算装置和/或可以将数据提供到计算装置110的一个或多个传感器。替代地或另外地,用户102可以具有一个或多个可穿戴装置,所述可穿戴装置可以将数据提供到计算装置110,以在确定转换计算装置110的特定模式时供模式选择引擎114使用。
当用户102在车辆106中行进并且已远离身体放置计算装置110时,用户102可能希望调用自动助理112以执行特定动作,诸如阅读时间表、发送消息、拨打电话、搜索互联网,和/或自动助理可以直接或间接执行的任何其它动作。然而,由于第一用户102与第二用户104一起乘坐车辆106,因此用户102可能不想打扰第二用户104,第二用户可能正使用另一计算装置108执行特定动作,诸如拨打电话或看电影。此外,如果第一用户102要提供口头话语来调用自动助理112,则响应于计算装置110接收口头话语生成的音频数据可能展现由车辆106内或外部的其它声音引起的干扰。因此,对于处理可能无法由处理音频的装置辨别的音频,可能会浪费计算资源和/或网络资源。为了避免浪费此种计算资源和网络资源,当一个或多个传感器116指示计算装置110与用户102物理地分离、远离用户102定位、尚未在阈值时间段内从用户102接收到物理接触和/或另外在用户可能无法充分地提供口头话语的场境(context)内操作时,模式选择引擎114可以使计算装置110根据特定操作模式操作。
在一些实施方式中,包括在车辆106中的对接设备可以向计算装置110提供NFC信号,以便指示计算装置110已对接到对接设备。响应于计算装置110从对接设备接收到NFC信号,模式选择引擎114可以将计算装置110从第一操作模式转换到第二操作模式。当操作第一操作模式时,计算装置110可以使自动助理112响应于来自用户102的口头话语而被调用。当在第二操作模式下操作时,计算装置110可以使自动助理112响应于用户102在计算装置110的一部分上提供诸如挥手118的身体姿势而被调用。
在一些实施方式中,模式选择引擎114可以根据计算装置110能访问的其它数据将计算装置110从第一操作模式转换到第二操作模式。例如,当计算装置110连接到由连接到车辆106或与车辆106一体化的装置提供的局部网络连接时,模式选择引擎114可以使计算装置110从第一操作模式转换到第二操作模式。另外地或替代地,当一个或多个传感器116指示传感器输出或提供传感器输出时,模式选择引擎114可以使计算机110从第一操作模式转换到第二操作模式,所述传感器输出指示计算装置110正在车辆106中行进、在具有多个人的环境内、在发送来自不同音频源的音频的环境内和/或另外以用户可能无法充分地提供口头话语以调用自动助理112的距离远离用户102定位。例如,响应于确定除了用户102之外的至少另一个人使音频以满足用于转换到第二操作模式的标准的响度级发出,模式选择引擎114可以使计算装置110从第一操作模式转换到第二操作模式。替代地或另外地,响应于确定与计算装置110一体化的触摸传感器尚未在至少阈值时间段内从用户102接收到物理接触,由此满足用于转换到第二操作模式的标准,模式选择引擎114可以使计算装置110从第一操作模式转换到第二操作模式。
图2A和图2B分别示出用户208使用身体姿势220调用自动助理的透视图200和透视图202。具体来说,图1A示出用户208的透视图200,所述用户已将便携式计算装置204定位在位于诸如厨房的环境210内的对接设备218处。便携式计算装置204可以是例如,平板计算装置、蜂窝电话、膝上型计算装置,和/或可以连接到对接设备的任何其它装置。便携式计算装置204可以包括本地自动助理应用程序和/或经由诸如因特网的网络连接访问服务器自动助理226。可以将服务器自动助理226设置在服务器装置224和/或任何其它远程计算装置222处。当用户208经由便携式计算装置204向自动助理提供口头话语或其它自然语言输入时,可以将表征自然语言输入的数据传输到服务器装置224以进行处理,并且可以将任何所得数据传输回便携式计算装置204。
响应于便携式计算装置204连接到对接设备218,便携式计算装置204可以从第一操作模式转换到第二操作模式,如本文所论述。以此方式,便携式计算装置204可以接收额外姿势220,以调用或以其它方式控制自动助理。在一些实施方式中,对接设备218可以与便携式计算装置204通信,以向便携式计算装置204指示用户已将便携式计算装置204对接在对接设备218处。在一些实施方式中,由对接设备218传输的数据可以与表征对接便携式计算装置204的场境的数据组合使用,以确定是否将便携式计算装置204从第一操作模式转换到第二操作模式。例如,场境数据可以表征从不同于便携式计算装置204的一个或多个其它装置发出的音频量。具体来说,如果诸如单独的扬声器装置的客户端装置206正在播放音乐212,则额外的场境数据可以表征客户端装置206正在播放音乐的级别。如果由客户端装置206发出的响度(例如,测量到或与分贝成正比)或噪声量达到或超过阈值水平或另外满足标准,则便携式计算装置204可以从第一操作模式转换到第二操作模式。
在一些实施方式中,当便携式计算装置204对接在对接设备218处时,便携式计算装置204可以检测到正由用户208执行的身体姿势220。例如,用户208可能无法经由便携式计算装置204的自动助理接口充分地提供用于调用自动助理的口头话语。因此,因为用户208可以具有通过其访问自动助理的多个装置,所以用户208可以提供身体姿势,所述身体姿势包括用于在客户端装置206处调用自动助理214的非音频特征。具体来说,当便携式计算装置204对接在对接设备218处或否则正在第二操作模式下操作时,用户208可以在便携式计算装置204的相机前面或接近传感器上方提供例如挥手的身体姿势220,以便向便携式计算装置204指示用户208想要调用自动助理。响应于便携式计算装置204确认或检测到身体姿势220,便携式计算装置204可以与服务器224或客户端装置206通信,以指示用户208正在尝试调用自动助理。作为响应,服务器装置224可以与客户端装置206通信,以便调用客户端自动助理214。替代地或另外地,响应于便携式计算装置204正与客户端装置206通信,客户端装置206可以调用客户端自动助理214。以此方式,尽管客户端装置206包括用户208可以通过其提供口头话语以调用客户端自动助理214的助理接口216,但是用户208也可以依靠身体姿势220的非音频特征,以便经由便携式计算装置204调用客户端自动助理214。
在一些实施方式中,便携式计算装置204可以基于客户端装置206的操作状态从第一操作模式转换到第二操作模式。例如,当客户端装置206开始播放音乐212时,可以将表征客户端装置206的操作的数据被传输到服务器装置224和/或便携式计算装置204。响应于服务器装置224和/或便携式计算装置204接收到数据,便携式计算装置204可以从第一操作模式转换到第二操作模式。在一些实施方式中,客户端装置206的检测到的操作状态可以使便携式计算装置204从第一操作模式转换到第二操作模式。操作状态可以包括指示以下状态:客户端装置206正参与电话、播放音乐或其它音频、在用户208请求处进行查询、从用户208接收自然语言输入、为用户208提供自然语言输出和/或以其它方式执行可能会干扰便携式计算装置204确认来自用户208的口头话语的能力的动作。
在一些实施方式中,当便携式计算装置204正在第二操作模式下操作时,用户208可以使自动助理将便携式计算装置204的图形用户界面228修改成包括交互式图形元素230。具体来说,用户208可以提供可以由便携式计算装置204检测到的身体姿势220,并且调用自动助理。在图形用户界面228处提供的交互式图形元素230可以包括一个或多个可选择元素和/或自然语言输出,例如,文本、图片和/或可以呈现在显示面板处的任何其它图形输出。例如,响应于检测到身体姿势220,便携式计算装置204可以与服务器装置224通信以确定与用户208相关联的一个或多个装置的操作状态。此类操作状态可以包括连接到网络的装置的操作状态,便携式计算装置204也连接到所述网络。例如,服务器装置224可以提供指示洗碗机关闭,以及客户端装置206正在播放音乐212的场境数据。基于从服务器装置224和/或任何其它合适的源接收到的场境数据,便携式计算装置204可以生成交互式图形元素230。例如,因为场境数据指示洗碗机关闭,所以交互式图形元素230可以提供用于激活洗碗机的可选择开关。另外地或替代地,因为场境数据已将客户端装置206识别为播放音乐,所以便携式计算装置204可以提供交互式图形元素230,所述交互式图形元素230包括音量控制元素和/或歌曲选择元素,如图2B中所说明。以此方式,用户208不必提供口头话语来调整正在客户端装置206处播放的音乐。这可以允许客户端装置206继续不间断的流媒体音乐,同时由身体姿势控制,其中用户208不直接接触客户端装置206和/或直接对客户端装置206讲话。
在一些实施方式中,当便携式计算装置204正在第二操作模式下操作时,用户208可以使用一个或多个不同身体姿势的非音频特征,以便控制显示在图形用户界面228处的特定可选择元素。例如,用户可以挥动其手来调用或关闭自动助理。另外地或替代地,用户208可以以圆周运动引导他们的手或其它肢体(例如,肘部),以便调整具有圆周特征的可选择元素的部分(诸如在交互式图形元素230处提供的音乐音量控制)的位置。另外地或替代地,用户208可以通过肢体执行横向运动,或平行于地面的运动,以便调整看起来像开关的可选择元素,诸如,设置在交互式图形元素230处的开关式洗碗机开关。另外地或替代地,用户可以通过肢体执行跺脚运动,或垂直于地面的运动,以便指示用户208想要按下设置在交互图形元素230处的按钮,诸如在图2B中提供的“跳过歌曲”可选择元素。
图3示出用于向客户端装置提供从用户接收非音频相关姿势以控制客户端装置和/或可以与用户相关联的任何其它装置的某些方面的能力的系统300。系统300可以包括与服务器计算装置326和/或对接设备336通信的客户端计算装置302。客户端计算装置302可以包括自动助理318,所述自动助理318可以作为设置在一个或多个计算装置处的自动助理的一部分操作,所述计算装置诸如第一客户端装置(例如,蜂窝电话)、第二客户端装置(例如,独立的扬声器装置)和/或远程计算装置304,诸如服务器计算装置326。用户可以经由一个或多个助理接口306与自动助理318交互,所述助理接口306可以包括麦克风、相机、触摸屏显示面板、用户接口、接近传感器、触摸传感器、温度传感器,和/或能够对计算装置的用户作出响应的任何其它设备。例如,用户可以通过向助理接口306提供语音、文本和/或图形输入来初始化自动助理318,以使自动助理318执行功能(例如,提供数据、控制外围装置、访问代理、提交网络查询等)。提供自动助理318的至少一部分的客户端计算装置302可以包括显示装置,所述显示装置可以是包括触摸界面的触摸面板,所述触摸界面用于接收触摸输入和/或姿势以允许用户经由触摸界面控制客户端计算装置302的应用。在一些实施方式中,客户端计算装置302可能缺少显示装置,由此提供可听的用户接口输出,而不提供图形用户界面输出。此外,客户端计算装置302可以提供用户接口,诸如麦克风和/或一个或多个其它传感器,用于从用户接收口头自然语言输入和/或任何其它输入。
客户端计算装置302可以通过诸如因特网的网络与服务器计算装置326通信。客户端计算装置302可以将诸如语音处理任务的计算任务卸载到服务器计算装置326,以便节省客户端计算装置302处的计算资源。例如,在一些实施方式中,服务器计算装置326可以托管自动助理318,并且客户端计算装置302可以将在一个或多个助理接口306处接收到的输入传输到服务器计算装置326。然而,在一些实施方式中,自动助理318可以在客户端计算装置302处进行托管。在各种实施方式中,可以在客户端计算装置302上和/或设置在服务器计算装置326处的自动助理308处实施自动助理318的全部方面或少于全部方面。在这些实施方式中的一些实施方式中,自动助理318的方面经由客户端计算装置302的本地自动助理实施,并且与实施自动助理318的其它方面的服务器计算装置326介接(interface)。服务器计算装置326可以任选地经由多个线程服务多个用户以及其相关联的自动助理。在经由客户端计算装置302的本地自动助理实施自动助理318的全部方面或少于全部方面的实施方式中,本地自动助理可以是与客户端计算装置302的操作系统分离的应用程序(例如,安装在操作系统的“顶部”),或者可以替代地直接由客户端计算装置302的操作系统实施(例如,被认为是操作系统的应用程序,但与操作系统一体化)。
在一些实施方式中,自动助理308和/或自动助理318可以包括输入处理引擎310,所述输入处理引擎310可以采用多个不同的模块来处理客户端计算装置302的输入和/或输出。例如,输入处理引擎310可以包括语音处理模块312,所述语音处理模块312可以处理在助理接口306处接收到的音频数据,以识别体现在音频数据中的文本。可以将音频数据从客户端计算装置302传输到服务器计算装置326,以便保留客户端计算装置302处的计算资源。用于将音频数据转换为文本的处理可以包括语音辨识算法,所述语音辨识算法可以采用神经网络,word2vec算法和/或统计模型来识别与单词或短语相对应的音频数据组。从音频数据转换的文本可以由数据解析模块314解析,并且可以作为文本数据可用于自动助理,所述文本数据可以用于生成和/或识别来自用户的命令短语。在一些实施方式中,可以将由数据解析模块314提供的输出数据提供到参数模块316,以确定用户是否已提供与能够由自动助理和/或能够由自动助理访问的应用程序或代理执行的特定动作相对应的输入。例如,助理数据322可以存储在服务器计算装置326和/或客户端计算装置302处,并且可以包括定义能够由自动助理318执行的一个或多个动作,以及执行动作所需的参数的数据。输入处理引擎310可以确定用户已请求执行特定动作,参数模块316随后可以确定特定动作的一个或多个参数,并且输出生成引擎320随后可以基于特定动作和/或一个或多个参数将输出提供到用户。例如,在一些实施方式中,响应于诸如指向客户端计算装置302的姿势的用户输入,自动助理318可以使表征姿势的数据传输到服务器计算装置326,以确定用户打算让自动助理318执行的动作。
在一些实施方式中,自动助理318、客户端计算装置302和/或服务器计算装置326可以对指向客户端计算装置302的一种或多种不同类型的姿势作出响应。例如,当客户端计算装置302包括扬声器时,可以用于控制音量的姿势的类型可以是二维姿势(例如,在直接接触客户端计算装置302或不直接接触客户端计算装置302的情况下,滑动触摸屏显示器或以其它方式在至少二维中移动用户的肢体)或三维姿势(例如,在直接接触客户端计算装置302或不直接接触客户端计算装置302的情况下,在触摸屏显示器上旋转两个手指或以其它方式在至少三维中移动用户的肢体)。
在一些实施方式中,客户端计算装置302可以根据由模式选择引擎328选择的多个不同操作模式操作。例如,当在第一操作模式下操作时,客户端计算装置302可以响应于用户提供的口头触发短语或口头话语而调用自动助理318。此外,当在第一操作模式下操作时,客户端计算装置302可以约束或以其它方式限制传感器324中的接近传感器的使用,以调用自动助理318。换句话说,尽管用户与客户端计算装置302足够接近以使接近传感器的输出改变或以其它方式指示用户的存在,但是客户端计算装置302将不会调用自动助理318,而不管接近传感器的输出——至少当客户端计算装置302正在第一操作模式下操作时。
在一些实施方式中,客户端计算装置302可以基于场境数据从第一操作模式转换到第二操作模式。场境数据可以是在客户端计算装置302处可用的客户端数据330、基于自动助理308和/或自动助理318的操作生成的助理数据322,或者基于传感器334的操作生成的传感器数据338,和/或前述数据的任何组合。客户端数据330可以包括表征由传感器324、自动助理318执行的操作的数据,和/或在一个或多个助理接口306处接收或提供的任何输入或输出。例如,客户端计算装置302的一个或多个传感器324可以提供传感器输出,所述传感器输出指示客户端计算装置302位于距用户一定距离处,和/或位于适合于客户端计算装置302确认用户提供的口头话语的用户附近之外。
可以基于自动助理308与一个或多个用户之间的一个或多个交互来生成助理数据322。例如,助理数据322可以表征用户与自动助理308之间的交互,其中用户在驾驶时请求方向。因此,模式选择引擎428可以使用此种数据来确定客户端计算装置302当前正在或将要在车辆中运输,并且因此可以将操作模式切换到第二操作模式,使得可以经由与接近传感器的用户交互来调用自动助理318。
模式选择引擎328可以使用传感器数据338来确定客户端计算装置302是否对接在对接设备336处。例如,诸如对接站340的对接设备336的一个或多个传感器334可以检测到存在客户端计算装置302,并且使生成传感器数据338并将所述传感器数据传输到客户端计算装置302。在一些实施方式中,对接设备336可以包括能够发送和/接收数据,诸如以与客户端计算装置302通信的一个或多个发射器342。例如,对接设备336可以包括用于广播可以由客户端计算装置302接收的数据的近场通信(NFC)发射器。响应于从对接设备336接收到数据,模式选择引擎328可以确认对接客户端计算装置302,并且使客户端计算装置302转换到第二操作模式。因此,通过在与对接在对接设备336处的客户端计算装置302同时的在客户端计算装置302附近移动肢体,用户将能够调用自动助理318。
在一些实施方式中,场境数据必须满足特定标准,使得模式选择引擎328在操作模式之间转换客户端计算装置302。例如,客户端计算装置302可以包括触摸传感器,并且用于将客户端计算装置302从第一操作模式转换到第二操作模式的标准可以基于用户是否已在阈值时间段内与触摸传感器交互。如果用户在阈值时间段内未诸如通过触摸客户端计算装置302的触摸屏显示器与触摸传感器交互,则客户端计算装置302可以转换到第二操作模式,在第二操作模式中,可以经由用户和与客户端计算装置302通信的接近传感器之间的交互来调用自动助理318。替代地或另外地,传感器334和/或传感器324可以提供传感器输出,所述传感器输出指示客户端计算装置302与用户物理地分离和/或已与用户物理地分离达阈值时间段。响应于此种传感器输出,模式选择引擎328可以使客户端计算装置302在操作模式之间转换。
在一些实施方式中,客户端计算装置302的传感器324可以包括一个或多个麦克风,所述麦克风能够在一个或多个用户讲话时对由一个或多个用户发送的音频作出响应。麦克风可以提供表征用户发送的音频的传感器输出,并且模式选择引擎328可以使客户端计算装置302基于麦克风的传感器输出来在操作模式之间切换。基于麦克风的输出生成的音频数据可以提供对客户端计算装置302正在操作的环境、客户端计算装置302与用户的距离,和/或可能影响客户端计算装置302的任何其它环境的指示。
例如,基于在客户端计算装置302的环境内展现或可听到的环境噪声,客户端计算装置302可以确定其当前位于当前正在行驶的车辆中。因此,响应于确定此种环境特征,模式选择引擎328可以使客户端计算装置302从第一操作模式转换到第二操作模式。以此方式,客户端计算装置302可以更容易地确定它处于车辆中,并且因此更快地允许用户通过与客户端计算装置302的接近传感器交互来调用自动助理318。在一些实施方式中,使客户端计算装置302在操作模式之间转换的音频可以由一个或多个用户、一个或多个不同计算装置、一个或多个不同环境特征,和/或可以产生可听声音的任何其它对象提供。在一些实施方式中,使客户端计算装置302在操作模式之间转换的音频可以由也能访问自动助理的另一计算装置提供。以此方式,客户端计算装置302能够转换到可以在不讲话的情况下调用自动助理318的模式,由此消除对由另一计算装置处的自动助理执行的操作的任何中断。响应于转换到第二操作模式,客户端计算装置302可以向图形用户界面提供一个或多个可选择元素,以修改自动助理318和/或经由另一计算装置能访问的自动助理的操作。以此方式,用户可以执行用于与客户端计算装置302的接近传感器交互的姿势,以便控制正在不同计算装置处操作的自动助理的特定操作。应注意,本文所论述的装置和/或设备中的任一个可以包括用于经由蓝牙、Wi-Fi、LTE、有线和/或用于传送数据的任何其它协议传送数据的一个或多个发射器。
图4示出用于基于计算装置是否对接在对接设备处来在操作模式之间转换计算装置的方法400。方法400可以由一个或多个装置、应用程序和/或能够控制装置的操作模式的任何其它设备或模块执行。方法400可以包括操作402:确定装置是否从对接设备接收数据。对接设备可以包括能够机械地支撑另一装置的至少一部分的设备。在一些实施方式中,对接设备可以具有广播数据的附加能力,使得已接收到广播数据的装置可以确定所述装置是否已与对接设备对接。例如便携式计算装置(例如,电话)的装置可以包括周期性地检查广播信号(例如,NFC广播)的发射器。因此,可以周期性地执行操作402,如通过图4处的圆形箭头所指示。
当由装置从对接设备接收到数据时,方法400可以前进到操作404。操作404可以包括确定接收到的数据是否指示其装置对接。如果数据不指示装置对接,则方法400可以返回到操作402。如果数据指示装置对接,则方法400可以前进到操作406。
操作406可以包括使装置从第一操作模式转换到第二操作模式。当在第一操作模式下操作时,装置可以限制可以通过其调用自动助理的某些模态。当在第二操作模式下操作时,在第一操作模式中受限的那些模态可以受到较少限制,或另外可用于用户来调用自动助理。例如,当在第一操作模式下操作时,装置可以限制接近传感器的传感器输出用作调用自动助理的基础。因此,当在第一操作模式下操作时,用户将无法通过使接近传感器检测到身体姿势的非音频特征来调用自动系统。然而,当在第二操作模式下操作时,与装置通信的接近传感器可以检测到身体姿势的非音频特征,并且响应于检测到身体姿势的非音频特征,可以调用自动助理。
方法400可以前进到操作408:确定与装置通信的接近传感器是否检测到姿势。姿势可以是由用户执行的一个或多个不同的身体动作。例如,姿势可以是可能或可能不意图产生音频的用户的身体运动,但是可以另外由接近传感器检测到。由于正由用户执行的姿势,接近传感器可以提供可以表征所执行姿势的传感器输出,并且装置或远程装置的一个或多个处理器可以处理传感器输出,以确定姿势是否对应于执行可以由自动助理执行的特定动作的请求。
当接近传感器尚未检测到姿势时,方法400可以前进到操作412:确定装置是否仍对接在对接设备处。如果装置仍对接,则方法400可以返回到操作408。如果装置不再对接,则方法400可以前进到操作414。操作414可以包括使装置根据第一操作模式操作。当装置不再对接时,可以将装置转换到第一操作模式,以便可以将接近传感器用于装置的其它功能,而不是调用自动助理。调整可以通过其调用自动助理的特定模态的使用实现在特定环境中更有效地且高效地使用此类模态。例如,当装置不再对接时,接近传感器可以用于确定装置离用户多近。例如,如果用户将其装置放置于口袋中,则装置可以在第一操作模式下操作,使得接近传感器不会触发自动助理,而是可以触发振动模式,使得用户通过振动接收应用程序通知。此外,限制如何调用自动助理可以消除自动助理的意外触发,这可以减少不必要的功耗尖峰并保留网络带宽。
当在操作408处由装置的接近传感器检测到姿势时,方法400可以前进到操作410。操作410可以包括使自动助理基于姿势来执行动作。例如,通过将用户的手悬停在距装置的阈值距离处或阈值距离内,用户可以在装置对接在其车辆内时触发自动助理。以此方式,如果车辆具有产生音频的其它乘员或其它装置,则用户不必依靠发出口头话语来调用自动助理。相反,用户可以选择通过执行由接近传感器检测到的姿势或提供由计算装置的麦克风、对接设备,和/或与车辆一体化的车辆计算装置检测到的口头话语来调用自动助理。在一些实施方式中,当装置正在第二操作模式下操作时,一个或多个不同姿势可以使自动助理执行一个或多个不同动作。此外,当装置正在第一操作模式下操作时,自动助理可以响应于用户执行一个或多个其它姿势而执行一个或多个动作。换句话说,自动助理可以对每种操作模式的一组唯一姿势作出响应。另外地或替代地,当在第一操作模式下操作时,一个或多个传感器可以检测用于调用或控制自动助理的姿势,并且当在第二操作模式下操作时,一个或多个其它传感器可以用于检测用于调用或控制自动助理的姿势。
图5说明用于在计算装置正在某一模式下操作时使自动助理执行特定动作的方法500,自动助理能够经由所述模式对身体姿势的非音频特征作出响应。方法500可以由一个或多个应用程序、装置和/或能够与自动助理交互的任何其它设备或模块执行。方法500可以包括操作502:使便携式计算装置根据第一操作模式操作。当在第一操作模式下操作时,自动助理可以被配置成根据来自用户的口头话语进行调用。例如,口头话语可以是例如“助理”的触发短语,和/或基于自然语言的任何其它口头话语。另外地或任选地,当在第一操作模式下操作时,自动助理可能至少对仅非音频(例如,肢体的移动或用户产生的其它运动)的初始调用尝试无响应。
方法500还可以包括操作504:确定便携式计算装置定位成使得与便携式计算装置通信的传感器能够检测到由用户执行的姿势。可以基于能访问便携式计算装置的场境数据来确定在操作504处的确定。可以从一个或多个不同源,诸如一个或多个不同传感器、计算装置,和/或能够提供数据的任何其它装置提供场境数据。在一些实施方式中,场境数据可以表征与便携式计算装置在公共网络上的一个或多个装置的操作状态。替代地或另外地,在操作504处的确定可以基于与便携式计算装置相关联的操作数据。操作装置可以表征一个或多个装置和/或设置在便携式计算装置处的应用程序,诸如控制应用程序和/或一个或多个传感器的操作。便携式计算装置的一个或多个传感器可以指示便携式计算装置的取向、速度、迹线、加速度、便携式计算装置的环境内的光量、温度和/或可以由计算装置标准的任何其它信息。例如,便携式计算装置可以使用传感器输出来生成迹线数据,所述迹线数据表征便携式计算装置正在移动的速度和/或方向。
操作数据和/或场境数据可以指示便携式计算装置与用户物理地分离和/或处于便携式计算装置的传感器可以对由用户执行的身体姿势作出响应的距离内的位置处。替代地或另外地,场境数据和/或操作数据可以指示便携式计算装置位于包括音频(诸如,环境噪声)的环境内,所述环境会中断用户向便携式计算装置提供的口头话语。例如,麦克风的输出可以检测由一个或多个其他人和/或一个或多个其它计算装置产生的噪声,并且基于噪声水平来确定所述噪声会干扰便携式计算装置检测到来自用户的口头话语。
方法500还可以包括操作506:使便携式计算装置根据第二操作模式操作,在第二操作模式下,可以经由传感器检测到的姿势调用自动助理。由于在第二操作模式下操作,通过使便携式计算装置对特定姿势的非音频特征作出响应,可以避免当检测到口头话语时原本会发生并中断便携式计算装置的干扰。例如,当在第二操作模式下操作时,可以由便携式计算装置检测用户的肢体所占据的空间量、用户的肢体所占据的空间量的变化、用户的肢体的速度和/或加速度、用户的一个或多个肢体的形状和/或形状变化,和/或用户的任何其它物理属性。
方法500还可以包括操作508:确定接近传感器已检测到用户正执行姿势。例如,姿势可以是由用户执行的挥手运动。在一些实施方式中,姿势可以是用户的嘴巴的移动,其中便携式计算装置对用户的嘴巴的移动,而不是对响应于用户移动其嘴巴而产生的任何音频作出响应。以此方式,当便携式计算装置正在第二操作模式下操作时,用户可以可听见地说出由便携式计算装置检测到的身体姿势。在一些实施方式中,便携式计算装置可以包括一个或多个接近传感器,和/或接近传感器的阵列,由此在用户将其肢体放置于距便携式计算装置一定距离内时,允许自动助理对用户的肢体的位置变化作出响应,所述距离允许接近传感器对肢体的移动作出响应。
方法500还可以包括操作510:使自动助理在便携式计算装置和/或分离的计算装置处进行调用。例如,用户可以在诸如他们的家的环境中,所述环境可以包括能访问自动助理的多个计算装置。如果一个特定装置正在播放音乐,则另一计算装置可以检测到音乐并且转换到第二操作模式。可以由另一计算装置检测到身体姿势,以便对特定计算装置处的音乐播放操作进行调整。以此方式,用户不必为了控制音乐播放操作而发出可听口头话语,而是可以依靠转换到第二操作模式的至少一个其它装置,从而允许用户执行具有非音频特征的姿势,以用于控制音乐播放操作。
任选地,方法500可以包括操作512:使自动助理经由便携式计算装置和/或分离的计算装置的自动助理接口提供自然语言输出。例如,当便携式计算装置正在第二操作模式下操作并且用户执行身体姿势以控制自动助理时,身体姿势可以使自动助理在便携式计算装置和/或分离的计算装置处提供自然语言输出。例如,自然语言输出可以是来自便携式计算装置或分离的计算装置的扬声器的音频输出(例如,可听对话或其它自然语言语音的一部分)、在便携式计算装置或分离的计算装置的显示面板处提供的图形显示元素,和/或可以经由计算装置的模态提供的任何其它类型的自然语言输出。以此方式,尽管自动助理可以在分离的计算装置处提供输出,但是用户可以执行指向便携式计算装置的身体姿势,以便控制由自动助理在分离的计算装置处执行的一个或多个操作或动作。这可以允许将姿势的处理分布在多个装置上,而不是依靠已经主动地执行操作以处理此类姿势或另外对这些姿势作出响应的单个装置。这可以保留计算资源,并减少可能在已指定用于仅对姿势作出响应或处理姿势的特定装置处发生的功率尖峰,而不是允许多个其它计算装置对各种类型的姿势作出响应或处理各种类型的姿势。
图6是实例计算机系统610的框图。计算机系统610通常包括经由总线子系统612与多个外围装置通信的至少一个处理器614。这些外围装置可以包括:存储子系统624,所述存储子系统624包括例如存储器625和文件存储子系统626;用户接口输出装置620;用户接口输入装置622;以及网络接口子系统616。输入和输出装置允许与计算机系统610进行用户交互。网络接口子系统616将接口提供到外部网络并且耦合到其它计算机系统中的对应接口装置。
用户接口输入装置622可以包括键盘,诸如鼠标、轨迹球、触摸板或图形输入板的指向装置,扫描仪,结合在显示器中的触摸屏,诸如话音辨识系统的音频输入装置,麦克风,和/或其它类型的输入装置。通常,术语“输入装置”的使用旨在包括用于将信息输入到计算机系统610中或通信网络上的所有可能类型的装置和方式。
用户接口输出装置620可以包括显示子系统、打印机、传真机,或诸如音频输出装置的非可视显示器。显示子系统可以包括阴极射线管(CRT)、诸如液晶显示器(LCD)的平板装置,投影装置,或用于产生可见图像的某种其它机构。显示子系统还可以例如经由音频输出装置来提供非可视显示器。通常,术语“输出装置”的使用旨在包括用于将信息从计算机系统610输出到用户或另一机器或计算机系统的所有可能类型的装置和方式。
存储子系统624存储提供本文所描述的一些或全部模块的功能的编程和数据结构。例如,存储子系统624可以包括用于执行方法400、方法500的所选择方面和/或实施计算装置110、自动助理112、模式选择引擎114、服务器装置224、客户端装置206、服务器计算装置326、客户端计算装置302、对接设备336,和/或本文所论述的任何其它装置、应用程序和/或操作中的一个或多个的逻辑。
这些软件模块通常由处理器614单独地或结合其它处理器执行。用于存储子系统624中的存储器625可以包括多个存储器,包括用于在程序执行期间存储指令和数据的主随机存取存储器(RAM)630以及存储固定指令的只读存储器(ROM)632。文件存储子系统626可以为程序和数据文件提供持久存储,并且可以包括硬盘驱动器、软盘驱动器以及相关联的可移动介质、CD-ROM驱动器、光盘驱动器或可移动介质盒。实施某些实施方式的功能的模块可以由文件存储子系统626存储在存储子系统624中,或者存储在处理器614能访问的其它机器中。
总线子系统612提供用于使计算机系统610的各个组件和子系统按预期彼此通信的机构。尽管总线子系统612被示意性地示出为单个总线,但是总线子系统的替代实施方式可以使用多个总线。
计算机系统610可以具有各种类型,包括工作站、服务器、计算集群、刀片服务器、服务器群,或任何其它数据处理系统或计算装置。由于计算机和网络的不断变化的性质,因此对图6中所描绘的计算机系统610的描述仅旨在作为用于说明一些实施方式的特定实例。计算机系统610的许多其它配置可能具有比图6中描绘的计算机系统更多或更少的组件。
在本文所描述的系统收集关于用户(或本文中通常称为“参与者”)的个人信息,或可以利用个人信息的情况下,可以为用户提供控制程序或特征是否收集用户信息(例如,关于用户的社交网络、社交行为或活动、职业、用户的偏好或用户的当前地理位置的信息),或控制是否和/或如何从内容服务器接收可能与用户更相关的内容的机会。而且,某些数据可以在存储或使用之前通过一种或多种方式处理,使得清除个人身份信息。例如,可以处理用户的身份,使得无法确定用户的任何个人可识别信息,或者可以在获得地理位置信息的情况下将用户的地理位置进行概括(例如,城市、邮政编码或州级别),使得无法确定用户的特定地理位置。因此,用户可以控制如何收集关于用户的信息和/或使用信息。
尽管本文已经描述和说明几个实施方式,但是可以利用用于执行功能和/或获得结果的各种其它手段和/或结构,和/或本文描述的一个或多个优点,并且此类变化和/或修改中的每一个被认为在本文描述的实施方式的范围内。更一般地,本文描述的所有参数、尺寸、材料和配置表示示例性的,并且实际参数、尺寸、材料和/或配置将取决于教示用于的一个或多个特定应用。仅使用常规实验,本领域技术人员将认识到或能够确定本文描述的具体实施方式的许多等同物。因此,应理解,前述实施方式仅以实例的方式呈现,并且在所附权利要求及其等同物的范围内,可以不同于具体描述和要求保护的方式来实践实施方式。本公开的实施方式涉及本文描述的每个个别特征、系统、物品、材料、套件和/或方法。另外,如果此类特征、系统、物品、材料、套件和/或方法不是相互矛盾的,则两个或更多个此类特征、系统、物品、材料、套件和/或方法的任何组合包括在本公开的范围内。

Claims (23)

1.一种由一个或多个处理器实施的方法,所述方法包括:
使便携式计算装置在第一操作模式下操作,
其中,当所述便携式计算装置正在所述第一操作模式下操作时,所述便携式计算装置被配置成:
响应于检测到口头触发短语而调用自动助理,以及
限制与所述便携式计算装置通信的接近传感器的使用,以调用所述自动助理;
处理表征所述便携式计算装置的当前场境的场境数据,其中,基于来自所述便携式计算装置的一个或多个传感器的传感器输出来生成所述场境数据;
响应于满足一个或多个标准的所述场境数据的所述处理,使所述便携式计算装置在第二操作模式下操作,
其中,当所述便携式计算装置正在所述第二操作模式下操作时,所述便携式计算装置被配置成响应于所述接近传感器指示由用户执行身体姿势而调用所述自动助理;以及
当所述便携式计算装置正在所述第二操作模式下操作并且所述便携式计算装置的所述接近传感器指示由所述用户执行所述身体姿势时:
使所述自动助理响应于所述接近传感器指示由所述用户执行所述身体姿势而被调用。
2.根据权利要求1所述的方法,其中,所述一个或多个传感器包括连接到对接设备的发射器,并且其中,处理所述场境数据还包括:
确定所述便携式计算装置在用于从所述发射器接收广播数据的最小距离内。
3.根据权利要求1或权利要求2所述的方法,其中,所述便携式计算装置包括触摸传感器,并且其中,处理所述场境数据包括:
确定所述触摸传感器在阈值时间段内尚未从所述用户接收到直接物理接触。
4.根据前述权利要求中的任一项所述的方法,其中,处理所述场境数据包括:基于所述传感器输出来确定所述便携式计算装置在阈值时间段内在与所述用户物理地分离的位置处固定。
5.根据前述权利要求中的任一项所述的方法,
其中,处理所述场境数据包括基于处理所述场境数据来确定所述便携式计算装置的环境正在接收另一人正在发出的音频,以及
其中,进一步响应于确定所述便携式计算装置的所述环境正在接收所述另一人正在发出的音频,使所述便携式计算装置在所述第二操作模式下操作。
6.根据前述权利要求中的任一项所述的方法,
其中,处理所述场境数据包括基于处理所述场境数据来确定所述便携式计算装置的环境正在接收另一计算装置正在发出的音频,
其中,进一步响应于确定所述便携式计算装置的所述环境正在接收所述另一计算装置正在发出的音频,使所述便携式计算装置在所述第二操作模式下操作。
其中,经由所述另一计算装置能访问所述自动助理。
7.根据权利要求6所述的方法,还包括:
响应于所述接近传感器指示由所述用户执行所述身体姿势,使所述便携式计算装置的触摸屏显示器提供包括自然语言文本的交互式图形元素,其中,所述交互式图形元素被配置成响应于所述用户提供用于选择所述交互式图形元素的不同姿势而修改所述另一计算装置的操作。
8.根据权利要求7所述的方法,其中,当所述便携式计算装置正在所述第二操作模式下操作时,所述另一计算装置正在执行所述操作。
9.一种由一个或多个处理器实施的方法,所述方法包括:
由正根据第一操作模式操作的便携式计算装置从对接设备接收近场通信NFC传输,
其中,当所述便携式计算装置在用于检测来自所述对接设备的广播的最小距离内时,所述NFC传输向所述便携式计算装置指示存在所述对接设备,以及
其中,当所述便携式计算装置正在所述第一操作模式下操作时,所述便携式计算装置被配置成响应于来自用户的口头话语而调用自动助理;
响应于接收到所述NFC传输,确定所述便携式计算装置对接在所述对接设备处,所述对接设备被配置成向所述便携式计算装置的至少一部分提供机械支撑;
响应于确定所述便携式计算装置对接在所述对接设备处,使所述便携式计算装置根据第二操作模式操作,
其中,当所述便携式计算装置正在根据所述第二操作模式操作时,所述便携式计算装置被配置成响应于检测到由所述用户执行的身体姿势的非音频特征而调用所述自动助理;以及
当所述便携式计算装置确定由所述用户执行所述身体姿势的所述非音频特征时:
使所述自动助理对由所述便携式计算装置的麦克风捕获的音频数据执行特定处理,其中,当不调用所述自动助理时,不执行所述特定处理。
10.根据权利要求9所述的方法,还包括:
当所述便携式计算装置确定由所述用户执行所述身体姿势的所述非音频特征时:
确定在所述用户执行所述身体姿势之后,所述用户已经向所述便携式计算装置的自动助理接口提供口头自然语言输入。
11.根据权利要求10所述的方法,其中,由与所述便携式计算装置一体化的接近传感器检测到所述身体姿势,并且由所述麦克风检测到所述口头自然语言输入。
12.根据权利要求9至11中的任一项所述的方法,还包括:
确定表征所述便携式计算装置的场境的场境数据满足用于将所述便携式计算装置从所述第一操作模式转换到所述第二操作模式的标准,其中,进一步响应于确定所述场境数据满足所述标准,使所述便携式计算装置根据所述第二操作模式操作。
13.根据权利要求12所述的方法,其中,所述场境是其中正携带所述对接设备的运输模式,并且所述标准将汽车识别为至少一个运输模式,其中当对接时,所述便携式计算装置能够从所述第一操作模式转换到所述第二操作模式。
14.一种由一个或多个处理器实施的方法,所述方法包括:
使便携式计算装置根据第一操作模式操作,在所述第一操作模式中,所述便携式计算装置被配置成响应于用户提供口头话语而调用自动助理;
当所述便携式计算装置在所述第一操作模式下操作时,接收指示所述便携式计算装置在物理上定位成使得与所述便携式计算装置一体化的接近传感器能够检测到由所述用户执行的身体姿势的数据;
响应于接收到所述数据,使所述便携式计算装置根据第二操作模式操作,在所述第二操作模式中,所述自动助理被配置成响应于所述接近传感器检测到由所述用户执行的所述身体姿势的非音频特征而被调用;
当所述接近传感器检测到由所述用户执行的所述身体姿势的所述非音频特征时:
使所述自动助理经由所述便携式计算装置的自动助理接口提供自然语言输出。
15.根据权利要求14所述的方法,还包括:
与所述第一操作模式相比,当在所述第二操作模式下操作时,所述便携式计算装置更频繁地监视所述接近传感器的传感器输出。
16.根据权利要求14或权利要求15所述的方法,其中,所述自然语言输出是可听对话的至少一部分,并且所述自动助理接口是连接到所述便携式计算装置的扬声器。
17.根据权利要求14所述的方法,其中,所述自然语言输出是在可选择元素处提供的文本,所述可选择元素被显示在所述便携式计算装置的触摸屏显示面板处。
18.根据权利要求14至17中的任一项所述的方法,其中,指示所述便携式计算装置在物理上定位成使得所述接近传感器能够检测到由所述用户执行的所述身体姿势的所述数据包括:位置数据,所述位置数据表征所述便携式计算装置相对于所述用户的位置;或空闲时间数据,所述空闲时间数据表征所述用户已停止向所述便携式计算装置提供输入的时间量。
19.根据权利要求14至18中的任一项所述的方法,其中,指示所述便携式计算装置在物理上定位成使得所述接近传感器能够检测到由所述用户执行的所述身体姿势的所述数据包括迹线数据,所述迹线数据表征所述便携式计算装置正在移动的速度或方向。
20.根据权利要求14至19中的任一项所述的方法,还包括:
监视所述接近传感器的传感器输出以确定是否已由所述用户执行所述身体姿势的所述非音频特征,其中,所述身体姿势的所述非音频特征包括定位足够接近所述便携式计算装置的所述用户的肢体,以引起所述接近传感器的所述传感器输出的改变。
21.一种包括指令的计算机程序产品,所述指令在由一个或多个处理器执行时使所述一个或多个处理器实施根据前述权利要求中的任一项所述的方法。
22.一种包括指令的计算机可读存储介质,所述指令在由一个或多个处理器执行时使所述一个或多个处理器实施根据权利要求1至20中的任一项所述的方法。
23.一种包括一个或多个处理器的系统,所述一个或多个处理器被配置成执行根据权利要求1至20中的任一项所述的方法。
CN201880095081.4A 2018-10-08 2018-10-08 指定用于与自动助理交互的接口模态的操作模式 Pending CN113412467A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2018/054862 WO2020076288A1 (en) 2018-10-08 2018-10-08 Operating modes that designate an interface modality for interacting with an automated assistant

Publications (1)

Publication Number Publication Date
CN113412467A true CN113412467A (zh) 2021-09-17

Family

ID=64051697

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880095081.4A Pending CN113412467A (zh) 2018-10-08 2018-10-08 指定用于与自动助理交互的接口模态的操作模式

Country Status (4)

Country Link
US (2) US11119726B2 (zh)
EP (1) EP3853712A1 (zh)
CN (1) CN113412467A (zh)
WO (1) WO2020076288A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11157169B2 (en) * 2018-10-08 2021-10-26 Google Llc Operating modes that designate an interface modality for interacting with an automated assistant
US11709653B1 (en) * 2022-04-11 2023-07-25 Google Llc Contextual assistant using mouse pointing or touch cues

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104204729A (zh) * 2012-04-08 2014-12-10 三星电子株式会社 用户终端装置及其控制方法
CN104969289A (zh) * 2013-02-07 2015-10-07 苹果公司 数字助理的语音触发器
US20160171980A1 (en) * 2014-12-16 2016-06-16 Microsoft Technology Licensing, Llc Digital assistant voice input integration
CN105814535A (zh) * 2013-09-25 2016-07-27 亚马逊技术股份有限公司 呼叫中的虚拟助理
US20170010770A1 (en) * 2013-04-30 2017-01-12 Ustringer LLC Method and apparatus for organizing, stamping, and submitting pictorial data
CN106796497A (zh) * 2014-09-12 2017-05-31 苹果公司 用于始终监听语音触发的动态阈值
US20180136824A1 (en) * 2016-11-16 2018-05-17 Dell Products L.P. System and method for provisioning a user interface for sharing

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070123191A1 (en) 2005-11-03 2007-05-31 Andrew Simpson Human-machine interface for a portable electronic device
US8230367B2 (en) * 2007-09-14 2012-07-24 Intellectual Ventures Holding 67 Llc Gesture-based user interactions with status indicators for acceptable inputs in volumetric zones
US20130275899A1 (en) 2010-01-18 2013-10-17 Apple Inc. Application Gateway for Providing Different User Interfaces for Limited Distraction and Non-Limited Distraction Contexts
KR20180019752A (ko) * 2008-11-10 2018-02-26 구글 엘엘씨 멀티센서 음성 검출
US20150220149A1 (en) * 2012-02-14 2015-08-06 Google Inc. Systems and methods for a virtual grasping user interface
US20130222329A1 (en) * 2012-02-29 2013-08-29 Lars-Johan Olof LARSBY Graphical user interface interaction on a touch-sensitive device
CN104159814B (zh) 2012-03-08 2017-05-03 本田技研工业株式会社 鞍乘型车辆中的便携信息终端的安装结构
US9807495B2 (en) * 2013-02-25 2017-10-31 Microsoft Technology Licensing, Llc Wearable audio accessories for computing devices
AU2014251347B2 (en) * 2013-03-15 2017-05-18 Apple Inc. Context-sensitive handling of interruptions
US20150162000A1 (en) * 2013-12-10 2015-06-11 Harman International Industries, Incorporated Context aware, proactive digital assistant
US11226686B2 (en) * 2014-01-20 2022-01-18 Lenovo (Singapore) Pte. Ltd. Interactive user gesture inputs
US20180018965A1 (en) 2016-07-12 2018-01-18 Bose Corporation Combining Gesture and Voice User Interfaces
US10540977B2 (en) * 2018-03-20 2020-01-21 Microsoft Technology Licensing, Llc Proximity-based engagement with digital assistants
US11157169B2 (en) * 2018-10-08 2021-10-26 Google Llc Operating modes that designate an interface modality for interacting with an automated assistant
KR102652892B1 (ko) * 2019-01-29 2024-03-28 구글 엘엘씨 구조화된 오디오 출력을 사용하여 재생 감지 및/또는 무선 스피커에서 비정렬된 재생에 적응

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104204729A (zh) * 2012-04-08 2014-12-10 三星电子株式会社 用户终端装置及其控制方法
CN104969289A (zh) * 2013-02-07 2015-10-07 苹果公司 数字助理的语音触发器
US20170010770A1 (en) * 2013-04-30 2017-01-12 Ustringer LLC Method and apparatus for organizing, stamping, and submitting pictorial data
CN105814535A (zh) * 2013-09-25 2016-07-27 亚马逊技术股份有限公司 呼叫中的虚拟助理
CN106796497A (zh) * 2014-09-12 2017-05-31 苹果公司 用于始终监听语音触发的动态阈值
US20160171980A1 (en) * 2014-12-16 2016-06-16 Microsoft Technology Licensing, Llc Digital assistant voice input integration
US20180136824A1 (en) * 2016-11-16 2018-05-17 Dell Products L.P. System and method for provisioning a user interface for sharing

Also Published As

Publication number Publication date
US20200319849A1 (en) 2020-10-08
WO2020076288A1 (en) 2020-04-16
US20210405965A1 (en) 2021-12-30
EP3853712A1 (en) 2021-07-28
US11561764B2 (en) 2023-01-24
US11119726B2 (en) 2021-09-14

Similar Documents

Publication Publication Date Title
JP6697024B2 (ja) 手動始点/終点指定及びトリガフレーズの必要性の低減
CN106796497B (zh) 用于始终监听语音触发的动态阈值
EP4343534A2 (en) Regulating assistant responsiveness according to characteristics of a multi-assistant environment
WO2020117295A1 (en) Pre-emptively initializing an automated assistant routine and/or dismissing a scheduled alarm
US11157169B2 (en) Operating modes that designate an interface modality for interacting with an automated assistant
KR102621636B1 (ko) 루틴 실행 중에 클라이언트 디바이스간 자동화 어시스턴트 루틴 전송
KR20220098808A (ko) 컴퓨팅 디바이스 근처의 가상 어시스턴트 식별
US11561764B2 (en) Operating modes that designate an interface modality for interacting with an automated assistant
US20240184520A1 (en) System and method for voice recognition using a peripheral device
CN116368562A (zh) 针对自动化助理启用自然对话
CN115605842A (zh) 当环境干扰预计会抑制某些自动化助理交互时建议备选接口
CN114981772A (zh) 在不需要自动助理的基于语音的调用的情况下基于检测到的环境状况来选择性地调用自动助理
US20240192808A1 (en) Assistant control via detecting tactile modulation of ultrasonic signal
US20230335127A1 (en) Multiple concurrent voice assistants
JP2024508209A (ja) アシスタントコマンドの実現についてのある特定の論拠づけの提供
KR20240036701A (ko) 컨텍스트 신호들에 기초하는 참여 상태 보존
CN117099063A (zh) 具有自适应用户交互的机器人计算设备
CN118245009A (zh) 在执行自动助理例程期间在客户端设备之间传输该例程

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination