CN108604448B - 跨装置的话音命令 - Google Patents

跨装置的话音命令 Download PDF

Info

Publication number
CN108604448B
CN108604448B CN201680042544.1A CN201680042544A CN108604448B CN 108604448 B CN108604448 B CN 108604448B CN 201680042544 A CN201680042544 A CN 201680042544A CN 108604448 B CN108604448 B CN 108604448B
Authority
CN
China
Prior art keywords
computing device
voice commands
input data
speech input
word section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201680042544.1A
Other languages
English (en)
Other versions
CN108604448A (zh
Inventor
陈贤名
亚历山大·弗里德里希·库舍尔
大岛满
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Priority to CN201910796762.XA priority Critical patent/CN110675868B/zh
Publication of CN108604448A publication Critical patent/CN108604448A/zh
Application granted granted Critical
Publication of CN108604448B publication Critical patent/CN108604448B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/28Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
    • H04L12/2803Home automation networks
    • H04L12/2816Controlling appliance services of a home automation network by calling their functionalities
    • H04L12/282Controlling appliance services of a home automation network by calling their functionalities based on user interaction within the home
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/28Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
    • H04L12/2803Home automation networks
    • H04L12/2823Reporting information sensed by appliance or service execution status of appliance services in a home automation network
    • H04L12/2827Reporting to a device within the home network; wherein the reception of the information reported automatically triggers the execution of a home appliance functionality
    • H04L12/2829Reporting to a device within the home network; wherein the reception of the information reported automatically triggers the execution of a home appliance functionality involving user profiles according to which the execution of a home appliance functionality is automatically triggered
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/28Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
    • H04L12/2803Home automation networks
    • H04L12/283Processing of data at an internetworking point of a home automation network
    • H04L12/2832Interconnection of the control functionalities between home networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/28Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
    • H04L12/46Interconnection of networks
    • H04L12/4604LAN interconnection over a backbone network, e.g. Internet, Frame Relay
    • H04L12/462LAN interconnection over a bridge based backbone
    • H04L12/4625Single bridge functionality, e.g. connection of two networks over a single bridge
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/2866Architectures; Arrangements
    • H04L67/30Profiles
    • H04L67/306User profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/451Execution arrangements for user interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Automation & Control Theory (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本技术的方面涉及一种用于对多个计算装置使用话音命令的方法。从与用户账户相关联的第一计算装置接收第一话音输入数据,其中所述第一话音输入数据包括在所述第一计算装置处捕获的第一话音命令。从与所述用户账户相关联的第二计算装置接收第二话音输入数据,其中所述第二话音输入数据包括在所述第二计算装置处捕获的第二话音命令。基于所获得的第一话音输入数据和第二话音输入数据来确定预期话音命令。基于所述预期话音命令,确定第一目标计算装置。将与所述预期话音命令相关联的第一指令提供给所述第一目标计算装置以供执行。

Description

跨装置的话音命令
背景技术
随着越来越多的日常物品获得连接到因特网并且处理信息的能力,计算装置已经变得更加多样化且普遍存在。一种用于与这些类型的计算装置交互的方式是通过话音命令。随着能够识别话音命令并且对之做出响应的计算装置的数量增大,多个计算装置可捕获相同命令,这可导致执行所述命令的冲突或冗余。当前,不存在允许多个计算装置一起工作以确定预期话音命令并且基于预期话音命令确定目标计算装置的标准。
发明内容
本技术的方面涉及一种用于对一个或多个计算装置使用话音命令的计算机实施的方法。所述方法包括从与用户账户相关联的第一计算装置接收第一话音输入数据,其中所述第一话音输入数据包括在第一计算装置处捕获的第一话音命令。所述方法还包括从与用户账户相关联的第二计算装置接收第二话音输入数据,其中所述第二话音输入数据包括在第二计算装置处捕获的第二话音命令。所述方法还包括基于所获得的第一话音输入数据和第二话音输入数据来确定预期话音命令。所述方法还包括基于所述预期话音命令来确定第一目标计算装置。所述方法还包括将与预期话音命令相关联的第一指令提供给第一目标计算装置以供执行。
本技术的方面还涉及一种系统。所述系统包括一个或多个处理器和非暂态计算机可读介质,所述非暂态计算机可读介质包括存储在其中的指令,所述指令在由所述一个或多个处理器处理时致使所述一个或多个处理器执行操作。所述操作包括从与用户账户相关联的第一计算装置接收第一话音输入数据,其中所述第一话音输入数据包括在第一计算装置处捕获的第一话音命令和与所述第一话音命令相关联的第一时间戳。所述操作还包括从与用户账户相关联的第二计算装置接收第二话音输入数据,其中所述第二话音输入数据包括在第二计算装置处捕获的第二话音命令和与所述第二话音命令相关联的第二时间戳。所述操作还包括基于所获得的第一话音输入数据和第二话音输入数据来确定预期话音命令。所述操作还包括基于所述预期话音命令来确定第一目标计算装置。所述操作还包括将与预期话音命令相关联的第一指令提供给第一目标计算装置以供执行。
本技术的方面还涉及一种非暂态机器可读介质,其包括存储在其中的指令,所述指令在由机器执行时致使所述机器执行操作。所述操作包括从与多个用户账户相关联的第一计算装置接收第一话音输入数据。所述操作还包括使用话音辨识基于所述第一话音输入数据来确定与所述多个用户账户中的第一用户账户相关联的第一预期话音命令和与所述多个用户账户中的第二用户账户相关联的第二预期话音命令。所述操作还包括基于第一预期话音命令来确定第一目标计算装置。所述操作还包括基于第二预期话音命令来确定第二目标计算装置。所述操作还包括将与第一预期话音命令相关联的第一指令提供给第一目标计算装置以供执行。所述操作还包括将与第二预期话音命令相关联的第二指令提供给第二目标计算装置以供执行。
应当理解,本领域的技术人员将从以下具体实施方式容易明白本技术的其它配置,在以下具体实施方式中以说明方式展示并描述本技术的各种配置。如将意识到,本技术能够具有其它不同配置,并且其若干细节能够在各种其它方面中进行修改,这全部不脱离本技术的范围。因此,附图和具体实施方式应当被视为本质上是示例性而不是限制性的。
附图说明
包括附图以提供进一步理解,附图并入在本说明书中并构成其一部分,附图示出了所公开的方面并且连同描述一起用以解释所公开方面的原理。
图1示出用于对一个或多个计算装置使用话音命令的示例性网络环境。
图2展示示出根据本技术的各种方面的用于处理话音命令的示例性过程的流程图。
图3展示示出根据本技术的各种方面的用于处理话音命令的示例性过程的流程图。
图4概念性地示出可用于实施本技术的一些实施方式的示例性电子系统。
具体实施方式
下文所陈述的具体实施方式预期作为对本技术的各种配置的描述而不希望表示可实践本技术的仅有配置。附图并入在本文中并且构成具体实施方式的一部分。具体实施方式出于提供本技术的透彻理解的目的而包括特定细节。然而,本技术不限于本文中所陈述的特定细节,并且可在没有这些特定细节的情况下实践。在一些情况下,以框图形式展示结构和部件以避免模糊本技术的概念。
本技术使得用户能够利用话音命令来与一个或多个计算装置交互。根据各种方面,用户可对与在线或基于云的服务相关联的用户账户注册多个计算装置。用户可通过对用户账户证书认证来注册与所述用户账户相关联的计算装置。可通过经由例如门户网站、网络应用程序、应用程序登录页面等登录到用户账户来发起用户认证。在一些情况下,用户可通过注册与用户账户相关联的对应网络或装置标识符来注册与用户账户相关联的计算装置。可在注册到用户账户的多个计算装置中的任一者处捕获话音命令。在一些方面,可根据本技术处理仅在用户当前正在其处登录用户账户的计算装置处捕获的话音命令。
可接收来自与用户账户相关联的第一计算装置的第一话音输入数据。在一些方面,可接收来自与用户账户相关联的第二计算装置的第二话音输入数据。可基于第一话音输入数据和第二话音输入数据来确定预期话音命令。可基于预期话音命令来确定目标计算装置,并且可将与预期话音命令相关联的第一指令提供给第一目标计算装置以供执行。
在一个或多个实施例中,本技术使得用户能够使用话音命令来与缺乏捕获话音命令的能力的计算装置交互。例如,用户可希望与没有麦克风的智能恒温器交互。第一计算装置(例如,智能电话)可捕获话音命令并且将第一话音输入数据传输到服务器。服务器可接收第一话音输入数据并且确定预期话音命令是用于与第一计算装置不同的第二计算装置(例如,智能恒温器)。服务器可将与预期话音命令相关联的指令提供给第二计算装置。
图1示出可利用话音命令来与多个计算装置交互的示例性网络环境100。网络环境100可包括一个或多个计算装置102、104和106、网络108以及服务器110。服务器110可包括一个或多个计算装置112以及一个或多个数据存储区114。
计算装置102、104和106可表示各种形式的处理装置。以举例而非限制的方式,处理装置可包括台式计算机、膝上型计算机、手持式计算机、个人数字助理(PDA)、蜂窝式电话、网络电器、相机、智能电话、增强型通用分组无线电业务(EGPRS)移动电话、媒体播放器、导航装置、电子邮件装置、游戏控制台、智能电器或这些数据处理装置或其它数据处理装置中的任何者的组合。一些计算装置——诸如计算装置102和104,可具有捕获用户话音命令的能力。例如,计算装置102和104可包括麦克风,并且可具有存储在存储器中的指令,所述指令在由其相应处理器执行时允许计算装置102和104记录用户话音命令。其它计算装置——诸如计算装置106,可能不能够捕获用户话音命令,因为例如所述装置缺少麦克风。另外,计算装置102、104和106可包括用于语音识别和话音识别的处理电路和/或指令。
根据各种具体实施,计算装置102、104和106可与在线或基于云的用户账户相关联。在一些情况下,计算装置102、104和/或106可与多个不同的基于云的用户账户相关联。即使当计算装置与多个不同的基于云的用户账户相关联时,所述计算装置仍可与一个当前活动的用户账户相关联。例如,多个用户可能先前已经在计算装置上认证用户账户证书,但可能有一个用户在所述计算装置上活动地登录到用户账户。存储的与用户账户有关的信息可位于与服务器110相关联的数据存储区114中。在一些方面,存储的与用户账户有关的信息可位于单独服务器(未图示)上。
在一些方面,服务器110被配置为执行计算机指令以处理来自一个或多个计算装置的话音命令。当用户在诸如计算装置102或计算装置104的与用户账户相关联的计算装置(附近做出话音命令时,可捕获所述话音命令并且可将话音输入数据传输到服务器110。基于从与用户账户相关联的一个或多个计算装置接收到的话音输入数据,服务器110可确定预期话音命令并且将与预期话音命令相关联的指令提供到目标计算装置。
服务器110可为单个计算装置(例如,计算装置112)。在其它具体实施中,服务器110可表示一起工作以执行计算机服务器的动作的一个以上计算装置(例如,服务器群)。另外,服务器110可表示各种形式的服务器,其包括但不限于网络服务器、应用服务器、代理服务器、网络服务器或服务器群。
在一些方面,计算装置——包括计算装置102、104和106以及服务器110,可通过通信接口(未示出)无线地通信,所述通信接口可在必要时包括数字信号处理电路。通信接口可根据各种模式或协议提供通信,所述模式或协议例如为全球移动通信系统(GSM)话音呼叫、短消息服务(SMS)、增强型即时消息服务(EMS)或多媒体即时消息服务(MMS)即时消息、码分多址(CDMA)、时分多址(TDMA)、个人数字蜂窝(PDC)、宽带码分多址(WCDMA)、CDMA2000或通用分组无线电系统(GPRS)等。例如,所述通信可通过射频收发器(未示出)而发生。另外,短程通信可例如使用蓝牙、WiFi或其它此类收发器而发生。
在一些方面,网络环境100可为跨越诸如网络108的一个或多个网络的分布式客户端/服务器系统。网络108可为连接任何数量的移动客户端、固定客户端和服务器的大型计算机网络,诸如局域网(LAN)、广域网(WAN)、因特网、蜂窝式网络或其组合。另外,网络108可包括但不限于以下网络拓扑中的任何一者或多者,包括总线网络、星形网络、环形网络、网状网络、星形总线网络、树型或分级网络等等。在一些方面,每个客户端(例如,计算装置102、104和106)与服务器(例如,服务器110)之间的通信可经由虚拟私有网络(VPN)、安全外壳(SSH)隧道或其它安全网络连接发生。在一些方面,网络108还可包括企业网络(例如,内联网)和一个或多个无线接入点。
图2展示示出根据本技术的各种方面的用于处理话音命令的示例性过程200的流程图。过程200不需要以所示的次序执行。应当理解,所描绘的次序是一个或多个示例性途径的说明,并且本技术不意在限于所呈现的特定次序或层级。可重新排列步骤,且/或可同时执行所述步骤中的两者或两者以上。尽管已经相对于两个计算装置(例如,计算装置102和104)描述了过程200的步骤,但应当理解,本技术允许用户处理与两个以上计算装置相关联的话音命令。
在图2的框205中,从与用户账户相关联的第一计算装置(例如,计算装置102)接收第一话音输入数据,其中所述第一话音输入数据包括在第一计算装置102处捕获的第一话音命令。第一话音输入数据可包括例如在第一计算装置102处捕获的原始音频文件、基于所述原始音频文件的经过处理的词段、第一计算装置102的位置、时间戳、音频文件的声级等等。服务器110可从第一计算装置102接收包括原始音频文件的第一话音输入数据。在一些方面,服务器110可从第一计算装置102接收经过处理的词段。第一计算装置102可捕获第一话音命令的原始音频文件,并且可通过例如使用语音识别来处理原始音频文件以确定词段。第一计算装置102可将包括所确定的词段的第一话音输入数据发送到服务器110。
在图2的框210中,从与用户账户相关联的第二计算装置(例如,计算装置104)接收第二话音输入数据,其中所述第二话音输入数据包括在第二计算装置104处捕获的第二话音命令。第二话音输入数据可包括例如在第二计算装置104处捕获的原始音频文件、基于所述原始音频文件的经过处理的词段、第二计算装置104的位置、时间戳、音频的声级等。服务器110可从第二计算装置104接收包括原始音频文件的第二话音输入数据。在一些方面,服务器110可从第二计算装置104接收经过处理的词段。第二计算装置104可捕获第一话音命令的原始音频文件,并且可通过例如使用语音识别来处理原始音频文件以确定词段。第二计算装置104可将包括所确定的词段的第二话音输入数据发送到服务器110。
在一个或多个实施方式中,服务器110可确定在第一计算装置102处捕获的第一话音命令和在第二计算装置104处捕获的第二话音命令是否相关。服务器110可从第一计算装置102和第二计算装置104两者接收话音输入数据。所接收到的话音输入数据可与相同命令相关联。例如,可在第一计算装置102和第二计算装置104附近做出话音命令。所述计算装置中的每一者可捕获话音命令并且将其相应话音输入数据发送到服务器110。然而,所接收到的话音输入数据中的一些数据可能与不同命令相关联。例如,第一话音命令可在上午做出,并且第二话音命令可在下午做出。在另一个实例中,与第一用户相关联的第一话音命令可在第一计算装置102处捕获,并且与第二用户相关联的第二话音命令可在第二计算装置104处捕获。因此,本技术可在执行过程200的剩余部分之前确定第一话音命令和第二话音命令是否为相关的。
各种信息和技术可用于确定第一话音输入数据和第二话音输入数据是否为相关的。在一些方面,服务器110可将与第一话音输入数据相关联的时间戳和与第二话音输入数据相关联的时间戳进行比较。这些时间戳中的每一者可与相应计算装置中的在捕获话音命令时的内部时间相关联。如果与第一话音输入数据相关联的时间戳和与第二话音输入数据相关联的时间戳在预定时间阈值内,则服务器110可确定第一话音输入数据和第二话音输入数据为相关的。如上所述,服务器110可接收多个话音输入数据,并且可更有可能的是,当与第一话音输入数据相关联的时间戳在时间上接近于与第二话音输入数据相关联的时间戳时,第一话音输入数据和第二话音输入数据为相关的。
在某些情况下,第一计算装置102可捕获命令的第一部分,并且第二计算装置104可捕获命令的第二部分。例如,用户可在口述话音命令的同时正从第一计算装置102附近的位置移动到第二计算装置104附近的位置。第一计算装置102可能已经仅捕获话音命令的第一部分,并且第二计算装置104可能已经仅捕获话音命令的第二部分。在这种情况下,即使与第一话音输入数据和第二话音输入数据相关联的时间戳是不相同的,第一话音输入数据和第二话音输入数据仍为相关的。因而,预定时间阈值可被选择为允许与第一话音输入数据相关联的时间戳和与第二话音输入数据相关联的时间戳之间的某些可变性。第一计算装置102和第二计算装置104可周期性地使其内部时间与服务器110同步以确保正在使用标准时间来生成时间戳。
在一个或多个具体实施中,还可考虑所述计算装置中的每一者的位置。当第一计算装置102和第二计算装置104位于预定距离阈值内时,服务器110可确定第一话音输入数据和第二话音输入数据为相关的。可更有可能的是,当与第一计算装置102相关联的位置接近于与第二计算装置104相关联的位置时,第一话音输入数据和第二话音输入数据为相关的。然而,当用户在发布命令的同时正在到处移动时,即使与第一计算装置102和第二计算装置104相关联的位置是不相同的,第一话音输入数据和第二话音输入数据仍可为相关的。因而,预定距离阈值可被选择为允许与第一计算装置102相关联的位置和与第二计算装置104相关联的位置之间的某些可变性。所述计算装置中的每一者的位置可由服务器110作为相应话音输入数据的部分来接收,或可由服务器110来访问。
在一些情况下,话音识别也可用于确定第一话音输入数据和第二话音输入数据是否为相关的。例如,服务器110可访问与用户账户相关联的用户的样本话音记录,并且将样本话音记录与第一话音输入数据和第二话音输入数据进行比较以确定第一话音输入数据和第二话音输入数据与同用户账户相关联的用户相关联。在另一个实例中,服务器110可将与用户账户相关联的话音简档与第一话音输入数据和第二话音输入数据进行比较以确定第一话音输入数据和第二话音输入数据与同用户账户相关联的用户相关联。
在图2的框215中,基于所获得的第一话音输入数据和第二话音输入数据来确定预期话音命令。在一个或多个具体实施中,服务器110可确定与第一话音输入数据相关联的第一话音命令包括预期话音命令的第一部分,并且与第二话音输入数据相关联的第二话音命令包括预期话音命令的第二部分。例如,第一计算装置102和第二计算装置104可在不同位置中。用户可在用户正在发布话音命令(例如,“raise the temperature by 2 degrees(把温度提高2度)”)时正在移动。第一计算装置102可捕获预期话音命令的第一部分,例如,短语“raise the”。第二计算装置104可捕获预期话音命令的第二部分,例如,短语“temperature by 2 degrees”。服务器110可基于相应话音输入数据的时间戳来合并预期话音命令的第一部分和预期话音命令的第二部分。
服务器110可将与第一话音输入数据相关联的时间戳和与第二话音输入数据相关联的时间戳进行比较。如果与第一话音输入数据相关联的时间戳和与第二话音输入数据相关联的时间戳在预定时间阈值内,则服务器110可确定第一话音输入数据和第二话音输入数据为相关的。另外,服务器110可使用语音识别来基于第一话音输入数据确定预期话音命令的第一部分并且基于第二话音输入数据确定预期话音命令的第二部分。服务器110可确定预期话音命令的所确定的第一部分不与同用户账户相关联的任何计算装置上可用的命令相关联。
响应于确定预期话音命令的第一部分不与用户可用的命令相关联,服务器110可组合预期话音命令的第一部分(例如,“raise the”)和话音命令的第二部分(例如,“temperature by 2 degrees”)以确定预期话音命令(例如,“raise the temperature by2 degrees”)。可基于时间戳来确定组合预期话音命令的第一部分和话音命令的第二部分的次序。例如,如果与第一话音输入数据相关联的时间戳比与第二话音输入数据相关联的时间戳早,则可将预期话音命令的第二部分添加到预期话音命令的第一部分的末端。
在一些方面,服务器110可从第一计算装置102接收第一组识别的词段并且从第二计算装置104接收第二组识别的词段。基于本领域中已知的方法,计算装置可捕获话音命令并且处理所捕获的话音命令,使得所捕获的话音命令的每个音节被解析并转化为识别的词段。第一计算装置102可将第一组识别的词段发送到服务器110,并且第二计算装置104可将第二组辨识词段发送到服务器110。服务器110可确定在第一组识别的词段与第二组识别的词段之间存在识别的词段的重叠。可基于合并第一组识别的词段和第二组识别的词段来确定预期话音命令。
在一个或多个具体实施中,服务器110可基于第一时间戳与第二时间戳的第一比较以及第一计算装置102的第一位置与第二计算装置104的第二位置的第二比较,来确定第一话音命令和第二话音命令各自包括预期话音命令。例如,所接收的第一话音输入数据可包括例如在捕获第一话音命令时的第一计算装置102的第一位置和第一时间戳。所接收的第二话音输入数据可包括例如在捕获第二话音命令时的第二计算装置104的第二位置和第二时间戳。服务器110可将第一时间戳与第二时间戳进行比较以确定两个时间戳是否在预定时间阈值内。服务器110可将第一位置与第二位置进行比较以确定两个位置是否在预定位置阈值内。基于所述两个比较,服务器110可确定第一话音命令和第二话音命令各自包括预期话音命令。
在一些情况下,在不同装置处捕获的话音命令的质量可为不同的。例如,用户可在用户正在发布命令时正在移动,或与计算装置相关联的麦克风可正背对用户。在一些情况下,检测话音命令的计算装置中的每一者可捕获话音命令的原始音频文件。计算装置中的每一者可处理原始音频文件以确定识别的词段和相应置信度值。基于本领域中已知的方法,解析所捕获的话音命令的每个音节并且将其转化为识别的词段。还可计算置信度值,并且置信度值可指示识别的词段准确地表示话音命令的对应音节的概率。在一些情况下,服务器110可接收与话音命令相关联的原始音频文件,并且可处理原始音频文件以确定识别的词段和相应置信度值。
在一个或多个具体实施中,第一话音输入数据可包括第一识别的词段和第一置信度值,并且所述第二话音输入数据还包括第二识别的词段和第二置信度值。类似于确定第一话音输入数据与第二话音输入数据相关,服务器110可确定第一识别的词段与第二识别的词段相关。例如,服务器110可确定与第一识别的词段相关联的时间戳和与第二识别的词段相关联的时间戳之间的差值在预定时间阈值内。服务器110可通过确定第一识别的词段不同于第二识别的词段来确定预期话音命令。如上文提及,在不同装置处捕获的话音命令的质量可能不同,并且所述差异可被反映为第一置信度值与第二置信度值的差值。服务器110可基于第一置信度值与第二置信度值的比较来选择第一识别的词段或第二识别的词段中的一者。例如,较高置信度值可指示识别的词段准确地表示预期话音命令的概率较高。在这种情况下,服务器110可选择具有较高置信度值的词段。
例如,用户可口述单音节话音命令,诸如“off”。第一计算装置102可处理在第一计算装置102上捕获的话音命令,并且确定第一识别的词段——例如,指示“off”的文本,和第一置信度值——例如,.90。第二计算装置104可处理在第二计算装置102上捕获的话音命令,并且确定第二识别的词段——例如,指示“of”的文本和第二置信度值——例如,.80。所述计算装置中的每一者可将相应识别的词段发送到服务器110。服务器110可确定第一识别的词段和第二识别的词段为相关的,因为与第一识别的词段相关联的时间戳和与第二识别的词段相关联的时间戳低于预定时间阈值。服务器110可将第一置信度值与第二置信度值进行比较。基于第一置信度值(.90)和第二置信度值(.80)的比较,服务器110可选择“off”作为预期话音命令。
在一个或多个具体实施中,第一话音输入数据可包括第一组识别的词段及其相应的第一置信度值,并且第二话音输入数据可包括第二组识别的词段及其相应的第二置信度值。服务器110可接收第一话音输入数据和第二话音输入数据,并且将第一组词段中的每一者与其相应的第二词段进行比较。服务器110可确定第一组识别的词段与第二组识别的词段相关。例如,服务器110可确定与第一组识别的词段相关联的时间戳和与第二组识别的词段相关联的时间戳之间的差值在预定时间阈值内。
服务器110可基于相应的第一置信度值和相应的第二置信度值来合并第一组识别的词段和第二组识别的词段。在一些方面,对于第一组识别的词段中的每一者,服务器110可在第一词段和第二词段被确定为相同时将第一词段与相应的第二词段组合,并且在第一词段和第二词段被确定为不同时基于其相应的置信度值来在第一词段与相应的第二词段之间进行选择。
例如,用户可口述话音命令,诸如“print document one”。第一计算装置102可处理所述话音命令并且确定对应于“print document one”的第一组词段,其中每个词段对应于所述话音命令的音节。第二计算装置104可处理所述话音命令并且确定对应于“tintdocument one”的第二组词段,其中每个词段对应于所述话音命令的音节。服务器110可基于时间戳确定第一组识别的词段(例如,“print document one”)与第二组识别的词段(例如,“tint document one”)相关。例如,与第一组词段和第二组词段相关联的时间戳可以相同,这可指示第一组识别的词段可与第二组识别的词段相关。服务器110可确定第一组识别的词段当中的第一识别的词段(例如,“print”)不同于第二组识别的词段当中的其相应第二识别的词段(例如,“tint”)。如上所述,服务器110可基于其相应置信度值来在第一识别的词段(例如,“print”)与第二识别的词段(例如,“tint)之间选择识别的词段。在这个实例中,第一识别的词段可具有较高置信度值。根据本技术,服务器110可选择第一词段(例如,“print”)并且在确定剩余的第一词段和第二词段中的每一者为相同之后组合第一词段和第二词段中的剩余词段(例如,document one)。基于这个过程,服务器110可确定预期话音命令是“print document one”。
在图2的框220中,基于预期话音命令来确定第一目标计算装置。由于多个装置可捕获话音命令,所以在不实施恰当方法来解决冲突的情况下可发生执行话音命令的冲突或冗余。
在一个或多个具体实施中,预期话音命令可包括与第一目标计算装置相关联的装置标识符。例如,用户可陈述用户希望与之交互的装置的名称。当用户向用户账户注册装置时,可将装置标识符存储在数据存储区114中。在一些方面,服务器110可接收作为话音输入数据的部分的装置标识符。服务器110可将所存储的装置标识符或所接收到的装置标识符与预期话音命令进行比较,并且基于所述比较来确定第一目标计算装置。
在一个或多个具体实施中,所接收到的第一话音输入数据和第二话音输入数据还包括与其相应话音命令相关联的声级。服务器110可将与第一话音命令相关联的第一声级和与第二话音命令相关联的第二声级进行比较。服务器110可确定例如与较响亮的话音命令相关联的计算装置为第一目标计算装置。用户可更有可能与较靠近用户的计算装置交互,并且较靠近用户的计算装置可与较响亮的话音命令相关联。在一些情况下,即使当用户与第一计算装置102和第二计算装置104相距相同距离时,由于例如麦克风的质量,在第一计算装置102和第二计算装置104处捕获的声级仍可能不同。服务器110可接收与第一计算装置102的麦克风和第二计算装置104的麦克风相关联的数据,并且可在将第一声级与第二声级进行比较之前基于与麦克风相关联的其相应数据来使第一声级和第二声级标准化。
在一个或多个具体实施中,所接收到的第一话音输入数据和第二话音输入数据包括与相应计算装置上的用户可用的命令相关联的数据。服务器110可将与可用于第一计算装置102的命令相关联的第一数据和预期话音命令进行比较。服务器110还可将与可用于第二计算装置104的命令相关联的第二数据和预期话音命令进行比较。如果预期话音命令可用于第一计算装置102和第二计算装置104两者,则诸如上文提及的方法的其它方法可用于确定第一目标计算装置。如果预期话音命令可用于第一计算装置102,但不可用于第二计算装置104,则服务器110可确定第一计算装置102是第一目标计算装置。如果预期话音命令可用于第二计算装置104,但不可用于第一计算装置102,则服务器110可确定第二计算装置104是第一目标计算装置。
在一些情况下,服务器110可能够访问先前所接收到的话音输入数据。明确地说,如果在先前所接收的话音输入数据之后的预定时间阈值内接收到第一话音输入数据和第二话音输入数据,则服务器110可基于先前所确定的目标计算装置来确定第一目标计算装置。
例如,服务器110可确定预期任务是“raise the volume by 10(把音量调高10)”。服务器110可能不能够标识第一目标计算装置,因为与用户账户相关联的多个计算装置(例如,电视机、收音机、其它音乐播放器)可执行所述预期任务“rais[ing]the volume by10”。然而,如果用户先前已经口述话音命令,诸如“turn on the radio(打开收音机)”,则服务器110可基于与先前话音命令(例如,turn on the radio)相关联的先前所确定的目标计算装置来确定第一目标计算装置。服务器110可先前已经确定收音机(例如,第一计算装置102)是目标计算装置。如果在接收第一话音输入数据和与先前所口述的话音命令相关联的数据之间的时间差小于预定时间阈值,则服务器110可确定第一目标计算装置是第一计算装置102。
在一个或多个具体实施中,即使在执行上述方法之后,服务器110仍可能不能够标识第一目标计算装置。在这种情况下,服务器110可已经确定第一计算装置102和第二计算装置104两者可执行用户命令。服务器110可基于额外背景数据来在第一计算装置102与第二计算装置104之间进行选择。在一些方面,服务器110可能够访问与同用户账户相关联的计算装置中的每一者相关联的背景数据。背景数据可包括例如用户使用计算装置的频率和持续时间、当前电池电量、屏幕大小(如果适用)等等。在一些方面,服务器110可基于与第一计算装置102相关联的背景数据和与第二计算装置104相关联的背景数据的比较来确定第一目标计算装置。例如,如果用户使用第一计算装置102的频率高于用户使用第二计算装置104的频率,则服务器110可确定第一计算装置102是目标计算装置。在另一个实例中,如果第一计算装置102的当前电池电量高于第二计算装置104的当前电池电量,则服务器110可确定第一计算装置102是目标计算装置。
在图2的框225中,将与预期话音命令相关联的指令提供给第一目标计算装置以供执行。在一些方面,预期话音命令可与第一目标计算装置和第二目标计算装置相关联。服务器可从第一计算装置102接收第一话音输入数据并且从第二计算装置104接收第二话音输入数据。服务器110可确定预期话音命令并且确定第一目标计算装置和第二目标计算装置。服务器110可将与预期话音命令相关联的第一指令提供给第一目标计算装置并且将与预期话音命令相关联的第二指令提供给第二目标计算装置。例如,用户可希望将照片从第一计算装置102传送到第二计算装置104。第一目标计算装置可为第一计算装置102,并且第二目标计算装置可为第二计算装置104。第一指令可与在第一计算装置102上发起照片传送应用相关联。第二指令可与在第二计算装置104上接受来自第一计算装置102的照片传送相关联。在一些方面,与预期话音命令相关联的第一指令和与预期话音命令相关联的第二指令可以相同。例如,用户可希望“turn off(关掉)”多个计算装置。服务器110可向第一目标计算装置和第二目标计算装置发送相同指令。
在一个或多个具体实施中,服务器110可接收与所提供的指令相关联的用户反馈数据。在一些方面,在将第一指令提供给第一目标计算装置之后,服务器110可确定在预定时间阈值内从不是第一目标计算装置的计算装置接收用户交互指示可指示预期话音命令的确定是不正确的。服务器110可存储第一话音输入数据、第二话音输入数据和用户交互指示的条目以供将来参考。在服务器110接收话音输入数据的下一个时间,服务器110可将话音输入数据与先前所存储的条目进行比较。预期话音命令和目标计算装置的将来确定可还基于先前所存储的条目。
虽然第一计算装置102和第二计算装置104被描述为与单个用户账户相关联,但应当理解,第一计算装置102和第二计算装置104可与不同用户账户相关联。例如,第一计算装置102可从第一用户接收第一话音命令,并且第二计算装置104可从第二用户接收第二话音命令。第一话音命令和第二话音命令可与相同目标计算装置相关联。服务器110可从第一计算装置102接收包括第一话音命令的第一话音输入数据,并且从第二计算装置104接收包括第二话音命令的第二话音输入数据。服务器110可确定第一话音输入数据与第一用户账户的第一用户相关联并且第二话音输入数据与第二用户账户的第二用户相关联。服务器110可基于第一话音输入数据确定第一预期话音命令并且基于第二话音输入数据确定第二预期话音命令。服务器110可进一步确定目标计算装置与第一用户账户和第二用户账户相关联并且第一预期话音命令和第二预期话音命令为冲突的。在一些情况下,服务器110可将指令发送给计算装置102和104。作为响应,计算装置102和104可提供显示图形用户元素以从第一用户和第二用户接收进一步指令或确认。用户可选择哪个指令具有优先级。在其它情况下,与目标计算装置相关联的某些用户账户可具有较高优先级或特权。在这种情况下,服务器110可将与具有最高优先级的用户账户相关联的指令传输到目标计算装置。
图3展示示出根据本技术的各种方面的用于将与预期话音命令相关联的第一指令提供给目标计算装置的示例性过程300的流程图。过程300的步骤不需要以所展示的次序执行。应当理解,所描绘的次序是一个或多个示例性途径的说明,并且本技术不意在限于所呈现的特定次序或层级。可重新排列所述步骤,且/或可同时执行所述步骤中的两者或两者以上。
在图3的框305中,从与多个用户账户相关联的第一计算装置接收第一话音输入数据,其中所述第一话音输入数据包括与所述多个用户账户中的第一用户账户相关联的第一话音命令和与所述多个用户账户中的第二用户账户相关联的第二话音命令。第一用户和第二用户可在预定时间阈值内在第一计算装置102附近口述话音命令,并且第一计算装置102可捕获第一话音命令和第二话音命令两者作为例如单个音频文件并且将所述音频文件发送到服务器110。
在图3的框310中,基于第一话音输入数据来确定第一预期话音命令和第二预期话音命令。服务器110可使用话音识别技术来标识与所获得的第一话音输入数据相关联的用户。例如,服务器110可接收包括来自多个用户的多个命令的音频文件。服务器110可将所述音频文件分成多个部分,其中原始音频文件的部分可与不同用户相关联。
例如,第一计算装置102可与第一用户账户和第二用户账户相关联。第一用户可在第一计算装置102附近口述话音命令,诸如“raise the volume of the TV by 20(把电视音量升高20)”,并且第二用户也可在第一计算装置102附近发出话音命令,诸如“raise thetemperature to 100(把温度升高至100)”。所述两个话音命令可在彼此紧密接近时间内检测到并且可重叠。例如,可在t0处检测到短语“raise the volume of the TV by”,可在t1处检测到短语“raise the temperature to”,可在t2处检测到短语“20”,并且可在t3处检测到短语“100”。第一计算装置102可确定与通过使用话音识别技术检测到的短语中的每一者相关联的扬声器。第一计算装置102可基于(例如)与第一用户账户相关联的话音简档与所检测到的短语的比较来确定短语“raise the volume of the TV by”和“20”与第一用户相关联。第一计算装置102可还基于(例如)与第二用户账户相关联的话音简档和所检测到的短语的比较来确定短语“raise the temperature to”和“100”与第二用户相关联。基于这些确定,第一计算装置102可创建与第一用户相关联的原始音频文件的第一部分和与第二用户相关联的原始音频文件的第二部分。可将原始音频文件的这些部分发送到服务器110。在一些实施方式中,服务器110可接收与第一用户和第二用户相关联的原始音频文件,并且可基于以上过程来区别来自第一用户的命令和来自第二用户的命令。
在图3的框315中,基于第一预期话音命令来确定第一目标计算装置。在图3的框320中,基于第二预期话音命令来确定第二目标计算装置。第一目标计算装置和第二目标计算装置可能没有麦克风且/或可能尚未捕获到话音命令。例如,用户可能希望改变房屋的温度,并且可在用户的智能电话附近口述话音命令,诸如“raise temperature by threedegrees(把温度升高3度)”。计算装置102(例如,智能电话)可捕获话音命令并且将第一话音输入数据发送到服务器110。服务器110可确定计算装置106(例如,智能恒温器)是第一目标计算装置。在一些具体实施中,话音命令可包括装置标识符。服务器110可访问与用户账户相关联的计算装置列表并且确定计算装置106是第一目标计算装置。在一些实施方式中,计算装置106可发送数据,该数据可包括例如计算装置106的位置、计算装置106上的用户可用的命令等等。服务器110可将预期话音命令和与用户账户相关联的计算装置上的用户可用的命令进行比较。如果预期话音命令是计算装置106上的用户可用的命令,则服务器110可确定计算装置106是第一目标计算装置。
在图3的框325中,将与第一预期话音命令相关联的第一指令提供给第一目标计算装置以供执行。在图3的框330中,将与第二预期话音命令相关联的第二指令提供给第二目标计算装置以供执行。
图4概念性地示出可用于实施本技术的一些实施方式的示例性电子系统。电子系统400可为计算机、电话、PDA或任何其它种类的电子装置。此类电子系统包括各种类型的计算机可读介质和用于各种其它类型的计算机可读介质的接口。电子系统400包括总线408、处理单元412、系统存储器404、只读存储器(ROM)410、永久存储装置402、输入装置接口414、输出装置接口406和网络接口416。
总线408总体表示通信地连接电子系统400的许多内部装置的所有系统、外围装置和芯片组总线。例如,总线408通信地连接处理单元412与ROM 410、系统存储器404和永久存储装置402。
从这些各种存储器单元,处理单元412检索待执行的指令和待处理的数据以便执行本公开的过程。处理单元可在不同实施方式中为单个处理器或多核处理器。
ROM 410存储电子系统的处理单元412和其它模块所需要的静态数据和指令。另一方面,永久存储装置402是读取和写入存储器装置。这个装置是即使在电子系统400关闭时仍存储指令和数据的非易失性存储器单元。本公开的一些实施方式使用大容量存储装置(例如,磁盘或光盘及其对应盘驱动器)作为永久存储装置402。
其它实施方式使用可移除存储装置(例如,软盘、闪存驱动器及其对应盘驱动器)作为永久存储装置402。如同永久存储装置402,系统存储器404是读取和写入存储器装置。然而,不同于存储装置402,系统存储器404是易失性读取和写入存储器,诸如随机存取存储器。系统存储器404存储处理器在运行时需要的一些指令和数据。在一些实施方式中,本公开的过程存储在系统存储器404、永久存储装置402或ROM 410中。例如,根据一些实施方式,各种存储器单元包括用于显示网页、处理对网页的用户输入并且生成URL的指令。从这些各种存储器单元,处理单元412检索待执行的指令和待处理的数据以便执行一些实施方式的过程。
总线408还连接到输入装置接口414和输出装置接口406。输入装置接口414使得用户能够向电子系统传送信息并且选择命令。与输入装置接口414一起使用的输入装置包括例如字母数字键盘和指向装置(还称为“光标控制装置”)。输出装置接口406使得能够例如显示电子系统400所生成的图像。与输出装置接口406一起使用的输出装置包括例如打印机和显示装置,例如阴极射线管(CRT)或液晶显示器(LCD)。一些实施方式包括充当输入装置和输出装置两者的装置,例如触摸屏。
最后,如图4所示,总线408还通过网络接口416将电子系统400耦接到网络(未示出)。以此方式,计算机可为计算机网络(例如,局域网(LAN)、广域网(WAN)或内联网)的一部分,或网络的网络(例如,因特网)。可结合本公开使用电子系统400的任何或所有部件。
上述许多特征和应用程序被实施为指定作为记录在计算机可读存储介质(还称为计算机可读介质)上的一组指令的软件过程。当这些指令由一个或多个处理单元(例如,一个或多个处理器、处理器核心或其它处理单元)执行时,其致使处理单元执行所述指令中所指示的动作。计算机可读介质的实例包括但不限于CD-ROM、闪存驱动器、RAM芯片、硬盘驱动器、EPROM等等。计算机可读介质不包括无线地或经由有线连接传递的载波和电子信号。
在本说明书中,术语“软件”意在包括驻留在只读存储器中的固件或存储在磁性存储装置中的应用程序,所述应用程序可被读取到存储器中以供处理器处理。另外,在一些实施方式中,本公开的多个软件方面可被实施为较大程序的子部分,同时保留本公开的相异软件方面。在一些实施方式中,多个软件方面还可被实施为单独程序。最后,一起实施此处所描述的软件方面的单独程序的任何组合属于本公开的范围内。在一些实施方式中,软件程序在被安装以在一个或多个电子系统上进行操作时界定实行并执行软件程序的操作的一个或多个特定机器的实施方式。
计算机程序(还称为程序、软件、软件应用程序、脚本或代码)可以任何形式的编程语言(包括编译或解释语言、声明或程序语言)来书写,并且其可以任何形式来部,包括作为独立程序或作为适于在计算环境中使用的模块、部件、子例程、对象或其它单元。计算机程序可以但不需要对应于文件系统中的文件。程序可存储在保持其它程序或数据的文件的一部分中(例如,存储在标记语言文档中的一个或多个脚本)、在专用于正被谈论的程序的单个文件中或在多个协调文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。计算机程序可被部署为在一个计算机上或在位于一个位点处或分布在多个位点处并且通过通信网络互连的多个计算机上执行。
上述的这些功能可在数字电子电路中、在计算机软件、固件或硬件中实施。所述技术可使用一个或多个计算机程序产品来实施。可编程处理器和计算机可包括在移动装置中或封装为移动装置。所述过程和逻辑流程可由一个或多个可编程处理器并且由一个或多个可编程逻辑电路执行。通用和专用计算装置和存储装置可通过通信网络互连。
一些实施方式包括将计算机程序指令存储在机器可读或计算机可读介质(另选地称为计算机可读存储介质、机器可读介质或机器可读存储介质)中的电子部件,例如,微处理器、存储装置和存储器。此类计算机可读介质的一些实例包括RAM、ROM、只读压缩光盘(CD-ROM)、可记录压缩光盘(CD-R)、可覆写压缩光盘(CD-RW)、只读数字多功能光盘(例如,DVD-ROM、双层DVD-ROM)、多种可记录/可覆写DVD(例如,DVD-RAM、DVD-RW、DVD+RW等)、快闪存储器(例如,SD卡、迷你SD卡、微型SD卡等)、磁性或固态硬盘驱动器、只读且可记录盘、超高密度光盘、任何其它光学或磁性介质以及软盘。计算机可读介质可存储能够由至少一个处理单元执行并且包括用于执行各种操作的指令集的计算机程序。计算机程序或计算机代码的实例包括例如由编译器产生机器代码,以及由计算机、电子部件或微处理器使用解释程序执行的包括高级代码的文件。
尽管以上论述主要参考执行软件的微处理器或多核处理器,但一些实施方式由一个或多个集成电路来执行,例如,专用集成电路(ASIC)或现场可编程门阵列(FPGA)。在一些具体实施中,此类集成电路执行存储在电路本身上的指令。
如本申请的本说明书和任何权利要求中所使用,术语“计算机”、“服务器”、“处理器”和“存储器”全部是指电子装置或其它技术装置。这些术语不包括人或人群。出于本说明书的目的,术语“显示”意指在电子装置上显示。如本申请的本说明书和任何权利要求中所使用,术语“计算机可读介质”整体限于以计算机可读的形式存储信息的有形物理物体。这些术语不包括任何无线信号、有线下载信号和任何其它短暂信号。
为了提供与用户的交互,本说明书中所描述的主题的具体实施可在具有用于向用户显示信息的显示装置(例如,阴极射线管(CRT)或液晶显示器(LCD)监视器)以及用户通过其可向计算机提供输入的键盘和指点装置(例如,鼠标或轨迹球)的计算机上实施。其它种类的装置也可用于提供与用户的交互;例如,提供给用户的反馈可为任何形式的感觉反馈,例如,视觉反馈、听觉反馈或触觉反馈;并且来自用户的输入可以任何形式来接收包括声学、语音或触觉输入。另外,计算机可通过向用户所使用的装置发送文档并且从用户所使用的装置接收文档来与用户交互;例如,通过响应于从web浏览器接收到的请求来将网页发送到用户客户端装置上的web浏览器。
本说明书中所描述的主题的实施例可在包括后端部件(例如,作为数据服务器)或包括中间件部件(例如,应用服务器)或包括前端部件(例如,具有图形用户界面或web浏览器的客户端计算机,用户可通过其与本说明书中所描述的主题的实施方式交互)或者一个或多个此类后端、中间件或前端部件的任何组合的计算系统中实施。所述系统的部件可通过数字数据通信的任何形式或媒体(例如,通信网络)互连。通信网络的实例包括局域网(LAN)和广域网(WAN)、互连网络(例如,因特网)以及对等网络(例如,特定对等网络)。
计算系统可包括客户端和服务器。客户端和服务器通常彼此远离并且通常通过通信网络交互。客户端和服务器的关系借助于在相应计算机上运行并且彼此具有客户端-服务器关系的计算机程序而产生。在一些实施例中,服务器将数据(例如,HTML页)传输到客户端装置(例如,出于向与客户端装置交互的用户显示数据并且从与客户端装置交互的用户接收用户输入的目的)。可在服务器处从客户端装置接收在客户端装置处生成的数据(例如,用户交互的结果)。
应当理解,所公开的过程中的步骤的任何特定次序或层级是示例性方法的说明。基于设计偏好,应当理解可重新排列所述过程中的步骤的特定次序或层级,或者执行所有所示出的步骤。可同时执行一些步骤。例如,在某些情况下,多任务处理和并行处理可为有利的。此外,在上文所述的实施例中的各种系统部件的分离不应被理解为在所有实施例中均需要此类分离,并且应当理解,所描述的程序部件和系统可通常一起集成在单个软件产品中或封装到多个软件产品中。
提供先前描述以使得本领域的技术人员能够实践本文所述的各种方面。本领域的技术人员将容易明白这些方面的各种修改,并且本文中所定义的通用原理可应用于其它方面。因此,不希望权利要求书限于本文所展示的方面,而是应被赋予与书面权利要求书一致的完整范围,其中以单数形式提及元件不希望意指“一个且仅一个”而是“一个或多个”,除非另外明确陈述。除非以其它方式明确陈述,否则术语“一些”是指一个或多个。男性代词(例如,他的)包括女性和中性(例如,她的和它的),反之亦然。标题和子标题(如果存在的话)仅出于方便起见来使用并且不限制本公开。
诸如“方面”等短语并不暗示此类方面对于本技术为基本的,或者此类方面适用于本技术的所有配置。与一方面相关的公开内容可适用于所有配置或一个或多个配置。诸如一方面等短语可指一个或多个方面,反之亦然。诸如“配置”等短语并不暗示此类配置对于本技术为基本的,或者此类配置适用于本技术的所有配置。与一个配置相关的公开内容可适用于所有配置或一个或多个配置。诸如一个配置等短语可指一个或多个配置,反之亦然。

Claims (13)

1.一种计算机实施的方法,包括:
从与用户账户相关联的第一计算装置接收第一话音输入数据,所述第一话音输入数据包括第一识别词段和与所述第一识别词段相对应的第一置信度值,所述第一识别词段是从与所述第一话音输入数据相关联的第一话音命令获得的;
从与所述用户账户相关联的第二计算装置接收第二话音输入数据,所述第二话音输入数据包括第二识别词段和与所述第二识别词段相关联的第二置信度值,所述第二识别词段是从与所述第二话音输入数据相关联的第二话音命令获得的;
确定所述第一识别词段不同于所述第二识别词段;
基于所述第一置信度值与所述第二置信度值的比较来选择所述第一识别词段或所述第二识别词段中的一者;
基于所获得的第一话音输入数据和所获得的第二话音输入数据来从所述第一识别词段或所述第二识别词段中的所选定的一者确定预期话音命令;
基于所述预期话音命令来确定第一目标计算装置;以及
将与所述预期话音命令相关联的第一指令提供给所述第一目标计算装置以供执行。
2.根据权利要求1所述的方法,其中所述第一话音输入数据还包括与所述第一话音命令相关联的第一时间戳,其中所述第二话音输入数据还包括与所述第二话音命令相关联的第二时间戳。
3.根据权利要求2所述的方法,其中所述第一话音输入数据还包括所述第一计算装置的第一位置,并且所述第二话音输入数据还包括所述第二计算装置的第二位置,并且所述方法还包括:
进一步基于所述第一时间戳与所述第二时间戳的第一比较以及所述第一计算装置的所述第一位置与所述第二计算装置的所述第二位置的第二比较,来确定所述预期话音命令。
4.根据权利要求3所述的方法,其中所述第一话音输入数据还包括从所述第一话音命令获得的第一多个识别词段及其相应的第一置信度值,并且所述第二话音输入数据还包括从所述第二话音命令获得的第二多个识别词段及其相应的第二置信度值,并且其中确定所述预期话音命令还包括:
基于所述相应的第一置信度值和所述相应的第二置信度值来合并所述第一多个识别词段和所述第二多个识别词段,其中所述预期话音命令包括所合并的第一多个识别词段和第二多个识别词段。
5.根据权利要求1所述的方法,其中所述预期话音命令包括与所述第一目标计算装置相关联的装置标识符。
6.根据权利要求1所述的方法,其中所述第一话音输入数据还包括与所述第一话音命令相关联的第一声级,其中所述第二话音输入数据还包括与所述第二话音命令相关联的第二声级,并且其中确定所述第一目标计算装置还基于所述第一声级与所述第二声级的比较。
7.根据权利要求1所述的方法,其中确定所述第一目标计算装置还基于所述第一计算装置上的所述用户可用的命令与所述预期话音命令的第一比较以及所述第二计算装置上的所述用户可用的命令与所述预期话音命令的第二比较。
8.根据权利要求1所述的方法,还包括:
基于所述预期话音命令来确定第二目标计算装置;以及
将与所述预期话音命令相关联的第二指令提供给所述第二目标计算装置以供执行。
9.根据权利要求1所述的方法,其中确定所述第一目标计算装置还基于所述第一计算装置的第一位置和所述第二计算装置的第二位置。
10.一种处理话音命令的系统,包括:
一个或多个处理器;以及
非暂态计算机可读介质,包括存储在其中的指令,所述指令在由所述一个或多个处理器执行时致使所述一个或多个处理器执行操作,所述操作包括:
从与用户账户相关联的第一计算装置接收第一话音输入数据,所述第一话音输入数据包括第一识别词段,与所述第一识别词段相对应的第一置信度值,和与第一话音命令相关联的第一时间戳,从所述第一话音命令获得的所述第一识别词段与第一话音输入数据相关联;
从与所述用户账户相关联的第二计算装置接收第二话音输入数据,所述第二话音输入数据包括第二识别词段,与所述第二识别词段相对应的第二置信度值,和与第二话音命令相关联的第二时间戳,从所述第二话音命令获得的所述第二识别词段与所述第二话音输入数据相关联;
确定所述第一识别词段不同于所述第二识别词段;
基于所述第一置信度值与所述第二置信度值的比较来选择所述第一识别词段或所述第二识别词段中的一者;
基于所获得的第一话音输入数据和所获得的第二话音输入数据来从所述第一识别词段或所述第二识别词段中的所选定的一者确定预期话音命令;
基于所述预期话音命令来确定第一目标计算装置;以及
将与所述预期话音命令相关联的第一指令提供给所述第一目标计算装置以供执行。
11.根据权利要求10所述的系统,其中所述操作还包括:
进一步基于所述第一时间戳与所述第二时间戳的第一比较以及所述第一计算装置的第一位置与所述第二计算装置的第二位置的第二比较,来确定所述预期话音命令。
12.根据权利要求10所述的系统,其中所述第一话音输入数据还包括与所述第一话音命令相关联的第一声级,其中所述第二话音输入数据还包括与所述第二话音命令相关联的第二声级,并且其中确定所述第一目标计算装置还基于所述第一声级与所述第二声级的比较。
13.根据权利要求10所述的系统,其中确定所述第一目标计算装置还基于所述第一计算装置上的用户可用的命令与所述预期话音命令的第一比较以及所述第二计算装置上的所述用户可用的命令与所述预期话音命令的第二比较。
CN201680042544.1A 2015-11-06 2016-10-18 跨装置的话音命令 Active CN108604448B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910796762.XA CN110675868B (zh) 2015-11-06 2016-10-18 跨装置的话音命令

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/935,350 US9653075B1 (en) 2015-11-06 2015-11-06 Voice commands across devices
US14/935,350 2015-11-06
PCT/US2016/057519 WO2017078926A1 (en) 2015-11-06 2016-10-18 Voice commands across devices

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN201910796762.XA Division CN110675868B (zh) 2015-11-06 2016-10-18 跨装置的话音命令

Publications (2)

Publication Number Publication Date
CN108604448A CN108604448A (zh) 2018-09-28
CN108604448B true CN108604448B (zh) 2019-09-24

Family

ID=57227113

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201910796762.XA Active CN110675868B (zh) 2015-11-06 2016-10-18 跨装置的话音命令
CN201680042544.1A Active CN108604448B (zh) 2015-11-06 2016-10-18 跨装置的话音命令

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201910796762.XA Active CN110675868B (zh) 2015-11-06 2016-10-18 跨装置的话音命令

Country Status (4)

Country Link
US (4) US9653075B1 (zh)
EP (2) EP3371809B1 (zh)
CN (2) CN110675868B (zh)
WO (1) WO2017078926A1 (zh)

Families Citing this family (192)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10032452B1 (en) * 2016-12-30 2018-07-24 Google Llc Multimodal transmission of packetized data
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US11017428B2 (en) 2008-02-21 2021-05-25 Google Llc System and method of data transmission rate adjustment
US10013986B1 (en) 2016-12-30 2018-07-03 Google Llc Data structure pooling of voice activated data packets
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US9084058B2 (en) 2011-12-29 2015-07-14 Sonos, Inc. Sound field calibration using listener localization
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US10152723B2 (en) 2012-05-23 2018-12-11 Google Llc Methods and systems for identifying new computers and providing matching services
US10776830B2 (en) 2012-05-23 2020-09-15 Google Llc Methods and systems for identifying new computers and providing matching services
US9219460B2 (en) 2014-03-17 2015-12-22 Sonos, Inc. Audio settings based on environment
US9106192B2 (en) 2012-06-28 2015-08-11 Sonos, Inc. System and method for device playback calibration
US10650066B2 (en) 2013-01-31 2020-05-12 Google Llc Enhancing sitelinks with creative content
US10735552B2 (en) 2013-01-31 2020-08-04 Google Llc Secondary transmissions of packetized data
EP3809407A1 (en) 2013-02-07 2021-04-21 Apple Inc. Voice trigger for a digital assistant
US10297284B2 (en) * 2013-06-26 2019-05-21 Touchcast LLC Audio/visual synching system and method
US9264839B2 (en) 2014-03-17 2016-02-16 Sonos, Inc. Playback device configuration based on proximity detection
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10912179B2 (en) * 2014-06-27 2021-02-02 Belkin International, Inc. Systems and methods for contextual intelligence using networked devices
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9952825B2 (en) 2014-09-09 2018-04-24 Sonos, Inc. Audio processing algorithms
US9548979B1 (en) 2014-09-19 2017-01-17 United Services Automobile Association (Usaa) Systems and methods for authentication program enrollment
US10013983B1 (en) * 2014-09-19 2018-07-03 United Services Automobile Association (Usaa) Selective passive voice authentication
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
JP6437695B2 (ja) 2015-09-17 2018-12-12 ソノズ インコーポレイテッド オーディオ再生デバイスのキャリブレーションを容易にする方法
US9693165B2 (en) 2015-09-17 2017-06-27 Sonos, Inc. Validation of audio calibration using multi-dimensional motion check
US9653075B1 (en) 2015-11-06 2017-05-16 Google Inc. Voice commands across devices
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10379747B2 (en) * 2015-12-21 2019-08-13 Western Digital Technologies, Inc. Automated latency monitoring
US9743207B1 (en) 2016-01-18 2017-08-22 Sonos, Inc. Calibration using multiple recording devices
US10003899B2 (en) 2016-01-25 2018-06-19 Sonos, Inc. Calibration with particular locations
US10453460B1 (en) * 2016-02-02 2019-10-22 Amazon Technologies, Inc. Post-speech recognition request surplus detection and prevention
US10509626B2 (en) 2016-02-22 2019-12-17 Sonos, Inc Handling of loss of pairing between networked devices
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US9965247B2 (en) 2016-02-22 2018-05-08 Sonos, Inc. Voice controlled media playback system based on user profile
US9947316B2 (en) 2016-02-22 2018-04-17 Sonos, Inc. Voice control of a media playback system
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US9772817B2 (en) 2016-02-22 2017-09-26 Sonos, Inc. Room-corrected voice detection
US10142754B2 (en) 2016-02-22 2018-11-27 Sonos, Inc. Sensor on moving component of transducer
US9864574B2 (en) 2016-04-01 2018-01-09 Sonos, Inc. Playback device calibration based on representation spectral characteristics
US9860662B2 (en) 2016-04-01 2018-01-02 Sonos, Inc. Updating playback device configuration information based on calibration data
US9763018B1 (en) 2016-04-12 2017-09-12 Sonos, Inc. Calibration of audio playback devices
US9978390B2 (en) 2016-06-09 2018-05-22 Sonos, Inc. Dynamic player selection for audio signal processing
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10931999B1 (en) * 2016-06-27 2021-02-23 Amazon Technologies, Inc. Systems and methods for routing content to an associated output device
US10771969B2 (en) 2016-07-11 2020-09-08 T-Mobile Usa, Inc. Voice control and telecommunications service integration
US10152969B2 (en) 2016-07-15 2018-12-11 Sonos, Inc. Voice detection by multiple devices
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US9794710B1 (en) 2016-07-15 2017-10-17 Sonos, Inc. Spatial audio correction
US10372406B2 (en) 2016-07-22 2019-08-06 Sonos, Inc. Calibration interface
US10459684B2 (en) 2016-08-05 2019-10-29 Sonos, Inc. Calibration of a playback device based on an estimated frequency response
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US9693164B1 (en) 2016-08-05 2017-06-27 Sonos, Inc. Determining direction of networked microphone device relative to audio playback device
US10555172B2 (en) 2016-09-07 2020-02-04 T-Mobile Usa, Inc. Untrusted device access to services over a cellular network
US9794720B1 (en) 2016-09-22 2017-10-17 Sonos, Inc. Acoustic position measurement
US9942678B1 (en) 2016-09-27 2018-04-10 Sonos, Inc. Audio playback settings for voice interaction
US9743204B1 (en) 2016-09-30 2017-08-22 Sonos, Inc. Multi-orientation playback device microphones
US10103699B2 (en) * 2016-09-30 2018-10-16 Lenovo (Singapore) Pte. Ltd. Automatically adjusting a volume of a speaker of a device based on an amplitude of voice input to the device
US10181323B2 (en) 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
JP7092035B2 (ja) * 2016-11-08 2022-06-28 ソニーグループ株式会社 情報処理装置および情報処理方法
US10593329B2 (en) * 2016-12-30 2020-03-17 Google Llc Multimodal transmission of packetized data
US10708313B2 (en) 2016-12-30 2020-07-07 Google Llc Multimodal transmission of packetized data
DE102017101782A1 (de) * 2017-01-30 2018-08-02 Aktormed Gmbh Operations-Assistenz-System und Verfahren zur Erzeugung von Steuersignalen zur Sprachsteuerung einer motorisch gesteuert bewegbaren Roboterkinematik eines derartigen Operations-Assistenz-Systems
US10327117B2 (en) * 2017-02-08 2019-06-18 CliniCloud Inc. Virtual mesh network for medical voice command devices
US11010601B2 (en) 2017-02-14 2021-05-18 Microsoft Technology Licensing, Llc Intelligent assistant device communicating non-verbal cues
US10467509B2 (en) 2017-02-14 2019-11-05 Microsoft Technology Licensing, Llc Computationally-efficient human-identifying smart assistant computer
US11100384B2 (en) 2017-02-14 2021-08-24 Microsoft Technology Licensing, Llc Intelligent device user interactions
US11183181B2 (en) 2017-03-27 2021-11-23 Sonos, Inc. Systems and methods of multiple voice services
US10459687B2 (en) * 2017-03-28 2019-10-29 Wipro Limited Method and system for controlling an internet of things device using multi-modal gesture commands
US10643609B1 (en) * 2017-03-29 2020-05-05 Amazon Technologies, Inc. Selecting speech inputs
US10355931B2 (en) 2017-04-17 2019-07-16 Essential Products, Inc. Troubleshooting voice-enabled home setup
US10353480B2 (en) 2017-04-17 2019-07-16 Essential Products, Inc. Connecting assistant device to devices
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) * 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
US10564928B2 (en) 2017-06-02 2020-02-18 Rovi Guides, Inc. Systems and methods for generating a volume- based response for multiple voice-operated user devices
US10449440B2 (en) * 2017-06-30 2019-10-22 Electronic Arts Inc. Interactive voice-controlled companion application for a video game
US10599377B2 (en) 2017-07-11 2020-03-24 Roku, Inc. Controlling visual indicators in an audio responsive electronic device, and capturing and providing audio using an API, by native and non-native computing devices and services
US10930276B2 (en) 2017-07-12 2021-02-23 Universal Electronics Inc. Apparatus, system and method for directing voice input in a controlling device
US11489691B2 (en) * 2017-07-12 2022-11-01 Universal Electronics Inc. Apparatus, system and method for directing voice input in a controlling device
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
US10455322B2 (en) 2017-08-18 2019-10-22 Roku, Inc. Remote control with presence sensor
US11062710B2 (en) 2017-08-28 2021-07-13 Roku, Inc. Local and cloud speech recognition
US11062702B2 (en) * 2017-08-28 2021-07-13 Roku, Inc. Media system with multiple digital assistants
US10777197B2 (en) 2017-08-28 2020-09-15 Roku, Inc. Audio responsive device with play/stop and tell me something buttons
US20190065608A1 (en) * 2017-08-29 2019-02-28 Lenovo (Singapore) Pte. Ltd. Query input received at more than one device
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10446165B2 (en) 2017-09-27 2019-10-15 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US10621981B2 (en) 2017-09-28 2020-04-14 Sonos, Inc. Tone interference cancellation
US10051366B1 (en) 2017-09-28 2018-08-14 Sonos, Inc. Three-dimensional beam forming with a microphone array
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
CN107808669B (zh) * 2017-09-30 2021-07-06 深圳市艾特智能科技有限公司 语音控制方法、智能家居系统、存储介质和计算机设备
WO2019099737A2 (en) * 2017-11-15 2019-05-23 Touchcast LLC Audio/visual synching system and method
US10880650B2 (en) 2017-12-10 2020-12-29 Sonos, Inc. Network microphone devices with automatic do not disturb actuation capabilities
US10818290B2 (en) 2017-12-11 2020-10-27 Sonos, Inc. Home graph
CN108156497B (zh) * 2018-01-02 2020-12-18 联想(北京)有限公司 一种控制方法、控制设备及控制系统
US11343614B2 (en) 2018-01-31 2022-05-24 Sonos, Inc. Device designation of playback and network microphone device arrangements
US11145298B2 (en) 2018-02-13 2021-10-12 Roku, Inc. Trigger word detection with multiple digital assistants
KR20190102509A (ko) * 2018-02-26 2019-09-04 삼성전자주식회사 음성 명령을 수행하는 방법 및 시스템
KR102580837B1 (ko) * 2018-03-02 2023-09-21 삼성전자 주식회사 사용자에 대응하는 사용 패턴 정보에 기반하여 외부 전자 장치를 제어 하기 위한 전자 장치 및 방법
JP7130761B2 (ja) 2018-03-07 2022-09-05 グーグル エルエルシー カスタムデバイスアクションの音声ベースの起動のためのシステムおよび方法
US11183182B2 (en) * 2018-03-07 2021-11-23 Google Llc Systems and methods for voice-based initiation of custom device actions
US10623403B1 (en) 2018-03-22 2020-04-14 Pindrop Security, Inc. Leveraging multiple audio channels for authentication
US10665244B1 (en) * 2018-03-22 2020-05-26 Pindrop Security, Inc. Leveraging multiple audio channels for authentication
US10685652B1 (en) * 2018-03-22 2020-06-16 Amazon Technologies, Inc. Determining device groups
US10642519B2 (en) 2018-04-06 2020-05-05 Western Digital Technologies, Inc. Intelligent SAS phy connection management
US10679629B2 (en) * 2018-04-09 2020-06-09 Amazon Technologies, Inc. Device arbitration by multiple speech processing systems
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US10847178B2 (en) 2018-05-18 2020-11-24 Sonos, Inc. Linear filtering for noise-suppressed speech detection
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DE102018208707A1 (de) 2018-06-04 2019-12-05 Audi Ag Verfahren zum Betreiben einer Schallausgabeeinrichtung eines Kraftfahrzeugs, Sprachanalyse- und Steuereinrichtung, Kraftfahrzeug, und kraftfahrzeugexterne Servereinrichtung
KR102582332B1 (ko) * 2018-06-27 2023-09-25 삼성전자주식회사 전자 장치, 이의 모바일 장치 제어 방법 및 컴퓨터 판독가능 기록 매체
US10681460B2 (en) 2018-06-28 2020-06-09 Sonos, Inc. Systems and methods for associating playback devices with voice assistant services
CN112640475B (zh) * 2018-06-28 2023-10-13 搜诺思公司 用于将回放设备与语音助理服务相关联的系统和方法
WO2020005305A1 (en) 2018-06-29 2020-01-02 Google Llc Audio processing in a low-bandwidth networked system
US10877094B2 (en) * 2018-08-22 2020-12-29 Rohde & Schwarz Gmbh & Co. Kg Command recording arrangement and command recording method
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
US10299061B1 (en) 2018-08-28 2019-05-21 Sonos, Inc. Playback device calibration
US10461710B1 (en) 2018-08-28 2019-10-29 Sonos, Inc. Media playback system with maximum volume setting
US10878811B2 (en) 2018-09-14 2020-12-29 Sonos, Inc. Networked devices, systems, and methods for intelligently deactivating wake-word engines
US10587430B1 (en) 2018-09-14 2020-03-10 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US11145301B1 (en) * 2018-09-25 2021-10-12 Amazon Technologies, Inc. Communication with user presence
US10811015B2 (en) 2018-09-25 2020-10-20 Sonos, Inc. Voice detection optimization based on selected voice assistant service
US11152003B2 (en) * 2018-09-27 2021-10-19 International Business Machines Corporation Routing voice commands to virtual assistants
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US10692518B2 (en) 2018-09-29 2020-06-23 Sonos, Inc. Linear filtering for noise-suppressed speech detection via multiple network microphone devices
US11627012B2 (en) 2018-10-09 2023-04-11 NewTekSol, LLC Home automation management system
CN111046150B (zh) 2018-10-15 2023-04-25 阿里巴巴集团控股有限公司 人机交互处理系统及其方法、存储介质、电子设备
KR20200052804A (ko) * 2018-10-23 2020-05-15 삼성전자주식회사 전자 장치 및 전자 장치의 제어 방법
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
WO2020085794A1 (en) * 2018-10-23 2020-04-30 Samsung Electronics Co., Ltd. Electronic device and method for controlling the same
US10885912B2 (en) * 2018-11-13 2021-01-05 Motorola Solutions, Inc. Methods and systems for providing a corrected voice command
US10777186B1 (en) * 2018-11-13 2020-09-15 Amazon Technolgies, Inc. Streaming real-time automatic speech recognition service
US10902851B2 (en) 2018-11-14 2021-01-26 International Business Machines Corporation Relaying voice commands between artificial intelligence (AI) voice response systems
EP3654249A1 (en) 2018-11-15 2020-05-20 Snips Dilated convolutions and gating for efficient keyword spotting
US11037550B2 (en) 2018-11-30 2021-06-15 Dish Network L.L.C. Audio-based link generation
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
US10602268B1 (en) 2018-12-20 2020-03-24 Sonos, Inc. Optimization of network microphone devices using noise classification
CN111402900B (zh) * 2018-12-29 2024-04-23 华为技术有限公司 一种语音交互方法,设备和系统
CN111508483B (zh) * 2019-01-31 2023-04-18 北京小米智能科技有限公司 设备控制方法及装置
US10602276B1 (en) * 2019-02-06 2020-03-24 Harman International Industries, Incorporated Intelligent personal assistant
US11315556B2 (en) 2019-02-08 2022-04-26 Sonos, Inc. Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification
US10867604B2 (en) 2019-02-08 2020-12-15 Sonos, Inc. Devices, systems, and methods for distributed voice processing
KR20200098025A (ko) * 2019-02-11 2020-08-20 삼성전자주식회사 전자 장치 및 그 제어 방법
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
DE112020001542T5 (de) * 2019-03-26 2022-01-13 Sony Group Corporation Informationsverarbeitungsvorrichtung und informationsverarbeitungsverfahren
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
JP7335979B2 (ja) * 2019-05-24 2023-08-30 エルジー エレクトロニクス インコーポレイティド 音声認識を用いて装置を制御する方法、及びこれを具現する装置
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US10586540B1 (en) 2019-06-12 2020-03-10 Sonos, Inc. Network microphone device with command keyword conditioning
US11200894B2 (en) 2019-06-12 2021-12-14 Sonos, Inc. Network microphone device with command keyword eventing
US11361756B2 (en) 2019-06-12 2022-06-14 Sonos, Inc. Conditional wake word eventing based on environment
US11138975B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US10871943B1 (en) 2019-07-31 2020-12-22 Sonos, Inc. Noise classification for event detection
US11138969B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US11438452B1 (en) 2019-08-09 2022-09-06 Apple Inc. Propagating context information in a privacy preserving manner
US10734965B1 (en) 2019-08-12 2020-08-04 Sonos, Inc. Audio calibration of a portable playback device
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11556307B2 (en) 2020-01-31 2023-01-17 Sonos, Inc. Local voice data processing
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
CN113299285A (zh) * 2020-02-22 2021-08-24 北京声智科技有限公司 设备控制方法、装置、电子设备及计算机可读存储介质
US11557288B2 (en) * 2020-04-10 2023-01-17 International Business Machines Corporation Hindrance speech portion detection using time stamps
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
CN111654420A (zh) * 2020-05-18 2020-09-11 珠海格力电器股份有限公司 一种控制家居设备的方法、装置、计算机设备及存储介质
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
US11308962B2 (en) 2020-05-20 2022-04-19 Sonos, Inc. Input detection windowing
US11727919B2 (en) 2020-05-20 2023-08-15 Sonos, Inc. Memory allocation for keyword spotting engines
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
KR20220013837A (ko) * 2020-07-27 2022-02-04 엘지전자 주식회사 전자 기기의 관리 방법 및 장치
US11698771B2 (en) 2020-08-25 2023-07-11 Sonos, Inc. Vocal guidance engines for playback devices
US11984123B2 (en) 2020-11-12 2024-05-14 Sonos, Inc. Network device interaction by range
US20220148575A1 (en) * 2020-11-12 2022-05-12 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof
US11763809B1 (en) * 2020-12-07 2023-09-19 Amazon Technologies, Inc. Access to multiple virtual assistants
US11551700B2 (en) 2021-01-25 2023-01-10 Sonos, Inc. Systems and methods for power-efficient keyword detection
US11790908B2 (en) * 2021-02-09 2023-10-17 International Business Machines Corporation Extended reality based voice command device management
US20220284883A1 (en) * 2021-03-05 2022-09-08 Comcast Cable Communications, Llc Keyword Detection
US11984112B2 (en) * 2021-04-29 2024-05-14 Rovi Guides, Inc. Systems and methods to alter voice interactions

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104145304A (zh) * 2012-03-08 2014-11-12 Lg电子株式会社 用于多个装置语音控制的设备和方法
CN104284257A (zh) * 2013-07-10 2015-01-14 通用汽车环球科技运作有限责任公司 用于口头对话服务仲裁的系统和方法
WO2015009122A1 (en) * 2013-07-19 2015-01-22 Samsung Electronics Co., Ltd. Method and device for communication
WO2015017043A1 (en) * 2013-07-31 2015-02-05 Google Inc. Visual confirmation for a recognized voice-initiated action

Family Cites Families (71)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3658896B2 (ja) * 1996-11-26 2005-06-08 ソニー株式会社 情報信号伝送システム、再生装置及び表示装置
US7684570B2 (en) 1998-11-17 2010-03-23 Aamp Of America Vehicle remote control interface for controlling multiple electronic devices
FI116991B (fi) * 1999-01-18 2006-04-28 Nokia Corp Menetelmä puheen tunnistamisessa, puheentunnistuslaite ja puheella ohjattava langaton viestin
US6253181B1 (en) * 1999-01-22 2001-06-26 Matsushita Electric Industrial Co., Ltd. Speech recognition and teaching apparatus able to rapidly adapt to difficult speech of children and foreign speakers
US8271287B1 (en) * 2000-01-14 2012-09-18 Alcatel Lucent Voice command remote control system
US6879806B2 (en) * 2001-06-01 2005-04-12 Zensys A/S System and a method for building routing tables and for routing signals in an automation system
US7464035B2 (en) 2002-07-24 2008-12-09 Robert Bosch Corporation Voice control of home automation systems via telephone
US7668990B2 (en) * 2003-03-14 2010-02-23 Openpeak Inc. Method of controlling a device to perform an activity-based or an experience-based operation
US7155305B2 (en) * 2003-11-04 2006-12-26 Universal Electronics Inc. System and methods for home appliance identification and control in a networked environment
US9131272B2 (en) * 2003-11-04 2015-09-08 Universal Electronics Inc. System and method for saving and recalling state data for media and home appliances
US8589156B2 (en) * 2004-07-12 2013-11-19 Hewlett-Packard Development Company, L.P. Allocation of speech recognition tasks and combination of results thereof
US20060074658A1 (en) 2004-10-01 2006-04-06 Siemens Information And Communication Mobile, Llc Systems and methods for hands-free voice-activated devices
CA2618623C (en) * 2005-08-09 2015-01-06 Mobilevoicecontrol, Inc. Control center for a voice controlled wireless communication device system
FR2897186B1 (fr) * 2006-02-06 2008-05-09 Somfy Sas Procede de communication par relais entre une telecommande nomade et des equipements domotiques.
DE102006036338A1 (de) * 2006-08-03 2008-02-07 Siemens Ag Verfahren zum Erzeugen einer kontextbasierten Sprachdialogausgabe in einem Sprachdialogsystem
EP1933302A1 (en) * 2006-12-12 2008-06-18 Harman Becker Automotive Systems GmbH Speech recognition method
EP2229576B1 (en) * 2007-12-05 2016-04-13 Visteon Global Technologies, Inc. Vehicle user interface systems and methods
US8078472B2 (en) * 2008-04-25 2011-12-13 Sony Corporation Voice-activated remote control service
US8117036B2 (en) * 2008-12-03 2012-02-14 At&T Intellectual Property I, L.P. Non-disruptive side conversation information retrieval
US10540976B2 (en) * 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US8584221B2 (en) * 2009-10-23 2013-11-12 Microsoft Corporation Authenticating using cloud authentication
JP5589383B2 (ja) * 2009-12-28 2014-09-17 ソニー株式会社 機器制御装置、機器制御方法及びコンピュータプログラム
JP5543835B2 (ja) * 2010-04-23 2014-07-09 パナソニック株式会社 機器制御システム
US9263034B1 (en) * 2010-07-13 2016-02-16 Google Inc. Adapting enhanced acoustic models
US9633656B2 (en) * 2010-07-27 2017-04-25 Sony Corporation Device registration process from second display
WO2012099584A1 (en) * 2011-01-19 2012-07-26 Hewlett-Packard Development Company, L.P. Method and system for multimodal and gestural control
US20130073293A1 (en) * 2011-09-20 2013-03-21 Lg Electronics Inc. Electronic device and method for controlling the same
US8340975B1 (en) * 2011-10-04 2012-12-25 Theodore Alfred Rosenberger Interactive speech recognition device and system for hands-free building control
US8469816B2 (en) * 2011-10-11 2013-06-25 Microsoft Corporation Device linking
JP5928048B2 (ja) * 2012-03-22 2016-06-01 ソニー株式会社 情報処理装置、情報処理方法、情報処理プログラムおよび端末装置
US9117544B2 (en) * 2012-06-30 2015-08-25 Intel Corporation Row hammer refresh command
KR101972955B1 (ko) * 2012-07-03 2019-04-26 삼성전자 주식회사 음성을 이용한 사용자 디바이스들 간 서비스 연결 방법 및 장치
US9098586B1 (en) * 2012-07-05 2015-08-04 EarthNetTV Inc. Private user interest recognition and targeted recommendation system
CN102831894B (zh) * 2012-08-09 2014-07-09 华为终端有限公司 指令处理方法、装置和系统
US9299400B2 (en) * 2012-09-28 2016-03-29 Intel Corporation Distributed row hammer tracking
WO2014064324A1 (en) 2012-10-26 2014-05-01 Nokia Corporation Multi-device speech recognition
US9111546B2 (en) * 2013-03-06 2015-08-18 Nuance Communications, Inc. Speech recognition and interpretation system
US9472205B2 (en) * 2013-05-06 2016-10-18 Honeywell International Inc. Device voice recognition systems and methods
US9058805B2 (en) * 2013-05-13 2015-06-16 Google Inc. Multiple recognizer speech recognition
US9396727B2 (en) 2013-07-10 2016-07-19 GM Global Technology Operations LLC Systems and methods for spoken dialog service arbitration
EP3019963A4 (en) * 2013-07-12 2017-02-08 University of Iowa Research Foundation Augmentative and alternative communication
MY175230A (en) * 2013-08-29 2020-06-16 Panasonic Ip Corp America Device control method, display control method, and purchase payment method
JP6360484B2 (ja) * 2013-09-03 2018-07-18 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 音声対話制御方法
KR102202660B1 (ko) * 2013-09-23 2021-01-13 삼성전자주식회사 스마트 홈 서비스를 위한 기기들을 제어하는 방법 및 장치
US20150100313A1 (en) * 2013-10-09 2015-04-09 Verizon Patent And Licensing, Inc. Personification of computing devices for remote access
US9698999B2 (en) * 2013-12-02 2017-07-04 Amazon Technologies, Inc. Natural language control of secondary device
US9928839B1 (en) * 2013-12-04 2018-03-27 United Services Automobile Association (Usaa) Systems and methods for authentication using voice biometrics and device verification
US9900177B2 (en) * 2013-12-11 2018-02-20 Echostar Technologies International Corporation Maintaining up-to-date home automation models
US9466296B2 (en) * 2013-12-16 2016-10-11 Intel Corporation Initiation of action upon recognition of a partial voice command
US9301124B2 (en) * 2014-02-12 2016-03-29 Nokia Technologies Oy Audio command-based triggering
RU2580431C2 (ru) * 2014-03-27 2016-04-10 Общество С Ограниченной Ответственностью "Яндекс" Способ и сервер для обработки поискового запроса и машиночитаемый носитель
GB201406070D0 (en) * 2014-04-04 2014-05-21 Eads Uk Ltd Method of capturing and structuring information from a meeting
CN104978965B (zh) * 2014-04-07 2019-04-26 三星电子株式会社 电子装置及利用电子装置和服务器的语音识别执行方法
US9966065B2 (en) * 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US10170123B2 (en) * 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
JP6482911B2 (ja) * 2014-07-01 2019-03-13 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 機器制御方法および電気機器
US9569174B2 (en) * 2014-07-08 2017-02-14 Honeywell International Inc. Methods and systems for managing speech recognition in a multi-speech system environment
US9412379B2 (en) * 2014-09-16 2016-08-09 Toyota Motor Engineering & Manufacturing North America, Inc. Method for initiating a wireless communication link using voice recognition
US9293134B1 (en) * 2014-09-30 2016-03-22 Amazon Technologies, Inc. Source-specific speech interactions
US9318107B1 (en) * 2014-10-09 2016-04-19 Google Inc. Hotword detection on multiple devices
JP5907231B1 (ja) * 2014-10-15 2016-04-26 富士通株式会社 入力情報支援装置、入力情報支援方法および入力情報支援プログラム
US10601604B2 (en) * 2014-11-12 2020-03-24 Google Llc Data processing systems and methods for smart hub devices
US9812126B2 (en) * 2014-11-28 2017-11-07 Microsoft Technology Licensing, Llc Device arbitration for listening devices
US11327711B2 (en) * 2014-12-05 2022-05-10 Microsoft Technology Licensing, Llc External visual interactions for speech-based devices
US9811312B2 (en) * 2014-12-22 2017-11-07 Intel Corporation Connected device voice command support
KR102389313B1 (ko) * 2015-01-16 2022-04-21 삼성전자주식회사 문법 모델을 이용하여 음성인식을 수행하는 방법 및 디바이스
US9984686B1 (en) * 2015-03-17 2018-05-29 Amazon Technologies, Inc. Mapping device capabilities to a predefined set
KR20160142528A (ko) * 2015-06-03 2016-12-13 엘지전자 주식회사 단말 장치, 네트워크 시스템 및 그 제어 방법
US10026399B2 (en) * 2015-09-11 2018-07-17 Amazon Technologies, Inc. Arbitration between voice-enabled devices
US9653075B1 (en) 2015-11-06 2017-05-16 Google Inc. Voice commands across devices
US10181323B2 (en) * 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104145304A (zh) * 2012-03-08 2014-11-12 Lg电子株式会社 用于多个装置语音控制的设备和方法
CN104284257A (zh) * 2013-07-10 2015-01-14 通用汽车环球科技运作有限责任公司 用于口头对话服务仲裁的系统和方法
WO2015009122A1 (en) * 2013-07-19 2015-01-22 Samsung Electronics Co., Ltd. Method and device for communication
WO2015017043A1 (en) * 2013-07-31 2015-02-05 Google Inc. Visual confirmation for a recognized voice-initiated action

Also Published As

Publication number Publication date
US9653075B1 (en) 2017-05-16
CN108604448A (zh) 2018-09-28
US20200302930A1 (en) 2020-09-24
EP3371809A1 (en) 2018-09-12
US20230352025A1 (en) 2023-11-02
US20170133011A1 (en) 2017-05-11
EP3913898A1 (en) 2021-11-24
CN110675868B (zh) 2023-12-08
US11749266B2 (en) 2023-09-05
US20170249940A1 (en) 2017-08-31
EP3371809B1 (en) 2021-09-01
US10714083B2 (en) 2020-07-14
WO2017078926A1 (en) 2017-05-11
CN110675868A (zh) 2020-01-10

Similar Documents

Publication Publication Date Title
CN108604448B (zh) 跨装置的话音命令
US10891106B2 (en) Automatic batch voice commands
RU2615632C2 (ru) Способ и устройство распознавания коммуникационных сообщений
CN107924679A (zh) 输入理解处理期间在响应选择中的延迟绑定
WO2019095993A1 (zh) 安全验证方法及相关装置
EP3321629B1 (en) Method for determining floor, related apparatus and system
CN109359056B (zh) 一种应用程序测试方法及装置
WO2019000710A1 (zh) 页面加载方法、装置和电子设备
US11748311B1 (en) Automatic collaboration
KR20210046856A (ko) 터치 감응형 디바이스 상의 관련 콘텐츠를 사전행동적으로 식별 및 표면화하기 위한 시스템 및 방법
JP2018525751A (ja) 音声及びビデオ通話のためのインタラクティブ制御方法及び装置
KR20170074855A (ko) 메시지 기반 문맥적 유도를 사용한 결제의 송신 및 수신의 용이화
US10600421B2 (en) Mobile terminal and control method thereof
JP6301936B2 (ja) 位置に基づくソーシャルネットワーキングシステムおよび方法
US20220004820A1 (en) Method and system for assisting a developer in improving an accuracy of a classifier
TW201535236A (zh) 用於識別被影響的資料之增強型指示器
US10685131B1 (en) User authentication
US20240071045A1 (en) Systems and methods for authenticating via photo modification identification
CA3005631C (en) Secondary computing device assistant
WO2015135380A1 (en) Device, system, and method for creating virtual credit card
CN105959139A (zh) 信息显示方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant